CN105488318A - 大规模数独问题的势博弈分布式机器学习求解方法 - Google Patents

大规模数独问题的势博弈分布式机器学习求解方法 Download PDF

Info

Publication number
CN105488318A
CN105488318A CN201410480045.3A CN201410480045A CN105488318A CN 105488318 A CN105488318 A CN 105488318A CN 201410480045 A CN201410480045 A CN 201410480045A CN 105488318 A CN105488318 A CN 105488318A
Authority
CN
China
Prior art keywords
participant
prime
game
strategy
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410480045.3A
Other languages
English (en)
Inventor
蔚承建
商文喜
于倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410480045.3A priority Critical patent/CN105488318A/zh
Publication of CN105488318A publication Critical patent/CN105488318A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公布了一个博弈论优化方法分布式的求解数独问题,并给出数独问题一个物理的博弈实现。它包含以下步骤:(1)为其建立效用函数并证明数独问题可以转化为势博弈模型(2)使用学习动力逐步优化参与者的状态以达到势博弈的最优状态即纳什均衡点。

Description

大规模数独问题的势博弈分布式机器学习求解方法
技术领域
本发明采用一个大规模数独问题的势博弈分布式机器学习求解方法,并给出数独问题一个物理的博弈实现,属于多代理智能协作领域。
背景技术
数独问题
数独曾被描述为二十一世纪的魔方。数独是一种流行的,看似容易上瘾的趣题,曾经流行于世界的许多地方。数独游戏的目标很简单:将的方块分为nn个不同的宫格,目的是为了填充每一个方块以使以下三个条件得到满足:
(1)每一行的方块填充的数字从1到n2只能出现一次
(2)每一列的方块填充的数字从1到n2只能出现一次
(3)每个宫格内方块填充的数字从1到n2只能出现一次
数独问题是NP问题,本发明研究解决2525的版本的大规模数独,要求每行、每列宫格内填入A到Y且不重复的字母。
势博弈理论
博弈论是用来分析社会现象相互依赖决策过程的一个数学分支,它的基本组成包括参与者,参与者的策略及参与者的效用,一般描述为存在一个参与者集合。每个参与者被分配一个收益函数Ui:A→R和一个策略集合Ai,其中。令ai∈Ai表示参与者Pi的一个策略,令a-i表示其他的参与者策略集合。整个联合策略等价于(ai,a-i)。Nash均衡点是博弈论的一个基本概念,它描述了博弈过程的稳定状态即每个参与者选择的策略都已是对其它参与者所选策略的最优反应,数学表示为
U i ( a i * , a - i * ) = max a i ∈ A i U i ( a i , a - i * )
下面是势博弈定义的描述:
势博弈的概念由Monderer和Shapley首次提出,定义如下:
势博弈存在一个势函数使得:
φ(ai,a-i)-φ(ai',a-i)=Ui(ai,a-i)-Ui(ai',a-i)
从定义中可以看出,当参与者Pi的策略改变时,势函数的变化和参与者效用的变化是相等的。势博弈不仅反映了整体与局部的关联,而且在每个有限的势博弈中,必定存在至少一个纯策略Nash均衡。势博弈现有大部分研究结果限于计算机仿真,没有实现真实的物理博弈,为此给出数独问题一个物理的博弈实现。
发明内容
本发明所要解决的技术问题是针对现有势博弈理论存在的缺陷提供一种数独问题的一个分布式的基于机器学习物理博弈求解方法。
本发明为实现上述目的,采用如下技术方案:
上述大规模数独问题势博弈模型化后一共有625个参与者,参与者以软件代理形式在手机中实现,将625个参与者平均分给5个android手机进行处理,每个手机具有125个参与者,手机之间的通信通过wifi。在博弈过程中要经过多次的迭代,参与者策略的不断的学习更新,手机之间互相传递相关的信息,最终解决该数独问题。
效用函数设计
常见的效用函数设计有Shapley值,反映边际效用贡献的WLU(WonderfulLifeUtility)以及势函数定义三种方式。这里效用函数的设计根据势函数定义和证明完成。将数独游戏的每一个小方块作为拥有策略集合自私的参与者Pi。根据数独游戏规则小方块中数字在一定范围(行,列和宫格)内既不重复又能全部出现即得到如下的效用函数
U i ( a ) = Σ P j ∈ N i R I { a i = a j } + Σ P j ∈ N i C I { a i = a j } + Σ P j ∈ N i B I { a i = a j }
上式中分别表示参与者Pi在行,列,宫格的邻居集合,表示 I { a i = a j } = 0 a i = a j 1 a i ≠ a j
对于任何参与者集合,令则有
建立如下的势函数
φ ( a ) = 1 2 Σ P i ∈ P U i ( a )
其中 φ R ( a ) = 1 2 Σ P i ∈ P n i ( a , N i R ) , φ C ( a ) = 1 2 Σ P i ∈ P n i ( a , N i C ) , φ B ( a ) = 1 2 Σ P i ∈ P n i ( a , N i B )
令参与者的两个策略a',a”∈Ai满足a'≠a”以及a'-i=a”-i则有如下推导
φ R ( a ′ ) - φ R ( a ′ ′ ) = 1 2 ( Σ P i ∈ P n i ( a ′ , N i R ) - n i ( a ′ ′ , N i R ) ) = 1 2 ( n i ( a ′ , N i R ) - n i ( a ′ ′ , N i R ) + Σ P j ∈ N i R n j ( a ′ , N i R ) - n j ( a ′ ′ , N i R ) ) = 1 2 ( n i ( a ′ , N i R ) - n i ( a ′ ′ , N i R ) + Σ P j ∈ N i R n j ( a ′ , P i ) - n j ( a ′ ′ , P i ) ) = 1 2 ( n i ( a ′ , N i R ) - n i ( a ′ ′ , N i R ) + Σ P j ∈ N i R n i ( a ′ , P j ) - n i ( a ′ ′ , P j ) ) = 1 2 ( n i ( a ′ , N i R ) - n i ( a ′ ′ , N i R ) + n i ( a ′ , N i R ) - n i ( a ′ ′ , N i R ) ) = n i ( a ′ , N i R ) - n i ( a ′ ′ , N i R )
做同样的分析,可以得到如下:
φ(a')-φ(a”)=Ui(a')-Ui(a”)
由势博弈的定义可知,上面建立的效用函数使得数独问题转变为了势博弈模型。
学习动力设计
SAP对数线性学习算法在势博弈条件下可以保证参与者策略收敛到纳什均衡点,我们选择该学习算法作为学习动力。该算法的思想是以模拟退火为基础的,令Δ(Ai)表示在策略集合Ai上的概率分布集合。令pi(t)∈Δ(Ai)表示参与者Pi∈P在时刻t策略概率分布。在该算法中,在时刻t>0时,参与者Pi(每个参与者以相同的概率)被随机的选择并且允许更新自己的策略,其他的参与者这时刻必须重复他们的上次t-1时刻策略即满足a-i(t)=a-i(t-1)。
参与者Pi在时刻t根据他的策略概率分布pi(t)∈Δ(Ai)随机的从他的策略集合Ai中选择一个策略,而第ai个策略概率分布由下面公式得到。
p i a i ( t ) = exp { β U i ( a i , a - i ( t - 1 ) ) } Σ a ‾ i ∈ A i exp { β U i ( a ‾ i , a - i ( t - 1 ) ) }
该式中常量,并且决定了参与者Pi是否愿意更新他的策略。如果,参与者将等概率的从策略集合Ai中选择任意的策略ai∈Ai。如果,参与者Pi将会以很高的概率从他的如下式的最优反应集合中选择一个策略
{ a i ∈ A i : U i ( a i , a - i ( t - 1 ) ) = max a i ↑ ∈ A i U i ( a i ′ , a - i ( t - 1 ) ) }
具体实施方式
(1)将5个手机编号为0,1,2,3,4。每个手机初始化都具有125个参与者,参与者可分为可变策略参与者和不可变策略参与者,不可变策略参与者在博弈的过程中策略是不会发生变化的。0号手机负责1到125参与者策略更新。1号手机负责126到250参与者策略更新。2号手机负责251到375参与者策略更新。3号手机负责376到500参与者策略更新。4号手机负责501到625参与者策略更新。初始化不可变策略参与者的策略。
(2)每个手机都初始化建立参与者之间的邻居关系。
(3)每个手机都随机初始化负责的每个可变策略参与者的策略ai∈Ai(Ai={A,B,C,...,Y}),并将策略传给其他手机。
(4)初始化0号手机,从集合随机选一个字母记为i,并通知负责第i个参与者的手机执行SAP算法更新该参与者策略,将该参与者的策略发送给负责邻居参与者的手机并通知负责下一个参与者的手机执行同样算法更新策略,重复这一策略更新过程直至625个参与者之间的策略冲突数为0,至此一个真实的物理博弈过程展现出来。
附图说明
图1是25×25大规模数独问题图。

Claims (1)

1.数独问题的一个分布式物理博弈求解,其特征在于包括如下步骤:
步骤(1):为其建立效用函数并证明数独问题可以转化为势博弈模型;
步骤(2):使用学习动力逐步优化参与者的状态以达到势博弈的最优状态即纳什均衡点。
CN201410480045.3A 2014-09-19 2014-09-19 大规模数独问题的势博弈分布式机器学习求解方法 Pending CN105488318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410480045.3A CN105488318A (zh) 2014-09-19 2014-09-19 大规模数独问题的势博弈分布式机器学习求解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410480045.3A CN105488318A (zh) 2014-09-19 2014-09-19 大规模数独问题的势博弈分布式机器学习求解方法

Publications (1)

Publication Number Publication Date
CN105488318A true CN105488318A (zh) 2016-04-13

Family

ID=55675293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410480045.3A Pending CN105488318A (zh) 2014-09-19 2014-09-19 大规模数独问题的势博弈分布式机器学习求解方法

Country Status (1)

Country Link
CN (1) CN105488318A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108873936A (zh) * 2018-07-09 2018-11-23 北京电子工程总体研究所 一种基于势博弈的飞行器自主编队方法
WO2021244745A1 (en) 2020-06-04 2021-12-09 Huawei Technologies Co., Ltd. A bilevel method and system for designing multi-agent systems and simulators
WO2021244746A1 (en) 2020-06-04 2021-12-09 Huawei Technologies Co., Ltd. A non-zero-sum game system framework with tractable nash equilibrium solution

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108873936A (zh) * 2018-07-09 2018-11-23 北京电子工程总体研究所 一种基于势博弈的飞行器自主编队方法
CN108873936B (zh) * 2018-07-09 2021-06-04 北京电子工程总体研究所 一种基于势博弈的飞行器自主编队方法
WO2021244745A1 (en) 2020-06-04 2021-12-09 Huawei Technologies Co., Ltd. A bilevel method and system for designing multi-agent systems and simulators
WO2021244746A1 (en) 2020-06-04 2021-12-09 Huawei Technologies Co., Ltd. A non-zero-sum game system framework with tractable nash equilibrium solution

Similar Documents

Publication Publication Date Title
Mason et al. Collaborative learning in networks
Delen et al. A comparative analysis of data mining methods in predicting NCAA bowl outcomes
Jalili Social power and opinion formation in complex networks
Liu et al. Popularity enhances the interdependent network reciprocity
CN106651016B (zh) 一种热点话题下动态预测用户行为的系统及方法
CN106780512A (zh) 分割图像的方法、应用及计算设备
Maletić et al. Consensus formation on a simplicial complex of opinions
CN107657034A (zh) 一种社交信息增强的事件社交网络推荐算法
CN104820945A (zh) 基于社团结构挖掘算法的在线社会网络信息传播最大化方法
CN105488318A (zh) 大规模数独问题的势博弈分布式机器学习求解方法
Pawela et al. Cooperative quantum Parrondo’s games
CN105302963A (zh) 一种机器博弈优化方法
Hisakado et al. Information cascade, Kirman’s ant colony model, and kinetic Ising model
Song et al. The impact of the sent-down movement on Chinese women’s age at first marriage
Trajanovski et al. From epidemics to information propagation: Striking differences in structurally similar adaptive network models
Zhang et al. Research on the information dissemination mechanisms of weibo in scale-free networks
CN104657901A (zh) 一种基于随机游走的标签传播社区发现方法
Yang et al. Square++: Making a connection game win-lose complementary and playing-fair
Zhou et al. Stag hunt and trust emergence in social networks
Askari et al. The effect of hubs and shortcuts on fixation time in evolutionary graphs
Boudreau A note on the efficiency and fairness of decentralized matching
Zhao et al. Prediction of competitive diffusion on complex networks
Shang et al. Evolutionary minority game on complex networks
Mańka-Krasoń et al. Clustering in random line graphs
Morton The presentation lab: Learn the formula behind powerful presentations

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160413