CN105488318A

CN105488318A - 大规模数独问题的势博弈分布式机器学习求解方法

Info

Publication number: CN105488318A
Application number: CN201410480045.3A
Authority: CN
Inventors: 蔚承建; 商文喜; 于倩
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-09-19
Filing date: 2014-09-19
Publication date: 2016-04-13

Abstract

本发明公布了一个博弈论优化方法分布式的求解数独问题，并给出数独问题一个物理的博弈实现。它包含以下步骤：(1)为其建立效用函数并证明数独问题可以转化为势博弈模型(2)使用学习动力逐步优化参与者的状态以达到势博弈的最优状态即纳什均衡点。

Description

大规模数独问题的势博弈分布式机器学习求解方法

技术领域

本发明采用一个大规模数独问题的势博弈分布式机器学习求解方法，并给出数独问题一个物理的博弈实现，属于多代理智能协作领域。

背景技术

数独问题

数独曾被描述为二十一世纪的魔方。数独是一种流行的，看似容易上瘾的趣题，曾经流行于世界的许多地方。数独游戏的目标很简单：将的方块分为nn个不同的宫格，目的是为了填充每一个方块以使以下三个条件得到满足：

(1)每一行的方块填充的数字从1到n²只能出现一次

(2)每一列的方块填充的数字从1到n²只能出现一次

(3)每个宫格内方块填充的数字从1到n²只能出现一次

数独问题是NP问题，本发明研究解决2525的版本的大规模数独，要求每行、每列宫格内填入A到Y且不重复的字母。

势博弈理论

博弈论是用来分析社会现象相互依赖决策过程的一个数学分支，它的基本组成包括参与者，参与者的策略及参与者的效用，一般描述为存在一个参与者集合。每个参与者被分配一个收益函数U_i:A→R和一个策略集合A_i，其中。令a_i∈A_i表示参与者P_i的一个策略，令a_-i表示其他的参与者策略集合。整个联合策略等价于(a_i,a_-i)。Nash均衡点是博弈论的一个基本概念，它描述了博弈过程的稳定状态即每个参与者选择的策略都已是对其它参与者所选策略的最优反应，数学表示为

U_{i} (a_{i}^{*}, a_{- i}^{*}) = \max_{a_{i} &Element; A_{i}} U_{i} (a_{i}, a_{- i}^{*})

下面是势博弈定义的描述：

势博弈的概念由Monderer和Shapley首次提出，定义如下：

势博弈存在一个势函数使得：

φ(a_i,a_-i)-φ(a_i',a_-i)＝U_i(a_i,a_-i)-U_i(a_i',a_-i)

从定义中可以看出，当参与者P_i的策略改变时，势函数的变化和参与者效用的变化是相等的。势博弈不仅反映了整体与局部的关联，而且在每个有限的势博弈中，必定存在至少一个纯策略Nash均衡。势博弈现有大部分研究结果限于计算机仿真，没有实现真实的物理博弈，为此给出数独问题一个物理的博弈实现。

发明内容

本发明所要解决的技术问题是针对现有势博弈理论存在的缺陷提供一种数独问题的一个分布式的基于机器学习物理博弈求解方法。

本发明为实现上述目的，采用如下技术方案：

上述大规模数独问题势博弈模型化后一共有625个参与者，参与者以软件代理形式在手机中实现，将625个参与者平均分给5个android手机进行处理，每个手机具有125个参与者，手机之间的通信通过wifi。在博弈过程中要经过多次的迭代，参与者策略的不断的学习更新，手机之间互相传递相关的信息，最终解决该数独问题。

效用函数设计

常见的效用函数设计有Shapley值，反映边际效用贡献的WLU（WonderfulLifeUtility）以及势函数定义三种方式。这里效用函数的设计根据势函数定义和证明完成。将数独游戏的每一个小方块作为拥有策略集合自私的参与者P_i。根据数独游戏规则小方块中数字在一定范围（行，列和宫格）内既不重复又能全部出现即得到如下的效用函数

U_{i} (a) = \underset{P_{j} &Element; N_{i}^{R}}{Σ} I {a_{i} = a_{j}} + \underset{P_{j} &Element; N_{i}^{C}}{Σ} I {a_{i} = a_{j}} + \underset{P_{j} &Element; N_{i}^{B}}{Σ} I {a_{i} = a_{j}}

上式中分别表示参与者P_i在行，列，宫格的邻居集合,表示

I {a_{i} = a_{j}} = \{\begin{matrix} 0 & a_{i} = a_{j} \\ 1 & a_{i} &NotEqual; a_{j} \end{matrix}

对于任何参与者集合，令则有

建立如下的势函数

φ (a) = \frac{1}{2} \underset{P_{i} &Element; P}{Σ} U_{i} (a)

令

其中

φ^{R} (a) = \frac{1}{2} \underset{P_{i} &Element; P}{Σ} n_{i} (a, N_{i}^{R}), φ^{C} (a) = \frac{1}{2} \underset{P_{i} &Element; P}{Σ} n_{i} (a, N_{i}^{C}), φ^{B} (a) = \frac{1}{2} \underset{P_{i} &Element; P}{Σ} n_{i} (a, N_{i}^{B})

令参与者的两个策略a',a”∈A_i满足a'≠a”以及a'_-i＝a”_-i则有如下推导

\begin{matrix} φ^{R} (a^{'}) - φ^{R} (a^{''}) = \frac{1}{2} (\underset{P_{i} &Element; P}{Σ} n_{i} (a^{'}, N_{i}^{R}) - n_{i} (a^{''}, N_{i}^{R})) \\ = \frac{1}{2} (n_{i} (a^{'}, N_{i}^{R}) - n_{i} (a^{''}, N_{i}^{R}) + \underset{P_{j} &Element; N_{i}^{R}}{Σ} n_{j} (a^{'}, N_{i}^{R}) - n_{j} (a^{''}, N_{i}^{R})) \\ = \frac{1}{2} (n_{i} (a^{'}, N_{i}^{R}) - n_{i} (a^{''}, N_{i}^{R}) + \underset{P_{j} &Element; N_{i}^{R}}{Σ} n_{j} (a^{'}, P_{i}) - n_{j} (a^{''}, P_{i})) \\ = \frac{1}{2} (n_{i} (a^{'}, N_{i}^{R}) - n_{i} (a^{''}, N_{i}^{R}) + \underset{P_{j} &Element; N_{i}^{R}}{Σ} n_{i} (a^{'}, P_{j}) - n_{i} (a^{''}, P_{j})) \\ = \frac{1}{2} (n_{i} (a^{'}, N_{i}^{R}) - n_{i} (a^{''}, N_{i}^{R}) + n_{i} (a^{'}, N_{i}^{R}) - n_{i} (a^{''}, N_{i}^{R})) \\ = n_{i} (a^{'}, N_{i}^{R}) - n_{i} (a^{''}, N_{i}^{R}) \end{matrix}

对和做同样的分析，可以得到如下：

φ(a')-φ(a”)＝U_i(a')-U_i(a”)

由势博弈的定义可知，上面建立的效用函数使得数独问题转变为了势博弈模型。

学习动力设计

SAP对数线性学习算法在势博弈条件下可以保证参与者策略收敛到纳什均衡点，我们选择该学习算法作为学习动力。该算法的思想是以模拟退火为基础的，令Δ(A_i)表示在策略集合A_i上的概率分布集合。令p_i(t)∈Δ(A_i)表示参与者P_i∈P在时刻t策略概率分布。在该算法中，在时刻t>0时，参与者P_i（每个参与者以相同的概率）被随机的选择并且允许更新自己的策略，其他的参与者这时刻必须重复他们的上次t-1时刻策略即满足a_-i(t)＝a_-i(t-1)。

参与者P_i在时刻t根据他的策略概率分布p_i(t)∈Δ(A_i)随机的从他的策略集合A_i中选择一个策略，而第a_i个策略概率分布由下面公式得到。

p_{i}^{a_{i}} (t) = \frac{\exp {β U_{i} (a_{i}, a_{- i} (t - 1))}}{Σ_{{\overset{&OverBar;}{a}}_{i} &Element; A_{i}} \exp {β U_{i} ({\overset{&OverBar;}{a}}_{i}, a_{- i} (t - 1))}}

该式中常量，并且决定了参与者P_i是否愿意更新他的策略。如果，参与者将等概率的从策略集合A_i中选择任意的策略a_i∈A_i。如果，参与者P_i将会以很高的概率从他的如下式的最优反应集合中选择一个策略

{a_{i} &Element; A_{i} : U_{i} (a_{i}, a_{- i} (t - 1)) = \max_{\overset{&UpArrow;}{a_{i}} &Element; A_{i}} U_{i} (a_{i}^{'}, a_{- i} (t - 1))}

具体实施方式

(1)将5个手机编号为0，1，2，3，4。每个手机初始化都具有125个参与者，参与者可分为可变策略参与者和不可变策略参与者，不可变策略参与者在博弈的过程中策略是不会发生变化的。0号手机负责1到125参与者策略更新。1号手机负责126到250参与者策略更新。2号手机负责251到375参与者策略更新。3号手机负责376到500参与者策略更新。4号手机负责501到625参与者策略更新。初始化不可变策略参与者的策略。

(2)每个手机都初始化建立参与者之间的邻居关系。

(3)每个手机都随机初始化负责的每个可变策略参与者的策略a_i∈A_i(A_i＝{A,B,C,...,Y})，并将策略传给其他手机。

(4)初始化0号手机，从集合随机选一个字母记为i，并通知负责第i个参与者的手机执行SAP算法更新该参与者策略，将该参与者的策略发送给负责邻居参与者的手机并通知负责下一个参与者的手机执行同样算法更新策略，重复这一策略更新过程直至625个参与者之间的策略冲突数为0，至此一个真实的物理博弈过程展现出来。

附图说明

图1是25×25大规模数独问题图。

Claims

1.数独问题的一个分布式物理博弈求解，其特征在于包括如下步骤：

步骤(1)：为其建立效用函数并证明数独问题可以转化为势博弈模型；

步骤(2)：使用学习动力逐步优化参与者的状态以达到势博弈的最优状态即纳什均衡点。