CN108537339A

CN108537339A - 一种对局策略获取方法及装置

Info

Publication number: CN108537339A
Application number: CN201810318638.8A
Authority: CN
Inventors: 何炼坚; 蒋成进; 郑翔平; 杨家伟; 袁双; 陈�峰; 杨谨; 郭丽姝; 夏校朋; 谢悦
Original assignee: CETC 2 Research Institute
Current assignee: CETC 2 Research Institute; Southwest China Research Institute Electronic Equipment
Priority date: 2018-04-11
Filing date: 2018-04-11
Publication date: 2018-09-14

Abstract

本发明提供了一种对局策略获取方法及装置，基于蒙特卡洛树搜索的矩阵对策策略，考虑随机采样双方可行策略的办法：从双方的可行策略集合随机采样，构成新的元素数量减少了的可行策略集合，在新集合基础上进行计算，不同策略之间的不同分值反映了决策者对这些策略优劣的不同估计，采样博弈的结果作为可行策略优劣的估计，以此反过来更新决策选择概率，赋予看起来“有希望”的策略更多的选择机会。能够应用于对局双方策略布局，帮助对局者对对战策略做出决策，如棋局对弈的机器人等。

Description

一种对局策略获取方法及装置

技术领域

本发明涉及一种对局策略获取方法及装置，涉及计算机对局策略获取领域。

背景技术

当前矩阵对策中的策略确定使用以下方法计算纳什均衡策略：

(1)图解法

该方法采用平面二维画图的方法求解，适合于收益矩阵为2×n(n>＝2)或m×2(m>＝2)阶的对策问题，对其它矩阵对策问题不适用。

(2)方程组法

该方法事先假定对策双方的最优策略的所有分量均不为零，在此基础上将矩阵对策问题转化为等价的线性方程组问题进行求解。该方法有两方面的缺点：一是上述假定有可能不成立，二是对于大规模的矩阵对策问题，求解方程组的开销太大。

(3)线性规划法

该方法将矩阵对策问题转化为等价的线性规划问题，利用单纯形或对偶单纯形法求解，属于具有一般性的求解矩阵对策的方法，可以求解任意矩阵对策。该方法的缺点在于，对于大规模的矩阵对策问题，求解线性规划的开销太大。

对于大规模的矩阵对策问题，要求解纳什均衡策略，图解法完全不可用，而方程组法和线性规划法都有开销太大的问题，应考虑使用其它方法求解近似最优策略。

发明内容

本发明提供了一种对局策略获取方法，具有能够完善对局策略获取模型，应用于硬件设置，适用于大规模矩阵对策求近似解，快速收敛到近似最优策略的求解方法。这种对局为双方对局，如棋局对弈、我方与敌方或竞争双方对局等的对局策略获取。

本发明采用的技术方案如下：

一种对局策略获取方法，包括

初始化(1)：设置局中人1和局中人2作为对局双方；从局中人1的可行策略集中随机选择一个策略S_1g，其中每个策略的选择概率为P_1g＝1/m；从局中人2的可行策略集中随机选择一个策略S_2f，其中每个策略的选择概率为P_2f＝1/n；从收益矩阵R中查找局中人1的策略S_1g与局中人2的策略S_2f相遇时，局中人2的收益R_gf，相应的局中人1的收益为-R_gf；为局中人1和局中人2的每一可行策略赋予初始分值：V_1i＝-R_gf，V_2j＝R_gf；记录局中人1和局中人2的可行策略分值均值V₁(^exp)＝-R_gf和为局中人1和局中人2的每一策略设置选择次数初值：

计算策略分值总和(2)：分别计算局中人1和局中人2的所有可行策略的基于Boltzmann分布的：其中，这里e为自然常数，τ＞0；

随机选择策略(3)：从局中人1的可行策略集中随机选择一个策略S_1i*，其中每个策略的选择概率为从局中人2的策略集中随机选择一个可行策略S_2j*，其中每个策略的选择概率为

计算收益及更新分值(4)：从收益矩阵R中查找局中人1的策略S_1i*与局中人2的策略S_2j*相遇时，局中人2的收益R_i*j*，相应的局中人1的收益为-R_i*j*；对策略S_1i*和策略S_2j*，如下更新策略分值及选择次数：

其中，和分别为策略S_1i*和S_2j*此前的分值(上一轮计算的V_1i*和V_2j*)，G_i*和H_j*分别为策略S_1i*和S_2j*此前被选中的次数；

计算基于Boltzmann分布的分值：这里e为自然常数，τ＞0；

更新策略分值均值：

对所有从未被选中过的策略更新分值：

其中，i满足G_i＝0，j满足H_j＝0

更新策略S_1i*和S_2j*策略的选择次数：

G_i*＝G_i*+1,H_j*＝H_j*+1

判断终止条件，确定最优策略(5)：根据策略分值迭代更新的终止条件，判断是否满足所述终止条件，如果否，则返回随机选择策略(3)继续执行；如果是，则终止策略分值的计算更新，并得出局中人1和局中人2的最优策略：

局中人1的最优策略：S_1k，其中k满足V_1k＝max(V_1i ^(B))

局中人2的最优策略：S_2l，其中l满足V_2l＝max(V_2j ^(B))

其中，i＝1，…，m；j＝1，…，n；m和n均为大于1的自然数。

所述迭代更新的终止条件为迭代次数上限设置条件，或迭代时间上限设置条件，或既包括迭代次数上限设置条件又包括迭代时间上限设置条件；对于迭代次数上限设置条件，设置迭代次数上限C_max，为迭代次数赋予初值c＝0，对于每一次迭代更新，递增迭代次数c＝c+1；对于迭代时间上限设置条件，设置迭代时间上限T_max，记录初始时刻t₀，对于每一次迭代更新，更新迭代时间t＝t_cur-t₀；如果既包括迭代次数上限设置条件又包括迭代时间上限设置条件，则只要满足其中一个，就终止迭代。

一种对局策略获取装置，应用了上述对局策略获取方法，其特征在于：包括，

对局双方设置模块，包括，设置局中人1的策略集R₁和局中人2的策略集R₂，并设置策略集中每一个可行策略的初始分值；

策略分值总和计算模块，分别计算局中人1和局中人2的策略集中可行策略的分值总和；

分值更新模块，根据分值计算更新迭代条件进行分值迭代更新，并根据分值迭代更新终止条件终止迭代更新；

最优策略输出模块，终止迭代更新后，输出局中人1和/或局中人2的最优策略；

分值计算更新迭代条件设置模块，设置分值计算更新迭代条件；

分值迭代更新终止条件设置模块，设置分值迭代更新终止条件。

与现有技术相比，本发明对于大规模矩阵对策问题，能够快速求得近似最优解，可以满足不同场景中计算资源的限制。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书(包括摘要)中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明提出一种基于蒙特卡洛树搜索(以下简称MCTS)的矩阵对策策略确定方法。该方法依赖于以下准则：一是矩阵对策双方都会根据期望收益最大(或期望损失最小)原则进行分析，即根据每个决策方案的期望收益(或期望损失)来对方案进行比较，从中选择期望收益最大(或期望损失最小)的方案；二是决策方案选择的概率分布是关于其期望收益的单调上升函数(或关于其期望损失的单调下降函数)；三是通过随机采样计算近似的期望收益，替代精确的期望收益。

局中人1的任一策略和局中人2的任一策略一起形成的策略组称为一个局势，该局势下两个局中人的收益由收益函数确定。所有局势下局中人2的收益构成一个m×n矩阵R，局中人1的收益构成另一个m×n矩阵-R。不失一般性约定矩阵R满足0≤R_ij≤1。矩阵R和-R分别称为局中人2和局中人1的收益矩阵。

从风险型决策和不确定型决策的角度看，某一局中人的最优策略应为其所有可行策略中，期望收益最大的策略。为了找到该最优策略，理论上需要遍历该局中人的所有可行策略，计算其期望收益，以比较这些策略的期望收益的大小。而为了计算某一策略的期望收益，又需要遍历对方的所有可行策略，一一计算该策略与这些对手策略博弈的期望收益；此外还需要计算(估计)对方的所有可行策略的选择概率。

对于大规模矩阵对策问题，由于存储和计算资源的限制，往往不能按照上述理论方法进行计算，甚至可能要把收益矩阵的每一元素值全部计算出来都是不现实的。这种情况下可以考虑随机采样双方可行策略的办法：从双方的可行策略集合随机采样，构成新的元素数量减少了的可行策略集合，在新集合基础上进行上述计算。

本发明技术方案采样时同时考虑了各可行策略的优劣。不同策略之间的不同分值反映了决策者对这些策略优劣的不同估计(分值高的策略优于分值低的策略)。能够应用于对局双方策略布局，帮助对局者对对战策略做出决策，如棋局对弈的机器人等。

上述MCTS方法使用采样博弈的结果作为可行策略优劣的估计，以此反过来更新决策选择概率，赋予看起来“有希望”的策略更多的选择机会。

一种对局策略获取方法，包括

初始化(1)：设置局中人1和局中人2作为对局双方；从局中人1的可行策略集中随机选择一个策略S_1g，其中每个策略的选择概率为P_1g＝1/m；从局中人2的可行策略集中随机选择一个策略S_2f，其中每个策略的选择概率为P_2f＝1/n；从收益矩阵R中查找局中人1的策略S_1g与局中人2的策略S_2f相遇时，局中人2的收益R_gf，相应的局中人1的收益为-R_gf；为局中人1和局中人2的每一可行策略赋予初始分值：V_1i＝-R_gf，V_2j＝R_gf；记录局中人1和局中人2的可行策略分值均值V₁ ^(exp)＝-R_gf和为局中人1和局中人2的每一策略设置选择次数初值：

计算基于Boltzmann分布的分值：这里e为自然常数，τ＞0；

更新策略分值均值：

对所有从未被选中过的策略更新分值：

其中，i满足G_i＝0，j满足H_j＝0

更新策略S_1i*和S_2j*策略的选择次数：

G_i*＝G_i*+1,H_j*＝H_j*+1

局中人1的最优策略：S_1k，其中k满足V_1k＝max(V_1i ^(B))

局中人2的最优策略：S_2l，其中l满足V_2l＝max(V_2j ^(B))

其中，i＝1，…，m；j＝1，…，n；m和n均为大于1的自然数。

Boltzmann分布中参数τ＞0，τ越小则分值高的策略相对分值低的策略被选取的概率越高，τ趋于0时趋于仅选取当前分值最高的策略，τ趋于无穷大时趋于按照相同概率(对局中人1和2分别为1/m和1/n)选取各策略。

本发明提出的基于蒙特卡洛树搜索的矩阵对策策略优化选择方法，对于大规模矩阵对策问题，能够快速求得近似最优解。在达到预设的计算时间/迭代次数时跳出迭代循环，取得当时的近似最优解，可以满足不同场景中计算资源的限制。

下面给出一具体实施例进行具体说明：

给定定局中人2的收益矩阵如下：

那么有m＝2，n＝3

初始化(1)：

初始化策略分值：从局中人1的可行策略集中随机选择一个策略S_1g，其中每个策略的选择概率为：P_1g＝1/m＝1/2；从局中人2的可行策略集中随机选择一个策略S_2f，其中每个策略的选择概率为：P_2f＝1/n＝1/3；

假定g＝2及f＝1，则S_1g和S_2f分别对应收益矩阵的第一行和第二列，从收益矩阵R查找局中人1的策略S_1g与局中人2的策略S_2f相遇时，局中人1和局中人2所得收益分别为：

-R_gf＝0.2

R_gf＝-0.2

为局中人1和局中人2的每一可行策略赋予初始分值：

V_1i＝-R_gf＝-0.2(i＝1,2)

V2j＝R_gf＝0.2(j＝1,2,3)

即：

V₁₁＝-0.2

V₁₂＝-0.2

V₂₁＝0.2

V₂₂＝0.2

V₂₃＝0.2

记录局中人1和局中人2的可行策略分值均值：

V₁ ^(exp)＝-R_gf＝-0.2(i＝1,2)

初始化终止迭代相关参数：

为局中人1和局中人2的每一策略设置选择次数初值：

即：

G₁＝0

G₂＝1

H₁＝1

H₂＝0

H₃＝0

设置迭代次数上限C_max＝10000，迭代时间上限T_max＝10,000(单位秒，设置这么大的值是为了只让C_max起作用)，参数τ＝0.1；

为迭代次数赋予初值c＝0，记录初始时刻t₀；

计算策略分值总和(2)：

分别针对局中人1和局中人2计算：

其中，

随机选择策略(3)：

从局中人1的可行策略集中随机选择一个策略S_1i*，其中各策略的选择概率为：

从局中人2的可行策略集中随机选择一个策略S_2j*，其中各策略的选择概率为：

假定随机选择的结果为

i*＝1

j*＝2

计算收益及更新分值(4)：

从收益矩阵R中查找从局中人1的策略S_1i*与局中人2的策略S_2j*相遇时，局中人1和局中人2所得收益分别为：

-R_i*j*＝-R₁₁＝-0.4

R_i*j*＝R₁₁＝0.4

对策略S_1i*＝S₁₁和策略S_2j*＝S₂₂，如下更新策略分值及选择次数：

即：

计算基于Boltzmann分布的分值：这里e为自然常数，τ＞0；

即：

更新策略分值均值：

对所有从未被选中过的策略更新分值：

V_1i＝V₁ ^(exp)(i满足G_i＝0),(j满足H_j＝0)；

即：

V₂₃＝0.2

更新策略S_1i*和S_2j*策略的选择次数：

G_i*＝G_i*+1,H_j*＝H_j*+1

即：

G₁＝G₁+1＝1

G₂＝1

H₁＝1

H₂＝H₂+1＝1

H₃＝0

判断终止条件，确定最优策略(5)：递增迭代次数c＝c+1，更新迭代时间t＝t_cur-t₀，其中为当前时刻，判断以下两个终止条件：

c＝C_max，t≥T_max

如果至少满足其中一个，那么将局中人1和局中人2的最优策略分别设置如下，并终止迭代，否则返回随机选择策略(3)继续执行；如果是，则终止策略分值的计算更新，并得出局中人1和局中人2的最优策略：

局中人1的最优策略：S_1k，其中k满足V_1k＝max(V_1i ^(B))

局中人2的最优策略：S_2l，其中l满足V_2l＝max(V_2j ^(B))

迭代C_max＝10000次得到局中人1和2的最优策略分别为2和1，相应的，相应的局中人1和局中人2所得收益分别为：

-R₂₁＝-0.2

R₂₁＝0.2

按照上述方法计算10000轮，局中人1的平均期望损失(同时也是局中人2的平均期望收益)为0.2440。

上述实施实例旨在说明基于蒙特卡洛树搜索的矩阵对策方法的实施方法。实际应用中，该方法更适合用于规模足够大，收益矩阵计算耗时多，以至于方程组法和线性规划法不适用的矩阵对策问题。

对局双方设置模块，包括，设置局中人1的策略集R₁和局中人2的策略集R₁，并设置策略集中每一个可行策略的初始分值；

本发明的对局策略获取方法及装置能够应用于棋局对弈、我方与敌方或竞争双方对局等的计算机对局策略获取，更适合用于规模足够大，收益矩阵计算耗时多，以至于方程组法和线性规划法不适用的矩阵对策问题。

Claims

1.一种对局策略获取方法，包括

其中，和分别为策略S_1i*和S_2j*此前的分值，G_i*和H_j*分别为策略S_1i*和S_2j*此前被选中的次数；

计算基于Boltzmann分布的分值：这里e为自然常数，τ＞0；

更新策略分值均值：

对所有从未被选中过的策略更新分值：

其中，i满足G_i＝0，j满足H_j＝0

更新策略S_1i*和S_2j*策略的选择次数：

G_i*＝G_i*+1,H_j*＝H_j*+1

局中人1的最优策略：S_1k，其中k满足V_1k＝max(V_1i ^(B))

局中人2的最优策略：S_2l，其中l满足V_2l＝max(V_2j ^(B))

其中，i＝1，…，m；j＝1，…，n；m和n均为大于1的自然数。

2.根据权利要求1所述的对局策略获取方法，所述迭代更新的终止条件为迭代次数上限设置条件，或迭代时间上限设置条件，或既包括迭代次数上限设置条件又包括迭代时间上限设置条件；对于迭代次数上限设置条件，设置迭代次数上限C_max，为迭代次数赋予初值c＝0，对于每一次迭代更新，递增迭代次数c＝c+1；对于迭代时间上限设置条件，设置迭代时间上限T_max，记录初始时刻t₀，对于每一次迭代更新，更新迭代时间t＝t_cur-t₀；如果既包括迭代次数上限设置条件又包括迭代时间上限设置条件，则只要满足其中一个，就终止迭代。

3.一种对局策略获取装置，应用了权利要求1到2之一所述的对局策略获取方法，其特征在于：包括，