CN108537339A - 一种对局策略获取方法及装置 - Google Patents

一种对局策略获取方法及装置 Download PDF

Info

Publication number
CN108537339A
CN108537339A CN201810318638.8A CN201810318638A CN108537339A CN 108537339 A CN108537339 A CN 108537339A CN 201810318638 A CN201810318638 A CN 201810318638A CN 108537339 A CN108537339 A CN 108537339A
Authority
CN
China
Prior art keywords
player
strategy
score value
iteration
tactful
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810318638.8A
Other languages
English (en)
Inventor
何炼坚
蒋成进
郑翔平
杨家伟
袁双
陈�峰
杨谨
郭丽姝
夏校朋
谢悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 2 Research Institute
Southwest China Research Institute Electronic Equipment
Original Assignee
CETC 2 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 2 Research Institute filed Critical CETC 2 Research Institute
Priority to CN201810318638.8A priority Critical patent/CN108537339A/zh
Publication of CN108537339A publication Critical patent/CN108537339A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

本发明提供了一种对局策略获取方法及装置,基于蒙特卡洛树搜索的矩阵对策策略,考虑随机采样双方可行策略的办法:从双方的可行策略集合随机采样,构成新的元素数量减少了的可行策略集合,在新集合基础上进行计算,不同策略之间的不同分值反映了决策者对这些策略优劣的不同估计,采样博弈的结果作为可行策略优劣的估计,以此反过来更新决策选择概率,赋予看起来“有希望”的策略更多的选择机会。能够应用于对局双方策略布局,帮助对局者对对战策略做出决策,如棋局对弈的机器人等。

Description

一种对局策略获取方法及装置
技术领域
本发明涉及一种对局策略获取方法及装置,涉及计算机对局策略获取领域。
背景技术
当前矩阵对策中的策略确定使用以下方法计算纳什均衡策略:
(1)图解法
该方法采用平面二维画图的方法求解,适合于收益矩阵为2×n(n>=2)或m×2(m>=2)阶的对策问题,对其它矩阵对策问题不适用。
(2)方程组法
该方法事先假定对策双方的最优策略的所有分量均不为零,在此基础上将矩阵对策问题转化为等价的线性方程组问题进行求解。该方法有两方面的缺点:一是上述假定有可能不成立,二是对于大规模的矩阵对策问题,求解方程组的开销太大。
(3)线性规划法
该方法将矩阵对策问题转化为等价的线性规划问题,利用单纯形或对偶单纯形法求解,属于具有一般性的求解矩阵对策的方法,可以求解任意矩阵对策。该方法的缺点在于,对于大规模的矩阵对策问题,求解线性规划的开销太大。
对于大规模的矩阵对策问题,要求解纳什均衡策略,图解法完全不可用,而方程组法和线性规划法都有开销太大的问题,应考虑使用其它方法求解近似最优策略。
发明内容
本发明提供了一种对局策略获取方法,具有能够完善对局策略获取模型,应用于硬件设置,适用于大规模矩阵对策求近似解,快速收敛到近似最优策略的求解方法。这种对局为双方对局,如棋局对弈、我方与敌方或竞争双方对局等的对局策略获取。
本发明采用的技术方案如下:
一种对局策略获取方法,包括
初始化(1):设置局中人1和局中人2作为对局双方;从局中人1的可行策略集中随机选择一个策略S1g,其中每个策略的选择概率为P1g=1/m;从局中人2的可行策略集中随机选择一个策略S2f,其中每个策略的选择概率为P2f=1/n;从收益矩阵R中查找局中人1的策略S1g与局中人2的策略S2f相遇时,局中人2的收益Rgf,相应的局中人1的收益为-Rgf;为局中人1和局中人2的每一可行策略赋予初始分值:V1i=-Rgf,V2j=Rgf;记录局中人1和局中人2的可行策略分值均值V1(exp)=-Rgf为局中人1和局中人2的每一策略设置选择次数初值:
计算策略分值总和(2):分别计算局中人1和局中人2的所有可行策略的基于Boltzmann分布的:其中, 这里e为自然常数,τ>0;
随机选择策略(3):从局中人1的可行策略集中随机选择一个策略S1i*,其中每个策略的选择概率为从局中人2的策略集中随机选择一个可行策略S2j*,其中每个策略的选择概率为
计算收益及更新分值(4):从收益矩阵R中查找局中人1的策略S1i*与局中人2的策略S2j*相遇时,局中人2的收益Ri*j*,相应的局中人1的收益为-Ri*j*;对策略S1i*和策略S2j*,如下更新策略分值及选择次数:
其中,分别为策略S1i*和S2j*此前的分值(上一轮计算的V1i*和V2j*),Gi*和Hj*分别为策略S1i*和S2j*此前被选中的次数;
计算基于Boltzmann分布的分值:这里e为自然常数,τ>0;
更新策略分值均值:
对所有从未被选中过的策略更新分值:
其中,i满足Gi=0,j满足Hj=0
更新策略S1i*和S2j*策略的选择次数:
Gi*=Gi*+1,Hj*=Hj*+1
判断终止条件,确定最优策略(5):根据策略分值迭代更新的终止条件,判断是否满足所述终止条件,如果否,则返回随机选择策略(3)继续执行;如果是,则终止策略分值的计算更新,并得出局中人1和局中人2的最优策略:
局中人1的最优策略:S1k,其中k满足V1k=max(V1i (B))
局中人2的最优策略:S2l,其中l满足V2l=max(V2j (B))
其中,i=1,…,m;j=1,…,n;m和n均为大于1的自然数。
所述迭代更新的终止条件为迭代次数上限设置条件,或迭代时间上限设置条件,或既包括迭代次数上限设置条件又包括迭代时间上限设置条件;对于迭代次数上限设置条件,设置迭代次数上限Cmax,为迭代次数赋予初值c=0,对于每一次迭代更新,递增迭代次数c=c+1;对于迭代时间上限设置条件,设置迭代时间上限Tmax,记录初始时刻t0,对于每一次迭代更新,更新迭代时间t=tcur-t0;如果既包括迭代次数上限设置条件又包括迭代时间上限设置条件,则只要满足其中一个,就终止迭代。
一种对局策略获取装置,应用了上述对局策略获取方法,其特征在于:包括,
对局双方设置模块,包括,设置局中人1的策略集R1和局中人2的策略集R2,并设置策略集中每一个可行策略的初始分值;
策略分值总和计算模块,分别计算局中人1和局中人2的策略集中可行策略的分值总和;
分值更新模块,根据分值计算更新迭代条件进行分值迭代更新,并根据分值迭代更新终止条件终止迭代更新;
最优策略输出模块,终止迭代更新后,输出局中人1和/或局中人2的最优策略;
分值计算更新迭代条件设置模块,设置分值计算更新迭代条件;
分值迭代更新终止条件设置模块,设置分值迭代更新终止条件。
与现有技术相比,本发明对于大规模矩阵对策问题,能够快速求得近似最优解,可以满足不同场景中计算资源的限制。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本说明书(包括摘要)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
本发明提出一种基于蒙特卡洛树搜索(以下简称MCTS)的矩阵对策策略确定方法。该方法依赖于以下准则:一是矩阵对策双方都会根据期望收益最大(或期望损失最小)原则进行分析,即根据每个决策方案的期望收益(或期望损失)来对方案进行比较,从中选择期望收益最大(或期望损失最小)的方案;二是决策方案选择的概率分布是关于其期望收益的单调上升函数(或关于其期望损失的单调下降函数);三是通过随机采样计算近似的期望收益,替代精确的期望收益。
局中人1的任一策略和局中人2的任一策略一起形成的策略组称为一个局势,该局势下两个局中人的收益由收益函数确定。所有局势下局中人2的收益构成一个m×n矩阵R,局中人1的收益构成另一个m×n矩阵-R。不失一般性约定矩阵R满足0≤Rij≤1。矩阵R和-R分别称为局中人2和局中人1的收益矩阵。
从风险型决策和不确定型决策的角度看,某一局中人的最优策略应为其所有可行策略中,期望收益最大的策略。为了找到该最优策略,理论上需要遍历该局中人的所有可行策略,计算其期望收益,以比较这些策略的期望收益的大小。而为了计算某一策略的期望收益,又需要遍历对方的所有可行策略,一一计算该策略与这些对手策略博弈的期望收益;此外还需要计算(估计)对方的所有可行策略的选择概率。
对于大规模矩阵对策问题,由于存储和计算资源的限制,往往不能按照上述理论方法进行计算,甚至可能要把收益矩阵的每一元素值全部计算出来都是不现实的。这种情况下可以考虑随机采样双方可行策略的办法:从双方的可行策略集合随机采样,构成新的元素数量减少了的可行策略集合,在新集合基础上进行上述计算。
本发明技术方案采样时同时考虑了各可行策略的优劣。不同策略之间的不同分值反映了决策者对这些策略优劣的不同估计(分值高的策略优于分值低的策略)。能够应用于对局双方策略布局,帮助对局者对对战策略做出决策,如棋局对弈的机器人等。
上述MCTS方法使用采样博弈的结果作为可行策略优劣的估计,以此反过来更新决策选择概率,赋予看起来“有希望”的策略更多的选择机会。
一种对局策略获取方法,包括
初始化(1):设置局中人1和局中人2作为对局双方;从局中人1的可行策略集中随机选择一个策略S1g,其中每个策略的选择概率为P1g=1/m;从局中人2的可行策略集中随机选择一个策略S2f,其中每个策略的选择概率为P2f=1/n;从收益矩阵R中查找局中人1的策略S1g与局中人2的策略S2f相遇时,局中人2的收益Rgf,相应的局中人1的收益为-Rgf;为局中人1和局中人2的每一可行策略赋予初始分值:V1i=-Rgf,V2j=Rgf;记录局中人1和局中人2的可行策略分值均值V1 (exp)=-Rgf为局中人1和局中人2的每一策略设置选择次数初值:
计算策略分值总和(2):分别计算局中人1和局中人2的所有可行策略的基于Boltzmann分布的:其中, 这里e为自然常数,τ>0;
随机选择策略(3):从局中人1的可行策略集中随机选择一个策略S1i*,其中每个策略的选择概率为从局中人2的策略集中随机选择一个可行策略S2j*,其中每个策略的选择概率为
计算收益及更新分值(4):从收益矩阵R中查找局中人1的策略S1i*与局中人2的策略S2j*相遇时,局中人2的收益Ri*j*,相应的局中人1的收益为-Ri*j*;对策略S1i*和策略S2j*,如下更新策略分值及选择次数:
其中,分别为策略S1i*和S2j*此前的分值(上一轮计算的V1i*和V2j*),Gi*和Hj*分别为策略S1i*和S2j*此前被选中的次数;
计算基于Boltzmann分布的分值:这里e为自然常数,τ>0;
更新策略分值均值:
对所有从未被选中过的策略更新分值:
其中,i满足Gi=0,j满足Hj=0
更新策略S1i*和S2j*策略的选择次数:
Gi*=Gi*+1,Hj*=Hj*+1
判断终止条件,确定最优策略(5):根据策略分值迭代更新的终止条件,判断是否满足所述终止条件,如果否,则返回随机选择策略(3)继续执行;如果是,则终止策略分值的计算更新,并得出局中人1和局中人2的最优策略:
局中人1的最优策略:S1k,其中k满足V1k=max(V1i (B))
局中人2的最优策略:S2l,其中l满足V2l=max(V2j (B))
其中,i=1,…,m;j=1,…,n;m和n均为大于1的自然数。
Boltzmann分布中参数τ>0,τ越小则分值高的策略相对分值低的策略被选取的概率越高,τ趋于0时趋于仅选取当前分值最高的策略,τ趋于无穷大时趋于按照相同概率(对局中人1和2分别为1/m和1/n)选取各策略。
所述迭代更新的终止条件为迭代次数上限设置条件,或迭代时间上限设置条件,或既包括迭代次数上限设置条件又包括迭代时间上限设置条件;对于迭代次数上限设置条件,设置迭代次数上限Cmax,为迭代次数赋予初值c=0,对于每一次迭代更新,递增迭代次数c=c+1;对于迭代时间上限设置条件,设置迭代时间上限Tmax,记录初始时刻t0,对于每一次迭代更新,更新迭代时间t=tcur-t0;如果既包括迭代次数上限设置条件又包括迭代时间上限设置条件,则只要满足其中一个,就终止迭代。
本发明提出的基于蒙特卡洛树搜索的矩阵对策策略优化选择方法,对于大规模矩阵对策问题,能够快速求得近似最优解。在达到预设的计算时间/迭代次数时跳出迭代循环,取得当时的近似最优解,可以满足不同场景中计算资源的限制。
下面给出一具体实施例进行具体说明:
给定定局中人2的收益矩阵如下:
那么有m=2,n=3
初始化(1):
初始化策略分值:从局中人1的可行策略集中随机选择一个策略S1g,其中每个策略的选择概率为:P1g=1/m=1/2;从局中人2的可行策略集中随机选择一个策略S2f,其中每个策略的选择概率为:P2f=1/n=1/3;
假定g=2及f=1,则S1g和S2f分别对应收益矩阵的第一行和第二列,从收益矩阵R查找局中人1的策略S1g与局中人2的策略S2f相遇时,局中人1和局中人2所得收益分别为:
-Rgf=0.2
Rgf=-0.2
为局中人1和局中人2的每一可行策略赋予初始分值:
V1i=-Rgf=-0.2(i=1,2)
V2j=Rgf=0.2(j=1,2,3)
即:
V11=-0.2
V12=-0.2
V21=0.2
V22=0.2
V23=0.2
记录局中人1和局中人2的可行策略分值均值:
V1 (exp)=-Rgf=-0.2(i=1,2)
初始化终止迭代相关参数:
为局中人1和局中人2的每一策略设置选择次数初值:
即:
G1=0
G2=1
H1=1
H2=0
H3=0
设置迭代次数上限Cmax=10000,迭代时间上限Tmax=10,000(单位秒,设置这么大的值是为了只让Cmax起作用),参数τ=0.1;
为迭代次数赋予初值c=0,记录初始时刻t0
计算策略分值总和(2):
分别针对局中人1和局中人2计算:
其中,
随机选择策略(3):
从局中人1的可行策略集中随机选择一个策略S1i*,其中各策略的选择概率为:
从局中人2的可行策略集中随机选择一个策略S2j*,其中各策略的选择概率为:
假定随机选择的结果为
i*=1
j*=2
计算收益及更新分值(4):
从收益矩阵R中查找从局中人1的策略S1i*与局中人2的策略S2j*相遇时,局中人1和局中人2所得收益分别为:
-Ri*j*=-R11=-0.4
Ri*j*=R11=0.4
对策略S1i*=S11和策略S2j*=S22,如下更新策略分值及选择次数:
即:
计算基于Boltzmann分布的分值:这里e为自然常数,τ>0;
即:
更新策略分值均值:
对所有从未被选中过的策略更新分值:
V1i=V1 (exp)(i满足Gi=0),(j满足Hj=0);
即:
V23=0.2
更新策略S1i*和S2j*策略的选择次数:
Gi*=Gi*+1,Hj*=Hj*+1
即:
G1=G1+1=1
G2=1
H1=1
H2=H2+1=1
H3=0
判断终止条件,确定最优策略(5):递增迭代次数c=c+1,更新迭代时间t=tcur-t0,其中为当前时刻,判断以下两个终止条件:
c=Cmax,t≥Tmax
如果至少满足其中一个,那么将局中人1和局中人2的最优策略分别设置如下,并终止迭代,否则返回随机选择策略(3)继续执行;如果是,则终止策略分值的计算更新,并得出局中人1和局中人2的最优策略:
局中人1的最优策略:S1k,其中k满足V1k=max(V1i (B))
局中人2的最优策略:S2l,其中l满足V2l=max(V2j (B))
迭代Cmax=10000次得到局中人1和2的最优策略分别为2和1,相应的,相应的局中人1和局中人2所得收益分别为:
-R21=-0.2
R21=0.2
按照上述方法计算10000轮,局中人1的平均期望损失(同时也是局中人2的平均期望收益)为0.2440。
上述实施实例旨在说明基于蒙特卡洛树搜索的矩阵对策方法的实施方法。实际应用中,该方法更适合用于规模足够大,收益矩阵计算耗时多,以至于方程组法和线性规划法不适用的矩阵对策问题。
一种对局策略获取装置,应用了上述对局策略获取方法,其特征在于:包括,
对局双方设置模块,包括,设置局中人1的策略集R1和局中人2的策略集R1,并设置策略集中每一个可行策略的初始分值;
策略分值总和计算模块,分别计算局中人1和局中人2的策略集中可行策略的分值总和;
分值更新模块,根据分值计算更新迭代条件进行分值迭代更新,并根据分值迭代更新终止条件终止迭代更新;
最优策略输出模块,终止迭代更新后,输出局中人1和/或局中人2的最优策略;
分值计算更新迭代条件设置模块,设置分值计算更新迭代条件;
分值迭代更新终止条件设置模块,设置分值迭代更新终止条件。
本发明的对局策略获取方法及装置能够应用于棋局对弈、我方与敌方或竞争双方对局等的计算机对局策略获取,更适合用于规模足够大,收益矩阵计算耗时多,以至于方程组法和线性规划法不适用的矩阵对策问题。

Claims (3)

1.一种对局策略获取方法,包括
初始化(1):设置局中人1和局中人2作为对局双方;从局中人1的可行策略集中随机选择一个策略S1g,其中每个策略的选择概率为P1g=1/m;从局中人2的可行策略集中随机选择一个策略S2f,其中每个策略的选择概率为P2f=1/n;从收益矩阵R中查找局中人1的策略S1g与局中人2的策略S2f相遇时,局中人2的收益Rgf,相应的局中人1的收益为-Rgf;为局中人1和局中人2的每一可行策略赋予初始分值:V1i=-Rgf,V2j=Rgf;记录局中人1和局中人2的可行策略分值均值V1 (exp)=-Rgf为局中人1和局中人2的每一策略设置选择次数初值:
计算策略分值总和(2):分别计算局中人1和局中人2的所有可行策略的基于Boltzmann分布的:其中, 这里e为自然常数,τ>0;
随机选择策略(3):从局中人1的可行策略集中随机选择一个策略S1i*,其中每个策略的选择概率为从局中人2的策略集中随机选择一个可行策略S2j*,其中每个策略的选择概率为
计算收益及更新分值(4):从收益矩阵R中查找局中人1的策略S1i*与局中人2的策略S2j*相遇时,局中人2的收益Ri*j*,相应的局中人1的收益为-Ri*j*;对策略S1i*和策略S2j*,如下更新策略分值及选择次数:
其中,分别为策略S1i*和S2j*此前的分值,Gi*和Hj*分别为策略S1i*和S2j*此前被选中的次数;
计算基于Boltzmann分布的分值:这里e为自然常数,τ>0;
更新策略分值均值:
对所有从未被选中过的策略更新分值:
其中,i满足Gi=0,j满足Hj=0
更新策略S1i*和S2j*策略的选择次数:
Gi*=Gi*+1,Hj*=Hj*+1
判断终止条件,确定最优策略(5):根据策略分值迭代更新的终止条件,判断是否满足所述终止条件,如果否,则返回随机选择策略(3)继续执行;如果是,则终止策略分值的计算更新,并得出局中人1和局中人2的最优策略:
局中人1的最优策略:S1k,其中k满足V1k=max(V1i (B))
局中人2的最优策略:S2l,其中l满足V2l=max(V2j (B))
其中,i=1,…,m;j=1,…,n;m和n均为大于1的自然数。
2.根据权利要求1所述的对局策略获取方法,所述迭代更新的终止条件为迭代次数上限设置条件,或迭代时间上限设置条件,或既包括迭代次数上限设置条件又包括迭代时间上限设置条件;对于迭代次数上限设置条件,设置迭代次数上限Cmax,为迭代次数赋予初值c=0,对于每一次迭代更新,递增迭代次数c=c+1;对于迭代时间上限设置条件,设置迭代时间上限Tmax,记录初始时刻t0,对于每一次迭代更新,更新迭代时间t=tcur-t0;如果既包括迭代次数上限设置条件又包括迭代时间上限设置条件,则只要满足其中一个,就终止迭代。
3.一种对局策略获取装置,应用了权利要求1到2之一所述的对局策略获取方法,其特征在于:包括,
对局双方设置模块,包括,设置局中人1的策略集R1和局中人2的策略集R1,并设置策略集中每一个可行策略的初始分值;
策略分值总和计算模块,分别计算局中人1和局中人2的策略集中可行策略的分值总和;
分值更新模块,根据分值计算更新迭代条件进行分值迭代更新,并根据分值迭代更新终止条件终止迭代更新;
最优策略输出模块,终止迭代更新后,输出局中人1和/或局中人2的最优策略;
分值计算更新迭代条件设置模块,设置分值计算更新迭代条件;
分值迭代更新终止条件设置模块,设置分值迭代更新终止条件。
CN201810318638.8A 2018-04-11 2018-04-11 一种对局策略获取方法及装置 Pending CN108537339A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810318638.8A CN108537339A (zh) 2018-04-11 2018-04-11 一种对局策略获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810318638.8A CN108537339A (zh) 2018-04-11 2018-04-11 一种对局策略获取方法及装置

Publications (1)

Publication Number Publication Date
CN108537339A true CN108537339A (zh) 2018-09-14

Family

ID=63480742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810318638.8A Pending CN108537339A (zh) 2018-04-11 2018-04-11 一种对局策略获取方法及装置

Country Status (1)

Country Link
CN (1) CN108537339A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020227954A1 (en) * 2019-05-15 2020-11-19 Advanced New Technologies Co., Ltd. Determining action selection policies of an execution device
CN112639841A (zh) * 2019-01-17 2021-04-09 创新先进技术有限公司 用于在多方策略互动中进行策略搜索的采样方案
CN113946604A (zh) * 2021-10-26 2022-01-18 网易有道信息技术(江苏)有限公司 分阶段围棋教学方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112639841A (zh) * 2019-01-17 2021-04-09 创新先进技术有限公司 用于在多方策略互动中进行策略搜索的采样方案
CN112639841B (zh) * 2019-01-17 2024-02-06 创新先进技术有限公司 用于在多方策略互动中进行策略搜索的采样方案
WO2020227954A1 (en) * 2019-05-15 2020-11-19 Advanced New Technologies Co., Ltd. Determining action selection policies of an execution device
CN113946604A (zh) * 2021-10-26 2022-01-18 网易有道信息技术(江苏)有限公司 分阶段围棋教学方法、装置、电子设备及存储介质
CN113946604B (zh) * 2021-10-26 2023-01-20 网易有道信息技术(江苏)有限公司 分阶段围棋教学方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP5550720B2 (ja) マルチユーザコンピュータシミュレーションにおいてユーザをマッチングさせる方法と装置
KR101699139B1 (ko) 게임 제어 장치, 게임 제어 장치의 제어 방법, 프로그램, 및 정보 기억 매체
CN108537339A (zh) 一种对局策略获取方法及装置
Tsoumakas et al. Effective voting of heterogeneous classifiers
CN106339582B (zh) 一种基于机器博弈技术的棋牌类游戏自动化残局生成方法
Powley et al. Bandits all the way down: UCB1 as a simulation policy in Monte Carlo Tree Search
Cazenave Monte carlo beam search
JP6748170B2 (ja) ビデオゲーム処理プログラム、ビデオゲーム処理装置及びビデオゲーム処理方法
Ahmed et al. Cricket team selection using evolutionary multi-objective optimization
US20050010313A1 (en) Sorting apparatus, sorting method, program product, and computer readable medium
Park et al. Mcts with influence map for general video game playing
US11679299B2 (en) Personalizing prediction of performance using data and body-pose for analysis of sporting performance
CN110215710B (zh) 游戏中事件确定方法及装置、电子设备和存储介质
CN111589120A (zh) 目标物控制方法、计算机设备及计算机可读存储介质
Rodrigues et al. Cricket squad analysis using multiple random forest regression
Scott et al. How does AI play football? An analysis of RL and real-world football strategies
KR101962269B1 (ko) 게임 평가 장치 및 방법
Patel et al. Vecma: An advance chess engine
Leser et al. Finding efficient strategies in 3-versus-2 small-sided games of youth soccer players
Deng et al. A study of prisoner's dilemma game model with incomplete information
Sarkar et al. Level difficulty and player skill prediction in human computation games
Scheepers et al. Analysis of stagnation behaviour of competitive coevolutionary trained neuro-controllers
Nakagawa et al. Predicting the opponent's action using the k-nearest neighbor algorithm and a substring tree structure
Hees et al. Tssort: Probabilistic noise resistant sorting
Priekule et al. A Bayesian ranking and selection problem with pairwise comparisons

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180914