CN103559363B - 一种不完美信息扩展式博弈中计算最佳反应策略的方法 - Google Patents
一种不完美信息扩展式博弈中计算最佳反应策略的方法 Download PDFInfo
- Publication number
- CN103559363B CN103559363B CN201310568689.3A CN201310568689A CN103559363B CN 103559363 B CN103559363 B CN 103559363B CN 201310568689 A CN201310568689 A CN 201310568689A CN 103559363 B CN103559363 B CN 103559363B
- Authority
- CN
- China
- Prior art keywords
- information set
- value
- game
- virtual
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种不完美信息扩展式博弈中计算最佳反应策略的方法,包括如下步骤:(1)初始化策略、所有信息集的虚拟价值和虚拟遗憾值;(2)根据当前策略,与对手进行一次博弈,并记录博弈结果;(3)对于在本次博弈中每一个被访问的信息集,根据博弈结果计算出该信息集的虚拟价值;(4)根据步骤(3)所得到的各个信息集的虚拟价值,计算出每个信息集上每一个动作的虚拟遗憾值;(5)在每一个被访问的信息集上执行遗憾值匹配过程,更新该信息集上的策略;(6)返回步骤(2),直至不再有博弈进行。本发明避免了对手策略动态变化所带来的误差,同时也提高了计算效率。
Description
技术领域
本发明涉及一种不完美信息扩展式博弈中计算最佳反应策略的方法。
背景技术
博弈论被广泛应用于经济、政治、安全、游戏等领域中,具有重大的研究和应用价值。一类重要的博弈类型是不完美信息扩展式博弈(imperfectinformationextensive-formgame),它在日常生活中也很常见,例如:扑克、麻将等。博弈论研究的核心问题是计算出有效的博弈策略,使局中人(player)在博弈中获得理想的博弈收益(utility)。这其中包含:(1)纳什均衡(Nashequilibrium)策略的计算;(2)最佳反应(bestresponse)策略的计算。
纳什均衡是博弈论中的最基本的概念之一,在博弈中使用纳什均衡策略能够保证局中人不被对方利用(exploit)。但它是基于对手绝对理性的假设,而绝大多数对手都是非理性或有限理性的。针对特定对手,采用最佳反应策略往往能使局中人获得更高的收益。
目前,在计算最佳反应策略这一问题的研究工作中,绝大多数方法都采用了对手建模(opponentmodeling),即:首先通过统计观察,得出对手的策略模型,然后在该策略模型的基础上通过优化方法得到最佳反应策略。然而,这些方法没有考虑到对手的策略是有可能动态变化的。在对手的策略不断变化的情形下,对手建模的方法无法建立准确的对手策略模型,因此无法在博弈中获得较高的博弈收益。另外,对手建模方法所耗费的计算量也比较大,在大规模博弈(即:状态空间很大)中无法有效应用。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是提供一种不完美信息扩展式博弈中计算最佳反应策略的方法,针对不完美信息扩展式博弈中,对手策略动态变化的情形,提出从遗憾最小化(regretminimization)的角度来计算最佳反应策略,避免对手建模,同时也提高计算速率。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种不完美信息扩展式博弈中计算最佳反应策略的方法,包括如下步骤:
(1)初始化局中人的策略、所有信息集的虚拟价值和虚拟遗憾值,其中为有限局中人集合;
(2)根据当前策略,与对手进行一次博弈,并记录博弈结果;
(3)对于在本次博弈中每一个被访问的信息集,根据目前为止所得到的所有博弈结果计算出该信息集的虚拟价值;
(4)根据步骤(3)所得到的虚拟价值,计算出每个信息集上每一个动作的虚拟遗憾值,其中表示在信息集上可以执行的动作的集合;
(5)在每一个被访问的信息集上执行遗憾值匹配过程,更新该信息集上的策略;
(6)返回步骤(2),直至不再有博弈进行。
进一步的,所述步骤(3)中,采用基于统计采样的方法,从目前所得到的博弈结果中计算出每个终止信息集的虚拟价值;而非终止信息集的虚拟价值通过其后继信息集的虚拟价值计算出来。
进一步的,所述步骤(4)中,将信息集的虚拟价值与信息集的虚拟价值相减,得到动作的虚拟遗憾值,其中表示在信息集执行动作后所到达的信息集。
进一步的,所述步骤(5)中,采用遗憾值匹配的方式,计算信息集上动作的执行概率:如果动作的虚拟遗憾值越大,表明不执行动作所造成的遗憾也就越大,相应地就应该更多地提高动作的执行概率。
有益效果:本发明与现有方法相比,其显著优点是避免了对对手策略模型的建立,能够对对手策略的动态变化做出快速反应,相对于对手建模方法,本发明能够获得更高的胜率(winrate)和博弈收益(utility),运行速度也大大提高。
附图说明
图1为本发明的总体架构图;
图2为本发明的流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明通过采样的方法,在每一次博弈后根据博弈的结果计算出每个信息集的虚拟价值以及该信息集上每个动作的虚拟遗憾值,然后采用遗憾值匹配的方法更新每个信息集上的策略。基本步骤为:(1)初始化策略、所有信息集的虚拟价值和虚拟遗憾值;(2)根据当前策略,与对手进行一次博弈,并记录博弈结果;(3)对于在本次博弈中每一个被访问的信息集,根据博弈结果计算出该信息集的虚拟价值;(4)根据步骤(3)所得到的各个信息集的虚拟价值,计算出每个信息集上每一个动作的虚拟遗憾值;(5)在每一个被访问的信息集上执行遗憾值匹配过程,更新该信息集上的策略;(6)返回步骤(2),直至不再有博弈进行。
不完美信息扩展式博弈的形式化定义如下:
定义1.不完美信息扩展式博弈是一个六元组
对于局中人,其策略可以表示为。对于每一个信息集,是在动作集概率分布函数。局中人的策略空间用表示。一个策略组包含所有局中人策略,用表示。一般地,对于局中人,我们用表示中除了之外的策略。
给定其他所有局中人的策略组,局中人的最佳反应策略可以定义如下:
定义2.最佳反应(bestresponse):对于局中人,其对于所有其他局中人的策略组的最佳反应策略满足:
在这里,表示局中人在其他局中人使用策略组,而自己使用时所得到的效用值;令,其效用值计算公式为,也即将所有可能的博弈结果做一个加权和,权重表示在所有局中人按照策略组采取动作的情况下,到达终止动作序列的概率。
虚拟遗憾最小化(counterfactualregretminimization)的方法最早由文献“ZinkevichM,JohansonM,BowlingM,etal.Regretminimizationingameswithincompleteinformation.AdvancesinNeuralInformationProcessingSystems,2008,20:1729–1736”所提出。与本发明的目的不同,该文献用虚拟遗憾最小化方法来计算扩展式博弈中的近似纳什均衡策略。其最核心的内容是信息集的虚拟价值(counterfactualvalue)的定义:
定义3.对于局中人和信息集,关于策略组的虚拟价值计算如下
信息集的虚拟价值的代表着它在所有局中人采用策略组的情况下,对局中人的价值大小。在该公式中,表示从信息集出发,所能到达的终止动作序列的集合;表示在终止序列为的情况下,信息集所代表的实际动作序列;代表在其他局中人使用策略组的情况下,到达的概率;代表所有局中人按照策略组选择动作,从能到达的概率。该计算公式中出现的表明在的计算中需要使用其他局中人的策略组。而本发明为了避免对对手策略模型的学习,无法获知对手的策略组。本发明从自己的问题角度出发,根据大数定律,提出了新的计算虚拟价值的方法。
如图1所示,本发明的总体步骤包括:进行博弈、根据博弈结果计算信息集的虚拟价值、根据虚拟价值计算每个信息集上动作的虚拟遗憾值以及根据虚拟遗憾值进行遗憾值匹配更新当前策略。本发明的流程图如图2所示,下面详细进行说明:
步骤1:初始化,对于局中人的所有信息集,其虚拟价值;对于所有上所有可执行的动作,其中表示在信息集上可以执行的动作的集合,其虚拟遗憾值,其执行概率;
步骤2:使用当前策略同对手进行博弈,并记录博弈结果。
步骤3:根据目前为止所记录的博弈结果,计算当前博弈中被访问的信息集的虚拟价值,方法如下。
给定当前策略组,对于局中人的任意终止信息集,定义其虚拟价值(counterfactualvalue)如下:
在这里,为当前博弈进行的总次数,为访问信息集的次数,代表第次访问该信息集时所获得的效用值,表示在策略组的情况下到达信息集的概率。而对于任意非终止信息集,其虚拟价值可通过其后继信息集的虚拟价值计算出来:
这里的表示在策略组的情况下,从非终止信息集转移到其后继信息集的概率;集合表示在非终止信息集之后做出某个动作之后,所到达的所有可能的后继信息集的集合,也即。
步骤4:对于任意信息集,根据其虚拟价值计算该信息集上每一个动作的虚拟遗憾值,方法如下:
其中表示在信息集执行动作后所到达的信息集。
步骤5:对于每一个信息集,基于每个动作的虚拟后悔值,采用遗憾值匹配(regretmatching)的方式来更新当前的策略:
这里的代表信息集上所有动作遗憾值的加和,其中是为了区别,而动作是当前我们需要更新值的动作,更新的这个值需要用到整个动作集里面的所有动作的虚拟遗憾值,就代表中的任意动作。采用遗憾值匹配的方法的含意是:如果在信息集上不执行的某个动作所产生的遗憾较大,那么我的策略就会偏向于更多地执行动作。
步骤6:若博弈继续,则返回步骤2;否则,结束。
Claims (4)
1.一种不完美信息扩展式博弈中计算最佳反应策略的方法,包括如下步骤:
(1)初始化局中人i∈N的策略σi、所有信息集的虚拟价值vi和虚拟遗憾值Ri,其中N为有限局中人集合;
(2)根据当前策略σi,与对手进行一次博弈,并记录博弈结果;
(3)对于在本次博弈中每一个被访问的信息集I,根据目前为止所得到的所有博弈结果计算出该信息集的虚拟价值vi(I);
(4)根据步骤(3)所得到的虚拟价值vi(I),计算出每个信息集I上每一个动作a∈A(I)的虚拟遗憾值Ri(I,a),其中A(I)表示在信息集I上可以执行的动作的集合;
(5)在每一个被访问的信息集上I执行遗憾值匹配过程,更新该信息集上的策略;
(6)返回步骤(2),直至不再有博弈进行。
2.根据权利要求1所述一种不完美信息扩展式博弈中计算最佳反应策略的方法,其特征在于,所述步骤(3)中,采用基于统计采样的方法,从目前所得到的博弈结果中计算出每个终止信息集的虚拟价值;而非终止信息集的虚拟价值通过其后继信息集的虚拟价值计算出来。
3.根据权利要求1所述一种不完美信息扩展式博弈中计算最佳反应策略的方法,其特征在于,所述步骤(4)中,将信息集Ia的虚拟价值vi(Ia)与信息集I的虚拟价值vi(I)相减:Ri(I,a)=vi(Ia)-vi(I),得到动作a的虚拟遗憾值Ri(I,a),其中Ia表示在信息集I执行动作a后所到达的信息集。
4.根据权利要求1所述一种不完美信息扩展式博弈中计算最佳反应策略的方法,其特征在于,所述步骤(5)中,采用遗憾值匹配的方式,计算信息集I上动作a的执行概率σi(I,a):如果动作a的虚拟遗憾值Ri(I,a)越大,表明不执行动作a所造成的遗憾也就越大,相应地就应该更多地提高动作a的执行概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310568689.3A CN103559363B (zh) | 2013-11-15 | 2013-11-15 | 一种不完美信息扩展式博弈中计算最佳反应策略的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310568689.3A CN103559363B (zh) | 2013-11-15 | 2013-11-15 | 一种不完美信息扩展式博弈中计算最佳反应策略的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103559363A CN103559363A (zh) | 2014-02-05 |
CN103559363B true CN103559363B (zh) | 2016-06-01 |
Family
ID=50013609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310568689.3A Active CN103559363B (zh) | 2013-11-15 | 2013-11-15 | 一种不完美信息扩展式博弈中计算最佳反应策略的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103559363B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106201849A (zh) * | 2016-07-01 | 2016-12-07 | 南京航空航天大学 | 一种有限数据驱动的长寿命部件余寿预测方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426969A (zh) * | 2015-08-11 | 2016-03-23 | 浙江大学 | 一种非完备信息的博弈策略生成方法 |
EP3827383A4 (en) * | 2019-01-17 | 2021-08-25 | Advanced New Technologies Co., Ltd. | SAMPLE SCHEMES FOR STRATEGY SEARCH IN STRATEGIC INTERACTIONS BETWEEN PARTICIPANTS |
CN110222874B (zh) * | 2019-05-14 | 2021-06-04 | 清华大学 | 信息处理方法及装置、存储介质及计算设备 |
WO2020227954A1 (en) * | 2019-05-15 | 2020-11-19 | Advanced New Technologies Co., Ltd. | Determining action selection policies of an execution device |
WO2020227960A1 (en) * | 2019-05-15 | 2020-11-19 | Advanced New Technologies Co., Ltd. | Determining action selection policies of an execution device |
CN112292696B (zh) * | 2019-05-15 | 2024-07-16 | 创新先进技术有限公司 | 确定执行设备的动作选择方针的方法和装置 |
CN111905373A (zh) * | 2020-07-23 | 2020-11-10 | 深圳艾文哲思科技有限公司 | 一种基于博弈论和纳什均衡的人工智能决策方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102006658A (zh) * | 2010-12-07 | 2011-04-06 | 中国人民解放军理工大学 | 无线传感器网络中基于链式博弈的协同传输方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8494994B2 (en) * | 2010-06-30 | 2013-07-23 | International Business Machines Corporation | Fast adaptation in real-time systems |
-
2013
- 2013-11-15 CN CN201310568689.3A patent/CN103559363B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102006658A (zh) * | 2010-12-07 | 2011-04-06 | 中国人民解放军理工大学 | 无线传感器网络中基于链式博弈的协同传输方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106201849A (zh) * | 2016-07-01 | 2016-12-07 | 南京航空航天大学 | 一种有限数据驱动的长寿命部件余寿预测方法 |
CN106201849B (zh) * | 2016-07-01 | 2018-10-19 | 南京航空航天大学 | 一种有限数据驱动的长寿命部件余寿预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103559363A (zh) | 2014-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103559363B (zh) | 一种不完美信息扩展式博弈中计算最佳反应策略的方法 | |
CN104330721B (zh) | 集成电路硬件木马检测方法和系统 | |
CN105354133B (zh) | 一种游戏日志数据的处理方法及装置 | |
CN107402997B (zh) | 网络舆情态势的安全评估方法、终端及计算机存储介质 | |
CN108579095A (zh) | 游戏中的社交关系推荐方法、装置和计算机可读存储介质 | |
CN104866699B (zh) | 一种网络游戏智能化数据分析方法 | |
CN110348722A (zh) | 一种基于XGBoost的互联网金融风控模型 | |
CN103678602A (zh) | 一种含敏感度计算的网页过滤方法 | |
CN104679942A (zh) | 一种基于数据挖掘的建设用地承载效率测度方法 | |
CN106776455A (zh) | 一种单机多gpu通信的方法及装置 | |
CN105243591A (zh) | 一种应用大数据监管互联网金融大额资金风险监测方法 | |
CN105574471B (zh) | 用户行为数据的上传方法、用户行为的识别方法及装置 | |
CN106682053A (zh) | 一种游戏充值促销活动投放方案优化方法及装置 | |
CN107038297A (zh) | 全球能源互联网运行特性仿真的自适应变步长积分方法 | |
CN103699546B (zh) | 一种生成网吧ip数据库的方法及装置 | |
CN116843196A (zh) | 一种应用于军事训练的智能训练方法及系统 | |
Argent et al. | Tracing the density impulse in rural settlement systems: A quantitative analysis of the factors underlying rural population density across South-Eastern Australia, 1981–2001 | |
CN115203496A (zh) | 基于大数据的项目智能预测及评估方法、系统及可读存储介质 | |
CN111282281A (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN104731716B (zh) | 一种数据存储方法 | |
CN117314619A (zh) | 一种应用于跨境贸易融资贷款的智能风控算法 | |
CN105373583A (zh) | 基于数据压缩的支撑向量机建模方法 | |
CN113034297A (zh) | 基于节点吸引力的复杂网络关键节点识别方法及系统 | |
CN104735735B (zh) | 一种多网络互操作方法及装置 | |
Scott III et al. | Debt-poor kids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |