CN115033878A - 快速自博弈强化学习方法、装置、计算机设备和存储介质 - Google Patents

快速自博弈强化学习方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115033878A
CN115033878A CN202210951195.2A CN202210951195A CN115033878A CN 115033878 A CN115033878 A CN 115033878A CN 202210951195 A CN202210951195 A CN 202210951195A CN 115033878 A CN115033878 A CN 115033878A
Authority
CN
China
Prior art keywords
network
strategy
value
pool
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210951195.2A
Other languages
English (en)
Inventor
陈少飞
袁唯淋
胡振震
刘鸿福
陆丽娜
陈佳星
李鑫
陈璟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202210951195.2A priority Critical patent/CN115033878A/zh
Publication of CN115033878A publication Critical patent/CN115033878A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及人工智能技术领域的一种快速自博弈强化学习方法、装置、计算机设备和存储介质。所述方法针对机器博弈中防守方计算机与进攻方计算机之间大规模不完全信息博弈问题,采用强化学习的方法,通过负样本增强方法加速样本采集过程,通过完全信息评估不完全信息训练框架加速自博弈过程中策略网络的收敛,通过方差缩减和策略多样性保持来减小评估的局数与压缩种群策略池规模,加速种群策略池评估排序过程。本方法降低了博弈过程的开销,缩短了大规模不完全信息机器博弈问题的收敛时间,可以学习到更加有效防护策略,采用本方法可以提高参与机器博弈的计算机的响应速度和智能化水平。

Description

快速自博弈强化学习方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种快速自博弈强化学习方法、装置、计算机设备和存储介质。
背景技术
从人工智能发展的萌芽阶段开始,机器博弈就交织其中,机器博弈是人工智能领域的最具挑战性的研究方向之一。机器博弈不仅在学术界掀起了对其研究的热潮,还带动与之高度密切相关的游戏产业飞速发展。
不完全信息博弈是指博弈中的参与者是理性的但非智能性的,即参与者具有优化自己得益的能力,能够采取使自己得益极大化的理性行动,但是他在选择行动时并不了解其他参与者所处的状态及采取的策略,比如在德州扑克中,博弈者只能看到自己手牌和公共牌而无法知晓对手的手牌。不完全信息博弈的复杂度与博弈者数量、信息的不确定性程度以及博弈规则等密切相关,是机器博弈研究颇具挑战性的一个分支。
由于大规模不完全信息机器博弈过程状态动作空间巨大,使问题复杂程度加剧。现有的自博弈强化学习不能满足大规模不完全信息机器博弈过程中能够有效、快速的应对对手的攻击策略的要求。
发明内容
基于此,有必要针对上述技术问题,提供一种快速自博弈强化学习方法、装置、计算机设备和存储介质。
一种快速自博弈强化学习方法,所述方法包括:
获取不完全信息机器博弈的博弈环境及博弈环境中的两个博弈参与者;两个博弈参与者分别为防守方计算机和进攻方计算机。
初始化策略网络及多个独立价值网络的参数和超参数,并初始化种群策略池和样本采样策略;多个所述独立价值网络是多个结构相同,参数不共享的网络。
根据所述样本采样策略与博弈环境进行交互,采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量,根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池;所述完全信息观察量包括:不完全信息观察量和进攻方计算机的私有信息。
根据所述进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新,并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差。
根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差,确定下一时刻样本采样策略,根据下一时刻样本采样策略与博弈环境进行交互,采集不完全信息观察量,采用负样本数据增强方式更新扩展经验回放池,从更新的扩展经验回放池中采集预定数量数据对所述策略网络的参数进行更新。
通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗,并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作,更新种群策略池,进入下一轮参数迭代过程,直到满足预设条件,得到能击败种群策略池中排位第一且训练收敛的策略网络。
根据编码后的不完全信息观察量对训练收敛的策略网络进行测试,得到防守方计算机的最优策略,然后将所述最优策略存入所述种群策略池。
一种快速自博弈强化学习装置,所述装置包括:
博弈环境获取模块,用于获取不完全信息机器博弈的博弈环境及博弈环境中的两个博弈参与者;两个博弈参与者分别为防守方计算机和进攻方计算机。
强化学习初始化模块,用于初始化策略网络及多个独立价值网络的参数和超参数,并初始化种群策略池和样本采样策略;多个所述独立价值网络是多个结构相同,参数不共享的网络。
负样本数据增强模块,用于根据所述样本采样策略与博弈环境进行交互,采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量,根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池;所述完全信息观察量包括:不完全信息观察量和进攻方计算机的私有信息。
价值网络和策略网络的参数更新模块,用于根据所述进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新,并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差;根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差,确定下一时刻样本采样策略,根据下一时刻样本采样策略与博弈环境进行交互,采集不完全信息观察量,采用负样本数据增强方式更新扩展经验回放池,从更新的扩展经验回放池中采集预定数量数据对所述策略网络的参数进行更新。
策略快速排位模块,用于通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗,并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作,更新种群策略池,进入下一轮参数迭代过程,直到满足预设条件,得到能击败种群策略池中排位第一且训练收敛的策略网络;根据编码后的不完全信息观察量对训练收敛的策略网络进行测试,得到防守方计算机的最优策略,然后将所述最优策略存入所述种群策略池。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述方法的步骤。
上述快速自博弈强化学习方法、装置、计算机设备和存储介质,所述方法针对机器博弈中防守方计算机与进攻方计算机之间大规模不完全信息博弈问题,采用强化学习的方法,通过负样本增强方法加速样本采集过程,通过完全信息评估不完全信息训练框架加速自博弈过程中策略网络的收敛,通过方差缩减和策略多样性保持来减小评估的局数与压缩种群策略池规模,加速种群策略池评估排序过程。本方法降低了博弈过程的开销,缩短了大规模不完全信息机器博弈问题的收敛时间,可以学习到更加有效防护策略,采用本方法可以提高参与机器博弈的计算机的响应速度和智能化水平。
附图说明
图1为一个实施例中快速自博弈强化学习方法的流程示意图;
图2为一个实施例中快速自博弈强化学习框架;
图3为一个实施例中负样本数据增强具体流程图;
图4为另一个实施例中单个独立价值网络结构图;
图5为另一个实施例中单个独立价值网络结构图;
图6为另一个实施例中策略网络结构图;
图7为另一个实施例中策略网络结构图;
图8为一个实施例中快速自博弈强化学习装置的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在不完全信息博弈过程中,存在部分信息不完全可观,例如:对手的目标、对手类型、对手的收益函数等私有信息,定义观察量为
Figure 161784DEST_PATH_IMAGE001
。其中:
Figure 54653DEST_PATH_IMAGE002
表示完全信息状态,包含对手状态中可观察的部分。定义(对手)的不完全信息为:
Figure 297416DEST_PATH_IMAGE003
。引入博弈理论信息集合的概念,定义完全信息
Figure 195227DEST_PATH_IMAGE004
所在的信息集合为
Figure 599664DEST_PATH_IMAGE005
在一个实施例中,如图1、图2所示,提供了一种快速自博弈强化学习方法,该方法包括以下步骤:
步骤100:获取不完全信息机器博弈的博弈环境及博弈环境中的两个博弈参与者;两个博弈参与者分别为防守方计算机和进攻方计算机。
具体的,博弈环境为防守方计算机与进攻方计算机之间的不完全信息机器博弈环境,防守方计算机与进攻方计算机之间的机器博弈可以是扑克类游戏博弈,例如德州扑克,桥牌类游戏等。机器博弈也可以为城市安全、反恐维稳、边境缉毒以及野生动物保护等模拟场景中防守方计算机与进攻方计算机之间的博弈。
进攻方计算机采用种群策略池中的固定博弈策略,防守方计算机采用强化学习的方式确定的博弈策略。
步骤102:初始化策略网络及多个独立价值网络的参数和超参数,并初始化种群策略池和样本采样策略;多个独立价值网络是多个结构相同,参数不共享的网络。
多个独立价值网络是多个结构相同,参数不共享的网络。
具体的,策略网络和多个独立价值网络的参数和超参数是初始化为随机值。策略网络是给定输入样本,通过学习给出一个确定输出的网络。独立价值网络通过计算目前状态的累积回报的期望,独立价值网络给博弈中的状态动作对赋予一个期望估计值,每个状态都经历了整个数值网络,奖赏更多的状态动作对显然在独立价值网络中的值更大。
种群策略池是用于存放训练好的博弈策略的空间。
样本采样策略采用随机初始化的方式。样本采样策略是用于与博弈环境进行交互,产生训练数据集。
步骤104:根据样本采样策略与博弈环境进行交互,采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量,根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池;完全信息观察量包括:不完全信息观察量和进攻方计算机的私有信息。
完全信息观察量包括:不完全信息观察量和进攻方计算机的私有信息。
具体的,负样本数据增强用于扩充样本,加速采样过程,提高学习速度。
步骤106:根据进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新,并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差。
步骤108:根据预定数量数据以及集成价值网络状态动作估计值的平均值和标准差,确定下一时刻样本采样策略,根据下一时刻样本采样策略与博弈环境进行交互,采集不完全信息观察量,采用负样本数据增强方式更新扩展经验回放池,从更新的扩展经验回放池中采集预定数量数据对策略网络的参数进行更新。
步骤110:通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗,并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作,更新种群策略池,进入下一轮参数迭代过程,直到满足预设条件,得到能击败种群策略池中排位第一且训练收敛的策略网络。
步骤112:根据编码后的不完全信息观察量对训练收敛的策略网络进行测试,得到防守方计算机的最优策略,然后将最优策略存入种群策略池。
上述快速自博弈强化学习方法中,针对机器博弈中防守方计算机与进攻方计算机之间大规模不完全信息博弈问题,采用强化学习的方法,通过负样本增强方法加速样本采集过程,通过完全信息评估不完全信息训练框架加速自博弈过程中策略网络的收敛,通过方差缩减和策略多样性保持来减小评估的局数与压缩种群策略池规模,加速种群策略池评估排序过程。本方法降低了博弈过程的开销,缩短了大规模不完全信息机器博弈问题的收敛时间,可以学习到更加有效防护策略,采用本方法可以提高参与机器博弈的计算机的响应速度和智能化水平。
本方法在城市安全、反恐维稳、边境缉毒以及野生动物保护等领域可广泛应用,同时,本方法也对自主移动机器人产业、游戏产业、元宇宙产业等具有辐射带动作用。
在其中一个实施例中,步骤104包括:根据样本采样策略与博弈环境进行交互,采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量,得到不完全信息观察量和进攻方计算机的私有信息;将不完全信息观察量作为当前时刻样本,当前时刻样本包括:当前时刻状态、当前时刻状态下动作、下一时刻状态、当前回报值、终止状态标志位;根据当前时刻状态,确定当前时刻状态下的非法动作集合;遍历当前时刻状态下的非法动作集合,并行多线程创建模拟器,复制当前时刻状态,在对应模拟器中执行非法动作,得到增强负样本,并将增强负样本添加到扩展经验回放池中;若当前动作为合法动作,继续在模拟器中执行当前时刻状态下的原合法动作,得到正样本;获取下一时刻状态,将当前时刻状况更新为下一时刻状态,继续进行负样本增强处理,直到满足预设样本数条件为止,将正样本添加到扩展经验回放池中。
具体的,离线强化学习算法采用样本采样策略与环境交互进行采样,并将样本存入经验回放池。定义采样过程中的一条轨迹为:
Figure 714250DEST_PATH_IMAGE007
Figure 495124DEST_PATH_IMAGE008
。其中:
Figure 11556DEST_PATH_IMAGE010
代表轨迹中状态
Figure 586894DEST_PATH_IMAGE011
下的合法动作,
Figure 188777DEST_PATH_IMAGE013
为轨迹中状态
Figure 773342DEST_PATH_IMAGE014
下的回报值,
Figure 144280DEST_PATH_IMAGE015
表示终止状态标志位。当经验回放池中样本数量达到一定规模时,学习算法按照一定机制从扩展经验回放池中采样一个批次样本进行学习训练。
数据增强是机器学习领域的常用方法,如:翻转,旋转,裁剪,缩放,平移,抖动等几何变换方法。在强化学习中,本发明采用负样本数据增强方法,用于扩充样本,加速采样过程,提高学习速度。定义状态
Figure 391984DEST_PATH_IMAGE017
时的非法动作集合为
Figure 215584DEST_PATH_IMAGE018
,非法动作集合大小为
Figure 603840DEST_PATH_IMAGE019
,非法动作
Figure 829285DEST_PATH_IMAGE020
。则轨迹中任意一个样本数据
Figure 746425DEST_PATH_IMAGE022
对应的负样本集合为:
Figure 322900DEST_PATH_IMAGE023
},其中:
Figure 983689DEST_PATH_IMAGE024
代表模拟器中状态转移的结果,属于终端节点集,即:
Figure 63640DEST_PATH_IMAGE025
,扩展轨迹.
Figure 417261DEST_PATH_IMAGE026
。所有状态对应的负样本集合大小为
Figure 215453DEST_PATH_IMAGE027
。对大规模博弈而言,在
Figure 446976DEST_PATH_IMAGE028
往往高达10的10至20次方。负样本数据增强达到了快速扩充经验回放池的效果。并且,创建在并行的多线程上的模拟器只需要执行一步仿真就可以同时获取大量负样本。任何非法动作都会立刻获得负的回报信号。因此,负样本有助于算法快速学习到模拟器中的规则边界。负样本数据增强具体流程图如图3所示。
在其中一个实施例中,如图4所示,独立价值网络包括:编码模块,由卷积神经网络模块、长短时间记忆模块和第一全连接网络模块组成的并行结构网络模块,以及第二全连接网络模块;独立价值网络的数量为N个,N为大于等于3的整数;其中,第一全连接网络模块与第二全连接网络模块的网络结构不同的全连接网络;步骤106包括:将进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到第一个独立价值网络的编码模块中进行编码,得到私有信息编码和不完全信息观察量编码;不完全信息观察量编码和私有信息编码的编码类型包括:2维张量或3维张量编码、时序信息编码、第三类编码;将私有信息编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的卷积神经网络模块、长短时间记忆模块以及第一全连接网络模块中进行特征提取,得到私有信息特征;将不完全信息观察量编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的卷积神经网络模块、长短时间记忆模块以及第一全连接网络模块中进行特征提取,得到不完全信息观察量特征;将私有信息特征和不完全信息观察量特征输入到第一个独立价值网络的第二全连接网络模块中,得到第一个独立价值网络输出的状态动作预测值;将进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到其他N-1个独立价值网络中,得到其他N-1个独立价值网络输出的状态动作预测值;根据N个独立价值网络输出的状态动作预测值,计算N个独立价值网络状态动作估计值的平均值和标准差;根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值,确定每个独立价值网络的权重误差函数;根据每个独立价值网络的权重误差函数,得到集成价值网络的权重误差函;根据集成价值网络的权重误差函数采用梯度下降的方法,对每个独立价值网络的参数进行更新;根据N个独立价值网络状态动作估计值的平均值和标准差,确定集成价值网络状态动作估计值的平均值和标准差。
具体的,进攻方计算机的私有信息不狭义指对手的私有(不可观)状态信息,也包括在当前信息集下,对手私有信息的概率分布。由于进攻方计算机的真实状态信息可观,态势透明,因此,价值网络不需要对时序信息(如:历史动作)进行编码来隐式推断进攻方计算机的私有状态信息。价值网络的训练数据集,由上一时刻的样本采样策略与环境交互生成。策略网络训练完成后,不再使用价值网络对策略进行评估预测。因此,价值网络无需验证数据集,在实际对抗中也无法获取进攻方计算机的私有信息。进攻方计算机的私有信息只在训练过程中通过全局视角提供给价值网络,辅助对策略的评估,并提高评估的准确性。另一方面,将完全信息嵌入到状态动作值函数中,策略网络在误差反向传播过程中,通过蒸馏的完全信息,完成隐式进攻方建模过程,加速价值网络的快速收敛,从而提速整个学习过程。
在一个具体的实施例中,单个独立价值网络的结构如图5所示,将完全信息(包括:己方手牌、对手手牌、公共牌、位置信息等)编码,其中所有牌信息编码成一个8*4*13的3维张量,输入卷积神经网络(ConvNet)处理,位置信息编码成一个1*4的一维数组输入全连接层(FC)处理。
在其中一个实施例中,步骤:根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值,确定每个独立价值网络的权重误差函数,包括:根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值,确定每个独立价值网络的权重误差函数为:
Figure 381434DEST_PATH_IMAGE029
(1)
其中:
Figure 171536DEST_PATH_IMAGE030
为每个独立的价值网络的权重误差函数,
Figure 191444DEST_PATH_IMAGE031
t时刻从扩展经验回放池采样的数据,
Figure 459615DEST_PATH_IMAGE032
为信任权重,
Figure 514158DEST_PATH_IMAGE034
t时刻状态,
Figure 475161DEST_PATH_IMAGE036
Figure 716786DEST_PATH_IMAGE037
时刻的动作,
Figure 788648DEST_PATH_IMAGE038
Figure 199163DEST_PATH_IMAGE039
Figure 65488DEST_PATH_IMAGE040
为N个独立价值网络状态动作估计值的平均值,
Figure 59988DEST_PATH_IMAGE042
为t时刻回报值,
Figure 669961DEST_PATH_IMAGE044
为温度参数,
Figure 699097DEST_PATH_IMAGE045
为折扣因子;
Figure 470744DEST_PATH_IMAGE046
为第
Figure 218120DEST_PATH_IMAGE048
个独立价值网络的状态动作预测值,
Figure 897363DEST_PATH_IMAGE049
为第
Figure 781006DEST_PATH_IMAGE050
个独立价值网络的网络参数;
Figure 756177DEST_PATH_IMAGE051
Figure 725270DEST_PATH_IMAGE053
为sigmoid激活函数,
Figure 411466DEST_PATH_IMAGE055
为温度参数T1,
Figure 415194DEST_PATH_IMAGE057
为常数,
Figure 794223DEST_PATH_IMAGE058
N个独立目标价值函数的标准差。
根据每个独立价值网络的权重误差函数,得到集成价值网络的权重误差函为:
Figure 985033DEST_PATH_IMAGE059
(2)
其中,
Figure 740499DEST_PATH_IMAGE060
为集成价值网络的权重误差函,
Figure 333155DEST_PATH_IMAGE062
为一个采样批次的大小,
Figure 148664DEST_PATH_IMAGE063
为服从参数为
Figure 593814DEST_PATH_IMAGE065
的伯努利分布的权重项,
Figure 621813DEST_PATH_IMAGE066
为第i个独立价值网络的权重误差函数。
在其中一个实施例中,如图6所示,策略网络包括:编码模块,由卷积网络模块、长短时间记忆模块和第三全连接网络模块组成的并行结构网络模块,第四全连接网络模块以及SoftMax层;步骤108包括:根据预定数量数据以及集成价值网络状态动作估计值的平均值和标准差,确定下一时刻样本采样策略;根据下一时刻样本采样策略与博弈环境进行交互采集的不完全信息观察量采用负样本数据增强方式更新扩展经验回放池;从更新的扩展经验回放池中采集预定数量数据输入到策略网络的编码模块中,将具有空间关系的信息编码为2维张量或3维张量编码,将历史动作序列编码为时序信息编码,将其他信息编码为第三类编码;其他信息包括位置信息、速度信息以及合法动作集合;将2维张量或3维张量编码、时序信息编码以及第三类编码分别输入到策略网络的卷积网络模块、长短时间记忆模块和第三全连接网络模块中进行特征提取,并将得到的空间信息的高维特征、历史序列中的隐藏状态以及其他信息的高维特征输入到策略网络的第四全连接网络模块,得到抽象特征;将抽象特征输入到策略网络的SoftMax层,得到动作概率分布预测值;根据动作概率分布预测值、集成价值网络状态动作估计值的平均值,确定策略网络的误差函数;根据策略网络的误差函数采用梯度上升方法,对策略网络的参数进行更新。
具体的,将观察量
Figure 334554DEST_PATH_IMAGE067
进行编码,将不同类型的信息使用不同的编码方式表示。例如:具有空间关系的信息(如:地图栅格信息)使用2维张量编码或3维张量编码表示,历史动作序列的信息用时序信息编码表示,其他信息(如:位置信息、速度信息、合法动作集合等信息)用第三类编码表示。
2维张量编码或3维张量编码采用卷积神经网络(ConvNet)提取高维特征;时序信息编码采用长短时记忆网络(LSTM)处理,提取历史序列中的隐藏状态;第三类编码采用第一全连接网络模块提取特征。提取的所有高维特征,经过第二全连接网络模块进一步提取抽象特征,最后通过SoftMax层进行归一化输出动作概率分布,完成策略网络的构建。策略网络的训练数据集由上一时刻的样本采样策略
Figure 320965DEST_PATH_IMAGE069
和博弈环境交互生成,验证数据集由在线对抗过程中,训练收敛的策略网络和环境交互产生(对手策略固定)。验证与训练时,策略网络的输入均相同,均为不完全信息观察的编码。
在一个具体的实施例中,策略网络的具体结构如图7所示,卷积核步幅为1*1,全连接层的激活函数为ReLu(Leaky ReLu)。以典型的不完全信息机器博弈中的德州扑克游戏为例,将不完全信息观察量(包括:己方手牌、公共牌、大盲注位置、小盲注位置、庄家位置、当前玩家位置、合法动作集合、历史动作序列)编码,其中己方手牌与公共牌编码成一个6*4*13的3维张量,输入ConvNet处理,历史动作序列输入LSTM网络处理,位置相关信息和合法动作集合编码成一维数组输入全连接层(FC)处理。
在其中一个实施例中,步骤:根据动作概率分布预测值、集成价值网络状态动作估计值的平均值,确定策略网络的误差函数,包括:根据动作概率分布预测值、集成价值网络状态动作估计值的平均值,确定策略网络的误差函数为:
Figure 751946DEST_PATH_IMAGE070
(3)
其中,
Figure 849215DEST_PATH_IMAGE071
为样本采样策略,
Figure 416463DEST_PATH_IMAGE072
Figure 308195DEST_PATH_IMAGE073
Figure 226473DEST_PATH_IMAGE074
时刻集成价值网络状态动作估计值的平均值,
Figure 375037DEST_PATH_IMAGE075
为集成价值网络状态动作估计值的标准差,
Figure 796791DEST_PATH_IMAGE077
t时刻状态,
Figure 125004DEST_PATH_IMAGE079
t时刻状态
Figure 264998DEST_PATH_IMAGE080
下的动作集合,
Figure 704070DEST_PATH_IMAGE082
是平衡利用与探索的权重,
Figure 245910DEST_PATH_IMAGE083
Figure 10604DEST_PATH_IMAGE084
时刻的动作
Figure 637894DEST_PATH_IMAGE086
服从状态为s时候的动作概率分布(
Figure 615077DEST_PATH_IMAGE087
是样本采样策略
Figure 512888DEST_PATH_IMAGE089
采样处理的,样本采样策略
Figure 182904DEST_PATH_IMAGE091
的具体含义就是:状态为s时候的动作概率分布,这个状态s是个变量),
Figure 297491DEST_PATH_IMAGE092
为策略网络的参数,
Figure 812786DEST_PATH_IMAGE093
为策略网络输出的动作概率分布预测值。
在其中一个实施例中,步骤110中方差缩减方法的具体步骤包括:将种群策略池中第一个策略网络作为当前策略网络;通过选用当前策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗L局,并计算L局对抗的累积得分值;根据对抗的累积得分值与对应复盘状态下采用更新后的策略网络自博弈的累积得分值之间的差值作为更新后的策略网络对抗得分的评估值的无偏估计;复盘状态为保存采用更新后的策略网络的防守方计算机与选用当前策略网络的进攻方计算机L局的状态,更新后的策略网络自博弈时加载保存的状态,不重新随机生成;将更新后的策略网络对抗得分的评估值的无偏估计的L局平均值作为第一个策略网络排序得分值;将当前策略网络更新为种群策略池中第二个策略网络,继续对下一轮对抗,直到种群策略池中所有策略网络都遍历完为止,得到种群策略池中所有策略网络的排序得分值;根据所有策略网络的排序得分值对种群策略池中所有策略网络和更新后的策略网络进行排位操作,并更新种群策略池。
具体的,通过方差缩减技术,旨在减少评估局数,同时提高评估精度,从而达到降低时间花销,提高收敛速度的目的。
在其中一个实施例中,步骤110中缩减种群策略池规模方法的具体步骤包括:当种群策略池的规模大于预设种群规模时,计算更新后的策略网络与种群策略池中每个策略的多样性值;多样性值计算表达式为:
Figure 329218DEST_PATH_IMAGE094
(4)
其中:
Figure DEST_PATH_IMAGE095
为更新后的策略网络与种群池中第i个策略
Figure 435714DEST_PATH_IMAGE096
的多样性值,
Figure 37597DEST_PATH_IMAGE098
为求期望函数,
Figure DEST_PATH_IMAGE099
为状态s按随机策略
Figure 887741DEST_PATH_IMAGE100
采样,
Figure DEST_PATH_IMAGE101
为两个概率分布的交叉熵,
Figure 291303DEST_PATH_IMAGE102
为更新后的策略网络,
Figure DEST_PATH_IMAGE103
为状态为s时的动作概率分布。
根据多样性值从大到小的顺序对种群策略池中的策略网络进行排序,并剔除排序靠后的d个策略网络,得到新的种群策略池;其中
Figure 568700DEST_PATH_IMAGE104
种群策略池的规模
Figure 126720DEST_PATH_IMAGE106
预设种群规模。
具体的,随着种群策略池的增大,每当策略网络(即策略
Figure 249397DEST_PATH_IMAGE108
)更新后,存入种群策略池时,都需要与种群策略池中的每一个策略
Figure DEST_PATH_IMAGE109
博弈对抗
Figure DEST_PATH_IMAGE111
局,评估现有策略质量并形成排位(即按评估值排序)。则评估的时间开销为
Figure 271580DEST_PATH_IMAGE112
。为了消除随机因素,评估的局数
Figure 454300DEST_PATH_IMAGE111
需要做够大,才能在统计意义上得到评估的无偏估计。
减少评估时间花销还可以通过缩减种群策略池规模实现。然而,种群策略池的规模越大,种群的多样性才能得到保证。维护种群多样性的意义在于寻找到具有相互克制关系的基策略,通过战胜这些基策略,才能螺旋式提高强化学习自博弈生成的策略的质量,才能在应为未知对手时,获得较高的赢率。
为了压减种群规模到
Figure DEST_PATH_IMAGE113
,同时维持种群策略池的多样性,种群策略池中策略多样性指标表示如式(4)所示。
当种群策略池规模
Figure 532239DEST_PATH_IMAGE114
时,计算策略
Figure DEST_PATH_IMAGE115
与种群池中每个策略的多样性值
Figure 724186DEST_PATH_IMAGE116
,并排序,按多样性排序值剔除排序靠后的d个策略,形成种群策略池
Figure DEST_PATH_IMAGE117
。剔除d个有助于增加探索性,动态搜索K个多样性差异较大的基策略。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种快速自博弈强化学习装置,包括:博弈环境获取模块、强化学习初始化模块、负样本数据增强模块、价值网络和策略网络的参数更新模块和策略快速排位模块,其中:
博弈环境获取模块,用于获取不完全信息机器博弈的博弈环境及博弈环境中的两个博弈参与者;两个博弈参与者分别为防守方计算机和进攻方计算机。
强化学习初始化模块,用于初始化策略网络及多个独立价值网络的参数和超参数,并初始化种群策略池和样本采样策略;多个独立价值网络是多个结构相同,参数不共享的网络。
负样本数据增强模块,用于根据样本采样策略与博弈环境进行交互,采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量,根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池;完全信息观察量包括:不完全信息观察量和进攻方计算机的私有信息。
价值网络和策略网络的参数更新模块,用于根据进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新,并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差;根据预定数量数据以及集成价值网络状态动作估计值的平均值和标准差,确定下一时刻样本采样策略,根据下一时刻样本采样策略与博弈环境进行交互,采集不完全信息观察量,采用负样本数据增强方式更新扩展经验回放池,从更新的扩展经验回放池中采集预定数量数据对策略网络的参数进行更新。
策略快速排位模块,用于通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗,并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作,更新种群策略池,进入下一轮参数迭代过程,直到满足预设条件,得到能击败种群策略池中排位第一且训练收敛的策略网络;根据编码后的不完全信息观察量对训练收敛的策略网络进行测试,得到防守方计算机的最优策略,然后将最优策略存入种群策略池。
在其中一个实施例中,负样本数据增强模块,还用于根据样本采样策略与博弈环境进行交互,采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量,得到不完全信息观察量和进攻方计算机的私有信息;将不完全信息观察量作为当前时刻样本,当前时刻样本包括:当前时刻状态、当前时刻状态下动作、下一时刻状态、当前回报值、终止状态标志位;根据当前时刻状态,确定当前时刻状态下的非法动作集合;遍历当前时刻状态下的非法动作集合,并行多线程创建模拟器,复制当前时刻状态,在对应模拟器中执行非法动作,得到增强负样本,并将增强负样本添加到扩展经验回放池中;若当前动作为合法动作,继续在模拟器中执行当前时刻状态下的原合法动作,得到正样本;获取下一时刻状态,将当前时刻状况更新为下一时刻状态,继续进行负样本增强处理,直到满足预设样本数条件为止,将正样本添加到扩展经验回放池中。
在其中一个实施例中,价值网络包括:编码模块,由卷积神经网络模块、长短时间记忆模块和第一全连接网络模块组成的并行结构网络模块,以及第二全连接网络模块;独立价值网络的数量为N个,N为大于等于3的整数;价值网络和策略网络的参数更新模块,还用于将进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到第一个独立价值网络的编码模块中进行编码,得到私有信息编码和不完全信息观察量编码;不完全信息观察量编码和私有信息编码的编码类型包括:2维张量或3维张量编码、时序信息编码、第三类编码;将私有信息编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的卷积神经网络模块、长短时间记忆模块以及第一全连接网络模块中进行特征提取,得到私有信息特征;将不完全信息观察量编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的卷积神经网络模块、长短时间记忆模块以及第一全连接网络模块中进行特征提取,得到不完全信息观察量特征;将私有信息特征和不完全信息观察量特征输入到第一个独立价值网络的第二全连接网络模块中,得到第一个独立价值网络输出的状态动作预测值;将进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到其他N-1个独立价值网络中,得到其他N-1个独立价值网络输出的状态动作预测值;根据N个独立价值网络输出的状态动作预测值,计算N个独立价值网络状态动作估计值的平均值和标准差;根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值,确定每个独立价值网络的权重误差函数;根据每个独立价值网络的权重误差函数,得到集成价值网络的权重误差函;根据集成价值网络的权重误差函数采用梯度下降的方法,对每个独立价值网络的参数进行更新;根据N个独立价值网络状态动作估计值的平均值和标准差,确定集成价值网络状态动作估计值的平均值和标准差。
具体的,第一全连接网络模块与第二全连接网络模块的网络结构不同的全连接网络。
在其中一个实施例中,价值网络和策略网络的参数更新模块,还用于根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值,确定每个独立价值网络的权重误差函数表达式如式(1)所示。
根据每个独立价值网络的权重误差函数,得到集成价值网络的权重误差函表达式如式(2)所示。
在其中一个实施例中,策略网络包括:编码模块,由卷积网络模块、长短时间记忆模块和第三全连接网络模块组成的并行结构网络模块,第四全连接网络模块以及SoftMax层;价值网络和策略网络的参数更新模块,还用于根据预定数量数据以及集成价值网络状态动作估计值的平均值和标准差,确定下一时刻样本采样策略;根据下一时刻样本采样策略与博弈环境进行交互采集的不完全信息观察量采用负样本数据增强方式更新扩展经验回放池;从更新的扩展经验回放池中采集预定数量数据输入到策略网络的编码模块中,将具有空间关系的信息编码为2维张量或3维张量编码,将历史动作序列编码为时序信息编码,将其他信息编码为第三类编码;其他信息包括位置信息、速度信息以及合法动作集合;将2维张量或3维张量编码、时序信息编码以及第三类编码分别输入到策略网络的卷积网络模块、长短时间记忆模块和第三全连接网络模块中进行特征提取,并将得到的空间信息的高维特征、历史序列中的隐藏状态以及其他信息的高维特征输入到策略网络的第四全连接网络模块,得到抽象特征;将抽象特征输入到策略网络的SoftMax层,得到动作概率分布预测值;根据动作概率分布预测值、集成价值网络状态动作估计值的平均值,确定策略网络的误差函数;根据策略网络的误差函数采用梯度上升方法,对策略网络的参数进行更新。
在其中一个实施例中,价值网络和策略网络的参数更新模块,还用于根据动作概率分布预测值、集成价值网络状态动作估计值的平均值,确定策略网络的误差函数表达式如式(3)所示。
在其中一个实施例中,策略快速排位模块中方差缩减方法包括:将种群策略池中第一个策略网络作为当前策略网络;通过选用当前策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗L局,并计算L局对抗的累积得分值;根据对抗的累积得分值与对应复盘状态下采用更新后的策略网络自博弈的累积得分值之间的差值作为更新后的策略网络对抗得分的评估值的无偏估计;复盘状态为保存采用更新后的策略网络的防守方计算机与选用当前策略网络的进攻方计算机L局的状态,更新后的策略网络自博弈时加载保存的状态,不重新随机生成;将更新后的策略网络对抗得分的评估值的无偏估计的L局平均值作为第一个策略网络排序得分值;将当前策略网络更新为种群策略池中第二个策略网络,继续对下一轮对抗,直到种群策略池中所有策略网络都遍历完为止,得到种群策略池中所有策略网络的排序得分值;根据所有策略网络的排序得分值对种群策略池中所有策略网络和更新后的策略网络进行排位操作,并更新种群策略池。
在其中一个实施例中,策略快速排位模块中的缩减种群策略池规模的方法具体包括:当种群策略池的规模大于预设种群规模时,计算更新后的策略网络与种群策略池中每个策略的多样性值;多样性值计算表达式如式(4)所示;根据多样性值从大到小的顺序对种群策略池中的策略网络进行排序,并剔除排序靠后的d个策略网络,得到新的种群策略池;其中
Figure 69717DEST_PATH_IMAGE104
种群策略池的规模
Figure 423338DEST_PATH_IMAGE106
预设种群规模。
关于快速自博弈强化学习装置的具体限定可以参见上文中对于快速自博弈强化学习方法的限定,在此不再赘述。上述快速自博弈强化学习装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种快速自博弈强化学习方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种快速自博弈强化学习方法,其特征在于,所述方法包括:
获取不完全信息机器博弈的博弈环境及博弈环境中的两个博弈参与者;两个博弈参与者分别为防守方计算机和进攻方计算机;
初始化策略网络及多个独立价值网络的参数和超参数,并初始化种群策略池和样本采样策略;多个所述独立价值网络是多个结构相同,参数不共享的网络;
根据所述样本采样策略与博弈环境进行交互,采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量,根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池;所述完全信息观察量包括:不完全信息观察量和进攻方计算机的私有信息;
根据所述进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新,并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差;
根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差,确定下一时刻样本采样策略,根据下一时刻样本采样策略与博弈环境进行交互,采集不完全信息观察量,采用负样本数据增强方式更新扩展经验回放池,从更新的扩展经验回放池中采集预定数量数据对所述策略网络的参数进行更新;
通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗,并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作,更新种群策略池,进入下一轮参数迭代过程,直到满足预设条件,得到能击败种群策略池中排位第一且训练收敛的策略网络;
根据编码后的不完全信息观察量对训练收敛的策略网络进行测试,得到防守方计算机的最优策略,然后将所述最优策略存入所述种群策略池。
2.根据权利要求1所述的方法,其特征在于,根据所述样本采样策略与博弈环境进行交互,采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量,根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池,包括:
根据所述样本采样策略与博弈环境进行交互,采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量,得到不完全信息观察量和进攻方计算机的私有信息;将所述不完全信息观察量作为当前时刻样本,所述当前时刻样本包括:当前时刻状态、当前时刻状态下动作、下一时刻状态、当前回报值、终止状态标志位;
根据当前时刻状态,确定当前时刻状态下的非法动作集合;
遍历当前时刻状态下的非法动作集合,并行多线程创建模拟器,复制当前时刻状态,在对应模拟器中执行非法动作,得到增强负样本,并将所述增强负样本添加到扩展经验回放池中;
若当前动作为合法动作,继续在模拟器中执行当前时刻状态下的原合法动作,得到正样本;
获取下一时刻状态,将当前时刻状况更新为下一时刻状态,继续进行负样本增强处理,直到满足预设样本数条件为止,将正样本添加到扩展经验回放池中。
3.根据权利要求1所述的方法,其特征在于,所述独立价值网络包括:编码模块,由卷积神经网络模块、长短时间记忆模块和第一全连接网络模块组成的并行结构网络模块,以及第二全连接网络模块;独立价值网络的数量为N个,N为大于等于3的整数;
根据所述进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新,并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差,包括:
将所述进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到第一个独立价值网络的所述编码模块中进行编码,得到私有信息编码和不完全信息观察量编码;所述不完全信息观察量编码和所述私有信息编码的编码类型包括:2维张量或3维张量编码、时序信息编码、第三类编码;
将所述私有信息编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的所述卷积神经网络模块、所述长短时间记忆模块以及第一全连接网络模块中进行特征提取,得到私有信息特征;
将所述不完全信息观察量编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的所述卷积神经网络模块、所述长短时间记忆模块以及第一全连接网络模块中进行特征提取,得到不完全信息观察量特征;
将所述私有信息特征和所述不完全信息观察量特征输入到第一个独立价值网络的所述第二全连接网络模块中,得到第一个独立价值网络输出的状态动作预测值;
将进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到其他N-1个独立价值网络中,得到其他N-1个独立价值网络输出的状态动作预测值;
根据N个独立价值网络输出的状态动作预测值,计算N个独立价值网络状态动作估计值的平均值和标准差;
根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值,确定每个独立价值网络的权重误差函数;根据每个独立价值网络的权重误差函数,得到集成价值网络的权重误差函;
根据集成价值网络的权重误差函数采用梯度下降的方法,对每个独立价值网络的参数进行更新;
根据N个独立价值网络状态动作估计值的平均值和标准差,确定集成价值网络状态动作估计值的平均值和标准差。
4.根据权利要求3所述的方法,其特征在于,根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值,确定每个独立价值网络的权重误差函数;根据每个独立价值网络的权重误差函数,得到集成价值网络的权重误差函,包括:
根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值,确定每个独立价值网络的权重误差函数为:
Figure 588345DEST_PATH_IMAGE001
其中:
Figure 36644DEST_PATH_IMAGE002
为每个独立的价值网络的权重误差函数,
Figure 81960DEST_PATH_IMAGE003
t时刻从扩展经验回放池采样的数据,
Figure 509793DEST_PATH_IMAGE004
为信任权重,
Figure 855323DEST_PATH_IMAGE005
t时刻状态,
Figure 943365DEST_PATH_IMAGE006
Figure 741557DEST_PATH_IMAGE007
时刻的动作,
Figure 206036DEST_PATH_IMAGE008
Figure 406073DEST_PATH_IMAGE009
Figure 665016DEST_PATH_IMAGE010
N个独立价值网络状态动作估计值的平均值,
Figure 950504DEST_PATH_IMAGE011
为t时刻回报值,
Figure 218674DEST_PATH_IMAGE012
为温度参数,
Figure 7639DEST_PATH_IMAGE013
为折扣因子;
Figure 470106DEST_PATH_IMAGE014
为第
Figure 977311DEST_PATH_IMAGE015
个独立价值网络的状态动作预测值,
Figure 783593DEST_PATH_IMAGE016
为第
Figure 958223DEST_PATH_IMAGE017
个独立价值网络的网络参数;
根据每个独立价值网络的权重误差函数,得到集成价值网络的权重误差函为:
Figure 824547DEST_PATH_IMAGE018
其中,
Figure 819048DEST_PATH_IMAGE019
为集成价值网络的权重误差函,
Figure 163442DEST_PATH_IMAGE020
为一个采样批次的大小,
Figure 192578DEST_PATH_IMAGE021
为服从参数为
Figure 229804DEST_PATH_IMAGE022
的伯努利分布的权重项,
Figure 711601DEST_PATH_IMAGE023
为第i个独立价值网络的权重误差函数。
5.根据权利要求1所述的方法,其特征在于,所述策略网络包括:编码模块,由卷积网络模块、长短时间记忆模块和第三全连接网络模块组成的并行结构网络模块,第四全连接网络模块以及SoftMax层;
根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差,确定下一时刻样本采样策略,根据下一时刻样本采样策略与博弈环境进行交互,采集不完全信息观察量,采用负样本数据增强方式更新扩展经验回放池,从更新的扩展经验回放池中采集预定数量数据对所述策略网络的参数进行更新,包括:
根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差,确定下一时刻样本采样策略;
根据下一时刻样本采样策略与博弈环境进行交互采集的不完全信息观察量采用负样本数据增强方式更新扩展经验回放池;
从更新的扩展经验回放池中采集预定数量数据输入到所述策略网络的编码模块中,将具有空间关系的信息编码为2维张量或3维张量编码,将历史动作序列编码为时序信息编码,将其他信息编码为第三类编码;所述其他信息包括位置信息、速度信息以及合法动作集合;
将所述2维张量或3维张量编码、所述时序信息编码以及所述第三类编码分别输入到所述策略网络的卷积网络模块、长短时间记忆模块和第三全连接网络模块中进行特征提取,并将得到的空间信息的高维特征、历史序列中的隐藏状态以及其他信息的高维特征输入到所述策略网络的第四全连接网络模块,得到抽象特征;
将所述抽象特征输入到所述策略网络的SoftMax层,得到动作概率分布预测值;
根据所述动作概率分布预测值、集成价值网络状态动作估计值的平均值,确定策略网络的误差函数;
根据策略网络的误差函数采用梯度上升方法,对策略网络的参数进行更新。
6.根据权利要求5所述的方法,其特征在于,根据所述动作概率分布预测值、集成价值网络状态动作估计值的平均值,确定策略网络的误差函数,包括:
根据所述动作概率分布预测值、集成价值网络状态动作估计值的平均值,确定策略网络的误差函数为:
Figure 859685DEST_PATH_IMAGE024
其中,
Figure 256511DEST_PATH_IMAGE025
为样本采样策略,
Figure 730218DEST_PATH_IMAGE026
Figure 433732DEST_PATH_IMAGE027
Figure 385507DEST_PATH_IMAGE028
时刻集成价值网络状态动作估计值的平均值,
Figure 123656DEST_PATH_IMAGE029
为集成价值网络状态动作估计值的标准差,
Figure 768264DEST_PATH_IMAGE030
t时刻状态,
Figure 224653DEST_PATH_IMAGE031
t时刻状态
Figure 714540DEST_PATH_IMAGE032
下的动作集合,
Figure 307196DEST_PATH_IMAGE033
为平衡利用与探索的权重,
Figure 857126DEST_PATH_IMAGE034
Figure 302276DEST_PATH_IMAGE035
时刻的动作
Figure 861433DEST_PATH_IMAGE036
服从状态为s时候的动作概率分布,
Figure 308595DEST_PATH_IMAGE037
为策略网络的参数,
Figure 29426DEST_PATH_IMAGE038
为策略网络输出的动作概率分布预测值。
7.根据权利要求1所述的方法,其特征在于,通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗,并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作,更新种群策略池,进入下一轮参数迭代过程,直到满足预设条件,得到能击败种群策略池中排位第一且训练收敛的策略网络,步骤中所述方差缩减方法的具体步骤包括:
将所述种群策略池中第一个策略网络作为当前策略网络;
通过选用当前策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗L局,并计算L局对抗的累积得分值;
根据所述对抗的累积得分值与对应复盘状态下采用更新后的策略网络自博弈的累积得分值之间的差值作为更新后的策略网络对抗得分的评估值的无偏估计;所述复盘状态为保存采用更新后的策略网络的防守方计算机与选用当前策略网络的进攻方计算机L局的状态,更新后的策略网络自博弈时加载保存的状态,不重新随机生成;
将更新后的策略网络对抗得分的评估值的无偏估计的L局平均值作为第一个策略网络排序得分值;将当前策略网络更新为种群策略池中第二个策略网络,继续对下一轮对抗,直到所述种群策略池中所有策略网络都遍历完为止,得到所述种群策略池中所有策略网络的排序得分值;
根据所有策略网络的排序得分值对种群策略池中所有策略网络和更新后的策略网络进行排位操作,并更新所述种群策略池。
8.根据权利要求1所述的方法,其特征在于,通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗,并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作,更新种群策略池,进入下一轮参数迭代过程,直到满足预设条件,得到能击败种群策略池中排位第一且训练收敛的策略网络,步骤中所述缩减种群策略池规模的方法的具体步骤包括:
当种群策略池的规模大于预设种群规模时,计算更新后的策略网络与所述种群策略池中每个策略的多样性值;所述多样性值计算表达式为:
Figure 460408DEST_PATH_IMAGE039
其中:
Figure 292098DEST_PATH_IMAGE040
为更新后的策略网络与种群池中第i个策略
Figure 124924DEST_PATH_IMAGE041
的多样性值,
Figure 751078DEST_PATH_IMAGE042
为求期望函数,
Figure 669355DEST_PATH_IMAGE043
为状态s按随机策略
Figure 337359DEST_PATH_IMAGE044
采样,
Figure 759113DEST_PATH_IMAGE045
为两个概率分布的交叉熵,
Figure 821747DEST_PATH_IMAGE046
为更新后的策略网络,
Figure 961742DEST_PATH_IMAGE047
为状态为s时的动作概率分布;
根据所述多样性值从大到小的顺序对种群策略池中的策略网络进行排序,并剔除排序靠后的d个策略网络,得到新的种群策略池;其中
Figure 666392DEST_PATH_IMAGE048
种群策略池的规模
Figure 942653DEST_PATH_IMAGE049
预设种群规模。
9.一种快速自博弈强化学习装置,其特征在于,所述装置包括:
博弈环境获取模块,用于获取不完全信息机器博弈的博弈环境及博弈环境中的两个博弈参与者;两个博弈参与者分别为防守方计算机和进攻方计算机;
强化学习初始化模块,用于初始化策略网络及多个独立价值网络的参数和超参数,并初始化种群策略池和样本采样策略;多个所述独立价值网络是多个结构相同,参数不共享的网络;
负样本数据增强模块,用于根据所述样本采样策略与博弈环境进行交互,采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量,根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池;所述完全信息观察量包括:不完全信息观察量和进攻方计算机的私有信息;
价值网络和策略网络的参数更新模块,用于根据所述进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新,并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差;根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差,确定下一时刻样本采样策略,根据下一时刻样本采样策略与博弈环境进行交互,采集不完全信息观察量,采用负样本数据增强方式更新扩展经验回放池,从更新的扩展经验回放池中采集预定数量数据对所述策略网络的参数进行更新;
策略快速排位模块,用于通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗,并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作,更新种群策略池,进入下一轮参数迭代过程,直到满足预设条件,得到能击败种群策略池中排位第一且训练收敛的策略网络;根据编码后的不完全信息观察量对训练收敛的策略网络进行测试,得到防守方计算机的最优策略,然后将所述最优策略存入所述种群策略池。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
CN202210951195.2A 2022-08-09 2022-08-09 快速自博弈强化学习方法、装置、计算机设备和存储介质 Pending CN115033878A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210951195.2A CN115033878A (zh) 2022-08-09 2022-08-09 快速自博弈强化学习方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210951195.2A CN115033878A (zh) 2022-08-09 2022-08-09 快速自博弈强化学习方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115033878A true CN115033878A (zh) 2022-09-09

Family

ID=83130801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210951195.2A Pending CN115033878A (zh) 2022-08-09 2022-08-09 快速自博弈强化学习方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115033878A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070719A (zh) * 2023-03-20 2023-05-05 鹏城实验室 一种跨计算节点分布式训练高效通信方法及系统
CN116708042A (zh) * 2023-08-08 2023-09-05 中国科学技术大学 一种用于网络防御博弈决策的策略空间探索方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116070719A (zh) * 2023-03-20 2023-05-05 鹏城实验室 一种跨计算节点分布式训练高效通信方法及系统
CN116708042A (zh) * 2023-08-08 2023-09-05 中国科学技术大学 一种用于网络防御博弈决策的策略空间探索方法
CN116708042B (zh) * 2023-08-08 2023-11-17 中国科学技术大学 一种用于网络防御博弈决策的策略空间探索方法

Similar Documents

Publication Publication Date Title
Li et al. Emergent world representations: Exploring a sequence model trained on a synthetic task
CN111954564B (zh) 在球队运动中进行交互的、可说明的且改进的比赛和球员表现预测的方法和系统
CN113468803B (zh) 一种基于改进的woa-gru洪水流量预测方法及系统
CN115033878A (zh) 快速自博弈强化学习方法、装置、计算机设备和存储介质
Liu et al. Efficient reinforcement learning for starcraft by abstract forward models and transfer learning
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
Dittadi et al. Planning from pixels in atari with learned symbolic representations
Lu et al. Counting crowd by weighing counts: A sequential decision-making perspective
Li et al. Solving large-scale pursuit-evasion games using pre-trained strategies
Kuravsky et al. An applied multi-agent system within the framework of a player-centered probabilistic computer game
CN112274935A (zh) Ai模型训练方法、使用方法、计算机设备及存储介质
CN115909027B (zh) 一种态势估计方法及装置
Dockhorn Prediction-based search for autonomous game-playing
CN113134238A (zh) 关卡设置方法、装置、计算机设备和存储介质
Dahl The lagging anchor algorithm: Reinforcement learning in two-player zero-sum games with imperfect information
Mattes et al. Hieros: Hierarchical Imagination on Structured State Space Sequence World Models
CN114866356B (zh) 基于元学习的策略博弈的行为预测方法和预测器
Mai Deep Learning Based Player Identification Via Behavioral Characteristics
Askren Survey of Deep Neural Networks Handling Plan Development using Simulations of Real-World Environments
Boqin et al. Game difficulty prediction algorithm based on improved Monte Carlo tree
CN113989080B (zh) 基于深度知识-项目联合追踪的学习者画像方法及其系统
Ayton et al. Is Policy Learning Overrated?: Width-Based Planning and Active Learning for Atari
Kocan Attention-Guided Explainable Reinforcement Learning: Key State Memorization and Experience-Based Prediction
Dainese Deep Reinforcement Learning methods for StarCraft II Learning Environment
Antonoglou Learning to search in reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220909