CN115033878A

CN115033878A - 快速自博弈强化学习方法、装置、计算机设备和存储介质

Info

Publication number: CN115033878A
Application number: CN202210951195.2A
Authority: CN
Inventors: 陈少飞; 袁唯淋; 胡振震; 刘鸿福; 陆丽娜; 陈佳星; 李鑫; 陈璟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2022-09-09

Abstract

本申请涉及人工智能技术领域的一种快速自博弈强化学习方法、装置、计算机设备和存储介质。所述方法针对机器博弈中防守方计算机与进攻方计算机之间大规模不完全信息博弈问题，采用强化学习的方法，通过负样本增强方法加速样本采集过程，通过完全信息评估不完全信息训练框架加速自博弈过程中策略网络的收敛，通过方差缩减和策略多样性保持来减小评估的局数与压缩种群策略池规模，加速种群策略池评估排序过程。本方法降低了博弈过程的开销，缩短了大规模不完全信息机器博弈问题的收敛时间，可以学习到更加有效防护策略，采用本方法可以提高参与机器博弈的计算机的响应速度和智能化水平。

Description

快速自博弈强化学习方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种快速自博弈强化学习方法、装置、计算机设备和存储介质。

背景技术

从人工智能发展的萌芽阶段开始，机器博弈就交织其中，机器博弈是人工智能领域的最具挑战性的研究方向之一。机器博弈不仅在学术界掀起了对其研究的热潮，还带动与之高度密切相关的游戏产业飞速发展。

不完全信息博弈是指博弈中的参与者是理性的但非智能性的，即参与者具有优化自己得益的能力，能够采取使自己得益极大化的理性行动，但是他在选择行动时并不了解其他参与者所处的状态及采取的策略，比如在德州扑克中，博弈者只能看到自己手牌和公共牌而无法知晓对手的手牌。不完全信息博弈的复杂度与博弈者数量、信息的不确定性程度以及博弈规则等密切相关，是机器博弈研究颇具挑战性的一个分支。

由于大规模不完全信息机器博弈过程状态动作空间巨大，使问题复杂程度加剧。现有的自博弈强化学习不能满足大规模不完全信息机器博弈过程中能够有效、快速的应对对手的攻击策略的要求。

发明内容

基于此，有必要针对上述技术问题，提供一种快速自博弈强化学习方法、装置、计算机设备和存储介质。

一种快速自博弈强化学习方法，所述方法包括：

获取不完全信息机器博弈的博弈环境及博弈环境中的两个博弈参与者；两个博弈参与者分别为防守方计算机和进攻方计算机。

初始化策略网络及多个独立价值网络的参数和超参数，并初始化种群策略池和样本采样策略；多个所述独立价值网络是多个结构相同，参数不共享的网络。

根据所述样本采样策略与博弈环境进行交互，采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量，根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池；所述完全信息观察量包括：不完全信息观察量和进攻方计算机的私有信息。

根据所述进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新，并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差。

根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差，确定下一时刻样本采样策略，根据下一时刻样本采样策略与博弈环境进行交互，采集不完全信息观察量，采用负样本数据增强方式更新扩展经验回放池，从更新的扩展经验回放池中采集预定数量数据对所述策略网络的参数进行更新。

通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗，并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作，更新种群策略池，进入下一轮参数迭代过程，直到满足预设条件，得到能击败种群策略池中排位第一且训练收敛的策略网络。

根据编码后的不完全信息观察量对训练收敛的策略网络进行测试，得到防守方计算机的最优策略，然后将所述最优策略存入所述种群策略池。

一种快速自博弈强化学习装置，所述装置包括：

博弈环境获取模块，用于获取不完全信息机器博弈的博弈环境及博弈环境中的两个博弈参与者；两个博弈参与者分别为防守方计算机和进攻方计算机。

强化学习初始化模块，用于初始化策略网络及多个独立价值网络的参数和超参数，并初始化种群策略池和样本采样策略；多个所述独立价值网络是多个结构相同，参数不共享的网络。

负样本数据增强模块，用于根据所述样本采样策略与博弈环境进行交互，采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量，根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池；所述完全信息观察量包括：不完全信息观察量和进攻方计算机的私有信息。

价值网络和策略网络的参数更新模块，用于根据所述进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新，并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差；根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差，确定下一时刻样本采样策略，根据下一时刻样本采样策略与博弈环境进行交互，采集不完全信息观察量，采用负样本数据增强方式更新扩展经验回放池，从更新的扩展经验回放池中采集预定数量数据对所述策略网络的参数进行更新。

策略快速排位模块，用于通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗，并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作，更新种群策略池，进入下一轮参数迭代过程，直到满足预设条件，得到能击败种群策略池中排位第一且训练收敛的策略网络；根据编码后的不完全信息观察量对训练收敛的策略网络进行测试，得到防守方计算机的最优策略，然后将所述最优策略存入所述种群策略池。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述方法的步骤。

上述快速自博弈强化学习方法、装置、计算机设备和存储介质，所述方法针对机器博弈中防守方计算机与进攻方计算机之间大规模不完全信息博弈问题，采用强化学习的方法，通过负样本增强方法加速样本采集过程，通过完全信息评估不完全信息训练框架加速自博弈过程中策略网络的收敛，通过方差缩减和策略多样性保持来减小评估的局数与压缩种群策略池规模，加速种群策略池评估排序过程。本方法降低了博弈过程的开销，缩短了大规模不完全信息机器博弈问题的收敛时间，可以学习到更加有效防护策略，采用本方法可以提高参与机器博弈的计算机的响应速度和智能化水平。

附图说明

图1为一个实施例中快速自博弈强化学习方法的流程示意图；

图2为一个实施例中快速自博弈强化学习框架；

图3为一个实施例中负样本数据增强具体流程图；

图4为另一个实施例中单个独立价值网络结构图；

图5为另一个实施例中单个独立价值网络结构图；

图6为另一个实施例中策略网络结构图；

图7为另一个实施例中策略网络结构图；

图8为一个实施例中快速自博弈强化学习装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在不完全信息博弈过程中，存在部分信息不完全可观，例如：对手的目标、对手类型、对手的收益函数等私有信息，定义观察量为

。其中：

表示完全信息状态，包含对手状态中可观察的部分。定义（对手）的不完全信息为：

。引入博弈理论信息集合的概念，定义完全信息

所在的信息集合为

。

在一个实施例中，如图1、图2所示，提供了一种快速自博弈强化学习方法，该方法包括以下步骤：

步骤100：获取不完全信息机器博弈的博弈环境及博弈环境中的两个博弈参与者；两个博弈参与者分别为防守方计算机和进攻方计算机。

具体的，博弈环境为防守方计算机与进攻方计算机之间的不完全信息机器博弈环境，防守方计算机与进攻方计算机之间的机器博弈可以是扑克类游戏博弈，例如德州扑克，桥牌类游戏等。机器博弈也可以为城市安全、反恐维稳、边境缉毒以及野生动物保护等模拟场景中防守方计算机与进攻方计算机之间的博弈。

进攻方计算机采用种群策略池中的固定博弈策略，防守方计算机采用强化学习的方式确定的博弈策略。

步骤102：初始化策略网络及多个独立价值网络的参数和超参数，并初始化种群策略池和样本采样策略；多个独立价值网络是多个结构相同，参数不共享的网络。

多个独立价值网络是多个结构相同，参数不共享的网络。

具体的，策略网络和多个独立价值网络的参数和超参数是初始化为随机值。策略网络是给定输入样本，通过学习给出一个确定输出的网络。独立价值网络通过计算目前状态的累积回报的期望，独立价值网络给博弈中的状态动作对赋予一个期望估计值，每个状态都经历了整个数值网络，奖赏更多的状态动作对显然在独立价值网络中的值更大。

种群策略池是用于存放训练好的博弈策略的空间。

样本采样策略采用随机初始化的方式。样本采样策略是用于与博弈环境进行交互，产生训练数据集。

步骤104：根据样本采样策略与博弈环境进行交互，采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量，根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池；完全信息观察量包括：不完全信息观察量和进攻方计算机的私有信息。

完全信息观察量包括：不完全信息观察量和进攻方计算机的私有信息。

具体的，负样本数据增强用于扩充样本，加速采样过程，提高学习速度。

步骤106：根据进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新，并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差。

步骤108：根据预定数量数据以及集成价值网络状态动作估计值的平均值和标准差，确定下一时刻样本采样策略，根据下一时刻样本采样策略与博弈环境进行交互，采集不完全信息观察量，采用负样本数据增强方式更新扩展经验回放池，从更新的扩展经验回放池中采集预定数量数据对策略网络的参数进行更新。

步骤110：通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗，并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作，更新种群策略池，进入下一轮参数迭代过程，直到满足预设条件，得到能击败种群策略池中排位第一且训练收敛的策略网络。

步骤112：根据编码后的不完全信息观察量对训练收敛的策略网络进行测试，得到防守方计算机的最优策略，然后将最优策略存入种群策略池。

上述快速自博弈强化学习方法中，针对机器博弈中防守方计算机与进攻方计算机之间大规模不完全信息博弈问题，采用强化学习的方法，通过负样本增强方法加速样本采集过程，通过完全信息评估不完全信息训练框架加速自博弈过程中策略网络的收敛，通过方差缩减和策略多样性保持来减小评估的局数与压缩种群策略池规模，加速种群策略池评估排序过程。本方法降低了博弈过程的开销，缩短了大规模不完全信息机器博弈问题的收敛时间，可以学习到更加有效防护策略，采用本方法可以提高参与机器博弈的计算机的响应速度和智能化水平。

本方法在城市安全、反恐维稳、边境缉毒以及野生动物保护等领域可广泛应用，同时，本方法也对自主移动机器人产业、游戏产业、元宇宙产业等具有辐射带动作用。

在其中一个实施例中，步骤104包括：根据样本采样策略与博弈环境进行交互，采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量，得到不完全信息观察量和进攻方计算机的私有信息；将不完全信息观察量作为当前时刻样本，当前时刻样本包括：当前时刻状态、当前时刻状态下动作、下一时刻状态、当前回报值、终止状态标志位；根据当前时刻状态，确定当前时刻状态下的非法动作集合；遍历当前时刻状态下的非法动作集合，并行多线程创建模拟器，复制当前时刻状态，在对应模拟器中执行非法动作，得到增强负样本，并将增强负样本添加到扩展经验回放池中；若当前动作为合法动作，继续在模拟器中执行当前时刻状态下的原合法动作，得到正样本；获取下一时刻状态，将当前时刻状况更新为下一时刻状态，继续进行负样本增强处理，直到满足预设样本数条件为止，将正样本添加到扩展经验回放池中。

具体的，离线强化学习算法采用样本采样策略与环境交互进行采样，并将样本存入经验回放池。定义采样过程中的一条轨迹为：

，

。其中:

代表轨迹中状态

下的合法动作，

为轨迹中状态

下的回报值，

表示终止状态标志位。当经验回放池中样本数量达到一定规模时，学习算法按照一定机制从扩展经验回放池中采样一个批次样本进行学习训练。

数据增强是机器学习领域的常用方法，如：翻转，旋转，裁剪，缩放，平移，抖动等几何变换方法。在强化学习中，本发明采用负样本数据增强方法，用于扩充样本，加速采样过程，提高学习速度。定义状态

时的非法动作集合为

，非法动作集合大小为

，非法动作

。则轨迹中任意一个样本数据

对应的负样本集合为：

}，其中：

代表模拟器中状态转移的结果，属于终端节点集，即：

，扩展轨迹.

。所有状态对应的负样本集合大小为

。对大规模博弈而言，在

往往高达10的10至20次方。负样本数据增强达到了快速扩充经验回放池的效果。并且，创建在并行的多线程上的模拟器只需要执行一步仿真就可以同时获取大量负样本。任何非法动作都会立刻获得负的回报信号。因此，负样本有助于算法快速学习到模拟器中的规则边界。负样本数据增强具体流程图如图3所示。

在其中一个实施例中，如图4所示，独立价值网络包括：编码模块，由卷积神经网络模块、长短时间记忆模块和第一全连接网络模块组成的并行结构网络模块，以及第二全连接网络模块；独立价值网络的数量为N个，N为大于等于3的整数；其中，第一全连接网络模块与第二全连接网络模块的网络结构不同的全连接网络；步骤106包括：将进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到第一个独立价值网络的编码模块中进行编码，得到私有信息编码和不完全信息观察量编码；不完全信息观察量编码和私有信息编码的编码类型包括：2维张量或3维张量编码、时序信息编码、第三类编码；将私有信息编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的卷积神经网络模块、长短时间记忆模块以及第一全连接网络模块中进行特征提取，得到私有信息特征；将不完全信息观察量编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的卷积神经网络模块、长短时间记忆模块以及第一全连接网络模块中进行特征提取，得到不完全信息观察量特征；将私有信息特征和不完全信息观察量特征输入到第一个独立价值网络的第二全连接网络模块中，得到第一个独立价值网络输出的状态动作预测值；将进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到其他N-1个独立价值网络中，得到其他N-1个独立价值网络输出的状态动作预测值；根据N个独立价值网络输出的状态动作预测值，计算N个独立价值网络状态动作估计值的平均值和标准差；根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值，确定每个独立价值网络的权重误差函数；根据每个独立价值网络的权重误差函数，得到集成价值网络的权重误差函；根据集成价值网络的权重误差函数采用梯度下降的方法，对每个独立价值网络的参数进行更新；根据N个独立价值网络状态动作估计值的平均值和标准差，确定集成价值网络状态动作估计值的平均值和标准差。

具体的，进攻方计算机的私有信息不狭义指对手的私有（不可观）状态信息，也包括在当前信息集下，对手私有信息的概率分布。由于进攻方计算机的真实状态信息可观，态势透明，因此，价值网络不需要对时序信息（如：历史动作）进行编码来隐式推断进攻方计算机的私有状态信息。价值网络的训练数据集，由上一时刻的样本采样策略与环境交互生成。策略网络训练完成后，不再使用价值网络对策略进行评估预测。因此，价值网络无需验证数据集，在实际对抗中也无法获取进攻方计算机的私有信息。进攻方计算机的私有信息只在训练过程中通过全局视角提供给价值网络，辅助对策略的评估，并提高评估的准确性。另一方面，将完全信息嵌入到状态动作值函数中，策略网络在误差反向传播过程中，通过蒸馏的完全信息，完成隐式进攻方建模过程，加速价值网络的快速收敛，从而提速整个学习过程。

在一个具体的实施例中，单个独立价值网络的结构如图5所示，将完全信息（包括：己方手牌、对手手牌、公共牌、位置信息等）编码，其中所有牌信息编码成一个8*4*13的3维张量，输入卷积神经网络（ConvNet）处理，位置信息编码成一个1*4的一维数组输入全连接层（FC）处理。

在其中一个实施例中，步骤：根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值，确定每个独立价值网络的权重误差函数，包括：根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值，确定每个独立价值网络的权重误差函数为：

（1）

其中：

为每个独立的价值网络的权重误差函数，

为t时刻从扩展经验回放池采样的数据，

为信任权重，

为t时刻状态，

为

时刻的动作，

，

，

为N个独立价值网络状态动作估计值的平均值，

为t时刻回报值，

为温度参数，

为折扣因子；

为第

个独立价值网络的状态动作预测值，

为第

个独立价值网络的网络参数；

，

为sigmoid激活函数，

为温度参数T1，

为常数，

为N个独立目标价值函数的标准差。

根据每个独立价值网络的权重误差函数，得到集成价值网络的权重误差函为：

（2）

其中，

为集成价值网络的权重误差函，

为一个采样批次的大小，

为服从参数为

的伯努利分布的权重项，

为第i个独立价值网络的权重误差函数。

在其中一个实施例中，如图6所示，策略网络包括：编码模块，由卷积网络模块、长短时间记忆模块和第三全连接网络模块组成的并行结构网络模块，第四全连接网络模块以及SoftMax层；步骤108包括：根据预定数量数据以及集成价值网络状态动作估计值的平均值和标准差，确定下一时刻样本采样策略；根据下一时刻样本采样策略与博弈环境进行交互采集的不完全信息观察量采用负样本数据增强方式更新扩展经验回放池；从更新的扩展经验回放池中采集预定数量数据输入到策略网络的编码模块中，将具有空间关系的信息编码为2维张量或3维张量编码，将历史动作序列编码为时序信息编码，将其他信息编码为第三类编码；其他信息包括位置信息、速度信息以及合法动作集合；将2维张量或3维张量编码、时序信息编码以及第三类编码分别输入到策略网络的卷积网络模块、长短时间记忆模块和第三全连接网络模块中进行特征提取，并将得到的空间信息的高维特征、历史序列中的隐藏状态以及其他信息的高维特征输入到策略网络的第四全连接网络模块，得到抽象特征；将抽象特征输入到策略网络的SoftMax层，得到动作概率分布预测值；根据动作概率分布预测值、集成价值网络状态动作估计值的平均值，确定策略网络的误差函数；根据策略网络的误差函数采用梯度上升方法，对策略网络的参数进行更新。

具体的，将观察量

进行编码，将不同类型的信息使用不同的编码方式表示。例如：具有空间关系的信息（如：地图栅格信息）使用2维张量编码或3维张量编码表示，历史动作序列的信息用时序信息编码表示，其他信息（如：位置信息、速度信息、合法动作集合等信息）用第三类编码表示。

2维张量编码或3维张量编码采用卷积神经网络（ConvNet）提取高维特征；时序信息编码采用长短时记忆网络（LSTM）处理，提取历史序列中的隐藏状态；第三类编码采用第一全连接网络模块提取特征。提取的所有高维特征，经过第二全连接网络模块进一步提取抽象特征，最后通过SoftMax层进行归一化输出动作概率分布，完成策略网络的构建。策略网络的训练数据集由上一时刻的样本采样策略

和博弈环境交互生成，验证数据集由在线对抗过程中，训练收敛的策略网络和环境交互产生（对手策略固定）。验证与训练时，策略网络的输入均相同，均为不完全信息观察的编码。

在一个具体的实施例中，策略网络的具体结构如图7所示，卷积核步幅为1*1，全连接层的激活函数为ReLu(Leaky ReLu)。以典型的不完全信息机器博弈中的德州扑克游戏为例，将不完全信息观察量（包括：己方手牌、公共牌、大盲注位置、小盲注位置、庄家位置、当前玩家位置、合法动作集合、历史动作序列）编码，其中己方手牌与公共牌编码成一个6*4*13的3维张量，输入ConvNet处理，历史动作序列输入LSTM网络处理，位置相关信息和合法动作集合编码成一维数组输入全连接层（FC）处理。

在其中一个实施例中，步骤：根据动作概率分布预测值、集成价值网络状态动作估计值的平均值，确定策略网络的误差函数，包括：根据动作概率分布预测值、集成价值网络状态动作估计值的平均值，确定策略网络的误差函数为：

（3）

其中，

为样本采样策略，

，

是

时刻集成价值网络状态动作估计值的平均值，

为集成价值网络状态动作估计值的标准差，

为t时刻状态，

为t时刻状态

下的动作集合，

是平衡利用与探索的权重，

为

时刻的动作

服从状态为s时候的动作概率分布（

是样本采样策略

采样处理的，样本采样策略

的具体含义就是：状态为s时候的动作概率分布，这个状态s是个变量），

为策略网络的参数，

为策略网络输出的动作概率分布预测值。

在其中一个实施例中，步骤110中方差缩减方法的具体步骤包括：将种群策略池中第一个策略网络作为当前策略网络；通过选用当前策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗L局，并计算L局对抗的累积得分值；根据对抗的累积得分值与对应复盘状态下采用更新后的策略网络自博弈的累积得分值之间的差值作为更新后的策略网络对抗得分的评估值的无偏估计；复盘状态为保存采用更新后的策略网络的防守方计算机与选用当前策略网络的进攻方计算机L局的状态，更新后的策略网络自博弈时加载保存的状态，不重新随机生成；将更新后的策略网络对抗得分的评估值的无偏估计的L局平均值作为第一个策略网络排序得分值；将当前策略网络更新为种群策略池中第二个策略网络，继续对下一轮对抗，直到种群策略池中所有策略网络都遍历完为止，得到种群策略池中所有策略网络的排序得分值；根据所有策略网络的排序得分值对种群策略池中所有策略网络和更新后的策略网络进行排位操作，并更新种群策略池。

具体的，通过方差缩减技术，旨在减少评估局数，同时提高评估精度，从而达到降低时间花销，提高收敛速度的目的。

在其中一个实施例中，步骤110中缩减种群策略池规模方法的具体步骤包括：当种群策略池的规模大于预设种群规模时，计算更新后的策略网络与种群策略池中每个策略的多样性值；多样性值计算表达式为：

（4）

其中：

为更新后的策略网络与种群池中第i个策略

的多样性值，

为求期望函数，

为状态s按随机策略

采样，

为两个概率分布的交叉熵，

为更新后的策略网络，

为状态为s时的动作概率分布。

根据多样性值从大到小的顺序对种群策略池中的策略网络进行排序，并剔除排序靠后的d个策略网络，得到新的种群策略池；其中

种群策略池的规模

预设种群规模。

具体的，随着种群策略池的增大，每当策略网络（即策略

）更新后，存入种群策略池时，都需要与种群策略池中的每一个策略

博弈对抗

局，评估现有策略质量并形成排位（即按评估值排序）。则评估的时间开销为

。为了消除随机因素，评估的局数

需要做够大，才能在统计意义上得到评估的无偏估计。

减少评估时间花销还可以通过缩减种群策略池规模实现。然而，种群策略池的规模越大，种群的多样性才能得到保证。维护种群多样性的意义在于寻找到具有相互克制关系的基策略，通过战胜这些基策略，才能螺旋式提高强化学习自博弈生成的策略的质量，才能在应为未知对手时，获得较高的赢率。

为了压减种群规模到

，同时维持种群策略池的多样性，种群策略池中策略多样性指标表示如式（4）所示。

当种群策略池规模

时，计算策略

与种群池中每个策略的多样性值

,并排序，按多样性排序值剔除排序靠后的d个策略，形成种群策略池

。剔除d个有助于增加探索性，动态搜索K个多样性差异较大的基策略。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种快速自博弈强化学习装置，包括：博弈环境获取模块、强化学习初始化模块、负样本数据增强模块、价值网络和策略网络的参数更新模块和策略快速排位模块，其中：

强化学习初始化模块，用于初始化策略网络及多个独立价值网络的参数和超参数，并初始化种群策略池和样本采样策略；多个独立价值网络是多个结构相同，参数不共享的网络。

负样本数据增强模块，用于根据样本采样策略与博弈环境进行交互，采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量，根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池；完全信息观察量包括：不完全信息观察量和进攻方计算机的私有信息。

价值网络和策略网络的参数更新模块，用于根据进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新，并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差；根据预定数量数据以及集成价值网络状态动作估计值的平均值和标准差，确定下一时刻样本采样策略，根据下一时刻样本采样策略与博弈环境进行交互，采集不完全信息观察量，采用负样本数据增强方式更新扩展经验回放池，从更新的扩展经验回放池中采集预定数量数据对策略网络的参数进行更新。

策略快速排位模块，用于通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗，并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作，更新种群策略池，进入下一轮参数迭代过程，直到满足预设条件，得到能击败种群策略池中排位第一且训练收敛的策略网络；根据编码后的不完全信息观察量对训练收敛的策略网络进行测试，得到防守方计算机的最优策略，然后将最优策略存入种群策略池。

在其中一个实施例中，负样本数据增强模块，还用于根据样本采样策略与博弈环境进行交互，采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量，得到不完全信息观察量和进攻方计算机的私有信息；将不完全信息观察量作为当前时刻样本，当前时刻样本包括：当前时刻状态、当前时刻状态下动作、下一时刻状态、当前回报值、终止状态标志位；根据当前时刻状态，确定当前时刻状态下的非法动作集合；遍历当前时刻状态下的非法动作集合，并行多线程创建模拟器，复制当前时刻状态，在对应模拟器中执行非法动作，得到增强负样本，并将增强负样本添加到扩展经验回放池中；若当前动作为合法动作，继续在模拟器中执行当前时刻状态下的原合法动作，得到正样本；获取下一时刻状态，将当前时刻状况更新为下一时刻状态，继续进行负样本增强处理，直到满足预设样本数条件为止，将正样本添加到扩展经验回放池中。

在其中一个实施例中，价值网络包括：编码模块，由卷积神经网络模块、长短时间记忆模块和第一全连接网络模块组成的并行结构网络模块，以及第二全连接网络模块；独立价值网络的数量为N个，N为大于等于3的整数；价值网络和策略网络的参数更新模块，还用于将进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到第一个独立价值网络的编码模块中进行编码，得到私有信息编码和不完全信息观察量编码；不完全信息观察量编码和私有信息编码的编码类型包括：2维张量或3维张量编码、时序信息编码、第三类编码；将私有信息编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的卷积神经网络模块、长短时间记忆模块以及第一全连接网络模块中进行特征提取，得到私有信息特征；将不完全信息观察量编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的卷积神经网络模块、长短时间记忆模块以及第一全连接网络模块中进行特征提取，得到不完全信息观察量特征；将私有信息特征和不完全信息观察量特征输入到第一个独立价值网络的第二全连接网络模块中，得到第一个独立价值网络输出的状态动作预测值；将进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到其他N-1个独立价值网络中，得到其他N-1个独立价值网络输出的状态动作预测值；根据N个独立价值网络输出的状态动作预测值，计算N个独立价值网络状态动作估计值的平均值和标准差；根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值，确定每个独立价值网络的权重误差函数；根据每个独立价值网络的权重误差函数，得到集成价值网络的权重误差函；根据集成价值网络的权重误差函数采用梯度下降的方法，对每个独立价值网络的参数进行更新；根据N个独立价值网络状态动作估计值的平均值和标准差，确定集成价值网络状态动作估计值的平均值和标准差。

具体的，第一全连接网络模块与第二全连接网络模块的网络结构不同的全连接网络。

在其中一个实施例中，价值网络和策略网络的参数更新模块，还用于根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值，确定每个独立价值网络的权重误差函数表达式如式（1）所示。

根据每个独立价值网络的权重误差函数，得到集成价值网络的权重误差函表达式如式（2）所示。

在其中一个实施例中，策略网络包括：编码模块，由卷积网络模块、长短时间记忆模块和第三全连接网络模块组成的并行结构网络模块，第四全连接网络模块以及SoftMax层；价值网络和策略网络的参数更新模块，还用于根据预定数量数据以及集成价值网络状态动作估计值的平均值和标准差，确定下一时刻样本采样策略；根据下一时刻样本采样策略与博弈环境进行交互采集的不完全信息观察量采用负样本数据增强方式更新扩展经验回放池；从更新的扩展经验回放池中采集预定数量数据输入到策略网络的编码模块中，将具有空间关系的信息编码为2维张量或3维张量编码，将历史动作序列编码为时序信息编码，将其他信息编码为第三类编码；其他信息包括位置信息、速度信息以及合法动作集合；将2维张量或3维张量编码、时序信息编码以及第三类编码分别输入到策略网络的卷积网络模块、长短时间记忆模块和第三全连接网络模块中进行特征提取，并将得到的空间信息的高维特征、历史序列中的隐藏状态以及其他信息的高维特征输入到策略网络的第四全连接网络模块，得到抽象特征；将抽象特征输入到策略网络的SoftMax层，得到动作概率分布预测值；根据动作概率分布预测值、集成价值网络状态动作估计值的平均值，确定策略网络的误差函数；根据策略网络的误差函数采用梯度上升方法，对策略网络的参数进行更新。

在其中一个实施例中，价值网络和策略网络的参数更新模块，还用于根据动作概率分布预测值、集成价值网络状态动作估计值的平均值，确定策略网络的误差函数表达式如式（3）所示。

在其中一个实施例中，策略快速排位模块中方差缩减方法包括：将种群策略池中第一个策略网络作为当前策略网络；通过选用当前策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗L局，并计算L局对抗的累积得分值；根据对抗的累积得分值与对应复盘状态下采用更新后的策略网络自博弈的累积得分值之间的差值作为更新后的策略网络对抗得分的评估值的无偏估计；复盘状态为保存采用更新后的策略网络的防守方计算机与选用当前策略网络的进攻方计算机L局的状态，更新后的策略网络自博弈时加载保存的状态，不重新随机生成；将更新后的策略网络对抗得分的评估值的无偏估计的L局平均值作为第一个策略网络排序得分值；将当前策略网络更新为种群策略池中第二个策略网络，继续对下一轮对抗，直到种群策略池中所有策略网络都遍历完为止，得到种群策略池中所有策略网络的排序得分值；根据所有策略网络的排序得分值对种群策略池中所有策略网络和更新后的策略网络进行排位操作，并更新种群策略池。

在其中一个实施例中，策略快速排位模块中的缩减种群策略池规模的方法具体包括：当种群策略池的规模大于预设种群规模时，计算更新后的策略网络与种群策略池中每个策略的多样性值；多样性值计算表达式如式（4）所示；根据多样性值从大到小的顺序对种群策略池中的策略网络进行排序，并剔除排序靠后的d个策略网络，得到新的种群策略池；其中

种群策略池的规模

预设种群规模。

关于快速自博弈强化学习装置的具体限定可以参见上文中对于快速自博弈强化学习方法的限定，在此不再赘述。上述快速自博弈强化学习装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种快速自博弈强化学习方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种快速自博弈强化学习方法，其特征在于，所述方法包括：

获取不完全信息机器博弈的博弈环境及博弈环境中的两个博弈参与者；两个博弈参与者分别为防守方计算机和进攻方计算机；

初始化策略网络及多个独立价值网络的参数和超参数，并初始化种群策略池和样本采样策略；多个所述独立价值网络是多个结构相同，参数不共享的网络；

根据所述样本采样策略与博弈环境进行交互，采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量，根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池；所述完全信息观察量包括：不完全信息观察量和进攻方计算机的私有信息；

根据所述进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新，并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差；

根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差，确定下一时刻样本采样策略，根据下一时刻样本采样策略与博弈环境进行交互，采集不完全信息观察量，采用负样本数据增强方式更新扩展经验回放池，从更新的扩展经验回放池中采集预定数量数据对所述策略网络的参数进行更新；

通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗，并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作，更新种群策略池，进入下一轮参数迭代过程，直到满足预设条件，得到能击败种群策略池中排位第一且训练收敛的策略网络；

2.根据权利要求1所述的方法，其特征在于，根据所述样本采样策略与博弈环境进行交互，采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量，根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池，包括：

根据所述样本采样策略与博弈环境进行交互，采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量，得到不完全信息观察量和进攻方计算机的私有信息；将所述不完全信息观察量作为当前时刻样本，所述当前时刻样本包括：当前时刻状态、当前时刻状态下动作、下一时刻状态、当前回报值、终止状态标志位；

根据当前时刻状态，确定当前时刻状态下的非法动作集合；

遍历当前时刻状态下的非法动作集合，并行多线程创建模拟器，复制当前时刻状态，在对应模拟器中执行非法动作，得到增强负样本，并将所述增强负样本添加到扩展经验回放池中；

若当前动作为合法动作，继续在模拟器中执行当前时刻状态下的原合法动作，得到正样本；

获取下一时刻状态，将当前时刻状况更新为下一时刻状态，继续进行负样本增强处理，直到满足预设样本数条件为止，将正样本添加到扩展经验回放池中。

3.根据权利要求1所述的方法，其特征在于，所述独立价值网络包括：编码模块，由卷积神经网络模块、长短时间记忆模块和第一全连接网络模块组成的并行结构网络模块，以及第二全连接网络模块；独立价值网络的数量为N个，N为大于等于3的整数；

根据所述进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新，并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差，包括：

将所述进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到第一个独立价值网络的所述编码模块中进行编码，得到私有信息编码和不完全信息观察量编码；所述不完全信息观察量编码和所述私有信息编码的编码类型包括：2维张量或3维张量编码、时序信息编码、第三类编码；

将所述私有信息编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的所述卷积神经网络模块、所述长短时间记忆模块以及第一全连接网络模块中进行特征提取，得到私有信息特征；

将所述不完全信息观察量编码中的2维张量或3维张量编码、时序信息编码、第三类编码分别输入到第一个独立价值网络的所述卷积神经网络模块、所述长短时间记忆模块以及第一全连接网络模块中进行特征提取，得到不完全信息观察量特征；

将所述私有信息特征和所述不完全信息观察量特征输入到第一个独立价值网络的所述第二全连接网络模块中，得到第一个独立价值网络输出的状态动作预测值；

将进攻方计算机的私有信息和从扩展经验回放池中采集的预定数量数据分别输入到其他N-1个独立价值网络中，得到其他N-1个独立价值网络输出的状态动作预测值；

根据N个独立价值网络输出的状态动作预测值，计算N个独立价值网络状态动作估计值的平均值和标准差；

根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值，确定每个独立价值网络的权重误差函数；根据每个独立价值网络的权重误差函数，得到集成价值网络的权重误差函；

根据集成价值网络的权重误差函数采用梯度下降的方法，对每个独立价值网络的参数进行更新；

根据N个独立价值网络状态动作估计值的平均值和标准差，确定集成价值网络状态动作估计值的平均值和标准差。

4.根据权利要求3所述的方法，其特征在于，根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值，确定每个独立价值网络的权重误差函数；根据每个独立价值网络的权重误差函数，得到集成价值网络的权重误差函，包括：

根据每个独立价值网络输出的状态动作预测值和对应的独立价值网络的状态动作目标值，确定每个独立价值网络的权重误差函数为：

其中：

为每个独立的价值网络的权重误差函数，

为t时刻从扩展经验回放池采样的数据，

为信任权重，

为t时刻状态，

为

时刻的动作，

，

，

为N个独立价值网络状态动作估计值的平均值，

为t时刻回报值，

为温度参数，

为折扣因子；

为第

个独立价值网络的状态动作预测值，

为第

个独立价值网络的网络参数；

其中，

为集成价值网络的权重误差函，

为一个采样批次的大小，

为服从参数为

的伯努利分布的权重项，

为第i个独立价值网络的权重误差函数。

5.根据权利要求1所述的方法，其特征在于，所述策略网络包括：编码模块，由卷积网络模块、长短时间记忆模块和第三全连接网络模块组成的并行结构网络模块，第四全连接网络模块以及SoftMax层；

根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差，确定下一时刻样本采样策略，根据下一时刻样本采样策略与博弈环境进行交互，采集不完全信息观察量，采用负样本数据增强方式更新扩展经验回放池，从更新的扩展经验回放池中采集预定数量数据对所述策略网络的参数进行更新，包括：

根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差，确定下一时刻样本采样策略；

根据下一时刻样本采样策略与博弈环境进行交互采集的不完全信息观察量采用负样本数据增强方式更新扩展经验回放池；

从更新的扩展经验回放池中采集预定数量数据输入到所述策略网络的编码模块中，将具有空间关系的信息编码为2维张量或3维张量编码，将历史动作序列编码为时序信息编码，将其他信息编码为第三类编码；所述其他信息包括位置信息、速度信息以及合法动作集合；

将所述2维张量或3维张量编码、所述时序信息编码以及所述第三类编码分别输入到所述策略网络的卷积网络模块、长短时间记忆模块和第三全连接网络模块中进行特征提取，并将得到的空间信息的高维特征、历史序列中的隐藏状态以及其他信息的高维特征输入到所述策略网络的第四全连接网络模块，得到抽象特征；

将所述抽象特征输入到所述策略网络的SoftMax层，得到动作概率分布预测值；

根据所述动作概率分布预测值、集成价值网络状态动作估计值的平均值，确定策略网络的误差函数；

根据策略网络的误差函数采用梯度上升方法，对策略网络的参数进行更新。

6.根据权利要求5所述的方法，其特征在于，根据所述动作概率分布预测值、集成价值网络状态动作估计值的平均值，确定策略网络的误差函数，包括：

根据所述动作概率分布预测值、集成价值网络状态动作估计值的平均值，确定策略网络的误差函数为：

其中，

为样本采样策略，

，

为

时刻集成价值网络状态动作估计值的平均值，

为集成价值网络状态动作估计值的标准差，

为t时刻状态，

为t时刻状态

下的动作集合，

为平衡利用与探索的权重，

为

时刻的动作

服从状态为s时候的动作概率分布，

为策略网络的参数，

为策略网络输出的动作概率分布预测值。

7.根据权利要求1所述的方法，其特征在于，通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗，并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作，更新种群策略池，进入下一轮参数迭代过程，直到满足预设条件，得到能击败种群策略池中排位第一且训练收敛的策略网络，步骤中所述方差缩减方法的具体步骤包括：

将所述种群策略池中第一个策略网络作为当前策略网络；

通过选用当前策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗L局，并计算L局对抗的累积得分值；

根据所述对抗的累积得分值与对应复盘状态下采用更新后的策略网络自博弈的累积得分值之间的差值作为更新后的策略网络对抗得分的评估值的无偏估计；所述复盘状态为保存采用更新后的策略网络的防守方计算机与选用当前策略网络的进攻方计算机L局的状态，更新后的策略网络自博弈时加载保存的状态，不重新随机生成；

将更新后的策略网络对抗得分的评估值的无偏估计的L局平均值作为第一个策略网络排序得分值；将当前策略网络更新为种群策略池中第二个策略网络，继续对下一轮对抗，直到所述种群策略池中所有策略网络都遍历完为止，得到所述种群策略池中所有策略网络的排序得分值；

根据所有策略网络的排序得分值对种群策略池中所有策略网络和更新后的策略网络进行排位操作，并更新所述种群策略池。

8.根据权利要求1所述的方法，其特征在于，通过选用种群策略池中的策略网络的进攻方计算机与采用更新后的策略网络的防守方计算机对抗，并采用方差缩减方法与缩减种群策略池规模的方法对种群策略进行排位操作，更新种群策略池，进入下一轮参数迭代过程，直到满足预设条件，得到能击败种群策略池中排位第一且训练收敛的策略网络，步骤中所述缩减种群策略池规模的方法的具体步骤包括：

当种群策略池的规模大于预设种群规模时，计算更新后的策略网络与所述种群策略池中每个策略的多样性值；所述多样性值计算表达式为：

其中：

为更新后的策略网络与种群池中第i个策略

的多样性值，

为求期望函数，

为状态s按随机策略

采样，

为两个概率分布的交叉熵，

为更新后的策略网络，

为状态为s时的动作概率分布；

根据所述多样性值从大到小的顺序对种群策略池中的策略网络进行排序，并剔除排序靠后的d个策略网络，得到新的种群策略池；其中

种群策略池的规模

预设种群规模。

9.一种快速自博弈强化学习装置，其特征在于，所述装置包括：

博弈环境获取模块，用于获取不完全信息机器博弈的博弈环境及博弈环境中的两个博弈参与者；两个博弈参与者分别为防守方计算机和进攻方计算机；

强化学习初始化模块，用于初始化策略网络及多个独立价值网络的参数和超参数，并初始化种群策略池和样本采样策略；多个所述独立价值网络是多个结构相同，参数不共享的网络；

负样本数据增强模块，用于根据所述样本采样策略与博弈环境进行交互，采集两个博弈参与者的不完全信息机器博弈过程中的完全信息观察量，根据不完全信息观察量采用负样本数据增强方式构建扩展经验回放池；所述完全信息观察量包括：不完全信息观察量和进攻方计算机的私有信息；

价值网络和策略网络的参数更新模块，用于根据所述进攻方计算机的私有信息以及从扩展经验回放池中采集的预定数量数据对多个独立价值网络的参数进行更新，并计算多个独立价值网络组成的集成价值网络状态动作估计值的平均值和标准差；根据所述预定数量数据以及集成价值网络状态动作估计值的平均值和标准差，确定下一时刻样本采样策略，根据下一时刻样本采样策略与博弈环境进行交互，采集不完全信息观察量，采用负样本数据增强方式更新扩展经验回放池，从更新的扩展经验回放池中采集预定数量数据对所述策略网络的参数进行更新；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。