CN113688977A

CN113688977A - 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质

Info

Publication number: CN113688977A
Application number: CN202111004903.3A
Authority: CN
Inventors: 张犁; 姚子羽; 韩子亮; 裘旭益; 李石坚; 崔振新; 潘纲
Original assignee: Zhejiang University ZJU; China Aeronautical Radio Electronics Research Institute
Current assignee: Zhejiang University ZJU; China Aeronautical Radio Electronics Research Institute
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-23
Anticipated expiration: 2041-08-30
Also published as: CN113688977B

Abstract

本发明公开了一种面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质，包括：根据人类指导的示范数据，采用模仿学习优化CNN以得到CNN的策略函数；根据CNN的策略函数初始化PPO算法的策略网络的策略函数，为PPO算法添加目标值网络用以计算回报值，采用分布式训练方式以增加回报值的损失函数优化PPO算法；以PPO算法初始化NFSP算法中智能体的平均策略网络，并采用MCTS算法计算智能体的最佳回应策略；根据人类反馈数据训练NFSP算法的奖励值估计，依据估计的奖励值对NFSP算法中每个智能体在环境状态中进行强化学习，以优化智能体的平均策略和最佳回应策略。以提升智能体在对抗任务的决策准确性。

Description

面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质

技术领域

本发明属于人工智能及智能博弈对抗的技术领域，具体涉及一种面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质。

背景技术

人工智能领域有很多应用问题需要算法在每个时刻作出贯序决策。对于围棋问题，算法每一步需要根据当前盘面状态以决定放置棋子的最优位置，如公开号为CN112717415A的专利申请公开的基于信息瓶颈理论的强化学习对战游戏AI训练方法。对于自动驾驶问题，算法每一刻需要根据当前路况信息来确定安全的行驶策略，如公开号为CN111605565A的专利申请公开的基于深度强化学习的自动驾驶行为决策方法。强化学习是求解这类问题的通用方法，其目标是希望智能体在与环境的交互过程中，通过不断试错来积累经验，随着时间的推移并最终学习到一个合理的行为策略。近年来，随着算法的进步和计算能力的增强，强化学习在游戏、自动驾驶、控制论等应用方面已经取得了许多重要的成果。

但是，现实世界中存在着大量复杂场景，其具有奖励稀疏、非完全信息、大规模搜索空间、合作竞争关系复杂等特点。强化学习在这些复杂问题上通常收敛较慢、难以学习到有效策略，这也是当前强化学习研究面临的主要挑战。

在具有不确定性的复杂环境中，人类的经验、直觉与智能算法的速度、精准具有互补合作的巨大潜力。通过人类指导和人在环路的人机智能协同，将人类智能与机器智能进行深度融合，以人机协作方式推进人机智能共生，将有助于提高智能系统应对复杂环境的能力水平。人机智能共生有望在通用问题求解、开放环境问题求解等方面取得突破。

虽然当今强化学习取得了令人瞩目的成就，但是现有的强化学习方法在复杂任务环境下仍然难以训练、能力有限，人机智能共生的国内外研究也尚处于概念发展的初级阶段，其理论模型缺失，在协同决策、高效交互等方面还需深入研究。

发明内容

鉴于上述，本发明的目的是提供一种面向对抗任务的人机共生强化学习方法和系统，通过人机共生的方式对多智能体对抗任务的决策策略进行多阶段优化，以提升智能体在对抗任务的决策准确性。

第一方面，实施例提供的一种面向对抗任务的人机共生强化学习方法，包括以下步骤：

根据人类指导的示范数据，采用模仿学习优化CNN以得到CNN的策略函数；

根据CNN及对应的策略函数初始化PPO算法的策略网络及对应的策略函数，并PPO算法添加目标值网络用以计算回报值，采用分布式训练方式以增加回报值的损失函数优化PPO算法的策略网络和原值网络；

以优化的PPO算法初始化NFSP算法中进行对抗任务每个智能体的平均策略网络，并采用MCTS算法计算每个智能体的最佳回应策略；

根据人类反馈数据训练NFSP算法的奖励值估计，依据估计的奖励值对NFSP算法中每个智能体在环境状态中进行强化学习，以优化智能体的平均策略和最佳回应策略。

第二方面，实施例提供的一种面向对抗任务的人机共生强化学习装置，包括：

模仿学习模块，用于根据人类指导的示范数据，采用模仿学习优化CNN以得到CNN的策略函数；

强化学习模块，用于根据CNN及对应的策略函数初始化PPO算法的策略网络及对应的策略函数，并PPO算法添加目标值网络用以计算回报值，采用分布式训练方式以增加回报值的损失函数优化PPO算法的策略网络和原值网络；

对抗任务学习模块，用于以优化的PPO算法初始化NFSP算法中进行对抗任务每个智能体的平均策略网络，并采用MCTS算法计算每个智能体的最佳回应策略；根据人类反馈数据训练NFSP算法的奖励值估计，依据估计的奖励值对NFSP算法中每个智能体在环境状态中进行强化学习，以优化智能体的平均策略和最佳回应策略。

第三方面，实施例提供的一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现上述面向对抗任务的人机共生强化学习方法。

第四方面，实施例提供的一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理执行时实现上述面向对抗任务的人机共生强化学习方法。

第四方面，实施例提供的一种人机共生算法平台，其特征在于，包括：环境单元、强化学习单元、人机共生单元、人机交互单元与训练评估单元；这5个单元服务于上述面向对抗任务的人机共生强化学习方法，其中，

所述环境单元包含平台支持的模拟环境，具有功能：与强化学习智能体进行交互、提供训练与评估接口、记录数据；

所述强化学习单元具有功能：与环境进行交互、与人机共生强化学习相结合、为训练评估提供接口；

所述人机共生单元具有功能：接收人机交互单元传递的人类示范数据和反馈数据、与强化学习单元相结合、为训练评估提供接口；

所述人机交互单元具有功能：提取需要人类示范数据、或反馈数据并建立人机交互界面、读取人类示范数据和反馈数据并记录；

所述训练评估单元具有功能：建立训练流程、算法评估。

上述实施例提供的技术方案，具有的有益效果至少包括：

针对多智能体的策略训练问题，通过模仿学习、PPO算法的强化学习优化单个智能体的决策策略，在此基础上，将单个只能的决策策略初始化采用NFSP算法中进行对抗任务中每个智能体的平均策略网络，然后结合MCTS算法和基于人类反馈数据的奖励值估计来优化NFSP算法中智能体的平均策略和最佳回应策略，以提升策略训练的速度，降低计算消耗，且还提升多智能体策略的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的面向对抗任务的人机共生强化学习方法的流程图；

图2是实施例提供的人类指导的分布式策略优化算法的原理框架图；

图3是实施例提供的卷积神经网络的结构示意图；

图4是实施例提供的人在环路的蒙特卡洛神经虚拟对弈算法的原理框架图；

图5是实施例提供的人类知识采集的流程图；

图6是实施例提供的强化学习的训练流程图；

图7是实施例提供的强化学习的评估流程图；

图8是实施例提供的分布式策略优化算法与环境的运行关系；

图9是实施例提供的MC-NFSP算法与环境的运行关系；

图10是实施例提供的面向对抗任务的人机共生强化学习装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

针对现有的强化学习方法在复杂任务环境下仍然难以训练、能力有限的问题，实施例提供了一种面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质。通过在Pommerman游戏环境与ACPC德州扑克环境上，进行多智能体对抗任务的强化学习，包括通过人类指导的策略优化算法进行策略的初始化，即通过人类指导的示范数据较快获得初始的可行策略，其次通过蒙特卡洛神经虚拟对弈算法对策略进一步优化求精，来提升学习效率和学习准确率。

图1是实施例提供的面向对抗任务的人机共生强化学习方法的流程图。如图1所示，实施例提供的人机共生强化学习方法，包括以下步骤：

步骤1，根据人类指导的示范数据，采用模仿学习优化CNN以得到CNN的策略函数。

面对多智能体环境中现有强化学习算法难以训练致使训练消耗大、训练效果不准确的问题，本发明使用模仿学习方法，通过结合人类指导的示范数据来提升训练效率。具体采用两种不同来源的示范数据，分别是启发式算法生成的数据与人工标注的数据，来对CNN进行模仿学习。

如图2所示，采用模仿学习优化CNN以得到CNN的策略函数，包括：

获取带有噪声的示范数据作为示范数据集

该示范数据集可以通过环境的默认算法快速生成，其中默认算法可以是游戏自带的规则智能、机器学习算法或随机尝试算法。

利用示范数据集

训练CNN，得到策略网络的初始策略函数，采集PPO算法在初始策略函数的在线策略数据集

对在线策略数据集

与初始示范数据集

的差集中的环境状态进行人工标注后添加到示范数据集

迭代循环此过程，直到训练结束获得CNN的最终策略函数，该最终策略函数用于之后的PPO算法的强化学习过程。

实施例中，模仿学习过程中，利用示范数据集

对CNN进行监督学习，具体应用的场景Pommerman环境具有一个11×11的面板，面板上的每个单位方格具有不同的类型。游戏环境提供了8种状态，其中大部分状态信息都对应了面板中的具体位置。面板的数据信息可以视为二维图像，对环境状态进行特征工程，使其适合CNN网络的输入。将特征分为两类：(1)对于与面板上具体坐标关联的特征，将每个特征编码为一个11×11的特征图，特征图上该特征关联位置的值即为1(对于类别型特征)或者其具体数值(对于数值型特征)，特征图上其余位置的值全为0；(2)对于与面板位置无关的特征，将其填充为一个11×11的矩阵作为特征图，特征图上所有位置的值相同。

如图3所示，CNN结构如下：(1)输入层：将编码后的环境状态作为输入，输入层为一个三维矩阵形式：[height,width,channels]，表示了特征图的高、宽和深度(通道数)，输入层大小为[11×11×18]；(2)卷积层：包括了连续的两层卷积，通过卷积层来逐步提取高维特征并有效降低网络的复杂度，卷积核的维度定义为一个四维矩阵：[height,width,in_channels,out_channels]，其中宽高和输入通道数对应了上一层的输入，输出通道数表示了卷积核的深度，对应下一层的通道数，该网络的两个卷积核大小为[3×3×18×32]和[3×3×32×64]；(3)池化层：针对特征图的非重叠区域，在卷积层后通常会使用池化层来降低参数量、保持平移伸缩旋转的不变性，该网络使用了两个2×2窗口的最大池化操作；(4)全连接层：用来整合卷积层提取的特征，该网络使用的两个全连接层的维度分别为[256×128]和[128×6]，最后经过Softmax函数以动作概率形式输出。在全连接层中使用Dropout方法以降低过拟合。

步骤2，对PPO算法进行改进，并对改进的PPO算法进行强化学习。

实施例中，根据CNN及对应的策略函数初始化PPO算法的策略网络及对应的策略函数，并对PPO算法添加目标值网络用以计算回报值，采用分布式训练方式以增加回报值的损失函数更新PPO算法的策略网络和原值网络。

实施例中，将步骤1的模仿学习与步骤2的改进的PPO算法进行强化学习统称为分布式策略优化算法。

如图2所示，在模仿学习后，将得到CNN的策略函数作为强化学习算法PPO算法的初始策略函数。在PPO算法中使用了与模仿学习中CNN相同的网络结构，接受上阶段的网络参数，并对原PPO算法进行了两个改动：加入目标值网络以及使用分布式训练方法。

改动1：引入目标值网络并冻结目标值网络的参数，对PPO算法中的值网络的更新过程进行改动，引入了目标值网络来计算损失函数中的回报项，而在策略网络中使用的优势函数则保持不变，继续使用原值网络来计算，采用目标值网络后，增加回报值的损失函数表示为：

其中，L_VF(φ)表示在策略φ下的损失函数，s_t表示t时刻的环境状态，V_φ(s_t)表示环境状态s_t在策略φ下的期望价值，γ^i-1表示奖励的衰减系数，γ^T-t表示从t时刻到游戏结束时刻T时的价值衰减，

表示当前策略下特定终结状态s_t的期望价值，T表示每一局的步数(即一局游戏的规定长度)，t表示任一给定时刻，t+i表示从t到T时刻之间任一未来时刻。

改动2：采用分布式训练方式更新PPO算法的策略网络和原值网络，包括：在PPO算法上采用分布式计算架构，定义1个点全局结点和多个工作结点，其中，全局结点负责存储全局网络参数、接受来自工作结点的梯度数据以及对全局参数进行更新；每个工作结点对应环境中的智能体和操作系统的一个线程，不保存网络参数，而是在每次计算梯度时向全局网络请求并得到参数，当梯度计算完毕后发送梯度给全局结点。

基于以上的两个改动进行改进的PPO算法进行强化学习和学习结果的评估，具体流程如图6和7所示。

步骤3，PPO算法初始化NFSP算法中进行对抗任务每个智能体的平均策略网络，并采用MCTS算法计算每个智能体的最佳回应策略。

实施例中，如图4所示，将神经虚拟自我对弈(Neural Fictitious Self-Play,NFSP)算法与蒙特卡洛树搜索(Monte-Carlo Tree Search,MCTS)算法结合，提出蒙特卡洛神经虚拟对弈(Monte-Carlo Neural Fictitious Self-Play,MC-NFSP)算法，该MC-NFSP算法主要用于对多智能体对抗任务的增强学习。

NFSP算法包括两个相同的智能体，智能体通过监督学习来学习平均策略，同时通过深度强化学习网络计算针对敌方策略的最优策略，两个智能体通过大量博弈使得平均策略趋近纳什均衡。

如图4所示，实施例中采用的NFSP算法包含多个智能体实现对抗任务，每个智能体的平均策略网络由步骤2得到的优化的PPO算法是策略网络及对应的决策函数初始化，最佳回应策略采用MCTS算法。

MCTS算法使用博弈树进行策略搜索，每一个树节点代表一个游戏状态，一个游戏状态可以选择不同的行为(即边)达到新的游戏状态，同时获得奖励，游戏状态的价值为状态所有行为奖励的期望。一般来说，MCTS算法通过UCT(Upper Confidence Bound，信任上界)函数选择节点或边。在状态节点s_j选择行为a的UCT函数一般表示为

其中,R_sum(s_j)表示状态节点s_j所有奖励，N(s_j)代表节点搜索次数，c代表偏好较少搜索到的行为的系数，b代表该状态下可选的任一行为。

实施例中，将MCTS算法的模拟结果作为当前玩家的最佳回应策略，平均策略则由NFSP算法的平均策略网络得到。在采用MCTS算法计算每个智能体的最佳回应策略时，智能体(也就是玩家)以当前状态s生成博弈树根结点，将结点选择的UCT函数的第一项

修改为q(s,a)，其初始值为NFSP算法中原最佳回应网络关于状态s输出的状态值V(s)，并在第二项中乘以平均策略网络输出的概率P(s,a)，即修改后的UCT函数表示为：

其中，q(s,a)表示状态s下选择动作a所获得的奖励，N(s,a)表示在状态s下访问动作a的次数，N(s,b)表示在状态s下访问动作b的次数，c是控制探索与利用的系数；

当前智能体以最大化UCT函数的动作作为下一步动作；

在结点选择过程中，当前智能体的对手使用当前智能体的平均策略网络来选择动作，当执行到终止状态时，将当前智能体的奖励(得分)记为r，通过反向传播过程来更新模拟路径上各个状态结点的统计值q(s,a)和N(s,a)：

N(s,a)←N(s,a)+1

其中，符号←表示更新的意思；

对博弈树进行多轮模拟，得到当前状态下各个动作的访问次数N(s,a)，采取访问次数最大的动作作为当前的最佳回应，即argmax_a N(s,a)。执行最佳回应动作a后，将元组(s,a,r,s′)存放至最佳回应网络的记忆池M_RL，将元组(s,a)存放至平均策略网络的记忆池M_SL。

在MCTS算法中，修改了当前玩家的对手的模拟策略。由于NFSP算法中每位玩家分别独立地拥有两个网络，玩家无法得知其他玩家的网络输出值。所以当玩家1进行决策时，将其自身的平均策略网络作为玩家2的结点选择函数和随机策略来进行模拟。

步骤4，根据人类反馈数据训练NFSP算法的奖励值估计，依据估计的奖励值对NFSP算法中每个智能体在环境状态中进行强化学习，以优化智能体的平均策略和最佳回应策略。

由于环境的奖励稀疏问题，本发明实施例使用一种奖励函数估计方法，通过人类对轨迹的偏好反馈来学习一个模拟的奖励函数，并将模拟奖励函数的输出作为环境缺失的奖励值。

平均策略网络输出的策略π与环境交互并产生轨迹集合{τ¹,…,τⁱ}，所谓轨迹τⁱ指的是i时刻的状态-行为-奖励(s,a,r)。策略π的参数由强化学习PPO算法进行更新，令环境给予的奖励

强化学习PPO算法的学习目标是最大化期望回报。

基于此，根据人类反馈数据训练NFSP算法的奖励值估计，包括：

从强化学习过程中存储的轨迹集合中选择轨迹片段对(σ¹,σ²)，图4中σⁱ为MCTS代表的最优策略β与平均策略网络输出的策略π的随机采样。并将该轨迹片段对(σ¹,σ²)发送给人类以获得人类反馈数据，其中每条轨迹是每个时刻由状态、行为、奖励组成的三元组；

使用奖励值估计

对反馈数据集

进行二分类，采用监督学习算法根据人类反馈数据训练奖励值估计，训练时采用的损失函数

为：

状态s下选择行为a的奖励估计函数

由监督学习算法根据人类反馈数据来训练。将奖励估计函数

作为隐变量来解释人类衣偏好，假设人类偏好轨迹片段σⁱ的概率与该轨迹的奖励总和呈指数关系(公式中exp指以自然常数e为底的指数函数)：

其中，

表示奖励值，

表示t时刻的状态

采取动作

的奖励值，

表示t时刻的状态

采取动作

的奖励值，σ¹与σ²表示两个轨迹片段，p(σ¹＞σ²)表示人类偏好选择轨迹片段σ¹的概率，μ(1)和μ(2)分别表示轨迹片段1和2的偏好分布；

训练得到的奖励值

提供给NFSP算法进行个智能体在环境状态的强化学习。

如图10所示，实施例提供的面向对抗任务的人机共生强化学习装置，包括：

强化学习模块，用于根据CNN及对应的策略函数初始化PPO算法的策略网络及对应的策略函数，并为PPO算法添加目标值网络用以计算回报值，采用分布式训练方式以增加回报值的损失函数优化PPO算法的策略网络和原值网络；

需要说明的是，实施例提供的人机共生强化学习装置在进行强化学习时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，实施例提供的人机共生强化学习装置与人机共生强化学习方法实施例属于同一构思，其具体实现过程详见人机共生强化学习方法实施例，这里不再赘述。

上述实施例提供的面向对抗任务的人机共生强化学习方法和装置，用于智能体的强化学习，可以应用在智能驾驶领域，此时智能体为智能车，游戏博弈领域，此时的智能体为玩家，在Pommerman与ACPC德州扑克环境上的实验结果表明，本实施例提供的强化学习方法在训练过程中可以更快达到收敛，并在测试中可获得较高的胜率水平。

实施例还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现上述面向对抗任务的人机共生强化学习方法。

实施例提供的一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理执行时实现上述面向对抗任务的人机共生强化学习方法。

实施例还提供了一种人机共生算法平台，架构包括5个层次，分别为服务层、算法层、数据层、运行支持层和操作系统层。其中服务层包含了对用户提供的主要功能；算法层包括该平台支持的多种强化学习与人机共生算法以及对抗环境；数据层包含了算法、环境与人类生成的多种数据；运行支持层包括平台所使用的开发环境、训练框架和第三方库；操作系统层表示平台运行底层的操作系统。

按照平台架构中各个部分的功能与相互关系，该人机共生对抗平台为上述面向对抗任务的人机共生强化学习方法和装置服务，主要由5个单元共同组成：环境单元、强化学习单元、人机共生单元、人机交互单元与训练评估单元，各个组成单元的内容介绍如下：

(1)环境单元：包含该平台支持的模拟环境，可支持Pommerman环境与ACPC德州扑克环境。环境单元有以下功能：(a)与强化学习智能体进行交互。在初始化一局之后，环境需要向智能体传递当前状态并收到智能体返回的动作，根据环境规则来更新状态；(b)为上层模块提供训练和评估接口。将环境在OpenAI的gym库中注册，使用了与gym一致的函数接口，包括env.render(),env.act(),env.step()等；(c)记录样本、轨迹等数据。在与智能体的交互过程中，将状态、动作、奖励等信息记录到数据集中，作为强化学习算法的训练数据。

(2)强化学习单元：包含改动的PPO算法与MC-NFSP算法，以及其他原版强化学习算法。强化学习单元具有以下功能：(a)与环境进行交互，强化学习算法建立的智能体与环境相互传递状态和动作等信息，在环境中获得奖励来优化自身的值函数或目标函数；(b)与人机共生算法相结合。以强化学习为基础，可以使用模仿学习、交互式强化学习等方法获得的网络权重或奖励函数，来提升原有强化学习算法的性能；(c)为上层的训练评估模块提供接口。训练评估模块可以调用强化学习算法来建立智能体，或者在评估时使用不同的智能体进行对战。

(3)人机共生单元：该模块是人机共生算法平台的核心部分，它包含了模仿学习与交互式强化学习两类方法，通过将人类数据与强化学习算法相结合，共同在环境中训练。人机共生模块的功能如下：(a)接收人机交互模块传递的人类数据。人类数据包含人类示范与人类反馈，分别应用于行为克隆与数据聚合以及奖励函数估计；(b)与强化学习模块相耦合。人机共生算法通过学习人类样本，改动强化学习算法中的网络权重、奖励或策略函数。(c)为上层的训练评估单元提供接口。训练时可以在上层调用人机共生模块中的算法，并与强化学习算法组成一套完整的训练流程。

(4)人机交互模块：负责人类数据的采集，包括以下两部分过程：(a)提取需要人类示范或反馈的数据并建立人机交互界面。该模块将环境状态展示给用户，然后选择交互模式：人类示范或人类反馈。当处于人类示范模式时，交互模块需要接收用户对当前状态决策的动作；当处于人类反馈模式时，交互模块还需提供当前算法的决策动作，并接收用户对状态-动作对的评价。(b)读取人类数据并记录到数据集中。向用户传递数据与接收数据是异步进行的，交互模块需要读取文件中的人类数据并添加到数据集中。

(5)训练评估单元。作为人机共生算法平台的顶层部分，该模块负责建立整体的训练和评估过程，介绍如下：(a)建立训练过程。根据具体的训练任务，训练评估单元可以调用不同的环境、强化学习与人机共生算法，组成一套完整的训练流程，并使用tensorflow等框架进行训练。(b)建立评估过程。该单元在训练过程中可以记录算法的奖励、胜率等指标，在训练之后可以调用不同算法进行对局，以评估算法的学习能力。

上述人机共生算法平台的3个功能的具体步骤如下：

(1)人类知识采集。如图5所示首先由人机交互模块创建交互界面，以获得用户的示范或反馈；其次，交互模块将读取用户写入的文件，并记录到已标注的数据集中；然后，人机共生模块采用模仿学习或奖励估计等方法，对相应的示范数据或反馈数据进行学习；最后，强化学习算法根据上一步得到的网络权重或奖励函数，与环境进行交互，并记录轨迹数据，经过滤后传递给第一步的交互模块，迭代地进行人类知识采集。

(2)算法训练。如图6所示，首先由强化学习模块建立一种强化学习算法，并初始化网络权重，然后智能体与环境开始交互过程，当交互一定次数后，强化学习算法根据当前已产生的样本(或从数据集中随机采样)来计算目标函数的梯度，并更新自身的网络权重(若使用分布式架构，则接收全局网络传递的参数)。

(3)算法评估。如图7所示，表示不同算法在训练后相互对战的过程。首先由环境模块初始化环境，与两个使用不同算法的智能体展开交互过程，在某些环境中智能体的交互可能具有一定次序(如ACPC环境)，每局结束后训练评估模块会统计胜率等指标，并在对战完成后输出评估结果。

如图8所示，分布式策略优化算法与Pommerman环境的运行关系如下：

(1)环境与SimpleAgent(单个智能体)。开启两个并行的Pommerman环境(env1和env2)，每个环境包含4位玩家，其中2位玩家使用环境自带的基准测试算法SimpleAgent作为一个队伍。每个环境在运行时对应了一个进程。

(2)PPO算法。采用分布式计算架构，使用4个并行的PPO算法同时与环境(env)交互并采集样本，为每个PPO算法运行一个线程，作为分布式架构中的一个工作结点(worker)。与环境交互过程中，PPO算法需要接收环境传递的当前状态，然后进行决策并将选择的动作发送给环境。PPO算法的网络参数由上阶段模仿学习负责初始化，之后由全局网络(globalnetwork)来进行更新。

(3)全局网络。全局网络(global network)在分布式架构中负责更新各个工作结点的网络参数，每个PPO线程运行时会向全局网络发送根据自身样本计算的梯度，当收集到所有线程传来的梯度后，全局网络使用平均梯度来更新网络参数，并将最新参数发送给各个工作结点。

如图9所示，MC-NFSP算法与ACPC环境的运行关系如下：

(1)环境。称为dealer，负责初始化游戏状态并与两位玩家进行交互，将当前状态发送给玩家后获得玩家返回的动作，根据玩家动作来更新状态。

(2)环境提供的客户端。客户端部分(player)由ACPC环境提供，并与环境共同部署在Linux服务器上，建立了两个进程对应两位玩家。由于算法使用Python编写，故该部分需要与算法模块进行通信。

(3)MC-NFSP算法。建立两个线程对应环境中的客户端，算法与环境之间包含了两类交互过程：MC-NFSP算法决策动作的交互以及MCTS模拟过程的交互，两类交互过程均以客户端作为中间部分。

上述实施例提供的人机共生算法平台支持多种算法和环境，有助于提高人机决策系统与强化学习算法的开发效率。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向对抗任务的人机共生强化学习方法，其特征在于，包括以下步骤：

根据CNN及对应的策略函数初始化PPO算法的策略网络及对应的策略函数，并为PPO算法添加目标值网络用以计算回报值，采用分布式训练方式以增加回报值的损失函数优化PPO算法的策略网络和原值网络；

2.如权利要求1所述的面向对抗任务的人机共生强化学习方法，其特征在于，采用模仿学习优化CNN以得到CNN的策略函数，包括：

获取带有噪声的示范数据作为示范数据集；

利用示范数据集训练CNN得到策略网络的初始策略函数，采集原PPO算法在初始策略函数的在线策略数据集，对在线策略数据集与初始示范数据集的差集中的环境状态进行人工标注后添加到示范数据集；迭代循环此过程，直到训练结束获得CNN的最终策略函数。

3.如权利要求1所述的面向对抗任务的人机共生强化学习方法，其特征在于，增加回报值的损失函数表示为：

4.如权利要求1所述的面向对抗任务的人机共生强化学习方法，其特征在于，采用分布式训练方式更新PPO算法的策略网络和原值网络，包括：

在PPO算法上采用分布式计算架构，定义1个点全局结点和多个工作结点，其中，全局结点负责存储全局网络参数、接受来自工作结点的梯度数据以及对全局参数进行更新；每个工作结点对应环境中的智能体和操作系统的一个线程，不保存网络参数，而是在每次计算梯度时向全局网络请求并得到参数，当梯度计算完毕后发送梯度给全局结点。

5.如权利要求1所述的面向对抗任务的人机共生强化学习方法，其特征在于，采用MCTS算法计算每个智能体的最佳回应策略时，将结点选择的UCT函数的第一项