CN113570040A

CN113570040A - 一种基于进化策略的多域行动序列智能优化系统及方法

Info

Publication number: CN113570040A
Application number: CN202110849616.6A
Authority: CN
Inventors: 刘海颖; 何兆一; 孙颢; 吴坤; 谢远龙; 李志豪
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-10-29

Abstract

本发明提出了一种基于进化策略的多域行动序列智能优化系统及方法，将行动对象视为智能体，构建强化学习智能体模型，基于进化策略的超参数优化方法对行动策略网络进行优化，获取当前智能体的局部环境态势信息输入优化后的行动策略网络，得到各个待决策智能体的行动序列，对该行动序列解码得到各智能体的操作指令，基于操作指令控制智能体执行动作。本发明通过超参数优化方法能够解决现有技术中面对行动序列网络在复杂环境下学习效率低，训练过程漫长、网络训练过程不平稳等技术问题。

Description

一种基于进化策略的多域行动序列智能优化系统及方法

技术领域

本发明属于深度强化学习和进化算法技术领域，涉及进化策略算法在深度强化学习和行动序列网络优化中的应用，具体涉及一种基于进化策略的多域行动序列智能优化系统及方法。

背景技术

多域行动任务中，方案计划的复杂度和囊括度呈指数级攀升，决策人员有限的决策能力越来越无法适应急剧变化的环境需求。且很多行动过程具有强烈的对抗性，双方行动之间共同作用于环境态势，无法单方面评价行动序列的优劣；行动改变态势，态势又反过来决定下一阶段的可执行动作，行动与态势之间具有复杂的关系。从大量可执行行动中选择出合适的行动并形成行动序列方案就显得尤为困难，必须依靠以计算机平台为基础的智能规划系统生成行动序列方案。辅佐决策人员在资源、装备、人员、空间和环境等多个方向综合分析行动与态势之间的复杂影响关系，对环境的趋势和走向做出预判，进而形成行动序列方案。

深度强化学习是目前求解策略问题的有效手段和主流方法，在很多学习任务上显示了其优异的性能。智能任务规划系统将深度强化学习技术与作战规划系统相结合，将成为未来智能化任务规划领域的发展趋势。深度强化学习通过输入感知信息，然后通过深度神经网络直接输出动作，中间没有硬编码的过程。深度强化学习结合了深度神经网络和强化学习的优势，可以有效的求解智能体在高维复杂问题下的感知决策问题。

深度强化学习的关键是通过智能体不断与环境进行交互来获得样本，从而训练一个深度策略网络。但深度强化学习在求解博弈时，依然还有诸多待解决的问题。例如样本效率低下，训练过程漫长，奖励函数难以设计，极度敏感于超参数配置，训练过程存在高动态－非平稳的特性等等。其中，超参数设定问题由于直接影响学习的效率，超参数的轻微变动可能会引起模型性能的巨大波动，甚至失效，当处在一个变化的环境中时影响尤其严重。

针对这一问题对深度强化学习行动序列网络进行优化。先前的工作往往是通过人工经验定义超参数时间表或设计超参数自适应公式，从而实现超参数的自适应。此类方法涉及超参数较少且泛化性较差，缺少普适性。像强化学习这样复杂且漫长的学习过程，对超参数进行全面式的搜索变得不可行，尤其对于缺少计算资源的小型实验室更是一个巨大的障碍。DeepMind的Jaderberg等人创新性地提出了PET方法，在深度强化学习、机器翻译以及GAN上取得了很好的效果。同时期，Elfwing等人也提出了类似的OMPAC方法。但使用简单的截断选择和随机扰动来实现超参数自适应，对于跟踪潜在的临时最优超参数配置的变化是低效的。

发明内容

本发明克服现有技术缺陷，提供一种基于进化策略的多域行动序列智能优化方法，通过进化策略的选择保留操作、交叉重组操作和选择变异操作对行动序列网络进行训练优化，且进化策略分部分、分阶段进行，以解决现有技术中面对行动序列网络在复杂环境下学习效率低，训练过程漫长、网络训练过程不平稳等技术问题。

本发明的技术方案如下：

一种基于进化策略的多域行动序列智能优化方法，包括多域行动模型，将该模型中的行动对象视为智能体：

步骤1，采用基于AC强化学习框架下的MADDPG算法构建多域行动智能任务规划系统，包括Actor策略网络和Critic评价网络。

步骤2，初始化环境态势信息，并对所有的环境态势信息进行预处理。

步骤3，分析智能体具体的行动得到任务目标，将其作为初始条件输入到训练环境中；根据行动目的构造奖赏函数，智能体通过学习最大化奖赏函数进行训练，得到行动策略网络。

步骤4，采用进化策略对行动策略网络进行训练优化，以获取最优超参数配置来训练行动策略网络。

步骤5，获取当前待决策智能体的局部环境态势信息，输入到步骤4训练好的行动策略网络中，得到各个待决策智能体的行动序列，对其进行策略解码，得到各智能体的操作指令，通过执行该操作指令以控制各智能体执行新的动作。

作为优选，步骤2中的环境态势信息，包括实时位置、速度、航向参数以及当前的地理环境信息。

作为优选，步骤4的行动序列网络的权值通过深度强化学习的梯度优化方法来进行更新。

作为优选，步骤4中训练优化方法为：

步骤4.1，选取待优化的行动序列网络的模型结构超参数和算法行为超参数；

步骤4.2，随机初始化交互环境，设置模型结构超参数优化阶段的最大迭代次数为Str_Gen_max，单轮最大梯度优化次数为Str_Step_max，设置算法行为超参数优化阶段的最大迭代次数为Alg_Gen_max，单轮最大梯度优化次数为Alg_Step_max；

步骤4.3，随机初始化1个策略网络及其算法行为超参数，将其复制为N个相同的策略网络，对得到的N个策略网络随机初始化其模型结构超参数配置；

步骤4.4，将N个智能体进行环境交互，根据当前的超参数配置通过深度强化学习的梯度优化方法来提升自身策略，当梯度优化次数达到Str_Step_max时，进入步骤4.5；

步骤4.5，对N个策略网络进行适应度评估后对N个策略网络的模型结构超参数进行进化策略操作，产生下一代的N个策略网络及其模型结构超参数，并记录当前代数Str_Gen，当其小于Str_Gen_max时，转至步骤4.4；直至其达到最大迭代次数Str_Gen_max，输出当前适应度最大的策略网络；

步骤4.6，将进行模型结构超参数优化训练后得到的适应度最大的策略网络复制N份，构成群体P，并对得到的N个策略网络随机初始化N个算法行为超参数配置；

步骤4.7，N个智能体在各自当前的超参数配置下，独立并行地进行环境交互进行深度强化学习来进行策略提升，一旦梯度优化次数达到预设值Alg_Step_max，所有的智能体停止学习，进入步骤4.8；

步骤4.8，对N个策略网络进行适应度评估后对N个策略网络的算法行为超参数进行进化策略操作，产生下一代的N个策略网络及其算法结构超参数，并记录当前代数Alg_Gen，当其小于Alg_Gen_max时，转至步骤4.7；直至其达到最大迭代次数Alg_Gen_max，输出当前适应度最大的策略网络。

作为优选，步骤4.1中待优化的超参数包括模型结构超参数和算法行为超参数，其中，模型结构超参数包括深度网络的隐藏层层数以及每个隐藏层单元数；算法行为超参数包括梯度优化器的学习率和衰减因子，进化算法中的重组概率、变异概率和变异扰动幅度，强化学习里面的奖赏折扣因子和步长。

作为优选，学习率、衰减因子、奖赏折扣因子为连续型变量，其余超参数均为离散型变量。

作为优选，步骤4.8中的适应度评估由智能体在训练中的得分决定，采取强化学习算法中的某一次迭代中的平均得分作为评价值；适应性评估环节发生于每次采取进化策略操作之前，上一代全部强化学习结束之后。

作为优选，进化策略操作包括三个步骤：选择保留、交叉重组、选择变异。

作为优选，进化策略操作具体为：S1，选择保留，对群体P中前20％的个体进行选择保留操作，直接将其保留至下一代，对其模型权值和超参数配置不做任何修改操作；S2，交叉重组，从群体P中性能处于前20％到80％的个体中随机挑选两个父代个体进行交叉重组操作，将群体中的个体进行一个随机两两配对操作，接着每一对随机选择交叉点，之后按照概率交换交叉点间的超参数配置；S3，选择变异，将群体P中后20％的个体用群体P中前20％的个体进行替换操作，然后对这些替换后的个体进行变异操作，即直接对网络中的超参数进行扰动，具体的，按照一定的扰动概率以扰动幅度进行扰动操作。

本发明还公开一种基于进化策略的多域行动序列智能优化系统，包括以下模块：

任务分析模块：分析具体的多域行动任务，得到任务目标并构建奖赏函数，将分析结果输入到训练环境中，进而通过态势感知模块进行信息处理；

态势感知模块：用于接收未经过加工处理的环境信息，包括每个智能体的位置、速度、航向及地理环境信息，并对这些信息数据进行预处理，生成态势信息数据；

基于进化策略的行动策略网络优化模块：获取态势信息数据，采用基于进化策略的超参数优化方法对行动策略网络进行优化，通过训练得到行动策略网络；

行动策略网络模块：获取真实环境中待决策智能体的局部环境态势信息输入到训练好的行动策略网络中，得到各待决策智能体的行动序列信息；

策略解码模块：对各待决策智能体的行动序列信息进行解码，得到各智能体的操作指令，从而控制各智能体执行新的动作。

有益效果：

(1)本发明通过采用进化策略的选择保留操作、交叉重组操作和选择变异操作对行动序列网络进行训练优化，找到学习过程的最优超参数配置来训练行动策略网络，解决了现有技术中面对行动序列网络在复杂环境下学习效率低，网络训练过程不平稳，应用局限等技术问题；

(2)发明在使用进化策略对网络超参数进行优化时，将模型结构超参数和算法行为超参数分为两阶段进行训练。在网络训练的后期，模型结构超参数的变化对模型的有效学习没有太大的帮助，所以在训练的早期，首先对网络的隐藏层层数、以及每个隐藏层单元数进行训练优化，之后固定模型结构超参数，对学习率、重组概率、变异概率、奖赏折扣因子等参数进行训练优化，在此阶段不对网络结构超参数进行进化操作，网络结构在整个优化过程中不会发生改变，避免重启动问题；

(3)本发明将进化策略操作分成三个部分：对前20％的个体进行选择保留操作，保证了表现好的个体不会由于变异或交叉等操作的干扰而丢失。在该策略下，即使进化策略操作无法提升性能，种群中表现好的个体也会始终存在，保证算法的性能。对后20％的个体进行选择替换操作，该类个体由于表现不佳，将在进化时被直接丢弃。被淘汰的智能体的位置将被新生个体对应替代，新生个体源于前20％个体的变异操作。对前20％

到80％的个体进行随机交叉重组操作，加速种群向临时最优解收敛。

附图说明

图1为本发明一个实施例的基于进化策略的多域行动序列智能优化方法流程框架图；

图2为本发明一个实施例的基于进化策略的超参数优化算法流程图；

图3为本发明一个实施例的进化策略操作流程图；

图4为本发明一个实施例的态势信息图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种基于进化策略的多域行动序列智能优化方法。

如图4所示，为本实施例想定环境具体态势信息图，该想定中国家或者部门针对海事案件或事故等做出的抓捕工作，我方配置3艘快艇和2架无人机，敌方配备2艘快艇，想定范围为长200千米、宽160千米的长方形公海区域。想定推演的过程为敌方快艇在距离我方20千米，敌方快艇离开公海区域则逃脱成功，我方快艇以最短的时间在敌方离开公海区域前追击成功完成抓捕工作。

本发明提出了一种基于进化策略的多域行动序列智能优化系统，包括

任务分析模块：分析具体的多域行动任务，得到任务目标并构建奖赏函数，将分析结果输入到训练环境态势中，进而通过态势感知模块进行信息处理；

态势感知模块：用于接收未经过加工处理的环境态势信息，包括每个智能体的位置、速度、航向及地理环境等信息，并对这些信息数据进行预处理，生成态势信息数据；

基于进化策略的强化学习行动策略网络优化模块：获取态势信息数据，采用基于进化策略的超参数优化方法对行动策略网络进行优化，通过训练得到行动策略网络；

行动序列预测行动策略网络模块：获取当前真实环境中待决策智能体的局部环境态势信息输入到训练好的行动策略网络中，得到各待决策智能体的行动序列信息；

本发明还提出了一种基于进化策略的多域行动序列智能优化方法，流程图如图1所示，包括以下步骤：

步骤1：采用基于Actor-Critic强化学习框架下的MADDPG算法构建海上追逃智能任务规划系统，包括Actor行动序列策略神经网络和Critic行动序列估值神经网络。

步骤2：将多域行动模型中的所有无人机和快艇等均视为智能体，初始化环境态势信息，主要包括双方的实时位置、速度、航向参数以及当前海上环境参数，使用态势感知模块对所有的环境态势信息进行预处理；

步骤3：针对具体的行动通过任务分析模块得到任务目标，并将其作为初始条件输入到行动策略网络中。根据我方的行动目的构造奖赏函数，通过环境传递给我方智能体，我方智能体学习最大化奖赏函数，以此来训练得到我方的行动序列。

步骤4：采用进化策略的选择保留操作、交叉重组操作和选择变异操作对行动序列网络的模型结构超参数和算法行为超参数进行训练优化，找到当前学习过程的最优超参数配置来训练行动策略网络。其中行动序列网络的权值通过深度强化学习方法利用智能体与环境的不断交互来进行更新。

本实施例中，超参数设置如表1所示。

表1实验超参数设置

所述的基于进化策略的超参数优化方法，如图2所示，步骤如下：

步骤4.1：选取待优化的模型结构超参数和算法行为超参数，如表1所示。

步骤4.2：随机初始化交互环境，设置模型结构超参数优化阶段的最大迭代次数为Str_Gen_max，单轮最大梯度优化次数为Str_Step_max，设置算法行为超参数优化阶段的最大迭代次数为Alg_Gen_max，单轮最大梯度优化次数为Alg_Step_max。

其中：

Str_Step_max＝设定的模型结构超参数梯度优化总次数÷Str_Gen_max

Alg_Step_max＝设定的模型结构超参数梯度优化总次数÷Alg_Gen_max

步骤4.3：随机初始化1个策略网络，并依据上面的表1进行算法行为超参数

初始化，将其复制为N个策略网络中，对得到的N个策略网络依据上面的表1对其模型结构超参数配置

进行初始化；

步骤4.4：将N个策略网络与各自的环境进行交互，并根据当前的超参数通过深度强化学习梯度优化来提升自身策略，即更新网络的权值θ，并记录当前的梯度优化次数Str_Step，当梯度优化次数达到Str_Step_max时，进入步骤4.5。这一过程是单纯的强化学习过程，超参数的取值是固定的，不会发生变化。

步骤4.5：对N个策略网络进行适应度评估后对N个策略网络及其模型结构超参数

进行基于进化策略的进化操作，产生下一代的N个策略网络及其模型结构超参数，并记录代数Str_Gen，当小于Str_Gen_max，转至步骤4.4；直至达到最大迭代次数Str_Gen_max，选出适应度最大的策略网络。

适应度的评估方式可以任务需求自己定义,本步骤中适应度评估由智能体在训练中的得分决定，采取强化学习算法中的某一次迭代中的平均得分作为评价值。性能评估环节发生于每次采取遗传操作之前，上一代全部学习结束之后。

本步骤中基于进化算法的相关操作，如图3所示，包括三个步骤：选择保留、交叉重组、选择变异。其中：

S1,选择保留：首先，对上述获得的群体P中的前20％的智能体进行选择保留操作，直接将前20％保留至下一代，对其模型权值和超参数配置不做任何修改操作。

S2,交叉重组：从群体P中性能处于前20％到80％的个体中随机挑选两个父代个体h_i，h_j进行交叉重组操作，其中，h表示个体的超参数配置，i、j分别表示第i和第j个个体，即随机两个个体，n表示待调整的超参数总个数。即h_i表示第i个个体的超参数配置，

表示第i个个体的第一个待调整超参数。这里所述的重组操作即是两点交叉。具体的，将群体中的个体进行一个随机两两配对操作，接着每一对随机选择交叉点index1和index2，之后按照概率p_c交换交叉点间的超参数配置，重组的具体操作如公式所示。

S3,选择变异：将群体P中的后20％的智能体用群体P中的前20％的智能体进行替换操作。然后对这些替换后的个体进行变异操作，即直接对网络中的超参数进行扰动。具体的，按照一定的扰动概率p_m以扰动幅度v_range进行扰动操作。需要注意的是，对于整数型的超参数，变异后可能会产生小数，例如步长，需要再对其进行取整操作。扰动网络中的参数服从均匀分布，如公式所示。

式中，V_i～U(1-v_range,1+v_range)。其中，V_i为服从1-v_range到1+v_range的均匀分布。

经过上述选择保留，交叉重组，选择变异三个操作后，进化操作便完成，一个新的群体

就诞生了。每个智能体继续在各自当前的超参数配置下进行环境交互和梯度优化。重复上述操作，当进化操作的次数达到预先设定的时，整个优化过程结束，我们从中获得最优网络。

步骤4.6：将进行模型结构超参数优化训练后得到的策略网络复制N份，构成一个群体P，并依据上面的表1对其算法行为超参数配置

进行初始化。

步骤4.7：N个智能体在各自的当前超参数配置下，独立并行地进行环境交互获得样本并进行深度强化学习梯度优化。一旦梯度优化次数达到预设值Alg_Step_max，每个智能体停止学习，进入步骤4.8。

步骤4.8：对N个策略网络进行适应度评估后对N个策略网络及其算法行为超参数

进行基于进化策略的进化操作，产生下一代的N个策略网络及其算法结构超参数，并记录代数Alg_Gen，当小于Alg_Gen_max，转至步骤4.7；直至达到最大迭代次数Alg_Gen_max，选出适应度最大的策略网络。

步骤5：获取当前待决策智能体的局部环境态势信息，输入到步骤4训练好的行动策略网络，得到各待决策智能体的行动序列，进而得到各智能体的操作指令控制各智能体执行新的动作。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于进化策略的多域行动序列智能优化方法，包括多域行动模型，将该模型中的行动对象视为智能体，其特征在于：包括以下步骤，

步骤1，采用基于AC强化学习框架下的MADDPG算法构建多域行动智能任务规划系统，包括Actor策略网络和Critic评价网络；

步骤2，初始化环境态势信息，并对所有的环境态势信息进行预处理；

步骤3，分析智能体具体的行动得到任务目标，将其作为初始条件输入到训练环境中；根据行动目的构造奖赏函数，智能体通过学习最大化奖赏函数进行训练，得到行动策略网络；

步骤4，采用进化策略对行动策略网络进行训练优化，以获取最优超参数配置来训练行动策略网络；

2.根据权利要求1所述的基于进化策略的多域行动序列智能优化方法，其特征在于：所述步骤2中的环境态势信息，包括实时位置、速度、航向参数以及当前的地理环境信息。

3.根据权利要求2所述的基于进化策略的多域行动序列智能优化方法，其特征在于：所述步骤4的行动序列网络的权值通过深度强化学习的梯度优化方法来进行更新。

4.根据权利要求1或3所述的基于进化策略的多域行动序列智能优化方法，其特征在于：所述步骤4中训练优化方法为：

5.根据权利要求4所述的基于进化策略的多域行动序列智能优化方法，其特征在于：步骤4.1中待优化的超参数包括模型结构超参数和算法行为超参数，其中，模型结构超参数包括深度网络的隐藏层层数以及每个隐藏层单元数；算法行为超参数包括梯度优化器的学习率和衰减因子，进化算法中的重组概率、变异概率和变异扰动幅度，强化学习里面的奖赏折扣因子和步长。

6.根据权利要求5所述的基于进化策略的多域行动序列智能优化方法，其特征在于：学习率、衰减因子、奖赏折扣因子为连续型变量，其余超参数均为离散型变量。

7.根据权利要求6所述的基于进化策略的多域行动序列智能优化方法，其特征在于：所述步骤4.8中的适应度评估由智能体在训练中的得分决定，采取强化学习算法中的某一次迭代中的平均得分作为评价值；适应性评估环节发生于每次采取进化策略操作之前，上一代全部强化学习结束之后。

8.根据权利要求1或7所述的基于进化策略的多域行动序列智能优化方法，其特征在于：所述进化策略操作包括三个步骤：选择保留、交叉重组、选择变异。

9.根据权利要求8述的基于进化策略的多域行动序列智能优化方法，其特征在于：所述进化策略操作具体为：

S1，选择保留，对群体P中前20％的个体进行选择保留操作，直接将其保留至下一代，对其模型权值和超参数配置不做任何修改操作；

S2，交叉重组，从群体P中性能处于前20％到80％的个体中随机挑选两个父代个体进行交叉重组操作，将群体中的个体进行一个随机两两配对操作，接着每一对随机选择交叉点，之后按照概率交换交叉点间的超参数配置；

S3，选择变异，将群体P中后20％的个体用群体P中前20％的个体进行替换操作，然后对这些替换后的个体进行变异操作，即直接对网络中的超参数进行扰动，具体的，按照一定的扰动概率以扰动幅度进行扰动操作。

10.根据权利1或9所述的一种基于进化策略的多域行动序列智能优化系统，其特征在于，包括以下模块：