CN113379063B

CN113379063B - 基于在线增强学习模型的全流程任务时序智能决策方法

Info

Publication number: CN113379063B
Application number: CN202011331267.0A
Authority: CN
Inventors: 张旭辉; 王振亚; 路鹰; 郑本昌; 黄虎; 任金磊; 张佳; 李君�; 吴志壕; 范佳宣; 阎岩; 古月; 韩特; 何漫
Original assignee: China Academy of Launch Vehicle Technology CALT
Current assignee: China Academy of Launch Vehicle Technology CALT
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2024-01-05
Anticipated expiration: 2040-11-24
Also published as: CN113379063A

Abstract

基于在线增强学习模型的全流程任务时序智能决策方法，第一步，针对红蓝方对抗推演场景，建立增强学习模型，实现面向场景信息的任务时序决策；第二步，采用在线学习异步训练方法对增强学习模型进行强化学习训练，提升训练的鲁棒性和稳定性；第三步，以红方的全流程任务完成概率为基准，通过融合不同的探测与识别弧段得到全局任务完成概率，作为反馈信息；第四步，以全局任务完成概率作为反馈，完成增强学习模型在功能级干扰对抗决策上的训练和部署。本发明解决了现有技术中存在的红蓝方推演全流程任务时序决策效率低、泛化性差等问题。

Description

基于在线增强学习模型的全流程任务时序智能决策方法

技术领域

本发明涉及红蓝方对抗推演智能决策领域，特别涉及一种基于在线增强学习模型的全流程任务时序智能决策方法。

背景技术

对抗性人工智能已经出现，并取得一定成就。早在2011年，IBM的“Waston”在答题节目“危险边缘”中战胜了该节目的答题累积得分最高选手和连胜纪录保持者。核心为IBMDeepQA技术的Waston采用专家系统方式，以大数据的关联分析和统计特征进行推理，它的获胜体现了机器AI对自然语言中复杂问题的理解、推理和解答，其智能化表征使得人工智能面临重大拐点。而在大数据和高性能计算的支持下，深度学习技术的突破为人工智能发展提供了条件。

当前智能决策算法大多采用基于优化和基于先验知识的方法，针对红蓝方推演全流程任务时序中的多目标动态优化问题，存在决策效率低、泛化性差等问题。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提出基于在线增强学习模型的全流程任务时序智能决策方法，解决了现有技术中存在的红蓝方推演全流程任务时序决策效率低、泛化性差等问题。

本发明的技术解决方案是：

基于在线增强学习模型的全流程任务时序智能决策方法，该方法的步骤包括：

第一步，针对红蓝方对抗推演场景，建立增强学习模型，实现面向场景信息的任务时序决策；

第二步，采用在线学习异步训练方法对增强学习模型进行强化学习训练，提升训练的鲁棒性和稳定性；

第三步，以红方的全流程任务完成概率为基准，通过融合不同的探测与识别弧段得到全局任务完成概率，作为反馈信息；

第四步，以全局任务完成概率作为反馈，完成增强学习模型在功能级干扰对抗决策上的训练和部署。

所述的第一步中，增强学习模型的构建过程为：

(1.1)搭建红蓝方对抗推演场景；

(1.2)对红蓝方对抗推演场景中的任务特性和决策点进行分析，建立任务决策点之间的时间序列相关性；

(1.3)针对步骤(1.2)中的时间序列数据，建立增强学习模型，实现面向红蓝方对抗推演场景的时序任务决策。

所述的第二步中，采用在线学习异步训练方法，对增强学习模型进行强化学习训练的详细方法为：

在每个回合迭代训练中，为场景更新的样本数据建立贝叶斯模型，从场景更新的样本数据中选择后验概率高的样本数据进行再励处理和权衡评价。

选择后验概率高的样本数据的方法如下：

令ε表示最差情况下的分类错误率，η表示分类噪声率的上界，η的最大值为0.5，N表示假设数量，δ是样本学习的置信度，m为满足要求的样本数据后验概率。

所述的第三步中，对红蓝方对抗推演场景中的每个红方飞行器而言，其探测与识别弧段包括三类，分别为：

(3.1)红方飞行器识别弧段AD

即能够被蓝方探测器有效识别的弧段，蓝方探测器会受到欺骗和压制的影响，红方飞行器识别弧段AD为时间序列，每个时点为double值；

(3.2)蓝方拦截弧段AI

蓝方对于红方飞行器的有效防御和拦截弧段，蓝方拦截弧段AI为时间序列，每个时点表示碰撞概率，为double值；

(3.3)蓝方发射弧段AL

蓝方对于红方飞行器的有效可发射弧段，蓝方发射弧段AL为时间序列，每个时点表示发射可行性，为bool值；

红方飞行器识别弧段AD、蓝方拦截弧段AI和蓝方发射弧段AL均为与红方飞行器航迹等长的向量，但数值分布区间不同。

所述的第三步中，针对每个红方飞行器，通过融合不同的探测与识别弧段得到该飞行器的全局任务完成概率，再计算得到整个红蓝方对抗推演场景中全局任务完成概率，其具体方法为：

(S1)根据红方飞行器识别弧段AD的长短变化和每个时点的数值变化更新红方飞行器识别弧段AD；

(S2)根据红蓝方单元的位置，估算得到蓝方的碰撞概率和发射区间，更新蓝方拦截弧段AI和蓝方发射弧段AL；

(S3)对每个红方飞行器的红方飞行器识别弧段AD、蓝方拦截弧段AI 和蓝方发射弧段AL进行匹配和重合区间计算，得到红方飞行器的有效弧段，并投影为该飞行器的任务完成概率；

(S4)利用如下公式计算整个红蓝方对抗推演场景中全局任务完成概率 P_IS＝1-(1-P_I1)(1-P_I2)…(1-P_Ik)…(1-P_In)，其中P_Ik为第k个红方飞行器的任务完成概率，n为红方飞行器总个数。

所述的步骤(S3)中，匹配和重合区间计算过程为：

(S31)对AL弧段向量和AD弧段向量进行点乘，得到向量X1，对X1 取均值，得到平均拦截识别概率；

(S32)对AI弧段向量和AD弧段向量进行点乘，得到向量X2，再在X2 中寻找最大值，如果最大值大于0，则设置平均发射识别概率为1，表示能够发射；如果最大值小于等于0，则设置平均发射识别概率为0，表示无法发射；

(S33)对平均拦截识别概率和平均发射识别概率进行取与计算，计算结果即为单个红方飞行器的任务失败概率。

所述的第四步中，以AD、AL和AI弧段作为实时反馈，以全局任务完成概率P_IS作为最终任务完成概率，快速完成增强学习模型在功能级干扰对抗决策上的训练和部署。

与现有技术相比，本发明具有如下有益效果：

1、本发明利用贝叶斯网络对红蓝方对抗场景在线获取的样本进行优化选择并加入到评价网络训练的经验池中，可以避免无效样本对增强学习模型的影响，加快训练速度，提升全流程任务智能决策的效率；

2、本发明利用AD、AL和AI弧段在线融合，实时计算增强学习模型的反馈，更加适用于红蓝方对抗场景，提升增强学习模型对全流程任务时序智能决策的泛化性。

附图说明

图1为本发明流程图；

图2为本发明的模型结构图；

图3为本发明应用贝叶斯网络后的效果示意图；

图4为本发明的验证流程图。

具体实施方式

本发明提出一种基于在线增强学习模型的全流程任务时序智能决策方法，如图1所示，步骤包括：

第一步，针对红蓝方对抗推演场景，建立增强学习模型，实现面向场景信息的任务时序决策。

增强学习模型的构建过程为：

(1.1)搭建红蓝方对抗推演场景；

第二步，采用在线学习异步训练方法对增强学习模型进行强化学习训练，提升训练的鲁棒性和稳定性。

采用在线学习异步训练方法，对增强学习模型进行强化学习训练的详细方法为：

在每个回合迭代训练中，为场景更新的样本数据建立贝叶斯模型，从场景更新的样本数据中选择满足如下要求的样本数据进行再励处理和权衡评价，在增强学习过程中实现对评价网络的优化训练，使其具备更高的效率和可操作性：

令ε表示最差情况下的分类错误率，η(<0.5)表示分类噪声率的上界，N表示假设数量，δ是样本学习的置信度，m为满足要求的样本数据后验概率。

在进行评价网络训练时，只选取后验概率较大的样本作为训练样本添加至经验库中，从而提升强化学习对为探索到区域的探索可能性，避免每次训练中的重复选择。

第三步，以红方的全流程任务完成概率为基准，通过融合不同的探测与识别弧段得到全局任务完成概率，作为反馈信息。

对红蓝方对抗推演场景中的每个红方飞行器而言，其探测与识别弧段包括三类，分别为：

(3.1)红方飞行器识别弧段AD

(3.2)蓝方拦截弧段AI

(3.3)蓝方发射弧段AL

针对每个红方飞行器，通过融合不同的探测与识别弧段得到该飞行器的全局任务完成概率，再计算得到整个红蓝方对抗推演场景中全局任务完成概率，其具体方法为：

(S3)对每个红方飞行器的红方飞行器识别弧段AD、蓝方拦截弧段AI和蓝方发射弧段AL进行匹配和重合区间计算，得到红方飞行器的有效弧段，并投影为该飞行器的任务完成概率；

所述的步骤(S3)中，匹配和重合区间计算过程为：

(S31)对AL弧段向量和AD弧段向量进行点乘，得到向量X1，对X1取均值，得到平均拦截识别概率；

(S32)对AI弧段向量和AD弧段向量进行点乘，得到向量X2，再在X2中寻找最大值，如果最大值大于0，则设置平均发射识别概率为1，表示能够发射；如果最大值小于等于0，则设置平均发射识别概率为0，表示无法发射；

以AD、AL和AI弧段作为实时反馈，以全局任务完成概率P_IS作为最终任务完成概率，快速完成增强学习模型在功能级干扰对抗决策上的训练和部署。

完成在线增强学习模型在功能级干扰对抗决策上的训练和部署的方法为：以红方飞行器和蓝方探测器的干扰对抗为基准，对红方的干扰样式和干扰对象进行学习决策。

如图2所示，本发明场景不是一个严格的序列决策问题，而是一个带动作约束限制、回报滞后等问题的序列决策问题。

为了解决该问题，本发明将问题拆解，运用增强学习，先对决策的时机进行有效选择，再对决策样式进行强化学习训练。Actor-Critic算法框架可以进行单步更新，比传统的策略梯度要快。Actor Critic方法的劣势在于收敛效果取决于Critic的价值判断，但是Critic难收敛，再加上Actor的更新，就更难收敛。

策略π(s)表示了智能体的动作策略，其输出不是单个的动作，而是选择动作的概率分布，所以一个状态下的所有动作概率加和应当为π(a|s)，表示在当前时刻状态s下，选择动作a的概率，Critic的策略值函数即策略π的V_π(s):

V_π(s)＝E_π[r+γV_π(s′)]

r为反馈，γ为折合因子，s′表示前一时刻的状态，E_π[]表示期望。

状态s、动作a下的策略的动作值函数为:

Q_π(s,a)＝R_sa+γV_π(s′)

R_sa表示累积反馈值。

Actor部分采取策略梯度进行更新。

按照本发明的方法，计算AD、AL和AI弧段，得到增强学习训练的反馈值。

以3个干扰对象为例，其输出点为5维(包括干扰样式(欺骗和压制)、干扰时间、干扰对象)，通过优化n个5维输出点，即红方的决策状态和决策模式，来达到任务完成概率最高的目标。

增强学习模型的算法框架如图2所示。该模型以Actor-Critic模型架构为基础构建，包括推理网络和评价网络。同时本发明采用贝叶斯网络实现对经验池样本的优化更新，并利用具有红蓝方对抗特点的弧段构建反馈值，提升增强学习模型的训练效率和场景适应性。

增强学习模型推理网络的输入为场景实时的状态，即红方的经纬度、目标的经纬度、可观测到的船的经纬度、剩余时间以及仿真时间，网络的输出为离散的动作，即任务决策时间点以及决策模式，在本场景中受到限制的是任务决策时间，希望能够在有限时间的前提下，通过神经网络训练建立状态到动作的映射关系，利用强化学习方法在线快速生成干扰机开关的时间点以及干扰模式。评价网络的输入为场景实时的状态，输出为动作的Q值。

增强学习模型训练算法的具体步骤如下：

1)初始化推理网络u(s|θ^u)和评价网络Q(s,a|θ^Q)，目标网络以及经验池，且目标网络是主网络的复制，θ^u与θ^Q为网络权重参数，θ^u′与θ^Q′为目标网络的权重参数；

2)选取当前状态的动作。π(a|s_t)表示t时刻s_t状态下可执行动作a的概率分布，依据此概率分布选择当前状态下的动作；

3)执行动作获得对应的奖励值，并且将转换过程数据(s_t,a_t,r_t,s_t+1)存入经验池；s_t表示t时刻的状态，a_t表示t时刻的动作，r_t表示t时刻的反馈，s_t+1表示t+1时刻的状态。

4)当经验池的样本量达到一定数量后，进行模型的训练(基于贝叶斯的后验概率选取样本，一般选择后验概率大于0.6的样本)。评价网络的损失函数L 计算公式如下：

其中，Q()奖励函数，E[]表示差值的期望。因为本场景中存在动作时间的限制，即需要在强化学习算法上加入约束条件。

假定场景中探测器的位置是固定的，任务决策场景不是一个严格的序列决策问题，或者说该场景是一个集回报稀疏、回报滞后等问题于一身的序列决策问题。我们可以将该问题看作一个函数优化问题，其目标是求函数极大值且目标函数是多部探测器的探测弧段最小。本模型中用贝叶斯优化的方式代替强化学习的探索方式，从而在探索与利用中进行平衡，找到最优解。

本发明给定优化的目标函数，本模型中定义为多部探测器的探测弧段，该函数为广义的非线性函数，只需指定输入和输出即可，无需知道内部结构以及数学性质，本发明通过贝叶斯网络方法，不断地添加较大后验概率的样本点来更新目标函数的经验池，提升全流程任务场景中的算法收敛效率。

如图3所示，本发明与常规的基于网格搜索或者随机搜索的经验池更新方法区别是：贝叶斯调参采用高斯过程，考虑之前的参数信息，不断地更新先验，网格搜索未考虑之前的参数信息。贝叶斯调参迭代次数少，速度快；网格搜索速度慢,参数多时易导致维度爆炸。贝叶斯调参针对非凸问题依然稳健，网格搜索针对非凸优化问题易得到局部最优。

本发明采用的贝叶斯优化方法基于高斯过程，基于数据使用贝叶斯定理估计目标函数的后验分布，然后再根据分布选择下一个采样的超参数组合。它充分利用了前一个采样点的信息，其优化的工作方式是通过对目标函数形状的学习，并找到使结果向全局最大提升的参数。高斯过程用于在贝叶斯优化中对目标函数建模，得到其后验分布，通过高斯过程建模之后，本发明尝试抽样进行样本计算并更新经验池，而贝叶斯优化很容易在局部最优解上不断采样，这就涉及到了开发和探索之间的权衡。

开发：根据后验分布，在最可能出现全局最优解的区域进行采样,开发高意味着均值高；探索:在还未取样的区域获取采样点，探索高意味着方差高。本发明计算后验概率,用来寻找下一个x的函数,得分越高表示这个点越有可能是极值点。

如图4所示，在红蓝方博弈对抗推演仿真平台中，以红方飞行器对蓝方探测器的功能级干扰决策能力为基础，对本发明方法进行验证，试验流程如下：

1)设定合适的经典场景；

2)约定合理的场景变化因素和随机模型；

3)通过模拟对抗，实现增强学习模型的训练，并验证红方干扰决策模型对典型场景的适应性，若模型训练未收敛，则调整参数并重新训练，直至模型收敛进入下一步骤；

4)在随机场景想定下，对本发明方法进行验证试验；

5)在与第4)步同样的典型场景下，开展传统红蓝方对抗决策的试验；

6)将4)和5)的实验结果进行统计对比分析，发现本发明能够很好地解决传统对抗决策效率低、泛化性差的问题。

本发明训练的离线和在线(经验池)样本库包括从仿真平台采集到的样本 (s,p)，其中s表示网络输入的状态，即红方机动能力、可见信息(位置、姿态、速率、航线等等)、目标信息、红方行动策略；蓝方探测器信息(位置、性能参数)、位置、机动能力、数目等所有可见信息，p表示数据的标签，即红方任务成功的概率，神经网络就是去拟合s与p之间的非线性关系。利用贝叶斯网络获取的样本对增强学习模型中的评价网络进行训练，步骤如下：

1)初始化评价网络的参数θ；

2)从样本库中采样一批batch(超参数，属于调节)数据，输入到神经网络中，计算对应的输出；

3)计算网络的输出与对应标签的误差MSE；

4)将误差MSE反向传播，计算各层误差信号并更新网络所有权重参数；

4)重复2)、3)，步骤直到网络收敛为止。

本发明针对红方飞行器飞行动作任务规划要求，利用增强学习模型，对红蓝方对抗推演场景中，红方对蓝方探测器的动作序列进行决策；利用在线增强学习方法，提升增强学习效率和探索能力，任务时序生成更加稳定；提出了基于全流程推演、全局效能评估的训练与优化策略，通过三种飞行弧段的智能融合，构建考虑全局特性的评价参数，以该参数作为反馈可以有效提升学习模型对全流程任务的适应性；在红蓝方博弈对抗推演仿真平台中，以红方飞行器对蓝方探测器的功能级干扰决策能力为基础验证了本发明的有效性。本发明解决了现有技术中存在的红蓝方推演全流程任务时序决策效率低、泛化性差等问题。

本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。

Claims

1.基于在线增强学习模型的全流程任务时序智能决策方法，其特征在于该方法的步骤包括：

第四步，以全局任务完成概率作为反馈，完成增强学习模型在功能级干扰对抗决策上的训练和部署；

在每个回合迭代训练中，为场景更新的样本数据建立贝叶斯模型，从场景更新的样本数据中选择后验概率高的样本数据进行再励处理和权衡评价；

步骤3.1红方飞行器识别弧段AD

步骤3.2蓝方拦截弧段AI

步骤3.3蓝方发射弧段AL

红方飞行器识别弧段AD、蓝方拦截弧段AI和蓝方发射弧段AL均为与红方飞行器航迹等长的向量，但数值分布区间不同；

步骤S1根据红方飞行器识别弧段AD的长短变化和每个时点的数值变化更新红方飞行器识别弧段AD；

步骤S2根据红蓝方单元的位置，估算得到蓝方的碰撞概率和发射区间，更新蓝方拦截弧段AI和蓝方发射弧段AL；

步骤S3对每个红方飞行器的红方飞行器识别弧段AD、蓝方拦截弧段AI和蓝方发射弧段AL进行匹配和重合区间计算，得到红方飞行器的有效弧段，并投影为该飞行器的任务完成概率；

步骤S4利用如下公式计算整个红蓝方对抗推演场景中全局任务完成概率P_IS＝1-(1-P_I1)(1-P_I2)…(1-P_Ik)…(1-P_In)，其中P_Ik为第k个红方飞行器的任务完成概率，n为红方飞行器总个数。

2.根据权利要求1所述的基于在线增强学习模型的全流程任务时序智能决策方法，其特征在于：所述的第一步中，增强学习模型的构建过程为：

步骤1.1搭建红蓝方对抗推演场景；

步骤1.2对红蓝方对抗推演场景中的任务特性和决策点进行分析，建立任务决策点之间的时间序列相关性；

步骤1.3针对步骤1.2中的时间序列数据，建立增强学习模型，实现面向红蓝方对抗推演场景的时序任务决策。

3.根据权利要求1所述的基于在线增强学习模型的全流程任务时序智能决策方法，其特征在于：选择后验概率高的样本数据的方法如下：

4.根据权利要求1所述的基于在线增强学习模型的全流程任务时序智能决策方法，其特征在于：所述的步骤S3中，匹配和重合区间计算过程为：

步骤S31对AL弧段向量和AD弧段向量进行点乘，得到向量X1，对X1取均值，得到平均拦截识别概率；

步骤S32对AI弧段向量和AD弧段向量进行点乘，得到向量X2，再在X2中寻找最大值，如果最大值大于0，则设置平均发射识别概率为1，表示能够发射；如果最大值小于等于0，则设置平均发射识别概率为0，表示无法发射；

步骤S33对平均拦截识别概率和平均发射识别概率进行取与计算，计算结果即为单个红方飞行器的任务失败概率。

5.根据权利要求4所述的基于在线增强学习模型的全流程任务时序智能决策方法，其特征在于：所述的第四步中，以AD、AL和AI弧段作为实时反馈，以全局任务完成概率P_IS作为最终任务完成概率，快速完成增强学习模型在功能级干扰对抗决策上的训练和部署。