CN113255893B

CN113255893B - 一种多智能体行动策略自演进生成方法

Info

Publication number: CN113255893B
Application number: CN202110609397.4A
Authority: CN
Inventors: 王玥; 庄星; 尹昊; 刘劲涛; 李柯绪
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2022-07-05
Anticipated expiration: 2041-06-01
Also published as: CN113255893A

Abstract

本发明公开了一种多智能体行动策略自演进生成方法，具有较强的鲁棒性与自适应能力，适应于战场高动态变化态势下的智能体行动策略快速生成。初始化公共神经网络，公共神经网络包含演员网络和评论家网络。进行初始化设置后，计算当前时间节点执行完动作后获得的回报值；更新时间节点t，即t自增1。计算当前时间序列内最后一个时间节点的t的状态奖励值；更新时间节点t+1的状态奖励值，更新当前线程中演员网络参数的梯度值，更新当前线程中评论家网络参数的梯度值；更新公共神经网络的两个全局参数。公共神经网络训练完成后，形成策略生成模型，面对新的空战环境变化，将新的空战环境的状态特征和动作输入至所述策略生成模型，输出行动策略。

Description

一种多智能体行动策略自演进生成方法

技术领域

本发明涉及智能体技术领域，具体涉及一种多智能体行动策略自演进生成方法。

背景技术

无人设备在真实的自然环境中，可以视为具有感知和行动能力的智能体，由于态势信息通常处于不断变化的过程中，在短时间内可能出现周围环境、可分配资源、智能体宏观任务以及智能体自身能力等信息的快速变化。在有限的行动规划时间里，快速生成行动策略，实现多智能体统一部署、协同作战的能力，是目前多智能体复杂系统行动策略研究的重点方向。其在智能调度、工业智能化以及复杂军事作战等领域有着极为广泛的应用。

通常采用的层次分析法、证据融合方法与多属性决策等理论等主要依靠专家知识与经验库进行决策生成，既缺少足够多的案例以供判断，智能体也不具备自我探索能力，同时在真实的战场环境下，没有考虑到整个智能系统中智能体的增减与集群化；基于神经网络的策略生成方法依赖大规模的监督学习，面对小样本的作战案例无法有效给出行动策略。

因此如何在战场高动态变化态势下进行智能体行动策略的快速生成是目前亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种多智能体行动策略自演进生成方法，具有较强的鲁棒性与自适应能力，同时兼顾单智能体与多智能体的多层级策略生成要求，适应于战场高动态变化态势下的智能体行动策略快速生成。

为达到上述目的，本发明的技术方案包括如下步骤：

步骤1：初始化公共神经网络，公共神经网络包含演员网络和评论家网络，设置两个全局参数分别θ和w，其中演员网络参数为θ'，评论家网络参数为w'。

设置全局迭代次数T，全局最大迭代次数T_MAX。

单次线程的单次迭代中的时间序列最大长度t_MAX，公共神经网络的输入为状态特征和动作，输出为行动策略；状态特征隶属于状态特征集S，动作隶属于动作集A，行动策略隶属于策略集π(a/s)；其中a代表当前行动策略对应动作，s代表当前的状态；熵系数为c；衰变因子为γ。

步骤2：设置当前线程的单次迭代中的时间节点t，t的初始值为1；设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0。

步骤3：将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数，即θ'＝θ，w'＝w。

步骤4：初始化状态特征集S。

步骤5：基于部分设定规则以及智能体的当前状态特征s^t，根据策略集π(a/s)，智能体做出当前策略的动作a^t。

步骤6：计算当前时间节点执行完动作a^t后获得的回报值r^t；更新时间节点t，即t自增1，更新智能体的状态特征为s^t+1。

步骤7：若t＞t_MAX，则转向步骤8，否则返回执行步骤5。

步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(s^t,t)

步骤9：更新时间节点t+1的状态奖励值Q(s^t,t+1)＝W·r^t+γQ(s^t,t)。

其中W为单步动作的回报值的权重系数，W取值为0-1之间；

更新当前线程中演员网络参数的梯度值为

其中，

为梯度算子，即计算θ'的梯度值；H(π(s^t,θ'))为策略π(a^t/s^t)熵值；V(s^t,t)为在状态特征s^t、时间序列t时由评论家网络的价值函数计算得到的评论家价值。

更新当前线程中评论家网络参数的梯度值为

步骤10：更新公共神经网络的两个全局参数：θ减小αdθ'，w减小βdw'；其中α为演员网络参数步长；β为评论家网络参数步长。

步骤11：T自增1；如果T＞T_MAX,则公共神经网络训练完成，输出公共神经网络的两个全局参数参数θ,w,否则返回步骤3。

步骤12：公共神经网络训练完成后，形成策略生成模型，面对新的空战环境变化，将新的空战环境的状态特征和动作输入至策略生成模型，输出行动策略。

进一步地，特征状态集S的向量空间包括以下量化后的数据：环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。

进一步地，动作集包含智能体的基本行为动作。

进一步地，步骤8中，Q(s^t,t)的计算方法如下：

进一步地，单步动作的回报值的权重系数W的取值，将通过设定阈值将时间序列分为前后两段，当t处于前半段时W的取值大于t处于后半段时W的取值。

有益效果：

本发明提供了一种多智能体行动策略自演进生成方法，采用了改进的强化学习算法对智能体的自我决策能力进行训练，使其具备在对抗环境下的行动策略自主生成能力，同时该算法鲁棒性强，可以适用于不同的智能体训练、对抗环境，策略生成率达到100％。本发明中智能体个体决策与群体决策都是基于统一的框架，基于这种框架智能体个数可以自适应地增添或删减，增加了整个系统的鲁棒性，同时有效应对智能体损毁减少，或者随时增加的场景。

附图说明

图1为本发明一个实施例提供的一种多智能体的决策生成训练方法的流程图；

图2为本发明另外一个实施例提供的一种多智能体的决策生成训练方法的原理示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种多智能体行动策略自演进生成方法，适用于多智能体行动策略自主生成。其中智能体是现实实体的抽象概念，范围可以包括具备动态感知能力；能够执行动作并获取反馈；对反馈结果能够获取评价信息。其主要的实体可以包括如下：森林火灾中的灭火无人机；自然灾害求援任务中的求援机器人；军事打击任务中的侦察机、智能打击武器等。

上述的所有场景中，有以下几个特征：

智能体的行动策略是收到一定规则限制的。智能体的策略行为必然不可能超过其能力范围，比如无人车不可能执行飞行命令，无人机无法进行水下探测等，这类智能体的策略规则由先验知识界定，在下文中用“规则”代替。

智能体的策略行为所带来的反馈不同。例如在无人机策略规划中，攻击行为与飞航行为所反馈的态势信息截然不同；有些策略具备极高的正向反馈，但有些策略的反馈可以认为是0值。在下文中，用“策略奖励值”表示策略的执行情况。

由于通常的智能体策略需要多个智能体共同执行完成，多智能体的编队行为也需要额外的智能体进行监督。在下文中，用“演员”来表示执行策略的智能体，用“评论家”来表示进行监督的智能体。

本发明提供的多智能体自主行为策略生成方法，考虑了复杂态势感知的环境下，多智能体根据环境信息与自身状态，生成不超出规则范围的行动策略的任务分配方案。本发明以改进的强化学习算法作为智能体行为策略的探索算法，算法对训练样本要求低，生成策略的回报率高。

如图1所示，本发明的一个实施例提供的一种多智能体行动策略自演进生成方法，包括如下步骤：

步骤1：初始化公共神经网络，所述公共神经网络包含演员网络和评论家网络，设置两个全局参数分别θ和w，其中演员网络参数为θ'，评论家网络参数为w'；

设置全局迭代次数T，全局最大迭代次数T_MAX；

单次线程的单次迭代中的时间序列最大长度t_MAX，所述公共神经网络的输入为状态特征和动作，输出为行动策略；状态特征隶属于状态特征集S，动作隶属于动作集A，行动策略隶属于策略集π(a/s)；其中a代表当前行动策略对应动作，s代表当前的状态；熵系数为c；衰变因子为γ。

本发明实施例中特征状态集S的向量空间包括以下量化后的数据：环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。动作集包含智能体的基本行为动作。

步骤2：设置当前线程的单次迭代中的时间节点t，t的初始值为1；设置当前线程中演员网络参数θ'和评论家网络参数w'的梯度值dθ'和dw'初值均为0；

步骤3：将初始化的公共网络参数赋值给当前的单次线程中的演员网络参数和评论家网络参数，即θ'＝θ，w'＝w；

步骤4：初始化状态特征集S；

步骤5：基于部分设定规则以及智能体的当前状态特征s^t，根据策略集π(a/s)，智能体做出当前策略的动作a^t；

步骤6：计算当前时间节点执行完动作a^t后获得的回报值r^t；更新时间节点t，即t自增1，更新智能体的状态特征为s^t+1；

步骤7：若t＞t_MAX，则转向步骤8，否则返回执行步骤5；

步骤8:计算当前时间序列内最后一个时间节点的t的状态奖励值Q(s^t,t)；Q(s^t,t)的计算方法如下：

步骤9：更新时间节点t+1的状态奖励值Q(s^t,t+1)＝W·r^t+γQ(s^t,t)；

其中W为单步动作的回报值的权重系数，W取值为0-1之间；单步动作的回报值的权重系数W的取值，将通过设定阈值将时间序列分为前后两段，当t处于前半段时W的取值大于t处于后半段时W的取值。

更新当前线程中演员网络参数的梯度值为

其中，

为梯度算子，即计算θ'的梯度值；H(π(s^t,θ'))为策略π(a^t/s^t)熵值；V(s^t,t)为在状态特征s^t、时间序列t时由评论家网络的价值函数计算得到的评论家价值；

更新当前线程中评论家网络参数的梯度值为

步骤10：更新公共神经网络的两个全局参数：θ减小αdθ'，w减小βdw'；其中α为演员网络参数步长；β为评论家网络参数步长；

步骤11：T自增1；如果T＞T_MAX,则公共神经网络训练完成，输出公共神经网络的两个全局参数参数θ,w,否则返回步骤3；

步骤12：公共神经网络训练完成后，形成策略生成模型，面对新的空战环境变化，将所述新的空战环境的状态特征和动作输入至所述策略生成模型，输出行动策略。

如图2所示，本发明的另外一个实施例提供的一种多智能体行动策略自演进生成方法，包括如下步骤：

SS1：初始化公共神经网络参数，并设置公共最大迭代轮数T，其上限为T_MAX，初始化演员参数，包括环境态势信息、传感器数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态等，这些信息量化后表示为：位置信息、姿态信息、速度信息、航向角、特征数据、实体状态、任务执行机构、任务报告、视觉效果、地形变化、挂载信息、毁伤信息、损失信息。其中任务报告主要为打击报告。

本发明实施例中，演员信息包括智能体编号i、任务状态S，任务规则π，其中状态集S中包含以下信息：当前损毁状态α，α初值为1；演员当前执行任务β，β主要为起飞、侦查、攻击、返航四种状态，以00、01、10、11表示。

SS2：T＝T+1；启动单个线程，单个线程中时间序列节点表示为t，其上限为t_MAX；演员根据自身规则，选择打击策略执行时，演员根据自身执行情况获得反馈，并对反馈的奖励值进行缓存，当前任务执行完毕后感知环境的整体态势信息，选择下一时刻所要执行的任务，任务结束状态为当前想定达到既定结束指标：我方或地方所有智能体毁伤完毕。

本发明实施例中，智能体i对当前线程时间序列为t的节点，执行策略π后的奖励值为：r_i ^t＝(ATT-SUR)*TIME；其中TIME是演员执行当前策略所消耗的时间，ATT是毁伤的地方智能体数量，SUR是我方智能体在执行完指令后的存活数量。

当前本次线程时间序列终止后，我方智能体所获得的所有奖励值求和得到该次行动策略的序列奖励值

SS3：t＝t+1；神经网络根据当前智能体的行为奖励值，梯度上升更新演员网络和评论家网络的参数，随后根据更新后的参数重新执行SS 1，直到该网络参数达到最大值或t＞t_MAX。

SS 4：在主要任务想定改变后，演员根据自身规则，选择机动策略执行，演员根据路径规划结果情况获得反馈，并对反馈的奖励值进行缓存，当前任务执行完毕后感知环境的整体态势信息，选择下一时刻所要执行的任务，任务结束状态为当前想定达到既定结束指标。

SS 5：启动新的线程，执行路径规划学习，在该线程时间节点为t的节点处，其奖励值计算方式如下：r_i ^t＝(s+SUR)/TIME,其中s代表路径规划策略中行进的总路程，SUR代表策略执行完后存活的我方智能体数量，TIME代表当前任务执行的时间；t＝t+1。

SS 6：重复执行SS 5至该网络参数达到最大值或t＞t_MAX。

SS 7：当T＞T_MAX,当前整体任务执行完毕，将各个线程的参数更新至公共神经网络状态，梯度上升的更新参数，若未达到最大值，转向SS 2。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多智能体行动策略自演进生成方法，其特征在于，包括如下步骤：

设置全局迭代次数T，全局最大迭代次数T_MAX；

单次线程的单次迭代中的时间序列最大长度t_MAX，所述公共神经网络的输入为状态特征和动作，输出为行动策略；状态特征隶属于状态特征集S，动作隶属于动作集A，行动策略隶属于策略集π(a/s)；其中a代表当前行动策略对应动作，s代表当前的状态；熵系数为c；衰变因子为γ；

步骤4：初始化状态特征集S；

步骤7：若t＞t_MAX，则转向步骤8，否则返回执行步骤5；

其中W为单步动作的回报值的权重系数，W取值为0-1之间；

更新当前线程中演员网络参数的梯度值为

dθ'+▽_θ'logπ_θ'(s^t,a^t)(Q(s^t,t)-V(s^t，t))+c▽_θ'H(π(s^t,θ'))；

其中，▽_θ'为梯度算子，即计算θ'的梯度值；H(π(s^t,θ'))为策略π(a^t/s^t)熵值；V(s^t,t)为在状态特征s^t、时间序列t时由评论家网络的价值函数计算得到的评论家价值；

更新当前线程中评论家网络参数的梯度值为

2.如权利要求1所述的行动策略自演进生成方法，其特征在于，所述特征状态集S的向量空间包括以下量化后的数据：环境态势信息、智能体从传感器获取的数据、智能体能力图谱、按功能域划分的任务策略规划序列、智能体自身行动状态。

3.如权利要求1所述的行动策略自演进生成方法，其特征在于，所述动作集包含智能体的基本行为动作。

4.如权利要求1所述的多智能体行动策略自演进生成方法，其特征在于，所述步骤8中，Q(s^t,t)的计算方法如下：

5.如权利要求1所述的多智能体行动策略自演进生成方法，其特征在于，所述单步动作的回报值的权重系数W的取值，将通过设定阈值将时间序列分为前后两段，当t处于前半段时W的取值大于t处于后半段时W的取值。