CN117111620B

CN117111620B - 一种异构无人系统任务分配自主决策方法

Info

Publication number: CN117111620B
Application number: CN202311367941.4A
Authority: CN
Inventors: 万俊贺; 李辉; 寇磊; 袁健; 王志远
Original assignee: Institute of Oceanographic Instrumentation Shandong Academy of Sciences
Current assignee: Institute of Oceanographic Instrumentation Shandong Academy of Sciences
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-03-29
Anticipated expiration: 2043-10-23
Also published as: CN117111620A

Abstract

本发明公开了一种异构无人系统任务分配自主决策方法，涉及异构智能体编队控制领域，具体包括根据任务价值、航行距离、任务执行时间进行任务分配建模，得到航行器任务分配模型：基于任务分配模型设计基于事件触发的自适应动态规划算法，基于事件触发的自适应动态规划算法包括模型网络、评价网络、执行网络、事件触发器、零阶保持器；通过基于事件触发的自适应动态规划算法对异构无人系统进行任务分配。本发明以任务分配与规划为核心，任务分配方法的好坏决定无人系统自主决策的性能，事件触发机制与自适应动态规划方法相结合，不但能够处理大量离散任务，生成最优执行策略，而且能够有效降低计算成本，满足无人系统对自主决策实时性的要求。

Description

一种异构无人系统任务分配自主决策方法

技术领域

本发明涉及异构智能体编队控制领域，具体涉及一种异构无人系统任务分配自主决策方法，尤其是一种水面无人艇和水下无人航行器任务分配自主决策方法。

背景技术

面对复杂多变的海洋环境，作为海上无人系统的水面无人艇（Unmanned SurfaceVehicle，USV）和自治水下航行器（Autonomous Underwater Vehicle, AUV）在执行3D（dirty-dull-dangerous）任务时，具有无可比拟的优势。然而，单一海上无人系统的承载能力低、覆盖范围小、信息处理能力弱等缺点显著，跨域协同是无人系统发展的高级阶段，是应对日益复杂任务的重要技术途径，因此，水面/水下跨域异构无人系统智能协同观测与分布式作战研究对于我国加快海洋强国建设具有重要意义。

随着人工智能技术的发展，跨域协同势必为海上无人系统的发展带来更多契机，是海上异构无人系统在执行海洋动力过程观测、海洋牧场环境参数监测、海洋工程现场环境监测以及作战任务成功与否的关键因素。无人系统协同任务分配是实现其协同观测和作战的前提和基础，最终目标是将所要执行的任务分配到多个无人系统上，以实现最佳的任务效能。一些文献中尝试利用合作协商的决策方法解决该类型问题，将任务分配的过程通过某些特定的协商框架实现，采用分层递进的求解思路，并通过协商规划出可行的分配方案，主要的算法有：分布式合同网竞拍法、多体满意决策论法、可变策略协商法等；另一些文献则基于特定的分配模型与指标函数，利用智能算法求解最优的分配方案，例如模拟退火算法、禁忌搜索算法、遗传算法、蜂群算法、蝙蝠算法、粒子群算法、动态规划等。禁忌搜索算法由于禁忌表的存在所能进行的搜索规模较小；遗传算法的实时性较差并且计算速度相对较慢；粒子群、蜂群等算法容易出现局部最优的结果。

动态规划算法的鲁棒性、动态性以及协同性好，更适合应用在具有强耦合、强非线性、高复杂性的系统，但是，该方法容易陷入“维数灾难”。海上异构无人系统具有强耦合、强非线性、高复杂性的特点，如何根据任务价值、航行距离和任务执行时间等因素，建立任务分配模型，在此基础上设计合理的事件触发条件，减小无人系统之间的通信负荷及控制过程的计算量，避免“维数灾难”，是异构无人系统任务分配自主决策的关键技术问题。

发明内容

为了克服现有技术中存在的上述问题，本发明提出一种异构无人系统任务分配自主决策方法。

本发明解决其技术问题所采用的技术方案是：一种异构无人系统任务分配自主决策方法，包括如下步骤：

步骤1，根据任务价值、航行距离、任务执行时间进行任务分配建模，得到航行器任务分配模型：

;

其中，f_sail表示总航行距离，f_t表示总任务执行时间，f_v表示任务分配方案的总价值指标，、/>、/>表示权重系数；

步骤2，基于步骤1的任务分配模型设计基于事件触发的自适应动态规划算法，所述基于事件触发的自适应动态规划算法包括模型网络、评价网络、执行网络、事件触发器、零阶保持器；

步骤3，通过步骤2的基于事件触发的自适应动态规划算法对异构无人系统进行任务分配。

上述的一种异构无人系统任务分配自主决策方法，所述步骤1中任务分配方案的总价值指标f_v具体为：

;

其中，为任务/>的价值；/>表示第i个航行器在执行第j个任务；i表示第i个航行器，j表示第j个任务。

上述的一种异构无人系统任务分配自主决策方法，所述步骤1中总航行距离f_sail具体为：

；

其中，j表示第j个任务，i表示第i个航行器，表示航行器i从起始位置到执行第n_i个任务之间的距离。

上述的一种异构无人系统任务分配自主决策方法，所述步骤1中总任务执行时间f_t具体为：

；

其中，vⁱ表示航行器i的速度；表示执行任务/>所需要的时间；表示航行器i从起始位置到执行第n_i个任务之间的距离。

上述的一种异构无人系统任务分配自主决策方法，所述步骤2中模型网络、评价网络、执行网络均由一个三层BP神经网络构成，分别对系统的控制策略、状态向量、代价函数进行逼近。

上述的一种异构无人系统任务分配自主决策方法，所述模型网络的设计具体包括：

模型网络的输入为系统当前的状态和零阶保持器输出的任务分配策略；

模型网络根据当前状态量和控制量估计系统下一时刻状态：

；

其中，x(k) 为k时刻的系统状态，为无人系统控制策略，k=0,1,2……N；

模型网络的目标是最小化系统状态估计值与真实值的误差函数，误差函数的定义为：

；

其中，x(k) 为k时刻的系统状态；表示k +1时刻对偏差向量的估计值，表示模型网络模型k +1时刻的估计值与系统状态的差。

上述的一种异构无人系统任务分配自主决策方法，所述模型网络的输出层权值调整规则为：

；

其中，为动量项；/>为动量系数，/>；/>表示模型网络学习速率；

k +1时刻模型网络隐藏层到输出层权值矩阵为：

；

模型网络隐藏层的权值调整规则为：

；

k +1时刻模型网络输入层到隐藏层权值矩阵为：

。

上述的一种异构无人系统任务分配自主决策方法，所述评价网络设计具体为：

评价网络用于近似最优的性能指标函数J(x(k)),由一个三层BP神经网络构成输入层的输入主要由两部分组成，包括m维的状态变量x(k)以及n维的控制变量u(k)；输出层的输出为物理意义是效用函数的近似评价网络根据当前系统状态输出k时刻的最优性能指标函数：

;

其中，为效用函数，/>为折扣因子，且/>;

评价网络的目标是最小化代价函数:

;

其中，表示评价网络误差函数；

评价网络的输出层权值调整规则为：

;

其中，为动量项，/>为动量系数，/>;/>表示评价网络学习速率；

k+1时刻评价网络隐藏层到输出层权值矩阵为：

。

上述的一种异构无人系统任务分配自主决策方法，所述执行网络设计具体为：

执行网络用于更新事件触发控制率；在执行网络中得到最优任务序列求解方程为：

;

其中，为折扣因子，且/>;

k+1时刻执行网络隐藏层到输出层权值矩阵为：

；

其中，为动量项，/>为动量系数，/>；/>表示执行网络学习速率；/>表示执行网络k时刻的权值矩阵，/>表示执行网络的代价函数；

模型网络、评价网络、执行网络激活函数采用双极性Sigmoid函数。

本发明的有益效果是，本发明以任务分配与规划为核心，任务分配方法的好坏决定无人系统自主决策的性能，事件触发机制与自适应动态规划方法相结合，不但能够处理大量离散任务，生成最优执行策略，而且能够有效降低计算成本，满足无人系统对自主决策实时性的要求。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1为本发明基于事件触发的自适应动态规划方法结构图；

图2为本发明模型网络结构图；

图3为本发明评价网络结构图；

图4为本发明执行网络结构图。

具体实施方式

为使本领域技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作详细说明。

本实施例公开了一种异构无人系统任务分配自主决策方法，尤其是针对水面无人艇和水下无人航行器任务分配自主决策方法，具体包括：

;

其中，f_sail表示总航行距离，f_t表示总任务执行时间，f_v表示任务分配方案的总价值指标，、/>、/>表示权重系数。

任务价值最大：假设航行器i的任务序列为，任务/>的价值为/>，任务分配方案的总价值指标为：

。

航行距离最短：航行器执行任务航行距离越长，能耗越大，且执行任务时间变长，因此要使航行距离尽可能小。总航行距离指标为：

。

任务执行时间最短：假设航行器i的速度为，任务执行所需要的时间/>，则总的任务执行时间为：

。

步骤2，基于步骤1的任务分配模型设计基于事件触发的自适应动态规划算法，所述基于事件触发的自适应动态规划算法包括模型网络、评价网络、执行网络、事件触发器、零阶保持器。

基于事件触发的自适应动态规划算法设计具体包括：

自适应动态规划方法（Adaptive dynamic programming, ADP）以动态规划为理论基础解决最优控制问题的方法，作为动态规划方法的近似解法，利用函数近似结构来近似哈密顿-雅可比-贝尔曼 (Hamilton-Jacobi-Bellman, HJB)方程的解。事件触发控制为非周期性控制或异步控制，它的信号采样和控制器运算是由一个特定的事件触发的，而不是随时间的流逝而规律动作，该方法可以减小这些部件内部及相互之间的通信负荷及控制过程的计算量，缩短控制的迟延作用，减少计算所占用的缓存空间，节约成本，提高控制效率。本实施例设计的事件触发式自适应动态规划方法其结构如图1所示：但这些研究中都是以固定时刻采样来更新控制策略的，为了降低采样频率，提出了基于事件触发的自适应动态规划方法。

基于事件触发的自适应动态规划方法结构由模型网络、评价网络、执行网络、事件触发器和零阶保持器五部分组成。模型网络用于更新系统状态向量；评价网络用于近似最优的性能指标函数J(x(k))；模型网络、评价网络、执行网络均由一个三层BP神经网络构成，分别对系统的控制策略、状态向量以及代价函数进行逼近。当触发条件满足时，如无人系统任务发生变化等，当前任务时刻被记为k，当前任务状态为x(k)，被送入执行网络生成新的任务执行策略，保持在零阶保持器的控制策略将被更新为新的数值，且直到下一次被触发。当触发条件不被满足时，执行网络和评价网络在此刻进行权重的更新。图中实线表示系统变量的传递过程，虚线表示神经网络的权重更新路径。

a、模型网络设计：

模型网络根据当前状态量和控制量（任务序列）估计系统下一时刻状态：

；

其中，x(k)为k时刻的系统状态，为无人系统控制策略（任务序列），。

模型网络的目标是最小化系统状态估计值与真实值的误差函数（如航向误差、位置误差等），误差函数的定义为：

；

模型网络的结构如图2所示，输入为系统当前的状态和零阶保持器输出的任务分配策略，图2中假设输入层有p个输入。

为了提高网络的训练速度，在权值调整公式中增加动量项。动量项即从前一次权值调整量中取出一部分叠加到本次权值调整量中，对于k时刻的调整起到阻尼作用，当误差曲面出现骤然起伏时，可减小振荡趋势，提高训练速度。

根据梯度下降法，模型网络输出层的权值调整规则如式（8）所示：

。

k +1时刻模型网络隐藏层到输出层权值矩阵为:

;

其中，为动量项，/>为动量系数，/>；/>表示模型网络学习速率。

同理，模型网络隐藏层的权值调整规则如式（10）所示：

。

k +1时刻模型网络输入层到隐藏层权值矩阵为：

。

b、评价网络设计：

评价网络用于近似最优的性能指标函数J(x(k)),由一个三层BP神经网络构成输入层的输入主要由两部分组成，结构如图3所示，包括m维的状态变量x(k)以及n维的控制变量u(k)。图3中假设输入层有p个输入，输出层的输出为物理意义是效用函数的近似，评价网络根据当前系统状态输出k时刻的最优性能指标函数：

;

其中，为效用函数，/>为折扣因子，且/>。

评价网络的目标是最小化代价函数E_c(k)：

；

其中，表示评价网络误差函数。

评价网络的输出层权值调整规则为：

；

所以，k+1时刻，评价网络隐藏层到输出层权值矩阵为:

；

其中，为动量项，/>为动量系数，/>;/>表示评价网络学习速率。

同理，评价网络输入层到隐藏层权值调整规则如式（17）所示：

。

k +1时刻模型网络输入层到隐藏层权值矩阵为：

。

c、执行网络设计：

执行网络用于更新事件触发控制率，执行网络的结构如图4所示，执行网络有p个输入。然后，在执行网络中得到最优任务序列求解方程为：

；

其中，表示执行网络的代价函数，/>表示执行网络的误差函数。

k+1时刻执行网络隐藏层到输出层权值矩阵为：

；

其中，为动量项，/>为动量系数，/>；/>表示执行网络学习速率；/>表示执行网络k时刻的权值矩阵，/>表示执行网络的代价函数。

模型网络、评价网络、执行网络激活函数采用双极性Sigmoid函数：

。

无人系统事件触发的条件定义为：

；

为k时刻系统误差，/>为事件触发阈值。当系统误差大于事件触发阈值时，控制策略将被更新。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种异构无人系统任务分配自主决策方法，其特征在于：包括如下步骤：

max f＝ω₁·f_V-ω₂·f_sail-ω₃·f_t

其中，f_sail表示总航行距离，f_t表示总任务执行时间，f_v表示任务分配方案的总价值指标，ω₁、ω₂、ω₃表示权重系数；

步骤3，通过步骤2的基于事件触发的自适应动态规划算法对异构无人系统进行任务分配；

所述步骤2中模型网络、评价网络、执行网络均由一个三层BP神经网络构成，分别对系统的控制策略、状态向量、代价函数进行逼近；

所述模型网络的设计具体包括：

模型网络的输入为系统当前的状态和零阶保持器输出的任务分配策略，隐藏层激活函数采用双极性Sigmoid函数；

模型网络根据当前状态量和控制量估计系统下一时刻状态：

其中，x(k)为k时刻的系统状态，为无人系统控制策略，k＝0,1,2……N；

模型网络的目标是最小化系统状态估计值与真实值的误差函数，误差函数E_m(k)的定义为：

其中，x(k)为k时刻的系统状态；表示k+1时刻对偏差向量的估计值，e_m(k)表示模型网络模型k+1时刻的估计值与系统状态的差；

所述模型网络的输出层权值调整规则为：

其中，α_mΔw_mjk(k-1)为动量项；α_m为动量系数，α_m∈(0,1)；η_m表示模型网络学习速率；

k+1时刻模型网络隐藏层到输出层权值矩阵为：

W_m(k+1)＝W_m(k)+ΔW_m(k)；

模型网络隐藏层的权值调整规则为：

k+1时刻模型网络输入层到隐藏层权值矩阵为：

V_m(k+1)＝V_m(k)+ΔV_m(k)；

所述评价网络设计具体为：

评价网络用于近似最优的性能指标函数J(x(k)),由一个三层BP神经网络构成，输入层的输入包括m维的状态变量x(k)以及n维的控制变量u(k)；输出层的输出为效用函数的近似，评价网络根据当前系统状态输出k时刻的最优性能指标函数：

其中，U(x(k),u(k))为效用函数，γ为折扣因子，且0<γ≤1；

评价网络的目标是最小化代价函数E_c：

e_c(k)＝J(x(k))-[J(x(k+1))+U(k)]

其中，U(k)表示效用函数，e_c(k)表示评价网络误差函数；

评价网络的输出层权值调整规则为：

其中，α_cΔw_c(k-1)为动量项，α_c为动量系数，α_c∈(0,1)；η_c表示评价网络学习速率；

k+1时刻评价网络隐藏层到输出层权值矩阵为：

w_c(k+1)＝w_c(k)+Δw_c(k)；

所述执行网络设计具体为：

执行网络用于更新事件触发控制率u(k)；在执行网络中得到最优任务序列求解方程为：

其中，U(x(k),u(k))为效用函数，γ为折扣因子，且0<γ≤1；

k+1时刻执行网络隐藏层到输出层权值矩阵为：

w_a(k+1)＝w_a(k)+Δw_a(k)

其中，α_aΔw_ajk(k-1)为动量项，α_a为动量系数，α_a∈(0,1)；η_a表示执行网络学习速率；w_a(k)表示执行网络k时刻的权值矩阵，E_a(k)表示执行网络的代价函数；

2.根据权利要求1所述的一种异构无人系统任务分配自主决策方法，其特征在于，所述步骤1中任务分配方案的总价值指标f_v具体为：

3.根据权利要求1所述的一种异构无人系统任务分配自主决策方法，其特征在于，所述步骤1中总航行距离f_sail具体为：

其中，j表示第j个任务，i表示第i个航行器，表示航行器i从起始位置到执行第n_i个任务之间的距离；/>表示航行器i从第j个任务到第j+1个任务的距离。

4.根据权利要求1所述的一种异构无人系统任务分配自主决策方法，其特征在于，所述步骤1中总任务执行时间f_t具体为：

其中，vⁱ表示航行器i的速度；表示执行任务/>所需要的时间；/>表示第i个航行器在执行第j个任务；i表示第i个航行器，j表示第j个任务；/>表示航行器i从起始位置到执行第n_i个任务之间的距离；/>表示航行器i从第j个任务到第j+1个任务的距离。