CN116820093A

CN116820093A - 基于多智能体强化学习的多车协同侦测系统轨迹规划方法

Info

Publication number: CN116820093A
Application number: CN202310650213.8A
Authority: CN
Inventors: 孙健; 李卓; 郭云龙; 徐勇; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-09-29

Abstract

本发明公开了基于多智能体强化学习的多车协同侦测系统轨迹规划方法，属于机器人智能决策与控制领域。首先构建面向时空信号场侦测任务的多车协同轨迹规划问题的马尔科夫决策过程模型；基于有限元方法估计信号场强度，并将其用以设计无人车侦测轨迹规划的状态空间，并设计动作空间和损失函数；然后建立策略网络和评价网络；再基于多智能体强化学习算法，在无人车每前进一步后训练更新策略网络和评价网络，直至二者收敛；最终得到用于多个无人车轨迹规划的策略网络。本发明在无人车动力学模型和待侦测时空信号场分布均完全未知的情况下解决多个无人车协同侦测时空信号场任务中的轨迹规划问题，使该系统以最短时间获得充足信息并抵达预定目标。

Description

基于多智能体强化学习的多车协同侦测系统轨迹规划方法

技术领域

本发明涉及机器人智能决策与控制技术领域，具体涉及一种基于多智能体强化学习的多车协同侦测系统轨迹规划方法。

背景技术

近年来，自主无人系统被广泛应用于各类侦察和探测任务中，例如环境监测、搜救任务、交通监测和农场管理。无人车能够较长时间执行操作和携带重载。与单一无人车相比，多台无人车可以通过合作，提高对任务的适应性和灵活性，实现更广泛的搜索，提高这些任务的安全性、有效性和效率。

自主无人系统执行各项任务主要包括环境感知、轨迹规划和底层控制三个步骤，其中轨迹规划能力的提升可大大提高其自主能力、对任务环境的适应能力及工作效率。多智能体轨迹规划是一种寻找多个智能体从起始位置到目标位置且无冲突的最优路径集合的问题，是一种复杂的组合优化问题。多智能体轨迹规划方法大致可分为三大类：基于搜索的方法、基于采样的方法和基于优化问题求解的方法。

基于搜索的方法是将无人车的工作空间的地图构建为一个图，通过在离散化的状态空间中进行启发式搜索来寻找最优或次优的轨迹。这类方法的优点是可以保证路径的最优性和完备性，但是难以处理高维、连续、动态的环境。在单体规划方面，Dijkstra算法和A*算法最为著名；在多智能体规划方面，CBS是一种基于搜索的多智能体路径规划方法，它通过将问题分解为低层次的单智能体路径规划和高层次的冲突解决来提高效率；基于采样的方法通过在状态空间中随机采样点来构建一棵或多棵搜索树，从而寻找可行的轨迹。这类方法的优点是可以处理高维、连续、动态的环境，规划效率更高，但是难以保证路径的最优性和完备性。常见的算法有单查询的概率路图算法(Probabilistic Road Map,PRM)、快速随机扩展树算法(Rapidly-exploring Random Tree,RRT)、RRT-Connect算法等，以及渐近最优算法的RRT*算法等；在多智能体规划方面，dRRT*是一种基于采样的多智能体运动规划方法，它提供了理想的路径质量保证，并且在计算上也很有效率。

以上两种方法偏重于无人车的路径规划，而较少考虑轨迹规划中无人车的动力学约束。对于实际应用中的无人车轨迹规划需要考虑其动力学、能量消耗、外部威胁等多重约束及不同目标，现有研究常采用基于优化方法中的最优控制进行解析或数值求解。然而，由于无人车的工作环境常具有时空动态且其中的信号分布未知，轨迹约束常由非凸泛函不等式描述且无明确表达式，使用最优控制方法求解复杂度极高且很难求得最优解。

随着人工智能技术的发展，强化学习逐渐成为一种新的轨迹规划方法。多智能体强化学习基于“集中式训练，分布式执行”的范式，通过让多个智能体与环境交互并根据奖励信号来学习最优或次优的轨迹。这类方法的优点是可以适应复杂、不确定、非静态的环境，但是难以保证收敛性和稳定性。多智能体深度确定性策略梯度(MADDPG，Multi-AgentDeep Deterministic Policy Gradient)是一种多智能体强化学习的经典算法，基于强化学习实现多智能体协作控制，它通过使用集中式训练和分布式执行来克服部分可观测性和非平稳性的问题。

与目标跟踪任务相比，侦测任务的轨迹规划问题具有更大的挑战性。在该任务中，不仅无人车的动力学模型未知，待侦测的信号场分布也完全未知且具有时空动态性。此外，由于无人车的量测信息随其轨迹不断累计，侦测任务中的信息约束则表述为时间的泛函，只能在轨迹结束时进行判断。对于该问题，使用优化问题进行数值求解需要极大的计算量，在强化学习框架下则具有奖励稀疏的难点，因此有待进一步研究解决。同时，无人车得到的侦测信息具有噪声，使得无人车无法完全观测信号场，可能导致部分可观马尔可夫决策过程的出现，不利于问题的解决。

因此如何在无人车模型未知且时空信号场未知的条件下实现对多车协同侦测系统的轨迹规划，是目前尚未解决的问题。

发明内容

有鉴于此，本发明提供了一种基于多智能体强化学习的多车协同侦测系统轨迹规划方法，该方法无需无人车的动力学模型和待侦测信号场分布，只需要多车系统与信号场不断交互即可训练得侦测的轨迹规划策略，

为达到上述目的，本发明的技术方案包括以下步骤：

1)构建面向时空信号场侦测任务的多个无人车轨迹规划的马尔可夫决策过程模型。

2)根据所述马尔可夫决策过程模型建立多个无人车侦测轨迹的优化问题。

3)根据所述多个无人车侦测轨迹的优化问题设计强化学习求解算法。

4)将多个无人车的状态量输入到所述强化学习求解算法中，得到基于多智能体强化学习规划策略下的多个无人车侦测轨迹。

进一步地，步骤1)中，构建的面向时空信号场侦测任务的多个无人车轨迹规划的马尔可夫决策过程模型包括状态变量、控制变量、转移模型和损失函数。

进一步地，状态变量为无人车i的状态变量s_i(k)，表达式为：

其中，i＝1,2,…,m，m是无人车的数量，p_i(k)表示无人车i在当前时刻k的位置，θ_i(k)表示惯性坐标系下无人车i的方位角，表示利用信号场估计算法得到的无人车i位置的信号场估计值；p_ti为无人车i的目标位置；

控制变量为a_i(k)表达式为无人车i的方位角速度a_i(k)＝ω_i(k)；ω_i(k)为无人车i的在当前时刻k的方位角速度；

转移模型表达式为：s_i(k+1)＝g(s_i(k),a_i(k))；s_i(k+1)为下一时刻k+1的无人车i的位置，g(s_i(k),a_i(k))为转移函数。

进一步地，状态变量，其中信号场估计值由线性滤波器对有限元估计的线性信号场进行滤波获得；时空信号场采用如下偏微分方程描述：

其中，f(p,t)为时空信号场在空间位置p和时间t的信号强度，为对f(p,t)求偏导，A是一个线性算子，∈(t)表示信号场的白噪声输入，采用有限元方法进行估计，即

其中，φ_j(p)表示一个基函数，x_j(t)为基函数对应的未知参数，d为基函数的个数，Φ(p)和x(t)分别对应d个基函数和未知参数组成的行向量和列向量；

f(p,t)再经过Galerkin加权残差方法及离散化处理，将偏微分方程表示的时空信号场表示为如下线性系统：

x(k+1)＝Ax(k)+ε_d(k),

其中，x(k+1)为k+1时刻的未知参数向量，x(k)为k时刻的未知参数向量，A为状态转移矩阵，ε_d(k)为包含输入噪声及估计误差的误差项；

针对该线性系统，采用标准的Kalman型滤波器，得到状态估计量则进一步估计得到无人车所在位置的信号场强度/>

进一步地，损失函数c_i(s_i(k),a_i(k))用于评价无人车i状态s_i(k)下执行控制变量a_i(k)的效果，表达式为：

其中，ρ,λ分别表示各项的权重系数，Δ_di(k)为无人车到终点距离的变化量，表示无人车i所获得的信息奖励，信息奖励中的c_info,i(k)由估计的时空信号场得到，c_s,i(k)为无人车i与其他无人车距离较近时施加的惩罚项，h_i(k)为无人车i经过其他无人车已侦测路径时施加的惩罚项。

Δ_di(k)＝‖p_i(k)-p_ti‖-‖p_i(k-1)-p_ti‖，

表示多车系统所获得的信息奖励，信息奖励中的c_info,i(k)由估计的时空信号场得到，针对有限元估计下的线性系统，设计信息奖励为：

Δ_r(G(p(k),k))＝rank(G(p(k),k))-rank(G(p(k-1),k-1)),

其中，G(p(k),k)为线性系统的可观性Gramian矩阵，表示利用信号场估计得到的无人车i位置的信号场估计值，/>表示其强度的平方，w为权重系数，rank(*)表示矩阵*的秩，Δ_r(G(p,k))表示可观性Gramian矩阵的变化量。

进一步地，针对所述损失函数，采用如下方法进行修正：

若无人车i与无人车j的距离小于预设的阈值d₁，则无人车i与无人车j的损失函数均施加惩罚项c_ij(k)＝c_ji(k)，同时为避免无人车i重复探索无人车j已探索过的区域，设计损失函数的修正方法：记录每一无人车每一历史时刻的轨迹点，若存在无人车j的历史轨迹点与无人车i的距离小于预设的阈值d₂，则无人车i的损失函数均施加惩罚项h_i(k)。

进一步地，步骤2)中，建立的多车系统的侦测轨迹优化问题中包括确定目标函数和约束条件；

构建无人车i对应的目标函数J_i的表达式为：

其中，表示求均值算子，γ表示对未来损失的权重的衰减因子，0<γ<1；a_k≥1为k≥1时刻的一系列动作；

目标函数J_i对应的约束条件的表达式为：

s_i(k+1)＝g(s_i(k),a_i(k)),k＝1,…,n-1，n为终点时刻；

其中，a_k≥1表示控制变量的输入序列，表示利用信号场估计算法得到的无人车i位置的信号场估计值，/>表示其强度，物理意义为无人车i到达最终时刻时其所获得的信息量，∈为一个给定上界。

进一步地，步骤3)中，设计多智能体强化学习求解算法包括构建并更新每一无人车的两个评价网络以及构建并更新每一无人车的策略网络。

进一步地，构建评价网络的方法为：

对每一无人车i，使用θ_is参数化两个评价网络θ_is表示权重参数，s＝1,2，评价网络/>的输入为所有无人车的联合状态变量s(k)＝[s₁(k),s₂(k),···,s_m(k)]和联合控制变量a(k)＝[a₁(k),a₂(k),···,a_m(k)]，输出为累计损失量，累计损失量的函数表达式如下：

更新评价网络的方法是最小化如下残差J_Q(θ_is)；

其中,D为存储历史数据(s(k),a(k),c(k),s(k+1))的回放记忆，其中c(k)＝[c₁(s₁(k),a₁(k)),c₂(s₂(k),a₂(k)),···,c_m(s_m(k),a_m(k))]为所有无人车的损失函数所组成的向量；y_i为动作价值函数的估计量，表达式为：

进一步地，构建策略网络的方法为：

采用μ_i参数化无人车i策略网络μ_i表示权重参数，策略网络的输入为无人车i的状态变量s_i(k)，控制变量a_i(k)由策略网络平滑后得到：

其中为具有均值0和方差σ的正态分布/>的限幅函数，-c和c分别为限幅函数的下界和上界；

更新无人车i策略网络的梯度下降方法如下：

其中，是策略提升中采用的动作向量，/> 表示对参数μ_i求偏导，/>表示对动作a_i(k)求偏导；

策略网络的更新在评价网络更新每k_d步后进行。

进一步地，步骤4)中，得到各无人车侦测轨迹的方法为：

4-1)参数设置；

设定令评价网络和策略网络的最大训练次数为M，每次训练的最大更新步数为T，经验回放抽取的训练集大小为N，评价网络与策略网络的学习率分别为α_Q和α_π，衰减因子为γ，软更新速率为τ，网络滞后更新步数为k_d；

4-2)初始化回放记忆和各网络参数，并初始化信号场估计算法参数；

4-3)迭代开始，初始化迭代次数为epi＝0；

4-4)对于每一次迭代，初始化步数为k＝0，初始化所有无人车的目标位置p_t1,p_t2,…,p_tm，获得所有无人车联合初始状态变量s(0)＝[s₁(0),s₂(0),···,s_m(0)]；

4-5)至4-8)为对每一无人车的方法步骤：

4-5)对于无人车i，使用当前策略网络生成k时刻控制变量a_i(k)，其中为均值为0，方差为σ的正态分布；输入控制变量a_i(k)与状态s_i(k)，无人车i通过转移模型返回下一时刻状态变量s_i(k+1)；

4-6)对于无人车i，运行信号场估计算法得到测量状态更新累计测量/>判断累计测量f_si是否超过给定阈值∈_mi：如若超过，则c_info,i(k)＝Δ_r(G(p,k))；否则/>

4-7)对于无人车i，利用损失函数计算该步转移的损失c_i(s_i(k),a_i(k))；

4-8)对于无人车i，进行判定：若无人车i当前状态满足终止条件||p_i(k)-p_ti||≤ξ_p和f_si≥ξ_mi，则记无人车i任务完成状态done_i为真；ξ_p为表示无人车到达目标点的距离上界，f_si为累积测量，ξ_mi为表示已获得充足累积信息的累积测量下界；

4-9)将步骤4-4)至4-8)得到每一无人车的数据拼接为所有无人车的联合状态变量s(k)＝[s₁(k),s₂(k),···,s_m(k)]、联合控制变量a(k)＝[a₁(k),a₂(k),···,a_m(k)]、联合损失函数c(k)＝[c₁(s₁(k),a₁(k)),c₂(s₂(k),a₂(k)),···,c_m(s_m(k),a_m(k))]和联合任务完成状态done＝[done₁,done₂,···,done_m]，将其组成一个经验样本d(k)＝(s(k),a(k),c(k),s(k+1),done)，存入经验队列D；

4-10)统计经验队列中的经验样本个数设为N_R并判定：若N_R≤N，则转到步骤4-5)；若N_R>N，则进入步骤4-11)；N为经验重放的最小样本数量；

4-11)至4-18)为对每一无人车的方法步骤：

4-11)从经验队列D中随机抽取一个小批量数据集B；

4-12)对于无人车i，选择动作其中χ＝/> 为目标策略网络；更新联合控制变量/>

4-13)根据步骤3)中方法，计算

并最小化残差

4-14)判定：若k mod k_d＝0，则进行步骤4-15)至4-16)；

4-15)根据步骤3)中方法，更新策略网络

4-16)更新目标网络：θ′_is为更新后的评价网络权重参数，μ′_i为更新后的策略网络参数，α为软更新的权重系数；

θ′_is←αθ_is+(1-α)θ′_is,s＝1,2

μ′_i←αμ_i+(1-α)μ′_i；

4-17)判定：若k>T或所有无人车均完成任务(对于所有i＝1,2,…,m，done_i为真)，则进入步骤4-18)，所有无人车随机选择新的初始位置开始新一次的信号场侦测任务，否则返回步骤4-5)；

4-18)使用epi+1更新训练次数epi，并进行判定：若epi<epi_M，则重新返回步骤4-2)，所有无人车随机选择新的初始位置开始新一次的信号场侦测任务；否则迭代结束，将迭代终止时的各无人车的当前策略网络作为各无人车的最终的策略网络；即对于无人车i，迭代终止时的作为其最终的策略网络，记为/>将各无人车的状态变量输入各自的最终策略，输出各自的控制变量得到各无人车的侦测轨迹。

有益效果：

本发明提出的方法不依赖无人车动力学模型和待侦测环境模型，仅以无人车位置以及该位置环境中信号场强度量测等传感信息作为神经网络输入，以无人车角速度的控制指令为输出，训练得到无人车轨迹规划策略网络，使多车系统在最短时间内获得充足的信号场相关信息并抵达预定目标位置，完成信号场侦测任务。其特点及有益效果在于：

1)本发明在无人车模型未知且时空信号场分布未知的条件下实现对多车协同侦测系统的轨迹规划。策略梯度更新方法通过无人车轨迹及所对应无人车传感信息的采样数据，自主学习出最优的评价网络与策略网络，该过程中不需要无人车模型的任何假设与参数，仅在马尔可夫决策过程的建模时对时空信号场进行有限元估计。

2)本发明的方法将确定性策略梯度理论与人工神经网络相结合，对每一个无人车设计了两个评价网络和一个策略网络，并在网络更新中应用了其他无人车的信息。评价网络用于拟合强化学习中的值函数(Q函数)，策略网络在给定状态生成相应的控制策略。利用神经网络的非线性拟合能力，使得在无人车模型及复杂的时空信号场分布均未知的情况下，仍可学习到理想的轨迹规划策略。同时，使用有限元估计对应无人车所测量到的时空信号场，并使用可观性Gramian矩阵设计奖励函数，很好地解决了奖励稀疏的问题。

3)本发明的方法的可拓展性强。本发明的方法针对广泛的时空信号场侦测任务设计轨迹规划方法，适用于实际环境中的热信号、电磁信号等时空场，也适用于地形分布等空间场，只需要重新设定状态变量、控制输入以及损失函数，即可拓展于无人车在不同信号场的侦测任务。

4)本发明提出一种基于多智能体强化学习的多车协同侦测系统轨迹规划方法，属于机器人智能决策与控制领域。首先构建面向时空信号场侦测任务的多车协同轨迹规划问题的马尔可夫决策过程模型，其中，基于有限元方法估计信号场强度，并将其用以设计无人车侦测轨迹规划的状态空间，并设计动作空间和损失函数；然后建立策略网络和评价网络；再基于多智能体强化学习算法在无人车每前进一步后训练更新策略网络和评价网络，直至二者收敛；最终得到用于多个无人车轨迹规划的策略网络。本发明在无人车动力学模型和待侦测时空信号场分布均完全未知的情况下解决多个无人车协同侦测时空信号场任务中的轨迹规划问题，使该系统以最短时间获得充足信息并抵达预定目标，具有很高的实用价值。

附图说明

图1为本发明实施例中无人车二维平面内模型示意图。

图2为本发明实施例中本发明评价网络示意图。

图3为本发明实施例中本发明策略网络示意图。

图4为本发明实施例中多智能体深度强化学习架构示意图。

图5为本发明实施例中累计奖励函数、任务完成时间及获取信息变化示意图。

图6为本发明实施例中沿规划轨迹的获取信息示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提出一种基于多智能体强化学习的多车协同侦测系统轨迹规划方法，属于机器人智能决策与控制领域。首先构建多车协同侦测系统轨迹规划的马尔可夫决策过程模型，基于有限元方法估计信号场强度，并将其用以设计无人车侦测轨迹规划的状态空间，并设计动作空间，转移模型和损失函数；然后建立策略网络和评价网络；再通过多智能体强化学习在无人车每前进一步后训练更新策略网络和评价网络，直至二者收敛；最终得到用于无人车轨迹规划的策略网络。本发明在无人车动力学模型和待侦测信号场的分布完全未知的情况下实现多个无人车协同侦测时空信号场任务中的轨迹规划，使该系统以最短时间获得充足信息并抵达预定目标。

本发明提出的一种基于多智能体强化学习的多车协同侦测系统轨迹规划方法，包括以下步骤：

1)构建无人车侦测轨迹规划的马尔可夫决策过程模型；

马尔可夫决策过程模型由一个四元组表示，即状态变量、控制变量、转移模型、损失函数；构建具体步骤如下：

1-1)确定状态变量；

建立平面直角坐标系，如图1所示，无人车i状态变量s_i(k)的表达式为：

转移模型表达式为：s_i(k+1)＝g(s_i(k),a_i(k))；s_i(k+1)为下一时刻k+1时刻的无人车i的位置，g(s_i(k),a_i(k))为转移函数。

状态变量中，信号场估计值由线性滤波器对有限元估计的线性信号场进行滤波获得。时空信号场采用如下偏微分方程描述：

其中，f(p,t)为时空信号场在空间位置p和时间t的信号强度，为对f(p,t)求偏导，A是一个线性算子，如二阶偏导算子，∈(t)表示信号场的白噪声输入，采用有限元方法进行估计，即

x(k+1)＝Ax(k)+ε_d(k),

其中，x(k+1)为k+1时刻的未知参数向量，x(k)为k时刻的未知参数向量，A为状态转移矩阵，ε_d(k)为包含输入噪声及估计误差的误差项；针对该线性系统，采用标准的Kalman型滤波器，得到状态估计量则可进一步估计得到无人车所在位置的信号场强度/>

1-2)确定控制变量；

对于无人车i，控制变量表达式为无人车i的方位角速度a_i(k)＝ω_i(k)；

1-3)确定转移模型；

对于无人车i，转移模型的表达式为：

s_i(k+1)＝g(s_i(k),a_i(k))，

该转移模型表示在给定当前k时刻状态变量与控制变量，返回下一时刻的状态变量；

1-4)确定损失函数；

所述损失函数c_i(s_i(k),a_i(k))用于评价无人车i状态s_i(k)下执行控制变量a_i(k)的效果，表达式为：

其中，ρ,λ分别表示各项的权重系数，Δ_di(k)为无人车到终点距离的变化量(文字解释)，表示无人车i所获得的信息奖励，信息奖励中的c_info,i(k)由估计的时空信号场得到，c_s,i(k)为无人车i与其他无人车距离较近时施加的惩罚项，h_i(k)为无人车i经过其他无人车已侦测路径时施加的惩罚项。

其中，ρ,λ分别表示各项的权重系数，

Δ_di(k)＝‖p_i(k)-p_ti‖-‖p_i(k-1)-p_ti‖，

其中表示多车系统所获得的信息奖励，信息奖励中的c_infoi(k)由估计的时空信号场得到，针对有限元估计下的线性系统，设计信息奖励为：

Δ_r(G(p,k))＝rank(G(p,k))-rank(G(p,k-1)),

考虑到多车之前的相互避免碰撞，设计损失函数的修正方法：若无人车i与无人车j的距离小于某阈值d₁，阈值d₁一般由无人车的车身尺寸决定，以车长2m的无人车为例，取d₁＝1m，则无人车i与无人车j的损失函数均施加惩罚项c_ij(k)＝c_ji(k)；同时为避免无人车i重复探索无人车j已探索过的区域，设计损失函数的修正方法：记录每一无人车每一历史时刻的轨迹点，若存在无人车j的历史轨迹点与无人车i的距离小于某阈值d₂，则无人车i的损失函数均施加惩罚项h_i(k)。阈值d₂一般由无人车携带传感器的测量范围决定，以激光雷达为例，为保证测量的建图准确性取d₂＝2m。

2)根据步骤1)构建的马尔可夫决策过程模型建立无人车的侦测轨迹优化问题；

建立的无人车的侦测轨迹优化问题中包括确定目标函数和约束条件。

2-1)确定目标函数；

对于无人车i，侦测轨迹优化问题的目标函数J_i的表达式为：

其中，表示求均值算子，γ表示对未来损失的权重的衰减因子，0<γ<1；a_k≥1为k≥1这些时刻的一系列动作；

2-2)确定约束条件；

对于无人车i，侦测轨迹优化问题的约束条件的表达式为：

s_i(k+1)＝g(s_i(k),a_i(k)),k＝1,…,n-1，n为终点时刻；

3)设计多智能体强化学习求解算法；

设计多智能体强化学习求解算法包括构建并更新两个评价网络以及构建并更新策略网络；

3-1)构建并更新评价网络，如图2所示；

构建评价网络的方法为：

更新评价网络的方法是最小化如下残差J_Q(θ_is)；

3-2)构建并更新策略网络，如图3所示；

构建策略网络的方法为：

更新无人车i策略网络的梯度下降方法如下：

4)得到多无人车侦测轨迹规划的具体步骤如下：

4-1)参数设置；

令评价网络和策略网络的最大训练次数M＝1000，每次训练的最大更新步数T＝1000，经验回放抽取的训练集大小N＝1024，评价网络与策略网络的学习率分别为α_Q＝0.0005和α_π＝0.0005，衰减因子为γ＝0.95，软更新速率为τ＝0.01，网络滞后更新步数k_d＝2；

4-3)迭代开始，初始化迭代次数为m＝0；

4-5)至4-8)为对每一无人车的方法步骤：

4-5)对于无人车i，使用当前策略网络生成k时刻控制变量/>其中/>为均值为0，方差为σ的正态分布；输入控制变量a_i(k)与状态s_i(k)，无人车i通过转移模型返回下一时刻状态变量s_i(k+1)；

4-10)统计经验队列中的经验样本个数设为N_R并判定：若N_R≤N，则转到步骤4-5)；若N_R>N，则进入步骤4-11)；N为经验重放的最小样本数量。

4-11)至4-18)为对每一无人车的方法步骤：

4-11)从经验队列D中随机抽取一个小批量数据集B；

4-12)对于无人车i，选择动作其中/> 为目标策略网络；更新联合控制变量/>

4-13)根据步骤3-1)所述方法，计算

并最小化残差

4-14)判定：若k mod k_d＝0，则进行步骤4-15)至4-16)；

4-15)根据步骤3-2)所述方法，更新策略网络

θ′_is←αθ_is+(1-α)θ′_is,s＝1,2

μ′_i←αμ_i+(1-α)μ′_i；

4-18)使用m+1更新训练次数m，并进行判定：若m<M，则重新返回步骤4-2)，所有无人车随机选择新的初始位置开始新一次的信号场侦测任务；否则迭代结束，将迭代终止时的各无人车的当前策略网络作为各无人车的最终的策略网络。即对于无人车i，迭代终止时的作为其最终的策略网络，记为/>将各无人车的状态变量输入各自的最终策略，输出各自的控制变量得到各无人车的侦测轨迹。

图4显示了本发明提出的基于多智能体强化学习的多车协同侦测系统轨迹规划方法的框架架构。本发明使用集中式训练分布式执行的架构，并利用裁剪双Q学习、延迟策略更新和目标策略平滑等方法增加神经网络收敛的稳定性。在训练中，当前策略网络趋近于目标策略网络，当前评价网络趋近于目标评价网络。训练结束后，只需要当前策略网络就可以控制各无人车实现期望的轨迹跟踪控制任务。

本发明方法所采用的仿真环境为Pytorch框架下Python语言编写搭建；本发明方法本领域技术人员通过编程即可实现。

下面结合一个具体实施例对本发明进一步说明如下：

仿真实验

(1)仿真设置

本发明提出的方法在Pytorch框架下Python语言编写实现，从而训练和验证，本实施例中共有m＝2台无人车，采用无人车在二维平面内的通用模型；令最大迭代次数为M＝1000，每次迭代的最大实验步数T＝1000，经验回放抽取的训练集大小N＝1024，评价网络与策略网络的学习率分别为α_Q＝0.0005和α_π＝0.0005，衰减因子为γ＝0.95，软更新速率为τ＝0.01，网络滞后更新步数k_d＝2，此外损失函数的系数分别为：ρ＝3、λ＝0.004。

关于多体层面避碰和避免重复探索的奖励函数设计如下：

(2)仿真结果

图5表示在训练中，两台无人车累计奖励(上)、总任务完成时间(左下)及获取信息(右下)的变化。起始阶段，无人车获得的累计奖励和获取信息很小，任务完成时间为一次训练上限时间，随着训练次数的增加，累计奖励和获取信息逐渐变大，任务完成时间减少，最后趋于稳定。

图6表示的是测试结果，即用训练产生的策略网络实现多车系统侦测任务下的轨迹规划。图6表明了两台无人车所获取信息随时间的变化。从图6的结果可以看出，多车系统状态能够很快地抵达预定目标并且获取充足的信号场有关信息，即实现了未知分布信号场的探测，证明本发明提出的方法可以不依赖无人车模型和信号场分布即可产生理想的轨迹规划策略。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多智能体强化学习的多车协同侦测系统轨迹规划方法，其特征在于包括以下步骤：

1)构建面向时空信号场侦测任务的多个无人车轨迹规划的马尔科夫决策过程模型；

2)根据所述马尔科夫决策过程模型建立多个无人车侦测轨迹的优化问题；

3)根据所述多个无人车侦测轨迹的优化问题设计强化学习求解算法；

2.根据权利要求1所述的基于多智能体强化学习的多车协同侦测系统轨迹规划方法，其特征在于：

所述的步骤1)中，构建的面向时空信号场侦测任务的多个无人车轨迹规划的马尔科夫决策过程模型包括状态变量、控制变量、转移模型和损失函数。

3.根据权利要求2所述的基于多智能体强化学习的多车协同侦测系统轨迹规划方法，其特征在于：

状态变量为无人车i的状态变量s_i(k)，表达式为：

其中，i＝1,2,…,m，m是无人车的数量，p_i(l)表示无人车i在当前时刻k的位置，θ_i(k)表示惯性坐标系下无人车i的方位角，表示利用信号场估计算法得到的无人车i位置的信号场估计值；p_ti为无人车i的目标位置；

控制变量为a_i(k)表达式为无人车i的方位角速度a_i(k)＝ω(k)；ω_i(k)为无人车i的在当前时刻k的方位角速度；

4.根据权利要求3所述的基于多智能体强化学习的多车协同侦测系统轨迹规划方法，其特征在于：

所述状态变量，其中信号场估计值由线性滤波器对有限元估计的线性信号场进行滤波获得；时空信号场采用如下偏微分方程描述：

其中，f(p,t)为时空信号场在空间位置p和时间t的信号强度，为对f(p,t)求偏导，A是一个线性算子，∈(t)表示信号场的白噪声输入，采用有限元方法进行估计，得到有限元估计下的线型系统

x(k+1)＝Ax(k)+ε_d(k),

其中，x(k+1)为第k+1时刻的未知参数向量，x(k)为第k时刻的未知参数向量，A为状态转移矩阵，ε_d(k)为包含输入噪声及估计误差的误差项；

5.根据权利要求4所述的一种基于多智能体强化学习的多车协同侦测系统轨迹规划方法，其特征在于：

其中，ρ,λ分别表示各项的权重系数，Δ_di(k)为无人车到终点距离的变化量，表示无人车i所获得的信息奖励，信息奖励中的c_info,i(k)由估计的时空信号场得到，c_s,i(k)为无人车i与其他无人车距离较近时施加的惩罚项，h_i(k)为无人车i经过其他无人车已侦测路径时施加的惩罚项；

Δ_di(k)＝‖p_t(k)-p_ti‖-‖p_i(k-1)-p_ti‖，

表示多车系统所获得的信息奖励，信息奖励中的c_info,i(k)由估计的时空信号场得到，针对所述有限元估计下的线性系统，设计信息奖励为：

Δ_r(G(p(k),k))＝rank(G(p(k),k))-rank(G(p(k-1),k-1)),其中，G(p(k),k)为线性系统的可观性Gramian矩阵，表示利用信号场估计得到的无人车i位置的信号场估计值，/>表示其强度的平方，w为权重系数，rank(*)表示矩阵*的秩，Δ_r(G(p,k))表示可观性Gramian矩阵的变化量。

6.根据权利要求5所述的基于多智能体强化学习的多车侦测系统轨迹规划方法，其特征在于，针对所述损失函数，采用如下方法进行修正：

7.根据权利要求5所述的一种基于多智能体强化学习的多车协同侦测系统轨迹规划方法，其特征在于：

所述的步骤2)中，建立的多车系统的侦测轨迹优化问题中包括确定目标函数和约束条件；

构建无人车i对应的目标函数J_i的表达式为：

目标函数J_i对应的约束条件的表达式为：

s_i(k+1)＝g(s_i(k),a_i(k)),k＝1,…,n-1，n为终点时刻；

8.根据权利要求7所述的基于多智能体强化学习的多车协同侦测系统轨迹规划方法，其特征在于：

所述的步骤3)中，设计多智能体强化学习求解算法包括构建并更新每一无人车的两个评价网络以及构建并更新每一无人车的策略网络。

9.根据权利要求8所述的一种基于多智能体强化学习的多车协同侦测系统轨迹规划方法，其特征在于：

构建评价网络的方法为：

更新评价网络的方法是最小化如下残差J_Q(θ_is)；

构建策略网络的方法为：

更新无人车i策略网络的梯度下降方法如下：

策略网络的更新在评价网络更新每k_d步后进行。

10.根据权利要求9所述的一种基于多智能体强化学习的多车协同侦测系统轨迹规划方法，其特征在于：

所述的步骤4)中，得到各无人车侦测轨迹的方法为：

4-1)参数设置；

4-3)迭代开始，初始化迭代次数为epi＝0；

4-5)至4-8)为对每一无人车的方法步骤：

4-5)对于无人车i，使用当前策略网络生成k时刻控制变量a_i(k)，其中/>为均值为0，方差为σ的正态分布；输入控制变量a_i(k)与状态s_i(k)，无人车i通过转移模型返回下一时刻状态变量s_i(k+1)；

4-6)对于无人车i，运行信号场估计算法得到测量状态更新累计测量判断累计测量f_si是否超过给定阈值∈_mi：如若超过，则c_info,i(k)＝Δ_r(G(p,k))；否则/>

4-11)至4-18)为对每一无人车的方法步骤：

4-11)从经验队列D中随机抽取一个小批量数据集B；

4-13)根据权利要求8所述方法，计算

并最小化残差

4-14)判定：若k mod k_d＝0，则进行步骤4-15)至4-16)；

4-15)根据权利要求9所述方法，更新策略网络

θ′_is←αθ_is+(1-α)θ′_is,s＝1,2

μ′_i←αμ_i+(1-α)μ′_i；