CN116069023B

CN116069023B - 一种基于深度强化学习的多无人车编队控制方法和系统

Info

Publication number: CN116069023B
Application number: CN202211648985.XA
Authority: CN
Inventors: 秦小麟; 黄昱洲; 王立松; 申诗凡; 王鑫梦
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2024-02-23
Anticipated expiration: 2042-12-20
Also published as: CN116069023A

Abstract

本发明提供一种基于深度强化学习的多无人车编队控制方法和系统，其中方法利用深度强化学习算法实现编队生成和编队保持，并结合全局规划实现大规模环境下长距离的编队任务。方法中每辆无人车的MADDPG神经网络通过输入位移信息，障碍物信息和交互后的联合动作信息来得到自身的线速度和角速度，并计算损失函数并更新目标评价网络和策略网络，以此来优化编队策略，并在此基础上设计不同的奖励机制适应不同的编队任务。然后通过基于SAC的全局规划与编队控制结合，求出多个中间探索点以实现长距离的编队任务。本发明通过对神经网络的训练，提高了多无人车在动态障碍物环境下编队的成功率，使得多无人车能达到全局稳定的期望队形。

Description

一种基于深度强化学习的多无人车编队控制方法和系统

技术领域

本发明属于多无人系统的协同控制技术领域，尤其涉及一种基于深度强化学习的多无人车编队控制方法和系统

背景技术

随着多智能体技术的不断发展和完善，多智能体系统问题越来越受到广泛的关注。其中多无人车编队控制技术在搬运运输，业务引导以及紧急救援等实际工程中得到了广泛的应用，成为了多智能体系统中重要的研究领域之一，其可以高效且快速地完成单个车难以胜任的工作，协作完成复杂的任务。其研究难点是车在特定方向或者目标运动过程中，不仅要适应环境约束，还需要控制其几何稳定。而为了完成编队任务，良好的编队控制方法不仅需要提高任务完成度，还需要提高效率、节省时间，使无人小车有着更高的协同性和自由度。

编队控制研究通常包括队形生成、队形保持、队形切换、编队避障和自适应这五个方面，即研究如何生成不同的队形并保持既定队形，并且研究如何切换队形同时避开障碍物。传统的基于规则的编队控制方法包括领航者-跟随者法，行为法和虚拟结构法等对动态环境的适应性或者稳定性上都较差，它们依赖构建的障碍地图和高实时性的传感器，往往不能满足控制要求。其中领航跟随法是在多无人车编队中，设定一个或者多个无人车作为领航者，其他无人车作为跟随者。领航者可以获取环境信息进行相应的动作完成任务，跟随者通过获取领航者的信息确定相对距离和角度从而实现编队控制。但是领航者-跟随者法过于依赖领航者的鲁棒性。行为法则是引出行为选择机制，通过获取外界环境信息后作出分析，选择行为对应的模块进行处理，实现分布式控制。但是行为法难以建模，在环境复杂的情况下，融合行为不确定是否存在不相融的情况。虚拟结构法将无人车队形看作刚体的虚拟结构，每个无人车是其固定一点，在运动过程中，将每辆车与固定点匹配使其方向和位置进行微调完成编队任务。但是其编队队形单一，难以解决动态环境下的编队失效问题。

发明内容

本发明针对现有技术中的不足，提供一种基于深度强化学习的多无人车编队控制方法和系统。

第一方面，本发明提供一种基于深度强化学习的多无人车编队控制方法，包括获取每辆无人车的状态信息；其中所述状态信息包括坐标、偏航角、线速度、角速度以及正前方180°范围内障碍物与无人车的距离；

根据策略网络计算每辆无人车当前需要执行的动作，得到每辆无人车当前需要执行的动作的奖励值和下一时刻的状态信息；所有无人车当前需要执行的动作构成联合动作；

将每辆无人车的状态信息、联合动作、每辆无人车下一时刻的状态信息和每辆无人车当前需要执行的动作的奖励值作为一条样本存入经验缓冲池；

根据评价网络从经验缓冲池中读取样本并计算最小损失函数并更新目标策略网络和目标评价网络的参数，以优化多无人车编队控制策略；其中，多无人车编队控制策略包括编队生成策略和编队保持策略；所述编队生成策略将所有无人车循迹至目标点；所述编队保持策略纠正偏离无人车队伍的无人车轨迹；

根据SAC算法进行多无人车全局规划；

根据多无人车全局规划、编队生成策略和编队保持策略进行多无人车长距离编队。

进一步地，所述根据评价网络从经验缓冲池中读取样本并计算最小损失函数并更新目标策略网络和目标评价网络的参数，以优化多无人车编队控制策略，包括：

根据以下公式计算编队生成策略的奖励值：

其中，为编队生成策略的奖励值；gⁱ为第i辆车的目标位置；/>为第i辆车在t时刻所在的位置；/>为第j辆车在t时刻所在的位置；/>为第i辆车在t-1时刻所在的位置；ε为被认为到达目标位置时无人车与目标位置的最小距离阈值；无人车与目标位置的距离小于ε时，得到r_goal的奖励值；O^k为墙壁k中心的坐标点；o为墙壁k中心的坐标点与墙壁k边缘的距离；ρ为无人车中心与无人车边缘的半径；无人车边缘距离墙壁边缘的距离为0时，即碰撞墙壁，得到r_collision的惩罚值；无人车之间碰撞时，得到r_collision的惩罚值；m为预设的比例系数。

进一步地，所述根据评价网络从经验缓冲池中读取样本并计算最小损失函数并更新目标策略网络和目标评价网络的参数，以优化多无人车编队控制策略，还包括：

根据以下公式计算编队保持策略的奖励值：

其中，为编队保持策略的奖励值；/>为所有无人车位移的平均值；如果目标无人车的相对整个无人车编队位移增大，则给予目标无人车惩罚值；如果目标无人车的相对整个无人车编队位移减少，则给予目标无人车奖励值。

进一步地，所述根据SAC算法进行多无人车全局规划，包括：

在整个无人车编队所在环境下进行探索并采用gmapping算法来建立栅格图，得到代价地图；

计算连续坐标与代价地图中栅格索引的映射关系；其中，当C[s_t]＝1时，代表目标坐标所在栅格不为障碍物；当C[s_t]≠1时，代表目标坐标所在栅格为不确定状态或者为障碍物；

根据以下公式计算全局规划的奖励值：

其中，r(s_t,a_t)为全局规划的奖励值；s_t为t时刻探索点坐标；s_target为目标坐标点坐标；ε'为被认为到达目标坐标点时探索点坐标与目标坐标点的最小距离阈值；探索点坐标s_t所在栅格值不为1，即障碍物的情况下，则给予全局规划惩罚值r_obstacle；探索点所在位置不为障碍物且不为目标坐标点的情况下，所获得的奖励值是一个表达式；表达式包含三种奖励值的权重和：α_opt+α_rat+α_euq＝1；r_opt＝l_t-l_t-1；r_euq＝|s_t-s_target|-|s_t-1-s_target|；l_t为t时刻探索点与目标坐标点最优路径的距离；l₀为初始时刻探索点与目标坐标点最优路径的距离；r_opt为最佳路径距离的变化；r_rat为接近最终位置的栅格提供更高的奖励；r_euq起到调节作用，迫使探索直接进入最终位置而不管障碍物的分布。

进一步地，所述根据多无人车全局规划、编队生成策略和编队保持策略进行多无人车长距离编队，包括：

将目标坐标点输入至全局规划；

全局规划根据SAC算法计算得到z个中间探索点S_Z＝(s₁,s₂,…,s_z)，其中每个中间探索点s_u都作为无人车编队几何中心的局部目标点；

将所有中间探索点按照顺序输入至MADDPG编队控制网络；

根据每辆无人车与几何中心的相对位置计算每辆无人车的目标位置；

将每辆无人车的目标位置输入至策略网络中，完成一次局部编队任务，实现整个无人车编队向中间探索点s_u运动；整个无人车编队依次到达s₁，s₂，…，s_z的局部目标点，实现长距离的编队任务。

第二方面，本发明提供一种基于深度强化学习的多无人车编队控制系统，包括：

状态信息获取模块，用于获取每辆无人车的状态信息；其中所述状态信息包括坐标、偏航角、线速度、角速度以及正前方180°范围内障碍物与无人车的距离；

动作计算模块，用于根据策略网络计算每辆无人车当前需要执行的动作，得到每辆无人车当前需要执行的动作的奖励值和下一时刻的状态信息；所有无人车当前需要执行的动作构成联合动作；

样本存入模块，用于将每辆无人车的状态信息、联合动作、每辆无人车下一时刻的状态信息和每辆无人车当前需要执行的动作的奖励值作为一条样本存入经验缓冲池；

编队控制优化模块，用于根据评价网络从经验缓冲池中读取样本并计算最小损失函数并更新目标策略网络和目标评价网络的参数，以优化多无人车编队控制策略；其中，多无人车编队控制策略包括编队生成策略和编队保持策略；所述编队生成策略将所有无人车循迹至目标点；所述编队保持策略纠正偏离无人车队伍的无人车轨迹；

全局规划模块，用于根据SAC算法进行多无人车全局规划；

长距离编队模块，用于根据多无人车全局规划、编队生成策略和编队保持策略进行多无人车长距离编队。

进一步地，所述编队控制优化模块包括：

第一奖励值计算单元，用于根据以下公式计算编队生成策略的奖励值：

进一步地，所述编队控制优化模块还包括：

第二奖励值计算单元，用于根据以下公式计算编队保持策略的奖励值：

进一步地，所述全局规划模块包括：

代价地图构建单元，用于在整个无人车编队所在环境下进行探索并采用gmapping算法来建立栅格图，得到代价地图；

映射关系计算单元，用于计算连续坐标与代价地图中栅格索引的映射关系；其中，当C[s_t]＝1时，代表目标坐标所在栅格不为障碍物；当C[s_t]≠1时，代表目标坐标所在栅格为不确定状态或者为障碍物；

第三奖励值计算单元，用于根据以下公式计算全局规划的奖励值：

其中，r(s_t,a_t)为全局规划的奖励值；s_t为t时刻探索点坐标；s_target为目标坐标点坐标；ε'为被认为到达目标坐标点时探索点坐标与目标坐标点的最小距离阈值；探索点坐标s_t所在栅格值不为1，即障碍物的情况下，则给予全局规划惩罚值r_obstacle；探索点所在位置不为障碍物且不为目标坐标点的情况下，所获得的奖励值是一个表达式；表达式包含三种奖励值的权重和：α_opt+α_rat+α_euq＝1；r_opt＝l_t-l_t-1；r_euq＝|s_t-s_target|-|s_t-1-s_target|；e为自然常数；l_t为t时刻探索点与目标坐标点最优路径的距离；l_t-1为t-1时刻探索点与目标坐标点最优路径的距离；l₀为初始时刻探索点与目标坐标点最优路径的距离；s_t-1为t-1时刻探索点坐标；r_opt为最佳路径距离的变化；r_rat为接近最终位置的栅格提供更高的奖励；r_euq起到调节作用，迫使探索直接进入最终位置而不管障碍物的分布。

进一步地，所述长距离编队模块包括：

目标坐标点输入单元，用于将目标坐标点输入至全局规划；

中间探索点计算单元，用于根据SAC算法计算得到z个中间探索点S_Z＝(s₁,s₂,…,s_z)，其中每个中间探索点s_u都作为无人车编队几何中心的局部目标点；

中间探索点输入单元，用于将所有中间探索点按照顺序输入至MADDPG编队控制网络；

目标位置计算单元，用于根据每辆无人车与几何中心的相对位置计算每辆无人车的目标位置；

目标位置输入单元，用于将每辆无人车的目标位置输入至策略网络中，完成一次局部编队任务，实现整个无人车编队向中间探索点s_u运动；整个无人车编队依次到达s₁，s₂，…，s_z的局部目标点，实现长距离的编队任务。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于深度强化学习的多无人车编队控制方法的流程图；

图2为本发明实施例提供的基于多智能体深度强化学习MADDPG方法结构图；

图3为本发明实施例提供的基于深度强化学习SAC方法结构图；

图4为本发明实施例提供的全局规划和编队控制结合的方法结构图；

图5为本发明实施例提供的一种基于深度强化学习的多无人车编队控制系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于端到端的学习策略可以避免构建障碍地图并且能够适应动态的环境，多无人车分布式系统可以通过传感器的观测信息和彼此间的位置信息来作出决策，甚至在网络训练过程中可以对未来的状态进行预测，降低了对传感器的依赖。其中深度强化学习方法适用于复杂环境下的编队控制，其结合了深度学习和强化学习的思想，借助了神经网络强大的表征能力并从高维数据中学习有用的特征，拟合控制策略以解决庞大的状态空间和动作空间大下的决策问题。它灵活性大，扩展性强，在处理机器人和无人驾驶等控制领域得到广泛的应用。该算法本质是基于马尔可夫模型，智能体通过自主反复实验与环境交互和试错，获得奖励值累积并学习匹配最佳的动作以此加速训练收敛，找到最优的行为策略。

对于利用深度强化学习解决多无人车编队控制问题，近年来有相关的算法和训练方式来提高在动态环境下控制策略的精确性或者鲁棒性。其中单智能体深度强化学习采用集中式结构，利用一个神经网络来训练多辆车的策略，其通过输入n辆车的当前状态至网络并得到对应的n个最优动作。但是学习过程中存在巨大的波动，需要经过很长时间才能获得较高的回报，这是由于环境变化和多辆车行为的不确定性所引起的。所以为了快速适应变化的环境，提高深度强化学习的性能，必须考虑到这多辆车的行为所带来的影响。而多智能体深度强化学习方法是对单智能体深度强化学习方法的改进，其基于分布式结构，即每辆车都部署了属于自己的策略网络；更重要的是每辆车能获取其他车的动作信息，可以利用这些全局信息来提高决策的正确性与准确性。所以基于多智能体深度强化学习解决多无人车的编队控制问题，可以解决编队控制中动态性和高维度性带来的策略难以收敛，动作难以优化的问题。

而在多智能体深度强化学习当中，MADDPG(Multi-agent Deep DeterministicPolicy Gradient)算法适用于多辆车下的编队控制。其算法采用集中训练，分散执行的框架，并在训练时将环境得到的经验存入自身的经验缓存池，解决了多辆车环境下非平稳性和经验回放失效等问题。在该分布式框架中，每辆车将缓存池中的其他车信息取出并进行学习，这便考虑到了其他机器人行为的情况下的合作行为。并且每辆车搭建的都是基于策略-评价(Actor-Critic)模型的框架，网络参数采用软更新的方式，这降低了网络训练难以收敛的可能性，防止在引入车数量更多的情况下带来的方差过大的问题。整个策略控制无需知道环境的动力学模型，每辆车的动作网络只需知道局部信息，而评价网络需要其他车的策略信息，最终通过策略的优化得到每个时刻下的控制量，提高算法的稳定性和鲁棒性，使得编队控制能够适应动态环境下的编队维持和合作导航。

在一实施例中，如图1所示，本发明实施例提供一种基于深度强化学习的多无人车编队控制方法，包括：

步骤101，获取每辆无人车的状态信息；其中所述状态信息包括坐标、偏航角、线速度、角速度以及正前方180°范围内障碍物与无人车的距离。

本步骤中，首先搭建多无人车的环境。环境中主要包含无人车、障碍物等元素。将多辆无人车以随机位置放置在环境中。

示例性地，每辆无人车都配备里程计和激光雷达，分别获取自身的位移信息：x,y轴坐标，偏航角，线速度与角速度(x,y,θ,v,w)和周围的障碍物信息：(d₁,d₂,…,d₁₈₀)，其中d_j(1≤j≤180)代表车正前方180°范围内障碍物距离车的距离，以大小为360维度的数组存储每0.5°范围内观测到的距离值，并对缺失数值初始化和整个数据的归一化处理。同时采用话题机制，可以将无人车间要传递的信息进行异步处理，每辆无人车可以根据话题机制交互必要的信息。特别地，在深度强化学习下，无人车间通过话题机制交互策略动作以此达到训练目的。

步骤102，根据策略网络计算每辆无人车当前需要执行的动作，得到每辆无人车当前需要执行的动作的奖励值和下一时刻的状态信息；所有无人车当前需要执行的动作构成联合动作。

编队生成的任务是在动态障碍物环境下，初始位置随机的多无人车能够构成人为指定的队形。如图2所示，多智能体深度强化学习MADDPG分成集中训练和分散执行的过程。使用多智能体强化学习在集中训练时，每辆无人车i(1≤i≤n)需要初始化自己的策略网络参数和评价网络参数，并在每次训练迭代中将自身状态信息作为输入(或者将所有无人车的状态信息作为输入)，其中状态信息包括位移信息和周围的障碍物信息(x,y,θ,v,w,d₁,d₂,…,d₁₈₀)。通过策略网络计算得到每辆无人车当前需要执行的动作/>这里的动作/>包括无人车的线速度和角速度(v,w)。在每辆车i执行了该动作后，会从环境当中得到该动作的奖励值r_t ⁱ和下一时刻的状态信息/>并与其他无人车通信得到所有车的联合动作

步骤103，将每辆无人车的状态信息、联合动作、每辆无人车下一时刻的状态信息和每辆无人车当前需要执行的动作的奖励值作为一条样本存入经验缓冲池。

将步骤102中几个数据项作为一条样本存入自身的经验缓冲池。如果经验缓冲池的样本数量未达到设定阈值时，则继续通过策略网络获取样本；当缓冲池样本数量到达设定的阈值时，评价网络Critic会从经验缓冲池中读取样本。

步骤104，根据评价网络从经验缓冲池中读取样本并计算最小损失函数并更新目标策略网络和目标评价网络的参数，以优化多无人车编队控制策略；其中，多无人车编队控制策略包括编队生成策略和编队保持策略；所述编队生成策略将所有无人车循迹至目标点；所述编队保持策略纠正偏离无人车队伍的无人车轨迹。

通过时序差分法计算最小损失函数和梯度下降法来更新目标评价网络的参数θ_i，通过反向传播更新策略网络的参数β_i。通过软更新的方法来更新目标策略网络和目标评价网络的参数，以满足编队生成策略的要求。该方法网络结构涉及的全连接层的维度，缓冲池参数和奖励机制等，都需要提前构建。

根据以下公式计算编队生成策略的奖励值：

其中，为编队生成策略的奖励值；gⁱ为第i辆车的目标位置；/>为第i辆车在t时刻所在的位置；/>为第j辆车在t时刻所在的位置；/>为第i辆车在t-1时刻所在的位置；ε为被认为到达目标位置时无人车与目标位置的最小距离阈值；无人车与目标位置的距离小于ε时，得到r_goal的奖励值；O^k为墙壁k中心的坐标点；o为墙壁k中心的坐标点与墙壁k边缘的距离；ρ为无人车中心与无人车边缘的半径；无人车边缘距离墙壁边缘的距离为0时，即碰撞墙壁，得到r_collision的惩罚值；无人车之间碰撞时，得到r_collision的惩罚值；而如果在没有碰撞障碍物和到达目标位置的中间状态下，无人车获得的奖励值与无人车是否靠近目标位置有关。当无人车与目标位置的距离越近，则给予奖励值；当无人车与目标点的距离越远，则给予惩罚值，m为预设的比例系数。在无人车到达目标位置或者碰撞障碍物后，需要重新初始化整个环境，使得无人车从开始的位置继续训练，而不会使得训练停止。这使得无人车在训练中朝着目标位置前进以最小化惩罚，并最终使得策略网络可以适应编队生成的任务，将n辆无人车在不互相碰撞和避免碰撞墙壁的情况下完成某个编队的生成。

在成功执行编队生成任务之后，无人车在环境中已经形成了某种几何形状，但是需要采用某种编队保持控制方法，才能使得多无人车能够维持该几何形状前进一段距离。与解决编队生成任务类似，该问题同样可以基于MADDPG算法来实现编队保持任务。但是与编队生成任务不同的是，编队保持任务的奖励机制不相同，即训练出来的控制策略不相同。最后的目标是期望多无人车在运动过程中保持相对静止状态，这样在无人车队伍在驶向目标位置的同时也将注意与整个编队队形的相对位置。

根据以下公式计算编队保持策略的奖励值：

其中，为编队保持策略的奖励值；/>为所有无人车位移的平均值；如果目标无人车的相对整个无人车编队位移增大，则给予目标无人车惩罚值；如果目标无人车的相对整个无人车编队位移减少，则给予目标无人车奖励值。在无人车到达目标位置或者其碰撞障碍物的情况下，无人车奖励值分配与编队生成的分配方法相同，期望无人车能够到达目标位置并且躲避障碍物。

步骤105，根据SAC算法进行多无人车全局规划。

本步骤中首先构建代价地图。

让单辆无人车整个无人车编队所在环境下进行探索并采用gmapping算法来建立栅格图，即代价地图C。将gmapping所绘的代价地图数字化保存至文件中，并求得连续坐标与代价地图中栅格索引的一一对应的映射关系。求出坐标与栅格索引间的映射关系后，以此来得到每个坐标点是否属于障碍物，当C[s_t]＝1时则代表目标坐标所在栅格不为障碍物；当C[s_t]≠1时则代表目标坐标所在栅格为不确定状态或者为障碍物。最后将上述过程作为后续全局规划的抽象建模，将全局规划布置在全局代价地图上进行计算。当策略网络给出每个中间探索点的时候，可以通过坐标与栅格索引的转换求出该栅格是否属于障碍物，以此得到相应的奖励值。

然后使用SAC(SoftActor-Critic)算法实现无人车的全局规划。

为了缓解编队控制处于局部最优问题，全局规划在编队控制中起到重要的作用，它可以防止策略网络过早的收敛到次优动作上。而SAC算法是面向最大熵强化学习策略算法，其采用随机策略，具有更强的探索能力，适合编队任务中的全局规划。该算法不是直接求得动作值，而是求动作概率分布的均值和方差，然后通过采样来获得动作值。该方法将全局路径进行分段的编队控制，以此实现大规模环境下的编队任务。

如图3所示，SAC网络的输入的状态空间S为当前探索坐标所在的栅格周围的障碍物分布P和当前探索坐标与目标点之间的相对位移X，其中P为C的子矩阵，代表探索点周围的障碍物分布。而输出的动作是以当前探索点为基点的位移变化ΔX，通过该位移变化可以容易得到新的探索点的位置。每当计算出位移变化ΔX之后，会将当前探索点X_cur与ΔX进行计算得到新的当前探索点X_cur并保存至内存中。在下一轮迭代中新的当前探索点就成为了位移变化计算的基点。而求出的X_cur序列就是从起点至终点的所有中间探索点。

根据以下公式计算全局规划的奖励值：

其中，r(s_t,a_t)为全局规划的奖励值；s_t为t时刻探索点坐标；s_target为目标坐标点坐标；ε'为被认为到达目标坐标点时探索点坐标与目标坐标点的最小距离阈值；探索点坐标s_t所在栅格值不为1，即障碍物的情况下，则给予全局规划惩罚值r_obstacle；探索点所在位置不为障碍物且不为目标坐标点的情况下，所获得的奖励值是一个表达式；表达式包含三种奖励值的权重和：α_opt+α_rat+α_euq＝1；r_opt＝l_t-l_t-1；r_euq＝|s_t-s_target|-|s_t-1-s_target|；e为自然常数；l_t为t时刻探索点与目标坐标点最优路径的距离；l₀为初始时刻探索点与目标坐标点最优路径的距离；r_opt为最佳路径距离的变化；r_rat为接近最终位置的栅格提供更高的奖励；r_euq起到调节作用，迫使探索直接进入最终位置而不管障碍物的分布。对于获得最佳路径l_t的方法可以采用A*算法直接有效的求出近似最优路径。

其算法是期望通过全局地图中获取障碍物信息和目标坐标位置信息并通过策略网络计算多个中间探索点的位置，当探索点探索到了目标点后则停止探索。其算法同样是基于策略-评价模型和经验回放池来实现的，其更新策略考虑到了熵最大化的情况，即策略更具探索性。

步骤106，根据多无人车全局规划、编队生成策略和编队保持策略进行多无人车长距离编队。

全局规划与编队控制结合的架构如图4所示，首先通过全局规划，将目标坐标点输入全局规划求得中间探索点，而这些中间探索点在一次编队控制中将成为整个无人车队编队的几何中心点。全局规划根据SAC算法计算得到z个中间探索点S_Z＝(s₁,s₂,…,s_z)，其中每个s_u(1≤u≤z)都作为无人车编队几何中心的局部目标点，然后将所有中间探索点按照顺序输入至MADDPG编队控制网络中。在接受到局部目标点输入后，每辆无人车车通过与几何中心s_u的相对位置计算出自己的目标位置后，将其输入至策略网络中，完成一次局部编队任务，实现车队整体朝着中间探索点s_u的运动。由于z个中间探索点是按照顺序依次到达目标点的集合，最终车队会依次到达s₁，s₂，…，s_z的局部目标点，最终到达最后的目标点s_z上，以此来实现长距离的编队任务。

本实施例提供的基于深度强化学习的多无人车编队控制方法，利用深度强化学习算法实现编队生成和编队保持，并结合全局规划实现大规模环境下长距离的编队任务。方法中每辆无人车的MADDPG神经网络通过输入位移信息，障碍物信息和交互后的联合动作信息来得到自身的线速度和角速度，并计算损失函数并更新目标评价网络和策略网络，以此来优化编队策略，并在此基础上设计不同的奖励机制适应不同的编队任务。然后通过基于SAC的全局规划与编队控制结合，求出多个中间探索点以实现长距离的编队任务。本发明通过对神经网络的训练，提高了多无人车在动态障碍物环境下编队的成功率，使得多无人车能达到全局稳定的期望队形。

基于同一发明构思，本发明实施例还提供了一种基于深度强化学习的多无人车编队控制系统，由于该系统解决问题的原理与前述基于深度强化学习的多无人车编队控制方法相似，因此该系统的实施可以参见前述基于深度强化学习的多无人车编队控制方法的实施，重复之处不再赘述。

在另一实施例中，本发明实施例提供的基于深度强化学习的多无人车编队控制系统，如图5所示，包括：

状态信息获取模块10，用于获取每辆无人车的状态信息；其中所述状态信息包括坐标、偏航角、线速度、角速度以及正前方180°范围内障碍物与无人车的距离。

动作计算模块20，用于根据策略网络计算每辆无人车当前需要执行的动作，得到每辆无人车当前需要执行的动作的奖励值和下一时刻的状态信息；所有无人车当前需要执行的动作构成联合动作。

样本存入模块30，用于将每辆无人车的状态信息、联合动作、每辆无人车下一时刻的状态信息和每辆无人车当前需要执行的动作的奖励值作为一条样本存入经验缓冲池。

编队控制优化模块40，用于根据评价网络从经验缓冲池中读取样本并计算最小损失函数并更新目标策略网络和目标评价网络的参数，以优化多无人车编队控制策略；其中，多无人车编队控制策略包括编队生成策略和编队保持策略；所述编队生成策略将所有无人车循迹至目标点；所述编队保持策略纠正偏离无人车队伍的无人车轨迹。

全局规划模块50，用于根据SAC算法进行多无人车全局规划。

长距离编队模块60，用于根据多无人车全局规划、编队生成策略和编队保持策略进行多无人车长距离编队。

可选地，所述编队控制优化模块包括：

可选地，所述编队控制优化模块还包括：

可选地，所述全局规划模块包括：

代价地图构建单元，用于在整个无人车编队所在环境下进行探索并采用gmapping算法来建立栅格图，得到代价地图。

映射关系计算单元，用于计算连续坐标与代价地图中栅格索引的映射关系；其中，当C[s_t]＝1时，代表目标坐标所在栅格不为障碍物；当C[s_t]≠1时，代表目标坐标所在栅格为不确定状态或者为障碍物。

可选地，所述长距离编队模块包括：

目标坐标点输入单元，用于将目标坐标点输入至全局规划。

中间探索点计算单元，用于根据SAC算法计算得到z个中间探索点S_Z＝(s₁,s₂,…,s_z)，其中每个中间探索点s_u都作为无人车编队几何中心的局部目标点。

目标位置计算单元，用于根据每辆无人车与几何中心的相对位置计算每辆无人车的目标位置。

关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

在另一实施例中，本发明提供一种计算机设备，包括处理器和存储器；其中，处理器执行存储器中保存的计算机程序时实现上述基于深度强化学习的多无人车编队控制方法的步骤。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

在另一实施例中，本发明提供一种计算机可读存储介质，用于存储计算机程序；计算机程序被处理器执行时实现上述基于深度强化学习的多无人车编队控制方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统、设备和存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。本发明的保护范围以所附权利要求为准。

Claims

1.一种基于深度强化学习的多无人车编队控制方法，其特征在于，包括：

获取每辆无人车的状态信息；其中所述状态信息包括坐标、偏航角、线速度、角速度以及正前方180°范围内障碍物与无人车的距离；

根据SAC算法进行多无人车全局规划；

根据多无人车全局规划、编队生成策略和编队保持策略进行多无人车长距离编队；

其中，所述根据评价网络从经验缓冲池中读取样本并计算最小损失函数并更新目标策略网络和目标评价网络的参数，以优化多无人车编队控制策略，包括：

根据以下公式计算编队生成策略的奖励值：

其中，为编队生成策略的奖励值；gⁱ为第i辆车的目标位置；/>为第i辆车在t时刻所在的位置；/>为第j辆车在t时刻所在的位置；/>为第i辆车在t-1时刻所在的位置；ε为被认为到达目标位置时无人车与目标位置的最小距离阈值；无人车与目标位置的距离小于ε时，得到r_goal的奖励值；O^k为墙壁k中心的坐标点；o为墙壁k中心的坐标点与墙壁k边缘的距离；ρ为无人车中心与无人车边缘的半径；无人车边缘距离墙壁边缘的距离为0时，即碰撞墙壁，得到r_collision的惩罚值；无人车之间碰撞时，得到r_collision的惩罚值；m为预设的比例系数；

所述根据评价网络从经验缓冲池中读取样本并计算最小损失函数并更新目标策略网络和目标评价网络的参数，以优化多无人车编队控制策略，还包括：

根据以下公式计算编队保持策略的奖励值：

其中，为编队保持策略的奖励值；/>为所有无人车位移的平均值；如果目标无人车的相对整个无人车编队位移增大，则给予目标无人车惩罚值；如果目标无人车的相对整个无人车编队位移减少，则给予目标无人车奖励值；

所述根据多无人车全局规划、编队生成策略和编队保持策略进行多无人车长距离编队，包括：

将目标坐标点输入至全局规划；

将所有中间探索点按照顺序输入至MADDPG编队控制网络；

2.根据权利要求1所述的基于深度强化学习的多无人车编队控制方法，其特征在于，所述根据SAC算法进行多无人车全局规划，包括：

根据以下公式计算全局规划的奖励值：

其中，r(s_t,a_t)为全局规划的奖励值；s_t为t时刻探索点坐标；s_target为目标坐标点坐标；ε'为被认为到达目标坐标点时探索点坐标与目标坐标点的最小距离阈值；探索点坐标s_t所在栅格值不为1，即障碍物的情况下，则给予全局规划惩罚值r_obstacle；探索点所在位置不为障碍物且不为目标坐标点的情况下，所获得的奖励值是一个表达式；表达式包含三种奖励值的权重和：α_opt+α_rat+α_euq＝1；r_opt＝l_t-l_t-1；r_euq＝|s_t-s_target|-|s_t-1-s_target|；e为自然常数；l_t为t时刻探索点与目标坐标点最优路径的距离；l₀为初始时刻探索点与目标坐标点最优路径的距离；r_opt为最佳路径距离的变化；r_rat为接近最终位置的栅格提供更高的奖励；r_euq起到调节作用，迫使探索直接进入最终位置而不管障碍物的分布。

3.一种基于深度强化学习的多无人车编队控制系统，其特征在于，包括：

全局规划模块，用于根据SAC算法进行多无人车全局规划；

长距离编队模块，用于根据多无人车全局规划、编队生成策略和编队保持策略进行多无人车长距离编队；

其中，所述编队控制优化模块包括：

所述编队控制优化模块还包括：

所述长距离编队模块包括：

目标坐标点输入单元，用于将目标坐标点输入至全局规划；

4.根据权利要求3所述的基于深度强化学习的多无人车编队控制系统，其特征在于，所述全局规划模块包括：