CN113705115B

CN113705115B - 地面无人车辆底盘运动与目标打击协同控制方法和系统

Info

Publication number: CN113705115B
Application number: CN202111279251.4A
Authority: CN
Inventors: 龚建伟; 李子睿; 魏连震; 左寅初; 吕超; 臧政
Original assignee: Beili Huidong Beijing Technology Co ltd; Beijing Institute of Technology BIT
Current assignee: Beili Huidong Beijing Technology Co ltd; Beijing Institute of Technology BIT
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-02-08
Anticipated expiration: 2041-11-01
Also published as: CN113705115A

Abstract

本发明涉及一种地面无人车辆底盘运动与目标打击协同控制方法和系统。本发明通过搭建好的仿真场景对搭建好的强化学习参数模型进行训练和测试，得到训练好的强化学习参数模型，可以将特种车辆类型和强化学习参数模型进行有机结合，并且，在实际环境中，输入车辆传感器实时采集到的各种信息作为深度强化学习的输入，最终实现对地面无人车辆底盘运动与目标打击协同控制，以能够实现自主机动模块与自主任务模块的协同，在缩短任务的完成时间，提升任务执行效果。进一步，基于仿真数据的强化学习方法，能够使数据获取的成本低，而且与基于规则的数学模型方法相比，只需要对输入数据、输出动作、奖赏函数做适当修改即可应用于新的场景，普适性更好。

Description

地面无人车辆底盘运动与目标打击协同控制方法和系统

技术领域

本发明涉及车辆协同控制技术领域，特别是涉及一种地面无人车辆底盘运动与目标打击协同控制方法和系统。

背景技术

随着计算机技术、网络技术、传感与测试技术、人工智能技术等不断地发展，无人驾驶应运而生，各种类型的地面无人车辆进入大众视野，在诸多方面解放与发展了劳动生产力，车辆无人化已经成为一种趋势。特种车辆是指经特制或经改装的，其结构、外形、尺寸、重量等方面与一般车辆不同的，适用于特定场合、执行特定任务的车辆，整车可划分为机动模块与任务模块两个部分，前者负责车辆的移动，后者用来执行特定的任务。无人特种车辆与一般的无人车辆不同，其要求车辆具备自主移动功能外，还要求其能自主完成作业任务，这对车辆的设计与控制提出了更大的挑战。为减小设计与控制难度，目前国内外的无人特种车辆大都采用静态作业的方式，即车辆在执行特定任务的同时车辆底盘是静止的，机动模块与任务模块没有实现很好地协同，不能在移动中完成作业任务，从而带来了一些弊端，有较大的提升空间。例如，这种静态作业方式弱化了无人矿用车的生产的效率，削弱了无人消防车的火灾救助能力，降低了无人军用车战场生存的可能性与打击效率。

发明内容

为解决现有技术中存在的上述问题，本发明的目的是提供一种地面无人车辆底盘运动与目标打击协同控制方法和系统。

为实现上述目的，本发明提供了如下方案：

一种地面无人车辆底盘运动与目标打击协同控制方法，包括：

搭建实车环境对应的仿真场景；

搭建强化学习参数模型；所述强化学习参数模型包括：全连接层、状态值网络、动作值网络和dropout网络；

采用所述仿真场景对搭建好的所述强化学习参数模型进行训练和测试，得到训练好的强化学习参数模型；

将地面无人车辆的传感器信息作为输入，利用所述训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制。

优选地，所述搭建强化学习参数模型，具体包括：

设置全连接层、“预测A网络”、“目标A网络”、“预测C网络”和“目标C网络”；所述“预测A网络”和所述“目标A网络”的结构一致；所述“预测A网络”采用的更新方式为实时更新；所述“目标A网络”采用的更新方式为软更新；所述“预测C网络”和所述“目标C网络”的结构一致；所述“预测C网络”采用的更新方式为实时更新；所述“目标C网络”采用的更新方式为软更新；

所述“预测A网络”用于根据输入的当前状态选择输出动作；所述“目标A网络”用于确定下一状态选择对应的最优动作；所述“预测C网络”用于预测动作的Q值，所述“目标C网络”用于确定动作的真实Q值。

优选地，得到训练好的强化学习参数模型，具体包括：

采用所述仿真场景对搭建好的所述强化学习参数模型进行一定步数的训练以获得多组数据，并将获取的多组数据存储在经验池中；

从所述经验池中抽出若干条数据并不断更新所述强化学习参数模型的网络参数值。

优选地，所述设置全连接层、“预测A网络”、“目标A网络”、“预测C网络”和“目标C网络”，具体包括：

设置损失函数；所述损失函数

的通用公式如下：

式中，N为一次性训练的数据个数，L为损失函数，x_i和θ均为输入量，f为根据输入参数计算得到的输出预测值，y_i为输入条件下的实际输出值；

所述“预测A网络”根据输入s的变化计算更新动作a；所述“预测A网络”的更新公式为：

式中，τ是常值参数，

是“目标A网络”参数，

是“预测A网络”的参数；

所述“预测A网络”和所述“目标A网络”更新依据的梯度公式为：

式中，

为在s_i状态下、采取动作a的条件下，Q值对动作a的梯度；

为s_i状态下对神经网络的梯度；

所述“预测C网络”根据输入的状态s和动作a计算更新预测Q值；所述“预测C网络”的更新公式为：

式中，τ是常值参数，

是“目标C网络”的参数，

是“预测C网络”的参数；

所述“预测C网络”和所述“目标C网络”更新依据的损失函数公式为：

式中，y_i代表的是真实Q值，Q代表的是预测Q值，r_i代奖励值，N代表一次性训练的数据个数，s_i代表状态，a_i代表动作；

设置奖赏函数；所述奖赏函数为在状态s_i条件下，无人车辆做出动作a_i后达到状态s_i+1；所述奖赏函数为：

式中，z_j代表车辆距离终点的相对距离关系，z_x1代表对第一个敌方目标的打击效果，z_x2代表对第二个敌方目标的打击效果，z_p代表车辆是否与障碍物进行碰撞干涉；

利用优化器进行梯度下降；选用Adam Optimizer对所述优化器的参数进行更新，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，计算公式为：

式中，α是学习率，g_t是t次迭代代价函数对网络参数的梯度，θ_t是当前时刻的参数值，

是上一时刻的参数值，m_t是一阶动量项，v_t是二阶动量项，

均是动量修正项，

均是常值参数。

优选地，地面无人车辆底盘为履带式底盘、轮式底盘或轮腿式底盘。

优选地，将地面无人车辆的传感器信息作为输入，利用所述训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制，具体包括：

将地面无人车辆的传感器信息作为输入，利用所述训练好的强化学习参数模型得到地面无人车辆动作的θ值；

根据所述地面无人车辆动作的θ值确定下一时刻的地面无人车辆的状态信息；所述状态信息包括：车辆位置信息、车辆速度信息和上装角度信息。

优选地，所述传感器信息包括地面无人车辆的实时状态信息和环境信息。

优选地，所述地面无人车辆的实时状态信息包括：车辆位置信息、车辆速度信息和上装角度信息；

所述环境信息为距离地面无人车辆预设范围内的外界信息。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供的地面无人车辆底盘运动与目标打击协同控制方法，通过搭建好的仿真场景对搭建好的强化学习参数模型进行训练和测试，得到训练好的强化学习参数模型，可以将特种车辆类型和强化学习参数模型进行有机结合，并且，在实际环境中，输入车辆传感器实时采集到的各种信息作为深度强化学习的输入，最终实现对地面无人车辆底盘运动与目标打击协同控制，以能够实现自主机动模块与自主任务模块的协同，在缩短任务的完成时间，提升任务执行效果。进一步，基于仿真数据的强化学习方法，能够使数据获取的成本低，而且与基于规则的数学模型方法相比，只需要对输入数据、输出动作、奖赏函数做适当修改即可应用于新的场景，普适性更好。

对应于上述提供的地面无人车辆底盘运动与目标打击协同控制方法，本发明还提供了一种地面无人车辆底盘运动与目标打击协同控制系统，该系统包括：

仿真场景搭建模块，用于搭建实车环境对应的仿真场景；

强化学习参数模型搭建模块，用于搭建强化学习参数模型；所述强化学习参数模型包括：全连接层、状态值网络、动作值网络和dropout网络；

训练模块，用于采用所述仿真场景对搭建好的所述强化学习参数模型进行训练和测试，得到训练好的强化学习参数模型；

协同控制模块，用于将地面无人车辆的传感器信息作为输入，利用所述训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制。

因本发明提供的地面无人车辆底盘运动与目标打击协同控制系统达到的技术效果与上述提供的地面无人车辆底盘运动与目标打击协同控制方法达到的技术效果相同，故在此不再进行赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的地面无人车辆底盘运动与目标打击协同控制方法的流程图；

图2为本发明实施例提供的利用仿真场景训练与测试基于强化学习的地面无人车辆底盘运动与目标打击协同控制的强化学习参数模型过程示意图；

图3为本发明实施例提供的强化学习参数模型的网络结构示意图；

图4为本发明提供的地面无人车辆底盘运动与目标打击协同控制系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种地面无人车辆底盘运动与目标打击协同控制方法和系统，能够提高机动模块与任务模块间的协同性能，进而解决目前地面无人车辆作战效率低、自我保护性弱等问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的地面无人车辆底盘运动与目标打击协同控制方法，包括：

步骤100：搭建实车环境对应的仿真场景。在具体实施步骤101的过程中，可以选择V-REP动力学仿真软件，搭建实车环境对应的仿真场景，具体的：将实车对应的三维模型导入仿真环境中。设置车辆起点位置。设置目标点/任务点位置。设置路面状况以及周围障碍物的位置。设置传感器的类型与位置布置。设置输出的仿真图表内容。实车对应的仿真场景可以是单辆车，也可以是多辆车，可以全是无人车，也可以是有人车与无人车。目标点/任务点可以是单个目标点/任务点，也可以是多个目标点/任务点。目标点/任务点可以是相对仿真路面静止的，也可以是相对运动的。路面状况可以是平面路况，也可以是立体路况。周围障碍物可以是单个障碍物，也可以是多个障碍物。障碍物可以是相对仿真路面静止的，也可以是相对运动的。

以履带式中型战车为例，将一履带式中型战车对应的三维模型导入V-REP仿真环境中。设置车辆起点位置为（0m,0m）。设置车辆需要运动到的终点位置为（1000m,1000m），有两个需要在中途消灭的敌方目标。设置为平面路面状况，周围障碍物的位置根据随机布置。设置车辆传感器，包括激光雷达、摄像头、定位系统等。设置输出的仿真图表内容，以便于进行仿真调试。实车对应的三维模型取一辆混合动力电传动履带式中型战车，配有上装炮台结构，可以通过电机带动转盘轴承进行旋转。目标终点有1个，途中有两个任务点，即两个被打击对象，目标点/任务点是相对仿真路面静止的。路面状况是平面路况。周围障碍物是多个障碍物，有相对仿真路面静止的，也有相对仿真路面运动的。

步骤101：搭建强化学习参数模型。强化学习参数模型包括：全连接层、状态值网络、动作值网络和dropout网络。搭建好的强化学习参数模型如图3所示。

步骤102：采用仿真场景对搭建好的强化学习参数模型进行训练和测试，得到训练好的强化学习参数模型。在进行训练仿真的过程中，选择DDPG (Deep DeterministicPolicy Gradient) 深度强化学习算法，利用步骤100搭建的仿真场景训练，测试基于强化学习的地面无人车辆底盘运动与目标打击协同控制方法，训练输出得到可用于动态协同打击的强化学习参数模型。参数模型为训练完成后的Actor、Critic神经网络参数θ，通过输入车辆的速度、炮台转角、目标位置等参数，经过模型计算动作的Q值，输出系统在下个时刻的速度、炮台转角等参数。其中，车辆底盘可以是履带式底盘、轮式底盘、轮腿式底盘。目标打击是依靠上装炮台完成打击作业任务，上装炮台可搭载常规军用或民用打击装置。

如图2所示，利用仿真场景训练与测试地面无人作战车辆自主机动与自主任务模块协同规划与控制的强化学习参数模型过程如下：

确定输入和输出信息内容。对于炮台控制系统，其输入信息包括车辆速度信息、炮台角度信息以及目标位置信息。本系统中的神经网络结构如下：该输入首先经过若干层全连接层处理，之后分为状态值网络(Critic)以及动作值网络(Actor)两个部分，最后对两者相加得到神经网络的输出结果，即每种动作对应的Q值。此外，在每一层全连接层后紧跟了一层dropout网络结构以减小训练中过拟合发生的可能性。训练完成后，再结合车辆底盘的控制输出结果，确认炮台的转角控制量。

搭建神经网络结构包括对高维信息处理的卷积神经网络结构以及之后的全连接层网络结构，还包括四个神经网络：两个Actor神经网络与两个Critic神经网络。两个Actor神经网络命名为“预测A网络”与“目标A网络”，它们的结构一致，不同点是更新方式上有所不同。“预测A网络”实时更新，“目标A网络”采用软更新的方式。Critic神经网络也可分为“预测C网络”与“目标C网络”，两者结构一致，更新方式不同，与Actor神经网络更新类似。“预测A网络”负责根据输入的当前状态选择输出动作。“目标A网络”负责根据经验池的下一状态选择对应的最优动作。“预测C网络”负责计算预测的Q值，“目标C网络”负责计算真实的Q值。

程序实际训练过程是先随机探索一定步数以获得多组数据并将其存储在经验池中，正式训练网络参数时每一次从经验池中抽出若干条数据并不断更新网络参数值，直至模型满足要求。为兼顾单次训练的速度与效果，通常在一次训练过程中从经验池内存储的数据按照某种方式抽取若干个数据同时进行训练，对每一个数据求得损失值之后通过平均得到期望损失。损失函数的通用公式如下：

式中，N为一次性训练的数据个数，L为损失函数，x_i和θ均为输入量，f为根据输入参数计算得到的输出预测值，y_i为输入条件下的实际输出值。

预测Actor网络（“预测A网络”）根据输入s的变化，计算更新动作a。目标Actor网络更新公式如下：

式中，τ常值参数，数值较小，代表动作值更新幅度越小，

是“目标A网络”参数，

是“预测A网络”的参数。

整个Actor网络更新依据的梯度公式如下：

式中包括两个策略梯度，其中

为在s_i状态下、采取动作a的条件下，Q值对动作a的梯度，

为s_i状态下，动作对神经网络的梯度。两者相乘得到参数更新的梯度公式。采用策略梯度的思想即根据输出动作对应的Q值，让网络参数朝着更大概率输出大Q值对应动作的方向去更新。

预测Critic网络（“预测C网络”）根据输入的状态s和动作a，计算更新预测Q值。目标Critic网络更新公式如下：

式中，τ是常值参数，数值较小，代表状态值更新幅度越小，

是“目标C网络”的参数，

是“预测C网络”的参数。

整个Critic网络更新依据的损失函数公式如下：

式中，y_i代表的是真实Q值，Q代表的是预测Q值，两者作差取平方最后求平均得到损失值，r_i代奖励值，N代表一次性训练的数据个数，s_i代表状态，a_i代表动作，

是“预测C网络”参数。

“预测A网络”负责根据车辆和炮台的当前状态，选择输出动作。“目标A网络”负责根据经验池的下一状态选择对应的最优动作。根据系统的当前状态、“预测A网络”和“目标A网络”所选择的输出动作、以及奖赏函数，更新所选择动作的Q值。Q值是强化学习过程参数，是在某一个时刻的状态下，采取特定动作能够获得收益的期望，根据Q值可以选取收益最大的动作。其中“预测C网络”负责计算预测的Q值，“目标C网络”负责计算真实的Q值。根据更新后的Q值计算误差值，经过优化后将输出动作发送到车辆底盘和炮台。

设置奖赏函数。奖赏函数指的是：在状态s_i条件下，无人车做出动作a_i后达到状态s_i+1，该过程对应奖赏值r_i的计算方法，公式如下：

式中，z_j代表车辆距离终点的相对距离关系，z_x1代表对第一个敌方目标的打击效果，z_x2代表对第二个敌方目标的打击效果，z_p代表车辆是否与障碍物进行碰撞干涉。奖励函数在每次更新状态和动作时，作为对该动作的评价，以促进模型更快更好地完成目标任务。

利用优化器进行梯度下降。在优化器方面选用Adam Optimizer来进行参数的更新，利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。核心公式如下所示：

是上一时刻的参数值，m_t是一阶动量项，v_t是二阶动量项，

均是动量修正项，

均是常值参数。

基于上述构建的得到的如图3所示的网络结构，参数更新的过程具体如下：

1）检验是否存在已经训练过一定步数的参数模型，如果检测到参数模型，对其参数值进行调用，在它基础上继续进行训练。如果检测不到参数模型，即初始化参数，重新开始训练。

2）for i from 1 to N，进行迭代。

a)采集状态s并输入系统。

b)在“预测A网络”中基于状态s得到动作a。

c)对动作a加入UO噪声处理，以提升其探索概率，公式如下：

其中，N_uo代表放入的Uhlenbeck-Ornstein噪声。

d)执行动作a得到新的状态s_，以及奖励值r，以及终止标志位done。

e)将s、a、r、s_、done存储到经验池里面，当经验池存储到一定数目之后开始参数的学习，若训练池被填满，后面的记录把前面的记录进行覆盖。

f)s=s_，完成状态的更新。

g)从经验池采集mini-batch个数据样本进行训练，Critic网络更新依据的损失函数公式如下：

式中，y_i代表的是真实Q值，

代表的是预测Q值，两者作差取平方最后求平均得到损失值。

h)Actor网络更新依据的梯度公式如下：

式中包括两个梯度，两者相乘得到参数更新的梯度公式。采用策略梯度的思想即根据输出动作对应的Q值，让网络参数朝着更大概率输出大Q值对应动作的方向去更新。

在优化器方面选用Adam Optimizer来进行参数的更新，核心公式如下：

式中，α是学习率，g_t是t次迭代代价函数对网络参数的梯度，θ_t是当前时刻的参数值，θ_t-1是上一时刻的参数值，m_t是一阶动量项，v_t是二阶动量项，

均是动量修正项，

均是常值参数，取值分别为0.9、0.999、10^-8。

i)以上是对“预测C网络”、“预测A网络”的参数更新，可以利用soft-update的方式进行“目标C网络”、“目标A网络”的参数更新，公式如下：

j)如果结束标志位为True，代表进入了本轮的终止阶段，i+=1，继续进行循环。

步骤103：将地面无人车辆的传感器信息作为输入，利用训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制。传感器信息可以是在实车环境中利用内部传感器、外部传感器获取本车实时状态信息与周围环境信息。其中状态实时信息包括车辆位置信息、车辆速度信息、上装角度信息。周围环境信息是通过摄像头、激光雷达、毫米波雷达等外部传感器探测的距离车辆一定范围内的外界环境信息。

步骤103的具体实施过程主要为：

将地面无人车辆的传感器信息作为输入，利用训练好的强化学习参数模型得到地面无人车辆动作的θ值。

根据地面无人车辆动作的θ值确定下一时刻的地面无人车辆的状态信息。状态信息包括：车辆位置信息、车辆速度信息和上装角度信息。

对应于上述提供的地面无人车辆底盘运动与目标打击协同控制方法，本发明还提供了一种地面无人车辆底盘运动与目标打击协同控制系统，如图4所示，该系统包括：仿真场景搭建模块1、强化学习参数模型搭建模块2、训练模块3和协同控制模块4。

其中，仿真场景搭建模块1用于搭建实车环境对应的仿真场景。

强化学习参数模型搭建模块2用于搭建强化学习参数模型。强化学习参数模型包括：全连接层、状态值网络、动作值网络和dropout网络。

训练模块3用于采用仿真场景对搭建好的强化学习参数模型进行训练和测试，得到训练好的强化学习参数模型。

协同控制模块4用于将地面无人车辆的传感器信息作为输入，利用训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。