CN113705115B - 地面无人车辆底盘运动与目标打击协同控制方法和系统 - Google Patents

地面无人车辆底盘运动与目标打击协同控制方法和系统 Download PDF

Info

Publication number
CN113705115B
CN113705115B CN202111279251.4A CN202111279251A CN113705115B CN 113705115 B CN113705115 B CN 113705115B CN 202111279251 A CN202111279251 A CN 202111279251A CN 113705115 B CN113705115 B CN 113705115B
Authority
CN
China
Prior art keywords
network
target
reinforcement learning
unmanned vehicle
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111279251.4A
Other languages
English (en)
Other versions
CN113705115A (zh
Inventor
龚建伟
李子睿
魏连震
左寅初
吕超
臧政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beili Huidong Beijing Technology Co ltd
Beijing Institute of Technology BIT
Original Assignee
Beili Huidong Beijing Technology Co ltd
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beili Huidong Beijing Technology Co ltd, Beijing Institute of Technology BIT filed Critical Beili Huidong Beijing Technology Co ltd
Priority to CN202111279251.4A priority Critical patent/CN113705115B/zh
Publication of CN113705115A publication Critical patent/CN113705115A/zh
Application granted granted Critical
Publication of CN113705115B publication Critical patent/CN113705115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种地面无人车辆底盘运动与目标打击协同控制方法和系统。本发明通过搭建好的仿真场景对搭建好的强化学习参数模型进行训练和测试,得到训练好的强化学习参数模型,可以将特种车辆类型和强化学习参数模型进行有机结合,并且,在实际环境中,输入车辆传感器实时采集到的各种信息作为深度强化学习的输入,最终实现对地面无人车辆底盘运动与目标打击协同控制,以能够实现自主机动模块与自主任务模块的协同,在缩短任务的完成时间,提升任务执行效果。进一步,基于仿真数据的强化学习方法,能够使数据获取的成本低,而且与基于规则的数学模型方法相比,只需要对输入数据、输出动作、奖赏函数做适当修改即可应用于新的场景,普适性更好。

Description

地面无人车辆底盘运动与目标打击协同控制方法和系统
技术领域
本发明涉及车辆协同控制技术领域,特别是涉及一种地面无人车辆底盘运动与目标打击协同控制方法和系统。
背景技术
随着计算机技术、网络技术、传感与测试技术、人工智能技术等不断地发展,无人驾驶应运而生,各种类型的地面无人车辆进入大众视野,在诸多方面解放与发展了劳动生产力,车辆无人化已经成为一种趋势。特种车辆是指经特制或经改装的,其结构、外形、尺寸、重量等方面与一般车辆不同的,适用于特定场合、执行特定任务的车辆,整车可划分为机动模块与任务模块两个部分,前者负责车辆的移动,后者用来执行特定的任务。无人特种车辆与一般的无人车辆不同,其要求车辆具备自主移动功能外,还要求其能自主完成作业任务,这对车辆的设计与控制提出了更大的挑战。为减小设计与控制难度,目前国内外的无人特种车辆大都采用静态作业的方式,即车辆在执行特定任务的同时车辆底盘是静止的,机动模块与任务模块没有实现很好地协同,不能在移动中完成作业任务,从而带来了一些弊端,有较大的提升空间。例如,这种静态作业方式弱化了无人矿用车的生产的效率,削弱了无人消防车的火灾救助能力,降低了无人军用车战场生存的可能性与打击效率。
发明内容
为解决现有技术中存在的上述问题,本发明的目的是提供一种地面无人车辆底盘运动与目标打击协同控制方法和系统。
为实现上述目的,本发明提供了如下方案:
一种地面无人车辆底盘运动与目标打击协同控制方法,包括:
搭建实车环境对应的仿真场景;
搭建强化学习参数模型;所述强化学习参数模型包括:全连接层、状态值网络、动作值网络和dropout网络;
采用所述仿真场景对搭建好的所述强化学习参数模型进行训练和测试,得到训练好的强化学习参数模型;
将地面无人车辆的传感器信息作为输入,利用所述训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制。
优选地,所述搭建强化学习参数模型,具体包括:
设置全连接层、“预测A网络”、“目标A网络”、“预测C网络”和“目标C网络”;所述“预测A网络”和所述“目标A网络”的结构一致;所述“预测A网络”采用的更新方式为实时更新;所述“目标A网络”采用的更新方式为软更新;所述“预测C网络”和所述“目标C网络”的结构一致;所述“预测C网络”采用的更新方式为实时更新;所述“目标C网络”采用的更新方式为软更新;
所述“预测A网络”用于根据输入的当前状态选择输出动作;所述“目标A网络”用于确定下一状态选择对应的最优动作;所述“预测C网络”用于预测动作的Q值,所述“目标C网络”用于确定动作的真实Q值。
优选地,得到训练好的强化学习参数模型,具体包括:
采用所述仿真场景对搭建好的所述强化学习参数模型进行一定步数的训练以获得多组数据,并将获取的多组数据存储在经验池中;
从所述经验池中抽出若干条数据并不断更新所述强化学习参数模型的网络参数值。
优选地,所述设置全连接层、“预测A网络”、“目标A网络”、“预测C网络”和“目标C网络”,具体包括:
设置损失函数;所述损失函数
Figure 100002_DEST_PATH_IMAGE001
的通用公式如下:
Figure 246541DEST_PATH_IMAGE002
式中,N为一次性训练的数据个数,L为损失函数,xi和θ均为输入量,f为根据输入参数计算得到的输出预测值,yi为输入条件下的实际输出值;
所述“预测A网络”根据输入s的变化计算更新动作a;所述“预测A网络”的更新公式为:
Figure 100002_DEST_PATH_IMAGE003
式中,τ是常值参数,
Figure 327498DEST_PATH_IMAGE004
是“目标A网络”参数,
Figure 100002_DEST_PATH_IMAGE005
是“预测A网络”的参数;
所述“预测A网络”和所述“目标A网络”更新依据的梯度公式为:
Figure 692750DEST_PATH_IMAGE006
式中,
Figure 100002_DEST_PATH_IMAGE007
为在si状态下、采取动作a的条件下,Q值对动作a的梯度;
Figure 912378DEST_PATH_IMAGE008
为si状态下对神经网络的梯度;
所述“预测C网络”根据输入的状态s和动作a计算更新预测Q值;所述“预测C网络”的更新公式为:
Figure 100002_DEST_PATH_IMAGE009
式中,τ是常值参数,
Figure 345503DEST_PATH_IMAGE010
是“目标C网络”的参数,
Figure 100002_DEST_PATH_IMAGE011
是“预测C网络”的参数;
所述“预测C网络”和所述“目标C网络”更新依据的损失函数公式为:
Figure 230151DEST_PATH_IMAGE012
式中,yi代表的是真实Q值,Q代表的是预测Q值,ri代奖励值,N代表一次性训练的数据个数,si代表状态,ai代表动作;
设置奖赏函数;所述奖赏函数为在状态si条件下,无人车辆做出动作ai后达到状态si+1;所述奖赏函数为:
Figure DEST_PATH_IMAGE013
式中,zj代表车辆距离终点的相对距离关系,z x1代表对第一个敌方目标的打击效果,z x2代表对第二个敌方目标的打击效果,z p 代表车辆是否与障碍物进行碰撞干涉;
利用优化器进行梯度下降;选用Adam Optimizer对所述优化器的参数进行更新,利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,计算公式为:
Figure 183063DEST_PATH_IMAGE014
式中,α是学习率,gt是t次迭代代价函数对网络参数的梯度,θt是当前时刻的参数值,
Figure 100002_DEST_PATH_IMAGE015
是上一时刻的参数值,mt是一阶动量项,vt是二阶动量项,
Figure 31983DEST_PATH_IMAGE016
均是动量修正项,
Figure 100002_DEST_PATH_IMAGE017
均是常值参数。
优选地,地面无人车辆底盘为履带式底盘、轮式底盘或轮腿式底盘。
优选地,将地面无人车辆的传感器信息作为输入,利用所述训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制,具体包括:
将地面无人车辆的传感器信息作为输入,利用所述训练好的强化学习参数模型得到地面无人车辆动作的θ值;
根据所述地面无人车辆动作的θ值确定下一时刻的地面无人车辆的状态信息;所述状态信息包括:车辆位置信息、车辆速度信息和上装角度信息。
优选地,所述传感器信息包括地面无人车辆的实时状态信息和环境信息。
优选地,所述地面无人车辆的实时状态信息包括:车辆位置信息、车辆速度信息和上装角度信息;
所述环境信息为距离地面无人车辆预设范围内的外界信息。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的地面无人车辆底盘运动与目标打击协同控制方法,通过搭建好的仿真场景对搭建好的强化学习参数模型进行训练和测试,得到训练好的强化学习参数模型,可以将特种车辆类型和强化学习参数模型进行有机结合,并且,在实际环境中,输入车辆传感器实时采集到的各种信息作为深度强化学习的输入,最终实现对地面无人车辆底盘运动与目标打击协同控制,以能够实现自主机动模块与自主任务模块的协同,在缩短任务的完成时间,提升任务执行效果。进一步,基于仿真数据的强化学习方法,能够使数据获取的成本低,而且与基于规则的数学模型方法相比,只需要对输入数据、输出动作、奖赏函数做适当修改即可应用于新的场景,普适性更好。
对应于上述提供的地面无人车辆底盘运动与目标打击协同控制方法,本发明还提供了一种地面无人车辆底盘运动与目标打击协同控制系统,该系统包括:
仿真场景搭建模块,用于搭建实车环境对应的仿真场景;
强化学习参数模型搭建模块,用于搭建强化学习参数模型;所述强化学习参数模型包括:全连接层、状态值网络、动作值网络和dropout网络;
训练模块,用于采用所述仿真场景对搭建好的所述强化学习参数模型进行训练和测试,得到训练好的强化学习参数模型;
协同控制模块,用于将地面无人车辆的传感器信息作为输入,利用所述训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制。
因本发明提供的地面无人车辆底盘运动与目标打击协同控制系统达到的技术效果与上述提供的地面无人车辆底盘运动与目标打击协同控制方法达到的技术效果相同,故在此不再进行赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的地面无人车辆底盘运动与目标打击协同控制方法的流程图;
图2为本发明实施例提供的利用仿真场景训练与测试基于强化学习的地面无人车辆底盘运动与目标打击协同控制的强化学习参数模型过程示意图;
图3为本发明实施例提供的强化学习参数模型的网络结构示意图;
图4为本发明提供的地面无人车辆底盘运动与目标打击协同控制系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种地面无人车辆底盘运动与目标打击协同控制方法和系统,能够提高机动模块与任务模块间的协同性能,进而解决目前地面无人车辆作战效率低、自我保护性弱等问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的地面无人车辆底盘运动与目标打击协同控制方法,包括:
步骤100:搭建实车环境对应的仿真场景。在具体实施步骤101的过程中,可以选择V-REP动力学仿真软件,搭建实车环境对应的仿真场景,具体的:将实车对应的三维模型导入仿真环境中。设置车辆起点位置。设置目标点/任务点位置。设置路面状况以及周围障碍物的位置。设置传感器的类型与位置布置。设置输出的仿真图表内容。实车对应的仿真场景可以是单辆车,也可以是多辆车,可以全是无人车,也可以是有人车与无人车。目标点/任务点可以是单个目标点/任务点,也可以是多个目标点/任务点。目标点/任务点可以是相对仿真路面静止的,也可以是相对运动的。路面状况可以是平面路况,也可以是立体路况。周围障碍物可以是单个障碍物,也可以是多个障碍物。障碍物可以是相对仿真路面静止的,也可以是相对运动的。
以履带式中型战车为例,将一履带式中型战车对应的三维模型导入V-REP仿真环境中。设置车辆起点位置为(0m,0m)。设置车辆需要运动到的终点位置为(1000m,1000m),有两个需要在中途消灭的敌方目标。设置为平面路面状况,周围障碍物的位置根据随机布置。设置车辆传感器,包括激光雷达、摄像头、定位系统等。设置输出的仿真图表内容,以便于进行仿真调试。实车对应的三维模型取一辆混合动力电传动履带式中型战车,配有上装炮台结构,可以通过电机带动转盘轴承进行旋转。目标终点有1个,途中有两个任务点,即两个被打击对象,目标点/任务点是相对仿真路面静止的。路面状况是平面路况。周围障碍物是多个障碍物,有相对仿真路面静止的,也有相对仿真路面运动的。
步骤101:搭建强化学习参数模型。强化学习参数模型包括:全连接层、状态值网络、动作值网络和dropout网络。搭建好的强化学习参数模型如图3所示。
步骤102:采用仿真场景对搭建好的强化学习参数模型进行训练和测试,得到训练好的强化学习参数模型。在进行训练仿真的过程中,选择DDPG (Deep DeterministicPolicy Gradient) 深度强化学习算法,利用步骤100搭建的仿真场景训练,测试基于强化学习的地面无人车辆底盘运动与目标打击协同控制方法,训练输出得到可用于动态协同打击的强化学习参数模型。参数模型为训练完成后的Actor、Critic神经网络参数θ,通过输入车辆的速度、炮台转角、目标位置等参数,经过模型计算动作的Q值,输出系统在下个时刻的速度、炮台转角等参数。其中,车辆底盘可以是履带式底盘、轮式底盘、轮腿式底盘。目标打击是依靠上装炮台完成打击作业任务,上装炮台可搭载常规军用或民用打击装置。
如图2所示,利用仿真场景训练与测试地面无人作战车辆自主机动与自主任务模块协同规划与控制的强化学习参数模型过程如下:
确定输入和输出信息内容。对于炮台控制系统,其输入信息包括车辆速度信息、炮台角度信息以及目标位置信息。本系统中的神经网络结构如下:该输入首先经过若干层全连接层处理,之后分为状态值网络(Critic)以及动作值网络(Actor)两个部分,最后对两者相加得到神经网络的输出结果,即每种动作对应的Q值。此外,在每一层全连接层后紧跟了一层dropout网络结构以减小训练中过拟合发生的可能性。训练完成后,再结合车辆底盘的控制输出结果,确认炮台的转角控制量。
搭建神经网络结构包括对高维信息处理的卷积神经网络结构以及之后的全连接层网络结构,还包括四个神经网络:两个Actor神经网络与两个Critic神经网络。两个Actor神经网络命名为“预测A网络”与“目标A网络”,它们的结构一致,不同点是更新方式上有所不同。“预测A网络”实时更新,“目标A网络”采用软更新的方式。Critic神经网络也可分为“预测C网络”与“目标C网络”,两者结构一致,更新方式不同,与Actor神经网络更新类似。“预测A网络”负责根据输入的当前状态选择输出动作。“目标A网络”负责根据经验池的下一状态选择对应的最优动作。“预测C网络”负责计算预测的Q值,“目标C网络”负责计算真实的Q值。
程序实际训练过程是先随机探索一定步数以获得多组数据并将其存储在经验池中,正式训练网络参数时每一次从经验池中抽出若干条数据并不断更新网络参数值,直至模型满足要求。为兼顾单次训练的速度与效果,通常在一次训练过程中从经验池内存储的数据按照某种方式抽取若干个数据同时进行训练,对每一个数据求得损失值之后通过平均得到期望损失。损失函数的通用公式如下:
Figure 624507DEST_PATH_IMAGE018
式中,N为一次性训练的数据个数,L为损失函数,xi和θ均为输入量,f为根据输入参数计算得到的输出预测值,yi为输入条件下的实际输出值。
预测Actor网络(“预测A网络”)根据输入s的变化,计算更新动作a。目标Actor网络更新公式如下:
Figure 100002_DEST_PATH_IMAGE019
式中,τ常值参数,数值较小,代表动作值更新幅度越小,
Figure 594737DEST_PATH_IMAGE020
是“目标A网络”参数,
Figure 323528DEST_PATH_IMAGE005
是“预测A网络”的参数。
整个Actor网络更新依据的梯度公式如下:
Figure DEST_PATH_IMAGE021
式中包括两个策略梯度,其中
Figure 275172DEST_PATH_IMAGE007
为在si状态下、采取动作a的条件下,Q值对动作a的梯度,
Figure 574566DEST_PATH_IMAGE022
为si状态下,动作对神经网络的梯度。两者相乘得到参数更新的梯度公式。采用策略梯度的思想即根据输出动作对应的Q值,让网络参数朝着更大概率输出大Q值对应动作的方向去更新。
预测Critic网络(“预测C网络”)根据输入的状态s和动作a,计算更新预测Q值。目标Critic网络更新公式如下:
Figure DEST_PATH_IMAGE023
式中,τ是常值参数,数值较小,代表状态值更新幅度越小,
Figure 998420DEST_PATH_IMAGE010
是“目标C网络”的参数,
Figure 253821DEST_PATH_IMAGE011
是“预测C网络”的参数。
整个Critic网络更新依据的损失函数公式如下:
Figure 110787DEST_PATH_IMAGE024
式中,yi代表的是真实Q值,Q代表的是预测Q值,两者作差取平方最后求平均得到损失值,ri代奖励值,N代表一次性训练的数据个数,si代表状态,ai代表动作,
Figure 287691DEST_PATH_IMAGE011
是“预测C网络”参数。
“预测A网络”负责根据车辆和炮台的当前状态,选择输出动作。“目标A网络”负责根据经验池的下一状态选择对应的最优动作。根据系统的当前状态、“预测A网络”和“目标A网络”所选择的输出动作、以及奖赏函数,更新所选择动作的Q值。Q值是强化学习过程参数,是在某一个时刻的状态下,采取特定动作能够获得收益的期望,根据Q值可以选取收益最大的动作。其中“预测C网络”负责计算预测的Q值,“目标C网络”负责计算真实的Q值。根据更新后的Q值计算误差值,经过优化后将输出动作发送到车辆底盘和炮台。
设置奖赏函数。奖赏函数指的是:在状态si条件下,无人车做出动作ai后达到状态si+1,该过程对应奖赏值ri的计算方法,公式如下:
Figure DEST_PATH_IMAGE025
式中,zj代表车辆距离终点的相对距离关系,z x1代表对第一个敌方目标的打击效果,z x2代表对第二个敌方目标的打击效果,z p 代表车辆是否与障碍物进行碰撞干涉。奖励函数在每次更新状态和动作时,作为对该动作的评价,以促进模型更快更好地完成目标任务。
利用优化器进行梯度下降。在优化器方面选用Adam Optimizer来进行参数的更新,利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。核心公式如下所示:
Figure 130882DEST_PATH_IMAGE014
式中,α是学习率,gt是t次迭代代价函数对网络参数的梯度,θt是当前时刻的参数值,
Figure 709631DEST_PATH_IMAGE015
是上一时刻的参数值,mt是一阶动量项,vt是二阶动量项,
Figure 737498DEST_PATH_IMAGE016
均是动量修正项,
Figure 141978DEST_PATH_IMAGE026
均是常值参数。
基于上述构建的得到的如图3所示的网络结构,参数更新的过程具体如下:
1)检验是否存在已经训练过一定步数的参数模型,如果检测到参数模型,对其参数值进行调用,在它基础上继续进行训练。如果检测不到参数模型,即初始化参数,重新开始训练。
2)for i from 1 to N,进行迭代。
a)采集状态s并输入系统。
b)在“预测A网络”中基于状态s得到动作a。
c)对动作a加入UO噪声处理,以提升其探索概率,公式如下:
Figure DEST_PATH_IMAGE027
其中,N uo 代表放入的Uhlenbeck-Ornstein噪声。
d)执行动作a得到新的状态s_,以及奖励值r,以及终止标志位done。
e)将s、a、r、s_、done存储到经验池里面,当经验池存储到一定数目之后开始参数的学习,若训练池被填满,后面的记录把前面的记录进行覆盖。
f)s=s_,完成状态的更新。
g)从经验池采集mini-batch个数据样本进行训练,Critic网络更新依据的损失函数公式如下:
Figure 788860DEST_PATH_IMAGE028
式中,yi代表的是真实Q值,
Figure 18853DEST_PATH_IMAGE030
代表的是预测Q值,两者作差取平方最后求平均得到损失值。
h)Actor网络更新依据的梯度公式如下:
Figure 827409DEST_PATH_IMAGE021
式中包括两个梯度,两者相乘得到参数更新的梯度公式。采用策略梯度的思想即根据输出动作对应的Q值,让网络参数朝着更大概率输出大Q值对应动作的方向去更新。
在优化器方面选用Adam Optimizer来进行参数的更新,核心公式如下:
Figure 837959DEST_PATH_IMAGE014
式中,α是学习率,gt是t次迭代代价函数对网络参数的梯度,θt是当前时刻的参数值,θt-1是上一时刻的参数值,mt是一阶动量项,vt是二阶动量项,
Figure 288532DEST_PATH_IMAGE016
均是动量修正项,
Figure 451660DEST_PATH_IMAGE017
均是常值参数,取值分别为0.9、0.999、10-8
i)以上是对“预测C网络”、“预测A网络”的参数更新,可以利用soft-update的方式进行“目标C网络”、“目标A网络”的参数更新,公式如下:
Figure DEST_PATH_IMAGE031
j)如果结束标志位为True,代表进入了本轮的终止阶段,i+=1,继续进行循环。
步骤103:将地面无人车辆的传感器信息作为输入,利用训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制。传感器信息可以是在实车环境中利用内部传感器、外部传感器获取本车实时状态信息与周围环境信息。其中状态实时信息包括车辆位置信息、车辆速度信息、上装角度信息。周围环境信息是通过摄像头、激光雷达、毫米波雷达等外部传感器探测的距离车辆一定范围内的外界环境信息。
步骤103的具体实施过程主要为:
将地面无人车辆的传感器信息作为输入,利用训练好的强化学习参数模型得到地面无人车辆动作的θ值。
根据地面无人车辆动作的θ值确定下一时刻的地面无人车辆的状态信息。状态信息包括:车辆位置信息、车辆速度信息和上装角度信息。
对应于上述提供的地面无人车辆底盘运动与目标打击协同控制方法,本发明还提供了一种地面无人车辆底盘运动与目标打击协同控制系统,如图4所示,该系统包括:仿真场景搭建模块1、强化学习参数模型搭建模块2、训练模块3和协同控制模块4。
其中,仿真场景搭建模块1用于搭建实车环境对应的仿真场景。
强化学习参数模型搭建模块2用于搭建强化学习参数模型。强化学习参数模型包括:全连接层、状态值网络、动作值网络和dropout网络。
训练模块3用于采用仿真场景对搭建好的强化学习参数模型进行训练和测试,得到训练好的强化学习参数模型。
协同控制模块4用于将地面无人车辆的传感器信息作为输入,利用训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种地面无人车辆底盘运动与目标打击协同控制方法,其特征在于,包括:
搭建实车环境对应的仿真场景;
搭建强化学习参数模型;所述强化学习参数模型包括:全连接层、状态值网络、动作值网络和dropout网络;
采用所述仿真场景对搭建好的所述强化学习参数模型进行训练和测试,得到训练好的强化学习参数模型;
将地面无人车辆的传感器信息作为输入,利用所述训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制;
所述搭建强化学习参数模型,具体包括:
设置全连接层、“预测A网络”、“目标A网络”、“预测C网络”和“目标C网络”;所述“预测A网络”和所述“目标A网络”的结构一致;所述“预测A网络”采用的更新方式为实时更新;所述“目标A网络”采用的更新方式为软更新;所述“预测C网络”和所述“目标C网络”的结构一致;所述“预测C网络”采用的更新方式为实时更新;所述“目标C网络”采用的更新方式为软更新;
所述“预测A网络”用于根据输入的当前状态选择输出动作;所述“目标A网络”用于确定下一状态选择对应的最优动作;所述“预测C网络”用于预测动作的Q值,所述“目标C网络”用于确定动作的真实Q值。
2.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法,其特征在于,所述采用所述仿真场景对搭建好的所述强化学习参数模型进行训练和测试,得到训练好的强化学习参数模型,具体包括:
采用所述仿真场景对搭建好的所述强化学习参数模型进行一定步数的训练以获得多组数据,并将获取的多组数据存储在经验池中;
从所述经验池中抽出若干条数据并不断更新所述强化学习参数模型的网络参数值。
3.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法,其特征在于,所述设置全连接层、“预测A网络”、“目标A网络”、“预测C网络”和“目标C网络”,具体包括:
设置损失函数;所述损失函数
Figure DEST_PATH_IMAGE001
的通用公式如下:
Figure DEST_PATH_IMAGE002
式中,N为一次性训练的数据个数,L为损失函数,xi和θ均为输入量,f为根据输入参数计算得到的输出预测值,yi为输入条件下的实际输出值;
所述“预测A网络”根据输入s的变化计算更新动作a;所述“预测A网络”的更新公式为:
Figure DEST_PATH_IMAGE003
式中,τ是常值参数,
Figure DEST_PATH_IMAGE004
是“目标A网络”参数,
Figure DEST_PATH_IMAGE005
是“预测A网络”的参数;
所述“预测A网络”和所述“目标A网络”更新依据的梯度公式为:
Figure DEST_PATH_IMAGE006
式中,
Figure DEST_PATH_IMAGE007
为在si状态下、采取动作a的条件下,Q值对动作a的梯度;
Figure DEST_PATH_IMAGE008
为si状态下对神经网络的梯度;
所述“预测C网络”根据输入的状态s和动作a计算更新预测Q值;所述“预测C网络”的更新公式为:
Figure DEST_PATH_IMAGE009
式中,τ是常值参数,
Figure DEST_PATH_IMAGE010
是“目标C网络”的参数,
Figure DEST_PATH_IMAGE011
是“预测C网络”的参数;
所述“预测C网络”和所述“目标C网络”更新依据的损失函数公式为:
Figure DEST_PATH_IMAGE012
式中,yi代表的是真实Q值,Q代表的是预测Q值,ri代奖励值,
Figure DEST_PATH_IMAGE014
代表一次性训练的数据个数,si代表状态,ai代表动作;
设置奖赏函数;所述奖赏函数为在状态si条件下,无人车辆做出动作ai后达到状态si+1;所述奖赏函数为:
Figure DEST_PATH_IMAGE015
式中,zj代表车辆距离终点的相对距离关系,z x1代表对第一个敌方目标的打击效果,z x2代表对第二个敌方目标的打击效果,z p 代表车辆是否与障碍物进行碰撞干涉;
利用优化器进行梯度下降;选用Adam Optimizer对所述优化器的参数进行更新,利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,计算公式为:
Figure DEST_PATH_IMAGE016
式中,α是学习率,gt是t次迭代代价函数对网络参数的梯度,θt是当前时刻的参数值,
Figure DEST_PATH_IMAGE017
是上一时刻的参数值,mt是一阶动量项,vt是二阶动量项,
Figure DEST_PATH_IMAGE018
均是动量修正项,
Figure DEST_PATH_IMAGE019
均是常值参数。
4.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法,其特征在于,地面无人车辆底盘为履带式底盘、轮式底盘或轮腿式底盘。
5.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法,其特征在于,将地面无人车辆的传感器信息作为输入,利用所述训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制,具体包括:
将地面无人车辆的传感器信息作为输入,利用所述训练好的强化学习参数模型得到地面无人车辆动作的θ值;
根据所述地面无人车辆动作的θ值确定下一时刻的地面无人车辆的状态信息;所述状态信息包括:车辆位置信息、车辆速度信息和上装角度信息。
6.根据权利要求1所述的地面无人车辆底盘运动与目标打击协同控制方法,其特征在于,所述传感器信息包括地面无人车辆的实时状态信息和环境信息。
7.根据权利要求6所述的地面无人车辆底盘运动与目标打击协同控制方法,其特征在于,所述地面无人车辆的实时状态信息包括:车辆位置信息、车辆速度信息和上装角度信息;
所述环境信息为距离地面无人车辆预设范围内的外界信息。
8.一种地面无人车辆底盘运动与目标打击协同控制系统,其特征在于,包括:
仿真场景搭建模块,用于搭建实车环境对应的仿真场景;
强化学习参数模型搭建模块,用于搭建强化学习参数模型;所述强化学习参数模型包括:全连接层、状态值网络、动作值网络和dropout网络;
训练模块,用于采用所述仿真场景对搭建好的所述强化学习参数模型进行训练和测试,得到训练好的强化学习参数模型;
协同控制模块,用于将地面无人车辆的传感器信息作为输入,利用所述训练好的强化学习参数模型进行地面无人车辆底盘运动和目标打击的协同控制;
其中,所述搭建强化学习参数模型,具体包括:
设置全连接层、“预测A网络”、“目标A网络”、“预测C网络”和“目标C网络”;所述“预测A网络”和所述“目标A网络”的结构一致;所述“预测A网络”采用的更新方式为实时更新;所述“目标A网络”采用的更新方式为软更新;所述“预测C网络”和所述“目标C网络”的结构一致;所述“预测C网络”采用的更新方式为实时更新;所述“目标C网络”采用的更新方式为软更新;
所述“预测A网络”用于根据输入的当前状态选择输出动作;所述“目标A网络”用于确定下一状态选择对应的最优动作;所述“预测C网络”用于预测动作的Q值,所述“目标C网络”用于确定动作的真实Q值。
CN202111279251.4A 2021-11-01 2021-11-01 地面无人车辆底盘运动与目标打击协同控制方法和系统 Active CN113705115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111279251.4A CN113705115B (zh) 2021-11-01 2021-11-01 地面无人车辆底盘运动与目标打击协同控制方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111279251.4A CN113705115B (zh) 2021-11-01 2021-11-01 地面无人车辆底盘运动与目标打击协同控制方法和系统

Publications (2)

Publication Number Publication Date
CN113705115A CN113705115A (zh) 2021-11-26
CN113705115B true CN113705115B (zh) 2022-02-08

Family

ID=78647576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111279251.4A Active CN113705115B (zh) 2021-11-01 2021-11-01 地面无人车辆底盘运动与目标打击协同控制方法和系统

Country Status (1)

Country Link
CN (1) CN113705115B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114667852B (zh) * 2022-03-14 2023-04-14 广西大学 一种基于深度强化学习的绿篱修剪机器人智能协同控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016129671A1 (ja) * 2015-02-13 2016-08-18 ヤンマー株式会社 自律走行作業車両の制御システム
CN110209126A (zh) * 2019-03-21 2019-09-06 南京航空航天大学 模块化轮式无人车与旋翼无人机编队系统
CN111328018A (zh) * 2020-02-27 2020-06-23 新石器慧通(北京)科技有限公司 无人车、无人车作业系统和无人车作业方法
CN112364774A (zh) * 2020-11-12 2021-02-12 天津大学 一种基于脉冲神经网络的无人车类脑自主避障方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016129671A1 (ja) * 2015-02-13 2016-08-18 ヤンマー株式会社 自律走行作業車両の制御システム
CN110209126A (zh) * 2019-03-21 2019-09-06 南京航空航天大学 模块化轮式无人车与旋翼无人机编队系统
CN111328018A (zh) * 2020-02-27 2020-06-23 新石器慧通(北京)科技有限公司 无人车、无人车作业系统和无人车作业方法
CN112364774A (zh) * 2020-11-12 2021-02-12 天津大学 一种基于脉冲神经网络的无人车类脑自主避障方法及系统

Also Published As

Publication number Publication date
CN113705115A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN112947562B (zh) 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113495578B (zh) 一种基于数字孪生式训练的集群航迹规划强化学习方法
CN113093802B (zh) 一种基于深度强化学习的无人机机动决策方法
CN112362066B (zh) 一种基于改进的深度强化学习的路径规划方法
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN113900445A (zh) 基于多智能体强化学习的无人机协同控制训练方法及系统
CN113095481A (zh) 一种基于并行自我博弈的空战机动方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN113705115B (zh) 地面无人车辆底盘运动与目标打击协同控制方法和系统
CN113641192A (zh) 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113919482A (zh) 智能体训练方法、装置、计算机设备和存储介质
CN115809609B (zh) 一种多水下自主航行器目标搜索方法及其系统
CN115265547A (zh) 一种未知环境下基于强化学习的机器人主动导航方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN112711261A (zh) 一种基于局部视野的多智能体编队规划方法
CN112613608A (zh) 一种强化学习方法及相关装置
CN116776929A (zh) 一种基于pf-maddpg的多智能体任务决策方法
CN113110101B (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN117109574A (zh) 一种农用运输机械覆盖路径规划方法
CN115903885B (zh) 一种基于任务牵引的蜂群Agent模型的无人机飞控方法
CN116430891A (zh) 一种面向多智能体路径规划环境的深度强化学习方法
CN113985870B (zh) 一种基于元强化学习的路径规划方法
CN114609925A (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant