CN110989576A - 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法 - Google Patents

速差滑移转向车辆的目标跟随及动态障碍物避障控制方法 Download PDF

Info

Publication number
CN110989576A
CN110989576A CN201911113082.XA CN201911113082A CN110989576A CN 110989576 A CN110989576 A CN 110989576A CN 201911113082 A CN201911113082 A CN 201911113082A CN 110989576 A CN110989576 A CN 110989576A
Authority
CN
China
Prior art keywords
vehicle
target
action
training
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911113082.XA
Other languages
English (en)
Other versions
CN110989576B (zh
Inventor
李政
李雪原
苑士华
尹旭峰
周俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201911113082.XA priority Critical patent/CN110989576B/zh
Publication of CN110989576A publication Critical patent/CN110989576A/zh
Application granted granted Critical
Publication of CN110989576B publication Critical patent/CN110989576B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0238Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors
    • G05D1/024Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using obstacle or wall sensors in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0253Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0257Control of position or course in two dimensions specially adapted to land vehicles using a radar
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Electromagnetism (AREA)
  • Optics & Photonics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Steering Control In Accordance With Driving Conditions (AREA)

Abstract

本发明属于无人驾驶技术领域,公开了一种速差滑移转向车辆的目标跟随及动态障碍物避障控制方法,利用强化学习中的深度确定性策略建立四个神经网络;构建障碍物的代价范围从而确定动作的单步奖励函数;通过actor‑critic策略确定连续动作输出,并利用梯度传递不断更新网络参数;训练出根据当前状态进行跟随和避障的网络模型。本发明提升了车辆跟随及避障的智能性,能够更好的适应未知环境并很好的应对其他突发情况。减小了强化学习训练过程中建立仿真环境的复杂度。利用提前训练好的神经网络预测模型,由目标和障碍物的初始位置姿态及每步动作值能得到目标车辆和障碍物的每一步的位置姿态,提高了仿真的准确率和效率。

Description

速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
技术领域
本发明属于无人驾驶技术领域,尤其涉及一种速差滑移转向车辆的目标跟随及动态障碍物避障控制方法。
背景技术
目前,最接近的现有技术:传统方法进行目标跟随及避障时,主要采取路径规划和路径跟踪控制方法。即先由当前目标状态和障碍物信息规划出一条路径,然后利用轨迹跟踪控制方法,控制车辆沿着规划好的路径行进,同时采取局部路径规划的方式进行动态障碍物避障。在进行轨迹跟踪时通常是定速模式,采取路径规划和轨迹跟踪结合的方式,且由于速差滑移转向车辆的控制复杂性,不能很好的根据目标和障碍物的动态变化实时调整被控车辆。轮式滑移转向车辆作为载体底盘,可搭载摄像头、激光雷达、组合导航和车载计算机等设备,并与人工智能技术、计算机技术、信息通信技术、控制技术、车辆技术等其他学科交叉融合,具有广阔的应用前景。轮式滑移转向车辆由于其不需要特定的转向机构,结构简单,又有灵巧的转向运动特性,且体型相对小巧;同时具有高机动性和高通过性,在非结构环境中能够充分发挥车辆的极限行驶性能,现正越来越多的应用在户外环境和科学探索工作中。
理想状态下,车辆在目标跟随运动中能够根据目标车辆的状态和障碍物的状态信息实时调整自身的纵向速度和角速度,使其和目标车辆之间有一个相对稳定的安全距离,以便能更好的跟随目标。在车辆的目标跟随运动中需要兼顾跟随目标和躲避静态及动态障碍物的任务,对轮式滑移转向车辆的控制精度要求非常高。强化学习是机器学习的一种,通过奖励指导智能体在与环境交互过程中的行为,包含四个元素:智能体、环境、动作和奖励。而强化学习中的DDPG算法可以解决连续空间问题,可以选择控制车辆运动的连续动作,但当智能体和所交互的环境比较复杂时,奖励函数的设计也会很困难,考虑到被控车辆和目标车辆及障碍物之间的运动效果,奖励函数的设计应该综合考虑三者之间的距离和速度。同时,不当的奖励函数设置也会使得学习模型输出的动作不能有效的解决问题,从而使训练效果大打折扣。车辆跟随及避障比较好的效果是,被控车辆的速度随着目标车辆速度的改变而改变,和目标车辆保持一个相对稳定的距离,同时以一个较短的路径绕过障碍物。如果奖励函数没有考虑被控车辆的速度,那么被控车辆的速度在目标车辆加减速时可能不会变化。如果奖励函数没有考虑到为了绕过障碍物所产生的附加路程问题,那么被控车辆为了绕过障碍物可能会产生一个特别大的附加路程。为了取得比较好的效果,需要给被控车辆加一些约束,这些约束反映到模型中就是奖励函数的设计问题。针对轮式滑移转向车辆,轮式速差滑移转向车辆在转向时,两侧车轮会有滑移和滑转,不满足非完整约束条件。同时,不同速度状态下的滑移和滑转率也有所不同,因此速差滑移转向车辆的运动相对有转向机构的车辆运动有更多的不确定性。且在求车辆的位姿信息时要用到积分操作,会产生累积误差,使得控制精度变低;基于传统车辆行驶控制原理和目标跟踪及避障的研究比较复杂且精度不高,难以应对其他突发情况,影响车辆跟随及避障的效果。
综上所述,现有技术存在的问题是:
(1)在进行轨迹跟踪时通常是定速模式,采取路径规划和轨迹跟踪结合的方式,且由于速差滑移转向车辆的控制复杂性,不能很好的根据目标和障碍物的动态变化适时调整被控车辆。
(2)强化学习中的DDPG算法当智能体和所交互的环境比较复杂时,奖励函数的设计也会很困难。同时,不当的奖励函数设置也会使得学习模型输出的动作不能有效的解决问题,使训练效果大打折扣。
解决上述技术问题的难度:(1)针对轮式速差滑移转向车辆,基于传统路径规划及轨迹跟踪方法,会有很大的不确定性,且控制精度的进步空间不大,难以应对各种突发情况。(2)强化学习中的DDPG算法在解决复杂环境问题时,很难设计奖励函数,从而会导致训练效果和理想情况有很大的偏差。(3)训练过程中,为了得到真实的轨迹信息,要载入目标车辆和障碍物,使得系统计算效率变慢。
解决上述技术问题的意义:针对轮式速差滑移转向车辆,采用强化学习中的DDPG算法,将传统方法的不确定性考虑进去,从另一个角度研究此车辆的控制方法,同时对训练过程中的仿真做了进一步改进优化,能够方便的生成目标和障碍物轨迹信息。经过大量的数据训练,能够更好的应对各种突发情况。
发明内容
针对现有技术存在的问题,本发明提供了一种速差滑移转向车辆的目标跟随及动态障碍物避障控制方法。
本发明是这样实现的,一种速差滑移转向车辆的目标跟随及动态障碍物避障控制方法,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法利用强化学习中的深度确定性策略建立四个神经网络;通过actor-critic策略确定连续动作输出,构建障碍物的代价范围从而确定动作的单步奖励函数,并利用梯度传递不断更新网络参数;训练出根据当前状态进行跟随和避障的网络模型;
所述训练出能够根据当前状态进行跟随和避障的网络模型包括:
步骤一,设置初始参数,最低训练回合数T,每个回合最大训练步数S,数据集存放容量C,每次训练所取得数据样本数量N,输入状态的维度state_dim,输出动作的维度action_dim,Actor网络学习率lrA,Critic网络学习率lrC,折扣因子γ,作用在速度上的OU噪声noise(v)和作用在角速度上的OU噪声noise(ω);
步骤二,每个回合开始时,初始化环境,包括被控制车辆位置姿态信息,目标车辆位置姿态信息和障碍物位置姿态信息,定义为此回合的初始状态;其中,目标车辆和障碍物的位置姿态信息由之前训练好的神经网络预测模型提供;
步骤三,加入OU过程,用平衡神经网络的探索和利用之间的关系,根据车辆行驶过程中纵向加速度和转向角度的特性,调整OU随机过程中的θ、μ和σ;将OU过程作用在神经网络输出的动作上,经过f_clip()函数后将最终动作值noise(v)和noise(ω)传递到训练环境中去;
步骤四,训练环境接收环境状态,随机生成目标车辆和障碍物信息的纵向加速度和角速度并传给神经网络预测模型,神经网络预测模型生成目标车辆和障碍物的位置和姿态信息;同时,训练环境接受步骤三传的动作v和ω,作用在执行体上dt时间,使车辆达到一个新的环境状态;
步骤五,由步骤一环境状态和采取的动作,确定奖励函数;
步骤六,神经网络从数据集记忆库中随机抽取一部分数据进行训练,每步训练开始时首先进行判断,若数据记忆库内存放的数据集数量不足C,则不进行训练,若记忆库内数据集存放数量高于C,则网络开始进行训练;
步骤七,Actor策略网络和Critic Q网络根据步骤六中的数据改变网络参数,两个网络各自创建两个神经网络拷贝,一个为在线online网络,一个为目标target网络;训练完一个批次的数据后,online网络参数更新,然后缓慢更新target网络;
步骤八,若训练次数达到单回合最大训练步数或者满足规定的跟随和避障要求时,此回合结束,跳出此回合循环,执行步骤九;否则继续从步骤三开始执行;
步骤九,若完成目标的回合数达到要求且总训练回合数满足T,则训练完成,保存参数,得到优化后的训练模型;否则,继续从步骤二开始执行。
进一步,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法模拟真实车辆和障碍物的运动状态的神经网络预测模型的建立包括以下步骤:
步骤一,建立神经网络框架,构建一个含有两层隐藏层的神经网络并初始化参数,输入层接收上一步的状态及将要执行的动作,输出层输出预测的dt时间后车辆在世界坐标系下的位置姿态和速度信息:XY坐标值、横摆角及下一时刻的速度;
步骤二,车辆在环境中执行步骤一接收的动作,并达到下一步状态;获取下一步状态在环境中的绝对位姿信息作为标签,和步骤一中预测的位姿信息作对比,判断差值是否在定义的范围内;将差异反向传递到神经网络中,训练模型参数;
步骤三,更新神经网络参数,若满足预想要求同时达到最小训练次数,则结束训练,保存神经网络参数,否则重复步骤一-至步骤二。
进一步,所述网络模型每步的奖励函数有三部分构成:
第一部分,提出代价思想,针对障碍物信息,当被控车辆行驶在障碍物的特定范围内,对车辆的动作增加一个附加的代价值,被控车辆距离障碍物越近,付出的代价就越大,奖励就越低,车辆趋于原理障碍物;针对训练时的步数,每行驶一步都有一个附加的固定代价值,即车辆如果太偏离目标车辆,不尽快满足跟随条件结束循环的话,代价值就会增大;
第二部分,针对相距目标车辆距离的奖励,若规定跟随距离为r,则当距离大于r时,若距离有减小的趋势则增大奖励值,若有增大的趋势则减小奖励值,当距离小于r时,奖励值反向变化,即距离维持在r时有最高的奖励值;将此次步骤一环境,采取的动作,得到的奖励值和下一步环境信息放入数据集记忆库内;
进一步,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的应用部分包括:
步骤一,读取训练完毕的神经网络参数,初始化环境;
步骤二,将实际中的目标车辆和障碍物对应到训练部分模拟生成的目标和障碍物上,生成环境状态;
步骤三,Actor网络根据环境状态,输出控制车辆运动的动作,并作用在车辆上执行动作;
步骤四,若无退出命令,则继续获取dt后的环境状态,回到步骤三继续执行,否则整个系统结束。
进一步,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法具体包括以下步骤:
步骤一,系统获取自身的位置姿态,同时获取目标车辆及障碍物信息的位置姿态,将状态整合发送至训练好的基于DDPG的改进算法中;
步骤二,基于DDPG的神经网络接受状态信息,生成控制车辆运动的速度和角速度;
步骤三,被控车辆执行步骤二中生成的动作,进行目标跟踪和避障,并到达下一步状态;
步骤四,若无退出命令,则系统从步骤一开始循环往下执行;若有退出命令,则系统结束运行。
进一步,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的DDPG的训练算法包括以下步骤:
步骤一,将回合的状态si输入DDPG的策略网络,生成初始动作ai
步骤二,根据车辆运动学特性,给初始动作ai增加OU噪声,行程叠加之后的最终动作ai
步骤三,将步骤二中的最终动作ai输入DDPG的交互环境中,得到dt后的下一步状态si+1
步骤四,将交互环境中的(si,ai,si+1)信息输入到交互环境中的奖励函数中,得到(si,ai,ri,si+1),存储到数据集记忆库中;
步骤五,对数据集记忆库中数据的数量进行判断,若数据集数量小于数据集存放容量C=60000,则跳至步骤一开始继续往下执行;若满足数据集存放容量,则从中随机采样,抽取N=1000个数据进行训练;
步骤六,计算在线评价网络的梯度,更新在线评价网络参数,包括:
(1)定义在线评价网络的loss函数:
Figure BDA0002273303430000071
其中,Q(si,aiQ)为在线评价网络在状态si下执行动作ai得到的在线评价值,yi看作标签:
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′);
其中,利用DQN的思想,Q′(si+1,μ′(si+1μ′)|θQ′)为目标评价网络在状态si+1下执行动作μ′(si+1μ′)得到的目标评价值;其中,μ′(si+1μ′)是目标动作网络在状态si+1下输出的目标动作;
(2)计算loss函数针对在线评价网络参数θQ的梯度▽θQL,并采用Adam optimizer更新在线评价网络参数θQ
步骤七,计算在线策略网络的梯度,更新在线策略网络参数,在线策略网络的目标函数针对在线评价网络参数的梯度:
Figure BDA0002273303430000072
由此梯度,采用Adam optimizer更新在线策略网络参数θμ
进一步,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的训练算法中的神经网络预测模型训练包括以下步骤:
步骤一,建立神经网络框架,构建一个含有两层隐藏层的神经网络,输入为纵向速度和角速度,输出为世界坐标系下的位置姿态,XY坐标值和横摆角,具体包括:
(1)建立输入层:
建立输入层网络,输入层输入控制车辆运动的动作:
action=(a,w);
车辆模型接收的直接动作为纵向速度和角速度,由生成的动作action知:
v=v0+a·dt;
ω=ω;
将动作值action=(v,w)限制在action_max和action_min之间:
v=fv_clip(v,vmin,vmax);
ω=fω_clip(ω,ωminmax);
action=(v,ω);
其中:
Figure BDA0002273303430000081
故车辆模型接收的动作为action=(v,w);
(2)建立隐藏层:
两个隐藏层的神经元个数n1=1000和n2=1000,训练总次数为T=1000,单次训练最大步数为N=1000,学习率为lrC=0.01,更新周期时间长度dt=0.05,输入是控制车辆运动的动作action=(v,w);
(3)建立输出层,输出预测值:
建立输出层网络,输出值是经过dt时间后车辆在大地坐标系下的预测的绝对位置信息,包括坐标和横摆角:
statepredict=(Xpredict,Ypredictpredict);
步骤二,车辆在环境中执行步骤一接收的动作,并达到下一步状态;获取下一步状态在环境中的绝对位姿信息作为标签,和步骤一中预测的位姿信息作对比,得到损失函数并判断差值是否在定义的范围内,通过最小化损失函数更新网络:
训练的标签为同一时刻得到的真实坐标和横摆角:
statetrue=(Xtrue,Ytruetrue);
损失函数:
Figure BDA0002273303430000091
步骤三,更新神经网络参数,若满足预想要求同时达到最小训练次数1000,则结束训练,保存神经网络参数,否则重复步骤一-步骤二。
进一步,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的训练算法的交互环境为被控车辆信息、目标信息和障碍物信息;
被控车辆信息:
(Xrobot,Yrobotrobot);
目标信息:
(Xtarget,Ytargettarget,atarget,vtargettarget);
障碍物信息:
(Xbarrier,Ybarrierbarrier,abarrier,vbarrierbarrier);
步骤一,在当前环境状态si下,被控车辆执行动作ai,目标和障碍物执行各自的动作(vtargettarget),(vbarrierbarrier);
步骤二,交互环境根据步骤一中执行的动作,到达状态si+1
步骤三,交互环境根据步骤一和步骤二中的(si,ai,si+1)定义单步奖励函数ri如下,由目标信息影响的奖励函数rtarget和障碍物信息影响的代价函数rbarrier以及每和环境交互一次都会产生的固定代价值rstep叠加而成:
rtarget=ftarget(si,ai,si+1);
rstep=constant;
rbarrier=fbarrier(si,ai,si+1);
ri=rtarget+rstep+rbarrier
其中,rtarget=ftarget(si,ai,si+1)为相距目标车辆距离针对当前动作的奖励;若规定跟随距离为r,则当距离大于r时,若距离有减小的趋势则增大奖励值,若距离有增大的趋势则减小奖励值;当距离小于r时,奖励值反向变化,即距离维持在r时有最高的奖励值;rstep=constant为每和环境交互运行一次都会产生的固定附加代价值;rbarrier=fbarrier(si,ai,si+1)为相对障碍物距离针对当前动作的代价;
步骤四,整合信息(si,ai,ri,si+1),存入DDPG中的数据记忆库中。
本发明的另一目的在于提供一种应用所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的载体底盘,所述载体底盘搭载摄像头、激光雷达、组合导航、车载计算机。
本发明的另一目的在于提供一种应用所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的智能控制系统。
综上所述,本发明的优点及积极效果为:在DDPG训练过程中,本发明将目标车辆和障碍物的速度信息和姿态信息加入到环境状态中,能够使得神经网络同时考虑到目标和障碍物的姿态和速度对生成动作值的影响;使得被控车辆能够根据目标车辆的速度和姿态以及障碍物的速度和姿态改变自身的动作值,更加稳定的跟随目标及避障。本发明采取代价和奖励叠加的方式,在保证避障的同时又让车辆行驶尽可能小的步数,防止车辆为了避障过分远离目标点,使得到达目标位置的步数增加;分块简化了奖励函数的定义,总体比较符合车辆在跟随避障时的运动特性。本发明直接利用训练好的神经网络根据当前状态来实时调整被控车辆的运动,免去了复杂的路径规划和轨迹跟踪算法。训练过程中考虑了目标和障碍物的动态信息,使得被控车辆能够很好的适应动态目标和障碍物不断变化的状态。
在车辆运动过程中,神经网络输出的动作为纵向速度和角速度;加载在纵向速度上的噪声均值为正,趋于平均值的速度较大,波动较小,即希望速度更加平稳且多为正;加载在角速度上的噪声均值为零,趋于平均值的速度较小,波动较大,即希望角速度方向改变更加频繁,探索更多方向。本发明根据车辆的运动特性,改变了OU随机过程的参数,避免了网络模型陷入局部最优;同时平衡利用和探索之前的关系。本发明利用强化学习的思想,不需要人工标注数据集,减小了大量人工。仿真过程生成的网络模型,能够很好的移植到真实的环境中,提高目标跟随和避障的准确性和可靠性。神经网络预测模型模拟真实车辆和障碍物的运动状态。随机生成控制车辆运动的动作值,根据动作值生成目标和障碍物位置姿态信息。车辆行驶时,纵向速度的变化幅度不应该很大,但是车辆横摆角速度可以变化很频繁,考虑到实际车辆的运动状态,选择输入随机动作为纵向加速度和横摆角速度,后续经过简单运算处理变为直接传递给模型的纵向速度和角速度。此神经网络预测模型的目的是,在后续DDPG网络模型仿真中,提供一个相对真实的目标车辆和障碍物的信息,减少CPU的运算消耗,提高训练效率。
相对传统的基于规则的控制算法,本发明提升了车辆跟随及避障的智能性,能够更好的适应未知环境并很好的应对其他突发情况;减小了强化学习训练过程中建立仿真环境的复杂度。在仿真过程中,仿真回合数很多;为了提高仿真效率,建立回归预测模型,由初始位置姿态和每步动作值就能得到目标车辆和障碍物的每一步的位置姿态,提高了20%的仿真准确率和效率。
本发明在仿真和建立回归预测模型的过程中,涉及到目标车辆和障碍物的运动时;为了更加符合真实规律,采用的随机动作为加速度和角速度,这样使得目标车辆和障碍物的轨迹更加平滑,符合真实规律。本发明的方法可以将不确定性通过神经网络来处理,强化学习根据实际状态下的真实信息,经过大量的数据训练,能够取得比较精确的效果。目标车辆及障碍物的状态都是连续的,为了保证被控车辆的运动连续性,其动作也是连续取值的。结合DDPG强化学习神经网络模型,可以很好的解决连续性问题。
附图说明
图1是本发明实施例提供的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法流程图。
图2是本发明实施例提供的被控车辆目标跟随及避障示意图。
图3是本发明实施例提供的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法实现流程图。
图4是本发明实施例提供的DDPG训练流程框图。
图5是本发明实施例提供的DDPG中神经网络预测模型训练流程框图。
图6是本发明实施例提供的DDPG中交互环境示意图。
图7是本发明实施例提供的单步奖励函数中动作代价及目标奖励示意图。
图8是本发明实施例提供的DDPG训练过程前1000回合的训练情况示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种速差滑移转向车辆的目标跟随及动态障碍物避障控制方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法包括以下步骤:
S101:利用强化学习中的深度确定性策略建立四个神经网络;
S102:通过actor-critic策略确定连续动作输出,构建障碍物的代价范围从而确定动作的单步奖励函数,并利用梯度传递不断更新网络参数;
S103:训练出根据当前状态进行跟随和避障的网络模型。
本发明提供的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法还包括训练部分和最终效果:
训练部分包括以下几个步骤:
步骤一,设置初始参数,最低训练回合数T,每个回合最大训练步数S,数据集存放容量C,每次训练所取得数据样本数量N,输入状态的维度state_dim,输出动作的维度action_dim,Actor网络学习率lrA,Critic网络学习率lrC,折扣因子γ,作用在速度上的OU噪声noise(v)和作用在角速度上的OU噪声noise(ω)。
步骤二,每个回合开始时,都要初始化环境,包括被控制车辆位置姿态信息,目标车辆位置姿态信息和障碍物位置姿态信息,定义为此回合的初始状态。其中,目标车辆和障碍物的位置姿态信息由之前训练好的神经网络预测模型提供。
步骤三,加入OU(Ornstein-Uhlenbeck)过程,用平衡神经网络的探索和利用之间的关系。根据车辆行驶过程中纵向加速度和转向角度的特性,调整OU随机过程中的θ、μ和σ。将OU过程作用在神经网络输出的动作上,经过f_clip()函数后将最终动作值noise(v)和noise(ω)传递到训练环境中去。
步骤四,训练环境接收上一步的环境状态,然后随机生成目标车辆和障碍物信息的纵向加速度和角速度并传给神经网络预测模型,神经网络预测模型生成目标车辆和障碍物的位置和姿态信息。同时,训练环境接受步骤三传的动作v和ω,作用在执行体上dt时间,使车辆达到一个新的环境状态。
步骤五,由上述步骤一中环境状态和采取的动作,确定奖励函数。网络模型每步的奖励函数有三部分构成:第一部分,提出代价思想,针对障碍物信息,当被控车辆行驶在障碍物的特定范围内,就对车辆的动作增加一个附加的代价值,被控车辆距离障碍物越近,付出的代价就越大,奖励就越低,车辆趋于原理障碍物。针对训练时的步数,每行驶一步都有一个附加的代价值,即车辆如果太偏离目标车辆,不尽快满足跟随条件结束循环的话,代价值就会增大;第二部分,针对相距目标车辆距离的奖励。若规定跟随距离为r,则当距离大于r时,若距离有减小的趋势则增大奖励值,若有增大的趋势则减小奖励值,当距离小于r时,奖励值反向变化,即距离维持在r时有最高的奖励值。将此次步骤一中环境,采取的动作,得到的奖励值和下一步环境信息放入数据集记忆库内。第三部分,回合内被控车辆每运行一步,则累加一个单步固定代价。
步骤六,神经网络从数据集记忆库中随机抽取一部分数据进行训练。每步训练开始时首先进行判断,若数据记忆库内存放的数据集数量不足C,则不进行训练,若记忆库内数据集存放数量高于C,则网络开始进行训练。
步骤七,Actor策略网络和Critic Q网络根据步骤六中的数据改变网络参数。两个网络各自创建两个神经网络拷贝,一个为在线online网络,一个为目标target网络。训练完一个批次的数据后,online网络参数更新,然后缓慢更新target网络。
步骤八,若训练次数达到单回合最大训练步数或者满足规定的跟随和避障要求时,此回合结束,跳出此回合循环,执行步骤九,否则继续从步骤三开始执行。
步骤九,若完成目标的回合数达到要求且总训练回合数满足T,则训练完成,保存参数,得到优化后的训练模型。否则,继续从步骤二开始执行。
应用部分包括以下几个步骤:
步骤一,读取训练完毕的神经网络参数,初始化环境。
步骤二,将实际中的目标车辆和障碍物对应到训练部分模拟生成的目标和障碍物上,生成环境状态。
步骤三,Actor网络根据环境状态,输出控制车辆运动的动作,并作用在车辆上执行动作。
步骤四,若无退出命令,则继续获取dt后的环境状态,回到步骤三继续执行,否则整个系统结束。
下面结合附图对本发明的技术方案作进一步的描述。
如图2和图3所示,本发明实施例提供的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法具体包括以下步骤:
第一步,系统获取自身的位置姿态,同时获取目标车辆及障碍物信息的位置姿态,将状态整合发送至训练好的基于DDPG的改进算法中。
第二步,基于DDPG的神经网络接受状态信息,生成控制车辆运动的速度和角速度。
第三步,被控车辆执行第二步中生成的动作,进行目标跟踪和避障,并到达下一步状态。
第四步,若无退出命令,则系统从第一步开始循环往下执行;若有退出命令,则系统结束运行。
在本发明优选实施例中,第一步的训练基于DDPG的改进算法如图4所示,每个回合开始时,都要初始化环境,包括被控制车辆位置姿态信息,目标车辆位置姿态信息和障碍物位置姿态信息。回合内每步训练开始前,根据车辆当前位姿以及目标车辆和障碍物的位姿信息,定义此回合的状态si。其中,目标车辆和障碍物的位置姿态信息由训练好的神经网络预测模型提供;具体包括以下步骤:
步骤一,将si输入DDPG的策略网络,生成初始动作ai
步骤二,根据车辆运动学特性,给初始动作ai增加OU噪声,行程叠加之后的最终动作ai;实现平衡强化学习中探索和利用的关系。
步骤三,将步骤二中的最终动作ai输入DDPG的交互环境中,得到dt后的下一步状态si+1
步骤四,将交互环境中的(si,ai,si+1)信息输入到交互环境中的奖励函数中,得到(si,ai,ri,si+1),存储到数据集记忆库中。
步骤五,对数据集记忆库中数据的数量进行判断,若数据集数量小于数据集存放容量C=60000,则跳至步骤一开始继续往下执行,存放更多的数据信息。若满足数据集存放容量,则从中随机采样,抽取N=1000个数据进行训练。
步骤六,计算在线评价网络的梯度,更新在线评价网络参数,包括:
(1)定义在线评价网络的loss函数:
Figure BDA0002273303430000161
其中,Q(si,aiQ)为在线评价网络在状态si下执行动作ai得到的在线评价值,yi可以看作标签:
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′);
其中,利用DQN的思想,Q′(si+1,μ′(si+1μ′)|θQ′)为目标评价网络在状态si+1下执行动作μ′(si+1μ′)得到的目标评价值。其中,μ′(si+1μ′)是目标动作网络在状态si+1下输出的目标动作。
(2)计算loss函数针对在线评价网络参数θQ的梯度
Figure BDA0002273303430000162
并采用Adamoptimizer更新在线评价网络参数θQ
步骤七,计算在线策略网络的梯度,更新在线策略网络参数。策略网络的策略梯度,即在线策略网络的目标函数针对在线评价网络参数的梯度:
Figure BDA0002273303430000163
由在线评价网络参数的梯度采用Adam optimizer更新在线策略网络参数θμ。在DDPG算法中,在线网络和目标网络的结构相同,采用running average的方法,将在线网络的参数缓慢传递给目标网络参数,目的是切断相关性,使得神经网络更新更具有效率:
Figure BDA0002273303430000171
至此为DDPG算法在一次训练中的步骤流程。如此时达到回合内的最大训练步数或者是此回合内完成目标,则退出本回合训练,开始下一回合,否则跳至步骤一,然后继续往下执行。若达到最大回合数,则结束训练,保存神经网络参数,否则进行环境充值并初始化,然后从步骤一开始执行。
在本发明优选实施例中,第一步基于DDPG的改进算法的训练算法中的神经网络预测模型训练流程图如图5所示,包括以下步骤:
步骤一,建立神经网络框架,构建一个含有两层隐藏层的神经网络,输入为纵向速度和角速度,输出为世界坐标系下的位置姿态,即XY坐标值和横摆角。具体包括:
(1)建立输入层网络,输入层输入控制车辆运动的动作:
action=(a,w);
车辆模型接收的直接动作为纵向速度和角速度。故由生成的动作action知:
v=v0+a·dt;
ω=ω;
将动作值action=(v,w)限制在action_max和action_min之间:
v=fv_clip(v,vmin,vmax);
ω=fω_clip(ω,ωminmax);
action=(v,ω);
其中:
Figure BDA0002273303430000181
故车辆模型接收的动作为action=(v,w)。
(2)建立隐藏层:两个隐藏层的神经元个数n1=1000和n2=1000,训练总次数为T=1000,单次训练最大步数为N=1000,学习率为lrC=0.01,更新周期时间长度dt=0.05,输入是控制车辆运动的动作action=(v,w)。
(3)建立输出层,输出预测值:建立输出层网络。输出值是经过dt时间后车辆在大地坐标系下的预测的绝对位置信息,包括坐标和横摆角:
statepredict=(Xpredict,Ypredictpredict)。
步骤二,车辆在环境中执行步骤一接收的动作,并达到下一步状态。获取下一步状态在环境中的绝对位姿信息作为标签,和步骤一中预测的位姿信息作对比,得到损失函数并判断差值是否在定义的范围内,通过最小化损失函数更新网络:
训练的标签为同一时刻得到的真实坐标和横摆角:
statetrue=(Xtrue,Ytruetrue);
损失函数:
Figure BDA0002273303430000182
步骤三,更新神经网络参数,若满足预想要求同时达到最小训练次数1000,则结束训练,保存神经网络参数,否则重复步骤一-步骤二。
在本发明优选实施例中,第一步基于DDPG的改进算法的训练算法中的交互环境如图6所示:交互环境为被控车辆信息、目标信息和障碍物信息的综合考虑,相互之间互相影响,分别包括:
被控车辆信息:
(Xrobot,Yrobotrobot);
目标信息:
(Xtarget,Ytargettarget,atarget,vtargettarget);
障碍物信息:
(Xbarrier,Ybarrierbarrier,abarrier,vbarrierbarrier);
步骤一,在当前环境状态si下,被控车辆执行动作ai,目标和障碍物执行各自的动作(vtargettarget),(vbarrierbarrier)。
步骤二,交互环境根据步骤一中执行的动作,到达状态si+1
步骤三,交互环境根据步骤一和步骤二中的(si,ai,si+1)定义单步奖励函数ri如下,由目标信息影响的奖励函数rtarget和障碍物信息影响的代价函数rbarrier以及每和环境交互一次都会产生的固定代价值rstep叠加而成:
rtarget=ftarget(si,ai,si+1);
rstep=constant;
rbarrier=fbarrier(si,ai,si+1);
ri=rtarget+rstep+rbarrier
其中,rtarget=ftarget(si,ai,si+1)为相距目标车辆距离针对当前动作的奖励。若规定跟随距离为r,则当距离大于r时,若距离有减小的趋势则增大奖励值,若距离有增大的趋势则减小奖励值;当距离小于r时,奖励值反向变化,即距离维持在r时有最高的奖励值。rstep=constant为每和环境交互运行一次都会产生的固定附加代价值,即车辆如果为了躲避障碍物过分偏离目标车辆,则最后达到目标所运行的次数就会增大,代价值就会增大。rbarrier=fbarrier(si,ai,si+1)为相对障碍物距离针对当前动作的代价。当被控车辆行驶在障碍物的特定范围内,就对车辆的动作增加一个附加的代价值,被控车辆距离障碍物越近,此步的动作付出的代价就越大,奖励就越低,车辆趋于远离障碍物。如图7所示,对于目标车辆,在距离目标车辆r范围时有最大的奖励值。对于障碍物,距离障碍物越近,得到的动作代价值越大。
步骤四,整合信息(si,ai,ri,si+1),存入DDPG中的数据记忆库中。
在本发明优选实施例中,第二步中的DDPG神经网络结构参数如表1所示,神经网络训练总次数为T=2000,单次训练最大步数为step_max=1000,Actor网络学习率为lrA=0.0001,Critic网络学习率lrC=0.001,折扣因子γ=0.9;更新周期时间长度dt=0.05,数据集存放容量C=60000,每次训练所取得数据样本数量N=1000,输入状态的维度state_dim=13,输出动作的维度action_dim=2,soft update更新参数τ=0.001。
表1 DDPG神经网络结构参数
Figure BDA0002273303430000201
在本发明优选实施例中,训练算法框图中的OU随机过程参数定义:为了避免网络模型陷入局部最优,同时平衡利用和探索之前的关系,加入OU随机过程,并根据车辆的运动特性,改变了OU随机过程的参数。车辆在运动过程中,神经网络输出的动作为纵向速度和角速度。加载在纵向速度上的噪声均值为正,趋于平均值的速度较大,波动较小,即希望速度更加平稳且多为正;加载在角速度上的噪声均值为零,趋于平均值的速度较小,波动较大,即希望角速度方向改变更加频繁,探索更多方向,定义具体参数数值如
表2所示。
表2 OU随机过程动作参数
动作 θ μ σ
纵向速度 0.6 0.0 0.6
转向速度 1.0 0.6 0.2
下面结合实验对本发明的技术效果作详细的描述。
图8为DDPG训练过程前1000回合的训练情况。每回合内的训练步数。由于程序中设定的每回合最大步数为3000步,由图8可知刚开始的时候,训练回合数较小,被控车辆主要接收随机动作值,故在3000内没能到达目标位置,回合重置。随着训练回合数的增加,被控车辆慢慢能够在较短的回合数内完成目标,故呈现下降趋势。每回合内总的奖励值。由图8可知刚开始的时候,训练回合数较小,被控车辆主要接收随机动作值,随意奖励值较小。随着训练回合数的增加,被控车辆慢慢能够在较短的回合数内完成目标,相应的累计奖励值会增加,故呈现上升趋势。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种速差滑移转向车辆的目标跟随及动态障碍物避障控制方法,其特征在于,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法利用强化学习中的深度确定性策略建立四个神经网络;通过actor-critic策略确定连续动作输出,构建障碍物的代价范围从而确定动作的单步奖励函数,并利用梯度传递不断更新网络参数;训练出根据当前状态进行跟随和避障的网络模型;
所述训练出能够根据当前状态进行跟随和避障的网络模型包括:
步骤一,设置初始参数,最低训练回合数T,每个回合最大训练步数S,数据集存放容量C,每次训练所取得数据样本数量N,输入状态的维度state_dim,输出动作的维度action_dim,Actor网络学习率lrA,Critic网络学习率lrC,折扣因子γ,作用在速度上的OU噪声noise(v)和作用在角速度上的OU噪声noise(ω);
步骤二,每个回合开始时,初始化环境,包括被控制车辆位置姿态信息,目标车辆位置姿态信息和障碍物位置姿态信息,定义为此回合的初始状态;其中,目标车辆和障碍物的位置姿态信息由之前训练好的神经网络预测模型提供;
步骤三,加入OU过程,用来平衡神经网络的探索和利用之间的关系,根据车辆行驶过程中纵向加速度和转向角度的特性,调整OU随机过程中的θ、μ和σ;将OU过程作用在神经网络输出的动作上,经过f_clip()函数后将最终动作值noise(v)和noise(ω)传递到训练环境中去;
步骤四,训练环境接收环境状态,随机生成目标车辆和障碍物信息的纵向加速度和角速度并传给神经网络预测模型,神经网络预测模型生成目标车辆和障碍物的位置和姿态信息;同时,训练环境接收步骤三传的动作v和ω,作用在执行体上dt时间,使车辆达到一个新的环境状态;
步骤五,由步骤一中环境状态和采取的动作,确定奖励函数;
步骤六,神经网络从数据集记忆库中随机抽取一部分数据进行训练,每步训练开始时首先进行判断,若数据记忆库内存放的数据集数量不足C,则不进行训练,若记忆库内数据集存放数量高于C,则网络开始进行训练;
步骤七,Actor策略网络和Critic Q网络根据步骤六中的数据改变网络参数,两个网络各自创建两个神经网络拷贝,一个为在线online网络,一个为目标target网络;训练完一个批次的数据后,online网络参数更新,然后缓慢更新target网络;
步骤八,若训练次数达到单回合最大训练步数或者满足规定的跟随和避障要求时,此回合结束,跳出此回合循环,执行步骤九;否则继续从步骤三开始执行;
步骤九,若完成目标的回合数达到要求且总训练回合数满足T,则训练完成,保存参数,得到优化后的训练模型;否则,继续从步骤二开始执行。
2.如权利要求1所述的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法,其特征在于,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法模拟真实车辆和障碍物的运动状态的神经网络预测模型的建立包括以下步骤:
步骤一,建立神经网络框架,构建一个含有两层隐藏层的神经网络并初始化参数,输入层接收上一步的状态及将要执行的动作,输出层输出预测的dt时间后车辆在世界坐标系下的位置姿态和速度信息:XY坐标值、横摆角及下一时刻的速度;
步骤二,车辆在环境中执行步骤一接收的动作,并达到下一步状态;获取下一步状态在环境中的绝对位姿信息作为标签,和步骤一中预测的位姿信息作对比,判断差值是否在定义的范围内;将差异反向传递到神经网络中,训练模型参数;
步骤三,更新神经网络参数,若满足预想要求同时达到最小训练次数,则结束训练,保存神经网络参数,否则重复步骤一至步骤二。
3.如权利要求1所述的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法,其特征在于,所述网络模型每步的奖励函数有三部分构成:
第一部分,提出代价思想,针对障碍物信息,当被控车辆行驶在障碍物的特定范围内,对车辆的动作增加一个附加的代价值,被控车辆距离障碍物越近,每步付出的代价就越大,奖励就越低,车辆趋于远离障碍物;针对训练时的步数,每行驶一步都有一个附加的固定代价值,即车辆如果太偏离目标车辆,不尽快满足跟随条件结束循环的话,代价值就会增大;
第二部分,针对相距目标车辆距离的奖励,若规定跟随距离为r,则当距离大于r时,若距离有减小的趋势则增大奖励值,若有增大的趋势则减小奖励值,当距离小于r时,奖励值反向变化,即距离维持在r时有最高的奖励值;将此次状态,采取的动作,得到的奖励值和下一步状态信息放入数据集记忆库内。
4.如权利要求1所述的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法,其特征在于,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的应用部分包括:
步骤一,读取训练完毕的神经网络参数,初始化环境;
步骤二,将实际中的目标车辆和障碍物对应到训练部分模拟生成的目标和障碍物上,生成环境状态;
步骤三,Actor网络根据环境状态,输出控制车辆运动的动作,并作用在车辆上执行动作;
步骤四,若无退出命令,则继续获取dt后的环境状态,回到步骤三继续执行,否则整个系统结束。
5.如权利要求1所述的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法,其特征在于,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法具体包括以下步骤:
步骤一,系统获取自身的位置姿态,同时获取目标车辆及障碍物信息的位置姿态,将状态整合发送至训练好的基于DDPG的改进算法中;
步骤二,基于DDPG的神经网络接受状态信息,生成控制车辆运动的速度和角速度;
步骤三,被控车辆执行步骤二中生成的动作,进行目标跟踪和避障,并到达下一步状态;
步骤四,若无退出命令,则系统从步骤一开始循环往下执行;若有退出命令,则系统结束运行。
6.如权利要求5所述的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法,其特征在于,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的DDPG的训练算法包括以下步骤:
步骤一,将回合的状态si输入DDPG的策略网络,生成初始动作ai
步骤二,根据车辆运动学特性,给初始动作ai增加OU噪声,行程叠加之后的最终动作ai
步骤三,将步骤二中的最终动作ai输入DDPG的交互环境中,得到dt后的下一步状态si+1
步骤四,将交互环境中的(si,ai,si+1)信息输入到交互环境中的奖励函数中,得到(si,ai,ri,si+1),存储到数据集记忆库中;
步骤五,对数据集记忆库中数据的数量进行判断,若数据集数量小于数据集存放容量C=60000,则跳至步骤一开始继续往下执行;若满足数据集存放容量,则从中随机采样,抽取N=1000个数据进行训练;
步骤六,计算在线评价网络的梯度,更新在线评价网络参数,包括:
(1)定义在线评价网络的loss函数:
Figure FDA0002273303420000041
其中,Q(si,aiQ)为在线评价网络在状态si下执行动作ai得到的在线评价值,yi看作标签:
yi=ri+γQ′(si+1,μ′(si+1μ′)|θQ′);
其中,利用DQN的思想,Q′(si+1,μ′(si+1μ′)|θQ′)为目标评价网络在状态si+1下执行动作μ′(si+1μ′)得到的目标评价值;其中,μ′(si+1μ′)是目标动作网络在状态si+1下输出的目标动作;
(2)计算loss函数针对在线评价网络参数θQ的梯度
Figure FDA0002273303420000051
并采用Adam optimizer更新在线评价网络参数θQ
步骤七,计算在线策略网络的梯度,更新在线策略网络参数,在线策略网络的目标函数针对在线评价网络参数的梯度:
Figure FDA0002273303420000052
由此梯度,采用Adam optimizer更新在线策略网络参数θμ
7.如权利要求5所述的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法,其特征在于,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的训练算法中的神经网络预测模型训练包括以下步骤:
步骤一,建立神经网络框架,构建一个含有两层隐藏层的神经网络,输入为纵向速度和角速度,输出为世界坐标系下的位置姿态,XY坐标值和横摆角,具体包括:
(1)建立输入层:
建立输入层网络,输入层输入控制车辆运动的动作:
action=(a,w);
车辆模型接收的直接动作为纵向速度和角速度,由生成的动作action知:
v=v0+a·dt;
ω=ω;
将动作值action=(v,w)限制在action_max和action_min之间:
v=fv_clip(v,vmin,vmax);
ω=fω_clip(ω,ωminmax);
action=(v,ω);
其中:
Figure FDA0002273303420000061
故车辆模型接收的动作为action=(v,w);
(2)建立隐藏层:
两个隐藏层的神经元个数n1=1000和n2=1000,训练总次数为T=1000,单次训练最大步数为N=1000,学习率为lrC=0.01,更新周期时间长度dt=0.05,输入是控制车辆运动的动作action=(v,w);
(3)建立输出层,输出预测值:
建立输出层网络,输出值是经过dt时间后车辆在大地坐标系下的预测的绝对位置信息,包括坐标和横摆角:
statepredict=(Xpredict,Ypredictpredict);
步骤二,车辆在环境中执行步骤一接收的动作,并达到下一步状态;获取下一步状态在环境中的绝对位姿信息作为标签,和步骤一中预测的位姿信息作对比,得到损失函数并判断差值是否在定义的范围内,通过最小化损失函数更新网络:
训练的标签为同一时刻得到的真实坐标和横摆角:
statetrue=(Xtrue,Ytruetrue);
损失函数:
Figure FDA0002273303420000071
步骤三,更新神经网络参数,若满足预想要求同时达到最小训练次数1000,则结束训练,保存神经网络参数,否则重复步骤一-步骤二。
8.如权利要求6所述的速差滑移转向车辆的目标跟随及动态障碍物避障控制方法,其特征在于,所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的训练算法的交互环境为被控车辆信息、目标信息和障碍物信息;
被控车辆信息:
(Xrobot,Yrobotrobot);
目标信息:
(Xtarget,Ytargettarget,atarget,vtargettarget);
障碍物信息:
(Xbarrier,Ybarrierbarrier,abarrier,vbarrierbarrier);
步骤一,在当前环境状态si下,被控车辆执行动作ai,目标和障碍物执行各自的动作(vtargettarget),(vbarrierbarrier);
步骤二,交互环境根据步骤一中执行的动作,到达状态si+1
步骤三,交互环境根据步骤一和步骤二中的(si,ai,si+1)定义单步奖励函数ri如下,由目标信息影响的奖励函数rtarget和障碍物信息影响的代价函数rbarrier以及每和环境交互一次都会产生的固定代价值rstep叠加而成:
rtarget=ftarget(si,ai,si+1);
rstep=constant;
rbarrier=fbarrier(si,ai,si+1);
ri=rtarget+rstep+rbarrier
其中,rtarget=ftarget(si,ai,si+1)为相距目标车辆距离针对当前动作的奖励;若规定跟随距离为r,则当距离大于r时,若距离有减小的趋势则增大奖励值,若距离有增大的趋势则减小奖励值;当距离小于r时,奖励值反向变化,即距离维持在r时有最高的奖励值;rstep=constant为每和环境交互运行一次都会产生的固定附加代价值;rbarrier=fbarrier(si,ai,si+1)为相对障碍物距离针对当前动作的代价;
步骤四,整合信息(si,ai,ri,si+1),存入DDPG中的数据记忆库中。
9.一种应用权利要求1~8任意一项所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的载体底盘,其特征在于,所述载体底盘搭载摄像头、激光雷达、组合导航、车载计算机。
10.一种应用权利要求1~8任意一项所述速差滑移转向车辆的目标跟随及动态障碍物避障控制方法的智能控制系统。
CN201911113082.XA 2019-11-14 2019-11-14 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法 Expired - Fee Related CN110989576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911113082.XA CN110989576B (zh) 2019-11-14 2019-11-14 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911113082.XA CN110989576B (zh) 2019-11-14 2019-11-14 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法

Publications (2)

Publication Number Publication Date
CN110989576A true CN110989576A (zh) 2020-04-10
CN110989576B CN110989576B (zh) 2022-07-12

Family

ID=70084344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911113082.XA Expired - Fee Related CN110989576B (zh) 2019-11-14 2019-11-14 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法

Country Status (1)

Country Link
CN (1) CN110989576B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111487992A (zh) * 2020-04-22 2020-08-04 北京航空航天大学 基于深度强化学习的无人机感知与避障一体化方法及设备
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111708378A (zh) * 2020-06-22 2020-09-25 哈尔滨工程大学 一种基于强化学习的导弹纵向姿态控制算法
CN111880549A (zh) * 2020-09-14 2020-11-03 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法
CN112257345A (zh) * 2020-10-28 2021-01-22 中国人民解放军战略支援部队航天工程大学 一种作战仿真模型的构建方法及装置
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112346457A (zh) * 2020-11-03 2021-02-09 智邮开源通信研究院(北京)有限公司 用于避障的控制方法、装置、电子设备及可读存储介质
CN112506043A (zh) * 2020-11-11 2021-03-16 中车青岛四方机车车辆股份有限公司 轨道车辆及垂向减振器的控制方法和控制系统
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112698572A (zh) * 2020-12-22 2021-04-23 西安交通大学 一种基于强化学习的结构振动控制方法、介质及设备
CN112977606A (zh) * 2021-04-01 2021-06-18 清华大学 基于ddpg的线控转向系统转向补偿控制方法及装置
CN113022555A (zh) * 2021-03-01 2021-06-25 重庆兰德适普信息科技有限公司 一种速差滑移转向车辆的目标跟随控制方法和装置
CN113079167A (zh) * 2021-04-12 2021-07-06 西北工业大学 一种基于深度强化学习的车联网入侵检测方法及系统
CN113296540A (zh) * 2021-05-20 2021-08-24 北京航空航天大学 一种适用于室内无人机的混合智能跟随与避障方法
WO2021164276A1 (zh) * 2020-07-31 2021-08-26 平安科技(深圳)有限公司 目标跟踪方法、装置、计算机设备及存储介质
CN113335277A (zh) * 2021-04-27 2021-09-03 北京工业大学 智能巡航控制方法、装置、电子设备和存储介质
CN113650608A (zh) * 2021-09-14 2021-11-16 广州小鹏自动驾驶科技有限公司 一种基于自动驾驶的避障方法和装置
CN113805572A (zh) * 2020-05-29 2021-12-17 华为技术有限公司 运动规划的方法与装置
CN115464659A (zh) * 2022-10-05 2022-12-13 哈尔滨理工大学 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
CN115542733A (zh) * 2022-09-23 2022-12-30 福州大学 基于深度强化学习的自适应动态窗口法
CN117062280A (zh) * 2023-08-17 2023-11-14 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统
CN117725764A (zh) * 2024-02-07 2024-03-19 中汽研汽车检验中心(天津)有限公司 基于回归模型的车辆底盘多目标优化方法、设备和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
US20190101917A1 (en) * 2017-10-04 2019-04-04 Hengshuai Yao Method of selection of an action for an object using a neural network
CN109670270A (zh) * 2019-01-11 2019-04-23 山东师范大学 基于多智能体深度强化学习的人群疏散仿真方法及系统
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
WO2019127063A1 (en) * 2017-12-27 2019-07-04 Intel Corporation Reinforcement learning for human robot interaction
US20190217476A1 (en) * 2018-01-12 2019-07-18 Futurewei Technologies, Inc. Robot navigation and object tracking
CN110275531A (zh) * 2019-06-21 2019-09-24 北京三快在线科技有限公司 障碍物的轨迹预测方法、装置及无人驾驶设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145936A (zh) * 2017-04-22 2017-09-08 大连理工大学 一种基于强化学习的车辆跟驰模型建立方法
US20190101917A1 (en) * 2017-10-04 2019-04-04 Hengshuai Yao Method of selection of an action for an object using a neural network
WO2019127063A1 (en) * 2017-12-27 2019-07-04 Intel Corporation Reinforcement learning for human robot interaction
US20190217476A1 (en) * 2018-01-12 2019-07-18 Futurewei Technologies, Inc. Robot navigation and object tracking
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN109407676A (zh) * 2018-12-20 2019-03-01 哈尔滨工业大学 基于DoubleDQN网络和深度强化学习的移动机器人避障方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN109670270A (zh) * 2019-01-11 2019-04-23 山东师范大学 基于多智能体深度强化学习的人群疏散仿真方法及系统
CN110275531A (zh) * 2019-06-21 2019-09-24 北京三快在线科技有限公司 障碍物的轨迹预测方法、装置及无人驾驶设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
曾杰: "家居机器人的路径规划研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
王文飒 等: "基于深度强化学习的协同式自适应巡航控制", 《交通信息与安全》 *
赵舟等: "多种会遇状态下基于强化学习的船舶自动避碰路径仿真", 《科学技术与工程》 *
韩向敏 等: "一种基于深度强化学习的自适应巡航控制算法", 《计算机工程》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111487992A (zh) * 2020-04-22 2020-08-04 北京航空航天大学 基于深度强化学习的无人机感知与避障一体化方法及设备
CN113805572A (zh) * 2020-05-29 2021-12-17 华为技术有限公司 运动规划的方法与装置
CN113805572B (zh) * 2020-05-29 2023-12-15 华为技术有限公司 运动规划的方法与装置
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111667513B (zh) * 2020-06-01 2022-02-18 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111708378A (zh) * 2020-06-22 2020-09-25 哈尔滨工程大学 一种基于强化学习的导弹纵向姿态控制算法
CN111708378B (zh) * 2020-06-22 2023-01-03 哈尔滨工程大学 一种基于强化学习的导弹纵向姿态控制算法
WO2021164276A1 (zh) * 2020-07-31 2021-08-26 平安科技(深圳)有限公司 目标跟踪方法、装置、计算机设备及存储介质
CN111880549B (zh) * 2020-09-14 2024-06-04 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法
CN111880549A (zh) * 2020-09-14 2020-11-03 大连海事大学 面向无人船路径规划的深度强化学习奖励函数优化方法
CN112257345A (zh) * 2020-10-28 2021-01-22 中国人民解放军战略支援部队航天工程大学 一种作战仿真模型的构建方法及装置
CN112289044B (zh) * 2020-11-02 2021-09-07 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112346457A (zh) * 2020-11-03 2021-02-09 智邮开源通信研究院(北京)有限公司 用于避障的控制方法、装置、电子设备及可读存储介质
CN112506043A (zh) * 2020-11-11 2021-03-16 中车青岛四方机车车辆股份有限公司 轨道车辆及垂向减振器的控制方法和控制系统
CN112668235A (zh) * 2020-12-07 2021-04-16 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112668235B (zh) * 2020-12-07 2022-12-09 中原工学院 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN112698572A (zh) * 2020-12-22 2021-04-23 西安交通大学 一种基于强化学习的结构振动控制方法、介质及设备
CN113022555A (zh) * 2021-03-01 2021-06-25 重庆兰德适普信息科技有限公司 一种速差滑移转向车辆的目标跟随控制方法和装置
CN113022555B (zh) * 2021-03-01 2023-01-20 重庆兰德适普信息科技有限公司 一种速差滑移转向车辆的目标跟随控制方法和装置
CN112977606A (zh) * 2021-04-01 2021-06-18 清华大学 基于ddpg的线控转向系统转向补偿控制方法及装置
CN113079167A (zh) * 2021-04-12 2021-07-06 西北工业大学 一种基于深度强化学习的车联网入侵检测方法及系统
CN113079167B (zh) * 2021-04-12 2022-02-22 西北工业大学 一种基于深度强化学习的车联网入侵检测方法及系统
CN113335277A (zh) * 2021-04-27 2021-09-03 北京工业大学 智能巡航控制方法、装置、电子设备和存储介质
CN113296540A (zh) * 2021-05-20 2021-08-24 北京航空航天大学 一种适用于室内无人机的混合智能跟随与避障方法
CN113296540B (zh) * 2021-05-20 2022-07-12 北京航空航天大学 一种适用于室内无人机的混合智能跟随与避障方法
CN113650608A (zh) * 2021-09-14 2021-11-16 广州小鹏自动驾驶科技有限公司 一种基于自动驾驶的避障方法和装置
CN115542733A (zh) * 2022-09-23 2022-12-30 福州大学 基于深度强化学习的自适应动态窗口法
CN115464659B (zh) * 2022-10-05 2023-10-24 哈尔滨理工大学 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
CN115464659A (zh) * 2022-10-05 2022-12-13 哈尔滨理工大学 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
CN117062280A (zh) * 2023-08-17 2023-11-14 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统
CN117062280B (zh) * 2023-08-17 2024-03-08 北京美中爱瑞肿瘤医院有限责任公司 一种神经外科自助式手术灯自动跟随系统
CN117725764A (zh) * 2024-02-07 2024-03-19 中汽研汽车检验中心(天津)有限公司 基于回归模型的车辆底盘多目标优化方法、设备和介质
CN117725764B (zh) * 2024-02-07 2024-05-03 中汽研汽车检验中心(天津)有限公司 基于回归模型的车辆底盘多目标优化方法、设备和介质

Also Published As

Publication number Publication date
CN110989576B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN110989576B (zh) 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN111413966B (zh) 一种递进式模型预测无人驾驶规划跟踪协同控制方法
CN110136481B (zh) 一种基于深度强化学习的停车策略
Tai et al. Towards cognitive exploration through deep reinforcement learning for mobile robots
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
Chen et al. Stabilization approaches for reinforcement learning-based end-to-end autonomous driving
CN111338346A (zh) 一种自动驾驶控制方法、装置、车辆及存储介质
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
Singh et al. Intelligent neuro-controller for navigation of mobile robot
Fang et al. Autonomous underwater vehicle formation control and obstacle avoidance using multi-agent generative adversarial imitation learning
CN113848974A (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN112183288A (zh) 一种基于模型的多智能体强化学习方法
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
Hou et al. Autonomous driving at the handling limit using residual reinforcement learning
Hu et al. Learning dynamic graph for overtaking strategy in autonomous driving
CN113485323B (zh) 一种级联多移动机器人灵活编队方法
Yan et al. Immune deep reinforcement learning-based path planning for mobile robot in unknown environment
Pérez-Dattari et al. Visually-guided motion planning for autonomous driving from interactive demonstrations
Sun et al. Event-triggered reconfigurable reinforcement learning motion-planning approach for mobile robot in unknown dynamic environments
Yeom Deep reinforcement learning based autonomous driving with collision free for mobile robots
Evans et al. Learning the subsystem of local planning for autonomous racing
CN111829528B (zh) 仿生滑翔机器海豚的实时路径规划方法及系统
Sebastian et al. Neural network based heterogeneous sensor fusion for robot motion planning
CN113959446B (zh) 一种基于神经网络的机器人自主物流运输导航方法
Li et al. Research on the agricultural machinery path tracking method based on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220712