CN110221611A - 一种轨迹跟踪控制方法、装置及无人驾驶车辆 - Google Patents
一种轨迹跟踪控制方法、装置及无人驾驶车辆 Download PDFInfo
- Publication number
- CN110221611A CN110221611A CN201910502179.3A CN201910502179A CN110221611A CN 110221611 A CN110221611 A CN 110221611A CN 201910502179 A CN201910502179 A CN 201910502179A CN 110221611 A CN110221611 A CN 110221611A
- Authority
- CN
- China
- Prior art keywords
- control amount
- sample
- driving vehicle
- automatic driving
- term memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013528 artificial neural network Methods 0.000 claims abstract description 67
- 230000007787 long-term memory Effects 0.000 claims abstract description 64
- 238000011156 evaluation Methods 0.000 claims abstract description 41
- 230000002349 favourable effect Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 47
- 238000004590 computer program Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 230000006403 short-term memory Effects 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 5
- 230000001052 transient effect Effects 0.000 claims description 4
- 239000000853 adhesive Substances 0.000 claims description 3
- 230000001070 adhesive effect Effects 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims description 3
- 230000009471 action Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Feedback Control In General (AREA)
Abstract
本申请公开了一种轨迹跟踪控制方法、装置及无人驾驶车辆,轨迹跟踪控制方法包括:获取所述无人驾驶车辆的第一状态信息;所述第一状态信息包括指示第一时刻所述无人驾驶车辆与期望轨迹的位置偏差量;将所述第一状态信息输入至长短期记忆神经网络,获得所述长短期记忆神经网络输出的第一控制量;依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量,当评价结果为好评时,控制所述无人驾驶车辆根据所述第一控制量执行动作,实现轨迹跟踪。利用长短期记忆神经网络输出控制量并对长短期记忆神经网络输出的结果进行预测评价,防止出现危险动作情况,提高了轨迹跟踪控制的安全性、鲁棒性和稳定性。
Description
技术领域
本申请涉及无人驾驶技术领域,具体涉及一种轨迹跟踪控制方法、装置及无人驾驶车辆。
背景技术
无人驾驶车辆是通过车载传感系统感知道路环境,自动规划行车路线并根据感知的道路、车辆位置和障碍物信息,控制车辆的转向和速度,使车辆能够安全、可靠地在道路上行驶的智能系统。轨迹跟踪控制是车辆自动转向过程中的基本控制问题之一,它要求无人驾驶车辆在指定的时间到达给定的或规划的轨迹点。目前,轨迹跟踪控制算法主要有基于跟踪误差反馈控制以及基于车辆动力学模型控制。基于跟踪误差反馈控制主要是由跟踪误差乘以一个比例系数来得到控制量,控制量包括油门刹车和方向盘转角,代表算法有PID(比例-积分-微分控制器),LQR(Linear Quadratic Regulator,线性二次型调节器)等。而基于车辆动力学模型控制是选择一个动作,预测未来一段时间的跟踪误差,优化选择的动作,使得预测的跟踪误差最小。
这两种算法都有其缺点,比如,基于跟踪误差反馈控制参数难以调节,无法适应所有场景;基于车辆动力学模型控制的缺点是无法精确建模车辆动力学模型,导致控制效果有限;对不同场景的适应性不同,比如曲率较小的轨迹跟踪效果好,但是曲率较大时跟踪效果变差。
因此,有必要对轨迹跟踪控制进行改进。
发明内容
有鉴于此,本申请提供了一种轨迹跟踪控制方法、装置及无人驾驶车辆,无需进行车辆动力学建模,使无人驾驶车辆不断探索自我学习,适应各种新环境,并且使动作输出更加稳定,平顺。
根据本申请的一个方面,提供了一种轨迹跟踪控制方法,应用于无人驾驶车辆,包括:
获取所述无人驾驶车辆的第一状态信息;所述第一状态信息包括指示第一时刻所述无人驾驶车辆与期望轨迹的位置偏差量;
将所述第一状态信息输入至长短期记忆神经网络,获得所述长短期记忆神经网络输出的第一控制量;
依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量,当评价结果为好评时,控制所述无人驾驶车辆根据所述第一控制量执行动作,实现轨迹跟踪。
根据本申请的另一个方面,提供了一种轨迹跟踪控制装置,应用于无人驾驶车辆,包括:
状态获取模块,用于获取所述无人驾驶车辆内的期望轨迹的第一状态信息,所述第一状态信息包括指示第一时刻所述期望轨迹与所述无人驾驶车辆的位置偏差量;
控制量获取模块,用于将所述第一状态信息输入至长短期记忆神经网络,获得所述长短期记忆神经网络输出的第一控制量;
跟踪控制模块,用于依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量,当评价结果为好评时,控制所述无人驾驶车辆根据所述第一控制量执行动作,实现轨迹跟踪。
根据本申请的又一个方面,提供了一种无人驾驶车辆,包括处理器和存储器,所述存储器中存储有可执行代码;
所述处理器,执行所述可执行代码时实现本申请一个方面所述的方法。
根据本申请的再一个方面,提供了一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请一个方面所述的方法。
有益效果:应用本申请实施例的轨迹跟踪控制方法,获取无人驾驶车辆的第一状态信息,将第一状态信息输入至长短期记忆神经网络,获得长短期记忆神经网络输出的第一控制量;依据预测的一段时间内的多个第一状态信息评价第一控制量,当评价结果为好评时,控制无人驾驶车辆动作实现轨迹跟踪。首先,由于使用与期望轨迹的跟踪误差(即第一状态信息)作为神经网络的输入,在仿真环境和真实环境下,跟踪误差都是一样的,因此在仿真环境中训练好的轨迹跟踪控制模型,更容易迁移到实际场景中。其次,对环境的适应性更好,通过长短期记忆神经网络将历史时刻的信息作为当前输入,使得输出更加平顺,舒适性提升,并且不需要建立车辆动力学模型。最后,对长短期记忆神经网络输出的结果进行预测评价,防止长短期记忆神经网络输出结果可能出现的稳态跟踪误差及危险动作情况,使得长短期记忆神经网络的输出动作更加鲁棒,稳定,提高了轨迹跟踪控制的安全性。本申请实施例的无人驾驶车辆使用本实施例的轨迹跟踪控制,从而行驶更安全、可靠。
附图说明
图1是本申请一个实施例的轨迹跟踪控制方法的流程图;
图2是本申请一个实施例的轨迹跟踪控制方法的整体架构示意图;
图3是本申请一个实施例的轨迹跟踪控制装置的框图;
图4是本申请一个实施例无人驾驶车辆的框图;
图5是本申请一个实施例非瞬时性计算机可读存储介质的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是本申请一个实施例的轨迹跟踪控制方法的流程图,参见图1,本实施例的轨迹跟踪控制方法包括下列步骤:
步骤S101,获取所述无人驾驶车辆的第一状态信息;所述第一状态信息包括指示第一时刻所述无人驾驶车辆与期望轨迹的位置偏差量;
步骤S102,将所述第一状态信息输入至长短期记忆神经网络,获得所述长短期记忆神经网络输出的第一控制量;
步骤S103,依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量,当评价结果为好评时,控制所述无人驾驶车辆根据所述第一控制量执行动作,实现轨迹跟踪。
由图1所示可知,本实施例的轨迹跟踪控制方法,通过获取第一时刻无人驾驶车辆与期望轨迹的位置偏差量,将位置偏差量输入到长短期记忆神经网络中,得到第一控制量,对第一控制量进行评价,当评价结果为好评时才控制无人驾驶车辆执行动作实现轨迹跟踪。由于仿真环境和真实环境下,跟踪误差相同,所以在仿真环境中训练好的模型更容易迁移到实际应用场景中。并且使用长短期记忆神经网路LSTM来泛化跟踪误差,使得本实施例的方法对环境的适应性更好,输出动作更加平顺,舒适性提升。最后,对LSTM输出结果进行评价,防止可能出现的稳态跟踪误差及危险动作情况,使得整个系统的输出动作更加鲁棒,稳定,提高了轨迹跟踪控制的安全性。
这里的控制量是一些用于驱动车辆跟踪期望轨迹的车辆控制信号,比如油门,刹车,方向盘转角中的一个或多个的组合。
图2是本申请一个实施例的轨迹跟踪控制方法的整体架构示意图,以下结合图2对本实施例的轨迹跟踪控制方法的整体架构和实现步骤进行说明。
如图2所示,本实施例的轨迹跟踪控制方法包含离线训练和在线计算两大步骤。其中,离线训练步骤又包括:A3C深度强化学习模型训练、LSTM模型的训练。在线计算步骤包括:LSTM计算以及MPC预测评价两部分。
需要说明的是,在一次轨迹跟踪控制过程中,离线训练不是必须的,可以在轨迹跟踪控制之前预先进行离线训练并保存训练结果。为便于理解,这里先对离线训练过程进行说明。
如图2所示,离线训练包括A3C深度强化学习模型训练、LSTM模型的训练。A3C是一种深度强化学习算法,强化学习是一种自学习的方法,该算法主要包括两个主体:智能体agent以及与agent交互的环境,具体到本实施例中智能体即无人驾驶车辆,环境即无人驾驶车辆要跟踪的轨迹x。强化学习的基本思想是使具备强化学习能力的智能体(Agent)逐渐的从自身的经验中学习到与环境之间最有效的交互方式,而不是事先告诉智能体如何与环境交互。具体的,当无人车在状态s(t)时,采取一个动作action a(t),然后会获得一个回报r(t),并跳到下一个状态s(t+1),智能体与环境不断的交互,反复进行以上过程,训练智能体以采取累计回报高的动作。
A3C深度强化学习算法的agent包含动作器actor和评价器critic,actor根据环境观测到的状态state,输出一个动作action,评价器对输出的动作进行好坏评估,如果动作被认为是好的,那么就调整动作器网络(Actor Network)使该动作出现的可能性增加。反之如果动作被认为是坏的,则使该动作出现的可能性减少。通过反复的训练,不断调整行动网络找到最优的动作。
图2所示的A3C深度强化学习模型训练包括与期望跟踪的轨迹进行交互,获取经验数据,进行actor-critic网络参数的更新不断增强学习能力。A3C模型训练完成之后,用其中的actor去跟踪轨迹,获得经验数据。接着用这些经验数据(s(t),a(t))作为长短期记忆神经网络(Long Short-Term Memory,简称LSTM)LSTM模型的训练数据,根据LSTM的损失函数即loss函数完成对LSTM的训练。至此,离线训练阶段完成。
本实施例中通过与期望轨迹的跟踪误差作为A3C深度强化学习模型的输入,A3C训练更快,更容易收敛到全局最优解,对于无人驾驶模块间的分工更加明确,可解释性更强。
继续参见图2,在线计算时,根据获得的第一状态信息,即跟踪误差s(t),由离线阶段训练完成的长短期记忆神经网络LSTM先输出一个控制量a(t),模型预测控制器(ModelPredictive Control,简称MPC)MPC利用模型预测功能预测评价LSTM输出动作(对轨迹跟踪控制而言,动作即控制量)的好坏,如果MPC评价该动作好,则直接输出当前控制量给车辆底层机构去执行,如果MPC评价该动作不好,则由MPC重新计算一个更优的动作a'(t)输出给车辆底层机构执行。如果采用MPC重新计算最优控制量a'(t),则设置s(t)采取a'(t)获得积极的回报r'(t),s(t)采取a(t)获得惩罚r(t),保存数据序列(s(t),a(t),r(t),s(t+1))及(s(t),a'(t),r'(t),s'(t+1)),供actor-critic网络再次训练更新策略,并用长短期记忆神经网络LSTM泛化无人车轨迹跟踪的策略,以提高轨迹跟踪控制方法模型对各种应用场景的适应性。
一次轨迹跟踪控制过程中,如前述,在线计算步骤具体包括LSTM计算以及MPC预测评价两部分;LSTM计算包括:获取无人驾驶车辆的第一状态信息s(t);第一状态信息包括指示第一时刻所述无人驾驶车辆与期望轨迹的位置偏差量;将第一状态信息s(t)输入至长短期记忆神经网络LSTM,获得长短期记忆神经网络LSTM输出的第一控制量a(t)。这里的长短期记忆神经网络LSTM是离线阶段训练完成的长短期记忆神经网络LSTM。
MPC预测评价包括:通过模型预测控制器MPC依据预测的一段时间内的多个第一状态信息评价第一控制量a(t),当评价结果为好评时,控制无人驾驶车辆根据第一控制量a(t)执行动作,实现轨迹跟踪。在依据预测的一段时间内的多个第一状态信息评价所述第一控制量之后,当评价结果为差评时,通过模型预测控制器MPC根据获取的第一状态信息s(t)生成第二控制量a’(t),控制无人驾驶车辆根据第二控制量a’(t)执行动作,实现轨迹跟踪,其中,第二控制量a’(t)的评价结果为好评。
需要强调的是,如图2中所示,本实施例的离线训练步骤中根据A3C深度强化学习模型输出的经验数据训练长短期记忆神经网络LSTM,也就是说,本实施例中在将第一状态信息输入至长短期记忆神经网络之前,方法进一步包括:预先训练深度强化学习模型,确定出深度强化学习模型的策略参数;深度强化学习模型用于将状态信息映射为无人驾驶车辆的控制量;根据深度强化学习模型输出的经验数据,训练长短期记忆神经网络。
深度强化学习模型训练过程简言之是与环境交互获取经验数据(第一状态,动作,回报,下一个状态)→计算网络梯度更新网络参数。具体来说,预先训练深度强化学习模型包括:获取样本数据,样本数据是由第一样本状态信息S(t),第一样本控制量A(t),奖励分数R(t)和第二样本状态信息S(t+1)组成的序列(S(t),A(t),R(t),S(t+1));其中,第二样本状态S(t+1)是所述无人驾驶车辆在第一样本状态S(t)下,根据所述第一样本控制量A(t)执行动作后迁移到的状态,所述第一样本状态信息S(t)包括指示第一样本时刻所述无人驾驶车辆与样本轨迹的位置偏差量;将样本数据(S(t),A(t),R(t),S(t+1))输入至A3C深度强化学习模型中进行训练,得到A3C深度强化学习模型的策略参数。
策略参数决定了A3C深度强化学习模型对一个输入的状态信息输出何种动作/控制量。
由上可知,本实施例中使用深度强化学习A3C算法来学习无人驾驶车辆轨迹跟踪策略参数从而无需进行车辆动力学建模,强化学习不断探索自我学习的特性。
参见图2,根据深度强化学习模型输出的经验数据,训练长短期记忆神经网络,具体包括:将A3C深度强化学习模型输出的经验数据(S(t),A(t))作为训练数据,具体的是输入状态S(t)至长短期记忆神经网络LSTM并训练长短期记忆神经网络输出动作/控制量A(t);其中,经验数据(S(t),A(t))是由第一样本状态信息S(t)以及第一样本控制量A(t)组成的序列。
本实施例中之所以根据深度强化学习模型输出的经验数据,训练长短期记忆神经网络是为了通过长短期记忆神经网络LSTM泛化A3C得到的轨迹跟踪策略,使得学习到的策略(即A3C深度强化学习模型的参数)可以适应更多的场景。
具体的,将深度强化学习模型输出的经验数据作为训练数据,输入至长短期记忆神经网络并训练所述长短期记忆神经网络包括:将经验数据中的所述第一样本状态信息,所述长短期记忆神经网络在第二样本时刻输出的长期记忆信息以及短期记忆信息共同作为输入数据,输入到所述长短期记忆神经网络中训练所述长短期记忆神经网络,得到输出的控制量;其中,所述控制量与第一样本控制量的差值小于第一阈值,且所述控制量与第一均值的差值小于第二阈值,所述第一均值根据第一样本时刻之前的预设时间段内多个第一样本控制量确定,所述第二样本时刻是与所述第一样本时刻相邻的上一个时刻。
比如,输入状态S(t)以及S(t-1)时刻,长短期记忆神经网络LSTM输出的长期记忆项、短期记忆项到长短期记忆神经网络中以训练长短期记忆神经网络LSTM用于输出S(t)状态下的动作a(t)。长短期记忆神经网络LSTM优化的目标是a(t)与经验数据中的A(t)尽可能接近,并且使a(t)与a(t-N),a(t-N+1),...a(t-1)的均值之差不超过预设阈值,即a(t)与a(t-N),a(t-N+1),...a(t-1)的均值相差不能过大。由此,通过将历史状态和历史输出动作作为当前时刻的输入进行当前时刻动作的计算使得长短期记忆神经网络LSTM输出的动作更加平顺,提升舒适性。
另外,前述第一状态信息以及所述第一样本状态信息中还包括:附着系数,所述附着系数指示所述无人驾驶车辆的轮胎在路面上的附着能力。与现有技术相比,本实施例在模型训练阶段即考虑到地面附着性能对控制效果的影响,因此,本实施例的轨迹跟踪控制增强了对各种路面情况的适应性。这里的路面情况比如积水路面、积雪路面等。
本实施例中,依据预测的一段时间内的多个所述第一状态信息,对所述第一控制量进行评价得到评价结果包括:通过模型预测控制器MPC预测所述第一时刻之后的一段时间内的所述第一状态信息;将各所述第一状态信息进行归一化处理后相加,得到跟踪误差值;比较所述跟踪误差值与预设误差阈值的大小;如果所述跟踪误差值小于所述预设误差阈值,则确定所述第一控制量的评价结果为好评;如果所述跟踪误差值大于或等于所述预设误差阈值,则确定所述第一控制量的评价结果为差评。
比如,通过模型预测控制器MPC预测第一时刻之后的一段时间内的所述第一状态信息,即,预测未来N时刻以内总的跟踪误差,也就是S=s(t+1)+s(t+2)+...+s(t+N),然后比较这段时间以内总的跟踪误差S与设定的阈值SP的大小,如果总的跟踪误差S比阈值SP小,则直接输出第一控制量a(t),若总的跟踪误差S比阈值SP大,则MPC重新计算最优控制量,即第二控制量a'(t)输出。这里的模型预测控制器MPC基于运动学模型实现,运动学模型是一种通用的能够描述车辆的运动规律的模型,该运动学模型是一个简化的模型。
需要说明的是,本实施例中,在通过模型预测控制器MPC根据获取的所述第一状态信息生成第二控制量之后,方法还包括:记录在第一状态下,所述无人驾驶车辆根据所述第二控制量执行动作后获得的第一奖励分数,以及所述无人驾驶车辆根据所述第一控制量执行动作后获得的第二奖励分数,保存由所述第一状态信息,所述第一控制量,所述第一奖励分数和第二状态信息组成的第一序列,以及由所述第一状态信息,所述第二控制量,所述第二奖励分数和第二状态信息组成的第二序列;其中,所述第二奖励分数小于所述第一奖励分数,所述第二状态是所述无人驾驶车辆在第一状态下,根据所述第一控制量执行动作后迁移到的状态;将所述第一序列和所述第二序列作为样本数据,输入到所述深度强化学习模型中进行训练,以更新所述深度强化学习模型的策略参数。
也就是说,当MPC评价该动作(即第一控制量)不好并重新计算最优控制量a'(t)之后,设置在跟踪误差s(t)下采取动作a'(t)获得积极回报r'(t),在跟踪误差s(t)下采取动作a(t)获得惩罚r(t),保存数据序列(s(t),a(t),r(t),s(t+1))及(s(t),a'(t),r'(t),s'(t+1))并反馈回A3C actor-critic网络供再次训练A3C深度强化学习模型更新其策略,避免不好的动作再次产生,以此循环,让好的动作重复,坏的动作淘汰。
与前述轨迹跟踪控制方法同属于一个技术构思,本实施例还提供了一种轨迹跟踪控制装置,参见图3,本实施例的轨迹跟踪控制装置300,应用于无人驾驶车辆,包括:
状态获取模块301,用于获取所述无人驾驶车辆内的期望轨迹的第一状态信息,所述第一状态信息包括指示第一时刻所述期望轨迹与所述无人驾驶车辆的位置偏差量;
控制量获取模块302,用于将所述第一状态信息输入至长短期记忆神经网络,获得所述长短期记忆神经网络输出的第一控制量;
跟踪控制模块303,用于依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量,当评价结果为好评时,控制所述无人驾驶车辆根据所述第一控制量执行动作,实现轨迹跟踪。
在本申请的一个实施例中,跟踪控制模块303还用于当评价结果为差评时,通过模型预测控制器MPC根据获取的所述第一状态信息生成第二控制量,控制所述无人驾驶车辆根据所述第二控制量执行动作,实现轨迹跟踪,其中,所述第二控制量的评价结果为好评。
在本申请的一个实施例中,控制量获取模块302具体用于预先训练深度强化学习模型,确定出深度强化学习模型的策略参数;所述深度强化学习模型用于将状态信息映射为所述无人驾驶车辆的控制量;根据所述深度强化学习模型输出的经验数据,训练所述长短期记忆神经网络。
在本申请的一个实施例中,跟踪控制模块303具体用于记录在第一状态下,所述无人驾驶车辆根据所述第二控制量执行动作后获得的第一奖励分数,以及所述无人驾驶车辆根据所述第一控制量执行动作后获得的第二奖励分数,保存由所述第一状态信息,所述第一控制量,所述第一奖励分数和第二状态信息组成的第一序列,以及由所述第一状态信息,所述第二控制量,所述第二奖励分数和第二状态信息组成的第二序列;其中,所述第二奖励分数小于所述第一奖励分数,所述第二状态是所述无人驾驶车辆在第一状态下,根据所述第一控制量执行动作后迁移到的状态;将所述第一序列和所述第二序列作为样本数据,输入到所述深度强化学习模型中进行训练,以更新所述深度强化学习模型的策略参数。
在本申请的一个实施例中,控制量获取模块302具体用于获取样本数据,所述样本数据是由第一样本状态信息,第一样本控制量,奖励分数和第二样本状态信息组成的序列;其中,所述第二样本状态是所述无人驾驶车辆在第一样本状态下,根据所述第一样本控制量执行动作后迁移到的状态,所述第一样本状态信息包括指示第一样本时刻所述无人驾驶车辆与样本轨迹的位置偏差量;将所述样本数据输入至所述深度强化学习模型中进行训练,得到所述深度强化学习模型的策略参数。
在本申请的一个实施例中,第一状态信息以及所述第一样本状态信息中还包括:附着系数,所述附着系数指示所述无人驾驶车辆的轮胎在路面上的附着能力。
在本申请的一个实施例中,控制量获取模块302具体用于将所述深度强化学习模型输出的经验数据作为训练数据,输入至所述长短期记忆神经网络并训练所述长短期记忆神经网络;其中,所述经验数据是由第一样本状态信息以及第一样本控制量组成的序列。
在本申请的一个实施例中,控制量获取模块302具体用于,将经验数据中的所述第一样本状态信息,所述长短期记忆神经网络在第二样本时刻输出的长期记忆信息以及短期记忆信息共同作为输入数据,输入到所述长短期记忆神经网络中训练所述长短期记忆神经网络,得到输出的控制量;其中,所述控制量与第一样本控制量的差值小于第一阈值,且所述控制量与第一均值的差值小于第二阈值,所述第一均值根据第一样本时刻之前的预设时间段内多个第一样本控制量确定,所述第二样本时刻是与所述第一样本时刻相邻的上一个时刻。
在本申请的一个实施例中,跟踪控制模块303具体用于,通过模型预测控制器MPC预测所述第一时刻之后的一段时间内的所述第一状态信息;将各所述第一状态信息进行归一化处理后相加,得到跟踪误差值;比较所述跟踪误差值与预设误差阈值的大小;如果所述跟踪误差值小于所述预设误差阈值,则确定所述第一控制量的评价结果为好评;如果所述跟踪误差值大于或等于所述预设误差阈值,则确定所述第一控制量的评价结果为差评。
综上所述,本实施例的轨迹跟踪控制方法和装置,将第一状态信息即当前位置与期望轨迹的跟踪误差作为长短期记忆神经网络的输入,由于仿真环境和真实环境下,跟踪误差都是一样的,因此在仿真环境中训练好的长短期记忆神经网络,更容易迁移到实际应用场景中。使用长短期记忆神经网络模型LSTM来泛化A3C深度强化学习的策略,使得本实施例的轨迹跟踪控制对环境的适应性更好,并且将历史时刻的信息也作为当前输入,使得长短期记忆神经网络LSTM输出更加平顺,提升舒适性。采取模型预测控制器MPC对长短期记忆神经网络LSTM输出的结果进行预测评价,防止LSTM输出结果可能出现的稳态跟踪误差及危险动作情况,并纠正误差,使得整个系统的输出动作更加鲁棒,稳定,提高了轨迹跟踪控制的安全性。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的页面性能测试装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图4是本申请一个实施例无人驾驶车辆的框图,该无人驾驶车辆400包括:处理器410,以及存储有可在所述处理器410上运行的计算机程序的存储器420。处理器410,用于在执行所述存储器420中的计算机程序时执行本申请中方法的各步骤。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有存储用于执行上述方法中的任何方法步骤的计算机程序431的存储空间430。计算机程序431可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图5所述的计算机可读存储介质。
图5是本申请一个实施例非瞬时性计算机可读存储介质的结构示意图。该计算机可读存储介质500存储有用于执行根据本申请的方法步骤的计算机程序431,可以被无人驾驶车辆400的处理器410读取,当计算机程序431由无人驾驶车辆400运行时,导致该无人驾驶车辆400执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算程序431可以执行上述任一实施例中示出的方法。计算机程序431可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (12)
1.一种轨迹跟踪控制方法,应用于无人驾驶车辆,其特征在于,包括:
获取所述无人驾驶车辆的第一状态信息;所述第一状态信息包括指示第一时刻所述无人驾驶车辆与期望轨迹的位置偏差量;
将所述第一状态信息输入至长短期记忆神经网络,获得所述长短期记忆神经网络输出的第一控制量;
依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量,当评价结果为好评时,控制所述无人驾驶车辆根据所述第一控制量执行动作,实现轨迹跟踪。
2.如权利要求1所述的方法,其特征在于,所述在依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量之后,所述方法进一步包括:
当评价结果为差评时,通过模型预测控制器MPC根据获取的所述第一状态信息生成第二控制量,控制所述无人驾驶车辆根据所述第二控制量执行动作,实现轨迹跟踪,
其中,所述第二控制量的评价结果为好评。
3.如权利要求2所述的方法,其特征在于,所述在将所述第一状态信息输入至长短期记忆神经网络之前,所述方法进一步包括:
预先训练深度强化学习模型,确定出深度强化学习模型的策略参数;所述深度强化学习模型用于将状态信息映射为所述无人驾驶车辆的控制量;
根据所述深度强化学习模型输出的经验数据,训练所述长短期记忆神经网络。
4.如权利要求3所述的方法,其特征在于,在通过模型预测控制器MPC根据获取的所述第一状态信息生成第二控制量之后,所述方法还包括:
记录在第一状态下,所述无人驾驶车辆根据所述第二控制量执行动作后获得的第一奖励分数,以及所述无人驾驶车辆根据所述第一控制量执行动作后获得的第二奖励分数,
保存由所述第一状态信息,所述第一控制量,所述第一奖励分数和第二状态信息组成的第一序列,以及由所述第一状态信息,所述第二控制量,所述第二奖励分数和第二状态信息组成的第二序列;其中,所述第二奖励分数小于所述第一奖励分数,所述第二状态是所述无人驾驶车辆在第一状态下,根据所述第一控制量执行动作后迁移到的状态;
将所述第一序列和所述第二序列作为样本数据,输入到所述深度强化学习模型中进行训练,以更新所述深度强化学习模型的策略参数。
5.如权利要求3所述的方法,其特征在于,所述预先训练深度强化学习模型包括:
获取样本数据,所述样本数据是由第一样本状态信息,第一样本控制量,奖励分数和第二样本状态信息组成的序列;其中,所述第二样本状态是所述无人驾驶车辆在第一样本状态下,根据所述第一样本控制量执行动作后迁移到的状态,所述第一样本状态信息包括指示第一样本时刻所述无人驾驶车辆与样本轨迹的位置偏差量;
将所述样本数据输入至所述深度强化学习模型中进行训练,得到所述深度强化学习模型的策略参数。
6.如权利要求5所述的方法,其特征在于,所述第一状态信息以及所述第一样本状态信息中还包括:附着系数,
所述附着系数指示所述无人驾驶车辆的轮胎在路面上的附着能力。
7.如权利要求3所述的方法,其特征在于,所述根据所述深度强化学习模型输出的经验数据,训练所述长短期记忆神经网络包括:
将所述深度强化学习模型输出的经验数据作为训练数据,输入至所述长短期记忆神经网络并训练所述长短期记忆神经网络;
其中,所述经验数据是由第一样本状态信息以及第一样本控制量组成的序列。
8.如权利要求7所述的方法,其特征在于,所述将所述深度强化学习模型输出的经验数据作为训练数据,输入至所述长短期记忆神经网络并训练所述长短期记忆神经网络包括:
将经验数据中的所述第一样本状态信息,所述长短期记忆神经网络在第二样本时刻输出的长期记忆信息以及短期记忆信息共同作为输入数据,输入到所述长短期记忆神经网络中训练所述长短期记忆神经网络,得到输出的控制量;
其中,所述控制量与第一样本控制量的差值小于第一阈值,且所述控制量与第一均值的差值小于第二阈值,
所述第一均值根据第一样本时刻之前的预设时间段内多个第一样本控制量确定,
所述第二样本时刻是与所述第一样本时刻相邻的上一个时刻。
9.如权利要求1-8中任一项所述的方法,其特征在于,所述依据预测的一段时间内的多个所述第一状态信息,对所述第一控制量进行评价得到评价结果包括:
通过模型预测控制器MPC预测所述第一时刻之后的一段时间内的所述第一状态信息;
将各所述第一状态信息进行归一化处理后相加,得到跟踪误差值;
比较所述跟踪误差值与预设误差阈值的大小;
如果所述跟踪误差值小于所述预设误差阈值,则确定所述第一控制量的评价结果为好评;
如果所述跟踪误差值大于或等于所述预设误差阈值,则确定所述第一控制量的评价结果为差评。
10.一种轨迹跟踪控制装置,应用于无人驾驶车辆,其特征在于,包括:
状态获取模块,用于获取所述无人驾驶车辆内的期望轨迹的第一状态信息,所述第一状态信息包括指示第一时刻所述期望轨迹与所述无人驾驶车辆的位置偏差量;
控制量获取模块,用于将所述第一状态信息输入至长短期记忆神经网络,获得所述长短期记忆神经网络输出的第一控制量;
跟踪控制模块,用于依据预测的一段时间内的多个所述第一状态信息评价所述第一控制量,当评价结果为好评时,控制所述无人驾驶车辆根据所述第一控制量执行动作,实现轨迹跟踪。
11.一种无人驾驶车辆,包括处理器和存储器,其特征在于,
所述存储器中存储有可执行代码;
所述处理器,执行所述可执行代码时实现权利要求1-9中任一项所述的方法。
12.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910502179.3A CN110221611B (zh) | 2019-06-11 | 2019-06-11 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910502179.3A CN110221611B (zh) | 2019-06-11 | 2019-06-11 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110221611A true CN110221611A (zh) | 2019-09-10 |
CN110221611B CN110221611B (zh) | 2020-09-04 |
Family
ID=67816335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910502179.3A Active CN110221611B (zh) | 2019-06-11 | 2019-06-11 | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110221611B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110646009A (zh) * | 2019-09-27 | 2020-01-03 | 北京邮电大学 | 一种基于dqn的车辆自动驾驶路径规划的方法及装置 |
CN110879595A (zh) * | 2019-11-29 | 2020-03-13 | 江苏徐工工程机械研究院有限公司 | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 |
CN110989636A (zh) * | 2020-02-26 | 2020-04-10 | 北京三快在线科技有限公司 | 一种障碍物的轨迹预测方法及装置 |
CN110989577A (zh) * | 2019-11-15 | 2020-04-10 | 深圳先进技术研究院 | 自动驾驶决策方法及车辆的自动驾驶装置 |
CN111179121A (zh) * | 2020-01-17 | 2020-05-19 | 华南理工大学 | 基于专家系统与深度逆向强化学习的电网紧急控制方法 |
CN111461309A (zh) * | 2020-04-17 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 实现隐私保护的更新强化学习系统的方法及装置 |
CN111522245A (zh) * | 2020-06-23 | 2020-08-11 | 北京三快在线科技有限公司 | 用于控制无人设备的方法及装置 |
CN111563489A (zh) * | 2020-07-14 | 2020-08-21 | 浙江大华技术股份有限公司 | 一种目标跟踪方法、装置以及计算机存储介质 |
CN111930015A (zh) * | 2020-09-16 | 2020-11-13 | 北京三快在线科技有限公司 | 一种无人车控制方法及装置 |
CN112270306A (zh) * | 2020-11-17 | 2021-01-26 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于拓扑路网的无人车轨迹预测与导航方法 |
CN112731804A (zh) * | 2019-10-29 | 2021-04-30 | 北京京东乾石科技有限公司 | 一种实现路径跟随的方法和装置 |
CN112863179A (zh) * | 2021-01-11 | 2021-05-28 | 上海交通大学 | 一种基于神经网络模型预测控制的路口信号灯控制方法 |
CN113052321A (zh) * | 2019-12-26 | 2021-06-29 | 伟摩有限责任公司 | 从短期意图和长期结果生成轨迹标记 |
CN113298445A (zh) * | 2021-07-22 | 2021-08-24 | 北京三快在线科技有限公司 | 一种模型训练和调度无人设备的方法及装置 |
CN113325694A (zh) * | 2021-05-26 | 2021-08-31 | 西安交通大学 | 一种基于机器学习的模型预测控制参数的整定方法 |
CN113611109A (zh) * | 2021-07-26 | 2021-11-05 | 上海德衡数据科技有限公司 | 基于雾计算的智能交通管控方法及系统 |
CN113734182A (zh) * | 2020-05-29 | 2021-12-03 | 比亚迪股份有限公司 | 一种车辆自适应控制方法及其装置 |
CN113895461A (zh) * | 2021-11-17 | 2022-01-07 | 中国第一汽车股份有限公司 | 车辆横向控制方法、装置、车辆及介质 |
CN114359349A (zh) * | 2022-03-21 | 2022-04-15 | 北京理工大学 | 一种用于车辆自适应路径跟踪的终身学习方法及系统 |
CN114625136A (zh) * | 2022-03-10 | 2022-06-14 | 安徽农业大学 | 一种基于深度学习的机器人轨迹跟踪控制方法 |
CN115077549A (zh) * | 2022-06-16 | 2022-09-20 | 南昌智能新能源汽车研究院 | 车辆状态跟踪方法、系统、计算机及可读存储介质 |
WO2023109640A1 (zh) * | 2021-12-14 | 2023-06-22 | 深圳先进技术研究院 | 无人驾驶场景下深度强化学习模型的可解释性方法及系统 |
DE102023202033A1 (de) | 2023-03-07 | 2024-09-12 | Volkswagen Aktiengesellschaft | Verfahren zum Querführen eines Kraftfahrzeugs mittels eines Fahrerassistenzsystems, Steuereinrichtung sowie Kraftfahrzeug |
Citations (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495631A (zh) * | 2011-12-09 | 2012-06-13 | 中国科学院合肥物质科学研究院 | 一种无人驾驶车辆跟踪预定轨迹的智能控制方法 |
CN103085816A (zh) * | 2013-01-30 | 2013-05-08 | 同济大学 | 一种用于无人驾驶车辆的轨迹跟踪控制方法及控制装置 |
KR101318560B1 (ko) * | 2012-02-29 | 2013-10-16 | 부산대학교 산학협력단 | 유도라인 추적 agv의 유연한 주행 제어를 위한 영상 기반 유도라인 해석 방법 |
CN105320129A (zh) * | 2015-10-22 | 2016-02-10 | 清华大学 | 一种无人驾驶自行车轨迹跟踪控制的方法 |
CN105488484A (zh) * | 2015-12-07 | 2016-04-13 | 北京航空航天大学 | 一种基于无人机航拍图像的车辆轨迹提取方法 |
CN105700538A (zh) * | 2016-01-28 | 2016-06-22 | 武汉光庭信息技术股份有限公司 | 基于神经网络和pid算法的轨迹跟随方法 |
CN106096729A (zh) * | 2016-06-06 | 2016-11-09 | 天津科技大学 | 一种面向大规模环境中复杂任务的深度策略学习方法 |
CN106990714A (zh) * | 2017-06-05 | 2017-07-28 | 李德毅 | 基于深度学习的适配控制方法与装置 |
CN107200020A (zh) * | 2017-05-11 | 2017-09-26 | 江苏大学 | 一种基于混杂理论的无人驾驶汽车自主转向控制系统和方法 |
CN107561942A (zh) * | 2017-09-12 | 2018-01-09 | 重庆邮电大学 | 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法 |
CN107563332A (zh) * | 2017-09-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 用于确定无人车的驾驶行为的方法和装置 |
CN108279692A (zh) * | 2018-01-17 | 2018-07-13 | 哈尔滨工程大学 | 一种基于lstm-rnn的uuv动态规划方法 |
CN108427985A (zh) * | 2018-01-02 | 2018-08-21 | 北京理工大学 | 一种基于深度强化学习的插电式混合动力车辆能量管理方法 |
CN108510065A (zh) * | 2018-03-30 | 2018-09-07 | 中国科学院计算技术研究所 | 应用于长短时记忆神经网络的计算装置和计算方法 |
CN108520530A (zh) * | 2018-04-12 | 2018-09-11 | 厦门大学 | 基于长短时记忆网络的目标跟踪方法 |
CN108529356A (zh) * | 2018-04-27 | 2018-09-14 | 北京三快在线科技有限公司 | 用于控制电梯的方法、装置、系统及电子设备 |
CN108622104A (zh) * | 2018-05-07 | 2018-10-09 | 湖北汽车工业学院 | 一种用于无人驾驶车辆的轨迹跟踪控制方法 |
CN108648253A (zh) * | 2018-05-08 | 2018-10-12 | 北京三快在线科技有限公司 | 动态图片的生成方法及装置 |
US10106153B1 (en) * | 2018-03-23 | 2018-10-23 | Chongqing Jinkang New Energy Vehicle Co., Ltd. | Multi-network-based path generation for vehicle parking |
CN108944939A (zh) * | 2017-05-17 | 2018-12-07 | 现代自动车株式会社 | 用于提供驾驶指导的方法和系统 |
CN108944930A (zh) * | 2018-07-05 | 2018-12-07 | 合肥工业大学 | 一种基于lstm的模拟驾驶员特性的自动跟车方法及系统 |
CN108983788A (zh) * | 2018-08-15 | 2018-12-11 | 上海海事大学 | 基于大数据挖掘的无人驾驶环卫车智能控制系统及方法 |
CN109298712A (zh) * | 2018-10-19 | 2019-02-01 | 大连海事大学 | 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法 |
KR101951595B1 (ko) * | 2018-05-18 | 2019-02-22 | 한양대학교 산학협력단 | 모듈형 순환 신경망 구조 기반 차량 경로 예측 시스템 및 방법 |
CN109455180A (zh) * | 2018-11-09 | 2019-03-12 | 百度在线网络技术(北京)有限公司 | 用于控制无人车的方法和装置 |
US20190086927A1 (en) * | 2017-09-20 | 2019-03-21 | Continental Automotive Systems, Inc. | Automated Trailer Hitching Using GPS |
CN109583151A (zh) * | 2019-02-20 | 2019-04-05 | 百度在线网络技术(北京)有限公司 | 车辆的行驶轨迹预测方法及装置 |
CN109606384A (zh) * | 2018-12-29 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 车辆控制方法、装置、设备和存储介质 |
CN109693672A (zh) * | 2018-12-28 | 2019-04-30 | 百度在线网络技术(北京)有限公司 | 用于控制无人驾驶汽车的方法和装置 |
US20190137296A1 (en) * | 2012-11-30 | 2019-05-09 | Waymo Llc | Determining And Displaying Auto Drive Lanes In An Autonomous Vehicle |
CN109747655A (zh) * | 2017-11-07 | 2019-05-14 | 北京京东尚科信息技术有限公司 | 用于自动驾驶车辆的驾驶指令生成方法和装置 |
CN109783843A (zh) * | 2018-12-05 | 2019-05-21 | 交控科技股份有限公司 | 基于lstm的仿真系统车辆动力学模型速度预测方法 |
CN109840921A (zh) * | 2019-01-29 | 2019-06-04 | 北京三快在线科技有限公司 | 无人驾驶任务结果的确定方法、装置及无人驾驶设备 |
-
2019
- 2019-06-11 CN CN201910502179.3A patent/CN110221611B/zh active Active
Patent Citations (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495631A (zh) * | 2011-12-09 | 2012-06-13 | 中国科学院合肥物质科学研究院 | 一种无人驾驶车辆跟踪预定轨迹的智能控制方法 |
KR101318560B1 (ko) * | 2012-02-29 | 2013-10-16 | 부산대학교 산학협력단 | 유도라인 추적 agv의 유연한 주행 제어를 위한 영상 기반 유도라인 해석 방법 |
US20190137296A1 (en) * | 2012-11-30 | 2019-05-09 | Waymo Llc | Determining And Displaying Auto Drive Lanes In An Autonomous Vehicle |
CN103085816A (zh) * | 2013-01-30 | 2013-05-08 | 同济大学 | 一种用于无人驾驶车辆的轨迹跟踪控制方法及控制装置 |
CN105320129A (zh) * | 2015-10-22 | 2016-02-10 | 清华大学 | 一种无人驾驶自行车轨迹跟踪控制的方法 |
CN105488484A (zh) * | 2015-12-07 | 2016-04-13 | 北京航空航天大学 | 一种基于无人机航拍图像的车辆轨迹提取方法 |
CN105700538A (zh) * | 2016-01-28 | 2016-06-22 | 武汉光庭信息技术股份有限公司 | 基于神经网络和pid算法的轨迹跟随方法 |
CN106096729A (zh) * | 2016-06-06 | 2016-11-09 | 天津科技大学 | 一种面向大规模环境中复杂任务的深度策略学习方法 |
CN107200020A (zh) * | 2017-05-11 | 2017-09-26 | 江苏大学 | 一种基于混杂理论的无人驾驶汽车自主转向控制系统和方法 |
CN108944939A (zh) * | 2017-05-17 | 2018-12-07 | 现代自动车株式会社 | 用于提供驾驶指导的方法和系统 |
CN106990714A (zh) * | 2017-06-05 | 2017-07-28 | 李德毅 | 基于深度学习的适配控制方法与装置 |
CN107563332A (zh) * | 2017-09-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 用于确定无人车的驾驶行为的方法和装置 |
CN107561942A (zh) * | 2017-09-12 | 2018-01-09 | 重庆邮电大学 | 基于模型补偿的智能车辆轨迹跟踪模型预测控制方法 |
US20190086927A1 (en) * | 2017-09-20 | 2019-03-21 | Continental Automotive Systems, Inc. | Automated Trailer Hitching Using GPS |
CN109747655A (zh) * | 2017-11-07 | 2019-05-14 | 北京京东尚科信息技术有限公司 | 用于自动驾驶车辆的驾驶指令生成方法和装置 |
CN108427985A (zh) * | 2018-01-02 | 2018-08-21 | 北京理工大学 | 一种基于深度强化学习的插电式混合动力车辆能量管理方法 |
CN108279692A (zh) * | 2018-01-17 | 2018-07-13 | 哈尔滨工程大学 | 一种基于lstm-rnn的uuv动态规划方法 |
US10106153B1 (en) * | 2018-03-23 | 2018-10-23 | Chongqing Jinkang New Energy Vehicle Co., Ltd. | Multi-network-based path generation for vehicle parking |
CN108510065A (zh) * | 2018-03-30 | 2018-09-07 | 中国科学院计算技术研究所 | 应用于长短时记忆神经网络的计算装置和计算方法 |
CN108520530A (zh) * | 2018-04-12 | 2018-09-11 | 厦门大学 | 基于长短时记忆网络的目标跟踪方法 |
CN108529356A (zh) * | 2018-04-27 | 2018-09-14 | 北京三快在线科技有限公司 | 用于控制电梯的方法、装置、系统及电子设备 |
CN108622104A (zh) * | 2018-05-07 | 2018-10-09 | 湖北汽车工业学院 | 一种用于无人驾驶车辆的轨迹跟踪控制方法 |
CN108648253A (zh) * | 2018-05-08 | 2018-10-12 | 北京三快在线科技有限公司 | 动态图片的生成方法及装置 |
KR101951595B1 (ko) * | 2018-05-18 | 2019-02-22 | 한양대학교 산학협력단 | 모듈형 순환 신경망 구조 기반 차량 경로 예측 시스템 및 방법 |
CN108944930A (zh) * | 2018-07-05 | 2018-12-07 | 合肥工业大学 | 一种基于lstm的模拟驾驶员特性的自动跟车方法及系统 |
CN108983788A (zh) * | 2018-08-15 | 2018-12-11 | 上海海事大学 | 基于大数据挖掘的无人驾驶环卫车智能控制系统及方法 |
CN109298712A (zh) * | 2018-10-19 | 2019-02-01 | 大连海事大学 | 一种基于自适应航行态势学习的无人驾驶船舶自主避碰决策方法 |
CN109455180A (zh) * | 2018-11-09 | 2019-03-12 | 百度在线网络技术(北京)有限公司 | 用于控制无人车的方法和装置 |
CN109783843A (zh) * | 2018-12-05 | 2019-05-21 | 交控科技股份有限公司 | 基于lstm的仿真系统车辆动力学模型速度预测方法 |
CN109693672A (zh) * | 2018-12-28 | 2019-04-30 | 百度在线网络技术(北京)有限公司 | 用于控制无人驾驶汽车的方法和装置 |
CN109606384A (zh) * | 2018-12-29 | 2019-04-12 | 百度在线网络技术(北京)有限公司 | 车辆控制方法、装置、设备和存储介质 |
CN109840921A (zh) * | 2019-01-29 | 2019-06-04 | 北京三快在线科技有限公司 | 无人驾驶任务结果的确定方法、装置及无人驾驶设备 |
CN109583151A (zh) * | 2019-02-20 | 2019-04-05 | 百度在线网络技术(北京)有限公司 | 车辆的行驶轨迹预测方法及装置 |
Non-Patent Citations (10)
Title |
---|
LONG CHEN ETAL: "Parallel Planning: A New Motion Planning Framework for Autonomous Driving", 《IEEE/CAA JOURNAL OF AUTOMATICA SINICA》 * |
MD ATIQUZZAMAN , YAN QI , RYAN FRIES: "Real-time detection of drivers’ texting and eating behavior based on vehicle dynamics", 《ELSEVIER》 * |
SEPP HOCHREITER ET AL.: "Long Short-Term Memory", 《NEURAL COMPUTATION》 * |
张朝: "交通场景中的车辆跟踪算法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
李年裕等: "一种非线性无人地面车辆的轨迹跟踪控制", 《火力与指挥控制》 * |
王丹: "基于分支网络辅助任务的端到端自动驾驶", 《创新应用》 * |
章仁燮等: "基于条件积分算法的无人驾驶车辆轨迹跟踪鲁棒控制方法", 《机械工程学报》 * |
耿新力: "城区不确定环境下无人驾驶车辆行为决策方法研究", 《中国博士学位论文全文数据库 工程科技II辑》 * |
胡家铭等: "基于模型预测控制的无人驾驶履带车辆轨迹跟踪方法研究", 《兵工学报》 * |
郝亮等: "基于MPC 的无人驾驶车辆的轨迹跟踪", 《汽车实用技术》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110646009A (zh) * | 2019-09-27 | 2020-01-03 | 北京邮电大学 | 一种基于dqn的车辆自动驾驶路径规划的方法及装置 |
CN110646009B (zh) * | 2019-09-27 | 2022-03-01 | 北京邮电大学 | 一种基于dqn的车辆自动驾驶路径规划的方法及装置 |
CN112731804A (zh) * | 2019-10-29 | 2021-04-30 | 北京京东乾石科技有限公司 | 一种实现路径跟随的方法和装置 |
CN110989577A (zh) * | 2019-11-15 | 2020-04-10 | 深圳先进技术研究院 | 自动驾驶决策方法及车辆的自动驾驶装置 |
CN110879595A (zh) * | 2019-11-29 | 2020-03-13 | 江苏徐工工程机械研究院有限公司 | 一种基于深度强化学习的无人矿卡循迹控制系统及方法 |
CN113052321B (zh) * | 2019-12-26 | 2024-05-07 | 伟摩有限责任公司 | 从短期意图和长期结果生成轨迹标记 |
CN113052321A (zh) * | 2019-12-26 | 2021-06-29 | 伟摩有限责任公司 | 从短期意图和长期结果生成轨迹标记 |
CN111179121A (zh) * | 2020-01-17 | 2020-05-19 | 华南理工大学 | 基于专家系统与深度逆向强化学习的电网紧急控制方法 |
CN111179121B (zh) * | 2020-01-17 | 2023-03-21 | 华南理工大学 | 基于专家系统与深度逆向强化学习的电网紧急控制方法 |
CN110989636A (zh) * | 2020-02-26 | 2020-04-10 | 北京三快在线科技有限公司 | 一种障碍物的轨迹预测方法及装置 |
CN111461309A (zh) * | 2020-04-17 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 实现隐私保护的更新强化学习系统的方法及装置 |
CN113734182B (zh) * | 2020-05-29 | 2023-11-14 | 比亚迪股份有限公司 | 一种车辆自适应控制方法及其装置 |
CN113734182A (zh) * | 2020-05-29 | 2021-12-03 | 比亚迪股份有限公司 | 一种车辆自适应控制方法及其装置 |
CN111522245B (zh) * | 2020-06-23 | 2020-11-03 | 北京三快在线科技有限公司 | 用于控制无人设备的方法及装置 |
CN111522245A (zh) * | 2020-06-23 | 2020-08-11 | 北京三快在线科技有限公司 | 用于控制无人设备的方法及装置 |
CN111563489A (zh) * | 2020-07-14 | 2020-08-21 | 浙江大华技术股份有限公司 | 一种目标跟踪方法、装置以及计算机存储介质 |
CN111930015A (zh) * | 2020-09-16 | 2020-11-13 | 北京三快在线科技有限公司 | 一种无人车控制方法及装置 |
CN112270306A (zh) * | 2020-11-17 | 2021-01-26 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于拓扑路网的无人车轨迹预测与导航方法 |
CN112270306B (zh) * | 2020-11-17 | 2022-09-30 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于拓扑路网的无人车轨迹预测与导航方法 |
CN112863179A (zh) * | 2021-01-11 | 2021-05-28 | 上海交通大学 | 一种基于神经网络模型预测控制的路口信号灯控制方法 |
CN112863179B (zh) * | 2021-01-11 | 2022-07-12 | 上海交通大学 | 一种基于神经网络模型预测控制的路口信号灯控制方法 |
CN113325694A (zh) * | 2021-05-26 | 2021-08-31 | 西安交通大学 | 一种基于机器学习的模型预测控制参数的整定方法 |
CN113298445A (zh) * | 2021-07-22 | 2021-08-24 | 北京三快在线科技有限公司 | 一种模型训练和调度无人设备的方法及装置 |
CN113611109A (zh) * | 2021-07-26 | 2021-11-05 | 上海德衡数据科技有限公司 | 基于雾计算的智能交通管控方法及系统 |
CN113611109B (zh) * | 2021-07-26 | 2022-08-16 | 上海德衡数据科技有限公司 | 基于雾计算的智能交通管控方法及系统 |
CN113895461A (zh) * | 2021-11-17 | 2022-01-07 | 中国第一汽车股份有限公司 | 车辆横向控制方法、装置、车辆及介质 |
WO2023109640A1 (zh) * | 2021-12-14 | 2023-06-22 | 深圳先进技术研究院 | 无人驾驶场景下深度强化学习模型的可解释性方法及系统 |
CN114625136A (zh) * | 2022-03-10 | 2022-06-14 | 安徽农业大学 | 一种基于深度学习的机器人轨迹跟踪控制方法 |
CN114359349B (zh) * | 2022-03-21 | 2022-06-17 | 北京理工大学 | 一种用于车辆自适应路径跟踪的终身学习方法及系统 |
CN114359349A (zh) * | 2022-03-21 | 2022-04-15 | 北京理工大学 | 一种用于车辆自适应路径跟踪的终身学习方法及系统 |
CN115077549A (zh) * | 2022-06-16 | 2022-09-20 | 南昌智能新能源汽车研究院 | 车辆状态跟踪方法、系统、计算机及可读存储介质 |
CN115077549B (zh) * | 2022-06-16 | 2024-04-26 | 南昌智能新能源汽车研究院 | 车辆状态跟踪方法、系统、计算机及可读存储介质 |
DE102023202033A1 (de) | 2023-03-07 | 2024-09-12 | Volkswagen Aktiengesellschaft | Verfahren zum Querführen eines Kraftfahrzeugs mittels eines Fahrerassistenzsystems, Steuereinrichtung sowie Kraftfahrzeug |
Also Published As
Publication number | Publication date |
---|---|
CN110221611B (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110221611A (zh) | 一种轨迹跟踪控制方法、装置及无人驾驶车辆 | |
CN113805572B (zh) | 运动规划的方法与装置 | |
CN110956148B (zh) | 无人车的自主避障方法及装置、电子设备、可读存储介质 | |
US12019414B2 (en) | Method for generating a training data set for training an artificial intelligence module for a control device of a vehicle | |
CN109176532B (zh) | 一种机械臂路径规划方法、系统及装置 | |
CN110688920B (zh) | 一种无人驾驶控制方法、装置及服务器 | |
CN110275531B (zh) | 障碍物的轨迹预测方法、装置及无人驾驶设备 | |
US20210263526A1 (en) | Method and device for supporting maneuver planning for an automated driving vehicle or a robot | |
CN113665593B (zh) | 一种车辆智能驾驶纵向控制方法、系统及存储介质 | |
US20200192307A1 (en) | Control customization system, control customization method, and control customization program | |
CN107436603B (zh) | 一种农用车辆曲线路径自动驾驶方法及系统 | |
CN110968088A (zh) | 车辆控制参数的确定方法、装置、车载控制器和无人车 | |
CN113428218A (zh) | 一种车辆转向控制方法、装置、设备及存储介质 | |
EP3739418B1 (en) | Method of controlling a vehicle and apparatus for controlling a vehicle | |
CN117484506A (zh) | 机器人控制方法、装置、机器人及计算机可读存储介质 | |
CN114987511A (zh) | 模拟人类驾驶行为以训练基于神经网络的运动控制器的方法 | |
Joglekar et al. | Deep Reinforcement Learning Based Adaptation of Pure-Pursuit Path-Tracking Control for Skid-Steered Vehicles | |
CN112835362A (zh) | 一种自动变道规划方法及装置、电子设备和存储介质 | |
Löckel et al. | An adaptive human driver model for realistic race car simulations | |
Lauer | A case study on learning a steering controller from scratch with reinforcement learning | |
CN115130295A (zh) | 针对仿真动力学偏差的决策方法及装置 | |
Stulp et al. | Optimized execution of action chains using learned performance models of abstract actions | |
Wang et al. | An end-to-end deep reinforcement learning model based on proximal policy optimization algorithm for autonomous driving of off-road vehicle | |
Olcay et al. | Headland Turn Automation Concept for Tractor-Trailer System with Deep Reinforcement Learning | |
Plessen | Smoothing of Headland Path Edges and Headland-to-Mainfield Lane Transitions Based on a Spatial Domain Transformation and Linear Programming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |