CN112172813A - 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 - Google Patents

基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 Download PDF

Info

Publication number
CN112172813A
CN112172813A CN202011094067.8A CN202011094067A CN112172813A CN 112172813 A CN112172813 A CN 112172813A CN 202011094067 A CN202011094067 A CN 202011094067A CN 112172813 A CN112172813 A CN 112172813A
Authority
CN
China
Prior art keywords
following
vehicle
car
driver
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011094067.8A
Other languages
English (en)
Other versions
CN112172813B (zh
Inventor
付锐
周扬
张雅丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN202011094067.8A priority Critical patent/CN112172813B/zh
Publication of CN112172813A publication Critical patent/CN112172813A/zh
Application granted granted Critical
Publication of CN112172813B publication Critical patent/CN112172813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/14Adaptive cruise control
    • B60W30/16Control of distance between vehicles, e.g. keeping a distance to preceding vehicle
    • B60W30/165Automatically following the path of a preceding lead vehicle, e.g. "electronic tow-bar"
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/02Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/10Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
    • B60W40/105Speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • B60W2554/802Longitudinal distance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • B60W2554/804Relative longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2554/00Input parameters relating to objects
    • B60W2554/80Spatial relation or speed relative to objects
    • B60W2554/805Azimuth angle

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

本发明属于智能驾驶技术领域,公开了一种基于深度逆强化学习的模拟驾驶风格的跟车系统及方法,该跟车系统包括:采集自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息的毫米波雷达,采集自车车速的车速采集装置,以及车载工控机;车载工控机内的跟车数据处理器对毫米波雷达、车速采集装置采集的信息进行处理,提取满足跟车模型训练所需的跟车数据片段,并对其进行跟车模型训练得到跟车策略模型;该跟车系统结构简单,通过深度逆强化学习方法从驾驶人历史跟车数据中学习奖励函数,并利用奖励函数及强化学习方法求解驾驶人的跟车策略,得到的跟车模型能模拟不同驾驶人的驾驶风格,理解驾驶人跟车过程中的偏好,生成拟人化的跟车行为。

Description

基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
技术领域
本发明涉及智能驾驶技术领域,具体涉及基于深度逆强化学习的模拟驾驶风格的跟车系统及方法。
背景技术
跟车是指驾驶人驾驶车辆跟随前车行驶,是日常驾驶最为常见的一种情况。在城市交通情况下,驾驶人跟车所占的时间比例一般大于50%。为了实现交通仿真、驾驶辅助系统测试以及自动驾驶,有大量研究针对驾驶人跟车行为构建了跟车模型。
跟车模型的作用是模拟驾驶人的跟车行为及特点,使车辆能够按照驾驶人的驾驶风格跟随前车行驶。当前,已有的跟车模型包括两种类型:一种是传统模型,其特点是采用显式的数学关系式来描述跟车过程,在模型公式中一般设有多个参数用以代表驾驶人的驾驶风格。另一种是数据驱动模型,这类模型无显式的数学关系式,一般采用神经网络,利用驾驶人的跟车数据学习表示驾驶人的跟车特性。在这两种模型中,数据驱动模型被发现相比传统模型有更好的跟车模拟准确性及泛化能力。
在数据驱动模型中,一般采用深度最大熵逆强化学习方法训练跟车模型,深度最大熵逆强化学习方法属于模仿学习,模仿学习的目的是学习模仿人类的行为,获取跟车过程中驾驶人的策略函数,即车辆运动状态s与驾驶人控制车辆动作a之间的函数关系π(a|s)。在模仿学习中,一类方法被称为行为克隆,其原理是采用神经网络或其它数据驱动模型来表示π(a|s),通过梯度下降方法训练神经网络的参数,训练得到的神经网络模型可以模拟人的行为及特点。行为克隆方法已证明可在数据量充足的条件下较为准确地实现行为模拟,然而当数据量不足时,行为克隆会导致出现复合误差问题,即当数据量不足时,模型拟合较差,其预测结果会有一定误差,在仿真过程中误差会进行累积,最终使模型面对一些训练数据中未包含的状态,在这种情况下,模型会输出更差的预测结果。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种基于深度逆强化学习的模拟驾驶风格的跟车系统及方法,该跟车系统结构简单,易于实现;其方法属于数据驱动方法,相比传统跟车模型具有更好的跟车行为模拟准确性;相比现有的数据驱动跟车模型,本方法是通过深度逆强化学习方法从驾驶人历史跟车数据中学习驾驶人跟车过程中的奖励函数,进而利用奖励函数及强化学习方法求解驾驶人的跟车策略,本方法得到的跟车模型能模拟不同驾驶人的驾驶风格,理解驾驶人跟车过程中的偏好,生成拟人化的跟车行为。
为了达到上述目的,本发明采用以下技术方案予以实现。
(一)一种基于深度逆强化学习的模拟驾驶风格的跟车系统,包括:毫米波雷达、车速采集装置、车载工控机;其中,所述车载工控机内集成有跟车数据处理器和数据存储硬盘;
所述毫米波雷达用于采集自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息,并将采集的自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息储存在所述车载工控机相对应的数据存储硬盘中;
所述车速采集装置用于采集自车车速信息,并将采集的自车车速信息储存在所述车载工控机相对应的数据存储硬盘中;
所述跟车数据处理器用于对所述毫米波雷达、车速采集装置采集的信息进行处理,自动筛选并提取满足跟车模型训练所需的跟车数据片段,并将提取的跟车数据片段存储在相对应的数据存储硬盘中;
所述跟车数据处理器还用于对所述提取的跟车数据片段进行跟车模型训练,得到跟车策略模型。
进一步的,所述车速采集装置为车速传感器。
(二)一种基于深度逆强化学习的模拟驾驶风格的跟车方法,包括以下步骤:
步骤1,数据采集
毫米波雷达实时采集自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息,并将采集的自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息传递给车载工控机内部的跟车数据处理器;
车速采集装置实时采集自车车速v信息,并将采集的自车车速v信息传递给车载工控机内部的跟车数据处理器;
步骤2,跟车数据筛选
车载工控机内部的跟车数据处理器根据毫米波雷达、车速采集装置采集的行车数据信息进行处理,得到跟车模型训练所需的跟车数据;
步骤3,跟车策略模型实现
车载工控机内部的跟车数据处理器对得到的所述跟车模型训练所需的跟车数据采用深度逆强化学习方法进行跟车模型训练,得到跟车策略模型;
步骤4,重复执行步骤1-2,获取更多的跟车模型训练所需的跟车数据;间隔某一时间段T1后,重新执行步骤3,对跟车策略模型进行重新训练,获得更为准确的跟车策略模型;
步骤5,将步骤4得到的跟车策略模型存储于所述车载工控机相对应的数据存储硬盘中。
本发明技术方案的特点和进一步的改进为:
(1)步骤2包含以下子步骤:
子步骤2.1,将毫米波雷达、车速采集装置采集的行车数据信息每间隔15s作为一个待选数据片段;其中,第i1个待选数据片段记为
Figure BDA0002723082340000041
N1为片段总数;
子步骤2.2,对每个待选数据片段
Figure BDA0002723082340000042
中的方位角θ按如下条件进行判定,若满足该条件,则保留该待选数据片段并进行子步骤2.3;否则,删除该Di片段:
Figure BDA0002723082340000043
子步骤2.3,对满足子步骤2.2的片段
Figure BDA0002723082340000044
按如下条件进一步筛选,若满足该条件,则保留该待选数据片段
Figure BDA0002723082340000045
并存储于车载工控机相对应的数据存储硬盘中,得到满足跟车模型训练所需数据集
Figure BDA0002723082340000046
否则,删除该Di片段:
Figure BDA0002723082340000047
(2)步骤3中,所述深度逆强化学习方法包含以下子步骤:
子步骤3.1,建立跟车环境,包括跟车离散状态空间S、离散动作空间A及状态转移方程T;其中,状态空间S中包含有自车车速v、自车与前车的间距h、相对速度Δv三种类型的状态,动作空间A包含加速度a;
设定t时刻下状态st下采用动作a(t),st={v(t),Δv(t),h(t)},则利用所述状态转移方程T即可得到下一时刻状态st+1,st+1={v(t+1),Δv(t+1),h(t+1)};其中,所述状态转移方程T为:
v(t+1)=v(t)+a(t)*Δt
Δv(t+1)=vlead(t+1)-v(t+1)
Figure BDA0002723082340000051
其中,vlead(t+1)为跟车过程中前车在t+1时刻下的车速,Δt为时间间隔;
子步骤3.2,利用Tensorflow深度学习环境创建神经网络,神经网络的输入为表征驾驶人跟车中车辆控制目标的特征
Figure BDA0002723082340000056
i2∈[1,2,…,N2],N2为特征的总数,神经网络的输出为驾驶人的奖励r;
子步骤3.3,对所述驾驶人的奖励r进行跟车模型训练,得到最终的奖励及策略函数。
(3)子步骤3.2中,所述表征驾驶人跟车中车辆控制目标的特征
Figure BDA0002723082340000052
的计算方法包含以下子步骤:
子步骤3.2.1,运用高斯径向基核函数,计算第i3个表征驾驶人跟车过程中跟车时距及相对车速控制目标的特征
Figure BDA0002723082340000053
其中,i3∈[1,2,…,N3],N3为预定义的驾驶人偏好跟车时距及相对车速二维向量的总个数;
子步骤3.2.2,计算第i4个表征驾驶人跟车过程中的最大车速控制目标特征
Figure BDA0002723082340000054
具体为:若驾驶人的自车车速v大于第i4个预定义的猜测的驾驶人偏好最大车速
Figure BDA0002723082340000055
则得到的奖励为0;否则,得到的奖励为1,具体如下:
Figure BDA0002723082340000061
其中,i4∈[1,2,…,N4],N4为预定义猜想的驾驶人偏好最大车速一维向量的总个数;
子步骤3.3.3,根据所述表征驾驶人跟车中车辆控制目标的特征
Figure BDA0002723082340000062
和第i4个表征驾驶人跟车过程中的最大车速控制目标特征
Figure BDA0002723082340000063
计算得到表征驾驶人跟车中车辆控制目标的特征
Figure BDA0002723082340000064
Figure BDA0002723082340000065
(4)子步骤3.2.1具体为:
Figure BDA0002723082340000066
Figure BDA0002723082340000067
其中,
Figure BDA0002723082340000068
为第i3个预定义的驾驶人跟车过程中跟车时距,
Figure BDA0002723082340000069
为第i3个预定义的驾驶人跟车过程中跟车距离,
Figure BDA00027230823400000610
为第i3个预定义的驾驶人跟车过程中自车车速;
Figure BDA00027230823400000611
为第i3个预定义猜测的驾驶人偏好跟车时距及相对车速二维向量数值,
Figure BDA00027230823400000612
Figure BDA00027230823400000613
为第i3个预定义的驾驶人跟车过程中相对车速;σ为跟车时距及相对车速二维向量的协方差。
(5)子步骤3.2中,所述驾驶人的奖励r为:
Figure BDA00027230823400000614
其中,g为神经网络的架构;θ为神经网络参数。
(6)步骤3.3具体包含以下子步骤:
子步骤3.3.1,令神经网络训练次数为i5;其中,i5∈[1,2,…,N5],N5为预定义的神经网络训练总次数;
子步骤3.3.2,将神经网络参数θ随机初始化,即令i5=1,则初始化的神经网络参数
Figure BDA0002723082340000071
通过神经网络的前向传播获得第i5次迭代更新后的奖励函数
Figure BDA0002723082340000072
采用软化的值迭代算法求解奖励为
Figure BDA0002723082340000073
下的第i5次神经网络参数迭代更新后输出的策略函数
Figure BDA0002723082340000074
利用策略函数
Figure BDA0002723082340000075
计算当前的平均期望状态访问频率
Figure BDA0002723082340000076
利用平均期望状态访问频率
Figure BDA0002723082340000077
计算第i5次迭代时神经网络的梯度
Figure BDA0002723082340000078
并采用神经网络的梯度
Figure BDA0002723082340000079
更新神经网络参数
Figure BDA00027230823400000710
子步骤3.3.3,令神经网络训练次数i5依次增加1,重复子步骤3.3.2,直至i5=N5,完成迭代,获得最终的奖励及策略函数。
(7)子步骤3.3.2中,所述软化的值迭代算法包含以下子步骤:
子步骤a:初始化V(s)=-∞
子步骤b:
重复以下计算直至max(V(s)-V′(s))<ε,V′为中间变量,存储V(s)的最新数值;ε为预定义的算法迭代停止判定阈值;
V′(s)=V(s)
Figure BDA00027230823400000711
V(s)=temp*log∫aexp(Q(s,a)/temp)da
待上述计算完成后,可得第i5次神经网络参数迭代更新后输出的策略函数
Figure BDA00027230823400000712
其中,V(s)指状态s的值,表示该状态下的长期奖励;Q(s,a)指状态s下执行动作a获得的长期奖励;
Figure BDA00027230823400000713
为状态s下执行动作a获得的即时奖励;temp为常数;γ为折扣系数;E为求期望运算;T(s,a,s′)为状态转移方程,其给出了在状态s下执行动作a时,进入的下一个状态s′。
(8)子步骤3.3.2中,所述平均期望状态访问频率
Figure BDA0002723082340000081
的计算方法为:
对每一个跟车片段
Figure BDA0002723082340000082
从t=0开始,按如下公式迭代计算T-1次,记录状态访问频率
Figure BDA0002723082340000083
其中,t∈[0,1,…,T]:
Figure BDA0002723082340000084
st+1=T(s,a)
Figure BDA0002723082340000085
其中,随机采样函数random_sample()是用来从策略函数
Figure BDA0002723082340000086
中采样得到状态st下的控制动作at,最终可得平均期望状态访问频率
Figure BDA0002723082340000087
为:
Figure BDA0002723082340000088
其中,N6为重复采样次数。
(9)子步骤3.3.2中,所述利用平均期望状态访问频率
Figure BDA0002723082340000089
计算第i5次迭代时神经网络的梯度
Figure BDA00027230823400000810
并采用神经网络的梯度
Figure BDA00027230823400000811
更新神经网络参数
Figure BDA00027230823400000812
具体为:
Figure BDA00027230823400000813
Figure BDA00027230823400000814
Figure BDA00027230823400000815
其中,μD为实际的状态动作访问频率,
Figure BDA00027230823400000816
为第i5次迭代时神经网络的损失,back_propagation为反向传播计算。
与现有技术相比,本发明的有益效果为:
1)本发明的基于深度逆强化学习的模拟驾驶风格的跟车系统结构简单,易于实现,且所需的硬件设备如毫米波雷达、车速采集装置成本较低,目前在某些上市车型中已有装备。
2)本发明的基于深度逆强化学习的模拟驾驶风格的跟车方法中,采用数据驱动方法实现跟车模型,从大量行车数据中学习驾驶人的跟车行为、驾驶风格,本方法所实现的跟车模型泛化能力强,能在不同的交通场景下准确模拟驾驶人的跟车行为,误差小。
3)本方法通过深度逆强化学习方法学习驾驶人跟车中的奖励函数,采用具有强大函数逼近能力的神经网络模型表示奖励函数,学习得到的奖励更加准确,能准确地表示驾驶人跟车中的不同驾驶风格。
4)本方法所采用的深度逆强化学习方法是基于最大熵原理,所得到的跟车策略模型为概率模型,学习到的跟车行为具有随机性,其更加符合人类行为随机性的特点。
附图说明
下面结合附图和具体实施例对本发明做进一步详细说明。
图1为本发明的基于深度逆强化学习的模拟驾驶风格的跟车系统的跟车模型训练框图;
图2为本发明的神经网络模型的结构图。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域的技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。
(一)参考图1,一种基于深度逆强化学习的模拟驾驶风格的跟车系统,包括:毫米波雷达、车速采集装置、车载工控机;其中,车速采集装置为车速传感器;车载工控机内集成有跟车数据处理器、数据存储硬盘和跟车模型。
其中,毫米波雷达用于实时采集自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息,并将采集的自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息储存在车载工控机相对应的数据存储硬盘中。
车速采集装置用于实时采集自车车速信息,并将采集的自车车速信息储存在车载工控机相对应的数据存储硬盘中。
车载工控机内部的跟车数据处理器用于对毫米波雷达、车速采集装置采集的行车数据信息进行处理,自动筛选并提取满足跟车模型训练所需的跟车数据片段,并将提取的跟车数据片段存储在相对应的数据存储硬盘中。跟车数据处理器还用于对提取的跟车数据片段进行跟车模型训练,得到跟车策略模型。
驾驶人在驾驶中会产生新的行车数据,将毫米波雷达和车速采集装置采集的行车数据信息在一定时间后重复执行,不断迭代更新跟车模型,以更好地学习驾驶人的跟车行为及跟车风格。
(二)一种基于深度逆强化学习的模拟驾驶风格的跟车方法,包括以下步骤:
步骤1,数据采集:毫米波雷达实时采集自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角信息,并将采集的自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息传递给车载工控机内部的跟车数据处理器。
车速采集装置实时采集自车车速v信息,并将采集的自车车速v信息传递给车载工控机内部的跟车数据处理器。
步骤2,跟车数据筛选:车载工控机内部的跟车数据处理器根据毫米波雷达、车速采集装置采集的行车数据信息进行处理,得到跟车模型训练所需的跟车数据。
具体的,步骤2包含以下子步骤:
子步骤2.1,为了保证有足够长的跟车数据以供模型训练,将步骤1中所采集数据每间隔15s作为一个待选数据片段,第i1个待选数据片段记为
Figure BDA0002723082340000111
N1为片段总数,每个片段中包含有自车车速v、自车与前车的间距h、自车与前车的侧向距离d、自车与前车的相对速度Δv及方位角θ五种类型的数据,对每个待选片段按照以下规则进行筛选。
子步骤2.2,为了确保跟车中自车与前车处于同一车道,自车与前车的侧向距离d应小于2.5m。对
Figure BDA0002723082340000112
片段中的方位角θ按如下规则进行判定,若满足该条件,则保留并进行子步骤2.3,反之则删除Di片段,继续对下一个片段按照本步骤进行判定;
Figure BDA0002723082340000113
子步骤2.3,为了确保前车对自车的车速控制产生影响,自车与前车的间距h应小于120m。对满足子步骤2.2的片段
Figure BDA0002723082340000114
按如下条件进一步筛选,将满足该条件的数据片段
Figure BDA0002723082340000115
存储于车载工控机相对应的数据存储硬盘中,作为步骤3中跟车模型训练所需数据集
Figure BDA0002723082340000116
否则,删除该Di片段;
Figure BDA0002723082340000117
步骤3,跟车模型实现:车载工控机内部的跟车数据处理器对得到的所述跟车模型训练所需的跟车数据采用深度逆强化学习方法进行跟车模型训练,得到跟车策略模型。
深度逆强化学习方法可克服行为克隆方法带来的复合误差问题,该方法不直接学习状态与行为的映射关系,而是首先学习奖励函数r,再通过强化学习方法及奖励r求解策略π(a|s)。强化学习方法假设一个智能体遵循某种奖励函数,其行为选择的目标是追求累积奖励的最大化。若确定了奖励函数,智能体的行为便有了一定约束,带来较高奖励的行为会被智能体重复选择,而奖励较低的行为则会被智能体舍弃。
本发明采用的深度逆强化学习方法是基于最大熵原理,是通过一个神经网络来表示驾驶人跟车过程中的奖励函数r,采用神经网络的优势是利用神经网络强大的非线性函数表示能力,更为准确地逼近驾驶人跟车过程中真实的奖励函数。
跟车策略模型的具体实现包含以下子步骤:
子步骤3.1,通过Python语言的科学计算库numpy建立跟车环境,包括跟车离散状态空间S、离散动作空间A及状态转移方程T。状态空间S中包含有自车车速v、自车与前车的间距h、相对速度Δv三种类型的状态,动作空间A包含加速度a。本方法采用离散状态及动作空间,因此需预先定义状态空间S中各状态的取值区间及间隔大小,以及加速度的取值区间及间隔。
具体的,根据前文所述的跟车数据的筛选方法及采集跟车数据的实际分布,本发明采用的离散状态空间中各类状态的取值具体如下,其中自车车速的取值区间为[0,33],取值间隔为1m/s,即v=[0,1,…,33]m/s;自车与前车的间距的取值区间为[0,120],取值间隔为1m,即h=[0,1,…,120]m;相对速度的取值区间为[-5,5],取值间隔为1m/s,即Δv=[-5,-4,…,5]m/s。本发明采用的离散动作空间中,加速度的取值区间为[-3,3],取值间隔为0.2m/s2,即a=[-3,-2.8,…,3]m/s2
定义跟车过程的状态转移方程T,根据基本运动学关系式可得出状态转移方程T,利用状态转移方程可以得出在状态st下采用动作a(4)后进入的下一个状态st+1。即当前状态st={v(t),Δv(t),h(t)}下采取动作a(t)时,下一时刻的状态st+1={v(t+1),Δv(t+1),h(t+1)}可通过如下公式进行计算:
v(t+1)=v(t)+a(t)*Δt
Δv(t+1)=vlead(t+1)-v(t+1)
Figure BDA0002723082340000131
在上式中,vlead(t+1)为跟车过程中前车在t+1时刻下的车速,从所采集数据中进行获取;Δt为时间间隔,可根据传感器的采样频率确定。
子步骤3.2,利用Tensorflow深度学习环境创建神经网络,其初始参数设为θ1,有两个中间层,如图2所示,神经网络的输入为表征驾驶人跟车中车辆控制目标的特征
Figure BDA0002723082340000132
i2∈[1,2,…,N2],N2为特征的总数,神经网络的输出为驾驶人的奖励r。
具体的,子步骤3.2中,通过如下步骤计算神经网络的输入特征
Figure BDA0002723082340000133
(1)运用高斯径向基核函数,计算表征驾驶人跟车过程中跟车时距及相对车速控制目标的特征。
Figure BDA0002723082340000134
Figure BDA0002723082340000135
其中,
Figure BDA0002723082340000136
为第i3个预定义的驾驶人跟车过程中跟车时距,
Figure BDA0002723082340000137
为第i3个预定义的驾驶人跟车过程中跟车距离,
Figure BDA0002723082340000138
为第i3个预定义的驾驶人跟车过程中自车车速;
Figure BDA0002723082340000139
为第i3个表征驾驶人跟车过程中跟车时距及相对车速控制目标的特征,i3∈[1,2,…,N3],N3为预定义的驾驶人偏好跟车时距及相对车速二维向量的总个数。
Figure BDA0002723082340000141
为第i3个预定义猜测的驾驶人偏好跟车时距及相对车速二维向量数值,
Figure BDA0002723082340000142
Figure BDA0002723082340000143
为第i3个预定义的驾驶人跟车过程中相对车速,σ为跟车时距及相对车速二维向量的协方差。
(2)通过下式计算表征驾驶人跟车过程中的最大车速控制目标特征,即如驾驶人驾车车速大于该最大车速,得到的奖励为0;否则,得到的奖励为1:
Figure BDA0002723082340000144
其中,
Figure BDA0002723082340000145
为第i4个表征驾驶人跟车过程中的最大车速控制目标特征。
Figure BDA0002723082340000146
为第i4个预定义的猜测的驾驶人偏好最大车速,i4∈[1,2,…,N4],N4为预定义猜想的驾驶人偏好最大车速一维向量的总个数。
(3)最终,可得出神经网络的输入
Figure BDA0002723082340000147
则神经网络的输出
Figure BDA0002723082340000148
其中,g为神经网络的架构;θ为神经网络参数。
子步骤3.3,通过以下步骤进行跟车模型训练:
(1)令神经网络训练次数为i5;其中,i5∈[1,2,…,N5],N5为预定义的神经网络训练总次数。
(2)将神经网络参数θ随机初始化,即令i5=1,则初始化的神经网络参数
Figure BDA0002723082340000149
通过以下步骤依次求解第i5次迭代更新后的神经网络的输出
Figure BDA00027230823400001410
(即第i5次迭代更新后的奖励函数)、策略函数
Figure BDA00027230823400001411
平均期望状态访问频率
Figure BDA00027230823400001412
以及神经网络的梯度
Figure BDA00027230823400001413
并采用神经网络的梯度
Figure BDA00027230823400001414
更新神经网络参数
Figure BDA00027230823400001415
具体如下:
①通过神经网络的前向传播获得第i5次迭代更新后的神经网络的输出
Figure BDA00027230823400001416
②采用软化的值迭代算法求解奖励为
Figure BDA0002723082340000151
下的策略函数
Figure BDA0002723082340000152
软化的值迭代算法共两个步骤,具体如下:
子步骤a:初始化V(s)=-∞
子步骤b:
重复以下计算直至max(V(s)-V′(s))<ε,V′为中间变量,存储V(s)的最新数值;ε为预定义的算法迭代停止判定阈值。
V′(s)=V(s)
Figure BDA0002723082340000153
V(s)=temp*log∫aexp(Q(s,a)/temp)da
待上述计算完成后,可得第i5次神经网络参数迭代更新后输出的策略函数
Figure BDA0002723082340000154
其中,V(s)指状态s的值,表示该状态下的长期奖励;Q(s,a)指状态s下执行动作a获得的长期奖励;
Figure BDA0002723082340000155
为状态s下执行动作a获得的即时奖励;temp为常数;γ为折扣系数,可取值0.99;E为求期望运算;T(s,a,s′)为状态转移方程,其给出了在状态s下执行动作a时,进入的下一个状态s′。
③利用步骤②得到的策略函数
Figure BDA0002723082340000156
计算当前的平均期望状态访问频率
Figure BDA0002723082340000157
具体如下:
重复如下步骤N6次,具体如下:
对每一个跟车片段
Figure BDA0002723082340000158
从t=0开始,按如下公式迭代计算T-1次,记录状态访问频率
Figure BDA0002723082340000159
其中,t∈[0,1,…,T]。
Figure BDA00027230823400001510
st+1=T(s,a)
Figure BDA0002723082340000161
其中,随机采样函数random_sample()是用来从策略函数
Figure BDA0002723082340000162
中采样得到状态st下的控制动作at,该函数可直接采用numpy库中的random.choice函数。最终可得到策略为
Figure BDA0002723082340000163
下的平均期望状态访问频率
Figure BDA0002723082340000164
为:
Figure BDA0002723082340000165
其中,N6为重复采样次数。
④计算神经网络的梯度,通过反向传播及梯度下降算法更新神经网络的参数,μD为实际的状态动作访问频率,可利用实际采集的跟车数据进行统计,
Figure BDA0002723082340000166
为第i5次迭代时神经网络的损失,
Figure BDA0002723082340000167
为第i5次迭代时神经网络的梯度,back_propagation为反向传播计算,Tensorflow中已提供了反向传播运算的函数接口:
Figure BDA0002723082340000168
Figure BDA0002723082340000169
Figure BDA00027230823400001610
(3)令i5依次增加1(即i5+=1),重复步骤(2),直至i5=N5,完成整个迭代步骤,即可获得最终的奖励及策略函数。
步骤4,继续执行步骤1-2,以获取更多的驾驶人跟车数据。当间隔某一时间段T1后,重新执行步骤3,重新训练以获取更为准确的奖励及策略函数。
步骤5,将步骤4得到的策略函数存储于所述车载工控机相对应的数据存储硬盘中。
虽然,本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种基于深度逆强化学习的模拟驾驶风格的跟车系统,其特征在于,包括:毫米波雷达、车速采集装置、车载工控机;其中,所述车载工控机内集成有跟车数据处理器和数据存储硬盘;所述车速采集装置为车速传感器;
所述毫米波雷达用于采集自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息,并将采集的自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息储存在所述车载工控机相对应的数据存储硬盘中;
所述车速采集装置用于采集自车车速信息,并将采集的自车车速信息储存在所述车载工控机相对应的数据存储硬盘中;
所述跟车数据处理器用于对所述毫米波雷达、车速采集装置采集的信息进行处理,自动筛选并提取满足跟车模型训练所需的跟车数据片段,并将提取的跟车数据片段存储在相对应的数据存储硬盘中;
所述跟车数据处理器还用于对所述提取的跟车数据片段进行跟车模型训练,得到跟车策略模型。
2.一种基于深度逆强化学习的模拟驾驶风格的跟车方法,其特征在于,包括以下步骤:
步骤1,数据采集
毫米波雷达实时采集自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息,并将采集的自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息传递给车载工控机内部的跟车数据处理器;
车速采集装置实时采集自车车速v信息,并将采集的自车车速v信息传递给车载工控机内部的跟车数据处理器;
步骤2,跟车数据筛选
车载工控机内部的跟车数据处理器根据毫米波雷达、车速采集装置采集的行车数据信息进行处理,得到跟车模型训练所需的跟车数据;
步骤3,跟车策略模型实现
车载工控机内部的跟车数据处理器对得到的所述跟车模型训练所需的跟车数据采用深度逆强化学习方法进行跟车模型训练,得到跟车策略模型;
步骤4,重复执行步骤1-2,获取更多的跟车模型训练所需的跟车数据;间隔某一时间段T1后,重新执行步骤3,对跟车策略模型进行重新训练,获得更为准确的跟车策略模型;
步骤5,将步骤4得到的跟车策略模型存储于所述车载工控机相对应的数据存储硬盘中。
3.根据权利要求2所述的基于深度逆强化学习的模拟驾驶风格的跟车方法,其特征在于,步骤2包含以下子步骤:
子步骤2.1,将毫米波雷达、车速采集装置采集的行车数据信息每间隔15s作为一个待选数据片段;其中,第i1个待选数据片段记为
Figure FDA0002723082330000025
N1为片段总数;
子步骤2.2,对每个待选数据片段
Figure FDA0002723082330000021
中的方位角θ按如下条件进行判定,若满足该条件,则保留该待选数据片段并进行子步骤2.3;否则,删除该Di片段:
Figure FDA0002723082330000022
子步骤2.3,对满足子步骤2.2的片段
Figure FDA0002723082330000023
按如下条件进一步筛选,若满足该条件,则保留该待选数据片段
Figure FDA0002723082330000024
并存储于车载工控机相对应的数据存储硬盘中,得到满足跟车模型训练所需数据集
Figure FDA0002723082330000031
否则,删除该Di片段:
Figure FDA0002723082330000032
4.根据权利要求2所述的基于深度逆强化学习的模拟驾驶风格的跟车方法,其特征在于,步骤3中,所述深度逆强化学习方法包含以下子步骤:
子步骤3.1,建立跟车环境,包括跟车离散状态空间S、离散动作空间A及状态转移方程T;其中,状态空间S中包含有自车车速v、自车与前车的间距h、相对速度Δv三种类型的状态,动作空间A包含加速度a;
设定t时刻下状态st下采用动作a(t),st={v(t),Δv(t),h(t)},则利用所述状态转移方程T即可得到下一时刻状态st+1,st+1={v(t+1),Δv(t+1),h(t+1)};其中,所述状态转移方程T为:
v(t+1)=v(t)+a(t)*Δt
Δv(t+1)=vlead(t+1)-v(t+1)
Figure FDA0002723082330000033
其中,vlead(t+1)为跟车过程中前车在t+1时刻下的车速,Δt为时间间隔;
子步骤3.2,利用Tensorflow深度学习环境创建神经网络,神经网络的输入为表征驾驶人跟车中车辆控制目标的特征
Figure FDA0002723082330000034
N2为特征的总数,神经网络的输出为驾驶人的奖励r;
子步骤3.3,对所述驾驶人的奖励r进行跟车模型训练,得到最终的奖励及策略函数。
5.根据权利要求4所述的基于深度逆强化学习的模拟驾驶风格的跟车方法,其特征在于,子步骤3.2中,所述表征驾驶人跟车中车辆控制目标的特征
Figure FDA00027230823300000413
的计算方法包含以下子步骤:
子步骤3.2.1,运用高斯径向基核函数,计算第i3个表征驾驶人跟车过程中跟车时距及相对车速控制目标的特征
Figure FDA0002723082330000041
具体如下:
Figure FDA0002723082330000042
Figure FDA0002723082330000043
其中,i3∈[1,2,...,N3],N3为预定义的驾驶人偏好跟车时距及相对车速二维向量的总个数;
Figure FDA00027230823300000414
为第i3个预定义的驾驶人跟车过程中跟车时距,
Figure FDA00027230823300000415
为第i3个预定义的驾驶人跟车过程中跟车距离,
Figure FDA00027230823300000416
为第i3个预定义的驾驶人跟车过程中自车车速;
Figure FDA00027230823300000417
为第i3个预定义猜测的驾驶人偏好跟车时距及相对车速二维向量数值,
Figure FDA0002723082330000044
Figure FDA0002723082330000045
为第i3个预定义的驾驶人跟车过程中相对车速;σ为跟车时距及相对车速二维向量的协方差;
子步骤3.2.2,计算第i4个表征驾驶人跟车过程中的最大车速控制目标特征
Figure FDA0002723082330000046
具体为:若驾驶人的自车车速v大于第i4个预定义的猜测的驾驶人偏好最大车速
Figure FDA0002723082330000047
则得到的奖励为0;否则,得到的奖励为1,具体如下:
Figure FDA0002723082330000048
其中,i4∈[1,2,...,N4],N4为预定义猜想的驾驶人偏好最大车速一维向量的总个数;
子步骤3.3.3,根据所述表征驾驶人跟车中车辆控制目标的特征
Figure FDA0002723082330000049
和第i4个表征驾驶人跟车过程中的最大车速控制目标特征
Figure FDA00027230823300000410
计算得到表征驾驶人跟车中车辆控制目标的特征
Figure FDA00027230823300000411
Figure FDA00027230823300000412
6.根据权利要求5所述的基于深度逆强化学习的模拟驾驶风格的跟车方法,其特征在于,子步骤3.2中,所述驾驶人的奖励r为:
Figure FDA0002723082330000051
其中,g为神经网络的架构;θ为神经网络参数。
7.根据权利要求6所述的基于深度逆强化学习的模拟驾驶风格的跟车方法,其特征在于,步骤3.3具体包含以下子步骤:
子步骤3.3.1,令神经网络训练次数为i5;其中,i5∈[1,2,...,N5],N5为预定义的神经网络训练总次数;
子步骤3.3.2,将神经网络参数θ随机初始化,即令i5=1,则初始化的神经网络参数
Figure FDA0002723082330000052
通过神经网络的前向传播获得第i5次迭代更新后的奖励函数
Figure FDA0002723082330000053
采用软化的值迭代算法求解奖励为
Figure FDA00027230823300000511
下的第i5次神经网络参数迭代更新后输出的策略函数
Figure FDA0002723082330000054
利用策略函数
Figure FDA0002723082330000055
计算当前的平均期望状态访问频率
Figure FDA0002723082330000056
利用平均期望状态访问频率
Figure FDA0002723082330000057
计算第i5次迭代时神经网络的梯度
Figure FDA0002723082330000058
并采用神经网络的梯度
Figure FDA0002723082330000059
更新神经网络参数
Figure FDA00027230823300000510
子步骤3.3.3,令神经网络训练次数i5依次增加1,重复子步骤3.3.2,直至i5=N5,完成迭代,获得最终的奖励及策略函数。
8.根据权利要求7所述的基于深度逆强化学习的模拟驾驶风格的跟车方法,其特征在于,子步骤3.3.2中,所述软化的值迭代算法包含以下子步骤:
子步骤a:初始化V(s)=-∞
子步骤b:
重复以下计算直至max(V(s)-V′(s))<ε,V′为中间变量,存储V(s)的最新数值;ε为预定义的算法迭代停止判定阈值;
V′(s)=V(s)
Figure FDA0002723082330000061
V(s)=temp*log∫aexp(Q(s,a)/temp)da
待上述计算完成后,可得第i5次神经网络参数迭代更新后输出的策略函数
Figure FDA0002723082330000062
其中,V(s)指状态s的值,表示该状态下的长期奖励;Q(s,a)指状态s下执行动作a获得的长期奖励;
Figure FDA0002723082330000063
为状态s下执行动作a获得的即时奖励;temp为常数;γ为折扣系数;E为求期望运算;T(s,a,s′)为状态转移方程,其给出了在状态s下执行动作a时,进入的下一个状态s′。
9.根据权利要求7所述的基于深度逆强化学习的模拟驾驶风格的跟车方法,其特征在于,子步骤3.3.2中,所述平均期望状态访问频率
Figure FDA0002723082330000064
的计算方法为:
对每一个跟车片段
Figure FDA0002723082330000065
从t=0开始,按如下公式迭代计算T-1次,记录状态访问频率
Figure FDA0002723082330000066
其中,t∈[0,1,...,T]:
Figure FDA0002723082330000067
st+1=T(s,a)
Figure FDA0002723082330000068
其中,随机采样函数random_sample()是用来从策略函数
Figure FDA0002723082330000069
中采样得到状态st下的控制动作at,最终可得平均期望状态访问频率
Figure FDA00027230823300000610
为:
Figure FDA00027230823300000611
其中,N6为重复采样次数。
10.根据权利要求7所述的基于深度逆强化学习的模拟驾驶风格的跟车方法,其特征在于,子步骤3.3.2中,所述利用平均期望状态访问频率
Figure FDA0002723082330000071
计算第i5次迭代时神经网络的梯度
Figure FDA0002723082330000072
并采用神经网络的梯度
Figure FDA0002723082330000073
更新神经网络参数
Figure FDA0002723082330000074
具体为:
Figure FDA0002723082330000075
Figure FDA0002723082330000076
Figure FDA0002723082330000077
其中,μD为实际的状态动作访问频率,
Figure FDA0002723082330000078
为第i5次迭代时神经网络的损失,back_propagation为反向传播计算。
CN202011094067.8A 2020-10-14 2020-10-14 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 Active CN112172813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011094067.8A CN112172813B (zh) 2020-10-14 2020-10-14 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011094067.8A CN112172813B (zh) 2020-10-14 2020-10-14 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法

Publications (2)

Publication Number Publication Date
CN112172813A true CN112172813A (zh) 2021-01-05
CN112172813B CN112172813B (zh) 2022-03-04

Family

ID=73949875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011094067.8A Active CN112172813B (zh) 2020-10-14 2020-10-14 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法

Country Status (1)

Country Link
CN (1) CN112172813B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112677983A (zh) * 2021-01-07 2021-04-20 浙江大学 一种识别驾驶员驾驶风格的系统
CN113221469A (zh) * 2021-06-04 2021-08-06 上海天壤智能科技有限公司 增强交通模拟器真实性的逆强化学习方法及系统
CN113642114A (zh) * 2021-09-14 2021-11-12 吉林大学 可犯错的拟人化随机跟车驾驶行为建模方法
CN113665593A (zh) * 2021-10-22 2021-11-19 智己汽车科技有限公司 一种车辆智能驾驶纵向控制方法、系统及存储介质
CN114506321A (zh) * 2022-01-31 2022-05-17 重庆长安汽车股份有限公司 一种目标跟车距离计算系统及计算方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105182342A (zh) * 2015-09-29 2015-12-23 长安大学 一种颠簸路面车辆雷达目标位置的追踪装置及追踪方法
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN109624986A (zh) * 2019-03-01 2019-04-16 吉林大学 一种基于模式切换的驾驶风格的学习巡航控制系统及方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN109927725A (zh) * 2019-01-28 2019-06-25 吉林大学 一种具有驾驶风格学习能力的自适应巡航系统及实现方法
US20200001084A1 (en) * 2018-06-25 2020-01-02 Karen Robinson Universal modularized portable therapeutic limb and body rest pain management apparatus
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105182342A (zh) * 2015-09-29 2015-12-23 长安大学 一种颠簸路面车辆雷达目标位置的追踪装置及追踪方法
US20200001084A1 (en) * 2018-06-25 2020-01-02 Karen Robinson Universal modularized portable therapeutic limb and body rest pain management apparatus
CN109213148A (zh) * 2018-08-03 2019-01-15 东南大学 一种基于深度强化学习的车辆低速跟驰决策方法
CN109733415A (zh) * 2019-01-08 2019-05-10 同济大学 一种基于深度强化学习的拟人化自动驾驶跟驰模型
CN109927725A (zh) * 2019-01-28 2019-06-25 吉林大学 一种具有驾驶风格学习能力的自适应巡航系统及实现方法
CN109624986A (zh) * 2019-03-01 2019-04-16 吉林大学 一种基于模式切换的驾驶风格的学习巡航控制系统及方法
CN110745136A (zh) * 2019-09-20 2020-02-04 中国科学技术大学 一种驾驶自适应控制方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112677983A (zh) * 2021-01-07 2021-04-20 浙江大学 一种识别驾驶员驾驶风格的系统
CN113221469A (zh) * 2021-06-04 2021-08-06 上海天壤智能科技有限公司 增强交通模拟器真实性的逆强化学习方法及系统
CN113642114A (zh) * 2021-09-14 2021-11-12 吉林大学 可犯错的拟人化随机跟车驾驶行为建模方法
CN113642114B (zh) * 2021-09-14 2023-10-17 吉林大学 可犯错的拟人化随机跟车驾驶行为建模方法
CN113665593A (zh) * 2021-10-22 2021-11-19 智己汽车科技有限公司 一种车辆智能驾驶纵向控制方法、系统及存储介质
CN114506321A (zh) * 2022-01-31 2022-05-17 重庆长安汽车股份有限公司 一种目标跟车距离计算系统及计算方法
CN114506321B (zh) * 2022-01-31 2023-09-29 重庆长安汽车股份有限公司 一种目标跟车距离计算系统及计算方法

Also Published As

Publication number Publication date
CN112172813B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN112172813B (zh) 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN112201069B (zh) 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
CN110991027A (zh) 一种基于虚拟场景训练的机器人模仿学习方法
CN113561986B (zh) 自动驾驶汽车决策方法及装置
CN110956148A (zh) 无人车的自主避障方法及装置、电子设备、可读存储介质
CN109840595B (zh) 一种基于群体学习行为特征的知识追踪方法
CN113610235B (zh) 一种基于深度知识追踪的适应性学习支持装置及方法
CN114162146B (zh) 行驶策略模型训练方法以及自动驾驶的控制方法
CN116110022B (zh) 基于响应知识蒸馏的轻量化交通标志检测方法及系统
CN111428448A (zh) 文本生成方法、装置、计算机设备及可读存储介质
CN114881339A (zh) 车辆轨迹预测方法、系统、计算机设备及存储介质
CN114926802A (zh) 基于双层lstm网络的车辆轨迹预测方法
CN115376103A (zh) 一种基于时空图注意力网络的行人轨迹预测方法
CN112651499A (zh) 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法
CN117008620A (zh) 一种无人驾驶自适应路径规划方法、系统、设备及介质
CN112508080B (zh) 基于经验回放的车辆型号识别方法、装置、设备及介质
CN113962424A (zh) 基于PCANet-BiGRU的成绩预测方法、处理器、可读存储介质及计算机设备
CN114140286A (zh) 一种驾培指导方法及终端
CN113837220A (zh) 基于在线持续学习的机器人目标识别方法、系统及设备
CN112884129B (zh) 一种基于示教数据的多步规则提取方法、设备及存储介质
CN109409226A (zh) 一种基于级联优化cnn的手指静脉图质量评估方法及其装置
CN112560354B (zh) 一种基于高斯过程回归的跟车行为建模方法
CN113609777B (zh) 一种基于车载感知设备的车辆行为分析方法与装置
CN117236900B (zh) 基于流程自动化的个税数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant