CN112172813B - 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 - Google Patents
基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 Download PDFInfo
- Publication number
- CN112172813B CN112172813B CN202011094067.8A CN202011094067A CN112172813B CN 112172813 B CN112172813 B CN 112172813B CN 202011094067 A CN202011094067 A CN 202011094067A CN 112172813 B CN112172813 B CN 112172813B
- Authority
- CN
- China
- Prior art keywords
- following
- vehicle
- driver
- car
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000002787 reinforcement Effects 0.000 title claims abstract description 36
- 230000006870 function Effects 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims description 67
- 230000009471 action Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000013500 data storage Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000006399 behavior Effects 0.000 abstract description 21
- 239000000284 extract Substances 0.000 abstract 1
- 238000004088 simulation Methods 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000010367 cloning Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W30/00—Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
- B60W30/14—Adaptive cruise control
- B60W30/16—Control of distance between vehicles, e.g. keeping a distance to preceding vehicle
- B60W30/165—Automatically following the path of a preceding lead vehicle, e.g. "electronic tow-bar"
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/02—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to ambient conditions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W40/00—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
- B60W40/10—Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
- B60W40/105—Speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/80—Spatial relation or speed relative to objects
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/80—Spatial relation or speed relative to objects
- B60W2554/802—Longitudinal distance
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/80—Spatial relation or speed relative to objects
- B60W2554/804—Relative longitudinal speed
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2554/00—Input parameters relating to objects
- B60W2554/80—Spatial relation or speed relative to objects
- B60W2554/805—Azimuth angle
Landscapes
- Engineering & Computer Science (AREA)
- Automation & Control Theory (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
Abstract
本发明属于智能驾驶技术领域,公开了一种基于深度逆强化学习的模拟驾驶风格的跟车系统及方法,该跟车系统包括:采集自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息的毫米波雷达,采集自车车速的车速采集装置,以及车载工控机;车载工控机内的跟车数据处理器对毫米波雷达、车速采集装置采集的信息进行处理,提取满足跟车模型训练所需的跟车数据片段,并对其进行跟车模型训练得到跟车策略模型;该跟车系统结构简单,通过深度逆强化学习方法从驾驶人历史跟车数据中学习奖励函数,并利用奖励函数及强化学习方法求解驾驶人的跟车策略,得到的跟车模型能模拟不同驾驶人的驾驶风格,理解驾驶人跟车过程中的偏好,生成拟人化的跟车行为。
Description
技术领域
本发明涉及智能驾驶技术领域,具体涉及基于深度逆强化学习的模拟驾驶风格的跟车系统及方法。
背景技术
跟车是指驾驶人驾驶车辆跟随前车行驶,是日常驾驶最为常见的一种情况。在城市交通情况下,驾驶人跟车所占的时间比例一般大于50%。为了实现交通仿真、驾驶辅助系统测试以及自动驾驶,有大量研究针对驾驶人跟车行为构建了跟车模型。
跟车模型的作用是模拟驾驶人的跟车行为及特点,使车辆能够按照驾驶人的驾驶风格跟随前车行驶。当前,已有的跟车模型包括两种类型:一种是传统模型,其特点是采用显式的数学关系式来描述跟车过程,在模型公式中一般设有多个参数用以代表驾驶人的驾驶风格。另一种是数据驱动模型,这类模型无显式的数学关系式,一般采用神经网络,利用驾驶人的跟车数据学习表示驾驶人的跟车特性。在这两种模型中,数据驱动模型被发现相比传统模型有更好的跟车模拟准确性及泛化能力。
在数据驱动模型中,一般采用深度最大熵逆强化学习方法训练跟车模型,深度最大熵逆强化学习方法属于模仿学习,模仿学习的目的是学习模仿人类的行为,获取跟车过程中驾驶人的策略函数,即车辆运动状态s与驾驶人控制车辆动作a之间的函数关系π(a|s)。在模仿学习中,一类方法被称为行为克隆,其原理是采用神经网络或其它数据驱动模型来表示π(a|s),通过梯度下降方法训练神经网络的参数,训练得到的神经网络模型可以模拟人的行为及特点。行为克隆方法已证明可在数据量充足的条件下较为准确地实现行为模拟,然而当数据量不足时,行为克隆会导致出现复合误差问题,即当数据量不足时,模型拟合较差,其预测结果会有一定误差,在仿真过程中误差会进行累积,最终使模型面对一些训练数据中未包含的状态,在这种情况下,模型会输出更差的预测结果。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种基于深度逆强化学习的模拟驾驶风格的跟车系统及方法,该跟车系统结构简单,易于实现;其方法属于数据驱动方法,相比传统跟车模型具有更好的跟车行为模拟准确性;相比现有的数据驱动跟车模型,本方法是通过深度逆强化学习方法从驾驶人历史跟车数据中学习驾驶人跟车过程中的奖励函数,进而利用奖励函数及强化学习方法求解驾驶人的跟车策略,本方法得到的跟车模型能模拟不同驾驶人的驾驶风格,理解驾驶人跟车过程中的偏好,生成拟人化的跟车行为。
为了达到上述目的,本发明采用以下技术方案予以实现。
(一)一种基于深度逆强化学习的模拟驾驶风格的跟车系统,包括:毫米波雷达、车速采集装置、车载工控机;其中,所述车载工控机内集成有跟车数据处理器和数据存储硬盘;
所述毫米波雷达用于采集自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息,并将采集的自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息储存在所述车载工控机相对应的数据存储硬盘中;
所述车速采集装置用于采集自车车速信息,并将采集的自车车速信息储存在所述车载工控机相对应的数据存储硬盘中;
所述跟车数据处理器用于对所述毫米波雷达、车速采集装置采集的信息进行处理,自动筛选并提取满足跟车模型训练所需的跟车数据片段,并将提取的跟车数据片段存储在相对应的数据存储硬盘中;
所述跟车数据处理器还用于对所述提取的跟车数据片段进行跟车模型训练,得到跟车策略模型。
进一步的,所述车速采集装置为车速传感器。
(二)一种基于深度逆强化学习的模拟驾驶风格的跟车方法,包括以下步骤:
步骤1,数据采集
毫米波雷达实时采集自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息,并将采集的自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息传递给车载工控机内部的跟车数据处理器;
车速采集装置实时采集自车车速v信息,并将采集的自车车速v信息传递给车载工控机内部的跟车数据处理器;
步骤2,跟车数据筛选
车载工控机内部的跟车数据处理器根据毫米波雷达、车速采集装置采集的行车数据信息进行处理,得到跟车模型训练所需的跟车数据;
步骤3,跟车策略模型实现
车载工控机内部的跟车数据处理器对得到的所述跟车模型训练所需的跟车数据采用深度逆强化学习方法进行跟车模型训练,得到跟车策略模型;
步骤4,重复执行步骤1-2,获取更多的跟车模型训练所需的跟车数据;间隔某一时间段T1后,重新执行步骤3,对跟车策略模型进行重新训练,获得更为准确的跟车策略模型;
步骤5,将步骤4得到的跟车策略模型存储于所述车载工控机相对应的数据存储硬盘中。
本发明技术方案的特点和进一步的改进为:
(1)步骤2包含以下子步骤:
(2)步骤3中,所述深度逆强化学习方法包含以下子步骤:
子步骤3.1,建立跟车环境,包括跟车离散状态空间S、离散动作空间A及状态转移方程T;其中,状态空间S中包含有自车车速v、自车与前车的间距h、相对速度Δv三种类型的状态,动作空间A包含加速度a;
设定t时刻下状态st下采用动作a(t),st={v(t),Δv(t),h(t)},则利用所述状态转移方程T即可得到下一时刻状态st+1,st+1={v(t+1),Δv(t+1),h(t+1)};其中,所述状态转移方程T为:
v(t+1)=v(t)+a(t)*Δt
Δv(t+1)=vlead(t+1)-v(t+1)
其中,vlead(t+1)为跟车过程中前车在t+1时刻下的车速,Δt为时间间隔;
子步骤3.3,对所述驾驶人的奖励r进行跟车模型训练,得到最终的奖励及策略函数。
其中,i4∈[1,2,…,N4],N4为预定义猜想的驾驶人偏好最大车速一维向量的总个数;
(4)子步骤3.2.1具体为:
其中,为第i3个预定义的驾驶人跟车过程中跟车时距,为第i3个预定义的驾驶人跟车过程中跟车距离,为第i3个预定义的驾驶人跟车过程中自车车速;为第i3个预定义猜测的驾驶人偏好跟车时距及相对车速二维向量数值, 为第i3个预定义的驾驶人跟车过程中相对车速;σ为跟车时距及相对车速二维向量的协方差。
(5)子步骤3.2中,所述驾驶人的奖励r为:
其中,g为神经网络的架构;θ为神经网络参数。
(6)步骤3.3具体包含以下子步骤:
子步骤3.3.1,令神经网络训练次数为i5;其中,i5∈[1,2,…,N5],N5为预定义的神经网络训练总次数;
子步骤3.3.3,令神经网络训练次数i5依次增加1,重复子步骤3.3.2,直至i5=N5,完成迭代,获得最终的奖励及策略函数。
(7)子步骤3.3.2中,所述软化的值迭代算法包含以下子步骤:
子步骤a:初始化V(s)=-∞
子步骤b:
重复以下计算直至max(V(s)-V′(s))<ε,V′为中间变量,存储V(s)的最新数值;ε为预定义的算法迭代停止判定阈值;
V′(s)=V(s)
V(s)=temp*log∫aexp(Q(s,a)/temp)da
其中,V(s)指状态s的值,表示该状态下的长期奖励;Q(s,a)指状态s下执行动作a获得的长期奖励;为状态s下执行动作a获得的即时奖励;temp为常数;γ为折扣系数;E为求期望运算;T(s,a,s′)为状态转移方程,其给出了在状态s下执行动作a时,进入的下一个状态s′。
st+1=T(s,a)
其中,N6为重复采样次数。
与现有技术相比,本发明的有益效果为:
1)本发明的基于深度逆强化学习的模拟驾驶风格的跟车系统结构简单,易于实现,且所需的硬件设备如毫米波雷达、车速采集装置成本较低,目前在某些上市车型中已有装备。
2)本发明的基于深度逆强化学习的模拟驾驶风格的跟车方法中,采用数据驱动方法实现跟车模型,从大量行车数据中学习驾驶人的跟车行为、驾驶风格,本方法所实现的跟车模型泛化能力强,能在不同的交通场景下准确模拟驾驶人的跟车行为,误差小。
3)本方法通过深度逆强化学习方法学习驾驶人跟车中的奖励函数,采用具有强大函数逼近能力的神经网络模型表示奖励函数,学习得到的奖励更加准确,能准确地表示驾驶人跟车中的不同驾驶风格。
4)本方法所采用的深度逆强化学习方法是基于最大熵原理,所得到的跟车策略模型为概率模型,学习到的跟车行为具有随机性,其更加符合人类行为随机性的特点。
附图说明
下面结合附图和具体实施例对本发明做进一步详细说明。
图1为本发明的基于深度逆强化学习的模拟驾驶风格的跟车系统的跟车模型训练框图;
图2为本发明的神经网络模型的结构图。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域的技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。
(一)参考图1,一种基于深度逆强化学习的模拟驾驶风格的跟车系统,包括:毫米波雷达、车速采集装置、车载工控机;其中,车速采集装置为车速传感器;车载工控机内集成有跟车数据处理器、数据存储硬盘和跟车模型。
其中,毫米波雷达用于实时采集自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息,并将采集的自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息储存在车载工控机相对应的数据存储硬盘中。
车速采集装置用于实时采集自车车速信息,并将采集的自车车速信息储存在车载工控机相对应的数据存储硬盘中。
车载工控机内部的跟车数据处理器用于对毫米波雷达、车速采集装置采集的行车数据信息进行处理,自动筛选并提取满足跟车模型训练所需的跟车数据片段,并将提取的跟车数据片段存储在相对应的数据存储硬盘中。跟车数据处理器还用于对提取的跟车数据片段进行跟车模型训练,得到跟车策略模型。
驾驶人在驾驶中会产生新的行车数据,将毫米波雷达和车速采集装置采集的行车数据信息在一定时间后重复执行,不断迭代更新跟车模型,以更好地学习驾驶人的跟车行为及跟车风格。
(二)一种基于深度逆强化学习的模拟驾驶风格的跟车方法,包括以下步骤:
步骤1,数据采集:毫米波雷达实时采集自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角信息,并将采集的自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息传递给车载工控机内部的跟车数据处理器。
车速采集装置实时采集自车车速v信息,并将采集的自车车速v信息传递给车载工控机内部的跟车数据处理器。
步骤2,跟车数据筛选:车载工控机内部的跟车数据处理器根据毫米波雷达、车速采集装置采集的行车数据信息进行处理,得到跟车模型训练所需的跟车数据。
具体的,步骤2包含以下子步骤:
子步骤2.1,为了保证有足够长的跟车数据以供模型训练,将步骤1中所采集数据每间隔15s作为一个待选数据片段,第i1个待选数据片段记为N1为片段总数,每个片段中包含有自车车速v、自车与前车的间距h、自车与前车的侧向距离d、自车与前车的相对速度Δv及方位角θ五种类型的数据,对每个待选片段按照以下规则进行筛选。
子步骤2.2,为了确保跟车中自车与前车处于同一车道,自车与前车的侧向距离d应小于2.5m。对片段中的方位角θ按如下规则进行判定,若满足该条件,则保留并进行子步骤2.3,反之则删除Di片段,继续对下一个片段按照本步骤进行判定;
子步骤2.3,为了确保前车对自车的车速控制产生影响,自车与前车的间距h应小于120m。对满足子步骤2.2的片段按如下条件进一步筛选,将满足该条件的数据片段存储于车载工控机相对应的数据存储硬盘中,作为步骤3中跟车模型训练所需数据集否则,删除该Di片段;
步骤3,跟车模型实现:车载工控机内部的跟车数据处理器对得到的所述跟车模型训练所需的跟车数据采用深度逆强化学习方法进行跟车模型训练,得到跟车策略模型。
深度逆强化学习方法可克服行为克隆方法带来的复合误差问题,该方法不直接学习状态与行为的映射关系,而是首先学习奖励函数r,再通过强化学习方法及奖励r求解策略π(a|s)。强化学习方法假设一个智能体遵循某种奖励函数,其行为选择的目标是追求累积奖励的最大化。若确定了奖励函数,智能体的行为便有了一定约束,带来较高奖励的行为会被智能体重复选择,而奖励较低的行为则会被智能体舍弃。
本发明采用的深度逆强化学习方法是基于最大熵原理,是通过一个神经网络来表示驾驶人跟车过程中的奖励函数r,采用神经网络的优势是利用神经网络强大的非线性函数表示能力,更为准确地逼近驾驶人跟车过程中真实的奖励函数。
跟车策略模型的具体实现包含以下子步骤:
子步骤3.1,通过Python语言的科学计算库numpy建立跟车环境,包括跟车离散状态空间S、离散动作空间A及状态转移方程T。状态空间S中包含有自车车速v、自车与前车的间距h、相对速度Δv三种类型的状态,动作空间A包含加速度a。本方法采用离散状态及动作空间,因此需预先定义状态空间S中各状态的取值区间及间隔大小,以及加速度的取值区间及间隔。
具体的,根据前文所述的跟车数据的筛选方法及采集跟车数据的实际分布,本发明采用的离散状态空间中各类状态的取值具体如下,其中自车车速的取值区间为[0,33],取值间隔为1m/s,即v=[0,1,…,33]m/s;自车与前车的间距的取值区间为[0,120],取值间隔为1m,即h=[0,1,…,120]m;相对速度的取值区间为[-5,5],取值间隔为1m/s,即Δv=[-5,-4,…,5]m/s。本发明采用的离散动作空间中,加速度的取值区间为[-3,3],取值间隔为0.2m/s2,即a=[-3,-2.8,…,3]m/s2。
定义跟车过程的状态转移方程T,根据基本运动学关系式可得出状态转移方程T,利用状态转移方程可以得出在状态st下采用动作a(4)后进入的下一个状态st+1。即当前状态st={v(t),Δv(t),h(t)}下采取动作a(t)时,下一时刻的状态st+1={v(t+1),Δv(t+1),h(t+1)}可通过如下公式进行计算:
v(t+1)=v(t)+a(t)*Δt
Δv(t+1)=vlead(t+1)-v(t+1)
在上式中,vlead(t+1)为跟车过程中前车在t+1时刻下的车速,从所采集数据中进行获取;Δt为时间间隔,可根据传感器的采样频率确定。
子步骤3.2,利用Tensorflow深度学习环境创建神经网络,其初始参数设为θ1,有两个中间层,如图2所示,神经网络的输入为表征驾驶人跟车中车辆控制目标的特征i2∈[1,2,…,N2],N2为特征的总数,神经网络的输出为驾驶人的奖励r。
(1)运用高斯径向基核函数,计算表征驾驶人跟车过程中跟车时距及相对车速控制目标的特征。
其中,为第i3个预定义的驾驶人跟车过程中跟车时距,为第i3个预定义的驾驶人跟车过程中跟车距离,为第i3个预定义的驾驶人跟车过程中自车车速;为第i3个表征驾驶人跟车过程中跟车时距及相对车速控制目标的特征,i3∈[1,2,…,N3],N3为预定义的驾驶人偏好跟车时距及相对车速二维向量的总个数。为第i3个预定义猜测的驾驶人偏好跟车时距及相对车速二维向量数值, 为第i3个预定义的驾驶人跟车过程中相对车速,σ为跟车时距及相对车速二维向量的协方差。
(2)通过下式计算表征驾驶人跟车过程中的最大车速控制目标特征,即如驾驶人驾车车速大于该最大车速,得到的奖励为0;否则,得到的奖励为1:
子步骤3.3,通过以下步骤进行跟车模型训练:
(1)令神经网络训练次数为i5;其中,i5∈[1,2,…,N5],N5为预定义的神经网络训练总次数。
(2)将神经网络参数θ随机初始化,即令i5=1,则初始化的神经网络参数通过以下步骤依次求解第i5次迭代更新后的神经网络的输出(即第i5次迭代更新后的奖励函数)、策略函数平均期望状态访问频率以及神经网络的梯度并采用神经网络的梯度更新神经网络参数具体如下:
子步骤a:初始化V(s)=-∞
子步骤b:
重复以下计算直至max(V(s)-V′(s))<ε,V′为中间变量,存储V(s)的最新数值;ε为预定义的算法迭代停止判定阈值。
V′(s)=V(s)
V(s)=temp*log∫aexp(Q(s,a)/temp)da
其中,V(s)指状态s的值,表示该状态下的长期奖励;Q(s,a)指状态s下执行动作a获得的长期奖励;为状态s下执行动作a获得的即时奖励;temp为常数;γ为折扣系数,可取值0.99;E为求期望运算;T(s,a,s′)为状态转移方程,其给出了在状态s下执行动作a时,进入的下一个状态s′。
重复如下步骤N6次,具体如下:
st+1=T(s,a)
其中,随机采样函数random_sample()是用来从策略函数中采样得到状态st下的控制动作at,该函数可直接采用numpy库中的random.choice函数。最终可得到策略为下的平均期望状态访问频率为:
其中,N6为重复采样次数。
④计算神经网络的梯度,通过反向传播及梯度下降算法更新神经网络的参数,μD为实际的状态动作访问频率,可利用实际采集的跟车数据进行统计,为第i5次迭代时神经网络的损失,为第i5次迭代时神经网络的梯度,back_propagation为反向传播计算,Tensorflow中已提供了反向传播运算的函数接口:
(3)令i5依次增加1(即i5+=1),重复步骤(2),直至i5=N5,完成整个迭代步骤,即可获得最终的奖励及策略函数。
步骤4,继续执行步骤1-2,以获取更多的驾驶人跟车数据。当间隔某一时间段T1后,重新执行步骤3,重新训练以获取更为准确的奖励及策略函数。
步骤5,将步骤4得到的策略函数存储于所述车载工控机相对应的数据存储硬盘中。
虽然,本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (8)
1.一种基于深度逆强化学习的模拟驾驶风格的跟车系统,其特征在于,包括:毫米波雷达、车速采集装置、车载工控机;其中,所述车载工控机内集成有跟车数据处理器和数据存储硬盘;所述车速采集装置为车速传感器;
所述毫米波雷达用于采集自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息,并将采集的自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息储存在所述车载工控机相对应的数据存储硬盘中;
所述车速采集装置用于采集自车车速信息,并将采集的自车车速信息储存在所述车载工控机相对应的数据存储硬盘中;
所述跟车数据处理器用于对所述毫米波雷达、车速采集装置采集的信息进行处理,自动筛选并提取满足跟车模型训练所需的跟车数据片段,并将提取的跟车数据片段存储在相对应的数据存储硬盘中;
所述跟车数据处理器还用于对所述提取的跟车数据片段进行跟车模型训练,得到跟车策略模型;
基于该跟车系统的跟车方法包括以下步骤:
步骤1,数据采集
毫米波雷达实时采集自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息,并将采集的自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息传递给车载工控机内部的跟车数据处理器;
车速采集装置实时采集自车车速v信息,并将采集的自车车速v信息传递给车载工控机内部的跟车数据处理器;
步骤2,跟车数据筛选
车载工控机内部的跟车数据处理器根据毫米波雷达、车速采集装置采集的行车数据信息进行处理,得到跟车模型训练所需的跟车数据;
步骤3,跟车策略模型实现
车载工控机内部的跟车数据处理器对得到的所述跟车模型训练所需的跟车数据采用深度逆强化学习方法进行跟车模型训练,得到跟车策略模型;
在所述步骤3中,所述深度逆强化学习方法包含以下子步骤:
子步骤3.1,建立跟车环境,包括跟车离散状态空间S、离散动作空间A及状态转移方程T;其中,状态空间S中包含有自车车速v、自车与前车的间距h、相对速度Δv三种类型的状态,动作空间A包含加速度a;
设定t时刻下状态st下采用动作a(t),st={v(t),Δv(t),h(t)},则利用所述状态转移方程T即可得到下一时刻状态st+1,st+1={v(t+1),Δv(t+1),h(t+1)};其中,所述状态转移方程T为:
v(t+1)=v(t)+a(t)*Δt
Δv(t+1)=vlead(t+1)-v(t+1)
其中,vlead(t+1)为跟车过程中前车在t+1时刻下的车速,Δt为时间间隔;
子步骤3.3,对所述驾驶人的奖励r进行跟车模型训练,得到最终的奖励及策略函数;
步骤4,重复执行步骤1-2,获取更多的跟车模型训练所需的跟车数据;间隔某一时间段T1后,重新执行步骤3,对跟车策略模型进行重新训练,获得更为准确的跟车策略模型;
步骤5,将步骤4得到的跟车策略模型存储于所述车载工控机相对应的数据存储硬盘中。
其中,i3∈[1,2,...,N3],N3为预定义的驾驶人偏好跟车时距及相对车速二维向量的总个数;为第i3个预定义的驾驶人跟车过程中跟车时距,为第i3个预定义的驾驶人跟车过程中跟车距离,为第i3个预定义的驾驶人跟车过程中自车车速;为第i3个预定义猜测的驾驶人偏好跟车时距及相对车速二维向量数值, 为第i3个预定义的驾驶人跟车过程中相对车速;σ为跟车时距及相对车速二维向量的协方差;
其中,i4∈[1,2,...,N4],N4为预定义猜想的驾驶人偏好最大车速一维向量的总个数;
5.根据权利要求1所述的基于深度逆强化学习的模拟驾驶风格的跟车系统,其特征在于,步骤3.3具体包含以下子步骤:
子步骤3.3.1,令神经网络训练次数为i5;其中,i5∈[1,2,...,N5],N5为预定义的神经网络训练总次数;
子步骤3.3.3,令神经网络训练次数i5依次增加1,重复子步骤3.3.2,直至i5=N5,完成迭代,获得最终的奖励及策略函数。
6.根据权利要求5所述的基于深度逆强化学习的模拟驾驶风格的跟车系统,其特征在于,子步骤3.3.2中,所述软化的值迭代算法包含以下子步骤:
子步骤a:初始化V(s)=-∞
子步骤b:
重复以下计算直至max(V(s)-V′(s))<ε,V′为中间变量,存储V(s)的最新数值;ε为预定义的算法迭代停止判定阈值;
V′(s)=V(s)
V(s)=temp*log∫aexp(Q(s,a)/temp)da
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011094067.8A CN112172813B (zh) | 2020-10-14 | 2020-10-14 | 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011094067.8A CN112172813B (zh) | 2020-10-14 | 2020-10-14 | 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112172813A CN112172813A (zh) | 2021-01-05 |
CN112172813B true CN112172813B (zh) | 2022-03-04 |
Family
ID=73949875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011094067.8A Expired - Fee Related CN112172813B (zh) | 2020-10-14 | 2020-10-14 | 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112172813B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112677983B (zh) * | 2021-01-07 | 2022-04-12 | 浙江大学 | 一种识别驾驶员驾驶风格的系统 |
CN113221469A (zh) * | 2021-06-04 | 2021-08-06 | 上海天壤智能科技有限公司 | 增强交通模拟器真实性的逆强化学习方法及系统 |
CN113642114B (zh) * | 2021-09-14 | 2023-10-17 | 吉林大学 | 可犯错的拟人化随机跟车驾驶行为建模方法 |
CN113665593B (zh) * | 2021-10-22 | 2022-03-01 | 智己汽车科技有限公司 | 一种车辆智能驾驶纵向控制方法、系统及存储介质 |
CN114506321B (zh) * | 2022-01-31 | 2023-09-29 | 重庆长安汽车股份有限公司 | 一种目标跟车距离计算系统及计算方法 |
CN114771520B (zh) * | 2022-03-31 | 2024-08-02 | 中南大学 | 一种基于强化学习的电动汽车经济性自适应巡航控制方法及系统 |
CN115158328B (zh) * | 2022-06-27 | 2024-08-20 | 东软睿驰汽车技术(沈阳)有限公司 | 拟人化驾驶风格的生成方法、装置、设备及存储介质 |
FR3146300A1 (fr) * | 2023-03-03 | 2024-09-06 | Renault S.A.S | procédé de pilotage d’un véhicule automobile |
CN118343165B (zh) * | 2024-06-20 | 2024-09-06 | 华东交通大学 | 一种基于驾驶员特性的拟人化跟车方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105182342B (zh) * | 2015-09-29 | 2018-11-09 | 长安大学 | 一种颠簸路面车辆雷达目标位置的追踪装置及追踪方法 |
US20200001084A1 (en) * | 2018-06-25 | 2020-01-02 | Karen Robinson | Universal modularized portable therapeutic limb and body rest pain management apparatus |
CN109213148B (zh) * | 2018-08-03 | 2021-05-28 | 东南大学 | 一种基于深度强化学习的车辆低速跟驰决策方法 |
CN109733415B (zh) * | 2019-01-08 | 2020-08-14 | 同济大学 | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 |
CN109927725B (zh) * | 2019-01-28 | 2020-11-03 | 吉林大学 | 一种具有驾驶风格学习能力的自适应巡航系统及实现方法 |
CN109624986B (zh) * | 2019-03-01 | 2021-01-15 | 吉林大学 | 一种基于模式切换的驾驶风格的学习巡航控制系统及方法 |
CN110745136B (zh) * | 2019-09-20 | 2021-05-07 | 中国科学技术大学 | 一种驾驶自适应控制方法 |
-
2020
- 2020-10-14 CN CN202011094067.8A patent/CN112172813B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN112172813A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112172813B (zh) | 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 | |
CN111260027B (zh) | 一种基于强化学习的智能体自动决策方法 | |
CN109145939B (zh) | 一种小目标敏感的双通道卷积神经网络语义分割方法 | |
CN112201069B (zh) | 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 | |
CN110991027A (zh) | 一种基于虚拟场景训练的机器人模仿学习方法 | |
CN117892774A (zh) | 用于卷积神经网络的神经架构搜索 | |
CN109492814A (zh) | 一种城市交通流量预测方法、系统及电子设备 | |
CN110334741A (zh) | 基于循环神经网络的雷达一维距离像识别方法 | |
CN114162146B (zh) | 行驶策略模型训练方法以及自动驾驶的控制方法 | |
CN113561986B (zh) | 自动驾驶汽车决策方法及装置 | |
CN110956148A (zh) | 无人车的自主避障方法及装置、电子设备、可读存储介质 | |
CN111709549A (zh) | 一种基于svd-pso-lstm的短时交通流预测的导航提醒方法 | |
CN109840595B (zh) | 一种基于群体学习行为特征的知识追踪方法 | |
CN116110022B (zh) | 基于响应知识蒸馏的轻量化交通标志检测方法及系统 | |
CN109947918A (zh) | 面向智能客服对话场景的语义分析方法 | |
CN114881339A (zh) | 车辆轨迹预测方法、系统、计算机设备及存储介质 | |
CN114926802A (zh) | 基于双层lstm网络的车辆轨迹预测方法 | |
CN115511069A (zh) | 神经网络的训练方法、数据处理方法、设备及存储介质 | |
CN117610681A (zh) | 基于模仿学习和离散强化学习的自动驾驶汽车决策方法 | |
CN117008620A (zh) | 一种无人驾驶自适应路径规划方法、系统、设备及介质 | |
CN114140286A (zh) | 一种驾培指导方法及终端 | |
CN112651499A (zh) | 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法 | |
CN112884129B (zh) | 一种基于示教数据的多步规则提取方法、设备及存储介质 | |
CN113962424A (zh) | 基于PCANet-BiGRU的成绩预测方法、处理器、可读存储介质及计算机设备 | |
CN113609777A (zh) | 一种基于车载感知设备的车辆行为分析方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220304 |