CN112172813A

CN112172813A - 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法

Info

Publication number: CN112172813A
Application number: CN202011094067.8A
Authority: CN
Inventors: 付锐; 周扬; 张雅丽
Original assignee: Changan University
Current assignee: Changan University
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-05
Anticipated expiration: 2040-10-14
Also published as: CN112172813B

Abstract

本发明属于智能驾驶技术领域，公开了一种基于深度逆强化学习的模拟驾驶风格的跟车系统及方法，该跟车系统包括：采集自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息的毫米波雷达，采集自车车速的车速采集装置，以及车载工控机；车载工控机内的跟车数据处理器对毫米波雷达、车速采集装置采集的信息进行处理，提取满足跟车模型训练所需的跟车数据片段，并对其进行跟车模型训练得到跟车策略模型；该跟车系统结构简单，通过深度逆强化学习方法从驾驶人历史跟车数据中学习奖励函数，并利用奖励函数及强化学习方法求解驾驶人的跟车策略，得到的跟车模型能模拟不同驾驶人的驾驶风格，理解驾驶人跟车过程中的偏好，生成拟人化的跟车行为。

Description

基于深度逆强化学习的模拟驾驶风格的跟车系统及方法

技术领域

本发明涉及智能驾驶技术领域，具体涉及基于深度逆强化学习的模拟驾驶风格的跟车系统及方法。

背景技术

跟车是指驾驶人驾驶车辆跟随前车行驶，是日常驾驶最为常见的一种情况。在城市交通情况下，驾驶人跟车所占的时间比例一般大于50％。为了实现交通仿真、驾驶辅助系统测试以及自动驾驶，有大量研究针对驾驶人跟车行为构建了跟车模型。

跟车模型的作用是模拟驾驶人的跟车行为及特点，使车辆能够按照驾驶人的驾驶风格跟随前车行驶。当前，已有的跟车模型包括两种类型：一种是传统模型，其特点是采用显式的数学关系式来描述跟车过程，在模型公式中一般设有多个参数用以代表驾驶人的驾驶风格。另一种是数据驱动模型，这类模型无显式的数学关系式，一般采用神经网络，利用驾驶人的跟车数据学习表示驾驶人的跟车特性。在这两种模型中，数据驱动模型被发现相比传统模型有更好的跟车模拟准确性及泛化能力。

在数据驱动模型中，一般采用深度最大熵逆强化学习方法训练跟车模型，深度最大熵逆强化学习方法属于模仿学习，模仿学习的目的是学习模仿人类的行为，获取跟车过程中驾驶人的策略函数，即车辆运动状态s与驾驶人控制车辆动作a之间的函数关系π(a|s)。在模仿学习中，一类方法被称为行为克隆，其原理是采用神经网络或其它数据驱动模型来表示π(a|s)，通过梯度下降方法训练神经网络的参数，训练得到的神经网络模型可以模拟人的行为及特点。行为克隆方法已证明可在数据量充足的条件下较为准确地实现行为模拟，然而当数据量不足时，行为克隆会导致出现复合误差问题，即当数据量不足时，模型拟合较差，其预测结果会有一定误差，在仿真过程中误差会进行累积，最终使模型面对一些训练数据中未包含的状态，在这种情况下，模型会输出更差的预测结果。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种基于深度逆强化学习的模拟驾驶风格的跟车系统及方法，该跟车系统结构简单，易于实现；其方法属于数据驱动方法，相比传统跟车模型具有更好的跟车行为模拟准确性；相比现有的数据驱动跟车模型，本方法是通过深度逆强化学习方法从驾驶人历史跟车数据中学习驾驶人跟车过程中的奖励函数，进而利用奖励函数及强化学习方法求解驾驶人的跟车策略，本方法得到的跟车模型能模拟不同驾驶人的驾驶风格，理解驾驶人跟车过程中的偏好，生成拟人化的跟车行为。

为了达到上述目的，本发明采用以下技术方案予以实现。

(一)一种基于深度逆强化学习的模拟驾驶风格的跟车系统，包括：毫米波雷达、车速采集装置、车载工控机；其中，所述车载工控机内集成有跟车数据处理器和数据存储硬盘；

所述毫米波雷达用于采集自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息，并将采集的自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息储存在所述车载工控机相对应的数据存储硬盘中；

所述车速采集装置用于采集自车车速信息，并将采集的自车车速信息储存在所述车载工控机相对应的数据存储硬盘中；

所述跟车数据处理器用于对所述毫米波雷达、车速采集装置采集的信息进行处理，自动筛选并提取满足跟车模型训练所需的跟车数据片段，并将提取的跟车数据片段存储在相对应的数据存储硬盘中；

所述跟车数据处理器还用于对所述提取的跟车数据片段进行跟车模型训练，得到跟车策略模型。

进一步的，所述车速采集装置为车速传感器。

(二)一种基于深度逆强化学习的模拟驾驶风格的跟车方法，包括以下步骤：

步骤1，数据采集

毫米波雷达实时采集自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息，并将采集的自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息传递给车载工控机内部的跟车数据处理器；

车速采集装置实时采集自车车速v信息，并将采集的自车车速v信息传递给车载工控机内部的跟车数据处理器；

步骤2，跟车数据筛选

车载工控机内部的跟车数据处理器根据毫米波雷达、车速采集装置采集的行车数据信息进行处理，得到跟车模型训练所需的跟车数据；

步骤3，跟车策略模型实现

车载工控机内部的跟车数据处理器对得到的所述跟车模型训练所需的跟车数据采用深度逆强化学习方法进行跟车模型训练，得到跟车策略模型；

步骤4，重复执行步骤1-2，获取更多的跟车模型训练所需的跟车数据；间隔某一时间段T₁后，重新执行步骤3，对跟车策略模型进行重新训练，获得更为准确的跟车策略模型；

步骤5，将步骤4得到的跟车策略模型存储于所述车载工控机相对应的数据存储硬盘中。

本发明技术方案的特点和进一步的改进为：

(1)步骤2包含以下子步骤：

子步骤2.1，将毫米波雷达、车速采集装置采集的行车数据信息每间隔15s作为一个待选数据片段；其中，第i₁个待选数据片段记为

N₁为片段总数；

子步骤2.2，对每个待选数据片段

中的方位角θ按如下条件进行判定，若满足该条件，则保留该待选数据片段并进行子步骤2.3；否则，删除该D_i片段：

子步骤2.3，对满足子步骤2.2的片段

按如下条件进一步筛选，若满足该条件，则保留该待选数据片段

并存储于车载工控机相对应的数据存储硬盘中，得到满足跟车模型训练所需数据集

否则，删除该D_i片段：

(2)步骤3中，所述深度逆强化学习方法包含以下子步骤：

子步骤3.1，建立跟车环境，包括跟车离散状态空间S、离散动作空间A及状态转移方程T；其中，状态空间S中包含有自车车速v、自车与前车的间距h、相对速度Δv三种类型的状态，动作空间A包含加速度a；

设定t时刻下状态s_t下采用动作a(t)，s_t＝{v(t),Δv(t),h(t)}，则利用所述状态转移方程T即可得到下一时刻状态s_t+1，s_t+1＝{v(t+1),Δv(t+1),h(t+1)}；其中，所述状态转移方程T为：

v(t+1)＝v(t)+a(t)*Δt

Δv(t+1)＝v_lead(t+1)-v(t+1)

其中，v_lead(t+1)为跟车过程中前车在t+1时刻下的车速，Δt为时间间隔；

子步骤3.2，利用Tensorflow深度学习环境创建神经网络，神经网络的输入为表征驾驶人跟车中车辆控制目标的特征

i₂∈[1,2,…,N₂]，N₂为特征的总数，神经网络的输出为驾驶人的奖励r；

子步骤3.3，对所述驾驶人的奖励r进行跟车模型训练，得到最终的奖励及策略函数。

(3)子步骤3.2中，所述表征驾驶人跟车中车辆控制目标的特征

的计算方法包含以下子步骤：

子步骤3.2.1，运用高斯径向基核函数，计算第i₃个表征驾驶人跟车过程中跟车时距及相对车速控制目标的特征

其中，i₃∈[1,2,…,N₃],N₃为预定义的驾驶人偏好跟车时距及相对车速二维向量的总个数；

子步骤3.2.2，计算第i₄个表征驾驶人跟车过程中的最大车速控制目标特征

具体为：若驾驶人的自车车速v大于第i₄个预定义的猜测的驾驶人偏好最大车速

则得到的奖励为0；否则，得到的奖励为1，具体如下：

其中，i₄∈[1,2,…,N₄]，N₄为预定义猜想的驾驶人偏好最大车速一维向量的总个数；

子步骤3.3.3，根据所述表征驾驶人跟车中车辆控制目标的特征

和第i₄个表征驾驶人跟车过程中的最大车速控制目标特征

计算得到表征驾驶人跟车中车辆控制目标的特征

(4)子步骤3.2.1具体为：

其中，

为第i₃个预定义的驾驶人跟车过程中跟车时距，

为第i₃个预定义的驾驶人跟车过程中跟车距离，

为第i₃个预定义的驾驶人跟车过程中自车车速；

为第i₃个预定义猜测的驾驶人偏好跟车时距及相对车速二维向量数值，

为第i₃个预定义的驾驶人跟车过程中相对车速；σ为跟车时距及相对车速二维向量的协方差。

(5)子步骤3.2中，所述驾驶人的奖励r为：

其中，g为神经网络的架构；θ为神经网络参数。

(6)步骤3.3具体包含以下子步骤：

子步骤3.3.1，令神经网络训练次数为i₅；其中，i₅∈[1,2,…,N₅]，N₅为预定义的神经网络训练总次数；

子步骤3.3.2，将神经网络参数θ随机初始化，即令i₅＝1，则初始化的神经网络参数

通过神经网络的前向传播获得第i₅次迭代更新后的奖励函数

采用软化的值迭代算法求解奖励为

下的第i₅次神经网络参数迭代更新后输出的策略函数

利用策略函数

计算当前的平均期望状态访问频率

利用平均期望状态访问频率

计算第i₅次迭代时神经网络的梯度

并采用神经网络的梯度

更新神经网络参数

子步骤3.3.3，令神经网络训练次数i₅依次增加1，重复子步骤3.3.2，直至i₅＝N₅，完成迭代，获得最终的奖励及策略函数。

(7)子步骤3.3.2中，所述软化的值迭代算法包含以下子步骤：

子步骤a：初始化V(s)＝-∞

子步骤b：

重复以下计算直至max(V(s)-V′(s))＜ε，V′为中间变量，存储V(s)的最新数值；ε为预定义的算法迭代停止判定阈值；

V′(s)＝V(s)

V(s)＝temp*log∫_aexp(Q(s,a)/temp)da

待上述计算完成后，可得第i₅次神经网络参数迭代更新后输出的策略函数

其中，V(s)指状态s的值，表示该状态下的长期奖励；Q(s,a)指状态s下执行动作a获得的长期奖励；

为状态s下执行动作a获得的即时奖励；temp为常数；γ为折扣系数；E为求期望运算；T(s,a,s′)为状态转移方程，其给出了在状态s下执行动作a时，进入的下一个状态s′。

(8)子步骤3.3.2中，所述平均期望状态访问频率

的计算方法为：

对每一个跟车片段

从t＝0开始，按如下公式迭代计算T-1次，记录状态访问频率

其中，t∈[0,1,…,T]：

s_t+1＝T(s,a)

其中，随机采样函数random_sample()是用来从策略函数

中采样得到状态s_t下的控制动作a_t，最终可得平均期望状态访问频率

为：

其中，N₆为重复采样次数。

(9)子步骤3.3.2中，所述利用平均期望状态访问频率

计算第i₅次迭代时神经网络的梯度

并采用神经网络的梯度

更新神经网络参数

具体为：

其中，μ_D为实际的状态动作访问频率，

为第i₅次迭代时神经网络的损失，back_propagation为反向传播计算。

与现有技术相比，本发明的有益效果为：

1)本发明的基于深度逆强化学习的模拟驾驶风格的跟车系统结构简单，易于实现，且所需的硬件设备如毫米波雷达、车速采集装置成本较低，目前在某些上市车型中已有装备。

2)本发明的基于深度逆强化学习的模拟驾驶风格的跟车方法中，采用数据驱动方法实现跟车模型，从大量行车数据中学习驾驶人的跟车行为、驾驶风格，本方法所实现的跟车模型泛化能力强，能在不同的交通场景下准确模拟驾驶人的跟车行为，误差小。

3)本方法通过深度逆强化学习方法学习驾驶人跟车中的奖励函数，采用具有强大函数逼近能力的神经网络模型表示奖励函数，学习得到的奖励更加准确，能准确地表示驾驶人跟车中的不同驾驶风格。

4)本方法所采用的深度逆强化学习方法是基于最大熵原理，所得到的跟车策略模型为概率模型，学习到的跟车行为具有随机性，其更加符合人类行为随机性的特点。

附图说明

下面结合附图和具体实施例对本发明做进一步详细说明。

图1为本发明的基于深度逆强化学习的模拟驾驶风格的跟车系统的跟车模型训练框图；

图2为本发明的神经网络模型的结构图。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域的技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围。

(一)参考图1，一种基于深度逆强化学习的模拟驾驶风格的跟车系统，包括：毫米波雷达、车速采集装置、车载工控机；其中，车速采集装置为车速传感器；车载工控机内集成有跟车数据处理器、数据存储硬盘和跟车模型。

其中，毫米波雷达用于实时采集自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息，并将采集的自车与前车的间距、自车与前车的侧向距离、相对速度、方位角信息储存在车载工控机相对应的数据存储硬盘中。

车速采集装置用于实时采集自车车速信息，并将采集的自车车速信息储存在车载工控机相对应的数据存储硬盘中。

车载工控机内部的跟车数据处理器用于对毫米波雷达、车速采集装置采集的行车数据信息进行处理，自动筛选并提取满足跟车模型训练所需的跟车数据片段，并将提取的跟车数据片段存储在相对应的数据存储硬盘中。跟车数据处理器还用于对提取的跟车数据片段进行跟车模型训练，得到跟车策略模型。

驾驶人在驾驶中会产生新的行车数据，将毫米波雷达和车速采集装置采集的行车数据信息在一定时间后重复执行，不断迭代更新跟车模型，以更好地学习驾驶人的跟车行为及跟车风格。

步骤1，数据采集：毫米波雷达实时采集自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角信息，并将采集的自车与前车的间距h、自车与前车的侧向距离d、相对速度Δv、方位角θ信息传递给车载工控机内部的跟车数据处理器。

车速采集装置实时采集自车车速v信息，并将采集的自车车速v信息传递给车载工控机内部的跟车数据处理器。

步骤2，跟车数据筛选：车载工控机内部的跟车数据处理器根据毫米波雷达、车速采集装置采集的行车数据信息进行处理，得到跟车模型训练所需的跟车数据。

具体的，步骤2包含以下子步骤：

子步骤2.1，为了保证有足够长的跟车数据以供模型训练，将步骤1中所采集数据每间隔15s作为一个待选数据片段，第i₁个待选数据片段记为

N₁为片段总数，每个片段中包含有自车车速v、自车与前车的间距h、自车与前车的侧向距离d、自车与前车的相对速度Δv及方位角θ五种类型的数据，对每个待选片段按照以下规则进行筛选。

子步骤2.2，为了确保跟车中自车与前车处于同一车道，自车与前车的侧向距离d应小于2.5m。对

片段中的方位角θ按如下规则进行判定，若满足该条件，则保留并进行子步骤2.3，反之则删除D_i片段，继续对下一个片段按照本步骤进行判定；

子步骤2.3，为了确保前车对自车的车速控制产生影响，自车与前车的间距h应小于120m。对满足子步骤2.2的片段

按如下条件进一步筛选，将满足该条件的数据片段

存储于车载工控机相对应的数据存储硬盘中，作为步骤3中跟车模型训练所需数据集

否则，删除该D_i片段；

步骤3，跟车模型实现：车载工控机内部的跟车数据处理器对得到的所述跟车模型训练所需的跟车数据采用深度逆强化学习方法进行跟车模型训练，得到跟车策略模型。

深度逆强化学习方法可克服行为克隆方法带来的复合误差问题，该方法不直接学习状态与行为的映射关系，而是首先学习奖励函数r，再通过强化学习方法及奖励r求解策略π(a|s)。强化学习方法假设一个智能体遵循某种奖励函数，其行为选择的目标是追求累积奖励的最大化。若确定了奖励函数，智能体的行为便有了一定约束，带来较高奖励的行为会被智能体重复选择，而奖励较低的行为则会被智能体舍弃。

本发明采用的深度逆强化学习方法是基于最大熵原理，是通过一个神经网络来表示驾驶人跟车过程中的奖励函数r，采用神经网络的优势是利用神经网络强大的非线性函数表示能力，更为准确地逼近驾驶人跟车过程中真实的奖励函数。

跟车策略模型的具体实现包含以下子步骤：

子步骤3.1，通过Python语言的科学计算库numpy建立跟车环境，包括跟车离散状态空间S、离散动作空间A及状态转移方程T。状态空间S中包含有自车车速v、自车与前车的间距h、相对速度Δv三种类型的状态，动作空间A包含加速度a。本方法采用离散状态及动作空间，因此需预先定义状态空间S中各状态的取值区间及间隔大小，以及加速度的取值区间及间隔。

具体的，根据前文所述的跟车数据的筛选方法及采集跟车数据的实际分布，本发明采用的离散状态空间中各类状态的取值具体如下，其中自车车速的取值区间为[0,33]，取值间隔为1m/s，即v＝[0,1,…,33]m/s；自车与前车的间距的取值区间为[0,120]，取值间隔为1m，即h＝[0,1,…,120]m；相对速度的取值区间为[-5,5]，取值间隔为1m/s，即Δv＝[-5,-4,…,5]m/s。本发明采用的离散动作空间中，加速度的取值区间为[-3,3]，取值间隔为0.2m/s²，即a＝[-3,-2.8,…,3]m/s²。

定义跟车过程的状态转移方程T，根据基本运动学关系式可得出状态转移方程T，利用状态转移方程可以得出在状态s_t下采用动作a(4)后进入的下一个状态s_t+1。即当前状态s_t＝{v(t),Δv(t),h(t)}下采取动作a(t)时，下一时刻的状态s_t+1＝{v(t+1),Δv(t+1),h(t+1)}可通过如下公式进行计算：

v(t+1)＝v(t)+a(t)*Δt

Δv(t+1)＝v_lead(t+1)-v(t+1)

在上式中，v_lead(t+1)为跟车过程中前车在t+1时刻下的车速，从所采集数据中进行获取；Δt为时间间隔，可根据传感器的采样频率确定。

子步骤3.2，利用Tensorflow深度学习环境创建神经网络，其初始参数设为θ¹，有两个中间层，如图2所示，神经网络的输入为表征驾驶人跟车中车辆控制目标的特征

i₂∈[1,2,…,N₂]，N₂为特征的总数，神经网络的输出为驾驶人的奖励r。

具体的，子步骤3.2中，通过如下步骤计算神经网络的输入特征

(1)运用高斯径向基核函数，计算表征驾驶人跟车过程中跟车时距及相对车速控制目标的特征。

其中，

为第i₃个预定义的驾驶人跟车过程中跟车时距，

为第i₃个预定义的驾驶人跟车过程中跟车距离，

为第i₃个预定义的驾驶人跟车过程中自车车速；

为第i₃个表征驾驶人跟车过程中跟车时距及相对车速控制目标的特征，i₃∈[1,2,…,N₃],N₃为预定义的驾驶人偏好跟车时距及相对车速二维向量的总个数。

为第i₃个预定义的驾驶人跟车过程中相对车速，σ为跟车时距及相对车速二维向量的协方差。

(2)通过下式计算表征驾驶人跟车过程中的最大车速控制目标特征，即如驾驶人驾车车速大于该最大车速，得到的奖励为0；否则，得到的奖励为1：

其中，

为第i₄个表征驾驶人跟车过程中的最大车速控制目标特征。

为第i₄个预定义的猜测的驾驶人偏好最大车速，i₄∈[1,2,…,N₄]，N₄为预定义猜想的驾驶人偏好最大车速一维向量的总个数。

(3)最终，可得出神经网络的输入

则神经网络的输出

其中，g为神经网络的架构；θ为神经网络参数。

子步骤3.3，通过以下步骤进行跟车模型训练：

(1)令神经网络训练次数为i₅；其中，i₅∈[1,2,…,N₅]，N₅为预定义的神经网络训练总次数。

(2)将神经网络参数θ随机初始化，即令i₅＝1，则初始化的神经网络参数

通过以下步骤依次求解第i₅次迭代更新后的神经网络的输出

(即第i₅次迭代更新后的奖励函数)、策略函数

平均期望状态访问频率

以及神经网络的梯度

并采用神经网络的梯度

更新神经网络参数

具体如下：

①通过神经网络的前向传播获得第i₅次迭代更新后的神经网络的输出

②采用软化的值迭代算法求解奖励为

下的策略函数

软化的值迭代算法共两个步骤，具体如下：

子步骤a：初始化V(s)＝-∞

子步骤b：

重复以下计算直至max(V(s)-V′(s))＜ε，V′为中间变量，存储V(s)的最新数值；ε为预定义的算法迭代停止判定阈值。

V′(s)＝V(s)

V(s)＝temp*log∫_aexp(Q(s,a)/temp)da

为状态s下执行动作a获得的即时奖励；temp为常数；γ为折扣系数，可取值0.99；E为求期望运算；T(s,a,s′)为状态转移方程，其给出了在状态s下执行动作a时，进入的下一个状态s′。

③利用步骤②得到的策略函数

计算当前的平均期望状态访问频率

具体如下：

重复如下步骤N₆次，具体如下：

对每一个跟车片段

从t＝0开始，按如下公式迭代计算T-1次，记录状态访问频率

其中，t∈[0,1,…,T]。

s_t+1＝T(s,a)

其中，随机采样函数random_sample()是用来从策略函数

中采样得到状态s_t下的控制动作a_t，该函数可直接采用numpy库中的random.choice函数。最终可得到策略为

下的平均期望状态访问频率

为：

其中，N₆为重复采样次数。

④计算神经网络的梯度，通过反向传播及梯度下降算法更新神经网络的参数，μ_D为实际的状态动作访问频率，可利用实际采集的跟车数据进行统计，

为第i₅次迭代时神经网络的损失，

为第i₅次迭代时神经网络的梯度，back_propagation为反向传播计算，Tensorflow中已提供了反向传播运算的函数接口：

(3)令i₅依次增加1(即i₅+＝1)，重复步骤(2)，直至i₅＝N₅，完成整个迭代步骤，即可获得最终的奖励及策略函数。

步骤4，继续执行步骤1-2，以获取更多的驾驶人跟车数据。当间隔某一时间段T₁后，重新执行步骤3，重新训练以获取更为准确的奖励及策略函数。

步骤5，将步骤4得到的策略函数存储于所述车载工控机相对应的数据存储硬盘中。

虽然，本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于深度逆强化学习的模拟驾驶风格的跟车系统，其特征在于，包括：毫米波雷达、车速采集装置、车载工控机；其中，所述车载工控机内集成有跟车数据处理器和数据存储硬盘；所述车速采集装置为车速传感器；

2.一种基于深度逆强化学习的模拟驾驶风格的跟车方法，其特征在于，包括以下步骤：

步骤1，数据采集

步骤2，跟车数据筛选

步骤3，跟车策略模型实现

3.根据权利要求2所述的基于深度逆强化学习的模拟驾驶风格的跟车方法，其特征在于，步骤2包含以下子步骤：

N₁为片段总数；

子步骤2.2，对每个待选数据片段

子步骤2.3，对满足子步骤2.2的片段

否则，删除该D_i片段：

4.根据权利要求2所述的基于深度逆强化学习的模拟驾驶风格的跟车方法，其特征在于，步骤3中，所述深度逆强化学习方法包含以下子步骤：

设定t时刻下状态s_t下采用动作a(t)，s_t＝{v(t)，Δv(t)，h(t)}，则利用所述状态转移方程T即可得到下一时刻状态s_t+1，s_t+1＝{v(t+1)，Δv(t+1)，h(t+1)}；其中，所述状态转移方程T为：

v(t+1)＝v(t)+a(t)*Δt

Δv(t+1)＝v_lead(t+1)-v(t+1)

N₂为特征的总数，神经网络的输出为驾驶人的奖励r；

5.根据权利要求4所述的基于深度逆强化学习的模拟驾驶风格的跟车方法，其特征在于，子步骤3.2中，所述表征驾驶人跟车中车辆控制目标的特征

的计算方法包含以下子步骤：

具体如下：

其中，i₃∈[1，2，...，N₃]，N₃为预定义的驾驶人偏好跟车时距及相对车速二维向量的总个数；

为第i₃个预定义的驾驶人跟车过程中跟车时距，

为第i₃个预定义的驾驶人跟车过程中跟车距离，

为第i₃个预定义的驾驶人跟车过程中自车车速；

为第i₃个预定义的驾驶人跟车过程中相对车速；σ为跟车时距及相对车速二维向量的协方差；

则得到的奖励为0；否则，得到的奖励为1，具体如下：

其中，i₄∈[1，2，...，N₄]，N₄为预定义猜想的驾驶人偏好最大车速一维向量的总个数；

和第i₄个表征驾驶人跟车过程中的最大车速控制目标特征

计算得到表征驾驶人跟车中车辆控制目标的特征

6.根据权利要求5所述的基于深度逆强化学习的模拟驾驶风格的跟车方法，其特征在于，子步骤3.2中，所述驾驶人的奖励r为：

其中，g为神经网络的架构；θ为神经网络参数。

7.根据权利要求6所述的基于深度逆强化学习的模拟驾驶风格的跟车方法，其特征在于，步骤3.3具体包含以下子步骤：

子步骤3.3.1，令神经网络训练次数为i₅；其中，i₅∈[1，2，...，N₅]，N₅为预定义的神经网络训练总次数；

通过神经网络的前向传播获得第i₅次迭代更新后的奖励函数

采用软化的值迭代算法求解奖励为

下的第i₅次神经网络参数迭代更新后输出的策略函数

利用策略函数

计算当前的平均期望状态访问频率

利用平均期望状态访问频率

计算第i₅次迭代时神经网络的梯度

并采用神经网络的梯度

更新神经网络参数

8.根据权利要求7所述的基于深度逆强化学习的模拟驾驶风格的跟车方法，其特征在于，子步骤3.3.2中，所述软化的值迭代算法包含以下子步骤：

子步骤a：初始化V(s)＝-∞

子步骤b：

V′(s)＝V(s)

V(s)＝temp*log∫_aexp(Q(s，a)/temp)da

其中，V(s)指状态s的值，表示该状态下的长期奖励；Q(s，a)指状态s下执行动作a获得的长期奖励；

为状态s下执行动作a获得的即时奖励；temp为常数；γ为折扣系数；E为求期望运算；T(s，a，s′)为状态转移方程，其给出了在状态s下执行动作a时，进入的下一个状态s′。

9.根据权利要求7所述的基于深度逆强化学习的模拟驾驶风格的跟车方法，其特征在于，子步骤3.3.2中，所述平均期望状态访问频率

的计算方法为：

对每一个跟车片段

从t＝0开始，按如下公式迭代计算T-1次，记录状态访问频率

其中，t∈[0，1，...，T]：

s_t+1＝T(s，a)

其中，随机采样函数random_sample()是用来从策略函数

为：

其中，N₆为重复采样次数。

10.根据权利要求7所述的基于深度逆强化学习的模拟驾驶风格的跟车方法，其特征在于，子步骤3.3.2中，所述利用平均期望状态访问频率

计算第i₅次迭代时神经网络的梯度

并采用神经网络的梯度

更新神经网络参数

具体为：

其中，μ_D为实际的状态动作访问频率，