CN116300850A

CN116300850A - 基于数据机理融合的自动驾驶类人安全自进化方法和系统

Info

Publication number: CN116300850A
Application number: CN202211100337.0A
Authority: CN
Inventors: 陈虹; 赵治玮; 黄岩军; 袁康; 杨硕
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-09-08
Filing date: 2022-09-08
Publication date: 2023-06-23

Abstract

本发明涉及一种基于数据机理融合的自动驾驶类人安全自进化方法和系统，方法包括：从历史经验数据中，提取真实人类驾驶数据特征，通过最大熵逆强化学习算法，迭代提取出与该驾驶员决策习惯和规划习惯的目标函数；实时从交通环境中采样，获取环境信息，构建包括当前状态、动作、奖励和下一时刻状态的经验回访池，构建Q价值神经网络，从经验回访池抽取数据，对Q价值神经网络进行迭代更新，获取拟人化约束；建立车辆模型，并代入当前时刻的环境信息，构建车辆执行器约束，结合车辆模型、拟人化目标函数和拟人化约束进行搜索求解，获取车辆控制信息。与现有技术相比，本发明使得自动驾驶汽车具有自学习性和适应性，能实现安全、高效、舒适地驾驶。

Description

基于数据机理融合的自动驾驶类人安全自进化方法和系统

技术领域

本发明涉及自动驾驶汽车技术领域，尤其是涉及基于数据机理融合的自动驾驶类人安全自进化方法和系统。

背景技术

自动驾驶汽车技术发展日新月异，感知、决策、规划、控制的分层式结构成为当前商业化自动驾驶汽车的主流。然而，由于层与层之间的信息传递存在不充分性、高时延性，分层式的架构往往会出现功能衔接的制约，例如车辆执行器能力限制导致的不完全规划轨迹跟随问题，以及高时变环境下决策延迟导致的规划失效问题。因此，设计决策规划控制一体化框架逐渐成为本领域的研究热点。除此之外，人类司机和自动驾驶司机的混合交通环境对自动驾驶提出了更高的要求：自动驾驶功能需要符合人类司机的驾驶习惯，风格需要与人类司机保持一致，这对混合车流下人类司机/自动驾驶司机在高交互性环境中对周围车辆的行为判断是至关重要的。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于数据机理融合的自动驾驶类人安全自进化方法和系统，使得自动驾驶汽车具有自学习性和适应性。

本发明的目的可以通过以下技术方案来实现：

一种基于数据机理融合的自动驾驶类人安全自进化方法，包括以下步骤：

拟人化目标函数学习步骤：从历史经验数据中，提取真实人类驾驶数据特征，通过最大熵逆强化学习算法，迭代提取出与该驾驶员决策习惯和规划习惯的目标函数；迭代过程中，通过改变真实人类驾驶数据特征时域内动作的取值生成多个候选轨迹，逆强化学习从轨迹中提取特征后通过最大熵原理提取与真实人类驾驶数据特征分布最为相似的轨迹以及其对应的目标函数；

拟人化约束学习步骤：实时从交通环境中采样，获取环境信息，构建包括当前状态、动作、奖励和下一时刻状态的经验回访池，构建Q价值神经网络，从所述经验回访池抽取数据，对Q价值神经网络进行迭代更新，采用更新好的Q价值神经网络获取拟人化约束；

连续决策规划控制步骤：建立车辆模型，并代入当前时刻的环境信息，通过所述拟人化目标函数学习步骤得到拟人化目标函数，通过所述拟人化约束学习步骤得到拟人化约束，构建车辆执行器约束，结合车辆模型、拟人化目标函数和拟人化约束进行搜索求解，获取车辆控制信息。

进一步地，所述拟人化目标函数学习步骤具体为：

假设一个离散的时间系统具有有限的时间长度L，通过将决策视野中的每一个时刻的状态和动作组织在一起形成了轨迹ζ：

ζ＝[s₁,a₁,s₂,a₂…s_L,a_L]

所述历史经验数据为包含N条轨迹的人类驾驶数据集：

D＝{ζ₁,ζ₂,…,ζ_N}

进行轨迹评估时选择线性结构的奖励函数，这种奖励函数是选择的轨迹特征的加权和：

r(s_t)＝θ^Tf(s_t)

式中，r(s_t)为t时刻的奖励，θ为奖励权重，f(s_t)为t时刻的轨迹特征；

将轨迹ζ的奖励R(ζ)表示为：

根据最大熵逆强化学习，每条轨迹的概率表示为：

式中，P(ζ|θ)为对于轨迹ζ在奖励权重θ时的概率，Z(θ)为奖励权重θ时的配分函数；

所述最大熵逆强化学习算法通过调整奖励权重θ来最大化轨迹分布中专家演示的可能性；从而迭代提取出与该驾驶员决策习惯和规划习惯的目标函数。

进一步地，将驾驶员的换道过程离散化，在轨迹生成的过程中生成了有限数量的换道策略轨迹来近似配分函数，所述配分函数的表达式为：

式中，

为第i个换道策略轨迹，M为换道策略轨迹的总数；

所述最大熵逆强化学习的目标函数为

式中，j(θ)为奖励权重θ时的最大熵逆强化学习的目标函数。

进一步地，所述轨迹特征包括效率特征、舒适特征、风险特征、交互特征和决策特征，所述效率特征的表达式为：

f_efficient(s_t)＝v(t)

所述舒适特征的表达式为：

f_comfort,ax(s_t)＝|a_x(t)|

f_comfort,ay(s_t)＝|a_y(t)|

所述风险特征的表达式为：

所述交互特征的表达式为：

当a_i(t)＜0

所述决策特征的表达式为：

f_follow,x(s_t)＝|s(t)-s_ref(t)|

f_follow,y(s_t)＝|l(t)-l_ref(t)|

式中，v(t)、a_x(t)、a_y(t)分别为自车坐标系下的纵向速度、纵向加速度、横向加速度，x_front(t)为距本车最近前车的纵向位置，x_rear(t)为距本车最近后车的纵向位置，a_i(t)为被自车行动影响的第i辆环境车辆的减速度，s_ref(t)和l_ref(t)为参考轨迹。

进一步地，所述Q价值神经网络的迭代更新过程具体为：

选取状态s和动作a，通过Q价值神经网络计算Q(s,a)，选取位置、速度和转角约束输出给MPC进行求解，并获取下一时刻系统状态s’和奖励R，从而对Q价值神经网络的权重进行梯度更新。

进一步地，所述Q价值神经网络包括值函数网络和目标值函数网络，对对Q价值神经网络的权重进行梯度更新过程包括：从经验回放池中随机抽取N个数据(s,a,R,s’)，判断是否达到终点，若已到达，则目标值函数网络的估计价值targetQ＝R，否则targetQ＝R+γmax_a′Q，其中，γ为折扣因子，随着轨迹延长逐步衰减。max_a′Q为当前值函数网络中最大的Q值，其值在动作为a′时取得；

计算均方误差损失Loss(θ)＝E[(targetQ-Q)²]，初始化值函数网络Q和目标值函数网络targetQ，根据均方误差损失从而更新值函数网络Q的参数，而targetQ则固定不变，在经过多次迭代之后，将值函数网络的参数全部复制给目标值函数网络，并一直如此循环迭代，实现算法更新。

进一步地，所述状态s的选择范围为：

s＝[s l v_x v_y Δs_front Δs_rear Δl_right Δl_left Δv_x,front Δv_x,rear]

式中，s,l为车辆在Frenet坐标系下的纵向位移和横向位移，v_x,v_y为自车速度，Δs_front,Δs_rear,Δl_right,Δl_left为自车与最近的前后左右周车的相对距离，Δv_x,frontΔv_x,rear为自车与最近前后周车的相对速度；

所述动作a的选择范围为：

a＝[Δs_max Δs_min Δv_max Δv_min,δ_min δ_max]

式中，其中Δs_max Δs_min为输入给MPC的位置约束，其值代表了下一时刻相比当前时刻的最大/最小自车位置差，Δv_max Δv_min为车辆速度约束，代表下一时刻速度增量的限值，δ_min δ_max代表了下一时刻车辆执行器转角的限值。

进一步地，所述车辆模型的纵向运动学模型为：

其中，s(t)为车辆在Frenet坐标系下的纵向位移，l(s)为s处横向位移，κ(s)为道路在s点处的曲率；

为车辆在Frenet坐标系下的纵向速度；v_x(t)、a_x(t)分别为自车坐标系下的纵向速度、加速度，/>

为自车相对于道路的横摆角，/>

为自车坐标系下的加速度；

所述车辆模型的横向动力学模型为：

式中，

为自车相对于道路的横摆角，r表示自车在重心处的横摆角速度，l_f和l_r表示重心到前轴和后轴的距离，C_f和C_r表示前、后轮轮胎侧偏刚度，m代表整车质量，I_zz为车辆绕z轴的转动惯量；

所述连续决策规划控制步骤中，选取状态变量和动作变量，根据拟人化目标函数和拟人化约束构建纵向目标函数和横向目标函数，所述纵向目标函数的表达式为：

所述纵向目标函数对应的约束为：

式中，s_x,min和s_x,max，v_x,min和v_x,max的值通过拟人化约束学习步骤获得，其值为当前时刻值加上拟人化约束学习步骤得到的位置差和速度差约束，a_x,min,a_x,max是由车辆执行器能力决定的常数值；

所述横向目标函数的表达式为：

所述横向目标函数对应的约束为：

式中，

和/>

值通过拟人化约束学习步骤获得，

是由车辆执行器能力决定的常数值。

进一步地，所述连续决策规划控制步骤中，加入决策指令参考曲线系数作为连续决策参考，所述连续决策参考对纵向目标函数的输入值s_ref(t)的表达式为：

s_ref(t)＝a₀+a₁t+a₂t²+a₃t³+a₄t⁴+a₅t⁵

式中，t为时间值，a₀、a₁、a₂、a₃、a₄和a₅均为多项式系数；

所述连续决策参考对横向目标函数的输入值l_ref(t)的表达式为：

l_ref(t)＝b₀+b₁t+b₂t²+b₃t³+b₄t⁴+b₅t⁵

式中，b₀、b₁、b₂、b₃、b₄和b₅均为多项式系数。

本发明还提供一种基于上所述的一种基于数据机理融合的自动驾驶类人安全自进化方法的系统，包括：

拟人化目标函数学习模块，用于执行所述拟人化目标函数学习步骤；

拟人化约束学习模块，用于执行所述拟人化约束学习步骤；

连续决策规划控制模块，用于执行所述连续决策规划控制步骤。

与现有技术相比，本发明具有以下优点：

本发明提出一种基于数据机理融合的自动驾驶类人安全自进化框架，采用决策规划控制一体化的结构，在机理模型满足安全的前提下，尽可能从经验数据中模拟人类的驾驶策略，并实现在数据流输入过程中自动更新对驾驶习惯的调整。该发明使用了带约束的模型预测控制机理(MPC)框架，确保复杂场景下驾驶的安全性；同时结合逆强化学习算法、强化学习算法不断模拟调整驾驶员潜在的奖励函数和约束，使得自动驾驶汽车具有自学习性和适应性。

本发明采用数据机理融合的方式，使自动驾驶车辆能从真实驾驶经验提取拟人化的驾驶策略，使汽车在复杂多变的交通环境中模仿个性化的驾驶行为，实现安全、高效、舒适地驾驶。

附图说明

图1为本发明实施例中提供的一种基于数据机理融合的自动驾驶类人安全自进化系统的处理流程示意图；

图2为本发明实施例中提供的一种基于IRL-MPC的拟人化目标函数学习流程图；

图3为本发明实施例中提供的一种基于DQN-MPC的拟人化约束学习流程图；

图4为本发明实施例中提供的一种基于MPC的连续决策规划控制一体化流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

实施例1

本实施例提供一种基于数据机理融合的自动驾驶类人安全自进化方法，包括以下步骤：

具体地，本方案以模型预测控制思想为基础，整体描述为由模型、约束和目标函数三个部分组成的综合优化问题。该框架的输入为当前时刻的环境信息，输出为被控自动驾驶车辆的方向盘转角以及纵向加速度。方法流程分为三个步骤：

步骤1，构建基于逆强化学习和模型预测控制(IRL-MPC)的自学习目标函数算法。通过使用最大熵逆强化学习算法，从真实数据中提取出代表该驾驶员决策习惯和规划习惯的目标函数。在对目标函数迭代的过程中，MPC通过改变控制时域内动作的取值生成大量曲线簇，逆强化学习从轨迹中提取特征后通过最大熵原理提取与真实驾驶轨迹特征分布最为相似的轨迹以及其对应的目标函数。

步骤2，构建基于强化学习的自学习约束算法。通过建立DQN网络和经验回访池，并采用ε-greedy原则选择Q值最大的动作输出给MPC，作为位置、速度和执行器约束。

步骤3，建立基于模型预测控制的连续决策、规划、控制一体化模型框架。为了将决策部分引入整体框架中，本发明在模型构建的动作空间和状态空间中引入车辆行驶曲线多项式系数代表决策变量，从而进行连续决策。同时，结合步骤1中目标函数以及步骤2中的约束，进而实现从真实驾驶数据中同时模仿该驾驶员决策逻辑和规划线路的目的。

其中，步骤1提及的IRL-MPC的自学习拟人化目标函数算法的整体逻辑如下。

首先随机初始化奖励参数即奖励函数权重，计算真实数据集中人类司机驾驶轨迹的特征期望。对于演示数据提供的每个驾驶场景，使用MPC算法生成一组候选轨迹，在环境模型中进行仿真，得到每条候选轨迹的特征向量。对于一个确定的驾驶场景，所生成的候选轨迹空间的大小由动作空间和控制时域的大小决定。当完成候选轨迹生成后，开始计算梯度，并使用梯度上升法迭代更新奖励参数，使生成的候选轨迹的特征期望与人的轨迹相匹配。

ζ＝[s₁,a₁,s₂,a₂…s_L,a_L]

给定一个包含N条轨迹的人类驾驶数据集：

D＝{ζ₁,ζ₂,…,ζ_N}

r(s_t)＝θ^Tf(s_t)

其中轨迹特征f9s_t)主要按照效率、舒适、风险、交互和决策五个方面进行分类选择，从而反映人类驾驶员在驾驶时的主要考量因素。

效率

f_efficient(s_t)＝v(t)

舒适性

f_comfort,ax(s_t)＝|a_x(t)|

f_comfort,ay(s_t)＝|a_y(t)|

风险

交互

决策性

f_follow,x(s_t)＝|s(t)-s_ref(t)|

f_follow,y(s_t)＝|l(t)-l_ref(t)|

其中，v(t)、a_x(t)、a_y(t)分别为自车坐标系下的纵向速度、纵向加速度、横向加速度，风险考量因素中x_front(t)为距本车最近前车的纵向位置，x_rear(t)为距本车最近后车的纵向位置。由于学习迭代初始策略和真实驾驶策略不同，在自学习初期自车行驶轨迹和真实轨迹存在较大不同，为了保证周车环境的真实性，将车辆与环境车辆的交互因素纳入建模。当自车与环境车辆的距离接近危险边界时，环境车辆会做出交互行动以避免碰撞。这里使用IDM驱动模型预测环境车辆因为自车而导致的动作，a_i(t)为被自车行动影响的第i辆环境车辆的减速度。s_y,ref和

为由连续决策给定的参考轨迹，其值由有关换道决策以及道路情况给定，用五次多项式表示。

轨迹ζ的奖励R(ζ)是：

根据最大熵逆强化学习，每条轨迹的概率可以表示为：

配分函数Z(θ)对于连续的高维空间难以处理，因为它需要对所有可能的轨迹进行积分。本专利将驾驶员的换道过程离散化，在轨迹生成的过程中生成了有限数量的换道策略轨迹

来近似配分函数：

最大熵逆强化学习的目的是调整奖励权重θ来最大化轨迹分布中专家演示的可能性，则其目标函数为：

使用Adam优化算法进行梯度上升法更新迭代求出奖励函数权重θ。

步骤2中基于强化学习的自学习约束算法逻辑如下。

采用DQN强化学习算法用于生成拟人化约束。首先，构建DQN算法模型，其主要由Q价值神经网络和经验回放池构成。其中前者分为值函数网络和目标值函数网络，其网络权重θ在初始化时随机选取，在后续使用梯度下降法更新，另外，还需要设计奖励函数R，值得注意的是奖励函数的设置不能与逆强化学习中的奖励函数相违背，本实施例选取为速度奖励，安全奖励和舒适奖励。

其次，构建由状态s，动作a,奖励R和下一时刻状态s’组成的经验回访池。选取状态s如下,其中s,l为车辆在Frenet坐标系下的纵向位移和横向位移，v_x,v_y为自车速度，Δs_front,Δs_rear,Δl_right,Δl_left为自车与最近的前后左右周车的相对距离，Δv_x,front Δv_x,rear为自车与最近前后周车的相对速度。

s＝[s l v_x v_y Δs_front Δs_rear Δl_right Δl_left Δv_x,front Δv_x,rear]

选取动作如下，其中Δs_max Δs_min为输入给MPC的位置约束，其值代表了下一时刻相比当前时刻的最大/最小自车位置差，Δv_max Δv_min为车辆速度约束，代表下一时刻速度增量的限值，δ_min δ_max代表了下一时刻车辆执行器转角的限值。

a＝[Δs_max Δs_min Δv_max Δv_min,δ_min δ_max]

利用神经网络计算Q(s,a),根据ε-greedy算法选取合适的位置、速度和转角约束输出给MPC，并获取下一时刻系统状态s’和奖励R。

最后,对网络的权重θ进行梯度更新。从经验回放池中随机抽取N个数据(s,a,R,s’)，判断是否达到终点，若已到达，则估计价值targetQ＝R，否则targetQ＝R+γmax_a′Q。为了使得Q(s,a)尽可能接近于targetQ，计算均方误差损失Loss(θ)＝E[(targetQ-Q)²]。初始化值函数网络Q和目标值函数网络targetQ，根据损失函数从而更新值函数网络Q的参数，而targetQ则固定不变，在经过多次迭代之后，将Q的参数全部复制给targetQ网络，并一直如此循环迭代。这样一段时间内的targetQ是固定不变的，从而使得算法更新更加稳定。

步骤3中基于模型预测控制的连续决策、规划、控制一体化模型框架建立逻辑如下。

首先为保证曲线道路行驶，在Frenet坐标系下建立横纵向解耦的车辆模型。

纵向运动学模型为：

其中，s(t)为车辆在Frenet坐标系下的纵向位移，l(s)为s处横向位移，κ(s)为道路在s点处的曲率。

为自车相对于道路的横摆角。

为了将规划和决策一体化，在动作空间中加入决策指令参考曲线系数作为连续决策参考。将决策过程连续化表示为五次多项式，作为规划的参考输入。每个点的坐标为：

s_ref(t)＝a₀+a₁t+a₂t²+a₃t³+a₄t⁴+a₅t⁵

选取状态变量x_lon＝[sv_x],动作变量为u_lon＝[a_xa_i＝0～5],结合步骤1IRL自学习算法得到的拟人化权重系数定义成本函数。其中纵向目标函数选取考虑效率、舒适、风险、交互和决策的纵向相关特征。

约束设置为：

其中s_x,min和s_x,max，v_x,min和v_x,max的值通过步骤2强化学习拟人化约束算法获得，其值为当前时刻值加上DQN算法得到的位置差和速度差约束，a_x,min,a_x,max是由车辆执行器能力决定的常数值。

横向动力学模型为：

其中，

为自车相对于道路的横摆角。r表示自车在重心处的横摆角速度，l_f和l_r表示重心到前轴和后轴的距离，C_f和C_r表示前、后轮轮胎侧偏刚度。m代表整车质量，I_zz为车辆绕z轴的转动惯量。

与横向一致，为了将规划和决策一体化，在动作空间中加入参考曲线系数作为连续决策参考。将决策过程连续化表示为五次多项式，作为规划的参考输入。每个点的坐标为：

l_ref(t)＝b₀+b₁t+b₂t²+b₃t³+b₄t⁴+b₅t⁵

选取状态变量为

动作变量为u_lat＝[δ_fb_i＝0～5]。横向目标函数选取如下。

/>

约束设置为：

其中

和/>

值通过步骤2强化学习拟人化约束算法获得，

是由车辆执行器能力决定的常数值。

本实施例还提供一种基于数据机理融合的自动驾驶类人安全自进化系统。该发明使自动驾驶车辆能从真实驾驶经验提取拟人化的驾驶策略，使汽车在复杂多变的交通环境中模仿个性化的驾驶行为，实现安全、高效、舒适地驾驶。其算法框架流程如图1所示，该系统包括了IRL-MPC拟人化目标函数学习模块、DQN-MPC的拟人化约束学习模块，并结合两个模块构建了决策规划控制一体化自进化算法。其中，模块一(IRL-MPC算法)为模块三(决策规划控制一体化自进化算法)提供了拟人化目标函数的部分权重，模块二(DQN-MPC算法)为模块三提供了约束参数。

IRL-MPC拟人化目标函数学习模块如图2所示，该模块由候选轨迹采样评估和梯度迭代两个部分构成。第一步，提取真实人类驾驶数据中特征；第二步，使用MPC方法在环境模型中进行仿真，生成候选轨迹集，并提取候选每一条轨迹的特征向量。特征整体分为两类，描述了规划特征和连续决策特征。第三步，利用梯度下降法并结合候选轨迹特征期望和真实驾驶轨迹特征期望对奖励函数各特征的权重系数进行更新。将最终的奖励函数传递给决策规划一体化MPC框架。其中，ζ为人类驾驶员演示轨迹，f(ζ_i)代表从第i条轨迹中提取的轨迹特征。MPC轨迹生成器生成的每条候选轨迹

与人类驾驶员演示轨迹ζ_i具有相同的初始状态。

DQN-MPC拟人化约束学习模块如图3所示，该模块由经验池、目标函数网络构成。第一步，从交通环境中进行采样，构建由状态s，动作a,奖励R和下一时刻状态s’组成的经验回访池。第二步，利用神经网络计算Q(s,a),根据ε-greedy算法选取合适的位置、速度和转角约束输出给MPC，并获取下一时刻系统状态s’和奖励R。第三步，对网络的权重θ进行梯度更新。

MPC连续决策规划控制一体化模块如图4所示，该模块由车辆模型、目标函数和约束三部分组成。第一步，建立在Frenet坐标系下建立横纵向解耦的车辆模型。第二步，利用逆强化学习算法得到拟人化权重，构建结合规划和决策一体化目标函数。第三步，利用强化学习算法得到的拟人化约束，构建车辆执行器约束。第四步进行搜索求解。

各模块可以包括存储器和处理器，所述存储器存储有计算机程序，处理器调用所述计算机程序执行各模块对应的方法的步骤。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于数据机理融合的自动驾驶类人安全自进化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于数据机理融合的自动驾驶类人安全自进化方法，其特征在于，所述拟人化目标函数学习步骤具体为：

ζ＝[s₁，a₁，s₂，a₂…s_L，a_L]

所述历史经验数据为包含N条轨迹的人类驾驶数据集：

D＝{ζ₁，ζ₂，...，ζ_N}

r(s_t)＝θ^Tf(s_t)

将轨迹ζ的奖励R(ζ)表示为：

根据最大熵逆强化学习，每条轨迹的概率表示为：

3.根据权利要求2所述的一种基于数据机理融合的自动驾驶类人安全自进化方法，其特征在于，将驾驶员的换道过程离散化，在轨迹生成的过程中生成了有限数量的换道策略轨迹来近似配分函数，所述配分函数的表达式为：

式中，

为第i个换道策略轨迹，M为换道策略轨迹的总数；

所述最大熵逆强化学习的目标函数为

式中，j(θ)为奖励权重θ时的最大熵逆强化学习的目标函数。

4.根据权利要求2所述的一种基于数据机理融合的自动驾驶类人安全自进化方法，其特征在于，所述轨迹特征包括效率特征、舒适特征、风险特征、交互特征和决策特征，所述效率特征的表达式为：

f_efficient(s_i)＝v(t)

所述舒适特征的表达式为：

f_comfort，ax(s_t)＝|a_x(t)|

f_comfort，ay(s_t)＝|a_y(t)|

所述风险特征的表达式为：

所述交互特征的表达式为：

当a_i(t)＜0

所述决策特征的表达式为：

f_follow，x(s_t)＝|s(t)-s_ref(t)|

f_follow，y(s_i)＝|l(t)-l_ref(t)|

5.根据权利要求1所述的一种基于数据机理融合的自动驾驶类人安全自进化方法，其特征在于，所述Q价值神经网络的迭代更新过程具体为：

选取状态s和动作a，通过Q价值神经网络计算Q(s，a)，选取位置、速度和转角约束输出给MPC进行求解，并获取下一时刻系统状态s’和奖励R，从而对Q价值神经网络的权重进行梯度更新。

6.根据权利要求5所述的一种基于数据机理融合的自动驾驶类人安全自进化方法，其特征在于，所述Q价值神经网络包括值函数网络和目标值函数网络，对对Q价值神经网络的权重进行梯度更新过程包括：从经验回放池中随机抽取N个数据(s，a，R，s’)，判断是否达到终点，若已到达，则目标值函数网络的估计价值targetQ＝R，否则targetQ＝R+γmax_a′Q，其中，γ为折扣因子，随着轨迹延长逐步衰减。max_a′Q为当前值函数网络中最大的Q值，其值在动作为a′时取得；

7.根据权利要求5所述的一种基于数据机理融合的自动驾驶类人安全自进化方法，其特征在于，所述状态s的选择范围为：

s＝[s l v_x v_y Δs_front Δs_rear Δl_right Δl_left Δv_x，front Δv_x，rear]

式中，s，l为车辆在Frenet坐标系下的纵向位移和横向位移，v_x，v_y为自车速度，Δs_front，Δs_rear，Δl_right，Δl_left为自车与最近的前后左右周车的相对距离，Δv_x，frontΔv_x，rear为自车与最近前后周车的相对速度；

所述动作a的选择范围为：

a＝[Δs_max Δs_min Δv_max Δv_min，δ_min δ_max]