CN112162555B

CN112162555B - 混合车队中基于强化学习控制策略的车辆控制方法

Info

Publication number: CN112162555B
Application number: CN202011012147.4A
Authority: CN
Inventors: 罗小元; 刘劭玲; 李孟杰; 郑心泉; 刘乐
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-07-16
Anticipated expiration: 2040-09-23
Also published as: CN112162555A

Abstract

本发明提供一种混合车队中基于强化学习控制策略的车辆控制方法，其包括：初始化混合车队，建立固定参考系和惯性参考系；建立惯性参考系中混合车辆纵向队列的模型；构造拉格朗日二次型队列跟驰代价函数，并得到Q值函数的表达式；对于由周围车辆对自身车辆影响所获得的信息，首先运用深度Q学习网络进行训练；然后运用DDPG算法进行参数的训练，若Q值函数和控制输入两个过程同时实现收敛，就完成对当下最优控制策略的求解；将最优控制策略输入混合车辆纵向队列的模型中，混合车队更新自身状态；循环往复，最终完成混合车队中车辆的控制任务。本发明系统解决了混合车队自主训练的问题。

Description

混合车队中基于强化学习控制策略的车辆控制方法

技术领域

本发明属于智能交通控制技术领域，具体涉及一种混合车队中基于强化学习控制策略的车辆控制方法。

背景技术

随着人工智能技术的快速发展，无人驾驶技术变得较为成熟，有人驾驶车辆与无人驾驶车辆组成的混合纵向跟驰队列成为智能交通领域研究的热门方向。其中，纵向队列跟驰问题是结合传统的动力学和运动学的方法，研究队列中前方车辆的行驶状态对跟驰车辆的影响。然而，由于在实际混合纵向队列中有人驾驶车辆与无人驾驶车辆位置的随机性，以及驾驶员的行为需要预先被识别为编队系统的一部分，驱动程序之间会产生持续行为，在这种情况下大多数基于模型的控制器设计方法可能会失败。因此，混合纵向队列中的跟驰优化问题亟待解决。

经对现有文献的检索发现，公开号为CN108537764A，名称为：一种人机混合智能驾驶系统。该系统兼具有人驾驶系统和无人驾驶系统的优势，运用图像采集、融合、提取对信息进行识别，再发送到控制子系统，这一技术方案虽然考虑了人为因素在混合车队中的影响，但对于驾驶技术不熟练的人员来说，没有足够的经验参与到控制决策中去，且在进行图像处理时可能会因外界条件出现偏差，得到的信息不准确，使危险系数大大提高。

另外，公开号为CN109131356A，名称为：人机混合增强智能驾驶系统及电动汽车。该系统包括状态监控模块、模拟驾驶模块、分析模块、对比模块等，通过分析驾驶操作缺陷，指出驾驶员的操作失误，这一技术方案虽然增强了无人驾驶时驾驶员的参与感，但是对人为因素依赖性过强，结果容易出现偏差。因此，混合车队如何实现自主训练显得尤为重要。

发明内容

本发明旨在克服上述不足，提出了一种混合车队中基于强化学习控制策略的车辆控制方法，此方法充分考虑到有人驾驶车辆与无人驾驶车辆的相互影响，对整个混合车队的跟随运动和队形维持进行了明显优化。

为实现上述目的，采用了如下技术方案：

一种混合车队中基于强化学习控制策略的车辆控制方法，其包括如下步骤：

步骤1，对于道路上的有人驾驶车辆与无人驾驶车辆混合编队，建立基于车辆自身期望轨迹位置的固定参考系，以及建立基于道路上不确定因素的惯性参考系；

步骤2，分别将有人驾驶车辆和无人驾驶车辆的跟驰误差状态空间模型相结合，并根据任意车辆序列，得到惯性参考系中混合车辆纵向队列的模型；

步骤3，根据线性系统的二次性能指标，构造拉格朗日二次型队列跟驰代价函数，并由此得到Q值函数的表达式；

步骤4，对于由周围车辆对自身车辆影响所获得的信息，首先运用深度Q学习网络进行训练，在数据集中进行采样，探索得到某个状态信息x_t，接收新状态的奖励函数，并把当前状态信息x_t、当前控制输入u_t、奖励函数r_t、新的状态信息x_t+1存储到驱动数据库，当所用时间满足价值网络更新周期时，运用深度确定性策略梯度法进行参数的训练；

步骤5，在DDPG算法中，为了获得跟驰评价指标下的代价函数V^*(x(t))和跟驰控制u^*(x)，用Actor神经网络来估计无人驾驶车辆的跟驰控制输入，用Critic神经网络估计跟驰代价函数，根据损失函数更新Critic网络，根据Actor的梯度反向更新Actor网络，采用策略梯度更新target网络的权重参数；

步骤6，使用深度神经网络去近似Q值函数和策略梯度网络，若Q值函数和控制输入两个过程同时实现收敛，就完成了对当下最优控制策略的求解，继续执行步骤7，否则返回到步骤4；

步骤7，将步骤6获得的最优控制策略输入到步骤2的惯性参考系中混合车辆纵向队列的模型中，混合车队更新自身状态，然后再执行步骤4-7，循环往复，最终完成混合车队中车辆的控制任务。

优选的，所述步骤2中惯性参考系中混合车辆纵向队列的模型为：

其中，A、B、W为与有人和无人驾驶车辆相关的系数矩阵，A∈R^2n×2n是有关车辆跟驰动态的系统矩阵，B∈R^2n×p是关于无人驾驶车辆跟驰控制的输入矩阵，W∈R^2nx1，x为各个车辆的状态信息，u∈R^p×1为混合车队的控制输入，Δv为队列中某辆车速与前后面各个车速的差值，p为纵向队列中无人驾驶车辆的数量，n为编队中的车辆数；

对公式(7)中变量进行展开，具体可写为：

式中，HDVs代表有人驾驶车辆，CAVs代表无人驾驶车辆，α_j为第j辆车中驾驶员对跟驰过程中由前车距离引起的距离反应增益，β_j为第j辆车中驾驶员根据当前的车速引起的速度反应增益，

为跟驰距离速度优化函数f(h)的导数，

为每辆车的期望跟驰距离；x_j是第j辆车的状态信息，车辆的状态信息是由跟驰距离误差和速度误差确定的，因此x_j＝[Δh_j Δv_j]^T，j＝2，3，…，n，Δh_j、Δv_j为第j辆车在纵向队列中的跟驰距离误差和速度误差；ECC为除去矩阵中所有元素为0的列，ECR为除去矩阵中所有元素为0的行，τ_j为第j辆车的跟驰距离参数并只针对无人驾驶车辆；I_j为相应j阶的单位矩阵。

优选的，所述步骤3中拉格朗日二次型队列跟驰代价函数和Q值函数的表达式分别具体为：

拉格朗日二次型队列跟驰代价函数V(x(t))

式中，M∈R^2n×2n为与纵向编队里前方车辆跟驰距离和行驶速度有关的2n*2n的正定矩阵，N∈R^p×1是关于无人驾驶车辆信息控制的p*1的正定矩阵，x(t)为混合车队在t时刻的状态信息，u(i)为混合车队在t时刻的控制输入，x^T(t)、u^T(t)分别是对x(t)、u(t)求转置得出的；

Q值函数的表达式为：

式中，x_t、u_t分别为在时间步长t内车辆的状态信息和控制输入；r(x(τ)，u(τ))为τ时瞬时奖励函数。

优选的，所述步骤5具体为：

用Actor神经网络来估计无人驾驶车辆的跟驰控制输入，用Critic神经网络估计跟驰代价函数，表达式为：

式中，

分别为Actor神经网络和Critic神经网络的激励函数，

和

分别为

的转置，θ_u、θ_v分别为估计的Actor神经网络权值和Critic神经网络权值，V(x)为代价函数，u(x)为跟驰控制；

随机初始化Actor网络

Critic网络Q(x_t，u_t|θ_v)，然后运用这两个网络初始化对应的target网络和相应动作的探索度N_t，根据策略网络

的输出以及探索度N_t选择动作u_t，并执行动作u_t，得到瞬时奖励r_t+1和新的状态信息x_t+1，并将当前状态信息x_t、当前控制输入u_t、奖励函数r_t、新的状态信息x_t+1作为数字序列进行存储，再随机批量读取序列进行学习，计算采样过程中的贝尔曼绝对误差，基于此选择使误差取得最大值时的时间值：

其中，m为总的训练次数，即有m个critic网络，记为

在上述结果中选取当B_i取得最大值时的i值，记为b，在计算价值网络时把此项舍去，采用确定性的策略梯度来更新权重，将最终学习的策略作为所有参与者的平均值，计算价值网络：

式中，γ∈(0，1]为折扣因子，m为总的训练次数，r_t+1为t+1时瞬时奖励函数；

根据损失函数更新Critic网络，根据Actor的梯度反向更新Actor网络；损失函数的表达式为：

Actor的梯度表达式采用现有公式，为：

式中，

表示梯度；

然后采用确定性的策略梯度来更新target网络的权重参数：

θ_v′←τθ_v+(1-τ)θ_v′ (19)

θ_u′←τθ_u+(1-τ)θ_u′ (20)

式中，θ_u′、θ_v′分别为更新后的Actor神经网络权值和Critic神经网络权值，τ为常数。

优选的，所述步骤6具体为：

使用深度神经网络去近似Q值函数和策略梯度网络，当Q值函数模型和控制输入两个过程同时实现收敛，即当||θ_v′-θ_v||＜ε，||θ_u′-θ_u||＜ε，其中ε为一个阈值常数，此时获得最优评价指标下的跟驰代价函数：

获得最优跟驰代价函数下的跟驰控制输入：

其中，

和

分别为

的转置，θ_u′、θ_v′分别为更新后的Actor神经网络权值和Critic神经网络权值。

与现有技术相比，本发明具有如下优点：

1、本发明建立混合车辆的跟随模型，同时针对有人车和无人车，运用强化学习的方法进行优化，可以得出精确的输出统计量，进而降低了计算成本。

2、本发明运用强化学习的方法对混合车队进行控制，综合了深度Q学习和策略梯度两种方法，利用不断训练求解最优反馈策略，利用周围环境信息，通过多次策略迭代使车辆能够通过自身的学习，找到最优的控制策略。

3、本发明采用强化学习的方法，改善了因瞬时通信异常引起的编队队形偏离现象，保证了跟随者运动的可靠性，极大地提高了编队的稳定性。

附图说明

图1为基于强化学习的无模型示意图；

图2为Critic和Actor网络体系结构图；

图3为混合车队中基于强化学习控制策略的车辆控制示意图；

图4为混合车队中基于强化学习控制策略的车辆控制方法流程图；以及

图5(a)-(d)为本发明的混合车队实验位置示意图。

具体实施方式

如图1所示，一般来说，将知晓状态转移概率的问题称为“基于模型”的问题，将不知晓的称为“无模型”问题。现有技术中的马尔可夫决策过程就是针对“无模型”问题提出的建模方法。本发明所提出的混合交通的强化学习算法是一种无模型的自由控制策略，此方法将混合车队中车辆的行驶数据如速度、加速度、行驶距离等组成数据库，把此数据库和道路上的交通情况作为环境，把编队中的各个车辆视为智能体，环境可以实现向智能体反馈状态和奖励。输入是定义的环境状态、车辆状态以及最优控制动作，输出是由该状态下动作引起的奖励价值。只要定义的输入和输出相同，就可以将其应用于具有不同类型和不同动力系统结构的混合车队。

如图2所示，在DDPG算法中，用两个独立的神经网络表示Critic和Actor两部分，Actor采取一个状态x_t(V_n(t)，ΔV_n-1，n(t)，x_n-1，n(t))作为输入，估计得出驾驶车辆的跟驰控制输入；Critic将(x_t，u_t)作为输入，输出Q(x_t，u_t)。其中，t为时间步长，n为编队中的车辆数，x_t、u_t为时间步长t内车辆的状态信息和控制输入，V_n(t)为后面跟随车辆的速度，ΔV_n-1，n(t)为前面车辆与跟随车辆之间的相对速度，x_n-1，n(t)为前面车辆与跟随车辆之间的距离间隔。Actor和Critic各有三层网络：输入层、隐藏层、输出层，在隐藏层中每个神经元具有完整流的激活函数，将输入变换为其输出信号。由actor所输出的u_t传到critic网络中，梯度

表明更新动作所增加的Q值，利用策略梯度更新actor的参数，进而更新Actor网络，最终形成一个完整的回路。

如图3所示，为一个混合车队中基于强化学习控制策略的车辆控制示意图。本申请将混合车队中的车辆控制问题建模为一个马尔科夫决策过程，首先将混合车队的相关数据作为历史驱动数据收集并存储在驱动数据库中，然后输入到一个模拟环境，车辆即智能体自动调节从环境的尝试和交互中进行学习，实现其自动调节。Q值网络是一种打乱相关性的机制，使用此网络会出现两个结构完全相同但是参数却不同的网络：当前值网络和目标值网络。Q(x，u，θ)表示当前值网络的输出，用来评估当前状态动作对的值函数，也称为当前Q值；Q(x，u，θ′)表示目标值网络的输出，可得出新的Q值，也称为目标Q值。其中，x表示此系统的状态信息，u表示此系统的控制输入，θ为神经网络的权重，θ′为θ更新后的参数值。计算出损失函数，利用损失函数梯度更新当前值网络的参数。每经过一定次数的迭代，将当前值网络的参数传递给目标值网络。引入目标值网络后，在一段时间里使目标Q值保持不变，一定程度降低了当前Q值和目标Q值的相关性，提高了算法稳定性。

在智能体学习即混合车队中车辆根据周围交通情况行驶的过程中会得出奖励函数，该奖励函数显示智能体在多大程度上偏离经验数据。智能体运用深度Q学习网络(DQN)进行训练，某段时间内，在驱动数据库中进行采样，探索得到某个状态信息x_t，在这些可能性的数据中选择出：

u_t＝argmaxQ^*(x_t，u_t；θ)

式中，x_t、u_t分别为时间步长t内车辆的状态信息和控制输入，θ为神经网络的权重，Q^*表示取得的Q的最优值，对于第j-1辆车的状态信息包括后面跟随车辆的速度V_j(t)，前面车辆(即第j-1辆车)与跟随车辆(即第j辆车)之间的相对速度ΔV_j-1，j(t)，两辆车之间的间隔S_j-1，j(t)。把S_j-1，j(t)，ΔV_j-1，j(t)，V_j(t)作为输入，输出连续动作。Critic将(x_t，u_t)作为输入，输出Q(x_t，u_t)。其中，t为时间步长，n为编队中的车辆数，j＝2，3，…，n，x_t、u_t分别为时间步长t内车辆的状态信息和控制输入。通过这些相互作用，得出了最佳策略车辆跟随模型，从速度、引导跟随车辆之间的相对速度以及车辆间距等方面，该模型对追随车辆产生影响。当输入更多数据时，可以不断更新模型或策略，得到的最优策略将作为自主驾驶阶段的执行策略。

根据上述理论基础，如图4所示，本发明公开了一种混合驾驶的策略控制方法，其方法包括以下步骤：

步骤1，对于道路上的有人驾驶车辆与无人驾驶车辆混合编队，混合车辆编队简称为混合车队，建立基于车辆自身期望轨迹位置的固定参考系，以及建立基于道路上不确定因素的惯性参考系；

步骤2.1首先列出有人驾驶车辆和无人驾驶车辆的跟驰动态模型，跟驰动态模型也被称为运动学方程。

有人驾驶车辆跟驰动态模型为：

f(h)为跟驰距离速度优化函数，表示为：

因此可知，

本申请中在变量上加点表示对该变量求导；变量前有“Δ”表示该变量的变化量。第j辆车为当前车辆，因此h_j为第j辆车的跟驰距离，v_j为第j辆车跟驰速度，v_j-1为第j-1辆车跟驰速度，v_m为驾驶员可操作车辆行驶的最大速度，h_s为纵向队列中最小跟驰距离，h_g为纵向车辆队列中最大跟驰距离。α_j为第j辆车中驾驶员对跟驰过程中由前车距离引起的距离反应增益，β_j为第j辆车中驾驶员根据当前的车速引起的速度反应增益。

根据有人驾驶车辆跟驰动态模型在平衡点处进行泰勒展开，并省去泰勒展开式中的高阶无穷小项，可得出有人驾驶车辆的跟驰误差状态空间模型为：

其中，h_j-1为第j-1辆车的跟驰距离，v_j-1为第j-1辆车跟驰速度，Δh_j、Δv_j分别为第j辆车在纵向队列中的跟驰距离误差和速度误差，

为将

代入跟驰距离速度优化函数f(h)的导数，

为每辆车的期望跟驰距离，H_j、L_j为计算过程中使用的变量。

无人驾驶车辆的跟驰动态模型为：

式中，u_j表示第j辆车自动驾驶的加速度。

根据无人驾驶车辆的跟驰动态模型在平衡点处线性化，可得无人驾驶车辆的跟驰误差状态空间模型为：

其中P_j、T_j、B_j都是系数矩阵，τ_j为第j辆车的跟驰距离参数并只针对无人驾驶车辆，实际中，τ_j取值通常为固定车头时距。

步骤2.2本发明将有人驾驶车辆和无人驾驶车辆的跟驰误差状态空间模型相结合，根据混合车队中的任意车辆序列(任意车辆序列是指对一个混合车队中有人驾驶车辆和无人驾驶车辆的顺序没有限制要求，也就是第几辆是有人驾驶车辆，第几辆是无人驾驶车辆没有限制)，得到惯性参考系中混合车辆纵向队列的模型：

其中，A、B、W为与有人和无人驾驶车辆相关的系数矩阵，A∈R^2n×2n是有关车辆跟驰动态的系统矩阵，B∈R^2n×p是关于无人驾驶车辆跟驰控制的输入矩阵，W∈R^2n×1，x为各个车辆的状态信息，u∈R^p×1为混合车队的控制输入，Δv为队列中某辆车速与前后面各个车速的差值，p为纵向队列中无人驾驶车辆的数量，n为编队中的车辆数；

在本实施例中，对公式(7)中变量进行展开，具体可写为：

为跟驰距离速度优化函数f(h)的导数，

为每辆车的期望跟驰距离；x_j是第j辆车的状态信息，车辆的状态信息是由跟驰距离误差和速度误差确定的，因此x_j＝[Δh_j Δv_j]^T，j＝2，3，…，n，Δh_j、Δv_j为第j辆车在纵向队列中的跟驰距离误差和速度误差；ECC为除去矩阵中所有元素为0的列，ECR为除去矩阵中所有元素为0的行，τ_j为第j辆车的跟驰距离参数并只针对无人驾驶车辆。I_j为相应j阶的单位矩阵。

步骤3，根据混合车辆纵向队列的模型和线性系统的二次性能指标，构造拉格朗日二次型队列跟驰代价函数，并由此得到Q值函数的表达式。

把城市道路上的混合车队看作学习的主体，将编队控制问题建模为一个马尔科夫决策过程。马尔科夫决策过程(MDP)基于一组交互对象，即智能体和环境进行构建，所具有的要素包括状态、动作、策略和奖励。在MDP的模拟中，智能体会感知当前的系统状态，按策略对环境实施动作，从而改变环境的状态并得到奖励，奖励随时间的积累被称为回报。在本申请中定义状态为混合编队的状态信息，定义动作为车辆的控制输入，控制输入为车辆的加速度，定义状态-动作对为状态信息和控制输入组成的数据向量，定义回报为一个与混合车队状态有关的变量，定义每个状态-动作对的Q值函数表示处于相应时间状态下执行控制输入后获得的期望累计函数，定义每个状态-动作对的π为控制过程中的相应策略；

根据混合车辆纵向队列的模型和线性系统的二次性能指标，构造拉格朗日二次型队列跟驰代价函数V(x(t))

式中，M∈R^2n×2n为与纵向编队里前方车辆跟驰距离和行驶速度有关的2n*2n的正定矩阵，N∈R^p×1是关于无人驾驶车辆信息控制的p*1的正定矩阵，M、N矩阵的构建为现有技术，x(t)为混合车队在t时刻的状态信息，u(t)为混合车队在t时刻的控制输入，x^T(t)、u^T(t)分别是对x(t)、u(t)求转置得出的；

瞬时奖励函数为r(x(t)，u(t))，根据混合车队位置移动产生的代价函数V(x(t))对车辆进行训练，在某个时间阶段[t，t+Δt]时间获得Q值函数为

式中，x_t、u_t分别为在时间步长t内车辆的状态信息和控制输入；r(x(τ)，u(τ))为τ时瞬时奖励函数。当Q值函数取得最优值同时代价函数也将取得最优值。

将Q值函数写成递归的贝尔曼方程形式，表明了当前状态的值函数与下个状态值函数的关系：

式中，γ∈(0，1]为折扣因子，E[]表示[]内的期望，r_t+Δt为t+Δt时瞬时奖励函数，x_t+Δt为在时间步长t+Δt内车辆的状态信息，u_t+Δt为在时间步长t+Δt内车辆的控制输入，π为控制策略，由此获得最优价值函数和控制策略；贝尔曼方程的形式是已经存在的一种方程，下标就表示前提条件。

贝尔曼最优性方程为：

当Q值函数在控制策略π下取得最大值时为取得最优值Q^*(x_t，u_t)，同时代价函数也取得最优值V^*(x_t，u_t)；

步骤4，对于由周围车辆对自身车辆影响所获得的信息，首先运用深度Q学习网络(DQN)进行训练，某段时间内，在数据集中进行采样，探索得到某个状态信息x_t，当所用时间满足价值网络更新周期时，运用深度确定性策略梯度法(DDPG)进行参数的训练；

没有中央控制单元的限制，对于由周围车辆对自身车辆影响所获得的信息，信息包括跟驰速度、间隔、加速度以及位置等信息，首先运用深度Q学习网络(DQN)进行训练，某段时间内，在数据集中进行采样，本实施例中数据集即图3中的驱动数据库，输入当前车辆的状态，用贪心策略选取一个控制输入：以一个很小的正数ω的概率随机选择未知的一个动作，剩下1-ω的概率选取具有最高Q值的一个控制输入：

u_t＝argmaxQ(x_t，u_t；θ) (12)

式中，x_t、u_t为时间步长t内车辆的状态信息和控制输入，θ为神经网络的权重。

选择了控制输入u_t后，车辆在上述状态中执行所选的控制输入，并进行到新状态，接收奖励函数，然后把当前状态信息x_t、当前控制输入u_t、奖励函数r_t、新的状态信息x_t+1作为一个数据序列存储在驱动数据库中。

当所用时间满足价值网络更新周期时，运用深度确定性策略梯度法(DDPG)进行参数的训练，很大程度上提高了学习效率；

步骤5，在DDPG算法中，为了更加精确地获得跟驰评价指标下的代价函数V^*(x(t))和跟驰控制u^*(x)，用Actor神经网络来估计无人驾驶车辆的跟驰控制输入，用Critic神经网络估计跟驰代价函数，根据损失函数更新Critic网络，根据Actor的梯度反向更新Actor网络，采用策略梯度来更新target网络的权重参数；

式中，

分别为Actor神经网络和Critic神经网络的激励函数，其内部的神经元之间线性无关，

和

分别为

的转置，θ_u、θ_v分别为估计的Actor神经网络权值和Critic神经网络权值，因此代价函数V(x)和跟驰控制u(x)也为估计值；

具体过程如下：

随机初始化Actor网络

Critic网络Q(x_t，u_t|θ_v)，然后运用前面的两个网络初始化对应的target网络和相应动作的探索度N_t，根据策略网络

的输出以及探索度N_t(噪音)选择动作u_t，并执行动作u_t，得到瞬时奖励r_t+1和新状态x_t+1，将序列即车辆利用交互得到的数据进行存储，再随机批量读取序列进行学习，计算采样过程中的贝尔曼绝对误差，基于此选择使误差取得最大值时的时间值：

其中，m为总的训练次数，即有m个critic网络，记为

在上述结果中选取当B_i取得最大值时的i值，记为b，在计算价值网络时把此项舍去，采用确定性的策略梯度来更新权重，将最终学习的策略作为所有参与者的平均值，避免了极值的影响，计算价值网络：

式中，γ∈(0，1]为折扣因子，m为总的训练次数，r_t+1为t+1时瞬时奖励函数。

这种方式将最终学习的策略作为所有参与者的平均值，避免了极值的影响。

根据损失函数更新Critic网络，根据Actor的梯度反向更新Actor网络。损失函数的表达式为：

Actor的梯度表达式采用现有公式，为：

式中，

表示梯度，

表示在权重θ_u下Actor的梯度，

表示在控制输入u_t条件下

的梯度。

然后采用确定性的策略梯度来更新target网络的权重参数：

θ_v′←τθ_v+(1-τ)θ_v′ (19)

θ_u′←τθ_u+(1-τ)θ_u′ (20)

式中，θ_u′、θ_v′分别为更新后的Actor神经网络权值和Critic神经网络权值，τ一般设置为非常接近1的数；

步骤6，使用深度神经网络去近似Q值函数和策略梯度网络，若Q值函数模型和控制输入两个过程同时实现收敛，完成对当下最优控制策略的求解；否则返回到步骤4。

使用深度神经网络去近似Q值函数和策略梯度网络，当Q值函数模型和控制输入两个过程同时实现收敛，即当||θ_v′-θ_v||＜ε，||θ_u′-θ_u||＜ε，其中ε为一个阈值常数，本实施例中设置ε＝10^-7。此时获得最优评价指标下的跟驰代价函数V^*(x)：

获得最优跟驰代价函数下的跟驰控制输入u^*(x)：

其中，

和

分别为

最优评价指标下的跟驰代价函数和跟驰控制输入构成了混合车队的最优控制策略，此时的最优控制策略是对下一步动作的最优控制策略。跟驰代价函数V(x(t))表达式中包含状态信息x(t)即步骤2中(7)式中的x，跟驰控制输入为u(t)，即步骤2中(7)的u。

类似的，混合车队中每一辆车都采用上述过程得到自己的最优控制策略，此时整个混合车队达到最优。

下述给出一个具体事例予以说明：

实验包括通信系统、视觉定位系统和智能小机器人车辆编队。小车编队由一辆领头车辆和四辆追随车辆组成，其中第1、2、4辆小车是有人车，第3、5辆小车是无人车，小车最初的位置是任意的。实验平台为290cm×370cm，上位机的摄像头安装在距离地面上方300cm，根据所设定的期望距离和跟驰速度，队列中无人驾驶车辆在策略迭代跟驰优化控制算法下进行队列跟驰。

初始化车辆编队数据，跟随车辆获取领头车和前车的状态信息，代入到Q值函数的公式中，获得训练数据。设置学习率为0.005，折扣因子γ＝0.9，每经过200步替换一次目标网络，数据库的记忆上限为3000，每迭代一步所取数据量的大小为32，用强化学习中的DQN、DDPG算法进行训练，以ε＝0.9的概率随机选取一个行动u或根据模型选择当前最优的行动，执行，得到新一轮的状态和回报，按照探索次数依次存入到数据库中，重复学习，计算输出的Q值，将损失函数用梯度下降法进行求解，完成参数更新。

通过循环迭代价值函数更新和策略改进的过程，当每次迭代价值更新和策略改进过程得到的损失函数小于阈值0.0001时，视作收敛，完成对当前状态下最优策略的求解。

将最优控制策略作为输出输入到模型中，循环以上步骤，即可实现混合车队的巡航控制。

所标出的跟驰距离为像素距离，转换关系为1pixel＝0.8cm。由于全局摄像头角度和标定范围的误差，允许运动误差在15像素范围内。如图5(a)(d)所示，图5(a)和5(b)分别表示5辆小车的初始位置及其间距，图5(c)和5(d)分别表示5辆小车形成稳定编队的最终位置及其间距。实验分为三个阶段：一是各车在队列初始位置，二是从初始队列形成目标队列，三是保持目标队列行驶至期望点。在队列初始位置和保持队列行驶至目标点的过程中，实时记录队列中各车辆的跟驰距离，形成队列的时间，以及观察队列稳定行驶的情况。

对于此实验中的5辆小车，初始速度设为v(0)＝[15，27，34.5，37，43]^T，初始距离d(0)＝[150，145，148，110]^T。并且在图5中，显示出了混合车队的冲突避免，实现了目标形成，稳定性得到保证。最终，跟驰列队达到期望的速度15cm/s，相邻两辆车期望间距为75cm。

以上所述的实施仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种混合车队中基于强化学习控制策略的车辆控制方法，其特征在于：其包括以下步骤：

步骤4，对于由周围车辆对自身车辆影响所获得的信息，首先运用深度Q学习网络进行训练，在数据集中进行采样，探索得到某个状态信息x_t，接收新状态的奖励函数，并把当前状态信息x_t、当前控制输入u_t、奖励函数r_t、新的状态信息x_t+1存储到驱动数据库，当所用时间满足价值网络更新周期时，就执行步骤5，否则继续进行训练；

步骤5，运用DDPG算法进行参数的训练，为了获得跟驰评价指标下的代价函数V^*(x(t))和跟驰控制u^*(x)，用Actor神经网络来估计无人驾驶车辆的跟驰控制输入，用Critic神经网络估计跟驰代价函数，根据损失函数更新Critic网络，根据Actor的梯度反向更新Actor网络，采用策略梯度更新target网络的权重参数；

步骤7，将步骤6获得的最优控制策略输入到步骤2的惯性参考系中混合车辆纵向队列的模型中，混合车队更新自身状态,然后再执行步骤4-7，循环往复，最终完成混合车队中车辆的控制任务；

所述步骤2中惯性参考系中混合车辆纵向队列的模型为：

对公式(7)中变量进行展开，具体写为：

为跟驰距离速度优化函数f(h)的导数，

为每辆车的期望跟驰距离；x_j是第j辆车的状态信息，车辆的状态信息是由跟驰距离误差和速度误差确定的，因此x_j＝[Δh_jΔv_j]^T,j＝2,3,…,n+1，Δh_j、Δv_j为第j辆车在纵向队列中的跟驰距离误差和速度误差；ECC为除去矩阵中所有元素为0的列，ECR为除去矩阵中所有元素为0的行，τ_j为第j辆车的跟驰距离参数并只针对无人驾驶车辆；I_j为相应j阶的单位矩阵，u_j表示第j辆车自动驾驶的加速度；

所述步骤3中拉格朗日二次型队列跟驰代价函数和Q值函数的表达式分别具体为：

拉格朗日二次型队列跟驰代价函数V(x(t))