CN112700642A

CN112700642A - 一种利用智能网联车辆提高交通通行效率的方法

Info

Publication number: CN112700642A
Application number: CN202011512324.5A
Authority: CN
Inventors: 张利国; 马子博; 崔铜巢; 江丰尧; 花桢
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-12-19
Filing date: 2020-12-19
Publication date: 2021-04-23
Anticipated expiration: 2040-12-19
Also published as: CN112700642B

Abstract

本发明公开了一种利用智能网联车辆提高交通通行效率的方法，该方法采用PPO强化学习算法优化智能网联车的驾驶策略，并且通过对交通流动态信息统计方法的创新，提出了等效密度概念，并以此优化设计了PPO算法的观测空间和奖励函数，加快了算法的优化效率。最终，通过在SUMO交通仿真平台上进行实验，验证了所提方法的有效性。实验结果表明，本发明可对路网中交通拥堵产生的走停波进行消散，缓解了交通拥堵，有效提升了通行效率。

Description

一种利用智能网联车辆提高交通通行效率的方法

技术领域

本发明涉及自动驾驶领域、深度强化学习领域、车联网领域，特别涉及基于深度强化学习的自动驾驶策略训练。具体发明一种基于深度强化学习，通过训练智能网联车的驾驶策略来提高交通通行效率的方法。

背景技术

随着人工智能技术和汽车技术的发展，无人驾驶汽车逐渐走入人们的视野。无人驾驶汽车主要通过自身搭载的传感器获取外界环境信息，依靠车载计算机完成对外界环境信息的处理，并对汽车的执行系统输出控制信号来实现对车辆的控制，进而实现自动驾驶。这种基于车辆自身传感器获取环境信息的方式具有非常大的局限性：一是获取信息范围小，通常只能获取车辆自身到周围邻车的相关信息；二是获取到的信息种类缺乏多样性，现有的雷达、红外、摄像头等传感器通常只能获取到速度、距离等信息；三是获取信息的过程易受环境条件变化的影响。

然而，随着无人驾驶技术和通信技术的发展，车联网作为二者结合的产物，逐渐成为了无人驾驶领域颇受关注的研究方向。配备标准无线车联设备的车辆可以通过无线通信的方式接入车联网。接入车联网的无人驾驶汽车不仅可以通过自身的传感器获取周边的环境信息，也可以通过车联网获取其他车辆的速度、位置等信息，实现车与车(V2V)之间的信息共享与实时通信。无人驾驶车辆通过接入车联网，使得获取信息的过程不再受制于自身传感器，间接地扩展了获取信息的范围，这就使无人驾驶车可以利用路网中更全面的信息进行驾驶行为的决策。由此看来，无人驾驶车辆可以通过自主驾驶技术对交通指标进行优化，这也是目前自动驾驶领域主要的研究方向之一。

在诸多交通指标中，通行效率一直是人们迫切关注的一点，而交通拥堵恰恰是阻碍通行效率提升的重要原因之一。在路网中，拥堵区域表现为车流密度大、车流流速慢，而非拥堵区域则相反。因而，在非拥堵区域和拥堵区域之间就形成了一个交通流密度突变的截面——走停波(stop-and-go wave)。它会在车流中向上游甚至下游传播，直到被上游或下游车辆逐渐消散。然而，在车流量较大的路网中，走停波被消散的速度非常缓慢，有的甚至会被扩大并最终破坏整个车辆队列稳定性。网联的无人驾驶车由于感知环境的能力大大增强，因而可以尽早地捕捉到周围交通流的微小波动。因此，如何利用网联无人驾驶车主动地消散交通流波动成为了研究的热点。

Abdul等人基于SUMO交通仿真软件，利用TRPO(Trust Region PolicyOptimization)强化学习算法在两个实验场景中研究了走停波消散问题，分别是一条带有汇入匝道的单车道高速路和单车道环形道路。两个实验场景中的车辆队列均为混合队列，人工驾驶车采用IDM跟驰模型作为纵向控制策略，无人驾驶车采用TRPO算法学习到的策略作为纵向控制策略。但该文献中，无人驾驶车的观测空间只包括其前后邻车的动态信息，而不包括队列中其他车辆的信息，车联网信息共享的特性没有被体现出来。只考虑局部(微观)交通流动态的学习方法会使得学习效果无法达到最优，影响最终的优化效果。

Cathy Wu等人同样基于SUMO交通仿真软件，利用TRPO深度强化学习算法研究了单车道环形道路场景中走停波的消散问题。该场景中分别存在有人工驾驶车和无人驾驶车两类车辆，人工驾驶车依旧采用IDM跟驰模型作为车辆纵向控制策略，而无人驾驶车则采用TRPO算法学习到的策略作为车辆纵向控制策略。该文献中，无人驾驶车的观测空间包括了道路中每辆车的速度v_i和位置x_i，车联网信息共享的特性被体现了出来。然而在该方法中，观测空间的维数较高，过高的维度会导致算法学习效率低下且收敛速度慢；另外，其奖励函数与队列中所有车辆的速度有关，无人驾驶车驾驶策略的改变不能及时地从奖励值中反映出来，这种非即时奖励也会影响算法的收敛速度。

考虑以上因素，本发明作出以下改进：首先，提出一种新的交通流信息统计算法。该算法将车流密度ρ、平均速度v、跟车间距d等环境信息量化为一个指标，记为等效密度ρ_e。该指标既包含了宏观交通流信息，也包含了微观交通流信息，在确保全面描述交通流动态的前提下，大大减少了观测量的个数。其次，利用上述指标优化设计强化学习算法的观测空间和奖励函数。将上述指标作为观测量放入观测空间中，可以使观测空间不再考虑环境中每辆车单独的信息，减少了观测空间维数；将上述指标作为奖励值的计算依据，可以准确地评价动作的优劣，提高算法的优化效率。

发明内容

本发明提出了一种利用智能网联车提高交通通行效率的方法。该方法基于深度强化学习算法，通过提出新的交通流信息统计算法，改进了智能网联车驾驶策略的观测空间和奖励机制，提高了驾驶策略的训练效率，并最终训练出了消散走停波的驾驶策略，有效地缓解了交通拥堵，提升了通行效率。

一种利用智能网联车辆提高交通通行效率的方法，具体实现步骤如下：

步骤1、获取智能网联车周围的环境状态信息

车联网环境中存在普通网联车与智能网联车两种车辆，区别在于普通网联车需要人工驾驶，而智能网联车可以自动驾驶。所有网联车通过自身的无线车联设备接入车联网，并将自身传感器监测到的环境状态信息共享至网络。智能网联车以自身为中心，获取其前、后长度为L的区间内的环境状态信息。所述的环境状态信息至少包括智能网联车前、后长度为L的区间内所有车辆的行驶速度v_i以及每辆车的位置(x_i,y_i)，i∈(1,2,…,n)，其中，i为车辆编号，n为前部或后部长度为L的区间内的车辆数。

步骤2、提取上述环境状态信息，计算等效密度ρ_e

步骤1中所述的环境状态信息是一种原始数据，并不能够直接反映交通流的动态，因此需对环境状态信息中的部分特征进行提取并加以整合。基于上述考虑，本发明提出了新的交通流信息统计算法，用以提取环境状态信息。记步骤1所述的长度为L的区间为交通流信息统计算法的统计区间，每辆智能网联车含有前部、后部两个统计区间，交通流信息统计算法的公式如下：

其中，ρ_e表示智能网联车前或后部统计区间内的等效密度；ρ_W表示智能网联车前或后部统计区间内车流的加权平均密度；v_WH表示智能网联车前或后部统计区间内车流的加权调和平均速度；d表示智能网联车与前或后车的间距；参数k_ρ、k_v、k_d分别控制密度项、速度项、间距项在计算等效密度指标时的权重；ρ_W的计算公式如下：

其中，w_i表示权重；d_i表示智能网联车前或后第i辆车到第i+1辆车的距离，i为车辆编号，n为统计区间内的车辆总数；v_WH的计算公式如下：

其中，v_i表示智能网联车前或后第i辆车的速度；上述的w_i的计算公式如下：

其中，s_i表示智能网联车到其前或后第i辆车的距离；a表示权重参数，控制算法中权重w_i随距离s_i增大时的衰减力度，间接控制了智能网联车前或后部统计区间的长度L。

最终，通过调整k_ρ、k_v、k_d、a四个参数，可以使该统计算法输出理想的统计结果。

步骤3、设计智能网联车驾驶策略的观测空间和动作空间

观测空间包含了驾驶策略的所有观测量，观测空间设计的优劣直接影响了策略训练的好与坏。为了确保智能网联车驾驶策略在获取足够全面的交通流信息的同时，不会使观测空间的维度过高，下面将步骤2所述的等效密度指标引入观测空间的设计过程中，设计驾驶策略的观测空间如下式所示：

S：＝(v,Δv,d,Δρ_e)

其中，v表示智能网联车的速度，Δv表示智能网联车与前车的速度差，d表示智能网联车的跟车间距，Δρ_e表示智能网联车前部与后部统计区间的等效密度之差。v,Δv,d用于反映智能网联车与前车的关系，帮助智能网联车快速学习到正确驾驶行为的大致策略；Δρ_e用于反映智能网联车所处路段的宏、微观交通流信息，帮助智能网联车学习到消散走停波的最优驾驶策略。

驾驶策略的输出动作为车辆的加速度，因此，设计动作空间为车辆可取到的加速度区间，如下式所示：

A＝[a_min,a_max]

其中，a_min为智能网联车最大减速度，a_max为智能网联车最大加速度。

步骤4、设计智能网联车驾驶策略的奖励函数

奖励函数负责评价策略做出动作的优劣，并直接决定了策略的优化方向。针对现有工作中奖励函数不能及时反映动作优劣的问题，下面将使用步骤2所述的等效密度指标优化奖励函数的设计。

首先，奖励函数的主要作用是鼓励消散交通拥堵的行为。智能网联车通过阻断走停波在车辆队列中传播来恢复队列的稳定性，从而缓解拥堵并提升通行效率。而在走停波两侧，车流密度、速度差距很大，反映到等效密度概念上则体现为两侧等效密之度差很大。因此，奖励函数需要对智能网联车前、后部的等效密度差进行惩罚，以促使驾驶策略朝着让前、后部等效密度趋于一致的方向进行优化。设计奖励函数r₁如下式所示：

r₁＝-k₁|Δρ_e|

其中，Δρ_e表示智能网联车前部与后部统计区间内的等效密度之差，k₁为大于0的参数。

其次，为了保证智能网联车驾驶的安全性，需要对危险驾驶行为进行惩罚，设计奖励函数r₂和r₃如下式所示：

r₂＝-k₂·max(d_safe-d,0)

其中，d为智能网联车的跟车间距，d_safe为跟车间距最小阈值，M为正常数，k₂为大于0的参数。

最终，将上述两部分进行整合，得到驾驶策略的奖励函数r，如下式所示：

步骤5、智能网联车驾驶策略网络的搭建与训练

本发明选用PPO强化学习算法对智能网联车的驾驶策略进行训练。PPO算法本质上是一种Actor-Critic算法，因此搭建Actor网络和Critic网络作为策略网络。根据步骤3对观测空间和动作空间的定义，选用全连接的多层感知机(MLP)作为Actor和Critic网络的结构。Actor网络输出选择动作的概率分布μ、σ，Critic网络输出观测量的价值V(s_t)。

在训练开始前，需构建两个结构完全相同的策略网络，分别记为π_new和π_old。π_old负责与环境互动，而π_new负责学习经验并优化参数。

(1)与环境互动

π_old根据观测量s输出动作a，该动作在训练环境中执行后，由环境返回该动作的奖励值r和经过该动作作用后下一时刻的观测量s’。重复上述过程T个步长，会得到T个元组(s,a,r,s’)。将元组按时间顺序排序，记为一条轨迹(trajectory)，PPO算法将根据该轨迹对策略网络进行优化。

(2)优化策略网络参数

将轨迹中所有观测量s_t分别传入策略网络π_new和π_old中，得到不同策略网络输出的分布

分别计算轨迹中每一步动作a_t在上述两个分布中的对数概率

利用GAE算法计算轨迹中每一步动作的优势

δ_t＝r_t+γV(s_t+1)-V(s_t)

其中，δ_t为时序差分误差项，T为轨迹τ所含的总步长数，γ、λ为参数；优势

反映了该步选取动作a相比于选取其他动作的优势，并由此计算Actor网络的损失。由于Actor-Critic算法是on-policy(在线)优化算法，因此，收集到的轨迹只能对策略进行一次优化，大大降低了经验数据的利用率。为了解决这一问题，PPO算法中引入了重要性采样，利用该方法，可以使PPO算法利用同一批数据对策略进行多次优化。其中，重要性权重ratio_t(θ)的计算公式如下：

Actor网络的损失L^CLIP(θ)如下：

轨迹中每一步的回报

由下式计算：

Critic网络的损失L^VF(θ)如下：

策略网络的损失L(θ)如下：

L(θ)＝-L^CLIP(θ)+0.5L^VF(θ)

将误差在π_new策略网络中反向传播，完成一次优化。重复步骤(2)若干次对π_new进行多次优化，以充分利用经验数据。优化完成后，将π_new中的参数复制到π_old策略网络中，并循环步骤(1)、(2)，直到达到优化要求。

附图说明

图1为本发明实例提供的仿真实验场景

图2为本发明实例提供的仿真场景初始状态

图3为本发明实例提供的仿真环境交互方法

图4为本发明实例提供的驾驶策略网络

图5为本发明实例提供的PS-PPO算法的实现流程

图6为本发明实例提供的训练过程中奖励值的变化曲线

图7为本发明实例提供的训练过程中平均速度与速度标准差的变化曲线

具体实施方法

以下将结合附图对本发明实例进行详细描述，以便本技术领域的人员更好地理解本发明。以下所描述的实例为本发明的一部分实例，并非全部实例。基于发明中的实例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应当在本发明保护的范围之内。

本发明实例是通过SUMO(Simulation of Urban MObility)交通仿真软件模拟车辆驾驶行为和道路交通状况，利用Pytorch神经网络库构建智能网联车的策略网络，并基于python语言和TraCI(Traffic Control Interface)控制接口编写程序实现的。以下对具体实施步骤进行详细说明。

步骤1、实验场景设计

如图1所示，本实例中选用单车道环形道路作为仿真实验路网。该环形道路半径为45m，道路周长为283m。在车辆配置方面，本实例中设计了两种模式：

M1：人工驾驶队列模式。配置25辆普通网联车；

M2：混合驾驶队列模式。配置2辆智能网联车和23辆普通网联车。

由于模式M1中的车辆均为普通网联车，不涉及本发明的应用，因此仅作为对照实验场景，其结果仅供对照使用。而本实验的主要步骤(步骤3至步骤5)均在模式M2中进行。

由于选用的单车道路网，因此只考虑车辆的纵向控制；纵向控制模型中，智能网联车采用PPO算法训练的驾驶策略控制，普通网联车采用IDM跟驰模型控制，IDM跟驰模型的公式如下：

其中：v为车辆当前时速；v₀为最大期望速度；s为车辆当前间距；s^*为期望间距函数；s₀为最小安全间距；T为车头时距；Δv为本车与前车速度差；a为车辆最大加速度；b为舒适减速度；δ为加速度指数。

步骤2、仿真参数配置

首先，在仿真环境方面，配置参数如表1所示。如图2所示，仿真初始状态为拥堵状态。即：所有车辆速度v_i＝0，所有车辆跟车间距d_i＝s₀＝2m。

表1仿真环境参数配置

其次，在公式参数方面，配置参数如表2所示。

表2相关公式参数配置

步骤3、车辆信息获取

如图3所示，通过在python环境中调用TraCI控制接口，实现对SUMO仿真环境中信息的获取和控制指令的发送。本实例中，通过TraCI接口获取仿真场景中所有车辆的位置、速度信息，通过python控制脚本对上述信息进行后处理，得到需要的各种观测信息。

步骤4、智能网联车策略网络搭建

如图4所示，本实例中的策略网络包含Actor和Critic两个网络：Actor网络由4层全连接层构成，包括2层隐含层和2层输出层，每层隐含层含有64个神经元，隐含层采用tanh激活函数；每层输出层含有1个神经元，分别输出动作概率分布的μ和σ，对应地，分别采用tanh激活函数和softplus激活函数；Critic网络由3层全连接层构成，包括2层隐含层和1层输出层；每层隐含层含有64个神经元，采用tanh激活函数；输出层含有1个神经元，输出动作的价值V，采用tanh激活函数。

步骤5、驾驶策略训练

本实例中，由于存在多辆智能网联车，每一辆智能网联车均被视作一个智能体，因此需要使用多智能体强化学习算法进行训练。本实例选用基于参数共享的PPO算法(PS-PPO)对智能网联车的驾驶策略进行训练。PS-PPO算法的本质依然是PPO算法，只是将优化过程略加调整，使其能够在共享多个智能体数据的基础上优化目标策略，其示意图如图5所示，具体实现过程如下。

a.初始化仿真环境和策略网络。首先重置仿真环境，使车辆处于拥堵状态，为走停波的出现以及消散创造前提；其次，构建结构相同的新、旧策略网络，将策略网络的权值矩阵进行随机初始化，本实施例中使用N(0,0.1)对权值矩阵进行随机初始化。

b.用旧策略网络与仿真环境交互。本实例中的两辆智能车共享一个驾驶策略，因此在一个仿真步长中，先依次用策略网络对两辆智能车分别进行决策，根据其各自的观测量选出各自的动作，然后在运行一步仿真，执行决策的结果。

c.存储智能网联车与环境交互的经验数据。执行上述决策结果后，从仿真环境分别获取两辆车的奖励值r、下一时刻观测量s’和回合结束标识位done，并与上一时刻观测量s和动作a组成元组(s,a,r,s',done)，分别存入两个独立的缓冲区buf1、buf2中。若上一时刻的动作a导致了车辆碰撞，则重置仿真环境。

d.重复过程b、过程c，收集经验数据。本实例中设定重复次数n_step＝2048。

e.计算优势

和回报

分别对两个缓冲区的数据进行以下操作：将缓冲区中所有观测量s传入Critic网络，得到每个观测量对应的价值V，由下式计算出每一步的优势

和回报

δ_t＝r_t+γV(s_t+1)-V(s_t)

本实例中取γ＝0.9，λ＝0.95

f.合并不同智能网联车的经验数据。将缓冲区buf1、buf2中的s、a、r、done、

和V对应项进行合并，记为buf_s,buf_a,buf_r,buf_done,

和buf_V。

g.计算旧策略网络输出的概率分布。将buf_s输入旧策略的Actor网络，得到概率分布buf_μ、buf_σ，并计算对数概率密度buf_π_old：

h.mini-batch训练。从步骤f、g计算出的数据中随机抽取一小批计算策略的损失。本实例中，取批大小batchsize＝64。将这一小批数据按照步骤g的方法计算新策略的概率分布batch_π_new，然后计算新旧策略差异：

ratio_t(θ)＝exp(batch_π_new-batch_π_old)

取ε＝0.2，计算Actor网络损失：

计算Critic网络损失：

计算策略损失：

L(θ)＝-L^CLIP(θ)+0.5L^VF(θ)

将损失在新策略网络中反向传播，优化策略网络。本实例中，取学习率lr＝0.0005。

i.重复步骤h若干次，充分利用经验数据优化策略网络。本实例中，取重复次数K_epoch＝10。

j.同步网络参数，重置仿真环境并重新与环境交互。首先，将优化后的新策略网络参数复制到旧策略网络中；然后，重置仿真环境，使车辆回到拥堵状态；最后，重复步骤b-步骤i，用更新后的旧策略网络重新与环境交互并优化，直到满足要求。本实例中，取重复次数episodes＝200。

步骤6、实验结果

本实例驾驶策略训练过程中奖励值的变化情况如图6所示。训练过程中，驾驶策略获得的奖励值快速上升并趋于稳定，验证了本发明对驾驶策略观测空间和奖励函数优化设计的有效性。另外，训练过程中车辆队列的平均速度v_mean和队列中各个车辆速度的标准差v_std变化情况如图7所示。由此可知，随着训练的进行，车辆队列的平均速度逐渐升高并趋于稳定，且队列中各车辆的速度逐渐趋于一致，队列速度的波动得到了有效的抑制；并且，M2模式比M1模式的队列平均速度更高、队列中各车辆速度的标准差更低。综上所述，本发明提出的方法有效缓解了交通拥堵，提升了通行效率。

Claims

1.一种利用智能网联车辆提高交通通行效率的方法，其特征在于：该方法由五部分组成：第一、以智能网联车为中心，获取其前部和后部长度为L的区间内的环境状态信息，所述的环境状态信息至少包括车辆前部和后部长度为L的区间内，路网中所有车辆的行驶速度v_i以及每辆车的位置(x_i，y_i)，i表示车辆编号；第二、利用提出的交通流信息统计算法，提取环境状态信息，将所述的环境状态信息整合为等效密度进行表示；第三、通过以下方式优化设计智能网联车驾驶策略的观测空间和动作空间：首先将所述的等效密度和其他必要的环境信息构成智能网联车驾驶策略的观测空间，其中，其他必要的环境信息具体包括智能网联车的速度v、智能网联车与前车的速度差Δv和智能网联车的跟车间距d，其次，将智能网联车加速度区间作为驾驶策略的动作空间；第四、将上述等效密度指标用于奖励函数设计，优化设计智能网联车驾驶策略的奖励函数；第五、搭建并训练智能网联车的驾驶策略网络。

2.根据权利要求1所述的一种利用智能网联车辆提高交通通行效率的方法，其特征在于：车联网环境中存在普通网联车与智能网联车两种车辆；所有网联车辆通过自身的无线车联设备接入车联网，并将传感器监测到的环境状态信息共享至网络；智能网联车把从网络中获取到的其他车辆共享的环境状态信息进行整合，得到智能网联车前后长度为L的区间内的环境状态。

3.根据权利要求1所述的一种利用智能网联车辆提高交通通行效率的方法，其特征在于：所述的用于获取环境状态信息、长度为L的区间记为交通流信息统计算法的统计区间，每辆智能网联车含有前部、后部两个统计区间；所述的交通流信息统计算法，其公式为：

其中，ρ_e表示智能网联车前或后部统计区间内的等效密度；ρ_W表示智能网联车前或后部统计区间内车流的加权平均密度；v_WH表示智能网联车前或后部统计区间内车流的加权调和平均速度；d表示智能网联车与前或后车的间距；参数k_ρ、k_v、k_d分别控制密度项、速度项、间距项在计算等效密度指标时的权重；ρ_W的计算公式为：

其中，w_i表示权重；d_i表示智能网联车前或后第i辆车到第i+1辆车的距离，i为车辆编号，n为统计区间内的车辆总数；v_WH的计算公式为：

其中，w_i表示权重，v_i表示智能网联车前或后第i辆车的速度，i为车辆编号，n为统计区间内的车辆总数；上述权重w_i的计算公式为：

其中，s_i表示智能网联车到其前或后第i辆车的距离，a表示权重参数，控制算法中权重w_i随距离s_i增大时的衰减力度，间接控制了智能网联车前或后部统计区间的长度L，i为车辆编号。

4.根据权利要求3所述的一种利用智能网联车辆提高交通通行效率的方法，其特征在于：计算出的等效密度指标能够同时反映宏观交通流信息和微观交通流信息；通过调整k_ρ、k_v、k_d、a四个参数，能使等效密度指标正确反映交通流动态。

5.根据权利要求1所述的一种利用智能网联车辆提高交通通行效率的方法，其特征在于：所述的智能网联车驾驶策略的观测空间设计为如下形式：

S：＝(v，Δv，d，Δρ_e)

其中，v表示智能网联车的速度，Δv表示智能网联车与前车的速度差，d表示智能网联车的跟车间距，Δρ_e表示智能网联车前部与后部统计区间的等效密度之差；v，Δv，d用于反映智能网联车与前车的关系；Δρ_e用于反映智能网联车所处路段的宏、微观交通流信息；所述的智能网联车驾驶策略的动作空间设计为如下形式：

A＝[a_min，a_max]

6.根据权利要求1所述的一种利用智能网联车辆提高交通通行效率的方法，其特征在于：所述的智能网联车驾驶策略的奖励函数设计为如下形式：首先，设计等效密度差的惩罚项r₁如下式所示：

r₁＝-k₁|Δρ_e|

其中，Δρ_e表示智能网联车前部与后部统计区间的等效密度之差，k₁为大于0的参数；其次，设计危险驾驶行为的惩罚项r₂和r₃如下式所示：

r₂＝-k₂·max(d_safe-d，0)

其中，d为智能网联车的跟车间距，d_safe为跟车间距最小阈值，M为正常数，k₂为大于0的参数；最终，将上述两部分进行整合，得到驾驶策略的奖励函数r，如下式所示：

7.根据权利要求1所述的一种利用智能网联车辆提高交通通行效率的方法，其特征在于：所述的智能网联车的驾驶策略网络为Actor-Critic网络，包含一个Actor网络和一个Critic网络：Actor网络由4层全连接层组成，包含2层隐含层和2层输出层，其中2层输出层分别输出正态分布的均值μ与标准差σ；Critic网络由3层全连接层组成，包含2层隐含层和1层输出层，其中输出层输出对时刻t观测量s_t的估值V(s_t)。

8.根据权利要求1所述的一种利用智能网联车辆提高交通通行效率的方法，其特征在于：所述的智能网联车驾驶策略的训练过程包括两个环节，分别为与环境互动和优化策略网络参数，所述的两个环节进行循环即构成了完整的训练过程；在训练开始前，需构建两个完全一致的策略网络，分别记为π_new和π_old，π_old负责与环境互动，π_new负责利用收集到的经验数据多次学习并优化参数。

9.根据权利要求8所述的一种利用智能网联车辆提高交通通行效率的方法，其特征在于：所述的与环境互动过程如下：

a.将观测量s传入策略网络π_old，经下式计算出正态分布的均值μ和标准差σ：

(μ，σ)＝sΘ_old

其中，Θ_old表示策略网络π_old的权值矩阵；经下式选出动作a：

a＝clip(N(μ，σ).sample()，a_min，a_max)

其中，N(μ，σ).sample()表示按分布N(μ，σ)进行采样，a_max、a_min分别表示动作空间A的上、下界；

b.将上述动作a在训练环境中执行一个仿真步长，得到环境返回的该动作的奖励值r和经过该动作作用后下一时刻的观测量s’，并将上述观测量s、动作值a、奖励值r、下一时刻观测量s’以数组的方式存储为经验数据，重复过程a、过程b若干次。

10.根据权利要求8、权利要求9所述的一种利用智能网联车辆提高交通通行效率的方法，其特征在于：所述的策略网络参数优化过程如下：

a.将上述经验数据按时间顺序排序，将得到的数据序列记为轨迹τ；

b.将轨迹τ中所有观测量s_t分别传入策略网络π_new、π_old中，得到策略网络π_new、π_old输出的分布