CN112201060B

CN112201060B - 一种基于Actor-Critic的单交叉口交通信号控制方法

Info

Publication number: CN112201060B
Application number: CN202011030399.XA
Authority: CN
Inventors: 全江伟; 刘运杰; 王喆冰; 郑喆; 金智多; 冯远静; 李永强
Original assignee: Aerospace Science And Technology Guangxin Intelligent Technology Co ltd
Current assignee: Aerospace Science And Technology Guangxin Intelligent Technology Co ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2022-05-20
Anticipated expiration: 2040-09-27
Also published as: CN112201060A

Abstract

一种基于Actor‑Critic的单交叉口交通信号控制方法，包括如下步骤：1)获取固定时间间隔的路网车辆位置信息和速度信息，以及对应时刻的信号灯状态；2)数据预处理，获得车辆队列‑信号灯状态的集合；3)利用车辆队列‑信号灯状态集，更新Actor网络和Critic网络参数；4)根据最终的收敛模型，可以得到基于Actor‑Critic的单交叉口交通信号最优配时方案，即下一时刻的最优信号。与现有技术相比，本发明通过人工智能方法，获取了交通运行过程中所隐藏的重要交通信息，最终得到了比传统定时方法通行效率更高的配时方案。

Description

一种基于Actor-Critic的单交叉口交通信号控制方法

技术领域

本发明涉及智能交通、最优控制领域，具体来说是一种基于Actor-Critic的单交叉口交通信号控制方法。

背景技术

在全球的大部分地区和城市，交通拥堵早已成为了一个棘手而复杂的问题，给人们的生活带来了很多麻烦。尽管现在很多GPS导航会提醒驾驶员前方的拥堵情况，以及通行需要花费的时间(提前进行了信号的传输)，但是拥堵仍然是很难避免的。交通信号控制一般是指通过对信号灯的调节，来直接或间接的调控和引导车流，目的是保证人员和货物的安全，提高交通网络的整体运行效率。而日常生活中应用最广泛的定时控制方法，它主要是根据不同时段从交通路网采集的历史交通数据，使用数学方法来确定信号灯不同相位的持续时间，然而这种离线方法只考虑了长期的交通状况，对交通的动态性却没有响应。

发明内容

为了缓解路口处的交通拥堵以及解决定时控制对交通动态性的无响应问题，借助实时获取的交通信息，本发明提出一种基于当前路网车辆排队信息和 Actor-Critic算法的信号灯配时优化方法，通过获取的路网交通数据，基于Actor-Critic方法，设计了一种应对交通动态性的信号灯实时优化方案，以此提高交通流的运行效率。

本发明所采用的技术方案是：

一种基于Actor-Critic的单交叉口交通信号控制方法，包括以下步骤：

1)对于一段连续时间，每隔相同时间间隔step，获取路网内的所有车辆的位置信息和速度信息，以及信号灯所处的灯态；

2)原始数据预处理，根据车辆的速度信息获取处于停车状态的车辆编号，通过停止车的位置信息获取各条车道上的排队状态信息，最终获取车辆队列-信号灯状态的集合{V_k,S_k}，其中，V_k为k时刻各个车道车辆的排队长度集合，S_k为k时刻的信号灯状态，k＝1,2,…,N，N为路网中进入交叉口的车道总数；

3)利用车辆队列-信号灯状态的集合{V_k,S_k}，根据Actor-Critic的方法，初始化关于策略的目标函数

Q(V_t,S_t)以及S_t，其中，θ为参数化的策略，τ为一个采样周期，Q(V_t,S_t)为参数化的值函数；

4)根据最终得到的神经网络模型，可以给出基于Actor-Critic的单交叉口信号灯最优配时方案：在现实场景中，根据各车道中车辆的排队信息和当前的灯态，通过下式确定下一个状态所需的信号灯状态信息：

S_next＝argmax(Q(V_now,S_now))

其中，S_next表示下个时刻要执行的信号灯状态，V_now表示当前时刻的各个车道车辆的排队长度集合，S_now表示当前时刻的信号灯状态表示，Q(V_now,S_now)表示由当前时刻的各个车道车辆的排队长度集合和信号灯状态决定的Q值函数，argmax(Q(V_now,S_now))指的是使Q值函数取到最大值的信号灯状态。

进一步，所述步骤3)的实现过程如下：

3.1)首先，设置基本训练参数，奖励折扣γ＝0.9，Actor的学习率α＝0.001，Critic的学习率β＝0.005，训练步长step＝10；Actor的神经网络结构为三层全连接层，神经元个数呈300-200-100的递减趋势；Critic的神经网络结构也为三层全连接层，神经元个数呈100-50-25的递减趋势；Actor-Critic训练过程中的奖励函数定义为：

3.2)根据当前车辆队列-信号灯状态的集合{V_k,S_k}，奖励值r_k以及下一时刻的车辆队列-信号灯状态的集合{V_k+1,S_k+1}更新Critic网络参数w，得到用来评价 Actor执行策略的好坏的指标TD；更新公式如下：

δ←r_k+1+γQ(V_t+1,S_t+1)-Q(V_t,S_t)

w＝w+β*δ*Φ(s,a)

3.3)根据车辆队列-信号灯状态的集合{V_k,S_k}，以及动作S_t和Critic返回的 TD进行Actor网络参数的更新；更新公式如下：

θ＝θ+α▽J(θ)

3.4)不断进行迭代更新神经网络，直到迭代次数达到预设的最大迭代次数 M＝60000为止，得到优化的信号灯配时方案。

本发明的技术构思为：首先收集路网中的车辆信息以及信号灯的灯态，对其进行预处理得到能真实反映路网交通状况的数据集。然后基于该数据集，使用 Actor-Critic学习方法训练优化参数，根据最终训练好结果，通过选取使得奖励值最大的信号灯切换动作用于信号灯控制台，使得交通信号的控制可以适应交通的动态性变化。

本发明的有益效果为：挖掘交通大数据中隐藏的重要交通信息，利用 Actor-Critic方法得到能应对交通随机性的信号灯配时方案。

附图说明

图1显示了基于Actor-Critic的交通信号控制系统流程图；

图2显示了仿真路网示意图，用于下文的分析。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于Actor-Critic的单交叉口交通信号控制方法，包括以下步骤：

1)参照图2的仿真路网，对于一段连续时间，每隔相同时间间隔step，获取路网内的所有车辆的位置信息和速度信息，以及信号灯所处的灯态；

2)原始数据预处理，根据车辆的速度信息获取处于停车状态的车辆编号，通过停止车的位置信息获取各条车道上的排队状态信息，最终获取车辆队列-信号灯状态的集合{V_k,S_k}，其中，V_k为k时刻各个车道车辆的排队长度集合，S_k为k时刻的信号灯状态，k＝1,2,…,N，N为路网中进入交叉口的车道总数。

Q(V_t,S_t)以及S_t，其中，θ为参数化的策略，τ为一个采样周期，Q(V_t,S_t)为参数化的值函数，实现过程如下：

3.1)首先，设置基本训练参数，奖励折扣γ＝0.9，Actor的学习率α＝0.001，Critic的学习率β＝0.005，训练步长step＝10；Actor的神经网络结构为三层全连接层，神经元个数呈300-200-100的递减趋势；Critic的神经网络结构也为三层全连接层，神经元个数呈100-50-25的递减趋势，Actor-Critic训练过程中的奖励函数定义为：

3.2)根据当前车辆队列-信号灯状态的集合{V_k,S_k}，奖励值r_k以及下一时刻的车辆队列-信号灯状态的集合{V_k+1,S_k+1}更新Critic网络参数w，得到用来评价 Actor执行策略的好坏的指标TD，更新公式如下：

δ←r_k+1+γQ(V_t+1,S_t+1)-Q(V_t,S_t)

w＝w+β*δ*Φ(s,a)

3.3)根据车辆队列-信号灯状态的集合{V_k,S_k}，以及动作S_t和Critic返回的 TD进行Actor网络参数的更新，更新公式如下：

θ＝θ+α▽J(θ)

3.4)不断进行迭代更新神经网络，直到迭代次数达到预设的最大迭代次数 M＝60000为止，得到优化的信号灯配时方案；

S_next＝argmax(Q(V_now,S_now))

本实施例以使用微观交通仿真软件SUMO搭建的路网所获得的实时数据为实施例，进行仿真，一种基于Actor-Critic的单交叉口交通信号控制方法，包括以下步骤：

1)通过python与SUMO的交互，对于一段连续时间，每隔相同时间间隔step，获取路网内的所有车辆的位置信息和速度信息，以及信号灯所处的灯态；

δ←r_k+1+γQ(V_t+1,S_t+1)-Q(V_t,S_t)

w＝w+β*δ*Φ(s,a)

θ＝θ+α▽J(θ)

S_next＝argmax(Q(V_now,S_now))。

其中，S_next表示下个时刻要执行的信号灯状态，V_now表示当前时刻的各个车道车辆的排队长度集合，S_now表示当前时刻的信号灯状态表示，Q(V_now,S_now)表示由当前时刻的各个车道车辆的排队长度集合和信号灯状态决定的Q值函数， argmax(Q(V_now,S_now))指的是使Q值函数取到最大值的信号灯状态。

以SUMO仿真软件为实施例，运用以上方法得到了基于Actor-Critic的交通信号控制器，结果显示不论是车辆的平均旅行时间，还是车辆的平均等待时间，甚至是车辆的平均停车次数，都比定时控制有了一定的改善，其中，平均旅行时间减少了15％。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于Actor-Critic的单交叉口交通信号控制方法，其特征在于，所述方法包括以下步骤：

S_next＝argmax(Q(V_now,S_now))

其中，S_next表示下个时刻要执行的信号灯状态，V_now表示当前时刻的各个车道车辆的排队长度集合，S_now表示当前时刻的信号灯状态表示，Q(V_now,S_now)表示由当前时刻的各个车道车辆的排队长度集合和信号灯状态决定的Q值函数，argmax(Q(V_now,S_now))指的是使Q值函数取到最大值的信号灯状态；

所述步骤3)的实现过程如下：

3.2)根据当前车辆队列-信号灯状态的集合{V_k,S_k}，奖励值r_k以及下一时刻的车辆队列-信号灯状态的集合{V_k+1,S_k+1}更新Critic网络参数w，得到用来评价Actor执行策略的好坏的指标TD；更新公式如下：

δ←r_k+1+γQ(S_t+1,A_t+1)-Q(S_t,A_t)

w＝w+β*δ*Φ(s,a)

3.3)根据车辆队列-信号灯状态的集合{V_k,S_k}，以及动作A_t和Critic返回的TD进行Actor网络参数的更新；更新公式如下：

3.4)不断进行迭代更新神经网络，直到迭代次数达到预设的最大迭代次数M＝60000为止，得到优化的信号灯配时方案。