CN106373410A

CN106373410A - 一种城市交通信号优化控制方法

Info

Publication number: CN106373410A
Application number: CN201610836045.1A
Authority: CN
Inventors: 宋婷婷; 张震; 薛斌强; 何文雪; 张彩虹
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2017-02-01
Anticipated expiration: 2036-09-21
Also published as: CN106373410B

Abstract

一种城市交通信号优化控制方法，属于自动控制领域，包括：步骤1，选择控制方案，定义交通状态、瞬时路口收益和控制动作；步骤2，采样阶段采用感应控制，在每个采样时刻把交通摄像头拍摄的图像和相位并发送至服务器；步骤3，服务器从图像中提取交通状态并计算瞬时路口收益；步骤4，服务器计算每个离散交通状态出现的概率和路口收益，通过最大化路口平均收益得到最优控制策略并将其发送至路口机；步骤5，路口机设置交通信号控制器的控制策略为步骤4获得的策略，设置决策周期等于采样周期；步骤6，交通信号控制器从路口机获取离散交通状态，查询控制策略，把控制动作发送至路口机执行；能够提高较长时间段内路口交通的平均性能指标。

Description

一种城市交通信号优化控制方法

技术领域

本发明涉及自动控制技术领域。

背景技术

目前，我国采用的城市交通信号控制方法为定时控制和感应控制，但是定时控制无法做到根据实时交通状况切换控制动作，而感应控制策略又不够灵活，因此交通信号控制策略尚有很大的改进余地。

马尔可夫链可用于交通信号控制问题的建模和优化。如果设定一个较短的单位时间步长，路口当前时刻的交通状态可以认为只和前一时刻的交通状态和采取的控制动作有关，因此交通状态的迁移可以看成一个马尔可夫链。每个时刻路口都会处于一个交通状态，每个交通状态下获得的收益为路口拥堵程度的倒数，如果交通状态空间中的任意两个状态都是可达的，那么可以计算路口处于每个交通状态的概率，然后计算路口的平均收益。使路口平均收益最大的控制策略就是最优策略。该方法无需在实际控制过程中进行试错，避免了在线学习可能引发的交通安全问题。

发明内容

本发明的目的在于提高较长时间段内路口交通的平均性能指标，而不是某一个或几个交通信号周期内的性能指标，最终目的是通过优化交通信号控制器的控制策略提高城市路口车辆的通过率，并且降低平均延误。

本发明先使用感应控制方法对路口交通信号进行控制，每隔一段较短的单位时间，第一交通摄像头(1)、第二交通摄像头(2)、第三交通摄像头(3)、第四交通摄像头(4)、第五交通摄像头(5)、第六交通摄像头(6)、第七交通摄像头(7)、第八交通摄像头(8)、和第九交通摄像头(9)、第十交通摄像头(10)、第十一交通摄像头(11)、第十二交通摄像头(12)拍摄图像并发送给路口机，路口机保存图像并从图像中提取车辆排队长度信息，将车辆排队长度表示的交通状态发送给交通信号控制器进行感应控制。同时，路口机也记录交通信号控制器的当前相位。每个采样时刻的图像和相位共同构成学习所需的样本。每当获取一个样本之后，路口机将样本发送至服务器。服务器每接收到一个样本之后，就从样本图像中提取车辆排队长度信息。当服务器接收到预定数目的样本并提取出每个样本图像的车辆排队长度后，就开始对车辆排队长度进行离散化，得到离散交通状态，然后通过最大化路口的平均收益求解最优控制策略，并将优化好的控制策略发送至路口机，路口机再把优化好的控制策略保存到交通信号控制器，并且设置交通信号控制器的控制策略为服务器优化好的控制策略，并且把决策周期设置为等同于采样周期，每个决策时刻，路口机接收第一交通摄像头(1)、第二交通摄像头(2)、第三交通摄像头(3)、第四交通摄像头(4)、第五交通摄像头(5)、第六交通摄像头(6)、第七交通摄像头(7)、第八交通摄像头(8)、和第九交通摄像头(9)、第十交通摄像头(10)、第十一交通摄像头(11)、第十二交通摄像头(12)拍摄的图像并从中提取交通状态，把交通状态离散化之后发送至交通信号控制器，交通信号控制器接收离散交通状态并查询策略选择合适的控制动作供路口机执行。

本发明提出一种城市交通信号优化控制方法，包括以下步骤：

步骤1，选择待优化的信号控制方案为固定相序控制，定义交通状态为当前相位的车辆排队长度和下一相位的车辆排队长度，定义瞬时路口收益为处于红灯相位的车辆排队长度的均值的倒数，定义控制动作为保持当前相位或切换到下一相位，定义控制策略为每个离散交通状态应该执行的控制动作；

步骤2，在采样阶段，路口机设置交通信号控制器的控制策略为感应控制，并且设置交通信号控制器的最小绿灯时间、最大绿灯时间为采样周期的正整数倍，单位绿灯延长时间与采样周期相同，每个采样时刻所处的相位、第一交通摄像头(1)、第二交通摄像头(2)、第三交通摄像头(3)、第四交通摄像头(4)、第五交通摄像头(5)、第六交通摄像头(6)、第七交通摄像头(7)、第八交通摄像头(8)、和第九交通摄像头(9)、第十交通摄像头(10)、第十一交通摄像头(11)、第十二交通摄像头(12)拍摄的图像和控制动作构成一个样本，在每个采样时刻，第一交通摄像头(1)、第二交通摄像头(2)、第三交通摄像头(3)、第四交通摄像头(4)、第五交通摄像头(5)、第六交通摄像头(6)、第七交通摄像头(7)、第八交通摄像头(8)、和第九交通摄像头(9)、第十交通摄像头(10)、第十一交通摄像头(11)、第十二交通摄像头(12)和交通信号控制器选择的控制动作发送至路口机，路口机从图像中提取交通状态发送给交通信号控制器用于感应控制，然后把样本发送给服务器；

步骤3，服务器每接收到一个样本后，根据样本中的当前相位，从相关图像中提取交通状态，然后对交通状态进行离散化，得到离散交通状态，计算并保存离散交通状态对应的瞬时路口收益；

步骤4，当服务器接收到预定数目的样本后，根据每个离散交通状态下的瞬时路口收益计算每个离散交通状态下的路口收益，计算离散交通状态转移概率，根据离散交通状态转移概率计算路口处于每个离散交通状态的概率，路口平均收益为每个离散交通状态下的路口收益乘以每个离散交通状态出现的概率的加和，最大化路口平均收益得到最优控制策略；

步骤5，服务器把步骤4获得的最优控制策略发送至路口机，路口机再把最优控制策略保存到交通信号控制器，设置交通信号控制器的控制策略为最优控制策略，把决策周期设置为等同于采样周期；

步骤6，在每个决策时刻，路口机接收第一交通摄像头(1)、第二交通摄像头(2)、第三交通摄像头(3)、第四交通摄像头(4)、第五交通摄像头(5)、第六交通摄像头(6)、第七交通摄像头(7)、第八交通摄像头(8)、和第九交通摄像头(9)、第十交通摄像头(10)、第十一交通摄像头(11)、第十二交通摄像头(12)拍摄的图像并从中提取交通状态，然后使用步骤3中服务器所使用的离散化方法把交通状态进行离散化，把离散交通状态发送至交通信号控制器，交通信号控制器接收离散交通状态并查询策略选择合适的控制动作供路口机执行。

本发明较现有技术所具有的优点：

离散交通状态转移的过程可以近似看成是一个马尔科夫链。并且，离散交通状态转移矩阵中不存在吸收态，从任何一个离散交通状态开始，都有可能到达另外一个离散交通状态，因此任何两个离散交通状态是可达的，利用这一特性，可以根据离散交通状态转移矩阵计算每一个离散交通状态出现的概率，再利用每个离散交通状态的路口收益求出路口平均收益。而离散交通状态转移矩阵与控制策略是有关的，因此可以建立起控制策略与平稳分布的关系，进而建立起控制策略与路口平均收益的关系。与其他方法相比，本发明提出的方法针对离散交通状态转移的可达性对控制策略进行优化，在一段较长时间内看，所得控制策略能更好地提高路口车辆通行率，降低平均延误。

附图说明

图1为城市路口交通信号控制原理图。

图2为一种城市交通信号优化控制方法流程图。

1、第一交通摄像头；2、第二交通摄像头；3、第三交通摄像头；4、第四交通摄像头；5、第五交通摄像头；6、第六交通摄像头；7、第七交通摄像头；8、第八交通摄像头；9、第九交通摄像头；10、第十交通摄像头；11、第十一交通摄像头；12、第十二交通摄像头；13、第一悬梁；14、第二悬梁；15、第三悬梁；16、第四悬梁；17、车道一；18、车道二；19、车道三；20、车道四；21、车道五；22、车道六；23、车道七；24、车道八；25、车道九；26、车道十；27、车道十一；28、车道十二。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面参照附图，对本发明作进一步详细说明。

图1中，第一交通摄像头1、第二交通摄像头2和第三交通摄像头3安置于第一悬梁13，第四交通摄像头4、第五交通摄像头5和第六交通摄像头6安置于第二悬梁14，第七交通摄像头7、第八交通摄像头8和第九交通摄像头9安置于第三悬梁15，第十交通摄像头10、第十一交通摄像头11和第十二交通摄像头12安置于第四悬梁16。

第一交通摄像头1负责检测车道一17的车辆排队长度，第二交通摄像头2负责检测车道二18的车辆排队长度，第三交通摄像头3负责检测车道三19的车辆排队长度，第四交通摄像头4负责检测车道四20的车辆排队长度，第五交通摄像头5负责检测车道五21的车辆排队长度，第六交通摄像头6负责检测车道六22的车辆排队长度，第七交通摄像头7负责检测车道七23的车辆排队长度，第八交通摄像头8负责检测车道八24的车辆排队长度，第九交通摄像头9负责检测车道九25的车辆排队长度，第十交通摄像头10负责检测车道十26的车辆排队长度，第十一交通摄像头11负责检测车道十一27的车辆排队长度，第十二交通摄像头12负责检测车道十二28的车辆排队长度。

图2所示的一种城市交通信号优化控制方法流程图包括如下步骤：

步骤1，选择待优化的信号控制方案为固定相序控制，定义交通状态、瞬时路口收益、控制动作和控制策略。

下面以四对称相位的情况为例介绍固定相序控制，但本发明不限于使用四相位、也不限于使用对称相位。相位1：允许车道一17和车道四20上的车辆直行和右转，允许车道二18和车道五21上的车辆直行；相位2：允许车道三19和车道六上22的车辆左转；相位3：允许车道七23和车道十26上的车辆直行和右转，允许车道八24和车道十一27上的车辆直行；相位4：允许车道九25和车道十二28上的车辆左转。交通信号在每个时刻只能处于四个相位中的一个，并且按照顺序依次执行。尽管相位顺序是固定的，每个相位的绿灯时长却不必固定。定义控制动作为保持当前相位或切换到下一相位，如果当前相位为相位1，则经过10秒后，交通信号控制器需要决策控制动作：保持相位1，或者切换到相位2，如果选择相位2，经过10秒又要做出一次控制动作：保持相位2，或者切换到相位3，如果选择相位3，经过10秒又要做出一次控制动作：保持相位3，或者切换到相位4，如果选择相位4，经过10秒又要做出一次控制动作：保持相位4，或者切换到相位1……如此循环往复。定义所有相位的最小绿灯时间为10秒，最大绿灯时间为60秒。

定义每个相位的车辆排队长度为该相位所有车道的车辆排队长度的最大值，相位1的车辆排队长度等于车道一17、车道二18、车道四20和车道五21的车辆排队长度中的最大值；相位2的车辆排队长度等于车道三19和车道六22的车辆排队长度中的最大值；相位3的车辆排队长度等于车道七23、车道八24、车道十26和车道十一27的车辆排队长度中的最大值；相位4的车辆排队长度等于车道九25和车道十二28的车辆排队长度中的最大值。

定义交通状态为当前相位和下一相位的车辆排队长度，车辆排队长度的检测范围是0到90米。例如，如果当前相位为相位1，则当前交通状态由相位1和相位2的车辆排队长度这两个变量组成的向量数据表示。

定义瞬时路口收益r为采样时刻处于红灯相位的车辆排队长度的均值的倒数，按如下公式计算：

r = \frac{m}{\underset{i &Element; Ω}{Σ} L_{i}}

Ω表示所有处于红灯相位的车道编号的集合，L_i表示车道i的车辆排队长度，m表示当前等待红灯的车道数。

步骤2，对控制动作和所有车道的车辆排队长度进行采样，并把样本发送至服务器。

在指定的典型时段进行采样，采样周期设置为10秒，每个采样时刻所处的相位、第一交通摄像头1、第二交通摄像头2、第三交通摄像头3、第四交通摄像头4、第五交通摄像头5、第六交通摄像头6、第七交通摄像头7、第八交通摄像头8、和第九交通摄像头9、第十交通摄像头10、第十一交通摄像头11、第十二交通摄像头12和交通信号控制器选择的控制动作构成一个样本，预设需要采集的样本数为9000。在采样阶段，路口机设置交通信号控制器的控制策略为感应控制，并且设置交通信号控制器的决策周期、最小绿灯时间、最大绿灯时间和单位绿灯延长时间为10秒。交通信号控制器每隔10秒按照下面的方法决策相位：当前相位绿灯时间小于10秒时，保持当前相位；当前相位绿灯时间大于等于60秒时，切换到下一个相位；当前相位绿灯时间大于等于10秒并且小于60秒时，如果当前相位有来车就延长绿灯时间10秒，如果没有来车就直接切换到下一相位。交通信号控制器把控制动作发送至路口机执行。在每个采样时刻，把第一交通摄像头1、第二交通摄像头2、第三交通摄像头3、第四交通摄像头4、第五交通摄像头5、第六交通摄像头6、第七交通摄像头7、第八交通摄像头8、和第九交通摄像头9、第十交通摄像头10、第十一交通摄像头11、第十二交通摄像头12拍摄的图像和交通信号机选择的控制动作发送至路口机，路口机从图像中提取出交通状态，并且把交通状态发送给交通信号控制器，供交通信号控制器判断当前相位有无来车，以进行感应控制，然后路口机把样本发送至服务器。

步骤3，对样本进行处理。

服务器每接收到一个路口机发送过来的样本后，从第一交通摄像头1、第二交通摄像头2、第三交通摄像头3、第四交通摄像头4、第五交通摄像头5、第六交通摄像头6、第七交通摄像头7、第八交通摄像头8、和第九交通摄像头9、第十交通摄像头10、第十一交通摄像头11、第十二交通摄像头12拍摄的图像中分别提取车道一17至车道十二28的车辆排队长度。如果样本中的当前相位是相位1，那么相位1和相位2的车辆排队长度组成的数据向量构成交通状态。按照步骤1中的公式，此时的瞬时路口收益为r＝8/(L₃+L₆+L₇+L₈+L₉+L₁₀+L₁₁+L₁₂)。如果样本中的当前相位是相位2，那么相位2和相位3的车辆排队长度组成的数据向量构成交通状态。按照步骤1中的公式，此时的路口收益为r＝10/(L₁+L₂+L₄+L₅+L₇+L₈+L₉+L₁₀+L₁₁+L₁₂)。如果样本中的当前相位是相位3，那么相位3和相位4的车辆排队长度组成的数据向量构成交通状态。按照步骤1中的公式，此时的路口收益为r＝8/(L₁+L₂+L₃+L₄+L₅+L₆+L₉+L₁₂)。如果样本中的当前相位是相位4，那么相位4和相位1的车辆排队长度组成的数据向量构成交通状态，按照步骤1中的公式，此时的路口收益为r＝10/(L₁+L₂+L₃+L₄+L₅+L₆+L₇+L₈+L₁₀+L₁₁)。

提取出交通状态并计算交通状态对应的瞬时路口收益后，把样本整理成如下形式的数据向量：(l,a,l’,r)，其中l表示某个采样时刻的连续的交通状态，a表示交通状态为l时执行的控制动作，l’表示下一个采样时刻的连续的交通状态，r表示交通状态为l’时的瞬时路口收益。当前相位和下一相位的车辆排队长度的可检测范围都是0到90米，对交通状态空间以30米为单位进行离散化，把交通状态空间均匀地划分为3×3＝9个离散状态，把数据向量(l,a,l’,r)转化为(s,a,s’,r)，s是l对应的离散交通状态，s’是l’对应的离散交通状态。

步骤4，服务器接收到预定数目的样本后，使用样本优化控制策略。

当服务器接收到9000个样本后，开始优化控制策略。在单路口交通信号控制优化问题中，共有9个离散状态，每个状态下有2个控制动作——a₁表示保持当前相位，a₂表示切换到下一相位。服务器按照下列步骤得到最优控制策略：

步骤a，计算每个离散交通状态对应的路口收益。路口收益矩阵R定义为R＝[r(s₁)r(s₂) … r(s₉)]，其中s_i表示9个离散交通状态中的第i个离散交通状态，r(s_i)表示离散交通状态为s_i时的路口收益，计算公式如下：

r (s_{i}) = \frac{\underset{s^{'} = s_{i}}{Σ} r}{| N_{i} |}

其中，等号右边的分子表示所有s’等于s_i的样本(s,a,s’,r)中的瞬时路口收益r的和，N_i表示所有s’等于s_i的样本(s,a,s’,r)的集合，|N_i|表示集合N_i中的元素个数。

步骤b，计算离散交通状态的条件转移概率，矩阵P₁表示控制动作为a₁时的离散交通状态转移矩阵，矩阵P₂表示控制动作为a₂时的离散交通状态转移矩阵，定义如下：

P_{1} = [\begin{matrix} p (s_{1} | s_{1}, a_{1}) & p (s_{2} | s_{1}, a_{1}) & ... & p (s_{9} | s_{1}, a_{1}) \\ p (s_{1} | s_{2}, a_{1}) & p (s_{2} | s_{2}, a_{1}) & ... & p (s_{9} | s_{2}, a_{1}) \\ . & . & . \\ . & . & . \\ . & . & . \\ p (s_{1} | s_{9}, a_{1}) & p (s_{2} | s_{9}, a_{1}) & ... & p (s_{9} | s_{9}, a_{1}) \end{matrix}],

P_{2} = [\begin{matrix} p (s_{1} | s_{1}, a_{2}) & p (s_{2} | s_{1}, a_{2}) & ... & p (s_{9} | s_{1}, a_{2}) \\ p (s_{1} | s_{2}, a_{2}) & p (s_{2} | s_{2}, a_{2}) & ... & p (s_{9} | s_{2}, a_{2}) \\ . & . & . \\ . & . & . \\ . & . & . \\ p (s_{1} | s_{9}, a_{2}) & p (s_{2} | s_{9}, a_{2}) & ... & p (s_{9} | s_{9}, a_{2}) \end{matrix}]

其中，矩阵元素p(s_j|s_i,a_k)是条件概率，表示处于离散交通状态s_i，执行控制动作a_k之后转移到状态s_j的概率。根据样本(s,a,s’,r)计算P₁和P₂。设置路口平均收益的最大值Vmax等于0。

步骤c，当前控制策略由矩阵Π₁和矩阵Π₂表示，定义如下：

其中，π(s_i,a_k)表示在离散状态s_i下执行动作a_k的概率，取值只能为0和1，并且π(s_i,a₁)+π(s_i,a₂)的值必须等于1。如果是第一次执行步骤c，初始化Π₁和Π₂，并且令Π'₁＝Π₁，令Π'₂＝Π₂，Π'₁和Π'₂保存的是最优控制策略，否则，Π₁和Π₂的取值必须与之前任何一次执行步骤c时的Π₁和Π₂不同。

步骤d，计算路口平均收益。

先计算离散交通状态转移矩阵P，定义如下：

P = [\begin{matrix} p (s_{1} | s_{1}) & p (s_{2} | s_{1}) & ... & p (s_{9} | s_{1}) \\ p (s_{1} | s_{2}) & p (s_{2} | s_{2}) & ... & p (s_{9} | s_{21}) \\ . & . & . \\ . & . & . \\ . & . & . \\ p (s_{1} | s_{9}) & p (s_{2} | s_{9}) & ... & p (s_{9} | s_{9}) \end{matrix}]

其中，p(s_j|s_i)是条件概率，表示处于离散交通状态s_i，10秒之后转移到状态s_j的概率，计算公式如下：

P = Σ_{i = 1}^{2} Π_{i} P_{i}

然后计算每个离散交通状态出现的概率，设为X＝[x(s₁)x(s₂)…x(s₉)]，其中x(s_i)表示离散交通状态s_i出现的概率，只能取0到1之间的实数，X根据以下方程求解：

\{\begin{matrix} X P = X \\ x (s_{1}) + x (s_{2}) + ... + x (s_{9}) = 1 \end{matrix}

路口平均收益V按照下列公式计算：

V＝RX^T

其中，X^T表示矩阵X的转置。如果V大于Vmax，则令Vmax＝V，并且令Π'₁＝Π₁，Π'₂＝Π₂否则，Vmax，Π'₁和Π'₂都保持不变。

步骤e，如果Π₁和Π₂的取值没有遍历结束，则返回步骤c，否则优化结束，此时得到最优控制策略Π'₁和Π'₂。

步骤5，服务器把步骤4获得的最优控制策略Π'₁和Π'₂发送至路口机，路口机再把最优控制策略保存到交通信号控制器，并且设置交通信号控制器的控制策略为最优控制策略，并且把决策周期设置为等同于采样周期10秒；

步骤6，在每个决策时刻，路口机按照步骤3中的方法获取交通状态，然后使用步骤3中离散化方法对交通状态进行离散化，把离散交通状态s_i发送至交通信号控制器，交通信号控制器接收离散交通状态后查询策略，然后根据下列公式选择控制动作a^*：

交通信号控制器把控制动作a^*发送至路口机执行，如果a^*等于a₁，路口机使交通信号保持当前相位，如果a^*等于a₂，路口机把交通信号切换到下一相位。

Claims

1.一种城市交通信号优化控制方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种城市交通信号优化控制方法，其特征在于，步骤4所描述的优化控制策略的方法如下：

步骤a，定义瞬时路口收益r为采样时刻处于红灯相位的车辆排队长度的均值的倒数，按如下公式计算：

r = \frac{m}{\underset{i &Element; Ω}{Σ} L_{i}}

其中，Ω表示所有处于红灯相位的车道编号的集合，L_i表示车道i的车辆排队长度，m表示当前等待红灯的车道数；

定义样本为如下形式的数据向量：(s,a,s’,r)，其中s表示某个采样时刻的连续的交通状态，a表示交通状态为s时执行的控制动作，s’表示下一个采样时刻的连续的交通状态，r表示交通状态为s’时的瞬时路口收益；

计算每个离散交通状态对应的路口收益，一共有9个离散交通状态，路口收益矩阵R定义为R＝[r(s₁) r(s₂) … r(s₉)]，其中s_i表示9个离散交通状态中第i个离散交通状态，r(s_i)表示离散交通状态为s_i时的路口收益，计算公式如下：

r (s_{i}) = \frac{\underset{s = s_{i}}{Σ} r}{| N_{i} |}

其中，等号右边的分子表示所有s’等于s_i的样本(s,a,s’,r)中的瞬时路口收益r的和，N_i表示所有s’等于s_i的样本(s,a,s’,r)的集合，|N_i|表示集合N_i中的元素个数；

P_{1} = [\begin{matrix} p (s_{1} | s_{1}, a_{1}) & p (s_{2} | s_{1}, a_{1}) & ... & p (s_{9} | s_{1}, a_{1}) \\ p (s_{1} | s_{2}, a_{1}) & p (s_{2} | s_{2}, a_{1}) & ... & p (s_{9} | s_{2}, a_{1}) \\ \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix}  \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} \\ p (s_{1} | s_{9}, a_{1}) & p (s_{2} | s_{9}, a_{1}) & ... & p (s_{9} | s_{9}, a_{1}) \end{matrix}],

P_{2} = [\begin{matrix} p (s_{1} | s_{1}, a_{2}) & p (s_{2} | s_{1}, a_{2}) & ... & p (s_{9} | s_{1}, a_{2}) \\ p (s_{1} | s_{2}, a_{2}) & p (s_{2} | s_{2}, a_{2}) & ... & p (s_{9} | s_{2}, a_{2}) \\ \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix}  \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} \\ p (s_{1} | s_{9}, a_{2}) & p (s_{2} | s_{9}, a_{2}) & ... & p (s_{9} | s_{9}, a_{2}) \end{matrix}]

其中，矩阵元素p(s_j|s_i,a_k)是条件概率，表示处于离散交通状态s_i，执行控制动作a_k之后转移到状态s_j的概率，根据样本(s,a,s’,r)计算P₁和P₂，设置路口平均收益的最大值Vmax等于0；

其中，π(s_i,a_k)表示在离散状态s_i下执行动作a_k的概率，取值只能为0和1，并且π(s_i,a₁)+π(s_i,a₂)的值必须等于1，如果是第一次执行步骤c，初始化Π₁和Π₂，并且令Π'₁＝Π₁，令Π'₂＝Π₂，Π'₁和Π'₂保存的是最优控制策略，否则，Π₁和Π₂的取值必须与之前任何一次执行步骤c时的Π₁和Π₂不同；

步骤d，计算路口平均收益，先计算离散交通状态转移矩阵P，定义如下：

P = [\begin{matrix} p (s_{1} | s_{1}) & p (s_{2} | s_{1}) & ... & p (s_{9} | s_{1}) \\ p (s_{1} | s_{2}) & p (s_{2} | s_{2}) & ... & p (s_{9} | s_{2}) \\ \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} & \begin{matrix}  \end{matrix} & \begin{matrix} . \\ . \\ . \end{matrix} \\ p (s_{1} | s_{9}) & p (s_{2} | s_{9}) & ... & p (s_{9} | s_{9}) \end{matrix}]

P = Σ_{i = 1}^{2} Π_{i} P_{i}

然后计算每个离散交通状态出现的概率，设为X＝[x(s₁) x(s₂) … x(s₉)]，其中x(s_i)表示离散交通状态s_i出现的概率，只能取0到1之间的实数，X根据以下方程求解：

\{\begin{matrix} X P = X \\ x (s_{1}) + x (s_{2}) + ... + x (s_{9}) = 1 \end{matrix}

路口平均收益V按照下列公式计算：

V＝RX^T

其中，X^T表示矩阵X的转置。如果V大于Vmax，则令Vmax＝V，并且令Π'₁＝Π₁，Π'₂＝Π₂否则，Vmax，Π'₁和Π'₂都保持不变；