CN108597239B

CN108597239B - 一种基于马尔科夫决策的交通灯控制系统及方法

Info

Publication number: CN108597239B
Application number: CN201810403042.8A
Authority: CN
Inventors: 郭茂耘; 武艺; 安翼尧; 梁皓星
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2021-02-09
Anticipated expiration: 2038-04-28
Also published as: CN108597239A

Abstract

本发明涉及一种基于马尔科夫决策的交通灯控制系统及方法，属于智能交通领域。该系统包括数据采集模块、决策模块、控制执行模块。本发明主要提供如下内容：采集交通灯对应路口的交通状况信息，利用马尔科夫决策过程生成交通灯控制策略，并将该策略实时用于交通灯的控制，以达到缓解高峰期交通拥堵状况的目的，从而降低交通拥堵的成本。

Description

一种基于马尔科夫决策的交通灯控制系统及方法

技术领域

本发明属于智能交通领域，涉及一种基于马尔科夫决策的交通灯控制系统及方法。

背景技术

交通信号控制系统承载着维护城市道路交通秩序，缓解交通拥堵的重任，在传统的红绿灯配时方案不能解决城市交通拥堵的形势下，智能化的交通控制为解决交通拥堵提供更多的科学的解决方案。

传统的交通控制方式采用的是固定配时系统，即根据各个交通路口的车流状况，在每个十字路口的信号控制系统中设置一个固定时间，作为两方向上的通行周期，固定配时方案容易造成在不同车道上的车辆数量相差悬殊，尤其在交通拥堵时不能及时缓解道路拥堵状况。

发明内容

有鉴于此，本发明的目的在于提供一种基于马尔科夫决策的交通灯控制系统及方法，从而达到在有限时间内有效缓解交通拥堵的目的。

为达到上述目的，本发明提供如下技术方案：

一种基于马尔科夫决策的交通灯控制系统，包括数据采集模块、决策模块和控制执行模块；所述数据采集模块用于实时获取交通灯对应路口的交通状况，包括交通拥堵指数、车流量、等待车辆数和车辆通过时间；所述决策模块根据数据采集模块采集的信息利用马尔科夫决策过程计算下一次交通灯变化之后的绿灯持续时间，即产生控制策略；所述控制执行模块用于执行决策模块的决策；

在每一控制周期，决策模块根据数据采集模块采集的当前道路交通状况，尤其是道路拥堵指数进行最优策略的选择，并将控制策略传输至控制执行模块赋予执行，并且在不同的控制周期内，反复此过程。

进一步，所述交通拥堵指数是综合反映道路网畅通或拥堵的概念性数值，又称交通运行指数(TrafficPerformanceIndex,TPI)，简称交通指数；交通指数取值范围为0至10，每2个数为一等级，分别对应"畅通"、"基本畅通"、"轻度拥堵"、"中度拥堵"、"严重拥堵"五个级别，数值越高，表明交通拥堵状况越严重。

一种基于马尔科夫决策的交通灯控制方法，包括以下步骤：

S1：确定交通灯控制系统的马尔科夫模型M＝＜S,A,P,R,V＞,s∈S,a∈A；

其中，S为系统的马尔科夫模型的状态空间：将交通灯对应路口的交通拥堵指数按照一定准则划分为“畅通”、“基本畅通”、“轻度拥堵”、“中度拥堵”、“严重拥堵”五种状态，并分别记为s₁、s₂、s₃、s₄、s₅；

A为系统的行为集合：在系统的各个状态下，确定多组合理的交通灯控制方案，即多组不同的可行的绿灯持续时间，组成行为集合；

P为状态转移概率矩阵：计算在任意决策时刻处于某一状态s下，执行行为a∈A，则系统在下一决策时刻处于状态s'的概率即状态转移概率p(s'|s,a)，对于系统的每个状态以及对应状态下的每个行为都进行状态转移概率的计算，得到状态转移概率矩阵；其中

对于以上所述交通灯控制系统，由于s,s'∈S,a∈A,有

R为报酬函数：确定系统在处于某一状态s时，执行某一行为a∈A，系统所获的报酬R(s,a)；

V为准则函数，又称目标函数、评价函数：确定准则函数，用来评价执行一系列连续行为后获得的总的立即报酬之和的优劣；

S2：确定搜索最优策略的方法：定义状态行为值函数

其中γ∈(0，1)为折扣因子，R_t表示决策时刻t时所获得的报酬；选择函数迭代法搜索最优策略，即直接对最优状态行为值函数Q^*(s,a)进行搜索；

S3：确定控制策略：设在决策时刻t，系统的状态为s，则状态行为值函数依照以下公式进行迭代，

对两个连续决策时刻的状态行为值函数的最大值进行比较，若有|Q_t+1(s,a)-Q_t(s,a)|＜ε，其中ε为人为设定的精度，则迭代结束，选择状态行为值函数较大的策略作为决策所得控制策略；

S4：利用马尔科夫理论这一理论基础，依赖于具有编程功能的相关软件及硬件设备，并根S1-S3的内容和采集模块所获得的信息，实现马尔科夫决策算法，产生控制策略。

进一步，所述状态转移概率矩阵P中的各个状态间的状态转移概率根据相关状态下获得的车流量、等待车辆数和车辆通过时间信息确定。

进一步，系统的马尔科夫模型的行为集合A通过设置多组不同的红绿灯持续时间的来进行确定。

本发明的有益效果在于：结合数理统计与人工智能，基于马尔科夫决策的交通灯控制，缓解了交通拥堵，有效地将随机性应用于交通控制中，从而实现在有限时间内有效缓解交通拥堵。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为基于马尔科夫决策的交通灯控制系统的结构图；

图2为基于马尔科夫决策的交通灯控制方法流程图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

图1为基于马尔科夫决策的交通灯控制系统的结构图；该系统包括数据采集模块、决策模块和控制执行模块；所述数据采集模块用于实时获取交通灯对应路口的交通状况，包括交通拥堵指数、车流量、等待车辆数和车辆通过时间；所述决策模块根据数据采集模块采集的信息利用马尔科夫决策过程计算下一次交通灯变化之后的绿灯持续时间，即产生控制策略；所述控制执行模块用于执行决策模块的决策。所述交通拥堵指数是综合反映道路网畅通或拥堵的概念性数值，又称交通运行指数(Traffic Performance Index,TPI)，简称交通指数；交通指数取值范围为0至10，每2个数为一等级，分别对应"畅通"、"基本畅通"、"轻度拥堵"、"中度拥堵"、"严重拥堵"五个级别，数值越高，表明交通拥堵状况越严重；交通拥堵指数的分级列表如下：

交通指数	对应路况	出行耗时
			0-2	基本没有道路拥堵	可以按道路限速标准行驶
2-4	有少量道路拥堵	比通行时多耗时0.2-0.5倍
			4-6	部分环路、主干路拥堵	比通行时多耗时0.5-0.8倍
6-8	大量环路、主干路拥堵	比通行时多耗时0.8-1.1倍
			8-10	大部分道路拥堵	比通行时多耗时1.1倍以上

在每一控制周期，决策模块根据数据采集模块采集的当前道路交通状况尤其是道路拥堵指数进行最优策略的选择，并将控制策略传输至控制执行模块赋予执行。并且在不同的控制周期内，反复此过程。

图2为基于马尔科夫决策的交通灯控制方法流程图。设定合适的报酬函数与评价函数，从而客观、合理、全面地对控制策略进行评价。每次决策所得到的交通灯控制方案为该阶段最优策略。依据缓解交通拥堵的目的以及评价函数的选择，合理选择搜索最优策略的方法，以迭代产生最优控制策略。

通过数据采集模块采集道路交通状况信息，在此基础上利用马尔科夫决策过程，依赖于具有编程功能的相关软件及硬件设备得到控制方案即在下一次交通灯变化之后的绿灯持续时间，然后控制执行模块执行此决策信息，将其转换为对应交通灯的控制信号。决策方案的产生过程完全依赖于马尔科夫决策过程的相关基本知识以及搜索最优策略的方法。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于马尔科夫决策的交通灯控制方法，其特征在于：该方法包括以下步骤：

其中，S为系统的马尔科夫模型的状态空间：将交通灯对应路口的交通拥堵指数划分为“畅通”、“基本畅通”、“轻度拥堵”、“中度拥堵”、“严重拥堵”五种状态，并分别记为s₁、s₂、s₃、s₄、s₅；

对于以上所述交通灯控制系统，由于s,s'∈S,a∈A,有

S2：确定搜索最优策略的方法：定义状态行为值函数

S4：利用马尔科夫理论这一理论基础，依赖于具有编程功能的相关软件及硬件设备，并根S1-S3的内容和数据采集模块所获得的信息，实现马尔科夫决策算法，产生控制策略。

2.根据权利要求1所述的一种基于马尔科夫决策的交通灯控制方法，其特征在于：所述状态转移概率矩阵P中的各个状态间的状态转移概率根据相关状态下获得的车流量、等待车辆数和车辆通过时间信息确定。

3.根据权利要求1所述的一种基于马尔科夫决策的交通灯控制方法，其特征在于：系统的马尔科夫模型的行为集合A通过设置多组不同的红绿灯持续时间的来进行确定。

4.基于权利要求1～3中任一项所述方法的基于马尔科夫决策的交通灯控制系统，其特征在于：包括数据采集模块、决策模块和控制执行模块；所述数据采集模块用于实时获取交通灯对应路口的交通状况，包括交通拥堵指数、车流量、等待车辆数和车辆通过时间；所述决策模块根据数据采集模块采集的信息利用马尔科夫决策过程计算下一次交通灯变化之后的绿灯持续时间，即产生控制策略；所述控制执行模块用于执行决策模块的决策；

在每一控制周期，决策模块根据数据采集模块采集的当前道路交通状况，包括道路拥堵指数进行最优策略的选择，并将控制策略传输至控制执行模块赋予执行，并且在不同的控制周期内，反复此过程。

5.根据权利要求4所述的一种基于马尔科夫决策的交通灯控制系统，其特征在于：所述交通拥堵指数是综合反映道路网畅通或拥堵的概念性数值，又称交通运行指数TPI，简称交通指数；交通指数取值范围为0至10，每2个数为一等级，分别对应"畅通"、"基本畅通"、"轻度拥堵"、"中度拥堵"、"严重拥堵"五个级别，数值越高，表明交通拥堵状况越严重。