CN106910349B - 一种交通信号灯控制方法和系统 - Google Patents

一种交通信号灯控制方法和系统 Download PDF

Info

Publication number
CN106910349B
CN106910349B CN201510981659.4A CN201510981659A CN106910349B CN 106910349 B CN106910349 B CN 106910349B CN 201510981659 A CN201510981659 A CN 201510981659A CN 106910349 B CN106910349 B CN 106910349B
Authority
CN
China
Prior art keywords
intersection
range
vehicles
action
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510981659.4A
Other languages
English (en)
Other versions
CN106910349A (zh
Inventor
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201510981659.4A priority Critical patent/CN106910349B/zh
Publication of CN106910349A publication Critical patent/CN106910349A/zh
Application granted granted Critical
Publication of CN106910349B publication Critical patent/CN106910349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals

Abstract

本发明实施例公开了一种交通信号灯控制方法和系统。所述方法包括:采集十字路口范围内车辆的状态信息,以及所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间;其中,所述状态信息包括以下信息的至少之一:车辆类型、位置、速度、加速度;针对所述十字路口范围内的交通信号灯的所有执行动作,基于所述车辆的状态信息、所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间确定所述十字路口范围内所有车辆的体验参数之和;选择一个执行动作控制所述交通信号灯的状态,以使所述十字路口范围内所有车辆的体验参数和最大。

Description

一种交通信号灯控制方法和系统
技术领域
本发明涉及信号控制技术,具体涉及一种交通信号灯控制方法和系统。
背景技术
对于十字路口的信号灯,通常有红、黄、绿和绿闪四种状态。其中,信号灯处于红和绿状态时为稳定状态,处于黄和绿闪时为过渡状态。目前应用中的交通信号灯的控制采用的是固定周期循环的控制方式,而没有考虑到十字路口的车流情况进行优化和调整,以至于在有些十字路口车流较少时,没有任何车辆行驶却必须在十字路口等红灯结束;或者在某个十字路口车流非常多时,由于绿灯的持续时间固定,导致很多车需要等两个绿灯以上才能通过该十字路口,在这种情况下,会大大降低用户的体验。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种交通信号灯控制方法和系统,能够基于车流量情况实现交通信号灯的控制优化,提升车辆驾驶者的体验。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种交通信号灯控制方法,所述方法包括:
采集十字路口范围内车辆的状态信息,以及所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间;其中,所述状态信息包括以下信息的至少之一:车辆类型、位置、速度、加速度;
针对所述十字路口范围内的交通信号灯的所有执行动作,基于所述车辆的状态信息、所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间确定所述十字路口范围内所有车辆的体验参数之和;
选择一个执行动作控制所述交通信号灯的状态,以使所述十字路口范围内所有车辆的体验参数和最大。
上述方案中,所述所有车辆的体验参数之和设定为目标函数,则所述目标函数满足以下表达式:
Figure GDA0002241784440000021
其中,γ为常数,γ的取值范围为大于0小于1;f(Tk)表征车辆通过十字路口的体验函数;T表示通过十字路口的时间;an表示交通信号灯的执行动作;
Figure GDA0002241784440000022
表示执行动作an执行的时间点;Z0表示在执行动作an执行之后、执行动作an+1执行之前离开十字路口范围的车辆集合;
Figure GDA0002241784440000023
表示离开十字路口范围的Zn集合中所有车辆的体验参数之和;其中,X表示所述十字路口的状态;所述十字路口的状态包括车辆类型、车辆的速度信息、车辆的加速度信息、车辆在所述十字路口范围内的持续时间以及交通信号灯的状态。
上述方案中,所述选择一个执行动作控制所述交通信号灯的状态之前,所述方法还包括:
当在预设控制周期内无新车辆进入所述十字路口范围内时,对于所述目标函数,设Q函数为:
Figure GDA0002241784440000024
其中,所述Q函数表示在所述十字路口状态X下执行控制动作a0后得到的所述十字路口范围内所有车辆的最大的体验参数之和;
将所述Q函数改写为:
Figure GDA0002241784440000025
采用估计函数对所述Q函数进行估计,则所述估计函数为:
Figure GDA0002241784440000026
采用多次迭代方式使所述估计函数
Figure GDA0002241784440000031
逼近所述Q函数,则所述估计函数
Figure GDA0002241784440000032
满足以下表达式:
Figure GDA0002241784440000033
其中,
Figure GDA0002241784440000034
vn(X,a)为在状态X下选择控制动作a的计数;αn表示学习速度,αn满足以下表达式:
Figure GDA0002241784440000035
其中,ε表示最小学习速度。
上述方案中,所述选择一个执行动作控制所述交通信号灯的状态,包括:
当在预设控制周期内有新车辆进入所述十字路口范围内时,存在:
Figure GDA0002241784440000036
其中,π/表示执行动作a1遵循的策略;π*表示所述目标函数最大时的策略;Z0表示在执行动作a0执行之后、执行动作a1执行之前离开十字路口范围的车辆集合;Φ表示所述执行动作a0执行之前所述十字路口范围内的车辆集合;
基于上述表达式,则设Q函数满足以下表达式为:
Figure GDA0002241784440000037
其中,
Figure GDA0002241784440000038
表示无论是否有新车辆进入所述十字路口范围,所述十字路口范围内的所有车辆的体验参数之和的数学期望;
所述估计函数
Figure GDA0002241784440000041
逼近所述Q函数,则所述估计函数
Figure GDA0002241784440000042
满足以下表达式:
Figure GDA0002241784440000043
其中,所述估计函数
Figure GDA0002241784440000044
的最小值采用指数滑动平均法获得,所述指数滑动平均法满足以下表达式:
Figure GDA0002241784440000045
其中,sn表示所述十字路口范围内的车辆的体验参数的平均值。
上述方案中,所述选择一个执行动作控制所述交通信号灯的状态,包括:
对于所述十字路口在交通信号灯的执行动作a0的执行时间点所处的状态
Figure GDA0002241784440000046
下、所有的执行动作a,计算对应的估计函数
Figure GDA0002241784440000047
基于获得的所述估计函数
Figure GDA0002241784440000048
计算所述状态下执行动作a被选择执行的概率;所述概率满足以下表达式:
Figure GDA0002241784440000049
其中,k为正整数;
基于获得的执行动作a的概率,选择所述估计函数
Figure GDA00022417844400000410
最大的一个执行动作执行,以使所述执行动作对应的所述十字路口范围内的所有车辆的体验参数之和最大。
上述方案中,所述选择一个执行动作控制所述交通信号灯的状态之后,所述方法还包括:
在下一个执行动作执行之前,记录离开所述十字路口范围的车辆,所述离开所述十字路口范围的车辆集合记为
Figure GDA00022417844400000411
以及记录进入所述十字路口范围的车辆,所述进入所述十字路口范围的车辆集合记为
Figure GDA00022417844400000412
计算获得离开所述十字路口范围的车辆的体验参数之和,基于所述离开所述十字路口范围的车辆的体验参数之和更新所述估计函数
Figure GDA0002241784440000051
上述方案中,所述计算获得离开所述十字路口范围的车辆的体验参数之和,基于所述离开所述十字路口范围的车辆的体验参数之和更新所述估计函数
Figure GDA0002241784440000052
包括:
获得所述下一个执行动作执行之前、所述十字路口范围内的所有车辆
Figure GDA0002241784440000053
的体验参数之和r,当执行动作的时间点为
Figure GDA0002241784440000054
时:
Figure GDA0002241784440000055
为非空集合时,r满足以下表达式:
Figure GDA0002241784440000056
Figure GDA0002241784440000057
为空集时,采用多次迭代方式使估计函数
Figure GDA0002241784440000058
逼近Q函数的方式,获得更新后的估计函数
Figure GDA0002241784440000059
其中,所述采用多次迭代方式使估计函数
Figure GDA00022417844400000510
逼近Q函数满足以下表达式:
Figure GDA00022417844400000511
其中,
Figure GDA00022417844400000512
表示在状态X下、执行动作a时,估计函数
Figure GDA00022417844400000513
的下界;
Figure GDA00022417844400000514
表示执行动作a0执行的时间点;
Figure GDA00022417844400000515
表示
Figure GDA00022417844400000516
时间点对应的十字路口的状态;
Figure GDA00022417844400000517
表示累计折算终值;
将集合
Figure GDA00022417844400000518
中所有车辆的体验参数之和进行折算,存在:
Figure GDA00022417844400000519
Figure GDA00022417844400000520
其中,
Figure GDA00022417844400000521
表示累计折算步长;
Figure GDA00022417844400000522
时,则更新的估计函数
Figure GDA00022417844400000523
满足:
Figure GDA00022417844400000524
上述方案中,当集合
Figure GDA00022417844400000525
为空集时,采用以下表达式更新所述估计函数
Figure GDA00022417844400000526
Figure GDA0002241784440000061
本发明实施例还提供了一种交通信号灯控制系统,所述系统包括:数据采集单元、分析处理单元和控制执行单元;其中,
所述数据采集单元,用于采集十字路口范围内车辆的状态信息,以及所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间;其中,所述状态信息包括以下信息的至少之一:车辆类型、位置、速度、加速度;
所述分析处理单元,用于针对所述十字路口范围内的交通信号灯的所有执行动作,基于所述车辆的状态信息、所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间确定所述十字路口范围内所有车辆的体验参数之和;
所述控制执行单元,用于选择一个执行动作控制所述交通信号灯的状态,以使所述十字路口范围内所有车辆的体验参数和最大。
上述方案中,所述分析处理单元,用于设定所有车辆的体验参数之和为目标函数,则所述目标函数满足以下表达式:
Figure GDA0002241784440000062
其中,γ为常数,γ的取值范围为大于0小于1;f(Tk)表征车辆通过十字路口的体验函数;T表示通过十字路口的时间;an表示交通信号灯的执行动作;
Figure GDA0002241784440000063
表示执行动作an执行的时间点;Z0表示在执行动作an执行之后、执行动作an+1执行之前离开十字路口范围的车辆集合;
Figure GDA0002241784440000064
表示离开十字路口范围的Zn集合中所有车辆的体验参数之和;其中,X表示所述十字路口的状态;所述十字路口的状态包括车辆类型、车辆的速度信息、车辆的加速度信息、车辆在所述十字路口范围内的持续时间以及交通信号灯的状态。
上述方案中,所述分析处理单元,用于当在预设控制周期内无新车辆进入所述十字路口范围内时,对于所述目标函数,设Q函数为:
Figure GDA0002241784440000071
其中,所述Q函数表示在所述十字路口状态X下执行控制动作a0后得到的所述十字路口范围内所有车辆的最大的体验参数之和;
将所述Q函数改写为:
Figure GDA0002241784440000072
采用估计函数对所述Q函数进行估计,则所述估计函数为:
Figure GDA0002241784440000073
采用多次迭代方式使所述估计函数
Figure GDA0002241784440000074
逼近所述Q函数,则所述估计函数
Figure GDA0002241784440000075
满足以下表达式:
Figure GDA0002241784440000076
其中,
Figure GDA0002241784440000077
vn(X,a)为在状态X下选择控制动作a的计数;αn表示学习速度,αn满足以下表达式:
Figure GDA0002241784440000078
其中,ε表示最小学习速度。
上述方案中,所述分析处理单元,用于当在预设控制周期内有新车辆进入所述十字路口范围内时,存在:
Figure GDA0002241784440000079
其中,π/表示执行动作a1遵循的策略;π*表示所述目标函数最大时的策略;Z0表示在执行动作a0执行之后、执行动作a1执行之前离开十字路口范围的车辆集合;Φ表示所述执行动作a0执行之前所述十字路口范围内的车辆集合;
基于上述表达式,则设Q函数满足以下表达式为:
Figure GDA0002241784440000081
其中,
Figure GDA0002241784440000082
表示无论是否有新车辆进入所述十字路口范围,所述十字路口范围内的所有车辆的体验参数之和的数学期望;
所述估计函数
Figure GDA0002241784440000083
逼近所述Q函数,则所述估计函数
Figure GDA0002241784440000084
满足以下表达式:
Figure GDA0002241784440000085
其中,所述估计函数
Figure GDA0002241784440000086
的最小值采用指数滑动平均法获得,所述指数滑动平均法满足以下表达式:
Figure GDA0002241784440000087
其中,sn表示所述十字路口范围内的车辆的体验参数的平均值。
上述方案中,所述控制执行单元,用于对于所述十字路口在交通信号灯的执行动作a0的执行时间点所处的状态
Figure GDA0002241784440000088
下、所有的执行动作a,计算对应的估计函数
Figure GDA0002241784440000089
基于获得的所述估计函数
Figure GDA00022417844400000810
计算所述状态下执行动作a被选择执行的概率;所述概率满足以下表达式:
Figure GDA00022417844400000811
其中,k为正整数;
基于获得的执行动作a的概率,选择所述估计函数
Figure GDA0002241784440000091
最大的一个执行动作执行,以使所述执行动作对应的所述十字路口范围内的所有车辆的体验参数之和最大。
上述方案中,所述分析处理单元,还用于所述控制执行单元执行下一个执行动作之前,记录离开所述十字路口范围的车辆,所述离开所述十字路口范围的车辆集合记为
Figure GDA0002241784440000092
以及记录进入所述十字路口范围的车辆,所述进入所述十字路口范围的车辆集合记为
Figure GDA0002241784440000093
计算获得离开所述十字路口范围的车辆的体验参数之和,基于所述离开所述十字路口范围的车辆的体验参数之和更新所述估计函数
Figure GDA0002241784440000094
本发明实施例提供的交通信号灯控制方法和系统,通过采集十字路口范围内车辆的状态信息,以及所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间;其中,所述状态信息包括以下信息的至少之一:车辆类型、位置、速度、加速度;针对所述十字路口范围内的交通信号灯的所有执行动作,基于所述车辆的状态信息、所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间确定所述十字路口范围内所有车辆的体验参数之和;选择一个执行动作控制所述交通信号灯的状态,以使所述十字路口范围内所有车辆的体验参数和最大。如此,采用本发明实施例的技术方案,通过将车辆通过十字路口的时间与车辆驾驶者的体验进行关联,基于十字路口范围内所有车辆的体验之和作为所述十字路口的交通信号灯的控制基础,实现了根据十字路口的车辆状况自动学习到交通信号灯的最优控制流程,使得在十字路口范围内的所有车辆的平均通过时间最短,大大提升了交通信号灯控制系统的智能性,提升了车辆驾驶者的体验。
附图说明
图1为本发明实施例的交通信号灯控制方法的应用场景示意图;
图2为现有技术中交通信号灯的状态转移示意图;
图3为本发明实施例的交通信号灯控制方法的流程示意图;
图4为本发明实施例中函数f(t)的图样示意图;
图5为本发明实施例中对十字路口状态建模的示意图;
图6为本发明实施例中的一种场景示意图;
图7a至图7h为本发明实施例的交通信号灯控制方法的状态转移示意图;
图8为本发明实施例的交通信号灯控制系统的组成结构示意图。
具体实施方式
图1为本发明实施例的交通信号灯控制方法的应用场景示意图;如图1所示,为一个典型的十字路口场景。车道数为双向六车道,其中单向的三车道分为左转、直行、右转三条导向车道。面向十字路口的四个方向,一共有8个信号灯,分别对应控制东南西北四个方向的左转和直行。每个控制灯有红、黄、绿、绿闪四种状态。红灯表示停止、绿灯表示通行,黄灯表示警示,绿闪灯提示黄灯即将来临。
按照东南西北四个方向的顺序,控制信号灯的状态可以被描述为以下表达式(1):
L=(x1,x2,...,x7,x8) (1)
其中,x1表示面向东方的左转信号灯,取值可以为红、黄、绿、绿闪;x2表示面向东方的直行信号灯,取值可以为红、黄、绿、绿闪;其他x3至x8以此类推,这里不再赘述。
其中,假设绿闪灯和黄灯的持续时间都为3s。绿闪灯和黄灯是控制信号灯由绿转红过程中的过渡状态。
根据表达式(1)所示的交通信号灯状态用多维向量L表示;其中每一个元素的可能取值为红(Red)、黄(Yellow)、绿(Green)、绿闪(Blink)四种状态。则所有可能的状态向量如表1表示。
Figure GDA0002241784440000101
Figure GDA0002241784440000111
Figure GDA0002241784440000121
表1
图2为现有技术中交通信号灯的状态转移示意图;如图2所示,圆圈表示状态,箭头表示状态转移。实线圆圈表示可持续的稳定状态。例如,可以通过空操作(自返操作)保持信号灯的状态为L1,在不限制连续空操作次数的情况下,信号灯的状态可以一直处于L1。虚线圆圈表示过渡状态。如图2所示,目前实际应用中的交通信号灯的控制采用的是固定周期循环的控制方式,也就是交通信号灯状态从L1~L12这12个状态之间按顺序不断地进行循环。基于此,发明人发现,现有技术的交通信号灯的控制方式的缺点是没有考虑十字路口的车流量情况,不能根据车流量情况进行优化调整。
本发明实施例中,
下面结合附图及具体实施例对本发明作进一步详细的说明。
实施例一
本发明实施例提供了一种交通信号灯控制方法。图3为本发明实施例的交通信号灯控制方法的流程示意图;如图3所示,所述方法包括:
步骤101:采集十字路口范围内车辆的状态信息,以及所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间;其中,所述状态信息包括以下信息的至少之一:车辆类型、位置、速度、加速度。
步骤102:针对所述十字路口范围内的交通信号灯的所有执行动作,基于所述车辆的状态信息、所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间确定所述十字路口范围内所有车辆的体验参数。
步骤103:选择一个执行动作控制所述交通信号灯的状态,以使所述十字路口范围内所有车辆的体验参数和最大。
具体的,所述所有车辆的体验参数之和设定为目标函数,则所述目标函数满足以下表达式:
Figure GDA0002241784440000122
其中,γ为常数,γ的取值范围为大于0小于1;f(Tk)表征车辆通过十字路口的体验函数;T表示通过十字路口的时间;an表示交通信号灯的执行动作;
Figure GDA0002241784440000131
表示执行动作an执行的时间点;Z0表示在执行动作an执行之后、执行动作an+1执行之前离开十字路口范围的车辆集合;
Figure GDA0002241784440000132
表示离开十字路口范围的Zn集合中所有车辆的体验参数之和;其中,X表示所述十字路口的状态;所述十字路口的状态包括车辆类型、车辆的速度信息、车辆的加速度信息、车辆在所述十字路口范围内的持续时间以及交通信号灯的状态。
进一步地,作为一种实施方式,所述选择一个执行动作控制所述交通信号灯的状态之前,所述方法还包括:
当在预设控制周期内无新车辆进入所述十字路口范围内时,对于所述目标函数,设Q函数为:
Figure GDA0002241784440000133
其中,所述Q函数表示在所述十字路口状态X下执行控制动作a0后得到的所述十字路口范围内所有车辆的最大的体验参数之和;
将所述Q函数改写为:
Figure GDA0002241784440000134
采用估计函数对所述Q函数进行估计,则所述估计函数为:
Figure GDA0002241784440000135
采用多次迭代方式使所述估计函数
Figure GDA0002241784440000136
逼近所述Q函数,则所述估计函数
Figure GDA0002241784440000137
满足以下表达式:
Figure GDA0002241784440000138
其中,
Figure GDA0002241784440000139
vn(X,a)为在状态X下选择控制动作a的计数;αn表示学习速度,αn满足以下表达式:
Figure GDA0002241784440000141
其中,ε表示最小学习速度。
作为另一种实施方式,所述选择一个执行动作控制所述交通信号灯的状态,包括:
当在预设控制周期内有新车辆进入所述十字路口范围内时,存在:
Figure GDA0002241784440000142
其中,π/表示执行动作a1遵循的策略;π*表示所述目标函数最大时的策略;Z0表示在执行动作a0执行之后、执行动作a1执行之前离开十字路口范围的车辆集合;Φ表示所述执行动作a0执行之前所述十字路口范围内的车辆集合;
基于上述表达式,则设Q函数满足以下表达式为:
Figure GDA0002241784440000143
其中,
Figure GDA0002241784440000144
表示无论是否有新车辆进入所述十字路口范围,所述十字路口范围内的所有车辆的体验参数之和的数学期望;
所述估计函数
Figure GDA0002241784440000145
逼近所述Q函数,则所述估计函数
Figure GDA0002241784440000146
满足以下表达式:
Figure GDA0002241784440000147
其中,所述估计函数
Figure GDA0002241784440000148
的最小值采用指数滑动平均法获得,所述指数滑动平均法满足以下表达式:
Figure GDA0002241784440000151
其中,sn表示所述十字路口范围内的车辆的体验参数的平均值。
进一步地,所述选择一个执行动作控制所述交通信号灯的状态,包括:
对于所述十字路口在交通信号灯的执行动作a0的执行时间点所处的状态
Figure GDA0002241784440000152
下、所有的执行动作a,计算对应的估计函数
Figure GDA0002241784440000153
基于获得的所述估计函数
Figure GDA0002241784440000154
计算所述状态下执行动作a被选择执行的概率;所述概率满足以下表达式:
Figure GDA0002241784440000155
其中,k为正整数;
基于获得的执行动作a的概率,选择所述估计函数
Figure GDA0002241784440000156
最大的一个执行动作执行,以使所述执行动作对应的所述十字路口范围内的所有车辆的体验参数之和最大。
作为一种实施方式,所述选择一个执行动作控制所述交通信号灯的状态之后,所述方法还包括:
在下一个执行动作执行之前,记录离开所述十字路口范围的车辆,所述离开所述十字路口范围的车辆集合记为
Figure GDA0002241784440000157
以及记录进入所述十字路口范围的车辆,所述进入所述十字路口范围的车辆集合记为
Figure GDA0002241784440000158
计算获得离开所述十字路口范围的车辆的体验参数之和,基于所述离开所述十字路口范围的车辆的体验参数之和更新所述估计函数
Figure GDA0002241784440000159
进一步地,作为一种实施方式,所述计算获得离开所述十字路口范围的车辆的体验参数之和,基于所述离开所述十字路口范围的车辆的体验参数之和更新所述估计函数
Figure GDA00022417844400001510
包括:
获得所述下一个执行动作执行之前、所述十字路口范围内的所有车辆
Figure GDA0002241784440000161
的体验参数之和r,当控制周期为
Figure GDA0002241784440000162
时:
Figure GDA0002241784440000163
为非空集合时,r满足以下表达式:
Figure GDA0002241784440000164
Figure GDA0002241784440000165
为空集时,采用多次迭代方式使估计函数
Figure GDA0002241784440000166
逼近Q函数的方式,获得更新后的估计函数
Figure GDA0002241784440000167
其中,所述采用多次迭代方式使估计函数
Figure GDA0002241784440000168
逼近Q函数满足以下表达式:
Figure GDA0002241784440000169
其中,
Figure GDA00022417844400001610
表示在状态X下、执行动作a时,估计函数
Figure GDA00022417844400001611
的下界;
Figure GDA00022417844400001612
表示执行动作a0执行的时间点;
Figure GDA00022417844400001613
表示
Figure GDA00022417844400001614
时间点对应的十字路口的状态;
Figure GDA00022417844400001615
表示累计折算终值;
将集合
Figure GDA00022417844400001616
中所有车辆的体验参数之和进行折算,存在:
Figure GDA00022417844400001617
Figure GDA00022417844400001618
其中,
Figure GDA00022417844400001619
表示累计折算步长;
Figure GDA00022417844400001620
时,则更新的估计函数
Figure GDA00022417844400001621
满足:
Figure GDA00022417844400001622
作为另一种实施方式,当集合
Figure GDA00022417844400001623
为空集时,采用以下表达式更新所述估计函数
Figure GDA00022417844400001624
Figure GDA00022417844400001625
具体的,本发明实施例的交通信号灯的控制方法可首先从问题描述与建模进行描述。
设定车辆通过十字路口的体验函数满足以下表达式(2):
f(t)=-(t-T0)×|t-T0| (2)
其中,函数f(t)为体验函数,表示用户驾驶车辆通过十字路口的体验值;t表示车辆通过十字路口的时间;T0表示抱怨发生的临界点;图4为本发明实施例中函数f(t)的图样示意图;如图4所示,第一方面,体验函数为单调递减函数,表示车辆通过十字路口的时间越长,体验值越低,用户越不满;第二方面,T0表示抱怨发生的临界点,当通过时间t<T0时,其体验为正值,当t>T0时,其体验为负值;第三方面,f(t)是一个S形函数,这带来一个特性,那就是在用户开始抱怨之前,控制算法偏好于让后进入十字路口的车辆先通过十字路口,在用户开始抱怨之后,控制算法偏好于让先进入十字路口的车辆先通过十字路口。
进一步地,假设某一时刻十字路口范围内共有N辆车,将这些车的集合记为Φ={c1,c2,...,cN}。并假设从所述时刻开始没有新的车辆进入十字路口。
设动作an执行之后,an+1执行之前,共有Zn辆车离开十字路口范围,其集合也记为Zn,这Zn辆车的体验总和为满足表达式(3):
Figure GDA0002241784440000171
Figure GDA0002241784440000172
表示控制动作an执行的时间点,则存在:
Figure GDA0002241784440000173
其中,S表示所有车辆离开十字路口范围所需要的控制步数,即在aS执行之后,aS+1执行之前,集合Φ中的车辆都会离开十字路口范围。
则设定目标函数满足表达式(5):
Figure GDA0002241784440000174
其中,γ为常数;0<γ<1,作为一种实施方式,γ=0.99。
进一步地,对十字路口状态进行建模,具体包括:
图5为本发明实施例中对十字路口状态建模的示意图;如图5所示,将十字路口划分为特定大小的网格,划分的原则为每个网格的大小只能容纳一辆汽车。则所有车辆在十字路口的状态可以被表示为所有网格的状态。
其中,每一个网格i的状态可以由下面的向量表示:
gi=(g1,g2,g3,g4,g5,g6)i (6)
其中,表达式(6)中的每个参数的说明参见表2所示:
Figure GDA0002241784440000181
表2
假设所述十字路口范围内共有G个网格,则所述十字路口的全部状态可以表示为:
X=(g1,g2,...,gG,L) (7)
其中,L表示交通信号灯的状态。
进一步地,考虑到以下两种情况:无新车辆进入十字路口的情况以及有新车辆进入十字路口的情况。
当无新车辆进入时,则表达式(5)所述的目标函数可以表示为状态X和控制策略π:X→a的函数。则十字路口范围内车辆的集合为Φ={c1,c2,...,cN},假设已知目标函数,则当前最优的控制动作可以表示为:
Figure GDA0002241784440000182
其中,集合Φ作为目标函数的下标表示当前的目标函数是为了最优化Φ集合中车辆的累积折算体验。用
Figure GDA0002241784440000191
表示控制动作an执行的时间点。π*表示最优控制策略。
Figure GDA0002241784440000192
之前没有新车进入十字路口范围,且有集合Z0辆车离开了十字路口范围,存在
Figure GDA0002241784440000193
执行之后,系统状态从
Figure GDA0002241784440000194
转移到
Figure GDA0002241784440000195
记转移概率为
Figure GDA0002241784440000196
在新的状态
Figure GDA0002241784440000197
继续根据所述目标函数
Figure GDA00022417844400001914
选择最优动作为:
Figure GDA0002241784440000198
对于目标函数,设定Q函数为:
Figure GDA0002241784440000199
Q函数表示在状态X执行控制动作a0后,可能得到的目标函数的最大值,也即得到的十字路口范围内所有车辆的体验之和的最大值。
则存在:
Figure GDA00022417844400001910
用估计函数
Figure GDA00022417844400001911
表示对函数Q的估计,该估计函数记为:
Figure GDA00022417844400001912
假设表达式(12)能够准确地估计Q函数,则最优的控制动作可以表示为:
Figure GDA00022417844400001913
然而,确切的Q函数值在决定要采取何种控制动作的时候是很难知道的。原因有以下几点:
1、只有当所有的N辆车全部离开十字路口的时候才能计算得到目标函数的一个样本值,也就是说目标函数的样本值产生的时间点相比控制发生的时间点是延迟的;
2、只有在控制动作a0之后执行的是最优控制策略的情况下才能计算得到Q的样本值;
3、系统是动态的,当有一辆车进入十字路口范围以后,系统控制的最优化目标变成了使Φ-Z1+cN+1辆车的累积体验最大化,也就是说当有车辆进入时,系统状态转移的马尔科夫性遭到了破坏,集合Φ-Z1中的车辆的通过时间会受到第cN+1辆车的影响而发生改变,这样就不可能再通过累积集合Φ-Z1中车辆的体验来计算Q的样本值。
所以要解决的问题是如何让估计函数
Figure GDA0002241784440000201
逼近Q函数。则首先将表达式(10)改写为:
Figure GDA0002241784440000202
若在a0执行之后,a1执行之前,没有新的车辆进入,可以用下面的表达式更新估计函数
Figure GDA0002241784440000203
Figure GDA0002241784440000204
Figure GDA0002241784440000205
其中,vn(X,a)为在状态X下选择控制动作a的计数;αn表示学习速度,随着计数的增加,学习速度逐渐减小趋向于零(在此条件下可以证明估计函数
Figure GDA0002241784440000206
将以概率1收敛至Q函数)。在实际应用中,为了保持系统的动态性,避免学习速度αn等于零的情况,则αn满足以下表达式:
Figure GDA0002241784440000207
其中,ε表示最小学习速度。可以证明当0<γ<1时,用表达式(15)进行迭代,只要保证状态和动作对被无限频繁地访问,估计函数
Figure GDA0002241784440000208
就可以收敛到Q函数。虽然表达式(17)在理论上破坏了算法的收敛性,但是只要选择一个较小的ε就可以保证算法的实际效果。由于
Figure GDA0002241784440000209
Figure GDA00022417844400002010
只相差预设控制周期(如6秒),也就是说在一个控制周期6s内,如果没有新车辆进入十字路口范围,就可以用表达式(15)给出的方法更新估计函数
Figure GDA0002241784440000211
从而不断逼近Q函数。
作为另一种情况,即当有新车辆进入十字路口范围时,在a0执行之后,a1执行之前,有第N+1辆车cN+1进入十字路口范围,离开十字路口范围的车辆集合为Z0。则从执行动作a0之后,最优控制策略所要考虑的车辆集合变满足以下表达式:
Φ1=Φ-Z0+cN+1 (18)
由此可以得出,系统的马尔科夫性被破坏了。所以在
Figure GDA0002241784440000219
时刻最优控制策略的目标函数满足以下表达式:
Figure GDA0002241784440000212
其中,π/表示当前的控制策略。
最优执行动作为:
Figure GDA0002241784440000213
根据表达式(8)和表达式(20),真正被执行的控制动作序列为
Figure GDA0002241784440000214
显然
Figure GDA0002241784440000215
的选择遵循的是控制策略π*,从a1开始控制动作选择遵循的是控制策略π/。π*对于表达式(8)所表示的目标函数是最优的,显然π/对于表达式(9)所表示的目标函数就不一定是最优的,所以存在:
Figure GDA0002241784440000216
在表达式(21)两边加上集合Z0中车辆的体验,得到:
Figure GDA0002241784440000217
将不等式(22)的左右两侧分别改写,可以得到:
Figure GDA0002241784440000218
表达式(23)的右边是只考虑Φ集合中的车辆并假设没有新车辆进入十字路口范围时的目标函数的最大值,当有新车辆进入十字路口范围时,表达式(23)的右边无法准确计算。表达式(23)的左边的含义是不管后续是否有新车辆进入十字路口范围,集合Φ中的全部车辆的累积折算体验的数学期望。当集合Φ中的全部车辆离开十字路口范围时,就可计算得到表达式(23)的左边的一个样本值。
根据表达式(10)对Q函数的定义有:
Figure GDA0002241784440000221
基于表达式(24),则有:
Figure GDA0002241784440000222
表达式(25)的右边的含义是不管后续是否有新车辆进入十字路口范围,集合Φ中的全部车辆的累积折算体验的数学期望。当集合Φ中的全部车辆离开十字路口范围时,就可计算得到表达式(25)的右边的一个样本值。
基于此,可利用表达式(25)加快估计函数
Figure GDA0002241784440000223
的收敛,因为估计函数
Figure GDA0002241784440000224
是对函数Q的估计,则有:
Figure GDA0002241784440000225
则可基于表达式(27)的右边确定估计函数
Figure GDA0002241784440000226
的下界。则可通过以下表达式计算表达式(26)的右边:
Figure GDA0002241784440000227
基于上述两种情况的算法描述,下面进行对本发明实施例的交通信号灯的控制方法进行说明。
图6为本发明实施例中的一种场景示意图;如图6所示,假设
Figure GDA0002241784440000231
时间点之前,十字路口范围内的车辆集合表示为Φ={c1,c2,...,c9},状态记为
Figure GDA0002241784440000232
Figure GDA0002241784440000233
时间点和
Figure GDA0002241784440000234
时间点之间,有车辆c1和c2离开所述十字路口范围,有车辆c10进入所述十字路口范围,则此时,车辆集合记为Φ1={c3,c4,...,c10},此时的状态为
Figure GDA0002241784440000235
其他时间点的参数说明可参照图6所示,这里不再详细说明。
第1步:初始化Q函数的估计函数
Figure GDA0002241784440000236
为全零值,即对于所有可能的状态和执行动作对,初始化
Figure GDA0002241784440000237
初始化
Figure GDA0002241784440000238
初始化累积折算值γ=0.98,初始化k=0.1。
第2步:在
Figure GDA0002241784440000239
时刻,记录此时的车辆集合为
Figure GDA00022417844400002310
初始化
Figure GDA00022417844400002311
时刻对应的累积折算终值为
Figure GDA00022417844400002312
初始化
Figure GDA00022417844400002313
时刻对应的累积折算步长为
Figure GDA00022417844400002314
十字路口状态为
Figure GDA00022417844400002315
第3步:对于状态
Figure GDA00022417844400002316
条件下所有可能的动作a,计算
Figure GDA00022417844400002317
这里,在初始状态下,可以理解为无新车辆进入的情形,则可参照表达式(15)计算
Figure GDA00022417844400002318
第4步:计算X状态下动作a被选择的概率:
Figure GDA00022417844400002319
第5步:选择动作。根据表达式(28)给出的概率值选择一个动作来执行。具体的,选择十字路口中所有车辆的体验参数之和最大的动作执行,也即
Figure GDA00022417844400002320
最大值对应的动作执行。
第6步:在下一个控制动作之前,即在该动作执行后的控制周期(如6s时间)内,记录有哪些车辆离开了十字路口范围,记这些车辆的集合为
Figure GDA00022417844400002321
并记录有哪些车辆新进入了十字路口范围,记这些车辆的集合为
Figure GDA00022417844400002322
第7步:对所有早于
Figure GDA00022417844400002323
的控制周期执行如下动作,下面以
Figure GDA00022417844400002324
控制周期为例:计算
Figure GDA00022417844400002325
集合中车辆的累积体验。
Figure GDA0002241784440000241
为非空,则计算车辆的体验和满足以下表达式:
Figure GDA0002241784440000242
Figure GDA0002241784440000243
为空集,则用累积折算体验的终值更新
Figure GDA0002241784440000244
具体为:
Figure GDA0002241784440000245
第7.1步:将离开车辆的体验和折算至终值
Figure GDA0002241784440000246
Figure GDA0002241784440000247
第7.2步:若
Figure GDA0002241784440000248
则存在:
Figure GDA0002241784440000249
第8步:若
Figure GDA00022417844400002410
为空集。则用如下公式更新估计函数
Figure GDA00022417844400002411
Figure GDA00022417844400002412
基于上述描述,图7a至图7h为本发明实施例的交通信号灯控制方法的状态转移示意图;如图7a至图7h所示,为采用本发明实施例的交通信号灯控制方法的所有可能的信号灯状态及其状态转移。其中,实线箭头表示现有技术中的状态转移,虚线箭头表示本发明实施例新增的状态转移。实线圆圈表示稳定状态,与现有技术相同;间距较小的虚线圆圈(例如图7a中的L2状态)表示过渡状态,与现有技术相同;间距较大的虚线圆圈(例如图7a中的L20状态)表示本发明实施例中新增的状态。
采用本发明实施例的技术方案,通过将车辆通过十字路口的时间与车辆驾驶者的体验进行关联,基于十字路口范围内所有车辆的体验之和作为所述十字路口的交通信号灯的控制基础,实现了根据十字路口的车辆状况自动学习到交通信号灯的最优控制流程,使得在十字路口范围内的所有车辆的平均通过时间最短,大大提升了交通信号灯控制系统的智能性,提升了车辆驾驶者的体验。
实施例二
本发明实施例还提供了一种交通信号灯控制系统。图8为本发明实施例的交通信号灯控制系统的组成结构示意图;如图8所示,所述系统包括:数据采集单元、分析处理单元和控制执行单元;其中,
所述数据采集单元,用于采集十字路口范围内车辆的状态信息,以及所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间;其中,所述状态信息包括以下信息的至少之一:车辆类型、位置、速度、加速度;
所述分析处理单元,用于针对所述十字路口范围内的交通信号灯的所有执行动作,基于所述车辆的状态信息、所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间确定所述十字路口范围内所有车辆的体验参数之和;
所述控制执行单元,用于选择一个执行动作控制所述交通信号灯的状态,以使所述十字路口范围内所有车辆的体验参数和最大。
其中,所述分析处理单元,用于设定所有车辆的体验参数之和为目标函数,则所述目标函数满足以下表达式:
Figure GDA0002241784440000251
其中,γ为常数,γ的取值范围为大于0小于1;f(Tk)表征车辆通过十字路口的体验函数;T表示通过十字路口的时间;an表示交通信号灯的执行动作;
Figure GDA0002241784440000252
表示执行动作an执行的时间点;Z0表示在执行动作an执行之后、执行动作an+1执行之前离开十字路口范围的车辆集合;
Figure GDA0002241784440000253
表示离开十字路口范围的Zn集合中所有车辆的体验参数之和;其中,X表示所述十字路口的状态;所述十字路口的状态包括车辆类型、车辆的速度信息、车辆的加速度信息、车辆在所述十字路口范围内的持续时间以及交通信号灯的状态。
进一步地,作为一种实施方式,所述分析处理单元,用于当在预设控制周期内无新车辆进入所述十字路口范围内时,对于所述目标函数,设Q函数为:
Figure GDA0002241784440000261
其中,所述Q函数表示在所述十字路口状态X下执行控制动作a0后得到的所述十字路口范围内所有车辆的最大的体验参数之和;
将所述Q函数改写为:
Figure GDA0002241784440000262
采用估计函数对所述Q函数进行估计,则所述估计函数为:
Figure GDA0002241784440000263
采用多次迭代方式使所述估计函数
Figure GDA0002241784440000264
逼近所述Q函数,则所述估计函数
Figure GDA0002241784440000265
满足以下表达式:
Figure GDA0002241784440000266
其中,
Figure GDA0002241784440000267
vn(X,a)为在状态X下选择控制动作a的计数;αn表示学习速度,αn满足以下表达式:
Figure GDA0002241784440000268
其中,ε表示最小学习速度。
作为另一种实施方式,所述分析处理单元,用于当在预设控制周期内有新车辆进入所述十字路口范围内时,存在:
Figure GDA0002241784440000269
其中,π/表示执行动作a1遵循的策略;π*表示所述目标函数最大时的策略;Z0表示在执行动作a0执行之后、执行动作a1执行之前离开十字路口范围的车辆集合;Φ表示所述执行动作a0执行之前所述十字路口范围内的车辆集合;
基于上述表达式,则设Q函数满足以下表达式为:
Figure GDA0002241784440000271
其中,
Figure GDA0002241784440000272
表示无论是否有新车辆进入所述十字路口范围,所述十字路口范围内的所有车辆的体验参数之和的数学期望;
所述估计函数
Figure GDA0002241784440000273
逼近所述Q函数,则所述估计函数
Figure GDA0002241784440000274
满足以下表达式:
Figure GDA0002241784440000275
其中,所述估计函数
Figure GDA0002241784440000276
的最小值采用指数滑动平均法获得,所述指数滑动平均法满足以下表达式:
Figure GDA0002241784440000277
其中,sn表示所述十字路口范围内的车辆的体验参数的平均值。
本实施例中,所述控制执行单元,用于对于所述十字路口在交通信号灯的执行动作a0的执行时间点所处的状态
Figure GDA0002241784440000278
下、所有的执行动作a,计算对应的估计函数
Figure GDA0002241784440000279
基于获得的所述估计函数
Figure GDA00022417844400002710
计算所述状态下执行动作a被选择执行的概率;所述概率满足以下表达式:
Figure GDA00022417844400002711
其中,k为正整数;
基于获得的执行动作a的概率,选择所述估计函数
Figure GDA00022417844400002712
最大的一个执行动作执行,以使所述执行动作对应的所述十字路口范围内的所有车辆的体验参数之和最大。
作为一种实施方式,所述分析处理单元,还用于所述控制执行单元执行下一个执行动作之前,记录离开所述十字路口范围的车辆,所述离开所述十字路口范围的车辆集合记为
Figure GDA0002241784440000281
以及记录进入所述十字路口范围的车辆,所述进入所述十字路口范围的车辆集合记为
Figure GDA0002241784440000282
计算获得离开所述十字路口范围的车辆的体验参数之和,基于所述离开所述十字路口范围的车辆的体验参数之和更新所述估计函数
Figure GDA0002241784440000283
具体的,作为一种实施方式,所述分析处理单元,用于获得所述下一个执行动作执行之前、所述十字路口范围内的所有车辆
Figure GDA0002241784440000284
的体验参数之和r,当控制周期为
Figure GDA0002241784440000285
时:
Figure GDA0002241784440000286
为非空集合时,r满足以下表达式:
Figure GDA0002241784440000287
Figure GDA0002241784440000288
为空集时,采用多次迭代方式使估计函数
Figure GDA0002241784440000289
逼近Q函数的方式,获得更新后的估计函数
Figure GDA00022417844400002810
其中,所述采用多次迭代方式使估计函数
Figure GDA00022417844400002811
逼近Q函数满足以下表达式:
Figure GDA00022417844400002812
其中,
Figure GDA00022417844400002813
表示在状态X下、执行动作a时,估计函数
Figure GDA00022417844400002814
的下界;
Figure GDA00022417844400002815
表示执行动作a0执行的时间点;
Figure GDA00022417844400002816
表示
Figure GDA00022417844400002817
时间点对应的十字路口的状态;
Figure GDA00022417844400002818
表示累计折算终值;
将集合
Figure GDA00022417844400002819
中所有车辆的体验参数之和进行折算,存在:
Figure GDA00022417844400002820
Figure GDA00022417844400002821
其中,
Figure GDA0002241784440000291
表示累计折算步长;
Figure GDA0002241784440000292
时,则更新的估计函数
Figure GDA0002241784440000293
满足:
Figure GDA0002241784440000294
作为另一种实施方式,当集合
Figure GDA0002241784440000295
为空集时,采用以下表达式更新所述估计函数
Figure GDA0002241784440000296
Figure GDA0002241784440000297
本实施例中,所述交通信号灯系统在实际应用中可通过服务器、个人计算机实现。所述系统中的数据采集单元、分析处理单元和控制执行单元,在实际应用中,均可由所述系统中的中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,DigitalSignal Processor)或可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
采用本发明实施例的技术方案,通过将车辆通过十字路口的时间与车辆驾驶者的体验进行关联,基于十字路口范围内所有车辆的体验之和作为所述十字路口的交通信号灯的控制基础,实现了根据十字路口的车辆状况自动学习到交通信号灯的最优控制流程,使得在十字路口范围内的所有车辆的平均通过时间最短,大大提升了交通信号灯控制系统的智能性,提升了车辆驾驶者的体验。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种交通信号灯控制方法,其特征在于,所述方法包括:
采集十字路口范围内车辆的状态信息,以及所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间;其中,所述状态信息包括以下信息的至少之一:车辆类型、位置、速度、加速度;
针对所述十字路口范围内的交通信号灯的所有执行动作,基于所述车辆的状态信息、所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间确定所述十字路口范围内所有车辆的体验参数之和;
选择一个执行动作控制所述交通信号灯的状态,以使所述十字路口范围内所有车辆的体验参数和最大;
所述所有车辆的体验参数之和设定为目标函数,则所述目标函数满足以下表达式:
Figure FDA0002241784430000011
其中,γ为常数,γ的取值范围为大于0小于1;f(Tk)表征车辆通过十字路口的体验函数;T表示通过十字路口的时间;an表示交通信号灯的执行动作;
Figure FDA0002241784430000012
表示执行动作an执行的时间点;Z0表示在执行动作an执行之后、执行动作an+1执行之前离开十字路口范围的车辆集合;
Figure FDA0002241784430000013
表示离开十字路口范围的Zn集合中所有车辆的体验参数之和;其中,X表示所述十字路口的状态;所述十字路口的状态包括车辆类型、车辆的速度信息、车辆的加速度信息、车辆在所述十字路口范围内的持续时间以及交通信号灯的状态。
2.根据权利要求1所述的方法,其特征在于,所述选择一个执行动作控制所述交通信号灯的状态之前,所述方法还包括:
当在预设控制周期内无新车辆进入所述十字路口范围内时,对于所述目标函数,设Q函数为:
Figure FDA0002241784430000021
其中,所述Q函数表示在所述十字路口状态X下执行控制动作a0后得到的所述十字路口范围内所有车辆的最大的体验参数之和;
将所述Q函数改写为:
Figure FDA0002241784430000022
采用估计函数对所述Q函数进行估计,则所述估计函数为:
Figure FDA0002241784430000023
采用多次迭代方式使所述估计函数
Figure FDA0002241784430000024
逼近所述Q函数,则所述估计函数
Figure FDA0002241784430000025
满足以下表达式:
Figure FDA0002241784430000026
其中,
Figure FDA0002241784430000027
vn(X,a)为在状态X下选择控制动作a的计数;αn表示学习速度,αn满足以下表达式:
Figure FDA0002241784430000028
其中,ε表示最小学习速度。
3.根据权利要求2所述的方法,其特征在于,所述选择一个执行动作控制所述交通信号灯的状态,包括:
当在预设控制周期内有新车辆进入所述十字路口范围内时,存在:
Figure FDA0002241784430000029
其中,π/表示执行动作a1遵循的策略;π*表示所述目标函数最大时的策略;Z0表示在执行动作a0执行之后、执行动作a1执行之前离开十字路口范围的车辆集合;Φ表示所述执行动作a0执行之前所述十字路口范围内的车辆集合;
基于上述表达式,则设Q函数满足以下表达式为:
Figure FDA0002241784430000031
其中,
Figure FDA0002241784430000032
表示无论是否有新车辆进入所述十字路口范围,所述十字路口范围内的所有车辆的体验参数之和的数学期望;
所述估计函数
Figure FDA0002241784430000033
逼近所述Q函数,则所述估计函数
Figure FDA0002241784430000034
满足以下表达式:
Figure FDA0002241784430000035
其中,所述估计函数
Figure FDA0002241784430000036
的最小值采用指数滑动平均法获得,所述指数滑动平均法满足以下表达式:
Figure FDA0002241784430000037
其中,sn表示所述十字路口范围内的车辆的体验参数的平均值。
4.根据权利要求3所述的方法,其特征在于,所述选择一个执行动作控制所述交通信号灯的状态,包括:
对于所述十字路口在交通信号灯的执行动作a0的执行时间点所处的状态
Figure FDA0002241784430000038
下、所有的执行动作a,计算对应的估计函数
Figure FDA0002241784430000039
基于获得的所述估计函数
Figure FDA00022417844300000310
计算所述状态下执行动作a被选择执行的概率;所述概率满足以下表达式:
Figure FDA00022417844300000311
其中,k为正整数;
基于获得的执行动作a的概率,选择所述估计函数
Figure FDA0002241784430000041
最大的一个执行动作执行,以使所述执行动作对应的所述十字路口范围内的所有车辆的体验参数之和最大。
5.根据权利要求4所述的方法,其特征在于,所述选择一个执行动作控制所述交通信号灯的状态之后,所述方法还包括:
在下一个执行动作执行之前,记录离开所述十字路口范围的车辆,所述离开所述十字路口范围的车辆集合记为
Figure FDA0002241784430000042
以及记录进入所述十字路口范围的车辆,所述进入所述十字路口范围的车辆集合记为
Figure FDA0002241784430000043
计算获得离开所述十字路口范围的车辆的体验参数之和,基于所述离开所述十字路口范围的车辆的体验参数之和更新所述估计函数
Figure FDA0002241784430000044
6.根据权利要求5所述的方法,其特征在于,所述计算获得离开所述十字路口范围的车辆的体验参数之和,基于所述离开所述十字路口范围的车辆的体验参数之和更新所述估计函数
Figure FDA0002241784430000045
包括:
获得所述下一个执行动作执行之前、所述十字路口范围内的所有车辆
Figure FDA0002241784430000046
的体验参数之和r,当执行动作的时间点为
Figure FDA0002241784430000047
时:
Figure FDA0002241784430000048
为非空集合时,r满足以下表达式:
Figure FDA0002241784430000049
Figure FDA00022417844300000410
为空集时,采用多次迭代方式使估计函数
Figure FDA00022417844300000411
逼近Q函数的方式,获得更新后的估计函数
Figure FDA00022417844300000412
其中,所述采用多次迭代方式使估计函数
Figure FDA00022417844300000413
逼近Q函数满足以下表达式:
Figure FDA00022417844300000414
其中,
Figure FDA00022417844300000415
表示在状态X下、执行动作a时,估计函数
Figure FDA00022417844300000416
的下界;
Figure FDA00022417844300000417
表示执行动作a0执行的时间点;
Figure FDA00022417844300000418
表示
Figure FDA00022417844300000419
时间点对应的十字路口的状态;
Figure FDA00022417844300000420
表示累计折算终值;
将集合
Figure FDA0002241784430000051
中所有车辆的体验参数之和进行折算,存在:
Figure FDA0002241784430000052
Figure FDA0002241784430000053
其中,
Figure FDA0002241784430000054
表示累计折算步长;
Figure FDA0002241784430000055
时,则更新的估计函数
Figure FDA0002241784430000056
满足:
Figure FDA0002241784430000057
7.根据权利要求5所述的方法,其特征在于,当集合
Figure FDA0002241784430000058
为空集时,采用以下表达式更新所述估计函数
Figure FDA0002241784430000059
Figure FDA00022417844300000510
8.一种交通信号灯控制系统,其特征在于,所述系统包括:数据采集单元、分析处理单元和控制执行单元;其中,
所述数据采集单元,用于采集十字路口范围内车辆的状态信息,以及所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间;其中,所述状态信息包括以下信息的至少之一:车辆类型、位置、速度、加速度;
所述分析处理单元,用于针对所述十字路口范围内的交通信号灯的所有执行动作,基于所述车辆的状态信息、所述车辆进入所述十字路口范围的第一时间和离开所述十字路口范围的第二时间确定所述十字路口范围内所有车辆的体验参数之和;
所述控制执行单元,用于选择一个执行动作控制所述交通信号灯的状态,以使所述十字路口范围内所有车辆的体验参数和最大;
所述分析处理单元,用于设定所有车辆的体验参数之和为目标函数,则所述目标函数满足以下表达式:
Figure FDA00022417844300000511
其中,γ为常数,γ的取值范围为大于0小于1;f(Tk)表征车辆通过十字路口的体验函数;T表示通过十字路口的时间;an表示交通信号灯的执行动作;
Figure FDA0002241784430000061
表示执行动作an执行的时间点;Z0表示在执行动作an执行之后、执行动作an+1执行之前离开十字路口范围的车辆集合;
Figure FDA0002241784430000062
表示离开十字路口范围的Zn集合中所有车辆的体验参数之和;其中,X表示所述十字路口的状态;所述十字路口的状态包括车辆类型、车辆的速度信息、车辆的加速度信息、车辆在所述十字路口范围内的持续时间以及交通信号灯的状态。
9.根据权利要求8所述的系统,其特征在于,所述分析处理单元,用于当在预设控制周期内无新车辆进入所述十字路口范围内时,对于所述目标函数,设Q函数为:
Figure FDA0002241784430000063
其中,所述Q函数表示在所述十字路口状态X下执行控制动作a0后得到的所述十字路口范围内所有车辆的最大的体验参数之和;
将所述Q函数改写为:
Figure FDA0002241784430000064
采用估计函数对所述Q函数进行估计,则所述估计函数为:
Figure FDA0002241784430000065
采用多次迭代方式使所述估计函数
Figure FDA0002241784430000066
逼近所述Q函数,则所述估计函数
Figure FDA0002241784430000067
满足以下表达式:
Figure FDA0002241784430000068
其中,
Figure FDA0002241784430000069
vn(X,a)为在状态X下选择控制动作a的计数;αn表示学习速度,αn满足以下表达式:
Figure FDA0002241784430000071
其中,ε表示最小学习速度。
10.根据权利要求9所述的系统,其特征在于,所述分析处理单元,用于当在预设控制周期内有新车辆进入所述十字路口范围内时,存在:
Figure FDA0002241784430000072
其中,π/表示执行动作a1遵循的策略;π*表示所述目标函数最大时的策略;Z0表示在执行动作a0执行之后、执行动作a1执行之前离开十字路口范围的车辆集合;Φ表示所述执行动作a0执行之前所述十字路口范围内的车辆集合;
基于上述表达式,则设Q函数满足以下表达式为:
Figure FDA0002241784430000073
其中,
Figure FDA0002241784430000074
表示无论是否有新车辆进入所述十字路口范围,所述十字路口范围内的所有车辆的体验参数之和的数学期望;
所述估计函数
Figure FDA0002241784430000075
逼近所述Q函数,则所述估计函数
Figure FDA0002241784430000076
满足以下表达式:
Figure FDA0002241784430000077
其中,所述估计函数
Figure FDA0002241784430000078
的最小值采用指数滑动平均法获得,所述指数滑动平均法满足以下表达式:
Figure FDA0002241784430000079
s0=0;
其中,sn表示所述十字路口范围内的车辆的体验参数的平均值。
11.根据权利要求10所述的系统,其特征在于,所述控制执行单元,用于对于所述十字路口在交通信号灯的执行动作a0的执行时间点所处的状态
Figure FDA0002241784430000081
下、所有的执行动作a,计算对应的估计函数
Figure FDA0002241784430000082
基于获得的所述估计函数
Figure FDA0002241784430000083
计算所述状态下执行动作a被选择执行的概率;所述概率满足以下表达式:
Figure FDA0002241784430000084
其中,k为正整数;
基于获得的执行动作a的概率,选择所述估计函数
Figure FDA0002241784430000085
最大的一个执行动作执行,以使所述执行动作对应的所述十字路口范围内的所有车辆的体验参数之和最大。
12.根据权利要求11所述的系统,其特征在于,所述分析处理单元,还用于所述控制执行单元执行下一个执行动作之前,记录离开所述十字路口范围的车辆,所述离开所述十字路口范围的车辆集合记为
Figure FDA0002241784430000086
以及记录进入所述十字路口范围的车辆,所述进入所述十字路口范围的车辆集合记为
Figure FDA0002241784430000087
计算获得离开所述十字路口范围的车辆的体验参数之和,基于所述离开所述十字路口范围的车辆的体验参数之和更新所述估计函数
Figure FDA0002241784430000088
CN201510981659.4A 2015-12-23 2015-12-23 一种交通信号灯控制方法和系统 Active CN106910349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510981659.4A CN106910349B (zh) 2015-12-23 2015-12-23 一种交通信号灯控制方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510981659.4A CN106910349B (zh) 2015-12-23 2015-12-23 一种交通信号灯控制方法和系统

Publications (2)

Publication Number Publication Date
CN106910349A CN106910349A (zh) 2017-06-30
CN106910349B true CN106910349B (zh) 2020-03-20

Family

ID=59206052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510981659.4A Active CN106910349B (zh) 2015-12-23 2015-12-23 一种交通信号灯控制方法和系统

Country Status (1)

Country Link
CN (1) CN106910349B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110998686B (zh) * 2017-08-08 2023-03-17 北京嘀嘀无限科技发展有限公司 一种交通灯配时的系统和方法
KR102339776B1 (ko) * 2017-08-09 2021-12-15 삼성전자주식회사 차량의 주행 제어 방법 및 장치
CN110765613B (zh) * 2019-10-24 2023-03-21 电子科技大学 一种实时微观交通仿真系统的信号控制与同步方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003252237A1 (en) * 2003-07-23 2005-02-14 Mitsubishi Corporation Distributed signal control system
CN101707000B (zh) * 2009-10-26 2013-07-03 北京交通大学 城市道路交通多目标优化控制方法
CN102493377B (zh) * 2011-12-08 2014-07-02 中山大学 一种用于十字路口集中式交通控制机制
CN103469708A (zh) * 2013-09-18 2013-12-25 王宝民 十字路口信号控制和通行方案
CN104700633B (zh) * 2015-03-12 2016-04-06 深圳市金迈高智能科技有限公司 智能交通控制方法及装置

Also Published As

Publication number Publication date
CN106910349A (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
US11521067B2 (en) Decentralized distributed deep learning
Liang et al. Deep reinforcement learning for traffic light control in vehicular networks
US10551842B2 (en) Real-time vehicle state trajectory prediction for vehicle energy management and autonomous drive
CN109791409B (zh) 自主车辆的运动控制决策
CN113316808B (zh) 通过交通状态的时空扩展搜索空间控制交通信号
WO2021238303A1 (zh) 运动规划的方法与装置
CN110481536B (zh) 一种应用于混合动力汽车的控制方法及设备
CN106910349B (zh) 一种交通信号灯控制方法和系统
CN112400192A (zh) 多模态深度交通信号控制的方法和系统
WO2021051930A1 (zh) 基于动作预测模型的信号调节方法、装置和计算机设备
JP5940581B2 (ja) 消費電力予測装置、方法、およびその非一時的コンピュータ可読記憶媒体
Liang et al. A deep q learning network for traffic lights’ cycle control in vehicular networks
US20190197425A1 (en) Deep convolutional factor analyzer
CN111833590B (zh) 交通信号灯的控制方法、装置及计算机可读存储介质
EP3602432A1 (en) Flexible product manufacturing planning
CN111221375B (zh) Mppt控制方法、装置、光伏发电设备及可读存储介质
CN114302407A (zh) 网络决策方法及装置、电子设备和存储介质
CN104965763B (zh) 一种老化感知的任务调度系统
CN112749617A (zh) 通过聚集父实例确定输出信号
CN117062025A (zh) 一种车联网节能联合计算卸载与资源分配方法
CN104778495A (zh) 基于粒子群算法的贝叶斯网络优化方法
CN115547050A (zh) 一种基于马尔科夫决策过程的智能交通信号控制优化方法、软件
WO2021258847A1 (zh) 一种驾驶决策方法、装置及芯片
CN115908593A (zh) 一种编码解码方法、装置及相关设备
Soleimany et al. Hierarchical federated learning model for traffic light management in future smart

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant