CN113393667A

CN113393667A - 一种基于Categorical-DQN乐观探索的交通控制方法

Info

Publication number: CN113393667A
Application number: CN202110649807.8A
Authority: CN
Inventors: 张程伟; 田宇; 房迪娜
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-14
Anticipated expiration: 2041-06-10
Also published as: CN113393667B

Abstract

本发明提供一种基于Categorical‑DQN乐观探索的交通控制方法，涉及乐观探索技术领域，包括以下步骤：S1：将交叉口建模为智能体，初始化当前网络Z(o,a；θ)和目标网络Z′(o,a；θ′)，其中：o为局部观测，a为下一刻要选择的信号相位，θ为当前网络参数，θ′为目标网络参数；S2：将经验回放池ERM进行初始化；S3：设置贪婪因子ε及乐观因子τ为1；S4：设置训练次数M，将S1所述智能体重复训练M次；该方法可以应用到交通环境中，将交叉口建模为智能体，在多智能体环境下训练各个交叉口，实现交叉口之间的协作，有效缓解交通拥堵。方法效果的提升在交通环境中也带来了效果的提升。

Description

一种基于Categorical-DQN乐观探索的交通控制方法

技术领域

本发明涉及乐观探索技术领域，尤其涉及一种基于Categorical-DQN乐观探索的交通控制方法。

背景技术

传统RL对独立学习(IL)MARL的研究主要是基于“乐观”原则，智能体根据最大期望回报(MER)或MER和期望回报的加权值来选择和评估一个动作。这些智能体乐观地假设其他所有智能体都采取能够最大化他们的回报的动作。因此，只有新的评估比之前的更好，他们才会更新动作的评估值。而对于深度强化学习(DRL)算法，则表现出了深度强化学习协同问题中固有的缺陷，如采样效率低，这是由于将过时的经验存储在经验重放记忆(ERM)中，当其他智能体的策略发生变化时，样本的作用就降低了。因此现在关于ILs的DRL算法都是基于“乐观”原则，关注如何识别和丢弃经验或者轨迹来减小由上述提到的学习挑战导致的不协调的可能性。然而，经验(或轨迹)的重要性很难确定，特别是在最优联合策略附近惩罚较高或最优联合策略比次优策略更难探索的游戏中。上述方法在一些复杂的场景下，如具有连续状态空间的环境下同时面临带有上述挑战的ILs时，它们都容易趋向于次优策略。

ATSC的目标是在实时道路交通测量的基础上自适应地调整信号相位以减少交通拥挤。为了解决ATSC问题，现有一些工作利用集中训练分布式执行(CTDE)机制学习最优联合策略，解决多智能体协作问题。然而，由于联合动作空间随着智能体数量的增加呈指数增长，集中式学习难以扩展。在真实的城市交通环境中，可能有上千个交叉口共同协调以优化城市交通。将交通信号控制定义为分散的多智能体协同控制(MARL)更为自然，即每个交叉口由一个具有局部观测的单一智能体控制。将其他智能体视为环境的一部分，仅根据其局部的观测、动作和奖励做出决策，这种方法是更普遍适用的。但它在学习中面临几大挑战，比如不稳定性，随机性和相对过度泛化问题，这些问题会导致结果趋于次优策略而无法得到全局最优策略。如果在一些复杂的场景下，如具有连续状态空间的环境下这些问题会更加严重。现有的交通控制方法，只是控制固定的红绿灯时间，并没有根据车辆的多少来控制红绿灯的信号相位，而这种情况往往会造成交通拥堵。综上所述，有待发明一种能够根据车辆数量控制红绿灯信号相位的交通控制方法。

发明内容

本发明提供一种基于Categorical-DQN乐观探索的交通控制方法，解决了现有交通控制方法无法根据车辆控制信号相位的问题。

为达到以上目的，本发明采取的技术方案是：

一种基于Categorical-DQN乐观探索的交通控制方法，包括以下步骤：

S1：将交叉口建模为智能体，初始化当前网络Z(o,a；θ)和目标网络Z′(o,a；θ′)，

其中：o为局部观测，a为下一刻要选择的信号相位，θ为当前网络参数，θ′为目标网络参数；

S2：将经验回放池ERM进行初始化；

S3：设置贪婪因子ε及乐观因子τ为1；

S4：设置训练次数M，将S1所述智能体重复训练M次；

S41：获取当前交叉口处的车辆数量和信号相位；

S42：限定每回合中交通时间为T，在每个时间步t上，t＝1,...,T：

S43：根据贪婪策略，随机数小于贪婪因子ε时随机选择动作a_i,t，随机数大于贪婪因子ε时根据a_i,t＝argmax_aQ_τ(s_t,a；θ)选择动作a_i,t；

S44：执行S43所述动作a_i,t，得到奖励r和下一时间步的状态s_t+1；

S45：将o_t、a_t、r_t、o_t+1整合成经验，存入经验回放池ERM中；

S46：从经验回放池ERM中抽取经验；

S47：将S46抽取的经验来训练CDQN智能体，最小化交叉熵损失，更新网络参数θ；

S48：每隔规定步数N更新目标网络参数θ′←θ；

S49：计算衰退率d_ε＝δd_τ，其中δ为参数，根据τ←max{τ_T,τ-d_τ}和ε←max{ε_T,ε-d_τ}更新计算Q值的乐观因子τ和贪婪策略中的贪婪因子ε；

S410：循环S41-S49，循环M次，直到完成交通信号控制。

优选地，所述S1中的局部观测o包括车辆数量和信号相位。

优选地，S43包括通过所述乐观程度变量τ在1到0之间变化，则获取给定状态-动作对从“极度乐观”到“极度不乐观”的回报估计，其中Q(o,a)是Q_τ(o,a)在τ＝0时的特殊情况；那么带有程度τ的状态o的乐观探索策略可以被定义为最大τ-乐观Q值下选择为：

优选地，τ∈[0,1]表示乐观程度的变量，其中τ＝1表示极度乐观，智能体根据所获得的最大回报来评估状态-动作的回报。相反，智能体在τ＝0时用它的预期回报来估计状态-动作的回报，与一般Q值相同；然后基于分位函数定义了τ-乐观Q值函数，

τ-乐观Q值Q_τ(o,a)是(o,a)的1-τ的最好的回报期望，其中p(x；o,a)是状态-动作对(o,a)的回报在x上的概率密度函数；z_τ是Z的τ分位数，即，在τ上F_Z(z；o,a)的逆函数的值，其中F_Z(z；o,a)是Z的累积分布函数，形式化定义为，

本发明的有益效果在于：

本发明基于深度强化学习中的分布式强化学习，考虑回报的分布而不是期望值函数，对强化学习的动态已经产生了积极的影响，并且成为了有用的分析工具，分布式强化学习算法能够改善样本复杂度和最终性能，以及增强超参数变化的鲁棒性；

本发明提出了一种新的算法OE-CDQN，它是一个基于CDQN的“乐观”IL方法，可以应用到交通环境中，将交叉口建模为智能体，在多智能体环境下训练各个交叉口，实现交叉口之间的协作，有效缓解交通拥堵。

附图说明

为了更清楚的说明本发明的实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

图2为本发明真实数据集实验效果图。

图3为本发明合成数据集实验效果图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当清楚，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制：方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本发明保护范围的限制。

本发明提供一种技术方案：一种基于Categorical-DQN乐观探索的交通控制方法，其流程如图1所示，包括以下步骤：

其中：o为局部观测，局部观测o包括车辆数量和信号相位，a为下一刻要选择的信号相位，θ为当前网络参数，θ′为目标网络参数；

S2：将经验回放池ERM进行初始化；

S3：设置贪婪因子ε及乐观因子τ为1；

S4：设置训练次数M，将S1智能体重复训练M次；

S41：获取当前交叉口处的车辆数量和信号相位；

S44：执行S43动作a_i,t，得到奖励r和下一时间步的状态s_t+1；

S46：从经验回放池ERM中抽取经验；

S48：每隔规定步数N更新目标网络参数θ′←θ；

S410：循环S41-S49，循环M次，直到完成交通信号控制。

S43中，通过乐观程度变量τ在1到0之间变化，则获取给定状态-动作对从“极度乐观”到“极度不乐观”的回报估计，其中Q(o,a)是Q_τ(o,a)在τ＝0时的特殊情况；那么带有程度τ的状态o的乐观探索策略可以被定义为最大τ-乐观Q值下选择为：

τ∈[0,1]表示乐观程度的变量，其中τ＝1表示极度乐观，智能体根据所获得的最大回报来评估状态-动作的回报。相反，智能体在τ＝0时用它的预期回报来估计状态-动作的回报，与一般Q值相同；然后基于分位函数定义了τ-乐观Q值函数，

在多智能体任务的学习过程中，智能体一开始就在探索，所以大多数选择的动作都是不好的。在公式(2)中定义的带有乐观探索策略的智能体主动选择回报最高的动作并且忽略这些动作的不好的回报，以此增加采样概率来获得联合最优经验。值得注意的是，OE策略被用于交互过程中，并不直接影响训练Z(o,a)的效果。由于ERM中存储的经验没有被区别对待，我们的方法避免了上述提到的“乐观”训练方法中出现的动作高估问题。一旦OE智能体进行了探索，它就还需要选择动作的平均估计值来处理随机博弈中的随机性问题。所以智能体最初是乐观，乐观的程度随着时间的推移而降低，乐观程度τ从1到0逐渐降低。

局部观测包括两部分，一部分是车辆数量，另一部分是信号相位。实际上局部观测就是13个数字，前12个数字是一个交叉口处12条车道的车辆数量，第13个数字是信号相位。一个交叉口有12条进车道，每条道上统计一个车辆总量，可以得到12条路上各自的数量总和，是12个数(10,5,20，…，50)。局部观测中的信号相位就是在这一时刻，信号相位是什么，一共有四种组合方式：用0,1,2,3表示。当前信号相位是0,1,2,3中的某一种，选择动作也就是要选择下一刻信号相位也是从0,1,2,3中选择一个。那么信号相位就是0,1,2,3中的一个数字。将车辆数量和信号相位结合在一起，就变成了((10,5,20，…，50)，0)所以局部观测一共有13个数字。信号相位是每个进入车道的交通信号组合。我们考虑四种红绿组合的交通灯，即NT-ST(南北直行),WT-ET(东西直行),SL-NL(南北左转)和WL-EL(东西左转)。

对于交通环境，我们使用每个交叉口的进车道车辆数量以及当前信号相位作为智能体的观测，信号相位的选择作为动作，进车道上的正在等待的车辆数量(相反数)作为奖励，在OE-CDQN算法的训练下，来最大化奖励值，最小化等待车辆数量，最大程度的缓解交通拥堵。我们在一个合成交通网格和两个真实的交通网络用实验来评估我们的方法。通过在真实交通环境数据的模拟器上的仿真实验，检验模型和算法地效能。实验结果表明，我们的方法在几乎所有常用的交通信号控制评价指标上(如平均旅行时间、平均排队长度以及吞吐量等)都优于目前的技术水平。实验数据集包括真实交通数据集，在实用性上也得到了保证。如图2所示，在真实数据集(济南)上的实验效果，本文提出的方法OE-CDQN的奖励值最高。如图3所示，在合成数据集上，本文提出的方法OE-CDQN的效果也是最好的。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于Categorical-DQN乐观探索的交通控制方法，其特征在于，包括以下步骤：

S2：将经验回放池ERM进行初始化；

S3：设置贪婪因子ε及乐观因子τ为1；

S4：设置训练次数M，将S1所述智能体重复训练M次；

S41：获取当前交叉口处的车辆数量和信号相位；

S43：根据贪婪策略，随机数小于贪婪因子ε时随机选择动作a_i,t，随机数大于贪婪因子ε时根据a_i,t＝arg max_aQ_τ(s_t,a；θ)选择动作a_i,t；

S46：从经验回放池ERM中抽取经验；

S48：每隔规定步数N更新目标网络参数θ′←θ；

S410：循环S41-S49，循环M次，直到完成交通信号控制。

2.根据权利要求1所述的基于Categorical-DQN乐观探索的交通控制方法，其特征在于，包括以下步骤：所述S1中的局部观测o包括车辆数量和信号相位。

3.根据权利要求1所述的基于Categorical-DQN乐观探索的交通控制方法，其特征在于，S43包括：通过所述乐观程度变量τ在1到0之间变化，则获取给定状态-动作对从“极度乐观”到“极度不乐观”的回报估计，其中Q(o,a)是Q_τ(o,a)在τ＝0时的特殊情况；那么带有程度τ的状态o的乐观探索策略可以被定义为最大τ-乐观Q值下选择为：

4.根据权利要求3所述的基于Categorical-DQN乐观探索的交通控制方法，其特征在于，τ∈[0,1]表示乐观程度的变量，其中τ＝1表示极度乐观，智能体根据所获得的最大回报来评估状态-动作的回报。相反，智能体在τ＝0时用它的预期回报来估计状态-动作的回报，与一般Q值相同；然后基于分位函数定义了τ-乐观Q值函数，