CN112949933B

CN112949933B - 一种基于多智能体强化学习的交通组织方案优化方法

Info

Publication number: CN112949933B
Application number: CN202110305534.5A
Authority: CN
Inventors: 郑皎凌; 邹长杰; 王茂帆; 乔少杰; 刘双侨
Original assignee: Sichuan Yifang Intelligent Technology Co ltd; Chengdu University of Information Technology
Current assignee: Sichuan Yifang Intelligent Technology Co ltd; Chengdu University of Information Technology
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-08-02
Anticipated expiration: 2041-03-23
Also published as: CN112949933A

Abstract

本发明公开了一种基于多智能体强化学习的交通组织方案优化方法，改进了MADDPG中的Actor网络，基于生灭过程改进了Critic网络中的经验库，使用早高峰最大车流设作为智能体回报指标，使用轨迹数据训练最大熵逆强化学习模型作为多智能体的回报机制，基于此设计出强化学习的回报函数；本发明方法实现了对当前城市交通组织方案进行优化，通过对当前交通数据进行分析，找出导致交通拥堵的原因，本方法能够很好的适应和快速找出最优方案，为交警专家提供了交通辅导意见，并为智慧城市打下基础。

Description

一种基于多智能体强化学习的交通组织方案优化方法

技术领域

本发明属于交通流量优化技术领域，具体涉及一种基于多智能体强化学习的交通组织方案优化方法。

背景技术

城市的飞速发展，城市路网的越发复杂，交通拥堵问题愈发严重。城市区域车车流量的控制并非单一的，如果单独限制某个路口转向，其周围路段的流量难以控制更容易拥堵。使用多智能体强化学习控制道路车流量也会出现不适应的地方，如在复杂的城市路网中，多智能体团队合作通讯信息不足，集成学习效率低；很难设计出交通车流回报的标准；车流量全局联动变化导致多智能体在学习的过程中产生大量经验，然而传统的多智能体算法对经验的处理比较单一。

发明内容

针对现有技术中的上述不足，本发明提供的一种多智能体强化学习的交通组织方案优化方法解决了上述背景技术中的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于多智能体强化学习的交通组织方案优化方法，包括以下步骤：

S1、将待优化区域的当前交通方案{S,O₁,O₂,...,O_n,A₁,A₂,...,A_n,R₁,R₂,...,R_n,T}分为具有完全合作关系的n个智能体；

其中，S为联合状态，O₁,O₂,...,O_n为n个智能体对应的观察值，A₁,A₂,...,A_n为n个智能体对应的行为，R₁,R₂,...,R_n为n个智能体对应的回报，T为状态转移函数，下标1,2,...,n为智能体的编号；

S2、初始化n个智能体的参数；

其中，所述智能体的参数的包括状态、信息素、经验库和噪音值；

S3、基于当前的n个智能体的参数，通过Actor网络选择一个智能体的行为，使环境根据该智能体的状态、行为及确定的回报函数给出相应的回报，进而使该智能体通过状态转移矩阵到达下一状态，并保留对应的信息素；

S4、将智能体到达下一状态产生的经验缓存在经验库，并计算该智能体Actor网络的损失值；

S5、基于步骤S3～S4，将每个智能体到达下一状态产生的经验缓存在经验库，直到经验库中缓存的经验达到设定值，基于当前经验库缓存的经验计算每个智能体的生灭概率；

S6、根据每个智能体的生灭概率随机淘汰经验库中的经验；

S7、基于当前每个智能体的经验库中的经验及其对应的损失值，训练并更新智能体Actor网络的参数和权重；

S8、重复步骤S3-S7，直到达到设置的回合数或智能体连续设定次数内完成Actor网络的训练目标，得到训练好的交通组织方案优化模型；

S9、通过交通组织方案优化模型对当前交通方案进行预测，获得优化后交通组织方案。

进一步地，所述步骤S3中，通过Actor网络选择一个智能体的行为的公式为：

a_i＝μ_θi(O_i,x_i)+N_noise

式中，a_i为Actor网络选择的智能体i的行为，O_i为Actor网络选择的智能体i的观察值，μ_θi为Actor网络的确定性行为策略，x_i为智能体i信息素，N_noise为噪声值；

所述信息素x_i为：

所述智能体的行为包括允许左转、禁止左转、允许右转、禁止右转、允许调头和禁止调头。

进一步地，所述步骤S3中，所述回报函数的方法具体为：

A1、获取待优化区域内当前交通方案中的行车轨迹数据和历史最大车流量，并对行车轨迹数据进行填补缺失处理；

A2、利用处理后的行车轨迹数据训练最大熵强化学习分流模型，作为预测下一时刻车流量变化的分流模型；

A3、当智能体采取相应行为时，经过分流模型预测分流后的车流量；

A4、将历史最大车流量和分流后的车流量之间的关系作为回报函数。

进一步地，所述步骤A1中，对行车轨迹数据进行填补缺失处理的方法具体为：

B1、获取待优化区域内同一车牌的早高峰所有行车数据；

B2、在城市路网中匹配该车辆对应的出行轨迹；

B3、基于匹配出的出行轨迹，定位到轨迹缺失的路口，并在城市路网中以最短路径连接轨迹，完成行车轨迹数据的填补缺失处理。

进一步地，所述步骤S3中的智能体的状态表征其对应路段的通行情况，可以转向下一路口表示为0，否则表示为1；

所述步骤S3中的状态转移矩阵表征每个智能体下一时刻的状态取决于上一时刻的状态和行为。

进一步地，所述步骤S4中，智能体Actor网络的损失值L_a(θ_i)的计算公式为：

式中，

为策略分布的熵，α为系数，

智能体i对智能体j的策略评价，o_j为智能体在当前时刻的观察值，也即状态值，a_j为智能体在观察到o_j之后的行为，x_i为智能体i的信息素，

为智能体在o_j，x_i，a_j联合条件下的期望。

进一步地，所述步骤S5中，每个智能体的生灭概率p(i)为：

式中，L_a(θ_i)_mean为每一回合中智能体i每步轨迹的损失值均值，L_all为每一回合所有智能体轨迹的损失值；

其中，每一回合中智能体i每步轨迹的损失值均值L_a(θ_i)_mean为：

L_a(θ_i)_mean＝E(L_a(θ_i)₁+L_a(θ_i)₂+...+L_a(θ_i)_step)

式中，下标1,2,...,step为每一回合智能体的步数；

每一回合所有智能体轨迹的损失值L_all为：

所述步骤S6中，每个智能体的经验库中的经验的淘汰数量与其对应的生灭概率成正比。

进一步地，所述步骤S7中，对Actor网络进行训练的方法具体为：

C1、每隔M个回合，从经验库中抽取K条经验，并将其输入到智能体的Critic网络中；

C2、基于输入到Critic网络中的经验，更新Critic网络的网络参数并输出Q函数值；

C3、将Critic网络输出的Q函数值输入到对应的Actor网络中，对其进行训练并更新其参数和权重。

进一步地，所述步骤C2中，对Critic网络进行更新的训练目标为最小化损失函数：

所述损失函数L_c(θ_i)为：

式中，E_o,x,a,o′为损失函数在o,x,a,o′条件下的期望，

为表示第i个智能体状态-动作函数，由于是每个智能体独立学习自己的

函数，o为智能体在当前时刻的观察值，y为智能体i在o,x,a,o′条件下的真实回报；

其中，

r_i为在智能体i的历史回报值，γ为学习率，

为在当前时刻更新之后的状态-动作函数，x′₁,...,x′_n为智能体i～n的信息素，a′₁,...,a′_n为智能体在i～n时刻的动作行为。

本发明的有益效果为：

(1)本发明基于多智能体MADDPG算法提出了一种改进方法，用于对交通组织方案进行优化，通过对当前交通数据进行分析，找出导致交通拥堵的原因，本方法能够很好的适应和快速找出最优方案，为交警专家提供了交通辅导意见，并为智慧城市打下基础；

(2)本发明中基于蚁群算法，改进了MADDPG中的Actor网络，基于生灭过程改进了Critic网络中的经验库，使用最大熵强化学习模型模拟车辆分类，并设计了使用与交通区域流量的回报函数，使得改进后的交通组织方案优化方法能够更适应实际交通路网环境，提高交通组织方案优化的效率及准确性。

附图说明

图1为本发明提供的基于多智能体强化学习的交通组织方案优化方法流程图。

图2为本发明提供的简化路网中的智能体分布图。

图3为本发明提供的迭代次数对应的平均回报图。

图4为本发明提供的迭代次数对应的路网流量相似度图。

图5为本发明提供的1000次迭代预测的交通组织方案A图。

图6为本发明提供的1000次迭代210个路段流量对比图。

图7为本发明提供的4000次迭代预测的交通组织方案B图。

图8为本发明提供的4000次迭代210个路段流量对比图。

图9为本发明提供的8000次迭代预测的交通组织方案C图。

图10为本发明提供的8000次迭代210个路段流量对比图。

图11为本发明提供的采取1000次迭代方案流量分布可视化示意图。

图12为本发明提供的采取8000次迭代方案流量分布可视化示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于多智能体强化学习的交通组织方案优化方法，包括以下步骤：

S1、将待优化区域{S,O₁,O₂,...,O_n,A₁,A₂,...,A_n,R₁,R₂,...,R_n,T}分为具有完全合作关系的n个智能体；

S2、初始化n个智能体的参数；

其中，智能体的参数的包括状态、信息素、经验库和噪音值；

S3、基于当前的n个智能体的参数，通过Actor网络选择一个智能体的行为，使环境根据该智能体的状态、行为及确定的回报函数给出相应的回报，进而使该智能体通过状态转移函数到达下一状态，并保留对应的信息素；

S5、重复步骤S3～S4，将每个智能体到达下一状态产生的经验缓存在经验库；

S6、重复步骤S5，直到经验库中缓存的经验达到设定值，基于当前经验库缓存的经验计算每个智能体的生灭概率；

本实施例在传统的MADDP模型的基础上进行了改进，称为XED-MADDPG算法，目的在于让多智能体强化学习算法MADDPD更加适应预测禁止专项交通组织方案，本实施例中XED-MADDPD算法在以下三个地方对优化多智能体群体协作策略：

(1)在本实施例中的XED-MADDPD算法中Actor网络使用局部观测信息法，智能体通过确定性行为策略选择行为，在多智能体训练过程中加入了信息素，该信息素会影响智能体的观测值，增加了智能体之间通信信息，因此智能体在学习的过程中可以学习更多有用的信息加快选择行为策略收敛时间，故能有效的优化Actor网络；

(2)在每回合结束时通过生灭过程计算出每个智能体的生灭概率，根据生灭概率随机淘汰一部分学习不好的经验，间接优化XED-MADDPD中的Critic网络；

(3)设计出全局回报+主成分的团队回报函数，计算团队回报的余弦相似度和智能体周围信息回报的平方差，将两者的指标综合作为智能体的回报函数，使得回报函数更加适应交通车流量控制问题。

基于上述改进，本实施例中的本实施例的步骤S1中，对于状态转移函数T，S×A₁×A₂×...×A_n×→[0,1]，即给定当前状态和联合行为下智能体下一状态的概率分布；在本实施例中的待优化区域的交通环境中，n个智能体是完全合作关系。

本实施例的步骤S3中，通过Actor网络选择一个智能体的行为的公式为：

a_i＝μ_θi(O_i,x_i)+N_noise

信息素x_i为：

所有智能体信息素汇总方式如下：

x_all＝λ₁x₁+λ₂x₂+,...,λ_nx_n

式中，λ_i为x_i的权重，如果智能体i在本回合内完成目标，那么信息素x_i就是正反馈x_i＝1，反之x_i＝-1；每回合结束后环境中所有的信息素就会汇总，为了防止过拟合，采用下述公式对x_all进行标准化；

具体地，多智能体的状态、行为和观测值都来源于环境，因此需要预先处理待优化区域交通路网数据，然后根据地图数据和路网数据搭建多智能体的环境并且人工校准路网环境，最后设计路网环境中多智能体的状态、行为和观测值。

对于行为A：如图2所示，智能体agent_i所在路段包括智能体编号(agent_i)，路段坐标号(坐标i)，每个智能体的行为包括允许左转、禁止左转、允许右转、禁止右转、允许调头和禁止调头。假如agent_i的行为概率是(0.1,0.2,0.1,0.4,0.1,0.1)，取最大概率对应的行为，即0.4表示agent_i采取禁止通行、允许车辆向左转和掉头，如图2中，agent₁路段上的车流只是无法向南转向agent₇所在路段。

对于状态S：每个智能体的状态代表路段的通行情况，可以转向下一路口用0表示，否则为1，所有智能体的初始状态为(路段坐标，0,0,0)，假设agent₁没有采取任何禁止转向行为，此时agent₁路段上的车流可以向北进入agent₃所在路段、向南转向agent₇所在路段、向西转向agent₈所在路段，agent₁对应的状态为(1,0,0,0)，第一个数字表示智能体所在的坐标，后面三个数字表示通行情况。如果禁止向西掉头，那么状态为(1,0,0,1)。

对于观测值O：本实施例中智能体可以观察到其它智能体的状态，agent_i状态为S_i，观测值为(S₁,S₂,...,S_n)。

本实施例的步骤S3中，回报函数的方法具体为：

其中，最大熵强化学习分流模型的目的是当封了一些路口转向时可以模拟出下一时刻车流量的编号；

在采集数据时，如果出现污损或者没有被卡口摄像头拍到的车辆数据，车辆的轨迹在路网中就不是连续的，因此需要填补缺失的轨迹，原则是最短路径算法，因此，上述步骤A1中，对行车轨迹数据进行填补缺失处理的方法具体为：

B1、获取待优化区域内同一车牌的早高峰所有行车数据；

B2、在城市路网中匹配该车辆对应的出行轨迹；

本实施例中的步骤S3中的状态转移函数表征每个智能体下一时刻的状态取决于上一时刻的状态和行为；图2中的路网环境中当前状态为(1,0,0,0)，假设行为概率为(1,0,0,1)，状态转移函数对应的状态转移矩阵可以用三维数组表示，例如：

上述例子中当前状态矩阵为左边的4×4矩阵，一行表示一个智能体的张涛，中间4×3是行为矩阵，右边是下一步状态矩阵。行为矩阵第一行agent₁采取禁止右转行为，那么下一步状态为(1,0,1,0)，具体表示为路段1上的车辆禁止转向路段7，行为矩阵第二行agent₂采取禁止掉头行为，那么下一步状态为(1,0,0,1)，路段2上的车流禁止转向路段3，根据状态转移矩阵可以得到下一步所有智能体的状态。对于路网中存在三叉路或者更少的路段用1补上，表示一直不通车流。

在本实施例的步骤S4中，在一些实验环境中，智能体很难通过其它智能体的策略加速自己的训练过程，为了解决这个问题，本发明中的XED-MADDPG算法使用策略估计方式，采取自身估计的测量学习，智能体i对智能体j的策略评价用

表示，无需输入其他智能体的策略，而是通过最大化智能体j的行动概率对数和正则化熵更新Actor网络参数，基于此本实施例步骤S4中的智能体的损失值L_a(θ_i)的计算公式为：

式中，

为策略分布的熵，α为系数，

为智能体在o_j，x_i，a_j联合条件下的期望。

本实施例中用θ＝[θ₁...θ_n]表示n个智能体策略参数，μ＝[μ₁,...,μ_n]表示n个智能体的策略，此时Actor网络更新梯度为：

在本实施例中，允许多智能体训练在每个回合结束时可以选择生或者灭，且生活灭的保留信息是不一样的；传统的算法中智能体把经验无差别的存放到自己的数据库中，这种方法并不是最优，原因是较差的数据过多，智能体很难学会目标策略，还有一部分算法给经验库总设定不同的权重，按重要程度排序，这样可以区分高质量的经验，但是考虑到智能体在开始训练的时候并没有学习好，很可能造成经验库中权重大经验一直是那几条，这样智能体旋转同样的经验进行训练很容易陷入局部最优，也容易陷入死胡同。进入死胡同的智能体最好的选择就是早点淘汰差的经验，保留优秀的经验。基于上述分析，本实施例中设计出一种优化智能体经验库的生灭概率。

在上述步骤S5中，研究生灭过程目的是提高每个智能体的经验库，减少训练Critic网络时间，每一步训练结束时，把Actor网络损失函数值设计为任务的适应度，然后统计每一回合智能体i的损失值均值：

L_a(θ_i)_mean＝E(L_a(θ_i)₁+L_a(θ_i)₂+...+L_a(θ_i)_step)

式中，下标1,2,...,step为每一回合智能体的步数；

每一回合所有智能体轨迹的损失值L_all为：

基于此，上述步骤S5中每个智能体的生灭概率p(i)为：

在步骤S6中，生灭概率越大，经验库中的经验淘汰的数量就越多，即每个智能体的经验库中的经验的淘汰数量与其对应的生灭概率成正比。

本实施例的步骤S7中，Actor网络的输入是(O,x)，输出行为，即当前路段上的车能否转下下一路段，每个智能体都有自己的Actor网络，假设智能体有34个，每个智能体的状态都是思维的，观测器包括其他智能体的状态维度是136，智能体周围的信息素为当前路段信息素和相邻路段的信息素，维度为4，所以Actor网络的输入维度为140。中间的隐藏层是64维度，最后的输出层维度为6，使用Softmax选出最大概率的行为，选出行为后，经过分流模型模拟车流量的二分部，然后反馈出相应的回报，智能通获取奖励后继续迭代，智能体之间通过信息素和观测值交互信息，互相学习策略，最大化团队回报，为了得到较高的回报，可以用神经网络近似这个函数，在训练神经网络时最小化损失函数值，最终的24个智能体的组合就是优化后的交通组织方案。基于此，步骤S7中，对Actor网络进行训练的方法具体为：

步骤C2中，对Critic网络进行更新的训练目标为最小化损失函数：

所述损失函数L_c(θ_i)为：

式中，E_o,x,a,o′为损失函数在o,x,a,o′条件下的期望，

其中，

r_i为在智能体i的历史回报值，γ为学习率，

为在当前时刻更新之后的状态-动作函数，x′₁,...,x′_n为智能体i～n的信息素，a′₁,...,a′_n为智能体在i～n时刻的动作行为。在上述Actor网络训练过程中，Actor网络虽然不能获得全部的信息进行训练，但是每个Actor网络都有一个上帝视角的导师，这个导师可以观测经验库中所有的信息，并对Actor输出的行为进行打分，因此可以指导对应的Actor网络优化行为策略。Critic根据观测值、信息素、其它智能体行为，对Actor刚刚的反馈给出一个时间差分值，来决定Actor选择动作的好坏，如果时间差分值大的话，说明当前Actor选择的这个动作的偏差较高，需要更多的训练使得时间差分值减小。这个时候智能体调整Actor神经网络参数，争取下次做得更好。Critic网络根据系统给出的回报和其他评委的打分(Critic target)调整自己的打分策略。在开始探索阶段Actor网络随机采取行为，Critic网络随机打分，但是由于回报的存在，Critic评估会越来越准，智能体选取的行为也会越来越好。

Critic网络训练前，智能体一回合产生的经验要经过生灭过程淘汰部分经验(O,x,r,a,O′,done)。假设第一个智能体一回合缓存50条经验，50也表示一回合的最大步数，由生灭概率公式计算淘汰概率为0.8，概率比较高，说明该智能体这一回合学习的并不是很好，因此随机淘汰掉80％的经验，最后向经验库中更新10条经验。第34个智能体的淘汰概率为0.1，学习的效果比较好，需要保留更多的经验，因此淘汰掉10％的经验，然后更新经验库。更新完经验库后开始训练Critic网络模型，其中Critic网络的输入为{O,x₁,x₂,...,x₃₄,a₁,a₂,...,a₃₄)。网络的目的是最小化损失函数，每个智能体Critic网络的损失函数为：

实施例2：

本实施例提供了利用上述实施例1中的方法对绵阳CBD区域预测最优交通组织方案的实例：

数据准备：

确定待预测的绵阳CBD区域的所有车辆轨迹和OD，选取2019年9月2日一天早高峰7点到9点的轨迹，一天早高峰的OD数为78个，一个OD中最少轨迹条数为29，最大为509，轨迹长短也不同，最长30个，平均长度15。准备玩OD数据后训练最大熵逆强化学习车流分流模型，作为本实例算法的回报机制。

结果分析与展示：

CBD区域210个路段，其中34个路段作为重点研究对象。最优方案的评判标准是各路段历史最大流量和采取本发明交通组织方案经过最大熵逆强化学习分流模型中各个路段流量的差值，两者的差值越小代表方案越好。

图3是XED-MADDPG算法迭代次数对应的34个智能体的总的平均回报，算法在8000次迭代的时候平均回报趋于稳定且最优。图4表示每次算法迭代都会预测一种禁止转向交通组织方案，然后用最大熵逆强化学习模型模仿车辆分流，最后计算分流后的车流量矩阵和历史最大流量矩阵的相似度，相似度越高效果越好。当迭代1000次时相似度为80％，4000次的时候为83.1％，8000次的时候是85.5％。结果证明随着算法的迭代次数增加预测出的交通组织方案越来越好。

本文XED-MADDPG算法迭代1000次预测的组织方案A如图5中，路段id为25_26禁止向右转向26_36、22_27禁止转向27_26、44_43禁止转向43_41。将A方案输入到分流模型的结果如图6所示，横坐标表示路段编号，纵坐标表示路段的车流量，黄色的线是2019年中找出的早高峰历史最大流量，蓝色的线是采取A方案后车辆分流的流量分布。如图7表示算法迭代4000次预测的组织方案B，路段29_31禁止向左转向31_48、路段56_54禁止向左转向54_55，将B方案输入到分流模型的结果如图8所示。如图9表示算法迭代8000次预测的组织方案C，id为29_31的路段禁止向左转向31_48、34_35禁止转向35_55，将C方案输入到分流模型的结果如图10所示。通过图6、图8和图10可以看出交通组织方案C比较好，禁止转向的路口只有两个，而且流量矩阵相似度比较大，整体CBD区域的流量接近最大历史流量分布。本文改进的算法可以实现找出更少路段的禁止转向组合方案，更加合理的利用道路资源。

如图11是采取方案A仿真车辆分流的图，图12与如图11相比，CBD区域的拥堵情况减缓，其中警钟街和文昌路的车辆通过数变大，单位时间内过车辆数量变大，相对拥堵指数降低。