CN112949933A - 一种基于多智能体强化学习的交通组织方案优化方法 - Google Patents

一种基于多智能体强化学习的交通组织方案优化方法 Download PDF

Info

Publication number
CN112949933A
CN112949933A CN202110305534.5A CN202110305534A CN112949933A CN 112949933 A CN112949933 A CN 112949933A CN 202110305534 A CN202110305534 A CN 202110305534A CN 112949933 A CN112949933 A CN 112949933A
Authority
CN
China
Prior art keywords
agent
traffic
network
state
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110305534.5A
Other languages
English (en)
Other versions
CN112949933B (zh
Inventor
郑皎凌
邹长杰
王茂帆
乔少杰
刘双侨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yifang Intelligent Technology Co ltd
Chengdu University of Information Technology
Original Assignee
Sichuan Yifang Intelligent Technology Co ltd
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yifang Intelligent Technology Co ltd, Chengdu University of Information Technology filed Critical Sichuan Yifang Intelligent Technology Co ltd
Priority to CN202110305534.5A priority Critical patent/CN112949933B/zh
Publication of CN112949933A publication Critical patent/CN112949933A/zh
Application granted granted Critical
Publication of CN112949933B publication Critical patent/CN112949933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的交通组织方案优化方法,改进了MADDPG中的Actor网络,基于生灭过程改进了Critic网络中的经验库,使用早高峰最大车流设作为智能体回报指标,使用轨迹数据训练最大熵逆强化学习模型作为多智能体的回报机制,基于此设计出强化学习的回报函数;本发明方法实现了对当前城市交通组织方案进行优化,通过对当前交通数据进行分析,找出导致交通拥堵的原因,本方法能够很好的适应和快速找出最优方案,为交警专家提供了交通辅导意见,并为智慧城市打下基础。

Description

一种基于多智能体强化学习的交通组织方案优化方法
技术领域
本发明属于交通流量优化技术领域,具体涉及一种基于多智能体强化学习的交通组织方案优化方法。
背景技术
城市的飞速发展,城市路网的越发复杂,交通拥堵问题愈发严重。城市区域车车流量的控制并非单一的,如果单独限制某个路口转向,其周围路段的流量难以控制更容易拥堵。使用多智能体强化学习控制道路车流量也会出现不适应的地方,如在复杂的城市路网中,多智能体团队合作通讯信息不足,集成学习效率低;很难设计出交通车流回报的标准;车流量全局联动变化导致多智能体在学习的过程中产生大量经验,然而传统的多智能体算法对经验的处理比较单一。
发明内容
针对现有技术中的上述不足,本发明提供的一种多智能体强化学习的交通组织方案优化方法解决了上述背景技术中的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于多智能体强化学习的交通组织方案优化方法,包括以下步骤:
S1、将待优化区域的当前交通方案{S,O1,O2,...,On,A1,A2,...,An,R1,R2,...,Rn,T}分为具有完全合作关系的n个智能体;
其中,S为联合状态,O1,O2,...,On为n个智能体对应的观察值,A1,A2,...,An为n个智能体对应的行为,R1,R2,...,Rn为n个智能体对应的回报,T为状态转移函数,下标1,2,...,n为智能体的编号;
S2、初始化n个智能体的参数;
其中,所述智能体的参数的包括状态、信息素、经验库和噪音值;
S3、基于当前的n个智能体的参数,通过Actor网络选择一个智能体的行为,使环境根据该智能体的状态、行为及确定的回报函数给出相应的回报,进而使该智能体通过状态转移矩阵到达下一状态,并保留对应的信息素;
S4、将智能体到达下一状态产生的经验缓存在经验库,并计算该智能体Actor网络的损失值;
S5、基于步骤S3~S4,将每个智能体到达下一状态产生的经验缓存在经验库,直到经验库中缓存的经验达到设定值,基于当前经验库缓存的经验计算每个智能体的生灭概率;
S6、根据每个智能体的生灭概率随机淘汰经验库中的经验;
S7、基于当前每个智能体的经验库中的经验及其对应的损失值,训练并更新智能体Actor网络的参数和权重;
S8、重复步骤S3-S7,直到达到设置的回合数或智能体连续设定次数内完成Actor网络的训练目标,得到训练好的交通组织方案优化模型;
S9、通过交通组织方案优化模型对当前交通方案进行预测,获得优化后交通组织方案。
进一步地,所述步骤S3中,通过Actor网络选择一个智能体的行为的公式为:
ai=μθi(Oi,xi)+Nnoise
式中,ai为Actor网络选择的智能体i的行为,Oi为Actor网络选择的智能体i的观察值,μθi为Actor网络的确定性行为策略,xi为智能体i信息素,Nnoise为噪声值;
所述信息素xi为:
Figure BDA0002987664170000031
所述智能体的行为包括允许左转、禁止左转、允许右转、禁止右转、允许调头和禁止调头。
进一步地,所述步骤S3中,所述回报函数的方法具体为:
A1、获取待优化区域内当前交通方案中的行车轨迹数据和历史最大车流量,并对行车轨迹数据进行填补缺失处理;
A2、利用处理后的行车轨迹数据训练最大熵强化学习分流模型,作为预测下一时刻车流量变化的分流模型;
A3、当智能体采取相应行为时,经过分流模型预测分流后的车流量;
A4、将历史最大车流量和分流后的车流量之间的关系作为回报函数。
进一步地,所述步骤A1中,对行车轨迹数据进行填补缺失处理的方法具体为:
B1、获取待优化区域内同一车牌的早高峰所有行车数据;
B2、在城市路网中匹配该车辆对应的出行轨迹;
B3、基于匹配出的出行轨迹,定位到轨迹缺失的路口,并在城市路网中以最短路径连接轨迹,完成行车轨迹数据的填补缺失处理。
进一步地,所述步骤S3中的智能体的状态表征其对应路段的通行情况,可以转向下一路口表示为0,否则表示为1;
所述步骤S3中的状态转移矩阵表征每个智能体下一时刻的状态取决于上一时刻的状态和行为。
进一步地,所述步骤S4中,智能体Actor网络的损失值Lai)的计算公式为:
Figure BDA0002987664170000032
式中,
Figure BDA0002987664170000041
为策略分布的熵,α为系数,
Figure BDA0002987664170000042
智能体i对智能体j的策略评价,oj为智能体在当前时刻的观察值,也即状态值,aj为智能体在观察到oj之后的行为,xi为智能体i的信息素,
Figure BDA0002987664170000043
为智能体在oj,xi,aj联合条件下的期望。
进一步地,所述步骤S5中,每个智能体的生灭概率p(i)为:
Figure BDA0002987664170000044
式中,Lai)mean为每一回合中智能体i每步轨迹的损失值均值,Lall为每一回合所有智能体轨迹的损失值;
其中,每一回合中智能体i每步轨迹的损失值均值Lai)mean为:
Lai)mean=E(Lai)1+Lai)2+...+Lai)step)
式中,下标1,2,...,step为每一回合智能体的步数;
每一回合所有智能体轨迹的损失值Lall为:
Figure BDA0002987664170000045
所述步骤S6中,每个智能体的经验库中的经验的淘汰数量与其对应的生灭概率成正比。
进一步地,所述步骤S7中,对Actor网络进行训练的方法具体为:
C1、每隔M个回合,从经验库中抽取K条经验,并将其输入到智能体的Critic网络中;
C2、基于输入到Critic网络中的经验,更新Critic网络的网络参数并输出Q函数值;
C3、将Critic网络输出的Q函数值输入到对应的Actor网络中,对其进行训练并更新其参数和权重。
进一步地,所述步骤C2中,对Critic网络进行更新的训练目标为最小化损失函数:
所述损失函数Lci)为:
Figure BDA0002987664170000051
式中,Eo,x,a,o′为损失函数在o,x,a,o′条件下的期望,
Figure BDA0002987664170000052
为表示第i个智能体状态-动作函数,由于是每个智能体独立学习自己的
Figure BDA0002987664170000053
函数,o为智能体在当前时刻的观察值,y为智能体i在o,x,a,o′条件下的真实回报;
其中,
Figure BDA0002987664170000054
ri为在智能体i的历史回报值,γ为学习率,
Figure BDA0002987664170000055
为在当前时刻更新之后的状态-动作函数,x′1,...,x′n为智能体i~n的信息素,a′1,...,a′n为智能体在i~n时刻的动作行为。
本发明的有益效果为:
(1)本发明基于多智能体MADDPG算法提出了一种改进方法,用于对交通组织方案进行优化,通过对当前交通数据进行分析,找出导致交通拥堵的原因,本方法能够很好的适应和快速找出最优方案,为交警专家提供了交通辅导意见,并为智慧城市打下基础;
(2)本发明中基于蚁群算法,改进了MADDPG中的Actor网络,基于生灭过程改进了Critic网络中的经验库,使用最大熵强化学习模型模拟车辆分类,并设计了使用与交通区域流量的回报函数,使得改进后的交通组织方案优化方法能够更适应实际交通路网环境,提高交通组织方案优化的效率及准确性。
附图说明
图1为本发明提供的基于多智能体强化学习的交通组织方案优化方法流程图。
图2为本发明提供的简化路网中的智能体分布图。
图3为本发明提供的迭代次数对应的平均回报图。
图4为本发明提供的迭代次数对应的路网流量相似度图。
图5为本发明提供的1000次迭代预测的交通组织方案A图。
图6为本发明提供的1000次迭代210个路段流量对比图。
图7为本发明提供的4000次迭代预测的交通组织方案B图。
图8为本发明提供的4000次迭代210个路段流量对比图。
图9为本发明提供的8000次迭代预测的交通组织方案C图。
图10为本发明提供的8000次迭代210个路段流量对比图。
图11为本发明提供的采取1000次迭代方案流量分布可视化示意图。
图12为本发明提供的采取8000次迭代方案流量分布可视化示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于多智能体强化学习的交通组织方案优化方法,包括以下步骤:
S1、将待优化区域{S,O1,O2,...,On,A1,A2,...,An,R1,R2,...,Rn,T}分为具有完全合作关系的n个智能体;
其中,S为联合状态,O1,O2,...,On为n个智能体对应的观察值,A1,A2,...,An为n个智能体对应的行为,R1,R2,...,Rn为n个智能体对应的回报,T为状态转移函数,下标1,2,...,n为智能体的编号;
S2、初始化n个智能体的参数;
其中,智能体的参数的包括状态、信息素、经验库和噪音值;
S3、基于当前的n个智能体的参数,通过Actor网络选择一个智能体的行为,使环境根据该智能体的状态、行为及确定的回报函数给出相应的回报,进而使该智能体通过状态转移函数到达下一状态,并保留对应的信息素;
S4、将智能体到达下一状态产生的经验缓存在经验库,并计算该智能体Actor网络的损失值;
S5、重复步骤S3~S4,将每个智能体到达下一状态产生的经验缓存在经验库;
S6、重复步骤S5,直到经验库中缓存的经验达到设定值,基于当前经验库缓存的经验计算每个智能体的生灭概率;
S7、基于当前每个智能体的经验库中的经验及其对应的损失值,训练并更新智能体Actor网络的参数和权重;
S8、重复步骤S3-S7,直到达到设置的回合数或智能体连续设定次数内完成Actor网络的训练目标,得到训练好的交通组织方案优化模型;
S9、通过交通组织方案优化模型对当前交通方案进行预测,获得优化后交通组织方案。
本实施例在传统的MADDP模型的基础上进行了改进,称为XED-MADDPG算法,目的在于让多智能体强化学习算法MADDPD更加适应预测禁止专项交通组织方案,本实施例中XED-MADDPD算法在以下三个地方对优化多智能体群体协作策略:
(1)在本实施例中的XED-MADDPD算法中Actor网络使用局部观测信息法,智能体通过确定性行为策略选择行为,在多智能体训练过程中加入了信息素,该信息素会影响智能体的观测值,增加了智能体之间通信信息,因此智能体在学习的过程中可以学习更多有用的信息加快选择行为策略收敛时间,故能有效的优化Actor网络;
(2)在每回合结束时通过生灭过程计算出每个智能体的生灭概率,根据生灭概率随机淘汰一部分学习不好的经验,间接优化XED-MADDPD中的Critic网络;
(3)设计出全局回报+主成分的团队回报函数,计算团队回报的余弦相似度和智能体周围信息回报的平方差,将两者的指标综合作为智能体的回报函数,使得回报函数更加适应交通车流量控制问题。
基于上述改进,本实施例中的本实施例的步骤S1中,对于状态转移函数T,S×A1×A2×...×An×→[0,1],即给定当前状态和联合行为下智能体下一状态的概率分布;在本实施例中的待优化区域的交通环境中,n个智能体是完全合作关系。
本实施例的步骤S3中,通过Actor网络选择一个智能体的行为的公式为:
ai=μθi(Oi,xi)+Nnoise
式中,ai为Actor网络选择的智能体i的行为,Oi为Actor网络选择的智能体i的观察值,μθi为Actor网络的确定性行为策略,xi为智能体i信息素,Nnoise为噪声值;
信息素xi为:
Figure BDA0002987664170000081
所有智能体信息素汇总方式如下:
xall=λ1x12x2+,...,λnxn
Figure BDA0002987664170000082
式中,λi为xi的权重,如果智能体i在本回合内完成目标,那么信息素xi就是正反馈xi=1,反之xi=-1;每回合结束后环境中所有的信息素就会汇总,为了防止过拟合,采用下述公式对xall进行标准化;
Figure BDA0002987664170000091
具体地,多智能体的状态、行为和观测值都来源于环境,因此需要预先处理待优化区域交通路网数据,然后根据地图数据和路网数据搭建多智能体的环境并且人工校准路网环境,最后设计路网环境中多智能体的状态、行为和观测值。
对于行为A:如图2所示,智能体agenti所在路段包括智能体编号(agenti),路段坐标号(坐标i),每个智能体的行为包括允许左转、禁止左转、允许右转、禁止右转、允许调头和禁止调头。假如agenti的行为概率是(0.1,0.2,0.1,0.4,0.1,0.1),取最大概率对应的行为,即0.4表示agenti采取禁止通行、允许车辆向左转和掉头,如图2中,agent1路段上的车流只是无法向南转向agent7所在路段。
对于状态S:每个智能体的状态代表路段的通行情况,可以转向下一路口用0表示,否则为1,所有智能体的初始状态为(路段坐标,0,0,0),假设agent1没有采取任何禁止转向行为,此时agent1路段上的车流可以向北进入agent3所在路段、向南转向agent7所在路段、向西转向agent8所在路段,agent1对应的状态为(1,0,0,0),第一个数字表示智能体所在的坐标,后面三个数字表示通行情况。如果禁止向西掉头,那么状态为(1,0,0,1)。
对于观测值O:本实施例中智能体可以观察到其它智能体的状态,agenti状态为Si,观测值为(S1,S2,...,Sn)。
本实施例的步骤S3中,回报函数的方法具体为:
A1、获取待优化区域内当前交通方案中的行车轨迹数据和历史最大车流量,并对行车轨迹数据进行填补缺失处理;
A2、利用处理后的行车轨迹数据训练最大熵强化学习分流模型,作为预测下一时刻车流量变化的分流模型;
其中,最大熵强化学习分流模型的目的是当封了一些路口转向时可以模拟出下一时刻车流量的编号;
A3、当智能体采取相应行为时,经过分流模型预测分流后的车流量;
A4、将历史最大车流量和分流后的车流量之间的关系作为回报函数。
在采集数据时,如果出现污损或者没有被卡口摄像头拍到的车辆数据,车辆的轨迹在路网中就不是连续的,因此需要填补缺失的轨迹,原则是最短路径算法,因此,上述步骤A1中,对行车轨迹数据进行填补缺失处理的方法具体为:
B1、获取待优化区域内同一车牌的早高峰所有行车数据;
B2、在城市路网中匹配该车辆对应的出行轨迹;
B3、基于匹配出的出行轨迹,定位到轨迹缺失的路口,并在城市路网中以最短路径连接轨迹,完成行车轨迹数据的填补缺失处理。
本实施例中的步骤S3中的状态转移函数表征每个智能体下一时刻的状态取决于上一时刻的状态和行为;图2中的路网环境中当前状态为(1,0,0,0),假设行为概率为(1,0,0,1),状态转移函数对应的状态转移矩阵可以用三维数组表示,例如:
Figure BDA0002987664170000101
上述例子中当前状态矩阵为左边的4×4矩阵,一行表示一个智能体的张涛,中间4×3是行为矩阵,右边是下一步状态矩阵。行为矩阵第一行agent1采取禁止右转行为,那么下一步状态为(1,0,1,0),具体表示为路段1上的车辆禁止转向路段7,行为矩阵第二行agent2采取禁止掉头行为,那么下一步状态为(1,0,0,1),路段2上的车流禁止转向路段3,根据状态转移矩阵可以得到下一步所有智能体的状态。对于路网中存在三叉路或者更少的路段用1补上,表示一直不通车流。
在本实施例的步骤S4中,在一些实验环境中,智能体很难通过其它智能体的策略加速自己的训练过程,为了解决这个问题,本发明中的XED-MADDPG算法使用策略估计方式,采取自身估计的测量学习,智能体i对智能体j的策略评价用
Figure BDA0002987664170000111
表示,无需输入其他智能体的策略,而是通过最大化智能体j的行动概率对数和正则化熵更新Actor网络参数,基于此本实施例步骤S4中的智能体的损失值Lai)的计算公式为:
Figure BDA0002987664170000112
式中,
Figure BDA0002987664170000113
为策略分布的熵,α为系数,
Figure BDA0002987664170000114
智能体i对智能体j的策略评价,oj为智能体在当前时刻的观察值,也即状态值,aj为智能体在观察到oj之后的行为,xi为智能体i的信息素,
Figure BDA0002987664170000115
为智能体在oj,xi,aj联合条件下的期望。
本实施例中用θ=[θ1...θn]表示n个智能体策略参数,μ=[μ1,...,μn]表示n个智能体的策略,此时Actor网络更新梯度为:
Figure BDA0002987664170000116
在本实施例中,允许多智能体训练在每个回合结束时可以选择生或者灭,且生活灭的保留信息是不一样的;传统的算法中智能体把经验无差别的存放到自己的数据库中,这种方法并不是最优,原因是较差的数据过多,智能体很难学会目标策略,还有一部分算法给经验库总设定不同的权重,按重要程度排序,这样可以区分高质量的经验,但是考虑到智能体在开始训练的时候并没有学习好,很可能造成经验库中权重大经验一直是那几条,这样智能体旋转同样的经验进行训练很容易陷入局部最优,也容易陷入死胡同。进入死胡同的智能体最好的选择就是早点淘汰差的经验,保留优秀的经验。基于上述分析,本实施例中设计出一种优化智能体经验库的生灭概率。
在上述步骤S5中,研究生灭过程目的是提高每个智能体的经验库,减少训练Critic网络时间,每一步训练结束时,把Actor网络损失函数值设计为任务的适应度,然后统计每一回合智能体i的损失值均值:
Lai)mean=E(Lai)1+Lai)2+...+Lai)step)
式中,下标1,2,...,step为每一回合智能体的步数;
每一回合所有智能体轨迹的损失值Lall为:
Figure BDA0002987664170000121
基于此,上述步骤S5中每个智能体的生灭概率p(i)为:
Figure BDA0002987664170000122
式中,Lai)mean为每一回合中智能体i每步轨迹的损失值均值,Lall为每一回合所有智能体轨迹的损失值;
在步骤S6中,生灭概率越大,经验库中的经验淘汰的数量就越多,即每个智能体的经验库中的经验的淘汰数量与其对应的生灭概率成正比。
本实施例的步骤S7中,Actor网络的输入是(O,x),输出行为,即当前路段上的车能否转下下一路段,每个智能体都有自己的Actor网络,假设智能体有34个,每个智能体的状态都是思维的,观测器包括其他智能体的状态维度是136,智能体周围的信息素为当前路段信息素和相邻路段的信息素,维度为4,所以Actor网络的输入维度为140。中间的隐藏层是64维度,最后的输出层维度为6,使用Softmax选出最大概率的行为,选出行为后,经过分流模型模拟车流量的二分部,然后反馈出相应的回报,智能通获取奖励后继续迭代,智能体之间通过信息素和观测值交互信息,互相学习策略,最大化团队回报,为了得到较高的回报,可以用神经网络近似这个函数,在训练神经网络时最小化损失函数值,最终的24个智能体的组合就是优化后的交通组织方案。基于此,步骤S7中,对Actor网络进行训练的方法具体为:
C1、每隔M个回合,从经验库中抽取K条经验,并将其输入到智能体的Critic网络中;
C2、基于输入到Critic网络中的经验,更新Critic网络的网络参数并输出Q函数值;
C3、将Critic网络输出的Q函数值输入到对应的Actor网络中,对其进行训练并更新其参数和权重。
步骤C2中,对Critic网络进行更新的训练目标为最小化损失函数:
所述损失函数Lci)为:
Figure BDA0002987664170000131
式中,Eo,x,a,o′为损失函数在o,x,a,o′条件下的期望,
Figure BDA0002987664170000132
为表示第i个智能体状态-动作函数,由于是每个智能体独立学习自己的
Figure BDA0002987664170000133
函数,o为智能体在当前时刻的观察值,y为智能体i在o,x,a,o′条件下的真实回报;
其中,
Figure BDA0002987664170000134
ri为在智能体i的历史回报值,γ为学习率,
Figure BDA0002987664170000135
为在当前时刻更新之后的状态-动作函数,x′1,...,x′n为智能体i~n的信息素,a′1,...,a′n为智能体在i~n时刻的动作行为。在上述Actor网络训练过程中,Actor网络虽然不能获得全部的信息进行训练,但是每个Actor网络都有一个上帝视角的导师,这个导师可以观测经验库中所有的信息,并对Actor输出的行为进行打分,因此可以指导对应的Actor网络优化行为策略。Critic根据观测值、信息素、其它智能体行为,对Actor刚刚的反馈给出一个时间差分值,来决定Actor选择动作的好坏,如果时间差分值大的话,说明当前Actor选择的这个动作的偏差较高,需要更多的训练使得时间差分值减小。这个时候智能体调整Actor神经网络参数,争取下次做得更好。Critic网络根据系统给出的回报和其他评委的打分(Critic target)调整自己的打分策略。在开始探索阶段Actor网络随机采取行为,Critic网络随机打分,但是由于回报的存在,Critic评估会越来越准,智能体选取的行为也会越来越好。
Critic网络训练前,智能体一回合产生的经验要经过生灭过程淘汰部分经验(O,x,r,a,O′,done)。假设第一个智能体一回合缓存50条经验,50也表示一回合的最大步数,由生灭概率公式计算淘汰概率为0.8,概率比较高,说明该智能体这一回合学习的并不是很好,因此随机淘汰掉80%的经验,最后向经验库中更新10条经验。第34个智能体的淘汰概率为0.1,学习的效果比较好,需要保留更多的经验,因此淘汰掉10%的经验,然后更新经验库。更新完经验库后开始训练Critic网络模型,其中Critic网络的输入为{O,x1,x2,...,x34,a1,a2,...,a34)。网络的目的是最小化损失函数,每个智能体Critic网络的损失函数为:
Figure BDA0002987664170000141
实施例2:
本实施例提供了利用上述实施例1中的方法对绵阳CBD区域预测最优交通组织方案的实例:
数据准备:
确定待预测的绵阳CBD区域的所有车辆轨迹和OD,选取2019年9月2日一天早高峰7点到9点的轨迹,一天早高峰的OD数为78个,一个OD中最少轨迹条数为29,最大为509,轨迹长短也不同,最长30个,平均长度15。准备玩OD数据后训练最大熵逆强化学习车流分流模型,作为本实例算法的回报机制。
结果分析与展示:
CBD区域210个路段,其中34个路段作为重点研究对象。最优方案的评判标准是各路段历史最大流量和采取本发明交通组织方案经过最大熵逆强化学习分流模型中各个路段流量的差值,两者的差值越小代表方案越好。
图3是XED-MADDPG算法迭代次数对应的34个智能体的总的平均回报,算法在8000次迭代的时候平均回报趋于稳定且最优。图4表示每次算法迭代都会预测一种禁止转向交通组织方案,然后用最大熵逆强化学习模型模仿车辆分流,最后计算分流后的车流量矩阵和历史最大流量矩阵的相似度,相似度越高效果越好。当迭代1000次时相似度为80%,4000次的时候为83.1%,8000次的时候是85.5%。结果证明随着算法的迭代次数增加预测出的交通组织方案越来越好。
本文XED-MADDPG算法迭代1000次预测的组织方案A如图5中,路段id为25_26禁止向右转向26_36、22_27禁止转向27_26、44_43禁止转向43_41。将A方案输入到分流模型的结果如图6所示,横坐标表示路段编号,纵坐标表示路段的车流量,黄色的线是2019年中找出的早高峰历史最大流量,蓝色的线是采取A方案后车辆分流的流量分布。如图7表示算法迭代4000次预测的组织方案B,路段29_31禁止向左转向31_48、路段56_54禁止向左转向54_55,将B方案输入到分流模型的结果如图8所示。如图9表示算法迭代8000次预测的组织方案C,id为29_31的路段禁止向左转向31_48、34_35禁止转向35_55,将C方案输入到分流模型的结果如图10所示。通过图6、图8和图10可以看出交通组织方案C比较好,禁止转向的路口只有两个,而且流量矩阵相似度比较大,整体CBD区域的流量接近最大历史流量分布。本文改进的算法可以实现找出更少路段的禁止转向组合方案,更加合理的利用道路资源。
如图11是采取方案A仿真车辆分流的图,图12与如图11相比,CBD区域的拥堵情况减缓,其中警钟街和文昌路的车辆通过数变大,单位时间内过车辆数量变大,相对拥堵指数降低。

Claims (9)

1.一种基于多智能体强化学习的交通组织方案优化方法,其特征在于,包括以下步骤:
S1、将待优化区域的当前交通方案{S,O1,O2,...,On,A1,A2,...,An,R1,R2,...,Rn,T}分为具有完全合作关系的n个智能体;
其中,S为联合状态,O1,O2,...,On为n个智能体对应的观察值,A1,A2,...,An为n个智能体对应的行为,R1,R2,...,Rn为n个智能体对应的回报,T为状态转移函数,下标1,2,...,n为智能体的编号;
S2、初始化n个智能体的参数;
其中,所述智能体的参数的包括状态、信息素、经验库和噪音值;
S3、基于当前的n个智能体的参数,通过Actor网络选择一个智能体的行为,使环境根据该智能体的状态、行为及确定的回报函数给出相应的回报,进而使该智能体通过状态转移矩阵到达下一状态,并保留对应的信息素;
S4、将智能体到达下一状态产生的经验缓存在经验库,并计算该智能体Actor网络的损失值;
S5、基于步骤S3~S4,将每个智能体到达下一状态产生的经验缓存在经验库,直到经验库中缓存的经验达到设定值,基于当前经验库缓存的经验计算每个智能体的生灭概率;
S6、根据每个智能体的生灭概率随机淘汰经验库中的经验;
S7、基于当前每个智能体的经验库中的经验及其对应的损失值,训练并更新智能体Actor网络的参数和权重;
S8、重复步骤S3-S7,直到达到设置的回合数或智能体连续设定次数内完成Actor网络的训练目标,得到训练好的交通组织方案优化模型;
S9、通过交通组织方案优化模型对当前交通方案进行预测,获得优化后交通组织方案。
2.根据权利要求1所述的基于多智能体强化学习的交通组织方案优化方法,其特征在于,所述步骤S3中,通过Actor网络选择一个智能体的行为的公式为:
ai=μθi(Oi,xi)+Nnoise
式中,ai为Actor网络选择的智能体i的行为,Oi为Actor网络选择的智能体i的观察值,μθi为Actor网络的确定性行为策略,xi为智能体i信息素,Nnoise为噪声值;
所述信息素xi为:
Figure FDA0002987664160000021
所述智能体的行为包括允许左转、禁止左转、允许右转、禁止右转、允许调头和禁止调头。
3.根据权利要求1所述的基于多智能体强化学习的交通组织方案优化方法,其特征在于,所述步骤S3中,所述回报函数的方法具体为:
A1、获取待优化区域内当前交通方案中的行车轨迹数据和历史最大车流量,并对行车轨迹数据进行填补缺失处理;
A2、利用处理后的行车轨迹数据训练最大熵强化学习分流模型,作为预测下一时刻车流量变化的分流模型;
A3、当智能体采取相应行为时,经过分流模型预测分流后的车流量;
A4、将历史最大车流量和分流后的车流量之间的关系作为回报函数。
4.根据权利要求3所述的基于多智能体强化学习的交通组织方案优化方法,其特征在于,所述步骤A1中,对行车轨迹数据进行填补缺失处理的方法具体为:
B1、获取待优化区域内同一车牌的早高峰所有行车数据;
B2、在城市路网中匹配该车辆对应的出行轨迹;
B3、基于匹配出的出行轨迹,定位到轨迹缺失的路口,并在城市路网中以最短路径连接轨迹,完成行车轨迹数据的填补缺失处理。
5.根据权利要求1所述的基于多智能体强化学习的交通组织方案优化方法,其特征在于,所述步骤S3中的智能体的状态表征其对应路段的通行情况,可以转向下一路口表示为0,否则表示为1;
所述步骤S3中的状态转移矩阵表征每个智能体下一时刻的状态取决于上一时刻的状态和行为。
6.根据权利要求2所述的基于多智能体强化学习的交通组织方案优化方法,其特征在于,所述步骤S4中,智能体Actor网络的损失值Lai)的计算公式为:
Figure FDA0002987664160000031
式中,
Figure FDA0002987664160000032
为策略分布的熵,α为系数,
Figure FDA0002987664160000033
智能体i对智能体j的策略评价,oj为智能体在当前时刻的观察值,也即状态值,aj为智能体在观察到oj之后的行为,xi为智能体i的信息素,
Figure FDA0002987664160000034
为智能体在oj,xi,aj联合条件下的期望。
7.根据权利要求6所述的基于多智能体强化学习的交通组织方案优化方法,其特征在于,所述步骤S5中,每个智能体的生灭概率p(i)为:
Figure FDA0002987664160000035
式中,Lai)mean为每一回合中智能体i每步轨迹的损失值均值,Lall为每一回合所有智能体轨迹的损失值;
其中,每一回合中智能体i每步轨迹的损失值均值Lai)mean为:
Lai)mean=E(Lai)1+Lai)2+...+Lai)step)
式中,下标1,2,...,step为每一回合智能体的步数;
每一回合所有智能体轨迹的损失值Lall为:
Figure FDA0002987664160000041
所述步骤S6中,每个智能体的经验库中的经验的淘汰数量与其对应的生灭概率成正比。
8.根据权利要求7所述的基于多智能体强化学习的交通组织方案优化方法,其特征在于,所述步骤S7中,对Actor网络进行训练的方法具体为:
C1、每隔M个回合,从经验库中抽取K条经验,并将其输入到智能体的Critic网络中;
C2、基于输入到Critic网络中的经验,更新Critic网络的网络参数并输出Q函数值;
C3、将Critic网络输出的Q函数值输入到对应的Actor网络中,对其进行训练并更新其参数和权重。
9.根据权利要求8所述的基于多智能体强化学习的交通组织方案优化方法,其特征在于,所述步骤C2中,对Critic网络进行更新的训练目标为最小化损失函数:
所述损失函数Lci)为:
Figure FDA0002987664160000042
式中,Eo,x,a,o'为损失函数在o,x,a,o'条件下的期望,
Figure FDA0002987664160000043
为表示第i个智能体状态-动作函数,由于是每个智能体独立学习自己的
Figure FDA0002987664160000044
函数,o为智能体在当前时刻的观察值,y为智能体i在o,x,a,o'条件下的真实回报;
其中,
Figure FDA0002987664160000045
ri为在智能体i的历史回报值,γ为学习率,
Figure FDA0002987664160000046
为在当前时刻更新之后的状态-动作函数,x′1,...,x′n为智能体i~n的信息素,a′1,...,a′n为智能体在i~n时刻的动作行为。
CN202110305534.5A 2021-03-23 2021-03-23 一种基于多智能体强化学习的交通组织方案优化方法 Active CN112949933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110305534.5A CN112949933B (zh) 2021-03-23 2021-03-23 一种基于多智能体强化学习的交通组织方案优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110305534.5A CN112949933B (zh) 2021-03-23 2021-03-23 一种基于多智能体强化学习的交通组织方案优化方法

Publications (2)

Publication Number Publication Date
CN112949933A true CN112949933A (zh) 2021-06-11
CN112949933B CN112949933B (zh) 2022-08-02

Family

ID=76227876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110305534.5A Active CN112949933B (zh) 2021-03-23 2021-03-23 一种基于多智能体强化学习的交通组织方案优化方法

Country Status (1)

Country Link
CN (1) CN112949933B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113610013A (zh) * 2021-08-10 2021-11-05 四川易方智慧科技有限公司 基于高清遥感影像的rgb波段提取建筑物轮廓的方法
CN113628458A (zh) * 2021-08-10 2021-11-09 四川易方智慧科技有限公司 基于群体智能强化学习的交通信号灯优化方法
CN113628442A (zh) * 2021-08-06 2021-11-09 成都信息工程大学 一种基于多信号灯强化学习的交通组织方案优化方法
CN113744228A (zh) * 2021-08-27 2021-12-03 南通大学 用于大规模脑核磁分割的最大熵多阈值蚁群进化Spark方法
CN113848703A (zh) * 2021-08-28 2021-12-28 同济大学 一种多智能体系统状态估计方法
CN115018017A (zh) * 2022-08-03 2022-09-06 中国科学院自动化研究所 基于集成学习的多智能体信用分配方法、系统、设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109407644A (zh) * 2019-01-07 2019-03-01 齐鲁工业大学 一种用于制造企业多Agent协同控制方法及系统
CN110033096A (zh) * 2019-03-07 2019-07-19 北京大学 一种用于强化学习的状态数据生成方法和系统
CN111582469A (zh) * 2020-03-23 2020-08-25 成都信息工程大学 多智能体协作信息处理方法、系统、存储介质、智能终端
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN112016678A (zh) * 2019-09-23 2020-12-01 南京地平线机器人技术有限公司 用于增强学习的策略生成网络的训练方法、装置和电子设备
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112488310A (zh) * 2020-11-11 2021-03-12 厦门渊亭信息科技有限公司 一种多智能体群组协作策略自动生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109407644A (zh) * 2019-01-07 2019-03-01 齐鲁工业大学 一种用于制造企业多Agent协同控制方法及系统
CN110033096A (zh) * 2019-03-07 2019-07-19 北京大学 一种用于强化学习的状态数据生成方法和系统
CN112016678A (zh) * 2019-09-23 2020-12-01 南京地平线机器人技术有限公司 用于增强学习的策略生成网络的训练方法、装置和电子设备
CN111582469A (zh) * 2020-03-23 2020-08-25 成都信息工程大学 多智能体协作信息处理方法、系统、存储介质、智能终端
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112488310A (zh) * 2020-11-11 2021-03-12 厦门渊亭信息科技有限公司 一种多智能体群组协作策略自动生成方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LAURA GRAESSER: ""Emergent Linguistic Phenomenon in Multi-Agent Communication Games"", 《ARXIV.ORG/PDF/1901.08706V1.PDF》 *
TONG WU等: ""Multi-Agent Deep Reinforcement Learning for Urban Traffic Light Control in Vehicular Networks"", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
YING HE等: ""Blockchain-Based Edge Computing Resource Allocation in IoT:A Deep Reinforcement Learning Approach"", 《IEEE INTERNET OF THINGS JOURNAL》 *
ZHONG-LEI ZHANG: ""Multi-empirical Discriminant Multi-Agent Reinforcement Learning Algorithm Based on Intra-group Evolution"", 《2ND INTERNATIONAL SYMPOSIUM ON BIG DATA AND APPLIED STATISTICS(ISBDAS2019)》 *
邹长杰等: ""基于GAED-MADDPG 多智能体强化学习的协作策略研究"", 《计算机应用研究》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628442A (zh) * 2021-08-06 2021-11-09 成都信息工程大学 一种基于多信号灯强化学习的交通组织方案优化方法
CN113610013A (zh) * 2021-08-10 2021-11-05 四川易方智慧科技有限公司 基于高清遥感影像的rgb波段提取建筑物轮廓的方法
CN113628458A (zh) * 2021-08-10 2021-11-09 四川易方智慧科技有限公司 基于群体智能强化学习的交通信号灯优化方法
CN113744228A (zh) * 2021-08-27 2021-12-03 南通大学 用于大规模脑核磁分割的最大熵多阈值蚁群进化Spark方法
CN113744228B (zh) * 2021-08-27 2023-02-07 南通大学 用于大规模脑核磁分割的最大熵多阈值蚁群进化Spark方法
CN113848703A (zh) * 2021-08-28 2021-12-28 同济大学 一种多智能体系统状态估计方法
CN113848703B (zh) * 2021-08-28 2023-12-08 同济大学 一种多智能体系统状态估计方法
CN115018017A (zh) * 2022-08-03 2022-09-06 中国科学院自动化研究所 基于集成学习的多智能体信用分配方法、系统、设备

Also Published As

Publication number Publication date
CN112949933B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN112949933B (zh) 一种基于多智能体强化学习的交通组织方案优化方法
CN112215337B (zh) 一种基于环境注意力神经网络模型的车辆轨迹预测方法
CN106297297B (zh) 基于深度学习的交通拥堵判别方法
CN111260937B (zh) 一种基于强化学习的十字路口交通信号灯控制方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
WO2021051870A1 (zh) 基于强化学习模型的信息控制方法、装置和计算机设备
CN106205156B (zh) 一种针对部分车道车流突变的交叉口自愈合控制方法
CN112071062B (zh) 一种基于图卷积网络和图注意力网络的行车时间估计方法
CN114170789B (zh) 基于时空图神经网络的智能网联车换道决策建模方法
CN111931902A (zh) 一种生成对抗网络模型、及利用该生成对抗网络模型的车辆轨迹预测方法
CN117313931B (zh) 一种基于火灾场景下地铁站台乘客疏散时间的预测方法
CN110182217A (zh) 一种面向复杂超车场景的行驶任务复杂度量化评估方法
CN110281949A (zh) 一种自动驾驶统一分层决策方法
CN114360266A (zh) 一种网联车探测状态感知的交叉口强化学习信号控制方法
CN109726676A (zh) 自动驾驶系统的规划方法
CN113552883A (zh) 基于深度强化学习的地面无人车自主驾驶方法及系统
CN117709602B (zh) 一种基于社会价值取向的城市智能车辆拟人化决策方法
CN116596343A (zh) 一种基于深度强化学习的智能兵棋推演决策方法
CN118097989A (zh) 基于数字孪生的多智能体交通区域信控方法
CN116758767B (zh) 基于多策略强化学习的交通信号灯控制方法
CN117636651A (zh) 基于时空图神经网络强化学习的匝道合流区混合交通流控制方法
CN110390398A (zh) 在线学习方法
CN111578961A (zh) 基于领导者海豚群求解不确定条件车辆路径优化算法
Wen et al. Modeling human driver behaviors when following autonomous vehicles: An inverse reinforcement learning approach
CN116468994A (zh) 一种基于街景数据的村镇收缩模拟方法、系统和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant