CN111737826A - 一种基于增强学习的轨道交通自动仿真建模方法及装置 - Google Patents

一种基于增强学习的轨道交通自动仿真建模方法及装置 Download PDF

Info

Publication number
CN111737826A
CN111737826A CN202010690764.3A CN202010690764A CN111737826A CN 111737826 A CN111737826 A CN 111737826A CN 202010690764 A CN202010690764 A CN 202010690764A CN 111737826 A CN111737826 A CN 111737826A
Authority
CN
China
Prior art keywords
time
simulation
function
passenger
actor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010690764.3A
Other languages
English (en)
Other versions
CN111737826B (zh
Inventor
韦伟
石晶
刘岭
刘军
张波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CRSC Research and Design Institute Group Co Ltd
Original Assignee
CRSC Research and Design Institute Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CRSC Research and Design Institute Group Co Ltd filed Critical CRSC Research and Design Institute Group Co Ltd
Priority to CN202010690764.3A priority Critical patent/CN111737826B/zh
Publication of CN111737826A publication Critical patent/CN111737826A/zh
Application granted granted Critical
Publication of CN111737826B publication Critical patent/CN111737826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Train Traffic Observation, Control, And Security (AREA)

Abstract

本发明公开了一种基于增强学习的轨道交通自动仿真建模方法及装置,所述方法包括,首先,以客流作为仿真的研究对象,搭建客流仿真系统;初始化客流仿真系统在t时刻的状态为
Figure 986500DEST_PATH_IMAGE001
,其次,仿真模拟获得列车在行驶区段的断面客流量拥挤度惩罚函数和乘客t时刻选择路径动作的惩罚函数;然后,将乘客选择路径动作所得到的奖赏值作为研究对象在t时刻的回报函数;然后,执行客流仿真系统仿真训练,更新相关网络参数,然后,获取训练完成的客流仿真模型;最终,提取动作函数作为旅客的路径选择概率生成函数。根据已知的运行逻辑和参数建立仿真系统,自动的获得仿真系统中未知的参数取值,从而获得仿真模型能够准确描述真实系统。

Description

一种基于增强学习的轨道交通自动仿真建模方法及装置
技术领域
本发明属于轨道交通领域,特别涉及一种基于增强学习的轨道交通自动仿真建模方法及装置。
背景技术
现有的轨道交通领域应用的仿真建模是采用由特殊到一般的逻辑归纳方法,根据一定数量的在系统运行过程中实测、观察的物理量数据,运用统计规律、系统辨识等理论合理估计出反映系统各物理量相互制约关系的数学模型,其主要依据是来自系统的大量实测数据。当对所研究系统的内部结构和特性尚不清楚、未知部分参数时,系统内部的机理变化规律就不能确定,往往很难获取能够准确描述真实系统的仿真参数,导致仿真模型与真实系统之间存在差异,即导致仿真系统与真实系统不相匹配,难以支撑对复杂系统的深入研究分析和决策制定。
此外,既有仿真建模方法中通过专家分析或研究者主观设置方式,通常由于未充分考虑系统中的复杂的运行逻辑和状态转移过程,所考虑的因素过于片面,与实际系统之间存在差异较大。进一步,采用函数标定的方式进行仿真参数获取时,往往需要被模拟真实系统运行参数与运行指标之间关系的大量的标签数据,这在仿真建模和仿真系统研发过程中往往难以获取。
从而,如何提供一种能够充分考虑轨道交通的运行逻辑、自动获取合理仿真参数的仿真建模方法及装置越来越成为亟待解决的技术问题。
发明内容
针对上述问题,本发明提供了一种基于增强学习的轨道交通自动仿真建模方法及装置,获取的仿真模型能够准确的描述真实系统。
本发明的目的在于提供一种基于增强学习的轨道交通自动仿真建模方法,所述自动仿真建模方法包括,
以车站和客流作为仿真的研究对象,搭建客流仿真系统;
基于车站a在t时刻的客流拥挤度仿真模拟值
Figure 609783DEST_PATH_IMAGE001
、列车行驶区段b在t时刻的客流拥 挤度仿真模拟值
Figure 100002_DEST_PATH_IMAGE002
和仿真系统中列车在t时刻的发车时间间隔
Figure 323661DEST_PATH_IMAGE003
,初始化客流仿真系统 在列车运行过程中t时刻的状态为
Figure 100002_DEST_PATH_IMAGE004
,其中,a、b均为大于0的整数;
在列车运行过程中t时刻的状态
Figure 509923DEST_PATH_IMAGE005
下,确定列车行驶区段的断面客流量拥挤度的惩罚 函数和乘客在t时刻选择路径动作的惩罚函数;
将在列车运行过程中t时刻的状态
Figure 170712DEST_PATH_IMAGE005
下,乘客选择路径动作得到的奖赏值作为研究对 象在t时刻的回报函数;
执行客流仿真系统仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
基于所述客流仿真模型,提取动作函数作为旅客的路径选择概率生成函数。
进一步地,在列车运行过程中t时刻的状态
Figure 985084DEST_PATH_IMAGE005
下,列车行驶区段的断面客流量拥 挤度的惩罚函数满足:
Figure 100002_DEST_PATH_IMAGE006
其中,
Figure 214071DEST_PATH_IMAGE001
表示车站a在t时刻的客流拥挤度仿真模拟值,
Figure 12263DEST_PATH_IMAGE007
表示车站a在t时刻的客 流拥挤度的实际取值,
Figure 100002_DEST_PATH_IMAGE008
表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值,
Figure 617688DEST_PATH_IMAGE009
表 示在t时刻列车所行驶区段b的客流拥挤度实际取值,M表示列车运行过程中从t时刻至T时 刻所经过的车站数目,N表示列车运行过程中从t时刻至T时刻所经过的区段数目,t为列车 行驶区段断面流量统计的起始时刻,T表示列车行驶区段断面流量统计的结束时刻。
进一步地,在列车运行过程中t时刻的状态
Figure 100002_DEST_PATH_IMAGE010
下,确定乘客在t时刻选择路径动作 的惩罚函数满足:
Figure 100002_DEST_PATH_IMAGE011
其中,
Figure DEST_PATH_IMAGE012
表示在t时刻的状态
Figure 722785DEST_PATH_IMAGE010
下,乘客采取的路径选择动作;n表示每个OD之间具有 的路径数目,且n为大于0的整数,
Figure 981728DEST_PATH_IMAGE013
表示在t时刻的第j个OD内,乘客选择第r条路径的概 率,j表示列车在运行过程的列车OD,j为大于0的整数,且r∈n,
Figure 100002_DEST_PATH_IMAGE014
为一个极小的正实数,
Figure 267216DEST_PATH_IMAGE015
为一个极大的正实数。
进一步地,研究对象在t时刻的回报函数满足:
Figure 100002_DEST_PATH_IMAGE016
进一步地,所述执行客流仿真系统仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数之前还包括,
初始化Actor网络参数
Figure 410752DEST_PATH_IMAGE017
和Critic网络参数
Figure 100002_DEST_PATH_IMAGE018
采用参数为
Figure 465296DEST_PATH_IMAGE017
Figure 301665DEST_PATH_IMAGE019
的深度神经网络表示确定性策略
Figure 100002_DEST_PATH_IMAGE020
和动作 值函数
Figure 708070DEST_PATH_IMAGE021
基于Actor策略网络,将列车运行过程中t时刻的状态
Figure 248773DEST_PATH_IMAGE010
作为输入,更新确定性策略;
基于Critic值网络,将列车运行过程中t时刻的状态
Figure 423402DEST_PATH_IMAGE010
与乘客在t时刻选择路径动作 的惩罚函数作为输入,以获取状态动作对的值函数。
进一步地,所述自动仿真建模方法还包括设置Actor策略网络,所述Actor策略网络包括输入层、多个隐层和输出层,其中,
所述Actor策略网络的输入层设置为3个节点;
所述Actor策略网络的多个隐层激活函数采用ReLU函数;
所述Actor策略网络的输出层采用sigmoid激活函数。
进一步地,所述自动仿真建模方法还包括设置Critic值网络,所述Critic值网络包括输入层、多个隐层和输出层,其中,
所述Critic值网络的输入层设置为4个节点;
所述Critic值网络的多个隐层中的第一个隐层与最后一个隐层的激活函数采用tanh函数,第二个隐层至倒数第二个隐层的激活函数采用ReLU函数;
所述Critic值网络输出层的激活函数采用线性函数。
进一步地,所述执行客流仿真系统仿真训练,Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数包括,
将随机过程N添加到所述Actor网络参数
Figure 100002_DEST_PATH_IMAGE022
的确定性策略上;
将t时刻的状态
Figure 194787DEST_PATH_IMAGE010
、乘客在t时刻选择路径动作的惩罚函数、研究对象在t时刻的回报 函数以及t+1时刻的状态
Figure 64654DEST_PATH_IMAGE023
存储到经验池W中;
对经验池W采样,随机的选取K个状态动作对
Figure 100002_DEST_PATH_IMAGE024
,计算Critic网络当 前的动作期望回报;
基于最小化Critic网络的损失函数,更新Critic网络参数;
计算Actor策略网络的梯度,并使用梯度上升法更新Actor网络参数;
基于Critic网络参数和Actor网络参数,获取Actor和Critic目标网络的网络参数。
进一步地,所述自动仿真建模方法还包括,
将状态
Figure 674627DEST_PATH_IMAGE010
输入旅客的路径选择概率生成函数,获取旅客的路径选择概率。
本发明的另一目的在于提供一种基于增强学习的轨道交通自动仿真建模装置,所述自动仿真建模装置包括,
搭建模块,用于以车站和客流作为仿真的研究对象,搭建客流仿真系统;
状态获取模块,用于基于车站a在t时刻的客流拥挤度仿真模拟值
Figure 172604DEST_PATH_IMAGE001
、列车行驶区段 b在t时刻的客流拥挤度仿真模拟值
Figure 209830DEST_PATH_IMAGE002
和仿真系统中列车在t时刻的发车时间间隔
Figure 301414DEST_PATH_IMAGE003
, 初始化客流仿真系统在列车运行过程中t时刻的状态为
Figure 449499DEST_PATH_IMAGE025
,其中,a、 b均为大于0的整数;
惩罚函数获取模块,用于在列车运行过程中t时刻的状态
Figure 67562DEST_PATH_IMAGE010
下,确定列车行驶区段的 断面客流量拥挤度惩罚函数和乘客在t时刻选择路径动作的惩罚函数;
回报函数获取模块,用于将在列车运行过程中t时刻的状态
Figure 100002_DEST_PATH_IMAGE026
下,乘客选择路径动作 得到的奖赏值作为研究对象在t时刻的回报函数;
训练模块,用于执行客流仿真系统仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
仿真模型获取模块,基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
提取模块,用于基于所述客流仿真模型,提取动作函数作为旅客的路径选择概率生成函数。
本发明中的自动仿真方法将增强学习与仿真建模相结合,根据已知的运行逻辑和参数建立仿真系统,通过深度强化学习的确定性策略对仿真系统中的未知参数进行搜索,以降低仿真系统与真实系统之间的运行指标差异为目标,自动的获得仿真系统中未知的参数取值,从而获得能够准确描述真实系统的仿真模型。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例中的一种基于增强学习的轨道交通自动仿真建模方法流程示意图;
图2示出了本发明实施例中一种Actor策略网络的结构示意图;
图3示出了本发明实施例中一种Critic值网络的结构示意图;
图4示出了本发明实施例中的一种基于增强学习的轨道交通自动仿真建模装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例中介绍了一种基于增强学习的轨道交通自动仿真建模 方法,所述自动仿真建模方法包括,首先,以车站和客流作为仿真的研究对象,搭建客流仿 真系统;其次,基于车站a在t时刻的客流拥挤度仿真模拟值
Figure 416635DEST_PATH_IMAGE001
、列车行驶区段b在t时刻的 客流拥挤度仿真模拟值
Figure 854569DEST_PATH_IMAGE002
和仿真系统中列车在t时刻的发车时间间隔
Figure 540766DEST_PATH_IMAGE003
,初始化客流仿 真系统在列车运行过程中t时刻的状态为
Figure 278914DEST_PATH_IMAGE027
,其中,a、b均为大于0的整 数;然后,在列车运行过程中t时刻的状态
Figure 657943DEST_PATH_IMAGE005
下,确定列车行驶区段的断面客流量拥挤度惩 罚函数和乘客在t时刻选择路径动作的惩罚函数;然后,将在列车运行过程中t时刻的状态
Figure 222654DEST_PATH_IMAGE005
下,乘客选择路径动作得到的奖赏值作为研究对象在t时刻的回报函数;然后,执行客流 仿真系统仿真训练,更新Actor(行动者,一种神经网络)网络参数、Critic(评论家,一种神 经网络)网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;然后,基于 Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参 数,获取训练完成的客流仿真模型;最后,基于所述客流仿真模型,提取动作函数作为旅客 的路径选择概率生成函数。将增强学习与仿真建模相结合,根据已知的运行逻辑和参数建 立仿真系统,即,将Actor策略网络和Critic值网络、状态、动作、回报综合起来,即通过增强 学习的确定性策略对仿真系统中的未知参数进行搜索,以降低仿真系统与真实系统之间的 运行指标差异为目标,自动的获得仿真系统中未知的参数取值,从而能够获得准确描述真 实系统的仿真模型。
具体的,采用
Figure 100002_DEST_PATH_IMAGE028
表示在列车运行过程中t时刻的状态
Figure 978121DEST_PATH_IMAGE005
下,列车行驶区段的 断面客流量拥挤度的惩罚函数,其中,
Figure 39618DEST_PATH_IMAGE001
表示车站a在t时刻的客流拥挤度仿真模拟值,
Figure 589548DEST_PATH_IMAGE007
表示车站a在t时刻的客流拥挤度的实际取值,
Figure 143020DEST_PATH_IMAGE008
表示在t时刻列车所行驶区段b的客 流拥挤度仿真模拟值,
Figure 436598DEST_PATH_IMAGE009
表示在t时刻列车所行驶区段b的客流拥挤度实际取值,M表示列 车运行过程中从t时刻至T时刻所经过的车站数目,N表示列车运行过程中从t时刻至T时刻 所经过的区段数目,t为列车行驶区段断面流量统计的起始时刻,T表示列车行驶区段断面 流量统计的结束时刻,则
Figure 883760DEST_PATH_IMAGE028
满足:
Figure 339012DEST_PATH_IMAGE029
(1)
在列车运行过程中t时刻的状态
Figure 379780DEST_PATH_IMAGE005
下,确定乘客在t时刻选择路径动作的惩罚函数满 足:
Figure DEST_PATH_IMAGE030
(2)
其中,
Figure 211470DEST_PATH_IMAGE012
表示在t时刻的状态
Figure 778718DEST_PATH_IMAGE005
下,乘客采取的路径选择动作;n表示每个OD之间具有 的路径数目,且n为大于0的整数,
Figure 404871DEST_PATH_IMAGE013
表示在t时刻的第j个OD内,乘客选择第r条路径的概 率,j表示列车在运行过程的列车OD(交通起止点:Origin Destination),j为大于0的整数, 且r∈n,
Figure 932936DEST_PATH_IMAGE031
为一个极小的正实数,M为一个极大的正实数。
研究对象在t时刻的回报函数
Figure DEST_PATH_IMAGE032
为在系统状态
Figure 568316DEST_PATH_IMAGE005
下,乘客采取的路径选择动作
Figure 990070DEST_PATH_IMAGE012
得到的奖赏值,回报函数
Figure 432465DEST_PATH_IMAGE032
如公式(3)所示。
Figure 306880DEST_PATH_IMAGE033
(3)
进一步,初始化Actor网络参数
Figure DEST_PATH_IMAGE034
和Critic网络参数
Figure 11531DEST_PATH_IMAGE019
,分别使用参数为
Figure 163158DEST_PATH_IMAGE034
Figure 396693DEST_PATH_IMAGE035
的深度神经网络来表示确定性策略
Figure DEST_PATH_IMAGE036
和动作值函数
Figure 164929DEST_PATH_IMAGE021
,其中,
Figure 142112DEST_PATH_IMAGE037
和Q代表函数。
本实施例中,所述基于增强学习的轨道交通自动仿真建模方法还包括设置Actor 策略网络,用于更新确定性策略,即通过
Figure DEST_PATH_IMAGE038
这个函数求得在t时刻的状态
Figure 679404DEST_PATH_IMAGE005
下,乘客采取的路径选择动作
Figure 83840DEST_PATH_IMAGE012
。具体的,如图2所示,本发明实施例中提供了一种Actor策 略网络的结构,Actor策略网络的输入为t时刻的状态
Figure 932848DEST_PATH_IMAGE005
,即在t时刻,列车途径车站a的客 流拥挤度仿真模拟值
Figure 182563DEST_PATH_IMAGE001
、列车行驶区段b的客流拥挤度仿真模拟值
Figure 72897DEST_PATH_IMAGE002
和仿真系统中列 车的发车时间间隔
Figure 648234DEST_PATH_IMAGE003
,因此Actor策略网络的输入层有3个节点;隐层激活函数采用ReLU 函数(Rectified Linear Unit:线性整流函数),输出层采用sigmoid激活函数(神经网络的 激活函数),输出动作即为确定性策略
Figure 984538DEST_PATH_IMAGE039
。Actor策略网络结构包括多层隐层,同 时,为防止Actor策略网络在训练过程中出现过拟合或梯度消失的情况,对Actor策略网络 进行了L1正则化处理,L1正则化处理为机器学习中重要的手段,在支持向量机学习过程中, 是一种对于成本函数求解最优的过程。Actor策略网络用来更新确定性策略,对应Actor- Critic框架中的行动者,且确定性策略会根据状态
Figure 303524DEST_PATH_IMAGE005
产生在t时刻,任意出发地和目的地 之间,旅客选择各条路径的概率。
本实施例中,所述基于增强学习的轨道交通自动仿真建模方法还包括设置Critic 值网络,用来逼近状态动作的动作对值函数,具体的,如图3所示,提供了一种Critic值网络 的结构,输入包括t时刻的状态
Figure 284249DEST_PATH_IMAGE005
和在t时刻的状态
Figure 30488DEST_PATH_IMAGE005
下,乘客采取的路径选择动作
Figure 588509DEST_PATH_IMAGE012
, 状态
Figure 711185DEST_PATH_IMAGE005
包括在t时刻,列车途径车站的客流拥挤度仿真模拟值
Figure 405472DEST_PATH_IMAGE001
、列车行驶区段的客流 拥挤度仿真模拟值
Figure 197979DEST_PATH_IMAGE002
和仿真系统中列车的发车时间间隔
Figure 508874DEST_PATH_IMAGE003
,因此输入层有4个节点。 Critic值网络设置为多层,第一个隐层激活函数采用tanh函数(双曲线正切函数),第二个 隐层至倒数第二个隐层激活函数采用ReLU函数,最后一个隐层激活函数采用tanh函数,输 出层的激活函数采用线性函数,输出为状态动作对的动作值函数
Figure DEST_PATH_IMAGE040
。其中, tanh函数为双曲线正切函数,在(4)中表示。
Figure DEST_PATH_IMAGE041
(4)
动作值函数用来逼近状态动作对的值函数,通过值函数获得值能够衡量状态动作对的符合度,并提供梯度信息,对应Actor-Critic框架中的评论者。本实施例中,动作值函数,也称为Q函数,是一个神经网络,根据符合度(符合度越大越好)增加的方向,提供动作值函数神经网络参数的梯度信息,从而对其进行优化。
本实施例中,Actor策略网络和Critic值网络都是用于更新相应参数的神经网络。神经网络与仿真系统的结合,能够在先验知识不足或仅能知晓部分基本参数下建立仿真模型,不仅有效减少建模过程的工作量,也能一定程度上弥补了由于建模样本数据要求过于严苛的问题。
本实施例中,所述执行客流仿真系统仿真训练,更新Actor和Critic网络参数包括以下步骤:
步骤一、将随机过程N添加在Actor策略网络输出的动作上,以保证神经网络的探索过程,该过程如(5)所示。
Figure DEST_PATH_IMAGE042
(5)
然后,通过城市轨道交通车站客流仿真系统不断产生系统状态
Figure 576187DEST_PATH_IMAGE005
、乘客采取的路径 选择动作
Figure 390560DEST_PATH_IMAGE012
、根据系统状态
Figure 744181DEST_PATH_IMAGE005
和乘客采取的路径选择动作
Figure 276793DEST_PATH_IMAGE012
组成的回报函数
Figure 115174DEST_PATH_IMAGE043
以及乘客采取的路径选择动作
Figure 784053DEST_PATH_IMAGE012
后达到下一状态
Figure DEST_PATH_IMAGE044
,然后,
Figure 308575DEST_PATH_IMAGE005
Figure 328483DEST_PATH_IMAGE045
Figure 206441DEST_PATH_IMAGE043
以及
Figure 995405DEST_PATH_IMAGE044
四者构成状态动作对,并将其存储到经验池W中。
步骤二:对经验池W采样,随机的选取K个状态动作对
Figure DEST_PATH_IMAGE046
,通过公 式(6)计算Critic值网络当前的动作期望回报:
Figure DEST_PATH_IMAGE047
(6)
当前的动作期望回报是当前仿真状态
Figure 956408DEST_PATH_IMAGE005
下,乘客采取的路径选择动作
Figure 73400DEST_PATH_IMAGE045
下,仿真观 测值与实际观测值之间的综合符合度,
Figure DEST_PATH_IMAGE048
为当前观测值的瞬时符合度,
Figure 145261DEST_PATH_IMAGE049
为后续t+1时段观测值的符合度,
Figure DEST_PATH_IMAGE050
为折减系数。
最小化Critic值网络的损失函数
Figure DEST_PATH_IMAGE051
,实 现对Critic网络参数
Figure 195256DEST_PATH_IMAGE052
的更新。通过公式(7)计算Actor网络的梯度,并使用梯度上升法 (一个最优化算法,常用于机器学习和人工智能当中用来递归性地逼近目标函数)更新 Actor网络参数。在仿真建模过程中引入策略梯度算法并通过系统的经验回放,经验回放即 上述从经验池W采样的过程,避免了仿真系统参数通过研究者主观设置或采用简单函数关 系进行标定,与真实系统之间存在差异较大的问题,从而很大程度的提高仿真系统搭建精 度和效率。
Figure DEST_PATH_IMAGE053
(7)
步骤三:重复步骤一和步骤二,根据公式(8)更新Critic和Actor目标网络的网络参数,
Figure DEST_PATH_IMAGE054
(8)
其中,
Figure 327160DEST_PATH_IMAGE055
分别为Target-Critic网络(Critic目标网 络)、Critic网络、Target-Actor网络(Actor目标网络)以及Actor网络的网络参数,且
Figure DEST_PATH_IMAGE056
Figure 695563DEST_PATH_IMAGE055
还代表的都是神经网络的参数集合。在网络 参数更新过程中,Actor网络的是逐步依次迭代的,每隔一定步数,会将Actor网络参数赋给 Target-Actor网络,这样保证Target-Actor相对稳定且波动性较小,使得仿真过程更加的 稳定,同理,Critic网络与Target-Critic网络的关系类似。
基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,最终获取客流仿真系统基于增强学习训练好的仿真模型,即获得训练完成的确定性策略和动作值函数,确定性策略和动作值函数均为一种神经网络,训练完成的确定性策略和动作值函数,可以在客流仿真系统仿真过程中用于实时产生仿真参数,进而就得到了较为准确的仿真模型。如下过程是城市轨道交通客流仿真系统的训练过程。
城市轨道交通客流仿真计算过程:
初始化Critic网络和Actor网络参数:
Figure DEST_PATH_IMAGE057
Figure DEST_PATH_IMAGE058
初始化Critic和Actor网络的目标网络,直接复制参数:
Figure DEST_PATH_IMAGE059
初始化经验池W
1 For episode = 1,…,M do:
2 初始化随机过程N
3 获取城市轨道交通车站客流仿真的初始状态
Figure DEST_PATH_IMAGE060
4 For t=1,…,T do:
5 根据当前策略和随机噪声,选择动作:
Figure 712060DEST_PATH_IMAGE061
6 执行动作
Figure DEST_PATH_IMAGE062
,获得奖励
Figure 741196DEST_PATH_IMAGE063
和下一个状态
Figure DEST_PATH_IMAGE064
7 将状态动作对
Figure DEST_PATH_IMAGE065
存储到经验池W中
8 从经验池中随机采样K个状态动作对
Figure 919368DEST_PATH_IMAGE065
9 计算Critic网络的“标签值”:
Figure 401165DEST_PATH_IMAGE066
10 计算Critic网络的误差:
Figure DEST_PATH_IMAGE067
,并使梯度下降法(一个最优化算法, 常用于机器学习和人工智能当中用来递归性地逼近最小偏差模型)更新Critic网络参数
11 计算Actor网络的梯度,并使用梯度上升法更新Actor网络参数:
Figure 549249DEST_PATH_IMAGE068
12 更新Critic和Actor网络目标的参数:
Figure DEST_PATH_IMAGE069
13 End for
14 End for
提取仿真模型中的动作函数
Figure 308258DEST_PATH_IMAGE070
,作为仿真参数生成函数,在特定仿真系统 状态下,将状态
Figure DEST_PATH_IMAGE071
输入仿真参数生成函数
Figure 781964DEST_PATH_IMAGE072
,即可得到t时刻的仿真系统下旅客 的路径选择概率。
旅客选择各条路径的概率确定后,会在仿真模型模拟行人出行,乘客去到具体的 路径上,就会改变路径上车站和区段的流量,这时候将这些流量与已知的实际的流量进行 对比,误差越小表明路径选择函数与实际情况越贴近,从而就有一个滞后的奖励,这个滞后 的奖励会使得模型不断调整参数,得到任意情况下产生出行路径概率(也就是
Figure DEST_PATH_IMAGE073
)的函数
Figure 142537DEST_PATH_IMAGE074
,这个
Figure 563154DEST_PATH_IMAGE074
就能够反应任意情况下旅客的路径选择规律,进而得到一个与实际相贴合且合 理的仿真模型,从而基于增强学习与仿真建模相结合,根据已知的运行逻辑和参数建立仿 真系统,通过增强学习的确定性策略对仿真系统中的未知参数进行搜索,以降低仿真系统 与真实系统之间的运行指标差异为目标,自动的获得仿真系统中未知的参数取值,从而获 得能够准确描述真实系统的仿真模型。
如图4所示,本发明实施例中还公开了一种基于增强学习的轨道交通自动仿真建 模装置,用于执行上述所述方法,所述自动仿真建模装置包括,搭建模块,用于以车站和客 流作为仿真的研究对象,搭建客流仿真系统;状态获取模块,用于基于车站a在t时刻的客流 拥挤度仿真模拟值
Figure 301303DEST_PATH_IMAGE001
、列车行驶区段b在t时刻的客流拥挤度仿真模拟值
Figure 414752DEST_PATH_IMAGE002
和仿真系 统中列车在t时刻的发车时间间隔
Figure 480928DEST_PATH_IMAGE003
,初始化客流仿真系统在列车运行过程中t时刻的状 态为
Figure DEST_PATH_IMAGE075
,其中,a、b均为大于0的整数;惩罚函数获取模块,用于在列 车运行过程中t时刻的状态
Figure 970816DEST_PATH_IMAGE005
下,确定列车行驶区段的断面客流量拥挤度惩罚函数和乘客 在t时刻选择路径动作的惩罚函数;回报函数获取模块,用于将在列车运行过程中t时刻的 状态
Figure 563471DEST_PATH_IMAGE005
下,乘客选择路径动作得到的奖赏值作为研究对象在t时刻的回报函数;训练模块, 用于执行客流仿真系统仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的 网络参数和Critic目标网络的网络参数;仿真模型获取模块,基于Actor网络参数、Critic 网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流 仿真模型;提取模块,用于基于所述客流仿真模型,提取动作函数作为旅客的路径选择概率 生成函数。
在列车运行过程中t时刻的状态
Figure 113401DEST_PATH_IMAGE010
下,列车行驶区段的断面客流量拥挤度的惩罚 函数满足:
Figure 666873DEST_PATH_IMAGE029
其中,
Figure DEST_PATH_IMAGE076
表示车站a在t时刻的客流拥挤度仿真模拟值,
Figure 960451DEST_PATH_IMAGE007
表示车站a在t时刻的客 流拥挤度的实际取值,
Figure 142034DEST_PATH_IMAGE008
表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值,
Figure 862865DEST_PATH_IMAGE009
表 示在t时刻列车所行驶区段b的客流拥挤度实际取值,M表示列车运行过程中从t时刻至T时 刻所经过的车站数目,N表示列车运行过程中从t时刻至T时刻所经过的区段数目,t为列车 行驶区段断面流量统计的起始时刻,T表示列车行驶区段断面流量统计的结束时刻。
在列车运行过程中t时刻的状态
Figure 903634DEST_PATH_IMAGE010
下,确定乘客在t时刻选择路径动作的惩罚函 数满足:
Figure 735323DEST_PATH_IMAGE077
其中,
Figure DEST_PATH_IMAGE078
表示在t时刻的状态
Figure 302571DEST_PATH_IMAGE079
下,乘客采取的路径选择动作;n表示每个OD之间具 有的路径数目,且n为大于0的整数,
Figure DEST_PATH_IMAGE080
表示在t时刻的第j个OD内,乘客选择第r条路径的 概率,j表示列车在运行过程的列车OD,j为大于0的整数,且r∈n,
Figure 568205DEST_PATH_IMAGE081
为一个极小的正实数, M为一个极大的正实数。
研究对象在t时刻的回报函数满足:
Figure DEST_PATH_IMAGE082
所述训练模块还用于初始化Actor网络参数
Figure 486482DEST_PATH_IMAGE083
和Critic网络参数
Figure DEST_PATH_IMAGE084
采用参数为
Figure 997229DEST_PATH_IMAGE083
Figure 418983DEST_PATH_IMAGE084
的深度神经网络表示确定性策略
Figure 481617DEST_PATH_IMAGE020
和动作值 函数
Figure 356032DEST_PATH_IMAGE021
基于Actor策略网络,将列车运行过程中t时刻的状态
Figure 529525DEST_PATH_IMAGE079
作为输入,更新确定性策略;
基于Critic值网络,将列车运行过程中t时刻的状态
Figure 681152DEST_PATH_IMAGE079
与乘客在t时刻选择路径动作 的惩罚函数作为输入,以获取状态动作对的值函数。
所述自动仿真建模装置还包括网络设置模块,用于设置Actor策略网络,所述Actor策略网络包括输入层、多个隐层和输出层,其中,
所述Actor策略网络的输入层设置为3个节点;
所述Actor策略网络的多个隐层激活函数采用ReLU函数;
所述Actor策略网络的输出层采用sigmoid激活函数。
所述网络设置模块还用于设置Critic值网络,所述Critic值网络包括输入层、多个隐层和输出层,其中,
所述Critic值网络的输入层设置为4个节点;
所述Critic值网络的多个隐层中的第一个隐层与最后一个隐层的激活函数采用tanh函数,第二个隐层至倒数第二个隐层的激活函数采用ReLU函数;
所述Critic值网络输出层的激活函数采用线性函数。
所述训练模块还用于,
将随机过程N添加到所述Actor网络参数
Figure 914687DEST_PATH_IMAGE085
的确定性策略上;
将t时刻的状态
Figure 276398DEST_PATH_IMAGE079
、乘客在t时刻选择路径动作的惩罚函数、研究对象在t时刻的回报 函数以及t+1时刻的状态
Figure DEST_PATH_IMAGE086
存储到经验池W中;
对经验池W采样,随机的选取K个状态动作对
Figure 128947DEST_PATH_IMAGE087
,计算Critic网络当 前的动作期望回报;
基于最小化Critic网络的损失函数,更新Critic网络参数;
计算Actor策略网络的梯度,并使用梯度上升法更新Actor网络参数;
基于Critic网络参数和Actor网络参数,获取Actor和Critic目标网络的网络参数。
所述自动仿真建模装置还包括生成模块,用于将状态
Figure 259715DEST_PATH_IMAGE079
输入旅客的路径选择概 率生成函数,获取旅客在时间t的路径选择概率。
将增强学习与仿真建模相结合,根据已知的运行逻辑和参数建立仿真系统,通过增强学习的确定性策略对仿真系统中的未知参数进行搜索,以降低仿真系统与真实系统之间的运行指标差异为目标,自动的获得仿真系统中未知的参数取值,从而获得能够准确描述真实系统的仿真模型。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述自动仿真建模方法包括,
以车站和客流作为仿真的研究对象,搭建客流仿真系统;
基于车站a在t时刻的客流拥挤度仿真模拟值
Figure DEST_PATH_IMAGE001
、列车行驶区段b在t时刻的客流拥挤 度仿真模拟值
Figure DEST_PATH_IMAGE002
和仿真系统中列车在t时刻的发车时间间隔
Figure DEST_PATH_IMAGE003
,初始化客流仿真系统在 列车运行过程中t时刻的状态为
Figure DEST_PATH_IMAGE004
,其中,a、b均为大于0的整数;
在列车运行过程中t时刻的状态
Figure DEST_PATH_IMAGE005
下,确定列车行驶区段的断面客流量拥挤度的惩罚 函数和乘客在t时刻选择路径动作的惩罚函数;
将在列车运行过程中t时刻的状态
Figure 676984DEST_PATH_IMAGE005
下,乘客选择路径动作得到的奖赏值作为研究对 象在t时刻的回报函数;
执行客流仿真系统仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
基于所述客流仿真模型,提取动作函数作为旅客的路径选择概率生成函数。
2.根据权利要求1所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,在 列车运行过程中t时刻的状态
Figure 525991DEST_PATH_IMAGE005
下,列车行驶区段的断面客流量拥挤度的惩罚函数满足:
Figure DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE007
表示车站a在t时刻的客流拥挤度仿真模拟值,
Figure DEST_PATH_IMAGE008
表示车站a在t时刻的客 流拥挤度的实际取值,
Figure DEST_PATH_IMAGE009
表示在t时刻列车所行驶区段b的客流拥挤度仿真模拟值,
Figure DEST_PATH_IMAGE010
表 示在t时刻列车所行驶区段b的客流拥挤度实际取值,M表示列车运行过程中从t时刻至T时 刻所经过的车站数目,N表示列车运行过程中从t时刻至T时刻所经过的区段数目,t为列车 行驶区段断面流量统计的起始时刻,T表示列车行驶区段断面流量统计的结束时刻。
3.根据权利要求2所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,在 列车运行过程中t时刻的状态
Figure DEST_PATH_IMAGE011
下,确定乘客在t时刻选择路径动作的惩罚函数满足:
Figure DEST_PATH_IMAGE013
其中,
Figure DEST_PATH_IMAGE014
表示在t时刻的状态
Figure 792018DEST_PATH_IMAGE011
下,乘客采取的路径选择动作;n表示每个OD之间具有 的路径数目,且n为大于0的整数,
Figure DEST_PATH_IMAGE015
表示在t时刻的第j个OD内,乘客选择第r条路径的概 率,j表示列车在运行过程的列车OD,j为大于0的整数,且r∈n,
Figure DEST_PATH_IMAGE016
为一个极小的正实数,
Figure DEST_PATH_IMAGE017
为一个极大的正实数。
4.根据权利要求3所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,研究对象在t时刻的回报函数满足:
Figure DEST_PATH_IMAGE018
5.根据权利要求3所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述执行客流仿真系统仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数之前还包括,
初始化Actor网络参数
Figure DEST_PATH_IMAGE019
和Critic网络参数
Figure DEST_PATH_IMAGE020
采用参数为
Figure 744669DEST_PATH_IMAGE019
Figure 54427DEST_PATH_IMAGE020
的深度神经网络表示确定性策略
Figure DEST_PATH_IMAGE021
和动作值 函数
Figure DEST_PATH_IMAGE022
基于Actor策略网络,将列车运行过程中t时刻的状态
Figure 797255DEST_PATH_IMAGE011
作为输入,更新确定性策略;
基于Critic值网络,将列车运行过程中t时刻的状态
Figure 116241DEST_PATH_IMAGE011
与乘客在t时刻选择路径动作 的惩罚函数作为输入,以获取状态动作对的值函数。
6.根据权利要求5所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述自动仿真建模方法还包括设置Actor策略网络,所述Actor策略网络包括输入层、多个隐层和输出层,其中,
所述Actor策略网络的输入层设置为3个节点;
所述Actor策略网络的多个隐层激活函数采用ReLU函数;
所述Actor策略网络的输出层采用sigmoid激活函数。
7.根据权利要求6所述的轨道交通自动仿真建模方法,其特征在于,所述自动仿真建模方法还包括设置Critic值网络,所述Critic值网络包括输入层、多个隐层和输出层,其中,
所述Critic值网络的输入层设置为4个节点;
所述Critic值网络的多个隐层中的第一个隐层与最后一个隐层的激活函数采用tanh函数,第二个隐层至倒数第二个隐层的激活函数采用ReLU函数;
所述Critic值网络输出层的激活函数采用线性函数。
8.根据权利要求5-7任一所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述执行客流仿真系统仿真训练,Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数包括,
将随机过程N添加到所述Actor网络参数
Figure DEST_PATH_IMAGE023
的确定性策略上;
将t时刻的状态
Figure 362546DEST_PATH_IMAGE011
、乘客在t时刻选择路径动作的惩罚函数、研究对象在t时刻的回报 函数以及t+1时刻的状态
Figure DEST_PATH_IMAGE024
存储到经验池W中;
对经验池W采样,随机的选取K个状态动作对
Figure 374364DEST_PATH_IMAGE025
,计算Critic网络当 前的动作期望回报;
基于最小化Critic网络的损失函数,更新Critic网络参数;
计算Actor策略网络的梯度,并使用梯度上升法更新Actor网络参数;
基于Critic网络参数和Actor网络参数,获取Actor和Critic目标网络的网络参数。
9.根据权利要求1-6任一所述的基于增强学习的轨道交通自动仿真建模方法,其特征在于,所述自动仿真建模方法还包括,
将状态
Figure 932385DEST_PATH_IMAGE011
输入旅客的路径选择概率生成函数,获取旅客的路径选择概率。
10.一种基于增强学习的轨道交通自动仿真建模装置,其特征在于,所述自动仿真建模装置包括,
搭建模块,用于以车站和客流作为仿真的研究对象,搭建客流仿真系统;
状态获取模块,用于基于车站a在t时刻的客流拥挤度仿真模拟值
Figure 789482DEST_PATH_IMAGE007
、列车行驶区段b 在t时刻的客流拥挤度仿真模拟值
Figure DEST_PATH_IMAGE026
和仿真系统中列车在t时刻的发车时间间隔
Figure 890293DEST_PATH_IMAGE027
,初 始化客流仿真系统在列车运行过程中t时刻的状态为
Figure DEST_PATH_IMAGE028
,其中,a、b 均为大于0的整数;
惩罚函数获取模块,用于在列车运行过程中t时刻的状态
Figure 73013DEST_PATH_IMAGE011
下,确定列车行驶区段的 断面客流量拥挤度惩罚函数和乘客在t时刻选择路径动作的惩罚函数;
回报函数获取模块,用于将在列车运行过程中t时刻的状态
Figure 757810DEST_PATH_IMAGE011
下,乘客选择路径动作 得到的奖赏值作为研究对象在t时刻的回报函数;
训练模块,用于执行客流仿真系统仿真训练,更新Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数;
仿真模型获取模块,基于Actor网络参数、Critic网络参数、Actor目标网络的网络参数和Critic目标网络的网络参数,获取训练完成的客流仿真模型;
提取模块,用于基于所述客流仿真模型,提取动作函数作为旅客的路径选择概率生成函数。
CN202010690764.3A 2020-07-17 2020-07-17 一种基于增强学习的轨道交通自动仿真建模方法及装置 Active CN111737826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010690764.3A CN111737826B (zh) 2020-07-17 2020-07-17 一种基于增强学习的轨道交通自动仿真建模方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010690764.3A CN111737826B (zh) 2020-07-17 2020-07-17 一种基于增强学习的轨道交通自动仿真建模方法及装置

Publications (2)

Publication Number Publication Date
CN111737826A true CN111737826A (zh) 2020-10-02
CN111737826B CN111737826B (zh) 2020-11-24

Family

ID=72654809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010690764.3A Active CN111737826B (zh) 2020-07-17 2020-07-17 一种基于增强学习的轨道交通自动仿真建模方法及装置

Country Status (1)

Country Link
CN (1) CN111737826B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112906291A (zh) * 2021-01-25 2021-06-04 武汉纺织大学 一种基于神经网络的建模方法及装置
WO2022121510A1 (zh) * 2020-12-11 2022-06-16 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428117A (zh) * 2019-08-15 2019-11-08 北京交通大学 城市轨道交通多场景下客流精准诱导方法及系统
CN111376954A (zh) * 2020-06-01 2020-07-07 北京全路通信信号研究设计院集团有限公司 一种列车自主调度方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428117A (zh) * 2019-08-15 2019-11-08 北京交通大学 城市轨道交通多场景下客流精准诱导方法及系统
CN111376954A (zh) * 2020-06-01 2020-07-07 北京全路通信信号研究设计院集团有限公司 一种列车自主调度方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A. BRETAS ET AL.: "Modelling railway traffic management through multi-agent systems and reinforcement learning", 《23RD INTERNATIONAL CONGRESS ON MODELLING AND SIMULATION, CANBERRA, ACT》 *
LONG GAO,LIMIN JIA: "Modeling and Simulation of Passenger Flow Distribution in Urban Rail Transit Hub Platform", 《WWW.PREPRINTS.ORG》 *
YAFEI LIU ET AL.: "An Intelligent train regulation algorithm for metro using deep reinforcement learning", 《2018 21ST INTERNATIONAL CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS (ITSC)》 *
YANBO PANG ET AL.: "Development of people mass movement simulation framework based on reinforcement learning", 《TRANSPORTATION RESEARCH PART C》 *
ZHIBIN JIANG ET AL.: "Reinforcement learning approach for coordinated passenger inflow control of urban rail transit in peak hours", 《TRANSPORTATION RESEARCH PART C》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289044A (zh) * 2020-11-02 2021-01-29 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
CN112289044B (zh) * 2020-11-02 2021-09-07 南京信息工程大学 基于深度强化学习的高速公路道路协同控制系统及方法
WO2022121510A1 (zh) * 2020-12-11 2022-06-16 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN112906291A (zh) * 2021-01-25 2021-06-04 武汉纺织大学 一种基于神经网络的建模方法及装置
CN112906291B (zh) * 2021-01-25 2023-05-19 武汉纺织大学 一种基于神经网络的建模方法及装置

Also Published As

Publication number Publication date
CN111737826B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111737826B (zh) 一种基于增强学习的轨道交通自动仿真建模方法及装置
CN109754605B (zh) 一种基于注意力时态图卷积网络的交通预测方法
CN108197739B (zh) 一种城市轨道交通乘客流量预测方法
WO2022083624A1 (zh) 一种模型的获取方法及设备
CN108446470B (zh) 基于车辆轨迹数据和人口分布的医疗设施可达性分析方法
CN108594858B (zh) 马尔科夫运动目标的无人机搜索方法及装置
CN107103754A (zh) 一种道路交通状况预测方法及系统
CN110837602A (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN111667693B (zh) 用于确定预计到达时间的方法、装置、设备及介质
CN112101676B (zh) 一种乘车路径规划方法、装置、计算机设备及存储介质
CN113762595A (zh) 通行时间预测模型训练方法、通行时间预测方法及设备
WO2022163003A1 (ja) モデル生成装置、推定装置、モデル生成方法、及びモデル生成プログラム
CN109472030A (zh) 一种系统回复质量的评价方法及装置
CN115659966A (zh) 基于动态异构图和多级注意力的谣言检测方法及系统
CN114969234A (zh) 一种面向全量城市路网的向量表征方法
CN116662815B (zh) 时间预测模型的训练方法以及相关设备
CN111507499B (zh) 预测用模型的构建方法、测试方法、装置及系统
CN111160594B (zh) 一种到达时间的预估方法、装置及存储介质
CN116451867A (zh) 一种基于时空出行路径标定的地铁短时客流预测方法
CN110008571A (zh) 一种城市轨道交通工程投资计算方法及系统
CN114937506A (zh) 一种面向疫情防控的公交车在途强化学习速度控制方法
CN115906831A (zh) 基于距离感知的Transformer视觉语言导航算法
CN114372627A (zh) 基于混合深度学习框架的城市车辆旅行时间估计方法
CN116070714B (zh) 基于联邦学习和神经架构搜索的云边协同训练方法及系统
Li et al. Ridesplitting demand prediction via spatiotemporal multi-graph convolutional network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant