CN112529294B - 个体随机出行目的地预测模型的训练方法、介质和设备 - Google Patents

个体随机出行目的地预测模型的训练方法、介质和设备 Download PDF

Info

Publication number
CN112529294B
CN112529294B CN202011447063.3A CN202011447063A CN112529294B CN 112529294 B CN112529294 B CN 112529294B CN 202011447063 A CN202011447063 A CN 202011447063A CN 112529294 B CN112529294 B CN 112529294B
Authority
CN
China
Prior art keywords
characteristic data
individual
data
travel
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011447063.3A
Other languages
English (en)
Other versions
CN112529294A (zh
Inventor
张刘涛
赵娟娟
叶洁瑕
须成忠
王洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN202011447063.3A priority Critical patent/CN112529294B/zh
Publication of CN112529294A publication Critical patent/CN112529294A/zh
Application granted granted Critical
Publication of CN112529294B publication Critical patent/CN112529294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开一种个体随机出行目的地预测模型的训练方法、存储介质和设备。训练方法包括:获取待预测出行个体所在站点的个体历史出行特征数据和群体历史出行特征数据以及全局站点静态特征数据;将获取的全局站点静态特征数据输入到特征转换网络,得到区域转换特征数据;将个体历史出行特征数据、群体历史出行特征数据和区域转换特征数据输入到目的地预测网络,得到目的站点预测数据;根据目的站点预测数据以及获取的目的站点真实数据更新损失函数;根据更新后的损失函数对特征转换网络和目的地预测网络的权重参数进行更新。在个体历史出行数据不足的情况下,通过上述训练方法,可实现有效训练,提高了模型对随机出行的预测准确率。

Description

个体随机出行目的地预测模型的训练方法、介质和设备
技术领域
本发明属于时空数据挖掘技术领域,具体地讲,涉及个体随机出行目的地预测模型的训练方法、计算机可读存储介质、计算机设备。
背景技术
近年来,大量的基于位置的应用,如线路定制、导航业务、服务推荐等得到了广泛的关注,而准确预测出行对象的出行目的地有助于优化交通资源配置和提高用户应用体验等。随着通信技术的发展和人类位置定位设备(例如手机,手表等)的普及,我们可以收集到出行对象相对长时间的轨迹数据。这些数据为我们对出行对象位置或者目的地的预测提供了新的机会。
现有的方法通过从个体出行对象的历史轨迹中提取其频繁的出行模式,使用统计方法预测用户的移动,包括:(1)基于用户的地点序列模式,反映了位置的共现性。例如乘客从A点出发会去往B点,因为A-B序列出现频繁。(2)基于对象的时空序列模式,反映考虑时间信息的地点的共现性。例如Alice倾向于在一天的下午6:00从地点A前往地点B。(3)结合区域语义的目的地预测,例如结合POI(Point of Information)的特征,提取各个细粒度位置的语义特征,反映出行对象在某个时间访问和离开某个位置的原因。例如,布鲁斯总是在中午离开工作场所A后去B点吃饭。
现有出行对象目的地预测方法主要基于出行对象的历史轨迹(GPS轨迹、乘坐公共交通工具刷卡记录、高速公路收费口记录等),通过使用基于统计方法学习个体对象在不同地点之间的转移的概率,其先决条件是个体对象拥有足够多的历史信息可以反映其出行模式,这对于历史出行信息不足的乘客,以及对个体乘客不规律的出行的目的地很难做出有效预测。
发明内容
(一)本发明所要解决的技术问题
如何在个体历史出行轨迹数据有限的情况下,如何对预测网络进行有效训练,以提高预测网络的预测准确率。
(二)本发明所采用的技术方案
一种个体随机出行目的地预测模型的训练方法,待训练的预测模型包括特征转换网络和目的地预测网络,所述训练方法包括:
获取待预测出行个体所在站点的个体历史出行特征数据和群体历史出行特征数据以及全局站点静态特征数据;
将获取的全局站点静态特征数据输入到所述特征转换网络,得到区域转换特征数据;
将所述个体历史出行特征数据、所述群体历史出行特征数据和所述区域转换特征数据输入到所述目的地预测网络,得到目的站点预测数据;
根据所述目的站点预测数据以及获取的目的站点真实数据更新损失函数;
根据更新后的损失函数对所述特征转换网络和所述目的地预测网络的权重参数进行更新。
优选地,获取全局站点静态特征数据的方法包括:
获取全局站点的出行时间特征数据和全局站点的出行需求特征数据;
将全局站点的所述出行时间特征数据和所述出行需求特征数据拼接形成全局站点静态特征数据。
优选地,获取全局站点的出行时间特征数据的方法包括:
获取待预测个体所在地区的交通网络图,根据交通网络图计算站点之间的一阶关联特征数据和二阶关联特征数据;
将所述一阶关联特征数据和所述二阶关联特征数据拼接形成出行时间特征数据。
优选地,获取全局站点的出行需求特征数据的方法为:获取全局站点的历史出行数据,将历史出行数据输入到潜在狄利克雷分配模型中,获得全局站点的出行需求特征数据。
优选地,将获取的全局站点静态特征数据输入到所述特征转换网络,得到区域转换特征数据的具体方法为:
从所述全局站点静态特征数据获取起始站点的多角度特征向量和目的站点的多角度特征向量;
根据待训练的转换矩阵、所述起始站点的多角度表示向量和所述目的站点的多角度表示向量计算得到区域转换特征数据。
优选地,将所述个体历史出行特征数据、所述群体历史出行特征数据和所述区域转换特征数据输入到所述目的地预测网络,得到目的站点预测数据的具体方法为:
根据待预测出行个体的起始信息,从所述个体历史出行特征数据中获取目的站点个体原始流量特征;
根据待预测出行个体的起始信息,从所述群体历史出行特征数据中获取目的站点的群体原始流量特征;
将所述目的站点个体原始流量特征、所述目的站点的群体原始流量特征和所述区域转换特征数据合并形成目的站点多角度关联特征;
将所述目的站点多角度关联特征输入到所述目的地预测网络,得到目的站点预测数据。
优选地,所述目的站点预测网络包括依次连接的多通道卷积层、单通道卷积层和SoftMax层,将所述目的站点多角度关联特征输入到所述目的地预测网络,得到目的站点预测数据的方法为:
将所述目的站点多角度关联特征输入到所述多通道卷积层,得到目的站点多维度聚合特征;
将所述目的站点多维度聚合特征输入到所述单通道卷积层,得到聚合特征向量;
将所述聚合特征向量输入到SoftMax层,得到目的站点的概率分布向量。
本发明还公开了一种个体随机出行目的地的预测方法,所述预测方法包括:
获取待预测出行个体的起始信息、待预测出行个体所在站点的群体历史出行特征数据以及根据上述的训练方法训练得到的个体随机出行目的地预测模型;
利用训练完成的特征转换网络从全局站点静态特征数据中获取得到区域转换特征数据;
待预测出行个体的起始信息、所述群体历史出行特征数据和所述区域转换特征数据起始信息输入至训练完成的目的地预测网络,预测得到待预测出行个体的目的地。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有个体随机出行目的地预测模型的训练程序,所述个体随机出行目的地预测模型的训练程序被处理器执行时实现上述的个体随机出行目的地预测模型的训练方法。
本发明还公开了一种计算机设备,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的个体随机出行目的地预测模型的训练程序,所述个体随机出行目的地预测模型的训练程序被处理器执行时实现上述的个体随机出行目的地预测模型的训练方法。
(三)有益效果
本发明公开了一种个体随机出行目的地预测模型的训练方法,相对于传统的训练方法,具有如下技术效果:
在个体历史出行数据不足的情况下,将个体历史出行数据、群体历史出行数据和站点静态特征数据共同对模型进行训练,可实现有效训练,提高了模型对随机出行的预测准确率。
附图说明
图1为本发明的实施例一的个体随机出行目的地预测模型的训练方法的流程图;
图2为本发明的实施例一的全局站点静态特征数据获取过程示意图;
图3为本发明的实施例的个体随机出行目的地预测模型的整体架构图;
图4为本发明的实施例二的个体随机出行目的地预测方法流程图;
图5为本发明的实施例的计算机设备原理框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在详细描述本申请的各个实施例之前,首先简单描述本申请的发明构思:现有技术中,要求具有足够多的历史出行数据,才足以学习到个体出行规律,当个体历史出行数据不足时,很难有效预测个体随机出行的目的地。本申请通过将个体历史出行特征数据和群体历史出行特征数据以及全局站点静态特征数据作为整体模型的输入,实现对模型进行有效训练,弥补了个体出行数据的不足,从而提高模型对个体随机出行目的地的预测准确性。
具体地,本实施例一的待训练的预测模型包括特征转换网络和目的地预测网络,如图1所示,本实施例一的个体随机出行目的地预测模型的训练方法包括如下步骤:
步骤S10:获取待预测出行个体所在站点的个体历史出行特征数据和群体历史出行特征数据以及全局站点静态特征数据。
步骤S20:将获取的全局站点静态特征数据输入到所述特征转换网络,得到区域转换特征数据。
步骤S30:将所述个体历史出行特征数据、所述群体历史出行特征数据和所述区域转换特征数据输入到所述目的地预测网络,得到目的站点预测数据。
步骤S40:根据所述目的站点预测数据以及获取的目的站点真实数据更新损失函数。
步骤S50:根据更新后的损失函数对所述特征转换网络和所述目的地预测网络的权重参数进行更新。
作为优选方式,本实施例一以地铁系统为例,可表示为S={s1,s2…ss},使用了地铁收费系统收集到乘客在地铁网络出行中在进站和出站时的刷卡交易数据,每条交易记录包括四个字段,即:id、station、time、type,其中id是智能交通卡或者个体乘客的唯一标识;station是交通站点的标识;time是交易(刷卡)时间,type是交易类型(进、出站)。同一乘客连续两次进站和出站记录组成乘客一次完整的出行。我们使用
Figure BDA0002825180390000061
来表示乘客的一次完整出行,其分别对应表示乘客k,起始站点,起始时间,目的站点,结束时间。
具体地讲,在步骤S10中,如图2所示,获取全局站点静态特征数据的方法包括:获取全局站点的出行时间特征数据和全局站点的出行需求特征数据;将全局站点的所述出行时间特征数据和所述出行需求特征数据拼接形成全局站点静态特征数据。其中,出行时间特征数据用于反映站点偏远特征,出行需求特征数据用于反映站点功能区特征,为了学习得到各个站点的静态特征,构建两类关系网络:用于反映站点偏远特征的时间可达性网络和反映节点功能区特征的出行需求网络。网络的节点为各个站点,权重分别用站点之间的时间花费特征和出行量特征。
进一步地,取全局站点的出行时间特征数据的方法包括:获取待预测个体所在地区的交通网络图,根据交通网络图计算站点之间的一阶关联特征数据和二阶关联特征数据;将一阶关联特征数据和二阶关联特征数据拼接形成出行时间特征数据。
时间可达性网络图可以从两个方面反映各个站点的静态特征。(1)反映站点之间的直接关联关系。根据地理第一定律,即任何事物都是与其他事物相关的,只不过相近的事物关联更紧密。反映在交通网络中可以理解为两站点之间越近(花费时间越短),其关联关系可能越紧密。(2)反映站点所属的偏远特征(例如郊区或中心区)。某站点距离其它站点的时间分布在一定程度上可以反映此站点的偏远特征。
本实施例一中的起始站点与目的站点平均花费时间是通过以下方式计算所得:为了方便表示,O代表起始站点,D代表目的站点,首先将所有历史出行数据按照[O,D]进行聚合,每个[O,D]代表一类,然后对于每个[O,D]下的所有出行计算其平均花费时间作为该[O,D]对应的花费时间,用矩阵
Figure BDA0002825180390000063
来表示所有[OD]之间的平均花费时间,其中Ai,j表示从站点i到站点j的行程时间,且Ai,j=Aj,i
在进行节点表示学习之前,我们首先将矩阵A进行转换,以使节点之间边的权重与节点之间出行数量占比的分布呈正相关性,即当两个节点之间的出行占比越大时,边上的权重也越大。为此,重新定义边的权重为
Figure BDA0002825180390000062
作为优选实施例,采用LINE算法来学习站点之间的一阶关联关系(即以上提到的站点之间的直接关联关系)以及站点之间的二阶关联关系(即站点与其它站点之间的关系分布)。
具体地,对于给定的交通网络图,将其视为有向带权图,由节点vi指向节点vj的边权重为wi,j,且wi,j=wj,i。首先考虑一阶近邻关系,给定一条边<vi,vj>,定义节点vi和节点vj之间的联合概率为:
Figure BDA0002825180390000071
其中zi为通过一阶近邻关系学习到的节点低维表示向量,即一阶关联特征数据。
另外,定义节点vi和节点vj之间的经验概率为:
Figure BDA0002825180390000072
通过最小化目标函数
Figure BDA0002825180390000073
实现优化,其中d(·,·)表示两个概率分布p1
Figure BDA0002825180390000074
之间的距离,采用KL散度来计算两种分布之间的距离并忽略常数项之后得到以下优化目标函数:
Figure BDA0002825180390000075
二阶近邻相似性指的是当节点vi的一阶邻居与节点vj的一阶邻居具有较高的相似性时,节点vi与节点vj很有可能是相似的节点,这种相似性称为二阶近邻相似性。比如,两个作为起始站点的站点A和站点B的出行目的站点分布具有相似的分布特征时,说明站点A和站点B有可能具备相似的功能性特征。对于二阶近邻关系下的节点嵌入表示学习,定义每个节点的向量表示由两部分构成,分别是ui和u′i,ui表示节点本身,u′i是节点作为其他节点的邻居时的向量表示,二阶关联特征数据由两部分组成<ui,u′i>。针对每一个从节点vi到vj的有向边<vi,vj>,定义一个条件概率p2(vj|vi)表示由节点vi生成上下文节点vj的概率:
Figure BDA0002825180390000076
另外,定义节点vi与节点vj之间的经验概率
Figure BDA0002825180390000081
其中di表示节点vi的出度之和,即di=∑k∈N(i)wi,k,N(i)为节点vi的邻居节点集合。定义优化目标函数如下:
Figure BDA0002825180390000082
其中d(·,·)表示两个概率分布p2
Figure BDA0002825180390000083
之间的距离;λi表示节点vi的重要程度,假设度比较高的节点权重较高,令λi=di,采用KL散度来计算两种概率分布之间的距离并略去常数项之后得到下面的优化函数:
Figure BDA0002825180390000084
通过对一阶近邻和二阶近邻分开训练,最终将两种关系下学习到的节点表示向量拼接得到基于OD出行时间的节点静态表示向量空间
Figure BDA0002825180390000087
即出行时间特征数据。
获取全局站点的出行需求特征数据的方法为:获取全局站点的历史出行数据,将历史出行数据输入到潜在狄利克雷分配模型中,获得全局站点的出行需求特征数据。
进一步地,获取全局站点的出行需求特征数据的方法为:获取全局站点的历史出行数据,将历史出行数据输入到潜在狄利克雷分配模型中,获得全局站点的出行需求特征数据。
交通OD出行需求在不同时间段的分布在一定程度上可以反映各站点功能特征。例如在工作日人们通常在早上离开住宅区去商业区,晚上到住宅区。当人们更偏向于在整个周末或者工作日晚上去娱乐圈区等。所以为了更贴切的表示站点的功能特征,我们将一周划分为工作日和非工作日,并将每天划分为多个时间段。并对各个时间段两站之间的流量做统计。统计过程为:将历史出行库中的每一次出行拆分为两种模式,分别是出发模式ML=[so,sd,to]和到达模式MA=[so,sd,td]。假设工作日和非工作日各分P个时间段,总共2P个时间段。将两种移动模式分别按照所属的时间段进行统计得到流量张量
Figure BDA0002825180390000085
Figure BDA0002825180390000086
其中FL(i,j,k)表示在时间段tk内由站点si出发,到达sj的流量;FA(i,j,k)表示由站点si出发,在时间段tk内到达sj的流量。
接下来,本实施例一借助潜在狄利克雷分配模型(以下简称LDA模型)来学习站点的表示向量。LDA是一种文档主题生成模型,用于提取大型文档中的隐藏主题结构。在LDA模型中,每篇文档存在多个主题并且文档中的每个单词属于其中一个主题。给定一篇文档,其包含的所有的单词都可被观察到,LDA模型的目的是根据观察的结果推断文档隐藏的主题结构。LDA是一个包含隐藏变量的主题生成模型,该模型认为每篇文档可以看做一种主题分布,每种主题可以看做一种词分布。令α为文档-主题狄利克雷分布的先验参数和η为主题-词狄利克雷分布的先验参数。假定文档有K个主题,β∈K×|V|为主题-词的狄利克雷分布矩阵,|V|为语料库V中的单词数量,βk为主题k的在V上的词概率分布。令θd,k表示主题k在文档d中的比例,zd,n表示第n个单词在文档d中的主题分配,wd,n为在文档d中观察到第n个单词。基于以上概念,LDA模型的执行过程如下:
1.对每个主题,从狄利克雷分布Dir(η)中获得主题-词分布βk
2.给定文档d,从狄利克雷分布Dir(α)中获得文档-主题分布θd
3.对文档d中的第n个单词wd,n
(a)从文档-主题的多项式分布Mult(θd)获得主题分配zd,n
(b)从分配主题zd,n的主题-词多项式分布
Figure BDA0002825180390000091
得到单词wd,n
其中,Dir(·)为狄利克雷分布,Mult(·)为多项式分布。通过使用EM算法或者Gibbs采样反推估计未知参数,并最终求出该文档的主题分布。
本发明通过类比的方法将LDA模型用于站点的嵌入表示学习,具体操作为:将站点视为文档,将站点的功能性特征视为文档的主题结构,将流量矩阵视为语料库,将移动模式视为单词,将每种移动模式的流量视为单词在文档中出现的频次。首先,设定参数f为最终学习到的每个站点表示向量的维度,即f可以理解为文档的主题个数。通过运用LDA模型得到每个站点的表示向量为[v1,v2,…,vf]。
至此,如图2所示,通过基于OD出行时间的节点表示学习得到向量空间
Figure BDA0002825180390000092
基于OD出行需求的节点表示学习得到向量空间
Figure BDA0002825180390000093
将两个向量空间进行拼接得到节点的最终静态表示向量
Figure BDA0002825180390000094
即全局站点的出行需求特征数据。
进一步地,如图3所示,将获取的全局站点静态特征数据输入到所述特征转换网络,得到区域转换特征数据的具体方法为:从所述全局站点静态特征数据获取起始站点的多角度特征向量和目的站点的多角度特征向量;根据待训练的转换矩阵、所述起始站点的多角度特征向量和所述目的站点的多角度特征向量计算得到区域转换特征数据。
具体来说,我们借鉴双线性注意力打分机制计算各起始站点so到其它各个站点sd的转移向量
Figure BDA0002825180390000101
计算方式如下:
Ηo,d=(voW1)vd T
其中,起始站点的多角度表示向量vo和目的站点的多角度表示向量vd均来自节点的静态表示学习模块的输出
Figure BDA0002825180390000102
其中
Figure BDA0002825180390000103
为待训练的转换矩阵。另外为了增强其可表达性,我们考虑使用多头机制,即将以上公式的操作执行多次,学到多个W1参数和Ηo,d,并将所学到的所有Ηo,d进行拼接得到最终站点o到站点d的静态转移关系表示,即区域转换特征数据,假设使用m头机制,则Ηo,d为m维特征。
进一步地,步骤S30中,将所述个体历史出行特征数据、所述群体历史出行特征数据和所述区域转换特征数据输入到所述目的地预测网络,得到目的站点预测数据的具体方法为:
根据待预测出行个体的起始信息,从所述个体历史出行特征数据中获取目的站点个体原始流量特征;
根据待预测出行个体的起始信息,从所述群体历史出行特征数据中获取目的站点的群体原始流量特征;
将所述目的站点个体原始流量特征、所述目的站点的群体原始流量特征和所述区域转换特征数据合并形成目的站点多角度关联特征;
将所述目的站点多角度关联特征输入到所述目的地预测网络,得到目的站点预测数据。
首先,基于个体乘客自身历史出行信息提取个体乘客出行目的地的分布特征,分别从出行起始时间和出行起始站点两个角度考虑。给定待预测出行的起始信息(uk,so,to),根据出行起始时间to所在的时间段Tk,统计个体每天在时间段Tk内的出行目的站点的出行频次分布情况,得到特征向量Fp=[f1,f2,…,fN],当个体在某天时间段Tk内到达过站点si,则fi取值为到达该站点的频次;否则fi=0。另外,根据出行起始站点so,统计个体历史出行数据中由so作为起始站点的出行目的站点的数量分布情况,得到
Figure BDA0002825180390000111
其中个体在历史出行中存在从so到达si的出行,则
Figure BDA0002825180390000112
否则,
Figure BDA0002825180390000113
最终,将两个特征向量拼接得到目的站点的个体原始流量特征
Figure BDA0002825180390000114
Figure BDA0002825180390000115
接着,提取群体出行目的地的分布特征,分别从全天和分时段两个角度考虑。给定待预测出行的起始信息(uk,so,to),分别统计由so到达其它各个目的站点sd的每日平均流量fi,得到特征向量Fg=[f1,f2,…,fN]。然后,从时段的角度考虑,根据待预测出行的起始时间确定所在时间段(考虑工作日和周末,根据个体乘客进站时间计算得到),统计历史该时间段内由so到达其他目的站点sd平均流量
Figure BDA0002825180390000116
得到特征向量
Figure BDA0002825180390000117
最终,将两个特征向量拼接得到目的站点的群体原始流量特征
Figure BDA0002825180390000118
Figure BDA0002825180390000119
最后,将Ηo,d、God、Iod进行合并Fd=Ηo,d||God||Iod得到起始站点so与目的站点sd的相关特征
Figure BDA00028251803900001110
同理,提取起始站点so与所有其它各个目的站点之间的关联特征。最终得到与所有目的站点相关的特征向量为
Figure BDA00028251803900001111
即目的站点多角度关联特征,其中F表示与第i个目的站点对应的关系特征。
作为优选实施例,目的站点预测网络包括依次连接的多通道卷积层、单通道卷积层和SoftMax层,将所述目的站点多角度关联特征输入到所述目的地预测网络,得到目的站点预测数据的方法为:
将所述目的站点多角度关联特征输入到所述多通道卷积层,得到目的站点多维度聚合特征;
将所述目的站点多维度聚合特征输入到所述单通道卷积层,得到聚合特征向量;
将所述聚合特征向量输入到SoftMax层,得到目的站点的概率分布向量。
具体来说,首先通过将所有目的站点对应的特征F输入到卷积核
Figure BDA00028251803900001112
Figure BDA00028251803900001113
的多通道卷积层中,并在每次卷积操作后使用非线性ReLU操作,得到与各个目的站点多维度聚合特征。其运算如下:
Figure BDA00028251803900001114
表示将k个卷积得到的与目的站点i相关的k维聚合特征。然后将所有站点的多维度聚合特征
Figure BDA00028251803900001115
输入到单通道卷积层,其卷积核为
Figure BDA00028251803900001116
得到聚合特征向量
Figure BDA00028251803900001117
最后,将Φ输入到SoftMax层得到个体目标乘客从so站可能去往各个目的站点的概率分布向量{p1,p2,…,pN},取对应概率最大的目的站点最为预测的最终结果。
进一步地,在步骤S50中,损失函数优选采用交叉熵损失函数,利用目的站点预测数据以及获取的目的站点真实数据更新交叉熵损失函数。示例性地,比如有5个地铁站的话,真实目的站点为编号3时,用one-hot向量[0,0,1,0,0]表示,目的站点的预测数据为[0.2,0.1,0.5,0.1,0.1],两者做交叉熵计算。
在步骤S60中,根据反向传播原理,利用更新后的交叉熵损失函数对特征转换网络和目的地预测网络的权重参数进行更新。其中,对特征转换网络的权重参数进行更新即为对待训练的转换矩阵W进行更新。
如图4所示,实施例二公开了一种个体随机出行目的地的预测方法,所述预测方法包括如下步骤:
步骤S100:获取待预测出行个体的起始信息、待预测出行个体所在站点的群体历史出行特征数据以及根据上述的训练方法训练得到的个体随机出行目的地预测模型;
步骤S200:利用训练完成的特征转换网络从全局站点静态特征数据中获取得到区域转换特征数据;
步骤S300:待预测出行个体的起始信息、所述群体历史出行特征数据和所述区域转换特征数据起始信息输入至训练完成的目的地预测网络,预测得到待预测出行个体的目的地。
作为一个优选实施例,在步骤S100之前,先判断待预测出行个体是随机出行还是规律出行,若是随机出行则直接进入步骤S100。本实施例二通过构建一个规律出行模式集合来判断个体是否为规律出行。
具体地,由于不同的乘客存在不同的出行规律,例如有些乘客中在一天中有一个集中出行时段,有些乘客有两个固定出行时段,有些乘客有三个等。因此无法在聚类开始时确定聚类的类簇数量,所以这里我们采用一种能够自动确定类簇数量和类簇中心的快速聚类算法:基于核密度估计的聚类算法对个体所有历史出行做聚类。对于给定的个体ID,首先从群体所有出行数据中筛选出个体的所有历史出行数据,对于个体出行数据中的每次出行
Figure BDA0002825180390000121
计算
Figure BDA0002825180390000122
作为出行中心时间,利用高斯核密度计算公式计算每个中心时间点处的核密度,计算公式如下:
Figure BDA0002825180390000131
其中,n为个体出行总次数,x为中心时间点,h为带宽,控制计算核密度时的作用范围。在计算完所有数据点处的核密度之后,选取核密度峰值处对应的中心时间作为类中心点。确定了多个类中心之后,将个体所有历史出行按照距离各个类中心的距离将其划分到距离其最近的类中,完成聚类。
然后对于每一类簇的出行,我们查找是否存在一个出行子集,这个子集中的所有出行的起始站点和目的站点相同,且子集中所有出行的起始站点和目的站点相同的天数占此乘客总出行天数大于指定阈值λ,如λ=60%。如果不存在此出行子集,那么不构建出行模式,否则根据此出行子集构建出行模式,将出行子集起始站点和目的站点作为出行模式的起始站点和目的站点,并这些出行子集中所有出行的平均起始时间和平均出站时间作为出行模式的进出站时间。基于此方法,我们提取此乘客的出行模式集合P={p1,p2,…,p|P|},其中pi=[so,to,sd,td]。
经过上述出行模式的挖掘操作,若该个体不存在出行模式,则直接进入随机出行预测模块;否则,对于给定的待预测出行的起始信息[s,t],在出行模式集合P中查找是否存在某个出行模式pi=[so,to,sd,td],满足so=s和t∈[to-ε,to+ε]。若存在满足条件的出行模式,则将该出行模式的目的站点sd作为预测结果输出并结束预测;若不存在,则通过随机出行预测模块进行预测,即进入步骤S100。
进一步地,本实施例公开了一种计算机可读存储介质,所述计算机可读存储介质存储有个体随机出行目的地预测模型的训练程序,所述个体随机出行目的地预测模型的训练程序被处理器执行时实现上述的个体随机出行目的地预测模型的训练方法。
进一步地,本申请还公开了一种计算机设备,在硬件层面,如图5所示,该计算机设备包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行,在逻辑层面上形成请求处理装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。所述计算机可读存储介质11上存储有个体随机出行目的地预测模型的训练程序,所述个体随机出行目的地预测模型的训练程序被处理器执行时实现上述的个体随机出行目的地预测模型的训练方法。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上面对本发明的具体实施方式进行了详细描述,虽然已表示和描述了一些实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下,可以对这些实施例进行修改和完善,这些修改和完善也应在本发明的保护范围内。

Claims (8)

1.一种个体随机出行目的地预测模型的训练方法,其特征在于,待训练的预测模型包括特征转换网络和目的地预测网络,所述训练方法包括:
获取待预测出行个体所在站点的个体历史出行特征数据和群体历史出行特征数据以及全局站点静态特征数据;
将获取的全局站点静态特征数据输入到所述特征转换网络,得到区域转换特征数据;
将所述个体历史出行特征数据、所述群体历史出行特征数据和所述区域转换特征数据输入到所述目的地预测网络,得到目的站点预测数据;
根据所述目的站点预测数据以及获取的目的站点真实数据更新损失函数;
根据更新后的损失函数对所述特征转换网络和所述目的地预测网络的权重参数进行更新;
获取全局站点静态特征数据的方法包括:
获取全局站点的出行时间特征数据和全局站点的出行需求特征数据;
将全局站点的所述出行时间特征数据和所述出行需求特征数据拼接形成全局站点静态特征数据,所述出行时间特征数据用于反映站点偏远特征,所述出行需求特征数据用于反映站点功能区特征;
将所述个体历史出行特征数据、所述群体历史出行特征数据和所述区域转换特征数据输入到所述目的地预测网络,得到目的站点预测数据的具体方法为:
根据待预测出行个体的起始信息,从所述个体历史出行特征数据中获取目的站点个体原始流量特征;
根据待预测出行个体的起始信息,从所述群体历史出行特征数据中获取目的站点的群体原始流量特征;
将所述目的站点个体原始流量特征、所述目的站点的群体原始流量特征和所述区域转换特征数据合并形成目的站点多角度关联特征;
将所述目的站点多角度关联特征输入到所述目的地预测网络,得到目的站点预测数据。
2.根据权利要求1所述的个体随机出行目的地预测模型的训练方法,其特征在于,获取全局站点的出行时间特征数据的方法包括:
获取待预测个体所在地区的交通网络图,根据交通网络图计算站点之间的一阶关联特征数据和二阶关联特征数据;
将所述一阶关联特征数据和所述二阶关联特征数据拼接形成出行时间特征数据。
3.根据权利要求1所述的个体随机出行目的地预测模型的训练方法,其特征在于,获取全局站点的出行需求特征数据的方法为:获取全局站点的历史出行数据,将历史出行数据输入到潜在狄利克雷分配模型中,获得全局站点的出行需求特征数据。
4.根据权利要求1所述的个体随机出行目的地预测模型的训练方法,其特征在于,将获取的全局站点静态特征数据输入到所述特征转换网络,得到区域转换特征数据的具体方法为:
从所述全局站点静态特征数据获取起始站点的多角度特征向量和目的站点的多角度特征向量;
根据待训练的转换矩阵、所述起始站点的多角度表示向量和所述目的站点的多角度表示向量计算得到区域转换特征数据。
5.根据权利要求1所述的个体随机出行目的地预测模型的训练方法,其特征在于,所述目的站点预测网络包括依次连接的多通道卷积层、单通道卷积层和SoftMax层,将所述目的站点多角度关联特征输入到所述目的地预测网络,得到目的站点预测数据的方法为:
将所述目的站点多角度关联特征输入到所述多通道卷积层,得到目的站点多维度聚合特征;
将所述目的站点多维度聚合特征输入到所述单通道卷积层,得到聚合特征向量;
将所述聚合特征向量输入到SoftMax层,得到目的站点的概率分布向量。
6.一种个体随机出行目的地的预测方法,其特征在于,所述预测方法包括:
获取待预测出行个体的起始信息、待预测出行个体所在站点的群体历史出行特征数据以及根据权利要求1至5任一项所述的训练方法训练得到的个体随机出行目的地预测模型;
利用训练完成的特征转换网络从全局站点静态特征数据中获取得到区域转换特征数据;
待预测出行个体的起始信息、所述群体历史出行特征数据和所述区域转换特征数据起始信息输入至训练完成的目的地预测网络,预测得到待预测出行个体的目的地。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有个体随机出行目的地预测模型的训练程序,所述个体随机出行目的地预测模型的训练程序被处理器执行时实现权利要求1至5任一项所述的个体随机出行目的地预测模型的训练方法。
8.一种计算机设备,其特征在于,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的个体随机出行目的地预测模型的训练程序,所述个体随机出行目的地预测模型的训练程序被处理器执行时实现权利要求1至5任一项所述的个体随机出行目的地预测模型的训练方法。
CN202011447063.3A 2020-12-09 2020-12-09 个体随机出行目的地预测模型的训练方法、介质和设备 Active CN112529294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011447063.3A CN112529294B (zh) 2020-12-09 2020-12-09 个体随机出行目的地预测模型的训练方法、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011447063.3A CN112529294B (zh) 2020-12-09 2020-12-09 个体随机出行目的地预测模型的训练方法、介质和设备

Publications (2)

Publication Number Publication Date
CN112529294A CN112529294A (zh) 2021-03-19
CN112529294B true CN112529294B (zh) 2023-04-14

Family

ID=75000472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011447063.3A Active CN112529294B (zh) 2020-12-09 2020-12-09 个体随机出行目的地预测模型的训练方法、介质和设备

Country Status (1)

Country Link
CN (1) CN112529294B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484953B (zh) * 2023-06-21 2023-09-12 南方科技大学 一种出行目的推断方法及终端
CN117392854B (zh) * 2023-12-13 2024-03-26 深圳市城市交通规划设计研究中心股份有限公司 一种基于高速公路收费数据提取行政区域od方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874668A (zh) * 2018-09-03 2020-03-10 深圳先进技术研究院 一种轨道交通od客流预测方法、系统及电子设备
CN111488984A (zh) * 2020-04-03 2020-08-04 中国科学院计算技术研究所 一种用于训练轨迹预测模型的方法和轨迹预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5946394B2 (ja) * 2012-11-09 2016-07-06 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 複数種類のデータソースを用いた経路の始点・終点の統計的推測手法、コンピュータ・プログラム及びコンピュータ。
CN104463364B (zh) * 2014-12-04 2018-03-20 中国科学院深圳先进技术研究院 一种地铁乘客实时分布和地铁实时密度预测方法及系统
CN109308543B (zh) * 2018-08-20 2021-10-22 华南理工大学 基于ls-svm和实时大数据的地铁短期客流预测方法
CN110633853A (zh) * 2019-09-12 2019-12-31 北京彩云环太平洋科技有限公司 时空数据预测模型的训练方法、装置及电子设备
CN110647929B (zh) * 2019-09-19 2021-05-04 北京京东智能城市大数据研究院 用于预测出行目的地的方法、及用于训练分类器的方法
CN110889546B (zh) * 2019-11-20 2020-08-18 浙江省交通规划设计研究院有限公司 一种基于注意力机制的交通流量模型训练方法
CN111612281B (zh) * 2020-06-23 2023-04-14 中国人民解放军国防科技大学 一种地铁站人流量峰值的预测方法、装置和计算机设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874668A (zh) * 2018-09-03 2020-03-10 深圳先进技术研究院 一种轨道交通od客流预测方法、系统及电子设备
CN111488984A (zh) * 2020-04-03 2020-08-04 中国科学院计算技术研究所 一种用于训练轨迹预测模型的方法和轨迹预测方法

Also Published As

Publication number Publication date
CN112529294A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
Boukerche et al. Machine learning-based traffic prediction models for intelligent transportation systems
Vlahogianni et al. Temporal evolution of short‐term urban traffic flow: a nonlinear dynamics approach
He et al. Spatio-temporal adaptive pricing for balancing mobility-on-demand networks
Kong et al. Exploring human mobility for multi-pattern passenger prediction: A graph learning framework
CN112529294B (zh) 个体随机出行目的地预测模型的训练方法、介质和设备
CN111695046B (zh) 基于时空移动数据表征学习的用户画像推断方法及装置
Li et al. Towards smart transportation system: A case study on the rebalancing problem of bike sharing system based on reinforcement learning
Dai et al. Spatio-temporal deep learning framework for traffic speed forecasting in IoT
Ahmed et al. Deviation point curriculum learning for trajectory outlier detection in cooperative intelligent transport systems
WO2022228344A1 (zh) 流量预测方法、装置及存储介质
Shin Analysis of subway passenger flow for a smarter city: knowledge extraction from Seoul metro’s ‘Untraceable’big data
Shao et al. Incorporating lstm auto-encoders in optimizations to solve parking officer patrolling problem
Alesiani et al. A probabilistic activity model for predicting the mobility patterns of homogeneous social groups based on social network data
Luo et al. Spatiotemporal hashing multigraph convolutional network for service-level passenger flow forecasting in bus transit systems
Shuai et al. Relationship analysis of short-term origin–destination prediction performance and spatiotemporal characteristics in urban rail transit
Zhang et al. Toward Large-Scale Graph-Based Traffic Forecasting: A Data-Driven Network Partitioning Approach
Gupta et al. LSTM based real-time smart parking system
ABBAS A survey of research into artificial neural networks for crime prediction
Zhou et al. Refined taxi demand prediction with ST-Vec
Ghandeharioun et al. Real-time ridesharing operations for on-demand capacitated systems considering dynamic travel time information
Daniotti et al. A maximum entropy approach for the modelling of car-sharing parking dynamics
Xue et al. Urban population density estimation based on spatio‐temporal trajectories
Zhao et al. Practical model with strong interpretability and predictability: An explanatory model for individuals' destination prediction considering personal and crowd travel behavior
Li et al. Short-term iot data forecast of urban public bicycle based on the dbscan-tcn model for social governance
Das UApredictor: Urban anomaly prediction from spatial-temporal data using graph transformer neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant