CN112990518B - 一种地铁个体乘客目的站点实时预测方法及装置 - Google Patents

一种地铁个体乘客目的站点实时预测方法及装置 Download PDF

Info

Publication number
CN112990518B
CN112990518B CN201911274492.2A CN201911274492A CN112990518B CN 112990518 B CN112990518 B CN 112990518B CN 201911274492 A CN201911274492 A CN 201911274492A CN 112990518 B CN112990518 B CN 112990518B
Authority
CN
China
Prior art keywords
time
passenger
passengers
subway
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911274492.2A
Other languages
English (en)
Other versions
CN112990518A (zh
Inventor
赵娟娟
王昊
须成忠
叶可江
张鋆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201911274492.2A priority Critical patent/CN112990518B/zh
Publication of CN112990518A publication Critical patent/CN112990518A/zh
Application granted granted Critical
Publication of CN112990518B publication Critical patent/CN112990518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及轨道交通领域,具体涉及一种地铁个体乘客目的站点实时预测方法及装置。该方法及装置对乘客历史出行信息进行个人特征提取、群体特征提取和上下文特征提取,将乘客历史出行信息中的个人特征、群体特征和上下文特征输入至随机森林模型,由随机森林模型输出乘客的地铁目的站点,对个体用户的出行目的做估计,解决的主要问题是基于历史长期的乘客刷卡数据对每一位个体乘客的目的站点做实时预测,且预测准确度高。

Description

一种地铁个体乘客目的站点实时预测方法及装置
技术领域
本发明涉及轨道交通领域,具体而言,涉及一种地铁个体乘客目的站点实时预测方法及装置。
背景技术
轨道交通作为公共交通的重要组成部分,具有速度快、时间准、运量大、运距长、舒适度高、受外界影响小等特点,其在城市公共交通流量大、道路拥堵等问题起着重要的作用,已日益成为市民出行的首选交通方式。实时估计每一位已经进站的个体乘客的目的站点对于个体乘客的实时跟踪、服务推荐、地铁交友等相关应用具有重要的意义。
现有技术主要基于个体乘客自身历史的出行信息使用统计和概率的方法对个体的目的站点做推算,例如,基于个体乘客历史出行记录挖掘个体经常停留的地点(例如,家、单位、学校等)和出行规律(例如,早上8:00-9:00从家去往单位上班),再基于实时收集到的出发地点和时间对乘客的目的地做预测。现有技术比较实用于那些可以获取到足够多历史出行日志的用户,对于只有少量出行信息的用户,在目的站点的推算上不能得到较好的结果,且个体乘客的出行不仅受个体乘客自身的影响,还受到群体出行的影响,以及其它因素的影响。
发明内容
本发明实施例提供了一种地铁个体乘客目的站点实时预测方法及装置,以至少解决现有乘客目的站点预测方法准确度低的技术问题。
根据本发明的一实施例,提供了一种地铁个体乘客目的站点实时预测方法,包括以下步骤:
S100:从自动收费系统所收集到的智能交通卡交易数据中获取乘客历史出行信息;
S200:对乘客历史出行信息进行个人特征提取、群体特征提取和上下文特征提取;
S300:构建随机森林模型,将乘客历史出行信息中的个人特征、群体特征和上下文特征输入至随机森林模型,由随机森林模型输出乘客的地铁目的站点。
进一步地,方法还包括步骤:
S150:对乘客历史出行信息进行预处理,预处理包括:个体出行记录聚合和异常信息剔除。
进一步地,乘客历史出行信息中记录每一位乘客每一次乘坐公共交通工具的信息,每条交易记录包含四个字段:CardID、TrmnlID、TrnsctTime、TrnsctyType;其中CardID是智能交通卡的唯一标识;TrmnlID是地铁站或公交车站的标识;TrnsctTime是交易时间,TrnsctyType是交易类型;
在乘客历史出行信息中,给定一个由N个地铁站点S={s1,s2,…,s|S|}组成的地铁网络,以及所有乘客的历史智能交通卡交易数据和每一位乘客P的实时地铁进站记录,包括进站站点SO、进站时间tO、实时估计乘客P的目的站点Sd
进一步地,个体出行记录聚合包括:
基于个体乘客的ID和出行时间,将每一位个体乘客的历史出行信息按照刷卡时间排序并聚合成集合R'={r1,r2,…,r|R'|},其中ri表示此乘客的一次出行交易记录;
异常信息剔除包括:
剔除只记录乘客的进站记录没有出站记录,或者只有出站记录没有进站记录的情况,从R'过滤后的个体乘客出行记录集合记作R={r1,r2,…,r|R|}。
进一步地,对乘客历史出行信息进行上下文特征提取包括:基于实时数据提取时间特征和换乘信息特征;
其中时间特征包括:当前所属的周特征Fw、时段特征Ft、节假日特征Fh。其中时段特征Ft的计算方法:将一天按固定的间隔τ划分为K个时段,第k时段所表示的时间范围为{(k-1)τ,kτ},按照当前乘客的进站时间tO计算其所属时段;
换乘信息特征:判断当前进站乘客的上一次乘车交易记录是否属于公交出行,并且与当前接收到的交易记录时间的差值是否小于此公交站点与当前进站站点之间所需花费的最长时间,如果小于,则提取该公交站点的经纬度信息Fg、路线Fn,否则将此特征标识为null值。
进一步地,对乘客历史出行信息进行个人特征提取包括:从乘客历史出行信息中提取出行序列特征和出行语义特征;
出行序列特征Fa:基于当前乘客的进站站点SO,提取从SO进站后,乘客前往其它各个站点的平均次数,用|s|维向量表示,第i个元素表示乘客从SO出发前往si的平均次数;
出行语义特征Fs:针对工作日和周末分别提取乘客在一天的各个时段停留在各个站点的平均频次,最终形成2×K×|S|维张量Fs;其中2表示工作日和周末,K表示一天的时间段数量,|S|表示站点数量;其中在某站点停留的定义如下,如果个体乘客的一次地铁出站记录与下一次地铁进站记录满足条件:所涉及的站点相同且时间间隔大于1小时,则称其在相隔时段内在此站点停留。
进一步地,对乘客历史出行信息进行群体特征提取包括:提取从SO站进站的群体的出行目的站点分布信息Fd,针对一周各天提取群体的出行特征,最终形成7×K×|S|维张量Fs;其中7表示一周7天,K表示一天的时间段数量,|S|表示站点数量。
根据本发明的另一实施例,提供了一种地铁个体乘客目的站点实时预测装置,包括:
信息获取单元,用于从自动收费系统所收集到的智能交通卡交易数据中获取乘客历史出行信息;
特征提取单元,用于对乘客历史出行信息进行个人特征提取、群体特征提取和上下文特征提取;
模型预测单元,用于构建随机森林模型,将乘客历史出行信息中的个人特征、群体特征和上下文特征输入至随机森林模型,由随机森林模型输出乘客的地铁目的站点。
一种存储介质,存储介质存储有能够实现如上所述地铁个体乘客目的站点实时预测方法的程序文件。
一种处理器,处理器用于运行程序,其中,程序运行时执行如上所述地铁个体乘客目的站点实时预测方法。
本发明实施例中的地铁个体乘客目的站点实时预测方法及装置,对乘客历史出行信息进行个人特征提取、群体特征提取和上下文特征提取,将乘客历史出行信息中的个人特征、群体特征和上下文特征输入至随机森林模型,由随机森林模型输出乘客的地铁目的站点,对个体用户的出行目的做估计,解决的主要问题是基于历史长期的乘客刷卡数据对每一位个体乘客的目的站点做实时预测,且预测准确度高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明地铁个体乘客目的站点实时预测方法的流程图;
图2为本发明地铁个体乘客目的站点实时预测方法的优选流程图;
图3为本发明地铁个体乘客目的站点实时预测装置的模块图;
图4为本发明地铁个体乘客目的站点实时预测装置的优选模块图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明结合群体和个体的共同特征对个体用户的出行目的做估计,解决的主要问题是基于历史长期的乘客刷卡数据对每一位个体乘客的目的站点做实时预测,提出了一种基于乘客历史出行信息对已进站的每一位个体乘客的目的站点进行实时预测的方法及装置。
地铁个体乘客目的站点实时预测方法由数据预处理、特征提取和预测模型构建三部分组成。数据预处理是由个体出行信息聚合以及异常信息剔除两部分组成。特征提取是由个人特征提取、群体特征提取,上下文特征提取三部分组成。预测模型选择一种集成学习方法-随机森林,其通过融合以上三类特征预测个体进站乘客去往的目的站点,即使用一种集成学习方法-随机森林模型,将以上三类特征作为输入,乘客的地铁目的站点作为输出。
实施例1
根据本发明一实施例,提供了一种地铁个体乘客目的站点实时预测方法,参见图1,包括以下步骤:
S100:从自动收费系统所收集到的智能交通卡交易数据中获取乘客历史出行信息;
S200:对乘客历史出行信息进行个人特征提取、群体特征提取和上下文特征提取;
S300:构建随机森林模型,将乘客历史出行信息中的个人特征、群体特征和上下文特征输入至随机森林模型,由随机森林模型输出乘客的地铁目的站点。
本发明实施例中的地铁个体乘客目的站点实时预测方法,对乘客历史出行信息进行个人特征提取、群体特征提取和上下文特征提取,将乘客历史出行信息中的个人特征、群体特征和上下文特征输入至随机森林模型,由随机森林模型输出乘客的地铁目的站点,对个体用户的出行目的做估计,解决的主要问题是基于历史长期的乘客刷卡数据对每一位个体乘客的目的站点做实时预测,且预测准确度高。
作为优选的技术方案中,参见图2,方法还包括步骤:
S150:对乘客历史出行信息进行预处理,预处理包括:个体出行记录聚合和异常信息剔除。
下面以具体的实施例,对本发明地铁个体乘客目的站点实时预测方法进行详细描述。
本发明使用自动收费系统所收集到的智能交通卡交易数据集。自动收费系统记录每一位乘客每一次乘坐公共交通工具的信息。每条交易记录包含四个字段,即:CardID、TrmnlID、TrnsctTime、TrnsctyType。其中CardID是智能交通卡的唯一标识,可以用于唯一表示乘客;TrmnlID是地铁站或公交车站的标识;TrnsctTime是交易(刷卡)时间,TrnsctyType是交易类型(公交上车、地铁进站、地铁出站,分别用0、1、2表示)。
给定一个由N个地铁站点S={s1,s2,…,s|S|}组成地铁网络,以及所有乘客的历史智能交通卡交易数据和每一位乘客P的实时地铁进站记录,包括进站站点SO、进站时间tO、实时估计乘客P的目的站点Sd
地铁个体乘客目的站点实时预测方法主要包括三大部分:数据预处理、特征提取和预测模型构建。
1.预处理由个体出行记录聚合和异常信息剔除两部分组成。
(1)个体出行记录聚合
基于个体乘客的ID和出行时间,将每一位个体乘客的历史出行信息按照刷卡时间排序并聚合成集合R'={r1,r2,…,r|R'|},其中ri表示此乘客的一次出行交易记录。
(2)异常信息剔除
由于系统网络等错误对地铁乘客的出行记录的采集并不完整。正常情况下,地铁乘客的一次完整出行包括进站刷卡记录和出站刷卡记录,但是在实际的数据采集过程中,存在只记录乘客的进站记录没有出站记录,或者只有出站记录没有进站记录的情况,对于这些信息,本发明暂时将其剔除,保证乘客每一次地铁出行都是完整的。对于从R'过滤后的个体乘客出行记录集合记作R={r1,r2,…,r|R|}。
2.特征提取包括三部分组成,个人特征提取、群体特征提取和上下文特征提取。其中个体特征和群体特征通过从历史长期出行信息中提取。而上下文特征从实时接收到的出行信息中提取。
(1)上下文特征提取
上下文特征主要从实时接收到的出行信息中提取与预测目标相关的特征。鉴于人们的出行具有时空规律性,例如朝夕特征、7天周期性等特征,以及由于公共交通可达性驱动下出行特征等,本发明基于实时数据提取时间特征和换乘信息特征。
时间特征:包括当前所属的周特征Fw(一周所属天,用1~7标识)、时段特征Ft(在一天中所属的时间段)、节假日特征Fh(是否法定节假日,用1表示节假日,否则为0)。其中时段特征Ft的计算方法如下,本发明将一天按固定的间隔τ划分为K个时段,第k时段所表示的时间范围为{(k-1)τ,kτ},按照当前乘客的进站时间tO计算其所属时段。
换乘信息特征:由于乘客的一次完整出行可能包括多种公共交通方式之间的换乘,例如乘客在乘坐地铁之前乘坐了公交,由于路线的可达性,这个公交记录对于乘客目的站点的预测具有重要的作用。所以本发明首先判断当前进站乘客的上一次乘车交易记录是否属于公交出行,并且与当前接收到的交易记录时间的差值是否小于此公交站点与当前进站站点之间所需花费的最长时间,如果小于,则提取该公交站点的经纬度信息Fg、路线Fn(用one hot编码),否则将此特征标识为null值。
(2)个人特征提取
由于个体乘客受生活规律等因素的影响,其出行具有序列性和语义性。其中序列性指的是乘客从某站点进站一般只去往有限的一些固定站点。语义性指的是,用户由于工作、学习等原因在一天的固定时段大部分会处于固定的地点,例如白天在地点A工作,晚上回到地点B。所以对于每一位个体用户,本发明提取两方面的特征:出行序列特征和出行语义特征。
出行序列特征Fa:基于当前乘客的进站站点SO,提取从SO进站后,乘客前往其它各个站点的平均次数,用|s|维向量表示,第i个元素表示乘客从SO出发前往si的平均次数。
出行语义特征Fs:一般而言,在工作日和周末人们的出行语义特征会有所不同,所以针对工作日和周末分别提取乘客在一天的各个时段停留在各个站点的平均频次,最终形成2×K×|S|维张量Fs。其中2表示工作日和周末,K表示一天的时间段数量,|S|表示站点数量。其中在某站点停留的定义如下,如果个体乘客的一次地铁出站记录与下一次地铁进站记录满足条件:所涉及的站点相同且时间间隔大于1小时,本发明称其在相隔时段内在此站点停留。
(3)群体特征提取
群体特征主要提取从SO站进站的群体的出行目的站点分布信息Fd,同理,一般而言,一周的不同天,一天的不同时段,目的站点的分布也有所不同,所以针对一周各天提取群体的出行特征,最终形成7×K×|S|维张量Fs。其中7表示一周7天,K表示一天的时间段数量,|S|表示站点数量。
3.预测模型构建
本发明选择使用目前预测效果较好且解释性较强的随机森林模型,基于乘客的历史出行提取以上三类特征,并构建随机森林模型,在此模型的基础上,基于实时数据分别提取以上三类特征,并对个体乘客的目的站点做到实时预测。
实施例2
根据本发明的另一实施例,提供了一种地铁个体乘客目的站点实时预测装置,参见图3,包括:
信息获取单元100,用于从自动收费系统所收集到的智能交通卡交易数据中获取乘客历史出行信息;
特征提取单元200,用于对乘客历史出行信息进行个人特征提取、群体特征提取和上下文特征提取;
模型预测单元300,用于构建随机森林模型,将乘客历史出行信息中的个人特征、群体特征和上下文特征输入至随机森林模型,由随机森林模型输出乘客的地铁目的站点。
本发明实施例中的地铁个体乘客目的站点实时预测装置,对乘客历史出行信息进行个人特征提取、群体特征提取和上下文特征提取,将乘客历史出行信息中的个人特征、群体特征和上下文特征输入至随机森林模型,由随机森林模型输出乘客的地铁目的站点,对个体用户的出行目的做估计,解决的主要问题是基于历史长期的乘客刷卡数据对每一位个体乘客的目的站点做实时预测,且预测准确度高。
作为优选的技术方案中,参见图4,该装置还包括:
预处理单元150,用于对乘客历史出行信息进行预处理,预处理包括:个体出行记录聚合和异常信息剔除。
下面以具体的实施例,对本发明地铁个体乘客目的站点实时预测装置进行详细描述。
信息获取单元100:本发明使用自动收费系统所收集到的智能交通卡交易数据集。自动收费系统记录每一位乘客每一次乘坐公共交通工具的信息。每条交易记录包含四个字段,即:CardID、TrmnlID、TrnsctTime、TrnsctyType。其中CardID是智能交通卡的唯一标识,可以用于唯一表示乘客;TrmnlID是地铁站或公交车站的标识;TrnsctTime是交易(刷卡)时间,TrnsctyType是交易类型(公交上车、地铁进站、地铁出站,分别用0、1、2表示)。
给定一个由N个地铁站点S={s1,s2,…,s|S|}组成地铁网络,以及所有乘客的历史智能交通卡交易数据和每一位乘客P的实时地铁进站记录,包括进站站点SO、进站时间tO、实时估计乘客P的目的站点Sd
地铁个体乘客目的站点实时预测装置主要包括三大部分:数据预处理、特征提取和预测模型构建。
1.预处理单元150:预处理由个体出行记录聚合和异常信息剔除两部分组成。
(1)个体出行记录聚合
基于个体乘客的ID和出行时间,将每一位个体乘客的历史出行信息按照刷卡时间排序并聚合成集合R'={r1,r2,…,r|R'|},其中ri表示此乘客的一次出行交易记录。
(2)异常信息剔除
由于系统网络等错误对地铁乘客的出行记录的采集并不完整。正常情况下,地铁乘客的一次完整出行包括进站刷卡记录和出站刷卡记录,但是在实际的数据采集过程中,存在只记录乘客的进站记录没有出站记录,或者只有出站记录没有进站记录的情况,对于这些信息,本发明暂时将其剔除,保证乘客每一次地铁出行都是完整的。对于从R'过滤后的个体乘客出行记录集合记作R={r1,r2,…,r|R|}。
2.特征提取单元200:特征提取包括三部分组成,个人特征提取、群体特征提取和上下文特征提取。其中个体特征和群体特征通过从历史长期出行信息中提取。而上下文特征从实时接收到的出行信息中提取。
(1)上下文特征提取
上下文特征主要从实时接收到的出行信息中提取与预测目标相关的特征。鉴于人们的出行具有时空规律性,例如朝夕特征、7天周期性等特征,以及由于公共交通可达性驱动下出行特征等,本发明基于实时数据提取时间特征和换乘信息特征。
时间特征:包括当前所属的周特征Fw(一周所属天,用1~7标识)、时段特征Ft(在一天中所属的时间段)、节假日特征Fh(是否法定节假日,用1表示节假日,否则为0)。其中时段特征Ft的计算方法如下,本发明将一天按固定的间隔τ划分为K个时段,第k时段所表示的时间范围为{(k-1)τ,kτ},按照当前乘客的进站时间tO计算其所属时段。
换乘信息特征:由于乘客的一次完整出行可能包括多种公共交通方式之间的换乘,例如乘客在乘坐地铁之前乘坐了公交,由于路线的可达性,这个公交记录对于乘客目的站点的预测具有重要的作用。所以本发明首先判断当前进站乘客的上一次乘车交易记录是否属于公交出行,并且与当前接收到的交易记录时间的差值是否小于此公交站点与当前进站站点之间所需花费的最长时间,如果小于,则提取该公交站点的经纬度信息Fg、路线Fn(用one hot编码),否则将此特征标识为null值。
(2)个人特征提取
由于个体乘客受生活规律等因素的影响,其出行具有序列性和语义性。其中序列性指的是乘客从某站点进站一般只去往有限的一些固定站点。语义性指的是,用户由于工作、学习等原因在一天的固定时段大部分会处于固定的地点,例如白天在地点A工作,晚上回到地点B。所以对于每一位个体用户,本发明提取两方面的特征:出行序列特征和出行语义特征。
出行序列特征Fa:基于当前乘客的进站站点SO,提取从SO进站后,乘客前往其它各个站点的平均次数,用|s|维向量表示,第i个元素表示乘客从SO出发前往si的平均次数。
出行语义特征Fs:一般而言,在工作日和周末人们的出行语义特征会有所不同,所以针对工作日和周末分别提取乘客在一天的各个时段停留在各个站点的平均频次,最终形成2×K×|S|维张量Fs。其中2表示工作日和周末,K表示一天的时间段数量,|S|表示站点数量。其中在某站点停留的定义如下,如果个体乘客的一次地铁出站记录与下一次地铁进站记录满足条件:所涉及的站点相同且时间间隔大于1小时,本发明称其在相隔时段内在此站点停留。
(3)群体特征提取
群体特征主要提取从SO站进站的群体的出行目的站点分布信息Fd,同理,一般而言,一周的不同天,一天的不同时段,目的站点的分布也有所不同,所以针对一周各天提取群体的出行特征,最终形成7×K×|S|维张量Fs。其中7表示一周7天,K表示一天的时间段数量,|S|表示站点数量。
3.模型预测单元300:预测模型构建
本发明选择使用目前预测效果较好且解释性较强的随机森林模型,基于乘客的历史出行提取以上三类特征,并构建随机森林模型,在此模型的基础上,基于实时数据分别提取以上三类特征,并对个体乘客的目的站点做到实时预测。
实施例3
一种存储介质,存储介质存储有能够实现如上所述地铁个体乘客目的站点实时预测方法的程序文件。
实施例4
一种处理器,处理器用于运行程序,其中,程序运行时执行如上所述地铁个体乘客目的站点实时预测方法。
相比现有预测方法,本发明对个体乘客的目的站点估计精度更高。经实验验证,本发明实验使用的数据来源于深圳市,包括一年的深圳通卡交易数据,结果证明本发明在预测精度上优于现有预测方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的系统实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种地铁个体乘客目的站点实时预测方法,其特征在于,包括以下步骤:
S100:从自动收费系统所收集到的智能交通卡交易数据中获取乘客历史出行信息;
S200:对所述乘客历史出行信息进行个人特征提取、群体特征提取和上下文特征提取;
S300:构建随机森林模型,将所述乘客历史出行信息中的个人特征、群体特征和上下文特征输入至随机森林模型,由所述随机森林模型输出乘客的地铁目的站点;
对所述乘客历史出行信息进行上下文特征提取包括:基于实时数据提取时间特征和换乘信息特征;
其中时间特征包括:当前所属的周特征Fw、时段特征Ft、节假日特征Fh,其中时段特征Ft的计算方法:将一天按固定的间隔τ划分为K个时段,第k时段所表示的时间范围为{(k-1)τ,kτ},按照当前乘客的进站时间tO计算其所属时段;
换乘信息特征:判断当前进站乘客的上一次乘车交易记录是否属于公交出行,并且与当前接收到的交易记录时间的差值是否小于此公交站点与当前进站站点之间所需花费的最长时间,如果小于,则提取该公交站点的经纬度信息Fg、路线Fn,否则将此特征标识为null值;
对所述乘客历史出行信息进行个人特征提取包括:从乘客历史出行信息中提取出行序列特征和出行语义特征;
出行序列特征Fa:基于当前乘客的进站站点SO,提取从SO进站后,乘客前往其它各个站点的平均次数,用|s|维向量表示,第i个元素表示乘客从SO出发前往si的平均次数;
出行语义特征Fs:针对工作日和周末分别提取乘客在一天的各个时段停留在各个站点的平均频次,最终形成2×K×|S|维张量Fs;其中2表示工作日和周末,K表示一天的时间段数量,|S|表示站点数量;其中在某站点停留的定义如下,如果个体乘客的一次地铁出站记录与下一次地铁进站记录满足条件:所涉及的站点相同且时间间隔大于1小时,则称其在相隔时段内在此站点停留。
2.根据权利要求1所述的地铁个体乘客目的站点实时预测方法,其特征在于,所述方法还包括步骤:
S150:对所述乘客历史出行信息进行预处理,所述预处理包括:个体出行记录聚合和异常信息剔除。
3.根据权利要求2所述的地铁个体乘客目的站点实时预测方法,其特征在于,所述乘客历史出行信息中记录每一位乘客每一次乘坐公共交通工具的信息,每条交易记录包含四个字段:CardID、TrmnlID、TrnsctTime、TrnsctyType;其中CardID是智能交通卡的唯一标识;TrmnlID是地铁站或公交车站的标识;TrnsctTime是交易时间,TrnsctyType是交易类型;
在所述乘客历史出行信息中,给定一个由N个地铁站点S={s1,s2,…,s|S|}组成的地铁网络,以及所有乘客的历史智能交通卡交易数据和每一位乘客P的实时地铁进站记录,包括进站站点SO、进站时间tO、实时估计乘客P的目的站点Sd
4.根据权利要求3所述的地铁个体乘客目的站点实时预测方法,其特征在于,所述个体出行记录聚合包括:
基于个体乘客的ID和出行时间,将每一位个体乘客的历史出行信息按照刷卡时间排序并聚合成集合R'={r1,r2,…,r|R'|},其中ri表示此乘客的一次出行交易记录;
所述异常信息剔除包括:
剔除只记录乘客的进站记录没有出站记录,或者只有出站记录没有进站记录的情况,从R'过滤后的个体乘客出行记录集合记作R={r1,r2,…,r|R|}。
5.根据权利要求4所述的地铁个体乘客目的站点实时预测方法,其特征在于,所述对所述乘客历史出行信息进行群体特征提取包括:提取从SO站进站的群体的出行目的站点分布信息Fd,针对一周各天提取群体的出行特征,最终形成7×K×|S|维张量Fs;其中7表示一周7天,K表示一天的时间段数量,|S|表示站点数量。
6.一种地铁个体乘客目的站点实时预测装置,其特征在于,包括:
信息获取单元,用于从自动收费系统所收集到的智能交通卡交易数据中获取乘客历史出行信息;
特征提取单元,用于对所述乘客历史出行信息进行个人特征提取、群体特征提取和上下文特征提取;
模型预测单元,用于构建随机森林模型,将所述乘客历史出行信息中的个人特征、群体特征和上下文特征输入至随机森林模型,由所述随机森林模型输出乘客的地铁目的站点。
7.一种存储介质,其特征在于,所述存储介质存储有能够实现权利要求1至5中任意一项所述地铁个体乘客目的站点实时预测方法的程序文件。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的地铁个体乘客目的站点实时预测方法。
CN201911274492.2A 2019-12-12 2019-12-12 一种地铁个体乘客目的站点实时预测方法及装置 Active CN112990518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911274492.2A CN112990518B (zh) 2019-12-12 2019-12-12 一种地铁个体乘客目的站点实时预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911274492.2A CN112990518B (zh) 2019-12-12 2019-12-12 一种地铁个体乘客目的站点实时预测方法及装置

Publications (2)

Publication Number Publication Date
CN112990518A CN112990518A (zh) 2021-06-18
CN112990518B true CN112990518B (zh) 2022-12-02

Family

ID=76332073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911274492.2A Active CN112990518B (zh) 2019-12-12 2019-12-12 一种地铁个体乘客目的站点实时预测方法及装置

Country Status (1)

Country Link
CN (1) CN112990518B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114550088B (zh) * 2022-02-22 2022-12-13 北京城建设计发展集团股份有限公司 一种多摄像头融合的乘客识别方法、系统及电子设备
CN115545759B (zh) * 2022-09-27 2023-05-19 暨南大学 一种基于动态定价机制的乘客出行意图挖掘方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105890600A (zh) * 2016-04-14 2016-08-24 南京大学 基于手机传感器的地铁乘客位置推测方法
CN108966148A (zh) * 2018-08-10 2018-12-07 深圳北斗应用技术研究院有限公司 出行信息的预测方法、服务器及存储介质
WO2019084012A1 (en) * 2017-10-24 2019-05-02 Metropia, Inc. SYSTEM FOR MANAGING TARGET CIRCULATION ALERTS
GB201907502D0 (en) * 2019-05-28 2019-07-10 Sita Information Networking Computing Uk Ltd System and method for flight arrival time predicition
CN110377685A (zh) * 2019-07-23 2019-10-25 中国联合网络通信集团有限公司 一种基于机器学习的到站提醒方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489637B2 (en) * 2013-04-29 2016-11-08 Here Global B.V. Method and apparatus for deriving spatial properties of bus stops and traffic controls

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105890600A (zh) * 2016-04-14 2016-08-24 南京大学 基于手机传感器的地铁乘客位置推测方法
WO2019084012A1 (en) * 2017-10-24 2019-05-02 Metropia, Inc. SYSTEM FOR MANAGING TARGET CIRCULATION ALERTS
CN108966148A (zh) * 2018-08-10 2018-12-07 深圳北斗应用技术研究院有限公司 出行信息的预测方法、服务器及存储介质
GB201907502D0 (en) * 2019-05-28 2019-07-10 Sita Information Networking Computing Uk Ltd System and method for flight arrival time predicition
CN110377685A (zh) * 2019-07-23 2019-10-25 中国联合网络通信集团有限公司 一种基于机器学习的到站提醒方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于无偏灰色残差理论的铁路客运量预测研究;吴华稳;《铁道运输与经济》;20190523;第121-126页 *

Also Published As

Publication number Publication date
CN112990518A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN109035770B (zh) 一种大数据环境下公交载客量实时分析预测方法
Ma et al. Transit smart card data mining for passenger origin information extraction
WO2021243516A1 (zh) 城市公共交通乘客出行轨迹估计方法、系统、终端以及存储介质
EP2667333A1 (en) System and method for estimating origins and destinations from identified end-point time-location stamps
CN106529711B (zh) 用户行为预测方法及装置
CN114331234B (zh) 基于乘客出行信息的轨道交通客流预测方法和系统
CN110874668B (zh) 一种轨道交通od客流预测方法、系统及电子设备
CN112990518B (zh) 一种地铁个体乘客目的站点实时预测方法及装置
CN111027929B (zh) 地铁票务清分方法及装置
CN114358808A (zh) 基于多源数据融合的公交od估计及分配方法
Li et al. Predicting home and work locations using public transport smart card data by spectral analysis
CN112686417B (zh) 一种地铁大客流预测方法、系统及电子设备
CN116663811A (zh) 一种城际客运的往返动态拼车的调度匹配方法和装置
CN116913073A (zh) 道路拥堵预测方法、装置、设备及计算机存储介质
CN105303245A (zh) 交通分析系统以及交通分析方法
CN106295868A (zh) 交通出行数据处理方法及装置
CN108242146A (zh) 基于公交卡数据分析乘客乘车站点及时间的方法和系统
CN112860766B (zh) 一种公交运行车次认定方法及装置
Mosallanejad et al. Origin-destination estimation of bus users by smart card data
CN112926796A (zh) 一种基于特定场景的下车点推荐方法及装置
CN114997454A (zh) 地铁交通系统的流量预测方法及装置
Attili The demand for public transport: analysis of mobility patterns and bus stops
CN111598333B (zh) 客流数据的预测方法及装置
CN111310961A (zh) 数据预测方法、装置、电子设备和计算机可读存储介质
CN114090704B (zh) 乘客的识别方法和识别装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant