CN114936959B - 实现车辆匹配和乘客上车点的识别方法 - Google Patents

实现车辆匹配和乘客上车点的识别方法 Download PDF

Info

Publication number
CN114936959B
CN114936959B CN202210688789.9A CN202210688789A CN114936959B CN 114936959 B CN114936959 B CN 114936959B CN 202210688789 A CN202210688789 A CN 202210688789A CN 114936959 B CN114936959 B CN 114936959B
Authority
CN
China
Prior art keywords
vehicle
bus
time
card swiping
card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210688789.9A
Other languages
English (en)
Other versions
CN114936959A (zh
Inventor
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Urban-Rural Construction And Transportation Development Research Institute
Original Assignee
Shanghai Urban-Rural Construction And Transportation Development Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Urban-Rural Construction And Transportation Development Research Institute filed Critical Shanghai Urban-Rural Construction And Transportation Development Research Institute
Priority to CN202210688789.9A priority Critical patent/CN114936959B/zh
Publication of CN114936959A publication Critical patent/CN114936959A/zh
Application granted granted Critical
Publication of CN114936959B publication Critical patent/CN114936959B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Time Recorders, Dirve Recorders, Access Control (AREA)

Abstract

本发明公开了一种实现车辆匹配和乘客上车点的识别方法。本申请利用机器学习的方法,动态建立起跨系统的车辆关联,并实现乘客上车点的识别。本发明在梳理公交运营特征及乘客接驳特征等个性特征的基础上,挖掘、简化两个孤立系统中的车辆动态特征,并以之为车辆的独立标识,通过引入个性特征归一化、误差最优及相似性度量等方法,为车辆在两个系统中的独立标识寻找关联关系;并结合聚类方法实现乘客上车点的识别。

Description

实现车辆匹配和乘客上车点的识别方法
技术领域
本发明属于交通规划领域,尤其是一种基于IC刷卡和公交轨迹数据实现车辆匹配和乘客上车点的识别方法。
背景技术
公交客流的时空分布特征是研究公交客流趋势演变及公交服务水平评价的重要内容,也是公交规划及管理措施有的放矢的数据基础。以往以人工方式开展的驻站调查、跟车调查是传统的公交客流数据的获取途径,组织难度异常大和代价异常高使交通工作者开始寻求借助信息化的解决方案。
一方面,要取代传统人工方式开展的公交客流调查,为公交规划、管理等需求提供现状公交客流的量化基础,满足精细化、定周期、全样本化的供给需求;一方面,在上海,公交车轨迹采集系统和IC刷卡数据系统彼此孤立,没有关于车辆的关联记录,阻碍了公交客流的深化应用。
另一个技术背景是,建立于1999年的上海公交IC卡系统,以解决交通系统的信息化缴费和清分为主要目的,对车辆的位置记录不在其设计框架内;其次pos机是车载端的刷卡设备,分为固定式和移动式两种,地面公交采用的移动式/手持式的pos机,没有空间定位能力,地铁系统采用的是固定式pos机,其位置可间接获得。
关于特征及归一化
特征是一事物异于其他事物的特点,于己而言,特征是某些突出性质的表现,于他而言,特征是区分其他事物的关键。特征的来源一般有:1)业务过程中已经整理好各种特征数据,我们需要去找出其中适合的;2)是我们从业务特点中去挖掘更高级层面的数据。即另一个子问题--特征选择,它是机器学习的重要组成部分。从特征集合中挑选一组最具统计意义的子集,从而达到降维的效果,突出差异性,忽略无关类型。
归一化。为了便于不同单位或量级的指标能够进行比较和加权,我们往往需要对特征进行归一化处理。其通常的处理是将不同维度的特征统一到一个大致相同的数值区间内,典型的处理如将数据统一映射到[0,1]区间上,即使原先扁平分布的数据伸缩变换成类圆形,也不会改变原始数据自身的分布。
关于相似性度量
相似性度量,即综合评定两个事物之间相近程度的一种度量,用数量化方法描述事物间的相似程度。两个事物越接近,它们的相似性也就越大,而两个事物越疏远,它们的相似性也就越小。相似性度量的方法种类繁多,一般根据实际问题进行选用。常用的相似性度量方法有:距离(如汉明距离、曼哈顿距离等)、角度(如向量余弦值)、聚类分析等。其中,度量距离可分细为:欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、夹角余弦、汉明距离、杰卡德距离&杰卡德相似系数、相关系数&相关距离、信息熵等。
关于相似案例
国内针对公交站点上下客量的定位研究案例较多,主要是得益于当地的公交IC刷卡系统中预留了公交线路和公交车辆ID的信息,使IC刷卡客流能方便地对应到车辆的空间位置;而上海公交IC刷卡系统中由于没有对公交车辆ID或空间位置的描述,较长时间地迟滞了对全市域公交动态客流的解读能力,而更多的是依靠传统人工方式针对少量抽样线路的公交客流调查与公交专项模型相结合的方式。
面临的问题包括:
设计缺陷使跨系统的关联缺失
目前上海的公交大数据主要有公交IC卡数据、公交GPS数据、互联网地图数据等。建立于1999年的上海公交IC卡系统,以解决交通系统的信息化缴费和清分为主要目的,位置记录不在其功能框架内,因此没有预留反映空间位移的字段,同时,上海公交IC卡系统中也没有预留记录车辆标识的字段,与之语义呼应相近的是pos机编号。
从数据结构表看待关联缺失更容易,如图1:
在实际运营中,手持pos机大部分时间是与司售人员绑定,若发生司售人员更换车辆、pos机不稳定与备用机调换等都会打破现有pos机与车辆间的绑定状态。因此,动态建立车辆与pos机每天的绑定关系很关键。
数据缺陷降低车辆的辩认度
公交GPS数据的缺陷主要体现:a)数据丢包,在车辆轨迹实时回报、传输、接收、转发、处理的数据链条中,各个环节衔接松散,数据丢包不可避免,在运营时段以及反映公交到站事件的轨迹集丢失对分析的影响较大;b)非运营状态的数据冗余,车辆轨迹的回报不按车辆的运营状态而区分,非运营状态产生了大量冗余轨迹,对挖掘分析有干扰。
公交IC数据的直接缺陷在于没有预留反映乘客刷卡位置的字段信息,间接缺陷在于没有预留车辆标识的字段信息。
发明内容
本发明针对背景技术中存在的的问题,旨在利用机器学习的方法,动态建立起跨系统的车辆关联,并实现乘客上车点的识别。本发明在梳理公交运营特征及乘客接驳特征等个性特征的基础上,挖掘、简化两个孤立系统中的车辆动态特征,并以之为车辆的独立标识,通过引入个性特征归一化、误差最优及相似性度量等方法,为车辆在两个系统中的独立标识寻找关联关系;并结合聚类方法实现乘客上车点的识别。
技术方案:
一种基于IC刷卡和公交轨迹数据实现车辆匹配和乘客上车点的识别方法,它包括以下步骤:
S1、数据初始化:进行动态数据整理;
所述动态数据包括:按公交线路、车辆ID整理公交车的GPS数据;按公交线路、pos机ID整理乘客IC卡的刷卡数据;按乘客IC卡的卡号整理乘客的刷卡数据;并进行时间排序;
S2、车辆运营特征整理及归一化;
从实际运营过程中挖掘反映车辆个性差异的时间特征,并形成相互可比的符号化基础;获得归一化的车辆运营特征;
S3、接驳特征整理及归一化处理;
在实际运营中挖掘从轨道至最大接驳量站点的乘客上车时间与公交车到站的相互关系,并形成符号化的可比基础;获得归一化的接驳特征;
S4、利用相似性度量法,按线路对归一化的车辆特征值搜索1:1关系,找出跨系统中具有相同车辆特征值的车辆关联,实现车辆匹配;
所述跨系统指:来源不同的IC刷卡数据系统和公交GPS数据系统;
所述车辆特征值包括包含了车辆运营特征和接驳特征,其中:有接驳条件的线路用接驳特征搜索,没有接驳条件的公交线路用运营特征搜索;
所述接驳条件是公交线路的固有属性,当公交线路站点临近轨道站(一般500米半径范围,做基础资料可以适当增加到600m),该线路与轨道就有了的接驳条件;
S5、利用公交到站时刻表和刷卡流水数据,进行刷卡记录定位,获得乘客上车点。
优选的,S2中,车辆运营特征整理及归一化包括:
S21、运营特征值整理,结合公交GPS数据和公交站点位置,按公交线路进行空间处理,梳理出各辆车的到站时间表;利用IC刷卡数据,按公交线路梳理出各个pos机的刷卡时间序列;
S2、运营特征值归一化处理,分别将公交到站时间表和pos机刷卡时间序列归一化。
优选的,S3中,接驳特征整理及归一化包括:
S31、接驳特征值整理,按公交线路梳理出公交车到达接驳量最大的公交站的时间表;利用IC刷卡数据按线路梳理出该站的刷卡时间序列;
S32、分别对公交车到接驳站时间表和接驳乘客登车时间序列作归一化处理。
优选的,S4中,针对没有接驳条件的公交线路用运营特征搜索,具体步骤为:
设定四个变量,分别对每个时间片的车辆运行状态和刷卡状态的交叉情况进行定义,M00代表车辆没有运行且没有刷卡;M01代表车辆没在运行状态但有刷卡;M10代表车辆在运行状态且没有刷卡;M11代表车辆在运行且有刷卡;
S411、设定两个嵌套循环,将代表车辆ID与pos机ID的字符串作交叉比对;
S412、计算车辆第首-末个运营时间片之间M00、M01、M10、M11的数量;
S413、计算相似系数J(A,B),公式如下:
Figure GDA0004130420110000041
其中:A、B是分别取自车辆GPS轨迹和IC刷卡的编码值;相似系数越接近1,则代表两个样本越相似;
S414、选出相似性最高的车辆ID与pos机ID字符串对,即两者所代表的运营情况相似。
优选的,S4中,针对有接驳条件:的线路用接驳特征搜索,具体步骤为:
设定两个变量,从换乘乘客到站刷卡的角度来考察车辆到站时间的匹配情况,C01代表车辆没到站但有换乘乘客上车刷卡;C11代表车辆到站且有换乘乘客刷卡;
S421、设定两个嵌套循环,将代表车辆ID与pos机ID的字符串作交叉比对:
S422、按定义计算C01、C11值;
S423、计算相似系数β,公式如下:
Figure GDA0004130420110000042
若β=1,则表示所有发生换乘乘客登车的时刻,对应车辆均在车站到站停留;
S424、选出β值最高的车辆ID与pos机ID字符串对,即两者所反映的接驳时间点吻合。
优选的,S5的具体步骤为:
S51、调整IC刷卡系统与公交gps系统的时钟偏差dt;
S52、以有刷卡记录的中间站公交到站时刻为核心点,对刷卡数据进行站点归类。
优选的,S51中,时钟偏差dt通过下式获得:
dt=1/k∑i(tstopi–avg_tIC)
avg_tIC=1/n∑itIC
式中:tIC表示2分钟半径内与第i站到达时间点对应的刷卡时间;avg_tIC表示2分钟半径内与i站时间点对应的平均刷卡时间;tstopi代表车辆到达第i站的时刻;k代表参与计算的公交到站时间点的个数。
优选的,S52中,归类的具体步骤为:比较刷卡时间与车辆到站时刻,按最小时间差完成乘客登车时间至站点的归类,与末站时间相近的乘客归类到逆向首站登车,与中间站时间相近的按中间站归类,在首站发车前登车的乘客按首站位置计。
本发明的有益效果
鉴于IC刷卡数据没有记录乘客的刷卡位置,需要借助公交车GPS轨迹的定位能力给乘客赋坐标值,因此本发明的目的在于找到IC刷卡库与公交GPS库之间的联系,由于线路间联系间接可得,而车辆间关联有动态变化的客观因素,本发明旨在a)利用机器学习的方法,动态建立起跨系统的车辆关联,并按日梳理这种关联关系;b)并实现乘客上车点的识别。
通过识别车辆关联,间接完成对乘客刷卡的站点位置识别,实现公交乘客时空分析及相关研究的推进。
附图说明
图1为背景技术中公交轨迹表和公交IC刷卡数据表的关键元素梳理图
图2为实施例中公交轨迹数据及列举两辆公交的运行图
图3为运营特征归一化示意图
图4为实施例中以123路为实例的接驳站挑选示例图
图5为按杰卡德相似系数计算关联的图示
图6为基于接驳特征的关联识别图示
图7为实施例中GPS轨迹数据表结构(左)和样例线路的轨迹分布图(右)
图8为实施例中公交IC刷卡数据图
图9为实施例中公交站数据实例(上)上海市公交站点分布图(下)
图10为实施例中公交运行图及车辆运营特征投影(以123路的8辆车为例)
图11为实施例中地面公交与轨道换乘候选表及123路接驳站图示
图12为实施例中站点上客量分布图
图13为实施例中分线路的相关性检验对比图
图14为接驳特征整理流程图
图15为本发明车辆匹配及上车点识别流程图
具体实施方式
下面结合实施例对本发明作进一步说明,但本发明的保护范围不限于此:
结合图15,一种基于IC刷卡和公交轨迹数据实现车辆匹配和乘客上车点的识别方法,它包括以下步骤:
S1数据初始化
动态数据整理,以满足车辆特征和乘客出行特征的处理要求。包括:按公交线路、车辆ID整理公交车GPS数据;按公交线路、pos机ID(代表车辆)整理IC卡刷卡数据;按IC卡号(代表乘客)整理乘客的刷卡数据;并按时间排序以符合车辆、乘客的特征挖掘在时间轴上的梳理要求。
S2车辆运营特征整理及归一化
从实际运营过程中挖掘反映车辆个性差异的时间特征,并形成相互可比的符号化基础。(构成车辆运营差异的因素很多,但主要基于以下客观逻辑的综合:每辆车的排班不同、道路的分时拥堵不同、各站点的停留时长有差异等。)
S21运营特征值整理。结合公交GPS数据和公交站点位置,按公交线路进行空间处理,梳理出各辆车的到站时间表;利用IC刷卡数据,按公交线路梳理出各个pos机的刷卡时间序列。
按线路梳理每辆车的到站时间表,具体为1)按照车辆到达首末站的次序,确定车辆的行驶方向(如:巴林路站->人民广场站及人民广场站->巴林路站),按方向细分车辆到达各公交站的时间表(其中,到站时刻以车辆跨过站点的时间为准)。用到站时间表绘制的运行图如图2所示。到站时间表(Tab_stop)的关键字段为:车辆编号,线路名称,方向,站点序号,站点名称,到站时间。
S22运营特征归一化处理。分别将公交到站时间表和pos机刷卡时间序列归一化;
归一化的目的在于用符号化的形式标识车辆的运营状态,建立与pos机刷卡时序特征的可比较基础。结合图3,归一化采用“零和”原则进行编码。公交运营特征的归一化具体为:将全天24小时切成288个时间片,每个时间片5分钟时长,以0/1标识所在时间片的运营状态,0代表非运营状态,即车辆不在首末站间的区段;1代表运营状态,即车辆位于首末站间的区段行驶,由此每辆车的运营均可抽象成288位字长的字符串。
刷卡数据的归一化具体为:将24h的刷卡流水数据切成288个时间片,每个时间片5分钟,以0/1标识每个时间片的刷卡状态(有刷卡则标1,没有则标0,以标识pos机的使用状态为主,不计数),为每个pos机ID编制一个288位字长的字符串,与车辆ID基本形成对应。
S3接驳特征整理及归一化处理
结合图14,借助轨道站点在刷卡记录中可间接定位的特点,以及地面公交与轨道间较大的接驳需求,在实际运营中挖掘从轨道至公交站点的乘客上车时间与公交车到站的相互关系,并形成符号化的可比基础。(仅以接驳乘客登车时间参与分析,可有效降低因车辆GPS轨迹随机丢失而对运营特征形成误判的可能,因减少了度量相似性所需的特征量,可有效提高度量的准确率。)
S31接驳特征值整理。按公交线路梳理出公交车到达接驳量最大的公交站的时间表;利用IC刷卡数据按线路梳理出该站的刷卡时间序列;
结合图4,在IC刷卡数据中为每条公交线路(仅有接驳条件的线路)找出与轨道接驳量最大的轨道站,以及与该公交线路空间距离最近的公交站。分别从车辆运行时间表和刷卡表整理出与该接驳站相关的车辆到站时间记录和接驳乘客登车时间记录。即:
车辆运行方面,(按线路)仅梳理出公交车到达该接驳量最大的公交站的到站时间表,格式与S1相同;
刷卡数据方面,(按线路)仅梳理出从该接驳量最大的轨道站30分钟内有换乘记录的乘客登车时间,及所登车辆的pos机ID,格式与S1相同。
S32接驳特征归一化处理。分别对公交车到接驳站时间表和接驳乘客登车时间序列作归一化处理,方法与S2相似,即:将24h切成288个时间片,每个时间片5分钟,车辆运行方面,以0/1标识车辆的到达情况,车辆到达接驳车站则标识1,未到达或离开则标0;刷卡数据方面,以0/1标识接驳乘客的登车(刷卡)情况,有接驳乘客在该(接驳量最大的)公交站登车则标1,没有则标0,且仅以描述有接驳乘客上车事件发生为主,不对接驳量计数。由此,可分别得到以车辆ID和pos机ID为唯一号的288位字长的字符串编码。
S4利用相似性性度量法,按线路对归一化的车辆特征值搜索1:1关系,找出跨系统中具有相同活动特征(而标识不同)的车辆关联。其中有接驳条件的线路用接驳特征搜索,没有接驳条件的公交线路用运营特征搜索。
S41针对没有接驳条件的公交线路,使用公交运营特征搜索关联关系
结合图5,具体为:设定四个变量,分别对每个时间片的车辆运行状态和刷卡状态的交叉情况进行定义,如:M00代表车辆没有运行且没有刷卡;M01代表车辆没在运行状态但有刷卡;M10代表车辆在运行状态且没有刷卡;M11代表车辆在运行且有刷卡。其中M11和M00是正常状态,M01和M10是非正常状态。
1)设定两个嵌套循环,将代表车辆ID与pos机ID的288字长字符串作交叉比对:
2)计算车辆第首-末个运营时间片之间M00、M01、M10、M11的数量;
3)计算相似系数J(A,B),公式如下:
Figure GDA0004130420110000081
其中:A、B是分别取自车辆GPS轨迹和IC刷卡的编码值。
相似系数越接近1,则代表两个样本越相似。
选出相似性最高的车辆ID与pos机ID字符串对,即两者所代表的运营情况相似。
S42针对有接驳条件的公交线路,使用基于接驳特征的关联关系搜索。
过滤出最大接驳量的站点后,仅反映车辆到站及接驳乘客上车的字符串较前者稀疏了很多,关联搜索类似于点对点的操作。同时需要解释的是:1)由于有些时段(多发生在非高峰时段)可能存在车辆到站而无从轨道换乘而来的乘客登车,因此针对接驳特征的关联梳理仅以有刷现象的时间片发起。2)GPS时钟系统可能与IC卡的时钟系统有偏差,因此,在点对点搜索效果不佳时需要同时兼容前后时间片的标识值。
结合图6,具体为:设定两个变量,主要从换乘乘客到站刷卡的角度来考察车辆到站时间的匹配情况,因此如下图所示定义:C01代表车辆没到站但有换乘乘客上车刷卡;C11代表车辆到站且有换乘乘客刷卡。其中C11是正常状态,C01是非正常状态。
1)设定两个嵌套循环,将代表车辆ID与pos机ID的288字长字符串作交叉比对:
2)按定义计算C01、C11值;
3)计算相似系数β,公式如下:
Figure GDA0004130420110000082
若β=1,则意味着所有发生换乘乘客登车的时刻,对应车辆均在车站到站停留。
4)选出β值最高(即相似性最高)的车辆ID与pos机ID字符串对,即两者所反映的接驳时间点基本吻合。
S5利用公交到站时刻表和刷卡流水数据,给每个刷卡记录定位。
1)调整IC刷卡系统与公交gps系统的时钟偏差。按照正常逻辑(即公交首站等客时间长,末站不上客,部分站点可能没有乘客登车),设计过程。具体为:将所有中间站的车辆到站时刻与对应的首次刷卡时间对应,a)用1分钟聚合刷卡时间和公交到站(仅中间站点)的时间,b)按刷卡数据筛选公交的到站时间点,过滤掉没有乘客上车的站点时间点,c)在每个站点时间点周边寻找刷卡时间点,按2分钟半径计算对应的刷卡时间平均值,和dt,
Figure GDA0004130420110000091
其中:
tIC代表2分钟半径内与第i站到达时间点对应的刷卡时间;
avg_tIC代表2分钟半径内与i站时间点对应的平均刷卡时间;
tstopi代表车辆到达第i站的时刻;k代表参与计算的公交到站时间点的个数;
按若存在整体偏差,则用dt修正该时间偏差;
以公交到站时刻为核心点,对刷卡数据进行站点归类,具体为,比较刷卡时间与车辆到站时刻,按最小时间差完成乘客登车时间至站点的归类,与末站时间相近的乘客归类到逆向首站登车,与中间站时间相近的按中间站归类,在首站发车前登车的乘客按首站位置计。
案例分析:
以上海市2019年5月的公交刷卡数据和公交车gps数据为例,以及同时整理出该时间段的公交站点基础数据,如图7所示,IC刷卡数据的基本结构以及某个pos机按时间轴汇总后成簇状的客流如图8所示,上海每年的公交线路调整量平均在一百多条左右,经过人工整理后的公交站点数据的基本结构和空间分布图如图9所示。
步骤S1
关于车辆运营特征的梳理,由车辆轨迹数据和站点数据经空间运算得到全市1500多条线的公交实际到站数据,简化后获得时间轴上的投影特征,为归一化提供基础。
图10中以8辆车为例,显示了各自不同的运营时间投影,后期分析将对此投影作288位字长的符号化处理。
步骤S2
关于接驳特征的简化中,分线路挖掘接驳乘客最多的轨道站点和临近公交站点,该步骤将对市域内所有公交线路作遍历处理,从实际接驳客流梳理出发,整理出线路中有条件接驳的站点,如图11所示。以123路为例,当日最大客流所在站点为人民广场站,相关的轨道站点是1、2、8号线的人民广场站。
由于123路公交线有与轨道接驳的条件,且经刷卡数据计算,人民广场是接驳量最大的车站,因此123路的车辆关联识别将以接驳特征为主,即步骤S42;对于没有接驳条件的公交线路,则以运营特征为主识别车辆关联,采用步骤S41。
步骤S4
关联识别的结果按每个统计日动态更新,样例如下表:
日期 线路编号 车辆ID(GPS) POS机编号(IC)
20190515 10123 沪B-97451 11109454
20190515 10123 沪B-97477 11107506
20190515 10123 沪B-97543 11103715
20190515 10123 沪B-97646 11101670
20190515 10123 沪B-97853 11101099
20190515 10123 沪B-97872 11102655
20190515 10123 沪B-97903 11105499
20190515 10123 沪B-97913 11101009
20190515 10123 沪B-97931 11102638
20190515 10123 沪B-97933 11106175
20190515 10123 沪B-97935 11106437
20190515 10123 沪B-97940 11109328
20190515 10123 沪B-97943 11103767
20190515 10123 沪B-97947 11100990
20190515 10123 沪B-98572 11107273
20190515 10123 沪B-98643 11104967
步骤S5
识别后,刷卡乘客上车点的结果如下表及图12:
Figure GDA0004130420110000111
校验:
本发明可实现公交乘客的上车点识别,为验证所得的公交站点上客量结果的准确性,最终由第三方单位组织了4个公交走廊(分别是龙吴路、浦东南路-上南路、浦建路-沪南路、肇嘉浜路-陆家浜路,即三条放射性一条中心区内)19条公交线路的公交客流调查,以全样本方式采集被调查线路的所有班次、所有站点的上、下客流量,由于数据采集量大,调查按线路分批开展,最终的调查实施时间为2020年9月21日-24日。以调查线路的站点上客量作为本发明描述的方法校验依据。站点上客量的相关性检验汇总表如下:
Figure GDA0004130420110000112
分线路的相关性检验如图13所示。检验将按线路以线性回归的方法,对两种途径(本发明推算和跟车调查)获得的站点客流进行相关性检验。若相关度(即R2)高,则推算数据的可信度高。由于调查数据跨度大,与待检验的数据取自不同工作日(即,IC卡客流取自2019年5月,跟车调查日期为2020年9月),分线路的日客运量会存在不同的折减系数。在回归运算中,系数a是不同日客流的折减关系指标,R2是样本间的相关性指标,检验结果显示,两者呈现了较强的相关性,16条线路的R2平均值为0.88。检验显示,本发明推算的客流的准确性较高。
本发明基于公交车GPS数据和公交IC卡刷卡数据,克服系统设计先天缺陷和数据缺陷,实现跨系统的车辆匹配和公交上车点的识别,满足规划及管理应用中对公交客流的定位分布需求,相较于以往人工跟车调查方式更具可行性、结果更加真实准确,且符合速度快、实施代价小的更新要求,能更切实际地满足数据应用需求。
本发明从车辆的实际运营中挖掘个体差异,探索跨系统的车辆关联识别的通用技术路径,方法上以机器学习理论为基础,将个体特征挖掘、归一化处理、相似性度量等方法整合,考虑到公交线路有(无)与轨道接驳条件的区别,设计了两条可行途径,即有轨道接驳条件的公交线路可使用接驳乘客相关特征进行车辆关联识别,反之使用车辆全天运营特征为基础的车辆识别法。车辆存在个体差异是本发明实现有效识别的基础,由于它建立在:同一公交线中每辆车的排班不同、道路的分时拥堵不同、车辆在各站点的停留时长不同等独立的客观逻辑上,因此本发明具有较好的通用性;同时利用接驳乘客登车时间特征建立的关联识别方法,可有效弥补因车辆GPS轨迹丢失而引起运营时长误判的缺陷,使本发明具有较好的兼容性。
实验证明,该发明的识别结果准确性高,在与第三方主持开展的人工跟车调查的结果比较中,显示了很好的可信度。(人工调查选用4个公交走廊19条公交线,以站点上客量作比照)。
本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (4)

1.一种实现车辆匹配和乘客上车点的识别方法,其特征在于它包括以下步骤:
S1、数据初始化:进行动态数据整理;
所述动态数据包括:按公交线路、车辆ID整理公交车的GPS数据;按公交线路、pos机ID整理乘客IC卡的刷卡数据;按乘客IC卡的卡号整理乘客的刷卡数据;并进行时间排序;
S2、车辆运营特征整理及归一化;
从实际运营过程中挖掘反映车辆个性差异的时间特征,并形成相互可比的符号化基础;获得归一化的车辆运营特征;
S3、接驳特征整理及归一化处理;
在实际运营中挖掘从轨道至最大接驳量站点的乘客上车时间与公交车到站的相互关系,并形成符号化的可比基础;获得归一化的接驳特征;
S4、利用相似性度量法,按公交线路对归一化的车辆特征值搜索1:1关系,找出跨系统中具有相同车辆特征值的车辆关联,实现车辆匹配;
针对没有接驳条件的公交线路用运营特征搜索,具体步骤为:
设定四个变量,分别对每个时间片的车辆运行状态和刷卡状态的交叉情况进行定义,M00代表车辆没有运行且没有刷卡;M01代表车辆没在运行状态但有刷卡;M10代表车辆在运行状态且没有刷卡;M11代表车辆在运行且有刷卡;
S411、设定两个嵌套循环,将车辆ID与pos机ID的字符串作交叉比对;
S412、计算车辆第首-末个运营时间片之间M00、M01、M10、M11的数量;
S413、计算相似系数J(A,B),公式如下:
Figure FDA0004130420100000011
其中:A、B是分别取自车辆GPS轨迹和IC刷卡的编码值;相似系数越接近1,则代表两个样本越相似;
S414、选出相似性最高的车辆ID与pos机ID字符串对,即两者所代表的运营情况相似;
针对有接驳条件的公交线路用接驳特征搜索,具体步骤为:
设定两个变量,从换乘乘客到站刷卡的角度来考察车辆到站时间的匹配情况,C01代表车辆没到站但有换乘乘客上车刷卡;C11代表车辆到站且有换乘乘客刷卡;
S421、设定两个嵌套循环,将车辆ID与pos机ID的字符串作交叉比对:
S422、按定义计算C01、C11值;
S423、计算相似系数β,公式如下:
Figure FDA0004130420100000021
若β=1,则表示所有发生换乘乘客登车的时刻,对应车辆均在车站到站停留;
S424、选出β值最高的车辆ID与pos机ID字符串对,即两者所反映的接驳时间点吻合;
所述跨系统指:来源不同的IC刷卡数据系统和公交GPS数据系统;
所述车辆特征值包括包含了车辆运营特征和接驳特征,其中:有接驳条件的公交线路用接驳特征搜索,没有接驳条件的公交线路用运营特征搜索;
S5、利用公交到站时刻表和刷卡流水数据,进行刷卡记录定位,获得乘客上车点;S5的具体步骤为:
S51、调整IC刷卡系统与公交gps系统的时钟偏差dt;S51中,时钟偏差dt通过下式获得:
dt=1/k∑i(tstopi–avg_tIC)
avg_tIC=1/n∑itIC
式中:tIC表示2分钟半径内与第i站到达时间点对应的刷卡时间;avg_tIC表示2分钟半径内与i站时间点对应的平均刷卡时间;tstopi代表车辆到达第i站的时刻;k代表参与计算的公交到站时间点的个数;
S52、以有刷卡记录的中间站的公交到站时刻为核心点,对刷卡数据进行站点归类。
2.根据权利要求1所述的方法,其特征在于S2中,车辆运营特征整理及归一化包括:
S21、运营特征值整理,结合公交GPS数据和公交站点位置,按公交线路进行空间处理,梳理出各辆车的到站时间表;利用IC刷卡数据,按公交线路梳理出各个pos机的刷卡时间序列;
S2、运营特征值归一化处理,分别将公交到站时间表和pos机刷卡时间序列归一化。
3.根据权利要求1所述的方法,其特征在于S3中,接驳特征整理及归一化包括:
S31、接驳特征值整理,按公交线路梳理出公交车到达接驳量最大的公交站的时间表;利用IC刷卡数据按公交线路梳理出该站的刷卡时间序列;
S32、分别对公交车到接驳站时间表和接驳乘客登车时间序列作归一化处理。
4.根据权利要求1所述的方法,其特征在于S52中,归类的具体步骤为:比较刷卡时间与车辆到站时刻,按最小时间差完成乘客登车时间至站点的归类,与末站时间相近的乘客归类到逆向首站登车,与中间站时间相近的按中间站归类,在首站发车前登车的乘客按首站位置计。
CN202210688789.9A 2022-06-17 2022-06-17 实现车辆匹配和乘客上车点的识别方法 Active CN114936959B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210688789.9A CN114936959B (zh) 2022-06-17 2022-06-17 实现车辆匹配和乘客上车点的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210688789.9A CN114936959B (zh) 2022-06-17 2022-06-17 实现车辆匹配和乘客上车点的识别方法

Publications (2)

Publication Number Publication Date
CN114936959A CN114936959A (zh) 2022-08-23
CN114936959B true CN114936959B (zh) 2023-05-23

Family

ID=82868283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210688789.9A Active CN114936959B (zh) 2022-06-17 2022-06-17 实现车辆匹配和乘客上车点的识别方法

Country Status (1)

Country Link
CN (1) CN114936959B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359670A (zh) * 2018-09-18 2019-02-19 北京工业大学 一种基于交通大数据的个体关联强度自动检测方法
CN110188803A (zh) * 2019-05-16 2019-08-30 南京图申图信息科技有限公司 基于出租车轨迹数据的出行时空模式识别方法与系统
CN110197335A (zh) * 2019-06-04 2019-09-03 湖南智慧畅行交通科技有限公司 一种基于概率od分布模型的下车站点人数计算方法
JP2020135231A (ja) * 2019-02-15 2020-08-31 株式会社日立製作所 交通需要予測装置及び交通需要予測システム
CN111862662A (zh) * 2020-07-21 2020-10-30 上海晨擎信息科技有限公司 一种基于公交运行数据的公交线路调整监测方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250952A (ja) * 2004-03-05 2005-09-15 Toshiba Corp バスの制御装置とバス運行管理装置とバス運行管理システム
JP2005091372A (ja) * 2004-11-08 2005-04-07 Zenrin Co Ltd 経路探索装置
JP5785869B2 (ja) * 2011-12-22 2015-09-30 株式会社日立製作所 行動属性分析プログラムおよび装置
CN103198565A (zh) * 2013-04-12 2013-07-10 王铎源 一种公交ic卡收费与客流信息采集方法
CN104751536A (zh) * 2013-12-25 2015-07-01 中兴通讯股份有限公司 一种公交站点优化评估方法和系统
JP6477087B2 (ja) * 2015-03-19 2019-03-06 株式会社豊田中央研究所 車両検索システム
CN106448233B (zh) * 2016-08-19 2017-12-05 大连理工大学 基于大数据的公交线路时刻表协同优化方法
CN106919953B (zh) * 2017-02-23 2021-03-16 北京工业大学 一种基于轨道交通数据分析的异常出行群体识别方法
CN109523819B (zh) * 2018-11-20 2021-04-06 湖南智慧畅行交通科技有限公司 一种基于公交到离站的乘客ic卡数据与站点匹配方法
CN109637134B (zh) * 2018-12-28 2021-03-23 青岛大学 一种公交设备匹配方法
JP7083859B2 (ja) * 2019-03-25 2022-06-13 モバイルクリエイト株式会社 公共交通システム
CN110390349A (zh) * 2019-06-20 2019-10-29 浙江大学 基于XGBoost模型的公交车客流量预测建模方法
CN111915464B (zh) * 2020-07-04 2022-06-28 西南交通大学 一种基于考虑常规公交线网的地铁中断区间乘客接驳模型系统及方法
CN112288131B (zh) * 2020-09-24 2021-06-11 和智信(山东)大数据科技有限公司 公交站点优化方法、电子设备及计算机可读存储介质
CN112580951B (zh) * 2020-12-09 2024-05-21 北京交通大学 基于乘客出行的城市地面公交运行监测关键指标筛选方法
CN113393073B (zh) * 2021-04-09 2022-06-21 吉林大学 一种共享汽车与轨道交通换乘接驳的调度系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359670A (zh) * 2018-09-18 2019-02-19 北京工业大学 一种基于交通大数据的个体关联强度自动检测方法
JP2020135231A (ja) * 2019-02-15 2020-08-31 株式会社日立製作所 交通需要予測装置及び交通需要予測システム
CN110188803A (zh) * 2019-05-16 2019-08-30 南京图申图信息科技有限公司 基于出租车轨迹数据的出行时空模式识别方法与系统
CN110197335A (zh) * 2019-06-04 2019-09-03 湖南智慧畅行交通科技有限公司 一种基于概率od分布模型的下车站点人数计算方法
CN111862662A (zh) * 2020-07-21 2020-10-30 上海晨擎信息科技有限公司 一种基于公交运行数据的公交线路调整监测方法

Also Published As

Publication number Publication date
CN114936959A (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
Djenouri et al. A survey on urban traffic anomalies detection algorithms
Zhao et al. Estimating a rail passenger trip origin‐destination matrix using automatic data collection systems
CN106600960A (zh) 基于时空聚类分析算法的交通出行起讫点识别方法
Park et al. Explainability of machine learning models for bankruptcy prediction
CN109903553B (zh) 多源数据挖掘的公交车上下车站点识别和检验方法
Xianyu et al. Analysis of variability in multi-day GPS imputed activity-travel diaries using multi-dimensional sequence alignment and panel effects regression models
Yao et al. Data-driven choice set generation and estimation of route choice models
CN116628455B (zh) 一种城市交通碳排放监测与决策支持方法及系统
CN107749164B (zh) 一种车辆聚集分析方法及装置
CN112800210B (zh) 基于海量公交数据的人群画像算法
Chen et al. Extracting bus transit boarding stop information using smart card transaction data
Chen et al. An analysis of movement patterns between zones using taxi GPS data
Lee et al. Travel pattern-based bus trip origin-destination estimation using smart card data
Geurts et al. Employee flows to study firm and employment dynamics
CN114936959B (zh) 实现车辆匹配和乘客上车点的识别方法
CN112559909B (zh) 一种基于gcn嵌入空间聚类模型的商业区发现方法
CN112699955A (zh) 一种用户分类方法、装置、设备及存储介质
Zhang et al. Online anomalous subtrajectory detection on road networks with deep reinforcement learning
Bolaños-Martinez et al. Clustering pipeline for vehicle behavior in smart villages
CN114973671B (zh) 公路网od数据处理方法、装置、设备及存储介质
Li et al. Unifying time reference of smart card data using dynamic time warping
Ke et al. Subarea partition based on correlation analysis with edge-elimination strategy using automatic license plate recognition data
Syarif et al. Big data analytics: Estimation of destination for users of bus rapid transit (BRT) public transportation in Jakarta
Tuydes-Yaman et al. Boarding Stop Assignment for Public Bus Trips Using Smart Card Data: Comparison of Two Algorithms
Chen et al. Recognizing and analyzing private car commuters using big data of electronic registration identification of vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant