CN110929982B - 基于融合数据的公交线网客流检测方法与系统 - Google Patents

基于融合数据的公交线网客流检测方法与系统 Download PDF

Info

Publication number
CN110929982B
CN110929982B CN201910974995.4A CN201910974995A CN110929982B CN 110929982 B CN110929982 B CN 110929982B CN 201910974995 A CN201910974995 A CN 201910974995A CN 110929982 B CN110929982 B CN 110929982B
Authority
CN
China
Prior art keywords
data
record
bus
card swiping
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910974995.4A
Other languages
English (en)
Other versions
CN110929982A (zh
Inventor
丁振强
高宁波
胡斌
孙结松
冉旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Weixin Engineering Consultation Co ltd
Original Assignee
Jiangsu Weixin Engineering Consultation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Weixin Engineering Consultation Co ltd filed Critical Jiangsu Weixin Engineering Consultation Co ltd
Priority to CN201910974995.4A priority Critical patent/CN110929982B/zh
Publication of CN110929982A publication Critical patent/CN110929982A/zh
Application granted granted Critical
Publication of CN110929982B publication Critical patent/CN110929982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供一种基于融合数据的公交线网客流检测方法与系统,基于IC卡刷卡记录、第三方应用刷卡记录、公交实时位置等实时数据,结合公交车牌号、公交线路、公交站点GIS信息、运行时间等静态公交数据,综合分析来监测公交线网实时客流状态。该方法利用公交车GPS模块实时记录乘客上车、下车位置,将上下客流记录与IC卡刷卡记录、第三方应用刷卡记录实时上传至后台数据采集中心,后台数据处理中心向后台数据采集中心获取实时数据,再经过数据筛选模块做数据清洗,最终对清洗过的数据进行统计处理,最终得到合理的公交客流OD矩阵,达到对当前公交线网实时客流做监测的目的。

Description

基于融合数据的公交线网客流检测方法与系统
技术领域
本发明涉及城市交通规划、运营管理技术领域,具体而言涉及一种基于IC卡刷卡记录、第三方应用刷卡记录、公交实时位置等数据的基于融合数据的公交线网客流检测方法。
背景技术
随着城市规模不断扩张,城市建设规划节奏越来越快,逐渐呈现为往城市外围扩展的趋势。城市的发展壮大,使得城市交通道路网的发展也越来越快,同时必然带来了公共交通的迫切需求,以满足人民群众的出行需要。
城市公交线网的规模不断扩大,公交线网纵横交错,公交运营复杂度逐步提升,但是并不是所有的交通线网都是满负荷运营,如果一部分线路的出行需求不多,但是安排的公交资源较多,就会造成公交资源的浪费,城市公交运力水平下降。所以需要对公交线网对OD出行数据分析。
传统的OD出行调查表形式的OD调查,对于复杂的公交线网情况,不再适合,这种形式的调查方式数据样本少、不准确、走访难度大。
科技也在进步,除了传统的IC卡刷卡支付方式,更多公交系统支付方式支持了第三方支付APP,如支付宝等,而且第三方支付的比例也在逐步上升。基于这种情况,很多基于IC卡刷卡数据来统计分析出的公交线网OD出行数据,不再能够全面地反应公交线网的OD出行数据。
因此,在当前的公交线网OD数据统计中,有必要加入第三方支付应用的刷卡记录分析过程到OD分析算法中。
现有的有关于公交线网IC卡刷卡记录来推算公交线网OD数据的专利和算法,有如下问题:
一是严重依赖乘客一整天的出行数据,无法根据单条刷卡记录,推算出乘客的目的地,只能等到每天的数据全部采集完成,才能对当天的公交出行OD数据进行分析,这样的OD出行数据只能对第二天的公交线路安排有参考意义,没有办法及时发现公交线网运营中的问题,不能及时对公交线网运营做调整。
二是不支持第三方支付应用刷卡记录,第三方支付比例逐渐增大,现有的OD算法不支持这部分数据的分析处理。
发明内容
本发明目的在于针对传统的公交OD数据统计方式样本少、不准确、走访难度大,单纯基于IC卡刷卡记录统计分析OD数据的方式时效性不好、数据量不够全面的问题,提出一种基于IC卡刷卡记录、第三方应用刷卡记录、公交实时位置等数据,结合公交车牌号、公交线路、公交站点GIS信息、运行时间等静态公交数据,综合分析监测公交线网实时客流状态的基于融合数据的公交线网客流检测方法。
本发明充分利用城市公交系统的海量数据,对其充分挖掘,对数据源实施合理的数据清洗算法,增强OD数据的准确性。
考虑乘客刷卡上车后可能的下车地点,结合历史数据,对乘客潜在的下车地点进行预估,从而预算出下一时段的OD数据趋势,让城市交通管理人员能够针对公交线网运营状态,做调度,合理安排公交线网,提升城市公交系统的运力。
为实现上述目的,本发明所采用的技术方案如下:
一种基于融合数据的公交线网客流检测方法,包括:
(A)采集乘客IC卡刷卡记录、刷卡时的车辆GPS位置信息,结合车辆信息、车辆路线方向信息等同时上传至数据采集后台,数据采集后台将其持久化到数据仓库ICRecrodDB;
(B)采集乘客第三方支付APP进行刷卡(如支付宝等)的记录、刷卡时的车辆GPS位置信息,结合车辆信息、车辆路线方向信息等同时上传至数据采集后台,数据采集后台将其持久化到数据仓库TpRecrodDB;
(C)数据采集后台接受第三方支付应用后台同步过来的第三方刷卡记录,并将其持久化到数据仓库TpRecordDBBackup,TpRecordDBBackup会作为第三方应用刷卡记录的对账文件;
(D)对步骤(B)和步骤(C)中的数据进行数据清洗,并将清洗后的数据持久化到数据仓库TpRecordDB2,具体清洗规则如下:
采取大数据分析处理集群,分级降权算法来逐级降低集合中的数据个数,提升运算速度。
(E)对ICRecrodDB和TpRecordDB2中的数据做地理位置清洗。
已存在一个公交线路信息数据库(BusLineInfo),数据库中保存公交线路编号(BusLineNo)、公交车编号(BusNo)、公交方向(StartStation|EndStation)、首发班车时间(FirstBusTime)、末班车时间(LastBusTime)、单程运行耗时(TimeCost);
已存在一个公交站点信息数据库(StationInfo),数据库中保存公交线路(BusLineNo)、站点编号(StationID)、站点GIS信息(StationGIS);
已存在公交线路和站点的映射关系表(BusLineStations),数据库中保存公交线路编号(BusLineNo)、站点编号(StationID)、OrderId(站点在线路中的顺序,对于同一个线路下的站点顺序,1为起始点,最大值为终点)。
基于BusLineInfo、StationInfo、BusLineStations这三个数据库,在对ICRecrodDB和TpRecordDB2做地理位置清洗时假设一条刷卡记录记为Record,则Record应遵循如下原则:
Record∈{RecordDB|RecordDB=ICRecrodDB∪TpRecordDB2},Record为IC卡刷卡记录库或第三方刷卡记录库中的一条记录;
Record.BusLineNo∈{BusLineInfo1|BusLineInfo1.BusLineNo=Record.BusLineNo
^BusLineInfo1.FirstBusTime<=Record.time<=
(BusLineInfo1.LastBusTime+BusLineInfo1.TimeCost)},Record的公交线路应该在公交线路库中,且记录发生的时间应该在该公交线路的运营时间范围内;
从StationInfo中选择BusLineNo为Record.BusLineNo的站点集合,记为Stations,集合按照OrderId值从小到大排序,假设Si=Stations[i](0≤i<Stations.Length-1),通过PostGIS计算GIS距离:
SL=PostGIS.ST_LENGTH(
ST_SetSRID(ST_MakePoint(Si[longitude],Si[latitude]),4326)::geography,
ST_SetSRID(ST_MakePoint(Si+1[longitude],Si+1[latitude]),4326)::geography
)
将公交线网中任意两个连续的站点之间的距离记为SL;
RL1=PostGIS.ST_LENGTH(
ST_SetSRID(ST_MakePoint(Si[longitude],Si[latitude]),4326)::geography,
ST_SetSRID(ST_MakePoint(Record[longitude],Record[latitude]),4326)::geography
),
RL2=PostGIS.ST_LENGTH(
ST_SetSRID(ST_MakePoint(Record[longitude],Record[latitude]),4326)::geography,
ST_SetSRID(ST_MakePoint(Si+1[longitude],Si+1[latitude]),4326)::geography
)
RL1和RL2分别为刷卡记录中的GIS地理位置距离公交线网中任意两个连续站点的位置。如果:
RL1+RL2-ΔL≤SL≤RL1+RL2+ΔL(ΔL为地理位置误差可接受范围,精确到米),
上述公式表示如果刷卡记录的地理位置在公交站点的两个站点之间,且距离误差在可接受范围内,则该刷卡记录Record为有效刷卡记录。将TpRecordDB和TpRecordDB2清洗后的数据,重新入库,记为TpRecordDB3。
(F)根据步骤(E)的清洗结果,从TpRecordDB3中取一条刷卡记录Record,推断乘客上次的下车地点、以及本次上车的地点,具体算法规则如下:
假设已存在数据表LastRecordInfo,来维护每个乘客的最后一次刷卡记录。
根据Record中的用户信息UserId(如果是IC卡刷卡记录,则为ICCardNo,如果是第三方支付应用刷卡记录,则为TpUserId),查找LastRecordInfo中UserId对应的刷卡记录Record”:
(1)如果Record”不存在,则将Record更新到LastRecordInfo表中;
(2)如果Record”存在,如果0<Record[Time]-Record”[Time]<ΔT,ΔT为刷卡时间间隔,两次刷卡时间间隔超过此范围,则本次刷卡记录不作为上次刷卡终点,如果刷卡时间间隔在此范围内,则继续做(3)中的判定;
(3)如果Record[BusLineNo]=Record”[BusLineNo],则用Record替代Record”,更新数据库,继续做(4)的处理;
(4)在步骤(E)中,推导得出Record的发生地理位置为Si和Si+1之间,由此可以得出
Record[Station]=Si
Record[Dest]=Si
(G)将Record”存入用户OD概率统计表UserODStatistics,该表的包含如下字段:
UserId,用户ID;
Orign,起始点;
Destinaton,终点;
BusLineNo,公交线路编号;
Time,刷卡时间;
该表记录N(N∈N+)月内用户的刷卡记录,N+1月之前的数据已经无实际参考意义,用于实时推算用户刷卡后的概率最大的目的地,通过该表可以实时推算公交线网OD数据,便于实时调度。
(H)乘客目的地实时推算:
结合用户OD概率统计表UserODStatistics,以刷卡时间Time以及公交线路编号BusLineNo为筛选条件,选取一定时间内的刷卡记录,基于这些记录的基础上做实时OD推算。
(I)将Record[Origin][Destination],持久化到实时OD矩阵数据库,从而得到了实时的公交线网OD矩阵。
本发明的有益效果在于:
本发明所述的基于IC卡刷卡记录、第三方应用刷卡记录、公交实时位置等数据的公交线网OD推算方法,考虑第三方支付应用在公交线网运营中所占比例越来越多,单纯分析IC卡刷卡记录已经无法全面反映公交线网OD出行数据的情况,同时对IC卡刷卡记录、第三方支付应用刷卡记录做数据清洗,统一分析,并结合每个乘客在一定时间内的历史记录,根据乘客的刷卡站点,对乘客的目的地进行推算,充分利用大数据分析能力。由此可以实时推算出城市公交线网的OD出行数据,便于公交统一规划、管理、调度公交运营。
本发明可进一步结合历史IC卡数据进行分析,以便于对下一时段的客流信息进行预测,以达到实时调度公交线路的目的。
附图说明
图1是本发明的基于融合数据的公交线网客流检测方法的流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施。
结合图1,以某城市的公交系统为例,以大数据分析工具、数据库等为处理工具,利用公交线网的IC卡刷卡数据、第三方支付应用刷卡数据、刷卡GPS数据、站点GIS数据库等数据来对本发明的内容进行具体的说明。
1、源数据采集
1.1、首先从公交采集IC卡刷卡数据,采集数据字段如下:
上述字段为记录的主要字段,详细记录了一条刷卡记录产生的时候所在的公交线路和地理位置信息,地理位置信息会在接下来的算法中,用于推算乘客的上车站点。在此算法中,考虑乘客的刷卡时,车辆已经离开公交站点的情况,统计数据更准确。
后台收到采集数据后,将IC卡刷卡记录持久化到数据库,记为ICRecrodDB。
1.2、采集第三方支付应用刷卡数据,采集字段如下:
第三方支付应用刷卡记录和IC卡刷卡记录,总体数据结构保持一致,只有用户标识不同,IC卡记录用户为IC卡卡号,第三方刷卡记录为用户的第三方应用ID。
后台收到采集数据后,将第三方刷卡记录持久化到数据库,记为TpRecrodDB。
1.3、第三方支付应用后台,将对账数据同步至数据后台,供数据后台对第三方刷卡记录进行对账,排除假数据。对账数据记录的字段同1.2中第三方支付刷卡数据一致。
第三方刷卡数据对账文件也持久化到数据仓库,记为TpRecordDBBackup。
采取大数据分析处理集群,分级降权算法来逐级降低集合中的数据个数,提升运算速度。
基于Minhash算法原理,结合实际数据,对第三方刷卡数据以及对账文件进行对比,查找TpRecrodDB以及TpRecordDBBackup的交集。
假设集合:
TpRecrodDB=T1={R1,R2,R3,R5,R6...,RN};
TpRecordDBBackup=T2={R1,R3,R4,R5,R7,...,RM};
我们构建T1和T2的0-1矩阵:
刷卡记录 T1 T2
R1 1 1
R2 1 0
R3 1 1
R4 0 1
R5 1 1
R6 1 0
...
RN 1 0
RM 0 1
为了得到T1和T2的MinHash值,我们通过MinHash函数HF对刷卡记录进行随机打乱,打乱后的顺序如下:
刷卡记录 T1 T2
RM 0 1
R3 1 1
R5 1 1
R1 1 1
R4 0 1
R2 1 0
...
RN 1 0
R6 1 0
如上所示,打乱后的各个集合的最小hash值为:
HF(T1)=2;
HF(T2)=1;
通过上述处理后,一条刷卡记录就变成了一个很小的0-1签名矩阵。在数据量比较小的情况下,只要对所有的刷卡数据做一一比较即可。但是在数据量比较大的情况下,如果逐条对比,时间消耗高。
因此,需要对对账文件对比算法进行优化,需要能够快速从两个集合中找出相似的数据集合,降低时间复杂度,具体方法为基于局部哈希敏感算法(LSH):
将上面的签名矩阵,以r行为一组,分成m/r个矩阵块B。存在一个哈希函数H,将同一个矩阵块中的列向量映射到同一个Bucket(桶)中,不同的矩阵块不会划分到同一个Bucket中。
假设上述的签名矩阵,每2行划分为一个矩阵块。以前两个桶为例:
对于Bucket1,T1和T2对应的列向量为:
H(T1)(Bucket1)=[0,1];
H(T2)(Bucket1)=[1,1];
两个列向量不一致,不能作为相似的刷卡记录对。
而对于Bucket2,T1和T2对应的列向量为:
H(T1)(Bucket2)=[1,1];
H(T2)(Bucket3)=[1,1];
两个列向量一致,可以作为相似的刷卡记录对,将其记录下来,并将其从T1和T2中分别剔除。
对于剩下的未匹配到的刷卡记录,我们可以进行N(N>1,N∈N+)次最小哈希(MinHash)运算,通过不断降维,最终得到较为精确地相似记录数据。
经过上述算法,将第三方刷卡数据相似集合持久化到数据仓库,记为TpRecordDB2。
1.4、地理位置清洗
对1.1节IC卡刷卡记录ICRecordDB和第三方应用刷卡数据TpRecordDB2中的数据做地理位置数据清洗。
地理位置数据清洗依赖城市公交线路信息数据库、公交站点信息数据库、公交线路与站点关系映射数据库。这几张数据表的定义如下:
公交线路信息数据库(BusLineInfo)
公交站点信息数据库(StationInfo)
公交线路与站点关系映射数据库(BusLineStations)
从ICRecrodDB或RecordDB2中任取一条刷卡记录Record,对Rerord进行地理位置清洗时,应遵循如下原则:
Record∈{RecordDB|RecordDB=ICRecrodDB∪TpRecordDB2},Record为IC卡刷卡记录库或第三方刷卡记录库中的一条记录;
Record.BusLineNo∈{BusLineInfo1|BusLineInfo1.BusLineNo=Record.BusLineNo
^BusLineInfo1.EarliestTime<=Record.Time<=
(BusLineInfo1.LastTime+BusLineInfo1.TimeCost)},Record的公交线路应该在公交线路库中,且记录发生的时间应该在该公交线路的运营时间范围内;
从StationInfo中选择BusLineNo为Record.BusLineNo的站点集合,记为Stations,集合按照OrderId值从小到大排序,假设Si=Stations[i](0≤i<Stations.Length-1),通过PostGIS计算GIS距离:
SL=PostGIS.ST_LENGTH(
ST_SetSRID(ST_MakePoint(Si[longitude],Si[latitude]),4326)::geography,
ST_SetSRID(ST_MakePoint(Si+1[longitude],Si+1[latitude]),4326)::geography
)
将公交线网中任意两个连续的站点之间的距离记为SL;
RL1=PostGIS.ST_LENGTH(
ST_SetSRID(ST_MakePoint(Si[longitude],Si[latitude]),4326)::geography,
ST_SetSRID(ST_MakePoint(Record[longitude],Record[latitude]),4326)::geography
),
RL2=PostGIS.ST_LENGTH(
ST_SetSRID(ST_MakePoint(Record[longitude],Record[latitude]),4326)::geography,
ST_SetSRID(ST_MakePoint(Si+1[longitude],Si+1[latitude]),4326)::geography
)
RL1和RL2分别为刷卡记录中的GIS地理位置距离公交线网中任意两个连续站点的位置。如果:
RL1+RL2-ΔL≤SL≤RL1+RL2+ΔL(ΔL为地理位置误差可接受范围,精确到米)。
上述公式表示如果刷卡记录的地理位置在公交站点的两个站点之间,且距离误差在可接受范围内,则该刷卡记录Record为有效刷卡记录。将TpRecordDB和TpRecordDB2清洗后的数据,重新入库,记为TpRecordDB3。
1.5、乘客上车站点、下车站点推算
上下车站点推算,依赖乘客N(N属于N+)月内的历史出行记录,历史出行记录存储在用户出行概率统计表中,记为UserODStatistics,表结构如下:
该表记录N(N∈N+)月内用户的刷卡记录,N+1月之前的数据已经无实际参考意义,用于实时推算用户刷卡后的概率最大的目的地,通过该表可以实时推算公交线网OD数据,便于实时调度。
从TpRecordDB3中取一条刷卡记录Record,推断乘客上次的下车地点、以及本次上车的地点,具体算法规则如下:
假设已存在数据表LastRecordInfo,来维护每个乘客的最后一次刷卡记录,表结构如下:
根据Record中的用户信息Record[UserId],查找LastRecordInfo中UserId对应的刷卡记录Record”:
1.5.1、如果Record”不存在,则将Record更新到LastRecordInfo表中;
1.5.2、如果Record”存在,如果0<Record[Time]-Record”[Time]<ΔT,ΔT为刷卡时间间隔,两次刷卡时间间隔超过此范围,则本次刷卡记录不作为上次刷卡终点,如果刷卡时间间隔在此范围内,则继续做1.6.3中的判定;
1.5.3、如果Record’[BusLineNo]=Record”[BusLineNo],则用Record’替代Record”,更新数据库LastRecordInfo,继续做1.6.4的处理;
1.5.4、在步骤(E)中,推导得出Record’的发生地理位置为Si和Si+1之间,由此可以得出Record’[Station]=Si
Record”[Dest]=Si
将Record”存入数据库UserODStatistics。
对用户出行概率表UserODStatistics中的数据,依据刷卡时间Time以及公交线路编号BusLineNo为筛选条件,比如筛选某条公交线路在某一时间段的历史数据,对这些数据做K-S检验,假设统计时间为早高峰7:00-9:00之间,检验数据样本如下:
通过SPSS对上述样本数据进行K-S检验,数据结果为:
Kolmogorov-Smirnov Test
a.Test distribution is Poisson.
b.Calculated from data.
根据上述表格中的计算结果,该时段的乘客出行呈现泊松分布(Poisson)。所以可以认定乘客出行,经过X站下车的概率为:
假设一辆公交线路共计有m站,则乘客的乘客站点数为[1,m-1],则得到乘客的新的下车概率为:
假设一个站点i上车的人数为X人,则这X人当中,在j站下车人数公式为:
X(i,j)=Xi×P(j-i);
由此可得,从i站上车的乘客中,到j站下车前,仍然留在车内的剩余乘客人数的计算公式为:
由此可得,在到达j站前,车内所有的乘客的数量为:
由于从1到j-1站上车的乘客都有可能在j站下车,因此可以得到,在j站下车的乘客总数计算公式为:
属于[2,N-1](N>2,为站点总数);
由此可以得到乘客从i站上车,到j站下车的OD矩阵推算公式为:
其中,第一步部分公式表示的是对从i站上车,j站下车的人的概率的修正。基于此公式,已经可以对一条公交线路的OD出行数据做基本的推断。再依照此法,对剩余的公交线路OD数据做推算,即可预算出某一时段内的公交OD出行数据,为实时调度、科学管理提供依据。
根据本发明的公开,还涉及一种系统,用以实现上述基于融合数据的公交线网客流检测方法,其具有处理器、存储器以及其他外围接口电路,其中存储器内被设置成用于存储前述的流程以及所涉及的数据,被所述处理器调用以执行上述程序执行从而实现对数据的处理,达成如上述一个或者多个实施例的对公交线网客流的检测。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

Claims (2)

1.一种基于融合数据的公交线网客流检测方法,其特征在于,包括:
(1)采集公交线网乘客IC卡刷卡数据、第三方应用刷卡数据,同时通过车辆GPS模块记录乘客刷卡时的公交车辆GPS位置信息,上传至数据采集后台;
(2)数据采集后台接受第三方应用公交支付后台的刷卡记录,该记录作为第三方应用刷卡记录的对账文件;
(3)数据采集后台将步骤(1)中的源数据持久化到数据库,其中IC卡刷卡数据持久化仓库为D1,第三方应用刷卡数据持久化仓库为D2;
数据采集后台将步骤(2)中的源数据持久化到数据库,记为D3;
(4)对步骤(3)中的D1进行数据清洗,保证样本数据的准确性,清洗后的数据记为D4;
(5)根据步骤(4)的清洗结果,结合用户上一次刷卡数据,推算乘客上一次的下车地点,以及本次的上车地点;
(6)根据乘客近2个月内的乘车记录得到的OD概率分布,结合乘客最近一次在公交站点的OD数据,推算乘客本次的目的地;
(7)将步骤(6)中的乘客OD数据,持久化到数据库,并同步更新公交线网OD矩阵,该OD矩阵为实时公交OD矩阵;
其中,所述步骤(4)的数据清洗,所要清洗的数据以及清洗原则为:
建立刷卡记录数据清洗临时表RecordFilterTemp,用于记录每张IC卡最后一条刷卡记录,如果该记录的产生时间为T小时之前,则予以剔除;
从刷卡记录持久化仓库获取一条刷卡记录R1,根据R1中的GPS信息GPRMC1,判定该站点信息是否符合公交线路的GIS信息,如果不符合,则抛弃;
在RecordFilterTemp中查找该刷卡账户的上一条刷卡记录R0,如果R1和R0记录的产生时间间隔为T小时内,则进行乘车记录处理;
其中,所述的乘车记录处理具体包括以下步骤:
如果R1和R0为同一条线路上的不同的站点,则将R1的站点作为R0记录的终点,将该记录结构化后,记录到乘客出行统计表PassangerTripRecord;
如果R1和R0为不同线路上的点,则根据R1的GPS信息GPRMC1,推算R0中乘客的下车站点State0,将其记为上一次乘客出行的下车站点,该站点视为换乘站点;
1)如果R1距离R0的时间间隔小于设定阈值,则判定不是在正常站点行驶时间范围内,则抛弃数据;
2)R1为合理乘车记录时,则用R1替代R0,是R1成为下次乘车记录的判定基础依据。
2.一种基于融合数据的公交线网客流检测系统,其特征在于,包括:
一个或多个处理器;
存储器,存储可被操作的指令,所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括执行上述权利要求1所述的方法。
CN201910974995.4A 2019-10-15 2019-10-15 基于融合数据的公交线网客流检测方法与系统 Active CN110929982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910974995.4A CN110929982B (zh) 2019-10-15 2019-10-15 基于融合数据的公交线网客流检测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910974995.4A CN110929982B (zh) 2019-10-15 2019-10-15 基于融合数据的公交线网客流检测方法与系统

Publications (2)

Publication Number Publication Date
CN110929982A CN110929982A (zh) 2020-03-27
CN110929982B true CN110929982B (zh) 2023-11-24

Family

ID=69848938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910974995.4A Active CN110929982B (zh) 2019-10-15 2019-10-15 基于融合数据的公交线网客流检测方法与系统

Country Status (1)

Country Link
CN (1) CN110929982B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809344A (zh) * 2015-04-23 2015-07-29 中山大学 一种基于ic卡数据的公交站点区间客流估计方法
CN105550789A (zh) * 2016-02-19 2016-05-04 上海果路交通科技有限公司 一种公交出行客流的预测方法
CN105788260A (zh) * 2016-04-13 2016-07-20 西南交通大学 一种基于智能公交系统数据的公交乘客od推算方法
CN106683404A (zh) * 2016-12-06 2017-05-17 华南理工大学 一种通过手机定位技术获取公交客流od的方法
CN107563651A (zh) * 2017-09-07 2018-01-09 深圳市蓝泰源信息技术股份有限公司 一种公交系统的基于大数据客流分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809344A (zh) * 2015-04-23 2015-07-29 中山大学 一种基于ic卡数据的公交站点区间客流估计方法
CN105550789A (zh) * 2016-02-19 2016-05-04 上海果路交通科技有限公司 一种公交出行客流的预测方法
CN105788260A (zh) * 2016-04-13 2016-07-20 西南交通大学 一种基于智能公交系统数据的公交乘客od推算方法
CN106683404A (zh) * 2016-12-06 2017-05-17 华南理工大学 一种通过手机定位技术获取公交客流od的方法
CN107563651A (zh) * 2017-09-07 2018-01-09 深圳市蓝泰源信息技术股份有限公司 一种公交系统的基于大数据客流分析方法

Also Published As

Publication number Publication date
CN110929982A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
Chen et al. Dynamic cluster-based over-demand prediction in bike sharing systems
Gurumurthy et al. Analyzing the dynamic ride-sharing potential for shared autonomous vehicle fleets using cellphone data from Orlando, Florida
CN109035770B (zh) 一种大数据环境下公交载客量实时分析预测方法
CN105788260B (zh) 一种基于智能公交系统数据的公交乘客od推算方法
Veloso et al. Urban mobility study using taxi traces
CN108346292B (zh) 基于卡口数据的城市快速路实时交通指数计算方法
CN102521965B (zh) 基于车牌识别数据的交通需求管理措施效果评价方法
CN107316098B (zh) 一种基于用户行为分析的汽车租赁点选址方法
Liu et al. Exploiting heterogeneous human mobility patterns for intelligent bus routing
Veloso et al. Sensing urban mobility with taxi flow
CN105809962A (zh) 一种基于手机数据的交通出行方式划分的方法
CN110555544B (zh) 一种基于gps导航数据的交通需求估计方法
CN109102114B (zh) 一种基于数据融合的公交出行下车站点估计方法
CN102324128A (zh) 基于ic卡记录的公交站间od客流预测方法及装置
CN104464344B (zh) 一种车辆行驶路径预测方法及系统
WO2022227303A1 (zh) 信息处理方法、装置、计算机设备及存储介质
Kim Spatial contiguity-constrained hierarchical clustering for traffic prediction in bike sharing systems
CN114358808A (zh) 基于多源数据融合的公交od估计及分配方法
Nasri et al. A multi-dimensional multi-level approach to measuring the spatial structure of US metropolitan areas
Castiglione et al. Application of travel demand microsimulation model for equity analysis
Wang et al. STLoyal: A spatio-temporal loyalty-based model for subway passenger flow prediction
Yang et al. Detecting home and work locations from mobile phone cellular signaling data
CN111723871B (zh) 一种公交车实时车厢满载率的估算方法
CN110929982B (zh) 基于融合数据的公交线网客流检测方法与系统
Almannaa et al. Network-wide bike availability clustering using the college admission algorithm: A case study of San Francisco Bay area

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant