CN114202254B - 一种城市轨道交通通勤分布估计方法及系统 - Google Patents
一种城市轨道交通通勤分布估计方法及系统 Download PDFInfo
- Publication number
- CN114202254B CN114202254B CN202210135670.9A CN202210135670A CN114202254B CN 114202254 B CN114202254 B CN 114202254B CN 202210135670 A CN202210135670 A CN 202210135670A CN 114202254 B CN114202254 B CN 114202254B
- Authority
- CN
- China
- Prior art keywords
- trip
- passenger
- station
- time period
- commuter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000000284 extract Substances 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 81
- 238000004458 analytical method Methods 0.000 claims description 42
- 238000004140 cleaning Methods 0.000 claims description 10
- 230000003203 everyday effect Effects 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 3
- 238000013439 planning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G06Q50/40—
Abstract
本发明的实施例涉及一种城市轨道交通通勤分布估计方法及系统,提取时间周期T内交通出行交易记录,提取通勤人员;计算每个通勤人员的出行信息,构建每个通勤人员的画像;基于所述画像估计通勤人员群体的通勤分布;每隔特定时段T0,提取时段T0内交通出行交易记录,提取通勤人员;对于已经存在画像的通勤人员,计算与时段T0前一个时间周期T内出行信息的相似度,如果相似度不超过设定阈值则不更新所述画像;否则更新通勤人员的画像;对于不存在画像的通勤人员,采用时间周期T内的数据重新计算通勤人员的出行信息构建通勤人员的画像。本发明提取通勤人员,为通勤人员构建画像并定期更新,基于画像估计通勤分布,估计准确且计算量更小。
Description
技术领域
本发明涉及智能交通技术领域,尤其涉及一种城市轨道交通通勤分布估计方法及系统。
背景技术
对乘客出行需求分析和预测是城市轨道交通运营组织的基础,准确掌握公交乘客通勤出行的起点 (Origin)和终点(Destination),即公交通勤OD对于公交系统的线网规划和运营管理具有重要意义。
通勤交通是城市早、晚高峰客流的主要组成部分,吸引通勤者选择公共交通出行,对于缓解城市交通拥堵具有重要作用。获得乘客的通勤OD分布,能够对公交通勤出行需求的特征和规律进行分析,掌 握通勤者公交出行需求的特征和规律,是优化公交系统、更高水平地满足通勤出行需求的 基础。传统的公交出行信息一般是通过大规模居民出行调查来获得,具有费用高、数据生命 周期短的不足。决策信息的匮乏和滞后造成公交线网规划和公交运营计划难以根据出行需 求的动态变化来进行及时调整。
发明内容
针对现有技术存在的问题,本发明提供一种城市轨道交通通勤分布估计方法及系统,提取通勤人员,为通勤人员构建画像并定期更新,基于画像估计通勤分布,估计准确且计算量更小。
为达到上述目的,本发明提供了一种城市轨道交通通勤分布估计方法,包括:
提取时间周期T内交通出行交易记录,提取通勤人员;
计算每个通勤人员的出行信息,构建每个通勤人员的画像;
基于所述画像估计通勤人员群体的通勤分布;
每隔特定时段T0,更新所述通勤人员及对应画像,包括:提取时段T0内交通出行交易记录,提取通勤人员;对于已经存在画像的通勤人员,针对每个通勤人员计算时段T0内的数据提取出行信息,并计算与时段T0前一个时间周期T内出行信息的相似度,如果相似度不超过设定阈值则不更新所述画像;否则,采用时间周期T内的数据重新计算通勤人员的出行信息,更新通勤人员的画像;对于不存在画像的通勤人员,采用时间周期T内的数据重新计算通勤人员的出行信息,构建通勤人员的画像。
进一步地,所述出行信息,包括居住地、工作地、进站时间段以及出站时间段;
提取通勤人员,包括:
对所述交通出行交易记录去除乘客隐私信息后,按照设定格式导入数据库;
进行数据清洗,删除数据库中重复数据、缺项数据填充或删除以及异常数据填充或删除;
提取乘客在时间周期T内的N条出行交易记录,统计乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF;
设定通勤族在时间周期T内的出行次数的阈值f及工作日首次出行平均时间的最大时间差的阈值diff; 如果乘客在统计周期T内的工作日出行次数F>f,工作日首次出行平均时间的最大时间差为DIFF<diff,则标记该乘客为通勤人员。
进一步地,统计所有乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF,包括:
提取乘客在时间周期T内的N条出行交易记录,每条出行交易记录形成中间表,以分钟表征进站和出站时间片;
按照时间顺序排列每名乘客的所述中间表,并添加每日首末次出行记录标志形成临时表;
进一步地,计算通勤人员居住地和工作地,包括:
根据所述临时表构建四个向量:
如果max()w2,则对应的站点为该通勤人员的工作地,否则站点i
=argmax(为工作地,即判定末次出行最晚时间对应的出发站站点i为工作地,的最晚时间;其中argmax表示自变量函数,w1为居住地阈值,w2为工作
地阈值。
进一步地,计算与时段T0前一个时间周期T内出行信息的相似度,包括:
计算时段T0内乘客首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量,与计算时段T0前一个时间周期T内首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量的余弦相似度。
另一方面提供一种城市轨道交通通勤分布估计系统,包括:数据接入模块、通勤族分析模块、出行信息分析模块以及更新模块;
所述数据接入模块,每日特定时间获取出行交易记录;
所述通勤族分析模块,提取时间周期T内交通出行交易记录,提取通勤人员,并发送至所述出行信息分析模块;每隔特定时段T0,提取时段T0内交通出行交易记录,提取通勤人员,并发送至所述更新模块;
所述出行信息分析模块,计算通勤人员的出行信息,构建每个通勤人员的画像;
所述更新模块,每隔特定时段T0,更新所述通勤人员及对应画像;对于已经存在画像的通勤人员,针对每个通勤人员计算时段T0内的数据提取出行信息,并计算与时段T0前一个时间周期T内出行信息的相似度,如果相似度不超过设定阈值则不更新所述画像;否则,采用控制所述出行信息分析模块,基于时间周期T内的数据重新计算该通勤人员的出行信息,更新通勤人员的画像;对于不存在画像的通勤人员,控制所述出行信息分析模块采用时间周期T内的数据重新计算通勤人员的出行信息构建通勤人员的画像。
进一步地,还包括数据清洗模块,对所述交通出行交易记录去除乘客隐私信息后,按照设定格式导入数据库;进行数据清洗,删除数据库中重复数据、缺项数据填充或删除以及异常数据填充或删除。
进一步地,所述通勤族分析模块,提取乘客在时间周期T内的N条出行交易记录,统计所有乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF;
设定通勤族在时间周期T内的出行次数的阈值f及工作日首次出行平均时间的最大时间差的阈值diff,满足此双阈值的乘客标记为通勤人员;如果乘客在统计周期T内的工作日出行次数F>f,工作日首次出行平均时间的最大时间差为DIFF<diff,则标记该乘客为通勤人员。
进一步地,所述出行信息,包括居住地、工作地、进站时间段以及出站时间段;所述通勤族分析模块,统计所有乘客在时间周期T内工作日出行次数F,计算各周第j个工作日首次出行平均时间的最大时间差为DIFF,包括:
提取乘客在时间周期T内的N条出行交易记录,每条出行交易记录形成中间表,以分钟表征进站和出站时间片;
按照时间顺序排列每名乘客的所述中间表,并添加每日首末次出行记录标志形成临时表;
进一步地,所述出行信息分析模块,包括居住地分析及工作地分析单元;
所述居住地分析及工作地分析单元,计算通勤人员居住地和工作地,包括:
根据所述临时表构建四个向量:
如果max()w2,则对应的站点为该通勤人员的工作地,否则站点i
=argmax(为工作地,即判定末次出行最晚时间对应的出发站站点i为工作地,的最晚时间;其中argmax表示自变量函数,w1为居住地阈值,w2为工作
地阈值。
进一步地,所述更新模块计算与时段T0前一个时间周期T内出行信息的相似度,包括:
计算时段T0内乘客首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量,与计算时段T0前一个时间周期T内首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量的余弦相似度。
提供一种Hadoop大数据平台,包括所述的城市轨道交通通勤分布估计系统。
本发明的上述技术方案具有如下有益的技术效果:
(1)本发明提取通勤人员,为通勤人员构建画像并定期更新,基于画像估计通勤分布,估计准确且计算量更小。
(2)本发明在通勤族乘客的前提下分析计算其每日首末次出行的出发站,终点站比例的空间特征及首末次出行的时间特征,通过空间、时间上的双重判定条件分析通勤族的居住地、工作地,判断准确性更高。
(3)本发明基于统计周期内乘客工作日出行次数f和每个工作日首次出行平均时间的最大时间差的双阈值设置判定乘客是否属于通勤族,准确提取通勤人员。
(4)基于通勤人员群体的通勤分布,可以预估车站的人流量,进行资源配置;分析早高峰时段,组织客运,分析乘客组成;规划交通线网的建设。
附图说明
图1是一些实施例中的城市轨道交通通勤分布估计流程图;
图2提取时间周期T内交通出行交易记录,提取通勤人员过程示意图;
图3为一些实施例中的城市轨道交通通勤分布估计系统组成示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在一些实施例中提供一种城市轨道交通通勤分布估计方法,包括如下步骤:
S100提取时间周期T内交通出行交易记录,提取通勤人员。
结合图2,具体包括如下步骤:
S110提取时间周期T内交通出行交易记录,周期T例如为3个月。在一个实施例中,通过地铁AFC系统(Automatic Fare Collection System, 城市轨道交通自动售检票系统)获取出行交易数据。再又一实施例中,通过公交系统获取出行交易数据。
S120对出行交易数据进行格式转换,去除乘客隐私信息,处理后数据内容及格式如表1所示。
表1 初始记录表ori表
列名 | 描述 | 示例 |
ID | 乘客标识号 | P_SZ_2020_000000001 |
TRADE_TYPE | 交易类型 | 1(乘车码)2(IC卡)3(其它) |
IN_TIME | 进站时间 | 20200823 08:33:21 |
IN_STATION | 进站点 | 示例站点1 |
OUT_TIME | 出站时间 | 20200823 08:58:22 |
OUT_STATION | 出站点 | 示例站点2 |
搭建Hadoop大数据平台,构建hive数据库。设计乘客数据存储模型,将表1转换后的数据导入hive数据库。
S130数据清洗。
制定数据治理的规则,包括数据重复、数据缺项、数据异常。对于数据重复,删除重复数据;对于数据缺项,缺项部分进行均值/重值填充或删除处理;对于数据异常,即数据某属性不在正常范围内,进行均值/重值填充或删除处理。
以深圳地铁8号线为例,其运营时间为05:00—22:05,如果表数据时间属性有不在此范围内,应该将此条记录删除。计算乘客每个OD段的平均出行时长,对缺失进站时间或出站时间的记录进行补全等。
S140乘客为通勤族的判定:
(1)提取固定时间周期内地铁出行交易初始记录ori表的数据,转化成成中间表R表如下:
每条原始交易记录数据处理成字典类型数据,数据采用key(关键字):value
(值)形式,为一条出行记录,其中key包括id、in_station,month、day、in_slot,week,
out_station,out_slot,见表2。
表2 中间表R表
Key | Value(示例) | 说明 |
id | P_SZ_2020_000000001 | 乘客标识号 |
in_station | S01 | 出发站编号,对各站点用”S”+”id”表示,S表示车站,id为车站编号 |
month | 12 | 月份 |
day | 12 | 日期 |
in_slot | 513 | 进站时间片,单位换算为分钟,例如将入站时间08:33记为8*60+33=513 |
week | 1 | 周一~周日 |
out_station | S02 | 终点站编号 |
out_slot | 543 | 出站时间片, 单位换算为分钟例如将出站时间09:03记为9*60+3=543 |
(2)将表2中间表R表依次按照用户id分出所属每个用户的临时表,并将month、
day、in_slot进行升序排序,添加上每日首末次出行记录标志sign,首次则sign=1,末次则
sign=3,首次也是末次则sign=2(当日只有一次出行记录),其他情况sign=4,得到新的临时
表P表=[],P为统计周期内某用户的所有出行记录,M为统计周期内某用户
的出行记录条数,表示某乘客的一条出行记录,M为该乘客在统计周期内的出行记录总条
数,每个分别有关键字id、in_station、month、day、in_slot、week、out_station、out_
slot、sign。
表3临时表P表
Key | Value(示例) | 说明 |
id | P_SZ_2020_000000001 | 乘客标识号 |
in_station | S01 | 出发站编号,对各站点用”S”+”id”表示,S表示车站,id为车站编号 |
month | 12 | 月份 |
day | 12 | 日期 |
in_slot | 513 | 进站时间片,单位换算为分钟,例如将入站时间08:33记为8*60+33=513 |
week | 1 | 周一~周日 |
out_station | S02 | 终点站编号 |
out_slot | 543 | 出站时间片, 单位换算为分钟例如将出站时间09:03记为9*60+3=543 |
sign | 1 | 每日首末次出行记录标志,首次sign=1,末次sign=3,即是首次也是末次则sign=2(当日只有一次出行记录),其他情况sign=4 |
上述初始记录表ori表,临时表P表,中间表R表,采用MapReduce,HiveSQL或SparkSQL程序获取需求数据构建。
例如=count({X|X∈P&&.id=id&&.week=1|2|3|4|5})表示编号为id的乘客
在统计周期内工作日的出行次数。是在表3(临时表P表)的基础上,依次抽取各乘客统
计周期内所有工作日首次出行的记录集合{E|E∈P&&E.sign=1|2}计算得来的。例如(=id&&week=j)表示标识符为id的乘客在周j的首次出行平均
时间的平均时间,其中N为标识符为id的乘客在统计周期内工作日周j有出行记录的天数。
F和是所有通勤人员的数据集。和是具体某一个通勤人员的数据。&&表
示逻辑判断“且”,id表示某一个乘客id,Xi表示临时表P里的一条记录,.week表示,count
表示计算集合内的参数数量,P.sign表示临时表P里的sign的值,=表示取值,竖线表示逻辑
“或”。
工作日客流特征:周期性,波动性(季节,月份),随机性。
(3)通勤族的第一次判断:通勤族有工作日出行次数相对固定,每日通常上下班两
次,工作日首末次出行的出发站,目的站相反的特点。根据所有乘客在统计周期(三个月)内
工作日出行次数F,设置通勤人员出行次数的最小阈值f,即P(工作日出行次数>f)=。若某
乘客统计周期内工作日出行次数大于阈值f,则进入通勤族的第二次判断。(为了尽可能使
大部分有可能是通勤族的乘客能进入通勤族的第二次判断之中,例如设定概率值不小于
0.75,并不是假定通勤类乘客占比最小是0.75。)
例如首先构建某标识符为id的通勤人员工作日平均首次出行时间列表=
[,,,,],计算得该通勤人员工作日平均首次出行时间的最大时间
差=-。继而得到所有通勤人员工作日平均首次出行时间的最
大时间差DIFF。
通过ks检验得DIFF基本符合正态分布。类似地对DIFF的概率密度函数求积分如下:
通过步骤(3)、(4)的计算,我们得出统计周期内工作日最少出行次数f,每个工作日首次出行最大时间差diff两个阈值来判定乘客是否为通勤族。
S200计算每个通勤人员的出行信息,构建每个通勤人员的画像。
所述出行信息,包括居住地、工作地、进站时间段以及出站时间段。所述画像中包含的信息参见表2。
S210通勤族居住地、工作地的初步判定,统计周期内针对某一乘客的出行记录。
(1)乘客首次出行出发站比例向量First_In,乘客末次出行终点站比例向量Last_Out,乘客首次出行终点站比例向量First_Out,乘客末次出行出发站比例向量Last_In计算前的数据准备。
根据临时表P表计算:
表示某乘客在统计周期内首次出行出发站点是s的次数,其中id是乘客标识,s
是站点编号。 n站点总数。s是站点编号。X是某乘客首次出行出发站点是s的记录集合,
count是用来计算的集合记录条数的函数。是乘客首次出行的记录数。是乘客末
次出行的记录数。是乘客id首次出行出发站是站点s的比例。
(2)根据上一步(1)计算可得如下向量结果:
①乘客首次出行出发站比例向量
②乘客末次出行终点站比例向量
③乘客首次出行终点站比例向量
④乘客末次出行出发站比例向量
S220通勤族居住地、工作地的二次判定。
对于步骤S210无法判定的乘客,添加时间上的权重,对于居住地而言,首次出行进
入出发站的时间越早,该站属于居住地的可能性越大;对于工作地而言,末次出行进入出发
站的时间越晚,该站属于工作地的可能性越大,于是计算乘客工作日对应的站点i=argmax()为居住地;类似地,站点i=argmax(为工作地。
在得出乘客是通勤族的情况下得出其工作地,居住地,如果工作地、居住地有变动的情况,使用下一个统计周期的数据重复上述S210,S220的操作,更新计算工作地、居住地。
S300基于所述画像估计通勤人员群体的通勤分布。
有通勤人员的画像进行群体估计,统计通勤人员群体的通勤分布。进一步地,根据群体估计可以预估车站的人流量,进行资源配置;还可以分析早高峰时段,组织客运,分析乘客组成;也可以基于分布情况规划交通线网的建设。例如可以统计通勤人员的居住地及首次出行时间,判断早高峰的公交或者地铁各站点的人流量。
S400每隔特定时段T0,更新所述通勤人员及对应画像。
进一步地,提取时段T0内交通出行交易记录,提取通勤人员;对于已经存在画像的通勤人员,针对每个通勤人员计算时段T0内的数据提取出行信息,并计算与时段T0前一个时间周期T内出行信息的相似度,如果相似度不超过设定阈值则不更新所述画像;否则,采用时间周期T内的数据重新计算通勤人员的出行信息,更新通勤人员的画像;对于不存在画像的通勤人员,采用时间周期T内的数据重新计算通勤人员的出行信息构建通勤人员的画像。
计算时段T0内乘客首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量,与计算时段T0前一个时间周期T内首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量的余弦相似度。
比如上一个周期使用1,2,3月份的数据。在更新的时候首先使用4月份的数据,计算上一个周期(1,2,3月)这四个向量和目前这个周期(4月)的余弦相似度(cos值),其cos相似度对应的角度不超过30°,认定此人没发生变化,超过30°认定是发生了变化的;对于发生变化的人,采用2,3,4月份的数据更新画像。如果更新后发现该人员已经不再是通勤人员,则删除该人员的画像。对于新筛选出的通勤人员,采用步骤S200的方式构建画像。
另一方面提供一种城市轨道交通通勤分布估计系统,基于Hadoop大数据平台。结合图3,城市轨道交通通勤分布估计系统包括:数据接入模块、数据清洗模块、通勤族分析模块、出行信息分析模块以及更新模块。
所述数据接入模块,每日特定时间通过ftp服务器获取出行交易记录。
所述数据清洗模块,对所述交通出行交易记录去除乘客隐私信息后,按照设定格式导入数据库;进行数据清洗,删除数据库中重复数据、缺项数据填充或删除以及异常数据填充或删除。定义数据各项具体的范围值,对于异常记录采用取重,取均,删除等操作。
所述通勤族分析模块,提取时间周期T内交通出行交易记录,提取通勤人员,并发送至所述出行信息分析模块;每隔特定时段T0,提取时段T0内交通出行交易记录,提取通勤人员,并发送至所述更新模块。
所述通勤族分析模块,提取乘客在时间周期T内的N条出行交易记录,统计所有乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF;
设定通勤族在时间周期T内的出行次数的阈值f及工作日首次出行平均时间的最大时间差的阈值diff,满足此双阈值的乘客标记为通勤人员。 例如:某乘客在统计周期内的出行次数为n(n>f),工作日首次出行平均时间的最大时间差为t(t<diff),则标记该乘客为通勤人员。
所述通勤族分析模块,统计所有乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF,包括:
提取乘客在时间周期T内的N条出行交易记录,每条出行交易记录形成中间表,以分钟表征进站和出站时间片;
按照时间顺序排列每名乘客的所述中间表,并添加每日首末次出行记录标志形成临时表;
所述按照临时表统计所有乘客在时间周期T内工作日出行次数F,计算每个工作日的首次出行时间,继而获取工作日的首次出行平均时间的最大时间差DIFF。
所述出行信息分析模块,计算通勤人员的出行信息,构建每个通勤人员的画像。
所述出行信息,包括居住地、工作地、进站时间段以及出站时间段。
所述出行信息分析模块,包括居住地分析及工作地分析单元;
所述居住地分析及工作地分析单元,计算通勤人员居住地和工作地,包括:
根据所述临时表构建四个向量:
所述更新模块,对于已经存在画像的通勤人员,针对每个通勤人员计算时段T0内的数据提取出行信息,并计算与时段T0前一个时间周期T内出行信息的相似度,如果相似度不超过设定阈值则不更新所述画像;否则,采用控制所述出行信息分析模块,基于时间周期T内的数据重新计算该通勤人员的出行信息,更新通勤人员的画像;对于不存在画像的通勤人员,控制所述出行信息分析模块采用时间周期T内的数据重新计算通勤人员的出行信息构建通勤人员的画像。
所述更新模块计算与时段T0前一个时间周期T内出行信息的相似度,包括:
计算时段T0内乘客首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量,与计算时段T0前一个时间周期T内首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量的余弦相似度。
还可以设置前端展示模块:对乘客出行模式,工作地,居住地等情况的展示。
提供一种Hadoop大数据平台,包括所述的城市轨道交通通勤分布估计系统。
综上所述,本发明的实施例涉及一种城市轨道交通通勤分布估计方法及系统,提取时间周期T内交通出行交易记录,提取通勤人员;计算每个通勤人员的出行信息,构建每个通勤人员的画像;基于所述画像估计通勤分布;每隔特定时段T0,提取时段T0内交通出行交易记录,提取通勤人员;对于已经存在画像的通勤人员,计算与时段T0前一个时间周期T内出行信息的相似度,如果相似度不超过设定阈值则不更新所述画像;否则更新通勤人员的画像;对于不存在画像的通勤人员,采用时间周期T内的数据重新计算通勤人员的出行信息构建通勤人员的画像。本发明提取通勤人员,为通勤人员构建画像并定期更新,基于画像估计通勤分布,估计准确且计算量更小。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (12)
1.一种城市轨道交通通勤分布估计方法,其特征在于,包括:
提取时间周期T内交通出行交易记录,提取通勤人员;
计算每个通勤人员的出行信息,所述出行信息包括通勤人员居住地和工作地,构建每个通勤人员的画像;包括:
构建四个向量:
如果则对应的站点为该通勤人员的工作地,否则站点为工作地,即判定末次出行最晚时间对应的出发站站点i为工作地,末次出行出发站的最晚时间;其中argmax表示自变量函数,w1为居住地阈值,w2为工作地阈值;
基于所述画像估计通勤人员群体的通勤分布;
每隔特定时段T0,更新所述通勤人员及对应画像,包括:提取时段T0内交通出行交易记录,提取通勤人员;对于已经存在画像的通勤人员,针对每个通勤人员计算时段T0内的数据提取出行信息,并计算与时段T0前一个时间周期T内出行信息的相似度,如果相似度不超过设定阈值则不更新所述画像;否则,采用时间周期T内的数据重新计算通勤人员的出行信息,更新通勤人员的画像;对于不存在画像的通勤人员,采用时间周期T内的数据重新计算通勤人员的出行信息,构建通勤人员的画像。
2.根据权利要求1所述的城市轨道交通通勤分布估计方法,其特征在于,所述出行信息,包括居住地、工作地、进站时间段以及出站时间段;
提取通勤人员,包括:
对所述交通出行交易记录去除乘客隐私信息后,按照设定格式导入数据库;
进行数据清洗,删除数据库中重复数据、缺项数据填充或删除以及异常数据填充或删除;
提取乘客在时间周期T内的N条出行交易记录,统计乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF;
设定通勤族在时间周期T内的出行次数的阈值f及工作日首次出行平均时间的最大时间差的阈值diff;
如果乘客在统计周期T内的工作日出行次数F>f,工作日首次出行平均时间的最大时间差为DIFF<diff,则标记该乘客为通勤人员。
4.根据权利要求3所述的城市轨道交通通勤分布估计方法,其特征在于,
根据所述临时表构建所述四个向量。
5.根据权利要求4所述的城市轨道交通通勤分布估计方法,其特征在于,计算与时段T0前一个时间周期T内出行信息的相似度,包括:
计算时段T0内乘客首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量,与计算时段T0前一个时间周期T内首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量的余弦相似度。
6.一种城市轨道交通通勤分布估计系统,其特征在于,包括:数据接入模块、通勤族分析模块、出行信息分析模块以及更新模块;
所述数据接入模块,每日特定时间获取出行交易记录;
所述通勤族分析模块,提取时间周期T内交通出行交易记录,提取通勤人员,并发送至所述出行信息分析模块;每隔特定时段T0,提取时段T0内交通出行交易记录,提取通勤人员,并发送至所述更新模块;
所述出行信息分析模块,计算通勤人员的出行信息,构建每个通勤人员的画像,所述出行信息包括通勤人员居住地和工作地;所述出行信息分析模块包括居住地分析及工作地分析单元,计算通勤人员居住地和工作地,包括:
构建四个向量:
如果则对应的站点为该通勤人员的工作地,否则站点为工作地,即判定末次出行最晚时间对应的出发站站点i为工作地,末次出行出发站的最晚时间;其中argmax表示自变量函数,w1为居住地阈值,w2为工作地阈值;
所述更新模块,每隔特定时段T0,更新所述通勤人员及对应画像;对于已经存在画像的通勤人员,针对每个通勤人员计算时段T0内的数据提取出行信息,并计算与时段T0前一个时间周期T内出行信息的相似度,如果相似度不超过设定阈值则不更新所述画像;否则,采用控制所述出行信息分析模块,基于时间周期T内的数据重新计算该通勤人员的出行信息,更新通勤人员的画像;对于不存在画像的通勤人员,控制所述出行信息分析模块采用时间周期T内的数据重新计算通勤人员的出行信息构建通勤人员的画像。
7.根据权利要求6所述的城市轨道交通通勤分布估计系统,其特征在于,还包括数据清洗模块,对所述交通出行交易记录去除乘客隐私信息后,按照设定格式导入数据库;进行数据清洗,删除数据库中重复数据、缺项数据填充或删除以及异常数据填充或删除。
8.根据权利要求7所述的城市轨道交通通勤分布估计系统,其特征在于,所述通勤族分析模块,提取乘客在时间周期T内的N条出行交易记录,统计所有乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF;
设定通勤族在时间周期T内的出行次数的阈值f及工作日首次出行平均时间的最大时间差的阈值diff,满足此双阈值的乘客标记为通勤人员;如果乘客在统计周期T内的工作日出行次数F>f,工作日首次出行平均时间的最大时间差为DIFF<diff,则标记该乘客为通勤人员。
9.根据权利要求6至8之一所述的城市轨道交通通勤分布估计系统,其特征在于,所述出行信息,包括居住地、工作地、进站时间段以及出站时间段;所述通勤族分析模块,统计所有乘客在时间周期T内工作日出行次数F,计算各周第j个工作日首次出行平均时间的最大时间差为DIFF,包括:
提取乘客在时间周期T内的N条出行交易记录,每条出行交易记录形成中间表,以分钟表征进站和出站时间片;
按照时间顺序排列每名乘客的所述中间表,并添加每日首末次出行记录标志形成临时表;
10.根据权利要求9所述的城市轨道交通通勤分布估计系统,其特征在于,
根据所述临时表构建所述四个向量。
11.根据权利要求10所述的城市轨道交通通勤分布估计系统,其特征在于,所述更新模块计算与时段T0前一个时间周期T内出行信息的相似度,包括:
计算时段T0内乘客首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量,与计算时段T0前一个时间周期T内首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量的余弦相似度。
12.一种Hadoop大数据平台,其特征在于,包括权利要求6至11之一所述的城市轨道交通通勤分布估计系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210135670.9A CN114202254B (zh) | 2022-02-15 | 2022-02-15 | 一种城市轨道交通通勤分布估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210135670.9A CN114202254B (zh) | 2022-02-15 | 2022-02-15 | 一种城市轨道交通通勤分布估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114202254A CN114202254A (zh) | 2022-03-18 |
CN114202254B true CN114202254B (zh) | 2022-05-27 |
Family
ID=80658966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210135670.9A Active CN114202254B (zh) | 2022-02-15 | 2022-02-15 | 一种城市轨道交通通勤分布估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114202254B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279534B (zh) * | 2013-05-31 | 2016-06-01 | 西安建筑科技大学 | 基于智能公交系统数据的公交卡乘客通勤od分布估计方法 |
CN105701180B (zh) * | 2016-01-06 | 2021-09-03 | 北京航空航天大学 | 一种基于公交ic卡数据的通勤乘客判定方法 |
CN106448233B (zh) * | 2016-08-19 | 2017-12-05 | 大连理工大学 | 基于大数据的公交线路时刻表协同优化方法 |
CN108681741B (zh) * | 2018-04-08 | 2021-11-12 | 东南大学 | 基于ic卡和居民调查数据的地铁通勤人群信息融合方法 |
CN110134865B (zh) * | 2019-04-26 | 2023-03-24 | 重庆大学 | 一种基于城市公共交通出行大数据的通勤乘客社交推荐方法及平台 |
CN110992686B (zh) * | 2019-11-25 | 2021-07-20 | 厦门路桥信息股份有限公司 | 交通出行大数据分析方法 |
CN113723979A (zh) * | 2020-05-26 | 2021-11-30 | 百度在线网络技术(北京)有限公司 | 通勤偏好分析方法、挖掘方法、装置、设备和介质 |
-
2022
- 2022-02-15 CN CN202210135670.9A patent/CN114202254B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114202254A (zh) | 2022-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103632212B (zh) | 一种时变用户均衡动态网络演化客流预测系统和方法 | |
CN109299438B (zh) | 一种基于网约车数据的公共交通设施供给水平评价方法 | |
Cui | Bus passenger origin-destination matrix estimation using automated data collection systems | |
Li et al. | Estimating a transit passenger trip origin-destination matrix using automatic fare collection system | |
Nair et al. | A model of deadheading trips and pick-up locations for ride-hailing service vehicles | |
CN106529711B (zh) | 用户行为预测方法及装置 | |
CN106448132A (zh) | 一种常规公交服务指数实时评价系统及评价方法 | |
CN111932925A (zh) | 一种公共交通站点的出行客流的确定方法、装置及系统 | |
CN114331234A (zh) | 基于乘客出行信息的轨道交通客流预测方法和系统 | |
CN111598333A (zh) | 客流数据的预测方法及装置 | |
Ma et al. | Public transportation big data mining and analysis | |
Guo et al. | Exploring potential travel demand of customized bus using smartcard data | |
CN111414719A (zh) | 地铁站周边特征提取、交通需求估计方法及装置 | |
Basso et al. | Crowding on public transport using smart card data during the COVID-19 pandemic: New methodology and case study in Chile | |
CN114202254B (zh) | 一种城市轨道交通通勤分布估计方法及系统 | |
Yagi et al. | Joint models of home-based tour mode and destination choices: applications to a developing country | |
CN116090785B (zh) | 针对大型活动散场场景两阶段的定制公交规划方法 | |
CN109523788B (zh) | 一种路段运行效果评价方法 | |
CN114923497A (zh) | 一种铁路出行的路径规划方法、装置、设备及存储介质 | |
JP2007265317A (ja) | 来場人数予測方法及びシステム | |
Dafu et al. | Commuter travel identification based on bus IC data | |
CN112000874A (zh) | 一种数字孪生城市人口管理方法和存储设备 | |
Singh et al. | The boundary between random and non-random passenger arrivals: Robust empirical evidence and economic implications | |
CN115050188B (zh) | 一种室内停车场剩余车位预测方法 | |
CN112733891B (zh) | 对出行链断链时公交ic卡乘客进行下车站点识别的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |