CN114202254B

CN114202254B - 一种城市轨道交通通勤分布估计方法及系统

Info

Publication number: CN114202254B
Application number: CN202210135670.9A
Authority: CN
Inventors: 杨军; 叶谈; 侯振华; 韩啸; 杨恢凡
Original assignee: China University of Mining and Technology Beijing CUMTB
Current assignee: China University of Mining and Technology Beijing CUMTB
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2022-05-27
Anticipated expiration: 2042-02-15
Also published as: CN114202254A

Abstract

本发明的实施例涉及一种城市轨道交通通勤分布估计方法及系统，提取时间周期T内交通出行交易记录，提取通勤人员；计算每个通勤人员的出行信息，构建每个通勤人员的画像；基于所述画像估计通勤人员群体的通勤分布；每隔特定时段T0，提取时段T0内交通出行交易记录，提取通勤人员；对于已经存在画像的通勤人员，计算与时段T0前一个时间周期T内出行信息的相似度，如果相似度不超过设定阈值则不更新所述画像；否则更新通勤人员的画像；对于不存在画像的通勤人员，采用时间周期T内的数据重新计算通勤人员的出行信息构建通勤人员的画像。本发明提取通勤人员，为通勤人员构建画像并定期更新，基于画像估计通勤分布，估计准确且计算量更小。

Description

一种城市轨道交通通勤分布估计方法及系统

技术领域

本发明涉及智能交通技术领域，尤其涉及一种城市轨道交通通勤分布估计方法及系统。

背景技术

对乘客出行需求分析和预测是城市轨道交通运营组织的基础，准确掌握公交乘客通勤出行的起点（Origin）和终点（Destination），即公交通勤OD对于公交系统的线网规划和运营管理具有重要意义。

通勤交通是城市早、晚高峰客流的主要组成部分，吸引通勤者选择公共交通出行，对于缓解城市交通拥堵具有重要作用。获得乘客的通勤OD分布，能够对公交通勤出行需求的特征和规律进行分析，掌握通勤者公交出行需求的特征和规律，是优化公交系统、更高水平地满足通勤出行需求的基础。传统的公交出行信息一般是通过大规模居民出行调查来获得，具有费用高、数据生命周期短的不足。决策信息的匮乏和滞后造成公交线网规划和公交运营计划难以根据出行需求的动态变化来进行及时调整。

发明内容

针对现有技术存在的问题，本发明提供一种城市轨道交通通勤分布估计方法及系统，提取通勤人员，为通勤人员构建画像并定期更新，基于画像估计通勤分布，估计准确且计算量更小。

为达到上述目的，本发明提供了一种城市轨道交通通勤分布估计方法，包括：

提取时间周期T内交通出行交易记录，提取通勤人员；

计算每个通勤人员的出行信息，构建每个通勤人员的画像；

基于所述画像估计通勤人员群体的通勤分布；

每隔特定时段T0，更新所述通勤人员及对应画像，包括：提取时段T0内交通出行交易记录，提取通勤人员；对于已经存在画像的通勤人员，针对每个通勤人员计算时段T0内的数据提取出行信息，并计算与时段T0前一个时间周期T内出行信息的相似度，如果相似度不超过设定阈值则不更新所述画像；否则，采用时间周期T内的数据重新计算通勤人员的出行信息，更新通勤人员的画像；对于不存在画像的通勤人员，采用时间周期T内的数据重新计算通勤人员的出行信息，构建通勤人员的画像。

进一步地，所述出行信息，包括居住地、工作地、进站时间段以及出站时间段；

提取通勤人员，包括：

对所述交通出行交易记录去除乘客隐私信息后，按照设定格式导入数据库；

进行数据清洗，删除数据库中重复数据、缺项数据填充或删除以及异常数据填充或删除；

提取乘客在时间周期T内的N条出行交易记录，统计乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF；

设定通勤族在时间周期T内的出行次数的阈值f及工作日首次出行平均时间的最大时间差的阈值diff；如果乘客在统计周期T内的工作日出行次数F>f,工作日首次出行平均时间的最大时间差为DIFF<diff,则标记该乘客为通勤人员。

进一步地，统计所有乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF，包括：

提取乘客在时间周期T内的N条出行交易记录，每条出行交易记录形成中间表，以分钟表征进站和出站时间片；

按照时间顺序排列每名乘客的所述中间表，并添加每日首末次出行记录标志形成临时表；

所述按照临时表统计所有乘客在时间周期T内工作日出行次数F，计算各周第j个工作日的首次出行平均时间

，由

的最大值和最小值得到工作日的首次出行平均时间的最大时间差DIFF，id表示乘客编号。

进一步地，计算通勤人员居住地和工作地，包括：

根据所述临时表构建四个向量：

乘客首次出行出发站比例向量First_In=[

]，其中

为某id 乘客首次出行出发站是站点i的比例, S是站点编号;

乘客末次出行终点站比例向量 Last_Out=[

]

为某id乘客末次出行终点站是站点i的比例；

乘客首次出行终点站比例向量First_Out=[

,

]

为某id乘客首次出行终点站是站点i的比例；

乘客末次出行出发站比例向量Last_In=[

……,

]

为某id乘客末次出行出发站是站点i的比例;

如果max(

w1，则对应站点为该通勤人员的居住地，否则站点i= argmax(

）为居住地，即判定首次出行最早时间对应的出发站站点i为居住地，

为首次出行出发站的最早时间，argmax表示自变量函数；

如果max(

)

w2，则对应的站点为该通勤人员的工作地，否则站点i =argmax(

为工作地，即判定末次出行最晚时间对应的出发站站点i为工作地，

的最晚时间；其中argmax表示自变量函数，w1为居住地阈值，w2为工作地阈值。

进一步地，计算与时段T0前一个时间周期T内出行信息的相似度，包括：

计算时段T0内乘客首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量，与计算时段T0前一个时间周期T内首次出行出发站比例向量、乘客末次出行终点站比例向量、乘客首次出行终点站比例向量以及乘客末次出行出发站比例向量的余弦相似度。

另一方面提供一种城市轨道交通通勤分布估计系统，包括：数据接入模块、通勤族分析模块、出行信息分析模块以及更新模块；

所述数据接入模块，每日特定时间获取出行交易记录；

所述通勤族分析模块，提取时间周期T内交通出行交易记录，提取通勤人员，并发送至所述出行信息分析模块；每隔特定时段T0，提取时段T0内交通出行交易记录，提取通勤人员，并发送至所述更新模块；

所述出行信息分析模块，计算通勤人员的出行信息，构建每个通勤人员的画像；

所述更新模块，每隔特定时段T0，更新所述通勤人员及对应画像；对于已经存在画像的通勤人员，针对每个通勤人员计算时段T0内的数据提取出行信息，并计算与时段T0前一个时间周期T内出行信息的相似度，如果相似度不超过设定阈值则不更新所述画像；否则，采用控制所述出行信息分析模块，基于时间周期T内的数据重新计算该通勤人员的出行信息，更新通勤人员的画像；对于不存在画像的通勤人员，控制所述出行信息分析模块采用时间周期T内的数据重新计算通勤人员的出行信息构建通勤人员的画像。

进一步地，还包括数据清洗模块，对所述交通出行交易记录去除乘客隐私信息后，按照设定格式导入数据库；进行数据清洗，删除数据库中重复数据、缺项数据填充或删除以及异常数据填充或删除。

进一步地，所述通勤族分析模块，提取乘客在时间周期T内的N条出行交易记录，统计所有乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF；

设定通勤族在时间周期T内的出行次数的阈值f及工作日首次出行平均时间的最大时间差的阈值diff，满足此双阈值的乘客标记为通勤人员；如果乘客在统计周期T内的工作日出行次数F>f,工作日首次出行平均时间的最大时间差为DIFF<diff,则标记该乘客为通勤人员。

进一步地，所述出行信息，包括居住地、工作地、进站时间段以及出站时间段；所述通勤族分析模块，统计所有乘客在时间周期T内工作日出行次数F，计算各周第j个工作日首次出行平均时间的最大时间差为DIFF，包括：

，由

的最大值和最小值得到工作日的首次出行平均时间的最大时间差DIFF。

进一步地，所述出行信息分析模块，包括居住地分析及工作地分析单元；

所述居住地分析及工作地分析单元，计算通勤人员居住地和工作地，包括：

根据所述临时表构建四个向量：

乘客首次出行出发站比例向量First_In=[

,

]，其中

为某id乘客首次出行出发站是站点i的比例, S是站点编号;

乘客末次出行终点站比例向量 Last_Out=[

]

为某id乘客末次出行终点站是站点i的比例；

乘客首次出行终点站比例向量First_Out=[

,

]

为某id乘客首次出行终点站是站点i的比例；

乘客末次出行出发站比例向量Last_In=[

……,

]

为某id乘客末次出行出发站是站点i的比例;

如果max(

w1，则对应站点为该通勤人员的居住地，否则站点i= argmax(

为首次出行出发站的最早时间，argmax表示自变量函数；

如果max(

)

w2，则对应的站点为该通勤人员的工作地，否则站点i =argmax(

进一步地，所述更新模块计算与时段T0前一个时间周期T内出行信息的相似度，包括：

提供一种Hadoop大数据平台，包括所述的城市轨道交通通勤分布估计系统。

本发明的上述技术方案具有如下有益的技术效果：

（1）本发明提取通勤人员，为通勤人员构建画像并定期更新，基于画像估计通勤分布，估计准确且计算量更小。

（2）本发明在通勤族乘客的前提下分析计算其每日首末次出行的出发站，终点站比例的空间特征及首末次出行的时间特征，通过空间、时间上的双重判定条件分析通勤族的居住地、工作地，判断准确性更高。

（3）本发明基于统计周期内乘客工作日出行次数f和每个工作日首次出行平均时间的最大时间差的双阈值设置判定乘客是否属于通勤族，准确提取通勤人员。

（4）基于通勤人员群体的通勤分布，可以预估车站的人流量，进行资源配置；分析早高峰时段，组织客运，分析乘客组成；规划交通线网的建设。

附图说明

图1是一些实施例中的城市轨道交通通勤分布估计流程图；

图2提取时间周期T内交通出行交易记录，提取通勤人员过程示意图；

图3为一些实施例中的城市轨道交通通勤分布估计系统组成示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在一些实施例中提供一种城市轨道交通通勤分布估计方法，包括如下步骤：

S100提取时间周期T内交通出行交易记录，提取通勤人员。

结合图2，具体包括如下步骤：

S110提取时间周期T内交通出行交易记录，周期T例如为3个月。在一个实施例中，通过地铁AFC系统(Automatic Fare Collection System, 城市轨道交通自动售检票系统)获取出行交易数据。再又一实施例中，通过公交系统获取出行交易数据。

S120对出行交易数据进行格式转换，去除乘客隐私信息，处理后数据内容及格式如表1所示。

表1 初始记录表ori表

列名	描述	示例
			ID	乘客标识号	P_SZ_2020_000000001
TRADE_TYPE	交易类型	1（乘车码）2（IC卡）3（其它）
			IN_TIME	进站时间	20200823 08:33:21
IN_STATION	进站点	示例站点1
			OUT_TIME	出站时间	20200823 08:58:22
OUT_STATION	出站点	示例站点2

搭建Hadoop大数据平台，构建hive数据库。设计乘客数据存储模型，将表1转换后的数据导入hive数据库。

S130数据清洗。

制定数据治理的规则，包括数据重复、数据缺项、数据异常。对于数据重复，删除重复数据；对于数据缺项，缺项部分进行均值/重值填充或删除处理；对于数据异常，即数据某属性不在正常范围内，进行均值/重值填充或删除处理。

以深圳地铁8号线为例，其运营时间为05：00—22：05，如果表数据时间属性有不在此范围内，应该将此条记录删除。计算乘客每个OD段的平均出行时长，对缺失进站时间或出站时间的记录进行补全等。

S140乘客为通勤族的判定：

（1）提取固定时间周期内地铁出行交易初始记录ori表的数据，转化成成中间表R表如下：

R=[

],N为总的出行记录条数。

每条原始交易记录数据

处理成字典类型数据，数据采用key（关键字）:value （值）形式，

为一条出行记录，其中key包括id、in_station，month、day、in_slot，week， out_station，out_slot，见表2。

表2 中间表R表

Key	Value(示例)	说明
			id	P_SZ_2020_000000001	乘客标识号
in_station	S01	出发站编号,对各站点用”S”+”id”表示,S表示车站，id为车站编号
			month	12	月份
day	12	日期
			in_slot	513	进站时间片,单位换算为分钟，例如将入站时间08:33记为8*60+33=513
week	1	周一～周日
			out_station	S02	终点站编号
out_slot	543	出站时间片, 单位换算为分钟例如将出站时间09:03记为9*60+3=543

（2）将表2中间表R表依次按照用户id分出所属每个用户的临时表，并将month、 day、in_slot进行升序排序,添加上每日首末次出行记录标志sign，首次则sign=1，末次则 sign=3，首次也是末次则sign=2(当日只有一次出行记录)，其他情况sign=4，得到新的临时表P表=[

]，P为统计周期内某用户的所有出行记录，M为统计周期内某用户的出行记录条数，

表示某乘客的一条出行记录，M为该乘客在统计周期内的出行记录总条数,每个

分别有关键字id、in_station、month、day、in_slot、week、out_station、out_ slot、sign。

表3临时表P表

Key	Value(示例)	说明
			id	P_SZ_2020_000000001	乘客标识号
in_station	S01	出发站编号,对各站点用”S”+”id”表示,S表示车站，id为车站编号
			month	12	月份
day	12	日期
			in_slot	513	进站时间片,单位换算为分钟，例如将入站时间08:33记为8*60+33=513
week	1	周一～周日
			out_station	S02	终点站编号
out_slot	543	出站时间片, 单位换算为分钟例如将出站时间09:03记为9*60+3=543
			sign	1	每日首末次出行记录标志,首次sign=1，末次sign=3，即是首次也是末次则sign=2(当日只有一次出行记录)，其他情况sign=4

上述初始记录表ori表，临时表P表,中间表R表,采用MapReduce，HiveSQL或SparkSQL程序获取需求数据构建。

计算统计周期内所有乘客工作日出行次数F和每个工作日首次出行平均时间

。 F是在表3(临时表P表)的基础上计算得来的。表3并不真实存储，只存在于计算过程。

例如

=count({X|X∈P&&

.id=id&&

.week=1|2|3|4|5})表示编号为id的乘客在统计周期内工作日的出行次数。

是在表3（临时表P表）的基础上，依次抽取各乘客统计周期内所有工作日首次出行的记录集合{E|E∈P&&E.sign=1|2}计算得来的。例如

(

=id&&

week=j)表示标识符为id的乘客在周j的首次出行平均时间的平均时间，其中N为标识符为id的乘客在统计周期内工作日周j有出行记录的天数。

F和

是所有通勤人员的数据集。

和

是具体某一个通勤人员的数据。&&表示逻辑判断“且”，id表示某一个乘客id，Xi表示临时表P里的一条记录，

.week表示，count 表示计算集合内的参数数量，P.sign表示临时表P里的sign的值，=表示取值，竖线表示逻辑 “或”。

工作日客流特征:周期性，波动性(季节，月份)，随机性。

（3）通勤族的第一次判断：通勤族有工作日出行次数相对固定，每日通常上下班两次，工作日首末次出行的出发站，目的站相反的特点。根据所有乘客在统计周期(三个月)内工作日出行次数F，设置通勤人员出行次数的最小阈值f，即P(工作日出行次数>f)=

。若某乘客统计周期内工作日出行次数大于阈值f，则进入通勤族的第二次判断。（为了尽可能使大部分有可能是通勤族的乘客能进入通勤族的第二次判断之中,例如设定概率值

不小于 0.75，并不是假定通勤类乘客占比最小是0.75。）

（4）通勤族的第二次判断：通勤族的另一大特点是其在工作日每天首次出行时间相对固定，在乘客每个工作日首次出行平均时间

的基础上计算其最大时间差DIFF。

例如首先构建某标识符为id的通勤人员工作日平均首次出行时间列表

= [

,

,

,

,

]，计算得该通勤人员工作日平均首次出行时间的最大时间差

=

-

。继而得到所有通勤人员工作日平均首次出行时间的最大时间差DIFF。

通过ks检验得DIFF基本符合正态分布。类似地对DIFF的概率密度函数求积分如下：

P(0<x<diff)=

=

类似地，为了尽可能使真正的通勤族基本能被判定出来，例如此处设定积分面积

不小于0.75，并不是假定通勤类乘客最小占比是0.75，0.75对应最大时间差的阈值diff。

为统计周期内所有乘客工作日首次出行最大时间差DIFF的平均值，

为标准差。取diff为统计周期内乘客工作日首次出行最大时间差的阈值。

通过步骤（3）、（4）的计算，我们得出统计周期内工作日最少出行次数f，每个工作日首次出行最大时间差diff两个阈值来判定乘客是否为通勤族。

S200计算每个通勤人员的出行信息，构建每个通勤人员的画像。

所述出行信息，包括居住地、工作地、进站时间段以及出站时间段。所述画像中包含的信息参见表2。

S210通勤族居住地、工作地的初步判定，统计周期内针对某一乘客的出行记录。

（1）乘客首次出行出发站比例向量First_In，乘客末次出行终点站比例向量Last_Out，乘客首次出行终点站比例向量First_Out，乘客末次出行出发站比例向量Last_In计算前的数据准备。

根据临时表P表计算：

=count({X|X∈P&&

.id=id&&

.sign=1|2})

=count({X|X∈P&&

.id=id&&

.sign=3|2})

=count({X|X∈P&&

.id=id&&

.start_station=s&&

.sign=1|2})

=

表示某乘客在统计周期内首次出行出发站点是s的次数，其中id是乘客标识，s 是站点编号。 n站点总数。s是站点编号。X是某乘客首次出行出发站点是s的记录集合， count是用来计算的集合记录条数的函数。

是乘客首次出行的记录数。

是乘客末次出行的记录数。

是乘客id首次出行出发站是站点s的比例。

类似地，计算可得

，

，

，

，

，

如下：

=count({X|X∈P&&

.id=id &&

.end_station=s&&

.sign=3|2}) X是某乘客末次出行终点站点是s的记录集合，count是用来计算的集合记录条数的函数。

=

（n站点总数，s是站点编号）

是乘客id末次出行终点站是站点s的比例。

=count({X|X∈P&&

.id=id&&

.end_station=s&&

.sign=1|2}) X是某乘客首次出行终点站点是s的记录集合，count是用来计算的集合记录条数的函数。

=

（n站点总数，s是站点编号）

是乘客id首次出行终点站是站点s的比例。

=count({X|X∈P&&

.id=id&&

.start_station=s&&

.sign=3|2}) X是某乘客末次出行出发站点是s的记录集合，count是用来计算的集合记录条数的函数。

=

（n站点总数，s是站点编号）

是乘客id末次出行出发站是站点s的比例。

（2）根据上一步（1）计算可得如下向量结果：

①乘客首次出行出发站比例向量

First_In=[

,

,

]

即某乘客首次出行出发站是站点i的比例

②乘客末次出行终点站比例向量

Last_Out=[

,

,

]

即乘客末次出行终点站是站点i的比例

③乘客首次出行终点站比例向量

First_Out=[

,

,

]

即乘客首次出行终点站是站点i的比例

④乘客末次出行出发站比例向量

Last_In=[

,

,

]

即乘客末次出行出发站是站点i的比例

针对居住地，计算①②向量里对应站点比例的平方和开方，即max(

阈值w1对应的站点为居住地；计算③④向量里对应站点比例的平方和开方，即max(

)

阈值w2对应的站点为工作地。

S220通勤族居住地、工作地的二次判定。

对于步骤S210无法判定的乘客，添加时间上的权重,对于居住地而言，首次出行进入出发站的时间越早，该站属于居住地的可能性越大；对于工作地而言，末次出行进入出发站的时间越晚，该站属于工作地的可能性越大，于是计算乘客工作日对应的站点i=argmax(

）为居住地；类似地，站点i=argmax(

为工作地。

对应首次出行出发站的最早时间,

的最晚时间，T均换算为单位:分钟。

=

=

)

在得出乘客是通勤族的情况下得出其工作地，居住地，如果工作地、居住地有变动的情况，使用下一个统计周期的数据重复上述S210，S220的操作，更新计算工作地、居住地。

S300基于所述画像估计通勤人员群体的通勤分布。

有通勤人员的画像进行群体估计，统计通勤人员群体的通勤分布。进一步地，根据群体估计可以预估车站的人流量，进行资源配置；还可以分析早高峰时段，组织客运，分析乘客组成；也可以基于分布情况规划交通线网的建设。例如可以统计通勤人员的居住地及首次出行时间，判断早高峰的公交或者地铁各站点的人流量。

S400每隔特定时段T0，更新所述通勤人员及对应画像。

进一步地，提取时段T0内交通出行交易记录，提取通勤人员；对于已经存在画像的通勤人员，针对每个通勤人员计算时段T0内的数据提取出行信息，并计算与时段T0前一个时间周期T内出行信息的相似度，如果相似度不超过设定阈值则不更新所述画像；否则，采用时间周期T内的数据重新计算通勤人员的出行信息，更新通勤人员的画像；对于不存在画像的通勤人员，采用时间周期T内的数据重新计算通勤人员的出行信息构建通勤人员的画像。

比如上一个周期使用1，2，3月份的数据。在更新的时候首先使用4月份的数据，计算上一个周期(1,2,3月)这四个向量和目前这个周期（4月）的余弦相似度（cos值），其cos相似度对应的角度不超过30°，认定此人没发生变化，超过30°认定是发生了变化的；对于发生变化的人，采用2，3，4月份的数据更新画像。如果更新后发现该人员已经不再是通勤人员，则删除该人员的画像。对于新筛选出的通勤人员，采用步骤S200的方式构建画像。

另一方面提供一种城市轨道交通通勤分布估计系统，基于Hadoop大数据平台。结合图3，城市轨道交通通勤分布估计系统包括：数据接入模块、数据清洗模块、通勤族分析模块、出行信息分析模块以及更新模块。

所述数据接入模块，每日特定时间通过ftp服务器获取出行交易记录。

所述数据清洗模块，对所述交通出行交易记录去除乘客隐私信息后，按照设定格式导入数据库；进行数据清洗，删除数据库中重复数据、缺项数据填充或删除以及异常数据填充或删除。定义数据各项具体的范围值，对于异常记录采用取重，取均，删除等操作。

所述通勤族分析模块，提取时间周期T内交通出行交易记录，提取通勤人员，并发送至所述出行信息分析模块；每隔特定时段T0，提取时段T0内交通出行交易记录，提取通勤人员，并发送至所述更新模块。

所述通勤族分析模块，提取乘客在时间周期T内的N条出行交易记录，统计所有乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF；

设定通勤族在时间周期T内的出行次数的阈值f及工作日首次出行平均时间的最大时间差的阈值diff，满足此双阈值的乘客标记为通勤人员。例如：某乘客在统计周期内的出行次数为n（n>f）,工作日首次出行平均时间的最大时间差为t（t<diff）,则标记该乘客为通勤人员。

所述通勤族分析模块，统计所有乘客在时间周期T内工作日出行次数F和工作日的首次出行平均时间的最大时间差DIFF，包括：

所述按照临时表统计所有乘客在时间周期T内工作日出行次数F，计算每个工作日的首次出行时间，继而获取工作日的首次出行平均时间的最大时间差DIFF。

所述出行信息分析模块，计算通勤人员的出行信息，构建每个通勤人员的画像。

所述出行信息，包括居住地、工作地、进站时间段以及出站时间段。

所述出行信息分析模块，包括居住地分析及工作地分析单元；

根据所述临时表构建四个向量：

乘客首次出行出发站比例向量First_In=[

,

]，其中

为某id乘客首次出行出发站是站点i的比例, S是站点编号;

乘客末次出行终点站比例向量 Last_Out=[

]

为某id乘客末次出行终点站是站点i的比例；

乘客首次出行终点站比例向量First_Out=[

,

]

为某id乘客首次出行终点站是站点i的比例；

乘客末次出行出发站比例向量Last_In=[

……,

]

为某id乘客末次出行出发站是站点i的比例;

如果max(

w1，则对应站点为居住地，否则站点i=argmax(

）为居住地，

为首次出行出发站的最早时间，argmax表示自变量函数；

如果max(

)

w2，则对应的站点为工作地，否则站点i=argmax(

为工作地，

所述更新模块，对于已经存在画像的通勤人员，针对每个通勤人员计算时段T0内的数据提取出行信息，并计算与时段T0前一个时间周期T内出行信息的相似度，如果相似度不超过设定阈值则不更新所述画像；否则，采用控制所述出行信息分析模块，基于时间周期T内的数据重新计算该通勤人员的出行信息，更新通勤人员的画像；对于不存在画像的通勤人员，控制所述出行信息分析模块采用时间周期T内的数据重新计算通勤人员的出行信息构建通勤人员的画像。

所述更新模块计算与时段T0前一个时间周期T内出行信息的相似度，包括：

还可以设置前端展示模块：对乘客出行模式，工作地，居住地等情况的展示。

综上所述，本发明的实施例涉及一种城市轨道交通通勤分布估计方法及系统，提取时间周期T内交通出行交易记录，提取通勤人员；计算每个通勤人员的出行信息，构建每个通勤人员的画像；基于所述画像估计通勤分布；每隔特定时段T0，提取时段T0内交通出行交易记录，提取通勤人员；对于已经存在画像的通勤人员，计算与时段T0前一个时间周期T内出行信息的相似度，如果相似度不超过设定阈值则不更新所述画像；否则更新通勤人员的画像；对于不存在画像的通勤人员，采用时间周期T内的数据重新计算通勤人员的出行信息构建通勤人员的画像。本发明提取通勤人员，为通勤人员构建画像并定期更新，基于画像估计通勤分布，估计准确且计算量更小。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。