CN108681741A

CN108681741A - 基于ic卡和居民调查数据的地铁通勤人群信息融合方法

Info

Publication number: CN108681741A
Application number: CN201810305294.7A
Authority: CN
Inventors: 季彦婕; 刘阳; 刘梦吉; 曹钰; 刘攀
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2018-10-19
Anticipated expiration: 2038-04-08
Also published as: CN108681741B

Abstract

本发明提出了一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，属于地铁IC卡数据和居民出行调查数据挖掘领域。该方法利用IC卡数据和居民出行调查数据，提取对应的通勤出行指标，对通勤模式进行不同方法的划分，实现两套不同尺度的通勤人群信息的融合。本发明首次从IC卡数据和居民出行调查数据中挖掘对应的通勤指标，用两种不同的方法划分出对应的通勤人群，划分的人群通勤特征显著，比例差异小。既发挥了IC卡数据的客观性优势，又能够利用居民出行调查数据中更完备的个人和家庭信息，为不同通勤模式的形成机理研究提供条件。

Description

基于IC卡和居民调查数据的地铁通勤人群信息融合方法

技术领域

本发明属于地铁IC卡数据和居民出行调查数据挖掘领域，具体涉及一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法。

背景技术

通勤交通是城市中最重要的刚性交通需求，随着社会经济的发展和城市规模的扩大，职住用地的不平衡越来越凸显出来，越来越多的人不得不进行长距离通勤。地铁作为城市的重要交通手段，兼具安全准点、快捷舒适的优点，成为很多中长距离通勤者优先选择的通勤方式。分析地铁通勤者的出行行为特征，对于城市用地规划和公交基础设施的建设和优化具有重要参考意义。

目前针对通勤者出行行为的研究主要是在传统居民出行调查的基础上开展的。尽管这是获取个体出行行为的重要手段，但会存在以下两个方面的不足：(1)出行行为是一个长期动态且有周期性的过程，基于日志的调查分析得到的数据时间跨度短，不能真实反映这种长期生活方式下的出行习惯和规律，存在一定的偏差性。(2)由于调查多通过个体依据回忆来填写活动-出行情况，回忆不可避免地带有主观性，其活动时空的准确性和完整性很难得到真实的反映。因此，通过常规居民日志调查数据分析得到的通勤规律缺乏一定的说服力。也有研究利用公交智能卡数据对通勤行为的时空规律进行了分析，智能卡数据记录了乘客的连续时空信息，包含的信息量大，因此利用智能卡数据可以更客观、真实地反映周期较长的出行行为，所获得的研究成果更加科学可靠。然而，智能卡数据仅记录乘客的出行时空信息，缺乏个体的社会经济属性，难以对通勤出行行为的影响因素进行更多的挖掘。因此，研究IC卡和居民调查数据的地铁通勤信息融合方法显得尤为重要。

发明内容

发明目的：基于现有技术的不足，本发明提出一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，利用IC卡数据和居民出行调查数据，提取对应的通勤出行指标，对通勤模式进行不同方法的划分，实现两套不同尺度的通勤信息的融合，能够得到客观的地铁通勤模式并为其形成机理研究提供条件。

技术方案：一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，通过提取IC卡中的通勤个体出行特征进行通勤识别，在其基础上提取通勤者的出行特性指标，并采用聚类算法将通勤人群进行分类。在通勤人群分类的基础上，在居民出行调查数据中对相应的出行指标划分区间，得到对应的各类通勤人群。该方法包括以下步骤：

(1)获取地铁IC卡与居民出行调查数据，并从数据中提取有效信息；

(2)筛选居民出行调查数据中使用地铁通勤的乘客数据，建立基于调查的地铁通勤数据库，并统计通勤时空特征；

(3)根据通勤时空特征，对地铁IC卡中的通勤乘客进行识别，剔除使用地铁通勤天数少于指定通勤天数阈值n的乘客，建立地铁IC卡通勤数据库；

(4)提取通勤乘客的出行指标，并分别对地铁IC卡通勤数据库和基于调查的地铁通勤数据库中与出行指标对应的数据进行预处理；

(5)将地铁IC卡通勤数据库中处理后的出行指标数据进行聚类，把地铁通勤乘客划分为K类；

(6)获取K类地铁通勤乘客各出行行为指标的分布区间，从基于调查的地铁通勤数据库中识别出对应指标分布区间的通勤乘客，完成出行信息融合。

其中，步骤(1)中地铁IC卡有效信息包括：刷卡日期、卡号、卡类型、进站时间、进站站点编号、进站站点经纬度、出站时间、出站站点编号、出站站点经纬度；居民出行调查数据有效信息包括：出行日期、家庭属性(家庭住址、家庭经纬度等)、个人属性(性别、年龄、文化程度、工作日时间、职业、收入等)和出行信息(出发时刻、出发用地性质、出发经纬度、到达时刻、到达用地性质、到达经纬度、交通工具、每种交通工具的耗时、换乘耗时以及出行目的)。

步骤(2)中使用地铁通勤的乘客数据是通过从居民出行调查数据中筛选出行目的中含“通勤”且对应交通方式为“地铁”的出行者及其家庭成员获得；所统计的通勤时空特征包括通勤者一天内首次出行的出发地用地性质以及在其工作地的活动时长，并取所有通勤者在工作地活动时长的85分位数作为通勤者一日内驻留时间最小阈值，记为T。

步骤(3)中地铁IC卡通勤乘客的识别包括以下步骤：

31)将IC卡数据格式处理成统一格式，保留卡类型为成人卡的记录，删除进站车站号和出站车站号相同、进站日期和出站日期不同以及记录残缺的异常数据，并把保留的数据按日期和进站时间进行升序排序；

32)基于一日IC卡数据识别乘客居住地和工作地的候选车站。其中，把乘客一日内首次进站的车站当作候选居住地车站Si1，把乘客一日内驻留时间不小于T小时的车站(不包括候选的居住地)当作候选工作地车站Si2；

33)基于多日IC卡数据确定乘客居住地车站。以卡号为单位统计每个候选居住地车站Si1出现的频次，把出现频次最高的作为居住地车站S1，判断其他候选居住地车站Si1(Si1≠S1)与S1的间距，把间距小于指定距离阈值h米的Si1车站的出现频次汇总到S1，得到新的居住地车站S1’；若出现并列多个最高频次Si1的情况，则根据前述判断合并间距小于h米的Si1站点，选择合并后频率最高的Si1作为新的居住地车站S1’，若无可合并站点，则任意选择一个Si1作为新的居住地车站S1’；

34)基于多日IC卡数据确定乘客工作地车站。以卡号为单位统计每个候选工作地车站Si2出现的频次，把出现频次最高的作为工作地车站S2，判断其他候选工作地车站Si2(Si2≠S2)与S2的间距，把间距小于h米的Si2车站的出现频次汇总到S2，得到新的工作地车站S2’；若出现并列多个最高频次Si2的情况，则根据前述判断合并间距小于h米的Si2站点，选择合并后频率最高的Si2作为新的工作地车站S2’，若无可合并站点，则选择距离Si1最远的车站作为新的工作地车站S2’。

步骤(3)中指定通勤天数阈值n＝3w，w为获取的地铁IC卡数据的周数。

步骤(4)中通勤乘客的出行指标包括地铁通勤距离、上班进站时间、下班进站时间。基于出行指标对数据库中的对应数据进行预处理包括：

41)预处理通勤距离：在地铁通勤的用户IC卡数据库中，计算居住地S1到工作地S2在轨道线路上的最短距离D，作为第一通勤距离；在基于地铁通勤的出行调查数据中，根据出发地和目的地的经纬度计算家到单位的欧氏距离d0，根据交通工具的速度和相应耗时计算家-居住地站点的距离d1以及工作地站点-单位的距离d3，得到第二通勤距离D′＝d0-d1-d3；

42)预处理上班进站时间：在地铁通勤用户的IC卡数据库中，计算每个通勤日首次从居住地站点进站时间T1的平均值，作为第一上班进站时间；在基于地铁通勤的出行调查数据中，提取地铁通勤者从出发且出行目的为上班对应的出发时间Th，提取地铁通勤者从居住地(住宅、宿舍)出发到居住地地铁站点的时间t1，得到第二上班进站时间T1′＝Th+t1；

43)预处理下班进站时间：在地铁通勤用户的IC卡数据库中，计算每个通勤日最后一次从工作地站点进站时间T2的平均值，作为第一下班进站时间；在基于地铁通勤的出行调查数据中，提取地铁通勤者从单位出发对应的出发时间Tw，提取地铁通勤者从单位出发到工作地地铁站点的时间t2，得到第二下班进站时间T2′＝Tw+t2。

步骤(5)中的聚类方法为基于高斯混合模型的算法，其公式为：

其中K为模型的个数，π_k为第k个高斯模型的权重，则p(x)为第k个高斯模型的概率密度函数，其均值为μ_k，方差为σ_k。采用最大似然法来求解估计的参数，则要求解的目标方程为：

求解后得到每个样本属于每一类的概率，并取概率最大的类为该样本的所属类。

步骤(6)中的分布区间划分包括以下步骤：61)绘制IC卡数据聚类得到的三类通勤人群的通勤距离、上班进站时间和下班进站时间分布图；62)根据三类通勤人群的通勤距离极小值、上班进站时间和下班进站时间的分布确定区间上下限；63)计算划分后各类数量的比例与聚类结果中各类数量的比例之间的差异，控制在10％以内。

有益效果：本发明首次从IC卡数据和居民出行调查数据中挖掘对应的通勤指标，用两种不同的的方法划分出对应的通勤人群，划分的人群通勤特征显著，比例差异小。既发挥了IC卡数据的客观性优势，又能够利用居民出行调查数据中更完备的个人和家庭信息，为不同通勤模式的形成机理研究提供条件。

附图说明

图1为本发明方法的流程图；

图2为根据本发明实施例的聚类结果的通勤距离分布图；

图3为根据本发明实施例的聚类结果的上班进站时间分布图；

图4为根据本发明实施例的聚类结果的下班进站时间分布图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。以下描述中，表示通勤者居住地的词语包括“住所”、“家”、“家庭”、“宿舍”、“住宅”等，表示通勤者工作地的词语包括“单位”、“事务所”、“公司”、“银行”、“工厂”、“作业场所”等，“车站”、“站点”、“地铁站”均表示地铁站点。

参照图1，本发明提出的基于IC卡和居民调查数据的地铁通勤信息融合方法，包括以下步骤：(1)获取地铁IC卡与居民出行调查数据，并从数据中提取有效信息；(2)筛选居民出行调查数据中使用地铁通勤的乘客数据，建立基于调查的地铁通勤数据库，并统计通勤时空特征；(3)根据通勤时空特征，对地铁IC卡中的通勤乘客进行识别，剔除使用地铁通勤天数少于指定通勤天数n的乘客，建立地铁IC卡通勤数据库；(4)提取通勤乘客的出行指标，并分别对地铁IC卡通勤数据库和基于调查的地铁通勤数据库中与出行指标对应的数据进行预处理；(5)将地铁IC卡通勤数据库中处理后的出行指标数据进行聚类，把地铁通勤乘客划分为K类；(6)获取K类地铁通勤乘客各出行行为指标的分布区间，从基于调查的地铁通勤数据库中识别出对应指标分布区间的通勤乘客，完成出行信息融合。以下详述具体过程。

(1)获取地铁IC卡与居民出行调查数据，并从数据中提取有效信息

本发明实施例采用的数据为南京2015年11月的地铁IC卡数据和2015年的地铁线路数据，以及2015年的居民出行调查数据。其中地铁IC卡的原始数据包括刷卡日期和时间、进站站点、出站站点、出站时间、卡号、卡类型共6个字段，其数据格式示例见表1。地铁线路数据包括所有站点名称和对应的线路、站点号编号、站点经纬度，其数据格式示例见表2。居民出行调查数据的原始数据包括出行日期、家庭属性(家庭住址、家庭经纬度等)、个人属性(性别、年龄、文化程度、工作日时间、职业、收入等)和出行信息(出发时刻、出发用地性质、出发经纬度、到达时刻、到达用地性质、到达经纬度、交通方式、换乘次数、换乘方式以及出行目的)，其部分格式见表3-5。

表1地铁IC卡数据格式

表2地铁线路数据格式

表3居民出行调查属性1

表4居民出行调查属性2

表5居民出行调查属性3

交通工具1	耗时1	换乘耗时1	交通工具2	耗时2	换乘耗时2	交通工具3	耗时3
								步行	5	5	地铁	35	0	步行	5
步行	10	5	地铁	15	5	地铁	10
								步行	10	5	地铁	20	0	步行	10
步行	8	3	地铁	99	0	步行	10

其中，表4中出行距离是通过经纬度计算得到的。表5中交通工具1为通勤者从居住地到居住地地铁站点采用的交通方式，耗时1和换乘耗时1均为该阶段过程中的用时；交通工具2为从居住地站点到工作地地铁站点采用的交通方式，耗时2和换乘耗时2均为该阶段过程中的用时；交通工具3为通勤者从工作地地铁站点到单位采用的交通方式，耗时3为该阶段过程中的用时。

(2)筛选居民出行调查数据中使用地铁通勤的乘客数据，建立基于调查的地铁通勤数据库，并统计通勤时空特征

在居民出行调查数据中筛选出使用地铁通勤的乘客数据，筛选条件为出行目的中含“通勤”且对应交通方式为“地铁”的出行者及其家庭成员，建立基于地铁通勤的出行调查数据库。计算每个通勤者在工作地的驻留时间(小时)，取其85分位数并取整，得到通勤者一日内驻留时间最小阈值T＝6。

(3)根据通勤时空特征，对地铁IC卡中的通勤乘客进行识别，剔除使用地铁通勤天数少于指定通勤天数n的乘客，建立地铁IC卡通勤数据库

对通勤乘客进行识别具体包括以下步骤：

31)将IC卡数据选取的有效信息处理成统一格式，筛选出卡类型为成人卡的记录，其格式如表6所示。接着合并20个工作日所有的数据，储存某日刷卡数据的文件可能包含其他日的刷卡数据，这样做可以减小误差。筛选出卡类型为成人卡的记录，删除信息缺失的记录，按照卡号、日期、进站时间进行排序，这些刷卡记录构成了11月4周工作日的总出行数据库。

表6 IC卡数据格式

日期

进站时间

出站时间

进站站点

出站站点

卡号

卡类型

2015/11/2

8:11:50

8:59:33

89

8

990775782519

52

2015/11/2

17:36:25

18:27:22

8

89

990775782519

52

32)遍历当日出行数据，对于每一个卡号，提取其卡号、首次地铁出行的进站站点(居住站点Si1)及上班进站时间(T1)、出站站点(工作站点Si2)及上班出站时间(T2)，当天最后一次从工作站点(Si2)进站的下班进站时间(T3)。接着计算每个卡号在工作地停驻的时间(T3-T2)，删除停驻时间小于360分钟(6小时)的卡号。得到如表7所示的该日的通勤出行数据。

表7通勤出行数据

33)分别对剩下的19个工作日刷卡数据重复步骤33，合并20日通勤出行数据后得到通勤出行数据库。

34)以IC卡卡号为单位，提取该卡号的所有候选居住站点Si1，并统计每个Si1在通勤出行数据中出现的频次，取频次最高的作为居住站点S1；计算其他候选站点Si1(Si1≠S1)与S1的欧氏距离|d_1i|，取指定距离阈值h＝800米，当|d_1i|≤800米时，将该候选居住地车站合并入居住地车站成为新的居住地车站S1’。其形式如表8所示。

表8确定居住地车站数据实例

卡号	Si1	频次	lati	longi	\|d_1i\|(米)
						190170101618	40	12	32.116151	118.976654	-
190170101618	38	5	32.103824	118.940011	3711

在表8中，最高频次为12，不存在最高频次并列的情况，则站点40为居住站点S1。已知S1和候选站点Si1的经纬度S1(lat1,long1)、Si1(lati,longi)，则站点之间的欧氏距离为：

|d_1i|＝6368.16×arccos(sinX+cosX)

其中，

若出现两个候选站点频次相同且都是最高频次且不能合并，则根据距离将其他站点分别与这两个站点合并，取合并后频次之和较大的为新的居住地车站S1’，若无可合并站点，则在这些最高频次的站点中任选一个Si1作为居住地车站S1。若出现三个或者三个以上候选站点频次相同且都是最高频次的情况，依此类推。

工作地地车站确定的过程与居住地类似(见表9)，区别在于最后一步无可合并站点时，选择离居住地站点最远的即|d_1i|最大的站点作为新的工作地车站S2。本实施例中不存在工作站点最高频次并列的情况。

表9确定工作地车站数据实例

卡号	Si2	频次	lati	longi	\|d_1i\|(米)
						190170101618	9	17	118.784136	32.041806	19921

步骤3中，指定通勤天数阈值n＝3w，w为获取的地铁IC卡数据的周数。本实施例中，取11月份4周的数据，则n＝12。以卡号为单位统计在工作地驻留时间不小于6小时(360分钟)的天数，剔除使用地铁通勤天数少于12天的卡号。从591614个卡号中筛选出109899个，这些卡号持有者即为通勤用户。

(4)提取通勤乘客的出行指标，并分别对地铁IC卡通勤数据库和基于调查的地铁通勤数据库中与出行指标对应的数据进行预处理

通勤乘客的出行指标包括地铁通勤距离、上班进站时间、下班进站时间。在地铁通勤的用户IC卡数据库中，计算居住地S1到工作地S2在轨道线路上的欧氏距离D，

作为第一通勤距离；计算每个通勤日首次从居住地站点进站时间T1的平均值，作为第一上班进站时间；计算每个通勤日最后一次从工作地站点进站时间T2的平均值，作为第一下班进站时间，数据格式见表10。

表10通勤出行特征数据格式

卡号	第一通勤距离(km)	第一上班进站时间	第一下班进站时间
				170075874236	13.197	7:50	17:43
170075874252	8.154	8:09	16:52
				170075874929	8.166	8:14	17:13
190170100310	14.351	7:26	17:46

在基于地铁通勤的出行调查数据中，根据出发地和目的地的经纬度计算家到单位的欧氏距离d0，根据交通工具1的速度v1和对应的耗时t1计算家-居住地站点的距离d1＝v1·t1，根据交通工具3的速度v3和对应的耗时t3计算工作地站点-单位的距离d3＝v3·t3，得到第二通勤距离D′＝d0-d1-d3，其中步行的速度取5km/h，自行车的速度取18km/h，电动车的速度取35km/h，公交车的速度取40km/h。

计算第二上班进站时间和第二下班进站时间：在基于地铁通勤的出行调查数据中，提取地铁通勤者从“住宅、宿舍”出发且出行目的为“上班”对应的出发时间Th，提取地铁通勤者从“住宅、宿舍”出发到地铁站点的时间t1，得到第二上班进站时间T1′＝Th+t1；提取地铁通勤者从“单位”出发对应的出发时间Tw，提取地铁通勤者从“单位”出发到地铁站点的时间t2，得到第二下班进站时间T2′＝Tw+t2。

(5)将地铁IC卡通勤数据库中处理后的出行指标数据进行聚类，把地铁通勤乘客划分为K类

以通勤距离D、上班进站时间T1、下班进站时间T2为聚类变量对通勤用户进行基于高斯混合模型的聚类，其公式为：

其中K为模型的个数，π_k为第k个高斯模型的权重，则p(x)为第k个高斯模型的概率密度函数，其均值为μ_k，方差为σ_k。待估计参数(均值和方差)可通过最大似然法进行求解，具体的求解方法为：

其中x_i＝(D_i,T1_i,T2_i)^T，μ_k＝(μ_Dk,μ_T1k,μ_T2k)^T，σ_k＝(σ_Dk,σ_T1k,σ_T2k)^T

求解后得到每个样本属于每一类的概率，并取概率最大的类为该样本的所属类。将聚类个数K设为3，此时得到三类通勤人群差距较大，各类的样本量和出行特征均值结果见表11。

表11聚类结果

聚类均值	经典通勤模式	错峰通勤模式	远距离/晚归通勤模式
				样本数	61866	12073	35950
通勤距离(km)	9.232	9.992	16.833
				上班进站时间	7:57	9:35	7:49
下班进站时间	17:57	19:08	18:52

从聚类结果的均值中得到的信息较少，从各类的出行特征密度分布曲线(见图2-4)来观察可以得到更多的信息。可以将聚类结果解释为三种类型的通勤模式：(1)首先是经典的通勤模式，其上下班时间集中于高峰时段，通勤距离分布于短距离和中等距离，没有长距离的通勤；(2)其次是错峰通勤模式，这类通勤人群上下班的时间大多避开了通勤高峰时段，通勤距离与经典通勤模式一样集中于中短距离范围内；(3)最后是一种综合的非常规通勤模式，包括长距离通勤人群和下班时间晚的通勤人群，然而这一类人群的上班时间与经典通勤模式一样集中分布于高峰时段内。将第三类人群中下班时间晚的通勤人群并入错峰通勤模式，则得到三种特征差异显著的通勤模式：中短途经典通勤模式、中短途错峰通勤模式和远距离通勤模式。

(6)获取K类地铁通勤乘客各出行行为指标的分布区间，从基于调查的地铁通勤数据库中识别出对应指标分布区间的通勤乘客，完成出行信息融合

根据基于IC卡数据的通勤人群聚类的结果，可以将基于居民出行调查数据的通勤人群根据通勤距离、上班进站时间和下班进站时间阈值划分为对应的三类通勤模式。本发明中，融合指的是将IC卡数据里的通勤人群(没有社会经济等信息)与调查数据里对应人群(有社会经济等信息)建立对应关系，使得可以用调查数据里的经济属性去分析地铁IC卡对应几种通勤人群的影响机理，融合的结果是三类通勤人群对应这三类人群的社会经济属性信息。完成了区间的划分就是建立了这种对应关系，使得每类通勤人群对应上符合其通勤特征的社会经济属性。两套数据的样本比例差越小在一定程度上体现了区间划分的合理性越高。分布区间划分遵循以下原则：a.各类人群的出行特征拥有显著差异；b.区间的上下限根据聚类结果中各类通勤模式的出行指标分布确定；c.划分后各类数量的比例与聚类结果中各类数量的比例之间的差异在10％以内。具体地，本实施例中分布区间划分方法为：61)绘制IC卡数据聚类得到的三类通勤人群的通勤距离、上班进站时间和下班进站时间分布图，如图2、图3、图4所示；62)取12km作为人群划分的距离阈值界限，这是因为IC卡数据聚类得到的三类通勤人群的通勤距离都在12km达到一个极小值(见图2)；63)取7点和9点作为人群划分的阈值界限，这是因为上班进站时间分布中经典通勤模式的上班进站时间集中在7-9点(见图3)；同理，取17点和19点作为人群划分的阈值界限，这是因为下班进站时间中经典通勤模式的下班进站时间集中在17-19点(见图4)。64)计算各类通勤模式的划分区间和分类后的样本量(如表12所示)，其比例与基于IC卡数据分类的样本量比例之差小于5％。

表12通勤出行特征的分布区间和划分结果

Claims

1.一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，其特征在于，该方法包括以下步骤：

(2)筛选居民出行调查数据中使用地铁通勤的乘客数据，建立基于调查的地铁通勤数据库，并统计每个地铁通勤者在工作单位的活动时长；

(4)提取通勤乘客的出行指标用于通勤信息融合，分别对地铁IC卡通勤数据库和基于调查的地铁通勤数据库中出行指标对应的数据进行预处理；；

(6)获取K类地铁通勤乘客各出行行为指标的分布区间，从基于地铁通勤的出行调查数据库中识别出对应指标分布区间的通勤乘客，完成出行信息融合。

2.根据权利要求1所述的一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，其特征在于，所述步骤(1)中地铁IC卡有效信息包括：刷卡日期、卡号、卡类型、进站时间、进站站点编号、进站站点经纬度、出站时间、出站站点编号、出站站点经纬度；居民出行调查数据有效信息包括：出行日期、家庭属性、个人属性和出行信息；其中，

家庭属性包括：家庭住址、家庭经纬度；个人属性包括：性别、年龄、文化程度、工作日时间、职业、收入；出行信息包括：出发时刻、出发用地性质、出发经纬度、到达时刻、到达用地性质、到达经纬度、交通工具、每种交通工具的耗时、换乘耗时以及出行目的。

3.根据权利要求1所述的一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，其特征在于，所述步骤(2)中使用地铁通勤的乘客数据是通过从居民出行调查数据中筛选出行目的中含“通勤”且对应交通方式为“地铁”的出行者及其家庭成员获得。

4.根据权利要求1所述的一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，其特征在于，所述步骤(3)中地铁IC卡通勤乘客的识别包括以下步骤：

32)基于一日IC卡数据识别乘客居住地和工作地的候选车站：其中，把乘客一日内首次进站的车站当作候选居住地车站Si1，把乘客一日内驻留时间不小于T小时的车站当作候选工作地车站Si2；T取基于地铁通勤的出行调查数据库中所有通勤者在工作地活动时长的85分位数；

33)基于多日IC卡数据确定乘客居住地车站：以卡号为单位统计每个候选居住地车站Si1出现的频次，把出现频次最高的作为居住地车站S1，判断其他候选居住地车站Si1(Si1≠S1)与S1的间距，把间距小于指定距离阈值h米的Si1车站的出现频次汇总到S1，得到新的居住地车站S1’；若出现并列多个最高频次Si1的情况，则根据前述判断合并间距小于h米的Si1站点，选择合并后频率最高的Si1作为新的居住地车站S1’，若无可合并站点，则任意选择一个Si1作为新的居住地车站S1’；

34)基于多日IC卡数据确定乘客工作地车站：以卡号为单位统计每个候选工作地车站Si2出现的频次，把出现频次最高的作为工作地车站S2，判断其他候选工作地车站Si2(Si2≠S2)与S2的间距，把间距小于h米的Si2车站的出现频次汇总到S2，得到新的工作地车站S2’；若出现并列多个最高频次Si2的情况，则根据前述判断合并间距小于h米的Si2站点，选择合并后频率最高的Si2作为新的工作地车站S2’，若无可合并站点，则选择距离Si1最远的车站作为新的工作地车站S2’。

5.根据权利要求1所述的一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，其特征在于，所述步骤(3)中指定通勤天数阈值n＝3w，w为获取的地铁IC卡数据的周数。

6.根据权利要求1所述的一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，其特征在于，所述步骤(4)中通勤乘客的出行指标包括地铁通勤距离、上班进站时间、下班进站时间。

7.根据权利要求6所述的一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，其特征在于，所述步骤(4)中出行指标对应数据的预处理包括：

42)预处理上班进站时间：在地铁通勤用户的IC卡数据库中，计算每个通勤日首次从居住地站点进站时间T1的平均值，作为第一上班进站时间；在基于地铁通勤的出行调查数据中，提取地铁通勤者从居住地出发且出行目的为上班对应的出发时间Th，提取地铁通勤者从居住地出发到居住地地铁站点的时间t1，得到第二上班进站时间T1′＝Th+t1；

8.根据权利要求1所述的一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，其特征在于，所述步骤(5)中的聚类方法为基于高斯混合模型的算法，其公式为：

其中K为模型的个数，π_k为第k个高斯模型的权重，则p(x)为第k个高斯模型的概率密度函数，其均值为μ_k，方差为σ_k；采用最大似然法来求解估计的参数，则要求解的目标方程为：

9.根据权利要求1所述的一种基于IC卡和居民调查数据的地铁通勤人群信息融合方法，其特征在于，所述步骤(6)中的分布区间划分包括以下步骤：61)绘制IC卡数据聚类得到的三类通勤人群的通勤距离、上班进站时间和下班进站时间分布图；62)根据三类通勤人群的通勤距离极小值、上班进站时间和下班进站时间的分布确定区间上下限；63)计算划分后各类数量的比例与聚类结果中各类数量的比例之间的差异，控制在10％以内。