CN111046937A - 一种融合公交数据和poi数据的两段式乘客人群出行目的分析方法 - Google Patents
一种融合公交数据和poi数据的两段式乘客人群出行目的分析方法 Download PDFInfo
- Publication number
- CN111046937A CN111046937A CN201911237744.4A CN201911237744A CN111046937A CN 111046937 A CN111046937 A CN 111046937A CN 201911237744 A CN201911237744 A CN 201911237744A CN 111046937 A CN111046937 A CN 111046937A
- Authority
- CN
- China
- Prior art keywords
- data
- passenger
- poi
- station
- bus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 238000013075 data extraction Methods 0.000 claims description 9
- 230000003068 static effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000004080 punching Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims 1
- 230000007306 turnover Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012108 two-stage analysis Methods 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013410 fast food Nutrition 0.000 description 1
- 239000000463 material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Remote Sensing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种融合公交数据和POI数据的两段式乘客人群出行目的分析方法,目的是通过结合公交数据和POI数据,解决识别公交乘客人群出行目的的问题,提出了一种新颖且合理有效的乘客人群出行目的分析方法。本发明主要包括两个阶段,在第一阶段中,首先对公交数据和POI数据进行提取、清洗和转换,并将站点信息转换为POI向量,最后采用聚类的方法分析公交乘客的出行目的;在第二阶段中,首先通过刷卡数据和智能卡数据进行结合,提取乘客的人口统计学信息,然后计算乘客的乘车距离,并将第一阶段的出行目的作为乘客人群聚类的特征,最终使用聚类算法对乘车人群聚类,并分析每个簇中的出行目的,以达到对不同乘车人群的不同出行目的的分析的效果。本发明使用于公交乘客人群出行目的的分析。
Description
技术领域
本发明涉及公交信息数据和POI数据处理技术领域,尤其涉及一种融合公交数据和POI数据的两段式乘客人群出行目的分析方法。
背景技术
城市公共交通是我国城市经济发展的载体基础,乘坐公共交通出行是我国城市居民不可或缺的活动,而随着我国城市化的快速发展,城市经济得到了不断进步,无论是工作场所、娱乐场所或是满足人们日常需求的场所也与日俱增,城市居民的出行目的也日益丰富起来。而能否完整全面细致的掌握城市居民的出行目的,关乎着相关部门能否合理的做出线路调整、班次调整等决策。
传统的出行目的的调查往往是相关部门投入大量的人力和物力,通过人工调查问卷等方式进行统计,如居民乘坐公交的出行时间、乘坐地点、出行目的、出行频率等信息。这种调查方法,不但需要耗费大量的资源,而且居民的参与度无法掌控,如在高峰时段的公交乘客往往因为工作压力展现出较低的参与度,而散时调查的公交乘客则面临乘客量不稳定且调查对象不全面的问题。
随着大数据的发展,越来越多的数据得以保存,而基于定位的POI数据也变得丰富且易获取起来,这为我们基于数据分析出行行为提供了最直接的帮助。而现今对于出行目的的分析技术大多是基于出租车、私家车等GPS数据进行的,对于基于公交数据的出行目的分析技术较少;而通过公交数据和POI数据的结合,能够合理有效的发掘居民乘坐公交的出行目的,同时结合时间、人口统计学等信息,能够有效的分析出不同人群在不同时段的不同出行目的。
发明内容
本发明的目的在于解决现今对于处理公交出行的乘客的出行目的技术的不足,进而提供一种基于公交数据和POI数据的两段式乘客人群出行目的分析方法。本方法融合公交数据中的静态站点信息、公交刷卡数据、公交运营数据中的到离站数据、智能卡数据以及网络可获取到的POI(point of interest)数据,通过两段式分析方法对公交乘客人群出行目的进行分析;在第一阶段中,首先对数据的清洗转换,并将站点信息转换为POI向量,以此形成样本特征,最后采用聚类的方法分析公交乘客的出行目的;在第二阶段中,首先通过刷卡数据和智能卡数据进行结合,提取乘客的人口统计学信息,然后计算乘客的乘车距离,并将第一阶段的出行目的作为乘客人群聚类的特征,最终使用聚类算法对乘车人群聚类,并分析每个簇中的出行目的,以达到对不同乘车人群的不同出行目的的分析的效果。
实现本发明目的的技术方案是:一种基于公交数据和POI数据的公交乘客出行目的分析方法,包括如下步骤:
第一阶段,融合公交数据和POI数据的乘客出行目的分析:
Step1.1:公交数据提取,包括公交刷卡数据的提取和公交静态站点数据的提取;
Step1.2:站点附近POI数据提取;
Step1.3:样本数据特征构成,包括POI数据与公交站点数据的转换,上车时段转换;
Step1.4:使用聚类算法对出行目的聚类
第二阶段,融合公交数据和POI数据的两段式公交乘客人群出行目的分析:
Step2.1:提取公交卡人口统计学信息
Step2.2:提取样本特征并进行转换
Step2.3:使用聚类算法对出行人群进行统计,并分析不同公交乘客人群的不同出行目的
进一步的,所述第一阶段,融合公交数据和POI数据的乘客出行目的分析中的Step1.1中公交数据提取,包括公交刷卡数据的提取和公交静态站点数据的提取;其中具体刷卡数据所需要提取的数据包括:乘客上车时间,乘客上车站点和乘客下车站点;具体提取的方法如下:
(1.1.1)乘客上车时间可以通过刷卡数据中的刷卡时间直接获取,即Taboard=Ts,其中Ts表示原始数据中的刷卡时间,Taboard表示获取到的乘客上车时间;
(1.1.2)乘客上车站点通过刷卡数据和车辆进出站数据联合提取,其方法为:
其中,CarIDaboard为刷卡数据中的刷卡车辆ID,CarIDoperation为车辆进出站数据中运营的车辆ID,CTin为车辆进出站数据中进站时间,CTout为车辆进出站数据中出站时间,Stationaboard为乘客上车站点,CStationin为车辆进出站数据中的进站站点;上述方法具体解释为,通过刷卡数据获取到该次刷卡的车辆ID,通过车辆ID获取该趟次车辆进出站的时间,若刷卡时间介于该车辆进出某站点时进出站时间,则认为上车站点为该车辆进站的站点,以此获取乘客的上车站点;
(1.1.3)对于上下车均刷卡的公交系统,下车站点可通过刷卡数据直接获取,而对于仅上车刷卡的公交系统,已在权利要求1中假设完成推测,若乘客存在换乘行为,则认为最后的下车点为下车目的点,以此方法获取乘客的下车站点Stationalight;
进一步的,所述第一阶段,融合公交数据和POI数据的乘客出行目的分析中的Step1.2中站点附近POI数据提取。其具体过程如下:
对于需要分析的每一个站点,获取每个站点附近的POI数据
进一步的,所述第一阶段,融合公交数据和POI数据的乘客出行目的分析中的Step1.3中样本数据特征构成,包括POI数据与公交站点数据的转换,上车时段转换;具体过程为:
(1.3.1)上车时段转换的具体过程为:利用步骤一中获取到乘客上车时间Taboard,将乘车时段按小时划分为:[4:00,7:00),[7:00,9:00),[9:00,12:00),[12:00,14:00),[14:00,17:00),[17:00,19:00),[19:00,23:00),对于不同的时段分别用1~7数字代替,当Taboard中的时分秒在对应的时间段时,将Taboard转换为对应的数字,表示不同的时间段特征t;对于Taboard中的日期转换,通过日期所属是否为工作日,将日期转换为日期特征d;最终通过上述方法完成上车时间段特征的转换,Tt=[t,d]其中Tt为二维向量;
(1.3.2)转换POI数据为POI向量,具体方法为,将POI所属的大类分为餐饮服务,购物服务,生活服务,休闲娱乐服务,医疗服务,住宿服务,住宅区,科教服务,交通服务和公司企业10类,分别统计每个站点附近的POI所属类型的个数,形成该站点的10维POI向量Vecpoi;
(1.3.3)整合形成数据样本,具体方法为,数据样本中特征包括乘客上车时段、乘客上车站点POI向量,乘客下车POI向量;其中乘客上下车POI向量通过步骤一中获取的乘客上下车站点与上述公交站点附近POI数据转换的POI向量进行结合,将乘客上下车站点转换为乘客上下车站点POI向量;最终形成的样本特征为{Tt,VecPoiaboard,VecPoialight};其中Tt为乘客上车时段,VecPoiaboard为10维的上车站点POI向量,VecPoialight为10维的下车站点POI向量;
进一步的,所述第一阶段,融合公交数据和POI数据的乘客出行目的分析中的Step1.4中使用聚类算法对出行目的聚类,其具体过程为:
聚类方法包括但不仅包括K-means、DBSCAN等聚类算法,为考虑到能够分析乘客出行的时间和出行目的双重相似,因此在进行样本数据特征距离计算时,需要计算三种距离:时间距离,上车站点距离和下车站点距离,计算的方法可采用欧式距离、曼哈顿距离等方法;然后通过这三种距离判定样本数据的相似程度进行聚类,并通过最终簇中的POI分布来对聚类结果进行解释。
进一步的,所述第二阶段,融合公交数据和POI数据的两段式公交乘客人群出行目的分析中的Step2.1中提取公交卡人口统计学信息;其中要提取的数据主要为智能卡卡主的性别和卡类型;其具体过程为:
通过刷卡数据中的智能卡ID与智能卡数据中的ID相关联获取实名注册的智能卡卡主信息,其性别、卡类型可以直接获取,即:
Featuresex=Sexid
Featuretype=Typeid
其中Featuresex和Featuretype为获取到的乘客的性别数据和卡类型数据,Sexid和Typeid是通过刷卡数据中的ID在智能卡数据中匹配到的数据。
进一步的,所述第二阶段,融合公交数据和POI数据的两段式公交乘客人群出行目的分析中的Step2.2中提取样本特征并进行转换;其中构建的样本特征为:卡主性别、智能卡类型、乘车时段、乘车距离和出行目的;其具体过程为:
(2.2.1)卡主性别和智能卡类型已在权利要求6中获取,即Featuresex和Featuretype;乘车时段已在权利要求4中计算完成,即Tt=[t,d];
(2.2.2)对于乘车距离的转换具体过程如下:通过权利要求2中得到的Stationaboard和Stationalight,计算该次乘车所经过的站点个数,以此作为样本特征的乘车距离,即Distance=Numberalight-Numberaboard;
(2.3.3)对于出行目的特征,本方法使用权利要求5获取到的并进行解释后的出行目的类型代替,将出行模式进行语义转向量的方式转换为结构化数据,作为样本数据的出行目的,即Featruepurpose=Purposetype;
进一步的,所述第二阶段,融合公交数据和POI数据的两段式公交乘客人群出行目的分析中的Step2.3使用聚类算法对出行人群进行统计,并分析不同公交乘客人群的不同出行目的,其具体过程为:
(2.3.1)通过Step2.2和Step2.3中所构建的样本特征对乘车人群进行聚类,其中样本特征为:
{Featuresex,Featuretype,Tt,Distance,Featruepurpose}
本方法所述聚类算法包括但不仅包括K-means、DBSCAN等聚类算法,其中在对样本距离进行计算时,可采用欧式距离、曼哈顿距离等方法;
(2.3.2)对于2.3.1)中聚类得到的人群类别中,首先分析各个簇中的人群分布,从卡类型、上车时段、乘车距离分别进行统计计算,然后对所属簇中的样本的出行目的进行分布统计,最终通过样本分布情况,得出某类人群通常会在某时段进行从某功能区出发且有何出行目的目的结论。
本发明的有益效果为:
本发明将公交数据与POI数据相融合,利用两段式的分析方法,首先在第一阶段利用公交数据和POI数据聚类得到不同的出行目的,然后在第二阶段利用第一阶段得到的出行目的以及人口统计学的信息聚类得到不同的乘客人群,最终通过对不同乘客人群簇中的卡类型、乘坐时刻以及出行目的的分布进行分析。此方法更加充分的结合了时间、POI数据和智能卡信息,提升了不同乘客人群的出行目的分析的可靠性,并多维度的对城市公交乘客的出行方式进行了分析,更加细致全面的解释了居民乘坐公交出行的特征。
附图说明
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明:
附图1为本发明的技术流程图;
附图2为站点附近POI采集示意图;
附图3为乘客出行记录示意图;
附图4为乘客人群出行结果样例图;
具体实施方式
为更加了解本发明的技术内容,特举具体实施方式配合图例进行说明如下。
本发明所述POI数据为从高德地图开放接口进行获取,首先获取高德地图开发者密钥,然后将各个站点的经纬度、站点附近距离等信息作为输入,选取需要获取的POI类别,即可获得该站点附近的POI数据;结合图2,图中的R为需要获取的区域半径,多边形表示不同的POI数据。
结合图1,本发明提出一种融合公交数据和POI数据的两段式乘客人群出行目的分析方法,具体实施步骤如下:
第一阶段,融合公交数据和POI数据的乘客出行目的分析:
Step1.1:公交数据提取,包括公交刷卡数据的提取和公交静态站点数据的提取;
Step1.2:站点附近POI数据提取;
Step1.3:样本数据特征构成,包括POI数据与公交站点数据的转换,上车时段转换;
Step1.4:使用聚类算法对出行目的聚类
第二阶段,融合公交数据和POI数据的两段式公交乘客人群出行目的分析:
Step2.1:提取公交卡人口统计学信息
Step2.2:提取样本特征并进行转换
Step2.3:使用聚类算法对出行人群进行统计,并分析不同公交乘客人群的不同出行目的。
结合图例,所述第一阶段中的Step1.1的具体实施如下:
(1.1.1)乘客上车时间可以通过刷卡数据中的刷卡时间直接获取,即Taboard=Ts,其中Ts表示原始数据中的刷卡时间,Taboard表示获取到的乘客上车时间;
(1.1.2)乘客上车站点通过刷卡数据和车辆进出站数据联合提取,其方法为:
其中,CarIDaboard为刷卡数据中的刷卡车辆ID,CarIDoperation为车辆进出站数据中运营的车辆ID,CTin为车辆进出站数据中进站时间,CTout为车辆进出站数据中出站时间,Stationaboard为乘客上车站点,CStationin为车辆进出站数据中的进站站点;上述方法具体解释为,通过刷卡数据获取到该次刷卡的车辆ID,通过车辆ID获取该趟次车辆进出站的时间,若刷卡时间介于该车辆进出某站点时进出站时间,则认为上车站点为该车辆进站的站点,以此获取乘客的上车站点;
(1.1.3)对于上下车均刷卡的公交系统,下车站点可通过刷卡数据直接获取,而对于仅上车刷卡的公交系统,已在权利要求1中假设完成推测,若乘客存在换乘行为,则认为最后的下车点为下车目的点,以此方法获取乘客的下车站点Stationalight;
结合图例,所述第一阶段中的Step1.2的具体实施如下:
获取到各个站点的经纬度数据,然后通过高德地图开放接口获取各站点附近的POI数据。
结合图例,所述第一阶段中的Step1.3的具体实施如下:
(1.3.1)上车时段转换的具体过程为:利用步骤一中获取到乘客上车时间Taboard,将乘车时段按小时划分为:[4:00,7:00),[7:00,9:00),[9:00,12:00),[12:00,14:00),[14:00,17:00),[17:00,19:00),[19:00,23:00),对于不同的时段分别用1~7数字代替,当Taboard中的时分秒在对应的时间段时,将Taboard转换为对应的数字,表示不同的时间段特征t;对于Taboard中的日期转换,通过日期所属是否为工作日,将日期转换为日期特征d;最终通过上述方法完成上车时间段特征的转换,Tt=[t,d]其中Tt为二维向量;
(1.3.2)转换POI数据为POI向量,具体方法为,将POI所属的大类分为餐饮服务,购物服务,生活服务,休闲娱乐服务,医疗服务,住宿服务,住宅区,科教服务,交通服务和公司企业10类,分别统计每个站点附近的POI所属类型的个数,形成该站点的10维POI向量Vecpoi;
(1.3.3)整合形成数据样本,具体方法为,数据样本中特征包括乘客上车时段、乘客上车站点POI向量,乘客下车POI向量;其中乘客上下车POI向量通过步骤一中获取的乘客上下车站点与上述公交站点附近POI数据转换的POI向量进行结合,将乘客上下车站点转换为乘客上下车站点POI向量;最终形成的样本特征为{Tt,VecPoiaboard,VecPoialight};其中Tt为乘客上车时段,VecPoiaboard为10维的上车站点POI向量,VecPoialight为10维的下车站点POI向量;
此处,对上述步骤进行举例说明如下:
假设现获取到某公交出行记录为(乘车时间:2018-12-607:34:10,上车站点:A站点,下车站点:B站点),通过对乘车时间的转换,得到乘车时段为(乘车时段:2,是否工作日:1);
假设现获取到的A站点附近半径为R的区域内的POI数据为(中餐厅;中餐厅;超市;电影院;住宅区;住宅区;住宅区),B站点附近半径为R的区域内的POI数据为(公司;公司;公司;快餐店;中餐厅;银行;),则对A站点实施POI向量转化为(餐饮服务:2,购物服务:1,生活服务:0,休闲娱乐服务:1,医疗服务:0,住宿服务:0,住宅区:3,科教服务:1,交通服务:0,公司企业:0);对B站点进行同样的POI向量转化为(餐饮服务:2,购物服务:0,生活服务:1,休闲娱乐服务:0,医疗服务:0,住宿服务:0,住宅区:0,科教服务:0,交通服务:0,公司企业:3)
因此,对上述公交出行记录可转换为((2,1),(2,1,0,1,0,0,3,1,0,0),(2,0,1,0,0,0,0,0,0,3));
结合图例,所述第一阶段的Step1.4的具体实施如下:
聚类方法包括但不仅包括K-means、DBSCAN等聚类算法,为考虑到能够分析乘客出行的时间和出行目的双重相似,因此在进行样本数据特征距离计算时,需要计算三种距离:时间距离,上车站点距离和下车站点距离,计算的方法可采用欧式距离、曼哈顿距离等方法;然后通过这三种距离判定样本数据的相似程度进行聚类,并通过最终簇中的POI分布来对聚类结果进行解释。
结合图例,所述第二阶段的Step2.1的具体实施如下:
其中要提取的数据主要为智能卡卡主的性别和卡类型;其具体过程为:
通过刷卡数据中的智能卡ID与智能卡数据中的ID相关联获取实名注册的智能卡卡主信息,其性别、卡类型可以直接获取,即:
Featuresex=Sexid
Featuretype=Typeid
其中Featuresex和Featuretype为获取到的乘客的性别数据和卡类型数据,Sexid和Typeid是通过刷卡数据中的ID在智能卡数据中匹配到的数据。
结合图例,所述第二阶段的Step2.2的具体实施如下:
构建的样本特征为:卡主性别、智能卡类型、乘车时段、乘车距离和出行目的;其具体过程为:
(2.2.1)卡主性别和智能卡类型已在权利要求6中获取,即Featuresex和Featuretype;乘车时段已在权利要求4中计算完成,即Tt=[t,d];
(2.2.2)对于乘车距离的转换具体过程如下:通过权利要求2中得到的Stationaboard和Stationalight,计算该次乘车所经过的站点个数,以此作为样本特征的乘车距离,即Distance=Numberalight-Numberaboard;
(2.3.3)对于出行目的特征,本方法使用权利要求5获取到的并进行解释后的出行目的类型代替,将出行模式进行语义转向量的方式转换为结构化数据,作为样本数据的出行目的,即Featruepurpose=Purposetype;
结合图例,所述第二阶段的Step2.3的具体实施如下:
(2.3.1)通过Step2.2和Step2.3中所构建的样本特征对乘车人群进行聚类,其中样本特征为:
{Featuresex,Featuretype,Tt,Distance,Featruepurpose}
本方法所述聚类算法包括但不仅包括K-means、DBSCAN等聚类算法,其中在对样本距离进行计算时,可采用欧式距离、曼哈顿距离等方法;
(2.3.2)对于2.3.1)中聚类得到的人群类别中,首先分析各个簇中的人群分布,从卡类型、上车时段、乘车距离分别进行统计计算,然后对所属簇中的样本的出行目的进行分布统计,最终通过样本分布情况,得出某类人群通常会在某时段进行从某功能区出发且有何出行目的目的结论,结果如附图4样例所示。
Claims (8)
1.一种融合公交数据和POI数据的两段式乘客人群出行目的分析方法,其特征在于,首先假定乘客的公交下车站点已知,且公交数据包括刷卡数据、智能卡相关信息数据和车辆进出站数据,所述方法具体过程为:
第一阶段,融合公交数据和POI数据的乘客出行目的分析:
Step1.1:公交数据提取,包括公交刷卡数据的提取和公交静态站点数据的提取;
Step1.2:站点附近POI数据提取;
Step1.3:样本数据特征构成,包括POI数据与公交站点数据的转换,上车时段转换;
Step1.4:使用聚类算法对出行目的聚类
第二阶段,融合公交数据和POI数据的两段式公交乘客人群出行目的分析:
Step2.1:提取公交卡人口统计学信息
Step2.2:提取样本特征并进行转换
Step2.3:使用聚类算法对出行人群进行统计,并分析不同公交乘客人群的不同出行目的。
2.根据权利要求1所述一种融合公交数据和POI数据的两段式乘客人群出行目的分析方法,其特征在于:所述第一阶段,融合公交数据和POI数据的乘客出行目的分析中的Step1.1中公交数据提取,包括公交刷卡数据的提取和公交静态站点数据的提取;其中具体刷卡数据所需要提取的数据包括:乘客上车时间,乘客上车站点和乘客下车站点;具体提取的方法如下:
2.1)乘客上车时间可以通过刷卡数据中的刷卡时间直接获取,即Taboard=Ts,其中Ts表示原始数据中的刷卡时间,Taboard表示获取到的乘客上车时间
2.2)乘客上车站点通过刷卡数据和车辆进出站数据联合提取,其方法为:
其中,CarIDaboard为刷卡数据中的刷卡车辆ID,CarIDoperation为车辆进出站数据中运营的车辆ID,CTin为车辆进出站数据中进站时间,CTout为车辆进出站数据中出站时间,Stationaboard为乘客上车站点,CStationin为车辆进出站数据中的进站站点;上述方法具体解释为,通过刷卡数据获取到该次刷卡的车辆ID,通过车辆ID获取该趟次车辆进出站的时间,若刷卡时间介于该车辆进出某站点时进出站时间,则认为上车站点为该车辆进站的站点,以此获取乘客的上车站点;
2.3)对于上下车均刷卡的公交系统,下车站点可通过刷卡数据直接获取,而对于仅上车刷卡的公交系统,已在权利要求1中假设完成推测,若乘客存在换乘行为,则认为最后的下车点为下车目的点,以此方法获取乘客的下车站点Stationalight。
3.根据权利要求1所述一种融合公交数据和POI数据的两段式乘客人群出行目的分析方法,其特征在于:所述第一阶段,融合公交数据和POI数据的乘客出行目的分析中的Step1.2中站点附近POI数据提取;具体过程为:对于需要分析的每一个站点,获取每个站点附近的POI数据。
4.根据权利要求1所述一种融合公交数据和POI数据的两段式乘客人群出行目的分析方法,其特征在于:所述第一阶段,融合公交数据和POI数据的乘客出行目的分析中的Step1.3中样本数据特征构成,包括POI数据与公交站点数据的转换,上车时段转换;具体过程为:
4.1)上车时段转换的具体过程为:利用步骤一中获取到乘客上车时间Taboard,将乘车时段按小时划分为:[4:00,7:00),[7:00,9:00),[9:00,12:00),[12:00,14:00),[14:00,17:00),[17:00,19:00),[19:00,23:00),对于不同的时段分别用1~7数字代替,当Taboard中的时分秒在对应的时间段时,将Taboard转换为对应的数字,表示不同的时间段特征t;对于Taboard中的日期转换,通过日期所属是否为工作日,将日期转换为日期特征d;最终通过上述方法完成上车时间段特征的转换,Tt=[t,d]其中Tt为二维向量;
4.2)转换POI数据为POI向量,具体方法为,将POI所属的大类分为餐饮服务,购物服务,生活服务,休闲娱乐服务,医疗服务,住宿服务,住宅区,科教服务,交通服务和公司企业10类,分别统计每个站点附近的POI所属类型的个数,形成该站点的10维POI向量Vecpoi;
4.3)整合形成数据样本,具体方法为,数据样本中特征包括乘客上车时段、乘客上车站点POI向量,乘客下车POI向量;其中乘客上下车POI向量通过步骤一中获取的乘客上下车站点与上述公交站点附近POI数据转换的POI向量进行结合,将乘客上下车站点转换为乘客上下车站点POI向量;最终形成的样本特征为{Tt,VecPoiaboard,VecPoialight};其中Tt为乘客上车时段,VecPoiaboard为10维的上车站点POI向量,VecPoialight为10维的下车站点POI向量。
5.根据权利要求1所述一种融合公交数据和POI数据的两段式乘客人群出行目的分析方法,其特征在于:所述第一阶段,融合公交数据和POI数据的乘客出行目的分析中的Step1.4中使用聚类算法对出行目的聚类,其具体过程为:聚类方法包括但不仅包括K-means、DBSCAN等聚类算法,为考虑到能够分析乘客出行的时间和出行目的双重相似,因此在进行样本数据特征距离计算时,需要计算三种距离:时间距离,上车站点距离和下车站点距离,计算的方法可采用欧式距离、曼哈顿距离等方法;然后通过这三种距离判定样本数据的相似程度进行聚类,并通过最终簇中的P0I分布来对聚类结果进行解释。
6.根据权利要求1所述一种融合公交数据和POI数据的两段式乘客人群出行目的分析方法,其特征在于:所述第二阶段,融合公交数据和POI数据的两段式公交乘客人群出行目的分析中的Step2.1中提取公交卡人口统计学信息;其中要提取的数据主要为智能卡卡主的性别和卡类型;其具体过程为:通过刷卡数据中的智能卡ID与智能卡数据中的ID相关联获取实名注册的智能卡卡主信息,其性别、卡类型可以直接获取,即:
Featuresex=Sexid
Featuretype=Typeid
其中Featuresex和Featuretype为获取到的乘客的性别数据和卡类型数据,Sexid和Typeid是通过刷卡数据中的ID在智能卡数据中匹配到的数据。
7.根据权利要求1所述一种融合公交数据和POI数据的两段式乘客人群出行目的分析方法,其特征在于:所述第二阶段,融合公交数据和POI数据的两段式公交乘客人群出行目的分析中的Step2.2中提取样本特征并进行转换;其中构建的样本特征为:卡主性别、智能卡类型、乘车时段、乘车距离和出行目的;其具体过程为:
7.1)卡主性别和智能卡类型已在权利要求6中获取,即Featuresex和Featuretype;乘车时段已在权利要求4中计算完成,即Tt=[t,d];
7.2)对于乘车距离的转换具体过程如下:通过权利要求2中得到的Stationaboard和Stationalight,计算该次乘车所经过的站点个数,以此作为样本特征的乘车距离,即Distance=Numberalight-Numberaboard;
7.3)对于出行目的特征,本方法使用权利要求5获取到的并进行解释后的出行目的类型代替,将出行模式进行语义转向量的方式转换为结构化数据,作为样本数据的出行目的,即Featruepurpose=Purposetype。
8.根据权利要求1所述一种融合公交数据和POI数据的两段式乘客人群出行目的分析方法,其特征在于:所述第二阶段,融合公交数据和POI数据的两段式公交乘客人群出行目的分析中的Step2.3使用聚类算法对出行人群进行统计,并分析不同公交乘客人群的不同出行目的,其具体过程为:
8.1)通过权利要求6和权利要求7中所构建的样本特征对乘车人群进行聚类,其中样本特征为:
{Featuresex,Featuretype,Tt,Distance,Featruepurpose}
本方法所述聚类算法包括但不仅包括K-means、DBSCAN等聚类算法,其中在对样本距离进行计算时,可采用欧式距离、曼哈顿距离等方法;
8.2)对于8.1)中聚类得到的人群类别中,首先分析各个簇中的人群分布,从卡类型、上车时段、乘车距离分别进行统计计算,然后对所属簇中的样本的出行目的进行分布统计,最终通过样本分布情况,得出某类人群通常会在某时段进行从某功能区出发且有何出行目的目的结论。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911237744.4A CN111046937A (zh) | 2019-12-05 | 2019-12-05 | 一种融合公交数据和poi数据的两段式乘客人群出行目的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911237744.4A CN111046937A (zh) | 2019-12-05 | 2019-12-05 | 一种融合公交数据和poi数据的两段式乘客人群出行目的分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111046937A true CN111046937A (zh) | 2020-04-21 |
Family
ID=70234798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911237744.4A Pending CN111046937A (zh) | 2019-12-05 | 2019-12-05 | 一种融合公交数据和poi数据的两段式乘客人群出行目的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046937A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288048A (zh) * | 2020-12-28 | 2021-01-29 | 湖南师范大学 | 一种基于多源数据驱动的城市人群出行识别方法 |
CN112800210A (zh) * | 2021-04-06 | 2021-05-14 | 湖南师范大学 | 基于海量公交数据的人群画像算法 |
CN115545759A (zh) * | 2022-09-27 | 2022-12-30 | 暨南大学 | 一种基于动态定价机制的乘客出行意图挖掘方法 |
CN116579667A (zh) * | 2023-07-11 | 2023-08-11 | 北京大也智慧数据科技服务有限公司 | 公交站点的辐射人群的分析方法、装置、存储介质及设备 |
CN116611984A (zh) * | 2023-07-11 | 2023-08-18 | 鹏城实验室 | 多模式下的出行数据处理方法、系统、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279534A (zh) * | 2013-05-31 | 2013-09-04 | 西安建筑科技大学 | 基于智能公交系统数据的公交卡乘客通勤od分布估计方法 |
CN105512447A (zh) * | 2014-09-26 | 2016-04-20 | 山西云智慧科技股份有限公司 | 一种基于Holt-Winters模型的公交客量预测方法 |
CN105550789A (zh) * | 2016-02-19 | 2016-05-04 | 上海果路交通科技有限公司 | 一种公交出行客流的预测方法 |
CN105788260A (zh) * | 2016-04-13 | 2016-07-20 | 西南交通大学 | 一种基于智能公交系统数据的公交乘客od推算方法 |
CN109308546A (zh) * | 2018-08-31 | 2019-02-05 | 江苏智通交通科技有限公司 | 乘客公交出行下车站点预测方法及系统 |
CN110348614A (zh) * | 2019-06-24 | 2019-10-18 | 武汉烽火信息集成技术有限公司 | 一种获取乘客od的方法及公交客流的预测方法 |
-
2019
- 2019-12-05 CN CN201911237744.4A patent/CN111046937A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279534A (zh) * | 2013-05-31 | 2013-09-04 | 西安建筑科技大学 | 基于智能公交系统数据的公交卡乘客通勤od分布估计方法 |
CN105512447A (zh) * | 2014-09-26 | 2016-04-20 | 山西云智慧科技股份有限公司 | 一种基于Holt-Winters模型的公交客量预测方法 |
CN105550789A (zh) * | 2016-02-19 | 2016-05-04 | 上海果路交通科技有限公司 | 一种公交出行客流的预测方法 |
CN105788260A (zh) * | 2016-04-13 | 2016-07-20 | 西南交通大学 | 一种基于智能公交系统数据的公交乘客od推算方法 |
CN109308546A (zh) * | 2018-08-31 | 2019-02-05 | 江苏智通交通科技有限公司 | 乘客公交出行下车站点预测方法及系统 |
CN110348614A (zh) * | 2019-06-24 | 2019-10-18 | 武汉烽火信息集成技术有限公司 | 一种获取乘客od的方法及公交客流的预测方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288048A (zh) * | 2020-12-28 | 2021-01-29 | 湖南师范大学 | 一种基于多源数据驱动的城市人群出行识别方法 |
CN112800210A (zh) * | 2021-04-06 | 2021-05-14 | 湖南师范大学 | 基于海量公交数据的人群画像算法 |
CN115545759A (zh) * | 2022-09-27 | 2022-12-30 | 暨南大学 | 一种基于动态定价机制的乘客出行意图挖掘方法 |
CN115545759B (zh) * | 2022-09-27 | 2023-05-19 | 暨南大学 | 一种基于动态定价机制的乘客出行意图挖掘方法 |
CN116579667A (zh) * | 2023-07-11 | 2023-08-11 | 北京大也智慧数据科技服务有限公司 | 公交站点的辐射人群的分析方法、装置、存储介质及设备 |
CN116611984A (zh) * | 2023-07-11 | 2023-08-18 | 鹏城实验室 | 多模式下的出行数据处理方法、系统、设备及介质 |
CN116611984B (zh) * | 2023-07-11 | 2024-02-02 | 鹏城实验室 | 多模式下的出行数据处理方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046937A (zh) | 一种融合公交数据和poi数据的两段式乘客人群出行目的分析方法 | |
Long et al. | Discovering functional zones using bus smart card data and points of interest in Beijing | |
Liu et al. | Commuting by customized bus: A comparative analysis with private car and conventional public transport in two cities | |
CN111932925B (zh) | 一种公共交通站点的出行客流的确定方法、装置及系统 | |
CN107656987B (zh) | 一种基于lda模型的地铁站点功能挖掘方法 | |
CN112288048B (zh) | 一种基于多源数据驱动的城市人群出行识别方法 | |
CN109903553B (zh) | 多源数据挖掘的公交车上下车站点识别和检验方法 | |
Kumar et al. | Understanding urban mobility via taxi trip clustering | |
Yong et al. | Mining metro commuting mobility patterns using massive smart card data | |
CN103247167A (zh) | 一种获取空驶出租车信息的方法 | |
Guo et al. | Exploring potential travel demand of customized bus using smartcard data | |
Chen et al. | An analysis of movement patterns between zones using taxi GPS data | |
CN108681741B (zh) | 基于ic卡和居民调查数据的地铁通勤人群信息融合方法 | |
Li et al. | Passenger travel behavior in public transport corridor after the operation of urban rail transit: a random forest algorithm approach | |
Eisenmann et al. | Are cars used differently in Germany than in California? Findings from annual car-use profiles | |
Wu et al. | Recognizing real-time transfer patterns between metro and bus systems based on spatial–temporal constraints | |
Yao et al. | Analysis of key commuting routes based on spatiotemporal trip chain | |
Shah et al. | Why do people take e-scooter trips? Insights on temporal and spatial usage patterns of detailed trip data | |
CN113160542A (zh) | 基于信息反馈的乘车方法及装置 | |
CN106157601B (zh) | 一种基于移动通信数据的公交客流需求的调查方法 | |
CN116090785B (zh) | 针对大型活动散场场景两阶段的定制公交规划方法 | |
Zhou et al. | Big data for intrametropolitan human movement studies A case study of bus commuters based on smart card data | |
Yue et al. | Classification and determinants of high-speed rail stations using multi-source data: A case study in Jiangsu Province, China | |
Lwin et al. | Identification of various transport modes and rail transit behaviors from mobile CDR data: A case of Yangon City | |
CN115100395A (zh) | 一种融合poi预分类和图神经网络的城市街区功能分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Floor 7, No. 258-8, Zhongyang Road, Xuanwu District, Nanjing City, Jiangsu Province Applicant after: Nanjing Intelligent Transportation Information Co.,Ltd. Address before: 7 / F, no.258-8, Central Road, Xuanwu District, Nanjing, Jiangsu 210009 Applicant before: NANJING WISDOM TRAFFIC INFORMATION Co.,Ltd. |
|
CB02 | Change of applicant information | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200421 |
|
WD01 | Invention patent application deemed withdrawn after publication |