CN106096631B - 一种基于手机大数据的流动人口分类识别分析方法 - Google Patents

一种基于手机大数据的流动人口分类识别分析方法 Download PDF

Info

Publication number
CN106096631B
CN106096631B CN201610386914.5A CN201610386914A CN106096631B CN 106096631 B CN106096631 B CN 106096631B CN 201610386914 A CN201610386914 A CN 201610386914A CN 106096631 B CN106096631 B CN 106096631B
Authority
CN
China
Prior art keywords
epid
floating population
point
population
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610386914.5A
Other languages
English (en)
Other versions
CN106096631A (zh
Inventor
张颖
刘杰
顾高翔
吴佳玲
郭鹏
宫龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Pulse Mdt Infotech Ltd
Original Assignee
Shanghai Pulse Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Pulse Mdt Infotech Ltd filed Critical Shanghai Pulse Mdt Infotech Ltd
Priority to CN201610386914.5A priority Critical patent/CN106096631B/zh
Publication of CN106096631A publication Critical patent/CN106096631A/zh
Application granted granted Critical
Publication of CN106096631B publication Critical patent/CN106096631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于手机大数据的流动人口分类识别分析方法。本发明突破传统调查的限制,利用大数据从行为轨迹中提取客观时空信息进行分析挖掘,突破低采样率的限制并可进行不同口径多次、充分信息提取,从空间及时间维度,对人口流动进行观察及识别,区分流动人口群体,并基于该群体行为特征及逗留时长,并从数据使用者的角度考量流动人口不同分类,将其区分为长期流动人口、短期流动人口及短时入境人口,以便该数据的应用能够在不同的领域发挥价值。

Description

一种基于手机大数据的流动人口分类识别分析方法
技术领域
本发明涉及一种以海量匿名并加密的移动终端个体(例如手机、平板、上网卡等独立移动终端,以下简称个体)数据为基础,开展大数据环境下的流动人口分类识别挖掘分析方法。该方法基于人员流动所产生的空间位移及其持续时间来衡量不同类型的流动人群分类及识别,并以此为基础进一步获得此类人群分布及出行特征,为城市人口管理、城市规划、旅游景区规划及管理、商业策划等工作提供客观数据服务及决策支撑,属于城市运营管理与城市规划、区域规划的技术领域。
背景技术
流动人口是在中国户籍制度条件下的一个概念,指离开了户籍所在地到其他地方居住的人口,但目前尚无明确、准确和统一的定义。故本次在讨论流动人口分类识别分析方法的前置条件,是要界定流动人口的口径,对流动人口进行明确的定义。
国际上通常为“人口迁移”、“迁移人口”概念,而非“人口流动”、“流动人口”,将人口迁移定义为人口在空间上的位置变动。根据国际人口科学联盟主持编写的《多种语言人口学辞典》,人口迁移是“在一个地区单位同另一个地区单位之间进行的地区移动或者空间移动的一种形式,通常它包括了从原住地或迁出地迁到目的地或迁入地的永久性住地变动”(IUSSP,1982)。发生人口迁移活动的人则是迁移人口。这个概念强调了“时间”及“永久性”因素,并非指一旦一次人口迁移发生以后就不能够有第二次人口迁移,而是指人口迁移活动应该有“足够长”的时间;二是“空间”因素,即人们要在两个相距“足够远”的空间位置之间发生位置移动。我国由于户籍制度的存在,通常将人们的地区移动或者空间移动区分为人口迁移和人口流动两种,发生迁移和流动行为的人则分别称为迁移人口和流动人口。人口迁移和迁移人口伴随有户口的相应变动;人口流动和流动人口则没有户口的相应变动。
流动人口相关数据的传统获取方式为入户调查。一方面,由于中国城镇化的进程迅速,流动人口的规模和流动频率与过去相比大幅增加。同时,流动人口住所相对不稳定,通过入户调查的方式进行访问非常困难。另一方面,由于入户调查为一次性调查,随着入户调查调查内容的调整及统计口径的变化,如1982、1990年人口普查:“跨县”、“一年以上”的流动人口;1995年进一步识别“县内”、“半年以上”流动人口;2000年人口普查:“市内人户分离”人口的甄别;2005年增加了离开户籍地半年以下流入人口的调查,见导致流动人口在数量和规模上均产生巨大差异,无法持续跟踪及纵深对比。
发明内容
本发明的目的是利用大数据从行为轨迹中提取客观时空信息进行分析挖掘,提供一种流动人口识别与分类分析方法,用此方法提供各个城市流动人口总量、空间分布与活动行为特征规律。
为了达到上述目的,本发明的技术方案是提供了一种基于手机大数据的流动人口分类识别分析方法,其特征在于,包括以下步骤:
步骤1、从通信运营商获取目标分析城市空间范围内一段时期内持续的匿名加密手机定位数据,每条匿名加密手机定位数据包括EPID、TIME及定位数据,其中,不同的手机终端用户对应不同的EPID,TIME表示当前一条匿名加密手机定位数据所涉及的手机网络动作发生时刻;
步骤2、构建每个EPID的时间序列分段模型:
将当前EPID对应的所有定位数据按TIME升序或降序排序,获得当前EPID基于时间序列的位置信息,从而建立当前EPID的时间序列模型,将时间序列模型按照不同的位置信息进行分段,得到当前EPID的时间序列分段模型;
步骤3、对每个EPID计算其在目标分析城市的每日累计逗留时长与天数频率情况,根据每个EPID在目标分析城市每日停留时长长短与天数频率,将人口分为常住人口及流动人口;
步骤4、基于空间位置属性对步骤3中判定为流动人口的每个EPID的流动目的进行判别,其中,空间位置属性的获取依赖于,包括以下步骤:
步骤4.1、基于GIS基础地图空间地理数据获得空间位置属性,包括以下步骤:
步骤4.1.1、对在空间地理数据库中的各人员的时间序列进行空间/时间插值,保证人口空间分布SDP之间的时间间隔相等,为空间聚类做准备;
步骤4.1.2、对区域进行基于密度的空间聚类,该聚类所获得成果为得到基于空间的空间位置属性,包括以下步骤:
步骤A、将空间地理数据库中的np个兴趣点POI位置属性进行遍历,设置半径Eps及最少数目MinPts;
步骤B、从np个兴趣点POI中任意选取一个点p;
步骤C、对当前点p其进行地域查询,若点p是核心点,则寻找从点p密度可达的点,最终形成一个包含点p的位置簇,否则点p被标识为噪音点;
步骤D、将np个兴趣点POI中的下一个点作为当前点p,返回步骤4.3.3,直至np个兴趣点POI都被处理;
步骤E、将所形成的位置簇进行聚合,聚合后的每一个类为一个位置区,每个位置区具有一个位置属性,最终对应至运营商基站位置数据,使每一个基站位置数据对应一个位置属性;
步骤4.2、对步骤3中判定为流动人口的每个EPID进行基于位置区的多属性差异识别,对于当前EPD而言,根据其位置信息获得其所处的不同位置区,将每个位置区的停留时长作为当前位置区所对应的位置属性的时间权重,并对各个位置属性的时间权重进行权重判定,将最突出的时间权重对应的位置属性赋予当前EPID,以标识当前EPID的最终分类;
步骤4.3、对所有可识别位置属性数据进行分类,关联其位置属性与人群定义,获得不同流动人口分类下的流动目的识别;
步骤5、分析各类流动人口出行特征。
优选地,在所述步骤2中,为了保证每个EPID轨迹识别的完整性与可信性,将各时间序列中无法追踪的时段标识出来,具体规则为:当时间序列中某条记录之后时长为MaxT的时段范围内无记录,则认为当前EPID在当前记录之后的轨迹无法追踪。
优选地,在所述步骤3中,将所述流动人口进一步划分为长期流动人口、短期流动人口及过境流动人口。
优选地,所述步骤3包括:
步骤3.1、判断并统计各EPID的时间序列分段模型中在目标分析城市所涉及的时间序列的总时长,记为累计停留时长;
步骤3.2、设置时长阈值MaxD、Classify-L及Classify-S,若当前EPID的累计停留时长大于时长阈值MaxD,则认为当前EPID为常住人口;
若当前EPID的累计停留时长小于时长阈值MaxD,且大于时长阈值Classify-L,则认为当前EPID为长期流动人口;
若当前EPID的累计停留时长小于时长阈值Classify-L,且大于时长阈值Classify-S,则认为当前EPID为短期流动人口;
若当前EPID的累计停留时小于时长阈值Classify-S,则认为当前EPID为短时过境人口。
优选地,在所述步骤5中,所述流动人口出行特征包括流动人口活动空间统计、流动人口夜间分布统计、流动人口白天分布统计、流动人口出行OD统计、流动人口出行距离统计、流动人口出行耗时统计、流动人口出行频次统计。
本发明突破传统调查的限制,利用大数据从行为轨迹中提取客观时空信息进行分析挖掘,突破低采样率的限制并可进行不同口径多次、充分信息提取,从空间及时间维度,对人口流动进行观察及识别,区分流动人口群体,并基于该群体行为特征及逗留时长,并从数据使用者的角度考量流动人口不同分类,将其区分为长期流动人口、短期流动人口及短时入境人口,以便该数据的应用能够在不同的领域发挥价值。
附图说明
图1是本发明所提出的基于海量匿名加密移动终端个体定位数据的流动人口识别训练方法图;
图2是本发明步骤4.2中多属性差异识别用户分类方法示意图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
步骤1:从通信运营商获取目标分析城市空间范围内一段时期(数据时长取决于训练分析需求,一般7个月以上)内持续的匿名加密手机定位数据,对每个手机终端用户构建时间序列分段模型。根据申请号为201610273693.0的中国专利,手机定位数据的内容包括EPID、TYPE、TIME、X、Y、SR。
EPID(匿名单向加密全球唯一移动用户标识码,EncryPtion internationalmobile subscriber IDentity),是手机通信运营商对每个手机用户进行单向不可逆加密,从而唯一标识每个手机用户,且不暴露用户号码隐私信息,要求每个手机用户加密后的EPID保持唯一性,即任意时刻各手机用户的EPID保持不变且不与其它手机用户重复。
TYPE,是当前记录所涉及的手机网络动作类型,如上网、通话、主被叫、收发短信、小区切换、开关机等。
TIME指的是当前记录所涉及的手机网络动作发生时刻,单位为毫秒。
X、Y、SR是当前记录所涉及的手机网络动作发生的空间加密位置范围信息。X、Y由运营商利用专用坐标加密方法对手机用户的真实坐标位置进行加密计算后得到,SR(空间范围,Spatial Range)是当前记录空间定位的误差范围,单位为米,即当前手机用户出现在以X、Y为中心点,SR为半径的空间范围内。定位算法与定位精度由手机通信运营负责,随着4G、5G、WIFI等无线通信技术的发展,误差范围将越来越小。
表1:初级数据库数据列表
RECODID EPID TYPE TIME X Y SR
…… …… …… …… …… …… ……
RECORD(ri) EPID(e1) 开机 2016 3.10 9:30:00 121.54352 30.92748 45
RECORD(r1+1) EPID(e1+1) 上网 2016 3.10 9:40:00 121.54342 30.92741 65
RECORD(r3+2) EPID(e1+2) 上网 2016 3.10 9:42:10 121.54342 30.92741 65
…… …… …… …… …… …… ……
RECORD(r2) EPID(e2) 短信 2016 3.10 17:12:00 121.74538 31.03943 85
RECORD(r2+1) EPID(e2+1) 接听 2016 3.10 17:30:10 121.74329 30.04324 70
…… …… …… …… …… …… ……
步骤2:构建每个EPID的时间序列分段模型。将每个EPID的数据按TIME升序排序,获得每个EPID时间序列的位置信息,建立时间序列模型{LOC(p,time)},式中,p为位置,time为时间。再将EPID的时间序列位置进行分段,分段后的时间序列更新为{LOC(1,p,time),LOC(2,p,time),…,LOC(num,p,time)},式中,1,2,…,num为分段的序号。
为了保证每个EPID轨迹识别的完整性与可信性,需要将各序列中无法追踪的时段标识出来。具体规则为:当序列中某条记录Record(p,time)之后MaxT(MaxT为可持续追踪EPID的最长间隔时长,MaxT的取值由通信运营商数据采集机制决定,即通信运营商最长定询时长,例如,某城市某通信运营商周期性位置更新时长为0.5小时,则MaxT=0.5h)时段范围内无记录,则认为该EPID在Record(p,time)这条记录之后的轨迹无法追踪。
步骤3、对每个EPID计算其在目标分析城市的每日累计逗留时长与天数频率情况,根据每个EPID在目标分析城市每日停留时长长短与天数频率,将人口分为常住人口及流动人口,并进一步将流动人口区分为长期流动人口、短期流动人口及过境流动人口,以便于开展不同类型群体活动特征研究及应用。具体如下:
步骤3.1、判断并统计各EPID的时间序列分段模型中在目标分析城市所涉及的时间序列的总时长,记为累计停留时长;
步骤3.2、设置时长阈值MaxD、Classify-L及Classify-S,若当前EPID的累计停留时长大于时长阈值MaxD,则认为当前EPID为常住人口,不包含在本次研究对象范畴内;
若当前EPID的累计停留时长小于时长阈值MaxD,且大于时长阈值Classify-L,则认为当前EPID为长期流动人口,包含在本次研究对象范畴内;
若当前EPID的累计停留时长小于时长阈值Classify-L,且大于时长阈值Classify-S,则认为当前EPID为短期流动人口,包含在本次研究对象范畴内;
若当前EPID的累计停留时小于时长阈值Classify-S,则认为当前EPID为短时过境人口,包含在本次研究对象范畴内。
步骤4:基于空间位置属性的流动人口流动目的判别。
基于空间位置属性,进一步将流动人员划分为商务、旅游等流动目的分类。其中位置区属性特征依赖于GIS基础地图空间地理数据,由于位置数据之间的时间间隔不相等,因此首先需要将时空数据进行插值处理,获得在时间上等间隔的时空数据序列,然后将其通过基于密度的空间聚类获得位置区域的属性特征,如交通枢纽、购物、景区、会展、商务、综合等,对位置区进行属性标识并将其映射至运营商基站位置数据。
步骤4具体包括以下步骤:
步骤4.1、基于GIS基础地图空间地理数据获得空间位置属性,包括以下步骤:
步骤4.1.1、时空序列数据插值处理,对人员在空间地理数据库中具体的时间序列进行空间/时间插值,保证人口空间分布SDP(Spatial Distribution of Population)之间的时间间隔相等,为空间聚类做准备。步骤如下:
1、提取空间地理数据库中人口空间分布SDP的时间和空间属性;
2、计算人口空间分布SDP之间时间间隔的最小公约数,作为插值间隔时间,插入时刻序列中;
3、采用时空插值算法进行空间插值,得到插值点的空间坐标,具体方法可以是拉格朗日线性插值和多项式插值、牛顿插值、样条插值、克里金插值等。本实施例以拉格朗日线性插值为例,两个原始人口空间分布SDP——k与k+1之间的插值点在时间t处的X,Y坐标(Xt、Yt)可以表示为:
上式中,Tk+1、Tk、Tt分别为节点k,k+1和插值点t的时间。
步骤4.1.2、对区域进行基于密度的空间聚类,该聚类所获得成果为基于空间的位置区域属性,如交通枢纽、购物中心、旅游景区、大型会展区域、商务区、综合等等。步骤如下:
1、将空间地理数据库中的np个兴趣点POI位置属性进行遍历,设置半径Eps及最少数目MinPts;
2、从np个兴趣点POI中任意选取一个点p;
3、对当前点p其进行地域查询,若点p是核心点,则寻找从点p密度可达的点,最终形成一个包含点p的位置簇,否则点p被标识为噪音点;
4、将np个兴趣点POI中的下一个点作为当前点p,返回步骤4.3.3,直至np个兴趣点POI都被处理;
5、将所形成的位置簇进行聚合,聚合后的每一个类为一个位置区,每个位置区具有一个位置属性,最终对应至运营商基站位置数据,使每一个基站位置数据对应一个位置属性。
在对此聚类处理后,可针对大型景区、会展区、商务区进行修正,以确保其最终位置区标识的准确性。
表2:插值后的基于基站的位置区属性值
ID TYPE X Y L<sub>i</sub>
…… …… …… ……
ID(i) INIT 121.54352 30.92748 交通枢纽
ID(i+1) INTE 121.54342 30.92741 交通枢纽
ID(i+2) INTE 121.54342 30.92741 交通枢纽
ID(i+3) INIT 121.54343 30.92743 交通枢纽
…… …… …… ……
ID(j) INIT 121.74538 31.03943 商务
ID(j+1) INIT 121.74329 30.04324 商务
ID(j+2) INTE 121.74328 30.04321 商务
…… …… …… ……
步骤4.2、对步骤3中判定为流动人口的每个EPID进行基于位置区的多属性差异识别,对于当前EPID而言,根据其位置信息获得其所处的不同位置区,将每个位置区的停留时长作为当前位置区所对应的位置属性的时间权重,并对各个位置属性的时间权重进行权重判定,将最突出的时间权重对应的位置属性赋予当前EPID,以标识当前EPID的最终分类。
在本实施例中,对当前EPID在同一位置属性Li进行该位置区时间权重的判定,并区分其昼夜时段,获得WLi-day/night,并对各个位置属性进行权重判定,获得权重突出值并赋予该用户,以标识其最终分类。步骤如下:
1、对当前EPID的数据进行基于时段的位置权重值,即在该时段内累计其特定位置属性停留时长,获得在该位置属性区内的时间权重WLi-day/night,如EPID(e1)于交通枢纽位置区中停留50分钟,即WE1-day赋值50,于交通商务位置区停留200分钟,即WL5-day赋值200。
2、对各权重进行归一化处理,得到归一化后的权重值ωi
3、Max(ωi)>敏感值SL(SL为可调参数,可根据实际情况适当调整,本例中令SL为0.5),则判定当前EPID的位置属性为Li,否则则表示其属性值不明显,划入综合流动人口集合。即在本列中该人员位置属性为L5,即商务属性。
步骤4.3、对所有可识别位置属性数据进行分类,关联其位置属性与人群定义,获得不同流动人口分类下的流动目的识别。
步骤5:分析各类流动人口出行特征,包括流动人口活动空间统计、流动人口夜间分布统计、流动人口白天分布统计、流动人口出行OD统计、流动人口出行距离统计、流动人口出行耗时统计、流动人口出行频次统计等。
首先进行一个预处理——时空聚类处理,就是把间距很近的X、Y、SR认为是一个点。
表3:区域数据库预处理后的数据
RECODID EPID X Y SR TIME
…… …… …… …… …… ……
RECORD(r2) EPID(e2) 2016 3.10 12:13:07
RECORD(r2+1) EPID(e2) 2016 3.10 14:34:09
…… …… …… …… …… ……
1)流动人口活动空间统计:
所有流动人口活动过的所有位置,反映每个城市空间对流动人口的承载或吸引力情况。将进入区域数据库所有数据和该区域的面积相比,就算出单位面积上流动人口的数量。
如上海市徐汇区的面积为54.67平方公里,当天流动人口为50000人,得到单位面积流动人口约为913人每平方公里。
2)流动人口夜间分布统计:
夜间时间段待的时间最长的地方,反映的是流动人口夜间居住空间分布情况。将每天的21:00至次日的4:59定义为夜间时间段(可根据不同城市作息时间不同,夏天与冬天作息时间不同来调整,如乌鲁木齐可以调整为23:00到6:59),从区域数据库中取出每个EPID所对应的TYPE和X、Y、SR等数据,在该区域的地图上根据X、Y、SR标记出位置,同时可以根据其TYPE标注成不同颜色或者形状。
在本实施例中,将每天的21:00至次日的4:59定义为夜间时间段,从徐汇区数据库中取出每个EPID所对应的TYPE和X、Y、SR等数据,在该区域的地图上根据X、Y、SR标记出位置,同时可以根据其TYPE标注成不同颜色或者形状。
3)流动人口白天分布统计:
白天时间段待的最长的地方,反映流动人口白天游玩或工作等的空间分布情况。将每天的5:00到20:59定义为白天时间段(可根据不同城市作息时间不同,夏天与冬天作息时间不同来调整,如乌鲁木齐可以调整为7:00到22:59),从区域数据库中取出每个EPID所对应的TYPE和X、Y、SR等数据,在该区域的地图上根据X、Y、SR标记处位置,同时可以根据其TYPE标注成不同颜色或者形状。每一段时间(更具城市大小及交通情况来规定,白天的更新时间间隔可以比夜间短,周末和工作日也可以有不同划分)在地图上更新一次。
在本实施例中,将每天的5:00到20:59定义为白天时间段,从徐汇区数据库中取出每个EPID所对应的TYPE和X、Y、SR等数据,在该区域的地图上根据X、Y、SR标记处位置,同时可以根据其TYPE标注成不同颜色或者形状,每半小时在地图上更新一次。
4)改进基尼系数和泰尔指数:
计算不同类型的流动人口在空间分布上的聚集/离散程度。具体方法为:将区域地理空间划分为多个栅格,将插值后的SDP点部署到地理底图上,统计每个栅格点的SDP数,根据基尼系数和泰尔指数的计算公式计算流动人口位置分布的不平衡性,比较不同类型的流动人口分布的不同特征。
基尼系数G:
上式中,基尼系数的计算首先需要将各栅格以内部SDP为序从小到大排列,n表示格栅总数,Wi表示从栅格1到栅格i的累计SDP数占总SDP数的比例。
泰尔指数T:
上式中,Si表示i栅格面积,S表示区域总面积,Pi表示i栅格内SDP数,P表示区域内总SDP数。
在本实施例中,将区域地理空间划分为多个栅格,将插值后的SDP点部署到地理底图上,统计每个栅格点的SDP数,根据基尼系数和泰尔指数的计算公式计算流动人口位置分布的不平衡性,比较不同类型的流动人口分布的不同特征。如获得栅格24综合流动人口基尼系数0.2,则认为综合流动人口在该栅格区域内发布均匀。
5)流动人口出行OD统计:
从区域数据库中提出需要的数据,以每次逗留时长<TT_DMIN_STAY(即,逗留时长最小阈值)的空间范围作为逗留点,其它点都是途经点。连续时间序列的两两逗留点形成一次OD出行,前一逗留点作为O点,后一逗留点作为D点。如EPID(r2)在2016年3月10日10:42:24留下一条纬度31.1594320000,经度121.4358650000作为逗留点1,2016年3月10日11:02:35留下一条纬度:31.141239110601024,经度:121.42567750896457作为逗留点2。逗留点1为O点,逗留点2为D点,记为一次OD出行。
6)流动人口出行距离统计:
两两OD点的直线距离,对不同的出行方向(比如东南西北)按5km一个区间,统计各方向出行距离分布,并统计总体加权平均距离(按OD客流量加权)。如EPID(r2)在2016年3月10日10:42:24留下一条纬度31.1594320000,经度121.4358650000作为逗留点1,2016年3月10日11:02:35留下一条纬度:31.141239110601024,经度:121.42567750896457作为逗留点2。逗留点1为O点,逗留点2为D点,记为一次OD出行,OD之间的直线距离为1.523公里。
7)流动人口出行耗时统计:
O点(出发点)出发时刻与D点(到达点)到达时刻的时间差作为一次OD出行耗费的时间,也是统计各方向出行耗时分布与平均出行耗时。
如EPID(r2)在2016年3月10日10:42:42留下一条纬度31.1594320000,经度121.4358650000作为逗留点1,2016年3月10日11:02:35留下一条纬度:31.141239110601024,经度:121.42567750896457作为逗留点2。逗留点1为O点,逗留点2为D点,记为一次OD出行,耗时为20分钟07秒。第二次OD出行,耗时为1小时30分38秒,第三次OD出行,耗时为10分钟35秒……统计后得到平均出行耗时为40分钟20秒。
8)流动人口出行频次:
对每个EPID,统计当日OD总次数,从而统计出行次数分布以及平均出行次数。
如EPID(e2)2016年3月10日OD总次数5次,2016年3月11日OD总次数5次,2016年3月12日OD总次数4次,2016年3月12日OD总次数6次并在当天离开上海,统计得到EPID(e2)平均出行次数为5次。

Claims (5)

1.一种基于手机大数据的流动人口分类识别分析方法,其特征在于,包括以下步骤:
步骤1、从通信运营商获取目标分析城市空间范围内一段时期内持续的匿名加密手机定位数据,每条匿名加密手机定位数据包括EPID、TIME及定位数据,其中,不同的手机终端用户对应不同的EPID,TIME表示当前一条匿名加密手机定位数据所涉及的手机网络动作发生时刻;
步骤2、构建每个EPID的时间序列分段模型:
将当前EPID对应的所有定位数据按TIME升序或降序排序,获得当前EPID基于时间序列的位置信息,从而建立当前EPID的时间序列模型,将时间序列模型按照不同的位置信息进行分段,得到当前EPID的时间序列分段模型;
步骤3、对每个EPID计算其在目标分析城市的每日累计逗留时长与天数频率情况,根据每个EPID在目标分析城市每日停留时长长短与天数频率,将人口分为常住人口及流动人口;
步骤4、基于空间位置属性对步骤3中判定为流动人口的每个EPID的流动目的进行判别,其中,空间位置属性的获取包括以下步骤:
步骤4.1、基于GIS基础地图空间地理数据获得空间位置属性,包括以下步骤:
步骤4.1.1、对在空间地理数据库中的各人员的时间序列进行空间/时间插值,保证人口空间分布SDP之间的时间间隔相等,为空间聚类做准备;
步骤4.1.2、对区域进行基于密度的空间聚类,该聚类所获得成果为得到基于空间的空间位置属性,包括以下步骤:
步骤A、将空间地理数据库中的np个兴趣点POI位置属性进行遍历,设置半径Eps及最少数目MinPts;
步骤B、从np个兴趣点POI中任意选取一个点p;
步骤C、对当前点p其进行地域查询,若点p是核心点,则寻找从点p密度可达的点,最终形成一个包含点p的位置簇,否则点p被标识为噪音点;
步骤D、将np个兴趣点POI中的下一个点作为当前点p,返回步骤B,直至np个兴趣点POI都被处理;
步骤E、将所形成的位置簇进行聚合,聚合后的每一个类为一个位置区,每个位置区具有一个位置属性,最终对应至运营商基站位置数据,使每一个基站位置数据对应一个位置属性;
步骤4.2、对步骤3中判定为流动人口的每个EPID进行基于位置区的多属性差异识别,对于当前EPID而言,根据其位置信息获得其所处的不同位置区,将每个位置区的停留时长作为当前位置区所对应的位置属性的时间权重,并对各个位置属性的时间权重进行权重判定,将最突出的时间权重对应的位置属性赋予当前EPID,以标识当前EPID的最终分类;
步骤4.3、对所有可识别位置属性数据进行分类,关联其位置属性与人群定义,获得不同流动人口分类下的流动目的识别;
步骤5、分析各类流动人口出行特征。
2.如权利要求1所述的一种基于手机大数据的流动人口分类识别分析方法,其特征在于,在所述步骤2中,为了保证每个EPID轨迹识别的完整性与可信性,将各时间序列中无法追踪的时段标识出来,具体规则为:当时间序列中某条记录之后时长为MaxT的时段范围内无记录,则认为当前EPID在当前记录之后的轨迹无法追踪。
3.如权利要求1所述的一种基于手机大数据的流动人口分类识别分析方法,其特征在于,在所述步骤3中,将所述流动人口进一步划分为长期流动人口、短期流动人口及过境流动人口。
4.如权利要求3所述的一种基于手机大数据的流动人口分类识别分析方法,其特征在于,所述步骤3包括:
步骤3.1、判断并统计各EPID的时间序列分段模型中在目标分析城市所涉及的时间序列的总时长,记为累计停留时长;
步骤3.2、设置时长阈值MaxD、Classify-L及Classify-S,若当前EPID的累计停留时长大于时长阈值MaxD,则认为当前EPID为常住人口;
若当前EPID的累计停留时长小于时长阈值MaxD,且大于时长阈值Classify-L,则认为当前EPID为长期流动人口;
若当前EPID的累计停留时长小于时长阈值Classify-L,且大于时长阈值Classify-S,则认为当前EPID为短期流动人口;
若当前EPID的累计停留时小于时长阈值Classify-S,则认为当前EPID为短时过境人口。
5.如权利要求1所述的一种基于手机大数据的流动人口分类识别分析方法,其特征在于,在所述步骤5中,所述流动人口出行特征包括流动人口活动空间统计、流动人口夜间分布统计、流动人口白天分布统计、流动人口出行OD统计、流动人口出行距离统计、流动人口出行耗时统计、流动人口出行频次统计。
CN201610386914.5A 2016-06-02 2016-06-02 一种基于手机大数据的流动人口分类识别分析方法 Active CN106096631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610386914.5A CN106096631B (zh) 2016-06-02 2016-06-02 一种基于手机大数据的流动人口分类识别分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610386914.5A CN106096631B (zh) 2016-06-02 2016-06-02 一种基于手机大数据的流动人口分类识别分析方法

Publications (2)

Publication Number Publication Date
CN106096631A CN106096631A (zh) 2016-11-09
CN106096631B true CN106096631B (zh) 2019-03-19

Family

ID=57448093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610386914.5A Active CN106096631B (zh) 2016-06-02 2016-06-02 一种基于手机大数据的流动人口分类识别分析方法

Country Status (1)

Country Link
CN (1) CN106096631B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377679A (zh) * 2019-07-10 2019-10-25 南京大学 一种基于轨迹定位数据的公共空间活力测度方法及系统

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649636A (zh) * 2016-12-08 2017-05-10 北京锐安科技有限公司 一种基于移动终端的人员流动性分析方法及装置
CN106991142A (zh) * 2017-03-22 2017-07-28 湖州师范学院 一种基于微信数据和兴趣点数据识别城市功能区的方法
CN107358265A (zh) * 2017-07-17 2017-11-17 南京华苏科技有限公司 基于谱聚类的外来常住人口识别方法
CN107645740A (zh) * 2017-09-01 2018-01-30 深圳市盛路物联通讯技术有限公司 一种移动监测方法及终端
CN107770744A (zh) * 2017-09-18 2018-03-06 上海世脉信息科技有限公司 大数据环境下出行od节点识别和节点间路径提取方法
CN109766902B (zh) * 2017-11-09 2021-03-09 杭州海康威视系统技术有限公司 对同区域的车辆聚类的方法、装置和设备
CN107977673B (zh) * 2017-11-15 2021-05-14 上海世脉信息科技有限公司 一种基于大数据的经济活动人口识别方法
CN108076430B (zh) * 2017-12-27 2020-12-29 西南交通大学 一种WiFi探针采集数据自动插值处理方法
CN108600340A (zh) * 2018-04-08 2018-09-28 深圳市和讯华谷信息技术有限公司 一种基于移动大样本数据的历史人群规模推总方法及装置
CN108733774B (zh) * 2018-04-27 2022-04-05 上海世脉信息科技有限公司 一种基于大数据的失业人口动态监测方法
CN108959448B (zh) * 2018-06-14 2021-10-22 上海百林通信网络科技服务股份有限公司 结合移动大数据形成危险地图的方法
CN110858955B (zh) * 2018-08-24 2021-11-12 国信优易数据股份有限公司 一种人群分类方法以及人群分类装置
CN110958599B (zh) * 2018-09-26 2022-05-24 北京融信数联科技有限公司 一种基于轨迹相似性的一机多卡用户判别方法
CN109543566B (zh) * 2018-11-05 2021-06-15 深圳市商汤科技有限公司 信息处理方法及装置、电子设备和存储介质
CN109615573B (zh) * 2018-12-05 2023-05-05 武汉烽火众智数字技术有限责任公司 基于大数据的外地人员流窜作案分析方法及系统
CN111325056B (zh) * 2018-12-14 2023-06-09 成都云天励飞技术有限公司 流动人口分析方法及分析装置
CN109362041B (zh) * 2018-12-18 2021-06-04 成都方未科技有限公司 一种基于大数据的人口时空分布分析方法
CN109992605B (zh) * 2019-03-14 2022-09-16 上海同济城市规划设计研究院有限公司 基于手机信令数据的人口识别方法及系统
CN109947887A (zh) * 2019-03-20 2019-06-28 智慧足迹数据科技有限公司 人口分布统计方法及装置
CN110059147A (zh) * 2019-04-21 2019-07-26 黎慧斌 基于空间大数据进行知识挖掘的地图可视化系统及方法
CN110297875B (zh) * 2019-05-15 2021-08-10 北京邮电大学 一种评估城市各功能区之间联系需求紧密度的方法和装置
CN110245981B (zh) * 2019-05-31 2021-10-01 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的人群类型识别方法
CN110399401A (zh) * 2019-07-08 2019-11-01 武汉东湖大数据交易中心股份有限公司 基于政务数据的数据分析系统及方法
CN110418287B (zh) * 2019-07-12 2021-06-01 重庆市交通规划研究院 基于手机信令的人口居住地迁徙识别方法
CN112561550A (zh) * 2019-09-26 2021-03-26 中移动信息技术有限公司 商户的健康度分类方法、装置、设备及存储介质
CN110991548B (zh) * 2019-12-13 2023-04-18 山东省计算中心(国家超级计算济南中心) 一种基于位置记录的用户人口学属性预测方法及系统
CN111078816B (zh) * 2019-12-16 2023-08-25 秒针信息技术有限公司 基于位置的分析方法、装置、终端及存储介质
CN111182445B (zh) * 2019-12-27 2021-10-19 南京中新赛克科技有限责任公司 基于手机信令数据分析聚集群体的方法及系统
CN113128282A (zh) * 2019-12-31 2021-07-16 深圳云天励飞技术有限公司 一种人群类别的划分方法、装置及终端
CN111639092B (zh) * 2020-05-29 2023-09-26 京东城市(北京)数字科技有限公司 一种人员流动分析方法、装置、电子设备及存储介质
CN111797926B (zh) * 2020-07-06 2021-11-30 广州交信投科技股份有限公司 城际迁徙行为识别方法、装置、计算机设备及存储介质
CN111737605A (zh) * 2020-07-09 2020-10-02 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的出行目的识别方法及装置
CN112052280B (zh) * 2020-09-10 2022-04-29 厦门市美亚柏科信息股份有限公司 一种基于时空数据的实有人口分析方法及系统
CN112101999A (zh) * 2020-09-16 2020-12-18 智慧足迹数据科技有限公司 用户识别方法、装置、电子设备和计算机可读存储介质
CN112215735A (zh) * 2020-09-30 2021-01-12 全民认证科技(杭州)有限公司 一种基于云计算的流动人口智能分析系统及其分析方法
CN112712112A (zh) * 2020-12-28 2021-04-27 中国移动通信集团江苏有限公司 区域流动人口识别方法、装置、设备及介质
CN113115204B (zh) * 2021-03-31 2022-07-01 全民认证科技(杭州)有限公司 一种基于5g物联网的流动人口数字化智能判别方法
CN113486984B (zh) * 2021-08-02 2022-05-17 智慧足迹数据科技有限公司 基于信令数据识别用户类型的方法及相关装置
CN113722565B (zh) * 2021-11-02 2022-03-15 北京融信数联科技有限公司 一种基于大数据的人口特征分析方法、系统和存储介质
CN115297441B (zh) * 2022-09-30 2023-01-17 上海世脉信息科技有限公司 一种大数据环境下个体时空活动鲁棒性的计算方法
CN117112859B (zh) * 2023-06-16 2024-05-14 中国联合网络通信有限公司深圳市分公司 人口移动演化的显示方法、装置及计算机可读存储介质
CN116702014A (zh) * 2023-08-03 2023-09-05 中电科新型智慧城市研究院有限公司 人口识别方法、装置、终端设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011128921A1 (en) * 2010-04-15 2011-10-20 Neptuny S.R.L. Automated service time estimation method for it system resources
CN104902438A (zh) * 2015-05-04 2015-09-09 林茜茜 一种基于移动通信终端分析客流特征信息的统计方法及其系统
CN105225039A (zh) * 2015-09-24 2016-01-06 北京云海寰宇信息技术有限责任公司 基于自主上报和社区监控的流动人口管理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011128921A1 (en) * 2010-04-15 2011-10-20 Neptuny S.R.L. Automated service time estimation method for it system resources
CN104902438A (zh) * 2015-05-04 2015-09-09 林茜茜 一种基于移动通信终端分析客流特征信息的统计方法及其系统
CN105225039A (zh) * 2015-09-24 2016-01-06 北京云海寰宇信息技术有限责任公司 基于自主上报和社区监控的流动人口管理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于手机信令技术的区域交通出行特征研究;毛晓汶;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20150415;全文
基于轨迹数据的人流预测模型及方法研究;毕鹏云;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150615;全文

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377679A (zh) * 2019-07-10 2019-10-25 南京大学 一种基于轨迹定位数据的公共空间活力测度方法及系统
CN110377679B (zh) * 2019-07-10 2021-03-26 南京大学 一种基于轨迹定位数据的公共空间活力测度方法及系统

Also Published As

Publication number Publication date
CN106096631A (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN106096631B (zh) 一种基于手机大数据的流动人口分类识别分析方法
Yin et al. A generative model of urban activities from cellular data
Widhalm et al. Discovering urban activity patterns in cell phone data
Zheng et al. Detecting collective anomalies from multiple spatio-temporal datasets across different domains
Xu et al. Context-aware real-time population estimation for metropolis
CN105493109B (zh) 使用多个数据源的空气质量推断
CN109362041B (zh) 一种基于大数据的人口时空分布分析方法
Xu et al. A survey for mobility big data analytics for geolocation prediction
Hong et al. Hierarchical community detection and functional area identification with OSM roads and complex graph theory
Chen et al. Trip2Vec: a deep embedding approach for clustering and profiling taxi trip purposes
CN106931974B (zh) 基于移动终端gps定位数据记录计算个人通勤距离的方法
Liu et al. Characterizing mixed-use buildings based on multi-source big data
CN110414732A (zh) 一种出行未来轨迹预测方法、装置、储存介质及电子设备
CN110442715B (zh) 一种基于多元大数据的综合城市地理语义挖掘方法
Fan et al. Estimation of urban crowd flux based on mobile phone location data: A case study of Beijing, China
CN107977673A (zh) 一种基于大数据的经济活动人口识别方法
CN108717676A (zh) 基于多数据融合的不同尺度下的职住空间评价方法及系统
Yuan et al. Recognition of functional areas based on call detail records and point of interest data
Cui et al. Social media and mobility landscape: Uncovering spatial patterns of urban human mobility with multi source data
Li et al. Defining the boundaries of urban built-up area based on taxi trajectories: a case study of Beijing
Cao et al. Understanding metropolitan crowd mobility via mobile cellular accessing data
Zhang et al. Urban human activity density spatiotemporal variations and the relationship with geographical factors: An exploratory Baidu heatmaps‐based analysis of Wuhan, China
CN114969007A (zh) 一种基于功能混合度和集成学习的城市功能区识别方法
Liang et al. Assessing the validity of mobile device data for estimating visitor demographics and visitation patterns in Yellowstone National Park
Alhazzani et al. Urban Attractors: Discovering patterns in regions of attraction in cities

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Ying

Inventor after: Liu Jie

Inventor after: Gu Gaoxiang

Inventor after: Wu Jialing

Inventor after: Guo Peng

Inventor after: Gong Long

Inventor before: Zhang Ying

GR01 Patent grant
GR01 Patent grant