CN112165686A - 基于手机信令数据的城市访客识别方法、装置、存储介质 - Google Patents

基于手机信令数据的城市访客识别方法、装置、存储介质 Download PDF

Info

Publication number
CN112165686A
CN112165686A CN202010881407.5A CN202010881407A CN112165686A CN 112165686 A CN112165686 A CN 112165686A CN 202010881407 A CN202010881407 A CN 202010881407A CN 112165686 A CN112165686 A CN 112165686A
Authority
CN
China
Prior art keywords
time
signaling
user
signaling data
city
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010881407.5A
Other languages
English (en)
Other versions
CN112165686B (zh
Inventor
钱晨
段征宇
李玮峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010881407.5A priority Critical patent/CN112165686B/zh
Publication of CN112165686A publication Critical patent/CN112165686A/zh
Application granted granted Critical
Publication of CN112165686B publication Critical patent/CN112165686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/20Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及一种基于手机信令数据的城市访客识别方法、装置、存储介质。该方法包括如表步骤:S1、基于城市手机信令数据,根据用户标识进行分组,并对各用户的手机信令数据进行时空间重构与标记;S2、基于时空间重构与标记后的数据提取用户的特征指标,包括活跃天数、信令分段数、有无夜间停留点、夜间休憩点信息熵;S3、基于用户的特征指标建立识别规则,判定用户是否为城市访客。与现有技术相比,本发明能识别出多次来访访客、通勤访客、过夜访客,有效提高了访客的总体识别率,为访客时空间规律挖掘提供坚实的数据基础。

Description

基于手机信令数据的城市访客识别方法、装置、存储介质
技术领域
本发明涉及一种手机信令大数据挖掘技术领域,尤其是涉及一种基于手机信令数据的城市访客识别方法、装置、存储介质。
背景技术
随着中国的城市化步入城镇群发展的新阶段,城市间的联系更加频繁。访客作为特大城市中不可忽视的群体,对城市服务水平、交通需求管理等方面提出了更高要求。本发明访客是指短时期停留在某个城市,以旅游、商务、公务、医疗、探亲访友为目的的个体,有别于在城市居住的居民(包括本地常住居民和外地常住居民)。
在传统的交通和旅游规划中,通常采用问卷调查的方式获取访客需求信息,这种方法样本量小、时效性差、而且采集成本高。手机信令数据作为一种新型的数据资源,具有数据量大、覆盖范围广、时效性强和采集成本低的特点,能实现长期的轨迹追踪,因此可以为城市交通和旅游规划与管理提供定量参考。手机信令数据是以位置区码(Location AreaCode,简称LAC)和小区标识(Cell Identity,简称CI) 确定的基站(Base Station,简称BS)为定点检测器,采集匿名手机用户(Mobile Subscriber,简称MS)在发生通信事件(包括收发短信、主被叫等)、漫游事件(包括开关机、位置更新等事件)以及切换事件时的经纬度位置与时刻信息,从而刻画手机用户个体在时空间维度上的连续出行轨迹。原始手机信令数据和基站位置信息表如表1、表2所示:
表1手机信令数据表
Figure BDA0002654230700000011
Figure BDA0002654230700000021
表2基站位置信息表
Figure BDA0002654230700000022
基于手机信令数据的城市访客或游客识别,国内外研究主要是根据此领域内专业人士的知识,建立识别规则来进行筛选。识别规则的基础指标是在城市中逗留的时间,但是不同学者的定义各有不同。通勤访客(只在白天来访的访客)与多次来访的访客没有相关的指标来识别。另外,还忽视了访客在空间方面的特征,如多次来访的访客由于出行目的不同而存在很多夜间休憩点。现有方法的访客识别率相对较低,对于城市服务水平评价、交通需求管理和旅游产品设计等方面应用价值不能很好体现。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于手机信令数据的城市访客识别方法、装置、存储介质。
本发明的目的可以通过以下技术方案来实现:
一种基于手机信令数据的城市访客识别方法,该方法包括如表步骤:
S1、基于城市手机信令数据,根据用户标识进行分组,并对各用户的手机信令数据进行时空间重构与标记;
S2、基于时空间重构与标记后的数据提取用户的特征指标,包括活跃天数、信令分段数、有无夜间停留点、夜间休憩点信息熵;
S3、基于用户的特征指标建立识别规则,判定用户是否为城市访客。
优选地,步骤S1具体包括:
S11、根据手机信令数据中的LAC、CI字段匹配经纬度坐标,筛选无重复的有效信令数据得到表T1,T1中字段包括<MSID,DATETIME,LON,LAT>,其中LAC 为位置区域编码,CI为小区ID,MSID为用户唯一识别号,DATETIME为时刻, LON为基站经度,LAT为基站纬度,DATETIME为时间戳格式;
S12、对有效信令数据表T1按用户MSID进行分组,对各个用户的有效信令数据进行分箱处理:各条有效信令数据按照分箱时长进行分组,每组生成加权时刻为TIME、加权经纬度坐标为(LON1,LAT1)的加权时空间信令数据,由此得到加权时空间信令数据表T2,T2中字段包括<MSID,TIME,LON1,LAT1>;
S13、对空间坐标进行栅格划分,将加权时空间信令数据表T2中各加权时空间信令数据中的经纬度坐标(LON1,LAT1)匹配至相应栅格,得到栅格标号为 (LONID,LATID),由此得到栅格时空间信令数据表T3,T3中字段包括<MSID, TIME,LONID,LATID>;
S14、基于栅格时空间信令数据表T3进行出行生成算法处理,生成用户移动/ 活动信息表T4,并标记包括缺失记录的信令分段,T4中字段包括<MSID, START_TIME,START_LONID,START_LATID,END_TIME,END_LONID,END_LAT ID,DURA,STOP,VISIT>,其中START_TIME表示用户离开栅格(START_LONID, START_LATID)的时刻,END_TIME表示用户进入栅格(END_LONID,END_LATID) 的时刻,(START_LONID,START_LATID)、(END_LONID,END_LATID)均为栅格标号,DURA为END_TIME和START_TIME的时间差,STOP=1表示前后栅格编号一致,用户在此栅格中活动,STOP=0表示前后栅格编号不同,用户产生了移动, STOP=-1表示此时段内信令存在缺失;如果DURA大于1800分钟的缺失间隔阈值,则VISIT标记为loss,表示此条信息的时间范围内用户不在城市内;如果DURA 小于等于1800分钟,则VISIT标记为数字,表示此条信息属于用户第VISIT次在城市内;
S15、根据用户移动/活动信息表T4中的START_TIME和END_TIME,进行日间标记处理,生成用户日间标记移动/活动信息表T5,T5中字段包括<MSID, START_TIME,START_LONID,START_LATID,END_TIME,END_LONID, END_LATID,DURA,STOP,VISIT,DAYTIME>,DAYTIME=1表示此条信息在白天,DAYTIME=0表示此条信息在夜间。
优选地,步骤S12中分箱处理具体为:
S121:将不同用户的有效信令数据按照DATETIME排序,按照设定的时间间隔确定连续的箱,将各用户的有效信令数据按照DATETIME分配至各个箱中,加权时刻TIME为各个箱的中间时刻;
S122:确定加权坐标权重:
若当前箱中的前一个相邻箱中无信令,则当前箱中各信令的加权坐标权重的分母为所在箱结束时刻与所在箱中第一条信令时刻之差,加权坐标权重的分子确定为:
若信令为当前箱中非最后一条信令,则各条信令加权坐标权重的分子为该信令所在时刻到所在箱中下一条相邻信令的持续时间,否则该条信令加权坐标权重的分子为该信令所在时刻到所在箱结束时刻的持续时间;
若当前箱中的前一个相邻箱中有信令,则将前一个相邻箱中的最后一条信令复制到当前箱的开始时刻,当前箱中各信令的加权坐标权重的分母为箱所设定的时间间隔,加权坐标权重的分子确定为:
若信令为当前箱中非最后一条信令,则各条信令加权坐标权重的分子为该信令所在时刻到所在箱中下一条相邻信令的持续时间,否则该条信令加权坐标权重的分子为该信令所在时刻到所在箱结束时刻的持续时间;
S123:对各个箱中的信令数据的经纬度进行加权求和,得到每个箱的加权经纬度坐标为(LON1,LAT1)。
优选地,步骤S13具体为:
对于加权时空间信令数据表T2中各加权时空间信令数据中的经纬度坐标 (LON1,LAT1)按照下式计算得到栅格标号(LONID,LATID),
dlon=raster_length*180/(π*Rearth*cos((lat1+lat2)*π/360))
dlat=raster_length*180/(π*Rearth)
Figure BDA0002654230700000041
Figure BDA0002654230700000042
其中,raster_length为栅格边长,Rearth为地球半径,lat1为城市最低纬度,lat2为城市最高纬度,lon1为城市最小经度,
Figure BDA0002654230700000043
表示向下取整。
优选地,步骤S14具体为:
S141:将栅格时空间信令数据表T3中的栅格时空间信令数据按照TIME排序;
S142:依次获取相邻两条数据,用户移动/活动信息的开始时刻和坐标 START_TIME、START_LONID、START_LATID为前一条数据的TIME、LONID、 LATID,结束时刻和坐标END_TIME、END_LONID、END_LATID为后一条记录的TIME、LONID、LATID,计算时间间隔DURA,DURA为END_TIME和 START_TIME之差;
S143:如果间隔DURA大于1800分钟,则VISIT标记为loss,STOP标记为 -1,否则VISIT从1开始累加标记;
S144:如果前后LONID与LATID均一致,则STOP标记为1,否则STOP标记为0;
S145:重新遍历新生成的记录<MSID,START_TIME,START_LONID, START_LATID,END_TIME,END_LONID,END_LATID,DURA,STOP,VISIT>,如果相邻记录STOP均为1,VISIT一致且不为loss,且前一条记录坐标END_LONID、 END_LATID与后一条记录坐标START_LON、START_LAT一致,则新的记录的 START_TIME为前一条记录的START_TIME,END_TIME为后一条记录的 END_TIME,新的记录的DURA为两条记录DURA之和,STOP=1,VISIT不变;否则保留原来两条记录,由此得到用户移动/活动信息表T4。
优选地,步骤S15中DAYTIME通过下式得到:
Figure BDA0002654230700000051
其中,lower为日间时段下限,upper为日间时段上限。
优选地,步骤S2各特征指标通过如下方式获得:
根据栅格时空间信令数据表T3中的TIME字段,计算每个用户在城市出现的不同天数,得到活跃天数D;
根据用户日间标记移动/活动信息表T5中的VISIT字段统计每个用户VISIT 不为loss的不同次数,得到信令分段数V;
根据用户日间标记移动/活动信息表T5中的DAYTIME和STOP字段判断是否有夜间停留点,若DAYTIME=0且STOP=1,则存在夜间停留点,R=1,否则R=0;
统计每个用户每天不同夜间停留点的总停留时长,筛选每个用户每天停留时长最长的夜间停留点为夜间休憩点,根据下式计算每个用户观测时段内夜间休憩点的信息熵:
Figure BDA0002654230700000052
ci为用户第i个休憩点在观测时间段内出现的天数,D为活跃天数,N表示不同夜间休憩点的个数。
优选地,步骤S3根据下表判定用户是否为城市访客:
Figure BDA0002654230700000061
其中,DLL为活跃天数下限,DUL为活跃天数上限,VL为信令分段数阈值, CL为夜间休憩点信息熵阈值。
一种基于手机信令数据的城市访客识别装置,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现上述所述的方法。
一种存储介质,其上存储有程序,该程序被处理器执行时实现上述所述的方法。
与现有技术相比,本发明具有如下优点:
本发明除了使用活跃天数这一特征指标外,通过增加信令分段数、是否有夜间停留点、夜间休憩点信息熵3个时空间特征指标,能识别出多次来访访客、通勤访客、过夜访客,有效提高了访客的总体识别率,为访客时空间规律挖掘提供坚实的数据基础。
附图说明
图1为本发明一种基于手机信令数据的城市访客识别方法的流程框图;
图2为本发明实施例中得到的特征指标分布图;
图3为本发明实施例中访客每天占总人数的比例。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
如图1所示,一种基于手机信令数据的城市访客识别方法,该方法包括如表步骤:
S1、基于城市手机信令数据,根据用户标识进行分组,并对各用户的手机信令数据进行时空间重构与标记;
S2、基于时空间重构与标记后的数据提取用户的特征指标,包括活跃天数、信令分段数、有无夜间停留点、夜间休憩点信息熵;
S3、基于用户的特征指标建立识别规则,判定用户是否为城市访客。
步骤S1具体包括:
S11、根据手机信令数据中的LAC、CI字段匹配经纬度坐标,筛选无重复的有效信令数据得到表T1,T1中字段包括<MSID,DATETIME,LON,LAT>,其中LAC 为位置区域编码,CI为小区ID,MSID为用户唯一识别号,DATETIME为时刻, LON为基站经度,LAT为基站纬度,DATETIME为时间戳格式;
S12、对有效信令数据表T1按用户MSID进行分组,对各个用户的有效信令数据进行分箱处理:各条有效信令数据按照分箱时长进行分组,每组生成加权时刻为TIME,加权经纬度坐标为(LON1,LAT1)的加权时空间信令数据,进而构成加权时空间信令数据表T2,T2中字段包括<MSID,TIME,LON1,LAT1>;
S13、对空间坐标进行栅格划分,将加权时空间信令数据表T2中各加权时空间信令数据中的经纬度坐标(LON1,LAT1)匹配至相应栅格,得到栅格标号为 (LONID,LATID),由此得到栅格时空间信令数据表T3,T3中字段包括<MSID, TIME,LONID,LATID>;
S14、基于栅格时空间信令数据表T3进行出行生成算法处理,生成用户移动/ 活动信息表T4,并标记包括缺失记录的信令分段,T4中字段包括<MSID, START_TIME,START_LONID,START_LATID,END_TIME,END_LONID,END_LAT ID,DURA,STOP,VISIT>,其中START_TIME表示用户离开栅格(START_LONID, START_LATID)的时刻,END_TIME表示用户进入栅格(END_LONID,END_LATID) 的时刻,(START_LONID,START_LATID)、(END_LONID,END_LATID)均为栅格标号,DURA为END_TIME和START_TIME的时间差,STOP=1表示前后栅格编号一致,用户在此栅格中活动,STOP=0表示前后栅格编号不同,用户产生了移动, STOP=-1表示此时段内信令存在缺失;如果DURA大于1800分钟的缺失间隔阈值,则VISIT标记为loss,表示此条信息的时间范围内用户不在城市内;如果DURA 小于等于1800分钟,则VISIT标记为数字,表示此条信息属于用户第VISIT次在城市内;
S15、根据用户移动/活动信息表T4中的START_TIME和END_TIME,进行日间标记处理,生成用户日间标记移动/活动信息表T5,T5中字段包括<MSID, START_TIME,START_LONID,START_LATID,END_TIME,END_LONID, END_LATID,DURA,STOP,VISIT,DAYTIME>,DAYTIME=1表示此条信息在白天,DAYTIME=0表示此条信息在夜间。
步骤S12中分箱处理具体为:
S121:将不同用户的有效信令数据按照DATETIME排序,按照设定的时间间隔(本实施例中时间间隔设置为10分钟)确定连续的箱,将各用户的有效信令数据按照DATETIME分配至各个箱中,加权时刻TIME为各个箱的中间时刻;
S122:确定加权坐标权重:
若当前箱中的前一个相邻箱中无信令,则当前箱中各信令的加权坐标权重的分母为所在箱结束时刻与所在箱中第一条信令时刻之差,加权坐标权重的分子确定为:
若信令为当前箱中非最后一条信令,则各条信令加权坐标权重的分子为该信令所在时刻到所在箱中下一条相邻信令的持续时间,否则该条信令加权坐标权重的分子为该信令所在时刻到所在箱结束时刻的持续时间;
若当前箱中的前一个相邻箱中有信令,则将前一个相邻箱中的最后一条信令复制到当前箱的开始时刻,当前箱中各信令的加权坐标权重的分母为箱所设定的时间间隔,,加权坐标权重的分子确定为:
若信令为当前箱中非最后一条信令,则各条信令加权坐标权重的分子为该信令所在时刻到所在箱中下一条相邻信令的持续时间,否则该条信令加权坐标权重的分子为该信令所在时刻到所在箱结束时刻的持续时间;
S123:对各个箱中的信令数据的经纬度进行加权求和,得到每个箱的加权经纬度坐标为(LON1,LAT1)。
步骤S13具体为:
对于加权时空间信令数据表T2中各加权时空间信令数据中的经纬度坐标 (LON1,LAT1)按照下式计算得到栅格标号(LONID,LATID),
dlon=raster_length*180/(π*Rearth*cos((lat1+lat2)*π/360))
dlat=raster_length*180/(π*Rearth)
Figure BDA0002654230700000091
Figure BDA0002654230700000092
其中,raster_length为栅格边长,Rearth为地球半径,lat1为城市最低纬度,lat2为城市最高纬度,lon1为城市最小经度,
Figure BDA0002654230700000093
表示向下取整。本实施例中栅格边长 raster_length取500米,地球半径Rearth取6371004米,上海市西至lon1=120.850,南至lat1=30.688,北至lat2=31.866。
步骤S14具体为:
S141:将栅格时空间信令数据表T3中的栅格时空间信令数据按照TIME排序;
S142:依次获取相邻两条数据,用户移动/活动信息的开始时刻和坐标 START_TIME、START_LONID、START_LATID为前一条数据的TIME、LONID、 LATID,结束时刻和坐标END_TIME、END_LONID、END_LATID为后一条记录的TIME、LONID、LATID,计算时间间隔DURA,DURA为END_TIME和 START_TIME之差;
S143:如果间隔DURA大于1800分钟,则VISIT标记为loss,STOP标记为 -1,否则VISIT从1开始累加标记;
S144:如果前后LONID与LATID均一致,则STOP标记为1,否则STOP标记为0;
S145:重新遍历新生成的记录<MSID,START_TIME,START_LONID, START_LATID,END_TIME,END_LONID,END_LATID,DURA,STOP,VISIT>,如果相邻记录STOP均为1,VISIT一致且不为loss,且前一条记录坐标END_LONID、 END_LATID与后一条记录坐标START_LON、START_LAT一致,则新的记录的 START_TIME为前一条记录的START_TIME,END_TIME为后一条记录的END_TIME,新的记录的DURA为两条记录DURA之和,STOP=1,VISIT不变;否则保留原来两条记录,由此得到用户移动/活动信息表T4。
步骤S15中DAYTIME通过下式得到:
Figure BDA0002654230700000102
其中,lower为日间时段下限,upper为日间时段上限。本实施例中确定每天的9点至当日21点为日间,因此,lower=9,upper=21。
步骤S2各特征指标通过如下方式获得:
根据栅格时空间信令数据表T3中的TIME字段,计算每个用户在城市出现的不同天数,得到活跃天数D;
根据用户日间标记移动/活动信息表T5中的VISIT字段统计每个用户VISIT 不为loss的不同次数,得到信令分段数V;
根据用户日间标记移动/活动信息表T5中的DAYTIME和STOP字段判断是否有夜间停留点,若DAYTIME=0且STOP=1,则存在夜间停留点,R=1,否则R=0;
统计每个用户每天不同夜间停留点的总停留时长,筛选每个用户每天停留时长最长的夜间停留点为夜间休憩点,根据下式计算每个用户观测时段内夜间休憩点的信息熵:
Figure BDA0002654230700000103
ci为用户第i个休憩点在观测时间段内出现的天数,D为活跃天数,N表示不同夜间休憩点的个数。
步骤S3根据下表判定用户是否为城市访客:
Figure BDA0002654230700000104
Figure BDA0002654230700000111
其中,DLL为活跃天数下限,DUL为活跃天数上限,VL为信令分段数阈值, CL为夜间休憩点信息熵阈值。
一种基于手机信令数据的城市访客识别装置,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现上述所述的方法。
一种存储介质,其上存储有程序,该程序被处理器执行时实现上述所述的方法。
本实施例采用上述方法,使用上海市2011年10月1日至2011年10月31日一个月的手机信令数据进行访客识别,得到的特征指标分布图如图2所述,其中图 2中(a)为不同活跃天数的人数比例分布图,图2中(b)为不同信令分段数的人数比例分布图,图2中(c)为不同夜间休憩点信息熵的人数比例分布图,根据不同活跃天数的人数比例小于1.5%确定DLL=7、DUL=21,根据不同信令分段数的人数比例小于5%确定VL=4,根据不同夜间休憩点信息熵的人数比例小于8%确定 CL=1。识别结果如表3所示,最终识别出访客16 301 266人(占比56.2%),居民 11 915 596人(占比41.1%),未知766 682人(占比2.7%)。
表3访客识别结果
Figure BDA0002654230700000112
图3为访客每天占总人数的比例,排除国庆长假,日均访客比例为26.1%。根据2011年上海年鉴,上海市2011年常住人口为2347万人,共有来自外省市和境外(含港澳台)1.17亿人次旅客,因此平均每月来访旅客占总人口比重为29.3%。误差可能是由于手机信令数据不包含境外游客数据以及在沪天数大于1个月的访客未计入而造成的。因此本发明提出的城市访客识别方法是有效的。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (10)

1.一种基于手机信令数据的城市访客识别方法,其特征在于,该方法包括如表步骤:
S1、基于城市手机信令数据,根据用户标识进行分组,并对各用户的手机信令数据进行时空间重构与标记;
S2、基于时空间重构与标记后的数据提取用户的特征指标,包括活跃天数、信令分段数、有无夜间停留点、夜间休憩点信息熵;
S3、基于用户的特征指标建立识别规则,判定用户是否为城市访客。
2.根据权利要求1所述的一种基于手机信令数据的城市访客识别方法,其特征在于,步骤S1具体包括:
S11、根据手机信令数据中的LAC、CI字段匹配经纬度坐标,筛选无重复的有效信令数据得到表T1,T1中字段包括<MSID,DATETIME,LON,LAT>,其中LAC为位置区域编码,CI为小区ID,MSID为用户唯一识别号,DATETIME为时刻,LON为基站经度,LAT为基站纬度,DATETIME为时间戳格式;
S12、对有效信令数据表T1按用户MSID进行分组,对各个用户的有效信令数据进行分箱处理:各条有效信令数据按照分箱时长进行分组,每组生成加权时刻为TIME、加权经纬度坐标为(LON1,LAT1)的加权时空间信令数据,由此得到加权时空间信令数据表T2,T2中字段包括<MSID,TIME,LON1,LAT1>;
S13、对空间坐标进行栅格划分,将加权时空间信令数据表T2中各加权时空间信令数据中的经纬度坐标(LON1,LAT1)匹配至相应栅格,得到栅格标号为(LONID,LATID),由此得到栅格时空间信令数据表T3,T3中字段包括<MSID,TIME,LONID,LATID>;
S14、基于栅格时空间信令数据表T3进行出行生成算法处理,生成用户移动/活动信息表T4,并标记包括缺失记录的信令分段,T4中字段包括<MSID,START_TIME,START_LONID,START_LATID,END_TIME,END_LONID,END_LATID,DURA,STOP,VISIT>,其中START_TIME表示用户离开栅格(START_LONID,START_LATID)的时刻,END_TIME表示用户进入栅格(END_LONID,END_LATID)的时刻,(START_LONID,START_LATID)、(END_LONID,END_LATID)均为栅格标号,DURA为END_TIME和START_TIME的时间差,STOP=1表示前后栅格编号一致,用户在此栅格中活动,STOP=0表示前后栅格编号不同,用户产生了移动,STOP=-1表示此时段内信令存在缺失;如果DURA大于1800分钟的缺失间隔阈值,则VISIT标记为loss,表示此条信息的时间范围内用户不在城市内;如果DURA小于等于1800分钟,则VISIT标记为数字,表示此条信息属于用户第VISIT次在城市内;
S15、根据用户移动/活动信息表T4中的START_TIME和END_TIME,进行日间标记处理,生成用户日间标记移动/活动信息表T5,T5中字段包括<MSID,START_TIME,START_LONID,START_LATID,END_TIME,END_LONID,END_LATID,DURA,STOP,VISIT,DAYTIME>,DAYTIME=1表示此条信息在白天,DAYTIME=0表示此条信息在夜间。
3.根据权利要求2所述的一种基于手机信令数据的城市访客识别方法,其特征在于,步骤S12中分箱处理具体为:
S121:将不同用户的有效信令数据按照DATETIME排序,按照设定的时间间隔确定连续的箱,将各用户的有效信令数据按照DATETIME分配至各个箱中,加权时刻TIME为各个箱的中间时刻;
S122:确定加权坐标权重:
若当前箱中的前一个相邻箱中无信令,则当前箱中各信令的加权坐标权重的分母为所在箱结束时刻与所在箱中第一条信令时刻之差,加权坐标权重的分子确定为:
若信令为当前箱中非最后一条信令,则各条信令加权坐标权重的分子为该信令所在时刻到所在箱中下一条相邻信令的持续时间,否则该条信令加权坐标权重的分子为该信令所在时刻到所在箱结束时刻的持续时间;
若当前箱中的前一个相邻箱中有信令,则将前一个相邻箱中的最后一条信令复制到当前箱的开始时刻,当前箱中各信令的加权坐标权重的分母为箱所设定的时间间隔,加权坐标权重的分子确定为:
若信令为当前箱中非最后一条信令,则各条信令加权坐标权重的分子为该信令所在时刻到所在箱中下一条相邻信令的持续时间,否则该条信令加权坐标权重的分子为该信令所在时刻到所在箱结束时刻的持续时间;
S123:对各个箱中的信令数据的经纬度进行加权求和,得到每个箱的加权经纬度坐标为(LON1,LAT1)。
4.根据权利要求2所述的一种基于手机信令数据的城市访客识别方法,其特征在于,步骤S13具体为:
对于加权时空间信令数据表T2中各加权时空间信令数据中的经纬度坐标(LON1,LAT1)按照下式计算得到栅格标号(LONID,LATID),
dlon=raster_length*180/(π*Rearth*cos((lat1+lat2)*π/360))
dlat=raster_length*180/(π*Rearth)
Figure FDA0002654230690000031
Figure FDA0002654230690000032
其中,raster_length为栅格边长,Rearth为地球半径,lat1为城市最低纬度,lat2为城市最高纬度,lon1为城市最小经度,
Figure FDA0002654230690000033
表示向下取整。
5.根据权利要求2所述的一种基于手机信令数据的城市访客识别方法,其特征在于,步骤S14具体为:
S141:将栅格时空间信令数据表T3中的栅格时空间信令数据按照TIME排序;
S142:依次获取相邻两条数据,用户移动/活动信息的开始时刻和坐标START_TIME、START_LONID、START_LATID为前一条数据的TIME、LONID、LATID,结束时刻和坐标END_TIME、END_LONID、END_LATID为后一条记录的TIME、LONID、LATID,计算时间间隔DURA,DURA为END_TIME和START_TIME之差;
S143:如果间隔DURA大于1800分钟,则VISIT标记为loss,STOP标记为-1,否则VISIT从1开始累加标记;
S144:如果前后LONID与LATID均一致,则STOP标记为1,否则STOP标记为0;
S145:重新遍历新生成的记录<MSID,START_TIME,START_LONID,START_LATID,END_TIME,END_LONID,END_LATID,DURA,STOP,VISIT>,如果相邻记录STOP均为1,VISIT一致且不为loss,且前一条记录坐标END_LONID、END_LATID与后一条记录坐标START_LON、START_LAT一致,则新的记录的START_TIME为前一条记录的START_TIME,END_TIME为后一条记录的END_TIME,新的记录的DURA为两条记录DURA之和,STOP=1,VISIT不变;否则保留原来两条记录,由此得到用户移动/活动信息表T4。
6.根据权利要求2所述的一种基于手机信令数据的城市访客识别方法,其特征在于,步骤S15中DAYTIME通过下式得到:
Figure FDA0002654230690000041
其中,lower为日间时段下限,upper为日间时段上限。
7.根据权利要求2所述的一种基于手机信令数据的城市访客识别方法,其特征在于,步骤S2各特征指标通过如下方式获得:
根据栅格时空间信令数据表T3中的TIME字段,计算每个用户在城市出现的不同天数,得到活跃天数D;
根据用户日间标记移动/活动信息表T5中的VISIT字段统计每个用户VISIT不为loss的不同次数,得到信令分段数V;
根据用户日间标记移动/活动信息表T5中的DAYTIME和STOP字段判断是否有夜间停留点,若DAYTIME=0且STOP=1,则存在夜间停留点,R=1,否则R=0;
统计每个用户每天不同夜间停留点的总停留时长,筛选每个用户每天停留时长最长的夜间停留点为夜间休憩点,根据下式计算每个用户观测时段内夜间休憩点的信息熵:
Figure FDA0002654230690000042
ci为用户第i个休憩点在观测时间段内出现的天数,D为活跃天数,N表示不同夜间休憩点的个数。
8.根据权利要求1所述的一种基于手机信令数据的城市访客识别方法,其特征在于,步骤S3根据下表判定用户是否为城市访客:
Figure FDA0002654230690000043
Figure FDA0002654230690000051
其中,DLL为活跃天数下限,DUL为活跃天数上限,VL为信令分段数阈值,CL为夜间休憩点信息熵阈值。
9.一种基于手机信令数据的城市访客识别装置,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1~8任一项所述的方法。
10.一种存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1~8任一项所述的方法。
CN202010881407.5A 2020-08-27 2020-08-27 基于手机信令数据的城市访客识别方法、装置、存储介质 Active CN112165686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010881407.5A CN112165686B (zh) 2020-08-27 2020-08-27 基于手机信令数据的城市访客识别方法、装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010881407.5A CN112165686B (zh) 2020-08-27 2020-08-27 基于手机信令数据的城市访客识别方法、装置、存储介质

Publications (2)

Publication Number Publication Date
CN112165686A true CN112165686A (zh) 2021-01-01
CN112165686B CN112165686B (zh) 2021-09-03

Family

ID=73860362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010881407.5A Active CN112165686B (zh) 2020-08-27 2020-08-27 基于手机信令数据的城市访客识别方法、装置、存储介质

Country Status (1)

Country Link
CN (1) CN112165686B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032291A1 (en) * 2013-12-24 2017-02-02 Zte Corporation Bus Planning Method Using Mobile Communication Data Mining
US20170046744A1 (en) * 2015-08-11 2017-02-16 Weibin Li Exposure-Based Advertising System and Method
CN106570184A (zh) * 2016-11-11 2017-04-19 同济大学 从手机信令数据提取游憩‑居住联系数据集的方法
CN109121094A (zh) * 2018-07-27 2019-01-01 北京交通发展研究院 伪码信令数据预处理与出行链识别方法
CN109583640A (zh) * 2018-11-23 2019-04-05 东南大学 一种基于多源定位数据的城市出行客流属性识别方法
CN109729518A (zh) * 2019-03-15 2019-05-07 上海同济城市规划设计研究院有限公司 基于手机信令的城市交通早高峰拥堵源头识别方法
CN110113718A (zh) * 2019-05-31 2019-08-09 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的铁路交通枢纽人口类型识别方法
CN110245981A (zh) * 2019-05-31 2019-09-17 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的人群类型识别方法
CN110351664A (zh) * 2019-07-12 2019-10-18 重庆市交通规划研究院 基于手机信令的用户活动空间识别方法
CN110533038A (zh) * 2019-09-04 2019-12-03 广州市交通规划研究院 一种基于信息数据的城市活力区和中心城区边界识别的方法
CN111198972A (zh) * 2019-12-30 2020-05-26 中国联合网络通信集团有限公司 用户职住地识别方法、装置、控制设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170032291A1 (en) * 2013-12-24 2017-02-02 Zte Corporation Bus Planning Method Using Mobile Communication Data Mining
US20170046744A1 (en) * 2015-08-11 2017-02-16 Weibin Li Exposure-Based Advertising System and Method
CN106570184A (zh) * 2016-11-11 2017-04-19 同济大学 从手机信令数据提取游憩‑居住联系数据集的方法
CN109121094A (zh) * 2018-07-27 2019-01-01 北京交通发展研究院 伪码信令数据预处理与出行链识别方法
CN109583640A (zh) * 2018-11-23 2019-04-05 东南大学 一种基于多源定位数据的城市出行客流属性识别方法
CN109729518A (zh) * 2019-03-15 2019-05-07 上海同济城市规划设计研究院有限公司 基于手机信令的城市交通早高峰拥堵源头识别方法
CN110113718A (zh) * 2019-05-31 2019-08-09 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的铁路交通枢纽人口类型识别方法
CN110245981A (zh) * 2019-05-31 2019-09-17 南京瑞栖智能交通技术产业研究院有限公司 一种基于手机信令数据的人群类型识别方法
CN110351664A (zh) * 2019-07-12 2019-10-18 重庆市交通规划研究院 基于手机信令的用户活动空间识别方法
CN110533038A (zh) * 2019-09-04 2019-12-03 广州市交通规划研究院 一种基于信息数据的城市活力区和中心城区边界识别的方法
CN111198972A (zh) * 2019-12-30 2020-05-26 中国联合网络通信集团有限公司 用户职住地识别方法、装置、控制设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANG H: "《Freeway traffic state estimation: A Lagrangian-space Kalman filter approach》", 《JOURNAL OF INTELLIGENT TRANSPORTATION SYSTEMS》 *
宋少飞: "《基于移动通信数据的居民居住地识别方法研究》", 《综合运输》 *
钮心毅: "《手机信令数据识别职住地的时空因素及其影响》", 《城市交通》 *

Also Published As

Publication number Publication date
CN112165686B (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN106503714B (zh) 一种基于兴趣点数据识别城市功能区的方法
CN107194525A (zh) 一种基于手机信令的城市中心评估方法
CN105513351A (zh) 一种基于大数据的交通出行特征数据提取方法
CN109583640A (zh) 一种基于多源定位数据的城市出行客流属性识别方法
CN107040894A (zh) 一种基于手机信令数据的居民出行od获取方法
CN109992605B (zh) 基于手机信令数据的人口识别方法及系统
Demissie et al. Inferring origin-destination flows using mobile phone data: A case study of Senegal
CN113613174A (zh) 基于手机信令数据的职住地识别方法、装置及存储介质
US20130166352A1 (en) Mobile categorization
CN111294742B (zh) 基于信令cdr数据识别伴随手机号码的方法与系统
CN114741612B (zh) 一种基于大数据的消费习惯分类方法、系统和存储介质
CN112001829A (zh) 一种基于手机信令数据的人口分布判断方法
CN105376710A (zh) 一种景区实时统计游客数量的系统及方法
CN111479321B (zh) 一种网格构建方法、装置、电子设备和存储介质
CN105336155A (zh) 公交班次加派方法及系统
CN112738729A (zh) 一种用手机信令数据判别探亲返乡游客的方法及系统
CN112800348A (zh) 一种基于手机信令大数据的旅游行为识别方法
CN110012436B (zh) 用户位置确定方法、装置、设备及计算机可读存储介质
CN112165686B (zh) 基于手机信令数据的城市访客识别方法、装置、存储介质
CN113780880B (zh) 一种基于空间代表性的pm2.5观测站点布局评价方法
Dash et al. From Mobile Phone Data to Transport Network--Gaining Insight about Human Mobility
Batran et al. Urban travel time estimation in greater maputo using mobile phone big data
Tsumura et al. Examining potentials and practical constraints of mobile phone data for improving transport planning in developing countries
CN115129769A (zh) 一种居民出行调查扩样方法、装置及存储介质
CN117493981B (zh) 游客分类方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant