CN106570184A - 从手机信令数据提取游憩‑居住联系数据集的方法 - Google Patents

从手机信令数据提取游憩‑居住联系数据集的方法 Download PDF

Info

Publication number
CN106570184A
CN106570184A CN201610996968.3A CN201610996968A CN106570184A CN 106570184 A CN106570184 A CN 106570184A CN 201610996968 A CN201610996968 A CN 201610996968A CN 106570184 A CN106570184 A CN 106570184A
Authority
CN
China
Prior art keywords
base station
user
record
day
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610996968.3A
Other languages
English (en)
Other versions
CN106570184B (zh
Inventor
钮心毅
丁亮
宋小冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201610996968.3A priority Critical patent/CN106570184B/zh
Publication of CN106570184A publication Critical patent/CN106570184A/zh
Application granted granted Critical
Publication of CN106570184B publication Critical patent/CN106570184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

从手机信令数据提取游憩‑居住联系数据集的方法,包括:步骤(一)游憩活动识别,具体为:步骤11,使用工作日和休息日手机信令原始数据,根据每个用户的重复出现率,将用户分为本地活跃用户和外来地游客两类。步骤12,再次使用所有工作日和休息日手机信令原始数据,提取步骤11中识别到的本地活跃用户数据,从中提取每个本地活跃用户每天居住时间连接过的基站和工作日工作时间连接过的基站。步骤(二)居住活动识别。步骤(三)建立游憩‑居住联系数据集。等。有益效果:提高识别准确性。无需事先划定游憩活动目的地范围。识别结果在保留游憩活动有多个目的地,持续不同时长信息的基础上,有效减少数据量,并支持再加工。建立游憩‑居住联系。

Description

从手机信令数据提取游憩-居住联系数据集的方法
技术领域
本发明涉及手机信令大数据挖掘技术领域。
技术背景
一、手机信令数据简介
手机信令数据是指当手机用户触发信令事件(包括操作手机进行开关机、通话、收发短信,或携带手机移动位置使手机连接的基站发生改变等)时由运营商后台设备自动记录下来的数据。包括手机加密后的用户编号、手机连接基站的坐标、时间、信令事件类型等内容(见下表)。即使手机未被操作或移动,只要保持开机,也会每隔一段时间(一般为30min)与基站进行连接,即周期性位置更新(只有连续30min未触发其他信令事件才会触发周期性更新事件)。正常情况下,一个用户一天会产生约60条信令记录。
手机信令数据根据基站定位,城市内部基站密集,1个基站平均服务约9hm2,但受基站信号强度、负荷等因素影响,会导致:①用户并非连接到距离最近的基站,产生数百米误差;②即使用户未发生移动,也有可能在周边几个基站之间来回变更(称为漂移现象)。在城市整体层面该上述定位误差可以接受。
手机信令数据是运营商为监测基站负荷产生的副产品,但数据中包含“谁——什么时候——在什么地方”的时空位置信息是传统调查、统计方法很难得到的,应用价值逐渐突显。
表1手机信令数据样本
用户编号 基站经度 基站纬度 时间 事件类型
1 121.591xxx 31.217xxx 2015-11-15 15:14:24 1
1 121.591xxx 31.217xxx 2015-11-15 15:15:36 2
2 121.385xxx 31.166xxx 2015-11-15 06:13:59 2
2 121.385xxx 31.166xxx 2015-11-15 06:43:04 3
…… …… …… …… ……
注:原始匿名用户编号和事件类型已用1,2,3,……,n的唯一ID号代替;基站编号和经纬度末3位隐去,以“x”表示。
二、同类技术发展状况和问题
本发明所指的游憩活动是指外出购物、娱乐等非工作、居住、通勤活动。居住活动是指夜间睡觉、休息。
当前还没有从手机信令数据提取游憩——居住联系数据集的同类技术,也没有从手机信令数据识别用户游憩地的同类技术。
类似技术有从手机信令数据中识别用户的居住地、工作地、获取通勤出行OD矩阵、获取出行特征。这些类似技术不能用于识别手机用户的游憩地,不能用来提取游憩—居住联系数据集:
类似技术用于识别工作地、就业地时,是通过多日重复出现率、停留时长进行。由于游憩活动不是规律性的,每个个体可能每天都会去同一个地方居住和工作,但极少会每天都去同一个地方进行购物、娱乐等游憩活动。而且游憩过程中可能在不断移动,不能用停留时长判断游憩行为发生地。从手机信令数据中识别居住地、工作地的技术不能用于提取游憩—居住联系数据集。
发明内容
本发明要解决的技术问题是:
(1)仅使用手机信令数据,根据个体在游憩活动过程中的活动轨迹特征识别游憩活动。不需要事先划定游憩地范围。
(2)识别出游憩者,排除仅是途经此地的手机用户。同时能识别出游憩者的居住地。
(3)识别结果精确到基站,不需要使用其他空间单元。
为此,本发明给出的技术方案:
一种从手机信令数据提取游憩-居住联系数据集的方法,其特征在于,包括
步骤(一)、游憩活动识别,具体为:
步骤11,使用所有工作日和休息日手机信令原始数据,根据每个用户的重复出现率,将用户分为本地活跃用户和外来地游客两类。
步骤12,再次使用所有工作日和休息日手机信令原始数据,提取步骤11中识别到的本地活跃用户数据,从中提取每个本地活跃用户每天居住时间连接过的基站和工作日工作时间连接过的基站。
步骤13,使用需要识别游憩活动的某一休息日的手机信令原始数据,根据基站变更特征来删除漂移和重复记录。
步骤14,将休息日、正常游憩时间、在非本人居住地、工作地的某一小范围内、连续停留时间超过某一阈值的活动识别为游憩活动,排除途经行为,并标记用户类型。
遍历下一个休息日,重复步骤13和步骤14,直至识别完所有休息日;
步骤15,汇总以上每个休息日的识别结果。
步骤(二),居住活动识别,具体为:
步骤21,使用所有工作日和休息日手机信令原始数据,提取夜间5个特征时间点的用户位置。
步骤22,将正常睡觉时间、连续停留的地点识别为当晚居住地。
步骤23,将多个当晚居住地邻近的地点识别为居住地。
步骤(三),建立游憩-居住联系数据集:
按照用户编号,将步骤(二)处理获得的居住地识别结果附加到步骤(一)处理获得的游憩活动识别结果中,得到游憩-居住联系数据集,从而建立“游憩—居住联系数据集”,同时获得手机用户的游憩地(以基站位置代表)、居住地(以基站位置代表)。
基于以上技术方案,本发明技术的应用价值有以下3个方面:
(1)城市规划领域:明确哪些地区商业服务水平较差,缺少商业中心,为城市公共活动中心、城市商圈的规划布局和优化提供依据。
(2)商业领域:明确多个商业中心的影响和服务范围,即来商业中心购物的人从哪里来,为大型商业设施的选址提供依据。
(3)交通规划领域:明确不同地区的游憩活动的出行距离,为交通设施规划提供依据。
与现有技术相比,本发明有益效果:
现在不存在从手机信令数据提取游憩——居住联系数据集的同类技术。本发明具有以下4个优点:
(1)提高识别准确性。游憩活动识别结果排除了居住和就业活动,以及途经行为。
(2)无需事先划定游憩活动目的地范围。可以识别全部样本游憩活动行为。
(3)识别结果在保留游憩活动有多个目的地,持续不同时长信息的基础上,还能有效减少数据量,并支持再加工。
(4)建立了游憩-居住联系。能同时知道进行游憩活动的用户从哪来,居住在不同地区的用户去哪里游憩。
附图说明
图1为本发明方法整体流程示意图。
图2为本发明中识别游憩活动记录步骤的流程图。
图3为本发明中居住活动识别步骤的流程图。
具体实施方式
以下通过实施例对本发明技术方案做进一步介绍。
如图1所示:
一种从手机信令数据提取游憩-居住联系数据集的方法,其特征在于,包括
步骤(一)、游憩活动识别,具体为:
步骤11,根据重复出现率筛选本地活跃用户和外地游客:
使用所有工作日和休息日手机信令原始数据(全部的原始数据,例如一个月,包括所有的工作日和所有的休息日),根据每个用户的重复出现率,将用户分为本地活跃用户和外来地游客两类。
步骤12,提取本地活跃用户居住时间和工作时间连接过的基站:
再次使用所有工作日和休息日手机信令原始数据(全部的原始数据,例如一个月,包括所有的工作日和所有的休息日),提取步骤11中识别到的本地活跃用户数据,从中提取每个本地活跃用户每天居住时间连接过的基站和工作日工作时间连接过的基站。
步骤13,删除漂移和重复记录:
使用需要识别游憩活动的某一休息日的手机信令原始数据(例如一个月内某休息日),根据基站变更特征来删除漂移和重复记录。
步骤14,识别游憩活动记录:
使用步骤13得到的数据,将休息日、正常游憩时间、在非本人居住地、工作地(使用步骤12的结果判断)的某一小范围内、连续停留时间超过某一阈值的活动识别为游憩活动,排除途经行为,并标记用户类型(利用步骤11的结果标记)。
遍历下一个休息日,重复步骤13和步骤14,直至识别完所有休息日;
步骤15,汇总识别结果:
汇总以上每个休息日的识别结果。
步骤(二),居住活动识别,具体为:
步骤21,提取特征时间点用户位置:
使用所有工作日和休息日手机信令原始数据,提取夜间5个特征时间点的用户位置。
步骤22,识别当晚居住地:
使用步骤21的结果,将正常睡觉时间、连续停留的地点识别为当晚居住地。
步骤23,识别居住地:
使用步骤22的结果,将多个当晚居住地邻近的地点识别为居住地。
步骤(三),建立游憩-居住联系数据集:
按照用户编号,将步骤(二)处理获得的居住地识别结果附加到步骤(一)处理获得的游憩活动识别结果中,得到游憩-居住联系数据集,从而建立“游憩—居住联系数据集”,同时获得手机用户的游憩地(以基站位置代表)、居住地(以基站位置代表)。
其中:
所述的游憩活动识别:
因个体手机用户每一个休息日游憩活动都可能不同,所以游憩活动按天识别。若有6个休息日,则需要识别6天的游憩活动记录。先进行步骤(11)和步骤(12),再进行步骤(13)和步骤(14),步骤(13)和步骤(14)需要循环,并且会使用到步骤(11)和步骤(12)的结果。
具体步骤如下:
步骤(11)筛选本地活跃用户和外地游客:使用所有工作日和休息日手机信令原始数据,处理结果保存待用。
步骤(111)筛选本地活跃用户。筛选规则是判断是否在工作日重复出现60%及以上。如计算时间段共有10个工作日,将出现6天及以上的用户为本地活跃用户。
步骤(112)筛选外地游客。规则是从周一到周四都没有出现过,需要识别游憩活动的那个休息日出现过的用户中提取最后一条记录和第一条记录的时间差大于6小时、且在9点到21点之间有记录的用户。
步骤(12)提取本地活跃用户居住时间和工作时间连接过的基站:需要使用所有工作日和休息日手机信令原始数据,处理结果保存待用。根据步骤(11)识别到的本地活跃用户编号,从手机信令原始数据中提取这部分用户的记录,再按以下规则提取:
居住时间连接过的基站提取规则是提取每天22点至次日5点连接过的基站。
工作时间连接过的基站提取规则是提取工作日9点至17点连接过的基站。
步骤(13)删除漂移和重复记录:只需使用需要识别游憩活动的某一休息日的手机信令原始数据。
由于基站定位存在漂移现象,会影响停留时长计算结果,需要删除因漂移变更连接基站的记录。用户连续在一个基站触发信令事件会产生大量冗余记录,需要把这些记录删除。对需要识别游憩活动的休息日清晰数据。
规则是判断每个用户前一条记录和后一条记录连接的基站是否存在来回变更或重复。若以A、B、C表示基站,如果连续5条记录连接的基站为A-A-B-A-C,则说明先重复在A基站触发信令事件,然后连接的基站由A漂移到B再漂移回A,最后用户移动到C,保留第一次连接A基站的记录和连接C基站的记录(标记下划线的两条记录)。如果连续7条记录连接的基站为A-B-C-B-A-C-C,则说明连接的基站由A漂移到B再漂移到C,然后又由C漂移回B再到A,最后用户移动到C,并在C基站重复触发信令事件,保留第一次连接A基站的记录和第二次连接C基站的记录(标记下划线的两条记录)。
按以下步骤计算:
①按用户分组,按信令事件发生的时间由小到大排序信令记录,计算每个用户前后两条记录所连接基站的距离,将距离差附加到第一条记录的里面
②前后两条记录的距离差如果相同,只保留前一条记录
③把原数据中每个用户的最后一条记录加入②计算得到的数据里面(因为计算距离差时,原数据最后一条记录没有距离差可以计算)
④如果③的结果中前后两条记录的坐标相同只保留前一条记录
循环上述步骤,如果步骤②中前后两条记录距离差都不相同则循环停止,最终结果就是④的结果。如果仍然存在前后距离差相同的记录,则继续①-④的步骤,直至每个用户前后两条记录距离差没有相同,则终止循环。
如图2所示:
步骤(14)识别游憩活动记录:使用步骤(13)删除漂移和重复记录后的数据,再按以下步骤处理:
步骤(141)计算每个基站的停留时长。每个用户前后两条记录时间相减,得到每个基站的停留时长,该值附加到前一条记录。保留9点到21点之间的记录。
步骤(142)识别进行游憩活动的记录。使用上一步(141)的计算结果,若①规则一:用户在某个基站停留时长超过30min,且该条记录的事件类型不是关机,且该基站不是居住或工作时间连接过的基站(使用步骤(12)的结果判断),那么该基站就是用户的游憩地,该条记录就是游憩活动记录。或者②规则二:用户在连续几个基站停留时长总计超过30min,且这些基站两两之间距离小于1000m,任何一个基站上的信令事件类型都不是关机,且也不是居住或工作时间连接过的基站(使用步骤(12)的结果判断),这些基站就是用户的游憩地,这些记录就是游憩活动记录。
步骤(143)标记用户类型。使用步骤(11)的结果标记识别到游憩活动记录的用户是本地活跃用户还是外地游客。
重复步骤(13)和步骤(14),遍历完每个休息日。
步骤(15)汇总每个休息日的识别结果:
计算得到每个休息日的游憩活动记录。汇总后得到下表所示的结果。
表2游憩活动识别结果
注:原始匿名用户编号已用1,2,3,……,n的唯一ID号代替;基站编号和经纬度末3位隐去,以“x”表示。
所述的居住活动识别,如图3所示,具体步骤为:
(一)提取特征时间点用户位置
使用全部手机信令数据原始数据,按以下方法提取:
提取工作日0点用户位置:从某一工作日前一日20点到当天0点的记录中提取每个用户最后一条记录,连接的基站表示用户0点所在位置。
提取工作日1点用户位置:从某一工作日前一日20点到当天1点的记录中提取每个用户最后一条记录,连接的基站表示用户1点所在位置。
提取工作日2点用户位置:从某一工作日前一日20点到当天2点的记录中提取每个用户最后一条记录,连接的基站表示用户2点所在位置。
提取工作日3点用户位置:从某一工作日前一日20点到当天3点的记录中提取每个用户最后一条记录,连接的基站表示用户3点所在位置。
提取工作日4点用户位置:从某一工作日前一日20点到当天4点的记录中提取每个用户最后一条记录,连接的基站表示用户4点所在位置。
得到每个用户每个工作日夜间5个时间点的位置。
(二)识别当晚居住地
使用步骤(一)得到的结果,计算每天5个时间点所连接基站的相互之间距离。若某一用户某天至少有3个时间点(60%重复率)连接同一基站或附近1000m内的基站,就将该基站识别为该用户当晚的备选居住地。从备选居住地中选取相互之间距离小于1000m数量最多的基站。再在其中选取与其余基站距离和最小的基站作为该用户当晚居住地。
(三)识别居住地
使用步骤(二)得到的结果,计算每个工作日代表当晚居住地的基站的相互之间距离。若某一用户至少有60%的天数连接同一基站或附近1000m内的基站,就将该基站识别为该用户的备选居住地。从备选居住地中选取相互之间距离小于1000m数量最多的基站。再在其中选取与其余基站距离和最小的基站作为该用户的居住地。能识别到居住地的用户保留一条记录。
所述建立游憩-居住联系数据集,具体步骤为:
按照用户编号,将用户居住地识别结果附加到游憩活动识别结果中,活跃用户只保留能识别到居住地的记录;外地游客无居住地,保留所有记录。由此建立游憩-居住联系数据集,该数据集就是本发明技术方法所获取的成果。
表3游憩-居住联系数据集
注:原始匿名用户编号已用1,2,3,……,n的唯一ID号代替;基站编号和经纬度末3位隐去,以“x”表示。外地游客没有居住地,代表居住地的基站经纬度无数值。
本发明技术方案涉及以下参数:
(一)语义参数
(1)“手机信令数据”可由“手机定位数据”等词替代。
(2)“游憩地”可由游憩场所、休息地、休息日驻留地、活动地、消费场所、娱乐场所等词替代。
(3)“本地活跃用户”可由常住用户、本地用户、活跃用户、核心用户等词替代。
(4)“外地游客”可由外地人、流动人口、非本地人、外来游客等词替代。
(5)“游憩活动量”可由游憩活动规模等词替代。
(6)“居住地”可由夜间驻留地、夜间停留地、家等词替代。
(7)“游憩-居住联系”可由游憩-居住功能联系、游憩-居住OD等词替代。
(二)数值参数
(1)本地活跃用户识别设定“工作日”重复出现“60%”及以上。其中“工作日”可调整为所有记录天数,“60%”可调整为60%-100%之间的其他合适的数值。
(2)本地活跃用户居住时间连接过的基站设定“每天”“22点至第二天5点”连接过的基站。其中“每天”可调整为工作日,2点至第二天5点可调整为其他合适的夜间休息时间段。
(3)本地活跃用户工作时间连接过的基站设定“工作日”“9点至17点”连接过的基站。其中“工作日”可调整为每天,9点至17点可调整为其他合适的日间工作时间段。
(4)筛选外地游客。规则是从“周一到周四”都没有出现过,需要识别游憩活动的那个休息日出现过的用户中提取最后一条记录和第一条记录的时间差大于“6”小时、且在“9点到21点”之间有记录的用户。其中周一到周四可调整为任何非休息日时间段,6小时可调整为其他合适在本城市内停留时长,9点到21点可调整为其他合适游憩时间段。
(5)游憩活动记录在“9点到21点”之间的记录中识别,可调整为其他合适的游憩时间段。
(6)识别游憩活动停留时长“30min”,可调整为其他合适的时长。
(7)当游憩活动连接连续多个基站时,相互之间间距“1000m”可调整为其他合适的数值。
(8)居住地识别中5个特征时间点可调整为其他合适的数量,识别所取的时间段可调整为其他合适的时间段。
(9)居住地识别“60%”的重复率可调整为60%-100%之间的其他合适的数值。
综上,本发明有以下3个关键技术点:
(1)游憩活动识别步骤(三)中的删除漂移和重复记录的技术。该技术能有效减少数据冗余,消除漂移对停留时长计算的影响,是识别游憩活动识别必备的基础性技术工作。
(2)游憩活动识别步骤(四)中的识别游憩活动记录。该技术仅使用手机信令数据,完全根据游憩活动的规律识别游憩活动,不需要实现划定游憩活动目的地,也不需要使用其他空间单元辅助。识别结果能保留游憩活动不规律、不停移动、存在多个目的地的特征。
(3)居住活动识别步骤中的居住活动识别。该技术根据夜间5个特征时间点重复出现率识别手机用户的居住地,方法简单易操作。

Claims (8)

1.一种从手机信令数据提取游憩-居住联系数据集的方法,其特征在于,包括
步骤(一)、游憩活动识别,具体为:
步骤11,使用所有工作日和休息日手机信令原始数据,根据每个用户的重复出现率,将用户分为本地活跃用户和外地游客两类;
步骤12,再次使用所有工作日和休息日手机信令原始数据,提取步骤11中识别到的本地活跃用户数据,从中提取每个本地活跃用户每天居住时间连接过的基站和工作日工作时间连接过的基站;
步骤13,使用需要识别游憩活动的某一休息日的手机信令原始数据,根据基站变更特征来删除漂移和重复记录;
步骤14,将休息日、正常游憩时间、在非本人居住地、工作地的某一小范围内、连续停留时间超过某一阈值的活动识别为游憩活动,排除途经行为,并标记用户类型;
遍历下一个休息日,重复步骤13和步骤14,直至识别完所有休息日;
步骤15,汇总以上每个休息日的识别结果;
步骤(二),居住活动识别,具体为:
步骤21,使用所有工作日和休息日手机信令原始数据,提取夜间5个特征时间点的用户位置;
步骤22,将正常睡觉时间、连续停留的地点识别为当晚居住地;
步骤23,将多个当晚居住地邻近的地点识别为居住地;
步骤(三),建立游憩-居住联系数据集:
按照用户编号,将步骤(二)处理获得的居住地识别结果附加到步骤(一)处理获得的游憩活动识别结果中,得到游憩-居住联系数据集,从而建立“游憩—居住联系数据集”。
2.如权利要求1所述的方法,其特征在于,所述步骤(12)提取本地活跃用户居住时间和工作时间连接过的基站:根据步骤(11)识别到的本地活跃用户编号,从手机信令原始数据中提取这部分用户的记录,再按以下规则提取:
居住时间连接过的基站提取规则是提取每天22点至次日5点连接过的基站;
工作时间连接过的基站提取规则是提取工作日9点至17点连接过的基站。
3.如权利要求1所述的方法,其特征在于,步骤(13)删除漂移和重复记录:规则是判断每个用户前一条记录和后一条记录连接的基站是否存在来回变更或重复。
4.如权利要求3所述的方法,其特征在于,按以下步骤计算:
①按用户分组,按信令事件发生的时间由小到大排序信令记录,计算每个用户前后两条记录所连接基站的距离,将距离差附加到第一条记录的里面;
②前后两条记录的距离差如果相同,只保留前一条记录;
③把原数据中每个用户的最后一条记录加入②计算得到的数据里面(因为计算距离差时,原数据最后一条记录没有距离差可以计算);
④如果③的结果中前后两条记录的坐标相同只保留前一条记录;
循环上述步骤,如果步骤②中前后两条记录距离差都不相同则循环停止,最终结果就是④的结果;如果仍然存在前后距离差相同的记录,则继续①-④的步骤,直至每个用户前后两条记录距离差没有相同,则终止循环。
5.如权利要求1所述的方法,其特征在于,步骤(14)识别游憩活动记录:使用步骤(13)删除漂移和重复记录后的数据,再按以下步骤处理:
步骤(141)计算每个基站的停留时长:每个用户前后两条记录时间相减,得到每个基站的停留时长,该值附加到前一条记录,保留9点到21点之间的记录;
步骤(142)识别进行游憩活动的记录:使用上一步(141)的计算结果,若①规则一:用户在某个基站停留时长超过30min,且该条记录的事件类型不是关机,且该基站不是居住或工作时间连接过的基站,那么该基站就是用户的游憩地,该条记录就是游憩活动记录;或者②规则二:用户在连续几个基站停留时长总计超过30min,且这些基站两两之间距离小于1000m,任何一个基站上的信令事件类型都不是关机,且也不是居住或工作时间连接过的基站,这些基站就是用户的游憩地,这些记录就是游憩活动记录;
步骤(143)标记用户类型:使用步骤(11)的结果标记识别到游憩活动记录的用户是本地活跃用户还是外地游客;
重复步骤(13)和步骤(14),遍历完每个休息日。
6.如权利要求1所述的方法,其特征在于,步骤21,所述提取特征时间点用户位置,按以下方法提取:
提取工作日0点用户位置:从某一工作日前一日20点到当天0点的记录中提取每个用户最后一条记录,连接的基站表示用户0点所在位置;
提取工作日1点用户位置:从某一工作日前一日20点到当天1点的记录中提取每个用户最后一条记录,连接的基站表示用户1点所在位置;
提取工作日2点用户位置:从某一工作日前一日20点到当天2点的记录中提取每个用户最后一条记录,连接的基站表示用户2点所在位置;
提取工作日3点用户位置:从某一工作日前一日20点到当天3点的记录中提取每个用户最后一条记录,连接的基站表示用户3点所在位置;
提取工作日4点用户位置:从某一工作日前一日20点到当天4点的记录中提取每个用户最后一条记录,连接的基站表示用户4点所在位置;
得到每个用户每个工作日夜间5个时间点的位置。
7.如权利要求1所述的方法,其特征在于,步骤22,所述识别当晚居住地:使用步骤(21)得到的结果,计算每天5个时间点所连接基站的相互之间距离;
若某一用户某天至少有3个时间点(60%重复率)连接同一基站或附近1000m内的基站,就将该基站识别为该用户当晚的备选居住地;从备选居住地中选取相互之间距离小于1000m数量最多的基站;再在其中选取与其余基站距离和最小的基站作为该用户当晚居住地。
8.如权利要求1所述的方法,其特征在于,步骤23,识别居住地:使用步骤(22)得到的结果,计算每个工作日代表当晚居住地的基站的相互之间距离;若某一用户至少有60%的天数连接同一基站或附近1000m内的基站,就将该基站识别为该用户的备选居住地;从备选居住地中选取相互之间距离小于1000m数量最多的基站;再在其中选取与其余基站距离和最小的基站作为该用户的居住地。
CN201610996968.3A 2016-11-11 2016-11-11 从手机信令数据提取游憩-居住联系数据集的方法 Active CN106570184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610996968.3A CN106570184B (zh) 2016-11-11 2016-11-11 从手机信令数据提取游憩-居住联系数据集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610996968.3A CN106570184B (zh) 2016-11-11 2016-11-11 从手机信令数据提取游憩-居住联系数据集的方法

Publications (2)

Publication Number Publication Date
CN106570184A true CN106570184A (zh) 2017-04-19
CN106570184B CN106570184B (zh) 2020-08-14

Family

ID=58542529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610996968.3A Active CN106570184B (zh) 2016-11-11 2016-11-11 从手机信令数据提取游憩-居住联系数据集的方法

Country Status (1)

Country Link
CN (1) CN106570184B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133318A (zh) * 2017-05-03 2017-09-05 北京市交通信息中心 一种基于手机信令数据的人口识别方法
CN108495254A (zh) * 2018-03-06 2018-09-04 东南大学 一种基于信令数据的交通小区人口特征估计方法
CN109743723A (zh) * 2019-01-28 2019-05-10 同济大学 一种将手机基站数据分配到周边空间单元的方法
CN110032609A (zh) * 2019-02-28 2019-07-19 东南大学 一种基于定位数据的生活圈识别方法
CN110135679A (zh) * 2019-04-01 2019-08-16 同济大学 一种基于手机信令数据生活中心空间绩效的评估方法
CN110472775A (zh) * 2019-07-26 2019-11-19 广州大学 一种系列案件疑犯落脚点预测方法
CN111417075A (zh) * 2018-12-18 2020-07-14 北京融信数联科技有限公司 一种基于移动通信大数据的用户工作地识别方法
CN112001829A (zh) * 2020-08-14 2020-11-27 青岛市城市规划设计研究院 一种基于手机信令数据的人口分布判断方法
CN112165686A (zh) * 2020-08-27 2021-01-01 同济大学 基于手机信令数据的城市访客识别方法、装置、存储介质
CN112561759A (zh) * 2020-01-02 2021-03-26 北京融信数联科技有限公司 一种基于移动信令大数据的毕业生去向动态监测方法
CN112800348A (zh) * 2021-01-26 2021-05-14 浙江旅游职业学院 一种基于手机信令大数据的旅游行为识别方法
CN113079463A (zh) * 2021-03-31 2021-07-06 上海晨擎信息科技有限公司 一种基于手机信令数据的旅游景点游客出行活动识别方法
CN113543052A (zh) * 2021-07-20 2021-10-22 中国民航科学技术研究院 一种基于手机信令数据城市群交通联系强度的测度方法
CN113923602A (zh) * 2020-07-10 2022-01-11 中国移动通信集团浙江有限公司 信令漂移数据的过滤方法及装置
CN114501420A (zh) * 2022-03-06 2022-05-13 北京工业大学 一种利用手机信令数据识别家庭关系的方法
CN117336683A (zh) * 2023-12-01 2024-01-02 北京航空航天大学 基于信令数据的大规模人员典型停留地识别方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040036622A1 (en) * 2000-12-15 2004-02-26 Semyon Dukach Apparatuses, methods, and computer programs for displaying information on signs
CN102136192A (zh) * 2011-01-31 2011-07-27 上海美慧软件有限公司 一种基于手机信号数据的出行方式识别方法
CN102609616A (zh) * 2012-01-29 2012-07-25 上海美慧软件有限公司 一种基于手机定位数据的动态人口分布密度检测方法
CN102607553A (zh) * 2012-03-06 2012-07-25 北京建筑工程学院 一种基于出行轨迹数据的行程识别方法
CN102629297A (zh) * 2012-03-06 2012-08-08 北京建筑工程学院 一种基于行程识别的出行者活动规律分析方法
CN104484993A (zh) * 2014-11-27 2015-04-01 北京交通大学 用于交通小区划分的手机信令信息的处理方法
CN105142106A (zh) * 2015-07-29 2015-12-09 西南交通大学 基于手机信令数据的出行者职住地识别与出行链刻画方法
CN105608890A (zh) * 2015-09-08 2016-05-25 上海美慧软件有限公司 一种基于手机信号数据的人员出行参数统计方法
CN105761190A (zh) * 2016-02-01 2016-07-13 东南大学 一种基于手机定位数据的城市居住区空置率动态监测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040036622A1 (en) * 2000-12-15 2004-02-26 Semyon Dukach Apparatuses, methods, and computer programs for displaying information on signs
CN102136192A (zh) * 2011-01-31 2011-07-27 上海美慧软件有限公司 一种基于手机信号数据的出行方式识别方法
CN102609616A (zh) * 2012-01-29 2012-07-25 上海美慧软件有限公司 一种基于手机定位数据的动态人口分布密度检测方法
CN102607553A (zh) * 2012-03-06 2012-07-25 北京建筑工程学院 一种基于出行轨迹数据的行程识别方法
CN102629297A (zh) * 2012-03-06 2012-08-08 北京建筑工程学院 一种基于行程识别的出行者活动规律分析方法
CN104484993A (zh) * 2014-11-27 2015-04-01 北京交通大学 用于交通小区划分的手机信令信息的处理方法
CN105142106A (zh) * 2015-07-29 2015-12-09 西南交通大学 基于手机信令数据的出行者职住地识别与出行链刻画方法
CN105608890A (zh) * 2015-09-08 2016-05-25 上海美慧软件有限公司 一种基于手机信号数据的人员出行参数统计方法
CN105761190A (zh) * 2016-02-01 2016-07-13 东南大学 一种基于手机定位数据的城市居住区空置率动态监测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
S.S. WANG 等: ""Mobile positioning technologies and location services"", 《 PROCEEDINGS RAWCON 2002. 2002 IEEE RADIO AND WIRELESS CONFERENCE (CAT. NO.02EX573)》 *
丁亮等: ""上海中心城就业中心体系测度——基于手机信令数据的研究"", 《地理学报》 *
方家 等: ""上海顾村公园樱花节大客流特征及预警研究——基于手机信令数据的探索"", 《城市规划》 *
钮心毅: ""基于手机数据识别上海中心城的城市空间结构"", 《城市规划学刊》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133318A (zh) * 2017-05-03 2017-09-05 北京市交通信息中心 一种基于手机信令数据的人口识别方法
CN107133318B (zh) * 2017-05-03 2021-06-15 北京市交通信息中心 一种基于手机信令数据的人口识别方法
CN108495254B (zh) * 2018-03-06 2020-04-24 东南大学 一种基于信令数据的交通小区人口特征估计方法
CN108495254A (zh) * 2018-03-06 2018-09-04 东南大学 一种基于信令数据的交通小区人口特征估计方法
CN111417075A (zh) * 2018-12-18 2020-07-14 北京融信数联科技有限公司 一种基于移动通信大数据的用户工作地识别方法
CN111417075B (zh) * 2018-12-18 2023-06-06 北京融信数联科技有限公司 一种基于移动通信大数据的用户工作地识别方法
CN109743723A (zh) * 2019-01-28 2019-05-10 同济大学 一种将手机基站数据分配到周边空间单元的方法
CN109743723B (zh) * 2019-01-28 2021-07-06 同济大学 一种将手机基站数据分配到周边空间单元的方法
CN110032609A (zh) * 2019-02-28 2019-07-19 东南大学 一种基于定位数据的生活圈识别方法
CN110135679A (zh) * 2019-04-01 2019-08-16 同济大学 一种基于手机信令数据生活中心空间绩效的评估方法
CN110472775A (zh) * 2019-07-26 2019-11-19 广州大学 一种系列案件疑犯落脚点预测方法
CN112561759B (zh) * 2020-01-02 2023-08-04 北京融信数联科技有限公司 一种基于移动信令大数据的毕业生去向动态监测方法
CN112561759A (zh) * 2020-01-02 2021-03-26 北京融信数联科技有限公司 一种基于移动信令大数据的毕业生去向动态监测方法
CN113923602B (zh) * 2020-07-10 2023-09-19 中国移动通信集团浙江有限公司 信令漂移数据的过滤方法及装置
CN113923602A (zh) * 2020-07-10 2022-01-11 中国移动通信集团浙江有限公司 信令漂移数据的过滤方法及装置
CN112001829A (zh) * 2020-08-14 2020-11-27 青岛市城市规划设计研究院 一种基于手机信令数据的人口分布判断方法
CN112001829B (zh) * 2020-08-14 2024-03-12 青岛市城市规划设计研究院 一种基于手机信令数据的人口分布判断方法
CN112165686A (zh) * 2020-08-27 2021-01-01 同济大学 基于手机信令数据的城市访客识别方法、装置、存储介质
CN112165686B (zh) * 2020-08-27 2021-09-03 同济大学 基于手机信令数据的城市访客识别方法、装置、存储介质
CN112800348B (zh) * 2021-01-26 2022-03-25 浙江旅游职业学院 一种基于手机信令大数据的旅游行为识别方法
CN112800348A (zh) * 2021-01-26 2021-05-14 浙江旅游职业学院 一种基于手机信令大数据的旅游行为识别方法
CN113079463A (zh) * 2021-03-31 2021-07-06 上海晨擎信息科技有限公司 一种基于手机信令数据的旅游景点游客出行活动识别方法
CN113543052B (zh) * 2021-07-20 2022-04-29 中国民航科学技术研究院 一种基于手机信令数据城市群交通联系强度的测度方法
CN113543052A (zh) * 2021-07-20 2021-10-22 中国民航科学技术研究院 一种基于手机信令数据城市群交通联系强度的测度方法
CN114501420A (zh) * 2022-03-06 2022-05-13 北京工业大学 一种利用手机信令数据识别家庭关系的方法
CN117336683A (zh) * 2023-12-01 2024-01-02 北京航空航天大学 基于信令数据的大规模人员典型停留地识别方法及系统
CN117336683B (zh) * 2023-12-01 2024-02-13 北京航空航天大学 基于信令数据的大规模人员典型停留地识别方法及系统

Also Published As

Publication number Publication date
CN106570184B (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN106570184A (zh) 从手机信令数据提取游憩‑居住联系数据集的方法
Jiang et al. Activity-based human mobility patterns inferred from mobile phone data: A case study of Singapore
CN105354196B (zh) 信息推送方法和信息推送装置
CN113891252B (zh) 基于手机信令数据的轨道客流全程od提取方法及系统
CN103942229B (zh) 目的地预测设备和方法
EP3335209B1 (en) Method and system for computing an o-d matrix obtained through radio mobile network data
CN1044957C (zh) 内部地址寄存器更新的方法
CN111464950B (zh) 一种使用手机信令数据提取出行停驻点的方法
CN105142106A (zh) 基于手机信令数据的出行者职住地识别与出行链刻画方法
Qin et al. Applying big data analytics to monitor tourist flow for the scenic area operation management
CN105513351A (zh) 一种基于大数据的交通出行特征数据提取方法
CN104484993A (zh) 用于交通小区划分的手机信令信息的处理方法
CN105677793A (zh) 地点数据库的建立和候选乘车地点的推荐方法及装置
CN108961134B (zh) 基于手机信令数据的机场旅客出行od识别方法
Zhao et al. Estimating wildfire evacuation decision and departure timing using large-scale GPS data
CN107529135A (zh) 基于智能设备数据的用户活动类型判别方法
Demissie et al. Inferring origin-destination flows using mobile phone data: A case study of Senegal
CN111429220A (zh) 基于运营商大数据的旅游路线推荐系统及方法
CN105376710A (zh) 一种景区实时统计游客数量的系统及方法
CN107908636A (zh) 一种利用社交媒体挖掘人类活动时空模式的方法
CN107835486A (zh) 交通出行量计算方法及装置
CN104282142A (zh) 一种基于出租车gps数据的公交站台设置方法
CN116450958A (zh) 检测点选址方法、装置、电子设备及可读存储介质
CN116233823A (zh) 一种跨城通勤圈的识别方法、电子设备及存储介质
CN105844031A (zh) 一种基于手机定位数据的城市交通廊道识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant