CN112312303B - 一种基于时空特性的手机信令数据精细化预处理方法 - Google Patents
一种基于时空特性的手机信令数据精细化预处理方法 Download PDFInfo
- Publication number
- CN112312303B CN112312303B CN202011050867.XA CN202011050867A CN112312303B CN 112312303 B CN112312303 B CN 112312303B CN 202011050867 A CN202011050867 A CN 202011050867A CN 112312303 B CN112312303 B CN 112312303B
- Authority
- CN
- China
- Prior art keywords
- time
- base station
- data
- record
- mobile phone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/20—Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于时空特性的手机信令数据精细化预处理方法,包括以下步骤:(1)原始手机信令数据与研究区域基站信息匹配;(2)错误基站信息识别与反馈;(3)同一空间位置信令数据合并;(4)漂移数据轨迹降噪处理;(5)全类型乒乓数据优化处理。针对手机信令数据精度低、数据量大、噪声数据多、时空位置复杂等特点,本发明对手机信令数据预处理过程中的每一步骤赋予更加精细化的方法,不仅能够为研究城市职住空间分布、交通规划等领域提供精确的数据支撑,也为通信运营商维护其基站位置信息提供实时有效反馈,降低运营成本。
Description
技术领域
本发明属于交通大数据技术领域,涉及一种基于时空特性的手机信令数据精细化预处理方法。
背景技术
在大数据时代,手机作为便利人与人沟通的工具,持有量一直呈爆发式地增长,尤其是随着数据通信与多媒体业务需求的发展,适应移动数据、移动计算及移动多媒体运作需要的第四代移动通信(4G)开始兴起后,彻底改变了人们的生活方式。手机用户频繁的通话、短信以及主被动上网行为使得手机信令数据的数据激增,以苏州为例,苏州市范围内一天产生约20亿条记录的4G信令数据。
手机信令数据完整地包含了时间、经度和纬度信息,可以刻画对应手机用户一天的出行行为,特别是4G技术使得手机数据的质量有了大幅提升,手机数据的全时空覆盖特性更为明显。如果通过挖掘整个城市手机用户的交通出行信息,就可以得到对应城市的人口密度、居民出行及职住空间分布等信息,这将有助于在现代复杂交通网络下研究城市建设、交通规划、路网监测等领域。
但是,手机信令数据的噪声数据较多,主要存在错误基站数据,漂移数据、乒乓数据等特有的噪声数据。错误基站数据是指通信运营商在对基站的运营维护过程中,由于工作人员可能存在的一系列疏忽,导致基站经纬度数据与实际基站的位置不符,这会大大增加后续通信运营商的运维成本。目前的研究中还没有考虑如何处理错误基站数据的情况。漂移数据是用户从临近基站切换至远处基站后,又切换回临近基站的信令数据。乒乓数据是指用户所处位置可能在多个基站的覆盖范围内,手机信号在两个或多个基站间来回切换。在处理乒乓数据时由于在两个基站来回切换的乒乓数据情况较多且处理逻辑简单,很少有研究探讨在多个基站来回切换时的乒乓数据处理方法。因此,对手机信令数据的预处理需要更精细化的方法。
发明内容
技术问题:为了克服上述现有研究的不足,本发明提供了一种基于时空特性的手机信令数据精细化预处理方法。将原始手机信令数据与研究区域基站信息进行匹配,考虑错误基站信息的干扰,识别出潜在错误基站,对同位置的手机信令数据进行合并,基于时空特征对漂移数据进行处理,利用前缀和与差分的优化算法对在多个基站来回切换时的全类型乒乓数据进行处理。不仅能有效提高对手机信令数据预处理的效率,同时能够反馈把潜在的错误基站信息反馈给通信运营商,降低其运营成本。
技术方案:本发明提供一种基于时空特性的手机信令数据精细化预处理方法,该方法包括以下步骤:
(1)原始手机信令数据与研究区域基站信息匹配;
(2)潜在错误基站信息识别与反馈;
(3)同位置信令数据合并;
(4)漂移数据轨迹降噪处理;
(5)全类型乒乓数据优化处理;
其中,所述的手机信令数据包括:
1)日期date:手机信令数据产生的日期;
2)记录编号id:唯一标识每一条信令数据;
3)用户编号msisdn:唯一标识每一位用户;
4)基站小区编号tac:基站所属小区的编号;
5)基站扇区编号cell:基站所属小区内扇区的编号;
6)开始时间begin_time:用户连接基站的开始时间;
7)结束时间end_time:用户连接基站的结束时间。
所述的基站信息数据包括:
1)基站小区编号tac:基站所属小区的编号;
2)基站扇区编号cell:基站所属小区内扇区的编号;
3)经度lng:基站位置的经度;
4)纬度lat:基站位置的纬度。
进一步的,本发明方法中,步骤(1)具体实施方式为:
为了利用时空特征对手机信令数据进行预处理,需要根据基站所在小区编号tac和扇区编号cell两列匹配每一条手机信令数据中基站所在的经纬度。而在后续预处理过程中,需要频繁使用上述两列进行索引,同时,经纬度匹配上后用户经纬基站的精确坐标就会暴露。考虑到提高匹配效率和保护用户隐私,本发明利用GeoHash算法,将一个经纬度信息,转换成一个可以排序和比较的字符串编码。
过程1:使用GeoHash算法对基站信息数据中每一个基站的经纬进行编码,生成新的字段base,作为基站编码;
过程2:利用基站所在小区编号tac和扇区编号cell两个字段,为手机信令数据匹配上述过程1中新生成的基站编码base和经纬度信息;
过程3:利用开始时间begin_time和结束时间end_time,时间格式统一转换为unix时间戳格式,通过结束时间end_time减去开始时间begin_time,计算得到逗留时间stay_time;
过程4:删除逗留时间stay_time为0和未匹配上基站经纬度信息的数据;
过程5:按每个用户(msisdn)分组,根据开始时间begin_time进行升序排列,利用每一条记录的经度lng和纬度lat,计算与其下一条记录的基站距离distance,并由得到的距离 distance除以该条记录的逗留时间stay_time,最终得到该条记录的速度speed。
进一步的,本发明方法中,步骤(2)具体实施方式为:
通过遍历用户的手机信令数据,得到用户轨迹基站的时空关系,从中可识别潜在的错误基站。
过程1:按每个用户(msisdn)分组,根据开始时间begin_time进行升序排列,初始化 i=1;
过程2:分别计算第i条记录与第i+1条记录中两个基站的距离为d1,2,第i+1条记录与第i+2条记录中两个基站的距离为d2,3,第i+1条记录与第i+3条记录中两个基站的距离为d2,4,判断d1,2,d2,3和d2,4是否全部大于设定的距离阈值△d1:如果满足,则进入过程3;反之,i=i+1,返回过程2;
过程3:计算第i条记录和第i+2条记录中两个基站的距离d1,3,判断d1,3是否小于设定的距离阈值△d1,且第i条记录的速度Speedi大于设定的速度阈值△speed:如果满足,则进入过程4;反之,i=i+1,返回过程2;
过程4:将第i条记录的结束时间end_time赋值为第i+1条记录的结束时间end_time,输出第i+1条记录的基站信息为潜在经纬度错误的基站,并删除第i+1条记录,i=i+1,返回过程2;
过程5:当遍历完所有数据记录后,结束循环。
进一步的,本发明方法中,步骤(3)具体实施方式为:
过程1:按每个用户msisdn分组,根据开始时间begin_time进行升序排列,计算与上一条的结束时间等于下一条的开始时间的时间间隔,且如果当前一行数据的基站与下一条数据的基站相同,则标记该行flag为1,否则为0;
过程2:当上下两条基站相同,且与上一条的结束时间等于下一条的开始时间的时间间隔小于6小时,更新上一条的结束时间为下一条时间的开始时间,使上下两条数据时间连续;
过程3:按用户和基站分组,根据开始时间begin_time进行升序排列,计算同一用户同一基站的时间间隔,如果为0,标记flag为1,下一条数据flag为-1;
过程4:筛选出flag为-1和1的数据,根据记录编号id与原始手机数据合并,计算flag 列的累计和,flag列为0的数据为去除相同基站且时间连续的数据;
过程5:筛选出flag列为0的数据,并删去;
过程6:将同用户的第i条记录的结束时间end_time赋值为第i+1条记录的开始时间 start_time,重新计算每一条记录的逗留时间stay_time,即每一条记录结束时间end_time减去开始时间begin_time。
进一步的,本发明方法中,步骤(4)具体实施方式为:
过程1:按每个用户msisdn分组,根据开始时间begin_time进行升序排列,初始化i=1,取第i条记录为当前记录,并向后提取N(至少为3)条记录;
过程2:对这N+1条信令数据的经纬度坐标取平均值,计算得到N+1条数据记录经纬度的中心点Oi;
过程3:设定距离阈值△d2,以上述中心点Oi,半径为△d2画圆,判断该N+1个点是否均在此圆范围内,如满足,则进入过程4;如有任意一点不满此范围,则i=i+1,返回过程2;
过程4:生成新记录:保留这N+1条信令数据中逗留时间stay_time最长的基站信息,开始时间begin_time为第i条数据的开始时间,结束时间end_time为第N+i条记录的结束时间,重新计算逗留时间stay_time,删除第N+1条记录。新生成的记录作为第i条记录,i=i+1,返回过程2;
过程5:遍历全部记录后,结束循环。
进一步的,本发明方法中,步骤(5)具体实施方式为:
利用前缀和与差分算法优化思想,识别并去除在多个基站来回切换的乒乓数据。
过程1:设定时间阈值△time,筛选出逗留时间stay_time大于△time的基站;
过程2:按用户msisdn、基站base分组,计算同一用户同一基站的时间间隔;
过程3:设置flag字段全部为0;如果时间间隔小于△time,flag加一,下一条数据flag减一;
过程4:筛选出flag为-1和1的数据,按记录编号id与未筛选前的数据进行匹配,计算flag列的累计和,累计和为0的列为去除乒乓数据后的数据;
过程5:筛选出flag列为0的数据,并删去;
过程6:将同用户的第i条记录的结束时间end_time赋值为第i+1条记录的开始时间 start_time,重新计算每一条记录的逗留时间stay_time,即每一条记录结束时间end_time 减去开始时间begin_time。
有益效果:本发明与现有技术相比,具有以下优点:
(1)在把原始手机信令数据与研究区域基站信息进行匹配时,利用Geohash算法对基站位置信息进行编码,不仅提高了匹配的效率,也可以保障后续用户的位置隐私;(2) 考虑错误基站信息的干扰,识别出潜在错误基站,通信运营商维护其基站位置信息提供实时有效反馈,降低运维成本;(3)利用前缀和与差分的优化算法对乒乓数据进行处理,算法在处理时无需进行循环,不仅提高了运行效率,也能够处理在多个基站来回切换时的乒乓数据。(4)易维护和调试,针对不同的数据场景可以较快的调试出适用当前数据的版本。(5)本方法与其他发明相比,涉及到的阈值数量相对较少,鲁棒性好。(6) 将信令数据中的漂移现象和乒乓现象均纳入考虑,使得对错误信令记录的清理具有更好的效果。(7)本方法将复杂的乒乓现象简单化,使得算法能够清理多地点的反复乒乓数据等复杂的信令乒乓现象。针对手机信令数据精度低、数据量大、噪声数据多、时空位置复杂等特点,本发明对手机信令数据预处理过程中的每一步骤赋予更加精细化的方法。
附图说明
图1为本发明的方法流程示意图。
图2为步骤(1)处理结果示意图。
图3为步骤(2)处理结果示意图。
图4为步骤(4)处理结果示意图。
图5为步骤(5)处理结果示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
步骤(1):原始手机信令数据与研究区域基站信息匹配。
过程1:利用GeoHash算法处理基站经纬度(字段lat,lng)信息,得到新的字段base,,作为基站编码,结果如表1所示。
表1 Geohash算法处理后的基站信息示意表
Index | Tac | Cell | Lat | Lng | Base |
1 | 1 | 3211 | 121.0299 | 31.25110388 | wtw46c346dbf |
2 | 1 | 3212 | 121.0285 | 31.25099501 | wtw42rx088pt |
过程2:利用基站所在小区编号tac和扇区编号cell两个字段,为手机信令数据匹配上述过程1中新生成的基站编码base和经纬度信息,得到处理后的信令表结果如表2所示。
表2处理后的信令表示意表
Msisdn | Tac | Cell | Lat | Lng | Base | Begin time | End time |
133****7541 | 1 | 3211 | 121.0299 | 31.25110388 | wtw46c346dbf | 15:10:35 | 15:12:41 |
133****7541 | 1 | 3212 | 121.0285 | 31.25099501 | wtw42rx088pt | 15:15:30 | 15:18:10 |
过程3:利用开始时间begin_time和结束时间end_time,时间格式统一转换为unix时间戳格式,通过结束时间end_time减去开始时间begin_time,计算得到逗留时间stay_time;
过程4:删除逗留时间stay_time为0和未匹配上基站经纬度信息的数据;
过程5:按每个用户(msisdn)分组,根据开始时间begin_time进行升序排列,利用每一条记录的经度lng和纬度lat,计算与其下一条记录的基站距离distance,并由得到的距离 distance除以该条记录的逗留时间stay_time,最终得到该条记录的速度speed。
图2给出了步骤(1)处理结果示意图(图中数字为信令记录出现的顺序,下同)。图2展示了用户的信令数据经过本方法步骤(1)处理之后的结果。在本图中,每一个不规则的多边形用来近似代替基站的覆盖范围,横线填充的多边形表明该用户经过了这个基站,基站按照用户的出行轨迹进行了编号,两个基站之间的箭头表示用户的出行方向。从图中可以看出,该用户经过1→2→3的基站序列,进入了4→5→6→7的基站序列区域,其中,用户在该区域存在往返移动的现象,我们称之为乒乓现象;特别的,用户在5→6的基站移动序列,由于距离远,行程时间短,我们称之为漂移现象;最后,用户经过基站序列7→8到达本次出行的终点。
步骤(2):潜在错误基站信息识别与反馈。
过程1:按每个用户(msisdn)分组,根据开始时间begin_time进行升序排列,初始化 i=1;
过程2:分别计算第i条记录与第i+1条记录中两个基站的距离为d1,2,第i+1条记录与第i+2条记录中两个基站的距离为d2,3,第i+1条记录与第i+3条记录中两个基站的距离为d2,4,判断d1,2,d2,3和d2,4是否全部大于设定的距离阈值△d1:如果满足,则进入过程3;反之,i=i+1,返回过程2;在本案例中,距离阈值△d1设为3km;
过程3:计算第i条记录和第i+2条记录中两个基站的距离d1,3,判断d1,3是否小于设定的距离阈值△d1,且第i条记录的速度Speedi大于设定的速度阈值△speed:如果满足,则进入过程4;反之,i=i+1,返回过程2;在本案例中,速度阈值△speed设为120km/h。
过程4:第i条记录的结束时间end_time等于第i+1条记录的结束时间end_time,输出第i+1条记录的基站信息为潜在经纬度错误的基站,并删除第i+1条记录,反之,i=i+1,返回过程2;
过程5:当遍历完所有数据记录后,结束循环。
图3给出了步骤(2)处理结果示意图。图3展示了用户的信令数据经过本方法步骤2处理之后的结果。在本图中,网格填充的多边形是步骤(2)判断为错误数据的基站位置,用户的5→6的基站移动序列称之为数据漂移现象。经过步骤(2)的处理,去除了漂移现象,该用户的基站出行序列变化为:1→2→3→4→5→7→8。
步骤(3):同位置信令数据合并。
过程1:按每个用户msisdn分组,根据开始时间begin_time进行升序排列,计算与上一条的结束时间等于下一条的开始时间的时间间隔,且如果当前一行数据的基站与下一条数据的基站相同,则标记该行flag为1,否则为0;
过程2:当上下两条基站相同,且与上一条的结束时间等于下一条的开始时间的时间间隔小于6小时,更新上一条的结束时间为下一条时间的开始时间,使上下两条数据时间连续;
过程3:按用户和基站分组,根据开始时间begin_time进行升序排列,计算同一用户同一基站的时间间隔,如果为0,标记flag为1,下一条数据flag为-1;
过程4:筛选出flag为-1和1的数据,根据记录编号id与原始手机数据合并,计算flag 列的累计和,flag列为0的数据为去除相同基站且时间连续的数据;
过程5:筛选出flag列为0的数据,并删去;
过程6:将同用户的第i条记录的结束时间end_time赋值为第i+1条记录的开始时间 start_time,重新计算每一条记录的逗留时间stay_time,即每一条记录结束时间end_time减去开始时间begin_time。
步骤(4):漂移数据轨迹降噪处理;
过程1:按每个用户msisdn分组,根据开始时间begin_time进行升序排列,初始化i=1,取第i条记录为当前记录,并向后提取N(至少为3)条记录;
过程2:对这N+1条信令数据的经纬度坐标取平均值,计算得到N+1条数据记录经纬度的中心点Oi;
过程3:设定距离阈值△d2,以上述中心点Oi,半径为△d2画圆,判断该N+1个点是否均在此圆范围内,如满足,则进入过程4;如有任意一点不满此范围,则i=i+1,返回过程2;在本案例中,距离阈值△d2设为0.8km;
过程4:生成新记录:保留这N+1条信令数据中逗留时间stay_time最长的基站信息,开始时间begin_time为第i条数据的开始时间,结束时间end_time为第N+i条记录的结束时间,重新计算逗留时间stay_time,删除第N+1条记录。新生成的记录作为第i条记录,i=i+1,返回过程2;
过程5:遍历全部记录后,结束循环。
图4给出了步骤(4)处理结果示意图。图4展示了用户的信令数据经过本方法步骤4处理之后的结果。与图3相比,在图4所展示的用户出行轨迹中,用户在6号基站的停留时间被合并到了5号基站。
步骤(5):利用前缀和与差分算法优化思想,识别并去除在多个基站来回切换的乒乓数据。
过程1:设定时间阈值△time,筛选出逗留时间stay_time大于△time的基站;
过程2:按用户msisdn、基站base分组,计算同一用户同一基站的时间间隔;
过程3:设置flag字段全部为0;如果时间间隔小于△time,flag加一,下一条数据flag减一;
过程4:筛选出flag为-1和1的数据,按记录编号id与未筛选前的数据进行匹配,
计算flag列的累计和,累计和为0的列为去除乒乓数据后的数据;
过程5:筛选出flag列为0的数据,并删去;
过程6:将同用户的第i条记录的结束时间end_time赋值为第i+1条记录的开始时间 start_time,重新计算每一条记录的逗留时间stay_time,即每一条记录结束时间end_time 减去开始时间begin_time。
在本案例中,时间阈值△time设为15min。图5给出了步骤(5)处理结果示意图。
图5展示了用户的信令数据经过本方法步骤(5)处理之后的结果。在本图中,虚线绘制的圆所框起来的区域代表乒乓现象涉及的区域。经过步骤(5)处理之后,乒乓现象区域(对应图4中基站4,5,7)被合并到4号基站,作为用户在该区域的真实停留位置。经过步骤5的处理,去除了乒乓数据现象,最终将该用户的出行基站序列还原为:1→2→3→4→5。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。
Claims (3)
1.一种基于时空特性的手机信令数据精细化预处理方法,手机信令数据包括:
1)日期date:手机信令数据产生的日期;
2)记录编号id:唯一标识每一条信令数据;
3)用户编号msisdn:唯一标识每一位用户;
4)基站小区编号tac:基站所属小区的编号;
5)基站扇区编号cell:基站所属小区内扇区的编号;
6)开始时间begin_time:用户连接基站的开始时间;
7)结束时间end_time:用户连接基站的结束时间;
基站信息数据包括:
1)基站小区编号tac:基站所属小区的编号;
2)基站扇区编号cell:基站所属小区内扇区的编号;
3)经度lng:基站位置的经度;
4)纬度lat:基站位置的纬度;
其特征在于,所述基于时空特性的手机信令数据精细化预处理方法包括以下步骤:
(1)原始手机信令数据与研究区域基站信息匹配,将基站的经纬度信息转换成一个可以排序和比较的字符串编码;将字符串编码与手机信令数据匹配;
(2)经纬度错误基站信息的识别与反馈;所述步骤(2)具体实施过程为:
过程1:按每个用户msisdn分组,根据开始时间begin_time进行升序排列,初始化i=1;
过程2:分别计算第i条记录与第i+1条记录中两个基站的距离为d1,2,第i+1条记录与第i+2条记录中两个基站的距离为d2,3,第i+1条记录与第i+3条记录中两个基站的距离为d2,4,判断d1,2,d2,3和d2,4是否全部大于设定的距离阈值Δd1:如果满足,则进入过程3;反之,i=i+1,返回过程2;
过程3:计算第i条记录和第i+2条记录中两个基站的距离d1,3,判断d1,3是否小于设定的距离阈值Δd1,且第i条记录的速度Speedi大于设定的速度阈值Δspeed:如果满足,则进入过程4;反之,i=i+1,返回过程2;
过程4:将第i条记录的结束时间end_time赋值为第i+1条记录的结束时间end_time,输出第i+1条记录的基站信息为潜在经纬度错误的基站,并删除第i+1条记录,i=i+1,返回过程2;
过程5:当遍历完所有数据记录后,结束循环;
(3)同位置信令数据合并;所述步骤(3)具体实施过程为:
过程1:按每个用户msisdn分组,根据开始时间begin_time进行升序排列,计算与上一条的结束时间等于下一条的开始时间的时间间隔,且如果当前一行数据的基站与下一条数据的基站相同,则标记该行flag为1,否则为0;
过程2:当上下两条基站相同,且与上一条的结束时间等于下一条的开始时间的时间间隔小于6小时,更新上一条的结束时间为下一条时间的开始时间,使上下两条数据时间连续;
过程3:按用户和基站分组,根据开始时间begin_time进行升序排列,计算同一用户同一基站的时间间隔,如果为0,标记flag为1,下一条数据flag为-1;
过程4:筛选出flag为-1和1的数据,根据记录编号id与原始手机数据合并,计算flag列的累计和,flag列为0的数据为去除相同基站且时间连续的数据;
过程5:筛选出flag列为0的数据,并删去;
过程6:将同用户的第i条记录的结束时间end_time赋值为第i+1条记录的开始时间start_time,重新计算每一条记录的逗留时间stay_time,即每一条记录结束时间end_time减去开始时间begin_time;
(4)漂移数据轨迹降噪处理;所述步骤(4)具体实施过程为:
过程1:按每个用户msisdn分组,根据开始时间begin_time进行升序排列,初始化i=1,取第i条记录为当前记录,并向后提取N条记录,N取值至少为3;
过程2:对这N+1条信令数据的经纬度坐标取平均值,计算得到N+1条数据记录经纬度的中心点Oi;
过程3:设定距离阈值Δd2,以上述中心点Oi,半径为Δd2画圆,判断该N+1个点是否均在此圆范围内,如满足,则进入过程4;如有任意一点不满此范围,则i=i+1,返回过程2;
过程4:生成新记录:保留这N+1条信令数据中逗留时间stay_time最长的基站信息,开始时间begin_time为第i条数据的开始时间,结束时间end_time为第N+i条记录的结束时间,重新计算逗留时间stay_time,删除第N+1条记录;新生成的记录作为第i条记录,i=i+1,返回过程2;
过程5:遍历全部记录后,结束循环;
(5)全类型乒乓数据优化处理;所述步骤(5)中,对于同一用户连续时间且按时间递增排序的手机信令数据,第i条记录与第i+n条记录的位置相同,该两条记录的停留时间均大于时间阈值Δtime,且该两条记录之间的n-1条记录总计停留时间均小于时间阈值Δtime,则称第i至i+n条记录为全类型乒乓切换数据;利用前缀和与差分的优化算法,识别并去除在多个基站来回切换的乒乓数据;
所述步骤(5)具体实施过程为:
过程1:设定时间阈值Δtime,筛选出逗留时间stay_time大于Δtime的基站;
过程2:按用户msisdn、基站base分组,计算同一用户同一基站的时间间隔;
过程3:设置flag字段全部为0;如果时间间隔小于Δtime,flag加一,下一条数据flag减一;
过程4:筛选出flag为-1和1的数据,按记录编号id与未筛选前的数据进行匹配,计算flag列的累计和,累计和为0的列为去除乒乓数据后的数据;
过程5:筛选出flag列为0的数据,并删去;
过程6:将同用户的第i条记录的结束时间end_time赋值为第i+1条记录的开始时间start_time,重新计算每一条记录的逗留时间stay_time,即每一条记录结束时间end_time减去开始时间begin_time。
2.根据权利要求1所述的一种基于时空特性的手机信令数据精细化预处理方法,其特征在于,所述步骤(1)具体实施过程为:
过程1:使用GeoHash算法对基站信息数据中每一个基站的经纬进行编码,生成新的字段base,作为基站编码;
过程2:利用基站所在小区编号tac和扇区编号cell两个字段,为手机信令数据匹配上述过程1中新生成的基站编码base和经纬度信息;
过程3:利用开始时间begin_time和结束时间end_time,时间格式统一转换为unix时间戳格式,通过结束时间end_time减去开始时间begin_time,计算得到逗留时间stay_time;
过程4:删除逗留时间stay_time为0和未匹配上基站经纬度信息的数据;
过程5:按每个用户msisdn分组,根据开始时间begin_time进行升序排列,利用每一条记录的经度lng和纬度lat,计算与其下一条记录的基站距离distance,并由得到的距离distance除以该条记录的逗留时间stay_time,最终得到该条记录的速度speed。
3.根据权利要求1所述的一种基于时空特性的手机信令数据精细化预处理方法,其特征在于,所述步骤(2)通过遍历用户的手机信令数据,得到用户轨迹基站的时空关系,从中识别潜在的经纬度错误的基站。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011050867.XA CN112312303B (zh) | 2020-09-29 | 2020-09-29 | 一种基于时空特性的手机信令数据精细化预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011050867.XA CN112312303B (zh) | 2020-09-29 | 2020-09-29 | 一种基于时空特性的手机信令数据精细化预处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112312303A CN112312303A (zh) | 2021-02-02 |
CN112312303B true CN112312303B (zh) | 2022-07-22 |
Family
ID=74489289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011050867.XA Active CN112312303B (zh) | 2020-09-29 | 2020-09-29 | 一种基于时空特性的手机信令数据精细化预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112312303B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113271557A (zh) * | 2021-04-20 | 2021-08-17 | 中山大学 | 一种手机信令数据处理方法、装置及存储介质 |
CN113747382B (zh) * | 2021-08-18 | 2022-08-19 | 北京九栖科技有限责任公司 | 基于多级滤波的移动信令轨迹去噪方法、介质和计算设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107040894A (zh) * | 2017-04-21 | 2017-08-11 | 杭州市综合交通研究中心 | 一种基于手机信令数据的居民出行od获取方法 |
CN110990443A (zh) * | 2019-10-28 | 2020-04-10 | 上海城市交通设计院有限公司 | 一种基于手机信令的职住人口特征估算方法 |
-
2020
- 2020-09-29 CN CN202011050867.XA patent/CN112312303B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107040894A (zh) * | 2017-04-21 | 2017-08-11 | 杭州市综合交通研究中心 | 一种基于手机信令数据的居民出行od获取方法 |
CN110990443A (zh) * | 2019-10-28 | 2020-04-10 | 上海城市交通设计院有限公司 | 一种基于手机信令的职住人口特征估算方法 |
Non-Patent Citations (2)
Title |
---|
Toward a Highway Traffic Flow Monitoring System Based on Mobile Phone Signaling Data;Guifa Hao等;《IEEE》;20200727;1-3 * |
基于手机定位数据的城市居民出行特征提取方法研究;张维;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20160815;1-3 * |
Also Published As
Publication number | Publication date |
---|---|
CN112312303A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112312303B (zh) | 一种基于时空特性的手机信令数据精细化预处理方法 | |
CN108955693B (zh) | 一种路网匹配的方法及系统 | |
CN109739585B (zh) | 基于spark集群并行化计算的交通拥堵点发现方法 | |
CN112001829B (zh) | 一种基于手机信令数据的人口分布判断方法 | |
CN106454729A (zh) | 一种城市轨道交通站点选址规划方法和装置 | |
CN107229414B (zh) | 存储空间回收方法及装置 | |
CN110880238B (zh) | 一种基于手机通信大数据的道路拥堵监测方法 | |
CN110275929B (zh) | 一种基于网格分割的候选路段筛选方法及网格分割方法 | |
WO2017211150A1 (zh) | 指纹数据入库处理方法及装置 | |
CN110460962B (zh) | 轨道交通用户识别方法和装置 | |
CN101938814B (zh) | 移动终端寻呼方法和移动呼叫中心设备 | |
CN110968617A (zh) | 一种基于位置字段的路网关键路段相关性分析方法 | |
CN107330085B (zh) | 大数据环境下固定传感器错误位置的判断识别和矫正方法 | |
CN105160871A (zh) | 一种高速公路客车临时上下人识别的方法 | |
CN116415206B (zh) | 运营商多数据融合方法、系统、电子设备及计算机存储介质 | |
CN113807544A (zh) | 一种联邦学习模型的训练方法、装置及电子设备 | |
CN109993390B (zh) | 告警关联及派单优化方法、装置、设备及介质 | |
EP3038024A1 (en) | A computer implemented method, a system and computer program products for selecting representatives' paths of commuting routes | |
CN107133335B (zh) | 一种基于分词与索引技术的重复记录检测方法 | |
CN116132923A (zh) | 一种基于手机信令数据的高精度时空轨迹复原方法 | |
CN113486034B (zh) | 一种矢量图层及图斑的历史版本回溯方法 | |
CN112100308B (zh) | 一种北斗时空轨迹的相似性查询方法 | |
CN111414445A (zh) | 一种应用地理信息的地址反解析方法 | |
CN115662124A (zh) | 一种基于网络编码的gps轨迹数据路段流量匹配方法 | |
CN115292258A (zh) | 一种跨组织多源异构业务流程事件日志融合方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |