CN117177185B - 一种基于手机通信数据的号码伴随辅助识别方法 - Google Patents
一种基于手机通信数据的号码伴随辅助识别方法 Download PDFInfo
- Publication number
- CN117177185B CN117177185B CN202311443576.0A CN202311443576A CN117177185B CN 117177185 B CN117177185 B CN 117177185B CN 202311443576 A CN202311443576 A CN 202311443576A CN 117177185 B CN117177185 B CN 117177185B
- Authority
- CN
- China
- Prior art keywords
- time
- space
- data
- base station
- accompanying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 230000008878 coupling Effects 0.000 claims abstract description 16
- 238000010168 coupling process Methods 0.000 claims abstract description 16
- 238000005859 coupling reaction Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000033001 locomotion Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000001914 filtration Methods 0.000 claims description 12
- 230000009467 reduction Effects 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 230000011664 signaling Effects 0.000 claims 5
- 102100035971 Molybdopterin molybdenumtransferase Human genes 0.000 claims 1
- 101710119577 Molybdopterin molybdenumtransferase Proteins 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000007717 exclusion Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提出了一种基于手机通信数据的号码伴随辅助识别方法,方法包括通信数据预处理、时空轨迹数据入库、时空网格快速伴随和号码精确伴随,通信数据预处理包括轨迹去噪;时空轨迹数据入库主要是对号码及时空网格建立索引,并将号码和时空网格的索引及其对应的时空轨迹数据存储到时空在线库中;时空网格快速伴随包括时空搜索、时空扩域、时空耦合和时空碰撞;号码精确伴随包括构建邻基站模型和多维度特征相似度计算。本发明解决了现有技术中存在的对基础数据的时间和空间连续性要求高、算法时间复杂度高、伴随效果差和伴随精度低的问题,从而使得具有重要应用价值的伴随关系可以有效的应用于现实场景中。
Description
技术领域
本发明涉及轨迹伴随技术领域,特别涉及一种基于手机通信数据的号码伴随辅助识别方法。
背景技术
近十年来,随着移动通信技术的快速发展,我国手机用户快速增长。根据工业信息化部的数据,截至2022年底,我国移动电话用户规模为16.83亿户,手机普及率达到百人保有手机119部,全国移动通信基站总数达到1083万个,城镇基站信号已达到深度覆盖。移动通信的蓬勃发展,使得产生了越来越多的手机通信数据,携带越来越多的移动时空轨迹数据。利用手机通信数据挖掘伴随关系在公共安全、卫生和交通等行业起到越来越重要的作用。
利用手机通信数据挖掘实体对象之间的伴随关系具有重要的实际应用价值,但也面临技术难题,例如在海量的通信数据中如何快速而准确的挖掘出具有伴随关系的两个实体对象。
现有技术中,号码伴随目前主要采用两种方式,一是基于地理索引,利用空间索引算法(例如GEOHASH或S2)对位置建立索引的时空轨迹伴随模式;二是构建轨迹模型的伴随数据挖掘分析方法。
地理索引方式,需要知道精确的通信基站位置数据,将经纬度转换成等级一致的地理索引,但是转换的索引等级是个核心问题,2/3G基站覆盖范围比4/5G广,在城市中的复杂环境,楼层的高低,地下环境等等都影响基站的覆盖。如果网格的大小很大,势必会增加许多干扰的对象,网格设置过小,又会丢失原本属于该类数据的对象,如何衡量网格的大小影响计算的精度,同时在实际使用过程中,基站经纬度常常存在误报或者偏差,导致处理过程对伴随的精准度造成很大影响,其次不同运营商基站位置不一致,不可避免的伴随效果要比同运营商效果差。
构建轨迹模型常用聚类算法进行研究,典型的聚类算法有K-MEANS、DBSC AN、STING、OPTICS等。该类模型在时空伴随模式上都存在一定的不足,如DBSCAN算法的时间复杂度要求极高,算法花费九成以上的时间在聚类迭代上,同时还有大部分算法都要求数据在时间和空间上连续,对于离群点忽视,造成伴随结果下降;还有类算法DTW (DynamicTime Warping)、EDR(Edit Distance on Real sequence)和LCSS(Longest Common Sub-Sequeue)等分析轨迹的距离比较相似度,缺点是缺少了时间特征,只对轨迹点比较。
发明内容
为了解决现有技术中存在的问题,本发明提供一种基于手机通信数据的号码伴随辅助识别方法,该方法解决了现有技术中存在的对基础数据的时间和空间连续性要求高、算法时间复杂度高、伴随效果差和伴随精度低的问题,从而使得具有重要应用价值的伴随关系可以有效的应用于现实场景中。
根据本发明第一方面,本发明请求保护一种基于手机通信数据的号码伴随辅助识别方法,其特征在于,包括:
获取全量的原始手机通信数据,并对所述原始手机通信数据进行预处理,得到完整规范的时空轨迹数据;
将所述时空轨迹数据录入到时空在线库中;
根据在时空在线库中录入的时空轨迹数据进行时空网格快速伴随处理,得到时空网格快速伴随结果;
基于所述时空网格快速伴随结果,对号码进行精确伴随,构建邻基站模型,执行多维度特征相似度计算。
进一步的,对所述原始手机通信数据进行预处理包括:轨迹去噪和轨迹数据降维;
将所述时空轨迹数据录入到时空在线库中包括:对号码建立索引、对时空网格建立索引,号码和时空网格的索引和号码的时空网格及轨迹数据写入时空在线库中;
所述时空网格快速伴随处理包括:时空搜索、时空扩域、时空耦合和时空碰撞;
所述精确伴随的多维度特征相似度包括基站邻点距离相似度、起止点相似度、伴随时间相似度、伴随距离相似度、关联对象运动距离归一化相似度、EDR编辑距离相似度、离线伴随结果相似度、状态转换相似度和运动方向相似度。
进一步的,所述原始手机通信数据至少包含2G/3G/4G/5G数据,具体内容至少包括用户号码、运营商编码、时间戳、通联数据、CGI、LAC、CI、经度、纬度信息;
其中,用户号码、时间戳、经度和纬度,分别以ID、Time、Lon和Lat表示,用户号码为用户所携带移动设备的唯一标识,时间戳为基站接收到包括通话、短信以及位置切换的接收时间,经度和纬度为用户当前位置所被接收基站的经纬度;
号码伴随表示通过主号码以及限定的运动时间,使用伴随方法伴随出与之运动轨迹相似的伴随号码;
伴随号码轨迹相似度越高,与主号码轨迹越重合,两者伴随关系越明显;
通过倒排相似度即可得出一组与主号码具有明显伴随关系的号码。
进一步的,所述轨迹去噪包括过滤无效数据、去除轨迹中短时间内的相邻重复点、过滤乒乓数据、去除轨迹中离群点;
其中,过滤无效数据是对不合法的标识码和位置数据进行合法性检查;
去除轨迹中短时间内的相邻重复点中,所述短时间为十分钟;
过滤乒乓数据时,对同一位置跳基站的轨迹点,仅保留第一个点;
去除轨迹中离群点时,对于基站切入和切出的切换速度都出现突变的轨迹点进行去除;
所述轨迹数据降维为针对轨迹去噪后的通信数据,抽取数据中的标识码、时间戳、经纬度字段,将时间戳、经度和纬度这三个维度的数据利用时间片和空间网格索引算法进行降维处理,将三个维度的数据降低为一个维度的时空网格数据,然后通过运行实时流任务得到基于时空网格的时空轨迹数据。
进一步的,所述时空轨迹数据入库是利用Bitmap技术分别建立号码和时空网格的索引,关联号码和时空网格,并基于时空在线库协处理器的RPC接口将索引数据和号码的时空网格及轨迹数据写入时空在线库中。
进一步的,所述时空网格快速伴随处理为对主号码的时空轨迹转换成的时空网格进行扩域,根据时空耦合特征增加排除条件,然后将扩域后的时空网格结合时空耦合排除条件在时空在线库中进行碰撞查询,查询到在相同或相邻的时空网格中出现的其他关联号码,然后计算每个关联号码的时空匹配度,最后得到满足指定最小匹配度的伴随号码。
所述时空搜索表示通过查询指定号码在某个时间段内在时空在线库中轨迹的所有时空网格。
进一步的,所述时空扩域是根据“8-近邻”规则,对于任意一个时空网格,把时空网格分割为时间和网格,然后计算出网格的八邻域,时间保持不变,将时间和网格的八个近邻的网格组成八个时空网格,得到时空网格的“8邻域”,时空网格和扩域后的“8邻域”组成一个时空区域。
进一步的,所述时空耦合具有以下特征:当主号码的位置已经发生变化时,相同时刻仍在主号码的上一个或上多个位置点的其他关联号码和主号码不具有伴随关系;
当主号码的位置还未发生变化时,相同时刻已经在主号码下一个或下多个位置点的其他关联号码和主号码不具有伴随关系。
进一步的,所述时空碰撞是通过给定的多个时空区域,查找出在这些时空区域出现的号码,并统计每个号码的时空网格中重合的区域数,再将每个号码重合的区域数除以碰撞的时空区域数计算得到每个号码的时空匹配度,最后得到满足指定最小匹配度的所有号码。
进一步的,所述构建邻基站模型是基于通信数据,结合不同运营商之间的基站位置差异情况,利用Spark分布式计算平台挖掘出预设基站附近的移动、联通和电信的邻基站集合,最后汇总通信数据中的所有基站的邻基站集合,构建邻基站模型;
所述多维度特征相似度计算中,定义特征权重,权重阈值均在0到1范围内。
本发明提出了一种基于手机通信数据的号码伴随辅助识别方法,方法包括通信数据预处理、时空轨迹数据入库、时空网格快速伴随和号码精确伴随,通信数据预处理包括轨迹去噪;时空轨迹数据入库主要是对号码及时空网格建立索引,并将号码和时空网格的索引及其对应的时空轨迹数据存储到时空在线库中;时空网格快速伴随包括时空搜索、时空扩域、时空耦合和时空碰撞;号码精确伴随包括构建邻基站模型和多维度特征相似度计算。本发明解决了现有技术中存在的对基础数据的时间和空间连续性要求高、算法时间复杂度高、伴随效果差和伴随精度低的问题,从而使得具有重要应用价值的伴随关系可以有效的应用于现实场景中。
附图说明
图1是本发明的一种基于手机通信数据的号码伴随辅助识别方法的流程图;
图2是本发明实施例中一种基于手机通信数据的号码伴随辅助识别方法的轨迹去噪流程图;
图3是本发明实施例中一种基于手机通信数据的号码伴随辅助识别方法的乒乓数据产生示意图;
图4是本发明实施例中一种基于手机通信数据的号码伴随辅助识别方法的时空网格时空扩域示意图;
图5是本发明实施例中一种基于手机通信数据的号码伴随辅助识别方法的对象移动轨迹示意图;
图6是本发明实施例中一种基于手机通信数据的号码伴随辅助识别方法的号码多维度精确伴随流程图。
具体实施方式
本发明为一种基于手机通信数据的号码伴随辅助识别方法,分为4个模块,如图1所示,即对全量的原始手机通信数据进行预处理、将预处理的时空轨迹数据录入到时空在线库中、根据时空在线库中的时空轨迹数据进行时空网格快速伴随和基于时空网格快速伴随结果对号码进行精确伴随。实现手机通信数据辅助识别号码伴随方法,可以更精准的挖掘分析出具有伴随关系的号码。
根据本发明第一实施例,本发明请求保护一种基于手机通信数据的号码伴随辅助识别方法,其特征在于,包括:
获取全量的原始手机通信数据,并对所述原始手机通信数据进行预处理,得到完整规范的时空轨迹数据;
将所述时空轨迹数据录入到时空在线库中;
根据在时空在线库中录入的时空轨迹数据进行时空网格快速伴随处理,得到时空网格快速伴随结果;
基于所述时空网格快速伴随结果,对号码进行精确伴随,构建邻基站模型,执行多维度特征相似度计算。
进一步的,对所述原始手机通信数据进行预处理包括:轨迹去噪和轨迹降维;
在本实施例中,轨迹去噪针对通信数据的特点,使用过滤无效数据、去除轨迹中短时间内的相邻重复点、过滤乒乓数据、去除轨迹中离群点来处理原始通信数据,并且处理方法考虑了各种特殊情况,为后续生成时空轨迹数据提供正确的源数据,以保证最终号码伴随的准确度。
具体的,参照图2,所述轨迹去噪包括过滤无效数据、去除轨迹中短时间内的相邻重复点、过滤乒乓数据、去除轨迹中离群点;
其中,过滤无效数据是对不合法的标识码和位置数据进行合法性检查;
去除轨迹中短时间内的相邻重复点中,所述短时间为十分钟;十分钟是针对运营商原始通信数据探索而采取的一个最贴切可行的时间跨度;遍历原始通信数据中的轨迹数据,设置轨迹点指针,判断当前轨迹点与下一个轨迹点的时间差值是否在十分钟以内并且经纬度是否完全相同;若判定结果是肯定的,则删除下一个轨迹点,轨迹指针不动;若判定结果是否定的,则轨迹指针向下一个位置移动;
过滤乒乓数据时,对同一位置跳基站的轨迹点,仅保留第一个点;
过滤乒乓数据,包括ABA类型和BCD类型,其中,ABA类型乒乓切换是指手机用户位处基站小区A和基站小区B交界处,产生了基站A→基站B→基站A→基站B→基站A这种在两个基站之间相互切换的乒乓数据,如图3所示的用户1;BCD类型乒乓切换是指手机用户位处基站小区B、基站小区C和基站小区D的交界处,产生了基站B→基站C→基站D→基站B→基站C这种在三个基站之间相互切换的乒乓数据,如图3所示的用户2。针对乒乓数据,处理算法如下:首先假定某用户一天内产生n条轨迹点数据,第i个轨迹点用/>表示,分别表示对应通信数据产生的时间戳、经度以及纬度信息,考虑到乒乓效应一般发生在较短的时间之内,所以本发明设置了一个对应的时间阈值/>,那么对于ABA类型乒乓切换,选取连续的三个轨迹点/>,如果/>和/>所在的基站经纬度都相同,并且/>与/>产生的时间间隔小于时间阈值/>,这种情况则为ABA类型乒乓切换,处理策略为删除轨迹点/>;对于 BCD类型乒乓切换,选取连续四个轨迹点/>,如果/>和/>所在的基站经纬度都相同,并且/>与/>产生的时间间隔小于时间阈值/>,这种情况则为BCD类型乒乓切换,/>和/>为虚假切换数据,处理策略为删除轨迹点/>和/>;
去除轨迹中离群点时,对于基站切入和切出的切换速度都出现突变的轨迹点进行去除;
离群点是指手机突然从当前基站小区切换到距离很远的基站小区,一段时间过后再次切换到当前基站附近的情况,离群点的特点是短时间长距离快速移动。针对轨迹中的离群点,处理算法如下:根据三角形两边之和大于第三边定理,选取三个连续的轨迹点A、B、C构成一个三角形,B作为三角形的顶点,A和C作为三角形的两个底部点,若AB边和BC边远大于AC底边(包括距离和速度的双重判断),且轨迹点A与轨迹点C之间的时间小于10分钟,则轨迹点B是一个离群点,处理策略为删除轨迹点B。
其中,在该实施例中过滤无效数据,包括缺失数据和不合法数据,缺失数据是指标识码、时间戳和经纬度数据缺失,不合法数据是指标识码、时间戳和经纬度数据超出正常合理的取值范围;在对通信数据遍历时,进行字段缺失和合法性检查,针对无效数据,采取的策略是直接将包含字段缺失或者不合法的通信数据进行删除操作;
其中,在该实施例中,通过运行实时流任务对时空网格进行分组,将时空网格相同的标识码数据进行汇聚,得到基于时空网格的时空轨迹数据;
轨迹去噪后的通信数据,抽取数据中的标识码、时间戳、经纬度字段,将时间戳、经度和纬度这三个维度的数据利用时间片和空间网格索引算法进行降维处理,将三个维度的数据降低为一个维度的时空网格数据,然后通过运行实时流任务得到基于时空网格的时空轨迹数据;
生成时空轨迹数据使用了轨迹数据降维技术,利用基于希尔伯特曲线的空间索引算法将二维的经纬度数据降为一维的14级网格,对不同运营商的通信数据进行降维归一化处理可以实现高度收敛,从而支持跨运营商的伴随分析;
将时间戳分为十分钟分片,时间戳t映射为小于等于t的最接近的十分钟时间戳,其中/>表示对/>的结果向下取整,然后将/>格式化为yyyyMMddHHmm的时间字符串,得到十分钟粒度的时间片;
将二维的经纬度使用基于希尔伯特曲线的空间索引算法转换为一维的14级网格,其网格大小约;
将十分钟粒度的时间片作为时空网格的时间域,14级网格作为时空网格的网格域,共同组成时空网格,其格式为:时间域_网格域。
将所述时空轨迹数据录入到时空在线库中包括:对号码建立索引、对时空网格建立索引,号码和时空网格的索引和号码的时空网格及轨迹数据写入时空在线库中;
所述时空轨迹数据入库是利用Bitmap技术分别建立号码和时空网格的索引,关联号码和时空网格,并基于时空在线库协处理器的RPC接口将索引数据和号码的时空网格及轨迹数据写入时空在线库中;
通信数据预处理后生成的时空轨迹数据写到分布式消息队列系统指定的Topic中,时空轨迹数据入库则是消费分布式消息队列系统中的时空数据,并封装为所需的数据格式,包括标识码、时空网格、数据类型、标识码类型和附加数据等,然后采用Bitmap技术分别对标识码和时空网格建立索引,并生成时空网格和标识码的相互映射关系;
时空轨迹数据入库采用Bitmap技术建立索引,不仅可以大幅度压缩数据存储占用的磁盘空间,而且可以充分利用CPU高效的位运算提高查询效率;时空在线库是基于时空在线库的在线大数据存储系统,对于时空轨迹数据查询是通过时空在线库协处理器将查询条件分发到Region中实现并发查询。时空在线库协处理器和Bitmap索引技术二者的结合实现了时空数据的高并发高性能查询计算,共同支撑十亿级甚至百亿级的时空轨迹数据查询秒级响应。
所述时空网格快速伴随处理包括:时空搜索、时空扩域、时空耦合和时空碰撞;
所述时空搜索表示通过查询指定号码在某个时间段内在时空在线库中轨迹的所有时空网格。
其中,在该实施例中,时空搜索是通过调用时空查询代理的时空搜索接口来查询指定号码在某个时间段内在时空在线库中轨迹的所有时空网格,例如号码A在时间到/>时间范围30分钟内进行时空搜索得到的所有时空网格序列为:
,其中,/>表示时空网格,/>中的/>代表时间域,代表网格域;
进一步的,所述原始手机通信数据至少包含2G/3G/4G/5G数据,具体内容至少包括用户号码、运营商编码、时间戳、通联数据、CGI、LAC、CI、经度、纬度信息;
其中,用户号码、时间戳、经度和纬度,分别以ID、Time、Lon和Lat表示,用户号码为用户所携带移动设备的唯一标识,时间戳为基站接收到包括通话、短信以及位置切换的接收时间,经度和纬度为用户当前位置所被接收基站的经纬度。
进一步的,号码伴随表示通过主号码以及限定的运动时间,使用伴随方法伴随出与之运动轨迹相似的伴随号码;
伴随号码轨迹相似度越高,与主号码轨迹越重合,两者伴随关系越明显;
通过倒排相似度即可得出一组与主号码具有明显伴随关系的号码。
进一步的,所述时空网格快速伴随处理为对主号码的时空轨迹转换成的时空网格进行扩域,根据时空耦合特征增加排除条件,然后将扩域后的时空网格结合时空耦合排除条件在时空在线库中进行碰撞查询,查询到在相同或相邻的时空网格中出现的其他关联号码,然后计算每个关联号码的时空匹配度,最后得到满足指定最小匹配度的伴随号码。
时空网格快速伴随可以大幅减少主号码伴随结果中的干扰项,适用于大数据场景下的伴随关系挖掘分析,能够有效屏蔽实体对象轨迹数据的误差、偏差甚至错误以及多个实体对象的轨迹数据采样时间不同步问题,其运行效率和准确性也较高,在亿级时空轨迹数据场景下,对一个主号码任意24小时内的运动轨迹进行伴随分析,能够在十秒内返回结果,且可以显著提高目标号码在伴随结果集中的排名。
其中,在该实施例中,至少N个相关联的移动对象,在一起运动至少T时长,其中N和T是用户自定义的阈值,且N>1,分钟,则这N个移动对象在T时间内形成的轨迹模式就叫做时空轨迹的伴随模式;
进一步的,所述时空扩域是根据“8-近邻”规则,对于任意一个时空网格,把时空网格分割为时间和网格,然后计算出网格的八邻域,时间保持不变,将时间和网格的八个近邻的网格组成八个时空网格,得到时空网格的“8邻域”,时空网格和扩域后的“8邻域”组成一个时空区域。
“8邻域”计算规则如下:
把时空网格分隔为时间域/>和网格域/>;
计算出网格域的八邻域;
时间域保持不变,将时间域和网格域/>的八个邻域网格组成八个时空网格,得到时空“8邻域”,时空网格集合/>为时空网格时空“8邻域”,如图4所示,将号码A的时空网格序列/>进行“8邻域”扩域后得到新的时空网格序列为:
进一步的,所述时空耦合具有以下特征:当主号码的位置已经发生变化时,相同时刻仍在主号码的上一个或上多个位置点的其他关联号码和主号码不具有伴随关系;
当主号码的位置还未发生变化时,相同时刻已经在主号码下一个或下多个位置点的其他关联号码和主号码不具有伴随关系。
如图5所示,采样时刻为和/>,假设主号码A由/>运动到/>,/>且,在/>时刻,号码A位于时空网格/>,时空网格/>的时空8邻域中出现的关联号码可能和号码A具有伴随关系,但是在/>时刻,仍然在网格/>中的,即在时空网格/>的时空8邻域中出现的关联号码和号码A则不具有伴随关系,因此在使用时空网格检索数据库时,需要加入排除条件。时空网格/>排除条件中时空网格集合的计算规则如下:
取出时空网格的网格域/>,计算“8邻域”,得到网格和邻域集合/>,其中,/>表示网格/>和它的“8邻域”网格集合;
取出时空网格的网格域/>,计算“8邻域”,得到网格和邻域集合/>,其中/>表示网格/>和它的“8邻域”网格集合;
计算和/>的交集/>,其中/>表示网格/>和它的“8邻域”网格集合与网格和它的“8邻域”网格集合的交集;
计算排除网格集合为;
与时间域结合得到排除的时空网格集合。
进一步的,所述时空碰撞是通过给定的多个时空区域,查找出在这些时空区域出现的号码,并统计每个号码的时空网格中重合的区域数,再将每个号码重合的区域数除以碰撞的时空区域数计算得到每个号码的时空匹配度,最后得到满足指定最小匹配度的所有号码。
具体的算法思想如下:
将主号码经过时空搜索和时空耦合得到的时空区域在时空在线库中查找出在这些时空区域出现的关联号码;
分别统计每个关联号码的时空网格中重合的区域数;
计算每个关联号码的时空匹配度,匹配度Match计算公式如下:
其中,
表示时空网格的元素个数。
进一步的,所述构建邻基站模型是基于通信数据,结合不同运营商之间的基站位置差异情况,利用Spark分布式计算平台挖掘出预设基站附近的移动、联通和电信的邻基站集合,最后汇总通信数据中的所有基站的邻基站集合,构建邻基站模型;
其中,在该实施例中,参照图6,构建邻基站模型,具体实现方法如下:
通信数据本身具备基站切换记录消息,判定可以得到相同运营商间相邻基站对数据,提取通信数据中基站与经纬度对数据,进行基站聚合得到基站邻关系数据,并根据每个基站对切换次数得到切换频次,根据频次计算切换概率;
遍历全部通信数据,捕获同号码在两个较短时间(本发明设置为5s)内且距离符合阈值(本发明设置为800m)的上下文基站数据,判定为相同运营商间相邻基站对数据;
遍历通信数据,对基站位置做索引,根据距离求取基站附近范围800m内相邻基站集合;
基于一机多卡数据,捕获到较短时间(本发明设置为5s)内且属于相同移动设备数据的两条通信数据中的不同基站,将该基站数据对判断为具有相邻关系;
通过以上四步得到不同基站关系的数据,再根据基站切换事件数据、距离分布和不同目标伴随数据融合计算汇总为一份基站关系数据,即构建邻基站模型。
所述多维度特征相似度计算中,定义的多维度特征包括基站邻点距离相似度、起止点相似度、伴随时间相似度、伴随距离相似度、关联对象运动距离归一化相似度、EDR编辑距离相似度、离线伴随结果相似度、状态转换相似度和运动方向相似度,同时定义特征权重,权重阈值均在0到1范围内。
号码精确伴随对基站数据进行预处理聚类分析操作,挖掘出基站的相邻基站数据,构建邻基站模型,从而加强了不同运营商的邻基站关系;接着根据伴随关系的特征提出多维度特征相似度,使用不同的维度可以更准确地分析出具有真正伴随关系的对象,实测数据表明多维度特征相似度伴随计算能够显著提高伴随目标号码的命中率,从而实现跨运营商的号码精准轨迹伴随。
其中,在该实施例中,权重阈值均在0到1范围内,最后计算出轨迹相似度。两条轨迹的相似度计算公式如下,其中,/>为归一化函数,/>是维度距离(即特征相似度),/>为特征权重,轨迹相似度也就是归一化后的维度距离与权重积之和。
基站邻点距离相似度,根据主号码和关联号码在相近的时刻,使用关联号码基站数据查询邻基站数据,判断目标号码在该时刻的基站是否包含在查询出来的邻基站数据中,若包含,则根据基站的切换概率赋予该关联号码和主号码在该时刻的相似度;
起止点相似度,选取主号码和关联号码在查询时间段内前10%和后10%的点作为首尾点,计算首尾点之间的距离相似度;
伴随时间相似度,将主号码和关联号码的开始伴随时间和结束伴随时间与查询时间做比较,计算伴随时长和查询时长的比值,比值越接近,表示关联号码的轨迹数据相对主号码越完整;
伴随距离相似度,计算每个关联号码在伴随时间段内的运动距离和主号码在查询时间内运动的距离比值,主要是降低主号码和关联号码在同时间处于不同运动状态下的相似度;
关联对象运动距离归一化相似度,计算出每个关联号码在查询时间段内的运动距离,将各个关联号码的伴随距离做归一化处理,计算出伴随距离相似度,归一化对于关联号码最大的伴随距离相似度都远小于1的情况,会降低整体平均相似度结果,即使关联号码轨迹与主号码的大体一致,也会得到一个较低的相似度结果;
EDR编辑距离相似度,计算查询时间段内的主号码和关联号码的轨迹序列的编辑距离相似度;
离线伴随结果相似度,查询主号码和关联号码是否为常伴随关系对,此处依赖常伴随关系特征数据,可通过MinHash/LSH算法减少数据处理量,再根据轨迹相似度算法计算目标轨迹是否匹配;
状态转换相似度,仅适用于主号码在查询时间段内有停留的情况,计算主号码和关联号码是否在相同时间有相同的状态转换(从运动到停留或从停留到运动)行为发生;
运动方向相似度,计算每个关联号码的首尾点和主号码首尾点方向向量,以衡量主号码和关联号码运动方向的相似度。
本领域技术人员能够理解,本公开所披露的内容可以出现多种变型和改进。例如,以上所描述的各种设备或组件可以通过硬件实现,也可以通过软件、固件、或者三者中的一些或全部的组合实现。
本公开中使用了流程图用来说明根据本公开的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中。
本领域普通技术人员可以理解上述方法中的全部或部分的步骤可通过计算机程序来指令相关硬件完成,程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本公开并不限制于任何特定形式的硬件和软件的结合。
除非另有定义,这里使用的所有术语具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上是对本公开的说明,而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解,上面是对本公开的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (9)
1.一种基于手机通信数据的号码伴随辅助识别方法,其特征在于,包括:
获取全量的原始手机通信数据,并对所述原始手机通信数据进行预处理,得到完整规范的时空轨迹数据;
将所述时空轨迹数据录入到时空在线库中;
根据在时空在线库中录入的时空轨迹数据进行时空网格快速伴随处理,得到时空网格快速伴随结果;
基于所述时空网格快速伴随结果,对号码进行精确伴随,构建邻基站模型,执行多维度特征相似度计算;
所述时空网格快速伴随处理包括:时空搜索、时空扩域、时空耦合和时空碰撞;
所述时空扩域是根据“8-近邻”规则,对于任意一个时空网格,把时空网格分割为时间和网格,然后计算出网格的八邻域,时间保持不变,将时间和网格的八个近邻的网格组成八个时空网格,得到时空网格的“8邻域”,时空网格和扩域后的“8邻域”组成一个时空区域;
“8邻域”计算规则如下:
把时空网格TiGi分隔为时间域Ti和网格域Gi;
计算出网格域Gi的八邻域;
时间域Ti保持不变,将时间域和网格域Gi的八个邻域网格组成八个时空网格,得到时空“8邻域”,时空网格集合(TiGi1,TiGi2,TiGi3,TiGi4,TiGi5,TiGi6,TiGi7,TiGi8)为时空网格TiGi的时空“8邻域”,将号码A的时空网格序列TrA={T1G1,T2G2,......,TiGi}进行“8邻域”扩域后得到新的时空网格序列为:
NTrA={(NT1G11,NT1G12,NT1G13,NT1G14,T1G1,NT1G15,NT1G16,NT1G17,NT1G18),(NT2G21,NT2G22,NT2G23,NT2G24,T2G2,NT2G25,NT2G26,NT2G27,NT2G28),......,(NTiGi1,NTiGi2,NTiGi3,NTiGi4,TiGi,NTiGi5,NTiGi6,NTiGi7,NTiGi8)}
所述时空耦合具有以下特征:当主号码的位置已经发生变化时,相同时刻仍在主号码的上一个或上多个位置点的其他关联号码和主号码不具有伴随关系;
当主号码的位置还未发生变化时,相同时刻已经在主号码下一个或下多个位置点的其他关联号码和主号码不具有伴随关系;
所述构建邻基站模型,包括:
信令数据具备基站切换记录消息,判定得到相同运营商间相邻基站对数据,提取信令数据中基站与经纬度对数据,进行基站聚合得到基站邻关系数据,并根据每个基站对切换次数得到切换频次,根据频次计算切换概率;
遍历全部信令数据,捕获同号码在两个较短时间内且距离符合阈值的上下文基站数据,判定为相同运营商间相邻基站对数据;
遍历信令数据,对基站位置做索引,根据距离求取基站附近范围内相邻基站集合;基于一机多卡数据,捕获到较短时间内且属于相同移动设备数据的两条信令数据中的不同基站,将该基站数据对判断为具有相邻关系;
得到不同基站关系的数据,再根据基站切换事件数据、距离分布和不同目标伴随数据融合计算汇总为一份基站关系数据,即构建邻基站模型。
2.如权利要求1所述的一种基于手机通信数据的号码伴随辅助识别方法,其特征在于,对所述原始手机通信数据进行预处理包括:轨迹去噪和轨迹数据降维;将所述时空轨迹数据录入到时空在线库中包括:对号码建立索引、对时空网格建立索引,号码和时空网格的索引和号码的时空网格及轨迹数据写入时空在线库中;所述精确伴随的多维度特征相似度包括基站邻点距离相似度、起止点相似度、伴随时间相似度、伴随距离相似度、关联对象运动距离归一化相似度、EDR编辑距离相似度、离线伴随结果相似度、状态转换相似度和运动方向相似度。
3.如权利要求1所述的一种基于手机通信数据的号码伴随辅助识别方法,其特征在于,所述原始手机通信数据至少包含2G/3G/4G/5G数据,具体内容至少包括用户号码、运营商编码、时间戳、通联数据、CGI、LAC、CI、经度、纬度信息;其中,用户号码、时间戳、经度和纬度,分别以ID、Time、Lon和Lat表示,用户号码为用户所携带移动设备的唯一标识,时间戳为基站接收到包括通话、短信以及位置切换的接收时间,经度和纬度为用户当前位置所被接收基站的经纬度;号码伴随表示通过主号码以及限定的运动时间,使用伴随方法伴随出与之运动轨迹相似的伴随号码;
伴随号码轨迹相似度越高,与主号码轨迹越重合,两者伴随关系越明显;
通过倒排相似度即可得出一组与主号码具有明显伴随关系的号码。
4.如权利要求2所述的一种基于手机通信数据的号码伴随辅助识别方法,其特征在于,所述轨迹去噪包括过滤无效数据、去除轨迹中短时间内的相邻重复点、过滤乒乓数据、去除轨迹中离群点;
其中,过滤无效数据是对不合法的标识码和位置数据进行合法性检查;
去除轨迹中短时间内的相邻重复点中,所述短时间为十分钟;
过滤乒乓数据时,对同一位置跳基站的轨迹点,仅保留第一个点;
去除轨迹中离群点时,对于基站切入和切出的切换速度都出现突变的轨迹点进行去除;
所述轨迹数据降维为针对轨迹去噪后的通信数据,抽取数据中的标识码、时间戳、经纬度字段,将时间戳、经度和纬度这三个维度的数据利用时间片和空间网格索引算法进行降维处理,将三个维度的数据降低为一个维度的时空网格数据,然后通过运行实时流任务得到基于时空网格的时空轨迹数据。
5.如权利要求2所述的一种基于手机通信数据的号码伴随辅助识别方法,其特征在于,所述时空轨迹数据入库是利用Bitmap技术分别建立号码和时空网格的索引,关联号码和时空网格,并基于时空在线库协处理器的RPC接口将索引数据和号码的时空网格及轨迹数据写入时空在线库中。
6.如权利要求2所述的一种基于手机通信数据的号码伴随辅助识别方法,其特征在于,所述时空网格快速伴随处理为对主号码的时空轨迹转换成的时空网格进行扩域,根据时空耦合特征增加排除条件,然后将扩域后的时空网格结合时空耦合排除条件在时空在线库中进行碰撞查询,查询到在相同或相邻的时空网格中出现的其他关联号码,然后计算每个关联号码的时空匹配度,最后得到满足指定最小匹配度的伴随号码;
所述时空搜索表示通过查询指定号码在某个时间段内在时空在线库中轨迹的所有时空网格。
7.如权利要求2所述的一种基于手机通信数据的号码伴随辅助识别方法,其特征在于,所述时空耦合具有以下特征:当主号码的位置已经发生变化时,相同时刻仍在主号码的上一个或上多个位置点的其他关联号码和主号码不具有伴随关系;当主号码的位置还未发生变化时,相同时刻已经在主号码下一个或下多个位置点的其他关联号码和主号码不具有伴随关系。
8.如权利要求2所述的一种基于手机通信数据的号码伴随辅助识别方法,其特征在于,所述时空碰撞是通过给定的多个时空区域,查找出在这些时空区域出现的号码,并统计每个号码的时空网格中重合的区域数,再将每个号码重合的区域数除以碰撞的时空区域数计算得到每个号码的时空匹配度,最后得到满足指定最小匹配度的所有号码。
9.如权利要求1所述的一种基于手机通信数据的号码伴随辅助识别方法,其特征在于,所述构建邻基站模型是基于通信数据,结合不同运营商之间的基站位置差异情况,利用Spark分布式计算平台挖掘出预设基站附近的移动、联通和电信的邻基站集合,最后汇总通信数据中的所有基站的邻基站集合,构建邻基站模型;所述多维度特征相似度计算中,定义特征权重
w1+w2+w3+w4+w5+w6+w7+w8+w9=1,权重阈值均在0到1范围内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311443576.0A CN117177185B (zh) | 2023-11-02 | 2023-11-02 | 一种基于手机通信数据的号码伴随辅助识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311443576.0A CN117177185B (zh) | 2023-11-02 | 2023-11-02 | 一种基于手机通信数据的号码伴随辅助识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117177185A CN117177185A (zh) | 2023-12-05 |
CN117177185B true CN117177185B (zh) | 2024-03-26 |
Family
ID=88932070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311443576.0A Active CN117177185B (zh) | 2023-11-02 | 2023-11-02 | 一种基于手机通信数据的号码伴随辅助识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117177185B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967493A (zh) * | 2017-12-18 | 2018-04-27 | 广州汇智通信技术有限公司 | 一种人车伴随的判定方法、系统及相关装置 |
CN110933662A (zh) * | 2019-12-18 | 2020-03-27 | 厦门市美亚柏科信息股份有限公司 | 一种基于数据挖掘的时空伴随关系分析方法和系统 |
CN110991525A (zh) * | 2019-11-29 | 2020-04-10 | 西安交通大学 | 基于运营商轨迹数据的伴随模式匹配方法 |
CN112199377A (zh) * | 2020-11-18 | 2021-01-08 | 厦门市美亚柏科信息股份有限公司 | 基于关系数据的移动终端伴随分析方法、装置及存储介质 |
CN112561948A (zh) * | 2020-12-22 | 2021-03-26 | 中国联合网络通信集团有限公司 | 基于时空轨迹的伴随轨迹识别方法、设备及存储介质 |
CN112788524A (zh) * | 2020-12-28 | 2021-05-11 | 中国移动通信集团江苏有限公司 | 对象查询方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107229940A (zh) * | 2016-03-25 | 2017-10-03 | 阿里巴巴集团控股有限公司 | 数据伴随分析方法及装置 |
-
2023
- 2023-11-02 CN CN202311443576.0A patent/CN117177185B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967493A (zh) * | 2017-12-18 | 2018-04-27 | 广州汇智通信技术有限公司 | 一种人车伴随的判定方法、系统及相关装置 |
CN110991525A (zh) * | 2019-11-29 | 2020-04-10 | 西安交通大学 | 基于运营商轨迹数据的伴随模式匹配方法 |
CN110933662A (zh) * | 2019-12-18 | 2020-03-27 | 厦门市美亚柏科信息股份有限公司 | 一种基于数据挖掘的时空伴随关系分析方法和系统 |
CN112199377A (zh) * | 2020-11-18 | 2021-01-08 | 厦门市美亚柏科信息股份有限公司 | 基于关系数据的移动终端伴随分析方法、装置及存储介质 |
CN112561948A (zh) * | 2020-12-22 | 2021-03-26 | 中国联合网络通信集团有限公司 | 基于时空轨迹的伴随轨迹识别方法、设备及存储介质 |
CN112788524A (zh) * | 2020-12-28 | 2021-05-11 | 中国移动通信集团江苏有限公司 | 对象查询方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117177185A (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | A review of moving object trajectory clustering algorithms | |
CN102521973B (zh) | 一种手机切换定位的道路匹配方法 | |
Pfoser | Indexing the trajectories of moving objects | |
CN112182410B (zh) | 基于时空轨迹知识图谱的用户出行模式挖掘方法 | |
CN111209261B (zh) | 基于信令大数据的用户出行轨迹提取方法和系统 | |
Deng et al. | Trajectory indexing and retrieval | |
CN104965913A (zh) | 一种基于gps地理位置数据挖掘的用户分类方法 | |
CN107590250A (zh) | 一种时空轨迹生成方法及装置 | |
WO2024164544A1 (zh) | 一种基于手机信令数据的高精度时空轨迹复原方法 | |
CN106454729A (zh) | 一种城市轨道交通站点选址规划方法和装置 | |
CN108566620B (zh) | 一种基于wifi的室内定位方法 | |
CN103279551A (zh) | 一种基于欧氏距离的高维数据准确近邻快速检索方法 | |
CN105678244A (zh) | 一种基于改进编辑距离的近似视频检索方法 | |
CN104661306A (zh) | 移动终端被动定位方法及系统 | |
Zhang et al. | Periodic pattern mining for spatio-temporal trajectories: a survey | |
CN110059149A (zh) | 电子地图空间关键字查询分布式索引系统和方法 | |
CN112633389A (zh) | 一种基于mdl和速度方向的飓风运动轨迹趋势计算方法 | |
CN103514276B (zh) | 基于中心估计的图形目标检索定位方法 | |
CN117971858A (zh) | 一种多目标时空轨迹伴随行为识别方法 | |
CN117177185B (zh) | 一种基于手机通信数据的号码伴随辅助识别方法 | |
CN112559587B (zh) | 基于城市语义图谱的轨迹时空语义模式提取方法 | |
CN112765120A (zh) | 一种基于手机信令分析和提取用户移动轨迹的方法 | |
CN104242949B (zh) | 一种轨迹压缩及解压缩方法 | |
Balzano et al. | Setra: A smart framework for gps trajectories' segmentation | |
CN112685428B (zh) | 一种基于海量位置轨迹数据时空分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |