CN114297323A - 一种一机多号识别方法、装置及其存储介质 - Google Patents
一种一机多号识别方法、装置及其存储介质 Download PDFInfo
- Publication number
- CN114297323A CN114297323A CN202111011603.8A CN202111011603A CN114297323A CN 114297323 A CN114297323 A CN 114297323A CN 202111011603 A CN202111011603 A CN 202111011603A CN 114297323 A CN114297323 A CN 114297323A
- Authority
- CN
- China
- Prior art keywords
- track
- equipment
- time
- geohash
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种一机多号识别方法、装置及其存储介质,该方法首先提取设备信令轨迹数据并计算每个轨迹点的Geohash网格,基于多级滤波方法对轨迹进行去噪处理,再通过局部敏感哈希算法筛选潜在一机多号设备集合,最后融合基于金字塔匹配核的轨迹相似性模型和设备画像属性从中识别真正的一机多号设备。本发明根据日常行为模式、历史常驻地、设备信息等多维度特征识别一机多号设备,能够兼容不同运营商间基站定位差异,实现海量异网设备的高效一机多号识别。
Description
技术领域
本发明涉及通信数据分析技术领域,更具体的说是涉及一种一机多号识别方法、装置及其存储介质。
背景技术
随着5G时代的到来,各类智能设备如雨后春笋般出现在人们日常生活当中,随之而来的是海量的异网异构位置信息,包括车载GPS数据、手机信令数据以及其他物联网卡位置数据。尽管丰富的位置信息能够更加全面地刻画用户行为模式,但这些数据往往涉及不同的信息采集单元、不同运营商、不同经纬度坐标系,对一机多号的识别提出了新的挑战。
传统的一机多号识别方法一般分为基于概率统计的方式和基于个人轨迹的方式。基于概率统计的方法以基站为对象,统计共同访问某基站的次数、时长等要素,以此评估是否为一机多卡(号)用户,该方法缺少用户的连续时空位置特征,导致精度要低于基于个人轨迹的方法。基于个人轨迹的方法又可以进一步分为同网场景(同运营商)识别和异网场景(不同运营商)识别。同网场景下直接应用轨迹相似度计算方法能够获得较高的一机多号识别准确率,但两两比对计算效率低下。异网场景实际上包含了同网场景,并且相比之下更加复杂,也将面临更多的困难,例如基站基础数据不准带来的轨迹噪音问题、异网基站距离过大导致的轨迹伴随不精确问题、用户规模及轨迹数据太大带来的计算资源不足问题等。目前利用长期轨迹伴随/排除的方法能够在一定程度上缓解上述问题,但静止状态下基站的频繁远距离切换会引发较多的误排除问题,降低一机多号识别准确率,并且尽管该方法采用分布式索引提高了计算效率,但大规模排除操作使得海量设备的一机多号识别仍需要数百小时。
因此,如何提出一种精准高效的一种一机多号识别方法、装置及其存储介质是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种一机多号识别方法、装置及其存储介质,旨在克服现有技术计算时间长、误排多的不足,进一步提高一机多号的识别精度和识别效率。
为了实现上述目的,本发明采用如下技术方案:
一种一机多号识别方法,包括以下步骤:
S1.将实时接入的位置数据按设备号分组,仅存储每个设备号发生位置切换时的时空信息,分别形成离线轨迹库,并从中提取预设周期内的轨迹数据;
S2.统一每条设备号轨迹中轨迹点的经纬度坐标系,并将经纬度编码为 Geohash字符串,按Geohash网格汇总经纬度的停留时长,则所述轨迹数据转变为Geohash网格序列;
S3.遍历每个设备号在一个预设周期内的所述Geohash网格序列,并按出现时间顺序拼接成字符串,利用散列算法将所述字符串编码为二进制海明码,形成新的海明码集合H;
S4.构建二级哈希函数,所述二级哈希函数包括局部敏感哈希函数和标准哈希函数,通过所述局部敏感哈希函数将所述H中任一设备号的海明码映射到哈希桶,通过所述标准哈希函数以所述哈希桶的内容为索引建立哈希表;
S5.对于所述H中每个设备号,遍历所述哈希表中各所述哈希桶并分别计算海明距离,输出海明距离小于K的设备号集合为潜在一机多号集合;
S6.遍历每个所述潜在一机多号集合,利用基于金字塔匹配核的轨迹伴随模型计算各设备号与集合中其他设备号间的轨迹相似度,若相似度超过设定阈值,则判定为一机多号设备。
需要说明的是:
S4中所述的局部敏感哈希函数可使用但不限于Simhash函数,计算公式如下所示:
优选的,S1中的所述预设周期至少为一周;所述轨迹数据包括设备号、经度、纬度和时间。
优选的,S2中所述Geohash字符串的位数为5~7位;
所述Geohash网格序列为:
L={g|g∈{geohash(dt,t)},t2≤t≤t1}
其中geohash(dt,t)为单个设备号的全部Geohash网格,t为信令时间, t1和t2为每天任意时间段,dt为在t时刻处于该Geohash网格的停留时长。
优选的,S3中所述预设周期至少为一周;在S3的遍历每个设备号在一个预设周期内的所述Geohash网格序列之前,依次以所述Geohash网格和轨迹点为单位,对移动速度和轨迹夹角进行合理性判定,过滤轨迹噪声数据。
优选的,S5中所述K取为2~5。
优选的,在S6的遍历每个所述潜在一机多号集合之前,根据画像属性对所述潜在一机多号集合进行过滤;其中所述画像属性包括:历史常驻地和设备信息所述历史常驻地:
所述设备信息包括使用国际移动设备识别码。
优选的,S6中利用基于金字塔匹配核的轨迹相似性模型计算各设备号与集合中其他设备号间的轨迹相似度:
其中,L为时间切片数,Gl为第l层时间切片下的空间切片数,且
Kt,i(U1,U2)=|{(p,q)|(p,q)∈{cell(t,i)}},p∈U1,q∈U2|
其中,cell(t,i)为轨迹点的碰撞时空,U1和U2分别表示两个设备号各自的轨迹;
优选的,S6中相似度阈值至少为70%。
一种一机多号识别装置,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。
一种计算机可读存储介质,存储一计算机程序,所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高异网场景下一机多号的识别精度和识别效率,本发明提供了一种基于局部敏感哈希和金字塔匹配核的一机多号识别方法,以下结合实施例,对本发明进行进一步详细说明。需要注意,此处所描述的具体实施例仅用以解释本发明,不可视为对本发明的限定。
下面结合某城区内信令数据示例,描述本发明提供的基于局部敏感哈希和金字塔匹配核的一机多号识别方法实施过程:
(1)将实时接入的位置数据按设备号分组,只存储该设备号发生位置切换时的时空信息,形成离线轨迹库,从中提取过去一个月的轨迹数据,至少包含设备号、经度、纬度、时间,设备号轨迹数据示例如表1所示。
表1设备号轨迹数据示例
(2)统一每条设备号轨迹中轨迹点的经纬度坐标系,并将经纬度编码为 5位Geohash字符串,按Geohash网格汇总经纬度的停留时长,则轨迹数据转变为Geohash网格序列,记为:
L={g|g∈{geohash(dt,t)},t2≤t≤t1}
其中geohash(dt,t)为该设备号的全部Geohash网格,t为信令时间,t1和t2为每天任意时间段,dt为在t时刻处于该Geohash网格的停留时长, Geohash网格化之后的设备号轨迹数据示例如表2所示,以表1中的user1为例,Geohash网格轨迹的生成方法如下:
(21)将表1中user1的轨迹点按时间从小到大排序;
(22)遍历user1排序后轨迹点,只保留出现在不同Geohash网格的时空信息,当连续出现在同一Geohash网格时,时间t为该网格首次出现时间;
(23)网格停留时长d为步骤(22)中相邻次序网格的出现时间差,例如表2中u1_duration3=u1_time4-u1_time3。
表2设备号Geohash网格轨迹示例
(3)依次以Geohash网格和轨迹点为单位,对移动速度和轨迹夹角进行合理性判定,通过由粗到细的方式过滤轨迹噪声数据,假设表2中u1_geohash3 不符合移动速度或轨迹夹角阈值条件,去噪后的设备号轨迹数据示例如表3 所示。
表3去噪后的设备号Geohash网格序列示例
设备号 | Geohash网格 | 时间 | 停留时长 |
user1 | u1_geohash1 | u1_time1 | u1_duration1 |
user2 | u2_geohash1 | u2_time1 | u2_duration1 |
user2 | u2_geohash2 | u2_time2 | u2_duration2 |
user1 | u1_geohash4 | u1_time4 | u1_duration4 |
user3 | u3_geohash1 | u3_time1 | u3_duration1 |
(4)遍历步骤表3的Geohash网格序列,按出现时间顺序拼接成字符串,利用MD5信息摘要算法将其编码为长度n的二进制海明码 h=(x1,...,xn),进一步计算Simhash码:
C为该设备号的Geohash网格数,wi为第i个Geohash网格的权重,具体步骤如下:
(41)利用MD5信息摘要算法将拼接后的字符串编码为64位0-1字符串;
(42)针对不同停留时长赋予不同权重,并按位累加;
(43)按位遍历累加结果,如果大于0则置1,否则置0,设备号的Simhash 示例如表4所示。
表4设备号的Simhash示例
设备号 | Simhash字符串 |
user1 | u1_simhash |
user2 | u2_simhash |
user3 | u3_simhash |
user4 | u4_simhash |
user5 | u5_simhash |
(5)将各设备号的Simhash字符串平均划分为3段,依次以每段Simhash 为索引导入Redis数据库,构建Simhash模型。
(6)再次遍历步骤(5)中每个设备号的Simhash字符串,带入该Simhash 模型两两计算海明距离,输出海明距离小于3的设备号集合为潜在一机多号集合,假设表4中只有u1_simhash和u5_simhash的海明距离大于3,则潜在一机多号集合为{user2,user3,user4}。
(7)根据至少半年前累计停留时间最长的常驻地、国际移动设备识别码等画像属性对潜在一机多号集合进行过滤,不同月份历史常驻地计算公式:
(71)排除潜在一机多号集合中历史常驻地不同的设备;
(72)排除潜在一机多号集合中国际移动设备识别码前8位不同的设备号。
(8)针对步骤(7)过滤后的潜在一机多号集合,分别利用基于金字塔匹配核的轨迹伴随模型计算该设备号与其他设备号间的轨迹相似度,若加权平均后的相似度超过70%,则判定为一机多号。基于金字塔匹配核的轨迹伴随模型公式如下所示:
Kt,i(U1,U2)=|{(p,q)|(p,q)∈{cell(t,i)}},p∈U1,q∈U2|
上式中L为时间切片数,Gl为第l层时间切片下的空间切片数,cell(t,i)为轨迹点的碰撞时空,U1和U2分别表示两个设备号各自的轨迹。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种一机多号识别方法,其特征在于,包括以下步骤:
S1.将实时接入的位置数据按设备号分组,仅存储每个设备号发生位置切换时的时空信息,分别形成离线轨迹库,并从中提取预设周期内的轨迹数据;
S2.统一每条设备号轨迹中轨迹点的经纬度坐标系,并将经纬度编码为Geohash字符串,按Geohash网格汇总经纬度的停留时长,则所述轨迹数据转变为Geohash网格序列;
S3.遍历每个设备号在一个预设周期内的所述Geohash网格序列,并按出现时间顺序拼接成字符串,利用散列算法将所述字符串编码为二进制海明码,形成新的海明码集合H;
S4.构建二级哈希函数,所述二级哈希函数包括局部敏感哈希函数和标准哈希函数,通过所述局部敏感哈希函数将所述H中任一设备号的海明码映射到哈希桶,通过所述标准哈希函数以所述哈希桶的内容为索引建立哈希表;
S5.对于所述H中每个设备号,遍历所述哈希表中各所述哈希桶并分别计算海明距离,输出海明距离小于K的设备号集合为潜在一机多号集合;
S6.遍历每个所述潜在一机多号集合,利用基于金字塔匹配核的轨迹伴随模型计算各设备号与集合中其他设备号间的轨迹相似度,若相似度超过设定阈值,则判定为一机多号设备。
2.根据权利要求1所述的一种一机多号识别方法,其特征在于,S1中的所述预设周期至少为一周;所述轨迹数据包括设备号、经度、纬度和时间。
3.根据权利要求1所述的一种一机多号识别方法,其特征在于,S2中所述Geohash字符串的位数为5~7位;
所述Geohash网格序列为:
L={g|g∈{geohash(dt,t)},t2≤t≤t1}
其中geohash(dt,t)为单个设备号的全部Geohash网格,t为信令时间,t1和t2为每天任意时间段,dt为在t时刻处于该Geohash网格的停留时长。
4.根据权利要求1所述的一种一机多号识别方法,其特征在于,S3中所述预设周期至少为一周;在S3的遍历每个设备号在一个预设周期内的所述Geohash网格序列之前,依次以所述Geohash网格和轨迹点为单位,对移动速度和轨迹夹角进行合理性判定,过滤轨迹噪声数据。
5.根据权利要求2所述的一种一机多号识别方法,其特征在于,S5中所述K取为2~5。
8.根据权利要求1所述的一种一机多号识别方法,其特征在于,S6中相似度阈值至少为70%。
9.一种一机多号识别装置,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,其特征在于,所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。
10.一种计算机可读存储介质,其特征在于,存储一计算机程序,所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111011603.8A CN114297323B (zh) | 2021-08-31 | 2021-08-31 | 一种一机多号识别方法、装置及其存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111011603.8A CN114297323B (zh) | 2021-08-31 | 2021-08-31 | 一种一机多号识别方法、装置及其存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114297323A true CN114297323A (zh) | 2022-04-08 |
CN114297323B CN114297323B (zh) | 2023-05-09 |
Family
ID=80964548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111011603.8A Active CN114297323B (zh) | 2021-08-31 | 2021-08-31 | 一种一机多号识别方法、装置及其存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114297323B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117150319A (zh) * | 2023-10-30 | 2023-12-01 | 北京艾瑞数智科技有限公司 | 一种一人多号的识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160283515A1 (en) * | 2015-03-26 | 2016-09-29 | International Business Machines Corporation | Enhanced conversion between geohash codes and corresponding longitude/latitude coordinates |
US20190180610A1 (en) * | 2017-06-29 | 2019-06-13 | Shandong Provincial Communications Planning And Design Institute | Vehicle type identification method and device based on mobile phone data |
CN111436017A (zh) * | 2018-12-25 | 2020-07-21 | 北京融信数联科技有限公司 | 一种基于聚类算法的移动用户一人多卡识别方法 |
CN111950937A (zh) * | 2020-09-01 | 2020-11-17 | 上海海事大学 | 一种基于融合时空轨迹的重点人员风险评估方法 |
CN113094412A (zh) * | 2021-04-28 | 2021-07-09 | 杭州数澜科技有限公司 | 一种身份识别方法、装置、电子设备以及存储介质 |
-
2021
- 2021-08-31 CN CN202111011603.8A patent/CN114297323B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160283515A1 (en) * | 2015-03-26 | 2016-09-29 | International Business Machines Corporation | Enhanced conversion between geohash codes and corresponding longitude/latitude coordinates |
US20190180610A1 (en) * | 2017-06-29 | 2019-06-13 | Shandong Provincial Communications Planning And Design Institute | Vehicle type identification method and device based on mobile phone data |
CN111436017A (zh) * | 2018-12-25 | 2020-07-21 | 北京融信数联科技有限公司 | 一种基于聚类算法的移动用户一人多卡识别方法 |
CN111950937A (zh) * | 2020-09-01 | 2020-11-17 | 上海海事大学 | 一种基于融合时空轨迹的重点人员风险评估方法 |
CN113094412A (zh) * | 2021-04-28 | 2021-07-09 | 杭州数澜科技有限公司 | 一种身份识别方法、装置、电子设备以及存储介质 |
Non-Patent Citations (3)
Title |
---|
GEORGE THOMAS 等: "Design of high performance cluster based map for vehicle tracking of public transport vehicles in smart city" * |
丁敬安;张欣海;: "基于手机信令数据的地铁乘客路径识别研究" * |
李佳力: "一机多号业务运营计费系统的分析与设计" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117150319A (zh) * | 2023-10-30 | 2023-12-01 | 北京艾瑞数智科技有限公司 | 一种一人多号的识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114297323B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100416560C (zh) | 通过在线和离线组件聚类进化数据流的方法和设备 | |
CN106021508A (zh) | 基于社交媒体的突发事件应急信息挖掘方法 | |
CN103970747B (zh) | 网络侧计算机对搜索结果进行排序的数据处理方法 | |
CN111294742B (zh) | 基于信令cdr数据识别伴随手机号码的方法与系统 | |
CN110572813A (zh) | 一种基于移动大数据的手机用户行为相似度分析方法 | |
CN113868235A (zh) | 一种基于大数据的信息检索分析系统 | |
CN114297323A (zh) | 一种一机多号识别方法、装置及其存储介质 | |
CN112966652A (zh) | 轨迹汇聚方法、装置、计算机设备及存储介质 | |
CN112052280B (zh) | 一种基于时空数据的实有人口分析方法及系统 | |
Damiani et al. | Learning behavioral representations of human mobility | |
CN117520660A (zh) | 基于大数据的资讯信息提取推送方法及系统 | |
CN106372213B (zh) | 一种位置分析方法 | |
CN112035527A (zh) | 基于数据挖掘的电压暂降敏感设备故障水平评估方法 | |
CN112214488A (zh) | 一种欧式空间数据索引树及构建和检索方法 | |
CN115048682B (zh) | 一种土地流转信息的安全存储方法 | |
CN113516302B (zh) | 业务风险分析方法、装置、设备及存储介质 | |
CN109902129A (zh) | 基于大数据分析的保险代理人归类方法及相关设备 | |
CN115146142A (zh) | 一种基于互联网的多源数据筛选系统 | |
CN113660147A (zh) | 一种基于模糊熵的ip会话序列周期性评估方法 | |
CN110851450A (zh) | 一种基于增量计算的伴随车即时发现方法 | |
CN117648063B (zh) | 一种基于大数据分析的智能运营管理系统及方法 | |
CN110618997B (zh) | 身份数据统一方法和相关装置 | |
JP6403232B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN110020234B (zh) | 确定宽带网络接入点信息的方法和装置 | |
CN112488312B (zh) | 一种基于张量的网络交换数据的自动编码机的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |