CN111294742A

CN111294742A - 基于信令cdr数据识别伴随手机号码的方法与系统

Info

Publication number: CN111294742A
Application number: CN202010085049.7A
Authority: CN
Inventors: 陈泽江; 司俊俊; 羊晋; 涂波
Original assignee: Escortech Shanghai Information Technology Co ltd
Current assignee: Escortech Shanghai Information Technology Co ltd
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2020-06-16
Anticipated expiration: 2040-02-10
Also published as: CN111294742B

Abstract

本发明公布了一种基于信令CDR数据识别伴随手机号码的方法与系统，包括：信令数据接入模块和数据存储模块、手机号码筛选和轨迹提取模块、轨迹去噪模块、伴随计算模块、伴随号码识别模块；对筛选出的手机号码进行CDR日志提取，按日志时间排序形成手机号码轨迹数据；手机号码轨迹数据为将手机号码经过的基站映射成为的geohash方格序列；通过调整geohash方格序列的大小，调整手机号码轨迹的容错性，并通过累计一段时间的轨迹数据实现伴随手机号码的识别。本发明技术方案面向大规模手机信令数据具有可实施、效率高、效果好等技术优势。

Description

基于信令CDR数据识别伴随手机号码的方法与系统

技术领域

本发明涉及一种基于信令CDR数据识别伴随手机号码的方法和系统，通过对手机号码的信令数据产生的轨迹信息进行时空伴随计算，识别出伴随手机号码。本发明属于信令大数据挖掘技术和移动互联网用户信息安全技术领域。

背景技术

随着我国移动网络建设的推进，移动互联网用户的网络流量需求越来越大，一人两号则越来越多的成为我国互联网用户的选择。随着每个自然人持有两个号码的比率逐渐增多，对双卡双待手机里的手机号码及其伴随号码的识别，重要性也越来越高。

在公共安全方面，手机号作为唯一id，利用移动互联网数据追踪违法犯罪人员手机号时，通过伴随号码识别，获取到手机号及其伴随号码，可以协助提供更多办案信息。在人口统计方面，手机号及其伴随号的识别，可以进一步提高基于号码的人口统计准确性。在交通规划中，可以通过挖掘大规模伴随号码轨迹，掌握群体移动时空特性，智能化调度公共交通工具，提高运营效率。

信令数据是手机用户与发射基站之间的通信数据，只要手机一开机，信令数据就开始产生了。无论手机在拨号、接打电话、上网、收发短信过程中，还是在日常待机过程中，都会产生信令数据。信令数据包含了手机号码、通信连接的基站位置、通信类型、时间等数据。信令数据具有时空性，我们基于手机信令数据的时空属性，使用时空挖掘技术进行大规模的伴随号码识别。

伴随手机号码识别属于手机伴游模式(traveling companions)挖掘，Tang等人于2012年提出了智能封闭算法(Smart-and-closed algorithm)用于挖掘伴游模式。提出并建立了一种新的移动小团体(Traveling Buddy)数据结构，基于该数据结构，算法不需要考虑每个对象，能够加速挖掘过程。算法将小团体(Buddy)对象聚类成簇，通过建立小团体索引确定相邻时刻簇的共同对象，挖掘伴游模式。然而该方法在大规模信令数据上因以下原因而无法实际应用：

1、该方法面向的数据集数量有限，没法对大规模的信令数据进行运算，区县级别数量的手机号码每天可产生上亿条信令数据，该方法无法在可控时间、有限计算资源下完成计算；

2、该方法对数据兼容性低，对数据时间、空间属性的准确性依懒性强，信令数据作为基于基站位置的时空数据本身有时间不连续、空间位置偏差较大的弊端。

发明内容

为了克服上述现有技术存在的不足，解决上亿规模手机信令数据伴随号码识别问题，本发明提出了一种基于现有的信令解析后的CDR(Call Detail Record)日志数据来识别伴随手机号码的方法及系统，能够对大规模(如区县规模)手机号码进行伴随号码的识别，系统面向大规模手机信令数据具有可实施、效率高、效果好等优点。

本发明中，设定一个时间段(如每100s)为一个时间点，两个号码在某一个100s的时间段里，距离相近，如相距小于2km，则表示两个手机号码在这个时间段，发生了一次伴随现象。如果两个号码出现在了同一个时间段，但是距离较远，如距离大于2km，则表示两个手机号码发生了一次排除现象。两个号码出现在同一个时间段，则之间的距离必有远近之分，所以两号码的在这个时间点必有伴随/排除现象。伴随现象是一人两号时，两号码之间大概率要发生的现象。而排除现象，是两个没有关系的号码之间发生的必然现象，两个手机号码之间伴随、排除关系的计算，称为伴随计算。伴随计算模块用于在当天所有的轨迹中，计算出发生了伴随现象的两号码，并获取其排除数据，该问题计算量随号码数量呈几何增长。通过累积计算一段时间(如一个月)的伴随手机号码数据，即可识别出具有强伴随关系的伴随手机号码。

具体实施时，本发明筛选了目标区域(区县)的常驻活跃手机号码，对筛选出的手机号码进行CDR日志提取，日志按时间排序形成手机号码轨迹。由于CDR日志中只记录手机号码通信时链接的基站，即手机号码当时位于基站位置附近，所以CDR日志提取出的轨迹数据，是手机号码在移动过程中所连接的基站的位置轨迹。因此，本发明定义了一种容错性比较高的号码轨迹数据，将号码经过的基站映射成为geohash方格序列。geohash是一种地理编码系统，把地理空间分为网格，把二维的经纬度转换为一维的字符串序列，字符串长度越长，表示的精度越高。geohash编码是用一个有限长度的字符串来表示地理上某个位置，geohash编码最多可以将经纬度编码成长度12位的字符串，12位的字符串代表着地理上一块3.7cm*1.9cm面积大小的方格，11位的字符串代表着地理上一块14.9cm*14.9cm面积大小的方格，以此类推，5位的字符串代表着地理上一块4.9km*4.9km面积大小的方格。长度越短，一个字符串所表示的方格区域覆盖的面积越大。同经纬度一样，地球上任意区域都对应唯一的geohash编码后的字符串。geohash方格表示编码后的字符串，最长12位，代表着一个地理上的方格。通过调整geohash方格序列的大小，来调整号码轨迹的容错性，并通过累计为期一段时间(如一个月)的轨迹数据，来完成伴随手机号码的识别。

本发明提供的技术方案是：

一种基于现有的信令CDR日志数据识别伴随手机号码的方法，对筛选出的手机号码进行CDR日志提取，按日志时间排序形成手机号码轨迹数据；手机号码轨迹数据将手机号码经过的基站位置映射成为的geohash方格序列；通过调整geohash方格序列的大小，调整手机号码轨迹的容错性，并通过累计一段时间的轨迹数据实现伴随手机号码的识别；包括以下步骤：

第1步，采集手机信令数据，解析成CDR日志格式数据后进行存储；

通过运营商的通信服务系统采集手机信令数据，通过Kafka消息队列接入实时信令数据(Kafka是Apache开源的流处理平台，是一种高吞吐量的分布式发布订阅消息系统)，解析成固定格式的CDR日志格式的手机信令数据后进行存储。

第2步，选择一定时间范围(如一天至一个月)的CDR日志的手机信令数据。

第3步，从第2步的格式的手机信令CDR日志数据中筛选在目标区域基站停留的手机号码，得到目标区域的常驻手机号码；

具体实施时，筛选出位于目标区县里的基站，在CDR日志数据里筛选在目录区县基站停留的手机号码，通过停留时间筛选出该区县常驻手机号码。

第4步，从CDR日志数据中过滤出目标区域常驻手机号码的CDR日志，形成手机号码轨迹数据；

CDR日志数据包含了手机号码、手机通信连接的基站位置、时间，该数据形成手机号码轨迹数据。

第5步，对手机号码轨迹数据进行去噪，去除噪音数据，减低数据量。然后将手机号码轨迹数据中日志的时间(时间戳)转换为时间点(范围为100s-1000s，一个时间点表示一段有限的时间)，根据日志中的手机基站编号，从基站配置表获取基站的经纬度，并转换为geohash方格，最后得出手机号码、时间点(时间)、geohash方格(空间)的时空数据。

第6步,从第5步的时空数据中提取geohash方格、时间点、手机号码。按geohash方格、时间点聚合数据，将一个时间点(范围为100s-1000s)里，经过了同一个geohash方格的所有手机号码组合成手机号码列表。手机号码列表记录了有多少个号码在同一段时间里，经过了同一个方格。

第7步，从第5步的时空数据中提取手机号码、时间点、geohash方格数据，按手机号码、时间点聚合数据，将一个号码在一个时间段里经过多个geohash方格，组合成geohash方格列表，并扩展geohash方格列表，由于geohash方格表示的是一个有高和宽的矩形方格，位于同一个方格的两个点，在处于方格一条对角线两端时距离最大，而当两个点处于两个方格的相接处时，即便处于两个方格，但是距离很近。为了提高计算准确性，手机号码在一个时间点实际经过的geohash方格以及每个方格的邻居方格，都作为该号码经过的区域，扩展后的geohash方格列表包含号码实际经过的方格及每个方格的邻居方格。geohash方格列表记录了在一段时间内，一个号码经过了几个方格。

第8步，对第7步得到的数据进行处理，将手机号码经过的geohash方格列表分解，将手机号码、时间点、geohash方格列表数据，转换为手机号码、时间点、geohash方格，每条数据包含一个geohash方格。

第9步，将第8步得到的每条数据(包含一个geohash方格)左连接第6步得到的手机号码列表数据，以geohash方格、时间点为关联字段。关联出手机号码、时间点、geohash方格、该geohash方格对应的全部手机号码列表，即获取到一个手机号码在某时间点经过某geohash方格时，该geohash方格所有其他手机号码列表。

第10步，将第9步里输出的数据中的手机号码列表进行分解；得到同一个时间点同时出现在同一个geohash方格的多个手机号码；

具体实施时，输出手机号码1、geohash方格、时间点、手机号码2，该数据表示号码1、号码2在同一个时间点同时出现在了同一个geohash方格里。

第11步，计算第10步得到的一对手机号码当天出现在同一个geohash方格中的所有时间点的数量，称为伴随次数；

具体实施时，聚合号码1、号码2在当天出现在同一个geohash方格里的所有时间点合集,该时间点合集包含的时间点数量称为伴随次数。

第12步，从第5步数据中，按手机号码聚合，获取每个号码当天出现的所有时间点集合，由于时间点是我们定义的每100s-1000s的一个时间段，一天86400s，所以每天一共可以有最多86400/100＝864个时间点，一个号码在当天的时间点集合最大可以有864个点。

第13步，将第11步得到的伴随次数数据左连接第12步得到的每个号码当天出现的所有时间点数据，得到每一个手机号码当天出现的所有时间点以及这一对号码当天出现在同一个geohash方格的时间点合集；

具体实施时，得到号码1当天出现的所有时间点、号码2当天出现的所有时间点、号码1和2当天出现在同一个geohash方格里的时间点合集。

第14步，根据第13步数据，计算得到排除次数和伴随次数数据；

具体实施时，计算出号码1、号码2出现的时间点交集减去号码1、号码2共同出现在同一个geohash方格里的时间点合集，该差值称为排除次数。最后得到号码1、号码2、伴随次数、排除次数，该数据称为每天的伴随数据。

第15步，执行上述伴随数据计算过程，得到累积一定时间周期的数据。

第16步，对累积数据分别按照手机号码进行聚合，根据排除次数和伴随天数获取得到不同号码在该时间周期内的伴随次数、伴随天数、排除次数、排除天数、每个手机号码当月出现的总天数；

具体实施时，对累积到的一个月的数据按号码1、号码2进行聚合；

具体方法为：如果两号码在某天排除次数不为0，则排除天数加1，如果两号码在某天伴随次数不为0，则伴随天数加1，最后获取到两号码在一个月里的伴随次数、伴随天数、排除次数、排除天数、号码1当月出现的总天数、号码2当月出现的总天数。

第17步，对聚合后的数据执行过滤计算，排除掉排除次数远大于伴随次数的号码对，得到过滤数据。

第18步，过滤数据后，对每组号码执行评分运算。对每个手机号码取评分最高的手机号码，作为该手机号码的伴随手机号码，即完成伴随号码识别。

具体实施时，通过以下公式计算进行评分，得到每组号码之间的得分Score：

Score＝(fdts+log(fsize)-(edts/1.5)-log(esize+1))/min(fcdr,tcdr)*(1-esize/fsize)

其中，fcdr表示号码1出现的天数；tcdr表示号码2出现的天数；fsize:即followsize，表示一个月里的伴随次数；fdts:即follow dts，表示一个月里伴随的天数；esize:即eliminate size，表示一个月的排除次数；edts:即eliminate dts，表示一个月的排除天数。

基于上述方法，本发明具体实现了一种可以基于信令大数据进行伴随号码识别的系统，通过在计算方案上的优化，减少不必要的轨迹对比，从而实现了在区县级别号码规模上的轨迹对比计算，之后对计算出的数据过滤完后，通过评分模块，对两号码的伴随关系进行评分，最后识别出准确性较高的伴随号码。本发明包括以下的模块:

信令数据接入模块和数据存储模块：通过对接运营商的通信服务系统，接入手机号码不断产生的信令数据，通过Kafka消息队列等方式接入实时信令数据，并解析成固定格式的CDR日志数据后进行存储。

手机号码筛选和轨迹提取模块：先筛选出目标区县基站，然后获取到与目标区县基站链接过的手机号码。为了筛选出区县的常驻的手机号码，本模块设定了一条在目标区县停留时间超过一定阈值的规则，以此来过滤常驻号码。之后在CDR日志中，以过滤出的手机号码为目标，提取出所有号码的一个月的全部CDR日志。

轨迹去噪模块：提取出的CDR日志，按号码分组后按时间排序，形成号码当天的移动轨迹，该轨迹是使用该号码的手机终端当天链接的基站的位置轨迹。可以近似的表示为一个号码当天的移动轨迹。由于相邻基站的之间“乒乓效应”、基站位置偏移等现象的存在，导致CDR日志里包含了噪音数据，噪音数据的存在会影响计算准确性。轨迹去噪模块对轨迹里的噪音数据进行去除，并按一定的原则保留数据，最后通过去噪，提高数据质量，增加计算准确性，并减少一定的计算量。

伴随计算模块：具体设定每100s是一个时间段，该时间段称为一个时间点，两个号码在某一个100s的时间点里，距离相近(相距小于2km)，则认为是两号码在这个时间段，发生了一次伴随现象。如果两个号码出现在了同一个时间段，但是距离较远(相距大于2km)，则认为是发生了一次排除现象。两个号码出现在同一个时间点，则之间的距离必有远近之分，所以两号码的在这个时间点必有伴随/排除现象。伴随现象是一人两号时，两号码之间大概率要发生的现象。而排除现象，是两个没有关系的号码之间发生的必然现象，两号码之间伴随、排除关系的计算，称为伴随计算。伴随计算模块用于在当天所有的轨迹中，计算出发生了伴随现象的两号码，并获取其排除数据，该问题计算量随号码数量呈几何增长。

伴随号码识别模块：伴随现象除了在一人两号之间发生外，在两人同游、旅行团成员号码之间也会发生，所以一天的伴随排除数据，并不能保证两号码是强伴随关系。为此，我们需要累计计算一个月的伴随关系数据。在伴随计算模块完成一个月的数据累积后，伴随号码识别模块对累积的数据进行挖掘，识别出具有强伴随关系的伴随号码。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于海量信令数据识别伴随号码的方法和系统，本发明具有以下技术优势：

(一)通过海量数据的分析，挖掘指定区域内手机号码集合中的疑似伴随号码集，可以用来计算该区域的人均手机号码持有比例；

(二)本方案可以获取指定区域内手机号码集合中任意两个号码的伴随关系，可以用来识别手机信令系统中的手机号码与现实生活中人的对应关系。例如验证一个人实名注册的多个号码，实际是否是同一个人在使用的问题。

(三)本发明伴随挖掘容错性高，在数据的时间、位置精度有限的情况下，计算结果依然有较高准确率，并且有较高召回率。

附图说明

图1是本发明提供的伴随号码识别计算方法的流程框图。

图2是本发明具体实施时信令数据采集的流程框图。

具体实施方式

为使上述目的、特征和优点更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

第1步，通过运营商的通信服务系统采集手机信令数据，通过Kafka消息队列接入实时信令数据，解析后完成数据的格式化(包括手机号码、手机通信附着的基站、基站位置、当前时间等)，存储到数据仓库Hive中。

第2步，累计一定时间的CDR日志数据。

第3步，筛选出位于目标区县里的基站，获取连接过目标区县里的基站的号码，对号码的CDR日志按时间排序，如果一个号码的CDR日志的连续几条记录，显示位于同一基站，直到出现一条记录显示基站发生了变化，则认为从位于该第一个基站的第一条记录开始，一直到基站发生变化的那条记录结束，这两条记录标注的时间戳之间的时间间隔，为该手机号在第一个基站的停留时间。累计出每个号码在各个基站的停留时间，最后筛选出在目标区域每天晚上21:00到次日7点之间停留时间大于5小时，且满足一个月内停留天数大于15天的手机号码，作为常驻号码。

第4步，以筛选出的手机号码为目标，从CDR日志数据过滤出日志后，对过滤出的日志数据，先按手机号码分组，分组后数据按时间排序，每个号码当天的有时序的日志记录，形成了号码轨迹数据，累积过滤出一个月的目标号码CDR日志数据，用于计算。

第5步，对号码的轨迹数据进行去噪。然后日志中进行转换处理，其中，时间戳转换为时间点，每个100s-1000s一个时间段，称为时间点，用时间戳整除该时间段，并对结果取整，结果既是时间点，一个时间点表示了当天的某个有限的时间段。以时间点代替原来的时间戳。基站转为geohash方格，从工参表里获取基站编号的经纬度，经纬度经计算转换为geohash编码的字符串，代表一个geohash方格。

第6步，从第5步的时空数据中提取geohash方格、时间点、手机号码。按geohash方格、时间点聚合数据，将一个时间点(范围为100s-1000s)里，经过了同一个geohash方格的所有手机号码组合成手机号码列表。手机号码列表记录了有多少个号码在同一段时间里，经过了同一个方格。

具体实施时，num表示号码，Time表示时间，Geohash代表geohash方格，数据下标表示数据集的具体的一个数据。如号码1，在时间1，经过了Geohash方格1时，在记录表表示为：num1，Time1，Geohash1，即表1所示轨迹数据。轨迹数据按Geohash，Time聚合，如表1所示，num1,num2,num3在Time1，都经过了Geohash1，那么按Geohash，Time聚合后，得到Geohash1、Time1、“num1,num2,num3”，即表2所示Geohash方格包含的号码列表数据。

表1轨迹数据示例数据1

号码	时间点	经过的Geohash方格
			num1	Time1	Geohash1
num2	Time1	Geohash1
			num3	Time1	Geohash1
num4	Time1	Geohash2
			num5	Time2	Geohash2
num6	Time2	Geohash2

表2 geohash方格包含的号码列表数据

经过的Geohash方格	时间点	号码列表
			Geohas1	Time1	num1,num2,num3
Geohas2	Time1	num4
			Geohas2	Time2	num5,num6

第7步，从第5步的时空数据中提取手机号码、时间点、geohash方格数据，按手机号码、时间点聚合数据，将一个号码在一个时间段里经过多个geohash方格，组合成geohash方格列表，并扩展geohash方格列表，由于geohash方格表示的是一个有高和宽的矩形方格，位于同一个方格的两个点，在处于方格一条对角线两端时距离最大，而当两个点处于两个方格的相接处时，即便处于两个方格，但是距离很近。为了提高计算准确性，手机号码在一个时间点实际经过的geohash方格以及每个方格的邻居方格，都作为该号码经过的区域，扩展后的geohash方格列表包含号码实际经过的方格及每个方格的邻居方格。geohash方格列表记录了在一段时间，一个号码经过了几个方格。

具体实施时，以表3里的示例数据为例，num1在Time1，经过了Geohash1，Geohash2，Geohash3三个方格，按号码、时间聚合后，得到num1，Time1，“Geohash1,Geohash2,Geohash3,……”数据,其中Geohash方格列表里的包含号码实际经过的方格及每个方格的邻居方格，既表4所示数据。

表3轨迹数据示例数据2

号码	时间点	经过的Geohash方格
			num1	Time1	Geohash1
num1	Time1	Geohash2
			num1	Time1	Geohash3
num1	Time2	Geohash3
			num1	Time2	Geohash4
num1	Time2	Geohash4

表4号码经过的Geohash方格数据

号码	时间点	经过的Geohash方格扩展列表
			num1	Time1	Geohash1,Geohash2,Geohash3,……
num1	Time2	Geohash3,Geohash4,……

第9步，将第8步得到的每条数据(包含一个geohash方格)左连接第6步得到的手机号码列表数据，以geohash方格、时间点为关联字段。关联出手机号码、时间点、geohash方格、该geohash方格对应的全部手机号码列表，即获取到一个手机号码在某时间点经过某geohash方格时，该geohash方格包含所有其他手机号码。

具体实施时，以表5的示例数据为例，将数据按Time，Geohash左连接表2所示的Geohash方格数据，得到表7所示的号码伴随号码基础数据，如num1在Time1经过了Geohash1，同时间在Geohash1在Time1时间里，共有num1,num2,num3三个号码经过，两份数据关联后得到num1在Time1，在Geohash1方格里共有“num1,num2,num3”三个距离相近的号码，此时num2，num3，都与num1相伴随。xxx表示省略。

表5第8步所得的轨迹数据

表6号码伴随号码基础数据

号码	时间	Geohash方格	同时间同方格里其他号码列表
				num1	Time1	Geohash1	num1,num2,num3
num1	Time1	Geohash2	num4
				num1	Time1	Geohash3	xxx
num1	Time2	Geohash3	xxx
				num1	Time2	Geohash4	xxx
num1	Time2	Geohash4	xxx

第10步，将第9步里输出的数据里号码列表分解，输出号码1、geohash方格、时间点、号码2，既号码1、号码2在同一个时间点同时出现在了同一个geohash方格里。

具体实施时，将表6所示的号码伴随号码基础数据中的号码列表分解，得到表7所示的伴随数据。

表7伴随号码相关数据

号码	时间	Geohash方格	伴随号码
				num1	Time1	Geohash1	num1
num1	Time1	Geohash1	num2
				num1	Time1	Geohash1	num3
num1	Time1	Geohash2	num4

第11步，根据第10步数据，聚合获取号码1、号码2在当天出现在同一个geohash方格里的所有时间点合集，该时间点合集包含的时间点数称为伴随次数，最后得到号码1、号码2、号码1和2出现在同一个geohash方格里时间点合集。

第13步，将第11步得到的伴随次数数据左连接第12步得到的每个号码当天出现的所有时间点数据，得到每一个手机号码当天出现的所有时间点以及一对号码当天出现在同一个geohash方格的时间点合集；

第14步，根据第13步数据，计算得到排除次数和每天的伴随次数数据；

第15步，执行上述伴随数据计算过程，累积一个月数据。

第16步，对累积到的一个月数据按号码1、号码2进行聚合，如果两号码在某天排除次数不为0，则排除天数加1，如果两号码在某天伴随次数不为0，则伴随天数加1，最后获取到两号码在一个月里的伴随次数、伴随天数、排除次数、排除天数、号码1当月出现的总天数、号码2当月出现的总天数，此时，对最后聚合到的数据有以下的各个指标定义：

fcdr:号码1出现的天数

tcdr:号码2出现的天数

fsize:follow size，一个月里的伴随次数

fdts:follow dts，一个月里伴随的天数

esize:eliminate size，一个月的排除次数

edts:eliminate dts，一个月的排除天数

inteval:设定的阈值,范围可取(0.5-0.8)

第17步，对聚合后的数据，执行过滤计算，排除掉排除次数远大于伴随次数的号码对，具体实施时，过滤条件如下：

c1：min(fcdr,tcdr)*0.9>7；

c2：(fdts/(min(fcdr,tcdr)*0.9))>interval

c3：(esize/fsize)<＝0.2

c4：(fsize/(min(fcdr,tcdr)*0.9))>3

过滤出满足上述所有条件(c1～c4)的数据。

第18步，过滤数据后，对每组号码执行评分运算。通过以下公式计算得到每组号码之间的得分Score：

最后每个号码只保留与其评分最高的号码，完成伴随号码的识别。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于现有的信令CDR数据识别伴随手机号码的方法，对筛选出的手机号码进行CDR日志提取，按日志时间排序形成手机号码轨迹数据；手机号码轨迹数据为将手机号码经过的基站映射成为的geohash方格序列；通过调整geohash方格序列的大小，调整手机号码轨迹的容错性，并通过累计一段时间的轨迹数据实现伴随手机号码的识别；包括以下步骤：

第1步，采集手机信令数据，解析成CDR格式数据后进行存储；

第2步，选择一定时间范围的CDR格式的手机信令数据；

第3步，从第2步的手机信令CDR格式数据中筛选在目标区域基站停留的手机号码，得到目标区域的常驻手机号码；

第4步，从手机信令CDR格式数据中过滤出目标区域常驻手机号码的CDR日志，形成手机号码轨迹数据；CDR日志包含手机号码、手机通信连接的基站位置、时间；

第5步，对手机号码轨迹数据进行去噪；再将手机号码轨迹数据中日志的时间转换为时间段；根据CDR日志中的手机基站编号，获取基站的经纬度并转换为geohash，得出时空数据，包括手机号码、时间段、geohash空间数据；

第6步,从第5步的时空数据中提取geohash、时间点、手机号码列表；将同一时间段里经过同一个geohash方格的所有手机号码组合成手机号码列表；所述手机号码列表记录了在同一个时间段、同一个方格里经过的所有手机号码；

第7步，从第5步的时空数据中提取手机号码、时间点、geohash列表数据，将同一个号码在一个时间段里经过的多个geohash方格组合成geohash列表，并扩展geohash列表，扩展后的geohash方格列表包括号码实际经过的geohash方格及每个geohash方格的邻居方格；所述geohash列表记录了在同一个时间段、同一个号码经过的多个geohash方格；

第8步，对第7步得到的数据进行处理，将手机号码经过的geohash列表分解，将手机号码、时间点、geohash列表数据，转换为手机号码、时间点、geohash数据，每条数据包含一个geohash方格；

第9步，将第8步得到的每条数据左连接第6步得到的手机号码列表数据，以geohash方格、时间点为关联字段，得出手机号码、时间点、geohash方格、该geohash方格对应的全部手机号码列表，即获取到一个手机号码在某时间点经过某geohash方格时，该geohash方格所有其他手机号码列表；

第10步，将第9步得到的数据中的手机号码列表进行分解，得到同一个时间点同时出现在同一个geohash方格的多个手机号码；

第11步，计算第10步得到的多个手机号码当天出现在同一个geohash方格中的所有时间点的数量，称为伴随次数；

第12步，从第5步数据中，按手机号码聚合，获取每个号码当天出现的所有时间点集合；

第13步，将第11步得到的伴随次数数据左连接第12步得到的每个号码当天出现的所有时间点数据，得到每一个手机号码当天出现的所有时间点以及多个号码当天出现在同一个geohash方格的时间点合集；

第14步，根据第13步得到的时间点合集计算得到排除次数和每天的伴随数据；

设定一个时间段为一个时间点，两个手机号码在该时间段内距离相近，则表示两个号码在这个时间段发生了一次伴随现象；如果两个号码出现在同一个时间段，但是距离较远，则表示两个手机号码发生了一次排除现象；伴随数据包括两个手机号码及其伴随次数和排除次数；

第15步，执行上述伴随数据计算过程，得到累积一定时间周期的数据；

第16步，对累积数据分别按照手机号码进行聚合，根据排除次数和伴随天数获取到不同号码在该时间周期内的伴随次数、伴随天数、排除次数、排除天数、每个手机号码当月出现的总天数；

第17步，对聚合后的数据执行过滤计算，排除掉排除次数远大于伴随次数的号码对，得到过滤数据；

第18步，对第17步的过滤数据中的每组号码执行评分运算，再对每个手机号码取评分最高的手机号码作为该手机号码的伴随手机号码；

具体通过以下公式计算进行评分，得到每组号码之间的得分Score：

其中，fCDR表示号码1出现的天数；tCDR表示号码2出现的天数；fsize:即follow size，表示一个月里的伴随次数；fdts:即follow dts，表示一个月里伴随的天数；esize:即eliminate size，表示一个月的排除次数；edts:即eliminate dts，表示一个月的排除天数；

通过上述步骤，完成基于现有的信令CDR数据识别伴随手机号码的识别。

2.如权利要求1所述基于现有的信令CDR数据识别伴随手机号码的方法，其特征是，第1步具体通过运营商的通信服务系统采集手机信令数据，通过Kafka消息队列接入实时信令数据，解析成固定格式的CDR格式的手机信令数据后进行存储。

3.如权利要求1所述基于现有的信令CDR数据识别伴随手机号码的方法，其特征是，第3步中，具体筛选出位于目标区县内的基站，再在CDR数据里筛选在目录区县基站停留的手机号码，通过停留时间筛选出该区县常驻手机号码。

4.如权利要求1所述基于现有的信令CDR数据识别伴随手机号码的方法，其特征是，第5步中，时间段具体取值为100s-1000s。

5.如权利要求1所述基于现有的信令CDR数据识别伴随手机号码的方法，其特征是，第10步中，具体地，得到同一个时间点同时出现在同一个geohash方格的2个手机号码；输出数据为：手机号码1、geohash、时间点、手机号码2；该数据表示号码1、号码2在同一个时间点同时出现在了同一个geohash方格里；

第11步具体聚合手机号码1、手机号码2在当天出现在同一个geohash里的所有时间点合集,该时间点合集称为伴随次数。

6.如权利要求5所述基于现有的信令CDR数据识别伴随手机号码的方法，其特征是，第13步中，具体得到手机号码1当天出现的所有时间点、手机号码2当天出现的所有时间点、手机号码1和2当天出现在同一个geohash里的时间点合集。

7.如权利要求5所述基于现有的信令CDR数据识别伴随手机号码的方法，其特征是，第14步中，具体计算出手机号码1、手机号码2出现的时间点交集减去手机号码1、手机号码2共同出现在同一个geohash里的时间点合集，该差值称为排除次数；最后得到手机号码1、手机号码2、伴随次数、排除次数，该数据称为每天的伴随数据。

8.如权利要求5所述基于现有的信令CDR数据识别伴随手机号码的方法，其特征是，第16步中，具体方法为：如果两个手机号码在某天的排除次数不为0，则排除天数加1；如果两个手机号码在某天的伴随次数不为0，则伴随天数加1；最后获取到两个手机号码在一个月里的伴随次数、伴随天数、排除次数、排除天数、手机号码1当月出现的总天数、手机号码2当月出现的总天数。

9.如权利要求1所述基于现有的信令CDR数据识别伴随手机号码的方法，其特征是，设置每100s-1000s为一个时间段，每天共864个时间点；一个号码在当天的时间点集合最大为864个时间点。

10.一种基于现有的信令CDR数据识别伴随手机号码的系统，包括以下模块:

信令数据接入模块和数据存储模块：用于接入手机号码不断产生的信令数据，通过Kafka消息队列方式接入实时信令数据，并解析成固定格式的CDR数据后进行存储；

手机号码筛选和轨迹提取模块：用于筛选出目标区域的基站，获取与目标区域基站链接过的手机号码，并过滤得到常驻手机号码；根据过滤出的手机号码，从CDR日志中提取出所有号码的一个月的全部CDR日志；

轨迹去噪模块：用于根据提取出的CDR日志按手机号码分组后，按时间排序形成手机号码当天的移动轨迹，该轨迹是使用该号码的手机终端当天链接的基站的位置轨迹；

伴随计算模块：用于获取设定时间段或时间点内两个手机号码的伴随数据；伴随数据包括两个手机号码及其伴随次数和排除次数；

伴随号码识别模块：用于累计计算一个月的伴随关系数据，识别出具有强伴随关系的伴随号码。