CN107423434B - 一种基于话单数据的潜在社会关系网络的挖掘方法 - Google Patents
一种基于话单数据的潜在社会关系网络的挖掘方法 Download PDFInfo
- Publication number
- CN107423434B CN107423434B CN201710657030.3A CN201710657030A CN107423434B CN 107423434 B CN107423434 B CN 107423434B CN 201710657030 A CN201710657030 A CN 201710657030A CN 107423434 B CN107423434 B CN 107423434B
- Authority
- CN
- China
- Prior art keywords
- call
- data
- social relationship
- relationship network
- base station
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000005065 mining Methods 0.000 title claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims abstract description 36
- 238000004140 cleaning Methods 0.000 claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 238000013075 data extraction Methods 0.000 claims abstract description 14
- 238000007405 data analysis Methods 0.000 claims abstract description 7
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 230000003203 everyday effect Effects 0.000 claims description 4
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000011835 investigation Methods 0.000 abstract description 22
- 230000008569 process Effects 0.000 abstract description 9
- 238000004891 communication Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M15/00—Arrangements for metering, time-control or time indication ; Metering, charging or billing arrangements for voice wireline or wireless communications, e.g. VoIP
- H04M15/10—Metering calls from calling party, i.e. A-party charged for the communication
- H04M15/12—Discriminative metering, charging or billing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于话单数据的潜在社会关系网络的挖掘方法,涉及线索侦查技术领域。该方法通过通话规律、通话异常以及一人多号的多层次分析,结合动态社会关系网络,充分挖掘潜在社会关系网络,使得潜在社会关系网络的分析结果更全面、更准确,帮助侦查机关能够快速缩小侦查对象范围,提供更加合理的侦查方向;另外,本实施例中,通过正确配置数据抽取、清洗和转换规则,则在实际操作中可以无须人工参与,系统能够自动实现数据采集和数据分析,使得操作过程变得简单、准确、高效。
Description
技术领域
本发明涉及线索侦查技术领域,尤其涉及一种基于话单数据的潜在社会关系网络的挖掘方法。
背景技术
经过几十年的移动通信技术发展,移动电话已经成为公众日常生活不可缺少的通信工具,而在手机使用过程中,就产生了手机话单,由于手机是用户的重要通信工具,所以,对应的手机话单也能够在一定程度上反应用户与外界的关系,而由于手机话单分析具有定人、定时、定位、定关系等特性,所以其在公安机关、检察院机关的线索初查、审讯突破及人员追逃等方面具有独特作用。在目前大力提倡反贪侦查信息化建设、推动侦查方式转变的背景下,手机话单分析作为一种高效、隐蔽的侦查技巧,如何在实践中灵活运用,是迫切需要深入推进的一项工作。
目前,侦查机关在利用手机话单数据进行侦查分析时,主要是基于话单数据中的通话频率、通话时长来构建机主的社会关系网络。这种方法实现简单,能够快速构建机主的社会关系拓展图谱,但是仅通过通话频率和通话时长两个指标构建的机主社会关系网络往往不够全面,对于得到机主的隐秘的、潜在的社会关系网络。
但是,当机主反侦查意识比较高时,其通话特征就变得极为隐蔽,话单数据就变得异常,而当话单数据存在异常时,通过通话频率和通话时长两个指标构建的机主社会关系网络就会存在异常,从而就会误导侦查方向。所以,开发一种基于话单数据深入挖掘社会关系网络的方法,就显得极为重要。
发明内容
本发明的目的在于提供一种基于话单数据的潜在社会关系网络的挖掘方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于话单数据的潜在社会关系网络的挖掘方法,包括如下步骤:
S1,根据预先配置好的数据抽取规则从各大运营商抽取话单数据;
S2,根据预先配置好的数据清洗规则对抽取的话单数据进行清洗;
S3,根据预先配置好的数据转换规则将清洗后的数据统一转换成系统内标准话单数据,屏蔽不同运营商多种话单数据格式带来的复杂性,得到结构化的话单数据;
S4,根据结构化的话单数据构建多层次的动态社会关系网络;
S5,统计、汇总每个号码每天的结构化话单数据总结机主的通话规律;
S6,根据得到的机主的通话规律,分析通话异常时间区间内社会关系网络的变化情况;
S7,根据通话规律和通话异常分析结果,进行一人多号情况的分析;
S8,根据通话规律、通话异常分析结果、一人多号情况的分析结果以及动态社会关系网络挖掘潜在社会关系网络;
其中,S1-S4与S5-S7两部分之间的顺序可以互换。
优选地,所述数据抽取规则包括:数据抽取周期和需要抽取的话单数据元数据,所述元数据包括:话单处理时间、呼叫类型、IMSI、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、LAC、CELLID、对端LAC、对端CELLID、基站号、基站LON、基站LAT和/或基站地址。
优选地,所述数据清洗规则包括:无效数据的特征规则和特殊数据的特征规则;其中,所述无效数据是指不包括如下任意一种数据的通话记录:呼叫类型、手机号码、对方号码、IMSI、通话开始日期、通话开始时间、通话结束日期、通话解释时间、基站号、基站LAT、基站LON以及基站地址,所述无效数据的特征规则为对于所述无效数据在数据清洗时系统自动清理掉;所述特殊数据的特征规则为在数据清洗时忽略所有特殊号码的通话记录数据。
优选地,所述数据转换规则包括原数据与系统内标准话单数据的对应关系;
其中,所述系统内标准话单数据的字段包括:话单处理时间、呼叫类型、IMSI、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、LAC、CELLID、对端LAC、对端CELLID、基站号、基站LON、基站LAT和基站地址。
优选地,S7中,所述一人多号情况的分析,具体为:
根据机主B的通话规律分析结果,如果在时间区间[T1,T2],Mb与社会关系网络中任意一个节点都没有任何通话记录,在时间区间[T2,T3],有另外一个号码Mx与Nb1或Nb2网络中某些节点有通信记录,然后号码Mx在时间区间[T3,T4]或者[T3,∞)内再没有与Nb1或Nb2网络中任何节点有过通话记录,同时在时间区间[T3,∞),Mb恢复正常通话规律,则可以初步判定机主B同时拥有Mb和Mx两个号码或者Mx的机主与机主B是同伙;
或
通过多话单数据基站位置数据分析,绘制手机Mb的移动轨迹,如果在一个时间区间,总有一个新号码Mx的位置与Mb轨迹类似,则可以初步认定号码Mx与Mb同时归机主B拥有或者Mx的机主与B是同伙;
其中,
T1、T2、T3、T4为时间节点,并且T1<T2<T3<T4;
B为机主,Nb1和Nb2为B对应的社会关系网络;Mb为B的已知手机号,节点Nb1Di(其中i=1、2、3、…….)属于网络Nb1,节点Nb2Dj(其中j=1、2、3、…….)属于网络Nb2。
优选地,S4具体为:
根据结构化的话单数据,以通话频率和通话时长为边,以电话号码为节点构建多层次动态社会关系网。所述社会关系网络随着时间推移动态变化更新。
优选地,S8具体为:
机主B的关系网络Nb1的节点Nb1Di与Nb2的节点Nb2Dj,如果在不超过六个节点的情况下,拥有一个共同的节点,则初步认定Nb1Di与Nb2Dj是认识的,由Nb1Di与Nb2Dj组成新的社会关系网络;
或
通过一人多号分析得到新号码,对所有的新号码形成的社会关系网络节点进行聚类分析,得到新的社会关系网络;
或
根据当日不同时间段的通话对象、通话时间、通话时长和通话频率,构建社会关系网络。
本发明的有益效果是:本发明实施例提供的基于话单数据的潜在社会关系网络的挖掘方法,通过通话规律、通话异常以及一人多号的多层次分析,结合动态社会关系网络,充分挖掘潜在社会关系网络,使得潜在社会关系网络的分析结果更全面、更准确,帮助侦查机关能够快速缩小侦查对象范围,提供更加合理的侦查方向;另外,本实施例中,通过正确配置数据抽取、清洗和转换规则,则在实际操作中可以无须人工参与,系统能够自动实现数据采集和数据分析,使得操作过程变得简单、准确、高效。
附图说明
图1是本发明提供的基于话单数据的潜在社会关系网络的挖掘方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于话单数据的潜在社会关系网络的挖掘方法,包括如下步骤:
S1,根据预先配置好的数据抽取规则从各大运营商抽取话单数据;
S2,根据预先配置好的数据清洗规则对抽取的话单数据进行清洗;
S3,根据预先配置好的数据转换规则将清洗后的数据统一转换成系统内标准话单数据,屏蔽不同运营商多种话单数据格式带来的复杂性,得到结构化的话单数据;
S4,根据结构化的话单数据构建多层次的动态社会关系网络;
S5,统计、汇总每个号码每天的结构化话单数据总结机主的通话规律;
S6,根据得到的机主的通话规律,分析通话异常时间区间内社会关系网络的变化情况;
S7,根据通话规律和通话异常分析结果,进行一人多号情况的分析;
S8,根据通话规律、通话异常分析结果、一人多号情况的分析结果以及动态社会关系网络挖掘潜在社会关系网络;
其中,S1-S4与S5-S7两部分之间的顺序可以互换。
其中,所述数据抽取规则可以包括:数据抽取周期和需要抽取的话单数据元数据,所述元数据包括:话单处理时间、呼叫类型、IMSI、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、LAC、CELLID、对端LAC、对端CELLID、基站号、基站LON、基站LAT和/或基站地址。
本实施例中,所述数据清洗规则包括:无效数据的特征规则和特殊数据的特征规则;其中,所述无效数据是指不包括如下任意一种数据的通话记录:呼叫类型、手机号码、对方号码、IMSI、通话开始日期、通话开始时间、通话结束日期、通话解释时间、基站号、基站LAT、基站LON以及基站地址,所述无效数据的特征规则为对于所述无效数据在数据清洗时系统自动清理掉;所述特殊数据的特征规则为在数据清洗时忽略所有特殊号码的通话记录数据。
本实施例中,所述数据转换规则包括原数据与系统内标准话单数据的对应关系;
其中,所述系统内标准话单数据的字段包括:话单处理时间、呼叫类型、IMSI、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、LAC、CELLID、对端LAC、对端CELLID、基站号、基站LON、基站LAT和基站地址。
本实施例中,S7中,所述一人多号情况的分析,具体为:
根据机主B的通话规律分析结果,如果在时间区间[T1,T2],Mb与社会关系网络中任意一个节点都没有任何通话记录,在时间区间[T2,T3],有另外一个号码Mx与Nb1或Nb2网络中某些节点有通信记录,然后号码Mx在时间区间[T3,T4]或者[T3,∞)内再没有与Nb1或Nb2网络中任何节点有过通话记录,同时在时间区间[T3,∞),Mb恢复正常通话规律,则可以初步判定机主B同时拥有Mb和Mx两个号码或者Mx的机主与机主B是同伙;
或
通过多话单数据基站位置数据分析,绘制手机Mb的移动轨迹,如果在一个时间区间,总有一个新号码Mx的位置与Mb轨迹类似,则可以初步认定号码Mx与Mb同时归机主B拥有或者Mx的机主与B是同伙;
其中,
T1、T2、T3、T4为时间节点,并且T1<T2<T3<T4;
B为机主,Nb1和Nb2为B对应的社会关系网络;Mb为B的已知手机号,节点Nb1Di(其中i=1、2、3、…….)属于网络Nb1,节点Nb2Dj(其中j=1、2、3、…….)属于网络Nb2。
本实施例中,S4具体为:
根据结构化的话单数据,以通话频率和通话时长为边,以电话号码为节点构建多层次动态社会关系网。所述社会关系网络随着时间推移动态变化更新。
本实施例中,S8具体为:
机主B的关系网络Nb1的节点Nb1Di与Nb2的节点Nb2Dj,如果在不超过六个节点的情况下,拥有一个共同的节点,则初步认定Nb1Di与Nb2Dj是认识的,由Nb1Di与Nb2Dj组成新的社会关系网络;
或
通过一人多号分析得到新号码,对所有的新号码形成的社会关系网络节点进行聚类分析,得到新的社会关系网络;
或
根据当日不同时间段的通话对象、通话时间、通话时长和通话频率,构建社会关系网络。
具体实施例:
本发明实施例提供了一种基于话单数据的潜在社会关系网络的挖掘方法,主要应用于侦查机关在破案过程中利用通话记录数据发现和锁定犯罪嫌疑人,该方法实施的前置条件为:
假设时间节点T1、T2、T3、T4,并且有T1<T2<T3<T4;假设机主为B,B对应的社会关系网络为Nb1和Nb2,B的已知手机号为Mb。节点Nb1Di(其中i=1、2、3、…….)属于网络Nb1,节点Nb2Dj(其中j=1、2、3、…….)属于网络Nb2。
具体实施过程可以采用如下步骤进行实施:
第一步:针对不同运营商配置数据抽取规则。
1)配置抽取数据周期;
2)配置需要抽取的话单数据元数据,元数据包括:话单处理时间、呼叫类型、IMSI、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、LAC、CELLID、对端LAC、对端CELLID、基站号、基站LON、基站LAT、基站地址。
对于运营商缺少的数据字段,采用空值处理方式。
第二步:配置数据清洗规则。
有效通话记录是指至少包括:呼叫类型、手机号码、对方号码、IMSI、通话开始日期、通话开始时间、通话结束日期、通话解释时间、基站号、基站LAT、基站LON以及基站地址等数据的通话记录。
对于不符合上述规定的通话记录则认为是无效通话记录。对于无效通话记录在数据清洗时系统自动清理掉。
配置特殊号码(比如110号码)的清洗规则。这里可以配置成忽略所有特殊号码的通话记录数据。
第三步:配置数据转换规则
针对不同运营商不同数据格式,配置运营商数据字段与系统统一的话单数据格式一一映射关系。系统统一的话单数据字段包括:话单处理时间、呼叫类型、IMSI、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、LAC、CELLID、对端LAC、对端CELLID、基站号、基站LON、基站LAT、基站地址等。
对于运营商原始话单数据,可能缺少某些字段。例如,原始话单数据缺少“通话时长”,在配置转换规则时,需要配置由通话开始日期和时间与通话结束日期和时间进行计算后得出“通话时长”数据。另外,有些运营商把通话开始和结束时间采用“YYYYMMDD HH:mm:ss”,那么在数据转换时,就要对运营商原始通话时间进行分割以符合系统统一话单数据格式。
第四步:数据抽取、清洗、转换
在上述三个规则配置完成之后,系统开始从三大运营商抽取、清洗和转换话单数据,并将结构化后的数据存储在系统数据库中。
第五步:通话规律分析
通过统计、汇总每个号码每天的通话时间、通话时长、通话频率等总结机主通话规律。
第六步:通话异常分析
根据机主通话规律,分析通话异常时间区间内社会关系网络的变化情况。
第七步:一人多号分析
根据通话规律,通话异常分析结果,研判可能存在“一人多号”的情况。“一人多号”不局限于同一个身份证号下的多个电话号码,“一人多号”更多情况下是指同一个人或团伙可能同时使用多个电话号码,而这些电话号码可能登记在不同身份证号名下。
具体分析方法如下:
分析方法1:根据机主B的通话规律分析结果,如果Mb在时间区间[T1,T2]之间出现异常通话,比如在此期间Mb突然与社会关系网络中任意一个节点都没有任何通话记录。但是在时间区间[T2,T3]之间,突然有另外一个号码(假设这个新号码为Mx)与Nb1或Nb2网络中某些节点有过通信记录,然后这个新号码Mx在时间区间[T3,T4]或者[T3,∞)内再没有与Nb1或Nb2网络中任何节点有过通话记录,同时在[T3,∞),Mb1恢复正常通话规律。那么可以初步判定机主B同时拥有Mb和Mx两个号码或者M的机主与B1是同伙。那么这新号码Mx将会是侦查机关进一步重点侦查对象。
分析方法2:该方法主要是基于基站位置来判定。通过多话单数据基站位置数据分析,绘制手机Mb的移动轨迹。假如在一个时间范围内,比如[T2,T3],总有一个新号码Mx的位置与Mb轨迹类似,那么我们可以初步认定号码Mx与Mb同时归B拥有或者Mx的机主与B是同伙。那么这新号码Mx将会成为侦查机关进一步重点侦查对象。
第八步:社会关系网络分析
根据结构化的话单数据,以通话频率和通话时长为边,以电话号码为节点来构建多层次动态社会关系网。这个社会关系网络会随着时间推移动态变化,从而能够反映机主的社交圈变化规律。
第九步:潜在社会关系网络挖掘
对于反侦查能力和意识比较高的犯罪嫌疑人,往往在日常电话通信方面采用比较隐秘的联系方式,例如单线联系,对于此种场景下需要充分利用通话规律、通话异常、一人多号、动态社会关系网来挖掘潜在社会关系网络,为侦查机关提供侦查方向。
根据以往研究结果表明,人物关系网络具有四个性质:1、小世界特性,是指两个从生下来就不认识的人只需要通过最多不超过六个人就可以认识;2、无标度特性,每个人的沟通能力不同,每个人的活跃好友数可多可少,无固定值;3、高聚类性,所以,一个人的两个不同的人物关系圈当中的好友可能也互相认识,并且,可能关系还很亲密;4、层次性,在人物关系网络中,最常见的层次性就是工作中的上下级关系,除此之外,还有人物关系的亲疏。
基于以上四点特点,同时结合通话规律、通话异常、一人多号等分析手段,潜在社会网研判方法:
方法1:假设机主B的关系网络Nb1的节点Nb1Di与Nb2的节点Nb1Dj,在不超过六个节点的情况下,拥有一个共同的节点,那么可以初步认定Nb1Di与Nb1Dj应该是认识的,那么由Nb1Di与Nb1Dj组成的社会关系网络也可能是侦查机关重点排查的嫌疑对象;
方法2:根据人物关系的高聚类性,针对一人多号分析出来的新号码,对这些新号码的社会关系网络节点进行聚类分析,可能会得出一个新的社会关系网络;
方法3:根据通话规律,在工作日上班期间的通话对象往往是工作关系,而在工作时间之外的通话对象往往是亲属、朋友或者还有可能是其他亲密关系。通过通话时间、时长、通话频率等因素,可以构建一个立体的新型社会关系网络。这个立体的新型社会关系网络也是侦查机关重点排查的嫌疑对象。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明实施例提供的基于话单数据的潜在社会关系网络的挖掘方法,通过通话规律、通话异常以及一人多号的多层次分析,结合动态社会关系网络,充分挖掘潜在社会关系网络,使得潜在社会关系网络的分析结果更全面、更准确,帮助侦查机关能够快速缩小侦查对象范围,提供更加合理的侦查方向;另外,本实施例中,通过正确配置数据抽取、清洗和转换规则,则在实际操作中可以无须人工参与,系统能够自动实现数据采集和数据分析,使得操作过程变得简单、准确、高效。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域人员应该理解的是,上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整,也可根据实际情况并发进行。
上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,例如:个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,例如:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (7)
1.一种基于话单数据的潜在社会关系网络的挖掘方法,其特征在于,包括如下步骤:
S1,根据预先配置好的数据抽取规则从各大运营商抽取话单数据;
S2,根据预先配置好的数据清洗规则对抽取的话单数据进行清洗;
S3,根据预先配置好的数据转换规则将清洗后的数据统一转换成系统内标准话单数据,屏蔽不同运营商多种话单数据格式带来的复杂性,得到结构化的话单数据;
S4,根据结构化的话单数据构建多层次的动态社会关系网络;
S5,统计、汇总每个号码每天的结构化话单数据总结机主的通话规律;
S6,根据得到的机主的通话规律,分析通话异常时间区间内社会关系网络的变化情况;
S7,根据通话规律和通话异常分析结果,进行一人多号情况的分析;
S8,根据通话规律、通话异常分析结果、一人多号情况的分析结果以及动态社会关系网络挖掘潜在社会关系网络;
其中,S1-S4与S5-S7两部分之间的顺序可以互换。
2.根据权利要求1所述的基于话单数据的潜在社会关系网络的挖掘方法,其特征在于,所述数据抽取规则包括:数据抽取周期和需要抽取的话单数据元数据,所述元数据包括:话单处理时间、呼叫类型、IMSI、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、LAC、CELLID、对端LAC、对端CELLID、基站号、基站LON、基站LAT和/或基站地址。
3.根据权利要求1所述的基于话单数据的潜在社会关系网络的挖掘方法,其特征在于,所述数据清洗规则包括:无效数据的特征规则和特殊数据的特征规则;其中,所述无效数据是指不包括如下任意一种数据的通话记录:呼叫类型、手机号码、对方号码、IMSI、通话开始日期、通话开始时间、通话结束日期、通话解释时间、基站号、基站LAT、基站LON以及基站地址,所述无效数据的特征规则为对于所述无效数据在数据清洗时系统自动清理掉;所述特殊数据的特征规则为在数据清洗时忽略所有特殊号码的通话记录数据。
4.根据权利要求1所述的基于话单数据的潜在社会关系网络的挖掘方法,其特征在于,所述数据转换规则包括原数据与系统内标准话单数据的对应关系;
其中,所述系统内标准话单数据的字段包括:话单处理时间、呼叫类型、IMSI、手机号码、对方号码、通话开始日期、通话开始时间、通话结束日期、通话结束时间、通话时长、通话计费、动态漫游、交换机号、LAC、CELLID、对端LAC、对端CELLID、基站号、基站LON、基站LAT和基站地址。
5.根据权利要求1所述的基于话单数据的潜在社会关系网络的挖掘方法,其特征在于,假设T1、T2、T3、T4为时间节点,并且T1<T2<T3<T4;
B为机主,Nb1和Nb2为B对应的社会关系网络;Mb为B的已知手机号,节点Nb1Di(其中i=1、2、3、…….)属于网络Nb1,节点Nb2Dj(其中j=1、2、3、…….)属于网络Nb2;
则S7中,所述一人多号情况的分析,具体为:
根据机主B的通话规律分析结果,如果在时间区间[T1,T2],Mb与社会关系网络中任意一个节点都没有任何通话记录,在时间区间[T2,T3],有另外一个号码Mx与Nb1或Nb2网络中某些节点有通信记录,然后号码Mx在时间区间[T3,T4]或者[T3,∞)内再没有与Nb1或Nb2网络中任何节点有过通话记录,同时在时间区间[T3,∞),Mb恢复正常通话规律,则可以初步判定机主B同时拥有Mb和Mx两个号码或者Mx的机主与机主B是同伙;
或
通过多话单数据基站位置数据分析,绘制手机Mb的移动轨迹,如果在一个时间区间,总有一个新号码Mx的位置与Mb轨迹类似,则可以初步认定号码Mx与Mb同时归机主B拥有或者Mx的机主与B是同伙。
6.根据权利要求1所述的基于话单数据的潜在社会关系网络的挖掘方法,其特征在于,S4具体为:
根据结构化的话单数据,以通话频率和通话时长为边,以电话号码为节点构建多层次动态社会关系网;所述社会关系网络随着时间推移动态变化更新。
7.根据权利要求1所述的基于话单数据的潜在社会关系网络的挖掘方法,其特征在于,S8具体为:
机主B的关系网络Nb1的节点Nb1Di与Nb2的节点Nb2Dj,如果在不超过六个节点的情况下,拥有一个共同的节点,则初步认定Nb1Di与Nb2Dj是认识的,由Nb1Di与Nb2Dj组成新的社会关系网络;
或
通过一人多号分析得到新号码,对所有的新号码形成的社会关系网络节点进行聚类分析,得到新的社会关系网络;
或
根据当日不同时间段的通话对象、通话时间、通话时长和通话频率,构建社会关系网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710657030.3A CN107423434B (zh) | 2017-08-03 | 2017-08-03 | 一种基于话单数据的潜在社会关系网络的挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710657030.3A CN107423434B (zh) | 2017-08-03 | 2017-08-03 | 一种基于话单数据的潜在社会关系网络的挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107423434A CN107423434A (zh) | 2017-12-01 |
CN107423434B true CN107423434B (zh) | 2020-02-18 |
Family
ID=60437437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710657030.3A Expired - Fee Related CN107423434B (zh) | 2017-08-03 | 2017-08-03 | 一种基于话单数据的潜在社会关系网络的挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107423434B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109963276A (zh) * | 2017-12-26 | 2019-07-02 | 恒为科技(上海)股份有限公司 | 一种话单数据处理方法及装置 |
CN108241910A (zh) * | 2018-01-25 | 2018-07-03 | 广东惠禾科技发展有限公司 | 一种犯罪传播复杂网络结点分析方法、装置和用户终端 |
CN110337059B (zh) * | 2018-03-30 | 2021-03-12 | 中国联合网络通信集团有限公司 | 一种用户家庭关系的分析算法、服务器及网络系统 |
CN109766484B (zh) * | 2018-12-28 | 2021-06-01 | 苏州龙信信息科技有限公司 | 数据可视化方法、装置、设备和介质 |
CN109766383A (zh) * | 2019-01-08 | 2019-05-17 | 重庆市千将软件有限公司 | 大数据可视化话单分析系统 |
CN110245196A (zh) * | 2019-05-05 | 2019-09-17 | 福建中锐电子科技有限公司 | 一种基于时序和特征值确定公共安全环境的数据关联分析方法 |
CN110971770B (zh) * | 2019-11-27 | 2021-07-23 | 武汉虹旭信息技术有限责任公司 | 基于话单数据分析的社会关系疏密度推定方法及系统 |
CN111131627B (zh) * | 2019-12-20 | 2021-12-07 | 珠海高凌信息科技股份有限公司 | 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质 |
CN111611309B (zh) * | 2020-03-30 | 2023-11-07 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 话单数据关系网络交互式可视化方法 |
CN113434588B (zh) * | 2021-01-30 | 2024-04-02 | 河南信安通信技术股份有限公司 | 基于移动通信话单的数据挖掘分析方法及装置 |
CN112907385A (zh) * | 2021-02-23 | 2021-06-04 | 深圳市广信安科技股份有限公司 | 社会关系分析方法、终端设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753724A (zh) * | 2008-12-15 | 2010-06-23 | 中国移动通信集团重庆有限公司 | 自动判定集群用户号码的系统和方法 |
CN101854439A (zh) * | 2010-02-04 | 2010-10-06 | 深圳市同洲电子股份有限公司 | 一种基于话单的人际关系网的分析方法与系统 |
CN103138981A (zh) * | 2011-11-30 | 2013-06-05 | 中国移动通信集团公司 | 一种社交网络分析方法和装置 |
CN105592405A (zh) * | 2015-10-30 | 2016-05-18 | 东北大学 | 基于派系过滤和标签传播的移动通信用户群组构造方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676162B2 (en) * | 2005-05-24 | 2014-03-18 | Marshall Feature Recognition Llc | Remote subscriber identification (RSID) system and method |
-
2017
- 2017-08-03 CN CN201710657030.3A patent/CN107423434B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753724A (zh) * | 2008-12-15 | 2010-06-23 | 中国移动通信集团重庆有限公司 | 自动判定集群用户号码的系统和方法 |
CN101854439A (zh) * | 2010-02-04 | 2010-10-06 | 深圳市同洲电子股份有限公司 | 一种基于话单的人际关系网的分析方法与系统 |
CN103138981A (zh) * | 2011-11-30 | 2013-06-05 | 中国移动通信集团公司 | 一种社交网络分析方法和装置 |
CN105592405A (zh) * | 2015-10-30 | 2016-05-18 | 东北大学 | 基于派系过滤和标签传播的移动通信用户群组构造方法 |
Non-Patent Citations (1)
Title |
---|
"手机话单智能分析系统的设计与实现";卢玉麟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315;I138-1962 * |
Also Published As
Publication number | Publication date |
---|---|
CN107423434A (zh) | 2017-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423434B (zh) | 一种基于话单数据的潜在社会关系网络的挖掘方法 | |
CN108924333B (zh) | 诈骗电话识别方法、装置和系统 | |
CN109828967B (zh) | 一种伴随关系获取方法、系统、设备、存储介质 | |
CN105205155B (zh) | 一种大数据犯罪同伙的筛查系统和方法 | |
McMillan et al. | Investigating the increase in mobile phone evidence in criminal activities | |
CN105354196A (zh) | 信息推送方法和信息推送装置 | |
US20110125746A1 (en) | Dynamic machine assisted informatics | |
CN111930868A (zh) | 一种基于多维数据采集的大数据行为轨迹分析方法 | |
DE112013004348T5 (de) | Verfahren und Vorrichtung zum Identifizieren eines Verdächtigen durch mehrere korrelierte Geräteidentitäten | |
CN109816404B (zh) | 基于dbscan算法的电信诈骗团伙聚类方法及电信诈骗团伙聚类系统 | |
CN111814629A (zh) | 人员检测方法及装置、电子设备和存储介质 | |
CN101827180A (zh) | 基于话单确定移动终端活动范围的方法、装置及系统 | |
EP2875623A1 (en) | Method and system for traffic estimation | |
CN107092651B (zh) | 一种基于通信网络数据分析的关键人物挖掘方法及系统 | |
CN102594966A (zh) | 一种在手机上显示未知来电号码信息的方法和系统 | |
CN110647561A (zh) | 用于涉毒人员的通信轨迹分析方法 | |
CN114093014A (zh) | 一种图码关联强度计算方法、装置、设备及存储介质 | |
CN110659335A (zh) | 一种隐性吸毒人员分析方法 | |
CN109859426A (zh) | 一种社区安防管理系统 | |
CN112445870A (zh) | 基于手机取证电子数据的知识图谱串并案分析方法 | |
CN110933662A (zh) | 一种基于数据挖掘的时空伴随关系分析方法和系统 | |
WO2018232887A1 (zh) | 一种流动人员信息采集反馈方法、服务器及系统 | |
CN114780612B (zh) | 一种基于主题事件的时间关联挖掘目标人员的系统及方法 | |
CN111930827A (zh) | 一种基于人房关系数据的人员关系挖掘方法 | |
CN108427930B (zh) | 基于数理统计建立身份识别信息关联关系的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200218 Termination date: 20210803 |