CN114780612B - 一种基于主题事件的时间关联挖掘目标人员的系统及方法 - Google Patents

一种基于主题事件的时间关联挖掘目标人员的系统及方法 Download PDF

Info

Publication number
CN114780612B
CN114780612B CN202210408154.9A CN202210408154A CN114780612B CN 114780612 B CN114780612 B CN 114780612B CN 202210408154 A CN202210408154 A CN 202210408154A CN 114780612 B CN114780612 B CN 114780612B
Authority
CN
China
Prior art keywords
key
personnel
data
record
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210408154.9A
Other languages
English (en)
Other versions
CN114780612A (zh
Inventor
夏玲玲
王群
梁广俊
吴柳
毛其杨
李昕来
薛佳妮
朱沈龙
熊浩天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU POLICE INSTITUTE
Original Assignee
JIANGSU POLICE INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU POLICE INSTITUTE filed Critical JIANGSU POLICE INSTITUTE
Priority to CN202210408154.9A priority Critical patent/CN114780612B/zh
Publication of CN114780612A publication Critical patent/CN114780612A/zh
Application granted granted Critical
Publication of CN114780612B publication Critical patent/CN114780612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Fuzzy Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于主题事件的时间关联挖掘目标人员的系统及方法,该系统包括数据采集模块、交互式数据导入模块、数据处理模块、算法分析模块、联合挖掘模块和目标人员甄别模块。本发明对显性重点人员的交互记录进行数据清洗、数据脱敏、重点人员标记,根据记录的交互时间来判定查询方式,然后筛查被关联人员并计算关联度Re值。本发明以重点人员之间的通联或转账交易行为前后的关联性为有效切入口,筛选出目标人员即隐性的高风险重点人员,在执法拓展研判线索的同时提高研判效率,实现扩线侦查,由点到面、由人到案,充分提升应用新技术新手段服务“智慧公安”的实战效能。

Description

一种基于主题事件的时间关联挖掘目标人员的系统及方法
技术领域
本发明涉及网络分析及数据挖掘技术领域,尤其涉及一种基于主题事件的时间关联挖掘目标人员的系统及方法。
背景技术
在大数据时代,随着移动互联等新技术的应用与公众日常生活的联系不断加强,调查领域也面临着一场前所未有的历史变革。针对获取的情报线索,传统的调查模式主要依赖人工排查摸底,尽管人工筛查的准确率较高,但面对错综复杂的通信话单、即时聊天、转账交易等海量的人员之间的交互式数据,存在效率低、成本高、人力资源缺乏等问题,导致传统的人工筛查很难进行大规模的推广应用。
因此在信息化高速发展的时代潮流中,如何巧妙利用大数据思维,实现对网络服务器、运营商基站等海量交互式数据的整合处理,从能够获取的各类社会资源中挖掘出有价值的线索,从而提高调查效率,指引调查方向,已成为新形势下实施科技强警战略和落实“数据赋能”攻坚行动的突破口。
当前,目标人员(即隐性涉案人员也称为隐性重点人员)线索搜集和研判过程中存在人工排查目标人员时间长、效率低、成本高的问题。尽管目前已有一些数据处理或分析的软件帮助调查人员分析显性重点人员的活动规律及社会关系,但在软件使用、筛查隐性重点人员(即挖掘目标人员)方面尚有不足。一方面,由于软件的开发人员往往缺乏调查思维,特别是缺少对犯罪行为特征的深入了解,难以将调查思维融入到软件系统功能中,系统涉及的算法偏理论,应用到实战的效果往往不尽如人意;另一方面,现有软件要么聚焦挖掘显性重点人员社会关系并对关系数据进行可视化,要么聚焦单一的人员行为特征和活动规律,例如对显性重点人员的购票、住宿等记录信息,使用传统的交叉碰撞、统计分析等方法,挖掘出同乘、同住信息,缺乏对人员之间交互式数据如通信话单、即时聊天、转账交易等的交互行为特征和活动规律的深入分析,从而导致挖掘目标人员的算法准确性不高。
就单一的人员行为特征和活动规律入手来挖掘目标人员的方法,如蒋文荣等【蒋文荣,吴昊晏.基于活动行为的隐性人员识别方法研究[J].智能建筑,2017, 000(006):78-80】基于人员的活动行为数据,从获得所特有的通联对象的日常行为分析为突破口,找特征,查规律,分析梳理相关犯罪行为特征,运用聚类分析等大数据应用技术,构建一个基于活动行为的隐性人员识别模型,以提高布控查处隐性人员的精准度和效率。陈雅等【陈雅,夏元松,农忠海.大数据技术在案件中的应用[J].电脑知识与技术,2017,13(005):1-2.】通过对线索指向区域或嫌疑人进行动态监控,实时分析包括通讯信息、活动信息、网络信息等众多动态监控信息内容,不断完善线索发现目标人员和有价值的信息。潘潇等【潘潇,王斌君. 基于社交网络的犯罪发现算法研究[J].软件导刊,2018,17(12):5.】根据电信利用通信网络的特点,分别提出基于相似度和基于属性的犯罪发现算法。
近年来,众多学者在识别网络中影响力节点以及节点重要性排序方面做了很多有益的工作。国内吕琳媛和任晓龙等人[Lü L,Chen D,Ren X L,et al.Vital nodesidentification in complex networks[J].Physics Reports,2016,650:1-63.]对这方面工作做了较为详尽的综述,介绍了复杂网络领域具有代表性的多种重要节点挖掘方法,详细比较了各种方法的计算思路、应用场景和优缺点。这些算法中有几类比较主流具有一定的代表性,包括基于结构中心性[Chen D,Lü L,Shang M S, et al.Identifyinginfluential nodes in complex networks[J].Physica A:Statistical mechanics andits applications,2012,391(4):1777-1787.]、基于迭代优化中心性等。其中基于结构中心性的方法,具体又可以细分为两类:一是基于节点邻居的排序方法,如度中心性算法;二是基于路径的排序算法,如接近中心性、Katz中心性、介数中心性等。基于迭代优化中心性算法,除了考虑节点的邻居数量(如微博中用户的粉丝数),还考虑了节点邻居的质量对节点重要性的影响。包括无向网络中的特征向量中心性和累计提名方法,有向网络中的PageRank算法和吕琳媛等人针对PageRank算法存在的问题提出的LeaderRank算法【Lü L,Zhang Y C, Yeung C H,et al.Leaders in social networks,the delicious case[J].PloS one,2011, 6(6):e21202和Li Q,Zhou T,Lü L,et al.Identifying influentialspreaders by weighted Leader Rank[J].Physica A Statistical Mechanics&ItsApplications,2014, 404(24):47-55】等。这些中心性算法应用于社会网络分析中识别一群人中哪些人比其他人更有影响力显然是有效的,但是应用于交互式数据中目标人员的挖掘明显不合适。究其原因很多目标人员在重点人员的交互式数据形成的复杂人际交互网络中往往不是影响力高的节点,可能只是一个和某一个重点人员联系过一两次的人员,表现在网络中就是一个叶子节点(度值为1的节点)。此外,还有些算法出现了较高的误判率,挖掘出的目标人员经落地核查发现是运营商充值号码及快车司机、外卖、快递人员等。如某个滴滴司机在一段时间内确实运载过多名显性重点人员,成为多名重点人员的共同联系人,再如某个美团外卖小哥给多个重点人员送过外卖等。因此基于重点人员的交互式数据挖掘目标人员,不能仅考虑人与人之间的交互与否,还要考虑交互行为前后行为之间的关联性以及交互式数据的特征。
在实战中,为了躲避调查,重点人员之间的联系频次本就不多,亟需一个综合考量重点人员之间的通联或转账交易行为前后的关联性,以及人员之间交互行为特征、活动规律等多因素的挖掘系统和方法,为调查人员拓展研判线索的同时提高研判效率,实现扩线调查。因此,如何挖掘潜在的目标人员,即隐性重点人员来提高调查破案效率成为亟需解决的技术问题。
发明内容
发明目的:针对现有技术中存在的不足之处,本发明根据已知显性重点人员的通信话单、即时聊天、转账交易及其它交互式数据,提供一种基于主题事件的时间关联挖掘目标人员的系统及方法,即从显性重点人员的交互式数据入手,寻找潜在的重点人员,即挖掘目标人员。
技术方案:本发明基于主题事件的时间关联挖掘目标人员的系统包括数据采集模块、交互式数据导入模块、数据处理模块、算法分析模块、联合挖掘模块和目标人员甄别模块;
数据采集模块对显性重点人员的交互记录进行采集;
交互式数据导入模块合并所述交互记录并导入数据;
数据处理模块对原始数据进行数据清洗、脱敏处理,以及重点人员标记;
算法分析模块对重点人员的交互式记录进行分析,利用重点人员之间的通联或转账交易行为前后的关联性,根据筛查规则筛查出被关联人员,并采用关联度函数计算该被关联人员的关联度Re;
联合挖掘模块,在算法分析模块的基础上,根据不同主题事件对筛查出的被关联人员挖掘出目标人员;
目标人员甄别模块,对挖掘出的目标人员进行落地核查。
本发明基于主题事件的时间关联挖掘目标人员的方法包括以下过程:
步骤(1),对显性重点人员的交互记录进行数据清洗、数据脱敏、重点人员标记,将得到的交互行为双方均为重点人员的记录命名为关键记录,然后进入步骤(2);其中,交互行为如通话、聊天、转账的双方均为重点人员的记录称为关键记录;
步骤(2),筛查被关联人员并计算其关联度Re值,根据每行记录的交互时间在关键记录的交互时间之前还是之后,来判定查询方式属于向前查询还是向后查询,若是向前查询,则进入步骤(2.1);若是向后查询,则进入步骤(2.2);查询结束后进入步骤(2.3);步骤(2.1)~(2.2)的具体过程如下:
步骤(2.1),向前查询:从交互式数据中的第一条关键记录开始,依次向前查询计算每一条记录与第一条关键记录的时间间隔x,直至时间间隔x>阈值n 时停止向前查询;其中时间间隔x为关键记录的开始时间和被查询的记录结束时间的绝对差值,阈值n根据所述主题事件进行设定;
如果时间间隔x<=阈值n,则将关键记录之前的交互行为和向前筛查规则进行比对,筛查出被关联人员,并采用关联度函数R(x)计算所述被关联人员的关联度Re值;
步骤(2.2),向后查询:从交互式数据中的第一条关键记录开始,依次向后查询计算每一条记录与第一条关键记录的时间间隔x,直至时间间隔x>阈值n 时停止向后查询;其中时间间隔x为关键记录的结束时间和被查询的记录开始时间的绝对差值,阈值n根据所述主题事件进行设定;如果时间间隔x<=阈值n,则将关键记录之后的交互行为和向后筛查规则进行比对,筛查出被关联人员,并采用关联度函数R(x)计算所述被关联人员的关联度Re值;
步骤(2.3),循环移动至下一条关键记录,重复步骤(2.1)和(2.2);
步骤(3),创建二维表,统计被关联人员的关联度Re值,并设置权值对被关联人员进行可疑度排序来挖掘目标人员。
步骤(1)中,数据清洗包括以下过程:
步骤(1.1a),数据汇总:将存有显性重点人员的交互记录的文件放在一个文件中;
步骤(1.1b),数据处理:首先进行异常值处理,删除包含空值的那一列数据;其次进行去冗余化处理,最后去重复化处理,并用time模块将通联或转账交易行为时间标准化,再将交互记录按时间排序;
步骤(1.1c),去除干扰数据。
步骤(1)中,数据脱敏时,对涉及个人隐私的手机号码、IMEI码进行数据加密、变形。
步骤(2)中的被关联人员的关联度函数R(x)为:
其中,x是间隔时间的绝对差值,m是函数的分段点,n是阈值。
步骤(1)中,对每条交互记录的时间标准化,然后将交互记录按时间先后排序。
步骤(1)中,重点人员标记是对交互记录中重点人员的号码或账户进行标记。
步骤(1)中,交互行为包括通话、聊天或转账。
步骤(2.1)中的向前筛查规则为:计算关键记录之前的交互记录与该关键记录的时间间隔x,如果时间间隔x<=阈值n,则判断交互记录的行为双方中是否有一方为关键记录的发起方,如果是,则所述交互记录的另一方为筛查的被关联人员;如果否,则跳过所述交互记录继续向前筛查,直至时间间隔x>阈值n 时停止向前筛查。
步骤(2.2)中的向后筛查规则为:计算关键记录之后的交互记录与该关键记录的时间间隔x,如果时间间隔x<=阈值n,则判断交互记录的发起方是否为关键记录的其中一方,如果是,则所述交互记录的接收发为筛查的被关联人员;如果否,则跳过所述交互记录继续向后筛查,直至时间间隔x>阈值n时停止向后筛查。
工作原理:在信息化时代,针对每一个特定主题事件,如涉恐,参与者之间围绕该主题事件的沟通交流必不可少。就某类犯罪而言,嫌疑人之间也少不了必要的通联如打电话、发短信、转账,利用重点人员之间的通联或转账交易行为前后的关联性,根据筛查规则筛查出被关联人员。
如某个未识别人员和重点人员的通联行为总是出现在该重点人员与其他重点人员的通联行为前后,则该未识别人员与重点人员的关联度很大,即为被筛查出的被关联人员。然后通过采用关联度函数R(x)计算筛查出的被关联人员的关联度Re值,基于不同主题事件选取其他指标对筛查出的被关联人员进行多指标综合考量,根据不同指标设置相应的权重,其中将Re值这项指标的权重设置的相对较高,计算得到最终的被关联人员的综合风险值,从高到低排序,风险值高的即为本发明挖掘出的目标人员,最后对挖掘出的目标人员进行落地核查。即本发明在已知显性重点人员的交互式数据如通信话单、即时聊天、转账交易的基础上,基于主题事件的时间关联目标人员的挖掘系统对隐性重点人员(即目标人员)进行识别,利用重点人员之间的通联或转账交易行为前后的关联性,根据筛查规则筛查出被关联人员。
虽然目前已有一些数据处理或分析的软件帮助调查人员分析显性重点人员的活动规律及社会关系,但在软件使用、筛查隐性重点人员(即挖掘目标人员) 方面尚有不足之处。一方面,由于软件的开发人员缺乏调查思维,尤其是缺少对犯罪行为特征的深入了解,难以将调查思维融入到软件系统功能中,系统涉及的算法偏理论,应用到实战中的效果不理想。例如现有的数据处理或分析软件采用的仍然是度中心性(degree)、接近中心性(closeness)和介数中心性(betweenness) 等中心性算法,而该类算法应用于社会网络分析中识别一群人中哪些人比其他人更有影响力显然是有效的,但是应用于交互式数据中目标人员的挖掘中不合适。因为很多目标人员在重点人员的交互式数据形成的复杂人际交互网络中不是影响力高的节点,只是一个和某个重点人员联系过一两次的人员,表现在网络中就是一个叶子节点,即度值为1的节点。
另一方面,现有软件或者聚焦挖掘显性重点人员社会关系并对关系数据进行可视化,或者聚焦单一的人员行为特征和活动规律,例如对显性重点人员的购票、住宿记录信息,使用传统的交叉碰撞、统计分析方法,挖掘出同乘、同住人员信息,缺乏对人员之间交互式数据如通信话单、即时聊天、转账交易的交互行为特征和活动规律的深入分析,从而导致挖掘目标人员的算法准确性不高。上述算法挖掘出的很多目标人员经落地核查发现是运营商充值号码及快车司机、外卖或者快递人员,即算法的误判率较高。如滴滴司机在一段时间内确实运载过多名显性重点人员,成为多名重点人员的共同联系人;或者某个美团外卖小哥给多个重点人员送过外卖。
本发明用于人员交互式数据前后记录有显著主题事件关联性的多个领域,如商业挖掘合作、商家个性化挖掘、疫情流调下的密接者识别以及挖掘涉恐分子和组织。
有益效果:与现有技术相比,本发明具有以下优点:
(1)本发明的技术方案结合实战,综合考量重点人员之间的通联或转账交易行为前后的关联性,以及人员之间交互行为特征、活动规律,基于重点人员的交互式数据挖掘目标人员,解决了挖掘相关主题事件目标人员人工排查效率低、成本高、很难进行大规模推广使用的问题。
(2)本发明通过具体数据体现出,本发明挖掘的目标人员落地核查结果与现有的算法挖掘的目标人员落地核查结果相比,具有更高的准确性,即表明本发明提供的算法和系统具有较强的实用性和较高的准确率。
(3)本发明的系统具有导入数据效率高、可扩展性好、易修改的特点,方便后期的不断完善,系统适用范围广,可以应用于人与人之间的具有时间属性的多种交互式数据,助力机关搜集和研判线索、挖掘隐性涉案人员、甄别涉恐分子、打击组织,在商业挖掘合作、商家个性化挖掘、疫情流调下的密接者识别等领域也有广阔的应用前景。
(4)本发明在获取显性重点人员交互式数据基础上,以重点人员之间的通联或转账交易行为前后的关联性为有效切入口,筛选出目标人员即隐性的高风险重点人员,在拓展研判线索的同时提高研判效率,实现扩线调查,由点到面、由人到案,充分提升应用新技术新手段服务的实战效能。
附图说明
图1为本发明基于主题事件的时间关联挖掘目标人员的系统框架图;
图2为本发明基于主题事件的时间关联挖掘目标人员的方法执行流程图;
图3为本发明基于主题事件的时间关联挖掘目标人员的方法详细流程图;
图4为本发明的步骤(2.1)中描述的向前筛查规则的情形1;
图5为本发明的步骤(2.1)中描述的向前筛查规则的情形2;
图6为本发明的步骤(2.2)中描述的向后筛查规则的情形1;
图7为本发明的步骤(2.2)中描述的向后筛查规则的情形2:
图8为不同的m和n取值下的被关联人员关联度函数曲线图。
具体实施方式
因话单数据具有典型性、代表性意义,易理解,因此本发明实施例中选用话单数据来具体描述本发明。
如图1所示,本发明基于主题事件的时间关联挖掘目标人员的系统包括数据采集模块、交互式数据导入模块、数据处理模块、算法分析模块、联合挖掘模块和目标人员甄别模块。
其中,数据采集模块,用于对已知显性重点人员的交互记录进行采集,本实施例中选用话单数据来进行描述,即对已知显性重点人员的话单数据进行采集,获取重点人员在一段时间的话单数据。
交互式数据导入模块用来合并采集到的数个月的话单数据并导入数据。
数据处理模块,对话单数据进行数据预处理。数据预处理包括数据清洗、脱敏处理以及重点人员标记。其中数据清洗为去除重复数据、错误数据及无效数据,删除一些用不到的列,保留主被叫标志、本方号码、对方号码、通联开始时间、通联时长五列数据。将主被叫标志这一列统一调整为“主叫”,即将标志为“被叫”的本方号码和对方号码两列进行交换,则“主被叫标志”这一列删除。
脱敏处理是将重点人员的真实手机号码、IMEI码个人敏感信息字段进行数据加密、变形。重点人员标记是将话单数据中重点人员的手机号码打*号标记,即增加两列数据,分别备注本方号码和对方号码是否为重点人员,是的话该列字段值为*。将本方号码和对方号码(即通联双方)均为重点人员的这一条通联记录称为关键记录。因为数据采集模块获取的是重点人员的话单数据,因此话单数据的每一条通联记录中至少有一列是*号标记的,两列均是*号的就是通联双方均为重点人员的关键记录。数据预处理后得到共六列数据为本方号码(主叫)、主叫是否为重点人员、对方号码(被叫)、被叫是否为重点人员、通联开始时间和通联时长。
算法分析模块对已知重点人员的话单数据进行分析,利用重点人员前后通话、短信及其它通联行为的关联性,根据向前和向后两种筛查规则筛查出被关联人员,并采用关联度函数R(x)计算该被关联人员的关联度Re值。
联合挖掘模块,是在算法分析模块的基础上,基于不同主题事件选取其它指标对筛查出的被关联人员进行多指标综合考量,根据不同指标设置相应的权重,其中将Re值的权重设置的相对较高,计算得到最终的被关联人员的综合风险值,从高到低排序,风险值高的即为本发明挖掘出的目标人员。
以话单数据为例,将被关联人员的关联度Re值,夜间通联次数设为两个特征类,并对这两个特征类赋以一定的权值对被关联人员进行可疑度计算排名,其中Re值的权值设置的相对较高,最终排名位于前列的被关联人员即为联合挖掘模块所挖掘的目标人员。其它类型的交互记录也按照此方法进行联合挖掘。
目标人员甄别模块借助信息数据平台对挖掘出的高风险值的目标人员进行落地核查。
如图2所示,本发明基于主题事件的时间关联挖掘目标人员的方法包括以下步骤:
步骤(1),对显性重点人员的交互记录进行数据预处理,数据预处理包括数据清洗、数据脱敏及重点人员标记。数据清洗去除重复数据、错误数据及无效数据,删除一些用不到的列,保留主被叫标志、本方号码、对方号码、通联开始时间、通联时长五列数据。主被叫转移将主被叫标志这一列统一调整为“主叫”,即将标志为“被叫”的本方号码和对方号码两列进行交换,则“主被叫标志”这一列删除。数据脱敏是将重点人员的手机号码、IMEI码个人敏感信息字段进行数据加密、变形。重点人员标记是将话单数据中重点人员的手机号码打*号标记,即增加两列数据,分别备注本方号码和对方号码是否为重点人员,是的话该列字段值为*。将本方号码和对方号码(即通联双方)均为重点人员的这一条通联记录称为关键记录(也称为双*记录)。数据预处理后得到共六列数据为本方号码 (主叫)、主叫是否为重点人员、对方号码(被叫)、被叫是否为重点人员、通联开始时间、通联时长。具体过程为:
步骤(1.1),数据清洗:
首先对显性重点人员话单数据去除脏数据,冗余和缺失数据。原始话单数据格式见表1。
表1话单数据原始数据格式
步骤(1.1)中,采用Python语言实现数据清洗的步骤如下:
步骤(1.1a),数据汇总:首先将所有存有嫌疑人话单数据的文件放在一个新的文件中。
步骤(1.1b),数据处理:首先进行异常值处理,删除包含空值的那一列数据。其次进行去冗余化处理,删除对之后算法分析没有作用的数据。接着去重复化处理,删除内容完全相同的数据,只保留若干相同数据中的一条数据。最后用 time模块将通联开始时间标准化,再将所有的通联记录按时间先后排序。
步骤(1.1c),去除干扰数据:因话单数据中的号码中存在非真实手机号码,如移动短信中心号码13800250500,采用正则匹配将这些包含非真实手机号码的通联记录删除。
步骤(1.2),数据脱敏:对话单数据中涉及个人隐私的手机号码、IMEI码进行数据加密、变形。具体步骤如下:
步骤(1.2a),号码汇总:将话单数据中主叫和被叫两列数据存放到一个集合中,由于集合中不存在重复元素,因此去除重复的元素;再将集合变为列表,并将其中元素由小到大排列,计算列表长度为L。
步骤(1.2b),号码加密:采用替换加密法,用自然数1至L替换手机号码。
步骤(1.3),主被叫转移:由于话单数据中每条通联记录是主叫或者是被叫,为了便于后面分析,将所有主被叫标志为被叫的交互记录中的本方号码和对方号码两列数据进行交换,使话单数据中的通联记录均是主被叫标志为“主叫”的情况,即均是本方号码(主叫)主动呼叫对方号码(被叫),则“主被叫标志”这一列删除。
步骤(1.4),重点人员标记:将话单数据中重点人员的手机号码打*号标记,即增加两列数据,分别备注本方号码(主叫)和对方号码(被叫)是否为重点人员,是的话该列字段值为*。将本方号码和对方号码(即通联双方)均为重点人员的这一条通联记录称为关键记录,本实施例中也称为双*记录。
此外,在话单表中增加两列字段名分别为“主叫_Re”和“被叫_Re”,初始值设为0,分别用来存放后面根据筛查规则筛查出的被关联的“主叫”、被叫”的关联度Re值。至此数据预处理后该话单数据共有八列数据包括本方号码(主叫)、主叫是否为重点人员、对方号码(被叫)、被叫是否为重点人员、通联开始时间、通联时长、主叫_Re和被叫_Re。
步骤(2),筛查被关联人员并计算其关联度Re值,具体过程为:根据每条通联记录的开始时间在关键记录(双*记录)的开始时间之前还是之后,判定查询方式属于向前查询还是向后查询,若是向前查询,则进入步骤(2.1);若是向后查询,则进入步骤(2.2);查询结束后进入步骤(2.3)。步骤(2.1)- (2.2)的具体过程如下:
步骤(2.1),向前查询:从预处理后的话单数据中的第一条关键记录开始,依次向前查询计算每一条通联记录与该关键记录的时间间隔x,直至时间间隔x> 阈值n时停止向前查询;其中时间间隔x为关键记录的开始时间和被查询的通联记录结束时间(通联开始时间加上通联时长)的绝对差值,阈值n根据所述主题事件进行设定;如果时间间隔x<=阈值n,则将关键记录之前的通联记录和向前筛查规则的两种情形(即图4和图5描述的情形)进行比对,筛查出被关联人员。并采用关联度(Revelancy)函数R(x)计算该被关联人员的关联度Re值,如果被关联人员是主叫,则更新主叫_Re,如果被关联人员是被叫,则更新被叫_Re;
步骤(2.2),向后查询:从预处理后的话单数据中的第一条关键记录开始,依次向后查询计算每一条通联记录与该关键记录的时间间隔x,直至时间间隔x> 阈值n时停止向后查询;其中时间间隔x为关键记录的结束时间和被查询的通联记录开始时间的绝对差值,阈值n根据所述主题事件进行设定;如果时间间隔 x<=阈值n,则将关键记录之后的通联记录和向后筛查规则的两种情形(图6和图7描述的情形)进行比对,筛查出被关联人员。并采用关联度函数R(x)计算该被关联人员的关联度Re值,如果被关联人员是主叫,则更新主叫_Re,如果被关联人员是被叫,则更新被叫_Re。
具体如图4所示,通联双方均为重点人员的记录称为关键记录(双*记录),该图中C和D为已知的重点人员。从图4中看出在重点人员C联系重点人员D 之前,重点人员C联系了未识别人员A,因C联系A与C联系D的时间间隔x (3分钟)<=阈值n(这里n取值20分钟),故认为这两次通联行为的发生是因为同一个主题事件,存在很强的时间关联性,符合向前筛查规则,从而筛查出被关联人员A,使用被关联人员关联度函数计算被关联人员A的关联度(即Re 值)。
表2向前筛查规则的情形1对应的通联记录
表2给出了图4向前筛查规则情形1对应的通联记录,表中两条记录的时间间隔绝对差值为3分钟,则将x=3带入被关联人员关联度函数R(x),得到被关联人员A的关联度(即Re值)为23.8。
通联双方均为重点人员的记录称为关键记录(双*记录),图5中C和D为已知的重点人员。从图5中看出在重点人员C联系重点人员D之前,未识别人员B联系了重点人员C,因B联系C与C联系D的时间间隔x(5.5分钟)<=阈值20分钟,故认为这两次通联行为的发生是因为同一个主题事件,存在很强的时间关联性,符合向前筛查规则,从而筛查出被关联人员B,使用被关联人员关联度函数计算被关联人员B的关联度(即Re值)。
表3向前筛查规则的情形2对应的通联记录
表3给出了图5向前筛查规则情形2对应的通联记录,表中两条记录的时间间隔绝对差值为5.5分钟,则将x=5.5带入被关联人员关联度函数R(x),得到被关联人员B的关联度(即Re值)为22.8。
通联双方均为重点人员的记录称为关键记录(双*记录),图6中C和D为已知的重点人员。从图6中看出,在C联系重点人员D之后,重点人员C联系了未识别人员F,因C联系D与C联系F的时间间隔x(4分钟)<=阈值20分钟,故认为这两次通联行为的发生是因为同一个主题事件,存在很强的时间关联性,符合向后筛查规则,从而筛查出被关联人员F,使用被关联人员关联度函数计算被关联人员F的关联度(即Re值)。
表4向后筛查规则的情形1对应的通联记录
表4给出了图6向后筛查规则情形1对应的通联记录,表中两条记录的时间间隔绝对差值为4分钟,则将x=4带入被关联人员关联度函数R(x),得到被关联人员F的关联度(即Re值)为23.4。
通联双方均为重点人员的记录称为关键记录(双*记录),图7中C和D为已知的重点人员。从图7中看出在C联系重点人员D之后,重点人员D联系了未识别人员E,因C联系D与D联系E的时间间隔x(2分钟)<=阈值20分钟,故认为这两次通联行为的发生是因为同一个主题事件,存在很强的时间关联性,符合向后筛查规则,从而筛查出被关联人员E,使用被关联人员关联度函数计算被关联人员E的关联度(即Re值)。
表5向后筛查规则的情形2对应的通联记录
表5给出了图7向后筛查规则情形2对应的通联记录,表中两条记录的时间间隔绝对差值为2分钟,则将x=2带入被关联人员关联度函数R(x),得到被关联人员E的关联度(即Re值)为24.1。
如图8所示,上述被关联人员关联度函数R(x)为:
根据本发明应用场景,两通电话或者两次转账的时间间隔越小,被关联人与主题事件的关联度越大,因此结合高斯函数的衰减特性,设置了一个分段函数来表征被关联人员的关联度(Relevancy)大小称为Re值。其中,x是间隔时间绝对差值,m是函数的分段点,n是阈值。不同的主题事件,m,n值的设定,取决于该主题事件对前后行为时间关联性的要求。n根据特定主题事件设定,例如通联事件中,n可以设定为20分钟,即时间间隔在20分钟内的前后两次通联是有关联的,通话、短信内容很可能是针对同一主题事件的,因此通联行为人因同一主题事件被关联在一起,时间间隔越小,关联度越大。再如转账交易事件中,n 可以设定为60分钟,即时间间隔在60分钟内的前后两笔转账可能是基于同一物品交易的资金往来,交易行为人因该同一主题事件被关联在一起,时间间隔越小,关联度越大。
该分段衰减函数R(x)描述被关联人员的关联度,其值随着时间间隔x的增大,逐渐降低。当时间间隔x小于m时,关联度降低的趋势较缓;当时间间隔绝对差值大于m时,关联度急剧下降。图8给出了不同m和n取值下的被关联人员关联度函数曲线。
步骤(2.3),循环移到下一条关键记录,即通联双方均为重点人员的记录,重复上述步骤(2.1)和(2.2)。
步骤(3),创建二维表,统计被关联人员号码的Re值,其中的Re值大小衡量被关联人与主题事件的关联程度,具体过程如下:
将每一个筛查出的被关联人员号码对应的“主叫_Re”,“被叫_Re”的值累加(因为每一个号码在话单表的不同通联记录中是主叫或者被叫,所以针对每一个被关联人员号码“主叫_Re”,“被叫_Re”都有可能存在),得到该号码最终的Re值。创建二维表,新建两列分别为筛查出的被关联人员号码和Re值,统计更新号码的Re值,以此来表示被关联人员的关联度的高低(Re值越大,关联度越高)。
以话单数据为例,将被关联人员的关联度Re值,夜间通联次数设为两个特征类,并对这两个特征类赋以一定的权值对被关联人员进行可疑度计算排名,其中Re值的权值设置为0.8,夜间通联次数的权值设置为0.2,最终排名位于前列的被关联人员即为联合挖掘模块所挖掘的目标人员。

Claims (8)

1.一种基于主题事件的时间关联挖掘目标人员的方法,其特征在于:采用基于主题事件的时间关联挖掘目标人员的系统来实施,所述系统包括数据采集模块、交互式数据导入模块、数据处理模块、算法分析模块、联合挖掘模块和目标人员甄别模块;
所述数据采集模块对显性重点人员的交互记录进行采集;
所述交互式数据导入模块合并所述交互记录并导入数据;
所述数据处理模块对原始数据进行数据清洗、脱敏处理,以及重点人员标记;
所述算法分析模块对重点人员的交互记录进行分析,利用重点人员之间的通联或转账交易行为前后的关联性,根据筛查规则筛查出被关联人员,并采用关联度函数计算该被关联人员的关联度Re;
所述联合挖掘模块,在算法分析模块的基础上,根据不同主题事件对筛查出的被关联人员挖掘出目标人员;
所述目标人员甄别模块,对挖掘出的目标人员进行落地核查;
所述方法包括以下过程:
步骤(1),对显性重点人员的交互记录进行数据清洗、数据脱敏、重点人员标记,将得到的交互行为双方均为重点人员的记录命名为关键记录,然后进入步骤(2);
步骤(2),筛查被关联人员并计算其关联度Re值,根据每行记录的交互时间在关键记录的交互时间之前还是之后,来判定查询方式属于向前查询还是向后查询,若是向前查询,则进入步骤(2.1);若是向后查询,则进入步骤(2.2);查询结束后进入步骤(2.3);步骤(2.1)~(2.2)的具体过程如下:
步骤(2.1),向前查询:从交互式数据中的第一条关键记录开始,依次向前查询计算每一条记录与所述第一条关键记录的时间间隔x,直至时间间隔x>阈值n时停止向前查询;其中时间间隔x为关键记录的开始时间和被查询的记录结束时间的绝对差值,阈值n根据所述主题事件进行设定;
如果时间间隔x<=阈值n,则将关键记录之前的交互行为和向前筛查规则进行比对,筛查出被关联人员,并采用关联度函数R(x)计算所述被关联人员的关联度Re值;
所述被关联人员的关联度函数R(x)为:
其中,x是间隔时间的绝对差值,m是函数的分段点,n是阈值;不同的主题事件,m,n值的设定,取决于该主题事件对前后行为时间关联性的要求;
步骤(2.2),向后查询:从交互式数据中的第一条关键记录开始,依次向后查询计算每一条记录与所述第一条关键记录的时间间隔x,直至时间间隔x>阈值n时停止向后查询;其中时间间隔x为关键记录的结束时间和被查询的记录开始时间的绝对差值,阈值n根据所述主题事件进行设定;如果时间间隔x<=阈值n,则将关键记录之后的交互行为和向后筛查规则进行比对,筛查出被关联人员,并采用关联度函数R(x)计算所述被关联人员的关联度Re值;
步骤(2.3),循环移动至下一条关键记录,重复步骤(2.1)和(2.2);
步骤(3),创建二维表,统计被关联人员的关联度Re值,并设置权值对被关联人员进行可疑度排序来挖掘目标人员。
2.根据权利要求1所述的基于主题事件的时间关联挖掘目标人员的方法,其特征在于:步骤(1)中,数据清洗包括以下过程:
步骤(1.1a),数据汇总:将存有显性重点人员的交互记录的文件放在一个文件中;
步骤(1.1b),数据处理:首先进行异常值处理,删除包含空值的那一列数据;其次进行去冗余化处理,最后去重复化处理,并用time模块将通联或转账交易行为开始时间标准化,再将交互记录按时间排序;
步骤(1.1c),去除干扰数据。
3.根据权利要求1所述的基于主题事件的时间关联挖掘目标人员的方法,其特征在于:步骤(1)中,数据脱敏时,对涉及个人隐私的敏感信息如手机号码、IMEI码进行数据加密、变形。
4.根据权利要求1所述的基于主题事件的时间关联挖掘目标人员的方法,其特征在于:步骤(1)中,对每条交互记录的时间标准化,然后将交互记录按时间先后排序。
5.根据权利要求1所述的基于主题事件的时间关联挖掘目标人员的方法,其特征在于:步骤(1)中,所述重点人员标记是对交互记录中重点人员的号码或账户进行标记。
6.根据权利要求1所述的基于主题事件的时间关联挖掘目标人员的方法,其特征在于:步骤(1)中,所述交互行为包括通话、聊天或转账。
7.根据权利要求1所述的基于主题事件的时间关联挖掘目标人员的方法,其特征在于:步骤(2.1)中的向前筛查规则为:计算关键记录之前的交互记录与该关键记录的时间间隔x,如果时间间隔x<=阈值n,则判断交互记录的行为双方中是否有一方为关键记录的发起方,如果是,则所述交互记录的另一方为筛查的被关联人员;如果否,则跳过所述交互记录继续向前筛查,直至时间间隔x>阈值n时停止向前筛查。
8.根据权利要求1所述的基于主题事件的时间关联挖掘目标人员的方法,其特征在于:步骤(2.2)中的向后筛查规则为:计算关键记录之后的交互记录与该关键记录的时间间隔x,如果时间间隔x<=阈值n,则判断交互记录的发起方是否为关键记录的其中一方,如果是,则所述交互记录的接收发为筛查的被关联人员;如果否,则跳过所述交互记录继续向后筛查,直至时间间隔x>阈值n时停止向后筛查。
CN202210408154.9A 2022-04-19 2022-04-19 一种基于主题事件的时间关联挖掘目标人员的系统及方法 Active CN114780612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210408154.9A CN114780612B (zh) 2022-04-19 2022-04-19 一种基于主题事件的时间关联挖掘目标人员的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210408154.9A CN114780612B (zh) 2022-04-19 2022-04-19 一种基于主题事件的时间关联挖掘目标人员的系统及方法

Publications (2)

Publication Number Publication Date
CN114780612A CN114780612A (zh) 2022-07-22
CN114780612B true CN114780612B (zh) 2024-08-09

Family

ID=82431099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210408154.9A Active CN114780612B (zh) 2022-04-19 2022-04-19 一种基于主题事件的时间关联挖掘目标人员的系统及方法

Country Status (1)

Country Link
CN (1) CN114780612B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115589444A (zh) * 2022-09-02 2023-01-10 厦门市美亚柏科信息股份有限公司 一种可疑号码可视化显示方法、终端设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132998A (zh) * 2017-12-21 2018-06-08 浪潮软件集团有限公司 一种人员关系分析方法和系统
CN110086894A (zh) * 2019-04-10 2019-08-02 中国工商银行股份有限公司 人员关联信息挖掘方法、通讯推荐方法及相关装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG91861A1 (en) * 1999-04-27 2002-10-15 Ibm Data mining for association rules and sequential patterns within data of inhomogeneous type
US20040068651A1 (en) * 2002-05-21 2004-04-08 Pender Michael J. Optical device for identifying friends and foes using real-time optical encryption and method for producing the same

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108132998A (zh) * 2017-12-21 2018-06-08 浪潮软件集团有限公司 一种人员关系分析方法和系统
CN110086894A (zh) * 2019-04-10 2019-08-02 中国工商银行股份有限公司 人员关联信息挖掘方法、通讯推荐方法及相关装置

Also Published As

Publication number Publication date
CN114780612A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN111950937B (zh) 一种基于融合时空轨迹的重点人员风险评估方法
CN107172022B (zh) 基于入侵途径的apt威胁检测方法和系统
CN107423434B (zh) 一种基于话单数据的潜在社会关系网络的挖掘方法
CN109189782A (zh) 一种区块链商品交易查询中的索引方法
Taha et al. SIIMCO: A forensic investigation tool for identifying the influential members of a criminal organization
US20110125746A1 (en) Dynamic machine assisted informatics
CN111611309B (zh) 话单数据关系网络交互式可视化方法
CN111104521B (zh) 一种基于图分析的反欺诈检测方法及检测系统
KR20030001357A (ko) 네트워크 상에서의 대화의 유효성 결정을 위한 시스템 및방법
CN106022708A (zh) 一种预测员工离职的方法
CN103927398A (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN107341225B (zh) 信息智能推送与鉴别方法、装置和系统
CN110009416A (zh) 一种基于大数据清洗和ai精准营销的系统
Chavoshi et al. On-demand bot detection and archival system
CN112508630B (zh) 异常会话群的检测方法、装置、计算机设备和存储介质
CN114357000A (zh) 一种区块链交易数据检索系统、方法、设备及存储介质
CN114780612B (zh) 一种基于主题事件的时间关联挖掘目标人员的系统及方法
CN112445870A (zh) 基于手机取证电子数据的知识图谱串并案分析方法
Sujatha Improved user navigation pattern prediction technique from web log data
CN109564610A (zh) 审计登录强化
CN105589935A (zh) 社交群组识别方法
CN112925899B (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
CN106933880A (zh) 一种标签数据泄漏渠道检测方法及装置
CN113015171A (zh) 一种具有网络舆情监控及分析功能的系统
CN108540471B (zh) 移动应用网络流量聚类方法、计算机可读存储介质和终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant