CN113780407A - 一种数据检测方法、装置、电子设备及存储介质 - Google Patents

一种数据检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113780407A
CN113780407A CN202111055286.XA CN202111055286A CN113780407A CN 113780407 A CN113780407 A CN 113780407A CN 202111055286 A CN202111055286 A CN 202111055286A CN 113780407 A CN113780407 A CN 113780407A
Authority
CN
China
Prior art keywords
data
ticket data
call
call ticket
accompanying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111055286.XA
Other languages
English (en)
Inventor
徐涛
傅强
阿曼太
梁彧
蔡琳
杨满智
陈晓光
田野
王杰
金红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eversec Beijing Technology Co Ltd
Original Assignee
Eversec Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eversec Beijing Technology Co Ltd filed Critical Eversec Beijing Technology Co Ltd
Priority to CN202111055286.XA priority Critical patent/CN113780407A/zh
Publication of CN113780407A publication Critical patent/CN113780407A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Abstract

本发明实施例公开了一种数据检测方法、装置、电子设备及存储介质。所述数据检测方法,包括:获取全量话单数据;根据全量话单数据创建时空位置关联矩阵;根据时空位置关联矩阵计算轨迹重合相似度;根据轨迹重合相似度确定伴随话单数据;对伴随话单数据进行数据筛选处理,得到目标检测数据。本发明实施例的技术方案能够降低目标数据的计算复杂度,提高目标数据检测的效率、安全性和准确率。

Description

一种数据检测方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种数据检测方法、装置、电子设备及存储介质。
背景技术
随着通信技术的发展,通信数据呈爆发式增长,为了使通信数据具备大数据分析价值,对通信数据进行数据检测成为重要环节。
目前,主要通过两种方式对数据进行检测,一种是利用已有经验对数据进行检测,另一种是对语音类数据进行文本转换,进而通过关键词识别的方式对语音类数据进行分类识别。
但是,基于已有经验对数据进行检测非常依赖已有的经验数据,因此利用已有经验对数据进行检测存在时效性差、检测更新缓慢以及不能及时对未知新数据进行检测。而通过文本转换和关键词识别技术对数据进行检测时,无法避免隐私泄露,和计算资源占用较大的问题。
发明内容
本发明实施例提供一种数据检测方法、装置、电子设备及存储介质,能够降低目标数据的计算复杂度,提高目标数据检测的效率、安全性和准确率。
第一方面,本发明实施例提供了一种数据检测方法,包括:
获取全量话单数据;
根据全量话单数据创建时空位置关联矩阵;
根据时空位置关联矩阵计算轨迹重合相似度;
根据轨迹重合相似度确定伴随话单数据;
对伴随话单数据进行数据筛选处理,得到目标检测数据。
第二方面,本发明实施例还提供了一种数据检测装置,包括:
全量话单数据获取模块,用于获取全量话单数据;
时空位置关联矩阵创建模块,用于根据全量话单数据创建时空位置关联矩阵;
轨迹重合相似度获取模块,用于根据时空位置关联矩阵计算轨迹重合相似度;
伴随话单数据确定模块,用于根据轨迹重合相似度确定伴随话单数据;
目标检测数据获取模块,用于对伴随话单数据进行数据筛选处理,得到目标检测数据。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的数据检测方法。
第四方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的数据检测方法。
本实施例的技术方案,通过获取全量话单数据,从而根据全量话单数据创建时空位置关联矩阵,进而根据时空位置关联矩阵计算轨迹重合相似度,以进一步根据轨迹重合相似度确定伴随话单数据,然后对伴随话单数据进行数据筛选处理,得到目标检测数据。由于时空位置关联矩阵可以反映通话终端实际移动情况,因此根据可以反映通话终端实际移动情况的时空位置关联矩阵计算轨迹重合相似度,能够确定具有相似移动轨迹的伴随话单数据。由于移动轨迹可以反映通话行为特征,通过对具有通话行为特征的伴随话单数据进行数据筛选,不仅可以避免对全部伴随话单数据进行检测的计算量,还可以准确提取出目标检测数据,解决了现有技术中问题中利用已有经验对数据进行检测存在时效性差、检测更新缓慢以及不能及时对未知新数据进行检测的缺点,还避免了通过文本转换和关键词识别技术对数据进行检测时,无法避免隐私泄露,和计算资源占用较大的问题,能够降低目标数据的计算复杂度,提高目标数据检测的效率、安全性和准确率。
附图说明
图1是本发明实施例一提供的一种数据检测方法的流程图;
图2是本发明实施例二提供的一种数据检测方法的流程图;
图3是本发明实施例三提供的一种诈骗数据检测的简易流程图;
图4是本发明实施例四提供的一种数据检测装置的示意图;
图5为本发明实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种数据检测方法的流程图,本实施例可适用于高效检测数据的情况,该方法可以由数据检测装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在电子设备中。相应的,如图1所示,该方法包括如下操作:
S110、获取全量话单数据。
其中,全量话单数据可以是由通话行为产生的相关数据,用于表征原始通信记录信息。示例性的,全量话单数据可以包括通话终端通话过程中产生的话单数据,如固定电话的话单数据以及移动通话终端的话单数据等。话单数据可以包括主被叫方向、本端号码、对端号码、通话开始时间、通话持续时间、LAC(Location Area Code,位置区码)、cellid(蜂窝小区的标识号)以及IMEI(International Mobile Equipment Identity,国际移动设备识别码)等。本发明实施例对全量话单数据中的数据内容不作限定。
在本发明实施例中,用于执行数据检测方法的电子设备可以对网络中的通信数据进行解析,得到全量话单数据。
具体的,用于执行数据检测方法的电子设备可以对网络中历史的通信数据和/或当前通信数据进行解析,得到全量话单数据。
S120、根据全量话单数据创建时空位置关联矩阵。
其中,时空位置关联矩阵可以是与全量话单数据的生成时间,以及将通话终端连接入网的通信设备的位置数据相关联的矩阵。
在本发明实施例中,用于执行数据检测方法的电子设备在得到全量话单数据之后,可以对全量话单数据进行解析,得到全量话单数据的生成时间以及将通话终端连接入网的通信设备的位置数据,进而根据全量话单数据的生成时间以及将通话终端连接入网的通信设备的位置数据创建时空位置关联矩阵。
S130、根据时空位置关联矩阵计算轨迹重合相似度。
其中,轨迹重合相似度可以是两条移动轨迹的重合程度。
在本发明实施例中,用于执行数据检测方法的电子设备可以根据时空位置关联矩阵计算全量话单数据中任意两条话单数据对应的移动轨迹的轨迹重合相似度。
S140、根据轨迹重合相似度确定伴随话单数据。
其中,伴随话单数据可以是轨迹重合相似度达到预先设置的阈值的话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以确定全量话单数据中轨迹重合相似度达到预先设置的阈值的话单数据,进而将轨迹重合相似度达到预先设置的阈值的话单数据作为伴随话单数据。
S150、对伴随话单数据进行数据筛选处理,得到目标检测数据。
其中,目标检测数据可以是根据检测需求需要从全量话单数据中识别出的数据。例如,目标检测数据可以包括诈骗等违法数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以根据筛选规则对伴随话单数据进行数据筛选处理,将筛选出的话单数据作为目标检测数据。其中,筛选规则可以包括根据检测需求设置的规则、关键词规则以及正则匹配规则等。
本实施例的技术方案,通过获取全量话单数据,从而根据全量话单数据创建时空位置关联矩阵,进而根据时空位置关联矩阵计算轨迹重合相似度,以进一步根据轨迹重合相似度确定伴随话单数据,然后对伴随话单数据进行数据筛选处理,得到目标检测数据。由于时空位置关联矩阵可以反映通话终端实际移动情况,因此根据可以反映通话终端实际移动情况的时空位置关联矩阵计算轨迹重合相似度,能够确定具有相似移动轨迹的伴随话单数据。由于移动轨迹可以反映通话行为特征,通过对具有通话行为特征的伴随话单数据进行数据筛选,不仅可以避免对全部伴随话单数据进行检测的计算量,还可以准确提取出目标检测数据,解决了现有技术中问题中利用已有经验对数据进行检测存在时效性差、检测更新缓慢以及不能及时对未知新数据进行检测的缺点,还避免了通过文本转换和关键词识别技术对数据进行检测时,无法避免隐私泄露,和计算资源占用较大的问题,能够降低目标数据的计算复杂度,提高目标数据检测的效率、安全性和准确率。
实施例二
图2是本发明实施例二提供的一种数据检测方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,给出了根据全量话单数据创建时空位置关联矩阵,进而根据时空位置关联矩阵计算轨迹重合相似度,从而根据轨迹重合相似度确定伴随话单数据,以进一步对伴随话单数据进行数据筛选处理,得到目标检测数据的具体的可选的实施方案。相应的,如图2所示,该方法包括如下操作:
S210、获取全量话单数据。
S220、确定异常话单筛选条件。
其中,异常话单筛选条件可以用于筛选全量话单数据中与异常话单关联的数据。
在本发明实施例中,用于执行数据检测方法的电子设备在创建时空位置关联矩阵之前,可以根据检测需求设置异常话单筛选条件。
S230、根据异常话单筛选条件对全量话单数据进行筛选处理,得到异常话单数据。
其中,异常话单数据可以是全量话单数据中与异常话单关联的数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以根据异常话单筛选条件,将符合异常数据筛选条件的话单数据筛选出来,进而将筛选出的话单数据作为异常话单数据。
在本发明的一个可选实施例中,根据异常话单筛选条件对全量话单数据进行筛选处理,可以包括以下至少一种实现方式:提取全量话单数据中位置编码标识的数量超过第一数量阈值的话单数据;提取全量话单数据中,话单数量大于等于第二数量阈值的位置编码标识的数量与全部位置编码标识的数量的比例大于等于第一比例阈值的话单数据;提取全量话单数据中对端话单数据中通话数量仅一次,且话单标识占同类话单标识的比例大于等于第二比例阈值的话单数据;或提取全量话单数据中对端通话所在地与本端通话所在地相同的比例小于等于第三比例阈值的话单数据。
其中,位置编码标识可以是用于区分不同区域位置的标识。例如,位置编码标识可以由将通话终端连接入网的通信设备的LAC,以及cellid组成,简称为LAC-ci。第一数量阈值可以是预先设置的阈值,用于与位置编码标识的数量进行比较以确定异常话单数据。话单数量可以用于表示通话数量。第二数量阈值可以是预先设置的阈值,用于与话单数量进行比较以确定异常话单数据。对端话单数据可以是被叫方的话单数据。话单标识可以是用于区分不同话单数据的标识。示例性的,话单标识可以包括手机号以及座机号等。同类话单标识可以是同类通话终端的标识。对端通话所在地可以是被叫方的所在地。本端通话所在地可以是主叫方的所在地。
在本发明实施例中,用于执行数据检测方法的电子设备可以选择以下至少一种实现方式对全量话单数据进行筛选:第一种方式为对全量话单数据进行数据解析和数据提取得到全量话单数据的位置编码标识,进而确定全量话单数据的位置编码标识的数量,以进一步提取全量话单数据中位置编码标识的数量超过第一数量阈值的话单数据;第二种方式为确定话单数量大于等于第二数量阈值的位置编码标识,进而计算话单数量大于等于第二数量阈值的位置编码标识的数量与全部位置编码标识的数量的比例,进一步提取全量话单数据中,话单数量大于等于第二数量阈值的位置编码标识的数量与全部位置编码标识的数量的比例大于等于第一比例阈值的话单数据;第三种方式为确定全量话单数据中对端话单数据中通话仅一次的话单数据,进而计算在对端话单数据中通话数量仅一次的话单标识占同类话单标识的比例,以进一步提取全量话单数据中对端话单数据中通话数量仅一次,且话单标识占同类话单标识的比例大于等于第二比例阈值的话单数据;第四种方式为确定全量话单数据中对端通话所在地与本端通话所在地相同的比例,进而提取全量话单数据中对端通话所在地与本端通话所在地相同的比例小于等于第三比例阈值的话单数据。
S240、根据异常话单数据确定高危基站数据。
其中,高危基站数据可以是与传输异常话单数据的基站关联的数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以通过解析异常话单数据确定传输异常话单数据的基站,从而得到高危基站数据。
在本发明的一个可选实施例中,根据异常话单数据确定高危基站数据,可以包括:根据异常话单数据统计在同一时段内同一基站下的话单标识;在同一时段内同一基站下话单标识的数量超过话单数量阈值的情况下,根据异常话单数据确定高危基站数据。
其中,话单数量阈值可以是预先设置的阈值,用于与话单标识的数量进行比较以确定高危基站数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以根据异常话单数据对在同一时段内同一基站下的话单标识进行统计,如果同一时段内同一基站下话单标识的数量超过话单数量阈值,则可以确定与超过话单数量阈值的同一时段内同一基站下的话单标识对应的异常话单数据,进而确定传输上述异常话单数据的基站,从而得到高危基站数据。如果同一时段内同一基站下话单标识的数量未超过话单数量阈值,则可以确定与未超过话单数量阈值的同一时段内同一基站下的话单标识对应的话单数据为正常话单数据。
S250、根据异常话单数据和高危基站数据创建时空位置关联矩阵。
在本发明实施例中,用于执行数据检测方法的电子设备可以根据异常话单数据确定与异常话单数据对应的话单标识、异常话单数据生成时间以及高危基站数据,还可以根据高危基站数据确定将通话终端连接入网的基站(通信设备)的位置数据,进而根据与异常话单数据对应的话单标识、异常话单数据生成时间以及将通话终端连接入网的基站(通信设备)的位置数据创建时空位置关联矩阵。
在本发明的一个可选实施例中,根据异常话单数据和高危基站数据创建时空位置关联矩阵,可以包括:根据异常话单数据和高危基站数据确定与异常话单数据关联的高危基站时间标识;在与单个异常话单数据关联的高危基站时间标识的数量超过设定阈值的情况下,根据异常话单数据确定目标话单数据;根据目标话单数据和高危基站时间标识创建时空位置关联矩阵。
其中,高危基站时间标识可以是通话终端在不同时间下与传输异常话单数据的基站的通信标识。可选的,高危基站时间标识可以由异常话单数据生成时间和将通话终端连接入网的通信设备的标识等组成。目标话单数据可以是异常话单数据中与话单标识对应的高危基站时间标识的数量超过设定阈值的话单数据,用于确定时空位置关联矩阵。
在本发明实施例中,用于执行数据检测方法的电子设备可以对异常话单数据和高危基站数据解析,得到异常话单数据生成时间和将通话终端连接入网的通信设备的设备标识等数据,进而根据异常话单数据和高危基站数据的解析结果组成高危基站时间标识。在得到高危基站时间标识之后,可以确定与高危基站时间标识对应的异常话单数据,进而计算与每个异常话单数据关联的高危基站时间标识的数量,进一步将异常话单数据中与单个异常话单数据关联的高危基站时间标识的数量超过设定阈值的话单数据作为目标话单数据。在得到目标话单数据以及高危基站时间标识之后,可以根据与目标话单数据对应的话单标识以及高危基站时间标识构造时空位置关联矩阵。
可选的,可以将与目标话单数据对应的话单标识作为行向量名称,将高危基站时间标识作为列向量名称,如果与目标话单数据对应的话单标识与高危基站时间标识具有关联关系,则将时空位置关联矩阵中与目标话单数据对应话单标识的行,以及与该话单标识具有关联关系的高危基站时间标识对应的列的位置标记为1。如果与目标话单数据对应的话单标识与高危基站时间标识不具有关联关系,则将时空位置关联矩阵中与目标话单数据对应话单标识的行,以及与该话单标识不具有关联关系的高危基站时间标识对应的列的位置标记为0,从而得到由0和1组成的时空位置关联矩阵。
S260、根据时空位置关联矩阵计算轨迹重合相似度。
在本发明的一个可选实施例中,根据时空位置关联矩阵计算轨迹重合相似度,可以包括:根据相似度算法计算时空位置关联矩阵中任意两个行向量或列向量的轨迹重合相似度。
其中,相似度算法可以是能够计算数据相似程度的算法。例如,相似度算法可以包括但不限于余弦相似度算法和皮尔逊相似度算法。
在本发明实施例中,当时空位置关联矩阵中行向量数据具有同一话单标识时,用于执行数据检测方法的电子设备可以根据相似度算法计算时空位置关联矩阵中任意两个行向量的轨迹重合相似度。当时空位置关联矩阵中列向量数据具有同一话单标识时,用于执行数据检测方法的电子设备可以根据相似度算法计算时空位置关联矩阵中任意两个列向量的轨迹重合相似度。
S270、根据轨迹重合相似度确定伴随话单数据。
在本发明的一个可选实施例中,根据轨迹重合相似度确定伴随话单数据,可以包括:在轨迹重合相似度大于等于相似度阈值的情况下,确定目标话单数据的伴随话单数据。
其中,相似度阈值可以是预设的阈值,用于与轨迹重合相似度进行比较以确定伴随话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以将轨迹重合相似度与相似度阈值进行比较,提取目标话单数据中轨迹重合相似度大于等于相似度阈值的话单数据,进而将提取的话单数据作为伴随话单数据。
在本发明的一个可选实施例中,确定目标话单数据的伴随话单数据,可以包括:根据目标话单数据确定待处理伴随分组数据;根据待处理伴随分组数据确定关联伴随分组数据;将待处理伴随分组数据和关联伴随分组数据作为伴随话单数据。
其中,待处理伴随分组数据可以是按照轨迹重合相似度划分的,两两一组的话单数据。每组待处理伴随分组数据中两条话单数据的轨迹重合相似度达到预先设置的阈值。关联伴随分组数据可以是与当前待处理伴随分组数据中的一条话单数据的轨迹重合相似度达到预先设置的阈值的话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以将目标话单数据中轨迹重合相似度大于等于相似度阈值的两条话单数据划分为一组,得到至少一组待处理伴随分组数据,进而将与当前待处理伴随分组数据中的一条话单数据的轨迹重合相似度达到预先设置的阈值的其他待处理伴随分组数据作为关联伴随分组数据,进而将关联伴随分组数据和待处理伴随分组数据作为一组伴随话单数据。
S280、对伴随话单数据进行数据筛选处理,得到目标检测数据。
在本发明的一个可选实施例中,对伴随话单数据进行数据筛选处理,得到目标检测数据,可以包括:确定目标筛选条件;根据目标筛选条件对伴随话单数据进行筛选,得到当天活跃待处理数据;对当天活跃待处理数据进行数据提取处理,得到目标检测数据。
其中,目标筛选条件可以是一种数据筛选条件,用对伴随话单数据筛选。当天活跃待处理数据可以是伴随话单数据中的当天目标话单数据,用于得到目标检测数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以根据数据检测需要确定目标筛选条件,进而根据目标筛选条件对伴随话单数据进行筛选,得到当天活跃待处理数据。
在本发明的一个可选实施例中,根据目标筛选条件对伴随话单数据进行筛选,可以包括以下至少一种实现方式:排除伴随话单数据中与正常话单标识关联的话单数据;排除伴随话单数据中在目标时间段内与至少两个不同的话单标识存在目标个数以上的关联特征的话单数据;排除伴随话单数据中与伴随话单数据关联的位置编码标识的数量超过第三数量阈值,且与伴随话单数据关联的基站数量超过第四数量阈值的话单数据;或排除伴随话单数据中轨迹重合相似度大于等于目标相似度阈值的话单数据;对伴随话单数据进行数据筛选,还可以包括:在确定当前伴随话单数据中需要排除的数据量与当前伴随话单数据的比例小于第四比例阈值的情况下,对当前伴随话单数据进行剔除。
其中,正常话单标识可以是与正常通话过程对应的话单标识。目标时间段可以是预先设置的一段时长。本发明实施例的目标时间段可以包括但不限于三天或一周等时长。目标个数可以是预先设置的大于零的整数。关联特征可以是通话过程中产生的行为特征。例如,关联特征可以包括通话行为、通话次数以及通话时长等。第三数量阈值可以是预先设置的阈值,用于与位置编码标识的数量进行比较以排除伴随话单数据中的部分数据。第四数量阈值可以是预先设置的阈值,用于与基站数量进行比较以排除伴随话单数据中的部分数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以选择以下至少一种实现方式根据目标筛选条件对伴随话单数据进行筛选:第一种方式为根据正常通话行为确定正常话单标识,进而确定伴随话单数据中与正常话单标识具有通话关系的话单数据,进而排除伴随话单数据中与正常话单标识具有通话关系的话单数据;第二种方式为确定伴随话单数据中在目标时间段内与至少两个不同的话单标识存在目标个数以上的关联特征的话单数据,进而排除伴随话单数据中在目标时间段内与至少两个不同的话单标识存在目标个数以上的关联特征的话单数据;第三种方式为对伴随话单数据进行解析得到与伴随话单数据对应的位置编码标识,以及传输伴随话单数据的基站,进而将与伴随话单数据对应的位置编码标识与第三数量阈值进行比较,将传输伴随话单数据的基站的数量与第四数量阈值进行比较,以进一步排除伴随话单数据中与伴随话单数据关联的位置编码标识的数量超过第三数量阈值,且与伴随话单数据关联的基站数量超过第四数量阈值的话单数据;第四种方式为确定开户时长达到预先设定的时间阈值,且轨迹重合相似度小于目标相似度阈值的话单数据,进而排除伴随话单数据中开户时长达到预先设定的时间阈值,且轨迹重合相似度小于目标相似度阈值的话单数据。
在本发明的一个可选实施例中,对当天活跃待处理数据进行数据提取处理,得到目标检测数据,可以包括:提取与当天活跃待处理数据关联的设备对比标识;在具有相同设备对比标识的当天活跃待处理数据满足目标行为阈值的情况下,将具有相同设备对比标识的当天活跃待处理数据作为目标检测数据。
其中,设备对比标识可以是移动通话设备的部分标识,用于确定具有部分相同标识的移动通话设备。目标行为阈值可以是根据数据检测需求设置的通话行为阈值,用于筛选当天活跃待处理数据。目标行为阈值可以包括同城话单标识占比阈值、对端号码离散度阈值、首次主叫占比阈值以及回拨话单标识比例阈值中的至少一个。同城话单标识占比阈值可以是预先设置的比例阈值,用于表征当天活跃待处理数据中同城话单标识占比的最大值。对端号码离散度阈值可以是对端号码去重后话单标识数量与对端号码的通话总次数的最大比值。首次主叫占比阈值可以是首次通话属于主叫的最大比值,用于表征当天活跃待处理数据中首次主叫占比的最大值。回拨话单标识比例阈值可以是存在主叫通话与被叫通话的对端号码的话单标识的数量与对端号码去重后的话单标识数量的最大比值。
在本发明实施例中,用于执行数据检测方法的电子设备可以对当天活跃待处理数据进行解析,得到与当天活跃待处理数据对应的设备对比标识。在得到设备对比标识之后,可以统计具有相同设备对比标识的当天活跃待处理数据,对具有相同设备对比标识的当天活跃待处理数据进行以下至少一种数据提取处理:第一种方式为提取当天活跃待处理数据中对端号码归属地与本端号码归属地一致的去重后话单标识的数量与对端号码去重后话单标识的比值,大于等于同城话单标识占比阈值的话单数据;第二种方式为提取当天活跃待处理数据中对端号码去重后话单标识数量与对端号码的通话总次数的比值小于等于对端号码离散度阈值的话单数据;第三种方式为提取当天活跃待处理数据中与不同对端号码的首次通话属于主叫的去重后话单标识数量,与对端号码去重后话单标识数量的比值,小于等于首次主叫占比阈值的话单数据;第四种方式为提取当天活跃待处理数据中对端号码去重后,存在主叫通话与被叫通话的对端号码的话单标识的数量与对端号码去重后话单标识数量的比值,大于等于回拨话单标识比例阈值的话单数据。由于上述数据提取处理方式能够提取出当天活跃待处理数据中满足目标行为阈值的话单数据,因此可以将上述至少一种数据提取处理方式得到的数据,作为目标检测数据。
本实施例的技术方案,通过获取全量话单数据,进而确定异常话单筛选条件,进一步根据异常话单筛选条件对全量话单数据进行筛选处理,得到异常话单数据,并根据异常话单数据确定高危基站数据,从而根据异常话单数据和高危基站数据创建时空位置关联矩阵。在得到时空位置关联矩阵之后,根据时空位置关联矩阵计算轨迹重合相似度,进而根据轨迹重合相似度确定伴随话单数据,以对伴随话单数据进行数据筛选处理,得到目标检测数据。由于时空位置关联矩阵可以反映通话终端实际移动情况,因此根据可以反映通话终端实际移动情况的时空位置关联矩阵计算轨迹重合相似度,能够确定具有相似移动轨迹的伴随话单数据。由于移动轨迹可以反映通话行为特征,通过对具有通话行为特征的伴随话单数据进行数据筛选,不仅可以避免对全部伴随话单数据进行检测的计算量,还可以准确提取出目标检测数据,解决了现有技术中问题中利用已有经验对数据进行检测存在时效性差、检测更新缓慢以及不能及时对未知新数据进行检测的缺点,还避免了通过文本转换和关键词识别技术对数据进行检测时,无法避免隐私泄露,和计算资源占用较大的问题,能够降低目标数据的计算复杂度,提高目标数据检测的效率、安全性和准确率。
需要说明的是,以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。
本发明实施例的技术方案中,所涉及用户个人信息(如话单数据等)的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
实施例三
电话等通话终端是现代社会当中不可或缺的重要一环,但伴随着技术的发展以及对及时通信的依赖,除了正常的通讯功能外,有很多号码也被用于进行电信诈骗等违法活动,随着对电信诈骗打击的深入,诈骗团伙为了逃避打击,把做案设备GOIP(虚拟拨号设备)放置在汽车尾箱进行全城移动,逃避抓捕。
目前,针对通过GOIP进行诈骗的打击主要有两种方式,一种方式为对历史发现的GOIP设备的IMEI号码进行分析,找出GOIP的IMEI号码段,然后通过IMEI在语音通话详单中发现新的使用这些IMEI段的新设备,然后通过这些设备的IMEI关联出相应设备上面的手机号码。另一种那个方式为基于通话内容的检测识别、语音录制以及语音转文本技术,对号码通话内容转为文本进行分析,通过诈骗关键词匹配判断其是否属于诈骗通话,根据诈骗电话号码的聚集行为进行判断是否是一个GOIP团伙,然后再根据GOIP设备的位置信息判断该设备是否在一个车上。
现有技术当中,通过IMEI的检测方案非常依赖已有的GOIP设备特征数据积累,存在时效性差,更新缓慢,不能及时发现新设备等缺点。依据通话内容进行识别的方案需要对语音通话内容进行监听识别,涉及用户个人隐私,且需要大量计算资源对语音文件进行文本转写及分析,投入成本巨大的问题。
通过本方案提供的数据检测方法可以在不涉及隐私以及计算量较低的前提下,提高对基于GOIP的诈骗数据的检测效率和准确率,也即实施例三给出了通过数据检测方法对基于GOIP的诈骗数据进行检测的可选的实施例,具体步骤如下:
步骤1、获取全量话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以获取通信网络中检测当天以及检测当天的历史前N天的话单数据,将获取的检测当天以及历史N天的话单数据作为全量话单数据。其中,N是大于零的正整数,可以根据检测需要进行设定。
步骤2、确定异常话单筛选条件。
步骤3、根据异常话单筛选条件对全量话单数据进行筛选处理,得到异常话单数据;其中,根据异常话单筛选条件对全量话单数据进行筛选处理包括以下至少一种实现方式:
步骤3.1、提取全量话单数据中位置编码标识的数量超过第一数量阈值的话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以基于检测当天以及检测当天的历史前N天的话单数据,提取检测当天不同LAC-ci的数量超过第一数量阈值的话单数据。
步骤3.2、提取全量话单数据中,话单数量大于等于第二数量阈值的位置编码标识的数量与全部位置编码标识的数量的比例大于等于第一比例阈值的话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以基于检测当天以及检测当天的历史前N天的话单数据,提取检测日当天通话次数大于等于第二数量阈值的LAC-ci占检测日当天全部LAC-ci比例大于等于第一比例阈值的话单数据。
步骤3.3、提取全量话单数据中对端话单数据中通话数量仅一次,且话单标识占同类话单标识的比例大于等于第二比例阈值的话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以基于检测当天以及检测当天的历史前N天的话单数据,提取检测当天对端号码类型属于手机类的通话当中,通话次数仅1次的号码占该手机类号码总数的比例大于等于第二比例阈值的话单数据。
步骤3.4、提取全量话单数据中对端通话所在地与本端通话所在地相同的比例小于等于第三比例阈值的话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以基于检测当天以及检测当天的历史前N天的话单数据,提取检测当天对端通话所在地与本端通话所在地相同的比例小于等于第三比例阈值的话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以将经过步骤3.1、步骤3.2、步骤3.3以及步骤3.4中至少一个实现方式,将提取出的话单数据作为异常话单数据。
步骤4、根据异常话单数据统计在同一时段内同一基站下的话单标识。
在本发明实施例中,用于执行数据检测方法的电子设备可以基于异常话单数据统计在同一时段内在同一基站下通话的电话号码。
步骤5、在同一时段内同一基站下话单标识的数量超过话单数量阈值的情况下,根据异常话单数据确定高危基站数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以首先判断在同一时段内同一基站下电话号码的数量是否超过话单数量阈值,如果在同一时段内同一基站下电话号码的数量超过话单数量阈值,则将传输话单标识数量超过话单数量阈值的话单数据的基站确定为高危基站,进而确定与高危基站关联的数据,将于高危基站关联的数据作为高危基站数据。
步骤6、根据异常话单数据和高危基站数据确定与异常话单数据关联的高危基站时间标识。
在本发明实施例中,用于执行数据检测方法的电子设备可以根据异常话单数据确定异常话单数据的生成时间,根据高危基站数据确定高危基站的位置区码,进而将异常话单数据的生成时间与位置区码顺序连接作为与异常话单数据关联的高危基站时间标识。可以理解的是,高危基站时间标识也可以是位置区码与异常话单数据的生成时间顺序连接的结果。
步骤7、在与单个异常话单数据关联的高危基站时间标识的数量超过设定阈值的情况下,根据异常话单数据确定目标话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以统计每个电话号码关联的高危基站时间标识的数量,进而将与单个异常话单数据关联的高危基站时间标识的数量超过设定阈值的异常话单数据作为目标话单数据。
步骤8、根据目标话单数据和高危基站时间标识创建时空位置关联矩阵。
在本发明实施例中,用于执行数据检测方法的电子设备可以将生成目标话单数据的电话号码作为行向量名称,将高危基站时间标识作为列向量名称,进而根据目标话单数据和高危基站数据确定生成如下表所示的时空位置关联矩阵关系表:
表1 时空位置关联矩阵关系表
Figure BDA0003254359940000161
根据表1可以得到为
Figure BDA0003254359940000162
的时空位置关联矩阵。其中,时空位置关联矩阵种第一行第一列的数字1表示号码A与高危基站时间标识1具有关联关系,也即号码A在与高危基站时间标识1对应的时间和基站下通信。时空位置关联矩阵种第一行第二列的数字0表示号码A与高危基站时间标识2不具有关联关系,也即号码A未在与高危基站时间标识2对应的时间和基站下通信。以此类推可以确定时空位置关联矩阵中所有元素的含义。可以理解的是时空位置关联矩阵也可以是行向量为高危基站时间标识,列向量为电话号码的矩阵。
步骤9、根据相似度算法计算时空位置关联矩阵中任意两个行向量或列向量的轨迹重合相似度。
在本发明实施例中,用于执行数据检测方法的电子设备可以根据相似度算法计算两两统计每个号码之间的轨迹重合相似度。
具体的,当电话号码作为行向量名称时根据相似度算法计算时空位置关联矩阵中任意两个行向量的轨迹重合相似度,当电话号码作为列向量名称时根据相似度算法计算时空位置关联矩阵中任意两个行向量的轨迹重合相似度。轨迹重合相似度越趋近于1,则说明两个向量方向越接近;越趋近于-1,他们的方向越相反;接近于0,表示两个向量近乎于正交。
步骤10、在轨迹重合相似度大于等于相似度阈值的情况下,确定目标话单数据的伴随话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以将相似度阈值设置为三个等级,例如,相似度阈值可以为0.3-0.5、0.5-0.8以及0.8以上三个等级。当目标话单数据轨迹重合相似度大于等于0.3的电话号码作为伴随话单数据。
步骤11、根据目标筛选条件对伴随话单数据进行筛选,得到当天活跃待处理数据,其中,根据目标筛选条件对伴随话单数据进行筛选包括以下至少一种实现方式:
步骤11.1、排除伴随话单数据中与正常话单标识关联的话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以排除伴随话单数据中在一段时间内与家庭短号或工作集群短号存在预设数量阈值的通话次数的话单数据。
步骤11.2、排除伴随话单数据中在目标时间段内与至少两个不同的话单标识存在目标个数以上的关联特征的话单数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以排除伴随话单数据中在目标时间段内与至少两个不同的话单标识存在3次以上的通话行为的话单数据。
步骤11.3、排除伴随话单数据中与伴随话单数据关联的位置编码标识的数量超过第三数量阈值,且与伴随话单数据关联的基站数量超过第四数量阈值的话单数据。
在本发明实施例中,为了排除常用联系人在固定社交圈的通信,用于执行数据检测方法的电子设备可以提取号码多天的信令数据,根据信令数据排除伴随话单数据中与伴随话单数据关联的位置编码标识去重后的数量超过第三数量阈值,且平均每天与伴随话单数据关联的基站数量超过第四数量阈值的话单数据。
步骤11.4、排除伴随话单数据中轨迹重合相似度小于目标相似度阈值的话单数据。
在本发明实施例中,为了排除小团伙通信引起的误报,用于执行数据检测方法的电子设备可以排除伴随话单数据中号码数量达到预设的数量,且伴随话单数据中轨迹重合相似度小于目标相似度阈值的话单数据。
步骤12、在确定当前伴随话单数据中需要排除的数据量与当前伴随话单数据的比例小于第四比例阈值的情况下,对当前伴随话单数据进行剔除。
在本发明实施例中,用于执行数据检测方法的电子设备可以在对话单数据进行排除时,还可以判断当前伴随话单数据中需要排除的数据量与当前伴随话单数据的比例,如果当前伴随话单数据中需要排除的数据量与当前伴随话单数据的比例小于第四比例阈值,则将当前伴随话单数据进行全部剔除。如果当前伴随话单数据中需要排除的数据量与当前伴随话单数据的比例大于等于第四比例阈值,则仅根据步骤11.1、步骤11.2、步骤11.3以及步骤11.4对伴随话单数据进行排除。
步骤13、提取与当天活跃待处理数据关联的设备对比标识。
在本发明实施例中,用于执行数据检测方法的电子设备可以提取当天活跃待处理数据中与电话号码对应的IMEI,进而将IMEI的前10位记为设备对比标识。
步骤14、在具有相同设备对比标识的当天活跃待处理数据满足目标行为阈值的情况下,将具有相同设备对比标识的当天活跃待处理数据作为目标检测数据。
在本发明实施例中,用于执行数据检测方法的电子设备可以将具有相同设备对比标识的当天活跃待处理数据满足目标行为阈值中至少一种的话单数据作为目标检测数据。在得到目标检测数据之后,可以对属于目标检测数据的电话号码属于同一团伙,则将为同一团伙的电话号码进行标识输出,以供后续分析。如果目标检测数据的电话号码不属于同一团伙,则将单个电话号码作为一个团伙进行输出。
图3是本发明实施例三提供的一种诈骗数据检测的简易流程图,如图3所示,用于执行数据检测方法的电子设备可以首先获取检测当天以及历史话单数据,对获取的检测当天以及历史话单数据进行异常话单数据筛选,进而根据异常话单数据确定高危基站数据,从而根据异常话单数据以及高危基站数据确定目标话单数据。在得到目标话单数据之后,根据目标话单数据和高危基站时间标识创建时空位置关联矩阵,进而通过相似度算法计算时空位置关联矩阵的轨迹重合相似程度,以根据轨迹重合相似度确定伴随话单数据,对伴随话单数据进行筛选排除正常话单数据,进而根据排除正常话单数据的伴随话单数据确定诈骗数据,根据诈骗数据确定协助传输的GOIP的设备信息,从而输出诈骗数据以及协助传输的GOIP的设备信息。
本实施例的技术方案,通过获取全量话单数据,从而根据全量话单数据创建时空位置关联矩阵,进而根据时空位置关联矩阵计算轨迹重合相似度,以进一步根据轨迹重合相似度确定伴随话单数据,然后对伴随话单数据进行数据筛选处理,得到目标检测数据。由于时空位置关联矩阵可以反映通话终端实际移动情况,因此根据可以反映通话终端实际移动情况的时空位置关联矩阵计算轨迹重合相似度,能够确定具有相似移动轨迹的伴随话单数据。由于移动轨迹可以反映通话行为特征,通过对具有通话行为特征的伴随话单数据进行数据筛选,不仅可以避免对全部伴随话单数据进行检测的计算量,还可以准确提取出目标检测数据,解决了现有技术中问题中利用已有经验对数据进行检测存在时效性差、检测更新缓慢以及不能及时对未知新数据进行检测的缺点,还避免了通过文本转换和关键词识别技术对数据进行检测时,无法避免隐私泄露,和计算资源占用较大的问题,能够降低目标数据的计算复杂度,提高目标数据检测的效率、安全性和准确率。
实施例四
图4是本发明实施例四提供的一种数据检测装置的示意图,如图4所示,所述装置包括:全量话单数据获取模块310、时空位置关联矩阵创建模块320、轨迹重合相似度获取模块330、伴随话单数据确定模块340以及目标检测数据获取模块350,其中:
全量话单数据获取模块310,用于获取全量话单数据;
时空位置关联矩阵创建模块320,用于根据全量话单数据创建时空位置关联矩阵;
轨迹重合相似度获取模块330,用于根据时空位置关联矩阵计算轨迹重合相似度;
伴随话单数据确定模块340,用于根据轨迹重合相似度确定伴随话单数据;
目标检测数据获取模块350,用于对伴随话单数据进行数据筛选处理,得到目标检测数据。
本实施例的技术方案,通过获取全量话单数据,从而根据全量话单数据创建时空位置关联矩阵,进而根据时空位置关联矩阵计算轨迹重合相似度,以进一步根据轨迹重合相似度确定伴随话单数据,然后对伴随话单数据进行数据筛选处理,得到目标检测数据。由于时空位置关联矩阵可以反映通话终端实际移动情况,因此根据可以反映通话终端实际移动情况的时空位置关联矩阵计算轨迹重合相似度,能够确定具有相似移动轨迹的伴随话单数据。由于移动轨迹可以反映通话行为特征,通过对具有通话行为特征的伴随话单数据进行数据筛选,不仅可以避免对全部伴随话单数据进行检测的计算量,还可以准确提取出目标检测数据,解决了现有技术中问题中利用已有经验对数据进行检测存在时效性差、检测更新缓慢以及不能及时对未知新数据进行检测的缺点,还避免了通过文本转换和关键词识别技术对数据进行检测时,无法避免隐私泄露,和计算资源占用较大的问题,能够降低目标数据的计算复杂度,提高目标数据检测的效率、安全性和准确率。
可选的,时空位置关联矩阵创建模块320,具体用于:确定异常话单筛选条件;根据所述异常话单筛选条件对所述全量话单数据进行筛选处理,得到异常话单数据;根据所述异常话单数据确定高危基站数据;根据所述异常话单数据和所述高危基站数据创建所述时空位置关联矩阵。
可选的,时空位置关联矩阵创建模块320,具体用于以下至少一种实现方式:提取所述全量话单数据中位置编码标识的数量超过第一数量阈值的话单数据;提取所述全量话单数据中,话单数量大于等于第二数量阈值的所述位置编码标识的数量与全部所述位置编码标识的数量的比例大于等于第一比例阈值的话单数据;提取所述全量话单数据中对端话单数据中通话数量仅一次,且话单标识占同类话单标识的比例大于等于第二比例阈值的话单数据;或提取所述全量话单数据中对端通话所在地与本端通话所在地相同的比例小于等于第三比例阈值的话单数据。
可选的,时空位置关联矩阵创建模块320,具体用于:根据所述异常话单数据统计在同一时段内同一基站下的话单标识;在同一时段内同一基站下所述话单标识的数量超过话单数量阈值的情况下,根据所述异常话单数据确定所述高危基站数据。
可选的,时空位置关联矩阵创建模块320,具体用于:根据所述异常话单数据和所述高危基站数据确定与所述异常话单数据关联的高危基站时间标识;在与单个所述异常话单数据关联的高危基站时间标识的数量超过设定阈值的情况下,根据所述异常话单数据确定目标话单数据;根据所述目标话单数据和所述高危基站时间标识创建所述时空位置关联矩阵。
可选的,轨迹重合相似度获取模块330,具体用于:根据相似度算法计算所述时空位置关联矩阵中任意两个行向量或列向量的所述轨迹重合相似度。
可选的,伴随话单数据确定模块340,具体用于:在所述轨迹重合相似度大于等于相似度阈值的情况下,确定所述目标话单数据的伴随话单数据。
可选的,伴随话单数据确定模块340,具体用于:根据所述目标话单数据确定待处理伴随分组数据;根据待处理伴随分组数据确定关联伴随分组数据;将所述待处理伴随分组数据和所述关联伴随分组数据作为所述伴随话单数据。
可选的,目标检测数据获取模块350,具体用于:确定目标筛选条件;根据所述目标筛选条件对所述伴随话单数据进行筛选,得到当天活跃待处理数据;对所述当天活跃待处理数据进行数据提取处理,得到所述目标检测数据
可选的,目标检测数据获取模块350,具体用于以下至少一种实现方式:排除所述伴随话单数据中与正常话单标识关联的话单数据;排除所述伴随话单数据中在目标时间段内与至少两个不同的话单标识存在目标个数以上的关联特征的话单数据;排除所述伴随话单数据中与所述伴随话单数据关联的位置编码标识的数量超过第三数量阈值,且与所述伴随话单数据关联的基站数量超过第四数量阈值的话单数据;或排除所述伴随话单数据中所述轨迹重合相似度小于目标相似度阈值的话单数据;对所述伴随话单数据进行数据筛选,还包括:在确定当前伴随话单数据中需要排除的数据量与当前伴随话单数据的比例小于第四比例阈值的情况下,对当前伴随话单数据进行剔除。
可选的,目标检测数据获取模块350,具体用于:提取与所述当天活跃待处理数据关联的设备对比标识;在具有相同所述设备对比标识的当天活跃待处理数据满足目标行为阈值的情况下,将所述具有相同所述设备对比标识的当天活跃待处理数据作为所述目标检测数据;其中,所述目标行为阈值包括同城话单标识占比阈值、对端号码离散度阈值、首次主叫占比阈值以及回拨话单标识比例阈值中的至少一个。
上述数据检测装置可执行本发明任意实施例所提供的数据检测方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的数据检测方法。
由于上述所介绍的数据检测装置为可以执行本发明实施例中的数据检测方法的装置,故而基于本发明实施例中所介绍的数据检测方法,本领域所属技术人员能够了解本实施例的数据检测装置的具体实施方式以及其各种变化形式,所以在此对于该数据检测装置如何实现本发明实施例中的数据检测方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中数据检测方法所采用的装置,都属于本申请所欲保护的范围。
实施例五
图5为本发明实施例五提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明实施方式的电子设备412的框图。图5显示的电子设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。电子设备412例如可以是计算机设备或服务器设备等。
如图5所示,电子设备412以通用计算设备的形式表现。电子设备412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)430和/或高速缓存存储器432。电子设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块426的程序436,可以存储在例如存储装置428中,这样的程序模块426包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块426通常执行本发明所描述的实施例中的功能和/或方法。
电子设备412也可以与一个或多个外部设备414(例如键盘、指向设备、摄像头、显示器424等)通信,还可与一个或者多个使得用户能与该电子设备412交互的设备通信,和/或与使得该电子设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口422进行。并且,电子设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与电子设备412的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的数据检测方法:获取全量话单数据;根据全量话单数据创建时空位置关联矩阵;根据时空位置关联矩阵计算轨迹重合相似度;根据轨迹重合相似度确定伴随话单数据;对伴随话单数据进行数据筛选处理,得到目标检测数据。
本实施例的技术方案,通过获取全量话单数据,从而根据全量话单数据创建时空位置关联矩阵,进而根据时空位置关联矩阵计算轨迹重合相似度,以进一步根据轨迹重合相似度确定伴随话单数据,然后对伴随话单数据进行数据筛选处理,得到目标检测数据。由于时空位置关联矩阵可以反映通话终端实际移动情况,因此根据可以反映通话终端实际移动情况的时空位置关联矩阵计算轨迹重合相似度,能够确定具有相似移动轨迹的伴随话单数据。由于移动轨迹可以反映通话行为特征,通过对具有通话行为特征的伴随话单数据进行数据筛选,不仅可以避免对全部伴随话单数据进行检测的计算量,还可以准确提取出目标检测数据,解决了现有技术中问题中利用已有经验对数据进行检测存在时效性差、检测更新缓慢以及不能及时对未知新数据进行检测的缺点,还避免了通过文本转换和关键词识别技术对数据进行检测时,无法避免隐私泄露,和计算资源占用较大的问题,能够降低目标数据的计算复杂度,提高目标数据检测的效率、安全性和准确率。
实施例六
本发明实施例六还提供一种存储计算机程序的计算机存储介质,所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的数据检测方法:获取全量话单数据;根据全量话单数据创建时空位置关联矩阵;根据时空位置关联矩阵计算轨迹重合相似度;根据轨迹重合相似度确定伴随话单数据;对伴随话单数据进行数据筛选处理,得到目标检测数据。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ReadOnly Memory,ROM)、可擦式可编程只读存储器((Erasable Programmable Read OnlyMemory,EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (13)

1.一种数据检测方法,其特征在于,包括:
获取全量话单数据;
根据所述全量话单数据创建时空位置关联矩阵;
根据所述时空位置关联矩阵计算轨迹重合相似度;
根据所述轨迹重合相似度确定伴随话单数据;
对所述伴随话单数据进行数据筛选处理,得到目标检测数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述全量话单数据创建时空位置关联矩阵,包括:
确定异常话单筛选条件;
根据所述异常话单筛选条件对所述全量话单数据进行筛选处理,得到异常话单数据;
根据所述异常话单数据确定高危基站数据;
根据所述异常话单数据和所述高危基站数据创建所述时空位置关联矩阵。
3.根据权利要求2所述的方法,其特征在于,所述根据所述异常话单筛选条件对所述全量话单数据进行筛选处理,包括以下至少一种实现方式:
提取所述全量话单数据中位置编码标识的数量超过第一数量阈值的话单数据;
提取所述全量话单数据中,话单数量大于等于第二数量阈值的所述位置编码标识的数量与全部所述位置编码标识的数量的比例大于等于第一比例阈值的话单数据;
提取所述全量话单数据中对端话单数据中通话数量仅一次,且话单标识占同类话单标识的比例大于等于第二比例阈值的话单数据;或
提取所述全量话单数据中对端通话所在地与本端通话所在地相同的比例小于等于第三比例阈值的话单数据。
4.根据权利要求2所述的方法,其特征在于,所述根据所述异常话单数据确定高危基站数据,包括:
根据所述异常话单数据统计在同一时段内同一基站下的话单标识;
在同一时段内同一基站下所述话单标识的数量超过话单数量阈值的情况下,根据所述异常话单数据确定所述高危基站数据。
5.根据权利要求2所述的方法,其特征在于,所述根据所述异常话单数据和所述高危基站数据创建所述时空位置关联矩阵,包括:
根据所述异常话单数据和所述高危基站数据确定与所述异常话单数据关联的高危基站时间标识;
在与单个所述异常话单数据关联的高危基站时间标识的数量超过设定阈值的情况下,根据所述异常话单数据确定目标话单数据;
根据所述目标话单数据和所述高危基站时间标识创建所述时空位置关联矩阵。
6.根据权利要求5所述的方法,其特征在于,所述根据所述时空位置关联矩阵计算轨迹重合相似度,包括:
根据相似度算法计算所述时空位置关联矩阵中任意两个行向量或列向量的所述轨迹重合相似度;
所述根据所述轨迹重合相似度确定伴随话单数据,包括:
在所述轨迹重合相似度大于等于相似度阈值的情况下,确定所述目标话单数据的伴随话单数据。
7.根据权利要求6所述的方法,其特征在于,所述确定所述目标话单数据的伴随话单数据,包括:
根据所述目标话单数据确定待处理伴随分组数据;
根据待处理伴随分组数据确定关联伴随分组数据;
将所述待处理伴随分组数据和所述关联伴随分组数据作为所述伴随话单数据。
8.根据权利要求1所述的方法,其特征在于,所述对所述伴随话单数据进行数据筛选处理,得到目标检测数据,包括:
确定目标筛选条件;
根据所述目标筛选条件对所述伴随话单数据进行筛选,得到当天活跃待处理数据;
对所述当天活跃待处理数据进行数据提取处理,得到所述目标检测数据。
9.根据权利要求8所述的方法,其特征在于,所述根据所述目标筛选条件对所述伴随话单数据进行筛选,包括以下至少一种实现方式:
排除所述伴随话单数据中与正常话单标识关联的话单数据;
排除所述伴随话单数据中在目标时间段内与至少两个不同的话单标识存在目标个数以上的关联特征的话单数据;
排除所述伴随话单数据中与所述伴随话单数据关联的位置编码标识的数量超过第三数量阈值,且与所述伴随话单数据关联的基站数量超过第四数量阈值的话单数据;或
排除所述伴随话单数据中所述轨迹重合相似度小于目标相似度阈值的话单数据;对所述伴随话单数据进行数据筛选,还包括:
在确定当前伴随话单数据中需要排除的数据量与当前伴随话单数据的比例小于第四比例阈值的情况下,对当前伴随话单数据进行剔除。
10.根据权利要求8所述的方法,其特征在于,所述对所述当天活跃待处理数据进行数据提取处理,得到所述目标检测数据,包括:
提取与所述当天活跃待处理数据关联的设备对比标识;
在具有相同所述设备对比标识的当天活跃待处理数据满足目标行为阈值的情况下,将所述具有相同所述设备对比标识的当天活跃待处理数据作为所述目标检测数据;
其中,所述目标行为阈值包括同城话单标识占比阈值、对端号码离散度阈值、首次主叫占比阈值以及回拨话单标识比例阈值中的至少一个。
11.一种数据检测装置,其特征在于,包括:
全量话单数据获取模块,用于获取全量话单数据;
时空位置关联矩阵创建模块,用于根据所述全量话单数据创建时空位置关联矩阵;
轨迹重合相似度获取模块,用于根据所述时空位置关联矩阵计算轨迹重合相似度;
伴随话单数据确定模块,用于根据所述轨迹重合相似度确定伴随话单数据;
目标检测数据获取模块,用于对所述伴随话单数据进行数据筛选处理,得到目标检测数据。
12.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的数据检测方法。
13.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的数据检测方法。
CN202111055286.XA 2021-09-09 2021-09-09 一种数据检测方法、装置、电子设备及存储介质 Pending CN113780407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111055286.XA CN113780407A (zh) 2021-09-09 2021-09-09 一种数据检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111055286.XA CN113780407A (zh) 2021-09-09 2021-09-09 一种数据检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113780407A true CN113780407A (zh) 2021-12-10

Family

ID=78841950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111055286.XA Pending CN113780407A (zh) 2021-09-09 2021-09-09 一种数据检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113780407A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105578434A (zh) * 2015-12-17 2016-05-11 北京奇虎科技有限公司 一种检测伪基站运动轨迹的方法及服务器
CN106791220A (zh) * 2016-11-04 2017-05-31 国家计算机网络与信息安全管理中心 防止电话诈骗的方法及系统
WO2017162084A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 数据伴随分析方法及装置
CN109587350A (zh) * 2018-11-16 2019-04-05 国家计算机网络与信息安全管理中心 一种基于滑动时间窗口聚合的电信诈骗电话的序列异常检测方法
CN110909009A (zh) * 2019-11-20 2020-03-24 厦门市美亚柏科信息股份有限公司 基于话单的轨迹伴随行为分析方法、终端设备及存储介质
CN110933662A (zh) * 2019-12-18 2020-03-27 厦门市美亚柏科信息股份有限公司 一种基于数据挖掘的时空伴随关系分析方法和系统
CN110991525A (zh) * 2019-11-29 2020-04-10 西安交通大学 基于运营商轨迹数据的伴随模式匹配方法
WO2020134790A1 (zh) * 2018-12-26 2020-07-02 中兴通讯股份有限公司 一种数据异常检测方法、装置及终端设备
CN112055356A (zh) * 2020-09-17 2020-12-08 杭州安恒信息安全技术有限公司 一种异常电话号码识别方法、装置、设备及可读存储介质
CN112561948A (zh) * 2020-12-22 2021-03-26 中国联合网络通信集团有限公司 基于时空轨迹的伴随轨迹识别方法、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105578434A (zh) * 2015-12-17 2016-05-11 北京奇虎科技有限公司 一种检测伪基站运动轨迹的方法及服务器
WO2017162084A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 数据伴随分析方法及装置
CN106791220A (zh) * 2016-11-04 2017-05-31 国家计算机网络与信息安全管理中心 防止电话诈骗的方法及系统
CN109587350A (zh) * 2018-11-16 2019-04-05 国家计算机网络与信息安全管理中心 一种基于滑动时间窗口聚合的电信诈骗电话的序列异常检测方法
WO2020134790A1 (zh) * 2018-12-26 2020-07-02 中兴通讯股份有限公司 一种数据异常检测方法、装置及终端设备
CN110909009A (zh) * 2019-11-20 2020-03-24 厦门市美亚柏科信息股份有限公司 基于话单的轨迹伴随行为分析方法、终端设备及存储介质
CN110991525A (zh) * 2019-11-29 2020-04-10 西安交通大学 基于运营商轨迹数据的伴随模式匹配方法
CN110933662A (zh) * 2019-12-18 2020-03-27 厦门市美亚柏科信息股份有限公司 一种基于数据挖掘的时空伴随关系分析方法和系统
CN112055356A (zh) * 2020-09-17 2020-12-08 杭州安恒信息安全技术有限公司 一种异常电话号码识别方法、装置、设备及可读存储介质
CN112561948A (zh) * 2020-12-22 2021-03-26 中国联合网络通信集团有限公司 基于时空轨迹的伴随轨迹识别方法、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YOUSEF AL-QUDAH: "Complex Multi-Fuzzy Soft Set: Its Entropy and Similarity Measure", IEEE ACCESS *
王冼;: "一种基于特征分类的垃圾电话检测系统", 信息通信, no. 06 *

Similar Documents

Publication Publication Date Title
CN109600752B (zh) 一种深度聚类诈骗检测的方法和装置
CN109451182B (zh) 一种诈骗电话的检测方法和装置
EP2806425B1 (en) System and method for speaker verification
CN107391359B (zh) 一种业务测试方法及装置
CN111400357A (zh) 一种识别异常登录的方法和装置
CN105825129A (zh) 一种融合通信中恶意软件鉴别方法和系统
CN112416730A (zh) 一种用户上网行为分析方法、装置、电子设备及存储介质
CN108810290B (zh) 一种诈骗电话的识别的方法及系统
CN109905524B (zh) 电话号码识别方法、装置、计算机设备及计算机存储介质
CN110995937B (zh) 一种被骚扰用户的识别方法及装置
US20120220271A1 (en) System and method for selective monitoring of mobile communication terminals based on speech key-phrases
CN114169438A (zh) 一种电信网络诈骗识别方法、装置、设备及存储介质
CN112351429B (zh) 基于深度学习的有害信息检测方法及系统
CN111131627B (zh) 基于流数据图谱的个人有害呼叫检测方法、装置及可读介质
CN112333709B (zh) 一种跨网络涉诈关联分析方法、系统及计算机存储介质
CN113780407A (zh) 一种数据检测方法、装置、电子设备及存储介质
CN111930808B (zh) 一种利用键值匹配模型提高黑名单准确率的方法及系统
CN114168423A (zh) 异常号码的呼叫监控方法、装置、设备及存储介质
CN112417007A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN109510903B (zh) 一种识别国际诈骗号码的方法
CN114205462A (zh) 一种诈骗电话识别方法、装置、系统及计算机存储介质
CN113286035B (zh) 异常呼叫检测方法、装置、设备及介质
CN113950054B (zh) 号码识别方法、装置、电子设备及存储介质
CN114169441A (zh) 一种数据识别方法、装置、电子设备及存储介质
CN111131626B (zh) 基于流数据图谱的群组有害呼叫检测方法、装置及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination