CN109451182A

CN109451182A - 一种诈骗电话的检测方法和装置

Info

Publication number: CN109451182A
Application number: CN201811219800.7A
Authority: CN
Inventors: 林荣恒; 张震; 彭潞; 闵星; 吴步丹; 邹华
Original assignee: Beijing University of Posts and Telecommunications; National Computer Network and Information Security Management Center
Current assignee: Beijing University of Posts and Telecommunications; National Computer Network and Information Security Management Center
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2019-03-08
Anticipated expiration: 2038-10-19
Also published as: CN109451182B

Abstract

本申请公开了一种诈骗通话的检测方法，包括：将所有通话语音转换为文本，组成文本集；将文本集中的每个文本转换为关键词权重向量；对所有关键词权重向量通过文本聚类形成多个簇，并根据诈骗关键词集确定各个簇是否为诈骗簇；对于诈骗簇内的所有关键词权重向量对应的通话，确定为诈骗通话；利用所有通话和所述关键词构建文本社交网络，在所述文本社交网络中将诈骗通话对应的节点标记为诈骗通话，并通过标签传播确定其他标记为诈骗通话的节点；将所有标记为诈骗通话的节点对应的通话确定为诈骗通话。应用本申请，能够适用于各种诈骗类型，同时不需要获取用户敏感数据，可操作性更强。

Description

一种诈骗电话的检测方法和装置

技术领域

本申请涉及复杂网络及移动通信技术领域，特别涉及一种诈骗电话的检测方法和装置。

背景技术

随着通信行业的不断发展，在带来更多便利的同时，随之而来的是电信网络诈骗活动的猖獗，电话诈骗的手段越来越多，让人们防不胜防。

目前采用的诈骗电话检测方法主要有呼叫地来源检测、黑名单拦截等，这些方法普遍具有实时性和灵活性差的特点。诈骗技术和方法的更新很容易导致原有拦截手段的失效。目前高发的诈骗电话主要集中于移动电话用户，大部分主叫号码来自境外，诈骗者通过改号软件或者VOIP技术绕过现有的拦截手段，实现诈骗呼叫。

经过研究发现，诈骗呼叫的诈骗手段往往较为相似，可以分为几个大类。同时，诈骗团伙往往内部存在一定的组织结构，诈骗行为也存在分阶段的特性，在第一阶段诈骗份子进行“广撒网”式的拨打，这种诈骗往往存在较明显的行为特征，如主叫呼叫频次高、被叫离散度高、平均呼叫时长短、接通率低等特征，这主要是因为犯罪分子在此阶段利用呼叫平台进行群呼扫描，寻找潜在受害者。找到潜在受害者，进入下一阶段后，诈骗电话的行为特征与正常通话的特征较为接近，通过呼叫特征进行挖掘较为困难，但此阶段诈骗电话的通话内容具有一定相似性，往往涉及转账等敏感关键词。

目前还有一些识别诈骗电话的方法，但是也都存在各种问题，例如：

方法一、采集呼叫话单数据并分析黑名单，对黑名单电话进行单向录音，将录音文件与诈骗语音样本库进行对比，以此确定通话是否是诈骗。该方法主要缺陷在于诈骗手段不断变化，像构建覆盖全网的语音库难度很大，且极为消耗资源；

方法二、提取所述实时话单的号码特征和/或行为特征；根据预设的诈骗电话识别模型对所述实时话单的号码特征和/或行为特征进行分析，以确定所述实时话单对应的通话行为是否为诈骗电话。该方法的主要缺点在于，仅通过提取的呼叫频次、被叫离散度等行为特征是否符合诈骗电话识别模型，只能找出行为特征与正常呼叫差别较大的号码，对于行为模式与正常呼叫接近的诈骗通话误拦截率较高，并且随着诈骗手段的不断更新，诈骗识别模型的演进较为困难；

方法三、获取原始话单中电话号码的异常行为数据和特征数据；异常行为数据包括异常号码呼叫次数、空号呼叫次数和陌生号码呼叫次数中一种或多种；特征数据包括活跃程度和通话数据，将两种数据输入训练好的诈骗电话号码分析模型，通过加权朴素贝叶斯分类算法，获取诈骗电话号码分析结果。

复杂网络是复杂系统的抽象，现实中许多复杂系统都可以用复杂网络的相关特性进行描述和分析。对复杂网络的研究一直是许多领域的研究热点，有方案提出利用复杂网络来进行识别诈骗通话，例如下述方法四和方法五。

方法四、将复杂社交网络中的个体抽象为顶点，将社交网络中的各个个体之间的每一种关系抽象为边，并根据关系强弱对每条边赋予权重，并建立邻接矩阵，然后通过对用户对应顶点的关系聚集来定义欺诈群体。在识别出欺诈群体中的欺诈者或违约者后，重新计算社交网络中的其他用户的欺诈风险或者信用风险。但是这种诈骗通话识别方法需要获取到用户的个人信息和社交信息，这些信息往往较为敏感且难以获取，有时只能通过已有数据进行推测，会导致较大误差。

方法五、通过社交图谱获取测试源数据，将测试源数据对被测系统进行测试并生成预测模型，通过基于社交网络的欺诈团体检测技术执行操作，其中测试源数据包括用户授权通讯录、通话记录、短信记录、紧急联系人等信息。该专利的缺点在于需要搜集通讯录等敏感信息，且主要应用于信贷诈骗，对于诈骗电话的实用性较弱。

由上述可见，在现有的诈骗电话检测方法中，很多都存在无法适应各种不同诈骗类型和手段的问题，而在利用复杂网络识别诈骗电话的方法中，往往需要获取用户的敏感信息，可操作性不强。

发明内容

本申请提供一种诈骗电话的检测方法和装置，能够适用于各种诈骗类型，同时不需要获取用户敏感数据，可操作性更强。

为实现上述目的，本申请采用如下技术方案：

一种诈骗通话的检测方法，包括：

将所有通话语音转换为文本，组成文本集；将文本集中的每个文本转换为关键词权重向量；

对所有关键词权重向量通过文本聚类形成多个簇，并根据诈骗关键词集确定各个簇是否为诈骗簇；对于诈骗簇内的所有关键词权重向量对应的通话，确定为诈骗通话；

利用所有通话和所述关键词构建文本社交网络，在所述文本社交网络中将诈骗通话对应的节点标记为诈骗通话，并通过标签传播确定其他标记为诈骗通话的节点；将所有标记为诈骗通话的节点对应的通话确定为诈骗通话。

较佳地，该方法进一步包括：

利用诈骗簇内所有通话的主叫号码及与其有过通话关系的所有号码构建话单社交网络，并进行社区发现；根据所述话单社交网络中每个社区包括的诈骗号码个数确定相应社区为诈骗社区或非诈骗社区；将诈骗社区内的所有通话语音转换为文本后进行文本聚类，提取出新的关键词，加入所述诈骗关键词集中，用于下一次将所有通话语音文本转换为关键词权重向量的过程；

其中，所述诈骗号码为所述诈骗通话中的主叫号码。

较佳地，所述确定各个簇是否为诈骗簇包括：对于每个簇，根据诈骗关键词集，将该簇的特征与预设的诈骗簇的特征进行比较，确定相应簇是否为诈骗簇。

较佳地，所述将该簇的特征与预设的诈骗簇的特征进行比较确定相应簇是否为诈骗簇包括：

在所有关键词向量中选择所述诈骗关键词集中包括的词语，作为诈骗关键词；

计算该簇中所有诈骗关键词的权重之和x，计算x与该簇中所有关键词的权重之和的比值，若该比值大于预设阈值，则认定该簇为诈骗簇。

较佳地，所述将文本集中的每个文本转换为关键词权重向量时利用TF-IDF方式进行；

所述利用所有通话和所述关键词构建文本社交网络包括：将所有通话语音转换成的文本和所有关键词权重向量中的关键词作为所述文本社交网络的节点，如果文本中包括一关键词，则在相应的文本节点和关键词节点间添加边，边的权重为对应的关键词在相应文本中的TF-IDF值。

较佳地，所述构建话单社交网络包括：

将所述诈骗簇内所有通话的主叫号码及与其有过通话关系的所有号码作为所述话单社交网络的节点，若任意两个节点间有一通呼叫，则在相应节点间添加一条边，并根据各条边对应通话的特征设置相应边的权重。

较佳地，所述根据各条边对应通话的特征设置相应边的权重包括：根据所述通话的综合通话时长和主被叫号码归属地确定相应边的权重；其中，综合通话时长越长，边的权重越大，主被叫号码归属地越相似，边的权重越大。

一种诈骗通话的检测装置，包括：话单预处理单元、语音识别单元、文本聚类单元和文本社区发现单元；

所述话单预处理单元，用于收集所有通话语音，并进行数据预处理操作；

所述语音识别单元，用于将所述话单预处理单元预处理后的通话语音转换为文本，组成文本集；

所述文本聚类单元，用于将文本集中的每个文本转换为关键词权重向量；对所有关键词权重向量通过文本聚类形成多个簇，并根据诈骗关键词集确定各个簇是否为诈骗簇；对于诈骗簇内的所有关键词权重向量对应的通话，确定为诈骗通话；

所述文本社区发现单元，用于利用所有通话和所述关键词构建文本社交网络，在所述文本社交网络中将诈骗通话对应的节点标记为诈骗通话，并通过标签传播确定其他标记为诈骗通话的节点；将所有标记为诈骗通话的节点对应的通话确定为诈骗通话。

较佳地，所述装置进一步包括话单社区发现单元，用于利用诈骗簇内所有通话的主叫号码及与其有过通话关系的所有号码构建话单社交网络，并进行社区发现；根据所述话单社交网络中每个社区包括的诈骗号码个数确定相应社区为诈骗社区或非诈骗社区；将诈骗社区内的所有通话语音转换为文本后进行文本聚类，提取出新的关键词，加入所述诈骗关键词集中，用于下一次将所有通话语音文本转换为关键词权重向量的过程。

由上述技术方案可见，本申请中，将所有通话语音转换为文本，组成文本集；根据诈骗关键词集，将文本集中的每个文本转换为关键词权重向量；对所有关键词权重向量通过文本聚类形成多个簇，并确定各个簇是否为诈骗簇；对于诈骗簇内的所有关键词权重向量对应的通话，确定为诈骗通话；利用诈骗簇内的所有通话和所述关键词构建文本社交网络，在文本社交网络中将诈骗通话对应的节点标记为诈骗通话，并通过标签传播确定其他标记为诈骗通话的节点；将所有标记为诈骗通话的节点对应的通话确定为诈骗通话。通过上述方式，采用聚类和复杂网络分析的无监督算法，能够适用于各种诈骗类型，同时不需要获取用户敏感数据，可操作性更强。

附图说明

图1为本申请中诈骗通话检测方法的流程示意图；

图2为本申请中诈骗通话检测装置的结构示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

复杂网络中的节点标识系统中的个体，边标识个体之间的关系，例如社会关系网络、食物链、万维网、城市交通网络和电力网等。社区结构是复杂网络中的一个普遍特征，社区反映的是网络中的个体行为的局部性特征以及其相互之间的关联关系，整个复杂网络是由许多个社区组成的。社区发现是一个复杂而有意义的过程，它对研究复杂网络的特性具有重要作用。近几年，发现及分析复杂网络中的社区结构得到了许多学者的关注，同时也出现了很多社区发现算法。传统意义上的社区指的是网络中的一组节点间具有较大的相似性，从而形成的一种内部连接紧密而外部稀疏的群体结构，同一社区内的节点与节点之间的连接很紧密，而社区与社区之间的连接比较稀疏。

在判断一通通话是否为诈骗通话时，如果仅仅使用这一通通话的话单与内容，那会显得非常局限，需要将这一通通话放在当天所有通话中进行综合分析。也就是说，一个诈骗主叫，可能由于采样的原因，在某一通通话时，无法判断是否为诈骗；但是检测出这个主叫的其他通话为诈骗，那么我们判定这通通话同样也为诈骗通话，进行预警拦截。

因此，本申请中基于复杂网络提供了一种无监督学习方法，最基本地，基于内容(语音)数据进行聚类，并建立复杂网络，在建成的网络上社区发现，进行诈骗通话识别。更进一步地，还可以基于内容数据的聚类结果和通话的行为(话单)建立复杂网络，在该建成的网络上社区发现，寻找诈骗社区和无诈社区，拦截诈骗通话。

图1为本申请中诈骗通话检测方法的流程图。如图1所示，该方法包括：

步骤101，将所有通话语音转换为文本，组成文本集。

步骤102，将文本集中的每个文本转换为关键词权重向量。

对于任一语音文本，过滤掉停用词，通过TF-IDF标准化文本处理方式，将语音文本建模为词权重向量。对于词权重向量的每个词语，都有对应的权重。具体将语音文本建模为词权重向量的方法可以按照现有方式进行，例如通过TF-IDF进行转换，此时关键词的权重即为该词的TF-IDF值。在转换完成后，一个通话语音文本对应一个词权重向量。其中，停用词来自于停用词表。目前存在一部分通用的停用词表，例如中科院的停用词表，优选地，还可以在已有停用词表的基础上根据诈骗实际背景情况，加入一些新的停用词。

步骤103，对所有关键词权重向量通过文本聚类形成多个簇，并根据诈骗关键词集确定各个簇是否为诈骗簇；对于诈骗簇内的所有关键词权重向量对应的通话，确定为诈骗通话。

对于关键词权重向量，通过文本聚类方法形成一个个簇，具体文本聚类方法可以采用任何现有方法，本申请对此不做限定。每个簇由一个或多个关键词权重向量组成，如前所述，每个关键词权重向量对应一个通话语音文本，因此，每个簇可能对应一个或多个通话语音文本。

在确定某个簇是否为诈骗簇时，根据诈骗关键词集进行。这里的诈骗关键词集可以是预先建立的集合(例如根据先验知识以及查阅相关文档等形成的词集)，或者，还可以是在原始诈骗关键词集的基础上通过步骤107加入新的关键词后形成的新的诈骗关键词集。优选地，可以根据诈骗关键词集，将该簇的特征与预设的诈骗簇的特征进行比较，确定相应簇是否为诈骗簇。具体地，若簇中的所有诈骗关键词的权重(例如TF-IDF值)总和与所有关键词的权重(例如TF-IDF值)总和的比值超过预设阈值，则将该簇判定为诈骗簇。

在区分出诈骗簇后，将诈骗簇对应的所有通话语音文本均认为是诈骗通话。至此，我们能够先确认一部分诈骗通话。

步骤104，利用所有通话和所有关键词构建文本社交网络，在文本社交网络中将诈骗通话对应的节点标记为诈骗通话，并通过标签传播确定其他标记为诈骗通话的节点；将所有标记为诈骗通话的节点对应的通话确定为诈骗通话。

若是仅仅依靠文本聚类进行诈骗检测，很容易受初始诈骗关键词集的影响。因此，本申请中还需要建立社交网络进行诈骗识别。具体方法为：将步骤103的所有关键词权重向量中的各个关键词建模为网络中的节点，将步骤103中各关键词权重向量对应的通话文本也建模为网络中的节点，如果文本含有某关键词，则在相应的文本节点与关键词节点之间添加边，并设定边的权重(当通过TF-IDF进行关键词权重向量转换时，边的权重可以为该关键词在通话语音文本中的TF-IDF值)，这样，就完成了社交网络的建立。在建成的网络中，根据文本聚类结果将诈骗通话的节点标记为诈骗通话，并进行标签传播，最终将标签为诈骗的节点判定为诈骗通话。其中，标签传播可以采用现有的各种标签传播算法，本申请对此不做限定。

至此，本申请中最基本的诈骗通话检测方法流程结束。通过上述文本社交网络选择出更多的诈骗通话，相比于文本聚类识别出的诈骗通话，提高了诈骗的召回率。由于单单基于文本诈骗检测，不包含任何通话的行为信息，往往还会遗漏一些诈骗通话。为进一步识别诈骗社区和团伙，优选地，还可以继续执行下面的步骤，通过话本记录构建话单社区网络，并进行社区发现，在初始诈骗样本基础上，进行进一步的召回诈骗。

步骤105，利用诈骗簇内所有通话的主叫号码及与其有过通话关系的所有号码构建话单社交网络。

基于话单的话单社交网络建立方法为：确定诈骗簇内所有通话的主叫号码及与相应主叫号码有过通话关系的所有号码；将确定出的所有号码建模为网络中的节点，若是两个号码节点间有一通呼叫，则在相应的节点之间添加一条边，多通呼叫则有多条边，根据各条边对应通话的特征设置相应边的权重。这样就完成了网络的建立。优选地，边权重的具体确定方式可以为：综合通话时长、主被叫号码归属地等特征设置边的权重。考虑到通话时长越长，诈骗成功概率越高，号码归属地越相似，诈骗成功率越高(诈骗通话极易冒充当地公安、银行对受害人进行诈骗。并且相同省份，相同市诈骗成功率较高)。因此，可以设置通话时长越长，边的权重越大，号码归属地越相似(如属于同一省或者同一地级市)，边的权重越大。

步骤106，在建好的话单社交网络中进行社区发现，根据每个社区包括的诈骗通号码的个数确定相应社区为诈骗社区或非诈骗社区。

在建好的话单社交网络上，进行社区发现。具体社区发现算法可以采用各种现有的算法，这里不做限定。根据步骤103确定出的诈骗通话结果与本步骤中的社区发现结果，将社区标注为诈骗社区与非诈骗社区。例如，可以在社区的诈骗号码的个数占社区内号码总数的比例超过设定阈值时，判定社区为诈骗社区。通过社区发现和分类，一个社区通常为一个团伙，社区内的呼叫关系即为诈骗链条，在实际测试中发现，大多数情况下为多个主叫对一个被叫的关系。

步骤107，将诈骗社区内的所有通话语音转换为文本后进行文本聚类，提取出新的关键词，加入步骤103所使用的诈骗关键词集中，用于下一次诈骗簇的判定过程。

通过步骤106发现了诈骗社区，接下来，可以将诈骗社区内的诈骗通话对应的文本数据，通过一套自然语言处理规则，筛除不可能成为关键词的词语(包括停用词、助词、语气词等)，最终产生新的关键词，加入当前的先验诈骗关键词集(即本次循环中步骤103使用的诈骗关键词集)。具体在加入新的关键词时，对于与诈骗关键词集中重合的这部分关键词，就不需要再重复加入了。通过不停地循环处理，也可以对诈骗关键词集进行不断迭代更新，进而优化模型，进一步提高诈骗召回率和准确率。

至此，本申请中的诈骗通话检测方法流程结束。

上述即为本申请中诈骗通话检测方法的具体实现。本申请还提供了一种诈骗通话检测装置，可以用于实施上述诈骗通话检测方法。如图2所示，该装置包括：话单预处理单元、语音识别单元、文本聚类单元、文本社区发现单元和话单社区发现单元。

其中，话单预处理单元，用于收集所有通话语音，并进行数据预处理操作；具体地，本单元主要是从多个数据源采集当天的话单数据，并进行整合提供给系统进行诈骗检测。语音识别单元，用于将话单预处理单元预处理后的通话语音转换为文本，组成文本集。

文本聚类单元，用于将文本集中的每个文本转换为关键词权重向量；对所有关键词权重向量通过文本聚类形成多个簇，并根据诈骗关键词集确定各个簇是否为诈骗簇；对于诈骗簇内的所有关键词权重向量对应的通话，确定为诈骗通话。

文本社区发现单元，用于利用所有通话和关键词构建文本社交网络，在文本社交网络中将诈骗通话对应的节点标记为诈骗通话，并通过标签传播确定其他标记为诈骗通话的节点；将所有标记为诈骗通话的节点对应的通话确定为诈骗通话。

话单社区发现单元，用于利用诈骗簇内所有通话的主叫号码及与其有过通话关系的所有号码构建话单社交网络，并进行社区发现；根据话单社交网络中每个社区包括的诈骗号码个数确定相应社区为诈骗社区或非诈骗社区；将诈骗社区内的所有通话语音转换为文本后进行文本聚类，提取出新的关键词，加入当前诈骗关键词集中，用于下一次将所有通话语音文本转换为关键词权重向量的过程。

在上述图2所示的装置中，考虑到成本和处理复杂度等，可以不包括话单社区发现单元，而加入该话单社区发现单元的装置能够实现更好的诈骗通话召回率。

本社区可提供给移动、联通、电信等运营商进行快速诈骗识别。通过社交网络发现，比起单单依靠一通通话进行诈骗识别，具有更好的准确率与召回率，也能很好的发现诈骗团伙，对于诈骗团伙的打击能够起到很好的效果，具体场景如下：对于诈骗成功的案例，基本上都是通过多通诈骗层层递进，最终完成诈骗。我们要做的就是在诈骗刚刚开始的第一、二通通话时迅速检测出诈骗，然后对诈骗的后续链条进行及时拦截或者对被诈骗用户及时提醒。保证人民群众的财产安全。

从上述场景就可以看出，本申请目的是为了迅速有效的识别出诈骗通话。现有的主要识别手段是通过智能手机，由用户标记上报诈骗号码。可是这种手段既被动，又无法有效的应对改号行为。因此本申请提出的一种基于行为与内容的社交网络诈骗检测方法，能够快速有效的识别诈骗，一经识别，立马从网络端进行拦截。

如上，本申请的诈骗通话检测方法和装置，通过文本聚类和复杂网络分析，能够适用于各种诈骗类型，同时不需要获取用户敏感数据，可操作性更强。解决了背景技术中提到的各种问题。具体地，相对于背景技术中的方法一，本申请的方法不将语音与诈骗语音库进行比对，而是直接根据语音文件内容和语义构建复杂网络进行复杂网络分析，省去了语音库的构建成本，且实现难度低；相对于背景技术中的方法二，本申请的方法对通话语音数据的挖掘采用了常规聚类与复杂网络分析相结合的方式，能够更加精确全面的挖掘出可疑号码，尤其是对于行为特征与正常电话较为相近的号码，通过对通话语音建网，进行复杂网络分析，可以从主被叫关系和呼叫内容相似度等方面，对诈骗电话进行进一步挖掘；相对于背景技术中的方法三，本申请的方法采用聚类和复杂网络分析这样的无监督算法，避免了对标签的依赖；相对于背景技术中的方法四，本申请的方法中复杂网络的构建仅仅基于通话的话单数据和语音内容，不需要获取个人信息，使得建网难度降低。相对于背景技术中的方法五，本申请的方法仅需要利用话单数据及通话语音构建网络，充分利用通话数据的特性，针对性更强。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种诈骗通话的检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，该方法进一步包括：

其中，所述诈骗号码为所述诈骗通话中的主叫号码。

3.根据权利要求1或2所述的方法，其特征在于，所述确定各个簇是否为诈骗簇包括：对于每个簇，根据诈骗关键词集，将该簇的特征与预设的诈骗簇的特征进行比较，确定相应簇是否为诈骗簇。

4.根据权利要求3所述的方法，其特征在于，所述将该簇的特征与预设的诈骗簇的特征进行比较确定相应簇是否为诈骗簇包括：

5.根据权利要求1或2所述的方法，其特征在于，所述将文本集中的每个文本转换为关键词权重向量时利用TF-IDF方式进行；

6.根据权利要求2所述的方法，其特征在于，所述构建话单社交网络包括：

7.根据权利要求6所述的方法，其特征在于，所述根据各条边对应通话的特征设置相应边的权重包括：根据所述通话的综合通话时长和主被叫号码归属地确定相应边的权重；其中，综合通话时长越长，边的权重越大，主被叫号码归属地越相似，边的权重越大。

8.一种诈骗通话的检测装置，其特征在于，包括：话单预处理单元、语音识别单元、文本聚类单元和文本社区发现单元；

9.根据权利要求8所述的检测装置，其特征在于，所述装置进一步包括话单社区发现单元，用于利用诈骗簇内所有通话的主叫号码及与其有过通话关系的所有号码构建话单社交网络，并进行社区发现；根据所述话单社交网络中每个社区包括的诈骗号码个数确定相应社区为诈骗社区或非诈骗社区；将诈骗社区内的所有通话语音转换为文本后进行文本聚类，提取出新的关键词，加入所述诈骗关键词集中，用于下一次将所有通话语音文本转换为关键词权重向量的过程。