CN109600752B

CN109600752B - 一种深度聚类诈骗检测的方法和装置

Info

Publication number: CN109600752B
Application number: CN201811433091.2A
Authority: CN
Inventors: 张震; 林荣恒; 彭潞; 闵星; 邹华; 吴步丹
Original assignee: Beijing University of Posts and Telecommunications; National Computer Network and Information Security Management Center
Current assignee: Beijing University of Posts and Telecommunications; National Computer Network and Information Security Management Center
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2022-01-14
Anticipated expiration: 2038-11-28
Also published as: CN109600752A

Abstract

本申请公开了一种深度聚类的诈骗通话检测方法，包括：对所有话单数据进行深度聚类形成多个簇，将所述多个簇与诈骗簇的指标值进行比较，将与所述指标值匹配度最高的簇作为诈骗簇；获取所述诈骗簇中的主叫号码呼叫过的各被叫号码，根据话单数据确定呼叫过所述各被叫号码的所有主叫号码，利用所述各被叫号码和所述所有主叫号码进行复杂网络建模；在建模的复杂网络中，进行社区发现，并根据各社区包含所述诈骗簇中主叫号码的比例，确定诈骗高风险社区；对所述诈骗高风险社区中的各次通话进行语音识别，根据语音识别结果进行诈骗电话的判决和分类。应用本申请，能够在保证实时性的基础上能够更准确的发现诈骗通话。

Description

一种深度聚类诈骗检测的方法和装置

技术领域

本申请涉及诈骗检测技术，特别涉及一种深度聚类的诈骗检测方法和装置。

背景技术

随着通信行业的不断发展，在带来更多便利的同时，随之而来的是电信网络诈骗活动的猖獗，电话诈骗的手段越来越多，让人们防不胜防。

目前采用的诈骗电话检测方法主要有呼叫地来源检测、黑名单拦截等，这些方法普遍具有实时性和灵活性差的问题。诈骗技术和方法的更新很容易导致原有拦截手段的失效。目前高发的诈骗电话主要集中于固定电话用户，大部分主叫号码来自境外，诈骗者通过改号软件或者VOIP技术绕过现有的拦截手段，实现诈骗呼叫。

经过研究发现，诈骗团伙往往内部存在一定的组织结构，诈骗行为也存在分阶段的特性，在第一阶段诈骗份子进行“广撒网”式的拨打，这种诈骗往往存在较明显的行为特征，如主叫呼叫频次高、被叫离散度高、平均呼叫时长短、接通率低等特征，这主要是因为犯罪分子在此阶段利用呼叫平台进行群呼扫描，寻找潜在受害者。找到潜在受害者，进入下一阶段后，诈骗电话的行为特征与正常通话的特征较为接近，通过呼叫特征进行挖掘较为困难。

目前还有一些识别诈骗电话的方法，但是也都存在各种问题，例如：

方案一：采集通话信令数据或话单数据，从中提取特征与诈骗模型进行对比来判断是否是诈骗，如专利CN106791220A(申请名称：防止电话诈骗的方法及系统，申请人：国家计算机网络与信息安全管理中心，申请日：2016.11.30)；在该方案中，提取所述实时话单的号码特征和/或行为特征；根据预设的诈骗电话识别模型对所述实时话单的号码特征和/或行为特征进行分析，以确定所述实时话单对应的通话行为是否为诈骗电话。该方案的缺点在于，由于诈骗电话的呼叫模式特征与广告电话较为相似，且会不断更新诈骗手段，仅通过数学建模进行分析的号码缺乏实证，使得误拦截率较高。

方案二：在通话过程中将通话录音与诈骗样本库进行实时对比来判断是否是诈骗电话，如专利CN104469025A(申请名称：一种基于聚类算法的实时拦截诈骗电话的方法和系统，申请人：杭州东信北邮信息技术有限公司，申请日：2014.11.26)。在该方案中，采集呼叫话单数据并分析黑名单，对黑名单电话进行单单向录音，将录音文件与诈骗语音样本库进行对比，以此确定通话是否是诈骗。此方案主要缺陷在于诈骗手段多种多样，且在时刻变化，想要构建覆盖全网的诈骗语音样本库非常困难，且所需的资源要求极大；录音文件与诈骗语音库的全对比技术实现复杂，比对消耗资源且准确率难以令人满意。

方案三：采用语音识别和语义分析技术进行诈骗判断，如专利CN103179122A(申请名称：一种基于语音语义内容分析的防电信电话诈骗方法和系统，申请人：马博，申请日：2013.03.22)。该方案中通过连续语音识别进行文本转写，并在转写的文本中检索关键词和关键数字进行语义匹配来识别诈骗电话。此方案主要缺点在于要对全部电话做语音识别，进行文本转写，由于全网呼叫量非常大，想达到理想的效果，就要求部署海量容量的语音识别设备和大量的计算资源，在不影响现网正常运行的要求下无法达到。

方案四：从呼叫日志中挖掘分析可疑号码，再通过人工审核方式进行进一步确认拦截，如专利CN106550155A(申请名称：对可疑号码进行诈骗样本甄别归类及拦截的方法及系统，申请人：上海欣方智能系统有限公司，申请日：2016.11.25)。该方案通过从呼叫日志中挖掘行为特征，通过关联判决规则形成灰名单，再通过录音取证装置对灰名单呼叫进行录音取证，之后将录音和取证结果发送到黑名单判断装置，通过人工判断进一步确认诈骗号码，对诈骗通话的识别和拦截。此方案的主要缺点在于，仅通过提取的呼叫频次、被叫离散度等行为特征是否符合关联判决规则进行灰名单号码的挖掘，只能找出行为特征与正常呼叫差别较大的号码，对于行为模式与正常呼叫接近的诈骗通话无能为力，并且关联规则需要预先设置。

方案五：先通过主叫号码的行为特征进行分析，如果发现可疑号码立马进行录音进行进一步确认，如专利CN107734128A(申请名称：一种诈骗号码识别方法及设备，申请人：努比亚技术有限公司，申请日：2017.09.28)。该方案根据主叫号码的行为特征，判断所述主叫号码是否为与诈骗号码具有相似特征的疑似诈骗号码；如果是，对所述主叫号码所执行的通话进行录音，根据语音信息判断是否为诈骗号码。此方案的主要缺点在于，从行为特征来说，仅仅通过比较行为特征是否匹配，难以应对多变的诈骗手段；从语音信息来说，仅仅通过匹配语音中是否含有诈骗关键词就进行判断，往往不能那么精确。

发明内容

本申请提供一种深度聚类的诈骗检测方法和装置，能够在保证实时性的基础上能够更准确的发现诈骗通话。

为实现上述目的，本申请采用如下技术方案：

一种深度聚类的诈骗通话检测方法，包括：

对所有话单数据进行深度聚类形成多个簇，将所述多个簇与诈骗簇的指标值进行比较，将与所述指标值匹配度最高的簇作为诈骗簇；

获取所述诈骗簇中的主叫号码呼叫过的各被叫号码，根据话单数据确定呼叫过所述各被叫号码的所有主叫号码，利用所述各被叫号码和所述所有主叫号码进行复杂网络建模；在建模的复杂网络中，进行社区发现，并根据各社区包含所述诈骗簇中主叫号码的比例，确定诈骗高风险社区；

对所述诈骗高风险社区中的各次通话进行语音识别，根据语音识别结果进行诈骗电话的判决和分类。

较佳地，所述进行复杂网络建模包括：

将各主叫和被叫号码建模为复杂网络中的节点，若任意两个节点间有一通呼叫，则在相应节点间添加一条边，边的方向代表主被叫关系，根据各条边对应通话的特征设置相应边的权重。

较佳地，所述通话的特征包括：主叫号码主叫次数、通话时长、号码呼叫时间间隔、主被叫号码归属地中的一种或任意组合。

较佳地，所述主叫号码主叫次数越大，边的权重越大；所述通话时长越长，边的权重越大；所述号码呼叫时间间隔越短，边的权重越大；主被叫归属地越相似，边的权重越大。

较佳地，所述根据各社区包含所述诈骗簇中主叫号码的比例确定诈骗高风险社区包括：

当一社区中包含所述诈骗簇中主叫号码的比例达到或超过预设的阈值时，确定该社区为诈骗高风险社区。

一种深度聚类的诈骗通话检测装置，包括：诈骗簇识别模块、社区发现模块、语音识别模块和诈骗通话识别模块；

所述诈骗簇识别模块，用于对所有话单数据进行深度聚类形成多个簇，将所述多个簇与诈骗簇的指标值进行比较，将与所述指标值匹配度最高的簇作为诈骗簇；

所述社区发现模块，用于获取所述诈骗簇中的主叫号码呼叫过的各被叫号码，根据话单数据确定呼叫过所述各被叫号码的所有号码，利用所述各被叫号码和所述所有号码进行复杂网络建模；在建模的复杂网络中，进行社区发现，并根据各社区包含所述诈骗簇中主叫号码的比例，确定诈骗高风险社区；

所述语音识别模块，用于对所述诈骗高风险社区中的各次通话进行语音识别；

所述诈骗通话识别模块，用于根据语音识别结果进行诈骗电话的判决和分类。

由上述技术方案可见，本申请中，对所有话单数据进行深度聚类形成多个簇，将所述多个簇与诈骗簇的指标值进行比较，将与所述指标值匹配度最高的簇作为诈骗簇；获取诈骗簇中的主叫号码呼叫过的各被叫号码，根据话单数据确定呼叫过各被叫号码的所有号码，利用上述各被叫号码和所有号码进行复杂网络建模；在建模的复杂网络中，进行社区发现，并根据各社区包含所述诈骗簇中主叫号码的比例，确定诈骗高风险社区；对诈骗高风险社区中的各次通话进行语音识别，根据语音识别结果进行诈骗电话的判决和分类。通过上述方式，通过话单数据进行初始筛查，再根据筛查结果建模复杂网络发现诈骗高风险社区，最后对高风险社区中的通话进行语音识别，以准确发现各诈骗电话。这样，既不需要对所有通话进行语音识别，又不仅利用话单数据进行筛查，在保证实时性的基础上能够更准确的发现诈骗通话。

附图说明

图1为本申请中诈骗通话检测方法的基本流程示意图；

图2为本申请中诈骗通话检测装置的基本结构示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

由于仅使用话单数据，信息过少，无法同时保证诈骗通话识别的准确率与召回率；而如果全部通话都只使用语音数据进行识别，虽然能获得很好的识别效果，但是速度过慢，无法保证识别诈骗的实时性并及时拦截。因此，本申请提供一种同时基于话单与语音的识别方法，在保证实时性的基础上更多更准确的发现诈骗通话并及时进行拦截。具体地，本申请针对无标签的语音和话单数据，通过常规聚类与社交网络分析相结合的深度聚类识别诈骗通话。通过社交网络分析，可以发现隐藏在正常通话中的诈骗通话。

图1为本申请中深度聚类的诈骗通话检测方法的基本流程示意图，如图1所示，该方法包括：

步骤101，对所有话单数据进行深度聚类形成多个簇，将多个簇与诈骗簇的指标值进行比较，将与指标值匹配度最高的簇作为诈骗簇。

本步骤用于对海量的通话数据进行第一步的处理。预先结合已有的少量标签所识别出的诈骗簇的特征，形成一套诈骗簇的指标值。在本步骤的处理中，在无标签的基础上，对海量的话单数据进行深度聚类。对于形成的深度聚类结果，将聚类后形成的各个簇与诈骗簇的指标值进行对比，将指标值匹配最高的簇设置为诈骗簇。

在本步骤的处理中，因为业务规则具有大量的先验知识，可以辅助进行深度学习算法的构建，提升模型的效率。具体地，业务知识主要用于聚类特征的抽取。由于原始的信令数据中，每通通话的有效信息较少，因此需要结合先验的业务知识，从原始数据中抽取统计特征进行聚类。如号码A一天打了一百通电话，单独看每一通通话都较为正常。但是根据先验业务知识确定出号码的呼叫次数、被叫次数、平均通话时长等特征后，计算号码A的这些特征就可以发现异常。因此可以将先验业务规则，与聚类结果融合，以获得更高的聚类准确度。

步骤102，利用诈骗簇中的主叫号码及其相关号码构建复杂网络，并进行社区发现。

获取诈骗簇中的主叫号码呼叫过的各被叫号码集合X，根据话单数据确定呼叫过集合X的所有主叫号码，构成集合Y，利用集合X和Y中的所有号码进行复杂网络建模。

具体地，将主叫号码和被叫号码建模为网络中的节点，若是主叫对被叫有一通呼叫，则在相应的节点之间添加一条边，多通呼叫则有多条边。同时，边的方向代表主被叫关系，根据各条边对应通话的特征设置相应边的权重。具体地，用于确定权重的通话特征可以是：主叫号码主叫次数、通话时长、号码呼叫时间间隔、主被叫号码归属地等特征。通常，主叫号码主叫次数可以是设定时间段内的主叫总次数，例如一天的主叫总次数；号码呼叫时间间隔是指当前边所对应的通话开始时间减去相同主叫上一通通话结束时间的呼叫时间间隔。一般地，主叫号码主叫次数越大，诈骗概率越高；通话时长越长，诈骗成功概率越高；号码呼叫时间间隔越短，诈骗概率越高；主被叫归属地越相似，诈骗概率越高。基于此，可以设定主叫号码主叫次数越大，边的权重越大；通话时长越长，边的权重越大；号码呼叫时间时间间隔越短，边的权重越大；主被叫归属地越相似，边的权重越大。

按照上述方法完成复杂网络建模，然后根据社区发现算法，将复杂网络划分成一个个的社区。最后根据深度聚类识别的诈骗簇，将社区标注为诈骗高风险社区与无诈社区。这样，一个社区通常为一个团伙，社区内的呼叫关系即为诈骗链条。通过深度聚类加社交网络能够将识别准确率在80％以上。

这里，根据步骤101中识别的诈骗簇识别诈骗高风险社区的方式可以为：当某个社区中包含诈骗簇中主叫号码的比例达到或超过预设阈值时，确定该社区为诈骗高风险社区。

通过本步骤的处理能够召回更多单单通过深度聚类方法遗漏的诈骗通话，降低语音识别的工作量，同时能够发现诈骗过程中的团伙与链条。由于单单通过话单数据，很难将诈骗与正常通话区分。

步骤103，对步骤102确定的诈骗高风险社区中的各次通话进行语音识别，根据语音识别结果进行诈骗电话的判决和分类。

本步骤通过语音语义分析对高诈骗风险社区中的号码进行验证，根据社区划分对诈骗份子进行诈骗团伙和诈骗链条的挖掘。具体地，对于诈骗高风险社区中的通话进行语音识别，得到通话文本。通过文本进行诈骗识别，能够保证准确率在95％左右。同时借助文本识别，也能够对诈骗通话的不同诈骗手段进行进一步识别，区分诈骗通话的类别，以应对诈骗分子的演化规律。

至此，本申请中的诈骗通话检测方法流程结束。本申请还提供一种诈骗通话检测装置，可以用于实施上述检测方法。图2为诈骗通话检测装置的基本结构示意图。如图2所示，该装置包括：诈骗簇识别模块、社区发现模块、语音识别模块和诈骗通话识别模块。

其中，诈骗簇识别模块，用于对所有话单数据进行深度聚类形成多个簇，将所述多个簇与诈骗簇的指标值进行比较，将与指标值匹配度最高的簇作为诈骗簇。社区发现模块，用于获取诈骗簇中的主叫号码呼叫过的各被叫号码，根据话单数据确定呼叫过前述各被叫号码的所有主叫号码，利用各被叫号码和所有主叫号码进行复杂网络建模；在建模的复杂网络中，进行社区发现，并根据各社区包含所述诈骗簇中主叫号码的比例，确定诈骗高风险社区。语音识别模块，用于对诈骗高风险社区中的各次通话进行语音识别。诈骗通话识别模块，用于根据语音识别结果进行诈骗电话的判决和分类。

本申请的诈骗通话检测方法和装置可提供给移动、联通、电信等运营商进行快速诈骗识别。并且通过社交网络发现，既能增加深度聚类算法的识别准确率，也能很好的发现诈骗团伙，对于诈骗团伙的打击能够起到很好的效果，具体场景如下：

显然，对于诈骗成功的案例，基本上都是通过多通诈骗层层递进，最终完成诈骗。我们要做的就是在诈骗刚刚开始的第一、二通通话时迅速检测出诈骗，然后对诈骗的后续链条进行及时拦截或者对被诈骗用户及时提醒。保证人民群众的财产安全。

从上述场景就可以看出，本申请目的是为了迅速有效的识别出诈骗通话。现有的主要识别手段是通过智能手机，由用户标记上报诈骗号码。可是这种手段既被动，又无法有效的应对改号行为。因此本申请提出的一种基于语音和信令的深度聚类诈骗检测方法，能够快速有效的识别诈骗，一经识别，立马从网络端进行拦截。

如上，本申请的诈骗通话检测方法和装置，通过话单聚类和社区发现相结合，在保证实时性的基础上能够更准确的发现诈骗通话。解决了背景技术中提到的各种问题。具体地，与背景技术中的方案一相比，本申请在通过模型进行可疑号码挖掘后，利用了通话语音进行进一步确认，使得找出的诈骗号码具有实证支持；与背景技术中的方案二相比，本申请主要不同在于并不将语音与诈骗语音库进行比对，而是直接根据语音文件内容和语义进行识别判断，省去了语音库的构建成本，且实现难度低；与背景技术中的方案三相比，本申请主要不同在于先通过常规聚类与社交网络分析找出了可疑号码，再进一步通过语音文件进行分析，由于诈骗呼叫仅在全网呼叫中占极少一部分，因此对于资源的消耗极大减少；与背景技术中的方案四相比，本申请主要不同在于对话单数据的挖掘采用了常规聚类与社交网络分析相结合的方式，能够更加精确全面的挖掘出可疑号码，尤其是对于行为特征与正常电话较为相近的号码，通过社交网络分析，可以从主被叫关系等方面，构建社交网络进行进一步挖掘分析；与背景技术中的方案五相比，本申请不仅仅通过比较主叫的行为特征是否与诈骗行为是否一致，而是通过一种深度聚类融合加社交网络发现的算法进行诈骗检测，不仅仅局限于一通通话来进行判断，而是对之前的通话进行积累，结合历史数据进行诈骗识别。同时，在语音处理方便，不是像该专利一样仅仅匹配诈骗关键词，而是训练出一个兼容性较好的诈骗识别模型，用于诈骗进一步确认。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种深度聚类的诈骗通话检测方法，其特征在于，包括：

对所述诈骗高风险社区中的各次通话进行语音识别，根据语音识别结果进行诈骗电话的判决和分类；

其中，所述进行复杂网络建模包括：

2.根据权利要求1所述的方法，其特征在于，所述通话的特征包括：主叫号码主叫次数、通话时长、号码呼叫时间间隔、主被叫号码归属地中的一种或任意组合。

3.根据权利要求2所述的方法，其特征在于，所述主叫号码主叫次数越大，边的权重越大；所述通话时长越长，边的权重越大；所述号码呼叫时间间隔越短，边的权重越大；主被叫归属地越相似，边的权重越大。

4.根据权利要求1所述的方法，其特征在于，所述根据各社区包含所述诈骗簇中主叫号码的比例确定诈骗高风险社区包括：

5.一种深度聚类的诈骗通话检测装置，其特征在于，包括：诈骗簇识别模块、社区发现模块、语音识别模块和诈骗通话识别模块；

所述社区发现模块，用于获取所述诈骗簇中的主叫号码呼叫过的各被叫号码，根据话单数据确定呼叫过所述各被叫号码的所有主叫号码，利用所述各被叫号码和所述所有主叫号码进行复杂网络建模；在建模的复杂网络中，进行社区发现，并根据各社区包含所述诈骗簇中主叫号码的比例，确定诈骗高风险社区；其中，所述进行复杂网络建模包括：将各主叫和被叫号码建模为复杂网络中的节点，若任意两个节点间有一通呼叫，则在相应节点间添加一条边，边的方向代表主被叫关系，根据各条边对应通话的特征设置相应边的权重；