CN112399013B

CN112399013B - 异常话务识别方法和装置

Info

Publication number: CN112399013B
Application number: CN201910752357.8A
Authority: CN
Inventors: 张青; 李力卡; 张慧嫦; 赖琮霖; 祁峰; 付华峥; 马泽雄; 罗志强; 陈庆年; 李程
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2021-12-03
Anticipated expiration: 2039-08-15
Also published as: CN112399013A

Abstract

本公开提供一种异常话务识别方法和装置。异常话务识别装置实时采集通信话务数据，将在预定时间段内所采集的通信话务数据转换为相应的第一矩阵式归一化数据向量表，在第一矩阵式归一化数据向量表中，提取出与当前时间窗口相对应的归一化数据向量，将提取出的归一化数据向量输入经过训练的神经网络，以便输出异常话务识别结果，延迟预定时间后，将当前时间窗口沿时间轴方向滑动预定步长，然后重复执行提取出与当前时间窗口相对应的归一化数据向量的步骤。本公开利用滑动的时间窗口提取出相应的数据向量以输入经过训练的神经网络，从而能够对实际通信行业中与诈骗行为相关联的号码进行流水线式检测。

Description

异常话务识别方法和装置

技术领域

本公开涉及大数据领域，特别涉及一种异常话务识别方法和装置。

背景技术

近年来通信网络诈骗持续高发，诈骗和反诈骗进入相持对抗的博弈阶段。在该博弈阶段中，诈骗电话的特征呈现频繁变化的特点，包括诈骗高发地的迁移、诈骗时段变化，发呼频次降低、新增诈骗形式等等。

为更好地巩固和提高防范打击诈骗骚扰电话的能力，在相关技术中主要采用对异常话务进行分析的方式。目前异常话务的分析方法主要包括针对特定诈骗场景、特定诈骗高发地、高频发呼的分析手段。

发明内容

发明人通过研究发现，目前针对异常话务的分析模型仅适用于特定类型的诈骗场景，在诈骗类型较多的情况下，需要同时设置多个分析模型，因此需要研发和维护的模型较多。此外，这些模型采用的是线下学习、线上部署的方式，对诈骗电话的特征变化响应较慢、实时性差、自学习能力较弱。

据此，本公开提供一种通过一个模型能够对多种诈骗类型进行识别的方案。

根据本公开实施例的第一方面，提供一种异常话务识别方法，包括：实时采集通信话务数据；将在预定时间段内所采集的通信话务数据转换为相应的第一矩阵式归一化数据向量表；在第一矩阵式归一化数据向量表中，提取出与当前时间窗口相对应的归一化数据向量；将提取出的归一化数据向量输入经过训练的神经网络，以便输出异常话务识别结果；延迟预定时间后，将所述当前时间窗口沿时间轴方向滑动预定步长，然后重复执行提取出与当前时间窗口相对应的归一化数据向量的步骤。

在一些实施例中，上述方法还包括：采集预先确定的异常话务样本和正常话务样本；将在预定时间段内所采集的样本数据转换为第二矩阵式归一化数据向量表；在第二矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入待训练的神经网络，以得到输出结果；根据所述输出结果和对应样本数据的偏差，调整所述待训练模型的参数，以得到所述经过训练的神经网络。

在一些实施例中，所述异常话务样本包括诈骗类样本、骚扰类样本或营销类样本中的至少一项。

在一些实施例中，上述方法还包括：在接收到新增异常话务样本后，对所述新增异常话务样本进行处理，以得到与预定时间段相关联的特征向量；利用所述特征向量对第二矩阵式归一化数据向量表进行更新，以得到第三矩阵式归一化数据向量表；在第三矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入所述经过训练的神经网络，以得到输出结果；根据输出结果和对应样本数据的偏差，调整所述经过训练的神经网络的参数，以便对所述经过训练的神经网络进行更新。

在一些实施例中，所述通信话务数据包括通话信令，及漫游信息、相关客户信息或用户终端信息中的至少一项。

根据本公开实施例的第二方面，提供一种异常话务识别装置，包括：采集模块，被配置为实时采集通信话务数据；数据转换模块，被配置为将在预定时间段内所采集的通信话务数据转换为相应的第一矩阵式归一化数据向量表；识别模块，被配置为在第一矩阵式归一化数据向量表中，提取出与当前时间窗口相对应的归一化数据向量，将提取出的归一化数据向量输入经过训练的神经网络，以便输出异常话务识别结果；滑动处理模块，被配置为延迟预定时间后，将所述当前时间窗口沿时间轴方向滑动预定步长，然后指示识别模块重复执行提取出与当前时间窗口相对应的归一化数据向量的操作。

在一些实施例中，上述装置还包括：训练模块，被配置为采集预先确定的异常话务样本和正常话务样本，将在预定时间段内所采集的样本数据转换为第二矩阵式归一化数据向量表，在第二矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入待训练的神经网络，以得到输出结果，根据所述输出结果和对应样本数据的偏差，调整所述待训练模型的参数，以得到所述经过训练的神经网络。

在一些实施例中，上述装置还包括：优化模块，被配置为在接收到新增异常话务样本后，对所述新增异常话务样本进行处理，以得到与预定时间段相关联的特征向量，利用所述特征向量对第二矩阵式归一化数据向量表进行更新，以得到第三矩阵式归一化数据向量表，在第三矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入所述经过训练的神经网络，以得到输出结果，根据输出结果和对应样本数据的偏差，调整所述经过训练的神经网络的参数，以便对所述经过训练的神经网络进行更新。

根据本公开实施例的第三方面，提供一种异常话务识别装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是本公开一个实施例的异常话务识别方法的流程示意图；

图2是本公开一个实施例的时间窗口滑动的示意图；

图3是本公开另一个实施例的时间窗口滑动的示意图；

图4是本公开一个实施例的异常话务识别装置的结构示意图；

图5是本公开另一个实施例的异常话务识别装置的结构示意图；

图6是本公开又一个实施例的异常话务识别装置的结构示意图。

应当明白，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。此外，相同或类似的参考标号表示相同或类似的构件。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现，不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整，并且向本领域技术人员充分表达本公开的范围。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、材料的组分和数值应被解释为仅仅是示例性的，而不是作为限制。

本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的部分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素，并不排除也涵盖其他要素的可能。

本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同，除非另外特别定义。还应当理解，在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

图1是根据本公开一个实施例的异常话务识别方法的流程示意图。在一些实施例中，下面的异常话务识别方法步骤由异常话务识别装置执行。

在步骤101，实时采集通信话务数据。

在一些实施例中，通信话务数据包括通话信令，及漫游信息、相关客户信息或用户终端信息中的至少一项。

例如，通话信令包括主叫号码、被叫号码、起呼时间、结束时间、通话时长等。漫游信息包括主叫号码，漫游时间，漫游地等。相关客户信息包括付费类型、套餐类型、开户时间、激活时间、身份地址所属地市等。用户终端信息包括终端品牌、终端型号、注册时间等。

在步骤102，将在预定时间段内所采集的通信话务数据转换为相应的第一矩阵式归一化数据向量表。

例如，针对所采集的通信话务数据，通过向量矩阵设计、时间段分割、程度分级、业务分类、缺失数据填充、滑动时间窗口等数据处理方式，进行特征转换，转换方式包括独热编码(one-hot-encoding)、增加特征占比、数据标准化、归一化等，以生成阵式归一化数据向量表。由于数据转换并不是本公开的发明点所在，因此这里不展开描述。

在步骤103，在第一矩阵式归一化数据向量表中，提取出与当前时间窗口相对应的归一化数据向量。

在步骤104，将提取出的归一化数据向量输入经过训练的神经网络，以便输出异常话务识别结果。

在步骤105，延迟预定时间后，将当前时间窗口沿时间轴方向滑动预定步长，然后重复执行提取出与当前时间窗口相对应的归一化数据向量的步骤。

在本公开上述实施例提供的异常话务识别方法中，将利用滑动的时间窗口提取相应的数据向量输入经过训练的神经网络，从而通过一个神经网络模型对多种诈骗类型进行识别。

在一些实施例中，可通过如下方式对神经网络进行训练。

首先采集预先确定的异常话务样本和正常话务样本。例如，异常话务样本包括诈骗类样本、骚扰类样本或营销类样本中的至少一项。接下来，将在预定时间段内所采集的样本数据转换为第二矩阵式归一化数据向量表。然后，通过利用时间窗口的滑动，在第二矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入待训练的神经网络，以得到输出结果。最后根据输出结果和对应样本数据的偏差，调整待训练模型的参数，以得到经过训练的神经网络。需要说明的是，调整待训练模型的参数可根据需要进行多次迭代处理。

图2是本公开一个实施例的时间窗口滑动的示意图。

如图2所示，通过实时采集通信话务数据，将在预定时间段内所采集的通信话务数据转换为相应的第一矩阵式归一化数据向量表。例如将一天24小时内所采集的通信话务数据转换为相应的第一矩阵式归一化数据向量表。这里设时间窗口大小为6小时，时间窗口沿时间轴方向的滑动步长为10分钟。

在图2中，时间窗口1所对应的时间间隔为0点至6点。通过将时间窗口1内的数据向量输入神经网络，神经网络的输入结果指示当前没有异常话务。即在该时间窗口内，号码1不涉及异常话务。

接下来，将时间窗口按预定方式沿时间轴滑动。时间窗口2所对应的时间间隔为9点至15点。通过将时间窗口2内的数据向量输入神经网络，神经网络的输入结果指示当前号码1、3不涉及异常话务，号码2涉及第1类诈骗。

接下来，继续将时间窗口按预定方式沿时间轴滑动。时间窗口3所对应的时间间隔为18点至24点。通过将时间窗口3内的数据向量输入神经网络，神经网络的输入结果指示当前号码4不涉及异常话务，号码3涉及第2类诈骗。

这里需要说明的是，在异常话务识别过程中，可能会出现新型的诈骗方式。由于在此之前并未将与新型诈骗方式相关联的样本信息提供给神经网络进行学习训练，因此神经网络并不能识别出该新型诈骗方式。为此，可通过线上对神经网络进行训练，以实现神经网络对新增诈骗方式的自我学习和自我优化。

在一些实施例中，在接收到新增异常话务样本后，对新增异常话务样本进行处理，以得到与预定时间段相关联的特征向量。利用特征向量对第二矩阵式归一化数据向量表进行更新，以得到第三矩阵式归一化数据向量表。在第三矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入经过训练的神经网络，以得到输出结果。根据输出结果和对应样本数据的偏差，调整经过训练的神经网络的参数，以便对经过训练的神经网络进行更新。

通过对神经网络进行线上的自我学习和自我优化，从而能够及时识别出新型诈骗方式。

图3是本公开另一个实施例的时间窗口滑动的示意图。

图3与图2的不同之处在于，在图2所示实施例中，神经网络无法识别出与号码4有关联的诈骗方式。而在图3所示实施例中，通过对神经网络进行更新，从而通过将时间窗口3内的数据向量输入神经网络，神经网络的输入结果指示号码3涉及第2类诈骗、号码4涉及新出现的第3类诈骗。

图4是本公开一个实施例的异常话务识别装置的结构示意图。如图4所示，异常话务识别装置包括采集模块41、数据转换模块42、识别模块43和滑动处理模块44。

采集模块41实时采集通信话务数据。

数据转换模块42将在预定时间段内所采集的通信话务数据转换为相应的第一矩阵式归一化数据向量表。

识别模块43在第一矩阵式归一化数据向量表中，提取出与当前时间窗口相对应的归一化数据向量，将提取出的归一化数据向量输入经过训练的神经网络，以便输出异常话务识别结果。

滑动处理模块44延迟预定时间后，将当前时间窗口沿时间轴方向滑动预定步长，然后指示识别模块43重复执行提取出与当前时间窗口相对应的归一化数据向量的操作。

在本公开上述实施例提供的异常话务识别装置中，将利用滑动的时间窗口提取相应的数据向量输入经过训练的神经网络，从而通过一个神经网络模型对多种诈骗类型进行识别。

图5是本公开另一个实施例的异常话务识别装置的结构示意图。图5与图4的不同之处在于，在图5所示实施例中，异常话务识别装置还包括训练模块45。

训练模块45采集预先确定的异常话务样本和正常话务样本，将在预定时间段内所采集的样本数据转换为第二矩阵式归一化数据向量表，在第二矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入待训练的神经网络，以得到输出结果，根据输出结果和对应样本数据的偏差，调整待训练模型的参数，以得到经过训练的神经网络。

在一些实施例中，异常话务样本包括诈骗类样本、骚扰类样本或营销类样本中的至少一项。

在一些实施例中，如图2所示，通过将时间窗口1内的数据向量输入神经网络，神经网络的输入结果指示当前没有异常话务。即在该时间窗口内，号码1不涉及异常话务。

接下来，将时间窗口按预定方式沿时间轴滑动。若将时间窗口2内的数据向量输入神经网络，神经网络的输入结果指示当前号码1、3不涉及异常话务，号码2涉及第1类诈骗。

接下来，继续将时间窗口按预定方式沿时间轴滑动。若将时间窗口3内的数据向量输入神经网络，神经网络的输入结果指示当前号码4不涉及异常话务，号码3涉及第2类诈骗。

在一些实施例中，如图5所示，异常话务识别装置还包括优化模块46。

优化模块46在接收到新增异常话务样本后，对新增异常话务样本进行处理，以得到与预定时间段相关联的特征向量，利用特征向量对第二矩阵式归一化数据向量表进行更新，以得到第三矩阵式归一化数据向量表，在第三矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入经过训练的神经网络，以得到输出结果，根据输出结果和对应样本数据的偏差，调整经过训练的神经网络的参数，以便对经过训练的神经网络进行更新。

例如，在图2所示实施例中，神经网络无法识别出与号码4有关联的诈骗方式。而在图3所示实施例中，通过对神经网络进行更新，从而通过将时间窗口3内的数据向量输入神经网络，神经网络的输入结果指示号码3涉及第2类诈骗、号码4涉及新出现的第3类诈骗。

图6是根据本公开另一个实施例的异常话务识别装置的结构示意图。如图6所示，异常话务识别装置包括存储器61和处理器62。

存储器61用于存储指令。处理器62耦合到存储器61。处理器62被配置为基于存储器存储的指令执行实现如图1中任一实施例涉及的方法。

如图6所示，异常话务识别装置还包括通信接口63，用于与其它设备进行信息交互。同时，该装置还包括总线64，处理器62、通信接口63、以及存储器61通过总线64完成相互间的通信。

存储器61可以包含高速RAM(Random Access Memory，随机存取存储器)，也可还包括NVM(Non-Volatile Memory，非易失性存储器)。例如至少一个磁盘存储器。存储器61也可以是存储器阵列。存储器61还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外，处理器62可以是一个中央处理器，或者可以是ASIC(Application SpecificIntegrated Circuit，专用集成电路)，或者是被配置成实施本公开实施例的一个或多个集成电路。

本公开还提供一种计算机可读存储介质。计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1中任一实施例涉及的方法。

在一些实施例中，上述功能模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller，简称：PLC)、数字信号处理器(Digital Signal Processor，简称：DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称：ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

至此，已经详细描述了本公开的实施例。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。

Claims

1.一种异常话务识别方法，包括：

采集预先确定的异常话务样本和正常话务样本；

将在预定时间段内所采集的样本数据转换为第二矩阵式归一化数据向量表；

在第二矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入待训练的神经网络，以得到输出结果；

根据所述输出结果和对应样本数据的偏差，调整所述待训练的神经网络的参数，以得到经过训练的神经网络；

实时采集通信话务数据；

将在预定时间段内所采集的通信话务数据转换为相应的第一矩阵式归一化数据向量表；

在第一矩阵式归一化数据向量表中，提取出与当前时间窗口相对应的归一化数据向量；

将提取出的归一化数据向量输入经过训练的神经网络，以便输出异常话务识别结果；

延迟预定时间后，将所述当前时间窗口沿时间轴方向滑动预定步长，然后重复执行提取出与当前时间窗口相对应的归一化数据向量的步骤；

在接收到新增异常话务样本后，对所述新增异常话务样本进行处理，以得到与预定时间段相关联的特征向量；

利用所述特征向量对第二矩阵式归一化数据向量表进行更新，以得到第三矩阵式归一化数据向量表；

在第三矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入所述经过训练的神经网络，以得到输出结果；

根据输出结果和对应样本数据的偏差，调整所述经过训练的神经网络的参数，以便对所述经过训练的神经网络进行更新。

2.根据权利要求1所述的方法，其中：

所述异常话务样本包括诈骗类样本、骚扰类样本或营销类样本中的至少一项。

3.根据权利要求1-2中任一项所述的方法，其中：

所述通信话务数据包括通话信令，及漫游信息、相关客户信息或用户终端信息中的至少一项。

4.一种异常话务识别装置，包括：

训练模块，被配置为采集预先确定的异常话务样本和正常话务样本，将在预定时间段内所采集的样本数据转换为第二矩阵式归一化数据向量表，在第二矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入待训练的神经网络，以得到输出结果，根据所述输出结果和对应样本数据的偏差，调整所述待训练的神经网络的参数，以得到经过训练的神经网络；

采集模块，被配置为实时采集通信话务数据；

数据转换模块，被配置为将在预定时间段内所采集的通信话务数据转换为相应的第一矩阵式归一化数据向量表；

识别模块，被配置为在第一矩阵式归一化数据向量表中，提取出与当前时间窗口相对应的归一化数据向量，将提取出的归一化数据向量输入经过训练的神经网络，以便输出异常话务识别结果；

滑动处理模块，被配置为延迟预定时间后，将所述当前时间窗口沿时间轴方向滑动预定步长，然后指示识别模块重复执行提取出与当前时间窗口相对应的归一化数据向量的操作；

优化模块，被配置为在接收到新增异常话务样本后，对所述新增异常话务样本进行处理，以得到与预定时间段相关联的特征向量，利用所述特征向量对第二矩阵式归一化数据向量表进行更新，以得到第三矩阵式归一化数据向量表，在第三矩阵式归一化数据向量表中，分别将与每个时间窗口相对应的归一化数据向量输入所述经过训练的神经网络，以得到输出结果，根据输出结果和对应样本数据的偏差，调整所述经过训练的神经网络的参数，以便对所述经过训练的神经网络进行更新。

5.根据权利要求4所述的装置，其中：

6.根据权利要求4-5中任一项所述的装置，其中：

7.一种异常话务识别装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-3中任一项所述的方法。

8.一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-3中任一项所述的方法。