CN111726460B

CN111726460B - 一种基于时空图的诈骗号码识别方法

Info

Publication number: CN111726460B
Application number: CN202010542365.2A
Authority: CN
Inventors: 李鹏; 孙旭东; 戚梦苑; 初国俊; 侯炜; 刘瑶; 计哲; 肖红; 宁珊; 张震
Original assignee: EB INFORMATION TECHNOLOGY Ltd; National Computer Network and Information Security Management Center
Current assignee: Xinxun Digital Technology Hangzhou Co ltd; National Computer Network and Information Security Management Center
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2021-04-20
Anticipated expiration: 2040-06-15
Also published as: CN111726460A

Abstract

一种基于时空图的诈骗号码识别方法，包括：由全量通话记录生成电信通联网络，并构建识别诈骗号码的时空图，使用Snapshot方法按时间间隔T、从图中连续截取出多张时空子图；基于用户在每张时空子图对应时间周期下的通话记录，计算每个用户在每张时空子图对应时间周期下的通话特征指标向量，同时，为每个用户从时空子图中提取和其有相同被叫的邻居用户；构建、并训练识别诈骗号码的时空图神经网络；将待识别目标用户和其所有邻居用户在所有时空子图中的通话特征指标向量输入时空图神经网络，并根据输出判断待识别目标用户号码是否是疑似诈骗号码。本发明属于信息技术领域，能动态的捕获到号码呼叫行为的变化，从而实现诈骗号码的精准识别。

Description

一种基于时空图的诈骗号码识别方法

技术领域

本发明涉及一种基于时空图的诈骗号码识别方法，属于信息技术领域。

背景技术

目前，针对诈骗号码的识别主要包括有以下几种技术方案：

1)基于号码标记的方法，这类方案的缺陷是存在滞后性、标记不准确、无法应对团伙诈骗；

2)基于语音和语义的方法，比如关键词匹配，这类方案存在的问题是检测过程复杂，而且由于诈骗方式层出不穷、诈骗分子会变换说法，从而导致识别准确率较低；

3)基于特征提取类的方法，由于诈骗分子具有反侦查意识，他们会伪装成正常号码的拨打行为，以正常的频次拨打电话，或者使用改号平台不停地换号，诈骗模式越来越隐蔽，因此识别准确率也较低。

专利申请CN 201910410802.2(申请名称：一种基于图嵌入的诈骗号码识别方法，申请日：2019-05-16，申请人：国家计算机网络与信息安全管理中心、杭州东信北邮信息技术有限公司)公开了一种基于图嵌入的诈骗号码识别方法，包括：基于用户在一段时间内的通话信令，计算用户的通话特征指标，并构成每个用户的通话特征指标向量，同时，提取和用户在一段时间内存在通话关系的联系人作为用户的直接邻居，构成每个用户的直接邻居组；构建、并训练识别诈骗号码的图嵌入神经网络，其输入是目标用户和多个关联用户的通话特征指标向量，输出是标识目标用户号码是否是疑似诈骗号码的标签信息；将待识别的目标用户和多个关联用户的通话特征指标向量输入训练后的图嵌入神经网络，然后根据输出判断待识别的目标用户号码是否是疑似诈骗号码。该技术方案基于诈骗电话“多点—点”的通联关系结构模式，会根据用户在一段时间内的通话信令构建一张静态图，但对于改号诈骗这种存在周期性的呼叫模式，即诈骗分子会使用多个主叫号码依次向外拨打诈骗电话，由于每个号码的通话频次都很低，该技术方案难以动态的捕获到这段时间内诈骗号码呼叫行为的变化。

因此，如何能动态的捕获号码呼叫行为的变化，从而实现诈骗号码的精准识别，已经成为技术人员普遍关注的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种基于时空图的诈骗号码识别方法，能动态的捕获号码呼叫行为的变化，从而实现诈骗号码的精准识别。

为了达到上述目的，本发明提供了一种基于时空图的诈骗号码识别方法，包括有：

步骤一、由全量通话记录生成电信通联网络：G＝{V，E，Y}，并据此构建识别诈骗号码的时空图，所构建的时空图是由连续多张时空子图组成的集合，其中，V表示所有通信用户的节点集合，v_i∈V，v_i表示用户i的节点，E表示所有用户节点之间通话关系的集合，e_ijt＝(v_i，v_j，t)∈E，e_ijt表示用户i在t时刻给用户j的通话，Y表示人工标注的用户身份集合，y_i∈Y，y_i是人工标注的用户i的身份，然后使用Snapshot方法按一定的时间间隔T、从构建的时空图中连续截取出多张时空子图：G_k＝{V_k，E_k，X_k，Y}，其中，G_k表示截取出的第k张时空子图，V_k表示时空子图G_k中所有通信用户的节点集合，E_k表示时空子图G_k中所有用户节点之间通话关系的集合,X_k表示时空子图G_k中所有用户的通话特征指标向量集合，d_ik∈X_k,d_ik表示时空子图G_k中用户i的通话特征指标向量；

步骤二、基于用户在每张时空子图对应时间周期下的通话记录，计算每个用户在每张时空子图对应时间周期下的通话特征指标向量，同时，为每个用户从所有时空子图中提取和其拥有相同被叫的邻居用户，并由所有邻居用户构成每个用户的邻居组；

步骤三、构建、并训练识别诈骗号码的时空图神经网络，所述时空图神经网络的输入是目标用户和其邻居组中的所有邻居用户在所有时空子图中的通话特征指标向量，输出是标识目标用户号码是否是疑似诈骗号码的标签信息；

步骤四、将待识别的目标用户和其邻居组中的所有邻居用户在所有时空子图中的通话特征指标向量输入训练后的时空图神经网络，并根据时空图神经网络的输出判断待识别的目标用户号码是否是疑似诈骗号码，

所述时空图神经网络包含有图卷积网络和递归神经网络，当输入目标用户和其邻居组中的所有邻居用户在所有时空子图中的通话特征指标向量时，时空图神经网络的具体计算过程如下：

步骤1、依次将目标用户和其邻居组中的所有邻居用户在每张时空子图对应时间周期下的通话特征指标向量输入图卷积神经网络，从而输出目标用户在每张时空子图对应时间周期下的空间融合特征向量，并将目标用户在所有时空子图对应时间周期下的空间融合特征向量构成目标用户的空间融合特征向量组；

步骤2、将目标用户的空间融合特征向量组输入递归神经网络，以通过递归神经网络的隐状态实现目标用户及其邻居用户在不同时空子图对应时间周期下的特征信息的整合，并根据最后一张时空子图对应时间周期下的隐状态获得递归神经网络的输出，即标识用户号码是否是疑似诈骗号码的标签信息。

与现有技术相比，本发明的有益效果是：本发明基于动态时空图结构，时空图中的节点数、边数都会随时间而变化，与静态图不同，从而可以动态的捕获到号码呼叫行为的变化，精准识别诈骗号码；本发明的时空图神经网络在图卷积网络的基础上，增加递归神经网络，从而能充分利用时间维度的信息，特别对于改号诈骗这种存在周期性的呼叫模式，即便每个号码的通话频次都很低，本发明也能识别出其呼叫行为的时间规律：比如通话时刻分布的周期性、相邻呼叫的时间差固定、仅在某个较短的时间段内呼叫等等。

附图说明

图1是本发明一种基于时空图的诈骗号码识别方法的流程图。

图2是以1个小时为时间间隔，从识别诈骗号码的时空图中连续截取出的3张时空子图的一个实施例的示意图。

图3是时空图神经网络的具体计算步骤流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种基于时空图的诈骗号码识别方法，包括有：

步骤一、由全量通话记录生成电信通联网络：G＝{V，E，Y}，并据此构建识别诈骗号码的时空图，所构建的时空图是由连续多张时空子图组成的集合，其中，V表示所有通信用户的节点集合，v_i∈V，v_i表示用户i的节点，E表示所有用户节点之间通话关系的集合，e_ijt＝(v_i，v_j，t)∈E，e_ijt表示用户i在t时刻给用户j的通话，Y表示人工标注的用户身份集合，y_i∈Y，y_i是人工标注的用户i的身份，可以标记为自然诈骗人或普通用户，然后使用Snapshot方法按一定的时间间隔T、从构建的时空图中连续截取出多张时空子图：G_k＝{V_k，E_k，X_k，Y}，其中，G_k表示截取出的第k张时空子图，V_k表示时空子图G_k中所有通信用户的节点集合，E_k表示时空子图G_k中所有用户节点之间通话关系的集合，X_k表示时空子图G_k中所有用户的通话特征指标向量集合，d_ik∈X_k，d_ik表示时空子图G_k中用户i的通话特征指标向量；

步骤二、基于用户在每张时空子图对应时间周期下的通话记录，计算每个用户在每张时空子图对应时间周期下的通话特征指标向量，其中，构成通话特征指标向量的通话特征指标可以包括但不限于：呼叫频次、被叫号码数、离散度、忙时率、通话间隔平均值、呼叫间隔平均值、通话时长平均值、振铃时长平均值、未接通振铃时长平均值、接通率、被叫释放率、主叫类型、被叫类型、主叫地区、被叫地区，同时，为每个用户从所有时空子图中提取和其拥有相同被叫的邻居用户，并由所有邻居用户构成每个用户的邻居组；

步骤三、构建、并训练识别诈骗号码的时空图神经网络，所述时空图神经网络的输入是目标用户和其邻居组中的所有邻居用户在所有时空子图中的通话特征指标向量，输出是标识目标用户号码是否是疑似诈骗号码的标签信息；可以从黑白名单中选取多个已确认的诈骗号码和非诈骗号码作为时空图神经网络的训练样本；

步骤四、将待识别的目标用户和其邻居组中的所有邻居用户在所有时空子图中的通话特征指标向量输入训练后的时空图神经网络，并根据时空图神经网络的输出判断待识别的目标用户号码是否是疑似诈骗号码。

为了更进一步清楚直观的介绍本发明所构建的识别诈骗号码的时空图，图2示出了以1个小时为时间间隔，从识别诈骗号码的时空图中连续截取出的3张时空子图的示意图。其中，G₁、G₂、G₃这3张时空子图分别对应的时间周期是8：00-9：00、9：00-10：00、10：00-11：00，时空子图中由节点v_i指向v_j的有向边表示用户i在时空子图对应时间周期下存在有给用户j的1次通话,例如，G₁中由v₁指向v₂的有向边表示用户1在t₁₁时刻给用户2的1次通话。

所述时空图神经网络包含有图卷积网络和递归神经网络，当输入目标用户和其邻居组中的所有邻居用户在所有时空子图中的通话特征指标向量时，如图3所示，时空图神经网络的具体计算过程如下：

由于时空图中的节点数、边数都会随时间变化，因此从时空图中截取出来的每张时空子图的节点和边都会存在差异。为了保证下一步能用递归神经网络，本发明可以通过一种“占位”的操作，将时空子图中没有出现的节点补充上，从而使得每张时空子图中的节点数相等，这样，当目标用户或邻居用户在其中一张时空子图中由于不存在通信行为，所以不存在有对应的通信用户的节点时，以第z张时空子图为例，步骤1还可以包括有：将目标用户或邻居用户在第z张时空子图对应时间周期下的通话特征指标向量设置为全0向量，从而保证每个目标用户的空间融合特征向量组中都存在有相同数量的空间融合特征向量；

步骤1将目标用户和其邻居用户的通话特征指标向量以图卷积的形式融合，从而可以充分提取数据中隐含的空间维度信息，步骤1还可以进一步通过下面两种方式来计算目标用户在每张时空子图对应时间周期下的空间融合特征向量：

1、根据邻居用户特征的平均值来计算，步骤1可以进一步包括有：

步骤A1、计算目标用户在每张时空子图对应时间周期下的空间融合特征向量：

其中，d′_ik是目标用户i在第k张时空子图对应时间周期下的空间融合特征向量，d_ik是目标用户i在第k张时空子图对应时间周期下的通话特征指标向量，

是目标用户i的第m个邻居用户在第k张时空子图对应时间周期下的通话特征指标向量，M是目标用户i的邻居用户总数，σ(·)是非线性激活函数，W_s是线性变换矩阵，b_s是偏置向量，σ(·)可以根据实际业务需要而设置(例如使用relu()激活函数)，W_s和b_s可以通过步骤二对时空图神经网络进行训练而获得。

2、根据和邻居用户之间的相关度来计算，步骤1进一步包括有：

步骤B1、计算目标用户和每个邻居用户在每张时空子图对应时间周期下的特征指标相关度：

其中，

是目标用户i和其第m个邻居用户在第k张时空子图对应时间周期下的特征指标相关度，

是d_ik和

这两个向量的余弦值；

步骤B2、对目标用户和每个邻居用户在每张时空子图对应时间周期下的特征指标相关度进行归一化操作：

其中，a(im)是目标用户i和第m个邻居用户在第k张时空子图对应时间周期下的特征指标相关度的归一化值；

步骤B3、计算目标用户在每张时空子图对应时间周期下的空间融合特征向量：

步骤2将目标用户的空间融合特征向量组输入到递归神经网络中，通过递归神经网络的隐状态对目标用户在空间和时间两个维度的特征信息进行整合。递归神经网络在第τ张时空子图对应时间周期下的隐藏层状态h′_iτ不仅与目标用户i在第τ张时空子图对应时间周期的空间融合特征向量d′_iτ有关，也与前一张时空子图对应时间周期(即第τ-1个时间周期)下的隐藏层状态h′_iτ-1有关，h′_iτ可以使用以下公式来计算：h′_iτ＝σ(W_t·[d′_iτ，h′_iτ-1]+b_t)，其中，W_t是线性变换矩阵，b_t是偏置向量，[d′_iτ，h′_iτ-1]表示将d′_iτ、h′_iτ-1进行拼接，W_t和b_t可以通过步骤二对时空图神经网络进行训练而获得，对于不同的历史时刻，递归神经网络的隐藏层参数(例如W_t和b_t)是共享的。

步骤2中，根据最后一张时空子图对应时间周期下的隐状态获得递归神经网络的输出，即标识用户号码是否是疑似诈骗号码的标签信息，可以进一步包括有：

计算递归神经网络的输出值：y′_i＝Softmax(W·h′_iE+b)，其中，y′_i是标识目标用户i号码是否是疑似诈骗号码的标签信息，h′_iE是最后一张时空子图对应时间周期下的隐藏层状态，W是线性变换矩阵，b是偏置向量，W和b是递归神经网络的输出层参数，其值可以通过步骤二对时空图神经网络进行训练而获得，Softmax(·)是输出层的激活函数。

通过步骤1和2，目标用户在时间维度和空间维度的特征信息都分别被整合到递归神经网络的隐状态当中，而最后一张时空子图对应时间周期下的隐状态h′_iE则被用来预测最终的标签信息，通过设置神经网络的隐藏层，用户的通话特征将被投射到更紧致的隐空间。

本发明可以使用批量梯度下降法(Batch Gradient Descent)最小化损失函数L，更新训练递归神经网络中的参数W、b、W_s、b_s、W_t和b_t，相比于传统的交叉熵损失函数，这种Focal Loss损失函数则更加关注容易混淆的样本，同时给正样本分配更高的权重，从而更好地适应样本不平衡的情况。训练后的神经网络将以同样的方式去预测未被人工标记的数据，输出每个用户的标签信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于时空图的诈骗号码识别方法，其特征在于，包括有：

步骤一、由全量通话记录生成电信通联网络：G＝{V，E，Y}，并据此构建识别诈骗号码的时空图，所构建的时空图是由连续多张时空子图组成的集合，其中，V表示所有通信用户的节点集合，v_i∈V，v_i表示用户i的节点，E表示所有用户节点之间通话关系的集合，e_ijt＝(v_i，v_j，t)∈E，e_ijt表示用户i在t时刻给用户j的通话，Y表示人工标注的用户身份集合，y_i∈Y，y_i是人工标注的用户i的身份，然后使用Snapshot方法按一定的时间间隔T、从构建的时空图中连续截取出多张时空子图：G_k＝{V_k，E_k，X_k，Y}，其中，G_k表示截取出的第k张时空子图，V_k表示时空子图G_k中所有通信用户的节点集合，E_k表示时空子图G_k中所有用户节点之间通话关系的集合，X_k表示时空子图G_k中所有用户的通话特征指标向量集合，d_ik∈X_k，d_ik表示时空子图G_k中用户i的通话特征指标向量；

2.根据权利要求1所述的方法，其特征在于，步骤二中，构成通话特征指标向量的通话特征指标包括但不限于：呼叫频次、被叫号码数、离散度、忙时率、通话间隔平均值、呼叫间隔平均值、通话时长平均值、振铃时长平均值、未接通振铃时长平均值、接通率、被叫释放率、主叫类型、被叫类型、主叫地区、被叫地区。

3.根据权利要求1所述的方法，其特征在于，当目标用户或邻居用户在其中一张时空子图中不存在有对应的通信用户的节点时，以第z张时空子图为例，步骤1还包括有：

将目标用户或邻居用户在第z张时空子图对应时间周期下的通话特征指标向量设置为全0向量。

4.根据权利要求1所述的方法，其特征在于，步骤1进一步包括有：

是目标用户i的第m个邻居用户在第k张时空子图对应时间周期下的通话特征指标向量，M是目标用户i的邻居用户总数，σ(·)是非线性激活函数，W_s是线性变换矩阵，b_s是偏置向量。

5.根据权利要求1所述的方法，其特征在于，步骤1进一步包括有：

其中，

是d_ik和

这两个向量的余弦值：

其中，σ(·)是非线性激活函数，W_s是线性变换矩阵，b_s是偏置向量。

6.根据权利要求1所述的方法，其特征在于，步骤2中，递归神经网络在第τ张时空子图对应时间周期下的隐藏层状态h’_iτ使用以下公式来计算：h’_iτ＝σ(W_t·[d’_iτ，h’_iτ-1]+b_τ)，其中，σ(·)是非线性激活函数，W_t是线性变换矩阵，b_t是偏置向量，d′_iτ是目标用户i在第τ张时空子图对应时间周期的空间融合特征向量，h′_iτ-1是第τ-1张时空子图对应时间周期的隐藏层状态，[d′_iτ，h′_iτ-1]表示将d′_iτ、h′_iτ-1进行拼接。

7.根据权利要求1所述的方法，其特征在于，步骤2中，根据最后一张时空子图对应时间周期下的隐状态获得递归神经网络的输出，即标识用户号码是否是疑似诈骗号码的标签信息，进一步包括有：

计算递归神经网络的输出值：y′_i＝Softmax(W·h′_iE+b)，其中，y′_i是标识目标用户i号码是否是疑似诈骗号码的标签信息，h′_iE是最后一张时空子图对应时间周期下的隐藏层状态，W是线性变换矩阵，b是偏置向量，W和b是递归神经网络的输出层参数，Softmax(·)是输出层的激活函数。