CN112153221B

CN112153221B - 一种基于社交网络图计算的通信行为识别方法

Info

Publication number: CN112153221B
Application number: CN202010976683.XA
Authority: CN
Inventors: 李静林; 袁泉; 罗贵阳; 刘志晗; 季述郧; 高雅诗; 王尚广; 周傲
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-06-29
Anticipated expiration: 2040-09-16
Also published as: CN112153221A

Abstract

本发明提供了一种基于社交网络图计算的通信行为识别方法，属于通信社交领域；首先，利用数据流接口抓取海量用户的通信记录，以所有用户为节点，用户间的通信行为为边构建通信社交网络；然后根据牛顿冷却定理，针对某时刻t进行每两个用户间亲密度的初始值计算；并根据通信社交网络，通过游走采样法初步挖掘目标用户A的社交子图：接着利用图卷积模型对社交子图中各节点交互进行建模，完成各节点状态的更新；同时，利用概率图模型通过马尔可夫随机场完成社交子图中各节点状态的更新；最后将各用户对应的两个节点状态的更新结果进行拼接，输入多范围门控单元，利用端到端学习法，输出概率结果进行名单的划分；本发明能实现实时有效的诈骗检测。

Description

一种基于社交网络图计算的通信行为识别方法

技术领域

本发明属于通信社交、深度学习和网络欺诈识别领域，具体是一种基于社交网络图计算的通信行为识别方法。

背景技术

随着信息的进步，电信欺诈成为犯罪活动快速发展的一个重要领域。由于通信社交网络人际关系的复杂性和不确定性，电信欺诈检测已成为一个十分困难但是很重要的问题。诈骗团伙的诈骗方式和伪装方式在不断的演变，诈骗形式复杂多样，而传统针对单点欺骗的电话诈骗检测方式又存在数据采集不足的缺点，最终导致传统的检测方法效率较低。因此需要对现有技术进行改进，提升对于新型诈骗的防范能力。

一种新型的电信诈骗事件检测思路是以通信社交的角度来准确快速地检测电信诈骗事件。通信是一种社交行为，通信社交网络包含丰富的关系信息，能成功捕获用户之间的相关性，例如：两个人的社交网络的重叠程度与他们之间的亲密程度相关，因为彼此认识的普通用户可能会共享许多共同的朋友。基于图计算的诈骗检测的思路是通过对通信社交网络进行分析，将社交关系转换为一组拓扑特征，例如：节点的度数、节点的k-core值、PageRank得分等。

然而，在城市规模的通信网络大数据中检测欺诈活动面临很多挑战：首先，全市范围内的通信社交网络由数千万名用户组成，传统方法无法处理大规模网络。另外，随着通信行业和互联网行业的高速发展，诈骗者的犯罪行为层出不穷，仅针对用户统计特征的欺诈检测方法或者社会关系的欺诈检测方法能力有限，还需要挖掘更多的特征来进行欺诈检测。

现有技术中，文献1:申请号为201811381191.5的一种电信诈骗事件检测方法和检测系统，利用构建的电信诈骗事件检测模型来预测诈骗模式，能够快速、准确的预测诈骗行为。但是，本方法通过建立不同时间序列通联模式的动态通联图，挖掘存在诈骗行为的异常子图序列。这种方法的效果非常依赖于这若干个指标的选取，如：节点度数、中介中心性、接近中心性、聚类系数等。由于用户通话行为的多样性，选取出能够严格区分诈骗号码、疑似诈骗号码和普通号码的若干个指标非常不易，并且仅基于社交网络拓扑结构的检测方法能力仍不足。

文献2：申请号为201710211148.3的一种基于大数据和机器学习的防范电信诈骗系统及方法，能联合移动端、运营商、公安和银行等机构，不仅能实现快速有效防范还能实现及时打击电信诈骗；但是，该方法的约束规则库中的诈骗特征都是基于历史信息诈骗数据库进行的特征提取，例如：呼叫时间间隔均值、呼叫成功比例、呼叫成功次数、平均每天通话次数等，需要花费大量时间和人力完善和扩充诈骗信息数据库。另外，决策树算法比较简单，检测能力有限。由于用户通话行为的复杂性，单纯依靠提取的电信诈骗的特征进行分类，效果往往不够理想，只能有效打击广撒网型的电信诈骗，难以应对日益复杂的电信诈骗用户识别任务。

文献3：申请号为201911306932.8的一种基于图分析的反欺诈检测方法及检测系统，可以识别出诈骗犯罪分子，但是不足之处在于，过度依赖通信用户的用户特征，目标关系图是由其他节点收缩至对应的边或节点，对用户之间的关系特征挖掘不足，检测是否为诈骗电话的依据是组合特征，例如：对应的号码、设备、时间、年龄、地址、套餐等，这些统计特征虽然在一定程度上能够被用于拦截诈骗电话，但是随着诈骗手段的多样化，单从用户的通话行为获得的统计特征建立的电信诈骗模型效果往往不理想。

文献4：申请号为201811573805.X的一种基于卷积神经网络的用户行为鉴别系统及方法，能够对具有电信诈骗行为的用户进行精确识别，保证了系统针对电信诈骗行为的防控能力。但是，该方法利用卷积神经网络虽然能够自动完成用户特征学习，获得具有重要影响的特征，实现用户行为更准确的分类，但是卷积神经网络模型的输入数据来源于对用户通话记录的统计特征和行为特征，而随着用户通话行为的复杂多样，基于用户通话记录的特征构建变得更加困难，使得仅依赖用户行为特征建立的电信诈骗模型在实践过程中往往效果不太理想。

鉴于上述现有技术中存在的不足之处，希望构建一种更加智能有效的检测方法，能够将用户的通话行为和通信社交网络相结合去分析用户的欺诈性，基于大数据和机器学习的电信诈骗事件方法，提高诈骗检测的准确率；主要解决电信诈骗领域内三个方面的问题：

1)小规模诈骗识别

现有技术大多通过单个用户的一个周期内的通信话单或者直接通信邻居信息，从中提取数据特征，基于规则、统计算法来判定是否为疑似诈骗用户。这意味着传统的模版匹配、统计分析和单纯的关口检测等犯罪检测方法，只能针对单点欺诈的通信诈骗检测，难以整理庞大数据量，导致检测效率比较低。

2)忽视用户社交关系

由于用户通话行为的多样性，只考虑用户的通话行为过于片面。除了用户本身的通话行为外，用户间的相互通话构成的通信社交网络也能够为诈骗检测提供有用的信息。在通信社交网络图中，普通用户与其部分邻居用户的连接性较强；相对于普通用户来说，由于欺诈行为本身的特性，诈骗用户与其所有邻居用户的连接性都不强。

3)难以处理非结构化数据

对通信社交网络进行分析，需要在大规模用户上建立非结构化的图数据。然而，传统的机器学习技术方案只能处理结构化数据，对于非结构化数据一般采用简单的子图序列化方式。此类处理方式不能充分进行社交维度分析，模型的效果往往不够理想。

目前的防欺诈手段主要是利用通信用户反馈结果构建欺诈号码数据库，达到提醒与限制的作用，但是此方法难以应对目前的电信欺诈手段。电信欺诈的罪犯利用欺诈电话号码数据库不能自动更新的缺点，频繁更换的电话号码，得以继续实施欺诈。基于机器学习技术，通过提取用户通话行为的特征来判别诈骗号码的方法，虽然能够实现自动拦截诈骗号码号码，但是由于用户通话行为的复杂性，效果往往不够理想，难以应对日益复杂的电信诈骗用户识别任务

发明内容

本发明针对上述问题，提出了一种基于社交网络图计算的通信行为识别方法，充分利用用户的社交关系帮助进行欺诈识别，以提供更实时有效的检测；

所述的基于社交网络图计算的通信行为识别方法，具体步骤如下：

步骤一、利用数据流接口抓取一个周期内某市区海量用户的通信记录，对通信记录进行清洗并以图数据形式存储在数据库中；

用户周期T的长度根据实际情况决定。

通信记录为原始通信信息，包括主叫用户号码、被叫用户号码、呼叫发起时间、呼叫结束时间、通话时长和呼叫类型等信息。

步骤二、根据通信记录，以所有用户为节点，用户间的通信行为为边构建通信社交网络；

通信社交网络是一个大型有向图G，由(V，E)表示。

其中，V表示具有用户特征

的有限节点集合，d_v表示每个节点的特征维度，包括用户个人信息、用户呼出次数，用户被叫次数，平均呼叫时长和平均呼叫成功率等信息；x_v表示节点v的特征；

E表示用户交互的一组边，边特征为

d_e表示每个关系边e的特征维度，包括呼叫次数、呼叫总时长和亲密度等信息；

e_vw表示交互用户v和用户w构成的边的特征；

步骤三、根据牛顿冷却定理，针对某时刻t进行每两个用户间亲密度的初始值计算；

用户A与用户B间的通信亲密度计算公式为：

T(A,B)＝∑(a*log_b(d))*e^c*Δt

其中，(a*log_b(d))*e^c*Δt为每次通话产生的热度；a、b、c为控制亲密度冷却的速率固定值，Δt为每次通话起始时刻距当前时刻t的时间差，d表示本次通话时长；

亲密度T(A,B)初始值为当前时刻t之前，所有次通话产生的热度累加之和。

步骤四、根据通信社交网络，通过游走采样法初步挖掘目标用户A的社交子图：

具体过程为：

首先，将通信社交网络中的用户A作为源点v，游走步长设为固定大小l；

然后，从源点v开始，游走过程中保留源节点的所有直接邻居；并根据用户间的亲密度对k-hops(2≤k≤l)高阶邻居采样，保留强关系邻居；

强关系邻居是指：各直接邻居连接的每个高阶邻居，判断各初始亲密度是否大于设定阈值，如果是，则高阶邻居为该直接邻居的强关系邻居，保留该高阶邻居，否则舍弃该高阶邻居。

最后，对各k-hops高阶邻居点进行合并；

步骤五、图卷积模型通过堆叠多层的若干节点卷积算子和边卷积子，对社交子图中各节点交互进行建模，完成各节点状态的更新；

针对当前第t次迭代，节点v状态的迭代更新公式如下：

表示节点v在第t次迭代后的嵌入向量，数值在0和1之间。

是第t层节点及其邻居的通用节点卷积算子函数，

是将边特征映射到节点特征的边卷积算子函数，w∈N(v)；N(v)表示社交子图中节点v的邻居集；

步骤六、概率图模型通过马尔可夫随机场完成社交子图中各节点状态的更新；

节点i的状态更新公式如下：

b_i(x_i)为节点i的更新概率值；

为归一化常数；φ_i(x_i,y_i)为节点i的自身置信度，通过统计自身的长期通话特征进行概率预测得到；N(i)为节点i在社交子图中的邻居；m_ji(x_i)为节点j对节点i的信任度，计算公式如下：

k∈N(j)\i表示k为节点j在社交子图中的邻居除去节点i以外的节点；ψ_ji(x_j,x_i)为节点j和节点i间的通信置信度，通过通信亲密度更新，公式为：

其中，X_l(x_i,x_j)表示在节点j和节点i间单次通话的置信概率，通过单次通话特征分析得到；n表示节点j和节点i间的通话次数；Sim(x_i,x_j)表示节点j和节点i间的相似度，采用节点间的余弦相似度得到；σ₁和σ₂表示概率图模型的内部参数。

步骤七、将步骤五和步骤六的两个结果对应的各用户的状态向量进行拼接，输入多范围门控单元，利用端到端学习法，输出各用户分别对应的概率结果；

多范围门控机制结构有三个门控单元构成，分别是遗忘门、输入门和输出门，控制着前一个时间片的置信度信息和当前置信度信息的流入与流出；

步骤八、将各个用户的概率结果，划分到白名单、黑名单或者待定名单中；

具体划分结果为：

判断每个用户的最优输出是否低于最低阈值，如果是，将该用户划分到黑名单中；否则，继续判断是否高于最高阈值，如果是，将该用户划分到白名单中，否则，该用户的最优输出介于高低阈值之间，划分到待定名单中。

本发明与现有技术相比，具有以下优势：

1)、一种基于社交网络图计算的通信行为识别方法，不仅能处理大规模用户数据，还能处理非结构化的社交网络数据，基于大数据和机器学习的诈骗识别，能实现实时有效的诈骗检测和低成本的治理。

2)、一种基于社交网络图计算的通信行为识别方法，提出电信诈骗的社交网络模型，以用户置信度作为通信社交网络图的节点特征、以用户通信置信度作为通信社交网络图的边权特征，构造通信社交网络图。在用户置信度计算阶段，本方案采用两种图计算方法：一是引入了图神经网络，基于亲密度的消息传递技术，完成用户不同阶段的置信度计算，取得了良好的效果；二是利用概率图的亲密度传播进行用户置信度，并输出用户的置信概率，分析用户最新的置信度进行欺诈识别。在用户置信度迭代更新阶段，采用多范围门控机制的方法，对用户不同阶段的置信度进行更新，最终结果作为诈骗识别的指标。相比于现有方案，本发明创造性地提出了用户置信度、通信置信度和置信度的迭代更新算法，将用户通话行为和通信社交网络结合在一起。

附图说明

图1是本发明一种基于社交网络图计算的通信行为识别方法原理图；

图2是本发明一种基于社交网络图计算的通信行为识别方法流程图；

图3是本发明采用的图神经网络示意图；

图4是本发明置信概率在随机场中的传播示意图；

图5是本发明基于MRGU的用户置信度更新图；

图6是本发明采用的MRGU结构示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细和深入描述。

本发明涉及一种基于人工神经网络的用户行为鉴别算法，包括：数据预处理阶段，构建大规模通信社交网络，计算用户之间的亲密度，并对用户信息和用户社交网络的特征进行提取；计算图阶段，根据不同的时间片构建形成亲密度计算图样本，根据用户特征、社交网络特征和用户间亲密度信息计算用户置信度；用户置信度更新阶段，根据不同时间段的用户置信度对用户置信度进行迭代更新；模型训练阶段，由于模型是一个端到端的二分类器，输入已标签的特征图样本进行训练，形成训练后的诈骗事件检测模型；用户分类阶段，根据训练后的检测模型对用户进行置信度评分，并分类到白名单、黑名单或待定名单里；模型评估阶段，分别连接模型训练模块和用户分类模块，对已训练的模型进行用户行为鉴别性能评估，能够对具有电信诈骗行为的用户进行精确识别，保证系统针对电信诈骗行为的防控能力。

如图1所示，首先，针对通信网络诈骗识别和骚扰识别等问题，基于通信运营商提供的用户通信数据，构建与通信数据中用户对应的通信社交网络。其中，所述社交网络图是由通过边连接起来的节点构成的，所述节点包括：用户分别对应的号码、设备、时间、年龄、地址、套餐中的一种或组合等，所述边包括：用户之间的亲密度、通信频率或通信时长等。

针对某个用户的通信社交网络，采用采样技术在大型图数据中获取用户的社交网络子图。获取子图之前，需要生成子图特征：利用图计算模型通过单次通话记录计算单次通话行为特征概率，之后利用该用户的长期行为特征计算用户特征和用户间关系特征概率，以及利用计算结果生成节点特征和边特征，结合用户的行为特征计算用户间的初始亲密度；之后，采用图计算模型完成用户间亲密度的更新和用户的状态更新；

从所述通信社交网络中获取用户通信社交行为特征，即用户通信行为与通信社交拓扑结构的混合特征，基于社交网络信息传播和通信亲密度度量标准完成用户间亲密度的更新，并同时计算当前用户的置信概率；对迭代更新的亲密度和当前的计算图结果进行用户置信度迭代，之后对更新后的置信度进行分析，利用用户通信社交行为特征训练多种图计算模型，然后使用训练后的分类模型识别出待识别用户是否为诈骗或骚扰用户。

所述的基于社交网络图计算的通信行为识别方法，如图2所示，包括如下步骤：

用户周期T的长度根据实际情况决定。

通信社交网络是一个大型有向图G，由(V，E)表示。

其中，V表示具有用户特征

E表示用户交互的一组边，边特征为

e_vw表示交互用户v和用户w构成的边的特征；

牛顿冷却定律是一种计算亲密度算法，用来衡量通信节点之间的初始亲密程度。可以把亲密度量想象成一个"自然冷却"的过程：

(1)任一时刻，一个人对其周围所有的人，都有一个"当前温度"，温度最高的就是亲密度排名第一的。

(2)如果一个用户呼叫另一个用户，两者的温度就该上升。

(3)随着时间流逝，所有亲密度的温度都逐渐"冷却"。

用户A与用户B间的通信亲密度计算公式为：

T(A,B)＝∑(a*log_b(d))*e^c*Δt

具体过程为：

最后，对各k-hops高阶邻居点进行合并；

本方法保留了源节点及其直接邻居，并对k-hops高阶邻居点进行合并，降低了计算复杂度。

步骤五、图卷积模型通过堆叠多层的若干节点卷积算子和边卷积子，对社交子图中各节点交互进行建模并提取图中不同范围的信息，完成各节点状态的更新；

针对当前第t次迭代，首先完成当前周期的用户社交网络信息传播，之后图中的每个节点根据汇聚的信息完成亲密度迭代更新；

在图神经网络中传播的信息：

表示节点v在第t次迭代后的嵌入向量，数值在0和1之间。w∈N(v)；N(v)表示社交子图中节点v的邻居集；

和

表示需要学习的函数。考虑到两个用户之间的复杂交互，因此使用神经网络

将边特征映射到节点特征，从而聚合来自邻域节点信息和边信息。在节点任务下，神经网络

可以表示为节点及其邻居的通用状态更新函数。

如图3所示，图神经网络结构采用多层卷积方式，对每个节点的邻居都进行一次节点卷积操作和边卷积操作，分别完成用户统计特征的学习和用户间亲密度的学习，然后经过激活函数ReLU得到计算图当前隐藏状态。卷积结果z^t表示计算图在t时刻的隐藏状态，并通过池化操作完成用户置信度计算。

首先，用户置信度用于衡量用户周期内的通信行为的信任度。通信置信度与成功通话次数、通话时长和通话次数偏度等指标相关，根据用户长期特征计算单元结果求得。

定义周期内用户A通信信任度公式为：

B_e(A)＝aX_l(A)+βC

其中，X_l(A)表示用户周期内的通信行为的置信概率。C为一个常数与社交网络的范围相关；α和β为相关参数。

然后，通信亲密度迭代主要是利用单次通话置信概率与用户间相似度量化通信间置信概率，其中用户间的单次通话特征计算用于计算用户间单次通话的置信概率，用户间相似度是利用用户的行为特征计算得出，一般与用户长期特征相关。

定义用户A与用户B间通信亲密度更新公式为：

其中，X_l(x_i,x_j)表示在节点j和节点i间单次通话的置信概率，通信指标包括上文提到的通话时间特征、通话时间长度特征等；通过单次通话特征分析得到。n表示节点j和节点i间的通话次数；Sim(x_i,x_j)表示节点j和节点i间的相似度，采用节点间的余弦相似度得到；σ₁和σ₂表示概率图模型的内部参数。

最后，基于通信社交网络的置信度的传播过程主要包括节点消息计算与消息传播迭代计算出节点的置信概率；基于马尔科夫随机场，可以通过既有的用户置信度与通信置信度计算用户节点的信任度，同时通过用户信任度的不断传播对用户的信任度向量进行迭代更新。

计算节点i的状态更新公式如下：

b_i(x_i)为节点i的更新概率值；

为归一化常数，可使置信度的和为1；φ_i(x_i,y_i)为节点i的自身置信度，通过统计自身的长期通话特征进行概率预测得到；N(i)为节点i在社交子图中的邻居；m_ji(x_i)为节点j对节点i的信任度，表明了当前状态的影响；包含所有其他传入节点i的消息乘积，计算公式如下：

x_i为节点i的统计特征，k∈N(j)\i表示k为节点j在社交子图中的一阶邻居除去节点i以外的节点；ψ_ji(x_j,x_i)为节点j和节点i间的通信置信度，通过通信亲密度更新；

如图4所示，消息更新规则以及置信度计算公式，可以先任意初始化每个b_i(x_i)，然后迭代的求解m_ji和b_i(x_i)直至收敛，m_ji不再发生变化。也就是说首先对一些初始节点的消息赋初值，然后多次迭代消息传播和置信度更新直到它们稳定，最后就能从置信度中获取相应的概率。置信度传播的步骤如下。

首先初始化，节点置信度：m_s(x_s)＝Be(s)，节点间通信置信度：m_st(x_t)＝1

然后，随机找到某个点和它的邻居节点，用消息更新规则计算该节点发送给其邻居节点的所有消息，然后再随机找到某个节点，重复这个过程，当所有消息都更新一遍之后即完成一次迭代，即对迭代次数i＝1:T，迭代更新

最后，在迭代结束后，计算更新后的节点置信度：

计算最大后验概率值，得出其欺诈概率：

步骤七、将步骤五和步骤六的用户节点信息和用户社交信息进行拼接融合，来学习不同的范围节点信息，并输入多范围门控单元(multi-range gate unit，MRGU)，利用端到端学习法，输出各用户分别对应的概率结果；

图计算能够通过聚合不同距离的邻居信息和关系信息来学习用户的置信度，本实施例应用多范围门控单元(multi-range gate unit，MRGU)，并以固定步数T展开循环，逐步更新用户的置信度。门控机制能处理时间序列问题有效的关键在于门控机制，门提供控制网络中信息传递的工具，让模型可以记住较为用户长期的置信度信息。如图5所示，多范围门控单元通过门控状态来控制传输图神经网络和随机场计算的用户置信度，决定用户当前置信度是否重要到能被记住及能不能被输出。

如图6所示，多范围门控机制结构有三个门控单元构成，分别是遗忘门、输入门和输出门，控制着前一个时间片的置信度信息和当前置信度信息的流入与流出，之后根据多维度的计算图结果，采用池化操作完成用户置信度更新。

其中，门控机制的计算公式如下：遗忘门

决定上一时刻用户置信度信息h^(t-1)的保留，输入门

决定当前用户置信度信息

的输入，输出门

控制当前用户置信度

的输出，最终通过池化操作完成多维更新：

具体划分结果为：

本发明核心算法是通信社交网络图的构造和置信度的迭代更新算法，关键点和欲保护点包括用户置信度量化、通信置信度量化和基于通信社交网络的置信度更新算法三个部分。

1)用户置信度量化

用户置信度用于衡量用户周期内的通信行为的信任度。通信置信度与成功通话次数、通话时长和通话次数偏度等指标相关，根据用户长期特征计算单元结果求得。用于表示该通信用户在非欺诈行为的置信度，置信度高的用户，通信更受到信任，所呼叫的用户通常置信度较高，可通过置信传播实现。

2)通信置信度量化单元

通信置信度量化主要是利用单次通话置信概率与用户间相似度量化通信间置信概率，其中用户间的单次通话特征计算用于计算用户间单次通话的置信概率，一般与通话时间特征、通话时间长度特征等指标有关；用户间相似度是利用用户的行为特征计算得出，一般与用户长期特征相关。通信置信度用于表示用户间的非欺诈通信置信度，置信度更高的通信，双方的置信度更高，反之降低。

3)基于通信社交网络的置信度计算算法

基于通信社交网络的置信度计算算法主要过程包括节点间亲密度的计算、节点间亲密度的在图神经网络中的传递以及和节点间概率消息在随机场中的传递。节点置信度的计算需要以用户量化的置信度为初始值输入到消息传递网络，消息传递网络输出迭代置信度。消息传递主要有三步：一是通过邻居节点进行通信亲密度在图神经网络或者随机场上传播，不断迭代，最终达到通信网络置信度收敛；二是输出用户的节点隐藏状态；三是计算节点最大后验概率值得出欺诈行为概率值。置信度的计算以多个周期的用户隐藏状态与通信亲密度为基础，本发明定义了置信度计算的算法，能够较为准确地通过置信度对用户进行评价。

4)基于多范围门控机制的用户置信度更新算法

卷积或者概率图方法使模型能够通过聚合不同距离的邻居信息和关系信息来学习节点的置信度。然而，通过多个周期的计算，模型能够学习到不同时期的用户的置信度，但需要对不同时段的置信度进行更新迭代。为了解决这一缺陷，本发明采用多范围门控机制，用于处理不同情况下用户置信度的迭代更新，其结果作为用户评判的指标。