CN109889436B

CN109889436B - 一种社交网络中垃圾邮件发送者的发现方法

Info

Publication number: CN109889436B
Application number: CN201910125820.6A
Authority: CN
Inventors: 李建欣; 张帅; 邵明来; 何雨; 周号益
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2020-10-13
Anticipated expiration: 2039-02-20
Also published as: CN109889436A

Abstract

本发明提出一种社交网络中垃圾邮件发送者的发现方法，包括以下步骤：步骤1，进行数据预处理，将邮件数据处理成本发明中垃圾邮件发送者发现模型所需格式；步骤2，进行用户行为特征提取，所述提取方式为利用半监督训练的图卷积网络来提取用户行为特征；步骤3，用户分类，所述分类方式为根据用户行为特征提取器输出的用户行为属性，判断每个用户节点是否为垃圾邮件发送者；步骤4，构造决策目标函数，指导垃圾邮件发送者发现模型的优化方向，使得其中的用户行为特征提取器和用户分类器能够联合学习图卷积网络中的参数和优化单类支持向量机的分类平面；步骤5，训练社交网络中垃圾邮件发送者发现模型。

Description

一种社交网络中垃圾邮件发送者的发现方法

技术领域

本发明设计一种智能检测方法，主要涉及到一种社交网络中垃圾邮件发送者的发现方法。

背景技术

21世纪以来，伴随着信息技术的蓬勃发展，互联网的使用大范围迅速普及，人们越来越多的使用电子邮件进行生活、工作或者业务上的交流，电子邮件极大的方便了人们之间的沟通效率。然而电子邮件作为网络交流沟通的重要渠道不仅方便了正常用户，同时也更加方便了那些垃圾广告投放者。尤其是近年来，垃圾邮件烦恼着大多数人，调查数据显示，93％的被调查者都对他们接收到的大量垃圾邮件非常不满。

随着互联网的不断发展垃圾邮件迅速增长，现在人们每天收到的垃圾邮件铺天盖地。最初，垃圾邮件主要是一些不请自来的商业宣传电子邮件，而更多的有关色情、政治的垃圾邮件不断增加，甚至达到了总垃圾邮件量的40％左右，并且仍然有持续增长的趋势。最严重的是，垃圾邮件不仅骚扰用户，更经常通过附件或恶意链接来散播恶意软件。垃圾邮件对社交用户、社会安全、经济发展的危害十分巨大。从而及时发现、检测垃圾邮件甚至垃圾邮件发送者是一项十分必要的工作。

近年来，很多反垃圾邮件的措施都被提出出来，但是只有非常少的被实施了。不幸的是，这些解决办法也都还不能完全阻止垃圾邮件，而且还对正常的邮件来往产生影响。当前，现有技术主要通过来源分析、趋势分析、内容过滤、主题分析及过滤等技术来实现垃圾邮件的检测及过滤。然而，现有的这些方法在使用过程中容易将正常的邮件往来隔离，或者不能很有效地阻止垃圾邮件。

发明内容

为了解决上述问题，本发明针对垃圾邮件发送者与正常用户具有不同行为的特点，在整个邮件网络的视角下建模并且分析、提取每个用户的行为特征；进而使用这些特征来判断该用户是否为垃圾邮件发送者。

本发明包括以下步骤：步骤1，进行数据预处理，将邮件数据处理成本发明中垃圾邮件发送者发现模型所需格式；步骤2，利用半监督训练的图卷积网络来提取用户行为特征，利用半监督训练的图卷积网络来提取用户行为特征，所述提取过程为用户行为特征提取器作为系统的中间层模块，对原始输入的网络中的每个用户节点提取并融合其本身特征和其与其他用户之间的发送、回复、转发以及举报等关系，通过一个图卷积网络(GCN)提取每个用户节点的行为属性；步骤3，接收用户行为特征提取器输出的用户行为属性，判断每个用户节点是否为垃圾邮件发送者；步骤4，构造决策目标函数，指导垃圾邮件发送者发现模型的优化方向，使得其中的用户行为特征提取器和用户分类器能够联合学习图卷积网络中的参数和优化单类支持向量机的分类平面；步骤5，训练社交网络中垃圾邮件发送者发现模型。

该方法具有以下优势：在网络上应用深度学习技术，从用户自身属性和用户之间的发送、回复、转发以及举报等关系出发，构建用户的行为特征；采用半监督学习技术，只要求网络中的一少部分数据有标签即可，在现实网络中有较高的应用可行性，极大的节省了数据标注的时间和费用开销；应用了单类支持向量机(One-class SVM)技术，与深度学习技术相结合，使得模型在样本分布不均衡的情况下(绝大部分用户为正常，少部分为垃圾邮件发送者)也能有很好的检测效果；算法多参数可调，系统具有反馈操作，可根据需求设置，算法可移植性好。

附图说明

图1为本发明进行图数据处理的整体流程图；

图2为本发明的用户节点关系结构化图；

图3为本发明的分类边界图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为了实现上述的发明目的，本发明提供一种社交网络中的垃圾邮件发送者的发现方法，针对社交网络中的用户节点，从用户自身属性和用户之间的发送、回复、转发以及举报等关系出发，构建用户的行为特征，利用网络中垃圾邮件发送者检测模型准确识别出垃圾邮件发送者。

如图1所示，本发明包括以下步骤：步骤1，进行数据预处理，将邮件数据处理成本发明中垃圾邮件发送者发现模型所需格式；步骤2，利用半监督训练的图卷积网络来提取用户行为特征，利用半监督训练的图卷积网络来提取用户行为特征，所述提取过程为用户行为特征提取器作为系统的中间层模块，对原始输入的网络中的每个用户节点提取并融合其本身特征和其与其他用户之间的发送、回复、转发以及举报等关系，通过一个图卷积网络(GCN)提取每个用户节点的行为属性；步骤3，接收用户行为特征提取器输出的用户行为属性，判断每个用户节点是否为垃圾邮件发送者；步骤4，构造决策目标函数，指导垃圾邮件发送者发现模型的优化方向，使得其中的用户行为特征提取器和用户分类器能够联合学习图卷积网络中的参数和优化单类支持向量机的分类平面；步骤5，训练社交网络中垃圾邮件发送者发现模型。

本发明考虑到现实网络中用于训练的数据只有一小部分是带标签的情况，并且针对于正负样本比例不均衡的情况进行设计；显著提高社交网络中的垃圾邮件发送者识别率。

另外，为了实现该方法，需要在机器上部署和配置Tensorflow运行环境。

在步骤1中，邮件数据预处理将邮件数据处理成本发明中垃圾邮件发送者发现模型所需格式。如图2所示为本发明的用户节点关系结构化图，所有用户节点组成一个网络，每个用户节点拥有自身的属性，用户节点之间通过用户之间的发送、回复、转发以及举报等关系结构化表示成一张网络，其中，若网络中有N个用户，则全体用户表示为X＝{X₁,…,X_N}，其中每个X_i为C维的向量，代表每个用户的C个自身属性。用户之间的关系表示为邻接矩阵A，和一个度矩阵D_ii＝∑_jA_ij。

考虑到现实网络中用于训练的数据只有一小部分是带标签的情况，在这种情况下传统的监督式方法能获得的可用训练样本过少从而导致性能较差，用户行为特征提取器利用可以半监督训练的图卷积网络来提取用户行为特征。

步骤2，利用半监督训练的图卷积网络来提取用户行为特征，用户行为特征提取器作为系统的中间层模块，该模块的主要功能是对原始输入的网络中的每个用户节点提取并融合其本身特征和其与其他用户之间的发送、回复、转发以及举报等关系，通过一个L层的图卷积网络(GCN)提取每个用户节点的行为属性，L为正整数。

输入数据经过第l层图卷积网络之后的形式记做H^(l)，则每层图卷积网络的形式为：

其中W^(l)为第l层图卷积网络中的可训练参数矩阵，

(A为邻接矩阵标识用户之间的关系，I_N为N阶单位矩阵,N为网络中的用户个数)，

为度矩阵；σ为线性整流函数(Rectified Linear Unit,ReLU):f(x)＝max(0,x)。

图卷积网络所输出的最后一层特征定义为每个节点的行为属性，即为输入数据经过L层图卷积网络之后的结果H^(L)。该结果将输入到用户分类器中判断某用户为正常用户或者是垃圾邮件发送者。

步骤3，用户分类器接收用户行为特征提取器输出的用户行为属性，给出每个用户节点是否为垃圾邮件发送者的判断，所述用户分类器为一个单类支持向量机，。

用户分类器针对于网络中的正负样本比例不均衡的情况(绝大部分用户为正常，少部分为垃圾邮件发送者)进行设计，与基于深度学习技术的用户行为特征提取器相结合，使得模型在样本分布不均衡的情况下也能有很好的检测效果，显著提高社交网络中的垃圾邮件发送者识别率。

图3为本发明的分类边界图，在本模块接收用户行为属性特征后，单类支持向量机会有根据训练好的参数ω和ρ计算所得到一个紧凑的正常用户的分类边界，超出这个边界就认为是垃圾邮件发送者，在边界之内就认为是正常用户。具体而言，在本模块接收第i个用户行为属性特征X_i后，根据S_i＝sgn(＜ω,H^(L)>-ρ)计算出其异常分数S_i，其中H^(L)代表本模块接收用户行为属性特征，

则若S_i＝1则说明该用户为正常用户，若S_i＝-1则说明该用户为垃圾邮件发送者。

步骤4，构造决策目标函数，所述决策目标函数指导垃圾邮件发送者发现模型的优化方向，使得其中的用户行为特征提取器和用户分类器能够联合学习图卷积网络中的参数和优化单类支持向量机的分类平面(给定参数ρ)。

对于训练数据X＝{X₁,…,X_N}，垃圾邮件发送者发现框架的决策目标为：

其中ω为可训练的单类支持向量机的超平面，

用于限制超平面与原点之前的距离，ρ为可训练的超平面的偏置，

W^(l)为可训练的第l(1≤l≤L)层图卷积网络的参数。第三项

是惩罚项，用于惩罚那些在分类边界之外的点；超参数v∈(0,1]用于权衡允许有多少比例的点落在分类边界之外；最后一项

是对图卷积网络参数W的一个权重衰减正则化项，用于限制参数W的大小，防止参数过拟合。其中的λ为常数，表示该正则化的参数，||W^(l)||_F表示W^(l)的Frobenius范数(记作||·||_F)。

步骤5，使用梯度下降方法优化图卷积网络中的参数W，训练直到网络收敛到一个局部最优点。由于图卷积网络的参数W、单类支持向量机的参数ω和单类支持向量机的参数ρ不在同一个规模上，使用常规的梯度下降方法不足够同时很好地优化图卷积网络和单类支持向量机。采用交替训练的方式训练三个参数W，ω和ρ：先固定参数ρ，使用梯度下降方法训练图卷积网络的参数W、单类支持向量机的参数ω共k步(k∈N)；然后，在每k步之后，由当前训练过的图卷积网络输出的用户行为特征表示，使用线搜索的方式求解出最优参数ρ；反复迭代上述过程直到模型收敛，N为正整数。

在模型训练完成之后，用户可以使用预处理后的邮件数据输入模型进行测试，模型运行后会为每个用户输出一个判断结果。若模型输出为1说明该用户为正常用户，若模型输出为-1则说明该用户为检测出的垃圾邮件发送者。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种社交网络中垃圾邮件发送者的发现方法，其特征在于，包括以下步骤：步骤1，进行数据预处理，将邮件数据处理成垃圾邮件发送者发现模型所需格式；步骤2，进行用户行为特征提取，所述提取方式为利用半监督训练的图卷积网络来提取用户行为特征；步骤3，用户分类，所述分类方式为根据用户行为特征提取器输出的用户行为属性，判断每个用户节点是否为垃圾邮件发送者；步骤4，构造决策目标函数，指导垃圾邮件发送者发现模型的优化方向，使得其中的用户行为特征提取器和用户分类器能够联合学习图卷积网络中的参数和优化单类支持向量机的分类平面；步骤5，训练社交网络中垃圾邮件发送者发现模型；

在所述步骤1中，所述垃圾邮件发送者发现模型由步骤2-5具体实现，具体的，使用步骤5所述训练方法，按照步骤4所述目标函数，对步骤2和步骤3所述中的神经网络进行训练优化；在所述步骤1中，所述垃圾邮件发送者发现模型中所有用户节点组成一个网络，每个用户节点拥有自身的属性，用户节点之间通过用户之间的发送、回复、转发以及举报关系结构化表示成一张网络，网络中有N个用户，全体用户表示为X＝{X₁,…,X_N}，其中每个X_i为C维的向量，代表每个用户的C个自身属性，用户之间的关系表示为邻接矩阵A和一个度矩阵D_ii＝∑_jA_ij，所述i,j,C,N为正整数，其中i、j表示用户的编号，A_ij为邻接矩阵的第i行、第j列，用来表示用户i和用户j之间有无发送、回复、转发或举报关系；D_ii表示度矩阵的对角线上的第i个元素,用来表示用户i与所有其他用户之间共有多少条发送、回复、转发或举报关系；

步骤5，所述训练的方式为使用梯度下降方法优化图卷积网络中的参数W，训练直到网络收敛到一个局部最优点，由于图卷积网络的参数W、单类支持向量机的参数ω和单类支持向量机的参数ρ不在同一个规模上，采用交替训练的方式训练三个参数W，ω和ρ：先固定参数ρ，使用梯度下降方法训练图卷积网络的参数W、单类支持向量机的参数ω共k步(k∈N)；然后，在每k步之后，由当前训练过的图卷积网络输出的用户行为特征表示，使用线搜索的方式求解出最优参数ρ；反复迭代上述过程直到模型收敛，N为正整数。

2.如权利要求1所述的方法，其特征在于，在所述步骤2中，所述利用半监督训练的图卷积网络来提取用户行为特征的具体方式为，对原始输入的网络中的每个用户节点提取并融合其本身特征和其与其他用户之间的发送、回复、转发以及举报关系，通过一个L层的图卷积网络提取每个用户节点的行为属性，所述L为正整数，输入数据经过第l层图卷积网络之后的形式记做H^(l)，则每层图卷积网络的形式为：