CN109889436B - 一种社交网络中垃圾邮件发送者的发现方法 - Google Patents

一种社交网络中垃圾邮件发送者的发现方法 Download PDF

Info

Publication number
CN109889436B
CN109889436B CN201910125820.6A CN201910125820A CN109889436B CN 109889436 B CN109889436 B CN 109889436B CN 201910125820 A CN201910125820 A CN 201910125820A CN 109889436 B CN109889436 B CN 109889436B
Authority
CN
China
Prior art keywords
network
user
users
training
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910125820.6A
Other languages
English (en)
Other versions
CN109889436A (zh
Inventor
李建欣
张帅
邵明来
何雨
周号益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201910125820.6A priority Critical patent/CN109889436B/zh
Publication of CN109889436A publication Critical patent/CN109889436A/zh
Application granted granted Critical
Publication of CN109889436B publication Critical patent/CN109889436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出一种社交网络中垃圾邮件发送者的发现方法,包括以下步骤:步骤1,进行数据预处理,将邮件数据处理成本发明中垃圾邮件发送者发现模型所需格式;步骤2,进行用户行为特征提取,所述提取方式为利用半监督训练的图卷积网络来提取用户行为特征;步骤3,用户分类,所述分类方式为根据用户行为特征提取器输出的用户行为属性,判断每个用户节点是否为垃圾邮件发送者;步骤4,构造决策目标函数,指导垃圾邮件发送者发现模型的优化方向,使得其中的用户行为特征提取器和用户分类器能够联合学习图卷积网络中的参数和优化单类支持向量机的分类平面;步骤5,训练社交网络中垃圾邮件发送者发现模型。

Description

一种社交网络中垃圾邮件发送者的发现方法
技术领域
本发明设计一种智能检测方法,主要涉及到一种社交网络中垃圾邮件发送者的发现方法。
背景技术
21世纪以来,伴随着信息技术的蓬勃发展,互联网的使用大范围迅速普及,人们越来越多的使用电子邮件进行生活、工作或者业务上的交流,电子邮件极大的方便了人们之间的沟通效率。然而电子邮件作为网络交流沟通的重要渠道不仅方便了正常用户,同时也更加方便了那些垃圾广告投放者。尤其是近年来,垃圾邮件烦恼着大多数人,调查数据显示,93%的被调查者都对他们接收到的大量垃圾邮件非常不满。
随着互联网的不断发展垃圾邮件迅速增长,现在人们每天收到的垃圾邮件铺天盖地。最初,垃圾邮件主要是一些不请自来的商业宣传电子邮件,而更多的有关色情、政治的垃圾邮件不断增加,甚至达到了总垃圾邮件量的40%左右,并且仍然有持续增长的趋势。最严重的是,垃圾邮件不仅骚扰用户,更经常通过附件或恶意链接来散播恶意软件。垃圾邮件对社交用户、社会安全、经济发展的危害十分巨大。从而及时发现、检测垃圾邮件甚至垃圾邮件发送者是一项十分必要的工作。
近年来,很多反垃圾邮件的措施都被提出出来,但是只有非常少的被实施了。不幸的是,这些解决办法也都还不能完全阻止垃圾邮件,而且还对正常的邮件来往产生影响。当前,现有技术主要通过来源分析、趋势分析、内容过滤、主题分析及过滤等技术来实现垃圾邮件的检测及过滤。然而,现有的这些方法在使用过程中容易将正常的邮件往来隔离,或者不能很有效地阻止垃圾邮件。
发明内容
为了解决上述问题,本发明针对垃圾邮件发送者与正常用户具有不同行为的特点,在整个邮件网络的视角下建模并且分析、提取每个用户的行为特征;进而使用这些特征来判断该用户是否为垃圾邮件发送者。
本发明包括以下步骤:步骤1,进行数据预处理,将邮件数据处理成本发明中垃圾邮件发送者发现模型所需格式;步骤2,利用半监督训练的图卷积网络来提取用户行为特征,利用半监督训练的图卷积网络来提取用户行为特征,所述提取过程为用户行为特征提取器作为系统的中间层模块,对原始输入的网络中的每个用户节点提取并融合其本身特征和其与其他用户之间的发送、回复、转发以及举报等关系,通过一个图卷积网络(GCN)提取每个用户节点的行为属性;步骤3,接收用户行为特征提取器输出的用户行为属性,判断每个用户节点是否为垃圾邮件发送者;步骤4,构造决策目标函数,指导垃圾邮件发送者发现模型的优化方向,使得其中的用户行为特征提取器和用户分类器能够联合学习图卷积网络中的参数和优化单类支持向量机的分类平面;步骤5,训练社交网络中垃圾邮件发送者发现模型。
该方法具有以下优势:在网络上应用深度学习技术,从用户自身属性和用户之间的发送、回复、转发以及举报等关系出发,构建用户的行为特征;采用半监督学习技术,只要求网络中的一少部分数据有标签即可,在现实网络中有较高的应用可行性,极大的节省了数据标注的时间和费用开销;应用了单类支持向量机(One-class SVM)技术,与深度学习技术相结合,使得模型在样本分布不均衡的情况下(绝大部分用户为正常,少部分为垃圾邮件发送者)也能有很好的检测效果;算法多参数可调,系统具有反馈操作,可根据需求设置,算法可移植性好。
附图说明
图1为本发明进行图数据处理的整体流程图;
图2为本发明的用户节点关系结构化图;
图3为本发明的分类边界图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
为了实现上述的发明目的,本发明提供一种社交网络中的垃圾邮件发送者的发现方法,针对社交网络中的用户节点,从用户自身属性和用户之间的发送、回复、转发以及举报等关系出发,构建用户的行为特征,利用网络中垃圾邮件发送者检测模型准确识别出垃圾邮件发送者。
如图1所示,本发明包括以下步骤:步骤1,进行数据预处理,将邮件数据处理成本发明中垃圾邮件发送者发现模型所需格式;步骤2,利用半监督训练的图卷积网络来提取用户行为特征,利用半监督训练的图卷积网络来提取用户行为特征,所述提取过程为用户行为特征提取器作为系统的中间层模块,对原始输入的网络中的每个用户节点提取并融合其本身特征和其与其他用户之间的发送、回复、转发以及举报等关系,通过一个图卷积网络(GCN)提取每个用户节点的行为属性;步骤3,接收用户行为特征提取器输出的用户行为属性,判断每个用户节点是否为垃圾邮件发送者;步骤4,构造决策目标函数,指导垃圾邮件发送者发现模型的优化方向,使得其中的用户行为特征提取器和用户分类器能够联合学习图卷积网络中的参数和优化单类支持向量机的分类平面;步骤5,训练社交网络中垃圾邮件发送者发现模型。
本发明考虑到现实网络中用于训练的数据只有一小部分是带标签的情况,并且针对于正负样本比例不均衡的情况进行设计;显著提高社交网络中的垃圾邮件发送者识别率。
另外,为了实现该方法,需要在机器上部署和配置Tensorflow运行环境。
在步骤1中,邮件数据预处理将邮件数据处理成本发明中垃圾邮件发送者发现模型所需格式。如图2所示为本发明的用户节点关系结构化图,所有用户节点组成一个网络,每个用户节点拥有自身的属性,用户节点之间通过用户之间的发送、回复、转发以及举报等关系结构化表示成一张网络,其中,若网络中有N个用户,则全体用户表示为X={X1,…,XN},其中每个Xi为C维的向量,代表每个用户的C个自身属性。用户之间的关系表示为邻接矩阵A,和一个度矩阵Dii=∑jAij
考虑到现实网络中用于训练的数据只有一小部分是带标签的情况,在这种情况下传统的监督式方法能获得的可用训练样本过少从而导致性能较差,用户行为特征提取器利用可以半监督训练的图卷积网络来提取用户行为特征。
步骤2,利用半监督训练的图卷积网络来提取用户行为特征,用户行为特征提取器作为系统的中间层模块,该模块的主要功能是对原始输入的网络中的每个用户节点提取并融合其本身特征和其与其他用户之间的发送、回复、转发以及举报等关系,通过一个L层的图卷积网络(GCN)提取每个用户节点的行为属性,L为正整数。
输入数据经过第l层图卷积网络之后的形式记做H(l),则每层图卷积网络的形式为:
Figure GDA0002633425500000051
Figure GDA0002633425500000052
其中W(l)为第l层图卷积网络中的可训练参数矩阵,
Figure GDA0002633425500000053
(A为邻接矩阵标识用户之间的关系,IN为N阶单位矩阵,N为网络中的用户个数),
Figure GDA0002633425500000054
为度矩阵;σ为线性整流函数(Rectified Linear Unit,ReLU):f(x)=max(0,x)。
图卷积网络所输出的最后一层特征定义为每个节点的行为属性,即为输入数据经过L层图卷积网络之后的结果H(L)。该结果将输入到用户分类器中判断某用户为正常用户或者是垃圾邮件发送者。
步骤3,用户分类器接收用户行为特征提取器输出的用户行为属性,给出每个用户节点是否为垃圾邮件发送者的判断,所述用户分类器为一个单类支持向量机,。
用户分类器针对于网络中的正负样本比例不均衡的情况(绝大部分用户为正常,少部分为垃圾邮件发送者)进行设计,与基于深度学习技术的用户行为特征提取器相结合,使得模型在样本分布不均衡的情况下也能有很好的检测效果,显著提高社交网络中的垃圾邮件发送者识别率。
图3为本发明的分类边界图,在本模块接收用户行为属性特征后,单类支持向量机会有根据训练好的参数ω和ρ计算所得到一个紧凑的正常用户的分类边界,超出这个边界就认为是垃圾邮件发送者,在边界之内就认为是正常用户。具体而言,在本模块接收第i个用户行为属性特征Xi后,根据Si=sgn(<ω,H(L)>-ρ)计算出其异常分数Si,其中H(L)代表本模块接收用户行为属性特征,
Figure GDA0002633425500000061
则若Si=1则说明该用户为正常用户,若Si=-1则说明该用户为垃圾邮件发送者。
步骤4,构造决策目标函数,所述决策目标函数指导垃圾邮件发送者发现模型的优化方向,使得其中的用户行为特征提取器和用户分类器能够联合学习图卷积网络中的参数和优化单类支持向量机的分类平面(给定参数ρ)。
对于训练数据X={X1,…,XN},垃圾邮件发送者发现框架的决策目标为:
Figure GDA0002633425500000062
其中ω为可训练的单类支持向量机的超平面,
Figure GDA0002633425500000063
用于限制超平面与原点之前的距离,ρ为可训练的超平面的偏置,
Figure GDA0002633425500000071
W(l)为可训练的第l(1≤l≤L)层图卷积网络的参数。第三项
Figure GDA0002633425500000072
是惩罚项,用于惩罚那些在分类边界之外的点;超参数v∈(0,1]用于权衡允许有多少比例的点落在分类边界之外;最后一项
Figure GDA0002633425500000073
是对图卷积网络参数W的一个权重衰减正则化项,用于限制参数W的大小,防止参数过拟合。其中的λ为常数,表示该正则化的参数,||W(l)||F表示W(l)的Frobenius范数(记作||·||F)。
步骤5,使用梯度下降方法优化图卷积网络中的参数W,训练直到网络收敛到一个局部最优点。由于图卷积网络的参数W、单类支持向量机的参数ω和单类支持向量机的参数ρ不在同一个规模上,使用常规的梯度下降方法不足够同时很好地优化图卷积网络和单类支持向量机。采用交替训练的方式训练三个参数W,ω和ρ:先固定参数ρ,使用梯度下降方法训练图卷积网络的参数W、单类支持向量机的参数ω共k步(k∈N);然后,在每k步之后,由当前训练过的图卷积网络输出的用户行为特征表示,使用线搜索的方式求解出最优参数ρ;反复迭代上述过程直到模型收敛,N为正整数。
在模型训练完成之后,用户可以使用预处理后的邮件数据输入模型进行测试,模型运行后会为每个用户输出一个判断结果。若模型输出为1说明该用户为正常用户,若模型输出为-1则说明该用户为检测出的垃圾邮件发送者。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种社交网络中垃圾邮件发送者的发现方法,其特征在于,包括以下步骤:步骤1,进行数据预处理,将邮件数据处理成垃圾邮件发送者发现模型所需格式;步骤2,进行用户行为特征提取,所述提取方式为利用半监督训练的图卷积网络来提取用户行为特征;步骤3,用户分类,所述分类方式为根据用户行为特征提取器输出的用户行为属性,判断每个用户节点是否为垃圾邮件发送者;步骤4,构造决策目标函数,指导垃圾邮件发送者发现模型的优化方向,使得其中的用户行为特征提取器和用户分类器能够联合学习图卷积网络中的参数和优化单类支持向量机的分类平面;步骤5,训练社交网络中垃圾邮件发送者发现模型;
在所述步骤1中,所述垃圾邮件发送者发现模型由步骤2-5具体实现,具体的,使用步骤5所述训练方法,按照步骤4所述目标函数,对步骤2和步骤3所述中的神经网络进行训练优化;在所述步骤1中,所述垃圾邮件发送者发现模型中所有用户节点组成一个网络,每个用户节点拥有自身的属性,用户节点之间通过用户之间的发送、回复、转发以及举报关系结构化表示成一张网络,网络中有N个用户,全体用户表示为X={X1,…,XN},其中每个Xi为C维的向量,代表每个用户的C个自身属性,用户之间的关系表示为邻接矩阵A和一个度矩阵Dii=∑jAij,所述i,j,C,N为正整数,其中i、j表示用户的编号,Aij为邻接矩阵的第i行、第j列,用来表示用户i和用户j之间有无发送、回复、转发或举报关系;Dii表示度矩阵的对角线上的第i个元素,用来表示用户i与所有其他用户之间共有多少条发送、回复、转发或举报关系;
步骤5,所述训练的方式为使用梯度下降方法优化图卷积网络中的参数W,训练直到网络收敛到一个局部最优点,由于图卷积网络的参数W、单类支持向量机的参数ω和单类支持向量机的参数ρ不在同一个规模上,采用交替训练的方式训练三个参数W,ω和ρ:先固定参数ρ,使用梯度下降方法训练图卷积网络的参数W、单类支持向量机的参数ω共k步(k∈N);然后,在每k步之后,由当前训练过的图卷积网络输出的用户行为特征表示,使用线搜索的方式求解出最优参数ρ;反复迭代上述过程直到模型收敛,N为正整数。
2.如权利要求1所述的方法,其特征在于,在所述步骤2中,所述利用半监督训练的图卷积网络来提取用户行为特征的具体方式为,对原始输入的网络中的每个用户节点提取并融合其本身特征和其与其他用户之间的发送、回复、转发以及举报关系,通过一个L层的图卷积网络提取每个用户节点的行为属性,所述L为正整数,输入数据经过第l层图卷积网络之后的形式记做H(l),则每层图卷积网络的形式为:
Figure FDA0002637203210000021
Figure FDA0002637203210000022
其中W(l)为第l层图卷积网络中的可训练参数矩阵,
Figure FDA0002637203210000023
其中A为邻接矩阵标识用户之间的关系,所述D为度矩阵,Dij代表度矩阵D中的第i行第j列上的值,IN为N阶单位矩阵,N为网络中的用户个数,
Figure FDA0002637203210000031
为度矩阵,σ为线性整流函数。
3.如权利要求2所述的方法,其特征在于,在所述步骤3中,所述判断每个用户节点是否为垃圾邮件发送者的具体方式为,在接收用户行为属性特征后,单类支持向量机根据训练好的参数ω和ρ计算所得到一个紧凑的正常用户的分类边界,超出所述分类边界就认为是垃圾邮件发送者,在所述分类边界之内就认为是正常用户。
4.如权利要求3所述的方法,其特征在于,在所述步骤4中,对于训练数据X={X1,…,XN},垃圾邮件发送者发现模型的决策目标为:
Figure FDA0002637203210000032
其中ω为可训练的单类支持向量机的超平面,
Figure FDA0002637203210000033
用于限制超平面与原点之间的距离,ρ为可训练的超平面的偏置,
Figure FDA0002637203210000034
其中W(l)为训练的第l层图卷积网络的参数,第三项
Figure FDA0002637203210000035
是惩罚项,用于惩罚在分类边界之外的点;超参数v∈(0,1]用于权衡允许有多少比例的点落在分类边界之外;最后一项
Figure FDA0002637203210000036
是对图卷积网络参数W的权重衰减正则化项,用于限制参数W的大小,防止参数过拟合,所述λ为正则化超参数。
CN201910125820.6A 2019-02-20 2019-02-20 一种社交网络中垃圾邮件发送者的发现方法 Active CN109889436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910125820.6A CN109889436B (zh) 2019-02-20 2019-02-20 一种社交网络中垃圾邮件发送者的发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910125820.6A CN109889436B (zh) 2019-02-20 2019-02-20 一种社交网络中垃圾邮件发送者的发现方法

Publications (2)

Publication Number Publication Date
CN109889436A CN109889436A (zh) 2019-06-14
CN109889436B true CN109889436B (zh) 2020-10-13

Family

ID=66928546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910125820.6A Active CN109889436B (zh) 2019-02-20 2019-02-20 一种社交网络中垃圾邮件发送者的发现方法

Country Status (1)

Country Link
CN (1) CN109889436B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329013A (zh) * 2019-08-05 2021-02-05 四川大学 一种基于图卷积网络和主题模型的恶意代码分类的方法
CN110807468B (zh) * 2019-09-19 2023-06-20 平安科技(深圳)有限公司 检测异常邮件的方法、装置、设备和存储介质
CN110674869B (zh) * 2019-09-23 2023-04-18 腾讯科技(深圳)有限公司 分类处理、图卷积神经网络模型的训练方法和装置
CN112685272B (zh) * 2020-12-29 2022-10-14 中国科学院信息工程研究所 一种具备可解释性的用户行为异常检测方法
CN113537395B (zh) * 2021-08-09 2022-07-08 同济大学 一种基于眼底图像的糖尿病性视网膜病变图像识别方法
CN117354274A (zh) * 2023-12-04 2024-01-05 南昌大学 一种基于神经网络的垃圾邮件发送者检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
US7366705B2 (en) * 2004-04-15 2008-04-29 Microsoft Corporation Clustering based text classification
CN104063515A (zh) * 2014-07-14 2014-09-24 福州大学 一种基于机器学习的社交网络垃圾消息过滤方法
CN106294590A (zh) * 2016-07-29 2017-01-04 重庆邮电大学 一种基于半监督学习的社交网络垃圾用户过滤方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US7366705B2 (en) * 2004-04-15 2008-04-29 Microsoft Corporation Clustering based text classification
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN104063515A (zh) * 2014-07-14 2014-09-24 福州大学 一种基于机器学习的社交网络垃圾消息过滤方法
CN106294590A (zh) * 2016-07-29 2017-01-04 重庆邮电大学 一种基于半监督学习的社交网络垃圾用户过滤方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Combining Supervised and Semi-supervised Classifier for Personalized Spam Filtering;Victor Cheng;Chun-hung Li;《Advances in Knowledge Discovery and Data Mining》;20070525;全文 *
基于深度学习的图像型垃圾邮件分类;尚尔昕;《中国优秀硕士学位论文全文数据库(电子期刊)》;20180315;全文 *
基于深度学习的垃圾邮件文本分类方法;李雨亭;《中国优秀硕士学位论文全文数据库(电子期刊)》;20180815;全文 *

Also Published As

Publication number Publication date
CN109889436A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN109889436B (zh) 一种社交网络中垃圾邮件发送者的发现方法
US8131655B1 (en) Spam filtering using feature relevance assignment in neural networks
CN105574538B (zh) 分类模型训练方法及装置
Renuka et al. Spam classification based on supervised learning using machine learning techniques
Peng et al. Enhancing the naive bayes spam filter through intelligent text modification detection
CN105306296B (zh) 一种基于lte信令的数据过滤处理方法
Merugu et al. Text message classification using supervised machine learning algorithms
CN110363228B (zh) 噪声标签纠正方法
CN111835622B (zh) 信息拦截方法、装置、计算机设备和存储介质
US8699796B1 (en) Identifying sensitive expressions in images for languages with large alphabets
Yeruva et al. E-mail spam detection using machine learning–knn
CN111291078B (zh) 一种域名匹配检测方法及装置
Manjusha et al. Spam mail classification using combined approach of bayesian and neural network
Salehi et al. Hybrid simple artificial immune system (SAIS) and particle swarm optimization (PSO) for spam detection
CN116633589A (zh) 社交网络中恶意账户检测方法、设备及存储介质
Mohammad Fuzzy clustering approach to filter spam E-mail [A]
Trivedi et al. A modified content-based evolutionary approach to identify unsolicited emails
CN113537272B (zh) 基于深度学习的半监督社交网络异常账号检测方法
Soyemi et al. Detection and Classification of Legitimate and Spam Emails using K-Nearesest
Gao et al. Semi supervised image spam hunter: A regularized discriminant em approach
Podorozhniak et al. Research Application of the Spam Filtering and Spammer Detection Algorithms on Social Media and Messengers
CN113157993A (zh) 一种基于时序图极化分析的网络水军行为预警模型
CN110570093A (zh) 一种业务拓展渠道自动管理的方法和装置
Jain et al. A hybrid approach for spam filtering using local concentration based K-means clustering
CN110753024A (zh) 集体环境下的个性化邮件再过滤方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant