CN103198396A - 基于社会网络行为特征的邮件分类方法 - Google Patents

基于社会网络行为特征的邮件分类方法 Download PDF

Info

Publication number
CN103198396A
CN103198396A CN201310105350XA CN201310105350A CN103198396A CN 103198396 A CN103198396 A CN 103198396A CN 201310105350X A CN201310105350X A CN 201310105350XA CN 201310105350 A CN201310105350 A CN 201310105350A CN 103198396 A CN103198396 A CN 103198396A
Authority
CN
China
Prior art keywords
address
mail
degree
sender
tuple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310105350XA
Other languages
English (en)
Inventor
施佺
邵叶秦
丁卫泽
施振佺
陈益均
陈巧
李晓丽
张静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN201310105350XA priority Critical patent/CN103198396A/zh
Publication of CN103198396A publication Critical patent/CN103198396A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于社会网络行为特征的邮件分类方法,首先是利用实体和关系抽取技术构建邮件收发社会关系网络和“发件人电子邮件地址-发送邮件时使用的设备的IP地址”关系网络,再根据不同类型的发件人的特点,计算反映各自行为特点的特征,最后,利用样本训练分类器,得到邮件分类的决策信息。本发明具有较好扩展性和伸缩性,并且该方法能够进一步应用于在线社交网络中信息的分类。

Description

基于社会网络行为特征的邮件分类方法
技术领域
本发明属于邮件分类技术领域,具体涉及基于社会网络行为特征的邮件分类方法。
背景技术
垃圾邮件的泛滥严重影响人们的工作和生活。邮件分类是通过一定的技术分辨垃圾邮件和正常邮件,辅助邮件过滤,尽可能减少垃圾邮件的危害,因此,一直吸引着国内外众多学者的研究兴趣。目前,通过研究邮件发信人的发送行为来推测是否为垃圾邮件的分类过滤技术由于具有不需要对信件的全部内容进行扫描,大大提高网关分类过滤垃圾邮件的速度,降低网络资源的负荷和网络流量,而且不会出现侵犯隐私权的法律风险等优点,因此受到研究人员的重视。尽管国内外众多学者已针对邮件分类做了大量的研究工作,但由于垃圾邮件传播方式多变,内容形式多样,数量急剧膨胀,邮件分类的准确率仍然是一个巨大的挑战。
发明内容
本发明的目的在于提供一种能具有较好扩展性和伸缩性的基于社会网络行为特征的邮件分类方法。
本发明的技术解决方案是:
为了进一步深入研究基于社会网络的邮件分类,我们给出如下形式化定义:
定义1:邮件收发社会网络。它是由发件人电子邮件地址集合、收件人电子邮件地址集合和邮件收发关系构成的有向加权图,用G’(V’,E’)表示,其中V代表所有收发邮件的电子邮件地址的集合,E代表收发关系。如果邮件地址A向邮件地址B发送了邮件,邮件社会网络中就会有一条从A指向B的边,A向B发送的所有邮件的数量代表边的权重。
定义2:发件人电子邮件地址-发送邮件时使用的设备的IP地址关系网络(简称发件人邮件地址-IP地址关系网络)。它是由发件人电子邮件地址(V1)和发送邮件时使用的设备的IP地址(V2)构成的二部网络,用G(V,E)表示,其中V=V1∪V2,
Figure BDA00002978175700022
且对于任意e(u,v)∈E,都有u∈V1且v∈V2
定义3:邮件回复比例。对于给定的发件人i,我们用R(i)来表示发件人i的邮件回复比例。R(i)=|{eji}|/|Vi|。其中,|{eji}|表示i作为收信人的边数,即i的入度,|Vi|表示i的出度。
定义4:IP地址出度。一个IP地址上不同的电子邮件地址发出的邮件总量(简称)。在发件人地址和IP地址关系网络中,对于给定的IP地址k,我们用O(k)表示其出度。其中,|Vik|表示在IP地址k上所有人发送出去的邮件数量的总和。
定义5:电子邮件所用的IP地址最大出度。由于一个电子邮件地址可能在多个IP地址不同的终端设备上发送邮件,根据定义4,每个IP地址都有出度,这里将不同IP地址出度的最大值定义为电子邮件所用的IP地址最大出度(简称IP地址最大出度)。
问题定义(基于社会网络行为特征的邮件分类):给定邮件收发记录,即一个邮件集合M,Ms和Mn分别代表其中的垃圾邮件和正常邮件,且满足MsUMn=M,Ms∩Mn=Φ,利用邮件社会关系网络中的行为特征,寻找一个判别函数f:M→{spam,non-spam},使其能准确的分类垃圾邮件和正常邮件。
输入:邮件收发日志文件,每个记录包含发件人邮件地址、收件人邮件地址、发送时间、发送邮件设备的IP地址等信息。
输出:一个邮件标签的集合,1表示对应的邮件是垃圾邮件,0表示对应的邮件是正常邮件。
基于社会网络行为特征的邮件分类流程如下:
(1)预处理邮件收发日志,抽取邮件收发关系网络,使用发件人电子邮件地址-收件人电子邮件地址的元组将邮件收发关系网络以文件的形式进行存储。
(2)预处理邮件收发日志,抽取发件人邮件地址-IP地址关系网络,使用发件人电子邮件地址-发送邮件时使用的设备的IP地址的元组将发件人邮件地址-IP地址关系网络以文件的形式进行存储。
(3)以步骤(1)、(2)产生的两个元组文件作为输入,并行计算每个电子邮件地址发送的电子邮件数量(出度),接受的电子邮件数量(入度),邮件的回复比例,电子邮件所用的IP地址最大出度,并分别以电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度元组形式储存为中间结果文件。
(4)以步骤(3)得到的中间结果元组作为特征,学习分类器最佳的分类面,作为决策信息,分类正常电子邮件用户和垃圾邮件制造者,并由此分类邮件(这里假设正常邮件用户发出的是正常邮件,垃圾邮件制造者发送的是垃圾邮件)。
其执行算法如下:
Model=Train(training_samples,training_labels,options)
Labels=Test(test_samples,Model)
本发明所述的方法中邮件收发关系网络的构建和处理步骤如下:
(1)通过分析邮件收发记录,发现电子邮件收件人和发件人的表达模式,设计针对收件人和发件人电子邮件地址的高效正则表达式:
\w+([-+.]\w+)*\w+([-.]\w+)*\.\w+([-.]\w+)*
(2)利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、收件人电子邮件地址和收发关系。
(3)将数据存入到发件人电子邮件地址-收件人电子邮件地址元组列表文件中,作为中间文件进行存储。在文件中,将同一个发件人向同一收件人发送的所有邮件(不包括重复的项目)存放在一行。
本发明所述的方法中发件人邮件地址-IP地址关系网络的构建和处理步骤如下:
(1)通过分析邮件收发记录,发现电子邮件发件人和发送邮件时所使用的终端设备的IP地址的表达模式,设计针对收件人电子邮件地址和相应IP地址的高效正则表达式:
\d+\.\d+\.\d+\.\d+
(2)利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、发送邮件时所使用的终端设备的IP地址。
(3)将数据记录到发件人电子邮件地址-IP地址-发件人在对应IP地址上发送的邮件数量元组列表文件中,作为中间文件进行存储。在文件中,同一个发件人在一个IP地址上发送的邮件汇总后存放在一行。
本发明所述的基于社会网络的行为特征计算的具体步骤如下:
(1)在计算各个电子邮件地址的出度时,以发件人电子邮箱地址作为键,建立出度哈希表,然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组,每次向元组中发件人电子邮件地址对应的哈希项中的值加1(初始值是0),在所有的元组都处理完后,出度哈希表中每一个哈希项的值就是对应电子邮件地址的出度,将其保存在中间文件中。
(2)在计算各个电子邮件地址的入度时,以收件人电子邮箱地址作为键,建立入度哈希表,然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组,每次读取元组中收件人电子邮件地址,并向对应的哈希项中的值加1(初始值是0),在所有的元组都处理过后,入度哈希表中每一个哈希项的值就是相应电子邮件地址的入度,将其保存在中间文件中。
(3)在计算各个电子邮件地址的邮件回复比例时,每个发件人的入度和出度的比值作为回复比例,将其保存在中间文件中。
(4)在计算各个电子邮件所用的IP地址最大出度时,以IP地址作为键,建立IP地址出度哈希表,然后逐行读取记录在发件人地址-IP地址关系网络中的(发件人电子邮件地址-IP地址-发件人在对应IP地址上发送的邮件数量)元组,将元组中发送的邮件数量累加到IP地址对应的哈希项的值上,得到每个IP地址的出度;然后以发件人电子邮件地址为键,建立IP地址最大出度哈希表,再次读取发件人地址-IP地址关系网络中的元组,根据每个元组中的IP地址,在IP地址出度哈希表中得到相应的出度,并与IP地址最大出度哈希表中对应的当前最大出度比较,取较大的出度存回IP地址最大出度哈希表。在所有的元组都处理过后,IP地址最大出度哈希表中每一个哈希项的值就是相应电子邮件地址的所使用的IP地址的最大出度,将其保存在中间文件中。
(5)联合上述(1)、(2)、(3)和(4)中得到的行为特征,以发件人电子邮件地址为键,按照(电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度)元组形式储存为中间结果文件。
本发明所述的基于支持向量机分类器的邮件分类具体步骤如下:
(1)读取记录电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度元组的中间结果文件,每个元组作为一行组成一个矩阵,矩阵的每一行作为SVM的一个样本,矩阵的每一列对应一个特征(出度、入度等)。
(2)将得到的样本一部分作为训练样本、一部分作为测试样本,训练和测试分类器,获得最优分类面。
(3)以最优分类面作为决策信息分类电子邮件,得到每一个邮件对应的类别标签。
本发明提出一种基于社会网络行为特征的邮件分类方法,具有较好扩展性和伸缩性,并且该方法能够进一步应用于在线社交网络中信息的分类。本发明提出的基于社会网络行为特征的邮件分类方法,方案分为三个部分,首先是利用实体和关系抽取技术构建邮件收发社会关系网络和“发件人电子邮件地址-发送邮件时使用的设备的IP地址”关系网络(简称发件人邮件地址-IP地址关系网络),再根据不同类型的发件人(正常邮件用户、垃圾邮件制造者等)的特点,计算反映各自行为特点的特征,最后,利用样本训练分类器,得到邮件分类的决策信息。
下面结合实施例对本发明作进一步说明。
具体实施方式
一种基于社会网络行为特征的邮件分类流程如下:
(1)预处理邮件收发日志,抽取邮件收发关系网络,使用发件人电子邮件地址-收件人电子邮件地址的元组将邮件收发关系网络以文件的形式进行存储。
(2)预处理邮件收发日志,抽取发件人邮件地址-IP地址关系网络,使用发件人电子邮件地址-发送邮件时使用的设备的IP地址的元组将发件人邮件地址-IP地址关系网络以文件的形式进行存储。
(3)以步骤(1)、(2)产生的两个元组文件作为输入,并行计算每个电子邮件地址发送的电子邮件数量(出度),接受的电子邮件数量(入度),邮件的回复比例,电子邮件所用的IP地址最大出度,并分别以电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度元组形式储存为中间结果文件。
(4)以步骤(3)得到的中间结果元组作为特征,学习分类器最佳的分类面,作为决策信息,分类正常电子邮件用户和垃圾邮件制造者,并由此分类邮件(这里假设正常邮件用户发出的是正常邮件,垃圾邮件制造者发送的是垃圾邮件)。
其执行算法如下:
Model=Train(training_samples,training_labels,options)
Labels=Test(test_samples,Model)
本发明所述的方法中邮件收发关系网络的构建和处理步骤如下:
(1)通过分析邮件收发记录,发现电子邮件收件人和发件人的表达模式,设计针对收件人和发件人电子邮件地址的高效正则表达式:
\w+([-+.]\w+)*\w+([-.]\w+)*\.\w+([-.]\w+)*
(2)利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、收件人电子邮件地址和收发关系。
(3)将数据存入到发件人电子邮件地址-收件人电子邮件地址元组列表文件中,作为中间文件进行存储。在文件中,将同一个发件人向同一收件人发送的所有邮件(不包括重复的项目)存放在一行。
本发明所述的方法中发件人邮件地址-IP地址关系网络的构建和处理步骤如下:
(1)通过分析邮件收发记录,发现电子邮件发件人和发送邮件时所使用的终端设备的IP地址的表达模式,设计针对收件人电子邮件地址和相应IP地址的高效正则表达式:
\d+\.\d+\.\d+\.\d+
(2)利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、发送邮件时所使用的终端设备的IP地址。
(3)将数据记录到发件人电子邮件地址-IP地址-发件人在对应IP地址上发送的邮件数量元组列表文件中,作为中间文件进行存储。在文件中,同一个发件人在一个IP地址上发送的邮件汇总后存放在一行。
本发明所述的基于社会网络的行为特征计算的具体步骤如下:
(1)在计算各个电子邮件地址的出度时,以发件人电子邮箱地址作为键,建立出度哈希表,然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组,每次向元组中发件人电子邮件地址对应的哈希项中的值加1(初始值是0),在所有的元组都处理完后,出度哈希表中每一个哈希项的值就是对应电子邮件地址的出度,将其保存在中间文件中。
表1出度计算过程表
Figure BDA00002978175700091
邮件收发关系列表  电子邮件出度哈希表
(2)在计算各个电子邮件地址的入度时,以收件人电子邮箱地址作为键,建立入度哈希表,然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组,每次读取元组中收件人电子邮件地址,并向对应的哈希项中的值加1(初始值是0),在所有的元组都处理过后,入度哈希表中每一个哈希项的值就是相应电子邮件地址的入度,将其保存在中间文件中。
表2入度计算过程表
Figure BDA00002978175700101
邮件收发关系列表  电子邮件入度哈希表
(3)在计算各个电子邮件地址的邮件回复比例时,每个发件人的入度和出度的比值作为回复比例,将其保存在中间文件中。
(4)在计算各个电子邮件所用的IP地址最大出度时,以IP地址作为键,建立IP地址出度哈希表,然后逐行读取记录在发件人地址-IP地址关系网络中的(发件人电子邮件地址-IP地址-发件人在对应IP地址上发送的邮件数量)元组,将元组中发送的邮件数量累加到IP地址对应的哈希项的值上,得到每个IP地址的出度;然后以发件人电子邮件地址为键,建立IP地址最大出度哈希表,再次读取发件人地址-IP地址关系网络中的元组,根据每个元组中的IP地址,在IP地址出度哈希表中得到相应的出度,并与IP地址最大出度哈希表中对应的当前最大出度比较,取较大的出度存回IP地址最大出度哈希表。在所有的元组都处理过后,IP地址最大出度哈希表中每一个哈希项的值就是相应电子邮件地址的所使用的IP地址的最大出度,将其保存在中间文件中。
表3IP地址最大出度计算过程
Figure BDA00002978175700111
发件人地址-IP地址关系列表  IP地址出度哈希表  电子邮件地址所在IP地址最大出度表
(5)联合上述(1)、(2)、(3)和(4)中得到的行为特征,以发件人电子邮件地址为键,按照(电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度)元组形式储存为中间结果文件。
本发明所述的基于支持向量机分类器的邮件分类具体步骤如下:
(1)读取记录电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度元组的中间结果文件,每个元组作为一行组成一个矩阵,矩阵的每一行作为SVM的一个样本,矩阵的每一列对应一个特征(出度、入度等)。
(2)将得到的样本一部分作为训练样本、一部分作为测试样本,训练和测试分类器,获得最优分类面。
(3)以最优分类面作为决策信息分类电子邮件,得到每一个邮件对应的类别标签。

Claims (5)

1.一种基于社会网络行为特征的邮件分类方法,其特征是:包括下列步骤:
(1)预处理邮件收发日志,抽取邮件收发关系网络,使用发件人电子邮件地址-收件人电子邮件地址的元组将邮件收发关系网络以文件的形式进行存储;
      (2)预处理邮件收发日志,抽取发件人邮件地址-IP地址关系网络,使用发件人电子邮件地址-发送邮件时使用的设备的IP地址的元组将发件人邮件地址-IP地址关系网络以文件的形式进行存储;
(3)以步骤(1)、(2)产生的两个元组文件作为输入,并行计算每个电子邮件地址发送的电子邮件数量,接受的电子邮件数量,邮件的回复比例,电子邮件所用的IP地址最大出度,并分别以电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度元组形式储存为中间结果文件;
(4)以步骤(3)得到的中间结果元组作为特征,学习分类器最佳的分类面,作为决策信息,分类正常电子邮件用户和垃圾邮件制造者,并由此分类邮件。
2.根据权利要求1所述的基于社会网络行为特征的邮件分类方法,其特征是:所述邮件收发关系网络,其构建和处理步骤如下:
(1)通过分析邮件收发记录,发现电子邮件收件人和发件人的表达模式,设计针对收件人和发件人电子邮件地址的高效正则表达式;
 (2)利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、收件人电子邮件地址和收发关系;
(3)将数据存入到发件人电子邮件地址-收件人电子邮件地址元组列表文件中,作为中间文件进行存储。在文件中,将同一个发件人向同一收件人发送的所有邮件存放在一行。
3.根据权利要求1或2所述的基于社会网络行为特征的邮件分类方法,其特征是:所述的发件人邮件地址-IP地址关系网络,其构建和处理步骤如下:
(1)通过分析邮件收发记录,发现电子邮件发件人和发送邮件时所使用的终端设备的IP地址的表达模式,设计针对收件人电子邮件地址和相应IP地址的高效正则表达式;
(2)利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、发送邮件时所使用的终端设备的IP地址;
(3)将数据记录到发件人电子邮件地址-IP地址-发件人在对应IP地址上发送的邮件数量元组列表文件中,作为中间文件进行存储。在文件中,同一个发件人在一个IP地址上发送的邮件汇总后存放在一行。
4.根据权利要求1或2所述的基于社会网络行为特征的邮件分类方法,其特征是:所述的基于社会网络的行为特征计算的具体步骤如下:
(1)在计算各个电子邮件地址的出度时,以发件人电子邮箱地址作为键,建立出度哈希表,然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组,每次向元组中发件人电子邮件地址对应的哈希项中的值加1,且初始值是0,在所有的元组都处理完后,出度哈希表中每一个哈希项的值就是对应电子邮件地址的出度,将其保存在中间文件中;
(2)在计算各个电子邮件地址的入度时,以收件人电子邮箱地址作为键,建立入度哈希表,然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组,每次读取元组中收件人电子邮件地址,并向对应的哈希项中的值加1,且初始值是0,在所有的元组都处理过后,入度哈希表中每一个哈希项的值就是相应电子邮件地址的入度,将其保存在中间文件中;
(3)在计算各个电子邮件地址的邮件回复比例时,每个发件人的入度和出度的比值作为回复比例,将其保存在中间文件中;
(4)在计算各个电子邮件所用的IP地址最大出度时,以IP地址作为键,建立IP地址出度哈希表,然后逐行读取记录在发件人地址-IP地址关系网络中的发件人电子邮件地址-IP地址-发件人在对应IP地址上发送的邮件数量元组,将元组中发送的邮件数量累加到IP地址对应的哈希项的值上,得到每个IP地址的出度;然后以发件人电子邮件地址为键,建立IP地址最大出度哈希表,再次读取发件人地址-IP地址关系网络中的元组,根据每个元组中的IP地址,在IP地址出度哈希表中得到相应的出度,并与IP地址最大出度哈希表中对应的当前最大出度比较,取较大的出度存回IP地址最大出度哈希表。在所有的元组都处理过后,IP地址最大出度哈希表中每一个哈希项的值就是相应电子邮件地址的所使用的IP地址的最大出度,将其保存在中间文件中;
(5)联合上述步骤(1)、(2)、(3)、(4)中得到的行为特征,以发件人电子邮件地址为键,按照电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度元组形式储存为中间结果文件。
5.根据权利要求1或2所述的基于社会网络行为特征的邮件分类方法,其特征是:所述的分类邮件的具体步骤如下:
(1)读取记录电子邮件地址-出度-入度-邮件回复比例- IP地址最大出度元组的中间结果文件,每个元组作为一行组成一个矩阵,矩阵的每一行作为SVM的一个样本,矩阵的每一列对应一个特征;
(2)将得到的样本一部分作为训练样本、一部分作为测试样本,训练和测试分类器,获得最优分类面;
(3)以最优分类面作为决策信息分类电子邮件,得到每一个邮件对应的类别标签。
CN201310105350XA 2013-03-28 2013-03-28 基于社会网络行为特征的邮件分类方法 Pending CN103198396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310105350XA CN103198396A (zh) 2013-03-28 2013-03-28 基于社会网络行为特征的邮件分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310105350XA CN103198396A (zh) 2013-03-28 2013-03-28 基于社会网络行为特征的邮件分类方法

Publications (1)

Publication Number Publication Date
CN103198396A true CN103198396A (zh) 2013-07-10

Family

ID=48720919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310105350XA Pending CN103198396A (zh) 2013-03-28 2013-03-28 基于社会网络行为特征的邮件分类方法

Country Status (1)

Country Link
CN (1) CN103198396A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577756A (zh) * 2013-11-05 2014-02-12 北京奇虎科技有限公司 基于脚本类型判断的病毒检测方法及装置
CN104063515A (zh) * 2014-07-14 2014-09-24 福州大学 一种基于机器学习的社交网络垃圾消息过滤方法
CN106529562A (zh) * 2016-09-09 2017-03-22 浙江工业大学 一种基于Email网络的开源软件项目开发者预测方法
CN107977399A (zh) * 2017-10-09 2018-05-01 北京知道未来信息技术有限公司 一种基于机器学习的英文邮件签名提取方法及系统
CN107992508A (zh) * 2017-10-09 2018-05-04 北京知道未来信息技术有限公司 一种基于机器学习的中文邮件签名提取方法及系统
CN110096650A (zh) * 2019-04-23 2019-08-06 北京科技大学 网络连接强度的分析方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573784A (zh) * 2003-06-04 2005-02-02 微软公司 用于阻止垃圾邮件的源/目的地的特征和列表
CN101674264A (zh) * 2009-10-20 2010-03-17 哈尔滨工程大学 基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法
CN102413076A (zh) * 2011-12-22 2012-04-11 网易(杭州)网络有限公司 基于行为分析的垃圾邮件判定系统
CN102857404A (zh) * 2011-06-30 2013-01-02 厦门三五互联科技股份有限公司 一种基于电子邮件指纹特征的垃圾邮件检测装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1573784A (zh) * 2003-06-04 2005-02-02 微软公司 用于阻止垃圾邮件的源/目的地的特征和列表
CN101674264A (zh) * 2009-10-20 2010-03-17 哈尔滨工程大学 基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法
CN102857404A (zh) * 2011-06-30 2013-01-02 厦门三五互联科技股份有限公司 一种基于电子邮件指纹特征的垃圾邮件检测装置及方法
CN102413076A (zh) * 2011-12-22 2012-04-11 网易(杭州)网络有限公司 基于行为分析的垃圾邮件判定系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐芳,范文凌: "基于链接信息网络的垃圾邮件检测", 《电脑知识与技术》 *
王爱祥,党齐民,侯秀洁: "多Agent智能垃圾邮件过滤系统的研究", 《科技创业月刊》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577756A (zh) * 2013-11-05 2014-02-12 北京奇虎科技有限公司 基于脚本类型判断的病毒检测方法及装置
CN104063515A (zh) * 2014-07-14 2014-09-24 福州大学 一种基于机器学习的社交网络垃圾消息过滤方法
CN106529562A (zh) * 2016-09-09 2017-03-22 浙江工业大学 一种基于Email网络的开源软件项目开发者预测方法
CN107977399A (zh) * 2017-10-09 2018-05-01 北京知道未来信息技术有限公司 一种基于机器学习的英文邮件签名提取方法及系统
CN107992508A (zh) * 2017-10-09 2018-05-04 北京知道未来信息技术有限公司 一种基于机器学习的中文邮件签名提取方法及系统
CN107977399B (zh) * 2017-10-09 2021-11-30 北京知道未来信息技术有限公司 一种基于机器学习的英文邮件签名提取方法及系统
CN107992508B (zh) * 2017-10-09 2021-11-30 北京知道未来信息技术有限公司 一种基于机器学习的中文邮件签名提取方法及系统
CN110096650A (zh) * 2019-04-23 2019-08-06 北京科技大学 网络连接强度的分析方法和装置

Similar Documents

Publication Publication Date Title
CN103198396A (zh) 基于社会网络行为特征的邮件分类方法
US7475118B2 (en) Method for recognizing spam email
US8959159B2 (en) Personalized email interactions applied to global filtering
US8600965B2 (en) System and method for observing communication behavior
Alurkar et al. A proposed data science approach for email spam classification using machine learning techniques
Christina et al. A study on email spam filtering techniques
CN102710548A (zh) 跟踪电子邮件各收件人对邮件进行的操作的方法与系统
Gomes et al. Workload models of spam and legitimate e-mails
TW200949570A (en) Method for filtering e-mail and mail filtering system thereof
CN105007218B (zh) 反垃圾电子邮件方法和系统
CN104680357A (zh) 电子邮件管理方法及装置
Bhat et al. Classification of email using BeaKS: Behavior and keyword stemming
US20060069732A1 (en) Systems and Methods to Rank Electronic Messages and Detect Spammer Probe Accounts
Sharma et al. E-Mail Spam Detection Using SVM and RBF.
Cohen et al. Early detection of spamming accounts in large-Scale service provider networks
CN103873348A (zh) 电子邮件过滤方法和系统
CN103595614A (zh) 一种基于用户反馈的垃圾邮件检测方法
KR100581084B1 (ko) 의사결정나무를 이용한 이메일 분류 장치 및 그 방법
CN102299868A (zh) 进行电子邮件收发的方法、客户端及系统
Naksomboon et al. Considering behavior of sender in spam mail detection
Roy et al. An efficient spam filtering techniques for email account
Agarwal et al. Using trust model for detecting malicious activities in Twitter
Johansen et al. Email Communities of Interest.
Gomes et al. Improving Spam Detection Based on Structural Similarity.
Agarwal et al. Detecting malicious activities using backward propagation of trustworthiness over heterogeneous social graph

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130710