CN103198396A

CN103198396A - 基于社会网络行为特征的邮件分类方法

Info

Publication number: CN103198396A
Application number: CN201310105350XA
Authority: CN
Inventors: 施佺; 邵叶秦; 丁卫泽; 施振佺; 陈益均; 陈巧; 李晓丽; 张静
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2013-03-28
Filing date: 2013-03-28
Publication date: 2013-07-10

Abstract

本发明公开了一种基于社会网络行为特征的邮件分类方法，首先是利用实体和关系抽取技术构建邮件收发社会关系网络和“发件人电子邮件地址-发送邮件时使用的设备的IP地址”关系网络，再根据不同类型的发件人的特点，计算反映各自行为特点的特征，最后，利用样本训练分类器，得到邮件分类的决策信息。本发明具有较好扩展性和伸缩性，并且该方法能够进一步应用于在线社交网络中信息的分类。

Description

基于社会网络行为特征的邮件分类方法

技术领域

本发明属于邮件分类技术领域，具体涉及基于社会网络行为特征的邮件分类方法。

背景技术

垃圾邮件的泛滥严重影响人们的工作和生活。邮件分类是通过一定的技术分辨垃圾邮件和正常邮件，辅助邮件过滤，尽可能减少垃圾邮件的危害，因此，一直吸引着国内外众多学者的研究兴趣。目前，通过研究邮件发信人的发送行为来推测是否为垃圾邮件的分类过滤技术由于具有不需要对信件的全部内容进行扫描，大大提高网关分类过滤垃圾邮件的速度，降低网络资源的负荷和网络流量，而且不会出现侵犯隐私权的法律风险等优点，因此受到研究人员的重视。尽管国内外众多学者已针对邮件分类做了大量的研究工作，但由于垃圾邮件传播方式多变，内容形式多样，数量急剧膨胀，邮件分类的准确率仍然是一个巨大的挑战。

发明内容

本发明的目的在于提供一种能具有较好扩展性和伸缩性的基于社会网络行为特征的邮件分类方法。

本发明的技术解决方案是：

为了进一步深入研究基于社会网络的邮件分类，我们给出如下形式化定义:

定义1：邮件收发社会网络。它是由发件人电子邮件地址集合、收件人电子邮件地址集合和邮件收发关系构成的有向加权图，用G’(V’,E’)表示，其中V代表所有收发邮件的电子邮件地址的集合，E代表收发关系。如果邮件地址A向邮件地址B发送了邮件，邮件社会网络中就会有一条从A指向B的边，A向B发送的所有邮件的数量代表边的权重。

定义2：发件人电子邮件地址-发送邮件时使用的设备的IP地址关系网络(简称发件人邮件地址-IP地址关系网络)。它是由发件人电子邮件地址(V₁)和发送邮件时使用的设备的IP地址(V₂)构成的二部网络，用G(V,E)表示,其中V=V₁∪V₂,

且对于任意e(u,v)∈E,都有u∈V₁且v∈V₂。

定义3：邮件回复比例。对于给定的发件人i，我们用R(i)来表示发件人i的邮件回复比例。R(i)=|{e_ji}|/|Vi|。其中，|{e_ji}|表示i作为收信人的边数，即i的入度，|Vi|表示i的出度。

定义4：IP地址出度。一个IP地址上不同的电子邮件地址发出的邮件总量（简称）。在发件人地址和IP地址关系网络中，对于给定的IP地址k，我们用O(k)表示其出度。其中，|V_ik|表示在IP地址k上所有人发送出去的邮件数量的总和。

定义5：电子邮件所用的IP地址最大出度。由于一个电子邮件地址可能在多个IP地址不同的终端设备上发送邮件，根据定义4，每个IP地址都有出度，这里将不同IP地址出度的最大值定义为电子邮件所用的IP地址最大出度（简称IP地址最大出度）。

问题定义(基于社会网络行为特征的邮件分类)：给定邮件收发记录，即一个邮件集合M，Ms和Mn分别代表其中的垃圾邮件和正常邮件，且满足M_sUM_n=M，M_s∩M_n=Φ，利用邮件社会关系网络中的行为特征，寻找一个判别函数f:M→{spam,non-spam}，使其能准确的分类垃圾邮件和正常邮件。

输入：邮件收发日志文件，每个记录包含发件人邮件地址、收件人邮件地址、发送时间、发送邮件设备的IP地址等信息。

输出：一个邮件标签的集合，1表示对应的邮件是垃圾邮件，0表示对应的邮件是正常邮件。

基于社会网络行为特征的邮件分类流程如下：

（1）预处理邮件收发日志，抽取邮件收发关系网络，使用发件人电子邮件地址-收件人电子邮件地址的元组将邮件收发关系网络以文件的形式进行存储。

（2）预处理邮件收发日志，抽取发件人邮件地址-IP地址关系网络，使用发件人电子邮件地址-发送邮件时使用的设备的IP地址的元组将发件人邮件地址-IP地址关系网络以文件的形式进行存储。

（3）以步骤（1）、（2）产生的两个元组文件作为输入，并行计算每个电子邮件地址发送的电子邮件数量（出度），接受的电子邮件数量（入度），邮件的回复比例，电子邮件所用的IP地址最大出度，并分别以电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度元组形式储存为中间结果文件。

（4）以步骤（3）得到的中间结果元组作为特征，学习分类器最佳的分类面，作为决策信息，分类正常电子邮件用户和垃圾邮件制造者，并由此分类邮件（这里假设正常邮件用户发出的是正常邮件，垃圾邮件制造者发送的是垃圾邮件）。

其执行算法如下：

Model=Train(training_samples,training_labels,options)

Labels=Test(test_samples,Model)

本发明所述的方法中邮件收发关系网络的构建和处理步骤如下：

（1）通过分析邮件收发记录，发现电子邮件收件人和发件人的表达模式，设计针对收件人和发件人电子邮件地址的高效正则表达式：

\w+([-+.]\w+)*\w+([-.]\w+)*\.\w+([-.]\w+)*

（2）利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、收件人电子邮件地址和收发关系。

（3）将数据存入到发件人电子邮件地址-收件人电子邮件地址元组列表文件中，作为中间文件进行存储。在文件中，将同一个发件人向同一收件人发送的所有邮件（不包括重复的项目）存放在一行。

本发明所述的方法中发件人邮件地址-IP地址关系网络的构建和处理步骤如下：

（1）通过分析邮件收发记录，发现电子邮件发件人和发送邮件时所使用的终端设备的IP地址的表达模式，设计针对收件人电子邮件地址和相应IP地址的高效正则表达式：

\d+\.\d+\.\d+\.\d+

（2）利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、发送邮件时所使用的终端设备的IP地址。

（3）将数据记录到发件人电子邮件地址-IP地址-发件人在对应IP地址上发送的邮件数量元组列表文件中，作为中间文件进行存储。在文件中，同一个发件人在一个IP地址上发送的邮件汇总后存放在一行。

本发明所述的基于社会网络的行为特征计算的具体步骤如下：

（1）在计算各个电子邮件地址的出度时，以发件人电子邮箱地址作为键，建立出度哈希表，然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组，每次向元组中发件人电子邮件地址对应的哈希项中的值加1（初始值是0），在所有的元组都处理完后，出度哈希表中每一个哈希项的值就是对应电子邮件地址的出度，将其保存在中间文件中。

（2）在计算各个电子邮件地址的入度时，以收件人电子邮箱地址作为键，建立入度哈希表，然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组，每次读取元组中收件人电子邮件地址，并向对应的哈希项中的值加1（初始值是0），在所有的元组都处理过后，入度哈希表中每一个哈希项的值就是相应电子邮件地址的入度，将其保存在中间文件中。

（3）在计算各个电子邮件地址的邮件回复比例时，每个发件人的入度和出度的比值作为回复比例，将其保存在中间文件中。

（4）在计算各个电子邮件所用的IP地址最大出度时，以IP地址作为键，建立IP地址出度哈希表，然后逐行读取记录在发件人地址-IP地址关系网络中的（发件人电子邮件地址-IP地址-发件人在对应IP地址上发送的邮件数量）元组，将元组中发送的邮件数量累加到IP地址对应的哈希项的值上，得到每个IP地址的出度；然后以发件人电子邮件地址为键，建立IP地址最大出度哈希表，再次读取发件人地址-IP地址关系网络中的元组，根据每个元组中的IP地址，在IP地址出度哈希表中得到相应的出度，并与IP地址最大出度哈希表中对应的当前最大出度比较，取较大的出度存回IP地址最大出度哈希表。在所有的元组都处理过后，IP地址最大出度哈希表中每一个哈希项的值就是相应电子邮件地址的所使用的IP地址的最大出度，将其保存在中间文件中。

（5）联合上述（1）、（2）、（3）和（4）中得到的行为特征，以发件人电子邮件地址为键，按照（电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度）元组形式储存为中间结果文件。

本发明所述的基于支持向量机分类器的邮件分类具体步骤如下：

（1）读取记录电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度元组的中间结果文件，每个元组作为一行组成一个矩阵，矩阵的每一行作为SVM的一个样本，矩阵的每一列对应一个特征（出度、入度等）。

（2）将得到的样本一部分作为训练样本、一部分作为测试样本，训练和测试分类器，获得最优分类面。

（3）以最优分类面作为决策信息分类电子邮件，得到每一个邮件对应的类别标签。

本发明提出一种基于社会网络行为特征的邮件分类方法，具有较好扩展性和伸缩性，并且该方法能够进一步应用于在线社交网络中信息的分类。本发明提出的基于社会网络行为特征的邮件分类方法，方案分为三个部分，首先是利用实体和关系抽取技术构建邮件收发社会关系网络和“发件人电子邮件地址-发送邮件时使用的设备的IP地址”关系网络(简称发件人邮件地址-IP地址关系网络)，再根据不同类型的发件人(正常邮件用户、垃圾邮件制造者等)的特点，计算反映各自行为特点的特征，最后，利用样本训练分类器，得到邮件分类的决策信息。

下面结合实施例对本发明作进一步说明。

具体实施方式

一种基于社会网络行为特征的邮件分类流程如下：

其执行算法如下：

Model=Train(training_samples,training_labels,options)

Labels=Test(test_samples,Model)

\w+([-+.]\w+)*\w+([-.]\w+)*\.\w+([-.]\w+)*

\d+\.\d+\.\d+\.\d+

表1出度计算过程表

邮件收发关系列表电子邮件出度哈希表

表2入度计算过程表

邮件收发关系列表电子邮件入度哈希表

表3IP地址最大出度计算过程

发件人地址-IP地址关系列表 IP地址出度哈希表电子邮件地址所在IP地址最大出度表

Claims

1.一种基于社会网络行为特征的邮件分类方法，其特征是：包括下列步骤：

（1）预处理邮件收发日志，抽取邮件收发关系网络，使用发件人电子邮件地址-收件人电子邮件地址的元组将邮件收发关系网络以文件的形式进行存储；

（2）预处理邮件收发日志，抽取发件人邮件地址-IP地址关系网络，使用发件人电子邮件地址-发送邮件时使用的设备的IP地址的元组将发件人邮件地址-IP地址关系网络以文件的形式进行存储；

（3）以步骤（1）、（2）产生的两个元组文件作为输入，并行计算每个电子邮件地址发送的电子邮件数量，接受的电子邮件数量，邮件的回复比例，电子邮件所用的IP地址最大出度，并分别以电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度元组形式储存为中间结果文件；

（4）以步骤（3）得到的中间结果元组作为特征，学习分类器最佳的分类面，作为决策信息，分类正常电子邮件用户和垃圾邮件制造者，并由此分类邮件。

2.根据权利要求1所述的基于社会网络行为特征的邮件分类方法，其特征是：所述邮件收发关系网络，其构建和处理步骤如下：

（1）通过分析邮件收发记录，发现电子邮件收件人和发件人的表达模式，设计针对收件人和发件人电子邮件地址的高效正则表达式；

（2）利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、收件人电子邮件地址和收发关系；

（3）将数据存入到发件人电子邮件地址-收件人电子邮件地址元组列表文件中，作为中间文件进行存储。在文件中，将同一个发件人向同一收件人发送的所有邮件存放在一行。

3.根据权利要求1或2所述的基于社会网络行为特征的邮件分类方法，其特征是：所述的发件人邮件地址-IP地址关系网络，其构建和处理步骤如下：

（1）通过分析邮件收发记录，发现电子邮件发件人和发送邮件时所使用的终端设备的IP地址的表达模式，设计针对收件人电子邮件地址和相应IP地址的高效正则表达式；

（2）利用所设计的正则表达式匹配并识别邮件收发记录中的发件人电子邮件地址、发送邮件时所使用的终端设备的IP地址；

4.根据权利要求1或2所述的基于社会网络行为特征的邮件分类方法，其特征是：所述的基于社会网络的行为特征计算的具体步骤如下：

（1）在计算各个电子邮件地址的出度时，以发件人电子邮箱地址作为键，建立出度哈希表，然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组，每次向元组中发件人电子邮件地址对应的哈希项中的值加1，且初始值是0，在所有的元组都处理完后，出度哈希表中每一个哈希项的值就是对应电子邮件地址的出度，将其保存在中间文件中；

（2）在计算各个电子邮件地址的入度时，以收件人电子邮箱地址作为键，建立入度哈希表，然后逐行扫描记录在邮件社会网络中的发件人电子邮件地址-收件人电子邮件地址元组，每次读取元组中收件人电子邮件地址，并向对应的哈希项中的值加1，且初始值是0，在所有的元组都处理过后，入度哈希表中每一个哈希项的值就是相应电子邮件地址的入度，将其保存在中间文件中；

（3）在计算各个电子邮件地址的邮件回复比例时，每个发件人的入度和出度的比值作为回复比例，将其保存在中间文件中；

（4）在计算各个电子邮件所用的IP地址最大出度时，以IP地址作为键，建立IP地址出度哈希表，然后逐行读取记录在发件人地址-IP地址关系网络中的发件人电子邮件地址-IP地址-发件人在对应IP地址上发送的邮件数量元组，将元组中发送的邮件数量累加到IP地址对应的哈希项的值上，得到每个IP地址的出度；然后以发件人电子邮件地址为键，建立IP地址最大出度哈希表，再次读取发件人地址-IP地址关系网络中的元组，根据每个元组中的IP地址，在IP地址出度哈希表中得到相应的出度，并与IP地址最大出度哈希表中对应的当前最大出度比较，取较大的出度存回IP地址最大出度哈希表。在所有的元组都处理过后，IP地址最大出度哈希表中每一个哈希项的值就是相应电子邮件地址的所使用的IP地址的最大出度，将其保存在中间文件中；

（5）联合上述步骤（1）、（2）、（3）、（4）中得到的行为特征，以发件人电子邮件地址为键，按照电子邮件地址-出度-入度-邮件回复比例-IP地址最大出度元组形式储存为中间结果文件。

5.根据权利要求1或2所述的基于社会网络行为特征的邮件分类方法，其特征是：所述的分类邮件的具体步骤如下：

（1）读取记录电子邮件地址-出度-入度-邮件回复比例- IP地址最大出度元组的中间结果文件，每个元组作为一行组成一个矩阵，矩阵的每一行作为SVM的一个样本，矩阵的每一列对应一个特征；

（2）将得到的样本一部分作为训练样本、一部分作为测试样本，训练和测试分类器，获得最优分类面；