CN103595723A

CN103595723A - 基于消息主体和安全分级的垃圾邮件识别方法及装置

Info

Publication number: CN103595723A
Application number: CN201310582501.0A
Authority: CN
Inventors: 朱晓冬; 刘元宁; 王圣波; 张晓旭; 王刚; 王友卫; 李猛; 高思
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2013-11-20
Filing date: 2013-11-20
Publication date: 2014-02-19
Anticipated expiration: 2033-11-20

Abstract

本发明提供一种基于消息主体和安全分级的垃圾邮件识别方法及装置，用于局域网内垃圾邮件过滤，通过提取消息主体的方法，更加充分地利用了语法树的信息，从语法树中提取句子主语作为消息主体，统计并分析文本是否在对消息主体进行宣传或介绍，提高了对垃圾邮件，尤其是对广告邮件的识别精度；通过安全分级管理方法，对邮件的文本、链接和图片等内容做出一个分级管理，针对安全度较高的邮件进行部分检测，对于安全度较低的邮件进行全面检测，提高了邮件的识别效率。

Description

基于消息主体和安全分级的垃圾邮件识别方法及装置

技术领域

本发明提供一种基于消息主体和安全分级的垃圾邮件识别方法，同时还提供了实现该方法的装置，用于局域网内垃圾邮件过滤，涉及电子邮件技术领域中的垃圾邮件处理技术与网络安全技术。

背景技术

垃圾邮件对人们来说已经不是一个陌生的名词了，但至今在世界上还没有一个严格统一的定义，一般人们把未经用户许可，而被强行塞入用户邮箱的邮件称为垃圾邮件，常见的垃圾邮件包括：广告，杂志，诈骗信息等，有的甚至携带木马或者病毒。

如今垃圾邮件日益泛滥，不仅对人们的日常收发邮件造成了困扰，一些垃圾邮件还携带不良信息或者病毒，对收件人带来危害，常见的解决方法之一是在用户端安装垃圾邮件过滤系统，使用识别算法对接收到的邮件进行识别，若该邮件属于垃圾邮件则会被系统过滤。

从系统安装的位置来看，过滤系统又分为两类，第一类直接安装在用户主机中。这一类系统在处理邮件时会占用用户主机的大量资源；第二类是安装在局域网内，通过监控技术获得局域网内的数据包，再从数据包中提取邮件并进行识别，这一类系统的优点是可对整个局域网中的垃圾邮件进行集中处理，在运行过程中不会占用用户主机的资源，但是需要一台设备来完成邮件识别任务，并且对设备的识别效率要求较高。

一封邮件包含文本、图片、链接、附件等内容，现有的垃圾邮件过滤系统中，一部分过滤系统只对邮件文本进行识别，效率较高，但精度不足，另一部分过滤系统对邮件中的文本、图片、链接等内容都进行识别，精度更高，但效率下降。

中文邮件和英文邮件的处理过程是不同的，对于中文邮件，通用的步骤是：中文分词，特征提取，特征选择，使用分类器进行识别；传统的基于语法树的中文分词方法，在完成中文分词后会丢弃语法树，没有将语法树用在识别过程中，效率较低，精度却没有提高。

发明内容

本发明公开一种基于消息主体和安全分级的垃圾邮件识别方法，该方法通过提取邮件中的消息主体，能够提高对垃圾邮件的识别精度，通过对邮件来源进行安全分级，能够提高对垃圾邮件的识别效率。

本发明还提供了实现该方法的装置，该装置采用硬件和软件相结合的方式，实现了局域网内用户邮件的收集与识别，解决了用户与装置的通信问题，并且节约了用户资源。

本发明公开的一种基于消息主体和安全分级的垃圾邮件识别方法，包括以下步骤：

1）网络接口单元捕获局域网内所有的数据包，并传递给通信单元；

2）通信单元根据数据包中的协议号判断数据包的种类，识别其中的用户信号并保持与用户的通信，丢弃与邮件无关的数据包，经过微控制器将与邮件相关的数据包传递给协议解析单元并将用户信息传递给安全分级管理单元；

3）协议解析单元对与邮件相关的数据包进行TCP数据流重组、应用层协议解析，得到邮件的源地址、目的地址、携带的文本、链接和图片等内容；通过微控制器从安全分级管理单元读取用户的安全分级信息；根据安全分级信息，将安全级别高的邮件内容丢弃，将安全级别低的邮件内容写入邮件缓存单元等候识别；

4）邮件识别单元从邮件缓存单元中取出邮件内容，分别对邮件中的文本、链接和图片进行分类，在对文本进行分类时，提取句子主语作为消息主体，统计并分析文本是否在对消息主体进行宣传或介绍；根据邮件各项内容的分类结果综合判断该邮件是否为垃圾邮件；将识别结果通过微控制器传递给通信单元；将垃圾邮件的反馈信息通过微控制器传递给安全分级管理单元进行自适应调整；向微控制器发出中断请求，从邮件缓存单元中读取下一批待识别的邮件内容；

5）通信单元对邮件的识别结果进行协议封装并传递给网络接口单元，经过局域网到达用户主机，完成垃圾邮件的识别任务。

步骤2）涉及的通信单元识别用户信号并保持与用户的通信的方法如下：

数据包过滤单元根据协议号从数据包中识别用户信号，提取用户标识和用户当前IP地址等登入信息，并记录在用户IP映射表中；

第一定时器、第二定时器为数据包过滤单元提供定时信号，两种定时信号分别表示发送探测报文的时间间隔或发出探测报文后最长等待时间；在收到第一定时器的定时信号后，数据包过滤单元打开第二定时器并对用户IP映射表中的每个用户做出一个标记，如果收到用户的保持连接报文则从用户IP映射表中清除对应的标记；在数据包过滤单元收到第二定时器的定时信号时，用户IP映射表中仍然留有标记的用户视为失去连接，该用户信息将被删除。

本发明提供的基于消息主体和安全分级的垃圾邮件识别装置，其特征在于：

由微控制器、网络接口单元、通信单元、安全分级管理单元、协议解析单元、邮件缓存单元、邮件识别单元组成；其中，通信单元又包括第一定时器、第二定时器、数据包过滤单元、用户IP映射表；

其中，微控制器用于控制各单元之间数据的传递；

数据包过滤单元的Vio1端口与网络接口单元的Vio端口相连，Vio3端口与微控制器的Vio1端口相连，用于从网络接口单元接收数据包，将其中与邮件相关的数据包传递给微控制器，从微控制器接收邮件识别结果，封装后发送给网络接口单元；数据包过滤单元的INT0端口与定时器的Vout端口相连，INT1端口与定时器的Vout端口相连，用于接收定时信号；数据包过滤单元的Vout端口与第二定时器的Rset端口相连，用于重置第二定时器；数据包过滤单元的Vio2端口与用户IP映射表的Vio端口相连，用于传递用户登入信息；

安全分级管理单元的Vio端口与微控制器的Vio5端口相连，用于传递用户的安全分级信息，接收垃圾邮件的反馈信息。

协议解析单元的Vio端口与微控制器的Vio3端口相连，用于接收与邮件相关的数据包和用户的安全分级信息，传递待识别的邮件内容；协议解析单元的Vout端口与微控制器的INT0端口相连，用于在传递邮件内容时发出中断请求；

邮件缓存单元的Vio端口与微控制器的Vio4端口相连，用于传递待识别的邮件内容；

邮件识别单元的Vout端口与微控制器的INT1端口相连，用于在读取邮件内容时发出中断请求；邮件识别单元的Vio端口与微控制器的Vio2端口相连，用于读取待识别的邮件内容，传递邮件识别结果和垃圾邮件的反馈信息。

本发明与现有的技术相比具有的积极效果在于：

通过提取消息主体的方法，更加充分地利用了语法树的信息，从语法树中提取句子主语作为消息主体，统计并分析文本是否在对消息主体进行宣传或介绍，提高了对垃圾邮件，尤其是对广告邮件的识别精度；

通过安全分级管理方法，对邮件的文本、链接和图片等内容做出一个分级管理，针对安全度较高的邮件进行部分检测，对于安全度较低的邮件进行全面检测，提高了邮件的识别效率。

附图说明

图1为本发明的结构框图；

图2为本发明的电路原理图；

图3为本发明的方法流程图。

具体实施方式

下面根据具体情况和具体实施例对本发明作进一步阐述。

实施例1

根据图1、图3所示，

1）网络接口单元20捕获局域网内所有的数据包，并传递给通信单元30；

2）通信单元30根据数据包中的协议号判断数据包的种类，识别其中的用户信号并保持与用户的通信，丢弃与邮件无关的数据包，经过微控制器10将与邮件相关的数据包传递给协议解析单元50并将用户信息传递给安全分级管理单元40；

其中，通信单元30识别用户信号并保持与用户的通信的具体过程如下：

数据包过滤单元33根据协议号从数据包中识别用户的操作信息，通过提取操作码确定用户的操作，用户的操作包括但不限于：登入系统，退出系统，查询个人信息，修改个人信息，保持连接；在用户登入系统时，数据包过滤单元33提取用户标识和用户当前IP地址等登入信息，并记录在用户IP映射表34中，用户退出系统或失去连接时，从用户IP映射表34中删除该用户信息；

第一定时器31、第二定时器32为数据包过滤单元33提供定时信号，两种定时信号分别表示发送探测报文的时间间隔或发出探测报文后最长等待时间；在收到第一定时器31的定时信号后，数据包过滤单元33打开第二定时器32并对用户IP映射表34中的每个用户做出一个标记，如果收到用户的保持连接报文则从用户IP映射表34中清除对应的标记；在数据包过滤单元33收到第二定时器32的定时信号时，用户IP映射表34中仍然留有标记的用户视为失去连接；

3）协议解析单元50对与邮件相关的数据包进行TCP数据流重组、应用层协议解析，得到邮件的源地址、目的地址、携带的文本、链接和图片等内容；通过微控制器10从安全分级管理单元40读取用户的安全分级信息；根据安全分级信息，将安全级别高的邮件内容丢弃，将安全级别低的邮件内容写入邮件缓存单元60等候识别；

其中，安全分级信息是一个三位的二进制数，用于表示邮件中的文本、链接和图片的安全程度，如果识别单元不仅限于对此三项内容进行检测，则安全等级的位数等于选择是否需要检测的内容项数；安全分级信息可根据垃圾邮件的反馈信息进行自适应调整，也可由用户手动修改；

将邮件划分为多个类别，每一类邮件对应一个安全分级信息，用户收到的所有邮件对应一个安全分级信息列表，划分类别的方式包括但不限于根据邮件发送端的服务商来划分；安全分级管理单元40存储并管理用户的安全分级信息列表；

4）邮件识别单元70从邮件缓存单元60中取出邮件内容，分别对邮件中的文本、链接和图片进行分类，在对文本进行分类时，提取句子主语作为消息主体，统计并分析文本是否在对消息主体进行宣传或介绍；根据邮件各项内容的分类结果综合判断该邮件是否为垃圾邮件；将识别结果通过微控制器10传递给通信单元30；将垃圾邮件的反馈信息通过微控制器10传递给安全分级管理单元40进行自适应调整；向微控制器10发出中断请求，从邮件缓存单元60中读取下一批待识别的邮件内容；

5）通信单元30对邮件的识别结果进行封装并传递给网络接口单元20，经过局域网到达用户主机，完成垃圾邮件的识别任务。

实施例2

根据图2所示，微控制器10选用STC11F52XE单片机芯片；网络接口单元20选用8139D网卡芯片；定时器31、定时器32选用8253定时芯片，数据包过滤单元33选用STC89C516RD+运算芯片，用户IP映射表34选用HM628128存储芯片；安全分级管理单元40选用扩展存储器的STC89C516RD+运算芯片；协议解析单元50选用扩展存储器的STC89C516RD+运算芯片；邮件缓存单元60选用HM628128存储芯片；邮件识别单元70选用扩展存储器的STC89C516RD+运算芯片。

其中，微控制器10用于控制各单元之间数据的传递；

数据包过滤单元33的Vio1端口与网络接口单元20的Vio端口相连，Vio3端口与微控制器的Vio1端口相连，用于从网络接口单元20接收数据包，将其中与邮件相关的数据包传递给微控制器10，从微控制器10接收邮件识别结果，封装后发送给网络接口单元20；数据包过滤单元33的INT0端口与定时器31的Vout端口相连，INT1端口与定时器32的Vout端口相连，用于接收定时信号；数据包过滤单元33的Vout端口与定时器32的Rset端口相连，用于重置定时器32；数据包过滤单元33的Vio2端口与用户IP映射表34的Vio端口相连，用于传递用户登入信息；

安全分级管理单元40的Vio端口与微控制器10的Vio5端口相连，用于传递用户的安全分级信息，接收垃圾邮件的反馈信息。

协议解析单元50的Vio端口与微控制器10的Vio3端口相连，用于接收与邮件相关的数据包和用户的安全分级信息，传递待识别的邮件内容；协议解析单元50的Vout端口与微控制器的INT0端口相连，用于在传递邮件内容时发出中断请求；

邮件缓存单元60的Vio端口与微控制器10的Vio4端口相连，用于传递待识别的邮件内容；

邮件识别单元70的Vout端口与微控制器10的INT1端口相连，用于在读取邮件内容时发出中断请求；邮件识别单元70的Vio端口与微控制器10的Vio2端口相连，用于读取待识别的邮件内容，传递邮件识别结果和垃圾邮件的反馈信息。

Claims

1.一种基于消息主体和安全分级的垃圾邮件识别方法，包括以下步骤：

2. 如权利1所述的垃圾邮件识别方法，其特征在于：

3. 一种基于消息主体和安全分级的垃圾邮件识别装置，其特征在于：

其中，微控制器用于控制各单元之间数据的传递；

安全分级管理单元的Vio端口与微控制器的Vio5端口相连，用于传递用户的安全分级信息，接收垃圾邮件的反馈信息；