CN1760901A - 电子邮件过滤系统 - Google Patents

电子邮件过滤系统 Download PDF

Info

Publication number
CN1760901A
CN1760901A CNA200510030968XA CN200510030968A CN1760901A CN 1760901 A CN1760901 A CN 1760901A CN A200510030968X A CNA200510030968X A CN A200510030968XA CN 200510030968 A CN200510030968 A CN 200510030968A CN 1760901 A CN1760901 A CN 1760901A
Authority
CN
China
Prior art keywords
module
mail
doubtful
option
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200510030968XA
Other languages
English (en)
Inventor
李翔
李建华
林祥
黄明生
杨巍
周黎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CNA200510030968XA priority Critical patent/CN1760901A/zh
Publication of CN1760901A publication Critical patent/CN1760901A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种网络通信技术领域的电子邮件过滤系统。本发明中,预处理模块首先获取待处理信息内容,并将获取结果送入特征提取模块,特征提取模块从待处理信息中提取出特征选项,并分两路分别送入特征选择模块与预分类模块,特征选择模块对特征选项进行选择并将结果送入特征库,特征库存储特征选项,预分类模块根据特征选项对信息进行预分类并将结果递交给邻近类别分类模块,邻近类别分类模块从特征库提取特征选项并完成对信息的分类。本发明能对邮件主体内容进行分析,对于通过代理服务器发送的垃圾邮件同样能进行过滤;系统具有自学习能力,采用两级分类模式与邻近类别分类技术,提高了系统对垃圾邮件的查准滤和查全率。

Description

电子邮件过滤系统
技术领域
本发明涉及的是一种网络通信技术领域的系统,具体是一种电子邮件过滤系统。
背景技术
垃圾邮件的泛滥已严重影响个人通信、浪费信息资源、威胁网络安全。同时各种不良信息的传播也对社会造成相当的危害。因此,研究邮件自动过滤方法具有十分重要的现实意义。在实际应用中,现有的邮件过滤系统一般根据已知的垃圾邮件来源封锁邮件。这种垃圾邮件黑名单是由企业或者独立的反垃圾邮件组织编辑的。这些黑名单包括已知的属于垃圾邮件制造者的系统和网络的IP地址、安全性较差,很容易被垃圾邮件制造者通过所谓开放式中继和开放式代理服务器的IP地址以及托管垃圾邮件制造者或者支持垃圾邮件服务的网站的IP地址来绕过。并且这种基于规则的邮件过滤系统需要不断维护更新其数据库,纯粹的基于规则的邮件过滤系统对于垃圾信件的查准率已经不能满足日益提高的过滤系统用户的产品需求。
经对现有技术的文献检索发现,中国专利申请号:200410031692.2,专利名称:防垃圾邮件系统,该专利自述为:“一种防垃圾邮件系统,包括能够收发邮件数据包的缓冲器,所述缓冲器用于对接收的邮件数据包进行缓冲处理,并对接收的邮件数据包添加包头信息后进行转发;和与所述缓冲器连接的防垃圾邮件服务器,所述防垃圾邮件服务器用于接收缓冲器转发来的邮件数据包,并通过分析经所述缓冲器添加了包头信息的邮件数据包,判断邮件数据包是否合法”。该系统可以识别出可以对邮件头部信息进行分析,以实现过滤垃圾邮件的目的。但是该系统只对邮件信头进行分析,未能分析邮件主体内容。对于那些不在系统黑名单中的垃圾邮件就无力查杀,对于那些通过代理服务器发送的垃圾邮件无法识别。并且系统不具备自学习能力,需要不断更新维护数据库,已经不能适应不断发展变化的反垃圾邮件应用需求。
发明内容
本发明针对现有技术中上述不足和缺陷,提出了一种电子邮件过滤系统。本发明能够对电子邮件主体内容进行分析,通过预分类模块,邻近类别分类模块对电子邮件进行两级分类,通过特征库实现对垃圾邮件的自学习功能,实现基于内容的电子邮件智能分类。
本发明是通过以下技术方案实现的,本发明包括:预处理模块、特征提取模块、特征选择模块、特征库、预分类模块、邻近类别分类模块。预处理模块首先获取待处理信息内容,并将获取结果送入特征提取模块,特征提取模块从待处理信息中提取出特征选项,并分两路分别送入特征选择模块与预分类模块,特征选择模块对特征选项进行选择并将结果送入特征库,特征库存储特征选项,预分类模块根据特征选项对信息进行预分类并将结果递交给邻近类别分类模块,邻近类别分类模块从特征库提取特征选项并完成对信息的分类。
所述的预处理模块负责对电子邮件进行分析,取出邮件主体部分,并对邮件主体文本中的无意义字符进行滤除。将处理好的文本内容送入特征提取模块。
所述的特征提取模块使用重复模式识别算法抽取重复的字符串组成词表,并删除了包含停止字表的词汇。将对于文本表示帮助不明显的一般词汇去掉,对应提取操作的结果是保留特定数量能够表征文本属性的特征选项。并将这些特征选项分别送入特征选择模块与预分类模块。
所述的特征选择模块采用特征词汇词频统计和特征词与所属类别互信息相结合的方法,对于前期获得的特征选项实行特征选择。并将这些选择过的特征选项存入特征库。
所述的预分类模块直接放行不含任何特征选项的正常电子邮件,同时根据对应邮件的特征选项继续判断疑似垃圾信件的类别归属,将疑似垃圾信件分类为病毒邮件,疑似色情邮件、疑似反动邮件和疑似广告邮件,对于病毒邮件直接做拦截处理,对于疑似色情邮件、疑似反动邮件和疑似广告邮件则送交邻近类别分类模块。
所述的邻近类别分类模块分别过滤疑似色情邮件、疑似反动邮件和疑似广告邮件,拦截其中的色情、反动和广告邮件,同时放行属于对应邻近类别的误拦信件。
本发明的工作过程和工作原理是:所有需过滤的邮件首先通过预处理模块,预处理模块对电子邮件进行分析,取出邮件主体部分,并对邮件主体文本中的无意义字符进行滤除,将处理好的文本内容送入特征提取模块;特征提取模块使用重复模式识别算法抽取重复的字符串组成词表,并删除了包含停止字表的词汇。对应提取操作的结果是保留特定数量能够表征文本属性的特征选项。并将这些特征选项分别送入特征选择模块与预分类模块。特征选择模块采用特征词汇词频统计和特征词与所属类别互信息相结合的方法,对于前期获得的特征选项实行特征选择,并将这些选择过的特征选项存入特征库;预分类模块根据特征库匹配结果,直接放行不含任何特征选项的正常电子邮件,同时根据对应邮件的特征选项继续判断疑似垃圾信件的类别归属,若判定是病毒信件则直接丢弃,若邮件中特征选项小于阀值则直接放行,若均否,则将结果递交邻近类别分类模块;邻近类别分类模块根据预分类模块输出的结果分别过滤疑似色情邮件、疑似反动邮件和疑似广告邮件,拦截其中的色情、反动和广告邮件,同时放行属于对应邻近类别的误拦信件。
本发明的有益结果是:能够对邮件主体内容进行分析,对于通过代理服务器发送的垃圾邮件同样能够进行过滤;系统具有自学习能力,能够通过对邮件的过滤自动维护更新系统特征库,不需要人工进行更新维护;采用两级分类模式与邻近类别分类技术,提高了系统对垃圾邮件的查准滤和查全率。
附图说明
图1是本发明的系统结构图
具体实施方式
如图1所示,本发明包括:预处理模块、特征提取模块、特征选择模块、特征库、预分类模块、邻近类别分类模块。预处理模块首先获取待处理信息内容,并将获取结果送入特征提取模块,特征提取模块从待处理信息中提取出特征选项,并分两路分别送入特征选择模块与预分类模块,特征选择模块对特征选项进行选择并将结果送入特征库,特征库存储特征选项,预分类模块根据特征选项对信息进行预分类并将结果递交给邻近类别分类模块,邻近类别分类模块从特征库提取特征选项并完成对信息的分类。
所述的预处理模块负责对电子邮件进行分析,取出邮件主体部分,并对邮件主体文本中的无意义字符进行滤除。将处理好的文本内容送入特征提取模块。
所述的特征提取模块使用重复模式识别算法抽取重复的字符串组成词表,并删除了包含停止字表的词汇。将对于文本表示帮助不明显的一般词汇去掉,对应提取操作的结果是保留特定数量能够表征文本属性的特征选项。并将这些特征选项分别送入特征选择模块与预分类模块。
所述的特征选择模块采用特征词汇词频统计和特征词与所属类别互信息相结合的方法,对于前期获得的特征选项实行特征选择。并将这些选择过的特征选项存入特征库。
所述的预分类模块直接放行不含任何特征选项的正常电子邮件,同时根据对应邮件的特征选项继续判断疑似垃圾信件的类别归属,将疑似垃圾信件分类为病毒邮件、疑似色情邮件、疑似反动邮件和疑似广告邮件,对于病毒邮件直接做拦截处理,对于疑似色情邮件、疑似反动邮件和疑似广告邮件则送交邻近类别分类模块。
所述的邻近类别分类模块负责过滤疑似色情邮件、疑似反动邮件和疑似广告邮件,拦截其中的色情、反动和广告邮件,同时放行属于对应邻近类别的误拦信件。

Claims (4)

1.一种电子邮件过滤系统,包括:预处理模块、特征提取模块、特征选择模块、特征库,其特征在于,还包括:预分类模块、邻近类别分类模块,预处理模块首先获取待处理信息内容,并将获取结果送入特征提取模块,特征提取模块从待处理信息中提取出特征选项,并分两路分别送入特征库与预分类模块,特征库存储特征选项,预分类模块根据特征选项对信息进行预分类并将结果递交给邻近类别分类模块,邻近类别分类模块从特征库提取特征选项并完成对信息的分类,
所述的预分类模块直接放行正常电子邮件,同时根据对应邮件的特征选项继续判断疑似垃圾信件的类别归属,将疑似垃圾信件分类为病毒邮件,疑似色情邮件、疑似反动邮件和疑似广告邮件,对于病毒邮件直接做拦截处理,对于疑似色情邮件、疑似反动邮件和疑似广告邮件则送交邻近类别分类模块;
所述的邻近类别分类模块分别过滤疑似色情邮件、疑似反动邮件和疑似广告邮件,拦截其中的色情、反动和广告邮件,同时放行属于对应邻近类别的误拦信件。
2.根据权利要求1所述的这种电子邮件过滤系统,其特征是,所述的预处理模块负责对电子邮件进行分析,取出邮件主体部分,并对邮件主体文本中的噪音进行滤除,将处理好的文本内容送入特征提取模块。
3.根据权利要求1所述的这种电子邮件过滤系统,其特征是,所述的特征提取模块使用重复模式识别算法抽取重复的字符串组成词表,并删除了包含停止字表的词汇,对应提取操作的结果是保留能够表征文本属性的特征选项,并将这些特征选项分别送入特征选择模块与预分类模块。
4.根据权利要求1所述的这种电子邮件过滤系统,其特征是,所述的特征选择模块采用特征词汇词频统计和特征词与所属类别互信息相结合的方法,对于前期获得的特征选项实行特征选择,并将这些选择过的特征选项存入特征库。
CNA200510030968XA 2005-11-03 2005-11-03 电子邮件过滤系统 Pending CN1760901A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA200510030968XA CN1760901A (zh) 2005-11-03 2005-11-03 电子邮件过滤系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200510030968XA CN1760901A (zh) 2005-11-03 2005-11-03 电子邮件过滤系统

Publications (1)

Publication Number Publication Date
CN1760901A true CN1760901A (zh) 2006-04-19

Family

ID=36706964

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200510030968XA Pending CN1760901A (zh) 2005-11-03 2005-11-03 电子邮件过滤系统

Country Status (1)

Country Link
CN (1) CN1760901A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009006813A1 (fr) * 2007-07-04 2009-01-15 Huawei Technologies Co., Ltd. Procédé et système de catégorisation de contenu
CN100456755C (zh) * 2006-08-31 2009-01-28 华为技术有限公司 消息过滤方法及其装置
CN101873274A (zh) * 2010-06-12 2010-10-27 中山大学 与机顶盒关联的多种邮件分类功能系统及方法
CN101207627B (zh) * 2007-12-13 2011-06-29 深圳市迅雷网络技术有限公司 一种过滤下载任务列表的客户端及方法
CN102130847A (zh) * 2011-02-18 2011-07-20 杭州迪普科技有限公司 一种互联网邮件审计方法及装置
CN102158428A (zh) * 2011-04-18 2011-08-17 柳州职业技术学院 快速高准确率的垃圾邮件过滤方法
CN102419777A (zh) * 2012-01-10 2012-04-18 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤系统及其过滤方法
CN102792324A (zh) * 2010-03-08 2012-11-21 微软公司 电子邮件消息的区分类
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置
CN103150502A (zh) * 2013-03-18 2013-06-12 苏州诺特丹信息技术有限公司 便捷广告清除系统
CN101795273B (zh) * 2010-01-26 2013-08-14 北京网御星云信息技术有限公司 一种垃圾邮件过滤方法及装置
CN103457829A (zh) * 2012-06-05 2013-12-18 百度在线网络技术(北京)有限公司 基于helpdesk自动化邮件系统的邮件处理方法和系统
CN104484351A (zh) * 2014-11-28 2015-04-01 上海百事通信息技术股份有限公司 大数据量号码过滤装置及方法
CN104731772A (zh) * 2015-04-14 2015-06-24 辽宁大学 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法
WO2015143956A1 (zh) * 2014-03-28 2015-10-01 北京金山网络科技有限公司 一种拦截网页中的广告的方法及装置
CN105957092A (zh) * 2016-05-31 2016-09-21 福州大学 用于计算机辅助诊断的乳腺钼靶图像特征自学习提取方法
CN107124386A (zh) * 2016-02-24 2017-09-01 深圳市深信服电子科技有限公司 黑色产业内容的检测分析方法及装置
CN113220963A (zh) * 2020-11-09 2021-08-06 深圳信息职业技术学院 一种基于互联网大数据的机器智能学习方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100456755C (zh) * 2006-08-31 2009-01-28 华为技术有限公司 消息过滤方法及其装置
CN101340427B (zh) * 2007-07-04 2012-04-04 华为技术有限公司 内容分类和过滤的方法、装置及系统
WO2009006813A1 (fr) * 2007-07-04 2009-01-15 Huawei Technologies Co., Ltd. Procédé et système de catégorisation de contenu
CN101207627B (zh) * 2007-12-13 2011-06-29 深圳市迅雷网络技术有限公司 一种过滤下载任务列表的客户端及方法
CN101795273B (zh) * 2010-01-26 2013-08-14 北京网御星云信息技术有限公司 一种垃圾邮件过滤方法及装置
CN102792324A (zh) * 2010-03-08 2012-11-21 微软公司 电子邮件消息的区分类
CN101873274B (zh) * 2010-06-12 2013-06-05 中山大学 与机顶盒关联的多种邮件分类功能系统及方法
CN101873274A (zh) * 2010-06-12 2010-10-27 中山大学 与机顶盒关联的多种邮件分类功能系统及方法
CN102130847A (zh) * 2011-02-18 2011-07-20 杭州迪普科技有限公司 一种互联网邮件审计方法及装置
CN102158428B (zh) * 2011-04-18 2014-07-30 柳州职业技术学院 快速高准确率的垃圾邮件过滤方法
CN102158428A (zh) * 2011-04-18 2011-08-17 柳州职业技术学院 快速高准确率的垃圾邮件过滤方法
CN103136266A (zh) * 2011-12-01 2013-06-05 中兴通讯股份有限公司 邮件分类的方法及装置
CN102419777A (zh) * 2012-01-10 2012-04-18 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤系统及其过滤方法
CN103457829A (zh) * 2012-06-05 2013-12-18 百度在线网络技术(北京)有限公司 基于helpdesk自动化邮件系统的邮件处理方法和系统
CN103457829B (zh) * 2012-06-05 2016-12-14 百度在线网络技术(北京)有限公司 基于helpdesk自动化邮件系统的邮件处理方法和系统
CN103150502A (zh) * 2013-03-18 2013-06-12 苏州诺特丹信息技术有限公司 便捷广告清除系统
WO2015143956A1 (zh) * 2014-03-28 2015-10-01 北京金山网络科技有限公司 一种拦截网页中的广告的方法及装置
CN104484351A (zh) * 2014-11-28 2015-04-01 上海百事通信息技术股份有限公司 大数据量号码过滤装置及方法
CN104484351B (zh) * 2014-11-28 2018-07-20 上海百事通信息技术股份有限公司 大数据量号码过滤装置及方法
CN104731772A (zh) * 2015-04-14 2015-06-24 辽宁大学 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法
CN104731772B (zh) * 2015-04-14 2017-05-24 辽宁大学 基于改进特征评估函数的贝叶斯垃圾邮件过滤方法
CN107124386A (zh) * 2016-02-24 2017-09-01 深圳市深信服电子科技有限公司 黑色产业内容的检测分析方法及装置
CN107124386B (zh) * 2016-02-24 2021-05-04 深信服科技股份有限公司 黑色产业内容的检测分析方法及装置
CN105957092A (zh) * 2016-05-31 2016-09-21 福州大学 用于计算机辅助诊断的乳腺钼靶图像特征自学习提取方法
CN105957092B (zh) * 2016-05-31 2018-10-30 福州大学 用于计算机辅助诊断的乳腺钼靶图像特征自学习提取方法
CN113220963A (zh) * 2020-11-09 2021-08-06 深圳信息职业技术学院 一种基于互联网大数据的机器智能学习方法

Similar Documents

Publication Publication Date Title
CN1760901A (zh) 电子邮件过滤系统
US10581778B2 (en) Method and system for filtering communication
CN103441924B (zh) 一种基于短文本的垃圾邮件过滤方法及装置
CN101068217B (zh) 一种简化电子邮件操作的方法及装置
CN103136266A (zh) 邮件分类的方法及装置
CN100476852C (zh) 一种反垃圾电子邮件的方法
CN101674264B (zh) 基于用户关系挖掘及信誉评价的垃圾邮件检测装置及方法
CN102024045B (zh) 信息分类处理方法、装置和终端
CN1863170A (zh) 处理垃圾电子邮件的方法及计算机可读取存储媒体
CN101784022A (zh) 短信过滤、分类方法及系统
CN1801855A (zh) 基于消息内容的无用消息(垃圾消息)检测
CN101155182A (zh) 一种基于网络的垃圾信息过滤方法和装置
CN101938565A (zh) 短信处理方法及移动终端
CN103186845A (zh) 一种垃圾邮件过滤方法
CN101888445A (zh) 一种引进查询软件的综合性短信过滤方法
CN101075980A (zh) 对通讯系统中的通讯信息进行过滤的方法和过滤系统
CN101141416A (zh) 一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统
CN101282310A (zh) 一种反图片垃圾邮件的方法及装置
CN101068154A (zh) 一种垃圾信息过滤方法及装置
CN101494546B (zh) 协作式垃圾邮件防范方法
CN1889108A (zh) 一种识别垃圾邮件的方法
CN105471670A (zh) 流量数据分类方法及装置
CN101299729A (zh) 一种基于拓扑行为的垃圾邮件判定方法
US8880611B1 (en) Methods and apparatus for detecting spam messages in an email system
CN101217555A (zh) 一种智能反垃圾反病毒网关及其过滤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication