CN101540741A - 一种基于阈值的图像垃圾邮件过滤方法 - Google Patents

一种基于阈值的图像垃圾邮件过滤方法 Download PDF

Info

Publication number
CN101540741A
CN101540741A CN200910083391A CN200910083391A CN101540741A CN 101540741 A CN101540741 A CN 101540741A CN 200910083391 A CN200910083391 A CN 200910083391A CN 200910083391 A CN200910083391 A CN 200910083391A CN 101540741 A CN101540741 A CN 101540741A
Authority
CN
China
Prior art keywords
image
mail
rubbish
junk mail
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910083391A
Other languages
English (en)
Inventor
温向明
何培舟
孙勇
郑伟
林新棋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN200910083391A priority Critical patent/CN101540741A/zh
Publication of CN101540741A publication Critical patent/CN101540741A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种基于域值的图像垃圾邮件过滤方法,技术领域为图像垃圾邮件过滤。主要解决目前互联网上图像垃圾邮件泛滥的问题。技术方案的要点是待测图像邮件经黑白名单判决模块、文件属性特征判决模块和图像特征判决模块后,最终区分出图像垃圾邮件和图像合法邮件。见附图,主要用途为防止图像垃圾邮件对用户的干扰,节省网络资源。

Description

一种基于阈值的图像垃圾邮件过滤方法
技术领域
本发明涉及电子邮件领域,尤其是涉及一种基于阈值的图像垃圾邮件过滤方法。
背景技术
电子邮件是互联网上最基本和最广泛的应用之一,由于低廉的价格、便捷的传输方式、众多的用户,迅速成为垃圾信息滋生的温床,垃圾邮件也应运而生。根据中国互联网协会反垃圾邮件中心给出的定义,所谓“垃圾邮件”是指收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;收件人无法拒绝的电子邮件;隐藏发件人身份、地址、标题等信息的电子邮件;含有虚假的信息源、发件人、路由等信息的电子邮件;含有病毒、恶意代码、色情、反动等不良信息或有害信息的邮件。随着因特网容量和规模地不断扩大,电子邮件中的信息类型也趋于多样化,从纯文本类型向多媒体类型过渡。频率越来越高,垃圾邮件制造者把文本信息嵌入到图像里在来绕过文本过滤器。图像垃圾邮件逐渐成为电子邮件管理员的新的挑战。
图像垃圾邮件是指包含图像的垃圾邮件,图像大多作为附件传送,在正文中显示。图像垃圾邮件自2005年下半年出现,2006年中期呈爆炸式增长,据vnunet.com报道,据统计,在2008年8月到11月,垃圾邮件总数增长了67%,而图像垃圾邮件增长率超过了500%,已经成为垃圾邮件的主要格式之一。
纯文本的垃圾邮件大小一般小于5KB,图像垃圾邮件则会大的多,从1KB到几MB不等,大多在1K到70K。
图像垃圾邮件可以轻松绕过传统的文本过滤器。为了逃避反垃圾邮件设备的扫描,对垃圾邮件制造者来说,图像垃圾邮件具有以下几个优势:(1)可以逃避扫描邮件正文的反垃圾邮件技术;(2)漂亮的图像内容丰富,能传递更为丰富和专业的信息;(3)丰富的图像技术可以随机化图像文本,逃避基于签名的过滤技术。
目前,反垃圾邮件的技术成果,包括:黑名单、白名单、内容过滤等。
(1)黑名单
黑名单是用户不希望收到的电子邮件相关信息列表,凡是来自于黑名单列表上的电子邮件均被认定为垃圾邮件。黑名单优点是实现简单,缺点是需要不断更新黑名单列表。
(2)白名单
白名单是用户希望收到的电子邮件相关信息列表,凡是来自于白名单列表上的电子邮件均被认定为垃圾邮件,与黑名单类似,白名单也需要不断更新名单列表。
(3)内容过滤
内容过滤技术通过分析电子邮件的内容来判断是否为垃圾邮件,利用统计的方法来实现垃圾邮件的过滤。对于图像垃圾邮件来说,随着垃圾图像的增大,导致检测速度和效率迅速降低。
发明内容
有鉴于此,本发明的目的是提供一种图像垃圾邮件的过滤方法和装置,利用黑白名单,并结合图像属性以及计算机图像处理技术,分析垃圾图像特征,以便邮件服务提供商能够及时发现图像垃圾邮件,并采取相应措施对这些图像垃圾邮件进行处理,以净化计算机网络环境和保证工P网络的安全、畅通。
本发明既能应用于电子邮件服务器,也能应用于电子邮件客户端。在不检测图像内容的前提下,利用图像垃圾邮件的其他特征提高图像垃圾邮件的检测速度和检测效果,以达到防范图像垃圾邮件的目的。
为了实现上述目的,提出一种基于阈值的图像垃圾邮件的过滤方法:
图像垃圾邮件的判决规则如下:
(1)如果图像垃圾邮件所含图像为垃圾图像,那么就判定待测图像邮件为图像垃圾邮件;反之,如果为合法图像,那么就判定待测图像邮件为图像合法邮件。
(2)如果使用了黑白名单技术,那么先利用黑白名单判定,然后再利用规则(1)进行判定。
基于阈值的图像垃圾邮件的过滤方法包括以下步骤:
(1)提取图像邮件中图像的文件属性特征,并根据预先设定的阈值对图像进行判决。标记垃圾图像和可疑图像。若为垃圾图像,则直接过滤;若为可疑图像,则进入步骤(2)。
(2)提取图像简单颜色特征和边缘特征,利用特征相似度对图像进行判决。标记垃圾图像和非垃圾图像。若为垃圾图像,则直接过滤。
步骤(1)所述的图像的文件属性特征包括:图像高度、图像宽度、纵横比、图像类型、图像帧数、文件大小、图像面积、周长、压缩率、周长复杂度、透明色、图像创建时间、图像个修改时间、颜色空间类型、文件名称、文字区域占总区域的面积比率。
最好,在进行步骤(1)之前进行如下步骤:
①建立垃圾图像模板库;
②提取垃圾图像的文件属性特征;
③训练文件属性特征,得到经验阈值;
步骤(2)所述的简单颜色特征包括:灰度直方图、颜色直方图、平均色、主颜色等。边缘特征包括:边缘直方图、边缘自相关图。
步骤(2)所述的相似度的测量方法包括:明式距离、直方图的交、Manhattan距离、欧式距离、Mahalanbis距离、K-L距离、Jeffrey Divergence距离以及三角余弦。
最好,在进行步骤(2)之前进行如下步骤:
①归一化模板库中垃圾图像;
②归一化待测图像;
③提取模板中颜色特征和边缘特征。
可选的,还可以包括,设置黑白名单。黑白名单可以设置为邮件主题、发件人邮箱地址、邮件服务器域名、IP地址、邮件(附件)大小、SMTP连接时间频率控制等。
①建立一个合法用户的白名单列表,或者使用其他机构或组织提供的白名单服务;
②建立一个非法用户的黑名单列表,或者使用其他机构或组织提供的黑名单服务;
③当接收到图像邮件时首先检测邮件地址,若为空,则被认定为垃圾邮件,直接删除。
若非空,进行下一步检测;
④检测待测图像邮件的相关属性是否在白名单上,若在白名单上,那么该邮件被认定为合法邮件,投递到用户收件箱中;
⑤检测待测图像邮件的相关属性是否在黑名单上,若在黑名单上,那么该邮件被认定为图像垃圾邮件,直接过滤掉。若接收到的图像垃圾地址既不在白名单上,又不在黑名单上,那么就进入步骤(1)。
本发明的技术效果:
由于没有提取、分析和区别图像中文字特征,而是提取图像的文件属性特征,以及图像简单的内容特征。因此,本发明速度快、效率高。
附图说明
图1是本发明的功能模块图
图2是本发明中具体实施方式的图像垃圾邮件过滤流程图
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明的包含以下功能模块:
101,待测图像邮件;
102,黑白名单判决模块;
103,文件属性特征判决模块;
104,图像特征判决模块;
105,图像合法邮件;
106,图像垃圾邮件。
对于待测像像邮件101,可以经过黑白名单判决模块102、文件属性特征判决模块103以及图像特征判断模块104得到结果:图像合法邮件105和图像垃圾邮件106。其中,黑白名单判决模块102为可选项。
实施具体流程如图2所示:
201,收到待测图像邮件;
202,查看黑白名单;
203,判决;
204,若在白名单上,判决为图像合法邮件;
214,若在黑名单上,判决为图像垃圾邮件;
205,既不在白名单上,也不在黑名单上,判决为可疑图像邮件;
206,提取可疑图像的文件属性特征;
207,创建模板库;
208,提取模板图像的基本属性特征,训练得经验阈值;
209,判决;
214,根据经验阈值,判决为垃圾图像邮件;
210,根据经验阈值,判决为可疑图像邮件;
211,提取可疑图像的简单颜色和边缘特征;
212,提取模板图像的简单颜色和边缘特征;
213,判决;
214,211与212两者特征匹配,判决为图像垃圾邮件;
215,211与212两者特征不匹配,判决为合法垃圾邮件。

Claims (8)

1、一种基于阈值的图像垃圾邮件过滤方法,其特征在于:图像垃圾邮件的判决规则如下:
(1)如果图像垃圾邮件所含图像为垃圾图像,那么就判定待测图像邮件为图像垃圾邮件;
反之,如果为合法图像,那么就判定待测图像邮件为图像合法邮件。
(2)如果使用了黑白名单技术,那么先利用黑白名单技术,然后再利用规则(1)进行判定。
2、一种基于阈值的图像垃圾邮件过滤方法,其特征在于:包括以下步骤:
(1)提取待测图像邮件中图像的文件属性特征,并根据预先设定的阈值对待测图像进行判决。标记垃圾图像和可疑图像。若为垃圾图像,则直接过滤;若为可疑图像,则进入步骤(2)。
(2)提取待测图像的简单颜色特征和边缘特征,利用特征相似度对图像进行判决。标记垃圾图像和非垃圾图像。若为垃圾图像,则直接过滤。
3、根据权利要求2所述的基于阈值的图像垃圾邮件过滤方法,其特征在于:步骤(1)所述的图像的文件属性特征包括:图像高度、图像宽度、纵横比、图像类型、图像帧数、文件大小、图像面积、周长、压缩率、周长复杂度、透明色、图像创建时间、图像个修改时间、颜色空间类型、文件名称、文字区域占总区域的面积比率。
4、根据权利要求2所述的基于阈值的图像垃圾邮件过滤方法,其特征在于:最好,在进行步骤(1)之前进行如下步骤:
(41)建立垃圾图像模板库;
(42)提取垃圾图像的文件属性特征;
(43)训练文件属性特征,得到经验阈值。
5、根据权利要求2所述的基于阈值的图像垃圾邮件过滤方法,其特征在于:步骤(2)所述的简单颜色特征包括:灰度直方图、颜色直方图、平均色、主颜色、颜色集。边缘特征包括:边缘直方图、边缘自相关图。
6、根据权利要求2所述的基于阈值的图像垃圾邮件过滤方法,其特征在于:最好,在进行步骤(2)之前进行如下步骤:
(61)归一化模板库中垃圾图像;
(62)归一化待测图像;
(63)提取模板中颜色特征和边缘特征。
7、根据权利要求2所述的基于阈值的图像垃圾邮件过滤方法,其特征在于:步骤(1)判决依据为预先设定的阈值;步骤(2)判决依据为相似度,相似度的测量方法包括:明式距离、直方图的交、Manhattan距离、欧式距离、Mahalanbis距离、K-L距离、Jeffrey Divergence距离以及三角余弦。
8、根据权利要求2所述的基于阈值的图像垃圾邮件过滤方法,其特征在于:可选的,还可以包括,设置黑白名单。黑白名单可以设置为邮件主题、发件人邮箱地址、邮件服务器域名、IP地址、邮件(附件)大小、SMTP连接时间频率控制。
(81)建立一个合法用户的白名单列表,或者使用其他机构或组织提供的白名单服务;
(82)建立一个非法用户的黑名单列表,或者使用其他机构或组织提供的黑名单服务;
(83)当接收到图像邮件时首先检测邮件地址,若为空,则被认定为垃圾邮件,直接删除。
若非空,进行下一步检测;
(84)检测待测图像邮件的相关属性是否在白名单上,若在白名单上,那么该邮件被认定为合法邮件,投递到用户收件箱中;
(85)检测待测图像邮件的相关属性是否在黑名单上,若在黑名单上,那么该邮件被认定为图像垃圾邮件,直接过滤掉。若接收到的图像垃圾地址既不在白名单上,又不在黑名单上,那么就进入步骤(1)。
CN200910083391A 2009-05-06 2009-05-06 一种基于阈值的图像垃圾邮件过滤方法 Pending CN101540741A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910083391A CN101540741A (zh) 2009-05-06 2009-05-06 一种基于阈值的图像垃圾邮件过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910083391A CN101540741A (zh) 2009-05-06 2009-05-06 一种基于阈值的图像垃圾邮件过滤方法

Publications (1)

Publication Number Publication Date
CN101540741A true CN101540741A (zh) 2009-09-23

Family

ID=41123735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910083391A Pending CN101540741A (zh) 2009-05-06 2009-05-06 一种基于阈值的图像垃圾邮件过滤方法

Country Status (1)

Country Link
CN (1) CN101540741A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102158428A (zh) * 2011-04-18 2011-08-17 柳州职业技术学院 快速高准确率的垃圾邮件过滤方法
WO2011153894A1 (zh) * 2010-06-12 2011-12-15 盈世信息科技(北京)有限公司 识别图片垃圾邮件的方法及系统
CN104270304A (zh) * 2014-10-14 2015-01-07 四川神琥科技有限公司 一种图像邮件的检测分析方法
CN104475344A (zh) * 2014-11-04 2015-04-01 上海维宏电子科技股份有限公司 基于机器视觉实现纺织纱管分拣的方法
CN109743300A (zh) * 2018-12-20 2019-05-10 浙江鹏信信息科技股份有限公司 一种基于异构模型策略库的安全事件自动化处置方法
CN111782846A (zh) * 2020-06-30 2020-10-16 北京三快在线科技有限公司 图像选择方法、装置、计算机设备及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011153894A1 (zh) * 2010-06-12 2011-12-15 盈世信息科技(北京)有限公司 识别图片垃圾邮件的方法及系统
CN102158428A (zh) * 2011-04-18 2011-08-17 柳州职业技术学院 快速高准确率的垃圾邮件过滤方法
CN102158428B (zh) * 2011-04-18 2014-07-30 柳州职业技术学院 快速高准确率的垃圾邮件过滤方法
CN104270304A (zh) * 2014-10-14 2015-01-07 四川神琥科技有限公司 一种图像邮件的检测分析方法
CN104270304B (zh) * 2014-10-14 2017-05-24 四川神琥科技有限公司 一种图像邮件的检测分析方法
CN104475344A (zh) * 2014-11-04 2015-04-01 上海维宏电子科技股份有限公司 基于机器视觉实现纺织纱管分拣的方法
CN109743300A (zh) * 2018-12-20 2019-05-10 浙江鹏信信息科技股份有限公司 一种基于异构模型策略库的安全事件自动化处置方法
CN111782846A (zh) * 2020-06-30 2020-10-16 北京三快在线科技有限公司 图像选择方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US7882187B2 (en) Method and system for detecting undesired email containing image-based messages
CN106453423B (zh) 一种基于用户个性化设置的垃圾邮件的过滤系统及方法
US8224905B2 (en) Spam filtration utilizing sender activity data
US7882189B2 (en) Using distinguishing properties to classify messages
CN101540741A (zh) 一种基于阈值的图像垃圾邮件过滤方法
CN105743876B (zh) 一种基于邮件源数据发现针对性攻击的方法及系统
TW200949570A (en) Method for filtering e-mail and mail filtering system thereof
EP1635524A1 (en) A method and system for identifying and blocking spam email messages at an inspecting point
US20040143635A1 (en) Regulating receipt of electronic mail
RU2005120667A (ru) Инфраструктура для обеспечения интеграции антиспамовых технологий
CN101087259A (zh) 一种过滤国际互联网络中垃圾电子邮件的系统及其实现方法
CN103716335A (zh) 基于伪造发件人的垃圾邮件检测与过滤方法
CN111222856A (zh) 一种邮件识别方法、装置、设备及存储介质
CN103873348A (zh) 电子邮件过滤方法和系统
US20060075099A1 (en) Automatic elimination of viruses and spam
CN113630397A (zh) 电子邮件安全控制方法、客户端及系统
CN105635080A (zh) 一种基于内容过滤的电子邮件安全管理系统和方法
JP4963099B2 (ja) 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム
CN101540682A (zh) 一种基于视觉特征的图像垃圾邮件过滤方法
CN103595614A (zh) 一种基于用户反馈的垃圾邮件检测方法
US20050114457A1 (en) Filtering device for eliminating unsolicited email
CN110557352A (zh) 一种群发垃圾邮件的检测方法、装置及设备
Wan et al. Spam detection using Sobel operators and OCR
JP2006059313A (ja) 迷惑メールを除去するフィルターリング装置
CN106713108B (zh) 一种结合用户关系与贝叶斯理论的邮件分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090923