CN102542290B - 一种垃圾邮件图像识别方法及装置 - Google Patents

一种垃圾邮件图像识别方法及装置 Download PDF

Info

Publication number
CN102542290B
CN102542290B CN201110435765.4A CN201110435765A CN102542290B CN 102542290 B CN102542290 B CN 102542290B CN 201110435765 A CN201110435765 A CN 201110435765A CN 102542290 B CN102542290 B CN 102542290B
Authority
CN
China
Prior art keywords
noise
connected domain
image
area
mail image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110435765.4A
Other languages
English (en)
Other versions
CN102542290A (zh
Inventor
严寒冰
李鹏
孙永革
孙波
李锐光
郝智超
张宏宾
林绅文
王进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INTERNET SOCIETY OF CHINA
National Computer Network and Information Security Management Center
Original Assignee
INTERNET SOCIETY OF CHINA
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INTERNET SOCIETY OF CHINA, National Computer Network and Information Security Management Center filed Critical INTERNET SOCIETY OF CHINA
Priority to CN201110435765.4A priority Critical patent/CN102542290B/zh
Publication of CN102542290A publication Critical patent/CN102542290A/zh
Application granted granted Critical
Publication of CN102542290B publication Critical patent/CN102542290B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种垃圾邮件图像识别方法。该方法包括:将邮件图像划分为文本区域和非文本区域;将所述非文本区域从空域变换到频域,并分解为水平、垂直和对角方向的细节子图像;对各个细节子图像中的高频系数进行统计分析,利用噪声连通域面积的总和与非文本区域面积的比值度量邮件图像的含噪声程度;根据所述邮件图像的含噪声程度是否达到了预设门限值,判断所述邮件图像是否为垃圾邮件图像。借助于本发明的技术方案,提高了通过含噪声程度进行垃圾邮件图像识别技术的识别精度。本发明还公开了一种垃圾邮件图像识别装置,包括图像区域划分模块、图像分解模块、含噪程度计算模块和图像判别模块。

Description

一种垃圾邮件图像识别方法及装置
技术领域
本发明涉及互联网安全技术领域,特别是涉及一种垃圾邮件图像识别方法及装置。
背景技术
图像型垃圾邮件是指通过图像的方式传播垃圾内容的垃圾邮件,图像既可以包含在邮件附件或正文中,也可以托管于其他网站。
垃圾邮件图像是指图像型垃圾邮件中含有垃圾信息的图像,如具有特定目的的政治、宗教图像,具有商业目的的宣传图像,色情图像等。
图像型垃圾邮件的一个重要特征是垃圾邮件发送者往往将原本通过文本方式发送的内容嵌入图像中发送。现有垃圾邮件过滤系统对图像型垃圾邮件进行过滤的通行做法是,首先利用OCR(Optical Character Recognition,光学字符识别)方法提取图像中的文字内容,然后用文本分析方法对所提取的文字内容进行判别,并以此做为图像是否为垃圾邮件图像的判别依据。为逃避垃圾邮件过滤系统的过滤,垃圾邮件发送者往往在发送的图像中加入大量干扰,从而大大降低OCR方法对图像文字的识别效率,影响文本内容分类器的准确率。
由于垃圾邮件图像中大量含有为逃避过滤而添加的干扰噪声,因此对于OCR方法无法识别的邮件图像,可以用图像中含噪声的程度作为垃圾邮件图像判别的重要依据。目前,人们已针对垃圾邮件图像的判别方法进行了大量研究,但是利用图像中含噪声的程度进行垃圾邮件判别的方法还很少。
目前,利用图像中含噪声的程度进行垃圾邮件判别的方法为:用连通域(同一个颜色区域)周长的平方除以连通域面积的方法来判断文字区域含有噪声的程度,并据此来判别图像是否为垃圾邮件图像。该方法采用连通域周长的平方除以联通域面积来判断文字区域含有噪声的程度。但是,普通文字的周长的平方除以面积的结果会在一个较大的区域内变动,不同类型的文字,该值所处区域也有较大差别,难以和不同类型的噪声进行较为准确的区分。因而,用这类方法判别的准确程度较差。
发明内容
针对上述现有技术存在的问题与缺陷,本发明提出一种垃圾邮件图像识别方法及装置,能够显著提高通过含噪声程度进行垃圾邮件图像识别技术的识别精度。
为解决上述技术问题,本发明垃圾邮件图像识别方法包括:
将邮件图像划分为文本区域和非文本区域,非文本区域又称为背景图像;
将所述非文本区域从空域变换到频域,并分解为两个以上特定方向的细节子图像;
对各个细节子图像中的高频系数进行统计分析,计算邮件图像的含噪声程度;
根据所述邮件图像的含噪声程度是否达到了预设门限值,判断所述邮件图像是否为垃圾邮件图像。
进一步地,将邮件图像划分为文本区域和非文本区域,是采用形态学方法对邮件图像进行文本区域定位来实现的。
进一步地,将所述非文本区域从空域变换到频域,采用的变换方法为小波变换方法或傅里叶变换方法。
进一步地,所述两个以上特定方向,是指水平方向、垂直方向和对角方向。
进一步地,对各个细节子图像中的高频系数进行统计分析,计算邮件图像的含噪声程度,包括:
对各个细节子图像中包含的噪声连通域的面积求总和,将该面积总和与所述非文本区域的面积求比值,作为邮件图像的含噪声程度。
更进一步地,对各个细节子图像中包含的噪声连通域的面积求总和,采用的方法包括:
将所述各个细节子图像叠加到一起,得到一个图像,称为噪声特征图像,然后对该噪声特征图像中包含的噪声连通域的面积求总和。
再进一步地,对各个细节子图像中包含的噪声连通域的面积求总和,采用的方法还包括:
在对所述各个细节子图像进行叠加之前,分别对所述各个细节子图像进行二值化处理。
更进一步地,所述对各个细节子图像中包含的噪声连通域的面积求总和,采用的方法包括:
根据连通域的特征,判断该连通域是否为噪声区域对应的连通域,即噪声连通域,若是,则该连通域参与面积求和;若不是,则该连通域不参与面积求和。
再进一步地,判断该连通域是否为噪声区域对应的连通域,具体包括:
按既定的分类标准将噪声分为若干个类别;
判断该连通域是否属于其中某个类别,若属于其中任一类别,则该连通域为噪声区域对应的连通域;若不属于其中任一类别,则该连通域不为噪声区域对应的连通域。
又进一步地,所述既定的分类标准为:
将噪声分为三类:点状噪声、直线噪声和块状噪声;
其中,点状噪声满足:L≤q,W≤q;
直线噪声满足:min(L,W)≤s,R≥p;
块状噪声满足:L≤q,W≤q,R<p,N/A≥0.5;
其中,1≤q≤6;p为大于等于2的自然数,取5至20为佳;5≤s≤15;
其中,L为连通域外接水平矩形的长,W为连通域外接水平矩形的宽,R为连通域外接水平矩形的长与宽之比,N为连通域的面积,A为连通域外接水平矩形的面积。
为解决上述技术问题,本发明垃圾邮件图像识别装置包括:
图像区域划分模块,用于将邮件图像划分为文本区域和非文本区域;
图像分解模块,用于将所述非文本区域从空域变换到频域,并分解为两个以上特定方向的细节子图像;
含噪程度计算模块,用于对各个细节子图像中的高频系数进行统计分析,计算邮件图像的含噪声程度;
图像判别模块,用于根据所述邮件图像的含噪声程度是否达到了预设门限值,判断所述邮件图像是否为垃圾邮件图像。
进一步地,将邮件图像划分为文本区域和非文本区域,是采用形态学方法对邮件图像进行文本区域定位来实现的。
进一步地,将所述非文本区域从空域变换到频域,采用的变换方法为小波变换方法或傅里叶变换方法。
进一步地,所述两个以上特定方向,是指水平方向、垂直方向和对角方向。
进一步地,对各个细节子图像中的高频系数进行统计分析,计算邮件图像的含噪声程度,包括:
对各个细节子图像中包含的噪声连通域的面积求总和,将该面积总和与所述非文本区域的面积求比值,作为邮件图像的含噪声程度。
更进一步地,对各个细节子图像中包含的噪声连通域的面积求总和,采用的方法包括:
将所述各个细节子图像叠加到一起,得到一个图像,称为噪声特征图像,然后对该噪声特征图像中包含的噪声连通域的面积求总和。
再进一步地,对各个细节子图像中包含的噪声连通域的面积求总和,采用的方法还包括:
在对所述各个细节子图像进行叠加之前,分别对所述各个细节子图像进行二值化处理。
更进一步地,所述对各个细节子图像中包含的噪声连通域的面积求总和,采用的方法包括:
根据连通域的特征,判断该连通域是否为噪声区域对应的连通域,即噪声连通域,若是,则该连通域参与面积求和;若不是,则该连通域不参与面积求和。
再进一步地,判断该连通域是否为噪声区域对应的连通域,具体包括:
按既定的分类标准将噪声分为若干个类别;
判断该连通域是否属于其中某个类别,若属于其中任一类别,则该连通域为噪声区域对应的连通域;若不属于其中任一类别,则该连通域不为噪声区域对应的连通域。
又进一步地,所述既定的分类标准为:
将噪声分为三类:点状噪声、直线噪声和块状噪声;
其中,点状噪声满足:L≤q,W≤q;
直线噪声满足:min(L,W)≤s,R≥p;
块状噪声满足:L≤q,W≤q,R<p,N/A≥0.5;
其中,1≤q≤6;p为大于等于2的自然数,取5至20为佳;5≤s≤15;
其中,L为连通域外接水平矩形的长,W为连通域外接水平矩形的宽,R为连通域外接水平矩形的长与宽之比,N为连通域的面积,A为连通域外接水平矩形的面积。
本发明有益效果如下:
(1)由于本发明将图像中的文字部分和非文字部分进行了区分,因而有效地避免了文字信息对噪声度量结果的干扰;
(2)空域中的噪声多呈现为频域中的高频分量,因此通过对背景图像进行小波分解后的高频系数进行统计分析可以近似获取背景图像中包含噪声的程度。本发明使用小波变换对背景区域图像进行一层Haar小波分解,获得垂直、水平、对角三个方向的细节子图像,该三个细节子图像分别包含垂直、水平和对角方向的高频系数,通过连通域特征分析,有效反应了不同类型的干扰噪声;
(3)本发明只需要使用简单的图像操作,计算开销小。
附图说明
图1为本发明实施例的垃圾邮件图像识别方法流程示意图;
图2为本发明实施例的垃圾邮件图像识别装置结构示意图。
具体实施方式
以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
由于空域中的噪声多呈现为频域中的高频分量,因此本发明首先将图像划分为文本区域和非文本区域,然后将非文本区域从空域转化为频域的两个以上特定方向的细节子图像,然后通过对细节子图像中连通域的统计分析,来获取邮件图像中的含噪声程度,从而为判断是否为垃圾邮件图像提供参考。
图1为本发明实施例的垃圾邮件图像识别方法流程示意图,如图1所示,该实施例中,本发明垃圾邮件图像识别方法具体包括如下步骤:
步骤S101,将邮件图像划分为文本区域和非文本区域。
该步骤中,采用通用的形态学方法对邮件图像进行文本区域定位,将邮件图像划分为文本区域和非文本区域,非文本区域又称为背景图像。当然,将邮件图像划分为文本区域和非文本区域不限于采用形态学方法,也可以采用其它图像划分方法来实现。
步骤S102,将非文本区域从空域变换到频域,并分解为两个以上特定方向的细节子图像。
将非文本区域从空域变换到频域,采用的变换方法可以为小波变换方法或傅里叶变换方法,当然,也可以为其它任何实现图像从空域到频域变换的方法。
本实施例中,两个以上特定方向,是指水平方向、垂直方向和对角方向。当然,具体实施时,不限于上述方向,也可以为其它方向。
下面以采用小波变换方法,将背景图像分解为水平、垂直和对角方向的三个细节子图像为例,对该步骤做进一步说明。
小波变换是信号处理的一种研究方法,适合对信号进行局部分析。二维小波变换能够对图像进行多分辨率分析,能有效地获取图像在不同方向下的频域特征。本实施例中,利用HWT(Haar Wavelet Transform,哈尔小波变换)方法,在分辨率2j(j为正整数)下,背景图像被分解为如下四个子图像:
A2jB={<B(x,y),φ2j(x-2-jn)φ2j(y-2-jm)>}
其中,m和n为整数,<·,·>表示标量积运算,φ2j(x)=2jφ(2jx),尺度函数φ可看作一个低通滤波器,小波函数可看作一个高通滤波器,则A2jB是图像在分辨率2j下的一个近似尺度子图像,分别为图像在分辨率2j下的水平、垂直和对角方向的细节子图像。
该实施例中,首先对背景图像进行一层哈尔小波分解,则水平、垂直和对角方向的三个细节子图像中包含的高频系数分量分别对应于空域中这三个方向的噪声变化区域。
步骤S103,对各个细节子图像中的高频系数进行统计分析,计算邮件图像的含噪声程度。
该实施例中,是对各个细节子图像中包含的噪声连通域的面积求总和,将该面积总和与非文本区域的面积求比值,作为邮件图像的含噪声程度。即求取水平、垂直与对角三个方向的细节子图像中所包含的噪声连通域的面积总和,然后以该面积总和与背景图像面积的比值作为邮件图像的含噪声程度。
该实施例中,为了便于求取三个方向的细节子图像中所包含的噪声连通域面积的总和,采用了如下措施:
将三个方向的细节子图像叠加到一起,得到一个图像,称为噪声特征图像,然后对该噪声特征图像中包含的噪声连通域的面积求总和。
在对三个方向的细节子图像进行叠加之前,还可以分别对该三个方向的细节子图像进行二值化处理,以便于图像中的连通域特征进行分析。该实施例中,是采用阈值a进行二值化处理的,阈值a可取0.5,当然,也可以取大于0小于1之间的其他值。
就是说,该实施例中,将分别进行二值化处理后,分别得到图像HB、VB和DB,然后将HB、VB和DB进行或运算,即得到噪声特征图像。
当然,本发明具体实施时,三个方向的细节子图像也可以不进行叠加,分别求取三个细节子图像中的噪声连通域面积之和,然后将三个细节子图像中求得的噪声连通域面积之和再加到一起,即得到该三个细节子图像中所包含的噪声连通域面积的总和。
为提高垃圾邮件图像判别的准确率,该步骤还可以包括如下处理:
在对各个细节子图像中包含的噪声连通域的面积求总和时,根据连通域的特征,判断该连通域是否为噪声区域对应的连通域,即噪声连通域,若是,则该连通域参与面积求和;若不是,则该连通域不参与面积求和。
其中,判断某个连通域是否为噪声区域对应的连通域,具体方案为:
1)按既定的分类标准将噪声分为若干个类别;
通过求取噪声特征图像的噪声连通域,可近似获取对应于空域图像(即背景图像)中的噪声区域。
该实施例中,采用4连通方法,对噪声特征图像中的连通域进行检测。
对检测出的连通域,根据既定的分类方法进行分类。具体的分类标准如表一所示。
表一、噪声分类标准表
如表一所示,该实施例中,既定的分类标准为:
将噪声分为三类:点状噪声、直线噪声和块状噪声;
其中,点状噪声满足:L≤q,W≤q;
直线噪声满足:min(L,W)≤s,R≥p;
块状噪声满足:L≤q,W≤q,R<p,N/A≥0.5;
其中,1≤q≤6;p为大于等于2的自然数,取5至20为佳;5≤s≤15;
其中,L为连通域外接水平矩形的长,W为连通域外接水平矩形的宽,R为连通域外接水平矩形的长与宽之比,N为连通域的面积,A为连通域外接水平矩形的面积。
当然,分类标准不限于上述标准,这里只是具体举了一个例子,本发明方法具体实现时,可以将噪声分为其它种类,或者各类噪声分类时采用其他方法或参数,只要该分类标准能够将背景图像中的噪声区域与频域的三个细节子图像中的噪声连通域特征对应起来,均不影响本发明方法的实施。
2)判断该连通域是否属于其中某个噪声类别,若属于其中任一噪声类别,则该连通域为噪声区域对应的连通域,即该连通域为噪声连通域;若不属于其中任一噪声类别,则该连通域不为噪声区域对应的连通域。
本发明具体实施时,判断某个连通域是否为噪声区域对应的连通域,本领域技术人员也可以采用其他技术手段来实施,不限于采用上述具体的判断方案。
步骤S104,根据邮件图像的含噪声程度是否达到了预设门限值,判断邮件图像是否为垃圾邮件图像。
通常,背景图像中包含噪声区域较多的图像为垃圾邮件图像。本发明中,将噪声区域面积与图像非文字区域(背景区域)面积比值作为判定图像中噪声含量的度量依据。例如,将噪声区域面积与背景区域面积比值大于25%的图像判定为高度可疑的垃圾邮件图像。
当然,该步骤所谓判断邮件图像是否为垃圾邮件图像,仅是判断是否为可疑的垃圾邮件图像,或者说判断为垃圾邮件图像的概率较大,并不能确认为垃圾邮件图像。
噪声干扰特征已成为当前垃圾邮件图像的一个显著特征。本发明提供的方法区别于传统的垃圾邮件图像过滤方法,没有直接从图像内容去分析垃圾邮件图像,而是从一个侧面,即邮件图像中含噪声的程度来判别其是垃圾邮件图像的可能性。
本方法可以和OCR方法进行配合使用,从而成为垃圾邮件图像过滤中的重要一环。例如。如果垃圾邮件发送者未在图像中加入干扰,则所发送的图像很可能被OCR方法识别出来,并进行过滤;如果垃圾邮件发送者在图像中加入大量干扰,虽然OCR方法对它的识别能力下降,但所含的大量干扰会被本发明提出的方法识别出来,并进行过滤。
图2为本发明实施例的垃圾邮件图像识别装置结构示意图,如图2所示,该实施例中,垃圾邮件图像识别装置具体包括图像区域划分模块201、图像分解模块202、含噪程度计算模块203和图像判别模块204。
具体地,图像区域划分模块201用于将邮件图像划分为文本区域和非文本区域。
该实施例中,图像区域划分模块201采用通用的形态学方法对邮件图像进行文本区域定位,将邮件图像划分为文本区域和非文本区域,非文本区域又称为背景图像。当然,将邮件图像划分为文本区域和非文本区域不限于采用形态学方法,也可以采用其它图像划分方法来实现。
图像分解模块202用于将非文本区域从空域变换到频域,并分解为两个以上特定方向的细节子图像。
图像分解模块202将非文本区域从空域变换到频域,采用的变换方法可以为小波变换方法或傅里叶变换方法,当然,也可以为其它任何实现图像从空域到频域变换的方法。本实施例中,两个以上特定方向,是指水平方向、垂直方向和对角方向。当然,具体实施时,不限于上述方向,也可以为其它方向。
下面以采用小波变换方法,将背景图像分解为水平、垂直和对角方向的三个细节子图像为例,对该模块做进一步说明。
小波变换是信号处理的一种研究方法,适合对信号进行局部分析。二维小波变换能够对图像进行多分辨率分析,能有效地获取图像在不同方向下的频域特征。本实施例中,利用哈尔小波变换方法,在分辨率2j(j为正整数)下,背景图像被分解为如下四个子图像:
A2jB={<B(x,y),φ2j(x-2-jn)φ2j(y-2-jm)>}
其中,m和n为整数,<·,·>表示标量积运算,φ2j(x)=2jφ(2jx),尺度函数φ可看作一个低通滤波器,小波函数可看作一个高通滤波器,则A2jB是图像在分辨率2j下的一个近似尺度子图像,分别为图像在分辨率2j下的水平、垂直和对角方向的细节子图像。
该实施例中,首先对背景图像进行一层哈尔小波分解,则水平、垂直和对角方向的三个细节子图像中包含的高频系数分量分别对应于空域中这三个方向的噪声变化区域。
含噪程度计算模块203用于对各个细节子图像中的高频系数进行统计分析,计算邮件图像的含噪声程度。
该实施例中,含噪程度计算模块203对各个细节子图像中包含的噪声连通域的面积求总和,将该面积总和与非文本区域的面积求比值,作为邮件图像的含噪声程度。即求取水平、垂直与对角三个方向的细节子图像中所包含的噪声连通域的面积总和,然后以该面积总和与背景图像面积的比值作为邮件图像的含噪声程度。
该实施例中,为了便于求取三个方向的细节子图像中所包含的噪声连通域面积的总和,采用了如下措施:
将三个方向的细节子图像叠加到一起,得到一个图像,称为噪声特征图像,然后对该噪声特征图像中包含的噪声连通域的面积求总和。
在对三个方向的细节子图像进行叠加之前,还可以分别对该三个方向的细节子图像进行二值化处理,以便于对图像中的连通域特征进行分析。该实施例中,是采用阈值a进行二值化处理的,阈值a可取0.5,当然,也可以取大于0小于1之间的其他值。
本发明具体实施时,三个方向的细节子图像也可以不进行叠加,分别求取三个细节子图像中的噪声连通域面积之和,然后将三个细节子图像中求得的噪声连通域面积之和再加到一起,即得到该三个细节子图像中所包含的噪声连通域面积的总和。
为提高垃圾邮件图像判别的准确率,该模块还可以包括如下处理:
在对各个细节子图像中包含的噪声连通域的面积求总和时,根据连通域的特征,判断该连通域是否为噪声区域对应的连通域,若是,则该连通域参与面积求和;若不是,则该连通域不参与面积求和。
其中,判断某个连通域是否为噪声区域对应的连通域,具体方案为:
1)按既定的分类标准将噪声分为若干个类别;
该实施例中,既定的分类标准为:
将噪声分为三类:点状噪声、直线噪声和块状噪声;
其中,点状噪声满足:L≤q,W≤q;
直线噪声满足:min(L,W)≤s,R≥p;
块状噪声满足:L≤q,W≤q,R<p,N/A≥0.5;
其中,1≤q≤6;p为大于等于2的自然数,取5至20为佳;5≤s≤15;
其中,L为连通域外接水平矩形的长,W为连通域外接水平矩形的宽,R为连通域外接水平矩形的长与宽之比,N为连通域的面积,A为连通域外接水平矩形的面积。
当然,分类标准不限于上述标准,这里只是具体举了一个例子,本发明装置具体实现时,可以将噪声分为其它种类,或者各类噪声分类时采用其他方法或参数,只要该分类标准能够将背景图像中的噪声区域与频域的三个细节子图像中的噪声连通域特征对应起来,均不影响本发明装置的实施。
2)判断该连通域是否属于其中某个噪声类别,若属于其中任一噪声类别,则该连通域为噪声区域对应的连通域;若不属于其中任一噪声类别,则该连通域不为噪声区域对应的连通域。
本发明具体实施时,判断某个连通域是否为噪声区域对应的连通域,本领域技术人员也可以采用其他技术手段来实施,不限于采用上述具体的判断方案。
图像判别模块204用于根据邮件图像的含噪声程度是否达到了预设门限值,判断邮件图像是否为垃圾邮件图像。
本发明中,将噪声区域面积与图像非文字区域面积比值作为判定图像中噪声含量的度量依据。例如,将噪声区域面积与背景区域面积比值大于25%的图像判定为高度可疑的垃圾邮件图像。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (7)

1.一种垃圾邮件图像识别方法,其特征在于,包括:
将邮件图像划分为文本区域和非文本区域;
将所述非文本区域从空域变换到频域,并分解为两个以上特定方向的细节子图像;
对各个细节子图像中的高频系数进行统计分析,计算邮件图像的含噪声程度;其中,对各个细节子图像中的高频系数进行统计分析,计算邮件图像的含噪声程度包括:对各个细节子图像中包含的噪声连通域的面积求总和,将该面积总和与所述非文本区域的面积求比值,作为邮件图像的含噪声程度;其中,对各个细节子图像中包含的噪声连通域的面积求总和具体包括:
将所述各个细节子图像叠加到一起,得到一个图像,称为噪声特征图像,按既定的分类标准将噪声分为若干个类别;判断该连通域是否属于其中某个类别,若属于其中任一类别,则该连通域为噪声区域对应的连通域;若不属于其中任一类别,则该连通域不为噪声区域对应的连通域,然后对该噪声特征图像中包含的噪声连通域的面积求总和;
根据所述邮件图像的含噪声程度是否达到了预设门限值,判断所述邮件图像是否为垃圾邮件图像。
2.如权利要求1所述的垃圾邮件图像识别方法,其特征在于,将所述非文本区域从空域变换到频域,采用的变换方法为小波变换方法或傅里叶变换方法。
3.如权利要求1所述的垃圾邮件图像识别方法,其特征在于,所述两个以上特定方向,是指水平方向、垂直方向和对角方向。
4.如权利要求1所述的垃圾邮件图像识别方法,其特征在于,对各个细节子图像中包含的噪声连通域的面积求总和,采用的方法还包括:
在对所述各个细节子图像进行叠加之前,分别对所述各个细节子图像进行二值化处理。
5.如权利要求1或4所述的垃圾邮件图像识别方法,其特征在于,所述对各个细节子图像中包含的噪声连通域的面积求总和,采用的方法包括:
根据连通域的特征,判断该连通域是否为噪声区域对应的连通域,若是,则该连通域参与面积求和;若不是,则该连通域不参与面积求和。
6.如权利要求1所述的垃圾邮件图像识别方法,其特征在于,所述既定的分类标准为:
将噪声分为三类:点状噪声、直线噪声和块状噪声;
其中,点状噪声满足:L≤q,W≤q;
直线噪声满足:min(L,W)≤s,R≥p;
块状噪声满足:L≤q,W≤q,R<p,N/A≥0.5;
其中,1≤q≤6;p为大于等于2的自然数;5≤s≤15;
其中,L为连通域外接水平矩形的长,W为连通域外接水平矩形的宽,R为连通域外接水平矩形的长与宽之比,N为连通域的面积,A为连通域外接水平矩形的面积。
7.一种垃圾邮件图像识别装置,其特征在于,包括:
图像区域划分模块,用于将邮件图像划分为文本区域和非文本区域;
图像分解模块,用于将所述非文本区域从空域变换到频域,并分解为两个以上特定方向的细节子图像;
含噪程度计算模块,用于对细节子图像中的高频系数进行统计分析,计算邮件图像的含噪声程度;其中,含噪程度计算模块具体用于:对各个细节子图像中包含的噪声连通域的面积求总和,将该面积总和与非文本区域的面积求比值,作为邮件图像的含噪声程度;含噪程度计算模块具体用于:
将所述各个细节子图像叠加到一起,得到一个图像,称为噪声特征图像,按既定的分类标准将噪声分为若干个类别;判断该连通域是否属于其中某个类别,若属于其中任一类别,则该连通域为噪声区域对应的连通域;若不属于其中任一类别,则该连通域不为噪声区域对应的连通域,然后对该噪声特征图像中包含的噪声连通域的面积求总和;
图像判别模块,用于根据所述邮件图像的含噪声程度是否达到了预设门限值,判断所述邮件图像是否为垃圾邮件图像。
CN201110435765.4A 2011-12-22 2011-12-22 一种垃圾邮件图像识别方法及装置 Expired - Fee Related CN102542290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110435765.4A CN102542290B (zh) 2011-12-22 2011-12-22 一种垃圾邮件图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110435765.4A CN102542290B (zh) 2011-12-22 2011-12-22 一种垃圾邮件图像识别方法及装置

Publications (2)

Publication Number Publication Date
CN102542290A CN102542290A (zh) 2012-07-04
CN102542290B true CN102542290B (zh) 2015-04-15

Family

ID=46349140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110435765.4A Expired - Fee Related CN102542290B (zh) 2011-12-22 2011-12-22 一种垃圾邮件图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN102542290B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103237006A (zh) * 2013-03-21 2013-08-07 蓝盾信息安全技术股份有限公司 互联网出口检查系统中对图片中文字内容审计的方法
CN104715248B (zh) * 2015-03-19 2018-10-23 无锡华云数据技术服务有限公司 一种对邮件广告图片的识别方法
TWI741791B (zh) * 2020-09-16 2021-10-01 南亞科技股份有限公司 晶圓檢驗方法及系統

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100492400C (zh) * 2007-07-27 2009-05-27 哈尔滨工程大学 手指静脉特征提取与匹配识别方法

Also Published As

Publication number Publication date
CN102542290A (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
Kang et al. Robust median filtering forensics using an autoregressive model
CN102081731B (zh) 一种从图像中提取文本的方法和装置
US8792682B2 (en) Method and system for identifying a license plate
CN108052980B (zh) 基于图像的空气质量等级检测方法
CN102163284B (zh) 面向中文环境的复杂场景文本定位方法
CN106709866B (zh) 证件照去除网格水印的方法及装置、人脸验证方法及装置
US8620080B2 (en) Methods and systems for locating text in a digital image
Sabourin et al. Off-line identification with handwritten signature images: survey and perspectives
Paunwala et al. A novel multiple license plate extraction technique for complex background in Indian traffic conditions
TW201218129A (en) A vehicle registration-plate detecting method and system thereof
CN104573700B (zh) 一种褶皱票据鉴别方法及装置
WO2016045215A1 (zh) 指纹图像质量的判断方法和装置
CN110929635B (zh) 基于信任机制下面部交并比的假脸视频检测方法及系统
Saha et al. Automatic localization and recognition of license plate characters for Indian vehicles
CN102542290B (zh) 一种垃圾邮件图像识别方法及装置
CN110728277A (zh) 一种印章智能检测与识别的方法
Kanani et al. Vehicle license plate localization using wavelets
CN103295238B (zh) 安卓平台上基于roi运动检测的视频实时定位方法
CN108269221B (zh) 一种jpeg重压缩图像篡改定位方法
EP3579182A1 (en) Image processing device, image recognition device, image processing program, and image recognition program
Wang et al. Comprehensive criteria-based generalized steganalysis feature selection method
CN111767909A (zh) 一种字符识别方法、设备及计算机可读存储介质
CN110717412A (zh) 一种检测恶意pdf文档的方法及系统
CN106778675A (zh) 一种视频图像中目标对象的识别方法和装置
CN106530199A (zh) 基于窗口式假设检验的多媒体综合隐写分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150415

Termination date: 20151222

EXPY Termination of patent right or utility model