CN101520848A - 一种图像型垃圾邮件的过滤方法 - Google Patents
一种图像型垃圾邮件的过滤方法 Download PDFInfo
- Publication number
- CN101520848A CN101520848A CN200810100949A CN200810100949A CN101520848A CN 101520848 A CN101520848 A CN 101520848A CN 200810100949 A CN200810100949 A CN 200810100949A CN 200810100949 A CN200810100949 A CN 200810100949A CN 101520848 A CN101520848 A CN 101520848A
- Authority
- CN
- China
- Prior art keywords
- image
- fourier
- spam email
- feature
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000001914 filtration Methods 0.000 title abstract description 5
- 238000012549 training Methods 0.000 claims abstract description 32
- 230000009467 reduction Effects 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 15
- 238000000513 principal component analysis Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007789 sealing Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种图像型垃圾邮件的过滤方法,包括:收集图像型垃圾邮件样本,建立图像型垃圾邮件训练集;从该训练集中提取训练集图像的傅立叶-梅林不变量特征作为图像的底层特征;对该傅立叶-梅林不变量特征进行分析降维,得到用于分类的低维特征向量;采用该低维特征向量训练分类器模型,采用该分类器模型对新邮件样本进行分类。利用本发明,大大减轻了正常电子邮件用户受到垃圾邮件骚扰的危害。
Description
技术领域
本发明涉及计算机应用技术领域,特别涉及一种图像型垃圾邮件的过滤方法。
背景技术
电子邮件系统在给人们提供便捷通信手段的同时,也导致互联网上的垃圾信息泛滥成灾。垃圾邮件的内容充斥着商业欺诈、暴力、色情、反动政治宣传等,而且还逐渐成为计算机病毒的主要载体,严重影响了互联网的健康发展。
随着垃圾邮件检测与过滤技术的不断发展与提高,垃圾邮件不断衍生出许多新的形式。其中,图像型垃圾邮件是逃避当前业已广泛采用的针对邮件文本内容过滤技术的有效方式。图像型垃圾邮件是指垃圾邮件制造者将垃圾信息嵌入到图像中,进而利用各种图像变换手段来进一步伪装垃圾信息的邮件形式。
一方面,图像型垃圾邮件严重增加了电子邮件系统的负担,因为其所占空间相对于普通垃圾邮件来说大大增加,另一方面,图像型垃圾邮件使检测难度大大增加,目前广泛采用的基于文本内容的过滤器对其基本无能为力。
正因为图像型垃圾邮件被拦截的概率低,而且其宣传效果要好于单纯的文本型垃圾邮件,近年来受到了垃圾邮件制造者的青睐,目前已占垃圾邮件总数的40%左右,而且还有进一步上升的趋势。
当前已有的针对图像型垃圾邮件过滤手段主要是采用光学字符识别(OCR),以及提取图像文本底层特征等方法。但采用光学字符识别只能对图像背景较为简单,字符变形不是特别严重的情况下适用,而且存在算法时间复杂度高,局限性大等缺点。
发明内容
(一)要解决的技术问题
有鉴于此,本发明的主要目的是提供一种图像型垃圾邮件的过滤方法,以减轻正常电子邮件用户受到垃圾邮件骚扰的危害。
(二)技术方案
为达到上述目的,本发明提供了一种图像型垃圾邮件的过滤方法,该方法包括:
收集图像型垃圾邮件样本,建立图像型垃圾邮件训练集;
从该训练集中提取训练集图像的傅立叶-梅林不变量特征作为图像的底层特征;
对该傅立叶-梅林不变量特征进行分析降维,得到用于分类的低维特征向量;
采用该低维特征向量训练分类器模型,采用该分类器模型对新邮件样本进行分类。
优选地,所述收集图像型垃圾邮件样本的步骤中,尽可能多地收集垃圾邮件样本,并进一步提取垃圾邮件样本中的图像文件。
优选地,所述傅立叶-梅林不变量特征的提取过程为:对输入图像f(m,n)作快速傅立叶变换得到复数矩阵,取该复数矩阵幅值得到|F(P,q)|矩阵,然后对|F(p,q)|矩阵作坐标变换,将笛卡尔坐标系变换为对数极坐标系,得到矩阵I(ρ,θ);对矩阵I(ρ,θ)再做一次快速傅立叶变换,并取其幅值得到傅立叶-梅林不变量特征矩阵|F{I(ρ,θ)}|,将傅立叶-梅林不变量特征矩阵按行展开,得到一维向量,即为傅立叶-梅林不变量特征。
优选地,所述对输入图像f(m,n)作快速傅立叶变换的步骤中,采用以下公式:
优选地,所述对该傅立叶-梅林不变量特征进行分析降维,采用主成份分析PCA方法,该PCA方法进一步降低图像中加入的局部噪声干扰对特征向量的影响。
优选地,所述采用该低维特征向量训练分类器模型,采用该分类器模型对新邮件样本进行分类的步骤中,采用的分类器为一类问题分类器,该一类问题分类器支持向量描述算法SVDD来对邮件进行分类,该算法用一个封闭的球形界面来包含大部分的训练样本,那些在球面上或球面外的样本被称为支持向量;当一个新的邮件样本到来时,抽取邮件中的图像并提取特征,计算其到球心的距离,若该距离小于等于球的半径则认为该邮件是图形型垃圾邮件,否则为正常邮件。
(三)有益效果
从上述技术方案可以看出,本发明具有以下优点:
1、本发明提供的这种图像型垃圾邮件的过滤方法,由于可以对邮件中的图像进行分析,使得仅含图像不含任何文本内容的垃圾邮件不再轻而易举地逃过滤检查进入用户邮箱,所以大大减轻了正常电子邮件用户受到垃圾邮件骚扰的危害。
2、本发明提供的这种图像型垃圾邮件的过滤方法,由于所选用的傅立叶-梅林不变量底层特征,可以高效地通过两次快速傅立叶变换实现,不需要采用常规的光学字符识别这一耗时的方法,所以邮件处理速度快,效率高。
3、本发明提供的这种图像型垃圾邮件的过滤方法,由于所采用的傅立叶-梅林特征具有平移、缩放和旋转不变的性质,通过PCA降维后又降低了局部噪声干扰的影响,所以本发明所述的过滤方法对目前常见的图像型垃圾邮件变种形式均具鲁棒性。
4、本发明提供的这种图像型垃圾邮件的过滤方法,由于采用一类问题分类器,所以训练过程中只需要垃圾邮件样本集而不需要正常邮件样本集就可以对邮件进行有效分类。
附图说明
图1为常见的图像型垃圾邮件变种形式的示意图;
图2为本发明的整体框架结构示意图图;
图3为本发明提供的图像型垃圾邮件过滤方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
首先,根据观察和分析,图像型垃圾邮件往往具有批量性(同一内容的邮件往往重复发送多次)、变异性(同一主题的邮件往往有多种形式的变种:平移、旋转、缩放、局部替换以及加入背景噪声干扰等,见附图1)和共性(大部分的图像型垃圾邮件都包含嵌入式文本内容)的特点。
我们选取傅立叶-梅林(Fourier-Mellin Transform)特征作为图像底层特征,傅立叶-梅林变换具有平移、缩放和旋转不变的优良性质。因而,该特征对于大部分的图像型垃圾邮件的变种形式都具有较好的鲁棒性。首先收集大量的图像型垃圾邮件样本建立图像型垃圾邮件训练集,在该训练集上提取图像的傅立叶-梅林特征并采用主成份分析(PCA)方法得到其主成分特征,进而训练一类问题分类器对图像型垃圾邮件进行分类。之所以采用一类问题分类器,而不是传统的两类问题分类器,主要是由于正常邮件中携带图片的数量往往明显少于垃圾邮件中所携带图片的数量,并且正常邮件往往由于涉及用户的隐私,因而建立一个有代表性的正常邮件图片数据集非常困难。采用一类问题分类器只需要一类样本,即图像型垃圾邮件样本就可以有效地对邮件进行分类。
本发明的整体框架见图2,本发明的执行环境由以下三个模块组构成:
一、傅立叶-梅林变换模块,该模块的主要功能是提取图像的底层特征,得到傅立叶-梅林不变量特征矩阵。
二、主成份分析模块,该模块的主要功能是对得到的傅立叶-梅林不变量特征矩阵进行降维,通过主成份分析方法将高维的傅立叶-梅林不变量特征矩阵映射到低维空间,得到最终用来进行分类的特征向量。
三、分类模块,该模块的主要功能是通过训练得到分类器参数,并对新样本进行分类,以确定新邮件是垃圾邮件还是正常邮件。
下面结合图3,详细给出本发明技术方案中所涉及的各个步骤细节问题的说明。
步骤301:收集图像型垃圾邮件样本,建立图像型垃圾邮件训练集;此步骤尽可能多地收集垃圾邮件,并提取垃圾邮件中的图像文件。用户可以使用自己邮箱中所收集的图像型垃圾邮件作为训练集,也可以从公共的垃圾邮件语料库中提取图像作为训练集。使用个人训练集训练得到的分类器分类结果往往对用户本身具有较强的针对性,使用公共训练集训练得到的分类器分类结果更具普遍性。
步骤302:从该训练集中提取图像的傅立叶-梅林不变量特征作为图像的底层特征;傅立叶-梅林不变量特征的提取过程为:首先对输入图像f(m,n)做快速傅立叶变换(FFT)公式如下:
变换得到的矩阵为复数矩阵,取该复数矩阵幅值得到|F(p,q)|矩阵,傅立叶变换具有平移不变的特点。然后对|F(p,q)|矩阵作坐标变换,将笛卡尔坐标系变换为对数极坐标系,得到矩阵I(ρ,θ);在对数极坐标系中,原图像的旋转变换和缩放变换都转换为新坐标系中的平移变换。对矩阵I(ρ,θ)再做一次快速傅立叶变换(在对数极坐标系中所做的傅立叶变换称之为梅林变换),并取其幅值得到傅立叶-梅林不变量特征矩阵|F{I(ρ,θ)}|,矩阵|F{I(ρ,θ)}|则对平移、旋转和缩放变换均具有不变性的特点,因而该矩阵称之为傅立叶-梅林不变量特征矩阵。将傅立叶-梅林不变量特征矩阵按行展开,得到一维向量,即为傅立叶-梅林不变量特征。
步骤303:对该傅立叶-梅林不变量特征进行分析降维,得到用于分类的低维特征向量;步骤302得到的一维向量的维数往往相当高,不利于分类器分类,我们采用主成份分析(PCA)算法对其降维,得到最终用于分类的低维特征向量,同时该过程也降低了图像中加入的局部噪声干扰对特征向量的影响。
步骤304:采用该低维特征向量训练分类器模型,采用该分类器模型对新邮件样本进行分类。该步骤在上一步基础上,用提取得到的训练库特征向量训练分类器模型,得到分类器模型参数,进而对新邮件样本进行分类。我们采用一类问题的分类器支持向量描述算法(SVDD)来对邮件进行分类,该算法用一个封闭的球形界面(可以通过引入核函数来改变界面的形状)来包含住绝大部分的训练样本,那些在球面上或球面外的样本被称为支持向量。当一个新的邮件样本到来时,抽取邮件中的图像并提取特征,计算其到球心的距离,若该距离小于等于球的半径则认为该邮件是图像型垃圾邮件,否则为正常邮件。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (6)
1、一种图像型垃圾邮件的过滤方法,其特征在于,该方法包括:
收集图像型垃圾邮件样本,建立图像型垃圾邮件训练集;
从该训练集中提取训练集图像的傅立叶-梅林不变量特征作为图像的底层特征;
对该傅立叶-梅林不变量特征进行分析降维,得到用于分类的低维特征向量;
采用该低维特征向量训练分类器模型,采用该分类器模型对新邮件样本进行分类。
2、根据权利要求1所述的图像型垃圾邮件的过滤方法,其特征在于,所述收集图像型垃圾邮件样本的步骤中,尽可能多地收集垃圾邮件样本,并进一步提取垃圾邮件样本中的图像文件。
3、根据权利要求1所述的图像型垃圾邮件的过滤方法,其特征在于,所述傅立叶-梅林不变量特征的提取过程为:
对输入图像f(m,n)作快速傅立叶变换得到复数矩阵,取该复数矩阵幅值得到|F(p,q)|矩阵,然后对|F(p,q)|矩阵作坐标变换,将笛卡尔坐标系变换为对数极坐标系,得到矩阵I(ρ,θ);对矩阵I(ρ,θ)再做一次快速傅立叶变换,并取其幅值得到傅立叶-梅林不变量特征矩阵|F{I(ρ,θ)}|,将傅立叶-梅林不变量特征矩阵按行展开,得到一维向量,即为傅立叶-梅林不变量特征。
4、根据权利要求3所述的图像型垃圾邮件的过滤方法,其特征在于,所述对输入图像f(m,n)作快速傅立叶变换的步骤中,采用以下公式:
5、根据权利要求1所述的图像型垃圾邮件的过滤方法,其特征在于,所述对该傅立叶-梅林不变量特征进行分析降维,采用主成份分析PCA方法,该PCA方法进一步降低图像中加入的局部噪声干扰对特征向量的影响。
6、根据权利要求1所述的图像型垃圾邮件的过滤方法,其特征在于,所述采用该低维特征向量训练分类器模型,采用该分类器模型对新邮件样本进行分类的步骤中,采用的分类器为一类问题分类器,该一类问题分类器支持向量描述算法SVDD来对邮件进行分类,该算法用一个封闭的球形界面来包含大部分的训练样本,那些在球面上或球面外的样本被称为支持向量;当一个新的邮件样本到来时,抽取邮件中的图像并提取特征,计算其到球心的距离,若该距离小于等于球的半径则认为该邮件是图像型垃圾邮件,否则为正常邮件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810100949A CN101520848A (zh) | 2008-02-27 | 2008-02-27 | 一种图像型垃圾邮件的过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810100949A CN101520848A (zh) | 2008-02-27 | 2008-02-27 | 一种图像型垃圾邮件的过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101520848A true CN101520848A (zh) | 2009-09-02 |
Family
ID=41081429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810100949A Pending CN101520848A (zh) | 2008-02-27 | 2008-02-27 | 一种图像型垃圾邮件的过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101520848A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090961A (zh) * | 2014-07-14 | 2014-10-08 | 福州大学 | 一种基于机器学习的社交网络垃圾用户过滤方法 |
CN105139033A (zh) * | 2015-08-24 | 2015-12-09 | 小米科技有限责任公司 | 分类器构建方法及装置和图片处理方法及装置 |
CN109347719A (zh) * | 2018-09-11 | 2019-02-15 | 内蒙古工业大学 | 一种基于机器学习的图像垃圾邮件过滤方法 |
CN110048936A (zh) * | 2019-04-18 | 2019-07-23 | 合肥天毅网络传媒有限公司 | 一种语义关联词判断垃圾邮件的方法 |
CN110135512A (zh) * | 2019-05-21 | 2019-08-16 | 武汉轻工大学 | 图片的识别方法、设备、存储介质及装置 |
CN112528016A (zh) * | 2020-11-19 | 2021-03-19 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
-
2008
- 2008-02-27 CN CN200810100949A patent/CN101520848A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090961A (zh) * | 2014-07-14 | 2014-10-08 | 福州大学 | 一种基于机器学习的社交网络垃圾用户过滤方法 |
CN104090961B (zh) * | 2014-07-14 | 2017-07-04 | 福州大学 | 一种基于机器学习的社交网络垃圾用户过滤方法 |
CN105139033A (zh) * | 2015-08-24 | 2015-12-09 | 小米科技有限责任公司 | 分类器构建方法及装置和图片处理方法及装置 |
CN105139033B (zh) * | 2015-08-24 | 2018-11-06 | 小米科技有限责任公司 | 分类器构建方法及装置和图片处理方法及装置 |
CN109347719A (zh) * | 2018-09-11 | 2019-02-15 | 内蒙古工业大学 | 一种基于机器学习的图像垃圾邮件过滤方法 |
CN109347719B (zh) * | 2018-09-11 | 2021-01-15 | 内蒙古工业大学 | 一种基于机器学习的图像垃圾邮件过滤方法 |
CN110048936A (zh) * | 2019-04-18 | 2019-07-23 | 合肥天毅网络传媒有限公司 | 一种语义关联词判断垃圾邮件的方法 |
CN110048936B (zh) * | 2019-04-18 | 2021-09-10 | 宁波青年优品信息科技有限公司 | 一种语义关联词判断垃圾邮件的方法 |
CN110135512A (zh) * | 2019-05-21 | 2019-08-16 | 武汉轻工大学 | 图片的识别方法、设备、存储介质及装置 |
CN110135512B (zh) * | 2019-05-21 | 2021-07-27 | 武汉轻工大学 | 图片的识别方法、设备、存储介质及装置 |
CN112528016A (zh) * | 2020-11-19 | 2021-03-19 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
CN112528016B (zh) * | 2020-11-19 | 2024-05-07 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dredze et al. | Learning fast classifiers for image spam. | |
CN101520848A (zh) | 一种图像型垃圾邮件的过滤方法 | |
CN102098235B (zh) | 一种基于文本特征分析的钓鱼邮件检测方法 | |
CN101887523B (zh) | 利用图片文字与局部不变特征检测图像垃圾邮件的方法 | |
CN101282310B (zh) | 一种反图片垃圾邮件的方法及装置 | |
CN107038178A (zh) | 舆情分析方法和装置 | |
Naiemi et al. | An efficient character recognition method using enhanced HOG for spam image detection | |
CN107657175A (zh) | 一种基于图像特征描述子的恶意样本同源检测方法 | |
TW200949570A (en) | Method for filtering e-mail and mail filtering system thereof | |
CN102663435B (zh) | 基于半监督的垃圾图片过滤方法 | |
CN103441924A (zh) | 一种基于短文本的垃圾邮件过滤方法及装置 | |
CN101763505A (zh) | 基于投影对称性的车牌字符特征提取及分类方法 | |
CN110717426A (zh) | 基于域自适应学习的垃圾分类方法、电子设备及存储介质 | |
CN102129568A (zh) | 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法 | |
Wolf | Document ink bleed-through removal with two hidden markov random fields and a single observation field | |
Liu et al. | Efficient modeling of spam images | |
CN105930842A (zh) | 字符识别方法及装置 | |
Biggio et al. | Image Spam Filtering by Content Obscuring Detection. | |
Singh et al. | Email spam classification by support vector machine | |
CN105516941A (zh) | 一种垃圾短信的拦截方法及装置 | |
CN111985896A (zh) | 邮件过滤方法及装置 | |
Das et al. | Analysis of an image spam in email based on content analysis | |
CN106650696A (zh) | 一种基于奇异值分解的手写电气元件符号识别方法 | |
Rigaud et al. | What do we expect from comic panel extraction? | |
Ketari et al. | A study of image spam filtering techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20090902 |