CN101520848A

CN101520848A - 一种图像型垃圾邮件的过滤方法

Info

Publication number: CN101520848A
Application number: CN200810100949A
Authority: CN
Inventors: 胡卫明; 左海强; 李玺; 吴偶; 罗贯
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2008-02-27
Filing date: 2008-02-27
Publication date: 2009-09-02

Abstract

本发明公开了一种图像型垃圾邮件的过滤方法，包括：收集图像型垃圾邮件样本，建立图像型垃圾邮件训练集；从该训练集中提取训练集图像的傅立叶－梅林不变量特征作为图像的底层特征；对该傅立叶－梅林不变量特征进行分析降维，得到用于分类的低维特征向量；采用该低维特征向量训练分类器模型，采用该分类器模型对新邮件样本进行分类。利用本发明，大大减轻了正常电子邮件用户受到垃圾邮件骚扰的危害。

Description

一种图像型垃圾邮件的过滤方法

技术领域

本发明涉及计算机应用技术领域，特别涉及一种图像型垃圾邮件的过滤方法。

背景技术

电子邮件系统在给人们提供便捷通信手段的同时，也导致互联网上的垃圾信息泛滥成灾。垃圾邮件的内容充斥着商业欺诈、暴力、色情、反动政治宣传等，而且还逐渐成为计算机病毒的主要载体，严重影响了互联网的健康发展。

随着垃圾邮件检测与过滤技术的不断发展与提高，垃圾邮件不断衍生出许多新的形式。其中，图像型垃圾邮件是逃避当前业已广泛采用的针对邮件文本内容过滤技术的有效方式。图像型垃圾邮件是指垃圾邮件制造者将垃圾信息嵌入到图像中，进而利用各种图像变换手段来进一步伪装垃圾信息的邮件形式。

一方面，图像型垃圾邮件严重增加了电子邮件系统的负担，因为其所占空间相对于普通垃圾邮件来说大大增加，另一方面，图像型垃圾邮件使检测难度大大增加，目前广泛采用的基于文本内容的过滤器对其基本无能为力。

正因为图像型垃圾邮件被拦截的概率低，而且其宣传效果要好于单纯的文本型垃圾邮件，近年来受到了垃圾邮件制造者的青睐，目前已占垃圾邮件总数的40％左右，而且还有进一步上升的趋势。

当前已有的针对图像型垃圾邮件过滤手段主要是采用光学字符识别(OCR)，以及提取图像文本底层特征等方法。但采用光学字符识别只能对图像背景较为简单，字符变形不是特别严重的情况下适用，而且存在算法时间复杂度高，局限性大等缺点。

发明内容

(一)要解决的技术问题

有鉴于此，本发明的主要目的是提供一种图像型垃圾邮件的过滤方法，以减轻正常电子邮件用户受到垃圾邮件骚扰的危害。

(二)技术方案

为达到上述目的，本发明提供了一种图像型垃圾邮件的过滤方法，该方法包括：

收集图像型垃圾邮件样本，建立图像型垃圾邮件训练集；

从该训练集中提取训练集图像的傅立叶-梅林不变量特征作为图像的底层特征；

对该傅立叶-梅林不变量特征进行分析降维，得到用于分类的低维特征向量；

采用该低维特征向量训练分类器模型，采用该分类器模型对新邮件样本进行分类。

优选地，所述收集图像型垃圾邮件样本的步骤中，尽可能多地收集垃圾邮件样本，并进一步提取垃圾邮件样本中的图像文件。

优选地，所述傅立叶-梅林不变量特征的提取过程为：对输入图像f(m，n)作快速傅立叶变换得到复数矩阵，取该复数矩阵幅值得到|F(P，q)|矩阵，然后对|F(p，q)|矩阵作坐标变换，将笛卡尔坐标系变换为对数极坐标系，得到矩阵I(ρ，θ)；对矩阵I(ρ，θ)再做一次快速傅立叶变换，并取其幅值得到傅立叶-梅林不变量特征矩阵|F{I(ρ，θ)}|，将傅立叶-梅林不变量特征矩阵按行展开，得到一维向量，即为傅立叶-梅林不变量特征。

优选地，所述对输入图像f(m，n)作快速傅立叶变换的步骤中，采用以下公式：

F (p, q) = Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} f (m, n) e^{- j (2 π / M) pm} e^{- j (2 π / N) qn} .

优选地，所述对该傅立叶-梅林不变量特征进行分析降维，采用主成份分析PCA方法，该PCA方法进一步降低图像中加入的局部噪声干扰对特征向量的影响。

优选地，所述采用该低维特征向量训练分类器模型，采用该分类器模型对新邮件样本进行分类的步骤中，采用的分类器为一类问题分类器，该一类问题分类器支持向量描述算法SVDD来对邮件进行分类，该算法用一个封闭的球形界面来包含大部分的训练样本，那些在球面上或球面外的样本被称为支持向量；当一个新的邮件样本到来时，抽取邮件中的图像并提取特征，计算其到球心的距离，若该距离小于等于球的半径则认为该邮件是图形型垃圾邮件，否则为正常邮件。

(三)有益效果

从上述技术方案可以看出，本发明具有以下优点：

1、本发明提供的这种图像型垃圾邮件的过滤方法，由于可以对邮件中的图像进行分析，使得仅含图像不含任何文本内容的垃圾邮件不再轻而易举地逃过滤检查进入用户邮箱，所以大大减轻了正常电子邮件用户受到垃圾邮件骚扰的危害。

2、本发明提供的这种图像型垃圾邮件的过滤方法，由于所选用的傅立叶-梅林不变量底层特征，可以高效地通过两次快速傅立叶变换实现，不需要采用常规的光学字符识别这一耗时的方法，所以邮件处理速度快，效率高。

3、本发明提供的这种图像型垃圾邮件的过滤方法，由于所采用的傅立叶-梅林特征具有平移、缩放和旋转不变的性质，通过PCA降维后又降低了局部噪声干扰的影响，所以本发明所述的过滤方法对目前常见的图像型垃圾邮件变种形式均具鲁棒性。

4、本发明提供的这种图像型垃圾邮件的过滤方法，由于采用一类问题分类器，所以训练过程中只需要垃圾邮件样本集而不需要正常邮件样本集就可以对邮件进行有效分类。

附图说明

图1为常见的图像型垃圾邮件变种形式的示意图；

图2为本发明的整体框架结构示意图图；

图3为本发明提供的图像型垃圾邮件过滤方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

首先，根据观察和分析，图像型垃圾邮件往往具有批量性(同一内容的邮件往往重复发送多次)、变异性(同一主题的邮件往往有多种形式的变种：平移、旋转、缩放、局部替换以及加入背景噪声干扰等，见附图1)和共性(大部分的图像型垃圾邮件都包含嵌入式文本内容)的特点。

我们选取傅立叶-梅林(Fourier-Mellin Transform)特征作为图像底层特征，傅立叶-梅林变换具有平移、缩放和旋转不变的优良性质。因而，该特征对于大部分的图像型垃圾邮件的变种形式都具有较好的鲁棒性。首先收集大量的图像型垃圾邮件样本建立图像型垃圾邮件训练集，在该训练集上提取图像的傅立叶-梅林特征并采用主成份分析(PCA)方法得到其主成分特征，进而训练一类问题分类器对图像型垃圾邮件进行分类。之所以采用一类问题分类器，而不是传统的两类问题分类器，主要是由于正常邮件中携带图片的数量往往明显少于垃圾邮件中所携带图片的数量，并且正常邮件往往由于涉及用户的隐私，因而建立一个有代表性的正常邮件图片数据集非常困难。采用一类问题分类器只需要一类样本，即图像型垃圾邮件样本就可以有效地对邮件进行分类。

本发明的整体框架见图2，本发明的执行环境由以下三个模块组构成：

一、傅立叶-梅林变换模块，该模块的主要功能是提取图像的底层特征，得到傅立叶-梅林不变量特征矩阵。

二、主成份分析模块，该模块的主要功能是对得到的傅立叶-梅林不变量特征矩阵进行降维，通过主成份分析方法将高维的傅立叶-梅林不变量特征矩阵映射到低维空间，得到最终用来进行分类的特征向量。

三、分类模块，该模块的主要功能是通过训练得到分类器参数，并对新样本进行分类，以确定新邮件是垃圾邮件还是正常邮件。

下面结合图3，详细给出本发明技术方案中所涉及的各个步骤细节问题的说明。

步骤301：收集图像型垃圾邮件样本，建立图像型垃圾邮件训练集；此步骤尽可能多地收集垃圾邮件，并提取垃圾邮件中的图像文件。用户可以使用自己邮箱中所收集的图像型垃圾邮件作为训练集，也可以从公共的垃圾邮件语料库中提取图像作为训练集。使用个人训练集训练得到的分类器分类结果往往对用户本身具有较强的针对性，使用公共训练集训练得到的分类器分类结果更具普遍性。

步骤302：从该训练集中提取图像的傅立叶-梅林不变量特征作为图像的底层特征；傅立叶-梅林不变量特征的提取过程为：首先对输入图像f(m，n)做快速傅立叶变换(FFT)公式如下：

F (p, q) = Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} f (m, n) e^{- j (2 π / M) pm} e^{- j (2 π / N) qn} - - - (1)

变换得到的矩阵为复数矩阵，取该复数矩阵幅值得到|F(p，q)|矩阵，傅立叶变换具有平移不变的特点。然后对|F(p，q)|矩阵作坐标变换，将笛卡尔坐标系变换为对数极坐标系，得到矩阵I(ρ，θ)；在对数极坐标系中，原图像的旋转变换和缩放变换都转换为新坐标系中的平移变换。对矩阵I(ρ，θ)再做一次快速傅立叶变换(在对数极坐标系中所做的傅立叶变换称之为梅林变换)，并取其幅值得到傅立叶-梅林不变量特征矩阵|F{I(ρ，θ)}|，矩阵|F{I(ρ，θ)}|则对平移、旋转和缩放变换均具有不变性的特点，因而该矩阵称之为傅立叶-梅林不变量特征矩阵。将傅立叶-梅林不变量特征矩阵按行展开，得到一维向量，即为傅立叶-梅林不变量特征。

步骤303：对该傅立叶-梅林不变量特征进行分析降维，得到用于分类的低维特征向量；步骤302得到的一维向量的维数往往相当高，不利于分类器分类，我们采用主成份分析(PCA)算法对其降维，得到最终用于分类的低维特征向量，同时该过程也降低了图像中加入的局部噪声干扰对特征向量的影响。

步骤304：采用该低维特征向量训练分类器模型，采用该分类器模型对新邮件样本进行分类。该步骤在上一步基础上，用提取得到的训练库特征向量训练分类器模型，得到分类器模型参数，进而对新邮件样本进行分类。我们采用一类问题的分类器支持向量描述算法(SVDD)来对邮件进行分类，该算法用一个封闭的球形界面(可以通过引入核函数来改变界面的形状)来包含住绝大部分的训练样本，那些在球面上或球面外的样本被称为支持向量。当一个新的邮件样本到来时，抽取邮件中的图像并提取特征，计算其到球心的距离，若该距离小于等于球的半径则认为该邮件是图像型垃圾邮件，否则为正常邮件。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1、一种图像型垃圾邮件的过滤方法，其特征在于，该方法包括：

收集图像型垃圾邮件样本，建立图像型垃圾邮件训练集；

2、根据权利要求1所述的图像型垃圾邮件的过滤方法，其特征在于，所述收集图像型垃圾邮件样本的步骤中，尽可能多地收集垃圾邮件样本，并进一步提取垃圾邮件样本中的图像文件。

3、根据权利要求1所述的图像型垃圾邮件的过滤方法，其特征在于，所述傅立叶-梅林不变量特征的提取过程为：

对输入图像f(m，n)作快速傅立叶变换得到复数矩阵，取该复数矩阵幅值得到|F(p，q)|矩阵，然后对|F(p，q)|矩阵作坐标变换，将笛卡尔坐标系变换为对数极坐标系，得到矩阵I(ρ，θ)；对矩阵I(ρ，θ)再做一次快速傅立叶变换，并取其幅值得到傅立叶-梅林不变量特征矩阵|F{I(ρ，θ)}|，将傅立叶-梅林不变量特征矩阵按行展开，得到一维向量，即为傅立叶-梅林不变量特征。

4、根据权利要求3所述的图像型垃圾邮件的过滤方法，其特征在于，所述对输入图像f(m，n)作快速傅立叶变换的步骤中，采用以下公式：

F (p, q) = Σ_{m = 0}^{M - 1} Σ_{n = 0}^{N - 1} f (m, n) e^{- j (2 π / M) pm} e^{- j (2 π / N) qn} .

5、根据权利要求1所述的图像型垃圾邮件的过滤方法，其特征在于，所述对该傅立叶-梅林不变量特征进行分析降维，采用主成份分析PCA方法，该PCA方法进一步降低图像中加入的局部噪声干扰对特征向量的影响。

6、根据权利要求1所述的图像型垃圾邮件的过滤方法，其特征在于，所述采用该低维特征向量训练分类器模型，采用该分类器模型对新邮件样本进行分类的步骤中，采用的分类器为一类问题分类器，该一类问题分类器支持向量描述算法SVDD来对邮件进行分类，该算法用一个封闭的球形界面来包含大部分的训练样本，那些在球面上或球面外的样本被称为支持向量；当一个新的邮件样本到来时，抽取邮件中的图像并提取特征，计算其到球心的距离，若该距离小于等于球的半径则认为该邮件是图像型垃圾邮件，否则为正常邮件。