CN102663435B

CN102663435B - 基于半监督的垃圾图片过滤方法

Info

Publication number: CN102663435B
Application number: CN2012101292347A
Authority: CN
Inventors: 张卫丰; 胡文婷; 张迎周; 周国强; 王慕妮; 钱小燕; 许碧欢; 陆柳敏
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2012-04-28
Filing date: 2012-04-28
Publication date: 2013-12-11
Anticipated expiration: 2032-04-28
Also published as: CN102663435A

Abstract

基于半监督的垃圾图片过滤技术研究对图像型垃圾邮件进行检测判定工作时，先提取文本和图片特征进行特征处理，利用已经得到的分类模型进行检测分类，并不断加入新的标签样本，训练分类器，提高分类精度同时误判率将大大降低。经大量实验数据检验证明，该方法构建了一种高效率垃圾邮件网页过滤系统，在保证高准确率的同时，处理效率有很大的提高，并显著减小网页检测时间。

Description

基于半监督的垃圾图片过滤方法

技术领域

本发明是一种通过半监督学习方法，利用已标签图片样例，来训练支持向量机算法模型，对图像型垃圾邮件进行检测的实现方案，主要解决了当今的技术对图像型垃圾邮件检测效率和召回率低等问题，属于数据挖掘和机器学习领域。

背景技术

文本型垃圾邮件过滤技术的不断提高，驱使着垃圾邮件制造者们探索新的垃圾邮件制作技术。于是，图像型垃圾邮件便成为了当今盛行的垃圾信息传播媒介。根据McAfee在2007年的报告，图像型垃圾邮件在所有垃圾邮件中所占的比例大约是30%。图像型垃圾邮件是将广告等垃圾信息以文本的形式嵌入到图片中，作为电子邮件的附件或者直接作为其正文内容，肆意地传播给电子邮件客户端。

Battista Biggio等人在2007年提出了一种通过计算图像周长复杂度的方法[5]来判别图片是否经过了模糊技术的处理。图像的复杂度可以由周长复杂度来衡量的，计算公式为P2/A（P指的是文字区域的周长，A指的是文字区域的面积）。计算灰度图像的每个对象的周长复杂度可以标识断字符或者是噪音对象的出现，也就可以判断出图像是自然生成的还是人工处理过的。然而由于不能证实经过模糊处理的图像就是携带垃圾信息的图像，这种处理技术只能作为垃圾邮件过滤系统中预处理某个模块。Ngo Phuong Nhung与Tu Minh Phuong提出了通过挖掘图片的边缘特征的方法[6]，最后使用支持向量机作为分类工具。该方法是通过比较从Email中提取出的图片与样本图片的边缘特征，然后使用支持向量机将这些特征向量分类。使用边缘特征来检测图像Spam能够获取80%的准确率，这类分类算法的优点在于使用边缘特征能够获取文本密集的形状规律性而且计算量不大，而存在的不足之处在于对于模版上文字字体的改变的反应比较迟钝。

Klangpraphant, P.等人在2010年提出的方法特征是基于图像内容的信息检索。从网络中收到邮件之后，将邮件分成图像型和关键字型邮件。关键字型邮件就直接以5*5矩阵的形式呈现给用户；而图像型邮件则进行特征比较。首先，建立一个垃圾图像的特征集，再将图像邮件的特征跟之比较，相似度高达3/4以上的就可归为垃圾图像；否则就进行下一步比较。比较结果的差别率在10%以下归为垃圾图像；相反，差别率在10%以上就将图像以5*5矩阵的形式呈献给用户。

2010年Yan Gao提出了分别从服务器端与客户端进行图像型垃圾邮件过滤。服务器端利用基于非负稀疏矩阵的相似性检测。该检测方法是基于一个基本假设：集合中的任何数据样本或者特征向量可以由同一个聚类中的一小组样本的非负线性组合来表示。但是事先并不知道一个样本属于哪个聚类，所以提出通过求一个最优化问题得到非负线性组合的系数矩阵，处理后得到相似性矩阵，从而成功识别出该样本所在聚类，完成相似性检测过程。客户端是利用两种主动学习方法，分别是基于支持向量机的和基于高斯分布的主动学习分类器。主动学习的主要思想是使用标签好的训练集来训练基于主动学习的分类器，然后使用该分类器对未标签的数据集进行分类，根据分类器的最高的分类结果来判断未标签的数据集是否需要标签，继而更新标签集合与未标签集合。

本文提出通过在线学习来训练支持向量机的算法，以得到一个高精确度且稳定的分类器。由于获取已标签的样本需要耗费大量的人力、物力，而获取未标签的样本则相对容易的多。所以，我们需要做的工作是从未标签的样本中提取含信息量丰富的样本点，加入并更新训练集合。从而利用不断更新的训练集来训练支持向量机，直到其分类精确度趋于稳定，得到高精确的分类结果。

[1] Battista Biggio,Giorgio Fumera,Ignazio Pillai,Fabio Ro Image spam filtering by content obscuring detection Fourth Conference on Email and Anti-Spam, August 2-3, 2007

[3] Yan Gao, Alok Choudhary . Sparsity induced similaritymeasure for label propagation.

2009 IEEE 12th International Conference on Computer Vision (ICCV) 。

发明内容

技术问题：本发明的目的是提供一种基于半监督的垃圾图片过滤方，通过半监督学习方法，利用已标签图片样例，来训练支持向量机算法模型，对图像型垃圾邮件检测的实现方案，主要解决了当今的技术对图片型垃圾邮件检测效率和召回率低等问题。

技术方案：半监督学习下的支持向量机算法主要基于一个聚类假设，即指同一聚类中的样本点很可能有同种标签。这个假设可以通过另一种等价的方式进行表达，那就是决策边界所穿过的区域应当是数据点较为稀疏的区域，原因在于，如果决策边界穿过数据点较为密集的区域那就很有可能将一个聚类中的样本点分为不同的类别这与聚类假设矛盾。

对样本中的所有的数据包括标记的与未标记的建立一个分类界面，在学习过程中，调整分类界面，使得“间隔”最大，而且尽量避过数据较为密集的区域。

随着数据采集技术和存储技术的发展，获取大量未标签样例比较容易。而由于需要耗费一定的人力和物力，获取大量已标签样例则相对比较难。因而我们需要研究如何利用少量已标签样例和大量的未标签样例来提高学习性能的半监督学习。主要步骤如下：

该方法主要包括以下几个部分：图片中的文本、图片特征提取及处理，预测样本点的选择，支持向量机分类器的训练；

步骤1）提取未标签和已标签图片样本中的文本特征向量：

步骤1.1）利用光学识别技术对样本集合中的图片进行批量处理，得到图片中的文字，

步骤1.2）用怀卡智能分析环境对步骤1.1）中的结果进行处理，得到.arff格式的文件，文件中每一行的第一列代表一个图像中的文字，第二列代表一个图像的标签，作为图像的文本特征向量，

步骤1.3）计算文本特征向量的R值，得到经过处理的文本特征向量，计算公式如下：

(1)

其中t是一个特征，C是目标分类，

Figure 2012101292347100002DEST_PATH_IMAGE002

是非目标分类，r是一个可调因子，在0到1间取值，是t在C中出现的概率，

Figure 2012101292347100002DEST_PATH_IMAGE004

是t在中出现的概率，计算如下：

Figure 2012101292347100002DEST_PATH_IMAGE006

(2)

(3)

其中

Figure 2012101292347100002DEST_PATH_IMAGE008

和

分别是在C和

中有t出现的文档的个数，和

别是C和

中的文档数；

步骤2）提取图片特征向量：

采用“健壮特征的加速提取算法”提取样本图片的局部不变特征描述符，构成图片特征向量；

步骤3）主动学习提取预测样本：

步骤3.1）用已标签的图片集对支持向量机进行训练，得到一个支持向量分类器，

步骤3.2）设支持向量机的线性函数为g(x)= w(x)+b，其中x是样本点的向量表示，w，b为常数，

步骤3.3）定义一个样本点到线性函数的距离为

，并根据该公式计算未标签数据集中图片样本点的距离，选择距离最近的未标签的样本加入训练集，以此得到更新后的训练集；

步骤4）训练支持向量机：

用更新后的训练集，对原支持向量机算法模型进行训练，当训练所得支持向量机的分类精确度与训练前分类器精确度趋于一致时，分类器已趋于稳定，此时，停止训练；否则，返回步骤3.3）计算得到离超平面最近的样本点，计入并更新训练集合，继续训练分类器，直至分类器趋于稳定；

步骤5）用最终训练得到的分类器对未标签样本集合进行分类，得到高精确且稳定的分类结果。

有益效果：本发明方法提出了利用半监督学习，根据少量已标签样本来训练支持向量机模型以对垃圾邮件进行检测。通过使用本发明的方法，能够提高垃圾邮件检测的精度和效率，节省程序运算时间和空间。

附图说明

图1是本发明方案提取样本文本特征的流程图。

图2是本发明方案在半监督学习时期，训练支持向量机的流程图。

图3是本发明方案的主要算法流程图。

具体实施方式

步骤1）初始样本选择：

从互联网上共享的图像型垃圾邮件数据库中下载图像型垃圾邮件，以及从私人邮箱里收集到的图像型垃圾邮件以及正常邮件中的图像集合，组成样本集合。

步骤2）文本特征提取：

步骤 2.1）利用光学字符识别技术对文件中的图像进行批量处理，得到每张图像的文本特征。

步骤2.2）保存步骤2.1）的文本提取结果，保存形式为每张图片的文字分别保存在一个.txt文本文件中，并分别归入垃圾图像文件夹与正常图像文件夹中。

步骤 2.3）利用怀卡托智能分析环境将步骤 2.2）的结果都归一到一个.arff文件中，且文件中每一行的第一列代表一个图像中的文字，第二列代表一个图像的标签，作为图像的文本特征向量。

步骤 3）使用R-值特征选择方法，把各个类别中的特征分开排名。根据得到的文本特征向量，计算R值，得到处理后的特征向量。计算公式如下：

(1)

其中t是一个特征。C是目标分类，

是非目标分类。r是一个可调因子，在0到1间取值。

是t在C中出现的概率。

是t在

中出现的概率。计算如下：

(2)

(3)

其中

和

分别是在C和

中有t出现的文档的个数。

和

别是C和

中的文档数。

步骤4）图片特征向量提取：

采用“健壮特征的加速提取算法”提取样本图片的局部不变特征描述符，构成图片特征向量。

步骤5）基于在线学习的样本选择：

用已标签样本集对支持向量机进行训练，获得一个在线支持向量机分类器的最初模型。在整个在线学习过程中，以样本点到支持向量机平面的距离为依据，选择距离最近的加入训练集。

步骤5.1）对样本集合进行标记。设未标签的图片集合为

，Y={1,2...}为所有可能的标签标号。已标签的图片集合为

。

步骤5.2）用已标签的图片集对支持向量机进行训练，得到一个分类效果比较弱的支持向量分类器。

步骤5.3）设支持向量机的线性函数为g(x)= w(x)+b，其中x是样本点的向量表示，w，b为常数。

步骤5.4）我们定义一个样本点到线性函数的距离为

，并根据该公式计算未标签图片集中图片样本点的距离。

步骤5.5）对步骤5.4）中计算的距离进行比较，选择距离最近的未标签样本图片加入训练集。

步骤6）支持向量机算法模型的更新：

根据新加入的标签样本，更新训练集，并对原支持向量机算法模型进行训练。当训练所得支持向量机的分类精确度与训练前分类器精确度趋于一致时，分类器已趋于稳定，此时，停止训练。否则，返回步骤5.4），从而计算得到离超平面最近的样本点，计入并更新训练集合，继续训练分类器，直至分类器趋于稳定。

步骤7）用最终训练得到的分类器对未标签样本集合进行分类，得到高精确且稳定的分类结果。

Claims

1.一种基于半监督的垃圾图片过滤方法，其特征在于该方法主要包括以下几个部分：图片中的文本、图片特征提取及处理，预测样本点的选择，支持向量机分类器的训练；

步骤1）提取未标签和已标签图片样本中的文本特征向量：

步骤1.2）用怀卡托智能分析环境对步骤1.1）中的结果进行处理，得到.arff格式的文件，文件中每一行的第一列代表一个图像中的文字，第二列代表一个图像的标签，作为图像的文本特征向量，

其中t是一个特征，C是目标分类，是非目标分类，r是一个可调因子，在0到1间取值，P(t|C)是t在C中出现的概率，

是t在

中出现的概率，计算如下：

其中|C_t|和分别是在C和

中有t出现的文档的个数，|C|和

别是C和

中的文档数；

步骤2）提取图片特征向量：

步骤3）主动学习提取预测样本：

步骤3.2）设支持向量机的线性函数为g(x)=w(x)+b，其中x是样本点的向量表示，w，b为常数，

步骤3.3）定义一个样本点到线性函数的距离为

并根据该公式计算未标签数据集中图片样本点的距离，选择距离最近的未标签的样本加入训练集，以此得到更新后的训练集；

步骤4）训练支持向量机：