CN102663435B - 基于半监督的垃圾图片过滤方法 - Google Patents

基于半监督的垃圾图片过滤方法 Download PDF

Info

Publication number
CN102663435B
CN102663435B CN2012101292347A CN201210129234A CN102663435B CN 102663435 B CN102663435 B CN 102663435B CN 2012101292347 A CN2012101292347 A CN 2012101292347A CN 201210129234 A CN201210129234 A CN 201210129234A CN 102663435 B CN102663435 B CN 102663435B
Authority
CN
China
Prior art keywords
training
picture
label
image
support vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2012101292347A
Other languages
English (en)
Other versions
CN102663435A (zh
Inventor
张卫丰
胡文婷
张迎周
周国强
王慕妮
钱小燕
许碧欢
陆柳敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN2012101292347A priority Critical patent/CN102663435B/zh
Publication of CN102663435A publication Critical patent/CN102663435A/zh
Application granted granted Critical
Publication of CN102663435B publication Critical patent/CN102663435B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

基于半监督的垃圾图片过滤技术研究对图像型垃圾邮件进行检测判定工作时,先提取文本和图片特征进行特征处理,利用已经得到的分类模型进行检测分类,并不断加入新的标签样本,训练分类器,提高分类精度同时误判率将大大降低。经大量实验数据检验证明,该方法构建了一种高效率垃圾邮件网页过滤系统,在保证高准确率的同时,处理效率有很大的提高,并显著减小网页检测时间。

Description

基于半监督的垃圾图片过滤方法
技术领域
本发明是一种通过半监督学习方法,利用已标签图片样例,来训练支持向量机算法模型,对图像型垃圾邮件进行检测的实现方案,主要解决了当今的技术对图像型垃圾邮件检测效率和召回率低等问题,属于数据挖掘和机器学习领域。
背景技术
文本型垃圾邮件过滤技术的不断提高,驱使着垃圾邮件制造者们探索新的垃圾邮件制作技术。于是,图像型垃圾邮件便成为了当今盛行的垃圾信息传播媒介。根据McAfee在2007年的报告,图像型垃圾邮件在所有垃圾邮件中所占的比例大约是30%。图像型垃圾邮件是将广告等垃圾信息以文本的形式嵌入到图片中,作为电子邮件的附件或者直接作为其正文内容,肆意地传播给电子邮件客户端。
Battista Biggio等人在2007年提出了一种通过计算图像周长复杂度的方法[5]来判别图片是否经过了模糊技术的处理。图像的复杂度可以由周长复杂度来衡量的,计算公式为P2/A(P指的是文字区域的周长,A指的是文字区域的面积)。计算灰度图像的每个对象的周长复杂度可以标识断字符或者是噪音对象的出现,也就可以判断出图像是自然生成的还是人工处理过的。然而由于不能证实经过模糊处理的图像就是携带垃圾信息的图像,这种处理技术只能作为垃圾邮件过滤系统中预处理某个模块。Ngo Phuong Nhung与Tu Minh Phuong提出了通过挖掘图片的边缘特征的方法[6],最后使用支持向量机作为分类工具。该方法是通过比较从Email中提取出的图片与样本图片的边缘特征,然后使用支持向量机将这些特征向量分类。使用边缘特征来检测图像Spam能够获取80%的准确率,这类分类算法的优点在于使用边缘特征能够获取文本密集的形状规律性而且计算量不大,而存在的不足之处在于对于模版上文字字体的改变的反应比较迟钝。
Klangpraphant, P.等人在2010年提出的方法特征是基于图像内容的信息检索。从网络中收到邮件之后,将邮件分成图像型和关键字型邮件。关键字型邮件就直接以5*5矩阵的形式呈现给用户;而图像型邮件则进行特征比较。首先,建立一个垃圾图像的特征集,再将图像邮件的特征跟之比较,相似度高达3/4以上的就可归为垃圾图像;否则就进行下一步比较。比较结果的差别率在10%以下归为垃圾图像;相反,差别率在10%以上就将图像以5*5矩阵的形式呈献给用户。
2010年Yan Gao提出了分别从服务器端与客户端进行图像型垃圾邮件过滤。服务器端利用基于非负稀疏矩阵的相似性检测。该检测方法是基于一个基本假设:集合中的任何数据样本或者特征向量可以由同一个聚类中的一小组样本的非负线性组合来表示。但是事先并不知道一个样本属于哪个聚类,所以提出通过求一个最优化问题得到非负线性组合的系数矩阵,处理后得到相似性矩阵,从而成功识别出该样本所在聚类,完成相似性检测过程。客户端是利用两种主动学习方法,分别是基于支持向量机的和基于高斯分布的主动学习分类器。主动学习的主要思想是使用标签好的训练集来训练基于主动学习的分类器,然后使用该分类器对未标签的数据集进行分类,根据分类器的最高的分类结果来判断未标签的数据集是否需要标签,继而更新标签集合与未标签集合。
本文提出通过在线学习来训练支持向量机的算法,以得到一个高精确度且稳定的分类器。由于获取已标签的样本需要耗费大量的人力、物力,而获取未标签的样本则相对容易的多。所以,我们需要做的工作是从未标签的样本中提取含信息量丰富的样本点,加入并更新训练集合。从而利用不断更新的训练集来训练支持向量机,直到其分类精确度趋于稳定,得到高精确的分类结果。
[1] Battista Biggio,Giorgio Fumera,Ignazio Pillai,Fabio Ro Image spam filtering by content obscuring detection Fourth Conference on Email and Anti-Spam, August 2-3, 2007
[2] Pattarapom Klangpraphant .detect image spam with content base information retrieval. 978-1-4244-5540-9/10/$26.00 ©2010 IEEE
[3] Yan Gao, Alok Choudhary . Sparsity induced similaritymeasure for label propagation.
2009 IEEE 12th International Conference on Computer Vision (ICCV) 。
发明内容
技术问题:本发明的目的是提供一种基于半监督的垃圾图片过滤方,通过半监督学习方法,利用已标签图片样例,来训练支持向量机算法模型,对图像型垃圾邮件检测的实现方案,主要解决了当今的技术对图片型垃圾邮件检测效率和召回率低等问题。
技术方案:半监督学习下的支持向量机算法主要基于一个聚类假设,即指同一聚类中的样本点很可能有同种标签。这个假设可以通过另一种等价的方式进行表达,那就是决策边界所穿过的区域应当是数据点较为稀疏的区域,原因在于,如果决策边界穿过数据点较为密集的区域那就很有可能将一个聚类中的样本点分为不同的类别这与聚类假设矛盾。
对样本中的所有的数据包括标记的与未标记的建立一个分类界面,在学习过程中,调整分类界面,使得“间隔”最大,而且尽量避过数据较为密集的区域。
随着数据采集技术和存储技术的发展,获取大量未标签样例比较容易。 而由于需要耗费一定的人力和物力,获取大量已标签样例则相对比较难。因而我们需要研究如何利用少量已标签样例和大量的未标签样例来提高学习性能的半监督学习。主要步骤如下:
该方法主要包括以下几个部分:图片中的文本、图片特征提取及处理,预测样本点的选择,支持向量机分类器的训练;
步骤1)提取未标签和已标签图片样本中的文本特征向量:
步骤1.1)利用光学识别技术对样本集合中的图片进行批量处理,得到图片中的文字,
步骤1.2)用怀卡智能分析环境对步骤1.1)中的结果进行处理,得到.arff格式的文件,文件中每一行的第一列代表一个图像中的文字,第二列代表一个图像的标签,作为图像的文本特征向量,
步骤1.3)计算文本特征向量的R值,得到经过处理的文本特征向量,计算公式如下:
(1)
其中t是一个特征,C是目标分类,
Figure 2012101292347100002DEST_PATH_IMAGE002
是非目标分类,r是一个可调因子,在0到1间取值,是t在C中出现的概率,
Figure 2012101292347100002DEST_PATH_IMAGE004
是t在中出现的概率,计算如下:
Figure 2012101292347100002DEST_PATH_IMAGE006
(2)
(3)
其中
Figure 2012101292347100002DEST_PATH_IMAGE008
Figure 202343DEST_PATH_IMAGE009
分别是在C和
Figure 119484DEST_PATH_IMAGE005
中有t出现的文档的个数,
Figure 210805DEST_PATH_IMAGE011
别是C和
Figure 606014DEST_PATH_IMAGE002
中的文档数;
步骤2)提取图片特征向量:
采用“健壮特征的加速提取算法”提取样本图片的局部不变特征描述符,构成图片特征向量;
步骤3)主动学习提取预测样本:
步骤3.1)用已标签的图片集对支持向量机进行训练,得到一个支持向量分类器,
步骤3.2)设支持向量机的线性函数为g(x)= w(x)+b,其中x是样本点的向量表示,w,b为常数,
步骤3.3)定义一个样本点到线性函数的距离为
Figure DEST_PATH_IMAGE012
,并根据该公式计算未标签数据集中图片样本点的距离,选择距离最近的未标签的样本加入训练集,以此得到更新后的训练集;
步骤4)训练支持向量机:
用更新后的训练集,对原支持向量机算法模型进行训练,当训练所得支持向量机的分类精确度与训练前分类器精确度趋于一致时,分类器已趋于稳定,此时,停止训练;否则,返回步骤3.3)计算得到离超平面最近的样本点,计入并更新训练集合,继续训练分类器,直至分类器趋于稳定;
步骤5)用最终训练得到的分类器对未标签样本集合进行分类,得到高精确且稳定的分类结果。
有益效果:本发明方法提出了利用半监督学习,根据少量已标签样本来训练支持向量机模型以对垃圾邮件进行检测。通过使用本发明的方法,能够提高垃圾邮件检测的精度和效率,节省程序运算时间和空间。
附图说明
图1是本发明方案提取样本文本特征的流程图。
图2是本发明方案在半监督学习时期,训练支持向量机的流程图。
图3是本发明方案的主要算法流程图。
具体实施方式
步骤1)初始样本选择:
从互联网上共享的图像型垃圾邮件数据库中下载图像型垃圾邮件,以及从私人邮箱里收集到的图像型垃圾邮件以及正常邮件中的图像集合,组成样本集合。
步骤2)文本特征提取:
步骤 2.1)利用光学字符识别技术对文件中的图像进行批量处理,得到每张图像的文本特征。
步骤2.2)保存步骤2.1)的文本提取结果,保存形式为每张图片的文字分别保存在一个.txt文本文件中,并分别归入垃圾图像文件夹与正常图像文件夹中。
步骤 2.3)利用怀卡托智能分析环境将步骤 2.2)的结果都归一到一个.arff文件中,且文件中每一行的第一列代表一个图像中的文字,第二列代表一个图像的标签,作为图像的文本特征向量。
步骤 3)使用R-值特征选择方法,把各个类别中的特征分开排名。根据得到的文本特征向量,计算R值,得到处理后的特征向量。计算公式如下:
(1)
其中t是一个特征。C是目标分类,
Figure 305166DEST_PATH_IMAGE002
是非目标分类。r是一个可调因子,在0到1间取值。
Figure 385249DEST_PATH_IMAGE003
是t在C中出现的概率。
Figure 584149DEST_PATH_IMAGE004
是t在
Figure 253028DEST_PATH_IMAGE005
中出现的概率。计算如下:
Figure 308708DEST_PATH_IMAGE006
(2)
Figure 63038DEST_PATH_IMAGE013
(3)
其中
Figure DEST_PATH_IMAGE014
Figure 108704DEST_PATH_IMAGE009
分别是在C和
Figure 632090DEST_PATH_IMAGE005
中有t出现的文档的个数。
Figure 124251DEST_PATH_IMAGE010
Figure 365876DEST_PATH_IMAGE011
别是C和
Figure 641000DEST_PATH_IMAGE002
中的文档数。
步骤4)图片特征向量提取:
采用“健壮特征的加速提取算法”提取样本图片的局部不变特征描述符,构成图片特征向量。
步骤5)基于在线学习的样本选择:
用已标签样本集对支持向量机进行训练,获得一个在线支持向量机分类器的最初模型。在整个在线学习过程中,以样本点到支持向量机平面的距离为依据,选择距离最近的加入训练集。
步骤5.1) 对样本集合进行标记。设未标签的图片集合为
Figure 97520DEST_PATH_IMAGE015
,Y={1,2...}为所有可能的标签标号。已标签的图片集合为
Figure DEST_PATH_IMAGE016
步骤5.2)用已标签的图片集对支持向量机进行训练,得到一个分类效果比较弱的支持向量分类器。
步骤5.3)设支持向量机的线性函数为g(x)= w(x)+b,其中x是样本点的向量表示,w,b为常数。
步骤5.4)我们定义一个样本点到线性函数的距离为
Figure 495003DEST_PATH_IMAGE012
,并根据该公式计算未标签图片集中图片样本点的距离。
步骤5.5)对步骤5.4)中计算的距离进行比较,选择距离最近的未标签样本图片加入训练集。
步骤6)支持向量机算法模型的更新:
根据新加入的标签样本,更新训练集,并对原支持向量机算法模型进行训练。当训练所得支持向量机的分类精确度与训练前分类器精确度趋于一致时,分类器已趋于稳定,此时,停止训练。否则,返回步骤5.4),从而计算得到离超平面最近的样本点,计入并更新训练集合,继续训练分类器,直至分类器趋于稳定。
步骤7)用最终训练得到的分类器对未标签样本集合进行分类,得到高精确且稳定的分类结果。

Claims (1)

1.一种基于半监督的垃圾图片过滤方法,其特征在于该方法主要包括以下几个部分:图片中的文本、图片特征提取及处理,预测样本点的选择,支持向量机分类器的训练;
步骤1)提取未标签和已标签图片样本中的文本特征向量:
步骤1.1)利用光学识别技术对样本集合中的图片进行批量处理,得到图片中的文字,
步骤1.2)用怀卡托智能分析环境对步骤1.1)中的结果进行处理,得到.arff格式的文件,文件中每一行的第一列代表一个图像中的文字,第二列代表一个图像的标签,作为图像的文本特征向量,
步骤1.3)计算文本特征向量的R值,得到经过处理的文本特征向量,计算公式如下:
其中t是一个特征,C是目标分类,是非目标分类,r是一个可调因子,在0到1间取值,P(t|C)是t在C中出现的概率,
Figure FDA00003453905400013
是t在
Figure FDA00003453905400014
中出现的概率,计算如下:
其中|Ct|和分别是在C和
Figure FDA00003453905400018
中有t出现的文档的个数,|C|和
Figure FDA00003453905400019
别是C和
Figure FDA000034539054000110
中的文档数;
步骤2)提取图片特征向量:
采用“健壮特征的加速提取算法”提取样本图片的局部不变特征描述符,构成图片特征向量;
步骤3)主动学习提取预测样本:
步骤3.1)用已标签的图片集对支持向量机进行训练,得到一个支持向量分类器,
步骤3.2)设支持向量机的线性函数为g(x)=w(x)+b,其中x是样本点的向量表示,w,b为常数,
步骤3.3)定义一个样本点到线性函数的距离为
Figure FDA000034539054000111
并根据该公式计算未标签数据集中图片样本点的距离,选择距离最近的未标签的样本加入训练集,以此得到更新后的训练集;
步骤4)训练支持向量机:
用更新后的训练集,对原支持向量机算法模型进行训练,当训练所得支持向量机的分类精确度与训练前分类器精确度趋于一致时,分类器已趋于稳定,此时,停止训练;否则,返回步骤3.3)计算得到离超平面最近的样本点,计入并更新训练集合,继续训练分类器,直至分类器趋于稳定;
步骤5)用最终训练得到的分类器对未标签样本集合进行分类,得到高精确且稳定的分类结果。
CN2012101292347A 2012-04-28 2012-04-28 基于半监督的垃圾图片过滤方法 Expired - Fee Related CN102663435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101292347A CN102663435B (zh) 2012-04-28 2012-04-28 基于半监督的垃圾图片过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101292347A CN102663435B (zh) 2012-04-28 2012-04-28 基于半监督的垃圾图片过滤方法

Publications (2)

Publication Number Publication Date
CN102663435A CN102663435A (zh) 2012-09-12
CN102663435B true CN102663435B (zh) 2013-12-11

Family

ID=46772919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101292347A Expired - Fee Related CN102663435B (zh) 2012-04-28 2012-04-28 基于半监督的垃圾图片过滤方法

Country Status (1)

Country Link
CN (1) CN102663435B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104702492B (zh) * 2015-03-19 2019-10-18 百度在线网络技术(北京)有限公司 垃圾消息模型训练方法、垃圾消息识别方法及其装置
CN107545271B (zh) * 2016-06-29 2021-04-09 阿里巴巴集团控股有限公司 图像识别方法、装置和系统
CN106294590B (zh) * 2016-07-29 2019-05-31 重庆邮电大学 一种基于半监督学习的社交网络垃圾用户过滤方法
CN107832765A (zh) * 2017-09-13 2018-03-23 百度在线网络技术(北京)有限公司 对包括文字内容和图像内容的图片识别
CN111527528A (zh) * 2017-11-15 2020-08-11 天使游戏纸牌股份有限公司 识别系统
CN109740693B (zh) * 2019-01-18 2021-05-18 北京细推科技有限公司 数据识别方法和装置
CN110163296B (zh) * 2019-05-29 2020-12-18 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
CN110298338B (zh) * 2019-06-20 2021-08-24 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN113657334B (zh) * 2021-08-25 2023-01-20 展讯通信(天津)有限公司 图片识别方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819637B (zh) * 2010-04-02 2012-02-22 南京邮电大学 利用图片的局部不变特征检测图像型垃圾邮件的方法
CN101887523B (zh) * 2010-06-21 2013-04-10 南京邮电大学 利用图片文字与局部不变特征检测图像垃圾邮件的方法
CN102129568B (zh) * 2011-04-29 2012-09-05 南京邮电大学 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法

Also Published As

Publication number Publication date
CN102663435A (zh) 2012-09-12

Similar Documents

Publication Publication Date Title
CN102663435B (zh) 基于半监督的垃圾图片过滤方法
CN108804512A (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN107908715A (zh) 基于Adaboost和分类器加权融合的微博情感极性判别方法
CN107169001A (zh) 一种基于众包反馈和主动学习的文本分类模型优化方法
CN107122375A (zh) 基于图像特征的图像主体的识别方法
CN102129568B (zh) 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法
CN108090048B (zh) 一种基于多元数据分析的高校评价系统
Seth et al. Multimodal spam classification using deep learning techniques
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN103886108B (zh) 一种不均衡文本集的特征选择和权重计算方法
CN106095966B (zh) 一种用户可扩展的标签标注方法及系统
CN103795612A (zh) 即时通讯中的垃圾和违法信息检测方法
CN102098235A (zh) 一种基于文本特征分析的钓鱼邮件检测方法
Shen et al. On robust image spam filtering via comprehensive visual modeling
CN105912716A (zh) 一种短文本分类方法及装置
CN102170447A (zh) 一种基于最近邻及相似度测量检测钓鱼网页的方法
JP2012042990A (ja) 画像識別情報付与プログラム及び画像識別情報付与装置
CN103020645A (zh) 一种垃圾图片识别方法和系统
CN104239872A (zh) 异态汉字识别方法
CN105791543A (zh) 一种清理短信的方法、装置、客户端和系统
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN109471932A (zh) 基于学习模型的谣言检测方法、系统及存储介质
Wang et al. Image spam classification based on low-level image features
CN107544961A (zh) 一种社交媒体评论的情感分析方法、设备及其存储设备
CN106650696A (zh) 一种基于奇异值分解的手写电气元件符号识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20120912

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000213

Denomination of invention: Junk image filtering method based on semi-supervision

Granted publication date: 20131211

License type: Common License

Record date: 20161118

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
EC01 Cancellation of recordation of patent licensing contract
EC01 Cancellation of recordation of patent licensing contract

Assignee: Jiangsu Nanyou IOT Technology Park Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2016320000213

Date of cancellation: 20180116

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131211

Termination date: 20190428