CN102103700A - 基于陆地移动距离的相似度检测图像型垃圾邮件的方法 - Google Patents

基于陆地移动距离的相似度检测图像型垃圾邮件的方法 Download PDF

Info

Publication number
CN102103700A
CN102103700A CN 201110020901 CN201110020901A CN102103700A CN 102103700 A CN102103700 A CN 102103700A CN 201110020901 CN201110020901 CN 201110020901 CN 201110020901 A CN201110020901 A CN 201110020901A CN 102103700 A CN102103700 A CN 102103700A
Authority
CN
China
Prior art keywords
picture
rubbish
threshold value
similarity
spam
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110020901
Other languages
English (en)
Inventor
张卫丰
王宗辉
张迎周
周国强
陆柳敏
许碧欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN 201110020901 priority Critical patent/CN102103700A/zh
Publication of CN102103700A publication Critical patent/CN102103700A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

基于陆地移动距离的相似度检测图像型垃圾邮件的方法,利用了尺度不变特征转换算法来提取图片中垃圾信息的不变区域特征,使用陆地移动距离计算待测图片与垃圾邮件特征库中图片的相似度,从而检测出图像型垃圾邮件。本发明提供了一种使用图片的局部不变特征的基于陆地移动距离的相似度检测图像型垃圾邮件的方法。目前现有的利用相似度检测图像型垃圾邮件技术主要是使用欧式距离,而欧式距离无法处理结构大小可变的特征,需要先对特征进行聚类规范化特征,因此影响了检测速度。本发明利用陆地移动距离直接处理结构大小可变的局部不变特征,大大提高了图像型垃圾邮件的检测速度,同时保证了高精确度和低误判率。

Description

基于陆地移动距离的相似度检测图像型垃圾邮件的方法
技术领域
本发明是一种提取图片的局部不变特征,利用陆地移动距离的相似度测量方法,对图像型垃圾邮件检测的实现方案,主要解决了当今的技术对图片型垃圾邮件的检测效率和召回率低等问题,属于数据挖掘和机器学习领域。
背景技术
电子邮件已成为人们进行网络交流沟通的重要途径,但是由于巨大的商业、经济及政治利益,导致垃圾邮件数量急剧膨胀。起初盛行的图像型垃圾邮件是将广告等垃圾信息以文字形式嵌入图像中,Hrishikesh等人在利用挖掘出来的文本以及颜色特征来对邮件进行分类[1]。Fumera等人在2006年提出了一种OCR(光学字符识别)技术检测图像型垃圾邮件的文本信息,相对其他过滤系统来说,具有较好的检测效果[2]。同时垃圾邮件制造者们也在不断地增强垃圾邮件逃避检测系统的能力,他们对嵌有广告等垃圾信息的图像进行了模糊处理,这使得当时的OCR技术无法挖掘出嵌入这种图片中的文字。Dredze等人提出了利用图片的高级特征来对图片进行分类,高级特征指的是文件格式,大小,颜色分布等[3]。这种方法的优点是检测速度很快,并且具有较好的扩展性,能够与对低级特征的图片过滤器进行有效的结合。
Fumera在2007年提出了一种通过计算图像周长复杂度的方法来判别一张图片是否经过了模糊技术的处理[4]。一张图片的模糊的程度可以由周长复杂度来衡量的,计算方法为文字区域周长的平方和文字区域面积的比值。通过文字周长复杂度可以标识断字符或者是噪音对象的出现。由于不能证实经过模糊处理的图像就是携带垃圾信息的图像,这种处理技术只能作为垃圾邮件过滤系统中预处理某个模块。Zhe Wang等人提出的图像型垃圾邮件过滤方法是通过比较图像之间的相似性方法[5]:分别使用结合三类图像型垃圾邮件过滤方法(颜色直方图过滤方法、哈尔小波过滤以及方向直方图特征),实验的结果表明:每个过滤系统单独执行时,通过比较发现小波过滤获取了最好的检测率并且其误检率(将正常图片标识为垃圾图片)低于0.0009%,三类过滤器结合起来的精确率达到96%,该方法是通过结合已有的过滤系统来实现的,可以说它是对一个阶段的垃圾邮件过滤技术的一个总结,使用该方法提高了图像型垃圾邮件过滤系统的性能。
Mehta等在2008年针对使用模板而大量生成的垃圾邮件进行检测,利用重复相似性质,使用支持向量机分类器的精确度达到了98%,同时提出了利用高斯混合模型来对图片进行聚类的算法[6]:将每幅图片缩小到100×100像素点,提取每个像素的纹理形状和颜色特征,对每幅图片训练其高斯混合模型,并计算高斯混合模型之间的相近距离来聚类。通过计算阀值来分辨垃圾图片,虽然该方法采用统计学知识计算比较精确但是计算量太大,算法的时间复杂度较高,不利于在实际的应用中。随后由Zuo等提出了使用核函数为PMK的一类支持向量机分类器对电子邮件中图像的局部不变特征进行归类[7]。该方法主要是针对那些为了逃避基于图像模板相似性的过滤器,而改变图像的总体布局,保留图片中的某些局部不变特征的垃圾邮件。所以这种方法在一定程度上弥补了相似性检测的漏洞。
[1]Hrishikesh Aradhye,Gregory Myers,and James Herson.Image analysis forefficient categorization of image-based spam e-mail.In Proceedings of EighthInternational Conference on Document Analysis and Recognition,ICDAR 2005,volume 2,pages 914-918.IEEE Computer Society,2005.
[2]Giorgio Fumera,Ignazio Pillai,and Fabio Roli.Spam filtering based on theanalysis of text information embedded into images.Journal of Machine LearningResearch,(7):2699-2720,2006.
[3]Mark Dredze,Reuven Gevaryahu,and Ari Elias-Bachrach.Learning fastclassifiers for image spam.In Proceedings of the Fourth Conference on Emailand Anti-Spam,CEAS’2007,2007.
[4]Giorgio Fumera,Ignazio Pillai,Fabio Roli,and Battista Biggio.Image spamfiltering using textual and visual information,MIT Spam Conference2007,Cambridge,USA,March 2007
[5]Zhe Wang,William Josephson,Qin Lv,Moses Charikar,and Kai Li.Filteringimage spam with near-duplicate detection.In Proceedings of the FourthConterence on Email and Anti-Spam,CEAS’2007,2007.
[6]Mehta,B.,Nangia,S.,Gupta,M.,and Nejdl,W.Detecting image spam usingvisual features and near duplicate detection.In Proceeding of the 17thinternational Conference on World Wide Web(Beijing,China,April 21-25,2008).WWW′08.ACM,New York,NY,497-506.
[7]Haiqiang Zuo,Weiming Hu,Ou Wu,Yunfei Chen,Guan Luo.Detecting ImageSpam Using Local Invariant Features and Pyramid Match Kernel.Proceedings ofthe 18th international conference on World Wide Web Pages,2009,1187-1188.
发明内容
技术问题:本发明的目的是提供一种使用图片的局部不变特征的基于陆地移动距离的相似度检测图像型垃圾邮件的方法。目前现有的利用相似度检测图像型垃圾邮件技术主要是使用欧式距离,而欧式距离无法处理结构大小可变的特征,需要先对特征进行聚类规范化特征,因此影响了检测速度。本发明利用陆地移动距离直接处理结构大小可变的局部不变特征,大大提高了图像型垃圾邮件的检测速度,同时保证了高精确度和低误判率。
技术方案:图片的局部不变特征,是一种基于尺度空间的不变量技术的特征检测方法,对图像平移、旋转、缩放、甚至仿射变换保持不变性的图像局部特征。用这种方法提取图片中的不变区域特征,是结构大小可变的特征。陆地移动距离,是一种能够计算结构大小可变特征的距离的测量标准,可以用它来计算两个图片的局部不变特征的距离。
本发明提出使用陆地移动距离根据图片的局部不变特征计算图片之间的相似度,进而达到检测图像型垃圾邮件的实现方法。整个方法包括训练阈值,检测图像型邮件两大模块,系统的模块组成如图1所示。
基于陆地移动距离的相似度检测图像型垃圾邮件的方法主要分为以下步骤:
一、首先根据样本集训练阈值:
步骤1).对待训练的图片数据集进行标签,分为垃圾图片和正常图片;
步骤2).首先对每个图片进行标准化到一样的长度和宽度,然后采用尺度不变特征转换算法分别提取每个垃圾图片和正常图片的局部不变特征描述符,构造正常图片特征库与垃圾图片特征库;
步骤3).使用陆地移动距离分别计算垃圾图片集、正常图片集与垃圾图片特征库的相似度,通过对这些相似度的分析统计分别确定垃圾图片集的阈值1和正常图片集的阈值2;
步骤4).确定最终阈值为阈值1和阈值2的加权平均值;
二、然后进行检测过程:
步骤5).对于待检测的图片,首先对图片进行标准化,然后利用尺度不变特征转换算法来提取标准化后图片的局部不变特征描述符;
步骤6).计算待检测图片局部不变特征描述符与垃圾图片特征库的陆地移动距离;计算时将遍历垃圾图片特征库中每个图片的局部不变特征描述符;
步骤7).比较步骤6)得到的距离与步骤4)得到的阈值的大小,根据比较结果进行分类,如果待检测图片与垃圾图片特征库的相似度小于该阈值,则该图片为垃圾图片,否则为正常图片。
有益效果:本发明方法提出了提取图片的局部不变特征,根据这个特征使用陆地移动距离来计算两个图片的相似度,完成对图片型垃圾邮件进行检测。通过使用本发明的方法,能够提高垃圾邮件检测的精确度和召回率,节省程序运算时间和空间。
附图说明
图1基于陆地移动距离的相似度检测图像型垃圾邮件的系统原型,
图2检测阶段的分类算法流程图。
具体实施方式
基于陆地移动距离的相似度检测图像型垃圾邮件,采用VC++6.0为开发工具,其中对图像特征的处理利用opencv1.0开源库,其中详细的步骤如下:
一、获取垃圾图片特征库:
步骤1)选取M个垃圾图片并用尺度不变特征转换算法提取不变特征描述符作为垃圾图片特征库,则图片的签名为
P = { ( p 1 , ω p 1 ) , ( p 2 , ω p 2 ) , . . . , ( p m , ω p m ) } .
pi为不变特征描述符,
Figure BSA00000421370400051
为pi的权重,m为不变特征描述符的个数,i={1,2,…m}。
二、训练阈值:
步骤1)选取N个垃圾图片作为训练阈值用的垃圾图片集,选取N个正常图片作为训练阈值用的正常图片集;
步骤2)对于垃圾图片集中的一个图片,先用尺度不变特征转换算法提取局部不变特征,然后计算与垃圾图片数据库中每一个图片的陆地移动距离,并选取其中最小值,记为Di,i={1,2,…,N};
陆地移动距离公式为:
EMD ( x , y ) = Σ i ∈ I Σ j ∈ J c ij f ij Σ i ∈ I Σ j ∈ J f ij = Σ i ∈ I Σ j ∈ J c ij f ij Σ j ∈ J y j
x,y为图片的签名,cij为签名x的第i元素与签名y的第j元素的地面距离,fij由下面的约束条件得到
最小化 Σ i Σ j c ij f ij ,
满足约束
fij≥0,
Σ i f ij = w y j ,
Σ j f ij = w x i ,
步骤3)重复步骤2)直到处理完垃圾图片集中的所有图片,选取Di,i={1,2,…,N}中的最大值作为阈值1;
步骤4)对于正常图片集中的一个图片,先用尺度不变特征转换算法提取局部不变特征,然后计算与垃圾图片数据库中每一个图片的陆地移动距离,并选取其中最小值,记为Dj,j={1,2,…,N};
步骤5)重复步骤4)直到处理完正常图片集中的所有图片,选取Dj,j={1,2,…,N}中的最小值作为阈值2;
步骤6)最终阈值为阈值1和阈值2的加权平均值,权重分别为0.5和0.5;
三、检测图像型垃圾邮件:
步骤1)待检测的图片数据集为Tj,j={1,2...W},其中W为待检测的图片个数;
步骤2)利用尺度不变特征转换算法提取Tj中每张图片的局部不变特征描述符;
步骤3)计算图片与垃圾图片特征库中一个图片的陆地移动距离;
步骤4)如果距离小于阈值,则该图片为正常图片;
步骤5)否则判断垃圾图片特征库中的图片是否全部跟该图片计算过陆地移动距离,如果是,则该图片为正常图片,否则重复步骤3)-步骤4),直到得出检测结果;
步骤6)重复步骤2)-步骤5),把待检测集合中的每一个图片都进行检测。

Claims (1)

1.一种基于陆地移动距离的相似度检测图像型垃圾邮件的方法,其特征在于该方法主要分为以下步骤:
一、首先根据样本集训练阈值:
步骤1).对待训练的图片数据集进行标签,分为垃圾图片和正常图片;
步骤2).首先对每个图片进行标准化到一样的长度和宽度,然后采用尺度不变特征转换算法分别提取每个垃圾图片和正常图片的局部不变特征描述符,构造正常图片特征库与垃圾图片特征库;
步骤3).使用陆地移动距离分别计算垃圾图片集、正常图片集与垃圾图片特征库的相似度,通过对这些相似度的分析统计分别确定垃圾图片集的阈值1和正常图片集的阈值2;
步骤4).确定最终阈值为阈值1和阈值2的加权平均值;
二、然后进行检测过程:
步骤5).对于待检测的图片,首先对图片进行标准化,然后利用尺度不变特征转换算法来提取标准化后图片的局部不变特征描述符;
步骤6).计算待检测图片局部不变特征描述符与垃圾图片特征库的陆地移动距离;计算时将遍历垃圾图片特征库中每个图片的局部不变特征描述符;
步骤7).比较步骤6)得到的距离与步骤4)得到的阈值的大小,根据比较结果进行分类,如果待检测图片与垃圾图片特征库的相似度小于该阈值,则该图片为垃圾图片,否则为正常图片。
CN 201110020901 2011-01-18 2011-01-18 基于陆地移动距离的相似度检测图像型垃圾邮件的方法 Pending CN102103700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110020901 CN102103700A (zh) 2011-01-18 2011-01-18 基于陆地移动距离的相似度检测图像型垃圾邮件的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110020901 CN102103700A (zh) 2011-01-18 2011-01-18 基于陆地移动距离的相似度检测图像型垃圾邮件的方法

Publications (1)

Publication Number Publication Date
CN102103700A true CN102103700A (zh) 2011-06-22

Family

ID=44156452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110020901 Pending CN102103700A (zh) 2011-01-18 2011-01-18 基于陆地移动距离的相似度检测图像型垃圾邮件的方法

Country Status (1)

Country Link
CN (1) CN102103700A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855245A (zh) * 2011-06-28 2013-01-02 北京百度网讯科技有限公司 一种用于确定图片相似度的方法与设备
CN103020645A (zh) * 2013-01-06 2013-04-03 深圳市彩讯科技有限公司 一种垃圾图片识别方法和系统
CN104036285A (zh) * 2014-05-12 2014-09-10 新浪网技术(中国)有限公司 垃圾图片识别方法及系统
CN104268150A (zh) * 2014-08-28 2015-01-07 小米科技有限责任公司 一种基于图片内容播放音乐的方法及装置
CN106341303A (zh) * 2015-07-10 2017-01-18 彩讯科技股份有限公司 基于邮件用户行为的发件人信誉生成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
US20090175531A1 (en) * 2004-11-19 2009-07-09 Koninklijke Philips Electronics, N.V. System and method for false positive reduction in computer-aided detection (cad) using a support vector macnine (svm)
CN101727452A (zh) * 2008-10-22 2010-06-09 富士通株式会社 图像处理方法和设备
CN101887523A (zh) * 2010-06-21 2010-11-17 南京邮电大学 利用图片文字与局部不变特征检测图像垃圾邮件的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090175531A1 (en) * 2004-11-19 2009-07-09 Koninklijke Philips Electronics, N.V. System and method for false positive reduction in computer-aided detection (cad) using a support vector macnine (svm)
CN101316246A (zh) * 2008-07-18 2008-12-03 北京大学 一种基于分类器动态更新的垃圾邮件检测方法及系统
CN101727452A (zh) * 2008-10-22 2010-06-09 富士通株式会社 图像处理方法和设备
CN101887523A (zh) * 2010-06-21 2010-11-17 南京邮电大学 利用图片文字与局部不变特征检测图像垃圾邮件的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《南京邮电大学学报(自然科学版)》 20081031 张卫丰 等 一种集成的字符集检测方法研究 第28卷, 第5期 2 *
《计算机技术与发展》 20100131 许镇 等 基于判别模型的垃圾邮件过滤方法 第20卷, 第1期 2 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855245A (zh) * 2011-06-28 2013-01-02 北京百度网讯科技有限公司 一种用于确定图片相似度的方法与设备
CN103020645A (zh) * 2013-01-06 2013-04-03 深圳市彩讯科技有限公司 一种垃圾图片识别方法和系统
CN104036285A (zh) * 2014-05-12 2014-09-10 新浪网技术(中国)有限公司 垃圾图片识别方法及系统
CN104268150A (zh) * 2014-08-28 2015-01-07 小米科技有限责任公司 一种基于图片内容播放音乐的方法及装置
CN106341303A (zh) * 2015-07-10 2017-01-18 彩讯科技股份有限公司 基于邮件用户行为的发件人信誉生成方法
CN106341303B (zh) * 2015-07-10 2019-05-21 中移信息技术有限公司 基于邮件用户行为的发件人信誉生成方法

Similar Documents

Publication Publication Date Title
CN101887523B (zh) 利用图片文字与局部不变特征检测图像垃圾邮件的方法
CN102129568B (zh) 利用改进的高斯混合模型分类器检测图像垃圾邮件的方法
CN102622607B (zh) 一种基于多特征融合的遥感图像分类方法
US9183452B2 (en) Text recognition for textually sparse images
CN102156871B (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
Nguyen et al. Leaf based plant identification system for android using surf features in combination with bag of words model and supervised learning
CN111353491B (zh) 一种文字方向确定方法、装置、设备及存储介质
CN102385592B (zh) 图像概念的检测方法和装置
Tian et al. Natural scene text detection with MC–MR candidate extraction and coarse-to-fine filtering
Zamil et al. Spam image email filtering using K-NN and SVM
CN102103700A (zh) 基于陆地移动距离的相似度检测图像型垃圾邮件的方法
CN101819637B (zh) 利用图片的局部不变特征检测图像型垃圾邮件的方法
Nhung et al. An efficient method for filtering image-based spam
Islam et al. Content-based fish classification using combination of machine learning methods
Lienhart et al. Filtering adult image content with topic models
CN104966109A (zh) 医疗化验单图像分类方法及装置
Bhattacharya et al. A survey of landmark recognition using the bag-of-words framework
CN109902690A (zh) 图像识别技术
He et al. Improved run length based detection of digital image splicing
Tewari et al. Vehicle detection in aerial images using selective search with a simple deep learning based combination classifier
Indian et al. Offline handwritten hindi numerals recognition using zernike moments
Jiang Deformable convolutional neural network for fine-grained image recognition
Manjaly et al. Malayalam text and non-text classification of natural scene images based on multiple instance learning
Qu et al. Filtering image spam using image semantics and near-duplicate detection
Mtimet et al. Image classification using statistical learning methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110622