CN101794378B - 基于图片编码的垃圾图片过滤方法 - Google Patents

基于图片编码的垃圾图片过滤方法 Download PDF

Info

Publication number
CN101794378B
CN101794378B CN2010101041388A CN201010104138A CN101794378B CN 101794378 B CN101794378 B CN 101794378B CN 2010101041388 A CN2010101041388 A CN 2010101041388A CN 201010104138 A CN201010104138 A CN 201010104138A CN 101794378 B CN101794378 B CN 101794378B
Authority
CN
China
Prior art keywords
picture
feature
coding
images
rubbish
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101041388A
Other languages
English (en)
Other versions
CN101794378A (zh
Inventor
徐从富
陈雅芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2010101041388A priority Critical patent/CN101794378B/zh
Publication of CN101794378A publication Critical patent/CN101794378A/zh
Application granted granted Critical
Publication of CN101794378B publication Critical patent/CN101794378B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于图片编码的垃圾图片过滤方法。其步骤如下:1)使用Base64对垃圾图片进行编码,将图片转换为图片文本;2)通过N-gram对编码后的图片文本分词,提取图片特征;3)根据分词得到的图片特征信息,利用Binary Feature将图片表示成Boolean形式的特征向量;4)利用LIBLINEAR工具包训练SVM分类器,对垃圾图片进行分类,判断图片是否为垃圾图片。本发明采用的Base64编码是一种常用的网络数据传输编码格式,能够很方便、快速地将图片等多媒体数据文本化,取代提取图片复杂的内嵌或色彩信息的方法,能更有效地表示图片的特征;同时,根据Binary Feature形式的图片向量通过使用少量参数训练得到的SVM模型,能够在多样本数目和高维数特征的数据集中得到很高的分类准确率。

Description

基于图片编码的垃圾图片过滤方法
技术领域
本发明涉及垃圾图片过滤方法,尤其涉及一种基于图片编码的垃圾图片过滤方法。
背景技术
近年来,传统的基于内容的垃圾邮件过滤技术已经能够高效地拦截垃圾邮件,因此垃圾邮件制造者将广告信息嵌入到图片中来躲避基于文本的过滤系统的检测。这种垃圾图片与传统的文本型垃圾邮件相比占用了更多的网络带宽和存储资源。
当前的垃圾图片过滤技术主要分为两大类:提取图片内嵌文本来分类垃圾图片和通过分析图片文件、边缘、色彩等属性作为图片的特征来分类垃圾图片。两种方法虽然都能识别出一定的垃圾图片,但第一种方法中提取图片文本的过程十分费时,第二种方法得到的垃圾图片分类结果具有较低的召回率。N-gram是一种广泛应用于文本分类和自然语言处理等领域的特征提取方法,能够快速、高效地提取特征,3-gram通常被称为Trigram。
本发明提出一种无需提取垃圾图片内嵌文字,无需检测图片文件、色彩、边缘属性,通过Base64编码方法编码图片,将图片转换为文本形式,采用Trigram分词,快速完成图片的特征提取,并采用Binary Features来表示图片特征,生成特征向量,通过训练SVM能达到很高的分类准确率。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于图片编码的垃圾图片过滤方法。
基于图片编码的垃圾图片过滤方法,包括以下几个步骤:
1)利用Base64对图片进行编码,将图片转换成文本形式,得到图片文本;
2)使用Trigram对编码后的图片文本进行分词,提取图片特征集,;
3)将步骤2)中提取出的图片特征集作为图片的特征,根据图片的特征空间,采用Binary Feature把图片表示成一个Boolean特征向量,重复步骤1)~步骤3),生成Boolean特征向量集;
4)利用LIBLINEAR工具包,使用Boolean特征向量集训练SVM分类器,得到图片的分类结果。
所述的利用Base64对图片进行编码,将图片转换成文本形式,得到图片文本步骤为:使用Base64编码将原始图片转换为Base64文本形式,将图片作为文本进行处理,每种类型的图片都有其特殊的编码规则,Base64就是根据不同类型图片的特定编码规则将图片编码为文本。
所述的使用Trigram对编码后的图片文本进行分词,提取图片特征集步骤为:使用Trigram对编码后的图片文本进行分词,得到分词后的Trigram形式的图片文本信息,每个互异的Trigram为一个图片特征,构成图片的特征集。
所述的图片的特征空间是指预先生成的图片数据集的特征集:使用图片数据集,采用Trigram切分图片文本,重复步骤1)和步骤2),得到图片数据集Trigram形式的特征集,构成图片的特征空间。
所述的利用LIBLINEAR工具包,使用Boolean特征向量集训练SVM分类器,得到图片的分类结果步骤为:采用LIBLINEAR工具箱,使用步骤3)得到的图片的Boolean特征向量集作为训练数据集输入,调整SVM分类器训练参数训练分类器,判断图片是垃圾图片还是正常图片。
本发明与现有技术相比具有的有益效果:
1)提出一种对图片编码来预处理图片的方法。Base64编码是一种广泛用于网络数据(特别是电子邮件)传输的编码方法,使用“A-Z”,“a-z”,“0-9”,“+”,“/”共64个ASCII字符以及一个后缀字符“=”来编码数据。采用编码的方法来预处理图片,比其他方法(如图片转换,提取图片中内嵌的文字等)更有效、方便地表示图片。
2)提出一种编码图片,将图片转换为文本提取图片特征的方法,使用Trigram来切分图片文本,每个不同的Trigram都作为一个特征,避免了提取图片中内嵌的文字作为图片特征、计算图片灰度值、色彩属性等特征提取方法费时、偏差较大等效率低的问题。
3)提出一种改进的特征值表示方法,引入Binary Feature来表示图片的特征,可以获得更好的分类效果。
附图说明
图1是基于图片编码的垃圾图片过滤方法的流程图;
图2是Base64编码的基本原理;
图3是Base64编码字符检索表;
图4是Base64编码图片文件类型示意图;
图5是GIF格式垃圾图片及其Base64编码(前2000个字符串)示意图。
具体实施方式
基于图片编码的垃圾图片过滤方法,包括以下几个步骤:
1)利用Base64对图片进行编码,将图片转换成文本形式,得到图片文本;
2)使用Trigram对编码后的图片文本进行分词,提取图片特征集,;
3)将步骤2)中提取出的图片特征集作为图片的特征,根据图片的特征空间,采用Binary Feature把图片表示成一个Boolean特征向量,重复步骤1)~步骤3),生成Boolean特征向量集;
4)利用LIBLINEAR工具包,使用Boolean特征向量集训练SVM分类器,得到图片的分类结果。
所述的利用Base64对图片进行编码,将图片转换成文本形式,得到图片文本步骤为:使用Base64编码将原始图片转换为Base64文本形式,将图片作为文本进行处理。每种类型的图片都有其特殊的编码规则,Base64就是根据不同类型图片的特定编码规则将图片编码为文本。
所述的使用Trigram对编码后的图片文本进行分词,提取图片特征集步骤为:使用Trigram对编码后的图片文本进行分词,得到分词后的Trigram形式的图片文本信息,每个互异的Trigram为一个图片特征,构成图片的特征集。
所述的图片的特征空间是指预先生成的图片数据集的特征集:使用图片数据集,采用Trigram切分图片文本,重复步骤1)和步骤2),得到图片数据集Trigram形式的特征集,构成图片的特征空间。
所述的利用LIBLINEAR工具包,使用Boolean特征向量集训练SVM分类器,得到图片的分类结果步骤为:采用LIBLINEAR工具箱,使用步骤3)得到的图片的Boolean特征向量集作为训练数据集输入,调整SVM分类器训练参数训练分类器,判断图片是垃圾图片还是正常图片。
实施例1:
基于图片编码的垃圾图片过滤方法包括以下几个阶段:
1)在图片预处理阶段,使用Base64编码图片,将图片转换为文本形式;
2)在图片特征提取阶段,使用Trigram分词取代提取图片内嵌文本和分析图片文件、色彩、边缘属性等特征提取方法,简化了特征提取过程,提高了特征提取的效率;
3)在图片向量化阶段,使用Binary Feature将图片特征表示成一个固定长度的Boolean特征向量;
4)在图片分类阶段,使用图片特征向量训练SVM分类器,对图片打分预测,得到分类结果;
5)在分类结果评测阶段,使用准确率和垃圾邮件召回率评测分类性能,检测本方法的有效性。
实施例2:
图1描述了本方法的处理流程,分为图片转换,图片特征提取,图片向量化及训练分类器分类垃圾图片四个步骤。
1)图片转换:使用Base64编码将原始图片转换为Base64文本形式。每种类型的图片都有其特殊的编码规则,以GIF(Graphics Interchange Format)类型为例,GIF编码规则定义了详细的GIF数据形式。每个GIF图片以一个固定长度的文件头(通常为“GIF89a”或“GIF87a”)开始,这个文件头定义了图片的版本号;紧接着是定义图片大小和其他图片特性的逻辑屏幕标识符(Logical ScreenDescriptor),接下来是一系列定义其他图片信息的数据流。Base64对图片的编码就是根据不同类型图片的特定编码规则进行的。
2)图片特征提取:使用Trigram对编码后的图片Base64文本切词,切分后的每个Trigram都作为图片的特征值。
3)图片向量化:将步骤2)中得到的图片特征表示为一个固定长度的特征向量。引入Binary Feature,参照特征空间,若该Trigram出现在特征空间中,则特征值对应的相应位置为1;反之置为0。过程结束后便得到一个长度为|特征空间|的Boolean特征向量。
4)训练分类器分类垃圾图片:根据步骤3)生成的特征向量集,使用LIBLINEAR工具包训练SVM分类器,分类垃圾图片。训练方法如下:
train[options]training_set_file[model_file]
其中,training_set_file为向量形式的训练集,[options]为训练参数参数,
[model_file]为输出的训练模型。
本方法使用的训练参数选项如下:
-s type:设置slover类型;
-c cost:设置惩罚因子C;
-v n:n-折交叉验证模型。
a)设置训练模型的solver类型为s=5,即L1-regularized L2-loss支持向量集分类模型;
b)设置惩罚因子c=0.5;
c)设置n-折交叉验证v=10,10-折交叉验证将训练集随机分成10个子数据集,每次使用1个子数据集作为测试集,其他9个作为训练集;重复10次使得每个子数据集都被测试一次,分类准确率为10次试验的平均值。
图2描述了Base64编码的基本原理:Base64编码以3个字节(24位)为一组进行编码,24位二进制字符被分为4组(从左到右顺序划分),每组6个比特位,编码后将输出4个字符;6位比特字符转换成10进制数据,通过查找Base64编码表得到相应的编码字符输出。特别的,注意到Base64以3个字节为单位进行编码,当编码数据最后不足3个字节时,后缀字符串“=”便被添加到编码结果末尾:当只剩2个字节时,在编码字符串末尾添加一个“=”,当只剩1个编码字节时,在末尾添加两个“=”。
图3描述了Base64编码字符检索表:通过6位比特位转化而来的十进制数检索Base64编码字符检索表,得到相应的编码字符。
图4描述了Base64编码图片文件类型过程:Base64编码图片是根据图片本身的文件类型编码规则进行编码。GIF类型的图片常用的文件头是“GIF89a”或“GIF87a”,下面以“GIF89a”为例进行Base64编码。
1)查找ASCII表,将“GIF89a”转换为相应的ASCII数值“71 73 70 56 57 97”;
2)把所得的ASCII值转换为二进制形式;
3)将步骤2)所得的二进制数按Base64编码规则进行划分,每6位为一组,得到8组6位的二进制编码;
4)将步骤3)划分得到的8组6位的二进制编码分别转换为十进制数字;
5)在Base64编码字符检索表中查找步骤4)得到的十进制数字,得到8个数字相应的输出结果,即“GIF89a”编码后的Base64字符串为“R01GOD1h”。
图5表述了GIF类型的垃圾图片及其编码后的Base64字符串,其中只列出了方法使用到的编码字符串的前2000个字符。

Claims (4)

1.一种基于图片编码的垃圾图片过滤方法,包括以下几个步骤:
1)利用Base64对图片进行编码,将图片转换成文本形式,得到图片文本;
2)使用Trigram对编码后的图片文本进行分词,提取图片特征集;
3)将步骤2)中提取出的图片特征集作为图片的特征,根据图片的特征空间,采用Binary Feature把图片表示成一个Boolean特征向量,重复步骤1)~步骤3),生成Boolean特征向量集;
4)利用LIBLINEAR工具包,使用Boolean特征向量集训练SVM分类器,得到图片的分类结果;
所述的图片的特征空间是指预先生成的图片数据集的特征集:使用图片数据集,采用Trigram切分图片文本,重复步骤1)和步骤2),得到图片数据集Trigram形式的特征集,构成图片的特征空间。
2.根据权利要求1所述的一种基于图片编码的垃圾图片过滤方法,其特征在于所述的利用Base64对图片进行编码,将图片转换成文本形式,得到图片文本步骤为:使用Base64编码将原始图片转换为Base64文本形式,将图片作为文本进行处理,每种类型的图片都有其特殊的编码规则,Base64就是根据不同类型图片的特定编码规则将图片编码为文本。
3.根据权利要求1所述的一种基于图片编码的垃圾图片过滤方法,其特征在于所述的使用Trigram对编码后的图片文本进行分词,提取图片特征集步骤为:使用Trigram对编码后的图片文本进行分词,得到分词后的Trigram形式的图片文本信息,每个互异的Trigram为一个图片特征,构成图片的特征集。
4.根据权利要求1所述的一种基于图片编码的垃圾图片过滤方法,其特征在于所述的利用LIBLINEAR工具包,使用Boolean特征向量集训练SVM分类器,得到图片的分类结果步骤为:采用LIBLINEAR工具包,使用步骤3)得到的图片的Boolean特征向量集作为训练数据集输入,调整SVM分类器的训练参数,判断图片是垃圾图片还是正常图片。
CN2010101041388A 2010-01-26 2010-01-26 基于图片编码的垃圾图片过滤方法 Expired - Fee Related CN101794378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101041388A CN101794378B (zh) 2010-01-26 2010-01-26 基于图片编码的垃圾图片过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101041388A CN101794378B (zh) 2010-01-26 2010-01-26 基于图片编码的垃圾图片过滤方法

Publications (2)

Publication Number Publication Date
CN101794378A CN101794378A (zh) 2010-08-04
CN101794378B true CN101794378B (zh) 2012-02-29

Family

ID=42587060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101041388A Expired - Fee Related CN101794378B (zh) 2010-01-26 2010-01-26 基于图片编码的垃圾图片过滤方法

Country Status (1)

Country Link
CN (1) CN101794378B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081667A (zh) * 2011-01-23 2011-06-01 浙江大学 基于Base64编码的中文文本分类方法
CN102419777B (zh) * 2012-01-10 2013-10-02 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤系统及其过滤方法
CN102722709B (zh) * 2012-05-23 2014-10-29 杭州朗和科技有限公司 一种垃圾图片识别方法和装置
CN103544482A (zh) * 2013-10-25 2014-01-29 北京奇虎科技有限公司 特征图片的识别方法及装置
CN103942574B (zh) * 2014-02-25 2017-01-11 浙江大学 3d手写识别svm分类器核参数选取方法及用途
CN106203330A (zh) * 2016-07-08 2016-12-07 西安理工大学 一种基于卷积神经网络的车辆分类方法
CN108537176B (zh) * 2018-04-11 2021-07-30 武汉斗鱼网络科技有限公司 目标弹幕的识别方法、装置、终端及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101106539A (zh) * 2007-08-03 2008-01-16 浙江大学 基于支持向量机的垃圾邮件过滤方法
CN101227435A (zh) * 2008-01-28 2008-07-23 浙江大学 基于Logistic回归的中文垃圾邮件过滤方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Ion Androutsopoulos, et al..Learning to Filter Unsolicited Commercial E-Mail.《Technical Report》.2004,(第2期),第1-52页. *
Peter F. Brown, et al..Class-Based n-gram Models of Natural Language.《Computational Linguistics》.1992,第18卷(第4期),第467-479页. *
万明成,等.基于颜色与角点特征的图像垃圾邮件识别算法.《计算机工程》.2009,第35卷(第15期),第209-211页. *
王斌,等.基于内容的垃圾邮件过滤技术综述.《中文信息学报》.2005,第19卷(第5期),全文. *

Also Published As

Publication number Publication date
CN101794378A (zh) 2010-08-04

Similar Documents

Publication Publication Date Title
CN101794378B (zh) 基于图片编码的垃圾图片过滤方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN102081667A (zh) 基于Base64编码的中文文本分类方法
CN110910175B (zh) 一种旅游门票产品画像生成方法
CN105550253B (zh) 一种类型关系的获取方法及装置
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
WO2011153894A1 (zh) 识别图片垃圾邮件的方法及系统
Shi et al. An approach to text steganography based on search in internet
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN111414471A (zh) 用于输出信息的方法和装置
CN101470699B (zh) 信息提取模型训练装置、信息提取装置和信息提取系统及其方法
CN105608137A (zh) 一种提取身份标识的方法和装置
CN117235228A (zh) 客服问答交互方法、装置、设备及存储介质
CN111966640A (zh) 一种单据文件识别方法及其系统
US10163005B2 (en) Document structure analysis device with image processing
CN110941703A (zh) 一种基于机器学习和模糊规则的集成简历信息抽取方法
CN107291952B (zh) 一种提取有意义串的方法及装置
CN116010545A (zh) 一种数据处理方法、装置及设备
CN114297375A (zh) 网络安全实体与关系的网络模型的训练方法及抽取方法
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN103778210A (zh) 一种待分析文件的文件具体类型的判断方法及装置
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN111814922A (zh) 一种基于深度学习的视频片段内容匹配方法
CN115438629A (zh) 数据处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120229

Termination date: 20150126

EXPY Termination of patent right or utility model