CN104036285A - 垃圾图片识别方法及系统 - Google Patents

垃圾图片识别方法及系统 Download PDF

Info

Publication number
CN104036285A
CN104036285A CN201410198166.9A CN201410198166A CN104036285A CN 104036285 A CN104036285 A CN 104036285A CN 201410198166 A CN201410198166 A CN 201410198166A CN 104036285 A CN104036285 A CN 104036285A
Authority
CN
China
Prior art keywords
picture
identified
rubbish
sample
local feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410198166.9A
Other languages
English (en)
Inventor
刘洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201410198166.9A priority Critical patent/CN104036285A/zh
Publication of CN104036285A publication Critical patent/CN104036285A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种垃圾图片识别方法及系统,所述方法包括:提取待识别图片的至少一个局部特征向量;将该待识别图片与样本垃圾图片库中的样本垃圾图片进行比对识别;其中,该待识别图片与任意一个样本垃圾图片的比对识别过程具体包括:对于该待识别图片的每个局部特征向量,分别计算该局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若欧氏距离中至少有一个欧氏距离小于第一阈值,则将该局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计与该样本垃圾图片的特征相匹配的局部特征向量的数量,若统计出的数量大于预设的第二阈值,则将该待识别图片识别为垃圾图片。应用本发明,可以提高垃圾图片识别的准确率。

Description

垃圾图片识别方法及系统
技术领域
本发明涉及图像处理技术,尤其涉及一种垃圾图片识别方法及系统。
背景技术
作为互联网蓬勃发展的负面产物——垃圾信息,因其涉及暴力、诈骗、广告、色情、迷信等内容已经严重影响了人们的日常生活。在垃圾信息中以垃圾图片的形式最为多样,相比于垃圾文本信息,其识别的难度也更高。为净化网络环境,垃圾图片的识别已成为研究的热点。
目前,广泛采用的垃圾图片识别方法主要依赖于图片特征值的提取。具体地,提取待识别图片的颜色直方图,判断该颜色直方图与垃圾图片库中的样本垃圾图片的颜色直方图是否为一类;若是,则确定待识别图片识别为垃圾图片。
然而,上述方法对垃圾图片的变动适应性较差。例如,若将垃圾图片的局部稍作改动,则该图片的颜色直方图将发生很大变化。因此,对于背景经过剪切、旋转、颜色变化等处理的垃圾图片上述方法很难将其准确识别。
此外,现有技术中还存在一种通过计算待识别图片MD5(Message DigestAlgorithm MD5)值的垃圾图片识别方法,该方法将待识别图片的MD5值与垃圾图片库中的样本垃圾图片的MD5值进行匹配的方式来识别垃圾图片。
但是,该方法同样存在图片变动适应性差的缺点。将待识别图片的局部稍作变化,获取的该图片MD5值就会不同,也就无法对其进行有效的识别。
发明内容
本发明实施例提供了一种垃圾图片识别方法及系统,用以提高垃圾图片识别的准确性。
根据本发明的一个方面,提供了一种垃圾图片识别方法,包括:
提取待识别图片的至少一个局部特征向量;
将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别;其中,所述待识别图片与任意一个样本垃圾图片的比对识别过程具体包括:
对于所述待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,若统计出的数量大于预设的第二阈值,则将所述待识别图片识别为与该样本垃圾图片相类似的垃圾图片。
较佳地,在所述统计出与该样本垃圾图片的特征相匹配的局部特征向量的数量后,还包括:
若统计出的数量小于或等于所述第二阈值,则确定所述待识别图片与该样本垃圾图片不相类似;并从样本垃圾图片库中未被比对的样本垃圾图片中选取任意一个样本垃圾图片与所述待识别图片进行比对识别。
较佳地,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:
若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:
对所述待识别图片进行光学字符识别OCR处理,提取所述待识别图片中的文本信息;
在垃圾文字库中查询所述文本信息,若查询到与所述文本信息相匹配的信息,则将所述待识别图片识别为垃圾图片。
较佳地,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:
若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:
提取所述待识别图片的肤色比例与肤色连通域的个数;
若所述肤色比例大于等于第三阈值,并且所述肤色连通域的个数大于等于第四阈值,则将所述待识别图片识别为垃圾图片。
较佳地,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:
若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:
从所述待识别图片的二维码中解析出二维码信息;
在垃圾二维码信息库中查询所述二维码信息,若查询到与所述二维码信息相匹配的信息,则将所述待识别图片识别为垃圾图片。
根据本发明的另一个方面,还提供了一种垃圾图片识别系统,包括:
向量提取模块,用于提取待识别图片的至少一个局部特征向量;
图片选取模块,用于从样本垃圾图片库中选取样本垃圾图片,并输出当前选取的样本垃圾图片及其各局部特征向量;
图片对比模块,用于针对所述图片选取模块输出的样本垃圾图片,对于所述向量提取模块输出的所述待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,并将统计出的数量和该样本垃圾图片进行输出;
第一垃圾图片确定模块,用于接收所述图片对比模块输出的样本垃圾图片、以及所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,若接收的数量大于预设的第二阈值,则将所述待识别图片识别为与该样本垃圾图片相类似的垃圾图片。
较佳地,所述第一垃圾图片确定模块还用于针对所述图片选取模块输出的样本垃圾图片,若从所述图片对比模块接收的与该样本垃圾图片的特征相匹配的局部特征向量的数量小于或等于所述第二阈值,则确定所述待识别图片与该样本垃圾图片不相类似,并向所述图片选取模块返回继续选取通知;以及
所述图片选取模块还用于根据所述第一垃圾图片确定模块输出的继续选取通知,从所述样本垃圾图片库中未被选取的样本垃圾图片中选取样本垃圾图片,并将当前选取的样本垃圾图片及其各局部特征向量进行输出;若所述样本垃圾图片库中不存在未被选取的样本垃圾图片,则确定所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,并输出第一识别通知。
较佳地,所述系统还包括:
文字信息提取模块,用于在接收到所述图片选取模块输出的第一识别通知后,对所述待识别图片进行光学字符识别OCR处理,提取所述待识别图片中的文本信息;
第二垃圾图片确定模块,用于在垃圾文字库中查询所述文字信息提取模块提取出的所述文本信息,若查询到与所述文本信息相匹配的信息,则将所述待识别图片识别为垃圾图片。
较佳地,所述系统还包括:
肤色特征提取模块,用于在接收到所述图片选取模块输出的第一识别通知后,提取所述待识别图片的肤色比例与肤色连通域的个数;
第三垃圾图片确定模块,用于将所述肤色特征提取模块提取出的肤色比例和肤色连通域的个数,分别与第三阈值和第四阈值进行比较,若所述肤色比例大于等于第三阈值,并且所述肤色连通域的个数大于等于第四阈值,则将所述待识别图片识别为垃圾图片。
较佳地,所述系统还包括:
二维码识别模块,用于在接收到所述图片选取模块输出的第一识别通知后,从所述待识别图片的二维码中解析出二维码信息;
第四垃圾图片确定模块,用于在垃圾二维码信息库中查询所述二维码识别模块提取出所述二维码信息,若查询到与所述二维码信息相匹配的信息,则将所述待识别图片识别为垃圾图片。
本发明提供的技术方案中,对于样本垃圾图片库中的每个样本垃圾图片,通过计算待识别图片的局部特征向量到该样本垃圾图片的局部特征向量的欧氏距离,确定出与该样本垃圾图片相匹配的局部特征向量。若与该样本垃圾图片相匹配的局部特征向量总数超过阈值,则将待识别图片识别为垃圾图片。这样,对于经过局部特殊处理的垃圾图片,具有很好的识别效果,从而提高识别的准确性。
附图说明
图1为本发明实施例提供的提取图片局部特征向量方法的流程示意图;
图2为本发明实施例提供的垃圾图片识别方法的流程示意图;
图3为本发明实施例提供的垃圾图片识别系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内。
本发明的发明人发现,两个图片之间,相匹配的局部特征向量越多,这两张图片也就越相似。而对图片进行旋转、剪裁、背景颜色更改、模糊等处理,仅仅会改变少数局部特征向量,并不会改变决定图片性质的局部特征向量。因此,考虑到根据提取出的待识别图片的局部特征向量,以及已知垃圾图片的局部特征向量,将待识别图片与已知垃圾图片进行比对识别;若待识别图片与已知垃圾图片相似,则将待识别图片识别为垃圾图片。这样,对于经过局部特殊处理的垃圾图片,具有很好的识别效果,从而提高识别的准确性。
此外,发明人还发现,可以将垃圾图片划分为如下类别:携带有垃圾文字信息的图片(文字信息为垃圾信息)、色情图片(肤色比例、肤色连通域个数大于阈值)、二维码中携带有垃圾信息的图片(二维码信息为垃圾信息)等。因此,为更进一步提高垃圾图片识别的准确率,还可以对没有确定出与任何已知垃圾图片相类似的待识别图片分别进行文字信息识别、肤色特征识别、二维码识别。这样不仅能够识别出对图片局部进行更改操作的垃圾图片,而且,还能够识别出目前并未确定的不同类型的垃圾图片,相比仅凭借局部特征进行识别,识别的准确率更高。
下面结合附图详细说明本发明的技术方案。
在进行垃圾图片识别之前,需要预先建立样本垃圾图片数据库,将目前已确定的垃圾图片作为样本垃圾图片添加到该样本垃圾图片库中。并且,对于样本垃圾图片数据库中每个样本垃圾图片,采用SURF(Speed-up RobustFeature,鲁棒特征加速)算法提取出该样本垃圾图片的局部特征向量后,将提取出的局部特征向量对应于该样本垃圾图片的名称存储在样本垃圾图片库中。
其中,采用SURF算法提取图片的局部特征向量的方法流程,如图1所示,包括如下步骤:
S101:建立该图片的尺度空间金字塔并确定出若干兴趣点。
具体地,具体地,通过改变盒式滤波器的模板大小来建立该图片尺度空间金字塔:尺度空间金字塔分四层,对每一层进行四次滤波。之后,对于尺度空间中的每一个盒式滤波器,利用高斯核与该图片中给定点的卷积,计算该点Hessian矩阵的行列式,并根据该行列式(该点周围的区域的盒式滤波器响应值)确定出若干兴趣点。
S102:确定兴趣点的主方向。
具体地,对于每个兴趣点,以该兴趣点为中心,确定6s(s为该兴趣点所在的尺度)为半径的圆,用边长为4s的haar(哈尔)小波模板求x和y两个方向的haar小波响应,并对小波响应进行高斯加权。对一个扇形区间的水平和垂直方向的haar小波响应分别求和。最长矢量对应的扇形方向就是该兴趣点的主方向。
S103:确定出兴趣点的局部特征向量。
具体地,以该兴趣点为原点,主方向为参考x轴方向,20s为边长,做正方形区域,并将该区域分为4*4个子区域。每个子区域取5*5个采样点,计算这些采样点上的小波响应dx和dy。以该兴趣点为中心,对响应进行高斯加权。统计每个子区域的dx、dy、|dx|、|dy|,以及其绝对值的和,形成子区域内的特征向量,将4*4个子区域内的特征向量归一化为单位向量后,组合形成64维的以该兴趣点为原点的区域的局部特征向量。
提取图片局部特征向量的方法并不局限于上述方法,并且为本领域技术人员所熟知,此处不再赘述。将提取出的各样本垃圾图片的局部特征向量对应于该样本垃圾图片的名称存储在样本垃圾图片库中后,便可以根据该样本垃圾图片库,对待识别图片进行识别。垃圾图片识别的具体方法流程,如图1所示,包括如下步骤:
S201:提取待识别图片的至少一个局部特征向量。
本步骤中,提取待识别图片的局部特征向量的方法与上述提取垃圾图片的局部特征向量的方法相同,此处不再赘述。
S202:将待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别。
本步骤中,可以从样本垃圾图片库中存储的样本垃圾图片中选取任意一个样本垃圾图片与待识别图片进行对比识别:对于待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量。之后,统计该待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,并根据统计出的数量以及预设的第二阈值,确定该待识别图片是否为与该样本垃圾图片相类似的垃圾图片。具体地,若该数量大于第二阈值,则确定该待识别图片为与该样本垃圾图片相类似的垃圾图片;否则,确定该待识别图片与该样本垃圾图片不相类似。其中,本领域技术人员可以根据经验对第一、二阈值进行设置。进一步地,还可以在确定出该待识别图片与该样本垃圾图片不相类似之后,从样本垃圾图片库中未被比对的样本垃圾图片中选取任意一个样本垃圾图片与该待识别图片进行比对识别。
实际应用中,在将待识别图片识别为与该样本垃圾图片相类似的垃圾图片,还可以根据该样本垃圾图片的标签,为该待识别图片创建标签。例如,与该待识别图片相类似的样本垃圾图片的标签为“携带敏感词的垃圾图片”,则将该待识别图片的标签设置为“携带敏感词的垃圾图片”。
S203:若确定出样本垃圾图片库中的样本垃圾图片均与该待识别图片不相类似,则提取该待识别图片的文本信息。
本步骤中,若通过步骤S202确定出样本垃圾图片库中的样本垃圾图片均与该待识别图片不相类似,则对该待识别图片进行OCR(Optical CharacterRecognition,光学字符识别)处理,提取出该待识别图片中的文本信息。其中,通过OCR处理提取图片中的文字信息为本领域技术人员所熟知,此处不再赘述。
S204:若在垃圾文字库中查询到与该文本信息匹配的信息,则将该待识别图片识别为垃圾图片,否则,执行S205。
本步骤中,在垃圾文字库中查询该文本信息,若查询到与该文本信息相匹配的信息,则将该待识别图片识别为垃圾图片,并将其添加到样本垃圾图片库中,更新该样本垃圾图片库;同时为该待识别图片设置垃圾文字图片的标签。
S205:提取该待识别图片的肤色比例与肤色连通域的个数;若肤色比例大于等于第三阈值,并且肤色连通域的个数大于等于第四阈值,则将该待识别图片识别为垃圾图片,否则,执行S206。
本步骤中,提取该待识别图片的肤色比例与肤色连通域的个数。若肤色比例大于等于第三阈值,并且肤色连通域的个数大于等于第四阈值,则将该待识别图片识别为垃圾图片,并将其添加到样本垃圾图片库中,更新该样本垃圾图片库;同时为该待识别图片设置色情图片的标签。其中,本领域技术人员可以根据经验对第三、四阈值进行设置。
本发明实施例中,确定出样本垃圾图片库中的样本垃圾图片均与该待识别图片不相类似后,可以不提取该待识别图片的文本信息,而直接跳转执行步骤S205,即直接根据提取出的该待识别图片肤色比例与肤色连通域的个数,判断该待识别图片是否为垃圾图片。
S206:从该待识别图片的二维码中解析出二维码信息;若在垃圾二维码信息库查询到该二维码信息,则将该待识别图片识别为垃圾图片。
本步骤中,根据该待识别图片的二维码解析出其中携带的二维码信息后,在垃圾二维码信息库中查询该二维码信息;若查询到与该二维码信息相匹配的信息,则将该待识别图片识别为垃圾图片,并将其添加到样本垃圾图片库中,更新该样本垃圾图片库;同时为该待识别图片设置二维码垃圾图片的标签。否则,将该待识别图片识别为非垃圾图片。
本发明实施例中,若在垃圾文字库中没有查询到与该文本信息匹配的信息后,则可以不执行步骤S205,而是跳转执行步骤S206;或者,也可以在确定出样本垃圾图片库中的样本垃圾图片均与该待识别图片不相类似后,直接跳转执行步骤S206,即直接根据该待识别图片的二维码信息,判断该待识别图片是否为垃圾图片;或者,确定出样本垃圾图片库中的样本垃圾图片均与该待识别图片不相类似后,则可以既不提取该待识别图片的文本信息,也不执行步骤S204,而是先跳转执行步骤S205,提取该待识别图片的肤色比例与肤色连通域的个数,若肤色比例小于第三阈值,或肤色连通域的个数小于第四阈值,则执行步骤S206。
事实上,通过步骤S201和步骤S202可以识别出对局部稍作改动的、在样本垃圾图片库中已存在的垃圾图片。但是为了进一步提高垃圾图片的识别准确率,可以根据不同类别垃圾图片的特征,对与样本垃圾图片库中任一垃圾图片都不相似的待识别图片进行继续后续的识别。这样,可以识别出不在样本垃圾图片库中的垃圾图片,提高垃圾图片识别的准确率。
本发明实施例提供的垃圾图片识别系统的结构,如图3所示,包括:向量提取模块301、图片选取模块302、图片对比模块303、第一垃圾图片确定模块304。
其中,向量提取模块301用于提取待识别图片的至少一个局部特征向量。
图片选取模块302用于从样本垃圾图片库中选取样本垃圾图片,并输出当前选取的样本垃圾图片及其各局部特征向量。
图片对比模块303用于针对图片选取模块302输出的样本垃圾图片,对于向量提取模块301输出的该待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计该待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,并将统计出的数量和该样本垃圾图片进行输出。
第一垃圾图片确定模块304用于接收图片对比模块303输出的样本垃圾图片、以及该待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量;若接收的数量大于预设的第二阈值,则将该待识别图片识别为与该样本垃圾图片相类似的垃圾图片。
第一垃圾图片确定模块304还用于针对图片选取模块302输出的样本垃圾图片,若从图片对比模块303接收的与该样本垃圾图片的特征相匹配的局部特征向量的数量小于或等于预设的第二阈值,则确定该待识别图片与该样本垃圾图片不相类似。
进一步,第一垃圾图片确定模块304还用于在确定出该待识别图片与接收的序号所对应的样本垃圾图片不相类似之后,向图片选取模块302返回继续选取通知。相应地,图片选取模块302还用于根据第一垃圾图片确定模块304输出的继续选取通知,从样本垃圾图片库中未被选取的样本垃圾图片中选取样本垃圾图片,并将当前选取的样本垃圾图片及其各局部特征向量进行输出。若样本垃圾图片库中不存在未被选取的样本垃圾图片,则确定待识别图片与样本垃圾图片库中的各样本垃圾图片均不相类似,并输出第一识别通知。
相应地,本发明实施例提供的垃圾图片识别系统还包括:文字信息提取模块305和第二垃圾图片确定模块306。
文字信息提取模块305用于在接收到图片选取模块302输出的第一识别通知,对该待识别图片进行OCR处理,提取该待识别图片中的文本信息。
第二垃圾图片确定模块306用于在垃圾文字库中查询文字信息提取模块305提取出的文本信息,若查询到与该文本信息相匹配的信息,则将该待识别图片识别为垃圾图片。
进一步,第二垃圾图片确定模块306还用于在垃圾文字库中查询文字信息提取模块305提取出的文本信息后,若没有查询到与该文本信息相匹配的信息,则输出第二识别通知。
相应地,本发明实施例提供的垃圾图片识别系统还包括:肤色特征提取模块307和第三垃圾图片确定模块308。
肤色特征提取模块307用于在接收到图片选取模块302输出的第一识别通知后,提取该待识别图片的肤色比例与肤色连通域的个数。或者,肤色特征提取模块307也可以在接收到第二垃圾图片确定模块306输出的第二识别通知后,提取该待识别图片的肤色比例与肤色连通域的个数。
第三垃圾图片确定模块308用于将肤色特征提取模块307提取出的肤色比例和肤色连通域的个数,分别与第三阈值和第四阈值进行比较;若肤色比例大于等于第三阈值,并且肤色连通域的个数大于等于第四阈值,则将该待识别图片识别为垃圾图片。
进一步,第三垃圾图片确定模块308在将肤色特征提取模块307提取出的肤色比例和肤色连通域的个数,分别与第三阈值和第四阈值进行比较后,若肤色比例小于第三阈值,或者肤色连通域的个数小于第四阈值,则输出第三识别通知。
相应地,本发明实施例提供的垃圾图片识别系统还包括:二维码识别模块309和第四垃圾图片确定模块310。
二维码识别模块309用于在接收到图片选取模块302输出的第一识别通知后,从该待识别图片的二维码中解析出二维码信息。或者,二维码识别模块309也可以在接收到第二垃圾图片确定模块306输出的第二识别通知或第三垃圾图片确定模块308输出的第三识别通知后,从该待识别图片的二维码中解析出二维码信息。
第四垃圾图片确定模块310用于在垃圾二维码信息库中查询二维码识别模块309提取出的二维码信息,若查询到与该二维码信息相匹配的信息,则将该待识别图片识别为垃圾图片。
本发明实施例提供的技术方案中,对于样本垃圾图片库中的每个样本垃圾图片,通过计算待识别图片的局部特征向量到该样本垃圾图片的局部特征向量的欧氏距离,确定出与该样本垃圾图片相匹配的局部特征向量。若与该样本垃圾图片相匹配的局部特征向量总数超过阈值,则将待识别图片识别为垃圾图片。这样,对于经过局部特殊处理的垃圾图片,具有很好的识别效果,从而提高识别的准确性。
为更进一步提高垃圾图片识别的准确率,还可以对与任何样本垃圾图片库中任一垃圾图片都不相似的待识别图片分别进行文字信息识别、肤色特征识别、二维码识别。这样不仅能够识别出对图片局部进行更改操作的垃圾图片,而且,还能够识别出未在样本垃圾图片库中的不同类型的垃圾图片,相比仅凭借局部特征进行识别,识别的准确率更高。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种垃圾图片识别方法,其特征在于,包括:
提取待识别图片的至少一个局部特征向量;
将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别;其中,所述待识别图片与任意一个样本垃圾图片的比对识别过程具体包括:
对于所述待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,若统计出的数量大于预设的第二阈值,则将所述待识别图片识别为与该样本垃圾图片相类似的垃圾图片。
2.如权利要求1所述的方法,其特征在于,在所述统计出与该样本垃圾图片的特征相匹配的局部特征向量的数量后,还包括:
若统计出的数量小于或等于所述第二阈值,则确定所述待识别图片与该样本垃圾图片不相类似;并从样本垃圾图片库中未被比对的样本垃圾图片中选取任意一个样本垃圾图片与所述待识别图片进行比对识别。
3.如权利要求2所述的方法,其特征在于,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:
若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:
对所述待识别图片进行光学字符识别OCR处理,提取所述待识别图片中的文本信息;
在垃圾文字库中查询所述文本信息,若查询到与所述文本信息相匹配的信息,则将所述待识别图片识别为垃圾图片。
4.如权利要求2所述的方法,其特征在于,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:
若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:
提取所述待识别图片的肤色比例与肤色连通域的个数;
若所述肤色比例大于等于第三阈值,并且所述肤色连通域的个数大于等于第四阈值,则将所述待识别图片识别为垃圾图片。
5.如权利要求2至4任一所述的方法,其特征在于,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:
若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:
从所述待识别图片的二维码中解析出二维码信息;
在垃圾二维码信息库中查询所述二维码信息,若查询到与所述二维码信息相匹配的信息,则将所述待识别图片识别为垃圾图片。
6.一种垃圾图片识别系统,其特征在于,包括:
向量提取模块,用于提取待识别图片的至少一个局部特征向量;
图片选取模块,用于从样本垃圾图片库中选取样本垃圾图片,并输出当前选取的样本垃圾图片及其各局部特征向量;
图片对比模块,用于针对所述图片选取模块输出的样本垃圾图片,对于所述向量提取模块输出的所述待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,并将统计出的数量和该样本垃圾图片进行输出;
第一垃圾图片确定模块,用于接收所述图片对比模块输出的样本垃圾图片、以及所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,若接收的数量大于预设的第二阈值,则将所述待识别图片识别为与该样本垃圾图片相类似的垃圾图片。
7.如权利要求6所述的系统,其特征在于,
所述第一垃圾图片确定模块还用于针对所述图片选取模块输出的样本垃圾图片,若从所述图片对比模块接收的与该样本垃圾图片的特征相匹配的局部特征向量的数量小于或等于所述第二阈值,则确定所述待识别图片与该样本垃圾图片不相类似,并向所述图片选取模块返回继续选取通知;以及
所述图片选取模块还用于根据所述第一垃圾图片确定模块输出的继续选取通知,从所述样本垃圾图片库中未被选取的样本垃圾图片中选取样本垃圾图片,并将当前选取的样本垃圾图片及其各局部特征向量进行输出;若所述样本垃圾图片库中不存在未被选取的样本垃圾图片,则确定所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,并输出第一识别通知。
8.如权利要求7所述的系统,其特征在于,还包括:
文字信息提取模块,用于在接收到所述图片选取模块输出的第一识别通知后,对所述待识别图片进行光学字符识别OCR处理,提取所述待识别图片中的文本信息;
第二垃圾图片确定模块,用于在垃圾文字库中查询所述文字信息提取模块提取出的所述文本信息,若查询到与所述文本信息相匹配的信息,则将所述待识别图片识别为垃圾图片。
9.如权利要求7所述的系统,其特征在于,还包括:
肤色特征提取模块,用于在接收到所述图片选取模块输出的第一识别通知后,提取所述待识别图片的肤色比例与肤色连通域的个数;
第三垃圾图片确定模块,用于将所述肤色特征提取模块提取出的肤色比例和肤色连通域的个数,分别与第三阈值和第四阈值进行比较,若所述肤色比例大于等于第三阈值,并且所述肤色连通域的个数大于等于第四阈值,则将所述待识别图片识别为垃圾图片。
10.如权利要求7至9任一所述的系统,其特征在于,还包括:
二维码识别模块,用于在接收到所述图片选取模块输出的第一识别通知后,从所述待识别图片的二维码中解析出二维码信息;
第四垃圾图片确定模块,用于在垃圾二维码信息库中查询所述二维码识别模块提取出所述二维码信息,若查询到与所述二维码信息相匹配的信息,则将所述待识别图片识别为垃圾图片。
CN201410198166.9A 2014-05-12 2014-05-12 垃圾图片识别方法及系统 Pending CN104036285A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410198166.9A CN104036285A (zh) 2014-05-12 2014-05-12 垃圾图片识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410198166.9A CN104036285A (zh) 2014-05-12 2014-05-12 垃圾图片识别方法及系统

Publications (1)

Publication Number Publication Date
CN104036285A true CN104036285A (zh) 2014-09-10

Family

ID=51467050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410198166.9A Pending CN104036285A (zh) 2014-05-12 2014-05-12 垃圾图片识别方法及系统

Country Status (1)

Country Link
CN (1) CN104036285A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118048A (zh) * 2015-07-17 2015-12-02 北京旷视科技有限公司 翻拍证件图片的识别方法及装置
CN105404631A (zh) * 2014-09-15 2016-03-16 腾讯科技(深圳)有限公司 图片识别方法和装置
CN105590086A (zh) * 2014-11-17 2016-05-18 西安三茗科技有限责任公司 一种基于视觉标签识别的物品防盗检测方法
CN105657547A (zh) * 2015-12-31 2016-06-08 北京奇艺世纪科技有限公司 一种相似视频和盗版视频的检测方法及装置
CN105681899A (zh) * 2015-12-31 2016-06-15 北京奇艺世纪科技有限公司 一种相似视频和盗版视频的检测方法及装置
CN105681898A (zh) * 2015-12-31 2016-06-15 北京奇艺世纪科技有限公司 一种相似视频和盗版视频的检测方法及装置
CN105956596A (zh) * 2016-04-26 2016-09-21 百度在线网络技术(北京)有限公司 图片反作弊方法及装置
CN106446932A (zh) * 2016-08-30 2017-02-22 上海交通大学 基于机器学习与图片识别的可进化违禁图片批量处理方法
CN106529380A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 图像的识别方法及装置
CN107463605A (zh) * 2017-06-21 2017-12-12 北京百度网讯科技有限公司 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN107590491A (zh) * 2016-07-07 2018-01-16 阿里巴巴集团控股有限公司 一种图像处理方法及装置
CN110399869A (zh) * 2018-04-25 2019-11-01 西安艾润物联网技术服务有限责任公司 扫描方法及装置
CN111414472A (zh) * 2018-12-18 2020-07-14 北京奇虎科技有限公司 基于光学字符识别的图片检测方法、装置及电子设备
CN111444362A (zh) * 2020-03-31 2020-07-24 腾讯音乐娱乐科技(深圳)有限公司 恶意图片拦截方法、装置、设备和存储介质
CN112560863A (zh) * 2020-12-21 2021-03-26 广东芯盾微电子科技有限公司 垃圾回收站地面清洁度的检测方法、系统、装置及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008068986A1 (en) * 2006-12-04 2008-06-12 Trend Micro Incorporated Adversarial approach for identifying inappropriate text content in images
US20090220166A1 (en) * 2008-02-28 2009-09-03 Yahoo! Inc. Filter for blocking image-based spam
CN101819637A (zh) * 2010-04-02 2010-09-01 南京邮电大学 利用图片的局部不变特征检测图像型垃圾邮件的方法
CN102103700A (zh) * 2011-01-18 2011-06-22 南京邮电大学 基于陆地移动距离的相似度检测图像型垃圾邮件的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008068986A1 (en) * 2006-12-04 2008-06-12 Trend Micro Incorporated Adversarial approach for identifying inappropriate text content in images
US20090220166A1 (en) * 2008-02-28 2009-09-03 Yahoo! Inc. Filter for blocking image-based spam
CN101819637A (zh) * 2010-04-02 2010-09-01 南京邮电大学 利用图片的局部不变特征检测图像型垃圾邮件的方法
CN102103700A (zh) * 2011-01-18 2011-06-22 南京邮电大学 基于陆地移动距离的相似度检测图像型垃圾邮件的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李鹏: "图像型垃圾邮件过滤关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404631A (zh) * 2014-09-15 2016-03-16 腾讯科技(深圳)有限公司 图片识别方法和装置
CN105404631B (zh) * 2014-09-15 2021-01-29 腾讯科技(深圳)有限公司 图片识别方法和装置
CN105590086A (zh) * 2014-11-17 2016-05-18 西安三茗科技有限责任公司 一种基于视觉标签识别的物品防盗检测方法
CN105118048A (zh) * 2015-07-17 2015-12-02 北京旷视科技有限公司 翻拍证件图片的识别方法及装置
CN105118048B (zh) * 2015-07-17 2018-03-27 北京旷视科技有限公司 翻拍证件图片的识别方法及装置
CN106529380B (zh) * 2015-09-15 2019-12-10 阿里巴巴集团控股有限公司 图像的识别方法及装置
CN106529380A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 图像的识别方法及装置
CN105681898A (zh) * 2015-12-31 2016-06-15 北京奇艺世纪科技有限公司 一种相似视频和盗版视频的检测方法及装置
CN105681899A (zh) * 2015-12-31 2016-06-15 北京奇艺世纪科技有限公司 一种相似视频和盗版视频的检测方法及装置
CN105681899B (zh) * 2015-12-31 2019-05-10 北京奇艺世纪科技有限公司 一种相似视频和盗版视频的检测方法及装置
CN105657547B (zh) * 2015-12-31 2019-05-10 北京奇艺世纪科技有限公司 一种相似视频和盗版视频的检测方法及装置
CN105657547A (zh) * 2015-12-31 2016-06-08 北京奇艺世纪科技有限公司 一种相似视频和盗版视频的检测方法及装置
CN105681898B (zh) * 2015-12-31 2018-10-30 北京奇艺世纪科技有限公司 一种相似视频和盗版视频的检测方法及装置
CN105956596A (zh) * 2016-04-26 2016-09-21 百度在线网络技术(北京)有限公司 图片反作弊方法及装置
CN107590491A (zh) * 2016-07-07 2018-01-16 阿里巴巴集团控股有限公司 一种图像处理方法及装置
CN107590491B (zh) * 2016-07-07 2021-08-06 阿里巴巴集团控股有限公司 一种图像处理方法及装置
CN106446932A (zh) * 2016-08-30 2017-02-22 上海交通大学 基于机器学习与图片识别的可进化违禁图片批量处理方法
CN107463605A (zh) * 2017-06-21 2017-12-12 北京百度网讯科技有限公司 低质新闻资源的识别方法及装置、计算机设备及可读介质
CN110399869A (zh) * 2018-04-25 2019-11-01 西安艾润物联网技术服务有限责任公司 扫描方法及装置
CN111414472A (zh) * 2018-12-18 2020-07-14 北京奇虎科技有限公司 基于光学字符识别的图片检测方法、装置及电子设备
CN111444362A (zh) * 2020-03-31 2020-07-24 腾讯音乐娱乐科技(深圳)有限公司 恶意图片拦截方法、装置、设备和存储介质
CN111444362B (zh) * 2020-03-31 2024-04-16 腾讯音乐娱乐科技(深圳)有限公司 恶意图片拦截方法、装置、设备和存储介质
CN112560863A (zh) * 2020-12-21 2021-03-26 广东芯盾微电子科技有限公司 垃圾回收站地面清洁度的检测方法、系统、装置及介质
CN112560863B (zh) * 2020-12-21 2024-04-09 广东芯盾微电子科技有限公司 垃圾回收站地面清洁度的检测方法、系统、装置及介质

Similar Documents

Publication Publication Date Title
CN104036285A (zh) 垃圾图片识别方法及系统
CN108920580B (zh) 图像匹配方法、装置、存储介质及终端
Jiang et al. R2CNN: Rotational region CNN for orientation robust scene text detection
Ghodrati et al. Deepproposal: Hunting objects by cascading deep convolutional layers
Gonzalez et al. Text detection and recognition on traffic panels from street-level imagery using visual appearance
Netzer et al. Reading digits in natural images with unsupervised feature learning
CN110073367B (zh) 用于零样本学习的利用基于soft-max的兼容性函数的多视图嵌入
US8422793B2 (en) Pattern recognition apparatus
Sain et al. Multi-oriented text detection and verification in video frames and scene images
CN104751093B (zh) 用于获取宿主设备显示的图像识别码的方法和装置
CN111353491B (zh) 一种文字方向确定方法、装置、设备及存储介质
CN106228129A (zh) 一种基于matv特征的人脸活体检测方法
CN108921175A (zh) 一种基于fast改进的sift图像配准方法
Zhang et al. Learning with free object segments for long-tailed instance segmentation
Jain et al. Text detection and recognition in natural scenes and consumer videos
Habeeb et al. Deep‐Learning‐Based Approach for Iraqi and Malaysian Vehicle License Plate Recognition
Viet et al. A robust end-to-end information extraction system for vietnamese identity cards
Sun et al. Efficient compressive sensing tracking via mixed classifier decision
Tian et al. BAN, a barcode accurate detection network
Jia et al. Grayscale-projection based optimal character segmentation for camera-captured faint text recognition
CN114120309A (zh) 一种仪表读数识别方法、装置及计算机设备
Shetty et al. Handwritten word recognition using conditional random fields
Chen et al. Big Visual Data Analysis: Scene Classification and Geometric Labeling
Xiao et al. Road marking detection based on structured learning
Chincholkar et al. TRAFFIC SIGN BOARD DETECTION AND RECOGNITION FOR AUTONOMOUS VEHICLES AND DRIVER ASSISTANCE SYSTEMS.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140910