CN103871044B - 一种图像签名生成方法和图像验证方法及装置 - Google Patents

一种图像签名生成方法和图像验证方法及装置 Download PDF

Info

Publication number
CN103871044B
CN103871044B CN201210545728.3A CN201210545728A CN103871044B CN 103871044 B CN103871044 B CN 103871044B CN 201210545728 A CN201210545728 A CN 201210545728A CN 103871044 B CN103871044 B CN 103871044B
Authority
CN
China
Prior art keywords
image
feature
characteristic
signature
multiclass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210545728.3A
Other languages
English (en)
Other versions
CN103871044A (zh
Inventor
何成剑
薛晖
邓宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210545728.3A priority Critical patent/CN103871044B/zh
Publication of CN103871044A publication Critical patent/CN103871044A/zh
Application granted granted Critical
Publication of CN103871044B publication Critical patent/CN103871044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

一种图像签名生成方法和图像验证方法及装置,该图像签名生成方法包括:提取图像的多类特征的特征数据,多类特征至少为三类,其中包括至少一类全局特征和至少一类局部特征,且提取的不同类特征包含的图像内容信息量不同;基于提取的多类特征的特征数据生成图像的签名。采用本发明的图像签名生成方法,能够充分描述图像的内容信息,且节省贮存空间;本发明还公开了一种图像验证方法及装置,能够有效避免图像编码、编辑工具给图像重复性判定带来的干扰。

Description

一种图像签名生成方法和图像验证方法及装置
技术领域
本申请涉及图像分析处理技术领域,尤其涉及一种图像签名生成方法和图像验证方法及装置。
背景技术
在电子商务中通过网站进行交易时,重复铺货是个非常突出的问题。所谓重复铺货,是指重要商品属性完全相同的商品,使用同一种出售方式(一口价/拍卖/团购)出售多次。其中,重要商品属性包括:商品图像、商品标题、商品价格、商品描述等。这一问题严重损害了在线交易的公平性,也降低了线上信息获取的效率。
而在上述商品属性中,最难甄别处理的是图像内容的重复。由于各种图像处理工具的普及,图像实质内容相同但形式有别的情况较多,例如图像的缩放、裁剪,以及水印的加入都可以带来图像形式上的变化,但实质内容却基本相同。
目前,针对此种类型的重复(即图像实质内容相同但形式上有区别),如果仅靠人工来甄别,对于海量数据而言,效率极低。因此,网站上解决重复铺货问题,一般采用图像签名技术。一套图像签名,通常包含两种互补的运算或操作,一个是签名的生成,即为一张图像生成一个字符串作为对图像内容信息的表征或认可;另一个是签名的验证,即通过对该图像签名采用约定方式校验,来达到确认其内容合理性、正确性的目的。
现有的图像签名技术主要采用MD5(Message Digest Algorithm MD5,消息摘要算法第五版)的算法。MD5是计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护,其可以为各种文件(不管其大小、格式、数量)产生一个唯一的“数字指纹”,如果任何人对文件做了改动,其MD5值也就是对应的“数字指纹”都会发生变化。这一技术虽然应用广泛,实现起来快捷,但没有考虑到图像文件本身的特点。对于图像的重复性判定应该基于内容的一致性而非数据的一致性,因为在较多情形中,由于图像压缩编码的差异,导致图像数据发生变化,而图像内容却高度一致,肉眼都难以辨别;此外,随着图像处理工具如Photoshop等的普及,对于图像的编辑变得更加容易,图像的缩放、裁剪、添加水印、边框等都可以在保持图像内容基本一致的基础上改变了图像数据。以上因素都导致了类似MD5这样的签名技术无用武之地。
发明内容
本申请要解决的一个技术问题是提供一种图像签名生成方法及装置,能够充分描述图像的内容信息,且节省贮存空间。
为解决上述问题,本申请提供一种图像签名生成方法,所述方法包括:
提取图像的多类特征的特征数据,所述多类特征至少为三类,其中包括至少一类全局特征和至少一类局部特征,且提取的不同类特征包含的图像内容信息量不同;
基于提取的所述多类特征的特征数据生成所述图像的签名。
其中,所述提取的图像的多类特征包括如下两类全局特征:颜色特征和梯度特征;或者
所述提取的图像的多类特征包括如下一类全局特征:颜色特征;及一类中间特征;其中所述中间特征是将所述图像划分为多个子区域,将从各个子区域提取的某一全局特征合并得到的。
其中,所述提取的图像的多类特征包括如下一类局部特征:尺度不变特征转换(SIFT)特征。
其中,所述从各个子区域提取的某一全局特征是各个子区域的梯度方向直方图。
其中,所述基于提取的所述多类特征的特征数据生成所述图像的签名,包括:
将所述多类特征的特征数据分别进行归一化处理后,组合得到一个新的特征向量,所述新的特征向量即为所述图像的签名。
其中,所述提取图像的多类特征的特征数据之前,还包括:
针对所述多类特征中一类或多类特征,分别选取图像样本并提取所述图像样本的特征数据,对每一类特征,将提取的所述特征数据聚类,得到该类特征的多个聚类中心并加以标识;
所述提取图像的多类特征之后,还包括:
针对已聚类的每一类特征,根据提取的所述图像的特征数据,从该类特征的多个聚类中心中确定与其最近的一个聚类中心,将该聚类中心的标识作为所述图像的该类特征的子空间标识写入签名。
本申请还提供了一种图像签名生成装置,所述装置包括:
特征提取模块,用于提取图像的多类特征的特征数据,所述多类特征至少为三类,其中包括至少一类全局特征和至少一类局部特征,且提取的不同类特征的图像内容信息量不同;
签名生成模块,用于基于提取的所述多类特征的特征数据生成所述图像的签名。
其中,所述特征提取模块提取的图像的多类特征,包括如下两类全局特征:颜色特征和梯度特征;
或者,包括如下一类全局特征:颜色特征;及一类中间特征;其中所述中间特征是将所述图像划分为多个子区域,将从各个子区域提取的某一全局特征合并得到的。
其中,所述特征提取模块提取的图像的多类特征,包括如下一类局部特征:SIFT特征。
其中,所述特征提取模块从各个子区域提取的某一全局特征,是所述各个子区域的梯度方向直方图。
其中,所述签名生成模块用于,将所述多类特征的特征数据分别进行归一化处理后,组合得到一个新的特征向量,所述新的特征向量即为所述图像的签名。
其中,所述装置还包括聚类处理模块,
所述聚类处理模块用于,针对所述多类特征中一类或多类特征,分别选取图像样本并提取所述图像样本的特征数据,对每一类特征,将提取的所述特征数据聚类,得到该类特征的多个聚类中心并加以标识;
所述签名生成模块还用于,在生成所述图像的签名时,针对已聚类的每一类特征,根据提取的所述图像的特征数据,从该类特征的多个聚类中心中确定与其最近的一个聚类中心,将该聚类中心的标识作为所述图像的该类特征的子空间标识写入签名。
本申请要解决的另一个技术问题是提供一种图像验证方法及装置,能够有效避免图像编码、编辑工具给图像重复性判定带来的干扰。
为解决上述技术问题,本申请提供了一种图像验证方法,所述方法包括:
将待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配,如果各类特征信息均相匹配,则判定所述待验证图像与所述源图像重复,否则判定所述待验证图像与所述源图像不重复;
其中,所述待验证图像和源图像的签名是基于所提取的图像的多类特征的特征数据生成的,所述多类特征至少为三类,其中包括至少一类全局特征和至少一类局部特征,且提取的不同类特征的图像内容信息量不同。
其中,所述提取的图像的多类特征包括如下两类全局特征:颜色特征和梯度特征;或者
所述提取的图像的多类特征包括如下一类全局特征:颜色特征;及一类中间特征;其中所述中间特征是将所述图像划分为多个子区域,将从各个子区域提取的某一全局特征合并得到的。
其中,所述提取的图像的多类特征包括如下一类局部特征:尺度不变特征转换(SIFT)特征。
其中,所述从各个子区域提取的某一全局特征是各个子区域的梯度方向直方图。
其中,所述基于提取的所述多类特征的特征数据生成所述图像的签名,包括:
将所述多类特征的特征数据分别进行归一化处理后,组合得到一个新的特征向量,所述新的特征向量即为所述图像的签名。
其中,将所述待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配,包括:
所述多类特征信息是根据各类特征的图像内容信息量从小到大的顺序逐类进行匹配的。
其中,所述提取图像的多类特征的特征数据之前,还包括:
针对所述多类特征中一类或多类特征,分别选取图像样本并提取所述图像样本的特征数据,对每一类特征,将提取的所述特征数据聚类,得到该类特征的多个聚类中心并加以标识;
所述提取图像的多类特征之后,还包括:
针对已聚类的每一类特征,根据提取的所述图像的特征数据,从该类特征的多个聚类中心中确定与其最近的一个聚类中心,将该聚类中心的标识作为所述图像的该类特征的子空间标识写入签名。
其中,所述将待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配时,针对已聚类的每一类特征,只将与所述待验证图像的该类特征的子空间标识相同的源图像与所述待验证图像进行匹配。
其中,上述方法还包括:
将待加入图像数据库的待入库图像作为待验证图像,将所述图像数据库中的图像作为源图像,对所述待验证图像进行验证;
如果验证结果为重复,则将所述待入库图像判定为重复图像,并丢弃;如果验证结果为不重复,则将所述待入库图像加入所述图像数据库。
其中,所述根据各类特征的图像内容信息量从小到大的顺序逐类进行匹配的,包括:
对所述待验证图像和源图像的签名中的某类特征信息进行匹配时,如判定匹配且还有其他类的特征未匹配,再继续对下一类特征进行匹配,如果判定为不匹配,则不再进行其他类特征的匹配。
本申请还提供了一种图像验证装置,所述装置包括:
签名分析模块,用于分析图像的签名中包含的多类特征信息,所述多类特征至少为三类,其中包括至少一类全局特征和至少一类局部特征,且不同类特征的图像内容信息量不同;
特征匹配模块,用于将待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配,如果各类特征信息均相匹配,则判定所述待验证图像与所述源图像重复,否则判定所述待验证图像与所述源图像不重复。
其中,所述特征匹配模块用于,将所述待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配时,所述多类特征信息是根据各类特征的图像内容信息量从小到大的顺序逐类进行匹配的。
其中,上述装置还包括:
特征提取模块,用于提取图像的多类特征的特征数据,所述多类特征至少为三类,其中包括至少一类全局特征和至少一类局部特征,且提取的不同类特征的图像内容信息量不同;
签名生成模块,用于基于提取的所述多类特征的特征数据生成所述图像的签名。
其中,上述装置还包括聚类处理模块,
所述聚类处理模块用于,针对所述多类特征中一类或多类特征,分别选取图像样本并提取所述图像样本的特征数据,对每一类特征,将提取的所述特征数据聚类,得到该类特征的多个聚类中心并加以标识;
所述签名生成模块还用于,在生成所述图像的签名时,针对已聚类的每一类特征,根据提取的所述图像的特征数据,从该类特征的多个聚类中心中确定与其最近的一个聚类中心,将该聚类中心的标识作为所述图像的该类特征的子空间标识写入签名;
所述特征匹配模块用于,将待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配时,针对已聚类的每一类特征,只将与所述待验证图像的该类特征的子空间标识相同的源图像与所述待验证图像进行匹配。
其中,上述装置还包括:
入库预处理模块,用于如果所述特征匹配模块判定验证结果为重复,则将所述待入库图像判定为重复图像,并丢弃;如果验证结果为不重复,则将所述待入库图像加入所述图像数据库。
其中,所述特征匹配模块用于,对所述待验证图像和源图像的签名的某类特征信息进行匹配时,如判定匹配且还有其他类的特征未匹配,再继续对下一类特征进行匹配,如果判定为不匹配,则不再进行其他类特征的匹配。
采用本申请上述方案,能够通过提取网站图像的多类内容特征,为每一图像生成能代表其内容特征的签名信息,作为该图像的身份标记;随后,结合特定的验证方式,根据该签名对网站数据库中的图像进行匹配验证,甄选出内容重复的图像。
与现有技术相比较,本申请至少包括如下特点:
1)本申请实施例中的签名生成方法基于图像的内容生成对应的签名信息即“数字指纹”,通过提取的数字特征来描述图像特有的内容信息,有效地规避了图像编码、编辑工具给图像重复性判定带来的干扰,在图像内容一致的前提下对各种数据上的变化有较强的抗干扰性,可以抵抗诸如缩放、裁剪、水印、边框等的干扰;
2)本申请实施例中的签名生成方法是一种弹性的、分层次的灵活架构,可以针对不同的具体应用场景确定不同层数的特征,并按计算复杂度递增地添加处理层,从而使得每个层次的特征合理地分担时间和空间上的消耗,既保证生成的签名信息量少,又保证准确率和召回率高;
3)本申请实施例的图像验证方法是按照图像内容信息量由小到大的先后顺序对待验证图像与源图像的特征进行匹配的,首先用图像内容信息量小的特征进行区分,剔除一部分冗余的图像,再利用后面的特征区分能力强的图像内容信息量大的特征进行比较,减少了处理量和存贮量;
4)本申请实施例中采用一种“由粗到精”(coarse-to-fine)的对图像签名进行验证的策略/架构,既考虑了图像签名的包容性,需要涵盖尽可能多的数据变化,如图像编码、图像编辑,又兼顾了图像签名的实时性,使得面对海量数据仍能以快捷有效的方式进行重复图像的甄别、检索,从而可以过滤掉铺货中的重复图像内容,降低图像数据库的冗余度,减少存贮消耗。
当然,本领域技术人员可以理解的是对于本申请中的一个实施例并不一定具有上述所有特点。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例的图像签名生成方法的示意图;
图2为本申请实施例的图像验证方法的示意图;
图3为本申请实施例的图像入库方法的示意图;
图4为本申请应用示例的图像签名的示意图;
图5为本申请应用示例的图像签名生成方法、图像验证及入库方法的流程示意图。
具体实施方式
为了便于阐述本申请,以下将结合附图及具体实施例对本申请技术方案的实施作进一步详细描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本申请中,所述的全局特征,是指反映全局特性的底层视觉特征,包括但不限于:颜色、梯度、纹理、形状、轮廓和空间关系等特征。
所述的局部特征,包括但不限于:尺度不变特征转换(Scale-InvariantFeatureTransform,简称为SIFT)特征等描述图像局部特性的特征。
所述的中间特征,是将图像划分为多个子区域,将从各个子区域提取的某一全局特征合并得到的。
进一步地,所述的从各个子区域提取的某一全局特征,包括但不限于各个子区域的梯度方向直方图。
实施例一
在面向海量数据的图像内容分析领域,目前存在着如下两个相互矛盾的问题:
一方面,图像本身包含的视觉特征极为丰富,难以用文本进行客观准确的描述,要进行较为充分地描述,往往涉及非常复杂的算法,且生成的签名需要大量的空间存贮;
另一方面,面对海量数据,在整个内容分析过程中,对时间和空间的要求都较为苛刻,既要保证能快速地分析图像内容、生成对应的签名,同时也要保证在海量数据的条件下能对不同的签名进行验证,判别是否重复。
本申请实施例充分考虑到了上述问题,在生成图像签名时,通过提取图像中的一些特定特征,如颜色、梯度,和SIFT特征等,形成一定复杂度的信息组合,完成对图像内容的抽象描述,生成具有代表性的、有限长度的字符串作为该图像的唯一鉴别标识。
基于上述内容,本实施例提供一种图像签名生成方法。如图1所示,本实施例的图像签名生成方法包括如下主要步骤:
步骤11,提取图像的多类特征;
其中,所述的多类特征至少为三类,其中包括至少一类全局特征和至少一类局部特征,另外一类既可以是全局特征,也可以是局部特征,还可以是中间特征,且提取的不同类特征的图像内容信息量不同。
其中,所述的图像内容信息量反映了提取的特征对图像内容的描述能力,与提取的特征数据、以及提取特征时的计算复杂度等因素有关,图像内容信息量越大,相应的提取的特征数据越多或者计算复杂度越高,其对图像内容信息的区分能力也越强。
本实施例中,对图像提取的特征包括反映图像整体全局特性的全局特征,也包括描述图像局部特性的局部特征,其中,局部特征虽然对图像内容信息的区分能力比较强,但相应的包含的特征数据量大,计算复杂度更高,占用存储空间也较大,因此,先通过图像内容信息量较小的全局特征对图像进行一些简单信息的区分,则可以减少生成签名时的数据处理量,且签名占用存储空间少,从而有效平衡计算复杂度和图像存储空间的需求。
进一步地,本实施例中,是基于图像的至少三类特征来生成签名,其原因在于,通过工程实践发现,如果仅采用一个全局特征和一个局部特征的简单结合,往往很难取得一个综合效益高的平衡点,单看全局特征,它对图像内容信息的区分能力较弱,因而准确率较低,为了提高准确率,则需要后面的特征的内容信息区分能力很强,但这样势必就需要更多的特征数据量来描述,这无疑会增大数据处理量和存贮量;反之,则准确率不高,召回率较低,图像内容信息区分的能力和效果均不理想。
为此,本实施例中,提出一种分层级(至少分三层)的结构,每一层级的特征包含的数据量或者计算复杂度依次递增,针对不同的目标确定不同的层数和具体的特征,并合理设置每一层级的数据量或者计算复杂度,则可以有效地分担数据处理量和存储空间上的消耗。从工程实践的结果来看,采用这种多层级的结构尤其在网站中的海量图像处理中,取得了很好的效果。
步骤12,基于提取的所述多类特征生成图像的签名;
具体地,提取的图像的多类特征可以包括如下两类全局特征:颜色特征和梯度特征;或者
提取的图像的多类特征包括如下一类全局特征:颜色特征;及一类中间特征;其中所述中间特征是将所述图像划分为多个子区域,将从各个子区域提取的某一全局特征合并得到的。
进一步地,上述的从各子区域提取的某一全局特征,包括但不限于梯度方向直方图。
进一步地,所述提取的图像的多类特征包括如下一类局部特征:SIFT特征。
进一步地,上述步骤12具体包括:将所述多类特征分别进行归一化处理后,组合得到一个新的特征向量,该新的特征向量即为图像的签名,具体的图像签名生成方法在下文的应用示例中将给出更为详细的描述。
实施例二
本实施例基于前述实施例的图像签名生成方法,提供一种图像验证方法,如图2所示,本实施例的图像验证方法包括如下主要步骤:
步骤21,获取待验证图像签名中的多类特征信息,以及源图像签名中的相应特征信息;
其中所述待验证图像和源图像的签名均是根据前述实施例一中所述的图像签名生成方法生成的。
所述的源图像可以是网站的图像数据库中存储的图像。
步骤22,将待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配;
步骤23,判定待验证图像与源图像是否重复,具体包括:如果各类特征信息均相匹配,则判定所述待验证图像与所述源图像重复,否则判断所述待验证图像与所述源图像不重复。
进一步地,上述步骤22中,在将所述待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配时,是根据各类特征的图像内容信息量从小到大的顺序逐类进行匹配的。
实施例三
本实施例提供一种图像验证方法。如图3所示,本实施例的图像验证方法包括如下主要步骤:
步骤31,获取待入库图像签名中的多类特征信息,以及图像数据库中的源图像签名中的相应特征信息;
其中所述待入库图像和源图像的签名均是根据前述实施例一中所述的图像签名生成方法生成的。
步骤32,将待入库图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配;
步骤33,判定待入库图像与源图像是否重复,具体包括:如果各类特征信息均相匹配,则判定所述待入库图像与所述源图像重复,否则判断所述待入库图像与所述源图像不重复;
步骤34,如果判定所述待入库图像与所述源图像重复,则丢弃待入库图像;如果判定所述待入库图像与所述源图像重复,则将所述待入库图像加入图像数据库中。
综上所述,本申请上述方案通过分析图像内容,为每一图像生成一个能代表其内容特征的字符串,即签名,作为该图的身份标记。进一步地,根据所提取的多类特征,分别制定相对应的匹配规则,来判别不同签名的图像之间的重复度。此外,结合特定的验证策略,根据该签名对网站数据库中的图像进行验证,甄选出内容重复的图像,从而可以对图像数据库进行去冗,从实质内容上降低冗余度,减少存贮消耗。这样,在内容的唯一性、时间和空间利用的有效性之间达到平衡,为大规模图像数据的处理提供了切实可靠的解决方案。
特别的是,本申请方案通过设计合理的层级处理结构,按图像内容信息量的大小,结合特征数据的计算复杂度先易后难的方式,即先考察相对简单的颜色,然后是复杂程度中等的梯度特征,最后是较复杂的局部描述特征,逐层过滤掉低相关度的候选图像,最终精确定位重复的源图像,高效的完成签名的验证过程以满足海量数据的处理。
实施例四
本实施例提供了一种图像签名生成装置(未图示),该装置主要包括:
特征提取模块,用于提取图像的多类特征的特征数据,所述多类特征至少为三类,其中包括至少一类全局特征和至少一类局部特征,且提取的不同类特征的图像内容信息量不同;
签名生成模块,用于基于提取的所述多类特征的特征数据生成所述图像的签名。
其中,所述特征提取模块提取的图像的多类特征,包括如下两类全局特征:颜色特征和梯度特征;
或者,包括如下一类全局特征:颜色特征;及一类中间特征;其中所述中间特征是将所述图像划分为多个子区域,将从各个子区域提取的某一全局特征合并得到的。
其中,所述特征提取模块提取的图像的多类特征,包括如下一类局部特征:SIFT特征。
其中,所述特征提取模块从各个子区域提取的某一全局特征,是所述各个子区域的梯度方向直方图。
其中,所述签名生成模块用于,将所述多类特征的特征数据分别进行归一化处理后,组合得到一个新的特征向量,所述新的特征向量即为所述图像的签名。
其中,所述装置还包括聚类处理模块,
所述聚类处理模块用于,针对所述多类特征中一类或多类特征,分别选取图像样本并提取所述图像样本的特征数据,对每一类特征,将提取的所述特征数据聚类,得到该类特征的多个聚类中心并加以标识;
所述签名生成模块还用于,在生成所述图像的签名时,针对已聚类的每一类特征,根据提取的所述图像的特征数据,从该类特征的多个聚类中心中确定与其最近的一个聚类中心,将该聚类中心的标识作为所述图像的该类特征的子空间标识写入签名。
实施例五
本实施例提供了一种图像验证装置(未图示),该装置主要包括:
签名分析模块,用于分析图像的签名中包含的多类特征信息,所述多类特征至少为三类,其中包括至少一类全局特征和至少一类局部特征,且不同类特征的图像内容信息量不同;
特征匹配模块,用于将待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配,如果各类特征信息均相匹配,则判定所述待验证图像与所述源图像重复,否则判定所述待验证图像与所述源图像不重复。
其中,所述特征匹配模块用于,将所述待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配时,所述多类特征信息是根据各类特征的图像内容信息量从小到大的顺序逐类进行匹配的。
其中,上述装置还包括:
特征提取模块,用于提取图像的多类特征的特征数据,所述多类特征至少为三类,其中包括至少一类全局特征和至少一类局部特征,且提取的不同类特征的图像内容信息量不同;
签名生成模块,用于基于提取的所述多类特征的特征数据生成所述图像的签名。
其中,上述装置还包括聚类处理模块,
所述聚类处理模块用于,针对所述多类特征中一类或多类特征,分别选取图像样本并提取所述图像样本的特征数据,对每一类特征,将提取的所述特征数据聚类,得到该类特征的多个聚类中心并加以标识;
所述签名生成模块还用于,在生成所述图像的签名时,针对已聚类的每一类特征,根据提取的所述图像的特征数据,从该类特征的多个聚类中心中确定与其最近的一个聚类中心,将该聚类中心的标识作为所述图像的该类特征的子空间标识写入签名;
所述特征匹配模块用于,将待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配时,针对已聚类的每一类特征,只将与所述待验证图像的该类特征的子空间标识相同的源图像与所述待验证图像进行匹配。
其中,上述装置还包括:
入库预处理模块,用于如果所述特征匹配模块判定验证结果为重复,则将所述待入库图像判定为重复图像,并丢弃;如果验证结果为不重复,则将所述待入库图像加入所述图像数据库。
其中,所述特征匹配模块用于,对所述待验证图像和源图像的签名的某类特征信息进行匹配时,如判定匹配且还有其他类的特征未匹配,再继续对下一类特征进行匹配,如果判定为不匹配,则不再进行其他类特征的匹配。
为便于更好地理解本申请技术方案的实施,以下将结合具体应用示例对本申请技术方案的实施作进一步详细描述。
图5为本应用示例的图像签名生成及图像验证和入库方法的流程图。
如图5所示,本实施例方法主要包括离线处理部分,包括图像的签名生成以及保存等;和在线处理部分,包括在线验证新入图像数据库中的图像是否重复、以及重复时查询对应的重复图像源等。
其中,离线处理部分,具体包括如下步骤:
步骤A1,图像特征提取;
本示例中,图像特征提取是采用将全局特征和局部特征相融合的方法,提取的全局特征包括颜色和梯度特征,提取的局部特征包括SIFT(Scale-Invariant FeatureTransform,尺度不变特征转换)特征,特征提取的具体算法描述如下:
1.颜色特征提取
颜色特征提取算法对整张图像统计计算,得到颜色直方图作为输入图像的颜色特征。
由于颜色特征的使用主要起到一个粗筛的作用,务求信息处理过程尽可能快捷,故只需表征图像内容的大致信息即可,其具体过程可采用但不限于以下方式:
首先对颜色空间(如RGB3维空间)进行均匀量化,每个维度量化为4个bin(颜色等级,用于描述该维度的取值/变化范围),则整个颜色空间划分为4*4*4=64个bin,并得到一个64维的量化表(颜色空间用这3个方面的量可以得到完整的描述);
对图像进行逐像素扫描,每一像素的颜色值会有与它距离最近的颜色bin(这里距离按欧氏距离度量),按此对相应的bin计数,统计每个bin有多少个接近的像素,最终得到一个颜色直方图。
这样,就生成了一个统一的颜色特征向量——颜色直方图,颜色直方图中记录了一幅图像中各种颜色像素点的数量,其横坐标代表颜色等级,纵坐标代表该颜色出现的频率,可以较好的描述当前图像的颜色分布。
2.梯度特征提取
本实施例方法中,梯度特征提取可采用HOG(Histogram of OrientedGradient,方向梯度直方图)算法。
具体包括:对图像进行转换得到其灰度图(本梯度算法只考虑灰度信息就够了,不需要颜色信息),每一像素计算其梯度,包括梯度方向和梯度幅值。例如,图像上某个像素表示为I(x,y),dx=I(x,y)-I(x+1,y),dy=I(x,y)-I(x,y+1),则梯度幅值是对dx和dy求平方和再开方,梯度方向由dx和dy求反正切来得到。
本实施例中,将360度范围的梯度方向等分为16个bin,对各像素的梯度方向,找出对应的最接近的2个bin,并根据接近程度分配权重系数,越接近的权重越大,且两个权重系数的和为1。最后将梯度幅值乘以权重系数累加到对应的bin中。如此对所有像素进行同样操作,经过归一化(即保证最终的特征向量/直方图和为1)处理后最终得到一个16个bin的梯度方向直方图。
优选地,为了增加对空间信息的考察,本申请所述的方法还可以将图像划分为m*n(其中m,n均为正整数,且m和n中至少一个大于1)的子区域,例如2×2的子区域,每个区域单独生成梯度方向直方图,合并为一个特征向量用以描述图像在空间上的梯度分布。
3.SIFT特征提取
本实施例方法采用SIFT特征作为局部描述子来描述图像的局部特征。SIFT是一种用来检测和描述图像局部特征的特征提取算子。利用SIFT方法得到图像中具有旋转不变性和尺度不变性的SIFT特征点,也称关键点。以每个关键点为中心,选取四周的64个像素点,每相邻的4个像素为一像素组,共得到16个像素组,每个像素组再与关键点比较得到8个坐标值,共得到128个坐标值,为该关键点的SIFT特征。
SIFT特征从理论上来说是一种相似不变量,对缩放、位移、旋转都不敏感,因而使得SIFT对图像的诸多变化具有了较强的适应性。
步骤A2,将提取的全部特征分别归一化处理后组合起来得到图像的签名,保存到对应的数据库中;
其中,归一化处理是指:将一个特征向量的各个项相加求和,再分别将各项除以这个和,使得特征向量的各项的总和为1。
组合是指:将不同的特征向量拼接在一起组成一个新的向量,作为图像的签名。具体地,如图4所示,本示例中,分别将归一化处理后的颜色特征、梯度特征和SIFT特征拼接在一起,即得到图像的签名信息。
本示例中,在线处理部分采用了由粗到精的策略来验证图像签名,根据待考察图像的签名中的特征信息与数据库中各源图像的签名中的相应特征信息按由粗到精的方式逐一匹配,并返回判定结果,如是否重复,以及重复时对应的源图像等。
如图5所示,在线处理部分的处理过程,具体包括如下步骤:
步骤B1,对于输入的待判定图像,计算得到其签名(或者也可以离线生成),包含颜色、梯度、SIFT局部描述子3方面信息。
步骤B2,先从图像内容信息量最小的颜色特征验证该图像签名与数据库中所有图像签名的匹配度;
其中,匹配度可通过计算两个特征向量的欧氏距离来衡量,距离大的说明匹配程度低,反之则说明匹配程度较高。
步骤B3,根据步骤B2得出的匹配结果,按照预定的阈值去除匹配度低的结果;
据此,可以筛除掉部分不匹配的图像数据。
步骤B4,若去除匹配度低的结果后没有满足条件的结果剩下,则判定待验证图像与图像数据库中的图像不重复,判定过程结束;否则,继续下一步骤B5。
步骤B5,对图像数据库中余下的图像数据,再基于下一个图像内容信息量最小的梯度特征验证该图像签名与数据库中所有图像签名的匹配程度。
步骤B6,根据步骤B5得出的匹配结果,进一步去除匹配度低的结果。
步骤B7,若去除匹配度低的结果后没有满足条件的结果剩下,则判定待验证图像与图像数据库中的图像不重复,判定过程结束;否则,继续下一步骤B8。
步骤B8,再基于SIFT特征验证计算该图像签名与数据库中所有图像签名的匹配度。
步骤B9,考察步骤B8得出的匹配度结果,若匹配度满足某一阈值时则判定为重复,并可选择数据库中最匹配的源图像作为最终结果,否则,若匹配度低于某一阈值,则表明在数据库中无对应的重复图像。
此外,上述过程中,若某个特征环节余下的数据数量为0,则表明待验证图像找不到重复的图像源数据,属于非重复图像,可以直接从判定过程中退出。
其中,上述三种图像特征:颜色特征、梯度特征、SIFT特征,图像内容信息量依次递增,这样,内容描述精度由粗到精,逐级缩小匹配范围,既提高了运行效率,又保证了匹配精度,有利于线上的实时处理。
此外,为了进一步提升签名验证时的性能,优选地还可以对图像的特征采用聚类的策略。对于每一类特征而言,可以认为都有自己的特征空间,在这个空间中,每一个点对应某个图像生成的特征向量。为了提高查找效率,我们可以选取一批数量较大的样本,提取某一特征的特征向量,比如颜色直方图。然后对其进行聚类,也就是把欧式距离近的向量归作一类,然后求归类后的各个向量集合的均值作为“中心”,这样,以这些“聚类中心”为参照就相当于把特征空间划分为一定数量的子空间,对于一个新的特征,只需要与“聚类中心”比较就可以知道它属于哪个子空间,后续只需要与所属子空间内的向量进行匹配就够了。而“聚类中心”可以给予编号,记录在图像签名中,即记录当前签名属于哪一个子空间,这样实际上起到了一个粗归类的作用,大大简化处理时间,而且对签名长度的影响微乎其微。
以上仅为本申请的优选实施案例而已,并不用于限制本申请,本申请还可有其他多种实施例,在不背离本申请精神及其实质的情况下,熟悉本领域的技术人员可根据本申请做出各种相应的改变和变形,但这些相应的改变和变形都应属于本申请所附的权利要求的保护范围。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

Claims (27)

1.一种图像签名生成方法,所述方法包括:
提取图像的多类特征的特征数据,所述多类特征至少为三类特征,所述三类特征包括一类全局特征、一类局部特征、和以下任一类特征:全局特征、局部特征、中间特征,形成分层级的结构,且每一层级的特征包含的数据量或者计算复杂度依次递增;
基于提取的所述多类特征的特征数据生成所述图像的签名。
2.如权利要求1所述的方法,其中:
所述全局特征为颜色特征;所述中间特征是将所述图像划分为多个子区域,将从各个子区域提取的某一全局特征合并得到的。
3.如权利要求1或2所述的方法,其中:
所述局部特征为尺度不变特征转换SIFT特征。
4.如权利要求2所述的方法,其中:
所述从各个子区域提取的某一全局特征是各个子区域的梯度方向直方图。
5.如权利要求1、2或4任一所述的方法,其中:
所述基于提取的所述多类特征的特征数据生成所述图像的签名,包括:
将所述多类特征的特征数据分别进行归一化处理后,组合得到一个新的特征向量,所述新的特征向量即为所述图像的签名。
6.如权利要求1、2或4任一所述的方法,其中:
所述提取图像的多类特征的特征数据之前,还包括:
针对所述多类特征中一类或多类特征,分别选取图像样本并提取所述图像样本的特征数据,对每一类特征,将提取的所述特征数据聚类,得到该类特征的多个聚类中心并加以标识;
所述提取图像的多类特征之后,还包括:
针对已聚类的每一类特征,根据提取的所述图像的特征数据,从该类特征的多个聚类中心中确定与其最近的一个聚类中心,将该聚类中心的标识作为所述图像的该类特征的子空间标识写入签名。
7.一种图像验证方法,所述方法包括:
将待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息,按图像内容信息量的大小,结合特征数据的计算复杂度,采用先易后难的方式进行匹配,如果各类特征信息均相匹配,则判定所述待验证图像与所述源图像重复,否则判定所述待验证图像与所述源图像不重复;
其中,所述待验证图像和源图像的签名是基于所提取的图像的多类特征的特征数据生成的,所述多类特征至少为三类特征,所述三类特征包括一类全局特征、一类局部特征、和以下任一类特征:全局特征、局部特征、中间特征,形成分层级的结构,且每一层级的特征包含的数据量或者计算复杂度依次递增。
8.如权利要求7所述的方法,其中:
所述全局特征为颜色特征;所述中间特征是将所述图像划分为多个子区域,将从各个子区域提取的某一全局特征合并得到的。
9.如权利要求7所述的方法,其中:
所述局部特征为尺度不变特征转换SIFT特征。
10.如权利要求8所述的方法,其中:
所述从各个子区域提取的某一全局特征是各个子区域的梯度方向直方图。
11.如权利要求7、8、9或10任一所述的方法,其中:
所述基于提取的所述多类特征的特征数据生成所述图像的签名,包括:
将所述多类特征的特征数据分别进行归一化处理后,组合得到一个新的特征向量,所述新的特征向量即为所述图像的签名。
12.如权利要求7所述的方法,其中:
将所述待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配,包括:
所述多类特征信息是根据各类特征的图像内容信息量从小到大的顺序逐类进行匹配的。
13.如权利要求12所述的方法,其中:
所述提取图像的多类特征的特征数据之前,还包括:
针对所述多类特征中一类或多类特征,分别选取图像样本并提取所述图像样本的特征数据,对每一类特征,将提取的所述特征数据聚类,得到该类特征的多个聚类中心并加以标识;
所述提取图像的多类特征之后,还包括:
针对已聚类的每一类特征,根据提取的所述图像的特征数据,从该类特征的多个聚类中心中确定与其最近的一个聚类中心,将该聚类中心的标识作为所述图像的该类特征的子空间标识写入签名。
14.如权利要求13所述的方法,其中:
所述将待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配时,针对已聚类的每一类特征,只将与所述待验证图像的该类特征的子空间标识相同的源图像与所述待验证图像进行匹配。
15.如权利要求7、8、9、10、12、13或14任一项所述的方法,还包括:
将待加入图像数据库的待入库图像作为待验证图像,将所述图像数据库中的图像作为源图像,对所述待验证图像进行验证;
如果验证结果为重复,则将所述待入库图像判定为重复图像,并丢弃;如果验证结果为不重复,则将所述待入库图像加入所述图像数据库。
16.如权利要求12所述的方法,其中:
所述根据各类特征的图像内容信息量从小到大的顺序逐类进行匹配的,包括:
对所述待验证图像和源图像的签名中的某类特征信息进行匹配时,如判定匹配且还有其他类的特征未匹配,再继续对下一类特征进行匹配,如果判定为不匹配,则不再进行其他类特征的匹配。
17.一种图像签名生成装置,所述装置包括:
特征提取模块,用于提取图像的多类特征的特征数据,所述多类特征至少为三类,其中包括一类全局特征、一类中间特征和一类局部特征,形成分层级的结构,且每一层级的特征包含的数据量或者计算复杂度依次递增;
签名生成模块,用于基于提取的所述多类特征的特征数据生成所述图像的签名。
18.如权利要求17所述的装置,其中:
所述全局特征为颜色特征;所述中间特征是将所述图像划分为多个子区域,将从各个子区域提取的某一全局特征合并得到的。
19.如权利要求17或18所述的装置,其中:
所述局部特征为尺度不变特征转换SIFT特征。
20.如权利要求18所述的装置,其中:
所述特征提取模块从各个子区域提取的某一全局特征,是所述各个子区域的梯度方向直方图。
21.如权利要求17、18或20任一所述的装置,其中:
所述签名生成模块用于,将所述多类特征的特征数据分别进行归一化处理后,组合得到一个新的特征向量,所述新的特征向量即为所述图像的签名。
22.如权利要求17、18或20任一所述的装置,所述装置还包括聚类处理模块,
所述聚类处理模块用于,针对所述多类特征中一类或多类特征,分别选取图像样本并提取所述图像样本的特征数据,对每一类特征,将提取的所述特征数据聚类,得到该类特征的多个聚类中心并加以标识;
所述签名生成模块还用于,在生成所述图像的签名时,针对已聚类的每一类特征,根据提取的所述图像的特征数据,从该类特征的多个聚类中心中确定与其最近的一个聚类中心,将该聚类中心的标识作为所述图像的该类特征的子空间标识写入签名。
23.一种图像验证装置,所述装置包括:
签名分析模块,用于分析图像的签名中包含的多类特征信息,所述多类特征至少为三类,其中包括一类全局特征、一类中间特征和一类局部特征,形成分层级的结构,且每一层级的特征包含的数据量或者计算复杂度依次递增;
特征匹配模块,用于将待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配,如果各类特征信息均相匹配,则判定所述待验证图像与所述源图像重复,否则判定所述待验证图像与所述源图像不重复,其中,将所述待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配时,所述多类特征信息是根据各类特征的图像内容信息量从小到大的顺序逐类进行匹配的。
24.如权利要求23所述的装置,还包括:
特征提取模块,用于提取图像的多类特征的特征数据;
签名生成模块,用于基于提取的所述多类特征的特征数据生成所述图像的签名。
25.如权利要求24所述的装置,所述装置还包括聚类处理模块,
所述聚类处理模块用于,针对所述多类特征中一类或多类特征,分别选取图像样本并提取所述图像样本的特征数据,对每一类特征,将提取的所述特征数据聚类,得到该类特征的多个聚类中心并加以标识;
所述签名生成模块还用于,在生成所述图像的签名时,针对已聚类的每一类特征,根据提取的所述图像的特征数据,从该类特征的多个聚类中心中确定与其最近的一个聚类中心,将该聚类中心的标识作为所述图像的该类特征的子空间标识写入签名;
所述特征匹配模块用于,将待验证图像的签名中的多类特征信息与源图像的签名中的相应特征信息进行匹配时,针对已聚类的每一类特征,只将与所述待验证图像的该类特征的子空间标识相同的源图像与所述待验证图像进行匹配。
26.如权利要求23、24或25任一所述的装置,还包括:
入库预处理模块,用于如果所述特征匹配模块判定验证结果为重复,则将待入库图像判定为重复图像,并丢弃;如果验证结果为不重复,则将所述待入库图像加入所述图像数据库。
27.如权利要求26所述的装置,其中:
所述特征匹配模块用于,对所述待验证图像和源图像的签名的某类特征信息进行匹配时,如判定匹配且还有其他类的特征未匹配,再继续对下一类特征进行匹配,如果判定为不匹配,则不再进行其他类特征的匹配。
CN201210545728.3A 2012-12-14 2012-12-14 一种图像签名生成方法和图像验证方法及装置 Active CN103871044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210545728.3A CN103871044B (zh) 2012-12-14 2012-12-14 一种图像签名生成方法和图像验证方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210545728.3A CN103871044B (zh) 2012-12-14 2012-12-14 一种图像签名生成方法和图像验证方法及装置

Publications (2)

Publication Number Publication Date
CN103871044A CN103871044A (zh) 2014-06-18
CN103871044B true CN103871044B (zh) 2018-02-09

Family

ID=50909551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210545728.3A Active CN103871044B (zh) 2012-12-14 2012-12-14 一种图像签名生成方法和图像验证方法及装置

Country Status (1)

Country Link
CN (1) CN103871044B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709530A (zh) * 2017-01-17 2017-05-24 中国科学院上海高等研究院 基于视频的车牌识别方法
CN108256529A (zh) * 2017-11-29 2018-07-06 深圳慎始科技有限公司 基于点云投影轮廓签名和分布矩阵的全局点云描述方法
CN108777779A (zh) * 2018-06-12 2018-11-09 北京京东金融科技控股有限公司 一种视频拍摄设备的智能化装置、方法、介质及电子设备
CN109657083B (zh) * 2018-12-27 2020-07-14 广州华迅网络科技有限公司 纺织品图片特征库的建立方法和装置
CN111160335B (zh) * 2020-01-02 2023-07-04 腾讯科技(深圳)有限公司 基于人工智能的图像水印处理方法、装置及电子设备
CN111291757B (zh) * 2020-02-17 2023-08-15 江苏诚印科技有限公司 一种印章唯一性识别的方法
CN111340515B (zh) * 2020-03-02 2023-09-26 北京京东振世信息技术有限公司 一种特征信息生成和物品溯源方法和装置
CN113591062A (zh) * 2020-05-01 2021-11-02 易鑫 一种滑动拼图类验证码识别方法
CN113033394B (zh) * 2021-03-24 2024-05-14 北京达佳互联信息技术有限公司 图像签名的生成方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515286A (zh) * 2009-04-03 2009-08-26 东南大学 基于图像特征多级过滤的图像匹配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657126B2 (en) * 2005-05-09 2010-02-02 Like.Com System and method for search portions of objects in images and features thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101515286A (zh) * 2009-04-03 2009-08-26 东南大学 基于图像特征多级过滤的图像匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
互联网相似图像识别检索引擎——基于图像签名的方式;grunt1223;《http://grunt1223.iteye.com/blog/828192》;20101129;全文 *
基于多特征签名的图像检索技术研究;朱远毅;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110315(第03期);I138-992 *

Also Published As

Publication number Publication date
CN103871044A (zh) 2014-06-18

Similar Documents

Publication Publication Date Title
CN103871044B (zh) 一种图像签名生成方法和图像验证方法及装置
CN101887523B (zh) 利用图片文字与局部不变特征检测图像垃圾邮件的方法
CN108304936A (zh) 机器学习模型训练方法和装置、表情图像分类方法和装置
Shuai et al. Fingerprint indexing based on composite set of reduced SIFT features
US20090154778A1 (en) Identification and verification of an unknown document according to an eigen image process
CN109934255B (zh) 一种适用于饮料瓶回收机投递物分类识别的模型融合方法
CN103914680A (zh) 一种喷印字符图像识别与校验系统及方法
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN106228166B (zh) 字符图像的识别方法
CN105184225B (zh) 一种多国纸币图像识别方法和装置
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
Roy et al. Script identification from handwritten document
Li et al. DeepHSV: User-independent offline signature verification using two-channel CNN
CN109739844A (zh) 基于衰减权重的数据分类方法
CN108764302A (zh) 一种基于颜色特征和词袋特征的票据图像分类方法
CN113313149B (zh) 一种基于注意力机制和度量学习的菜品识别方法
CN111275070B (zh) 一种基于局部特征匹配的签名验证方法及设备
Almazán et al. A coarse-to-fine approach for handwritten word spotting in large scale historical documents collection
CN116881687B (zh) 一种基于特征提取的电网敏感数据识别方法及装置
Le et al. Improving logo spotting and matching for document categorization by a post-filter based on homography
CN110516741A (zh) 基于动态分类器选择的类别重叠不平衡数据分类方法
Caraka et al. Batik parang rusak detection using geometric invariant moment
CN111931229B (zh) 一种数据识别方法、装置和存储介质
Mehta et al. Heritage Coin Identification using Convolutional Neural Networks: A Multi-Classification Approach for Numismatic Research
Gunawan et al. Classification of Japanese fagaceae wood based on microscopic image analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1195160

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant