CN101853486A - 一种基于局部数字指纹的图像拷贝检测方法 - Google Patents
一种基于局部数字指纹的图像拷贝检测方法 Download PDFInfo
- Publication number
- CN101853486A CN101853486A CN 201010194502 CN201010194502A CN101853486A CN 101853486 A CN101853486 A CN 101853486A CN 201010194502 CN201010194502 CN 201010194502 CN 201010194502 A CN201010194502 A CN 201010194502A CN 101853486 A CN101853486 A CN 101853486A
- Authority
- CN
- China
- Prior art keywords
- image
- fingerprint
- test pattern
- digital
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种基于局部数字指纹的图像拷贝检测方法。该方法对测试图像库中的每幅图像提取局部SIFT特征,并将这些高维的SIFT特征向量进行局部数字指纹的转化以及统计指纹在每幅图像中出现的频率,以建立数字指纹数据库;在图像进行查询时,首先对查询图像提取SIFT特征,然后转化得到其数字指纹以及转化过程中不可靠位置的信息,再结合不可靠位置信息在测试指纹库的倒排索引结构中进行查询,从而快速得到与查询图像的局部数字指纹相关联的测试图像集合,为查询图像与相关联的测试图像进行相似性度量,以判断是否为拷贝。在检测拷贝的性能方面,本发明具有很好的查全率和查准率;在检测拷贝的效率方面,本发明也能够较快地进行查询图像的拷贝检测。
Description
技术领域
本发明属于多媒体信息安全技术领域,具体涉及一种基于局部数字指纹的图像拷贝检测方法。
背景技术
近年来通信、计算机和网络技术的发展,使得多媒体信息的交流达到了前所未有的深度和广度。与此同时,多媒体数据的传播媒介也日益增多,让人们随时享受着数字生活的便利,但随之带来一系列问题:广泛地版权侵犯、非法复制与分发、篡改,以及数据信息的泄密等。因此,如何保证广大互联网用户在充分享受互联网便利的同时,又能有效地保护数字内容的知识产权已经成为数字产品和网络应用面临的严峻问题。
目前针对数字内容的版权保护主要有两种方式:数字水印和拷贝检测。在对图像数字内容进行保护的领域中,拷贝检测技术相比水印技术的主要优势在于:
(1)在数字图像发布之前,基于内容的图像拷贝检测技术不需要对数字图像进行任何处理,如水印技术中的水印信息嵌入,因此拷贝检测技术可以对互联网上的所有图像进行跟踪检测以判断是否发生版权侵犯;而水印技术只能对嵌入水印的版权图像进行水印检测以判断版权归属。
(2)嵌入在数字图像中的数字水印,一旦被黑客破解,数字水印的保护功能就完全失效,导致原先嵌入水印的版权作品无法判断版权归属;而基于内容的拷贝检测可以针对黑客的攻击手段,采用新的技术将互联网上的这些可疑版权的图像检测出来,从而筑起新的防线;
(3)基于数字水印的版权保护的抗攻击能力是以攻击产生的视觉失真不会被人眼感知作为极限强度,而基于内容的拷贝检测的抗攻击能力是以作品内容本身不发生改变作为极限强度,因而基于内容的拷贝检测具有更强的抗攻击能力。
同时,基于内容的拷贝检测和图像检索的研究思路大体较为相似,分为特征提取,特征索引建立和基于索引的特征匹配三个方面,但二者存在一些重要区别,主要表现在:
(1)二者的研究目的不同。图像检索是从图像库中检索具有相似视觉分类的图像,包括并不具有拷贝关系的图像;拷贝检测是从图像库中检测拷贝图像。
(2)相似图像与拷贝图像的概念不同。相似图像是指某副图像在内容上人眼主观感觉有重合性或相似性的图像;拷贝图像是原始图像经过如各种信号域或几何域的变换而得到的图像,其基本内容并没有产生改变且不影响商业应用价值。因此,相似图像不一定是拷贝图像,拷贝图像也不一定是相似图像。
目前,基于内容的图像拷贝检测技术已成为解决图像盗版追踪问题的研究热点,但是国内学者在此领域的研究很少,仅有的研究也是借鉴文档拷贝检测领域的技术或采用多媒体数字认证领域的技术,没有完全考虑图像拷贝检测的应用特点,因此国内相关研究的参考文献较少。在国际上已经发表的文献中,主要在具有抗几何失真能力的图像特征提取、大规模特征矢量的高效索引构建以及相应的快速查询等方面进行了较深入的研究。
在基于内容的图像拷贝检测领域,所提取的图像特征是基于图像内容的低层特征,它要求具有较强的鲁棒性和辨识能力。Hsu(W.Hsu,T.S.Chua,and H.K.Pung,An integrated color-spatial approach to content-based imageretrieval,in Proc.ACM Multimedia,1995,pp.305-313)等提出了一种利用分割的拷贝检测方法,通过选择了一组颜色集合来描述所有的颜色信息,然后将图像分割成较小的子块部分,每个子块部分的颜色信息都用局部颜色直方图来描述。Meng和Chang(Y.Meng,E.Chang.Image Copy DetectionUsing Dynamic Partial Function.Proc.SPIE Storage and Retrieval for MediaDatabase,2003,5021:176~186)等提出了一种使用多尺度颜色和纹理特征来描述一幅图像,并使用了动态偏序函数(Dynamic Partial Function,DPF)来比较图像的相似度,由于采用全局的特征,因此该方法对几何攻击鲁棒性不理想。Lu和Liao(C.S.Lu,H.Y.Mark Liao.Structural Digital Signature forImage Authentication:An Incidental Distortion Resistant Scheme.IEEE Trans.on Multimedia,2003,5(2):161~173)通过小波变换的多尺度结构建立了称为“结构化数字签名”来抵抗对有意和无意的图像攻击。Kim(Kim,C.Content-based image copy detection.Signal Processing:Image Communication,2003,18(3):169-184)在2003年提出了一种基于离散余弦变换(Discrete CosineTransform,DCT)的有序测度测度方法(ordinal measure),利用矩阵翻转180度后,其离散余弦变换后的矩阵不变的特性,能够有效地检测经过翻转攻击的图像拷贝。Wu(Ming-Ni Wu,Chia-Chen Lin,Chin-Chen Chang.Novelimage copy detection with rotating tolerance.The Journal of Systems andSoftware,2007,80(13):1057~1069)等人则在Kim方法的基础上改进了算法,使得拷贝检测对旋转有一定的鲁棒性,但不够彻底。SIFT(Scale InvariantFeature Transform),即尺度不变特征变换由Lowe(Lowe D.G.Objectrecognition from local scale-invariant features.in:Proceedings of the SeventhIEEE International Conference on Computer Vision.Kerkyra,Greece:IEEE,1999,2:1150-1157)等人提出,通过在差分高斯尺度空间检测局部极值点即为特征点,然后确定特征点的位置以及特征点所处的尺度。围绕SIFT特征点,Joly等(Joly A.,Frelicot C.,Buisson O.Content-based video copy detection inlarge databases:a local fingerprints statistical similarity search approach.in:Proceedings of IEEE International Conference on Image Processing.Genoa,Italy:IEEE,2005,11-14)提出基于局部SIFT特征点多阶导数的签名方法。SIFT特征虽然具有很多优良的特性,但仍然存在以下不足:(1)特征检测因为需要对多尺度空间进行搜索,需要很多次的卷积运算,算法的计算复杂度高且运算量大,速度较慢;(2)SIFT特征最初应用于目标识别,因而需要能够检测出尽可能多的特征点,然而这些大量的特征会导致特征匹配时间的增加;(3)SIFT特征集合不是十分的显著,集合中仍然存在一些不稳定的点。
在图像特征矢量的索引构建及查询方面,由于多媒体数据库和图像检索等领域的学者在这方面已经进行了较深入的研究,所以拷贝检测领域的索引构建基本上是借鉴已有的索引结构,并对其进行改进以达到高效拷贝检测的目标。Meiers(T Meiers,T Elerbrock,T Sikora.Image browsing withPCA-assisited user-interaction.Content-Based Access of Image and VideoLibraries,IEEE Workshop.2001,2(4):102~108)提出了一种重要的降维方法--主成分分析法(Principal Component Analysis,PCA),PCA采用线性变换把原有的变量转换到新的综合变量,使新的综合变量为原变量的线性组合。为了用尽可能少的综合变量代替原变量,要求每个综合变量尽可能多地集中原有变量的信息。Faioutsos和Lin提出了用于维数缩减的KLT(Karhunen-Loeve Transform)快速逼近算法。研究表明,大多数的实数集合(视觉特征向量)可以大量地缩减维度,并且对查询效果不会产生明显的影响。虽然降维方法是克服维度灾难的一个途径,但它有几个缺陷。首先降维操作总是会丢失精度,降维后的数据维度越小,精度越差。其次它比较适合于高度相关的数据集,若各维之间的相关性较小,则降维并不能起到太好的压缩效果。另外,这种方法不适合于真实应用中的动态数据情况,因为降维必须预先对整个数据集进行计算,当数据集动态更新时,就必须对数据集重新计算,因此计算代价相当大。由于降维索引方法的效果主要依赖于降维的程度,它需要在以上三个方面做权衡。
从以上对研究现状的回顾可以得到:研究学者在图像特征提取领域进行了大量研究工作,但主要是以特征对几何域和信号域等攻击的鲁棒性为考虑的出发点,且得到的特征维数较高。虽然索引技术也已经得到了广泛地研究,但高维的数据进行索引构建及查询仍然在时间效率上表现不佳,所以有必要将图像特征进行转化并利用较成熟的索引结构进行查询,进而来保证检测精度和检测效率。
发明内容
本发明的目的在于提供一种基于局部数字指纹的图像拷贝检测方法,该方法具有较高的查全率和查准率,同时能够大幅度提高拷贝检测的查询效率。
本发明提供的一种基于局部数字指纹的图像拷贝检测方法,其特征在于,该方法包括特征入库阶段和查询阶段;
特征入库阶段包括过程A1到A3:
A1采用尺度不变特征变换算法为测试图像库中各个测试图像提取局部特征;
A2将各测试图像的局部特征转换成数字指纹;
A3构建数字指纹的倒排索引,生成数字指纹辞典表,得到测试图像指纹索引库;数字指纹辞典表包括排序后的数字指纹列表、每个数字指纹所在的图像ID列表以及数字指纹在对应图像中出现的频率信息列表;
查询阶段包括过程B1至B4:
B1采用尺度不变特征变换算法为当前查询图像提取局部特征,
B2将查询图像的局部特征转换成数字指纹;
B3在可允许的汉明距离的条件下,构建查询图像的局部特征的相似的指纹集合,然后在测试图像指纹索引库中进行快速查询,得到相关联的测试图像集合;
B4引用集合运算的相似性度量公式的定义,度量查询图像和相关联的测试图像集合中各测试图像的相似度,将所有相似度大于预先设定的阈值的测试图像作为查询图像的拷贝,其余为非拷贝。
与现有技术相比,本发明提出的基于局部数字指纹的图像拷贝检测方法具有较强的鲁棒性和辨识性:提取的SIFT特征具有较强的抗几何攻击能力和区分能力。同时,通过将SIFT特征转化成局部数字指纹,从而达到了既降低特征向量的维数又保证特征信息的精度的目的。因此,该图像拷贝检测方法在检测精度方面具有很高的查全率和查准率,同时具有较好的检测效率。
附图说明
图1为本发明方法的整体框架图;
图2为局部SIFT特征转化成数字指纹的过程图;
图3为构建测试图像集合的数字指纹库倒排索引示意图;
图4为查询图像的拷贝检测过程示意图;
图5为基于词袋模型方法、基于SIFT特征直接匹配方法和基于局部数字指纹方法的查全率与查准率曲线比较图;
图6为基于局部数字指纹方法在不同汉明距离下的查全率与查准率曲线比较图,其中图(a)是汉明距离等于0和小于或等于1的两种情况比较,图(b)是汉明距离小于或等于1和小于或等于2的两种情况比较,图(c)是汉明距离小于或等于2和小于或等于3的两种情况比较,图(d)是汉明距离小于或等于3和小于或等于4的两种情况比较;
图7为基于词袋模型方法和基于局部数字指纹方法的查询时间效率比较图,其中图(a)是基于非拷贝图像库的查询时间效率比较,图(b)是基于拷贝图像库的查询时间效率比较;
图8为基于局部数字指纹方法在不同汉明距离下的查询时间效率比较图,其中图(a)是基于非拷贝图像库的查询时间效率比较,图(b)是基于拷贝图像库的查询时间效率比较。
具体实施方式
以下结合附图和具体实例对本发明的技术方案做进一步的详细说明。
本发明方法的流程如图1所示,对测试图像库中的所有图像提取SIFT特征后,将其转化成局部数字指纹存储在数据库中,同时把每幅图像的指纹序列看作关键词集合,并以此关键词集合建立测试图像指纹库的倒排索引结构;在拷贝检测时,首先对查询图像提取SIFT特征并转化成局部数字指纹,同时获取每个SIFT特征在转换过程中的最不可靠位信息,然后根据可允许的汉明距离(Hamming Distance)产生可接受的相似指纹集,其中相似指纹集是指与查询图像之间存在潜在拷贝关系的候选测试图像的数字指纹集合,最后以所有的相似指纹集为检测入口查询倒排索引指纹库,并返回图像拷贝检测的结果。
本发明方法包括二个阶段,即特征入库阶段和查询阶段,下面对其中进行具体说明:
(A)特征入库阶段
(A1)提取图像特征
本发明采用SIFT算法从数字图像提取局部特征,该特征具有较强的抗几何攻击能力和辨识能力。对于不同的数字图像而言,每幅图像所提取的SIFT特征数目与图像内容、大小等有关。为了保证图像拷贝检测的效率,需要为所有图像提取相近数目的SIFT特征,通过循环判断SIFT特征提取算法在不同阈值下的特征数目来进行最终的取舍。
(A2)将局部SIFT特征转换成数字指纹
由于步骤(A1)中提取的SIFT特征为128维向量,如果直接进行图像特征向量间的匹配将极大地影响检测效率。如图2所示,借鉴数字指纹的方法,构造每一个局部SIFT特征所对应的数字指纹,主要步骤如下:
①将每一个原始SIFT特征的128维向量顺序平均分成32组,每组有4个分量,记分组的结果为G1,G2,L,Gi,L,G32。
②计算原始SIFT特征128维向量的平均值M,以及32个分组中4个分量内部的分量之和,分别记为V1,V2,L,Vi,L,V32。
③分别计算32个分组的分量之和的值(V1~V32)与4×M的差值DIFF,即
DIFFi=Vi-4×M,i=1,2,L,32 (1)
④根据DIFFi的正负,用二进制位表示32组分量,即
⑤根据④中得到的BINi(i=1,2,L,32),以BIN1为符号位,BINi(i=2,3,L,32)为数值位构建长整型数,即为当前SIFT特征对应的数字指纹。
(A3)构建局部数字指纹集的高效索引结构
根据步骤(A2),可以得到图像的局部数字指纹集。借鉴文本检索领域的处理方法,将一个局部数字指纹看作是一个关键词,图像看作整个文档。在文本检索中,倒排索引是通过关键词(KEYWORDS)的取值来确定关键词出现的位置信息。当关键词在倒排索引表中顺序排列时,一次检索过程可以根据关键词的取值快速得到相应的位置信息以及频率信息。因此,可以将文本检索中的倒排索引的概念及数据结构,应用于基于词袋模型的视觉关键词辞典的索引结构构建过程中。根据文本中关键词和图像库中局部数字指纹的概念对应关系,可以非常便捷地得到以下的倒排索引构建过程,如图3所示,给出了一个数字指纹辞典表的例子,具体生成过程如下:
①将步骤(A2)中得到的局部数字指纹集,构建已经排序的数字指纹辞典表,数字指纹辞典表包括排序后的数字指纹列表、每个数字指纹所在的图像ID列表以及数字指纹在对应图像中出现的频率信息列表。其中指纹值是指以十进制表示的指纹大小,表中指纹值的取值范围为-231~231-1。
②对①中已排序的辞典表中的数字指纹,逐个将其所在的图像位置ID构建成图像ID列表,如图3右边部分所示。同时构建在对应图像中出现的频率信息的列表,如图3左边部分所示。记其中的K个数字指纹值所对应的图像位置ID列表分别为ID_LIST_1,ID_LIST_2,ID_LIST_3,......,ID_LIST_K;数字指纹所对应的频率信息列表分别为FREQ_LIST_1,FREQ_LIST_2,ID_LIST_3,......,FREQ_LIST_K。
(B)查询阶段
当一个查询图像提取SIFT特征并经过局部数字指纹的转化之后,得到n个指纹以及其相应的最不可靠位信息。如图4所示,具体的查询过程如下:
①给定一幅查询图像,利用SIFT特征提取方法得到这幅图像中的n个SIFT特征,同时每个128维的SIFT特征向量将按照步骤(A2)进行转化,最终得到了n个指纹(每个指纹的取值为-231~231-1之间),且均存储在QUERY_FINGERPRINTS表中(表长为n)。在步骤(A2)中,对比特位取值的判断是根据每个组分量之和与平均值的差进行的,因此比特位取值可能存在误差。根据公式(2),可以求取DIFFi绝对值的较大的四个值,记此四个较大值在比特流中所对应的位置为最不可靠位置(LstPos),并记下该位置信息。
②对查询图像中的n个局部数字指纹,分别统计其在当前图像中出现的频率,得到t(t≤n)个互不相同的数字指纹。将统计后的t个唯一的指纹值(-231~231-1)存储在QUERY_UNI_FINGERPRINTS表中(表长为t);每个指纹值在图像中出现的频率对应为FREQ1,FEWQ2,......,FREQi,......,FREQt,将其存储在QUERY_UNI_FREQ表中(表长为t);每个唯一的指纹值所对应的最不可靠位信息存储在QUERY UNI LSTPOS表中(表长为t)。
③因为在拷贝检测应用中可能遭受各种信号处理或几何失真,造成图像数字指纹信息的改变,即具有拷贝关系的图像的数字指纹之间并非完全一样,因此需要根据最不可靠位的位置信息(LstPos),将潜在的候选拷贝图像的数字指纹包含进来,为每个唯一的局部数字指纹值生成相似的数字指纹集合。具体实施方式如下,当汉明距离等于0时(指纹值的比特位不允许错误),数字指纹集合即为当前指纹;当汉明距离大于或等于1时,指纹集合中的数目需要根据错位的组合情况重新确定,对应的指纹值需要根据原始指纹值和错位位置(比特位)共同确定。因此,假设汉明距离为Ham_Dis,Ham_Dis的值等于四个最不可靠位允许发生0/1位错的比特数目,因此错位的组合将会在4个比特位中进行,每个SIFT特征可能得到的指纹数目为num,num的计算公式如下所示:
查询图像所有的局部SIFT特征对应的相似的数字指纹集合存储在QUERY_HAMMING_FINGERPRINTS表中,表长为num×t。
④对于t个唯一的局部数字指纹值,按照步骤③循环地为每个指纹值生成相似的数字指纹集合。假设当前允许的汉明距离小于或等于1,则由公式(3)可知:每个SIFT特征可能有5个对应的数字指纹值。进一步,利用二分查找算法逐个地将5个数字指纹值在数字指纹辞典表中直接查找当前数字指纹所指向的测试图像位置ID列表以及对应的测试图像频率信息列表,接着遍历当前的两个列表,将得到的这些与当前数字指纹值关联的测试图像ID及频率信息存储在内存,即以相关联的每个测试图像ID为索引,将当前查询的数字指纹频率值保存在对应的位置。对于一个SIFT特征拥有的相似的数字指纹集合,其中每个数字指纹所相关联的图像集合均认为在当前SIFT特征处匹配。假设当前查询图像的t个局部数字指纹所关联的不重复测试图像ID数目为r,r幅相关联的测试图像ID值存储在RESULT_ID_LIST表中(表长为r);所有的t个局部数字指纹在RESULT_ID_LIST表中的第i个相关联的测试图像的频率信息存储在RESULT_FREQ_LIST_i表中(表长为r,0≤i≤r-1)。
至此,由以上对查询步骤的叙述可知:利用倒排索引将查询图像提取并转化后得到的局部数字指纹进行检索,从预先存储在索引结构中的测试图像数字指纹辞典表及每个数字指纹值对应的测试图像位置ID列表和频率信息列表找到相关联的测试图像集合;如果当前相关联的测试图像存在多个数字指纹与查询图像在该处SIFT特征相同,则将该相关联的测试图像对应的频率信息记录在与自身图像ID链接的结果频率信息表中;如此循环,将查询图像中存在的所有数字指纹进行倒排索引的查找,从而在最后得到了查询图像的指纹频率信息表QUERY_UNI_FREQ,以及与查询关键词相关联的r幅测试图像关键词频率信息表RESULT_FREQ_LIST_i(0≤i≤r-1)。
(1)图像拷贝检测的相似性度量
假设查询图像数字指纹及指纹频率信息的集合为A,即QUERY_UNI_WORDS和QUERY_UNI_FREQ,其有t个唯一不重复的数字指纹,查询得到每个相关联的测试图像ID的对应数字指纹及指纹频率信息的集合为Bi(0≤i≤r-1),即相关联的测试图像的数字指纹个数RESULT_KEYWORDS_NUM_i以及与查询对应的关键词频率列表为RESULT_EREQ_LISTi,利用相似度度量的集合运算公式:
具体的相似度度量和筛选步骤如下:
①求取A和Bi的交集,即从QUERY_WORDS表中求取查询图像和相关联的测试图像在t个数字指纹值处的频率最小值,然后综合t个数字指纹的最小值而得到交集数目。即
Inter_sect_i=Min(QUERY_UNI_FREQ[j],RESULT_FREQ_LIST_i[j])(5)
Inter sect_num_i=Sum(Inter sect_i) (6)
其中0≤i≤r-1,0≤j≤t-1。
②求取A和Bi的并集,即从QUERY_WORDS表中求取查询图像和相关联的测试图像在t个数字指纹值处的频率最大值的总频率,以及相关联的测试图像的所有数字指纹中不属于t个数字指纹值集合的数目。即Union_i=Max(QUERY_UNI_FREQ[j],RESULT_FREQ_LIST_i[j]) (7)
Union_num_i=Sum(Union_i) (8)
其中0≤i≤r-1,0≤j≤t-1
③利用①和②的结果,代入集合运算的公式(4),求出A和Bi的相似度Simi。
④设定相似度阈值为Thre,当Simi≥Thre时,则认为该相关联的测试图像是查询图像的拷贝;否则是非拷贝。
实例:
为了证明基于局部数字指纹的图像拷贝检测方法之性能和效率具有较好的优势,本发明将通过以下的实验进行验证与分析。
实验数据:
本发明是从网络上的一些专业图像库的站点(http://wang.ist.psu.edu/docs/related.shtml)下载了10307幅图像作为实验数据,其中包含各种图像内容类型,如花草,树木,人物,建筑,艺术等测试图像,图像格式均为JPEG,图像大小为256*384或384*256。
B.实验平台:
软件:Windows XP系统;MATLAB 7.0;VC++6.0;Access数据库;
C.实验图像库的分类:
(1)从下载的10307幅图像中随机选取120幅图像作为查询图像,记为查询图像库Q;
(2)其余的10187幅为非拷贝图像,记为非拷贝图像库L;
(3)利用Strirmark 3.1工具为查询图像库Q中的每幅查询图像生成对应攻击的共88种拷贝图像,即共产生120*88=10560幅拷贝图像,记为拷贝图像库L_COPY。
其中实验中涉及到的Stirmark攻击类型如下:
(1)信号处理的攻击:共6种。包括中值滤波,高斯滤波,锐化和频率模式的拉普拉斯去除(frequency mode Laplacian removal);
(2)JPEG的攻击:共12种。JPEG压缩质量因子在90%~10%间变化;
(3)一般线性几何变换的攻击:共3种;
(4)纵横比改变的攻击:共8种;
(5)行去除的攻击:共5种;
(6)旋转裁剪的组合攻击:共16种;
(7)缩放的攻击:共6种。缩放因子在0.5和2.0之间变化;
(8)裁剪的攻击:共9种。裁剪比例在1%和75%之间变化;
(9)剪切(shearing)的攻击:共6种。在x轴和y轴上采用仿射变化攻击;
(10)旋转后缩放的攻击:共16种;
(11)随机弯曲(random bending)的攻击:共1种。
D.图像拷贝检测的查询结果:
(1)检测质量评价
假设查询得到的拷贝结果中:真实拷贝的数目为right_positive,误检成拷贝的数目为false_positive,漏检的拷贝数目为false_negative。记PRECISION为查全率,RECALL为查准率,则对查全率和查准率定义如下:
纵向实验:将基于SIFT特征的直接匹配的方法,基于词袋模型的方法,基于局部数字指纹的方法进行查全率和查准率的比较,其中基于词袋模型的拷贝检测方法中所实验的K均值聚类个数为2000,基于SIFT特征的直接匹配方法中的直接匹配阈值thresh为1.5,基于局部数字指纹的方法所实验的汉明距离为0。实验结果如图5所示:纵轴是查准率,横轴是查全率,PR性能是指查准率和查全率的比较性能。实验采用MATLAB 7.0为性能测试工具,同时利用ADO技术对Access数据库进行访问。
横向实验:在汉明距离取值不同的情况下,基于局部数字单指纹的方法进行查全率和查准率的比较,其中汉明距离取值分为5种情况:0,小于或等于1,小于或等于2,小于或等于3,小于或等于4。实验结果如图6所示:纵轴是查准率,横轴是查全率,PR性能是指查准率和查全率的比较性能。实验采用MATLAB 7.0为性能测试工具,同时利用ADO技术对Access数据库进行访问。
(2)检测效率评价:
纵向实验:当120幅查询图像分别在非拷贝图像库和拷贝图像库中进行查询时,对基于词袋模型和基于局部数字单指纹这两种方法的查询时间进行测试,其中词袋模型的K均值聚类个数为2000,图像库规模的变化为1000,2000,......,10000,实验结果如图7所示。实验采用VC++6.0作为查询时间统计工具,并利用ADO技术对Access数据库进行访问。其中所测试的查询时间不计查询图像SIFT特征提取及指纹的转化所消耗的时间,仅仅统计从特征指纹得到后开始到进行倒排索引查询并利用相似性度量及阈值判断得到最终检测图像集合为止的时间。
横向实验:在汉明距离取值不同的情况下,当120幅查询图像在非拷贝图像库和拷贝图像库中进行查询时间测试,其中汉明距离取值分为两种情况:0,小于或等于1,实验结果如图8所示。实验采用VC++6.0作为查询时间统计工具,并利用ADO技术对Access数据库进行访问。其中所测试的查询时间不计查询图像SIFT特征提取及指纹的转化所消耗的时间,仅仅统计从特征指纹得到后开始到进行倒排索引查询并利用相似性度量及阈值判断得到最终检测图像集合为止的时间。
本发明不仅局限于上述具体实施方式,本领域一般技术人员根据本发明公开的内容,可以采用其它多种具体实施方式实施本发明,因此,凡是采用本发明的设计结构和思路,做一些简单的变化或更改的设计,都落入本发明保护的范围。
Claims (4)
1.一种基于局部数字指纹的图像拷贝检测方法,其特征在于,该方法包括特征入库阶段和查询阶段;
特征入库阶段包括过程A1到A3:
A1采用尺度不变特征变换算法为测试图像库中各个测试图像提取局部特征;
A2将各测试图像的局部特征转换成数字指纹;
A3构建数字指纹的倒排索引,生成数字指纹辞典表,得到测试图像指纹索引库;数字指纹辞典表包括排序后的数字指纹列表、每个数字指纹所在的图像ID列表以及数字指纹在对应图像中出现的频率信息列表;
查询阶段包括过程B1至B4:
B1采用尺度不变特征变换算法为当前查询图像提取局部特征,
B2将查询图像的局部特征转换成数字指纹;
B3在可允许的汉明距离的条件下,构建查询图像的局部特征的相似的指纹集合,然后在测试图像指纹索引库中进行快速查询,得到相关联的测试图像集合;
B4引用集合运算的相似性度量公式的定义,度量查询图像和相关联的测试图像集合中各测试图像的相似度,将所有相似度大于预先设定的阈值的测试图像作为查询图像的拷贝,其余为非拷贝。
2.根据权利要求1所述的基于局部数字指纹的图像拷贝检测方法,其特征在于,步骤A2中,对于各测试图像的局部特征中包含的每一个SIFT特征按下述过程转换成数字指纹:
(A2.1)将SIFT特征的128维向量顺序平均分成32组,每组有4个分量;
(A2.2)计算128维向量的平均值M,以及32组向量内部的分量之和;
(A2.3)分别计算32组分量之和与4×M的差值;
(A2.4)二进制位表示其差值,其中第1位作为符号位,其余31位为数值位,构建长整型数,即为当前特征的局部数字指纹。
3.根据权利要求1所述的基于局部数字指纹的图像拷贝检测方法,其特征在于:步骤B2中,对于各查询图像的局部特征中包含的每一个SIFT特征按下述过程转换成数字指纹:
(B2.1)将SIFT特征的128维向量顺序平均分成32组,每组有4个分量;
(B2.2)计算128维向量的平均值M,以及32组向量内部的分量之和;
(B2.3)分别计算32组分量之和与4×M的差值;其求取差值绝对值的较大的四个值,记此四个较大值在比特流中所对应的位置为不可靠位置,并记下该位置信息,作为最不可靠位信息;
(B2.4)二进制位表示其差值,其中第1位作为符号位,其余31位为数值位,构建长整型数,即为当前特征的数字指纹。
3、根据权利要求3所述的基于局部数字指纹的图像拷贝检测方法,其特征在于:步骤B3具体包括下述过程:
(B3.1)设一个查询图像包含有n个数字指纹,分别统计其在该查询图像中出现的频率;
(B3.2)根据每个数字指纹的最不可靠位信息生成相似的数字指纹集合;
(B3.3)当汉明距离等于0时,该数字指纹集合即为当前指纹;当汉明距离大于或等于1时,指纹集合中的数目需要根据错位的组合情况重新确定,对应的指纹值由原始指纹值和错位位置共同确定;
(B3.4)从n个数字指纹中去除大小相等的指纹,得到不重复的指纹,按照步骤(B3.3)循环地为每个不重复的指纹生成相似的数字指纹集合;利用二分查找算法逐一在数字指纹辞典表中查找当前数字指纹所指向的测试图像位置ID列表以及对应的测试图像频率信息列表。
4.根据权利要求1所述的基于局部数字指纹的图像拷贝检测方法,其特征在于:步骤B4按照下述过程进行查询图像与测试图像之间的相似性度量:
(B4.1)计算当前查询图像的信息集和查询得到的一幅相关联的测试图像信息集的交集,并求取交集中指纹的数量;
(B4.2)计算当前查询图像的信息集和查询得到的一幅相关联的测试图像信息集的并集,并求取并集中指纹的数量;
(B4.3)计算查询图像和相关联的测试图像的相似度,其值等于(交集中指纹的数量)/(并集中指纹的数量+相关联的测试图像的数字指纹个数-交集中指纹的数量);
(B4.4)若相似度大于预先设定的阈值,则认为该相关联的测试图像是查询图像的拷贝图像,否则是非拷贝图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101945024A CN101853486B (zh) | 2010-06-08 | 2010-06-08 | 一种基于局部数字指纹的图像拷贝检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101945024A CN101853486B (zh) | 2010-06-08 | 2010-06-08 | 一种基于局部数字指纹的图像拷贝检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101853486A true CN101853486A (zh) | 2010-10-06 |
CN101853486B CN101853486B (zh) | 2012-06-13 |
Family
ID=42804952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101945024A Expired - Fee Related CN101853486B (zh) | 2010-06-08 | 2010-06-08 | 一种基于局部数字指纹的图像拷贝检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101853486B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467513A (zh) * | 2010-11-03 | 2012-05-23 | 腾讯科技(深圳)有限公司 | 图片搜索方法和系统 |
CN102855279A (zh) * | 2012-07-26 | 2013-01-02 | 哈尔滨理工大学 | 基于细节点隆线形状的目标指纹快速查找方法 |
CN102930493A (zh) * | 2011-08-12 | 2013-02-13 | 索尼公司 | 防篡改的图像处理方法和装置 |
CN103092935A (zh) * | 2013-01-08 | 2013-05-08 | 杭州电子科技大学 | 一种基于sift量化的近似拷贝图像检测方法 |
CN103294676A (zh) * | 2012-02-24 | 2013-09-11 | 北京明日时尚信息技术有限公司 | 一种基于gist全局特征和sift局部特征的网络图片内容重复检测方法 |
CN103324650A (zh) * | 2012-10-23 | 2013-09-25 | 深圳市宜搜科技发展有限公司 | 一种图像检索方法及系统 |
CN103699691A (zh) * | 2014-01-10 | 2014-04-02 | 五八同城信息技术有限公司 | 生成图像指纹及基于此进行相似图像检索的方法 |
CN104778158A (zh) * | 2015-03-04 | 2015-07-15 | 新浪网技术(中国)有限公司 | 一种文本表示方法及装置 |
CN104881668A (zh) * | 2015-05-13 | 2015-09-02 | 中国科学院计算技术研究所 | 一种基于代表性局部模式的图像指纹提取方法及系统 |
CN103676976B (zh) * | 2013-12-23 | 2016-01-13 | 中国地质科学院地质研究所 | 三维工作台重复定位误差的校正方法 |
CN105468596A (zh) * | 2014-08-12 | 2016-04-06 | 腾讯科技(深圳)有限公司 | 图片检索方法和装置 |
CN109166336A (zh) * | 2018-10-19 | 2019-01-08 | 福建工程学院 | 一种基于区块链技术的实时路况信息采集推送方法 |
CN111507260A (zh) * | 2020-04-17 | 2020-08-07 | 重庆邮电大学 | 一种视频相似度快速检测方法及检测装置 |
CN112148904A (zh) * | 2020-07-31 | 2020-12-29 | 中标慧安信息技术股份有限公司 | 一种报警联动录像的索引方法及装置 |
US11380115B2 (en) * | 2019-06-04 | 2022-07-05 | Idemia Identity & Security USA LLC | Digital identifier for a document |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030174859A1 (en) * | 2002-03-14 | 2003-09-18 | Changick Kim | Method and apparatus for content-based image copy detection |
CN1585328A (zh) * | 2004-05-28 | 2005-02-23 | 孙晓博 | 利用新型准正交码生成技术的数字指纹设计与检测方法 |
CN101308567A (zh) * | 2008-06-21 | 2008-11-19 | 华中科技大学 | 一种基于内容的鲁棒图像拷贝检测方法 |
US20100074528A1 (en) * | 2008-09-23 | 2010-03-25 | Microsoft Corporation | Coherent phrase model for efficient image near-duplicate retrieval |
-
2010
- 2010-06-08 CN CN2010101945024A patent/CN101853486B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030174859A1 (en) * | 2002-03-14 | 2003-09-18 | Changick Kim | Method and apparatus for content-based image copy detection |
CN1585328A (zh) * | 2004-05-28 | 2005-02-23 | 孙晓博 | 利用新型准正交码生成技术的数字指纹设计与检测方法 |
CN101308567A (zh) * | 2008-06-21 | 2008-11-19 | 华中科技大学 | 一种基于内容的鲁棒图像拷贝检测方法 |
US20100074528A1 (en) * | 2008-09-23 | 2010-03-25 | Microsoft Corporation | Coherent phrase model for efficient image near-duplicate retrieval |
Non-Patent Citations (4)
Title |
---|
《Ninth IEEE International Symposium on Multimedia, 2007. ISM 2007.》 20071212 Chih-Yi Chiu, et al. Efficient and Effective Video Copy Detection Based on Spatiotemporal Analysis 第202-209页 1-5 , 2 * |
《Proceedings of ACM International Conference on Multimedia (MM), 2004》 20040831 Yan Ke, et al. Efficient Near-duplicate detection and sub-image retrieval 全文 1-5 , 2 * |
《计算机研究与发展》 20091231 邹复好,等 抗旋转和等比缩放失真的图像拷贝检测技术 第1349-1356页 1-5 第46卷, 第8期 2 * |
《通信学报》 20071231 李远宁,等 基于"bag of words"的视频匹配方法 第147-151页 1-5 第28卷, 第12期 2 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102467513A (zh) * | 2010-11-03 | 2012-05-23 | 腾讯科技(深圳)有限公司 | 图片搜索方法和系统 |
CN102467513B (zh) * | 2010-11-03 | 2015-05-20 | 深圳市世纪光速信息技术有限公司 | 图片搜索方法和系统 |
CN102930493A (zh) * | 2011-08-12 | 2013-02-13 | 索尼公司 | 防篡改的图像处理方法和装置 |
CN102930493B (zh) * | 2011-08-12 | 2017-08-08 | 索尼公司 | 防篡改的图像处理方法和装置 |
CN103294676A (zh) * | 2012-02-24 | 2013-09-11 | 北京明日时尚信息技术有限公司 | 一种基于gist全局特征和sift局部特征的网络图片内容重复检测方法 |
CN102855279A (zh) * | 2012-07-26 | 2013-01-02 | 哈尔滨理工大学 | 基于细节点隆线形状的目标指纹快速查找方法 |
CN102855279B (zh) * | 2012-07-26 | 2018-05-22 | 哈尔滨理工大学 | 基于细节点隆线形状的目标指纹快速查找方法 |
CN103324650A (zh) * | 2012-10-23 | 2013-09-25 | 深圳市宜搜科技发展有限公司 | 一种图像检索方法及系统 |
CN103092935A (zh) * | 2013-01-08 | 2013-05-08 | 杭州电子科技大学 | 一种基于sift量化的近似拷贝图像检测方法 |
CN103676976B (zh) * | 2013-12-23 | 2016-01-13 | 中国地质科学院地质研究所 | 三维工作台重复定位误差的校正方法 |
CN103699691A (zh) * | 2014-01-10 | 2014-04-02 | 五八同城信息技术有限公司 | 生成图像指纹及基于此进行相似图像检索的方法 |
CN105468596A (zh) * | 2014-08-12 | 2016-04-06 | 腾讯科技(深圳)有限公司 | 图片检索方法和装置 |
CN104778158A (zh) * | 2015-03-04 | 2015-07-15 | 新浪网技术(中国)有限公司 | 一种文本表示方法及装置 |
CN104778158B (zh) * | 2015-03-04 | 2018-07-17 | 新浪网技术(中国)有限公司 | 一种文本表示方法及装置 |
CN104881668A (zh) * | 2015-05-13 | 2015-09-02 | 中国科学院计算技术研究所 | 一种基于代表性局部模式的图像指纹提取方法及系统 |
CN104881668B (zh) * | 2015-05-13 | 2018-08-10 | 中国科学院计算技术研究所 | 一种基于代表性局部模式的图像指纹提取方法及系统 |
CN109166336A (zh) * | 2018-10-19 | 2019-01-08 | 福建工程学院 | 一种基于区块链技术的实时路况信息采集推送方法 |
US11380115B2 (en) * | 2019-06-04 | 2022-07-05 | Idemia Identity & Security USA LLC | Digital identifier for a document |
CN111507260A (zh) * | 2020-04-17 | 2020-08-07 | 重庆邮电大学 | 一种视频相似度快速检测方法及检测装置 |
CN111507260B (zh) * | 2020-04-17 | 2022-08-05 | 重庆邮电大学 | 一种视频相似度快速检测方法及检测装置 |
CN112148904A (zh) * | 2020-07-31 | 2020-12-29 | 中标慧安信息技术股份有限公司 | 一种报警联动录像的索引方法及装置 |
CN112148904B (zh) * | 2020-07-31 | 2021-07-27 | 中标慧安信息技术股份有限公司 | 一种报警联动录像的索引方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101853486B (zh) | 2012-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101853486B (zh) | 一种基于局部数字指纹的图像拷贝检测方法 | |
Chou et al. | Pattern-based near-duplicate video retrieval and localization on web-scale videos | |
Zhou et al. | Spatial coding for large scale partial-duplicate web image search | |
US7127106B1 (en) | Fingerprinting and recognition of data | |
Shuai et al. | Fingerprint indexing based on composite set of reduced SIFT features | |
Zhou et al. | Region-level visual consistency verification for large-scale partial-duplicate image search | |
Yeh et al. | Video copy detection by fast sequence matching | |
Liu et al. | Cross-indexing of binary SIFT codes for large-scale image search | |
Chen et al. | Using binarization and hashing for efficient SIFT matching | |
Nie et al. | Robust image fingerprinting based on feature point relationship mining | |
Sarkar et al. | Efficient and robust detection of duplicate videos in a large database | |
Zou et al. | Compact image fingerprint via multiple kernel hashing | |
Saracoglu et al. | Content based copy detection with coarse audio-visual fingerprints | |
Liu et al. | An image-based near-duplicate video retrieval and localization using improved edit distance | |
Ling et al. | Fast image copy detection approach based on local fingerprint defined visual words | |
Tolias et al. | Towards large-scale geometry indexing by feature selection | |
Hu et al. | Coherent phrase model for efficient image near-duplicate retrieval | |
Yang et al. | Near-duplicate detection for images and videos | |
Gavrielides et al. | Color-based descriptors for image fingerprinting | |
Liu et al. | Video copy detection by conducting fast searching of inverted files | |
Kim et al. | BASIL: effective near-duplicate image detection using gene sequence alignment | |
Chai et al. | A robust and reversible watermarking technique for relational dataset based on clustering | |
Foo et al. | Discovery of image versions in large collections | |
Mehta et al. | Adaptive Near Duplicate Image Retrieval Using SURF and CNN Features. | |
Liu et al. | A computationally efficient algorithm for large scale near-duplicate video detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120613 |