CN101308567A

CN101308567A - 一种基于内容的鲁棒图像拷贝检测方法

Info

Publication number: CN101308567A
Application number: CNA2008100481646A
Authority: CN
Inventors: 凌贺飞; 邹复好; 卢正鼎; 许治华; 冯辉
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2008-06-21
Filing date: 2008-06-21
Publication date: 2008-11-19
Anticipated expiration: 2028-06-21
Also published as: CN100587715C

Abstract

本发明公开了一种基于内容的鲁棒图像拷贝检测方法。先提取测试图像特征矢量：选取原图YCbCr颜色空间的Y平面整体DCT变换系数，计算其顺序测度得到的系数序列作为测试图像的特征矢量；再建立测试图像代表矢量库：对测试图像库图像的特征矢量集进行聚类分析，定义聚类，选取最接近聚类中心的特征矢量作为聚类的代表，构建所有聚类的代表矢量库；最后以查询图像特征矢量及旋转补偿后的图像特征矢量分别检索匹配测试图像代表矢量库，确定所属类别，在此聚类中对各个图像特征矢量进行顺序匹配检索，判别是否存在查询图像的拷贝。本发明表现出较高的鲁棒性，有助于提高查询效率。在数字图像数据库整理、数字图像版权保护和盗版追踪方面具有实用价值，使用范围广泛。

Description

一种基于内容的鲁棒图像拷贝检测方法

技术领域

本发明属于多媒体处理技术，涉及一种基于内容的鲁棒图像拷贝检测方法，具体来说，给定查询图像，使用该方法能快速准确的从测试图像库中判断检索出所有查询图像的拷贝图像。本发明还涉及一种提取图像特征矢量的方法和一种改进的K-均值聚类算法，提取的图像特征矢量能抵抗各种常规变换和一些低强度的几何变换；引入改进的K-均值聚类算法有效的减少了聚类和匹配检索时间，提高了查询效率。

背景技术

随着网络技术和多媒体技术的发展，数字图像的复制和传播变得十分便捷，因此，知识产权(intellectual copyrights)的保护，特别是有关数字图像的版权保护，已经变成重要的法律问题。由于数字图像的编辑处理十分容易，非法盗版者往往对拷贝的数字图像进行一些处理(如格式转换、亮度和颜色调整以及旋转，缩放等几何变换)，很容易躲避一些针对图像盗版的追踪。

目前，通常两种技术被用于数字图像的版权保护：数字水印(digitalwatermarking)和基于内容的拷贝检测(content-based copy detection)。作为广泛应用的数字水印技术，需要在数字图像发布之前将相关水印信息嵌入在数字图像中。这样，所有嵌入水印的数字图像的拷贝都含有水印信息，在发生版权纠纷问题时将水印信息从数字图像中提取出来与原始水印信息比较以此来证明所有权。不同于嵌入模式的数字水印，基于内容的拷贝检测不需要在数字图像发布之前在图像中嵌入其他额外信息。一般来说，数字图像本身含有足够的唯一信息，作为数字图像的唯一标识，用于基于内容的拷贝检测，特别是各种非法拷贝的检测。例如，某新闻图像的版权所有者怀疑该图像在Internet上被非法拷贝，该所有者可以从拷贝检测系统发起一个查询。同时，基于内容的拷贝检测也可以作为数字水印的一个补充。在证明Internet上存在非法拷贝之后，该数字图像的版权所有者可用数字水印或其他技术来证明其所有权。

基于内容的拷贝检测方法从数字图像中提取特征矢量作为该图像唯一的标识。在进行拷贝检测时，从查询图像中提取相同的标识与测试图像的标识比较，从而确定查询图像是否为测试图像的拷贝。这里拷贝不是指与测试图像完全相同，而是测试图像的经过修改或变换得到的图像，例如：插入文本信息、旋转缩放图像等等。相比于数字水印的主要优势在于：(1)不需要在数字图像发布之前对数字图像进行任何处理；(2)嵌入在数字图像中的数字水印，一旦被黑客破解，数字水印的保护功能就完全失效，而基于内容的拷贝检测可以针对黑客的攻击，重新筑起新的防线；(3)基于数字水印的版权保护的抗攻击能力是以攻击产生的失真不会被人感知作为极限强度，而基于内容的拷贝检测的抗攻击能力是作品内容不发生改变作为极限强度，因而基于内容的拷贝检测具有更强的抗攻击能力。

基于内容的拷贝检测与基于内容的图像检索的本质区别在于拷贝和相似性的概念：拷贝图像不是原始查询图像或者与查询图像相似的图像，而是查询图像的经过变换产生的图像，例如各种光学变化或几何变换。基于内容的图像检索应用主要目的在于在相同的视觉分类中查找相似的图像，但是大多数检索的相似图像在基于内容的拷贝检测中属于误检行为。另外一个根本的区别在于拷贝检测的查询图像可能只包含测试图像的一部分。

目前基于内容的图像拷贝检测采用的图像特征主要是基于图像亮度、梯度、分块离散余弦变换(discrete cosine transform，DCT)系数的顺序测度，对缩放和较小范围的裁剪变换有良好效果，却对旋转和大范围的裁剪无能为力。Hsu(W.Hsu，T.S.Chua，and H.K.Pung，An integrated color-spatialapproach to content-based image retrieval，in Proc.ACM Multimedia，1995，pp.305-313.)等利用通过局部颜色直方图得到的图像分块的颜色信息作为图像特征，通过比较局部颜色直方图匹配两幅图像，缺点在于较高的计算复杂度和搜索时间。Chang(E.Y.Chang，J.Z.Wang，C.Li，G Wiederhold，RIME：areplicated image detector for the world-wide-web，in：Proceedings of the SPIEMultimedia Storage and Archiving Systems，San Jose，CA，November 1998，Vol.III.)等提取利用基于小波的网络图像拷贝检测，实验结果显示对于一个有30,000幅图像的测试图像库，能正确的检测8个拷贝，但是应对直方图量化或者高对比度增强变换无能为力。Kim(Kim，C.Content-based image copydetection.Signal Processing：Image Communication，2003，18(3)：169-184)等提出基于分块DCT系数的图像拷贝检测方法，对图像的180°翻转、缩放、直方图量化、模糊、高斯噪声等都有较好的效果，但是对图像的旋转和裁剪效果不佳。因此，为解决现有问题，提出一种基于图像整体DCT变换系数顺序测度的鲁棒图像拷贝检测方法。

发明内容

本发明的目的在于提出一种基于内容的鲁棒图像拷贝检测方法，采用该检测方法能准确识别攻击以后的图像，具有较高的鲁棒性，并提高了查询效率。

本发明提供的基于内容的鲁棒图像拷贝检测方法，其步骤包括：

(1)提取测试图像特征矢量：选取原图YCbCr颜色空间的Y平面整体DCT变换系数，计算其顺序测度得到的系数序列作为测试图像的特征矢量；

(2)建立测试图像代表矢量库：对测试图像库图像的特征矢量集进行聚类分析，定义聚类，选取最接近聚类中心的特征矢量作为聚类的代表，构建所有聚类的代表矢量库；

(3)查询图像匹配检索：以查询图像特征矢量及旋转补偿后的图像特征矢量分别检索匹配测试图像代表矢量库，确定所属类别，在此聚类中对各个图像特征矢量进行顺序匹配检索，判别是否存在查询图像的拷贝。

本发明方法通过提取出的图像特征作为唯一数字图像标识，即使检测图像遭受到各种常规变换和一些低强度的几何变换，采用该检测方法仍能准确识别攻击以后的图像为测试图像的拷贝，表现出较高的鲁棒性；同时对测试图像特征库进行聚类，其有助于提高查询效率。本方法与现有的图像拷贝技术比较有以下优点：

目前大部分基于内容的拷贝检测算法对各种常规变换和几何变换鲁棒性较差，主要原因在于颜色、亮度、梯度和分块DCT系数在图像经过轻微的几何变换之后，常常导致分块内像素的亮度值、梯度值或变换系数值发生较大的变化，因此此类拷贝检测算法的查准率和查全率较低。由于本方法是基于图像整体DCT系数的拷贝检测技术，并对测试图像库中图像特征矢量进行聚类，减小了数据库数量级，检测时间少，精度高，同时能抵抗各种常规变换和低强度的几何变换，在数字图像数据库整理、数字图像版权保护和盗版追踪方面具有实用价值，使用范围广。

附图说明

图1为本发明提出的基于内容的鲁棒图像拷贝检测方法的整体示意图；

图2为提取图像特征示意图；

图3(a)-3(j)分别为原始查询图像lena，watch，peppers，baboon，airplane，lake，Tiffany，house，Splash和boat；

图4为不同DN值的ROC对比曲线；

图5为不同阈值α情况下查准率与查全率曲线；

图6为本方法与基于亮度、梯度和分块DCT系数方法的成功检测数和漏检数对比图；

图7为聚类算法中离散度随时间变化曲线；

图8为不同聚类数目情况下离散度对比图；

图9为选取相似度值较大的nN个聚类情况下查准率、查全率及查询时间对比图。

具体实施方式

本发明基于彩色图像YCbCr颜色空间Y平面整体DCT变换的视觉唯一性特征矢量，并将拷贝检测技术与聚类技术有机结合起来，实现了基于内容的鲁棒图像拷贝检测方法，不仅对各种常规变换和低强度的几何变换有较好的鲁棒性，而且大大减少了拷贝检测查询匹配的时间。下面将参照附图和实例对本发明具体实施方式进行详细说明，如图1所示，本发明方法包括预处理测试图像库和匹配检索两个步骤，预处理过程只需要进行一次，得到代表矢量库和聚类结果，对于给定的查询图像，按第二步匹配检索得到拷贝检测结果。下面结合实例对本发明作具体描述如下：

第一步：预处理，提取测试图像库TD中每一幅测试图像的特征矢量perm，聚类分析所有特征矢量，聚类数目为K，这里K为2到15之间的整数，记录每一个类的聚类中心作为聚类代表特征矢量perm_S，构建代表矢量库，具体过程如下。

(1)提取图像特征矢量

对彩色图像I(i，j)，i，j分别为图像横向和纵向的像素个数，为大于零的整数，将图像从RGB颜色空间转换到YCbCr颜色空间，转换公式如式(1)所示，其中Y，Cb，Cr，R，G，B均为i×j的矩阵，Y表示图像的亮度信息，Cb表示蓝色分量和参考值的差，Cr表示红色分量和参考值的差，R，G，B分别为图像的红、绿、蓝分量，并对YCbCr颜色空间的Y平面即矩阵Y进行整体DCT变换得到图像的整体DCT系数矩阵DIO(i，j)，D_ij表示图像亮度矩阵Y经过DCT变换后产生的DCT系数矩阵中第i行j列DCT系数。

zig-zag扫描DIO(i，j)，得到频率由低到高的DCT系数序列SDIO＝{D₁₁，D₁₂，D₂₁，D₃₁，…，D_ij}，选取从第Start位开始的DN个DCT系数SSDIO＝{D_Start，D_Start+1，…，D_DN+Start-1}，考虑算法的效率，对选取的DN个DCT系数，相邻的Di个(其中Di为DN的因子)求平均值，得到DN/Di个合并后的DCT系数AVG_SSDIO＝{D₁，D₂，…，D_DN/Di}，Start设定为12，DN取值范围为{256，1024，4096，8192}，Di设定为32，计算AVG_SSDIO的顺序测度得到该图像的特征矢量perm＝{17，1，…，30，DN/Di，…，20}，具体实施方法是排序选取的DCT系数值，确定每一位系数的排列值，其中特征提取过程示意图如图2所示。

[\begin{matrix} Y \\ Cb \\ Cr \end{matrix} \begin{matrix}  \end{matrix}] = [\begin{matrix} 16 \\ 128 \\ 128 \end{matrix}] + [\begin{matrix} 65.481 & 128.553 & 24.966 \\ - 27.797 & - 74.203 & 112.000 \\ 112.000 & - 93.786 & - 18.214 \end{matrix}] [\begin{matrix} R \\ G \\ B \end{matrix}] - - - (1)

(2)构建代表矢量库；

随机选取K个测试图像特征矢量perm(i₁)，perm(i₂)，…，perm(i_K)，1≤i₁，i₂，…，i_K≤TN(TN表示测试图像库中图像数目，考虑实际情况TN≥10000)，作为初始的K个类的中心，将其余特征矢量根据其与各个类中心的距离分配到最近的类；然后重新计算每个类的中心。对每个类设置一个阈值η，第k类的个数阈值η_k可以由式(2)取得；每次迭代，将所有样本根据其与各个类中心的距离分配到最近的类，并统计每个类的样本调整数；只需要求重新计算样本调整数大于η的类的类中心，并更新所有样本与这些类中心的距离。不断重复这个过程，直到目标函数(如式(3)所示)最小化为止。这个目标函数使生成的类尽可能地紧凑和独立，这里使用的距离度量是欧几里德距离。最后生成K个特征矢量聚类S₁，S₂，…，S_K，记录每个聚类的中心作为该聚类的代表特征矢量

η_k＝λN_k(2)

其中，λ为比例系数，取值分别为0.005，0.015，0.025，N_k为第k类的特征矢量个数(1≤k≤K)。这样，在聚类过程中，当第k类的样本调整个数q_k小于η_k，则该类的类中心将不进行移动。因此，不必重新计算该类的类中心及所有样本与该类的距离，将大大节省聚类时间。

E = Σ_{i = 1}^{TN} \underset{p &Element; S_{i}}{Σ} | | p - w_{i} | | - - - (3)

其中E是数据集中所有对象的平方误差的总和；w_i是类S_i的平均值，p是数据空间中的数据对象，这里为图像的特征矢量(p和w_i都是多维的，本方法中是DN/Di维的)。

第二步：给出查询图像，返回拷贝检测结果，具体实施过程如下。

(1)提取查询图像特征矢量，具体操作方式与预处理中提取图像特征矢量相同。

(2)以查询图像特征矢量匹配检索代表矢量库

计算查询图像特征矢量perm_Q与代表矢量库中每个聚类代表矢量

(S_i＝{S₁，S₂，…，S_K})的欧几里德距离d(perm_Q，perm_S)，计算公式如式(5)所示，其中perm_Q(i)和perm_S(i)分别两个特征矢量第i位特征值，并除以最大距离d_MAX归一化处理(d_MAX为顺序测度排序为逆序时两个排列之间的欧几里德距离)，得到0到1之间的值作为查询图像与测试图像的相似度值，为了防止聚类分析划分精度造成遗漏检测，排序所有相似度值，选取相似度值较大的nN个聚类中心，nN的取值为1到6之间的整数，然后进一步比较查询图像Q与nN聚类中所有图像的特征矢量，计算聚类S_i(1≤i≤nN)中每一个特征矢量与查询图像特征矢量perm_Q的相似度值，再与阈值α比较，这里α＝0.7(实验部分将给出相关说明)，从而检索出查询图像Q的所有拷贝，返回检测结果。由于本方法的图像特征在大幅度旋转图像的情况下效果并不理想，引入了旋转补偿的方法，设定一个旋转角度集angle，定义为：

angle＝{β_min，β_min+ang_d，…，β_max}(4)

其中，参数ang_d为角度集中两相邻角度间的间隔，本方法ang_d＝5°，β_min＝0°，β_max＝30°β_min≤angle_m≤β_max(1≤m≤N_angle)，angle_m为此角度集中的第m个角度，N_angle为角度数量，N_angle＝7。在此角度集中逐一搜索最接近图像被攻击的旋转角度，重新计算旋转后查询图像的特征矢量，再次检索匹配测试图像特征库。

d ({perm}_{Q}, {perm}_{S}) = sqrt (Σ_{i = 1}^{DN / Di} {({perm}_{Q} (i) - {perm}_{S} (i))}^{2}) - - - (5)

以下分别从检测精度和检测效率两个方面给出理论分析和实验说明，首先给出了本方法图像特征矢量鲁棒性和唯一性说明，并以实验验证了本方法有较高的查准率和查全率；然后证明了本方法较之传统K-均值聚类算法有较低的计算复杂度，实验数据表明本方法保证检测精度的同时，提高了检测效率。

(1)检测精度

DCT变换是目前广泛应用的JPEG压缩标准所采用的编码方式，是在最小均方差条件下得出的仅次于K-L变换的次最佳正交变换，是一种无损的酋变换。具有运算速度快，精度高等特点，其运算公式如下。

C (u, v) = a (u) a (v) Σ_{x = 0}^{N - 1} Σ_{y = 0}^{N - 1} f (x, y) \cos [\frac{(2 x + 1) uπ}{2 N}] \cos [\frac{(2 y + 1) uπ}{2 N}] - - - (6)

u，v＝0，1，…，N-1

其中

a (u) = \{\begin{matrix} \sqrt{1 / M} & u = 0 \\ \sqrt{2 / M} & u = 1,2, \cdot \cdot \cdot, M - 1 \end{matrix},

a (v) = \{\begin{matrix} \sqrt{1 / N} & v = 0 \\ \sqrt{2 / N} & v = 1,2, \cdot \cdot \cdot, N - 1 \end{matrix},

x，y为

空间域采样值；u，v为频率域采样值，通常数字图像用像素方阵表示，即M＝N，f(x，y)表示图像上坐标分别为x和y像素点的灰度值。由式(5)可以得出

C (0,0) = \frac{1}{\sqrt{MN}} Σ_{x = 0}^{M - 1} Σ_{y = 0}^{N - 1} f (x, y),

即第一个整体DCT系数值是整个图像的灰度平均值，称为DC系数，剩下的称为AC系数。

\cos (\frac{(2 x + 1) uπ}{2 M}) \cos (\frac{(2 y + 1) uπ}{2 N}) (0 \leq u \leq M - 1,0 \leq v \leq N - 1)

称为余弦基函数，值得注意的一点是该余弦基函数与图像内容无关，只与图像的大小有关，也就是说，这些余弦基函数对相同大小的图像是不会改变的。由于图像经过二维DCT变换，将图像的能量集中，其低频分量主要集中在矩阵的左上角，高频分量主要则集中在矩阵的右下角。图像的低频分量反映图像慢变化，即图像整体部分。图像的高频分量代表图像跳变的地方，即图像细节部分如轮廓边缘。根据人类视觉系统图像整体比细节部分更为重要。若一幅图像经过处理低频系数改变过大，则影响图像的视觉效果。综合考虑，选取图像整体DCT变换的中低频系数并计算其顺序测度代表图像信息。对图像做缩放变换时将引起图像重新分块，导致DCT块的数量随着缩放的比例增多或者减少，而且块的重新划分导致每一块的内容发生改变，那么分块DCT系数也发生没有规律的改变，但是整体DCT系数会随着缩放变换有规律的变化。具体来说，如果图像在空域内缩放γ倍，γ取值为0.1，0.2，0.5，2，4等，那么新图像的整体DCT系数矩阵的左上角区域内系数大致都缩放1/γ倍。

本发明中实验采用从http://wang.ist.psu.edu/docs/related/下载的10000张图像作为测试图像库TD，TN＝10000，从图像库中选取十张彩色图像构成原始查询图像集，如图3所示(考虑显示大小问题，将所有图片大小均调整为原来的20％)。选取查询图像集中每一幅图像经过Photoshop软件34种变换生成拷贝图像集，变换参数均由Photoshop软件得到，具体变换包括：插入文本，缩放0.5和2倍，3×3高斯滤波，4×4中值滤波，旋转1°，2°，5°，10°，20°，30°，15％JPEG压缩，裁剪72.25％和56.25％，1.2×1和0.8×1纵横比变换，垂直和水平翻转，位移32和64个像素，切割左上角和右上角64×64个像素，角度为15°的旋转扭曲，20％对比度增强，40％、60％和80％高斯噪声，30％饱和度增加，15％色度改变，马赛克，马赛克拼贴，动感模糊，水彩，海绵等。

本发明中参数DN设置为1024，如图4所示，DN＝1024时正确率最大，漏检率最小。根据最小错误率的贝叶斯决策规则推导出阈值：

α = = \frac{μ_{1} + μ_{2}}{2} + \frac{σ^{2} \ln (V)}{μ_{1} - μ_{2}} - - - (7)

其中u₁，u₂分别为查询图像Q与测试图像库TD中34张图像拷贝C_q特征矢量和剩下所有非图像拷贝R_q特征矢量之间距离的平均值，σ²为方差，V为C_q与R_q图像数目的比值。根据本发明的实验条件然后计算μ₁＝0.75982，μ₂＝0.45809和σ²＝0.0057498，最后计算得出最优临界阈值α＝0.7171。如图5所示，当α在0.7附近时，查准率最大，查准率与查全率均在90％以上。

最后，本方法(方法4)对比了基于分块亮度顺序测度(方法1)、基于分块梯度顺序测度(方法2)和基于分块DCT系数顺序测度(方法3)，如图6所示，不论从成功检测出拷贝数目，还是漏检的拷贝数目方面衡量，本方法均较大优势。

(2)检测效率

对于传统K-均值算法的总计算量为：

Ω＝T(nN*K+TN*m*K+TN*m)(8)

其中，T为传统K-均值聚类的迭代总次数，nN、TN、K分别为本发明实施步骤中给出的最近邻聚类数目，测试图像库中图像数目和聚类数目，m是计算机每次运算时间，为常量。每次迭代，TN*m为求类中心位置的计算量；TN*m*K为求所有样本与各类中心距离的计算量；nN*K为求离样本最近的类别的计算量。考虑K-均值改进算法的第i次迭代。求样本最近邻的类别，计算量为nN*K。统计所有类别的样本调整个数，计算量为SN。调整过程，只有K⁽ⁱ⁾个类别的类中心需要重新计算，其计算量N⁽ⁱ⁾*m(N⁽ⁱ⁾是这些类别所包含的样本个数)。另外，算法中只需要重新计算样本与这些已调整类中心的距离，其计算量为TN*m*K⁽ⁱ⁾。所以，总计算量为：

\overset{&OverBar;}{Ω} = Σ_{i = 1}^{\overset{&OverBar;}{T}} (nN * K + SN + TN * m * K^{(i)} + N^{(i)} * m) - - - (8)

其中，T为改进算法的迭代总次数。在改进算法中的每次迭代中，较之传统算法，多出统计调整个数所花费的计算量SN。但是由于N⁽ⁱ⁾≤TN及K⁽ⁱ⁾≤K(聚类的后半阶段更为明显)，对于高维样本，改进算法用于计算聚类中心及聚类的计算量TN*m*K⁽ⁱ⁾+N⁽ⁱ⁾*m远远小于传统K-均值聚类算法。两种算法离散度随时间的变化曲线如图7所示。从图7可以看出，聚类的初始阶段，由于所有类别均有大量样本在调整，速度传统算法离散度下降略快于改进算法。根据公式(8)得出，用于计算类中心及样本与类中心的距离，改进算法与传统算法所消耗的时间相同。而改进算法需要多出一部分时间，用于统计调整个数。但是，在聚类后半阶段，由于改进算法只重新计算部分类中心及距离，因此聚类时间大大缩短，可以看出改进算法中离散度下降速度明显快于传统K-均值算法。

以改进K-均值聚类算法对所有测试图像库TD中图像的特征矢量进行聚类，通过聚类离散度分析来求取最优化聚类数目，如图8所示，给出了不同聚类数目情况下的离散度对比图，从图中可以看出当聚类数目K＝10时，离散度最小，因此本方法中聚类数目选定为10。拷贝检测时，首先比较查询图像Q与聚类中心，然后选取相似度值较大的nN个聚类中心，再进一步比较查询图像Q与每个聚类中图像的特征矢量，这里分别选择nN＝{1，2，3，4，5，6}。如图9给出了查准率、查全率和查询时间对比图，同时对比了无聚类情况。可以看出，仅仅选取最近邻聚类时，查准率最高，查全率最低，当nN增加时，查准率降低，查全率增加。

Claims

1、一种基于内容的鲁棒图像拷贝检测方法，其步骤包括：

2、根据权利要求1所述的基于内容的鲁棒图像拷贝检测方法，其特征在于：步骤(1)按照下述过程提取特征矢量：

对彩色图像I(i，j)，将图像从RGB颜色空间转换到YCbCr颜色空间，所示，其中Y表示图像的亮度信息，Cb表示蓝色分量和参考值的差，Cr表示红色分量和参考值的差，并对YCbCr颜色空间的Y平面即矩阵Y进行整体DCT变换得到图像的整体DCT系数矩阵DIO(i，j)：

zig-zag扫描DIO(i，j)，得到频率由低到高的DCT系数序列SDIO＝{D₁₁，D₁₂，D₂₁，D₃₁，…，D_ij}，选取从第Start位开始的DN个DCT系数SSDIO＝{D_Start，D_Start+1，…，D_DN+Start-1}，对选取的DN个DCT系数，相邻的Di个求平均值，得到DN/Di个合并后的DCT系数

AVG_SSDIO = {D_{1}, D_{2}, \cdot \cdot \cdot, D_{DN / D_{i}}},

Start，DN，Di均为正整数，计算AVG_SSDIO的顺序测度得到该图像的特征矢量；其中，i，j分别为图像横向和纵向的像素个数，为大于零的整数，Di为DN的因子。

3、根据权利要求1或2所述的基于内容的鲁棒图像拷贝检测方法，其特征在于：步骤(2)按照下述过程建立测试图像代表矢量库：

(2.1)随机选取K个测试图像特征矢量perm(i₁)，perm(i₂)，…，perm(i_K)，1≤i₁，i₂，…，i_K≤TN，K为聚类数目，TN表示测试图像库中图像数目，作为初始的K个类的中心，将其余特征矢量根据其与各个类中心的距离分配到最近的类；然后重新计算每个类的中心；

(2.2)对每个类设置一个阈值η，第k类的样本调整个数阈值η_k由式(I)取得；每次迭代，将所有样本根据其与各个类中心的距离分配到最近的类，并统计每个类的样本调整数；重新计算样本调整数大于η的类的类中心，并更新所有样本与这些类中心的距离；

η_k＝λN_k (I)

其中，λ为比例系数，N_k为第k类的特征矢量个数；

(2.3)重复步骤(2.2)，直到如式(II)所示的目标函数最小化为止；

E = Σ_{i = 1}^{TN} \underset{p &Element; S_{i}}{Σ} | | p - w_{i} | | - - - (II)

(2.4)生成K个特征矢量聚类S₁，S₂，…，S_K，记录每个聚类的中心作为该聚类的代表特征矢量

，构成测试图像代表矢量库；其中，E是数据集中所有对象的平方误差的总和；w_i是类S_i的平均值，p是数据空间中的数据对象。

4、根据权利要求1或2所述的基于内容的鲁棒图像拷贝检测方法，其特征在于：步骤(3)中进行顺序匹配检索时，匹配的过程包括：计算两幅图像特征矢量之间的欧几里德距离，归一化后与1相减，得到两幅图像的相似度值。

5、根据权利要求3所述的基于内容的鲁棒图像拷贝检测方法，其特征在于：步骤(3)中进行顺序匹配检索时，匹配的过程包括：计算两幅图像特征矢量之间的欧几里德距离，归一化后与1相减，得到两幅图像的相似度值。