CN102124489A

CN102124489A - 图像的签名推导

Info

Publication number: CN102124489A
Application number: CN2009801326918A
Authority: CN
Inventors: R·拉达克里希南; C·鲍尔
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2008-08-17
Filing date: 2009-08-17
Publication date: 2011-07-13
Anticipated expiration: 2029-08-17
Also published as: CN102124489B; US20110142348A1; WO2010021965A1; US8406462B2

Abstract

推导与媒体内容相应的图像指纹涉及选择相同图像的至少两个不同区域、确定这两个区域之间的关系、以及基于这两个图像区域之间的关系推导图像的指纹。

Description

图像的签名推导

相关申请的交叉引用

本申请要求于2008年8月17日提交的美国临时专利申请No.61/089,553的优先权，特此引入该专利申请的全文作为参考。

技术领域

本发明整体上涉及图像签名。更具体地讲，本发明的实施例涉及生成与媒体剪辑对应的图像的签名。

背景技术

媒体剪辑或媒体内容是音频媒体、视频媒体或音频/视频(AV)的片段，包括用至少一种介质收录(embody)、存储、发送、接收、处理或以其它方式使用的信息。普通的媒体剪辑格式包括FLV格式(flash video)、Windows媒体视频、RealMedia、Quicktime、MPEG、MP3和DivX。这里所用的术语“媒体剪辑”、“媒体内容”、“信息内容”和“内容”可互换使用。

可用一副或更多副图像定义媒体剪辑。例如，视频媒体可以是视频媒体的特定时刻的时间相关帧或图像集的组合。另外，可使用本领域已知的许多不同技术将音频媒体表示为一副或更多副图像。例如，可以声谱图(spectrogram)捕获音频信息。在声谱图中，水平轴可表示时间，垂直轴可表示频率，可在第三维中表示特定频率在特定时间处的幅度。此外，在二维声谱图中，可用加粗线、更强烈的颜色或灰度值表示幅度。本领域普通技术人员将意识到以上示例的许多不同变型和其它表示可被用于将音频剪辑表示为图像。

定义媒体内容(音频和/或视频)的图像可与对应的指纹(“指纹”与“签名”互换使用，并且等同于“签名”)相关联。可从媒体内容的一部分内的信息或者构成媒体内容的一部分的信息推导(如提取、生成)媒体内容的一些指纹。媒体指纹体现或者捕获对应媒体的媒体内容的本质(essence)，并且可对其唯一识别。视频指纹是可从视频剪辑的图像或帧推导的媒体指纹。音频指纹是可从具有嵌入的音频信息(如声谱图)的图像推导的媒体指纹。此外，术语媒体指纹可表示它们与其相关联并且可从其推导它们的媒体内容的低比特率表示。

指纹可用于确定两个媒体剪辑是否相同或者是否可疑媒体剪辑是从原始媒体剪辑推导出的。为了比较多个媒体剪辑以进行该确定，可推导每个媒体剪辑的指纹，其后可比较这些指纹。

该部分中所述的方法为可执行的方法，但是不必然是以前已设想或执行过的方法。因此，除非另外指明，不应该仅由于在该部分中所述的任何方法包括在该部分中，就假设这些方法是现有技术。类似地，除非另外指明，不应该基于该部分就假设已在任何现有技术中认识到针对一种或多种方法而提出的问题。

附图说明

在附图中以举例的方式而非限制性的方式对本发明进行说明，在附图中，相同的标号表示类似的元素，其中：

图1描绘根据本发明实施例的第一示例性过程；

图2描绘根据本发明实施例的分段视频剪辑；

图3A至图3E描绘根据本发明实施例的区域选择的示例；

图4示出根据本发明实施例的第二示例性过程；

图5示出根据本发明实施例的第三示例性过程；

图6示出根据本发明实施例的第四示例性过程；

图7描述可用其实现本发明实施例的示例性计算机系统平台；和

图8描绘可用其实现本发明实施例的示例性集成电路装置。

具体实施方式

这里所述的示例性实施例涉及推导(如提取、生成、确定、计算)与媒体剪辑对应的图像的签名。在以下描述中，为了说明的目的，阐述了许多特定细节，以使得可充分理解本发明。然而，本领域普通技术人员将清楚的是，可在没有这些特定细节的情况下实施本发明。在其它实例中，为了避免不必要地模糊本发明，以框图形式显示公知的结构和装置。

这里根据以下提纲描述示例性实施例：

1.0综述

2.0功能概述

2.1媒体指纹的生成

2.2示例性实施例

3.0实现机构——硬件概述

4.0等同形式、扩展形式、替代形式和混杂形式

1.0综述

在实施例中，推导与媒体内容对应的图像的指纹，选择相同图像的至少两个不同区域。其后，确定这两个区域之间的关系，并基于这两个图像区域之间的关系推导图像指纹。

确定图像的第一区域和第二区域之间的关系可包括：对于第一区域中的每个像素，基于第一区域中的像素的强度和第二区域中的对应像素的强度计算值以获得多个值。

所述多个值中的每个值可包括以下中的至少一个：第一区域中的像素和第二区域中的对应像素的强度之间的差值，或者第一区域中的像素的强度和第二区域中的对应像素的强度之间的比率。

推导图像指纹可包括：基于所述多个值生成矩阵，将该矩阵投影到多个矢量中的每个矢量上以获得多个投影值，确定所述多个投影值中的每个投影值的签名比特以获得多个签名比特，并基于所述多个签名比特推导指纹。

基于多个值生成矩阵可包括：关于所述多个值确定每个值的等级，并使用所述多个值中的每个值的等级生成矩阵。

将矩阵投影到多个矢量中的每个矢量上以获得多个投影值可包括：计算所述矩阵和所述多个矢量中的每个矢量的阿达玛积(hadamard product)以获得多个矩阵，并基于所述多个矩阵中的每个矩阵中的元素的组合确定与所述多个矩阵对应的多个投影值。

确定多个投影值中的每个投影值的签名比特可包括：确定投影值的中间值(median)，用第一签名比特表示超过该中间值的每个投影值，并用第二签名比特表示被该中间值超过的每个投影值。

在实施例中，在离中间值预定值范围内的签名比特被分类为弱比特，其中，在确定可疑图像是否是从前述图像推导的时忽略弱比特，或者在确定可疑图像是否是从前述图像推导的时拴牢(toggle)弱比特。

图像可包括以下中的一个或多个：多个视频帧中的视频帧，或者音频剪辑的图形表示。

在实施例中，在选择第一区域和第二区域之前，通过以下中的一个或多个对图像进行修改：下采样、邮箱区(letterbox)检测和剪裁、或者低通滤波。

确定图像的第一区域和第二区域之间的关系可包括：将第一区域中的像素划分到第一多个组中，将第二区域中的像素划分到第二多个组中，对于第一多个组中的每个组和对于第二多个组中的每个组，对于每个组内的像素确定组强度统计量(statistic)，并且对于第一区域中的每个组，基于第一区域中的组的组强度统计量和第二区域中的对应组的组强度统计量来计算值。

组强度统计量可包括以下中的一个或多个：组内的像素的平均强度、组内的像素的强度的标准方差、组内的像素的强度的中间强度、与组内的像素的强度相关联的相关性、或者与组内的像素的强度相关联的分布。

本发明的其它实施方式可包括具有执行上述步骤的功能的系统和计算机可读介质。

2.0功能概述

这里描述涉及生成与媒体内容对应的媒体指纹的实施例的示例。在以下描述中，为了说明的目的，阐述了许多特定细节，以使得可充分理解本发明。然而，清楚的是，可在没有这些特定细节的情况下实施本发明。在其它实例中，为了避免不必要地封闭、模糊或混淆本发明，没有对公知的结构和装置进行详尽的描述。

这里参照一个或多个示例性媒体(包括视频和/或音频媒体)描述媒体指纹。本说明书中的示例性媒体可是为了简化和简洁统一的目的而选择的，并且除非明确地相反表述，不应该由于本发明实施例良好地适合用于音频和/或视频媒体，就将本说明书中的示例性媒体的选择理解为是将实施例限于特定媒体。此外，本发明实施例良好地适合用于与和媒体内容对应的可表示两个或三个空间维度的图像。

2.1媒体指纹的生成

如图1所示，为了从媒体内容推导媒体指纹，首先获得与媒体内容对应的图像(步骤102)。在实施例中，可从程序或进程(process)接收图像。在实施例中，图像可被嵌入有与音频内容相关联的音频信息。例如，可生成或接收具有嵌入的音频信息的声谱图。

在实施例中，可从视频内容流得到一副或多幅图像。可在时间上将输入视频下采样到参考帧率，如视频内容指纹保持鲁棒的帧率。在实施例中，在生成签名之前下采样到参考帧率使得可对帧率不同的视频进行比较。如图2所示，随着时间的视频序列流的帧可被分段到时间间隔T_int中，每一时间间隔T_int，就可推导指纹一次。例如，如果原始视频为30fps(帧/每秒)并且签名对于降至12fps的帧率转换是鲁棒的，则会对每一时间间隔T_int＝1/12秒推导签名。在实施例中，最接近时步“j”的视频帧(称为F_j)可用作用于指纹生成的图像。

返回到图1，可将所获得的图像下采样或上采样到期望的空间分辨率(步骤104)。图像的下采样可用于解决可疑图像中的空间分辨率变化。例如，帧F_j可被从任何原始空间分辨率下采样到参考空间分辨率120＊160。只要纵横比没有改变，原始视频和空间缩放的视频之间的对准度不受干扰。在实施例中，在邮箱区检测和裁剪(removal)之后将图像上采样到期望的参考空间分辨率，邮箱区检测和裁剪可通过识别帧的顶部的强烈的(strong)水平边缘和强度值几乎恒定的区域来执行。在这个示例中，一旦邮箱区被检测到，就可去除邮箱区，并且可将帧的其余活动区域上采样到所选择的空间分辨率(例如，120＊160)。在实施例中，图像可被裁剪(步骤106)以移除原始图像的一部分，在该部分中，文本、徽标或其它图形可能被放置或者被放置在可疑视频剪辑中。移除的部分不用于推导签名，因此，签名对于移除区域的任何修改是鲁棒的。在实施例中，在生成之前进行裁剪使得可生成这样的图像指纹，该图像指纹对于裁剪区域的文本、徽标、图形或其它添加物是鲁棒的。

可对图像执行低通滤波，以改进推导指纹之前的提取特征的鲁棒性(步骤108)。低通滤波使低频数据或者从像素到相邻像素变化不大的数据通过，移除高频数据或者从像素到相邻像素快速变化的数据。可看得到的结果是图像出现模糊或者平滑。对于包含许多噪声的图像，低通滤波将会使图像平滑，并在对图像中的大的特征影响最小的情况下减少噪声。低通滤波的量确定抗处理的鲁棒性与对内容的灵敏性之间的平衡。还可基于输入帧的分析选择低通滤波的量。具有许多细节特征的帧所要求的低通滤波的量比没有许多细节信息的帧所要求的低通滤波的量小，以保持灵敏性。

在上述可选的图像预备步骤(步骤104、106和108)之后，选择或者识别图像中的两个或更多个区域(步骤110)。可使用许多不同的确定性方法和/或非确定性方法来执行区域选择。在图3A至图3E中描绘了几个可行的区域选择的示例，在图3A至图3E中，R1表示第一区域，R2表示第二区域。如图3A至图3E所示，每个区域可以是连续的或者不连续的。此外，本发明实施例可应用于任何数量的区域。例如，可在图像内识别三个区域。在实施例中，多个区域选择可用于生成图像指纹。例如，如图3A所示的将图像划分成顶部区域和底部区域可被用于推导图像指纹的一部分，另外，如图3B所示的将图像划分成左区域和右区域可被用于推导图像指纹的另一部分。在实施例中，如图3C所示的随机区域选择也被可用于推导图像指纹的又一个部分。

接着，确定第一区域和第二区域之间的关系(步骤112)。可通过首先将第一区域中的每个像素与第二区域中的对应像素配对来确定该关系。对于被划分成多于两幅图像的图像，第一区域中的像素可与第二区域中的像素配对，此外，第一区域中的像素还可与第三区域中的像素配对。此外，本发明实施例还可应用于多于两个像素的分组。例如，第一区域中的像素、第二区域中的像素和第三像素中的像素可全部被分到一组。一旦配对或分组确定，就通过基于像素的属性计算值来确定每对或每组内的像素之间的关系。对于值的计算可包括任何计算、比较、确定、推导或其它合适的方法。例如，对于每对像素(如第一区域的像素和第二区域的对应像素)，可从第二像素的强度减去第一像素的强度以确定将这两个像素相关联的强度差值。在这个示例中，如果分别使用灰色调或者绿色调来表示图像，则像素的强度可与灰度强度或者绿色强度对应。其它颜色或颜色组合也可用于将第一区域的像素与第二区域的像素相关联。在图4A至图4C中进一步示出这个示例。图4A显示为简化而被缩放到空间分辨率4＊8的图像的强度值。图4B显示下述图像内的区域选择，在该图像中，图像的左侧被选为区域1(R1)，图像的右侧被选为区域2(R2)。其后，如图4C所示，为了确定R1和R2之间的关系，从R1减去R2，以获得4＊4矩阵中所示的强度差值的集合。在实施例中，确定不同区域之间的关系涉及确定第一区域中的每个像素的强度与第二区域中的对应像素的强度的比率。除了强度差值和强度比率之外，还可确定不同区域中的像素之间的各种其它关系值，例如，涉及不同区域的像素之间的强度差值和强度比率的组合的计算。虽然图像强度用于说明示例，但是可使用能从图像推导出的任何其它值。示例包括，但不限于，强度直方图的值、每个拐角点周围的边缘方位直方图、颜色直方图、变换域系数等。

接着，基于不同区域中的像素之间的关系推导图像指纹(步骤114)。在实施例中，可通过从表示两个或更多个区域的像素强度之间的关系的数计算任何值来推导指纹。为了清晰起见，对涉及图4C所示的差值的简单示例进行描述。在这个示例中，可对图4C所示的每个差值确定二值化的值(binary value)。其后，可连接所述二值化的值来生成签名。更复杂的方法也可用于基于不同区域之间的关系推导签名。在图5中示出了一种基于不同区域之间的关系生成签名的这样的示例。

2.2示例性实施例

图5示出一种基于图像的不同区域之间的关系生成签名的示例性方法。图5所示的一个或多个步骤可被修改、重新排列或者一起省略。此外，可重复以下处理来推导用于不同区域选择(例如，图3A至图3E所示的选择)的签名比特，在所述处理中，图像签名基于使用多个区域选择而推导的签名比特的组合。

在这个示例中，一开始，获得图像，并在低通滤波之后将该图像空间采样到尺寸160＊120，其中，以矩阵F^L _j表示像素的强度值。此外，在这个示例中，通过计算沿着宽度与图像中心分隔相等距离的两个像素值之间的差值来计算关系值。这可参照下式(1)描述：

F_{j}^{lr} (m, n) = F_{j}^{L} (m, \frac{W}{2} - n) - F_{j}^{L} (m, \frac{W}{2} + n)

m＝1，2，...H

n - 1,2 . . . \frac{W}{2} - - - (1)

这里，W为宽度，H为F^L _j的高度。在这种情况下，其分别为160和120。因此，F^lr _j矩阵的大小为H＊W/2。类似地，通过计算F^L _j矩阵的上半部和下半部之间的差值来推导另外的F^tb _j矩阵。这里，F^tb _j矩阵中的每个元素计算沿着高度与图像中心分隔相等距离的两个像素值之间的差值。这可参照下式(2)描述：

F_{j}^{tb} (m, n) = F_{j}^{L} (\frac{H}{2} - m, n) - F_{j}^{L} (\frac{H}{2} + m, n)

m = 1,2, . . \frac{H}{2}

n＝1，2...W

(2)

F^lr _j矩阵的大小为H＊W/2，F^tb _j矩阵的大小为H/2＊W。由于这些矩阵均捕获差值，所以整个帧上的任何恒定亮度变化都会影响这些矩阵中的值。这两个矩阵记录给定图像中的不同像素对之间的关系。只要图像上的任何处理不改变这些对之间的关系，这些特征将会保留。在这个示例性实施例中，像素的配对是确定性的。可以以其它方式执行像素之间的配对来推导这些矩阵。此外，通常，配对也可基于伪随机数生成器。

接着，分别通过计算尺寸为W_x＊W_y的图像块中的像素强度的平均数来推导F^lr _j的粗略表示Z和F^tb _j的粗略表示V。这些粗略表示通过在保持块内的平均数的同时容许块内的某些方差来帮助实现鲁棒性。F^lr _j矩阵的粗略表示Z的尺寸为(M₁＊M₂)，其中，M₁＝W/(2＊W_x)(M₁＝160/(2＊8)＝10)，M₂＝H/W_y(M₂＝120/8＝15)。根据下式(3)计算Z：

Z (k, l) = \frac{1}{W_{x} * W_{y}} Σ_{m = (k - 1) W_{x}}^{{kW}_{x}} Σ_{n = (l - 1) W_{y}}^{{lW}_{y}} F_{j}^{lr} (m, n)

k＝1，2...M₁；l＝1，2...M₂

(3)

这里，m和n表示F^lr _j矩阵的水平维度和垂直维度的索引，k和l表示图像Z的索引。类似地，F^tb _j的粗略表示V的尺寸为(U₁＊U₂)，其中，U₁＝(W/W_x)，U₂＝H/(2＊W_y)，根据下式(4)计算V：

V (k, l) = \frac{1}{W_{x} * W_{y}} Σ_{m = (k - 1) W_{y}}^{{kW}_{x}} Σ_{n = (l - 1) W_{y}}^{{lW}_{y}} F_{j}^{tb} (m, n)

k＝1，2...U₁；l＝1，2...U₂

m＝1，2，...H

(4)

在这个步骤中，从帧内差分矩阵(F^lr _j和F^tb _j)中的每个单元块(tile)计算平均像素值以获得Z和V。通常，可计算其它统计量(例如，方差、标准差、相关性和这些差分矩阵的单元块的分布)来对它们进行概述。

不是将矩阵Z和V的实际元素用于指纹生成，而是将等级(ranks)用于改进鲁棒性。例如，在矩阵Z中，其元素的值被该值在所有元素中的等级替代。也就是说，如果Z(0，1)元素为所有M₁＊M₂个条目(entry)中的第4小的元素，则Z(0，1)被4替代。在这个示例中，保持Z的元素的等级的变换矩阵被标注为Z_r。类似地，V_r保持V的元素的等级。只要等级被保持，这个步骤就确保Z和V中的元素的值的变化的鲁棒性。

接着，使用哈希函数创建矩阵Z_r和V_r的签名比特。在这个示例中，对于两个矩阵(Z_r和V_r)相同地创建签名比特。因此，针对它们中的一个(Z_r)来说明比特创建过程，该过程在图6中示出。为了从Z_r推导K₁个比特，首先创建K₁个矢量(P₁，P₂...P_k1)，并将矩阵Z_r投影到该K₁个矢量的集合上。将矩阵Z_r投影到K₁个矢量的集合上可包括取该矩阵和这K₁个矢量中的每个矢量的阿达玛积，以获得矩阵的集合。其后，与每个矩阵内的两个或更多个元素相关的计算可被用于确定每个矩阵的标量值。在这个示例中，每个矩阵中的所有元素的总和被用于计算投影值的集合(H₁，H₂...H_k1)。将这些投影值(H₁，H₂...H_k1)中的每个投影值与阈值(在这个示例中，为投影值的中间值)进行比较，以推导K₁个哈希比特。在实施例中，该阈值可以是依赖于值的阈值(例如，基于投影值H₁，H₂...H_k1计算的阈值)或者基于图像生成的其它值。依赖于值的阈值的示例包括值的中间值、值的平均值、值范围中的预先确定的百分比等。因此，依赖于值的阈值可基于对照阈值而应用的值的集合动态地改变。阈值还可以是固定数、常数、用户选择的数等。对于中间值以上的每个投影值，可分配第一签名比特，对于中间值以下的每个投影值，可分配第二签名比特。类似地，从矩阵V_r创建K₂个哈希比特。

基于K₁个矢量的集合(P₁，P₂...P_k1)的K₁个哈希比特可捕获矩阵Z_r的不同方面，只要矢量(P₁，P₂...P_k1)中的每个彼此不同即可。如果K₁个矢量中的任何两个相同，则K₁个比特中的2个比特可以是相同的。使用K₁个矢量的正交基集或者使用任何不同的K₁个矢量的集合，可避免相同的比特。

其后，分别通过从Z_r和V_r连接哈希比特K₁和K₂的两个集合，推导长度为(K₁+K₂)个比特的指纹。虽然在这个示例中两种关系(例如，顶部-底部和左边-右边)被用于生成签名，但是本发明可用于如图3A至图3E的示例所示的任何数量的确定性的(deterministic)和/或非确定性的(non-deterministic)关系。

在实施例中，当使用基于查找的哈希表对原始视频和修改视频的签名进行比较时，可使用弱比特的概念(notion)。基于哈希表查找的匹配可由于修改内容的签名中的单比特反转(single bit-flip)而易于被误导(misguide)。从修改视频推导的签名比特的子集S可被标记为弱。由于这些比特比其它比特更易于反转(比如，当处理内容时)，所以它们被认为是弱的。倘若知道这S个“弱”比特，则在执行哈希表查找以找到原始匹配签名的精确的哈希条目时，可尝试所有的2^S个可能。

可如下对根据实施例的在以上签名生成方法的背景下识别弱比特的子集的方法进行描述。如上所述，如图6所示，基于到K₁个矢量上的投影从Z_r推导K₁个哈希比特。这些投影得到数H₁，H₂...H_k1。将这些值中的每个与阈值(在这个示例中，为数H₁，H₂...H_k1的中间值)进行比较，以推导K₁个哈希比特。在对内容执行处理操作的情况下，较接近阈值的值可能比其它值更易于使比特反转。基于这个观察，可计算G₁，G₂...G_k1，其中，G_(i)＝绝对值|H_(i)-阈值|。这里，这些投影的中间值用作阈值。最后，按照值减小的顺序存储G₁，G₂...G_k1。此时，预测的S个弱比特为与分类阵列中的最后的S个值对应的那些位置。还可通过G₁，G₂...G_k1与另一个阈值的比较来获得弱比特。在这种情况下，弱比特的数量可取决于这个所选择的阈值。

可如下对基于从最强签名比特到最弱签名比特的连续比特匹配来对原始视频和修改视频的签名进行比较的方法进行描述。一开始，对于原始视频的原始图像，获得各自与签名比特相关联的值的集合。所述值的集合可以是如以上方法中所述那样获得的投影值的集合或者从图像推导的值的其它集合。其后，从最强比特到最弱比特重新排列值的集合，其中，如上所述，每个比特的强度基于值与用于确定签名比特的阈值的距离。值与阈值的距离越大，对应的比特就越强。相反，值与阈值的距离越小，对应的比特就越弱。在以下示例中，值的平均值被用作阈值，然而，任何其它值可被用作阈值(比如，中间值、随机数、用户选择的数等)。在这个示例中，顺序为H₁-H₂-H₃-H₄-H₅-H₆、阈值为平均值20、对应的签名比特为100110的值的集合可为如下这样：

表1

因此，由于与阈值的距离越大，比特就越强，所以可如下从最强比特到最弱比特重新排列与签名比特100110对应的值的集合H₁-H₂-H₃-H₄-H₅-H₆：与签名比特100101对应的H₄-H₂-H₆-H₅-H₃-H₁。因此，从最强比特到最弱比特重新排列原始图像的签名比特。

接着，将用于重新排列原始图像的签名比特的相同转换(translation)(“H₁-H₂-H₃-H₄-H₅-H₆”到“H₄-H₂-H₆-H₅-H₃-H₁”)用于重新排列修改视频(或者可疑修改图像)的修改图像(或者可疑修改图像)的签名比特。从修改图像以平均值40为阈值推导值的集合I₁-I₂-I₃-I₄-I₅-I₆，对应的签名比特为001110如下：

表2

然而，通过使用(基于原始图像的签名比特的强度而确定的)相同的转换，重新排列与修改图像对应的签名比特I₁-I₂-I₃-I₄-I₅-I₆(101110)，以获得修改图像的序列I₄-I₂-I₆-I₅-I₃-I₁(100111)。

因此，均按照最强比特第一、最弱比特最后的下降顺序，根据原始比特的强度，重新排列了原始图像的签名比特(100101)和修改图像的签名比特(100111)。

其后，将重新排列的原始图像的签名比特(100101)与重新排列的修改图像的比特(100111)进行比较，以确定最长的连续匹配。在这个示例中，这两个签名的前四个连续比特(1001)匹配。由于第五比特对于原始图像为“0”，对于修改图像为“1”，所以不匹配。然后可基于六个比特中匹配的最强的四个比特计算原始图像和修改图像之间的相似性程度。

在实施例中，可基于对应值与阈值的距离，为每个比特分配百分比强度值。在上述示例中，可基于(被除以所有值与阈值的总距离的)与阈值20的距离，为原始图像的各签名比特分别分配强度百分比。表1所示的与阈值的总距离为54(1+14+2+19+7+11)。其后，每个差值可被除以总数54，以确定比特的相对强度。因此，重新排序处第一的比特(最强比特)H₄的强度为100＊19/54＝35％。排在第二的比特H₄的强度为100＊14/54＝26％。排在第三的比特H₆的强度为100＊11/54＝20％。排在第四的比特H₅的强度为100＊7/54＝13％。排在第五的比特H₃的强度为100＊2/54＝4％。排在第六的比特H₁的强度为100＊1/54＝2％。因此，基于前面连续匹配的比特(以上示例中为前四个比特)的原始图像和修改图像之间的相似性程度为94％(35％+26％+20％+13％)。如果考虑所有匹配的比特(不仅仅是前面连续的匹配比特)，则基于比特1、2、3、4和6，相似性程度为96％(35％+26％+20％+13％+2％)。

在实施例中，可通过如上所述对按照强度排序的原始图像和修改图像的前面连续匹配的比特进行比较，确定签名推导方法的鲁棒性。例如，可推导原始图像的签名比特，并按照强度对这些签名比特进行排序。然后，可通过使用已知的修改方法(例如，亮度增加)来对原始图像进行修改，以获得修改图像。其后，可根据应用于原始图像的转换来推导修改图像的签名比特，并且将修改图像的签名比特重新排序。然后，可获得原始图像和修改图像之间的相似性程度(比如，如上所述的基于前面连续匹配的比特的强度的百分比)。相似性程度越高，签名推导方法就可越鲁棒。此外，使用按照强度排序的连续匹配比特，而不是使用所有匹配的比特可以更精确地指示签名推导方法相对于特定类型的修改的鲁棒性。

虽然以上示例旨在基于与原始图像对应的签名比特的强度对原始图像的比特和修改图像的比特进行排序，但是对于这两种图像的比特的排序也可基于与修改图像对应的签名比特的强度。

在实施例中，函数的集合中的每个函数可被应用于基于图像而确定的值的集合，以获得函数的集合中的每个函数的一个或多个签名比特。基于图像的值的集合可被用作每个函数的输入，其中，每个函数的输出对应于指纹的一个或多个签名比特。因此，指纹内的每个签名比特对应于一函数和基于图像的值的集合。例如，基于图像的值的集合可用于生成矩阵，并且该矩阵可被提供作为多个函数中的每个函数的输入。所述函数中的每个函数可对应于不同的函数(比如，不同的数学公式)、具有不同常数的函数(例如，对于每个函数具有不同值的矩阵到矢量上的投影)、或者其组合。因此，相同集合的值可用于确定基于被应用于该集合的值的函数的签名比特。

以上关于通常对应于媒体内容的媒体指纹对本发明的示例性实施例进行了描述。在示例性实施例的描述中，视频媒体被用作示例。如上所述，在以上描述中，视频媒体被选作示例性媒体仅仅是为了简化和统一的目的，除了明确地相反表示，视频媒体不应该被理解为将实施例限于特定媒体。与视频媒体一样，本发明的实施例良好地适合用于音频和图形(如静态的、基于文本的)媒体。

例如，实施例良好地适合于从与音频媒体(例如声音、音乐和语音记录)相关联的图像推导其声学签名和合成声学指纹(也可比如同义地、互换地称为“音频”指纹)。音频媒体可与视频媒体相关联，例如，录制的配乐(soundtrack)可与视频媒体一起编码、以及/或者以另一种多媒体格式对录制的配乐进行编码。

尽管以上在描述媒体内容元素时使用视频帧作为示例，但是实施例也良好地适合用于作为媒体内容剪辑的音频剪辑的音频声谱图。如以上描述那样应用，音频剪辑因此可包括随时间流传输(stream)的音频媒体内容的一部分。以上方法可在音频剪辑的声谱图上应用，以推导对应的声学指纹。

3.0实现机构——硬件概述

可用计算机系统、以电子电路和部件构造的系统、集成电路(IC)装置(例如微控制器)、现场可编程门阵列(FPGA)、或者应用特定IC(ASIC)，以及/或者包括这样的系统、装置或部件中的一个或多个的设备来实现本发明实施例。

图7描绘可用其实现本发明实施例的示例性计算机系统平台400。图7是示出可在其上实现本发明实施例的计算机系统700的框图。计算机系统700包括用于传送信息的总线702或其它通讯机构、以及与总线702连接的用于处理信息的处理器704。计算机系统700还包括与总线702连接的主存储器706(例如，随机存取存储器(RAM)或其它动态存储装置)，以用于存储信息和要由处理器704执行的指令。主存储器706还可用于存储在处理器704将执行的指令的执行期间的临时变量或其它中间信息。计算机系统700还包括与总线702连接的只读存储器(ROM)708或其它静态存储装置，以用于存储用于处理器704的静态信息和指令。设有与总线702连接的用于存储信息和指令的存储装置710(例如磁盘或光盘)。

计算机系统700可通过总线702与用于向计算机用户显示信息的显示器712(例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体屏幕显示器等)连接。包括字母数字(或者非基于字母表的书写系统以及/或者非基于阿拉伯数字的)键和其它键的输入装置714与总线702连接，用于将信息和命令选择传送给处理器704。另一种类型的用户输入装置为光标控制器716(例如鼠标、轨迹球或光标方向键)，用于将方向信息和命令选择传送给处理器704和用于控制显示器712上的光标移动。这种输入装置典型地具有沿两个轴(第一轴(如x)和第二轴(如y))的两个自由度，这使得装置能够指定平面中的位置。

实施例可涉及使用计算机系统700来实现这里所述的技术。根据本发明实施例，这样的技术可通过计算机系统700响应于处理器704执行主存储器706中所包含的一个或多个指令的一个或多个序列来执行。这样的指令可被从另一种机器可读介质(例如存储装置710)读到主存储器706中。主存储器706中所包含的指令序列的执行使得处理器704执行这里所述的处理步骤。在可供选择的实施例中，可使用硬接线的电路来代替用于实现本发明的软件指令或者与用于实现本发明的软件指令组合地使用硬接线的电路。因此，本发明实施例不限于硬件电路和软件的任何特定组合。

这里所用的术语“机器可读介质”表示参与提供使机器以特定方式操作的数据的任何存储介质。在使用计算机系统700实现的实施例中，例如在向处理器704提供指令以供执行时涉及各种机器可读介质。这样的介质可采用许多形式，包括，但不限于，存储介质和传输介质。存储介质包括非易失性介质和易失性介质。非易失性介质包括，例如，光盘或磁盘，例如，存储装置710。易失性介质包括动态存储器，例如，主存储器706。传输介质包括同轴电缆、铜线和光纤，包括构成总线702的接线。传输介质还可采取例如在无线电波和红外线以及其它光学数据通讯期间生成的那些波的声波或电磁波的形式。这样的介质是确切(tangible)的，以使得被介质携载的指令能够被将指令读到机器中的物理机构检测到。

机器可读介质的普通形式包括，例如，软盘、柔性盘、硬盘、磁带或任何其它磁介质、CD-ROM、任何其它光学介质、打孔卡、纸带、其它旧式媒体或者具有孔或变暗斑点的图案的任何其它物理介质、RAM、PROM和EPROM、FLASH-EPROM、任何其它存储芯片或盒、如下所述的载波、或者计算机可从其读取的任何其它介质。

在将一个或多个指令的一个或多个序列携载到处理器704以用于执行时可涉及各种形式的机器可读介质。例如，指令一开始可被携载在远程计算机的磁盘上。远程计算机可将指令加载到其动态存储器中，并使用调制解调器通过电话线发送指令。计算机系统700本地的调制解调器可接收电话线上的数据，并使用红外线发送器将数据转换为红外线数据。红外线检测器可接收承载于红外线信号中的数据，合适的电路可将数据放到总线702上。总线702将数据携载到主存储器706，处理器704从主存储器706检索和执行指令。可选地，可在处理器704执行之前或之后将主存储器706接收的指令存储在存储装置710上。

计算机系统700还包括与总线702连接的通讯接口718。计算机接口718提供与网络链路720连接的双路数据通讯，网络链路720与局域网722连接。例如，通讯接口718可以是提供与对应类型的电话线的数据通讯连接的综合服务数字网(ISDN)卡或者数字用户线(DSL)或者线缆调制解调器(传统上，调制器/解调器)。作为另一个示例，通讯接口718可以是提供与可兼容LAN的数据通讯连接的局域网(LAN)卡。还可实现无线链接。在任何这样的实现中，通讯接口718发送和接收承载表示各种类型信息的数字数据流的电信号、电磁信号或光信号。

网络链路720典型地通过一个或多个网络提供与其它数据装置的数据通讯。例如，网络链路720可通过局域网722提供与主机724或者与被互联网服务提供商(ISP)726操作的数据设备的连接。ISP726进而通过全球包数据通讯网络(现在普遍称为“互联网”728)提供数据通讯服务。局域网722和互联网728均使用承载数字数据流的电信号、电磁信号或光信号。通过各种网络的信号和网络链路720上的通过通讯接口718的信号是运输信息的载波的示例性形式，这些信号将数字数据携载给计算机系统700并且从计算机系统700携载数字数据。

计算机系统700可通过网络、网络链路720和通讯接口718发送消息和接收数据(包括程序代码)。在互联网示例中，服务器730可通过互联网728、ISP 726、局域网722和通讯接口718发送请求的应用程序代码。

当代码被接收以及/或者被存储在存储器装置710或其它非易失性存储器中以用于以后执行时，接收的代码可被处理器704执行。以这种方式，计算机系统700可以以载波形式获得应用代码。

图8描绘可用其实现本发明实施例的示例性IC装置800。IC装置800可具有输入/输出(I/O)特征801。I/O特征801接收输入信号，并通过路由光纤810将它们路由到中央处理电路(CPU)802，CPU 802与存储器803一起工作。I/O特征801还从IC装置800的其它部件特征接收输出信号，并可通过路由光纤810控制信号流的一部分。数字信号处理(DSP)特征至少执行与数字信号处理相关的功能。接口805访问外部信号，并将它们路由到I/O特征801，并使得IC装置800能够输出信号。路由光纤810在IC装置800的各个部件特征之间路由信号和电力。

可配置的和/或可编程的处理元件(CPPE)811(例如逻辑门阵列)可执行IC装置800的专用功能，所述专用功能在实施例中可涉及推导和处理通常与媒体内容对应的媒体指纹。储存器812提供足够的存储单元，以让CPPE 811有效率地工作。CPPE可包括一个或多个专用的DSP特征814。

本发明实施例可涉及以下列举的示例性实施例中的一个或多个。

1、一种方法，包括：

选择图像的第一区域和第二区域；

确定所述图像的第一区域和第二区域之间的关系；以及

基于所述图像的第一区域和第二区域之间的关系推导所述图像的指纹。

2、根据列举的示例性实施例1所述的方法，其中，其中，确定所述图像的第一区域和第二区域之间的关系包括：

对于第一区域中的每个像素，基于第一区域中的像素的强度和第二区域中的对应像素的强度计算值，以获得多个值。

3、根据列举的示例性实施例2所述的方法，其中，所述多个值中的每个值包括以下中的至少一个：

第一区域中的像素和第二区域中的对应像素的强度之间的差值；或者

第一区域中的像素的强度和第二区域中的对应像素的强度之间的比率。

4、根据列举的示例性实施例2所述的方法，其中，推导所述图像的指纹包括：

基于所述多个值生成矩阵；

将所述矩阵投影到多个矢量中的每个矢量上以获得多个投影值；

确定所述多个投影值中的每个投影值的签名比特，以获得多个签名比特；以及

基于所述多个签名比特推导指纹。

5、根据列举的示例性实施例4所述的方法，其中，基于所述多个值生成矩阵包括：

关于所述多个值确定每个值的等级；以及

使用所述多个值中的每个值的等级生成所述矩阵。

6、根据列举的示例性实施例4所述的方法，其中，将所述矩阵投影到多个矢量中的每个矢量上以获得多个投影值包括：

计算所述矩阵和所述多个矢量中的每个矢量的阿达玛积，以获得多个矩阵；以及

基于所述多个矩阵中的每个矩阵中的元素的组合确定与所述多个矩阵对应的多个投影值。

7、根据列举的示例性实施例4所述的方法，其中，确定所述多个投影值中的每个投影值的签名比特包括：

确定阈值；

用第一签名比特表示超过所述阈值的每个投影值；以及

用第二签名比特表示被所述阈值超过的每个投影值。

8、根据列举的示例性实施例7所述的方法，其中，所述阈值包括基于投影值的依赖于值的阈值，并且其中，所述依赖于值的阈值包括：

各投影值的中间值；

各投影值的平均值；或者

投影值的范围的预先确定的百分比处的值。

9、根据列举的示例性实施例7所述的方法，进一步包括：

将离所述阈值预先确定的值范围内的签名比特分类为弱比特，

其中，在确定可疑图像是否是从前述图像推导的时忽略所述弱比特，或者，在确定可疑图像是否是从前述图像推导的时拴牢所述弱比特。

10、根据列举的示例性实施例1所述的方法，其中，所述图像包括以下中的一个或多个：

多个视频帧中的视频帧；

音频剪辑的图形表示；或者

孤立图像。

11、根据列举的示例性实施例1所述的方法，其中，在选择第一区域和第二区域之前通过以下中的一个或多个对图像进行修改：

下采样；

邮箱区检测和裁剪；或者

低通滤波。

12、根据列举的示例性实施例1所述的方法，其中，确定所述图像的第一区域和第二区域之间的关系包括：

将第一区域中的像素划分为第一多个组；

将第二区域中的像素划分为第二多个组；

对于第一多个组中的每个组和对于第二多个组中的每个组，确定每个组内的像素的组强度统计量；以及

对于第一区域中的每个组，基于第一区域中的组的组强度统计量和第二区域中的对应组的组强度统计量来计算值。

13、根据列举的示例性实施例12所述的方法，其中，所述组强度统计量包括以下中的一个或多个：

组内的像素的平均强度；

组内的像素的强度的标准差；

组内的像素的强度的中间强度；

与组内的像素的强度相关联的相关性；或者

与组内的像素的强度相关联的分布。

14、一种系统，包括：

至少一个处理器；和

具有一个或多个存储的指令序列的计算机可读存储介质，当处理器执行所述一个或多个存储的指令序列时，所述一个或多个存储的指令序列使处理器执行以下步骤：

选择图像的第一区域和第二区域；

确定所述图像的第一区域和第二区域之间的关系；和

15、根据列举的示例性实施例14所述的系统，其中，确定所述图像的第一区域和第二区域之间的关系包括：

16、根据列举的示例性实施例15所述的系统，其中，所述多个值中的每个值包括以下中的至少一个：

17、根据列举的示例性实施例15所述的系统，其中，推导所述图像的指纹包括：

基于所述多个值生成矩阵；

基于所述多个签名比特推导指纹。

18、根据列举的示例性实施例17所述的系统，其中，基于所述多个值生成矩阵包括：

关于所述多个值确定每个值的等级；以及

使用所述多个值中的每个值的等级生成所述矩阵。

19、根据列举的示例性实施例17所述的系统，其中，将所述矩阵投影到多个矢量中的每个矢量上以获得多个投影值包括：

20、根据列举的示例性实施例17所述的系统，其中，确定所述多个投影值中的每个投影值的签名比特包括：

确定阈值；

用第一签名比特表示超过所述阈值的每个投影值；以及

用第二签名比特表示被所述阈值超过的每个投影值。

21、根据列举的示例性实施例20所述的系统，其中，所述阈值包括基于投影值的依赖于值的阈值，并且其中，所述依赖于值的阈值包括：

各投影值的中间值；

各投影值的平均值；或者

投影值的范围的预先确定的百分比处的值。

22、根据列举的示例性实施例20所述的系统，其中，当处理器执行一个或多个指令序列时，所述一个或多个指令序列使处理器进一步执行以下步骤：

23、根据列举的示例性实施例14所述的系统，其中，所述图像包括以下中的一个或多个：

多个视频帧中的视频帧；

音频剪辑的图形表示；或者

孤立图像。

24、根据列举的示例性实施例14所述的系统，其中，在选择第一区域和第二区域之前通过以下中的一个或多个对图像进行修改：

下采样；

邮箱区检测和裁剪；或者

低通滤波。

25、根据列举的示例性实施例14所述的系统，其中，确定所述图像的第一区域和第二区域之间的关系包括：

将第一区域中的像素划分为第一多个组；

将第二区域中的像素划分为第二多个组；

26、根据列举的示例性实施例25所述的系统，其中，所述组强度统计量包括以下中的一个或多个：

组内的像素的平均强度；

组内的像素的强度的标准差；

组内的像素的强度的中间强度；

与组内的像素的强度相关联的相关性；或者

与组内的像素的强度相关联的分布。

27、一种具有编码的指令的计算机可读存储介质，当一个或多个处理器执行所述指令时，所述指令使所述一个或多个处理器执行以下步骤：

选择图像的第一区域和第二区域；

确定所述图像的第一区域和第二区域之间的关系；以及

28、根据列举的示例性实施例27所述的计算机可读存储介质，其中，确定所述图像的第一区域和第二区域之间的关系包括：

29、根据列举的示例性实施例28所述的计算机可读存储介质，其中，所述多个值中的每个值包括以下中的至少一个：

30、根据列举的示例性实施例28所述的计算机可读存储介质，其中，推导所述图像的指纹包括：

基于所述多个值生成矩阵；

基于所述多个签名比特推导指纹。

31、根据列举的示例性实施例30所述的计算机可读存储介质，其中，基于所述多个值生成矩阵包括：

关于所述多个值确定每个值的等级；以及

使用所述多个值中的每个值的等级生成所述矩阵。

32、根据列举的示例性实施例30所述的计算机可读存储介质，其中，将所述矩阵投影到多个矢量中的每个矢量上以获得多个投影值包括：

33、根据列举的示例性实施例30所述的计算机可读存储介质，其中，确定所述多个投影值中的每个投影值的签名比特包括：

确定阈值；

用第一签名比特表示超过所述阈值的每个投影值；以及

用第二签名比特表示被所述阈值超过的每个投影值。

34、根据列举的示例性实施例33所述的计算机可读存储介质，其中，所述阈值包括基于投影值的依赖于值的阈值，并且其中，所述依赖于值的阈值包括：

各投影值的中间值；

各投影值的平均值；或者

投影值的范围的预先确定的百分比处的值。

35、根据列举的示例性实施例33所述的计算机可读存储介质，其中，当一个或多个处理器执行所述编码的指令时，所述编码的指令使所述一个或多个处理器进一步执行以下步骤：

36、根据列举的示例性实施例27所述的计算机可读存储介质，其中，所述图像包括以下中的一个或多个：

多个视频帧中的视频帧；

音频剪辑的图形表示；或者

孤立图像。

37、根据列举的示例性实施例27所述的计算机可读存储介质，其中，在选择第一区域和第二区域之前通过以下中的一个或多个对图像进行修改：

下采样；

邮箱区检测和裁剪；或者

低通滤波。

38、根据列举的示例性实施例27所述的计算机可读存储介质，其中，确定所述图像的第一区域和第二区域之间的关系包括：

将第一区域中的像素划分为第一多个组；

将第二区域中的像素划分为第二多个组；

39、根据列举的示例性实施例38所述的计算机可读存储介质，其中，所述组强度统计量包括以下中的一个或多个：

组内的像素的平均强度；

组内的像素的强度的标准差；

组内的像素的强度的中间强度；

与组内的像素的强度相关联的相关性；或者

与组内的像素的强度相关联的分布。

40、一种方法，包括以下步骤：

从第一图像推导第一签名，其中，所述第一签名包括第一多个签名比特；

基于比特的可靠性将比特强度分配给所述第一多个签名比特中的每个签名比特；

从第二图像推导第二签名，其中，所述第二签名包括第二多个签名比特；

按照从最强到最弱的顺序将所述第一多个比特与所述第二多个比特中的对应比特进行比较，直到非匹配比特被识别以确定所述第一多个比特中的多个可靠匹配的比特为止；

基于所述第一多个比特中的可靠匹配的比特确定第一图像和第二图像之间的相似性程度。

41、根据列举的示例性实施例40所述的方法，其中，按照从最强到最弱的顺序将所述第一多个比特与所述第二多个比特中的对应比特进行比较，直到非匹配比特被识别以确定所述第一多个比特中的多个可靠匹配的比特为止包括：

从最强比特到最弱比特重新排列所述第一多个签名比特，以获得重新排列的第一多个签名比特；以及

将重新排列的第一多个签名比特与所述第二多个签名比特中的原始对应的比特进行比较，以确定所述第一多个比特中的连续匹配的比特。

42、根据列举的示例性实施例40所述的方法，其中，通过以下方式计算所述第一多个比特中的每个比特的强度：

对于所述第一多个签名比特中的每个签名比特，确定从对应值到用于确定签名比特的阈值的距离；以及

与从所述对应值到所述阈值的距离成比例地将强度分配给所述第一多个比特中的每个比特。

43、根据列举的示例性实施例40所述的方法，进一步包括：

使用预先确定的修改方式对第一图像进行修改以获得第二图像；以及

基于第一图像和第二图像之间的相似性程度，确定用于推导第一签名和第二签名的签名推导方法相对于所述预先确定的修改方式的鲁棒性。

44、一种方法，包括以下步骤：

推导基于第一图像而推导的第一签名；

从第一图像推导第一多个签名比特，其中，所述第一多个签名比特中的每个签名比特对应于基于第一图像生成的值；以及

与从所述对应值到用于确定签名比特的阈值的距离成比例地将强度分配给所述第一多个比特中的每个比特；

将基于第一图像而推导的第一签名与基于第二图像而推导的第二签名进行比较，以确定多个匹配的比特；以及，基于来自所述第一多个比特中的所述多个匹配的比特的强度确定第一图像和第二图像之间的相似性程度。

45、根据列举的示例性实施例44所述的方法，进一步包括：

基于第一图像和第二图像之间的相似性程度确定用于推导第一签名和第二签名的签名推导方法相对于所述预先确定的修改方式的鲁棒性。

46、根据列举的示例性实施例44所述的方法，进一步包括：

47、一种方法，包括以下步骤：

基于图像生成多个值；

基于所述多个值确定依赖于值的阈值；

通过以下方式确定所述多个投影值中的每个投影值的签名比特，以获得多个签名比特：

用第一签名比特表示所述多个值中超过所述依赖于值的阈值的每个值；和

用第二签名比特表示被所述依赖于值的阈值超过的每个投影值；以及

基于所述多个签名比特推导图像指纹。

48、根据列举的示例性实施例47所述的方法，其中，所述依赖于值的阈值包括以下中的一个或多个：

所述多个值的中间值；

所述多个值的平均值；或者

所述多个值的范围的预先确定的百分比处的值。

49、根据列举的示例性实施例47所述的方法，进一步包括：

将离所述依赖于值的阈值的预先确定的值范围内的签名比特分类为弱比特，

50、一种方法，包括以下步骤：

基于图像生成多个值；

将多个函数中的每个函数应用于所述多个值，以获得所述多个函数中的每个函数的一个或多个签名比特；以及

基于所获得的签名比特生成所述图像的指纹。

51、根据列举的示例性实施例50所述的方法，其中，将多个函数中的每个函数应用于所述多个值以获得每个函数的一个或多个签名比特包括：

基于所述多个值生成矩阵；

将所述多个函数中的每个函数应用于所述矩阵，以获得多个函数值；和

确定所述多个函数值中的每个函数值的签名比特，以获得多个签名比特。

52、根据列举的示例性实施例51所述的方法，其中，将所述多个函数中的每个函数应用于所述矩阵以获得多个函数值包括：

将所述矩阵投影到多个矢量中的每个矢量上以获得多个投影值。

53、根据列举的示例性实施例51所述的方法，其中，所述基于所述多个值生成所述矩阵包括：

关于所述多个值确定每个值的等级；和

使用所述多个值中的每个值的等级生成所述矩阵。

54、根据列举的示例性实施例51所述的方法，其中，确定所述多个函数值中的每个函数值的签名比特以获得多个签名比特包括：

用第一签名比特表示所述多个值中超过阈值的每个值；和

用第二签名表示被所述阈值超过的每个投影值。

55、根据列举的示例性实施例54所述的方法，进一步包括：

4.0等同形式、扩展形式、替代形式和混杂形式

在前述说明书中，已参照许多具体细节对本发明的实施例进行了描述，这些具体细节可根据实施方式而不同。因此，什么是本发明、申请人意图的什么是本发明的唯一且排他的指示为本申请公布的以权利要求集所公布的特定形式公布的权利要求集，包括任何后续修正。这里对于这样的权利要求中所包含的术语明确阐述的任何定义应该决定权利要求中所使用的这样的术语的意义。因此，没有在权利要求中明确叙述的限制、元素、性质、特征、优点或属性不应该以任何方式限制这样的权利要求的范围。因此，应该以示例性的意义而不是限制性的意义来看待本说明书和附图。

Claims

1.一种方法，包括：

选择图像的第一区域和第二区域；

确定所述图像的第一区域和第二区域之间的关系；以及

2.根据权利要求1所述的方法，其中，确定所述图像的第一区域和第二区域之间的关系包括：

3.根据权利要求2所述的方法，其中，所述多个值中的每个值包括以下中的至少一个：

4.根据权利要求2所述的方法，其中，推导所述图像的指纹包括：

基于所述多个值生成矩阵；

确定所述多个投影值中的每个投影值的签名比特以获得多个签名比特；以及

基于所述多个签名比特推导指纹。

5.根据权利要求4所述的方法，其中，基于所述多个值生成矩阵包括：

关于所述多个值确定每个值的等级；以及

使用所述多个值中的每个值的等级生成所述矩阵。

6.根据权利要求4所述的方法，其中，将所述矩阵投影到多个矢量中的每个矢量上以获得多个投影值包括：

7.根据权利要求4所述的方法，其中，确定所述多个投影值中的每个投影值的签名比特包括：

确定阈值；

用第一签名比特表示超过所述阈值的每个投影值；以及

用第二签名比特表示被所述阈值超过的每个投影值。

8.根据权利要求7所述的方法，其中，所述阈值包括基于投影值的依赖于值的阈值，并且其中，所述依赖于值的阈值包括：

各投影值的中间值；

各投影值的平均值；或者

投影值的范围的预先确定的百分比处的值。

9.根据权利要求7所述的方法，进一步包括：

10.根据权利要求1所述的方法，其中，所述图像包括以下中的一个或多个：

多个视频帧中的视频帧；

音频剪辑的图形表示；或者

孤立图像。

11.根据权利要求1所述的方法，其中，在选择第一区域和第二区域之前通过以下中的一个或多个对图像进行修改：

下采样；

邮箱区检测和裁剪；或者

低通滤波。

12.根据权利要求1所述的方法，其中，确定所述图像的第一区域和第二区域之间的关系包括：

将第一区域中的像素划分为第一多个组；

将第二区域中的像素划分为第二多个组；

13.根据权利要求12所述的方法，其中，所述组强度统计量包括以下中的一个或多个：

组内的像素的平均强度；

组内的像素的强度的标准差；

组内的像素的强度的中间强度；

与组内的像素的强度相关联的相关性；或者

与组内的像素的强度相关联的分布。

14.一种方法，包括以下步骤：

按照从最强到最弱的顺序将所述第一多个比特与所述第二多个比特中的对应比特进行比较，直到非匹配比特被识别，以确定所述第一多个比特中的多个可靠匹配的比特；

基于所述第一多个比特中的所述可靠匹配的比特确定第一图像和第二图像之间的相似性程度。

15.一种方法，包括以下步骤：

推导基于第一图像而推导的第一签名；

16.一种方法，包括以下步骤：

基于图像生成多个值；

基于所述多个值确定依赖于值的阈值；

基于所述多个签名比特推导图像指纹。

17.一种方法，包括以下步骤：

基于图像生成多个值；

基于所获得的签名比特生成所述图像的指纹。

18.一种系统，包括：

至少一个处理器；和

具有一个或多个存储的指令序列的计算机可读存储介质，当所述处理器执行所述一个或多个存储的指令序列时，所述一个或多个存储的指令序列使所述处理器执行权利要求1-17中的一个或多个所述的步骤。

19.一种具有被编码的指令的计算机可读存储介质产品，当一个或多个处理器执行所述指令时，所述指令使所述一个或多个处理器执行权利要求1-17中的一个或多个所述的步骤。

20.计算机的一种用途，包括执行权利要求1-17中的一个或多个所述的处理。