CN101241734B

CN101241734B - 识别媒体来源的方法、加指纹的装置和系统

Info

Publication number: CN101241734B
Application number: CN 200810005847
Authority: CN
Inventors: S·马利克; R·萨希
Original assignee: Sony Pictures Entertainment Inc
Current assignee: Sony Pictures Entertainment Inc
Priority date: 2003-06-23
Filing date: 2004-03-31
Publication date: 2012-08-29
Anticipated expiration: 2024-03-31
Also published as: CA2724139C; CN100378749C; CA2724139A1; CN101241734A; CN1839395A

Abstract

识别媒体来源的方法、加指纹的装置和系统，包括：多个接收单元，接收多个输入数据集，多个输入数据集中的每个被分为多个输入段，多个输入数据集中至少一个被唯一地标记；选择器，从多个输入数据集中的至少两个不同输入数据集其中之一中选择至少一个输入段；以及至少一个组合器，排列所选的至少一个输入段，从而产生具有多个输出段的输出数据集，使得输出段的数量等于各输入数据集中的输入段的数量。

Description

识别媒体来源的方法、加指纹的装置和系统

本申请是申请日为2004年3月31日、申请号为200480023708.3、发明名称为“为数据加指纹”的发明专利申请的分案申请。

相关申请的交叉引用

这个申请要求2003年6月23日提交的标题为“采用已标记和未标记内容的伪随机组合为数据加指纹”、序号为60/480687的共同未决美国临时专利申请的优先权益。这个申请还要求2003年7月31日提交的标题为“为数据加指纹”、序号为60/491763的共同未决美国临时专利申请的优先权益。由此要求2003年6月23日和2003年7月31日的提交日期的优先权益，以及通过引用将这些临时专利申请的公开结合于此。

技术领域

本发明涉及识别媒体来源的方法，用于为媒体加指纹的加指纹系统或装置。

背景技术

因特网的迅速发展以及所产生的数字数据复制和散布的可能性导致对于防止这些非法活动以及使版权所有者免于与盗版副本关联的问题的方式的不断增长的需求。例如，未授权副本可能由数字数据的授权分发副本(例如商业副本)制成。通过比较给定的数字数据文档与未授权或非法散布的副本，水印能够为版权所有者提供该文档是版权所有者自己的知识产权的证明。为了压制、防止或禁止未授权副本的扩散，通过确定用来制作未授权副本的具体分发副本来了解未授权副本的来源往往是有用的。但是，可能难以采用加水印来识别用于产生未授权副本的分发副本。

数字加水印可用来确定未授权或非法散布副本的来源。例如，当文档采用数字加水印来保护时，标识要接收文档的电子分发副本的顾客的标识符可通过察觉不到的方式与版权所有者的水印一起嵌入文档中。如果顾客违反版权所有者的利益而散布分发副本的副本，则可根据数字水印来识别该顾客，它将被包含在所有未授权或非法散布副本中。但是，当许多分发副本要合法地散布到许多不同顾客时，对每个分发副本分别进行数字加水印通常证明是不便且费时的。

发明内容

本发明提供用于实现为数据加指纹的方法及装置。在一个实现中，加指纹的方法包括：接收多个输入数据集，所述多个输入数据集中的每个被分为多个输入段，所述多个输入数据集中至少一个被唯一地标记；从所述多个输入数据集中的至少两个不同输入数据集其中之一中选择至少一个输入段；以及排列所述选择的至少一个输入段，从而产生具有多个输出段的输出数据集，使得输出段的数量等于各输入数据集中的输入段的数量。

在另一个实现中，加指纹装置包括：多个接收单元，接收多个输入数据集，多个输入数据集中的每个被分为多个输入段，多个输入数据集中至少一个被唯一地标记；选择器，从多个输入数据集中的至少两个不同输入数据集其中之一中选择至少一个输入段；以及至少一个组合器，排列所选的至少一个输入段，从而产生具有多个输出段的输出数据集，使得输出段的数量等于各输入数据集中的输入段的数量。

在另一个实现中，用于为媒体加指纹的加指纹系统包括：接收器，接收分为多个媒体段的所述媒体；标记所述媒体的第一编码器，所述第一编码器产生至少一个已标记媒体，至少一个已标记媒体中的每个被分为多个已标记媒体段；第二编码器，比较所述媒体和至少一个已标记媒体；选择器，从所述媒体和至少一个已标记媒体其中之一中选择至少一个媒体或已标记媒体段；以及至少一个组合器，排列所选的至少一个媒体或已标记媒体段，从而产生具有多个加指纹段的加指纹媒体，使得加指纹段的数量等于各媒体或已标记媒体中的媒体或已标记媒体段的数量。

在另一个实现中，识别分发副本的媒体的来源的方法包括：接收所述媒体，并且识别经过排列而形成所述媒体的多个段；从多个段的排列中产生典型正本密钥(RMK)，其中所述RMK是所述媒体的多个段的依次读出；接收分发副本的指纹和链接到指纹的源，其中所述指纹是链接到来源的伪随机生成的段序列；以及比较RMK与指纹。

优选地是，识别分发副本的媒体的来源的方法还包括：当所述RMK与所述指纹之间的比较表明没有匹配时，接收下一个指纹和链接到所述下一个指纹的来源；重复比较RMK和指纹；当所有指纹都已经和RMK进行了比较并且比较表明没有匹配时，从所述RMK产生第一批多个密钥集；接收所述指纹以及链接到所述指纹的来源；从所述指纹产生第二批多个密钥集；以及比较所述第一批多个密钥集与所述第二批多个密钥。

优选地是，识别分发副本的媒体的来源的方法还包括：接收门限值；以及当所述第一批多个密钥集与所述第二批多个密钥集之间的所述比较产生超过所述门限值的密钥集匹配数量时，记录链接到所述指纹的来源。

优选地是，识别分发副本的媒体的来源的方法还包括：接收下一个指纹以及链接到所述下一个指纹的来源；从所述下一个指纹中产生第二批多个密钥集；比较所述第一批多个密钥集与从所述下一个指纹中产生的第二批多个密钥集；当所述第一批多个密钥集与从所述下一个指纹中产生的第二批多个密钥集之间的比较产生超过所述门限值的密钥集匹配数量时，记录链接到所述下一个指纹的来源；以及当所有指纹的密钥集都已经与所述第一批多个密钥集中的密钥集进行了比较时，输出所记录的来源。

附图说明

图1说明用于采用两个正本来产生加指纹内容的过程的实现。

图2说明用于实现数据的加指纹的方法。

图3说明把各有五个段的三个正本组合的表示。

图4说明用于产生DVD封装媒体的加指纹过程的一种可能的实现。

图5说明根据一种实现、用于产生DVD封装媒体的加指纹过程的另一种可能的实现。

图6说明配置成处理输入正本的段的段重组器的详细示图。

图7说明逐段组合两个媒体文件以产生下载媒体的唯一加指纹版本的一种实现。

图8说明逐段组合两个媒体文件以产生视频点播内容的唯一加指纹版本的一种实现。

图9说明根据采用RMK和KS的一种实现来识别媒体来源的一种方法。

具体实施方式

本公开描述在加指纹媒体生成和系统健壮性方面提供更高效率的系统及方法。

在一种实现中，加指纹系统采用已标记和未标记内容的伪随机组合来提供数据的加指纹。已加指纹数据则可用来唯一识别内容使用争论。系统适用于各种类型的数据，例如视频和音频基本数据或复用流。系统还可应用于封装媒体，例如DVD和录像带、从因特网下载的内容和/或其它任何介质。

图1说明用于采用第一正本100和第二正本102来产生已加指纹内容的过程的实现。在其它实现中，可采用不同数量的正本，例如三个或三个以上。该过程包括产生多个正本(m_i)，其中下标i表示第i个正本。第一正本100是未标记的。第二正本102例如通过采用数字加水印技术来唯一标记。在具有三个或三个以上正本的另一种实现中，一个正本是未标记的，而其它正本中的每个被唯一地标记(例如，第二正本以不同于第三正本的方式来标记)。在另一种实现中，每个正本被唯一地标记。

正本100、102则被分为n个部分或段。未标记正本100中的各段为相同大小，并且具有与已标记正本102的相应段相同的内容(例如，正本100的段1与正本102的段1的大小相同并且包括相同内容)。这样，副本104、106可通过伪随机组合来自不同正本100、102的段来产生，下面进行描述。虽然未标记正本100的内容与已标记正本102的内容相同，但每个正本将具有不同的标记。例如，未标记正本100的第一段具有与已标记正本102的第一段相同的内容，但是，未标记正本100的第一段没有被标记，而已标记正本102的第一段则被标记。因此，相应段中的基本信息是相同的，但是数据可能以不影响内容但允许段被区分的方式不同(在比较未标记和加水印数据时通常是这样的)。

根据来自m个正本的n个相应段的组合的伪随机生成，产生正本的副本，它包括与正本相同的n个相应段，但各段取自伪随机选取的正本。这些段以伪随机方式来选取和组合(连接)，使得那n个段产生具有伪随机生成的段序列作为指纹的副本。副本的指纹标识副本中各段的源正本。因此，伪随机生成经过配置，使得可为各副本产生截然不同的指纹。多个伪随机数被产生，它伪随机地分配来自正本的段，使得截然不同的指纹可分配给所有副本，而没有重复段组合的模式。因此，所产生的伪随机数的数量必须等于或超过预期副本数量。

在图2所示的流程图中说明一种用于实现上述数据加指纹的方法。在200接收多个正本，在其中，每个正本被分为多个段，以及每个正本被唯一地标记(例如数字加水印)。在一个实现中，一个正本保持未标记。正本中的第一段对应于其它正本中的每个的第一段。在一个实现中，各段因段中的相应标记(或没有标记)而可与其它正本的相应段区分开(可确定那个段所属的正本)。在另一个实现中，不是所有的段都可与相应的段区分开。

在202，选取来自至少两个不同正本之一的至少一个段。在204，则产生指纹。在一种实现中，指纹是伪随机数序列。在206，根据指纹来排列所选段，从而产生输出数据集，使得输出数据集中的段的数量等于每个正本中的段的数量。下面参照图3来描述选择和排列段的一个实例。在208，所产生的输出数据集存储在一种媒体产品、如封装介质中(例如烧录到CD或DVD上、复制到VHS磁带上)，从而产生分发副本。在210，指纹被链接到封装介质，以及链接被存储(例如指纹、标识特定媒体项的ID代码以及标识要接收该媒体项的顾客的ID代码存储在数据库表条目中)。

伪随机数生成器确定要选取和排列段的模式。因此，生成器必须没有重复地产生足够多数量的伪随机数。在一个实现中，生成器产生数字，其中包括用于各段的一位，以及每位具有从1到正本数量的范围。各位对应副本中的某个段，以及位的值表明从哪个正本复制了该段。在另一种实现中，生成器产生适合于各段的数字作为一位，并把各位共同收集到模式中。

例如，如图3所示，如果存在三个正本1、2和3，并且每个正本被分为五段，则伪随机数生成器产生五位数字，其中每位的值的范围为1至3，从而产生例如‘13213’和‘22131’之类的数模式。这些伪随机数模式可用于分别产生副本1和副本2的段，其中数模式的各位表明源正本的段。

例如，正本1的段由范围从1至5的数序列表示，正本2的段由范围从1’至5’的数序列表示，以及正本3的段由范围从1”至5”的数序列表示。在图3的所述实例中，伪随机数生成器已经把伪随机数序列‘13213’分配给副本1，以及把伪随机数序列‘22131’分配给副本2。这样，副本1的序列‘13213’表明段1将从正本1中复制，段2将从正本3中复制，依次类推。因此，副本1的段可作为1-”-3’-4-5”来产生。副本2的段可类似地作为1’-2’-3-4”-5来产生。各副本的伪随机数序列则可存储在数据库中，并且链接到请求该数据的特定用户和/或链接到存储数据的一种媒体产品。这些数据库条目可在后来用于源识别。

为了提供对于已加指纹媒体生成的效率和系统健壮性的了解，可分析确定伪随机数序列的数量的因素。例如，可能的各个指纹的数量由三个因素来确定：正本数量(m)、正本中的段的数量(n)以及可交换的段的最小数量(k)。采用这些因素，组合的数量(c)可如下确定。

如果多达n个段是可交换的，则组合的数量被确定为：

c = Σ_{n^{'} = 1}^{n} m^{n^{'}} - 1 - - - [1]

如果n中的多达k个段是可交换的，则组合的数量被确定为：

c = Σ_{k^{'} = 1}^{k} {(m - 1)}^{k^{'}} \cdot C_{k^{'}}^{n} - - - [2]

如果n中正好k个段是可交换的，则组合的数量被确定为：

c＝(m-1)^k.ⁿC_k [3]

其中ⁿC_k’表示n个中一次取k’个的组合，而ⁿC_k则表示n个中一次取k个的组合。

例如，如果对于120分钟的影片有两个正本(m＝2)，以及每个正本被分为60个段(n＝60)并且60个段中只有20个段(k＝20)是可交换的，则利用等式[2]，唯一组合的数量被确定为4,191,844,505,805,495(超过4000万亿)。对于更简单的设置，假定有两个正本(m＝2)，每个正本具有20个段(n＝20)，以及全部20个段都是可交换的。利用等式[1]，可能的组合的数量被确定为1,048,576。表1说明组合如何随着正本和段的数量来缩放(c的值对于较大数进行了近似)。

表1

上述数据加指纹技术可应用于其中为传输而产生物理封装的各种不同的媒体。例如，数据的加指纹可应用于提交给奥斯卡评审员以便审查影片的DVD封装媒体(“奥斯卡筛选者”)、应用于从因特网下载的内容媒体或者应用于电缆传递的视频点播(VOD)。下面详细描述这些应用的每一个。其它应用包括家庭组网、定制随选CD/DVD编制、客户机端“烧录”到CD/DVD可记录媒体上以及其它相关媒体。此外，加指纹技术可移植到采用转换开关的模拟程序分块。

来自奥斯卡筛选者媒体(例如DVD封装媒体或VHS磁带)的盗版问题得到理解和承认。已经提出的一种解决方案是分别标记(例如采用唯一水印)每一个发出的副本，使得电影被标记、编码以及分别“烧录”到各DVD上或者录制到VHS。但是，如上所述，采用不同水印分别标记各副本可能是非常繁重且费时的。

图4说明分别标记DVD封装媒体的典型方法的一种可能实现。该过程以未标记视频文件400开始。要产生的所有DVD副本的标识符(ID)存储在数据库402中。

视频文件400在水印编码器404中采用唯一ID加水印，从而产生已加水印视频文件406。唯一ID存储在数据库条目中。然后，已加水印视频文件406采用视频编码器408进行编码，它产生压缩视频文件410。在一个实现中，视频编码器可配置为MPEG-2编码器。

压缩视频文件410与压缩音频文件420在复用器412中组合，从而产生一个或多个组合视频-音频文件及元数据文件414。一个或多个组合视频-音频文件与元数据文件414一起在DVD烧录器416中被烧录到DVD上，从而产生DVD副本418。标识特定DVD的ID存储在那个DVD上的水印的唯一ID所用的数据库条目中。

虽然依照产生分别标记的DVD副本来描述上述过程，但是应当理解，这个过程通常必须为待制作的预期数量(x)的DVD副本重复。因此，上述过程在技术上是可行的，但在实际上实现此过程是繁重且昂贵的。例如，对于2小时影片，水印编码器404的加水印过程通常可能耗用多达八小时。视频编码器408中的MPEG-2编码过程可能耗用多达两小时。复用器412中的音频-视频组合过程可能耗用多达大约30分钟，以及DVD烧录过程可能耗用多达另外30分钟。因此可以看到，每个DVD副本的产生可能耗用多达大约11个小时。虽然可部署附加资源并行创建分别标记的副本，但是对于大量的副本，并行性可能变得昂贵。

图5说明用于产生DVD封装媒体的加指纹过程的一种实现。采用图5的实现，可显著加快产生DVD副本的过程。

在图5的实现中，过程以视频正本500开始。然后产生视频正本500的两个副本504。视频正本的第一副本504A未被标记，而第二副本504B则由水印编码器502加水印。特定加水印标识符(ID)用来对标记副本504B编码。在另一个实现中，可采用不同的标记过程。

然后，视频正本的两个副本504A、504B分别采用视频编码器506A、506B来编码。视频编码器506A、506B分别产生压缩视频文件508A、508B。压缩视频文件508A未被标记，而压缩视频文件508B被标记。在一个实现中，视频编码器配置为MPEG-2编码器。

压缩视频文件508A、508B与压缩音频文件520分别在一对复用器510A、510B中被组合，从而分别产生组合视频-音频文件532A、532B。复用器510配置为以称作视频对象(VOB)的段来处理压缩文件508。组合视频-音频文件532A是具有多个段的未标记DVD文件。组合视频-音频文件532B是具有与未标记文件532A相同数量的段的已标记DVD文件。这样，DVD文件532A、532B在它们的关系方面实际上与图1所示的两个正本100、102之间的关系相似。下面详细描述VOB段。

段重组器534A、534B采用两个正本DVD文件532A、532B来产生与图1所示的副本104、106相似的加指纹副本。每个段重组器534采用唯一标识符来重组(连接)每个正本532的不同段。如上所述，各标识符由伪随机数生成器产生，并存储在数据库522中，以便标识每个副本和/或每种媒体的接收方。这样，图1实际上表示块530的一种实现的操作。

然后，在段重组器534A、534B的输出上产生的已加指纹副本分别采用DVD烧录器540A、540B烧录到DVD 542A、542B上。为了制作附加副本，来自未标记和已标记正本532A、B的段的不同组合在重组器534A、B中任一个中被组合，然后被烧录到DVD上。由水印编码器502加水印、由编码器506编码以及由复用器510复用和处理没有对每个副本重复进行。因此，在图5的实现中，与图4的实现不同，重组器对段的重组以及到DVD的烧录被重复进行，以便产生预期数量(x)的DVD副本542，而不是重复整个过程中的每个步骤。这样，图5所示的过程应当耗用实质上更少的时间，因为加水印仅对一个视频正本进行一次。因此，块530和540所表示的过程应当对于每个DVD耗用不到一个小时。

图6说明根据DVD特定的实现、配置成处理输入正本的段的段重组器534的详细示图。但是，图6所示的实现可扩展到其它封装媒体、如录像带。

DVD段在某些预定的视频对象单元(VOBU)边界上产生，并分组为‘VOBU组’。每个VOBU组是独立的复用单元，并且没有与先前或以后单元的相关性。此外，VOBU由一个或多个图片组(GOP)构成。如DVD-VIDEO格式中定义的，VOBU可能是0.4至1.2秒长。VOBU组可能具有必需数量的VOBU。

VOBU组被组合以形成VOB文件集。对于每个VOB文件集产生元数据(IFO)文件。元数据文件提供的细节之一是VOB文件集中的VOBU的偏移信息。对于最终用户，从这个VOB重放看起来就像从任何常规DVD上的VOB重放。然而在内部，VOB是VOBU组的组合，各VOBU组由从两个不同视频(MPEG-2)编码的部分复用的数据构成。这样，VOB遵循DVD规范限制，并且实质上是相符的。因此，如果这些DVD其中之一通过剖解或者通过重新编码被盗版(例如以如D_iV_x或X_vid之类的格式)，则系统可通过分析视频流并定位其中存在已标记视频段的点来识别盗版副本的来源。系统可比较这些位置与烧录DVD时创建的、数据库服务器中存储的位置。各DVD对于已标记段具有唯一模式，因此各DVD被有效地“加指纹”。

与图5所示的实现相似的一种实现可用来对于从因特网下载的内容媒体加指纹。在图7的所示实现700中，一个未标记702A和一个加水印702B的两个媒体文件被分为若干段，以及组合器704以唯一模式组合这些段，从而为每个下载产生内容的唯一加指纹版本。每个唯一组合采用标识符来产生，所述标识符由伪随机数生成器所产生，并且存储在数据库706中以标识加指纹副本。已加指纹副本通过万维网服务器708来存储或者流式传输，以便通过因特网710下载到客户PC 712。对于客户PC 712，重组/加指纹文件714表现为一个连续文件。客户不了解在万维网服务器708上发生的重组(即加指纹)。

与图7的实现相似，VOD(视频点播)内容可加指纹，如图8所示。在这个实现中，VOD服务器从分为段的两个媒体文件、即一个未标记802A和一个加水印802B来创建加指纹文件。两个媒体文件802A、802B在组合器804中逐段被组合，从而对每个传递产生内容的唯一加指纹版本。由于VOD媒体文件通常是经过分组化的MPEG-2传输流数据，这些文件是这种加指纹的优良候选者。

在图8的所述实现中，两个媒体文件802A、802B在VOD服务器808中被组合。因此，所述情况称作单播情况，即数据在来源处被组合，然后被发送到特定目的地，其中目的地不了解其它分发副本。

在另一个实现中(未示出)，卫星可向每个卫星接收器盒广播多个正本(即，向每个盒的多个正本的同时联播)。这种实现称作多播情况。在这种实现中，卫星接收器盒从服务器接收RMK信息，并且在把数据提供给TV之前执行组合。这样，在这种实现中，在VOD机顶盒812上发生组合。

每个唯一组合采用由伪随机数生成器所产生并且存储在数据库806中以标识加指纹副本的标识符来产生。已加指纹副本通过电缆网络810被送到VOD机顶盒812。已加指纹副本经过处理并传递给客户TV 814。对于客户TV 814，重组/加指纹文件816表现为一个相连文件。客户不了解在VOD服务器808上发生的重组(即加指纹)。

可执行数据的加指纹以为系统提供健壮性以及媒体来源识别的方法。具体来说，来自m个正本的n个段的组合的伪随机生成可有效地配置成提供对于通过采用多个或部分副本生成单一未授权副本来避开来源标识的企图的预防。在一个实现中，产生伪随机序列，使得来源可以仅采用未授权副本的一小部分来标识。在另一个实现中，对于基于组合多个来源的未授权副本，多个来源可通过相似方式来标识。

在一个实现中，典型正本密钥(RMK)就来源标识而言用于系统的健壮性。RMK是构造(副本)的段的依次读出。如上所述，来自m个正本的n个段用来构建副本。读出包括n位(对于n个段)，其中，每位的值的范围从1到m。位也可能具有X值，意味着它的值无关紧要(即“无关的”)。这样，具有从八个正本产生的十段的分发副本可能具有“1，4，2，5，X，6，X，1，6，2”的RMK。

RMK也可被定义为‘元组’的序列，在其中，各元组的形式是(x，y)。项x为段号(从1到n依次改变)，以及项y为段值(值的范围从1到m，或者具有X值)。在这种情况中，上述RMK可写作“(1，1)(2，4)(3，2)(4，5)(5，X)(6，6)(7，X)(8，1)(9，6)(10，2)”。因此，RMK也可写作形式为(元组顺序，正本编号)的元组序列。

制作具有不同指纹标识符的两个或两个以上分发副本的一种方法是为副本提供不同的RMK。这样，当被提供未知来源的副本时，系统可对副本的RMK进行解码或解密(例如，通过分析副本中的每个段的标记，以便确定那个段的源正本)，并从查找表/数据库确定那个副本的来源(例如原始分发的副本的接收方)。但是，如果未授权副本已经从多个分发副本或者从分发副本的一部分中产生，则未授权副本可能具有未在数据库中注册的RMK，或者具有注册为另一个顾客的RMK，它表明错误肯定标识。因此，如何构建RMK的决定在数据加指纹过程中可能是重要的。

在一个实现中，RMK具有一个或多个密钥集(KS)。每个KS的长度范围从1到段的总数(n)，以及以元组列表的形式从RMK中读出，并以“元组顺序”的升序排列，如上所述。RMK的不同KS可能是不同长度。这样，在一个实例中，KS可能是如下所示：KS1＝(2，4)(3，2)(4，5)；KS2＝(1，1)(2，4)(6，6)(10，2)；KS3＝(1，1)(2，4)(3，2)(4，5)(5，X)(6，6)(7，X)(8，1)(9，6)(10，2)；KS4＝(4，5)；等等。当未知副本的RMK无法匹配查找表中列出的分发副本的任一个的RMK时，系统可执行数学计算，以便确定未知副本的多少KS匹配查找表中的分发副本的KS。未知副本的源分发副本将被确定为提供高于所选门限值的KS匹配数量的分发副本。

不同的KS可能具有不同的生成技术。为了确定KS的值，那个KS的生成技术应用于副本的RMK。例如，这些技术的一部分是比较简单的，使得对不同的RMK产生特定长度的KS。在KS生成技术的一种实现中，如果KS4是第四元组，则对于RMK＝“(1，1)(2，4)(3，2)(4，5)(5，X)(6，6)(7，X)(8，1)(9，6)(10，2)”，KS4＝(4，5)。但是，对于另一个RMK，KS4可能是KS4＝(4，7)，等等。

其它KS可具有更详细的生成过程。在KS生成技术的另一种实现中，KS12可能以具有RMK中存在的最高正本编号的最低顺序元组开始，之后跟随比第一个具有较低正本编号的较高顺序元组，之后跟随正本编号的降序中的下一个。对于RMK＝“(1，1)(2，4)(3，2)(4，5)(5，X)(6，6)(7，X)(8，1)(9，6)(10，2)”，由于当前的最高正本编号为6，因此在(6，6)和(9，6)中，该过程选择(6，6)，因为它具有比(9，6)更低的顺序。所选的下一个元组将是具有比6更低的正本编号、但具有较高顺序的元组，这把过程引导到(10，2)。随后，不存在匹配集合规则的其它元组，因此过程以KS12＝(6，6)(10，2)结束。在KS12的情况中，KS的长度由于此过程的选择而不是固定的。

上述过程只是可用于获得优良KS的许多可能性中的几个。因此，加指纹系统将具有RMK以及引用数据库中所存储的各分发副本的RMK的多个KS。给定未知来源的副本，系统获得未知副本的RMK。如果在数据库中没有RMK匹配，则系统产生那个RMK的KS。由于某些KS将在某些区域中定位，因此，存在系统能够识别可能产生那个特定RMK的来源的至少一部分的可能性。

可以看到，上述KS生成技术可以相反地用于产生难以隐藏的优良RMK集合。RMK集合可用来构建用于分发副本的一组伪随机数，使得副本包括难以隐藏的某些KS。

存在其它方式来增加加指纹系统的健壮性。在一种实现中，数据形式的RMK和/或一个或多个KS可被插入分发副本本身中。在分发副本的生成时间中，插入可在不同位置以及在不同方面进行。这将允许系统识别未知副本，即使该副本具有分发副本的极小部分。如果那个小部分包括RMK的一个或多个部分和/或在任何方面插入的一个或多个KS数据，则未知副本可被识别为源自分发副本。

在向加指纹系统提供健壮性的另一个实现中，在分发副本的生成时间中，伪数据可以数据形式在不同位置以及在不同方面被插入分发副本本身中。插入可以伪随机方式进行，以便阻止通过模式匹配两个或两个以上分发副本来避开指纹的企图。

在又一个实现中，分发副本的某些或所有方面可采用RMK的标识符和/或一个或多个KS来标记。在这种情况中，即使副本从其它许多分发副本中重新制作，也可查询分发副本的所需方面，从而识别重新制作的副本的来源。

图9说明根据采用RMK和KS的一种实现、识别媒体来源的一种方法。一开始，在900接收要识别的媒体，以及识别经排列以形成媒体的段。然后，在902，从段的排列中产生典型正本密钥(RMK)。数据库存储所产生的分发副本的指纹以及链接到指纹、表明接收了与所链接指纹对应的分发副本的来源的标识符。在一个实现中，链接到指纹的来源可能是接收分发副本的人的名字。

在906，从数据库接收指纹和链接到指纹的来源。RMK和指纹在906进行比较。如果比较产生匹配(即在908的“是”结果)，则在910输出所链接来源。否则，如果RMK与指纹之间的比较没有产生匹配(即在908的“否”结果)，则在912，从数据库接收下一个指纹和所链接来源。

如果已经针对RMK检查了所有指纹，并且没有匹配，则在914，从RMK产生密钥集。这样，当RMK与指纹之间不存在匹配时，它表示所关注媒体可能不是完全从一个分发副本中复制的。因此产生密钥集，以便分析媒体的各部分，从而识别来源。

在916，从数据库接收指纹和链接到指纹的来源。在918，从指纹产生密钥集。从RMK产生的密钥集以及从指纹产生的密钥集在920进行比较。如果在922，密钥集之间匹配的数量超过某个门限值，则在924，链接到指纹的来源被记录。在926，从数据库接收下一个指纹和所链接来源，以及产生那个指纹的密钥集供比较，并返回到918。当所有指纹的密钥集已经与RMK的密钥集进行了比较，则在928输出在924记录的来源，作为在900所接收的媒体的至少一部分的可能来源。或者，一旦发现指纹之一具有在922满足匹配的门限的密钥集，则链接到那个指纹的来源被输出。

在又一个实施例中，被插入分发副本的数据形式的RMK和/或一个或多个KS可用来标识媒体的来源。此外，嵌入的RMK和/或KS另外还可用于图9的上述识别过程来提高加指纹系统的健壮性。

本发明的各种实现通过电子硬件、计算机软件或者这些技术的组合来实现。大部分实现包括由可编程计算机执行的一个或多个计算机程序。例如，在一个实现中，用于标识分发副本的系统包括实现上述标识过程的一种或多种计算机执行软件。在另一个实现中，用于给数据加指纹的系统可包括实现上述加指纹过程的一种或多种计算机执行软件。一般来说，每个计算机包括一个或多个处理器、一个或多个数据存储组件(例如易失性或非易失性存储模块以及永久光和磁存储装置，诸如硬盘和软盘驱动器、CD-ROM驱动器以及磁带驱动器)、一个或多个输入装置(例如鼠标和键盘)以及一个或多个输出装置(例如显示控制台和打印机)。

计算机程序包括可执行代码，它们通常存储在永久存储媒体中，然后在运行时复制到存储器中。处理器通过以规定顺序从存储器中检索程序指令来执行代码。当执行程序代码时，计算机从输入和/或存储装置接收数据，对数据执行操作，然后把所得数据传递给输出和/或存储装置。

虽然已经描述了本发明的各种说明性实现，但是本领域的普通技术人员会看到，其它实现也是可行的，并且落入本发明的范围之内。例如，虽然以上说明描述了为媒体数据(例如电影)加指纹的若干实现，但是在其它实现中，可采用其它类型的数据，例如可执行软件或科学数据。

因此，本发明不是仅限于上述那些实现。

Claims

1.一种识别分发副本的媒体的来源的方法，包括：

接收所述媒体，以及识别经排列而形成所述媒体的多个段；

从所述多个段的排列中产生典型正本密钥RMK，其中所述RMK是所述媒体的多个段的依次读出；

接收分发副本的指纹以及链接到所述指纹的来源，其中所述指纹是链接到来源的伪随机生成的段序列；以及

比较所述RMK与所述指纹。

2.如权利要求1所述的方法，其特征在于，所述指纹包括伪随机数序列。

3.如权利要求1所述的方法，其特征在于，还包括：

当所述RMK与所述指纹之间的所述比较表明匹配时，输出链接到所述指纹的来源。

4.如权利要求1所述的方法，其特征在于，还包括：

当所述RMK与所述指纹之间的比较表明没有匹配时，接收下一个指纹和链接到所述下一个指纹的来源；

重复比较RMK和指纹；

当所有指纹都已经和RMK进行了比较并且比较表明没有匹配时，从所述RMK产生第一批多个密钥集；

接收所述指纹以及链接到所述指纹的来源；

从所述指纹产生第二批多个密钥集；

比较所述第一批多个密钥集与所述第二批多个密钥集；

接收门限值；以及

当所述第一批多个密钥集与所述第二批多个密钥集之间的比较产生超过所述门限值的密钥集匹配数量时，记录链接到所述指纹的来源。

5.如权利要求4所述的方法，其特征在于，还包括：

接收下一个指纹以及链接到所述下一个指纹的来源；

从所述下一个指纹中产生第二批多个密钥集；

比较所述第一批多个密钥集与从所述下一个指纹中产生的第二批多个密钥集；

当所述第一批多个密钥集与从所述下一个指纹中产生的第二批多个密钥集之间的比较产生超过所述门限值的密钥集匹配数量时，记录链接到所述下一个指纹的来源；以及

当所有指纹的密钥集都已经与所述第一批多个密钥集中的密钥集进行了比较时，输出所记录的来源。

6.一种识别分发副本的媒体的来源的装置，包括：

用于接收所述媒体以及识别经排列而形成所述媒体的多个段的部件；

用于从所述多个段的排列中产生典型正本密钥RMK的部件，其中所述RMK是所述媒体的多个段的依次读出；

用于接收分发副本的指纹以及链接到所述指纹的来源的部件，其中所述指纹是链接到来源的伪随机生成的段序列；以及

用于比较所述RMK与所述指纹的部件。

7.如权利要求6所述的装置，其特征在于，还包括：

用于当所述RMK与所述指纹之间的所述比较表明匹配时输出链接到所述指纹的来源的部件。

8.如权利要求6所述的装置，其特征在于，还包括：

用于当所述RMK与所述指纹之间的比较表明没有匹配时接收下一个指纹和链接到所述下一个指纹的来源的部件；

用于重复比较RMK和指纹的部件；

用于当所有指纹都已经和RMK进行了比较并且比较表明没有匹配时从所述RMK产生第一批多个密钥集的部件；

用于接收所述指纹以及链接到所述指纹的来源的部件；

用于从所述指纹产生第二批多个密钥集的部件；

用于比较所述第一批多个密钥集与所述第二批多个密钥集的部件；

用于接收门限值的部件；以及

用于当所述第一批多个密钥集与所述第二批多个密钥集之间的比较产生超过所述门限值的密钥集匹配数量时，记录链接到所述指纹的来源的部件。

9.如权利要求8所述的装置，其特征在于，还包括：

用于接收下一个指纹以及链接到所述下一个指纹的来源的部件；

用于从所述下一个指纹中产生第二批多个密钥集的部件；

用于比较所述第一批多个密钥集与从所述下一个指纹中产生的第二批多个密钥集的部件；

用于当所述第一批多个密钥集与从所述下一个指纹中产生的第二批多个密钥集之间的比较产生超过所述门限值的密钥集匹配数量时，记录链接到所述下一个指纹的来源的部件；以及

用于当所有指纹的密钥集都已经与所述第一批多个密钥集中的密钥集进行了比较时，输出所记录的来源的部件。