CN109461110B

CN109461110B - 确定图片的溯源信息的方法及装置

Info

Publication number: CN109461110B
Application number: CN201811184720.2A
Authority: CN
Inventors: 傅佳琪; 贾冰鑫; 毛仁歆
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-10-11
Filing date: 2018-10-11
Publication date: 2023-06-27
Anticipated expiration: 2038-10-11
Also published as: CN109461110A

Abstract

本说明书实施例提供一种确定图片的溯源信息的方法和装置，方法包括，首先获取待识别的第一图片；采用空域数字水印读取方法，对第一图片进行空域标识码提取。如果成功提取到空域标识码，则据此确定第一图片的溯源信息；如果空域标识码提取失败，那么从图片库中，检索出与第一图片相似的候选集，基于该候选集中的各个图片，采用频域数字水印读取方法，对第一图片进行频域标识码提取，以根据频域标识码确定第一图片的溯源信息。

Description

确定图片的溯源信息的方法及装置

技术领域

本说明书一个或多个实施例涉及数字水印和图像处理领域，尤其涉及通过数字水印确定图片的溯源信息的方法和装置。

背景技术

随着计算机和网络技术的发展，人们获取各种资源变得越来越便利。但是随之而来的，这也为未经作者同意，盗取、传播他人创作的内容提供了空间。例如，在淘宝和天猫平台上有众多原创图片资源，如何保护这些原创图片，避免这些图片资源被盗取是迫切需求。

为了保护图片版权，常规技术中往往给图片加上水印，例如，加上图片版权方的logo。然而，这样的方式对图片本身的观感造成巨大影响。

于是，提出了一些数字手段，希望以肉眼不易察觉的方式，实现图片版权保护。这些数字手段包括，数字水印，计算机视觉处理，等等。

然而，在现阶段，以上的数字手段各自存在一定缺陷。例如，计算机视觉方案算法复杂，成本较高。数字水印方法包括几种水印嵌入方案，各自在安全性、视觉影响性上存在一些不足，需要进行优化。

因此，希望能有改进的方案，更加高效地对未知图片进行溯源。

发明内容

本说明书一个或多个实施例描述了一种确定图片的溯源信息的方法及装置，通过综合多种数字水印方法的优势，全面有效地识别图片的溯源信息。

根据第一方面，提供了一种确定图片的溯源信息的方法，包括：

获取待识别的第一图片；

采用空域数字水印读取方法，对所述第一图片进行空域标识码提取；

在成功提取所述空域标识码的情况下，根据所述空域标识码确定所述第一图片的溯源信息；

在所述空域标识码提取失败的情况下，从预定图片库中，检索出第一候选集，所述第一候选集中的第二图片与所述第一图片之间的第一相似度满足第一预定条件；

基于所述第一候选集中的各个第二图片，采用频域数字水印读取方法，对所述第一图片进行频域标识码提取，以根据所述频域标识码确定所述第一图片的溯源信息。

在一个实施例中，所述溯源信息包括，是否具有版权，以及版权号。

进一步地，根据一个实施例，在成功提取所述空域标识码的情况下，确定所述第一图片具有版权，且基于所述空域标识码确定版权号。

根据一种可能的设计，通过以下方式检索出第一候选集：

采用哈希函数，计算所述第一图片的第一哈希值；

获取所述预定图片库中各个第二图片的第二哈希值；

基于各个第二图片的第二哈希值与所述第一哈希值的差值确定所述第一相似度；

如果所述预定图片库中某张第二图片与所述第一图片的第一相似度满足所述第一预定条件，则将该第二图片添加到所述第一候选集。

根据另一种可能的设计，通过以下方式检索出第一候选集：

采用特征提取方法，确定所述第一图片的第一特征向量；

获取所述预定图片库中各个第二图片的第二特征向量；

基于所述第一特征向量和各个第二图片的第二特征向量，确定各个第二图片与所述第一图片的第一相似度；

在一个实施例中，采用频域数字水印读取方法，对所述第一图片进行频域标识码提取包括：

基于所述第一候选集中各个第二图片与所述第一图片的频域对比，提取至少一个备选标识码；

将所述至少一个备选标识码中重复度最高的备选标识码作为所述频域标识码。

更具体地，根据一个实施例，通过以下方式提取至少一个备选标识码：

通过频域转换，将所述第一图片转换为第一频域信号；

获取所述第一候选集中的各个第二图片的第二频域信号；

通过对比所述第一频域信号和各个第二图片的第二频域信号，提取所述至少一个备选标识码。

在一个实施例中，所述方法还包括，在所述频域标识码提取失败的情况下，采用计算机视觉方法，从所述预定图片库中检索与所述第一图片相关联的图片；

基于预定的侵权界定条件和所述相关联的图片，确定所述第一图片的溯源信息。

进一步地，根据一种实施方式，通过以下方式检索与所述第一图片相关联的图片：

从所述预定图片库中，检索出第二候选集，所述第二候选集中的图片与所述第一图片之间的第二相似度满足第二预定条件；

采用计算机视觉方法，从所述第二候选集中确定出所述相关联的图片。

更进一步地，在一个例子中，所述第二候选集与所述第一候选集相同。

根据一种实施方式，所述计算机视觉方法包括以下中的一种或多种：目标检测算法，图片匹配定位算法，模式识别算法。

在一种可能的设计中，所述方法还包括，在所述频域标识码提取失败的情况下：

为所述第一图片添加数字水印；

将所述第一图片添加到所述图片库。

进一步地，在一个实施例中，为所述第一图片添加数字水印包括：

为所述第一图片生成溯源标识码；

采用频域数字水印写入方法，将所述溯源标识码对应的频域标识码写入所述第一图片；

采用空域数字水印写入方法，将所述溯源标识码对应的空域标识码写入所述第一图片。

根据第二方面，提供一种确定图片的溯源信息的装置，包括：

获取单元，配置为获取待识别的第一图片；

空域提取单元，配置为采用空域数字水印读取方法，对所述第一图片进行空域标识码提取；

第一确定单元，配置为在成功提取所述空域标识码的情况下，根据所述空域标识码确定所述第一图片的溯源信息；

检索单元，配置为在所述空域标识码提取失败的情况下，从预定图片库中，检索出第一候选集，所述第一候选集中的第二图片与所述第一图片之间的第一相似度满足第一预定条件；

频域提取单元，配置为基于所述第一候选集中的各个第二图片，采用频域数字水印读取方法，对所述第一图片进行频域标识码提取，以根据所述频域标识码确定所述第一图片的溯源信息。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，对于待识别的输入图片，依次对空域数字水印和频域数字水印进行提取，在成功提取任一种数字水印的情况下，都可以确定出输入图片的溯源信息。特别地，考虑到空域数字水印的单图提取更加简单，首先执行空域数字水印的提取；考虑到频域数字水印所需要的原图对比，从图片库中检索出候选集来缩窄遍历的范围，减少计算量。如此，更好地融合了空域数字水印和频域数字水印各自的优势，克服其不足。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的确定图片的溯源信息的方法流程图；

图3示出根据另一实施例的确定溯源信息的方法流程图；

图4示出根据一个实施例的写入水印的方法流程图；

图5示出根据一个实施例的确定装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

为了避免传统水印对图片的肉眼可见的明显视觉影响，近来提出了数字水印的方案，隐藏地为图片添加数字信息。数字水印是指，以数字信号形式存在于图片且不可见的图片水印。嵌入数字水印的方法包括，空间域数字水印方法，和频域率数字水印方法。

空间域数字水印方法，又称为空域数字水印方法，是指将数字信息嵌入到图片空间域中的方法，更具体而言，其原理是把数字信息直接写入图片像素位中，例如写入到图片像素位中的预定的最低几位。采用空域数字水印方法嵌入水印的情况下，当图片遭受一定处理，如剪裁、抠图和旋转等操作，往往会对数字水印造成一定破坏，使得数字水印无法成功解析。因此，空域数字水印往往鲁棒性较低，安全性不够高。

频率域数字水印方法，又称为频域数字水印方法，该方法的原理是先将一张图片经频域变换算法转换到频域空间，然后把数字信息叠加到频域空间的信号中，最后使用逆变换将添加有数字信息的频域信号转换回空间域，从而得到加密图。一般来说，简单的图片处理操作，例如剪裁、抠图和旋转等操作，难以破坏频域数字水印，因此频域数字水印的鲁棒性和安全性较好。但是，频域数字水印也有其不足。一方面，该方法对图片的改变无法预知，无法保障图片的视觉质量。另一方面频域数字水印的读取需要原图，这使得频域数字水印的方法难以应用到对未知图片背后的水印信息的确定。

具体而言，与上述频域数字水印的写入过程相对应地，频域数字水印的读取主要包括以下过程。对于在原图P1基础上添加了频域数字水印的图片P2，为了从P2中提取出数字水印，首先将P2转换为频域信号S2，也将原图P1转换为频域信号S1，通过比对S2和S1，确定出数字水印在频域的形式，由此提取出数字水印。通过以上过程可以看到，常规的频域数字水印的提取需要与原图进行比对才能完成。

在已知原图的情况下，频域数字水印的读取并不复杂。但是由于需要原图的比对，频域数字水印的方法难以应用到对未知图片的水印信息的确定。面对一张待识别的未知图片，往往是无法获取原图的，这就需要在海量图片库中遍历搜索原图，这样的计算代价就会非常大。

除了数字水印方法，在一些方案中，还采用计算机视觉方法来进行相似图片的搜索，从而进行图片的侵权界定。然而，计算机视觉方法计算成本较大，每次检索相似图片都需要遍历全量图片库，并且，精度较低，只能找出相似图片组，而盗图者可能进行了复杂的处理，侵权图片不一定被成功检索。此外，如何对检索返回的图片组进行侵权界定更是难点。因此，也难以有效地进行图片溯源和版权信息的确定。

考虑各种方法的优势与不足，本方案的发明人创新性提出了一种综合方案，将不同的数字水印方法组合起来，利用各种方法的优势，并通过方案的设计来避免其不足，从而取长补短，更加有效地确定图片的溯源信息，增强图片的数字信息的安全性。

图1为本说明书披露的一个实施例的实施场景示意图。在图1中，计算平台可以是任何进行图片处理、存储、发布、传播的平台，例如淘宝或天猫服务器。根据本说明书实施例的方案，当接收到一张请求处理和发布的图片时，计算平台首先判断该图片的来源是否合法，对于来源合法的图片，计算平台除了将其添加到图片库中，还为其写入空域数字水印以及频域数字水印，然后才会将其进行发布和传播。

计算平台判断图片来源是否合法主要基于数字水印的提取。如上所述，合法来源的图片都被写入空域数字水印和频域数字水印之后才发布出去，因此，对于一张状态未知的图片，计算平台会尝试分别提取其空域数字水印和频域数字水印。鉴于空域数字水印和频域数字水印各自的特点和优势，计算平台首先提取空域数字水印，提取失败的情况下，尝试提取频域数字水印。在进行频域数字水印的提取时，为了避免遍历整个图片库造成的计算压力，基于图片之间的相似度，从图片库中检索出有可能作为原图的备选图片集合，基于该备选图片集合进行频域数字水印的提取。当任一种数字水印被成功提取，则意味着，该图片已经被添加有水印，于是可以通过水印对该图片进行溯源。

例如，卖家A向计算平台(例如淘宝服务器)上传了一张原创的产品实拍图，计算平台为该图片添加空域数字水印和频域数字水印，然后将添加有数字水印的图片发布出来。假设另一卖家B盗取了该图片，企图将其添加到自己的店铺。那么卖家B也需要将该图片提交到淘宝服务器来进行发布。服务器接收到该图片，首先对其进行数字水印的读取，包括空域数字水印的读取，和频域数字水印的读取。即使卖家B对该图片进行了一些处理和操作，也难以同时破坏这两种水印。当读取到空域数字水印和频域数字水印的任一种时，即可判定，该图片已有数字水印存在，因此该图片涉嫌盗图。

又例如，操作者U1在截取、存储或下载受保护的图片库中的图片时，图片库的服务器可以为该图片添加上空域数字水印和频域数字水印，这两种水印均指向操作者的标识信息，例如操作者ID。之后，如果该图片在网上传播，服务器可以分别提取这两种水印，以此对该图片进行溯源，确定从图片库中泄露该图片的操作者信息。

如此，综合利用多种数字水印技术，更有效地确定图片的溯源信息。

下面描述以上方案的具体实现方式。

图2示出根据一个实施例的确定图片的溯源信息的方法流程图。该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行，例如图1的计算平台，更具体的，可以是各种涉及图片存储、发布的服务器。如图2所示，该方法至少包括以下步骤。

首先，在步骤21，获取待识别的图片。以下为了描述方便，将该待识别图片称为第一图片，但是需要理解，其中的“第一”只是为了名称上的区分，并不表示次序或其他方面的限定。可以理解，该第一图片是来源状态未知的图片，是有待对其溯源信息进行识别的图片。可以将该第一图片记为X_*。

接着，在步骤22，采用空域数字水印读取方法，对所述第一图片进行空域标识码提取。可以理解，空域标识码按照一定规则被写入在图片的预定像素位中，写入的规则又可以表示为写入函数f_spa。相应地，提取空域标识码的过程即为，按照与写入函数对应的读取函数

从上述预定像素位中读取数字信息，根据这些数字信息得到空域标识码。这个过程可以记为：

可以理解，空域标识码T_spa的读取仅涉及对当前图片的读取操作，而不涉及原图，其提取操作也相对简单，因此，根据本说明书的至少一个实施例，首先进行空域标识码的提取。

然后，在步骤23，判断空域标识码是否成功提取。在一个实施例中，空域标识码为一串加密的字符，被反复写入在图片的部分像素的像素位中。在从像素位中提取出数字信息之后，如果这些数字信息以预定的编码重复率构成空域标识码的形式，那么可以认为成功提取出空域标识码，否则，如果出现提取出的数字信息太少，或者数字信息形成的编码的重复率太低等情况，仍然认为空域标识码提取不成功。在其他实施例中，空域标识码还可以有其他形式，具有其他提取要求，例如，按照预定图案写入在特定像素位中等等。此时，根据对应的提取要求，判断空域标识码是否成功提取。

如果空域标识码成功提取，那么跳转到步骤27，确定第一图片的溯源信息。

在一个实施例中，溯源信息包括版权信息。更具体地，在一个例子中，版权信息为是否具有版权。相应地，如果空域标识码提取成功，就意味着，该图片已经添加有反映版权信息的数字水印，那么在步骤27，可以确定该第一图片具有版权。也就是说，如果此次操作不是原作者的使用，那么即涉嫌盗图。在另一例子中，版权信息还包括版权方标识或版权号。版权方标识类似于传统水印中的版权方logo，用于标识出对该图片具有版权的版权方信息。同一版权方拥有的多个图片可以被写入同样的版权方标识。版权号可以是为每张原创图片产生的唯一识别号，用以对原创图片进行区分和版权保护。通常在数字水印的写入过程中，将该版权号加密为标识码，嵌入到图片中。因此，在成功提取出空域数字水印的情况下，可以基于提取到的空域标识码确定出版权方标识或版权号，实现图片的溯源。

在一个实施例中，溯源信息包括图片的操作者信息，例如操作者ID。相应地，如果空域标识码提取成功，就意味着，该图片已经添加有反映其来源的数字水印，那么在步骤27，可以确定该第一图片的操作者信息，如此对图片进行溯源。

另一方面，如果空域标识码提取失败，那么则进行到步骤24，开始为频域数字水印提取做准备。

空域标识码提取失败有两种可能的原因。一种是，该第一图片为原始图片，没有被添加过数字水印；另一种可能是，该第一图片通过一些图片处理(例如抠图，旋转，裁剪，涂鸦等人为操作)，破坏了添加的空域数字水印。因此，接下来尝试从第一图片中提取频域数字水印。

然而，如前所述，一般来说，频域数字水印的提取需要原图。为了避免遍历整个图片库带来的巨大计算量，根据一个实施例，在步骤24，首先从图片库中检索出有可能作为原图的候选集，作为后续频域提取的基础。为了描述的简单方便，将此处的候选集称为第一候选集。

具体地，通过以下方式从图片库中检索出第一候选集。对于图片库中各个图片，如果该图片与第一图片的相似度满足一定条件，则认为它有可能作为第一图片的原图，将其添加到第一候选集中。

在一个实施例中，通过图片哈希值确定图片之间的相似度，进而得到第一候选集。具体地，可以计算第一图片X*的哈希值，称为第一哈希值：

h*＝Hash(X*)；

图片库表示为Z，包含N张图片,即Z＝{X₁,...,X_i,...,X_N}，那么可以获取图片库Z中各个图片(称为第二图片)的哈希值(称为第二哈希值)：

h_i＝Hash(X_i)

需要理解，以上图片库中各个图片的哈希值可以预先计算并存储，在需要的时候读取即可，也可以通过现场计算获得。

基于此，可以确定各个第二图片的第二哈希值与第一哈希值的差值：

Δh＝|h_i-h_*|

可以将以上差值作为第二图片与第一图片之间相似度的一种衡量。

如果图片库中某张第二图片与第一图片的哈希差值小于预定阈值，则将该第二图片添加到第一候选集。

根据另一实施例，通过图片的特征向量之间的相似度，得到第一候选集。具体地，可以采用特征提取方法，确定第一图片的特征向量，此处称为第一特征向量F1。以上特征提取方法可以使用常规技术中的多种方式来实现，例如直接提取像素值，基于像素值形成特征向量；或者，先对图片进行卷积处理，基于卷积的特征确定特征向量，等等。

此外，可以获取图片库Z中各个图片(第二图片)的特征向量，此处称为第二特征向量F2。

可以理解，以上图片库中各个图片的特征向量可以采用相同的特征提取方法预先计算并存储，在需要的时候读取即可，也可以通过现场计算获得。

接着，基于第一特征向量F1和各个第二图片的第二特征向量F2，确定各个第二图片与第一图片的相似度SIM(X_*,X_i)。

可以采用多种方式基于特征向量计算相似度。例如，在一个例子中，计算第一图片X_*的第一特征向量F1和图片X_i所对应的第二特征向量F2的距离(例如欧式距离，余弦距离)，作为上述相似度SIM(X_*,X_i)。在另一例子中，计算第一图片X_*的第一特征向量F1和图片X_i所对应的第二特征向量F2的点积或点乘，作为上述相似度SIM(X_*,X_i)。还可以采用其他方式确定上述相似度。

如果图片库Z中某张第二图片X_i与第一图片X_*的相似度SIM(X_*,X_i)大于预定阈值，则将该第二图片添加到第一候选集中。

如此，形成第一候选集，该候选集中的图片是与第一图片具有一定相似度的图片，因此可以作为第一图片所对应的原图的候选图片。

于是，接下来，在步骤25，基于第一候选集中的各个第二图片，采用频域数字水印读取方法，对第一图片进行频域标识码提取。

可以理解，频域标识码是在原图的频域信号的基础上，按照预定规则写入的编码，写入的规则可以表示为写入函数f_frq。相应地，提取频域标识码的过程包括，基于与原图的频域信号的对比，按照与写入函数对应的读取函数

从频域空间中读取数字信息，根据这些数字信息得到频域标识码。

在不能准确确定原图的情况下，可以将步骤24中获得的第一候选集中的各个图片作为备选原图，基于各个备选原图与第一图片的频域对比，试图提取标识码。

具体地，通过频域转换，可以将第一图片转换为频域信号S1，此处称为第一频域信号。

另一方面，可以获取第一候选集中的各个第二图片(备选原图)的频域信号S2，此处称为第二频域信号。

可以理解，在一种实施方式中，可以针对图片库中的各个图片，预先转换得到其频域信号，并进行存储。在确定出第一候选集后，可以直接读取得到对应的第二图片的频域信号S2。在另一实施例中，也可以现场进行频域转换，得到第一候选集中各个图片的频域信号。

然后，通过对比第一频域信号S2和各个第二图片的第二频域信号S2，提取出标识码。提取的过程即包括，采用读取函数

基于第一频域信号和第二频域信号的差值读取数字信息。

对于第一候选集中的图片X_j，基于该图片作为原图提取得到的标识码可以表示为：

如此基于各个备选原图，进行标识码的读取。可以理解，有些备选原图可能与第一图片差异相对较大，基于这些备选原图可能无法提取出有效的标识码；而基于另一些备选原图，可以成功读取到数字信息作为标识码。

基于单个原图提取出的标识码可以作为备选标识码。在基于多个备选原图提取出至少一个备选标识码的情况下，将各个备选标识码中重复度最高的备选标识码作为频域标识码。如此，进行频域数字水印的提取。

然后，在步骤26，判断频域标识码是否成功提取。

如果频域标识码成功提取，那么进行到步骤27，确定第一图片的溯源信息。类似地，如果频域标识码提取成功，就意味着，该图片已经添加有数字水印，那么在步骤27，可以根据成功提取出的频域数字水印，确定第一图片的来源，例如，版权方信息，版权号信息，操作者信息，等等。

在另一情况下，确定频域标识码提取失败。这样的情况包括，基于第一候选集中的各个备选原图均不能提取出有效的标识码，此时，确定频域标识码读取失败。或者，在另一实施例中，基于第一候选集中的多个备选原图提取出多个备选标识码，但是这些备选标识码彼此不同，没有重复，或者重复度最高的备选空域标识码的出现次数依然不满足一最低阈值，那么也认为，频域标识码提取失败。

如前所述，版权图片都被同时添加有空域数字水印和频域数字水印，这两种数字水印同时被破坏的概率相对来说非常低。特别是频域数字水印可以抵抗多种常见的图片处理操作。因此，在频域标识码也提取失败的情况下，在步骤28可以确定，该第一图片不含有数字水印。

由此，通过图2的方法，对于输入图片，依次对空域数字水印和频域数字水印进行提取，在成功提取任一种数字水印的情况下，都可以确定出输入图片的溯源信息。特别地，考虑到空域数字水印的单图提取更加简单，首先执行空域数字水印的提取；考虑到频域数字水印所需要的原图对比，从图片库中检索出候选集来缩窄遍历的范围，减少计算量。如此，更好地融合了空域数字水印和频域数字水印各自的优势，克服了其不足。

在一个实施例中，考虑到极小概率下两种数字水印均被破坏，或者原创图片未经水印嵌入而直接传播从而可能被盗取的情况，在图2所示方法的基础上，进一步对输入图片进行溯源。

图3示出根据一个实施例的确定溯源信息的方法流程图。可以看到，图3中的步骤31到步骤37与图2中的步骤21到步骤27一一对应，在此不再赘述。

特别地，在图3中，在频域标识码提取失败的情况下，在步骤38，采用计算机视觉方法，将第一图片与预定图片库的图片进行比对。

计算机视觉方法可以包括，目标检测算法，图片匹配定位算法，模式识别算法等等。这些算法可以通过神经网络或其他模型结构来实现，在此不作限定。

在一个实施例中，可以采用目标检测算法，检测第一图片中包含的目标及其类别。然后遍历图片库，检测图片库中各个图片所包含的目标及其类别，将第一图片的目标类别与图片库中的图片进行比对。

在另一实施例中，可以在比对第一图片和图片库中的图片时采用图片匹配定位算法。图片匹配定位算法用于确定出，一张图片是否包含另一张图片的内容(内容匹配)，如果包含，则定位出包含的区域(定位)。通过采用图片匹配定位算法进行比对，可以确定出图片库中是否存在这样的图片，该图片中包含了第一图片的图片内容作为其一部分。换而言之，第一图片有可能是从该图片中剪裁或抠图得到的图片。

还可以通过其他计算机视觉方法进行第一图片与图片库中其他图片的比对。

相应地，在步骤39，可以基于比对结果，采用进一步的界定条件，判断第一图片相比于比对图片是否相同或相近似，是否构成侵权，从而确定第一图片是否来自于比对图片，如此对第一图片进行溯源。上述的界定条件根据多种策略预先设定，例如基于相似度的策略，基于出现频率的策略，基于进一步的计算机视觉比对的策略，等等。

在一个实施例中，为了避免步骤38中采用计算机视觉方法遍历图片库所带来的巨大计算量，首先对图片库进行检索和筛选，得到备选的图片集，用于后续的计算机视觉分析。

具体地，在一个例子中，可以首先从预定图片库中检索出第二候选集，所述第二候选集中的图片与第一图片之间的相似度(称为第二相似度)满足预定条件(称为第二预定条件)。然后，仅对于第二候选集中的图片，采用计算机视觉方法，进行与第一图片的比对。

以上第二候选集的确定与进行频域标识码提取时检索的第一候选集相类似。在一个具体例子中，该第二候选集甚至可以与前述第一候选集相同，从而复用之前检索的结果。在另一例子中，第二候选集的检索方式也可以与第一候选集不同。例如，考虑计算效率和后续对候选集中图片的使用方式，第一候选集可以基于第一图片与图片库中图片的哈希值Hash而确定，第二候选集可以基于第一图片与图片库中图片的特征相似度SIM而确定。

如此，对图片库进行初步筛选，获取与第一图片相似的图片，来进行计算机视觉分析，从而减少运算量。

图3的方法由于在图2的基础上进一步执行了计算机视觉分析方法，可以更加全面地对输入图片的来源状况进行确定。

在一个实施例中，对于未添加数字水印的的原始图片，为其添加数字水印，然后才进行发布或传播。

图4示出根据一个实施例的写入水印的方法流程图。图4的步骤40中的读取水印的过程，对应于图2的步骤21到步骤28，在此不再赘述。

进一步地，在第一图片的频域标识码提取失败的情况下，在步骤41，为第一图片添加数字水印。在一个实施例中，可以为第一图片添加空域数字水印，或频域数字水印。

更优选地，与图2的水印读取相对应，且作为水印读取基础，可以为第一图片同时添加空域数字水印和频域数字水印。添加过程如下。

首先，在步骤411，为第一图片生成溯源标识码。在一个实施例中，溯源标识码可以是版权号，用唯一的编码来标识和区分不同的原创图片。在另一实施例中，溯源标识码也可以是版权方统一的一个编码，用于添加到该版权方拥有版权的所有图片中。在又一实施例中，溯源标识码可以用于标识进行图片操作的操作者信息，例如操作者ID。

在一个实施例中，该溯源标识码可以是基于原始溯源标识进行加密得到的标识码。

接着，基于该溯源标识码进行数字水印的添加。考虑到频域水印写入时有可能会影响到空域水印的写入内容，而空域水印的写入对频域水印影响很小，因此，首先进行频域水印的写入，然后进行空域水印的写入。

具体地，在步骤412，采用频域数字水印写入方法，将溯源标识码对应的频域标识码写入所述第一图片。

然后在步骤413，采用空域数字水印写入方法，将溯源标识码对应的空域标识码写入所述第一图片。

在一个实施例中，上述频域标识码和空域标识码为相同的标识码。在另一实施例中，也可以为频域水印和空域水印设置不同的标识码，但是频域标识码和空域标识码均指向相同的溯源标识码。

在分别为第一图片添加了频域数字水印和空域数字水印之后，在步骤42，可以将该第一图片添加到图片库中。这可以包括，将该第一图片的原图，以及添加有数字水印的加密图，均添加到图片库。或者也可以仅添加原图，或者加密图。

但是，对于要进行发布或传播的图片，必须使用添加有数字水印的加密图。因此，在一个实施例中，上述方法还包括，发布上述添加有频域数字水印和空域数字水印的第一图片。

在一个实施例中，以上的步骤41-42也可以在通过图3的方法确定第一图片不涉及盗图或侵权的情况下，进一步执行。也就是，在图3的步骤39确定第一图片不涉嫌侵权的情况下，执行上述步骤41-42。

如此，对于原创的图片，分别为其添加频域数字水印和空域数字水印。这两种数字水印互相补充，进一步增强水印安全性和鲁棒性。并且，这样的综合数字水印方式也成为图2所示的溯源信息确定方法的基础，从而更加全面地对图片进行溯源。

根据另一方面的实施例，还提供一种确定图片的溯源信息的装置。图5示出根据一个实施例的确定装置的示意性框图。可以理解，该装置可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来实现。如图5所示，该确定装置500包括：

获取单元51，配置为获取待识别的第一图片；

空域提取单元52，配置为采用空域数字水印读取方法，对所述第一图片进行空域标识码提取；

第一确定单元53，配置为在成功提取所述空域标识码的情况下，根据所述空域标识码确定所述第一图片的溯源信息；

检索单元54，配置为在所述空域标识码提取失败的情况下，从预定图片库中，检索出第一候选集，所述第一候选集中的第二图片与所述第一图片之间的第一相似度满足第一预定条件；

频域提取单元55，配置为基于所述第一候选集中的各个第二图片，采用频域数字水印读取方法，对所述第一图片进行频域标识码提取，以根据所述频域标识码确定所述第一图片的溯源信息。

根据一个实施例，所述溯源信息包括，是否具有版权，以及版权号。

相应地，在一个实施例中，上述第一确定单元53配置为，确定所述第一图片具有版权，且基于所述空域标识码确定版权号。

根据一种可能的设计，检索单元54包括(未示出)：

第一计算模块，配置为采用哈希函数，计算所述第一图片的第一哈希值；

第二获取模块，配置为获取所述预定图片库中各个第二图片的第二哈希值；

相似度确定模块，配置为基于各个第二图片的第二哈希值与所述第一哈希值的差值确定所述第一相似度；

添加模块，配置为如果所述预定图片库中某张第二图片与所述第一图片的第一相似度满足所述第一预定条件，则将该第二图片添加到所述第一候选集。

根据另一种可能的设计，检索单元54包括(未示出)：

第一计算模块，配置为采用特征提取方法，确定所述第一图片的第一特征向量；

第二获取模块，配置为获取所述预定图片库中各个第二图片的第二特征向量；

相似度确定模块，配置为基于所述第一特征向量和各个第二图片的第二特征向量，确定各个第二图片与所述第一图片的第一相似度；

在一种实施方式中，频域提取单元55配置为：

更具体地，在一个实施例中，所述频域提取单元55通过以下方式提取备选标识码：

通过频域转换，将所述第一图片转换为第一频域信号；

获取所述第一候选集中的各个第二图片的第二频域信号；

在一个实施例中，所述装置500还包括(未示出)，比对单元，配置为在所述频域标识码提取失败的情况下，采用计算机视觉方法，将第一图片与预定图片库中的图片进行比对；以及

第二确定单元，配置为基于比对结果和预定的界定条件，确定所述第一图片的溯源信息。

根据一种实现方式，上述比对单元配置为：

采用计算机视觉方法，将第一图片与所述第二候选集中的图片一一比对。

在一个例子中，上述第二候选集与所述第一候选集相同。

根据一种实施方式，确定装置500还包括，水印添加单元56，配置为在所述频域标识码提取失败的情况下，为第一图片添加水印；图片添加单元57，配置为将所述第一图片添加到所述图片库。

在一个具体实施例中，所述水印添加单元56包括(未示出)：

生成模块，配置为为所述第一图片生成溯源标识码；

频域写入模块，配置为采用频域数字水印写入方法，将所述溯源标识码对应的频域标识码写入所述第一图片；

空域写入模块，配置为采用空域数字水印写入方法，将所述溯源标识码对应的空域标识码写入所述第一图片。

通过以上装置，综合利用了多种数字水印方法的优势，全面有效地识别图片的溯源信息。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2到图4所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2到图4所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种确定图片的溯源信息的方法，包括：

获取待识别的第一图片；

基于所述第一候选集中的各个第二图片，采用频域数字水印读取方法，对所述第一图片进行频域标识码提取，以根据所述频域标识码确定所述第一图片的溯源信息；

其中采用频域数字水印读取方法，对所述第一图片进行频域标识码提取包括：

2.根据权利要求1所述的方法，其中所述溯源信息包括，是否具有版权，以及版权号。

3.根据权利要求2所述的方法，其中在成功提取所述空域标识码的情况下，根据所述空域标识码确定所述第一图片的溯源信息包括，确定所述第一图片具有版权，且基于所述空域标识码确定版权号。

4.根据权利要求1所述的方法，其中检索出第一候选集包括：

采用哈希函数，计算所述第一图片的第一哈希值；

获取所述预定图片库中各个第二图片的第二哈希值；

5.根据权利要求1所述的方法，其中检索出第一候选集包括：

采用特征提取方法，确定所述第一图片的第一特征向量；

获取所述预定图片库中各个第二图片的第二特征向量；

6.根据权利要求1所述的方法，其中基于所述第一候选集中各个第二图片与所述第一图片的频域对比，提取至少一个备选标识码，包括：

通过频域转换，将所述第一图片转换为第一频域信号；

获取所述第一候选集中的各个第二图片的第二频域信号；

7.根据权利要求1所述的方法，还包括，在所述频域标识码提取失败的情况下，采用计算机视觉方法，将所述第一图片与所述预定图片库中的图片进行比对；

基于比对结果和预定的界定条件，确定所述第一图片的溯源信息。

8.根据权利要求7所述的方法，所述采用计算机视觉方法，将所述第一图片与所述预定图片库中的图片进行比对，包括：

采用计算机视觉方法，将所述第一图片与所述第二候选集中的各个图片一一比对。

9.根据权利要求8所述的方法，其中所述第二候选集与所述第一候选集相同。

10.根据权利要求7所述的方法，其中所述计算机视觉方法包括以下中的一种或多种：目标检测算法，图片匹配定位算法，模式识别算法。

11.根据权利要求1所述的方法，还包括，在所述频域标识码提取失败的情况下：

为所述第一图片添加数字水印；

将所述第一图片添加到所述图片库。

12.根据权利要求11所述的方法，其中为所述第一图片添加数字水印包括：

为所述第一图片生成溯源标识码；

13.一种确定图片的溯源信息的装置，包括：

获取单元，配置为获取待识别的第一图片；

频域提取单元，配置为基于所述第一候选集中的各个第二图片，采用频域数字水印读取方法，对所述第一图片进行频域标识码提取，以根据所述频域标识码确定所述第一图片的溯源信息；

其中所述频域提取单元配置为：

14.根据权利要求13所述的装置，其中所述溯源信息包括，是否具有版权，以及版权号。

15.根据权利要求14所述的装置，其中所述第一确定单元配置为，确定所述第一图片具有版权，且基于所述空域标识码确定版权号。

16.根据权利要求13所述的装置，其中所述检索单元包括：

17.根据权利要求13所述的装置，其中所述检索单元包括：

18.根据权利要求13所述的装置，其中所述频域提取单元配置为：

通过频域转换，将所述第一图片转换为第一频域信号；

获取所述第一候选集中的各个第二图片的第二频域信号；

19.根据权利要求13所述的装置，还包括，比对单元，配置为在所述频域标识码提取失败的情况下，采用计算机视觉方法，将所述第一图片与所述预定图片库中的图片进行比对；

20.根据权利要求19所述的装置，其中所述比对单元配置为：

21.根据权利要求20所述的装置，其中所述第二候选集与所述第一候选集相同。

22.根据权利要求19所述的装置，其中所述计算机视觉方法包括以下中的一种或多种：目标检测算法，图片匹配定位算法，模式识别算法。

23.根据权利要求13所述的装置，还包括，水印添加单元，配置为在所述频域标识码提取失败的情况下，为第一图片添加水印；图片添加单元，配置为将所述第一图片添加到所述图片库。

24.根据权利要求23所述的装置，其中所述水印添加单元包括：

生成模块，配置为为所述第一图片生成溯源标识码；

25.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-12中任一项所述的方法。