CN112667841A

CN112667841A - 一种弱监督的深度上下文感知图像表征方法及系统

Info

Publication number: CN112667841A
Application number: CN202011587005.0A
Authority: CN
Inventors: 刘萌; 田传发; 周迪; 齐孟津; 聂秀山
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-16
Anticipated expiration: 2040-12-28
Also published as: CN112667841B

Abstract

本发明公开了一种弱监督的深度上下文感知图像表征方法及系统，包括：获取待处理图像；对待处理图像进行表征提取，提取出基础视觉表征；基于基础视觉表征，生成上下文强化视觉表征；对上下文强化视觉表征映射为哈希向量；对哈希向量，进行二值化处理，得到待处理图像的哈希表征。该方法充分捕获了图像的语义信息，并在一个统一的框架内增强了图像表征的辨别力。本发明引入了辨别损失，强制图像表征重新生成标签。这样可以增强图像表征的区分性，且进一步提高哈希码的质量；相较于之前的方法，本发明提高了基于哈希表征的图像检索性能。

Description

一种弱监督的深度上下文感知图像表征方法及系统

技术领域

本申请涉及图像表征技术领域，特别是涉及一种弱监督的深度上下文感知图像表征方法及系统。

背景技术

本部分的陈述仅仅是提到了与本申请相关的背景技术，并不必然构成现有技术。

随着社交网络和移动智能手机的普及，大量的图片被网民记录和分享。为了克服海量图像带来的存储成本，同时满足高效图像检索的需求，图像哈希表征学习越来越引起人们的研究兴趣。受深度神经网络在表征学习方面成功的启发，人们的研究重点已经转向到探索深度图像哈希表征学习方法上。尽管它们取得了令人满意的进展，但大多数工作都是有监督的学习方法。换句话说，它们依赖于多个类别的大量标注图像，标注成本是非常昂贵的，故不适用于真实的应用中。我们知道，社交图片与用户提供的标签是相关联的，这些标签信息在一定程度上可以描述图片的语义信息。更重要的是，与图像类别标注信息相比，用户标签信息更容易获得。鉴于此弱监督的深度图像哈希表征学习，即利用用户标签作为监督信息而不是图像类别标注来学习哈希函数，是非常必要的。

但是，仅仅通过用户的标签信息来学习图像哈希函数并不简单，原因如下：

1)在社交媒体平台上，用户提供的标签并不完善。换句话说，它们可能与图像的类别没有直接的联系。例如，一幅图像对应的用户标签是“教堂”，“建筑”和“尖塔”，而它的类别却是“天空”。此外，由于社交媒体用户注重自我、喜欢个性表达等特点，致使与图片相关的标签通常是主观的或与内容无关的(如：美好的，漂亮的)。因此，如何从用户标签中挖掘有效的监督信息成为一个关键问题。

2)为了更好地学习用于图像检索的哈希表征，提取图像的细粒度语义信息至关重要。这样可以进一步增强图像与其对应语义标签之间的匹配。因此，如何全面理解图像的内容，提取有用的语义信息是迫切需要解决的问题。

现阶段，据我们所知，只有一个基于深度学习的弱监督图像哈希表征学习方法，该方法利用标签嵌入或二值化标签向量作为监督信息进行图像哈希表征学习。虽然取得了不错的性能，但它有几个关键的缺点：

1)基于二进制标签向量的学习模型认为两幅图像共享至少一个用户标签，它们就是相似的，这是不合理的。因为实际生活中，两幅图像共享用户标签，但它们的类别可能完全不同；

2)将整张图像全局编码当作视觉表征，这样一个紧凑的表示很难捕获图像中的细粒度语义细节。因此，弱监督的深度图像哈希表征学习仍处于起步阶段，仍有待进一步探索。

发明内容

为了解决现有技术的不足，本申请提供了一种弱监督的深度上下文感知图像表征方法及系统；具体来说，我们设计了一种新的图像编码器来增强图像内容的理解，它可以自适应地捕获有意义的区域上下文信息，并将它们聚合成新的图像表征。此外，由于监督信息薄弱，即用户的标签信息，可能会影响图像表征的区分性，我们引入了辨别损失来缓解这一问题。它迫使图像表征重新生成与其相关的标签信息，从而加强了图像和标签之间的对齐，以及学习到的哈希码的表征能力。最后，利用学习到的图像哈希码，可以有效地进行大规模图像检索。

第一方面，本申请提供了一种弱监督的深度上下文感知图像表征方法；

一种弱监督的深度上下文感知图像表征方法，包括：

获取待处理图像；

对待处理图像进行表征提取，提取出基础视觉表征；基于基础视觉表征，生成上下文强化视觉表征；对上下文强化视觉表征映射为哈希向量；

对哈希向量，进行二值化处理，得到待处理图像的哈希表征。

第二方面，本申请提供了一种弱监督的深度上下文感知图像表征系统；

一种弱监督的深度上下文感知图像表征系统，包括：

获取模块，其被配置为：获取待处理图像；

表征提取模块，其被配置为：对待处理图像进行表征提取，提取出基础视觉表征；基于基础视觉表征，生成上下文强化视觉表征；对上下文强化视觉表征映射为哈希向量；

二值化处理模块，其被配置为：对哈希向量，进行二值化处理，得到待处理图像的哈希表征。

第三方面，本申请还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本申请还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

第五方面，本申请还提供了一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。

与现有技术相比，本申请的有益效果是：

(1)本发明提出了一种端到端弱监督的深度图像哈希表征学习方法，该方法充分捕获了图像的语义信息，并在一个统一的框架内增强了图像表征的辨别力；

(2)为了充分利用弱监督的用户标签信息，本发明引入了辨别损失，强制图像表征重新生成标签。这样可以增强图像表征的区分性，且进一步提高哈希码的质量；

(3)相较于之前的方法，本发明提高了基于哈希表征的图像检索性能。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为第一个实施例的方法流程图；

图2为第一个实施例的图像编码器内部网络结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了一种弱监督的深度上下文感知图像表征方法；

如图1所示，一种弱监督的深度上下文感知图像表征方法，包括：

S101：获取待处理图像；

S102：对待处理图像进行表征提取，提取出基础视觉表征；基于基础视觉表征，生成上下文强化视觉表征；对上下文强化视觉表征映射为哈希向量；

S103：对哈希向量，进行二值化处理，得到待处理图像的哈希表征。

作为一个或多个实施例，所述对待处理图像进行表征提取，提取出基础视觉表征；基于基础视觉表征，生成上下文强化视觉表征；对上下文强化视觉表征映射为哈希向量；通过训练后的图像编码器来实现。

进一步地，如图2所示，所述图像编码器，包括：

依次连接的ResNet-50网络、自注意力机制模块、求和单元、平均池化层和多层感知机网络；其中，ResNet-50网络作为图像编码器的输入端，多层感知机网络作为图像编码器的输出端。

进一步地，所述ResNet-50网络，用于对待处理图像进行表征提取，提取出基础视觉表征。

示例性的，采用预训练的ResNet-50网络作为基础视觉表征提取模型的主干网络。输入一张224x224x3维的图像，通过ResNet-50网络的Conv1、Conv2_x、Conv3_x、Conv4_x和Conv5_x这5层，最终输出7x7x2048维的特征图。形式上，我们将上述过程总结如下：

X_i＝φ(I_i)，

其中，φ表示ResNet-50网络去除最后一层全连接层的部分，

表示提取的基本视觉表征。具体来说，特征图中的每个像素对应于原始输入图像中的一个区域。

进一步地，所述自注意力机制模块，用于捕获基础视觉表征的特征图上每一个点的上下文信息，得到上下文强化后的区域表征矩阵。

示例性的，利用自注意力机制捕获特征图上每一个点的上下文信息，即

其中，

为将X_i维度变形后的结果，

为学习的注意力权重矩阵，

为上下文强化后的区域表征矩阵。

应理解的，为了充分理解每个细粒度特征区域的语义，上下文信息起着至关重要的作用。本发明建立了一个视觉表征生成模块，来很好地利用每一个区域的上下文信息。

进一步地，所述求和单元，用于将上下文强化后的区域表征与基础视觉表征相加，得到增强后的区域特征。

应理解的，为了保持各视觉区域的原始信息，我们将强化后的表征与原始表征相加。

进一步地，所述平均池化层，用于对增强后的区域特征进行融合得到上下文强化的视觉表征。

应理解的，选择平均池化操作将增强后的区域特征融合为一个视觉表征向量。更具体地说，上述运算可以形式化地表示为：

其中，

为上下文强化的视觉表征，avg_pooling表示平均池化操作。

进一步地，所述多层感知机网络，用于对上下文强化的视觉表征进行映射为哈希向量。

示例性的，分别利用一个多层感知机网络将上下文强化视觉表征映射为维度为L的哈希向量

在形式上，隐藏层的定义如下：

其中，θ₁和θ₂分别对应Relu和sigmoid激活函数，W_l和b_l(l∈{1，2})分别表示学习的参数矩阵和向量。

进一步地，在测试阶段和实际应用阶段，所述图像编码器后面还连接有二值化单元，所述二值化单元，用于对哈希表征进行二值化处理，得到哈希码表征。

进一步地，所述训练后的图像编码器，训练步骤包括：

构建训练集；所述训练集包括已知用户标签的图像；

将训练集中的图像作为图像编码器的输入值，将训练集中的已知标签的表征向量作为图像编码器的输出值，对图像编码器进行训练；

当图像编码器的总损失函数达到最小值时，停止训练，得到训练后的图像编码器。

训练阶段：假设我们有N个图像-标签-类别组，表示为

其中I_i代表第i个图像，

为与图像I_i相关的标签集合，l_i∈{0，1}^K为二值图像类别向量，K表示图像类别数目。特别地，如果I_i隶属于第k个类别，那么l_i的第k个元素值为1，否则为0。本发明旨在利用

信息学习哈希函数，为每一个图像输出哈希码表征，即b_i。图像编码器，生成蕴含细粒度视觉语义信息的图像表征；标签编码器，输出用户标签信息的表征。

测试阶段：给定一张测试图像I，我们先提取测试图像的哈希表征h¹(图像编码器中多层感知机网络的输出)，然后采用下述公式对其进行二值化得到哈希码表征：

其中，sgn为符号函数。

进一步地，所述已知标签的表征向量，获取步骤包括：

对训练集图像的已知标签，采用标签编码器进行编码处理，得到已知标签的表征向量。

进一步地，所述采用标签编码器进行编码处理的具体步骤包括：

将与图像对应的每一个标签信息采用word2vec工具得到词向量编码；

对所有的词向量编码，进行平均池化处理，得到已知标签的表征向量。示例性的，标签编码过程包括：将与图片对应的每一个标签信息使用word2vec工具得到词向量编码。之后，采用平均池化作用到所有词向量中，最终得到一个标签表征向量

其中d表示词向量编码维度。

进一步地，所述图像编码器的总的损失函数，包括：量化损失函数、成对损失函数、铰链损失函数和辨别损失函数。

所述量化损失函数，旨在使图像编码器输出哈希向量

的元素值接近于0或1。

量化损失：

其中，I是维度为d且值为1的向量，N为训练集中图像数目，

为图像编码器输出的训练集中第i张图像的哈希向量，L表示哈希码长度。

所述成对损失函数，旨在保证标签表征相似的图像对之间具有相似的哈希码表征。

成对损失：

其中，

为图像编码器输出的训练集中第i张图像的哈希向量，

为图像编码器输出的训练集中第j张图像的哈希向量，t_i为训练集中第i张图像的已知标签表征，t_j为训练集中第j张图像的已知标签表征，L表示哈希码长度，N为训练集中图像数目。

所述铰链损失函数，为了消除图像和文本模态间语义鸿沟，铰链损失迫使输入匹配的图像-标签对的表征相近，反之亦然。

铰链损失：

其中，θ₃为Tanh激活函数，W₃和b₃为学习参数，

向维数与标签表征一致，m为预定义参数，t_i为训练集中第i张图像的已知标签表征，t_j为训练集中第j张图像的已知标签表征，N为训练集中图像数目

所述辨别损失函数，迫使上下文强化的图像表征x_i准确地重新生成相应的标签信息，从而确保图像表征的区分性，同时提高图像哈希表征的质量。

辨别损失：

其中，L_c为标签数目，p_ic为第i个图像包含第c个标签的预测概率值，y_ic为真实标注结果，即第i个图像包含第c个标签，它的值为1，N为训练集中图像数目进一步地，所述图像编码器的总的损失函数为：

L＝λ₁L₁+L₂+λ₃L₃+λ₄L₄

其中，λ₁，λ₃，λ₄为平衡损失函数的超参数。

实施例二

本实施例提供了一种弱监督的深度上下文感知图像表征系统；

一种弱监督的深度上下文感知图像表征系统，包括：

获取模块，其被配置为：获取待处理图像；

此处需要说明的是，上述获取模块、表征提取模块和二值化处理模块对应于实施例一中的步骤S101至S103，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种弱监督的深度上下文感知图像表征方法，其特征是，包括：

获取待处理图像；

2.如权利要求1所述的一种弱监督的深度上下文感知图像表征方法，其特征是，所述对待处理图像进行表征提取，提取出基础视觉表征；基于基础视觉表征，生成上下文强化视觉表征；对上下文强化视觉表征映射为哈希向量；通过训练后的图像编码器来实现。

3.如权利要求2所述的一种弱监督的深度上下文感知图像表征方法，其特征是，所述图像编码器，包括：

4.如权利要求3所述的一种弱监督的深度上下文感知图像表征方法，其特征是，所述ResNet-50网络，用于对待处理图像进行表征提取，提取出基础视觉表征；

所述自注意力机制模块，用于捕获基础视觉表征的特征图上每一个点的上下文信息，得到上下文强化后的区域表征矩阵；

所述求和单元，用于将上下文强化后的区域表征与基础视觉表征相加，得到增强后的区域特征；

所述平均池化层，用于对增强后的区域特征进行融合得到上下文强化的视觉表征；

所述多层感知机网络，用于对上下文强化的视觉表征进行映射为哈希向量。

5.如权利要求2所述的一种弱监督的深度上下文感知图像表征方法，其特征是，所述训练后的图像编码器，训练步骤包括：

构建训练集；所述训练集包括已知用户标签的图像；

6.如权利要求5所述的一种弱监督的深度上下文感知图像表征方法，其特征是，所述已知标签哈希码表征，获取步骤包括：

对训练集图像的已知标签，采用标签编码器进行编码处理，得到已知标签的表征向量；

所述采用标签编码器进行编码处理的具体步骤包括：

对所有的词向量编码，进行平均池化处理，得到已知标签的表征向量。

7.如权利要求5所述的一种弱监督的深度上下文感知图像表征方法，其特征是，所述图像编码器的总损失函数，包括：量化损失函数、成对损失函数、铰链损失函数和辨别损失函数；

所述量化损失函数，旨在使图像编码器输出哈希向量

的元素值接近于0或1；

所述成对损失函数，旨在保证标签表征相似的图像对之间具有相似的哈希码表征；

所述铰链损失函数，为了消除图像和文本模态间语义鸿沟，铰链损失迫使输入匹配的图像-标签对的表征相近，反之亦然；

8.一种弱监督的深度上下文感知图像表征系统，其特征是，包括：

获取模块，其被配置为：获取待处理图像；

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。