CN114003758B

CN114003758B - 图像检索模型的训练方法和装置以及检索方法和装置

Info

Publication number: CN114003758B
Application number: CN202111636300.5A
Authority: CN
Inventors: 经小川; 杜婉茹; 刘萱; 王潇茵; 孙鹏程; 李瑞群
Original assignee: Aerospace Hongkang Intelligent Technology Beijing Co ltd
Current assignee: Aerospace Hongkang Intelligent Technology Beijing Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-03-08
Anticipated expiration: 2041-12-30
Also published as: CN114003758A

Abstract

提供了一种图像检索模型的训练方法和装置以及检索方法和装置。所述训练方法包括：获取训练图像和用于描述训练图像的训练文本；基于训练图像通过图像信息特征提取过程获得图像区域特征向量和图像全局特征向量；基于训练文本通过文本信息特征提取过程获得文本分词特征向量和文本全局特征向量；基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量，通过图像检索模型获得相似度；以相似度最大作为目标，对图像检索模型进行训练。

Description

图像检索模型的训练方法和装置以及检索方法和装置

技术领域

本公开涉及一种图像检索模型的训练方法和使用图像检索模型的检索方法，更具体地，涉及一种基于内容的图像检索模型的训练方法和使用图像检索模型的检索方法。

背景技术

在信息爆炸的时代，图像、视频、文本等不同模态的异构数据量都在以极大的速度增长。面向这些包含丰富信息的海量视觉及文本数据，如何快速并准确的从中检索到用户所需的或感兴趣的数据，成为多模态信息检索领域的研究热点。已经开发处基于文本的图像检索和基于内容的图像检索。

基于文本的图像检索是通过文本标注的方式对图像进行描述，即，为每张图像打上描述其内容的各种标签，用户在检索时提供检索关键字，即可检索出与该关键字相关的标签，从而返回给用户相关标签所对应的图像。

基于内容的图像检索不需要对图像进行标签标注工作，通常使用计算机对图像特征进行描述，建立图像特征矢量并存入图像库，当用户输入图像进行查询时，使用同样的方法提取查询图像的特征向量，与图像库中存储的图像信息进行相似度计算，并按照相似度大小进行排序，向用户输出对应的图像，完成检索。

然而，基于文本的图像检索需要大量的人工参与，且极易受到标注人不同的认知水平、言语表达能力及主观判断力的影响；基于内容的图像检索只能完成输入为图像的检索任务，即对单模态（图像）下的特征检索有效。若用户输入为文本，则图像的特征描述与文本特征描述之间存在着语义鸿沟，导致检索无法顺利完成。

发明内容

本公开提供一种图像检索模型的训练方法和装置以及使用图像检索模型的检索方法和装置。

根据本公开实施例的第一方面，提供了一种图像检索模型的训练方法，其特征在于，训练方法包括：获取训练图像和用于描述训练图像的训练文本；基于训练图像通过图像信息特征提取过程获得图像区域特征向量和图像全局特征向量；基于训练文本通过文本信息特征提取过程获得文本分词特征向量和文本全局特征向量；基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量，通过图像检索模型获得相似度；以相似度最大作为目标，对图像检索模型进行训练，其中，通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度：

其中，

表示相似度，γ ₁和γ ₂分别为图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量中的一个特征向量，weights为图像检索模型，被构造为用于获取相似度向量的权重矩阵，

为

的2-范数运算，d表示特征向量的维度。

在根据发明构思的示例性实施例中，图像信息特征提取过程可以包括：通过卷积网络组从训练图像中提取图像初始特征图；通过区域候选网络对图像初始特征图进行图像区域划分；将图像区域划分的结果和图像初始特征图作为输入，通过感兴趣区域池化网络提取图像关键区域特征图；将图像关键区域特征图送入全连接层以获得图像区域特征向量；并且通过自注意力机制聚合图像区域特征向量以获得图像全局特征向量。

在根据发明构思的示例性实施例中，图像区域特征向量可以表示为

，其中，V为图像区域特征向量，v ₁ ,v ₂ ,…v _m为图像关键区域特征图的特征向量，m为图像关键区域特征图的个数，图像全局特征向量可以表示为

，其中，

为图像全局特征向量，α _i为与特征向量

对应的权重。

在根据发明构思的示例性实施例中，文本信息特征提取过程可以包括：通过分词将训练文本划分为n个单词，其中，n为正整数；使用词嵌入方法将n个单词转化为词向量；通过双向门控循环单元对词向量进行编码以获得文本分词特征向量；并且通过自注意力机制聚合文本分词特征向量以获得文本全局特征向量。

在根据发明构思的示例性实施例中，词向量可以表示为

，其中，W为词向量矩阵，w ₁ ,w ₂ ,…w _n为词向量，d _word表示词向量的维度。所述通过双向门控循环单元对词向量进行编码以获得文本分词特征向量的步骤可以包括：通过双向门控循环单元对词向量进行编码以获得n个单词中每个单词的包含上下文关系的词特征向量，并由n个单词的词特征向量组成文本分词特征向量。文本分词特征向量可以表示为，

，其中，T为文本分词特征向量，t ₁ ,t ₂ ,…t _n为词的特征向量，文本全局特征向量表示为，

，其中，

为文本全局特征向量，β _i为与词的特征向量对应的权重。

根据本公开实施例的第二方面，提供了一种使用图像检索模型的检索方法，所述检索方法包括：获取待检索数据，待检索数据包括待检索图像和待检索文本中的至少一种；基于待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和待检索全局特征向量；基于预先设置的图像数据库中的图像的图像区域特征向量和图像全局特征向量，以及待检索局域特征向量和待检索全局特征向量，通过图像检索模型获得相似度；并且按照相似度由大到小的规则排序生成检索结果的候选队列，其中，通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度：

其中，

表示相似度，γ ₁和γ ₂分别为图像区域特征向量、图像全局特征向量、待检索局域特征向量和待检索全局特征向量中的一个特征向量，weights为图像检索模型，被构造为用于获取相似度向量的权重矩阵，

为

的2-范数运算，d表示特征向量的维度。

在根据发明构思的示例性实施例中，待检索数据是待检索图像，图像信息特征提取过程包括：通过卷积网络组从待检索图像中提取图像初始特征图；通过区域候选网络对图像初始特征图进行图像区域划分；将图像区域划分的结果和图像初始特征图作为输入，通过感兴趣区域池化网络提取图像关键区域特征图；将图像关键区域特征图送入全连接层以获得待检索图像区域特征向量作为待检索局域特征向量；并且通过自注意力机制聚合图像区域特征向量以获得待检索图像全局特征向量作为待检索全局特征向量。

在根据发明构思的示例性实施例中，待检索图像区域特征向量可以表示为

，其中，V为待检索图像区域特征向量，v ₁ ,v ₂ ,…v _m为图像关键区域特征图的特征向量，m为图像关键区域特征图的个数，待检索图像全局特征向量可以表示为

，其中，

为待检索图像全局特征向量，α _i为与特征向量

对应的权重。

在根据发明构思的示例性实施例中，待检索数据是待检索文本，文本信息特征提取过程可以包括：通过分词将待检索文本划分为n个单词，其中，n为正整数；使用词嵌入方法将n个单词转化为词向量；通过双向门控循环单元对词向量进行编码以获得待检索文本分词特征向量作为待检索局域特征向量；并且通过自注意力机制聚合文本分词特征向量以获得待检索文本全局特征向量作为待检索全局特征向量。

在根据发明构思的示例性实施例中，词向量可以表示为

，其中，W为词向量矩阵，w ₁ ,w ₂ ,…w _n为词向量，d _word表示词向量的维度。通过双向门控循环单元对词向量进行编码以获得待检索文本分词特征向量的步骤可以包括：通过双向门控循环单元对词向量进行编码以获得n个单词中每个单词的包含上下文关系的词特征向量，并由n个单词的词特征向量组成待检索文本分词特征向量。待检索文本分词特征向量可以表示为

，其中，T为待检索文本分词特征向量，t ₁ ,t ₂ ,…t _n为词的特征向量，待检索文本全局特征向量可以表示为

，其中，

为文本全局特征向量，β _i为与词的特征向量对应的权重。

在根据发明构思的示例性实施例中，获得相似度的步骤还可以包括通过全连接网络层将作为向量的相似度转换为作为标量的最终相似度，并且按照最终相似度由大到小的规则排序生成检索结果的候选队列。

根据本公开实施例的第三方面，提供了一种图像检索模型的训练装置，其特征在于，所述装置包括：数据获取单元，被配置为获取训练图像和用于描述训练图像的训练文本；图像特征提取单元，被配置为基于训练图像通过图像信息特征提取过程获得图像区域特征向量和图像全局特征向量；文本特征提取单元，被配置为基于训练文本通过文本信息特征提取过程获得文本分词特征向量和文本全局特征向量；相似度计算单元，被配置为基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量，通过图像检索模型获得相似度；训练单元，相似度最大作为目标，对图像检索模型进行训练，其中，通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度：

其中，

为

的2-范数运算，d表示特征向量的维度。

根据本公开实施例的第四方面，提供了一种使用图像检索模型的检索装置，所述装置包括：输入单元，被配置为获取待检索数据，待检索数据可以是待检索图像和待检索文本中的至少一种；输入数据特征提取单元，被配置为基于待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和待检索全局特征向量；相似度计算单元，被配置为基于预先设置的图像数据库中的图像的图像区域特征向量和图像全局特征向量，以及待检索局域特征向量和待检索全局特征向量，通过图像检索模型获得相似度；并且排序单元，按照相似度由大到小的规则排序生成检索结果的候选队列，其中，通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度：

其中，

为

的2-范数运算，d表示特征向量的维度。

根据本公开实施例的第五方面，提供一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上描述的图像检索模型的训练方法和使用图像检索模型的检索方法。

根据本公开实施例的第六方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器如上描述的图像检索模型的训练方法和使用图像检索模型的检索方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的一个或多个示例性实施例，通过对图像的区域特征进行提取，并基于区域特征建立图像的全局特征向量，提高检测结果准确度；基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量，通过图像检索模型获得相似度；以相似度最大作为目标，对图像检索模型进行训练，从而完成双模态（图像、文本）之间的语义关联。因此，能够减少人工标注工作，并且能够忽略掉其他无关信息（例如光线、背景、占比等因素）的影响，而更关注图像真正要表达的内容，因此检索结果相比于传统基于内容的检索技术更具有针对性和准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的图像检索模型的训练方法的流程图；

图2是示出根据本公开的图像检索模型的训练方法的详细流程图；

图3是示出根据本公开的图像区域特征向量的示例；

图4是示出根据本公开的使用图像检索模型的检索方法的流程图；

图5是示出根据本公开的图像检索模型的训练装置的示意图；

图6是示出根据本公开的使用图像检索模型的检索装置的示意图；以及

图7是示出根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：（1）包括A；（2）包括B；（3）包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：（1）执行步骤一；（2）执行步骤二；（3）执行步骤一和步骤二。

下面，将参照图1至图6来详细描述根据本公开的图像检索模型的训练方法和装置以及使用图像检索模型的检索方法和装置。

图1是示出根据本公开的图像检索模型的训练方法的流程图。

参照图1，本公开的示例性实施例提供了一种图像检索模型的训练方法。

具体而言，图像的检索与模态（Modality）有关。简要地讲，每一种信息的来源或者形式，都可以称为一种模态。在本公开中，图像信息、文本信息均可称为一种模态，双模态指图像和文本信息。

在步骤S110中，获取训练图像和用于描述训练图像的训练文本。通过选取的训练集包括训练图像和用于描述训练图像的训练文本，从而解决传统的基于内容的图像检索算法只能对单一模态进行检索的技术问题。

在步骤S120中，基于训练图像通过图像信息特征提取过程获得图像区域特征向量和由图像区域特征向量生成的图像全局特征向量，稍后将参照图2详细描述具体的图像信息特征提取过程。

在步骤S130中，基于训练文本通过文本信息特征提取过程获得文本分词特征向量和由文本分词特征向量生成的文本全局特征向量，稍后将参照图2详细描述具体的文本信息特征提取过程。

在步骤S140中，基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量，通过图像检索模型获得相似度。其中，通过图像检索模型获得相似度的步骤可以包括通过如下公式获得的相似度：

其中，

为

的2-范数运算，d表示特征向量的维度。

在步骤S150中，以相似度最大作为目标，对图像检索模型进行训练。

为了使不同模态间的局部特征向量完成对齐匹配，并且保留两个向量之间的相关性。可以首先在步骤S140中计算向量之间的相似度，然后在步骤S150中，以相似度最大作为目标来调整作为权重矩阵的weights，从而实现图像检索模型的训练，并因此实现双模态特征对齐，完成双模态之间的语义关联。

在示例性实施例中，γ ₁和γ ₂可以分别为图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量中的一个特征向量。例如，γ ₁和γ ₂可以分别为图像区域特征向量v _i和文本分词特征向量t _j，在这种情况下，v _i和t _j的相似度计算公式为：

。

在另一实施例中，γ ₁和γ ₂可以分别为图像全局特征向量和文本全局特征向量。在又一实施例中，γ ₁和γ ₂可以分别为图像全局特征向量和文本分词特征向量。在又一实施例中，γ ₁和γ ₂可以分别为图像区域特征向量和文本全局特征向量。在又一实施例中，γ ₁和γ ₂可以分别为图像全局特征向量和图像区域特征向量。

图2是示出根据本公开的图像检索模型的训练方法的详细流程图。图3是示出根据本公开的图像区域特征向量的示例。

图2中示出的步骤S110、步骤S140和步骤S150与参照图1描述的步骤S110、步骤S140和步骤S150基本相同或相似，因此将省略重复的描述。

参照图2示出的步骤S120，图像信息特征提取过程可以参照如下步骤执行。

首先，在步骤S121中，通过卷积网络组（Conv Layers）从训练图像中提取图像初始特征图。在示例实施例中，可以将输入的训练图像传入基于循环卷积神经网络的快速目标检测算法（faster R-CNN）模型检测器进行整幅图像的无差别特征提取。在实施例中，完整图像经过一组由conv+relu+pooling三种基础的运算组合而成的卷积网络组，来提取出图像初始特征图（feature maps）。此处所得图像初始特征图为完整图像通过不同的卷积核计算所得的初始特征信息。

然后，在步骤S123中，通过区域候选网络（Region Proposal Networks，RPN网络）对图像初始特征图进行图像区域划分。在示例实施例中，可以将图像初始特征图通过RPN网络提取与图像内容有关的关键区域。例如，对图像初始特征图进行图像区域划分。在实施例中，图像初始特征图通过RPN网络根据图像特征设置稠密的候选区域框，由分类分支进行判断哪些是有目标的有效区域框，哪些是不含有目标的无效区域框。从而忽略冗余的图像信息，仅挑选与图像内容有关的关键信息保留。另一方面，图像初始特征图也会参与到计算与真实边界框的偏移量的过程中，来获得精确的有效区域的位置信息。最后综合图像区域划分的结果（例如，与图像内容有关的关键区域信息以及与边界框的偏移量）来获取更精确的区域信息。若将该过程定义关键区域的个数为m，每个区域的特征维度定义为d _region，则此处输出特征矩阵维度为m×d _region。

这里所称的关键区域指的是由神经网络挖掘到的能够代表图像真正要表达的内容的前景目标。以图3示出的包括熊猫的图像为例，通过上面描述的步骤S121和步骤S123可以从包括熊猫的原始图片中提取多个用于表征图像关键区域的图像区域特征向量。例如，关键区域可以是由图3中黑色的熊猫（black panda）、白色的头（white head）、黑色的眼睛（black eye）等方框标注的区域。图像区域特征向量可以至少包括关键区域的位置信息（例如，坐标和尺寸）和关键区域内的图像像素。在实施例中，关键区域内的图像像素可以是RGB图像数据，也可以是经由预处理而获得的二进制图像数据。

接下来，在步骤S125中，将图像区域划分的结果和图像初始特征图作为输入，通过感兴趣区域池化网络（RoI Pooling网络）提取图像关键区域特征图。在示例实施例中，RoIPooling网络层将收集图像区域划分的结果和图像初始特征图两项数据作为输入，来综合提取出图像关键区域特征图。

然后，在步骤S127中，将图像关键区域特征图送入全连接层以获得图像区域特征向量。例如，在示例实施例中，将图像关键区域特征图送入全连接层，将区域特征图转化为d维的图像区域特征向量

，其中，V为图像区域特征向量，v ₁ , v ₂ ,…v _m为图像关键区域特征图的特征向量，d表示特征向量的维度，m为图像关键区域特征图的个数。

最后，在步骤S129中，通过自注意力机制聚合图像区域特征向量以获得图像全局特征向量。在示例实施例中，执行自注意力机制的方法可以以不同的关注度权重聚合所有区域特征从而获取全局表示。图像全局特征向量的计算公式为

，其中，

为图像全局特征向量，α _i为与特征向量

对应的权重。

需要说明的是，如果直接从训练图像（或图像初始特征图）中直接提取全局特征向量（例如，通过CNN网络直接从训练图像提取全局特征向量），那么在这种情况下，全局特征向量将不包括能够体现图像关键区域的信息特征，而仅包括各区域无差别的全局特征。根据本公开的示例性实施例，在步骤S129中，通过对图像区域特征向量进行聚合得到图像全局特征向量，从而更加关注图像内容中不同要素之间的关系，即更加关注与图像真正要表达的内容相关的区域信息。

首先，通过与三个权值矩阵（设为

、

、

）相乘（权值矩阵由模型训练所得），得三个不同的局部特征集：

其中，

，

，……，

，……以此类推。

然后，计算区域之间关联关系得分:

其中：

，

举例来说：

，

接着，归一化得分，稳定梯度：

，

其中，

，

，为第

个区域与其余区域关联关系的归一化得分。

接下来，获取区域关注度权重：

其中，

，为第

区域的关注度权重。

最后，聚合图像区域特征向量以获得图像全局特征向量：

参照图2示出的步骤S130，文本信息特征提取过程可以参照如下步骤执行。

首先，在步骤S131中，通过分词将训练文本划分为n个单词，其中，n为正整数，并且使用词嵌入方法将每个词转化为词向量。在示例性实施例中，可以首先使用词嵌入（Word-Embedding）将n个单词转化

维的词向量

，其中，W为词向量矩阵，w ₁ ,w ₂ ,…w _n为词向量，d _word表示词向量的维度。这里，词嵌入是指将人类自然语言表示的词转化成计算机能够理解的向量或者矩阵形式的一种自然语言处理模型。词向量是指词的向量化表示，即，将自然语言文本转化成计算机模型能够接受的词向量形式。以上关于词嵌入的描述仅为便于理解，将不作为对本公开的限制。

然后，在步骤S133中，通过双向门控循环单元（Bidirection Gated RecurrentUnit，Bi-GRU）对词向量进行编码以获得文本分词特征向量。这里，词特征向量是指将词向量作为输入通过Bi-GRU模型，通过学习句子内部的上下文关系，对词向量进行进一步编码，得到词的特征向量。也就是说，词向量不包含该文本句子里的上下文关系，而词特征向量中包含了上下文关系。

在示例实施例中，通过Bi-GRU模型对d _word维的词向量W进行编码，从而得到每个分词（n个单词中的每个单词）的d维的特征向量t。在这种情况下，可以由每个分词的词特征向量t组成文本分词特征向量，文本分词特征向量可以表示为：

，其中，T为文本分词特征向量，t ₁ ,t ₂ ,…t _n为词的特征向量。

最后，在步骤S135中，通过自注意力机制聚合文本分词特征向量以获得文本全局特征向量。在示例实施例中，利用自注意力机制时，可以聚合所有词的特征向量以获取文本全局（例如，句子全局）的特征向量。文本全局特征向量可以表示为：

，其中，

为文本全局特征向量，β _i为与词的特征向量对应的权重。关于文本全局特征向量的计算，除了聚合词的特征向量之外，与上面参照步骤S129描述的图像全局特征向量的计算相同或相似，在此省略冗余的描述。

在根据本公开的示例性实施例中，作为示例，图像全局特征向量和文本全局特征向量之间的相似度可以被表示为：

其中，

为步骤S129中获得的图像全局特征向量，

为步骤S135中获得的文本全局特征向量。

此外，作为又一示例，可以计算图像区域特征向量

和文本分词特征向量

之间的相似度。与图像全局特征向量和文本全局特征向量之间的相似度计算方法略有不同，一种模态的局部特征需要结合另一模态的局部特征，也就是说，可以将图像区域特征向量更新为基于文本分词特征向量生成的新的图像区域特征向量。同样地，可以将文本分词特征向量更新为基于图像区域特征向量生成的新的文本分词特征向量。具体地，以文本模态参与图像模态的特征生成为例：

首先，计算图像区域特征向量与文本分词特征向量的余弦相似度

：

其次，使用softmax归一化处理余弦相似度并获取注意力权重

：

通过上述公式获得的注意力权重

使得多个图像区域特征向量仅与与其最接近的文本分词特征向量之间产生关联，从而实现多个图像区域特征向量与多个文本分词特征向量之间的对齐。

然后，生成基于文本分词特征向量的图像区域特征向量（关键区域的特征向量）

：

代入上面示出的相似度计算公式，那么图像区域特征向量

和文本分词特征向量

的相似度可由下式表示：

在这种情况下，由于新的图像区域特征向量

中包含了与该图像区域最接近的文本分词特征，因此可以减少或消除因文本冗余造成的匹配错误，并可以使得图像区域特征向量

和文本分词特征向量

的相似度能够体现捕获特定单词与其对应图像区域之间的相关性，利用更细粒度的视觉语义对齐来提高相似度的预测。

图像模态参与文本模态的特征生成方法与上述方法相同或相似，因此在此省略冗余的描述。

图4是示出根据本公开的使用图像检索模型的检索方法的流程图。

参照图4，本公开的示例性实施例还提供了一种使用图像检索模型的检索方法。

在步骤S210中，获取待检索数据，待检索数据包括待检索图像和待检索文本中的至少一种。

在步骤S220中，基于待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和由所述图像区域特征向量生成的待检索全局特征向量。在实施例中，如果待检索数据为待检索图像，则可以执行参照图1和图2所描述的图像信息特征提取过程；如果待检索数据为待检索文本，则可以执行参照图1和图2所描述的文本信息特征提取过程；如果待检索数据包括待检索图像和待检索文本两者，则可以将待检索图像与待检索文本分离，并分别执行参照图1和图2所描述的图像信息特征提取过程以及参照图1和图2所描述的文本信息特征提取过程。在此省略冗余的描述。

在步骤S230中，基于预先设置的图像数据库中的图像的图像区域特征向量和由图像区域特征向量生成的图像全局特征向量，以及待检索局域特征向量和所述待检索全局特征向量，通过图像检索模型获得相似度。需要说明的是，对于预先设置的图像数据库中的图像，可以预先执行参照图1和图2所描述的图像信息特征提取过程，从而获得图像数据库中的图像的图像区域特征向量和图像全局特征向量。

其中，通过图像检索模型获得相似度的步骤包括通过如下公式获得所述相似度：

其中，

表示所述相似度，γ ₁和γ ₂分别为所述图像区域特征向量、所述图像全局特征向量、所述待检索局域特征向量和所述待检索全局特征向量中的一个特征向量，weights为图像检索模型，被构造为用于获取相似度向量的权重矩阵，

为

的2-范数运算，d表示特征向量的维度。

在步骤S240中，按照所述相似度由大到小的规则排序生成检索结果的候选队列。在另一实施例中，获得相似度的步骤还可以包括通过全连接网络层将作为向量的相似度转换为作为标量的最终相似度，并且按照最终相似度由大到小的规则排序生成检索结果的候选队列。

尽管未在图中示出，本公开还提供了一种使用图像检索模型的检索方法。检索方法包括：获取待检索数据，待检索数据包括待检索图像和待检索文本中的至少一种；基于待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和待检索全局特征向量；基于预先设置的图像数据库中的图像的图像区域特征向量和图像全局特征向量，以及待检索局域特征向量和所述待检索全局特征向量，通过图像检索模型获得相似度；并且按照所述相似度由大到小的规则排序生成检索结果的候选队列。在实施例中，通过图像检索模型获得相似度的步骤包括通过如下公式获得相似度：

其中，

为

的2-范数运算，d表示特征向量的维度，其中，当待检索数据包括待检索文本，通过文本信息特征提取过程至少提取文本分词特征向量

，且γ ₁为图像区域特征向量

，作为待检索局域特征向量的γ ₂为所述文本分词特征向量

时，所述相似度通过下式获得：

其中，

，

，

，

其中，

表示基于所述文本分词特征向量

生成的更新的图像区域特征向量，

表示注意力权重，

表示所述图像区域特征向量

与文本分词特征向量

的余弦相似度。

当待检索数据是待检索图像时执行图像信息特征提取过程。图像信息特征提取过程包括：通过卷积网络组从所述待检索图像中提取图像初始特征图；通过区域候选网络对所述图像初始特征图进行图像区域划分；将所述图像区域划分的结果和所述图像初始特征图作为输入，通过感兴趣区域池化网络提取图像关键区域特征图；将所述图像关键区域特征图送入全连接层以获得待检索图像区域特征向量作为所述待检索局域特征向量；并且通过自注意力机制聚合所述图像区域特征向量以获得待检索图像全局特征向量作为所述待检索全局特征向量。

在实施例中，待检索图像区域特征向量表示为

其中，V为待检索图像区域特征向量，v ₁ ,v ₂ ,…v _m为图像关键区域特征图的特征向量，m为所述图像关键区域特征图的个数。

在实施例中，待检索图像全局特征向量表示为

其中，

为待检索图像全局特征向量，α _i为与特征向量

对应的权重。

上述执行图像信息特征提取过程的步骤与参照图2描述的步骤S121、S123、S125、S127、S129相同或相似，在此省略冗余的描述。

当待检索数据是待检索文本时执行文本信息特征提取过程。文本信息特征提取过程包括：通过分词将所述待检索文本划分为n个单词，其中，n为正整数；使用词嵌入方法将n个单词转化为词向量；通过双向门控循环单元对所述词向量进行编码以获得待检索文本分词特征向量作为所述待检索局域特征向量；并且通过自注意力机制聚合所述文本分词特征向量以获得待检索文本全局特征向量作为所述待检索全局特征向量。

在实施例中，词向量表示为

其中，W为词向量矩阵，w ₁ ,w ₂ ,…w _n为词向量，d _word表示词向量的维度，

通过双向门控循环单元对词向量进行编码以获得待检索文本分词特征向量的步骤可以包括：通过双向门控循环单元对词向量进行编码以获得n个单词中每个单词的包含上下文关系的词特征向量，并由n个单词的词特征向量组成待检索文本分词特征向量。所述待检索文本分词特征向量表示为

其中，T为所述待检索文本分词特征向量，t ₁ ,t ₂ ,…t _n为词的特征向量。

在实施例中，待检索文本全局特征向量表示为

其中，

为所述文本全局特征向量，β _i为与所述词的特征向量对应的权重。

上述执行文本信息特征提取过程的步骤与参照图2描述的步骤S131、S133、S135相同或相似，在此省略冗余的描述。

根据本公开的示例实施例，获得相似度的步骤还包括通过全连接网络层将作为向量的相似度转换为作为标量的最终相似度，并且按照最终相似度由大到小的规则排序生成检索结果的候选队列。

根据本公开的一个或多个示例性实施例，通过对图像的区域特征进行提取，并基于区域特征建立图像的全局特征向量，提高检测结果准确度。因此，能够解决传统检索算法中对图像特征进行全局无差别提取，而忽略图像内容中不同要素之间的关系特征。

根据本公开的一个或多个示例性实施例，基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量，通过图像检索模型获得相似度；以相似度最大作为目标，对图像检索模型进行训练，从而完成双模态（图像、文本）之间的语义关联。也就是说，在训练过程中，图像检索模型将结合图像和文本两种模态展开对应的局部特征学习，关注不同模态下的区域要素之间的关系，以此来弥补传统技术只能完成单一模态检索的缺陷。

根据本公开的一个或多个示例性实施例，通过训练图像检索模型，仅需要选取训练图像和用于描述训练图像的训练文本，而不用对图像数据库中的全量图像进行人工标注。因此，能够减少人工标注工作。本公开在进行特征提取工作时，更多的是关注图像内容中具体要素之间的关联关系，对于图像整体的特征提取也是基于区域特征的进行聚合得到的，因此，能够忽略掉其他无关信息（例如光线、背景、占比等因素）的影响，而更关注图像真正要表达的内容，因此检索结果相比于传统基于内容的检索技术更具有针对性和准确度。

图5是示出根据本公开的图像检索模型的训练装置10的示意图。

参照图5，本公开的示例性实施例还提供了一种图像检索模型的训练装置10，所述训练装置10包括：数据获取单元110、图像特征提取单元120、文本特征提取单元130、相似度计算单元140和训练单元150。

数据获取单元110被配置为获取训练图像和用于描述训练图像的训练文本。数据获取单元110被配置为用来执行参照图1和图2中的步骤S110描述的方法。

图像特征提取单元120被配置为基于训练图像通过图像信息特征提取过程获得图像区域特征向量和由图像区域特征向量生成的图像全局特征向量。图像特征提取单元120被配置为用来执行参照图1和图2中的步骤S120描述的方法。

文本特征提取单元130被配置为基于训练文本通过文本信息特征提取过程获得文本分词特征向量和由文本分词特征向量生成的文本全局特征向量。文本特征提取单元130被配置为用来执行参照图1和图2中的步骤S130描述的方法。

相似度计算单元140被配置为基于图像区域特征向量、图像全局特征向量、文本分词特征向量和文本全局特征向量，通过图像检索模型获得相似度。相似度计算单元140被配置为用来执行参照图1和图2中的步骤S140描述的方法。

训练单元150被配置为将相似度最大作为目标，对图像检索模型进行训练。

在示例实施例中，通过图像检索模型获得相似度的步骤与参照图1至图5描述的获得相似度的步骤相同或相似。

关于上述实施例中的装置，其中各个模块/单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是示出根据本公开的使用图像检索模型的检索装置20的示意图。

参照图6，本公开的示例性实施例还提供了一种使用图像检索模型的检索装置。所述检索装置20包括：输入单元210、输入数据特征提取单元220、相似度计算单元230、排序单元240。

输入单元210被配置为获取待检索数据，待检索数据包括待检索图像和待检索文本中的至少一种。输入单元210被配置为用来执行参照图4中的步骤S210描述的方法。

输入数据特征提取单元220被配置为基于待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和待检索全局特征向量。输入数据特征提取单元220被配置为用来执行参照图4中的步骤S220描述的方法。

相似度计算单元230被配置为基于预先设置的图像数据库中的图像的图像区域特征向量和由图像区域特征向量生成的图像全局特征向量，以及待检索局域特征向量和待检索全局特征向量，通过图像检索模型获得相似度。相似度计算单元230被配置为用来执行参照图4中的步骤S230描述的方法。

排序单元240按照相似度由大到小的规则排序生成检索结果的候选队列。排序单元240被配置为用来执行参照图4中的步骤S240描述的方法。

在示例实施例中，通过图像检索模型获得相似度的步骤与参照图1至图4描述的获得相似度的步骤相同或相似。

图7是示出根据本公开的示例性实施例的电子设备700的框图。

参照图7，电子设备700包括至少一个存储器701和至少一个处理器702，所述至少一个存储器701存储计算机可执行指令，当计算机可执行指令被至少一个处理器702执行时，促使至少一个处理器702执行根据本公开的实施例的图像检索模型的训练方法和使用图像检索模型的检索方法。

作为示例，电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令的装置。这里，电子设备700并非必须是单个电子设备，还可以是任何能够单独或联合执行上述指令（或指令集）的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程（例如，经由无线传输）以接口互联的便携式电子设备。

在电子设备700中，处理器702可包括中央处理器（CPU）、图形处理器（GPU）、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器702可运行存储在存储器701中的指令或代码，其中，存储器701还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器701可与处理器702集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器701可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器701和处理器702可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器702能够读取存储在存储器中的文件。

此外，电子设备700还可包括视频显示器（诸如，液晶显示器）和用户交互接口（诸如，键盘、鼠标、触摸输入装置等）。电子设备700的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当存储在计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的实施例的图像检索模型的训练方法和使用图像检索模型的检索方法。这里的计算机可读存储介质的示例包括：只读存储器（ROM）、随机存取可编程只读存储器（PROM）、电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器（HDD）、固态硬盘（SSD）、卡式存储器（诸如，多媒体卡、安全数字（SD）卡或极速数字（XD）卡）、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种图像检索模型的训练方法，其特征在于，所述训练方法包括：

获取训练图像和用于描述所述训练图像的训练文本；

基于所述训练图像通过图像信息特征提取过程获得图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量；

基于所述训练文本通过文本信息特征提取过程获得文本分词特征向量和由所述文本分词特征向量生成的文本全局特征向量；

基于所述图像区域特征向量、所述图像全局特征向量、所述文本分词特征向量和所述文本全局特征向量，通过图像检索模型获得相似度；

以所述相似度最大作为目标，对图像检索模型进行训练，

其中，

表示所述相似度，γ ₁和γ ₂分别为所述图像区域特征向量、所述图像全局特征向量、所述文本分词特征向量和所述文本全局特征向量中的一个特征向量，weights为图像检索模型，被构造为用于获取相似度向量的权重矩阵，

为

的2-范数运算，d表示特征向量的维度，

其中，当γ ₁为图像区域特征向量

，γ ₂为文本分词特征向量

时，所述相似度通过下式获得：

其中，

，

，

，

其中，

表示基于所述文本分词特征向量

生成的更新的图像区域特征向量，

表示注意力权重，

表示所述图像区域特征向量

与文本分词特征向量

的余弦相似度。

2.根据权利要求1所述的方法，其特征在于，所述图像信息特征提取过程包括：

通过卷积网络组从所述训练图像中提取图像初始特征图；

通过区域候选网络对所述图像初始特征图进行图像区域划分；

将所述图像区域划分的结果和所述图像初始特征图作为输入，通过感兴趣区域池化网络提取图像关键区域特征图；

将所述图像关键区域特征图送入全连接层以获得所述图像区域特征向量；并且

通过自注意力机制聚合所述图像区域特征向量以获得所述图像全局特征向量。

3.根据权利要求2所述的方法，其特征在于，所述图像区域特征向量表示为

其中，V为所述图像区域特征向量，v ₁ ,v ₂ ,…v _m为图像关键区域特征图的特征向量，m为所述图像关键区域特征图的个数，

所述图像全局特征向量表示为

其中，

为所述图像全局特征向量，α _i为与特征向量

对应的权重。

4.根据权利要求1所述的方法，其特征在于，所述文本信息特征提取过程包括：

通过分词将所述训练文本划分为n个单词，其中，n为正整数；

使用词嵌入方法将所述n个单词转化为词向量；

通过双向门控循环单元对所述词向量进行编码以获得所述文本分词特征向量；并且

通过自注意力机制聚合所述文本分词特征向量以获得所述文本全局特征向量。

5.根据权利要求4所述的方法，其特征在于，所述词向量表示为

所述通过双向门控循环单元对所述词向量进行编码以获得所述文本分词特征向量的步骤包括：通过双向门控循环单元对所述词向量进行编码以获得所述n个单词中每个单词的包含上下文关系的词特征向量，并由所述n个单词的所述词特征向量组成所述文本分词特征向量，所述文本分词特征向量表示为

其中，T为所述文本分词特征向量，t ₁ ,t ₂ ,…t _n为所述词特征向量，

所述文本全局特征向量表示为

其中，

6.一种使用图像检索模型的检索方法，其特征在于，所述检索方法包括：

获取待检索数据，所述待检索数据包括待检索图像和待检索文本中的至少一种；

基于所述待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和由所述待检索局域特征向量生成的待检索全局特征向量；

基于预先设置的图像数据库中的图像的图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量，以及待检索局域特征向量和所述待检索全局特征向量，通过图像检索模型获得相似度；并且

按照所述相似度由大到小的规则排序生成检索结果的候选队列，

其中，

为

的2-范数运算，d表示特征向量的维度，

其中，当所述待检索数据包括待检索文本，通过所述文本信息特征提取过程至少提取文本分词特征向量

，且γ ₁为图像区域特征向量

，作为所述待检索局域特征向量的γ ₂为所述文本分词特征向量

时，所述相似度通过下式获得：

其中，

，

，

，

其中，

表示基于所述文本分词特征向量

生成的更新的图像区域特征向量，

表示注意力权重，

表示所述图像区域特征向量

与文本分词特征向量

的余弦相似度。

7.根据权利要求6所述的方法，其特征在于，所述待检索数据是待检索图像，所述图像信息特征提取过程包括：

通过卷积网络组从所述待检索图像中提取图像初始特征图；

将所述图像关键区域特征图送入全连接层以获得待检索图像区域特征向量作为所述待检索局域特征向量；并且

通过自注意力机制聚合所述图像区域特征向量以获得待检索图像全局特征向量作为所述待检索全局特征向量。

8.根据权利要求7所述的方法，其特征在于，所述待检索图像区域特征向量表示为

其中，V为所述待检索图像区域特征向量，v ₁ ,v ₂ ,…v _m为图像关键区域特征图的特征向量，m为所述图像关键区域特征图的个数，

所述待检索图像全局特征向量表示为

其中，

为所述待检索图像全局特征向量，α _i为与特征向量

对应的权重。

9.根据权利要求6所述的方法，其特征在于，所述待检索数据是待检索文本，所述文本信息特征提取过程包括：

通过分词将所述待检索文本划分为n个单词，其中，n为正整数；

使用词嵌入方法将所述n个单词转化为词向量；

通过双向门控循环单元对所述词向量进行编码以获得待检索文本分词特征向量作为所述待检索局域特征向量；并且

通过自注意力机制聚合所述文本分词特征向量以获得待检索文本全局特征向量作为所述待检索全局特征向量。

10.根据权利要求9所述的方法，其特征在于，所述词向量表示为

所述通过双向门控循环单元对所述词向量进行编码以获得待检索文本分词特征向量的步骤包括：通过双向门控循环单元对所述词向量进行编码以获得所述n个单词中每个单词的包含上下文关系的词特征向量，并由所述n个单词的所述词特征向量组成所述待检索文本分词特征向量，所述待检索文本分词特征向量表示为

其中，T为所述待检索文本分词特征向量，t ₁ ,t ₂ ,…t _n为词的特征向量，

所述待检索文本全局特征向量表示为

其中，

11.根据权利要求6所述的方法，其特征在于，所述获得相似度的步骤还包括通过全连接网络层将作为向量的相似度转换为作为标量的最终相似度，并且

按照最终相似度由大到小的规则排序生成检索结果的候选队列。

12.一种图像检索模型的训练装置，其特征在于，所述装置包括：

数据获取单元，被配置为获取训练图像和用于描述所述训练图像的训练文本；

图像特征提取单元，被配置为基于所述训练图像通过图像信息特征提取过程获得图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量；

文本特征提取单元，被配置为基于所述训练文本通过文本信息特征提取过程获得文本分词特征向量和由所述文本分词特征向量生成的文本全局特征向量；

相似度计算单元，被配置为基于所述图像区域特征向量、所述图像全局特征向量、所述文本分词特征向量和所述文本全局特征向量，通过图像检索模型获得相似度；

训练单元，所述相似度最大作为目标，对图像检索模型进行训练，

其中，

为

的2-范数运算，d表示特征向量的维度，

其中，当γ ₁为图像区域特征向量

，γ ₂为文本分词特征向量

时，所述相似度通过下式获得：

其中，

，

，

，

其中，

表示基于所述文本分词特征向量

生成的更新的图像区域特征向量，

表示注意力权重，

表示所述图像区域特征向量

与文本分词特征向量

的余弦相似度。

13.一种使用图像检索模型的检索装置，其特征在于，所述装置包括：

输入单元，被配置为获取待检索数据，所述待检索数据包括待检索图像和待检索文本中的至少一种；

输入数据特征提取单元，被配置为基于所述待检索数据通过图像信息特征提取过程和文本信息特征提取过程中的至少一者获得待检索局域特征向量和由所述待检索局域特征向量生成的待检索全局特征向量；

相似度计算单元，被配置为基于预先设置的图像数据库中的图像的图像区域特征向量和由所述图像区域特征向量生成的图像全局特征向量，以及所述待检索局域特征向量和所述待检索全局特征向量，通过图像检索模型获得相似度；并且

排序单元，按照所述相似度由大到小的规则排序生成检索结果的候选队列，

其中，

为

的2-范数运算，d表示特征向量的维度，

，且γ ₁为图像区域特征向量

时，所述相似度通过下式获得：

其中，

，

，

，

其中，

表示基于所述文本分词特征向量

生成的更新的图像区域特征向量，

表示注意力权重，

表示所述图像区域特征向量

与文本分词特征向量

的余弦相似度。

14.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到11中的任一所述的方法。

15.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器如权利要求1到11中的任一所述的方法。