CN112287159B

CN112287159B - 检索方法、电子设备及计算机可读介质

Info

Publication number: CN112287159B
Application number: CN202011506349.4A
Authority: CN
Inventors: 葛旭日; 冀志龙; 刘霄
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-09
Anticipated expiration: 2040-12-18
Also published as: CN112287159A

Abstract

本发明实施例公开了一种检索方法、电子设备及计算机可读介质：本发明实施例中，第一尺度以及第二尺度能够表示不同的特征尺度或称为特征粒度，由于所述第二尺度低于所述第一尺度，因此，图像数据对应的第二特征向量携带了更为丰富的图像信息，例如，图像数据对应的第一特征向量可能只表征“帽子”，而图像数据对应的第二特征向量则可表征“黑色棒球帽”。其次，利用第二特征向量，通过预设的注意力模块对文本数据对应的第三特征向量进行增强，获取增强文本特征向量，能够增加图像数据和文本数据之间的关联，减少图像数据和文本数据之间的语义差距，从而使得跨模态检索结果更加准确。

Description

检索方法、电子设备及计算机可读介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种检索方法、电子设备及计算机可读介质。

背景技术

随着人工智能的迅速发展，多媒体和计算机视觉技术也得到了迅速发展。其中，跨模态检索（即图文匹配）在多媒体应用中扮演着重要的角色。例如，通过图像搜索文本，图像-文本匹配的目标是在给定查询图像的情况下检索最相关的文本；或者，通过文本搜索图像，文本-图像匹配的目标是在给定查询文本的情况下检索到最匹配的图像。

相关技术中，跨模态检索模型通常都是通过直接去挖掘粗粒度的图像特征表示和文本特征表示之间的语义对应关系来实现检索。然而，这种检索方式准确度较低，比如：给定查询文本为“红帽子”，但包含有红帽子和绿帽子的不同图像中，“红帽子”和“绿帽子”的图像特征表示指示两者均为帽子，其跨模态检索结果虽能为帽子，但却无法得到帽子更为具体的信息，如可能返回绿帽子图像的匹配结果。

发明内容

本发明提供了一种检索方案，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种检索方法，所述方法包括：获取图像数据对应的第一尺度的第一特征向量、第二尺度的第二特征向量，以及文本数据对应的第三特征向量，所述第二尺度低于所述第一尺度；通过基于注意力机制的注意力模块，结合所述第二特征向量对所述第三特征向量进行特征增强，获取增强文本特征向量，其中，所述注意力模块通过文本数据样本对应的特征向量和图像数据样本对应的第二尺度的特征向量进行基于注意力机制的训练得到；基于所述增强文本特征向量和所述第一特征向量，计算所述图像数据与所述文本数据之间的相似度；根据所述相似度，确定检索结果。

根据本发明实施例的第二方面，提供了一种电子设备，所述设备包括：一个或多个处理器；计算机可读介质，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的检索方法。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的检索方法。

根据本发明实施例提供的检索方案：首先获取图像数据对应的第一尺度的第一特征向量、第二尺度的第二特征向量，以及文本数据对应的第三特征向量，所述第二尺度低于所述第一尺度；然后通过基于注意力机制的注意力模块，对所述第三特征向量进行特征增强，获取增强文本特征向量，其中，所述注意力模块通过文本数据样本对应的特征向量和图像数据样本对应的第二尺度的特征向量进行基于注意力机制的训练得到；基于所述增强文本特征向量和所述第一特征向量，计算所述图像数据与所述文本数据之间的相似度，并根据所述相似度，确定检索结果。在本方案中，第一尺度以及第二尺度能够表示不同的特征尺度或称为特征粒度，由于所述第二尺度低于所述第一尺度，也即，第二尺度的第二特征向量相较于第一尺度的第一特征向量具有更细粒度，因此，图像数据对应的第二特征向量携带了更为丰富的图像信息，例如，图像数据对应的第一特征向量可能只表征“帽子”，而图像数据对应的第二特征向量则可表征“黑色棒球帽”。因此，通过获取的第二尺度的第二特征向量，能够得到对应图像的细粒度的语义表示，其不同于第一尺度的第一特征向量所表征的较粗粒度的图像视觉外观特征。其次，利用第二特征向量，通过预设的注意力模块对文本数据对应的第三特征向量进行增强，获取增强文本特征向量，能够增加图像数据和文本数据之间的关联，减少图像数据和文本数据之间的语义差距，并且，通过第二特征向量，能够挖掘第三特征向量对应的文本之间的关联程度，从而可以加强相关的文本特征表示，即对第三特征向量进行增强。然后，再通过增强文本特征向量，与图像数据对应的第一特征向量进行相似度计算，可获得更准确的相似度结果，从而使得跨模态检索结果更加准确。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为根据本发明实施例一的一种检索方法的步骤流程图；

图2为根据本发明实施例二的一种检索方法的步骤流程图；

图3为根据本发明实施例二的一种特征提取图像区域示意图；

图4为根据本发明实施例提供的一种检索方法的模块示意图；

图5为根据本发明实施例三的一种检索方法的步骤流程图；

图6为根据本发明实施例四的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅配置为解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例一

参照图1，示出了根据本发明实施例一的一种检索方法的步骤流程图。

本实施例的检索方法包括以下步骤：

步骤101、获取图像数据对应的第一尺度的第一特征向量、第二尺度的第二特征向量，以及文本数据对应的第三特征向量，所述第二尺度低于所述第一尺度。

在本实施例中，第一特征向量和第二特征向量可以表征图像数据的内容特征，第三特征向量可以表征文本数据的内容特征。其中，因第二尺度低于第一尺度，故第二特征向量可表征更细粒度的图像特征。示例性的：若有一幅紫色针织帽的图像，其对应的第一尺度的第一特征向量表征的图像内容为“帽子”，第二尺度的第二特征向量表征的图像内容为“紫色针织帽”。可见，通过第二特征向量能够更加细粒度地表征图像的内容特征。

而对于文本数据，通过特征提取，可获得对应的文本特征表达，即第三特征向量。

基于此，在后续进行跨模态检索时，基于待检索的目标对象对应的特征向量、和需要与待检索的目标对象相匹配的模态下的特征向量，即可基于这些特征向量进行符合实际需求的检索。

步骤102、通过基于注意力机制的注意力模块，结合所述第二特征向量对所述第三特征向量进行特征增强，获取增强文本特征向量。

其中，所述注意力模块是预先通过文本数据样本对应的特征向量和图像数据样本对应的第二尺度的特征向量进行基于注意力机制的训练得到的。由于图像数据样本对应的第二尺度的特征向量，能够更加细粒度的体现图像数据的内容，因此，通过基于注意力机制的注意力模块，对图像数据样本对应的第二尺度的特征向量与文本数据样本对应的特征向量进行注意力计算，能够增强文本数据样本对应的特征向量中与图像数据内容关联性较强的文本内容的表征，获得增强文本特征向量。即，基于注意力机制的注意力模块，结合第二特征向量，能够挖掘图像数据与第三特征向量对应的文本之间的关联程度，从而可以加强相关的文本特征表示，即对第三特征向量进行增强，得到增强文本特征向量。

步骤103、基于所述增强文本特征向量和所述第一特征向量，计算所述图像数据与所述文本数据之间的相似度。

在本实施例中，可以利用任一能够实现图片文本的相似度计算的模型，对所述增强文本特征向量和所述第一特征向量进行相似度的计算，本实施例不做限制。可以理解，相似度值越高，表明图像数据的内容与文本数据的匹配度越高。

步骤104、根据所述相似度，确定检索结果。

在本实施例中，可以将相似度计算结果高于预设相似度阈值的检索内容，确定为检索结果并向用户展示。其中，预设相似度阈值可以通过人工经验或者多次实验等方式获取并设置，本实施例不做具体限定。当然，也可以采用其它方式确定检索结果，例如，根据相似度进行排序，将排序最前的结果确定为检索结果。

本实施例的检索方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端（如手机、PAD等）和PC机等。

实施例二

下面基于实施例一，对本发明实施例提供的方案进行进一步说明。

参照图2，示出了根据本发明实施例二的一种检索方法的步骤流程图。

在本实施例中，以输入图像检索文本为例进行说明，即待检索的目标对象为待检索图像，本实施例的检索方法包括以下步骤：

步骤310、通过图像特征提取网络对所述待检索图像分别进行第一尺度的特征提取和第二尺度的特征提取，获得所述待检索图像对应的第一尺度的第一特征向量和第二尺度的第二特征向量；并且，从预设的文本数据库中获得文本数据对应的第三特征向量。

在本实施例中，图像特征提取网络可以是深度卷积神经网络，例如Faster-RCNN和Densecap；预设的文本数据库中存储了用于表征大量文本数据的内容的特征向量，因此，可以直接从预设的文本数据库中获取文本数据对应的第三特征向量。在对待检索图像进行特征提取时，可以采用Faster-RCNN对待检索图像进行第一尺度的特征提取，获得待检索图像对应的第一尺度的第一特征向量；可以采用Densecap对待检索图像进行第二尺度的特征提取，获得待检索图像对应的第二尺度的第二特征向量。本实施例通过图像特征提取网络对待检索图像进行特征提取，能够获得不同尺度的准确的图像特征。

具体地，在通过图像特征提取网络对所述待检索图像分别进行第一尺度的特征提取和第二尺度的特征提取，获得所述待检索图像对应的第一尺度的第一特征向量和第二尺度的第二特征向量时：可以对所述待检索图像进行第一尺度的图像特征提取，获得所述待检索图像对应的第一特征向量；通过密集型区域描述生成模型对所述待检索图像进行第二尺度的特征提取，获得所述待检索图像的区域描述信息，并将所述区域描述信息输入长短期记忆神经网络进行特征编码，得到所述待检索图像对应的第二特征向量。

在本实施例中，可以对待检索图像以区域为单位进行区域特征提取，示例性地，如图3所示的图像，可以划分为6个区域（每个方框表示一个区域）；经过第一尺度的图像特征提取后，可以获得6个第一尺度的第一特征向量，经过密集型区域描述生成模型进行第二尺度的特征提取后，可以获得与上述6个区域对应的区域描述信息。

例如教育领域中的以图搜题场景，则待检索图像为包含题目的图像，可以利用区域级图像特征提取模型，如Faster-RCNN对待检索图像进行粗粒度（第一尺度）的图像区域的特征提取，并通过多个卷积层以及最终的全连接层输出2048维的特征向量，作为第一特征向量。本领域技术人员可以明了，上述输出2048维的特征向量仅是一种示例，实际应用中可以根据需求进行维度的设置。

参照图3，若待检索图像为图3所示的图像，可以利用Faster-RCNN对该图像进行第一尺度的特征提取。预先设置Faster-RCNN输出为K个区域特征向量（即K个第一特征向量），其中K为超参数，该参数可根据人工经验进行调整，这里可以设置为36，以充分满足一张图像中的区域划分需求。本实施例中，以K=6为示例进行说明，即通过Faster-RCNN对图3所示的图像进行特征提取后，可以得到6个区域特征向量，将区域特征向量记为

，则可以通过以下表达式对其进行表示：

其中，

表示第i个区域图像，

表示第i个区域图像对应的区域特征向量，f表示任意适当的用于维度变换的公式，i=1，2，……，n，其中，n表示区域图像的数量。

上述通过Faster-RCNN进行图像区域的特征提取，能够更好的提取图像中显著的区域特征。

同时，可以利用Densecap对图3所示的图像进行第二尺度，即更细粒度的特征提取，生成该图像对应的区域描述信息，可以理解，此处生成的区域描述信息的个数，与上述区域描述特征向量的个数相同，参考图3，待检测图像被分为6个区域，则会生成6个区域特征向量，以及6个区域描述信息。接着将该6个区域描述信息输入LSTM（Long Short-TermMemory，长短期记忆神经）网络中进行特征编码，得到区域描述特征向量（第二特征向量），作为中介特征向量，记为

。公式表达如下：

D=Densecap（I）

其中，Densecap（）表示密集型区域描述生成模型，I表示输入的待检测图像，LSTM（）表示LSTM模型，Wi为可学习的参数，di表示第i个区域图像的区域描述信息，D表示所有区域描述的集合，

表示第i个区域图像的区域描述信息对应的区域描述特征向量。

可以理解，上述通过Faster-RCNN对待检索图像进行第一尺度的图像特征提取，和通过密集型区域描述生成模型（Densecap）对待检索图像进行第二尺度的图像特征提取，两者的执行不分先后。

从预设的文本数据库中获取文本数据对应的第三特征向量，由前述可知，预设的文本数据库中存储了大量文本数据及表征其内容的文本特征向量，且，该文本特征向量可以是预先利用双向GRU（Gate Recurrent Unit；门控循环单元）提取的、词级别的文本特征向量。因此，可以直接从预设的文本数据库中获取第三特征向量，无需再对文本数据进行特征提取。

上述通过密集型区域描述生成模型获得更细粒度的图像表示——区域描述特征向量（第二特征向量），使得对图像的内容获取更加精细并多样化，为后续得到准确的检索结果提供了前提条件。

步骤311、通过基于注意力机制的注意力模块，采用所述第二特征向量作为引导，与词级别的所述第三特征向量进行注意力机制计算，根据计算结果获取增强文本特征向量。

具体地，可以将所述第二特征向量和词级别的所述第三特征向量输入基于注意力机制的注意力模块；然后对所述第二特征向量进行映射后取平均，得到平均第二特征向量；接着对所述平均第二特征向量，与所述第三特征向量进行关联度计算，得到所述平均第二特征向量与所述第三特征向量的关联值；基于所述关联值以及预设的平衡参数，获取增强文本特征向量。

本实施例中，参照图4，第二特征向量以

表示，第三特征向量以

表示。将第二特征向量

以及第三特征向量

输入注意力模块后，注意力模块首先对第二特征向量的维度进行线性映射，使得第二特征向量的维度得到统一，然后求平均得到平均第二特征向量，该平均第二特征向量记为

，然后利用点积的计算方式并基于softmax函数计算

和每个第三特征向量的关联得分，进而根据此得分进行引导，增强与第二特征向量相似性较高的第三特征向量的特征表示，减弱与第二特征向量相似性较低的第三特征向量的特征表示。即，可以理解为，通过当前特征向量，挖掘第二特征向量对应的区域描述信息与第三特征向量对应的文本之间潜在的关联程度，并根据此关联程度加强相关文本特征表示，得到增强文本特征向量。

公式如下：

；

其中，

表示平均第二特征向量（第二特征向量的平均），

表示平均池，Wg为可学习映射参数，

表示区域描述特征向量（第二特征向量）。

；

其中，

表示第j个单个字词和第i个区域描述特征向量的潜在关联关系，

表示softmax函数，

表示平均第二特征向量，

表示第j个单个字词对应的第三特征向量，N表示文本中单个字词的个数，exp表示以自然常数e为底的指数函数，其中，单个字词可以是一个字，一个词，或者一个词组等。

；

表示第i个单个字词与其他单个字词特征融合后，获得的新的第i个单个字词的特征，

表示第j个单个字词对应的第三特征向量，N表示文本中单个字词的个数。

；

其中，β为平衡参数，

表示第i个单个字词对应的第三特征向量，

表示增强文本特征向量，是将新的第i个单个字词的特征与第i-1个单个字词的特征，按照权重β进行计算得到的。

上述基于区域描述特征向量（第二特征向量）作为中介特征向量进行引导，并通过预先训练好的基于注意力机制的注意力模块，与词级别的第三特征向量文本向量进行注意力机制计算，增强了与第二特征向量相似性较高的第三特征向量的特征表示，减弱了与第二特征向量相似性较低的第三特征向量的特征表示，也可以理解为通过当前特征向量，挖掘第二特征向量对应的区域描述信息与第三特征向量对应的文本之间潜在的关联程度，并根据此关联程度加强相关文本特征表示，使得能够获得更加有效的文本数据的特征向量。

步骤312、将所述增强文本特征向量和所述第一特征向量，输入基于图的图片文本对应计算模型，计算得到所述图像数据与所述文本数据之间的相似度。

具体地，可以将所述增强文本特征向量和所述第一特征向量，输入基于图的图片文本对应计算模型，构建所述增强文本特征向量对应的文本数据图以及所述第一特征向量对应的图像数据图；然后进行所述图像数据图与所述文本数据图的相似度计算，得到所述图像数据与所述文本数据之间的相似度。

在本实施例中，在得到增强文本特征向量

之后，可以将增强文本特征向量以及待检索图像对应的第一特征向量，输入基于图的图片文本对应计算模型，例如基于图的跨模态相似度计算网络模型——GSMN模型，通过GSMN模型首先对输入的增强文本特征向量以及待检索图像对应的第一特征向量进行图像构建，得到增强文本特征向量对应的文本数据图

，以及待检索图像的第一特征向量对应的图像数据图

。然后采用余弦相似度进行多模态特征相似度得分计算，即对文本数据图

以及图像数据图

进行相似度计算，公式如下：

；

其中，

表示增强文本特征向量对应的文本数据图

，以及第一特征向量对应的图像数据图

之间的相似度。

表示基于图的跨模态相似度计算网络模型计算待检索图像与增强文本特征向量对应的文本的相似度。

表示基于图的跨模态相似度计算网络模型计算增强文本特征向量对应的文本到待检索图像的相似度。

和

表示计算过程中的参数，i表示图像，t表示文本。

上述通过GSMN模型对增强文本特征向量以及待检索图像对应的第一特征向量进行相似度计算，能够获得更加准确的计算结果。

步骤313、根据所述相似度，确定检索结果。

本发明实施例，通过Faster-RCNN对待检索图像进行第一尺度的特征提取，能够更好的提取待检索图像中显著的区域特征；通过密集型区域描述生成模型（Densecap）对待检索图像进行第二尺度的特征提取，获得更细粒度的图像表示——区域描述特征向量（第二特征向量），使得对图像的内容获取更加精细并多样化；并通过注意力模型，基于第二特征向量，挖掘第二特征向量对应的区域描述信息与第三特征向量对应的文本之间潜在的关联程度，并根据此关联程度加强相关文本特征表示；使得后续根据加强后的文本特征表示计算其对应的文本数据与待检索图像的相似度更加准确，进而使得检索得到的文本数据与待检索图像的匹配度更好。

实施例三

参照图5，示出了根据本发明实施例三的一种检索方法的步骤流程图。

在本实施例中，以输入文本检索图像为例进行说明，即待检索的目标对象为待检索文本，本实施例的检索方法包括以下步骤：

步骤601、通过文本特征提取网络对所述待检索文本进行特征提取，获得所述待检索文本对应的第三特征向量；并且，从预设的第一图像数据库中获得图像数据对应的第一尺度的第一特征向量，从预设的第二图像数据库中获得所述图像数据对应的第二尺度的第二特征向量。

在本实施例中，文本特征提取网络可以是双向GRU网络，预设的第一图像数据库中存储有表征图像区域的第一尺度的图像特征向量（第一特征向量），预设的第二图像数据库中存储有表征图像区域更细粒度的第二尺度的区域描述特征向量（第二特征向量）。其中，第二特征向量是使用密集型区域描述生成模型，例如Densecap对图像进行特征提取，并通过LSTM网络生成的特征表示。需要说明的是，预设的第一图像数据库和预设的第二图像数据库之间具有索引对应关系，即，可以从第一图像数据库中先获取第一特征向量，进而可以通过索引对应关系，找到第二图像数据库中存储的与第一特征向量对应的第二特征向量。

具体地，可以通过双向门控循环单元GRU，对所述待检索文本进行特征提取，获得所述待检索文本对应的第三特征向量。

在本实施例中，采用双向GRU进行词级别特征提取，并进行特征映射。输入是文本数据，输出是文本中每个词对应的特征表示——文本特征向量（第三特征向量）。公式表达如下：

；

其中，

表示第t个单个字词St的特征表示，Bi-GUR表示双向GRU，

表示第t个单个字词St所在的一句文本中上一个单个字词的特征表示即第t-1个单个字词的特征表示，

为可学习的参数。

上述通过双向GRU对待检测文本进行特征提取，能够获得词级别的特征表示，使得得到的第三特征向量能够更清晰准确的表征待检测文本的内容。

步骤602、采用所述第二特征向量作为引导，与词级别的所述第三特征向量进行注意力机制计算，对所述第三特征向量进行特征增强，获取增强文本特征向量。

本步骤的实现同实施例二中的步骤311，此处不再赘述。

步骤603、将所述增强文本特征向量和所述第一特征向量，输入基于图的图片文本对应计算模型，计算得到所述图像数据与所述文本数据之间的相似度。

本步骤的实现同实施例二中的步骤312，此处不再赘述。

步骤604、根据所述相似度，确定检索结果。

本发明实施例，通过在数据库中预存图像数据对应的第一特征向量和第二特征向量，由于预存的第一特征向量是利用Faster-RCNN对图像数据进行第一尺度的特征提取得到的，能够更好的提取待检索图像中显著的区域特征；预存的第二特征向量是通过密集型区域描述生成模型（Densecap）对图像数据进行第二尺度的特征提取，获得的更细粒度的图像表示——区域描述特征向量，使得对图像的内容获取更加精细并多样化；并通过注意力模型，基于第二特征向量，挖掘第二特征向量对应的区域描述信息与第三特征向量对应的文本之间潜在的关联程度，并根据此关联程度加强相关文本特征表示；使得后续根据加强后的文本特征表示计算其对应的文本数据与待检索图像的相似度更加准确，进而使得检索得到的文本数据与待检索图像的匹配度更好。

下面对本发明实施例涉及到的各个模型的训练方法进行简单阐述。

（一）对基于图的图片文本对应计算模型GSMN的训练方法如下：

首先，获取第一训练样本；分别对所述文本数据样本和所述图像数据样本进行特征提取，获得所述文本数据样本对应的特征向量和所述图像数据样本对应的第一尺度的特征向量；其次通过基于图的图片文本对应计算模型，对所述文本数据样本对应的特征向量与所述图像数据样本对应的第一尺度的特征向量进行相似度计算，获得相似度计算结果；然后采用Triplet Ranking Loss损失函数，对计算得到的相似度计算结果进行损失计算，并根据计算获得的损失值对所述基于图的图片文本对应计算模型进行训练。

其中，第一训练样本包括：文本数据样本和图像数据样本。可以将图像数据样本通过Faster-RCNN对进行特征提取，得到图像数据样本对应的第一尺度的特征向量；可以将文本数据样本通过双向GRU进行特征提取，得到文本数据样本对应的特征向量，或者，将通过该双向GRU输出的特征向量利用基于注意力机制的注意力模块进行增强，得到文本数据样本对应的特征向量。然后通过GSMN模型，利用余弦相似度对文本数据样本对应的特征向量与图像数据样本对应的第一尺度的特征向量进行相似度计算，得到相似度计算结果；最后采用Triplet Ranking Loss损失函数，对计算得到的相似度计算结果进行损失计算。Triplet Ranking Loss损失函数公式如下：

；

其中，

表示文本数据样本和图像数据样本的相似度损失，

表示文本数据样本和图像数据样本的最大间隔（最大差距），

表示最小为0，即

和

均最小为0，

和

分别表示不配对的负样本图像和负样本文本，I表示图像，T表示文本，

表示表示配对的图文。根据计算获得的该损失值对所述基于图的图片文本对应计算模型进行训练。

（二）对注意力模块的训练方法如下：

首先，获取第二训练样本；其次对所述文本数据样本和所述图像数据样本分别进行特征提取，获得所述文本数据样本对应的词级别特征向量和所述图像数据样本对应的第二尺度的特征向量；然后将所述图像数据样本对应的第二尺度的特征向量作为引导，通过注意力模块，与所述文本数据样本对应的词级别特征向量进行注意力计算，得到所述文本数据样本对应的增强文本特征向量；计算所述文本数据样本对应的增强文本特征向量与所述图像数据样本之间的相似度，根据所述相似度对所述注意力模块进行训练。

其中，所述第二训练样本包括：文本数据样本和图像数据样本。需要说明的是第一训练样本与第二训练样本可以是相同的样本，也可以是不同的样本。可以将文本数据样本通过双向GRU进行词级别的特征提取，得到文本数据样本对应的特征向量，得到文本数据样本对应的词级别特征向量；可以通过DenseCap模型对图像数据样本进行特征提取，再通过LSTM进行编码后获得的细粒度较高的图像数据样本对应的第二尺度的特征向量。将图像数据样本对应的第二尺度的特征向量作为引导，然后通过注意力模型首先对图像数据样本对应的第二尺度的特征向量的维度进行线性映射后求平均，接着利用softmax计算平均后的图像数据样本对应的第二尺度的特征向量，和每个文本数据样本对应的词级别特征向量的关联得分，进而根据此得分进行引导，增强文本数据样本中与图像数据样本内容匹配的文本特征，得到文本数据样本对应的增强文本特征向量；最后，基于增强文本特征向量和图像数据样本的相似度，对注意力模块进行训练。

（三）对用于图像特征提取和/或文本特征提取的多模态特征提取模块的训练方法如下：

首先，获取第三训练样本。其次，通过多模态特征提取模块，对所述图像数据样本分别进行第一尺度的特征提取和第二尺度的特征提取，得到所述图像数据样本对应的第一尺度的第一样本特征向量，和第二尺度的第二样本特征向量；接着对所述文本数据样本进行词级别的特征提取，得到所述文本数据样本对应的第三样本特征向量。

其中，所述训练样本包括：具有关联关系的图像数据样本和文本数据样本，例如：文本数据样本为图像数据样本的文字描述。图像数据样本和文本数据样本可以从现有的数据库中直接获取，无需人工标注。

上述多模态特征提取模块可以采用不同模型实现，例如，可以通过多模态特征提取模块中的Faster-RCNN对图像数据样本进行第一尺度的特征提取，得到图像数据样本对应的第一样本特征向量；通过多模态特征提取模块中的DenseCap模型对图像数据样本进行第二尺度的特征提取，再通过LSTM进行编码后获得图像数据样本对应的第二尺度的第二样本特征向量；通过多模态特征提取模块中的双向GRU文本数据样本进行词级别的特征提取，获得文本数据样本对应的第三样本特征向量。基于此，各个模型可以分别进行各自的训练，其具体训练方式可由本领域技术人员根据实际情况采用适当方式实现，本发明实施例在此不再赘述。

上述通过对GSMN模型进行预先训练，使得其被应用时，能够输出准确的相似度计算结果；对注意力模型进行预先训练使得其能够减少图像和文本之间的语义差距；对多模态特征提取模块进行预先训练，使得其被应用时，可以准确的对图像数据或文本数据进行特征提取；因此达到能够准确获得检索结果的效果。

实施例四

图6为本发明实施例四中电子设备的硬件结构；如图6所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303、以及通信总线304。

其中：

处理器301、通信接口302、以及存储器303通过通信总线304完成相互间的通信。

通信接口302，用于与其它电子设备或服务器进行通信。

处理器301，用于执行程序305，具体可以执行上述检索方法实施例中的相关步骤。

具体地，程序305可以包括程序代码，该程序代码包括计算机操作指令。

处理器301可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器303，用于存放程序305。存储器303可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序305具体可以用于使得处理器301执行以下操作：获取图像数据对应的第一尺度的第一特征向量、第二尺度的第二特征向量，以及文本数据对应的第三特征向量，所述第二尺度低于所述第一尺度；通过基于注意力机制的注意力模块，结合所述第二特征向量对所述第三特征向量进行特征增强，获取增强文本特征向量，其中，所述注意力模块通过文本数据样本对应的特征向量和图像数据样本对应的第二尺度的特征向量进行基于注意力机制的训练得到；基于所述增强文本特征向量和所述第一特征向量，计算所述图像数据与所述文本数据之间的相似度；根据所述相似度，确定检索结果。

在一种可选的实施方式中，程序305还用于使得处理器301在获取图像数据对应的第一尺度的第一特征向量、第二尺度的第二特征向量，以及文本数据对应的第三特征向量时：若待检索的目标对象为待检索图像，则通过图像特征提取网络对所述待检索图像分别进行第一尺度的特征提取和第二尺度的特征提取，获得所述待检索图像对应的第一尺度的第一特征向量和第二尺度的第二特征向量；并且，从预设的文本数据库中获得文本数据对应的第三特征向量；若待检索的目标对象为待检索文本，则通过文本特征提取网络对所述待检索文本进行特征提取，获得所述待检索文本对应的第三特征向量；并且，从预设的第一图像数据库中获得图像数据对应的第一尺度的第一特征向量，从预设的第二图像数据库中获得所述图像数据对应的第二尺度的第二特征向量。

在一种可选的实施方式中，程序305还用于使得处理器301在通过图像特征提取网络对所述待检索图像分别进行第一尺度的特征提取和第二尺度的特征提取，获得所述待检索图像对应的第一尺度的第一特征向量和第二尺度的第二特征向量时：对所述待检索图像进行第一尺度的图像特征提取，获得所述待检索图像对应的第一特征向量；通过密集型区域描述生成模型对所述待检索图像进行第二尺度的特征提取，获得所述待检索图像的区域描述信息，并将所述区域描述信息输入长短期记忆神经网络进行特征编码，得到所述待检索图像对应的第二特征向量。

在一种可选的实施方式中，程序305还用于使得处理器301在通过文本特征提取网络对所述待检索文本进行特征提取，获得所述待检索文本对应的第三特征向量时：通过双向门控循环单元GRU，对所述待检索文本进行特征提取，获得所述待检索文本对应的第三特征向量。

在一种可选的实施方式中，程序305还用于使得处理器301在通过基于注意力机制的注意力模块，结合所述第二特征向量对所述第三特征向量进行特征增强，获取增强文本特征向量时：通过基于注意力机制的注意力模块，采用所述第二特征向量作为引导，与词级别的所述第三特征向量进行注意力机制计算，根据计算结果获取增强文本特征向量。

在一种可选的实施方式中，程序305还用于使得处理器301在采用所述第二特征向量作为引导，与词级别的所述第三特征向量进行注意力机制计算，根据计算结果获取增强文本特征向量时：将所述第二特征向量和词级别的所述第三特征向量输入基于注意力机制的注意力模块；对所述第二特征向量进行映射后取平均，得到平均第二特征向量；对所述平均第二特征向量，与所述第三特征向量进行关联度计算，得到所述平均第二特征向量与所述第三特征向量的关联值；基于所述关联值以及预设的平衡参数，获取增强文本特征向量。

在一种可选的实施方式中，程序305还用于使得处理器301在基于所述增强文本特征向量和所述第一特征向量，计算所述图像数据与所述文本数据之间的相似度时：将所述增强文本特征向量和所述第一特征向量，输入基于图的图片文本对应计算模型，计算得到所述图像数据与所述文本数据之间的相似度。

在一种可选的实施方式中，程序305还用于使得处理器301在将所述增强文本特征向量和所述第一特征向量，输入基于图的图片文本对应计算模型，计算得到所述图像数据与所述文本数据之间的相似度时：将所述增强文本特征向量和所述第一特征向量，输入基于图的图片文本对应计算模型，构建所述增强文本特征向量对应的文本数据图以及所述第一特征向量对应的图像数据图；进行所述图像数据图与所述文本数据图的相似度计算，得到所述图像数据与所述文本数据之间的相似度。

在一种可选的实施方式中，程序305还用于使得处理器301：获取第一训练样本，所述第一训练样本包括：文本数据样本和图像数据样本；分别对所述文本数据样本和所述图像数据样本进行特征提取，获得所述文本数据样本对应的特征向量和所述图像数据样本对应的第一尺度的特征向量；通过基于图的图片文本对应计算模型，对所述文本数据样本对应的特征向量与所述图像数据样本对应的第一尺度的特征向量进行相似度计算，获得相似度计算结果；采用Triplet Ranking Loss损失函数，对计算得到的相似度计算结果进行损失计算，并根据计算获得的损失值对所述基于图的图片文本对应计算模型进行训练。

在一种可选的实施方式中，程序305还用于使得处理器301：获取第二训练样本，所述第二训练样本包括：文本数据样本和图像数据样本；对所述文本数据样本和所述图像数据样本分别进行特征提取，获得所述文本数据样本对应的词级别特征向量和所述图像数据样本对应的第二尺度的特征向量；将所述图像数据样本对应的第二尺度的特征向量作为引导，通过注意力模块，与所述文本数据样本对应的词级别特征向量进行注意力计算，得到所述文本数据样本对应的增强文本特征向量；计算所述文本数据样本对应的增强文本特征向量与所述图像数据样本之间的相似度，根据所述相似度对所述注意力模块进行训练。

在一种可选的实施方式中，程序305还用于使得处理器301：获取第三训练样本，所述第三训练样本包括：具有关联关系的图像数据样本和文本数据样本；通过多模态特征提取模块，对所述图像数据样本分别进行第一尺度的特征提取和第二尺度的特征提取，得到所述图像数据样本对应的第一尺度的第一样本特征向量，和第二尺度的第二样本特征向量；对所述文本数据样本进行词级别的特征提取，得到所述文本数据样本对应的第三样本特征向量；通过预设的第二损失函数，对所述图像数据样本对应的第一样本特征向量、所述图像数据样本对应的第二样本特征向量、以及所述文本数据样本对应的第三样本特征向量进行损失计算，并利用计算得到的损失值，对所述多模态特征提取模块进行训练。

程序305中各步骤的具体实现可以参见上述检索方法实施例中的相应步骤中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，首先获取图像数据对应的第一尺度的第一特征向量、第二尺度的第二特征向量，以及文本数据对应的第三特征向量，所述第二尺度低于所述第一尺度；然后通过基于注意力机制的注意力模块，对所述第三特征向量进行特征增强，获取增强文本特征向量，其中，所述注意力模块通过文本数据样本对应的特征向量和图像数据样本对应的第二尺度的特征向量进行基于注意力机制的训练得到；基于所述增强文本特征向量和所述第一特征向量，计算所述图像数据与所述文本数据之间的相似度，并根据所述相似度，确定检索结果。在本方案中，第一尺度以及第二尺度能够表示不同的特征尺度或称为特征粒度，由于所述第二尺度低于所述第一尺度，因此，图像数据对应的第二特征向量携带了更为丰富的图像信息，例如，图像数据对应的第一特征向量可能只表征“帽子”，而图像数据对应的第二特征向量则可表征“黑色棒球帽”。因此，通过获取的第二尺度的第二特征向量，能够得到对应图像的细粒度的语义表示，其不同于第一尺度的第一特征向量所表征的较粗粒度的图像视觉外观特征。其次，利用第二特征向量，通过预设的注意力模块对文本数据对应的第三特征向量进行增强，获取增强文本特征向量，能够增加图像数据和文本数据之间的关联，减少图像数据和文本数据之间的语义差距，并且，通过第二特征向量，能够挖掘第三特征向量对应的文本之间的关联程度，从而可以加强相关的文本特征表示，即对第三特征向量进行增强。然后，再通过增强文本特征向量，与图像数据对应的第一特征向量进行相似度计算，可获得更准确的相似度结果，从而使得跨模态检索结果更加准确。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元（CPU）执行时，执行本发明实施例中的方法中限定的上述功能。需要说明的是，本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质（RAM）、只读存储介质（ROM）、可擦式可编程只读存储介质（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储介质（CD-ROM）、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括接入模块和发送模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例中所描述的检索方法。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取图像数据对应的第一尺度的第一特征向量、第二尺度的第二特征向量，以及文本数据对应的第三特征向量，所述第二尺度低于所述第一尺度；通过基于注意力机制的注意力模块，结合所述第二特征向量对所述第三特征向量进行特征增强，获取增强文本特征向量，其中，所述注意力模块通过文本数据样本对应的特征向量和图像数据样本对应的第二尺度的特征向量进行基于注意力机制的训练得到；基于所述增强文本特征向量和所述第一特征向量，计算所述图像数据与所述文本数据之间的相似度；根据所述相似度，确定检索结果。

在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种检索方法，其特征在于，所述方法包括：

获取图像数据对应的第一尺度的第一特征向量、第二尺度的第二特征向量，以及文本数据对应的第三特征向量，所述第二尺度低于所述第一尺度；

通过基于注意力机制的注意力模块，结合所述第二特征向量对所述第三特征向量进行特征增强，获取增强文本特征向量，其中，所述注意力模块通过文本数据样本对应的特征向量和图像数据样本对应的第二尺度的特征向量进行基于注意力机制的训练得到；

基于所述增强文本特征向量和所述第一特征向量，计算所述图像数据与所述文本数据之间的相似度；

根据所述相似度，确定检索结果。

2.根据权利要求1所述的方法，其特征在于，所述获取图像数据对应的第一尺度的第一特征向量、第二尺度的第二特征向量，以及文本数据对应的第三特征向量，包括：

若待检索的目标对象为待检索图像，则通过图像特征提取网络对所述待检索图像分别进行第一尺度的特征提取和第二尺度的特征提取，获得所述待检索图像对应的第一尺度的第一特征向量和第二尺度的第二特征向量；并且，从预设的文本数据库中获得文本数据对应的第三特征向量；

若待检索的目标对象为待检索文本，则通过文本特征提取网络对所述待检索文本进行特征提取，获得所述待检索文本对应的第三特征向量；并且，从预设的第一图像数据库中获得图像数据对应的第一尺度的第一特征向量，从预设的第二图像数据库中获得所述图像数据对应的第二尺度的第二特征向量。

3.根据权利要求2所述的方法，其特征在于，所述通过图像特征提取网络对所述待检索图像分别进行第一尺度的特征提取和第二尺度的特征提取，获得所述待检索图像对应的第一尺度的第一特征向量和第二尺度的第二特征向量，包括：

对所述待检索图像进行第一尺度的图像特征提取，获得所述待检索图像对应的第一特征向量；

通过密集型区域描述生成模型对所述待检索图像进行第二尺度的特征提取，获得所述待检索图像的区域描述信息，并将所述区域描述信息输入长短期记忆神经网络进行特征编码，得到所述待检索图像对应的第二特征向量。

4.根据权利要求2所述的方法，其特征在于，所述通过文本特征提取网络对所述待检索文本进行特征提取，获得所述待检索文本对应的第三特征向量，包括：

通过双向门控循环单元GRU，对所述待检索文本进行特征提取，获得所述待检索文本对应的第三特征向量。

5.根据权利要求3或4所述的方法，其特征在于，所述通过基于注意力机制的注意力模块，结合所述第二特征向量对所述第三特征向量进行特征增强，获取增强文本特征向量，包括：

通过基于注意力机制的注意力模块，采用所述第二特征向量作为引导，与词级别的所述第三特征向量进行注意力机制计算，根据计算结果获取增强文本特征向量。

6.根据权利要求5所述的方法，其特征在于，所述采用所述第二特征向量作为引导，与词级别的所述第三特征向量进行注意力机制计算，根据计算结果获取增强文本特征向量，包括：

将所述第二特征向量和词级别的所述第三特征向量输入基于注意力机制的注意力模块；

对所述第二特征向量进行映射后取平均，得到平均第二特征向量；

对所述平均第二特征向量，与所述第三特征向量进行关联度计算，得到所述平均第二特征向量与所述第三特征向量的关联值；

基于所述关联值以及预设的平衡参数，获取增强文本特征向量。

7.根据权利要求1-4任一项所述的方法，其特征在于，所述基于所述增强文本特征向量和所述第一特征向量，计算所述图像数据与所述文本数据之间的相似度，包括：

将所述增强文本特征向量和所述第一特征向量，输入基于图的图片文本对应计算模型，计算得到所述图像数据与所述文本数据之间的相似度。

8.根据权利要求7所述的方法，其特征在于，所述将所述增强文本特征向量和所述第一特征向量，输入基于图的图片文本对应计算模型，计算得到所述图像数据与所述文本数据之间的相似度，包括：

将所述增强文本特征向量和所述第一特征向量，输入基于图的图片文本对应计算模型，构建所述增强文本特征向量对应的文本数据图以及所述第一特征向量对应的图像数据图；

进行所述图像数据图与所述文本数据图的相似度计算，得到所述图像数据与所述文本数据之间的相似度。

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

获取第一训练样本，所述第一训练样本包括：文本数据样本和图像数据样本；

分别对所述文本数据样本和所述图像数据样本进行特征提取，获得所述文本数据样本对应的特征向量和所述图像数据样本对应的第一尺度的特征向量；

通过基于图的图片文本对应计算模型，对所述文本数据样本对应的特征向量与所述图像数据样本对应的第一尺度的特征向量进行相似度计算，获得相似度计算结果；

采用Triplet Ranking Loss损失函数，对计算得到的相似度计算结果进行损失计算，并根据计算获得的损失值对所述基于图的图片文本对应计算模型进行训练。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第二训练样本，所述第二训练样本包括：文本数据样本和图像数据样本；

对所述文本数据样本和所述图像数据样本分别进行特征提取，获得所述文本数据样本对应的词级别特征向量和所述图像数据样本对应的第二尺度的特征向量；

将所述图像数据样本对应的第二尺度的特征向量作为引导，通过注意力模块，与所述文本数据样本对应的词级别特征向量进行注意力计算，得到所述文本数据样本对应的增强文本特征向量；

计算所述增强文本特征向量和所述图像数据样本的相似度，根据所述相似度对所述注意力模块进行训练。

11.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

计算机可读介质，配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一项所述的检索方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一项所述的检索方法。