CN110851641B

CN110851641B - 跨模态检索方法、装置和可读存储介质

Info

Publication number: CN110851641B
Application number: CN201810862629.5A
Authority: CN
Inventors: 郭招
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2022-09-16
Anticipated expiration: 2038-08-01
Also published as: CN110851641A

Abstract

本申请公开了一种跨模态检索方法、装置和可读存储介质，属于计算机技术领域。该方法包括：在被检索图像中提取包含目标对象的感兴趣区域的图像特征；在检索语句中提取短语特征；基于注意力模型，采用感兴趣区域的图像特征计算检索语句对应的图像特征值；基于相似度计算模型，采用短语特征和图像特征值，计算短语特征和感兴趣区域的图像特征的相似度，并根据相似度输出检索结果。本公开基于注意力机制计算检索语句对应的图像特征值，使得图像特征值中，感兴趣区域中与检索语句相关的区域的图像特征比感兴趣区域中与检索语句无关的区域的图像特征所占的比重大，进而使得相似度计算的结果更准确，提高了检索的准确度。

Description

跨模态检索方法、装置和可读存储介质

技术领域

本公开涉及计算机技术领域，特别涉及一种跨模态检索方法、装置和可读存储介质。

背景技术

模态是指数据存在的形式，例如文本、音频、图像、视频等文件格式。跨模态检索是指这样一种检索形式：以一种模态的数据作为查询条件，返回另一种模态的相关结果，例如，用文本形式的自然语言描述检索图像等。

目前，用自然语言描述检索图像的跨模态检索的过程如下：从自然语言描述中提取文本特征，从图像中确定感兴趣区域的图像特征，计算文本特征和图像特征的相似度，当相似度达到阈值时，将图像特征所属的图像作为检索结果输出。

由于自然语言描述实际对应的图像区域可能与感兴趣区域并不是完全匹配的，不匹配的部分会对相似度的结果产生影响，导致相似度的计算存在偏差，最终导致检索结果不准确。

发明内容

本公开提供了一种跨模态检索方法、装置和可读存储介质，能够以自然描述语句作为检索条件对图像进行准确检索。所述技术方案如下：

一方面，提供了一种跨模态检索方法，该方法包括：

获取检索语句和被检索图像；

基于第一特征提取模型，在所述被检索图像中提取包含目标对象的感兴趣区域的图像特征；

基于第二特征提取模型，在所述检索语句中提取短语特征；

基于注意力模型，采用所述包含目标对象的感兴趣区域的图像特征计算所述检索语句对应的图像特征值；

基于相似度计算模型，采用所述短语特征和所述图像特征值，计算所述短语特征和所述包含目标对象的感兴趣区域的图像特征的相似度，并将相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出。

可选地，所述第一特征提取模型包括第一卷积网络、候选区域生成网络RPN 感兴趣区域池化层和分类层；

所述基于第一特征提取模型，在所述被检索图像中提取包含目标对象的感兴趣区域的图像特征，包括：

将所述被检索图像输入所述第一卷积网络，得到所述被检索图像的特征图；

将所述被检索图像的特征图输入所述RPN，得到包含对象的感兴趣区域在所述特征图中的位置信息；

将所述被检索图像的特征图和所述包含对象的感兴趣区域在所述被检索图像中的位置信息输入所述感兴趣区域池化层，得到包含对象的感兴趣区域的特征图；

将所述包含对象的感兴趣区域的特征图输入所述分类层，得到所述包含对象的感兴趣区域中的对象的类别；

对感兴趣区域所包含的对象进行筛选，筛选出所述包含目标对象的感兴趣区域，并得到所述包含目标对象的感兴趣区域在所述被检索图像中的位置信息；

基于所述包含目标对象的所述感兴趣区域的在所述被检索图像中的位置信息，确定所述包含目标对象的感兴趣区域的图像特征。

可选地，所述第二特征提取模型包括嵌入层和第二卷积网络；

所述基于第二特征提取模型，在所述检索语句中提取短语特征，包括：

通过所述嵌入层，将所述检索语句中的每个字嵌入到特征空间，得到所述检索语句对应的向量矩阵，所述向量矩阵包括每个字对应的向量；

将所述向量矩阵输入所述第二卷积网络，得到所述短语特征。

可选地，所述注意力模型包括全连接层、柔性最大值激活函数softmax层和特征值计算模型；

所述基于注意力模型，采用所述感兴趣区域的图像特征计算所述检索语句对应的图像特征值，包括：

将所述感兴趣区域的图像特征输入所述全连接层，得到中间向量；

将所述中间向量输入所述softmax层，得到所述感兴趣区域的各个图像特征对应的注意力权重；

将所述短语特征和所述注意力权重输入至所述特征值计算模型，得到所述图像特征值。

可选地，所述特征值计算模型采用以下公式得到所述图像特征值：

其中，

为第i个感兴趣区域的图像特征值，N为所述第i个感兴趣区域中的图像特征的数量，a_n,j为第j个短语特征对应的所述第i个感兴趣区域的第n 个图像特征的注意力权重，

为所述第i个感兴趣区域的第n个图像特征。

可选地，所述相似度计算模型包括映射层和相似度计算层；

所述基于所述图像特征值，计算所述短语特征和所述感兴趣区域的图像特征的相似度，包括：

将所述短语特征输入所述映射层以将所述短语特征映射到图像特征空间，得到映射后的所述短语特征，所述图像特征空间为所述图像特征值所在的特征空间；

将所述映射后的所述短语特征和所述图像特征值输入所述相似度计算层，得到所述短语特征和所述感兴趣区域的图像特征的相似度。

可选地，所述映射层采用以下公式将所述短语特征映射到所述图像特征空间：

其中，

为映射后的第j个短语特征，p_j为第j个短语特征，W_S为映射层参数，b_s为偏置项。

可选地，所述相似度计算层采用以下公式计算映射后的所述短语特征和所述感兴趣区域的图像特征的相似度：

其中，V_i为第i个感兴趣区域的图像特征，p_j为第j个短语特征，sim(V_i,p_j)为短语特征和所述第i个感兴趣区域的图像特征的相似度，

为第i个感兴趣区域的图像特征值，

为映射后的第j个短语特征，·为点积。

可选地，所述根据所述相似度输出检索结果，包括以下步骤中的至少一个：

当所述检索语句中包括一个短语特征时，将相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出；

当所述检索语句中包括至少两个短语特征时，将平均相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出，所述平均相似度为单个感兴趣区域的图像特征与所述至少两个短语特征的相似度的平均值。

可选地，所述方法还包括：

获取训练数据集，所述训练数据集包括样本图像和样本检索语句，每个所述样本图像包括至少一个目标对象，每个所述目标对象对应至少一个所述样本检索语句；

采用所述训练数据集，对所述第一特征提取模型、第二特征提取模型、所述注意力模型和所述相似度计算模型进行训练。

可选地，所述采用所述训练数据集，对所述第一特征提取模型、第二特征提取模型、所述注意力模型、所述相似度计算模型进行训练，包括：

将所述样本图像和所述样本检索语句作为训练输入，基于最大间隔 max-margin损失函数，对所述第一特征提取模型、第二特征提取模型、所述注意力模型和所述相似度计算模型进行训练。

另一方面，提供了一种跨模态检索装置，所述装置包括：

获取模块，用于获取检索语句和被检索图像；

图像特征提取模块，用于基于第一特征提取模型，在所述被检索图像中提取包含目标对象的感兴趣区域的图像特征；

短语特征提取模块，用于基于第二特征提取模型，在所述检索语句中提取短语特征；

特征值计算模块，用于基于注意力模型，采用所述包含目标对象的感兴趣区域的图像特征计算所述检索语句对应的图像特征值；

检索模块，用于基于相似度计算模型，采用所述短语特征和所述图像特征值，计算所述短语特征和所述包含目标对象的感兴趣区域的图像特征的相似度，并根据所述相似度输出检索结果。

所述图像特征提取模块用于，将所述被检索图像输入所述第一卷积网络，得到所述被检索图像的特征图；将所述被检索图像的特征图输入所述RPN，得到包含对象的感兴趣区域在所述特征图中的位置信息；将所述被检索图像的特征图和所述包含对象的感兴趣区域在所述被检索图像中的位置信息输入所述感兴趣区域池化层，得到包含对象的感兴趣区域的特征图；将所述包含对象的感兴趣区域的特征图输入所述分类层，得到所述包含对象的感兴趣区域中的对象的类别；对感兴趣区域所包含的对象进行筛选，筛选出所述包含目标对象的感兴趣区域，并得到所述包含目标对象的感兴趣区域在所述被检索图像中的位置信息；基于所述包含目标对象的所述感兴趣区域的在所述被检索图像中的位置信息，确定所述包含目标对象的感兴趣区域的图像特征。

所述短语特征提取模块用于通过所述嵌入层，将所述检索语句中的每个字嵌入到特征空间，得到所述检索语句对应的向量矩阵，所述向量矩阵包括每个字对应的向量；将所述向量矩阵输入所述第二卷积网络，得到所述短语特征。

所述特征值计算模块用于将所述感兴趣区域的图像特征输入所述全连接层，得到中间向量；将所述中间向量输入所述softmax层，得到所述感兴趣区域的各个图像特征对应的注意力权重；将所述短语特征和所述注意力权重输入至所述特征值计算模型，得到所述图像特征值。

其中，

为所述第i个感兴趣区域的第n个图像特征。

可选地，所述相似度计算模型包括映射层和相似度计算层；

所述检索模块用于将所述短语特征输入所述映射层以将所述短语特征映射到图像特征空间，得到映射后的所述短语特征，所述图像特征空间为所述图像特征值所在的特征空间；将所述映射后的所述短语特征和所述图像特征值输入所述相似度计算层，得到所述短语特征和所述感兴趣区域的图像特征的相似度。

其中，

为第i个感兴趣区域的图像特征值，

为映射后的第j个短语特征，·为点积。

可选地，所述检索模块用于，当所述检索语句中包括一个短语特征时，将相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出；当所述检索语句中包括至少两个短语特征时，将平均相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出，所述平均相似度为单个感兴趣区域的图像特征与所述至少两个短语特征的相似度的平均值。

可选地，所述获取模块还用于获取训练数据集，所述训练数据集包括样本图像和样本检索语句，每个所述样本图像包括至少一个目标对象，每个所述目标对象对应至少一个所述样本检索语句；

所述装置还包括训练模块，用于采用所述训练数据集，对所述第一特征提取模型、第二特征提取模型、所述注意力模型和所述相似度计算模型进行训练。

可选地，所述训练模块用于，将所述样本图像和所述样本检索语句作为训练输入，基于最大间隔max-margin损失函数，对所述第一特征提取模型、第二特征提取模型、所述注意力模型和所述相似度计算模型进行训练。

另一方面，提供了一种跨模态检索装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现前述跨模态检索方法。

另一方面，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现前述跨模态检索方法。

本公开实施例提供的技术方案至少包括以下有益效果：

本公开通过基于注意力机制计算检索语句对应的图像特征值，使得图像特征值中，感兴趣区域中与检索语句相关的区域的图像特征比感兴趣区域中与检索语句无关的区域的图像特征所占的比重大，进而使得相似度计算的结果更准确，提高了采用自然语言检索图像的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1示出了本公开实施例提供的跨模态检索方法的流程图；

图2示出了本公开实施例提供的跨模态检索方法的流程图；

图3示出了本公开实施例中第一特征提取模型的结构图；

图4示出了本公开实施例中第二特征提取模型的结构图；

图5示出了本公开实施例中跨模态检索模型的整体结构图；

图6示出了本公开实施例提供的跨模态检索装置的结构框图；

图7示出了本公开一个实施例提供的跨模态检索装置的结构框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

本公开提供的跨模态检索方法和装置适用于采用自然描述语句对图像进行检索的场景，尤其适用于视频监控领域。例如，某人报案称有个身穿黑色T恤和蓝色短裤的人偷了我的手机跑了，事主没有来得及拍下犯人的外貌，并且案发地点没有摄像头，此时，可以采用本申请的跨模态检索方法，根据当事人的描述，从其他地方的监控视频中搜索出与该特征相符的视频片段。

参见图1，其示出了本公开实施例提供的跨模态检索方法的流程图，该方法包括：

步骤101：获取检索语句和被检索图像。

其中，检索语句可以为自然描述语句，用于描述目标对象的相关特征，包括但不限于颜色、种类等，例如，蓝色的衬衣、黑色的裤子、白色的车、红色的帽子等。被检索图像可以包括多个，例如可以是视频中连续的多帧图像。

步骤102：基于第一特征提取模型，在被检索图像中提取包含目标对象的感兴趣区域的图像特征。

步骤103：基于第二特征提取模型，在检索语句中提取短语特征。

步骤104：基于注意力模型，采用包含目标对象的感兴趣区域的图像特征计算检索语句对应的图像特征值。

步骤105：基于相似度计算模型，采用短语特征和图像特征值，计算短语特征和包含目标对象的感兴趣区域的图像特征的相似度，并根据相似度输出检索结果。

需要说明的是，步骤102和步骤103之间没有先后顺序，可以同时执行。

本公开实施例通过基于注意力机制计算检索语句对应的图像特征值，使得图像特征值中，感兴趣区域中与检索语句相关的区域的图像特征比感兴趣区域中与检索语句无关的区域的图像特征所占的比重大，进而使得相似度计算的结果更准确，提高了检索的准确度。

参见图2，其示出了本公开另一个实施例提供的跨模态检索方法的流程图，该方法包括：

步骤201：获取训练数据集。

其中，训练数据集包括多个样本图像和多个样本检索语句，每个样本图像均包括至少一个对象。这里，对象包括但不限于人、车等对象。每个对象所在的图像区域可以对应一个或多个样本检索语句。例如，车所在的图像区域可以对应一个样本检索语句：白色的汽车。又例如，人所在的图像区域可以对应多个样本检索语句：蓝色的衬衫、黑色的裤子、黑色的帽子。多个样本检索语句分别描述目标对象所在的图像区域中的一个子区域，例如，蓝色的衬衫对应的子区域为目标对象所在的图像区域的上半部分区域，黑色的裤子对应的子区域为目标对象所在图像区域的下半部分区域。

样本图像中，目标对象所在区域均被标识出来，例如以矩形框的形式标识。通常可以由人工标识。

步骤202：基于第一特征提取模型，在被检索图像中提取包含目标对象的感兴趣区域的图像特征。

该步骤202可以包括：将样本图像输入第一提取特征模型中，得到至少一个感兴趣区域。每个感兴趣区域内包含一个目标对象。

其中，第一特征提取模型可以包括faster-RCNN模型。

图3为faster-RCNN模型的结构示意图。如图3所示，faster-RCNN模型包括第一卷积网络31、RPN(Region Proposal Network，候选区域生成网络)32、感兴趣区域池化层33和分类层34。

进一步地，该步骤202包括以下步骤：

第一步、将样本图像输入第一卷积网络中，得到样本图像的特征图。

第二步、将样本图像的特征图输入RPN，使得RPN基于该样本图像的特征图确定感兴趣区域，并得到感兴趣区域在样本图像中的位置信息。在该步骤中可以确定出一个或多个感兴趣区域，每个感兴趣区域均包含一个对象。不同的感兴趣区域所包含的对象的类别可以相同，例如都是人，也可以不同，例如一个对象是人，一个对象是车。

第三步、将样本图像的特征图和所有感兴趣区域在样本图像中的位置信息输入感兴趣区域池化层，得到包含对象的感兴趣区域的特征图；

第四步、将包含对象的感兴趣区域的特征图输入分类层，得到感兴趣区域中对象的类别。

实现时，分类层除了预测感兴趣区域中对象的类别以外，还会对感兴趣区域的位置信息进行修正。

第五步、对感兴趣区域所包含的对象进行筛选，从而筛选出包含目标对象的感兴趣区域，并得到包含目标对象的感兴趣区域在样本图像中的位置信息。其中，目标对象为检索语句所描述的对象，一个检索语句可以描述至少一个目标对象。

第六步、基于包含目标对象的感兴趣区域在样本图像中的位置信息，确定包含目标对象的感兴趣区域的图像特征。实现时，可以通过感受野上的坐标映射(指特征图上的坐标到样本图像上的坐标的映射)，得到包含目标对象的感兴趣区域的图像特征。即根据包含目标对象的感兴趣区域在原样本图像中的偏移量，映射得到该感兴趣区域对应的图像特征。

其中，第一卷积网络31包括卷积层和池化层，样本图像的特征图为第一卷积网络31的最后一层(可以为卷积层也可以为池化层)的特征向量，例如，特征图可以为

其中，14×14是特征图区域个数，512是特征图区域的特征向量的长度。

每个样本图像中可以检测出至少一个包含目标对象的感兴趣区域，当样本图像中有两个以上的包含目标对象的感兴趣区域时，不同的感兴趣区域对应的特征的长度可以不同。例如，第i个感兴趣区域的图像特征为

其中，

表示第i个感兴趣区域所对应的第1个特征图区域的特征向量，

表示第i个感兴趣区域所对应的第n个(即最后一个)特征图区域的特征向量。其中， 1≤i≤I，I为样本图像中感兴趣区域的个数。当i不相等时，对应的n可以相同也可以不同，例如，第1个感兴趣区域对应的n为8，第2个感兴趣区域对应的 n为10。

步骤203：基于第二特征提取模型，从样本检索语句中提取短语特征。

在本实施例中，第二特征提取模型可以为CNN模型。采用CNN模型对文本信息进行特征提取，速度快且成熟可靠。图4为CNN模型的结构示意图。如图4所示，CNN模型包括嵌入层41和第二卷积网络。在本实施例中，第二卷积网络包括卷积层42和最大池化层43。

进一步地，该步骤203可以包括：

第一步、通过嵌入层，将样本检索语句中的每个字嵌入到特征空间，得到样本检索语句对应的向量矩阵，该向量矩阵包括样本检索语句中每个字对应的向量；

第二步、将样本检索语句对应的向量矩阵输入第二卷积网络，得到样本检索语句对应的短语特征。

在本实施例中，卷积层42采用3个过滤器分别对样本检索语句对应的向量矩阵进行卷积操作。3个过滤器的大小分别为3*1、3*2和3*3。其中，3*1的过滤器用于模拟一元分词(unigram)操作，3*2用于模拟二元分词(bigram)操作， 3*3用于模拟三元分词(trigram)操作。3个过滤器的输出均输入至池化层43，以进行最大池化操作，得到短语特征，该短语特征为一维向量。

下面以样本检索语句为“蓝色的衬衫”为例对本实施例的短语特征提取的过程进行举例说明。请参见图4，“蓝色的衬衫”经过嵌入层的词嵌入操作以后，得到一个5*5的向量矩阵41a；每个字对应一个长度为5的1维向量，例如，图 4中，向量矩阵41a的左边第一列为“蓝”字的向量，左边第二列为“色”字的向量……以此类推。向量矩阵41a输入至卷积层42，经过3个过滤器卷积之后，得到3个中间矩阵，分别经过池化操作后，得到一维向量的短语特征，该一维向量分为三个部分，第一个部分43a为第1个过滤器的输出矩阵42a经过最大池化操作后的输出向量，第二个部分43b为第2个过滤器的输出矩阵42b经过最大池化操作后的输出向量，第三个部分43c为第3个过滤器的输出矩阵42c经过最大池化操作后的输出向量。

可选地，在该步骤203之前，该方法还可以包括：

对样本检索语句进行短语提取，得到至少一个短语。例如，检索语句包括：一个人穿着蓝色的衬衫、黑色的裤子，则短语提取后得到两个短语，一个是蓝色的衬衫，另一个是黑色的裤子。实现时，短语切分可以人为切分，也可以采用算法切分。示例性地，该算法可以为(Constituent Parsing，选区解析)算法，该算法可以将句子以短语形式解析出来，然后提取出形容词短语(通常为形容词与其他词的组合)作为本实施例中的短语输入到第二特征提取模型中。

相应地，可以对各个短语分别进行特征提取，即将切分后得到的短语分别输入第二特征提取模型，得到每个短语对应的短语特征。

需要说明的是，步骤202和步骤203之间没有先后顺序，可以同时执行。

步骤204：基于注意力模型，采用包含目标图像的感兴趣区域的图像特征计算样本检索语句对应的图像特征值。

在本实施例中，注意力模型包括全连接层、softmax层和特征值计算模型。

该步骤204可以包括：

第一步、将感兴趣区域的图像特征输入全连接层，得到中间向量；

第二步、将中间向量输入softmax层，得到感兴趣区域的各个图像特征对应的注意力权重；

第三步、将短语特征和所述注意力权重输入至所述特征值计算模型，得到图像特征值。

在本实施例中，全连接层为一个单层网络，其激活函数为：

h_i,j＝tanh(W_VV_i+(W_Pp_j+b_h)) (1)

公式(1)中，h_i,j为全连接层输出的第i个感兴趣区域和第j个短语特征对应的中间向量，W_V和W_V为模型参数，V_i为第i个感兴趣区域的图像特征，p_j为第 j个短语特征，b_h为偏置项。

在本实施例中，softmax层的激活函数为

a_i,j＝softmax(W_Ah_i,j+b_a) (2)

公式(2)中，a_i,j为第j个短语特征对应的感兴趣区域的第i个图像特征的注意力权重，W_A为模型参数，b_a为偏置项。

在本实施例中，特征值计算模型采用以下公式得到图像特征值：

公式(3)中，

为第i个感兴趣区域的图像特征值，N为第i个感兴趣区域中的图像特征的数量，a_n,j为第j个短语特征对应的第i个感兴趣区域的第n个图像特征的注意力权重，

为第i个感兴趣区域的第n个图像特征。

由于检索语句实际描述的区域与感兴趣区域的粒度可能存在不同，短语的粒度小于或等于感兴趣区域的粒度，例如，蓝色的衬衫描述的区域对应感兴趣区域的上半部分，为此，通过注意力模型对齐短语描述区域在感兴趣区域中的大致位置，即利用短语特征去搜索相关更细粒度的图像区域，对图像区域进行特征编码，从而可以更加充分挖掘跨模态数据之间的联系。

步骤205：基于相似度计算模型，采用短语特征和图像特征值，计算短语特征和包含目标对象的感兴趣区域的图像特征的相似度。

其中，该相似度计算模型包括映射层和相似度计算层，映射层用于将短语特征映射到图像特征值所在的特征空间，以便于相似度计算层能够在同一特征空间内计算短语特征和图像特征值的相似度。

相应地，该步骤205可以包括：

第一步、将短语特征输入映射层以将短语特征映射到图像特征空间，得到映射后的短语特征，该图像特征空间为图像特征值所在的特征空间；

第二步、将映射后的短语特征和图像特征值输入相似度计算层，得到短语特征和感兴趣区域的图像特征的相似度。

在本实施例中，映射层采用公式(4)将短语特征映射到图像特征空间：

其中，

在本实施例中，相似度计算层采用公式(5)计算映射后的短语特征和感兴趣区域的图像特征的相似度：

其中，V_i为第i个感兴趣区域的图像特征，p_j为第j个短语特征，sim(V_i,p_j)为第j个短语特征和第i个感兴趣区域的图像特征的相似度，

为第i个感兴趣区域的图像特征值，

为映射后的第j个短语特征，·为点积。

步骤206：采用从样本检索语句中提取的短语特征和该短语特征对应的感兴趣区域的图像特征值，对第一特征提取模型、第二特征提取模型、注意力模型和相似度计算模型进行训练。

该步骤206可以包括：

基于最大间隔max-margin损失函数，采用短语特征和感兴趣区域的图像特征的相似度，对第一特征提取模型、第二特征提取模型、注意力模型和相似度计算模型进行训练。

其中，max-margin损失函数用来评价模型的预测值与实际结果的差别，在本实施例中，通过该max-margin损失函数让符合短语描述的图像区域的相似度比不符合短语描述的图像区域的相似度大。

该max-margin损失函数如下：

公式(6)中，

其中，

和

表示匹配的图像区域特征以及短语特征，

和

表示不匹配的图像区域特征以及短语特征。β表示边界参数，可以为设定值。K表示训练数据集中图像个数，N_k表示第k个图像中感兴趣区域个数，M_k表示第k个图像描述语句中短语个数。

通过重复执行前述步骤201～206，例如几百万次或者更多次，完成了采用训练数据集，对第一特征提取模型、第二特征提取模型、注意力模型和相似度计算模型进行训练，得到了训练好的跨模态检索模型。该跨模态检索模型的结构可以参见图5。如图5所示，该跨模态检索模块包括第一特征提取模型51、第二特征提取模型52、注意力模型53和相似度计算模型54。在训练好跨模态检索模型之后，即可以调用该跨模态检索模型来实现自然语言描述对视频图像的检索。

需要说明的是，前述步骤201～步骤206为可选步骤，在跨模态检索模型训练好后，无需再执行。

步骤207：获取检索语句和被检索图像。

实际应用中，检索语句可以包括一个或多个短语。而被检索图像可以为视频片段所包含的多个图像帧，当然被检索图像也可以包括多个无关联的图像。

可选地，检索语句可以直接以文本形式输入，也可以以语音形式输入。若检索语句以语音形式输入，则本申请的跨模态检索模型还可以包括语音识别模型，用于将语音形式的检索语句转化为文本形式的检索语句。该语音识别模型也可以采用深度学习神经网络实现。

可选地，该步骤207还可以包括：对检索语句进行短语提取，得到至少一个短语。提取方式可以参见前述步骤203的相关描述，在此不再赘述。

步骤208：将检索语句和被检索图像输入到跨模态检索模型中，得到检索语句对应的检索结果。

其中，检索结果可以包括一个或多个图像。

基于前述跨模态检索模型的结构，该步骤208可以包括以下步骤：

第一步、基于第一特征提取模型，在被检索图像中提取包含目标对象的感兴趣区域的图像特征；

第二步、基于第二特征提取模型，在检索语句中提取短语特征；

第三步、基于注意力模型，采用包含目标对象的感兴趣区域的图像特征计算检索语句对应的图像特征值；

第四步、基于相似度计算模型，采用短语特征和图像特征值，计算短语特征和包含目标对象的感兴趣区域的图像特征的相似度，并根据相似度输出检索结果。

可选地，当检索语句中包括一个短语特征时，将相似度大于阈值的图像特征所属的被检索图像作为检索结果输出。

可选地，当检索语句中包括至少两个短语特征时，将平均相似度大于阈值的图像特征所属的被检索图像作为检索结果输出，平均相似度为单个感兴趣区域的图像特征与至少两个短语特征的相似度的平均值。

示例性地，该第四步可以采用公式(7)计算平均相似度。

sim(V_i,P)＝MEAN_j(sim(V_i,p_j)) (7)

其中，sim(V_i,P)表示第i个感兴趣区域的图像特征与检索语句所对应的短语特征的相似度，sim(V_i,p_j)为第j个短语特征和第i个感兴趣区域的图像特征的相似度，MEAN_j表示多个相似度的平均值。

该步骤208的具体实现过程可以参见前述步骤202～步骤206，在此不再赘述。

下述为本公开装置实施例，对于装置实施例中未详尽描述的细节，可以参考上述方法实施例。

请参考图6，其示出了本公开一个实施例提供的跨模态检索装置600的结构框图。该装置包括：获取模块601、图像特征提取模块602、短语特征提取模块 603、特征值计算模块604和检索模块605。

其中，获取模块601用于获取检索语句和被检索图像。图像特征提取模块 602用于基于第一特征提取模型，在被检索图像中提取包含目标对象的感兴趣区域的图像特征。短语特征提取模块603用于基于第二特征提取模型，在检索语句中提取短语特征。特征值计算模块604用于基于注意力模型，采用包含目标对象的感兴趣区域的图像特征计算检索语句对应的图像特征值。检索模块605 用于基于相似度计算模型，采用短语特征和图像特征值，计算短语特征和包含目标对象的感兴趣区域的图像特征的相似度，并根据所述相似度输出检索结果。

可选地，第一特征提取模型包括第一卷积网络、候选区域生成网络RPN感兴趣区域池化层和分类层；图像特征提取模块602用于，将被检索图像输入第一卷积网络，得到被检索图像的特征图；将被检索图像的特征图输入RPN，得到包含对象的感兴趣区域在被检索图像中的位置信息；将被检索图像的特征图和包含对象的感兴趣区域在被检索图像中的位置信息输入感兴趣区域池化层，得到包含对象的感兴趣区域的特征图；将包含对象的感兴趣区域的特征图输入分类层，得到包含对象的感兴趣区域中的对象的类别；对感兴趣区域所包含的对象进行筛选，筛选出包含目标对象的感兴趣区域，并得到包含目标对象的感兴趣区域在样本图像中的位置信息；基于包含目标对象的所述感兴趣区域的位置信息，确定包含目标对象的感兴趣区域的图像特征。

可选地，第二特征提取模型包括嵌入层和第二卷积网络；短语特征提取模块603用于通过嵌入层，将检索语句中的每个字嵌入到特征空间，得到检索语句对应的向量矩阵，向量矩阵包括每个字对应的向量；将向量矩阵输入第二卷积网络，得到短语特征。

可选地，注意力模型包括全连接层、柔性最大值激活函数softmax层和特征值计算模型；特征值计算模块604用于将感兴趣区域的图像特征输入全连接层，得到中间向量；将中间向量输入softmax层，得到感兴趣区域的各个图像特征对应的注意力权重；将短语特征和注意力权重输入至特征值计算模型，得到图像特征值。

可选地，特征值计算模型采用前述公式(3)得到图像特征值。

可选地，相似度计算模型包括映射层和相似度计算层；检索模块605用于将短语特征输入映射层以将短语特征映射到图像特征空间，得到映射后的短语特征，图像特征空间为图像特征值所在的特征空间；将映射后的短语特征和图像特征值输入相似度计算层，得到短语特征和感兴趣区域的图像特征的相似度。

可选地，检索模块605用于，当检索语句中包括一个短语特征时，将相似度大于阈值的图像特征所属的被检索图像作为检索结果输出；当检索语句中包括至少两个短语特征时，将平均相似度大于阈值的图像特征所属的被检索图像作为检索结果输出，平均相似度为单个感兴趣区域的图像特征与至少两个短语特征的相似度的平均值。

可选地，获取模块601还用于获取训练数据集，训练数据集包括样本图像和样本检索语句，每个样本图像包括至少一个目标对象，每个目标对象对应至少一个样本检索语句。所述装置还包括训练模块606，训练模块606用于采用训练数据集，对第一特征提取模型、第二特征提取模型、注意力模型和相似度计算模型进行训练。

可选地，训练模块606用于将样本图像和样本检索语句作为训练输入，基于最大间隔max-margin损失函数，对第一特征提取模型、第二特征提取模型、注意力模型和相似度计算模型进行训练。

参见图7，其示出了本公开实施例提供的一种跨模态检索装置的结构示意图。该装置可能是服务器或者终端，具体来讲：

该装置700包括中央处理单元(CPU)701、包括随机存取存储器(RAM)702 和只读存储器(ROM)703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。装置700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)706，和用于存储操作系统713、应用程序 714和其他程序模块715的大容量存储设备707。

基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出) 连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介质为装置700提供非易失性存储。也就是说，大容量存储设备707可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

根据本公开的各种实施例，装置700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即装置700可以通过连接在系统总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。所述一个或者一个以上程序包含用于进行图 1-2其中任一所提供的跨模态检索方法的指令。

本公开实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由跨模态检索装置的处理器执行时，使得跨模态检索装置能够执行图1-2其中任一提供的跨模态检索方法。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行进行图1-2其中任一提供的跨模态检索方法的指令。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

Claims

1.一种跨模态检索方法，其特征在于，所述方法包括：

获取检索语句和被检索图像；

基于第二特征提取模型，在所述检索语句中提取短语特征；

基于注意力模型，采用所述包含目标对象的感兴趣区域的图像特征和所述短语特征，计算所述感兴趣区域对应的图像特征值；

基于相似度计算模型，采用所述短语特征和所述图像特征值，计算所述短语特征和所述包含目标对象的感兴趣区域的图像特征的相似度，并根据所述相似度输出检索结果。

2.根据权利要求1所述的方法，其特征在于，所述第一特征提取模型包括第一卷积网络、候选区域生成网络RPN、感兴趣区域池化层和分类层；

将所述被检索图像的特征图输入所述RPN，得到包含对象的感兴趣区域在所述被检索图像中的位置信息；

3.根据权利要求1所述的方法，其特征在于，所述第二特征提取模型包括嵌入层和第二卷积网络；

4.根据权利要求1所述的方法，其特征在于，所述注意力模型包括全连接层、柔性最大值激活函数softmax层和特征值计算模型；

所述基于注意力模型，采用所述感兴趣区域的图像特征和所述短语特征，计算所述感兴趣区域对应的图像特征值，包括：

将所述感兴趣区域的图像特征和所述短语特征输入所述全连接层，得到中间向量；

将所述感兴趣区域的图像特征和所述注意力权重输入至所述特征值计算模型，得到所述图像特征值。

5.根据权利要求4所述的方法，其特征在于，所述特征值计算模型采用以下公式得到所述图像特征值：

其中，

为第i个感兴趣区域的图像特征值，N为所述第i个感兴趣区域中的图像特征的数量，a_n,j为第j个短语特征对应的所述第i个感兴趣区域的第n个图像特征的注意力权重，

为所述第i个感兴趣区域的第n个图像特征。

6.根据权利要求1所述的方法，其特征在于，所述相似度计算模型包括映射层和相似度计算层；

7.根据权利要求6所述的方法，其特征在于，所述映射层采用以下公式将所述短语特征映射到所述图像特征空间：

其中，

8.根据权利要求7所述的方法，其特征在于，所述相似度计算层采用以下公式计算映射后的所述短语特征和所述感兴趣区域的图像特征的相似度：

为第i个感兴趣区域的图像特征值，

为映射后的第j个短语特征，·为点积。

9.根据权利要求1所述的方法，其特征在于，所述根据所述相似度输出检索结果，包括以下步骤中的至少一个：

10.根据权利要求1-9任一项所述的方法，其特征在于，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述采用所述训练数据集，对所述第一特征提取模型、第二特征提取模型、所述注意力模型、所述相似度计算模型进行训练，包括：

将所述样本图像和所述样本检索语句作为训练输入，基于最大间隔max-margin损失函数，对所述第一特征提取模型、第二特征提取模型、所述注意力模型和所述相似度计算模型进行训练。

12.一种跨模态检索装置，其特征在于，所述装置包括：

获取模块，用于获取检索语句和被检索图像；

特征值计算模块，用于基于注意力模型，采用所述包含目标对象的感兴趣区域的图像特征和所述短语特征，计算所述感兴趣区域对应的图像特征值；

13.根据权利要求12所述的装置，其特征在于，所述第一特征提取模型包括第一卷积网络、候选区域生成网络RPN、感兴趣区域池化层和分类层；

所述图像特征提取模块用于，将所述被检索图像输入所述第一卷积网络，得到所述被检索图像的特征图；将所述被检索图像的特征图输入所述RPN，得到包含对象的感兴趣区域在所述被检索图像中的位置信息；将所述被检索图像的特征图和所述包含对象的感兴趣区域在所述被检索图像中的位置信息输入所述感兴趣区域池化层，得到包含对象的感兴趣区域的特征图；将所述包含对象的感兴趣区域的特征图输入所述分类层，得到所述包含对象的感兴趣区域中的对象的类别；对感兴趣区域所包含的对象进行筛选，筛选出所述包含目标对象的感兴趣区域，并得到所述包含目标对象的感兴趣区域在所述被检索图像中的位置信息；基于所述包含目标对象的所述感兴趣区域的在所述被检索图像中的位置信息，确定所述包含目标对象的感兴趣区域的图像特征。

14.根据权利要求12所述的装置，其特征在于，所述第二特征提取模型包括嵌入层和第二卷积网络；

15.根据权利要求12所述的装置，其特征在于，所述注意力模型包括全连接层、柔性最大值激活函数softmax层和特征值计算模型；

所述特征值计算模块用于将所述感兴趣区域的图像特征和所述短语特征输入所述全连接层，得到中间向量；将所述中间向量输入所述softmax层，得到所述感兴趣区域的各个图像特征对应的注意力权重；将所述感兴趣区域的图像特征和所述注意力权重输入至所述特征值计算模型，得到所述图像特征值。

16.根据权利要求15所述的装置，其特征在于，所述特征值计算模型采用以下公式得到所述图像特征值：

其中，

为所述第i个感兴趣区域的第n个图像特征。

17.根据权利要求12所述的装置，其特征在于，所述相似度计算模型包括映射层和相似度计算层；

18.根据权利要求17所述的装置，其特征在于，所述映射层采用以下公式将所述短语特征映射到所述图像特征空间：

其中，

19.根据权利要求18所述的装置，其特征在于，所述相似度计算层采用以下公式计算映射后的所述短语特征和所述感兴趣区域的图像特征的相似度：

为第i个感兴趣区域的图像特征值，

为映射后的第j个短语特征，·为点积。

20.根据权利要求12所述的装置，其特征在于，所述检索模块用于，当所述检索语句中包括一个短语特征时，将相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出；当所述检索语句中包括至少两个短语特征时，将平均相似度大于阈值的图像特征所属的所述被检索图像作为检索结果输出，所述平均相似度为单个感兴趣区域的图像特征与所述至少两个短语特征的相似度的平均值。

21.根据权利要求12-20任一项所述的装置，其特征在于，所述获取模块还用于获取训练数据集，所述训练数据集包括样本图像和样本检索语句，每个所述样本图像包括至少一个目标对象，每个所述目标对象对应至少一个所述样本检索语句；

22.根据权利要求21所述的装置，其特征在于，所述训练模块用于，将所述样本图像和所述样本检索语句作为训练输入，基于最大间隔max-margin损失函数，对所述第一特征提取模型、第二特征提取模型、所述注意力模型和所述相似度计算模型进行训练。

23.一种跨模态检索装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至11任一项所述的跨模态检索方法。

24.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至11任一项所述的跨模态检索方法。