CN112488133B

CN112488133B - 一种视频/图片-文本跨模态检索方法

Info

Publication number: CN112488133B
Application number: CN202011501900.6A
Authority: CN
Inventors: 杨阳; 位纪伟
Original assignee: Guizhou University; Guangdong Electronic Information Engineering Research Institute of UESTC
Current assignee: Guizhou University; Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2022-06-14
Anticipated expiration: 2040-12-18
Also published as: CN112488133A

Abstract

本发明公开了一种视频/图片‑文本跨模态检索方法，在损失函数设计的两个关键准则下(损失函数的值随着与正对相似度分数成反比，与负对相似度分数成正比；不同的相似度分数应有不同的惩罚强度)构建了一个新的指数损失函数，该指数损失函数能为不同的视频/图片、文本依据它们的相似度分配不同的权重值，从而加速深度度量学习模型收敛，并学习获得高度鲁棒的视频/图片映射、文本映射的网络参数，提高跨模态检索精度，同时，极大减少了深度度量学习过程中的超参数，在保证精度和收敛速度的前提下，减少实验验证超参数的工作量。

Description

一种视频/图片-文本跨模态检索方法

技术领域

本发明属于视频/图片-文本跨模态检索技术领域，更为具体地讲，涉及一种视频/图片-文本跨模态检索方法。

背景技术

跨模态检索是指不同模态的数据相互检索的过程。当前主流的跨模态检索方法是学习一个公共的共享空间，将不同模态的特征映射到共享空间内以消除模态间的语义鸿沟，并计算不同模态特征之间的相似度分数。这通常是由度量学习驱动的，通过训练，将匹配对彼此拉近，将不匹配对相互分开，度量模型能够学习到高度鲁棒的多模态表征。

现有的视频/图片-文本跨模态检索方法可以分类两类：全局对齐和局部对齐。全局对齐方法将视频/图片特征、文本特征映射分别映射为一个全局向量，并在全局向量上计算视频/图片-文本之间的相似度分数；局部对齐方法是提取视频/图片的局部区域特征，并计算视频/图片的局部特征和文本的单词特征之间的相似度分数。

深度度量学习是跨模态检索的一个重要成分，通过深度度量学习可以获取视频/图片映射、文本映射的网络参数，将视频/图片特征、文本特征映射到共享空间。通常来说，深度度量学习方法都是通过设计一个基于成对或者三元组的代理来实现。在现有技术中，深度度量学习主要通过设计样本采样策略和样本加权策略来实现。这些方法大都具有多个超参数，难以在实际中进行应用。

尽管现有视频/图片-文本跨模态检索方法取得了极大的成就，但是深度度量学习模型采用的都是无权重的三元组损失。无权重的三元组损失平等对待所有的视频/图片-文本对，忽略了不同对之间的差别，导致深度度量学习模型收敛速度较慢且跨模态检索精度较低。

同时，现有视频/图片-文本跨模态检索方法中，跨模态的深度度量学习含有大量的超参数。而超参数的选取是非常困难的，需要大量的实验验证。

发明内容

本发明的目的在于克服现有技术的不足，提供一种视频/图片-文本跨模态检索方法，以提高深度度量学习模型的收敛速度，并学习获得高度鲁棒的视频/图片映射、文本映射的网络参数，提高跨模态检索精度，同时，减少深度度量学习过程中的超参数，减少实验验证超参数的工作量。

为实现上述发明目的，本发明视频/图片-文本跨模态检索方法，其特征在于，包括以下步骤：

(1)、视频/图片特征、文本特征提取及映射

依次输入N个视频/图片-文本对，对视频/图片-文本对中视频/图片进行特征提取，得到视频/图片特征F_i ^V，然后经过视频/图片网络映射(编码)，得到视频/图片编码d_vi；对视频/图片-文本对中文本进行词转向量(Doc2Vec)，得到文本特征F_i ^T，然后经过文本网络映射(编码)，得到文本编码d_ti；其中，i＝1,2,...,N，为视频/图片-文本对的序号；

(2)、计算正对相似度以及负对相似度

计算视频/图片编码d_vi与文本编码d_ti相似度并作为正对相似度s_ii；

计算视频/图片编码d_vi与文本编码d_tj,j≠i的相似度并作为负对相似度s_ij，选择负对相似度s_ij最大的作为最难负样本，记为

其中，

为最大的负对相似度s_ij对应的文本编码序号；

计算视频/图片编码d_vi,i≠j与文本编码d_tj的相似度并作为负对相似度s_ij，选择负对相似度s_ij最大的作为最难负样本，记为

其中，

为最大的负对相似度s_ij对应的视频/图片编码序号；

(3)、计算指数损失L_exp

其中，α,β,τ为超参数；

(4)、训练视频/图片网络、文本网络

不断输入N个视频/图片-文本对，按照步骤(1)～(3)计算出损失，依据计算出的损失，通过后向传播更新视频/图片网络、文本网络，直至收敛；

(5)、视频/图片文本跨模态检索

5.1)、构建视频/图片、文本检索库

使用训练好的视频/图片网络，对一定数量的视频/图片分别进行特征提取、映射，依据得到的视频/图片编码构建视频/图片检索库，同时，使用训练好的文本网络，对一定数量的文本进行词转向量、映射，得到的文本编码构建文本检索库；

5.2)、跨模态检索

对于一视频/图片，经过特征提取、映射后得到视频/图片编码，然后计算与文本检索库中文本编码之间的余弦距离，进而根据余弦距离的大小顺序，依次输出视频/图片-文本检索结果；

对于一个文本，词转向量、映射，得到的文本编码，然后计算与图片检索库中视频/图片编码之间的余弦距离，进而根据余弦距离的大小顺序，依次输出文本-视频/图片检索结果。

本发明的目的是这样实现的。

本发明视频/图片-文本跨模态检索方法，在损失函数设计的两个关键准则下(损失函数的值与正对相似度分数成反比，与负对相似度分数成正比；不同的相似度分数应有不同的惩罚强度)构建了一个新的指数损失函数，该指数损失函数能为不同的视频/图片、文本依据它们的相似度分配不同的权重值，从而加速深度度量学习模型收敛，并学习获得高度鲁棒的视频/图片映射、文本映射的网络参数，提高跨模态检索精度，同时，极大减少了深度度量学习过程中的超参数，在保证精度和收敛速度的前提下，减少实验验证超参数的工作量。

附图说明

图1是本发明视频/图片-文本跨模态检索方法一种具体实施方式流程图；

图2是现有三元组损失与本发明中指数损失的原理示意图，其中，(a)是现有(经典)的三元组损失原理示意图，(b)是本发明中指数损失的原理示意图；

图3是指数损失与现有三元组损失在标准数据集上的收敛速度对比图，其中，(a)为MS-COCO数据集，(b)为TGIF数据集。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

度量学习的优化目标是极大化正负样本对之间相似度分数的鸿沟，通常是极大化正对之间的相似度分数，同时极小化负对之间的相似度分数。这可以通过减小一个预定义的损失函数来实现。因此，用于损失函数的一个基本准则就是，损失函数的值随着与正对相似度分数成反比，与负对相似度分数成正比。

最近的研究表明，不同的样本对在度量模型训练过程中所占的比重不同，因此，在计算损失的时候，不同的样本对应有不同的惩罚强度。而加权策略可以为不同的样本对分配不同的权重，是学习鲁棒特征的一个关键因子。

这样设计损失函数有两个关键准则：(1)损失函数的值随着与正对相似度分数成反比，与负对相似度分数成正比；(2)不同的相似度分数应有不同的惩罚强度。其数学表现形式如下：

其中，N为训练时批的大小，S_ii和S_ij,i≠j分别为正样本对和负样本对的相似度分数，W_p和W_n分别为相似度的权重系数，λ为常数，下表加号为取非零数，即是正数不变，是负数则取值为0。W_p和W_n的值随着相似度分数的变化。W_p随着正对相似度分数的增加而下降，W_n随着负对相似度的增加而增加。通常，模型对相似度较大的正对和相似度较小的负对拟合较好，这些样本在训练中应具有较小的比重。相反，度量模型对相似度较小的正对和相似度较大的负对拟合效果较差，这些样本在训练中应具有较大的比重。W_p和W_n可以定义为相似度分数的函数：

其中，Θ_p和Θ_n是超参数的集合。注意的是，W_p和W_n都是有符号的，对于常用的三元组损失来说，W_p＝-1，W_n＝1，W_p和W_n的函数形式是离散的，但它们都满足以下约束，即：

将以上两个约束带入L中，可以得到：

其中，F满足以下约束条件：

上述公式是一个通用的公式，它可以将已有的损失函数整合到一个统一的公式内，是损失函数通用权重框架。

在损失函数设计的两个关键准则下，本发明为视频/图片-文本跨模态检索方法设计了一个新的指数损失函数，在本实施例中，如图1所示，本发明视频/图片-文本跨模态检索方法具体为：

步骤S1：视频/图片特征、文本特征提取及映射

依次输入N个视频/图片-文本对，对视频/图片-文本对中视频/图片进行特征提取，得到视频/图片特征F_i ^V，然后经过视频/图片网络映射(编码)，得到视频/图片编码d_vi；对视频/图片-文本对中文本进行词转向量(Doc2Vec)，得到文本特征F_i ^T，然后经过文本网络映射(编码)，得到文本编码d_ti；其中，i＝1,2,...,N，为视频/图片-文本对的序号。

步骤S2：计算正对相似度以及负对相似度

计算视频/图片编码d_vi与文本编码d_ti相似度并作为正对相似度s_ii。

难负样本是模型学习鲁棒和丰富表征的关键因素。因此，本发明在设计的指数损失函数中，采用难样本挖掘策略来选择mini-batch内的最难负样本进行训练。

其中，

为最大的负对相似度s_ij对应的文本编码序号。

其中，

为最大的负对相似度s_ij对应的视频/图片编码序号。

步骤S3：计算指数损失L_exp

理论上来说，广义度量框架中的F(·；Θ)可以是自相似度分数的函数，也可以是相对相似度的函数。在本发明中，为了减少超参数的数量，设计一个指数函数来将权重和自相似度分数关联起来。本发明设计的指数损失L_exp可以表示如下：

其中，α,β,τ为超参数。

公式(6)即本发明设计的指数损失函数包含两项：第一项表示视频/图片检索文本的损失，第二项表示文本检索视频/图片的损失。而标准的三元组损失通过相减操作S_ij-S_ii来使正负样本相互对抗。不同于三元组损失，本发明中的指数损失提供了一种新的正负样本对抗方式，即：

且L_exp∝S_ij

图2是现有三元组损失与本发明中指数损失的原理图。

如图2(a)所示，经典的三元组损失通过将作为正样本的文本编码P和作为负样本的文本编码N₁、N₂推向两个同心圆的边界来优化度量学习模型，其中，作为正样本的文本编码P推向内圈同心圆的边界，作为负样本的文本编码N₁、N₂推向外圈同心圆的边界。如图2(b)所示，本发明中指数损失通过将作为正样本的文本编码P推向内圈同心圆的边界内，作为负样本的文本编码N₁、N₂推向外圈同心圆的边界外，这样通过极大化正样本对的相似度，同时极小化负样本的相似度来优化度量学习模型。相比经典的三元组损失，指数损失能极大化正负对之间的差距，加速深度度量学习模型收敛，并学习获得高度鲁棒的视频/图片映射、文本映射的网络参数，提高跨模态检索精度。

步骤S4：训练视频/图片网络、文本网络

步骤S5：视频/图片文本跨模态检索

步骤S5.1：构建视频/图片、文本检索库

使用训练好的视频/图片网络，对一定数量的视频/图片分别进行特征提取、映射，依据得到的视频/图片编码构建视频/图片检索库，同时，使用训练好的文本网络，对一定数量的文本进行词转向量、映射，得到的文本编码构建文本检索库。

步骤S5.2：跨模态检索

对于一视频/图片，经过特征提取、映射后得到视频/图片编码，然后计算与文本检索库中文本编码之间的余弦距离，进而根据余弦距离的大小顺序，依次输出视频/图片-文本检索结果。

对于一个文本，词转向量、映射，得到的文本编码，然后计算与视频/图片检索库中视频/图片编码之间的余弦距离，进而根据余弦距离的大小顺序，依次输出文本-视频/图片检索结果。

对比

为了公平比较，对于所有的方法，我们保持网络结构不变，仅将原先采用的三元组损失替换为本发明的指数损失。此外，采用与原方法相同的实验设定，具体包括，相同的batchsize，相同的优化器，相同的学习率等。我们采用Recall@k(k＝1,5,10)来评价模型的性能，Recall@k是跨模态检索领域最常用的评价指标，它表示在返回的前k个结果中有正确标签的查询样例所占的比例。我们分别在图片-文本检索任务和视频-文本检索任务上验证指数损失的优越性。对于图片-文本检索任务，我们在两个数据集上验证模型，Flickr30K和MS-COCO。这两个数据集是当前使用最频繁的数据集。将指数损失应用于当前性能最好的GSMN模型上来验证其优越性。在两个数据集上的实验结果分别如表1和表2所示。

表1

表2

表1是Flickr30K数据集上的实验结果，表2是在MS-COCO数据集上的实验结果。

从表1、2的实验结果可以看出，本发明中设计的指数损失能显著提高GSMN的检索性能。在Flickr30K数据集上，对于图片检索文本任务，GSMN能将Recall@1提高1.8。在大规模检索数据集MS-COCO上，对于文本检索图片任务，GSMN能个Recall@1提高1.0。

为进一步验证指数损失的泛化性能，我们将其应用到三个视频文本匹配方法上，CE，MMT和HGR。为保证公平，我们依然采用与方法相同的网络结构，并使用相同的实验设定。对于CE模型，我们在大规模视频-文本匹配数据集MSR-VTT上进行训练。对于MMT，我们在视频动作-文本检索数据集上进行训练，以验证模型的泛化性能。对于HGR我们在具有GIF格式视频的TGIF数据集上进行训练。实验结果分别总结在表3、4、5中。

表3

表4

表5

表3是本发明在ActivityNet-Captions数据集上的实验结果，表4是本发明在MSR-VTT数据集上的实验结果，表5本发明在TGIF数据集上的实验结果。从表3、4、5的实验结果可以看出，经过将三元组损失替换为本发明提出的指数损失，多个模型能获得一致的性能提升。

此外，为了验证本发明的收敛性能，我们画出其在验证集上的性能上升曲线。曲线呈现在图3中，从图3中可以看出，本发明提出的指数损失比三元组损失收敛更快且最终的效果更好。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种视频/图片-文本跨模态检索方法，其特征在于，包括以下步骤：