CN115599984A

CN115599984A - 一种检索方法

Info

Publication number: CN115599984A
Application number: CN202211404021.0A
Authority: CN
Inventors: 罗迪新; 许洪腾; 王瑜彤; 岳昂枭
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-09-09
Filing date: 2022-11-10
Publication date: 2023-01-13
Anticipated expiration: 2042-11-10
Also published as: CN115578680B; CN115599984B; CN115578680A

Abstract

本公开涉及一种检索方法，属于信息处理技术领域。本公开获取待检数据d和候选匹配数据集

；通过神经网络将d和

投射到同一特征隐空间得到对应于d的隐空间表征

和对应

的隐空间表征

；计算

与

中每一元素间的距离；依据距离排序，输出

中与d匹配度最高的前N个候选元素内容。对比现有技术，本公开提供的方法，通过将视觉和文本两种模态信息投射到同一特征隐空间，使真实世界不同模态的语义信息得以在同一空间进行表达，进而可在这同一特征隐空间中基于距离完成集合匹配，输出基于一种模态检索信息在另一模态对应信息的查找输出。该方法解决了基于一种模态语义在另一模态相同语义的信息检索问题。

Description

一种检索方法

技术领域

本公开涉及信息处理技术领域，尤其涉及一种检索方法。

背景技术

互联网时代技术的迅速发展，推动了图片、视频、文本等多媒体数据的爆发，使得网络及数据库的视频数量急剧增加，由于缺乏有效的视频检索技术，目前还无法实现对视频的深度利用。现有的视频或文本间的互检通常是在数据存储时录入一段文字描述，需要相关数据时，根据检索的文字从众多视频的文字描述中匹配，再将匹配文字对应的视频输出。无法根据文字或视频自身的语义信息进行彼此间的检索。因此目前迫切需要实现视频与文本之间基于语义的互相检索，以实现对数据的有效组织，便于充分利用现有数据。在视频搜索引擎、视频点播、视频摘要等多媒体应用中，根据指定文本描述检索相关视频，或者根据一段视频检索相关文本描述，是当前迫切需要的信息检索场景，因此，需要尽快实现视频与文本两种不同模态信息基于语义的相互检索，以使计算机世界与人类认识世界的方式相符。

发明内容

本公开的目的是为了克服或者部分克服上述技术问题，提供一种检索方法。

第一方面，本公开实施例提供一种检索方法，包括：

通过神经网络将待检数据d和候选匹配数据集

投射到同一特征隐空间，得到对应于d的隐空间表征

和对应

的隐空间表征

；

计算

与

中每一元素间的距离；

依据距离排序，输出

中与d匹配度最高的前N个候选元素内容。

第二方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现第一方面所述的方法。

第三方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

有益效果

本公开提供的方法，通过将视觉和文本两种模态信息投射到同一特征隐空间，使真实世界不同模态的语义信息得以在同一空间进行表达，进而可在这同一特征隐空间中基于距离完成集合匹配，输出基于一种模态检索信息在另一模态对应信息的查找输出。该方法解决了基于一种模态语义在另一模态相同语义的信息检索问题。进一步，本公开利用US-FGW计算文本和视频在隐空间中的距离，该距离能够充分挖掘两种模态信息间点和结构的相似性，应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰，实现两种模态语义信息的度量与真实世界一致。进一步利用B-ADMM方法对US-FGW距离求解可大幅提高最优传输矩阵T以及US-FGW距离的求解效率，进而提高神经网络训练速度以及不同模态数据互检效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1示出了一种检索方法示意图；

图 2 示出了又一种检索方法示意图；

图 3示出了文本和视频的距离关系示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

现有的视频或文本间的互检通常是在数据存储时录入一段文字描述，需要相关数据时，根据检索的文字从众多视频的文字描述中匹配，再将匹配文字对应的视频输出。无法根据文字或视频自身的语义信息进行彼此间的检索。为了克服或者部分克服上述技术问题，本公开提供一种检索方法。该方法能够根据语义信息在不同模态的数据中检索，并输出符合对应语义信息的检索内容。

图1示出了一种检索方法，如图1所示，该方法根据给定文本检索具备对应文本内容的视频，输入数据为待检文本数据d和候选匹配视频数据集

，包括以下内容：

S1、获取待检文本数据d和候选匹配视频数据集

；

S2、通过神经网络将d和

投射到同一特征隐空间得到对应于d的隐空间表征

和对应于

的隐空间表征

；

S3、计算

与

中每一元素间的距离；

S4、依据距离排序，输出

中与d相似度最高的前N个视频。

图2示出了又一种检索方法，如图2所示，该方法根据给定视频检索能够表达视频语义的文本描述，输入数据为待检视频数据d和候选匹配文本数据集

，包括以下内容：

S1、获取待检视频数据d和候选匹配文本数据集

；

S2、通过神经网络将d和

投射到同一特征隐空间得到对应于d的隐空间表征

和对应于

的隐空间表征

；

S3、计算

与

中每一元素间的距离；

S4、依据距离排序，输出

中与d匹配度最高的前N个文本。

上述实施例通过将视频和文本两种模态数据投射到同一特征隐空间，使真实世界不同模态的语义信息得以在同一空间中进行表达，进而可在这同一特征隐空间中基于距离计算完成集合匹配，输出基于一种模态检索信息在另一模态对应语义信息的查找输出。该方法解决了基于一种模态语义在另一模态相同语义的信息检索问题。并且该方法可以基于集合监督这种弱监督方式训练神经网络，对训练数据要求低。如影片及其标签对，商品描述及其视频对等。

具体的，通过神经网络实现投射，是将同类型的神经网络分别用于视频中视频帧特征和文本标签特征的投射，并分别用训练数据对两个神经网络进行训练，使其学习视频和文本的语义信息，输出隐空间码作为视频帧特征和文本特征在隐空间的表示。然后用经训练的神经网络对待检索视频或文本、候选文本集或视频集等输入特征进行变换，得到对应的隐空间表征，由于同一特征隐空间的语义表示一致，因此可以在此空间根据距离进行相似度度量，距离越近、相似度越高。本例的神经网络可使用任意神经网络，如自动编码器、变分自编码器VAE等。通过自动编码器的编码器可将输入的视频特征或标签文本特征投射到隐空间，该隐空间特征再经过解码器即可变换回原视频特征或标签文本特征。该原理正如三维坐标与球坐标的变换一样。

具体的，距离的计算可采用现有任何基于集合的距离计算方法，如瓦瑟斯坦距离、格罗莫夫-瓦瑟斯坦等。由于瓦瑟斯坦距离、格罗莫夫-瓦瑟斯坦等距离计算方法：（1）对于视频中存在的很多无实义的背景帧，模型不需要将文本与这些背景帧进行匹配，只需将文本与非背景帧进行匹配即可，然而上述距离并不能实现这种部分匹配的机制。（2）当视频或文本的隐空间表征维度很高时，距离矩阵

，

和

的值可能会由于维度的原因，变得不可信或者不可区分，造成模型性能下降。因此，本公开采用US-FGW距离，通过该距离能够综合考虑视频帧的表征和文本的表征之间的点相似性与结构相似性，应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰，在隐空间中对两类表征进行匹配，实现两种模态语义信息的度量与真实世界一致。如图3所示，视频和文本分别进入各自的编码器，获得各自在隐空间的特征（也即编码），然后基于上述距离进行匹配，最后输出

中匹配度最高的top-N检索结果即可。US-FGW距离代表着视频与文本之间的匹配程度，距离越小，相似度越高，二者愈匹配；反之，愈不匹配。

US-FGW距离表示如下：

；

其中，

和

为两个待计算距离的集合，

，

，集合

有

个元素，其中每个元素

为一个D维的向量，集合

有

个元素，其中每个元素

为一个D维的向量。

表示矩阵

和矩阵

之间的点积。

表示控制瓦瑟斯坦（Wasserstein）项

和格罗莫夫瓦瑟斯坦（GW）项

两项权重关系的超参数。

表示控制两个KL正则项在US-FGW距离中的权重的超参数，该正则项能够使模型学习到不同视频帧的重要性（比如，

），视频帧与文本的匹配情况（比如，

），同时避免生成平凡解（比如，

）。KL散度正则项用于衡量两个概率分布函数

和

之间的距离，定义为

。

表示矩阵

和矩阵

之间的点积，上标

表示矩阵转置。

表示长度为

，值全为1的均匀分布。

表示长度为

，值全为1的均匀分布。

表示长度为

，值全为

的均匀分布。

表示长度为

，值全为

的均匀分布。

表示隐空间表征

与隐空间表征

元素间的距离矩阵，

表示隐空间表征

元素间的距离矩阵，

表示隐空间表征

元素间的距离矩阵。最优传输矩阵

中元素

表示

中第i个元素与

中第j个元素间的距离。

US-FGW距离通过综合考虑瓦瑟斯坦距离

和格罗莫夫-瓦瑟斯坦距离

，并通过超参数

控制二者间的权重比例，能够根据集合元素（隐空间表征）之间的点相似性和集合间元素对之间的相似性（结构相似性）计算最优传输矩阵，减小视觉信息与文本信息之间的语义差异。如图3所示，文本“Jumping”和“Flying”可能对应于不同视频，比如“蹦极跳跃视频”和“滑翔跳跃视频”。“蹦极跳跃视频”和“滑翔跳跃视频”的隐空间表征是会存在一些差异的，使得文本“Jumping”和“Flying”的隐空间表征可能不能够与两个视频的隐空间表征很好地匹配起来。当仅通过瓦瑟斯坦项，文本“Flying”可能会错误地与视频“滑翔跳跃视频”中的视频帧“Jumping”进行匹配。然而，当考虑到表征之间的对相似性（基于GW项），隐空间中文本“Jumping”和“Flying”之间的距离可以与视频“蹦极跳跃视频”和“滑翔跳跃视频”的相应视频帧之间的距离相似。因此，结合瓦瑟斯坦距离和格罗莫夫-瓦瑟斯坦距离的匹配结果更加可靠。此外，由于对于视频中存在的很多无实义的背景帧，模型不需要将文本与这些背景帧进行匹配，只需将文本与非背景帧进行匹配即可，然而瓦瑟斯坦距离和格罗莫夫-瓦瑟斯坦距离并不能实现这种部分匹配的机制。并且当视频或文本的隐空间表征维度很高时，距离矩阵

，

和

的值可能会由于维度的原因，变得不可信或者不可区分，造成模型性能下降。因此，US-FGW距离中增加了边缘分布的内容（对于传输矩阵的边缘分布，不再对它们施加严格的相等限制，而是添加了两个正则项，通过惩罚它们与均匀分布（

和

）之间的KL散度来作为限制条件。两个正则项的权重由超参数

控制。通过该正则项能够使模型学习到不同视频帧的重要性（比如，

），视频帧与文本的匹配情况（比如，

），同时避免生成平凡解（比如，

）。），并且将距离矩阵（比如，

，

和

）替换为基于隐空间表征的核矩阵（可以是任意核矩阵，比如径向基核函数（RBFkernel）、余弦相似度（cosine similarity）等等）。基于隐空间表征的核矩阵也称为代价矩阵，元素值表示一个隐空间码与另一个隐空间码之间的移动代价。

对于图1所示的检索方法，

为文本数据d中若干文本的隐空间表征，

为候选匹配视频数据集

中的任一个视频。如d为“动作周星驰少林足球”，

为若干个电影片段，检索的语义为从各候选视频中找出包含“动作周星驰少林足球”文本语义的内容。此时，

为文本动作、周星驰、少林或足球的隐空间码，四个隐空间码构成文本的隐空间表征；

为视频

第j帧的隐空间码，所有帧的隐空间码构成视频的隐空间表征。

对于图2所示的检索方法，与图1同理，

为视频数据d中帧对应的隐空间码，

为

中某个候选文本

中的第j个文本对应的隐空间码。US-FGW距离计算出视频d的隐空间表征（视频帧隐空间码集合）与

中某个文本的隐空间表征（文本隐空间码集合）间的距离。该距离能够衡量出两个集合间的语义相似程度，距离愈近，相似度愈高；反之，愈低。

上述距离矩阵

，

和

可以看做是核矩阵，由任意核函数度量，如径向基核函数（RBF kernel）和余弦相似度（cosine similarity）等。

具体的，当自动编码器为概率型时：

对于给定视频帧

，视频自动编码器可表示为：

编码：

解码：

对于给定文本

，文本自动编码器可表示为：

编码：

解码：

其中，

是一个服从正态分布的随机向量，

表示该随机向量的方差，

和

表示视觉编码器输出的后验分布的均值和对数方差，视觉隐空间码满足高斯分布

，

和

表示文本编码器输出的后验分布的均值和对数方差，文本隐空间码满足高斯分布

，

表示元素的乘积，

表示视觉编码器，

表示视觉解码器，

表示文本编码器，

表示文本解码器。通过使用重参数化的技巧，可以在隐空间码中进行采样，比如

和

，其中，

表示第i个视频帧

的隐空间码，

表示第j个文本

的隐空间码，之后对它们进行解码。

帧视频帧和

个文本分别经概率型编码器进行编码之后得到两个高斯混合模型，比如

和

。

此时

，

，其中i，j，k，l，m，n都是整数，且1≤i，k，l≤I，1≤j，m，n≤J；各元素值可通过下式计算：

其中，b 表示核的带宽，

表示欧几里得范数的平方。

在一个具体实施方式中，自动编码器还可以是确定型的，此时：

对于给定的一个视频帧

，视频自动编码器表示为：

编码：

解码：

对于给定的一个文本

，文本自动编码器表示为：

编码：

解码：

其中，

为

对应的隐空间码，

为

对应的隐空间码，

表示视觉编码器，

表示视觉解码器，

表示文本编码器，

表示文本解码器。

当采用确定型自动编码器时，比如瓦瑟斯坦自动编码器（Wassersteinautoencoder），编码器直接输出对数据编码之后的隐空间码，比如

和

。在这种情况下，模型可以直接通过对隐空间码解码来重构视频帧与文本数据。

此时

，

其中，b 表示核的带宽，

表示欧几里得范数的平方。

通过上述不同类型的自动编码器可实现不同数据类型、数据集合从真实世界到隐空间的准确语义建模。从而进一步基于该准确的语义建模进行不同模态数据集合距离的度量，完成检索任务。

上述US-FGW距离可以使用现有任何求解方法计算，如辛克霍恩算法（Sinkhornalgorithm）、邻近点算法（Proximal point algorithm，PPA）等。在一个具体实施方式中，通过布里格曼交替方向乘子法（Bregman Alternating Direction Method of Multipliers，B-ADMM）计算。B-ADMM方法可大幅提高最优传输矩阵T以及US-FGW距离的求解效率，进而提高神经网络训练速度以及不同模态数据互检效率。

下述为通过B-ADMM计算US-FGW距离的具体过程：

S41 引入三个辅助变量

，

和

，将US-FGW距离等价改写成：

（1）

这三个辅助变量的含义分别对应着最优传输矩阵

以及它的两个边缘分布。

S42 对式（1）中的三个限制条件

引入三个对偶变量

，

，从而将该问题进一步改写成布里格曼增强的拉格朗日函数的形式。在给予辅助变量和对偶变量初始值之后，通过应用交替优化策略，不断地依次更新

、辅助变量和对偶变量，直到获得最优传输矩阵

。

S43将

代入US-FGW距离公式得到US-FGW距离。

具体的，US-FGW距离解算过程如下：

S421 对偶变量初始化为零矩阵和零向量，辅助变量

初始化为均匀矩阵

，辅助变量

和

初始化为服从单纯形的随机向量，如

和

，其中

-单纯形可用符号

表示。

S422 在第 k 次循环中，改写式（1）为关于

的布里格曼增强的拉格朗日函数的形式，同时通过一种闭式解的形式更新

：

其中，

是一个双随机矩阵的集合，其中矩阵的两侧边缘分布分别服从分布

和

，模型一般设置边缘分布为均匀分布，如

和

，

同样表示一个双随机矩阵的集合，其中矩阵的一侧边缘分布服从分布

，而另一侧边缘分布无限制。

表示布里格曼交替方向乘子法中的用于控制方法收敛速率的超参数

表示将矩阵的每一行通过归一化指数函数（Softmax）。

S423 在第 k 次循环中，改写式（1）为关于

的布里格曼增强的拉格朗日函数的形式，同时通过一种闭式解的形式更新变量

：

其中，

表示一个双随机矩阵的集合，其中矩阵的一侧边缘分布服从分布

，而另一侧边缘分布无限制。

表示将矩阵的每一列通过归一化指数函数（Softmax）。

S424 在第 k 次循环中，以类似的形式更新辅助变量

和

：

其中，

表示将向量通过归一化指数函数（Softmax）。

S425 通过交替方向乘子法（ADMM）的形式更新对偶变量：

重复上述步骤 S422-S425，直至变量

收敛（如在相邻两次迭代中，变量T的变化值低于某一设定阈值），得到最优传输矩阵

，将该矩阵代入US-FGW距离公式中，即可求得 US-FGW 距离。

神经网络的训练：

上述方法中由于隐空间的投射需要使用神经网络，在应用上述方法完成检索任务前，需要对神经网络进行训练。本例训练时设置神经网络的目标函数包括视觉重构误差项，文本重构误差项以及US-FGW项。通过随机梯度下降算法（SGD），比如 Adam，来更新视觉和文本自动编码器。

具体的，设置目标函数如下：

其中，

表示训练数据集

中的视频文本对，

和

为视觉编码器与解码器，

和

为文本编码器与解码器。

和

分别是用于定量计算视频帧重构误差与文本重构误差的误差类型，如均方误差。

表示US-FGW 距离的权重。

通过上述描述，本公开具有如下特点：

1、基于隐空间，可以将真实世界中不同模态数据的语义在同一空间进行表达，从而实现不同模态数据基于语义的距离度量，进而实现不同模态数据的互检。

2、通过自动编码器实现不同模态——视频特征、文本特征在隐空间的语义映射，简化了神经网络设计的复杂度。

3、利用US-FGW计算文本和视频在隐空间的距离，该距离能够充分挖掘两种模态信息间的点和结构相似性，应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰，实现两种模态语义信息的度量与真实世界一致。

4、利用B-ADMM方法对US-FGW距离求解可大幅提高最优传输矩阵T的求解效率，进而提高神经网络训练速度以及不同模态数据互检效率。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。