CN115578680B

CN115578680B - 一种视频理解方法

Info

Publication number: CN115578680B
Application number: CN202211405957.5A
Authority: CN
Inventors: 罗迪新; 许洪腾; 王瑜彤; 岳昂枭
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-09-09
Filing date: 2022-11-10
Publication date: 2023-06-02
Anticipated expiration: 2042-11-10
Also published as: CN115599984B; CN115578680A; CN115599984A

Abstract

本公开涉及一种视频理解方法，属于视频处理技术领域。通过将视频

的帧特征和标签集

中的标签投射到同一特征隐空间，分别得到二者的隐空间表征

和

；计算

中各元素和

中各元素之间的相似度矩阵；将所述相似度矩阵中高于预设相似度阈值的元素对应的标签集中的标签，赋予视频。对比现有技术，本公开提供的方法，利用视觉和文本两种模态信息，将给定的视频帧数据和文本数据投射到同一特征隐空间，实现两种模态数据的统一表征；之后在该隐空间中，基于隐空间码的相似性实现视频帧与文本的匹配。该种方法能够在集合监督的弱监督情况下，鲁棒性地应对视觉‑文本对应关系的不确定性以及无实义背景帧造成的干扰，实现最优的视频理解。

Description

一种视频理解方法

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频理解方法。

背景技术

目前，我们处于一个视频主导的时代，视频与我们的生活息息相关，每天都有大量的视频产出并被投放到各平台，其中包括用户自制视频、影视作品、监控数据、医疗影像等。对这些海量视频数据进行准确理解对于提高视频的推荐准确度和提升用户体验有着重要作用。因此，准确理解视频内容，具有重要的研究意义和应用价值。理解视频，即为一段视频或其每一帧分配文字（词）描述作为标签。现在常用的视频理解模型是神经网络。并且大都采用全监督的方式进行模型的训练，但这种方式要求对视频训练数据集中的每一帧进行标注，费时费力，并且对于标注节点及内容存在一定的主观性，对于长视频来说还存在标注错误的风险。通过此种大规模的细粒度标注的视频数据来训练神经网络模型，往往需要消耗大量的计算资源和存储空间，使得模型难以训练，难于迁移到实际应用中。因此，目前迫切需要一种能够采用集合监督方式的视频理解方法，充分利用现有视频数据内容训练神经网络，并将其用于视频理解。集合监督方式，是指只给定视频中出现的动作标签，而不给定它们的出现次序以及出现频率，即不对具体的视频帧进行标注。这类数据集在生活中广泛存在，如电影及其分类，自制短视频及其特征描述等。

发明内容

本公开的目的是为了克服或者部分克服上述技术问题，提供一种视频理解方法方法。

第一方面，本公开实施例提供一种视频理解方法，包括：

将视频

的帧特征和标签集/>

中的标签投射到同一特征隐空间，分别得到二者的隐空间表征/>

和/>

；

计算

中各元素和/>

中各元素之间的相似度矩阵；

将所述相似度矩阵中高于预设相似度阈值的元素对应的标签集中的标签，赋予视频或视频帧。

第二方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现第一方面所述的方法。

第三方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法。

有益效果

本公开提供的方法，利用视觉和文本两种模态信息，将给定的视频帧数据和文本数据投射到同一特征隐空间，实现两种模态数据的统一表征；之后在该隐空间中，基于隐空间码的相似性实现视频帧与文本的匹配。该种方法能够实现基于集合监督的神经网络训练，对训练数据要求低；同时还可以进一步通过US-FGW距离将视频中无意义的背景帧剔除。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1示出了一种视频理解方法示意图；

图 2 示出了一种视频理解方法训练模型示意图；在隐空间（中间灰色方框）中，视频帧与相关（正）文本的隐空间码分别用黑色和深黑色的点表示，非相关（负）文本用灰色的圆圈表示；

图3 示出了一种视频理解方法训练过程示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

现有的应用神经网络的视频理解方法存在如下两方面缺陷：1、只考虑视觉这一种模态信息，不能充分利用和挖掘视频数据中的不同模态信息，不利于深入全面地理解视频数据。2、神经网络的训练采用全监督方式，需要大量的细粒度标注（帧级）的视频数据，标注工作费时费力，且存在主观性，容易标注错误。为了克服或者部分克服上述技术问题，本公开提供一种视频理解方法。

图1示出了一种视频理解方法，如图1所示，该方法包括以下内容：

S1、将视频

的帧特征和标签集/>

和/>

；

S2、计算

中各元素和/>

中各元素之间的相似度矩阵；

S3、将相似度矩阵中高于预设相似度阈值的元素对应的标签集中的标签，赋予视频。

本公开提供的上述方法摒弃了只利用视频这一个模态数据进行视频理解的做法，通过将不同模态数据——视觉和文本投射到同一特征隐空间，实现两种模态数据的统一表征，使二者具备可度量性，进而通过在该隐空间基于隐空间码特征的相似性计算彼此间距，且因为间距愈短相似性愈高，从而将相似度高的不同模态特征匹配起来，实现视频理解，即将能够表现视频内容特点的文本赋予视频。

具体的，对于S1，投射可通过神经网络实现。将具有相同结构的神经网络分别用于视频帧特征和文本标签特征的投射，并分别用训练数据对两个神经网络进行训练，使其学习隐空间码。然后用经训练的神经网络对待理解视频输入特征进行变换，得到对应的隐空间表征。此处的神经网络可使用任意神经网络类型，如自编码器AE。

该实施例使得视频理解能够充分利用视频和文本两种模态信息，基于现有大量存在的视频数据训练神经网络，并且不必采用全监督方式，由于二者是在同一隐空间度量相似性，因此基于集合监督这种弱监督模式即可完成神经网络的训练，进而应用训练好的模型通过上述方法实现视频理解。

具体的，对于帧集合

，编码器/>

，将帧特征编码成对应的隐空间码，解码器/>

将隐空间码还原成帧特征。类似地，对于文本集合 />

，编码器

，将文本特征编码成对应的隐空间码，解码器/>

通过隐空间码来预测输入文本信息。通过对编、解码器的训练，使经过编码器编码后的隐空间码解码后尽可能与原始视频帧或文本相同。其中，/>

为视觉特征在隐空间中表征的维度，/>

为文本特征在隐空间中表征的维度。当给定帧集合/>

和文本集合/>

，以上两个编码器分别将它们投影到隐空间，得到两个对应的隐空间码的集合，分别记作 />

和

。在本例中，为便于度量相似度，设定视觉特征在隐空间中表征的维度与文本特征在隐空间中表征的维度相同，即/>

。

在一个具体实施方式中，投射采用自动编码器实现。通过自动编码器的编码器可将输入的视频特征或标签文本特征投射到隐空间，该隐空间特征再经过解码器即可变换回原视频特征或标签文本特征。该原理正如三维坐标与球坐标的变换一样。当然，本领域技术人员知道，自动编码器可采用概率型自动编码器或确定型自动编码器。

当采用概率型自动编码器时，编码器输出后验分布的均值和对数方差。对于此种编码器，当给定一个视频帧

或一个文本/>

，概率型自动编码器模型可表示为：

解码：

,

其中，

是一个服从正态分布的随机向量，/>

表示该随机向量的方差，/>

和/>

表示视觉编码器输出的后验分布的均值和对数方差，视觉隐空间码满足高斯分布

，/>

和/>

表示文本编码器输出的后验分布的均值和对数方差，文本隐空间码满足高斯分布/>

，/>

表示元素的乘积，/>

表示视觉编码器，/>

表示视觉解码器，/>

表示文本编码器，/>

表示文本解码器。通过使用重参数化的技巧，可以在隐空间码中进行采样，比如/>

和/>

，其中，/>

表示第i个视频帧/>

的隐空间码，/>

表示第j个文本/>

的隐空间码，之后对它们进行解码。

帧和/>

个文本分别经概率型编码器进行编码之后得到两个高斯混合模型，比如

和/>

。/>

当采用确定型自动编码器时，比如瓦瑟斯坦自动编码器（Wassersteinautoencoder），编码器直接输出对数据编码之后的隐空间码，比如

和

。在这种情况下，模型可以直接通过对隐空间码解码来重构视频帧与文本数据。

对于S2，相似度矩阵可以采用任何距离度量方法计算，如余弦距离、欧式距离和切比雪夫距离等。对于集合监督的视频理解，由于训练数据中视频帧与文本之间的对应关系是未知的，且缺少动作标签之间的次序信息（即只提供视频中发生动作（文本）的集合，不提供动作的发生时间、发生频率以及发生顺序，相较于全监督方式和抄本监督方式（transcript-supervised），监督水平更低），上述简单的距离度量手段使得模型总是取得次优的性能。为改进该问题，本公开基于最优传输理论，采用非平衡谱融合格罗莫夫-瓦瑟斯坦距离（Unbalanced Spectral Fused Gromov-Wasserstein Distance, US-FGW）。通过该距离能够综合考虑视频帧的表征和文本的表征之间的点相似性与结构相似性，在隐空间中对两类表征进行匹配，更好的实现集合间（视频隐空间表征和文本隐空间表征）的相似度度量。

具体地，所述相似度矩阵通过解算下述US-FGW距离得到的最优传输距离T获得：

；

其中，

表示控制瓦瑟斯坦（Wasserstein）项/>

和格罗莫夫瓦瑟斯坦（GW）项

两项权重关系的超参数，/>

表示控制两个KL正则项在US-FGW距离中的权重的超参数，KL散度正则项用于衡量两个概率分布函数/>

和/>

之间的距离，定义为

，/>

表示矩阵/>

和矩阵/>

之间的点积，上标/>

表示矩阵转置，/>

表示/>

中的元素个数，/>

表示/>

中的元素个数，/>

表示长度为/>

，值全为1的均匀分布，

表示长度为/>

，值全为1的均匀分布，/>

表示长度为/>

，值全为/>

的均匀分布，/>

表示长度为

，值全为/>

的均匀分布，/>

表示视频隐空间表征与文本隐空间表征元素间的距离矩阵，/>

表示视频隐空间表征元素间的距离矩阵，/>

表示文本隐空间表征元素间的距离矩阵。

US-FGW距离通过综合考虑瓦瑟斯坦距离

和格罗莫夫-瓦瑟斯坦距离

，并通过超参数/>

控制二者间的权重比例，能够根据集合元素（隐空间表征）之间的点相似性和集合间元素对之间的相似性（结构相似性）计算最优传输矩阵，减小视觉信息与文本信息之间的语义差异。如文本“Jumping”和“Flying”可能对应于不同视频，比如“蹦极跳跃视频”和“滑翔跳跃视频”。“蹦极跳跃视频”和“滑翔跳跃视频”的隐空间表征是会存在一些差异的，使得文本“Jumping”和“Flying”的隐空间表征可能不能够与两个视频的隐空间表征很好地匹配起来。当仅通过瓦瑟斯坦项，文本“Flying”可能会错误地与视频“滑翔跳跃视频”中的视频帧“Jumping”进行匹配。然而，当考虑到表征之间的对相似性（基于GW项），隐空间中文本“Jumping”和“Flying”之间的距离可以与视频“蹦极跳跃视频”和“滑翔跳跃视频”的相应视频帧之间的距离相似。因此，结合瓦瑟斯坦距离和格罗莫夫-瓦瑟斯坦距离的匹配结果更加可靠。此外，由于对于视频中存在的很多无实义的背景帧，模型不需要将文本与这些背景帧进行匹配，只需将文本与非背景帧进行匹配即可，然而瓦瑟斯坦距离和格罗莫夫-瓦瑟斯坦距离并不能实现这种部分匹配的机制。并且当视频或文本的隐空间表征维度很高时，距离矩阵/>

，/>

和/>

的值可能会由于维度的原因，变得不可信或者不可区分，造成模型性能下降。因此，US-FGW距离中增加了边缘分布的内容（对于传输矩阵的边缘分布，不再对它们施加严格的相等限制，而是添加了两个正则项，通过惩罚它们与均匀分布（/>

和/>

）之间的KL散度来作为限制条件。两个正则项的权重由超参数/>

控制。通过该正则项能够使模型学习到不同视频帧的重要性（比如，/>

），视频帧与文本的匹配情况（比如，/>

），同时避免生成平凡解（比如，/>

）。），并且将距离矩阵（比如，/>

，/>

和/>

）替换为基于隐空间表征的核矩阵（可以是任意核矩阵，比如径向基核函数（RBF kernel）、余弦相似度（cosine similarity）等等）。

在US-FGW距离中，计算瓦瑟斯坦（Wasserstein）项和格罗莫夫瓦瑟斯坦（GW）项都需要已知的代价矩阵。给定视觉隐空间码

和文本隐空间码/>

，一般通过使用如欧几里得距离等来计算表征之间的代价矩阵（如/>

、/>

和/>

）。

下面举例说明代价矩阵

的计算。对于前述确定型自动编码器得到的表征，矩阵

可以通过表征之间的欧几里得距离来定义，/>

可表示为/>

，其中i，j都是整数，且1≤i≤I，1≤j≤J，矩阵元素通过下式计算：

对于高维的隐空间表征，由于维度的原因，通过欧几里得距离来定义矩阵，其元素值可能会变得不可信或不可取分，因此本公开设计了一种基于隐空间表征的核矩阵（如

、/>

和/>

）来代替距离矩阵（如/>

、/>

和/>

）。各矩阵表示为：/>

，/>

，

，其中i，j，k，l，m，n都是整数，且1≤i，k，l≤I，1≤j，m，n≤J。/>

表示第/>

个视频帧隐空间码与第/>

个文本隐空间码之间的移动代价；/>

表示第/>

个视频帧隐空间码与第/>

个视频帧隐空间码之间的移动代价；/>

表示第/>

个文本隐空间码与第/>

个文本隐空间码之间的移动代价。

对于前述概率型自动编码器得到的隐空间表征，代价矩阵可以通过任意两个高斯模型之间的瓦瑟斯坦距离来定义。具体地，矩阵元素

通过下式计算：

同理：

对于前述确定型自动编码器得到的隐空间表征，代价矩阵可以直接通过隐空间表征之间的距离来定义。具体地，矩阵元素

通过下式计算：

同理：

其中，b 是核的带宽，

表示欧几里得范数的平方。

对于最优传输距离求解可使用任何求解方法，如辛克霍恩算法（Sinkhornalgorithm）、近似点算法（Proximal point algorithm，PPA）等。在一个具体实施方式中，通过布里格曼交替方向乘子法（Bregman Alternating Direction Method of Multipliers，B-ADMM）求得US-FGW距离以及与US-FGW距离相对应的最优传输矩阵T。该最优传输矩阵T即代表着视频帧与文本之间的一一对应关系，T _ij即为第i帧视频与第j个文本间的距离，由此可进一步求得视频的标签和帧级预测标签，即低于预设阈值的元素下标j对应的文本。

下述为通过B-ADMM解算US-FGW距离的具体过程：

S41 引入三个辅助变量

，/>

和/>

，将US-FGW距离等价改写成：

（1）

这三个辅助变量的含义分别对应着最优传输矩阵

以及它的两个边缘分布。

S42 对式（1）中的三个限制条件

引入三个对偶变量/>

，

，/>

，从而将该问题进一步改写成布里格曼增强的拉格朗日函数的形式。在给予辅助变量和对偶变量初始值之后，通过应用交替优化策略，不断地依次更新/>

、辅助变量和对偶变量，直到获得最优传输矩阵/>

。

具体的，US-FGW距离解算过程如下：

S421 对偶变量初始化为零矩阵和零向量，辅助变量

初始化为均匀矩阵/>

，辅助变量/>

和/>

初始化为服从单纯形的随机向量，如/>

和/>

，其中/>

-单纯形可用符号/>

表示。

S422 在第 k 次循环中，改写式（1）为关于

的布里格曼增强的拉格朗日函数的形式，同时通过一种闭式解的形式更新/>

：

其中，

是一个双随机矩阵的集合，其中矩阵的两侧边缘分布分别服从分布/>

和/>

，模型一般设置边缘分布为均匀分布，如/>

和

，/>

同样表示一个双随机矩阵的集合，其中矩阵的一侧边缘分布服从分布/>

，而另一侧边缘分布无限制。/>

表示布里格曼交替方向乘子法中的用于控制方法收敛速率的超参数，/>

表示将矩阵的每一行通过归一化指数函数（Softmax）。

S423 在第 k 次循环中，改写式（1）为关于

的布里格曼增强的拉格朗日函数的形式，同时通过一种闭式解的形式更新变量/>

：

其中，

表示一个双随机矩阵的集合，其中矩阵的一侧边缘分布服从分布/>

，而另一侧边缘分布无限制。/>

表示将矩阵的每一列通过归一化指数函数（Softmax）。

S424 在第 k 次循环中，以类似的形式更新辅助变量

和/>

：

其中，

表示将向量通过归一化指数函数（Softmax）。

S425 通过交替方向乘子法（ADMM）的形式更新对偶变量：

重复上述步骤 S422-S425，直至变量

收敛（如在相邻两次迭代中，变量T的变化值低于某一设定阈值），得到最优传输矩阵/>

，将该矩阵代入US-FGW距离公式中，即可求得 US-FGW 距离。

神经网络的训练：

对训练数据集中的每一段视频获取其视频帧特征

和对应的标签集合/>

，将/>

作为正文本集合，从所有标签集中去除视频对应的标签集合中元素后随机构造该视频的负文本集合/>

。

假设数据集

中包含一组视频以及描述视频中动作的文本描述，具体地

，其中 />

代表第/>

个视频的/>

帧特征，也对应于视频中发生的不同动作，/>

代表与第/>

个视频相关的/>

个动作文本描述；/>

表示第/>

个视频的第i帧特征，/>

表示第/>

个视频相关的动作文本描述中的第j个文本。因此，数据集/>

中虽然包含成对的视频特征和文本，但是没有具体到某一帧（比如/>

）与某个动作文本（比如

）的一一对应关系。

当对投影使用的神经网络训练时，使用由视频帧的重构误差项、文本的重构误差项以及基于 US-FGW 距离的对比学习项构建的目标函数。其中，对比学习项可以最小化视频帧集合与正文本集合之间的US-FGW距离，同时最大化视频帧集合与负文本集合之间的US-FGW距离。

在一个具体的实施方式中，如图2所示，采用如下目标函数对神经网络进行训练：

其中，

表示视频帧的重构误差项的误差度量类型，/>

表示文本的重构误差项的误差度量类型，/>

表示基于 US-FGW 距离的对比学习项的权重。度量类型可为均方误差等任何度量类型。

训练时，通过随机梯度下降算法（SGD），比如Adam，来更新神经网络，如前所述视觉和文本自动编码器。训练过程如图3所示。训练完成之后，即可通过下述内容完成视频理解：

1、将待理解视频的每一帧通过训练好的视觉自动编码器投射到隐空间，所有帧的隐空间码构成视频隐空间表征V；

2、将所有文本标签集中的每个标签文本通过训练好的文本自动编码器投射到隐空间，所有标签文本的隐空间码构成标签隐空间表征W；

3、计算V和W的US-FGW距离，得到最优传输矩阵T。

根据T，将元素值高于预设阈值的元素下标对应的本文赋予视频或视频帧即可实现视频理解或帧级预测。将具有相同文本标签的连续帧提取出来即可实现按内容的视频分割。

实验验证

表格一：本表格展示了在Breakfast数据集中，基于US-FGW距离的视频理解方法与Actionset，SCT，SCV，ACV，UM等方法的性能比较情况。

注：表格中“-”表示原模型的论文未列出该数据

表格二：本表格展示了在Hollywood Extended数据集中，基于US-FGW距离的视频理解方法与Actionset，SCT，SCV，ACV，UM等方法的性能比较情况。

表格三：本表格展示了在CrossTask数据集中，基于US-FGW距离的视频理解方法与Actionset，UM等方法的性能比较情况。

从上述对比实验可以看出，在不同数据集上，除了在CrossTask和HollywoodExtended数据集上，Actionset、UM方法在指标Mof略优于本公开方法外，本公开的视频理解方法均优于其他方法。原因在于，本公开通过将US-FGW距离与隐空间码相结合，能够在集合监督的弱监督情况下，鲁棒性地应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰，实现最优的视频理解。

通过上述具体实施例及实验结果的描述，可知本公开提供的视频理解方法：

1、以视频和对应的文本标签集合为输入，通过将二者投射到隐空间，对二者的隐空间表征（2个集合）进行相似度度量，符合集合监督的输入数据特点，对训练数据要求低；不但可以进行视频级别的文本理解，还能够实现帧级的预测；进而实现基于视频内容理解的视频分割；

2、同时利用视频和文本两种模态信息，能够充分挖掘彼此间的交互信息，实现更优的视频理解；

3、利用US-FGW距离计算两种模态信息隐空间表征的最短距离和最佳匹配，能够充分挖掘两种模态信息间的点和结构相似性，实现最优的相似度度量，进而实现更优的视频理解；

4、利用B-ADMM方法对US-FGW距离求解可大幅提高最优传输矩阵T的求解效率，进而提高神经网络训练速度以及视频理解效率；

5、在隐空间计算集合的相似度，能够应对视觉-文本对应关系的不确定性以及无实义背景帧造成的干扰。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。