CN116109980A

CN116109980A - 一种基于视频文本匹配的动作识别方法

Info

Publication number: CN116109980A
Application number: CN202310116319.XA
Authority: CN
Inventors: 周鑫; 石开; 徐亦嘉; 徐新杰; 陈升
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-02-14
Filing date: 2023-02-14
Publication date: 2023-05-12

Abstract

本发明公开了一种基于视频文本匹配的动作识别方法，包括如下步骤：S1、构建视频数据集以及待分类标签，所述待分类标签为视频数据集中视频所对应的所有动作类别标签的全集；S2、构建动作识别模型，所述动作识别模型包括视频特征提取网络、语义特征提取网络和线性投射层；S3、根据相似度矩阵确定推理结果，分别计算标签推理结果与视频标签的交叉熵损失和视频推理结果与标签视频的交叉熵损失，对两个交叉熵损失求算术平均，作为动作识别模型的损失函数；S4、利用随机梯度下降法优化动作识别模型。该方法使用真实标签类别损失和的真实视频类别的算是平均值作为模型损失的损失函数，能够兼顾视频和文本两个模态，训练周期短、准确率高。

Description

一种基于视频文本匹配的动作识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其是视频理解中的动作识别领域，涉及一种基于视频文本匹配的动作识别方法。

背景技术

在大数据时代，如何有效利用这些富媒体信息，尤其是利用海量视频信息，成为视频理解领域的一大难题。对于人类而言，理解短视频平台上各种视频非常容易，但对于计算机而言这是一个极其困难的任务。相较于传统的图像识别，视频除了每一帧的图像信息之外，帧与帧之间的时序信息对于视频理解任务的成败也是起至关重要的作用的。此外，短视频平台上每一条视频都有一条与之匹配的说明性的文本，如果能够有限利用与视频相匹配的文本，则可以有效动作识别的准确率。

动作识别旨从给定视频中检测并识别出目标的动作，其表面上是简单的分类问题，实质上是视频理解问题。传统机器学习方法多基于人体关节点、时空兴趣点和密集轨迹等，但其模型泛化能力和学习特征能力不强，无法应对越来越高的使用需求。此后兴起的深度神经网络具有较强的图像表征能力，相关领域的科研工作者们分别提出了卷积神经网络、双流卷积网络、循环神经网络、长短时记忆网络、深度残差网络等方法，并应用于动作识别领域。近年来，有研究人员将自然语言处理中的变换网络推广至视觉领域，并取得了一流效果，其突出的视觉变换网络迅速在机器视觉的下游任务中得到广泛应用，成为图像表征的特征提取器。

上述的动作识别方法存在许多缺点，主要表现在以下几个方面：(1)在训练前需要将每一个视频都人工分类标注，耗时费力且人工支出费用较高；(2)上述方法没有理解视频标注的语义信息，只能呆板地识别已训练的类别，对于类别的组合则不具备泛化能力，即模型若只在“白色”和“马”这两个类别上训练，其无法识别出“白马”这一类别；(3)文本段和视频属于两种不同结构的数据模态，二者难以计算相似度，现有的交叉熵损失函数无法同时体现语义特征提取、视频特征提取与语义视频相似度计算的损失。基于这些考虑，针对儿童学习动作监督、无人考场考生动作监测等实际应用场景，迫切需要一种能够同时提取语义特征、视频特征和计算二者相似度的动作识别技术。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于视频文本匹配的动作识别方法，有效利用视频文本对的匹配信息，同时理解视频特征和标签语义，从而准确地识别目标动作。

为了解决上述技术问题，本发明的技术方案为：

一种基于视频文本匹配的动作识别方法，包括：

对输入数据集视频数据集进行均匀采样，其中，所述视频数据集指RGB彩色视频图像，每秒帧数不固定；

利用视觉变换网络提取视频特征，称为视频模态的特征表示，其中，所述视觉变换网络指的是一种深度神经网络，其输入为一组视频，输出为一组特征向量；

输入待分类标签，其中，所述待分类标签指的是输入视频所对应的所有类别标签的全集；

用语义变换网络提取语义特征，称为语义模态的特征表示，其中，所述语义变换网络指的是一种深度神经网络，其输入为一组文本，输出为一组特征向量；

分别将视频特征和语义特征进行一次线性变换，并计算变换后两个特征的相似度，得到相似度矩阵，其中，相似度指的是余弦相似度，即两个向量夹角之间的余弦值，相似度矩阵每一行对应一个视频、每一列对应一个标签，矩阵中每个元素代表着这个视频内容可能是这个标签的相对概率大小；

根据相似矩阵给出模型的推理结果，其中，推理结果指的是该视频最有可能是哪个输入文本的匹配。

本发明具有以下的特点和有益效果：

1)使用视频-文本对作为训练数据集输入，无需人工额外对数据集进行标注，大大节省了人力开支；

2)充分利用标签中的语义信息，模型能够自适应标签类别进行动作识别，具有极强的迁移和零样本学习能力；

3)使用真实标签类别损失和的真实视频类别的算是平均值作为模型损失的损失函数，能够兼顾视频和文本两个模态，训练周期短、准确率高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明提供了一种基于视频文本匹配的动作识别方法，如图1所示，包括如下步骤：

S1、构建视频数据集以及待分类标签，所述待分类标签为视频数据集中视频所对应的所有动作类别标签的全集，其中，数据集中的视频为RGB彩色视频图像，每秒帧数不固定；

S2、构建动作识别模型，所述动作识别模型包括视频特征提取网络、语义特征提取网络和线性投射层；

S21、对视频数据集中的视频进行均匀采样，并利用视频特征提取网络提取视频特征。

具体的，对高为H、宽为W、帧数为F的N条RGB视频帧I∈R^{3×H×W×F×N}进行均匀采样，从中抽取S帧；所述均匀采样的具体方法为：对于每一条视频，若F＞S，则将F帧均匀分割为S个片段，再从每个片段中随机抽取一帧，拼接得到最终的S帧输入I∈R^3×H×W×S；若F＝S则直接将原始视频作为模型输入；若F＜S，则将重复原视频直至帧数大于S，再按照第一种情况对新视频进行采样,对每条视频分别采样后得到最终的视频输入I∈R^{3×H×W×S×N}。将均匀采样得到的视频输入I∈R^{3×H×W×S×N}输入视频特征提取网络中，通过视频特征提取网络中的全连接层、ReLU激活函数层、自注意力层，得到视频特征F_v∈R^L×N，其中，L为每一条视频特征向量的长度。

S22、对待分类标签进行标签增强，并利用语义特征提取网络提取语义特征。

具体的，对待分类标签进行标签增强时，输入M个待选动作类别T∈R^M×P，其中P为最长标签名的长度，本实施例中，每一个标签都是类似于“eating”的表示动作的英文单词，对每一个这样的标签，将其填入一系列句子模板中，例如“This is a video of<action>”，即用“eating”替换模板中的“<action>”，得到表示这个动作的句子向量。每一个动作单词均为经过Q次增强，得到Q个句子，最终可得到文本输入T∈R^M×P×Q。

将经过增强后的文本输入T∈R^M×P×Q输入语义特征提取网络中，通过语义特征提取网络中的全连接层、激活函数层、自注意力层，得到语义特征F_t∈R^L×M，其中，其中，L为每一条语义特征向量的长度，视频文本一一匹配，故与文本特征向量长度与视频特征向量长度一致。本实施例中，每一条视频特征向量与每一个动作语义向量长度一样，这是为了后续计算二者的余弦相似度。

S23、将视频特征和语义特征分别经过一层线性投射层后得到视频特征表示和语义特征表示，计算视频特征表示和语义特征表示得余弦相似度，得到相似度矩阵。

具体的，将视频特征F_v∈R^L×N和语义特征F_t∈R^L×M输入线性投射层中，分别经过一层全连接层和归一化层，得到用户计算相似度的视频特征表示F′_v∈R^L×N和语义特征表示F′_t∈R^L×M。

可以理解的，所谓全连接层，其数学上是对每一条特征向量的线性组合，随后再经过一个激活函数层和归一化层。

本实施例的进一步设置，所述余弦相似度得计算方法为：视频特征表示F′_v∈R^L×N中一条视频特征向量和语义特征表示F′_t∈R^L×M中一条语义特征向量之间的夹角余弦值，两个向量的内积等于两个向量的模和夹角余弦值的乘积，由于经过归一化操作使得归一化操作后的每条特征的模为1，因此直接分别将归一化操作后的每一条视频特征与语义特征相乘，即可得到二者之间的相似度；此处共有N条视频输入和M个动作类别，各个视频与各个动作类别之间计算得到的相似度可组织成为相似度矩阵D∈R^N×M，其中第i行第j列的元素表示第i条视频与第j个动作之间的相似度。

S3、根据相似度矩阵确定推理结果，分别计算标签推理结果与视频标签的交叉熵损失和视频推理结果与标签视频的交叉熵损失，对两个交叉熵损失求算术平均，作为动作识别模型的损失函数。

具体的，包括如下子步骤：

S31、将得到的相似矩阵D∈R^N×M的每一行进行softmax函数操作，则此时矩阵第i行第j列的元素表示第i条视频与第j个动作的概率，存在一个真实的0-1矩阵D′∈R^N×M，其第i行第j列的元素值为1表示第i条视频是第j个动作，若为0表示第i条视频不是第j个动作，计算概率矩阵与0-1矩阵之间的交叉熵损失函数作为真实标签类别损失；

S32、得到的相似矩阵D∈R^N×M的每一列进行softmax函数操作，则此时矩阵第i行第j列的元素表示第j个动作是第i条视频的概率，存在一个真实的0-1矩阵D″∈R^M×N，其第i行第j列的元素值为1表示第j个动作是第i条视频，若为0表示第j个动作不是第i条视频，计算概率矩阵与0-1矩阵之间的交叉熵损失函数作为真实视频类别损失；

S33、对真实标签类别损失和真实视频类别损失求算数平均值作为动作识别模型模型的损失函数。

S4、利用随机梯度下降法优化由视频特征提取网络、语义特征提取网络和线性投射层组成的动作识别模型，将最终确定参数保存、固定，作为动作识别模型的参数。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式包括部件进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于视频文本匹配的动作识别方法，其特征在于，包括如下步骤：

S1、构建视频数据集以及待分类标签，所述待分类标签为视频数据集中视频所对应的所有动作类别标签的全集；

S21、对视频数据集中的视频进行均匀采样，并利用视频特征提取网络提取视频特征；

S22、对待分类标签进行标签增强，并利用语义特征提取网络提取语义特征；

S23、将视频特征和语义特征分别经过一层线性投射层后得到视频特征表示和语义特征表示，计算视频特征表示和语义特征表示得余弦相似度，得到相似度矩阵，该矩阵每一行表示一条视频与每一个待分类标签相似度，每一列表示一个待分类标签与每条视频的相似度；

S3、根据相似度矩阵确定推理结果，具体方式为：推理矩阵中的每一行相似度最大元素对应的标签为该行对应视频的标签推理结果，推理矩阵中的每一列相似度最大元素对应的视频为该列对应标签的视频推理结果，分别计算标签推理结果与视频标签的交叉熵损失和视频推理结果与标签视频的交叉熵损失，对两个交叉熵损失求算术平均，作为动作识别模型的损失函数，所述视频标签为视频数据集中视频所对应的动作类别，所述标签视频为视频数据集中标签所对应视频，所述标签推理结果为动作识别模型推理出的某条视频所对应的标签类别，所述视频推理结果为动作识别模型推理出的某个标签所对应的视频；

2.根据权利要求1所述的基于视频文本匹配的动作识别方法，其特征在于，所述数据集中的视频为RGB彩色视频图像。

3.根据权利要求2所述的基于视频文本匹配的动作识别方法，其特征在于，所述步骤S21中，对高为H、宽为W、帧数为F的N条RGB视频帧I∈R^{3×H×W×F×N}进行均匀采样，从中抽取S帧；所述均匀采样的具体方法为：对于每一条视频，若F＞S，则将F帧均匀分割为S个片段，再从每个片段中随机抽取一帧，拼接得到最终的S帧输入I∈R^3×H×W×S；若F＝S则直接将原始视频作为模型输入；若F＜S，则将重复原视频直至帧数大于S，再按照第一种情况对新视频进行采样,对每条视频分别采样后得到最终的视频输入I∈R^{3×H×W×S×N}。

4.根据权利要求3所述的基于视频文本匹配的动作识别方法，其特征在于，所述步骤S21中，将均匀采样得到的视频输入I∈R^{3×H×W×S×N}输入视频特征提取网络中，通过视频特征提取网络中的全连接层、激活函数层、自注意力层，得到视频特征F_v∈R^L×N，其中，L为每一条视频特征向量的长度。

5.根据权利要求4所述的基于视频文本匹配的动作识别方法，其特征在于，所述步骤S22中，对待分类标签进行标签增强时，输入M个待选动作类别T∈R^M×P，其中P为最长标签名的长度，每一个动作类别均为经过Q次增强，得到Q个句子，最终可得到文本输入T∈R^M×P×Q。

6.根据权利要求5所述的基于视频文本匹配的动作识别方法，其特征在于，所述步骤S22中，将经过增强后的文本输入T∈R^M×P×Q输入语义特征提取网络中，通过语义特征提取网络中的全连接层、激活函数层、自注意力层，得到语义特征F_t∈R^L×M，其中，L为每一条语义特征向量的长度，视频文本一一匹配，故与文本特征向量长度与视频特征向量长度一致。

7.根据权利要求6所述的基于视频文本匹配的动作识别方法，其特征在于，所述步骤S23中，将视频特征F_v∈R^L×N和语义特征F_t∈R^L×M输入线性投射层中，分别经过一层全连接层和归一化层，得到用户计算相似度的视频特征表示F′_v∈R^L×N和语义特征表示F′_t∈R^L×M，所述余弦相似度得计算方法为：视频特征表示F′_v∈R^L×N中一条视频特征向量和语义特征表示F′_t∈R^L×M中一条语义特征向量之间的夹角余弦值，两个向量的内积等于两个向量的模和夹角余弦值的乘积，由于经过归一化操作使得归一化操作后的每条特征的模为1，因此直接分别将归一化操作后的每一条视频特征与语义特征相乘，即可得到二者之间的相似度；此处共有N条视频输入和M个动作类别，各个视频与各个动作类别之间计算得到的相似度可组织成为相似度矩阵D∈R^N×M，其中第i行第j列的元素表示第i条视频与第j个动作之间的相似度。

8.根据权利要求7所述的基于视频文本匹配的动作识别方法，其特征在于，所述步骤S3的具体方法如下：

S31、将得到的相似矩阵D∈R^N×M的每一行进行soft max函数操作，则此时矩阵第i行第j列的元素表示第i条视频与第j个动作的概率，存在一个真实的0-1矩阵D′∈R^N×M，其第i行第j列的元素值为1表示第i条视频是第j个动作，若为0表示第i条视频不是第j个动作，计算概率矩阵与0-1矩阵之间的交叉熵损失函数作为真实标签类别损失；