CN114339403A

CN114339403A - 一种视频动作片段生成方法、系统、设备及可读存储介质

Info

Publication number: CN114339403A
Application number: CN202111677648.9A
Authority: CN
Inventors: 魏平; 尚嘉慧
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12
Anticipated expiration: 2041-12-31
Also published as: CN114339403B

Abstract

本发明公开了一种视频动作片段生成方法、系统、设备及可读存储介质，通过从视频片段中提取视频特征，对提取的视频特征进行处理构成视频的多尺度特征图，采用Transformer模型对多尺度特征图进行转换处理得到一组动作Queries的特征，采用前馈网络和线性投影对动作Queries的特征进行检测达到视频的起止时间位置和置信分数，完成视频动作片段生成，本发明基于Transformer模型，将动作片段生成视为直接集预测问题，不仅简化了检测流程，消除了后处理等手工设计组件，并行输出检测结果；而且利用多尺度特征图处理不同时间长度的动作实例，本发明在性能和运行时间方面有显著提高。

Description

一种视频动作片段生成方法、系统、设备及可读存储介质

技术领域

本发明涉及计算机视觉中的视频内容检测领域，具体运用了多尺度特征图和先进的Transformer模型的方法，涉及一种视频动作片段生成方法、系统、设备及可读存储介质。

背景技术

随着大量视频被捕捉并上传到网上(如YouTube、Instagram和TikTok)，视频理解正成为计算机视觉中的一个重要问题。这些网络视频本质上是未修剪的，因此动作片段生成是一项要求很高的技术，它的目的是用动作的起止时间来定位长时间未修剪视频中的每个动作实例，促进应用如智能监测、突出提取，视频审核，视频摘要等等。视频时间动作检测方法的输入为未修剪视频(含一个或多个动作)，输出为动作开始、结束时间。

目前主流的视频时间检测方法有两种主流方法：基于anchor的方法和基于边界的方法。这些方法有着对噪声敏感以及高度依赖于精心设计的复杂机制，需要特定的调优，检测效率低等缺点。

发明内容

本发明的目的在于提供一种视频动作片段生成方法、系统、设备及可读存储介质，以克服现有技术的不足。

一种视频动作片段生成方法，利用先进的Transformer结构，直接预测一组出现在视频中的动作实例，并且利用多尺度特征图分别对不同时间长度的动作实例进行检测，包括如下步骤：

步骤1：视频特征提取。使用Kinetics数据集上预先训练的I3D模型从片段中提取特征，来构成输入视频的紧凑表示

其中C为通道数；

步骤2：视频多尺度特征图构建。在步骤1对视频特征进行提取后，得到长度为T的一维特征图，利用步幅为2的一维卷积对特征图进行处理，分别得到长度为T，T/2，T/4的特征图，构成视频的多尺度特征图；

步骤3：Transformer模型对特征图的处理。将步骤2构建的多尺度特征图进行拼接后输入到Transformer模型中来实现对特征的进一步处理；

首先，将多尺度特征沿时间维度进行拼接，得到特征维度为(batch size,T+T/2+T/4,512)，其中设置T＝100。将拼接好的多尺度特征送入Transformer结构中。其中Transformer结构包括编码器和解码器。

将视频的多尺度特征图(拼接成一维)作为序列特征输入到编码器中，编码器中的多头多尺度自注意机制建模输入多尺度特征图之间的关系，输出与输入序列长度相同但语义信息更强的多尺度特征图。

其中

为提取的多尺度特征图，L为尺度数(文中设置L＝3)。q∈Ω_q索引一个query元素，其特征表示为

k∈Ω_k索引一个key元素，其特征表示为

key元素

和query元素z_q都是来自多尺度特征图的帧，M为head数量(文中设置M＝8)。A_mlqk为第l个特征层第m个注意头的注意权值，

和

为可学习权重，其中C_v＝C/M。并且

和z_q为元素内容和位置嵌入、尺度嵌入的总和，位置嵌入和尺度嵌入分别标记帧的所属位置和所属特征层次，均为可学习的位置编码。

对于Transformer中的解码器，输入来自编码器的输出特征映射，以及由可学习的位置嵌入表示的N个动作Queries(例如N＝32)。解码器中包含两种注意模块：Cross-Attention和Self-Attention。在Cross-Attention中，动作Queries从来自编码器的特征图中提取特征，query元素是动作Queries，key元素是来自编码器的输出特征映射。在Self-Attention中，动作Queries互相交互，来捕获它们之间的关系，query和key元素都是动作Queries。其中的Cross-Attention和Self-Attention均为标准的多头注意机制，如下式所示：

其中q∈Ω_q索引一个query元素，其特征表示为

k∈Ω_k索引一个key元素，其特征表示为

z_q和x_k通常是元素内容和位置嵌入的总和。

通过Transformer的编码器和解码器结构后，输入多尺度特征图转换为一组动作Queries的特征。

前馈网络和线性投影得到检测结果(起止时间、置信分数)。

将Transformer结构输出的一组动作Queries的特征输入到一个三层前馈网络(FFN)和一个线性投影构成的检测头中，产生最终视频检测结果起止时间位置和置信分数。其中FFN作为回归分支预测开始和结束时间位置

线性投影产生置信分数s⁽ⁱ⁾。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种视频动作片段生成方法，通过从视频片段中提取视频特征，对提取的视频特征进行处理构成视频的多尺度特征图，采用Transformer模型对多尺度特征图进行转换处理得到一组动作Queries的特征，采用前馈网络和线性投影对动作Queries的特征进行检测达到视频的起止时间位置和置信分数，完成视频动作片段生成，本发明基于Transformer模型，将动作片段生成视为直接集预测问题，不仅简化了检测流程，消除了后处理等手工设计组件，并行输出检测结果；而且利用多尺度特征图处理不同时间长度的动作实例，本发明在性能和运行时间方面有显著提高。

本发明基于Transformer的端到端可学习框架，省去了复杂的手工设计的组件，简化了检测流程，同时简化了训练过程；采用先进的Transformer结构，极大提高了视频动作片段生成的性能和精度。

附图说明

图1为本发明实施例中视频动作片段生成方法的流程图。

图2为本发明实施例中Transformer具体结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明一种视频动作片段生成方法，该方法是一个端到端的可学习模型，利用先进的Transformer结构，直接预测一组出现在视频中的动作实例，并且利用多尺度特征图分别对不同时间长度的动作实例进行检测。具体步骤如下：

步骤1：视频特征提取：使用Kinetics数据集上预先训练的I3D模型从视频片段中提取特征，来构成输入视频的紧凑表示

其中C为通道数；

步骤2：视频多尺度特征图构建：在步骤1对视频特征进行提取后，得到长度为T的一维特征图，利用步幅为2的一维卷积对特征图进行处理，分别得到长度为T，T/2，T/4的特征图，构成视频的多尺度特征图；

步骤3：Transformer模型对特征图的处理：采用Transformer模型中编码器和解码器结构对特征图的处理；

将步骤2构建的多尺度特征图进行拼接后输入到Transformer模型中来实现对特征的进一步处理；

首先，将多尺度特征沿时间维度进行拼接，得到特征维度为(bs,T+T/2+T/4,512)，其中设置T＝100。将拼接好的多尺度特征送入Transformer结构中。其中Transformer结构如下图2所示，包括编码器和解码器：

编码器包括6个相同的编码器层组成，其中每个编码器层主要包含一个multi-head multi-scale self-attention和一个FFN(feed-forward network)，这两个部分都有一个残差连接(residual connection)，然后接着一个Layer Normalization。解码器和编码器类似，解码器包括6个相同的层组成，每个解码器层包都包含一个multi-head self-attention、multi-head cross-attention和一个FFN(feed-forward network)，和编码器一样，这三个部分都有一个残差连接，后接一个Layer Normalization。

利用Transformer模块对多尺度特征图的处理的具体方法为：

将视频的多尺度特征图(拼接成一维)作为序列特征输入到编码器中，编码器中的多头多尺度自注意机制建模输入多尺度特征图之间的关系，输出与输入序列长度相同但语义信息更强的多尺度特征图。其中多头多尺度自注意机制如下式所示：

其中

k∈Ω_k索引一个key元素，其特征表示为

key元素

和

为可学习权重，其中C_v＝C/M。并且

对于Transformer中的解码器，输入来自编码器的输出特征映射，以及由可学习的位置嵌入表示的N个动作Queries(例如N＝32)。解码器中包含两种注意模块：Cross-Attention和Self-Attention。在Cross-Attention中，动作Queries从来自编码器的特征图中提取特征，query元素是动作Queries，key元素是来自编码器的输出特征映射。在Self-Attention中，动作Queries互相交互，来捕获它们之间的关系，query和key元素都是动作Queries。其中的Cross-Attention和Self-Attention均为标准的多头注意机制(与编码器中的多尺度注意机制不同)，如下式所示：

其中q∈Ω_q索引一个query元素，其特征表示为

k∈Ω_k索引一个key元素，其特征表示为

z_q和x_k通常是元素内容和位置嵌入的总和。

步骤4：前馈网络和线性投影得到检测结果(起止时间、置信分数)。将步骤3中Transformer结构输出的一组动作Queries的特征输入到一个三层前馈网络(FFN)和一个线性投影构成的检测头中，产生最终视频检测结果起止时间位置和置信分数。其中FFN作为回归分支预测开始和结束时间位置

线性投影产生置信分数s⁽ⁱ⁾。

将视频检测视为一个直接集预测问题，端到端的学习过程省去了不必要的后处理过程，简化了检测流程。运用二分匹配(bipartite matching)，一次性检测所有视频频动作片段，使用匈牙利损失函数进行端到端的训练，该函数在预测的动作片段和ground truth动作片段进行二分匹配，具体方法为：

首先设置N个固定大小的预测集，N设置为显著大于视频中动作片段的数目(本方法中N＝32)。设视频动作实例的ground truth集合为

其中

分别为第i个动作实例的开始、结束时间位置，将第i个动作实例表示为

N个预测的集合为

其中

为预测的动作片段，且N≥|A|，将预测的第φ(i)个动作片段表示为

接着找到这两个集合之间的二分匹配，这需要寻找N个元素对的代价最低的最优匹配：

其中

为第i个ground truth动作实例a⁽ⁱ⁾和第φ(i)个预测

之间的成对匹配代价。匹配代价同时考虑了动作前景预测和位置的相似度，对于和第φ(i)个预测，定义该位置的前景动作的概率为

由此定义匹配代价为：

其中

为片段损失：

最后在找到最优匹配

之后，计算所有匹配对的匈牙利Hungarian损失：

使用该匈牙利损失函数指导训练。

本申请引入多尺度注意机制，并由提取的视频特征构造多尺度特征图，短的视频片段从高分辨率的低层特征图中检测出来，长的视频片段从低分辨的高层特征图中检测出来。相对于之前的单尺度特征图来说，我们的多尺度特征图对不同时间长度的动作实例进行分开检测，得到的结果更加准确。

本发明一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器采用中央处理单元(CPU)，或者采用其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可用于视频动作片段生成方法的操作。

一种视频动作片段生成系统，包括：

特征提取融合模块，用于从视频片段中提取视频特征，对提取的视频特征进行处理构成视频的多尺度特征图；

转换处理模块，用于采用Transformer模型对多尺度特征图进行转换处理得到一组动作Queries的特征，然后根据前馈网络和线性投影对动作Queries的特征进行检测达到视频的起止时间位置和置信分数。

本发明再一个实施例中，本发明还提供了一种存储介质，具体采用计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。计算机可读存储介质包括终端设备中的内置存储介质，提供存储空间，存储了终端的操作系统，也可包括终端设备所支持的扩展存储介质。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(Non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中可用于视频动作片段生成方法的相应步骤。

采用平均数量AN＝50时的平均召回率(AR)(AR@AN＝50)作为评价监测性能的指标，本发明与其他一些先进方法的性能比较如下表1所示:

表1

本发明为基于Transformer的端到端可学习框架，省去了复杂的手工设计的组件，简化了检测流程，同时简化了训练过程；采用先进的Transformer结构，极大提高了视频动作片段生成的性能和精度。

Claims

1.一种视频动作片段生成方法，其特征在于，包括以下步骤：

S1，从视频片段中提取视频特征；

S2，对提取的视频特征进行处理构成视频的多尺度特征图；

S3，采用Transformer模型对多尺度特征图进行转换处理得到一组动作Queries的特征；

S4，采用前馈网络和线性投影对动作Queries的特征进行检测达到视频的起止时间位置和置信分数，完成视频动作片段生成。

2.根据权利要求1所述的一种视频动作片段生成方法，其特征在于，采用Kinetics数据集预训练得到I3D模型，利用I3D模型从视频片段中提取特征，来构成输入视频的紧凑表示

其中C为通道数。

3.根据权利要求1所述的一种视频动作片段生成方法，其特征在于，利用步幅为2的一维卷积对特征图进行处理，分别得到长度为T，T/2，T/4的特征图，构成视频的多尺度特征图。

4.根据权利要求1所述的一种视频动作片段生成方法，其特征在于，将多尺度特征沿时间维度进行拼接，将拼接好的多尺度特征送入Transformer结构中进行转换处理。

5.根据权利要求4所述的一种视频动作片段生成方法，其特征在于，Transformer结构包括编码器和解码器，将多尺度特征图作为序列特征输入到编码器中，编码器中的多头多尺度自注意机制建模输入多尺度特征图之间的关系，输出与输入序列长度相同但语义信息更强的多尺度特征图。

6.根据权利要求5所述的一种视频动作片段生成方法，其特征在于，其中多头多尺度自注意机制如下式所示：

其中

为提取的多尺度特征图，L为尺度数，q∈Ω_q索引一个query元素，其特征表示为

k∈Ω_k索引一个key元素，其特征表示为

key元素

和query元素z_q都是来自多尺度特征图的帧，M为head数量(文中设置M＝8)；A_mlqk为第l个特征层第m个注意头的注意权值，

和

为可学习权重，其中C_v＝C/M，并且

7.根据权利要求6所述的一种视频动作片段生成方法，其特征在于，三层前馈网络作为回归分支预测开始和结束时间位置

线性投影产生置信分数s⁽ⁱ⁾。

8.一种视频动作片段生成系统，其特征在于，包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。