CN115410138A

CN115410138A - 基于特征编码器分类和定位串行的视频动作检测方法

Info

Publication number: CN115410138A
Application number: CN202211358974.8A
Authority: CN
Inventors: 高赞; 崔兴磊; 卓涛; 李传森; 张蕊; 郝敬全
Original assignee: Shandong Zhonglian Audio Visual Information Technology Co ltd; Qingdao Haier Smart Technology R&D Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Current assignee: Shandong Zhonglian Audio Visual Information Technology Co ltd; Qingdao Haier Smart Technology R&D Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2022-11-29

Abstract

本发明属于计算机视觉和模式识别技术领域，公开了一种基于特征编码器分类和定位串行的视频动作检测方法，准确地实现了对视频中动作实例的定位和分类；方法的具体步骤如下：（1）视频预处理；（2）基于特征编码器分类和定位串行的视频动作检测方法的网络模型搭建；（3）基于特征编码器分类和定位串行的视频动作检测方法的目标函数构建；（4）基于特征编码器分类和定位串行的视频动作检测方法；本发明基于已知数据集对视频中的动作实例进行高效定位和分类，并且方法收敛速度快。

Description

基于特征编码器分类和定位串行的视频动作检测方法

技术领域

本发明涉及一种基于特征编码器分类和定位串行的视频动作检测方法，属于计算机视觉和模式识别技术领域。

背景技术

近几年来，随着互联网视频的大量涌现，对视频内容的理解与分析变得越来越重要。时序动作检测作为视频理解的一个重要的分支，已经引起了学术界和工业界的广泛关注。时序动作检测的任务是对一个未修建的视频中的人的动作的时间片段进行定位，并预测人的动作类别。时序动作检测与动作检测相比，在对视频中的每个动作实例分类的基础上，还要对该动作实例的开始和结束进行定位。有些方法是采用滑动窗口的方法生成不同时间尺度的视频片段，然后对这些视频片段进行分类和定位，以表示整个视频的分类和定位结果。但是这些方法想要得到更好的效果，就必须将窗口之间的重叠度变高，这样就会产生巨大的计算量，影响模型的计算的速度，并且滑动窗口的方法预测边界不够灵活。基于Anchor的方法会生成大量的候选提案，造成较多的冗余，浪费计算资源。并且，这些方法对于边界的预测不够灵活，动作实例的时间跨度相差很大，其中大部分较短，还有一部分很长，这样预定义的Anchor并不能够预测所有的动作实例。

然而，时序动作检测采用Anchor-free的方法开始涌现，它不像基于Anchor方法一样预先定义不同时间尺度的Anchor并且动作实例的长短对于动作的定位影响较小，只需要在每个时间位置生成一个提案，表示当前位置到开始位置和结束位置的距离的总和。由于这种方法不会有大量的提案，降低了计算量。

先前的时序动作检测算法都是采用定位器和分类器分离的操作，最后将两个分类和定位的结果进行融合，这样就会导致如果分类或者定位不准确，都会影响最终的结果，本发明为了解决这种问题，提出一种分类和定位的串行结构，这样只要分类结果相对准确，那么定位的结果就会较为准确，最终的结果也会更加准确。

发明内容

针对时序动作检测任务解决视频中动作实例的定位和分类问题，常用方法一是分类和定位是一种并行的关系，两者的融合并不能产生更好的效果，二是在进行分类和定位融合时候没有考虑到分类结果的准确性对定位的影响；本发明提供了一种基于特征编码器分类和定位串行的视频动作检测方法，先对视频的每一帧进行分类，然后为了消除某些背景帧对定位的影响，本发明采用自定义的Smooth平滑操作对分类特征进行平滑操作。用平滑后的特征进行动作定位，最后获得最终的视频分类和定位结果。这样一种串行结构，解决的定位准确分类不准确或者分类准确定位不准确的问题，将分类和定位串行化，能够使在分类准确时其定位也会较为准确，减少的分类和定位不匹配的问题，能够使得对视频中的动作分类和定位更为准确。

本发明为实现上述目的，通过以下技术方案实现：

一种基于特征编码器分类和定位串行的视频动作检测方法，包括以下步骤：

S1.视频预处理：

将未修剪的视频抽取成帧，表示为

在训练集中包含 T 帧，将每个视频以视频帧输入到网络模型中；

S2.基于特征编码器分类和定位串行的视频动作检测方法的网络模型搭建：

S3.基于特征编码器分类和定位串行的视频动作检测方法的目标函数构建；

S4. 经过步骤S2和步骤S3后形成最终的基于特征编码器分类和定位串行的视频动作检测方法模型。

上述基于特征编码器分类和定位串行的视频动作检测方法基础上，步骤S2具体包括如下步骤：

1）模型构建：

101.将视频帧输入到特征编码器生成不同时间尺度的特征；

102.不同层次的特征输入到分类器，生成分类特征，进行Smooth平滑，输入到定位器进行定位操作；

103.生成最终的视频中动作实例的分类和定位结果；

2）特征提取网络选择：

通过I3D网络获得时空特征，获得的时空特征经过3D卷积变成1D特征序列

。

作为特征编码器的输入，得到不同时间尺度的特征，

分类特征生成过程：

基于不同时间尺度的特征

,采用轻量级的卷积神经网络进行分类，生成分类特征

,

是所有动作的类别；

将生成的分类特征输入到

平滑函数。

上述基于特征编码器分类和定位串行的视频动作检测方法基础上，

平滑函数包括以下步骤：

确定一个滑动窗口

，对一个窗口内的数值进行平滑操作，实现过程为：

(1)

是窗口的大小，

是利用Hann函数生成的一维向量

(2)

是一维向量所有元素的

和

（3）

是每个时间尺度分类特征需要平滑的窗口大小为

的一维向量；

（4）

经过Smooth平滑操作后的分类特征。

上述基于特征编码器分类和定位串行的视频动作检测方法基础上，分类和定位具体过程如下：

对预测分类的损失函数加了一个参数

，总损失函数

定义为：

分别是边界分类和边界回归的损失函数，

定义如下：

其中

是分类中正样本的数量，如果预测的片段位于真实样本中，视为正样本，

是预测的分类结果，

是真实标签；

在细化边界回归中，

使用

作为损失函数，预测

是预测边界偏移量，

是真实的边界偏移，则

的实现过程为：

其中

是定位中正样本的数量，采用

来处理所有预测以抑制冗余提议。

本发明的优点在于：

1）通过提出的分类和定位串行结构，本发明可以增加分类和定位特征之间的联系，使得分类和定位更加准确，对视频中动作实例的定位和分类起到了良好的作用，并且提高了效率。

2）样本经过模型训练，可以得到拟合效果良好的权重；并且这些权重作用于模型后，对视频中动作实例的定位和分类获得了较为明显的的效果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明的结构图；

图2为本发明的流程图；

图3为经典动作识别算法与本发明在THUMOS14数据集上性能的比较；

图4为经典动作识别算法与本发明在ActivityNet1.3数据集上性能的比较；

图5为本发明对于分类损失函数

参数对结果的影响；

图6为本发明在一个动作段预测结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本发明的数据集包括

THUMOS14数据集：包含101个视频类别，由四个部分组成: 训练、验证、测试和背景集。每各部分包括13320,1010,1574和2500段未剪辑的视频。其中验证集中的200个视频用于训练，测试集中的213个视频用于测试；

ActivityNet1.3数据集：是一个大规模的动作数据集，包含200个活动类和大约20000个超过600小时的视频，数据集被分为三个子集: 10024个用于训练的视频，4926个用于验证，5044个用于测试。

S1.视频预处理：

将未修剪的视频抽取成帧，表示为

在训练集中包含 T 帧,将每个视频以视频帧输入到网络模型中；

步骤S2具体包括如下步骤：

1）模型构建：

101.将视频帧输入到特征编码器生成不同时间尺度的特征；

103.生成最终的视频中动作实例的分类和定位结果；

2）特征提取网络选择：

；

作为特征编码器的输入，得到不同时间尺度的特征，

分类特征生成过程：

基于不同时间尺度的特征

,采用轻量级的卷积神经网络进行分类，生成分类特征

,

是所有动作的类别；

将生成的分类特征输入到

平滑函数

S4.经过步骤S2和步骤S3后形成最终的基于特征编码器分类和定位串行的视频动作检测方法模型。

本实施例中，

平滑函数包括以下步骤：

确定一个滑动窗口

，对一个窗口内的数值进行平滑操作，实现过程为：

(1)

是窗口的大小，

是利用Hann函数生成的一维向量

(2)

是一维向量所有元素的

和

（3）

是每个时间尺度分类特征需要平滑的窗口大小为

的一维向量；

（4）

经过Smooth平滑操作后的分类特征；

基于不同时间尺度的平滑特征

,采用轻量级的卷积神经网络进行定位，因为分类特征已经包含较为准确的分类信息，并且Smooth平滑操作，消除了背景视频帧的影响，因此定位模块会生成更为准确的动作实例的开始和结束时间。根据

，通过一个轻量级的卷积操作，预测的分类

，另一个卷积用来获得位置

到开始和结束的偏移

；本发明采用分类和定位串行的结构并且采用Smooth函数对特征序列的平滑操作，提出的这种新结构能够对视频中动作的定位和检测更为精准。

本实施例中，分类和定位具体过程如下：

对预测分类的损失函数加了一个参数

，总损失函数

定义为：

分别是边界分类和边界回归的损失函数，

定义如下：

其中

是预测的分类结果，

是真实标签；

在细化边界回归中，

使用

作为损失函数，

是预测边界偏移量，

是真实的边界偏移，则

的实现过程为：

其中

是定位中正样本的数量，采用

来处理所有预测以抑制冗余提议。

经过步骤S2和步骤S3后形成最终的基于特征编码器分类和定位串行的视频动作检测方法模型；模型的流程为：经过步骤S1生成视频帧，将视频帧作为模型输入，首先经I3D上下文信息捕获模块获取具有丰富上下文信息的特征，将获取的具有丰富上下文的特征输入到特征编码器，获取具有不同时间尺度的特征，将不同尺度的特征先通过分类器进行分类，得到分类特征；由于分类特征有些背景帧的特征信息干扰较大，因此采用Smooth平滑操作进行特征平滑；最后将平滑的特征输入到定位器，获取较为准确的动作实例的偏移，而后获得最终的分类和定位结果，这就是本发明对视频的检测结果如图6所示。以上的预测和分类过程都由目标函数进行约束，以获得更为准确的结果。

为了验证本发明的有效性，在时序动作检测数据集THUMOS14和ActivityNet1.3上进行了评测，具体实验设置为：在数据集THUMOS14中，验证集中的200个视频用于训练，测试集中的213个视频用于测试；在数据集ActivityNet1.3中，以 2:1:1 的比例将数据集分为训练、测试和验证，从图2和图3可以看出，本发明提出的基于特征编码器分类和定位串行的视频动作检测方法具有较好的检测性能。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。