CN108875532A

CN108875532A - 一种基于稀疏编码和长度后验概率的视频动作检测方法

Info

Publication number: CN108875532A
Application number: CN201810073174.9A
Authority: CN
Inventors: 宋砚; 刘欣然; 唐金辉
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2018-11-23

Abstract

本发明提供了一种基于稀疏编码和长度后验概率的视频动作检测方法，包括特征提取、生成动作片段提议、动作片段提议分类、冗余检测去除四个过程；首先，将视频输入到三维卷积神经网络C3D网络中，提取网络最后一个全连接层的输出作为特征；然后使用上下文相关稀疏编码方法生成动作片段提议；再然后使用分类器对动作片段提议进行分类，分类后使用长度后验概率对分类结果进行调整；最后使用非极大值抑制方法去除冗余检测。本发明使用上下文相关稀疏编码生成动作片段提议，能够得到包含绝大部分真实动作片段的高质量的动作片段提议，并且在动作片段提议分类后使用长度后验概率对分类结果进行调整，能够大幅度的提高动作检测结果的精度。

Description

一种基于稀疏编码和长度后验概率的视频动作检测方法

技术领域

本发明涉及一种计算机视觉领域中视频人体动作检测技术，特别是一种基于稀疏编码和长度后验概率的视频动作检测方法。

背景技术

视频中的人体动作检测是在一段未剪辑的长视频中检测出一个动作从何时开始到何时结束并识别出该动作的类别。动作检测广泛应用于智能视频监控、智能家居、人机交互、动作分析、虚拟现实等方面。然而，面对每天产生的海量视频，这项任务让人类来进行的话将会非常低效且枯燥，因此，使用计算机自动提取视频中有用的信息是非常迫切需要的。

视频中的人体动作检测分为人体动作表示以及动作的检测两个主要步骤，其中动作的检测又分为生成动作片段提议、动作片段提议分类以及冗余检测去除三个步骤。随着计算机视觉技术的不断发展，动作检测方面的研究越来越受到重视，各种动作检测方法层出不穷。传统方法方面，使用稀疏编码、随机森林、片段袋等方法进行动作检测取得了优秀的成果；近年来，随着深度学习的不断发展，使用卷积神经网络以及长短期记忆网络等方法进行动作检测也取得了突破性的进展。

到目前为止，虽然人体动作检测算法的研究中已经出现了许多优秀的方法并获得了突出的结果，但是仍然存在一些问题需要解决。第一，现有的生成动作片段提议的方法在对候选片段进行选择时，在去掉非动作片段的同时，也会去掉了很多动作片段，导致许多动作丢失。高质量的动作片段提议需要在数量尽量少的前提下包含尽可能多的动作片段，此时丢失过多的动作会影响最后动作检测结果的精度。第二，在对动作片段提议进行分类时，会有一些与真实动作片段重叠较小的片段拥有很高的分类分数，比如一些动作片段提议只是正确动作片段中的一小部分，这些片段并不是正确的检测结果，但是由于其不包含背景所以分类分数很高，这导致了在后续的非极大值抑制算法中，这些错误的片段会抑制正确的与真实动作片段重叠较大单分数较低的片段，最终导致动作检测结果错误。

发明内容

本发明的目的在于提供一种基于稀疏编码和长度后验概率的视频动作检测方法，包括特征提取、生成动作片段提议、动作片段提议分类以及冗余检测去除四个过程：

特征提取过程包括以下步骤：

步骤101，把训练集视频以及测试视频输入C3D网络中，C3D网络第一层的输入为视频中的16帧图像，把视频每16帧作为一个切片输入网络中，提取网络最后一个全连接层的输出作为特征；

步骤102，将步骤101中得到特征使用主成分分析进行降维；

步骤103，将步骤102中降维后的特征使用L2范数对特征进行归一化；

生成动作片段提议过程包括以下步骤：

步骤201，把训练集视频剪切为真实动作片段以及与真实动作片段的交并比IoU在一定范围内的片段；

步骤202，使用步骤201中剪切的视频片段特征，分别为每个真实动作片段以及每个与真实动作片段的交并比IoU在一定范围内的片段学习稀疏字典；

步骤203，使用滑动时间窗口法对测试视频进行剪切，生成候选片段；

步骤204，使用步骤202中学习的字典分别对候选片段进行重构，并计算重构误差；

步骤205，结合步骤204中得到的重构误差使用加权的非极大值抑制法得到每个字典计算得到的动作片段提议；

步骤206，将步骤205中每个字典生成的动作片段提议组合起来，再进行一次加权的非极大值抑制抑制法得到最终的动作片段提议结果；

动作片段提议分类过程包括以下步骤：

步骤301，使用训练集视频训练一个动作v.s.非动作二分类分类器，以及训练一个多类别分类器；

步骤302，使用步骤301中训练的二分类分类器将步骤206中生成的最终的动作片段提议进行二分类，去除分类为非动作的提议；

步骤303，使用步骤301中训练的多分类分类器对步骤302中保留下来的提议进行分类；

步骤304，使用训练集计算各类别的长度后验概率；

步骤305，使用步骤304中得到的长度后验概率对步骤303中得到的分类结果进行调整；

冗余检测去除过程包括以下步骤：

步骤401，使用步骤305中得到的动作片段提议新的分数进行非极大值抑制算法计算，去除冗余检测得到动作检测结果。

本发明与现有技术相比，具有以下优点：(1)与传统的稀疏编码在学习字典时使用剪切好的动作片段不同，本发明不止使用纯粹的动作片段，还加入一些包含动作片段时间上下文的相关信息，即包含动作片段前后的一定背景的片段，以加强字典的泛化能力，达到提高动作片段提议质量的效果；(2)本发明在多分类之前先使用了一个动作v.s.非动作二分类器，进一步的筛选掉非动作片段，能够减少后续操作的计算量并提高动作检测精度；(3)其三，本发明在对动作片段提议进行分类之后，使用长度后验概率对分类分数进行调整，达到降低与真实动作片段重叠较小的片段的分数，提高与真实动作片段重叠较大的片段的分数的目的，从而提高动作检测的精度。

下面结合说明书附图对本发明作进一步描述。

附图说明

图1为本发明方法流程示意图。

图2为C3D网络结构图。

图3为动作片段提议示例示意图。

图4为动作片段提议二分类流程示意图。

具体实施方式

本发明提出一种基于稀疏编码和长度后验概率的动作检测方法，包括特征提取、生成动作片段提议、动作片段提议分类以及冗余检测去除四个过程，对未剪辑的长视频进行一系列的计算，得到其中人体动作发生的开始时间、结束时间以及动作的类别。视频动作检测技术的基本框架如图1所示，本发明是按照这个基本框架进行的。

特征提取过程包括以下步骤：

步骤1)把训练视频以及测试视频输入C3D网络中，C3D网络结构如图2所示。C3D网络第一层的输入为视频中的16帧图像，把视频每16帧作为一个切片输入网络中，第(1～15)、(2～16)、……帧作为输入，然后提取网络最后一个全连接层fc7层的输出作为特征，输出为4096维。于是，若视频的帧数为F，视频的特征为(F-15)×4096维。

步骤2)将步骤1)中得到特征使用主成分分析进行降维，从4096维降到500维。

步骤3)将步骤2)中降维后的特征使用L2范数进行归一化。

生成动作片段提议过程包括以下步骤：

步骤4)把训练集中的视频剪切为真实动作片段以及与真实动作片段的交并比(IoU)在(0.6～0.7)、(0.7～0.8)、(0.8～0.9)、(0.9～1)这四个区间内的片段。

步骤5)使用步骤4)中剪切的视频片段特征，为真实动作片段以及与真实动作片段的交并比(IoU)在(0.6～0.7)、(0.7～0.8)、(0.8～0.9)、(0.9～1)这四个区间内的片段分别学习5个稀疏字典，即上下文相关稀疏字典。字典学习具体方法如下：

X_i表示用来训练字典的视频片段的特征，X＝[X₁|…|X_i]，i为用来训练的所有片段所包含的特征数。通过求解如下公式来进行字典D的学习：

其中，A为稀疏表示系数矩阵；D为要学习的字典；Y为训练所使用的特征的类别标签，每一个C3D特征向量都拥有一个类别标签；W是一个一对多的分类器；系数λ₁、λ₂、λ₃分别为0.05、0.05、0.025；n为训练所使用的片段特征的数量。字典的学习是一个迭代的过程，在每一次迭代中，使用交替更新的策略，先固定A更新D、W，在固定D、W更新A，最后得到使公式(1)最小的结果。更新W使用如下公式：

更新A使用如下公式：

更新D使用如下公式：

达到迭代结束标准后，得到我们所需要的稀疏字典D。迭代结束标准为两次迭代之间的差值小于0.01，或者超过最大迭代次数300次。

步骤6)使用滑动时间窗口法对测试视频进行剪切，生成候选片段。滑动时间窗口中的窗口长度使用均值漂移(Meanshift)算法对训练集中的真实动作片段长度进行聚类得到。

步骤7)使用步骤5)中学习到的上下文相关稀疏字典分别对步骤6)中得到的候选片段进行编码，计算重构误差，并根据重构误差计算候选片段的分数。具体计算方法如下：

X_k表示一个候选片段，编码通过如下公式：

其中n_k为候选片段特征的数量；系数λ为0.05。编码之后，计算候选片段的重构误差，重构误差cost的计算如下：

重构误差越小，说明这个片段中包含有动作的可能性越大，为了消除差异性，对重构误差进行归一化，得到候选片段的分数，分数score的计算如下：

步骤8)结合步骤7)中得到的候选片段分数使用加权的非极大值抑制抑制(WeightedNon-Maximum Suppression,WNMS)算法计算得到动作片段提议，动作片段提议示例如图3。不同于普通的NMS方法，WNMS对于不同长度的片段使用不同的抑制重叠系数。对于片段长度为(0～50)、(50～500)、(500～600)、(600～800)、(800～1200)、(1200～视频长度)范围的片段，分别使用0.55、0.65、0.55、0.45、0.35、0.25作为抑制重叠系数。

步骤9)将步骤8)中每个字典生成的动作片段提议组合起来，再进行一次WNMS得到最终的动作片段提议结果。所谓组合，就是把各个字典的结果单纯的都加在一起然后去掉其中重复的部分。

动作片段提议分类过程包括以下步骤：

步骤10)使用训练集视频训练一个动作v.s.非动作二分类分类器，以及一个多类别分类器。具体训练步骤如下：

步骤10-1)训练动作v.s.非动作二分类SVM分类器。把真实的动作片段作为正训练集X_action，与真实的动作片段的IoU为0的纯背景片段作为负训练集X_back，并且通过随机选择背景片段来保证负训练集的数量与正训练集的数量基本相同，即N_action≈N_back。训练SVM分类器使用的参数误差项惩罚函数C设置为1.0，核函数使用径向基函数(RadialBasedFunction,RBF)，RBF核函数中的参数gamma设置为0.2。训练集中的视频都是一整段长视频，其中有动作和背景，训练集中有标注动作在视频中的位置，没有动作的视频片段就是背景。就是与动作片段IoU为0的片段。

步骤10-2)训练一个一对多SVM分类器。为了平衡训练集数量，与二分类不同，多分类要减少背景的数量，使之与每一个动作类的数量基本相同。SVM参数设置与步骤10-1)中相同。

步骤11)使用步骤10-1)中训练的二分类分类器将步骤9)中生成的动作片段提议进行二分类，每一个动作片段提议可能包含多个16帧视频特征切片，在分类后每一个切片都拥有一个分类结果，如果在分类后，一个动作片段提议中有超过30％的切片被分类为背景，则我们认为这个动作片段提议为背景，否则我们认为这个动作片段提议为动作，如图4所示。只有被分类为动作的提议可以保留下来继续后续的计算。计算C3D特征时，C3D网络第一层的输入为视频中的16帧图像，把视频每16帧作为一个切片输入网络中，然后提取网络最后一个全连接层fc7层的输出作为特征，输出为4096维。一个切片就是一个16帧的特征。

步骤12)使用步骤10-2)中训练的多分类分类器对步骤11)中保留下来的提议进行分类。动作片段提议的类别是其中所有切片被分类到的类别中出现最多的那一个，动作片段提议的概率值，即这个动作片段提议的分数，为所有切片被分类到这个候选片段的类别的概率的平均值。

步骤13)使用训练集计算各类别的长度后验概率。具体计算方法如下：

首先设置一个固定的长度S，以S为步长设置一些长度T＝{S,2S,3S,…}，然后把动作长度L分类到这些固定长度T中，然后计算每一个长度T的后验概率，计算使用如下公式：

其中，∑L_T为所有分类到这个长度T中的动作长度L的数量，∑L为所有动作长度L的数量。概率P为长度后验概率，即在这个类别中这个长度的动作片段出现的概率。

步骤14)使用步骤13)中得到的长度后验概率对步骤12)中得到的分类结果进行调整，具体计算方法如下：

使用朴素贝叶斯后验概率来调整动作片段提议的分数，所用公式如下：

其中，P(L|C_i)是步骤13)中计算得到的第i类中的动作长度后验概率。P(C_i|f,Θ)是步骤12)中使用SVM分类器得到的动作片段提议的分类分数，这个分类分数就是这个动作片段提议分类到第i类的概率，其中f为SVM中所使用的C3D特征，Θ为SVM中的参数。P(L)为先验概率，设置它为1。P(C_i|f,Θ,L)是通过调整后得到的动作片段提议的新分数。

冗余检测去除过程包括以下步骤：

步骤15)使用步骤14)中得到的动作片段提议新的分数进行非极大值抑制(Non-Maximum Suppression,NMS)算法计算，去除冗余检测得到最终的动作检测结果。设置NMS中的重叠率阈值α稍小于检测结果进行评价时平均精度均值(mean Average Precision,mAP)使用的重叠率阈值θ(α＝θ-0.1)。

Claims

1.一种基于稀疏编码和长度后验概率的视频动作检测方法，包括特征提取、生成动作片段提议、动作片段提议分类以及冗余检测去除四个过程：

特征提取过程包括以下步骤：

步骤102，将步骤101中得到特征使用主成分分析进行降维；

生成动作片段提议过程包括以下步骤：

动作片段提议分类过程包括以下步骤：

步骤304，使用训练集计算各类别的长度后验概率；

冗余检测去除过程包括以下步骤：

步骤401，使用步骤305中得到的动作片段提议新的分数进行非极大值抑制算法计算，去除冗余检测得到动作检测结果，其中重叠率阈值α小于检测结果进行评价时平均精度均值使用的重叠率阈值θ，α＝θ-0.1。

2.根据权利要求1所述的方法，其特征在于，步骤201中把训练集中的视频剪切为真实动作片段以及与真实动作片段的交并比IoU在(0.6～0.7)、(0.7～0.8)、(0.8～0.9)、(0.9～1)这四个区间内的片段。

3.根据权利要求2所述的方法，其特征在于，所述步骤202的具体过程如下：

步骤2021，使用X_i表示训练字典的视频片段的特征，X＝[X₁|…|X_i]，i为用来训练的所有片段所包含的特征数，通过求解式(1)来进行字典D的学习：

其中，A为稀疏表示系数矩阵，D为要学习的字典，W是一个一对多的分类器，Y为训练所使用的特征的类别标签，系数λ₁、λ₂、λ₃分别为0.05、0.05、0.025，n为训练所使用的片段特征的数量，F是指F范数。

步骤2022，使用交替更新的策略对式(1)进行迭代，先固定A更新D、W，在固定D、W更新A，其中

更新W使用如下公式：

更新A使用如下公式：

更新D使用如下公式：

步骤2023，若两次迭代之间的差值小于0.01，或者超过最大迭代次数，迭代停止，选取使公式(1)的结果最小时对应的字典为稀疏字典。

4.根据权利要求1所述的方法，其特征在于，步骤203中滑动时间窗口中的窗口长度使用均值漂移算法对训练集中的真实动作片段长度进行聚类得到。

5.根据权利要求1所述的方法，其特征在于，所述步骤204中的重构误差cost为

其中，X_k表示一个候选片段；n_k为候选片段特征的数量；

通过式(5)进行编码：

其中，系数λ为0.05。

6.根据权利要求5所述的方法，其特征在于，步骤205的具体过程为：

步骤2051，对于不同长度的片段使用不同的抑制重叠系数；

步骤2052，保留不同片段中大于相应抑制重叠系数的分数score中最大的值对应的片段，该片段即为动作片段提议

其中，min(cost)、max(cost)分别为cost中的最大值、最小值。

7.根据权利要求1所述的方法，其特征在于，步骤301中训练动作v.s.非动作二分类SVM分类器中：

把真实的动作片段作为正训练集X_action，把与真实的动作片段的IoU为0的纯背景片段作为负训练集X_back，并且通过随机选择背景片段来保证负训练集的数量与正训练集的数量基本相同；

训练SVM分类器使用的参数误差项惩罚函数C设置为1.0，核函数使用径向基函数，径向基函数中的参数gamma设置为0.2。

步骤301中训练多类别分类器中：

为了平衡训练集数量，与二分类不同，多分类要减少背景的数量，使之与每一个动作类的数量基本相同。

8.根据权利要求7所述的方法，其特征在于，步骤302中使用步骤301中训练的二分类分类器将步骤206中生成的动作片段提议进行二分类，分类后每一个动作片段提议中有超过30％的切片被分类为背景，则这个动作片段提议为背景，否则这个动作片段提议为动作；

步骤303中使用步骤301中训练的多类别分类器对步骤302中保留下来的提议进行分类，其中，动作片段提议的类别是其中所有切片被分类到的类别中出现最多的那一个，动作片段提议的概率值为所有切片被分类到这个候选片段的类别的概率的平均值。

9.根据权利要求8所述的方法，其特征在于，步骤304使用训练集计算各类别的长度后验概率的具体计算方法为：

设置一个固定的长度S，以S为步长设置长度T＝{S,2S,3S,…}，把动作长度L分类到这些固定长度T中，根据式(8)计算每一个长度T的后验概率P：

其中，∑L_T为所有分类到这个长度T中的动作长度L的数量，∑L为所有动作长度L的数量。

10.根据权利要求9所述的方法，其特征在于，步骤305采用式(9)对步骤303中得到的分类结果进行调整：

其中，P(L|C_i)是计算得到的第i类中的动作长度后验概率；P(C_i|f,Θ)是步骤303中使用多分类分类器得到的动作片段提议的分类分数，这个分类分数就是这个动作片段提议分类到第i类的概率，f为SVM中所使用的C3D特征，Θ为SVM中的参数；P(L)为先验概率，设置它为1；P(C_i|f,Θ,L)是通过调整后得到的动作片段提议的新分数。