CN110598646B

CN110598646B - 一种基于深度特征的无约束重复动作计数方法

Info

Publication number: CN110598646B
Application number: CN201910874723.7A
Authority: CN
Inventors: 尹建芹; 吴艳春; 党永浩; 刘小丽; 刘知宜
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2022-07-12
Anticipated expiration: 2039-09-16
Also published as: CN110598646A

Abstract

本发明公开了一种基于深度特征的无约束重复动作计数方法，其特征在于，具体步骤包括如下：构建BN‑Inception网络，并进行深度特征提取；将提取的深度特征进行降维，得到降维后的周期图；利用傅里叶变换对所述周期图进行分段阈值滤波，得到光滑的频率图；根据滤波后的频率图进行计数。本发明提供了一种基于深度特征的无约束重复动作计数方法，为了捕获较鲁棒的运动特征并有效的避免相机移动的干扰，对捕获的视频提取RGB和光流图,在此基础上使用深度ConvNets进行特征提取，基于特征值寻找体现重复动作的运动规律，使用变周期的傅里叶变换来处理复杂场景的非静止的视频动态，获取明显的运动频率，更好的统计重复运动次数。

Description

一种基于深度特征的无约束重复动作计数方法

技术领域

本发明涉及深度学习技术领域，更具体的说是涉及一种基于深度特征的无约束重复动作计数方法。

背景技术

视觉重复在现实生活中无处不在，它出现在体育运动、音乐弹奏和工人做工等诸多相关应用场景中。在计算机视觉中，理解视频中的重复动作非常重要，它可以服务于视频中动作分类、分割和运动规律分析。由于重复运动的动作模式存在多样性，同时在视频捕获过程中不可避免的存在相机移动，使得视频重复动作估计具有一定的挑战性。

近年来，在捕获的视频场景中，对于相同动作连续循环运动进行分析并计数引起了研究者的关注。在重复动作计数任务中，对固定场景的特定动作进行研究，假设重复运动是静态的并且具有强周期性，通过传统的特征提取方法获取目标的运动特性进行分析，并取得了较显著的研究效果。然而真实的生活场景是复杂多变的，通过模拟多种重复运动模式感知，进行匹配计数，但重复运动并不代表运动具有固定周期，即使同一运动方式在外观形态、运动形式和运动频率也会有各式各样的变化。

现存方法在视频动作周期性任务中取得了显著成果，Burghouts等人提出了一种用于估计视频重复的时空滤波器组，他们的过滤器可以在线工作，并且在正确调整时非常有效，然而他们的实验仅限于静止运动，并且滤波器组需要手动调整。Laptev等人将匹配用于动作计数，利用视点变化时同一运动多次重复产生的几何约束来检测和分割重复运动，虽然这可能为计数系统奠定基础，但并没有完成对计数的评估。以及后续的研究将重复的三维重建作为研究重点，应用如步态识别。基于匹配视觉描述符开发了两个自相关计数系统，虽然这两个系统都显示了计数应用程序的屏幕截图，但它们都是后处理方法，只适用于受限视频的特定领域。

真实的生活场景往往是复杂多变的，即使是同一重复运动的频率和外观模态也会呈现较大差异，所以对于适用于特定领域，并且对于样本数据的限定，现有技术中的重复动作计数方法，无法得到大范围应用。

因此，如何提供一种适于多种样本数据，简单灵活的无约束重复动作计数方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于深度特征的无约束重复动作计数方法，为了捕获较鲁棒的运动特征并有效的避免相机移动的干扰，对捕获的视频提取RGB和光流图，在此基础上使用深度ConvNets进行特征提取，基于特征值寻找体现重复动作的运动规律，使用变周期的傅里叶变换来处理复杂场景的非静止的视频动态，获取明显的运动频率，更好的统计重复运动次数。

为了实现上述目的，本发明提供如下技术方案：

一种基于深度特征的无约束重复动作计数方法，具体步骤包括如下：

构建BN-Inception网络，并进行深度特征提取；

将提取的深度特征进行降维，得到降维后的周期图；

利用傅里叶变换对所述周期图进行分段阈值滤波，得到光滑的频率图；

根据滤波后的频率图进行计数。

通过上述的技术方案，本发明的技术效果在于：本申请选用由GoogLeNet 延申而来的Inception v2网络，由于其准确性和效率之间良好的平衡，在 Inception v2结构中学习了VGG中将两个3×3的卷积层和一个5×5卷积层具有相同的感受野这一特性，同时提出了非常有效的BN(Batch Normalization) 正则化方法对数据归一化处理，通过在网络的输入前加一个归一化层，使每一层的输入数据都规范化到一个N(0，1)的高斯分布，不仅加快了大型网络的训练速度，同时还加入两个参数，将学到的特征重新映射回原来的特征分布，不会破坏原来学到的特征，使得收敛后的分类准确率也大幅度提高。

优选的，在上述的一种基于深度特征的无约束重复动作计数方法中，深度特征提取的具体步骤包括：

将视频分为时间流和空间流两个分量，分别从静止帧和帧间运动来作为网络得输入；其中，空间流网络对单帧RGB图像进行操作，描述场景和对象的信息，提取空间特征；时序流网络以连续的光流图作为输入，描述摄像机和视频帧之间物体的运动信息，提取时序特征；

空间特征Static_fea＝(f₁,f₂,......，f_m)；

时序特征Dynamic_fea＝(f₁,f₂,......，f_m)，其中m表示特征维度。

通过上述的技术方案，本发明的技术效果在于：为了捕获较鲁棒的运动特征并有效的避免相机移动的干扰，对捕获的视频提取RGB和光流图,在此基础上使用深度ConvNets进行特征提取，基于特征值寻找体现重复动作的运动规律。

优选的，在上述的一种基于深度特征的无约束重复动作计数方法中，将提取的深度特征进行降维具体步骤包括：

对单个视频数据根据空间特征和时序特征获取特征矩阵Fea＝{F₁,F₂,......F_N}，Fea为N×D的二维矩阵，其中N为一个视频片段的总帧数；F_n,n＝1,2,......N表示单帧图片的特征，特征维度为D；

对特征矩阵Fea的每一维特征求平均数，得到均值矩阵

所述特征矩阵Fea与所述均值矩阵

之差得到转换矩阵

根据转换矩阵

计算协方差矩阵COV,

根据所述协方差矩阵COV得到其特征值Λ＝diag(λ₁,λ₂,......，λ_D)和特征向量 V＝(μ₁,μ₂,......μ_D)，并将特征向量按对应的特征值大小，从下而上按行排列成矩阵，取前k行组成矩阵，则特征矩阵Fea变换后得到的映射矩阵 P′(u)＝{p₁,p₂,......，p_N}，映射特征矩阵大小为N×k，取其中的第一行作为周期图中的信号值。

通过上述的技术方案，本发明的技术效果在于：分别对提取的RGB和 Opticalflow特征进行分析，通过PCA变换后的输出结果可以看到第一维特征展现出较好的周期性信息，方便了计数。

优选的，在上述的一种基于深度特征的无约束重复动作计数方法中，利用傅里叶变换对所述投影图进行分段阈值滤波具体步骤包括：

首先通过傅里叶变换将周期图分解成各分量频域的叠加，把周期图的振动频率分离出来获得频谱；

其中k＝1,2…N，N为视频帧数；

用不同的频率分量前的系数，确定需要滤除的频带，将对应频域设置为零，

其中threshold为滤波频率阈值通过傅里叶变换反变换回原来信号P(u)，

通过上述的技术方案，本发明的技术效果在于：由于捕获视频数据的复杂多样和重复动作的非标准化现象，使得周期性信号呈现非平稳性，并包含较多的噪声信息，导致重复计数效率较差，通过以上变换实现信号的滤波，使具有周期运动规律的频率图具有光滑运动轨迹，更好的进行重复动作计数。

优选的，在上述的一种基于深度特征的无约束重复动作计数方法中，视频重复动作计数使用的峰值检测进行统计计数。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于深度特征的无约束重复动作计数方法，该方法不需要预先训练和定义各种可能的运动模式，而是通过使用基于大规模数据集的训练模型，提取基于神经网络的包含视频动作的时间演化特性和独特的外观、运动模式的时空特征。然后通过PCA降维，获得凸显周期运动特性的主成分，另外基于傅里叶变换通过自适应分段阈值滤波去取噪声、平滑运动轨迹，根据视频重复动作周期信号的峰值完成重复动作计数任务。本发明实现简单灵活，并取得了相当的检测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明的BN-Inception网络结构示意图；

图3为本发明的特征提取框架图；

图4为本发明的不同主成分结果示意图；

图5为本发明的重复动作周期运动效果图；

图6为本发明的阈值选择分析示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于深度特征的无约束重复动作计数方法，该方法不需要预先训练和定义各种可能的运动模式，而是通过使用基于大规模数据集的训练模型，提取基于神经网络的包含视频动作的时间演化特性和独特的外观、运动模式的时空特征。然后通过PCA降维，获得凸显周期运动特性的主成分，另外基于傅里叶变换通过自适应分段阈值滤波去取噪声、平滑运动轨迹，根据视频重复动作周期信号的峰值完成重复动作计数任务。本发明实现简单灵活，并取得了相当的检测效果。

如图1所示，一种基于深度特征的无约束重复动作计数方法，具体步骤包括如下：

构建BN-Inception网络，并进行深度特征提取；

将提取的深度特征进行降维，得到降维后的周期图；

利用傅里叶变换对周期图进行分段阈值滤波，得到光滑的频率图；

根据滤波后的频率图进行计数。

为了进一步优化上述技术方案，如图2所示，选用由GoogLeNet延申而来的Inception v2网络，由于其准确性和效率之间良好的平衡,在Inception v2 结构中学习了VGG中将两个3×3的卷积层和一个5×5卷积层具有相同的感受野这一特性，同时提出了非常有效的BN(Batch Normalization)正则化方法对数据归一化处理，通过在网络的输入前加一个归一化层，使每一层的输入数据都规范化到一个N(0，1)的高斯分布，不仅加快了大型网络的训练速度，同时还加入两个参数，将学到的特征重新映射回原来的特征分布，不会破坏原来学到的特征，使得收敛后的分类准确率也大幅度提高。

为了进一步优化上述技术方案，如图3所示，深度特征提取的具体步骤包括：

空间特征Static_fea＝(f₁,f₂,......，f_m)；

在Kinetics数据集上训练的网络模型进行特征提取，该工作没有对网络进行微调，直接在实验数据集上提取空间特征和时序特征，特征维度为1024维。

为了进一步优化上述技术方案，将提取的深度特征进行降维具体步骤包括：

对特征矩阵Fea的每一维特征求平均数，得到均值矩阵

特征矩阵Fea与均值矩阵

之差得到转换矩阵

根据转换矩阵

计算协方差矩阵COV,

根据协方差矩阵COV得到其特征值Λ＝diag(λ₁,λ₂,......，λ_D)和特征向量 V＝(μ₁,μ₂,......μ_D)，并将特征向量按对应的特征值大小，从下而上按行排列成矩阵，取前k行组成矩阵，则特征矩阵Fea变换后得到的映射矩阵 P′(u)＝{p₁,p₂,......，p_N}，映射特征矩阵大小为N×k，取k＝10时，可视化特征矩阵如图4所示。

为了进一步优化上述技术方案，利用傅里叶变换对投影图进行分段阈值滤波具体步骤包括：

其中k＝1,2…N，表示PCA获取的第一维主成分，N为视频帧数；

其中threshold为滤波频率阈值；

通过傅里叶变换反变换回原来信号P(u)，

为了进一步优化上述技术方案，如图5所示视频重复运动的可视化效果，其中(a)为体现周期运动的主成分，(b)为修正后的周期运动图。视频重复动作计数使用的峰值检测进行统计计数，如图5(b)所示。

本发明实验数据源于多样化和具有挑战性的真实的生活场景，包含相机和背景移动，视频具有不同的重复长度和复杂的外观模式。通过本发明的方法对比了两个来自youtube的数据集YT segments和QUVA，另外本发明使用的数据集只参与测试而不参与训练。其中，YT_segments数据集：包含具有重复内容的100个视频数据集，这个测试数据集很好的显示了各领域的组合，包括锻炼，烹饪，建筑，生物等，为了从一组非常多样化的视频中创建一个干净的基准测试，视频被预先分割，只包含重复的动作，每个视频的重复次数被预先标记，其中最短重复和最长重复次数分别为4，50，视频平均时长为 14.96s。其中包含30个视频具有不同程度的摄像机运动。

QUVA数据集：由100个视频组成，展示各种重复的视频动态，包括游泳，搅拌，切割，梳理和音乐制作。与数据集YT_segments相比，该视频数据在周期长度、运动外观、摄像机运动和背景复杂度方面有更多的变化。通过增加场景复杂性和时间动态的难度，使得该数据集作为一个更现实和更具挑战性的基准估计重复视频。

使用传统的更容易理解的评估准则作为该任务的度量，其中真值G和预测值R之间计数的绝对差的百分比作为评估结果：

对于N个视频，计算平均绝对误差(MAE)±标准偏差(σ)，其中

本发明的训练模型使用大型主流的数据集Kinetics,该数据包含30万个来自真实场景的剪辑动作视频，共400个动作类别。该方法的显著性在2017 Activity挑战赛中得到了很好的证明。本发明的重复动作计数任务没有训练过程，直接对实验数据提取的特征进行重复动作计数分析。

在滤波过程中，如果设置滤波频率的阈值(threshold)不同，那么其滤波效果也不同，为了验证不同阈值对实验结果的影响，基于RGB特征做以下分析，首先根据经验值设置threshold(α)为如下不同阈值时，在YT_segments 数据集上，对重复动作计数实验结果如表1所示。

表1不同阈值的对比分析

由实验结果可以看出，在固定阈值(threshold)的情况下，滤波后的效果较差，因为固定的阈值并不适合多样化的频率运动，如图6(a)所示，对不同频率变量的运动特性应当进行区别对待，所以使用分段阈值来进行滤波处理。即对不同的频率带选择不同的滤波阈值。根据高通带数进行阈值选择。其选择规则如图6(b) 所示。

另外，分别对基于RGB和Optical Flow提取的空间和时序特征进行分析，然后对比RGB+Flow特征的融合结果，同时还分析了傅里叶变换模块对实验结果的影响，实验结果如表2所示，表明在YT_segments数据集上加入傅里叶变换后计数准确率得到了提升，证明了分段阈值傅里叶变换的有效性。另外，也表明基于RGB流的特征达到了最好的效果。

Table 2TY_segments数据集的实验结果对比分析

最终实验结果如表3所示，本发明的方法与现存较显著的方法相比，在 YT_segments数据集在O.Levy and L.Wolf.Live Repetition Counting方法2表现最好，MAE为6.5。其中方法3：Runia T F H,Snoek C G M,Smeulders A W M.Real-World RepetitionEstimation by Div,Grad and Curl的方法MAE为10.3，优于基于方法1：E.Pogalin,A.Smeulders,and A.Thean.Visual quasiperiodicity 的方法。本发明的方法优于上述方法，MAE为8.7，但标准误差与以上方法相比达到了最好的性能。在更具挑战性的QUVA数据集上，实验结果也达到了良好的性能。在两个公共数据集上，我们得到的标准误差均达到了最好的效果，证明了该方法的有效性。

表3不同方法的实验结果对比

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度特征的无约束重复动作计数方法，其特征在于，具体步骤包括如下：

构建BN-Inception网络，并进行深度特征提取；

将提取的深度特征进行降维，得到降维后的周期图；

根据频率图进行计数；

利用傅里叶变换对所述周期图进行分段阈值滤波，具体步骤包括：

其中k＝1,2…,N，N为视频帧数；

其中threshold为滤波频率阈值；

通过傅里叶变换反变换回原来信号P(u)，得到最终信号图，

N为视频帧数；u＝1,2…,N。

2.根据权利要求1所述的一种基于深度特征的无约束重复动作计数方法，其特征在于，深度特征提取的具体步骤包括：

将视频分为时间流和空间流两个分量，分别从静止帧和帧间运动来作为网络输入；其中，空间流网络对单帧RGB图像进行操作，描述场景和对象的信息，提取空间特征；时序流网络以连续的光流图作为输入，描述摄像机和视频帧之间物体的运动信息，提取时序特征；

空间特征Static_fea＝(f₁,f₂,......，f_m)；

时序特征Dynamic_fea＝(f₁,f₂,......，f_m)，其中m表示第一特征维度。

3.根据权利要求2所述的一种基于深度特征的无约束重复动作计数方法，其特征在于，将提取的深度特征进行降维具体步骤包括：

对特征矩阵Fea的每一维特征求平均数，得到均值矩阵

所述特征矩阵Fea与所述均值矩阵

之差得到转换矩阵

根据转换矩阵

计算协方差矩阵COV,

根据所述协方差矩阵COV得到其特征值Λ＝diag(λ₁,λ₂,......，λ_D)和特征向量V＝(m₁,m₂,......m_D)，并将特征向量按对应的特征值大小，从下而上按行排列成矩阵，取前k行组成矩阵，则特征矩阵Fea变换后得到的映射矩阵P′(u)＝{p₁,p₂,......，p_N}，映射特征矩阵大小为N×k，取其中的第一行作为周期图中的信号值。

4.根据权利要求1所述的一种基于深度特征的无约束重复动作计数方法，其特征在于，视频重复动作计数使用的峰值检测进行统计计数。