CN114898241B

CN114898241B - 基于计算机视觉的视频重复动作计数系统

Info

Publication number: CN114898241B
Application number: CN202210166285.0A
Authority: CN
Inventors: 高盛华; 胡华章; 董思勋; 赵逸群; 廉东泽; 厉征鑫
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2024-04-30
Anticipated expiration: 2042-02-21
Also published as: CN114898241A

Abstract

本发明涉及一种基于计算机视觉的视频重复动作计数系统，其特征在于，采用基于时域自相关的卷积神经网络框架，包括视频特征提取器、时域自相关层、编码器及动作预测器。本发明提出了一个基于深度学习计算机视觉的重复动作计数系统，实现了视频中重复动作的检测、定位和计数，使得计算机视觉在该项任务上的应用达到了领先的水平。

Description

基于计算机视觉的视频重复动作计数系统

技术领域

本发明涉及一种视频重复动作计数系统，主要被用于计算机视觉中的重复动作检测及计数。

背景技术

重复/周期性运动的计数是对于视频中的人的重复动作数目进行估计的一项计数。动作的重复在人们的生活中无处不在，重复运动的检测及计数具有非常广阔的应用前景。比如在人体运动时，对体育锻炼动作的检测计数可以帮助人们进行健身状况的监测和计划的制定。尽管人们可以使用一些人体传感器，但基于计算机视觉的方法具有便利性、非侵入性等特点。基于计算机视觉的重复动作计数可以取代过去一些低效的、人力消耗大的人工计数工作，如体育考试计数(跳绳，引体向上等)，工人做工计数，乐器弹奏等。此外，对计算机视觉重复动作计数方法的研究也可以为其他视频分析任务提供支持，例如行人检测和动作识别。

基于重复动作计数的潜在价值，许多方法应运而生。早期，人们使用了手工设计的特征通过检测的方法在视频中估计重复动作的数量。然而由于检测的这项任务本身在当时并不是一个解决的很好的问题，同时当视频中的动作出现中断、视角或距离的变换等现象时会导致计数器的性能急速下降，从而影响最终的计数准确率。后来，人们受别的视频理解任务的启发，提出了基于人体的形体特征(如人体关键点)的重复动作计数方法，提高了计数的准确率，但是该方法在动作幅度小、频率高、周期长等情况下表现性能很差。如今，许多工作是基于视频特征之间的相似度空间预测重复动作的分布。该类方法具有高效、准确率高、可解释性强的特点，也因此成为了目前研究重复计数的主流方法之一。

发明内容

本发明的目的是：解决视频中重复动作的检测及计数问题。

为了达到上述目的，本发明的技术方案是提供了一种基于计算机视觉的视频重复动作计数系统，其特征在于，采用基于时域自相关的卷积神经网络框架，包括视频特征提取器、时域自相关层、编码器及动作预测器，其中：

视频特征提取器用于在多个时域尺度上对视频图像进行特征提取，将输入视频分成不同时间尺度下的视频子序列S_i，将各个视频子序列S_i输入视频特征提取器从而得到不同时间尺度的嵌入向量E_i；

时域自相关层使用视频特征提取器提取到的不同时间尺度的嵌入向量E_i基于自相关机制构建不同尺度下的时域自相关矩阵后，将不同尺度下的时域自相关矩阵拼接成多维自相关矩阵；

编码器对多维自相关矩阵进行特征提取；

编码器输出的编码结果输入动作预测器，预测每一个重复动作发生的位置并计数；动作预测器采用神经网络回归视频的动作密度图方法，利用神经网络预测输出每一帧图像在时序上出现重复动作的概率，进而获得密度图，由密度图表征每个动作在视频时间上出现的位置。

优选地，所述视频特征提取器采用videoswin-transformer。

优选地，将所述输入视频分成{1帧，4帧，8帧}下的所述视频子序列S_i。

优选地，所述时域自相关层先基于不同时间尺度的所述嵌入向量E_i得到相似度矩阵M_i，然后将相似度矩阵M_i再拼接起来形成一个三维自相关矩阵M。

优选地，所述编码器采用基于多头自注意力机制的Transformer Encoder对所述三维自相关矩阵M进行特征提取。

优选地，利用带标准的视频数据对所述视频重复动作计数系统进行训练，标准时，在视频帧的时间轴上标注每个重复动作的开始位置和结束位置，然后根据高斯公式得到每一帧图像在时间维度上的高斯分布值，其中， G(y)表示每个动作周期概率密度分布，y_k表示当前帧图像在时间维度上的坐标，从而得到每一个视频的重复动作的细粒度标注数据，即真实的密度图；

训练时所采用的损失函数是预测的密度图与真实的动作密度图之间的均方误差。

本发明提出了一个基于深度学习计算机视觉的重复动作计数系统，实现了视频中重复动作的检测、定位和计数，使得计算机视觉在该项任务上的应用达到了领先的水平。

附图说明

图1为本发明的原理图；

图2示意了RepCount数据集测试结果。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

充分分析重复动作在时域上的特性后，本发明提出了一种基于计算机视觉的视频重复动作计数系统。如图1所示，本发明提出的视频重复动作计数系统采用基于时域自相关的卷积神经网络框架，主要由四部分组成：视频特征提取器；时域自相关层；编码器；动作预测器。

视频特征提取器用于在多个时域尺度上对视频图像进行特征提取。本实施例中，视频特征提取器目前最新、最强大的videoswin-transformer。将输入视频分成不同时间尺度{1帧，4帧，8帧}下的视频子序列S_i，将各个视频子序列S_i输入视频特征提取器从而得到不同时间尺度的嵌入向量E_i。

时域自相关层使用视频特征提取器提取到的视频特征基于自相关机制构建不同尺度下的时域自相关矩阵，通过该时域自相关矩阵表征不同尺度下提取的视频特征之间的时域相关性。时域自相关层先基于不同时间尺度的嵌入向量E_i得到相似度矩阵M_i，然后将相似度矩阵M_i再拼接起来形成一个三维自相关矩阵M。

编码器采用基于多头自注意力机制的Transformer Encoder对三维自相关矩阵 M进行特征提取。

编码器输出的编码结果输入动作预测器，预测每一个重复动作发生的位置并计数。动作预测器采用神经网络回归视频的动作密度图方法，利用神经网络预测输出每一帧图像在时序上出现重复动作的概率，进而获得密度图，由密度图表征每个动作在视频时间上出现的位置。区别于传统的回归每个重复动作的分布的方法，本发明提供的方法具有准确率高、鲁棒性强、收敛速度快的特点。

利用带标准的视频数据对上述视频重复动作计数系统进行训练，标注时，在视频帧的时间轴上标注每个重复动作的开始位置和结束位置，然后根据高斯公式得到每一帧图像在时间维度上的高斯分布值，其中，G(y)表示每个动作周期概率密度分布，y_k表示当前帧图像在时间维度上的坐标，从而得到每一个视频的重复动作的细粒度标注数据，即真实的密度图。

训练时，整个系统采用的损失函数是预测的密度图与真实的动作密度图之间的均方误差。衡量预测性能的指标包括：MAE(Mean Absolute Error)衡量预测值与真实值的相对误差，OBO(Off-by-One count error)衡量预测值与真实值的绝对误差。

在RepCount数据集的训练集上进行训练，在RepCount数据集测试集、UCF-Rep 数据集、QUVA数据集上进行测试。网络训练在4块NVIDIA2080Ti GPU上进行，采用Pytorch框架实现，优化器采用Adam优化器，初始学习率为8×10^-6，训练16K 时间步。测试样例结果如图2所示。

第一行Ground Truth表示人工标注数据生成的密度图，第二行Prediction表示我们的方法预测的动作密度图，颜色越深表示越靠近动作周期的中心。将所有预测值相加即可得到最终的重复动作数。

在RepCount数据集、UCF-Rep数据集、QUVA数据集上的测试结果如表1所示：

	RepCount	UCF-Rep	QUVA
				MAE	0.4431	0.6401	0.5581
OBO	0.2913	0.324	0.244

表1在各个数据集上的测试结果。

Claims

1.一种基于计算机视觉的视频重复动作计数系统，其特征在于，采用基于时域自相关的卷积神经网络框架，包括视频特征提取器、时域自相关层、编码器及动作预测器，其中：

编码器对多维自相关矩阵进行特征提取；

2.如权利要求1所述的一种基于计算机视觉的视频重复动作计数系统，其特征在于，所述视频特征提取器采用videoswin-transformer。

3.如权利要求1所述的一种基于计算机视觉的视频重复动作计数系统，其特征在于，将所述输入视频分成{1帧,4帧,8帧}下的所述视频子序列S_i。

4.如权利要求3所述的一种基于计算机视觉的视频重复动作计数系统，其特征在于，所述时域自相关层先基于不同时间尺度的所述嵌入向量E_i得到相似度矩阵M_i，然后将相似度矩阵M_i再拼接起来形成一个三维自相关矩阵M。

5.如权利要求4所述的一种基于计算机视觉的视频重复动作计数系统，其特征在于，所述编码器采用基于多头自注意力机制的Transformer Encoder对所述三维自相关矩阵M进行特征提取。

6.如权利要求4所述的一种基于计算机视觉的视频重复动作计数系统，其特征在于，利用带标准的视频数据对所述视频重复动作计数系统进行训练，标准时，在视频帧的时间轴上标注每个重复动作的开始位置和结束位置，然后根据高斯公式得到每一帧图像在时间维度上的高斯分布值，其中，G(y)表示每个动作周期概率密度分布，y_k表示当前帧图像在时间维度上的坐标，从而得到每一个视频的重复动作的细粒度标注数据，即真实的密度图；