CN114898241B - 基于计算机视觉的视频重复动作计数系统 - Google Patents
基于计算机视觉的视频重复动作计数系统 Download PDFInfo
- Publication number
- CN114898241B CN114898241B CN202210166285.0A CN202210166285A CN114898241B CN 114898241 B CN114898241 B CN 114898241B CN 202210166285 A CN202210166285 A CN 202210166285A CN 114898241 B CN114898241 B CN 114898241B
- Authority
- CN
- China
- Prior art keywords
- video
- motion
- computer vision
- counting system
- autocorrelation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033001 locomotion Effects 0.000 title claims abstract description 51
- 230000003252 repetitive effect Effects 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30242—Counting objects in image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于计算机视觉的视频重复动作计数系统,其特征在于,采用基于时域自相关的卷积神经网络框架,包括视频特征提取器、时域自相关层、编码器及动作预测器。本发明提出了一个基于深度学习计算机视觉的重复动作计数系统,实现了视频中重复动作的检测、定位和计数,使得计算机视觉在该项任务上的应用达到了领先的水平。
Description
技术领域
本发明涉及一种视频重复动作计数系统,主要被用于计算机视觉中的重复动作检测及计数。
背景技术
重复/周期性运动的计数是对于视频中的人的重复动作数目进行估计的一项计数。动作的重复在人们的生活中无处不在,重复运动的检测及计数具有非常广阔的应用前景。比如在人体运动时,对体育锻炼动作的检测计数可以帮助人们进行健身状况的监测和计划的制定。尽管人们可以使用一些人体传感器,但基于计算机视觉的方法具有便利性、非侵入性等特点。基于计算机视觉的重复动作计数可以取代过去一些低效的、人力消耗大的人工计数工作,如体育考试计数(跳绳,引体向上等),工人做工计数,乐器弹奏等。此外,对计算机视觉重复动作计数方法的研究也可以为其他视频分析任务提供支持,例如行人检测和动作识别。
基于重复动作计数的潜在价值,许多方法应运而生。早期,人们使用了手工设计的特征通过检测的方法在视频中估计重复动作的数量。然而由于检测的这项任务本身在当时并不是一个解决的很好的问题,同时当视频中的动作出现中断、视角或距离的变换等现象时会导致计数器的性能急速下降,从而影响最终的计数准确率。后来,人们受别的视频理解任务的启发,提出了基于人体的形体特征(如人体关键点)的重复动作计数方法,提高了计数的准确率,但是该方法在动作幅度小、频率高、周期长等情况下表现性能很差。如今,许多工作是基于视频特征之间的相似度空间预测重复动作的分布。该类方法具有高效、准确率高、可解释性强的特点,也因此成为了目前研究重复计数的主流方法之一。
发明内容
本发明的目的是:解决视频中重复动作的检测及计数问题。
为了达到上述目的,本发明的技术方案是提供了一种基于计算机视觉的视频重复动作计数系统,其特征在于,采用基于时域自相关的卷积神经网络框架,包括视频特征提取器、时域自相关层、编码器及动作预测器,其中:
视频特征提取器用于在多个时域尺度上对视频图像进行特征提取,将输入视频分成不同时间尺度下的视频子序列Si,将各个视频子序列Si输入视频特征提取器从而得到不同时间尺度的嵌入向量Ei;
时域自相关层使用视频特征提取器提取到的不同时间尺度的嵌入向量Ei基于自相关机制构建不同尺度下的时域自相关矩阵后,将不同尺度下的时域自相关矩阵拼接成多维自相关矩阵;
编码器对多维自相关矩阵进行特征提取;
编码器输出的编码结果输入动作预测器,预测每一个重复动作发生的位置并计数;动作预测器采用神经网络回归视频的动作密度图方法,利用神经网络预测输出每一帧图像在时序上出现重复动作的概率,进而获得密度图,由密度图表征每个动作在视频时间上出现的位置。
优选地,所述视频特征提取器采用videoswin-transformer。
优选地,将所述输入视频分成{1帧,4帧,8帧}下的所述视频子序列Si。
优选地,所述时域自相关层先基于不同时间尺度的所述嵌入向量Ei得到相似度矩阵Mi,然后将相似度矩阵Mi再拼接起来形成一个三维自相关矩阵M。
优选地,所述编码器采用基于多头自注意力机制的Transformer Encoder对所述三维自相关矩阵M进行特征提取。
优选地,利用带标准的视频数据对所述视频重复动作计数系统进行训练,标准时,在视频帧的时间轴上标注每个重复动作的开始位置和结束位置,然后根据高斯公式得到每一帧图像在时间维度上的高斯分布值,其中, G(y)表示每个动作周期概率密度分布,yk表示当前帧图像在时间维度上的坐标,从而得到每一个视频的重复动作的细粒度标注数据,即真实的密度图;
训练时所采用的损失函数是预测的密度图与真实的动作密度图之间的均方误差。
本发明提出了一个基于深度学习计算机视觉的重复动作计数系统,实现了视频中重复动作的检测、定位和计数,使得计算机视觉在该项任务上的应用达到了领先的水平。
附图说明
图1为本发明的原理图;
图2示意了RepCount数据集测试结果。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
充分分析重复动作在时域上的特性后,本发明提出了一种基于计算机视觉的视频重复动作计数系统。如图1所示,本发明提出的视频重复动作计数系统采用基于时域自相关的卷积神经网络框架,主要由四部分组成:视频特征提取器;时域自相关层;编码器;动作预测器。
视频特征提取器用于在多个时域尺度上对视频图像进行特征提取。本实施例中,视频特征提取器目前最新、最强大的videoswin-transformer。将输入视频分成不同时间尺度{1帧,4帧,8帧}下的视频子序列Si,将各个视频子序列Si输入视频特征提取器从而得到不同时间尺度的嵌入向量Ei。
时域自相关层使用视频特征提取器提取到的视频特征基于自相关机制构建不同尺度下的时域自相关矩阵,通过该时域自相关矩阵表征不同尺度下提取的视频特征之间的时域相关性。时域自相关层先基于不同时间尺度的嵌入向量Ei得到相似度矩阵Mi,然后将相似度矩阵Mi再拼接起来形成一个三维自相关矩阵M。
编码器采用基于多头自注意力机制的Transformer Encoder对三维自相关矩阵 M进行特征提取。
编码器输出的编码结果输入动作预测器,预测每一个重复动作发生的位置并计数。动作预测器采用神经网络回归视频的动作密度图方法,利用神经网络预测输出每一帧图像在时序上出现重复动作的概率,进而获得密度图,由密度图表征每个动作在视频时间上出现的位置。区别于传统的回归每个重复动作的分布的方法,本发明提供的方法具有准确率高、鲁棒性强、收敛速度快的特点。
利用带标准的视频数据对上述视频重复动作计数系统进行训练,标注时,在视频帧的时间轴上标注每个重复动作的开始位置和结束位置,然后根据高斯公式得到每一帧图像在时间维度上的高斯分布值,其中,G(y)表示每个动作周期概率密度分布,yk表示当前帧图像在时间维度上的坐标,从而得到每一个视频的重复动作的细粒度标注数据,即真实的密度图。
训练时,整个系统采用的损失函数是预测的密度图与真实的动作密度图之间的均方误差。衡量预测性能的指标包括:MAE(Mean Absolute Error)衡量预测值与真实值的相对误差,OBO(Off-by-One count error)衡量预测值与真实值的绝对误差。
在RepCount数据集的训练集上进行训练,在RepCount数据集测试集、UCF-Rep 数据集、QUVA数据集上进行测试。网络训练在4块NVIDIA2080Ti GPU上进行,采用Pytorch框架实现,优化器采用Adam优化器,初始学习率为8×10-6,训练16K 时间步。测试样例结果如图2所示。
第一行Ground Truth表示人工标注数据生成的密度图,第二行Prediction表示我们的方法预测的动作密度图,颜色越深表示越靠近动作周期的中心。将所有预测值相加即可得到最终的重复动作数。
在RepCount数据集、UCF-Rep数据集、QUVA数据集上的测试结果如表1所示:
RepCount | UCF-Rep | QUVA | |
MAE | 0.4431 | 0.6401 | 0.5581 |
OBO | 0.2913 | 0.324 | 0.244 |
表1在各个数据集上的测试结果。
Claims (6)
1.一种基于计算机视觉的视频重复动作计数系统,其特征在于,采用基于时域自相关的卷积神经网络框架,包括视频特征提取器、时域自相关层、编码器及动作预测器,其中:
视频特征提取器用于在多个时域尺度上对视频图像进行特征提取,将输入视频分成不同时间尺度下的视频子序列Si,将各个视频子序列Si输入视频特征提取器从而得到不同时间尺度的嵌入向量Ei;
时域自相关层使用视频特征提取器提取到的不同时间尺度的嵌入向量Ei基于自相关机制构建不同尺度下的时域自相关矩阵后,将不同尺度下的时域自相关矩阵拼接成多维自相关矩阵;
编码器对多维自相关矩阵进行特征提取;
编码器输出的编码结果输入动作预测器,预测每一个重复动作发生的位置并计数;动作预测器采用神经网络回归视频的动作密度图方法,利用神经网络预测输出每一帧图像在时序上出现重复动作的概率,进而获得密度图,由密度图表征每个动作在视频时间上出现的位置。
2.如权利要求1所述的一种基于计算机视觉的视频重复动作计数系统,其特征在于,所述视频特征提取器采用videoswin-transformer。
3.如权利要求1所述的一种基于计算机视觉的视频重复动作计数系统,其特征在于,将所述输入视频分成{1帧,4帧,8帧}下的所述视频子序列Si。
4.如权利要求3所述的一种基于计算机视觉的视频重复动作计数系统,其特征在于,所述时域自相关层先基于不同时间尺度的所述嵌入向量Ei得到相似度矩阵Mi,然后将相似度矩阵Mi再拼接起来形成一个三维自相关矩阵M。
5.如权利要求4所述的一种基于计算机视觉的视频重复动作计数系统,其特征在于,所述编码器采用基于多头自注意力机制的Transformer Encoder对所述三维自相关矩阵M进行特征提取。
6.如权利要求4所述的一种基于计算机视觉的视频重复动作计数系统,其特征在于,利用带标准的视频数据对所述视频重复动作计数系统进行训练,标准时,在视频帧的时间轴上标注每个重复动作的开始位置和结束位置,然后根据高斯公式得到每一帧图像在时间维度上的高斯分布值,其中,G(y)表示每个动作周期概率密度分布,yk表示当前帧图像在时间维度上的坐标,从而得到每一个视频的重复动作的细粒度标注数据,即真实的密度图;
训练时所采用的损失函数是预测的密度图与真实的动作密度图之间的均方误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210166285.0A CN114898241B (zh) | 2022-02-21 | 2022-02-21 | 基于计算机视觉的视频重复动作计数系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210166285.0A CN114898241B (zh) | 2022-02-21 | 2022-02-21 | 基于计算机视觉的视频重复动作计数系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114898241A CN114898241A (zh) | 2022-08-12 |
CN114898241B true CN114898241B (zh) | 2024-04-30 |
Family
ID=82715144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210166285.0A Active CN114898241B (zh) | 2022-02-21 | 2022-02-21 | 基于计算机视觉的视频重复动作计数系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898241B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408088A (zh) * | 2016-11-22 | 2017-02-15 | 北京六合智汇技术有限责任公司 | 一种基于深度学习理论的旋转机械设备故障诊断方法 |
CN111309965A (zh) * | 2020-03-20 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 音频匹配方法、装置、计算机设备及存储介质 |
CN111860162A (zh) * | 2020-06-17 | 2020-10-30 | 上海交通大学 | 一种视频人群计数系统及方法 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015132665A2 (en) * | 2014-03-07 | 2015-09-11 | Wolf, Lior | System and method for the detection and counting of repetitions of repetitive activity via a trained network |
-
2022
- 2022-02-21 CN CN202210166285.0A patent/CN114898241B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408088A (zh) * | 2016-11-22 | 2017-02-15 | 北京六合智汇技术有限责任公司 | 一种基于深度学习理论的旋转机械设备故障诊断方法 |
CN111309965A (zh) * | 2020-03-20 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 音频匹配方法、装置、计算机设备及存储介质 |
CN111860162A (zh) * | 2020-06-17 | 2020-10-30 | 上海交通大学 | 一种视频人群计数系统及方法 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
Non-Patent Citations (2)
Title |
---|
基于卷积神经网络的稀疏目标场景下智能视频人数统计方法;焦会英;;电子技术与软件工程;20181109(第21期);全文 * |
基于矩阵补全的无人车感知系统的攻击防御技术;李慧云;邵翠萍;陈贝章;胡延步;杨赵南;;集成技术;20200915(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114898241A (zh) | 2022-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020623B (zh) | 基于条件变分自编码器的人体活动识别系统及方法 | |
CN108133188A (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN104200203B (zh) | 一种基于动作字典学习的人体动作检测方法 | |
CN110414306B (zh) | 一种基于meanshift算法和SVM的婴儿异常行为检测方法 | |
CN108681689B (zh) | 基于生成对抗网络的帧率增强步态识别方法及装置 | |
CN111832516A (zh) | 基于无监督视频表示学习的视频行为识别方法 | |
CN108960142B (zh) | 基于全局特征损失函数的行人再识别方法 | |
CN102148987A (zh) | 基于先验模型和l0范数的压缩感知图像重构方法 | |
CN109522961A (zh) | 一种基于字典深度学习的半监督图像分类方法 | |
CN112990082B (zh) | 一种水声脉冲信号的检测识别方法 | |
CN112766218B (zh) | 基于非对称联合教学网络的跨域行人重识别方法和装置 | |
CN108038467B (zh) | 一种镜像图与粗细层次结合的稀疏人脸识别方法 | |
CN111144462A (zh) | 一种雷达信号的未知个体识别方法及装置 | |
CN111711816B (zh) | 基于可察知编码效应强度的视频客观质量评价方法 | |
CN114898241B (zh) | 基于计算机视觉的视频重复动作计数系统 | |
CN110288026A (zh) | 一种基于度量关系图学习的图像分割方法及装置 | |
CN113987910A (zh) | 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置 | |
CN108256569B (zh) | 一种复杂背景下的对象识别方法及使用的计算机技术 | |
CN113537240B (zh) | 一种基于雷达序列图像的形变区智能提取方法及系统 | |
Wang et al. | Extraction and recognition method of basketball players’ dynamic human actions based on deep learning | |
US11244206B2 (en) | Image normalization for facial analysis | |
Liu et al. | Robust detection of neural spikes using sparse coding based features | |
CN116956063A (zh) | 一种基于多模态最佳数据选取与增强的手势识别方法与系统 | |
CN112446440B (zh) | 基于msr-cnn的机器人多传感器目标跟踪方法 | |
CN113762082B (zh) | 基于循环图卷积自动编码器的无监督骨架动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |