CN114898241B - 基于计算机视觉的视频重复动作计数系统 - Google Patents

基于计算机视觉的视频重复动作计数系统 Download PDF

Info

Publication number
CN114898241B
CN114898241B CN202210166285.0A CN202210166285A CN114898241B CN 114898241 B CN114898241 B CN 114898241B CN 202210166285 A CN202210166285 A CN 202210166285A CN 114898241 B CN114898241 B CN 114898241B
Authority
CN
China
Prior art keywords
video
motion
computer vision
counting system
autocorrelation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210166285.0A
Other languages
English (en)
Other versions
CN114898241A (zh
Inventor
高盛华
胡华章
董思勋
赵逸群
廉东泽
厉征鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ShanghaiTech University
Original Assignee
ShanghaiTech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ShanghaiTech University filed Critical ShanghaiTech University
Priority to CN202210166285.0A priority Critical patent/CN114898241B/zh
Publication of CN114898241A publication Critical patent/CN114898241A/zh
Application granted granted Critical
Publication of CN114898241B publication Critical patent/CN114898241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于计算机视觉的视频重复动作计数系统,其特征在于,采用基于时域自相关的卷积神经网络框架,包括视频特征提取器、时域自相关层、编码器及动作预测器。本发明提出了一个基于深度学习计算机视觉的重复动作计数系统,实现了视频中重复动作的检测、定位和计数,使得计算机视觉在该项任务上的应用达到了领先的水平。

Description

基于计算机视觉的视频重复动作计数系统
技术领域
本发明涉及一种视频重复动作计数系统,主要被用于计算机视觉中的重复动作检测及计数。
背景技术
重复/周期性运动的计数是对于视频中的人的重复动作数目进行估计的一项计数。动作的重复在人们的生活中无处不在,重复运动的检测及计数具有非常广阔的应用前景。比如在人体运动时,对体育锻炼动作的检测计数可以帮助人们进行健身状况的监测和计划的制定。尽管人们可以使用一些人体传感器,但基于计算机视觉的方法具有便利性、非侵入性等特点。基于计算机视觉的重复动作计数可以取代过去一些低效的、人力消耗大的人工计数工作,如体育考试计数(跳绳,引体向上等),工人做工计数,乐器弹奏等。此外,对计算机视觉重复动作计数方法的研究也可以为其他视频分析任务提供支持,例如行人检测和动作识别。
基于重复动作计数的潜在价值,许多方法应运而生。早期,人们使用了手工设计的特征通过检测的方法在视频中估计重复动作的数量。然而由于检测的这项任务本身在当时并不是一个解决的很好的问题,同时当视频中的动作出现中断、视角或距离的变换等现象时会导致计数器的性能急速下降,从而影响最终的计数准确率。后来,人们受别的视频理解任务的启发,提出了基于人体的形体特征(如人体关键点)的重复动作计数方法,提高了计数的准确率,但是该方法在动作幅度小、频率高、周期长等情况下表现性能很差。如今,许多工作是基于视频特征之间的相似度空间预测重复动作的分布。该类方法具有高效、准确率高、可解释性强的特点,也因此成为了目前研究重复计数的主流方法之一。
发明内容
本发明的目的是:解决视频中重复动作的检测及计数问题。
为了达到上述目的,本发明的技术方案是提供了一种基于计算机视觉的视频重复动作计数系统,其特征在于,采用基于时域自相关的卷积神经网络框架,包括视频特征提取器、时域自相关层、编码器及动作预测器,其中:
视频特征提取器用于在多个时域尺度上对视频图像进行特征提取,将输入视频分成不同时间尺度下的视频子序列Si,将各个视频子序列Si输入视频特征提取器从而得到不同时间尺度的嵌入向量Ei
时域自相关层使用视频特征提取器提取到的不同时间尺度的嵌入向量Ei基于自相关机制构建不同尺度下的时域自相关矩阵后,将不同尺度下的时域自相关矩阵拼接成多维自相关矩阵;
编码器对多维自相关矩阵进行特征提取;
编码器输出的编码结果输入动作预测器,预测每一个重复动作发生的位置并计数;动作预测器采用神经网络回归视频的动作密度图方法,利用神经网络预测输出每一帧图像在时序上出现重复动作的概率,进而获得密度图,由密度图表征每个动作在视频时间上出现的位置。
优选地,所述视频特征提取器采用videoswin-transformer。
优选地,将所述输入视频分成{1帧,4帧,8帧}下的所述视频子序列Si
优选地,所述时域自相关层先基于不同时间尺度的所述嵌入向量Ei得到相似度矩阵Mi,然后将相似度矩阵Mi再拼接起来形成一个三维自相关矩阵M。
优选地,所述编码器采用基于多头自注意力机制的Transformer Encoder对所述三维自相关矩阵M进行特征提取。
优选地,利用带标准的视频数据对所述视频重复动作计数系统进行训练,标准时,在视频帧的时间轴上标注每个重复动作的开始位置和结束位置,然后根据高斯公式得到每一帧图像在时间维度上的高斯分布值,其中, G(y)表示每个动作周期概率密度分布,yk表示当前帧图像在时间维度上的坐标,从而得到每一个视频的重复动作的细粒度标注数据,即真实的密度图;
训练时所采用的损失函数是预测的密度图与真实的动作密度图之间的均方误差。
本发明提出了一个基于深度学习计算机视觉的重复动作计数系统,实现了视频中重复动作的检测、定位和计数,使得计算机视觉在该项任务上的应用达到了领先的水平。
附图说明
图1为本发明的原理图;
图2示意了RepCount数据集测试结果。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
充分分析重复动作在时域上的特性后,本发明提出了一种基于计算机视觉的视频重复动作计数系统。如图1所示,本发明提出的视频重复动作计数系统采用基于时域自相关的卷积神经网络框架,主要由四部分组成:视频特征提取器;时域自相关层;编码器;动作预测器。
视频特征提取器用于在多个时域尺度上对视频图像进行特征提取。本实施例中,视频特征提取器目前最新、最强大的videoswin-transformer。将输入视频分成不同时间尺度{1帧,4帧,8帧}下的视频子序列Si,将各个视频子序列Si输入视频特征提取器从而得到不同时间尺度的嵌入向量Ei
时域自相关层使用视频特征提取器提取到的视频特征基于自相关机制构建不同尺度下的时域自相关矩阵,通过该时域自相关矩阵表征不同尺度下提取的视频特征之间的时域相关性。时域自相关层先基于不同时间尺度的嵌入向量Ei得到相似度矩阵Mi,然后将相似度矩阵Mi再拼接起来形成一个三维自相关矩阵M。
编码器采用基于多头自注意力机制的Transformer Encoder对三维自相关矩阵 M进行特征提取。
编码器输出的编码结果输入动作预测器,预测每一个重复动作发生的位置并计数。动作预测器采用神经网络回归视频的动作密度图方法,利用神经网络预测输出每一帧图像在时序上出现重复动作的概率,进而获得密度图,由密度图表征每个动作在视频时间上出现的位置。区别于传统的回归每个重复动作的分布的方法,本发明提供的方法具有准确率高、鲁棒性强、收敛速度快的特点。
利用带标准的视频数据对上述视频重复动作计数系统进行训练,标注时,在视频帧的时间轴上标注每个重复动作的开始位置和结束位置,然后根据高斯公式得到每一帧图像在时间维度上的高斯分布值,其中,G(y)表示每个动作周期概率密度分布,yk表示当前帧图像在时间维度上的坐标,从而得到每一个视频的重复动作的细粒度标注数据,即真实的密度图。
训练时,整个系统采用的损失函数是预测的密度图与真实的动作密度图之间的均方误差。衡量预测性能的指标包括:MAE(Mean Absolute Error)衡量预测值与真实值的相对误差,OBO(Off-by-One count error)衡量预测值与真实值的绝对误差。
在RepCount数据集的训练集上进行训练,在RepCount数据集测试集、UCF-Rep 数据集、QUVA数据集上进行测试。网络训练在4块NVIDIA2080Ti GPU上进行,采用Pytorch框架实现,优化器采用Adam优化器,初始学习率为8×10-6,训练16K 时间步。测试样例结果如图2所示。
第一行Ground Truth表示人工标注数据生成的密度图,第二行Prediction表示我们的方法预测的动作密度图,颜色越深表示越靠近动作周期的中心。将所有预测值相加即可得到最终的重复动作数。
在RepCount数据集、UCF-Rep数据集、QUVA数据集上的测试结果如表1所示:
RepCount UCF-Rep QUVA
MAE 0.4431 0.6401 0.5581
OBO 0.2913 0.324 0.244
表1在各个数据集上的测试结果。

Claims (6)

1.一种基于计算机视觉的视频重复动作计数系统,其特征在于,采用基于时域自相关的卷积神经网络框架,包括视频特征提取器、时域自相关层、编码器及动作预测器,其中:
视频特征提取器用于在多个时域尺度上对视频图像进行特征提取,将输入视频分成不同时间尺度下的视频子序列Si,将各个视频子序列Si输入视频特征提取器从而得到不同时间尺度的嵌入向量Ei
时域自相关层使用视频特征提取器提取到的不同时间尺度的嵌入向量Ei基于自相关机制构建不同尺度下的时域自相关矩阵后,将不同尺度下的时域自相关矩阵拼接成多维自相关矩阵;
编码器对多维自相关矩阵进行特征提取;
编码器输出的编码结果输入动作预测器,预测每一个重复动作发生的位置并计数;动作预测器采用神经网络回归视频的动作密度图方法,利用神经网络预测输出每一帧图像在时序上出现重复动作的概率,进而获得密度图,由密度图表征每个动作在视频时间上出现的位置。
2.如权利要求1所述的一种基于计算机视觉的视频重复动作计数系统,其特征在于,所述视频特征提取器采用videoswin-transformer。
3.如权利要求1所述的一种基于计算机视觉的视频重复动作计数系统,其特征在于,将所述输入视频分成{1帧,4帧,8帧}下的所述视频子序列Si
4.如权利要求3所述的一种基于计算机视觉的视频重复动作计数系统,其特征在于,所述时域自相关层先基于不同时间尺度的所述嵌入向量Ei得到相似度矩阵Mi,然后将相似度矩阵Mi再拼接起来形成一个三维自相关矩阵M。
5.如权利要求4所述的一种基于计算机视觉的视频重复动作计数系统,其特征在于,所述编码器采用基于多头自注意力机制的Transformer Encoder对所述三维自相关矩阵M进行特征提取。
6.如权利要求4所述的一种基于计算机视觉的视频重复动作计数系统,其特征在于,利用带标准的视频数据对所述视频重复动作计数系统进行训练,标准时,在视频帧的时间轴上标注每个重复动作的开始位置和结束位置,然后根据高斯公式得到每一帧图像在时间维度上的高斯分布值,其中,G(y)表示每个动作周期概率密度分布,yk表示当前帧图像在时间维度上的坐标,从而得到每一个视频的重复动作的细粒度标注数据,即真实的密度图;
训练时所采用的损失函数是预测的密度图与真实的动作密度图之间的均方误差。
CN202210166285.0A 2022-02-21 2022-02-21 基于计算机视觉的视频重复动作计数系统 Active CN114898241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210166285.0A CN114898241B (zh) 2022-02-21 2022-02-21 基于计算机视觉的视频重复动作计数系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210166285.0A CN114898241B (zh) 2022-02-21 2022-02-21 基于计算机视觉的视频重复动作计数系统

Publications (2)

Publication Number Publication Date
CN114898241A CN114898241A (zh) 2022-08-12
CN114898241B true CN114898241B (zh) 2024-04-30

Family

ID=82715144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210166285.0A Active CN114898241B (zh) 2022-02-21 2022-02-21 基于计算机视觉的视频重复动作计数系统

Country Status (1)

Country Link
CN (1) CN114898241B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408088A (zh) * 2016-11-22 2017-02-15 北京六合智汇技术有限责任公司 一种基于深度学习理论的旋转机械设备故障诊断方法
CN111309965A (zh) * 2020-03-20 2020-06-19 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数系统及方法
CN113673489A (zh) * 2021-10-21 2021-11-19 之江实验室 一种基于级联Transformer的视频群体行为识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015132665A2 (en) * 2014-03-07 2015-09-11 Wolf, Lior System and method for the detection and counting of repetitions of repetitive activity via a trained network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408088A (zh) * 2016-11-22 2017-02-15 北京六合智汇技术有限责任公司 一种基于深度学习理论的旋转机械设备故障诊断方法
CN111309965A (zh) * 2020-03-20 2020-06-19 腾讯科技(深圳)有限公司 音频匹配方法、装置、计算机设备及存储介质
CN111860162A (zh) * 2020-06-17 2020-10-30 上海交通大学 一种视频人群计数系统及方法
CN113673489A (zh) * 2021-10-21 2021-11-19 之江实验室 一种基于级联Transformer的视频群体行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于卷积神经网络的稀疏目标场景下智能视频人数统计方法;焦会英;;电子技术与软件工程;20181109(第21期);全文 *
基于矩阵补全的无人车感知系统的攻击防御技术;李慧云;邵翠萍;陈贝章;胡延步;杨赵南;;集成技术;20200915(第05期);全文 *

Also Published As

Publication number Publication date
CN114898241A (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN110020623B (zh) 基于条件变分自编码器的人体活动识别系统及方法
CN108133188A (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN104200203B (zh) 一种基于动作字典学习的人体动作检测方法
CN110414306B (zh) 一种基于meanshift算法和SVM的婴儿异常行为检测方法
CN108681689B (zh) 基于生成对抗网络的帧率增强步态识别方法及装置
CN111832516A (zh) 基于无监督视频表示学习的视频行为识别方法
CN108960142B (zh) 基于全局特征损失函数的行人再识别方法
CN102148987A (zh) 基于先验模型和l0范数的压缩感知图像重构方法
CN109522961A (zh) 一种基于字典深度学习的半监督图像分类方法
CN112990082B (zh) 一种水声脉冲信号的检测识别方法
CN112766218B (zh) 基于非对称联合教学网络的跨域行人重识别方法和装置
CN108038467B (zh) 一种镜像图与粗细层次结合的稀疏人脸识别方法
CN111144462A (zh) 一种雷达信号的未知个体识别方法及装置
CN111711816B (zh) 基于可察知编码效应强度的视频客观质量评价方法
CN114898241B (zh) 基于计算机视觉的视频重复动作计数系统
CN110288026A (zh) 一种基于度量关系图学习的图像分割方法及装置
CN113987910A (zh) 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置
CN108256569B (zh) 一种复杂背景下的对象识别方法及使用的计算机技术
CN113537240B (zh) 一种基于雷达序列图像的形变区智能提取方法及系统
Wang et al. Extraction and recognition method of basketball players’ dynamic human actions based on deep learning
US11244206B2 (en) Image normalization for facial analysis
Liu et al. Robust detection of neural spikes using sparse coding based features
CN116956063A (zh) 一种基于多模态最佳数据选取与增强的手势识别方法与系统
CN112446440B (zh) 基于msr-cnn的机器人多传感器目标跟踪方法
CN113762082B (zh) 基于循环图卷积自动编码器的无监督骨架动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant