CN116259108A - 动作质量评估方法和装置、动作质量评估模型训练方法 - Google Patents

动作质量评估方法和装置、动作质量评估模型训练方法 Download PDF

Info

Publication number
CN116259108A
CN116259108A CN202310138093.3A CN202310138093A CN116259108A CN 116259108 A CN116259108 A CN 116259108A CN 202310138093 A CN202310138093 A CN 202310138093A CN 116259108 A CN116259108 A CN 116259108A
Authority
CN
China
Prior art keywords
video
action
template
time sequence
evaluated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310138093.3A
Other languages
English (en)
Inventor
张睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Light Control Tesilian Chongqing Information Technology Co ltd
Original Assignee
Light Control Tesilian Chongqing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Light Control Tesilian Chongqing Information Technology Co ltd filed Critical Light Control Tesilian Chongqing Information Technology Co ltd
Priority to CN202310138093.3A priority Critical patent/CN116259108A/zh
Publication of CN116259108A publication Critical patent/CN116259108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种动作质量评估方法和装置、动作质量评估模型训练方法及电子设备,方法包括:分别对待评估视频和模板视频进行动作定位,分别得到待评估视频和模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;将待评估视频的视频特征进行过程切割,得到待评估动作过程特征集;对模板视频的视频特征进行过程切割,得到模板动作过程特征集;根据待评估动作过程特征集和模板动作过程特征集进行动作质量评估。本公开的一种动作质量评估方法通过动作定位预测出视频中某细节动作在时序上的起始点和终止点,以及两个时间点间所发生的细节动作类别,进而根据两个时间点更精确地完成动作片段切割。

Description

动作质量评估方法和装置、动作质量评估模型训练方法
技术领域
本公开涉及计算机视觉领域,具体涉及一种动作质量评估方法、一种动作质量评估模型训练方法、一种动作质量评估装置及电子设备。
背景技术
人体动作识别一直以来是计算机视觉领域被广泛研究的课题。其中,动作质量评估(Action Quality Assessment,简称AQA)作为人体识别的扩展领域,在工业界和学术界广泛应用和研究,其可用于病人康复医疗,医疗动作指导,体育动作指导,体育动作评分等任务。
相较于人体动作识别,动作质量评估是一项更细致化的任务,其需要对某一连续行为进行整体评估,或对某一动作进行动作分解评估。另外,视频中的人体行为质量评估也面临着运动多样性、复杂性、多角度性、摄像机运动、杂物遮挡等严峻问题。因此,当前动作质量评估往往需要多个前提任务支持,如动作检测,动作分割,人体骨架点检测,分数回归等,如何基于前提任务设计一个高效准确且鲁棒的动作质量评估方法框架是需要解决的技术问题之一。
发明内容
本公开旨在至少解决现有技术中存在的技术问题之一,提供一种动作质量评估方法、一种动作质量评估模型训练方法、一种动作质量评估装置、一种动作质量评估模型训练装置及电子设备。
本公开的一个方面,提供了一种动作质量评估方法,包括:
对待评估视频进行动作定位,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
对模板视频进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
根据所述待评估视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述待评估视频的视频特征进行过程切割,得到待评估动作过程特征集;
根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割,得到模板动作过程特征集;
根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估。
可选的,所述对待评估视频进行动作定位,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型,包括:
将所述待评估视频输入预训练的一阶时序动作定位模型,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
所述对模板视频进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型,包括:
将所述模板视频输入预训练的一阶时序动作定位模型,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。
可选的,所述预训练的一阶时序动作定位模型是通过如下方式训练获得的:
获取训练视频序列集合;
将所述训练视频序列集合中的每个训练视频切分成多条片段,得到片段集;
将所述片段集输入至特征提取骨干网络进行视频特征提取,得到训练视频特征;
将所述训练视频特征依次输入编码器、解码器、事件边界回归器和动作分类器得到训练视频的预测动作起始时间点、预测动作结束时间点和预测动作类型;
将所述训练视频的预测动作起始时间点、预测动作结束时间点和预测动作类型分别与实际动作起始时间点、实际动作结束时间点和实际动作类型进行比较,根据比较结果得到训练监督信号;
根据所述训练监督信号更新所述预训练的一阶时序动作定位模型的参数。
可选的,所述特征提取骨干网络为由一种基于视觉语言多模态预训练建模方法生成的模型。
可选的,所述将所述训练视频序列集合中的每个训练视频切分成多条片段,得到片段集,包括:
将所述训练视频序列集合中的每个训练视频切分成多条片段,得到全局片段集;
对所述全局片段集进行切割,得到局部片段集;
根据所述全局片段集和所述局部片段集得到片段集。
可选的,所述根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估,包括:
将所述待评估动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取,得到交叉注意特征;
根据所述交叉注意特征得到预测偏差分数;
根据所述预测偏差分数和模板动作分数得到动作质量预测分数。
可选的,将所述待评估动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取,得到交叉注意特征,包括:
将所述待评估动作特征集和所述模板动作过程特征集依次输入交叉注意力模块、前向反馈层和池化层,得到交叉注意特征。
本公开的另一个方面,还提供了一种动作质量评估模型训练方法,包括:
将查询视频和模板视频进行预处理,分别得到查询数据和模板数据;
对所述查询数据进行动作定位,得到所述查询视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
对所述模板数据进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
根据所述查询视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述查询视频的视频特征进行过程切割,得到查询视频动作过程特征集;
根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割,得到模板动作过程特征集;
将所述查询视频动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取,得到交叉注意特征;
根据所述交叉注意特征得到预测偏差分数;
根据所述预测偏差分数得到训练监督信号,根据所述训练监督信号更新所述动作质量评估模型的参数。
本公开的另一个方面,还提供了一种动作质量评估装置,包括:
第一动作定位模块,对待评估视频进行动作定位,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
第二动作定位模块,对模板视频进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
第一过程切割模块,根据所述待评估视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述待评估视频的视频特征进行过程切割,得到待评估动作过程特征集;
第二过程切割模块,根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割,得到模板动作过程特征集;
质量评估模块,根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估。
本公开的另一个方面,还提供了一种动作质量评估模型训练装置,包括:
预处理模块,用于将查询视频和模板视频进行预处理,分别得到查询数据和模板数据;
查询视频动作定位模块,用于对所述查询数据进行动作定位,得到所述查询视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
模板视频动作定位模块,用于对所述模板数据进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
查询视频过程切割模块,用于根据所述查询视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述查询视频的视频特征进行过程切割,得到查询视频动作过程特征集;
模板视频过程切割模块,用于根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割,得到模板动作过程特征集;
训练模型交叉感知模块,用于将所述查询视频动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取,得到交叉注意特征;
训练模型预测模块,用于根据所述交叉注意特征得到预测偏差分数;
训练模型更新模块,用于根据所述预测偏差分数得到训练监督信号,根据所述训练监督信号更新所述动作质量评估模型的参数。
本公开的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现前文记载的动作质量评估方法或者前文记载的动作质量评估模型训练方法。
本公开的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能实现前文记载的动作质量评估方法或者前文记载的动作质量评估模型训练方法。
本公开实施例的一种动作质量评估方法、一种动作质量评估模型训练方法、一种动作质量评估装置、一种动作质量评估模型训练装置及电子设备,通过动作定位预测出视频中某细节动作在时序上的起始点和终止点,以及两个时间点间所发生的细节动作类别,进而根据两个时间点更精确地完成动作片段切割。
附图说明
图1为用于实现根据本公开一实施例的动作质量评估方法、动作质量评估模型训练方法、动作质量评估装置、动作质量评估模型训练装置的示例电子设备的示意性框图;
图2为本公开另一实施例的动作质量评估方法的流程示意图;
图3为本公开另一实施例的预训练的一阶时序动作定位模型的训练流程示意图;
图4为本公开另一实施例的过程感知交叉注意解码器的结构示意框图;
图5为本公开另一实施例的动作质量评估模型训练方法的流程示意图;
图6为本公开另一实施例的动作质量评估装置的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本公开的技术方案,下面结合附图和具体实施方式对本公开作进一步详细描述。
为使本领域技术人员更好地理解本公开的技术方案,下面结合附图和具体实施方式对本公开作进一步详细描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外具体说明,本公开中使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“包括”或者“包含”等既不限定所提及的形状、数字、步骤、动作、操作、构件、原件和/或它们的组,也不排除出现或加入一个或多个其他不同的形状、数字、步骤、动作、操作、构件、原件和/或它们的组,或加入这些。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在更加详细地讨论之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
首先,参照图1来描述用于实现本公开一实施例的一种动作质量评估方法、一种动作质量评估模型训练方法、一种动作质量评估装置、一种动作质量评估模型训练装置及电子设备。
如图1所示,电子设备300包括一个或多个处理器310、一个或多个存储装置320、输入装置330、输出装置340等,这些组件通过总线系统和/或其他形式的连接机构350互连。应当注意,图1所示的电子设备的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器310可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制所述电子设备中的其他组件以执行期望的功能。
所述存储装置320可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现下文所述的本公开实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如,所述应用程序使用和/或产生的各种数据等。
所述输入装置330可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置340可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
目前动作质量评估方法主要分为两种主流类型:评分回归和分级。动作质量评估基本通用流程如下:给定一个视频序列集合S={Si},i∈[1,2,…,N],每个视频可以表示为Si={fj},j∈[1,2,…,T],即视频序列集合S包含N个视频,集合内某一个视频Si包含T帧图像,fj表示Si中的第j帧。视频将以串联形式输入到视频特征提取模块Ff和动作质量评估模块Fa。由于深度学习的快速发展,视频特征提取模块通常为一种深度神经网络,如I3D、C3D、SlowFast,VideoSwin等,其中,VideoSwin为一种基于Transformer的滑动窗口式视频特征提取模型。完成视频特征提取后,动作质量评估模块则负责基于所得视频特征Xi完成评估工作,最终输出评分结果Scorei。整体流程可如下公式所示:
Xi=Ff(Si),Xi∈RK
Scorei=Fa(Xi),Scorei∈RO
其中K为视频特征维度,O为结果数量。
由于视频特征提取模块通常采用通用深度神经网络,因此,对于动作质量评估的大部分研究工作均聚焦于动作质量评估模块,以上所提的两种主流类型亦是对于动作质量评估模块而言。对于所提两种类型,详细描述如下:
(1)评分回归
评分回归法是动作质量评估中常见的计分方法。在深度学习领域,一般采用全连接网络(Fully Connected Network)直接完成评分预测,然后利用均方误差(Mean SquareError,MSE)作为动作质量评估模块的性能评价标准,MSE分数越小则表示预测分数越准确。MSE如下所示:
Figure BDA0004086656120000091
其中,
Figure BDA0004086656120000092
为真实分数;
(2)分级法
分级法是服务于以等级划分的质量评估标准。如医疗技能操作中,质量评估标准将使用“新手”,“中级”和“专家”对相关医疗操作进行评价。所以,分级法也可视为将动作质量评估问题转换为分类问题,即给定某样本视频Si,动作质量评估模块通过计算得到相应的级别标签Ci,最后,利用常规的分类问题评价标准(如准确率)衡量动作质量评估模块的准确性。
本公开的方法则是属于评分回归类型。现有技术中的评分回归类型的动作过程感知方法,采用串联多阶段方法,因此每个阶段所输出的结果会影响后续阶段的结果,例如,动作过程分割部分所使用的是一种名为“Down-up”的模型,由多个卷积层和线性层所组成,其最终输出一个大小为L的二分类概率分布表示一个连续动作的L步动作转移概率(该连续动作由L个步骤组成)。为了学习二分类概率分布,该方法使用了传统的二元交叉熵(BinaryCross Entropy,即BCE)作为损失函数为模型提供监督信号。可见,其相当于一种多标签分类模型,而多标签分类模型的弊端在于:1)正负样本非常容易出现不均衡问题;2)当L越大时,不均衡问题会更严重;3)采用传统的二元交叉熵无法解决不均衡问题;以上3个问题将会严重影响动作过程分割的解析结果,而该解析结果也会严重影响后续步骤的结果产生,进而使结果偏差越来越大。此外,以上方案在过程感知交叉注意部分使用了传统的Transformer解码器,解码器内部的自注意力模块的计算复杂度为O(M2),因此当一个连读动作可分步骤越多时(即L越大),计算复杂度会越高,进而降低了计算效率。最后,以上方案是通过使用概率分布的方式来表达L步细节动作,不涉及时间上的预测,无法在时序上完成动作片段的切割。
下面,将参考图2描述根据本公开另一实施例的一种动作质量评估方法。
如图2所示,一种动作质量评估方法,包括:
S100:对待评估视频进行动作定位,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。
具体地,在本步骤中,对待评估视频进行动作定位,得到所述待评估视频中细节动作的起始终止时间点Pquery、视频特征
Figure BDA0004086656120000101
和动作类型Cquery。示例性的,在本步骤中,使用Pquery来表示时序起始时间点和时序终止时间点,在具体的使用过程中,可使用其他方式来表示,本实施例中并不进行具体限制。
示例性的,细节动作指的是将完整动作切分得到的结果,例如,跳水是一个完整动作,将其进行切分,可以分成起跳、空中翻滚、空中旋转、入水等多个细节动作,需要说明的是,可根据实际的使用情况选择完整动作以及对完整动作的切分方式,上述选择跳水动作作为完整动作、以及对跳水动作的切分仅为示例性说明。
示例性的,在本步骤中,完成对待评估视频进行动作定位,就是将完整动作进行细粒度切分,也就是预测出待评估视频中细节动作在时序上的起始点和终止点,以及两个时间点间所发生的细节动作类别,例如,对跳水动作进行细粒度切分,分别预测出跳水视频中起跳、空中翻滚、空中旋转、入水等多个细节动作在时序上的起始点和终止点以及两个时间点间所发生的细节动作类别,最后根据时间点完成切分,从而将一个完整动作切分成多个细节动作片段,进而根据两个时间点更精确地完成动作片段切割。
S200:对模板视频进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。
具体地,在本步骤中,对模板视频进行动作定位,得到所述模板视频中细节动作的起始终止时间点Ptemp、视频特征
Figure BDA0004086656120000111
和动作类型Ctemp。示例性的,在本步骤中,使用Ptemp来表示时序起始时间点和时序终止时间点,在具体的使用过程中,可使用其他方式来表示,本实施例中并不进行具体限制。
示例性的,模板视频为用于动作质量评估的标准视频,是由专业人员完成质量分数评估的视频,模板视频的相关信息可作为对比评价待评估视频的标准,示例性的,模板视频的相关信息包括模板视频中的细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型等信息。
示例性的,在本步骤中,模板视频选取与待评估视频对应的视频,例如,待评估视频中选取完整动作为跳水视频,模板视频也选取完成动作为跳水的视频,且待评估视频和模板视频中使用相同的细节动作分类方法,例如,都将完整动作跳水分成起跳、空中翻滚、空中旋转、入水等多个细节动作。
S300:根据所述待评估视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述待评估视频的视频特征进行过程切割,得到待评估动作过程特征集。
具体地,在本步骤中,根据所述待评估视频中不同动作类型细节动作的起始终止时间点Pquery将所述待评估视频的视频特征
Figure BDA0004086656120000112
进行过程切割,得到待评估动作过程特征集/>
Figure BDA0004086656120000113
需要说明的是,本步骤中不同动作类型细节动作为根据步骤S100中的动作类型Cquery来进行分类的不同细节动作,例如,起跳、空中翻滚、空中旋转、入水四个动作类型的细节动作。
S400:根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割,得到模板动作过程特征集。
具体地,在本步骤中,根据所述模板视频中不同动作类型细节动作的起始终止时间点Ptemp将所述模板视频的视频特征
Figure BDA0004086656120000121
进行过程切割,得到模板动作过程特征集
Figure BDA0004086656120000122
需要说明的是,本步骤中不同动作类型细节动作为根据步骤S200中的动作类型Ctemp来进行分类的不同细节动作,例如,起跳、空中翻滚、空中旋转、入水四个动作类型的细节动作。
S500:根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估。
具体地,在本步骤中,根据所述待评估动作过程特征集
Figure BDA0004086656120000123
和所述模板动作过程特征集/>
Figure BDA0004086656120000124
进行动作质量评估。
需要说明的是,步骤S100和步骤S200可先后执行,也可同时并行执行;步骤S300和步骤S400可以先后执行,也可同时并行执行。
本公开实施例的动作质量评估方法,通过动作定位预测出待评估视频和模板视频中某细节动作在时序上的起始点和终止点,以及两个时间点间所发生的细节动作类别,从而将一个完整动作切分成多个细节动作片段,进而根据两个时间点更精确地完成动作片段切割,实现了在时序上完成切割;除此之外,两个时间点是实时分析得到的,所以切割更灵活,无需人为干预切分。通过更精确地动作定位之后再进行过程切割,提高了对待评估视频和模板视频动作过程分割的精确度,从而能够更精确的将待评估视频和模板视频进行对比,进而提高了整体动作质量评估的精确度。
下面,将进一步阐述本公开另一实施例的一种动作质量评估方法。
示例性的,步骤S100包括:
对待评估视频进行预处理,得到待评估数据;将所述待评估数据进行动作定位,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。
示例性的,在本步骤中,预处理包括切分预处理操作和多视觉视频预处理操作等预处理,也可根据实际的使用情况选取其他的预处理操作,本实施例中并不进行具体限制。
示例性的,切分预处理操作具体为对待评估视频以多个连续帧为单位切分成多条片段,构成片段集;多视觉视频预处理操作具体为,为对待评估视频以多个连续帧为单位切分成多条片段,构成全局片段集,在全局片段集中随机采样多条全局片段,对采样得到的全局片段中的每帧图像进行切割操作,得到局部片段集,将全局片段集和局部片段集结合构成片段集。
示例性的,在对全局片段中的图像进行切割操作时,可采用多种固定但不同大小的切割比例分别对图像进行随机切割,且可进行多次随机切割,在具体使用过程中,可根据实际的使用情况选取切割比例、选取几种切割比例、切割几次、对几帧图像进行切割,本实施例中不进行限制。
示例性,步骤S200包括:
对模板视频进行预处理,得到模板数据;将所述模板数据进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。
示例性的,在本步骤中,预处理包括切分预处理操作和多视觉视频预处理操作等预处理。需要说明的是,本步骤的切分预处理操作和多视觉视频预处理操作与步骤S100中相同,也就是说,若进行切分预处理,则选用相同的切分方法、选择同样数量的连续帧、切分程同样数量的偏多;若进行多视觉视频预处理操作,则选取相同的切割比例、切割次数和对几帧图像进行切割,以保证得到的待评估数据和模板数据切割后的尺寸相对应。
示例性的,可将步骤S100和步骤S200中的待评估视频和模板视频输入相同的预处理模型进行预处理。
本公开实施例的动作质量评估方法,在动作定位之前先进行预处理,实现了视频特征融合的增强,以提高后续动作定位的精度。
下面,将进一步阐述本公开另一实施例的一种动作质量评估方法中的动作定位方法。
示例性的,步骤S100包括:
将所述待评估视频输入预训练的一阶时序动作定位模型,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。
示例性,步骤S200包括:
将所述模板视频输入预训练的一阶时序动作定位模型,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。
具体地,在步骤S100和步骤S200中,通过预训练的一阶时序动作定位模型来实现对待评估视频和模板视频的动作定位。示例性的,步骤S100和步骤S200中选取相同的预训练的一阶时序动作定位模型,示例性的,可以采用一种结合“视觉-语言多模态建模”(Visual-Language Modeling,VLM)预训练的一阶时序动作定位模型,在实际使用过程中,可根据实际的使用情况选择不同的算法来实现一阶时序动作定位,例如采用ActionFormer。
示例性的,预训练的一阶时序动作定位模型包括以下部分:
1)一个特征提取骨干网络;
2)一个由卷积神经网络(CNN)和Transformer所组成的编码器Eaf
3)一个由卷积神经网络组成的解码器Daf
4)事件边界回归器Fbr和动作分类器Fac
示例性的,在特征提取骨干网络部分,本公开采用了一种由VLM预训练方法X-CLIP所生成的预训练Transformer模型Fxclip作为特征提取骨干网络,该预训练Transformer模型已经在大规模公开“视频-文本”多模态数据上完成学习,所以其具有较为强大的视频高级语义提取能力,其所提取的视频时空特征为ActionFormer提供丰富的语义信息,帮助其完成动作定位任务。
其中,X-CLIP为一种基于语言-图像预训练模型的通用视频识别方法,ActionFormer为一种基于Transformer的时序动作定位算法,Transformer为一种基于多头自注意力机制的神经网络模型。
示例性的,在本步骤中,步骤S100和步骤S200中预训练的一阶时序动作定位模型,通过如下方式训练获得的。需要说明的是,若前文中示例性的选取了ActionFormer作为一阶时序动作定位,则本步骤中示例性的对其进行训练。具体的模型训练方法如下所示:
T100:获取训练视频序列集合。
具体地,在本步骤中,给定一个视频序列集合S。
T200:将所述训练视频序列集合中的每个训练视频切分成多条片段,得到片段集。
具体地,在本步骤中对于训练视频序列合计中的每个视频Si,我们以16连续帧为单位将视频Si切分成多条片段,形成片段集
Figure BDA0004086656120000151
假设视频Si长度为l帧,/>
Figure BDA0004086656120000152
示例性的,在本步骤中,采用一种多视觉视频特征提取方法来进行预处理,以丰富视频特征的全局信息和局部信息。具体地,如图3所示,步骤T200包括:
T201:将所述训练视频序列集合中的每个训练视频切分成多条片段,得到全局片段集。
具体地,在本步骤中,将片段集
Figure BDA0004086656120000153
作为全局片段集,其包含训练视频的全局信息。
T202:对所述全局片段集进行切割,得到局部片段集。
示例性的,在本步骤中,首先从全局片段集Clipi中随机采样4条片段,然后对该4条片段的16帧图像采用3种固定但不同大小的切割比例分别完成3次图片随机切割操作,最终可以得到由12条新片段所组成的局部片段集
Figure BDA0004086656120000154
需要说明的是,上述获取局部片段集的方法仅为示例性说明,可根据实际的使用情况使用其他方法获取局部片段集。
T203:根据所述全局片段集和所述局部片段集得到片段集。
示例性的,在本步骤中,将步骤T201中的全局片段集Clipi和局部片段集
Figure BDA0004086656120000155
结合成新的片段集/>
Figure BDA0004086656120000156
片段集/>
Figure BDA0004086656120000157
共有n+12条片段,将所述新的片段集
Figure BDA0004086656120000158
作为片段集进行训练。
T300:将所述片段集输入至特征提取骨干网络进行视频特征提取,得到训练视频特征。
示例性的,在本步骤中,所述特征提取骨干网络为由一种基于视觉语言多模态预训练建模方法生成的模型Fxclip
具体地,在本步骤中,将
Figure BDA0004086656120000161
输入至Fxclip进行视频特征提取,并得到训练视频特征Xxclip∈RB×(n+12)×K
T400:将所述训练视频特征依次输入编码器、解码器、事件边界回归器和动作分类器得到训练视频的预测动作起始时间点、预测动作结束时间点和预测动作类型。
示例性的,在本步骤中,使用前文中阐述的编码器Eaf、解码器Daf、事件边界回归器Fbr和动作分类器Fac。具体地,在本步骤中,将视频特征Xxclip输入至编码器Eaf,得到编码特征embeddingaf;将embeddingaf输入至解码器Daf,得到解码特征Xaf;将Xaf分别输入到事件边界回归器Fbr和动作分类器Fac,得到训练视频的预测动作起始结束时间点和预测动作类别。
示例性的,在本步骤中,通过热力图回归方式预测动作发生的起始点和终止点,以及识别两个时间点间动作类型,最后根据时间点完成动作片段分割,因此,不需要针对视频中的每帧图像都预测一次动作类型的概率,在保证动作片段分割准确度的同时提高了处理效率。
T500:将所述训练视频的预测动作起始时间点、预测动作结束时间点和预测动作类型分别与实际动作起始时间点、实际动作结束时间点和实际动作类型进行比较,根据比较结果得到训练监督信号。
具体地,在本步骤中,基于预测动作起始结束时间点和预测动作类别,分别与实际动作起始结束时间点和实际动作类别计算损失函数(smooth L1)和交叉熵损失函数(Softmax),进而得到训练监督信号。需要说明的是,上述获取训练监督信号的方法仅为示例性说明,可根据实际的使用情况选取不同的方法获取训练监督信号。
T600:根据所述训练监督信号更新所述预训练的一阶时序动作定位模型的参数。
具体地,在本步骤中,根据训练监督信号完成反向传播,更新模型参数,完成对模型的一次训练。
需要说明的是,在具体的训练过程中,可根据实际的使用情况进行多次训练,每次训练时,可循环执行步骤T200至T600,也可循环执行步骤T300至T600,也就是在进行训练视频切分后再循环训练;当步骤T200具体包括步骤T201至T203的时候,也可循环执行步骤T202、T203以及T300至T600,也就是在进行训练视频的全局切割后再循环训练。
具体地,可根据实际的使用情况选择何时完成训练,最终得到预训练的一阶时序动作定位模型
Figure BDA0004086656120000171
本公开实施例的动作质量评估方法,使用预训练的一阶时序动作定位模型来实现动作定位,并具体公开了该模型的训练方法,该模型设计简洁且动作定位性能优异,且通过预训练可以使得一阶时序定位模块具有丰富的语义信息,提高动作定位精度,从而提高动作分割的精确度。同时,一阶时序动作定位模型是一种端到端的模型模块,不会增加过多计算资源或降低计算效率。
下面,将进一步阐述本公开另一实施例的一种动作质量评估方法。
示例性的,步骤S500包括:
S501:将所述待评估动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取,得到交叉注意特征。
具体地,在本步骤中,将所述待评估动作过程特征集
Figure BDA0004086656120000172
和所述模板动作过程特征集/>
Figure BDA0004086656120000173
进行过程交叉注意特征提取,得到交叉注意特征Xcross
S502:根据所述交叉注意特征得到预测偏差分数。
具体地,在本步骤中,将Xcross输入至偏差分数回归器,得到预测偏差分数。
S503:根据所述预测偏差分数和模板动作分数得到动作质量预测分数。
具体地,在本步骤中,将待评估视频的动作质量预测偏差分数与模板动作分数相加即可得到最终的动作质量预测分数。需要说明的是,模板动作分数为标准分数,可根据实际情况获取,例如使用专家评分等方式,本实施例中不进行具体限制。此外,也可使用其他的方式获取动作质量预测分数,上述使用分数相加的方式仅为示例性说明。
本公开实施例的动作质量评估方法,通过特征提取得到交叉注意特征,进一步得到预测偏差分数和动作质量预测分数,该交叉注意特征提取方法与动作分割匹配度较高,提高了评估精度。
下面,将进一步阐述本公开另一实施例的一种动作质量评估方法中的交叉注意特征提取方法。
示例性的,步骤S501包括:
将所述待评估动作特征集
Figure BDA0004086656120000181
和所述模板动作过程特征集/>
Figure BDA0004086656120000182
依次输入交叉注意力模块、前向反馈层和池化层,得到交叉注意特征。
具体地,在本步骤中,使用改进的Transformer解码器Dnewt用于过程感知交叉注意部分,得到交叉注意特征。示例性的,如图4所示,传统的Transformer解码器中包含自注意力模块,在使用的过程中,将查询视频特征或者待评估视频特征先输入自注意力模块,再输入交叉注意力模块,模板视频特征直接输入交叉注意力模块,之后再将交叉注意力模块的输出结果依次输入至前向反馈层和池化层。本公开中所使用的改进的Transformer解码器Dnewt省略了自注意力模块,直接将查询视频特征或者待评估视频特征输入交叉注意力模块。
需要说明的是,在本公开中,通过实验发现传统Transformer解码器的自注意力模块在此任务上是冗余的,即使去除了该模块,并不会对最终结果造成过大影响,因此,鉴于自注意力模块收益性非常低,本公开改进了Transformer解码器结构,将自注意力模块从中去除,进而解决上述的计算效率问题。
本公开实施例的动作质量评估方法,对传统Transformer解码器进行了改进,提高了计算效率,从而提高了整体质量评估方法的效率。
下面,结合图5描述本公开另一实施例的一种动作质量评估模型训练方法,包括:
将查询视频和模板视频进行预处理,分别得到查询数据和模板数据。示例性的,在本步骤中,预处理包括切分预处理操作和多视觉视频预处理操作等预处理,前文中已对切分预处理操作和多视觉视频预处理操作进行了阐述,本步骤中的预处理与前文类似,此处不再赘述。
对所述查询数据进行动作定位,得到所述查询视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。示例性的,在本步骤中,将提前训练好的
Figure BDA0004086656120000191
用于动作过程分割部分,将预处理好的查询数据输入至/>
Figure BDA0004086656120000192
对应得到由/>
Figure BDA0004086656120000193
骨干网络/>
Figure BDA0004086656120000194
所提取的查询视频中细节动作的视频特征/>
Figure BDA0004086656120000195
预测起始终止时间点Pquery(时间点的时序尺度与视频特征的时序尺度对应),以及预测的动作类型Cquery,完成对某一动作的细粒度切分。
对所述模板数据进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。示例性的,在本步骤中,将提前训练好的
Figure BDA0004086656120000196
用于动作过程分割部分,将预处理好的模板数据输入至/>
Figure BDA0004086656120000197
对应得到由/>
Figure BDA0004086656120000198
骨干网络/>
Figure BDA0004086656120000199
所提取的模板视频中细节动作的视频特征/>
Figure BDA00040866561200001910
预测起始终止时间点Ptemp(时间点的时序尺度与视频特征的时序尺度对应),以及预测的动作类型Ctemp,完成对某一动作的细粒度切分。
根据所述查询视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述查询视频的视频特征进行过程切割,得到查询视频动作过程特征集。示例性的,在本步骤中,基于查询视频的预测起始终止时间点Pquery对视频特征
Figure BDA00040866561200001911
进行过程切割,得到查询视频动作过程特征集/>
Figure BDA00040866561200001912
根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割,得到模板动作过程特征集。示例性的,在本步骤中,基于模板视频的预测起始终止时间点Ptemp对视频特征
Figure BDA0004086656120000201
进行过程切割,得到模板视频动作过程特征集/>
Figure BDA0004086656120000202
/>
将所述查询视频动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取,得到交叉注意特征。示例性的,在本步骤中,将改进的Transformer解码器Dnewt用于过程感知交叉注意部分,其负责完成
Figure BDA0004086656120000203
和/>
Figure BDA0004086656120000204
的过程交叉注意特征提取,得到交叉注意特征Xcross
根据所述交叉注意特征得到预测偏差分数。示例性的,在本步骤中,将Xcross输入至偏差分数回归器,得到预测偏差分数。
根据所述预测偏差分数得到训练监督信号,根据所述训练监督信号更新所述动作质量评估模型的参数。示例性的,在本步骤中,根据预测偏差分数,通过MSE损失函数提供监督信号,通过梯度反向传播方式完成训练,更新模型参数。
需要说明的是,在具体的训练过程中,可根据实际的使用情况进行多次训练,每次训练时,可循环执行上述步骤直至完成训练。
本公开实施例的动作质量评估模型训练方法,通过动作定位预测出查询视频和模板视频中某细节动作在时序上的起始点和终止点,以及两个时间点间所发生的细节动作类别,从而将一个完整动作切分成多个细节动作片段,进而根据两个时间点更精确地完成动作片段切割;除此之外,两个时间点是实时分析得到的,所以切割更灵活,无需人为干预切分。通过更精确地动作定位之后再进行过程切割,提高了对查询视频和模板视频动作过程分割的精确度,从而能够更精确的将查询视频和模板视频进行对比,进而提高了整体动作质量评估模型训练的精确度。
下面,结合图6描述本公开另一实施例的一种动作质量评估装置100,该装置可以应用于前文记载的动作质量评估方法,具体内容可以参考前文相关记载,在此不作赘述。所述装置包括:
第一动作定位模块110,对待评估视频进行动作定位,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
第二动作定位模块120,对模板视频进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
第一过程切割模块130,根据所述待评估视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述待评估视频的视频特征进行过程切割,得到待评估动作过程特征集;
第二过程切割模块140,根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割,得到模板动作过程特征集;
质量评估模块150,根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估。
本公开实施例的动作质量评估装置,通过动作定位预测出待评估视频和模板视频中某细节动作在时序上的起始点和终止点,以及两个时间点间所发生的细节动作类别,从而将一个完整动作切分成多个细节动作片段,进而根据两个时间点更精确地完成动作片段切割,实现了在时序上完成切割;除此之外,两个时间点是实时分析得到的,所以切割更灵活,无需人为干预切分。通过更精确地动作定位之后再进行过程切割,提高了对待评估视频和模板视频动作过程分割的精确度,从而能够更精确的将待评估视频和模板视频进行对比,进而提高了整体动作质量评估的精确度。
下面,描述本公开另一实施例的一种动作质量评估模型训练装置,该装置可以应用于前文记载的动作质量评估模型训练方法,具体内容可以参考前文相关记载,在此不作赘述。所述装置包括:
预处理模块,用于将查询视频和模板视频进行预处理,分别得到查询数据和模板数据;
查询视频动作定位模块,用于对所述查询数据进行动作定位,得到所述查询视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
模板视频动作定位模块,用于对所述模板数据进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
查询视频过程切割模块,用于根据所述查询视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述查询视频的视频特征进行过程切割,得到查询视频动作过程特征集;
模板视频过程切割模块,用于根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割,得到模板动作过程特征集;
训练模型交叉感知模块,用于将所述查询视频动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取,得到交叉注意特征;
训练模型预测模块,用于根据所述交叉注意特征得到预测偏差分数;
训练模型更新模块,用于根据所述预测偏差分数得到训练监督信号,根据所述训练监督信号更新所述动作质量评估模型的参数。
本公开实施例的动作质量评估模型训练装置,通过动作定位预测出查询视频和模板视频中某细节动作在时序上的起始点和终止点,以及两个时间点间所发生的细节动作类别,从而将一个完整动作切分成多个细节动作片段,进而根据两个时间点更精确地完成动作片段切割;除此之外,两个时间点是实时分析得到的,所以切割更灵活,无需人为干预切分。通过更精确地动作定位之后再进行过程切割,提高了对查询视频和模板视频动作过程分割的精确度,从而能够更精确的将查询视频和模板视频进行对比,进而提高了整体动作质量评估模型训练的精确度。
进一步的,本实施例中还公开了一种电子设备,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现前文记载的动作质量评估方法或者动作质量评估模型训练方法。
进一步的,本实施例中还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时能实现前文记载的动作质量评估方法或者动作质量评估模型训练方法。
其中,计算机可读介质可以是本公开的装置、设备、系统中所包含的,也可以是单独存在。
其中,计算机可读存储介质可是任何包含或存储程序的有形介质,其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备,更具体的例子包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或它们任意合适的组合。
其中,计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码,其具体的例子包括但不限于电磁信号、光信号,或它们任意合适的组合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
可以理解的是,以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式,然而本公开并不局限于此。对于本领域内的普通技术人员而言,在不脱离本公开的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本公开的保护范围。

Claims (10)

1.一种动作质量评估方法,其特征在于,包括:
对待评估视频进行动作定位,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
对模板视频进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
根据所述待评估视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述待评估视频的视频特征进行过程切割,得到待评估动作过程特征集;
根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割,得到模板动作过程特征集;
根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估。
2.根据权利要求1所述的一种动作质量评估方法,其特征在于,所述对待评估视频进行动作定位,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型,包括:
将所述待评估视频输入预训练的一阶时序动作定位模型,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;和/或
所述对模板视频进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型,包括:
将所述模板视频输入预训练的一阶时序动作定位模型,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。
3.根据权利要求2所述的一种动作质量评估方法,其特征在于,所述预训练的一阶时序动作定位模型是通过如下方式训练获得的:
获取训练视频序列集合;
将所述训练视频序列集合中的每个训练视频切分成多条片段,得到片段集;
将所述片段集输入至特征提取骨干网络进行视频特征提取,得到训练视频特征;
将所述训练视频特征依次输入编码器、解码器、事件边界回归器和动作分类器,得到训练视频的预测动作起始时间点、预测动作结束时间点和预测动作类型;
将所述训练视频的预测动作起始时间点、预测动作结束时间点和预测动作类型分别与实际动作起始时间点、实际动作结束时间点和实际动作类型进行比较,根据比较结果得到训练监督信号;
根据所述训练监督信号更新所述预训练的一阶时序动作定位模型的参数。
4.根据权利要求3所述的一种动作质量评估方法,其特征在于,所述特征提取骨干网络为由一种基于视觉语言多模态预训练建模方法生成的模型。
5.根据权利要求3所述的一种动作质量评估方法,其特征在于,所述将所述训练视频序列集合中的每个训练视频切分成多条片段,得到片段集,包括:
将所述训练视频序列集合中的每个训练视频切分成多条片段,得到全局片段集;
对所述全局片段集进行切割,得到局部片段集;
根据所述全局片段集和所述局部片段集得到片段集。
6.根据权利要求1至5中任意一项所述的一种动作质量评估方法,其特征在于,所述根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估,包括:
将所述待评估动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取,得到交叉注意特征;
根据所述交叉注意特征得到预测偏差分数;
根据所述预测偏差分数和模板动作分数得到动作质量预测分数。
7.根据权利要求6所述的一种动作质量评估方法,其特征在于,将所述待评估动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取,得到交叉注意特征,包括:
将所述待评估动作特征集和所述模板动作过程特征集依次输入交叉注意力模块、前向反馈层和池化层,得到交叉注意特征。
8.一种动作质量评估模型训练方法,其特征在于,包括:
将查询视频和模板视频进行预处理,分别得到查询数据和模板数据;
对所述查询数据进行动作定位,得到所述查询视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
对所述模板数据进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
根据所述查询视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述查询视频的视频特征进行过程切割,得到查询视频动作过程特征集;
根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割,得到模板动作过程特征集;
将所述查询视频动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取,得到交叉注意特征;
根据所述交叉注意特征得到预测偏差分数;
根据所述预测偏差分数得到训练监督信号,根据所述训练监督信号更新所述动作质量评估模型的参数。
9.一种动作质量评估装置,其特征在于,包括:
第一动作定位模块,对待评估视频进行动作定位,得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
第二动作定位模块,对模板视频进行动作定位,得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型;
第一过程切割模块,根据所述待评估视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述待评估视频的视频特征进行过程切割,得到待评估动作过程特征集;
第二过程切割模块,根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割,得到模板动作过程特征集;
质量评估模块,根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储单元,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,能使得所述一个或多个处理器实现根据权利要求1至7中任意一项所述的动作质量评估方法或者权利要求8所述的动作质量评估模型训练方法。
CN202310138093.3A 2023-02-20 2023-02-20 动作质量评估方法和装置、动作质量评估模型训练方法 Pending CN116259108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310138093.3A CN116259108A (zh) 2023-02-20 2023-02-20 动作质量评估方法和装置、动作质量评估模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310138093.3A CN116259108A (zh) 2023-02-20 2023-02-20 动作质量评估方法和装置、动作质量评估模型训练方法

Publications (1)

Publication Number Publication Date
CN116259108A true CN116259108A (zh) 2023-06-13

Family

ID=86678925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310138093.3A Pending CN116259108A (zh) 2023-02-20 2023-02-20 动作质量评估方法和装置、动作质量评估模型训练方法

Country Status (1)

Country Link
CN (1) CN116259108A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117542121A (zh) * 2023-12-06 2024-02-09 河北双学教育科技有限公司 基于计算机视觉的智能化训练考核系统及方法
CN118015708A (zh) * 2024-04-08 2024-05-10 华侨大学 基于裁判分数学习的跳水运动质量评估方法、装置和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117542121A (zh) * 2023-12-06 2024-02-09 河北双学教育科技有限公司 基于计算机视觉的智能化训练考核系统及方法
CN118015708A (zh) * 2024-04-08 2024-05-10 华侨大学 基于裁判分数学习的跳水运动质量评估方法、装置和设备

Similar Documents

Publication Publication Date Title
Boulahia et al. Early, intermediate and late fusion strategies for robust deep learning-based multimodal action recognition
US11605161B2 (en) Surgical workflow and activity detection based on surgical videos
CN109472024B (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN111488807B (zh) 基于图卷积网络的视频描述生成系统
Zhou et al. Fine-tuning convolutional neural networks for biomedical image analysis: actively and incrementally
JP7290730B2 (ja) 文生成方法と装置、電子機器及びプログラム
CN109919221B (zh) 基于双向双注意力机制图像描述方法
CN111950393B (zh) 一种基于边界搜索智能体的时序动作片段分割方法
CN113450771B (zh) 唤醒方法、模型训练方法和装置
CN112115131A (zh) 数据去噪方法、装置、设备及计算机可读存储介质
Liu et al. A survey on natural language video localization
CN116259108A (zh) 动作质量评估方法和装置、动作质量评估模型训练方法
CN116167015A (zh) 一种基于联合交叉注意力机制的维度情感分析方法
Cao et al. Separable-programming based probabilistic-iteration and restriction-resolving correlation filter for robust real-time visual tracking
Yang et al. Multimodal short video rumor detection system based on contrastive learning
CN115080778A (zh) 一种基于噪声数据清理的跨模态三维模型检索方法
Zhao et al. Video affective impact prediction with multimodal fusion and long-short temporal context
JP6090927B2 (ja) 映像区間設定装置及びプログラム
CN117591698B (zh) 视频检索模型的训练方法、视频检索方法、装置及设备
Im et al. An Investigation of CNN-CARU for image captioning
CN114036946B (zh) 一种文本特征提取及辅助检索的系统及方法
Manmadhan et al. An enhanced term weighted question embedding for visual question answering
CN116561350B (zh) 一种资源生成方法及相关装置
Filali et al. Visually supporting image annotation based on visual features and ontologies
Khediri¹ et al. Check for updates Multimodal Emotion Recognition System Through Three Different Channels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination