CN116259108A

CN116259108A - 动作质量评估方法和装置、动作质量评估模型训练方法

Info

Publication number: CN116259108A
Application number: CN202310138093.3A
Authority: CN
Inventors: 张睿
Original assignee: Light Control Tesilian Chongqing Information Technology Co ltd
Current assignee: Light Control Tesilian Chongqing Information Technology Co ltd
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-06-13

Abstract

本公开提供一种动作质量评估方法和装置、动作质量评估模型训练方法及电子设备，方法包括：分别对待评估视频和模板视频进行动作定位，分别得到待评估视频和模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；将待评估视频的视频特征进行过程切割，得到待评估动作过程特征集；对模板视频的视频特征进行过程切割，得到模板动作过程特征集；根据待评估动作过程特征集和模板动作过程特征集进行动作质量评估。本公开的一种动作质量评估方法通过动作定位预测出视频中某细节动作在时序上的起始点和终止点，以及两个时间点间所发生的细节动作类别，进而根据两个时间点更精确地完成动作片段切割。

Description

动作质量评估方法和装置、动作质量评估模型训练方法

技术领域

本公开涉及计算机视觉领域，具体涉及一种动作质量评估方法、一种动作质量评估模型训练方法、一种动作质量评估装置及电子设备。

背景技术

人体动作识别一直以来是计算机视觉领域被广泛研究的课题。其中，动作质量评估(Action Quality Assessment，简称AQA)作为人体识别的扩展领域，在工业界和学术界广泛应用和研究，其可用于病人康复医疗，医疗动作指导，体育动作指导，体育动作评分等任务。

相较于人体动作识别，动作质量评估是一项更细致化的任务，其需要对某一连续行为进行整体评估，或对某一动作进行动作分解评估。另外，视频中的人体行为质量评估也面临着运动多样性、复杂性、多角度性、摄像机运动、杂物遮挡等严峻问题。因此，当前动作质量评估往往需要多个前提任务支持，如动作检测，动作分割，人体骨架点检测，分数回归等，如何基于前提任务设计一个高效准确且鲁棒的动作质量评估方法框架是需要解决的技术问题之一。

发明内容

本公开旨在至少解决现有技术中存在的技术问题之一，提供一种动作质量评估方法、一种动作质量评估模型训练方法、一种动作质量评估装置、一种动作质量评估模型训练装置及电子设备。

本公开的一个方面，提供了一种动作质量评估方法，包括：

对待评估视频进行动作定位，得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；

对模板视频进行动作定位，得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；

根据所述待评估视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述待评估视频的视频特征进行过程切割，得到待评估动作过程特征集；

根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割，得到模板动作过程特征集；

根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估。

可选的，所述对待评估视频进行动作定位，得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型，包括：

将所述待评估视频输入预训练的一阶时序动作定位模型，得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；

所述对模板视频进行动作定位，得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型，包括：

将所述模板视频输入预训练的一阶时序动作定位模型，得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。

可选的，所述预训练的一阶时序动作定位模型是通过如下方式训练获得的：

获取训练视频序列集合；

将所述训练视频序列集合中的每个训练视频切分成多条片段，得到片段集；

将所述片段集输入至特征提取骨干网络进行视频特征提取，得到训练视频特征；

将所述训练视频特征依次输入编码器、解码器、事件边界回归器和动作分类器得到训练视频的预测动作起始时间点、预测动作结束时间点和预测动作类型；

将所述训练视频的预测动作起始时间点、预测动作结束时间点和预测动作类型分别与实际动作起始时间点、实际动作结束时间点和实际动作类型进行比较，根据比较结果得到训练监督信号；

根据所述训练监督信号更新所述预训练的一阶时序动作定位模型的参数。

可选的，所述特征提取骨干网络为由一种基于视觉语言多模态预训练建模方法生成的模型。

可选的，所述将所述训练视频序列集合中的每个训练视频切分成多条片段，得到片段集，包括：

将所述训练视频序列集合中的每个训练视频切分成多条片段，得到全局片段集；

对所述全局片段集进行切割，得到局部片段集；

根据所述全局片段集和所述局部片段集得到片段集。

可选的，所述根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估，包括：

将所述待评估动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取，得到交叉注意特征；

根据所述交叉注意特征得到预测偏差分数；

根据所述预测偏差分数和模板动作分数得到动作质量预测分数。

可选的，将所述待评估动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取，得到交叉注意特征，包括：

将所述待评估动作特征集和所述模板动作过程特征集依次输入交叉注意力模块、前向反馈层和池化层，得到交叉注意特征。

本公开的另一个方面，还提供了一种动作质量评估模型训练方法，包括：

将查询视频和模板视频进行预处理，分别得到查询数据和模板数据；

对所述查询数据进行动作定位，得到所述查询视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；

对所述模板数据进行动作定位，得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；

根据所述查询视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述查询视频的视频特征进行过程切割，得到查询视频动作过程特征集；

将所述查询视频动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取，得到交叉注意特征；

根据所述交叉注意特征得到预测偏差分数；

根据所述预测偏差分数得到训练监督信号，根据所述训练监督信号更新所述动作质量评估模型的参数。

本公开的另一个方面，还提供了一种动作质量评估装置，包括：

第一动作定位模块，对待评估视频进行动作定位，得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；

第二动作定位模块，对模板视频进行动作定位，得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；

第一过程切割模块，根据所述待评估视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述待评估视频的视频特征进行过程切割，得到待评估动作过程特征集；

第二过程切割模块，根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割，得到模板动作过程特征集；

质量评估模块，根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估。

本公开的另一个方面，还提供了一种动作质量评估模型训练装置，包括：

预处理模块，用于将查询视频和模板视频进行预处理，分别得到查询数据和模板数据；

查询视频动作定位模块，用于对所述查询数据进行动作定位，得到所述查询视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；

模板视频动作定位模块，用于对所述模板数据进行动作定位，得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；

查询视频过程切割模块，用于根据所述查询视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述查询视频的视频特征进行过程切割，得到查询视频动作过程特征集；

模板视频过程切割模块，用于根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割，得到模板动作过程特征集；

训练模型交叉感知模块，用于将所述查询视频动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取，得到交叉注意特征；

训练模型预测模块，用于根据所述交叉注意特征得到预测偏差分数；

训练模型更新模块，用于根据所述预测偏差分数得到训练监督信号，根据所述训练监督信号更新所述动作质量评估模型的参数。

本公开的另一个方面，还提供了一种电子设备，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现前文记载的动作质量评估方法或者前文记载的动作质量评估模型训练方法。

本公开的另一个方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能实现前文记载的动作质量评估方法或者前文记载的动作质量评估模型训练方法。

本公开实施例的一种动作质量评估方法、一种动作质量评估模型训练方法、一种动作质量评估装置、一种动作质量评估模型训练装置及电子设备，通过动作定位预测出视频中某细节动作在时序上的起始点和终止点，以及两个时间点间所发生的细节动作类别，进而根据两个时间点更精确地完成动作片段切割。

附图说明

图1为用于实现根据本公开一实施例的动作质量评估方法、动作质量评估模型训练方法、动作质量评估装置、动作质量评估模型训练装置的示例电子设备的示意性框图；

图2为本公开另一实施例的动作质量评估方法的流程示意图；

图3为本公开另一实施例的预训练的一阶时序动作定位模型的训练流程示意图；

图4为本公开另一实施例的过程感知交叉注意解码器的结构示意框图；

图5为本公开另一实施例的动作质量评估模型训练方法的流程示意图；

图6为本公开另一实施例的动作质量评估装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本公开的技术方案，下面结合附图和具体实施方式对本公开作进一步详细描述。

为使本领域技术人员更好地理解本公开的技术方案，下面结合附图和具体实施方式对本公开作进一步详细描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，本公开中使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“包括”或者“包含”等既不限定所提及的形状、数字、步骤、动作、操作、构件、原件和/或它们的组，也不排除出现或加入一个或多个其他不同的形状、数字、步骤、动作、操作、构件、原件和/或它们的组，或加入这些。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在更加详细地讨论之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

首先，参照图1来描述用于实现本公开一实施例的一种动作质量评估方法、一种动作质量评估模型训练方法、一种动作质量评估装置、一种动作质量评估模型训练装置及电子设备。

如图1所示，电子设备300包括一个或多个处理器310、一个或多个存储装置320、输入装置330、输出装置340等，这些组件通过总线系统和/或其他形式的连接机构350互连。应当注意，图1所示的电子设备的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器310可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制所述电子设备中的其他组件以执行期望的功能。

所述存储装置320可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现下文所述的本公开实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如，所述应用程序使用和/或产生的各种数据等。

所述输入装置330可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置340可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

目前动作质量评估方法主要分为两种主流类型：评分回归和分级。动作质量评估基本通用流程如下：给定一个视频序列集合S＝{S_i},i∈[1,2,…,N]，每个视频可以表示为S_i＝{f_j},j∈[1,2,…,T]，即视频序列集合S包含N个视频，集合内某一个视频S_i包含T帧图像，f_j表示S_i中的第j帧。视频将以串联形式输入到视频特征提取模块F_f和动作质量评估模块F_a。由于深度学习的快速发展，视频特征提取模块通常为一种深度神经网络，如I3D、C3D、SlowFast，VideoSwin等，其中，VideoSwin为一种基于Transformer的滑动窗口式视频特征提取模型。完成视频特征提取后，动作质量评估模块则负责基于所得视频特征X_i完成评估工作，最终输出评分结果Score_i。整体流程可如下公式所示：

X_i＝F_f(S_i),X_i∈R^K

Score_i＝F_a(X_i),Score_i∈R^O

其中K为视频特征维度，O为结果数量。

由于视频特征提取模块通常采用通用深度神经网络，因此，对于动作质量评估的大部分研究工作均聚焦于动作质量评估模块，以上所提的两种主流类型亦是对于动作质量评估模块而言。对于所提两种类型，详细描述如下：

(1)评分回归

评分回归法是动作质量评估中常见的计分方法。在深度学习领域，一般采用全连接网络(Fully Connected Network)直接完成评分预测，然后利用均方误差(Mean SquareError,MSE)作为动作质量评估模块的性能评价标准，MSE分数越小则表示预测分数越准确。MSE如下所示：

其中，

为真实分数；

(2)分级法

分级法是服务于以等级划分的质量评估标准。如医疗技能操作中，质量评估标准将使用“新手”，“中级”和“专家”对相关医疗操作进行评价。所以，分级法也可视为将动作质量评估问题转换为分类问题，即给定某样本视频S_i，动作质量评估模块通过计算得到相应的级别标签C_i，最后，利用常规的分类问题评价标准(如准确率)衡量动作质量评估模块的准确性。

本公开的方法则是属于评分回归类型。现有技术中的评分回归类型的动作过程感知方法，采用串联多阶段方法，因此每个阶段所输出的结果会影响后续阶段的结果，例如，动作过程分割部分所使用的是一种名为“Down-up”的模型，由多个卷积层和线性层所组成，其最终输出一个大小为L的二分类概率分布表示一个连续动作的L步动作转移概率(该连续动作由L个步骤组成)。为了学习二分类概率分布，该方法使用了传统的二元交叉熵(BinaryCross Entropy，即BCE)作为损失函数为模型提供监督信号。可见，其相当于一种多标签分类模型，而多标签分类模型的弊端在于：1)正负样本非常容易出现不均衡问题；2)当L越大时，不均衡问题会更严重；3)采用传统的二元交叉熵无法解决不均衡问题；以上3个问题将会严重影响动作过程分割的解析结果，而该解析结果也会严重影响后续步骤的结果产生，进而使结果偏差越来越大。此外，以上方案在过程感知交叉注意部分使用了传统的Transformer解码器，解码器内部的自注意力模块的计算复杂度为O(M²)，因此当一个连读动作可分步骤越多时(即L越大)，计算复杂度会越高，进而降低了计算效率。最后，以上方案是通过使用概率分布的方式来表达L步细节动作，不涉及时间上的预测，无法在时序上完成动作片段的切割。

下面，将参考图2描述根据本公开另一实施例的一种动作质量评估方法。

如图2所示，一种动作质量评估方法，包括：

S100：对待评估视频进行动作定位，得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。

具体地，在本步骤中，对待评估视频进行动作定位，得到所述待评估视频中细节动作的起始终止时间点P^query、视频特征

和动作类型C^query。示例性的，在本步骤中，使用P^query来表示时序起始时间点和时序终止时间点，在具体的使用过程中，可使用其他方式来表示，本实施例中并不进行具体限制。

示例性的，细节动作指的是将完整动作切分得到的结果，例如，跳水是一个完整动作，将其进行切分，可以分成起跳、空中翻滚、空中旋转、入水等多个细节动作，需要说明的是，可根据实际的使用情况选择完整动作以及对完整动作的切分方式，上述选择跳水动作作为完整动作、以及对跳水动作的切分仅为示例性说明。

示例性的，在本步骤中，完成对待评估视频进行动作定位，就是将完整动作进行细粒度切分，也就是预测出待评估视频中细节动作在时序上的起始点和终止点，以及两个时间点间所发生的细节动作类别，例如，对跳水动作进行细粒度切分，分别预测出跳水视频中起跳、空中翻滚、空中旋转、入水等多个细节动作在时序上的起始点和终止点以及两个时间点间所发生的细节动作类别，最后根据时间点完成切分，从而将一个完整动作切分成多个细节动作片段，进而根据两个时间点更精确地完成动作片段切割。

S200：对模板视频进行动作定位，得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。

具体地，在本步骤中，对模板视频进行动作定位，得到所述模板视频中细节动作的起始终止时间点P^temp、视频特征

和动作类型C^temp。示例性的，在本步骤中，使用P^temp来表示时序起始时间点和时序终止时间点，在具体的使用过程中，可使用其他方式来表示，本实施例中并不进行具体限制。

示例性的，模板视频为用于动作质量评估的标准视频，是由专业人员完成质量分数评估的视频，模板视频的相关信息可作为对比评价待评估视频的标准，示例性的，模板视频的相关信息包括模板视频中的细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型等信息。

示例性的，在本步骤中，模板视频选取与待评估视频对应的视频，例如，待评估视频中选取完整动作为跳水视频，模板视频也选取完成动作为跳水的视频，且待评估视频和模板视频中使用相同的细节动作分类方法，例如，都将完整动作跳水分成起跳、空中翻滚、空中旋转、入水等多个细节动作。

S300：根据所述待评估视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述待评估视频的视频特征进行过程切割，得到待评估动作过程特征集。

具体地，在本步骤中，根据所述待评估视频中不同动作类型细节动作的起始终止时间点P^query将所述待评估视频的视频特征

进行过程切割，得到待评估动作过程特征集/>

需要说明的是，本步骤中不同动作类型细节动作为根据步骤S100中的动作类型C^query来进行分类的不同细节动作，例如，起跳、空中翻滚、空中旋转、入水四个动作类型的细节动作。

S400：根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割，得到模板动作过程特征集。

具体地，在本步骤中，根据所述模板视频中不同动作类型细节动作的起始终止时间点P^temp将所述模板视频的视频特征

进行过程切割，得到模板动作过程特征集

需要说明的是，本步骤中不同动作类型细节动作为根据步骤S200中的动作类型C^temp来进行分类的不同细节动作，例如，起跳、空中翻滚、空中旋转、入水四个动作类型的细节动作。

S500：根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估。

具体地，在本步骤中，根据所述待评估动作过程特征集

和所述模板动作过程特征集/>

进行动作质量评估。

需要说明的是，步骤S100和步骤S200可先后执行，也可同时并行执行；步骤S300和步骤S400可以先后执行，也可同时并行执行。

本公开实施例的动作质量评估方法，通过动作定位预测出待评估视频和模板视频中某细节动作在时序上的起始点和终止点，以及两个时间点间所发生的细节动作类别，从而将一个完整动作切分成多个细节动作片段，进而根据两个时间点更精确地完成动作片段切割，实现了在时序上完成切割；除此之外，两个时间点是实时分析得到的，所以切割更灵活，无需人为干预切分。通过更精确地动作定位之后再进行过程切割，提高了对待评估视频和模板视频动作过程分割的精确度，从而能够更精确的将待评估视频和模板视频进行对比，进而提高了整体动作质量评估的精确度。

下面，将进一步阐述本公开另一实施例的一种动作质量评估方法。

示例性的，步骤S100包括：

对待评估视频进行预处理，得到待评估数据；将所述待评估数据进行动作定位，得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。

示例性的，在本步骤中，预处理包括切分预处理操作和多视觉视频预处理操作等预处理，也可根据实际的使用情况选取其他的预处理操作，本实施例中并不进行具体限制。

示例性的，切分预处理操作具体为对待评估视频以多个连续帧为单位切分成多条片段，构成片段集；多视觉视频预处理操作具体为，为对待评估视频以多个连续帧为单位切分成多条片段，构成全局片段集，在全局片段集中随机采样多条全局片段，对采样得到的全局片段中的每帧图像进行切割操作，得到局部片段集，将全局片段集和局部片段集结合构成片段集。

示例性的，在对全局片段中的图像进行切割操作时，可采用多种固定但不同大小的切割比例分别对图像进行随机切割，且可进行多次随机切割，在具体使用过程中，可根据实际的使用情况选取切割比例、选取几种切割比例、切割几次、对几帧图像进行切割，本实施例中不进行限制。

示例性，步骤S200包括：

对模板视频进行预处理，得到模板数据；将所述模板数据进行动作定位，得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。

示例性的，在本步骤中，预处理包括切分预处理操作和多视觉视频预处理操作等预处理。需要说明的是，本步骤的切分预处理操作和多视觉视频预处理操作与步骤S100中相同，也就是说，若进行切分预处理，则选用相同的切分方法、选择同样数量的连续帧、切分程同样数量的偏多；若进行多视觉视频预处理操作，则选取相同的切割比例、切割次数和对几帧图像进行切割，以保证得到的待评估数据和模板数据切割后的尺寸相对应。

示例性的，可将步骤S100和步骤S200中的待评估视频和模板视频输入相同的预处理模型进行预处理。

本公开实施例的动作质量评估方法，在动作定位之前先进行预处理，实现了视频特征融合的增强，以提高后续动作定位的精度。

下面，将进一步阐述本公开另一实施例的一种动作质量评估方法中的动作定位方法。

示例性的，步骤S100包括：

将所述待评估视频输入预训练的一阶时序动作定位模型，得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。

示例性，步骤S200包括：

具体地，在步骤S100和步骤S200中，通过预训练的一阶时序动作定位模型来实现对待评估视频和模板视频的动作定位。示例性的，步骤S100和步骤S200中选取相同的预训练的一阶时序动作定位模型，示例性的，可以采用一种结合“视觉-语言多模态建模”(Visual-Language Modeling，VLM)预训练的一阶时序动作定位模型，在实际使用过程中，可根据实际的使用情况选择不同的算法来实现一阶时序动作定位，例如采用ActionFormer。

示例性的，预训练的一阶时序动作定位模型包括以下部分：

1)一个特征提取骨干网络；

2)一个由卷积神经网络(CNN)和Transformer所组成的编码器E_af；

3)一个由卷积神经网络组成的解码器D_af；

4)事件边界回归器F_br和动作分类器F_ac。

示例性的，在特征提取骨干网络部分，本公开采用了一种由VLM预训练方法X-CLIP所生成的预训练Transformer模型F_xclip作为特征提取骨干网络，该预训练Transformer模型已经在大规模公开“视频-文本”多模态数据上完成学习，所以其具有较为强大的视频高级语义提取能力，其所提取的视频时空特征为ActionFormer提供丰富的语义信息，帮助其完成动作定位任务。

其中，X-CLIP为一种基于语言-图像预训练模型的通用视频识别方法，ActionFormer为一种基于Transformer的时序动作定位算法，Transformer为一种基于多头自注意力机制的神经网络模型。

示例性的，在本步骤中，步骤S100和步骤S200中预训练的一阶时序动作定位模型，通过如下方式训练获得的。需要说明的是，若前文中示例性的选取了ActionFormer作为一阶时序动作定位，则本步骤中示例性的对其进行训练。具体的模型训练方法如下所示：

T100：获取训练视频序列集合。

具体地，在本步骤中，给定一个视频序列集合S。

T200：将所述训练视频序列集合中的每个训练视频切分成多条片段，得到片段集。

具体地，在本步骤中对于训练视频序列合计中的每个视频S_i，我们以16连续帧为单位将视频S_i切分成多条片段，形成片段集

假设视频S_i长度为l帧，/>

示例性的，在本步骤中，采用一种多视觉视频特征提取方法来进行预处理，以丰富视频特征的全局信息和局部信息。具体地，如图3所示，步骤T200包括：

T201：将所述训练视频序列集合中的每个训练视频切分成多条片段，得到全局片段集。

具体地，在本步骤中，将片段集

作为全局片段集，其包含训练视频的全局信息。

T202：对所述全局片段集进行切割，得到局部片段集。

示例性的，在本步骤中，首先从全局片段集Clip_i中随机采样4条片段，然后对该4条片段的16帧图像采用3种固定但不同大小的切割比例分别完成3次图片随机切割操作，最终可以得到由12条新片段所组成的局部片段集

需要说明的是，上述获取局部片段集的方法仅为示例性说明，可根据实际的使用情况使用其他方法获取局部片段集。

T203：根据所述全局片段集和所述局部片段集得到片段集。

示例性的，在本步骤中，将步骤T201中的全局片段集Clip_i和局部片段集

结合成新的片段集/>

片段集/>

共有n+12条片段，将所述新的片段集

作为片段集进行训练。

T300：将所述片段集输入至特征提取骨干网络进行视频特征提取，得到训练视频特征。

示例性的，在本步骤中，所述特征提取骨干网络为由一种基于视觉语言多模态预训练建模方法生成的模型F_xclip。

具体地，在本步骤中，将

输入至F_xclip进行视频特征提取，并得到训练视频特征X_xclip∈R^B×(n+12)×K。

T400：将所述训练视频特征依次输入编码器、解码器、事件边界回归器和动作分类器得到训练视频的预测动作起始时间点、预测动作结束时间点和预测动作类型。

示例性的，在本步骤中，使用前文中阐述的编码器E_af、解码器D_af、事件边界回归器F_br和动作分类器F_ac。具体地，在本步骤中，将视频特征X_xclip输入至编码器E_af，得到编码特征embedding_af；将embedding_af输入至解码器D_af，得到解码特征X_af；将X_af分别输入到事件边界回归器F_br和动作分类器F_ac，得到训练视频的预测动作起始结束时间点和预测动作类别。

示例性的，在本步骤中，通过热力图回归方式预测动作发生的起始点和终止点，以及识别两个时间点间动作类型，最后根据时间点完成动作片段分割，因此，不需要针对视频中的每帧图像都预测一次动作类型的概率，在保证动作片段分割准确度的同时提高了处理效率。

T500：将所述训练视频的预测动作起始时间点、预测动作结束时间点和预测动作类型分别与实际动作起始时间点、实际动作结束时间点和实际动作类型进行比较，根据比较结果得到训练监督信号。

具体地，在本步骤中，基于预测动作起始结束时间点和预测动作类别，分别与实际动作起始结束时间点和实际动作类别计算损失函数(smooth L1)和交叉熵损失函数(Softmax)，进而得到训练监督信号。需要说明的是，上述获取训练监督信号的方法仅为示例性说明，可根据实际的使用情况选取不同的方法获取训练监督信号。

T600：根据所述训练监督信号更新所述预训练的一阶时序动作定位模型的参数。

具体地，在本步骤中，根据训练监督信号完成反向传播，更新模型参数，完成对模型的一次训练。

需要说明的是，在具体的训练过程中，可根据实际的使用情况进行多次训练，每次训练时，可循环执行步骤T200至T600，也可循环执行步骤T300至T600，也就是在进行训练视频切分后再循环训练；当步骤T200具体包括步骤T201至T203的时候，也可循环执行步骤T202、T203以及T300至T600，也就是在进行训练视频的全局切割后再循环训练。

具体地，可根据实际的使用情况选择何时完成训练，最终得到预训练的一阶时序动作定位模型

本公开实施例的动作质量评估方法，使用预训练的一阶时序动作定位模型来实现动作定位，并具体公开了该模型的训练方法，该模型设计简洁且动作定位性能优异，且通过预训练可以使得一阶时序定位模块具有丰富的语义信息，提高动作定位精度，从而提高动作分割的精确度。同时，一阶时序动作定位模型是一种端到端的模型模块，不会增加过多计算资源或降低计算效率。

示例性的，步骤S500包括：

S501：将所述待评估动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取，得到交叉注意特征。

具体地，在本步骤中，将所述待评估动作过程特征集

和所述模板动作过程特征集/>

进行过程交叉注意特征提取，得到交叉注意特征X_cross。

S502：根据所述交叉注意特征得到预测偏差分数。

具体地，在本步骤中，将X_cross输入至偏差分数回归器，得到预测偏差分数。

S503：根据所述预测偏差分数和模板动作分数得到动作质量预测分数。

具体地，在本步骤中，将待评估视频的动作质量预测偏差分数与模板动作分数相加即可得到最终的动作质量预测分数。需要说明的是，模板动作分数为标准分数，可根据实际情况获取，例如使用专家评分等方式，本实施例中不进行具体限制。此外，也可使用其他的方式获取动作质量预测分数，上述使用分数相加的方式仅为示例性说明。

本公开实施例的动作质量评估方法，通过特征提取得到交叉注意特征，进一步得到预测偏差分数和动作质量预测分数，该交叉注意特征提取方法与动作分割匹配度较高，提高了评估精度。

下面，将进一步阐述本公开另一实施例的一种动作质量评估方法中的交叉注意特征提取方法。

示例性的，步骤S501包括：

将所述待评估动作特征集

和所述模板动作过程特征集/>

依次输入交叉注意力模块、前向反馈层和池化层，得到交叉注意特征。

具体地，在本步骤中，使用改进的Transformer解码器D_newt用于过程感知交叉注意部分，得到交叉注意特征。示例性的，如图4所示，传统的Transformer解码器中包含自注意力模块，在使用的过程中，将查询视频特征或者待评估视频特征先输入自注意力模块，再输入交叉注意力模块，模板视频特征直接输入交叉注意力模块，之后再将交叉注意力模块的输出结果依次输入至前向反馈层和池化层。本公开中所使用的改进的Transformer解码器D_newt省略了自注意力模块，直接将查询视频特征或者待评估视频特征输入交叉注意力模块。

需要说明的是，在本公开中，通过实验发现传统Transformer解码器的自注意力模块在此任务上是冗余的，即使去除了该模块，并不会对最终结果造成过大影响，因此，鉴于自注意力模块收益性非常低，本公开改进了Transformer解码器结构，将自注意力模块从中去除，进而解决上述的计算效率问题。

本公开实施例的动作质量评估方法，对传统Transformer解码器进行了改进，提高了计算效率，从而提高了整体质量评估方法的效率。

下面，结合图5描述本公开另一实施例的一种动作质量评估模型训练方法，包括：

将查询视频和模板视频进行预处理，分别得到查询数据和模板数据。示例性的，在本步骤中，预处理包括切分预处理操作和多视觉视频预处理操作等预处理，前文中已对切分预处理操作和多视觉视频预处理操作进行了阐述，本步骤中的预处理与前文类似，此处不再赘述。

对所述查询数据进行动作定位，得到所述查询视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。示例性的，在本步骤中，将提前训练好的

用于动作过程分割部分，将预处理好的查询数据输入至/>

对应得到由/>

骨干网络/>

所提取的查询视频中细节动作的视频特征/>

预测起始终止时间点P^query(时间点的时序尺度与视频特征的时序尺度对应)，以及预测的动作类型C^query，完成对某一动作的细粒度切分。

对所述模板数据进行动作定位，得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型。示例性的，在本步骤中，将提前训练好的

用于动作过程分割部分，将预处理好的模板数据输入至/>

对应得到由/>

骨干网络/>

所提取的模板视频中细节动作的视频特征/>

预测起始终止时间点P^temp(时间点的时序尺度与视频特征的时序尺度对应)，以及预测的动作类型C^temp，完成对某一动作的细粒度切分。

根据所述查询视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述查询视频的视频特征进行过程切割，得到查询视频动作过程特征集。示例性的，在本步骤中，基于查询视频的预测起始终止时间点P^query对视频特征

进行过程切割，得到查询视频动作过程特征集/>

根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割，得到模板动作过程特征集。示例性的，在本步骤中，基于模板视频的预测起始终止时间点P^temp对视频特征

进行过程切割，得到模板视频动作过程特征集/>

/>

将所述查询视频动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取，得到交叉注意特征。示例性的，在本步骤中，将改进的Transformer解码器D_newt用于过程感知交叉注意部分，其负责完成

和/>

的过程交叉注意特征提取，得到交叉注意特征X_cross。

根据所述交叉注意特征得到预测偏差分数。示例性的，在本步骤中，将X_cross输入至偏差分数回归器，得到预测偏差分数。

根据所述预测偏差分数得到训练监督信号，根据所述训练监督信号更新所述动作质量评估模型的参数。示例性的，在本步骤中，根据预测偏差分数，通过MSE损失函数提供监督信号，通过梯度反向传播方式完成训练，更新模型参数。

需要说明的是，在具体的训练过程中，可根据实际的使用情况进行多次训练，每次训练时，可循环执行上述步骤直至完成训练。

本公开实施例的动作质量评估模型训练方法，通过动作定位预测出查询视频和模板视频中某细节动作在时序上的起始点和终止点，以及两个时间点间所发生的细节动作类别，从而将一个完整动作切分成多个细节动作片段，进而根据两个时间点更精确地完成动作片段切割；除此之外，两个时间点是实时分析得到的，所以切割更灵活，无需人为干预切分。通过更精确地动作定位之后再进行过程切割，提高了对查询视频和模板视频动作过程分割的精确度，从而能够更精确的将查询视频和模板视频进行对比，进而提高了整体动作质量评估模型训练的精确度。

下面，结合图6描述本公开另一实施例的一种动作质量评估装置100，该装置可以应用于前文记载的动作质量评估方法，具体内容可以参考前文相关记载，在此不作赘述。所述装置包括：

第一动作定位模块110，对待评估视频进行动作定位，得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；

第二动作定位模块120，对模板视频进行动作定位，得到所述模板视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；

第一过程切割模块130，根据所述待评估视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述待评估视频的视频特征进行过程切割，得到待评估动作过程特征集；

第二过程切割模块140，根据所述模板视频中不同动作类型细节动作的时序起始时间点和时序终止时间点对所述模板视频的视频特征进行过程切割，得到模板动作过程特征集；

质量评估模块150，根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估。

本公开实施例的动作质量评估装置，通过动作定位预测出待评估视频和模板视频中某细节动作在时序上的起始点和终止点，以及两个时间点间所发生的细节动作类别，从而将一个完整动作切分成多个细节动作片段，进而根据两个时间点更精确地完成动作片段切割，实现了在时序上完成切割；除此之外，两个时间点是实时分析得到的，所以切割更灵活，无需人为干预切分。通过更精确地动作定位之后再进行过程切割，提高了对待评估视频和模板视频动作过程分割的精确度，从而能够更精确的将待评估视频和模板视频进行对比，进而提高了整体动作质量评估的精确度。

下面，描述本公开另一实施例的一种动作质量评估模型训练装置，该装置可以应用于前文记载的动作质量评估模型训练方法，具体内容可以参考前文相关记载，在此不作赘述。所述装置包括：

本公开实施例的动作质量评估模型训练装置，通过动作定位预测出查询视频和模板视频中某细节动作在时序上的起始点和终止点，以及两个时间点间所发生的细节动作类别，从而将一个完整动作切分成多个细节动作片段，进而根据两个时间点更精确地完成动作片段切割；除此之外，两个时间点是实时分析得到的，所以切割更灵活，无需人为干预切分。通过更精确地动作定位之后再进行过程切割，提高了对查询视频和模板视频动作过程分割的精确度，从而能够更精确的将查询视频和模板视频进行对比，进而提高了整体动作质量评估模型训练的精确度。

进一步的，本实施例中还公开了一种电子设备，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现前文记载的动作质量评估方法或者动作质量评估模型训练方法。

进一步的，本实施例中还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能实现前文记载的动作质量评估方法或者动作质量评估模型训练方法。

其中，计算机可读介质可以是本公开的装置、设备、系统中所包含的，也可以是单独存在。

其中，计算机可读存储介质可是任何包含或存储程序的有形介质，其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备，更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或它们任意合适的组合。

其中，计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，其具体的例子包括但不限于电磁信号、光信号，或它们任意合适的组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，然而本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离本公开的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本公开的保护范围。

Claims

1.一种动作质量评估方法，其特征在于，包括：

2.根据权利要求1所述的一种动作质量评估方法，其特征在于，所述对待评估视频进行动作定位，得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型，包括：

将所述待评估视频输入预训练的一阶时序动作定位模型，得到所述待评估视频中细节动作的时序起始时间点、时序终止时间点、视频特征和动作类型；和/或

3.根据权利要求2所述的一种动作质量评估方法，其特征在于，所述预训练的一阶时序动作定位模型是通过如下方式训练获得的：

获取训练视频序列集合；

将所述训练视频特征依次输入编码器、解码器、事件边界回归器和动作分类器，得到训练视频的预测动作起始时间点、预测动作结束时间点和预测动作类型；

4.根据权利要求3所述的一种动作质量评估方法，其特征在于，所述特征提取骨干网络为由一种基于视觉语言多模态预训练建模方法生成的模型。

5.根据权利要求3所述的一种动作质量评估方法，其特征在于，所述将所述训练视频序列集合中的每个训练视频切分成多条片段，得到片段集，包括：

对所述全局片段集进行切割，得到局部片段集；

根据所述全局片段集和所述局部片段集得到片段集。

6.根据权利要求1至5中任意一项所述的一种动作质量评估方法，其特征在于，所述根据所述待评估动作过程特征集和所述模板动作过程特征集进行动作质量评估，包括：

根据所述交叉注意特征得到预测偏差分数；

7.根据权利要求6所述的一种动作质量评估方法，其特征在于，将所述待评估动作过程特征集和所述模板动作过程特征集进行过程感知交叉注意特征提取，得到交叉注意特征，包括：

8.一种动作质量评估模型训练方法，其特征在于，包括：

根据所述交叉注意特征得到预测偏差分数；

9.一种动作质量评估装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现根据权利要求1至7中任意一项所述的动作质量评估方法或者权利要求8所述的动作质量评估模型训练方法。