CN111507301B

CN111507301B - 视频处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN111507301B
Application number: CN202010339994.5A
Authority: CN
Inventors: 田野; 吴建宝; 林斯姚; 范伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2021-06-08
Anticipated expiration: 2040-04-26
Also published as: CN111507301A

Abstract

本申请实施例公开了一种视频处理方法、装置、计算机设备以及存储介质，方法包括：获取目标视频，确定目标视频对应的行为类型；获取与行为类型匹配的关键点位置集合；关键点位置集合包括多个关键点位置簇，任一关键点位置簇是对目标视频的任一视频帧图像进行关键点检测得到；根据行为类型和关键点位置集合确定目标视频的行为特征；根据行为类型和行为特征，输出目标视频对应的行为质量。采用本申请，可以提高行为质量评估的效率以及准确率。

Description

视频处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、装置、计算机设备以及存储介质。

背景技术

视频分析是解析视频并从中分析出时间事件或者空间事件的过程，视频分析广泛应用于公共安全，智能交通，虚拟现实中。例如，在体育竞技领域中，对运动赛事视频进行分析，确定运动员的竞技状态，提升竞技领域的公平性；在户外教学领域，对学生的户外运动视频进行分析，确定学生的参与积极性，为教学效果评价提供数据支持。

目前，主要由人工基于以往经验以及知识对视频进行分析，但人工分析不仅效率低下，且受主观影响较大会造成分析结果不准确。

发明内容

本申请实施例提供一种视频处理方法、装置、计算设备以及存储介质，可以提高视频分析的效率以及准确率。

本申请实施例一方面提供了一种视频处理方法，包括：

获取目标视频，确定目标视频对应的行为类型；

获取与行为类型匹配的关键点位置集合；关键点位置集合包括多个关键点位置簇，任一关键点位置簇是对目标视频的任一视频帧图像进行关键点检测得到；

根据行为类型和关键点位置集合确定目标视频的行为特征；

根据行为类型和行为特征，输出目标视频对应的行为质量。

其中，所述确定所述目标视频对应的行为类型，包括：

将所述目标视频划分为多个视频帧图像集合；

调用三维卷积神经网络模型，提取每一个视频帧图像集合的图像集合卷积特征，以及将多个图像集合卷积特征全连接为全量卷积特征；所述全量卷积特征包括多个卷积特征值；

将在所述多个卷积特征值中最大卷积特征值对应的行为标签，作为所述目标视频的所述行为类型。

本申请实施例一方面提供了一种视频处理装置，包括：

视频获取模块，用于获取目标视频；

类型确定模块，用于确定目标视频对应的行为类型；

位置获取模块，用于获取与行为类型匹配的关键点位置集合；关键点位置集合包括多个关键点位置簇，任一关键点位置簇是对目标视频的任一视频帧图像进行关键点检测得到；

特征确定模块，用于根据行为类型和关键点位置集合确定目标视频的行为特征；

输出模块，用于根据行为类型和行为特征，输出目标视频对应的行为质量。

其中，输出模块，包括：

转换单元，用于将行为特征转换为连续行为信号；

特征获取单元，用于获取连续行为信号的信号特征；

输出单元，用于根据信号特征和行为类型输出目标视频对应的行为质量。

其中，转换单元，具体用于对行为特征进行插值处理，得到连续原始信号，对连续原始信号进行降噪处理，得到连续行为信号。

其中，特征获取单元，包括：

时域分析子单元，用于对连续行为信号进行时域分析，得到连续行为信号的时域特征；

频域分析子单元，用于对连续行为信号进行频域分析，得到连续行为信号的频域特征；

时域分析子单元，还用于将时域特征和频域特征组合为信号特征。

其中，频域分析子单元，具体用于将连续行为信号划分为多个单位连续行为信号，将每个单位连续行为信号进行频谱分析，得到多个单位频域信号，获取每个单位频域信号的最大频率幅值，将获取的多个最大频率幅值组合为频域特征。

其中，输出单元，具体用于根据频域特征确定行为次数，根据时域特征和行为类型确定行为标准程度，根据行为次数和行为标准程度确定行为质量，输出行为质量。

其中，输出模块，包括：

第一调用单元，用于调用与行为类型对应的标准程度评估模型，确定行为特征的行为标准程度，调用与行为类型对应的行为次数评估模型，确定行为特征的行为次数，根据行为标准程度和行为次数确定目标视频对应的行为质量，输出行为质量。

其中，还包括：

建议获取模块，用于当行为标准程度不大于行为标准程度阈值时，输出与行为类型对应的行为建议。

其中，特征确定模块，包括：

度量方式确定单元，用于根据行为类型确定特征度量方式；特征度量方式包括距离度量方式，角度度量方式以及面积度量方式中的至少一种；

特征值确定单元，用于根据特征度量方式确定每个关键点位置簇对应的特征值；

组合单元，用于将每个关键点位置簇对应的特征值组合为目标视频的行为特征。

其中，特征值确定单元，具体用于根据特征度量方式确定每个关键点位置簇对应的原始特征值，获取目标视频中的参照对象的对象尺寸，根据对象尺寸对每个原始特征值进行归一化处理，得到每个关键点位置簇对应的特征值。

其中，位置获取模块，包括：

划分单元，用于将目标视频划分为多个视频帧图像；

第二调用单元，用于调用关键点检测模型，确定每个视频帧图像的全量关键点位置簇；

划分单元，还用于从全量关键点位置簇选择与行为类型匹配的关键点位置簇，将每个视频帧图像的关键点位置簇组合为关键点位置集合。

其中，关键点检测模型包括卷积特征提取单位模型，区域检测单位模型，位置回归单位模型和候选关键点单位模型；

第二调用单元，具体用于调用卷积特征提取单位模型，提取视频帧图像的图像卷积特征，调用区域检测单位模型，对图像卷积特征进行区域检测，确定视频帧图像的候选区域，获取多个锚定姿态，将每个锚定姿态分别添加至候选区域，确定每个锚定姿态在视频帧图像中的姿态坐标簇，根据图像卷积特征，对每个姿态坐标簇进行兴趣区域池化，确定每个姿态坐标簇的池化特征，调用位置回归单位模型，对每个池化特征进行分类全连接，确定每个姿态坐标簇的质量评分，在多个质量评分中将具有最大质量评分的姿态坐标簇作为目标姿态坐标簇，调用候选关键点单位模型，对每个池化特征进行回归全连接，确定每个姿态坐标簇的回归偏移量，根据目标姿态坐标簇的回归偏移量，修正目标姿态坐标簇，得到原始位置簇；原始位置簇中的每个原始位置属于二维坐标；以及将原始位置簇重建为全量关键点位置簇；全量关键点位置簇中的每个全量关键点位置属于三维坐标。

其中，视频获取模块，具体用于将目标视频划分为多个视频帧图像集合，调用三维卷积神经网络模型，提取每一个视频帧图像集合的图像集合卷积特征，以及将多个图像集合卷积特征全连接为全量卷积特征；全量卷积特征包括多个卷积特征值，以及将在多个卷积特征值中最大卷积特征值对应的行为标签，作为目标视频的行为类型。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行上述各实施例中的方法。

本申请通过通过分析视频的行为类型以及关键点位置集合，提取出视频的行为特征，进而判断该视频对应的行为质量。本申请不需要人工参与，由终端设备自动分析视频进而得到分析结果，避免由人工分析所带来的主观因素干扰，提高视频分析的效率以及准确率，丰富视频分析的方式；再有，本申请的视频分析结果应用于行为质量评估，支持多种行为类型的行为质量评估，可拓展性强，适用范围广。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频处理的系统架构图；

图2a-图2b是本申请实施例提供的一种视频处理的场景示意图；

图3是本申请实施例提供的一种视频处理的流程示意图；

图4是本申请实施例提供的三维卷积神经网络的示意图；

图5是本申请实施例提供的一种确定关键点位置的示意图；

图6是本申请实施例提供的一种视频处理方法的流程示意图；

图7是本申请实施例提供的一种视频处理方法的流程示意图；

图8是申请实施例提供的一种确定连续行为信号的示意图；

图9是本申请实施例提供的一种视频处理装置的结构示意图；

图10是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision,CV)。

计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉。在本申请中，主要涉及识别视频的行为类型以及视频的关键点检测，进而提取出视频的行为特征，以及评估行为质量。

本申请可以应用于如下场景：当用户运动，且欲评估自己的运动质量时，可以使用自己的智能设备(例如，个人手机，或者个人平板等)录制自己运动时的运动视频，采用本申请可以对运动视频进行分析，以评估用户的运动质量(例如，动作是否标准，运动次数是否达标等)。后续用户可以根据运动质量进行运动量调整或者动作调整。

具体应用场景可以是用户在健身房进行健身时，使用智能设备录制自己的运动健身视频，采用本申请分析该运动健身视频以评估用户的健身质量，为后续调整健身计划提供数据基础；再有，用户在复健室进行复健康复训练时，使用智能设备录制自己的复健训练视频，采用本申请分析该复健训练视频以评估用户的复健训练质量，以提高复健训练效果。

具体应用场景还可以是体育竞技领域，录制运动员在竞技场上的比赛视频，采用本申请分析该比赛视频以确定运动员的竞技状态，该竞技状态可以用于后续的人员选拔，提升竞技领域的公平性；还可以是户外教学领域，录制学生的户外运动视频，采用本申请分析该对该户外运动视频进行分析，以确定运动质量，进而确定学生的参与积极性，为教学计划的调整以及教学效果评价提供数据支持。

请参见图1，是本申请实施例提供的一种视频处理的系统架构图。本申请涉及服务器10d以及终端设备集群，终端设备集群可以包括：终端设备10a、终端设备10b、...、终端设备10c等。

以终端设备10a为例，终端设备10a可以采集用户运动时的目标视频，将目标视频发送至服务器10d。服务器10d识别目标视频的行为类型，对目标视频的视频帧图像进行关键点检测，进而获取与行为类型匹配的关键点位置集合。服务器10d根据行为类型和关键点位置集合确定目标视频的行为特征，根据该行为特征判断行为质量。后续服务器10d可以将得到的行为质量发送至终端设备10a，终端设备10a显示行为质量，或者终端设备10a基于行为质量输出行为建议。

当然，上述服务器10d所执行的步骤也可以由终端设备10a来执行，即终端设备10a获取到目标视频后，确定行为类型以及关键点位置集合，根据行为类型和关键点位置集合确定行为特征，进而根据行为特征判断行为质量。

图1所示的服务器10d可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

图1所示的终端设备10a、终端设备10b、终端设备10c等可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表或者其他可进行视频操作的智能设备。终端设备集群以及服务器10d可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

下述图2a-图2b在目标视频是运动视频场景下，如何确定运动视频的行为标准程度以及行为次数为例进行说明。

请参见图2a-图2b，是本申请实施例提供的一种视频处理的场景示意图，终端设备10a采集用户运动时的运动视频20a，将运动视频20a发送至服务器10d。如图2a所示，服务器10d将运动视频20a输入分类模型，以确定该运动视频20a的行为类型，假设运动视频20a的行为类型是：慢跑。

服务器10d将运动视频20a拆分为多张视频帧图像，假设拆分为4张视频帧图像，分别为视频帧图像20c，视频帧图像20d，视频帧图像20e以及视频帧图像20f。对每一张视频帧图像进行关键点检测，以获取每张视频帧图像的关键点坐标簇。图2a中的图像20g是对视频帧图像20c进行关键点检测后得到的结果示意图，图像20h是对视频帧图像20d进行关键点检测后得到的结果示意图，图像20j是对视频帧图像20e进行关键点检测后得到的结果示意图，图像20k是对视频帧图像20f进行关键点检测后得到的结果示意图。

至此，就获取了4张视频帧图像的4个关键点坐标簇，每个关键点坐标簇都包含10个关键点坐标，每个关键点坐标可以是二维坐标也可以是三维坐标，这10个关键点坐标分别是：头部关键点坐标，左手臂关键点坐标，左手腕关键点坐标，右手臂关键点坐标，右手腕关键点坐标，腰部关键点坐标，左膝盖关键点坐标，左脚踝关键点坐标，右膝盖关键点坐标，右脚踝关键点坐标。

对每一个关键点坐标簇来说，服务器10d可以根据行为类型“慢跑”从关键点坐标簇中选择目标关键点位置簇，由于慢跑主要是与手臂和腿部有关，因此与行为类型“慢跑”相关的目标关键点位置簇可以包括左手臂关键点坐标，右手臂关键点坐标，左膝盖关键点坐标，以及右膝盖关键点坐标。

至此，服务器10d就获取了4个目标关键点位置簇，每个目标关键点位置簇包括5个关键点坐标。与行为类型“慢跑”对应的特征提取方式可以是面积类方式(除了面积类方式还可以是角度类方式或者距离类方式)。对1个目标关键点位置簇来说，可以计算这5个关键点坐标所构成平面的面积(或者这5个关键点坐标所构成空间的体积)。这样，一个目标关键点位置簇就对应1个面积(或者体积)，将计算出来的面积(或者体积)称作该目标关键点位置簇的特征值。对其余的3个目标关键点位置簇可以采用相同的计算方式，确定与之对应的特征值。将4个目标关键点位置簇分别对应的4个特征值组合为运动视频20a的行为特征20m。

可以知道，行为特征20m是一个向量，且该向量的维度是4维。服务器10d可以将行为特征20m进行插值处理，以将离散的行为特征20m转换为连续的信号20n，该信号20n的自变量是时间，因变量是面积(或者体积)，可以将纵坐标的面积(或者体积)称为振幅。

服务器10d对信号20n进行时域分析，得到时域特征20p，时域特征20p可以包括：信号20n的最大振幅，最小振幅，平均振幅，标准差等等；服务器10d将信号20n划分为多个单位信号，对每个单位信号进行频谱分析，得到每个单位信号的单位频域信号，单位频域信号的自变量是频率，因变量是幅值。服务器10d可以将多个单位频域信号的最大幅值组合为频域特征20q。

服务器10d可以基于规则的方式，判断时域特征20p以及频域特征20q对应的行为标准程度以及行为次数(由于行为类型是慢跑，因此行为次数可以具体是跑步路程)。例如，若时域特征20p中的最大振幅处于最小振幅阈值和最大振幅阈值区间内，则认行为标准程度为：高；若时域特征中的最大振幅小于最小振幅阈值，则认行为标准程度为：低。将频域特征20q中的幅值之和乘以0.75，所得到的数值就是跑步路程，此时跑步路程的单位为米。

假设根据时域特征20p和频域特征20q判断出行为标准程度为高，且跑步路程为2KM，服务器10d可以将上述判断结果发送至终端设备10a。

进一步地，若根据时域特征20p和频域特征20q判断出行为标准程度为低，服务器10d不仅可以向终端设备10a发送判断结果，还可以发送行为建议，行为建议可以是文本的形式(例如，用于描述慢跑标准行为的文本)，也可以是视频的形式(例如慢跑标准视频等)。

如图2b所示，终端设备10a中的页面20x即是终端设备10a采集运动视频20a的页面，当终端设备10a接收到服务器10d发送的判断结果后，可以在页面20y中显示于运动视频20a，以及显示运动视频20a的判断结果。

其中，获取目标视频(如上述实施例中的运动视频20a)，确定目标视频的行为类型(如上述实施例中的行为类型“慢跑”)，以及提取目标视频的行为特征(如上述实施例中的行为特征20m)的具体过程可以参见下述图3-图8对应的实施例。

请参见图3，是本申请实施例提供的一种视频处理的流程示意图，本申请的的方案可以应用于服务器，以评估用户的行为质量，提高评估的便捷性；本方案也可以应用于客户端(例如，健身客户端，或者康复训练客户端等)，或者客户端通过云计算技术，调用云服务器来执行本申请所涉及的技术方案，云服务器将执行本方案后所输出的行为质量返回至社交客户端。

下述实施例以服务器为执行主体进行描述，视频处理可以包括如下步骤：

步骤S101，获取目标视频，确定目标视频对应的行为类型。

具体的，服务器(如上述图2a-图2b对应实施例中的服务器10d)获取当前待评估的视频(称为目标视频，如上述图2a-图2b对应实施例中的运动视频20a)。

目标视频可以是用户运动时实时拍摄的视频，也可以是用户从相册中选择的已经录制好的运动视频等。

服务器识别目标视频对应的行为类型(如上述图2a-图2b对应实施例中的行为类型“慢跑”)，行为类型可以包括：踢腿，引体向上，平板支撑，跳绳，跑步，跳远等中的至少一个。由于目标视频是由多张视频帧图像所构成视频帧图像序列，因此目标视频是具有时序信息的，为了准确地识别目标视频的行为类型，服务器可以采用三维卷积神经网络模型来识别目标视频的行为类型，也可以采用循环神经网络模型(循环神经网络，RecurrentNeural Network,RNN)来识别目标视频的行为类型。下面以三维卷积神经网络模型为例，来具体说明如何确定目标视频的行为类型：

服务器将目标视频划分为多个视频帧图像集合，每个视频帧图像集合包括多个视频帧图像，且视频帧图像集合之间可以存在交集。调用训练好的三维卷积神经网络模型中的卷积层，对每个视频帧图像集合进行卷积运算，以提取每个视频帧图像集合的卷积特征(称为图像集合卷积特征)。需要说明的是，由于每个视频帧图像集合都包含3维信息(分别为：每张视频帧图像的长，宽，以及视频帧图像集合的序列信息)，因此卷积运算的卷积核的维度也是3，若卷积核的维度也是3，造成模型参数数量过大，一旦模型参数数量过大不论是模型训练或者是模型应用都会耗费大量的时间。为了降低模型参数的数量，可以将3维的卷积核拆分为2个卷积核，以降低计算量，提高模型训练以及提取视频帧图像集合的卷积特征的效率。

举例来说，拆分前的3维卷积核可以表示为：m×n×p，此时的模型参数数量就等于m×n×p，可以将m×n×p拆分为m×n×1和1×1×p，那么此时模型参数数量就等于m×n×1+1×1×p。可以知道，m×n×1+1×1×p是远远小于m×n×p的，因此通过拆分卷积核的方式，可以降低模型参数数量，提高提取图像集合卷积特征的效率。

调用三维卷积神经网络模型中的全连接层，将多个图像集合卷积特征全连接为全量卷积特征，全量卷积特征是一个向量，该向量中包括多个卷积特征值，每一个卷积特征值都表示目标视频与一种行为标签的匹配概率。服务器可以将多个卷积特征值中最大卷积特征值对应的行为标签，作为目标视频的行为类型。

例如，全量卷积特征为：[0.2,0.1,0.7]，3种行为标签分别为：抬腿，仰卧起坐，俯卧撑，因此目标视频与行为标签“抬腿”的匹配概率为0.2，目标视频与行为标签“仰卧起坐”的匹配概率为0.1，目标视频与行为标签“俯卧撑”的匹配概率为0.7，因而目标视频的行为类型为：俯卧撑。

请参见图4，是本申请实施例提供的三维卷积神经网络的示意图，如图4所示，将3×3×3的3维卷积核，拆分为3×3×1和1×1×3两个卷积核，可以知道，3×3×3卷积核的模型参数数量为27，而3×3×1和1×1×3两个卷积核的模型参数数量为：9+3＝12。因而，模型参数数量降低，可以更快地提取出卷积特征。

步骤S102，获取与行为类型匹配的关键点位置集合；关键点位置集合包括多个关键点位置簇，任一关键点位置簇是对目标视频的任一视频帧图像进行关键点检测得到。

具体的，服务器将目标视频划分为多个视频帧图像，调用训练好的关键点检测模型，提取每个视频帧图像的全量关键点位置簇(如上述图2a-图2b对应实施例中的包含10个关键点坐标的关键点坐标簇)，每个全量关键点位置簇都包括多个关键点位置，每个关键点位置可以是二维坐标也可以是三维坐标。全量关键点位置簇可以包括：左肩位置，右肩位置，肩中心位置，脊柱位置，左臀部位置，右臀部位置，臀部中心位置，左肘位置，右肘位置，左手腕位置，右手腕位置，左手位置，右手位置，左膝位置，右膝位置，左脚踝位置，右脚踝位置，左脚位置，右脚位置，头部位置中的至少一个。上述可知，关键点位置簇即是目标视频中的视频对象(即人物)的多个关节点的位置坐标。

其中，关键点检测模型可以是Mask Rcnn(Mask Regions with CNN features，基于掩模区域的卷积神经网络模型)，可以是Fast Rcnn(Fast Regions with CNN features，基于快速区域的卷积神经网络模型)，还可以是Localization-classification-regression-Net(定位分类回归网络模型)。

由于采用关键点检测模型获取到的是全量关键点，因此还需要根据行为类型从全量关键点位置簇中筛选出与行为类型相匹配的关键点位置簇(如上述图2a-图2b对应实施例中的包含5个关键点坐标的目标关键点坐标簇)，至此每个视频帧图像都存在与之对应的关键点位置簇，关键点位置簇中的关键点位置可以是二维坐标也可以是三维坐标。

服务器将每个视频帧图像的关键点位置簇组合为目标视频的关键点位置集合。下面以一张视频帧图像为例，说明定位分类回归网络模型如何确定全量关键点位置簇：

定位分类回归网络模型可以包括卷积特征提取单位模型，区域检测单位模型，位置回归单位模型以及候选关键点单位模型。服务器调用卷积特征提取单位模型，以提取视频帧图像的卷积特征(称为图像卷积特征)，调用区域检测单位模型，对图像卷积特征进行区域检测，确定该视频帧图像的候选区域，该候选区域即是视频对象(即人物)所在的候选区域(例如，目标视频中人体所在的区域)，候选区域可以是矩形区域。获取多个锚定姿态(pose proposals)，每个锚点姿态都包括多个锚点，每个锚点姿态都对应一种姿态表现，例如关于踢腿的锚点姿态，关于仰卧起坐的锚点姿态。将每个锚点姿态添加至候选区域，以确定每个锚点姿态中的多个锚点在视频帧图像中的姿态坐标簇，姿态坐标簇包括多个姿态坐标，每个姿态坐标即是锚点在视频帧图像中的位置坐标。由于候选区域是相对视频帧图像来说的，因此还要将姿态坐标簇映射回图像卷积特征中，也就是对每个姿态坐标簇进行兴趣区域池化(ROI Pooling)，以确定每个姿态坐标簇的池化特征。服务器调用位置回归单位模型，对每个池化特征进行分类全连接，以确定每个姿态坐标簇的质量评分，该质量评分表示姿态坐标簇对应的锚定姿态与获选区域中的视频对象的动作行为的匹配程度，将具有最大质量评分的姿态坐标簇作为目标姿态坐标簇。服务器调用候选关键点单位模型对每个姿态坐标簇的池化特征进行回归全连接，以确定每个姿态坐标簇的回归偏移量。上述可知，位置回归单位模型以及候选关键点单位模型的处理对象都是池化特征，只是一个分支输出质量评分，一个分支输出偏移量。获取目标姿态坐标簇对应的回归偏移量，根据回归偏移量修正目标姿态坐标簇中的姿态坐标，将修正后的目标坐标簇作为原始位置簇，原始位置簇中的原始位置即是修正后的姿态坐标，此时的原始位置簇中每个原始位置都是二维坐标。

服务器可以将原始位置簇直接作为全量关键点位置簇，此时全量关键点位置簇中的全量关键点即是前述中的原始位置，且全量关键点属于二维坐标。

更进一步地，服务器可以将属于二维坐标的原始位置重建为属于三维坐标的全量关键点位置，将重建后的原始位置簇作为全量关键点位置簇，此时全量关键点属于三维坐标。

请参见图5，是本申请实施例提供的一种确定关键点位置的示意图，图5中的图像30a即是一张视频帧图像，基于关键点检测模型可以确定视频帧图像中视频对象的原始位置簇，图像30b是对图像30a进行关键点检测后的结果示意图，原始位置簇包括：头部位置，左肩位置，左手腕位置，右肩位置，右手腕位置，臀部位置，左脚踝位置以及右脚踝位置。原始位置簇中的每个原始位置均为二维坐标，将原始位置簇中的每个原始位置重建为全量关键点位置，将所有的全量关键点组合为全量关键点位置簇，全量关键点位置簇中的全量关键点位置属于三维坐标。

步骤S103，根据行为类型和关键点位置集合确定目标视频的行为特征。

具体的，服务器根据目标视频的行为类型确定特征度量方式，特征度量方式包括距离度量方式，角度度量方式以及面积度量方式中的至少一种。根据特征度量方式，确定每个关键点位置簇对应的特征值，将所有关键点位置簇对应的特征值组合为目标视频的行为特征(如上述图2a-图2b对应实施例中的行为特征20m)。

与距离度量方式对应的特征值是距离特征值，与角度度量方式对应的特征值是角度特征值，与面积度量方式对应的特征值是面积特征值。

更进一步地，由于不同视频的拍摄条件不同，每个视频拍摄时相机与视频对象的距离和相机焦距存在差别，举例来说：当特征度量方式为距离度量方式时，若相机距离视频对象较远，计算的距离特征值就较小；若相机距离视频对象较近，计算的距离特征值就会变大。因此，在获取到每个关键点位置簇的特征值后，还需要对特征值进行归一化处理，使得归一化后的特征值与相机焦距距离无关。归一化处理的具体过程如下：

服务器根据特征度量方式确定每个关键点位置簇对应的原始特征值，获取目标视频中参照对象的对象尺寸，此处的参照对象可以是视频对象的脸部面积在所有视频帧图像中的中位值。将每个原始特征值都除以该对象尺寸，也就是对原始特征值进行归一化处理，将原始特征值除以对象尺寸所得到的商作为关键点位置簇的特征值，将所有关键点位置簇对应的特征值组合为目标视频的行为特征。

对于不同的行为类型，其选取关键点位置集合和特征度量方式可以如表1中的三个示例所示：

表1

行为类型	关键点位置集合	特征度量方式
			踢腿	臀部位置，脚踝位置	角度
引体向上	手腕位置，胸部位置	距离
			平板支撑	肘部位置，肩部位置，臀部位置，膝盖位置，脚踝位置	面积

举例来说，若特征度量方式为距离度量方式，且关键点位置簇包括两个关键点位置，分别为(x1,y1,z1)，以及(x2,y2,z2)，那么该关键点位置簇对应的特征值dis为：

此处未涉及归一化处理。

若特征度量方式为角度度量方式，且关键点位置簇包括两个关键点位置，分别为(x1,y1,z1)，以及(x2,y2,z2)，那么该关键点位置簇对应的特征值angle为：

或者

或者

或者

步骤S104，根据行为类型和行为特征，输出目标视频对应的行为质量。

具体的，服务器可以基于规则的方式，对行为特征进行分析，以确定目标视频对应的行为质量(如上述图2a-图2b对应实施例中的行为标准程度“高”以及跑步路程“2KM”)，服务器也可以基于机器学习的方式对行为特征进行分析，以确定目标视频对应的行为质量。或者，服务器也可以由基于规则的方式所确定的第一行为质量，以及基于机器学习的方式所确定的第二行为质量来共同确定目标视频对应的行为质量。

行为质量可以包括：目标视频中的视频对象的行为次数以及行为标准程度中的至少一种。

行为标准程度可以包括：低标准，中标准以及高标准中的至少一个，或者行为标准程度可以是一个数值，例如，行为标准程度为60％。

例如，若目标视频的行为类型是：抬腿，那么行为质量可以包括：抬腿次数以及抬腿标准程度；若目标视频的行为类型是：仰卧起坐，那么行为质量可以包括：仰卧起坐次数以及仰卧起坐标准程度；若目标视频的行为类型是：平板支撑，那么行为质量可以包括：平板支撑标准程度。

或者，行为质量可以是服务器根据目标视频中的视频对象的行为次数以及行为标准程度所确定质量程度，此时行为质量可以包括：低质量，中质量以及高质量。

更进一步地，行为质量可以是服务器根据目标视频中的视频对象的行为次数、行为标准程度以及行为风险程度所确定质量程度，此时行为质量可以包括：低质量，中质量以及高质量。行为风险程度也是根据行为特征分析出来的。

例如，若目标视频的行为类型是：抬腿，那么服务器可以综合抬腿次数、抬腿标准程度以及抬腿风险程度共同确定目标视频对应的行为质量是低质量，中质量或者高质量。

从上述可知，目标视频对应的行为类型可以是踢腿，俯卧撑等多种类型，因此无论是基于规则的方式或者是基于机器学习的方式，针对不同的行为类型都需要采用不同的标准来进行评估。

下面对如何基于机器学习的方式对行为特征进行分析，以确定目标视频对应的行为质量进行具体的说明：

前述可知，针对不同的行为类型需要采用不同的标准来进行评估，换句话说针对不同的行为类型，服务器需要调用不同的模型来进行评估。服务器可以获取与目标视频的行为类型对应的标准程度评估模型，基于该标准程度评估模型以及行为特征，来确定行为标准程度；服务器可以获取与目标视频的行为类型对应的行为次数评估模型，基于该行为次数评估模型以及行为特征，来确定行为次数。将上述确定的行为标准程度以及行为次数组合为目标视频对应的行为质量。当然，此时的标准程度评估模型以及行为次数评估模型是离线训练好的分类模型。

服务器可以将行为特征输入上述标准程度评估模型，基于标准程度评估模型中的卷积层、池化层以及全连接层，确定该行为特征与标准程度评估模型中的多种标准程度之间的匹配概率，将多个匹配概率中具有最大匹配概率的标准程度作为目标视频对应的行为标准程度。

举例来说，行为特征与低标准之间的匹配概率为0.2，行为特征与中标准之间的匹配概率为0.2，行为特征与高标准之间的匹配概率为0.6，因此目标视频对应的行为标准程度可以是：高标准。

服务器可以将行为特征输入上述行为次数评估模型，基于行为次数评估模型中的卷积层、池化层以及全连接层，确定该行为特征与行为次数评估模型中的多种次数之间的匹配概率，将多个匹配概率中具有最大匹配概率的次数作为目标视频对应的行为次数。

或者，服务可以将前述中的行为标准程度转换为标准程度分数，获取与行为类型对应的标准次数，根据标准次数对行为次数进行归一化，得到次数分数。将标准程度分数以及次数分数进行加权平均，得到行为质量分数，根据该行为质量分数确定行为质量。例如，行为质量分数大于或等于80，行为质量为高质量，行为质量分数小于80，行为质量为低质量。

更进一步地，服务器还可以获取与目标视频的行为类型对应的风险程度评估模型，基于该风险程度评估模型以及行为特征，来确定行为风险程度。行为风险程度可以包括：低风险，中风险以及高风险。服务可以将前述中的行为标准程度转换为标准程度分数，将行为风险程度转换为风险程度分数，获取与行为类型对应的标准次数，根据标准次数对行为次数进行归一化，得到次数分数。将标准程度分数、风险程度分数以及次数分数进行加权平均，得到行为质量分数，根据该行为质量分数确定行为质量。

请参见图6，是本申请实施例提供的一种视频处理方法的流程示意图，视频处理方法包括如下步骤：

步骤S201，获取运动视频，运动视频可以对应本申请中的目标视频。

步骤S202，确定运动视频中视频对象的行为动作，此处的行为动作可以对应本申请中的行为类型。

步骤S203，对运动视频中的每一张视频帧图像进行关键点检测，以确定关键点位置集合。

具体的，将运动视频划分为多个视频帧图像，基于关键点检测模型对每一张视频帧图像进行关键点检测，以获取每张视频帧图像的全量关键点位置簇，关键点检测模型的具体过程可以参见上述图3对应实施例中的步骤S102。根据运动视频的行为动作，从全量关键点位置簇中选择关键点位置簇，将所有视频帧图像的关键点位置簇组合为关键点位置集合。

步骤S204，根据关键点位置集合以及行为动作，提取运动视频的运动特征，此处的运动特征可以对应本申请中的行为特征。

步骤S205，根据运动特征，确定运动视频中的运动质量。

具体的，可以基于规则的方式，或者基于机器学习的方式，对运动特征进行分析，以确定运动视频中的视频对象的运动质量，运动质量可以包括运动次数以及标准程度中的至少一个，或者运动质量可以是根据运动次数、标准程度以及风险程度共同确定的质量程度。其中，运动质量可以对应本申请中的行为质量。

上述可知，通过录制用户行为视频，以及分析该视频就可以确定用户行为的行为质量，相比购买定制化的可穿戴设备由该可穿戴设备直接采集用户运动数据进而判断行为质量，本申请的经济成本更低，且用户运动时也不需要佩戴可穿戴设备，可以降低用户操作负担，提高行为质量评估的便捷性和普适性；再有，支持多种行为类型的行为质量评估，可拓展性强，适用范围广。

请参见图7，是本申请实施例提供的一种视频处理方法的流程示意图，本实施例主要描述如何基于规则的方式确定目标视频对应的行为质量，视频处理方法包括如下步骤：

步骤S301，获取目标视频，确定目标视频对应的行为类型，获取与行为类型匹配的关键点位置集合；关键点位置集合包括多个关键点位置簇，任一关键点位置簇是对目标视频的任一视频帧图像进行关键点检测得到。

步骤S302，根据行为类型和关键点位置集合确定目标视频的行为特征。

其中，步骤S301-步骤S302的具体过程可以参见上述图3对应实施例中的步骤S101-步骤S103，此处就不再赘述。

步骤S303，将行为特征转换为连续行为信号。

具体的，从前述可知，目标视频的行为特征是一个向量，从信号的角度来说，行为特征就是关于时间t的离散信号。一般来说，用户行为都是关于时间t的连续动作，因此为了更好的拟合用户行为，提高后续确定行为质量的准确性，服务器可以将离散的行为特征进程插值处理，以将行为特征转换为连续原始信号(如上述图2a-图2b对应实施例中的信号20n)，连续原始信号的自变量是时间t，因变量是每个关键点位置簇对应的特征值(此处的特征值可以是角度特征值，距离特征值或者面积特征值等)。

由于在训练关键点检测模型时，训练数据存在一定的误差，因而基于关键点检测模型得到的关键点位置集合天然存在一定的系统误差，这造成了插值处理后得到的连续原始信号极不平滑。所以服务器还需要对连续原始信号进行降噪处理，将降噪处理后的连续原始信号作为连续行为信号。

服务器可以采用1-D的高斯滤波器对连续原始信号进行降噪处理，以得到连续行为信号。1-D的高斯滤波器可表示为下述公式(1)：

其中，r是模糊半径，σ是正态分布的标准偏差。这里我们将该高斯滤波器作为滑动窗口，和连续原始信号做卷积运算，以进行高斯平滑。

步骤S304，获取连续行为信号的信号特征。

具体的，服务器获取了连续行为信号后，对该连续行为信号进行时域分析得到该连续行为信号的时域特征(如上述图2a-图2b对应实施例中的时域特征20p)；服务器对该连续行为信号进行频域分析得到该连续行为信号的频域特征(如上述图2a-图2b对应实施例中的频域特征20q)。

服务器确定时域特征和确定频域特征的前后顺序没有限定。

时域分析与连续行为信号的振幅有关，振幅直接反映了某一个动作的实施情况。通过对振幅的分析，可发现特定动作的运动不足或运动过量情况。

时域特征可以包括：整段连续行为信号的振幅最大值，整段连续行为信号的振幅最小值，振幅中位数，振幅平均值，振幅标准差，以及振幅的时序变化序列中的至少一个。振幅的时序变化序列是指：将整段连续行为信号划分为多个单位连续行为信号，计算每个单位连续行为信号的振幅最大值和振幅最小值之间的振幅差值，将多个单位连续行为信号的振幅差值组合为振幅的时序变化序列。

频域分析是指分析连续行为信号的频率，为了提高行为质量分析的鲁棒性，服务器可以将连续行为信号划分为多个单位连续行为信号，对每个单位连续行为信号进行频谱分析，以将时域上的单位连续行为信号转换为频域上的单位频域信号。其中，服务器可以采用傅里叶变换(或者快速傅里叶变换等)对每个单位连续行为信号进行频谱分析，得到单位频域信号。每个单位频域信号的因自变量为频率，因变量为频率幅值。

在对单位连续行为信号使用傅立叶变换的方法时，单位频域信号可表示为下述公式(2)：

该单位频域信号的最大频率幅值可以表示为下述公式(3)：

argmax|S_j|,j∈{1,2,...,tf-1} (3)

对每个单位连续行为信号分别进行频谱分析后，服务器就可以确定每个单位连续行为信号对应的单位频域信号，服务器获取每个单位频域信号的最大频率幅值，将获取的多个最大频率幅值组合为连续行为信号的频域特征。

服务器可以将上述连续行为信号的时域特征以及连续行为信号的频域特征组合为信号特征。

步骤S305，根据信号特征和行为类型输出目标视频对应的行为质量。

具体的，从前述可知信号特征包括时域特征和频域特征，且时域特征和频域特征都是向量。服务器可以将频域特征的特征值相加得到特征值之和，根据该特征值之和确定行为次数。其中，特征值之和与行为次数满足正相关关系，换句话说，频域特征的特征值之和越大，那么行为次数就越多；反之，频域特征的特征值之和越小，那么行为次数就越少。

为了确定目标视频对应的行为标准程度，不同的行为类型，需要采用不同的标准。服务器从时域特征中筛选与行为类型匹配的目标时域特征。例如，若时域特征包括：整段连续行为信号的振幅最小值，振幅中位数，振幅平均值，振幅标准差，以及振幅的时序变化序列，且行为类型是踢腿，因此目标时域特征可以包括：振幅平均值，以及振幅的时序变化序列。

服务器根据行为类型确定动作标准条件，按照该动作标准条件以及目标时域特征，确定行为标准程度。

服务器将上述行为次数以及行为标准程度组合为目标视频对应的行为质量，输出该行为质量。

举例来说，目标时域特征包括：振幅平均值，且振幅平均值为40，行为类型是踢腿。若与行为类型“踢腿”对应的动作标准条件为：振幅平均值处于0-25区间，行为标准程度为低标准；振幅平均值处于26-50区间，行为标准程度为中标准；振幅平均值处于51-75区间，行为标准程度为高标准。此动作标准条件表明踢腿的高度要大于一定的高度阈值时动作才标准。

因此，当振幅平均值为40时，对应的行为标准程度为：中标准。

更进一步地，服务器根据行为类型确定动作标准条件，按照该动作标准条件、目标时域特征以及频域特征，共同确定行为标准程度。

举例来说，目标时域特征包括：振幅平均值，且振幅平均值为40，频域特征为[6,4,8,10]，行为类型是踢腿。若与行为类型“踢腿”对应的动作标准条件为：振幅平均值处于0-25区间，且频域特征的特征值之和处于0-15区间内，行为标准程度为低标准；振幅平均值处于26-50区间，且频域特征的特征值之和处于16-30区间内，行为标准程度为中标准；振幅平均值处于51-75区间，且频域特征的特征值之和处于31-45区间内，行为标准程度为高标准。此动作标准条件表明踢腿的高度要大于一定的高度阈值，且踢腿频率不宜过快时动作才标准。

因此，当振幅平均值为40，频域特征为[6,4,8,10]时，对应的行为标准程度为：中标准。

上述是直接将行为次数以及行为标准程度组合为行为质量。下面描述如何根据行为次数，行为标准程度以及行为风险程度共同确定行为质量。由于在前述中已经详细说明了如何确定行为次数和行为标准程度，下面主要说明如何确定行为风险程度：

为了确定目标视频对应的行为风险程度，不同的行为类型，需要采用不同的标准。服务器从时域特征中筛选与行为类型匹配的目标时域特征。服务器根据行为类型确定风险标准条件，按照该风险标准条件以及目标时域特征，确定行为风险程度。

服务可以将前述中的行为标准程度转换为标准程度分数，将行为风险程度转换为风险程度分数，获取与行为类型对应的标准次数，根据标准次数对行为次数进行归一化，得到次数分数。将标准程度分数、风险程度分数以及次数分数进行加权平均，得到行为质量分数。根据该行为质量分数确定行为质量，输出该行为质量。

举例来说，目标时域特征包括：振幅的时序变化序列，且振幅的时序变化序列为[30,50,40,60,50,40]，行为类型是踢腿。若与行为类型“踢腿”对应的风险标准条件为：振幅的时序变化序列中大于50的数量处于0-3区间，行为风险程度为低风险；振幅的时序变化序列中大于50的数量处于4-6区间，行为风险程度为中风险；振幅的时序变化序列中大于50的数量处于7-9区间，行为风险程度为高风险。此风险标准条件表明动作幅度不夸张时风险才低下。

因此，当振幅的时序变化序列为[30,50,40,60,50,40]时，对应的行为风险程度为：低风险。

更进一步地，服务器根据行为类型确定风险标准条件，按照该风险标准条件、目标时域特征以及频域特征，共同确定行为风险程度。

举例来说，目标时域特征包括：振幅的时序变化序列，且振幅的时序变化序列为[30,50,40,60]，频域特征为[2,4,1.5,4]，行为类型是踢腿。若与行为类型“踢腿”对应的风险标准条件为：振幅的时序变化序列中大于50的数量处于0-3区间，且频域特征的特征值之和处于0-15区间内，行为风险程度为低风险；振幅的时序变化序列中大于50的数量处于4-6区间，且频域特征的特征值之和处于16-30区间内，行为风险程度为中风险；振幅的时序变化序列中大于50的数量处于7-9区间，且频域特征的特征值之和处于31-45区间内，行为风险程度为高风险。此风险标准条件表明踢腿频率不宜过快时风险才低下。

因此，当振幅的时序变化序列为[30,50,40,60,50,40]，频域特征为[2,4,1.5,4]时，对应的行为风险标度为：低风险。

步骤S306，当行为标准程度不大于行为标准程度阈值时，输出与行为类型对应的行为建议。

具体的，服务器获取行为标准程度阈值，当服务器检测到行为标准程度小于或等于行为标准程度阈值时，获取行为类型对应的行为建议，输出该行为建议，用于辅助用户纠正行为动作，以使用户后续行为的行为标准程度可以大于行为标准程度阈值。

其中，行为建议的形式可以是文本，也可以是视频，例如，当行为类型是踢腿时，行为建议可以是踢腿说明文本，也可以是标准化的踢腿视频。

例如，行为标准程度阈值为高标准，且目标视频对应的行为标准程度为高标准，说明此时行为标准程度等于行为标准程度阈值，因此服务器可以输出与行为类型匹配的行为建议。

或者，当服务器检测到行为风险程度大于或等于行为风险程度阈值时，获取行为类型对应的行为建议，输出该行为建议。举例来说，行为风险程度阈值为中风险，且目标视频对应的行为风险程度为高风险，说明此时行为风险程度大于行为风险程度阈值，因此服务器可以输出与行为类型匹配的行为建议。

再进一步地，当行为质量是表示质量程度时，服务器获取行为质量阈值，当服务器检测到行为质量小于或等于行为质量阈值时，获取行为类型对应的行为建议，输出该行为建议。例如，行为建议可以是：踢腿说明文本，此时的踢腿说明文本中可以包括踢腿动作说明，以及踢腿数量建议等。

请参见图8，是申请实施例提供的一种确定连续行为信号的示意图，确定连续行为信号包括如下步骤：

步骤S401，基于关键点检测模型确定目标视频的每一帧视频帧图像中的视频对象的关节坐标，此处的关节坐标可以对应本申请中的全量关键点位置簇。

步骤S402，从每一帧视频帧图像对应的关节坐标中选择与行为类型匹配的关键点坐标。

步骤S403，根据行为类型确定特征度量方式，根据该特征度量方式以及每一帧视频帧图像的关键点坐标，提取每一帧视频帧图像的运动特征值，此处的运动特征值可以对应本申请中的原始特征值。

步骤S404，对每一帧视频帧图像的运动特征值进行归一化处理，得到归一化后的运动特征值，将每一帧视频帧图像归一化后的运动特征值组合为运动特征，此处的运动特征可以对应本申请中的行为特征。

步骤S405，对运动特征进行插值处理以及降噪处理，得到连续的运动曲线，且该运动曲线可以反映运动特征。此处的运动曲线可以对应本申请中的连续行为信号。

步骤S406，输出运动曲线。

上述可知，本申请基于连续行为信号拟合用户行为过程，进而基于连续行为信号所提取的信号特征更具有特征区分性，可以提高后续基于该信号特征进行的行为质量评估的准确率；对属于各种行为类型的运动行为都可以进行质量评估，拓展性强，对后续提供定制化行为类型的行为质量评估提供基础，且当行为标准程度不达标或者行为风险程度过高时，输出行为建议，以提升行为效果以及安全性，丰富行为质量评估系统的功能。

进一步的，请参见图9，是本申请实施例提供的一种视频处理装置的结构示意图。如图9所示，视频处理装置1可以应用于上述图3-图8对应实施例中的服务器。视频处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该视频处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。

视频处理装置1可以包括：视频获取模块11、类型确定模块12、位置获取模块13、特征确定模块14以及输出模块15。

视频获取模块11，用于获取目标视频；

类型确定模块12，用于确定目标视频对应的行为类型；

位置获取模块13，用于获取与行为类型匹配的关键点位置集合；关键点位置集合包括多个关键点位置簇，任一关键点位置簇是对目标视频的任一视频帧图像进行关键点检测得到；

特征确定模块14，用于根据行为类型和关键点位置集合确定目标视频的行为特征；

输出模块15，用于根据行为类型和行为特征，输出目标视频对应的行为质量。

视频获取模块11，具体用于将目标视频划分为多个视频帧图像集合，调用三维卷积神经网络模型，提取每一个视频帧图像集合的图像集合卷积特征，以及将多个图像集合卷积特征全连接为全量卷积特征；全量卷积特征包括多个卷积特征值，以及将在多个卷积特征值中最大卷积特征值对应的行为标签，作为目标视频的行为类型。

其中，视频获取模块11、类型确定模块12、位置获取模块13、特征确定模块14以及输出模块15的具体功能实现方式可以参见上述图5对应实施例中的步骤S101-步骤S105，这里不再进行赘述。

请参见图9，输出模块15可以包括：转换单元151、特征获取单元152以及输出单元153。

转换单元151，用于将行为特征转换为连续行为信号；

特征获取单元152，用于获取连续行为信号的信号特征；

输出单元153，用于根据信号特征和行为类型输出目标视频对应的行为质量。

转换单元151，具体用于对行为特征进行插值处理，得到连续原始信号，对连续原始信号进行降噪处理，得到连续行为信号。

输出单元153，具体用于根据频域特征确定行为次数，根据时域特征和行为类型确定行为标准程度，根据行为次数和行为标准程度确定行为质量，输出行为质量。

其中，转换单元151、特征获取单元152以及输出单元153的具体过程可以参见上述图7对应实施例中的步骤S303-步骤S305，此处不再赘述。

请参见图9，特征获取单元152可以包括：时域分析子单元1521以及频域分析子单元1522。

时域分析子单元1521，用于对连续行为信号进行时域分析，得到连续行为信号的时域特征；

频域分析子单元1522，用于对连续行为信号进行频域分析，得到连续行为信号的频域特征；

时域分析子单元1521，还用于将时域特征和频域特征组合为信号特征。

频域分析子单元1522，具体用于将连续行为信号划分为多个单位连续行为信号，将每个单位连续行为信号进行频谱分析，得到多个单位频域信号，获取每个单位频域信号的最大频率幅值，将获取的多个最大频率幅值组合为频域特征。

其中，时域分析子单元1521以及频域分析子单元1522的具体过程可以参见上述图7对应实施例中的步骤S304，此处不再赘述。

请参见图9，输出模块15可以包括：第一调用单元154。

第一调用单元154，用于调用与行为类型对应的标准程度评估模型，确定行为特征的行为标准程度，调用与行为类型对应的行为次数评估模型，确定行为特征的行为次数，根据行为标准程度和行为次数确定目标视频对应的行为质量，输出行为质量。

其中，第一调用单元154的具体过程可以参见上述图3对应实施例中的步骤S105，此处不再赘述。

请参见图9，视频处理装置1可以包括：视频获取模块11、类型确定模块12、位置获取模块13、特征确定模块14以及输出模块15；还可以包括建议获取模块16。

建议获取模块16，用于当行为标准程度不大于行为标准程度阈值时，输出与行为类型对应的行为建议。

其中，建议获取模块16的具体过程可以参见上述图7对应实施例中的步骤S306，此处不再赘述。

请参见图9，特征确定模块14可以包括：度量方式确定单元141、特征值确定单元142以及组合单元143。

度量方式确定单元141，用于根据行为类型确定特征度量方式；特征度量方式包括距离度量方式，角度度量方式以及面积度量方式中的至少一种；

特征值确定单元142，用于根据特征度量方式确定每个关键点位置簇对应的特征值；

组合单元143，用于将每个关键点位置簇对应的特征值组合为目标视频的行为特征。

特征值确定单元142，具体用于根据特征度量方式确定每个关键点位置簇对应的原始特征值，获取目标视频中的参照对象的对象尺寸，根据对象尺寸对每个原始特征值进行归一化处理，得到每个关键点位置簇对应的特征值。

其中，度量方式确定单元141、特征值确定单元142以及组合单元143的具体过程可以参见上述图3对应实施例中的步骤S104。

再参见图9，位置获取模块13可以包括：划分单元131以及第二调用单元132，此处不再赘述。

划分单元131，用于将目标视频划分为多个视频帧图像；

第二调用单元132，用于调用关键点检测模型，确定每个视频帧图像的全量关键点位置簇；

划分单元131，还用于从全量关键点位置簇选择与行为类型匹配的关键点位置簇，将每个视频帧图像的关键点位置簇组合为关键点位置集合。

关键点检测模型包括卷积特征提取单位模型，区域检测单位模型，位置回归单位模型和候选关键点单位模型；

第二调用单元132，具体用于调用卷积特征提取单位模型，提取视频帧图像的图像卷积特征，调用区域检测单位模型，对图像卷积特征进行区域检测，确定视频帧图像的候选区域，获取多个锚定姿态，将每个锚定姿态分别添加至候选区域，确定每个锚定姿态在视频帧图像中的姿态坐标簇，根据图像卷积特征，对每个姿态坐标簇进行兴趣区域池化，确定每个姿态坐标簇的池化特征，调用位置回归单位模型，对每个池化特征进行分类全连接，确定每个姿态坐标簇的质量评分，在多个质量评分中将具有最大质量评分的姿态坐标簇作为目标姿态坐标簇，调用候选关键点单位模型，对每个池化特征进行回归全连接，确定每个姿态坐标簇的回归偏移量，根据目标姿态坐标簇的回归偏移量，修正目标姿态坐标簇，得到原始位置簇；原始位置簇中的每个原始位置属于二维坐标；以及将原始位置簇重建为全量关键点位置簇；全量关键点位置簇中的每个全量关键点位置属于三维坐标。

其中，划分单元131以及第二调用单元132的具体过程可以参见上述图3对应实施例中的步骤S103，此处不再赘述。

进一步地，请参见图10，是本发明实施例提供的一种计算机设备的结构示意图。上述图5-图10对应实施例中的服务器可以为计算机设备1000，如图10所示，计算机设备1000可以包括：用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序，处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如，动态随机存取存储器DRAM)，还可以包括非易失性存储器(例如，一次性可编程只读存储器OTPROM)。在一些实例中，存储器1008可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括：键盘1018和显示器1020。

在图10所示的计算机设备1000中，处理器1004可以用于调用存储器1008中存储计算机程序，以实现：

获取目标视频，确定目标视频对应的行为类型；

根据行为类型和关键点位置集合确定目标视频的行为特征；

根据行为类型和行为特征，输出目标视频对应的行为质量。

应当理解，本发明实施例中所描述的计算机设备1000可执行前文图3到图8所对应实施例中对视频处理方法的描述，也可执行前文图9所对应实施例中对视频处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的视频处理装置1所执行的计算机程序，且该计算机程序包括程序指令，当处理器执行上述程序指令时，能够执行前文图3到图8所对应实施例中对视频处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种视频处理方法，其特征在于，包括：

获取目标视频，将所述目标视频划分为多个视频帧图像集合，每个视频帧图像集合包括多个视频帧图像，且视频帧图像集合之间存在交集；

提取每个视频帧图像集合的图像集合卷积特征，并将提取到的多个图像集合卷积特征全连接为全量卷积特征，所述全量卷积特征中包括多个卷积特征值，每一个所述卷积特征值都表示所述目标视频与一种行为标签的匹配概率；

将多个卷积特征值中最大卷积特征值对应的行为标签，确定为所述目标视频对应的行为类型；

获取与所述行为类型匹配的关键点位置集合；所述关键点位置集合包括多个关键点位置簇，任一关键点位置簇是对所述目标视频的任一视频帧图像进行关键点检测得到；

根据所述行为类型确定特征度量方式；所述特征度量方式包括距离度量方式，角度度量方式以及面积度量方式中的至少一种；

根据所述特征度量方式确定每个关键点位置簇对应的特征值；

将每个关键点位置簇对应的特征值组合为所述目标视频的所述行为特征；

根据所述行为类型和所述行为特征，输出所述目标视频对应的行为质量。

2.根据权利要求1所述的方法，其特征在于，所述根据所述行为类型和所述行为特征，输出所述目标视频对应的行为质量，包括：

将所述行为特征转换为连续行为信号，获取所述连续行为信号的信号特征；

根据所述信号特征和所述行为类型输出所述目标视频对应的所述行为质量。

3.根据权利要求2所述的方法，其特征在于，所述将所述行为特征转换为连续行为信号，包括：

对所述行为特征进行插值处理，得到连续原始信号；

对所述连续原始信号进行降噪处理，得到所述连续行为信号。

4.根据权利要求2所述的方法，其特征在于，所述获取所述连续行为信号的信号特征，包括：

对所述连续行为信号进行时域分析，得到所述连续行为信号的时域特征；

对所述连续行为信号进行频域分析，得到所述连续行为信号的频域特征；

将所述时域特征和所述频域特征组合为所述信号特征。

5.根据权利要求4所述的方法，其特征在于，所述对所述连续行为信号进行频域分析，得到所述连续行为信号的频域特征，包括：

将所述连续行为信号划分为多个单位连续行为信号；

将每个单位连续行为信号进行频谱分析，得到多个单位频域信号；

获取每个单位频域信号的最大频率幅值，将获取的多个最大频率幅值组合为所述频域特征。

6.根据权利要求4所述的方法，其特征在于，所述根据所述信号特征和所述行为类型输出所述目标视频对应的所述行为质量，包括：

根据所述频域特征确定行为次数；

根据所述时域特征和所述行为类型确定行为标准程度；

根据所述行为次数和所述行为标准程度确定所述行为质量，输出所述行为质量。

7.根据权利要求1所述的方法，其特征在于，所述根据所述行为类型和所述行为特征，输出所述目标视频对应的行为质量，包括：

调用与所述行为类型对应的标准程度评估模型，确定所述行为特征的行为标准程度；

调用与所述行为类型对应的行为次数评估模型，确定所述行为特征的行为次数；

根据所述行为标准程度和所述行为次数确定所述目标视频对应的所述行为质量，输出所述行为质量。

8.根据权利要求1-7任一项所述的方法，其特征在于，还包括：

当所述行为标准程度不大于行为标准程度阈值时，输出与所述行为类型对应的行为建议。

9.根据权利要求1所述的方法，其特征在于，所述根据所述特征度量方式确定每个关键点位置簇对应的特征值，包括：

根据所述特征度量方式确定每个关键点位置簇对应的原始特征值；

获取所述目标视频中的参照对象的对象尺寸，根据所述对象尺寸对每个原始特征值进行归一化处理，得到每个关键点位置簇对应的特征值。

10.根据权利要求1所述的方法，其特征在于，所述获取与所述行为类型匹配的关键点位置集合，包括：

将所述目标视频划分为多个视频帧图像；

调用关键点检测模型，确定每个视频帧图像的全量关键点位置簇；

从全量关键点位置簇选择与所述行为类型匹配的关键点位置簇；

将每个视频帧图像的关键点位置簇组合为所述关键点位置集合。

11.根据权利要求10所述的方法，其特征在于，所述关键点检测模型包括卷积特征提取单位模型，区域检测单位模型，位置回归单位模型和候选关键点单位模型；

所述调用关键点检测模型，确定每个视频帧图像的全量关键点位置簇，包括：

调用所述卷积特征提取单位模型，提取视频帧图像的图像卷积特征；

调用所述区域检测单位模型，对所述图像卷积特征进行区域检测，确定所述视频帧图像的候选区域；

获取多个锚定姿态，将每个锚定姿态分别添加至所述候选区域，确定每个锚定姿态在所述视频帧图像中的姿态坐标簇，根据所述图像卷积特征，对每个姿态坐标簇进行兴趣区域池化，确定每个姿态坐标簇的池化特征；

调用所述位置回归单位模型，对每个池化特征进行分类全连接，确定每个姿态坐标簇的质量评分，在多个质量评分中将具有最大质量评分的姿态坐标簇作为目标姿态坐标簇；

调用所述候选关键点单位模型，对每个池化特征进行回归全连接，确定每个姿态坐标簇的回归偏移量；

根据所述目标姿态坐标簇的回归偏移量，修正所述目标姿态坐标簇，得到原始位置簇；所述原始位置簇中的每个原始位置属于二维坐标；

将所述原始位置簇重建为全量关键点位置簇；所述全量关键点位置簇中的每个全量关键点位置属于三维坐标。

12.一种视频处理装置，其特征在于，包括：

视频获取模块，用于获取目标视频，将所述目标视频划分为多个视频帧图像集合，每个视频帧图像集合包括多个视频帧图像，且视频帧图像集合之间存在交集；提取每个视频帧图像集合的图像集合卷积特征，并将提取到的多个图像集合卷积特征全连接为全量卷积特征，所述全量卷积特征中包括多个卷积特征值，每一个所述卷积特征值都表示所述目标视频与一种行为标签的匹配概率；

类型确定模块，用于将多个卷积特征值中最大卷积特征值对应的行为标签，确定为所述目标视频对应的行为类型；

位置获取模块，用于获取与所述行为类型匹配的关键点位置集合；所述关键点位置集合包括多个关键点位置簇，任一关键点位置簇是对所述目标视频的任一视频帧图像进行关键点检测得到；

特征确定模块，用于根据所述行为类型和所述关键点位置集合确定所述目标视频的行为特征；

输出模块，用于根据所述行为类型和所述行为特征，输出所述目标视频对应的行为质量；

所述特征确定模块包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-11中任一项所述方法的步骤。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-11任一项所述的方法。