CN113392741A

CN113392741A - 视频片段提取方法、装置、电子设备及存储介质

Info

Publication number: CN113392741A
Application number: CN202110625335.2A
Authority: CN
Inventors: 赵勇; 夏鹏飞
Original assignee: Beijing Gelingshentong Information Technology Co ltd
Current assignee: Beijing Gelingshentong Information Technology Co ltd
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2021-09-14

Abstract

本申请实施例中提供了一种视频片段提取方法、装置、电子设备及存储介质，该方法包括获取视频数据；识别所述视频数据中每帧图像的人体骨骼关键点；基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量；通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。通过人体骨骼关键点构建每帧图像对应的运动姿态向量，再根据对所述运动姿态向量聚类后的聚类结果提取视频片段，无需使用多个不同的模型，即可以简单方便的从视频数据中提取出各个动作对应的视频片段。

Description

视频片段提取方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，具体地，涉及一种视频片段提取方法、装置、电子设备及存储介质。

背景技术

有监督训练又称监督学习，是指机器可以根据已有的数据集，知道输入和输出结果之间的关系。也就是说，在监督学习中的训练数据既有特征又有标签，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。

在通过运动视频对动作进行分析时，通常是采用有监督训练的方式训练模型，使得模型可以识别到运动视频中各种动作，基于识别结果切割出各个动作，以进行后续分析。

由于动作的类型数量很大，需要针对不同的动作训练不同的模型才能识别到的视频数据中的不同动作，而训练模型需要海量的数据，加大了训练模型的难度。若要从视频中提取出各个动作对应的视频片段，需要使用不同的模型从视频中识别到不同的动作，才能进一步提取出各个动作对应的视频片段，操作繁琐复杂。

发明内容

本申请实施例中提供了一种视频片段提取方法、装置、电子设备及存储介质，可以有效解决难以从视频中提取出各个动作对应的视频片段的操作繁琐复杂的问题。

根据本申请实施例的第一个方面，提供了一种视频片段提取方法，该方法包括：获取视频数据；识别所述视频数据中每帧图像的人体骨骼关键点；基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量；通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。

根据本申请实施例的第二个方面，提供了一种视频片段提取装置，该装置包括：获取模块，用于获取视频数据；关键点识别模块，用于识别所述视频数据中每帧图像的人体骨骼关键点；向量构建模块，用于基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量；提取模块，用于通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。

根据本申请实施例的第三个方面，提供了一种电子设备，该电子设备包括一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如上述应用于电子设备的方法。

根据本申请实施例的第四方面，本申请实施列提供一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码运行时执行上述的方法。

采用本申请实施例中提供的视频片段提取方法，获取视频数据；识别所述视频数据中每帧图像的人体骨骼关键点；基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量；通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。通过人体骨骼关键点构建每帧图像对应的运动姿态向量，再根据对所述运动姿态向量聚类后的聚类结果提取视频片段，无需使用多个不同的模型，即可以简单方便的从视频数据中提取出各个动作对应的视频片段。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一个实施例提供的视频片段提取方法的流程图；

图2为本申请另一个实施例提供的视频片段提取方法的流程图；

图3为本申请再一个实施例提供的视频片段提取方法的流程图；

图4为本申请一个实施例提供的视频片段提取装置的功能模块图；

图5为本申请实施例提出的用于执行根据本申请实施例的视频片段提取方法的电子设备的结构框图。

具体实施方式

随着人们生活水平的提高，越来越多的人们开始关注健康问题，通常，人们可以通过运动的方式来达到强身健体的目的。在运动中的动作是否标准直接影响了运动的效果，然而人们通常难以评判动作是否标准。由此，出现了一些基于运动视频对动作进行分析的技术，以帮助人们确认自己的动作是否标准。

发明人在研究中发现，基于运动视频对动作进行分析时，首先需要从视频中分割出每个动作，具体的，可以通过机器学习的方式从视频中切割出各个动作。有监督训练作为机器学习的一种方式，是指机器可以根据已有的数据集，知道输入和输出结果之间的关系。也就是说，在监督学习中的训练数据既有特征又有标签，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。

在通过运动视频对动作进行分析时，通常是采用有监督训练的方式训练模型，使得模型可以识别到运动视频中各种动作，基于识别结果切割出各个动作，以进行后续分析。由于动作的类型数量很大，需要针对不同的动作训练不同的模型才能识别到的视频数据中的不同动作，而训练模型需要海量的数据，加大了训练模型的难度，从而难以实现从视频中识别到不同的动作，进一步导致难以从视频中切割出各个动作。

针对上述问题，本申请实施例中提供了一种视频片段提取方法，获取视频数据；识别所述视频数据中每帧图像的人体骨骼关键点；基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量；通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。通过人体骨骼关键点构建每帧图像对应的运动姿态向量，再根据对所述运动姿态向量聚类后的聚类结果提取视频片段，无需使用多个不同的模型，即可以简单方便的从视频数据中提取出各个动作对应的视频片段。

本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript，以及Python等。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

请参阅图1，本申请实施例提供了一种视频片段提取方法，可应用于电子设备，所述电子设备可以是智能手机，电脑或服务器等，具体的该方法可以包括以下步骤。

步骤110，获取视频数据。

视频数据为通过图像采集装置得到的数据。在一些实施方式中，所述视频数据可以是由用户上传至指定的应用程序，电子设备可以通过所述应用程序获取到视频数据。在一些实施方式中，可以是图像采集装置采集到所述视频数据后，直接发送给所述电子设备进行后续处理。

步骤120，识别所述视频数据中每帧图像的人体骨骼关键点。

视频数据由多帧图像构成，对于每帧图像，可以通过人体骨骼关键点检测算法，检测每帧图像；根据检测结果获取到每帧图像中的人体骨骼关键点，以及与所述人体骨骼关键点对应的三维坐标。

具体的，所述人体骨骼关键点检测算法可以分为自上而下，以及自下而上。其中，自上而上的人体骨骼关键点定位算法主要包含两个部分，人体检测和单人人体关键点检测，即首先通过目标检测算法将每一个人检测出来，然后在检测框的基础上针对单个人做人体骨骼关键点检测，代表性算法有G-RMI，CFN，RMPE，Mask R-CNN以及CPN。自下而上的方法也包含两个部分，关键点检测和关键点聚类，即首先需要将图片中所有的关键点都检测出来，然后通过相关策略将所有的关键点聚类成不同的个体，代表性算法有PAF，Associative Embedding，Part Segmentation以及Mid-Range offsets。

在一些实施方式中，若所述视频数据由深度图像采集装置采集得到，那么视频数据中的每帧图像都具有深度信息，从而，在检测到图像中的人体骨骼关键点时，可以直接获取到人体骨骼关键点的三维坐标。

在一些实施方式中，若所述视频数据通过普通的图像采集装置采集得到，那么视频数据中的每帧图像不具有深度信息，从而，在检测到图像中的人体骨骼关键点时，可以得到人体骨骼关键点的二维坐标。在得到所述二维坐标之后，通过采集视频数据的图像采集装置的内参和外参，将所述二维坐标转换为三维坐标。

步骤130，基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量。

人体的运动姿态可以通过不同的人体骨骼关键点之间形成的角度来描述。因此，为了描述每帧图像中的运动姿态，可以根据检测到人体骨骼关键点计算角度。

可以将所述人体骨骼关键点按照第一预设规则组合成关键点序列，所述关键点序列包括三个人体骨骼关键点；根据所述人体骨骼关键点的三维坐标，按照第二预设规则计算所述关键点序列对应的角度，将所述角度所构成的向量作为所述运动姿态向量。

对于每一帧图像，可以检测到多个人体骨骼关键点，将检测到的人体骨骼关键点按照预设规则进行组合，得到关键点序列，其中，每个关键点序列中包括三个人体骨骼关键点。计算每个关键点序列所形成的角度，将得到的角度组合成向量，为所述运动姿态向量，以描述每帧图像中的人体动作特征。由于每个人体骨骼关键点的三维坐标是已知的，因此，通过人体骨骼关键点的三维坐标，可以计算得到关键点序列所形成的角度。

在一些实施方式中，可以使用角度的余弦值来描述角度，那么对应的，所述运动姿态向量则由余弦值构成。

步骤140，通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。

通过前述步骤，可以获取到每帧图像对应的运动姿态向量，通过聚类算法对所述运动姿态向量进行聚类，可以将运动姿态向量类似的聚为一簇，从而，可以得到多个聚类簇。所述聚类算法可以是KMeans、GMM等。使用聚类算法对所述运动姿态向量进行聚类得到的多个聚类簇即为所述聚类结果。

可以理解的是，每个聚类簇中的运动姿态向量类似，那么与所述运动姿态向量对应的图像中的动作也是类似的。从而，可以根据所述聚类结果，从所述视频数据中提取在同一聚类簇中的图像，实现对视频数据的分割。

具体的，可以是使用聚类算法对所述运动姿态向量进行聚类，得到目标数量个聚类簇；根据所述目标数量个聚类簇，确定所述视频数据中每帧图像对应的编号；提取所述视频数据中编号相同的图像，并将所述图像按照在所述视频数据中的时间顺序组合成视频片段。从而，可以将所述视频数据分割为多个视频片段。

本申请实施例提供的视频片段提取方法，获取视频数据；识别所述视频数据中每帧图像的人体骨骼关键点；基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量；通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。通过人体骨骼关键点构建每帧图像对应的运动姿态向量，再根据对所述运动姿态向量聚类后的聚类结果提取视频片段，无需使用多个不同的模型，即可以简单方便的从视频数据中提取出各个动作对应的视频片段。

请参阅图2，本申请另一实施例提供了一种视频片段提取方法，在前述实施例的基础上重点描述了构建每帧图像对应的运动姿态向量的过程，具体的该方法可包括以下步骤。

步骤210，获取视频数据。

步骤220，识别所述视频数据中每帧图像的人体骨骼关键点。

步骤210和步骤220可参照前述实施例对应部分，在此不再赘述。

步骤230，将所述人体骨骼关键点按照第一预设规则组合成关键点序列，所述关键点序列包括三个人体关键点。

在识别到人体骨骼关键点后，可以将所述人体骨骼关键点按照预设规则组合成关键序列。本申请实施例中使用的人体骨骼关键点为24个，组合成的关键点序列为22个。

具体的，所述人体骨骼关键点为：骨盆、脖子、鼻子、左眼、右眼、左耳、右耳、头顶、左肩关节、右肩关节、左肘关节、右肘关节、左手腕、右手腕、左髋关节、右髋关节、左膝关节、右膝关节、左踝关节、右踝关节、左脚尖、右脚尖、左脚跟、右脚跟。

将这些人体骨骼关键点组合成的关键点序列为：[左脚尖，左踝关节，左膝关节]，[左脚跟、左踝关节、左膝关节]，[右脚尖，右踝关节，右膝关节]，[右脚跟、右踝关节、右膝关节]，[左踝关节，左膝关节，左髋关节]，[右踝关节，右膝关节，右髋关节]，[左膝关节，左髋关节，骨盆]，[右膝关节，右髋关节，骨盆]，[左手腕，左肘关节，左肩关节]，[右手腕，右肘关节，右肩关节]，[右肘关节，右肩关节,左肩关节],[左肘关节，左肩关节,右肩关节]，[头顶、脖子、盆骨]，[右手腕，头顶，脖子]，[左手腕，头顶，脖子]，[左肘关节，头顶，脖子]，[右肘关节，头顶，脖子]，[头顶，左耳，脖子]，[头顶，右耳，脖子]，[左耳，脖子，右肩关节]，[右耳，脖子，左肩关节]，[左髋关节，骨盆，右髋关节]。

在识别到所述人体骨骼关键点时，可以按照上述的方式和顺序组合成关键点序列。

在一些实施方式中，在某些图像中并不能识别到完整的24个人体骨骼关键点，那么，在组合成关键点序列时，可以将没有识别到的人体骨骼关键点用预设标记表示。例如，在某一帧图像中，识别到了头顶和脖子，没有识别到右耳，那么在组合成关键点序列时，可以是[头顶，null，脖子]。

步骤240，根据所述人体骨骼关键点的三维坐标，按照第二规则计算所述关键点序列对应的角度。

在得到所述关键点序列后，可以根据人体骨骼关键点的三维坐标，计算所述关键点序列对应的角度。一个关键点序列中包括3个人体骨骼关键点，可以是[关键点1，关键点2，关键点3]，假设关键点1和关键点2可以形成线段1，关键点2和关键点3可以形成线段2，那么第二规则为计算线段1和线段2形成的角度。

按照所述第二规则，可以计算得到与22个关键点序列一一对应的角度。

在一些实施方式中，可以是以角度的余弦值来描述所述角度。

步骤250，将所述角度所构成的向量作为所述运动姿态向量。

在得到每个关键点序列对应的角度后，可以将所述角度组合成向量，即所述运动姿态向量。具体的，可以是为每个关键点序列设置对应的编号，假设按照前述给出关键点序列的顺序，依次编号为1,2,3,…,22，组合得到的向量可以是[角度1，角度2，…，角度22]，其中，角度1为编号1所指示的关键点序列对应的角度，角度2为编号2所指示的关键点序列对应的角度，角度22为编号22所指示的关键点序列对应的角度。

在一些实施方式中，若是使用角度的余弦值构建运动姿态向量，所述运动姿态向量可以是[cos1，cos2，…，cos22]，cos1为编号1所指示的关键点序列对应的角度的余弦值，cos2为编号2所指示的关键点序列对应的角度的余弦值，cos22为编号22所指示的关键点序列对应的角度的余弦值。

步骤260，通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。

步骤260可参照前述实施例对应部分，在此不再赘述。

本申请实施例提供的视频片段提取方法，将人体骨骼关键点按照第一预设规则组合成关键点序列，并按照第二预设规则计算关键点序列对应的角度，将角度组合成向量用于描述每帧图像中人体的运动姿态，可准确的描述出人体的运动姿态，再根据对所述运动姿态向量聚类后的聚类结果提取视频片段，无需使用多个不同的模型，即可以简单方便的从视频数据中提取出各个动作对应的视频片段。

请参阅图3，本申请再一实施例提供了一种视频片段提取方法，在前述实施例的基础上重点描述了根据聚类结果从视频数据中提取视频片段的过程，具体的该方法可包括以下步骤。

步骤310，获取视频数据。

步骤320，识别所述视频数据中每帧图像的人体骨骼关键点。

步骤330，基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量。

步骤310至步骤330可参照前述实施例对应部分，在此不再赘述。

步骤340，使用类别数量为目标数量的聚类算法对所述运动姿态向量进行聚类，得到目标数量个聚类簇。

在得到每帧图像对应的运动姿态向量后，可以使用聚类算法对所述运动姿态向量进行聚类。在使用聚类算法时，通常需要设置对应的类别数量，这里使用的类别数量为目标数量，从而可以得到目标数量个聚类簇，同一个聚类簇中包括的运动姿态向量类似。

在使用聚类算法对所述运动姿态向量聚类之前，可以是确定聚类的目标类别数量，目标类别数量是指将所述运动姿态向量分为几个类别。

在一些实施方式中，可以是使用不同类别数量的同一聚类算法，对所述运动姿态向量进行聚类，得到与所述类别数量对应的聚类结果；使用同一方式对所述聚类结果进行评估，得到与所述聚类结果对应的评估参数；根据所述评估参数从所述聚类结果中确定目标聚类结果；获取与所述目标聚类结果对应的类别数量为所述目标类别数量。

例如，类别数量为2，聚类后可以得到2个聚类簇；类别数量为3，聚类后可以得到3个聚类簇。在得到所述聚类结果后，可以使用同一评估方式对聚类结果进行评估，所述评估方式可以是组内平方误差和、围绕中心点的分割算法、方差比准则、轮廓系数、Affinitypropagation(AP)clustering、Average silhouette method、Gap Statistic等。使用同一评估方式对聚类结果进行评估可以得到对应的评估参数，根据所述评估参数可以确定出最优的聚类结果为目标聚类结果。例如，使用轮廓系数的方式评估所述聚类结果时，评估参数即轮廓系数的取值范围为[-1,1]，取值越接近1，说明聚类结果越好，取值越接近-1，所述聚类结果越差，从而可以确定出目标聚类结果。在确定目标聚类结果后，可以获取得到所述目标聚类结果所采用的类别数量为所述目标类别数量。

在一些实施方式中，可以将所述类别数量直接设置为一个数值，该数值为目标数量。

步骤350，从所述视频数据中提取同一聚类簇中的运动姿态向量所对应的图像。

同一聚类簇中的运动姿态向量类似，可以认为是同一动作，每个运动姿态向量与视频数据中的一帧图像对应。从而可以获取同一聚类簇中的运动姿态向量所对应图像，将这些图像从视频数据中提取出来，以供后续使用。

在一些实施方式中，可以是为每个聚类簇设置簇号，获取同一聚类簇中的运动姿态向量所对应的图像，将所述簇号作为所述图像编号；提取所述视频数据中编号相同的图像。

例如，运动姿态向量A，运动姿态向量B为在同一聚类簇中，为该聚类簇设置的簇号为1，那么与运动姿态向量A对应的图像A的编号为1，与运动姿态向量B对应的图像B的编号为1，从而可以从视频数据中提取编号为1的图像，即图像A和图像B。

步骤360，将所述同一聚类簇中的图像按照在所述视频数据中的时间顺序组合成视频片段。

在提取到同一聚类簇中的图像后，可以进一步获取到同一聚类簇中的图像在所述视频数据中时间，按照时间顺序将所述图像组合成视频片段。每个视频片段即为每个动作对应的视频片段。

如前举例所述，在提取到图像A和图像B时，可以获取到对应的图像在视频数据中的时间，假设图像A的时间在图像B之前，那么，可以按照图像A、图像B的顺序组合成视频片段。

本申请实施例提供的视频片段提取方法，对运动姿态向量进行聚类，得到目标数量个聚类簇，从所述视频数据中提取同一聚类簇中的运动姿态向量所对应的图像；将所述图像按照在所述视频数据中的时间顺序组合成视频片段。由于聚类算法可将类似的运动姿态向量聚为一簇，提取同一聚类簇中的运动姿态向量对应的图像为同一动作对应的视频片段，无需使用多个不同的模型，即可以简单方便的从视频数据中提取出各个动作对应的视频片段。

请参阅图4，本申请实施例提供了一种视频片段提取装置400，所述视频片段提取装置400包括获取模块410，关键点识别模块420，向量构建模块430以及提取模块440。所述获取模块410，用于获取视频数据；所述关键点识别模块420，用于识别所述视频数据中每帧图像的人体骨骼关键点；所述向量构建模块430，用于基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量；所述提取模块440，用于通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。

进一步的，所述关键点识别模块420还用于通过人体骨骼关键点检测算法，检测所述视频数据中的每帧图像；根据检测结果获取每帧图像中的人体骨骼关键点，以及所述人体骨骼关键点的三维坐标。

进一步的，所述向量构建模块430还用于将所述人体骨骼关键点按照第一预设规则组合成关键点序列，所述关键点序列包括三个人体关键点；根据所述人体骨骼关键点的三维坐标，按照第二规则计算所述关键点序列对应的角度；将所述角度所构成的向量作为所述运动姿态向量。

进一步的，所述向量构建模块430还用于根据所述三维坐标计算所述关键点序列对应的角度的余弦值。

进一步的，所述提取模块440还用于使用类别数量为目标数量的聚类算法对所述运动姿态向量进行聚类，得到目标数量个聚类簇；从所述视频数据中提取同一聚类簇中的运动姿态向量所对应的图像；将所述同一聚类簇中的图像按照在所述视频数据中的时间顺序组合成视频片段。

进一步的，所述提取模块440还用于为每个聚类簇设置簇号；获取同一聚类簇中的运动姿态向量所对应的图像，将所述簇号作为所述图像的编号；提取所述视频数据中编号相同的图像。

进一步的，在使用聚类算法对所述运动姿态向量进行聚类，得到目标数量个聚类簇之前，所述提取模块440还用于使用不同类别数量的同一聚类算法对所述运动姿态向量进行聚类，得到与所述类别数量对应的聚类结果；基于同一评估方式对所述聚类结果进行评估，得到与所述聚类结果对应的评估参数；根据所述评估参数从所述聚类结果中确定目标聚类结果；获取与所述目标聚类结果对应的类别数量为所述目标类别数量。

本申请实施例提供的视频片段提取装置，获取视频数据；识别所述视频数据中每帧图像的人体骨骼关键点；基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量；通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。通过人体骨骼关键点构建每帧图像对应的运动姿态向量，再根据对所述运动姿态向量聚类后的聚类结果提取视频片段，无需使用多个不同的模型，即可以简单方便的从视频数据中提取出各个动作对应的视频片段。

要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

请参阅图5，本申请实施例提供了一种电子设备的结构框图，该电子设备500包括处理器510以及存储器520以及一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器520中并被配置为由所述一个或多个处理器510执行，所述一个或多个程序配置用于执行上述视频分割的方法。

该电子设备500可以是智能手机、平板电脑等能够运行应用程序的终端设备，还可以是服务器。本申请中的电子设备500可以包括一个或多个如下部件：处理器510、存储器520、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器520中并被配置为由一个或多个处理器510执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器510可以包括一个或者多个处理核。处理器510利用各种接口和线路连接整个电子设备500内的各个部分，通过运行或执行存储在存储器520内的指令、程序、代码集或指令集，以及调用存储在存储器520内的数据，执行电子设备500的各种功能和处理数据。可选地，处理器510可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器510可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器510中，单独通过一块通信芯片进行实现。

存储器520可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器520可用于存储指令、程序、代码、代码集或指令集。存储器520可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备500在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

本申请实施例提供的电子设备，获取视频数据；识别所述视频数据中每帧图像的人体骨骼关键点；基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量；通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。通过人体骨骼关键点构建每帧图像对应的运动姿态向量，再根据对所述运动姿态向量聚类后的聚类结果提取视频片段，无需使用多个不同的模型，即可以简单方便的从视频数据中提取出各个动作对应的视频片段。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频片段提取方法，其特征在于，所述方法包括：

获取视频数据；

识别所述视频数据中每帧图像的人体骨骼关键点；

基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量；

通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。

2.根据权利要求1所述的方法，其特征在于，所述识别所述视频数据中每帧图像的人体骨骼关键点，包括：

通过人体骨骼关键点检测算法，检测所述视频数据中的每帧图像；

根据检测结果获取每帧图像中的人体骨骼关键点，以及所述人体骨骼关键点的三维坐标。

3.根据权利要求2所述的方法，其特征在于，所述基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量，包括：

将所述人体骨骼关键点按照第一预设规则组合成关键点序列，所述关键点序列包括三个人体关键点；

根据所述人体骨骼关键点的三维坐标，按照第二规则计算所述关键点序列对应的角度；

将所述角度所构成的向量作为所述运动姿态向量。

4.根据权利要求3所述的方法，其特征在于，所述根据所述人体骨骼关键点的三维坐标，计算所述关键点序列对应的角度，包括：

根据所述三维坐标计算所述关键点序列对应的角度的余弦值。

5.根据权利要求1所述的方法，其特征在于，所述通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段，包括：

使用类别数量为目标数量的聚类算法对所述运动姿态向量进行聚类，得到目标数量个聚类簇；

从所述视频数据中提取同一聚类簇中的运动姿态向量所对应的图像；

将所述同一聚类簇中的图像按照在所述视频数据中的时间顺序组合成视频片段。

6.根据权利要求5所述的方法，其特征在于，所述从所述视频数据中提取同一聚类簇中的运动姿态向量所对应的图像，包括：

为每个聚类簇设置簇号；

获取同一聚类簇中的运动姿态向量所对应的图像，将所述簇号作为所述图像的编号；

提取所述视频数据中编号相同的图像。

7.根据权利要求5所述的方法，其特征在于，在使用聚类算法对所述运动姿态向量进行聚类，得到目标数量个聚类簇之前，还包括：

使用不同类别数量的同一聚类算法对所述运动姿态向量进行聚类，得到与所述类别数量对应的聚类结果；

基于同一评估方式对所述聚类结果进行评估，得到与所述聚类结果对应的评估参数；

根据所述评估参数从所述聚类结果中确定目标聚类结果；

获取与所述目标聚类结果对应的类别数量为所述目标类别数量。

8.一种视频片段提取装置，其特征在于，所述装置包括：

获取模块，用于获取视频数据；

关键点识别模块，用于识别所述视频数据中每帧图像的人体骨骼关键点；

向量构建模块，用于基于所述人体骨骼关键点，构建与每帧图像对应的运动姿态向量；

提取模块，用于通过聚类算法对所述运动姿态向量进行聚类，得到聚类结果，并根据所述聚类结果从所述视频数据中提取视频片段。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，与所述一个或多个处理器电连接；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个应用程序配置用于执行如权利要求1至7任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。