CN112464847A

CN112464847A - 视频中人体动作切分方法及装置

Info

Publication number: CN112464847A
Application number: CN202011415844.4A
Authority: CN
Inventors: 王小娟; 何明枢; 金磊
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-09
Anticipated expiration: 2040-12-07
Also published as: CN112464847B

Abstract

本发明提供一种视频中人体动作切分方法及装置，所述方法使用人体姿态估计算法提取人体骨骼关键点信息以反映人体结构特征，通过滑窗提取多个候选序列，并利用人体骨骼关键点信息基于动态时间规划算法分析各候选序列与标准序列的相似性，最终得到与标准序列最接近的候选序列，并完成对视频的切分。基于人体结构特征进行分析，能够极大提高视频切分的准确度，并简化运算复杂度。通过滑窗提取候选序列并使用动态时间规划算法进行分析，保留了完整的帧间关系信息，提高了切分准确度。

Description

视频中人体动作切分方法及装置

技术领域

本发明涉及视频内容提取领域，更具体而言，本发明涉及一种视频中人体动作切分方法及装置。

背景技术

人工智能作为新一轮科技革命和产业变革的重要驱动力量，已成为当前的研究热点之一。计算机视觉作为人工智能三大领域之一，在近期越来越受到关注。计算机视觉是研究如何使机器“看”的科学，研究如何让计算机从图像和视频中获取高级、抽象信息，从而代替人类视觉，完成自动化任务。近期，随着深度学习的迅猛发展，计算机视觉成为了目前人工智能领域落地商用最顺利的技术，在自动驾驶、人脸识别、智能安防等领域，计算机视觉有着广泛的应用。随着任务要求的提高，许多计算机视觉任务由对图片进行分析进化成对视频进行分析，从而衍生出了一些基于视频分析的高级计算机视觉任务。

目前，动作切分领域中的现有技术有基于三维卷积神经网络(3D CNN)对视频进行特征提取，这类技术通过在二维卷积神经网络(2D CNN)上增加时间维度，更好捕获视频中的时间和空间信息。但通过该技术捕捉运动信息需使卷积层的每一个特征图都与上一层中多个邻近的连续帧相连，算法的时间复杂度较大，且在进行动作切分过程中，该方法仅针对视频中的语义信息进行分析。此外，动作切分领域中还有基于图像和光流双流输入网络的技术，该类技术使用光流方法处理视频中连续帧的前后关系，无法得到动作在两帧之间变化的详细数据；与基于三维卷积神经网络缺点类似地，在进行动作切分时仅针对视频中语义信息进行分析。

因此，现有技术中基于语义信息进行分析必然会存在算法复杂，切分准确率低，动作切分后连续帧前后关系难以得到。如何提高视频中的人体动作切分效率，是一个亟待解决的问题。

发明内容

本发明提供了一种视频中人体动作切分方法及装置，以解决现有切分方法中算法复杂、切分效果和准确率低的问题。

本发明的技术方案如下：

一方面，本发明提供一种视频中人体动作切分方法，该方法包括以下步骤：

获取待切分视频，使用卷积神经网络提取所述待切分视频中每帧图像的人体骨骼关键点信息，并将每帧图像的所述人体骨骼关键点信息按照原视频中各帧的前后顺序组成输入关键点序列；

通过预设时间长度的滑窗在所述输入关键点序列中提取多个候选序列；

基于动态时间规划算法计算各候选序列与动作切分标准库中标准序列的距离；

在时域上对各候选序列与标准序列的距离进行非极大值抑制，并获取在时域上不交叠且与所述标准序列距离小于设定阈值的候选序列作为切片，按照所述切片对应的时段对待切分视频进行切分。

在一些实施例中，所述输入关键点序列和所述标准序列是基于人体姿态估计算法对标准视频处理得到的人体骨骼关键点序列，同时去除了对动作区分贡献较小的关键点，并添加了对动作区分贡献较大的关键点。

在一些实施例中，所述人体姿态估计算法为Alphapose算法。

在一些实施例中，所述输入关键点序列和所述标准序列中的采用的关键点包括：

头部、胸部、左肩、右肩膀、左肘、右肘、左手、右手、左胯、右胯、左膝、右膝、左脚以及右脚。

在一些实施例中，所述方法还包括：

获取所述待切分视频中各帧对应的人体矩形框，并根据所述人体矩形框的长宽对所述人体骨骼关键点信息进行归一化处理。

在一些实施例中，基于动态时间规划算法计算各候选序列与动作切分标准库中标准序列的距离，包括：

将所述候选序列中每一帧与所述标准序列中每一帧对多种动作距离加权求和作为参数，基于动态时间规划算法计算各候选序列与所述标准序列的距离，其中，所述动作距离包括：

关节角度距离：两帧之间相同关节角度的余弦距离；和/或

关键点空间距离：两帧之间相同关键点的欧氏距离；和/或

骨骼向量距离：两帧之间相同骨骼向量的余弦距离；和/或

关键点时序距离：两帧之间关键点时序向量的余弦距离，所述关键点时序向量为下一帧该关键点坐标向量减去本帧该关键点坐标向量；和/或

骨骼时序距离：两帧之间相同骨骼时序向量的余弦距离，所述骨骼时序向量为下一帧该骨骼向量减去本帧该骨骼向量。

在一些实施例中，所述关节角度包括：左肘-左肩-左胯的关节角度、右肘-右肩-右胯的关节角度、左肩-左肘-左手的关节角度、右肩-右肘-右手的关节角度、右胯-左胯-左膝的关节角度、左胯-右胯-右膝的关节角度、左胯-左膝-左脚的关节角度以及右胯-右膝-右脚的关节角度。

在一些实施例中，所述骨骼向量包括：胸部至头部向量、胸部至左肩向量、胸部至右肩向量、左肩至左肘向量、右肩至右肘向量、左肘至左手向量、右肘至右手向量、左肩至左胯向量、右肩至右胯向量、左胯至右胯向量、左胯至左膝向量、右胯至右膝向量、左膝至左脚向量以及右膝至右脚向量。

另一方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

另一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述方法的步骤。

本发明的有益效果至少是：

本发明所述视频中人体动作切分方法及装置，所述方法使用人体姿态估计算法提取人体骨骼关键点信息以反映人体结构特征，通过滑窗提取多个候选序列，并利用人体骨骼关键点信息基于动态时间规划算法分析各候选序列与标准序列的相似性，最终得到与标准序列最接近的候选序列，并完成对视频的切分。基于人体结构特征进行分析，能够极大提高视频切分的准确度，并简化运算复杂度。通过滑窗提取候选序列并使用动态时间规划算法进行分析，保留了完整的帧间关系信息，提高了切分准确度。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明一实施例中所述视频中人体动作切分方法的流程示意图；

图2为本发明一实施例中所述视频中人体动作切分方法获取输入关键点序列逻辑示意图；

图3为本发明一实施例中所述视频中人体动作切分方法中滑窗提取候选序列示意图；

图4为本发明另一实施例中所述视频中人体动作切分方法中获取输入关键点序列逻辑示意图；

图5为本发明一实施例中所述视频中人体动作切分方法逻辑示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。

现有对视频中人体进行动作切分的方法，无论是基于三维卷积神经网络的技术，还是基于图像和光流双流输入网络的技术，均只关注输入视频中的语义信息，没有对执行动作的人体进行建模，也没有对动作切分中关键的结构信息进行建模。此外，基于三维卷积神经网络的动作切分存在算法时间复杂度较大的缺点，而基于图像和光流双流输入的网络技术由于视频中连续帧前后关系使用光流方法无法得到动作在两帧之间变化的详细数据。因此，针对现有技术存在的问题，本发明提出了一种基于人体姿态估计算法和动态时间规划算法结合的视频中人体动作切分的方法，通过使用人体姿态估计模块，将输入视频中人体的属性信息进行提取，得到输入关键点序列，并与动作切分标准库中已存的标准序列进行距离的计算，通过在时间域上进行非极大值抑制，获取在时间域上不交叠且距离小于设置阈值的切片，最终定位该切片在原视频中位置得到动作的切分结果。该方法不仅对视频的语义信息进行了分析，而且解决了基于三维卷积神经网络中算法时间复杂度较大的缺点，通过比较包括骨骼关键点位置、骨骼位置与关节角度的前后变化的过程，在动作切分算法中完整保留了连续帧前后关系信息，并对执行动作的人体与动作切分中关键结构信息进行建模。本发明的方法不仅理论系统完备，创新性突出，而且具有很高的实用价值。

需要预先说明的是，本发明中人体姿态估计算法是指提取人体骨骼关键点的算法，本发明可以采用人体姿态估计算法Alphapose的提取人体骨骼关键点信息。Alphapose是一种精确的多人姿态估计器，它是第一个在MS COCO(Microsoft Common Objects inContext)数据集上实现大于70mAP(Mean Average Precision)(实际为72.3mAP)和在MPII(The Motion Picture Industry Institute)数据集上实现大于80mAP(实际为82.1mAP)的开源系统。

此外，本发明中利用动态时间规划算法DTW(Dynamic Time Warping)是由于在时间序列中，需要比较相似性的两段时间序列的长度可能并不相等，具体体现在标准动作视频的标准序列与待检测动作视频中提取的多个候选序列之间的长度差异。大部分情况下，两个序列整体上具有非常相似的形状，但是这些形状在时间轴上并未对齐，故在比较他们的相似度之前，需要将其中几个序列在时间轴下进行Warping扭曲，以此达到更好的对齐效果。而DTW就是实现这种Warping扭曲的一种有效方法，DTW通过将时间序列进行延伸和缩短，来计算两个时间序列之间的相似性，从而达到准确切分动作的目的。

在本发明中，通过动态时间规划算法，会得到一系列时间序列之间相似度的得分，而这部分数据中的绝大多数数据都是冗余。因此在本发明的实施例中，采用非极大值抑制算法NMS(Non Maximum Suppression)进行数据的进一步处理，NMS作用是抑制不是极大值的元素，搜索局部极大值。通过NMS算法找到这一系列数据的局部极大值，得到切分最准确的视频序列。

在本发明中，提供了一种视频中人体动作切分方法，以降低算法复杂度，并保留帧间提高算法效率，如图1和图5所示，包括步骤S101～S104：

需要说明的是，本实施例中所述步骤S101～S104并不是对先后顺序的限定，应当理解为，在特定的条件下，各步骤的顺序可以调换或并行。

步骤S101：获取待切分视频，使用卷积神经网络提取待切分视频中每帧图像的人体骨骼关键点信息，并将每帧图像的人体骨骼关键点信息按照原视频中各帧的前后顺序组成输入关键点序列。

步骤S102：通过预设时间长度的滑窗在输入关键点序列中提取多个候选序列。

步骤S103：基于动态时间规划算法计算各候选序列与动作切分标准库中标准序列的距离。

步骤S104：在时域上对各候选序列与标准序列的距离进行非极大值抑制，并获取在时域上不交叠且与标准序列距离小于设定阈值的候选序列作为切片，按照切片对应的时段对待切分视频进行切分。

在步骤S101中，参照图2和图4，基于卷积神经网络提取待切分视频中每帧图像的人体骨骼关键信息，其中，卷积神经网络可以是经现有人体关键点数据集进行训练得到的，例如可以采用MPII数据集对卷积神经网络进行训练以得到用于提取人体骨骼关键点信息的模型。在一些实施例中，可以直接采用现有的用于提取人体骨骼关键信息的网络模型进行处理，例如可以采用人体姿态评估算法，具体可以是Alphapose算法。具体的，人体骨骼关键点信息是每一帧图像中人体骨骼关键点的坐标。其中，步骤S101中所采集的人体骨骼关键点信息的种类，应当与步骤S103中标准序列中记载的人体骨骼关键点信息相对应。

进一步的，对每一帧图像提取的人体骨骼关键点信息，按照原帧的先后顺序进行排列构成输入关键点序列。在一些实施例中，还可以添加时间戳以便于后续步骤中进行比对切分。

在步骤S102中，参照图3，利用预设时间长度的滑窗，沿时间轨在输入关键点序列中滑动，并提取多个候选序列，用于与步骤S103中的标准序列进行对比相似性，用于切分。具体的，滑窗的预设时间长度是基于标准序列中对应的动作长度确定的，例如，在对滑雪过程的犁式转弯动作进行分析时，滑窗对应的预设时间长度为10～15s。滑窗的预设时间长度可以设置多个，以捕获最恰当的切分时段。本实施例通过滑窗提取候选序列作为对比的输入，能够保留帧间关系，实现更精确的识别和切分。

在步骤S103中，将通过滑窗提取的多个候选序列与标准序列进行对比，鉴于候选序列和标准序列大概率存在时长差异，本实施例采用动态时间规划算法进行相似性的比对，以获得更高的准确度。需要说明的是，标准序列是对标准动作视频进行人体骨骼关键点信息提取后形成的，用于参照对比，识别标准动作。动作切分标准库中可以存在多种标准动作相对应的多个标准序列。

具体的，动态时间规划算法可以输出候选序列与标准序列的距离值，该距离值可以反映两者的相似性。因此，在步骤S103结束后，会得到每个候选序列与标准序列的距离。

在步骤S104中，由于滑窗所提取的候选序列存在大量包含和重叠的情况，为了抑制距离较大的情况，通过在时域上对各候选序列与标准序列的距离进行非极大值抑制，筛选出在局部区域与标准序列相似度最高的候选序列。进一步的，获取在时域上不交叠且与标准序列距离小于设定阈值的候选序列作为切片，以保证筛选得到的切片与标准序列近似程度达标。最终，基于切片所对应的帧或时间戳对待切分视频进行动作切分。

在一些实施例中，步骤S101～S104中，输入关键点序列和标准序列是基于人体姿态估计算法对标准视频处理得到的人体骨骼关键点序列，同时去除了对动作区分贡献较小的关键点，并添加了对动作区分贡献较大的关键点。

在本实施例中，选用Alphapose作为人体姿态估计算法的网络模型，对输入的待切分视频进行特征提取，获取视频中人体骨骼关键点信息。Alphapose模型输出17个人体骨骼关键点，去除左眼、右眼、左耳、右耳四个对动作切分贡献不大的关键点，并计算左右肩中心点以添加胸部关键点，获得和动作切分标准库中空间尺寸相同的人体骨骼模型和人体位置矩形框。但本发明的方法不限于此，例如可使用OpenPose、DeepCut、Mask RCNN等作为人体姿态估计算法，使用不同人体姿态估计算法的区别仅限于模型的准确率、算法实施效率与输出的骨骼关键点数目，对后续动作切分的效果影响较小，依然可以达到动作切分的目的。

在一些实施例中，步骤S101～S104中输入关键点序列和标准序列中的采用的关键点包括：头部、胸部、左肩、右肩膀、左肘、右肘、左手、右手、左胯、右胯、左膝、右膝、左脚以及右脚，共14个。在另一些实施例中，也可以设置更多的关键点。各关键点可以以坐标向量的形式进行记载和运算。

在一些实施例中，步骤S101～S104中，所述视频中人体动作切分方法还包括：

获取待切分视频中各帧对应的人体矩形框，并根据人体矩形框的长宽对人体骨骼关键点信息进行归一化处理。

在本实施例中，为了实现提高识别准确率，进一步统一候选序列和标准序列之间的量纲，对人体骨骼关键点信息进行归一化处理。具体的，归一化的方式是：获取待切分视频各帧对应的人体矩形框，该人体矩形框可以是基于卷积神经网络识别得到。将提取得到的各关键点坐标向量中的横坐标除以人体矩形框横边的长，将各关键点坐标向量中的竖坐标除以人体矩形框竖边的长。

在一些实施例中，步骤S103中，即基于动态时间规划算法计算各候选序列与动作切分标准库中标准序列的距离，包括：将候选序列中每一帧与标准序列中每一帧对多种动作距离加权求和作为参数，基于动态时间规划算法计算各候选序列与标准序列的距离，其中，动作距离包括：

关节角度距离：两帧之间相同关节角度的余弦距离；和/或关键点空间距离：两帧之间相同关键点的欧氏距离；和/或骨骼向量距离：两帧之间相同骨骼向量的余弦距离；和/或关键点时序距离：两帧之间关键点时序向量的余弦距离，所述关键点时序向量为下一帧该关键点坐标向量减去本帧该关键点坐标向量；和/或骨骼时序距离：两帧之间相同骨骼时序向量的余弦距离，所述骨骼时序向量为下一帧该骨骼向量减去本帧该骨骼向量。

在本实施例中，对多种动作距离进行加权求和作为参数，以结合多种特征进行相似性比对，提高识别准确度。

具体的，关节角度距离是指两帧之间相同关节的角度变化量，通过计算两帧之间相同关节角度的余弦距离获得。关节角度包括：左肘-左肩-左胯的关节角度、右肘-右肩-右胯的关节角度、左肩-左肘-左手的关节角度、右肩-右肘-右手的关节角度、右胯-左胯-左膝的关节角度、左胯-右胯-右膝的关节角度、左胯-左膝-左脚的关节角度以及右胯-右膝-右脚的关节角度。

关键点空间距离是指两帧之间相同关键点的位置变化量，通过计算两帧之间相同关键点的欧氏距离获得。在计算前首先将关键点横纵坐标分别除以本帧的人体矩形框的宽高以进行归一化表示。

骨骼向量距离是指两帧之间相同骨骼的向量变化量，通过计算两帧之间相同骨骼向量的余弦距离获得。骨骼向量可以包括：胸部至头部向量、胸部至左肩向量、胸部至右肩向量、左肩至左肘向量、右肩至右肘向量、左肘至左手向量、右肘至右手向量、左肩至左胯向量、右肩至右胯向量、左胯至右胯向量、左胯至左膝向量、右胯至右膝向量、左膝至左脚向量以及右膝至右脚向量。

下面以滑雪运动中犁式转弯动作为例，说明本方法的技术方案：

1、设置动作切分标准库

本实施例提出一种可扩展的动作切分标准库，库中数据是通过人体姿态估计算法或手工提取或标记视频每一帧中人体骨骼关键电，得到的标准序列。对于由不同途径获得的标准序列处理统一成14个关键点，具体包括：0-头部，1-胸部，2-左肩，3-右肩，4-左肘，5-右肘，6-左手，7-右手，8-左胯，9-右胯，10-左膝，11-右膝，12-左脚，13-脚。

示例性的，对于滑雪运动中的犁式转弯动作，动作切分标准库中存储的标准序列包括14个关键点，共90帧。

2、提取待切分视频中的关键点信息

参照图2和图4，本实施例选用Alphapose作为人体姿态估计算法的网络模型，对输入的待切分视频进行特征提取，获取待切分输入视频中人体的骨骼关键点模型。Alphapose模型输出17个人体骨骼关键点，去除左眼、右眼、左耳、右耳四个对动作切分贡献不大的关键点，计算左右肩中心点以添加胸部关键点，并标记人体位置矩形框。

进一步的，基于Alphapose模型提取的待切分视频的每一帧关键点信息，按照各帧的先后顺序进行排序得到输入关键点序列。

3、动作切分

首先，参照图3，利用预设时间长度的滑窗在输入关键点序列上滑动提取多个候选序列，滑窗的时长根据动作切分标准库中标准动作的长度确定，具体同标准动作的持续时间有关。进一步的，鉴于待切分视频中动作长度并不一定相同，因此可以设置多个长度的滑窗。例如，在犁式转弯动作动作中滑窗时间可以被定义为10～15s。

通过滑窗模块提取了多个候选序列，本实施例中设置了五种不同的动作距离作为参数来计算与标准序列之间的距离。本实施例中，五种不同的动作距离包括：

(1)关节角度距离：计算两帧之间相同关节角度的余弦距离，参照前文所述的关键点序数，本实施例设置八个关节角度，包括：4-2-8，5-3-9，2-4-6，3-5-7，9-8-10，8-9-11，8-10-12，9-11-13，中间数字表示该关节角度的中心关键点。以4-2-8为例，表示左肘指向左肩的向量与左胯指向左肩的向量的夹角，以上八个关节角度包括如下：左肘-左肩-左胯的关节角度、右肘-右肩-右胯的关节角度、左肩-左肘-左手的关节角度、右肩-右肘-右手的关节角度、右胯-左胯-左膝的关节角度、左胯-右胯-右膝的关节角度、左胯-左膝-左脚的关节角度以及右胯-右膝-右脚的关节角度。

(2)关键点空间距离：计算两帧之间相同关键点的欧式距离，在计算前先对关键点坐标进行归一化，该归一化操作定义为横纵坐标分别除以本帧的人体矩形框的宽高。

(3)骨骼向量距离：计算两帧之间相同骨骼向量的余弦距离，参照前文所述的关键点序数，共计算14个骨骼向量包括：1-0，1-2，1-3，2-4，3-5，4-6，5-7，2-8，3-9，8-9，8-10，9-11，10-12以及11-13。以1-0为例，表示从胸部指向头部的骨骼向量，以上14个骨骼向量包括：胸部至头部向量、胸部至左肩向量、胸部至右肩向量、左肩至左肘向量、右肩至右肘向量、左肘至左手向量、右肘至右手向量、左肩至左胯向量、右肩至右胯向量、左胯至右胯向量、左胯至左膝向量、右胯至右膝向量、左膝至左脚向量以及右膝至右脚向量。在计算距离前对获得的骨骼向量进行归一化，归一化的方式可以参照(2)的内容。

(4)关键点时序距离：计算两帧之间相同关键点时序向量的余弦距离，关键点时序向量定义为下一帧该关节点坐标向量减去本帧该关键点坐标向量，表示该关键点的运动方向。在计算距离前，关键点时序向量对本帧的人体矩形框的宽高进行归一化。

(5)骨骼时序距离：计算两帧之间相同骨骼时序向量的余弦距离，骨骼时序向量定义为下一帧该骨骼向量减去本帧该骨骼向量，表示该骨骼的运动方向。在计算距离前，向量对本帧的人体矩形框的宽高进行归一化。

结合上述五种距离，通过加权求和得到输入关键点序列中的每一帧与标准序列中的每一帧的动作距离。使用动态时间规划算法计算各候选序列与标准序列之间的距离。

4、动作切分

对于得到的所有候选序列和标准序列的距离，在时间域上进行非极大值抑制，得到在时间域上不交叠且距离小于设置阈值的切片，切片在原视频中的对应位置即为动作切分的结果，从而达到本实施例对视频中的动作进行切分的目的。

根据本发明的技术方案，与二种现有技术进行对比，包括如下有益效果：

基于三维卷积神经网络的技术的缺点在于算法计算成本大，同时没有对结构信息进行建模。本发明以人体骨骼关键点序列作为动作切分算法的输入，对人体的结构信息进行了显式建模。同时，人体姿态估计算法仅对单帧图像进行处理，后续处理也仅针对人体姿态估计算法输出的关键点序列，计算量小于对于视频整体进行处理的三维卷积神经网络。

基于图像和光流双流输入网络的技术的缺点在于算法的时间复杂度较大，以及无法有效提取帧间关系特征。本发明进行动作切分算法时，将完整的人体骨骼关键点序列作为算法的输入。使用动态时间规划算法，对帧间的时序关系进行了显式的建模，保留了完整的帧间关系信息。

在基于视频分析的高级计算机视觉任务中，降低算法复杂度，提高算法效率，获取视频中帧间关系并对视频中人体关键结构信息建模对提高视频分析效果有很大提升作用。因此，在本发明中，为了提高视频中人体动作分析效果，提出了基于人体姿态估计算法的方法对单帧图像进行特征提取，极大降低了运算的复杂度。本发明使用人体骨骼关键点时间序列作为动作切分算法的输入，在动作切分算法中完整保留了连续帧前后关系信息。通过解决算法的时间复杂度问题，并对人体关键结构信息进行显式建模，能够有效提升后续对视频中人体动作进行分析的效果。

综上所述，本发明所述视频中人体动作切分方法及装置，所述方法使用人体姿态估计算法提取人体骨骼关键点信息以反映人体结构特征，通过滑窗提取多个候选序列，并利用人体骨骼关键点信息基于动态时间规划算法分析各候选序列与标准序列的相似性，最终得到与标准序列最接近的候选序列，并完成对视频的切分。基于人体结构特征进行分析，能够极大提高视频切分的准确度，并简化运算复杂度。通过滑窗提取候选序列并使用动态时间规划算法进行分析，保留了完整的帧间关系信息，提高了切分准确度。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频中人体动作切分方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的视频中人体动作切分方法，其特征在于，所述输入关键点序列和所述标准序列是基于人体姿态估计算法对标准视频处理得到的人体骨骼关键点序列，同时去除了对动作区分贡献较小的关键点，并添加了对动作区分贡献较大的关键点。

3.根据权利要求2所述的视频中人体动作切分方法，其特征在于，所述人体姿态估计算法为Alphapose算法。

4.根据权利要求2所述的视频中人体动作切分方法，其特征在于，所述输入关键点序列和所述标准序列中的采用的关键点包括：

5.根据权利要求1所述的视频中人体动作切分方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的视频中人体动作切分方法，其特征在于，基于动态时间规划算法计算各候选序列与动作切分标准库中标准序列的距离，包括：

关节角度距离：两帧之间相同关节角度的余弦距离；和/或

关键点空间距离：两帧之间相同关键点的欧氏距离；和/或

骨骼向量距离：两帧之间相同骨骼向量的余弦距离；和/或

7.根据权利要求6所述的视频中人体动作切分方法，其特征在于，所述关节角度包括：左肘-左肩-左胯的关节角度、右肘-右肩-右胯的关节角度、左肩-左肘-左手的关节角度、右肩-右肘-右手的关节角度、右胯-左胯-左膝的关节角度、左胯-右胯-右膝的关节角度、左胯-左膝-左脚的关节角度以及右胯-右膝-右脚的关节角度。

8.根据权利要求6所述的视频中人体动作切分方法，其特征在于，所述骨骼向量包括：胸部至头部向量、胸部至左肩向量、胸部至右肩向量、左肩至左肘向量、右肩至右肘向量、左肘至左手向量、右肘至右手向量、左肩至左胯向量、右肩至右胯向量、左胯至右胯向量、左胯至左膝向量、右胯至右膝向量、左膝至左脚向量以及右膝至右脚向量。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。