CN109710802B

CN109710802B - 视频分类方法及其装置

Info

Publication number: CN109710802B
Application number: CN201811563523.1A
Authority: CN
Inventors: 王群
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2021-11-02
Anticipated expiration: 2038-12-20
Also published as: CN109710802A

Abstract

本发明公开了一种视频分类方法及其装置。其中，方法包括：获取待分类视频的多帧图像。分别在多帧图像中识别人物以及人物的骨骼关键点，根据每帧图像中的人物的区域，分别在每帧图像中识别出骨骼关键点对应的骨骼角度。根据骨骼角度在多帧图像中的数值变化，生成每个骨骼关键点对应的特征编码。根据特征编码对待分类视频进行分类。由此，实现了通过视频中的人物，对视频进行分类，不依赖视频标题和视频标签，使得对视频的分类更加准确。解决了现有技术中通过标题或者标签对视频进行分类存在的分类不准确的技术问题。

Description

视频分类方法及其装置

技术领域

本发明涉及图像识别技术领域，尤其涉及一种视频分类方法及其装置。

背景技术

随着互联网小视频的不断涌现，小视频已经成为网络视频中的重要角色。因此，网络视频平台需要对小视频进行分类以便用户浏览。

相关技术中，通过视频的标题或者标签对视频进行分类，但是小视频的标题和标签往往较为随意性，无法对小视频进行有效的分类。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种视频分类方法，以实现通过视频中的人物，对视频进行分类，不依赖视频标题和视频标签，使得对视频的分类更加准确。

本发明的第二个目的在于提出一种视频分类装置。

本发明的第三个目的在于提出一种计算机程序产品。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种视频分类方法，包括：获取待分类视频的多帧图像；分别在所述多帧图像中识别人物以及所述人物的骨骼关键点；根据每帧图像中的所述人物的区域，分别在每帧图像中识别出所述骨骼关键点对应的骨骼角度；根据所述骨骼角度在所述多帧图像中的数值变化，生成每个所述骨骼关键点对应的特征编码；以及根据所述特征编码对所述待分类视频进行分类。

和现有技术相比，本发明实施例分别在多帧图像中识别人物以及人物的骨骼关键点，根据骨骼关键点对应的骨骼角度在多帧图像中的数值变换，生成每个骨骼关键点对应的特征编码，进而对待分类视频进行分类。不依赖视频标题和视频标签，使得对视频的分类更加准确。

另外，本发明实施例的视频分类方法，还具有如下附加的技术特征：

可选地，所述根据每帧图像中的所述人物的区域，分别在每帧图像中识别出所述骨骼关键点对应的骨骼角度，包括：获取每个所述骨骼关键点对应的坐标系；根据所述人物的区域，生成所述每个骨骼关键点对应的骨骼角度。

可选地，所述根据所述骨骼角度在所述多帧图像中的数值变化，生成每个所述骨骼关键点对应的特征编码，包括：分别获取所述骨骼角度在所述多帧图像中的数值；将所述骨骼角度在所述多帧图像中的数值按照所述多帧图像的时序进行排列，以生成所述每个骨骼关键点对应的骨骼角度数值序列；根据所述每个骨骼关键点对应的骨骼角度数值序列，生成所述每个骨骼关键点对应的特征编码。

可选地，所述根据所述每个骨骼关键点对应的骨骼角度数值序列，生成所述每个骨骼关键点对应的特征编码，包括：根据所述每个骨骼关键点对应的骨骼角度数值序列，确定所述每个骨骼关键点在所述多帧图像中的骨骼角度变化拐点，其中，所述骨骼角度变化拐点包括上拐点和下拐点；根据所述上拐点和所述下拐点，生成所述每个骨骼关键点对应的特征编码。

可选地，所述根据所述特征编码对所述待分类视频进行分类，包括：根据所述特征编码生成所述待分类视频对应的编码索引；以及根据所述编码索引对所述待分类视频进行分类。

可选地，所述根据所述特征编码生成所述待分类视频对应的编码索引，包括：对所述多个骨骼关键点分别进行编号；根据所述每个骨骼关键点的编号和所述每个骨骼关键点对应的特征编码，生成所述每个骨骼关键点对应的编码对；根据所述每个骨骼关键点对应的编码对和所述待分类视频的编号，生成所述待分类视频对应的编码索引。

可选地，所述根据所述编码索引对所述待分类视频进行分类，包括：获取多个参考视频对应的编码索引；将所述待分类视频对应的编码索引分别与所述多个参考视频对应的编码索引进行相似度打分，以分别获得所述待分类视频与所述多个参考视频的多个相似度；根据所述待分类视频与所述多个参考视频的所述多个相似度，对所述待分类视频进行分类。

可选地，所述根据所述待分类视频与所述多个参考视频的所述多个相似度，对所述待分类视频进行分类，包括：将所述待分类视频与所述多个参考视频分别对应的所述编码索引中的每个编码对进行相似度打分，以分别获得所述每个骨骼关键点对应的相似度分值；根据所述每个骨骼关键点对应的相似度分值，对所述待分类视频进行分类。

可选地，在所述根据特征编码对待分类视频进行分类之后，还包括：在所述多帧图像中识别出人物的性别；根据所述人物的性别，对所述待分类视频进行进一步分类。

本发明第二方面实施例提出了一种视频分类装置，包括：获取模块，用于获取待分类视频的多帧图像；第一识别模块，用于分别在所述多帧图像中识别人物以及所述人物的骨骼关键点；第二识别模块，用于根据每帧图像中的所述人物的区域，分别在每帧图像中识别出所述骨骼关键点对应的骨骼角度；生成模块，用于根据所述骨骼角度在所述多帧图像中的数值变化，生成每个所述骨骼关键点对应的特征编码；以及第一分类模块，用于根据所述特征编码对所述待分类视频进行分类。

另外，本发明实施例的视频分类装置，还具有如下附加的技术特征：

可选地，所述第二识别模块，包括：第一获取子模块，用于获取每个所述骨骼关键点对应的坐标系；第一生成子模块，用于根据所述人物的区域，生成所述每个骨骼关键点对应的骨骼角度。

可选地，所述生成模块，包括：第二获取子模块，用于分别获取所述骨骼角度在所述多帧图像中的数值；排列子模块，用于将所述骨骼角度在所述多帧图像中的数值按照所述多帧图像的时序进行排列，以生成所述每个骨骼关键点对应的骨骼角度数值序列；第二生成子模块，用于根据所述每个骨骼关键点对应的骨骼角度数值序列，生成所述每个骨骼关键点对应的特征编码。

可选地，所述第二生成子模块，包括：确定单元，用于根据所述每个骨骼关键点对应的骨骼角度数值序列，确定所述每个骨骼关键点在所述多帧图像中的骨骼角度变化拐点，其中，所述骨骼角度变化拐点包括上拐点和下拐点；第一生成单元，用于根据所述上拐点和所述下拐点，生成所述每个骨骼关键点对应的特征编码。

可选地，所述第一分类模块，包括：第三生成子模块，用于根据所述特征编码生成所述待分类视频对应的编码索引；以及分类子模块，用于根据所述编码索引对所述待分类视频进行分类。

可选地，所述第三生成子模块，包括：编号单元，用于对所述多个骨骼关键点分别进行编号；第二生成单元，用于根据所述每个骨骼关键点的编号和所述每个骨骼关键点对应的特征编码，生成所述每个骨骼关键点对应的编码对；第三生成单元，用于根据所述每个骨骼关键点对应的编码对和所述待分类视频的编号，生成所述待分类视频对应的编码索引。

可选地，所述分类子模块，包括：获取单元，用于获取多个参考视频对应的编码索引；打分单元，用于将所述待分类视频对应的编码索引分别与所述多个参考视频对应的编码索引进行相似度打分，以分别获得所述待分类视频与所述多个参考视频的多个相似度；分类单元，用于根据所述待分类视频与所述多个参考视频的所述多个相似度，对所述待分类视频进行分类。

可选地，所述分类单元，包括：打分子单元，用于将所述待分类视频与所述多个参考视频分别对应的所述编码索引中的每个编码对进行相似度打分，以分别获得所述每个骨骼关键点对应的相似度分值；分类子单元，用于根据所述每个骨骼关键点对应的相似度分值，对所述待分类视频进行分类。

可选地，所述装置还包括：第三识别模块，用于在所述多帧图像中识别出人物的性别；第二分类模块，用于根据所述人物的性别，对所述待分类视频进行进一步分类。

本发明第三方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的视频分类方法。

本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的视频分类方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施例所提供的现有技术无法对视频进行分类的一个示例的示意图；

图2为本发明实施例所提供的一种视频分类方法的流程示意图；

图3为本发明实施例所提供的在图像中识别人物的区域的效果示意图；

图4为本发明实施例所提供的识别人物的骨骼关键点的效果示意图；

图5为本发明实施例所提供的骨骼关键点对应的坐标系的效果示意图；

图6为本发明实施例所提供的骨骼关键点对应的骨骼角度数值序列的效果示意图；

图7为本发明实施例所提供的根据骨骼角度数值序列生成特征编码的效果示意图；

图8为本发明实施例所提供的生成每一个骨骼关键点对应的特征编码的效果示意图；

图9为本发明实施例所提供的另一种视频分类方法的流程示意图；

图10为本发明实施例所提供的向用户推荐相似视频的效果示意图；

图11为本发明实施例所提供的视频分类方法的一个示例的流程图；

图12为本发明实施例所提供的一种视频分类装置的结构示意图；以及

图13为本发明实施例所提供的另一种视频分类装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的视频分类方法及其装置。

基于上述现有技术的描述可以知道，相关技术中，通过视频的标题或者标签对视频进行分类，但是小视频的标题和标签往往较为随意性，无法对小视频进行有效的分类。

举例来说，如图1所示，第一种情况，视频的标题与内容不相关，该视频无有效标题。第二种情况，视频没有标题，无法将视频标题与内容相关。因此，在上述两种情况中，现有技术无法通过视频标题来对视频进行有效分类。

针对这一问题，本发明实施例提供了视频分类的方法，分别在多帧图像中识别人物以及人物的骨骼关键点，根据骨骼关键点对应的骨骼角度在多帧图像中的数值变换，生成每个骨骼关键点对应的特征编码，进而对待分类视频进行分类。不依赖视频标题和视频标签，使得对视频的分类更加准确。

图2为本发明实施例所提供的一种视频分类方法的流程示意图。如图2所示，该方法包括以下步骤：

S101，获取待分类视频的多帧图像。

应当理解的是，待分类视频是由一帧帧图像按照时序排列组成的，而为了对待分类视频进行分类，只需要取其中的部分图像作为样本来获取待分类视频的特征，进而对待分类视频进行分类。

一种可能的实现方式是，每五秒抽取待分类视频的一帧图像，得到待分类视频的多帧图像。

S102，分别在多帧图像中识别人物以及人物的骨骼关键点。

其中，骨骼关键点是指人体骨骼中的重要节点，比如头部，双手，双脚。

具体地，可以通过机器学习模型识别出图像中是否存在人物，若存在人物，则识别出人物的区域，并进一步识别出人物的骨骼关键点。

如图3和图4所示，可以首先在图像中识别出人物的区域，再对人物进行骨骼识别，识别出人物的骨骼关键点。

S103，根据每帧图像中的人物的区域，分别在每帧图像中识别出骨骼关键点对应的骨骼角度。

其中，骨骼角度是指骨骼关键点连接的骨骼所形成的夹角角度。

具体地，可以首先获取每个骨骼关键点对应的坐标系，如图5所示，每个骨骼关键点对应的坐标系都以骨骼关键点作为坐标点。接着根据人物的区域，生成每个骨骼关键点对应的骨骼角度。

应当理解，每帧图像中的人物动作可以拆分为每个骨骼关键点的动作，而通过骨骼关键点对应的骨骼角度，可以将骨骼关键点的动作进行量化。因此，每帧图像中每个骨骼关键点对应的骨骼角度实现了对每帧图像中的人物动作的量化。

需要强调的是，考虑到部分骨骼关键点可能不在每帧图像中都出现，为了保证后续编码处理的统一，将该帧图像中未出现的骨骼关键点的骨骼角度设置为0。

S104，根据骨骼角度在多帧图像中的数值变化，生成每个骨骼关键点对应的特征编码。

应当理解，在待分类视频中，人物的动作发生变化，每个骨骼关键点对应的骨骼角度也将相应变化。相应地，在从待分类视频中抽取出的多帧图像中，每个骨骼关键点对应的骨骼角度也相应变化。

为了生成每个骨骼关键点对应的特征编码，一种可能的实现方式是，分别在多帧图像中获取骨骼角度在多帧图像中的数值，将骨骼角度在多帧图像中的数值按照多帧图像的时序进行排列，以生成每个骨骼关键点对应的骨骼角度数值序列。根据每个骨骼关键点对应的骨骼角度数值序列，生成每个骨骼关键点对应的特征编码。

需要说明的是，骨骼角度数值序列是多帧图像中人物的骨骼关键点动作变化的量化结果，包含了骨骼关键点动作变化的特征。但是，待分类视频的时长可能很长，抽取出的多帧图像也可能较多，对应的骨骼角度数值序列也可能较长，需要对骨骼角度数值序列进行进一步处理，去除其中的无效信息，以生成每个骨骼关键点对应的特征编码。

可以理解，特征编码应当包含人物动作的特征信息，而不包含无效信息。

考虑到多帧图像中在时序上相邻的两帧图像往往十分接近，而且人物动作一般具有较大的连贯性。为了去除骨骼角度数值序列中的无效信息，生成每个骨骼关键点对应的特征编码，一种可能的实现方式是，根据每个骨骼关键点对应的骨骼角度数值序列，确定每个骨骼关键点在多帧图像中的骨骼角度变化拐点，其中，骨骼角度变化拐点包括上拐点和下拐点。根据上拐点和下拐点，生成每个骨骼关键点对应的特征编码。

举例来说，如图6所示，将骨骼关键点1在每一帧图像中对应的骨骼角度的数值按照图像的时序进行排列，生成每个骨骼关键点对应的骨骼角度数值序列，{0，7，10，5，25，9，5……}。如图6所示，从0到7，再到10，骨骼关键点1对应的骨骼角度一直在增加，但从10到5，骨骼关键点1对应的骨骼角度突然减小，紧接着，从5到25又增加，从25到9又减小。因此，10，5，25是骨骼关键点1在多帧图像中的骨骼角度变化拐点。具体地，10和25是下拐点，用1标注，5是上拐点，用2标注。对于不是骨骼角度变化拐点的骨骼角度用0标注。

如图7所示，将标注的0舍去，即可得到骨骼关键点1对应的特征编码。

如图8所示，对每一个骨骼关键点进行相同的处理，得到每一个骨骼关键点对应的特征编码。

需要特别说明的是，本发明实施例所提供的视频分类方法中生成的每个骨骼关键点对应的特征编码是将每个骨骼关键点在视频中的连续动作的转折点作为特征进行编码的，具体体现在每个骨骼关键点对应的骨骼角度的变化趋势是否发生变化。进一步地，对上拐点和下拐点采用不同数值进行特征编码加以区分。

S105，根据特征编码对待分类视频进行分类。

应当理解的是，特征编码是待分类视频中人物动作变化抽象出来的数值编码，代表着待分类视频中人物的动作变化特征。因此，可以通过特征编码对待分类视频进行分类。

进一步地，为了让视频分类更加准确，一种可能的实现方式是，在根据特征编码对待分类视频进行分类之后，还包括：在多帧图像中识别出人物的性别，根据人物的性别，对待分类视频进行进一步分类。

综上所述，本发明实施例所提出的一种视频分类方法，获取待分类视频的多帧图像。分别在多帧图像中识别人物以及人物的骨骼关键点，根据每帧图像中的人物的区域，分别在每帧图像中识别出骨骼关键点对应的骨骼角度。根据骨骼角度在多帧图像中的数值变化，生成每个骨骼关键点对应的特征编码。根据特征编码对待分类视频进行分类。由此，实现了通过视频中的人物，对视频进行分类，不依赖视频标题和视频标签，使得对视频的分类更加准确。

为了更加清楚地说明本发明实施例所提出的视频分类方法是如何根据特征编码对待分类视频进行分类的，本发明实施例还提出了另一种视频分类方法。图9为本发明实施例所提供的另一种视频分类方法的流程示意图。如图9所示，基于图2所示的方法流程，S105根据特征编码对待分类视频进行分类，包括：

S201，根据特征编码生成待分类视频对应的编码索引。

其中，编码索引是将特征编码、骨骼关键点、视频进行合并而得到的一个数据组。

为了生成编码索引，一种可能的实现方式是，对多个骨骼关键点分别进行编号，根据每个骨骼关键点的编号和每个骨骼关键点对应的特征编码，生成每个骨骼关键点对应的编码对。根据每个骨骼关键点对应的编码对和待分类视频的编号，生成待分类视频对应的编码索引。

由此，可以得到形如{视频id，骨骼关键点1：特征编码1，骨骼关键点2：特征编码2，……，骨骼关键点n：特征编码n}的编码索引。

S202，根据编码索引对待分类视频进行分类。

应当理解，对待分类视频进行分类是依据不同视频中人物动作的相似度实现的，而编码索引包括了待分类视频中每个骨骼关键点的动作变化特征。

为了对待分类视频进行分类，一种可能的实现方式是，获取多个参考视频对应的编码索引，将待分类视频对应的编码索引分别与多个参考视频对应的编码索引进行相似度打分，以分别获得待分类视频与多个参考视频的多个相似度。根据待分类视频与多个参考视频的多个相似度，对待分类视频进行分类。

进一步地，由于不同的视频中人物的骨骼关键点的编号是确定的，因此可以对每个骨骼关键点进行动作变化的比较。一种可能的实现方式是，将待分类视频与多个参考视频分别对应的编码索引中的每个编码对进行相似度打分，以分别获得每个骨骼关键点对应的相似度分值。根据每个骨骼关键点对应的相似度分值，对待分类视频进行分类。

具体地，当每个骨骼关键点对应的相似度分值都大于等于90时，说明待分类视频与该参考视频属于同一类别，将该参考视频的类别作为该待分类视频的类别。

如图10所示，为了增加应用产品的功能，可以在获得每个骨骼关键点对应的相似度分值之后，计算待分类视频与多个参考视频的相似度综合分值，根据综合分值的排序，向用户推荐相似视频。

从而，实现了根据特征编码对待分类视频进行分类。

为了更加清楚地说明本发明实施例所提供的视频分类方法，下面进行举例说明。

如图11所示，首先对待分类视频进行人物识别，通过训练数据集对机器学习模型进行训练，实现从待分类视频的多帧图像中识别出人物，人物性别以及人物的骨骼关键点。

再在每帧图像中识别出每个骨骼关键点对应的骨骼角度，将骨骼关键点在每帧图像中对应的骨骼角度按照图像的时序进行排列，生成该骨骼关键点对应的骨骼角度数值序列。

对每个骨骼角度数值序列进行优化，去除无效信息，保留拐点作为该骨骼关键点对应的特征编码。

将对骨骼关键点进行编号，结合对应的特征编码，待分类视频编号，生成待分类视频的编码索引。

将待分类视频与参考视频进行编码索引相似度打分，若每个骨骼关键点的相似度分值都大于等于90，则将该参考视频的类别作为待分类视频的类别。而且，根据每个骨骼关键点相似度分值，生成视频之间的相似度综合分值，向用户推荐相似度综合分值高的视频。

为了实现上述实施例，本发明实施例还提出一种视频分类装置，图12为本发明实施例所提供的一种视频分类装置的结构示意图，如图12所示，该装置包括：获取模块310，第一识别模块320，第二识别模块330，生成模块340，第一分类模块350。

获取模块310，用于获取待分类视频的多帧图像。

第一识别模块320，用于分别在多帧图像中识别人物以及人物的骨骼关键点。

第二识别模块330，用于根据每帧图像中的人物的区域，分别在每帧图像中识别出骨骼关键点对应的骨骼角度。

生成模块340，用于根据骨骼角度在多帧图像中的数值变化，生成每个骨骼关键点对应的特征编码。

第一分类模块350，用于根据特征编码对待分类视频进行分类。

进一步地，为了分别在每帧图像中识别出骨骼关键点对应的骨骼角度，一种可能的实现方式是，第二识别模块330，包括：第一获取子模块331，用于获取每个骨骼关键点对应的坐标系。第一生成子模块332，用于根据人物的区域，生成每个骨骼关键点对应的骨骼角度。

进一步地，为了生成每个骨骼关键点对应的特征编码，一种可能的实现方式是，生成模块340，包括：第二获取子模块341，用于分别获取骨骼角度在多帧图像中的数值。排列子模块342，用于将骨骼角度在多帧图像中的数值按照多帧图像的时序进行排列，以生成每个骨骼关键点对应的骨骼角度数值序列。第二生成子模块343，用于根据每个骨骼关键点对应的骨骼角度数值序列，生成每个骨骼关键点对应的特征编码。

进一步地，为了去除骨骼角度数值序列中的无效信息，生成每个骨骼关键点对应的特征编码，一种可能的实现方式是，第二生成子模块343，包括：确定单元3431，用于根据每个骨骼关键点对应的骨骼角度数值序列，确定每个骨骼关键点在多帧图像中的骨骼角度变化拐点，其中，骨骼角度变化拐点包括上拐点和下拐点。第一生成单元3432，用于根据上拐点和下拐点，生成每个骨骼关键点对应的特征编码。

进一步地，为了让视频分类更加准确，一种可能的实现方式是，该装置还包括：第三识别模块360，用于在多帧图像中识别出人物的性别。第二分类模块370，用于根据人物的性别，对待分类视频进行进一步分类。

需要说明的是，前述对视频分类方法实施例的解释说明也适用于该实施例的视频分类装置，此处不再赘述。

综上所述，本发明实施例所提出的一种视频分类装置，获取待分类视频的多帧图像。分别在多帧图像中识别人物以及人物的骨骼关键点，根据每帧图像中的人物的区域，分别在每帧图像中识别出骨骼关键点对应的骨骼角度。根据骨骼角度在多帧图像中的数值变化，生成每个骨骼关键点对应的特征编码。根据特征编码对待分类视频进行分类。由此，实现了通过视频中的人物，对视频进行分类，不依赖视频标题和视频标签，使得对视频的分类更加准确。

为了实现上述实施例，本发明实施例还提出另一种视频分类装置，图13为本发明实施例所提供的另一种视频分类装置的结构示意图。如图13所示，基于图12所示的装置结构，第一分类模块350，包括：第三生成子模块351，分类子模块352。

第三生成子模块351，用于根据特征编码生成待分类视频对应的编码索引。

分类子模块352，用于根据编码索引对待分类视频进行分类。

进一步地，为了生成编码索引，一种可能的实现方式是，第三生成子模块351，包括：编号单元3511，用于对多个骨骼关键点分别进行编号。第二生成单元3512，用于根据每个骨骼关键点的编号和每个骨骼关键点对应的特征编码，生成每个骨骼关键点对应的编码对。第三生成单元3513，用于根据每个骨骼关键点对应的编码对和待分类视频的编号，生成待分类视频对应的编码索引。

进一步地，为了对待分类视频进行分类，一种可能的实现方式是，分类子模块352，包括：获取单元3521，用于获取多个参考视频对应的编码索引。打分单元3522，用于将待分类视频对应的编码索引分别与多个参考视频对应的编码索引进行相似度打分，以分别获得待分类视频与多个参考视频的多个相似度。分类单元3523，用于根据待分类视频与多个参考视频的多个相似度，对待分类视频进行分类。

进一步地，为了对每个骨骼关键点进行动作变化的比较，一种可能的实现方式是，分类单元3523，包括：打分子单元35231，用于将待分类视频与多个参考视频分别对应的编码索引中的每个编码对进行相似度打分，以分别获得每个骨骼关键点对应的相似度分值。分类子单元35232，用于根据每个骨骼关键点对应的相似度分值，对待分类视频进行分类。

从而，实现了根据特征编码对待分类视频进行分类。

为了实现上述实施例，本发明实施例还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时实现如前述方法实施例所述的视频分类方法。

为了实现上述实施例，实施例还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所述的视频分类方法。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种视频分类方法，其特征在于，包括：

获取待分类视频的多帧图像；

分别在所述多帧图像中识别人物以及所述人物的骨骼关键点；

根据每帧图像中的所述人物的区域，分别在每帧图像中识别出所述骨骼关键点对应的骨骼角度；

根据所述骨骼角度在所述多帧图像中的数值变化，生成每个所述骨骼关键点对应的特征编码，所述骨骼关键点对应的特征编码包括骨骼关键点对应的骨骼角度数值序列，所述骨骼角度数值序列是将骨骼角度在所述多帧图像中的数值按照所述多帧图像的时序进行排列后得到的，所述骨骼角度数值序列是所述多帧图像中人物的骨骼关键点动作变化的量化结果，其中，根据所述每个骨骼关键点对应的骨骼角度数值序列，确定所述每个骨骼关键点在所述多帧图像中的骨骼角度变化拐点，其中，所述骨骼角度变化拐点包括上拐点和下拐点，根据所述上拐点和所述下拐点生成所述每个骨骼关键点对应的特征编码，所述上拐点和所述下拐点采用不同数值进行特征编码；以及

根据所述特征编码对所述待分类视频进行分类，其中，根据所述特征编码生成所述待分类视频对应的编码索引，获取多个参考视频对应的编码索引，将所述待分类视频对应的编码索引分别与所述多个参考视频对应的编码索引进行相似度打分，以分别获得所述待分类视频与所述多个参考视频的多个相似度，根据所述待分类视频与所述多个参考视频的所述多个相似度，将与所述待分类视频属于同一类别的参考视频的类别作为所述待分类视频的类别。

2.如权利要求1所述的方法，其特征在于，所述根据每帧图像中的所述人物的区域，分别在每帧图像中识别出所述骨骼关键点对应的骨骼角度，包括：

获取每个所述骨骼关键点对应的坐标系；

根据所述人物的区域，生成所述每个骨骼关键点对应的骨骼角度。

3.如权利要求1所述的方法，其特征在于，所述根据所述骨骼角度在所述多帧图像中的数值变化，生成每个所述骨骼关键点对应的特征编码，包括：

分别获取所述骨骼角度在所述多帧图像中的数值；

将所述骨骼角度在所述多帧图像中的数值按照所述多帧图像的时序进行排列，以生成所述每个骨骼关键点对应的骨骼角度数值序列；

根据所述每个骨骼关键点对应的骨骼角度数值序列，生成所述每个骨骼关键点对应的特征编码。

4.如权利要求1所述的方法，其特征在于，所述根据所述特征编码生成所述待分类视频对应的编码索引，包括：

对所述多个骨骼关键点分别进行编号；

根据所述每个骨骼关键点的编号和所述每个骨骼关键点对应的特征编码，生成所述每个骨骼关键点对应的编码对；

根据所述每个骨骼关键点对应的编码对和所述待分类视频的编号，生成所述待分类视频对应的编码索引。

5.如权利要求1所述的方法，其特征在于，在所述根据特征编码对待分类视频进行分类之后，还包括：

在所述多帧图像中识别出人物的性别；

根据所述人物的性别，对所述待分类视频进行进一步分类。

6.一种视频分类装置，其特征在于，包括：

获取模块，用于获取待分类视频的多帧图像；

第一识别模块，用于分别在所述多帧图像中识别人物以及所述人物的骨骼关键点；

第二识别模块，用于根据每帧图像中的所述人物的区域，分别在每帧图像中识别出所述骨骼关键点对应的骨骼角度；

生成模块，用于根据所述骨骼角度在所述多帧图像中的数值变化，生成每个所述骨骼关键点对应的特征编码，所述骨骼关键点对应的特征编码包括骨骼关键点对应的骨骼角度数值序列，所述骨骼角度数值序列是将骨骼角度在所述多帧图像中的数值按照所述多帧图像的时序进行排列后得到的，所述骨骼角度数值序列是所述多帧图像中人物的骨骼关键点动作变化的量化结果，其中，根据所述每个骨骼关键点对应的骨骼角度数值序列，确定所述每个骨骼关键点在所述多帧图像中的骨骼角度变化拐点，其中，所述骨骼角度变化拐点包括上拐点和下拐点，根据所述上拐点和所述下拐点生成所述每个骨骼关键点对应的特征编码，所述上拐点和所述下拐点采用不同数值进行特征编码；以及

第一分类模块，用于根据所述特征编码对所述待分类视频进行分类，其中，所述第一分类模块，包括第三生成子模块和分类子模块，所述第三生成子模块用于根据所述特征编码生成所述待分类视频对应的编码索引；所述分类子模块，包括获取单元、打分单元和分类单元，所述获取单元用于获取多个参考视频对应的编码索引，所述打分单元用于将所述待分类视频对应的编码索引分别与所述多个参考视频对应的编码索引进行相似度打分，以分别获得所述待分类视频与所述多个参考视频的多个相似度，所述分类单元用于根据所述待分类视频与所述多个参考视频的所述多个相似度，将与所述待分类视频属于同一类别的参考视频的类别作为所述待分类视频的类别。

7.如权利要求6所述的装置，其特征在于，所述第二识别模块，包括：

第一获取子模块，用于获取每个所述骨骼关键点对应的坐标系；

第一生成子模块，用于根据所述人物的区域，生成所述每个骨骼关键点对应的骨骼角度。

8.如权利要求6所述的装置，其特征在于，所述生成模块，包括：

第二获取子模块，用于分别获取所述骨骼角度在所述多帧图像中的数值；

排列子模块，用于将所述骨骼角度在所述多帧图像中的数值按照所述多帧图像的时序进行排列，以生成所述每个骨骼关键点对应的骨骼角度数值序列；

第二生成子模块，用于根据所述每个骨骼关键点对应的骨骼角度数值序列，生成所述每个骨骼关键点对应的特征编码。

9.如权利要求6所述的装置，其特征在于，所述第三生成子模块，包括：

编号单元，用于对所述多个骨骼关键点分别进行编号；

第二生成单元，用于根据所述每个骨骼关键点的编号和所述每个骨骼关键点对应的特征编码，生成所述每个骨骼关键点对应的编码对；

第三生成单元，用于根据所述每个骨骼关键点对应的编码对和所述待分类视频的编号，生成所述待分类视频对应的编码索引。

10.如权利要求6所述的装置，其特征在于，所述装置还包括：

第三识别模块，用于在所述多帧图像中识别出人物的性别；

第二分类模块，用于根据所述人物的性别，对所述待分类视频进行进一步分类。

11.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令处理器执行时实现如权利要求1-5中任一项所述的视频分类方法。

12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的视频分类方法。