CN111783650A

CN111783650A - 模型训练方法、动作识别方法、装置、设备以及存储介质

Info

Publication number: CN111783650A
Application number: CN202010617391.7A
Authority: CN
Inventors: 刘栩辰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-16

Abstract

本申请公开了模型训练方法、动作识别方法、装置、设备以及存储介质，涉及计算机视觉及深度学习技术。具体实现方案为：提取训练集中多个视频样本的关键帧；针对每个所述视频样本的关键帧，基于所述关键帧及所述关键帧的前后N帧，获取所述关键帧的候选特征，所述N为正整数，所述候选特征用于描述所述关键帧的时间和/或空间特性；根据所述多个视频样本的关键帧的候选特征，确定所述多个视频样本间的相似度；基于所述多个视频样本间的相似度调整所述分类模型的模型参数，并对所述分类模型进行训练。该方案可以更快速准确地进行动作分类，改善动作识别效果。

Description

模型训练方法、动作识别方法、装置、设备以及存储介质

技术领域

本申请实施例涉及计算机技术领域中的计算机视觉和深度学习技术，尤其涉及一种模型训练方法、动作识别方法、装置、设备以及存储介质。

背景技术

近来，动作识别技术因其在视频监控、游戏和机器人等领域的广泛应用而受到工业界的高度关注。通过动作识别技术，可以从视频里识别出目标对象的主要动作类型。

从视频序列中提取出有效的运动特征是动作识别中重要的一环。运动特征的提取对动作识别的准确度和鲁棒性都有重要影响，且同样的运动特征对不同类别的人体动作的描述能力可能并不相同。常见的运动特征(比如目标对象的形状、目标对象的运动轨迹、光流、局部时空兴趣点等)可以大致分为以下四类：基于目标对象的轮廓和形状的静态特征、基于光流或运动信息的动态特征、基于时空立方体的时空特征以及用于对目标对象进行描述的描述性特征。依据视频质量和应用场景的不同，往往可以选用不同类型的运动特征作为动作识别的基础。举例来说，在远景情况下，可以利用目标对象的运动轨迹进行轨迹分析，从而识别出目标对象的动作；而近景情况下，则可以利用从与目标对象相关的一系列图像序列中提取的信息，对目标对象的四肢与躯干进行二维或三维建模，从而完成对目标对象的动作识别。

发明内容

本申请提供了一种模型训练方法、动作识别方法、装置、设备以及存储介质，可以对视频序列中的目标对象进行更准确的动作识别。

根据本申请的第一方面，提供了一种分类模型训练方法，包括：

提取训练集中多个视频样本的关键帧；

针对每个所述视频样本的关键帧，基于所述关键帧及所述关键帧的前后N帧，获取所述关键帧的候选特征，所述N为正整数，所述候选特征用于描述所述关键帧的时间和/或空间特性；

根据所述多个视频样本的关键帧的候选特征，确定所述多个视频样本间的相似度；

基于所述多个视频样本间的相似度调整所述分类模型的模型参数，并对所述分类模型进行训练。

根据本申请的第二方面，提供了一种动作识别方法，包括：

获取待识别视频；

提取所述待识别视频的关键帧；

基于所述关键帧及所述关键帧的前后N帧，获取所述关键帧的候选特征，所述N为正整数，所述候选特征用于描述所述关键帧的时间和/或空间特性；

将所述关键帧的候选特征，输入至分类模型中，获得所述待识别视频中动作对象的动作类型，所述分类模型根据上述第一方面所述的分类模型训练方法训练得到。

根据本申请的第三方面，提供了一种分类模型训练装置，包括：

提取模块，用于提取训练集中多个视频样本的关键帧；

获取模块，用于针对每个所述视频样本的关键帧，基于所述关键帧及所述关键帧的前后N帧，获取所述关键帧的候选特征，所述N为正整数，所述候选特征用于描述所述关键帧的时间和/或空间特性；

确定模块，用于根据所述多个视频样本的关键帧的候选特征，确定所述多个视频样本间的相似度；

训练模块，用于基于所述多个视频样本间的相似度调整所述分类模型的模型参数，并对所述分类模型进行训练。

根据本申请的第四方面，提供了一种动作识别装置，包括：

获取模块，用于获取待识别视频；

提取模块，用于提取所述待识别视频的关键帧；

所述获取模块还用于：基于所述关键帧及所述关键帧的前后N帧，获取所述关键帧的候选特征，所述N为正整数，所述候选特征用于描述所述关键帧的时间和/或空间特性；

获得模块，用于将所述关键帧的候选特征，输入至分类模型中，获得所述待识别视频中动作对象的动作类型，所述分类模型根据上述第一方面所述的分类模型训练方法训练得到。

根据本申请的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面所述的方法。

根据本申请的第六方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第二方面所述的方法。

根据本申请的第七方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述第一方面所述的方法。

根据本申请的第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述第二方面所述的方法。

根据本申请实施例的方案，提取训练集中多个视频样本的关键帧；针对每个视频样本的关键帧，基于关键帧及关键帧的前后N帧，获取关键帧的候选特征，N为正整数，候选特征用于描述关键帧的时间和/或空间特性；根据多个视频样本的关键帧的候选特征，确定多个视频样本间的相似度；基于多个视频样本间的相似度调整分类模型的模型参数，并对分类模型进行训练。由于该方案考虑了视频样本的帧及帧之间的时间相关性，因此，能够更快速准确地进行动作分类，改善动作识别效果。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1A为本申请实施例提供的动作识别方法适用的一种示例性的场景示意图；

图1B为本申请实施例提供的动作识别方法适用的另一种示例性的场景示意图；

图2是本申请实施例提供的分类模型训练方法的流程示意图；

图3是本申请实施例提供的分类模型训练方法的流程示意图；

图4A是本申请实施例提供的分类模型训练方法的示例框图；

图4B是本申请实施例提供的分类模型训练方法的示例框图；

图4C是本申请实施例提供的分类模型训练方法的示例框图；

图4D是本申请实施例提供的分类模型训练方法的示例框图；

图5是本申请实施例提供的动作识别方法的流程示意图；

图6是本申请实施例提供的分类模型训练装置的模块结构图；

图7是本申请实施例提供的动作识别装置的模块结构图；

图8是用来实现本申请实施例的分类模型训练方法的电子设备的框图；

图9是用来实现本申请实施例的动作识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在进行动作识别时，通常选取常见的运动特征(比如目标对象的形状、目标对象的运动轨迹、光流、局部时空兴趣点等)来描述动作对象。这些动作特征可以大致分为以下四类：基于目标对象的轮廓和形状的静态特征、基于光流或运动信息的动态特征、基于时空立方体的时空特征以及用于对目标对象进行描述的描述性特征。

现有技术中的动作识别通常是通过分类器来实现，其可以对输入的视频序列中动作对象的动作进行分类。现有的分类器通常是通过以下两种方法训练的，第一种是将视频序列作为整体，将构成该视频样本的所有帧全部压缩在一起，然后提取经压缩的帧的特征，再根据所提取的特征对分类器进行训练，之后用训练好的分类器进行动作识别；第二种则是将构成视频序列的每帧图像单独处理，分别提取每帧图像的特征，之后再将提取得到的每帧图像的特征汇总起对分类器进行训练，之后用训练好的分类器进行动作识别。然而，第一种方法未能充分考虑帧与帧之间的关系，识别准确率低；第二种方法通常运算量巨大，识别速度较慢。

事实上，在进行动作识别时，需要考虑动作对象的时间失准问题，也就是说，不同的动作对象由于其移动速度的不同，在完成同一个动作时，在时间上具有波动性，例如，同样是挥手动作，不同人完成挥手动作的时间不同。因此，需要考虑视频序列中帧与帧之间的相关性来进行动作识别。考虑到上述问题，本申请提供一种模型训练方法、动作识别方法、装置、设备以及存储介质，应用于计算机技术领域中的计算机视觉及深度学习技术，通过将一个完整的动作分解成一组有时间顺序的基本动作单元，然后提取视频序列的空间-时间(spatial-temporal)特征，来训练分类器，进而用训练好的分类器进行动作识别，从而提高动作分类的准确率，实现高效准确的动作识别。

本申请实施例提供的分类模型训练方法可应用于训练分类模型的电子设备中，训练好的分类模型可用于进行动作识别。本申请实施例的动作识别方法可以用于医院、公共场所等需要进行安全监控的场所中。图1A为本申请实施例提供的动作识别方法适用的一种示例性的场景示意图，如图1A所示，该方法涉及用户、监控设备(比如摄像头)及控制设备，控制设备上可设置动作识别装置。监控设备与控制设备可以，比如通过互联网进行数据交互。由监控设备监控用户的行动，并将记录的视频发送给控制设备，该控制设备基于使用本申请实施例的方法，识别出用户所做的动作。例如，当用户摔倒时，监控装置拍到了用户倒下的动作视频，并将其发送给控制设备，控制设备通过应用本申请实施例的动作识别方法，判断用户摔倒，即可触发警报。当然，上述监控设备也可集成于控制设备中，在这种情况下，应用本申请实施例的动作识别方法的原理类似，此处不再赘述。

在另一种应用场景中，本申请实施例提供的动作识别方法还可以应用于智能家居控制场景中。图1B为本申请实施例提供的动作识别方法适用的一种示例性的场景示意图，如图1B所示，在智能家居控制场景中，该方法涉及用户及智能家居，该智能家居上可以设置摄像头和动作识别装置。当用户在智能家居的可识别范围内完成预设动作，即可控制该智能家居。比如，智能家居中设置了动作识别装置，可以识别用户的向上挥手、高抛等动作，并且，智能家居中也定义了不同动作与对该智能家居的不同控制之间的对应关系。例如，向上挥手对应开启智能家居，高抛对应关闭智能家居等。当用户做挥手动作，摄像头采集用户的动作视频，动作识别装置处理采集的视频，并识别出用户做出了挥手动作，故开启智能家居时。当然，摄像头也可以不集成在智能家居中，在这种情况下，可将摄像头采集的视频发送给智能家居。

此外，本申请实施例的动作识别方法还可以用于行人安防、游戏互动等场景中，此处不再赘述。

图2为本申请实施例提供的分类模型训练方法的流程示意图，该方法的执行主体可以为分类模型训练装置。该方法包括：

S201、提取训练集中多个视频样本的关键帧。

一般地，在训练分类模型时，首先需要准备训练数据。在本实施例的方法中，用于训练分类模型的训练数据称为视频样本，该视频样本是指动作对象完成某个动作的视频，比如，高抛、挥手等动作。可选地，该视频样本可以由深度摄像机采集完成。该深度摄像机可以集成于用于动作识别的终端设备中，也可以独立设置，在独立设置时，深度摄像机可将其拍摄的视频发送给上述终端设备。

上述多个视频样本可以包括多种动作类别，对于每一种动作类别，可以由不同的人来完成相同动作。比如，该训练集包括300个视频样本，这300个视频样本包括了3类动作，分别为高抛、挥手、跳跃，这3类动作可以由不同人来完成，比如300个视频包括100个不同人完成的高抛动作，100个不同人完成的挥手动作以及100个不同人完成的跳跃动作。需要说明的是，上下文中视频样本的数量及其具体内容均只是举例，并不构成对本申请实施例的限制。

每个视频样本均是由多帧图像构成，因此会包括大量的图像信息，因此，为了提高训练效率，可以首先提取多个视频样本中每个视频样本的关键帧。每个视频样本可以包括不止一个关键帧，因此，可以提取多个视频样本中每个视频样本的所有关键帧。关键帧记录了该视频样本的关键信息。示例性的，可以设置固定的采样频率，对视频样本进行采样从而获得其关键帧。

S202、针对每个视频样本的关键帧，基于关键帧及该关键帧的前后N帧，获取该关键帧的候选特征。

如前文所述，由于不同动作对象在完成动作时会有时间失准问题，因此，需要考虑视频样本中的动作对象在完成动作时的时间关联性。基于此，可以在提取了每个视频样本的关键帧后，获取该关键帧的候选特征。

具体地，针对每个视频样本的关键帧，可以基于该关键帧、该关键帧之前N帧的图像以及该关键帧之后N帧的图像，得到该关键帧的候选特征。由于考虑了动作对象在关键帧及其前后N帧中的动作情况，因此，此处获得的候选特征可以反映该关键帧的时间和空间特性中的至少一个，从而更好地描述视频样本。

此处的N为正整数，比如可以取1、2、3等，可根据实际需求确定其具体数值，此处不做限制。

需要说明的是，视频样本一般有不止一个关键帧，因此，可对每个关键帧通过类似操作获取其候选特征。

S203、根据多个视频样本的关键帧的候选特征，确定多个视频样本间的相似度。

在获得了多个视频样本的关键帧的候选特征后，可以根据这些候选特征，确定多个视频样本间的相似度。

如在步骤S201中所述，训练集中的视频样本包括了不同人完成相同类型的动作，由于不同人的移动速度不同，因此，在完成相同动作时，可能存在时间失准问题，然而，这些视频样本虽然不相同，但因其是相同动作，故相似度较高；训练集中的视频样本还包括了不同类型的动作，不同动作之间的相似度较低。因此，需要基于关键帧的候选特征，确定多个视频样本间的相似度。该相似度可用于调整分类模型的模型参数。

S204、基于多个视频样本间的相似度调整分类模型的模型参数，并对该分类模型进行训练。

在获取了多个视频样本间的相似度之后，就获知了用于训练分类模型的训练数据之间的相似程度，因此，可以基于获取的相似度对分类模型的模型参数进行调整，使该分类模型能够更好地进行深度学习，更准确地区分这些视频样本，以对这些视频样本所代表的不同动作类别进行更准确地区分。

根据本申请实施例的方案，首先提取训练集中多个视频样本的关键帧，然后针对每个视频样本的关键帧，基于关键帧及关键帧的前后N帧，获取关键帧的候选特征，该候选特征可用于描述关键帧的时间和/或空间特性，之后再根据多个视频样本的关键帧的候选特征，确定多个视频样本间的相似度，最后基于多个视频样本间的相似度调整分类模型的模型参数，并对分类模型进行训练。本申请实施例的方案考虑了视频样本的基本单元，即关键帧及其前后N帧之间的时间相关性，然后基于能够反映关键帧的时间和/或空间特性的候选特征调整分类模型的模型参数并对分类模型进行训练，由于该候选特征更好地描述了视频样本，因此，如此训练得到的分类模型能够更快速准确地进行动作分类，改善动作识别效果。

图3为本申请实施例提供的分类模型训练方法的流程示意图，该方法的执行主体可以为分类模型训练装置。该方法包括：

S301、确定训练集。

在对分类模型进行训练之前，可以首先确定用于训练的训练数据。通常，可以从由视频样本组成的待训练数据集中，选取一部分视频样本作为训练集，剩余部分的视频样本作为测试集，用以对训练完成的分类模型进行测试。通过将待训练数据集划分为训练集以及测试集，在完成训练后可以用测试集中的视频样本进行测试，故能更好地对训练效果进行评估，保证训练得到的分类模型的准确性。

上述待训练数据集中的视频样本可以由多帧深度图构成，其可以由深度摄像机采集完成。该深度摄像机可以集成于用于动作识别的终端设备中，也可以独立设置，在独立设置时，深度摄像机可将其拍摄的视频发送给上述终端设备。相比传统的红绿蓝颜色图像，基于深度图的视频数据通常减少了对光变化的敏感性，鲁棒性较强。

举例来说，待训练数据集中有600个视频样本，可以选取其中的400个视频样本作为训练集，其余的200个视频样本作为测试集。

S302、提取训练集中多个视频样本的关键帧。

前述实施例中对于步骤S201的描述同样适用于本步骤，此处不再赘述。

示例性的，针对每个视频样本，可以以预设采样频率对该视频样本进行采样，从而获得该视频样本的关键帧。这里的预设采样频率可以通过综合考虑精度、运算复杂度、成本等各方面需求而定。提取关键帧作为处理对象，可以减少运算量，提高计算速度。

以步骤S301中例举的包括400个视频样本的训练集为例，在该步骤中，可以分别获得400个视频样本的关键帧。

S303、针对每个视频样本的关键帧，基于关键帧及关键帧的前后N帧，获取关键帧的候选特征。

在获取了视频样本的关键帧之后，可以基于关键帧及关键帧的前后N帧，获取关键帧的候选特征。示例性的，针对每个关键帧，上述获取可以分为如下两步：

1)将该关键帧、该关键帧之前N帧以及该关键帧之后N帧作为与该关键帧对应的观察样本，获取该观察样本中所有帧的点云。

在这里，可以采用现有方法获取帧的点云，此处不再赘述。

2)基于该观察样本中所有帧的点云，获取该关键帧的候选特征。

在得到了观察样本中所有帧的点云之后，可以根据这些点云来计算该关键帧的候选特征。示例性的，可以通过如下方式获取：

a)针对该关键帧的每个点云，获取该点云的特征向量和特征值，并将该点云的特征向量在预设多面体上的投影量作为该点云的主成分直方图(Histogram of PrincipalComponent，HOPC)特征。

示例性的，可以基于该关键帧之前N帧中与该点云对应的点云，以及该关键帧之后N帧中与该点云对应的点云，首先获得该点云的轨迹，然后根据该点云的轨迹，确定该点云的特征向量及特征值。

在获得该点云的轨迹时，作为一种可行的实施方式，可以以该点云为球心，设定预设半径，基于该球形内的所有点云，将这些点云合并起来作为被设置为球心的点云的轨迹。

在根据该点云的轨迹确定该点云的特征向量及特征值时，作为一种可行的实施方式，可以基于该轨迹内的所有点云，用它们组成一个矩阵，并求解该矩阵的协方差矩阵以及该协方差矩阵的特征向量和特征值，作为该点云的特征向量及特征值。利用点云的轨迹求解特征向量和特征值，考虑了其时空特性，用特征向量来表征点云的轨迹，从而对其在空间上的运动情况做了量化，因此降低了计算复杂度，从而可以更加快速地完成训练过程。

在得到该点云的特征向量后，可以将其投影到预设多面体上，从而获得该点云的特征向量在该预设多面体各个面上的投影量，并用这些投影量作为该点云的HOPC特征。

采用HOPC特征而非传统的特征来描述视频样本的关键帧，由于其保存了时间信息，更好地对视频序列进行了描述，因此可以较好地解决动作识别中的时间失准问题。

需要说明的是，这里并不限制该多面体的面的数量，在选取时，可以尽量选择面更多的多面体，多面体的面越多，则其更接近球形，这样得到的特征向量能更好地描述该点云。可选地，可以选择20面体作为上述预设多面体。

b)根据该关键帧的各点云的特征值，筛选满足预设条件的点云作为该关键帧的关键点云。

这里的预设条件比如可以是该点云的特征值大于某个预设阈值，具体预设阈值的大小可以根据实际需求而定，此处不做具体限制。

c)基于该关键帧的所有关键点云的HOPC特征，得到该关键帧的候选特征。

示例性的，在得到了该关键帧的所有关键点云的HOPC特征之后，可以将各关键点云在上述预设多面体对应面上的投影拼接起来，从而得到该关键帧的候选特征。

以关键帧F为例，以该帧F的点云a为例，首先可以合并帧F-1、帧F和帧F+1(此例中N取值为1)，然后以a为球心，设定r为半径，将落入该球形内的所有点云组成矩阵X，并求解该矩阵X的协方差矩阵Y以及该协方差矩阵Y的特征向量和特征值，然后将该协方差矩阵Y的特征向量投影至20面体上，得到点云a的HOPC特征。按照上述方法，遍历关键帧F的所有点云，并将所有点云的特征值与预设阈值进行比较，最终通过拼接所有关键点云的特征向量，得到关键帧F的特征向量。需要说明的是，上述20面体仅为举例，并不构成对本申请实施例的限制。

以步骤S301中例举的包括400个视频样本的训练集为例，在该步骤中，可以分别获得400个视频样本中每个视频样本的关键帧的候选特征。

S304、根据多个视频样本的关键帧的候选特征，确定多个视频样本间的相似度。

前述实施例中对于步骤S203的描述同样适用于本步骤，此处不再赘述。

可选地，在确定多个视频样本间的相似度时，可以首先针对每个该视频样本，计算该视频样本的关键帧之间的帧间距离；然后根据各视频样本的关键帧之间的帧间距离，利用动态时间规划(Dynamic Time Warping，DTW)算法获得上述多个视频样本间的相似度。关于DTW算法的应用与现有技术类似，此处不再赘述。

以步骤S301中例举的包括400个视频样本的训练集为例，在该步骤中，可以计算400个视频样本中任两个视频样本间的相似度。

S305、基于多个视频样本间的相似度调整分类模型的模型参数，并对分类模型进行训练。

前述实施例中对于步骤S204的描述同样适用于本步骤，此处不再赘述。

如前文所述，不同人在完成相同动作时存在时间失准问题，对于记录两个不同用户完成相同动作的视频，其帧长不同，若采用传统的欧式距离等比较时，由于它们长度不同，因此会认为这两个视频截然不同，但事实上这两个视频的相似程度很高，因此，本申请实施例的方法利用DTW算法来计算视频样本间的相似度，并用计算出的相似度来调整分类模型的模型参数，训练好的分类模型即可用于进行动作识别。由于DTW算法考虑了帧与帧之间的时间相关性，因此，基于DTW算法调整分类模型的模型参数，可以更好地完成训练，提高动作识别的分类效果。

可选地，该分类模型为支持向量机SVM分类器。训练好的SVM分类器可以区分多个不同动作，更加准确快速地识别动作对象的动作。

可选地，该模型参数可以为径向基函数(Radial Basis Function，RBF)。采用RBF作为分类模型的核函数，能够更加准确地对输入的视频序列进行分类。

可选地，在训练好分类模型后，可以用测试集中的视频样本对该分类模型进行测试，以检验训练结果。以步骤S301中例举的包括200个视频样本的测试集为例，可以用上述200个视频样本来测试训练好的分类模型。

关于本申请实施例的方法，也可结合示例框图4A至图4D来理解。如图4A至图4D所示，以两个时长不同的动作序列为例，大致概述了整个过程：首先由于两个不同的动作对象在完成相同动作时的时长不同，因此，在框(A)中，这两个动作序列长度不同，之后在框(B)的基于帧的3D动作序列描述中，提取点云的空间-时间特征，并进行逐帧(frame-wise)累加，接着在框(C)中进行用于3D动作序列测量的动态时间规划(DTW)，最后再进行利用基于DTW的RBF核的SVM训练和分类。

如上所述，本申请提出一种基于DTW技术的四维人体动作识别方法。首先基于关键帧，视关键帧已及它的前后N帧作为一个观察样本，提取其HOPC特征，保存其时间信息，然后，利用DTW技术用来计算不同长度的两个动作序列(视频样本)之间的相似度距离。DTW技术能够动态地计算相似度并且考虑帧的时间顺序。该相似度优化了分类模型中的模型参数，从而提高了动作分类的准确率，改善了动作识别的分类效果。

图5为本申请实施例提供的动作识别方法的流程示意图，该方法的执行主体可以为上述图1A所示例的控制设备或图1B所示的智能家居，或者其他用于进行动作识别的电子设备。该方法包括：

S501、获取待识别视频。

该待识别视频可以由深度摄像机采集完成。该深度摄像机可以集成于用于动作识别的控制设备中，也可以独立设置，在独立设置时，深度摄像机可将其拍摄的视频发送给上述控制设备。

S502、提取该待识别视频的关键帧。

本步骤中提取关键帧的流程，可参照前述实施例中对于步骤S201和S302的描述，此处不再赘述。

S503、基于该关键帧及该关键帧的前后N帧，获取该关键帧的候选特征。

该N为正整数，该候选特征用于描述该关键帧的时间和/或空间特性。

本步骤中获取关键帧的候选特征流程，可参照前述实施例中对于步骤S202和S303的描述，此处不再赘述。

S504、将该关键帧的候选特征，输入至分类模型中，获得该待识别视频中动作对象的动作类型。

该分类模型为根据前述实施例中的分类模型训练方法训练得到的。在获取了待识别视频的关键帧的候选特征后，可以将其输入训练好的分类模型，从而识别出待识别视频中动作对象的动作类别。

采用本申请实施例的方案，在提取待识别视频的特征时，考虑了关键帧与其前后帧之间的时间相关性，从而得到了能够更好地对待识别视频进行描述的候选特征，以该候选特征作为训练好的分类模型的输入，可以更加准确地进行动作分类，改善动作识别效果。

图6是根据本申请实施例的分类模型训练装置的模块结构图。如图6所示，该分类模型训练装置600包括：

提取模块601，用于提取训练集中多个视频样本的关键帧；

获取模块602，用于针对每个上述视频样本的关键帧，基于上述关键帧及上述关键帧的前后N帧，获取上述关键帧的候选特征，上述N为正整数，上述候选特征用于描述上述关键帧的时间和/或空间特性；

确定模块603，用于根据上述多个视频样本的关键帧的候选特征，确定上述多个视频样本间的相似度；

训练模块604，用于基于上述多个视频样本间的相似度调整上述分类模型的模型参数，并对上述分类模型进行训练。

作为一种可行的实施方式，上述获取模块602具体用于：

将上述关键帧、上述关键帧之前N帧以及上述关键帧之后N帧作为与上述关键帧对应的观察样本，获取上述观察样本中所有帧的点云；

基于上述观察样本中所有帧的点云，获取上述关键帧的候选特征。

作为一种可行的实施方式，上述获取模块602具体用于：

针对上述关键帧的每个点云，获取上述点云的特征向量和特征值，并将上述点云的特征向量在预设多面体上的投影量作为上述点云的主成分直方图特征；

根据上述关键帧的各点云的特征值，筛选满足预设条件的点云作为上述关键帧的关键点云；

基于上述关键帧的所有关键点云的主成分直方图特征，得到上述关键帧的候选特征。

作为一种可行的实施方式，上述获取模块602具体用于：

基于上述关键帧之前N帧中与上述点云对应的点云，以及上述关键帧之后N帧中与上述点云对应的点云，获得上述点云的轨迹；

根据上述点云的轨迹，确定上述点云的特征向量及特征值。

作为一种可行的实施方式，上述确定模块603具体用于：

针对每个上述视频样本，计算上述视频样本的关键帧之间的帧间距离；

根据各上述视频样本的关键帧之间的帧间距离，利用动态时间规划算法获得上述多个视频样本间的相似度。

作为一种可行的实施方式，上述提取模块601具体用于：

针对每个上述视频样本，通过以预设采样频率对上述视频样本进行采样，获得上述视频样本的关键帧。

作为一种可行的实施方式，上述确定模块603还用于：

从由视频样本组成的待训练数据集中将上述多个视频样本确定为上述训练集。

作为一种可行的实施方式，每个上述视频样本由多帧深度图构成。

作为一种可行的实施方式，上述分类模型为支持向量机SVM分类器。

作为一种可行的实施方式，上述模型参数为径向基函数RBF。

本申请实施例的方案考虑了视频样本的基本单元，即关键帧及其前后N帧之间的时间相关性，然后基于能够反映关键帧的时间和/或空间特性的候选特征调整分类模型的模型参数并对分类模型进行训练，由于该候选特征更好地描述了视频样本，因此，如此训练得到的分类模型能够更快速准确地进行动作分类，改善动作识别效果。

图7是根据本申请实施例的动作识别装置的模块结构图。如图7所示，该动作识别装置700包括：

获取模块701，用于获取待识别视频；

提取模块702，用于提取上述待识别视频的关键帧；

上述获取模块701还用于：基于上述关键帧及上述关键帧的前后N帧，获取上述关键帧的候选特征，上述N为正整数，上述候选特征用于描述上述关键帧的时间和/或空间特性；

获得模块703，用于将上述关键帧的候选特征，输入至分类模型中，获得上述待识别视频中动作对象的动作类型，上述分类模型根据前述实施例中的分类模型训练方法训练得到。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的分类模型训练的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的分类模型训练的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的分类模型训练的方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的分类模型训练的方法对应的程序指令/模块(例如，附图6所示的提取模块601、获取模块602、确定模块603和训练模块604)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的分类模型训练的方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据分类模型训练的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至分类模型训练的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

分类模型训练的方法的电子设备还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图8中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与分类模型训练的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

根据本申请的实施例，本申请还提供了另一种电子设备和另一种可读存储介质。

如图9所示，是根据本申请实施例的动作识别的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的动作识别的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的动作识别的方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的动作识别的方法对应的程序指令/模块(例如，附图7所示的获取模块701、提取模块702和获得模块703)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的动作识别的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据动作识别的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至动作识别的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

动作识别的方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与动作识别的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种分类模型训练方法，包括：

提取训练集中多个视频样本的关键帧；

2.根据权利要求1所述的方法，其中，所述获取所述关键帧的候选特征包括：

将所述关键帧、所述关键帧之前N帧以及所述关键帧之后N帧作为与所述关键帧对应的观察样本，获取所述观察样本中所有帧的点云；

基于所述观察样本中所有帧的点云，获取所述关键帧的候选特征。

3.根据权利要求2所述的方法，其中，所述基于所述观察样本中所有帧的点云，获取所述关键帧的候选特征，包括：

针对所述关键帧的每个点云，获取所述点云的特征向量和特征值，并将所述点云的特征向量在预设多面体上的投影量作为所述点云的主成分直方图特征；

根据所述关键帧的各点云的特征值，筛选满足预设条件的点云作为所述关键帧的关键点云；

基于所述关键帧的所有关键点云的主成分直方图特征，得到所述关键帧的候选特征。

4.根据权利要求3所述的方法，其中，所述获取所述点云的特征向量和特征值，包括：

基于所述关键帧之前N帧中与所述点云对应的点云，以及所述关键帧之后N帧中与所述点云对应的点云，获得所述点云的轨迹；

根据所述点云的轨迹，确定所述点云的特征向量及特征值。

5.根据权利要求1-4中任一项所述的方法，其中，所述根据所述多个视频样本的关键帧的候选特征，确定所述多个视频样本间的相似度，包括：

针对每个所述视频样本，计算所述视频样本的关键帧之间的帧间距离；

根据各所述视频样本的关键帧之间的帧间距离，利用动态时间规划算法获得所述多个视频样本间的相似度。

6.根据权利要求1-4中任一项所述的方法，其中，所述提取所述训练集中多个视频样本的关键帧，包括：

针对每个所述视频样本，通过以预设采样频率对所述视频样本进行采样，获得所述视频样本的关键帧。

7.根据权利要求1-4中任一项所述的方法，其中，在提取训练集中多个视频样本的关键帧之前，还包括：

从由视频样本组成的待训练数据集中将所述多个视频样本确定为所述训练集。

8.根据权利要求1-4中任一项所述的方法，其中，每个所述视频样本由多帧深度图构成。

9.根据权利要求1-4中任一项所述的方法，其中，所述分类模型为支持向量机SVM分类器。

10.根据权利要求9所述的方法，其中，所述模型参数为径向基函数RBF。

11.一种动作识别方法，包括：

获取待识别视频；

提取所述待识别视频的关键帧；

将所述关键帧的候选特征，输入至分类模型中，获得所述待识别视频中动作对象的动作类型，所述分类模型根据权利要求1-10中任一项所述的分类模型训练方法训练得到。

12.一种分类模型训练装置，包括：

提取模块，用于提取训练集中多个视频样本的关键帧；

13.根据权利要求12所述的装置，其中，所述获取模块具体用于：

14.根据权利要求13所述的装置，其中，所述获取模块具体用于：

15.根据权利要求14所述的装置，其中，所述获取模块具体用于：

根据所述点云的轨迹，确定所述点云的特征向量及特征值。

16.根据权利要求12-15中任一项所述的装置，其中，所述确定模块具体用于：

17.根据权利要求12-15中任一项所述的装置，其中，所述提取模块具体用于：

18.根据权利要求12-15中任一项所述的装置，其中，所述确定模块还用于：

19.根据权利要求12-15中任一项所述的装置，其中，每个所述视频样本由多帧深度图构成。

20.根据权利要求12-15中任一项所述的装置，其中，所述分类模型为支持向量机SVM分类器。

21.根据权利要求20所述的装置，其中，所述模型参数为径向基函数RBF。

22.一种动作识别装置，包括：

获取模块，用于获取待识别视频；

提取模块，用于提取所述待识别视频的关键帧；

获得模块，用于将所述关键帧的候选特征，输入至分类模型中，获得所述待识别视频中动作对象的动作类型，所述分类模型根据权利要求1-10中任一项所述的分类模型训练方法训练得到。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

24.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求11所述的方法。

25.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求11所述的方法。