CN109670380B

CN109670380B - 动作识别、姿势估计的方法及装置

Info

Publication number: CN109670380B
Application number: CN201710955087.1A
Authority: CN
Inventors: 乔宇; 杜文斌; 王亚立; 江立辉; 刘健庄
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2022-12-27
Anticipated expiration: 2037-10-13
Also published as: US20200237266A1; EP3690702A1; CN109670380A; EP3690702A4; US11478169B2; WO2019072243A1

Abstract

本申请提供了一种动作识别、姿势估计的方法及装置。涉及人工智能领域，具体涉及计算机视觉领域。该动作识别方法包括：确定待处理视频，所述待处理视频为包含人体图像的视频；根据所述待处理视频确定待处理图像；对所述待处理图像进行卷积处理，得到多个特征向量，其中，所述多个特征向量分别用于表示所述待处理图像不同位置的特征；根据所述多个特征向量确定所述人体的人体关节的权重系数集合；根据所述人体关节的权重系数集合对所述多个特征向量进行加权处理，得到所述人体关节的动作特征；根据所述人体关节的动作特征确定所述人体的动作特征；根据所述人体的动作特征，确定所述人体的动作类型。本申请能够提高动作识别的准确率。

Description

动作识别、姿势估计的方法及装置

技术领域

本申请涉及人工智能领域中的计算机视觉领域，并且更具体地，涉及一种动作识别、姿势估计的方法及装置。

背景技术

在很多场景下，需要对视频中的人体动作进行识别，以确定人体动作的动作类型。例如，在监控系统中，为了感知人的意图，需要对监控系统获取的视频中的人体动作进行识别，在人机交互系统中，为了对人的行为进行理解，需要对人机交互系统获取的视频中的人体动作进行识别。

为了实现对视频中的人体动作的识别，现有方案是从待处理视频提取出某些帧的图片，然后采用卷积神经网络对图片进行特征提取，接下来再根据从图片中提取出来的特征向量确定人体的动作属于每个动作类型的置信度，然后将置信度最大(且置信度大于预设阈值)的动作类型确定为视频中的人体的动作类型。

现有方案提取的是图片中的所有区域的特征，这些特征中包含了大量的与动作无关的特征，因此，最终进行动作识别的效果不好。另外，现有方案中还存在直接提取图片中的部分区域的特征来进行动作识别的方式，但是直接简单的提取图像部分区域的特征也可能无法较好地反映人体的动作特征，导致动作识别的准确率仍然较低。

发明内容

本申请提供一种动作识别方法、姿势估计方法及装置，能够提高动作识别的准确率。

第一方面，提供了一种动作识别方法，所述方法包括：确定待处理视频，所述待处理视频为包含人体图像的视频；根据所述待处理视频确定待处理图像，所述待处理图像为下列图像中的至少一种：第一图像，根据所述待处理视频中的多帧图像生成的光流图像，其中，所述第一图像为所述待处理视频中的任意一帧图像，或者，所述第一图像为所述待处理视频中的多帧图像合成的图像；对所述待处理图像进行卷积处理，得到多个特征向量，其中，所述多个特征向量分别用于表示所述待处理图像不同位置的特征；根据所述多个特征向量确定所述人体的人体关节的权重系数集合，其中，所述人体关节的权重系数集合包括所述多个特征向量中的每个特征向量在所述人体关节的权重系数，第一类特征向量的权重系数大于或者等于第二类特征向量的权重系数，所述第一类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第一距离，所述第二类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第二距离，所述第一距离小于或者等于所述第二距离，所述人体关节的数量为多个，每个人体关节均对应一个权重系数集合；根据所述人体关节的权重系数集合对所述多个特征向量进行加权处理，得到所述人体关节的动作特征；

根据所述人体关节的动作特征确定所述人体的动作特征；根据所述人体的动作特征，确定所述人体的动作类型。

本申请中，第一类特征向量的权重系数大于或者等于第二类特征向量的权重系数，而第一类特征向量对应在待处理图像中的位置与人体关节对应在待处理图像中的位置的距离要小于或者等于第二类特征向量对应在待处理图像中的位置与人体关节对应在待处理图像中的位置的距离，因此，在本申请中，离人体关节越近的区域对应的特征向量的权重系数越大，这样能够使得待处理图像中与动作密切相关的特征在动作识别时占有较大的比重，而待处理图像中与动作不太相关的特征在动作识别时占有较小的比重，本申请在动作识别时充分考虑了待处理图像不同区域的特征在动作识别中的重要性，能够得到更加鲁棒的动作特征，从而能够提高动作识别的准确率。

在一种可能的实现方式中，所述根据所述多个特征向量确定所述人体的人体关节的权重系数集合，包括：根据所述多个特征向量以及所述人体的累计动作信息，确定所述人体关节的权重系数集合，其中，所述人体的累计动作信息用于指示当前时刻之前累计的所述人体的动作特征。

在确定人体关节的权重系数集合时，通过考虑当前时刻之前人体的累计动作信息，能够为与动作密切相关的特征向量确定更大的权重系数，进而提高动作识别的准确率。其中，所述当前时刻之前人体的累计动作信息可以通过但不限于递归神经网络获取，例如，当前时刻之前人体的累计动作信息可以通过长短期记忆模块(Long Short Term Memory，LSTM)来获取。

在一种可能的实现方式中，所述根据所述人体关节的动作特征确定所述人体的动作特征，包括：对所述人体关节的动作特征进行加权或者组合，得到所述人体的动作特征。

通过对人体关节的动作特征进行加权或者组合，能够使得与人体动作关系比较密切的人体关节的动作特征占据较大的比重，从而使得最终得到的人体的动作特征能够更好地反映人体的动作，进而提高动作识别的准确率。

在一种可能的实现方式中，所述根据所述人体关节的动作特征确定所述人体的动作特征，包括：对所述人体关节的动作特征进行加权或者组合，得到人体部分的动作特征，其中，所述人体包含多个所述人体部分，每个人体部分包含至少一个人体关节；对所述人体部分的动作特征进行加权或者组合，得到所述人体的动作特征。

根据人体关节的动作特征得到人体部分的动作特征，能够在部分关节被遮挡的情况下，通过该人体部分的其它关节的动作特征来提供动作信息，最终使得在人体部分关节被遮挡的情况也可以识别出人的动作类型。

在一种可能的实现方式中，所述待处理图像包括所述第一图像和所述光流图像，所述对所述待处理图像进行卷积处理，得到多个特征向量，包括：对所述第一图像进行卷积处理，得到所述第一图像的多个特征向量；对所述光流图像进行卷积处理，得到所述光流图像的多个特征向量；所述根据所述多个特征向量确定所述人体的人体关节的权重系数集合，包括：根据所述第一图像的多个特征向量分别确定所述人体关节的第一类权重系数集合；根据所述光流图像的多个特征向量确定所述人体关节的第二类权重系数集合；所述根据所述人体关节的权重系数集合对所述多个特征向量进行加权处理，得到所述人体关节的动作特征，包括：根据所述第一类权重系数集合对所述第一图像的多个特征向量进行加权处理，得到所述人体关节的第一类动作特征；根据所述第二类权重系数集合对所述光流图像的多个特征向量进行加权处理，得到所述人体关节的第二类动作特征；所述根据所述人体关节的动作特征确定所述人体的动作特征，包括：对所述人体关节的第一类动作特征和所述人体关节的第二类动作特征进行加权或组合，得到所述人体的动作特征。

通过对待处理视频中获取的第一图像以及光流图像提取特征，并根据从第一图像和光流图像中提取出来的特征来共同进行动作识别，既考虑到了待处理视频的中的人体动作的空间特征，也考虑到了待处理视频中的人体动作的时间变化特点，能够提高动作识别的准确性。

在一种可能的实现方式中，所述方法还包括：对神经网络进行训练，确定所述神经网络中的参数，以使得由所述神经网络产生的所述第一类特征向量的权重系数大于或者等于所述第二类特征向量的权重系数，其中，所述神经网络用于执行所述第一方面以及第一方面中的任意一种可能的实现方式中的方法。

第二方面，提供了一种姿势估计方法，所述方法包括：确定待处理视频，所述待处理视频为包含人体图像的视频；根据所述待处理视频确定待处理图像，所述待处理图像为下列图像中的至少一种：第一图像，根据所述待处理视频中的多帧图像生成的光流图像，其中，所述第一图像为所述待处理视频中的任意一帧图像，或者，所述第一图像为所述待处理视频中的多帧图像合成的图像；对所述待处理图像进行卷积处理，得到多个特征向量，其中，所述多个特征向量分别用于表示所述待处理图像不同位置的特征；根据所述多个特征向量确定所述人体的人体关节的权重系数集合，所述人体关节的权重系数集合包括所述多个特征向量中的每个特征向量在所述人体关节的权重系数，第一类特征向量的权重系数大于或者等于第二类特征向量的权重系数，所述第一类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第一距离，所述第二类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第二距离，所述第一距离小于或者等于所述第二距离，所述人体关节的数量为多个，每个人体关节均对应一个权重系数集合；将所述多个特征向量中的第一特征向量对应在所述待处理图像中的区域确定为所述人体关节的位置，其中，所述第一特征向量的权重系数为第一权重系数，所述第一权重系数为所述人体关节的权重系数集合中大于预设阈值的权重系数；根据所述人体关节的位置，确定所述人体的姿势。

根据人体关节的权重集合来估计视频中的人体的姿势，能够使得待处理视频中与动作密切相关的特征占有较大的比重，与现有方案中从待处理视频中的图像中提取的全部特征来进行姿势估计的方式相比，能够更准确地确定视频中的人体的姿势。

在一种可能的实现方式中，所述根据所述多个特征向量确定所述人体的人体关节的权重系数集合，包括：根据所述多个特征向量以及所述人体的累计动作信息，确定所述人体关节的权重系数集合，其中，所述人体的累计动作信息用于指示当前时刻之前累计的所述人体的动作特征。其中，所述当前时刻之前人体的累计动作信息可以通过但不限于递归神经网络(如LSTM)获取。

在确定人体关节的权重系数集合时，通过考虑当前时刻之前人体的累计动作信息，能够为与动作密切相关的特征向量确定更大的权重系数，进而提高姿势估计的准确率。

在一种可能的实现方式中，所述待处理图像包括所述第一图像和所述光流图像，所述对所述待处理图像进行卷积处理，得到多个特征向量，包括：对所述第一图像进行卷积处理，得到所述第一图像的多个特征向量；对所述光流图像进行卷积处理，得到所述光流图像的多个特征向量；所述根据所述多个特征向量确定所述人体的人体关节的权重系数集合，包括：根据所述第一图像的多个特征向量分别确定所述人体关节的第一类权重系数集合；根据所述光流图像的多个特征向量确定所述人体关节的第二类权重系数集合；根据所述第一类权重系数集合和所述第二类权重系数集合，确定所述人体关节的权重系数集合。

通过对待处理视频中获取的第一图像以及光流图像提取特征，并根据从第一图像和光流图像中提取出来的特征来共同进行姿势估计，既考虑到了待处理视频的中的人体动作的空间特征，也考虑到了待处理视频中的人体动作的时间变化特点，能够提高姿势估计的准确性。

在一种可能的实现方式中，所述根据所述第一类权重系数集合和所述第二类权重系数集合，确定所述人体关节的权重系数集合，包括：对所述第一类权重系数集合和所述第二类权重系数集合进行加权处理，得到所述人体关节的权重系数集合。

第三方面，提供了一种动作识别装置，所述装置包括用于执行所述第一方面或者第一方面的任一可能的实现方式中的方法的模块。

第四方面，提供了一种姿势估计装置，所述装置包括用于执行所述第二方面或者第二方面的任一可能的实现方式中的方法的模块。

第七方面，提供一种动作识别装置，所述装置包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现所述第一方面或者第一方面的任一可能的实现方式中的方法。

第八方面，提供一种姿势估计装置，所述装置包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现所述第二方面或者第二方面的任一可能的实现方式中的方法。

第九方面，提供一种芯片，所述芯片包括处理器与通信接口，所述通信接口用于与外部器件进行通信，所述处理器用于执行第一方面或第一方面的任一可能的实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第一方面或第一方面的任一可能的实现方式中的方法。

第十方面，提供一种芯片，所述芯片包括处理器与通信接口，所述通信接口用于与外部器件进行通信，所述处理器用于执行第二方面或第二方面的任一可能的实现方式中的方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行第二方面或第二方面的任一可能的实现方式中的方法。

第十一方面，提供一种计算机可读存储介质，所述计算机可读介质存储用于设备执行的程序代码，所述程序代码包括用于执行第一方面或者第一方面的任一可能的实现方式中的方法的指令。

第十二方面，提供一种计算机可读存储介质，所述计算机可读介质存储用于设备执行的程序代码，所述程序代码包括用于执行第二方面或者第二方面的任一可能的实现方式中的方法的指令。

附图说明

图1是本申请实施例的动作识别方法的示意性流程图。

图2是卷积特征图和特征向量的示意图。

图3是人体关节的示意图。

图4是人体左脚踝的权重系数集合中各个权重系数的取值情况示意图。

图5是人体图像。

图6是将权重系数集合中各个权重系数的取值情况示意图与人体图像叠加后的示意图。

图7是本申请实施例的动作识别方法的示意性流程图。

图8是本申请实施例的姿势估计方法的示意性流程图。

图9是驾驶员危险行为提醒系统的示意性框图。

图10是危险行为识别系统的示意性框图。

图11是本申请实施例的动作识别装置的示意性框图。

图12是本申请实施例的动作识别装置的示意性框图。

图13是本申请实施例的动作识别装置的示意性框图。

图14是本申请实施例的动作识别装置的示意性框图。

图15是本申请实施例的姿势估计装置的示意性框图。

图16是本申请实施例的姿势估计装置的示意性框图。

图17是本申请实施例的姿势估计装置的示意性框图。

图18是本申请实施例的姿势估计装置的示意性框图。

图19是本申请实施例的动作识别和姿势估计装置的示意性框图。

具体实施方式

由于视频图像中不同的区域对动作识别的重要性是不同的，人体关节所在的区域对动作识别更重要，而背景区域相对来说重要性比较低。为了更好地进行动作识别，在提取人体的动作特征时可以对不同的图像区域区别对待，具体地，可以对与人体关节密切相关的图像区域给予更高的权重，而对与人体关节不太相关的图像区域给予较低的权重，从而更好地对视频中的人体进行动作识别，提高动作识别的准确率。下面结合图1对本申请实施例的动作识别方法进行详细的介绍。

图1是本申请实施例的动作识别方法的示意性流程图。图1所示的方法可以应用在人机交互、视频监控、辅助驾驶以及自动驾驶等需要对视频中的人体动作进行动作识别的场景中，并且，图1所示的方法可以由人机交互系统中的机器、视频监控系统、辅助驾驶系统或者自动驾驶系统来执行。

图1所示的方法包括步骤110至步骤160，下面分别对步骤110至步骤160进行介绍。

110、确定待处理视频，该待处理视频为包含人体图像的视频。

应理解，上述待处理视频可以是包含人体相关图像的视频，例如，该待处理视频可以是以下视频中的任意一种：视频监控系统监控得到的包含人体相关图像的视频；辅助驾驶系统或者自动驾驶系统获取的包含路人相关图像的视频；人机交互系统所捕获的人体与机器交互的视频。

120、根据待处理视频确定待处理图像。

上述待处理图像可以是下列图像中的至少一种：

第一图像；

光流图像。

其中，第一图像为所述待处理视频中的任意一帧图像，或者第一图像是待处理视频中的多帧图像合成后得到的图像，光流图像为根据待处理视频中的多帧图像生成的图像。

130、对待处理图像进行卷积处理，得到多个特征向量，其中，该多个特征向量用于表示待处理图像在不同位置的特征。

在步骤130中，对待处理图像进行卷积处理具体可以包含以下三种情况：

情况一：对第一图像进行卷积处理，得到第一图像的多个特征向量。

情况二：对光流图像进行卷积处理，得到光流图像的多个特征向量。

情况三：对第一图像和光流图像进行卷积处理，得到第一图像的多个特征向量和光流图像的多个特征向量。

应理解，在获取光流图像时，可以先从待处理视频中抽取多帧图像或者图片，然后再根据抽取的多帧图像来生成待处理视频的光流图像。

例如，从待处理视频中获取若干帧图片I_t，I_t-1…I_t-N，其中，I_t为当前时刻t对应的一帧图片，I_t-1为当前时刻t之前的时刻t-1对应的一帧图片，通过计算这些图片在x和y这两个方向的光流，可以得到一个具有2N(N为大于1的整数)个通道的光流图像。

在步骤120中，可以采用卷积神经网络对待处理视频进行卷积运算先得到卷积特征图，然后再得到多个特征向量。

具体地，如图2所示，可以对待处理视频进行卷积处理，得到卷积特征图(convolution feature map)C_t，其中，C_t具有d_c个通道，每个通道的分辨率为K₁×K₂，因此可以用一个K₁×K₂×d_c矩阵来表示，即

卷积特征图的每个通道具有个K₁×K₂元素，每个通道中的第k个元素(k＝1,2,…,K₁×K₂)组成卷积特征图的第k个特征向量C_t(k)。因此卷积特征图又可以表示为K₁×K₂个特征向量，每个向量的维度为d_c×1，即

如下图所示。

将输入的图像划分为K₁×K₂个区域，则第k个特征向量C_t(k)对应图像中第k个区域(或者位置)的特征。

140、根据多个特征向量确定人体的人体关节的权重系数集合。

应理解，在步骤140中人体关节的数量为多个，根据多个特征向量是要确定每个人体关节的权重系数集合，也就是说每一个人体关节都有一个权重系数集合。

另外，在步骤130中，人体关节的权重系数集合包括多个特征向量中的每个特征向量在人体关节的权重系数，并且，多个特征向量中的第一类特征向量的权重系数大于或者等于多个特征向量中的第二类特征向量的权重系数，其中，第一类特征向量对应在待处理图像中的位置和人体关节对应在待处理图像中的位置之间的距离为第一距离，第二类特征向量对应在待处理图像中的位置和人体关节对应在待处理图像中的位置之间的距离为第二距离，第一距离小于或者等于第二距离。

如图3所示，头部(head)、左肩膀(shoulder)、右肩膀、左肘部(elbow)、右肘部、左手腕(wrist)、右手腕、左臀部(hip)、右臀部、左膝盖(knee)、右膝盖、左脚踝(ankle)和右脚踝均为人体关节，也就是说，图3示出了13个人体关节，这些人体关节的编号为(1)至(13)。应理解，本申请中的人体关节并不局限于上述关节。

150、根据人体关节的权重系数集合对多个特征向量进行加权处理，得到人体关节的动作特征。

具体地，可以确定多个特征向量中的每个特征向量与相对应的权重系数的乘积，然后将得到的多个乘积进行加和，将加和的结果确定为人体关节的动作特征。例如，可以根据公式(2)确定每个人体关节的动作特征。在公式(2)中

为人体关节J的动作特征，C_t(k)为特征向量，

为C_t(k)的权重系数。

160、根据人体关节的动作特征确定所述人体的动作特征。

应理解，在步骤160中，最终确定的人体的动作特征可以是一个特征向量(该特征向量可以是一个1*N的向量)，该特征向量包含人体的动作信息。

在根据多个人体关节的动作特征确定人体的动作特征可以具体采用以下两种方式进行。

方式一：对人体关节的动作特征进行加权或者合并，得到人体的动作特征。

应理解，由于人体关节的数量为多个，因此，对人体关节的动作特征进行加权或者合并实质上是对多个人体关节的动作特征进行加权或者合并，以得到人体的动作特征。

由于动作特征可以用特征向量来表示，因此，当对人体关节的动作特征进行合并得到人体的动作特征时，具体可以是将各个人体关节的动作特征对应的特征向量连接在一起，形成一个新的特征向量，该新的特征向量用于表示人体的动作特征。例如，人体关节的数量为L(L为大于1的整数)，每个人体关节的动作特征对应的特征向量为1×M(M为大于1的整数)的特征向量，那么可以把L个1×M的特征向量组合起来得到一个1×N的特征向量，其中，N＝L×M。

在对多个人体关节的动作特征进行加权时，不同人体关节的动作特征的加权系数既可以相同，也可以不同。

当不同人体关节的动作特征的加权系数相同时，相当于将不同人体关节的动作特征直接相加，以得到人体的动作特征。

当不同人体关节的动作特征的加权系数不同时，可以根据人体关节在动作识别中的重要性来确定人体关节的动作特征的加权系数。例如，在动作识别中重要性较高的人体关节的动作特征的加权系数较大，而在动作识别中重要性较低的人体关节的动作特征的加权系数较小。

而人体关节在动作识别中的重要性或者重要程度可以根据动作识别的应用场景来预先设定。例如，在棒球运动的视频中，左手腕、右手腕在动作识别的重要性要大于头部在动作识别中的重要性，因此，左手腕、右手腕的动作特征的加权系数大于头部动作特征的加权系数。另外，还可以根据神经网路对各个人体关节的权重系数进行训练，使得在动作识别中重要性较高的人体关节的动作特征的加权系数大于在动作识别过程中重要性较低的人体关节的动作特征的加权系数。

本申请中，通过对人体关节的动作特征进行加权或者组合，能够使得与人体动作关系比较密切的人体关节的动作特征占据较大的比重，从而使得最终得到的人体的动作特征能够更好地反映人体的动作，进而提高动作识别的准确率。

方式二：根据人体关节的动作特征确定人体的人体部分的动作特征；根据人体部分的动作特征确定人体的动作特征。

其中，人体包含多个人体部分，每个人体部分包含至少一个人体关节。

具体地，在对视频中的人体动作进行识别时，还可以将人体划分为不同的人体部分，其中，每个人体部分可以由一个或者多个人体关节组成。进一步地，人体部分可以是由一定语义关系的人体关节组成。例如，可以将人体划分成躯干、肘部、腕部、膝盖和脚踝等五个人体部分，其中，躯干由头部、左肩部、右肩膀、左臀部和右臀部组成，肘部由左肘部和右肘部组成，手腕由左手腕和右手腕组成，膝盖由左膝盖和右膝盖组成，脚踝由左脚踝和右脚踝组成。

当人体被划分为躯干、肘部、手腕、膝盖以及脚踝这五个人体部分时，这五个人体部分与图3所示的人体关节的对应关系如表1所示。

表1人体部分与人体关节的对应关系

人体部分	人体关节
		躯干	(1)、(2)、(3)、(8)、(9)
肘部	(4)、(5)
		手腕	(6)、(7)
膝盖	(10)、(11)
		脚踝	(12)、(13)

应理解，由于每个人体部分包含至少一个人体关节，因此，在方式二中根据人体关节的动作特征确定人体部分的动作特征时，具体可以是对组成人体部分的各个人体关节的动作特征进行加权或者组合处理，进而得到人体部分的动作特征。其中，组成人体部分的各个人体关节的加权系数既可以相同，也可以不同。

具体地，可以根据公式(3)来确定每个人体部分的动作特征。

在公式(3)中，P表示人体部分，J表示组成人体部分P的人体关节，C_t(k)表示待处理图像位置k处的特征向量，

表示C_t(k)在人体关节J的权重系数。应理解，在公式(3)中，将组成人体部分P的各个人体关节的动作特征相加到一起就得到了人体部分P的动作特征，也就是说，在人体部分P的各个关节的动作特征的加权系数是相同的。

可选地，在方式二中，根据人体部分的动作特征确定人体的动作特征具体包括：对人体部分的动作特征进行加权或者组合，得到人体的动作特征。

应理解，由于人体部分的数量为多个，因此，在对人部分的动作特征进行加权或者组合得到人体的动作特征实质上是指对多个人体部分的动作特征进行加权或者组合来得到人体的动作特征。

另外，在对多个人体部分的动作特征进行加权时，不同人体部分的动作特征的加权系数既可以相同，也可以不同。

当不同人体部分的动作特征的加权系数不同时，可以根据人体部分在动作识别中的重要性来确定人体部分的动作特征的加权系数，在动作识别中重要性较高的人体部分的动作特征的加权系数较大，而在动作识别中重要性较低的人体部分的动作特征的加权系数较小。例如，躯干在动作识别中的重要性高于脚踝，那么，躯干的动作特征的加权系数大于脚踝的动作特征的加权系数。

具体地，在方式二中，可以根据公式(4)得到人体的动作特征。

在公式(4)中，P₁至P_X表示人体部分，人体部分的数量为X(X为大于1的整数)，

为各个人体部分的特征向量，用于表示各个人体部分的动作特征，S_t是最终得到的人体的特征向量，用于表示人体的动作特征。

其中，PartPool函数可以采用以下方式(但是不限于以下方式)确定S_t。

(1)、从

中选择各个分量的最大值作为S_t中相应的分量的值。

(2)、将

中各个分量的平均值作为S_t中相应的分量的值。

(3)、直接将

组合得到的一维向量作为S_t。

本申请中，根据人体关节的动作特征得到人体部分的动作特征，能够在部分关节被遮挡的情况下，通过该人体部分的其它关节的动作特征来提供动作信息，最终使得在人体部分关节被遮挡的情况也可以识别出人的动作类型。

170、根据人体的动作特征，确定人体的动作类型。

可选地，根据人体的动作特征确定人体的动作类型具体包括：根据人体的动作特征确定人体的动作属于每种动作类型的置信度；根据人体的动作属于每种动作类型的置信度确定人体的动作类型。

应理解，人体的动作类型可以是预先设置好的，例如，本申请中的人体的动作类型具体可以包括：跑步(run)、行走(walk)、棒球投掷(Baseball_pitch)、棒球击球(baseball_swing)、投球(bowl)、挺举(clean_and_jerk)、打高尔夫球(golf_swing)、跳绳(jump_rope)、引体向上(pullup)、俯卧撑(pushup)、端坐(situp)、蹲坐(squat)、弹吉他(strum_guitar)、网球发球(tennis_serve)、网球正手(tennis_forehand)等等。应理解，这里只是动作类型的一些具体例子，本申请实施例包含的动作类型不限于此。

另外，在本申请中，可以根据动作识别的应用场景来预先设定所有的动作类型，例如，当本申请实施例的动作识别的方法应用到驾驶辅助系统或者自动驾驶系统的场景中时，可以设定人体的动作类型包括行走、奔跑、看手机等等。

此外，在确定了人体的动作属于每种动作类型的置信度之后，可以将其中置信度最高(且大于预设阈值)的动作类型确定为人体的动作类型。例如，确定了人体动作属于跑步、行走、看手机的置信度分别是0.8，0.6和0.3，且置信度阈值为0.5，那么就可以确定人体的动作类型为跑步。

本申请中，根据人体关节的权重集合以及多个特征向量确定人体的动作特征，能够使得待处理视频中与动作密切相关的特征占有较大的比重，与现有方案中对这些特征同等对待的方式相比，能够提高动作识别的准确率。

可选地，作为一个实施例，步骤130中根据多个特征向量确定人体的人体关节的权重系数集合，具体包括：根据多个特征向量以及人体的累计动作信息，确定人体关节的权重系数集合，其中，人体的累计动作信息用于指示当前时刻之前累计的人体的动作特征。所述当前时刻之前人体的累计动作信息可以通过但不限于递归神经网络(如LSTM)获取。

本申请中，在确定人体关节的权重系数集合时，通过考虑当前时刻之前人体的累计动作信息，能够为与动作密切相关的特征向量确定更大的权重系数，进而提高动作识别的准确率。

应理解，确定人体关节的权重系数集合可以是确定多个特征向量中的每个特征向量在该人体关节的权重系数。

具体地，可以根据公式(5)确定每个特征向量在人体关节的权重系数。

在公式(5)中，C_t(k)为待处理视频的位置k处的特征向量，J为人体关节，P为人体关节J所在的人体部分，v^J为人体关节J自身的参数，

为人体部分P中各个人体关节公用的参数，

为特征向量C_t(k)在人体关节J的权重系数，P为J所在的人体部分，

为C_t(k)在人体关节J的权重系数。参数v^J,

b^P是通过对执行本申请实施例的动作方法的神经网络进行训练得到的。

进一步的，还可以根据公式(6)对

进行归一化处理，得到归一化处理后的权重系数。

在公式(6)中，

为C_t(k)在人体关节J的未归一化权重系数，

为对

进行归一化处理后的权重系数，

可以表征待处理视频的位置k处的特征向量C_t(k)对动作识别的重要性，

越大，就表示C_t(k)对动作识别越重要。同时

也可以表示待处理视频的位置k处存在相应人体关节的概率，

越大，就表示该位置存在人体关机的可能性越大。

图4示出了左脚踝的权重系数集合中各个权重系数的取值情况，在图4的中，越亮的区域的权重系数越大，图4中的左下角的区域的亮度明显高于图4中的其它区域，这是因为这一部分区域在左脚踝的周围，因此，这部分区域的权重系数较大。为了方便显示人体关节的权重系数集合，一般将人体关节的权重系数集合中各个权重系数的取值情况图叠加到待处理视频中提取出的图片上。具体地，将图4叠加到图5上得到图6，如图6所示，人体左脚踝周围的区域的亮度明显高于其它区域。

当步骤120中的待处理图像包含第一图像和光流图像时，步骤130至步骤160中的处理过程具体如下：

其中，步骤130中对待处理图像进行卷积处理，得到多个特征向量，包括：对第一图像进行卷积处理，得到第一图像的多个特征向量；对光流图像进行卷积处理，得到光流图像的多个特征向量；

步骤140中根据多个特征向量确定人体的人体关节的权重系数集合，包括：根据第一图像的多个特征向量分别确定人体关节的第一类权重系数集合；根据光流图像的多个特征向量确定人体关节的第二类权重系数集合；

步骤150中根据人体关节的权重系数集合对多个特征向量进行加权处理，得到人体关节的动作特征，包括：根据第一类权重系数集合对第一图像的多个特征向量进行加权处理，得到人体关节的第一类动作特征；根据第二类权重系数集合对光流图像的多个特征向量进行加权处理，得到人体关节的第二类动作特征；

步骤160中根据人体关节的动作特征确定人体的动作特征，包括：对人体关节的第一类动作特征和人体关节的第二类动作特征进行加权或组合，得到人体的动作特征。

本申请实施例中，通过对待处理视频中获取的第一图像以及光流图像提取特征，并根据从第一图像和光流图像中提取出来的特征来共同进行动作识别，既考虑到了待处理视频的中的人体动作的空间特征，也考虑到了待处理视频中的人体动作的时间变化特点，能够提高动作识别的准确性。

可选地，在根据人体的动作特征，确定人体的动作类型时，还可以分别根据第一图像和光流图像确定人体的动作特征，然后根据第一图像得到的人体的动作特征确定人体的动作属于每种动作类型的第一类置信度，根据光流图像得到的人体的动作特征确定人体的动作属于每种动作类型的第二类置信度。接下来，对第一类置信度和第二类置信度进行加权处理，得到人体的动作属于每种动作类型的置信度，最后再根据人体的动作属于每种动作类型的置信度确定人体的动作类型。

应理解，这里的第一类置信度是根据待处理图像的动作特征确定的人体属于每种动作类型的置信度，而第二类置信度是根据待处理视频的光流图像确定的人体属于每种动作类型的置信度。

通过综合考虑第一类置信度和第二类置信度，能够更准确地识别出视频中的人体的动作类型。

在对第一类置信度和第二类置信度进行加权处理时，第一类置信度和第二类置信度的加权系数可以相同，此时，对第一类置信度和第二类置信度进行加权处理相当于对第一类置信度和第二类置信度进行平均处理。

可选地，作为一个实施例，在根据多个特征向量之前确定人体关节的权重系数集合之前，图1所示的方法还包括：对执行图1所示的方法的神经网络进行训练，确定神经网络中的参数(该参数可以是神经网络本身的一些参数，或者该参数是该神经网络构成的模型的一些参数)，使得该神经网络产生的第一类特征向量的权重系数大于或者等于第二类特征向量的权重系数。

具体地，本申请实施例的动作识别方法可以由神经网络来实现，也就是将待处理视频输入到神经网络中，由神经网络实现对待处理视频中的人体的动作进行识别。在进行动作识别之前，需要对神经网络进行训练，在本申请实施例中可以利用训练视频的中的人体的动作类别和视频中的每帧图片中的人体的姿势对神经网络的训练进行监督，综合考虑动作识别的和姿势估计的误差，使得动作识别和姿势估计的总误差小于一定的阈值。

在对神经网络进行训练时，动作识别和姿势估计的总损失可以满足公式(7)。

L_total＝λ_actionL_action+λ_poseL_pose+λ_Θ||Θ||² (7)

在公式(7)中，L_action表示动作识别的损失，L_pose表示姿势估计的损失，||Θ||²是正则化项，其表示网络中所有需要学习的参数的模的平方。λ_action、λ_pose和λ_Θ分别是三者的权重系数。

其中，L_action满足公式(8)。

在公式(8)中，y_t为动作识别的真值，

为动作识别的预测值，T是训练视频的帧数、C是动作类别的数目。

对于L_pose，首先要根据训练数据中人体的姿势的真值生成训练视频的每帧图片在不同的人体关节的权重系数集合的真值

然后将

与

之间的距离作为损失，也就是L_pose。

在训练过程中综合考虑动作识别和姿势估计的误差，能够使得训练出来的神经网络在进行动作识别时取得更好的效果。

下面结合图7对本申请实施例的动作识别的方法进行详细的介绍。

701、获取待处理的视频。

具体地，可以从视频监控系统中获取视频，或者，从人机交互系统中获取视频，或者，从辅助驾驶系统中获取视频等等。应理解，这些视频是包含人体的视频，需要对该视频中的人体的动作类型进行识别。

702、从视频中提取图片。

具体而言，在步骤702中，可以直接从视频中提取当前时刻t的图像I_t。

703、对图片进行卷积处理。

在步骤703中，可以利用卷积神经网络对步骤702提取的图像I_t进行卷积处理，得到卷积特征图，然后再根据卷积特征图得到多个特征向量。

704、确定人体关节的权重系数集合。

确定人体关节的权重系数集合具体包括：根据步骤703中得到的多个特征向量C_t(k)和上一时刻得到的图像I_t的状态向量h_t-1，确定多个特征向量中的每个特征向量在人体关节的权重系数

具体计算过程如下：

根据公式(10)先确定未经过归一化处理的权重系数

然后再根据公式(11)对

进行归一化处理得到

在公式(10)中J表示不同的人体关节，P表示不同的人体部分,对于同一个人体部分中的不同人体关节，共用相同的参数

另外，每个人体关节也具有其自身的参数v^J。这样

不但表征了人体关节J的特征，还融入了人体关节J所在的人体部分的信息。

为了更好地理解公式(10)，下面举例说明各个参数以及变量的取值情况，例如，v^J为1×32的向量，

为3×512的向量，h_t-1为512×1的向量，

为32×1024的向量，C_t(k)为1024×1的向量，b^P为32×1的向量，这样根据公式(10)得到的

就是一个具体的数值了。

705、生成人体部分的动作特征。

在步骤705中，具体可以根据步骤703以及步骤704中确定的多个特征向量以及人体关节的权重系数集合来确定人体部分的动作特征。

具体可以根据权重系数

对不同位置k的C_t(k)进行加权，然后将同一个人体部分中所有的人体关节的动作特征进行相加，得到该人体部分的动作特征的特征

如公式(12)所示：

F_t ^P能够表征复杂动作中与人体部分P相关的特征。

706、生成人体的动作特征。

具体地，在生成人体的动作特征时可以将步骤705中的得到的不同人体部分的动作特征组合在一起就生成了人体的动作特征S_t。

707、更新当前时刻之前积累的人体的动作特征。

将步骤706生成的S_t作为输入，将上一时刻人体积累的动作特征h_t-1更新为h_t，人体累积的动作特征的更新可以由长短期记忆(Long Short Term Memory，LSTM)模块来实现，LSTM模块可以是属于递归神经网络的一种，具有多种不同的形式，此处使用的可以是基本的LSTM模块，但也可以使用LSTM模块的变体。

708、对视频中的人体的动作进行识别。

具体地，可以将步骤707中最终得到的人体的累积的动作特征h_t输入到动作识别模块对动作类型进行识别，具体地，可以根据公式(13)计算h_t属于每个动作类别的置信度。

在公式(13)中，

为人体的动作类型属于某种动作类型的置信度，而

和b_y是该动作类型对应的参数。在根据公式(13)确定了人体属于各个动作的置信度之后，可以将置信度最大的动作类型确定为人体的动作类型。

应理解，在上述方法的步骤701之后，还可以从待处理视频中提取若干帧图片，然后根据该若干帧图片生成待处理视频的光流图像。接下来，对光流图像的处理与步骤703至步骤708中的处理完全相同，并且根据光流图像并参照公式(13)得到了人体的动作属于各种动作类型的置信度之后，可以将每一个动作类型对应的由图片计算出来的置信度和与光流图像计算出来的置信度进行平均，然后选择置信度最高的动作类型作为人体的动作类型。

除了对视频中的人体的动作类型进行识别之外，本申请还提出了一种姿势估计方法，用于对视频中的人体的姿势进行估计。姿势估计可以是识别出待处理图片中的人体关节，并确定出人体关节在待处理图片中的位置。

图8是本申请实施例的姿势估计方法。与图1所示的动作识别方法类似，图8所示的姿势估计方法也可以应用在人机交互、视频监控、辅助驾驶以及自动驾驶等需要对视频中的人体动作进行动作识别的场景中，并且，图8所示的姿势估计方法可以由人机交互系统中的机器、视频监控系统、驾驶辅助系统或者自动驾驶系统来执行。

图8所示的方法包括步骤810至步骤860，下面分别对步骤810至步骤860进行介绍。

810、确定待处理视频，该待处理视频为包含人体图像的视频。

步骤810中的待处理视频可以是包含人体相关图像的视频，例如，待处理视频可以是以下视频中的任意一种：视频监控系统监控得到的包含人体相关图像的视频；驾驶辅助系统或者自动驾驶系统获取的包含路人相关图像的视频；人机交互系统所捕获的人体与机器交互的视频。

820、根据待处理视频确定待处理图像。

上述待处理图像可以是下列图像中的至少一种：

第一图像；

光流图像。

其中，第一图像为所述待处理视频中的一帧图像，或者第一图像是待处理视频中的多帧图像合成后得到的图像，光流图像为根据待处理视频中的多帧图像生成的图像。

830、对待处理图像进行卷积处理，得到多个特征向量，其中，该多个特征向量分别用于表示待处理图像在不同位置的特征。

与图1中所示的方法类似，步骤830中对待处理视频进行卷积处理时具体也可以包含三种情况：

情况四：对第一图像进行卷积处理，得到第一图像的多个特征向量。

情况五：对光流图像进行卷积处理，得到光流图像的多个特征向量。

情况六：对第一图像和光流图像进行卷积处理，得到第一图像的多个特征向量和光流图像的多个特征向量。

应理解，在获取光流图像时，可以先从待处理视频中抽取多帧图像，然后再根据抽取的多帧图像来生成待处理视频的光流图像。

840、根据多个特征向量确定人体的人体关节的权重系数集合。

应理解，在步骤840中人体关节的数量为多个，根据多个特征向量是要确定每个人体关节的权重系数集合，也就是说每一个人体关节都有一个权重系数集合。

另外，在步骤840中，人体关节的权重系数集合包括多个特征向量中的每个特征向量在人体关节的权重系数，并且，多个特征向量中的第一类特征向量的权重系数大于或者等于多个特征向量中的第二类特征向量的权重系数，其中，第一类特征向量对应在待处理图像中的位置和人体关节对应在待处理图像中的位置之间的距离为第一距离，第二类特征向量对应在待处理图像中的位置和人体关节对应在待处理图像中的位置之间的距离为第二距离，第一距离小于或者等于第二距离。

可选地，作为一个实施例，步骤840中根据多个特征向量确定人体的人体关节的权重系数集合，具体包括：根据多个特征向量以及人体的累计动作信息，确定人体关节的权重系数集合，其中，人体的累计动作信息用于指示当前时刻之前累计的人体的动作特征。

具体地，可以根据上文中的公式(5)和公式(6)来确定每个特征向量在人体关节的权重系数。

850、将多个特征向量中的第一特征向量对应在待处理图像中的区域确定为人体关节的位置。

在步骤850中，第一特征向量的权重系数为第一权重系数，第一权重系数为人体关节的权重系数集合中大于预设阈值的权重系数。

应理解，在步骤850中，上述第一权重系数还可以是人体关节(这里的人体关节可以是人体的任意一个人体关节，例如，头部，左脚踝等等)的权重系数集合中最大的权重系数。

860、根据人体关节的位置，确定人体的姿势。

在步骤860中，可以将人体关节的位置标记出来，并将各个人体关节相连，这样就确定了人体的姿势。

本申请中，根据人体关节的权重集合来估计视频中的人体的姿势，能够使得待处理视频中与动作密切相关的特征占有较大的比重，与现有方案中从待处理视频中的图像中提取的全部特征来进行姿势估计的方式相比，能够更准确地确定视频中的人体的姿势。

当步骤820中的待处理图像包含第一图像和光流图像时，步骤830和步骤840中的处理过程具体如下：

其中，步骤830中对待处理图像进行卷积处理，得到多个特征向量，包括：对第一图像进行卷积处理，得到第一图像的多个特征向量；对光流图像进行卷积处理，得到光流图像的多个特征向量；

步骤840中根据多个特征向量确定人体的人体关节的权重系数集合，包括：根据第一图像的多个特征向量分别确定人体关节的第一类权重系数集合；根据光流图像的多个特征向量确定人体关节的第二类权重系数集合；根据第一类权重系数集合和第二类权重系数集合，确定人体关节的权重系数集合。

本申请实施例中，通过从待处理视频中获取待处理图像和光流图像，并根据从待处理图像和光流图像得到的权重系数集合来进行姿势估计，能够提高姿势估计的准确性。

可选地，作为一个实施例，根据第一类权重系数集合和第二类权重系数集合，确定人体关节的权重系数集合，包括：对第一类权重系数集合和第二类权重系数集合进行加权处理，得到人体关节的权重系数集合。

本申请中，通过对第一类权重系数集合和第二类权重系数集合进行加权处理，能够根据第一图像和光流图像对姿势估计的重要性来合理确定权重，从而能够根据得到的人体关节的权重系数集合更好地进行姿势估计。

应理解，图7所示的方法除了可以进行动作识别之外，还可以对视频中的人体进行姿势估计，具体地，当图7所示的方法对光流图像采用与图片相同的处理之后，还可以对光流图像以及待处理图片得到的每个人体关节的权重系数集合中的相应的权重值进行平均，然后选择平均后的权重系数集合中的权重系数最大的位置作为该人体关节的估计位置。接下来，采用同样的方式估计出其它人体关节的位置，并将关节位置进行连线，从而实现了对人体的姿势估计。

下面对本申请实施例的动作识别方法和姿势估计方法的可能的应用场景进行介绍。

本申请实施例的动作识别方法和姿势估计方法可以应用在以下几种场景中。

场景一：行人行为分析预警系统

在自动驾驶系统(Autonomous Driving System，ADS)或者高级辅助驾驶系统(Advanced Driving Assistant System，ADAS)中，如何避免碰撞行人是一个非常重要的问题，为了解决该问题，一般是识别出路上的行人并计算行人与汽车之间的距离来避免碰撞行人。但是仅仅计算行人与汽车之间的距离并不能很好地避免碰撞行人。本申请的动作识别方法可以应用在行人行为分析预警系统中，对行人的动作类型进行识别，进而得到行人的动作类型，接下来，可以根据行人的动作类型分析对驾驶的威胁程度，例如，行人的行走对驾驶的威胁程度较小，行人在跑步或者看手机对驾驶的威胁程度较大。通过识别出对驾驶威胁程度较大的行为，可以提前进行预警或者进行相应的处理措施。

场景二：驾驶员危险行为提醒系统

很多交通事故是由于驾驶员的疏忽造成的，如驾驶员开车时看手机或者在开车时作出其它的危险行为等等。本申请的动作识别的方法可以应用在驾驶员危险行为提醒系统中，以及时发现驾驶员的危险行为并对发出警告，从而降低交通事故的发生率。

如图9所示，驾驶员危险行为提醒系统包括车内摄像机、动作识别模块和危险行为提醒模块。图9所示的驾驶员危险行为提醒系统可以应用在ADAS中，驾驶员危险行为提醒系统通过车内摄像头采集驾驶员的视频，通过动作识别模块(该动作识别模块具体可以采用本申请实施例的动作识别的方法对驾驶员的动作进行识别)识别出驾驶员的动作，如正常驾驶、看手机等，当驾驶员的动作对驾驶构成威胁时，危险行为提醒模块对驾驶员提出警告。

场景三：人机交互系统

在人机交互系统中可以采用本申请实施例的动作识别方法和姿势估计方法对玩家的视频进行处理，从而识别出人体的动作(如：攻击、防守等)和姿势(主要人体关节的位置)。接下来，人机交互系统可以根据识别出来的动作执行相应的操作(如：攻击、防守等)，另外根据识别的姿势在屏幕上显示与玩家一样动作的人物，从而提高人机交互的体验。

场景四：平安城市中危险行为识别系统

如图10所示，平安城市中的危险行为识别系统可以包括城市监控摄像机、动作识别模块和危险行为报警模块。危险行为识别系统通过城市监控摄像机采集的视频，通过动作识别模块(该动作识别模块具体可以采用本申请实施例的动作识别的方法对人的动作进行识别)识别出监控视频中人的动作，当监控视频中的人出现危险行为(如抢劫、行凶、斗殴等)时，通过危险报警模块向相关部分发出报警信息。

应理解，除了上述场景一至场景四之外，本申请实施例的动作识别方法和姿势估计方法还可以应用在其它需要对视频中的人体进行动作识别或者姿势估计的场景中。

上文结合图1至图10对本申请实施例的动作识别方法和姿势估计方法进行了详细的介绍，下面结合图11至图19对本申请实施例的装置进行介绍，应理解，图11至图14所示的动作识别装置1100至动作识别装置1400可以执行本申请实施例的动作识别方法，图15至图18所示的姿势估计装置1500至姿势估计装置1800可以执行本申请实施例的姿势估计方法。图19所示的动作识别和姿势估计装置1900既可以执行本申请实施例的动作识别方法也可以执行本申请实施例的姿势估计方法。

图11是本申请实施例的动作识别装置的示意性框图。图11的动作识别装置1100包括：

确定模块1110，用于确定待处理视频，所述待处理视频为包含人体图像的视频；

所述确定模块1110还用于根据所述待处理视频确定待处理图像，所述待处理图像为下列图像中的至少一种：第一图像，根据所述待处理视频中的多帧图像生成的光流图像，其中，所述第一图像为所述待处理视频中的任意一帧图像，或者，所述第一图像为所述待处理视频中的多帧图像合成的图像；

卷积模块1120，用于对所述待处理图像进行卷积处理，得到多个特征向量，其中，所述多个特征向量分别用于表示所述待处理图像不同位置的特征；

处理模块1130，用于根据所述多个特征向量确定所述人体的人体关节的权重系数集合，其中，所述人体关节的权重系数集合包括所述多个特征向量中的每个特征向量在所述人体关节的权重系数，第一类特征向量的权重系数大于或者等于第二类特征向量的权重系数，所述第一类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第一距离，所述第二类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第二距离，所述第一距离小于或者等于所述第二距离，所述人体关节的数量为多个，每个人体关节均对应一个权重系数集合；

特征提取模块1140，用于根据所述人体关节的权重系数集合对所述多个特征向量进行加权处理，得到所述人体关节的动作特征；

所述特征提取模块1140还用于根据所述人体关节的动作特征确定所述人体的动作特征；

动作识别模块1150，用于根据所述人体的动作特征，确定所述人体的动作类型。

可选地，作为一个实施例，所述处理模块1130具体用于：

根据所述多个特征向量以及所述人体的累计动作信息，确定所述人体关节的权重系数集合，其中，所述人体的累计动作信息用于指示当前时刻之前累计的所述人体的动作特征。

可选地，作为一个实施例，所述特征提取模块1140具体用于：

对所述人体关节的动作特征进行加权或者组合，得到所述人体的动作特征。

可选地，作为一个实施例，所述特征提取模块1140具体用于：

对所述人体关节的动作特征进行加权或者组合，得到人体部分的动作特征，其中，所述人体包含多个所述人体部分，每个人体部分包含至少一个人体关节；

对所述人体部分的动作特征进行加权或者组合，得到所述人体的动作特征。

可选地，作为一个实施例，所述待处理图像包括所述第一图像和所述光流图像，所述卷积模块1120具体用于：

对所述第一图像进行卷积处理，得到所述第一图像的多个特征向量；

对所述光流图像进行卷积处理，得到所述光流图像的多个特征向量；

所述处理模块1130具体用于：

根据所述第一图像的多个特征向量分别确定所述人体关节的第一类权重系数集合；

根据所述光流图像的多个特征向量确定所述人体关节的第二类权重系数集合；

所述特征提取模块1140具体用于：

根据所述第一类权重系数集合对所述第一图像的多个特征向量进行加权处理，得到所述人体关节的第一类动作特征；

根据所述第二类权重系数集合对所述光流图像的多个特征向量进行加权处理，得到所述人体关节的第二类动作特征；

对所述人体关节的第一类动作特征和所述人体关节的第二类动作特征进行加权或组合，得到所述人体的动作特征。

图12是本申请实施例的动作识别装置的示意性框图。图12所示的动作识别装置1200包括：视频输入模块1201；图片提取模块1202；CNN模块1203；特征提取模块1204；LSTM模块1205；动作识别模块1206。

图13是本申请实施例的动作识别装置的示意性框图。

图13所示的动作识别装置1300包括：视频输入模块1301；光流计算模块1302；CNN模块1303；特征提取模块1304；LSTM模块1305；动作识别模块1306。

图14是本申请实施例的动作识别装置的示意性框图。

图14所示的动作识别装置1200包括：视频输入模块1401；图片提取模块1402；CNN模块1403；特征提取模块1404；LSTM模块1405；光流计算模块1406；CNN模块1407；特征提取模块1408；LSTM模块1409；动作识别模块1410。

图12中的动作识别装置1200是根据待处理视频中的某一帧图片对视频中的人体的动作进行识别，图13中的动作识别装置1300是根据光流图像对视频中的人体的动作进行识别，其中，这里的光流图像为根据待处理视频中的多帧图像生成的图像。

另外，对于图13的动作识别装置1400来说，装置1400既对待处理视频中提取出来的图片进行特征提取，也对光流图进行特征提取，在最后由动作识别模块1410根据从待处理视频提取出来的图片中提取的特征以及从光流图中提取出来的特征进行动作识别。这样既考虑到了待处理视频的中的人体动作的空间特征，也考虑到了待处理视频中的人体动作的时间变化特点，能够提高动作识别的准确性。

应理解，上述动作识别装置1100、动作识别装置1200、动作识别装置1300以及动作识别装置1400可以应用在上文中的场景一至场景四中，用于对视频中的人体进行动作识别。具体地，这些动作识别装置1100至1400可以是上述场景一至场景四中的系统中的设备，用于在相应的场景下对视频中的人体进行动作识别。

图15是本申请实施例的姿势估计装置的示意性框图。图15的姿势估计装置1500包括：

确定模块1510，用于确定待处理视频，所述待处理视频为包含人体图像的视频；

所述确定模块1510还用于根据所述待处理视频确定待处理图像，所述待处理图像为下列图像中的至少一种：第一图像，根据所述待处理视频中的多帧图像生成的光流图像，其中，所述第一图像为所述待处理视频中的任意一帧图像，或者，所述第一图像为所述待处理视频中的多帧图像合成的图像；

卷积模块1520，用于对所述待处理图像进行卷积处理，得到多个特征向量，其中，所述多个特征向量分别用于表示所述待处理图像不同位置的特征；

处理模块1530，用于根据所述多个特征向量确定所述人体的人体关节的权重系数集合，所述人体关节的权重系数集合包括所述多个特征向量中的每个特征向量在所述人体关节的权重系数，第一类特征向量的权重系数大于或者等于第二类特征向量的权重系数，所述第一类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第一距离，所述第二类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第二距离，所述第一距离小于或者等于所述第二距离，所述人体关节的数量为多个，每个人体关节均对应一个权重系数集合；

姿势估计模块1540，用于将所述多个特征向量中的第一特征向量对应在所述待处理图像中的区域确定为所述人体关节的位置，其中，所述第一特征向量的权重系数为第一权重系数，所述第一权重系数为所述人体关节的权重系数集合中大于预设阈值的权重系数；

所述姿势估计模块1540还用于根据所述人体关节的位置，确定所述人体的姿势。

可选地，作为一个实施例，所述处理模块1530具体用于：

可选地，作为一个实施例，所述待处理图像包括所述第一图像和所述光流图像，所述卷积模块1520具体用于：

所述处理模块1530具体用于：

根据所述第一类权重系数集合和所述第二类权重系数集合，确定所述人体关节的权重系数集合。

可选地，作为一个实施例，所述处理模块1530具体用于对所述第一类权重系数集合和所述第二类权重系数集合进行加权处理，得到所述人体关节的权重系数集合。

图16是本申请实施例的姿势估计装置的示意性框图。

图16的姿势估计装置1600包括：视频输入模块1601；图片提取模块1602；CNN模块1603；特征提取模块1604；姿势估计模块1605。

图17是本申请实施例的姿势估计装置的示意性框图。

图17的姿势估计装置1700包括：视频输入模块1701；光流计算模块1702；CNN模块1703；特征提取模块1704；姿势估计模块1705。

图18是本申请实施例的姿势估计装置的示意性框图。

图18所示的姿势估计装置1800包括：视频输入模块1801；图片提取模块1802；CNN模块1803；特征提取模块1804；光流计算模块1805；CNN模块1806；特征提取模块1807；姿势估计模块1808。

图16中的姿势估计装置1600是根据待处理视频中的某一帧图片对视频中的人体的姿势进行估计，图17中的姿势估计装置1700是根据光流图像对视频中的人体的姿势进行估计，其中，这里的光流图像为根据待处理视频中的多帧图像生成的图像。

另外，对于图18的姿势估计装置1800来说，装置1800既对待处理视频中提取出来的图片进行特征提取，也对光流图进行特征提取，在最后由姿势估计模块1808根据从待处理视频提取出来的图片中提取的特征以及从光流图中提取出来的特征进行姿势估计。这样既考虑到了待处理视频的中的人体动作的空间特征，也考虑到了待处理视频中的人体动作的时间变化特点，能够提高姿势估计的准确性。

应理解，上述姿势估计装置1500、作姿势估计装置1600、作姿势估计装置1700以及作姿势估计装置1800可以应用在上文中的场景一至场景四中，用于对视频中的人体的姿势进行动作识别。具体地，这些姿势估计装置1500至1800可以是上述场景一至场景四中的系统中的设备，用于在相应的场景下对视频中的人体的姿势进行估计。

图19是本申请实施例的动作识别和姿势估计装置的示意性框图。图19的动作识别和姿势估计装置1900包括：视频输入模块1901；图片提取模块1902；CNN模块1903；特征提取模块1904；LSTM模块1905；光流计算模块1906；CNN模块1907；特征提取模块1908；LSTM模块1909；动作识别模块1910；姿势估计模块1911。

图19中的动作识别和姿势估计装置1900既对待处理视频中提取出来的图片进行特征提取，也对光流图进行特征提取，并且，姿势估计装置1900既能够进行动态估计也能够进行姿势估计，在实现对视频中的人体进行动作识别的过程中也实现对视频中的实体进行姿势估计。

本申请提供了一种动作识别装置，所述装置包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现本申请实施例的动作识别方法。

本申请提供了一种姿势估计装置，所述装置包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现本申请实施例的姿势估计方法。

本申请提供了一种芯片，所述芯片包括处理器与通信接口，所述通信接口用于与外部器件进行通信，所述处理器用于执行本申请实施例的动作识别方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行本申请实施例的动作识别方法。

本申请提供了一种芯片，所述芯片包括处理器与通信接口，所述通信接口用于与外部器件进行通信，所述处理器用于执行本申请实施例的姿势估计方法。

可选地，作为一种实现方式，所述芯片还可以包括存储器，所述存储器中存储有指令，所述处理器用于执行所述存储器上存储的指令，当所述指令被执行时，所述处理器用于执行本申请实施例的姿势估计方法。

本申请提供了一种计算机可读存储介质，所述计算机可读介质存储用于设备执行的程序代码，所述程序代码包括用于执行本申请实施例的动作识别方法。

本申请提供了一种计算机可读存储介质，所述计算机可读介质存储用于设备执行的程序代码，所述程序代码包括用于执行本申请实施例的信道质量信息的姿势估计方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种动作识别方法，其特征在于，包括：

确定待处理视频，所述待处理视频为包含人体图像的视频；

根据所述待处理视频确定待处理图像，所述待处理图像为下列图像中的至少一种：第一图像，根据所述待处理视频中的多帧图像生成的光流图像，其中，所述第一图像为所述待处理视频中的任意一帧图像，或者，所述第一图像为所述待处理视频中的多帧图像合成的图像；

对所述待处理图像进行卷积处理，得到多个特征向量，其中，所述多个特征向量分别用于表示所述待处理图像不同位置的特征；

根据所述多个特征向量确定人体的人体关节的权重系数集合，其中，所述人体关节的权重系数集合包括所述多个特征向量中的每个特征向量在所述人体关节的权重系数，第一类特征向量的权重系数大于或者等于第二类特征向量的权重系数，所述第一类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第一距离，所述第二类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第二距离，所述第一距离小于或者等于所述第二距离，所述人体关节的数量为多个，每个人体关节均对应一个权重系数集合；

根据所述人体关节的权重系数集合对所述多个特征向量进行加权处理，得到所述人体关节的动作特征；

根据所述人体关节的动作特征确定所述人体的动作特征；

根据所述人体的动作特征，确定所述人体的动作类型。

2.如权利要求1所述的方法，其特征在于，所述根据所述多个特征向量确定所述人体的人体关节的权重系数集合，包括：

3.如权利要求1或2所述的方法，其特征在于，所述根据所述人体关节的动作特征确定所述人体的动作特征，包括：

4.如权利要求1或2所述的方法，其特征在于，所述根据所述人体关节的动作特征确定所述人体的动作特征，包括：

5.如权利要求1或2所述的方法，其特征在于，所述待处理图像包括所述第一图像和所述光流图像，所述对所述待处理图像进行卷积处理，得到多个特征向量，包括：

所述根据所述多个特征向量确定所述人体的人体关节的权重系数集合，包括：

所述根据所述人体关节的权重系数集合对所述多个特征向量进行加权处理，得到所述人体关节的动作特征，包括：

所述根据所述人体关节的动作特征确定所述人体的动作特征，包括：

6.一种姿势估计方法，其特征在于，包括：

确定待处理视频，所述待处理视频为包含人体图像的视频；

根据所述多个特征向量确定人体的人体关节的权重系数集合，所述人体关节的权重系数集合包括所述多个特征向量中的每个特征向量在所述人体关节的权重系数，第一类特征向量的权重系数大于或者等于第二类特征向量的权重系数，所述第一类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第一距离，所述第二类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第二距离，所述第一距离小于或者等于所述第二距离，所述人体关节的数量为多个，每个人体关节均对应一个权重系数集合；

将所述多个特征向量中的第一特征向量对应在所述待处理图像中的区域确定为所述人体关节的位置，其中，所述第一特征向量的权重系数为第一权重系数，所述第一权重系数为所述人体关节的权重系数集合中大于预设阈值的权重系数；

根据所述人体关节的位置，确定所述人体的姿势。

7.如权利要求6所述的方法，其特征在于，所述根据所述多个特征向量确定所述人体的人体关节的权重系数集合，包括：

8.如权利要求6或7所述的方法，其特征在于，所述待处理图像包括所述第一图像和所述光流图像，所述对所述待处理图像进行卷积处理，得到多个特征向量，包括：

9.如权利要求8所述的方法，其特征在于，所述根据所述第一类权重系数集合和所述第二类权重系数集合，确定所述人体关节的权重系数集合，包括：

对所述第一类权重系数集合和所述第二类权重系数集合进行加权处理，得到所述人体关节的权重系数集合。

10.一种动作识别装置，其特征在于，包括：

确定模块，用于确定待处理视频，所述待处理视频为包含人体图像的视频；

所述确定模块还用于根据所述待处理视频确定待处理图像，所述待处理图像为下列图像中的至少一种：第一图像，根据所述待处理视频中的多帧图像生成的光流图像，其中，所述第一图像为所述待处理视频中的任意一帧图像，或者，所述第一图像为所述待处理视频中的多帧图像合成的图像；

卷积模块，用于对所述待处理图像进行卷积处理，得到多个特征向量，其中，所述多个特征向量分别用于表示所述待处理图像不同位置的特征；

处理模块，用于根据所述多个特征向量确定人体的人体关节的权重系数集合，其中，所述人体关节的权重系数集合包括所述多个特征向量中的每个特征向量在所述人体关节的权重系数，第一类特征向量的权重系数大于或者等于第二类特征向量的权重系数，所述第一类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第一距离，所述第二类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第二距离，所述第一距离小于或者等于所述第二距离，所述人体关节的数量为多个，每个人体关节均对应一个权重系数集合；

特征提取模块，用于根据所述人体关节的权重系数集合对所述多个特征向量进行加权处理，得到所述人体关节的动作特征；

所述特征提取模块还用于根据所述人体关节的动作特征确定所述人体的动作特征；

动作识别模块，用于根据所述人体的动作特征，确定所述人体的动作类型。

11.如权利要求10所述的装置，其特征在于，所述处理模块具体用于：

12.如权利要求10或11所述的装置，其特征在于，所述特征提取模块具体用于：

13.如权利要求10或11所述的装置，其特征在于，所述特征提取模块具体用于：

14.如权利要求10或11所述的装置，其特征在于，所述待处理图像包括所述第一图像和所述光流图像，所述卷积模块具体用于：

所述处理模块具体用于：

所述特征提取模块具体用于：

15.一种姿势估计装置，其特征在于，包括：

处理模块，用于根据所述多个特征向量确定人体的人体关节的权重系数集合，所述人体关节的权重系数集合包括所述多个特征向量中的每个特征向量在所述人体关节的权重系数，第一类特征向量的权重系数大于或者等于第二类特征向量的权重系数，所述第一类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第一距离，所述第二类特征向量对应在所述待处理图像中的位置和所述人体关节对应在所述待处理图像中的位置之间的距离为第二距离，所述第一距离小于或者等于所述第二距离，所述人体关节的数量为多个，每个人体关节均对应一个权重系数集合；

姿势估计模块，用于将所述多个特征向量中的第一特征向量对应在所述待处理图像中的区域确定为所述人体关节的位置，其中，所述第一特征向量的权重系数为第一权重系数，所述第一权重系数为所述人体关节的权重系数集合中大于预设阈值的权重系数；

所述姿势估计模块还用于根据所述人体关节的位置，确定所述人体的姿势。

16.如权利要求15所述的装置，其特征在于，所述处理模块具体用于：

17.如权利要求15或16所述的装置，其特征在于，所述待处理图像包括所述第一图像和所述光流图像，所述卷积模块具体用于：

所述处理模块具体用于：

18.如权利要求17所述的装置，其特征在于，所述处理模块具体用于对所述第一类权重系数集合和所述第二类权重系数集合进行加权处理，得到所述人体关节的权重系数集合。