CN112131908A

CN112131908A - 基于双流网络的动作识别方法、装置、存储介质及设备

Info

Publication number: CN112131908A
Application number: CN201910551199.XA
Authority: CN
Inventors: 周军; 孙叶纳; 江武明; 丁松
Original assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Current assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2020-12-25
Anticipated expiration: 2039-06-24
Also published as: CN112131908B

Abstract

本发明公开了一种基于双流网络的动作识别方法、装置、计算机可读存储介质及设备，属于模式识别领域。该方法包括：从待识别视频中获取骨架数据，并根据所述骨架数据构造骨架时空图；将所述骨架时空图输入时空图卷积网络，得到第一识别结果，所述第一识别结果包括每个类别的分数；对待识别视频进行解析分帧后得到一系列帧图像；将所述一系列帧图像输入3D卷积神经网络，得到第二识别结果，所述第二识别结果包括每个类别的分数；将所述第一识别结果和第二识别结果进行融合，得到最终的每个类别的分数，完成动作识别。本发明构建的skeleton+RGB双流网络提高了分类的准确率。

Description

基于双流网络的动作识别方法、装置、存储介质及设备

技术领域

本发明涉及模式识别领域，特别是指一种基于双流网络的动作识别方法、装置、存储介质及设备。

背景技术

现阶段用于动作识别的方法主要集中于深度学习。一般分为基于RGB的3D CNN(3D卷积神经网络)，基于RGB和flow(光流)的Two-stream(双流网络)以及基于skeleton(骨架)数据的动作识别方法。

(1)基于RGB的3D CNN

该方法是直接以视频(或者看做是帧图像)作为输入，直接利用视频帧图的RGB信息，通过一个3D卷积神经网络(3D CNN)实现特征提取和动作识别。

基于RGB的3D CNN，单独依靠RGB信息，对于动作识别来说是单一的，视频中的运动信息不能很好的获取，从而影响整个系统的识别准确率。

(2)基于RGB与Flow的Two-stream

双流网络(Two-stream)，一种基于两种模态的动作识别方法，分别以RGB图像和光流图像作为输入。其中光流(Flow)是一种简单实用的图像运动表达方式，是物体在三维真实世界中的运动在二维图像平面上的表达。

该方法是基于人类视觉皮层观察事物做识别的双流假设建立，人类视觉皮层包含两条路径：腹侧流，用于识别物体；背侧流，用于识别运动信息。类比人类，用于动作识别的双流网络分别建立两个深度学习网络分支，一个用于提取视频RGB特征，一个用于提取视频的flow特征，然后将两者融合在一起，得到最终的分类结果。该方法认为，通过光流可以捕捉到视频中的运动信息。

基于flow和RGB的双流网络，目的是通过RGB获取人体外形(appearance)信息，通过flow获取运动信息。但研究表明，光流的大部分价值在于它对场景表示的表观不变，运动轨迹不是光流成功的根源。也就是说，光流并不像我们想象的那样，能从中获取足够的运动信息。光流图像对于RGB图会有弥补，光流在动作识别中表现好的原因在于其对图像的表观不变性而非运动轨迹信息。并且光流面对复杂的场景会有非常多的噪音，特别是第三视角时；光流提取的过程也比较耗时。

(3)基于skeleton数据的动作识别

骨架(skeleton)，是指人体关键(节)点信息，关节点包括鼻子，脖子，手腕，脚踝等。该方法先提取视频中人物的骨架数据，基于人体关节点之间的位置关系以及关节点随着时间的推移发生的变化来获取动作信息。

该方法以动态骨架信息作为输入，缺乏人体的appearance信息，网络学习到的信息不够全面，一定程度上会影响系统的识别效果。

发明内容

为解决上述技术问题，本发明提供一种基于双流网络的动作识别方法、装置、存储介质及设备，本发明构建的skeleton+RGB双流网络提高了分类的准确率。

本发明提供技术方案如下：

第一方面，本发明提供一种基于双流网络的动作识别方法，所述方法包括：

从待识别视频中获取骨架数据，并根据所述骨架数据构造骨架时空图；

将所述骨架时空图输入时空图卷积网络，得到第一识别结果，所述第一识别结果包括每个类别的分数；

对待识别视频进行解析分帧后得到一系列帧图像；

将所述一系列帧图像输入3D卷积神经网络，得到第二识别结果，所述第二识别结果包括每个类别的分数；

将所述第一识别结果和第二识别结果进行融合，得到最终的每个类别的分数，完成动作识别。

进一步的，所述从待识别视频中获取骨架数据，并根据所述骨架数据构造骨架时空图，包括：

通过2D姿态估计方法提取待识别视频所有帧图像的关节点数据，得到骨架数据；

根据所述骨架数据构造骨架时空图，所述骨架时空图包括关节点集合、帧内连接边集合和帧间连接边集合，其中：

所述关节点集合包括所有关节点的特征向量，关节点的特征向量包括关节点的坐标和置信度；

将每幅帧图像内部的关节点按人体结构进行连接，得到所述帧内连接边集合；

将相邻帧图像对应的关节点数据进行连接，得到所述帧间连接边集合。

进一步的，所述时空图卷积网络包括9层时空图卷积层，第4、7层的时空图卷积层设置为pooling层，每层时空图卷积层均包括一个时间卷积核，每层时空图卷积层使用残差连接，使用dropout对一半的神经元进行特征正则化处理；

前三层时空图卷积层输出64通道，中间三层时空图卷积层输出128通道，最后三层时空图卷积层输出256通道，最后将输出的256通道的数据进行全局pooling，并由softmax进行分类，得到每个类别的分数，作为第一识别结果。

进一步的，所述3D卷积神经网络依次包括第一卷积层、第一Max-Pooling层、第二卷积层、第三卷积层、第二Max-Pooling层、第一Inception模块、第二Inception模块、第三Max-Pooling层、第三Inception模块、第四Inception模块、第五Inception模块、第六Inception模块、第七Inception模块、第四Max-Pooling层、第八Inception模块、第九Inception模块、Avg-Pooling层、全连接层、Softmax层。

进一步的，所述第一卷积层的卷积核大小为7*7*7，步长为2；所述第一Max-Pooling层的核大小为1*3*3，步长为1,2,2；所述第二卷积层的卷积核大小为1*1*1；所述第三卷积层的卷积核大小为3*3*3；所述第二Max-Pooling层的核大小为1*3*3，步长为1,2,2；所述第三Max-Pooling层的核大小为3*3*3，步长为2；所述第四Max-Pooling层的核大小为2*2*2，步长为2；所述Avg-Pooling层的核大小为2*7*7，所述全连接层的核大小为1*1*1。

进一步的，所述将所述第一识别结果和第二识别结果进行融合，得到最终的每个类别的分数，包括：

将所述第一识别结果的每个类别的分数和第二识别结果的每个类别的分数取平均，作为最终的每个类别的分数。

第二方面，本发明提供一种基于双流网络的动作识别装置，所述装置包括：

骨架时空图构造模块，用于从待识别视频中获取骨架数据，并根据所述骨架数据构造骨架时空图；

第一识别模块，用于将所述骨架时空图输入时空图卷积网络，得到第一识别结果，所述第一识别结果包括每个类别的分数；

解析模块，用于对待识别视频进行解析分帧后得到一系列帧图像；

第二识别模块，用于将所述一系列帧图像输入3D卷积神经网络，得到第二识别结果，所述第二识别结果包括每个类别的分数；

融合模块，用于将所述第一识别结果和第二识别结果进行融合，得到最终的每个类别的分数，完成动作识别。

进一步的，所述骨架时空图构造模块包括：

获取单元，用于通过2D姿态估计方法提取待识别视频所有帧图像的关节点数据，得到骨架数据；

构造单元，用于根据所述骨架数据构造骨架时空图，所述骨架时空图包括关节点集合、帧内连接边集合和帧间连接边集合，其中：

进一步的，所述融合模块包括：

平均单元，用于将所述第一识别结果的每个类别的分数和第二识别结果的每个类别的分数取平均，作为最终的每个类别的分数。

第三方面，本发明提供一种用于动作识别的计算机可读存储介质，包括用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现前述第一方面所述的基于双流网络的动作识别方法的步骤。

第四方面，本发明提供一种用于动作识别的设备，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现前述第一方面所述的基于双流网络的动作识别方法的步骤。

本发明具有以下有益效果：

本发明综合考虑skeleton数据和RGB数据的识别结果，将两个识别结果进行融合，得到最终整个双流网络对待识别视频的识别类别分数，并基于分数选择得分第一的或者得分排名前几的类别作为双流网络对待识别视频的top1(得分第一)或top k(得分排名前k个)识别结果。

本发明构建的skeleton+RGB双流网络，可以充分利用双模态信息进行互补，相较于单一的模态(skeleton或RGB appearance)，本发明可以充分利用骨架数据和RGB数据进行信息的互补，能够获取更充分的有利于动作类识别的特征，从而获取更高质量的动作识别特征，帮助获取更高的分类准确率。而且与现有技术的RGB+flow的双流网络相比，skeleton数据相较于flow在复杂的场景中更具稳健性，能够提供人体的抽象信息。

并且，本发明采用ST-GCN网络结构作用于skeleton数据，能够较好地获取关节点时序上的变化以及不同关节点间的空间关系。相较于现有技术中简单地将关节点坐标构成特征向量在时序上进行分析的方法，能够更好的捕获关节点间的空间关系(关节点间的这种空间关系对动作识别是很重要的)；而且时空图卷积直接作用到图数据上，避免了之前依赖于手工设计的规则。

综上，本发明构建的skeleton+RGB双流网络提高了分类的准确率。

附图说明

图1为本发明的基于双流网络的动作识别方法流程图；

图2为本发明的skeleton+RGB双流网络进行动作识别的过程示意图；

图3为本发明的ST-GCN基于skeleton数据的动作识别流程图；

图4为本发明的人体skeleton关节点示意图；

图5为本发明的3D卷积神经网络的结构图；

图6为本发明的Inception模块的结构图；

图7为本发明的基于双流网络的动作识别装置示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明实施例提供了一种基于双流网络的动作识别方法，如图1所示，该方法包括：

步骤S100：从待识别视频中获取骨架数据，并根据骨架数据构造骨架时空图。

待识别视频可以是视频片段，本步骤首先从视频片段中获取骨架数据，骨架数据是一系列的帧，每一帧都有一组代表人体关节点的联合坐标，然后根据人体关节点的坐标和关节点序列，构造一个骨架时空图。

步骤S200：将骨架时空图输入时空图卷积网络，得到第一识别结果，第一识别结果包括每个类别的分数。

时空图卷积网络(SpatialTemporal Graph Convolutional Networks,ST-GCN)，是一种扩展的图卷积网络，用于捕获图数据的时空变化关系。图卷积网络(GraphConvolutional Network,GCN)，是在图上进行机器学习的神经网络框架，将深度学习中常用于图像的卷积神经网络应用到图数据上。

本发明将骨架时空图输入ST-GCN，对输入数据应用多层的时空图卷积操作，生成更高级别的特征图。然后将特征经Softmax分类器分类到相应的动作类别，得到每个类别的分数Score_skeleton，得到每个类别的识别概率。

步骤S300：对待识别视频进行解析分帧后得到一系列帧图像。

因为3D卷积神经网络实际上是对视频中的图像帧进行处理，因此对于含有动作的待识别视频片段，需要对视频进行解析——分帧操作获取一系列帧图像。

例如，解析图像时可以以每秒25帧的帧率进行解析。本发明中，对每一帧图像保持图像的纵横比并设定最小的尺寸为256像素，并将像素值规范到-1到1之间，随后随机进行224×224的随机剪裁。最终对于每一个视频片段将其RGB信息保存为一个(1,frame_num,224,224,3)大小的npy数据。其中1为batch size数，表示1段视频，frame_num表示这段视频的被分帧数，两个224表示图像的高与宽，3为通道数。

步骤S400：将一系列帧图像输入3D卷积神经网络，得到第二识别结果，第二识别结果包括每个类别的分数。

本发明将视频分帧处理后的一系列帧图像通过网络逐层提取特征，最终通过Softmax层得到识别分数Score_rgb，得到识别为每一类的概率。

步骤S500：将第一识别结果和第二识别结果进行融合，得到最终的每个类别的分数，完成动作识别。

本发明提出了一种基于skeleton数据和RGB数据的双流网络动作识别方法。Two-stream结构中，其中一个stream利用ST-GCN基于从视频帧图中提取的骨架数据(skeleton)捕获动作信息，这个stream可以称为skeleton流；另一个stream利用3D CNN从RGB图像中提取特征，获取appearance信息，这个stream可以称为RGB流。

本发明首先提取视频中的骨架数据构造时空图，将时空图输入到ST-GCN中提取特征，通过SoftMax分类层得到类别分数；与此同时，将视频分帧处理得到RGB帧图，将RGB数据输入到3D CNN中提取特征，通过SoftMax分类层获得类别分数；然后将基于两个分支网络获得的类别分数做融合，得到最终识别为各个类别的分数，并基于各个类别所得分数的高低得出模型对视频片段的识别结果。本发明的skeleton+RGB双流网络进行动作识别的过程如图2所示。

作为本发明的一种改进，步骤S100包括：

步骤S110：通过2D姿态估计方法提取待识别视频所有帧图像的关节点数据，得到骨架数据。

本步骤可以使用openpose工具得到骨架数据，具体过程为：基于openpose工具中的2D姿态估计提取待识别视频所有帧的18个关节点数据。18个关节点如图3所示，其中：

0:鼻子；1：脖子；2：右肩膀；3：右胳膊肘；4：右手腕；5：左肩膀；6：左胳膊肘；7：左手腕；8：右臀；9：右膝盖；10：右脚踝；11：左臀；12：左膝盖；13：左脚踝；14：右眼睛；15：左眼睛；16：右耳朵；17：左耳朵，如图4所示。

步骤S120：根据骨架数据构造骨架时空图G＝(V,E)，骨架时空图G＝(V,E)包括关节点集合V、帧内连接边集合E_S和帧间连接边集合E_F，E＝(E_S,E_F)，其中：

关节点集合V包括所有关节点的特征向量，关节点的特征向量包括关节点的坐标和置信度。

具体的：关节点集合为V＝{v_ti|t＝1,…,T,i＝1,…,N},T表示图像帧数，N表示关节点数(例如前述的一个示例，N＝18)。第t帧图像中的第i个关节点的特征向量为F(V_ti)，由关节点的坐标以及置信度组成的。每帧图像中每个关节点信息表示为(x_ti,y_ti,c_ti)，x_ti,y_ti表示第t帧图像第i个关节点的坐标，归一化到[0,1]，c_ti∈[0,1]表示置信度。

将每幅帧图像内部的关节点按人体结构进行连接，得到帧内连接边集合。

帧内连接边集合：是指将每幅帧图像内部的关节点按人体结构进行连接，构成的内部连接，表示为E_S＝{v_tiv_tj|i,j∈H}，H表示关节点标号集合。

将相邻帧图像对应的关节点数据进行连接，得到帧间连接边集合。

帧间连接边集合：是指将相邻帧图像间对应的(关节点数相同的)关节点连接，构成的帧间连接，表示为E_F＝{v_tiv_(t+1)i}，其中的每一条边代表一个特定的关节点随着时间推移的轨迹。

本发明的时空图卷积网络优选包括9层时空图卷积层，第4、7层的时空图卷积层设置为pooling层，每层时空图卷积层均包括一个时间卷积核，每层时空图卷积层使用残差连接，使用dropout对一半的神经元进行特征正则化处理；

前三层时空图卷积层输出64通道，中间三层时空图卷积层输出128通道，最后三层时空图卷积层输出256通道，最后将输出的256通道的数据进行全局pooling，并由softmax进行分类，得到每个类别的分数Score_skeleton，作为第一识别结果，得到每个类别的识别概率。ST-GCN基于skeleton数据的动作识别流程图如图3所示。

时空图卷积操作按如下公式进行：

其中，f_in表示输入，f_out为经时空图卷积操作后的输出。

i,j均表示关节点索引标号。邻接矩阵A表示关节点间的连接，k表示划分块索引。本发明优选设置α＝0.001，通过学习得到权重掩码(mask)矩阵M(初始化为全1矩阵)，用于给节点边以不同的重要性。

作为本发明的另一种改进，如图5所示，本发明的3D卷积神经网络可以依次包括第一卷积层、第一Max-Pooling层、第二卷积层、第三卷积层、第二Max-Pooling层、第一Inception模块、第二Inception模块、第三Max-Pooling层、第三Inception模块、第四Inception模块、第五Inception模块、第六Inception模块、第七Inception模块、第四Max-Pooling层、第八Inception模块、第九Inception模块、Avg-Pooling层、全连接层、Softmax层。

进一步的，第一卷积层的卷积核大小为7*7*7，步长为2；第一Max-Pooling层的核大小为1*3*3，步长为1,2,2；第二卷积层的卷积核大小为1*1*1；第三卷积层的卷积核大小为3*3*3；第二Max-Pooling层的核大小为1*3*3，步长为1,2,2；第三Max-Pooling层的核大小为3*3*3，步长为2；第四Max-Pooling层的核大小为2*2*2，步长为2；Avg-Pooling层的核大小为2*7*7，全连接层的核大小为1*1*1。

上述结构的3D卷积神经网络的处理过程为：

输入：224x224大小的图像，3通道→第一卷积层：卷积核为7×7×7→第一Max-Pooling层：1×3×3的核→第二卷积层：卷积核为1×1×1→第三卷积层：卷积核为3×3×3→第二Max-Pooling层：1×3×3的核→第一Inception模块→第二Inception模块→第三Max-Pooling层：3×3×3的核→第三Inception模块→第四Inception模块→第五Inception模块→第六Inception模块→第七Inception模块→第四Max-Pooling层：2×2×2的核→第八Inception模块→第九Inception模块→Avg-Pooling层：2×7×7的核→全连接层：1×1×1的卷积核，将输出连接成一个一维向量→Softmax分类层：得到识别为每一类的概率。

如图6所示，本发明的Inception模块一个优选的实施方式如下：

上一层的数据分别经过第一操作、第二操作、第三操作和第四操作后，将第一操作、第二操作、第三操作和第四操作的结果通过Concatenation进行连接，输出到下一层。其中：

第一操作包括第一卷积操作；第二操作包括依次连接的第二卷积操作和第三卷积操作；第三操作包括依次连接的第四卷积操作和第五卷积操作；第五操作包括依次连接的第六卷积操作和第七卷积操作。第一卷积操作至第七卷积操作的卷积核大小均为1*1*1。

作为本发明的另一种改进，本发明的步骤S500包括：

步骤S510：将第一识别结果的每个类别的分数和第二识别结果的每个类别的分数取平均，作为最终的每个类别的分数。

具体的：将skeleton流得到的类别分数Score_skeleton以及RGB流得到的类别分数Score_rgb取平均，得到最终整个双流网络对视频片段的识别类别分数Score，并基于分数选择得分第一的或者得分排名前几的类别作为双流网络对视频片段的top1或top k识别结果。

实施例2：

本发明实施例提供了一种基于双流网络的动作识别装置，如图7所示，该装置包括：

骨架时空图构造模块10，用于从待识别视频中获取骨架数据，并根据骨架数据构造骨架时空图。

第一识别模块20，用于将骨架时空图输入时空图卷积网络，得到第一识别结果，第一识别结果包括每个类别的分数。

解析模块30，用于对待识别视频进行解析分帧后得到一系列帧图像。

第二识别模块40，用于将一系列帧图像输入3D卷积神经网络，得到第二识别结果，第二识别结果包括每个类别的分数。

融合模块50，用于将第一识别结果和第二识别结果进行融合，得到最终的每个类别的分数，完成动作识别。

本发明提出了一种基于skeleton数据和RGB数据的双流网络动作识别模式。Two-stream结构中，其中一个stream利用ST-GCN基于从视频帧图中提取的骨架数据(skeleton)捕获动作信息，这个stream可以称为skeleton流；另一个stream利用3D CNN从RGB图像中提取特征，获取appearance信息，这个stream可以称为RGB流。

作为本发明的一种改进，骨架时空图构造模块可以包括：

获取单元，用于通过2D姿态估计方法提取待识别视频所有帧图像的关节点数据，得到骨架数据。

构造单元，用于根据骨架数据构造骨架时空图，骨架时空图包括关节点集合、帧内连接边集合和帧间连接边集合，其中：

关节点集合包括所有关节点的特征向量，关节点的特征向量包括关节点的坐标和置信度。

作为本发明的另一种改进，本发明的3D卷积神经网络依次包括第一卷积层、第一Max-Pooling层、第二卷积层、第三卷积层、第二Max-Pooling层、第一Inception模块、第二Inception模块、第三Max-Pooling层、第三Inception模块、第四Inception模块、第五Inception模块、第六Inception模块、第七Inception模块、第四Max-Pooling层、第八Inception模块、第九Inception模块、Avg-Pooling层、全连接层、Softmax层。

作为本发明的另一种改进，本发明的融合模块优选包括：

平均单元，用于将第一识别结果的每个类别的分数和第二识别结果的每个类别的分数取平均，作为最终的每个类别的分数。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

实施例3：

本说明书提供的上述实施例所述的方法可以通过计算机程序实现业务逻辑并记录在存储介质上，所述的存储介质可以计算机读取并执行，实现本说明书实施例1所描述方案的效果。因此，本发明还提供用于动作识别的计算机可读存储介质，包括用于存储处理器可执行指令的存储器，指令被处理器执行时实现包括实施例1的基于双流网络的动作识别方法的步骤。

所述存储介质可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

实施例4：

本发明还提供一种用于动作识别的设备，所述的设备可以为单独的计算机，也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的实际操作装置等。所述用于动作识别的设备可以包括至少一个处理器以及存储计算机可执行指令的存储器，处理器执行所述指令时实现上述任意一个或者多个实施例1中所述基于双流网络的动作识别方法的步骤。

上述所述的设备根据方法或者装置实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

需要说明的是，本说明书上述所述的装置或者系统根据相关方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照方法实施例的描述，在此不作一一赘述。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类、存储介质+程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于双流网络的动作识别方法，其特征在于，所述方法包括：

对待识别视频进行解析分帧后得到一系列帧图像；

2.根据权利要求1所述的基于双流网络的动作识别方法，其特征在于，所述从待识别视频中获取骨架数据，并根据所述骨架数据构造骨架时空图，包括：

3.根据权利要求2所述的基于双流网络的动作识别方法，其特征在于，所述时空图卷积网络包括9层时空图卷积层，第4、7层的时空图卷积层设置为pooling层，每层时空图卷积层均包括一个时间卷积核，每层时空图卷积层使用残差连接，使用dropout对一半的神经元进行特征正则化处理；

4.根据权利要求1-3任一所述的基于双流网络的动作识别方法，其特征在于，所述3D卷积神经网络依次包括第一卷积层、第一Max-Pooling层、第二卷积层、第三卷积层、第二Max-Pooling层、第一Inception模块、第二Inception模块、第三Max-Pooling层、第三Inception模块、第四Inception模块、第五Inception模块、第六Inception模块、第七Inception模块、第四Max-Pooling层、第八Inception模块、第九Inception模块、Avg-Pooling层、全连接层、Softmax层。

5.根据权利要求4所述的基于双流网络的动作识别方法，其特征在于，所述将所述第一识别结果和第二识别结果进行融合，得到最终的每个类别的分数，包括：

6.一种基于双流网络的动作识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的基于双流网络的动作识别装置，其特征在于，所述骨架时空图构造模块包括：

8.根据权利要求6或7所述的基于双流网络的动作识别装置，其特征在于，所述3D卷积神经网络依次包括第一卷积层、第一Max-Pooling层、第二卷积层、第三卷积层、第二Max-Pooling层、第一Inception模块、第二Inception模块、第三Max-Pooling层、第三Inception模块、第四Inception模块、第五Inception模块、第六Inception模块、第七Inception模块、第四Max-Pooling层、第八Inception模块、第九Inception模块、Avg-Pooling层、全连接层、Softmax层。

9.一种用于动作识别的计算机可读存储介质，其特征在于，包括用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括权利要求1-5任一所述基于双流网络的动作识别方法的步骤。

10.一种用于动作识别的设备，其特征在于，包括至少一个处理器以及存储计算机可执行指令的存储器，所述处理器执行所述指令时实现权利要求1-5中任意一项所述基于双流网络的动作识别方法的步骤。