CN114140654A

CN114140654A - 图像动作识别方法、装置及电子设备

Info

Publication number: CN114140654A
Application number: CN202210096925.5A
Authority: CN
Inventors: 杨宏斌; 赵雅倩; 董刚; 刘海威; 蒋东东; 胡克坤; 晁银银
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-03-04
Anticipated expiration: 2042-01-27
Also published as: CN114140654B

Abstract

本发明实施例涉及一种图像动作识别方法、装置及电子设备，该方法包括：获取待识别的动作图像；对动作图像进行特征提取处理，获取图像特征向量；将图像特征向量输入到N×M卷积层进行融合处理，获取图像融合特征；将图像融合特征输入到分类层，基于图像融合特征，对动作图像进行动作分类识别。在此过程中，尽量不影响模型推理速度的同时，能够大大提升模型对图像动作的识别准确率。

Description

图像动作识别方法、装置及电子设备

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种图像动作识别方法、装置及电子设备。

背景技术

动作识别是对含人体动作的视频进行分类,在视频监控、人机交互等应用中发挥着重要作用，因此得到了广泛的研究。

近年来，相对于传统的RGB视频识别方法，基于骨架的动作识别因其对动态环境和复杂背景的适应性强，受到越来越多的关注。早期基于深度学习的骨骼动作识别方法将骨骼数据手工构造为联合坐标向量序列或伪图像，并将其输入到循环神经网络（RecurrentNeural Network，RNN）或卷积神经网络（Convolutional Neural Network，简称CNN）中生成预测。然而，将骨架数据表示为向量序列或二维网格并不能完全表达相关关节之间的依赖关系。

传统CNN的输入通常是图像、视频、音频等低维规则网格。使用CNN对图形数据进行建模并不是一件简单的事情，因为图形数据总是具有任意的大小和形状。图更常见，更普遍，如社交网络，分子和解析树。现在最流行的解决方案是使用图卷积网络(GraphConvolution Networks，简称 GCNs)。GCNs与传统的CNN相似，但它可以推广从图像到任意大小和形状的图的卷积。

对于基于骨骼的动作识别任务，目前常用的网络模型为一种新的自适应图卷积层网络模型来进行识别。但是，当前的自适应卷积层网络模型对于基于骨骼的动作识别并不是很精确。

发明内容

本申请提供了一种图像动作识别方法、装置及电子设备，以解决现有技术中自适应图卷积网络模型，针对的骨骼的动作识别并不是很精确的问题。

第一方面，本申请提供了一种图像动作识别方法，该方法应用于一种自适应图卷积网络模型，该方法包括：

获取待识别的动作图像；

对动作图像进行特征提取处理，获取图像特征向量；

将图像特征向量输入到N×M卷积层进行融合处理，获取图像融合特征；

将图像融合特征输入到分类层，基于图像融合特征，对动作图像进行动作分类识别。

第二方面，本申请提供了一种图像动作识别装置，该装置包括：

获取模块，用于获取待识别的动作图像；

处理模块，用于对动作图像进行特征提取处理，获取图像特征向量；将图像特征向量输入到N×M卷积层进行融合处理，获取图像融合特征；将图像融合特征输入到分类层，基于图像融合特征，对动作图像进行动作分类识别。

第三方面，提供了一种电子设备，电子设备承载有自适应图卷积网络模型，包括电子设备处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，通过自适应图卷积网络模型，实现第一方面任一项实施例的图像动作识别方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如第一方面任一项实施例的图像动作识别方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，获取待识别的动作图像，然后对图像进行特征提取处理，获取图像特征向量。将图像特征向量输入到N×M卷积层进行融合处理，获取图像融合特征，将图像融合特征输入到分类层，基于图像融合特征，对动作图像进行动作分类识别。在此过程中，自适应图卷积网络模型相较于传统的卷积网络模型，多增加了一个N×M卷积层对图像特征进行融合，在尽量不影响模型推理速度的同时，能够大大提升模型对图像动作的识别准确率，以避免经过处理后的图像特征向量直接进入分类层所导致的分类结果不准确的情况发生。

附图说明

图1为本发明实施例提供的一种图像动作识别方法流程示意图；

图2为本发明提供的对动作图像进行特征提取处理，获取图像特征向量的方法流程示意图；

图3为本发明提供的第一卷积层的原理性结构示意图；

图4为本发明提供的swish函数曲线示意图；

图5本发明提供的注意力模块层结构示意图；

图6为本发明提供的自适应图卷积网络模型的整体结构示意图；

图7为本发明实施例提供的一种图像动作识别装置的结构示意图；

图8为本发明实施例提供一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

针对背景技术中所提及的技术问题，本申请实施例提供了一种图像动作识别方法，具体参见图1所示，图1为本发明实施例提供的一种图像动作识别方法流程示意图，该方法应用于一种自适应图卷积网络模型。该方法步骤包括：

步骤110，获取待识别的动作图像。

步骤120，对动作图像进行特征提取处理，获取图像特征向量。

具体的，自适应图卷积网络模型包括第一批量归一化层、至少一个block块、全局平均池化层、N×M卷积层，以及分类层。而在对动作图像进行特征提取处理时，主要涉及的是第一批量归一化层、至少一个block块，以及全局平均池化层等。经过这些“层”的处理后，可以获取图像特征向量。

具体可以参见图2所示，包括：

步骤210、输入到第一批量归一化层，获取第一组图像特征向量。

具体的，将待识别的动作图像输入到第一批量归一化（Batch Normalization，简称BN）层。用于对提待识别的动作图像进行批量归一化处理。BN层的加入，可以大大提高模型训练速度，提高网络泛化性能。具体的执行BN操作过程参见现有技术，这里不再过多说明。

步骤220，将第一组图像特征向量依次输入到至少一个block块中，获取第二组图像特征向量。

具体的，待识别的动作图像输入到BN层后，获取第一组图像特征向量后，将第一组图像向量依次输入到至少一个block块中。具体block块的数量可以根据实际情况设定，这里不再过多限定。在本实施例中，block块的数量包括9个。

可选的，每一个block块都具有相同的结构。在一个具体的例子中，block块包括如下结构：

第一卷积层、第二批量归一化层、第一函数激活层、注意力模块层、第二卷积层、第三批量归一化层，以及第二函数激活层。

首个block块的第一卷积层的输入包括根据第一组图像特征向量获取的数据，以及预设定的初始化图像特征向量，为其他图像特征向量进行区分，这里将预设定的初始化图像特征向量定义为第三组图像特征向量。

第一卷积层的原理性结构示意图具体参见图3所示。

图3中，最下边为输入，最上面为输出，fin表示输入特征，也即是根据第一组图像特征向量获取的特征向量平均值（依然是一个参数矩阵）。C表示通道数量，T表示时间长度，N表示顶点数量，

和

为两个核大小为1x1的嵌入函数，这两个1x1卷积核函数的作用是调整通道C的数量，图中由Cin变为了Ce；上面的Wk类似，也是一个1x1的卷积操作；

表示空间维度上的核大小；

表示逐元素加操作，

表示矩阵乘操作，

是控制Bk（独立图）和Ck（全局图）重要性权重的门。通过门控机制来调整不同层中独立图的重要性，对每层使用一个不同的α，该值通过训练来学习和更新。左边的res(1x1)表示残差操作，其中的1x1卷积操作只适用于Cin不等于Cout时使用。

需要说明的是，Ck是全局图，在本实施例中，全局图是一个参数矩阵，也即是通过图3所示的，fin经过一系列操作获取的参数矩阵。Bk是单独图，是一个预设定的初始化图像特征向量（一个初始化的向量矩阵），也即是第三组图像特征向量。全局图，是基于从数据集中提取的知识，通过学习图的邻接矩阵得到，由此得到的图拓扑比以往基于人体的图更适合于动作识别任务。单独图，它的边根据图顶点之间的特征相似度进行构建。将这两种图采用门控机制融合，可以自适应地调整它们在每个模型层中的重要性。通过这种数据驱动的方法增加了模型构建图的灵活性，并具有更强的通用性，以适应不同的数据样本。计算过程如公式1。

（公式1）

第二批量归一化层，执行的作用同第一批量归一化层，这里不再过多说明。

可选的，第一函数激活层，在本实施例中，采用的是对ReLU函数进行改进后，所获取的h-swish激活函数。

具体的，激活函数h-swish由swish函数的基础上改进而来，swish函数具有无上界、有下界、平滑、非单调的特点，在模型性能上优于传统的ReLU激活函数。swish函数曲线图如图4所示。图4中示意出swish函数中的参数

的数值不同时，曲线函数的展示示例。其中，图4中曲线自下而上，

的取值分别为0.1,1.0，以及10.0等。

swish函数的公式表达式具体参见如下：

（公式2）

其中，

为常数，或可训练的参数。

由于sigmoid函数计算复杂（sigmoid(x) = (1 + exp(-x))^(-1)），所以轻量级网络MobileNetV3改用近似函数来逼近swish，这使其变得更硬（hard）。因此，上述公式2中，对于激活函数h-swish的改进，是将公式2中的sigmoid函数替换为选择ReLU6作为这个近似函数。

其替换原因包括：1）在几乎所有的软件和硬件框架上都可以使用ReLU6的优化实现；2）ReLU6能在特定模式下消除由于近似sigmoid的不同实现而带来的潜在的数值精度损失。

因此，最终经过对ReLU函数进行改进后，所获取的h-swish函数表达式参见如下：

（公式3）

因此， h-swish激活函数既具有无上界、有下界、平滑、非单调的特点，又没有不提高计算复杂度的情况下，提高了数值精度，从而可以进一步优化模型性能。

除了上述介绍的各层外，还包括注意力模块层，其中，注意力模块层可以包括空间注意力层、时间注意力层，以及通道注意力层。

在一个可选的例子中，相较于现有技术而言，为了更好的对信息进行融合，进一步提高注意力模块层的性能。

在本实施例中，具体参见图5所示，该注意力模块层包括：

正向层次连接组和反向层次连接组，其中正向层次连接组包括第一空间注意力层（SA1）、第一时间注意力层（TA1），以及第一通道注意力层（CA1），三者依次正向连接，反向层次连接组包括第二空间注意力层（SA2）、第二时间注意力层（TA2），以及第二通道注意力层（CA2），三者依次反向连接；

且，第一空间注意力层SA1与第二空间注意力层SA2连接，第一时间注意力层TA1与第二时间注意力层TA2连接，以及第一通道注意力层CA1与第二通道注意力层连接CA2，也即是正向层次连接组与反向层次连接组中的对应层连接。

进一步可选的，正向层次连接组，用于将第一函数激活层输出的特征向量进行正向逐步融合；反向层次连接组，用于将第一函数激活层输出的特征向量进行反向逐步融合；

正向层次连接组与反向层次连接组中的对应层连接，用于将第一函数激活层输出的特征向量执行远端-近端信息融合处理。

通过该方式，实现信息融合的充分性，进一步提高注意力模块层的性能。图中的

操作的效用，以及

操作的效用参见上文，这里不再过多赘述。

第二卷积层，可以参见第一卷积层的结构，以及第一卷集层的作用，二者类似，因此这里不再过多赘述。唯一不同的是，fin为上一神经网络层的输入（例如本次为注意力模块层的输出）。

第三批量归一化层的作用参见第二批量归一化层的功能介绍，这里不再过多赘述。

可选的，第二函数激活层，同第一函数激活层，可以同样是采用h-swish函数，具体的这里不再过多赘述。

以上为介绍一个block块的结构，以及结构内各功能部件所执行的功能等。因为所有的block块的结构相同，内部各功能部件所执行的功能等也相同或类似，因此这里不再过多赘述。但是，需要说明的是，每一个block块（除首个外）的输入fin都是根据上一个block块的输出结果获取。具体的获取过程同获取第一个fin的输入值类似，这里不再过多赘述。

经过所有block块后，最终获取到第二组图像特征向量。

步骤230，将第二组图像特征向量输入到全局平均池化层，进行全局平均池化处理，获取第四组图像特征向量。

具体的，将第二组图像特征向量输入到全局平局池化层，对其进行全局平均池化层的处理常规操作，这里不再过多说明。而这里的第四组图像特征向量，也即是本申请实施例步骤120中所介绍的对动作图像进行特征提取处理后，获取图像特征向量。

步骤130，将图像特征向量输入到N×M卷积层进行融合处理，获取图像融合特征。

步骤140，将图像融合特征输入到分类层，基于图像融合特征，对动作图像进行动作分类识别。

具体的，考虑到图像特征向量如果按照传统技术的操作，经过全局平局池化层（Global-Average-Pooling，简称GAP）层后，直接进入分类层进行分类，其分类准确率不会很高。

因此，在GAP层和分类层之前，再加N×M卷积层对图像特征进行进一步的融合和加工处理，可以大大提升模型分类的准确率。

在一个可选的例子中，基于计算量的原因，N×M卷积层可以为1×1的卷积层，如此一来，可以在不影响模型推理速度的同时，大大提升准确率。

图6示意出了一种自适应图卷积网络模型的整体结构示意图，在本实施例中，自适应图卷积网络模型为经过本申请改进后的多流自适应图卷积网络（Multi-StreamAdaptive Graph Convolutional Networks，简称MS-AAGCN）。

图6中示出了改进的MS-AAGCN包括了第一批量归一化层、至少一个block块、全局平均池化层、N×M卷积层，以及分类层等结构。其中，不同的block块根据提取特征数量的不同，分别设置不同的通道参数，例如图6中的B1（block1）设置参数为3、64、1，B2（block2）设置参数为62、64、1，以此类推，B9即为block9，对应设置的参数为256、256、1等。具体设置为多少，完全根据实际情况设定，这里不再过多赘述。

还需要说明的是，在通过图6所示的神经网络模型对待识别的动作图像进行识别之前，还包括对改进的MS-AAGCN进行训练。具体的训练过程同现有的神经网络训练过程，这里不再过多赘述。在训练时，可以采用NTU-RGBD和Kinetics-Skeleton数据集进行训练。

本发明实施例提供的图像动作识别方法，获取待识别的动作图像，然后对图像进行特征提取处理，获取图像特征向量。将图像特征向量输入到N×M卷积层进行融合处理，获取图像融合特征，将图像融合特征输入到分类层，基于图像融合特征，对动作图像进行动作分类识别。在此过程中，自适应图卷积网络模型相较于传统的卷积网络模型，多增加了一个N×M卷积层对图像特征进行融合，在尽量不影响模型推理速度的同时，能够大大提升模型对图像动作的识别准确率，以避免经过处理后的图像特征向量直接进入分类层所导致的分类结果不准确的情况发生。

此外，除了增加N×M卷积层对图像特征进行融合之外，该包括将block块中传统的ReLU激活函数进行改进，获取h-swish函数，以保证激活函数既具有无上界、有下界、平滑、非单调的特点，且在没有增加计算复杂度的情况下，提高了数值精度，从而可以进一步优化模型性能。

以及，对注意力模块层进行改进，以便更好地进行信息融合，从而进一步提高注意力模块的性能。

以上，为本申请所提供的图像动作识别几个方法实施例，下文中则介绍说明本申请所提供的图像动作识别其他实施例，具体参见如下。

图7为本发明实施例提供的一种图像动作识别装置的结构示意图，该装置应用于一种自适应图卷积网络模型，该装置包括：获取模块701和处理模块702。

获取模块701，用于获取待识别的动作图像；

处理模块702，用于对动作图像进行特征提取处理，获取图像特征向量；将图像特征向量输入到N×M卷积层进行融合处理，获取图像融合特征；将图像融合特征输入到分类层，基于图像融合特征，对动作图像进行动作分类识别。

可选的，自适应图卷积网络模型包括至少一个block块，每一个block块包括：注意力模块层；

注意力模块层包括：正向层次连接组和反向层次连接组，其中正向层次连接组包括第一空间注意力层、第一时间注意力层，以及第一通道注意力层依次正向连接，反向层次连接组包括第二空间注意力层、第二时间注意力层，以及第二通道注意力层依次反向连接；

第一空间注意力层与第二空间注意力层连接，第一时间注意力层与第二时间注意力层连接，以及第一通道注意力层与第二通道注意力层连接。

可选的，block块还包括第一函数激活层；

正向层次连接组，用于将第一函数激活层输出的特征向量进行正向逐步融合；

反向层次连接组，用于将第一函数激活层输出的特征向量进行反向逐步融合；

可选的， block块还包括第二函数激活层，其中，第一函数激活层和/或第二函数激活层为h-swish激活函数层。

可选的，N×M卷积层为1×1卷积层。

本发明实施例提供的图像动作识别装置中各部件所执行的功能均已在上述任一方法实施例中做了详细的描述，因此这里不再赘述。

本发明实施例提供的一种图像动作识别装置，获取待识别的动作图像，然后对图像进行特征提取处理，获取图像特征向量。将图像特征向量输入到N×M卷积层进行融合处理，获取图像融合特征，将图像融合特征输入到分类层，基于图像融合特征，对动作图像进行动作分类识别。在此过程中，自适应图卷积网络模型相较于传统的卷积网络模型，多增加了一个N×M卷积层对图像特征进行融合，在尽量不影响模型推理速度的同时，能够大大提升模型对图像动作的识别准确率，以避免经过处理后的图像特征向量直接进入分类层所导致的分类结果不准确的情况发生。

如图8所示，本申请实施例提供了一种电子设备，电子设备承载有自适应图卷积网络模型，该电子设备包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信。

存储器113，用于存放计算机程序；

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，通过自适应图卷积网络模型，实现前述任意一个方法实施例提供的图像动作识别方法，包括：

获取待识别的动作图像；

对动作图像进行特征提取处理，获取图像特征向量；

可选的，block块还包括第一函数激活层，正向层次连接组，用于将第一函数激活层输出的特征向量进行正向逐步融合；反向层次连接组，用于将第一函数激活层输出的特征向量进行反向逐步融合；

可选的，block块还包括第二函数激活层，其中，第一函数激活层和/或第二函数激活层为h-swish激活函数层。

可选的，N×M卷积层为1×1卷积层。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如前述任意一个方法实施例提供的图像动作识别方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像动作识别方法，其特征在于，所述方法应用于一种自适应图卷积网络模型，所述方法包括：

获取待识别的动作图像；

对所述动作图像进行特征提取处理，获取图像特征向量；

将所述图像特征向量输入到N×M卷积层进行融合处理，获取图像融合特征；

将所述图像融合特征输入到分类层，基于所述图像融合特征，对所述动作图像进行动作分类识别。

2.根据权利要求1所述的方法，其特征在于，所述自适应图卷积网络模型包括至少一个block块，每一个所述block块包括：注意力模块层；

所述注意力模块层包括：正向层次连接组和反向层次连接组，其中所述正向层次连接组包括第一空间注意力层、第一时间注意力层，以及第一通道注意力层依次正向连接，所述反向层次连接组包括第二空间注意力层、第二时间注意力层，以及第二通道注意力层依次反向连接；

所述第一空间注意力层与所述第二空间注意力层连接，所述第一时间注意力层与所述第二时间注意力层连接，以及所述第一通道注意力层与所述第二通道注意力层连接。

3.根据权利要求2所述的方法，其特征在于，所述block块还包括第一函数激活层，所述正向层次连接组，用于将所述第一函数激活层输出的特征向量进行正向逐步融合；所述反向层次连接组，用于将所述第一函数激活层输出的特征向量进行反向逐步融合；

所述正向层次连接组与所述反向层次连接组中的对应层连接，用于将所述第一函数激活层输出的特征向量执行远端-近端信息融合处理。

4.根据权利要求3所述的方法，其特征在于，所述block块还包括第二函数激活层，其中，所述第一函数激活层和/或所述第二函数激活层为h-swish激活函数层。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述N×M卷积层为1×1卷积层。

6.一种图像动作识别装置，其特征在于，所述装置应用于一种自适应图卷积网络模型，所述装置包括：

获取模块，用于获取待识别的动作图像；

处理模块，用于对所述动作图像进行特征提取处理，获取图像特征向量；将所述图像特征向量输入到N×M卷积层进行融合处理，获取图像融合特征；将所述图像融合特征输入到分类层，基于所述图像融合特征，对所述动作图像进行动作分类识别。

7.根据权利要求6所述的装置，其特征在于，所述自适应图卷积网络模型包括至少一个block块，每一个所述block块包括：注意力模块层；

8.根据权利要求7所述的装置，其特征在于，所述block块还包括第一函数激活层，所述正向层次连接组，用于将所述第一函数激活层输出的特征向量进行正向逐步融合；所述反向层次连接组，用于将所述第一函数激活层输出的特征向量进行反向逐步融合；

9.一种电子设备，其特征在于，所述电子设备承载有自适应图卷积网络模型，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，通过所述自适应图卷积网络模型，实现权利要求1-5任一项所述的图像动作识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的图像动作识别方法的步骤。