CN113052091A

CN113052091A - 一种基于卷积神经网络的动作识别方法

Info

Publication number: CN113052091A
Application number: CN202110338887.5A
Authority: CN
Inventors: 李靖宇; 康晓; 海丹; 靳璐; 靳保; 吴越; 苏波
Original assignee: Intelligent Mobile Robot Zhongshan Research Institute; China North Vehicle Research Institute
Current assignee: Intelligent Mobile Robot Zhongshan Research Institute; China North Vehicle Research Institute
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-29

Abstract

本发明涉及一种基于卷积神经网络的动作识别方法。不同于常见的以二维图像特征为输入的长短期记忆模型动作识别方法，本发明采用三维卷积核构建的骨干网络对图像序列进行特征提取，在保留空间特征的情况下引入时序特征。与此同时，通过三维空间下的批标准化操作对特征进行处理，避免模型训练过程中出现梯度消失现象。将骨干网络提取到的时空混合特征送入经过改进的长短期记忆模型并输出表征动作类别的一维向量。该方法通过对人类动作时空信息的有效提取以更好地保留目标的动作特征，从而实现以视频帧序列作为信息源的目标动作识别功能。

Description

一种基于卷积神经网络的动作识别方法

技术领域

本发明涉及计算机视觉技术领域，具体为一种基于卷积神经网络的动作识别方法。

背景技术

动作识别技术是指机器人等智能系统根据摄像头、激光雷达等传感器获得人类目标动作信息进行特征提取并对动作进行分类识别的技术。动作识别技术是机器人等智能系统在环境感知及场景理解中需要解决的关键技术问题之一。

在以摄像头为传感器的计算机视觉方向，动作识别问题与图像识别(或目标检测)问题最大的不同之处在于后者只需要获取图像中的二维空间特征信息，而前者除了需要获取二维空间特征信息之外，还要提取时间序列特征信息。这使得动作识别问题相较二维图像处理问题更加具有挑战性。一般的卷积神经网络特征提取框架和分类器是针对二维空间信息输入的，如何同时提取空间特征信息和时间序列特征信息并对其进行合适的表达，是智能系统执行动作识别任务中的难点问题。设计一种能够同时对时间信息以及空间信息进行有效提取的神经网络算法，有效地对目标动作进行识别，具有重要的现实意义。同时也是完善智能系统对环境感知所须解决的关键技术问题。

发明内容

鉴于现有技术中所存在的问题，本发明公开了一种基于卷积神经网络的动作识别方法，提供了一种高效的神经网络模型，能够同时有效的对人类目标的空间特征信息和时间特征信息进行提取并依据提取到的特征信息对目标动作进行准确识别。其采用的技术方案为，该神经网络基于长短期记忆模型，在保留原有的遗忘门、输入门和输出门结构的基础上，将原先的以二维卷积核为特征提取器的卷积神经网络结构改为由三维卷积核为特征提取器的卷积神经网络结构，同时在网络的激活层之前根据输入维度引入相应的批标准化处理层。

该方法中，由基本结构为三维卷积核的三维卷积神经网络对视频片段中目标的动作特征在时空维度中初步提取，将提取到的特征图送入带批标准化处理层的长短期记忆模型单元，通过若干上述步骤在时间维度上的拼接，最终由长短期记忆模型的输出门输出目标的动作类别。

作为本发明的一种优选方案，通过三维卷积核构建的ConvNet骨干网络对图像序列进行卷积操作，不对单幅图像进行卷积操作，设训练样本的一个批次总样本数为N,单个样本特征图序列深度为D,特征图高度为H,特征图宽度为W,令p,d,k,s分别为特征图外围补充像素数，卷积核膨胀系数，卷积核尺寸以及卷积核移动步长，则三维卷积操作后的特征图参数有如下表示：

对得到的特征图展成的特征向量，在进入长短期记忆模型模型后，在长短期记忆模型单元中的激活函数之前，引入批次标准化变换，使得输入特征向量在坐标轴上分布更均匀，避免特征在单一长短期记忆模型上产生梯度消失现象，设x为包含n个样本的输入向量，μ(x)为样本均值，σ(x)为样本标准差，x_input为经过批标准化处理的待输入特征向量，则有如下关系：

式(6)中，γ和β分别是通过网络训练学习到的参数。

在训练阶段，所述均值μ(x)与所述方差σ(x)通过每一批训练数据产生，在预测阶段，无法预先获取整个批次样本值，所述均值μ(x)与所述方差σ(x)通过对全部训练样本求均值与方差得到。

本发明的有益效果：本发明采用基于长短期记忆模型的动作识别方法，通过三维卷积网络提取时空特征，并引入批处理化操作避免训练中的梯度消失问题，实现智能系统对人类目标的准确动作识别。

附图说明

图1为本发明的动作识别算法模型整体框架图；

图2为本发明的三维卷积核工作原理示意图；

图3为本发明的ConvNet结构示意图；

图4为本发明的改进长短期记忆模型结构示意图。

具体实施方式

实施例1

如图1至图4所示，本发明所述的一种基于卷积神经网络的动作识别方法，采用的技术方案是，模型以图像帧序列作为输入，在经过三维卷积特征提取模块ConvNet和时空特征提取模块长短期记忆模型处理后，经由长短期记忆模型模块内嵌的分类器得到动作输出。算法模型的的输入在训练阶段和推理阶段有所区别。在训练阶段，算法模型的输入为多个连续的二维图像帧序列组成的数据张量，每组训练张量的维度为B×N×C×W×H，其中，B是单批输入数据的数量，N是单个训练数据包含的图像帧数量，C是单幅图像的通道数，RGB图像通常取3，W和H分别为图像的宽度和高度。算法的输出为B×n的向量序列，其中n代表算法模型所能识别的动作种类。而在推理阶段，由于不需要进行批次输入，所以模型输入的维度为1×N×C×W×H，输出为1×n。

在该算法框架中，ConvNet代表以三维卷积核为特征提取器的卷积神经网络，为了增强其对特征的学习能力，引入残差单元(residual unit)结构。

为了避免过量的权重参数影响整个模型算法的实时性，特征提取网络结构采用resnet18的结构，将其中的二维卷积核部分替换成三维卷积核。将最后一层的输出替换为1024维，保留更多的信息。包含卷积神经网络的动作识别算法通常包含大量的权重参数，在进行动作识别推理前，应利用大量的视频动作数据对算法模型进行训练。

由于经过ConvNet结构提取的特征向量维度较大且在输入长短期记忆模型时通过输入门与遗忘门时需要进行两次激活函数的处理，故对长短期记忆模型进行结构上的改进，在其长短期记忆模型内部门结构的激活函数单元之前设置批标准化处理层操作。

设

为输入激活函数之前的单批数据平均值，

为输入激活函数之前的单批数据方差，则可对激活函数前的输入做如下变换：

并有：

式中，

是经过标准化处理的输入数据，y_i是经过变换后的输入数据，γ和β是权重参数，通过神经网络的反向传播进行学习。通过以上变换后，经过激活后的输出数据能够有效地避免因为集中在激活饱和值附近而导致的梯度消失。经过上述处理后，在长短期记忆模型单元后加入softmax层，即可获得最后的动作识别结果。

该基于卷积神经网络的动作识别方法主要包括以下步骤：

步骤1：获取视频动作片段，将其制作成数据集，并将数据集分为训练集、验证集，测试集三部分。并分别为其进行类别标签标注。

步骤2：将训练集输入网络模型进行训练。由于该动作识别算法模型是通过学习预设的动作片段标签值来对输入动作类别进行标签分类，故本质上该问题为一个多分类问题。针对多分类问题，可以使用交叉熵损失函数作为损失函数并对其进行参数优化，其形式为：

由于输出

中包含权重参数，故可对上述函数进行批次随机梯度下降法进行优化，使其损失函数收敛至最小值。对训练中的模型利用验证集对其进行验证，防止模型过拟合及欠拟合的情况发生。

步骤3：模型验证。将测试集数据送入训练好的模型，对整个算法模型的识别准确率进行测试。注意将批标准化处理层的样本均值和方差设置成训练数据集样本的整体方差与均值，并将输入的单批测试数据批次数设置为1，以确保整个模型能够得到正确的推理结果。

本文中未详细说明的部件为现有技术。

上述虽然对本发明的具体实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化，而不具备创造性劳动的修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于卷积神经网络的动作识别方法，其特征在于，采用含三维卷积核的深度残差网络并引入批标准化处理层长短期记忆模型(LSTM)对视频中的目标进行动作识别，在基础的深度残差卷积神经网络的结构中，将二维卷积核替换为三维卷积核，对视频动作的时空特征进行初步的提取，之后将特征张量输入长短期记忆模型(LSTM)，利用长短期记忆模型(LSTM)对信息的过滤能力，过滤掉时空维度上与动作低关联性的特征，最后得到表征动作的一维向量并通过分类函数得到输出。

2.根据权利要求1所述的一种基于卷积神经网络的动作识别方法，其特征在于：通过三维卷积核构建的ConvNet骨干网络对图像序列进行卷积操作，不对单幅图像进行卷积操作，设训练样本的一个批次总样本数为N,单个样本特征图序列深度为D,特征图高度为H,特征图宽度为W,令p,d,k,s分别为特征图外围补充像素数，卷积核膨胀系数，卷积核尺寸以及卷积核移动步长，则三维卷积操作后的特征图参数有如下表示：

3.根据权利要求2所述的一种基于卷积神经网络的动作识别方法，其特征在于：对得到的特征图展成的特征向量，在进入LSTM模型后，在LSTM单元中的激活函数之前，引入批次标准化变换，使得输入特征向量在坐标轴上分布更均匀，避免特征在单一LSTM上产生梯度消失现象，设x为包含n个样本的输入向量，μ(x)为样本均值，σ(x)为样本标准差，x_input为经过批标准化处理的待输入特征向量，则有如下关系：

式(6)中，γ和β分别是通过网络训练学习到的参数。

4.根据权利要求3所述的一种基于卷积神经网络的动作识别方法，其特征在于：在训练阶段，所述均值μ(x)与所述方差σ(x)通过每一批训练数据产生。

5.根据权利要求3所述的一种基于卷积神经网络的动作识别方法，其特征在于：在预测阶段，无法预先获取整个批次样本值，所述均值μ(x)与所述方差σ(x)通过对全部训练样本求均值与方差得到。