CN111091045B

CN111091045B - 一种基于时空注意力机制的手语识别方法

Info

Publication number: CN111091045B
Application number: CN201911023322.7A
Authority: CN
Inventors: 罗元; 李丹; 张毅; 汪杰; 陈顺
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2022-08-23
Anticipated expiration: 2039-10-25
Also published as: CN111091045A

Abstract

本发明公开了一种基于时空注意力机制的手语识别方法，首先将手语视频采样为具有统一长度的连续手语序列作为模型的输入。然后将视频帧序列输入到由3D残差块构成的空间注意力网络中，使得网络能够自动关注空间中的显著区域。随后将提取的卷积特征经过ConvLSTM卷积长短时记忆网络解析后提取出长时间的序列特征，同时分配不同视频帧的时间注意力权重生成视频的特征表示。最后，生成的特征表示经过Softmax分类器，以向量的形式输出分类类别。本发明能够降低冗余信息对识别的干扰，提高识别准确率。

Description

一种基于时空注意力机制的手语识别方法

技术领域

本发明属于图像处理与模式识别领域，特别是一种基于时空注意力机制的手语识别方法。

背景技术

手语识别的目的是将手语翻译成文本或者语音进行输出，达到聋人与正常人、聋人与聋人交流的目的。手语中包含了图片信息和运动信息，因此如何有效地提取手语中的时空特征是手语识别的研究重点。

传统的手语识别框架包括四个部分：预处理，手势检测，特征提取，分类。其中，特征提取和分类是关键的两个部分。因此研究人员着重设计复杂的人工特征，同时利用传统机器学习方法分类。但是这些工作依赖于有效的人工特征和选择的机器学习方法，耗费大量的时间，并且光照变化、个体差异等因素对人工特征的提取影响较大。

深度学习在图像分类、物体检测和语义分割等任务上取得了大幅度超出手工特征的性能，因此也成为了手语识别研究方法的热点。基于深度学习网络的动态手语识别系统，不仅可以实现从输入到输出的端到端手语词分类，还可以达到更优秀的识别性能。深度学习网络一般可以代替传统手势检测+手势跟踪+特征提取模块的功能，不仅省去了人工设计手势特征等一系列繁琐的步骤，网络结构设计合理甚至还可以提取到比人工特征更有效的手势特征，从而提高手语识别系统的识别率。在动态手势识别中，最常采用的神经网络模型为卷积神经网络CNN和循环神经网络RNN。然而，一般的基于CNN-RNN的网络在空间特征提取的有效性上有所欠缺，并且不能突出时间上的差异性，因而提取的时空特征包含了许多冗余信息，时空关联性不强。

发明内容

针对现有技术的不足，提出了一种基于时空注意力机制的手语识别方法，通过在残差3D卷积神经网络引入空间注意力、在卷积LSTM中引入时间注意力，使得网络能够自动专注空间中的显著区域，为手语视频帧自动分配权重，从而提高手语识别准确率。

为了实现上述目的，本发明采用的技术方案是：一种基于时空注意力机制的手语识别方法，包括以下步骤：

S1数据预处理，对手语视频进行采样，并对采样后的图片进行图像尺度归一化处理。

S2构建残差3D CNN卷积神经网络，提取输入视频的短期的时空特征，在残差3D卷积神经网络中引入空间注意力模块。

S3构建卷积LSTM长短时记忆网络，将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征，在卷积长短时记忆网络中引入时间注意力模块，生成视频帧的时间注意力权重，结合不同视频帧的时间注意力生成视频的特征表示。

S4经过Softmax分类器，输出手语分类类别。

进一步，所述数据预处理包括将每一个手语视频采样为32帧；帧数大于32的视频，将多余的帧数平均分配到首尾两端进行删除，保留中间的关键帧；而对于帧数小于32的视频为了保证数据的时序性，则重复最后一帧。

进一步，所述残差3D卷积神经网络中具有4个残差块；每个残差块包含六层3D卷积层，一层下采样层和一层上采样层，前两层3D卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。

更进一步，所述下采样层采用最大值池化，所述上采样层采用双线性插值。卷积核大小均为3×3×3和1×1×1的卷积；网络中每一层卷积之后都是BN层和ReLU激活函数；BN层使每一层神经网络的输入都保持相同的数据分布，使得训练速度加快，同时可以将训练数据打乱，具有更快速的收敛特性；使用ReLU激活函数可以增强网络稀疏性，防止过拟合。

进一步，所述空间注意力模块为：

S21:输入的特征图x首先经过两层3D卷积网络得到特征图H_x：H_x＝x*W_h

其中，*表示三维卷积操作，W_h是一个3维张量，表示待学习的权重参数；

S22:H_x分别通过掩膜分支和残差分支被变换到两个不同的特征空间F_x和G_x；掩膜分支主要通过下采样和上采样处理使高低维度的特征更好地组合在一起，残差分支的目的是提取更深层次的时空特征；对两个特征空间进行组合变换，再经过归一化处理生成空间注意力图α_x：

其中，

为哈达玛积，也就是逐元素相乘，σ表示Softmax激活函数，F_x和G_x分别是掩膜分支和残差分支的输出。

S23:注意力层输出为

为了更好地利用前层的信息，最终的输出为：O_x＝x+S_x。

所述两个分支其中一个需要经过下采样和上采样处理，另一个经过四层3D卷积处理。

进一步，步骤S3所述卷积长短时记忆网络为：

令空间注意力网络的输出特征为{x₁,x₂,...,x_t,...}，则每个卷积长短时记忆单元按照如下方式更新参数：

i_t＝σ(w_xi*x_t+w_hi*h_t-1+b_i)

f_t＝σ(w_xf*x_t+w_hf*h_t-1+b_f)

o_t＝σ(w_xo*x_t+w_ho*h_t-1+b_o)

其中，i_t,o_t,f_t分别表示步长t时的输入门、输出门、遗忘门的向量；x_t是数据的输入；c_t为存储细胞状态；h_t表示t时刻卷积长短时记忆单元的输出；w_～,b_～分别表示相应的系数矩阵和偏置向量；*表示卷积计算，

代表哈达玛积。

进一步，所述引入时间注意力模块的步骤包括：

S31:计算在每个时间步长t时的时间注意力权重β＝{β₁,β₂,...,β_t,...}，如下公式计算：

β_t＝ReLU(W_g*h_t)

其中，h_t是一个3维张量，表示在时间步长t时的隐藏状态；W_g表示尺寸为1×1的卷积核；使用的ReLU激活函数定义为max(0,x)；

S32:β_t通过Softmax函数得到归一化的权重:

其中，T表示序列的长度。

S33:为了获得视频级的分类结果c，计算所有时间步长内的隐藏状态和时间注意力的权重和：

在基于时间注意力的卷积LSTM网络的最后一层增加softmax分类器，以向量的形式输出手语分类类别。

进一步地，在模型训练及测试过程中根据损失函数，动量随机梯度下降算法更新网络。损失函数如下式所示：

其中，第一项为交叉熵函数，y＝(y₁,y₂,...,y_c)表示手语的真实类别，

表示预测的向量；w_j表示网络参数的设置，λ₁是权值衰减；λ₂是正则化系数。

由于采用了上述技术方案，本发明具有如下的优点：

本发明提出一种基于残差3D卷积网络和卷积LSTM网络的手语识别方法，能够有效地提取手语视频的空间和时间特征。

在残差3D卷积网络中引入空间注意力机制，自动关注空间中的显著区域，减少背景和噪声的干扰；在卷积LSTM网络中引入时间注意力机制，对视频帧序列学习和分配权重，还能保留空间关系。时空注意力的引入能够有效提高手语识别准确率。

本发明在训练过程中对时空注意力网络进行联合学习，充分利用时空特征进行协调互补，整个网络是端到端的可学习的模型。

附图说明

图1为本发明方法流程图；

图2为本发明网络总体架构图；

图3为设计的残差3D卷积块；

图4为残差3DCNN中引入的空间注意力模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示，一种基于时空注意力机制的手语识别方法，其包括以下步骤:

S1,数据预处理。将每一个手语视频采样为32帧；帧数大于32的视频，将多余的帧数平均分配到首尾两端进行删除，保留中间的关键帧；而对于帧数小于32的视频为了保证数据的时序性，则重复最后一帧。并对采样后的图片进行图像尺度归一化，统一剪切为112×112像素。

S2,构建时空注意力网络，如图2所示。在这个模型中，空间注意力网络能够自动定位视频帧中重要的区域，时间注意力网络自动选择关键帧。

空间注意力网络由残差3D卷积块和空间注意力模块组成。

其中，残差3DCNN中有4个残差块；每个残差块如图3所示，包含六层3D卷积层，一层下采样层和一层上采样层，前两层3D卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。卷积核大小均为3×3×3和1×1×1的卷积；下采样单元采用最大值池化，上采样单元采用双线性插值；网络中每一层卷积之后都是BN层和ReLU激活函数；BN层使每一层神经网络的输入都保持相同的数据分布，使得训练速度加快，同时可以将训练数据打乱，具有更快速的收敛特性；使用ReLU激活函数可以增强网络稀疏性，防止过拟合。

在残差3DCNN中引入的空间注意力模块如图4所示。输入的特征图x首先经过两层三维卷积网络得到特征图：

H_x＝x*W_h

其中，*表示三维卷积操作，W_h是一个3维张量，表示待学习的权重参数。

然后，H_x分别通过两个分支被变换到了两个不同的特征空间F_x和G_x。上边的分支主要通过下采样和上采样处理使高低维度的特征更好地组合在一起。下边分支的目的是提取更深层次的时空特征。对两个分支进行组合变换，再经过归一化处理生成空间注意力图α_x：

其中，

为哈达玛积，也就是逐元素相乘。σ表示Softmax激活函数。F_x和G_x分别是掩膜分支和残差分支的输出。

结合前两个公式得到注意力层输出为

为了更好地利用前层的信息，最终的输出为：O_x＝x+S_x。

时间注意力网络由两层卷积LSTM构成，将短期的时空特征经过卷积LSTM解析后提取出长时间的时空特征。

设空间注意力网络的输出特征为{x₁,x₂,...,x_t,...}，则每个ConvLSTM单元按照如下方式更新参数：

i_t＝σ(w_xi*x_t+w_hi*h_t-1+b_i)

f_t＝σ(w_xf*x_t+w_hf*h_t-1+b_f)

o_t＝σ(w_xo*x_t+w_ho*h_t-1+b_o)

其中，i_t,o_t,f_t分别表示步长t时的输入门、输出门、遗忘门的向量；x_t是数据的输入；c_t为存储细胞状态；h_t表示t时刻ConvLSTM单元的输出。w_～,b_～系数矩阵和偏置向量。*表示卷积计算，

代表哈达玛积。

在卷积LSTM引入时间注意力机制，计算在每个时间步长t时的时间注意力权重β＝{β₁,β₂,...,β_t,...}，如下公式计算：

β_t＝ReLU(W_g*h_t)

其中，h_t是一个3维张量，表示在时间步长t时的隐藏状态；W_g表示尺寸为1×1的卷积核；使用的ReLU激活函数定义为max(0,x)；特别地，h_t保留着空间位置信息；ConvLSTM中的注意力机制不仅关注关键帧，而且能关注空间中的关键区域；

β_t通过Softmax函数得到归一化的权重:

其中，T表示序列的长度。

为了获得视频级的分类结果c，计算所有时间步长内的隐藏状态和时间注意力的权重和。

S3,模型训练及测试过程。本发明将样本分为训练集和测试集，并且两个集合互斥。模型损失函数如下式所示：

表示预测的向量；w_j表示网络参数的设置，λ₁是权值衰减；λ₂是正则化系数，限制时间注意力的增加。

模型的训练采用动量随机梯度下降方法，以0.001作为初始的学习速率，每经过9000次迭代后乘以0.9，batch size设置为2；λ₁和λ₂分别设为0.00005和0.001。

Claims

1.一种基于时空注意力机制的手语识别方法，其特征在于，包括以下步骤：

S1数据预处理，对手语视频进行采样，并对采样后的图片进行图像尺度归一化处理；

S2构建残差3D卷积神经网络，提取输入视频的短期的时空特征，在残差3D卷积神经网络中引入空间注意力模块；所述空间注意力模块为：

S22:H_x分别通过掩膜分支和残差分支被变换到两个不同的特征空间F_x和G_x；掩膜分支通过下采样和上采样处理使高低维度的特征更好地组合在一起，残差分支的目的是提取更深层次的时空特征；对两个特征空间进行组合变换，再经过归一化处理生成空间注意力图α_x：

其中，

为哈达玛积，也就是逐元素相乘，σ表示Softmax激活函数，F_x和G_x分别是掩膜分支和残差分支的输出；

S23:注意力层输出为

为了更好地利用前层的信息，最终的输出为：O_x＝x+S_x；

S3构建卷积长短时记忆网络，将短期的时空特征经过卷积长短时记忆网络解析后提取出长时间的时空特征，在卷积长短时记忆网络中引入时间注意力模块，生成视频帧的时间注意力权重，结合不同视频帧的时间注意力生成视频的特征表示；

S4经过Softmax分类器，输出手语分类类别。

2.根据权利要求1所述一种基于时空注意力机制的手语识别方法，其特征在于：所述数据预处理包括将每一个手语视频采样为32帧；帧数大于32的视频，将多余的帧数平均分配到首尾两端进行删除，保留中间的关键帧；而对于帧数小于32的视频为了保证数据的时序性，则重复最后一帧。

3.根据权利要求1所述一种基于时空注意力机制的手语识别方法，其特征在于：所述残差3D卷积神经网络中具有4个残差块；每个残差块包含六层3D卷积层，一层下采样层和一层上采样层，前两层3D卷积层提取的特征经过捷径连接与最后一层卷积层的输出进行相加。

4.根据权利要求3所述一种基于时空注意力机制的手语识别方法，其特征在于：所述下采样层采用最大值池化，所述上采样层采用双线性插值。

5.根据权利要求1所述一种基于时空注意力机制的手语识别方法，其特征在于：所述两个分支其中掩膜分支需要经过下采样和上采样处理，残差分支经过四层3D卷积处理。

6.根据权利要求1所述一种基于时空注意力机制的手语识别方法，其特征在于：步骤S3所述卷积长短时记忆网络为：

i_t＝σ(w_xi*x_t+w_hi*h_t-1+b_i)

f_t＝σ(w_xf*x_t+w_hf*h_t-1+b_f)

o_t＝σ(w_xo*x_t+w_ho*h_t-1+b_o)

代表哈达玛积。

7.根据权利要求1所述一种基于时空注意力机制的手语识别方法，其特征在于：所述引入时间注意力模块的步骤包括：

β_t＝ReLU(W_g*h_t)

S32:β_t通过Softmax函数得到归一化的权重:

其中，T表示序列的长度；

8.根据权利要求1-7任一项所述一种基于时空注意力机制的手语识别方法，其特征在于：还包括模型训练及测试过程，其中根据损失函数，动量随机梯度下降算法更新网络。

9.根据权利要求8所述一种基于时空注意力机制的手语识别方法，其特征在于：

所述损失函数如下式所示：