CN113609923B

CN113609923B - 基于注意力的连续手语语句识别方法

Info

Publication number: CN113609923B
Application number: CN202110800098.9A
Authority: CN
Inventors: 王军; 袁静波; 李玉莲; 潘在宇; 申政文; 鹿姝
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2022-05-13
Anticipated expiration: 2041-07-13
Also published as: CN113609923A

Abstract

本发明公开了一种基于注意力的连续手语语句识别方法，首先，分别提取彩色视频和光流视频模态的关键帧手语视频的关键帧序列的时空特征，将提取到的时空特征输入构建的基于注意力的连续手语语句识别模型，该模型本质上是一个序列到序列模型：通过基于注意力的双模态编码网络得到两个模态的融合特征序列，并输入基于连接时序分类的解码网络，得到最终的语义序列。本发明通过利用序列到序列模型将手语序列转换到另一个语言序列，解决输出长度不确定的问题，改善输入与输出序列的不规则对齐问题。同时，在完成具有冗余信息的复杂任务时，使用注意力模型将注意力聚焦于视频特征的重要区域，对连续手语语句识别效果有显著的提升。

Description

基于注意力的连续手语语句识别方法

技术领域

本发明属于手语识别技术领域，尤其涉及一种基于注意力的连续手语语句识别方法。

背景技术

手语识别使用计算机技术对人类所使用的手语进行语义分析，使计算机可以理解手语，将手语这一肢体语言转换为易于理解的文本、语音等表现形式。

随着人工智能的快速普及，人机交互技术让人类感受到了前所未有的便捷，在手语识别中应用人机交互也成为当前的研究热点。手语识别的应用不仅可以给聋哑人群体带来便利，还可以让他们无障碍的表达自己内心的诉求与想法，在促进人类社会和谐发展方面有着重要的意义.。首次提出基于注意力的连续手语语句识别方法，将连续手语语句视频中包含的单词按照语法关系转换为一个口语化的句子，其中涉及到时间分割问题与标签对齐的问题，需要构建一个较为复杂的语义对齐网络，并使用了彩色视频和其对应的光流视频关键帧序列作为输入，增强数据表征能力。

基于可穿戴设备的手语识别一般使用数据手套、传感器或一些运动捕捉设备收集手部运动的数据，将这些数据中的有效信息提取出来后，对手部姿态进行建模分类，基于可穿戴设备的手语识别方法确实可以精确定位手部，准确度都较高，然而数据手套造价昂贵，手语者在演示时必须佩戴笨重的手套，常常让手语演示者感到束缚；基于传统机器学习的手语识别通常分为三个步骤，数据预处理、特征提取和建模识别，通常采用尺度不变特征变换和梯度方向直方图等算法人工设计特征，然后使用传统机器学习分类器进行建模与识别，例如SVM、HMM等传统分类器，基于传统机器学习的手语识别需要人工设计特征提取方法，无法自动获取图像特征，依赖于人工经验，耗时耗力。

发明内容

本发明的目的在于提供一种基于注意力的连续手语语句识别方法，解决了时间分割问题与标签对齐的问题，改进连续手语语句识别的效果。

实现本发明目的的技术解决方案为：一种基于注意力的连续手语语句识别方法，包括以下步骤：

步骤1、采集M个彩色视频模态的手语视频，100＜M＜10000，使用TV-L1算法对彩色视频模态的手语视频的光流信息进行提取，并形成帧数相同的光流图像序列，提供光流视频模态的手语视频；采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取，对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频，10＜N＜100，在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集，100＜m＜M，两种模态的关键帧手语视频中剩余的视频构成测试集。

步骤2、使用两个相同结构的I3D网络分别提取两种模态的关键帧手语视频中的关键帧序列的时空特征，对应得到测试集对应的关键帧序列的时空特征和训练集对应的关键帧序列的时空特征。

步骤3、构建基于注意力的连续手语语句识别模型：

基于注意力的连续手语语句识别模型包括基于注意力的双模态编码网络和基于CTC的解码网络；基于注意力的双模态编码网络分为两路且结构相同，每路均包括BLSTM与注意力网络相结合的模型；基于CTC的解码网络包括LSTM、内在映射层和CTC损失层。

步骤4、将训练集对应的关键帧序列的时空特征送入基于注意力的双模态编码网络，通过BLSTM提取高层时空特征，并利用注意力网络为其分配注意力，得到分配过注意力权重的融合特征序列；基于CTC的解码网络使用LSTM对基于注意力的双模态解码网络输出的融合特征序列进行时序建模，再通过内在映射层生成每个视频关键帧的概率分布，最后使用CTC损失层根据概率分布计算得到实际语义的后验概率，得到最终的语义序列，即获得训练好的连续手语语句识别模型。

步骤5、将测试集对应的关键帧序列的时空特征序列，输入在训练好的基于注意力的连续手语语句识别模型，输出识别出的连续手语语句，测试模型准确率。

本发明与现有技术相比，其显著优点在于：

(1)首次将序列到序列模型网络框架用于手语识别，将手语识别中的特征提取与建模步骤合二为一，通过网络自学习的方法获取图像特征，还可以直接对手语进行时序建模，得到最终的语义序列，使手语识别摆脱了对人工经验的依赖。

(2)采用了基于连接时序分类(Connectionist Temporal Classification，CTC)的网络将视频与标签对齐，有效地提取了彩色视频和光流图像序列两种模态数据的关键时空信息，并且避免了传统时序分割问题，实现手语视频与语义的对齐。

(3)将BLSTM与注意力网络相结合，利用注意力机制具有的强大的泛化能力，将注意力放在BLSTM提取高层视频特征的重要区域，有效提取关键信息，丢弃冗余信息，大大提高模型的数据利用率。

(4)用双模态数据作为互补输入，可以充分对手语视频的空间表征和时间关系进行提取和建模，大大提高模型的准确率，改进识别效果。

附图说明

图1为基于注意力的连续手语语句识别模型图。

图2为注意力网络结构图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

本发明主要采用序列到序列(Sequence to Sequence，seq2seq)模型和注意力模型。首先，分别提取彩色视频和光流视频模态的关键帧手语视频的关键帧序列的时空特征，将提取到的时空特征输入构建的基于注意力的连续手语语句识别模型，该模型本质上是一个序列到序列模型：通过基于注意力的双模态编码网络得到两个模态的融合特征序列，并输入基于连接时序分类(Connectionist Temporal Classification，CTC)的解码网络，得到最终的语义序列。本发明公开的基于注意力的连续手语语句识别方法，通过利用序列到序列模型将手语序列转换到另一个语言序列，解决输出长度不确定的问题，改善输入与输出序列的不规则对齐问题。同时，在完成具有冗余信息的复杂任务时，使用注意力模型将注意力聚焦于视频特征的重要区域，对连续手语语句识别效果有显著的提升。

结合图1，本发明所述的一种基于注意力的连续手语语句识别方法，步骤如下：

步骤2、使用两个相同结构的I3D网络分别提取两种模态的关键帧手语视频中的关键帧序列的时空特征，整个I3D网络共22层三维卷积层、4个最大池化层、1个全局平均池化层和一个SoftMax层，网络的每一个三维卷积层后都引入了一个批量化归一层(BN)层和Relu激活函数层。I3D网络的输入连续手语语句彩色视频模态的关键帧手语视频序列

和对应光流视频模态的关键帧手语视频序列

T为每个关键帧手语视频序列的帧数。在利用I3D对视频中的每一个关键帧提取时空特征时，选取具有全局感受野的全局平均池化层的输出特征作为每一帧对应的时空特征，通过两路I3D网络分别提取到的连续手语语句彩色视频模态的关键帧手语视频中的关键帧序列的时空特征

与光流视频模态的关键帧手语视频中的关键帧序列的时空特征

步骤3、构建基于注意力的连续手语语句识别模型：基于注意力的连续手语语句识别模型包括基于注意力的双模态编码网络和基于CTC的解码网络。

在基于注意力的连续手语语句识别模型中，基于注意力的双模态编码网络由两路结构相同的BLSTM与注意力网络构成，BLSTM由一组双向的LSTM神经单元组成，分为前向网络和后向网络，同时传递t时刻之前时刻与之后时刻的信息。

在t时刻，基于注意力的双模态编码网络中前向LSTM和后向LSTM的隐藏层状态分别为

和

它们的隐含层单元传递信息的方向是相反的，

对应的传递函数为：

对应的传递函数为：

其中，h_t-1为前一时刻特征向量，h_t+1为后一时刻特征向量，f_t为训练集对应的关键帧序列的时空特征，U₁和W₁为前向网络的共享权重，U₂和W₂为后向网络的共享权重，b₁和b₂为偏置；前向LSTM和后向LSTM都通过各自的传递函数进行隐藏单元之间的特征传递，通过拼接前向LSTM层和后向LSTM层的隐藏状态，得到经过LSTM网络后在t时刻关键帧序列的高层特征：

彩色视频模态和光流模态的关键帧手语视频对应的输出高层特征序列，分别用

和

表示；

在使用注意力机制时，对于每个时刻，特征为h_i，其中i∈[t-1，t+1]，则根据输入特征与上一时刻输出加权向量计算h_i对t时刻输出的相似度分数

计算方式如下：

其中，W_a、W_b、w为权重矩阵，σ为tanh函数，b_a为偏置向量，h_t为t时刻输入特征，a_t-1为t-1时刻多层感知机输出特征。

对三个特征向量h_t，h_t-1，h_t+1的相似度进行指数归一化，归一化后的序列位置t处的注意力系数为：

其中，α_t为注意力系数，0≤α_t≤1，

且

将注意力系数α_t作为权重，通过加权求和的方式计算a_t，表示为：

通过双模态编码网络分别得到彩色视频模态和光流模态的关键帧手语视频的加权特征序列，分别表示为

将其进行特征拼接后得到分配过注意力权重的融合特征序列a＝(a₁，a₂，…，a_T)。

在基于注意力的连续手语语句识别模型中，使用LSTM和CTC损失层组成基于CTC的解码网络；将融合特征序列a作为LSTM的输入，对两个模态的特征序列进一步整合，并与时间关系建模，通过LSTM得到新的特征序列g_t表示为：

g_t＝LSTM(a_t-1，a_t)

其中，a_t为t时刻多层感知机输出特征。

采用CTC损失层进行训练：首先使用一个由SoftMax函数组成的内在映射层，将解码器的LSTM层每个时刻的输出特征g_t映射为分布概率

其中，K为手语词典元素表所含元素个数；再通过CTC损失层，根据每个视频关键帧的分布概率计算得到实际语义的后验概率。

采用通用损失函数训练L个标签的目标词典时，将产生|L|个输出；在基于CTC的解码网络中引入空白标签<blank>并创建拓展词典序列L′＝L∪{<blank>}，并定义一个拓展词典序列π和目标标签序列1之间的映射函数，映射函数B表示为：

B：L^′T→L^U,(U≤T)

其中，π∈L^T，l∈L^U；L^′T为包含空白标签<blank>的拓展词典序列，其长度为T，L^U为将L^′T中去除重复标签与空白标签后的语义标签序列，U为折叠后语句中语义标签数量。

当CTC损失层的输入序列为解码器中LSTM输出的特征序列g＝(g₁，g₂，...，g_T)，定义一个逆映射函数B^-1，它生成所有可能与目标标签序列l相对应的拓展词典序列π，那么给定输入特征序列a对应于标签序列l的概率为：

根据输出序列的概率分布P(l|K)，调整模型参数使得P(l|K)最大；根据前后向算法计算得到CTC损失函数：

L_CTC＝-ln(P(l|a))

使用梯度下降法对网络进行训练，并计算CTC损失函数的梯度；获得CTC的损失函数与梯度之后，然后对其解码，用公式表示为：

y(a)＝argmaxP(l|a)

找到输出序列的概率分布中概率最大的路径后，输出对应序列找到最佳输出序列W＝(w₁，w₂，...，w_U)，其中U为每个连续手语语句视频包含的词语数量。

实施例1

本发明所述的基于注意力的连续手语语句识别方法，步骤如下：

步骤1、采集1000个彩色视频模态的手语视频，使用TV-L1算法对彩色视频模态的手语视频的光流信息进行提取，并形成帧数相同的光流图像序列，提供光流视频模态的手语视频；采用CNN对两种模态的手语视频的关键帧进行提取，得到像素大小为224×224、关键帧均匀采样至8帧的手语视频，在得到的两种模态的手语视频中各选取800个相对应的视频作为训练集。

步骤2、使用两个相同结构的I3D网络分别提取两种模态的关键帧手语视频中的关键帧序列的时空特征，直接采用预训练过的双流I3D作为手语语句特征提取网络，并在手语视频上对其微调。I3D网络学习率初始值设置为0.01。

步骤3、构建基于注意力的连续手语语句识别模型：

基于注意力的双模态编码网络中的注意力自网络以及解码器中的CTC损失层则需要重新计算。参数设置如表1所示：

表1基于注意力的连续手语语句识别模型训练参数

在编解码网络中，编码网络与解码网络的LSTM隐藏层状态单元数为512，注意力网络中多层感知机的网络通道数设为10，基于CTC的解码器采用SGD算法对目标函数和梯度进行训练。在编码器最后的分类层中，SoftMax层的单元数量根据手语词典数量设为61。

步骤4、将训练集对应的关键帧序列的时空特征送入基于注意力的双模态编码网络，通过BLSTM提取高层时空特征，并利用注意力网络为其分配注意力，注意力网格结构如图2所示，得到分配过注意力权重的融合特征序列；基于CTC的解码网络使用LSTM对基于注意力的双模态解码网络输出的融合特征序列进行时序建模，再通过内在映射层生成每个视频关键帧的概率分布，最后使用CTC损失层根据概率分布计算得到实际语义的后验概率，得到最终的语义序列，即获得训练好的连续手语语句识别模型；

根据识别正确的视频数量与视频总数的比可以评判出一个模型的好坏。在连续手语语句识别中，输入与输出的句子长度可能与句子真实语义长度不一致，输出句子中可能存在删除错误，插入错误和替换错误。为使连续手语语句识别的准确率考虑到各种误差，采用下式所述衡量标准。

其中，#del、#ins和#sub分别表示句子中的删除、插入和替换错误，#N表示真实语句含义中的手语词数量。

采用了不同模态数据作为输入对模型进行实验，还通过去除编码网络中的注意力网络后对网络模型进行评估。所提出的算法由TS En_decoder(Two Stream Encoder_decoder)表示，结果如表2所示。

表2不同模态识别结果对比

表2中，SS en_decoder表示使用单层基于注意力的编码网络分别对彩色视频、深度视频和光流图像数列进行编码，然后使用基于CTC的解码网络进行解码。可以看出彩色数据仍然具备较高的准确率，然而在连续手语语句识别任务中，光流信息比深度数据的表现更为优秀，因此，光流信息强大的运动信息表征能力，在连续手语语句识别这种依赖长期时间关系的任务中可以取得较好的识别效果。除此之外，将编码网络中的注意力机制移除，仅使用两层结构相同的BLSTM网络对彩色和光流两种模态的浅层时空特征进行编码，将其输出的高层时空特征作为解码网络的输入进行解码。由此看出，无论是在训练集还是测试集上都取得了较高的准确率，可以表明注意力机制对时序建模的长期依赖问题有明显的改善，有效地提高了模型准确率。

Claims

1.一种基于注意力的连续手语语句识别方法，其特征在于，步骤如下：

步骤1、采集M个彩色视频模态的手语视频，100＜M＜10000，使用TV-L1算法对彩色视频模态的手语视频的光流信息进行提取，并形成帧数相同的光流图像序列，提供光流视频模态的手语视频；采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取，对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频，10＜N＜100，在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集，100＜m＜M，两种模态的关键帧手语视频中剩余的视频构成测试集；

步骤2、使用两个相同结构的I3D网络分别提取两种模态的关键帧手语视频的关键帧序列的时空特征，对应得到测试集对应的关键帧序列的时空特征和训练集对应的关键帧序列的时空特征；

步骤3、构建基于注意力的连续手语语句识别模型：

基于注意力的连续手语语句识别模型包括基于注意力的双模态编码网络和基于CTC的解码网络；基于注意力的双模态编码网络分为两路且结构相同，每路均包括BLSTM与注意力网络相结合的模型；基于CTC的解码网络包括LSTM、内在映射层和CTC损失层；

在基于注意力的连续手语语句识别模型中，基于注意力的双模态编码网络由两路结构相同的BLSTM与注意力网络构成，BLSTM由一组双向的LSTM神经单元组成，分为前向网络和后向网络，同时传递t时刻之前时刻与之后时刻的信息；

和

它们的隐含层单元传递信息的方向是相反的，

对应的传递函数为：

对应的传递函数为：

和

表示；

计算方式如下：

其中，W_a、W_b、w为权重矩阵，σ为tanh函数，b_a为偏置向量，h_t为t时刻输入特征，a_t-1为t-1时刻多层感知机输出特征；

其中，α_t为注意力系数，0≤α_t≤1，

且

将其进行特征拼接后得到分配过注意力权重的融合特征序列a＝(a₁，a₂，...，a_T)；

步骤4、将训练集对应的关键帧序列的时空特征送入基于注意力的双模态编码网络，通过BLSTM提取高层时空特征，并利用注意力网络为其分配注意力，得到分配过注意力权重的融合特征序列；基于CTC的解码网络使用LSTM对基于注意力的双模态解码网络输出的融合特征序列进行时序建模，再通过内在映射层生成每个视频关键帧的概率分布，最后使用CTC损失层根据概率分布计算得到实际语义的后验概率，得到最终的语义序列，即获得训练好的连续手语语句识别模型；

2.根据权利要求1所述的一种基于注意力的连续手语语句识别方法，其特征在于，步骤3中，在基于注意力的连续手语语句识别模型中，使用LSTM和CTC损失层组成基于CTC的解码网络；将融合特征序列a作为LSTM的输入，对两个模态的特征序列进一步整合，并与时间关系建模，通过LSTM得到新的特征序列g_t表示为：

g_t＝LSTM(a_t-1，a_t)

其中，a_t为t时刻多层感知机输出特征；

其中，K为手语词典元素表所含元素个数；再通过CTC损失层，根据每个视频关键帧的分布概率计算得到实际语义的后验概率；

采用通用损失函数训练L个标签的目标词典时，将产生|L|个输出；在基于CTC的解码网络中引入空白标签<blank>并创建拓展词典序列L′＝L∪{<blank>}，并定义一个拓展词典序列π和目标标签序列l之间的映射函数，映射函数B表示为：

B：L′^T→L^U，(U≤T)

其中，π∈L′^T，l∈L^U；L′^T为包含空白标签<blank>的拓展词典序列，其长度为T，L^U为将L′^T中去除重复标签与空白标签后的语义标签序列，U为折叠后语句中语义标签数量；

L_CTC＝-ln(P(l|a))

y(a)＝arg max P(l|a)