CN111079661B

CN111079661B - 手语识别系统

Info

Publication number: CN111079661B
Application number: CN201911319045.4A
Authority: CN
Inventors: 李厚强; 周文罡; 周浩
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2022-07-15
Anticipated expiration: 2039-12-19
Also published as: CN111079661A

Abstract

本发明公开了一种手语识别系统，它可以显式地建模时空多线索之间的相关性，实现完整的手语视觉描述。在本系统中，空间多线索模块可以通过内置的姿态估计模块高效地分解出多线索特征。时间多线索模块由线索内和线索间建模器组成，可以在保留每一种线索的独有特征的同时探索不同线索带来的增益。除此之外，还设计了一种多线索序列优化算法，可以端到端的优化整个系统的参数和模块。根据设计的整套系统和优化算法，手语识别的准确率大幅提升。

Description

手语识别系统

技术领域

本发明涉及手语识别技术领域，尤其涉及一种手语识别系统。

背景技术

手语识别是聋人社群进行沟通交流的主要语言。作为一门视觉化的语言，手语具有丰富的词汇和完备的语法。但是在日常生活中，听人由于缺少专业知识，很难看懂聋人的手语所表达的内容。这种沟通障碍给聋人日常生活带来了不便，尤其是在医院、银行、车站等公共场合。为了实现聋人和听人的自由沟通，手语识别是其中非常重要的技术环节。

手语的表达主要依赖于手势的变化，但不局限于此。为了高效地表达含义，手语同时利用了手部线索以及非手部线索。其中，手部线索包括双手的形状、位置、姿态、朝向以及运动轨迹。非手部线索包括眼睛的注视方向、唇部的形状、脸部的表情以及身体的姿态。通过多种线索的外观变化、切换和运动，手语得以实现形象化、语法化的语言表达。

手语识别是指录制一段含有完整手语句子的视频，通过算法识别其表达的多个连续手语词汇，并连接成句。手语识别系统主要分为三个部分，分别是特征表达模块、时序建模模块以及序列解码模块。特征表达模块负责分析并描绘RGB视频帧中的关键视觉信息，并将其转化为数字化的特征表达。时域建模模块负责对手语视觉的动态特征进行时域上的建模。序列解码模块负责将时域上的特征转化为文本进行输出。

在现有的手语识别方案中，基于深度神经网络的手语识别最为普遍。在组成模块的设计上，这些方法存在非常明显的同质化现象。它们采用了单一的神经网络处理完整的RGB视频帧或者RGB图片，单纯的迁移动作识别领域或手势识别领域的深度学习框架和方法，缺乏针对手语识别的定制化的算法设计；总体来说，现有的手语识别方案主要存在如下缺陷：

1)在特征表达模块上设计上，没有针对手语的特性，对手、脸、姿态等关键线索进行分离，使得现有技术无法兼顾手语表达中的多种线索，损失了空间上的部分视觉信息，没有得到完整的空间特征表达。

2)采用单一的时序建模器不能建模线索内的序列信息和序列间的序列信息。这使得训练好的模型会倾向于单一线索，而不能通过全局的信息进行动态的决策。

3)目前的姿态估计等进行人体线索分离的算法对于手语识别来说是离线的，大大增加了手语特征分离的计算量和计算时间。这种计算负担使得手语识别系统在真实场景下难以实时运算，也提高了对终端设备计算力的要求。

发明内容

本发明的目的是提供一种手语识别系统，在空间特征表达上，在线预测各个人体关键点，通过预测的人体关键点实现多线索特征的分离。在时间特征建模上，引入线索内和线索间的序列分析，得到兼顾多线索特征的时域特征，从而提高手语识别准确率。

本发明的目的是通过以下技术方案实现的：

一种手语识别系统，包括：

空间多线索模块，对输入的手语演示视频帧序列进行特征提取与姿态识别，获得每一视频帧的中手语演示者的若干骨架关键点位置，基于骨架关键点位置获得不同的空间线索，进而提取出每个空间线索各自的特征向量；

时间多线索模块，通过建模空间线索内的时域信息，以及不同空间线索间的时域信息，得到空间线索内特征和空间线索间特征；

序列解码器，对空间线索内特征和空间线索间特征进行级联，通过循环卷积网络得到每一个时刻的手语词汇概率，再通过基于联结时序分类的集束解码器得到最终的预测结果，即手语句子。

由上述本发明提供的技术方案可以看出，它可以显式地建模时空多线索之间的相关性，实现完整的手语视觉描述。空间多线索模块可以在线、高效地分解出多线索特征，时间多线索模块，可以在保留每一种线索的独有特征的同时探索不同线索带来的增益，通过以上两方面的改进，能够提高手语识别准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种手语识别系统的示意图；

图2为本发明实施例提供的空间多线索模块的示意图；

图3为本发明实施例提供的时间多线索模块的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

为了解决现有技术所存在的技术缺陷，本发明实施例提供一种手语识别系统，使得特征处理模块可以高效实时地进行空间多线索特征的分离，时序建模模块可以有效地综合多线索在时域上的特征。同时，对这一新系统的优化算法进行定制，使得整个系统可以端到端的训练优化，最终提高识别准确率。

如图1所示，为本发明实施例提供的手语识别系统的示意图，其主要包括：

此外，系统还包括：多线索序列优化算法模块，通过多种损失函数进行有权值的线性组合，实现空间多线索模块和时间多线索模块的端到端优化；损失函数包括：基于线索间特征的联结时序分类损失函数、基于线索内特征的联结时序分类损失函数、以及基于姿态估计的回归损失函数。该优化算法为针对本发明设计的离线优化算法，在离线状态下对空间多线索模块和时间多线索模块中的参数进行优化，优化后的模块可直接用于在线的手语识别。

上述系统的原理是：1)空间多线索模块：通过内置的姿态估计分支，对通过深度神经网络的中间层进行多线索特征的分离(包括全局、手部、脸部和姿态等视觉线索)；2)时间多线索模块：模块内分为两个分路，一路负责建模线索内的时域信息，一路负责建模线索间的时域信息，在不同时间尺度上，线索内分支给线索间分支提供信息，最终得到综合后的结果；3)多线索序列优化算法：对多种代价函数进行有权值的线性组合，实现所有模块的端到端优化。其中，代价函数包括线索间、线索内、姿态估计共计三种代价函数；4)序列解码模块：利用线索内和线索间的时域信息，进行手语词汇的预测，解码成句。

为了便于理解，下面针对上述系统做进一步的介绍。

一、空间多线索模块。

本发明实施例中，空间多线索模块(SMC，Spatial Multi-Cue Module)作为特征提取器，其主要包括：深度神经网络与姿态识别模块。

对于手语演示视频，首先进行分解，获得手语演示视频帧序列，再输入至空间多线索模块。

如图2所示，通过深度神经网络，对输入的手语演示视频帧序列进行特征提取，深度神经网络的中间层输出每一视频帧的特征图，最后一层输出特征向量，特征向量包含了所有骨架关键点相对位置关系，其作为表征全局特征的空间线索。

图2中各图像底部的三个数字为图像的维度，前两个数字为长宽，末尾数字为深度，例如，224×224×3，表示图像长宽分别为224，深度为3。最右侧256-d、512-d均表示输出维度。Conv1-4、5-7、8-9表示卷积层层数的相关序号。

姿态识别模块，对每一视频帧的特征图进行识别，获得每一骨架关键点位置；所述骨架关键点包括如下一种或多种：手腕、手肘、肩部、鼻部、眼睛。

本发明实施例中，所述姿态识别模块通过如下任一种方式实现：

A、姿态识别子模块由多层反卷积网络(Deconvolutional Layer)和软最大层(Soft-Argmax Layer)组成，取深度神经网络的中间层输出的特征图作为输入，输入多层反卷积网络后得到上采样的空间特征图，通过软最大层回归出骨架关键点在x轴与y轴的空间坐标。

B、将现有姿态识别算法模块化后内置于空间多线索模块中，进行骨架关键点的预测。

图2所示的空间多线索模块中，姿态识别子模块使用A中的方法实现。

之后，深度神经网络，还通过骨架关键点位置对相应视频帧的特征图进行裁切，裁切时，以骨架关键点位置为中心裁切固定大小(例如，56x56，具体大小可根据实际情况来设定)的矩形框区域作为相应部位的特征图，不同部位的特征图组成不同的空间线索；将每个空间线索(包含不同部分的特征图组成的空间线索，以及前文提到的表征全局特征的空间线索)通过各自的多层卷积神经网络中，得到每个空间线索各自的特征向量。本发明实施例中，多层卷积神经网络作为深度神经网络的一部分，不同类线索的多层卷积神经网络中卷积层的权重不共享(如手部和脸部)，相同类线索的多层卷积神经网络中卷积层的权重共享(如左手和右手)。

通过以上方式对视频帧序列的全部视频帧进行处理，得到每一视频帧的多空间线索特征序列；再按照空间线索序号从每一视频帧中提取出相应空间线索的特征，构成每一线索的特征序列f_n＝(f_n，1，f_n，2，…，f_n，T)，其中，T为手语演示视频帧序列中视频帧数量，n为空间线索的序号，()代表序列集合。

二、时间多线索模块。

时间多线索模块(TMC，Temporal Multi-Cue Module)作为时序建模器，如图3所示，其包括依次设置的多个时间多线索块(TMC Block)，时间多线索块的输入包括空间线索内特征序列f和空间线索间特征序列o，表示为：

(o′，f′)＝Block_l(o，f)

其中的，f′为输出的空间线索内特征序列，o′为输出的空间多线索间特征序列，l为时间多线索块的序号；Block表示时间多线索块；第1个时间多线索块中o＝f＝[f₁，f₂，…，f_N]，[]代表级联操作，N为空间线索的总数量；

每一时间多线索块包括：线索内建模器与线索间建模器；

线索内建模器负责提供每一个空间线索在不同时间尺度下独有的特征，进行如下时间变换：

f′＝[f′₁，f′₂，…，f′_N]

线索间建模器负责综合不同空间线索间的特征，进行如下时间变换：

其中，K表示时域卷积，下标1与k均为时域卷积核长度，这里k≤T(即卷积核长度不超过视频总帧数)，上标C/2与C/N为输出通道数(C为设定的自然数，取值一般为1024，越大越好)，N为空间线索的总数量；ReLU(·)为线性整流函数。

三、多线索序列优化算法模块。

多线索序列优化算法模块，通过多种损失函数进行有权值的线性组合，实现所有模块的端到端优化，能够进一步提高识别准确率。该优化算法是离线优化算法，在离线状态下对空间多线索模块和时间多线索模块中的参数进行优化，优化后的模块可直接用于在线的手语识别。

本发明实施例中，损失函数包括：基于线索间特征的联结时序分类损失函数、基于线索内特征的联结时序分类损失函数、以及基于姿态估计的回归损失函数。

四、序列解码器。

本发明实施例中，序列解码器主要包括：循环卷积网络和基于联结时序分类(Connectionist Temporal Classification，CTC)的集束解码器，将时间多线索模块最终输出的的空间线索内特征和空间线索间特征进行级联，通过循环卷积网络得到每一个时刻的手语词汇概率，通过基于联结时序分类的集束解码器得到最终的预测结果，即手语句子。

其中，循环卷积网络(Recurrent Neural Network，RNN)由循环卷积单元(Recurrent Neural Unit)、全连接层(Fully-Connected Layer，FC)和软最大层(Soft-maxLayer)组成。它有两种实现方案，包括长短时记忆单元(Long-Short Term Memory，LSTM)以及门限循环单元(Gated Recurrent Unit，GRU)。循环卷积网络的输入为每一时刻的空间线索间特征o′_t，进行如下操作：

h_t＝RNN(h_t-1，o′_t)

其中，空间线索间特征o′_t来自于空间多线索模块输出的空间线索间特征序列o′，将o′按照视频帧的顺序进行整理，得到o′＝(o′₁，o′₂，…，o′_T)，t＝1，2，...，T；h_t为循环卷积单元输出的隐向量，h₀为初始全零向量。这里，循环卷积网络采用了双向结构，将o_t按照逆序输入反向循环卷积单元，进行如下操作：

h′_t＝RNN′(h′_t+1，o′_t)

将正反向输出的隐变量级联得到h_t＝[h_t，h′_t]，将其输入全连接层和软最大层，得到所需的每一时刻的手语词汇概率：

d_t＝Wh_t+b，

这里，W和b为全连接层中的变换矩阵，输出为维度为J的概率矩阵d_t，J为手语词汇表的词汇数，d_t＝[d_t，1，...，d_t，J]；y_t，j是软最大层的输出，为t时刻第j个手语词的概率，j，k∈[1，J]。

将输出的T个时刻的手语词概率矩阵y_t＝(y_t，1，y_t，2，…，y_t，J)输入集束解码器，通过集束搜索(Beam Search)，得到概率累积最大的手语词序列。然后，根据联结时序分类的解码规则，删除其中的空白标签和重复的标签。例如“我#我##明天#去去#上班”变为“我明天去上班”，其中#为空白标签。最终，系统输出预测的手语连续句，如“我明天去上班”。

本发明实施例提供了一种全新的基于多线索分析的手语识别系统。它可以显式地建模时空多线索之间的相关性，实现完整的手语视觉描述。在本系统中，空间多线索模块可以通过内置的姿态估计模块高效地分解出多线索特征。时间多线索模块由线索内和线索间建模器组成，可以在保留每一种线索的独有特征的同时探索不同线索带来的增益。除此之外，还设计了一种多线索序列优化算法，可以端到端的优化整个系统的参数和模块。根据设计的整套系统和优化算法，手语识别的准确率大幅提升。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种手语识别系统，其特征在于，包括：

序列解码器，对空间线索内特征和空间线索间特征进行级联，通过循环卷积网络得到每一个时刻的手语词汇概率，再通过基于联结时序分类的集束解码器得到最终的预测结果，即手语句子；

其中，所述时间多线索模块包括依次设置的多个时间多线索块，时间多线索块的输入包括空间线索内特征序列f和空间线索间特征序列o，表示为：

(o′，f′)＝Block_l(o，f)

每一时间多线索块包括：线索内建模器与线索间建模器；

f′＝[f′₁，f′₂，…，f′_N]

其中，K表示时域卷积，下标1与k均为时域卷积核长度，这里k≤T(即卷积核长度不超过视频总帧数)，上标C/2与C/N为输出通道数，C为设定的自然数，N为空间线索的总数量；ReLU(.)为线性整流函数。

2.根据权利要求1所述的一种手语识别系统，其特征在于，该系统还包括：多线索序列优化算法模块，通过多种损失函数进行有权值的线性组合，实现空间多线索模块和时间多线索模块的端到端优化；损失函数包括：基于线索间特征的联结时序分类损失函数、基于线索内特征的联结时序分类损失函数、以及基于姿态估计的回归损失函数；在离线状态下对空间多线索模块和时间多线索模块中的参数进行优化，优化后系统能够直接用于在线的手语识别。

3.根据权利要求1所述的一种手语识别系统，其特征在于，所述空间多线索模块包括：深度神经网络与姿态识别模块；其中：

深度神经网络，用于对输入的手语演示视频帧序列进行特征提取，深度神经网络的中间层输出每一视频帧的特征图，最后一层输出特征向量，特征向量包含了所有骨架关键点相对位置关系，其作为表征全局特征的空间线索；

所述姿态识别模块，对每一视频帧的特征图进行识别，获得每一骨架关键点位置，所述骨架关键点包括如下一种或多种：手腕、手肘、肩部、鼻部、眼睛；

深度神经网络，还用于通过每一骨架关键点位置对相应视频帧的特征图进行裁切，裁切时，以骨架关键点位置为中心裁切固定大小的矩形框区域作为相应部位的特征图，不同部位的特征图组成不同的空间线索；将每个空间线索通过各自的多层卷积神经网络中，得到每个空间线索各自的特征向量；

通过以上方式对视频帧序列的全部视频帧进行处理，得到每一视频帧的多空间线索特征序列；再按照空间线索序号从每一视频帧中提取出相应空间线索的特征，构成每一线索的特征序列f_n＝(f_n，1，f_n，2，…，f_n，T)，其中，T为手语演示视频帧序列中视频帧数量，n为空间线索的序号。

4.根据权利要求3所述的一种手语识别系统，其特征在于，所述姿态识别模块通过如下任一种方式实现：

姿态识别子模块由多层反卷积网络和软最大层组成，取深度神经网络的中间层输出的特征图作为输入，输入多层反卷积网络后得到上采样的空间特征图，通过软最大层回归出骨架关键点在x轴与y轴的空间坐标；

将现有姿态识别算法模块化后，进行骨架关键点的预测。