CN110705331A

CN110705331A - 一种手语识别方法及装置

Info

Publication number: CN110705331A
Application number: CN201810743921.5A
Authority: CN
Inventors: 李厚强; 蒲俊福; 周文罡
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2020-01-17
Anticipated expiration: 2038-07-09
Also published as: CN110705331B

Abstract

本发明公开了一种手语识别方法及装置，该方法包括：获取手语视频；将所述手语视频用滑窗分为N个视频片段；依次将每一所述视频片段输入三维残差卷积神经网络，并提取所述三维残差卷积神经网络的池化层响应作为所述每一所述视频片段的特征向量；利用所述特征向量构建特征向量矩阵；根据所述特征向量矩阵、利用栈式空洞卷积网络构建时序建模器；利用由所述三维残差卷积神经网络实例的特征提取器和所述时序建模器识别所述手语视频。分别训练三维残差卷积神经网络和栈式空洞卷积网络不会存在由于浅层网络参数不能得到很好的学习和更新导致的不能高效训练特征提取器和时序建模器的问题。

Description

一种手语识别方法及装置

技术领域

本发明涉及基于计算机视觉中的手语识别技术领域，特别是涉及一种手语识别方法及装置。

背景技术

连续手语识别系统作为计算机视觉和自然语言处理的交叉应用，通常由两个模块组成，即视觉特征提取器和时序建模器。前者是将视频中的视觉信息转化成高效的特征表达，后者则是利用视觉特征，对手语翻译结果进行时序建模。因此，连续手语识别系统的性能主要取决于特征提取器对视频的表达能力和时序建模器对翻译文本的序列建模能力。

现有技术中，深度神经网络在训练时，网络参数的更新采用基于链式法则的后向传播算法(Back Propagation)，浅层网络参数不能得到很好的学习和更新，因此如何高效地训练特征提取器和时序建模器也成为连续手语识别领域一个关键性的问题。

发明内容

为解决上述技术问题，本发明实施例提供了一种手语识别方法及装置，技术方案如下：

一种手语识别方法，包括：

获取手语视频；

将所述手语视频用滑窗分为N个视频片段，N为正整数；

依次将每一所述视频片段输入三维残差卷积神经网络，并提取所述三维残差卷积神经网络的池化层响应作为所述每一所述视频片段的特征向量；

利用所述特征向量构建特征向量矩阵；

根据所述特征向量矩阵、利用栈式空洞卷积网络构建时序建模器；

利用由所述三维残差卷积神经网络实例的特征提取器和所述时序建模器识别所述手语视频。

优选地，根据所述特征向量矩阵、利用栈式空洞卷积网络构建时序建模器，包括：

利用栈式空洞卷积网络对所述特征向量矩阵进行时序建模，以获取在不同时间分辨率下的时序信息；

根据所述时序信息，利用连接时序分类损失函数，构建所述时序建模器。

优选地，还包括：

利用所述连接时序分类损失函数生成所述每一所述视频片段的伪监督视频标签；

利用所述伪监督视频标签对所述三维残差卷积神经网络的参数进行优化。

优选地，还包括：

利用优化后的三维残差卷积神经网络提取所述每一所述视频片段的特征向量，得到目标特征向量；

根据所述目标特征向量对所述时序建模器进行训练。

优选地，还包括：

判断训练后的所述时序建模器是否达到收敛标准；

若否，以所述目标特征向量代替所述特征向量，并返回执行利用栈式空洞卷积网络对所述特征向量矩阵进行时序建模，以获取在不同时间分辨率下的时序信息的步骤。

一种手语识别装置，包括：

第一获取单元，用于获取手语视频；

切分单元，用于将所述手语视频用滑窗分为N个视频片段，N为正整数；

第一提取单元，用于依次将每一所述视频片段输入三维残差卷积神经网络，并提取所述三维残差卷积神经网络的池化层响应作为所述每一所述视频片段的特征向量；

第一构建单元，用于利用所述特征向量构建特征向量矩阵；

第二构建单元，用于根据所述特征向量矩阵、利用栈式空洞卷积网络构建时序建模器；

识别单元，用于利用由所述三维残差卷积神经网络实例的特征提取器和所述时序建模器识别所述手语视频。

优选地，第二构建单元，包括：

第二获取单元，用于利用栈式空洞卷积网络对所述特征向量矩阵进行时序建模，以获取在不同时间分辨率下的时序信息；

第三构建单元，用于根据所述时序信息，利用连接时序分类损失函数，构建所述时序建模器。

优选地，其特征在于，还包括：

生成单元，用于利用所述连接时序分类损失函数生成所述每一所述视频片段的伪监督视频标签；

优化单元，用于利用所述伪监督视频标签对所述三维残差卷积神经网络的参数进行优化。

优选地，其特征在于，还包括：

第二提取单元，用于利用优化后的三维残差卷积神经网络提取所述每一所述视频片段的特征向量，得到目标特征向量；

训练单元，用于根据所述目标特征向量对所述时序建模器进行训练。

优选地，其特征在于，还包括：

判断单元，用于判断训练后的所述时序建模器是否达到收敛标准；

执行单元，用于当所述判断单元确定未达到所述收敛标准时，以所述目标特征向量代替所述特征向量，并返回执行利用栈式空洞卷积网络对所述特征向量矩阵进行时序建模，以获取在不同时间分辨率下的时序信息的步骤。

本发明实施例中，采用三维残差卷积神经网络作为特征提取器的施例，采用栈式空洞卷积网络作为时序建模器的实例，因此在训练时可以分别对三维残差卷积神经网络和栈式空洞卷积网络进行训练。分别训练三维残差卷积神经网络和栈式空洞卷积网络不会存在由于浅层网络参数不能得到很好的学习和更新导致的不能高效训练特征提取器和时序建模器的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种手语识别方法的一种流程示意图；

图2为本发明实施例所提供的利用滑窗将手语视频切分为视频片段的示意图；

图3为本发明实施例所提供的空洞卷积神经网络的结构示意图；

图4为本发明实施例所提供的三维残差卷积神经网络和栈式空洞卷积神经网络的优化示意图；

图5为本发明实施例提供的一种手语识别装置的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种手语识别方法的一种流程示意图，该方法包括：

步骤S101、获取手语视频。

步骤S102、将手语视频用滑窗分为N个视频片段，N为正整数。

滑窗的窗长和步长可以根据需要预先设定。

本实施例中，为了使三维残差卷积神经网络提取特征向量并且尽可能保证单个手语词汇的完整性，根据经验将滑窗的窗长设为8、步长设为4对手语进行切分，得到有50％重叠的视频片段。如图2所示，展示了窗长为8、步长为4时对视频的切分过程示意图。

在给定手语视频的帧数为L，利用滑窗切分后的视频片段数

其中表示对x下取整。

步骤S103、依次将每一视频片段输入三维残差卷积神经网络，并提取三维残差卷积神经网络的池化层(pool5)响应作为每一视频片段的特征向量。

本实施例中，特征提取器的实例为三维残差卷积神经网络。

步骤S104、根据特征向量构建特征向量矩阵。

设被切分后视频片段为N的手语视频表示为V^N＝(v₁，...，v_N),用Φ表示三维残差卷积神经网络实例的特征提取器，通过三维残差卷积神经网络得到的特征向量矩阵为

其中，v_t表示每一视频片段，f_t表示与v_t对应的特征向量。

步骤S105、根据特征向量矩阵、利用栈式空洞卷积网络构建时序建模器。

步骤S106、利用由三维残差卷积神经网络实例的特征提取器和时序建模器识别手语视频。

将三维残差卷积神经网络提取的特征向量矩阵F^N输入栈式空洞卷积网络中。不同尺度大小的空洞卷积核在时间上有不同的感受野。使用栈式空洞卷积网络的优势是，利用很少数量的层数，就能获得非常大的感受野，因为感受野的范围随着层数的增加成指数型增长。这使得栈式空洞卷积网络能够捕捉到不同分辨率的时序信息。

图3为栈式空洞卷积网络的结构示意图，栈式空洞卷积网络包括多个层，每个层包括多个空洞模块，对于第i个空洞模块，输出和状态

分别为：

其中，C_d表示空洞卷积操作，C_1*1表示1×1卷积操作，⊙表示对应元素乘积，tanh分别表示σ双曲正切激活函数和Sigmoid激活函数。

栈式空洞卷积网络的每个层中的网络参数不同，对于时刻t的特征，其经过空洞卷积网络后的输出如下公式所示：

其中，C_d和C_1*1分别代表空洞卷积核1维卷积操作。最后，使用全链接层将空洞卷积的输出映射到K类的对数概率空间：

y_t＝W_fc×tanh(C_1*1(o_t))+b_fc. (g)

对于含有N个视频片段的手语视频，最终的概率分布为：

Y＝(Y_ij)＝[y₁，y₂，...，y_N]^T， (7)

其中，Y_ij代表第i个视频片段属于第j个词的对数概率。

为了优化栈式空洞卷积网络，使用CTC作为目标函数。CTC引入了空白标签(-)，它表示当前的视频片段不属于手语词汇表中的任何一个单词，而是用于辅助训练和解码的过渡标签。给定输入特征序列，π＝(π₁，...，π_T)，为一条解码路径，给定输入视频X，路径π的条件概率为：

定义一个多对一的映射

，其操作是移除重复标签和空白标签。这样，对一个长度为L的解码句子s＝(s₁，...，s_L)，其条件概率为：

其中，

是

的逆映射。栈式空洞卷积网络的目标函数是对数似然函数：

如图4所示，图4为对三维残差卷积神经网络和栈式空洞卷积神经网络的优化示意图，具体地：

利用CTC的伪监督标签对三维残差卷积神经网络的参数进行微调，第i个视频片段的标签由(11)式产生：

利用公式(11)可以对三维残差卷积神经网络的参数进行微调优化，用优化后的三维残差卷积神经网络提取视频片段的特征向量，并利用重新提取的特征向量训练栈式空洞卷积网络。

请参阅图5，图5为本发明实施例提供的一种手语识别装置的一种结构示意图，该结构示意图中的各模块的工作过程参照图1对应的实施例中方法的执行过程，该系统包括：

第一获取单元510，用于获取手语视频。

切分单元520，用于将手语视频用滑窗分为N个视频片段，N为正整数。

第一提取单元530，用于依次将每一视频片段输入三维残差卷积神经网络，并提取三维残差卷积神经网络的池化层响应作为每一视频片段的特征向量。

第一构建单元540，用于利用特征向量构建特征向量矩阵。

第二构建单元550，用于根据特征向量矩阵、利用栈式空洞卷积网络构建时序建模器。

优选地，第二构建单元，包括：

第二获取单元，用于利用栈式空洞卷积网络对特征向量矩阵进行时序建模，以获取在不同时间分辨率下的时序信息；

第三构建单元，用于根据时序信息，利用连接时序分类损失函数，构建时序建模器。

识别单元560，用于利用由三维残差卷积神经网络实例的特征提取器和时序建模器识别手语视频。

优选地，还包括：

生成单元，用于利用连接时序分类损失函数生成每一视频片段的伪监督视频标签；

优化单元，用于利用伪监督视频标签对三维残差卷积神经网络的参数进行优化。

优选地，还包括：

第二提取单元，用于利用优化后的三维残差卷积神经网络提取每一视频片段的特征向量，得到目标特征向量；

训练单元，用于根据目标特征向量对时序建模器进行训练。

优选地，还包括：

判断单元，用于判断训练后的时序建模器是否达到收敛标准；

执行单元，用于当判断单元确定未达到收敛标准时，以目标特征向量代替特征向量，并返回执行利用栈式空洞卷积网络对特征向量矩阵进行时序建模，以获取在不同时间分辨率下的时序信息的步骤。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

对于装置或系统实施例而言，由于其基本相应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置或系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，在没有超过本发明的精神和范围内，可以通过其他的方式实现。当前的实施例只是一种示范性的例子，不应该作为限制，所给出的具体内容不应该限制本发明的目的。例如，所述单元或子单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或多个子单元结合一起。另外，多个单元可以或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

另外，所描述系统，装置和方法以及不同实施例的示意图，在不超出本发明的范围内，可以与其它系统，模块，技术或方法结合或集成。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种手语识别方法，其特征在于，包括：

获取手语视频；

将所述手语视频用滑窗分为N个视频片段，N为正整数；

利用所述特征向量构建特征向量矩阵；

2.根据权利要求1所述的方法，其特征在于，根据所述特征向量矩阵、利用栈式空洞卷积网络构建时序建模器，包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

根据所述目标特征向量对所述时序建模器进行训练。

5.根据权利要求4所述的方法，其特征在于，还包括：

判断训练后的所述时序建模器是否达到收敛标准；

6.一种手语识别装置，其特征在于，包括：

第一获取单元，用于获取手语视频；

第一构建单元，用于利用所述特征向量构建特征向量矩阵；

7.根据权利要求6所述的装置，其特征在于，第二构建单元，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求9所述的装置，其特征在于，还包括：