CN110210416B

CN110210416B - 基于动态伪标签解码的手语识别系统优化方法及装置

Info

Publication number: CN110210416B
Application number: CN201910484843.6A
Authority: CN
Inventors: 李厚强; 周文罡; 周浩
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2021-10-01
Anticipated expiration: 2039-06-05
Also published as: CN110210416A

Abstract

本发明公开了一种基于动态伪标签解码的手语识别系统优化方法及装置，应用于手语识别系统，手语识别系统包括：特征提取器、时序建模器和序列解码器；方法包括：采用连续联结分类作为优化函数，采用端到端的训练方法训练整个手语识别系统，得到初步可用的手语识别系统；优化特征提取器的参数，优化时序建模器的参数，利用优化后提取的时序特征，优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中。本发明能够更好的耦合手语识别系统中的多个模块，进而提高了手语识别的准确率。

Description

基于动态伪标签解码的手语识别系统优化方法及装置

技术领域

本发明涉及手语识别系统技术领域，尤其涉及一种基于动态伪标签解码的手语识别系统优化方法及装置。

背景技术

随着虚拟现实、体感设备、可穿戴设备等技术的快速发展和应用，人们对于多模态人机交互方式的需求日益上升。这其中非常重要的环节是使得计算机能精准地感知包括自然语言、手势语言、面部表情在内的多种信息表达方式。手语是用手形变换和手臂运动，辅以面部表情和唇动来表达精准的语义信息，且在长期的发展中，拥有规范的语法、明确的语义和健全的词汇体系。

手语识别的目的是通过计算机设计一定的算法，将摄像头捕捉到的手语视觉信息翻译为相应的文本或语音信息。这项研究不仅可以促进人机交互领域的发展，同时可以为聋人以及听障人士提供手语机器翻译，使得聋人可以更方便地和听人进行交流，方便他们的日常生活。

连续手语识别是指输入一段包含完整手语句子的视频，识别其表达的多个连续手语词汇，并组织成句。连续手语识别系统主要分为两个部分，分别是特征提取模块和时序建模模块。特征提取部分负责捕捉原始视频帧中的关键视觉信息，并将其转化为数字化的特征表达。时域建模部分负责对连续手语视觉特征进行时域上的建模，转化为自然语言的文本进行输出。

在现有的连续手语识别方法中，基于深度神经网络的手语识别方法非常热门。基于深度神经网络的手语识别系统通常由特征提取器、时序建模器和序列解码器组成。特征提取器采用卷积神经网络(Convolutional Neural Network，CNN)，提供具有判别力的视觉特征表达。时序建模器有多种选择，如时域卷积网络(Temporal Convolutional Network，TCN)和门限循环神经网络(Gated Recurrent Neural Network，GRU)，将连续的视觉特征表达进行时序上的整合，得到每一帧的预测概率矩阵，最终交由序列解码器进行解码，得到识别出的文本信息。目前，手语识别系统的网络参数的优化采取端到端的训练方法，采用基于联结时序分类(Connectionist Temporal Classification，CTC)的优化函数。

由此可以看出，现有的手语识别系统的优化方法存在以下问题：

1、连续手语识别系统由特征提取器、时序建模器和序列解码器等多个模块组成，传统的优化方法仅仅依赖端到端的训练方法，难以优化所有模块，模块参数难以相互耦合，识别率不高。

2、采用单一的时序建模器无法兼顾长时序列信息和短时序列信息，时域卷积网络可以建模短时的短语信息，缺乏整体语法和上下文的建模；而门限循环神经网络可以建模长时的语言信息，缺乏短时的视觉运动建模。

因此，如何实现手语识别系统中多个模块可以更好的耦合，以提高手语识别的准确率，是一项亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于动态伪标签解码的手语识别系统优化方法，能够更好的耦合手语识别系统中的多个模块，进而提高了手语识别的准确率。

本发明提供了一种基于动态伪标签解码的手语识别系统优化方法，应用于手语识别系统，所述手语识别系统包括：特征提取器、时序建模器和序列解码器；所述方法包括：

采用连续联结分类作为优化函数，采用端到端的训练方法训练整个手语识别系统，得到初步可用的手语识别系统；

优化特征提取器的参数；

优化时序建模器的参数；

利用优化后提取的时序特征，优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中。

优选地，所述优化特征提取器的参数，包括：

利用时序建模器得到概率矩阵；

基于动态伪标签解码得到每一个视频片段的手语伪标签；

利用所述手语伪标签和交叉熵函数优化特征提取器的参数。

优选地，所述利用时序建模器得到概率矩阵，包括：

将视频切分为多个视频片段，构成视频片段集合；

将所述视频片段集合输入到三维卷积神经网络中，得到所需的时序特征；

将所述时序特征输入到时序建模器中，得到对应的隐变量；

基于所述隐变量经过时序建模器中的全连接层和软最大层，得到针对每一个视频片段的概率矩阵。

优选地，所述优化时序建模器的参数，包括：

利用优化后的特征提取器，提取出时序特征作为输入，优化时序建模器的参数。

优选地，所述时域集成网络包括：门限循环单元、卷积核大小为1的时序卷积层和卷积核大小为3的时序卷积层。

一种基于动态伪标签解码的手语识别系统优化装置，应用于手语识别系统，所述手语识别系统包括：特征提取器、时序建模器和序列解码器；所述装置包括：

获得模块，用于采用连续联结分类作为优化函数，采用端到端的训练方法训练整个手语识别系统，得到初步可用的手语识别系统；

第一优化模块，用于优化特征提取器的参数；

第二优化模块，用于优化时序建模器的参数；

第三优化模块，用于利用优化后提取的时序特征，优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中。

优选地，所述第一优化模块在执行优化特征提取器的参数时，具体用于：

利用时序建模器得到概率矩阵；

基于动态伪标签解码得到每一个视频片段的手语伪标签；

利用所述手语伪标签和交叉熵函数优化特征提取器的参数。

优选地，所述第一优化模块在执行利用时序建模器得到概率矩阵时，具体用于：

将视频切分为多个视频片段，构成视频片段集合；

将所述时序特征输入到时序建模器中，得到对应的隐变量；

优选地，所述第二优化模块在执行优化时序建模器的参数时，具体用于：

综上所述，本发明公开了一种基于动态伪标签解码的手语识别系统优化方法，当需要对手语识别系统进行优化时，首先采用连续联结分类作为优化函数，采用端到端的训练方法训练整个手语识别系统，得到初步可用的手语识别系统，然后优化特征提取器的参数，优化优化时序建模器的参数，优化利用优化后提取的时序特征，优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中。本发明在优化前期，通过交替的优化特征提取器和时序建模器，有效提升了手语识别系统各个组件的耦合程度，在优化后期，引入时序集成方法，同时捕捉手语中长时的上下文信息和短时的视觉运动信息，提高了手语识别系统的识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开的一种基于动态伪标签解码的手语识别系统优化方法实施例1的方法流程图；

图2为本发明公开的一种基于动态伪标签解码的手语识别系统优化方法实施例2的方法流程图；

图3为本发明公开的一种基于动态伪标签解码的手语识别系统优化装置实施例1的结构示意图；

图4为本发明公开的一种基于动态伪标签解码的手语识别系统优化装置实施例2的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明公开的一种基于动态伪标签解码的手语识别系统优化方法实施例1的方法流程图，所述方法应用于手语识别系统，其中，手语识别系统包括：特征提取器、时序建模器和序列解码器；所述方法可以包括以下步骤：

S101、采用连续联结分类作为优化函数，采用端到端的训练方法训练整个手语识别系统，得到初步可用的手语识别系统；

当需要对手语识别系统进行优化时，首先得到初步可以的手语识别系统，在得到初步可用的手语识别系统时，可以采用连续联结分类作为优化函数，并采用传统的端到端的训练方法训练整个手语识别系统，进而得到初步可用的手语识别系统。

S102、优化特征提取器的参数；

当得到初步可用的手语识别系统后，进一步对得到的初步可用的手语识别系统中的模块进行迭代优化。具体的，首先对特征提取器的参数进行优化。

S103、优化时序建模器的参数；

然后基于优化后的特征提取器对时序建模器的参数进行优化。

S104、利用优化后提取的时序特征，优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中。

在前期对特征提取器和时序建模器进行迭代优化后，进一步将现有的时序建模方法替换为时域集成网络，利用优化后提取的时序特征，优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中。

综上所述，在上述实施例中，当需要对手语识别系统进行优化时，首先采用连续联结分类作为优化函数，采用端到端的训练方法训练整个手语识别系统，得到初步可用的手语识别系统，然后优化特征提取器的参数，优化优化时序建模器的参数，优化利用优化后提取的时序特征，优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中。本发明在优化前期，通过交替的优化特征提取器和时序建模器，有效提升了手语识别系统各个组件的耦合程度，在优化后期，引入时序集成方法，同时捕捉手语中长时的上下文信息和短时的视觉运动信息，提高了手语识别系统的识别率。

如图2所示，为本发明公开的一种基于动态伪标签解码的手语识别系统优化方法实施例2的方法流程图，所述方法应用于手语识别系统，其中，手语识别系统包括：特征提取器、时序建模器和序列解码器；所述方法可以包括以下步骤：

S201、采用连续联结分类作为优化函数，采用端到端的训练方法训练整个手语识别系统，得到初步可用的手语识别系统；

S202、利用时序建模器得到概率矩阵，基于动态伪标签解码得到每一个视频片段的手语伪标签，利用手语伪标签和交叉熵函数优化特征提取器的参数；

在对特征提取器的参数进行优化时，首先将一个拥有L帧的视频，切分为T个视频片段，每个视频片段含w帧，片段之间相隔s帧。这样，

且将得到的视频片段集合表示为

然后我们将视频片段集合输入到三维卷积神经网络中，得到所需的时序特征f，

其中，Ω_θ表示参数为θ的三维卷积神经网络。

然后我们将时序特征f输入到时序建模器中，这一步我们的时序建模器为门限循环卷积网络，表示为GRU。时序特征f输入门限循环卷积网络中得到T个对应的隐变量h：

h_t＝GRU(h_t-1,f_t)

再经过时序建模器中的全连接层(Fully-connected Layer)和软最大层(Soft-Max Layer)，得到所需的针对每一个视频片段的概率矩阵，

这里，y_t,j为手语标签j发生在第t个视频片段的概率。

下面根据我们设计的动态伪标签解码的到每一个视频片段对应的手语标签。这里的求解目标为视频片段集合和手语标签之间的概率最大的对齐路径：

这里，

为输入的T个视频片段的时序特征，

为整段视频的N个手语标签。首先，将标签序列l扩展为

在标签序列的首尾和两两之间插入1个空白标签blank，这样时序特征x和标签序列l'组成了一个T乘以2N+1的格点矩阵，每一个格点(t,n)代表x_t和l'_n的一个对齐关系。这里t∈[1,T],n∈[1,2N+1]。为了避免数值下溢，将其格点(t,n)的概率表示如下的自然对数形式：

在格点矩阵中，允许相邻的空白标签和非空白标签之间的切换，任意一对不同的非空白标签之间的切换。根据这些规则，定义一个累加矩阵

它的初始方式如下：

完整的Q矩阵的数值由如下递归方程计算得到：

Q(t，n)＝P(t，n)+Q(t-1，β(t，n))

其中：

将每一个Q(t,n)的递归路径记录在β(t,n)中，同时以如下公式回溯得到逆向值b_t：

最终，需要的概率最大的对齐路径解码如下：

这里，第t个视频片段对应的标签即为π_t。这里的标签是估计出的隐变量，且逼近最佳对齐路径，所以称为手语伪标签(真标签指代最佳对齐路径，这条路径是未知量，只能逼近)。然后，即可根据得到的手语伪标签，采用交叉熵函数优化特征提取器，得到特征表达更好的特征提取器。

S203、利用优化后的特征提取器，提取出时序特征作为输入，优化时序建模器的参数；

然后基于优化后的特征提取器，对视频片段集合提取出相应的视觉特征

将其作为时序建模器的输入，这一步时序建模器为门限循环卷积网络，输出即为最终每一个视频序列的概率矩阵。其中，y_t,j为手语标签j发生在第t个视频片段的概率。

此时，引入联结时序分类作为优化时序建模器的目标函数。首先，计算视频片段和标签可能的对齐路径

的概率：

然后计算所有可以映射到正确整句标签

的对齐路径之和p(l|x)：

最终采用损失函数L_CTC＝-lnp(l|x)，优化时序建模器的参数。

交替的进行特征提取的优化和时序建模器的优化，迭代式的优化特征提取器可以得到更具有判别力的手语视觉特征，迭代式的优化时序建模器可以预测出更准确的映射路径。两步相互提升，使得整个手语系统更好的耦合，识别率更高。

S204、利用优化后提取的时序特征，优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中。

最后，采用时序集成网络(Temporal Ensemble Network，TEM)替换前期优化过程中采用的门限循环卷积网络。

其中，时序集成网络的前端由三部分组成，分别为门限循环单元，卷积核大小为1的时序卷积层和卷积核大小为3的时序卷积层。三个组件后各接一个修正线性单元(Rectified Linear Unit，ReLU)，采用并联的形式。时序集成网络的后端采用一层全连接层(Fully-connected Layer)和软最大层(Soft-Max Layer)。这样，时序集成网络的输入为时序特征，最终输出即为所有视频片段的概率矩阵。其中，时序集成网络的参数优化方式同时序建模器的参数优化方式，优化完成后嵌回手语识别系统中。至此，优化完成，得到最终的手语识别系统。

如图3所示，为本发明公开的一种基于动态伪标签解码的手语识别系统优化装置实施例1的结构示意图，所述装置应用于手语识别系统，其中，手语识别系统包括：特征提取器、时序建模器和序列解码器；所述装置可以包括：

获得模块301，用于采用连续联结分类作为优化函数，采用端到端的训练方法训练整个手语识别系统，得到初步可用的手语识别系统；

第一优化模块302，用于优化特征提取器的参数；

第二优化模块303，用于优化时序建模器的参数；

第三优化模块304，用于利用优化后提取的时序特征，优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中。

如图4所示，为本发明公开的一种基于动态伪标签解码的手语识别系统优化装置实施例2的结构示意图，所述装置应用于手语识别系统，其中，手语识别系统包括：特征提取器、时序建模器和序列解码器；所述装置可以包括：

获得模块401，用于采用连续联结分类作为优化函数，采用端到端的训练方法训练整个手语识别系统，得到初步可用的手语识别系统；

第一优化模块402，用于利用时序建模器得到概率矩阵，基于动态伪标签解码得到每一个视频片段的手语伪标签，利用手语伪标签和交叉熵函数优化特征提取器的参数；

且将得到的视频片段集合表示为

其中，Ω_θ表示参数为θ的三维卷积神经网络。

然后我们将时序特征f输入到时序建模器中，这一步我们的时序建模器为门限循环卷积网络，表示为GRU。时序特征f输入门限循环卷积网络中得到T个对应的隐变量h，

h_t＝GRU(h_t-1,f_t)

这里，y_t,j为手语标签j发生在第t个视频片段的概率。

这里，

为输入的T个视频片段的时序特征，

为整段视频的N个手语标签。首先，将标签序列l扩展为

它的初始方式如下：

完整的Q矩阵的数值由如下递归方程计算得到：

Q(t，n)＝P(t，n)+Q(t-1，β(t，n))

其中：

最终，需要的概率最大的对齐路径解码如下：

第二优化模块403，用于利用优化后的特征提取器，提取出时序特征作为输入，优化时序建模器的参数；

的概率：

然后计算所有可以映射到正确整句标签

的对齐路径之和p(l|x)：

最终采用损失函数L_CTC＝-lnp(l|x)，优化时序建模器的参数。

第三优化模块404，用于利用优化后提取的时序特征，优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于动态伪标签解码的手语识别系统优化方法，其特征在于，应用于手语识别系统，所述手语识别系统包括：特征提取器、时序建模器和序列解码器；所述方法包括：

优化特征提取器的参数；

优化时序建模器的参数；

利用优化后提取的时序特征，采用时序集成网络TEM替换前期优化过程中采用的门限循环卷积网络优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中；

所述时域集成网络包括三个组件：门限循环单元、卷积核大小为1的时序卷积层和卷积核大小为3的时序卷积层；其中，三个组件后各接一个修正线性单元ReLU，采用并联的形式；时序集成网络的后端采用一层全连接层和软最大层；

所述优化特征提取器的参数，包括：

利用时序建模器得到概率矩阵；

基于动态伪标签解码得到每一个视频片段的手语伪标签；

利用所述手语伪标签和交叉熵函数优化特征提取器的参数；

所述基于动态伪标签解码得到每一个视频片段的手语伪标签，包括：

求解目标为视频片段集合和手语标签之间的概率最大的对齐路径：

其中，

为输入的T个视频片段的时序特征，

为整段视频的N个手语标签；

将标签序列l扩展为

在标签序列的首尾和两两之间插入1个空白标签blank，时序特征x和标签序列l′组成了一个T乘以2N+1的格点矩阵，每一个格点(t，n)代表x_t和l′_n的一个对齐关系；其中，t∈[1，T]，n∈[1，2N+1]；

将所述格点(t，n)的概率表示为如下的自然对数形式：

定义一个累加矩阵

其初始方式如下：

完整的Q矩阵的数值由如下递归方程计算得到：

β(t，n)＝argmax_{k∈[g(n)，n]}Q(t-1，k)；

Q(t，n)＝p(t，n)+Q(t-1，β(t，n))；

其中：

将每一个Q(t，n)的递归路径记录在β(t，n)中，同时以如下公式回溯得到逆向值b_t：

bT＝max_{k∈[2N，2N+1]}Q(T，k)；

得到概率最大的对齐路径解码如下：

其中，第t个视频片段对应的手语伪标签即为π_t。

2.根据权利要求1所述的方法，其特征在于，所述利用时序建模器得到概率矩阵，包括：

将视频切分为多个视频片段，构成视频片段集合；

将所述时序特征输入到时序建模器中，得到对应的隐变量；

3.根据权利要求2所述的方法，其特征在于，所述优化时序建模器的参数，包括：

4.一种基于动态伪标签解码的手语识别系统优化装置，其特征在于，应用于手语识别系统，所述手语识别系统包括：特征提取器、时序建模器和序列解码器；所述装置包括：

第一优化模块，用于优化特征提取器的参数；

第二优化模块，用于优化时序建模器的参数；

第三优化模块，用于利用优化后提取的时序特征，采用时序集成网络TEM替换前期优化过程中采用的门限循环卷积网络优化时域集成网络的参数，作为时域建模器嵌回手语识别系统中；所述时域集成网络包括三个组件：门限循环单元、卷积核大小为1的时序卷积层和卷积核大小为3的时序卷积层；其中，三个组件后各接一个修正线性单元ReLU，采用并联的形式；时序集成网络的后端采用一层全连接层和软最大层；

所述第一优化模块在执行优化特征提取器的参数时，具体用于：

利用时序建模器得到概率矩阵；

基于动态伪标签解码得到每一个视频片段的手语伪标签；

利用所述手语伪标签和交叉熵函数优化特征提取器的参数；