CN108647603B

CN108647603B - 基于注意力机制的半监督连续手语翻译方法及装置

Info

Publication number: CN108647603B
Application number: CN201810399532.5A
Authority: CN
Inventors: 徐枫; 薄子豪; 雍俊海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2021-01-29
Anticipated expiration: 2038-04-28
Also published as: CN108647603A

Abstract

本发明公开了一种基于注意力机制的连续手语翻译方法及装置，其中，方法包括：根据输入的手语视频通过手部区域检测网络生成手部区域图像序列；对手部区域图像序列和输出语言词汇进行编码，以输入手语翻译模型，并训练相应的词对齐序列；将相应的词对齐序列作为解码输入，以对手语翻译模型进行全监督训练，并生成连续手语翻译语句。该方法能够消除视频中手部以外信息对语言模型的影响，对手语表达过程中的冗余和过渡姿势有更强的分辨能力，能够准确迅速地对连续手语进行翻译。

Description

基于注意力机制的半监督连续手语翻译方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于注意力机制的半监督连续手语翻译方法及装置。

背景技术

手语是一种使用肢体语言的最具语法结构的交流方式，因此，对手语的识别与翻译将是一种理想的解决诸如情感分析、残障人士交流和智能人机交互的途径。

然而，连续手语翻译不同于单独的手势识别或标志识别，单独的手势识别或标志识别任务仅需要找出某时刻单独的动作或标志对应哪一个训练集中的标签。连续手语翻译则不仅要做到动作分类，还要做到动态时间分析、过渡与空白动作分析等，甚至手势和相应的语句词汇在顺序上都不一致，对翻译技术具有一定要求。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于注意力机制的半监督连续手语翻译方法，该方法能够准确迅速地对连续手语进行翻译。

本发明的另一个目的在于提出一种基于注意力机制的半监督连续手语翻译装置。

为达到上述目的，本发明一方面实施例提出了一种基于注意力机制的半监督连续手语翻译方法，包括以下步骤：根据输入的手语视频通过手部区域检测网络生成手部区域图像序列；对所述手部区域图像序列和输出语言词汇进行编码，以输入手语翻译模型，并训练相应的词对齐序列；将所述相应的词对齐序列作为解码输入，以对所述手语翻译模型进行全监督训练，并生成连续手语翻译语句。

本发明实施例的基于注意力机制的半监督连续手语翻译方法，通过建立手部区域图像序列，根据手语翻译模型训练相应的词对齐序列，并进行全监督训练以生成连续手语翻译语句，能够消除视频中手部以外信息对语言模型的影响，对手语表达过程中的冗余和过渡姿势有更强的分辨能力，能够准确迅速地对连续手语进行翻译。

另外，根据本发明上述实施例的基于注意力机制的半监督连续手语翻译方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述根据手语视频，通过手部区域检测网络，生成手部区域图像序列，进一步包括：根据视频时间采样获取所述图像序列；根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标，并提取手部区域。

进一步地，在本发明的一个实施例中，所述对所述手部区域图像序列和输出语言词汇编码，输入手语翻译模型，训练相应的词对齐序列，进一步包括：对所述手部图像序列进行编码，并提取卷积神经网络特征；通过词向量模型对翻译语句单词进行编码获取所述词特征序列；将所述图像特征和所述词特征输入编码-解码结构的注意力机制语言模型，以对输出的连续时域分类损失函数进行最小化训练，并得到经过训练的词对齐序列。

进一步地，在本发明的一个实施例中，将所述词对齐序列作为解码输入，对所述手语翻译模型进行全监督的训练，生成连续手语翻译语句，进一步包括：将所述词对齐序列作为编码输入目标，通过所述语言模型进行训练，根据输出单词序列分类交叉熵作为损失函数进行训练；每得到一个生成词更新编码输入预测下一生成词，直至所述翻译语句结束。

进一步地，在本发明的一个实施例中，所述全监督的训练还包括：

将所述语言模型作用为L：

其中，

为解码器线性输出，则第j个输出片段属于类别i的概率为：

CTC词对齐模型输出词对齐序列为π，则使得π中剔除空白标签和连续重复标签得到的序列为y：

π∈B^-1(y)＝{π|B(π}＝y}，

在输入

下，输出词对齐序列为π的概率为：

对应样本文本输出y的概率为

词对齐模型的损失函数为：

LosS_CTC＝-logP_CTC(y|s)。

为达到上述目的，本发明另一方面实施例提出了一种基于注意力机制的半监督连续手语翻译装置，包括：生成模块，用于根据输入的手语视频通过手部区域检测网络生成手部区域图像序列；训练模块，用于对所述手部区域图像序列和输出语言词汇进行编码，以输入手语翻译模型，并训练相应的词对齐序列；监督翻译模块，用于将所述相应的词对齐序列作为解码输入，以对所述手语翻译模型进行全监督训练，并生成连续手语翻译语句。

本发明实施例的基于注意力机制的半监督连续手语翻译装置，通过建立手部区域图像序列，根据手语翻译模型训练相应的词对齐序列，并进行全监督训练以生成连续手语翻译语句，能够消除视频中手部以外信息对语言模型的影响，对手语表达过程中的冗余和过渡姿势有更强的分辨能力，能够准确迅速地对连续手语进行翻译。

另外，根据本发明上述实施例的基于注意力机制的半监督连续手语翻译装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述生成模块还包括：采样单元，用于根据视频时间采样获取所述图像序列；提取单元，根据所述图像序列通过目标检测SSD网络输出手部区域的包围坐标，并提取手部区域。

进一步地，在本发明的一个实施例中，所述训练模块还包括：卷积神经网络特征提取单元，用于对所述手部图像序列进行编码，并提取卷积神经网络特征；编码单元，用于通过词向量模型对翻译语句单词进行编码获取所述词特征序列；最小化训练单元，用于将所述图像特征和所述词特征输入编码-解码结构的注意力机制语言模型，以对输出的连续时域分类损失函数进行最小化训练，并得到经过训练的词对齐序列。

进一步地，在本发明的一个实施例中，所述监督翻译模块还包括：训练单元，将所述词对齐序列作为编码输入目标，通过所述语言模型进行训练，根据输出单词序列分类交叉熵作为损失函数进行训练；预测单元，用于每得到一个生成词更新编码输入预测下一生成词，直至所述翻译语句结束。

将所述语言模型作用为L：

其中，

为解码器线性输出，则第j个输出片段属于类别i的概率为：

π∈B^-1(y)＝{π|B(π}＝y}，

在输入

下，输出词对齐序列为π的概率为：

则对应样本文本输出y的概率为

则词对齐模型的损失函数为：

LosS_CTC＝-logP_CTC(y|s)。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于注意力机制的半监督连续手语翻译方法的流程图；

图2为根据本发明一个实施例的基于注意力机制的半监督连续手语翻译方法的模型结构图示意图；

图3为根据本发明一个实施例的基于注意力机制的半监督连续手语翻译方法的编码-解码语言模型的内部结构示意图；

图4为根据本发明实施例的基于注意力机制的半监督连续手语翻译装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于注意力机制的半监督连续手语翻译方法及装置，首先将参照附图描述根据本发明实施例提出的基于注意力机制的半监督连续手语翻译方法。

图1为根据本发明实施例的基于注意力机制的半监督连续手语翻译方法的流程图。

如图1所示，该基于注意力机制的半监督连续手语翻译方法包括以下步骤：

在步骤S101中，根据输入的手语视频通过手部区域检测网络生成手部区域图像序列。

具体而言，根据手语视频，通过手部区域检测网络，生成手部区域图像序列，包括：根据视频时间采样获取图像序列；根据图像序列通过目标检测SSD网络输出手部区域的包围坐标，并提取手部区域。

在本发明的一个实施例中，如图2所示，为了使语言模型能够重点关注人手区域，忽略视频其他区域内容给编码输入带来的影响，使用目标检测网络对人手进行区域提取。具体来言，使用SSD网络作为目标检测网络，分别对手语者的左右手两个部分进行提取。

设输入图像序列为

其中，T为时间帧数量。经过目标检测网络，输出图像进行归一化，调整至统一大小，得到左右手图像序列

得：

可以理解的是，目标检测网络的训练数据可以手动标注，也可以使用现有数据集和处理方法生成，网络在PascalVOC上进行预训练处理。

进一步地，检测得到的图像序列经过卷积神经网络，提取出左右手两个通道的图像特征序列。具体而言，卷积神经网络使用MobileNetV2模型，利用depthwise卷积和pointwise卷积结构，降低模型训练参数，减小训练时间。MobileNetV2卷积网络在imagenet上进行预训练，得到：

进一步地，图像序列在时间维进行卷积，提取视频时间维特征，其中，卷积网络使用两层conv1d-maxpool结构。设时域卷积作用为TC，输出片段序列长度为N，得：

左右手特征进行串接融合得到：

在步骤S102中，对手部区域图像序列和输出语言词汇进行编码，以输入手语翻译模型，并训练相应的词对齐序列。

具体而言，对手部区域图像序列和输出语言词汇编码，输入手语翻译模型，训练相应的词对齐序列，进一步包括：对手部图像序列进行编码，并提取卷积神经网络特征；通过词向量模型对翻译语句单词进行编码获取词特征序列；将图像特征和词特征输入编码-解码结构的注意力机制语言模型，以对输出的连续时域分类损失函数进行最小化训练，并得到经过训练的词对齐序列。

在本发明的一个实施例中，步骤102中手语训练数据是半监督的，即没有输出语句的单词同输入视频的时间段对应的数据。全监督的数据会使模型在编码器与解码器attention层面更加一致，有助于生成时间有序的、有效甄别手语过渡与空白信息的输出语句。

进一步地，如图3所示，语言模型使用编码解码结构，内部基于attention神经网络。编码器单元使用两个残差注意力-前向模块组合，其中残差注意力模块内部基于谷歌的Multi-Head Attention网络，输入Q、K、V三个序列，经过矩阵相乘，得到Q和K在V上的线性组合：

其中，d_k是Q和K的特征维度。

可以理解的是，在编码器中，使用自注意力机制，即Q、K和V均为编码器输入序列。前向模块由两层时间维全连接网络和残差项构成，且两个前向模块的输出分别作为解码器问答注意力模块的Q和K项输入序列。

进一步地，解码器在编码器基础上，额外增加两个问答注意力模块，其基本结构同残差注意力模块相同，只是Q和K输入改为编码器相应网络输出。

可以理解的是，在编码器和解码器输入部分，融合了序列的位置编码。由于此注意力网络不同于传统的循环神经网络，是基于卷积神经网络的，拥有可并行处理的优势，但同时失去了循环神经网络对时间维度信息的处理能力。所以，序列的位置编码有助于编解码器得到有关输入的时间信息。

在词对齐序列生成过程中，使用连续时域分类(CTC)损失函数，具体为：编码器输入手部图像序列特征，解码器输入词向量序列特征。解码器输出对应词对齐序列的softmax概率，包含空白<blank>标签用来表示两个手语语义间的过渡动作与无手语动作。其中，语言模型作用为L：

其中，

为解码器线性输出，则第j个输出片段属于类别i的概率为：

进一步地，设CTC词对齐模型输出词对齐序列为π，包含词汇标签和空标签，存在一个从样本词汇序列y到CTC序列π的映射B，使得π中剔除空白标签和连续重复标签得到的序列即为y：

π∈B^-1(y)＝{π|B(π}＝y}，

在输入

下，输出词对齐序列为π的概率是：

对应样本文本输出y的概率为：

词对齐模型的损失函数为：

Loss_CTC＝-logP_CTC(y|s)，

经过词对齐模型的训练后，语言模型可以输出相应输入对应的词对齐序列输出，用于下一步语言模型交叉熵训练。

在步骤S103中，将相应的词对齐序列作为解码输入，以对手语翻译模型进行全监督训练，并生成连续手语翻译语句。

具体而言，将词对齐序列作为编码输入目标，通过语言模型进行训练，根据输出单词序列分类交叉熵作为损失函数进行训练；每得到一个生成词更新编码输入预测下一生成词，直至翻译语句结束。

在本发明的一个实施例中，经过步骤S102的训练，语言模型已经可以生成较为准确的词对齐序列了。进一步地，将语言模型生成的词对齐序列

作为解码器输入，对语言模型做全监督的训练，语言模型参数由第二步训练得到的参数做初始化：

此时可以得出的解码器输出

经过softmax层，输出第j个片段属于类别i的概率为：

在输入

下，输出词对齐序列的概率为：

语言模型的交叉熵损失函数为：

Loss_{c_e}＝-logP_{c_e}(π|s)。

进一步地，对模型输出进行剔除空白与连续重复标签，得到最终输出结果。在进行预测时，无需进行第二步的词对齐序列预测，直接使用第三部训练得到的语言模型进行预测。由于预测时无法在第一时间得到解码器的输入，所以程序可以一步一步运行，得到下一词汇的预测概率，更新解码器输入，再得到下个词汇的预测概率，以此类推，直到下一词汇预测为语句结束。在此迭代过程中，使用BeamSearch进行输出词汇的选择，Beam大小设置为3。

其次参照附图描述根据本发明实施例提出的基于注意力机制的半监督连续手语翻译装置。

图4是本发明一个实施例的基于注意力机制的半监督连续手语翻译装置的结构示意图。

如图4所示，该基于注意力机制的半监督连续手语翻译装置10包括：生成模块100、训练模块200和监督翻译模块300。

其中，生成模块100用于根据输入的手语视频通过手部区域检测网络生成手部区域图像序列。训练模块200用于对手部区域图像序列和输出语言词汇进行编码，以输入手语翻译模型，并训练相应的词对齐序列。监督翻译模块300用于将相应的词对齐序列作为解码输入，以对手语翻译模型进行全监督训练，并生成连续手语翻译语句。该基于注意力机制的半监督连续手语翻译装置10能够准确迅速地对连续手语进行翻译。

进一步地，在本发明的一个实施例中，生成模块100还包括：采样单元，用于根据视频时间采样获取图像序列；提取单元，根据图像序列通过目标检测SSD网络输出手部区域的包围坐标，并提取手部区域。

进一步地，在本发明的一个实施例中，训练模块200还包括：卷积神经网络特征提取单元，用于对手部图像序列进行编码，并提取卷积神经网络特征；编码单元，用于通过词向量模型对翻译语句单词进行编码获取词特征序列；最小化训练单元，用于将图像特征和词特征输入编码-解码结构的注意力机制语言模型，以对输出的连续时域分类损失函数进行最小化训练，并得到经过训练的词对齐序列。

进一步地，在本发明的一个实施例中，监督翻译模块300还包括：训练单元，将词对齐序列作为编码输入目标，通过语言模型进行训练，根据输出单词序列分类交叉熵作为损失函数进行训练；预测单元，用于每得到一个生成词更新编码输入预测下一生成词，直至翻译语句结束。

进一步地，在本发明的一个实施例中，全监督的训练还包括：

将语言模型作用为L：

其中，

为解码器线性输出，则第j个输出片段属于类别i的概率为：

π∈B^-1(y)＝{π|B(π}＝y}，

在输入

下，输出词对齐序列为π的概率为：

则对应样本文本输出y的概率为

则词对齐模型的损失函数为：

LosS_CTC＝-logP_CTC(y|s)。

需要说明的是，前述对基于注意力机制的半监督连续手语翻译方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。