CN112287690A

CN112287690A - 基于条件句子生成和跨模态重排的手语翻译方法

Info

Publication number: CN112287690A
Application number: CN202011182427.XA
Authority: CN
Inventors: 李厚强; 周文罡; 赵鉴; 齐炜帧
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-01-29

Abstract

本发明公开了一种基于条件句子生成和跨模态重排的手语翻译方法，包括：将手语视频序列划分为若干视频片段，通过三维卷积神经网络从视频片段集合中提取时序特征，再通过时序建模器识别出手语视频序列中表达的关键词集合；对关键词集合编解码处理，生成由关键词组成的通顺句子集合；将通顺句子集合与手语视频序列进行比较，找出与手语视频序列相关度最高的句子，作为手语翻译结果。

Description

基于条件句子生成和跨模态重排的手语翻译方法

技术领域

本发明涉及手语翻译技术领域，尤其涉及一种基于条件句子生成和跨模态重排的手语翻译方法。

背景技术

手语对于听力障碍的残疾人来说是一种非常重要的沟通方式。为了让这些残疾人和不懂手语的正常人沟通更加方便，手语翻译系统就变得尤为重要。该系统非常重要的环节就是让计算机能够精准地感知手势语言、面部表情在内的多种信息表达方式，并输出准确和流利的口语句子方便正常人理解。手语是用手形变换和手臂运动，辅以面部表情和唇动来表达精准的语义信息，且在长期的发展中，拥有规范的语法、明确的语义和健全的词汇体系。

手语翻译的目的是通过计算机设计一定的算法，将摄像头捕捉到的手语视觉信息翻译为流畅的口语句子。这项研究不仅可以促进人机交互领域的发展，同时可以为聋人以及听障人士提供手语机器翻译，使得聋人可以更方便地和听人进行交流，方便他们的日常生活。

手语翻译具体是指输入一段包含完整手语句子的视频，识别其表达的具体含义，并将其用通顺的口语表达。在现有的手语翻译方法中，有两种常见的方式。

第一种方式叫做基于手语注释的手语翻译算法，它是先将手语视频做连续手语识别，识别出视频中表达的手语单词；再通过机器翻译等手段，将手语单词表述成常见的口语。然而，其缺陷在于：基于手语注释的手语翻译算法在学习过程中需要数据集具有手语注释，而手语注释需要有丰富经验的手语专家进行标定，成本开销巨大。

第二种方式则是不基于手语注释的手语翻译算法，它直接通过跨模态的映射，将手语视频转化为口语句子。这两类方法目前都是通过深度神经网络，进行数据驱动的学习。然而，其缺陷在于：不基于手语注释的手语翻译算法则因为模态间差距过大，往往翻译性能不好。并且因为手语视频的数据有限，无法直接学出口语的语法规则，导致生成的口语句子非常不流畅。

发明内容

本发明的目的是提供一种基于条件句子生成和跨模态重排的手语翻译方法，能够有效提升手语翻译系统翻译的准确性和语法正确性。

本发明的目的是通过以下技术方案实现的：

一种基于条件句子生成和跨模态重排的手语翻译方法，包括：

将手语视频序列划分为若干视频片段，通过三维卷积神经网络从视频片段集合中提取时序特征，再通过时序建模器识别出手语视频序列中表达的关键词集合；

对关键词集合编解码处理，生成由关键词组成的通顺句子集合；

将通顺句子集合与手语视频序列进行比较，找出与手语视频序列相关度最高的句子，作为手语翻译结果。

由上述本发明提供的技术方案可以看出，不需要让专家对手语翻译数据集进行手语注释标准，并且让翻译系统掌握了口语的语法规则。利用该方法生成出来的句子不仅语义更加准确，并且语法正确，句子流畅，极大的方便了不懂手语的正常人和听力障碍残疾人的沟通交流。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于条件句子生成和跨模态重排的手语翻译方法的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于条件句子生成和跨模态重排的手语翻译方法，其主要包括：

1、将手语视频序列划分为若干视频片段，通过三维卷积神经网络从视频片段集合中提取时序特征，再通过时序建模器识别出手语视频序列中表达的关键词集合。

2、对关键词集合编解码处理，生成由关键词组成的通顺句子集合。

3、将通顺句子集合与手语视频序列进行比较，找出与手语视频序列相关度最高的句子，作为手语翻译结果。

如图1所示，以上三个步骤各自通过一个模块来实现，分别为单词判别器，条件句子生成器、以及跨模态重排器。

下面结合这三个模块对该方法实现过程进行介绍。

1、通过单词判别模块，识别手语视频中表达的关键词集合。

单词判别模块包含了三维卷积神经网络以及时序建模器。

本发明实施例中，对于一个包含L帧的手语视频序列，将其切分为T个视频片段，，每个视频片段含w帧，片段之间相隔s帧，这样，

得到的视频片段集合表示为

将视频片段集合输入到三维卷积神经网络中，得到时序特征f：

其中，Ω_θ表示参数为θ的三维卷积神经网络。

所述时序建模器包括m个第一变压器网络、全连接层及二分类判别器。

将时序特征f分别输入至m个第一变压器网络中得到m个对应的隐变量∈，表示为：

∈＝(e₁,e₂…e_m)＝(r₁(f),r₂(f),…,r_m(f))

其中，r为第一变压器网络，e为第一变压器网络得到的隐变量，下标为第一变压器网络的索引；m为候选口语单词的数目。

再将得到的隐变量∈通过全连接层(Fully-connectedlayer)和二分类器(sigmoidLayer)，得到每个候选口语单词在手语视频序列中出现的概率：

p(v_i)＝sigmoid(w_i*e_i+b_i)

其中，sigmoid为激活函数；w_i和b_i为全连接层的权重与偏置参数，i＝1,2,…,m，对于不同的隐变量e_i，权重w_i跟偏置b_i是不同的。

将概率p(v_i)超过设定值的候选口语单词v_i作为关键词，从而获得关键词集合。

训练阶段，可以通过口语数据集中的正确标签和预测出的结果做二分类的损失函数，利用随机梯度下降法训练该单词判别模块。

2、通过条件句子生成器，将关键词生成通顺的口语句子。

本发明实施例中，将关键词集合S通过词编码层(Embedding)进行处理：H₀＝Emb(S)；再输入至第二变压器网络进行再编码-解码学习，从而通过束搜索技术生成由关键词组成的通顺句子集合。

由于句子生成器不涉及到手语翻译，只是通过口语单词，生成口语句子。因此可以根据维基百科提供的大量口语语料，对该句子生成器进行预训练。预训练的输入为口语句子的部分单词，标签为对应句子。预训练完毕后，该句子生成器学会了口语的大量语法规则，输出的句子语法准确，并且通畅易读。

3、通过跨模态重排器，找出与手语视频最相关的口语句子

由于相同的单词集合往往也可能生成语义完全不同的句子。因此，利用通顺的口语句子，通过和原手语视频序列进行比较，找出与手语视频序列相关度最高的句子。

本发明实施例中，利用变压器神经网络(BERT)提取各通顺句子的特征，利用卷积神经网络(CNN)和第三变压器网络提取手语视频序列的特征，计算每一通顺句子的特征与手语视频序列的特征之间的余弦距离作为相关度指标，计算公式为：

其中，cos(.)表示计算余弦距离，y_Q表示手语视频序列Q的特征，y_D代表通顺句子D的特征，‖.‖表示对特征进行取模。

本发明实施例中，可以预先通过生成的句子集合和正确句子之间的胭脂距离(ROUGE)作为评价标准，对该跨模态重排器进行训练。最终选择和视频相关度最高的句子作为最终的翻译结果。

至此，一条手语视频通过上述三步，得到其对应的口语句子。

此外，还需要说明的是，图1所示的关键词集合、通顺句子集合、以及最终的手语翻译结果均为举例，并非构成限制。另外，前文仅大致描述了三个模块训练方式，基于这样的描述，本领域技术人员可以结合其掌握的常规技术完成三个模块的训练。并且，前文所涉及的第一、第二、第三变压器网络(Transformer)属于相同的一种网络，它们具体形式可以不同，具体形式可以由本领域技术人员根据需要通过常规技术来实现。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于条件句子生成和跨模态重排的手语翻译方法，其特征在于，包括：

2.根据权利要求1所述的一种基于条件句子生成和跨模态重排的手语翻译方法，其特征在于，所述将手语视频序列划分为若干视频片段，通过三维卷积神经网络从视频片段集合中提取时序特征包括：

将一个包含L帧的手语视频序列，切分为T个视频片段，得到的视频片段集合表示为

其中，Ω_θ表示参数为θ的三维卷积神经网络。

3.根据权利要求1所述的一种基于条件句子生成和跨模态重排的手语翻译方法，其特征在于，所述通过时序建模器识别出手语视频序列中表达的关键词集合包括：

所述时序建模器包括m个第一变压器网络、全连接层及二分类判别器；

首先，将时序特征f分别输入至m个第一变压器网络中得到m个对应的隐变量∈，表示为：

∈＝(e₁,e₂…e_m)＝(r₁(f),r₂(f),…,r_m(f))

其中，r为第一变压器网络，e为第一变压器网络得到的隐变量，下标为第一变压器网络的索引；m为候选口语单词的数目；

再将得到的隐变量∈通过全连接层和二分类器，得到每个候选口语单词在手语视频序列中出现的概率：

p(v_i)＝sigmoid(w_i*e_i+b_i)

其中，sigmoid为激活函数；w_i和b_i为全连接层的权重与偏置参数；i＝1,2,…,m；

将概率p(v_i)超过设定值的候选口语单词作为关键词，从而获得关键词集合。

4.根据权利要求1所述的一种基于条件句子生成和跨模态重排的手语翻译方法，其特征在于，所述对关键词集合编解码处理，生成由关键词组成的通顺句子集合的步骤包括：

将关键词集合通过词编码层进行处理，再输入至第二变压器网络进行编码-解码学习，从而通过束搜索技术生成由关键词组成的通顺句子集合。

5.根据权利要求1所述的一种基于条件句子生成和跨模态重排的手语翻译方法，其特征在于，

利用变压器神经网络BERT提取各通顺句子的特征，利用卷积神经网络和第三变压器网络提取手语视频序列的特征，计算每一通顺句子的特征与手语视频序列的特征之间的余弦距离作为相关度指标，计算公式为：