CN113657257B - 一种端到端的手语翻译方法和系统 - Google Patents
一种端到端的手语翻译方法和系统 Download PDFInfo
- Publication number
- CN113657257B CN113657257B CN202110937441.4A CN202110937441A CN113657257B CN 113657257 B CN113657257 B CN 113657257B CN 202110937441 A CN202110937441 A CN 202110937441A CN 113657257 B CN113657257 B CN 113657257B
- Authority
- CN
- China
- Prior art keywords
- sign language
- decoder
- annotation
- sequence
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000000007 visual effect Effects 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 14
- 238000009825 accumulation Methods 0.000 claims description 8
- 238000013140 knowledge distillation Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 description 6
- 230000002123 temporal effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 241000233805 Phoenix Species 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 210000005266 circulating tumour cell Anatomy 0.000 description 2
- 238000007599 discharging Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种端到端的手语翻译方法,属于手语翻译技术领域。1)获取手语视频及对应的目标注解序列、目标文本序列;2)建立手语翻译模型;由特征提取器提取手语视频的视觉特征并经掩膜编码器进行编码,编码结果分为三支路进行解码,第一支路中首先由边界预测器预测词边界,再由辅助注解解码器结合边界预测器的输出结果预测注解序列;第二支路中将编码结果进行线性映射后作为CTC解码器的输入,生成预测注解序列;第三支路中编码结果作为wait‑k解码器的输入,输出预测文本序列;3)利用训练好的手语翻译模型对待翻译的手语视频进行特征提取和编码,再将编码结果作为wait‑k解码器的输入,生成预测文本序列作为翻译结果。
Description
技术领域
本发明涉及手语翻译技术领域,具体涉及一种端到端的手语翻译方法和系统。
背景技术
手语是一种被约4.66亿听障人士广泛使用的视觉语言,他们使用各种方法传达信息,如手势、动作、嘴型、面部表情等。然而,对于没有听力障碍的人来说普遍没有接受过手语教育,这使得他们难以理解手语表达的含义。手语翻译(SLT)就是利用AI技术将手语视频转换为口语(或文本),让更多的人能够理解。
对手语翻译的研究已经有很长历史了。近年来,随着深度学习的兴起,许多人都在尝试使用神经网络方法来处理SLT任务,并取得了良好的效果。由于缺乏数据,早期的研究主要集中在孤立的手语识别上。近年来,随着一系列高质量数据集的出现,研究人员开始转向连续手语识别(CSLR)和手语翻译(SLT)的研究。CSLR任务旨在将手语视频转换为相应的手语注解,这两个序列具有相同的顺序。然而,普通人所能理解的同等语言在长度和顺序上都与注解不同。手语翻译旨在将一个连续的手语视频翻译成相应的口语(或文本)。
Camgoz等人在神经机器翻译(NMT)框架下形式化手语翻译任务,并发布了第一个公开的手语翻译数据集,RWTH-PHOENIX-Weather 2014T(PHOENIX14T)。不久之后,他们使用Transformer结构设计了一个端到端翻译模型,使用注解和文本作为监督信号,这项工作表明,使用注解作为一种中间语言并不是一个很好的选择。且获得手语注解注解是昂贵和困难的,因为它需要手语专家来注解。因此,有必要探索在缺少注解标签时如何训练模型。
Li等人通过对另一种不同手语语言的字级手语语言数据集进行微调和特征提取,减少了模型对注解注解的依赖性,这表明,不同的手语在底层特征中有很多共同之处。Orba和阿卡伦的工作表明,良好的手形表示可以提高翻译性能,这与本发明的常识一致,因为手语通常通过手势传达很多信息。延迟也对手语翻译至关重要,然而,迄今为止在SLT中进行的研究必须阅读一个完整的手语视频才能开始翻译,这将导致手语者与模型生成的翻译文本之间严重不同步。
发明内容
为了解决上述中的技术问题,本发明提供了一种手语翻译方法和系统,采用的手语翻译模型是基于Transformer架构实现的,由CNN手语视频的视觉特征提取器、掩膜编码器、边界预测器和文本解码器组成。
本发明采用如下技术方案:
一种端到端的手语翻译方法,包括以下步骤:
1)获取手语视频及对应的目标注解序列、目标文本序列;
2)建立手语翻译模型,包括特征提取器、掩膜编码器、边界预测器、wait-k解码器、辅助注解解码器和CTC解码器;
由特征提取器提取手语视频的视觉特征并经掩膜编码器进行编码,编码结果分为三支路进行解码,第一支路中首先由边界预测器预测词边界,再由辅助注解解码器结合边界预测器的输出结果预测注解序列;第二支路中将编码结果进行线性映射后作为CTC解码器的输入,生成预测注解序列;第三支路中编码结果作为wait-k解码器的输入,输出预测文本序列;
3)利用步骤1)中的手语视频及对应的目标注解序列、目标文本序列对手语翻译模型进行训练,在对辅助注解解码器和CTC解码器进行训练时,将目标注解序列作为标签;在对wait-k解码器进行训练时,将目标文本序列作为标签;
4)利用训练好的手语翻译模型对待翻译的手语视频进行特征提取和编码,再将编码结果作为wait-k解码器的输入,生成预测文本序列作为翻译结果。
进一步地,所述的掩膜编码器包括掩膜自注意层和前馈层,所述的掩膜自注意层中引入重复编码策略,具体为:
将手语视频的视觉特征经位置编码后作为掩膜自注意层的输入,同时在掩膜自注意层中输入第一掩膜,所述的第一掩膜为下三角矩阵,使得当前帧只能看到之前的所有帧;由掩膜自注意层输出第一自注意结果,再经前馈层得到第一编码结果;
所述的第一编码结果经边界预测器生成词边界,根据词边界得到第二掩膜;再将手语视频的视觉特征经位置编码后作为掩膜自注意层的输入,同时在掩膜自注意层中输入第二掩膜进行重复编码;由掩膜自注意层输出第二自注意结果,再经前馈层得到第二编码结果;
将第一编码结果和第二编码结果进行融合后,再由wait-k解码器进行解码。
进一步地,所述的第一编码结果分别经过辅助注解解码器和CTC解码器进行解码。
进一步地,所述的掩膜自注意层的计算公式为:
v∈{vj|bi-1<j≤bi}
其中,表示掩膜自注意层输出的注意力值,vk表示第k帧的视频特征,bi表示第i个单词边界的位置,βk表示第k帧的视频特征的交互结果;q表示视频帧的索引;vj表示第j帧的视频特征;sim(·)表示sim函数。
本发明的第二个目的在于提供一种手语翻译系统,用于实现上述的手语翻译方法。
与现有技术相比,本发明的优势在于:为了帮助边界预测器更好地学习对齐信息,本发明引入了一种辅助注解解码器和一种连接词时态分类(CTC)解码器,并设计了一种重复编码方法来增强编码器的特征表达能力,帮助模型获得更丰富的上下文语义信息。此外,本发明采用知识蒸馏方法来降低模型的优化难度,提高模型的性能,实现端到端手语实时翻译。
附图说明
图1为本发明提出的手语翻译工作的原理示意图。
图2为本发明的方法框架示意图。
图3为掩膜编码器的网络结构示意图。
图4为重复编码示意图;(a)非重复编码;(b)重复编码一次;(c)每次都重复编码。
图5为翻译质量与延时指标(AL和AP)在PHOENIX14T数据集上的关系。
图6为知识精馏对添加数据训练模型和不添加注解训练模型翻译精度影响的实验结果。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
本发明提出的端到端实时手语翻译方法主要由三个部分组成,1)对手语视频进行编码的掩膜编码器;2)遵循wait-k策略的交叉注意力文本解码器,简称wait-k解码器;3)用于预测手语注解单词边界的边界预测器。
如图1所示本发明的原理示意图,首先,由边界预测器将手语视频分为与注解对齐的片段。接下来,在等待对应k个(此处k=2)注解的视频帧后,模型开始翻译目标文本,然后每次遇到词边界时,则翻译词边界之前的手语视频片段对应的文本,直到全部视频片段被读入。此时已经全部编码完毕,但由于等待k个词,编解码之间存在时间差异,还有部分词边界未解码完毕,应进行离线翻译,即不继续进行编码,而只对已经编码的部分进行解码,直到最后一个词边界。
为了获得与注解对应的视频片段,本发明设计了一种基于整合放电机制的全新边界预测器,其工作原理类似于人类神经元。手语视频产生的刺激信号连续累积在边界预测器中,直到信号超过边界预测器的阈值触发单词边界,然后信号回退,边界预测器进入下一轮累积。然而,由于缺乏可用的对齐注解信息,本发明不能直接训练边界预测器。为了解决这个问题,本发明引入了一个辅助注解解码器来帮助边界预测器学习对齐信息。
在上下文特征获取方面,以往的大部分工作都直接使用边界预测器之前的编码器的输出作为文本解码的上下文特征。在这种情况下,每个视频帧只能与它之前的视频进行交互,这使得在解码过程中已知视频信息之间的交互不充分。因此,本发明设计了一种重编码方法,使编码器的输出包含更丰富的上下文信息,使获得的视频帧信息完全相互交互,同时确保算法的时间复杂度保持在O(n2)。
考虑到实时翻译的困难性,本发明引入了一种知识蒸馏方法来帮助模型优化,用于将知识从非实时教师模型转移到SimulSLT。此外,本发明还在编码器后面添加了一个连接词时态分类(CTC)解码器,简称CTC解码器,以增强编码器的特征提取能力,并帮助边界预测器更好地学习对齐信息。
下面对图2所展示的各部分结构进行介绍。
(一)掩膜编码器
如图3所示,本发明中的掩膜编码器结构是由一个堆叠的屏蔽注意力层和一个前馈层组成,手语视频首先经过一个特征提取器获取手语视频的视觉特征,再将手语视频的视觉特征输入到掩膜编码器中进行编码。为了适应实时翻译的任务,本发明设计了一种屏蔽自注意机制,以确保当前帧只能看到之前的视频帧。
如图3所示,手语手语视频的视觉特征首先被输入到左部分所示意的编码器中,用于学习视频和手语注解之间的对齐信息,其中手语视频的视觉特征经位置编码后作为掩膜自注意层的输入,同时输入第一掩膜,对于左编码器,第一掩膜是下三角矩阵,确保当前帧只能看到之前的所有帧。左编码器的编码结果会经边界预测器预测词边界,在得到当前词的词边界后,据此生成新的掩膜,作为第二掩膜输入到右编码器中,之后在右编码器中对已经读入的视频段进行重复编码,两部分的编码结果进行融合(本文选择加权相加)后输出到解码器。
关于重复编码方法,如图4所示,一个理想的重复编码方法如图4(c)所示。无论何预测一个词的边界,均重复编码所有之前的帧,直到序列的结束。该算法的自注意层的计算公式为:
v∈{vj|j≤bi}
其中,V=(v1,v2,…,vn)表示掩膜自注意力层的输入序列,vn表示第n帧的手语视频的视觉特征,n为手语视频的帧数,vk表示第k帧的手语视频的视觉特征,q表示视频帧的索引,即第q个视频帧,求和式默认对从0到bi的所有视频帧求和;sim(·)表示sim函数,本实施例中采用缩放维数后的点积函数。bi表示第i个单词边界的位置,表示注意力值。
复杂度表示:最坏的情况下,需要预测每一帧的单词边界,在这种情况下,其计算时间如下:
显然算法的时间复杂度是O(n3),不利于模型的并行训练。因此本发明提出了一种只重复编码一次的算法,如图4(b)所示。改进后的掩膜自注意层的计算公式为:
v∈{vj|bi-1<j≤bi}
在掩膜自注意层中,只对一个词范围内的帧进行重复编码,而前一个词范围内的帧不再与后一个词范围内的帧进行自注意计算。这样,可以将算法的时间复杂度降低到O(n2),同时不影响词语信息的表达。
其掩膜的矩阵通过边界预测器给出的边界得到。
(二)边界预测器
本发明设计了一种基于整合放电机制的边界预测器,与神经元一样,它在刺激信号积累达到阈值后发出脉冲,每个脉冲代表一个单词边界。将编码器输出序列表示为H=(h1,h2,…,hn),其首先被传入一个多层感知机获得权重嵌入序列W:
wj=sigmoid((relu(hjW1+b1)+hj)W2+b2)
W=(w1,w2,…,wn)
其中,wi表示第i个权重,W表示权重嵌入序列,W1、W2为可训练的转换矩阵,,b1、b2为可训练的偏置向量,relu(·)为relu激活函数,sigmoid(·)为sigmoid激活函数,hj为编码器输出序列中的第j个元素。
然后计算词边界:
其中,bi表示第i单词的词边界,t是累积参数,T是累积阈值,ri-1是第i-1轮的累积剩余值,即第i轮的初始值。
最后计算注解嵌入序列:
E=(e1,e2,…,en)
其中,ei表示第i个注解嵌入,表示编码器在第bi-1个边界处的输出,E为注解嵌入序列,/>表示在第bi-1个边界处权重。
随着时间积累到达阈值T(本实施例设为1.0)后,释放词边界bi,当积累的刺激到达阈值后,刺激信号会分为两部分,第一部分/>在阈值内,用于计算注解嵌入ei,剩余部分ri用于在下一个积累中计算注解嵌入ei+1,如上式所述,注解嵌入可以通过在将编码器输出与阈值内权重相乘然后相加得到。
(三)解码器
wait-k解码器:本发明采用wait-k策略进行实时传译。假设(x,y)是一对视频-文本序列。给定视频和上下文,模型需要计算下一个目标词分布:
P(yt|y<t,x<t+k;θ)
其中,θ是模型参数,y<t表示当前时刻t之前的目标词序列,x<t+k代表位置t+k前的视频片段。根据目标词分布生成最可能的目标词。
辅助注解解码器:辅助注解解码器是由多层Transformer解码器组成的解码器,去掉了交叉注意机制,因为本发明已经采用边界预测器对齐源和目标。辅助注解解码器利用注解嵌入序列E=(e1,e2,…,en)来生成注解G=(g1,g2,…,gn),解码过程只发生在学习对齐信息的训练过程中。
CTC解码器:CTC解码器用于提高编码器的表达能力,并利用CTC损失函数对其进行优化。
(四)模型训练
知识精馏被广泛用于减少模型的延迟,提高学生模型的性能。在本发明中使用这种方法将知识从一个非实时教师模型转移到SimulSLT模型。首先,输入源视频x进入训练好的教师模型,得到分对数z,然后输入z到softmax-T函数,用于构造软目标y′来监督学生模型的训练:
其中,y′i是作为标签用于指导学生模型训练的软目标(相对于真实数据硬目标),zi是第i个词位置索引处是某个词的可能性,Γ是缩放参数。
在SimulSLT模型中,采用CTC解码器来提高编码器的表达能力,并利用CTC损失函数对其进行优化。CTC为目标文本序列引入了一组中间路径φ(y),称为CTC路径。多个CTC路径可能对应同一个目标文本序列,因为视频序列的长度通常比目标文本序列长得多。目标序列的概率为所有对应中间路径的概率之和:
然后,CTC损失可以表达为:
其中,(x,ygloss)表示数据中源视频和目标注解对的集合,(x,y)表示该集合中的一对样本。
利用交叉熵损失和长度损失来优化辅助注解解码器,其表达式为
其中,Sx是目标注解的长度,是所有权重嵌入W的总和,代表预测序列的长度;为辅助注解解码器损失。
此外,本发明采用交叉熵损失来计算wait-k损失。
其中,P(y|x)表示视频x所对应的文本序列y的概率。表示在教师模型的监督信号下训练得到的软损失(用软目标训练得到的损失),/>表示在训练样本标签监督下得到的硬损失(用真实值训练得到的损失)。
因此,训练SimulSLT模型的总损失函数可以表达为:
其中,λ1、λ2、λ3、λ4是权衡不同损失的超参数。
与前述的一种端到端的手语翻译方法的实施例相对应,本申请还提供了一种端到端的手语翻译系统的实施例,其包括:
数据获取模块,其用于获取手语视频及对应的目标注解序列、目标文本序列;
手语翻译模型模块,包括特征提取器、掩膜编码器、边界预测器、wait-k解码器、辅助注解解码器和CTC解码器;
由特征提取器提取手语视频的视觉特征并经掩膜编码器进行编码,编码结果分为三支路进行解码,第一支路中首先由边界预测器预测词边界,再由辅助注解解码器结合边界预测器的输出结果预测注解序列;第二支路中将编码结果进行线性映射后作为CTC解码器的输入,生成预测注解序列;第三支路中编码结果作为wait-k解码器的输入,输出预测文本序列;
模型训练模块,利用数据获取模块获取到的手语视频及对应的目标注解序列、目标文本序列对手语翻译模型进行训练,在对辅助注解解码器和CTC解码器进行训练时,将目标注解序列作为标签;在对wait-k解码器进行训练时,将目标文本序列作为标签;
实时翻译模块,其用于加载训练好的手语翻译模型,对待翻译的手语视频进行特征提取和编码,再将编码结果作为wait-k解码器的输入,生成预测文本序列作为翻译结果。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为手语翻译模型模块,可以是或者也可以不是物理上分开的。另外,在本发明中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。
实施例
本实施例中,在RWTH-PHOENIX-Weather 2014T(PHOENIX14T)数据集上评估了本发明提出的SimulSLT模型,这是唯一一个公开的大规模SLT数据集。它的数据收集自德国公共电视台PHOENIX的天气预报,包括平行手语视频、注解和相应的目标文本序列。我们遵循官方的数据集划分协议,其中训练集、验证集和测试集分别包含7096、519和642个样本。该数据集包含来自9个不同手语者的连续手语视频,其中包含1066个不同的手语词汇。数据集中的文本注解为德语口语,词汇量为2887个不同的单词。
本实施例中,将SimulSLT模型的隐藏单元数、头数、编解码器层数分别设置为512、8、3、3,在编码器和解码器上使用0.3和0.6下降率的dropout来减少过拟合。使用FastText在维基百科德语数据集上训练的词嵌入作为模型的初始词嵌入,并且对注解的词嵌入进行随机初始化,采用Xavier初始化来初始化网络参数。
训练配置:在单个Nvidia 2080ti GPU上训练SimulSLT模型的,批处理大小为32。使用Adam优化器的学习率为5×10-4(β1=0.9,β2=0.998),权重衰减为10-3。利用平台学习率规划来更新学习率,跟踪BLEU在验证集上的得分,耐心度和因数分别设置为9和0.5,验证集每100步进行一次评估。在验证过程中,我们使用光束大小为3、长度惩罚值为-1的光束搜索算法来解码文本序列。
在训练过程中,λ1、λ2、λ3、λ4的权重分别设置为10、1、0.6和0.4,学习速率小于10-7时,训练结束。
评估指标:使用BLEU评分来评估翻译质量,使用平均滞后(AL)和平均比例(AP)来评估模型的延时,前者用于度量模型输出与手语者之间的不同步程度,后者用于度量每个目标文本的平均绝对延迟消耗。
假设模型的输入视频序列为X=(x1,x2,…,xn)时,目标文本序列为预测文本序列为Y=(y1,y2,…,yn),则AL的计算公式如下:
其中,TS表示获得两个视频帧之间的时间间隔,|Y*|是目标文本的长度,|X|是输入视频的长度,τ(|X|)是模型读取所有输入视频时生成的第一个目标词的索引。d(yi)表示生成yi所需的时间,d(yi)等于TS乘以当yi生成时已读取的视频帧数。
AP的计算公式如下:
其中,t(i)表示模型生成第i个词的持续时间。
我们将SimulSLT的性能与现有的端到端非实时手语翻译模型进行比较,并探讨不同的k设置对模型性能的影响。对比结果如表1所示。
表1本发明与传统模型的对比结果
根据模型训练时使用的数据类型不同,我们将比较结果分为三组。
如表1中的数据所示,在第一组中所有模型都使用所有的数据集信息进行训练,包括注解(使用相同的CNN网络作为特征提取器)。第二组的模型在训练中没有使用注解,但他们都使用了其他与手语相关的额外数据。例如,TSPNet-Joint使用额外的美国手语视频,SLT-Multitask和SimulSLT都使用了数据集中提供的附加手势信息,我们使用预先训练好的CNN网络提取手语视频的视觉特征作为模型的输入。第三组中所有的模型都在没有注解的情况下进行训练,使用在ImageNet上预先训练好的CNN网络作为特征提取器。
结果显示,与对比模型相比,当k设为7时,本发明提出的SimulSLT模型表现最好,在较低的延迟条件下仍然具有优良的性能。
将翻译质量(以BLEU分数表示)与在不同数据上训练的SimulSLT模型的延迟度量绘制在图5中。可以看到,随着k的增大,模型的性能逐渐提高,但翻译时延也逐渐增大。因此在实际应用中,我们可以根据项目需求设置k,以达到质量和延迟的平衡。图中虚线表示我们的模型与非实时模型的比较,可见,在翻译性能和翻译延迟方面,SimulSLT优于非实时模型,特别是在不使用注解的情况下,即使k设置为1,SimulSLT也比最先进的非实时模型要高。在延迟方面,SimulSLT可以在几乎一半的时间内实现了与非实时模型相同的性能。
消融研究:
表2消融实验结果
表2中,原始SLT表示一个使用固定长度分割视频然后应用wait-k策略的模型。通过逐步添加前面提到的方法来验证它们的有效性。其中BP为边界预测器,KD为知识蒸馏,Re-encode为重复编码,CTC为连接词时态分类解码器。
边界预测器的有效性。如表2所示,由于手语中注解对应的视频片段的长度不是固定的,简单地使用固定的分割会导致信息错位,在解码过程中获得的信息不足。通过添加边界预测器,模型可以更好地学习视频和注解之间的对应关系,从而生成更准确的边界。从第二行的BLEU得分可以看出,在原始SLT模型中加入边界预测器可以提高不同wait-k的翻译精度。
CTC的有效性。第三行结果表明,通过添加连接词时态分类(CTC)解码器,可以进一步提高模型的翻译精度。通过对CTC损失的监督,编码器可以具有更鲁棒的特征表达能力,边界预测器也可以更好地学习对齐信息。
知识蒸馏的有效性。我们进一步研究了知识蒸馏对模型性能的影响,如第四行与第二行,知识蒸馏可以将教师模型学到的知识转化到学生模型,降低了学生模型优化的难度。结果表明,知识精馏使模型的性能得到了较大的改善。我们还在另外两种情况下测试了知识蒸馏对模型性能的影响,结果如图6所示。可以看出,通过添加知识精馏,模型在两种情况下的不同wait-k设置下都实现了翻译精度的提高。
重复编码的有效性。实验分析了图4(b)所示的重复编码方法与图4(a)所示的原始方法相比是否能够提高模型的翻译精度。实验结果如表3(第5行与第2行)和表4所示。可以看出,在所有情况下,与原方法相比,重复编码方法可以帮助模型提高翻译精度。
表4:在PHOENIX14T数据集上使用重复编码方法和原始方法的实验结果
通过上述结果可见,本发明提出的端到端实时手语翻译模型SimulSLT可以连续翻译手语视频至口语(文本),为了获得可控制的低延迟翻译,我们通过引入边界预测器将连续的手语视频划分为离散的视频片段;为了提高实时翻译的准确率,我们采用重复编码的方法,来帮助模型获得更多的上下文信息。此外,知识蒸馏将非实时的手语翻译教师模型的知识传递到实时模型,这进一步提高了学生模型的性能,降低了优化难度。为了更好的帮助边界预测器学习对齐信息,同时加强编码器的特征提取能力,我们提出了一系列方法,包括辅助注解编码器和CTC解码器。在PHOENIX14T数据集上的实验表明,SimulSLT可以以更低的延迟取得比最先进的端到端非实时手语翻译模型更高的准确度。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (8)
1.一种端到端的手语翻译方法,其特征在于,包括以下步骤:
1)获取手语视频及对应的目标注解序列、目标文本序列;
2)建立手语翻译模型,包括特征提取器、掩膜编码器、边界预测器、wait-k解码器、辅助注解解码器和CTC解码器;
由特征提取器提取手语视频的视觉特征并经掩膜编码器进行编码,编码结果分为三支路进行解码,第一支路中首先由边界预测器预测词边界,再由辅助注解解码器结合边界预测器的输出结果预测注解序列;第二支路中将编码结果进行线性映射后作为CTC解码器的输入,生成预测注解序列;第三支路中编码结果作为wait-k解码器的输入,输出预测文本序列;所述的掩膜编码器包括掩膜自注意层和前馈层,所述的掩膜自注意层中引入重复编码策略,具体为:
将手语视频的视觉特征经位置编码后作为掩膜自注意层的输入,同时在掩膜自注意层中输入第一掩膜,所述的第一掩膜为下三角矩阵,使得当前帧只能看到之前的所有帧;由掩膜自注意层输出第一自注意结果,再经前馈层得到第一编码结果;
所述的第一编码结果经边界预测器生成词边界,根据词边界得到第二掩膜;再将手语视频的视觉特征经位置编码后作为掩膜自注意层的输入,同时在掩膜自注意层中输入第二掩膜进行重复编码;由掩膜自注意层输出第二自注意结果,再经前馈层得到第二编码结果;
将第一编码结果和第二编码结果进行融合后,再由wait-k解码器进行解码;
所述wait-k解码器为遵循wait-k策略的交叉注意力文本解码器;
3)利用步骤1)中的手语视频及对应的目标注解序列、目标文本序列对手语翻译模型进行训练,在对辅助注解解码器和CTC解码器进行训练时,将目标注解序列作为标签;在对wait-k解码器进行训练时,将目标文本序列作为标签;
4)利用训练好的手语翻译模型对待翻译的手语视频进行特征提取和编码,再将编码结果作为wait-k解码器的输入,生成预测文本序列作为翻译结果。
2.根据权利要求1所述的一种端到端的手语翻译方法,其特征在于,所述的第一编码结果分别经过辅助注解解码器和CTC解码器进行解码。
3.根据权利要求2所述的一种端到端的手语翻译方法,其特征在于,所述的掩膜自注意层的计算公式为:
v∈{vj|bi-1<j≤bi}
其中,表示掩膜自注意层输出的注意力值,vk表示第k帧的视频特征,bi表示第i个单词边界的位置,βk表示第k帧的视频特征的交互结果;q表示视频帧的索引;vj表示第j帧的视频特征;sim(·)表示sim函数。
4.根据权利要求1所述的一种端到端的手语翻译方法,其特征在于,所述的边界预测器具体为:
首先将编码器的输出序列传入一个多层感知机获得权重嵌入序列:
wj=sigmoid((relu(hjW1+b1)+hj)W2+b2)
W=(w1,w2,...,wn)
其中,wi表示第i个权重,W表示权重嵌入序列,W1、W2为可训练的转换矩阵,b1、b2为可训练的偏置向量,relu(·)为relu激活函数,sigmoid(·)为sigmoid激活函数,hj为编码器输出序列中的第j个元素;
然后计算词边界:
其中,bi表示第i单词的词边界,t是累积参数,T是累积阈值,ri-1是第i-1轮的累积剩余值,即第i轮的初始值。
5.根据权利要求4所述的一种端到端的手语翻译方法,其特征在于,根据词边界计算注解嵌入序列:
E=(e1,e2,…,en)
其中,ei表示第i个注解嵌入,表示编码器在第bi-1个边界处的输出,E为注解嵌入序列,用于辅助注解解码器的输入;/>表示在第bi-1个边界处权重。
6.根据权利要求1所述的一种端到端的手语翻译方法,其特征在于,步骤3)中对模型进行训练时,采用知识蒸馏训练,将知识从一个非实时教师模型转移到学生模型;首先,输入源视频x进入训练好的教师模型,得到分对数z,然后输入z到softmax-T函数,用于构造软目标y′来监督学生模型的训练:
其中,y′i是作为标签用于指导学生模型训练的软目标,zi是第i个词位置索引处是某个词的可能性,Γ是缩放参数。
7.根据权利要求1所述的一种端到端的手语翻译方法,其特征在于,采用联合损失函数对模型模型进行训练,所述的联合损失为:
其中,λ1、λ2、λ3、λ4是权衡不同损失的超参数,是CTC解码器损失,/>是辅助注解解码器损失,/>表示在教师模型的监督信号下训练得到的软损失,/>表示在训练样本标签监督下得到的硬损失。
8.一种手语翻译系统,其特征在于,用于实现权利要求1所述的手语翻译方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110937441.4A CN113657257B (zh) | 2021-08-16 | 2021-08-16 | 一种端到端的手语翻译方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110937441.4A CN113657257B (zh) | 2021-08-16 | 2021-08-16 | 一种端到端的手语翻译方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657257A CN113657257A (zh) | 2021-11-16 |
CN113657257B true CN113657257B (zh) | 2023-12-19 |
Family
ID=78491097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110937441.4A Active CN113657257B (zh) | 2021-08-16 | 2021-08-16 | 一种端到端的手语翻译方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657257B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647603A (zh) * | 2018-04-28 | 2018-10-12 | 清华大学 | 基于注意力机制的半监督连续手语翻译方法及装置 |
CN110728203A (zh) * | 2019-09-23 | 2020-01-24 | 清华大学 | 基于深度学习的手语翻译视频生成方法及系统 |
CN111526434A (zh) * | 2020-04-24 | 2020-08-11 | 西北工业大学 | 基于转换器的视频摘要方法 |
CN111543060A (zh) * | 2017-10-09 | 2020-08-14 | 诺基亚技术有限公司 | 用于视频编码和解码的装置、方法和计算机程序 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN112861827A (zh) * | 2021-04-08 | 2021-05-28 | 中国科学技术大学 | 运用单语料回译的手语翻译方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11263409B2 (en) * | 2017-11-03 | 2022-03-01 | Board Of Trustees Of Michigan State University | System and apparatus for non-intrusive word and sentence level sign language translation |
-
2021
- 2021-08-16 CN CN202110937441.4A patent/CN113657257B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111543060A (zh) * | 2017-10-09 | 2020-08-14 | 诺基亚技术有限公司 | 用于视频编码和解码的装置、方法和计算机程序 |
CN108647603A (zh) * | 2018-04-28 | 2018-10-12 | 清华大学 | 基于注意力机制的半监督连续手语翻译方法及装置 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN110728203A (zh) * | 2019-09-23 | 2020-01-24 | 清华大学 | 基于深度学习的手语翻译视频生成方法及系统 |
CN111526434A (zh) * | 2020-04-24 | 2020-08-11 | 西北工业大学 | 基于转换器的视频摘要方法 |
CN112861827A (zh) * | 2021-04-08 | 2021-05-28 | 中国科学技术大学 | 运用单语料回译的手语翻译方法及系统 |
Non-Patent Citations (2)
Title |
---|
Impact of Encoding and Segmentation Strategies on End-to-End Simultaneous Speech Translation;Ha Nguyen 等;《arXiv:2104.14470v2 [cs.CL]》;第1-5页 * |
面向手语识别的视频关键帧提取和优化算法;周舟 等;《华东理工大学学报(自然科学版)》;第47卷(第1期);第81-88页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113657257A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Hearing lips: Improving lip reading by distilling speech recognizers | |
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
US10854193B2 (en) | Methods, devices and computer-readable storage media for real-time speech recognition | |
Wang et al. | Human emotion recognition by optimally fusing facial expression and speech feature | |
Huang et al. | Image captioning with end-to-end attribute detection and subsequent attributes prediction | |
CN110929092B (zh) | 一种基于动态注意力机制的多事件视频描述方法 | |
CN108804611B (zh) | 一种基于自我评论序列学习的对话回复生成方法及系统 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN109933808B (zh) | 一种基于动态配置解码的神经机器翻译方法 | |
CN111368142B (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN111178157A (zh) | 一种基于音调的级联序列到序列模型的中文唇语识别方法 | |
CN113822125B (zh) | 唇语识别模型的处理方法、装置、计算机设备和存储介质 | |
CN113516152B (zh) | 一种基于复合图像语义的图像描述方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN113423004B (zh) | 基于解耦译码的视频字幕生成方法和系统 | |
CN114385802A (zh) | 一种融合主题预测和情感推理的共情对话生成方法 | |
CN111816169A (zh) | 中英语种混杂语音识别模型训练方法和装置 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN112270344A (zh) | 一种基于cbam的图像描述生成模型方法 | |
CN116912642A (zh) | 基于双模多粒度交互的多模态情感分析方法、设备及介质 | |
Perez-Castanos et al. | Listen carefully and tell: an audio captioning system based on residual learning and gammatone audio representation | |
CN114694255A (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN112651225B (zh) | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 | |
CN113657257B (zh) | 一种端到端的手语翻译方法和系统 | |
CN113361505B (zh) | 基于对比解耦元学习的非特定人的手语翻译方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |