CN113505610A - 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备 - Google Patents
基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备 Download PDFInfo
- Publication number
- CN113505610A CN113505610A CN202110779788.0A CN202110779788A CN113505610A CN 113505610 A CN113505610 A CN 113505610A CN 202110779788 A CN202110779788 A CN 202110779788A CN 113505610 A CN113505610 A CN 113505610A
- Authority
- CN
- China
- Prior art keywords
- model
- translation
- voice
- speech
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 183
- 238000012549 training Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000000873 masking effect Effects 0.000 claims abstract description 43
- 238000013518 transcription Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 230000001965 increasing effect Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000002679 ablation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备,该训练方法包括:收集语音翻译数据集,所述语音翻译数据集由多个语音‑翻译‑转录三元组构成;利用语音翻译数据集中的语音‑转录数据对训练语音识别模型,利用语音翻译数据集中的转录‑翻译数据对训练机器翻译模型;用语音识别模型初始化语音翻译模型的编码层,用机器翻译模型初始化语音翻译模型的解码层;对语音翻译模型的隐含层输出进行掩码,利用语音翻译数据集、结合损失函数对语音翻译模型进行训练;语音翻译模型训练好后,去掉掩码,对训练好的语音翻译模型进行微调。本发明提升了语音翻译模型的识别性能,可以有效提高语音翻译效率和质量。
Description
技术领域
本发明属于语音翻译技术领域,尤其涉及一种基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备。
背景技术
语音翻译是将一种语言的语音转化为另一种语言的文本,端到端的模型,即跳过传统模型中将源语言的语言转化为文本这一步走,直接将源语言的语音转化为目标语言的文本,是目前的研究热点。在模型选择方面,谷歌提出的Transformer模型(A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,L.Kaiser,and I.Polosukhin,“Attention is all you need,”in Proc.NIPS,California,USA,2017,pp.5998–6008.)由于其自注意力机制建模的有效性、并性处理的高效性以及模型结构的简洁性,成为主要的选择,使识别率得到了显著提升。但是存在的一个主要问题就是数据量问题。由于语音翻译是从一种语言的语音直接映射成另一种语言的文字,这就导致要想获得好的识别效果,相比于机器翻译、语音识别来说,需要更多的数据,并且这个特点也决定了语音翻译数据集获取的成本也更高。
最近有很多探索缓解数据量需求的方法,包括多任务学习,即在训练ST模型的同时训练一个语音识别(Automatic speech recognition,ASR)模型或者机器翻译模型(Machine Translation,MT)模型,预训练,即在高资源ASR任务上预训练语音翻译(SpeechTranslation,ST)模型的编码层,元学习,即用ASR和MT构建子任务为ST模型找到一个好的初始化值,知识蒸馏,即以MT模型作为教师模型训练ST模型。
上述方法均取得了很好的效果,一定程度上缓解了端到端模型的数据问题,但是它们都需要额外的ASR或者MT数据。在没有这样成对的数据时,最常用的方法是数据增强,通过增加现有数据的数量和变化为模型训练提供更多的数据。SpecAugment(D.S.Park,W.Chan,Y.Zhang,C.-C.Chiu,B.Zoph,E.D.Cubuk,and Q.V.Le,“Specaugment:A simpledata augmentation method for automatic speech recognition.”inProc.INTERPSEECH,Graz,Austria,2019,pp.2613–2617.)是端到端的网络结构中常用的数据增强方法。其是一种掩码增强的策略,直接作用于输入音频的对数梅尔谱,对连续的时间通道和频率通道进行掩码。但是SpecAugment更多的是对编码层产生影响,使其对各种输入更加鲁棒。
发明内容
本发明针对现有语音翻译模型对数据量要求较大的问题,提出一种基于模型增强(ModAugment)的语音翻译模型训练方法、系统及语音翻译方法和设备,通过增加编码、解码部分的对齐难度,将过拟合问题转化为欠拟合问题,经过更长时间的训练,可以得到一个整体上更加鲁棒的模型,并且在更小的超参数调整负担下,取得了更好的效果。
为了实现上述目的,本发明采用以下技术方案:
本发明一方面提出一种基于模型增强的语音翻译模型训练方法,包括:
步骤1:收集语音翻译数据集,所述语音翻译数据集由多个语音-翻译-转录三元组构成;
步骤2:利用语音翻译数据集中的语音-转录数据对训练语音识别模型,利用语音翻译数据集中的转录-翻译数据对训练机器翻译模型;
步骤3:用语音识别模型初始化语音翻译模型的编码层,用机器翻译模型初始化语音翻译模型的解码层;
步骤4:对语音翻译模型的隐含层输出进行掩码,利用语音翻译数据集、结合损失函数对语音翻译模型进行训练;
步骤5:语音翻译模型训练好后,去掉掩码,对训练好的语音翻译模型进行微调。
进一步地,所述语音识别模型、机器翻译模型及语音翻译模型的基本结构均采用Transformer结构。
进一步地,所述步骤4中,对语音翻译模型的隐含层输出进行掩码的方法包括模型维度掩码。
进一步地,所述模型维度掩码包括:
语音翻译模型的隐含层的每层输出是一个B×T×dmodel的矩阵,其中B表示批处理大小,T表示序列维度,dmodel表示模型维度;在模型维度随机选取p×dmodel个位置,将所述p×T个位置对应的模型维度的p×dmodel×T个值进行掩码,其中p表示掩码率,0≤p≤1。
本发明第二方面提出一种基于模型增强的语音翻译模型训练系统,包括:
数据收集模块,用于收集语音翻译数据集,所述语音翻译数据集由多个语音-翻译-转录三元组构成;
第一模型训练模块,用于利用语音翻译数据集中的语音-转录数据对训练语音识别模型,利用语音翻译数据集中的转录-翻译数据对训练机器翻译模型;
第二模型训练模块,用于用语音识别模型初始化语音翻译模型的编码层,用机器翻译模型初始化语音翻译模型的解码层;
模型增强模块,用于对语音翻译模型的隐含层输出进行掩码,利用语音翻译数据集、结合损失函数对语音翻译模型进行训练;
模型微调模块,用于语音翻译模型训练好后,去掉掩码,对训练好的语音翻译模型进行微调。
本发明第三方面提出一种语音翻译方法,包括:
获取待翻译的目标语言;
利用上述任一项所述的一种基于模型增强的语音翻译模型训练方法训练得到的语音翻译模型对所述目标语言进行翻译。
本发明第四方面提出一种语音翻译设备,包括:目标语音获取单元和目标语音翻译单元;
所述目标语音获取单元用于获取待翻译的目标语音;
所述目标语音翻译单元用于利用上述任一项所述的一种基于模型增强的语音翻译模型训练方法训练得到的语音翻译模型对所述目标语言进行翻译。
与现有技术相比,本发明具有的有益效果:
本发明对模型的隐含层输出进行掩码,并将掩码后的模型用于语音翻译系统,使用训练好的ASR模型和MT模型分别对ST模型的编码层、解码层进行初始化。本发明实现简单,通过对ST模型的隐含层输出进行掩码,增大ST模型的对齐难度,将过拟合问题转化为欠拟合问题,经过更长时间的训练提升ST模型表现,具有较好的应用前景。
附图说明
图1为本发明实施例一种基于模型增强的语音翻译模型训练方法的基本流程图;
图2为本发明实施例一种基于模型增强的语音翻译模型训练方法中Transformer结构应用示例图;
图3为本发明实施例一种基于模型增强的语音翻译模型训练方法的掩码策略示例图;
图4为本发明实施例一种基于模型增强的语音翻译模型训练方法不同掩码率下的BLEU值和训练用时。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
如图1所示,本发明一方面提出一种基于模型增强的语音翻译模型训练方法,包括:
步骤S101:收集语音翻译数据集,所述语音翻译数据集由多个语音-翻译-转录三元组构成;
步骤S102:利用语音翻译数据集中的语音-转录数据对训练语音识别模型,利用语音翻译数据集中的转录-翻译数据对训练机器翻译模型;
步骤S103:用语音识别模型初始化语音翻译模型的编码层,用机器翻译模型初始化语音翻译模型的解码层;
步骤S104:对语音翻译模型的隐含层输出进行掩码(即模型增强,简称为ModAugment),利用语音翻译数据集、结合损失函数对语音翻译模型进行训练;
步骤S105:语音翻译模型训练好后,去掉掩码,对训练好的语音翻译模型进行微调。
进一步地,所述语音识别模型、机器翻译模型及语音翻译模型的基本结构均采用Transformer结构。而ModAugment作用在Transformer每一个子块的输出。
具体地,Transformer是一种编码解码结构,分别由N个相同的块堆叠而成。编码部分将输入的源序列转化为高层表示。它的每层包含两子块,分别是自注意力块,以及紧跟其后的前向神经网络块。解码部分将离散的Token建模为条件语言模型,利用之前产生的字符和编码层产生的高层表示计算下一个字符产生的概率。它的结构和编码层相同,只是多个一个交互注意力块,用来进行源和目标序列之间的对齐。另外解码层中的自注意力块是被掩码的,防止在预测下一个位置的字符时利用到未来位置的信息。
多头注意力是Transformer模型的核心模块,被用于在不同的位置从不同的表示性子空间获取信息。每个头都对应于一个缩放点乘注意力。给定三个向量序列Q,K,V,缩放点乘注意力计算如下:
其中,dk表示注意力头中键的维度。将不同注意力头的输出级联起来,就得到了多头注意力的输出:
在ASR/ST模型训练任务上应用时,如图2所示。除了关于目标序列一个是源语言的转录,一个是目标语言的翻译以外,采用的模型结构完全相同。首先将原始音频转化为声学特征向量,之后进行均值和方差的归一化。另外我们没有采用CNN降采样,而是采用跳帧堆叠的策略,在跳帧率为4的情况下堆叠连续的3帧,一帧的重叠是为了保证降采样后的向量具有连续性。处理以后的语音帧经过一个线性变换映射到模型维度dmodel。此外,由于Transformer中不含任何循环网络,无法捕捉位置信息,所以映射后的特征需要加上位置编码作为模型编码层的最终输入。其余部分和Transformer原始模型保持一致。
在MT模型训练任务上应用时,使用基本的Transformer结构。输入和输出都是离散的Token序列,经过词嵌入,加上位置编码输入到模型中。
作为一种可实施方式,在实验中设定dmodel=512,前向神经网络内部维度dff=2048,注意力头h=8。另外值得说明的是,本实施例应用标签平滑为0.1,dropout为0.1。
具体地,在训练时我们利用语音翻译数据中的语音-转录、转录-翻译数据对训练语音识别模型和机器翻译模型。语音识别、语音翻译、机器翻译三个模型的模型结构、参数保持一致。之后用训练好的语音识别模型的编码层初始化语音翻译模型的编码层,用训练好的机器翻译模型的解码层初始化语音翻译模型的解码层。这样为ST模型提供一个好的初始化参数,可以降低其学习难度,帮助模型快速收敛。
进一步地,所述步骤S104中,对语音翻译模型的隐含层输出进行掩码的方法包括序列(sequence)维度掩码和模型(model)维度掩码两种。该两种掩码方法都易于实现,计算代价非常小,可以应用于在线和离线的语音系统训练。
进一步地,所述序列维度掩码包括:
语音翻译模型的隐含层的每层输出是一个B×T×dmodel的矩阵,其中B表示批处理大小(即batch size),T表示序列维度,dmodel表示模型维度;在序列维度随机选取p×T个位置,将所述p×T个位置对应的模型维度的p×T×dmodel个值进行掩码,其中p表示掩码率,0≤p≤1。
进一步地,所述模型维度掩码包括:
语音翻译模型的隐含层的每层输出是一个B×T×dmodel的矩阵,其中B表示批处理大小,T表示序列维度,dmodel表示模型维度;在模型维度随机选取p×dmodel个位置,将所述p×T个位置对应的模型维度的p×dmodel×T个值进行掩码,其中p表示掩码率,0≤p≤1。
具体地,掩码值可以有0和均值两种方式。图3展示了分别作用在sequence、model维度时,掩码值分别为0、均值的掩码策略,以B为1,T=3,dmodel=4为例,从顶部到底部分别表示在序列维度上掩码值为0、均值,在模型维度上掩码值为0、均值。
上述两种掩码策略从不同的角度来缓解模型的过拟合问题:
序列维度掩码策略:掩码意味着迫使模型在缺少一部分token的向量表示的情况下,模型可以依据其余token的向量表示来提取信息,并进行编码、解码部分的对齐。
模型维度掩码策略:原始的输入序列经过变换以后,每个token转化为dmodel维的向量表示,并和其他token的向量表示逐个计算内积,得到权重。如果dmodel维的向量表示中部分维度的值过小或过大,就会导致计算得到的权重也呈现出相同的趋势。我们随机选取部分维度进行掩码,希望使模型计算权重时不依赖于部分维度的值,而更关注于整体。
另外我们分析由于隐含层的输出已经是输入向量的高层表示,对其进行掩码可能会导致模型损失过多信息,而难以训练,所以对model维度掩码效果会更好。另外关于掩码值,由于在Transformer中,LN在Transformer的每个块中均有应用,且为了防止网络表达能力下降,在采用LN对均值和方差进行归一化时,加了两个调节参数,导致隐含层输出向量的均值和方差不再是0和1,所以采用均值而不是0作为掩码值效果会更好。后续的实验验证了我们的分析。
为验证本发明效果,进行如下实验:
具体地,实验数据集为TED英-中语音翻译数据集和MUSTC英-德(En-De)、英-法(En-Fr)语音翻译数据集。实验中语音采用80维的Fbank特征,使用Kaldi对声学特征进行提取,并进行均值和方差归一化。另外采用pytorch-lightning组织我们的模型代码。采用multi-bleu脚本计算与大小写无关的BLEU值用于评价ST和MT模型训练任务,WER用于评价ASR模型训练任务。
1、TED英-中语音翻译数据集相关实验
我们采用由(Y.Liu,H.Xiong,J.Zhang,Z.He,H.Wu,H.Wang,and C.Zong,“End-to-end speech translation with knowledge distillation.”in Proc.INTERSPEECH,Graz,Austria,2019,pp.1128–1132.)收集的TED英-中语音翻译数据集,一共317,088条发音(大约542小时)。原始音频在TED网页上爬取,并通过时间戳进行分段。和上述文献一样,我们采用IWSLT中的dev2010作为开发集(835条发音,大约1.48小时),tst2015(1223条发音,大约2.37小时)作为测试集。
在训练过程中,采用和Transformer一致的优化器,在其基础上乘以了一个缩放因子k,用于适应自己的任务。对于ASR和ST任务,k=0.3,warmup=8000,每个batch大约包含47000帧。对于MT任务k=0.5,warmup=16000,每个batch大约包含3300个子词。在实验中我们采用早期终止策略,耐心值为3,即如果损失连续三个周期损失不再下降就终止训练。另外ST模型的编码、解码部分分别在ASR和MT任务进行预训练。ASR和MT训练时使用此数据中的数据对,没有使用任何额外数据。我们在4块NVIDIA V100显卡上进行实验。
表1为在TED英-中语音翻译数据集上的实验结果比较,此处的ModAugment为对model维度进行掩码,掩码值为均值,掩码率为0.1。
表1 TED英-中语音翻译数据集上的实验结果比较
在不同的配置下评价本实施例的模型。表1列出了实验结果。我们在添加了自适应层的模型上对各种方法进行比较(E=9,D=6),模型表示为09Enc-06Dec。可以看出使用ModAugment可以使模型的BLEU值从20.44提升到22.07,相比于SpecAugment、SpeedPerturb,效果更好。另外和Speed Perturb相结合,可以使模型的效果得到进一步的提升,达到22.53。在和SpecAugment结合时没有产生更好的结果,因为这两种方法都是采用掩码的方式,相结合会使模型丢失过多的信息。
另外ModAugment可以更好的利用自适应层。在基础Transformer模型中,加了三层自适应层只提升了0.32的BLEU值(从06Enc-06Dec到09Enc-06Dec),采用ModAugment时这个数字则增加到1.04。
(a)消融测试:掩码率的影响
由于掩码的存在,模型需要更多的训练时间。在模型效果提升和模型训练时间增加之间需要有一个平衡。我们在09Enc-06Dec上,对model维度,用均值进行掩码。图4展示出掩码率不同时模型效果变化情况和训练时间。总的来说p取0.1时,BLEU值提升最大,且训练用时比较合适。
(b)消融测试:不同掩码方案的影响
本实验进行消融测试来探索不同掩码方案对模型性能的影响。在09Enc-06Dec上进行实验,掩码率p为0.1。另外除了将掩码值选为0或者均值,我们也尝试了动态改变掩码值,而不是只有0、均值,即利用值β对要掩码的位置的值进行缩放。β从均匀分布[1-2×α,1+2×α]中采样。α在训练开始时设为0,训练中期逐渐增加到0.5,在训练结束时又逐渐降低到0。
表2展示了我们的实验结果,Scale表示第2节所述的动态掩码策略,第一行表示Baseline的实验结果,---表示无法训练。对比可以发现对model维度进行掩码,且掩码值为平均值(mean)时效果最好,动态掩码策略(Scale)并没有产生更好的效果。另外对model维度进行掩码时,无论哪种掩码策略均可以得到提升。而对sequence维度进行掩码时,由于每个位置处的表示已经是学习到的高层表示,对其进行掩码时模型无法根据其他位置来进行预测,对模型的对齐造成损害,使识别效果下降,甚至无法训练。
表2 不同掩码方案对模型性能的影响
(c)消融测试:掩码模型不同部分的影响
上述实验中掩码在所有层上执行,在本实验中我们研究掩码模型不同部分对模型性能的影响。在09Enc-06Dec上进行实验,掩码率为0.1,在model维度上进行掩码,掩码值为均值,结果如表3所示。我们发现掩码哪部分,模型性能都可以得到提升。但是总的来说对整个网络进行掩码的效果更好。
表3 掩码模型不同部分对模型性能的影响
2、MUSTC英-德、英-法语音翻译数据集相关实验
为验证本发明方法的通用性,我们另外在MUST-C En-De和En-Fr数据集上进行实验,在tst-COMMON上进行测试。对于文本均采用BPE分词,词表大小设为30k。为了更好的利用GPU,丢弃掉包含超过3000帧或者400个字符的发音。模型的编码、解码部分分别用ASR和MT模型进行初始化。在En-De数据集上,ASR任务的WER为22.75%,MT任务的BLEU为28.86。在En-Fr数据集上,ASR任务的WER为20.98%,MT任务的BLEU值为42.92。
实验结果列举在表4中,可以看到在两个数据集上的实验结果均表现出和在TED英-中语音翻译数据集上一样的趋势。这表明ModAugment是比较有效的。并且可以和SpeedPerturb相结合,使端到端ST模型的性能得到进一步的提升。实验证明了本发明方法在不相似和相似语言对上的有效性。
表4 MUSTC英-德、英-法语音翻译数据集上的实验结果比较
综上,本发明方法实现简单,通过对模型的隐含层输出进行掩码,增大模型的对齐难度,将过拟合问题转化为欠拟合问题,经过更长时间的训练提升模型表现。在TED英-中语音翻译数据集和MUSTC英-德、英-法语音翻译数据集上实验表明,将ModAugment应用到模型中可以提升模型表现,并与Speed Perturb相结合,可以使BLEU值得到进一步的提升。
在上述实施例的基础上,本发明第二方面提出一种基于模型增强的语音翻译模型训练系统,包括:
数据收集模块,用于收集语音翻译数据集,所述语音翻译数据集由多个语音-翻译-转录三元组构成;
第一模型训练模块,用于利用语音翻译数据集中的语音-转录数据对训练语音识别模型,利用语音翻译数据集中的转录-翻译数据对训练机器翻译模型;
第二模型训练模块,用于用语音识别模型初始化语音翻译模型的编码层,用机器翻译模型初始化语音翻译模型的解码层;
模型增强模块,用于对语音翻译模型的隐含层输出进行掩码,利用语音翻译数据集、结合损失函数对语音翻译模型进行训练;
模型微调模块,用于语音翻译模型训练好后,去掉掩码,对训练好的语音翻译模型进行微调。
在上述实施例的基础上,本发明第三方面提出一种语音翻译方法,包括:
获取待翻译的目标语言;
利用上述任一项所述的一种基于模型增强的语音翻译模型训练方法训练得到的语音翻译模型对所述目标语言进行翻译。
在上述实施例的基础上,本发明第四方面提出一种语音翻译设备,包括:目标语音获取单元和目标语音翻译单元;
所述目标语音获取单元用于获取待翻译的目标语音;
所述目标语音翻译单元用于利用上述任一项所述的一种基于模型增强的语音翻译模型训练方法训练得到的语音翻译模型对所述目标语言进行翻译。
综上,本发明对模型的隐含层输出进行掩码,并将掩码后的模型用于语音翻译系统,使用训练好的ASR模型和MT模型分别对ST模型的编码层、解码层进行初始化。本发明实现简单,通过对ST模型的隐含层输出进行掩码,增大ST模型的对齐难度,将过拟合问题转化为欠拟合问题,经过更长时间的训练提升ST模型表现,具有较好的应用前景。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于模型增强的语音翻译模型训练方法,其特征在于,包括:
步骤1:收集语音翻译数据集,所述语音翻译数据集由多个语音-翻译-转录三元组构成;
步骤2:利用语音翻译数据集中的语音-转录数据对训练语音识别模型,利用语音翻译数据集中的转录-翻译数据对训练机器翻译模型;
步骤3:用语音识别模型初始化语音翻译模型的编码层,用机器翻译模型初始化语音翻译模型的解码层;
步骤4:对语音翻译模型的隐含层输出进行掩码,利用语音翻译数据集、结合损失函数对语音翻译模型进行训练;
步骤5:语音翻译模型训练好后,去掉掩码,对训练好的语音翻译模型进行微调。
2.根据权利要求1所述的一种基于模型增强的语音翻译模型训练方法,其特征在于,所述语音识别模型、机器翻译模型及语音翻译模型的基本结构均采用Transformer结构。
3.根据权利要求1所述的一种基于模型增强的语音翻译模型训练方法,其特征在于,所述步骤4中,对语音翻译模型的隐含层输出进行掩码的方法包括模型维度掩码。
4.根据权利要求3所述的一种基于模型增强的语音翻译模型训练方法,其特征在于,所述模型维度掩码包括:
语音翻译模型的隐含层的每层输出是一个B×T×dmodel的矩阵,其中B表示批处理大小,T表示序列维度,dmodel表示模型维度;在模型维度随机选取p×dmodel个位置,将所述p×T个位置对应的模型维度的p×dmodel×T个值进行掩码,其中p表示掩码率,0≤p≤1。
5.一种基于模型增强的语音翻译模型训练系统,其特征在于,包括:
数据收集模块,用于收集语音翻译数据集,所述语音翻译数据集由多个语音-翻译-转录三元组构成;
第一模型训练模块,用于利用语音翻译数据集中的语音-转录数据对训练语音识别模型,利用语音翻译数据集中的转录-翻译数据对训练机器翻译模型;
第二模型训练模块,用于用语音识别模型初始化语音翻译模型的编码层,用机器翻译模型初始化语音翻译模型的解码层;
模型增强模块,用于对语音翻译模型的隐含层输出进行掩码,利用语音翻译数据集、结合损失函数对语音翻译模型进行训练;
模型微调模块,用于语音翻译模型训练好后,去掉掩码,对训练好的语音翻译模型进行微调。
6.一种语音翻译方法,其特征在于,包括:
获取待翻译的目标语言;
利用权利要求1~4任一项所述的一种基于模型增强的语音翻译模型训练方法训练得到的语音翻译模型对所述目标语言进行翻译。
7.一种语音翻译设备,其特征在于,包括:目标语音获取单元和目标语音翻译单元;
所述目标语音获取单元用于获取待翻译的目标语音;
所述目标语音翻译单元用于利用权利要求1~4任一项所述的一种基于模型增强的语音翻译模型训练方法训练得到的语音翻译模型对所述目标语言进行翻译。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110779788.0A CN113505610B (zh) | 2021-07-09 | 2021-07-09 | 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110779788.0A CN113505610B (zh) | 2021-07-09 | 2021-07-09 | 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505610A true CN113505610A (zh) | 2021-10-15 |
CN113505610B CN113505610B (zh) | 2022-05-06 |
Family
ID=78012037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110779788.0A Active CN113505610B (zh) | 2021-07-09 | 2021-07-09 | 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505610B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393396A (zh) * | 2022-08-18 | 2022-11-25 | 西安电子科技大学 | 一种基于掩码预训练的无人机目标跟踪方法 |
CN116450771A (zh) * | 2022-12-16 | 2023-07-18 | 镁佳(北京)科技有限公司 | 一种多语种语音翻译模型构建方法及语音翻译方法、装置 |
WO2023142454A1 (zh) * | 2022-01-28 | 2023-08-03 | 北京百度网讯科技有限公司 | 语音翻译和模型训练方法、装置、电子设备以及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110503945A (zh) * | 2019-09-06 | 2019-11-26 | 北京金山数字娱乐科技有限公司 | 一种语音处理模型的训练方法及装置 |
US20200226327A1 (en) * | 2019-01-11 | 2020-07-16 | Applications Technology (Apptek), Llc | System and method for direct speech translation system |
CN111460838A (zh) * | 2020-04-23 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 智能翻译模型的预训练方法、装置和存储介质 |
CN111563391A (zh) * | 2020-04-28 | 2020-08-21 | 北京金山云网络技术有限公司 | 机器翻译方法、装置及电子设备 |
CN111783477A (zh) * | 2020-05-13 | 2020-10-16 | 厦门快商通科技股份有限公司 | 一种语音翻译方法及系统 |
CN111859994A (zh) * | 2020-06-08 | 2020-10-30 | 北京百度网讯科技有限公司 | 机器翻译模型获取及文本翻译方法、装置及存储介质 |
CN112204653A (zh) * | 2019-03-29 | 2021-01-08 | 谷歌有限责任公司 | 通过机器学习的直接的语音到语音翻译 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN112699690A (zh) * | 2020-12-29 | 2021-04-23 | 科大讯飞股份有限公司 | 翻译模型的训练方法、翻译方法、电子设备、存储介质 |
-
2021
- 2021-07-09 CN CN202110779788.0A patent/CN113505610B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200226327A1 (en) * | 2019-01-11 | 2020-07-16 | Applications Technology (Apptek), Llc | System and method for direct speech translation system |
CN112204653A (zh) * | 2019-03-29 | 2021-01-08 | 谷歌有限责任公司 | 通过机器学习的直接的语音到语音翻译 |
CN110503945A (zh) * | 2019-09-06 | 2019-11-26 | 北京金山数字娱乐科技有限公司 | 一种语音处理模型的训练方法及装置 |
CN111460838A (zh) * | 2020-04-23 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 智能翻译模型的预训练方法、装置和存储介质 |
CN111563391A (zh) * | 2020-04-28 | 2020-08-21 | 北京金山云网络技术有限公司 | 机器翻译方法、装置及电子设备 |
CN111783477A (zh) * | 2020-05-13 | 2020-10-16 | 厦门快商通科技股份有限公司 | 一种语音翻译方法及系统 |
CN111859994A (zh) * | 2020-06-08 | 2020-10-30 | 北京百度网讯科技有限公司 | 机器翻译模型获取及文本翻译方法、装置及存储介质 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN112699690A (zh) * | 2020-12-29 | 2021-04-23 | 科大讯飞股份有限公司 | 翻译模型的训练方法、翻译方法、电子设备、存储介质 |
Non-Patent Citations (5)
Title |
---|
QIANQIAN DONG等: "Consecutive Decoding for Speech-to-text Translation", 《ASSOCIATION FOR THE ADVANCEMENT OF ARTIFICIAL》 * |
SPARENOEFFORTS: "利用弱监督数据改进端到端的语音到文本转换", 《简书》 * |
ZHEN LI、DU DAN等: "Language Model Pre-training Method in Machine Translation Based on Named Entity Recognition", 《INTERNATIONAL JOURNAL ON ARTIFICIAL INTELLIGENCE TOOLS》 * |
爱编程真是太好了: "Transformer模型详解", 《CSDN》 * |
程序员一一涤生: "程序员一一涤生", 《博客园》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023142454A1 (zh) * | 2022-01-28 | 2023-08-03 | 北京百度网讯科技有限公司 | 语音翻译和模型训练方法、装置、电子设备以及存储介质 |
CN115393396A (zh) * | 2022-08-18 | 2022-11-25 | 西安电子科技大学 | 一种基于掩码预训练的无人机目标跟踪方法 |
CN115393396B (zh) * | 2022-08-18 | 2024-02-02 | 西安电子科技大学 | 一种基于掩码预训练的无人机目标跟踪方法 |
CN116450771A (zh) * | 2022-12-16 | 2023-07-18 | 镁佳(北京)科技有限公司 | 一种多语种语音翻译模型构建方法及语音翻译方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113505610B (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113505610B (zh) | 基于模型增强的语音翻译模型训练方法、系统及语音翻译方法和设备 | |
CN112037798B (zh) | 基于触发式非自回归模型的语音识别方法及系统 | |
US11392833B2 (en) | Neural acoustic model | |
CN110767210A (zh) | 一种生成个性化语音的方法及装置 | |
Gong et al. | Layer-wise fast adaptation for end-to-end multi-accent speech recognition | |
CN116092501B (zh) | 语音增强方法、语音识别方法、说话人识别方法和系统 | |
CN111312228A (zh) | 一种基于端到端的应用于电力企业客服的语音导航方法 | |
CN113450761A (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
Cao et al. | Improving streaming transformer based asr under a framework of self-supervised learning | |
CN116863920B (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
CN117765959A (zh) | 一种基于音高的语音转换模型训练方法及语音转换系统 | |
CN113362804A (zh) | 一种合成语音的方法、装置、终端及存储介质 | |
CN116092475B (zh) | 一种基于上下文感知扩散模型的口吃语音编辑方法和系统 | |
Guo et al. | QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via Vector-Quantized Self-Supervised Speech Representation Learning | |
CN113593534B (zh) | 针对多口音语音识别的方法和装置 | |
CN115240645A (zh) | 基于注意力重打分的流式语音识别方法 | |
CN115310461A (zh) | 基于多模态数据优化的低资源语音翻译方法及系统 | |
Tanaka et al. | End-to-end rich transcription-style automatic speech recognition with semi-supervised learning | |
CN114203170A (zh) | 基于非自回归模型的流式语音识别系统及方法 | |
CN114333811A (zh) | 一种语音识别方法、系统及设备 | |
CN111583902A (zh) | 语音合成系统、方法、电子设备及介质 | |
CN113270091A (zh) | 音频处理系统和方法 | |
Iswarya et al. | Speech query recognition for Tamil language using wavelet and wavelet packets | |
CN112562686B (zh) | 一种使用神经网络的零样本语音转换语料预处理方法 | |
Tian et al. | One in a hundred: Selecting the best predicted sequence from numerous candidates for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |