CN113569562B

CN113569562B - 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统

Info

Publication number: CN113569562B
Application number: CN202110753283.7A
Authority: CN
Inventors: 张婷; 黄武伟; 熊德意
Original assignee: Glabal Tone Communication Technology Co ltd
Current assignee: Glabal Tone Communication Technology Co ltd
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2023-11-14
Anticipated expiration: 2041-07-02
Also published as: CN113569562A

Abstract

本发明属于语音翻译技术领域，公开了一种降低端到端语音翻译跨模态跨语言障碍的方法及系统，所述降低端到端语音翻译跨模态跨语言障碍的系统，包括语音编码器和文本解码器；所述降低端到端语音翻译跨模态跨语言障碍的方法包括：数据集以及数据处理；模型预训练；模型训练；模型解码。本发明提供的降低端到端语音翻译跨模态跨语言障碍的方法，能够使得解码端的每一层都有一个特定的声学表示，在没有引入参数和避免错误传递的情况下达到降低端到端语音翻译跨模态跨语言障碍的目的。本发明的实现以神经网络为基础，提出的降低端到端语音翻译跨模态跨语言障碍的方法旨在不引入额外参数和避免错误传递的情况下提高语音翻译的质量。

Description

一种降低端到端语音翻译跨模态跨语言障碍的方法及系统

技术领域

本发明属于语音翻译技术领域，尤其涉及一种降低端到端语音翻译跨模态跨语言障碍的方法及系统。

背景技术

目前，语音翻译是研究将一种语言的语音翻译成为另一种语言的文本的一种技术，此技术有很多应用场景如：跨国会议、商业会谈、跨境客服、出国旅游，电影配音/字幕制作等。语音翻译的实现主要有两种范式--级联范式和端到端范式。传统的语音翻译是采用级联的方式，即一个语音识别模型串联一个机器翻译模型而成。随着研究技术的发展以及研究人员对于语音翻译认知的不断完善，端到端语音翻译逐渐成为研究热点。端到端语音翻译在模型上采用编码器-解码器架构，源端声学信号通过编码器得到高维声学状态，解码端根据编码得到的声学状态解码到另一种语言的文本。

语音翻译的实现会面临两个问题：一、输入的是声学信号，输出的是文本表示，即跨模态问题。一般来说，在同一个句子下，声学的表示长度要远大于文本表示。二、输入的是一种语言，输出的是另一种语言，即跨语言问题。不同语言间的差异使得解码端在生成目标词时需要找出源语言各个状态序列间全局的的信息。

语音翻译任务同时面临跨语言跨模态的问题。使得语音翻译要比跨模态任务语音识别和跨语言任务机器翻译学习更为复杂的映射关系。在端到端语音翻译上这种复杂的关系需要一步解决，这就需要大量的数据来进行学习训练。然而，由于收集音频文件以及标注的成本比较昂贵。目前端到端语音翻译的数据集很有限，数据集的规模也远小于机器翻译数据集。这使得端到端语音翻译不能很好地克服同时面临的跨模态跨语言问题。

目前使用最广泛的端到端语音翻译模型是基于Transformer结构的，由一个声学编码器和一个文本解码器组成，使用卷积神经网络(CNN)+Transformer的方式。语音特征在经过声学编码器后得到一个固定的表示，解码端的每层需要源端的信息时都是基于此固定的语音状态序列。因此语音编码器就需要有很好的表征能力，既要有声学表示能力也要有语义表示能力。在当前语音翻译数据集比较匮乏的情况下，由于训练数据量的不足导致很难得到一个好的深声学编码器。

为了进一步提高翻译质量，已有的方法包括引入其他的子模块将跨模态和跨语言问题分开看待，并运用语音识别或者机器翻译的数据来进行辅助训练。以此来得到一个比较不错的供解码使用的状态序列，达到降低跨语言跨模态障碍目的。然而，在另一方面引入了其他参数，并在不同程度上引入了错误传递。

通过上述分析，现有技术存在的问题及缺陷为：

(1)由于收集音频文件以及标注的成本比较昂贵，目前端到端语音翻译的数据集很有限，数据集的规模也远小于机器翻译数据集，这使得端到端语音翻译不能很好地克服同时面临的跨模态跨语言问题。

(2)语音编码器就需要有很好的表征能力，既要有声学表示能力也要有语义表示能力；在当前语音翻译数据集比较匮乏的情况下，由于训练数据量的不足导致很难得到一个好的深声学编码器。

(3)已有的方法包括引入其他的子模块将跨模态和跨语言问题分开看待，并运用语音识别或者机器翻译的数据来进行辅助训练，但在另一方面引入了其他参数，并在不同程度上引入了错误传递。

解决以上问题及缺陷的难度为：在当前端到端语音翻译数据集匮乏的情况下并且保持端到端语音翻译的优势下提高翻译的质量是一项极具挑战的任务。

解决以上问题及缺陷的意义为：保持了端到端语音翻译的优势，即不引入错误传递，在训练时不使用语音识别和机器翻译的数据(只有预训练时使用了语音识别的数据)。在解码端的每层有一个特定的语音状态的表示，降低了端到端语音翻译中同时面临的跨语言跨模态障碍，提高了翻译的质量。为解决端到端语音翻译中面临的跨模态和跨语言问题提供一种全新的方法和思路。

发明内容

针对现有技术存在的问题，本发明提供了一种降低端到端语音翻译跨模态跨语言障碍的方法及系统。

本发明是这样实现的，一种降低端到端语音翻译跨模态跨语言障碍的系统，所述降低端到端语音翻译跨模态跨语言障碍的系统，包括语音编码器和文本解码器。

其中，所述语音编码器由用于编码声学信号的几层卷积神经网络和堆叠在卷积神经网络层之上的几层Transformer编码器层组成；语音特征序列输入到模型中在经过语音编码器得到一个语音状态序列解码端采用自回归的方式基于语音编码端解码得到的状态序列生成目标语言的文本，用公式表达如下：

h＝SpeechEncoder(x)；

y_i＝TranslationDecoder(h,y_i-1)；

其中，x为输入的语音特征序列，y_i为第i个目标词。

所述文本解码器的每一层由多头语音-文本混合注意力子层和全连接前馈神经网络子层组成，将语音编码器的最后一层输出的高维语音状态序列与目标语言词嵌入序列连接，并将连接后的序列作为解码器的输入；其中，连接的输入序列还包括位置编码和模态，用于区分目标语言词嵌入和语音状态序列。

本发明的另一目的在于提供一种应用所述的降低端到端语音翻译跨模态跨语言障碍的系统的降低端到端语音翻译跨模态跨语言障碍的方法，所述降低端到端语音翻译跨模态跨语言障碍的方法包括以下步骤：

步骤一，序列拼接：在解码器端将编码器端输出的语音状态序列(长度为m)和目标语言词嵌入(长度为为n)在句子维度上连接起来；

步骤二，位置模态编码：将连接的长度为m+n的序列加入绝对位置编码和模态编码；

步骤三，混合子层计算：在解码端每层使用语音-文本混合注意力子层进行计算。

步骤四，模型解码：在模型训练收敛后，使用测试集的数据进行测试，采用beamsearch算法解码，解码得到的句子使用BLEU作为翻译的评价指标。

进一步，步骤一中，使用CNN+Transformer结构的声学编码器，在输入到模型之前先对数据进行预处理，将文本的句子改写成全部小写，同时生成字典；将音频信号通过开源工具kaldi提取80维的Fbank特征，步长设为10ms，窗口大小设为25ms，将每一句的语音特征长度大于4000和对齐的效果比较差的句子删除。在得到经过声学编码器的语音状态序列和目标语言词嵌入在句子维度上进行拼接。

进一步，步骤二中，解码器端将编码端得到的高维语音状态序列和目标语言词嵌入连接在一起作为输入，故输入的长度是高维语音状态的长度加上目标语言词嵌入的长度。加入位置编码和模态编码，用于区分不同的位置信息和区分两种不同的模态。其中位置编码和编码器端一致，采用绝对位置编码，模态编码使用词嵌入技术得到。

进一步，步骤三中，解码器端每一层计算都会得到一层特定的语音状态，并且语音状态自注意计算、词嵌入自注意计算以及源端-目标端注意力的计算使用一个共同的注意力网络参数。

进一步，所述解码端语音-文本混合注意力子层在进行计算分数时使用的屏蔽矩阵分为四个部分：

(1)语音状态的自注意力屏蔽部分，该部分矩阵的值和编码器端的自注意力屏蔽矩阵的值一致，同一个batch不同语音序列长度中被填充的部分被置为负无穷从而得到屏蔽的效果；

(2)语音状态语序对于目标语言词嵌入关注的屏蔽矩阵，由于在得到语音状态时是没有目标语言词嵌入的信息的，故将一部分矩阵的值都置为负无穷；

(3)目标语言词嵌入对于语音状态序列关注的屏蔽矩阵；计算时将语音状态中batch里不同语音状态长度被填充的部分以及目标语言词嵌入中batch里不同句子长度被填充的部分置为负无穷，于标准Transformer中src-attention计算注意力分数时的屏蔽矩阵一致；

(4)词嵌入的自注意屏蔽：屏蔽目标语言词嵌入中同一batch中不同句子长度中被填充的部分及自回归时当前目标语言词嵌入只能关注当前词和当前词之前的词，而之后的词置为负无穷；解码端的最后会加入一个隐藏层维度×目标文本词表大小的全连接矩阵，通过所述全连接矩阵和一个softmax的计算得出当前解码得到的词是词表中的各个词的概率。

进一步，所述四个部分分数在通过与V相乘，即multi-head方式得到两部分表示，前两部分计算得到语音特征表示，后两部分得到词嵌入表示；通过前馈全连接表示得到当前层的最终英语语音特征表示，当前层的最终词嵌入表示，并传递给下一层；解码器端最后一层的输出传递到一个256×词表大小的矩阵进行计算，计算结果通过softmax得到当前解码的词在词典中每一个位置的概率；每个batch计算一次损失，batch size设为40；使用Adam优化器，通过梯度下降算法计算梯度，反向传播更新模型参数。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的降低端到端语音翻译跨模态跨语言障碍的方法，能够使得解码端的每一层都有一个特定的声学表示，在没有引入参数和避免错误传递的情况下达到降低端到端语音翻译跨模态跨语言障碍的目的。本发明的实现以神经网络为基础，提出的降低端到端语音翻译跨模态跨语言障碍的方法旨在不引入额外参数和避免错误传递的情况下提高语音翻译的质量。

本发明在解码器端的每一层都得到了一个特定的语音状态序列，且没有在引入其他模块参数。本发明在解码端只使用了一个多头语音-文本混合注意力子模块，使语音状态序列和目标语言词自嵌入共享一个语义空间。与Transformer解码端计算目标语言词嵌入时先计算对于本句其他词的注意力分数得到一个状态(即self-attention)然后计算对于语音状态序列的注意力分数得到当前词的目标语言词嵌入(即src-attention)不同，本发明的解码端生成目标语言词自嵌入时对于语音状态序列和本句其他目标语言自嵌入的注意力分数时使用一个softmax，一步得到目标语言词嵌入的表示。本发明不限定于使用的神经网络类型。根据本发明的核心步骤可以很容易在CNN+RNN结构中实现，例如RNN的每层中也生成一个特定的语音状态序列。

本发明提出的模型有以下优势：首先，解码器端将语音状态序列和目标语言词嵌入连接的方式映射到一个语义空间进行计算。其次，在当前层进行计算后，每个解码器层的语音状态都发生相应的变化。第三，解码端生成目标语言词自嵌入时对于语音状态序列和其他目标语言自嵌入的Attention分数时只使用一个softmax，一步得到目标语言词嵌入的表示(原始Transformer先计算self-attention再计算src-attention)。

本发明在语音翻译常用的两个数据集Augmented Librispeech英语到法语和IWSLT18英语到德语都取得了不错效果。实验结果见表1。

表1实验结果

表1中，评测结果为BLEU值。使用本发明的方法在英语到法语数据集上的BLEU值达到17.10，超过LSTM ST方法和同样基于ESPnet的Transformer+ASR pre-train方法。在英语到德语的数据集上使用本发明BLEU值达到了16.39，超过同样在ESPnet上使用Transformer+ASR pre-train方法1.18个BLEU值。

将本发明运用于跨模态任务语音识别(ASR)和跨语言任务机器翻译(NMT)中，在Augmented Librispeech英语到法语数据集上得到的结果如表2。

表2在Augmented Librispeech英语到法语数据集上得到的结果

其中，语音识别的评测指标使用错词率(CER)错词率越低则识别效果越好，语音翻译和机器翻译的评测指标使用BLEU值。在语音识别任务上使用本发明的方法并没有降低识别的错词率，在机器任务上几乎没有提高BLEU值。说明本发明仅适合于同时面临跨模态跨语言问题的语音翻译任务。

受益于本发明的解码端每一层都有一个语音状态序列的表示，原先编码器端表征语音语义信息的负担被下移到解码端，本发明使用Fluent Speech Commands数据集来探索编码器中包含的语义信息的变化。通常，语义信息越多，在Fluent Speech Commands数据集上做说话人识别分类准确率越低。本发明取出基线结构(Transformer+ASR pre-train)的编码器参数和本发明的编码器参数，冻结该部分参数，然后添加一个线性分类层进行训练。从表3可以看出，在基线结构上的分类准确率为74.2％，在提出的结构上的分类准确率为96.7％，说明在使用本发明的方法时，在基线结构的编码器上需要学习的关于语义上的内容被下移到解码器上。

表3实验结果

方法	准确率(％)
		Transformer+ASR pre-train	74.2
本发明的方法	96.7

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的降低端到端语音翻译跨模态跨语言障碍的方法流程图。

图2是本发明实施例提供的整体模型图。

图3是本发明实施例提供的模型预训练示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种降低端到端语音翻译跨模态跨语言障碍的方法及系统，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的降低端到端语音翻译跨模态跨语言障碍的方法包括以下步骤：

S101，数据集以及数据处理：数据集中包含训练集和测试集，利用英语到德语数据集IWSLT18和英语到法语的数据集Augmented Librispeech实现；

S102，模型预训练：利用源语音特征和英文转录文本数据在CNN+Transformer的语音识别模型上进行预训练；

S103，模型训练：使用平行语料在本发明所提出的可以降低端到端语言翻译跨语言跨模态障碍的模型上进行训练；

S104，模型解码：在模型训练收敛后，使用测试集的数据进行测试，采用beamsearch算法解码，解码得到的句子使用BLEU作为翻译的评价指标。

如图2所示，本发明实施例提供的降低端到端语音翻译跨模态跨语言障碍的系统，包括语音编码器和文本解码器。

h＝SpeechEncoder(x)；

y_i＝TranslationDecoder(h,y_i-1)；

其中，x为输入的语音特征序列，y_i为第i个目标词。

所述文本解码器的每一层由多头语音-文本混合注意力子层和全连接前馈神经网络子层组成，用于将语音编码器的最后一层输出的高维语音状态序列与目标语言词嵌入序列连接，并将连接后的序列作为解码器的输入；其中，连接的输入序列还包括位置编码和模态，用于区分目标语言词嵌入和语音状态序列。

本发明的实现以神经网络为基础，提出的降低端到端语音翻译跨模态跨语言障碍的方法旨在不引入额外参数和避免错误传递的情况下提高语音翻译的质量。整体模型图如图2所示。

下面结合实施例对本发明的技术方案作进一步描述。

实施例

本发明整体模型分为语音编码器(Speech Encoder)和文本解码器(TranslationDecoder)，声学编码器由用于编码声学信号的几层卷积神经网络和堆叠在卷积神经网络层之上的几层Transformer编码器层组成。语音特征序列输入到模型中在经过语音编码器得到一个语音状态序列解码端采用自回归的方式基于语音编码端解码得到的状态序列生成目标语言的文本，用公式表达如下：

h＝SpeechEncoder(x) (公式1)

y_i＝TranslationDecoder(h,y_i-1) (公式2)

其中，x为输入的语音特征序列，y_i为第i个目标词。

解码器的每一层主要由多头语音-文本混合注意力子层和全连接前馈神经网络子层组成。为了使语音状态序列动态适应于每一层的解码器状态，本发明将语音编码器的最后一层输出的高维语音状态序列与目标语言词嵌入序列连接，并将连接后的序列作为解码器的输入。其中，连接的输入序列也加入了位置编码。除了位置编码之外，本发明还将模态嵌入到加入到序列中，以此来将目标语言词嵌入与语音状态序列区分开来。

首先，在模型训练时，语音特征序列首先经过几层卷积神经网络，此过程中，语音特征序列得到了升维并且序列长度会减少，减少的程度取决与卷积核的大小，一般采用2×2的卷积核，这样经过两层神经网络之后序列长度就减少为原来的1/4。为了区分不同位置的信息，在输入到Transformer编码器之前会加入正弦\余弦位置编码。Transformer的编码器层通过自注意力机制使得每一个语音状态都包含了该条语音序列其他状态的信息，并在最后一层输出一段高维语音状态序列。

解码器端将编码端得到的高维语音状态序列和目标语言词嵌入连接在一起作为输入，因此输入的长度是高维语音状态的长度加上目标语言词嵌入的长度。此外为了区分不同的位置信息和区分两种不同的模态本发明还加入了位置编码和模态编码。其中位置编码和编码器端一致，采用绝对位置编码，模态编码使用词嵌入技术得到。这样解码器端每一层计算都会得到一层特定的语音状态。并且语音状态自注意计算、词嵌入自注意计算以及源端-目标端注意力的计算使用一个共同的注意力网络参数。解码端语音-文本混合注意力在进行计算分数时使用的屏蔽矩阵分为四个部分：一、语音状态的自注意力屏蔽部分，这部分矩阵的值和编码器端的自注意力屏蔽矩阵的值一致，同一个batch不同语音序列长度中被填充的部分被置为负无穷从而得到屏蔽的效果。二、语音状态语序对于目标语言词嵌入关注的屏蔽矩阵，由于在得到语音状态时是没有目标语言词嵌入的信息的，所以本发明将一部分矩阵的值都置为负无穷。三、目标语言词嵌入对于语音状态序列关注的屏蔽矩阵。计算时将语音状态中batch里不同语音状态长度被填充的部分以及目标语言词嵌入中batch里不同句子长度被填充的部分置为负无穷(于标准Transformer中src-attention计算注意力分数时的屏蔽矩阵一致)。四、词嵌入的自注意屏蔽：屏蔽目标语言词嵌入中同一batch中不同句子长度中被填充的部分及自回归时当前目标语言词嵌入只能关注当前词和当前词之前的词，而之后的词置为负无穷。解码端的最后会加入一个隐藏层维度×目标文本词表大小的全连接矩阵，通过这个全连接矩阵和一个softmax的计算得出当前解码得到的词是词表中的各个词的概率。

在基于训练好的模型进行推理生成时，由于解码器端每一层的语音状态都是面向句子级别的，所以只需要在生成第一个词时在解码器端每一层生成一个语音状态序列，而不需要每生成一个词就将语音状态计算一遍，避免重复计算。

1.本发明的实现的具体软硬件环境：

在Linux环境下，使用pytorch和chainer神经网络框架在端到端语音开源工具ESPnet上实现，实验训练时使用4张P100显卡。

2.数据集以及数据处理

在英语到德语数据集IWSLT18上和英语到法语的数据集Augmented Librispeech(见表4)实现本技术方案。IWSLT18语音翻译数据集来自TED演讲，包含271小时的演讲，171K的英语转录文本和德语翻译文本。该数据集中包含训练集和测试集，由于没有验证集，本发明从训练集中随机抽取2000个样本作为验证集。使用此数据集的tst2013作为测试集。Augmented Librispeech数据集为每个实例提供了英语语音信号、英语转录文本、对齐电子书中的法语文本翻译。使用约100小时的干净数据进行训练，其中2小时的数据作为验证集，4小时作为测试集，分别对应47271、1071和2048个句子。另外，还通过谷歌翻译将对于转录文本进行翻译从而得到弱标签数据，使训练数据增加了一倍。

表4数据集

在输入到模型之前本发明首先对数据进行预处理，将文本的句子改写成全部小写，对于解码的粒度，在IWSLT18数据集上使用字符级别，在Augmented Librispeech数据集使用子词级别，此过程通过sentencepiece工具实现，同时生成字典。将音频信号通过开源工具kaldi提取80维的Fbank特征，步长设为10ms，窗口大小设为25ms。将每一句的语音特征长度大于4000和对齐的效果比较差的句子删除。

3.模型预训练

所采用的两个数据集中都包含英文的转录文本，首先利用源语音特征和英文转录文本数据在CNN+Transformer的语音识别模型上进行预训练。由于CNN+Transformer结构的声学编码器端和本发明的声学编码器端的结构完全一致。本发明按照图3的方式直接将语音识别预训练得到的声学编码器端的参数来初始化本发明的声学编码器参数。这种方法在端到端语音翻译中被广泛使用。为了进一步降低模型的过拟合，使用了速度扰动技术(扰动因子分别置为0.9，1.0和1.1)和SpecAugment策略。

4.模型训练

按照图2的模型，在训练端到端语音翻译时，提取的英语语音特征(80维Fbank特征)首先经过两层卷积神经网络，卷积核大小设为2×2，经过这两层卷积神经网络后语音特征会升维序列长度也会减少为原来的1/4。卷积层的输出会加入一个正弦\余弦位置编码作为之后堆叠的12层编码器端的输入。自注意力维度设为256，自注意力子层计算之后有一个前馈神经网络子层，它是由两个全连接网络构成，它们的维度分别为256×2048和2048×256，在每一层中，为了防止梯度消失采用了残差网络的方式。残差网络分别应用于自注意力计算和前馈全连接网络的计算。

编码器会输出得到一个语音的高维隐状态序列，目标端的词由one-hot向量与一个可学习的维度为词表大小乘以256的word-embedding矩阵计算出词嵌入向量。将此语音状态序列和目标语言词嵌入在序列维度进行连接，得到长度为语音状态序列和目标语言词嵌入长度之和的序列。另外加入正弦\余弦位置编码和维度为2×256的另一个word-embedding得到的模态编码作为解码器端的输入。在解码器端的每一层中包含一个多头语音-文本混合注意力子层和前馈全连接子层。在多头语音-文本混合注意力子层中，q、k、v的值都是相同。在和不同的参数矩阵相乘后映射到不同的空间得到Q、K、V。Q和K相乘(multi-head方式)得到注意力分数，可将注意力矩阵的分数分为四个部分：一、英语语音每个特征会得到本句其他语音特征对于当前特征的一个自注意力分数。二、语音语音特征得到每个目标语言词嵌入的子注意力分数，由于在生成时目标语言自嵌入对于语音状态是不可见的，所以这一部分的自注意力分数全部为0。三、目标语言词嵌入得到每个英语语音特征对于每个目标语言词嵌入的自注意力分数。四、每个目标语言词嵌入得到本句当前词之前的所有其他词嵌入对于当前目标语言词嵌入的自注意力分数。上述四个部分分数在通过与V相乘(multi-head方式)得到两部分表示，前两部分计算得到语音特征表示，后两部分得到词嵌入表示。随后通过前馈全连接表示得到当前层的最终英语语音特征表示，当前层的最终词嵌入表示，并传递给下一层。解码器端最后一层的输出传递到一个256×词表大小的矩阵进行计算，计算结果通过softmax得到当前解码的词在词典中每一个位置的概率。每个batch计算一次损失，batch size设为40。使用Adam优化器，通过梯度下降算法计算梯度，反向传播更新模型参数。

5.模型解码

在模型训练收敛后，使用测试集的数据进行测试，解码时采用beam search算法，解码得到的句子使用BLEU作为翻译的评价指标。

6.结果和分析

表1实验结果

表2在Augmented Librispeech英语到法语数据集上得到的结果

表3实验结果

方法	准确率(％)
		Transformer+ASR pre-train	74.2
本发明的方法	96.7

本发明主要创新点在于以下：

1.在解码器端的每一层都得到了一个特定的语音状态序列，且没有在引入其他模块参数。

2.在解码端只使用了一个多头语音-文本混合注意力子模块，使语音状态序列和目标语言词自嵌入共享一个语义空间。与Transformer解码端计算目标语言词嵌入时先计算对于本句其他词的注意力分数得到一个状态(即self-attention)然后计算对于语音状态序列的注意力分数得到当前词的目标语言词嵌入(即src-attention)不同，本发明的解码端生成目标语言词自嵌入时对于语音状态序列和本句其他目标语言自嵌入的注意力分数时使用一个softmax，一步得到目标语言词嵌入的表示。

本发明不限定于使用的神经网络类型。根据本发明的核心步骤可以很容易在CNN+RNN结构中实现，例如RNN的每层中也生成一个特定的语音状态序列。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种降低端到端语音翻译跨模态跨语言障碍的系统，其特征在于，所述降低端到端语音翻译跨模态跨语言障碍的系统，包括语音编码器和文本解码器；

h＝SpeechEncoder(x)；

y_i＝TranslationDecoder(h,y_i-1)；

其中，x为输入的语音特征序列，y_i为第i个目标词；

所述文本解码器的每一层由多头语音-文本混合注意力子层和全连接前馈神经网络子层组成，用于将语音编码器的最后一层输出的高维语音状态序列与目标语言词嵌入序列连接，并将连接后的序列作为解码器的输入；其中，连接的输入序列还包括位置编码和模态编码，用于区分目标语言词嵌入和语音状态序列。

2.一种实施权利要求1所述的降低端到端语音翻译跨模态跨语言障碍的系统的降低端到端语音翻译跨模态跨语言障碍的方法，其特征在于，所述降低端到端语音翻译跨模态跨语言障碍的方法包括以下步骤：

步骤一，数据集以及数据处理：数据集中包含训练集和测试集，利用英语到德语数据集IWSLT18和英语到法语的数据集Augmented Librispeech实现；

步骤二，模型预训练：利用源语音特征和英文转录文本数据在CNN+Transformer的语音识别模型上进行预训练，并将得到的编码端的参数来初始化语言翻译模型的编码器；

步骤三，模型训练：使用平行语料在权利要求1所述的一种降低端到端语音翻译跨模态跨语言障碍的系统上进行训练；

步骤四，模型解码：在模型训练收敛后，使用测试集的数据进行测试，采用beam search算法解码，解码得到的句子使用BLEU作为翻译的评价指标。

3.如权利要求2所述的降低端到端语音翻译跨模态跨语言障碍的方法，其特征在于，步骤一中，所述IWSLT18语音翻译数据集来自TED演讲，包含271小时的演讲，171K的英语转录文本和德语翻译文本；从训练集中随机抽取2000个样本作为验证集，使用此数据集的tst2013作为测试集；

Augmented Librispeech数据集为每个实例提供英语语音信号、英语转录文本、对齐电子书中的法语文本翻译；使用100小时的干净数据进行训练；其中2小时的数据作为验证集，4小时作为测试集，分别对应47271、1071和2048个句子；通过谷歌翻译将对于转录文本进行翻译，进而得到弱标签数据；

在输入到模型之前先对数据进行预处理，将文本的句子改写成全部小写，对于解码的粒度，在IWSLT18数据集上使用字符级别，在Augmented Librispeech数据集使用子词级别，通过sentencepiece工具实现，同时生成字典；将音频信号通过开源工具kaldi提取80维的Fbank特征，步长设为10ms，窗口大小设为25ms，将每一句的语音特征长度大于4000和对齐的效果比较差的句子删除。

4.如权利要求2所述的降低端到端语音翻译跨模态跨语言障碍的方法，其特征在于，步骤二中，所述模型预训练，包括：所采用的两个数据集中都包含英文的转录文本，首先利用源语音特征和英文转录文本数据在CNN+Transformer的语音识别模型上进行预训练；由于CNN+Transformer结构的声学编码器端和声学编码器端的结构完全一致，直接将语音识别预训练得到的声学编码器端的参数来初始化声学编码器参数，并使用速度扰动技术和SpecAugment策略，扰动因子分别置为0.9，1.0和1.1。

5.如权利要求2所述的降低端到端语音翻译跨模态跨语言障碍的方法，其特征在于，步骤三中，所述模型训练，包括：在训练端到端语音翻译时，提取的英语语音特征首先经过几层卷积神经网络，语音特征序列得到升维并且序列长度会减少，减少的程度取决与卷积核的大小，采用2×2的卷积核，经过两层神经网络之后序列长度减少为原来的1/4；

在输入到Transformer编码器之前会加入正弦\余弦位置编码，用于区分不同位置的信息；Transformer的编码器层通过自注意力机制使得每一个语音状态都包含该条语音序列其他状态的信息，并在最后一层输出一段高维语音状态序列；

解码器端将编码端得到的高维语音状态序列和目标语言词嵌入连接在一起作为输入，故输入的长度是高维语音状态的长度加上目标语言词嵌入的长度；加入位置编码和模态编码，用于区分不同的位置信息和区分两种不同的模态；其中位置编码和编码器端一致，采用绝对位置编码，模态编码使用词嵌入技术得到，解码器端每一层计算都会得到一层特定的语音状态，并且语音状态自注意计算、词嵌入自注意计算以及源端-目标端注意力的计算使用一个共同的注意力网络参数。

6.如权利要求5所述的降低端到端语音翻译跨模态跨语言障碍的方法，其特征在于，所述解码端语音-文本混合注意力子层在进行计算分数时使用的屏蔽矩阵分为四个部分：

7.如权利要求6所述的降低端到端语音翻译跨模态跨语言障碍的方法，其特征在于，所述四个部分分数在通过与V相乘，即multi-head方式得到两部分表示，前两部分计算得到语音特征表示，后两部分得到目标语言词嵌入表示；

通过前馈全连接表示得到当前层的最终语音特征表示，当前层的最终目标语言词嵌入表示，并传递给下一层；解码器端最后一层的输出传递到一个256×词表大小的矩阵进行计算，计算结果通过softmax得到当前解码的词在词典中每一个位置的概率；每个batch计算一次损失，batch size设为40；使用Adam优化器，通过梯度下降算法计算梯度，反向传播更新模型参数。