CN112686058B

CN112686058B - Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备

Info

Publication number: CN112686058B
Application number: CN202011557480.3A
Authority: CN
Inventors: 屈丹; 张昊; 杨绪魁; 张连海; 陈琦; 李�真; 李静涛
Original assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-10-29
Anticipated expiration: 2040-12-24
Also published as: CN112686058A

Abstract

本发明属于语音翻译技术领域，涉及一种BERT嵌入语音翻译模型训练方法、系统及语音翻译方法和设备，训练方法包含：收集模型训练数据；利用训练数据中的源语言预训练BERT模型，并将预训练后的BERT模型作为机器翻译模型编码层，并利用成对的源语言和目标语言文本对机器翻译模型进行训练，通过设置机器翻译模型中解码层层数来获取多个机器翻译模型；利用源语言成对的语音翻译数据训练语音识别模型；将训练后的语音识别模型编码层作为语音翻译模型编码层初始化参数，并采用熵加权方式对多个机器翻译模型输出进行加权来训练语音翻译模型，结合模型损失函数完成语音翻译模型训练。本发明提升语音翻译模型的识别性能，进而提高语音翻译效率和质量。

Description

BERT嵌入语音翻译模型训练方法、系统及语音翻译方法和设备

技术领域

本发明属于语音翻译技术领域，特别涉及一种基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法、系统及语音翻译方法和设备。

背景技术

语音翻译是将一种语言的语音转化为另一种语言的文本，端到端的模型，即跳过传统模型中将源语言的语言转化为文本这一步走，直接将源语言的语音转化为目标语言的文本，是目前的研究热点。在模型选择方面，谷歌提出的transformer模型由于其自注意力机制建模的有效性、并性处理的高效性以及模型结构的简洁性，成为主要的选择，使识别率得到了显著提升。但是存在的一个主要问题就是数据量问题。由于语音翻译是从一种语言的语音直接映射成另一种语言的文字，这就导致要想获得好的识别效果，相比于机器翻译、语音识别来说，需要更多的数据，并且这个特点也决定了语音翻译数据集获取的成本也更高。

为了解决低资源问题，很多学者致力于用相对来说更容易获取的机器翻译数据和语音识别数据来辅助训练，即通过一些辅助训练的策略减少对成对的语音翻译数据的数据量的需求。包括用语音识别系统的编码层、机器翻译系统的解码层初始化分别初始化语音翻译模型的编码层和解码层，用机器翻译模型作为教师模型指导语音翻译模型的训练。这些策略降低了语音翻译模型学习的难度，减小了对成对的语音翻译数据的要求，比较好的提升了模型的性能。为了进一步提升性能，当增加编码层的数目，使模型更深时，无论是哪种模型都会非常难以训练。另外单个教师模型针对一个输入来说，输出是相对固定的。而对于神经网络来说，即便是效果相对较差的网络可能对某一个输入产生好的结果，用单个教师模型指导训练显然无法利用神经网络的这种不确定性，进而影响语音翻译效率和质量。

发明内容

为此，本发明提供一种基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法、系统及语音翻译方法和设备，将BERT引入到transformer结构中作为编码层，并用于语音翻译，并采用熵加权的方式对多个作为教师模型的机器翻译模型的输出进行加权，用于指导作为学生模型的语音翻译模型的训练，提升语音翻译模型的识别性能，进而提高语音翻译效率和质量。

按照本发明所提供的设计方案，一种基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，包含如下内容：

收集模型训练数据，该训练数据包含但不限于：语音翻译数据的源语言与目标语言成对文本；

利用源语言预训练BERT模型，并将预训练后的BERT模型作为机器翻译模型编码层，并利用成对的源语言和目标语言文本对机器翻译模型进行训练，通过设置机器翻译模型中解码层层数来获取多个机器翻译模型；利用源语言成对的语音翻译数据训练语音识别模型；将训练后的语音识别模型编码层作为语音翻译模型编码层初始化参数，并采用熵加权方式对多个机器翻译模型输出进行加权来训练语音翻译模型，结合模型损失函数完成语音翻译模型训练。

作为本发明基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，进一步的，依据获取到的多个机器翻译模型选取其中任一解码层参数来设置语音识别模型训练中的解码层。

作为本发明基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，进一步地，采用熵加权范式进行加权训练中，利用每个机器翻译模型在输出转录序列位置上指导语音翻译模型训练的软标签概率分布，获取与语音翻译模型输出概率之间的相对熵，并结合语音翻译模型和转录之间的交叉熵，构建用于语音翻译模型训练的模型损失函数。

作为本发明基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，进一步地，输出转录序列第k个位置上用于指导语音翻译模型训练的软标签概率分布表示为：

其中，

为第i个机器翻译模型在输出转录序列第k个位置上第m个输出单元的预测概率，

为第i个机器翻译模型在输出转录序列第k个位置的输出概率分布。

作为本发明基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，进一步地，模型损失函数表示为：

其中，KLdiv(p_S,p_T)表示机器翻译模型与语音翻译模型输出概率之间的相对熵，p_S为语音翻译模型输出概率，p_T为多个机器翻译模型给出的软标签概率分布，CrossEntropy(p_S,GroundTruth)表示语音翻译模型交叉熵损失，GroundTruth表示标注参数，α表示以教师模型的软标签和学生模型的输出之间的KL距离在总的损失中所占的权重。

作为本发明基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，进一步地，解码层采用关于凸优化问题的自适应函数来计算注意力权重。

作为本发明基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，进一步地，自适应函数表示为：

其中，[·]₊是ReLU函数的正数部分，1表示全为1的向量，τ是拉格朗日乘子，α为利用梯度下降法训练得到的参数。

进一步地，本发明还提供一种基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练系统，包含：数据收集模块和模型训练模块，其中，

数据收集模块，用于收集模型训练数据，该训练数据包含但不限于：语音翻译数据的源语言与目标语言成对文本；

模型训练模块，用于利用源语言预训练BERT模型，并将预训练后的BERT模型作为机器翻译模型编码层，并利用成对的源语言和目标语言文本对机器翻译模型进行训练，通过设置机器翻译模型中解码层层数来获取多个机器翻译模型；利用源语言成对的语音翻译数据训练语音识别模型；将训练后的语音识别模型编码层作为语音翻译模型编码层初始化参数，并采用熵加权方式对多个机器翻译模型输出进行加权来训练语音翻译模型，结合模型损失函数完成语音翻译模型训练。

进一步地，本发明还提供一种语音翻译方法，包含：

获取待翻译的目标语言；

利用上述的方法训练的得到的语音翻译模型对所述目标语言进行翻译。

进一步地，本发明还提供一种语音翻译设备，包含：目标语音获取单元和目标语音翻译单元，其中，

目标语音获取单元，用于获取待翻译的目标语音；

目标语音翻译单元，用于利用上述的训练方法训练的得到的语音翻译模型对所述目标语言进行翻译。

本发明的有益效果：

本发明将BERT应用到transformer的编码层中，并将改进后的模型用于语音翻译系统，使用语音识别系统对语音翻译模型的编码层进行初始化，另外将多个机器翻译模型作为教师模型，指导学生模型，即语音翻译模型的训练。本发明是对预训练的BERT模型和知识蒸馏方法的一种更加灵活的运用。通常为了提升模型的建模能力会提升模型的深度，而这会加大模型的训练难度，本发明使用预训练的BERT模型作为编码层，增加了模型的深度，同时降低了训练的时间和对数据量的要求。另外常用知识蒸馏方法要么是采用单个教师模型，要么是采用一致的权重对多个教师模型的输出标签进行加权，这很显然对模型的利用率低，无法利用神经网络的不确定性，本发明根据每个教师模型在每个位置的输出概率分布的熵决定每个教师模型的权重，可以更有效的提升教师模型用于指导学生模型的软标签的可信度，进而降低学生模型对数据量的要求，提高语音翻译模型训练效率及识别性能，进而提升语音翻译质量及应用效果，具有较好的应用前景。

附图说明：

图1为实施例中基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法流程示意；

图2为实施例中语音翻译模型结构示意之一；

图3为实施例中语音翻译模型结构示意之二。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

本发明实施例，提供一种基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，包含如下内容：收集模型训练数据，该训练数据包含但不限于：语音翻译数据的源语言与目标语言成对文本；利用源语言预训练BERT模型，并将预训练后的BERT模型作为机器翻译模型编码层，并利用成对的源语言和目标语言文本对机器翻译模型进行训练，通过设置机器翻译模型中解码层层数来获取多个机器翻译模型；利用源语言成对的语音翻译数据训练语音识别模型；将训练后的语音识别模型编码层作为语音翻译模型编码层初始化参数，并采用熵加权方式对多个机器翻译模型输出进行加权来训练语音翻译模型，结合模型损失函数完成语音翻译模型训练。

参见图1和2所示，利用机器翻译训练数据，采用改进后的transformer结构(用预训练的BERT作为编码层)训练教师模型，通过改变模型的结构和参数生成多个教师模型；考虑到两种语言差别较大时，直接进行端到端的语音翻译训练会导致模型无法训练，因此在源语言的语音识别数据上，利用改进后的transformer结构训练一个基本的语音识别模型，将其编码层用于语音翻译模型的编码层的初始化；利用之前训练好的语音识别模型初始化语音翻译模型的编码层(语音翻译和语音识别的模型结构相同)，同时用多个教师模型，即机器翻译模型，指导学生模型，即语音翻译模型的训练，其中多个教师模型指导学生模型训练的软标签根据各个教师模型在对应位置的预测概率的熵进行加权。进一步地，依据获取到的多个机器翻译模型选取其中任一解码层参数来设置语音识别模型训练中的解码层。用源语言预训练的BERT模型作为原始transformer模型的编码层，然后用成对的源语言文本和目标语言文本对机器翻译模型进行训练。为了得到多个机器翻译模型，改变解码层的层数，保证多头注意力的头数、每个头的维度不变。计算损失时以交叉熵作为模型损失函数进行训练。应用多个机器翻译模型作为教师模型指导语音翻译模型的训练，采用熵对多个教师模型的输出进行加权，并用预训练的BERT作为transformer结构的编码层，提出了基于熵加权知识蒸馏的BERT嵌入语音翻译模型，具有更好的识别性能。

作为本发明实施例中的基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，进一步地，采用熵加权范式进行加权训练中，利用每个机器翻译模型在输出转录序列位置上指导语音翻译模型训练的软标签概率分布，获取与语音翻译模型输出概率之间的相对熵，并结合语音翻译模型和转录之间的交叉熵，构建用于语音翻译模型训练的模型损失函数。

用源语言预训练的BERT模型作为原始transformer模型的编码层，用源语言的成对的语音识别数据训练模型，模型的解码层的参数选取与机器翻译模型中的任一个相同即可。确定语音翻译模型的结构，保持和语音识别模型的结构相同，使用相同语言的预训练BERT模型作为编码层，词典、解码层的层数、多头注意力的头数、每个头的维度均保持相同。然后将训练好的语音识别模型的编码层作为语音翻译模型的编码层的初始化参数。用多个教师模型，即机器翻译模型，指导学生模型，即语音翻译模型的训练，其中多个教师模型指导学生模型训练的软标签根据各个教师模型在对应位置的预测概率的熵进行加权。

假设第i个教师模型

在第k个位置的输出概率分布为

k＝0,1,...T-1，其中T表示输出转录序列的长度。则在第k个位置用于指导学生模型model_st训练的软标签概率分布为

其中

为第i个教师模型在第k个位置的第m个输出单元的输出，即预测概率。据此可得到多个教师模型加权后的最终教师模型软标签概率分布p_T，

利用基于熵加权的多教师模型给出的软标签概率分布p_T，计算与学生模型model_st的输出概率p_S之间的KL距离，进一步学生模型的输出和事实转录之间的交叉熵相结合，可得到最终的模型损失函数：

前者即为教师模型和学生模型输出概率之间KL距离，后者为学生模型的交叉熵损失。以此损失函数对模型训练完成以后，用于识别时去掉教师模型即可。

为了进一步提升性能，满足工程需要，可选择语音翻译数据以外的其他数据用于机器翻译模型的训练，不必受限于语音翻译数据中收集到的源语言与目标语言的成对的文本。之后用源语言预训练的BERT模型作为原始transformer模型的编码层，然后用成对的源语言文本和目标语言文本对机器翻译模型进行训练，为进一步提升性能可采用更大的预训练BERT模型。之后为了得到多个机器翻译模型，改变解码层的层数，保证多头注意力的头数、每个头的维度不变。计算损失时以交叉熵作为模型损失函数进行训练。确定训练数据，不受限于语音翻译数据中成对的源语言的语音到源语言的文本的语音识别数据，可以用源语言预训练的BERT模型作为原始transformer模型的编码层，用源语言的成对的语音识别数据训练模型，模型的解码层的参数选取与机器翻译模型中的任一个相同即可。确定语音翻译模型的结构，保持和语音识别模型的结构相同，使用相同语言的预训练BERT模型作为编码层，词典、解码层的层数、多头注意力的头数、每个头的维度均保持相同。然后将训练好的语音识别模型的编码层作为语音翻译模型的编码层的初始化参数。用多个教师模型，即机器翻译模型，指导学生模型，即语音翻译模型的训练，其中多个教师模型指导学生模型训练的软标签根据各个教师模型在对应位置的预测概率的熵进行加权。另外在此基础上考虑到注意力长序列时的长尾效应，即当序列比较长时，由于Softmax函数是一种指数分布，会导致注意力的权重在序列的所有位置都有分布，相当于每个位置都会有贡献，而所有位置的权重和为1，这就会造成权重的冗余，一些权重会被分到不重要的位置上，很可能会导致模型性能的下降。

作为本发明实施例中基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，进一步地，解码层采用关于凸优化问题的自适应函数来计算注意力权重。

参见图3所示，将解码层的注意力相关的Softmax函数更换为自适应α-entmax函数，用于计算注意力权重，输出层保持不变。。

α-entmax定义为：

其中，

是概率单纯性，并且对于α≥1，

是Tsallis熵的连续族。

α-entmax的定义方程是一个凸优化问题，使用

的定义，最优化条件可得到如下形式的解：

其中[·]₊是ReLU函数的正数部分，1表示全为1的向量，τ的作用类似一个门限，是∑_ip_i＝1的拉格朗日乘子。

在不同的阶段可能注意力权重的激活方式会有所不同，所以需要α是自适应的。通常令初始值为α＝1.5。α-entmax关于α的导数为：

其中，

在神经网络的训练中将α当作一个可训练的参数，利用梯度下降法进行训练即可。

进一步地，基于上述的方法，本发明实施例还提供一种基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练系统，包含：数据收集模块和模型训练模块，其中，

进一步地，基于上述的训练方法，本发明实施例还提供一种语音翻译方法，包含：

获取待翻译的目标语言；

进一步地，基于上述的训练方法，本发明还提供一种语音翻译设备，包含：目标语音获取单元和目标语音翻译单元，其中，

目标语音获取单元，用于获取待翻译的目标语音；

本案实施例中，将BERT应用到transformer的编码层中，并将改进后的模型用于语音翻译系统，使用语音识别系统对语音翻译模型的编码层进行初始化，另外将多个机器翻译模型作为教师模型，指导学生模型，即语音翻译模型的训练。本发明是对预训练的BERT模型和知识蒸馏方法的一种更加灵活的运用。通常为了提升模型的建模能力会提升模型的深度，而这会加大模型的训练难度，本发明使用预训练的BERT模型作为编码层，增加了模型的深度，同时降低了训练的时间和对数据量的要求。另外常用知识蒸馏方法要么是采用单个教师模型，要么是采用一致的权重对多个教师模型的输出标签进行加权，这很显然对模型的利用率低，无法利用神经网络的不确定性，可根据每个教师模型在每个位置的输出概率分布的熵决定每个教师模型的权重，可以更有效的提升教师模型用于指导学生模型的软标签的可信度，进而降低学生模型对数据量的要求。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

基于上述的方法或系统，本发明实施例还提供一种网络设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述的系统或执行上述的方法。

基于上述的系统，本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现上述的系统。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述系统实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述系统实施例中相应内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述系统实施例中的对应过程，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，其特征在于，包含如下内容：

利用源语言预训练BERT模型，并将预训练后的BERT模型作为机器翻译模型编码层，并利用成对的源语言和目标语言文本对机器翻译模型进行训练，通过设置机器翻译模型中解码层层数来获取多个机器翻译模型；利用源语言成对的语音翻译数据训练语音识别模型；将训练后的语音识别模型编码层作为语音翻译模型编码层初始化参数，并采用熵加权方式对多个机器翻译模型输出进行加权来训练语音翻译模型，结合模型损失函数完成语音翻译模型训练；

采用熵加权范式进行加权训练中，利用每个机器翻译模型在输出转录序列位置上指导语音翻译模型训练的软标签概率分布，获取与语音翻译模型输出概率之间的相对熵，并结合语音翻译模型和转录之间的交叉熵，构建用于语音翻译模型训练的模型损失函数；

输出转录序列第k个位置上用于指导语音翻译模型训练的软标签概率分布表示为：

其中，

表示每个机器翻译模型的权重，

表示每个机器翻译模型在第k个位置的输出分布的熵，

2.根据权利要求1所述的基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，其特征在于，依据获取到的多个机器翻译模型选取其中任一解码层参数来设置语音识别模型训练中的解码层。

3.根据权利要求1所述的基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，其特征在于，模型损失函数表示为：

其中，KLdiv(p_S,p_T)表示机器翻译模型与语音翻译模型输出概率之间的相对熵，p_S为语音翻译模型输出概率，p_T为多个机器翻译模型给出的软标签概率分布，CrossEntropy(p_S,GroundTruth)表示语音翻译模型交叉熵损失，GroundTruth表示标注参数，α表示以机器翻译模型的软标签和语音翻译模型的输出之间的KL距离在总的损失中所占的权重。

4.根据权利要求1所述的基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，其特征在于，解码层采用关于凸优化问题的自适应函数来计算注意力权重。

5.根据权利要求4所述的基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练方法，其特征在于，自适应函数表示为：

6.一种基于熵加权知识蒸馏的BERT嵌入语音翻译模型训练系统，其特征在于，基于权利要求1所述的方法实现，包含：数据收集模块和模型训练模块，其中，

7.一种语音翻译方法，其特征在于，包含：

获取待翻译的目标语言；

利用权利要求1～5任一项所述的方法训练的得到的语音翻译模型对所述目标语言进行翻译。

8.一种语音翻译设备，其特征在于，包含：目标语音获取单元和目标语音翻译单元，其中，

目标语音获取单元，用于获取待翻译的目标语音；

目标语音翻译单元，用于利用权利要求1～5任一项所述的方法训练的得到的语音翻译模型对所述目标语言进行翻译。