CN111783477B

CN111783477B - 一种语音翻译方法及系统

Info

Publication number: CN111783477B
Application number: CN202010401772.1A
Authority: CN
Inventors: 徐敏; 肖龙源; 李稀敏; 蔡振华; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2023-08-22
Anticipated expiration: 2040-05-13
Also published as: CN111783477A

Abstract

本发明公开了一种语音翻译方法及系统，包括以下步骤：构建小语种和普通话的可替换词列表；构建子词字典；对每个字符进行独热编码；获取待识别语音，提取语音特征；计算待识别语音特征的位置编码向量；将待识别语音特征和位置编码向量进行求和；将待识别输入向量输入训练好的语音翻译模型；语音翻译模型输出识别文本。本发明使得语音翻译模型的训练难度降低，训练速度提升。

Description

一种语音翻译方法及系统

技术领域

本发明涉及语音识别技术领域，特别是一种语音翻译方法及系统。

背景技术

在很多时候，需要将一种只有少部分人能听懂的小语种语音转写成为大部分人能看懂的文字，例如将闽南语语音转写成为普通话文字。这种将源语言语音转写为目标语言文字的技术，通常包含两个级联过程：首先将源语言的语音通过语言识别技术转写为源语言的文字，然后采用机器翻译技术将源语言的文本翻译为目标语言的文字。但是这种两段式级联系统存在如下问题：

(1)流程复杂，需要进行大量前期准备工作；

(2)无法满足实时性要求较高的场景的需求；

(3)因为级联的结构，第一阶段的错误会传播到第二阶段，影响最终的效果；

(4)在很多时候，源语言是小语种，无法获取足够多的源语言的文本，用于训练语音识别模型和机器翻译模型，实用性受限。

发明内容

本发明为解决上述问题，提供了一种语音翻译方法及系统，可以使得语音翻译模型的训练难度降低，训练速度提升。

为实现上述目的，本发明采用的技术方案为：

一种语音翻译方法，包括以下步骤：

构建小语种和普通话的可替换词列表；

构建子词字典，所述子词字典包括(N+6)个字符，分别为N(N＞0)个子词、数字0-9、逗号、句号、问号、<UNK>、<BOS>和<EOS>，所述子词包括所述可替换词列表中的可替换词，<UNK>表示非子词的一个或一段汉字，<BOS>和<EOS>分别表示一句话的开头和结尾；

对每个所述字符进行独热编码，得字符编码；

获取单声道的待识别语音，提取所述待识别语音的语音特征，得待识别语音特征；

计算所述待识别语音特征的位置编码向量；

将所述待识别语音特征进行线性转换后，和所述待识别语音特征的位置编码向量进行求和，得待识别输入向量；

将所述待识别输入向量输入训练好的语音翻译模型，得待识别概率向量；

所述语音翻译模型计算出概率乘积最高的识别子词序列，输出识别文本；

所述识别文本由所述字符组成，所述识别子词序列由所述字符编码组成。

优选的，所述语音翻译模型的训练方法，包括以下步骤：

获取训练语音和对应的目标文本，所述目标文本为普通话文本根据所述小语种和普通话的可替换词列表进行替换后得到，所述普通话文本不包括无意义特殊符号；

将所述目标文本根据所述字符编码转化为对应的训练子词序列；

提取所述训练语音的语音特征，得训练语音特征；

计算所述训练语音特征的位置编码向量；

将所述训练语音特征进行线性转换后，和所述训练语音特征的位置编码向量进行求和，得编码输入向量；

将所述训练子词序列进行线性转换后，和所述训练语音特征的位置编码向量进行求和，得解码输入向量；

将所述编码输入向量和所述解码输入向量分别输入待训练的所述语音翻译模型，得训练概率向量；

根据所述训练概率向量和所述训练子词序列求交叉熵损失函数，并求和作为总的损失，更新所述语音翻译模型的参数，直到所述语音翻译模型收敛。

优选的，所述训练语音的获取方法，包括以下步骤：

爬取小语种的电视剧，提取语音部分；

去除有背景音乐的语音，将剩余语音整理成单声道语音；

根据时间戳进行分割，得所述训练语音的集合。

优选的，将所述目标文本转化为对应的子词序列时，采用标签平滑策略，设定一个接近于0的非负小数ε，独热编码中对应1的元素改用1-ε来表示，其他元素则通过ε的均匀分布来表示。

优选的，采用计划采样策略，择一使用上一个时间步的所述解码输出向量或所述训练子词序列，代替所述解码输入向量输入待训练的所述语音翻译模型。

优选的，所述语音翻译模型为Transformer模型，所述语音翻译模型逐位置全连接前馈网络，所述语音翻译模型包括编码器和解码器，所述编码器包括多个第一多头自注意机制层，所述解码器包括多个解码单元，所述解码单元包括带掩码多头自注意机制层和第二多头自注意机制层，所述编码器与所述第二多头自注意机制层连接。

优选的，当将上一个时间步的所述解码输出向量输入所述语音翻译模型时，采用集束搜索的方式，集束的值为M(M＞0)，然后进行标签平滑。

优选的，通过GPU进行加速。

基于同样的发明构思，本发明还提供了一种语音翻译系统，包括：

语音输入终端，用于输入所述待识别语音；

识别模块，用于对所述待识别语音进行识别，输出所述识别文本。

本发明的有益效果是：

(1)构建小语种和普通话的可替换词列表，将部分普通话的词替换为小语种的词，降低了小语种语音和普通话文本之间的不匹配度，从而降低模型的训练难度；

(2)通过对目标语言提取子词，一方面可以保留字与字之间的相关性，另一方面也减少了词的规模，从而降低模型的训练难度，提升训练速度；

(3)输出的识别文本包含常用标点符号，增加了可读性；

(4)采用基于Transformer的端到端架构，所有参数同时进行更新，避免了两段式语音翻译架构的弊端；

(5)采用无循环结构的多头自注意机制，所有运算都可以并行进行，大大缩短模型的训练时间。

附图说明

图1为本发明一实施例所提供的语音翻译模型的架构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合具体实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

端到端结构是一种序列到序列的结构，在机器学习领域，任何形式的数据包括语音、文本、图像等最终都以向量的形式进行表达，因此，端到端结构对解决不同形式的数据转换有着天然的优势。端到端结构也是一种神经网络结构，通常包括编码部分和解码部分，编码部分对源数据进行编码，提取和整合源数据的信息，抽象为向量的表达，然后解码部分将得到的向量进行解码，使其还原为目标数据，所有的参数通过后向传播算法及梯度下降法进行更新。

端到端架构根据内部编解码结构的不同可以有多种可选，有基于卷积神经网络(CNN)的、基于循环神经网络的、基于Transformer的等。相对于传统的两段式语音翻译系统，基于端到端的语音翻译系统是一种求取全局最优参数的过程，避免了两段式结构的错误传播。

对于中文，目前主流的端到端架构采用的建模方式都是以单字或者词作为建模单元，即使是以子词作为建模单元，也是直接对原始的普通话进行子词的提取。这种建模方式存在如下缺点：

(1)以单字作为建模单元，无法获取字与字之间的依赖关系，导致训练难度加大，难以收敛；

(2)以词作为建模单元，由于在中文中，词的数量过于庞大，会导致输出向量的维度过大，模型训练耗时过大，并且由于词一般是由语言学家定义的或者是采用分词算法得到的，因此词典和语料的关联性不强。对于语音翻译来说，因为源语言和目标语言是不同的语种，词典和语料的关联性直接影响到模型的效果；

(3)对原始的普通话进行子词提取作为建模单元，忽略了源语言语音和目标语言文本的不匹配问题，导致训练难度加大。

实施例一

本实施例提供一种语音翻译方法，用于将闽南语语音转写为目标语言文本。

本发明的语音翻译模型采用基于Transformer的序列到序列的架构，如附图1所示。

在左边的编码器部分，将输入的语音特征通过变换转换为另一维度的向量(InputEmbedding)，并和位置编码(Positional Encoding)向量进行求和，然后通过虚线框中一系列矩阵运算，得到更加抽象的特征，作为编码部分的输出，虚线框中的操作可以重复多次，然后将编码部分的输出作为右边的解码器部分多头注意层(Multi-Head Attention)输入的一部分。

在右边的解码器部分，将上一时间步的识别文本作为输入，首先通过变换转换为另一维度的向量，并和位置编码向量进行求和，然后通过虚线框中一系列矩阵运算，最后再进行一个线性变换，并将变换后的结果通过Softmax层转换为0-1之间的概率向量，该概率向量中概率值最大的元素对应的汉字就是当前时间步的识别结果。事实上，因为模型中的操作都是矩阵运算，因此，多条语音是并行处理的，可以通过GPU进行加速。

本发明的语音翻译模型的训练方法，包括以下步骤：

a.通过网络爬虫方式爬取闽南语电视剧，所有字幕文本均为普通话形式。通过FFmpeg工具提取音频部分，编写音乐检测算法对背景音乐进行检测，去除有背景音乐的音频，将剩余音频整理成为16000采样率、16bit的单声道wav音频，根据时间戳对音频进行分割作为语音翻译模型的训练集，并随机选择其中20％作为测试集；

b.构建闽南语和普通话的可替换词列表，通过编写python脚本对字幕文本进行规范化，去除无意义特殊符号后，将文中的词根据可替换词列表替换为对应的闽南语的词，将该文本作为目标语言文本。这样做的目的是降低输入的闽南语语音和输出的普通话文本之间的不匹配程度；

c.采用BPE算法提取字幕文本中频率最高的8000个子词，作为子词集合，将不在子词集合中的汉字用<UNK>表示，在每句话首尾分别添加<BOS>和<EOS>，表示一句话的开头和结尾。因为神经网络训练和测试需要根据输入的字符来决定字符的输出和结束；

d.将子词集合中的8000个子词、数字0-9、逗号、句号、问号、<UNK>以及<BOS>、<EOS>组成最终的字典，并进行独热编码，即每个字符都用一个8016维的向量来表示，其中只有该字符对应位置上的元素为1，其他元素都为0。这样做是因为语音翻译模型的输入维度要求是固定的。

e.使用Kaldi语音识别工具箱对语音数据进行特征提取，这里采用80维的fbank特征，帧长为25ms，帧移为10ms，也可以采用不同的特征，特征维度、帧长、帧移也可变。将每条语音根据特征条数进行分组，将每一组中最大的条数作为该组语音的长度，该组其他语音对应的特征通过补0方式达到该组语音的最大长度，假设某一组语音长度为T，则该组中的一条语音可表示为x＝(x₁,…,x_T)，其中x_i为80维的特征向量。这样做的好处有三：第一是同一组的语音长度相同，因此可以进行批量训练，加速训练过程；第二是减轻了将所有语音长度设为同一个值造成的有些短语音补0过多的负面影响；第三，如果不进行补0进行对齐，只能按条进行训练，训练速度过慢；

将提取的特征根据特征长度进行分组，将每一组进行对齐，然后按组进行批量训练，不仅加快了训练过程，同时也避免了将所有语音进行对齐或者不进行对齐所造成的负面影响。

f.编码器部分的训练，如附图1的左边部分。

f.1将语音特征通过线性变换，将维度转换为编码器部分输出向量的维度d_model，这里设为512，这样做的目的是为了使矩阵运算更方便，同时也可使用短路连接；

f.2将f.1中的输出向量和位置编码向量进行求和，其中位置编码向量的计算方式如下：

因为模型没有序列先后顺序的概念，所以需要位置编码向量来代表位置信息，又因为之后进行的所有运算都是矩阵乘法运算，因此这里的求和实际上可以看作一个代表位置的独热编码向量和输入向量进行拼接，然后进行矩阵分块乘法运算，所以这里的求和是合理的；

f.3将f.2的输出输入到虚线框中进行运算，虚线框内的部分可以分成两个部分，第一部分，多头自注意机制(Multi-Head Attention)，首先将输入分别乘以三个矩阵得到K、V、Q三个矩阵，假设head数目为h，这里设为8，那么对于第i个Attention，其计算如下：

其中d_k为矩阵K的列数。因为输入是不定长的，输入越长，得到的Q和K的值越大，为了消除这种影响，除以进行规整。

将所有Attention的输出进行拼接得到多头自注意机制的输出：

MultiHead(Q，K，V)＝ConCat(head₁，...，head_h) (0.3)。

这里采用多头自注意机制是因为不同的Attention关注的点是不同的。

采用多头自注意机制，不仅可以通过矩阵运算加速，而且对于任意长距离的依赖关系都可以进行保持。

第二部分，逐位置全连接前馈神经网络，计算如下：

FFN(x)＝max(0，xW₁+b₁)W₂+b₂ (0.4)。

每一部分的输出都和该部分输入进行短路求和，并经过层规范化作为下一部分的输入。采用短路连接的目的是缓解梯度消失问题，并加速收敛，因为梯度可以通过短路连接更直接传递到前一层，经过层规范化可以将参数分布限制在均值为0，方差为1的高斯分布，使得模型训练更加稳定；

f.4将虚线框中的操作进行8次，将最后的输出作为编码器部分的输出。和深度神经网络类似，通过叠加层数，可以得到更加抽象的特征；

g.解码器部分的训练，如附图1的右边部分。

g.1将目标语言文本或者从上一个时间步的输出中随机采样作为解码器的输入。这里采用一种叫做计划采样(Schduled Sampling)的策略来决定输入是目标语言文本还是上一时间步的输出的采样。在训练初始阶段，模型的输出是不可靠的，这时，采用正确的目标语言文本作为输入，随着模型不断训练，模型的输出越来越接近正确目标语言文本，这时，可以将上一时间步的输出进行采样作为当前时间的输入。因为在训练阶段，正确的目标语言文本是已知的，而在测试阶段正确的目标语言文本是未知的，只能采用上一时间步的输出作为输入，如果在整个训练阶段都采用目标语言文本作为输入而完全忽视上一时间步的输出的话，会导致测试阶段和训练阶段的输入不一致。因为上一时间步的输出的采样可能是错误的，从而导致最终训练出来的模型性能较差。而如果在整个训练过程中都将上一时间步的输出随机采样作为当前时间的输入的话，一方面没能利用正确的目标语言文本的信息，更为严重的是，随着不断训练，之前的不可靠的输出会被推翻，从而导致后面所有的输出都无效，最终导致模型无法收敛；

g.2将输入进行线性变换，将维度转换为模型的维度d_model，然后和位置编码向量进行求和。

g.3将g.2的输出输入到虚线框中进行运算，虚线框内的部分可以分成三个部分，第一部分，带掩码的多头自注意机制，和多头自注意机制不同的是，因为当前时间点的输出不可能Attention到未来时间点的转写结果，因此，这里限制只能Attention到当前时间点之前的转写结果，其他操作和编码部分多头自注意机制计算相同。第二部分，多头自注意机制，和编码部分自注意机制不同的是，输入的K和V矩阵是通过编码部分的输出通过和矩阵相乘得到的，从而可以将声学特性利用到解码部分中，Q矩阵仍然是上一部分的输出通过和矩阵相乘得到的。第三部分，逐位置全连接前馈神经网络，和编码器部分计算相同，每一部分的输出都和该部分输入进行短路求和，并经过层规范化作为下一部分的输入；

g.4将虚线框中的操作进行4次。和深度神经网络类似，通过叠加层数，可以得到更加抽象的特征；

g.5将虚线框中的输出输入到线性变换层，将维度转换为字符长度，即8016维，并通过softmax函数将元素值转换为0-1之间的概率值；

g.6将所有时间步输出的概率向量和对应的正确的转写文本的独热编码求交叉熵损失函数，并求和作为总的损失，然后通过随机梯度下降法进行后向传播，同时更新编码器部分和解码器部分的所有参数，直到模型收敛；

h.模型的测试和识别

h.1将测试语音进行特征提取后输入到编码部分中，提取更抽象的特征，并将该输出和矩阵相乘得到K和V矩阵作为解码部分Multi-Head Attention输入的一部分；

h.2将上一时间步解码部分的输出作为当前时间步解码部分的输入，通过计算得到当前时间步的输出；

为了避免贪婪搜索每次只选择概率最大的子词作为输出子词可能造成最终的子词序列的得分并不是最高，也即输出的子词序列并不是最优的识别结果的弊端，采用集束搜索(beam search)的方式进行解码，beam的值选择32，即对每次输出的概率向量，选择其中概率值最大的32个子词，然后将这32个子词的独热编码经过标签平滑分别作为下一时间步解码器的输入，重新选择32个概率值最大的32个子词，转换为对应的独热编码，经过标签平滑，作为下一时间步解码器的输入，以此类推，直到输出<EOS>，该条子词序列结束，表示其中一条识别结果识别结束，也可以采用其他的搜索方式；

在训练阶段采用计划采样的方式，大大降低了训练和测试时输入不一致造成的影响，使得模型训练难度降低，同时也提升了模型的识别效果。

h.3计算所有子词序列的概率乘积，根据需要，选择其中概率乘积最大的子词序列作为最终的识别结果；

h.4当使用模型进行待识别语音的翻译时，输出目标语言文本。

本发明使用TensorFlow 2.0搭建Transformer端到端深度神经网络，并进行训练和测试。初始学习率为0.2，并通过指数衰减方式逐步减小。采用adam方式进行优化。通过采用单块NVIDIA GTX1080Ti GPU进行加速训练和识别。语音翻译模型中所有的超参数都是可变的，需要针对不同的情况选择不同的超参数。所有流程通过编写shell脚本串接起来的

本发明不仅限于闽南语作为源语言，任何采用汉字作为表达方式的小语种都可以作为源语言。

实施例二

本实施例提供一种语音翻译系统，包括：

语音输入终端，用户通过麦克风等组件输入小语种的待识别语音，该终端提取待识别语音的语音特征，并将语音特征传输至识别模块。

识别模块，存储有可替换词列表和子词字典，以及加载有语音翻译模型模型，对上述语音特征计算位置编码向量后求和，将小语种语音转写为目标语言文字，并输出识别文本。

将本系统应用于手机上的APP或其他智能设备，可以满足用户对小语种语音的翻译需求。

本领域技术人员可以理解，实现上述语音数据检测方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在1个存储介质中，包括若干指令用以使得1个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种语音翻译方法，其特征在于，包括以下步骤：

构建小语种和普通话的可替换词列表；

对每个所述字符进行独热编码，得字符编码；

计算所述待识别语音特征的位置编码向量；

所述识别文本由所述字符组成，所述识别子词序列由所述字符编码组成；

所述语音翻译模型的训练方法，包括以下步骤：

提取所述训练语音的语音特征，得训练语音特征；

计算所述训练语音特征的位置编码向量；

2.根据权利要求1所述的语音翻译方法，其特征在于，所述训练语音的获取方法，包括以下步骤：

爬取小语种的电视剧，提取语音部分；

去除有背景音乐的语音，将剩余语音整理成单声道语音；

根据时间戳进行分割，得所述训练语音的集合。

3.根据权利要求1所述的语音翻译方法，其特征在于，将所述目标文本转化为对应的子词序列时，采用标签平滑策略，设定一个接近于0的非负小数ε，独热编码中对应1的元素改用1-ε来表示，其他元素则通过ε的均匀分布来表示。

4.根据权利要求1所述的语音翻译方法，其特征在于，采用计划采样策略，择一使用上一个时间步的解码输出向量或所述训练子词序列，代替所述解码输入向量输入待训练的所述语音翻译模型。

5.根据权利要求1所述的语音翻译方法，其特征在于，所述语音翻译模型为Transformer模型，所述语音翻译模型逐位置全连接前馈网络，所述语音翻译模型包括编码器和解码器，所述编码器包括多个第一多头自注意机制层，所述解码器包括多个解码单元，所述解码单元包括带掩码多头自注意机制层和第二多头自注意机制层，所述编码器与所述第二多头自注意机制层连接。

6.根据权利要求1所述的语音翻译方法，其特征在于，当将上一个时间步的所述解码输出向量输入所述语音翻译模型时，采用集束搜索的方式，集束的值为M(M＞0)，然后进行标签平滑。

7.根据权利要求1所述的语音翻译方法，其特征在于，通过GPU进行加速。

8.一种采用如权利要求1-7任一项所述方法的语音翻译系统，其特征在于，包括：

语音输入终端，用于输入所述待识别语音；