CN115310461A

CN115310461A - 基于多模态数据优化的低资源语音翻译方法及系统

Info

Publication number: CN115310461A
Application number: CN202210834634.1A
Authority: CN
Inventors: 朱文博; 金浩; 陈建文; 李艾园
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2022-11-08

Abstract

本发明公开了基于多模态数据优化的低资源语音翻译方法及系统，该方法包括：获取源语音信息与对应的转录文本信息；对源语音信息进行预处理，得到预处理后的语音信息；对预处理后的语音信息与转录文本信息进行连接时序分类损失计算，得到声学表征的对齐结果；对声学表征的对齐结果进行解码处理，得到解码后的声学表征与解码后的文本语义表征；对解码后的声学表征与解码后的文本语义表征进行迭代训练，输出翻译结果。通过使用本发明，能够降低不同音频和文本对应的标签采集难度并且实现在多模态下进行声学表征和文本语义表征的共同优化。本发明作为基于多模态数据优化的低资源语音翻译方法及系统，可广泛应用于语音识别技术领域。

Description

基于多模态数据优化的低资源语音翻译方法及系统

技术领域

本发明涉及语音识别技术领域，尤其涉及基于多模态数据优化的低资源语音翻译方法及系统。

背景技术

语音翻译技术是一项将源语言音频转录成目标语言文本的技术；语言翻译是涉及人工智能、数学、语言学、计算语言学和语音技术等多种学科和技术的综合性研究课题，属于国际前沿领域，多年来一直被认为是信息社会对计算机技术最具挑战性的研究课题之一，目前商用的语音翻译技术都依靠大量的有标签数据才能得到良好的效果，然而不同音频和文本对应的标签采集难度高、适用场景少、人工标注成本高昂，而传统的低资源语音翻译系统方案流程复杂，优化困难并且优化程度有限，难以达到实用的效果，现有的通过采用单一模态优化来丰富数据特征，以此来提高识别性能，但是由于语音翻译是一种双模态模式识别技术，因此传统的单一模态优化难以提供有效帮助且传统的多模态数据增强技术难以进行共同优化。

发明内容

为了解决上述技术问题，本发明的目的是提供基于多模态数据优化的低资源语音翻译方法及系统，能够降低不同音频和文本对应的标签采集难度并且实现在多模态下进行声学表征和文本语义表征的共同优化。

本发明所采用的第一技术方案是：基于多模态数据优化的低资源语音翻译方法，包括以下步骤：

获取源语音信息与对应的转录文本信息；

对源语音信息进行预处理，得到预处理后的语音信息；

对预处理后的语音信息与转录文本信息进行连接时序分类损失计算，得到声学表征的对齐结果；

对声学表征的对齐结果进行解码处理，得到解码后的声学表征与解码后的文本语义表征；

基于精简的双模态模型，对解码后的声学表征与解码后的文本语义表征进行迭代训练，输出翻译结果。

进一步，所述对源语音信息进行预处理，得到预处理后的语音信息还包括以下步骤：

基于Conformer网络，对源语音信息进行编码处理，得到编码后的语音信息；

基于自监督模型，对外域无监督音频数据进行重建，得到具有标记的音频数据；

对编码后的语音信息和具有标记的音频数据进行融合处理，得到预处理后的语音信息。

进一步，所述Conformer网络包括自注意力机制和残差连接，其具体表达式如下所示：

上式中，

表示经过自注意力机制处理后的下一时间戳输出，SelfAttention表示系统中Conformer网络中包括的注意力机制结构计算方法，x_l表示原始源信息输入，FeedForward表示前馈神经网络计算。

进一步，所述自监督模型包括多层卷积特征编码器，其中，所述卷积特征编码器包括时域卷积层，归一化层和GELU激活函数，其表达式如下所示：

上式中，L_c表示对比度损失函数，c_t表示源序列信息，q_t表示编码器输出后的离散序列特征信息，k表示k个类特征簇中心，

表示从q个候选(即有用的)离散特征信息到Q个总目标离散特征信息，

表示候选的离散序列特征信息。

进一步，所述连接时序分类损失计算的表达式如下所示：

L_CTC＝-logP_CTC(y|x_L)

上式中，L表示编码器中的层数，x_L表示第L层的输出，L_CTC表示编码器中的连接时序损失函数，P_CTC表示连接时序损失函数中的后验概率，用来计算并得到连接时序损失函数。

进一步，所述对声学表征的对齐结果进行解码处理，得到解码后的声学表征与解码后的文本语义表征还包括以下步骤：

基于文本预训练模型，通过目标域文本数据对声学表征的对齐结果进行微调处理，得到微调后的对比结果；

基于双模态模型，通过联合损失函数对微调后的对齐结果进行联合优化，输出解码后的声学表征与解码后的文本语义表征。

进一步，所述步骤S41中外域MT预训练模型其表达式具体如下所示：

L(θ)＝-E_x,y∈D_MT-PretextlogP(y|x；θ)

上式中，θ表示外域MT预训练模型的参数，e表示目标域文本数据，x表示外域输入的文本数据，y表示候选的输出文本数据特征，L(θ)表示带有θ的可调最大似然损失函数，E_x,y表示输入和输出的最大期望，D_MT-Pretex表示结合预训练最大似然损失后的得到的目标域文本数据，P表示概率。

进一步，所述基于精简的双模态模型，对解码后的声学表征与解码后的文本语义表征进行迭代训练，输出翻译结果还包括以下步骤：

对双模态模型进行分析，提取双模态模型中的相似层；

通过深度剪枝技术对双模态模型中的相似层进行剔除处理，得到精简的双模态模型；

基于精简的双模态模型，通过CTC辅助损失函数对解码后的声学表征与解码后的文本语义表征进行迭代训练；

直至输出的训练结果满足预设的概率条件，输出翻译结果。

所述CTC辅助损失函数具体如下所示：

上式中，L_InterCTC表示CTC辅助损失函数，K表示总共有K个相似层，k表示第k相似层，x_lk表示中间第k相似层的l个位置神经元输入。

本发明所采用的第二技术方案是：基于多模态数据优化的低资源语音识别系统，包括：

获取模块，用于获取源语音信息与源语音信息对应的转录文本信息；

编码模块，用于对源语音信息进行预处理，得到预处理后的语音信息；

损失计算模块，用于对预处理后的语音信息与转录文本信息进行连接时序分类损失计算，得到声学表征的对齐结果；

解码模块，用于对声学表征的对齐结果进行解码处理，得到解码后的声学表征与解码后的文本语义表征；

优化模块，基于精简的双模态模型，对解码后的声学表征与解码后的文本语义表征进行迭代训练，输出翻译结果。

本发明方法及系统的有益效果是：本发明通过Conformer网络以及自监督模型对源语音信息进行预处理，可以最大限度的利用文本与语音资源且不需要对源语音进行转录即可进行训练，降低不同音频和文本对应的标签采集难度，进而通过连接时序分类损失计算对语音的声学表征与文本语义表征进行对齐，最后通过相似层裁剪技术与非相似层融合技术提高双模态模型对声学表征的对齐结果的解码过程进行优化，可以减少双模态模型的参数量，提高有限参数的利用能力，改善多模态下声学表征和文本语义表征难以共同优化的问题。

附图说明

图1是本发明基于多模态数据优化的低资源语音翻译方法的步骤流程图；

图2是本发明基于多模态数据优化的低资源语音识别系统的结构框图；

图3是现有技术基于基线模型的编码端的注意机制的注意力机制热力图；

图4是本发明自我监督模型的编码端的注意机制热力图；

图5是现有技术基于基线模型的解码端的注意机制的注意力机制热力图；

图6是本发明自我监督模型的解码端的注意机制热力图；

图7是本发明低资源语音识别方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

参照图1和图7，本发明提供了基于多模态数据优化的低资源语音翻译方法，该方法包括以下步骤：

S1、获取源语音信息与对应的转录文本信息；

具体地，采用开源伊班语语料库作为低资源语音识别系统的源语言语音输入X_s＝[x₁,x₂,…,x_s]，将转录为对应的英语文本Y_s＝[y₁,y₂,…,y_s]作为任务目标。

S2、对源语音信息进行预处理，得到预处理后的语音信息；

S21、基于Conformer网络，对源语音信息进行编码处理，得到编码后的语音信息；

具体地，通过采用Conformer网络作为端到端编解码的基础结构，其中端到端结构是一个单独的子任务，仅包括一个语音翻译编码器和语音翻译解码器，并在解码端引入链接时序损失来共同优化解码损失；Conformer网络是一个多层注意力架构，包括自注意力机制和残差连接，其中自注意力机制学习全局信息，残差连接帮助训练深度神经网络，并基于SpecAugment技术，通过语谱图形式增强音频与文本序列的对齐效果，来加强源语音的声学表征，与现有的技术级联结构相比，本发明采用的端到端结构系统流程简单，避免了级联结构容易出现错误传播的问题，容易共同调优，并且不需要源语音的转录来进行训练，Conformer网络的表达式如下所示：

上式中，

表示经过自注意力机制处理后的下一时间戳输出，SelfAttention表示系统中Conformer网络中包括的注意力机制结构计算方法，x_l表示原始源信息输入，FeedForward表示前馈神经网络计算；

S22、基于自监督模型，对外域无监督音频数据进行重建，得到具有标记的音频数据；

具体地，通过结合自监督学习，通过从大规模的无监督数据中自动构造监督信息，通过这种伪标签对网络进行训练，从而可以学习到对下游任务有价值的表征，在本专利提出的低资源语音翻译方案中，在音频编码器端结合自监督模型来重建外域信息声学表征，以提高模型建模能力，因为低资源条件下，模型在编码端能够学习到有用的信息很少，需要外域无监督音频数据进行补充学习，才能达到更好的解码效果并丰富声学表征；

该自监督模型由多层卷积特征编码器f组成。编码器由几个块组成，其中包含一个时域卷积，然后是层归一化和一个GELU激活函数；它以原始音频x为输入，输出潜在语音表示Z₁,…,Z_T，即X→Z；并将特征编码器的输出到Transformer架构的上下文网络。通过自注意捕获整个序列的潜在表示的依赖关系，以构建表示C₁,…,C_T来捕捉整个序列的信息，即，其中上下文网络使用类似的卷积层作为相对位置嵌入，而不是编码绝对位置信息的固定位置嵌入。其中我们计算上下文表征和量化潜在语音表征之间的余弦相似度。一个量化的候选表征

k个分心者，和一个真正的量化潜在语音表征q_t是语境网络的输出，其中所述自监督模型表达式如下所示；

表示候选的离散序列特征信息。

S23、对编码后的语音信息和具有标记的音频数据进行融合处理，得到预处理后的语音信息。

具体地，同时将特征编码器的输出离散为q_t，使用量化模块Z→Q来表示自监督中的目标，为了进行自监督训练，通过量化将从多个码本中选择量化表示并将它们连接起来，给定G个码本，有V个条目e∈R^V×d/G，我们从每个码本中选择一个条目，并连接得到的向量e₁,…e_G，并应用线性变换R^d→R^f得到q∈R^f，同时，使用直通式估计器和设置G硬Gumbel软最大运算，特征编码器输出z映射到l∈R^G×Vlogits，g组选择第V个码本条目的概率为：

上式中，p_g,v表示第g个组选择第v个编码表征的概率，l_g,v表示第g个组中选择l个表示第v个编码表征的对数概率，n_v表示总V个编码表征的负对数正态分布，n_k表示v组中每个编码标准的负对数正态分布，τ表示非负温度；

在向前传递中，i＝argmax_ip_g,j选择码字i，并且在向后传递中，使用GumbelSoftmax输出的真实梯度，在一批语料中，通过对每个编码本

的编码本条目的平均Softmax分布1的熵最大化，平均使用G编码本中的V条目，具体表示如下：

上式中，L_d表示编码本多样性损失函数，G表示总编码数，V表示其中的V个有用的编码数，H表示取该概率的均匀分布，

表示总编码数概率，

表示第g个组选择第v个编码表征的平均概率，g表示第g个组，v表示总G组中的第V个组别；

通过引入对比度损失L_c和编码本多样性损失L_d来解决自监督和有监督编码的融合，其中α是一个经过调整的超参数，使用原始的16位16kHz单声道音频作为实验中的音频输入，在Librispeech的音频数据上进行微调训练，其中包含10分钟、100小时和960小时不同规模的微调模型，进一步的微调函数如下所示：

L＝L_c+αL_d

S3、对预处理后的语音信息与转录文本信息进行连接时序分类损失计算，得到声学表征的对齐结果；

具体地，对经过融合处理得到的声学表征反馈至标准CTC损失层，以优化音频对齐损失，即通过连接时序分类损失计算对声学表征与对应的文本语义表征之间进行对齐，所述连接时序分类损失计算的表达式具体如下所示：

L_CTC＝-logP_CTC(y|x_L)

S4、对声学表征的对齐结果进行解码处理，得到解码后的声学表征与解码后的文本语义表征；

S41、基于外域MT预训练模型，通过目标域文本数据对声学表征的对齐结果进行微调处理；

S42、基于双模态模型，通过联合损失函数对微调后的声学表征的对齐结果进行联合优化，输出解码后的声学表征与解码后的文本语义表征；

具体地，为了利用大规模无标记文本数据，可以引入外域MT预训练模型即文本预训练模型，同时使用少量目标域文本数据微调，并且通过对双模型引入联合损失函数，达到联合优化的目的，外域MT预训练模型其表达式具体如下所示：

L(θ)＝-E_x,y∈D_MT-PretextlogP(y|x；θ)

上式中，θ表示外域MT预训练模型的参数，D表示目标域文本数据，x表示外域输入的文本数据，y表示候选的输出文本数据特征，L(θ)表示带有θ的可调最大似然损失函数，E_x,y表示输入和输出的最大期望，D_MT-Pretext表示结合预训练最大似然损失后的得到的目标域文本数据，P表示概率；

对于独立的文本生成工作，我们利用了典型的基于Transformer的结构，解码器模块有六个Transformer层，其中2048层是最隐蔽的单元，利用层前归一化来使训练具有可比性，因为前端模型在同时接受语音表示和外部文本信息作为输入，在实验中使用了Adam优化器，学习率为2×10^-4，warmup为25k步长，根据实验结果，MT预训练为共享变压器模块提供了一个合适的热身。

S5、对解码后的声学表征与解码后的文本语义表征进行迭代训练，输出翻译结果。

S51、对双模态模型进行分析，提取双模态模型中的相似层；

S52、通过深度剪枝技术对双模态模型中的相似层进行剔除处理，得到精简的双模态模型；

具体地，在对模型进行随机深度训练后，通过分析相关层对模型的影响进一步得出系统结构中的相似层，并且采用深度剪枝技术将模型中的一些相似层去除，得到了新的更小的子模型，减少整体参数量，提高有限参数的利用能力，该子模型不需要进行任何微调，也具有合理的性能；

S53、基于精简的双模态模型，通过CTC辅助损失函数对解码后的声学表征与解码后的文本语义表征进行迭代训练；

S54、直至输出的训练结果满足预设的概率条件，输出翻译结果。

具体地，在迭代训练期间，每一层是否随机跳过与给定概率，对于每一次迭代，从伯努利分布采样，这样u＝1的概率是p和u＝0的概率是1-p，如果u＝0，则跳过剩余部分(即x_l＝x_l-1)，输出是通过修改解码端即如下公式所述：

基于对双模态模型进行分析，提取双模态模型中的相似层，而针对于非相似层，对编解码尾部设计多模态CTC辅助损失，可以进一步改善多模态下声学表征和文本语义表征难以共同优化的问题，它使用附加在中间层的额外CTC损失使模型正规化，进一步改善多模态难以共同优化的问题，让l₁,…,l_k中间层的K个位置即K<L，中间损失定义为：

上式中，L_InterCTC表示CTC辅助损失函数，K表示总共有K个相似层，k表示第k相似层，x_lk表示中间第k相似层的l个位置神经元输入；

进一步结合E_q定义训练目标：

L:＝(1-w)L_CTC+wL_InterCTC

上式中，w表示超参数，L:表示总的优化损失函数；

其中，步骤S3中的CTC损失函数和CTC辅助损失函数共享连接时序分类损失的同一线性投影层，因为中间CTC辅助损失函数被视为常规的CTC损失，只是跳过中间层之后的所有编码器层，本发明通过选取单层和双层的中间CTC来分析对模型实现正规化。

本发明模拟实验如下所示：

参照图3和图4，本专利使用结合自监督模型的结构，可以观察到与自我监督模型相结合的编码端和基线模型的编码注意力权重，所述基线模型没有经过预训练，也没有使用任何额外的其他有监督语音翻译数据，图中可以看出权重的对角线相关度越高，对它们的影响就越好，表明编码器的学习能力越强；

具体地如图3所示，与基线模型相比，微调后的自监督编码器注意力权重的注意力对准能力得到了增强，用10分钟的Librilight数据预训练的自监督模型取得了平均25.6个BLEU的成绩，比基线平均成绩高出3.3个BLEU点，这些结果表明，采用自监督模型学习的声学表征在语音识别之外非常有用，适用于语音翻译，而且它表明本专利提出的模型与自监督学习相结合，它可以在源语音不足的情况下有效的利用大量的外域无监督音频数据来改善低资源语音翻译任务，其中，图3的坐标轴表示未经过优化的编码端中的输入表征和输出的关系，如果图中类对角线越多证明，编码器学习到越多关于输入数据的关系，证明此时编码器学习能力强；

图4的坐标轴表示经过本文优化的编码端中的输入表征和输出的关系，可以看出对角线关系越多，编码器学习到输入的关系越好；

参照图5和图6，本发明通过使用结合文本预训练模型的结构，可以观察到了使用文本预训练模型的解码端和未使用文本预训练模型的解码端注意力权重，而基线模型是用10分钟的可标记数据进行微调，权重的对角线相关度越高，对它们的影响就越好，表明解码端学习语义能力越强；

图5的坐标轴表示未经过优化的解码端中的输入表征和输出的关系，如果图中类对角线越多证明，解码器学习到越多关于输入声学表征的关系，证明此时解码器学习能力强；

具体地如图6所示，与基线模型相比，当与域外文本预训练模型结合时，带有语义关系的注意力权重有明显的提高，而单一模型的最佳性能提高了1.4BLEU，双重模型的最佳性能提高了2.0BLEU，这也意味着，域外文本预训练模型可以帮助低资源语音翻译任务在解码端丰富文本嵌入，提高语义学习能力，进一步有效地提高低资源语音翻译任务的性能表现；

图6坐标轴表示经过本文优化的解码端中的输入表征和输出的关系，可以看出对角线关系越多，解码器学习到输入的关系越好；

上述坐标轴数值均代表其中不同词类，颜色明亮强度代表编码器或解码器学习到该词类的关系越强。

参照图2，基于多模态数据优化的低资源语音识别系统，包括：

获取模块，用于获取源语音信息；

损失计算模块，用于对预处理后的语音信息进行连接时序分类损失计算，得到声学表征的对齐结果；

优化模块，用于对解码后的声学表征与解码后的文本语义表征进行迭代训练，输出翻译结果。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。