CN115860015B

CN115860015B - 一种基于翻译记忆的转写文本翻译方法和计算机设备

Info

Publication number: CN115860015B
Application number: CN202211705723.2A
Authority: CN
Inventors: 杨群领; 冯少辉; 李鹏
Original assignee: Beijing Iplus Teck Co ltd
Current assignee: Beijing Iplus Teck Co ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-06-20
Anticipated expiration: 2042-12-29
Also published as: CN115860015A

Abstract

本发明涉及一种基于翻译记忆的转写文本翻译方法和计算机设备，属于自然语言处理技术领域；本发明的翻译方法包括以下步骤：获取翻译语料库，基于翻译语料库构建得到训练数据集；训练数据集中的数据样本包括：源语言文本x_d、源语言文本x_d对应的翻译记忆源语言文本x_tm和翻译记忆目标语言文本y_tm，以及翻译记忆编码m；构建基于翻译记忆的初始文本翻译模型，利用训练数据集对初始文本翻译模型进行训练，通过损失函数迭代更新，得到文本翻译模型；将待翻译的转写文本输入文本翻译模型，利用文本翻译模型翻译得到目标语言文本。解决了现有技术中文本翻译方法对于句子短、用词随意、存在语法错误等问题的语音转写文本的翻译效果不理想的问题。

Description

一种基于翻译记忆的转写文本翻译方法和计算机设备

技术领域

本发明涉及语音识别技术领域，特别涉及一种基于翻译记忆的转写文本翻译方法和计算机设备。

背景技术

在不同语言的使用者面对面交流场景下，通常需要进行语音翻译。目前直接进行语音翻译的技术还不成熟，因此一般的做法是先将待翻译语音转为文字再进行文本翻译，该方法技术成熟，稳定性强，广泛应用于跨国会议、实时视频流添加字幕等场景。

目前，主流的转写文本翻译方法是将翻译看作序列标注问题，准备大量源语言-目标语言平行句对作为训练数据集；针对领域特点构建特定的神经网络结构，使用平行句对数据集进行训练，得到翻译模型；利用翻译模型实现转写文本翻译。

当前转写文本翻译方法存在的不足主要在于：转写出的文本由于是对话内容，往往存在句子较短、用词较随意、存在语法错误等现象，在这种情况下，如果直接使用通用翻译模型进行翻译，翻译效果不理想；如果针对对话数据重新构造数据集，则由于当前机器翻译需要千万级别的平行句对才能完成训练，构造成本过高，获取困难，导致当前转写文本翻译方法效果不够理想。

发明内容

鉴于上述的分析，本发明旨在提供一种基于翻译记忆的转写文本翻译方法和计算机设备；解决了现有技术中的文本翻译方法对于句子较短、用词较随意、存在语法错误等问题语音转写文本的翻译效果不理想的问题。

本发明的目的主要是通过以下技术方案实现的：

一方面，本发明公开了一种基于翻译记忆的转写文本翻译方法，包括以下步骤：

获取翻译语料库，基于所述翻译语料库构建得到训练数据集；所述训练数据集中的数据样本包括：源语言文本x_d、所述源语言文本x_d对应的翻译记忆源语言文本x_tm和翻译记忆目标语言文本y_tm，以及翻译记忆编码m；所述翻译记忆编码m通过对所述翻译记忆目标语言文本y_tm进行词嵌入和位置嵌入得到；

构建基于翻译记忆的初始文本翻译模型，利用所述训练数据集对初始文本翻译模型进行训练，通过损失函数迭代更新，得到文本翻译模型；

将待翻译的转写文本输入所述文本翻译模型，利用所述文本翻译模型翻译得到目标语言文本。

进一步的，所述翻译语料库包括通用平行语料库D和翻译记忆库TM；所述通用平行语料库D中包括源语言文本x_d和源语言文本x_d对应的目标语言平行文本y_d；所述翻译记忆库TM中包括翻译记忆源语言文本和对应的经过专业翻译的翻译记忆目标语言文本；基于所述翻译语料库构建得到训练数据集，包括：

计算所述源语言文本x_d与所述翻译记忆库中每个翻译记忆源语言文本的相似度；得到所述翻译记忆库中与源语言文本x_d相似度最高的语料对，所述语料对包括翻译记忆源语言文本x_tm和对应的翻译目标语言文本y_tm；

对相似度最高的语料对中的目标语言文本y_tm进行词嵌入和位置嵌入，得到所述翻译记忆编码m。

进一步的，通过下述公式计算所述源语言文本x_d与翻译记忆源语言文本x_tm的相似度：

其中，sim(x_d,x_tm)为源语言文本x_d与翻译记忆源语言文本x_tm的相似度；dist(x_d,x_tm)为源语言文本x_d与翻译记忆源语言文本x_tm的编辑距离；|x_d|为源语言文本x_d的长度，|x_tm|为翻译记忆源语言文本x_tm的长度。

进一步的，通过下述公式对目标语言文本y_tm进行词嵌入和位置嵌入，得到翻译记忆编码m：

其中，E_w和E_p分别表示目标语言文本y_tm的词嵌入和位置嵌入，J是y_tm的长度，

表示目标语言文本y_tm中的第j个单词，j∈{1,2,3…J}。

进一步的，所述初始文本翻译模型基于Transformer结构构建得到，包括：编码器和解码器；

所述编码器用于对输入的源语言转写文本进行特征提取，得到编码器隐向量；

所述解码器用于接收所述编码器隐向量和翻译记忆编码m，通过注意力计算，得到目标语言文本单词概率分布。

进一步的，所述解码器包括依次连接的输入层、第一多头注意力层、第二多头注意力层、前馈神经网络和线性层；

所述第二多头注意力层为encode-decoder注意力层；

所述第一多头注意力层包括多头注意力模块MH_Att1和多头注意力模块MH_Att2；其中，

多头注意力模块MH_Att1的Query，Key和Value均基于前缀翻译结果y_<i得到；

多头注意力模块MH_Att2的Query基于前缀翻译结果y_<i得到，其Key和Value基于翻译记忆编码m得到。

进一步的，所述第二多头注意力层为encode-decoder注意力层；其Query基于所述第一多头注意力层的输出得到，其Key和Value基于编码器隐向量得到。

进一步的，利用下述公式得到目标语言文本单词的概率分布：

其中，θ为文本翻译模型的超参数；i为输出的目标语言单词索引，y_i为预测得到的第i个目标语言单词，y_<i为前缀翻译结果。

进一步的，所述损失函数的公式为：

其中，其中，N表示源语言文本x_d的总数量，

为通用平行语料中第t个源语言文本,/>

为通用平行语料中第t个目标语言文本，/>

为根据与/>

的相似度从翻译记忆库TM中检索到的源句子，/>

为翻译记忆库TM中与/>

对应的翻译目标语言文本，θ为模型超参数。

另一方面，还提供一种计算机设备，该设备包括至少一个处理器，以及至少一个与所述处理器通信连接的存储器；

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现前述的基于翻译记忆的转写文本翻译方法。

本发明至少可实现以下有益效果之一：

本发明引入翻译记忆库，将对话数据专家翻译知识引入模型训练，在训练过程中采用多个多头注意力模型对翻译记忆编码进行融合，大大提高了模型在面对对话数据时的翻译效果。使用翻译记忆技术提高在面对句子较短、用词较随意、存在语法错误等现象的情况下的翻译效果，解决了传统转写文本翻译方法识别对话数据效果差的问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例的基于翻译记忆的转写文本翻译方法的流程图。

图2为本发明实施例的基于翻译记忆的文本翻译模型结构图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本实施例中的一种基于自监督学习的语音情感识别方法，如图1所示，包括以下步骤：

步骤S1、获取翻译语料库，基于所述翻译语料库构建得到训练数据集；

具体的，翻译语料库包括通用平行语料库D和翻译记忆库TM；其中，通用平行语料库D为大量源语言文本和目标语言平行句构成的语料库，本实施例采用的平行语料库D中包括千万数量级的平行语料，其中包括源语言文本x_d和源语言文本x_d对应的目标语言平行文本y_d；翻译记忆库TM为经过专业翻译人员翻译的语料数据，即，翻译记忆库TM中包括翻译记忆源语言文本和对应的经过专业翻译的翻译记忆目标语言文本。特殊的，在构建通用平行语料库D和翻译记忆库TM时尽量保证两个语料库的领域方向相同或相似，以保证平行语料库D和翻译记忆库TM中存在相似的句对。

优选的，基于翻译语料库构建得到训练数据集，包括：

计算源语言文本x_d与翻译记忆库中每个翻译记忆源语言文本的相似度；得到翻译记忆库中与源语言文本x_d相似度最高的语料对，所述语料对包括翻译记忆源语言文本x_tm和对应的翻译记忆目标语言文本y_tm；

对相似度最高的语料对中的目标语言文本y_tm进行词嵌入和位置嵌入，得到翻译记忆编码m。

构建得到的训练数据集中的数据样本包括：源语言文本x_d、源语言文本x_d对应的翻译记忆源语言文本x_tm和翻译记忆目标语言文本y_tm，以及翻译记忆编码m。

特殊的，对于平行语料库D中的每个源语言文本x_d，按照句子相似度从翻译记忆库TM中检索对应的相似度最高的语料对，句子相似度计算方法如下：

进一步的，为了使翻译记忆内容参与到神经网络计算中，利用翻译记忆目标语言文本y_tm的词嵌入和位置嵌入来将y_tm编码为翻译记忆编码m，方法如下：

其中，E_w和E_p分别表示词嵌入和位置嵌入，J是y_tm的长度，

表示目标语言文本y_tm中的第j个单词，j∈{1,2,3…J}。

步骤S2：构建基于翻译记忆的初始文本翻译模型，利用训练数据集对初始文本翻译模型进行训练，通过损失函数迭代更新，得到文本翻译模型。

具体的，本实施例的初始文本翻译模型基于Transformer结构构建得到，包括：编码器和解码器；

编码器用于对输入的源语言转写文本进行特征提取，得到编码器隐向量；

解码器用于接收编码器隐向量和翻译记忆编码m，通过注意力计算，得到目标语言文本单词概率分布。

优选的，本实施例的基于翻译记忆的文本翻译模型在原生transformer的基础上进行改进，模型结构如图2所示，其中编码器采用Transformer解码器相同的结构；

解码器包括依次连接的输入层、第一多头注意力层、第二多头注意力层、前馈神经网络和线性层；其中第一多头注意力层包括多头注意力模块MH_Att1和多头注意力模块MH_Att2；具体的，多头注意力模块MH_Att1的Query，Key和Value均基于前缀翻译结果y_<i得到；多头注意力模块MH_Att2的Query基于前缀翻译结果y_<i得到，其Key和Value基于翻译记忆编码m得到；第二多头注意力层为encode-decoder多头注意力层，其Query基于第一多头注意力层的输出得到，其Key和Value基于编码器隐向量得到。

需要说明的是，本发明针对语音转写文本的特点，为了提高翻译的准确性，在解码器部分引入了翻译记忆编码m和对应的多头注意力结构MH_Att2。即，解码器的第一多头注意力层包括两个多头注意算子MH_Att1和MH_Att2，其中，MH_Att1与Transformer的多头注意力算子相同，基于前缀翻译结果y_<i定义；MH_Att2从翻译记忆库中捕获信息，其查询(即Query)来自前缀翻译结果y_<i，键(即Key)和值(即Value)来自翻译记忆编码m。多头注意算子MH_Att1和MH_Att2为并行计算方式，将两个多头注意力算子输出的结果序列输入求和与正则化算子，获得新序列后作为第二多头注意力(即encode-decoder注意力层)的查询。

从而，在给定源语言文本x_d、源语言文本x_d对应的翻译记忆编码m以及时间步i时的前缀翻译结果y_<i时，其输出单词的概率分布可以表示为：

P(y|x,x_tm,y_tm；θ)＝∏_iP(y_i|x,y_<i,m)；

进一步的，使用构建好的训练数据集对初始文本翻译模型进行训练，使用最大似然估计法计算训练损失，如下所示：

其中，N表示源语言文本x_d的总数量，

为通用平行语料D中第t个源语言文本,/>

为通用平行语料D中/>

对应的目标语言文本，/>

为根据与/>

的相似度从翻译记忆库TM中检索到的源句子，/>

为翻译记忆库TM中与/>

对应的翻译目标语言文本，θ为模型超参数。

在训练过程中采用Adam优化方法逐步降低训练损失L，获得收敛的文本翻译模型。

步骤S3：将待翻译的转写文本输入文本翻译模型，利用文本翻译模型翻译得到目标语言文本。

具体的，将经过语音识别得到的源语言语音转写文本送入训练好的文本翻译模型，模型会根据文本特征自动生成目标语言的翻译文本。

综上所述，本发明提出的一种基于翻译记忆的转写文本翻译方法，引入翻译记忆技术，使用专业翻译人员的翻译记忆文本作为已有专家知识的训练样本，在训练过程中通过在翻译记忆样本中搜索与待翻译文本相同或相似的记录来获取对应的翻译结果，从而避免重复翻译并且提高翻译质量。本方法针对传统转写文本翻译方法面对句子较短、用词较随意、存在语法错误等现象的情况下翻译效果不理想的情况进行了改进，使用翻译记忆技术将对话数据专家翻译知识引入模型训练，大大提高了模型在面对对话数据时的翻译效果，解决了传统转写文本翻译方法识别对话数据效果差的问题。

本发明的另一个实施例，提供了一种计算机设备，包括至少一个处理器，以及至少一个与所述处理器通信连接的存储器；存储器存储有可被处理器执行的指令，所述指令用于被处理器执行以实现前述实施例的基于翻译记忆的转写文本翻译方法。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于翻译记忆的转写文本翻译方法，其特征在于，包括以下步骤：

获取翻译语料库，基于所述翻译语料库构建得到训练数据集；所述训练数据集中的数据样本包括：源语言文本x_d、所述源语言文本x_d对应的翻译记忆源语言文本x_tm和翻译记忆目标语言文本y_tm，以及翻译记忆编码m；所述翻译记忆编码m通过对所述翻译记忆目标语言文本y_tm进行词嵌入和位置嵌入得到；所述翻译语料库包括通用平行语料库D和翻译记忆库TM；所述通用平行语料库D中包括源语言文本x_d和源语言文本x_d对应的目标语言平行文本y_d；所述翻译记忆库TM中包括翻译记忆源语言文本和对应的经过专业翻译的翻译记忆目标语言文本；基于所述翻译语料库构建得到训练数据集，包括：计算所述源语言文本x_d与所述翻译记忆库中每个翻译记忆源语言文本的相似度；得到所述翻译记忆库中与源语言文本x_d相似度最高的语料对，所述语料对包括翻译记忆源语言文本x_tm和对应的翻译目标语言文本y_tm；对相似度最高的语料对中的目标语言文本y_tm进行词嵌入和位置嵌入，得到所述翻译记忆编码m；

2.根据权利要求1所述的基于翻译记忆的转写文本翻译方法，其特征在于，通过下述公式计算所述源语言文本x_d与翻译记忆源语言文本x_tm的相似度：