CN115860015B - 一种基于翻译记忆的转写文本翻译方法和计算机设备 - Google Patents

一种基于翻译记忆的转写文本翻译方法和计算机设备 Download PDF

Info

Publication number
CN115860015B
CN115860015B CN202211705723.2A CN202211705723A CN115860015B CN 115860015 B CN115860015 B CN 115860015B CN 202211705723 A CN202211705723 A CN 202211705723A CN 115860015 B CN115860015 B CN 115860015B
Authority
CN
China
Prior art keywords
translation
text
memory
source language
language text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211705723.2A
Other languages
English (en)
Other versions
CN115860015A (zh
Inventor
杨群领
冯少辉
李鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Iplus Teck Co ltd
Original Assignee
Beijing Iplus Teck Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Iplus Teck Co ltd filed Critical Beijing Iplus Teck Co ltd
Priority to CN202211705723.2A priority Critical patent/CN115860015B/zh
Publication of CN115860015A publication Critical patent/CN115860015A/zh
Application granted granted Critical
Publication of CN115860015B publication Critical patent/CN115860015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种基于翻译记忆的转写文本翻译方法和计算机设备,属于自然语言处理技术领域;本发明的翻译方法包括以下步骤:获取翻译语料库,基于翻译语料库构建得到训练数据集;训练数据集中的数据样本包括:源语言文本xd、源语言文本xd对应的翻译记忆源语言文本xtm和翻译记忆目标语言文本ytm,以及翻译记忆编码m;构建基于翻译记忆的初始文本翻译模型,利用训练数据集对初始文本翻译模型进行训练,通过损失函数迭代更新,得到文本翻译模型;将待翻译的转写文本输入文本翻译模型,利用文本翻译模型翻译得到目标语言文本。解决了现有技术中文本翻译方法对于句子短、用词随意、存在语法错误等问题的语音转写文本的翻译效果不理想的问题。

Description

一种基于翻译记忆的转写文本翻译方法和计算机设备
技术领域
本发明涉及语音识别技术领域,特别涉及一种基于翻译记忆的转写文本翻译方法和计算机设备。
背景技术
在不同语言的使用者面对面交流场景下,通常需要进行语音翻译。目前直接进行语音翻译的技术还不成熟,因此一般的做法是先将待翻译语音转为文字再进行文本翻译,该方法技术成熟,稳定性强,广泛应用于跨国会议、实时视频流添加字幕等场景。
目前,主流的转写文本翻译方法是将翻译看作序列标注问题,准备大量源语言-目标语言平行句对作为训练数据集;针对领域特点构建特定的神经网络结构,使用平行句对数据集进行训练,得到翻译模型;利用翻译模型实现转写文本翻译。
当前转写文本翻译方法存在的不足主要在于:转写出的文本由于是对话内容,往往存在句子较短、用词较随意、存在语法错误等现象,在这种情况下,如果直接使用通用翻译模型进行翻译,翻译效果不理想;如果针对对话数据重新构造数据集,则由于当前机器翻译需要千万级别的平行句对才能完成训练,构造成本过高,获取困难,导致当前转写文本翻译方法效果不够理想。
发明内容
鉴于上述的分析,本发明旨在提供一种基于翻译记忆的转写文本翻译方法和计算机设备;解决了现有技术中的文本翻译方法对于句子较短、用词较随意、存在语法错误等问题语音转写文本的翻译效果不理想的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,本发明公开了一种基于翻译记忆的转写文本翻译方法,包括以下步骤:
获取翻译语料库,基于所述翻译语料库构建得到训练数据集;所述训练数据集中的数据样本包括:源语言文本xd、所述源语言文本xd对应的翻译记忆源语言文本xtm和翻译记忆目标语言文本ytm,以及翻译记忆编码m;所述翻译记忆编码m通过对所述翻译记忆目标语言文本ytm进行词嵌入和位置嵌入得到;
构建基于翻译记忆的初始文本翻译模型,利用所述训练数据集对初始文本翻译模型进行训练,通过损失函数迭代更新,得到文本翻译模型;
将待翻译的转写文本输入所述文本翻译模型,利用所述文本翻译模型翻译得到目标语言文本。
进一步的,所述翻译语料库包括通用平行语料库D和翻译记忆库TM;所述通用平行语料库D中包括源语言文本xd和源语言文本xd对应的目标语言平行文本yd;所述翻译记忆库TM中包括翻译记忆源语言文本和对应的经过专业翻译的翻译记忆目标语言文本;基于所述翻译语料库构建得到训练数据集,包括:
计算所述源语言文本xd与所述翻译记忆库中每个翻译记忆源语言文本的相似度;得到所述翻译记忆库中与源语言文本xd相似度最高的语料对,所述语料对包括翻译记忆源语言文本xtm和对应的翻译目标语言文本ytm
对相似度最高的语料对中的目标语言文本ytm进行词嵌入和位置嵌入,得到所述翻译记忆编码m。
进一步的,通过下述公式计算所述源语言文本xd与翻译记忆源语言文本xtm的相似度:
Figure BDA0004026351280000031
其中,sim(xd,xtm)为源语言文本xd与翻译记忆源语言文本xtm的相似度;dist(xd,xtm)为源语言文本xd与翻译记忆源语言文本xtm的编辑距离;|xd|为源语言文本xd的长度,|xtm|为翻译记忆源语言文本xtm的长度。
进一步的,通过下述公式对目标语言文本ytm进行词嵌入和位置嵌入,得到翻译记忆编码m:
Figure BDA0004026351280000032
其中,Ew和Ep分别表示目标语言文本ytm的词嵌入和位置嵌入,J是ytm的长度,
Figure BDA0004026351280000033
表示目标语言文本ytm中的第j个单词,j∈{1,2,3…J}。
进一步的,所述初始文本翻译模型基于Transformer结构构建得到,包括:编码器和解码器;
所述编码器用于对输入的源语言转写文本进行特征提取,得到编码器隐向量;
所述解码器用于接收所述编码器隐向量和翻译记忆编码m,通过注意力计算,得到目标语言文本单词概率分布。
进一步的,所述解码器包括依次连接的输入层、第一多头注意力层、第二多头注意力层、前馈神经网络和线性层;
所述第二多头注意力层为encode-decoder注意力层;
所述第一多头注意力层包括多头注意力模块MH_Att1和多头注意力模块MH_Att2;其中,
多头注意力模块MH_Att1的Query,Key和Value均基于前缀翻译结果y<i得到;
多头注意力模块MH_Att2的Query基于前缀翻译结果y<i得到,其Key和Value基于翻译记忆编码m得到。
进一步的,所述第二多头注意力层为encode-decoder注意力层;其Query基于所述第一多头注意力层的输出得到,其Key和Value基于编码器隐向量得到。
进一步的,利用下述公式得到目标语言文本单词的概率分布:
Figure BDA0004026351280000041
其中,θ为文本翻译模型的超参数;i为输出的目标语言单词索引,yi为预测得到的第i个目标语言单词,y<i为前缀翻译结果。
进一步的,所述损失函数的公式为:
Figure BDA0004026351280000042
其中,其中,N表示源语言文本xd的总数量,
Figure BDA0004026351280000043
为通用平行语料中第t个源语言文本,/>
Figure BDA0004026351280000044
为通用平行语料中第t个目标语言文本,/>
Figure BDA0004026351280000045
为根据与/>
Figure BDA0004026351280000046
的相似度从翻译记忆库TM中检索到的源句子,/>
Figure BDA0004026351280000047
为翻译记忆库TM中与/>
Figure BDA0004026351280000048
对应的翻译目标语言文本,θ为模型超参数。
另一方面,还提供一种计算机设备,该设备包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的基于翻译记忆的转写文本翻译方法。
本发明至少可实现以下有益效果之一:
本发明引入翻译记忆库,将对话数据专家翻译知识引入模型训练,在训练过程中采用多个多头注意力模型对翻译记忆编码进行融合,大大提高了模型在面对对话数据时的翻译效果。使用翻译记忆技术提高在面对句子较短、用词较随意、存在语法错误等现象的情况下的翻译效果,解决了传统转写文本翻译方法识别对话数据效果差的问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例的基于翻译记忆的转写文本翻译方法的流程图。
图2为本发明实施例的基于翻译记忆的文本翻译模型结构图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本实施例中的一种基于自监督学习的语音情感识别方法,如图1所示,包括以下步骤:
步骤S1、获取翻译语料库,基于所述翻译语料库构建得到训练数据集;
具体的,翻译语料库包括通用平行语料库D和翻译记忆库TM;其中,通用平行语料库D为大量源语言文本和目标语言平行句构成的语料库,本实施例采用的平行语料库D中包括千万数量级的平行语料,其中包括源语言文本xd和源语言文本xd对应的目标语言平行文本yd;翻译记忆库TM为经过专业翻译人员翻译的语料数据,即,翻译记忆库TM中包括翻译记忆源语言文本和对应的经过专业翻译的翻译记忆目标语言文本。特殊的,在构建通用平行语料库D和翻译记忆库TM时尽量保证两个语料库的领域方向相同或相似,以保证平行语料库D和翻译记忆库TM中存在相似的句对。
优选的,基于翻译语料库构建得到训练数据集,包括:
计算源语言文本xd与翻译记忆库中每个翻译记忆源语言文本的相似度;得到翻译记忆库中与源语言文本xd相似度最高的语料对,所述语料对包括翻译记忆源语言文本xtm和对应的翻译记忆目标语言文本ytm
对相似度最高的语料对中的目标语言文本ytm进行词嵌入和位置嵌入,得到翻译记忆编码m。
构建得到的训练数据集中的数据样本包括:源语言文本xd、源语言文本xd对应的翻译记忆源语言文本xtm和翻译记忆目标语言文本ytm,以及翻译记忆编码m。
特殊的,对于平行语料库D中的每个源语言文本xd,按照句子相似度从翻译记忆库TM中检索对应的相似度最高的语料对,句子相似度计算方法如下:
Figure BDA0004026351280000061
其中,sim(xd,xtm)为源语言文本xd与翻译记忆源语言文本xtm的相似度;dist(xd,xtm)为源语言文本xd与翻译记忆源语言文本xtm的编辑距离;|xd|为源语言文本xd的长度,|xtm|为翻译记忆源语言文本xtm的长度。
进一步的,为了使翻译记忆内容参与到神经网络计算中,利用翻译记忆目标语言文本ytm的词嵌入和位置嵌入来将ytm编码为翻译记忆编码m,方法如下:
Figure BDA0004026351280000071
其中,Ew和Ep分别表示词嵌入和位置嵌入,J是ytm的长度,
Figure BDA0004026351280000072
表示目标语言文本ytm中的第j个单词,j∈{1,2,3…J}。
步骤S2:构建基于翻译记忆的初始文本翻译模型,利用训练数据集对初始文本翻译模型进行训练,通过损失函数迭代更新,得到文本翻译模型。
具体的,本实施例的初始文本翻译模型基于Transformer结构构建得到,包括:编码器和解码器;
编码器用于对输入的源语言转写文本进行特征提取,得到编码器隐向量;
解码器用于接收编码器隐向量和翻译记忆编码m,通过注意力计算,得到目标语言文本单词概率分布。
优选的,本实施例的基于翻译记忆的文本翻译模型在原生transformer的基础上进行改进,模型结构如图2所示,其中编码器采用Transformer解码器相同的结构;
解码器包括依次连接的输入层、第一多头注意力层、第二多头注意力层、前馈神经网络和线性层;其中第一多头注意力层包括多头注意力模块MH_Att1和多头注意力模块MH_Att2;具体的,多头注意力模块MH_Att1的Query,Key和Value均基于前缀翻译结果y<i得到;多头注意力模块MH_Att2的Query基于前缀翻译结果y<i得到,其Key和Value基于翻译记忆编码m得到;第二多头注意力层为encode-decoder多头注意力层,其Query基于第一多头注意力层的输出得到,其Key和Value基于编码器隐向量得到。
需要说明的是,本发明针对语音转写文本的特点,为了提高翻译的准确性,在解码器部分引入了翻译记忆编码m和对应的多头注意力结构MH_Att2。即,解码器的第一多头注意力层包括两个多头注意算子MH_Att1和MH_Att2,其中,MH_Att1与Transformer的多头注意力算子相同,基于前缀翻译结果y<i定义;MH_Att2从翻译记忆库中捕获信息,其查询(即Query)来自前缀翻译结果y<i,键(即Key)和值(即Value)来自翻译记忆编码m。多头注意算子MH_Att1和MH_Att2为并行计算方式,将两个多头注意力算子输出的结果序列输入求和与正则化算子,获得新序列后作为第二多头注意力(即encode-decoder注意力层)的查询。
从而,在给定源语言文本xd、源语言文本xd对应的翻译记忆编码m以及时间步i时的前缀翻译结果y<i时,其输出单词的概率分布可以表示为:
P(y|x,xtm,ytm;θ)=∏iP(yi|x,y<i,m);
其中,θ为文本翻译模型的超参数;i为输出的目标语言单词索引,yi为预测得到的第i个目标语言单词,y<i为前缀翻译结果。
进一步的,使用构建好的训练数据集对初始文本翻译模型进行训练,使用最大似然估计法计算训练损失,如下所示:
Figure BDA0004026351280000081
其中,N表示源语言文本xd的总数量,
Figure BDA0004026351280000082
为通用平行语料D中第t个源语言文本,/>
Figure BDA0004026351280000083
为通用平行语料D中/>
Figure BDA0004026351280000084
对应的目标语言文本,/>
Figure BDA0004026351280000085
为根据与/>
Figure BDA0004026351280000086
的相似度从翻译记忆库TM中检索到的源句子,/>
Figure BDA0004026351280000087
为翻译记忆库TM中与/>
Figure BDA0004026351280000088
对应的翻译目标语言文本,θ为模型超参数。
在训练过程中采用Adam优化方法逐步降低训练损失L,获得收敛的文本翻译模型。
步骤S3:将待翻译的转写文本输入文本翻译模型,利用文本翻译模型翻译得到目标语言文本。
具体的,将经过语音识别得到的源语言语音转写文本送入训练好的文本翻译模型,模型会根据文本特征自动生成目标语言的翻译文本。
综上所述,本发明提出的一种基于翻译记忆的转写文本翻译方法,引入翻译记忆技术,使用专业翻译人员的翻译记忆文本作为已有专家知识的训练样本,在训练过程中通过在翻译记忆样本中搜索与待翻译文本相同或相似的记录来获取对应的翻译结果,从而避免重复翻译并且提高翻译质量。本方法针对传统转写文本翻译方法面对句子较短、用词较随意、存在语法错误等现象的情况下翻译效果不理想的情况进行了改进,使用翻译记忆技术将对话数据专家翻译知识引入模型训练,大大提高了模型在面对对话数据时的翻译效果,解决了传统转写文本翻译方法识别对话数据效果差的问题。
本发明的另一个实施例,提供了一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;存储器存储有可被处理器执行的指令,所述指令用于被处理器执行以实现前述实施例的基于翻译记忆的转写文本翻译方法。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种基于翻译记忆的转写文本翻译方法,其特征在于,包括以下步骤:
获取翻译语料库,基于所述翻译语料库构建得到训练数据集;所述训练数据集中的数据样本包括:源语言文本xd、所述源语言文本xd对应的翻译记忆源语言文本xtm和翻译记忆目标语言文本ytm,以及翻译记忆编码m;所述翻译记忆编码m通过对所述翻译记忆目标语言文本ytm进行词嵌入和位置嵌入得到;所述翻译语料库包括通用平行语料库D和翻译记忆库TM;所述通用平行语料库D中包括源语言文本xd和源语言文本xd对应的目标语言平行文本yd;所述翻译记忆库TM中包括翻译记忆源语言文本和对应的经过专业翻译的翻译记忆目标语言文本;基于所述翻译语料库构建得到训练数据集,包括:计算所述源语言文本xd与所述翻译记忆库中每个翻译记忆源语言文本的相似度;得到所述翻译记忆库中与源语言文本xd相似度最高的语料对,所述语料对包括翻译记忆源语言文本xtm和对应的翻译目标语言文本ytm;对相似度最高的语料对中的目标语言文本ytm进行词嵌入和位置嵌入,得到所述翻译记忆编码m;
构建基于翻译记忆的初始文本翻译模型,利用所述训练数据集对初始文本翻译模型进行训练,通过损失函数迭代更新,得到文本翻译模型;
将待翻译的转写文本输入所述文本翻译模型,利用所述文本翻译模型翻译得到目标语言文本。
2.根据权利要求1所述的基于翻译记忆的转写文本翻译方法,其特征在于,通过下述公式计算所述源语言文本xd与翻译记忆源语言文本xtm的相似度:
Figure FDA0004231247860000011
其中,sim(xd,xtm)为源语言文本xd与翻译记忆源语言文本xtm的相似度;dist(xd,xtm)为源语言文本xd与翻译记忆源语言文本xtm的编辑距离;|xd|为源语言文本xd的长度,|xtm|为翻译记忆源语言文本xtm的长度。
3.根据权利要求1所述的基于翻译记忆的转写文本翻译方法,其特征在于,通过下述公式对目标语言文本ytm进行词嵌入和位置嵌入,得到翻译记忆编码m:
Figure FDA0004231247860000021
其中,Ew和Ep分别表示目标语言文本ytm的词嵌入和位置嵌入,J是ytm的长度,
Figure FDA0004231247860000022
表示目标语言文本ytm中的第j个单词,j∈{1,2,3…J}。
4.根据权利要求1所述的基于翻译记忆的转写文本翻译方法,其特征在于,所述初始文本翻译模型基于Transformer结构构建得到,包括:编码器和解码器;
所述编码器用于对输入的源语言转写文本进行特征提取,得到编码器隐向量;
所述解码器用于接收所述编码器隐向量和翻译记忆编码m,通过注意力计算,得到目标语言文本单词概率分布。
5.根据权利要求4所述的基于翻译记忆的转写文本翻译方法,其特征在于,所述解码器包括依次连接的输入层、第一多头注意力层、第二多头注意力层、前馈神经网络和线性层;
所述第二多头注意力层为encode-decoder注意力层;
所述第一多头注意力层包括多头注意力模块MH_Att1和多头注意力模块MH_Att2;其中,
多头注意力模块MH_Att1的Query,Key和Value均基于前缀翻译结果y<i得到;
多头注意力模块MH_Att2的Query基于前缀翻译结果y<i得到,其Key和Value基于翻译记忆编码m得到。
6.根据权利要求5所述的基于翻译记忆的转写文本翻译方法,其特征在于,所述第二多头注意力层为encode-decoder注意力层;其Query基于所述第一多头注意力层的输出得到,其Key和Value基于编码器隐向量得到。
7.根据权利要求4所述的基于翻译记忆的转写文本翻译方法,其特征在于,利用下述公式得到目标语言文本单词的概率分布:
Figure FDA0004231247860000031
其中,θ为文本翻译模型的超参数;i为输出的目标语言单词索引,yi为预测得到的第i个目标语言单词,y<i为前缀翻译结果。
8.根据权利要求1所述的基于翻译记忆的转写文本翻译方法,其特征在于,所述损失函数的公式为:
Figure FDA0004231247860000032
其中,N表示源语言文本xd的总数量,
Figure FDA0004231247860000033
为通用平行语料D中第t个源语言文本,/>
Figure FDA0004231247860000034
为通用平行语料D中/>
Figure FDA0004231247860000035
对应的目标语言文本,/>
Figure FDA0004231247860000036
为根据与/>
Figure FDA0004231247860000037
的相似度从翻译记忆库TM中检索到的源句子,/>
Figure FDA0004231247860000038
为翻译记忆库TM中与/>
Figure FDA0004231247860000039
对应的翻译目标语言文本,θ为模型超参数。
9.一种计算机设备,其特征在于,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-8任一项所述的基于翻译记忆的转写文本翻译方法。
CN202211705723.2A 2022-12-29 2022-12-29 一种基于翻译记忆的转写文本翻译方法和计算机设备 Active CN115860015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211705723.2A CN115860015B (zh) 2022-12-29 2022-12-29 一种基于翻译记忆的转写文本翻译方法和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211705723.2A CN115860015B (zh) 2022-12-29 2022-12-29 一种基于翻译记忆的转写文本翻译方法和计算机设备

Publications (2)

Publication Number Publication Date
CN115860015A CN115860015A (zh) 2023-03-28
CN115860015B true CN115860015B (zh) 2023-06-20

Family

ID=85655808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211705723.2A Active CN115860015B (zh) 2022-12-29 2022-12-29 一种基于翻译记忆的转写文本翻译方法和计算机设备

Country Status (1)

Country Link
CN (1) CN115860015B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992894B (zh) * 2023-09-26 2024-01-16 北京澜舟科技有限公司 一种机器翻译模型的训练方法和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818712A (zh) * 2021-02-23 2021-05-18 语联网(武汉)信息技术有限公司 基于翻译记忆库的机器翻译方法及装置
CN114429144A (zh) * 2021-12-28 2022-05-03 华东师范大学 一种运用辅助记忆的多样性机器翻译方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244519B2 (en) * 2008-12-03 2012-08-14 Xerox Corporation Dynamic translation memory using statistical machine translation
CN107220243A (zh) * 2017-05-31 2017-09-29 陈振 一种数据库交互式翻译系统
CN113591491B (zh) * 2020-04-30 2023-12-26 阿里巴巴集团控股有限公司 语音翻译文本校正系统、方法、装置及设备
CN114021585A (zh) * 2021-11-03 2022-02-08 北京中科凡语科技有限公司 语音机器翻译模型的构建方法及语音机器翻译装置
CN114757210A (zh) * 2022-03-08 2022-07-15 腾讯科技(深圳)有限公司 翻译模型的训练方法、语句翻译方法、装置、设备、程序
CN115017923A (zh) * 2022-05-30 2022-09-06 华东师范大学 基于Transformer的翻译模型的专业术语词汇对齐替换方法
CN115099244A (zh) * 2022-06-20 2022-09-23 阳光保险集团股份有限公司 一种语音翻译的方法、训练语音翻译模型的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818712A (zh) * 2021-02-23 2021-05-18 语联网(武汉)信息技术有限公司 基于翻译记忆库的机器翻译方法及装置
CN114429144A (zh) * 2021-12-28 2022-05-03 华东师范大学 一种运用辅助记忆的多样性机器翻译方法

Also Published As

Publication number Publication date
CN115860015A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN112347796B (zh) 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN111723587A (zh) 一种面向跨语言知识图谱的汉泰实体对齐方法
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN115293138A (zh) 一种文本纠错方法及计算机设备
CN115293139A (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
CN114937465A (zh) 一种基于自监督学习的语音情感识别方法和计算机设备
Sun Analysis of Chinese machine translation training based on deep learning technology
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN116029300A (zh) 一种强化中文实体语义特征的语言模型训练方法和系统
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
Singh et al. An Integrated Model for Text to Text, Image to Text and Audio to Text Linguistic Conversion using Machine Learning Approach
CN114168720A (zh) 一种基于深度学习的自然语言数据查询方法和存储设备
CN114139561A (zh) 一种多领域神经机器翻译性能提升方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
Dai et al. Automatic Prosody Annotation with Pre-Trained Text-Speech Model
CN112925961A (zh) 一种基于企业实体的智能问答方法及装置
Ma et al. An enhanced method for dialect transcription via error‐correcting thesaurus
CN115688904B (zh) 一种基于名词译文提示的翻译模型构建方法
CN115048924B (zh) 基于否定前后缀信息的否定句识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant