CN110210043B - 文本翻译方法、装置、电子设备及可读存储介质 - Google Patents
文本翻译方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN110210043B CN110210043B CN201910514220.9A CN201910514220A CN110210043B CN 110210043 B CN110210043 B CN 110210043B CN 201910514220 A CN201910514220 A CN 201910514220A CN 110210043 B CN110210043 B CN 110210043B
- Authority
- CN
- China
- Prior art keywords
- source language
- information
- phrase
- text
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 232
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000012549 training Methods 0.000 claims description 95
- 239000011159 matrix material Substances 0.000 claims description 88
- 230000015654 memory Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 35
- 230000000694 effects Effects 0.000 abstract description 11
- 239000013598 vector Substances 0.000 description 26
- 230000006870 function Effects 0.000 description 23
- 238000012545 processing Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 6
- 238000000926 separation method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种文本翻译方法、装置、电子设备及可读存储介质,方法包括:接收待翻译的源语言文本;将所述源语言文本输入到翻译模型中,由所述翻译模型根据多个双语短语对的信息,对所述源语言文本进行编码和解码,得到所述源语言文本对应的目标语言文本。该方法使得在翻译过程中源语言文本的语义信息得以保留,从而极大提升翻译效果。
Description
技术领域
本申请涉及计算机技术,尤其涉及一种文本翻译方法、装置、电子设备及可读存储介质。
背景技术
随着科技的发展以及全球化进程的推进,语言成为来自不同国家及地区的人与人之间交流的主要障碍。机器翻译致力于对不同语言进行互译,帮助人们理解不同的语言。机器翻译可以广泛应用于各个领域,比如翻译机、同声传译、辅助翻译等。基于神经网络的机器翻译,是一种重要的机器翻译技术,该技术相比传统的翻译技术,能够实现更好的翻译效果。而对于特定领域的低频词汇或者特定会议场景的专业词汇,基于神经网络的机器翻译技术仍然存在翻译效果达不到预期的问题。
现有技术中,可以使用特殊符号替换低频词汇的方法实现低频词汇的翻译。具体的,首先将源语言端的低频词汇替换为一个特殊符号,进而使用基于神经网络的机器翻译系统将替换后的句子翻译为目标语言,再将特殊符号替换为正常的目标端的低频词汇。
但是,现有技术的方法在翻译时可能损失较多的语义信息,进而影响翻译质量。
发明内容
本申请提供一种文本翻译方法、装置、电子设备及可读存储介质,所述技术方案如下。
本申请第一方面提供一种文本翻译方法,包括:
接收待翻译的源语言文本;
将所述源语言文本输入到翻译模型中,由所述翻译模型根据多个双语短语对的信息,对所述源语言文本进行编码和解码,得到所述源语言文本对应的目标语言文本。
进一步的,所述由所述翻译模型根据多个双语短语对的信息,对所述源语言文本进行编码和解码,包括:
由所述翻译模型根据多个双语短语对的编码信息,对所述源语言文本进行编码和解码,其中,所述双语短语对的编码信息包括源语言短语的编码信息和所述源语言短语对应的目标语言短语的编码信息。
进一步的,所述由所述翻译模型根据多个双语短语对的编码信息,对所述源语言文本进行编码和解码,包括:
根据所述源语言文本中每个源语言词语的初始编码信息、所述源语言短语的编码信息以及所述目标语言短语的编码信息,确定每个所述源语言词语的目标编码信息,其中,所述初始编码信息通过对所述源语言文本进行编码得到;
对每个源语言词语的所述目标编码信息进行解码处理,得到所述源语言文本对应的目标语言文本。
进一步的,所述确定每个所述源语言词语的目标编码信息,包括:
根据所述每个源语言词语的初始编码信息与所述源语言短语的编码信息的相似度,确定所述源语言短语对应的目标语言短语的编码信息的权重;
根据所述源语言短语对应的目标语言短语的编码信息的权重、所述目标语言短语的编码信息以及所述初始编码信息,得到所述每个源语言词语的目标编码信息。
进一步的,所述将所述源语言文本输入到翻译模型之前,还包括:
根据所述双语短语对的信息,对所述翻译模型进行训练,得到所述翻译模型的训练结果,所述训练结果包括所述翻译模型的损失信息,其中,所述翻译模型的损失信息根据所述多个双语短语对的信息得到;
根据所述损失信息,修正所述翻译模型。
进一步的,所述源语言短语的编码信息通过源编码矩阵表示,所述目标语言短语的编码信息通过目标编码矩阵表示;
所述源编码矩阵中包括所述源语言短语的编码信息,所述目标编码矩阵中包括所述目标语言短语的编码信息。
进一步的,所述根据所述双语短语对的编码信息,对所述翻译模型进行训练,包括:
将源语言训练文本输入所述翻译模型,由所述翻译模型对所述源语言训练文本进行编码,得到所述源语言训练文本中每个源语言词语的编码信息;
根据所述每个源语言词语的编码信息以及所述双语短语对的编码信息,确定所述翻译模型的损失信息。
进一步的,所述确定所述翻译模型的损失信息,包括:
根据所述源语言训练文本中每个源语言词语在所述源编码矩阵中对应的目标位置,确定每个源语言词语的损失权重信息;
根据每个源语言词语的损失权重信息,确定所述翻译模型的损失信息。
进一步的,所述确定每个源语言词语的损失权重信息,包括:
根据每个源语言词语在所述源编码矩阵中对应的目标位置,得到每个源语言词语在所述目标位置上的编码信息;
确定每个源语言词语的编码信息与所述目标位置上的编码信息的相似度;
根据每个源语言词语的编码信息与所述目标位置上的编码信息的相似度,确定每个源语言词语的损失权重信息。
进一步的,所述确定每个源语言词语的损失权重信息之前,还包括:
根据所述源语言训练文本以及从所述源语言训练文本中提取出的源语言短语的文本信息,确定所述源语言训练文本中每个源语言词语在所述源编码矩阵中的目标位置。
本申请第二方面提供一种文本翻译装置,包括:
接收模块,用于接收待翻译的源语言文本;
翻译模块,用于将所述源语言文本输入到翻译模型中,由所述翻译模型根据多个双语短语对的信息,对所述源语言文本进行编码和解码,得到所述源语言文本对应的目标语言文本。
进一步的,所述翻译模块,具体用于:
由所述翻译模型根据多个双语短语对的编码信息,对所述源语言文本进行编码和解码,其中,所述双语短语对的编码信息包括源语言短语的编码信息和所述源语言短语对应的目标语言短语的编码信息。
进一步的,所述翻译模块,包括:
编码单元,用于根据所述源语言文本中每个源语言词语的初始编码信息、所述源语言短语的编码信息以及所述目标语言短语的编码信息,确定每个所述源语言词语的目标编码信息,其中,所述初始编码信息通过对所述源语言文本进行编码得到;
解码单元,用于对每个源语言词语的所述目标编码信息进行解码处理,得到所述源语言文本对应的目标语言文本。
进一步的,所述编码单元,具体用于:
根据所述每个源语言词语的初始编码信息与所述源语言短语的编码信息的相似度,确定所述源语言短语对应的目标语言短语的编码信息的权重;
根据所述源语言短语对应的目标语言短语的编码信息的权重、所述目标语言短语的编码信息以及所述初始编码信息,得到所述每个源语言词语的目标编码信息。
进一步的,所述装置还包括:
训练模块,用于根据所述双语短语对的信息,对所述翻译模型进行训练,得到所述翻译模型的训练结果,所述训练结果包括所述翻译模型的损失信息,其中,所述翻译模型的损失信息根据所述多个双语短语对的信息得到;
修正模块,用于根据所述损失信息,修正所述翻译模型。
进一步的,所述源语言短语的编码信息通过源编码矩阵表示,所述目标语言短语的编码信息通过目标编码矩阵表示;
所述源编码矩阵中包括所述源语言短语的编码信息,所述目标编码矩阵中包括所述目标语言短语的编码信息。
进一步的,所述训练模块,包括:
编码单元,用于将源语言训练文本输入所述翻译模型,由所述翻译模型对所述源语言训练文本进行编码,得到所述源语言训练文本中每个源语言词语的编码信息;
第一确定单元,用于根据所述每个源语言词语的编码信息以及所述双语短语对的编码信息,确定所述翻译模型的损失信息。
进一步的,所述第一确定单元,具体用于:
根据所述源语言训练文本中每个源语言词语在所述源编码矩阵中对应的目标位置,确定每个源语言词语的损失权重信息;
根据每个源语言词语的损失权重信息,确定所述翻译模型的损失信息。
进一步的,所述第一确定单元,具体用于:
根据每个源语言词语在所述源编码矩阵中对应的目标位置,得到每个源语言词语在所述目标位置上的编码信息;
确定每个源语言词语的编码信息与所述目标位置上的编码信息的相似度;
根据每个源语言词语的编码信息与所述目标位置上的编码信息的相似度,确定每个源语言词语的损失权重信息。
进一步的,所述训练模块还包括:
第二确定单元,用于根据所述源语言训练文本以及从所述源语言训练文本中提取出的源语言短语的文本信息,确定所述源语言训练文本中每个源语言词语在所述源编码矩阵中的目标位置。
本申请第三方面提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行上述第一方面所述的方法步骤。
本申请第四方面提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行上述第一方面所述的方法。
本申请所提供的文本翻译方法、装置、电子设备及可读存储介质,翻译模型根据双语短语对的信息对源语言文本进行编码和解码,从而得到源语言文本对应的目标语言文本。由于在源语言文本的编码和解码过程中使用了双语短语对的信息,使得在翻译过程中源语言文本的语义信息得以保留,从而极大提升翻译效果。尤其是当源语言文本中包括较多低频词语时,翻译效果相对于现有技术的提升尤为明显。另外,本申请具有较高的时效性,可以同时保存多个双语短语对的信息,在不增加解码路径的前提下,可以显著提升翻译结果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的文本翻译方法的流程示意图;
图2为对双语短语对进行编码的流程示意图;
图3为本申请实施例提供的文本翻译方法的流程示意图;
图4为编码器、解码器以及用于存储双语短语对的信息的存储单元的架构示意图;
图5为本申请实施例提供的文本翻译方法的流程示意图;
图6为本申请实施例提供的文本翻译方法的流程示意图;
图7为本申请实施例提供的文本翻译方法的流程示意图;
图8为本申请实施例提供的文本翻译方法的流程示意图;
图9为本申请实施例提供的一种文本翻译装置的模块结构图;
图10为本申请实施例提供的一种文本翻译装置的模块结构图;
图11为本申请实施例提供的一种文本翻译装置的模块结构图;
图12为本申请实施例提供的一种文本翻译装置的模块结构图;
图13为本申请实施例提供的一种文本翻译装置的模块结构图;
图14为本申请实施例提供的一种电子设备1400的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术的方法,当被替换的低频词对上下文的语义理解起到关键作用时,则可能由于低频词被替换而导致损失过多的语音信息,这种语义信息的损失在翻译过程中难以被逆转,从而影响翻译的质量。
本申请实施例所提供的技术方案,旨在解决上述问题。
本申请实施例可以应用于文本翻译的场景中,在文本翻译场景中,可以应用申请实施例实现任何源语言到目标语言的翻译。另外,本申请实施例还可以应用在一些语音翻译场景中。在一些语音翻译场景中,可以首先将源语言的语音转换为文本,并使用本申请实施例的方法将源语言的文本翻译成目标语言的文本,进而将目标语言的文本转化为目标语言的语音。
图1为本申请实施例提供的文本翻译方法的流程示意图,该方法的执行主体可以为具有计算处理能力的电子设备,例如服务器、台式计算机等。如图1所示,该方法包括:
S101、接收待翻译的源语言文本。
S102、将上述源语言文本输入到翻译模型中,由该翻译模型根据多个双语短语对的信息,对上述源语言文本进行编码和解码,得到上述源语言文本对应的目标语言文本。
在接收到源语言文本之后,可以按照对源语言文本先编码再解码的过程,得到源语言文本对应的目标语言文本。在本实施例中,在对源语言文本编码和解码时,基于多个双语短语对的信息进行编码和解码。
其中,上述双语短语对是指由源语言短语以及与源语言短语的语义相同的目标语言短语所组成的短语对。双语短语对能够表征出语义信息。以源语言为中文,目标语言为英文为例,{思念你,missed you}为一个双语短语对,{离别后,parted}也为一个双语短语对。
在本实施例之前,可以预先生成源语言和目标语言的大量的双语短语对。在生成大量的双语短语对之后,可以将双语短语对按照特定的形式保存在特定的存储单元中,在本实施例中,可以基于存储单元中所存储的双语短语对,对源语言文本进行编码和解码。
可选的,源语言和目标语言的双语短语对可以通过如下两种方式中的任意一种来生成。
第一种方式中,可以预先收集大量的源语言文本以及每个源语言文本对应的目标语言文本。再通过分词以及句子对齐方式建立源语言文本中各词语与目标语言文本中各词语之间的对应关系,其中,语义相同的词语之间具有对应关系。进而,使用特定的对应规则,从源语言文本和目标语言文本中提取出候选短语对。进而,根据句法分析结果、候选短语对的使用频率、候选短语对的翻译得分中的一种或多种,对候选短语对进行筛选,从而得到目标双语短语对。对目标短语对进行编码并保存在存储单元中。
第二种方式中,通过人工方式提供双语短语对。示例性的,在具体的会议或演讲场景中,可以通过人工方式针对会议或演讲内容提供合适的双语短语对,这些双语短语对可以包括专业词汇短语对、命名实体短语对等与当前场景强相关的短语对。电子设备可以接收用户手动输入、文件导入等方式输入双语短语对,并对双语短语对编码后保存到存储单元中。
本实施例中,翻译模型根据双语短语对的信息对源语言文本进行编码和解码,从而得到源语言文本对应的目标语言文本。由于在源语言文本的编码和解码过程中使用了双语短语对的信息,使得在翻译过程中源语言文本的语义信息得以保留,从而极大提升翻译效果。尤其是当源语言文本中包括较多低频词语时,翻译效果相对于现有技术的提升尤为明显。另外,本实施例具有较高的时效性,可以同时保存多个双语短语对的信息,在不增加解码路径的前提下,可以显著提升翻译结果。
在一种可选的实施方式中,翻译模型在根据多个双语短语对的信息对源语言文本进行编码和解码时,可以根据多个双语短语对的编码信息,对源语言文本进行编码和解码。
其中,双语短语对的编码信息包括源语言短语的编码信息和源语言短语对应的目标语言短语的编码信息。
可选的,如前文所述,可以通过前述的两种方式生成双语短语对,并将双语短语对的信息保存在存储单元中。本实施例中,可以在存储单元中存储双语短语对的编码信息。由于对源语言文本进行翻译时,是按照对源语言文本先编码再解码的过程翻译的,而在存储单元中存储双语短语对的编码信息,可以使得在翻译时可以直接将该编码信息应用于源语言文本的翻译中,因此可以极大提升翻译处理的效率。
可选的,在通过上述两种方式中的任意一种得到双语短语对之后,可以首先分别将双语短语对中的源语言短语和目标语言短语中的词语映射到高维连续的语义空间。进而,基于高维连续的语义空间的词语对源语言短语和目标语言短语进行编码。
图2为对双语短语对进行编码的流程示意图,如图2所示,对双语短语对编码的过程包括:
S201、对双语短语对进行向量化,得到双语短语对的词向量。
示例性的,假设通过前述的方法得到两个双语短语对{(离别后→parted);(思念你→missed you)}。假设源语言的词向量函数为目标语言的词向量函数为其中,表示第i个源语言短语的第j个词语,例如上述示例中的词语“离别”、“后”等。表示第i个目标语言短语的第j个词语,例如上述示例中的“parted”。
值得说明的是,在翻译模型训练过程(下述实施例中详述)中,词向量函数可以进行更新,以充分挖掘词语之间的语义关系。
S202、对双语短语对的词向量进行编码。
可选的,可以使用自注意力网络(Self-Attention Network)编码、卷积神经网络(Convolutional Network)、词向量均值等方式对词向量进行编码。本申请实施例对于编码的具体方式不做具体限定。
以下以词向量均值方式为例说明词向量编码的过程。
在该方式中,可以通过如下公式(1)和公式(2)对双语短语对编码。
其中,表示源语言短语的长度,表示短语的第j个词语,表示源语言的词向量映射函数。表示目标语言短语的长度,表示短语中的第j个词语,表示目标语言的词向量映射函数。
以源语言短语“离别后”为例,在上述公式(1)中,首先计算短语中的两个单词“离别”和“后”的词向量,进而计算二者的平均值,该平均值即为源语言短语“离别后”的编码信息。
进而,在上述公式(2)中,可以计算“离别后”对应的目标语言短语的编码信息。
在得到双语短语对的编码信息之后,可选的,可以根据双语对的编码信息,生成双语短语对的矩阵。其中,源语言短语的编码信息通过源编码矩阵表示,目标语言短语的编码信息通过目标编码矩阵表示。相应的,源编码矩阵中包括源语言短语的编码信息,目标编码矩阵中包括目标语言短语的编码信息。在此基础上,可以将源编码矩阵和目标编码矩阵保存至存储单元中。在后续对源语言文本翻译时,可以按照源语言文本从源编码矩阵中进行查找,并基于查找到的源语言短语和对应的目标语言短语进行翻译。
下述表1为对l-1个双语短语对编码之后,在存储单元中存储源编码矩阵和目标编码矩阵示例。
表1
在该示例中,Key列表示源编码矩阵,Value列表示目标编码矩阵。其中,源编码矩阵中的每个元素分别对应目标编码矩阵中的一个元素。
值得说明的是,在从源编码矩阵中查找时,可能存在查找不到与源语言文本对应的源语言短语的编码信息。为了避免查找不到语言短语的编码信息的情况,可以在源编码矩阵和目标编码矩阵中分别额外增加一个空信息单元,两个空信息单元组合起来可以表示为空信息单元并不提供任何语义信息,仅是在存储单元中提供一个查找位置。以表1的示例为例,空信息单元可以为源编码矩阵的最后一行,以及目标编码矩阵的最后一行。
基于上述方法,在表1所示的示例中,所得到的源编码矩阵,即Key矩阵为所得到的目标编码矩阵,即Value矩阵为
除了上述的方式外,在另一种可选方式中,还可以直接在存储空间中保存双语短语对的文本信息。在对源语言文本进行翻译时,在双语短语对的文本信息的基础上,对源语言文本进行编码和解码。
以下说明上述的根据多个双语短语对的编码信息,对源语言文本进行编码和解码的过程。
图3为本申请实施例提供的文本翻译方法的流程示意图,如图3所示,由翻译模型根据多个双语短语对的编码信息,对源语言文本进行编码和解码的过程包括:
S301、根据源语言文本中每个源语言词语的初始编码信息、源语言短语的编码信息以及目标语言短语的编码信息,确定每个源语言词语的目标编码信息。其中,初始编码信息通过对源语言文本进行编码得到。
其中,如前文所述,双语短语对的编码信息包括源语言短语的编码信息和源语言短语对应的目标语言短语的编码信息。因此,在本实施例中,源语言短语的编码信息和目标语言短语的编码信息均可以从保存双语短语对的编码信息的存储单元中获取。
可选的,源语言文本中每个语言词语的初始编码信息可以通过对源语言文本进行编码得到。示例性的,可以通过自注意力网络、卷积神经网络、长短期记忆网络(LongShort-Term Memory)等方式对源语言文本进行编码,以挖掘出源语言文本中词语之间的依赖关系以及句子结构信息,进而得到源语言文本中每个词语的初始编码信息。
在得到源语言文本中每个源语言词语的初始编码信息之后,结合存储单元中的源语言短语的编码信息,以及目标语言短语的编码信息,得到每个源语言词语的目标编码信息。该目标编码信息是集成了双语短语对信息的源语言上下文信息。
作为一种可选方式,可以根据源语言词语的初始编码信息与源语言短语的编码信息的相似度,得到源语言词语的目标编码信息。该方法的具体执行过程将在下述实施例中详细说明。
S302、对每个源语言词语的目标编码信息进行解码处理,得到源语言文本对应的目标语言文本。
可选的,对目标编码信息的解码处理过程与编码过程对应。
在具体实施过程中,在翻译模型中可以包括编码器和解码器,源语言文本的编码过程可以在编码器中完成,编码器输出的集成了双语短语对信息的源语言上下文信息被输入解码器之后,由解码器基于源语言短语的编码信息和目标语言短语的编码信息,分别对目标编码信息进行解码,以得到目标语言文本。
图4为编码器、解码器以及用于存储双语短语对的信息的存储单元的架构示意图,如图4所示,编码器可以从存储单元中提取双语短语对的信息,并基于双语短语对的信息进行编码处理,并将得到的集成了双语短语对信息的源语言上下文信息输入解码器,由解码器解码并输出目标语言文本。
图5为本申请实施例提供的文本翻译方法的流程示意图,如图5所示,上述步骤S301中根据源语言词语的初始编码信息与源语言短语的编码信息的相似度进行编码的过程包括:
S501、根据每个源语言词语的初始编码信息与源语言短语的编码信息的相似度,确定源语言短语对应的目标语言短语的编码信息的权重。
以双语短语对通过上述表1所示例的源编码矩阵和目标编码矩阵表示为例,存储单元中存储的源编码矩阵中可以包括多个双语短语对的编码信息,相应的,目标编码矩阵中可以包括多个双语短语对的编码信息。本步骤中,每个源语言词语的初始编码信息与源语言短语的编码信息的相似度,是指每个源语言词语的初始编码信息与源编码矩阵中所有源语言短语的编码信息的相似度。所确定出的源语言短语对应的目标语言短语的编码信息的权重,是指所有源语言短语对应的所有目标语言短语的编码信息的权重。
S502、根据源语言短语对应的目标语言短语的编码信息的权重、目标语言短语的编码信息以及源语语言词语的初始编码信息,得到每个源语言词语的目标编码信息。
上述步骤S501-S502可以通过如下公式(3)和(4)实现,在下述公式(3)和(4)中,源语言文本中源语言词语的初始编码信息具体为源语言词语的词向量,即,在下述公式(3)和(4)中,源语言词语的词向量表示上述的源语言词语的初始编码信息。其中,以下假设存储单元中存储了l个源语言短语的编码信息,以及l个目标语言短语的编码信息。源语言短语的编码信息保存在Key矩阵K中。
其中,qj表示源语言文本中第j个词语的词向量,pj=[pj1,pj2,…,pjl],表示一个l维的相似度权重向量,pji表示输入qj和Key矩阵K的第i列的相似度。dk表示词向量的维度。
经过上述公式(3),可以得到每个源编码矩阵中每个源语言短语的编码信息与源语言文本中第j个词语的词向量的相似度。
其中,qj表示源语言文本中第j个词语的词向量,pji表示输入qj与源编码矩阵K中第i个key值Ki之间的相似度,Vi表示目标编码矩阵V中第i个value值。在上述公式(4)中,对目标编码矩阵中的所有Vi进行加权作为最终的查找信息,最后再将该信息集成到输入qj中,从而得到qj对应的目标编码信息
以下通过一个示例说明上述过程。
假设存储单元中存储的源编码矩阵中包括了3个源语言短语{离别后,思念你,None},3个目标语言短语{parted,missed you,None},待翻译的源语言文本为“自从离别后,我一直思念你”,qj为“离别”,则在上述过程中,首先通过公式(1)计算qj与上述3个源语言短语的相似度,得到相似度权重向量pj=[pj1,pj2,pj3]。由于“离别”和“离别后”相似度最高,因此,pj1对应的相似度权重最大。进而,使用上述公式(2)对3个目标语言短语进行加权处理,并将加权处理后的信息集成到qj中,得到qj对应的目标编码信息在此过程中,由于pj1对应的相似度权重最大,因此,pj1对应的目标语言短语“parted”被集成到输入词语“离别”的编码中,从而提升“离别”的翻译效果。因此,在本申请实施例的翻译过程中,翻译模型将与双语短语对中的源编码矩阵的源语言短语编码作为判断参数,使得翻译模型强制查找源编码矩阵中的信息,并且尽可能的查找与源语言词语相关的源语言短语,查找到该短语后,翻译模型将相关短语的目标编码信息集成到输入编码里,从而提升该短语的翻译结果。
以上说明了由翻译模型基于双语短语对的信息对源语言文本进行编码和解码,以得到源语言文本对应的目标语言文本的过程。在此之前,可以基于多个双语短语对的信息对翻译模型进行训练,以得到翻译效果更好的翻译模型。以下说明翻译模型的训练过程。
可选的,翻译模型的训练过程可以以迭代的方式进行。在每一轮迭代过程中,首先根据双语短语对的信息,对翻译模型进行训练,得到翻译模型的训练结果。在训练结果中,包括了翻译模型的损失信息,该损失信息根据上述多个双语短语对的信息得到。其中,双语短语对的信息可以是由前述实施例所述的两种方式中的任意一种生成。进而,根据损失信息,修正翻译模型。示例性的,可以修正翻译模型中的模型参数、特征信息等。损失信息用于衡量翻译模型的准确度和鲁棒性。损失信息越大,表示翻译模型的准确性和鲁棒性越低。进而,基于修正后的翻译模型,可以继续进行下一轮的迭代过程,直至某一轮迭代所得到的模型符合预期条件,则停止迭代,将得到的翻译模型作为目标翻译模型,并使用目标翻译模型进行源语言到目标语言的翻译。示例性的,上述预期条件例如可以是损失函数的值小于预设阈值。
在具体实施过程中,可以根据翻译模型的使用场景,选择相应场景的双语短语对。示例性的,如果翻译模型应用于人工智能领域的翻译,则可以预先生成人工智能领域的双语短语对,并使用生成的双语短语对对翻译模型进行训练。
图6为本申请实施例提供的文本翻译方法的流程示意图,如图6所示,根据双语短语对的编码信息对翻译模型进行训练的一种可选方式包括:
S601、将源语言训练文本输入上述翻译模型,由上述翻译模型对上述源语言训练文本进行编码,得到上述源语言训练文本中每个源语言词语的编码信息。
其中,上述源语言训练文本可以为预先进行过标注的文本,每个源语言训练文本具有与其语义相同的目标语言训练文本。通过比较翻译模型实际输出的目标语言文本与目标语言训练文本的差异,可以判断翻译模型的准确性和鲁棒性。
翻译模型可以通过自注意力网络、卷积神经网络、长短期记忆网络等方式对源语言训练文本进行编码,在具体实施时可以根据需要灵活选择,本申请实施例对于编码方式不做具体限定。
S602、根据上述每个源语言词语的编码信息以及上述双语短语对的编码信息,确定翻译模型的损失信息。
在每一轮迭完成后,均可以得到本轮迭代的翻译模型的损失信息,该损失信息用于衡量翻译模型的准确度和鲁棒性。在本实施例中,在确定翻译模型的损失信息时,基于双语短语对的编码信息来确定,这样的处理使得在损失信息中能够体现出双语短语对的信息,从而使得双语短语对对翻译模型产生约束,提升翻译模型的准确性和鲁棒性。
图7为本申请实施例提供的文本翻译方法的流程示意图,如图6所示,上述步骤S602的一种可选方式包括:
S701、根据源语言训练文本中每个源语言词语在源编码矩阵中对应的目标位置,确定每个源语言词语的损失权重信息。
可选的,可以首先根据源语言训练文本以及从源语言训练文本中提取出的源语言短语的文本信息,确定源语言训练文本中每个源语言词语在源编码矩阵中的目标位置。
在对源语言训练文本进行标注之前,可以预先通过上述实施例所述方法提取出源语言训练文本中的源语言短语,在标注源语言训练文本时,可以根据每个源语言词语所属的源语言短语,确定出源语言词语在源编码矩阵中的位置。
示例性的,假设源语言训练文本为X=(x1,x2,…,xm),x1表示文本中的第一个词语,以此类推。该源语言训练文本预先已经提取了源语言短语对,并记录了文本中每个词语与源语言短语对的所属关系。进而,在获取到每个源语言短语对在源编码矩阵中的位置后,可以得到如下表2所示的每个源语言词语在源编码矩阵中的目标位置。其中,假设源编码矩阵为表1所示例的源编码矩阵。
表2
X | x1 | x2 | … | xm |
目标位置 | l | 2 | … | l |
其中,x1的目标位置为l,即为源编码矩阵中的空信息单元,表明在源编码矩阵中不存在与x1匹配的有语义的源语言短语。
在得到每个源源语言词语在源编码矩阵中对应的目标位置后,可根据该目标位置,确定每个源语言词语的损失权重信息。具体过程将在下述实施例中详细说明。
其中,源语言词语的损失权重信息,可以用于表征源语言词语在翻译模型的损失信息中所占的权重。
值得说明的是,本实施例中所述的源语言词语的损失权重信息,与前文所述的源语言词语的相似度权重分别表示不同的含义。
示例性的,对于源语言文本中的一个源语言词语W,W对应的相似度权重用于衡量W与源编码矩阵中每个源语言短语的相似度,相似度权重越大,表示W与该语言短语越相似。而在本实施例中,W对应的损失权重信息,用于衡量W在翻译模型的损失信息中所占的权重,损失权重信息越大,表示W在翻译模型的损失信息中所起到的约束作用越大,进而可以根据W的损失权重信息更易好地修正翻译模型。
S702、根据每个源语言词语的损失权重信息,确定翻译模型的损失信息。
在每一轮迭代中,均可以得到翻译模型的损失信息,在本实施例中,根据每个源语言词语的损失权重信息确定翻译模型的损失信息,而每个源语言词语的损失权重信息根据源语言词语在源编码矩阵中的目标位置得到,因此,使得在损失信息中能够体现出双语短语对的信息,从而使得双语短语对对翻译模型产生约束,提升翻译模型的准确性和鲁棒性。
图8为本申请实施例提供的文本翻译方法的流程示意图,如图8所示,上述步骤S701中确定每个源语言词语的损失权重信息的一种可选方式包括:
S801、根据每个源语言词语在源编码矩阵中对应的目标位置,得到每个源语言词语在所述目标位置上的编码信息。
源编码矩阵中每个位置对应一个源语言短语的编码信息,因此,在得到上述目标位置后,可以从该目标位置上获取源语言词语在目标位置上的编码信息,即源语言词语所属短语的编码信息。
S802、确定每个源语言词语的编码信息与目标位置上的编码信息的相似度。
S803、根据每个源语言词语的编码信息与所述目标位置上源语言短语的编码信息的相似度,确定每个源语言词语的损失权重信息。
上述确定相似度,以及根据相似度确定损失权重信息,以及根据损失权重信息确定翻译模型的损失信息的过程,可以利用上述的公式(3)和如下的公式(5)计算得出。其中,在公式(3)和公式(5)中,源语言训练文本中源语言词语的编码信息具体为源语言词语的词向量,即,在公式(3)和公式(5)中,源语言词语的词向量表示源语言训练文本的源语言词语的编码信息。
值得说明的是,本实施例中使用上述公式(3)时,qj表示的是源语言训练文本中第j个词语的词向量,其他参数的含义与前述所描述含义一致,不再赘述。在此基础上,利用公式(3),可以得到每个源编码矩阵中每个源语言短语的编码信息与源语言训练文本中第j个源语言词语的词向量的相似度。
上述公式(5)为翻译模型的一个损失函数,损失函数的函数值为翻译模型的损失信息。在该损失函数中,m表示源语言训练文本中所有源语言词语的总数,表示第j个源语言词语查找结果属于源编码矩阵中的目标位置sj的相似度,该相似度表示了第j个源语言词语被正确查找到的概率,概率越大,表示源语言词语的损失权重信息越小。sj表示与第j个词语对应的源编码矩阵的目标位置,在翻译模型每轮迭代中,需要修正翻译模型使得最大化,即使得最小化,因此,可以表征第j个源语言词语的损失权重信息。
上述公式(5)为翻译模型的损失函数,损失函数的函数值为翻译模型的损失信息,因此,经过上述公式(3)和公式(5),能够计算出源语言词语与源语言短语的相似度,并根据相似度得到源语言词语的损失权重信息,进而得到翻译模型的损失信息。
以下通过一个示例上述过程。
假设源语言训练文本为“自从离别后,我一直思念你。”,对于源语言词语“离别”,即qj为“离别”,qj和源编码矩阵中的三个源语言短语{离别后,思念你,None}的编码信息计算相似度,得到相似度权重向量pj=[pj1,pj2,pj3]。而输入词语“离别”与第一个短语{离别后}的相似度最大,相似度权重为pj1,因此,词语“离别”对应的目标位置为1,即就是pi1。以此类推可以得出源语言训练文本中所有源语言词语的相似度权重信息,并使用上述公式(5),计算翻译模型的损失信息。由于使用了上述损失函数,使得即使在提供少量的双语短语对的情况下,翻译模型也不会忽略存储单元中所存储的双语短语对的编码信息,并实现准确的查找功能。同时,还能够避免加入存储单元里的信息过多之后,在无法查找到双语短语对信息时降低翻译模型的翻译效果。
当翻译模型使用编码和解码过程进行翻译时,利用上述图5至图7所示对应实施例所得到的翻译模型的损失信息为编码侧的损失信息,根据该损失信息,可以修正翻译模型的模型参数等。除此之外,还可以在每一轮迭代时确定解码侧的损失信息,进而,可以根据解码侧的损失信息修正翻译模型的模型参数等。在具体实施过程中,编码侧和解码侧的损失信息可以同时使用,也可以使用其中一侧的损失信息,本申请实施例对此不做具体限定。
可选的,解码侧的损失信息可以通过如下公式(6)得到:
其中,n表示源语言训练文本对应的目标语言训练文本中所有词语的数量。y表示源语言训练文本对应的目标语言训练文本,m和与上述公式(5)中的含义相同,不再赘述。γ表示0-1之间的权重,用于平衡两个损失函数之间的重要。
通过上述公式(6)得到的损失信息可以衡量翻译模型的翻译结果与源语言训练文本对应的目标语言训练文本结果之间的差异。
如前述所述,翻译模型可以通过编码和解码过程进行翻译,可选的,翻译模型可以在编码侧和解码侧均设置归一化层。具体的,在编码侧得到编码结果后,将编码结果输入归一化层进行处理。在解码侧得到解码结果后,将解码结果输入归一化层进行处理。通过归一化层的处理,可以使得翻译模型的稳定性更高。
公式(7)为一个归一化函数的示例。
y=Norm(x+f(x)) (7)
其中,x表示输入信息,经过函数f对x处理,得到f(x),将x和f(x)输入公式(7),可以得到归一化处理后的结果。
图9为本申请实施例提供的一种文本翻译装置的模块结构图,如图9所示,该装置包括:
接收模块901,用于接收待翻译的源语言文本。
翻译模块902,用于将所述源语言文本输入到翻译模型中,由所述翻译模型根据多个双语短语对的信息,对所述源语言文本进行编码和解码,得到所述源语言文本对应的目标语言文本。
该装置用于实现前述方法实施例,其实现原理和技术效果类似,此处不再赘述。
另一实施例中,翻译模块902,具体用于:
由所述翻译模型根据多个双语短语对的编码信息,对所述源语言文本进行编码和解码,其中,所述双语短语对的编码信息包括源语言短语的编码信息和所述源语言短语对应的目标语言短语的编码信息。
图10为本申请实施例提供的一种文本翻译装置的模块结构图,如图10所示,翻译模块902,包括:
编码单元9021,用于根据所述源语言文本中每个源语言词语的初始编码信息、所述源语言短语的编码信息以及所述目标语言短语的编码信息,确定每个所述源语言词语的目标编码信息,其中,所述初始编码信息通过对所述源语言文本进行编码得到。
解码单元9022,用于对每个源语言词语的所述目标编码信息进行解码处理,得到所述源语言文本对应的目标语言文本。
另一实施例中,编码单元9021,具体用于:
根据所述每个源语言词语的初始编码信息与所述源语言短语的编码信息的相似度,确定所述源语言短语对应的目标语言短语的编码信息的权重。
根据所述源语言短语对应的目标语言短语的编码信息的权重、所述目标语言短语的编码信息以及所述初始编码信息,得到所述每个源语言词语的目标编码信息。
图11为本申请实施例提供的一种文本翻译装置的模块结构图,如图11所示,所述装置还包括:
训练模块903,用于根据所述双语短语对的信息,对所述翻译模型进行训练,得到所述翻译模型的训练结果,所述训练结果包括所述翻译模型的损失信息,其中,所述翻译模型的损失信息根据所述多个双语短语对的信息得到。
修正模块904,用于根据所述损失信息,修正所述翻译模型。
另一实施例中,所述源语言短语的编码信息通过源编码矩阵表示,所述目标语言短语的编码信息通过目标编码矩阵表示。
所述源编码矩阵中包括所述源语言短语的编码信息,所述目标编码矩阵中包括所述目标语言短语的编码信息。
图12为本申请实施例提供的一种文本翻译装置的模块结构图,如图12所示,训练模块903,包括:
编码单元9031,用于将源语言训练文本输入所述翻译模型,由所述翻译模型对所述源语言训练文本进行编码,得到所述源语言训练文本中每个源语言词语的编码信息。
第一确定单元9032,用于根据所述每个源语言词语的编码信息以及所述双语短语对的编码信息,确定所述翻译模型的损失信息。
另一实施例中,第一确定单元9032,具体用于:
根据所述源语言训练文本中每个源语言词语在所述源编码矩阵中对应的目标位置,确定每个源语言词语的损失权重信息。
根据每个源语言词语的损失权重信息,确定所述翻译模型的损失信息。
另一实施例中,第一确定单元9032,具体用于:
根据每个源语言词语在所述源编码矩阵中对应的目标位置,得到每个源语言词语在所述目标位置上的编码信息。
确定每个源语言词语的编码信息与所述目标位置上的编码信息的相似度。
根据每个源语言词语的编码信息与所述目标位置上的编码信息的相似度,确定每个源语言词语的损失权重信息。
图13为本申请实施例提供的一种文本翻译装置的模块结构图,如图13所示,训练模块903,还包括:
第二确定单元9033,用于根据所述源语言训练文本以及从所述源语言训练文本中提取出的源语言短语的文本信息,确定所述源语言训练文本中每个源语言词语在所述源编码矩阵中的目标位置。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,确定模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。
图14为本申请实施例提供的一种电子设备1400的结构示意图。如图14所示,该电子设备可以包括:处理器141、存储器142、通信接口143和系统总线144,所述存储器142和所述通信接口143通过所述系统总线144与所述处理器141连接并完成相互间的通信,所述存储器142用于存储计算机执行指令,所述通信接口143用于和其他设备进行通信,所述处理器141执行所述计算机程序时实现如上述图1至图8所示实施例的方案。
该图14中提到的系统总线可以是外设部件互连标准(peripheral componentinterconnect,PCI)总线或扩展工业标准结构(extended industry standardarchitecture,EISA)总线等。所述系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random access memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(networkprocessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选的,本申请实施例还提供一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上述图1至图8所示实施例的方法。
可选的,本申请实施例还提供一种运行指令的芯片,所述芯片用于执行上述图1至图8所示实施例的方法。
本申请实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在存储介质中,至少一个处理器可以从所述存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序时可实现上述图1至图8所示实施例的方法。
在本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中,a,b,c可以是单个,也可以是多个。
可以理解的是,在本申请实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请实施例的范围。
可以理解的是,在本申请的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (18)
1.一种文本翻译方法,其特征在于,包括:
接收待翻译的源语言文本;
将所述源语言文本输入到翻译模型中,由所述翻译模型根据多个双语短语对的信息,对所述源语言文本进行编码和解码,得到所述源语言文本对应的目标语言文本;
所述由所述翻译模型根据多个双语短语对的编码信息,对所述源语言文本进行编码和解码,包括:
根据所述源语言文本中每个源语言短语的初始编码信息、所述源语言短语的编码信息以及目标语言短语的编码信息,确定每个所述源语言短语的目标编码信息,其中,所述初始编码信息通过对所述源语言文本进行编码得到;对每个源语言短语的所述目标编码信息进行解码处理,得到所述源语言文本对应的目标语言文本;
所述确定每个所述源语言短语的目标编码信息,包括:
根据所述每个源语言短语的初始编码信息与所述源语言短语的编码信息的相似度,确定所述源语言短语对应的目标语言短语的编码信息的权重;根据所述源语言短语对应的目标语言短语的编码信息的权重、所述目标语言短语的编码信息以及所述初始编码信息,得到所述每个源语言短语的目标编码信息。
2.根据权利要求1所述的方法,其特征在于,所述由所述翻译模型根据多个双语短语对的信息,对所述源语言文本进行编码和解码,包括:
由所述翻译模型根据多个双语短语对的编码信息,对所述源语言文本进行编码和解码,其中,所述双语短语对的编码信息包括源语言短语的编码信息和所述源语言短语对应的目标语言短语的编码信息。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述将所述源语言文本输入到翻译模型之前,还包括:
根据所述双语短语对的信息,对所述翻译模型进行训练,得到所述翻译模型的训练结果,所述训练结果包括所述翻译模型的损失信息,其中,所述翻译模型的损失信息根据所述多个双语短语对的信息得到;
根据所述损失信息,修正所述翻译模型。
4.根据权利要求3所述的方法,其特征在于,所述源语言短语的编码信息通过源编码矩阵表示,所述目标语言短语的编码信息通过目标编码矩阵表示;
所述源编码矩阵中包括所述源语言短语的编码信息,所述目标编码矩阵中包括所述目标语言短语的编码信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述双语短语对的编码信息,对所述翻译模型进行训练,包括:
将源语言训练文本输入所述翻译模型,由所述翻译模型对所述源语言训练文本进行编码,得到所述源语言训练文本中每个源语言短语的编码信息;
根据所述每个源语言短语的编码信息以及所述双语短语对的编码信息,确定所述翻译模型的损失信息。
6.根据权利要求5所述的方法,其特征在于,所述确定所述翻译模型的损失信息,包括:
根据所述源语言训练文本中每个源语言短语在所述源编码矩阵中对应的目标位置,确定每个源语言短语的损失权重信息;
根据每个源语言短语的损失权重信息,确定所述翻译模型的损失信息。
7.根据权利要求6所述的方法,其特征在于,所述确定每个源语言短语的损失权重信息,包括:
根据每个源语言短语在所述源编码矩阵中对应的目标位置,得到每个源语言短语在所述目标位置上的编码信息;
确定每个源语言短语的编码信息与所述目标位置上的编码信息的相似度;
根据每个源语言短语的编码信息与所述目标位置上的编码信息的相似度,确定每个源语言短语的损失权重信息。
8.根据权利要求6或7所述的方法,其特征在于,所述确定每个源语言短语的损失权重信息之前,还包括:
根据所述源语言训练文本以及从所述源语言训练文本中提取出的源语言短语的文本信息,确定所述源语言训练文本中每个源语言短语在所述源编码矩阵中的目标位置。
9.一种文本翻译装置,其特征在于,包括:
接收模块,用于接收待翻译的源语言文本;
翻译模块,用于将所述源语言文本输入到翻译模型中,由所述翻译模型根据多个双语短语对的信息,对所述源语言文本进行编码和解码,得到所述源语言文本对应的目标语言文本;
所述翻译模块,包括:
编码单元,用于根据所述源语言文本中每个源语言短语的初始编码信息、所述源语言短语的编码信息以及目标语言短语的编码信息,确定每个所述源语言短语的目标编码信息,其中,所述初始编码信息通过对所述源语言文本进行编码得到;解码单元,用于对每个源语言短语的所述目标编码信息进行解码处理,得到所述源语言文本对应的目标语言文本;
所述编码单元,具体用于:
根据所述每个源语言短语的初始编码信息与所述源语言短语的编码信息的相似度,确定所述源语言短语对应的目标语言短语的编码信息的权重;根据所述源语言短语对应的目标语言短语的编码信息的权重、所述目标语言短语的编码信息以及所述初始编码信息,得到所述每个源语言短语的目标编码信息。
10.根据权利要求9所述的装置,其特征在于,所述翻译模块,具体用于:
由所述翻译模型根据多个双语短语对的编码信息,对所述源语言文本进行编码和解码,其中,所述双语短语对的编码信息包括源语言短语的编码信息和所述源语言短语对应的目标语言短语的编码信息。
11.根据权利要求9-10任一项所述的装置,其特征在于,所述装置还包括:
训练模块,用于根据所述双语短语对的信息,对所述翻译模型进行训练,得到所述翻译模型的训练结果,所述训练结果包括所述翻译模型的损失信息,其中,所述翻译模型的损失信息根据所述多个双语短语对的信息得到;
修正模块,用于根据所述损失信息,修正所述翻译模型。
12.根据权利要求11所述的装置,其特征在于,所述源语言短语的编码信息通过源编码矩阵表示,所述目标语言短语的编码信息通过目标编码矩阵表示;
所述源编码矩阵中包括所述源语言短语的编码信息,所述目标编码矩阵中包括所述目标语言短语的编码信息。
13.根据权利要求12所述的装置,其特征在于,所述训练模块,包括:
编码单元,用于将源语言训练文本输入所述翻译模型,由所述翻译模型对所述源语言训练文本进行编码,得到所述源语言训练文本中每个源语言短语的编码信息;
第一确定单元,用于根据所述每个源语言短语的编码信息以及所述双语短语对的编码信息,确定所述翻译模型的损失信息。
14.根据权利要求13所述的装置,其特征在于,所述第一确定单元,具体用于:
根据所述源语言训练文本中每个源语言短语在所述源编码矩阵中对应的目标位置,确定每个源语言短语的损失权重信息;
根据每个源语言短语的损失权重信息,确定所述翻译模型的损失信息。
15.根据权利要求14所述的装置,其特征在于,所述第一确定单元,具体用于:
根据每个源语言短语在所述源编码矩阵中对应的目标位置,得到每个源语言短语在所述目标位置上的编码信息;
确定每个源语言短语的编码信息与所述目标位置上的编码信息的相似度;
根据每个源语言短语的编码信息与所述目标位置上的编码信息的相似度,确定每个源语言短语的损失权重信息。
16.根据权利要求14或15所述的装置,其特征在于,所述训练模块还包括:
第二确定单元,用于根据所述源语言训练文本以及从所述源语言训练文本中提取出的源语言短语的文本信息,确定所述源语言训练文本中每个源语言短语在所述源编码矩阵中的目标位置。
17.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行权利要求1-8任一项所述的方法步骤。
18.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910514220.9A CN110210043B (zh) | 2019-06-14 | 2019-06-14 | 文本翻译方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910514220.9A CN110210043B (zh) | 2019-06-14 | 2019-06-14 | 文本翻译方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110210043A CN110210043A (zh) | 2019-09-06 |
CN110210043B true CN110210043B (zh) | 2024-01-26 |
Family
ID=67792590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910514220.9A Active CN110210043B (zh) | 2019-06-14 | 2019-06-14 | 文本翻译方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110210043B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826345B (zh) * | 2019-11-14 | 2023-09-05 | 北京香侬慧语科技有限责任公司 | 一种机器翻译方法和装置 |
CN111079450B (zh) * | 2019-12-20 | 2021-01-22 | 北京百度网讯科技有限公司 | 基于顺句驱动的语言转换方法和装置 |
CN111368560A (zh) * | 2020-02-28 | 2020-07-03 | 北京字节跳动网络技术有限公司 | 文本翻译方法、装置、电子设备及存储介质 |
CN111597826B (zh) * | 2020-05-15 | 2021-10-01 | 苏州七星天专利运营管理有限责任公司 | 一种辅助翻译中处理术语的方法 |
CN112560510B (zh) * | 2020-12-10 | 2023-12-01 | 科大讯飞股份有限公司 | 翻译模型训练方法、装置、设备及存储介质 |
CN112668346B (zh) * | 2020-12-24 | 2024-04-30 | 中国科学技术大学 | 翻译方法、装置、设备及存储介质 |
CN112686059B (zh) * | 2020-12-29 | 2024-04-16 | 中国科学技术大学 | 文本翻译方法、装置、电子设备和存储介质 |
CN112800785B (zh) * | 2021-04-13 | 2021-07-27 | 中国科学院自动化研究所 | 多模态机器翻译方法、装置、电子设备和存储介质 |
CN113392658A (zh) * | 2021-06-18 | 2021-09-14 | 北京爱奇艺科技有限公司 | 语句翻译方法、装置、计算机设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460027A (zh) * | 2018-02-14 | 2018-08-28 | 广东外语外贸大学 | 一种口语即时翻译方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080120092A1 (en) * | 2006-11-20 | 2008-05-22 | Microsoft Corporation | Phrase pair extraction for statistical machine translation |
US8244519B2 (en) * | 2008-12-03 | 2012-08-14 | Xerox Corporation | Dynamic translation memory using statistical machine translation |
-
2019
- 2019-06-14 CN CN201910514220.9A patent/CN110210043B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460027A (zh) * | 2018-02-14 | 2018-08-28 | 广东外语外贸大学 | 一种口语即时翻译方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于语义分布相似度的翻译模型领域自适应研究;姚亮等;《山东大学学报(理学版)》;20160531(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110210043A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210043B (zh) | 文本翻译方法、装置、电子设备及可读存储介质 | |
WO2023065544A1 (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
US10255275B2 (en) | Method and system for generation of candidate translations | |
CN109325229B (zh) | 一种利用语义信息计算文本相似度的方法 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
CN111310441A (zh) | 基于bert的语音识别后文本修正方法、装置、终端及介质 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN100429648C (zh) | 一种文本自动分块的方法、分块器和文本到语言合成系统 | |
CN112463924B (zh) | 面向智能问答基于内部相关性编码的文本意图匹配方法 | |
CN111814493A (zh) | 机器翻译方法、装置、电子设备和存储介质 | |
Wu et al. | WTMED at MEDIQA 2019: A hybrid approach to biomedical natural language inference | |
CN112581327A (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN109979461B (zh) | 一种语音翻译方法及装置 | |
Lyu et al. | Deep learning for textual entailment recognition | |
CN117236435A (zh) | 一种设计理性知识网络的知识融合方法、装置及存储介质 | |
CN112949293A (zh) | 一种相似文本生成方法、相似文本生成装置及智能设备 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN117034916A (zh) | 构建词向量表示模型和词向量表示的方法、装置及设备 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN115879480A (zh) | 语义约束机器翻译方法、装置、电子设备及存储介质 | |
CN111428475B (zh) | 分词词库的构建方法、分词方法、装置及存储介质 | |
CN114970541A (zh) | 文本语义理解方法、装置、设备及存储介质 | |
CN109993190A (zh) | 一种本体匹配方法、装置和计算机存储介质 | |
CN114021589A (zh) | 样本的生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |