CN112818712A - 基于翻译记忆库的机器翻译方法及装置 - Google Patents
基于翻译记忆库的机器翻译方法及装置 Download PDFInfo
- Publication number
- CN112818712A CN112818712A CN202110203208.3A CN202110203208A CN112818712A CN 112818712 A CN112818712 A CN 112818712A CN 202110203208 A CN202110203208 A CN 202110203208A CN 112818712 A CN112818712 A CN 112818712A
- Authority
- CN
- China
- Prior art keywords
- translation
- original text
- translated
- corpus
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 369
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000000463 material Substances 0.000 claims abstract description 47
- 238000013507 mapping Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 230000014616 translation Effects 0.000 description 294
- 235000014443 Pyrus communis Nutrition 0.000 description 13
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000001915 proofreading effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 101100269850 Caenorhabditis elegans mask-1 gene Proteins 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于翻译记忆库的机器翻译方法,该方法包括:从翻译记忆库中查找与待翻译原文相似度最高的语料原文和语料原文的译文;将待翻译原文和语料原文进行比较,获取语料原文中与待翻译原文不同的差异部分;将差异部分映射到语料原文的译文,将语料原文的译文中差异部分映射的译文替换为掩码;将替换后的语料原文的译文和待翻译原文作为机器翻译模型的输入,输出待翻译原文的译文;其中,机器翻译模型由翻译原文样本作为样本,翻译原文样本对应的译文作为标签进行训练获得。本发明实现联合待翻译原文和语料原文的译文进行翻译,不仅可以提高翻译效率,降低翻译成本,还可以提高翻译的准确性。
Description
技术领域
本发明涉及机器翻译技术领域,尤其涉及一种基于翻译记忆库的机器翻译方法及装置。
背景技术
翻译记忆库是译员在翻译过程中产生并保留的双语语料,通常都是经过人工校对之后译文质量比较高的数据。由于翻译记忆库中的语料有限,很可能从翻译记忆库中检索出不出与当前待翻译文本完全一样的语料,从而无法直接从翻译记忆库中获得当前待翻译文本的译文。
翻译记忆库可用来辅助当前的翻译任务。现有的方式是从翻译记忆库中检索出与当前待翻译文本相似的语料,将其对应的译文呈现给译员。译员根据当前待翻译文本对相似语料的译文进行手动修改获得当前待翻译文本的译文。
由于相似语料的原文和译文之间句子结构、表述方式等差别较大,译员需要花费大量时间对相似语料的译文进行核对和编辑,工作强度大。
发明内容
本发明提供一种基于翻译记忆库的机器翻译方法及装置,用以解决现有技术中译员对相似语料的译文进行核对和编辑时,费时费力的缺陷,实现基于翻译记忆库自动对待翻译文本进行翻译。
本发明提供一种基于翻译记忆库的机器翻译方法,包括:
从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;
将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;
将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;
将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;
其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
根据本发明提供的一种基于翻译记忆库的机器翻译方法,所述将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文,包括:
将所述待翻译原文输入所述机器翻译模型的第一编码器,输出所述待翻译原文的编码结果;
将所述替换后的语料原文的译文输入所述机器翻译模型的第二编码器,输出所述语料原文的译文的编码结果;
将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文。
根据本发明提供的一种基于翻译记忆库的机器翻译方法,所述将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文,包括:
将所述待翻译原文的编码结果和目标文本的译文的编码结果输入所述解码器的交叉注意力机制层后,依次经过所述解码器的线性处理层和softmax层,输出所述待翻译原文的译文。
根据本发明提供的一种基于翻译记忆库的机器翻译方法,所述掩码包括括号和预设字符;其中,所述预设字符位于所述括号内部。
根据本发明提供的一种基于翻译记忆库的机器翻译方法,若所述差异部分为多个,则替换每个所述差异部分映射的译文的掩码还包括每个差异部分的编号,所述编号位于所述括号内部。
根据本发明提供的一种基于翻译记忆库的机器翻译方法,所述将所述差异部分映射到所述语料原文的译文,包括:
将所述语料原文和所述语料原文的译文进行词对齐;
根据词对齐结果,将所述差异部分映射到所述语料原文的译文。
根据本发明提供的一种基于翻译记忆库的机器翻译方法,所述机器翻译模型为Transformer模型。
本发明还提供一种基于翻译记忆库的机器翻译装置,包括:
查找模块,用于从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;
比较模块,用于将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;
替换模块,用于将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;
翻译模块,用于将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;
其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述基于翻译记忆库的机器翻译方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于翻译记忆库的机器翻译方法的步骤。
本发明提供的基于翻译记忆库的机器翻译方法及装置,通过在翻译记忆库中查找与待翻译原文相似度最高的语料原文和语料原文的译文,并自动对待翻译原文和语料原文进行相似性比较,有效减少人工校核的工作强度,然后将语料原文中的差异部分映射到语料原文的译文,将语料原文的译文中差异部分映射的译文替换为掩码,最后联合替换后的语料原文的译文和待翻译原文对待翻译原文进行自动翻译,不仅可以提高翻译效率,降低翻译成本,还可以提高翻译的准确性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于翻译记忆库的机器翻译方法的流程示意图之一;
图2是本发明提供的基于翻译记忆库的机器翻译方法中机器翻译模型的结构示意图;
图3是本发明提供的基于翻译记忆库的机器翻译方法的流程示意图之二;
图4是本发明提供的基于翻译记忆库的机器翻译装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的基于翻译记忆库的机器翻译方法,该方法包括:步骤101,从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;
其中,待翻译原文可以是各应用领域中需要进行翻译的文本,如,工程、广告或医学等。本实施例不限于待翻译原文的类型和数量。翻译记忆库中存储有大量的双语语料数据,且这些语料数据均为人工校对之后译文质量比较高的数据。
可以通过文本相似性检索方法,将待翻译原文作为查询文本,从翻译记忆库中检索与待翻译原文相似度最高的语料原文,并从翻译记忆库中取出语料原文的译文。其中,计算相似度的方式,可以是计算待翻译原文与翻译记忆库中的语料原文之间的皮尔逊相关性或欧式距离等。本实施例不限于相似度的计算方式。
步骤102,将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;
具体地,从翻译记忆库中检索的语料原文与待翻译原文可能完全一致,也可能不完全一致。因此,从翻译记忆库中检索出语料原文后,需要将待翻译原文和语料原文进行相似性比较,确定待翻译原文和语料原文是否完全一致。可以是对待翻译原文和语料原文进行分词处理,将待翻译原文和语料原文相同位置上的词进行相似性比较,根据比较结果确定待翻译原文和语料原文是否完全一致。本实施例不限于这种确定方式。
若待翻译原文和语料原文不一致,则在语料原文中标注出差异部分。例如,待翻译原文为“我有一个苹果”,相似度最高的语料原文为“我有一个梨”,根据相似性比较结果可以获取语料原文中与待翻译原文不同的差异部分为“梨”,则可以在语料原文中对差异部分进行标注。标注后的语料原文为“我有一个[梨]”,本实施例不限于这种标注方式。
步骤103,将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;
具体地,获取语料原文中与待翻译原文不同的差异部分后,可以将差异部分映射到语料原文的译文。例如,语料原文为“我有一个梨”,语料原文的译文为“I have a pear”,语料原文中的差异部分为“梨”,对应地语料原文的译文中的差异部分为“pear”。对差异部分进行标注后,语料原文为“我有一个[梨]”,将标注后的差异部分映射到语料原文的译文后,语料原文的译文为“I have a[pear]”。
然后,对语料原文的译文中差异部分映射的译文进行掩码替换。其中,掩码的类型可以根据实际需求进行设置。
步骤104,将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
具体地,可以将替换后的语料原文的译文和待翻译原文输入机器翻译模型,机器翻译模型对替换后的语料原文的译文和待翻译原文进行学习,可以输出准确的待翻译原文的译文。其中,机器翻译模型可以是神经机器翻译模型,但不限于此种类型。
此外,也可以将待翻译原文和机器翻译模型输出的待翻译原文的译文加入翻译记忆库,为翻译记忆库的扩充提供丰富的语料数据。
由于翻译记忆库的语料数据中包含高质量的译文,因此,本实施例联合语料原文的译文和待翻译原文对待翻译原文进行自动翻译,不仅可以提高翻译的准确性,还可以减少核对和编辑的工作强度,提高翻译效率,降低翻译成本。
本实施例通过在翻译记忆库中查找与待翻译原文相似度最高的语料原文和语料原文的译文,并自动对待翻译原文和语料原文进行相似性比较,有效减少人工校核的工作强度,然后将语料原文中的差异部分映射到语料原文的译文,将语料原文的译文中差异部分映射的译文替换为掩码,最后联合替换后的语料原文的译文和待翻译原文对待翻译原文进行自动翻译,不仅可以提高翻译效率,降低翻译成本,还可以提高翻译的准确性。
在上述实施例的基础上,本实施例中所述将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文,包括:将所述待翻译原文输入所述机器翻译模型的第一编码器,输出所述待翻译原文的编码结果;将所述替换后的语料原文的译文输入所述机器翻译模型的第二编码器,输出所述语料原文的译文的编码结果;将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文。
其中,机器翻译模型为多输入翻译模型,包括两个并行的编码器,即为第一编码器和第二编码器。其中,第一编码器和第二编码器可以为多层。本实施例不限于编码器层数和结构。机器翻译模型还包括解码器,解码器也可以为多层,本实施例不限于解码器层数和结构。
可以将待翻译原文输入第一编码器,第一编码器通过对待翻译原文进行学习,输出待翻译原文的编码结果;同时将替换后的语料原文的译文输入第二编码器,第二编码器通过对语料原文的译文进行学习后,输出语料原文的译文的编码结果。然后,将待翻译原文的编码结果和语料原文的译文的编码结果输入解码器中,解码器对待翻译原文的编码结果和语料原文的译文的编码结果进行学习后,输出最终的翻译结果。
在上述实施例的基础上,本实施例中所述将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文,包括:将所述待翻译原文的编码结果和目标文本的译文的编码结果输入所述解码器的交叉注意力机制层后,依次经过所述解码器的线性处理层和softmax层,输出所述待翻译原文的译文。
其中,编码器包括多个子层,每个子层包括前馈神经网络层、交叉注意力层和自注意力层。如图2所示,编码器还包括输入层、Linear(线性处理)层和softmax层。Linear层用于将输入特征展平成一维张量的形式。
待翻译原文的编码结果在解码器的交叉注意力层进行交叉attention(注意力)运算后,输出第一交叉attention运算结果。然后再将第一交叉attention运算结果和语料原文的译文的编码结果进行交叉attention运算后,输出第二交叉attention运算结果。将第二交叉attention运算结果依次经过所述解码器的线性处理层和softmax层,输出所述待翻译原文的译文。
在上述各实施例的基础上,本实施例中所述掩码包括括号和预设字符;其中,所述预设字符位于所述括号内部。
具体地,可以采用括号和预设字符作为掩码。其中,括号可以为中括号,预设字符可以为mask,则掩码为[mask]。本实施例不限于这种类型的掩码。通过使用该掩码,可以将语料原文的译文中差异部分映射的译文替换为[mask]。例如,语料原文的译文为“I have apear”。“pear”为差异部分映射的译文,则掩码替换后的语料原文的译文为“I have a[mask]”。
在上述实施例的基础上,本实施例中若所述差异部分为多个,则替换每个所述差异部分映射的译文的掩码还包括每个差异部分的编号,所述编号位于所述括号内部。
具体地,若语料原文的译文中存在多个差异部分,则分别使用多个含有编号的掩码逐个替换相应的差异部分映射的译文。如[mask1]和[mask2]等。其中,括号中的1和2为差异部分的编号。
在上述各实施例的基础上,本实施例中所述将所述差异部分映射到所述语料原文的译文,包括:将所述语料原文和所述语料原文的译文进行词对齐;根据词对齐结果,将所述差异部分映射到所述语料原文的译文。
具体地,将差异部分映射到语料原文的译文之前,可以采用词对齐工具对语料原文和语料原文的译文进行自动词对齐。词对齐后,语料原文中的每个词和语料原文的译文中的每个词存在对应关系。其中,词对齐工具可以是fast_align词对齐工具或GIZA++词对齐工具等,本实施例不限于词对齐工具。
例如,语料原文为“我有一个梨”,语料原文的译文为“I have a pear”,通过词对齐处理后,“我”和“I”对应,“有”和“have”对应,“一个”和“a”对应,“梨”和“pear”对应。
本实施例通过对语料原文和语料原文的译文进行自动词对齐,可以将差异部分从语料原文快速映射到语料译文中。
在上述各实施例的基础上,本实施例中所述机器翻译模型为Transformer模型。
具体地,可以使用多输入的Transformer模型对待翻译原文进行翻译。其中,Transformer模型使用自注意力网络进行编码和解码。Encoder(编码器)和Decoder(解码器)均由多个子层构成,每一子层包括一个自注意力层和一个前馈神经网络层。Decoder中在自注意力层和前馈神经网络层之间附加一个Encoder-Decoder交叉注意力层。Transformer模型在许多语言翻译中实现了最先进的翻译性能。
如图3所示为本实施例的完整流程示意图,具体步骤包括:
步骤1,将待翻译原文与翻译记忆库中的语料原文进行匹配,输出与待翻译原文相似度最高的语料原文和语料原文的译文;
步骤2,将语料原文和语料原文的译文进行词对齐;
步骤3,将语料原文和待翻译原文进行比较,并对语料原文中存在的差异部分进行标注;
步骤4,将语料原文中标注的差异部分映射到语料原文的译文中;
步骤5,使用掩码对语料原文的译文中差异部分映射的译文进行替换;
步骤6,将替换后的语料原文的译文和待翻译原文作为机器翻译模型的输入,输出待翻译原文的译文。
下面对本发明提供的基于翻译记忆库的机器翻译装置进行描述,下文描述的基于翻译记忆库的机器翻译装置与上文描述的基于翻译记忆库的机器翻译方法可相互对应参照。
如图4所示,本实施例提供一种基于翻译记忆库的机器翻译装置,该装置包括查找模块401、比较模块402、替换模块403和翻译模块404,其中:
查找模块401用于从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;
其中,待翻译原文可以是各应用领域中需要进行翻译的文本,如,工程、广告或医学等。本实施例不限于待翻译原文的类型和数量。翻译记忆库中存储有大量的双语语料数据,且这些语料数据均为人工校对之后译文质量比较高的数据。
可以通过文本相似性检索方法,将待翻译原文作为查询文本,从翻译记忆库中检索与待翻译原文相似度最高的语料原文,并从翻译记忆库中取出语料原文的译文。其中,计算相似度的方式,可以是计算待翻译原文与翻译记忆库中的语料原文之间的皮尔逊相关性或欧式距离等。本实施例不限于相似度的计算方式。
比较模块402用于将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;
具体地,从翻译记忆库中检索的语料原文与待翻译原文可能完全一致,也可能不完全一致。因此,从翻译记忆库中检索出语料原文后,需要将待翻译原文和语料原文进行相似性比较,确定待翻译原文和语料原文是否完全一致。可以是对待翻译原文和语料原文进行分词处理,将待翻译原文和语料原文相同位置上的词进行相似性比较,根据比较结果确定待翻译原文和语料原文是否完全一致。本实施例不限于这种确定方式。
若待翻译原文和语料原文不一致,则在语料原文中标注出差异部分。
替换模块403用于将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;
具体地,获取语料原文中与待翻译原文不同的差异部分后,可以将差异部分映射到语料原文的译文。然后,对语料原文的译文中差异部分映射的译文进行掩码替换。其中,掩码的类型可以根据实际需求进行设置。
翻译模块404用于将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
具体地,可以将替换后的语料原文的译文和待翻译原文输入机器翻译模型,机器翻译模型对替换后的语料原文的译文和待翻译原文进行学习,可以输出准确的待翻译原文的译文。其中,机器翻译模型可以是神经机器翻译模型,但不限于此种类型。
此外,也可以将待翻译原文和机器翻译模型输出的待翻译原文的译文加入翻译记忆库,为翻译记忆库的扩充提供丰富的语料数据。
由于翻译记忆库的语料数据中包含高质量的译文,因此,本实施例联合语料原文的译文和待翻译原文对待翻译原文进行自动翻译,不仅可以提高翻译的准确性,还可以减少核对和编辑的工作强度,提高翻译效率,降低翻译成本。
本实施例通过在翻译记忆库中查找与待翻译原文相似度最高的语料原文和语料原文的译文,并自动对待翻译原文和语料原文进行相似性比较,有效减少人工校核的工作强度,然后将语料原文中的差异部分映射到语料原文的译文,将语料原文的译文中差异部分映射的译文替换为掩码,最后联合替换后的语料原文的译文和待翻译原文对待翻译原文进行自动翻译,不仅可以提高翻译效率,降低翻译成本,还可以提高翻译的准确性。
在上述实施例的基础上,本实施例中翻译模块具体用于:将所述待翻译原文输入所述机器翻译模型的第一编码器,输出所述待翻译原文的编码结果;将所述替换后的语料原文的译文输入所述机器翻译模型的第二编码器,输出所述语料原文的译文的编码结果;将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文。
在上述实施例的基础上,本实施例中翻译模块,还用于将所述待翻译原文的编码结果和目标文本的译文的编码结果输入所述解码器的交叉注意力机制层后,依次经过所述解码器的线性处理层和softmax层,输出所述待翻译原文的译文。
在上述各实施例的基础上,本实施例中所述掩码包括括号和预设字符;其中,所述预设字符位于所述括号内部。
在上述实施例的基础上,本实施例中若所述差异部分为多个,则替换每个所述差异部分映射的译文的掩码还包括每个差异部分的编号,所述编号位于所述括号内部。
在上述各实施例的基础上,本实施例中还包括映射模块,用于将所述语料原文和所述语料原文的译文进行词对齐;根据词对齐结果,将所述差异部分映射到所述语料原文的译文。
在上述各实施例的基础上,本实施例中所述机器翻译模型为Transformer模型。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行基于翻译记忆库的机器翻译方法,该方法包括:从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于翻译记忆库的机器翻译方法,该方法包括:从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于翻译记忆库的机器翻译方法,该方法包括:从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于翻译记忆库的机器翻译方法,其特征在于,包括:
从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;
将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;
将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;
将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;
其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
2.根据权利要求1所述的基于翻译记忆库的机器翻译方法,其特征在于,所述将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文,包括:
将所述待翻译原文输入所述机器翻译模型的第一编码器,输出所述待翻译原文的编码结果;
将所述替换后的语料原文的译文输入所述机器翻译模型的第二编码器,输出所述语料原文的译文的编码结果;
将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文。
3.根据权利要求2所述的基于翻译记忆库的机器翻译方法,其特征在于,所述将所述待翻译原文的编码结果和语料原文的译文的编码结果输入所述机器翻译模型的解码器,输出所述待翻译原文的译文,包括:
将所述待翻译原文的编码结果和目标文本的译文的编码结果输入所述解码器的交叉注意力机制层后,依次经过所述解码器的线性处理层和softmax层,输出所述待翻译原文的译文。
4.根据权利要求1-3任一所述的基于翻译记忆库的机器翻译方法,其特征在于,所述掩码包括括号和预设字符;其中,所述预设字符位于所述括号内部。
5.根据权利要求4所述的基于翻译记忆库的机器翻译方法,其特征在于,若所述差异部分为多个,则替换每个所述差异部分映射的译文的掩码还包括每个差异部分的编号,所述编号位于所述括号内部。
6.根据权利要求1-3任一所述的基于翻译记忆库的机器翻译方法,其特征在于,所述将所述差异部分映射到所述语料原文的译文,包括:
将所述语料原文和所述语料原文的译文进行词对齐;
根据词对齐结果,将所述差异部分映射到所述语料原文的译文。
7.根据权利要求1-3任一所述的基于翻译记忆库的机器翻译方法,其特征在于,所述机器翻译模型为Transformer模型。
8.一种基于翻译记忆库的机器翻译装置,其特征在于,包括:
查找模块,用于从翻译记忆库中查找与待翻译原文相似度最高的语料原文和所述语料原文的译文;
比较模块,用于将所述待翻译原文和所述语料原文进行比较,获取所述语料原文中与所述待翻译原文不同的差异部分;
替换模块,用于将所述差异部分映射到所述语料原文的译文,将所述语料原文的译文中差异部分映射的译文替换为掩码;
翻译模块,用于将替换后的语料原文的译文和所述待翻译原文作为机器翻译模型的输入,输出所述待翻译原文的译文;
其中,所述机器翻译模型由翻译原文样本作为样本,所述翻译原文样本对应的译文作为标签进行训练获得。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于翻译记忆库的机器翻译方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于翻译记忆库的机器翻译方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203208.3A CN112818712B (zh) | 2021-02-23 | 2021-02-23 | 基于翻译记忆库的机器翻译方法及装置 |
PCT/CN2021/126674 WO2022179149A1 (zh) | 2021-02-23 | 2021-10-27 | 基于翻译记忆库的机器翻译方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203208.3A CN112818712B (zh) | 2021-02-23 | 2021-02-23 | 基于翻译记忆库的机器翻译方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818712A true CN112818712A (zh) | 2021-05-18 |
CN112818712B CN112818712B (zh) | 2024-06-11 |
Family
ID=75865183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110203208.3A Active CN112818712B (zh) | 2021-02-23 | 2021-02-23 | 基于翻译记忆库的机器翻译方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112818712B (zh) |
WO (1) | WO2022179149A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420570A (zh) * | 2021-07-01 | 2021-09-21 | 沈阳创思佳业科技有限公司 | 一种用于提升翻译准确性的方法、系统及装置 |
CN114429144A (zh) * | 2021-12-28 | 2022-05-03 | 华东师范大学 | 一种运用辅助记忆的多样性机器翻译方法 |
WO2022179149A1 (zh) * | 2021-02-23 | 2022-09-01 | 语联网(武汉)信息技术有限公司 | 基于翻译记忆库的机器翻译方法及装置 |
CN115860015A (zh) * | 2022-12-29 | 2023-03-28 | 北京中科智加科技有限公司 | 一种基于翻译记忆的转写文本翻译方法和计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140350913A1 (en) * | 2013-05-23 | 2014-11-27 | Fujitsu Limited | Translation device and method |
CN109408834A (zh) * | 2018-12-17 | 2019-03-01 | 北京百度网讯科技有限公司 | 辅助机器翻译方法、装置、设备及存储介质 |
CN110046359A (zh) * | 2019-04-16 | 2019-07-23 | 苏州大学 | 基于样例指导的神经机器翻译方法 |
CN110532575A (zh) * | 2019-08-21 | 2019-12-03 | 语联网(武汉)信息技术有限公司 | 文本翻译方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140163951A1 (en) * | 2012-12-07 | 2014-06-12 | Xerox Corporation | Hybrid adaptation of named entity recognition |
CN107885737B (zh) * | 2017-12-27 | 2021-04-27 | 传神语联网网络科技股份有限公司 | 一种人机互动翻译方法及系统 |
CN109710951B (zh) * | 2018-12-27 | 2023-10-17 | 北京百度网讯科技有限公司 | 基于翻译历史的辅助翻译方法、装置、设备及存储介质 |
CN112818712B (zh) * | 2021-02-23 | 2024-06-11 | 语联网(武汉)信息技术有限公司 | 基于翻译记忆库的机器翻译方法及装置 |
-
2021
- 2021-02-23 CN CN202110203208.3A patent/CN112818712B/zh active Active
- 2021-10-27 WO PCT/CN2021/126674 patent/WO2022179149A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140350913A1 (en) * | 2013-05-23 | 2014-11-27 | Fujitsu Limited | Translation device and method |
CN109408834A (zh) * | 2018-12-17 | 2019-03-01 | 北京百度网讯科技有限公司 | 辅助机器翻译方法、装置、设备及存储介质 |
CN110046359A (zh) * | 2019-04-16 | 2019-07-23 | 苏州大学 | 基于样例指导的神经机器翻译方法 |
CN110532575A (zh) * | 2019-08-21 | 2019-12-03 | 语联网(武汉)信息技术有限公司 | 文本翻译方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022179149A1 (zh) * | 2021-02-23 | 2022-09-01 | 语联网(武汉)信息技术有限公司 | 基于翻译记忆库的机器翻译方法及装置 |
CN113420570A (zh) * | 2021-07-01 | 2021-09-21 | 沈阳创思佳业科技有限公司 | 一种用于提升翻译准确性的方法、系统及装置 |
CN113420570B (zh) * | 2021-07-01 | 2024-04-30 | 沈阳创思佳业科技有限公司 | 一种用于提升翻译准确性的方法、系统及装置 |
CN114429144A (zh) * | 2021-12-28 | 2022-05-03 | 华东师范大学 | 一种运用辅助记忆的多样性机器翻译方法 |
CN115860015A (zh) * | 2022-12-29 | 2023-03-28 | 北京中科智加科技有限公司 | 一种基于翻译记忆的转写文本翻译方法和计算机设备 |
CN115860015B (zh) * | 2022-12-29 | 2023-06-20 | 北京中科智加科技有限公司 | 一种基于翻译记忆的转写文本翻译方法和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112818712B (zh) | 2024-06-11 |
WO2022179149A1 (zh) | 2022-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818712B (zh) | 基于翻译记忆库的机器翻译方法及装置 | |
JP5356197B2 (ja) | 単語意味関係抽出装置 | |
CN111723575A (zh) | 识别文本的方法、装置、电子设备及介质 | |
CN110110334B (zh) | 一种基于自然语言处理的远程会诊记录文本纠错方法 | |
CN105677857B (zh) | 一种关键词与营销落地页的精准匹配方法和装置 | |
CN109471793A (zh) | 一种基于深度学习的网页自动化测试缺陷定位方法 | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN112417897B (zh) | 词对齐模型训练、文本处理的方法、系统、设备和介质 | |
CN110334186A (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN106547743B (zh) | 一种进行翻译的方法及其系统 | |
CN112541365B (zh) | 基于术语替换的机器翻译方法及装置 | |
CN111563384A (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN111814493B (zh) | 机器翻译方法、装置、电子设备和存储介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
Nithya et al. | A hybrid approach to English to Malayalam machine translation | |
CN112989829B (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN115455922B (zh) | 表单校验方法、装置、电子设备和存储介质 | |
CN109684395B (zh) | 一种基于自然语言处理的可视化数据接口通用解析方法 | |
CN111222345A (zh) | 基于语义分词技术的地名地址可视化分析方法 | |
Shi et al. | Neural Chinese word segmentation as sequence to sequence translation | |
CN111597302A (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
CN110851572A (zh) | 会话标注方法、装置、存储介质及电子设备 | |
CN112988962A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN113919371B (zh) | 一种翻译语料库的匹配方法 | |
Gad et al. | Source code generation-based on NLP and ontology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |