CN114185573A

CN114185573A - 一种人机交互机器翻译系统的实现和在线更新系统及方法

Info

Publication number: CN114185573A
Application number: CN202111348672.8A
Authority: CN
Inventors: 曾辉
Original assignee: Jiaguyi Beijing Language Technology Co ltd
Current assignee: Jiaguyi Beijing Language Technology Co ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-03-15

Abstract

本发明具体涉及一种人机交互机器翻译系统的实现和在线更新系统和方法，该系统包括具备术语干预能力的机器翻译模块、记忆库翻译片段抽取模块、交互式翻译提示模块和翻译模型在线更新模块；具备术语干预能力的机器翻译模块用于在生成的译文中融入指定术语；记忆库翻译片段抽取模块用于抽取出高质量的双语翻译片段；交互式翻译提示模块用于在交互式机器翻译过程中给出提示；翻译模型在线更新模块用于利用新确认的翻译句在线更新模型参数。本发明的系统对术语进行干预，提高特殊词汇翻译的准确性；且该系统让人和机器翻译系统进行交互，能够在不断修正中生成更好的译文，更新快速。

Description

一种人机交互机器翻译系统的实现和在线更新系统及方法

技术领域

本发明属于语言处理技术领域，具体涉及一种人机交互机器翻译系统的实现和在线更新系统及方法。

背景技术

随着深度学习技术的飞速发展，基于深度神经网络的机器翻译在质量上已实现质的飞跃。同时越来越多的公司开始推出人机交互机器翻译平台(以下简称人机翻译平台)，实现机器翻译和机器翻译翻译(CAT)之间的整合。人工译员借助人机翻译平台将机器翻译后的文本结果进行译后编辑，然后译后编辑的句对作为翻译资源加入记忆库，并作为下次类似文本翻译的推荐，同时人机交互翻译时可加入术语用于纠正翻译错误的词汇或短语。在一些政府机构或一些与互联网隔绝的单位，人机翻译平台使得机器翻译和机器辅助翻译形成优势互补，在大幅提升了翻译效率同时，也积累部分经过人工校译的高质量平行语料。

但是，在实际应用中，经常会遇到公司名称、品牌名称、产品名称等专有名词和行业术语，比如，对于“甲骨易”这个专有名词，不同的机器翻译系统给出的结果不一样:“Oracle Easy”、“Oracle is easy”、“Oracle bone Yi”等等，而它正确的翻译应该为“Besteasy”。对于这些类似的特殊词汇，机器翻译模型很难翻译准确。一方面是因为模型大多采用通用数据集训练，并不能保证数据集能涵盖所有的语言表达。另一方面，即使训练数据中包含这些术语，它们通常也是低频的，模型不容易捕捉其规律。为了保证翻译的准确性，对术语翻译进行干预是十分有必要的。

发明内容

为了解决现有技术中存在的特殊词汇翻译不准确的问题，本发明提供了一种人机交互机器翻译系统的实现和在线更新系统及方法，在生成的译文中融入指定术语对术语进行干预，提高特殊词汇翻译的准确性。本发明要解决的技术问题通过以下技术方案实现：

一种人机交互机器翻译系统的实现和在线更新系统，包括：具备术语干预能力的机器翻译模块、记忆库翻译片段抽取模块、交互式翻译提示模块和翻译模型在线更新模块；

所述具备术语干预能力的机器翻译模块用于在生成的译文中融入指定术语；

所述记忆库翻译片段抽取模块用于抽取出高质量的双语翻译片段；

所述交互式翻译提示模块用于在交互式机器翻译过程中给出提示；

所述翻译模型在线更新模块用于利用新确认的翻译句在线更新模型参数。

进一步地，上述记忆库翻译片段抽取模块包括预先抽取和实时抽取；

所述预先抽取是指从预先挂载的记忆库中抽取可重复利用的双语对应片段；

所述实时抽取是指译员在完成一个句子的翻译后，从单个句子中抽取可重复利用的双语对应片段。

进一步地，上述记忆库是指双语句子对构成的集合，一般由译员之前的翻译工作积累而来。

进一步地，上述交互式机器翻译的流程为：机器翻译系统根据用户输入的源语言句子补全后半句译文，用户继续确认一部分译文，翻译系统根据用户的反馈信息再次补全译文，以此循环，直到得到最终的译文。

进一步地，交互式机器翻译过程中给出的提示为：字符级单词补全提示、单词级提示、记忆库可用片段提示以及后半句整句提示。

一种人机交互机器翻译系统的实现和在线更新方法，主要包括如下步骤：

步骤一：在生成的译文中融入指定术语；

步骤二：抽取出高质量的双语翻译片段；

步骤三：交互式机器翻译过程中，系统给出提示；

步骤四：利用新确认的翻译句在线更新模型参数。

进一步地，上述步骤一具体为：在解码时开辟多个搜索路径，比如采用10个译文生成路径，在第一个位置上选择概率最高的10个单词分别作为10个译文路径的起始点，接着在每条路径的第二个位置同样选择概率最高的10个单词，此时就产生了100种组合，取分数最高的前10个序列组合，然后继续进行第三个位置的搜索；如果将译文看作一个序列，序列中的每个单词都有一个位置，借助于机器翻译模型学到的成分对应关系，可以估算出原文术语可能对应于译文序列的第一个或第二个位置；如果在第一个位置进行目标单词搜索时，恰好出现在概率最高的前10个单词中，则直接将其选中作为译文候选词，然后继续搜索并生成后续译文；如果在第一个位置进行目标单词搜索时，没有在概率最高的前10个单词中，则将其概率提高到前十位置，然后继续搜索并生成后续译文；确保在最后生成的译文中一定包含目标单词，而且目标单词会出现在合理的位置上。

进一步地，上述步骤一具体为：在将译文输入机器翻译模型之前将其替换为术语占位符，在模型翻译完成后再将术语替换回来；该方法需要在模型训练时候加入TERM_1这类占位符进行数据增强。

进一步地，上述步骤一具体为：所述步骤三中系统给出的提示为字符级单词补全提示、单词级提示、记忆库可用片段提示和后半句整句提示。

与现有技术相比，本发明的有益效果：

1.本发明的人机交互机器翻译系统的实现和在线更新系统设计了具备术语干预能力的机器翻译模块，在生成的译文中融入指定术语，对术语进行干预，提高特殊词汇翻译的准确性；

2.本发明的人机交互机器翻译系统的实现和在线更新系统，融合定制术语的机器翻译系统在生成译文时会产生多个版本的译文，每个位置生成多个候选词，让用户的行为直接影响机器翻译生成译文的过程，让人和机器翻译系统进行交互，能够在不断修正中生成更好的译文；

3.本发明的人机交互机器翻译系统的实现和在线更新系统设计了翻译模型在线更新模块，用于利用新确认的翻译句在线更新模型参数，避免了使用全量数据训练模型周期长、成本高的问题，该系统在原来模型的基础上增加一个可在线学习的模块，每次有新增数据时，只更新这个新增模块的参数，不改变原始大模型的参数，这就保证了模型既保留了之前模型的知识又学到了新语料中的知识，从而实现快速更新的目的。

附图说明

图1是本发明人机交互机器翻译系统的实现和在线更新系统的结构框图。

图2是本发明人机交互机器翻译系统的实现和在线更新系统的总体流程图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

为了解决现有技术中存在的特殊词汇翻译不准确的问题，本发明提供了一种人机交互机器翻译系统的实现和在线更新系统。参照附图1，该人机交互机器翻译系统的实现和在线更新系统，包括：具备术语干预能力的机器翻译模块、记忆库翻译片段抽取模块、交互式翻译提示模块和翻译模型在线更新模块。

其中，具备术语干预能力的机器翻译模块用于在生成的译文中融入指定术语；记忆库翻译片段抽取模块用于抽取出高质量的双语翻译片段；交互式翻译提示模块用于在交互式机器翻译过程中给出提示；翻译模型在线更新模块用于利用新确认的翻译句在线更新模型参数。

具备术语干预能力的机器翻译模块，主要在基础机器翻译模型中加入术语干预能力。对于特殊词汇，机器翻译模型很难翻译准确。一方面是因为模型大多采用通用数据集训练，并不能保证数据集能涵盖所有的语言表达。另一方面，即使训练数据中包含这些术语，它们通常也是低频的，模型不容易捕捉其规律。为了保证翻译的准确性，对术语翻译进行干预是十分有必要的。

本实施例在基础机器翻译模型中加入术语干预能力的方法有两种：

方法1：

拿“甲骨易是一家伟大的语言科技公司。”这句话为例，常规机器翻译解码效果及过程如下：Oracle is a great language technology company.

“甲骨易”对于大多数机器翻译引擎来说是一个从未见过的生词，因此大都会被翻译为“Oracle”，我们从第一个词开始分析解码过程：模型在生成第一个译文词的时候，会参考一个单词概率表，其中Oracle这个单词的概率可能是0.95，其他的所有单词的概率可能都在0.05以下。于是选择Oracle作为译文的第一个单词。接着在生成第二个词时同样要查询单词概率表，可能会出现Easy、is、bone等等多个选项，概率分别为0.7、0.1、0.05等等，选概率最高的Easy作为译文的第二个单词。后面的生成过程重复前述过程，直到本句话翻译完成。

如何对机器翻译引擎进行干预使它将“甲骨易”正确地翻译为“Besteasy”呢？在解码时可以开辟多个搜索路径，比如采用10个译文生成路径，也就是说在第一个位置上选择概率最高的10个单词分别作为10个译文路径的起始点，接着在每条路径的第二个位置同样选择概率最高的10个单词，此时就产生了100种组合，取分数最高的前10个序列组合，然后继续进行第三个位置的搜索。如果将译文看作一个序列，序列中的每个单词都有一个位置，借助于机器翻译模型学到的成分对应关系，可以估算出原文术语“甲骨易”可能对应于译文序列的第一个或第二个位置。

如果在第一个位置进行搜索时“Besteasy”恰好出现在概率最高的前10个单词中，则直接将其选中作为译文候选词，然后继续搜索并生成后续译文。如果在第一个位置进行搜索时“Besteasy”没有在概率最高的前10个单词中，则将其概率提高到前十位置，然后继续搜索并生成后续译文。

这样就可以确保在最后生成的译文中一定包含“Besteasy”这个单词，而且它会出现在合理的位置上，如下：Besteasy is a great language technology company.

方法2：

在将译文输入机器翻译模型之前将其替换为术语占位符，在模型翻译完成后再将术语替换回来。

假设术语组合为“甲骨易”“Besteasy”“甲骨易是一家伟大的语言科技公司。”替换后变为“TERM_1是一家伟大的语言科技公司。”翻译结果为“TERM_1 is a great languagetechnology company.”进行译后替换得到“Besteasy is a great language technologycompany.”

上述方法需要在模型训练时候加入TERM_1这类占位符进行数据增强。因此一般需要定义好术语占位符并专门训练模型。

在实际生产环境中，为了保证术语的准确运用，将两种方式结合使用。

本实施例的记忆库翻译片段抽取模块分为预先抽取和实时抽取两种方式。

预先抽取是指从预先挂载的记忆库中抽取可重复利用的双语对应片段。记忆库是指双语句子对构成的集合，一般由译员之前的翻译工作积累而来。

比如“甲骨易是一家伟大的语言科技公司。”“Besteasy is a great languagetechnology company.”就是一个双语句对，很多个这样的双语句对就可以构成翻译记忆库。译员在翻译文稿时，只有源句子与记忆库中的源句子100％匹配才能直接应用记忆库中的翻译。假如我们翻译“XXX是一家伟大的语言科技公司。”，由于与记忆库中的原文不同，所以无法应用“Besteasy is a great language technology company.”这一句译文。但是我们发现两句话中都有“语言科技公司”这个片段，如果能够提取出它的英文译文，就可以直接应用。如何提取这个双语对应片段呢？

假设记忆库中有以下四个句对：“甲骨易是一家伟大的语言科技公司。”“Besteasyis a great language technology company.”“语言科技公司甲骨易擅长影视译制。”“Language technology company Besteasy is good at film and televisiondubbing.”“语言科技公司要拥有核心自然语言处理技术。”“Language technologycompany must have core natural language processing technologies.”“语言科技公司要有社会责任感。”“Language technology company must have a sense of socialresponsibility.”

真实生产环境中的句对数量可能为几千或者几万条。此处为举例方便假设记忆库中有四个句对。

如果对平行句对文本进行一些统计计算，会发现“语言科技公司”总是与“language technology company”同时出现。我们用片段共现的频率来近似估计“语言科技公司”与各个英文片段互为译文的概率：

“语言科技公司”与“language technology company”同时出现的次数为4次，记忆库总共4条句对，因此其为互译片段的概率近似为4/4＝100％。

因此“语言科技公司”的英文译文为“language technology company”的概率最高，远远高于其他片段，可将其抽取为双语片段。

实时抽取是指译员在完成一个句子的翻译后，从单个句子中抽取可重复利用的双语对应片段。

拿以下句对为例：“语言科技公司要有社会责任感。”“Language technologycompany must have a sense of social responsibility.”

先将源语言句子和目标语言句子进行成分分析，切分为片段如下：“语言科技公司——要有——社会责任感。”“Language technology company——must have——asense of social responsibility.”借助于机器翻译模型将源语言片段翻译为英文片段为：“Language technological enterprise——shall have——social responsibilitysenses.”

采用预训练语言表示模型将记忆库英文片段和机器翻译得来的英文片段转换为数值化的向量，然后进行语义相似度计算如下：

接下来可以衡量句子片段的对齐程度，抽取出对齐度超过阈值的片段。

上例中可以抽出以下高质量片段：“语言科技公司”“Language technologycompany”“社会责任感”“a sense of social responsibility”。

交互式机器翻译的大致流程如下：机器翻译系统根据用户输入的源语言句子补全后半句译文，用户继续确认一部分译文，翻译系统根据用户的反馈信息再次补全译文，以此循环，直到得到最终的译文。

在这一动态的过程中，系统给出四种提示：字符级单词补全提示、单词级提示、记忆库可用片段提示以及后半句整句提示。

拿“甲骨易是一家伟大的智能语言科技公司。”这句话的翻译过程为例：可用的记忆库片段为“语言科技公司”“language technology company”。可用的术语为“甲骨易”“Besteasy”。机器翻译模型首先给出一个基础译文：“Oracle is a great smart languagetechnology company.”

下表列出用户的输入以及用户的提示：

融合定制术语的机器翻译系统在生成译文时会产生多个版本的译文，每个位置生成多个候选词。如果用户输入的字符与候选译文词或可用记忆库片段中的字符匹配，则补全该候选词以及记忆库片段。用户确认一个完整的单词后，提供多个候选词提示以及后半句补全提示。

让用户的行为直接影响机器翻译生成译文的过程，让人和机器翻译系统进行交互，在不断的修正中生成更好的译文。

系统在应用中会产生新的数据，这些数据经过一些筛选和修改也可以用于模型训练。这时就产生一个问题，能否使用新的数据让系统变得更好？简单直接的方式是，将新的数据和原始数据混合重新训练系统，但是使用全量数据训练模型的周期很长，这种方法的成本很高。而且，新的数据可能是不断产生的，甚至是流式的。这时就需要一种快速、低成本的方式对模型进行更新。新的数据虽然能代表一部分的翻译现象，但是如果仅仅依赖新数据进行更新，会使模型对新数据过分拟合，从而无法很好地处理新数据之外的样本。这也可以被看作是一种灾难性遗忘的问题。

常规机器翻译模型训练过程如下：

首先对模型进行初始化，然后在源语言特征提取器中输入包含结束符的源语言单词序列。目标语言生成器每个位置单词的预测都要依赖已经生成的序列。在目标语言生成器输入包含起始符号的目标语言序列，通过起始符号预测目标语言的第一个单词，用真实的目标语言的第一个单词去预测第二个单词，以此类推，然后用真实的目标语言序列和预测的结果比较，计算它的损失，损失越小说明模型的预测越接近真实输出。

这种训练需要采用平行句对，例如一句中文对应一句英文，可用于生产环境的机器翻译模型训练所需要的平行句对数量通常是以亿为单位。模型在这一批亿级句对语料上训练收敛后，再用其搭建网络服务，提供机器翻译网络服务。

这种方式的优点是模型学到了所有语料中的知识，缺点是无法快速学习新增语料中的知识。如果以之前训练好的模型为起点，再用新的数据继续训练，模型会过度地拟合新增的数据，从而忘记之前学到的大量语料中的知识。

本实施例在线更新方案：

为了解决这个问题，本实施例的人机交互机器翻译系统的实现和在线更新系统在原来模型的基础上增加一个可在线学习的模块，每次有新增数据时，只更新这个新增模块的参数，不改变原始大模型的参数，这就保证了模型既保留了之前模型的知识又学到了新语料中的知识，从而实现快速更新的目的。

本实施例还通过了一种人机交互机器翻译系统的实现和在线更新方法，主要包括如下步骤：

步骤一：在生成的译文中融入指定术语；

步骤二：抽取出高质量的双语翻译片段；

步骤三：交互式机器翻译过程中，系统给出提示；

步骤四：利用新确认的翻译句在线更新模型参数。

步骤一的在生成的译文中融入指定术语，一种方法为：在解码时开辟多个搜索路径，比如采用10个译文生成路径，在第一个位置上选择概率最高的10个单词分别作为10个译文路径的起始点，接着在每条路径的第二个位置同样选择概率最高的10个单词，此时就产生了100种组合，取分数最高的前10个序列组合，然后继续进行第三个位置的搜索；如果将译文看作一个序列，序列中的每个单词都有一个位置，借助于机器翻译模型学到的成分对应关系，可以估算出原文术语可能对应于译文序列的第一个或第二个位置；如果在第一个位置进行目标单词搜索时，恰好出现在概率最高的前10个单词中，则直接将其选中作为译文候选词，然后继续搜索并生成后续译文；如果在第一个位置进行目标单词搜索时，没有在概率最高的前10个单词中，则将其概率提高到前十位置，然后继续搜索并生成后续译文；确保在最后生成的译文中一定包含目标单词，而且目标单词会出现在合理的位置上。

步骤一的在生成的译文中融入指定术语，另一种方法为：在将译文输入机器翻译模型之前将其替换为术语占位符，在模型翻译完成后再将术语替换回来；该方法需要在模型训练时候加入TERM_1这类占位符进行数据增强。

交互式机器翻译过程中，系统给出的提示为字符级单词补全提示、单词级提示、记忆库可用片段提示和后半句整句提示。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种人机交互机器翻译系统的实现和在线更新系统，其特征在于：包括：具备术语干预能力的机器翻译模块、记忆库翻译片段抽取模块、交互式翻译提示模块和翻译模型在线更新模块；

2.根据权利要求1所述的人机交互机器翻译系统的实现和在线更新系统，其特征在于，所述记忆库翻译片段抽取模块包括预先抽取和实时抽取；

3.根据权利要求2所述的人机交互机器翻译系统的实现和在线更新系统，其特征在于，所述记忆库是指双语句子对构成的集合，一般由译员之前的翻译工作积累而来。

4.根据权利要求1所述的人机交互机器翻译系统的实现和在线更新系统，其特征在于，所述交互式机器翻译的流程为：机器翻译系统根据用户输入的源语言句子补全后半句译文，用户继续确认一部分译文，翻译系统根据用户的反馈信息再次补全译文，以此循环，直到得到最终的译文。

5.根据权利要求1所述的人机交互机器翻译系统的实现和在线更新系统，其特征在于，交互式机器翻译过程中给出的提示为：字符级单词补全提示、单词级提示、记忆库可用片段提示以及后半句整句提示。

6.一种人机交互机器翻译系统的实现和在线更新方法，其特征在于：主要包括如下步骤：

步骤一：在生成的译文中融入指定术语；

步骤二：抽取出高质量的双语翻译片段；

步骤三：交互式机器翻译过程中，系统给出提示；

步骤四：利用新确认的翻译句在线更新模型参数。

7.根据权利要求6所述的人机交互机器翻译系统的实现和在线更新方法，其特征在于：所述步骤一具体为：在解码时开辟多个搜索路径，比如采用10个译文生成路径，在第一个位置上选择概率最高的10个单词分别作为10个译文路径的起始点，接着在每条路径的第二个位置同样选择概率最高的10个单词，此时就产生了100种组合，取分数最高的前10个序列组合，然后继续进行第三个位置的搜索；如果将译文看作一个序列，序列中的每个单词都有一个位置，借助于机器翻译模型学到的成分对应关系，可以估算出原文术语可能对应于译文序列的第一个或第二个位置；如果在第一个位置进行目标单词搜索时，恰好出现在概率最高的前10个单词中，则直接将其选中作为译文候选词，然后继续搜索并生成后续译文；如果在第一个位置进行目标单词搜索时，没有在概率最高的前10个单词中，则将其概率提高到前十位置，然后继续搜索并生成后续译文；确保在最后生成的译文中一定包含目标单词，而且目标单词会出现在合理的位置上。

8.根据权利要求6所述的人机交互机器翻译系统的实现和在线更新方法，其特征在于：所述步骤一具体为：在将译文输入机器翻译模型之前将其替换为术语占位符，在模型翻译完成后再将术语替换回来；该方法需要在模型训练时候加入TERM_1这类占位符进行数据增强。

9.根据权利要求6所述的人机交互机器翻译系统的实现和在线更新方法，其特征在于：所述步骤一具体为：所述步骤三中系统给出的提示为字符级单词补全提示、单词级提示、记忆库可用片段提示和后半句整句提示。