CN113343717A

CN113343717A - 一种基于翻译记忆库的神经机器翻译方法

Info

Publication number: CN113343717A
Application number: CN202110661294.2A
Authority: CN
Inventors: 杜权; 杨迪
Original assignee: Shenyang Yaze Network Technology Co ltd
Current assignee: Shenyang Yaze Network Technology Co ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-09-03

Abstract

本发明公开一种基于翻译记忆库的神经机器翻译方法，步骤为：从含有外文数据的网络中爬取海量双语数据；对双语数据进行预处理，得到处理后的双语数据；将一半双语数据存储为翻译记忆库基础数据，另一半使用搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子；将训练语料数据和翻译记忆库数据一起输入到神经网络模型中开始训练模型；导入用户自定义的数据到翻译记忆库中；对用户实时输入的文本搜索找到翻译记忆库中与该文本最相似的句子，输入到机器翻译模型中，在解码端使用门控机制指导模型翻译；将用户输入的句子和修订后的结果存入翻译记忆库。本发明应用先进的神经机器翻译技术，翻译效果优越，满足不同用户对翻译译文的高质量要求。

Description

一种基于翻译记忆库的神经机器翻译方法

技术领域

本发明涉及一种神经机器翻译方法，具体为基于翻译记忆库的神经机器翻译方法。

背景技术

机器翻译是利用计算机将一种自然语言转换为另一种自然语言的过程。随着互联网的飞速发展，机器翻译在经济、文化交流、政治等各个方面起到越来越重要的作用，这也体现了机器翻译的实用价值。机器翻译的最大优点是速度快，只需输入一段文字即可看到结果。而现在很多软件也实现了整段文字和整篇文章的翻译，这种速度是人力所无法比拟的。

神经机器翻译(Neural Machine Translation，NMT)是一种基于深度学习的机器翻译方法，它在大规模并行语料库存在的情况下提供了最先进的翻译性能。神经机器翻译允许翻译系统的端到端训练，而不需要处理词对齐、翻译规则和复杂的解码算法，这些是统计机器翻译(SMT)系统的特征。神经机器翻译依赖于深入学习来训练翻译模型。

翻译记忆库是一个数据库，存储以前翻译过的句子、段落或文本句段。翻译记忆库中的每个条目或每个句段均包含源文及其翻译。译者首先提供一段来源文字(即要拿来被翻译的文字)给翻译记忆库，程式会先分析这段文字，试着在数据库里找寻既有的翻译区段是否与过去曾经翻译过的文字相符。如果找到相符的旧有翻译(legacy translationpairs)，则会呈现出来给译者检阅。译者可以选择接受旧有的翻译、拒绝、或是加以修改。若加以修改，则修改的版本也会被记录并存进数据库里。这意味着以前翻译过的句子、段落或文本句段再也不需要重新翻译。某些翻译记忆库系统只会搜寻100％相符的文字，也就是说这只会将新的来源文字与数据库内做精确的比对，只有完全相符的资料才会被提出。也有其他的系统会使用模糊比对原理来找寻相似的区段，并且会用特别的标记呈现给译者使其易于辨认。有一点很重要的是一般的翻译记忆系统只会从其数据库里搜寻来源语言，完全无相似的文字区段将必须由译者手动的翻译，这些新翻译的文字区段会被存进数据库里，则未来的翻译将有可能因为来源文字重复出现而可以马上被采用。

发明内容

针对现有技术中翻译记忆库只能应用在重复度较高的文本上等不足，本发明要解决的技术问题是提供一种基于翻译记忆库的神经机器翻译方法，利用海量的真实语料，使用先进的神经机器翻译技术，配合翻译记忆库的信息，把重复度较低的文本进行机器翻译，达到用户对翻译结果的高质量要求。

为解决上述技术问题，本发明采用的技术方案是：

本发明提供一种基于翻译记忆库的神经机器翻译方法，包括以下步骤：

1)通过网络爬虫技术从含有外文数据的网络中爬取海量双语数据；

2)对双语数据进行清洗过滤、分词、子词切分预处理，得到处理后的双语数据；

3)将一半处理后的双语数据存储为翻译记忆库基础数据，另一半作为训练语料，使用搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子；

4)将训练语料数据和翻译记忆库数据一起输入到神经网络模型中开始训练模型至模型收敛；

5)导入用户自定义的数据到翻译记忆库中，形成更符合用户习惯的自定义翻译记忆库；

6)对用户实时输入的文本进行模糊搜索，找到翻译记忆库中与该文本最相似的句子，并一起输入到机器翻译模型中，在解码端使用门控机制指导模型翻译；

7)将用户输入的句子和修订后的结果存入翻译记忆库。

步骤4)中，训练神经网络模型至模型收敛，具体为：

401)用双编码器结构分别对训练语料数据和翻译记忆库数据进行编码；

402)结合两种编码训练神经网络模型至模型收敛。

步骤6)中，在机器翻译模型的解码端使用门控机制指导翻译，具体为：

601)将用户输入句子和翻译记忆查找结果一起输入翻译模型；

602)使用门控机制结合翻译记忆和源语句指导神经网络模型翻译，得到翻译结果；

603)门控机制计算具体公式为：

g^tm＝f(s_t-1,y_t-1,c^src,c^tm_t)

s_t-1为前置隐藏层状态，y_t-1为前置预测目标词，c^src为用户输入句子，c^tm_t为翻译记忆，f为激活函数。

本发明具有以下有益效果及优点：

1.本发明方法可确保翻译文件的一致性，包含通用定义、语法或措词、以及专用术语，针对多个译者同时在翻译一个专案或文件时相当重要。降低长时间的翻译专案的开销；以使用手册为例，警告讯息这类大量重复的文字仅需被翻译一次，便重复被使用；加速整体翻译的速度，即翻译记忆库已“记忆”先前已翻译过的素材，译者针对重复的文字仅需翻译一次。针对大型文件的专案而言，即使在首次翻译时翻译记忆库的使用效益并不明显，但当进行该专案的衍生专案(例如文件的修订版)时，翻译记忆库的使用便可大幅节省翻译的时间与成本。

2.本发明通过网络爬虫技术从网络中爬取海量数据，训练模型可以得到高质量的神经网络机器翻译模型，很好地处理了重复度比较低、无法在翻译记忆库中找到相似句子的问题，并应用了先进的神经机器翻译技术对其进行翻译，使翻译效果十分优越。

3.本发明支持用户定制化，可以使用指定语料库训练神经机器翻译模型，增强指定领域的翻译性能。

附图说明

图1为本发明中双编码器结构图示；

图2为本发明中神经机器翻译模型构建图示；

图3为本发明中训练数据清洗处理流程图示；

图4为本发明中翻译记忆库使用图示。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

7)将用户输入的句子和修订后的结果存入翻译记忆库。

步骤1)中，通过网络爬虫技术从含有外文数据的网络中爬取海量双语数据，具体为：

101)从具有平行双语数据的网站中爬取大量的原始数据，作为翻译记忆库和训练的语料；

102)使用分布式的并行网络爬虫技术来爬取大量数据。

步骤2)中，对语料进行清洗过滤、分词、子词切分预处理，在翻译任务中，源语句子和目标语句子的长度一般不会相差太多，去除长度大于250个字符的句子，并且使用长度比过滤去除长度比大于1:1.5的句对，使用相同的分词工具对双语平行数据进行分词。

步骤3)中，使用搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子，具体为：

301)将句子转化为词向量表示方式；

302)使用模糊匹配方法对训练数据的每一个句子在翻译记忆库中进行查找最相似的句子。

步骤4)中，训练神经网络模型至模型收敛，具体为：

401)用双编码器结构分别对训练语料数据和翻译记忆库数据进行编码；双编码器结构如图1所示；

402)结合两种编码训练神经网络模型至模型收敛。

步骤5)中，导入用户自定义的数据到翻译记忆库中，形成更符合用户习惯的自定义翻译记忆库，满足不同用户对领域的高精度需求。

601)将用户输入句子和翻译记忆查找结果一起输入翻译模型；

603)门控机制计算具体公式为：

g^tm＝f(s_t-1,y_t-1,c^src,c^tm_t)

步骤7)中，将用户输入的句子和修订后的结果存入翻译记忆库，具体为：

701)将翻译结果显示给用户；

702)用户自行将结果进行修改，得到最终翻译结果；

703)将用户输入的句子和修订后的结果存入翻译记忆库。

如图2所示，首先通过网络爬虫技术从含有外文数据的网络中爬取海量双语数据，然后对双语数据进行清洗过滤、分词、子词切分预处理，得到处理后的双语数据；将一半双语数据存储为翻译记忆库基础数据将另一半双语数据作为训练语料，使用模糊搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子，最后将训练语料数据和翻译记忆库数据一起输入到神经网络模型中开始训练模型至模型收敛，得到神经网络模型。

通过数据爬虫脚本，共获取了2000万数据，然而获取到的数据并不能直接用来进行系统的训练，还需要进行分词和数据清洗。本实施例使用jieba分词作为中文和英文的分词工具，该工具较好的完成了分词工作，使数据中大部分词语被识别出来。使用了NiuTrans开源数据清洗工具，如图3所示，经过长度比过滤、去除HTML标签、乱码过滤、单词黏连过滤、大写过滤和重复翻译过滤后余下1400w数据用于后续训练、校验、测试。对中文和英文的数据，使用统一的子词切分方式和词表，最终的词表大小为32001，使用transformer big模型结构训练翻译模型。

如图4所示，用户使用时，首先导入用户自定义的数据到翻译记忆库中，形成更符合用户习惯的自定义翻译记忆库，然后对用户实时输入的文本进行模糊搜索，找到翻译记忆库中与该文本最相似的句子，在解码端使用门控机制指导模型翻译，用户可以自行将翻译结果进行订正，最后翻译记忆库将用户输入的句子和修订后的结果存入翻译记忆库。

本发明效果翻译效果对比如表1所示。

表1翻译效果对比

本发明在翻译时很好地满足不同用户对领域的高精度需求，根据用户的需要及翻译习惯添加自定义的翻译记忆库，利用用户自己存入翻译记忆库的数据正反馈地增强翻译系统的功能，并应用了先进的神经机器翻译技术，使翻译效果十分优越，以达到不同用户对翻译译文的高质量要求。

Claims

1.一种基于翻译记忆库的神经机器翻译方法，其特征在于包括以下步骤：

7)将用户输入的句子和修订后的结果存入翻译记忆库。

2.按权利要求1所述的基于翻译记忆库的神经机器翻译方法，其特征在于：步骤4)中，训练神经网络模型至模型收敛，具体为：

402)结合两种编码训练神经网络模型至模型收敛。

3.按权利要求1所述的基于翻译记忆库的神经机器翻译方法，其特征在于：步骤6)中，在机器翻译模型的解码端使用门控机制指导翻译，具体为：

601)将用户输入句子和翻译记忆查找结果一起输入翻译模型；

603)门控机制计算具体公式为：

g^tm＝f(s_t-1,y_t-1,c^src,c^tm_t)