CN113343717A - 一种基于翻译记忆库的神经机器翻译方法 - Google Patents

一种基于翻译记忆库的神经机器翻译方法 Download PDF

Info

Publication number
CN113343717A
CN113343717A CN202110661294.2A CN202110661294A CN113343717A CN 113343717 A CN113343717 A CN 113343717A CN 202110661294 A CN202110661294 A CN 202110661294A CN 113343717 A CN113343717 A CN 113343717A
Authority
CN
China
Prior art keywords
translation
data
translation memory
model
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110661294.2A
Other languages
English (en)
Inventor
杜权
杨迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yaze Network Technology Co ltd
Original Assignee
Shenyang Yaze Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yaze Network Technology Co ltd filed Critical Shenyang Yaze Network Technology Co ltd
Priority to CN202110661294.2A priority Critical patent/CN113343717A/zh
Publication of CN113343717A publication Critical patent/CN113343717A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于翻译记忆库的神经机器翻译方法,步骤为:从含有外文数据的网络中爬取海量双语数据;对双语数据进行预处理,得到处理后的双语数据;将一半双语数据存储为翻译记忆库基础数据,另一半使用搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子;将训练语料数据和翻译记忆库数据一起输入到神经网络模型中开始训练模型;导入用户自定义的数据到翻译记忆库中;对用户实时输入的文本搜索找到翻译记忆库中与该文本最相似的句子,输入到机器翻译模型中,在解码端使用门控机制指导模型翻译;将用户输入的句子和修订后的结果存入翻译记忆库。本发明应用先进的神经机器翻译技术,翻译效果优越,满足不同用户对翻译译文的高质量要求。

Description

一种基于翻译记忆库的神经机器翻译方法
技术领域
本发明涉及一种神经机器翻译方法,具体为基于翻译记忆库的神经机器翻译方法。
背景技术
机器翻译是利用计算机将一种自然语言转换为另一种自然语言的过程。随着互联网的飞速发展,机器翻译在经济、文化交流、政治等各个方面起到越来越重要的作用,这也体现了机器翻译的实用价值。机器翻译的最大优点是速度快,只需输入一段文字即可看到结果。而现在很多软件也实现了整段文字和整篇文章的翻译,这种速度是人力所无法比拟的。
神经机器翻译(Neural Machine Translation,NMT)是一种基于深度学习的机器翻译方法,它在大规模并行语料库存在的情况下提供了最先进的翻译性能。神经机器翻译允许翻译系统的端到端训练,而不需要处理词对齐、翻译规则和复杂的解码算法,这些是统计机器翻译(SMT)系统的特征。神经机器翻译依赖于深入学习来训练翻译模型。
翻译记忆库是一个数据库,存储以前翻译过的句子、段落或文本句段。翻译记忆库中的每个条目或每个句段均包含源文及其翻译。译者首先提供一段来源文字(即要拿来被翻译的文字)给翻译记忆库,程式会先分析这段文字,试着在数据库里找寻既有的翻译区段是否与过去曾经翻译过的文字相符。如果找到相符的旧有翻译(legacy translationpairs),则会呈现出来给译者检阅。译者可以选择接受旧有的翻译、拒绝、或是加以修改。若加以修改,则修改的版本也会被记录并存进数据库里。这意味着以前翻译过的句子、段落或文本句段再也不需要重新翻译。某些翻译记忆库系统只会搜寻100%相符的文字,也就是说这只会将新的来源文字与数据库内做精确的比对,只有完全相符的资料才会被提出。也有其他的系统会使用模糊比对原理来找寻相似的区段,并且会用特别的标记呈现给译者使其易于辨认。有一点很重要的是一般的翻译记忆系统只会从其数据库里搜寻来源语言,完全无相似的文字区段将必须由译者手动的翻译,这些新翻译的文字区段会被存进数据库里,则未来的翻译将有可能因为来源文字重复出现而可以马上被采用。
发明内容
针对现有技术中翻译记忆库只能应用在重复度较高的文本上等不足,本发明要解决的技术问题是提供一种基于翻译记忆库的神经机器翻译方法,利用海量的真实语料,使用先进的神经机器翻译技术,配合翻译记忆库的信息,把重复度较低的文本进行机器翻译,达到用户对翻译结果的高质量要求。
为解决上述技术问题,本发明采用的技术方案是:
本发明提供一种基于翻译记忆库的神经机器翻译方法,包括以下步骤:
1)通过网络爬虫技术从含有外文数据的网络中爬取海量双语数据;
2)对双语数据进行清洗过滤、分词、子词切分预处理,得到处理后的双语数据;
3)将一半处理后的双语数据存储为翻译记忆库基础数据,另一半作为训练语料,使用搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子;
4)将训练语料数据和翻译记忆库数据一起输入到神经网络模型中开始训练模型至模型收敛;
5)导入用户自定义的数据到翻译记忆库中,形成更符合用户习惯的自定义翻译记忆库;
6)对用户实时输入的文本进行模糊搜索,找到翻译记忆库中与该文本最相似的句子,并一起输入到机器翻译模型中,在解码端使用门控机制指导模型翻译;
7)将用户输入的句子和修订后的结果存入翻译记忆库。
步骤4)中,训练神经网络模型至模型收敛,具体为:
401)用双编码器结构分别对训练语料数据和翻译记忆库数据进行编码;
402)结合两种编码训练神经网络模型至模型收敛。
步骤6)中,在机器翻译模型的解码端使用门控机制指导翻译,具体为:
601)将用户输入句子和翻译记忆查找结果一起输入翻译模型;
602)使用门控机制结合翻译记忆和源语句指导神经网络模型翻译,得到翻译结果;
603)门控机制计算具体公式为:
gtm=f(st-1,yt-1,csrc,ctm_t)
st-1为前置隐藏层状态,yt-1为前置预测目标词,csrc为用户输入句子,ctm_t为翻译记忆,f为激活函数。
本发明具有以下有益效果及优点:
1.本发明方法可确保翻译文件的一致性,包含通用定义、语法或措词、以及专用术语,针对多个译者同时在翻译一个专案或文件时相当重要。降低长时间的翻译专案的开销;以使用手册为例,警告讯息这类大量重复的文字仅需被翻译一次,便重复被使用;加速整体翻译的速度,即翻译记忆库已“记忆”先前已翻译过的素材,译者针对重复的文字仅需翻译一次。针对大型文件的专案而言,即使在首次翻译时翻译记忆库的使用效益并不明显,但当进行该专案的衍生专案(例如文件的修订版)时,翻译记忆库的使用便可大幅节省翻译的时间与成本。
2.本发明通过网络爬虫技术从网络中爬取海量数据,训练模型可以得到高质量的神经网络机器翻译模型,很好地处理了重复度比较低、无法在翻译记忆库中找到相似句子的问题,并应用了先进的神经机器翻译技术对其进行翻译,使翻译效果十分优越。
3.本发明支持用户定制化,可以使用指定语料库训练神经机器翻译模型,增强指定领域的翻译性能。
附图说明
图1为本发明中双编码器结构图示;
图2为本发明中神经机器翻译模型构建图示;
图3为本发明中训练数据清洗处理流程图示;
图4为本发明中翻译记忆库使用图示。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明提供一种基于翻译记忆库的神经机器翻译方法,包括以下步骤:
1)通过网络爬虫技术从含有外文数据的网络中爬取海量双语数据;
2)对双语数据进行清洗过滤、分词、子词切分预处理,得到处理后的双语数据;
3)将一半处理后的双语数据存储为翻译记忆库基础数据,另一半作为训练语料,使用搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子;
4)将训练语料数据和翻译记忆库数据一起输入到神经网络模型中开始训练模型至模型收敛;
5)导入用户自定义的数据到翻译记忆库中,形成更符合用户习惯的自定义翻译记忆库;
6)对用户实时输入的文本进行模糊搜索,找到翻译记忆库中与该文本最相似的句子,并一起输入到机器翻译模型中,在解码端使用门控机制指导模型翻译;
7)将用户输入的句子和修订后的结果存入翻译记忆库。
步骤1)中,通过网络爬虫技术从含有外文数据的网络中爬取海量双语数据,具体为:
101)从具有平行双语数据的网站中爬取大量的原始数据,作为翻译记忆库和训练的语料;
102)使用分布式的并行网络爬虫技术来爬取大量数据。
步骤2)中,对语料进行清洗过滤、分词、子词切分预处理,在翻译任务中,源语句子和目标语句子的长度一般不会相差太多,去除长度大于250个字符的句子,并且使用长度比过滤去除长度比大于1:1.5的句对,使用相同的分词工具对双语平行数据进行分词。
步骤3)中,使用搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子,具体为:
301)将句子转化为词向量表示方式;
302)使用模糊匹配方法对训练数据的每一个句子在翻译记忆库中进行查找最相似的句子。
步骤4)中,训练神经网络模型至模型收敛,具体为:
401)用双编码器结构分别对训练语料数据和翻译记忆库数据进行编码;双编码器结构如图1所示;
402)结合两种编码训练神经网络模型至模型收敛。
步骤5)中,导入用户自定义的数据到翻译记忆库中,形成更符合用户习惯的自定义翻译记忆库,满足不同用户对领域的高精度需求。
步骤6)中,在机器翻译模型的解码端使用门控机制指导翻译,具体为:
601)将用户输入句子和翻译记忆查找结果一起输入翻译模型;
602)使用门控机制结合翻译记忆和源语句指导神经网络模型翻译,得到翻译结果;
603)门控机制计算具体公式为:
gtm=f(st-1,yt-1,csrc,ctm_t)
st-1为前置隐藏层状态,yt-1为前置预测目标词,csrc为用户输入句子,ctm_t为翻译记忆,f为激活函数。
步骤7)中,将用户输入的句子和修订后的结果存入翻译记忆库,具体为:
701)将翻译结果显示给用户;
702)用户自行将结果进行修改,得到最终翻译结果;
703)将用户输入的句子和修订后的结果存入翻译记忆库。
如图2所示,首先通过网络爬虫技术从含有外文数据的网络中爬取海量双语数据,然后对双语数据进行清洗过滤、分词、子词切分预处理,得到处理后的双语数据;将一半双语数据存储为翻译记忆库基础数据将另一半双语数据作为训练语料,使用模糊搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子,最后将训练语料数据和翻译记忆库数据一起输入到神经网络模型中开始训练模型至模型收敛,得到神经网络模型。
通过数据爬虫脚本,共获取了2000万数据,然而获取到的数据并不能直接用来进行系统的训练,还需要进行分词和数据清洗。本实施例使用jieba分词作为中文和英文的分词工具,该工具较好的完成了分词工作,使数据中大部分词语被识别出来。使用了NiuTrans开源数据清洗工具,如图3所示,经过长度比过滤、去除HTML标签、乱码过滤、单词黏连过滤、大写过滤和重复翻译过滤后余下1400w数据用于后续训练、校验、测试。对中文和英文的数据,使用统一的子词切分方式和词表,最终的词表大小为32001,使用transformer big模型结构训练翻译模型。
如图4所示,用户使用时,首先导入用户自定义的数据到翻译记忆库中,形成更符合用户习惯的自定义翻译记忆库,然后对用户实时输入的文本进行模糊搜索,找到翻译记忆库中与该文本最相似的句子,在解码端使用门控机制指导模型翻译,用户可以自行将翻译结果进行订正,最后翻译记忆库将用户输入的句子和修订后的结果存入翻译记忆库。
本发明效果翻译效果对比如表1所示。
表1翻译效果对比
Figure BDA0003115451160000051
本发明在翻译时很好地满足不同用户对领域的高精度需求,根据用户的需要及翻译习惯添加自定义的翻译记忆库,利用用户自己存入翻译记忆库的数据正反馈地增强翻译系统的功能,并应用了先进的神经机器翻译技术,使翻译效果十分优越,以达到不同用户对翻译译文的高质量要求。

Claims (3)

1.一种基于翻译记忆库的神经机器翻译方法,其特征在于包括以下步骤:
1)通过网络爬虫技术从含有外文数据的网络中爬取海量双语数据;
2)对双语数据进行清洗过滤、分词、子词切分预处理,得到处理后的双语数据;
3)将一半处理后的双语数据存储为翻译记忆库基础数据,另一半作为训练语料,使用搜索技术找到翻译记忆库中与训练语料中每个句子最相似的句子;
4)将训练语料数据和翻译记忆库数据一起输入到神经网络模型中开始训练模型至模型收敛;
5)导入用户自定义的数据到翻译记忆库中,形成更符合用户习惯的自定义翻译记忆库;
6)对用户实时输入的文本进行模糊搜索,找到翻译记忆库中与该文本最相似的句子,并一起输入到机器翻译模型中,在解码端使用门控机制指导模型翻译;
7)将用户输入的句子和修订后的结果存入翻译记忆库。
2.按权利要求1所述的基于翻译记忆库的神经机器翻译方法,其特征在于:步骤4)中,训练神经网络模型至模型收敛,具体为:
401)用双编码器结构分别对训练语料数据和翻译记忆库数据进行编码;
402)结合两种编码训练神经网络模型至模型收敛。
3.按权利要求1所述的基于翻译记忆库的神经机器翻译方法,其特征在于:步骤6)中,在机器翻译模型的解码端使用门控机制指导翻译,具体为:
601)将用户输入句子和翻译记忆查找结果一起输入翻译模型;
602)使用门控机制结合翻译记忆和源语句指导神经网络模型翻译,得到翻译结果;
603)门控机制计算具体公式为:
gtm=f(st-1,yt-1,csrc,ctm_t)
st-1为前置隐藏层状态,yt-1为前置预测目标词,csrc为用户输入句子,ctm_t为翻译记忆,f为激活函数。
CN202110661294.2A 2021-06-15 2021-06-15 一种基于翻译记忆库的神经机器翻译方法 Withdrawn CN113343717A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110661294.2A CN113343717A (zh) 2021-06-15 2021-06-15 一种基于翻译记忆库的神经机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110661294.2A CN113343717A (zh) 2021-06-15 2021-06-15 一种基于翻译记忆库的神经机器翻译方法

Publications (1)

Publication Number Publication Date
CN113343717A true CN113343717A (zh) 2021-09-03

Family

ID=77477154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110661294.2A Withdrawn CN113343717A (zh) 2021-06-15 2021-06-15 一种基于翻译记忆库的神经机器翻译方法

Country Status (1)

Country Link
CN (1) CN113343717A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139560A (zh) * 2021-12-03 2022-03-04 山东诗语翻译有限公司 基于人工智能翻译系统
CN116992894A (zh) * 2023-09-26 2023-11-03 北京澜舟科技有限公司 一种机器翻译模型的训练方法和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299479A (zh) * 2018-08-21 2019-02-01 苏州大学 通过门控机制将翻译记忆融入神经机器翻译的方法
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法
JP2020140710A (ja) * 2019-02-26 2020-09-03 株式会社リコー ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299479A (zh) * 2018-08-21 2019-02-01 苏州大学 通过门控机制将翻译记忆融入神经机器翻译的方法
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法
JP2020140710A (ja) * 2019-02-26 2020-09-03 株式会社リコー ニューラル機械翻訳モデルの訓練方法、装置及び記憶媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CAO, QIAN AND DEYI XIONG: "Encoding Gated Translation Memory into Neural Machine Translation", PROCEEDINGS OF THE 2018 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, pages 2 - 3 *
曹骞;熊德意;: "基于数据扩充的翻译记忆库与神经机器翻译融合方法", 中文信息学报, no. 05, pages 40 - 47 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139560A (zh) * 2021-12-03 2022-03-04 山东诗语翻译有限公司 基于人工智能翻译系统
CN114139560B (zh) * 2021-12-03 2022-12-09 山东诗语信息科技有限公司 基于人工智能翻译系统
CN116992894A (zh) * 2023-09-26 2023-11-03 北京澜舟科技有限公司 一种机器翻译模型的训练方法和计算机可读存储介质
CN116992894B (zh) * 2023-09-26 2024-01-16 北京澜舟科技有限公司 一种机器翻译模型的训练方法和计算机可读存储介质

Similar Documents

Publication Publication Date Title
US8275604B2 (en) Adaptive pattern learning for bilingual data mining
Pettersson et al. A multilingual evaluation of three spelling normalisation methods for historical text
Oflazer Turkish and its challenges for language processing
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN103116578A (zh) 一种融合句法树和统计机器翻译技术的翻译方法与装置
Alam et al. Sequence to sequence networks for Roman-Urdu to Urdu transliteration
CN110717045A (zh) 一种基于信访信件概况的信件要素自动提取方法
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
Kunchukuttan et al. Learning variable length units for SMT between related languages via byte pair encoding
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN113343717A (zh) 一种基于翻译记忆库的神经机器翻译方法
JP2004513458A (ja) ユーザが変更可能な翻訳のウエイト
Callison-Burch et al. Co-training for statistical machine translation
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
JP2003016061A (ja) 自動自然言語翻訳
Bensalah et al. Arabic machine translation based on the combination of word embedding techniques
CN108255818B (zh) 利用分割技术的复合式机器翻译方法
Winiwarter Learning transfer rules for machine translation from parallel corpora
Mara English-Wolaytta Machine Translation using Statistical Approach
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants
Neubarth et al. A hybrid approach to statistical machine translation between standard and dialectal varieties
CN108153743B (zh) 基于相似度的智能离线翻译机
CN108280066B (zh) 一种汉语到英语的离线翻译方法
CN108897749A (zh) 基于语法树和文本块密度的网页信息抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210903

WW01 Invention patent application withdrawn after publication