CN107861952A - 基于最长名词短语分治策略的神经机器翻译方法 - Google Patents
基于最长名词短语分治策略的神经机器翻译方法 Download PDFInfo
- Publication number
- CN107861952A CN107861952A CN201710876251.XA CN201710876251A CN107861952A CN 107861952 A CN107861952 A CN 107861952A CN 201710876251 A CN201710876251 A CN 201710876251A CN 107861952 A CN107861952 A CN 107861952A
- Authority
- CN
- China
- Prior art keywords
- mnp
- sentence
- translation
- framework
- neural machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于最长名词短语分治策略的神经机器翻译方法,基步骤为:抽取:对句子中长度不小于2个词的MNP进行抽取,对句子进行短语结构句法分析;翻译:采用双语MNP扩展后的平行语料训练得到神经机器翻译模型,分别短语结构句法分析识别出的MNP,以及将MNP作为组块后与句子其他成分共同组成的句子框架进行翻译,得到MNP译文;重组:将句中的原有框架和MNP译文进行重新组合,即将MNP译文替换到句子框架译文中的对应位置,以获得完整的译文。本发明将MNP独立处理带来更高质量的MNP和句子框架译文的优势,与神经机器翻译学习能力强、译文具有较高准确度和流畅度等优势相结合,从而达到提升译文整体质量的目的。
Description
技术领域
本发明涉及一种自然语言翻译技术,具体为一种基于最长名词短语分治策略的神经机器翻译方法。
背景技术
端到端神经机器翻译作为一种全新的机器翻译方法,近年来获得了迅速发展。然而,端到端神经机器翻译仅仅使用一个非线性的神经网络实现自然语言之间的转换,相比于统计机器翻译,译文质量对句子长度更为敏感。如何在神经机器翻译中将一个句子在尽量不损失语义信息的前提下,进行长度上的缩减和结构上的简化是一个值得探究的方向。
研究人员将现有的方法和策略引入端到端的神经网络,以实现翻译性能的提升。Ilya Sutskever等人将长短期记忆引入神经机器翻译,以缓解递归神经网络训练时“梯度消失”的问题,并且在“编码-解码”框架两端同时采用递归神经网络。针对准确实现编码问题,Yoshua Bengio提出了基于注意力的端到端神经机器翻译。解码器在生成目标词yi时,动态地注意源语言句子中与之相关的上下文,而不再关注整个源语言句子。图1和图2分别给出了Sutskever等人提出的神经机器翻译模型和Bengio给出的基于注意力的神经机器翻译模型。
尽管长短期记忆和注意力机制的引入能够更好的处理词语之间的长距离依存关系,从而提升端到端神经机器翻译的性能。然而,自然语言中的句子长短不一、结构复杂,通过单一神经网络学习翻译知识的方法受到限制。如何利用语言学知识结合分治策略对句子的各部分进行分治与整合,是一个值得研究的问题。
发明内容
针对现有技术中神经机器翻系统在长句子翻译任务上的不足,本发明要解决的问题是提供一种可提升译文整体质量的基于最长名词短语分治策略的神经机器翻译方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种基于最长名词短语分治策略的神经机器翻译方法,基于“抽取-翻译-重组”的最长名词短语处理框架,包括以下步骤:
1)抽取:对句子中长度不小于2个词的MNP进行抽取,对句子进行短语结构句法分析;
2)翻译:采用双语MNP扩展后的平行语料训练得到神经机器翻译模型,分别短语结构句法分析识别出的MNP,以及将MNP作为组块后与句子其他成分共同组成的句子框架进行翻译,得到MNP译文;
3)重组:将句中的原有框架和MNP译文进行重新组合,即将MNP译文替换到句子框架译文中的对应位置,以获得完整的译文。
步骤1)中,通过保留标记的方法对句子中长度不小于2个词的MNP进行抽取,采用“MNPi”(i=1,2,……)作为句子框架中的标识,保留MNP和特殊标识“MNPi”的对齐关系。
步骤1)中,将MNP核心词保留在句子框架中,训练词对齐信息,以作为词表实现从句子框架译文中定位MNP核心词的位置。
步骤3)中,根据MNP抽取时保留的标识不同,重组过程中采用不同方法,当通过保留标记的方法对句子中长度不小于2个词的MNP进行抽取时,使用第i个MNP译文替换句子框架译文中的标识“MNPi”。
当将MNP核心词保留在句子框架中时,通过事先训练好的词对齐信息查找MNP核心词的可能译文,当译文出现在句子框架译文中时,对其进行替换。
本发明具有以下有益效果及优点:
1.本发明提出一种基于MNP分治策略的神经机器翻译方法,该方法主要基于一个“抽取-翻译-重组”的MNP处理框架,旨在将MNP独立处理带来更高质量的MNP和句子框架译文的优势,与神经机器翻译学习能力强、译文具有较高准确度和流畅度等优势相结合,从而达到提升译文整体质量的目的。
2.实验结果表明,本发明在译文BLEU分值上都获得了一定的提升,相比于基线系统,保留特殊标识“MNPi”的方法BLEU提升了0.36个百分点,保留MNP核心词的方法BLEU提升了0.89个百分点。
附图说明
图1为现有技术中端到端神经机器翻译模型图示;
图2为现有技术中基于注意力的神经机器翻译模型图示;
图3为本发明中神经机器翻译系统的“抽取-翻译-重组”过程图示;
图4为本发明中神经机器翻译模型对MNP及句子框架的“分治”翻译流程图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
本发明针对神经机器翻译在长句子翻译任务上的不足,也考虑到MNP的处理可以在一定程度上简化结构复杂的长句子。本发明提出一种基于MNP分治策略的神经机器翻译方法,该方法主要基于一个“抽取-翻译-重组”的MNP处理框架,旨在将MNP独立处理带来更高质量的MNP和句子框架译文的优势,与神经机器翻译学习能力强、译文具有较高准确度和流畅度等优势相结合,从而达到提升译文整体质量的目的。
本发明一种基于最长名词短语分治策略的神经机器翻译方法,基于“抽取-翻译-重组”的MNP(Maximal-length Noun Phrase,最长名词短语)处理框架,包括以下步骤:
1)抽取:对句子中长度不小于2个词的MNP进行抽取,对句子进行短语结构句法分析;
2)翻译:采用双语MNP扩展后的平行语料训练得到神经机器翻译模型,分别短语结构句法分析识别出的MNP,以及将MNP作为组块后与句子其他成分共同组成的句子框架进行翻译,得到MNP译文;
3)重组:将句中的原有框架和MNP译文进行重新组合,即将MNP译文替换到句子框架译文中的对应位置,以获得完整的译文。
如图3所示,本发明采用分治策略,将单个复杂问题转化为多个相对简单的问题,并分而治之。鉴于MNP在句子中使用频率高、句法功能丰富以及边界易于识别等事实,本发明基于“抽取-翻译-重组”的MNP处理框架,以实现分治策略的神经机器翻译。基于“抽取-翻译-重组”的MNP处理框架具体描述如下:
步骤1)抽取
步骤1)中,通过保留标记的方法对句子中长度不小于2个词的MNP进行抽取,采用“MNPi”(i=1,2,……)作为句子框架中的标识,保留MNP和特殊标识“MNPi”的对齐关系。或者,步骤1)中,将MNP核心词保留在句子框架中,训练词对齐信息,以作为词表实现从句子框架译文中定位MNP核心词的位置。
抽取过程的核心任务是对句子进行短语结构句法分析。考虑到抽取较短的MNP,对缩减句子长度、降低句子结构复杂度影响较小。因此,本发明只对句子中长度不小于2个词的MNP进行抽取。
抽取过程的另一个重要问题是,抽取MNP时在句子框架中保留何种标记以实现更好的分治效果。本文主要尝试以下两种保留标记的方法:
方法1:为保留MNP与句子框架中标记的对齐关系,采用“MNPi”(i=1,2,……)作为句子框架中的特殊标识。
方法2:方法1可以实现经过翻译后保留MNP和特殊标识“MNPi”的对齐关系,为后续的译文重组过程带来积极影响。然而,将“MNPi”保留在句子框架中破坏了句子的流畅度,甚至改变了句子的原本含义。鉴于此,方法2采用将MNP核心词保留在句子框架中。该方法尽管能够最大程度的保证句子框架的流畅度,从而得到较好的句子框架译文,但面临着MNP核心词无法准确对齐到句子框架译文中的对应位置的挑战。为此,需额外训练词对齐信息,以作为词表实现从句子框架译文中定位MNP核心词的位置。
例如:
原句:儿童基金会为难民营中成千上万个流离失所家庭发放了紧急现金援助。
短语结构句法分析:((IP(IP(NP(NN儿童)(NN基金会))(VP(PP(P为)(NP(LCP(NP(NN难民营))(LC中))(QP(CD成千上万)(CLP(M个)))(NP(NN流离失所)(NN家庭))))(VP(VV发放)(AS了)(NP(ADJP(JJ紧急))(NP(NN现金)(NN援助))))))(PU。)))
句子框架与MNP:
主干:MNP1为MNP2发放了MNP3。
MNP1:儿童基金会
MNP2:难民营中成千上万个流离失所家庭
MNP3:紧急现金援助
步骤2)翻译
采用双语MNP扩展后的平行语料训练得到神经机器翻译模型。
图4给出了神经机器翻译模型采用分治策略,分别对句子中句法分析识别的MNP以及将MNP作为组块后与句子其他成分共同组成的句子框架进行翻译。
例如:
句子框架与MNP译文:
主干:MNP1 has provided MNP3 to MNP2,and UNHCR has provided MNP4 toMNP5.
MNP1:Children's Fund
MNP2:thousands of internally displaced families in camps
MNP3:emergency cash assistance
步骤3)重组
重组过程主要是对句中的句子框架和MNP的译文进行重新组合,即将MNP译文替换到句子框架译文中的对应位置,以获得完整的译文。根据MNP抽取时保留的特殊标识不同,重组过程中也包含以下两种方法:
方法1:使用第i个MNP译文替换句子框架译文中的特殊标识“MNPi”;
方法2:通过事先训练好的词对齐信息查找MNP核心词的可能译文,当译文出现在句子框架译文中时,对其进行替换。
例如:
原句:儿童基金会为难民营中成千上万个流离失所家庭发放了紧急现金援助。
完整译文:Children's Fund has provided emergency cash assistance tothousands of internally displaced families in camps。
自然语言中语义的基本单位是短语。因此,将句子级别的对齐和翻译进行到亚句子(Sub-sentence)的短语一级显得尤为重要。句子中的实体和概念通常可由名词短语(Noun Phrase,NP)来描述。其捆绑了一个相对完整的语义信息,具有丰富的句法功能,可在句子中充当主语和宾语等成分。最长名词短语(Maximal-length Noun Phrase,MNP),指不被其他任何名词短语嵌套的名词短语与一般名词短语相比,MNP具有更大的粒度,边界特征较为明显,有利于句子的整体结构分析。采用分治策略处理MNP,既能在亚句子一级上获得更准确的译文,也将句子缩短为包含主干信息的句子框架。因此,准确的识别和翻译MNP,是利用分治策略提升机器翻译性能的一个有力手段。
本实施例中,实验主要针对汉英翻译任务。语料来源于联合国语料库中的中英双语平行语料。其中,训练数据集共15,886,041双语平行句对,实验过程只随机抽取部分语料。官方开发集和测试集各4,000双语平行句对。
表1测试数据说明
表2译文质量对比
由表1可以看出,使用基于MNP的分治策略后,句子框架的平均长度和MNP平均长度都在原句子的平均长度上有了一定的缩减。缓解了神经机器翻译对句子长度敏感的问题。
由表2可以看出,基于“抽取-翻译-重组”的MNP处理框架在基线系统上都有一定的提升。相比于基线系统,保留特殊标识“MNPi”的方法BLEU提升了0.36个百分点,保留MNP核心词的方法BLEU提升了0.89个百分点。
实验证明,本发明基于最长名词短语分治策略的神经机器翻译方法的有效性。
Claims (5)
1.一种基于最长名词短语分治策略的神经机器翻译方法,其特征在于:基于“抽取-翻译-重组”的最长名词短语处理框架,包括以下步骤:
1)抽取:对句子中长度不小于2个词的MNP进行抽取,对句子进行短语结构句法分析;
2)翻译:采用双语MNP扩展后的平行语料训练得到神经机器翻译模型,分别短语结构句法分析识别出的MNP,以及将MNP作为组块后与句子其他成分共同组成的句子框架进行翻译,得到MNP译文;
3)重组:将句中的原有框架和MNP译文进行重新组合,即将MNP译文替换到句子框架译文中的对应位置,以获得完整的译文。
2.按权利要求1所述的基于最长名词短语分治策略的神经机器翻译方法,其特征在于:步骤1)中,通过保留标记的方法对句子中长度不小于2个词的MNP进行抽取,采用“MNPi”(i=1,2,……)作为句子框架中的标识,保留MNP和特殊标识“MNPi”的对齐关系。
3.按权利要求1所述的基于最长名词短语分治策略的神经机器翻译方法,其特征在于:步骤1)中,将MNP核心词保留在句子框架中,训练词对齐信息,以作为词表实现从句子框架译文中定位MNP核心词的位置。
4.按权利要求1所述的基于最长名词短语分治策略的神经机器翻译方法,其特征在于步骤3)中,根据MNP抽取时保留的标识不同,重组过程中采用不同方法,当通过保留标记的方法对句子中长度不小于2个词的MNP进行抽取时,使用第i个MNP译文替换句子框架译文中的标识“MNPi”。
5.按权利要求4所述的基于最长名词短语分治策略的神经机器翻译方法,其特征在于:当将MNP核心词保留在句子框架中时,通过事先训练好的词对齐信息查找MNP核心词的可能译文,当译文出现在句子框架译文中时,对其进行替换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710876251.XA CN107861952A (zh) | 2017-09-25 | 2017-09-25 | 基于最长名词短语分治策略的神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710876251.XA CN107861952A (zh) | 2017-09-25 | 2017-09-25 | 基于最长名词短语分治策略的神经机器翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107861952A true CN107861952A (zh) | 2018-03-30 |
Family
ID=61698713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710876251.XA Pending CN107861952A (zh) | 2017-09-25 | 2017-09-25 | 基于最长名词短语分治策略的神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107861952A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110895660A (zh) * | 2018-08-23 | 2020-03-20 | 澳门大学 | 一种基于句法依存关系动态编码的语句处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5477448A (en) * | 1994-06-01 | 1995-12-19 | Mitsubishi Electric Research Laboratories, Inc. | System for correcting improper determiners |
CN103942192A (zh) * | 2013-11-21 | 2014-07-23 | 北京理工大学 | 一种双语最大名词组块分离-融合的翻译方法 |
CN104050156A (zh) * | 2013-03-15 | 2014-09-17 | 富士通株式会社 | 用于提取最大名词短语的装置、方法以及电子设备 |
CN105912533A (zh) * | 2016-04-12 | 2016-08-31 | 苏州大学 | 面向神经机器翻译的长句切分方法及装置 |
CN106021225A (zh) * | 2016-05-12 | 2016-10-12 | 大连理工大学 | 一种基于汉语简单名词短语的汉语最长名词短语识别方法 |
-
2017
- 2017-09-25 CN CN201710876251.XA patent/CN107861952A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5477448A (en) * | 1994-06-01 | 1995-12-19 | Mitsubishi Electric Research Laboratories, Inc. | System for correcting improper determiners |
CN104050156A (zh) * | 2013-03-15 | 2014-09-17 | 富士通株式会社 | 用于提取最大名词短语的装置、方法以及电子设备 |
CN103942192A (zh) * | 2013-11-21 | 2014-07-23 | 北京理工大学 | 一种双语最大名词组块分离-融合的翻译方法 |
CN105912533A (zh) * | 2016-04-12 | 2016-08-31 | 苏州大学 | 面向神经机器翻译的长句切分方法及装置 |
CN106021225A (zh) * | 2016-05-12 | 2016-10-12 | 大连理工大学 | 一种基于汉语简单名词短语的汉语最长名词短语识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110895660A (zh) * | 2018-08-23 | 2020-03-20 | 澳门大学 | 一种基于句法依存关系动态编码的语句处理方法及装置 |
CN110895660B (zh) * | 2018-08-23 | 2024-05-17 | 澳门大学 | 一种基于句法依存关系动态编码的语句处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sen et al. | Multilingual unsupervised NMT using shared encoder and language-specific decoders | |
Deacon et al. | Flexibility in young second‐language learners: examining the language specificity of orthographic processing | |
Sajjad et al. | Translating dialectal arabic to english | |
Baniata et al. | A neural machine translation model for arabic dialects that utilises multitask learning (mtl) | |
CN108647214A (zh) | 基于深层神经网络翻译模型的解码方法 | |
Teruya et al. | Halliday in relation to language comparison and typology | |
CN106156013A (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
Aralikatte et al. | Ellipsis resolution as question answering: An evaluation | |
Vu et al. | Learning to simplify children stories with limited data | |
Wang et al. | Breaking the representation bottleneck of Chinese characters: Neural machine translation with stroke sequence modeling | |
Anthes | Automated translation of indian languages | |
CN107861952A (zh) | 基于最长名词短语分治策略的神经机器翻译方法 | |
Wu et al. | Adapting attention-based neural network to low-resource Mongolian-Chinese machine translation | |
Feldman et al. | A cross-language approach to rapid creation of new morpho-syntactically annotated resources | |
Shi et al. | Adding Visual Information to Improve Multimodal Machine Translation for Low‐Resource Language | |
Bautista et al. | Empirical identification of text simplification strategies for reading-impaired people | |
Chen et al. | Effects of phonological awareness and morphological awareness on blind students' reading comprehension | |
Gamal et al. | Survey of arabic machine translation, methodologies, progress, and challenges | |
KR102395811B1 (ko) | 기계번역 모델을 위한 한문고서 말뭉치 증강방법 | |
Sin et al. | Attention-based syllable level neural machine translation system for myanmar to english language pair | |
Othman et al. | Toward developing a very big sign language parallel corpus | |
Guo et al. | Layer-level progressive transformer with modality difference awareness for multi-modal neural machine translation | |
Sun et al. | Question generation based on grammar knowledge and fine-grained classification | |
Tian et al. | An improvement of translation quality with adding key-words in parallel corpus | |
Li et al. | Hw-tsc’s participation in the wmt 2021 triangular mt shared task |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180330 |
|
RJ01 | Rejection of invention patent application after publication |