CN107491441B - 一种基于强制解码的动态抽取翻译模板的方法 - Google Patents

一种基于强制解码的动态抽取翻译模板的方法 Download PDF

Info

Publication number
CN107491441B
CN107491441B CN201610420062.7A CN201610420062A CN107491441B CN 107491441 B CN107491441 B CN 107491441B CN 201610420062 A CN201610420062 A CN 201610420062A CN 107491441 B CN107491441 B CN 107491441B
Authority
CN
China
Prior art keywords
translation
phrase
source language
sentence
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610420062.7A
Other languages
English (en)
Other versions
CN107491441A (zh
Inventor
王强
杨木润
肖桐
朱靖波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Yayi Network Technology Co ltd
Original Assignee
Shenyang Yaze Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Yaze Network Technology Co ltd filed Critical Shenyang Yaze Network Technology Co ltd
Priority to CN201610420062.7A priority Critical patent/CN107491441B/zh
Publication of CN107491441A publication Critical patent/CN107491441A/zh
Application granted granted Critical
Publication of CN107491441B publication Critical patent/CN107491441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于强制解码的动态抽取翻译模板的方法,步骤为:输入双语句子级平行数据,分别对源语和目标语分词,得到平行句对;用基于短语的统计机器翻译系统对每一个平行句对进行强制解码,获取翻译推导信息及短语对对齐信息;输入待翻译的源语句子进行分词,得到分词后的待翻译的源语句子;从平行句对中挑选出与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项;对对齐信息、从分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项动态生成翻译模板。本发明避免了非终结符粒度过大而错过最佳翻译模板以及非终结符粒度过小而无法应用翻译模板,提高了翻译模板的覆盖度和使用率以及翻译准确度。

Description

一种基于强制解码的动态抽取翻译模板的方法
技术领域
本发明涉及机器翻译领域,具体来说是一种基于强制解码的动态抽取翻译模板的方法。
背景技术
翻译模板是机器翻译中一种翻译知识的表示形式,能够将源语(待翻译内容)映射到目标语(被翻译内容),其中源语和目标语是由常量和变量组成,属于同步上下文无关文法(SCFG)。翻译模板中的常量指具体词汇,也叫终结符;变量称为非终结符,且源语和目标语之间的非终结符之间一一对应。一个翻译模板示例如下:
源语:我 想 去 操场 上 打 X
目标语:I want to play X in playground
其中,“我”,“想”等中文词汇,以及”I”,”want”等英文词汇,均称为终结符;而其中的“X”表示非终结符,表示该位置可以作为变量被其他词汇序列替换。
在应用翻译模板执行翻译时,只需将待翻译句子与翻译模板源语匹配,确定非终结符部分,并将相应的非终结符译文放置到目标语中对应位置,即可完成翻译任务,是一种高精度的翻译方法。
例如,在应用上述翻译模板对“我 想 去 操场 上 打 网球”这句话翻译时,只需将待翻译句子与翻译模板的源语匹配,确定非终结符部分为“网球”,然后将“网球”的译文“tennis”放置到目标语中X的位置便能得到高质量的翻译结果“I want to play tennisin playground”。
生成翻译模板的方法主要有两种:人工书写及自动抽取。
对于人工书写方法,由于人工书写的效率低、成本高,并且人工书写也常常面临书写规范不统一、翻译模板书写前后冲突等问题,所以难以大规模应用。
而对于自动抽取方法,通常使用的方法是利用句法分析或词汇间的固定搭配信息等方法确定单语句子中非终结符的部分,一般是名词短语、形容词短语等。然后利用自动词对齐信息或外部资源(如互译的双语词典)等方法识别非终结符之间的对应关系,从而产生翻译模板。
通过上述方法,便可以从任何双语句子级对齐的数据中抽取出翻译模板,从而形成翻译模板的集合,称为翻译模板库。
由此可见,在传统的自动抽取翻译模板方法中,翻译模板的抽取与翻译模板的应用是两个完全独立的过程。当抽取翻译模板时,只根据当前双语句对的信息抽取翻译模板,并没有考虑待翻译句子的信息;而在应用翻译模板时,所有的翻译模板是固定的,并不会因为待翻译句子的不同而发生改变,因此称上述自动抽取翻译模板方法是静态方法。
由于静态抽取翻译模板方法在抽取时并没有考虑待翻译句子的信息,非终结符部分始终都是固定的,所以在应用该方法产生的翻译模板时面临如下问题:
1.翻译模板中非终结符粒度过大,导致待翻译句子错过潜在的更精确的翻译模板。
虽然静态抽取的翻译模板能够被使用,但是有可能非终结符的粒度不是最合理的,从而降低翻译性能。例如,假设输入的双语平行句对为“我 想去 操场 上 打 篮球->Iwant to play basketball in playground”以及“我 想去 操场 上 踢 足球->I want toplay football in playground”。若静态抽取方法生成翻译模板为“我 想 去 操场 上 X–>I want to X in playground”,此时翻译模板已经失去了来源的双语数据信息。若待翻译句子是“我 想 去操场 上 打 网球”,相比于潜在的更精确的非终结符“网球”,当前非终结符部分是“打 网球”的译文存在更大的风险被错误翻译。
2.翻译模板中非终结符粒度过小,导致待翻译句子无法应用翻译模板。
例如,已有双语平行句对“我 想 去 操场 上 打 篮球->I want to playbasketball in playground”,和待翻译句子“我 想 去 操场 上 踢 足球”。若利用静态抽取方法生成翻译模板为“我 想 去 操场 上 打 X–>I want to play X in playground”,则由于非终结符X粒度小,导致翻译模板无法匹配该待翻译句子,即该翻译模板无法被使用,从而降低了翻译模板的覆盖度。
总之,静态抽取翻译模板方法由于没有考虑待翻译句子的实际情况,生成的翻译模板中非终结符部分是固定的,不会随待翻译句子不同而调整,导致生成的翻译模板中非终结符的范围不合理。
发明内容
针对现有技术中静态的翻译模板自动抽取方法所面临的未能考虑待翻译句子信息所导致的非终结符范围不合理的问题,本发明提供了一种能够根据待翻译句子的信息自动调整非终结符的范围以适应待翻译句子的基于强制解码的动态抽取翻译模板的方法。
为解决上述技术问题,本发明采用的技术方案是:
本发明一种基于强制解码的动态抽取翻译模板的方法,包括以下步骤:
1)输入双语句子级平行数据,分别对源语和目标语分词,得到分词后的平行句对;
2)用基于短语的统计机器翻译系统对每一个分词后的平行句对进行强制解码,获取翻译推导信息及短语对对齐信息;
3)输入待翻译的源语句子,对待翻译的源语句子进行分词,得到分词后的待翻译的源语句子;
4)从分词后的平行句对中挑选出与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项;
5)利用翻译推导信息及短语对对齐信息、从分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项动态生成翻译模板。
对每一个分词后的平行句对进行强制解码,获取翻译推导信息及短语对对齐信息为:
对于每一个分词后的平行句对,使用基于短语的统计机器翻译系统对其进行强制解码,获得强制解码结果;
当一个分词后的平行句对存在多个强制解码结果时,从多个强制解码的结果中选择最优的解码结果,利用下式的线性模型计算每一个强制解码结果的得分,选择最高得分的强制解码结果:
Figure BDA0001017534130000031
其中,D为强制解码结果,S(D)为强制解码结果的得分,α为翻译推导个数的权重,L为翻译推导个数,h(di)为翻译推导的句法契合度,di为强制解结果中的一个翻译推导,i为翻译推导的序号,β为所有翻译推导句法契合度的平均值的权重;
将树结构存储的解码路径信息转换为线性结构,线性顺序按优先级依次为:源语短语长度小的优先、源语短语起始位置靠前的优先。
从分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项为:
对已输入的双语平行数据的源语部分建立倒排索引,倒排索引中被检索的对象是单词,检索到的内容是出现该单词的句子以及在句子中的位置信息;
对于输入的已分词的待翻译的源语句子,在倒排索引中查找出所有相似的分词后的平行句对的源语;
使用Dice系数来衡量已分词的待翻译的源语句子与倒排索引中查找出的相似的分词后的平行句对的源语间的相似程度:
Figure BDA0001017534130000032
其中,s1为分词后的待翻译的源语句子,s2为查找出的相似的分词后的平行句对的源语,Dice(s1,s2)为s1和s2之间的相似度得分,same(s1,s2)为s1和s2之间相同词的个数,ls1为s1中的词汇数,ls2为s2中的词汇数。
利用翻译推导信息及短语对对齐信息、分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项动态生成翻译模板为:
符合强制解码产生的源语短语切分范围且能包含差异项的长度最小的短语片段;
在产生翻译模板过程中,根据差异项信息的不同,可以将每个差异项分为插入、删除、修改这三种状态分别进行处理;
若多个差异项产生的非终结符之间有交集时,对相交的非终结符合并,使得所有非终结符之间互不相交;
利用上述策略得到的非终结符即可动态产生基于待翻译句子信息的最优翻译模板。
对插入状态进行处理为包括插入点在一个短语片段内和在两个短语片段之间两种情况:
若插入点在一个短语片段内,则直接将此短语片段作为最终的非终结符;
否则插入点在两个短语片段之间,则按照强制解码生成的翻译推导树回退,直到回退到包含这两个短语片段的最小的源语短语片段,且该短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符;
若包含这两个短语片段的最小的源语短语片段长度超过定义的最大阈值,则判断插入点相邻的源语短语对应的译文是否相邻,若相邻则将这两个源语短语片段合并作为最终的非终结符,否则生成翻译模板失败。
对删除状态进行处理分为删除点在一个短语片段内和横跨多个短语片段两种情况:
若删除点在一个短语片段内,则直接将此短语片段作为最终的非终结符;
否则,删除点横跨多个短语片段,则按照强制解码生成的翻译推导树回退,直到回退到包含差异项的最小的源语短语片段,且该短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符。
若回退到包含差异项的最小的源语短语片段超过定义的最大阈值,则生成翻译模板失败。
对修改状态进行处理分为修改点在一个短语片段内和横跨多个短语片段两种情况:
若修改点在一个短语片段内,则直接将此短语片段作为最终的非终结符;
否则修改点横跨多个短语片段时,则按照强制解码生成的翻译推导树回退,直到回退到包含差异项的最小的源语短语片段,且该短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符,否则生成翻译模板失败。
本发明具有以下有益效果及优点:
1.本发明提出的动态抽取翻译模板的方法能够在抽取翻译模板时,及时根据待翻译句子的不同,动态地调整非终结符范围,以找到最适合该待翻译句子的翻译模板,从而避免了由于非终结符粒度过大而错过最佳翻译模板,提高了应用翻译模板的翻译准确度;同时避免了非终结符粒度过小而无法应用翻译模板,提高了翻译模板的覆盖度和使用率。
附图说明
图1为本发明动态抽取翻译模板方法的流程图;
图2为基于短语的统计机器翻译系统强制解码结果的样例图;
图3为同一个双语句对存在多个强制解码结果的样例图;
图4为插入状态时生成翻译模板的处理流程图;
图5为删除状态时生成翻译模板的处理流程图。
具体实施方式
下面结合说明书附图对本发明作进一步阐述。
如图1所示,本发明基于强制解码的动态抽取翻译模板的方法,包括以下步骤:
1)输入双语句子级平行数据,分别对源语和目标语分词,得到分词后的平行句对;
2)用基于短语的统计机器翻译系统对每一个分词后的平行句对进行强制解码,获取翻译推导信息及短语对对齐信息;
3)输入待翻译的源语句子,对待翻译的源语句子进行分词,得到分词后的待翻译的源语句子;
4)从分词后的平行句对中挑选出与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项;
5)利用翻译推导信息及短语对对齐信息、从分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项动态生成翻译模板。
步骤1)中,输入的是双语互译的句对集合,最终抽取的翻译模板均是从这些句对中生成。双语句子级平行数据指句子级的互译的句对,也称为翻译实例,不需要词对齐信息。
步骤2)中,对每一个分词后的平行句对进行强制解码,获取翻译推导信息及短语对对齐信息为:
2.1)对于每一个分词后的平行句对,使用基于短语的统计机器翻译系统对其进行强制解码,获得强制解码结果;
2.2)当一个分词后的平行句对存在多个强制解码结果时,从多个强制解码的结果中选择最优的解码结果,利用下式的线性模型计算每一个强制解码结果的得分,选择最高得分的强制解码结果:
Figure BDA0001017534130000051
其中,D为强制解码结果,S(D)为强制解码结果的得分,α为翻译推导个数的权重,L为翻译推导个数,h(di)为翻译推导的句法契合度,di为强制解结果中的一个翻译推导,i为翻译推导的序号,β为所有翻译推导句法契合度的平均值的权重;
2.3)将树结构存储的解码路径信息转换为线性结构,线性顺序按优先级依次为:源语短语长度小的优先、源语短语起始位置靠前的优先。
在步骤2.1)中,利用已有的基于短语的统计机器翻译系统对于每一个平行句对进行强制解码。基于短语的统计机器翻译系统是以短语为最小的翻译单元,能够自动从大规模双语平行数据中学习短语对间的翻译规则(学习阶段)。
一个短语对翻译规则示例如下:
打 篮球->play basketball
而后对于任意输入的源语句子,将该句子切分成若干短语片段,再应用之前学习到的短语对翻译规则,便能够产生目标语的翻译结果(解码阶段)。
而强制解码是指,对于给定的源语句子,要求统计机器翻译系统必须翻译成指定的目标语结果。即解码是对输入的源语句子翻译成模型得分最高的目标语结果,而强制解码是规定输入的源语句子必须翻译成指定的目标语结果。
图2是一个强制解码结果的示例,通过应用强制解码能够得到短语翻译过程的推导树,以及所使用的短语对翻译规则,即源语短语与目标语短语间的对齐关系。其中源语推导树用来步骤5)中动态扩展翻译模板,短语对齐关系用来表示非终结符的对应关系。
本实施例用一个四元组(x1,y1,x2,y2)表示源语短语和目标语短语之间的对齐关系,其中x1,y1分别表示一条源语短语片段的起始和终止位置;x2,y2分别表示一条目标语短语片段的起始和终止位置。例如图2中四元组(2,2,2,4)表示源语中起始位置是2、终止位置是2的短语“想”与目标语中起始位置是2、终止位置是4的短语“would like to”对齐。
步骤2.2),对于一个输入的平行句对,可能存在多个强制解码结果。如图3所示,分词后的待翻译句子“我 想 知道 日元 汇率。”,指定的分词后的翻译结果为“I would liketo know the exchange rate of yen.”,一种可能的强制解码结果是:“我”->“I”,“想”->“would like to”,“知道”->“know”,“日元 汇率”->“the exchange rate of yen”,“。”->“.”;另一种可能的强制解码结果是“我 想”->“I would like to”,“知道”->“know”,“日元”->“of yen”,“汇率”->“the exchange rate”,“。”->“.”,即在已有的短语翻译规则中存在多种可以生成指定译文的短语对齐方式。因此,需要从多个强制解码的结果中选择最优的解码结果,这样就涉及到评价解码结果优劣的标准。
本发明从短语粒度和短语符合句法的程度这两个方面衡量强制解码的结果。因为短语粒度越小,翻译模板相对越准确;同时本发明的抽取方法可以根据输入句子信息动态生成非终结符,有效避免了小粒度短语面临的翻译模板覆盖度低的问题。具体利用下式的线性模型计算强制解码结果的得分,选择得分最高的强制解码结果作为最优输出:
Figure BDA0001017534130000071
其中,D为强制解码结果,S(D)为强制解码结果的得分,α为翻译推导个数的权重,L为翻译推导个数,h(di)为翻译推导的句法契合度,di为强制解结果中的一个翻译推导,i为翻译推导的序号,β为所有翻译推导句法契合度的平均值的权重;
步骤2.3),由于在步骤5)动态生成翻译模板过程中,需要借助强制解码结果的翻译推导树信息,为了便于存储并加速模板生成过程,这里将树结构存储的解码路径信息转换为线性结构。转换后的线性顺序按优先级依次需要满足:
1.源语短语长度小的优先;
2.源语短语起始位置靠前的优先。
例如,对于给定的短语对对齐四元组(1,3,4,6),(2,3,5,6),(1,2,4,5),根据上述排序规则,排序后的结果为:(1,2,4,5),(2,3,5,6),(1,3,4,6)
步骤3)中,输入的是未分词的待翻译的源语句子,对其进行分词处理,得到分词后的待翻译的源语句子。
步骤4)中,从分词后的平行句对中挑选出与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项为:
4.1)对已输入的双语平行数据的源语部分建立倒排索引,倒排索引中被检索的对象是单词,检索到的内容是出现该单词的句子以及在该句子中的位置信息;
4.2)对于输入的已分词的待翻译的源语句子,在倒排索引中查找出所有相似的分词后的平行句对的源语;
4.3)使用Dice系数来衡量已分词的待翻译的源语句子与倒排索引中查找出的相似的分词后的平行句对的源语间的相似程度:
Figure BDA0001017534130000072
其中,s1为分词后的待翻译的源语句子,s2为查找出的相似的分词后的平行句对的源语,Dice(s1,s2)为s1和s2之间的相似度得分,same(s1,s2)为s1和s2之间相同词的个数,ls1为s1中的词汇数,ls2为s2中的词汇数。
从输入的全部的双语平行句对中找出与待翻译句子最相似的翻译实例,并标记两者之间的差异项,为最终抽取翻译模板提供必要信息。
步骤4.1),为了提高搜索速度,需要对已输入的双语平行数据的源语部分建立倒排索引。本发明中,倒排索引中被检索的对象是单词,检索到的内容是出现该单词的句子以及在该句子中的位置信息。通过倒排索引,能够快速查询到出现某个单词的所有句子信息。
步骤4.2),对于输入的待翻译句子,查找出所有相似的翻译实例。针对待翻译句子中的每一个词,查询倒排索引表得到出现过该词的所有句子集合。对于每一个词出现过的句子集合和在该句子中的位置取并集,即可知道所有可能跟待翻译句子相似的翻译实例。
步骤4.3),为了从所有可能与待翻译句子相似的翻译实例集合中筛选出最相似的翻译实例,所以需要评价句子间相似程度。
步骤5)中,利用翻译推导信息及短语对对齐信息、从分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项动态生成翻译模板为:
符合强制解码产生的源语短语切分范围且能包含差异项的长度最小的短语片段;
在产生翻译模板过程中,根据差异项信息的不同,可以将每个差异项分为插入、删除、修改这三种状态分别进行处理;
若多个差异项产生的非终结符之间有交集时,对相交的非终结符合并,使得所有非终结符之间互不相交;
利用上述策略得到的非终结符即是根据待翻译句子信息动态产生的最优翻译模板。
若插入点在一个短语片段内,则直接将此短语片段作为最终的非终结符;
若插入点在两个短语片段之间,则按照强制解码生成的翻译推导树回退,直到回退到包含这两个短语片段的最小的源语短语片段,且该短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符。
若不存短语片段长度满足定义的最大阈值要求的源语短语,则判断插入点相邻的源语短语对应的译文是否相邻,若相邻则将这两个源语短语片段合并作为最终的非终结符,否则生成翻译模板失败。
对删除状态进行处理分为删除点在一个短语片段内和横跨多个短语片段两种情况:
若删除点在一个短语片段内,则直接将此短语片段作为最终的非终结符;
若删除点横跨多个短语片段时,则按照强制解码生成的翻译推导树回退,直到回退到包含差异项的最小的源语短语片段,且该短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符;否则生成翻译模板失败。
对修改状态进行处理分为修改点在一个短语片段内和横跨多个短语片段两种情况:
若修改点在一个短语片段内,则直接将此短语片段作为最终的非终结符;
若修改点横跨多个短语片段时,则按照强制解码生成的翻译推导树回退,直到回退到包含差异项的最小的源语短语片段,且该短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符;否则生成翻译模板失败。
根据之前得到的最相似实例的差异项信息、翻译推导树信息、以及短语对对齐信息,动态地产生最优翻译模板。这里的最优翻译模板需要满足:符合强制解码产生的源语短语切分范围且能包含差异项的长度最小的短语片段。
在产生最优翻译模板过程中,根据差异项信息的不同,可以将差异项分为插入、删除、修改这三种状态。
1.插入状态指,对于源语部分,最相似实例的源语不同于待翻译的源语句子的部分为空且反之非空;例如:待翻译的源语句子为:“我 爱 吃 红苹果”,最相似实例的源语为“我 爱 吃 苹果”,这里多出了“红”,因此是插入状态;
2.删除状态指,对于源语部分,待翻译的源语句子不同于最相似实例的源语的部分为空且反之非空;
3.修改状态指,对于源语部分,待翻译的源语句子不同于最相似实例的源语部分非空且反之也非空;例如:待翻译句子为:“我 爱 吃 红 苹果”,最相似实例为“我 爱 吃青 苹果”,这里“红”和“青”不一致,因此是修改状态。
对于插入状态,处理流程如图4所示,可进一步分为插入点在一个短语片段内和在两个短语片段之间两种情况:
A)若插入点在一个短语片段内,则直接将此短语片段作为最终的非终结符;
B)否则插入点在两个短语片段之间,则按照强制解码生成的翻译推导树回退,直到回退到包含这两个短语片段的最小的源语短语片段,且该短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符。若不存在符合上述要求的源语短语,则考虑插入点左右的源语短语对应的译文是否相邻,若相邻则将这个合并这两个源语短语片段作为最终的非终结符,否则生成翻译模板失败。
例如,如图3所示,若待翻译的源语句子为“我 想 知道 今天 的 日元 汇率。”,由于差异项是插入了“今天 的”,且插入内容的位置在“知道”和“日元 汇率”这两个短语片段之间,属于情况B)。在寻找最优非终结符过程中,首先将相邻短语分别根据翻译推导路径回退,“知道”依次回退到“我想 知道”、“我 想 知道 日元 汇率。”;“日元 汇率”也回退到“我想 知道 日元 汇率。”,此时该短语是包含“知道”和“日元 汇率”这两个短语的最小的符合强制解码短语切分的片段。但是由于该片段过长,不允许作为非终结符。再考虑“知道”和“日元 汇率”这两个源语短语的目标语部分,“know”和“the exchange rate of yen”也是相邻的,则将这两个短语合并后的片段“知道 日元 汇率”作为非终结符。
对于删除状态,处理流程如图5所示,可进一步分为删除点在一个短语片段内和横跨多个短语片段两种情况:
A)若删除点在一个短语片段内,则直接将此短语片段作为最终的非终结符
B)否则删除点横跨多个短语片段,则按照强制解码生成的翻译推导树回退,直到回退到包含差异项的最小的源语短语片段,且该短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符;否则生成翻译模板失败。
例如,若待翻译的源语句子为“我 知道 日元 汇率。”,由于差异项是删除了“想”,且删除内容的位置在“我”和“知道”这两个短语片段之间,属于情况A)。因此,直接将短语“想”作为非终结符。
对于修改状态,处理的情况和处理策略同删除状态相同。
存在多个差异项,则对于每一个差异项应用上述方法均能找到最优非终结符。当多个非终结符有交集时,还需要对相交的非终结符合并,使得所有非终结符之间互不相交。最终,利用上述策略得到的非终结符即是根据待翻译句子信息动态产生的最优翻译模板。
本发明提供了一种根据待翻译句子动态抽取翻译模板的方法,通过将翻译模板的抽取过程与应用过程相结合,不仅能够保留原始的双语数据信息,并且能够根据待翻译句子的信息自动动态调整非终结符的范围以适应该待翻译句子,从而产生更适当的翻译模板,提高了应用翻译模板的翻译结果准确度和翻译模板的覆盖度及使用率。

Claims (8)

1.一种基于强制解码的动态抽取翻译模板的方法,其特征在于包括以下步骤:
1)输入双语句子级平行数据,分别对源语和目标语分词,得到分词后的平行句对;
2)用基于短语的统计机器翻译系统对每一个分词后的平行句对进行强制解码,获取翻译推导信息及短语对对齐信息;
3)输入待翻译的源语句子,对待翻译的源语句子进行分词,得到分词后的待翻译的源语句子;
4)从分词后的平行句对中挑选出与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项;
5)利用翻译推导信息及短语对对齐信息、从分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项动态生成翻译模板;
对每一个分词后的平行句对进行强制解码,获取翻译推导信息及短语对对齐信息为:
对于每一个分词后的平行句对,使用基于短语的统计机器翻译系统对其进行强制解码,获得强制解码结果;
当一个分词后的平行句对存在多个强制解码结果时,从多个强制解码的结果中选择最优的解码结果,利用下式的线性模型计算每一个强制解码结果的得分,选择最高得分的强制解码结果:
Figure FDA0002510053320000011
其中,D为强制解码结果,S(D)为强制解码结果的得分,α为翻译推导个数的权重,L为翻译推导个数,h(di)为翻译推导的句法契合度,di为强制解结果中的一个翻译推导,i为翻译推导的序号,β为所有翻译推导句法契合度的平均值的权重;
将树结构存储的解码路径信息转换为线性结构,线性顺序按优先级依次为:源语短语长度小的优先、源语短语起始位置靠前的优先。
2.按权利要求1所述的基于强制解码的动态抽取翻译模板的方法,其特征在于:从分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项为:
对已输入的双语平行数据的源语部分建立倒排索引,倒排索引中被检索的对象是单词,检索到的内容是出现该单词的句子以及在句子中的位置信息;
对于输入的已分词的待翻译的源语句子,在倒排索引中查找出所有相似的分词后的平行句对的源语;
使用Dice系数来衡量已分词的待翻译的源语句子与倒排索引中查找出的相似的分词后的平行句对的源语间的相似程度:
Figure FDA0002510053320000021
其中,s1为分词后的待翻译的源语句子,s2为查找出的相似的分词后的平行句对的源语,Dice(s1,s2)为s1和s2之间的相似度得分,same(s1,s2)为s1和s2之间相同词的个数,ls1为s1中的词汇数,ls2为s2中的词汇数。
3.按权利要求1所述的基于强制解码的动态抽取翻译模板的方法,其特征在于:利用翻译推导信息及短语对对齐信息、分词后的平行句对中挑选与分词后的待翻译的源语句子最相似的平行句对以及二者间的差异项动态生成翻译模板为:
符合强制解码产生的源语短语切分范围且能包含差异项的长度最小的短语片段;
在产生翻译模板过程中,根据差异项信息的不同,可以将每个差异项分为插入、删除、修改这三种状态分别进行处理;
若多个差异项产生的非终结符之间有交集时,对相交的非终结符合并,使得所有非终结符之间互不相交;
上述非终结符即可动态产生基于待翻译句子信息的最优翻译模板。
4.按权利要求3所述的基于强制解码的动态抽取翻译模板的方法,其特征在于:对插入状态进行处理为包括插入点在一个短语片段内和在两个短语片段之间两种情况:
若插入点在一个短语片段内,则直接将此短语片段作为最终的非终结符;
否则插入点在两个短语片段之间,则按照强制解码生成的翻译推导树回退,直到回退到包含这两个短语片段的最小的源语短语片段,且该最小的源语短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符。
5.按权利要求4所述的基于强制解码的动态抽取翻译模板的方法,其特征在于:若包含这两个短语片段的最小的源语短语片段长度超过定义的最大阈值,则判断插入点相邻的源语短语对应的译文是否相邻,若相邻则将这两个源语短语片段合并作为最终的非终结符,否则生成翻译模板失败。
6.按权利要求3所述的基于强制解码的动态抽取翻译模板的方法,其特征在于:对删除状态进行处理分为删除点在一个短语片段内和横跨多个短语片段两种情况:
若删除点在一个短语片段内,则直接将此短语片段作为最终的非终结符;
否则,删除点横跨多个短语片段,则按照强制解码生成的翻译推导树回退,直到回退到包含差异项的最小的源语短语片段,且该短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符。
7.按权利要求6所述的基于强制解码的动态抽取翻译模板的方法,其特征在于:若回退到包含差异项的最小的源语短语片段超过定义的最大阈值,则生成翻译模板失败。
8.按权利要求3所述的基于强制解码的动态抽取翻译模板的方法,其特征在于:
对修改状态进行处理分为修改点在一个短语片段内和横跨多个短语片段两种情况:
若修改点在一个短语片段内,则直接将此短语片段作为最终的非终结符;
否则修改点横跨多个短语片段时,则按照强制解码生成的翻译推导树回退,直到回退到包含差异项的最小的源语短语片段,且该短语片段长度不超过定义的最大阈值,则将此源语短语作为非终结符,否则生成翻译模板失败。
CN201610420062.7A 2016-06-13 2016-06-13 一种基于强制解码的动态抽取翻译模板的方法 Active CN107491441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610420062.7A CN107491441B (zh) 2016-06-13 2016-06-13 一种基于强制解码的动态抽取翻译模板的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610420062.7A CN107491441B (zh) 2016-06-13 2016-06-13 一种基于强制解码的动态抽取翻译模板的方法

Publications (2)

Publication Number Publication Date
CN107491441A CN107491441A (zh) 2017-12-19
CN107491441B true CN107491441B (zh) 2020-07-17

Family

ID=60643081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610420062.7A Active CN107491441B (zh) 2016-06-13 2016-06-13 一种基于强制解码的动态抽取翻译模板的方法

Country Status (1)

Country Link
CN (1) CN107491441B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109284511B (zh) * 2018-09-04 2023-05-16 苏州大学 主动学习平行语料构建方法
CN111914571A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 语句切分方法及装置、存储介质、处理器及终端设备
CN111027332B (zh) * 2019-12-11 2023-06-02 北京百度网讯科技有限公司 生成翻译模型的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801140A (zh) * 2004-12-30 2006-07-12 中国科学院自动化研究所 一种机器翻译模板自动获取方法及装置
JP2008233956A (ja) * 2007-03-16 2008-10-02 Nippon Hoso Kyokai <Nhk> 翻訳装置及び翻訳プログラム
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801140A (zh) * 2004-12-30 2006-07-12 中国科学院自动化研究所 一种机器翻译模板自动获取方法及装置
JP2008233956A (ja) * 2007-03-16 2008-10-02 Nippon Hoso Kyokai <Nhk> 翻訳装置及び翻訳プログラム
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
CN102693222A (zh) * 2012-05-25 2012-09-26 熊晶 基于实例的甲骨文释文机器翻译方法
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

Also Published As

Publication number Publication date
CN107491441A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
CN100437557C (zh) 基于语言知识库的机器翻译方法与装置
CN105068997B (zh) 平行语料的构建方法及装置
CN101271452B (zh) 生成译文和机器翻译的方法及装置
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
KR20150036041A (ko) 구문 기반 사전 추출 및 번역 품질 평가 기법
CN110852117A (zh) 一种提升神经机器翻译效果的有效数据增强方法
CN111539229A (zh) 神经机器翻译模型训练方法、神经机器翻译方法及装置
CN106372053B (zh) 句法分析的方法和装置
CN104375988A (zh) 一种词语对齐方法及装置
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Álvarez et al. Towards customized automatic segmentation of subtitles
Hangya et al. Unsupervised parallel sentence extraction from comparable corpora
CN111046649A (zh) 一种文本分割方法和装置
CN107992479A (zh) 基于转移方法的字级别中文组块分析方法
CN108255818B (zh) 利用分割技术的复合式机器翻译方法
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
CN111178060A (zh) 一种基于语言模型的韩语分词还原方法
CN114861628A (zh) 训练机器翻译模型的系统、方法、电子设备及存储介质
Siahbani et al. Efficient left-to-right hierarchical phrase-based translation with improved reordering
CN103268314A (zh) 一种获取泰文断句规则的方法及装置
CN110232193B (zh) 一种结构化文本翻译方法及装置
CN114564970A (zh) 一种全自动语料对齐系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220214

Address after: 110004 1001 - (1103), block C, No. 78, Sanhao Street, Heping District, Shenyang City, Liaoning Province

Patentee after: Calf Yazhi (Shenyang) Technology Co.,Ltd.

Address before: Room 1517, No. 55, Sanhao Street, Heping District, Shenyang, Liaoning 110003

Patentee before: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220713

Address after: 110004 11 / F, block C, Neusoft computer city, 78 Sanhao Street, Heping District, Shenyang City, Liaoning Province

Patentee after: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD.

Address before: 110004 1001 - (1103), block C, No. 78, Sanhao Street, Heping District, Shenyang City, Liaoning Province

Patentee before: Calf Yazhi (Shenyang) Technology Co.,Ltd.

TR01 Transfer of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method for Dynamic Extraction of Translation Templates Based on Forced Decoding

Effective date of registration: 20230508

Granted publication date: 20200717

Pledgee: China Construction Bank Shenyang Hunnan sub branch

Pledgor: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD.

Registration number: Y2023210000101

PE01 Entry into force of the registration of the contract for pledge of patent right