CN101714136B - 将基于语料库的机器翻译系统适应到新领域的方法和装置 - Google Patents
将基于语料库的机器翻译系统适应到新领域的方法和装置 Download PDFInfo
- Publication number
- CN101714136B CN101714136B CN2008101659839A CN200810165983A CN101714136B CN 101714136 B CN101714136 B CN 101714136B CN 2008101659839 A CN2008101659839 A CN 2008101659839A CN 200810165983 A CN200810165983 A CN 200810165983A CN 101714136 B CN101714136 B CN 101714136B
- Authority
- CN
- China
- Prior art keywords
- mentioned
- translation
- source language
- language sentence
- frontier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
本发明提供一种将基于语料库的机器翻译系统适应到新领域的方法和系统。该方法包括:利用在一个领域中经过训练的基于语料库的机器翻译系统翻译该新领域中的多个源语言句子;从上述多个源语言句子中选出其翻译结果的评价低于预先设定的第一评价阈值的源语言句子;从翻译结果的评价低于第一评价阈值的源语言句子中识别出与该新领域相关的文本片段;利用该多个源语言句子及其翻译结果、以及与该新领域相关的文本片段及其正确译文更新机器翻译系统。在本发明中,对于在领域外训练好的机器翻译系统,通过利用在其重复地翻译新领域内的文本的过程中识别出的与该新领域相关的文本片段来训练该机器翻译系统,能够不断改进该机器翻译系统针对该新领域的翻译性能。
Description
技术领域
本发明涉及信息处理技术,具体地,涉及将基于语料库的机器翻译系统适应到新领域的方法和装置。
背景技术
机器翻译技术主要分为:基于规则的机器翻译、基于语料库的机器翻译。
在基于语料库的机器翻译系统中,主要的翻译资源来源于双语语料库。
也就是说,在基于语料库的机器翻译系统中,以双语语料库中的平行双语语料作为机器翻译的训练基础。即,这样的机器翻译系统,利用双语语料库中经过句子对齐、短语对齐等处理后的平行双语语料训练得到翻译模型,并且当用户输入待译句子后,利用翻译模型得到输入句子的目标语言译文。
理论上,一个基于语料库的机器翻译系统应该是可以应用到例如新闻、小说等各个领域中的。但是,不同的领域,其文本的特点是千差万别的,同一词语在不同领域中的翻译很可能是不同的,或者,在一个领域中很少被用到的词语在另一个领域中可能会大量出现。这样,在一个领域中建立的双语语料库可能并未覆盖另一领域中频繁出现的句子、短语、词等,或者该领域中对于某一词语的翻译不适用于该另一领域。
因此,对于不同的领域而言,为了得到针对该领域的较高翻译质量,需要利用该领域的双语语料作为基于语料库的机器翻译系统的训练基础,并且,用该领域中的双语语料训练后的翻译系统,也就是说基于该领域中的双语语料库的机器翻译系统,将仅适用于翻译该领域中的文本。如果用在该领域中训练好的机器翻译系统翻译另一领域中的文本,则翻译质量将会大打折扣。
从而,对于不同的领域而言,为了应用一个基于语料库的机器翻译系统,首先应该获得特定于该领域的双语语料库,作为训练基础,使该机器翻译系统利用该双语语料库来翻译该领域内的文本。
但是,对于某些领域而言,要获得特定于该领域的双语语料库是很难的。
为了解决该问题,一种现有的方法是:采用其他领域、即领域外的大量双语语料训练一个基本机器翻译系统,然后用一个小型的指定领域、即领域内的双语语料库来提高这个基本机器翻译系统的性能,参见Koehn、Philipp和Josh Schroeder在2007年发表的“Expeeriments in DomainAdaptation for Statistical Machine Translation”(Proceedings of theSecond Workshop on Statistical Machine Translation,224-227页)。
但是,在该方法中,小型的领域内的双语语料库是固定的,仅用来提高基本机器翻译系统在领域内的翻译性能,而并不能随着基本机器翻译系统在领域内的使用而不断扩充以改进基本机器翻译系统的翻译模型。也就是说,在该方法中,并不存在使在领域外训练好的机器翻译系统在领域内进行主动学习、以提高其在领域内的翻译质量的过程。
并且,在极端情况下,对于某些领域而言,即使小型的领域内的双语语料库也是不存在的。对于这样的情况,上述现有的方法也是无能为力的。
发明内容
本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供一种将基于语料库的机器翻译系统适应到新领域的方法和装置,以便针对在另一个领域中训练好的基于语料库的机器翻译系统,随着其在新领域中的使用,不断改进其翻译模型,即使该机器翻译系统执行针对该新领域的主动学习过程,来提高该机器翻译系统针对该新领域的翻译性能。
根据本发明的一个方面,提供一种将基于语料库的机器翻译系统适应到新领域的方法,包括:利用在一个领域中经过训练的基于语料库的机器翻译系统翻译该新领域中的多个源语言句子;从上述多个源语言句子中选出其翻译结果的评价低于预先设定的第一评价阈值的源语言句子;从上述翻译结果的评价低于第一评价阈值的源语言句子中识别出与该新领域相关的文本片段;以及利用上述多个源语言句子及其翻译结果、以及上述与该新领域相关的文本片段及其正确译文,更新上述基于语料库的机器翻译系统。
根据本发明的另一个方面,提供一种将基于语料库的机器翻译系统适应到新领域的装置,包括:翻译启动单元,用于使在一个领域中经过训练的基于语料库的机器翻译系统翻译该新领域中的多个源语言句子;低评价句子选择单元,用于从上述多个源语言句子中选出其翻译结果的评价低于预先设定的第一评价阈值的源语言句子;相关文本片段识别单元,用于从上述翻译结果的评价低于第一评价阈值的源语言句子中识别出与该新领域相关的文本片段;以及机器翻译系统更新单元,用于利用上述多个源语言句子及其翻译结果、以及上述与该新领域相关的文本片段及其正确译文,更新上述基于语料库的机器翻译系统。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明实施例的将基于语料库的机器翻译系统适应到新领域的方法的流程图;
图2是图1的方法中识别出与新领域相关的文本片段的步骤的详细流程图;
图3是图1的方法中更新基于语料库的机器翻译系统的步骤的详细流程图;
图4是根据本发明实施例的将基于语料库的机器翻译系统适应到新领域的装置的方框图;
图5是根据本发明一个实施例的、图4中的相关文本片段识别单元的方框图;以及
图6是根据本发明一个实施例的、图4中的机器翻译系统更新单元的方框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细说明。
图1是根据本发明实施例的将基于语料库的机器翻译系统适应到新领域的方法的流程图。本实施例的目的是,将在一个领域中已经训练好的基于语料库的机器翻译系统适应到一个自身不存在双语语料库或仅存在一个很小的双语语料库的新领域中。
如图1所示,首先在步骤105,获得该新领域内的一段源语言文本。其中,该源语言文本包括多个源语言句子。
在步骤110,利用上述基于语料库的机器翻译系统翻译该新领域内的上述源语言文本。
在步骤115,对于上述源语言文本中的每一个源语言句子,获得针对上述基于语料库的机器翻译系统的翻译结果的评价。
在一个实施例中,可以是从用户处获得对各个源语言句子的翻译结果的评价。例如,为用户提供翻译质量的评分范围,使用户从该评分范围内为上述源语言文本中的每一个源语言句子的翻译结果选择一个翻译质量的评分。
在另一个实施例,可以是对于上述源语言文本中的每一个源语言句子,根据下式(1),对上述基于语料库的机器翻译系统为该句子获得的翻译结果计算翻译置信度评分:
其中,K是特征函数的个数,hk(1≤k≤K)是第k个特征函数,λk是第k个特征函数的权重,s是源语言句子,t是s的翻译结果,a是s和t的对齐结果。
如上式(1)所示,翻译置信度评分是通过计算描述翻译结果的不同方面的多个特征函数的值的加权和而得到的。
在一个实施例中,利用三个特征函数来得到翻译结果的翻译置信度评分,这三个特征函数分别是描述翻译结果的流利度的语言模型概率hLM、描述源语言句子与翻译结果中的词之间的翻译概率的hW以及描述源语言句子与翻译结果中的短语之间的翻译概率的hP,并且这三个特征函数的值分别根据下式(2)~(3)来计算:
其中,p(ti|ti-1,ti-2)是从翻译结果中统计出的、关于词语ti与其之前的两个词语ti-1和ti-2之间的流利度的条件概率。并且,本领域技术人员可以理解,可以利用本领域中已有的多种方法来得到该式(2)中的条件概率p(ti|ti-1,ti-2)。
其中,p(ai|s,t)是从源语言句子和翻译结果中统计出的、关于词语ai在源语言句子s与翻译结果t之间的翻译质量的条件概率;wi是词翻译权重,其中对于该新领域内的词赋予比较高的词翻译权重。并且,本领域技术人员可以理解,可以利用本领域中已有的多种方法来得到该式(3)中的条件概率p(ai|s,t)。
其中,p(sj|tj)是从源语言句子和翻译结果中统计出的、关于源语言句子s中的短语sj与翻译结果t中的短语tj之间的翻译质量的条件概率;cj是短语翻译权重,其中对于该新领域内的短语赋予比较高的短语翻译权重;φ(s)和φ(t)分别是源语言句子s和翻译结果t中的短语集合。并且,本领域技术人员可以理解,可以利用本领域中已有的多种方法来得到该式(4)中的条件概率p(sj|tj)。
并且,在上式(2)~(4)中的三个特征函数的基础上,根据下式(5)计算它们的值的加权和,来得到翻译结果的置信度评分:
CS(t)=λLMhLM(t,s,a)+λWhW(t,s,a)+λPhP(t,s,a)(5)
接着,在步骤120,从上述源语言文本中,选出翻译结果的评价低于第一评价阈值的源语言句子。
在本实施例中,将上述第一评价阈值设定得较低,以便能够利用该第一评价阈值,从上述源语言文本中选出上述基于语料库的机器翻译系统的翻译结果的质量较差的源语言句子。
由于如前所述,上述基于语料库的机器翻译系统是在另一个领域中已经训练好的,所以如果利用该机器翻译系统翻译该另一个领域内的文本,则毫无疑问所得到的翻译结果的质量将是可靠的,但是,如果利用该机器翻译系统翻译该新领域内的源语言文本,则势必有些句子的翻译结果的质量将会较差。并且,如果某些句子的翻译结果的质量较差,则说明这些句子不是特定于上述另一个领域,而很可能是特定于该新领域的。
所以,在本实施例中,选出这些翻译结果的质量较差的源语言句子,来对该基于语料库的机器翻译系统进行后述步骤的训练。
在步骤125,从所选出的翻译结果的评价低于第一评价阈值的源语言句子中,识别出与该新领域相关的文本片段。其中,该文本片段可以是词、短语、句子等。
图2示出了根据本发明一个实施例的、图1中的该识别出与该新领域相关的文本片段的步骤125的详细过程。如图2所示,首先,在步骤205,从所选出的翻译结果的评价低于第一评价阈值的源语言句子中,抽取所有文本片段。在一个实施例中,预先设定一个长度阈值,并从所选出的翻译结果的评价低于第一评价阈值的源语言句子中,抽取所有长度小于该长度阈值的文本片段。
在步骤210,对于上述所有文本片段的每一个,计算其在该新领域中的出现概率P1。
具体地,在该步骤中,可以是预先获得该新领域中的一个源语言的单语语料库,这是容易实现的;然后计算上述所有文本片段的每一个在该单语语料库中的出现概率P1。
在步骤215,对于上述所有文本片段的每一个,计算其在上述基于语料库的机器翻译系统所被训练的上述另一个领域中、即领域外的出现概率P2。
同样,在该步骤中,可以是预先获得该另一个领域中的一个源语言的单语语料库,并计算上述所有文本片段的每一个在该单语语料库中的出现概率P2。
在步骤220,对于上述所有文本片段的每一个,计算其出现概率P1与出现概率P2的相对值P1/P2。
在步骤225,从上述所有文本片段中识别出其出现概率P1与出现概率P2的相对值P1/P2大于预先设定的相对值阈值δ的文本片段,作为与该新领域相关的文本片段。
以上就是图1中识别出与该新领域相关的文本片段的步骤125的详细过程。
接着,返回到图1,在步骤130,获得上述与该新领域相关的文本片段的每一个的正确译文。
在一个实施例中,可以使用户提供这些与该新领域相关的文本片段的每一个的正确译文。
但是,在其他实施例中,也可以在不使用户介入的情况下,自动地生成与该新领域相关的文本片段的每一个的正确译文。本领域技术人员可以理解,本领域中存在多种相关方法可以用来实现自动地生成与该新领域相关的文本片段的每一个的正确译文的步骤。例如,可以利用Li Shao和HweeTou Ng在2004年发表的“Mining New Word Translations fromComparable Corpora”(Proceedings of the 20th International Conferenceon Computational Linguistics,618-624页)中所公开的方法。但是,这仅是示例性的,本发明对所具体采用的方法并没有特别限制。
在步骤135,将上述与该新领域相关的文本片段的每一个及其正确译文添加到该新领域的双语语料库中。
如前所述,在该新领域中,可能目前并不存在双语语料库或仅存在一个很小的双语语料库。在不存在双语语料库的情况下,首先建立一个空的双语语料库,然后将这些文本片段及其正确译文添加到该新建立的双语语料库中,作为该新领域的领域内双语语料。
在步骤140,利用上述源语言文本及其翻译结果以及该新领域的双语语料库更新上述基于语料库的机器翻译系统。
图3示出了根据本发明一个实施例的、图1中的该更新上述基于语料库的机器翻译系统的步骤140的详细过程。如图3所示,首先,在步骤305,从上述源语言文本中选出翻译结果的评价高于预先设定的第二评价阈值的多个源语言句子。
在本实施例中,将上述第二评价阈值设定得较高,以便能够利用该第二评价阈值,从上述源语言文本中选出上述基于语料库的机器翻译系统的翻译结果的质量较高的源语言句子。
并且,在本步骤中,在各源语言句子的翻译结果的评价是从用户获得的评分的情况下,从这些源语言句子中选出用户评分高于第二评价阈值的多个源语言句子。此外,在各源语言句子的翻译结果的评价是所计算出的翻译置信度评分的情况下,从这些源语言句子中选出翻译置信度评分高于第二评价阈值的多个源语言句子。
在步骤310,根据上述翻译结果的评价高于第二评价阈值的多个源语言句子及其翻译结果、以及该新领域的双语语料库,建立针对该新领域的翻译模型。本领域技术人员可以理解,本领域中存在多种用于建立翻译模型的方法可以用来实现本步骤。
在一个实施例中,可以利用Philipp Koehn、Franz Josef Och和DanielMarcu在2003年发表的“Statistical Phrase-Based Translation”(Proceedings of Human Language Technology and North AmericanChapter of the Association for Computational Linguistics,127-133页)中所公开的方法,根据上述翻译结果的评价高于第二评价阈值的多个源语言句子、上述基于语料库的机器翻译系统对这些句子的翻译结果以及该新领域的双语语料库,训练得出针对该新领域的翻译模型。但是,这仅是示例性的,本发明对所具体采用的方法并没有特别限制。
在可选步骤315,对上述针对该新领域的翻译模型进行错误过滤。本领域技术人员可以理解,本领域中存在多种翻译模型的过滤方法可以用来实现本步骤。
在一个实施例中,可以利用吴华和王海峰在2007年发表的“Comparative Study of Word Alignment Heuristics and Phrase-BasedSMT”(Proceedings of Machine Translation Summit XI,507-514页)中所公开的方法,对该新领域的翻译模型进行错误过滤。但是,这仅是示例性的,本发明对所具体采用的方法并没有特别限制。
接着,在步骤320,将上述针对该新领域的翻译模型与上述基于语料库的机器翻译系统针对上述另一个领域的领域外翻译模型结合为一个翻译模型,作为该基于语料库的机器翻译系统针对该新领域的翻译模型。本领域技术人员可以理解,本领域中存在多种翻译模型的结合方法可以用来实现本步骤。
在一个实施例中,可以利用线性插值或者对数线性插值的方法将上述新领域的翻译模型与上述领域外翻译模型结合为一个翻译模型。但是,这仅是示例性的,本发明对所具体采用的方法并没有特别限制。
在步骤325,利用上述结合后的翻译模型,更新上述基于语料库的机器翻译系统。
以上就是图1中更新上述基于语料库的机器翻译系统的步骤140的详细过程。
接着,返回到图1,在步骤145,判断使上述过程结束的规定的条件是否满足。如果满足,则认为上述基于语料库的机器翻译系统针对该新领域的文本达到了可靠的翻译质量,从而结束步骤110-140的过程,否则,返回到步骤110,以便利用更新后的上述基于语料库的机器翻译系统重复上述过程。
其中,上述规定的条件可以是:上述过程的重复次数达到了预先规定的值;上述机器翻译系统为上述源语言文本中的多个源语言句子得到的翻译结果的评价均达到了上述第一评价阈值,或者达到了与上述第一评价阈值不同的、另外设定的阈值,等等。当然,并不限于此,在实际实现中,也可以根据具体情况规定其他的条件。
以上就是对本实施例的将基于语料库的机器翻译系统适应到新领域的方法的详细描述。在本实施例中,通过使在另一个领域中训练好的基于语料库的机器翻译系统重复地翻译新领域内的源语言文本,来识别与该新领域相关的文本片段,进而利用这些文本片段来训练该基于语料库的机器翻译系统,也就是说使该基于语料库的机器翻译系统执行针对该新领域的主动学习过程,以此来不断改进该机器翻译系统针对该新领域的翻译性能。
在同一发明构思下,本发明提供一种将基于语料库的机器翻译系统适应到新领域的装置。下面结合附图对其进行描述。
图4是根据本发明实施例的将基于语料库的机器翻译系统适应到新领域的装置的方框图。本实施例的该装置用于将在一个领域中已经训练好的基于语料库的机器翻译系统适应到一个自身不存在双语语料库或仅存在一个很小的双语语料库的新领域中。
如图4所示,本实施例的将基于语料库的机器翻译系统适应到新领域的装置40包括:翻译启动单元41、低评价句子选择单元42、相关文本片段识别单元43、文本片段译文获取单元44、语料添加单元45以及机器翻译系统更新单元46。
翻译启动单元41使上述基于语料库的机器翻译系统翻译预先获得的该新领域中的一段源语言文本,该源语言文本包括多个源语言句子。
低评价句子选择单元42从上述多个源语言句子中选出上述基于语料库的机器翻译系统的翻译结果的评价低于预先设定的第一评价阈值的源语言句子。
如图4所示,低评价句子选择单元42进一步包括:评分获取单元421以及评分比较单元422。
在一个实施例中,评分获取单元421对于上述多个源语言句子的每一个,计算上述基于语料库的机器翻译系统的翻译结果的翻译置信度评分,该翻译置信度评分是通过计算描述该源语言句子的翻译结果的不同方面的多个特征函数的值的加权和而得到的。
并且,在进一步的实施例中,利用三个特征函数来得到翻译结果的翻译置信度评分,这三个特征函数分别是描述翻译结果的流利度的语言模型概率hLM、描述源语言句子与翻译结果中的词之间的翻译概率的hW以及描述源语言句子与翻译结果中的短语之间的翻译概率的hP。并且,在此情况下,评分获取单元421对于上述多个源语言句子的每一个求取翻译置信度评分的过程是:
根据下式(2)计算上述基于语料库的机器翻译系统对该源语言句子的翻译结果的语言模型概率:
根据下式(3)计算上述源语言句子与翻译结果中的词之间的翻译概率:
根据下式(4)计算上述源语言句子与翻译结果中的短语之间的翻译概率:
根据下式(5)求取上述语言模型概率、词之间的翻译概率以及短语之间的翻译概率的加权和,作为该源语言句子的翻译置信度评分:
CS(t)=λLMhLM(t,s,a)+λWhW(t,s,a)+λPhP(t,s,a)(5)
评分比较单元422将上述多个源语言句子的每一个的翻译结果的上述翻译置信度评分与上述第一评价阈值进行比较,以从中选出翻译置信度评分未达到该第一评价阈值的源语言句子。
在另一个实施例中,评分获取单元421对于上述多个源语言句子的每一个,从用户获得对上述基于语料库的机器翻译系统针对该源语言句子的翻译结果的评分。例如,评分获取单元421可以为用户提供翻译质量的评分范围,使用户从该评分范围内为上述多个源语言句子的每一个的翻译结果选择一个评分。
在此情况下,评分比较单元422将上述多个源语言句子的每一个的翻译结果的用户评分与上述第一评价阈值进行比较,以从中选出用户评分未达到该第一评价阈值的源语言句子。
接着,相关文本片段识别单元43从上述翻译结果的评价低于第一评价阈值的源语言句子中,识别出与该新领域相关的文本片段。其中,该文本片段可以是词、短语、句子等。
文本片段译文获取单元44获得上述与该新领域相关的文本片段的每一个的正确译文。
在一个实施例中,该文本片段译文获取单元44可以从用户处获得这些与该新领域相关的文本片段的每一个的正确译文。
在另一个实施例中,该文本片段译文获取单元44可以根据Li Shao和Hwee Tou Ng发表的“Mining New Word Translations from ComparableCorpora”中所公开的方法实现为自动地生成与该新领域相关的文本片段的每一个的正确译文。但是,这仅是示例性的,本领域技术人员可以理解,本领域中存在多种相关方法可以用来将文本片段译文获取单元44实现为自动地生成与该新领域相关的文本片段的每一个的正确译文,本发明对具体所采用的方法并没有特别限制。
语料添加单元45将上述与该新领域相关的文本片段的每一个及其正确译文添加到该新领域的双语语料库中,作为该新领域的领域内双语语料。
如前所述,在该新领域中,可能目前并不存在双语语料库或仅存在一个很小的双语语料库。在不存在双语语料库的情况下,该语料添加单元45首先建立一个空的双语语料库,然后将这些与该新领域相关的文本片段及其正确译文添加到该新建立的双语语料库中。
机器翻译系统更新单元46利用上述多个源语言句子及其翻译结果以及上述新领域的双语语料库,更新上述基于语料库的机器翻译系统。
下面详细描述图4中的相关文本片段识别单元43。图5是根据本发明一个实施例的该相关文本片段识别单元的方框图。
如图5所示,本实施例的相关文本片段识别单元43包括:文本片段抽取单元431、概率相对值计算单元432、概率相对值比较单元433。
文本片段抽取单元431从上述翻译结果的评价低于第一评价阈值的源语言句子中抽取所有文本片段。在一个实施例中,预先设定一个长度阈值,使文本片段抽取单元431从翻译结果的评价低于第一评价阈值的源语言句子中,抽取所有长度小于该长度阈值的文本片段。
概率相对值计算单元432计算上述所有文本片段的每一个在该新领域中的出现概率P1与在上述基于语料库的机器翻译系统所被训练的另一个领域中的出现概率P2的相对值P1/P2。
概率相对值比较单元433从上述所有文本片段中识别出相对值P1/P2大于预先设定的相对值阈值δ的文本片段,作为与该新领域相关的文本片段。
下面详细描述图4中的机器翻译系统更新单元46。图6是根据本发明一个实施例的该机器翻译系统更新单元的方框图。
如图6所示,本实施例的机器翻译系统更新单元46包括:高评价句子选择单元461、翻译模型建立单元462、翻译模型过滤单元463以及翻译模型结合单元464。
高评价句子选择单元461从上述多个源语言句子中选出翻译结果的评价高于预先设定的第二评价阈值的多个源语言句子。
翻译模型建立单元462根据上述翻译结果的评价高于第二评价阈值的多个源语言句子及其翻译结果、以及上述新领域的双语语料库,建立针对该新领域的翻译模型。
在一个实施例中,该翻译模型建立单元462可以根据Philipp Koehn、Franz Josef Och和Daniel Marcu发表的“Statistical Phrase-BasedTranslation”中所公开的方法来实现。但是,这仅是示例性的,本领域技术人员可以理解,本领域中存在多种用于建立翻译模型的方法可以用来实现翻译模型建立单元462,本发明对具体所采用的方法并没有特别限制。
翻译模型过滤单元463对上述翻译模型建立单元462所建立的、针对该新领域的翻译模型进行错误过滤。
在一个实施例中,该翻译模型过滤单元463可以根据吴华和王海峰发表的“Comparative Study of Word Alignment Heuristics and Phrase-BasedSMT”中所公开的方法来实现。但是,这仅是示例性的,本领域技术人员可以理解,本领域中存在多种用于进行翻译模型的过滤的方法可以用来实现翻译模型过滤单元463,本发明对具体所采用的方法并没有特别限制。
翻译模型结合单元464将上述针对该新领域的翻译模型与上述基于语料库的机器翻译系统针对上述另一个领域的领域外翻译模型结合为一个翻译模型,并将其作为该基于语料库的机器翻译系统的新的翻译模型,来更新该机器翻译系统。
在一个实施例中,该翻译模型结合单元464可以根据线性插值或者对数线性插值的方法来实现。但是,这仅是示例性的,本领域技术人员可以理解,本领域中存在多种用于进行翻译模型的结合的方法可以用来实现翻译模型结合单元464,本发明对具体所采用的方法并没有特别限制。
并且,图4中的翻译启动单元41、低评价句子选择单元42、相关文本片段识别单元43、文本片段译文获取单元44、语料添加单元45以及机器翻译系统更新单元46重复进行翻译上述多个源语言句子、选出翻译结果的评价低于第一评价阈值的源语言句子、识别出与该新领域相关的文本片段以及更新上述基于语料库的机器翻译系统的过程,直到满足规定的条件、即达到可靠的翻译质量为止。
其中,该规定的条件可以是:上述过程的重复次数达到了预先规定的值;该基于语料库的机器翻译系统为上述多个源语言句子得到的翻译结果的评价均达到了上述第一评价阈值,或者达到了预先设定的另一阈值,等等。当然,并不限于此,在实际实现中,也可以根据具体情况规定其他的条件。
以上就是对本实施例的将基于语料库的机器翻译系统适应到新领域的装置的详细描述。
本实施例的将基于语料库的机器翻译系统适应到新领域的装置40及其各个组成部分,可以由专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
以上虽然通过一些示例性的实施例对本发明的将基于语料库的机器翻译系统适应到新领域的方法和装置进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅以所附权利要求为准。
Claims (19)
1.一种将基于语料库的机器翻译系统适应到新领域的方法,包括:
利用在一个领域中经过训练的基于语料库的机器翻译系统翻译该新领域中的多个源语言句子;
从上述多个源语言句子中选出其翻译结果的评价低于预先设定的第一评价阈值的源语言句子;
从上述翻译结果的评价低于第一评价阈值的源语言句子中识别出与该新领域相关的文本片段;以及
利用上述多个源语言句子及其翻译结果、以及上述与该新领域相关的文本片段及其正确译文,更新上述基于语料库的机器翻译系统;
其中,上述识别出与该新领域相关的文本片段的步骤进一步包括:
从上述翻译结果的评价低于第一评价阈值的源语言句子中抽取所有文本片段;
计算上述所有文本片段的每一个在该新领域中的出现概率与在上述一个领域中的出现概率的相对值;以及
从上述所有文本片段中识别出上述相对值大于预先设定的相对值阈值的文本片段,作为与该新领域相关的文本片段。
2.根据权利要求1所述的方法,其中重复上述翻译该新领域中的上述多个源语言句子的步骤、选出翻译结果的评价低于第一评价阈值的源语言句子的步骤、识别出与该新领域相关的文本片段的步骤以及更新上述基于语料库的机器翻译系统的步骤,直到满足规定的条件。
3.根据权利要求1所述的方法,其中上述选出其翻译结果的评价低于预先设定的第一评价阈值的源语言句子的步骤包括:
对于上述多个源语言句子的每一个,计算上述基于语料库的机器翻译系统的翻译结果的翻译置信度评分;以及
从上述多个源语言句子中选出其上述翻译置信度评分未达到上述第一评价阈值的源语言句子。
4.根据权利要求3所述的方法,其中计算上述基于语料库的机器翻译系统的翻译结果的翻译置信度评分的步骤进一步包括:
对于上述多个源语言句子的每一个:
分别计算描述该源语言句子的翻译结果的不同方面的多个特征函数的值;以及
求取上述多个特征函数的值的加权和,作为该源语言句子的翻译置信度评分。
5.根据权利要求3所述的方法,其中计算上述基于语料库的机器翻译系统的翻译结果的翻译置信度评分的步骤进一步包括:
对于上述多个源语言句子的每一个:
根据下式(2)计算上述基于语料库的机器翻译系统的翻译结果的语言模型概率:
根据下式(3)计算上述源语言句子与翻译结果中的词之间的翻译概率:
根据下式(4)计算上述源语言句子与翻译结果中的短语之间的翻译概率:
以及
根据下式(5)求取上述语言模型概率、词之间的翻译概率以及短语之间的翻译概率的加权和,作为该源语言句子的翻译置信度评分:
CS(t)=λLMhLM(t,s,a)+λWhW(t,s,a)+λPhP(t,s,a) (5)
其中,λ是特征函数的权重,s是源语言句子,t是s的翻译结果,a是s和t中的对齐结果,wi是词翻译权重,cj是短语翻译权重,φ(s)和φ(t)分别是s和t的短语集合。
6.根据权利要求5所述的方法,其中在上式(2)中,对于该新领域内的词赋予相对高的词翻译权重;在上式(3)中,对于该新领域内的短语赋予相对高的短语翻译权重。
7.根据权利要求1所述的方法,其中上述选出其翻译结果的评价低于预先设定的第一评价阈值的源语言句子的步骤包括:
对于上述多个源语言句子的每一个,从用户获得对上述基于语料库的机器翻译系统的翻译结果的评分;以及
从上述多个源语言句子中选出其上述用户评分未达到上述第一评价阈值的源语言句子。
8.根据权利要求1所述的方法,其中上述抽取所有文本片段的步骤进一步包括:
从上述翻译结果的评价低于上述第一评价阈值的源语言句子中抽取所有长度小于预先设定的长度阈值的文本片段。
9.根据权利要求1所述的方法,其中在更新上述基于语料库的机器翻译系统的步骤之前还包括:
获得上述与该新领域相关的文本片段的每一个的正确译文;以及
将上述与该新领域相关的文本片段的每一个及其正确译文添加到该新领域的双语语料库中,作为该新领域的双语语料。
10.根据权利要求9所述的方法,其中更新上述基于语料库的机器翻译系统的步骤进一步包括:
从上述多个源语言句子中选出翻译结果的评价高于预先设定的第二评价阈值的多个源语言句子;
根据上述翻译结果的评价高于第二评价阈值的多个源语言句子及其翻译结果、以及上述新领域的双语语料库,建立针对该新领域的翻译模型;以及
将上述针对该新领域的翻译模型与上述基于语料库的机器翻译系统针对上述一个领域的翻译模型结合为一个翻译模型,作为该基于语料库的机器翻译系统的新翻译模型。
11.根据权利要求9所述的方法,其中获得上述与该新领域相关的文本片段的每一个的正确译文的步骤进一步包括:
从用户处获得上述与该新领域相关的文本片段的每一个的正确译文;或者
自动生成上述与该新领域相关的文本片段的每一个的正确译文。
12.一种将基于语料库的机器翻译系统适应到新领域的装置,包括:
翻译启动单元,用于使在一个领域中经过训练的基于语料库的机器翻译系统翻译该新领域中的多个源语言句子;
低评价句子选择单元,用于从上述多个源语言句子中选出其翻译结果的评价低于预先设定的第一评价阈值的源语言句子;
相关文本片段识别单元,用于从上述翻译结果的评价低于第一评价阈值的源语言句子中识别出与该新领域相关的文本片段;以及
机器翻译系统更新单元,用于利用上述多个源语言句子及其翻译结果、以及上述与该新领域相关的文本片段及其正确译文,更新上述基于语料库的机器翻译系统;
其中,上述相关文本片段识别单元进一步包括:
文本片段抽取单元,用于从上述翻译结果的评价低于第一评价阈值的源语言句子中抽取所有文本片段;
概率相对值计算单元,用于计算上述所有文本片段的每一个在该新领域中的出现概率与在上述一个领域中的出现概率的相对值;以及
概率相对值比较单元,用于将上述所有文本片段的每一个的上述相对值与预先设定的相对值阈值进行比较,以从中识别出上述相对值大于该相对值阈值的文本片段,作为与该新领域相关的文本片段。
13.根据权利要求12所述的装置,其中上述低评价句子选择单元进一步包括:
评分获取单元,用于对于上述多个源语言句子的每一个,计算上述基于语料库的机器翻译系统的翻译结果的翻译置信度评分;以及
评分比较单元,用于将上述多个源语言句子的每一个的翻译结果的上述翻译置信度评分与上述第一评价阈值进行比较,以从中选出上述翻译置信度评分未达到该第一评价阈值的源语言句子。
14.根据权利要求13所述的装置,其中上述评分获取单元对于上述多个源语言句子的每一个:
分别计算描述该源语言句子的翻译结果的不同方面的多个特征函数的值;以及求取上述多个特征函数的值的加权和,作为该源语言句子的翻译置信度评分。
15.根据权利要求13所述的装置,其中上述评分获取单元对于上述多个源语言句子的每一个:
根据下式(2)计算上述基于语料库的机器翻译系统的翻译结果的语言模型概率:
根据下式(3)计算上述源语言句子与翻译结果中的词之间的翻译概率:
根据下式(4)计算上述源语言句子与翻译结果中的短语之间的翻译概率:
以及
根据下式(5)求取上述语言模型概率、词之间的翻译概率以及短语之间的翻译概率的加权和,作为该源语言句子的翻译置信度评分:
CS(t)=λLMhLM(t,s,a)+λWhW(t,s,a)+λPhP(t,s,a) (5)
其中,λ是特征函数的权重,s是源语言句子,t是s的翻译结果,a是s和t中的对齐结果,wi是词翻译权重,cj是短语翻译权重,φ(s)和φ(t)分别是s和t的短语集合。
16.根据权利要求12所述的装置,其中上述低评价句子选择单元进一步包括:
评分获取单元,用于对于上述多个源语言句子的每一个,从用户获得对上述基于语料库的机器翻译系统的翻译结果的评分;以及
评分比较单元,用于将上述多个源语言句子的每一个的翻译结果的用户评分与上述第一评价阈值进行比较,以从中选出上述用户评分未达到该第一评价阈值的源语言句子。
17.根据权利要求12所述的装置,还包括:
文本片段译文获取单元,用于获得上述与该新领域相关的文本片段的每一个的正确译文;以及
语料添加单元,用于将上述与该新领域相关的文本片段的每一个及其正确译文添加到该新领域的双语语料库中,作为该新领域的双语语料。
18.根据权利要求17所述的装置,其中上述机器翻译系统更新单元进一步包括:
高评价句子选择单元,用于从上述多个源语言句子中选出翻译结果的评价高于预先设定的第二评价阈值的多个源语言句子;
翻译模型建立单元,用于根据上述翻译结果的评价高于第二评价阈值的多个源语言句子及其翻译结果、以及上述新领域的双语语料库,建立针对该新领域的翻译模型;以及
翻译模型结合单元,用于将上述针对该新领域的翻译模型与上述基于语料库的机器翻译系统针对上述一个领域的翻译模型结合为一个翻译模型,作为该基于语料库的机器翻译系统的新翻译模型。
19.根据权利要求12所述的装置,其中上述翻译启动单元、低评价句子选择单元、相关文本片段识别单元以及机器翻译系统更新单元重复进行上述翻译该新领域中的上述多个源语言句子、选出翻译结果的评价低于第一评价阈值的源语言句子、识别出与该新领域相关的文本片段以及更新上述基于语料库的机器翻译系统的过程,直到满足规定的条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101659839A CN101714136B (zh) | 2008-10-06 | 2008-10-06 | 将基于语料库的机器翻译系统适应到新领域的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101659839A CN101714136B (zh) | 2008-10-06 | 2008-10-06 | 将基于语料库的机器翻译系统适应到新领域的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101714136A CN101714136A (zh) | 2010-05-26 |
CN101714136B true CN101714136B (zh) | 2012-04-11 |
Family
ID=42417786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101659839A Expired - Fee Related CN101714136B (zh) | 2008-10-06 | 2008-10-06 | 将基于语料库的机器翻译系统适应到新领域的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101714136B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103119584B (zh) * | 2010-12-17 | 2016-03-16 | 北京交通大学 | 机器翻译测评装置及方法 |
CN102193915B (zh) * | 2011-06-03 | 2012-11-28 | 南京大学 | 一种计算机中译英翻译中基于分词网的词对齐融合方法 |
CN103810159B (zh) * | 2012-11-14 | 2017-03-01 | 阿里巴巴集团控股有限公司 | 计算机翻译数据处理方法、系统及终端 |
CN105068997B (zh) * | 2015-07-15 | 2017-12-19 | 清华大学 | 平行语料的构建方法及装置 |
US9734142B2 (en) | 2015-09-22 | 2017-08-15 | Facebook, Inc. | Universal translation |
CN105528341B (zh) * | 2015-11-25 | 2018-07-24 | 金陵科技学院 | 具有领域定制功能的术语译文挖掘系统及方法 |
CN107704456B (zh) * | 2016-08-09 | 2023-08-29 | 松下知识产权经营株式会社 | 识别控制方法以及识别控制装置 |
CN108228574B (zh) * | 2017-12-07 | 2020-07-28 | 科大讯飞股份有限公司 | 文本翻译处理方法及装置 |
CN111160046A (zh) * | 2018-11-07 | 2020-05-15 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN112183117B (zh) * | 2019-06-14 | 2022-12-30 | 上海流利说信息技术有限公司 | 一种翻译评价的方法、装置、存储介质及电子设备 |
CN112989848B (zh) * | 2021-03-29 | 2022-12-16 | 华南理工大学 | 一种领域适应医学文献神经机器翻译模型的训练方法 |
CN113408302A (zh) * | 2021-06-30 | 2021-09-17 | 澳门大学 | 一种机器翻译结果的评估方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079028A (zh) * | 2007-05-29 | 2007-11-28 | 中国科学院计算技术研究所 | 一种统计机器翻译中的在线翻译模型选择方法 |
-
2008
- 2008-10-06 CN CN2008101659839A patent/CN101714136B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079028A (zh) * | 2007-05-29 | 2007-11-28 | 中国科学院计算技术研究所 | 一种统计机器翻译中的在线翻译模型选择方法 |
Non-Patent Citations (1)
Title |
---|
JP特开平8-69469A 1996.03.12 |
Also Published As
Publication number | Publication date |
---|---|
CN101714136A (zh) | 2010-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101714136B (zh) | 将基于语料库的机器翻译系统适应到新领域的方法和装置 | |
US8612205B2 (en) | Word alignment method and system for improved vocabulary coverage in statistical machine translation | |
CN106537370B (zh) | 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统 | |
US8886514B2 (en) | Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list | |
CN101271452B (zh) | 生成译文和机器翻译的方法及装置 | |
CN100440150C (zh) | 基于例子的机器翻译系统和方法 | |
Grundkiewicz et al. | The wiked error corpus: A corpus of corrective wikipedia edits and its application to grammatical error correction | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
CN104750687A (zh) | 改进双语语料库的方法及装置、机器翻译方法及装置 | |
US9311299B1 (en) | Weakly supervised part-of-speech tagging with coupled token and type constraints | |
CN103235775B (zh) | 一种融合翻译记忆和短语翻译模型的统计机器翻译方法 | |
Chen et al. | A simplification-translation-restoration framework for cross-domain SMT applications | |
Tan et al. | Manawi: Using multi-word expressions and named entities to improve machine translation | |
Zhang et al. | A tree-to-tree alignment-based model for statistical machine translation | |
Gupta et al. | Improving mt system using extracted parallel fragments of text from comparable corpora | |
Irvine et al. | Monolingual marginal matching for translation model adaptation | |
Callison-Burch et al. | Co-training for statistical machine translation | |
Tillmann | A beam-search extraction algorithm for comparable data | |
Molina et al. | Discursive sentence compression | |
Stepanov et al. | Language style and domain adaptation for cross-language SLU porting | |
JP2018072979A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
Sennrich et al. | A tree does not make a well-formed sentence: Improving syntactic string-to-tree statistical machine translation with more linguistic knowledge | |
Gavrila | Constrained recombination in an example-based machine translation system | |
Wu et al. | Improving domain-specific word alignment with a general bilingual corpus | |
Ganguly et al. | Dcu@ fire-2014: fuzzy queries with rule-based normalization for mixed script information retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120411 Termination date: 20151006 |
|
EXPY | Termination of patent right or utility model |