CN102043774A - 机器翻译测评装置和方法 - Google Patents

机器翻译测评装置和方法 Download PDF

Info

Publication number
CN102043774A
CN102043774A CN2011100061923A CN201110006192A CN102043774A CN 102043774 A CN102043774 A CN 102043774A CN 2011100061923 A CN2011100061923 A CN 2011100061923A CN 201110006192 A CN201110006192 A CN 201110006192A CN 102043774 A CN102043774 A CN 102043774A
Authority
CN
China
Prior art keywords
translation
language
source language
machine translation
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100061923A
Other languages
English (en)
Inventor
徐金安
陈亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN2011100061923A priority Critical patent/CN102043774A/zh
Publication of CN102043774A publication Critical patent/CN102043774A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种机器翻译测评装置,包括:第一翻译单元,用于对输入的源语言进行机器翻译,并生成目标语言;第二翻译单元,用于把所述目标语言逆向翻译成源语言;源语言语言模型,对输入的源语言和第二翻译单元逆向翻译的结果分别进行评分;以及评价单元,用于根据所述源语言语言模型的评分比较所述输入的源语言和第二翻译单元的逆向翻译结果之间的相似度,对所述机器翻译进行评价。根据本发明,可以在不存在参考译文或标准翻译结果的情况下,对翻译结果进行评分,提供机器翻译结果的信赖度,在实用层面上解决了翻译结果评价困难的问题,为包括语音自动翻译在内的机器翻译系统提供高效可信的机器翻译结果。

Description

机器翻译测评装置和方法
技术领域
本发明涉及一种机器翻译测评装置和方法,属于机器翻译结果的自动测评的自然语言处理技术领域。
背景技术
目前,机器翻译系统的译文评测标准有两种:一种是主观评测标准,即由人工主观判断译文质量打分;另一种是客观评测标准,即依据一定的评价模型计算打分。主观评测依据人工给出参考译文对翻译系统译文的流畅性和充分性进行评分。客观测评定量地计算系统译文与参考译文之间的接近程度。
日本专利文献特開2007-241910公开了一种机器翻译评价装置和方法。然而,其需要给出参考译文,即源语言翻译句子的目标语言的正确翻译结果。但是,一般而言,对实际应用中的机器翻译系统而言,由于语言的多样性,对绝大多数的源语言句子而言,很难对被翻译的句子给出正确的翻译结果。尽管通常的机器翻译评测活动中测试集都包括许许多多的正确译文。
对于普通用户而言,这种花销显得不必要、不现实、不实用、且不能给用户提供具有实际参考价值上的意义和便利,因为对于普通用户而言,通常的需求往往是在没有参考译文的条件下想知道翻译结果的可信度,或者比较多个系统译文的评分来选择评分更高的译文供自己使用。
因此,在不存在参考译文或标准翻译结果的情况下,无法对源语言的翻译结果给出评测结果,在实际的机器翻译系统中,往往造成用户对翻译结果的可信度或信赖度一无所知或无法了解的状况,这一问题成为机器翻译系统推广使用过程中的巨大障碍,同时给用户带来了很多的不便。
发明内容
本发明的目的是提供一种机器翻译测评装置和方法,其可使得机器翻译系统在不存在参考译文或标准翻译结果的情况下,对机器翻译系统的翻译结果进行合理的评价,为机器翻译用户提供机器翻译信赖度的合理评价方法。
为此,根据本发明的一个方面,提供了一种机器翻译测评装置,其特征在于,包括:第一翻译单元,用于对输入的源语言进行机器翻译,并生成目标语言;第二翻译单元,用于把所述目标语言逆向翻译成源语言;源语言语言模型,对输入的源语言和第二翻译单元的逆向翻译结果分别进行评分;以及评价单元,用于根据所述源语言语言模型的评分比较所述输入的源语言和第二翻译单元的逆向翻译结果之间的相似度,对所述机器翻译进行评价。
优选地,还包括:源语言输入单元,用于接收所述输入的源语言;以及目标语言输出单元,将所述目标语言输出给所述第二翻译单元。
优选地,所述源语言语言模型通过计算句子的概率来提供评分。
优选地,所述源语言语言模型是词、词类、语义属性中的任意的一种或组合,或是N元语法模型,根据对输入的源语言的评分和对第二翻译单元的逆向翻译结果的评分之间的和、差、积、商、对数、指数中的任意一种或组合,所述评价单元对所述机器翻译进行评价。
优选地,所述第一翻译单元采用的机器翻译方法是直接翻译方法、基于转换的机器翻译方法、基于中间语言的机器翻译方法、基于语言学的机器翻译方法、基于知识的机器翻译方法、基于平行语法的机器翻译方法、基于实例的机器翻译方法、基于统计的机器翻译方法中的其中之一或者组合;或者,所述第二翻译单元采用的逆向翻译方法是直接翻译方法、基于转换的机器翻译方法、基于中间语言的机器翻译方法、基于语言学的机器翻译方法、基于知识的机器翻译方法、基于平行语法的机器翻译方法、基于实例的机器翻译方法、基于统计的机器翻译方法中的其中之一或者组合。
根据本发明的另外一个方面,提供了一种机器翻译测评方法,其特征在于,包括下列步骤:对输入的源语言进行机器翻译,并生成目标语言;将所述目标语言逆向翻译成源语言;根据源语言语言模型对输入的源语言和逆向翻译的结果分别进行评分;根据所述源语言语言模型的评分比较所述输入的源语言和逆向翻译结果之间的相似度,对所述机器翻译进行评价。
优选地,采用源语言输入单元接收所述输入的源语言;以及采用目标语言输出单元启动逆向翻译。
优选地,所述源语言语言模型通过计算句子的概率来提供评分。
优选地,所述源语言语言模型是词、词类、语义属性中的任意的一种或组合,或是N元语法模型,根据对输入的源语言的评分和逆向翻译结果的评分之间的和、差、积、商、对数、指数中的任意一种或组合,所述评价单元对所述机器翻译进行评价。
优选地,所述机器翻译方法是直接翻译方法、基于转换的机器翻译方法、基于中间语言的机器翻译方法、基于语言学的机器翻译方法、基于知识的机器翻译方法、基于平行语法的机器翻译方法、基于实例的机器翻译方法、基于统计的机器翻译方法中的其中之一或者组合;或者,所述逆向翻译方法是直接翻译方法、基于转换的机器翻译方法、基于中间语言的机器翻译方法、基于语言学的机器翻译方法、基于知识的机器翻译方法、基于平行语法的机器翻译方法、基于实例的机器翻译方法、基于统计的机器翻译方法中的其中之一或者组合。
根据本发明,在不存在参考译文或标准翻译结果的情况下,可以实现对翻译结果的信赖度进行评价,尤其对统计机器翻译系统的翻译结果的信赖度评价具有很好的评价效果。具体来讲,通过使用机器翻译单元B(第二翻译单元)把输入的源语言经机器翻译单元A(第一翻译单元)的翻译结果进行还原,然后,使用翻译结果评分单元来计算输入的源语言和被还原的翻译结果之间的相似度,从而对机器翻译系统的翻译结果进行评分计算,或使用源语言模型计算输入给系统的源语言句子和被还原的翻译结果的句子之间的相似度,对机器翻译系统的翻译结果进行评分计算和信赖度估值,为用户提供机器翻译结果的信赖度,从而基本解决机器翻译系统在实用层面上的翻译结果评价困难的问题,为包括语音自动翻译在内的机器翻译系统提供高效可信的机器翻译结果的评价装置和方法。
附图说明
下面结合附图,对本发明的实施例进行说明,应该理解,这些实施例适用于说明本发明,而不是对本发明进行限定,其中:
图1是根据本发明的第一实施例的机器翻译测评装置的方框图。
图2是根据本发明的第二实施例的机器翻译测评装置的方框图。
图3是根据本发明的第一实施例的机器翻译测评方法的流程图。
具体实施方式
以下对照附图并结合具体实施方式对本发明进行进一步的详细说明。在接下来的部分中,将利用一些具体的例子如英语、汉语等等来解释本发明。然而,毋庸讳言,本发明所述的机器翻译测评装置和方法,并不仅仅限于英语或汉语,对其他任何语言都是可以接受的。
根据本发明提供的机器翻译测评装置和方法,可以在不存在参考译文或标准翻译结果的情况下,对翻译结果进行评分和估值,可以为广大普通用户提供机器翻译结果的信赖度,从而基本解决机器翻译系统在实用层面上的翻译结果评价困难的问题,为包括语音自动翻译在内的机器翻译系统提供高效可信的机器翻译结果的评价装置和方法,为用户带来便利。
如图1所示,机器翻译测评装置包括:源语言输入单元100;机器翻译单元A110;目标语言输出单元120;机器翻译单元B130;翻译结果评分单元140;输出单元150。接下来将详细解释每个构成模块的功能、性质、原理及实现方法。
源语言输入单元100接收用户提供的源语言输入语句,并把输入的语句发送给机器翻译单元A110和源语言评分单元140。为了输入源语言输入语句,可以使用任何输入设备,如键盘、手写识别、语音识别装置,或者从已存盘的文件中读取,这些方法都是可接受的。源语言输入单元100可以使用任何方法,只要能够执行处理最终源语言输入语句即可。例如,如下设置是可接受的:源语言输入单元100接收用户键盘上的输入,并将输入的字符串结果作为源语言输入语句。
机器翻译单元A110的功能是接收源语言输入单元100提供的源语言语句,并将源语言输入语句翻译为目标语言,然后,把翻译结果输出到目标语言输出单元120。机器翻译单元A110的翻译方法可以多种多样,可以使用直接翻译方法、基于转换的机器翻译方法、基于中间语言的机器翻译方法、基于语言学的机器翻译方法、基于知识的机器翻译方法、基于平行语法的机器翻译方法、基于实例的机器翻译方法、基于统计的机器方法等等。既可以使用单一形式的机器翻译方法,也可以使用多种机器翻译方法组成的多引擎机器翻译方法。
目标语言输出单元120接收源语言输入语句经过机器翻译单元110得到的目标语言的翻译结果,并把翻译结果输出给机器翻译单元B130。目标语言输出单元120还输出机器翻译单元110的翻译结果给用户,输出的形式多种多样,可以是文件输出,也可以是显示器输出,还可以进行语音合成以语音形式输出等等。
机器翻译单元B130的功能是将目标语言输出单元120提供的源语言输入语句的翻译结果进行逆向翻译,即将前述的机器翻译单元A110的翻译结果翻译成输入的源语言。机器翻译单元B130的翻译方法、原理及其系统构建方面可以与机器翻译单元A110完全相同,也可以不同。甚至机器翻译单元B130的翻译方法还可以采用机器辅助翻译和人工翻译的方法。
翻译结果评分单元140,接收机器翻译单元B130的输出结果的句子和源语言输入单元100读入内存中的源语言输入语句,并通过计算两个句子之间的相似度对机器翻译单元A110的翻译结果进行评分,然后,把评分输出到输出单元150。翻译结果评分单元150的句子间的相似度计算方法多种多样,常用的相似度算法如余弦定理、内积相似度、Dice系数、皮尔森系数、Jaccard系数、调整余弦相似性、Kullback-Leible距离(即KL距离)、Minkowski距离等等均可以采用,当然采用其他方法计算相似度也是可行的。也可以把源语言输入单元100的输入语句当作标准答案,使用BLEU值和NIST值、以及mWER、mPER、GMT和METEOR等计算方法对翻译结果进行评价;
输出单元150接收翻译结果评价单元140的输出结果,并把结果进行输出处理,输出的形式多种多样,可以是文件输出,也可以是显示器输出,还可以进行语音合成以语音形式输出等等。同时,输出结果还可以根据需要向源语言用户、目标语言用户中的一方进行输出或同时进行输出。
下面,结合图3对本发明的第一实施例的处理方法和步骤做详细说明。
步骤源语言输入S01表示源语言句子的输入,把输入的句子读入内存,同时把内存中的句子输出给步骤机器翻译AS02和步骤翻译结果评分S05。以把日语翻译成汉语的机器翻译系统为例,当输入源语言为“彼は亀山です”时,步骤源语言输入S01把该语句读入内存并输出给步骤机器翻译AS02和步骤翻译结果评分S05。
步骤机器翻译AS02接收步骤源语言输入S01的输出,并把读入的句子翻译成目标语言。然后,把翻译结果输出给步骤目标语言输出S03。如上所述,以日汉机器翻译系统为例,当输入源语言为“彼は亀山です”时,步骤机器翻译AS02接收步骤源语言输入S01输出的“彼は亀山です”,并把该句子翻译成汉语,如翻译结果为“他龟山”时,步骤机器翻译AS02把“他龟山”输出给步骤目标语言输出S03。
步骤机器翻译AS02的翻译方法多种多样,可以使用直接翻译方法、基于转换的机器翻译方法、基于中间语言的机器翻译方法、基于语言学的机器翻译方法、基于知识的机器翻译方法、基于平行语法的机器翻译方法、基于实例的机器翻译方法、基于统计的机器方法等等。既可以使用单一形式的机器翻译方法,也可以使用多种机器翻译方法组成的多引擎机器翻译方法。
步骤目标语言输出S03接收步骤机器翻译AS02的输出,即源语言的目标语言翻译结果,并把翻译结果输出到步骤机器翻译BS04,同时,步骤目标语言输出S03还可以对步骤机器翻译AS02的翻译结果输出给用户,可以以文件输出,也可以以显示器输出,还可以进行语音合成以语音形式输出等。如上所述,以日汉机器翻译系统为例,当输入源语言为“彼は亀山です”时,步骤目标语言输出S03接收步骤机器翻译AS02输出“他龟山”,即源语言的目标语言翻译结果,并把该翻译结果输出到步骤机器翻译BS04,同时,步骤目标语言输出S03还可以把“他龟山”进行输出。
步骤机器翻译BS04接收步骤目标语言输出S03输出的步骤机器翻译AS02的翻译结果,并把读入的句子翻译成源语言,然后,把翻译结果输出给步骤翻译结果评分S06。步骤机器翻译BS04的翻译方法也可以多种多样,可以和机器翻译步骤AS02的机器翻译方法相同,也可以不同。如上所述,以日汉机器翻译系统为例,当输入源语言为“彼は亀山です”时,步骤机器翻译BS04接收步骤目标语言输出S03输出的“他龟山”这一翻译结果,然后,把该句子翻译成源语言,如该步骤的翻译结果为“彼は亀山”时,然后,把“彼は亀山”输出给步骤翻译结果评分S06。
步骤翻译结果评分S05接收步骤机器翻译BS04的输出结果,同时,接受步骤源语言输入S01输出的源语言句子,然后,计算两个句子之间的相似度,并把计算得到的相似度输出给步骤输出S06。常用的相似度算法如余弦定理、内积相似度、Dice系数、皮尔森系数、Jaccard系数、调整余弦相似性、Kullback-Leible距离(即KL距离)、Minkowski距离等等均可以采用,当然采用其他方法计算相似度也是可行的。此时,为了实现对翻译结果的定性分析,可以事先根据相似度对翻译结果进行级别评定,如相似度为1时,翻译结果的评级可以定位为A级,而把其他评价结果定位不完全正确的B级,或根据适当的相似度的阈值把评分结果为正确、基本正确和不正确等三个级别等等,当然还可以有其他的分级方式,本方法都是可以接受的。如上所述,以日汉机器翻译系统为例,当输入源语言为“彼は亀山です”时,步骤翻译结果评分S05接收步骤机器翻译BS04的输出结果“彼は亀山”,然后,步骤翻译结果评分S05通过计算句子“彼は亀山”,以及源语言输入语句“彼は亀山です”之间的相似度,当使用余弦定理进行相似度技术时可得到如下结果:
余弦定理公式的描述如下:
π(S)={W1,W2,...Wn}.............................................................(1)
其中S表示句子,Wi为句子中的单词。
Sims(S1,S2)=2*Γ(π(S1)∩π(S2))/(Len(S1)+Len(S2))  ...................(2)
其中∩表示集合的求交运算。Γ运算符表示求集合中的元素个数,Len表示句子的长度,即句子中含有的单词数。计算源语言输入语句“彼は亀山です”和步骤机器翻译BS04的翻译结果“彼は亀山”之间的相似度时,可以得到如下结果:
首先,对两个句子分词得到结果:
彼/は/亀山/です
彼/は/亀山
通过计算,句子“彼は亀山です”和“彼は亀山”时的相似度为:
Sims(S1,S2)=2*3/7=0.8571428571
步骤输出S06接收步骤翻译结果评分S05的输出结果,并将结果输出,其形式多种多样,可以是文件、显示器输出、合成语音等形式。同时,输出结果还可以根据需要向源语言用户、目标语言用户中的一方进行输出或同时进行输出。例如向用户输入目标语言输出S03的输出结果“他龟山”,同时向用户输出可信度为:85.7%。
同理,当输入语句为“彼は教師です”时,经过步骤机器翻译AS02的翻译结果为“他是教师”,然后,经过步骤机器翻译BS04的翻译处理,结果为“彼は教師です”时,两个句子之间的相似度:
Sims(S1,S2)=2*6/12=1
步骤输出S06向用户输出目标语言输出S03所得到的目标语言,并同时输出句子可信度为100%。
如上所述,针对当前的机器翻译系统而言,该方法具有非常可观的效果(在没有参考翻译结果的情况下,系统可以自动地为用户提供翻译结果的信赖度指标),特别是针对当前的统计机器翻译系统而言,效果更为显著。
下面结合图2对本发明的第二实施例的机器翻译测评装置进行详细说明。
如图2所示,机器翻译测评装置包括:源语言输入单元100;机器翻译单元A110;目标语言输出单元120;机器翻译单元B130;翻译结果评分单元140;输出单元150;源语言语言模型1010。
本实施例和第一实施例的不同点在于增加了源语言语言模型1010,其他的构成要素和单元都是一样的。
源语言语言模型1010的功能是为翻译结果评分单元140提供对输入的源语言语句和机器翻译单元B130的翻译结果进行评分计算的语言模型。源语言语言模型可以多种多样,只要能够实现对输入的源语言句子和机器翻译单元B130的翻译结果进行评分即可。评分的算法也可以根据具体的语言模型的结构和形式采用相应的计算方法。如使用N元模型、决策树模型等等均可。
当使用源语言语言模型1010时,翻译结果评分单元可以分别使用言语模型,对源语言输入单元100输入的源语言语句和机器翻译单元B130的翻译结果分别根据源语言语言模型1010中的模型分别对句子进行计算和打分。然后,再计算两个句子的权重的和、差、积、商、对数运算或指数运算中的任意一种、或一种以上的计算方法,对翻译结果进行评价。
如以使用源语言语言模型1010的源语言模型为N元语法模型(n-grammodel)时,可以根据N元模型计算句子的概率,其基本思想为将语言模型构建为字符串s的概率分布p(s),这里p(s)反映的是字符串s作为一个句子出现的概率。假定s由多个词组成,即s=w1 w2 w3 w1...wl,则
Figure BDA0000043637180000061
Figure BDA0000043637180000071
通常一个词的出现仅与前n-1个词有关系,将这样的语言模型称为n元语法模型,即一个词出现的概率只依赖于它前面的n-1个词,同时,在句子开头加上句首标记<BOS>,在句子结尾加上句尾标记<EOS>,那么则有
Figure BDA0000043637180000072
计算
Figure BDA0000043637180000073
时采用最大似然估计,即
Figure BDA0000043637180000074
实际计算中会出现某个
Figure BDA0000043637180000075
为0的情况,从而导致p(s)=0。而事实上某个字符串s总有出现的可能,其概率应该大于0,因而必须采用平滑技术,使p(s)的概率不为0,例如加1法,于是
Figure BDA0000043637180000076
其它一些主要的数据平滑方法包括加法平滑法、Good-Turing估计法、Katz平滑法、Jelinek-Mercer平滑法、Witten-Bell平滑法等。
为解释源语言评分单元过程,将假定源语言输入语句为英语,在此基础上结合平滑技术建立n元语法模型。例如,假设训练语料由以下3个句子构成:
“John read the Moby Dick”,
“Mary read a different book”,
“She read a book by Cher”
当输入语句为:“John read the book”时,建立3元语法模型,使用加1平滑法进行数据平滑,计算语句在源语言模型中的概率:
得到结果:
Figure BDA0000043637180000078
作为句子“John readthe book”的评分。
将0.0000202960作为源语言输入单元向翻译结果评分单元140的一个输入。
同理,可以计算出其他句子的评分。然后,在翻译结果评价单元140,可以对两个句子的评分进行比较、如进行和、差、积、商等运算等。
例如,通过机器翻译B130的翻译结果为“John read a book”,使用3元语法模型,加1平滑法进行数据平滑,计算句子在源语言模型中的概率:
Figure BDA0000043637180000081
得到结果:
Figure BDA0000043637180000082
作为句子的评分。
对两个句子进行商运算:得到r=P(John read a book)/P(John read the book)=0.0000173396/0.0000202960=0.8543358297
把结果0.8543358297作为翻译结果评分单元140的输出,输出单元可以向用户输出目标语言输出单元120的翻译结果,并且输出翻译结果评分单元140的评分结果。此时,为了实现对翻译结果的定性分析,可以事先根据相似度对翻译结果进行级别评定,如相似度为1时,翻译结果的评级可以定位为A级,而把其他评价结果定位不完全正确的B级,或根据适当的相似度的阈值把评分结果为正确、基本正确和不正确等三个级别等等,当然还可以有其他的分级方式,本方法都是可以接受的。
本发明的第二实施例的机器翻译测评方法的流程图和图3是一致的。处理流程也基本一致,不同点在于步骤翻译结果评分S06的评分处理过程中,同时使用了源语言语言模型对句子进行评分处理。
通过以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种机器翻译测评装置,其特征在于,包括:
第一翻译单元,用于对输入的源语言进行机器翻译,并生成目标语言;
第二翻译单元,用于把所述目标语言逆向翻译成源语言;
源语言语言模型,对输入的源语言和第二翻译单元的逆向翻译结果分别进行评分;以及
评价单元,用于根据所述源语言语言模型的评分比较所述输入的源语言和第二翻译单元的逆向翻译结果之间的相似度,对所述机器翻译进行评价。
2.根据权利要求1所述的机器翻译测评装置,其特征在于,还包括:源语言输入单元,用于接收所述输入的源语言;以及目标语言输出单元,将所述目标语言输出给所述第二翻译单元。
3.根据权利要求1所述的机器翻译测评装置,其特征在于,所述源语言语言模型通过计算句子的概率来提供评分。
4.根据权利要求1所述的机器翻译测评装置,其特征在于,所述源语言语言模型是词、词类、语义属性中的任意的一种或组合,或是N元语法模型;根据对输入的源语言的评分和对第二翻译单元的逆向翻译结果的评分之间的和、差、积、商、对数、指数中的任意一种或组合,所述评价单元对所述机器翻译进行评价。
5.根据权利要求1-4其中之一所述的机器翻译测评装置,其特征在于:所述第一翻译单元采用的机器翻译方法是直接翻译方法、基于转换的机器翻译方法、基于中间语言的机器翻译方法、基于语言学的机器翻译方法、基于知识的机器翻译方法、基于平行语法的机器翻译方法、基于实例的机器翻译方法、基于统计的机器翻译方法中的其中之一或者组合;所述第二翻译单元采用的逆向翻译方法是直接翻译方法、基于转换的机器翻译方法、基于中间语言的机器翻译方法、基于语言学的机器翻译方法、基于知识的机器翻译方法、基于平行语法的机器翻译方法、基于实例的机器翻译方法、基于统计的机器翻译方法中的其中之一或者组合。
6.一种机器翻译测评方法,其特征在于,包括下列步骤:
对输入的源语言进行机器翻译,并生成目标语言;
将所述目标语言逆向翻译成源语言;
根据源语言语言模型对输入的源语言和逆向翻译结果分别进行评分;
根据所述源语言语言模型的评分比较所述输入的源语言和逆向翻译结果之间的相似度,对所述机器翻译进行评价。
7.根据权利要求6所述的机器翻译测评方法,其特征在于,采用源语言输入单元接收所述输入的源语言;以及采用目标语言输出单元启动逆向翻译。
8.根据权利要求6所述的机器翻译测评方法,其特征在于,所述源语言语言模型通过计算句子的概率来提供评分。
9.根据权利要求6所述的机器翻译测评方法,其特征在于,所述源语言语言模型是词、词类、语义属性中的任意的一种或组合,或是N元语法模型;根据对输入的源语言的评分和逆向翻译结果的评分之间的和、差、积、商、对数、指数中的任意一种或组合,所述评价单元对所述机器翻译进行评价。
10.根据权利要求6-9其中之一所述的机器翻译测评方法,其特征在于:所述机器翻译方法是直接翻译方法、基于转换的机器翻译方法、基于中间语言的机器翻译方法、基于语言学的机器翻译方法、基于知识的机器翻译方法、基于平行语法的机器翻译方法、基于实例的机器翻译方法、基于统计的机器翻译方法中的其中之一或者组合;所述逆向翻译方法是直接翻译方法、基于转换的机器翻译方法、基于中间语言的机器翻译方法、基于语言学的机器翻译方法、基于知识的机器翻译方法、基于平行语法的机器翻译方法、基于实例的机器翻译方法、基于统计的机器翻译方法中的其中之一或者组合。
CN2011100061923A 2011-01-13 2011-01-13 机器翻译测评装置和方法 Pending CN102043774A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100061923A CN102043774A (zh) 2011-01-13 2011-01-13 机器翻译测评装置和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100061923A CN102043774A (zh) 2011-01-13 2011-01-13 机器翻译测评装置和方法

Publications (1)

Publication Number Publication Date
CN102043774A true CN102043774A (zh) 2011-05-04

Family

ID=43909917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100061923A Pending CN102043774A (zh) 2011-01-13 2011-01-13 机器翻译测评装置和方法

Country Status (1)

Country Link
CN (1) CN102043774A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102368236A (zh) * 2011-09-22 2012-03-07 北京智明星通科技有限公司 一种翻译系统及翻译方法
CN102662934A (zh) * 2012-04-01 2012-09-12 百度在线网络技术(北京)有限公司 一种在跨语言交流中对译文进行验证的方法和装置
CN103729347A (zh) * 2012-10-10 2014-04-16 株式会社东芝 机器翻译装置、方法及程序
CN106202059A (zh) * 2015-05-25 2016-12-07 松下电器(美国)知识产权公司 机器翻译方法以及机器翻译装置
CN106598959A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
CN107480147A (zh) * 2017-08-15 2017-12-15 中译语通科技(北京)有限公司 一种对比评价机器翻译系统的方法及系统
CN107526727A (zh) * 2017-07-31 2017-12-29 苏州大学 基于统计机器翻译的语言生成方法
CN108304389A (zh) * 2017-12-07 2018-07-20 科大讯飞股份有限公司 交互式语音翻译方法及装置
CN108710616A (zh) * 2018-05-23 2018-10-26 科大讯飞股份有限公司 一种语音翻译方法及装置
CN109255129A (zh) * 2017-07-14 2019-01-22 松下电器(美国)知识产权公司 翻译方法、翻译装置以及翻译程序
CN109670147A (zh) * 2017-10-16 2019-04-23 三星电子株式会社 更新句子生成模型的方法以及句子生成设备
CN109920431A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110457711A (zh) * 2019-08-20 2019-11-15 电子科技大学 一种基于主题词的社交媒体事件主题识别方法
CN111144134A (zh) * 2019-11-27 2020-05-12 语联网(武汉)信息技术有限公司 基于OpenKiWi的翻译引擎自动化评测系统
CN111553174A (zh) * 2020-04-02 2020-08-18 腾讯科技(深圳)有限公司 基于人工智能的句子翻译方法、装置
CN111680526A (zh) * 2020-06-09 2020-09-18 语联网(武汉)信息技术有限公司 基于逆向翻译结果比对的人机交互翻译系统与方法
CN111985251A (zh) * 2019-05-21 2020-11-24 南京大学 翻译质量测评方法及装置
CN112085985A (zh) * 2020-08-20 2020-12-15 安徽七天教育科技有限公司 一种面向英语考试翻译题目的学生答案自动评分方法
WO2021072649A1 (zh) * 2019-10-15 2021-04-22 深圳市欢太科技有限公司 翻译方法、装置、客户端、服务器和存储介质
CN113408302A (zh) * 2021-06-30 2021-09-17 澳门大学 一种机器翻译结果的评估方法、装置、设备及存储介质
CN114298061A (zh) * 2022-03-07 2022-04-08 阿里巴巴(中国)有限公司 机器翻译及模型训练质量评估方法、电子设备及存储介质

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102368236A (zh) * 2011-09-22 2012-03-07 北京智明星通科技有限公司 一种翻译系统及翻译方法
CN102662934A (zh) * 2012-04-01 2012-09-12 百度在线网络技术(北京)有限公司 一种在跨语言交流中对译文进行验证的方法和装置
CN103729347A (zh) * 2012-10-10 2014-04-16 株式会社东芝 机器翻译装置、方法及程序
CN106202059A (zh) * 2015-05-25 2016-12-07 松下电器(美国)知识产权公司 机器翻译方法以及机器翻译装置
CN106202059B (zh) * 2015-05-25 2021-04-02 松下电器(美国)知识产权公司 机器翻译方法以及机器翻译装置
CN106598959A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
CN109255129B (zh) * 2017-07-14 2023-11-07 松下电器(美国)知识产权公司 翻译方法、翻译装置以及记录介质
CN109255129A (zh) * 2017-07-14 2019-01-22 松下电器(美国)知识产权公司 翻译方法、翻译装置以及翻译程序
CN107526727A (zh) * 2017-07-31 2017-12-29 苏州大学 基于统计机器翻译的语言生成方法
CN107480147A (zh) * 2017-08-15 2017-12-15 中译语通科技(北京)有限公司 一种对比评价机器翻译系统的方法及系统
CN109670147A (zh) * 2017-10-16 2019-04-23 三星电子株式会社 更新句子生成模型的方法以及句子生成设备
CN108304389A (zh) * 2017-12-07 2018-07-20 科大讯飞股份有限公司 交互式语音翻译方法及装置
CN108304389B (zh) * 2017-12-07 2021-06-08 科大讯飞股份有限公司 交互式语音翻译方法及装置
CN108710616A (zh) * 2018-05-23 2018-10-26 科大讯飞股份有限公司 一种语音翻译方法及装置
CN109920431A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
US11132996B2 (en) 2019-03-05 2021-09-28 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for outputting information
CN109920431B (zh) * 2019-03-05 2021-12-07 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111985251B (zh) * 2019-05-21 2023-11-07 南京大学 翻译质量测评方法及装置
CN111985251A (zh) * 2019-05-21 2020-11-24 南京大学 翻译质量测评方法及装置
CN110457711A (zh) * 2019-08-20 2019-11-15 电子科技大学 一种基于主题词的社交媒体事件主题识别方法
WO2021072649A1 (zh) * 2019-10-15 2021-04-22 深圳市欢太科技有限公司 翻译方法、装置、客户端、服务器和存储介质
CN111144134A (zh) * 2019-11-27 2020-05-12 语联网(武汉)信息技术有限公司 基于OpenKiWi的翻译引擎自动化评测系统
CN111553174A (zh) * 2020-04-02 2020-08-18 腾讯科技(深圳)有限公司 基于人工智能的句子翻译方法、装置
CN111680526B (zh) * 2020-06-09 2023-09-08 语联网(武汉)信息技术有限公司 基于逆向翻译结果比对的人机交互翻译系统与方法
CN111680526A (zh) * 2020-06-09 2020-09-18 语联网(武汉)信息技术有限公司 基于逆向翻译结果比对的人机交互翻译系统与方法
CN112085985A (zh) * 2020-08-20 2020-12-15 安徽七天教育科技有限公司 一种面向英语考试翻译题目的学生答案自动评分方法
CN113408302A (zh) * 2021-06-30 2021-09-17 澳门大学 一种机器翻译结果的评估方法、装置、设备及存储介质
CN114298061A (zh) * 2022-03-07 2022-04-08 阿里巴巴(中国)有限公司 机器翻译及模型训练质量评估方法、电子设备及存储介质
CN114298061B (zh) * 2022-03-07 2022-12-06 阿里巴巴(中国)有限公司 机器翻译及模型训练质量评估方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN102043774A (zh) 机器翻译测评装置和方法
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN106874441B (zh) 智能问答方法和装置
Berardi et al. Word Embeddings Go to Italy: A Comparison of Models and Training Datasets.
US20210342371A1 (en) Method and Apparatus for Processing Knowledge Graph
CN111708869B (zh) 人机对话的处理方法及装置
US10665122B1 (en) Application of semantic vectors in automated scoring of examination responses
CN104731774B (zh) 面向通用机译引擎的个性化翻译方法及装置
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
CN105808530B (zh) 一种统计机器翻译中的翻译方法和装置
CN111310440B (zh) 文本的纠错方法、装置和系统
CN111666761B (zh) 细粒度情感分析模型训练方法及装置
CN103119584B (zh) 机器翻译测评装置及方法
CN110705612A (zh) 一种混合多特征的句子相似度计算方法、存储介质及系统
Biçici Referential translation machines for quality estimation
CN104462327B (zh) 语句相似度的计算、搜索处理方法及装置
CN109299865A (zh) 基于语义分析的心理测评系统及方法、信息数据处理终端
CN109145282A (zh) 断句模型训练方法、断句方法、装置及计算机设备
CN108363688A (zh) 一种融合先验信息的命名实体链接方法
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
Naderi et al. Subjective assessment of text complexity: A dataset for german language
CN111325015A (zh) 一种基于语义分析的文档查重方法及系统
CN113705792A (zh) 基于深度学习模型的个性化推荐方法、装置、设备及介质
CN109190099A (zh) 句模提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110504