CN102650988B - 一种基于目标语言复述资源的机器翻译方法及装置 - Google Patents

一种基于目标语言复述资源的机器翻译方法及装置 Download PDF

Info

Publication number
CN102650988B
CN102650988B CN201110046306.7A CN201110046306A CN102650988B CN 102650988 B CN102650988 B CN 102650988B CN 201110046306 A CN201110046306 A CN 201110046306A CN 102650988 B CN102650988 B CN 102650988B
Authority
CN
China
Prior art keywords
translation
resource
fragment
object language
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110046306.7A
Other languages
English (en)
Other versions
CN102650988A (zh
Inventor
吴华
赵世奇
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110046306.7A priority Critical patent/CN102650988B/zh
Publication of CN102650988A publication Critical patent/CN102650988A/zh
Application granted granted Critical
Publication of CN102650988B publication Critical patent/CN102650988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种基于目标语言复述资源的机器翻译方法,包括:获取N‑Best个翻译结果,所述翻译结果由翻译片段组成;选取所述翻译结果的难翻译片段;根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合;对所述的候选翻译结果集合进行评分,以得到最佳翻译结果,通过上述方式,可以部分解决双语翻译资源匮乏的问题,有效地提高机器翻译的流利度,从而提高机器翻译的质量。

Description

一种基于目标语言复述资源的机器翻译方法及装置
【技术领域】
本发明涉及机器翻译领域,特别涉及一种基于目标语言复述资源的机器翻译方法及装置。
【背景技术】
随着自然语言处理技术在各个领域的不断发展,机器翻译已经得到了越来越广泛地使用。评价机器翻译的质量主要有两个指标:一是忠实度,表示翻译后的内容是否忠实地传达了被翻译内容的意思;二是流利度,表示被翻译的内容是否符合目标语言的语法。在实际应用中,即使翻译的忠实度很高,但是如果流利度不够,还是会出现翻译结果不通畅的情况,从而影响用户的体验。
现有技术通常只利用语言模型来衡量翻译质量,假如某个翻译结果的片段在语言模型中出现的概率很低,则认为这个翻译结果是不流利的,但是现有技术并没有很好地解决翻译不流利的问题。
实际上,翻译不流利的主要原因是双语翻译资源的匮乏。在机器翻译中,双语语料库是很重要的资源,所谓双语语料库,就是说对应相同的含义,源语言与目标语言有配对的信息,这些信息组合在一起形成了双语语料库。所谓的源语言与目标语言是针对翻译行为而言的,例如从英文翻译成中文,英文就是源语言,中文就是目标语言。当要翻译的源语言句子中的片段无法在双语语料库中找到对应的目标语言片段,或者能找到的对应目标语言片段的资源比较少时,就会造成译文的不流利。例如:“dinner”在不同的语境下可翻译成“宴会”或者“聚餐”,但是在双语语料库里,“dinner”可能只有一个翻译“宴会”,这就造成了应该翻译成“聚餐”的句子不通畅或不流利。
【发明内容】
本发明所要解决的技术问题是提供一种基于目标语言复述资源的机器翻译方法和装置,以改进机器翻译的流利度,提高机器翻译的质量。
本发明为解决技术问题而采用的技术方案是提供了一种基于目标语言复述资源的机器翻译方法,包括:a.获取N-Best个翻译结果,所述翻译结果由翻译片段组成;b.选取所述翻译结果的难翻译片段;c.根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合,其中所述复述资源,指的是表达方式不同而含义相同的词、短语或句子构成的单语语料库;d.对所述的候选翻译结果集合进行评分,以得到最佳翻译结果。
根据本发明之一优选实施例,所述步骤b进一步包括:b1.计算所述翻译片段的置信度;b2.根据所述置信度识别难翻译的片段。
根据本发明之一优选实施例,影响所述置信度的因素包括所述翻译片段在所述N-Best个翻译结果中的后验概率和所述翻译片段在目标语言模型中的概率。
根据本发明之一优选实施例,所述步骤b中,采用机器学习得到的分类器来选取所述难翻译片段。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段在所述N-Best个翻译结果中的后验概率。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段在目标语言模型中的概率。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段的平均未登录词的个数。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段的词对齐的比例。
根据本发明之一优选实施例,所述复述资源进一步包括词、短语或句子。
根据本发明之一优选实施例,所述步骤d中,采用对数线性模型进行评分。
根据本发明之一优选实施例,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。
本发明还提供了一种基于目标语言复述资源的机器翻译装置,包括:接收单元,用于获取N-Best个翻译结果,所述翻译结果由翻译片段组成;选取单元,用于选取所述翻译结果的难翻译片段;扩展单元,用于根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合,其中所述复述资源,指的是表达方式不同而含义相同的词、短语或句子构成的单语语料库;评分单元,用于对所述的候选翻译结果集合进行评分,以得到最佳翻译结果。
根据本发明之一优选实施例,所述选取单元进一步包括:计算单元,用于计算所述翻译片段的置信度;识别单元,用于根据所述置信度识别难翻译的片段。
根据本发明之一优选实施例,影响所述置信度的因素包括所述翻译片段在所述N-Best个翻译结果中的后验概率和所述翻译片段在目标语言模型中的概率。
根据本发明之一优选实施例,所述选取单元采用机器学习得到的分类器来选取所述难翻译片段。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段在所述N-Best个翻译结果中的后验概率。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段在目标语言模型中的概率。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段中平均未登录词的个数。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述翻译片段的词对齐的比例。
根据本发明之一优选实施例,所述复述资源进一步包括词、短语或句子。
根据本发明之一优选实施例,所述评分单元采用对数线性模型进行评分。
根据本发明之一优选实施例,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。
由以上技术方案可以看出,通过采用目标语言的复述资源扩展已有翻译结果的难翻译片段,可以部分解决双语翻译资源匮乏的问题,有效地提高机器翻译的流利度,从而提高机器翻译的质量。
【附图说明】
图1是本发明实施例中基于目标语言复述资源的机器翻译方法的流程示意图;
图2是本发明实施例中选取翻译结果的难翻译片段方法的流程示意图;
图3是本发明实施例中根据目标语言的复述资源对难翻译片段进行扩展后的翻译词图;
图4是本发明实施例中基于目标语言复述资源的机器翻译装置的示意框图;
图5是本发明实施例中选取单元的示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明利用目标语言的复述资源对翻译后的翻译结果进行扩展,以改善现有翻译结果的流利度,提高机器翻译的质量。所谓复述资源,指的是表达方式不同而含义相同的词、短语或句子。例如“生意”与“买卖”在一些语境下的含义是相同的,对“买卖”来说,“生意”就是其复述资源。复述资源并不仅限于词语,更大粒度的复述资源也可以包括复述短语和复述句。
请参考图1,图1是本发明实施例中基于目标语言复述资源的机器翻译方法流程示意图。该方法主要包含以下步骤:
步骤101:获取N-Best个翻译结果,即获取N个最优的翻译结果。这些翻译结果可以从现有成熟的机器翻译系统所获取,例如统计翻译系统,其中,每个翻译结果对应有一个翻译概率,翻译概率越大代表翻译结果的翻译质量越优。
例如将下面的英文句子翻译为中文:
I saw a pretty girl on a big party.
可以得到多个翻译结果,这些翻译结果各自有一个翻译概率,根据翻译概率从大到小排序后,可以获取到前N个翻译质量最优的翻译结果。针对上面的英文句子,N-Best个翻译结果为:
“我在一个盛大的聚餐上看到了一个漂亮的妞。” (1)
“我在一个大型的聚餐上看到了一个漂亮的姑娘。”(2)
“我在一个大型的派对上看到了一个漂亮的姑娘。”(3)
…….. (…)
…….. (N)
翻译结果由翻译片段组成,其中,翻译结果(3)在利用机器翻译系统翻译时是由一个个源语言片段翻译后得到的翻译片段组合而成的:
我/在一个/大型的/派对上/看到了/一个/漂亮的/姑娘。
步骤102:选取翻译结果的难翻译片段。
选取翻译结果的难翻译片段可以采用不同的方法。请参考图2,图2是本发明选取翻译结果的难翻译片段方法的流程示意图,在本实施例中,步骤102可进一步包括以下步骤:
步骤1021:计算翻译片段的置信度。翻译片段的置信度表明了这个翻译片段的可信程度,间接地反映了翻译的质量,如果翻译片段的置信度低,则表明这个片段翻译得不好,也就不够流利。
计算翻译片段的置信度,可以利用翻译片段在N-Best个翻译结果中的后验概率和这个片段在一个大型单语目标语言中出现的概率(即在目标语言模型中的概率)来计算,如下所示:
其中,Conf(fragk)表示翻译片段k(fragk)的置信度;表示fragk在步骤101所获取的N-Best个翻译结果中的后验概率,其中pi表示第i个翻译结果的翻译概率,ci(fragk)表示fragk在第i个翻译中出现或没有出现;pt(fragk)表示fragk在目标语言模型中的概率,如果fragk有m个词组成,即fragk=wi,wi+1,...,wi+m,则pt(fragk)可以表示为:
而pt(fragk)可以通过目标语言模型得到;α和β是两个可依需求配置的常数,用于控制前述两种概率在置信度评估中的作用。
仍以下面的翻译结果为例,假设N=3,N-Best个翻译结果为:
“我在一个盛大的聚餐上看到了一个漂亮的妞。” (1)
“我在一个大型的聚餐上看到了一个漂亮的姑娘。”(2)
“我在一个大型的派对上看到了一个漂亮的姑娘。”(3)
3个翻译结果总共可以得到以下翻译片段:“我”、“在”、“一个”、“盛大的”、“大型的”、“聚餐”、“派对”、“上”、“看到了”、“一个”、“漂亮的”、“妞”、“姑娘”,则对于翻译片段“盛大的”的置信度如下所示:
Conf(盛大的)=α·(p1·1+p2·0+p3·0)+β·pt(盛大的)
其中,p1、p2、p3分别表示翻译结果(1)、(2)、(3)的翻译概率。
步骤1022:根据置信度识别难翻译片段。这是指对置信度设置一个阈值,当翻译片段的置信度低于这个阈值时,就表明这个片段是难翻译的。
在本发明另一个实施例中,选取翻译结果的难翻译片段还可以采用机器学习的分类器对翻译片段进行分类,分为难翻译片段与不难翻译片段。例如采用SVM(支持向量机)分类器对翻译片段进行分类。
SVM的分类原理可概括为:寻找一个分类超平面,使得训练样本中的两类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,通过核函数将低维输入空间的数据映射到高位空间,从而将原低维空间的线性不可分问题转化为高维空间上的线性可分问题。
对于两类问题,给定样本集(xi,yi),xi∈Rd,yi={1,-1},i=1,2,...l,以及核函数K(xi,xj)=(Φ(xi)·Φ(xj)),其中Φ是非线性映射函数。SVM训练出的学习机器为:
f(x)=(w·Φ(x))+b,
其中w是权重,b是偏置。
对本发明而言,样本集(xi,yi)中的xi是由翻译片段的特征组成的特征向量,yi表示难翻译或不难翻译。由于核函数的选取已是SVM领域的公知技术,在此不做赘述。
由此可见,要用样本训练出具有较好分类效果的分类器,也就是得到理想的分类器权重w和偏置b,特征选取是个关键因素。在本发明中,可以采用下述变量作为翻译片段的特征:
1、翻译片段在N-Best个翻译结果中的后验概率,概率越小,表示该片段越难翻译。
2、翻译片段在目标语言模型中的概率,概率越小,表示该片段越难翻译。
3、翻译片段中平均未登录词的个数,个数越多,表示该片段越难翻译。
未登录词指的是生词,就是翻译片段中由源语言片段翻译而来时在双语语料库中未找到对应资源的词。
4、翻译片段的词对齐比例。词对齐的比例是指在一个翻译片段中,被对齐的词除以词的总数。词对齐的比例越小,表示这个片段越难翻译。
值得注意的是,上述特征只是为了说明本发明而采用的优选实施方式,不应理解为本发明仅限于使用上述特征,其他任何可以对难翻译片段进行识别的特征,都应包含在本发明的思想之内。
步骤103:根据目标语言的复述资源对难翻译片段进行扩展,以得到候选翻译结果集合。值得注意的是,若难翻译片段存在于步骤101所获取的多个(≤N)翻译结果,则在步骤103中,可以根据目标语言的复述资源对多个翻译结果中的难翻译片段进行扩展,以得到候选翻译结果集合。
目标语言的复述资源实际上是一个单语语料库。抽取目标语言的复述资源并建立相应的复述资源库,可采用现有技术进行,在此不做详细描述。对机器翻译而言,表述相同含义的对应双语语料资源是比较匮乏的,而表述相同含义的单语语料资源却是相对丰富的。
以翻译结果(1)为例:
我在一个盛大的聚餐上看到一个漂亮的妞。
如果“盛大的”、“聚餐”和“妞”为难翻译片段,那么可以通过查找目标语言的单语语料库,假设“盛大的”的复述资源包括“隆重的”、“聚餐”的复述资源包括“宴会”和“妞”的复述资源包括“姑娘”,在本实施例中,步骤103可以用难翻译片段相应的复述资源来扩展上述翻译结果以得到候选翻译结果集合。
对于没有复述资源的难翻译片段,则不需要进行扩展。需要特别说明的是,复述资源不限于词,也可以为短语,甚至为句子,例如基于词典注释的替换、语序变换、句子结构变换、句子拆分与合并或基于推理的复述得到的资源,只要描述的事物相同,表达的含义相同,都可以认为是复述资源。
上述扩展过程所得的候选翻译结果可以参见图3,图3为根据目标语言的复述资源对难翻译片段进行扩展后的翻译词图。
图3所示的翻译词图也被描述为一个混淆网络,在混淆网络中,两个节点间由一条或多条弧连接。将各个节点连接起来的弧之和就形成了一条路径,而由不完全相同的弧连接所有节点的各条路径集合就形成了一个候选翻译结果集合。
步骤104:对候选翻译结果集合进行评分,以得到最佳的翻译结果。最佳的翻译结果可进一步在其他的业务中得到应用,例如提供给用户进行参考选择,并接收用户将这些翻译结果修改后的反馈以改进机器翻译系统及其相应模型等等。
从图3得到的词图出发,两个不同节点间有多条弧的,每条弧将拥有一个权重,权重可以根据复述资源的复述概率获得。此时需要将每条弧的权重进行归一化处理,以便于最终对翻译的结果进行评分。
假设两个有连接弧的节点间有m条不同的弧,每条弧原来的权重是qi,那么归一化后的权重为:
对翻译结果进行评分,可以采用对数线性模型(Log-Linear Model)。对数线性模型是在最大熵模型的思想上发展而来的。以下对最大熵方法的基本思想做一下简单介绍:
对于一个随机事件,假设已经有了一组样例,现在希望建立一个统计模型,来模拟这个随机事件的分布。为此,需要选择一组特征,使得这个统计模型在这一组特征上,与样例中的分布完全一致,同时又保证这个模型尽可能地“均匀”(也就是使模型的熵值达到最大),以确保除了这一组特征之外,这个模型没有其他的任何偏好。依据这个原则的统计建模方法就是最大熵方法。
对于机器翻译来说,如果S、T是机器翻译的源语言和目标语言句子,h1(S,T)…hM(S,T)分别是S、T上的M个特征,λ1…λM是与这些特征分别对应的M个参数,那么翻译过程可以描述为:
其整体的翻译概率,是各个特征加权后的乘积(通常取其对数形式,表现为加权和)。对于给定的S,相应的最优译文T为:
由于式(c)的形式可以反映为在对数操作下各特征与相应权重积的线性相加,所以称之为对数线性模型,在该模型中,参数λm可以通过最小错误率训练得到,而hm(S,T)可以表述不同维度的特征。在对翻译结果进行评分的过程中,可以融合多个维度的翻译质量评价模型,这些模型可以表述为特征,例如表征调序的特征h调序(S,T)等,对本发明而言,式(c)的融合模型中的一个维度,就是利用式(a)的复述资源及其权重建立的特征h复述资源(S,T)。
请参考图4,图4为本发明实施例中基于目标语言复述资源的机器翻译装置示意框图。
在本实施例中,基于目标语言复述资源的机器翻译装置包括接收单元201、选取单元202、扩展单元203、评分单元204。
其中,接收单元201,用于获取N-Best个翻译结果,即获取N个最优的翻译结果。这些翻译结果可以从现有成熟的机器翻译系统所获取,例如统计翻译系统,其中,每个翻译结果对应有一个翻译概率,翻译概率越大代表翻译结果的翻译质量越优。
例如将下面的英文句子翻译为中文:
I saw a pretty girl on a big party.
可以得到多个翻译结果,这些翻译结果各自有一个翻译概率,根据翻译概率从大到小排序后,可以获取到前N个翻译质量最优的翻译结果。针对上面的英文句子,N-Best个翻译结果为:
“我在一个盛大的聚餐上看到了一个漂亮的妞。” (1)
“我在一个大型的聚餐上看到了一个漂亮的姑娘。”(2)
“我在一个大型的派对上看到了一个漂亮的姑娘。”(3)
…….. (…)
…….. (N)
翻译结果由翻译片段组成,其中,翻译结果(3)在利用机器翻译系统翻译时是由一个个源语言片段翻译后得到的翻译片段组合而成的:
我/在一个/大型的/派对/上/看到了/一个/漂亮的/姑娘。
选取单元202,用于选取翻译结果的难翻译片段。
选取翻译结果的难翻译片段可以采用不同的方法。请参考图5,图5是本发明一实施例中选取单元202的示意框图,在本实施例中,选取单元202可进一步包括以下单元:
计算单元2021,用于计算翻译片段的置信度。翻译片段的置信度表明了这个翻译片段的可信程度,间接地反映了翻译的质量,如果翻译片段的置信度低,则表明这个片段翻译得不好,也就不够流利。
计算翻译片段的置信度,可以利用翻译片段在N-Best个翻译结果中的后验概率和这个片段在一个大型单语目标语言中出现的概率(即在目标语言模型中的概率)来计算,如下所示:
其中,Conf(fragk)表示翻译片段k(fragk)的置信度;表示fragk在接收单元201所获取的N-Best个翻译结果中的后验概率,其中pi表示第i译结果的翻译概率,ci(fragk)表示fragk在第i个翻译中出现或没有出现;pt(fragk)表示fragk在目标语言模型中的概率,如果fragk有m个词组成,即fragk=wi,wi+1,...,wi+m,则pt(fragk)可以表示为:
而pt(fragk)可以通过目标语言模型得到;α和β是两个可依需求配置的常数,用于控制前述两种概率在置信度评估中的作用。
仍以下面的翻译结果为例,假设N=3,N-Best个翻译结果为:
“我在一个盛大的聚餐上看到了一个漂亮的妞。” (1)
“我在一个大型的聚餐上看到了一个漂亮的姑娘。”(2)
“我在一个大型的派对上看到了一个漂亮的姑娘。”(3)
3个翻译结果总共可以得到以下翻译片段:“我”、“在”、“一个”、“盛大的”、“大型的”、“聚餐”、“派对”、“上”、“看到了”、“一个”、“漂亮的”、“妞”、“姑娘”,则对于翻译片段“盛大的”的置信度如下所示:
Conf(盛大的)=α·(p1·1+p2·0+p3·0)+β·pt(盛大的)
其中,p1、p2、p3分别表示翻译结果(1)、(2)、(3)的翻译概率。
识别单元2022,用于根据置信度识别难翻译片段。这是指对置信度设置一个阈值,当翻译片段的置信度低于这个阈值时,就表明这个片段是难翻译的。
在本发明另一个实施例中,选取单元202选取翻译结果的难翻译片段还可以采用机器学习的分类器对翻译片段进行分类,分为难翻译片段与不难翻译片段。例如采用SVM(支持向量机)分类器对翻译片段进行分类。
SVM的分类原理可概括为:寻找一个分类超平面,使得训练样本中的两类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,通过核函数将低维输入空间的数据映射到高位空间,从而将原低维空间的线性不可分问题转化为高维空间上的线性可分问题。
对于两类问题,给定样本集(xi,yi),xi∈Rd,yi={1,-1},i=1,2,...l,以及核函数K(xi,xj)=(Φ(xi)·Φ(xj)),其中Φ是非线性映射函数。SVM训练出的学习机器为:
f(x)=(w·Φ(x))+b,
其中w是权重,b是偏置。
对本发明而言,样本集(xi,yi)中的xi是由翻译片段的特征组成的特征向量,yi表示难翻译或不难翻译。由于核函数的选取已是SVM领域的公知技术,在此不做赘述。
由此可见,要用样本训练出具有较好分类效果的分类器,也就是得到理想的分类器权重w和偏置b,特征选取是个关键因素。在本发明中,可以采用下述变量作为翻译片段的特征:
1、翻译片段在N-Best个翻译结果中的后验概率,概率越小,表示该片段越难翻译。
2、翻译片段在目标语言模型中的概率,概率越小,表示该片段越难翻译。
3、翻译片段中平均未登录词的个数,个数越多,表示该片段越难翻译。
未登录词指的是生词,就是翻译片段中由源语言片段翻译而来时在双语语料库中并未找到对应资源的词。
4、翻译片段的词对齐比例。词对齐的比例是指在一个翻译片段中,被对齐的词除以词的总数。词对齐的比例越小,表示这个片段越难翻译。
值得注意的是,上述特征只是为了说明本发明而采用的优选实施方式,不应理解为本发明仅限于使用上述特征,其他任何可以对难翻译片段进行识别的特征,都应包含在本发明的思想之内。
扩展单元203,用于根据目标语言的复述资源对难翻译片段进行扩展,以得到候选翻译结果集合。值得注意的是,若难翻译片段存在于接收单元201所获取的多个(≤N)翻译结果,则扩展单元203可以根据目标语言的复述资源对多个翻译结果中的难翻译片段进行扩展,以得到候选翻译结果集合。
目标语言的复述资源实际上是一个单语语料库。抽取目标语言的复述资源并建立相应的复述资源库,可采用现有技术进行,在此不做详细描述。对机器翻译而言,表述相同含义的对应双语语料资源是比较匮乏的,而表述相同含义的单语语料资源却是相对丰富的。
以翻译结果(1)为例:
我在一个盛大的聚餐上看到一个漂亮的妞。
如果“盛大的”、“聚餐”和“妞”为难翻译片段,那么可以通过查找目标语言的单语语料库,假设“盛大的”的复述资源包括“隆重的”、“聚餐”的复述资源包括“宴会”和“妞”的复述资源包括“姑娘”,在本实施例中,扩展单元203可以用难翻译片段相应的复述资源扩展上述翻译结果以得到候选翻译结果集合。
对于没有复述资源的难翻译片段,则不需要进行扩展。需要特别说明的是,复述资源不限于词,也可以为短语,甚至为句子,例如基于词典注释的替换、语序变换、句子结构变换、句子拆分与合并或基于推理的复述得到的资源,只要描述的事物相同,表达的含义相同,都可以认为是复述资源。
上述扩展过程所得的候选翻译结果可以参见图3,图3为根据目标语言的复述资源对难翻译片段进行扩展后得到的翻译词图。
图3所示的翻译词图也被描述为一个混淆网络,在混淆网络中,两个节点间由一条或多条弧连接。将各个节点连接起来的弧之和就形成了一条路径,而由不完全相同的弧连接所有节点的各条路径集合就形成了一个候选的翻译结果集合。
评分单元204,用于对候选翻译结果集合进行评分,以得到最佳的翻译结果。最佳的翻译结果可进一步在其他的业务中得到应用,例如提供给用户进行参考选择,并由用户将这些翻译结果修改后反馈给后续的翻译改进系统等等。
从图3得到的词图出发,两个不同节点间有多条弧的,每条弧将拥有一个权重,权重可以根据复述资源的复述概率获得。此时需要将每条弧的权重进行归一化处理,以便于最终对翻译的结果进行评分。
假设两个有连接弧的节点间有m条不同的弧,每条弧原来的权重是qi,那么归一化后的权重为:
对翻译结果进行评分,可以采用对数线性模型。对数线性模型是在最大熵模型的思想上发展而来的。以下对最大熵方法的基本思想做一下简单介绍:
对于一个随机事件,假设已经有了一组样例,现在希望建立一个统计模型,来模拟这个随机事件的分布。为此,需要选择一组特征,使得这个统计模型在这一组特征上,与样例中的分布完全一致,同时又保证这个模型尽可能地“均匀”(也就是使模型的熵值达到最大),以确保除了这一组特征之外,这个模型没有其他的任何偏好。依据这个原则的统计建模方法就是最大熵方法。
对于机器翻译来说,如果S、T是机器翻译的源语言和目标语言句子,h1(S,T)…hM(S,T)分别是S、T上的M个特征,λ1…λM是与这些特征分别对应的M个参数,那么翻译过程可以描述为:
其整体的翻译概率,是各个特征加权后的乘积(通常取其对数形式,表现为加权和)。对于给定的S,相应的最优译文T为:
由于式(c)的形式可以反映为在对数操作下各特征与相应权重积的线性相加,所以称之为对数线性模型,在该模型中,参数λm可以通过最小错误率训练得到,而hm(S,T)可以表述不同维度的特征。在对翻译结果进行评分的过程中,可以融合多个维度的翻译质量评价模型,这些模型可以表述为特征,例如表征调序的特征h调序(S,T)等,对本发明而言,式(c)的融合模型中的一个维度,就是利用式(a)的复述资源及其权重建立的特征h复述资源(S,T)。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (22)

1.一种基于目标语言复述资源的机器翻译方法,其特征在于,所述方法包括:
a.获取N-Best个翻译结果,所述翻译结果由翻译片段组成;
b.选取所述翻译结果的难翻译片段;
c.根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合,其中所述复述资源,指的是表达方式不同而含义相同的词、短语或句子构成的单语语料库;所述候选翻译结果集合通过一混淆网络来描述,在所述混淆网络中,两个节点由一条或多条弧连接,各节点连接起来的弧之和形成一条路径,一条路径表示一个候选翻译结果,由不完全相同的弧连接所有节点的各条路径集合构成所述候选翻译结果集合;
d.对所述的候选翻译结果集合进行评分,以得到最佳翻译结果;其中,
所述步骤d进一步包括:
根据所述候选翻译结果集合中的候选翻译结果对应的所述复述资源的复述概率获得所述候选翻译结果对应的弧的权重,根据所述权重对所述候选翻译结果进行评分,以得到最佳翻译结果。
2.根据权利要求1所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述步骤b进一步包括:
b1.计算所述翻译片段的置信度;
b2.根据所述置信度识别难翻译的片段。
3.根据权利要求2所述的基于目标语言复述资源的机器翻译方法,其特征在于,影响所述置信度的因素包括所述翻译片段在所述N-Best个翻译结果中的后验概率和所述翻译片段在目标语言模型中的概率。
4.根据权利要求1所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述步骤b中,采用机器学习得到的分类器来选取所述难翻译片段。
5.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采用的特征进一步包括所述翻译片段在所述N-Best个翻译结果中的后验概率。
6.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采用的特征进一步包括所述翻译片段在目标语言模型中的概率。
7.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采用的特征进一步包括所述翻译片段的平均未登录词的个数。
8.根据权利要求4所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述分类器采用的特征进一步包括所述翻译片段的词对齐的比例。
9.根据权利要求1所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述复述资源进一步包括词、短语或句子。
10.根据权利要求1所述的基于目标语言复述资源的机器翻译方法,其特征在于,所述步骤d中,采用对数线性模型进行评分。
11.根据权利要求10所述的基于目标语言复述资源的机器翻译方法,其特征在于,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。
12.一种基于目标语言复述资源的机器翻译装置,其特征在于,所述装置包括:
接收单元,用于获取N-Best个翻译结果,所述翻译结果由翻译片段组成;
选取单元,用于选取所述翻译结果的难翻译片段;
扩展单元,用于根据目标语言的复述资源对所述难翻译片段进行扩展,以得到候选翻译结果集合,其中所述复述资源,指的是表达方式不同而含义相同的词、短语或句子构成的单语语料库;所述候选翻译结果集合通过一混淆网络来描述,在所述混淆网络中,两个节点由一条或多条弧连接,各节点连接起来的弧之和形成一条路径,一条路径表示一个候选翻译结果,由不完全相同的弧连接所有节点的各条路径集合构成所述候选翻译结果集合;
评分单元,用于对所述的候选翻译结果集合进行评分,以得到最佳翻译结果;其中,
所述评分单元,具体用于根据所述候选翻译结果集合中的候选翻译结果对应的所述复述资源的复述概率获得所述候选翻译结果对应的弧的权重,根据所述权重对所述候选翻译结果进行评分,以得到最佳翻译结果。
13.根据权利要求12所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述选取单元进一步包括:
计算单元,用于计算所述翻译片段的置信度;
识别单元,用于根据所述置信度识别难翻译的片段。
14.根据权利要求13所述的基于目标语言复述资源的机器翻译装置,其特征在于,影响所述置信度的因素包括所述翻译片段在所述N-Best个翻译结果中的后验概率和所述翻译片段在目标语言模型中的概率。
15.根据权利要求12所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述选取单元采用机器学习得到的分类器来选取所述难翻译片段。
16.根据权利要求15所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述分类器采用的特征进一步包括所述翻译片段在所述N-Best个翻译结果中的后验概率。
17.根据权利要求15所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述分类器采用的特征进一步包括所述翻译片段在目标语言模型中的概率。
18.根据权利要求15所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述分类器采用的特征进一步包括所述翻译片段中平均未登录词的个数。
19.根据权利要求15所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述分类器采用的特征进一步包括所述翻译片段的词对齐的比例。
20.根据权利要求12所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述复述资源进一步包括词、短语或句子。
21.根据权利要求12所述的基于目标语言复述资源的机器翻译装置,其特征在于,所述评分单元采用对数线性模型进行评分。
22.根据权利要求21所述的基于目标语言复述资源的机器翻译装置,其特征在于,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。
CN201110046306.7A 2011-02-25 2011-02-25 一种基于目标语言复述资源的机器翻译方法及装置 Active CN102650988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110046306.7A CN102650988B (zh) 2011-02-25 2011-02-25 一种基于目标语言复述资源的机器翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110046306.7A CN102650988B (zh) 2011-02-25 2011-02-25 一种基于目标语言复述资源的机器翻译方法及装置

Publications (2)

Publication Number Publication Date
CN102650988A CN102650988A (zh) 2012-08-29
CN102650988B true CN102650988B (zh) 2017-12-26

Family

ID=46692996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110046306.7A Active CN102650988B (zh) 2011-02-25 2011-02-25 一种基于目标语言复述资源的机器翻译方法及装置

Country Status (1)

Country Link
CN (1) CN102650988B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731774B (zh) * 2013-12-24 2018-02-02 哈尔滨工业大学 面向通用机译引擎的个性化翻译方法及装置
US10394963B2 (en) * 2015-10-22 2019-08-27 International Business Machines Corporation Natural language processor for providing natural language signals in a natural language output
CN106598956B (zh) * 2016-11-30 2019-09-06 上海工程技术大学 一种语言转换服务器系统
CN110309516B (zh) * 2019-05-30 2020-11-24 清华大学 机器翻译模型的训练方法、装置与电子设备
US20240005104A1 (en) * 2020-10-07 2024-01-04 Nippon Telegraph And Telephone Corporation Data processing device, data processing method, and data processing program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1302030B (zh) * 1999-12-24 2010-04-21 纽昂斯通讯公司 词义消歧的机器翻译方法和系统
CN1489086A (zh) * 2002-10-10 2004-04-14 莎 刘 一种语义约定全文翻译系统和方法
JP4058057B2 (ja) * 2005-04-26 2008-03-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP4064413B2 (ja) * 2005-06-27 2008-03-19 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
CN101667176A (zh) * 2008-09-01 2010-03-10 株式会社东芝 基于短语的统计机器翻译方法和系统
CN101676898B (zh) * 2008-09-17 2011-12-07 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置

Also Published As

Publication number Publication date
CN102650988A (zh) 2012-08-29

Similar Documents

Publication Publication Date Title
CN109783657B (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN105824802B (zh) 一种获取知识图谱向量化表示的方法以及装置
Li et al. Employing personal/impersonal views in supervised and semi-supervised sentiment classification
CN102650987A (zh) 一种基于源语言复述资源的机器翻译方法及装置
CN102789451B (zh) 一种个性化的机器翻译系统、方法及训练翻译模型的方法
CN110008335A (zh) 自然语言处理的方法及装置
CN102650988B (zh) 一种基于目标语言复述资源的机器翻译方法及装置
CN104102630B (zh) 一种针对中文社交网络中中英文混合文本的规范方法
CN109190134A (zh) 一种文本翻译方法及装置
Wang et al. Transductive ensemble learning for neural machine translation
CN107391565A (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
Bai et al. Constructing sentiment lexicons in Norwegian from a large text corpus
CN108733675A (zh) 基于大量样本数据的情感评价方法及装置
Feng et al. Is Twitter a better corpus for measuring sentiment similarity?
CN106445911A (zh) 一种基于微观话题结构的指代消解方法及系统
Daskalakis et al. Learning deep spatiotemporal features for video captioning
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
CN103617245A (zh) 一种双语情感分类方法及装置
CN107038155A (zh) 基于改进的小世界网络模型实现文本特征的提取方法
CN110532378A (zh) 一种基于主题模型的短文本方面提取方法
CN102053959B (zh) 一种用于机器翻译的调序模型的生成方法和装置
CN110032741A (zh) 一种基于语义扩展和最大边缘相关的伪文本生成方法
Kazhuparambil et al. Classification of malayalam-english mix-code comments using current state of art
Zhan et al. Non-autoregressive translation with dependency-aware decoder
Chen et al. Toward the understanding of deep text matching models for information retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant