CN102650987A - 一种基于源语言复述资源的机器翻译方法及装置 - Google Patents

一种基于源语言复述资源的机器翻译方法及装置 Download PDF

Info

Publication number
CN102650987A
CN102650987A CN2011100462948A CN201110046294A CN102650987A CN 102650987 A CN102650987 A CN 102650987A CN 2011100462948 A CN2011100462948 A CN 2011100462948A CN 201110046294 A CN201110046294 A CN 201110046294A CN 102650987 A CN102650987 A CN 102650987A
Authority
CN
China
Prior art keywords
source language
fragment
translation
language sentence
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100462948A
Other languages
English (en)
Inventor
吴华
赵世奇
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2011100462948A priority Critical patent/CN102650987A/zh
Publication of CN102650987A publication Critical patent/CN102650987A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种基于源语言复述资源的机器翻译方法,包括:获取源语言句子;选取所述源语言句子的难翻译片段;根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合;对所述待翻译候选集合进行翻译,以得到翻译结果,通过上述方式,可以部分解决双语翻译资源匮乏的问题,有效地提高机器翻译的流利度,从而提高机器翻译的质量。

Description

一种基于源语言复述资源的机器翻译方法及装置
【技术领域】
本发明涉及机器翻译领域,特别涉及一种基于源语言复述资源的机器翻译方法及装置。
【背景技术】
随着自然语言处理技术在各个领域的不断发展,机器翻译已经得到了越来越广泛地使用。评价机器翻译的质量主要有两个指标:一是忠实度,表示翻译后的内容是否忠实地传达了被翻译内容的意思;二是流利度,表示被翻译的内容是否符合目标语言的语法。在实际应用中,即使翻译的忠实度很高,但是如果流利度不够,还是会出现翻译结果不通畅的情况,从而影响用户的体验。
现有技术通常只利用语言模型来衡量翻译质量,假如某个翻译结果的片段在语言模型中出现的概率很低,则认为这个翻译结果是不流利的,但是现有技术并没有很好地解决翻译不流利的问题。
实际上,翻译不流利的主要原因是双语翻译资源的匮乏。在机器翻译中,双语语料库是很重要的资源,所谓双语语料库,就是说对应相同的含义,源语言与目标语言有配对的信息,这些信息组合在一起形成了双语语料库。所谓的源语言与目标语言是针对翻译行为而言的,例如从英文翻译成中文,英文就是源语言,中文就是目标语言。当要翻译的源语言句子中的片段无法在双语语料库中找到对应的目标语言片段,或者能找到的对应目标语言片段的资源比较少时,就会造成译文的不流利。
【发明内容】
本发明所要解决的技术问题是提供一种基于源语言复述资源的机器翻译方法和装置,以改进机器翻译的流利度,提高机器翻译的质量。
本发明为解决技术问题而采用的技术方案是提供了一种基于源语言复述资源的机器翻译方法,包括:a.获取源语言句子;b.选取所述源语言句子的难翻译片段;c.根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合;d.对所述待翻译候选集合进行翻译,以得到翻译结果。
根据本发明之一优选实施例,所述步骤b进一步包括:b1.对所述源语言句子进行分词处理,以获得分词结果;b2.通过控制片段长度将所述源语言句子划分为不同的片段集合,以得到全部的源语言句子片段,所述片段长度表示每一所述源语言句子片段可以包含的所述分词结果的词语数量;b3.对所述全部的源语言句子片段进行识别,确定其中的难翻译片段。
根据本发明之一优选实施例,在所述步骤b3中,利用机器学习得到的分类器进行识别。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述源语言句子片段中平均未登录词的个数。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述源语言句子片段中平均包含的介词短语的个数。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述源语言句子片段相对于前后片段被调序的概率。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述源语言句子片段在语言模型中的概率。
根据本发明之一优选实施例,所述复述资源进一步包括词、短语或句子。
根据本发明之一优选实施例,所述方法进一步包括:e.对所述翻译结果进行评分,以得到最佳的N个翻译结果。
根据本发明之一优选实施例,所述步骤e采用对数线性模型对所述翻译结果进行评分。
根据本发明之一优选实施例,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。
本发明还提供了一种基于源语言复述资源的机器翻译装置,包括:接收句子单元,用于获取源语言句子;选择片段单元,用于选取所述源语言句子的难翻译片段;扩展片段单元,用于根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合;翻译单元,用于对所述待翻译候选集合进行翻译,以得到翻译结果。
根据本发明之一优选实施例,所述选择片段单元进一步包括:分词单元,用于对所述源语言句子进行分词处理,以获得分词结果;划分片段单元,用于通过控制片段长度将所述源语言句子划分为不同的片段集合,以得到全部的源语言句子片段,所述片段长度表示每一所述源语言句子片段可以包含的所述分词结果的词语数量;识别单元,用于对所述全部的源语言句子片段进行识别,确定其中的难翻译片段。
根据本发明之一优选实施例,所述单元利用机器学习得到的分类器进行识别。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述源语言句子片段中平均未登录词的个数。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述源语言句子片段中平均包含的介词短语的个数。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述源语言句子片段相对于前后片段被调序的概率。
根据本发明之一优选实施例,所述分类器采用的特征进一步包括所述源语言句子片段在语言模型中的概率。
根据本发明之一优选实施例,所述复述资源进一步包括词、短语或句子。
根据本发明之一优选实施例,所述装置进一步包括评分单元,用于对所述翻译结果进行评分,以得到最佳的N个翻译结果。
根据本发明之一优选实施例,所述评分单元采用对数线性模型对所述翻译结果进行评分。
根据本发明之一优选实施例,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。
由以上技术方案可以看出,通过采用源语言的复述资源扩展待翻译句子的难翻译片段,可以部分解决双语翻译资源匮乏的问题,有效地提高机器翻译的流利度,从而提高机器翻译的质量。
【附图说明】
图1是本发明实施例中基于源语言复述资源的机器翻译方法的一个实施例的流程示意图;
图2是本发明实施例中选取源语言句子的难翻译片段方法的流程示意图;
图3是本发明实施例中将源语言句子的难翻译片段进行扩展后的翻译词图;
图4是本发明实施例中基于源语言复述资源的机器翻译方法的又一个实施例的流程示意图;
图5是本发明实施例中基于源语言复述资源的机器翻译装置的一个实施例的示意框图;
图6是本发明实施例中选择片段单元的示意框图;
图7是本发明实施例中基于源语言复述资源的机器翻译装置的又一个实施例的示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明利用复述资源对待翻译的源语言句子进行扩展,以得到更流利的翻译结果。所谓复述资源,指的是表达方式不同而含义相同的词、短语或句子。例如“生意”与“买卖”在一些语境下的含义是相同的,对待翻译的源语言“买卖”来说,“生意”就是其复述资源。复述资源并不仅限于词语,更大粒度的复述资源也可以包括复述短语和复述句。
请参考图1,图1是本发明实施例中基于源语言复述资源的机器翻译方法的一个实施例的流程示意图。该方法主要包含以下步骤:
步骤101:获取源语言句子。源语言是指待翻译的语言,获取源语言句子是进行后续处理的前提。
步骤102:选取源语言句子的难翻译片段。请参见图2,图2是根据本发明一实施例的选取源语言句子的难翻译片段方法的流程示意图。在本实施例中,选取源语言句子的难翻译片段的方法包括以下步骤:
步骤1021:对源语言句子进行分词处理,以获得分词结果。分词的作用是将源语言句子中的文字序列切分成有意义的字词,以便后续处理。具体分词的方法包括:正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词,最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等,上述分词方法均为本领域公知技术,在此不再赘述。
步骤1022:通过控制片段长度将源语言句子划分为不同的片段集合,以得到全部的源语言句子片段。
片段长度表示一个源语言句子片段可以包含的步骤1022所获得的分词结果的词语数量,例如下面这个句子:
人们将来的发展与他们幼年时的发展息息相关。
假设片段长度控制为2,则表示一个片段可以包含的词的个数不超过2,即一个片段包含的词的个数为1或2。在片段长度控制为1时,上述句子划分为以下片段:人们、将来的、发展、与、他们、幼年时的、发展、息息相关。在片段长度控制为2时,上述句子划分为以下片段:人们将来的、将来的发展、与他们、他们幼年时的、幼年时的发展、发展息息相关。假如将片段长度控制为一个句子包含的词的总数,那么得到的最大片段就是整个句子。针对每一个划分片段时的片段长度,都可以得到一个片段集合,而所有的片段集合就组成了全部的源语言句子片段。
步骤1023:对全部的源语言句子片段进行识别,确定其中的难翻译片段。难翻译片段是指会造成翻译不流利的片段。
例如对于下面这个源语言句子:
人们将来的发展与他们幼年时的发展息息相关。
句子中的“息息相关”这个片段就是难翻译片段。这个难翻译片段有可能在双语语料库中缺乏对应的翻译资源,也有可能是在抽取对应的翻译资源的过程中存在错误,而没有获取到“息息相关”的对应翻译资源。
在本发明中,对难翻译片段的识别,可以用机器学习的方法实现。例如采用SVM(支持向量机)分类器对全部的源语言句子片段进行分类,分为难翻译的或不难翻译的。
SVM的分类原理可概括为:寻找一个分类超平面,使得训练样本中的两类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,通过核函数将低维输入空间的数据映射到高位空间,从而将原低维空间的线性不可分问题转化为高维空间上的线性可分问题。
对于两类问题,给定样本集(xi,yi),xi∈Rd,yi={1,-1},i=1,2,...l,以及核函数K(xi,xj)=(Φ(xi)·Φ(xj)),其中Φ是非线性映射函数。SVM训练出的学习机器为:
f(x)=(w·Φ(x))+b,
其中w是权重,b是偏置。
对本发明而言,样本集(xi,yi)中的xi是由源语言句子片段的特征组成的特征向量,yi表示难翻译或不难翻译。由于核函数的选取已是SVM领域的公知技术,在此不做赘述。
由此可见,要用样本训练出具有较好分类效果的分类器,也就是得到理想的分类器权重w和偏置b,特征选取是个关键因素。在本发明中,可以采用下列变量作为源语言句子片段的特征:
1、一个片段中平均未登录词的个数,个数越多,表示这个片段越难翻译。未登录词指的是生词,也就是在双语语料库没有对应双语翻译资源的词。一个片段中缺乏对应双语翻译资源的词越多,就说明该片段越难翻译。
2、一个片段中平均包含的介词短语的个数,个数越多,表示这个片段越难翻译。
3、一个片段相对于前后片段被调序的概率。
机器翻译中有三个基本模型:翻译模型、调序模型及语言模型。调序模型用来描述译文相对于原文在表述方式上进行调序的概率。例如对于一个片段fragk,ppre(o|fragk)表示fragk与前一个被翻译的片段调序的概率;ppos(o|fragk)表示fragk与后一个被翻译的片段调序的概率。其中o∈{straight,inverted}表示调序的方向,包括译文顺序和原文方向一致(straight),译文顺序和原文方向相反(inverted)。通过调序模型,我们可以得到上述概率值,而一个片段的ppre(inverted|fragk)与ppos(inverted|fragk)越大,就表示这个片段越难翻译。
4、一个片段在语言模型中的概率,概率越低,表示这个片段越难翻译。语言模型用来描述短语或句子出现的概率。例如一个片段fragk由m个词组成,即fragk=wi,wi+1,...,wi+m,则这个片段在语言模型中的概率pt(fragk)可以表示为:
p t ( frag k ) = p ( w i , w i + 1 , . . . , w i + m ) = Π l = i i + m p ( w l | w 1 , . . . , w l - 1 )
利用语言模型即可得出上述概率值。
值得注意的是,上述特征只是为了说明本发明而采用的优选实施方式,不应理解为本发明仅限于使用上述特征,其他任何可以对源语言片段进行识别的特征,都应包含在本发明的思想之内。
步骤103:根据源语言的复述资源对难翻译片段进行扩展,以获取待翻译候选集合。
源语言的复述资源实际上是一个单语语料库。抽取源语言的复述资源并建立相应的复述资源库,可采用现有技术进行,在此不做详细描述。对机器翻译而言,表述相同含义的对应双语语料资源是比较匮乏的,而表述相同含义的单语语料资源却是相对丰富的。
仍然以下面这个源语言句子举例:
人们将来的发展与他们幼年时的发展息息相关。
如果源语言的复述资源中存在一个短语“紧密相关”与“息息相关”是同义词,并且“紧密相关”在双语语料库中存在着对应的翻译资源“closelyrelated”,就可以用“紧密相关”的翻译资源“closely related”来翻译“息息相关”,从而大大提高译文的流利度。
又例如对难翻译片段“幼年”,通过查找源语言的复述资源,发现“幼年”的复述资源有:“童年”和“小时候”。因此可以利用幼年的复述资源“童年”与“小时候”对“幼年”进行扩展,以得到待翻译候选集合。
对于没有复述资源的难翻译片段,则不需要进行扩展。需要特别说明的是,复述资源不限于词,也可以为短语,甚至为句子,例如基于词典注释的替换、语序变换、句子结构变换、句子拆分与合并或基于推理的复述得到的资源,只要描述的事物相同,表达的含义相同,都可以认为是复述资源。
上述扩展过程所得的待翻译候选集合可以参见图3,图3为通过查找源语言的复述资源,将待翻译的源语言句子的难翻译片段进行扩展后得到的翻译词图。
图3所示的翻译词图也被描述为一个混淆网络,在混淆网络中,两个节点间由一条或多条弧连接。将各个节点连接起来的弧之和就形成了一条路径,一条路径即是一个待翻译候选,而由不完全相同的弧连接所有节点的各条路径集合就形成了一个源语言句子的待翻译候选集合。
步骤104:对待翻译候选集合进行翻译,以得到翻译结果。也就是利用翻译模型,对经过步骤103扩展而得到的待翻译候选集合中的每一个待翻译候选进行翻译。由于利用翻译模型进行翻译是本领域的公知常识,在此不再赘述。
请参考图4,图4为本发明实施例中基于源语言复述资源的机器翻译方法的又一个实施例流程示意图,在该实施例中,在对待翻译候选进行翻译后,进一步包括步骤105:对翻译结果进行评分,以获得最佳的N个翻译结果。最佳的翻译结果可进一步在其他的业务中得到应用,例如提供给用户进行参考选择,并接收用户将这些翻译结果修改后的反馈以改进机器翻译系统及其相应模型等等。数量N可根据实际需要设定为某个固定值。
从图3得到的词图出发,两个不同节点间有多条弧的,每条弧将拥有一个权重,权重可以根据复述资源的复述概率获得。此时需要将每条弧的权重进行归一化处理,以便于最终对翻译的结果进行评分。
假设两个有连接弧的节点间有m条不同的弧,每条弧原来的权重是qi,那么归一化后的权重为:
w i = q i Σ i ′ = 1 m q i ′ - - - ( 1 )
对翻译结果进行评分,可以采用对数线性模型(Log-Linear Model)。对数线性模型是在最大熵模型的思想上发展而来的。以下对最大熵方法的基本思想做一下简单介绍:
对于一个随机事件,假设已经有了一组样例,现在希望建立一个统计模型,来模拟这个随机事件的分布。为此,需要选择一组特征,使得这个统计模型在这一组特征上,与样例中的分布完全一致,同时又保证这个模型尽可能地“均匀”(也就是使模型的熵值达到最大),以确保除了这一组特征之外,这个模型没有其他的任何偏好。依据这个原则的统计建模方法就是最大熵方法。
对于机器翻译来说,如果S、T是机器翻译的源语言和目标语言句子,h1(S,T)...hM(S,T)分别是S、T上的M个特征,λ1...λM是与这些特征分别对应的M个参数,那么翻译过程可以描述为:
P ( T | S ) ≈ P λ 1 . . . λ M ( T | S ) = exp [ Σ m = 1 M λ m h m ( S , T ) ] Σ T ′ exp [ Σ m = 1 M λ m h m ( S , T ′ ) ] - - - ( 2 )
其整体的翻译概率,是各个特征加权后的乘积(通常取其对数形式,表现为加权和)。对于给定的S,相应的最优译文T为:
T best = arg max T { p ( T | S ) }
= arg max T { Σ m = 1 M λ m h m ( S , T ) } - - - ( 3 )
由于式(3)的形式可以反映为在对数操作下各特征与相应权重积的线性相加,所以称之为对数线性模型,在该模型中,参数λm可以通过最小错误率训练得到,而hm(S,T)可以表述不同维度的特征。在对翻译结果进行评分的过程中,可以融合多个维度的翻译质量评价模型,这些模型可以表述为特征,例如表征调序的特征h调序(S,T)等,对本发明而言,式(3)的融合模型中的一个维度,就是利用式(1)的复述资源及其权重建立的特征h复述资源(S,T)。
请参考图5,图5为本发明实施例中基于源语言复述资源的机器翻译装置的一个实施例的示意框图。
在本实施例中,基于源语言复述资源的机器翻译装置主要包括以下单元:接收句子单元201,选择片段单元202,扩展片段单元203,翻译单元204。
其中接收句子单元201,用于获取源语言句子。源语言是指待翻译的语言,获取源语言句子是进行后续处理的前提。
选择片段单元202,用于选取源语言句子的难翻译片段。请参见图6,图6是根据本发明一实施例的选择片段单元202的示意框图。在本实施例中,选择片段单元202又可以进一步包括分词单元2021、划分片段单元2022、识别单元2023,其中:
分词单元2021,用于对源语言句子进行分词处理,以获得分词结果。分词的作用是将源语言句子中的文字序列切分成有意义的字词,以便后续处理。具体分词的方法包括:正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词,最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等,上述分词方法均为本领域公知技术,在此不再赘述。
划分片段单元2022,用于通过控制片段长度将源语言句子划分为不同的片段集合,以得到全部的源语言句子片段。
片段长度表示一个源语言句子片段可以包含的分词单元2021所获得的分词结果的词语数量,例如下面这个句子:
人们将来的发展与他们幼年时的发展息息相关。
假设片段长度控制为2,则表示一个片段可以包含的词的个数不超过2,即一个片段包含的词的个数为1或2。在片段长度控制为1时,上述句子划分为以下片段:人们、将来的、发展、与、他们、幼年时的、发展、息息相关。在片段长度控制为2时,上述句子划分为以下片段:人们将来的、将来的发展、与他们、他们幼年时的、幼年时的发展、发展息息相关。假如将片段长度控制为一个句子包含的词的总数,那么得到的最大片段就是整个句子。针对每一个划分片段时的片段长度,都可以得到一个片段集合,而所有的片段集合就组成了全部的源语言句子片段。
识别单元2023,用于对全部的源语言句子片段进行识别,确定其中的难翻译片段。难翻译片段是指会造成翻译不流利的片段。
例如对于下面这个源语言句子:
人们将来的发展与他们幼年时的发展息息相关。
句子中的“息息相关”就是难翻译片段。这个难翻译片段有可能是在双语语料库中缺乏对应的翻译资源,也有可能是在抽取对应的翻译资源的过程中存在错误,而没有获取到“息息相关”的对应翻译资源。
在本发明中,对难翻译片段的识别,可以用机器学习的方法实现。例如采用SVM(支持向量机)分类器对源语言句子的片段进行分类,分为难翻译的或不难翻译的。
SVM的分类原理可概括为:寻找一个分类超平面,使得训练样本中的两类样本点能被分开,并且距离该平面尽可能地远;而对线性不可分的问题,通过核函数将低维输入空间的数据映射到高位空间,从而将原低维空间的线性不可分问题转化为高维空间上的线性可分问题。
对于两类问题,给定样本集(xi,yi),xi∈Rd,yi={1,-1},i=1,2,...l,以及核函数K(xi,xj)=(Φ(xi)·Φ(xj)),其中Φ是非线性映射函数。SVM训练出的学习机器为:
f(x)=(w·Φ(x))+b,
其中w是权重,b是偏置。
对本发明而言,样本集(xi,yi)中的xi是由源语言句子片段的特征组成的特征向量,yi表示难翻译或不难翻译。由于核函数的选取已是SVM领域的公知技术,在此不做赘述。
由此可见,要用样本训练出具有较好分类效果的分类器,也就是得到理想的分类器权重w和偏置b,特征选取是个关键因素。在本发明中,可以采用下列变量作为源语言句子片段的特征:
1、一个片段中平均未登录词的个数,个数越多,表示这个片段越难翻译。
未登录词指的是生词,也就是没有对应翻译资源的词。一个片段中缺乏对应翻译资源的词越多,就说明该片段越难翻译。
2、一个片段中平均包含的介词短语的个数,个数越多,表示这个片段越难翻译。
3、一个片段相对于前后片段被调序的概率。
我们知道,机器翻译中有三个基本模型:翻译模型,调序模型及语言模型。调序模型用来描述译文相对于原文在表述方式上进行调序的概率。例如对于一个片段fragk,ppre(o|fragk)表示fragk与前一个被翻译的片段调序的概率;ppos(o|fragk)表示fragk与后一个被翻译的片段调序的概率。其中o∈{straight,inverted}表示调序的方向,包括译文顺序和原文方向一致(straight),译文顺序和原文方向相反(inverted)。通过调序模型,我们可以得到上述概率值,当一个片段的ppre(inverted|fragk)与ppos(inverted|fragk)越大,就表示这个片段越难翻译。
4、一个片段在语言模型中的概率,概率越低,表示这个片段越难翻译。
语言模型用来描述短语或句子出现的概率。例如一个片段fragk由m个词组成,即fragk=wi,wi+1,...,wi+m,则这个片段在语言模型中的概率pt(fragk)可以表示为:
p t ( frag k ) = p ( w i , w i + 1 , . . . , w i + m ) = Π l = i i + m p ( w l | w 1 , . . . , w l - 1 )
利用语言模型即可得出上述概率值。
值得注意的是,上述特征只是为了说明本发明而采用的优选实施方式,不应理解为本发明仅限于使用上述特征,其他任何可以对源语言片段进行识别的特征,都应包含在本发明的思想之内。
扩展片段单元203,用于根据源语言的复述资源对难翻译片段进行扩展,以获取待翻译候选集合。
源语言的复述资源实际上是一个单语语料库。抽取源语言的复述资源并建立相应的复述资源库,可采用现有技术进行,在此不做详细描述。对机器翻译而言,表述相同含义的对应双语语料资源是比较匮乏的,而表述相同含义的单语语料资源却是相对丰富的。
仍然以下面这个句子举例:
人们将来的发展与他们幼年时的发展息息相关。
如果源语言的复述资源中存在一个短语“紧密相关”与“息息相关”是同义词,而“紧密相关”在双语语料库中存在着对应的翻译资源“closelyrelated”,就可以用“紧密相关”的翻译资源“closely related”来翻译“息息相关”,从而大大提高译文的流利度。
又例如对难翻译片段“幼年”,通过查找源语言的复述资源,发现“幼年”的复述资源有:“童年”和“小时候”。因此可以利用幼年的复述资源“童年”与“小时候”对“幼年”进行扩展,以得到待翻译候选集合。
对于没有复述资源的难翻译片段,则不需要进行扩展。需要特别说明的是,复述资源不限于词,也可以为短语,甚至为句子,例如基于词典注释的替换、语序变换、句子结构变换、句子拆分与合并或基于推理的复述得到的资源,只要描述的事物相同,表达的含义相同,都可以认为是复述资源。
上述扩展过程所得的待翻译候选集合可以参见图3,图3为扩展片段单元203通过查找源语言的复述资源,将待翻译的源语言句子的难翻译片段进行扩展后的翻译词图。
图3所示的翻译词图也被描述为一个混淆网络,在混淆网络中,两个节点间由一条或多条弧连接。将各个节点连接起来的弧之和就形成了一条路径,一条路径即是一个待翻译候选,而由不完全相同的弧连接所有节点的各条路径集合就形成了一个源语言句子的待翻译候选集合。
翻译单元204,用于对待翻译候选集合进行翻译,以得到翻译结果。也就是利用翻译模型,对经过扩展片段单元203扩展而得到的待翻译候选集合中的每一个待翻译候选进行翻译。由于利用翻译模型进行翻译是本领域的公知常识,在此不再赘述。
请参考图7,图7为本发明实施例中基于源语言复述资源的机器翻译装置的又一个实施例示意框图,在该实施例中,本发明装置进一步包括评分单元205,用于对翻译结果进行评分,以获得最佳的N个翻译结果。最佳的翻译结果可进一步在其他的业务中得到应用,例如提供给用户进行参考选择,并接收用户将这些翻译结果修改后的反馈以改进机器翻译系统及其相应模型等等。数量N可根据实际需要设定为某个固定值。
从图3得到的词图出发,两个不同节点间有多条弧的,每条弧将拥有一个权重,权重可以根据复述资源的复述概率获得。此时需要将每条弧的权重进行归一化处理,以便于最终对翻译的结果进行评分。
假设两个有连接弧的节点间有m条不同的弧,每条弧原来的权重是qi,那么归一化后的权重为:
w i = q i Σ i ′ = 1 m q i ′ - - - ( 1 )
对翻译结果进行评分,可以采用对数线性模型。对数线性模型是在最大熵模型的思想上发展而来的。以下对最大熵方法的基本思想做一下简单介绍:
对于一个随机事件,假设已经有了一组样例,现在希望建立一个统计模型,来模拟这个随机事件的分布。为此,需要选择一组特征,使得这个统计模型在这一组特征上,与样例中的分布完全一致,同时又保证这个模型尽可能地“均匀”(也就是使模型的熵值达到最大),以确保除了这一组特征之外,这个模型没有其他的任何偏好。依据这个原则的统计建模方法就是最大熵方法。
对于机器翻译来说,如果S、T是机器翻译的源语言和目标语言句子,h1(S,T)...hM(S,T)分别是S、T上的M个特征,λ1...λM是与这些特征分别对应的M个参数,那么翻译过程可以描述为:
P ( T | S ) ≈ P λ 1 . . . λ M ( T | S ) = exp [ Σ m = 1 M λ m h m ( S , T ) ] Σ T ′ exp [ Σ m = 1 M λ m h m ( S , T ′ ) ] - - - ( 2 )
其整体的翻译概率,是各个特征加权后的乘积(通常取其对数形式,表现为加权和)。对于给定的S,相应的最优译文T为:
T best = arg max T { p ( T | S ) }
= arg max T { Σ m = 1 M λ m h m ( S , T ) } - - - ( 3 )
由于式(3)的形式可以反映为在对数操作下各特征与相应权重积的线性相加,所以称之为对数线性模型,在该模型中,参数λm可以通过最小错误率训练得到,而hm(S,T)可以表述不同维度的特征。在对翻译结果进行评分的过程中,可以融合多个维度的翻译质量评价模型,这些模型可以表述为特征,例如表征调序的特征h调序(S,T)等,对本发明而言,式(3)的融合模型中的一个维度,就是利用式(1)的复述资源及其权重建立的特征h复述资源(S,T)。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (22)

1.一种基于源语言复述资源的机器翻译方法,其特征在于,所述方法包括:
a.获取源语言句子;
b.选取所述源语言句子的难翻译片段;
c.根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合;
d.对所述待翻译候选集合进行翻译,以得到翻译结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤b进一步包括:
b1.对所述源语言句子进行分词处理,以获得分词结果;
b2.通过控制片段长度将所述源语言句子划分为不同的片段集合,以得到全部的源语言句子片段,所述片段长度表示每一所述源语言句子片段可以包含的所述分词结果的词语数量;
b3.对所述全部的源语言句子片段进行识别,确定其中的难翻译片段。
3.根据权利要求2所述的方法,其特征在于,在所述步骤b3中,利用机器学习得到的分类器进行识别。
4.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一步包括所述源语言句子片段中平均未登录词的个数。
5.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一步包括所述源语言句子片段中平均包含的介词短语的个数。
6.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一步包括所述源语言句子片段相对于前后片段被调序的概率。
7.根据权利要求3所述的方法,其特征在于,所述分类器采用的特征进一步包括所述源语言句子片段在语言模型中的概率。
8.根据权利要求1所述的方法,其特征在于,所述复述资源进一步包括词、短语或句子。
9.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
e.对所述翻译结果进行评分,以得到最佳的N个翻译结果。
10.根据权利要求9所述的方法,其特征在于,所述步骤e采用对数线性模型对所述翻译结果进行评分。
11.根据权利要求10所述的方法,其特征在于,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。
12.一种基于源语言复述资源的机器翻译装置,其特征在于,所述装置包括:
接收句子单元,用于获取源语言句子;
选择片段单元,用于选取所述源语言句子的难翻译片段;
扩展片段单元,用于根据源语言的复述资源对所述难翻译片段进行扩展,以获取待翻译候选集合;
翻译单元,用于对所述待翻译候选集合进行翻译,以得到翻译结果。
13.根据权利要求12所述的装置,其特征在于,所述选择片段单元进一步包括:
分词单元,用于对所述源语言句子进行分词处理,以获得分词结果;
划分片段单元,用于通过控制片段长度将所述源语言句子划分为不同的片段集合,以得到全部的源语言句子片段,所述片段长度表示每一所述源语言句子片段可以包含的所述分词结果的词语数量;
识别单元,用于对所述全部的源语言句子片段进行识别,确定其中的难翻译片段。
14.根据权利要求13所述的装置,其特征在于,所述识别单元利用机器学习得到的分类器进行识别。
15.根据权利要求14所述的装置,其特征在于,所述分类器采用的特征进一步包括所述源语言句子片段中平均未登录词的个数。
16.根据权利要求14所述的装置,其特征在于,所述分类器采用的特征进一步包括所述源语言句子片段中平均包含的介词短语的个数。
17.根据权利要求14所述的装置,其特征在于,所述分类器采用的特征进一步包括所述源语言句子片段相对于前后片段被调序的概率。
18.根据权利要求14所述的装置,其特征在于,所述分类器采用的特征进一步包括所述源语言句子片段在语言模型中的概率。
19.根据权利要求12所述的装置,其特征在于,所述复述资源进一步包括词、短语或句子。
20.根据权利要求12所述的装置,其特征在于,所述装置进一步包括评分单元,用于对所述翻译结果进行评分,以得到最佳的N个翻译结果。
21.根据权利要求20所述的装置,其特征在于,所述评分单元采用对数线性模型对所述翻译结果进行评分。
22.根据权利要求21所述的装置,其特征在于,建立所述对数线性模型时使用的一个特征为所述复述资源及其权重。
CN2011100462948A 2011-02-25 2011-02-25 一种基于源语言复述资源的机器翻译方法及装置 Pending CN102650987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100462948A CN102650987A (zh) 2011-02-25 2011-02-25 一种基于源语言复述资源的机器翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100462948A CN102650987A (zh) 2011-02-25 2011-02-25 一种基于源语言复述资源的机器翻译方法及装置

Publications (1)

Publication Number Publication Date
CN102650987A true CN102650987A (zh) 2012-08-29

Family

ID=46692995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100462948A Pending CN102650987A (zh) 2011-02-25 2011-02-25 一种基于源语言复述资源的机器翻译方法及装置

Country Status (1)

Country Link
CN (1) CN102650987A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550174A (zh) * 2015-12-30 2016-05-04 哈尔滨工业大学 基于样本重要性的自动机器翻译领域自适应方法
CN107003998A (zh) * 2014-12-08 2017-08-01 微软技术许可有限责任公司 任意语言资产和资源的本地化复杂度
CN107038158A (zh) * 2016-02-01 2017-08-11 松下知识产权经营株式会社 对译语料库制作方法、装置、程序以及机器翻译系统
CN107066456A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译系统的接收模块
CN107066455A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译系统
CN108351871A (zh) * 2015-09-22 2018-07-31 脸谱公司 通用翻译
CN108427672A (zh) * 2018-02-07 2018-08-21 平安科技(深圳)有限公司 文字翻译的方法及终端设备
CN109558570A (zh) * 2017-09-25 2019-04-02 三星电子株式会社 句生成方法和设备
CN115329784A (zh) * 2022-10-12 2022-11-11 之江实验室 基于预训练模型的句子复述生成系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1302030A (zh) * 1999-12-24 2001-07-04 国际商业机器公司 词义消歧的机器翻译方法和系统
CN1489086A (zh) * 2002-10-10 2004-04-14 莎 刘 一种语义约定全文翻译系统和方法
CN1855090A (zh) * 2005-04-26 2006-11-01 株式会社东芝 用于将日文翻译成中文的装置和方法
CN1892643A (zh) * 2005-06-27 2007-01-10 株式会社东芝 通过执行语言间的翻译来支持交流的交流支持装置和方法
CN101576872A (zh) * 2009-06-16 2009-11-11 北京系统工程研究所 一种中文文本处理方法及装置
CN101667176A (zh) * 2008-09-01 2010-03-10 株式会社东芝 基于短语的统计机器翻译方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1302030A (zh) * 1999-12-24 2001-07-04 国际商业机器公司 词义消歧的机器翻译方法和系统
CN1489086A (zh) * 2002-10-10 2004-04-14 莎 刘 一种语义约定全文翻译系统和方法
CN1855090A (zh) * 2005-04-26 2006-11-01 株式会社东芝 用于将日文翻译成中文的装置和方法
CN1892643A (zh) * 2005-06-27 2007-01-10 株式会社东芝 通过执行语言间的翻译来支持交流的交流支持装置和方法
CN101667176A (zh) * 2008-09-01 2010-03-10 株式会社东芝 基于短语的统计机器翻译方法和系统
CN101576872A (zh) * 2009-06-16 2009-11-11 北京系统工程研究所 一种中文文本处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李茂西,宗成庆: "机器翻译系统融合技术综述", 《中文信息学报》, vol. 24, no. 4, 31 July 2010 (2010-07-31) *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107003998A (zh) * 2014-12-08 2017-08-01 微软技术许可有限责任公司 任意语言资产和资源的本地化复杂度
US10346537B2 (en) 2015-09-22 2019-07-09 Facebook, Inc. Universal translation
CN108351871A (zh) * 2015-09-22 2018-07-31 脸谱公司 通用翻译
CN108351871B (zh) * 2015-09-22 2019-09-27 脸谱公司 通用翻译
CN105550174A (zh) * 2015-12-30 2016-05-04 哈尔滨工业大学 基于样本重要性的自动机器翻译领域自适应方法
CN107038158A (zh) * 2016-02-01 2017-08-11 松下知识产权经营株式会社 对译语料库制作方法、装置、程序以及机器翻译系统
CN107038158B (zh) * 2016-02-01 2021-12-03 松下知识产权经营株式会社 对译语料库制作方法、装置、记录介质以及机器翻译系统
CN107066456A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译系统的接收模块
CN107066455B (zh) * 2017-03-30 2020-07-28 唐亮 一种多语言智能预处理实时统计机器翻译系统
CN107066455A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译系统
CN109558570A (zh) * 2017-09-25 2019-04-02 三星电子株式会社 句生成方法和设备
CN109558570B (zh) * 2017-09-25 2024-01-23 三星电子株式会社 句生成方法和设备
CN108427672B (zh) * 2018-02-07 2019-05-07 平安科技(深圳)有限公司 文字翻译的方法、终端设备及计算机可读存储介质
CN108427672A (zh) * 2018-02-07 2018-08-21 平安科技(深圳)有限公司 文字翻译的方法及终端设备
CN115329784A (zh) * 2022-10-12 2022-11-11 之江实验室 基于预训练模型的句子复述生成系统

Similar Documents

Publication Publication Date Title
CN102650987A (zh) 一种基于源语言复述资源的机器翻译方法及装置
Farahani et al. Parsbert: Transformer-based model for persian language understanding
CN107291795B (zh) 一种结合动态词嵌入和词性标注的文本分类方法
CN100527125C (zh) 一种统计机器翻译中的在线翻译模型选择方法和系统
CN110378409B (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN107038158B (zh) 对译语料库制作方法、装置、记录介质以及机器翻译系统
US7945437B2 (en) Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language
CN101706777B (zh) 机器翻译中抽取调序模板的方法及系统
CN111460838A (zh) 智能翻译模型的预训练方法、装置和存储介质
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
CN104239554A (zh) 跨领域跨类别的新闻评论情绪预测方法
CN104298651A (zh) 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN110442841A (zh) 识别简历的方法及装置、计算机设备、存储介质
CN106383818A (zh) 一种机器翻译方法及装置
CN102654867B (zh) 一种跨语言搜索中的网页排序方法和系统
CN103309926A (zh) 基于条件随机场的中英文混合命名实体识别方法及系统
CN103593431A (zh) 网络舆情分析方法和装置
Sen et al. Neural machine translation of low-resource languages using SMT phrase pair injection
CN103530286A (zh) 一种跨语言情感分类方法
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
CN109359308B (zh) 机器翻译方法、装置及可读存储介质
CN102650988A (zh) 一种基于目标语言复述资源的机器翻译方法及装置
CN110222338A (zh) 一种机构名实体识别方法
CN111368035A (zh) 一种基于神经网络的汉维-维汉机构名词典的挖掘系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120829