CN104750676A - 机器翻译处理方法及装置 - Google Patents

机器翻译处理方法及装置 Download PDF

Info

Publication number
CN104750676A
CN104750676A CN201310752868.2A CN201310752868A CN104750676A CN 104750676 A CN104750676 A CN 104750676A CN 201310752868 A CN201310752868 A CN 201310752868A CN 104750676 A CN104750676 A CN 104750676A
Authority
CN
China
Prior art keywords
sentence
translated
regular
rule
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310752868.2A
Other languages
English (en)
Other versions
CN104750676B (zh
Inventor
滕志扬
熊皓
骆卫华
王士进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange Information Technology (beijing) Co Ltd
Original Assignee
Orange Information Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange Information Technology (beijing) Co Ltd filed Critical Orange Information Technology (beijing) Co Ltd
Priority to CN201310752868.2A priority Critical patent/CN104750676B/zh
Publication of CN104750676A publication Critical patent/CN104750676A/zh
Application granted granted Critical
Publication of CN104750676B publication Critical patent/CN104750676B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种机器翻译处理方法及装置,其中方法包括如下步骤:对训练语料库中的句子进行分类,得到训练语料库中的句子的类别C;根据待翻译句子的类别特征,计算待翻译句子的类别概率P(C︱S);根据训练语料库中的句子的类别C,计算规则R的类别概率P(C︱R),并将P(C︱R)添加至规则表中;根据规则相似度模型和规则敏感度模型,以及待翻译句子的类别概率P(C︱S)和规则R的类别概率P(C︱R),计算规则R的相似度特征和敏感度特征,对规则表中的规则进行优化排序。其通过对训练语料库中的句子进行分类,根据待翻译句子的类别,选取特定的规则进行翻译,有效地提高了翻译的正确率。

Description

机器翻译处理方法及装置
技术领域
本发明涉及计算语言学领域,特别是涉及一种机器翻译处理方法及装置。
背景技术
在当今的信息社会中,各文化间交流的主要载体是语言,而不同语言之间的翻译成为文化交流过程中的关键所在。由于传统的人工翻译耗时较长,成本较高,已经满足不了人们获取多语言信息的需求。随着计算机技术和自然语言技术的迅猛发展,机器翻译通过利用计算机将一种自然语言自动翻译为另一种自然语言,逐渐成为一种获取信息和传播信息的重要基础手段。
统计机器翻译是目前主流的机器翻译技术,它能够根据数学模型和算法自动地从大规模平行语料库中学习而获得翻译规律。据统计,在需要翻译的文本中,问句所占的比例很大,在规模为760万句对训练集上问句的比例为14.23%,因此,问句的翻译质量影响着整个文本的翻译质量,但是在翻译问句时,往往存在以下四个问题:一、问句与陈述句相似,不容易区分,尤其是中文问句和陈述句之间语序一致,均为主谓宾形式,仅在句尾加疑问词和问号;二、英语问句是疑问词提前,然后是谓语动词、主语和其他,最后是问号,在中文翻译成英文的过程中,疑问词居首会导致调序现象,调序现象大量存在,而且调序跨度很大;三、英文问句一般存在助词,助词漏译、错译现象严重;四、疑问点无法正确识别,疑问成分识别不全面。同时,由于现有的机器翻译通常是将问句当做普通的句子直接翻译,不对问句做任何的处理,这就很容易导致翻译出的英文问句依然是主谓宾的形式,从而被翻译成陈述句;同时,还会引起翻译出的英文问句调序不准确,出现疑问词不在句首的现象,导致翻译出的英文问句中助词丢失和翻译准确率低的问题。
发明内容
基于此,有必要针对现有的机器翻译所导致的翻译出的句子准确率低的问题,提供一种机器翻译处理方法及装置。
一种机器翻译处理方法,包括如下步骤:
S100,对训练语料库中的句子进行分类,得到所述训练语料库中的句子的类别C;
S200,根据待翻译句子的类别特征,计算所述待翻译句子的类别概率P(C︱S);
S300,根据所述句子的类别C,计算规则R的类别概率P(C︱R),并将所述P(C︱R)添加至规则表中;
S400,根据规则相似度模型和规则敏感度模型,以及所述待翻译句子的类别概率P(C︱S)和所述规则R的类别概率P(C︱R),计算所述规则R的相似度特征和敏感度特征,对所述规则表中的规则进行优化排序;
其中,S表征所述待翻译句子;所述P(C︱S)为所述待翻译句子在不同所述句子的类别C下的概率;所述P(C︱R)为所述规则R在不同所述句子的类别C下的概率。
较佳地,还包括如下步骤:
S400’,当所述待翻译句子为问句时,根据疑问词的位置、所述疑问词的有无、所述疑问词的搭配、助动词的位置、所述助动词的有无、所述助动词与所述疑问词的搭配的启发式规则剪枝方法,检测翻译候选,当所述翻译候选中存在不合理现象时,删除所述翻译候选;
其中,所述翻译候选包括多个所述规则R。
较佳地,还包括如下步骤:
S500,根据所述相似度特征和所述敏感度特征,计算n-best的特征分数;
S600,根据所述n-best的特征分数,确定最佳的权重值;
其中,所述n-best的特征分数包括所述规则R的类别概率P(C︱R)与相应的所述最佳的权重值的乘积的累加之和、以及所述待翻译句子的类别概率P(C︱S)与相应的所述最佳的权重值的乘积的累加之和。
作为一种可实施方式,步骤S100包括如下步骤:
S110,采用最大熵模型将所述训练语料库中的句子按照句型分为:是非问句、特指疑问句、选择问句、正反问句、以及其他句型,并对应标注为C1、C2、C3、C4、C5;
其中,所述其他句型为:非疑问句;
S210,提取所述待翻译句子中词的语义类别、疑问词的搭配成分、疑问词、助动词、句末标点符号、所述待翻译句子的尾词、词频分布、一元词组、以及二元词组九种类别特征;
S220,根据所述九种类别特征,计算所述待翻译句子的类别概率P(C︱S)。
作为一种可实施方式,所述步骤S300中,根据公式:
p ( C i | R ) = count ( C i , R ) Σ i K count ( C i , R )
计算所述P(C︱R),并将所述P(C︱R)添加至规则表中:
所述规则表中的规则R:源端|||目标端|||对齐信息|||翻译概率|||P(C|R);
其中,count(Ci,R)为所述规则R从所述句子的类别C中抽取的次数,为所述规则R的总数量,K的取值为5,i的取值范围为[1,K]。
作为一种可实施方式,所述步骤S400中,根据公式:
Similarity ( S , R ) = Σ k = 1 K ( P ( C k | S ) · P ( C k | R ) ) Σ k = 1 K ( P ( C k | S ) ) 2 Σ k = 1 K ( P ( C k | R ) ) 2
计算所述规则R的相似度特征;
根据公式:
Sensitivity ( R ) = - Σ k = 1 K P ( C k | R ) × log ( P ( C k | R ) )
计算所述规则R的敏感度特征。
相应的,为实现上述机器翻译处理方法,本发明还提供了一种机器翻译处理装置,包括句型识别模块、规则抽取模块和翻译解码模块,其中:
所述句型识别模块,用于对训练语料库中的句子进行分类,得到所述训练语料库中的句子的类别C;并根据待翻译句子的类别特征,计算所述待翻译句子的类别概率P(C︱S);
所述规则抽取模块,用于根据所述句子的类别C,计算规则R的类别概率P(C︱R),并将所述P(C︱R)添加至规则表中;
所述翻译解码模块,用于根据规则相似度模型和规则敏感度模型,以及所述待翻译句子的类别概率P(C︱S)和所述规则R的类别概率P(C︱R),计算所述规则R的相似度特征和敏感度特征,对所述规则表中的规则进行优化排序;
其中,S表征所述待翻译句子;所述P(C︱S)为所述待翻译句子在不同所述句子的类别C下的概率;所述P(C︱R)为所述规则R在不同所述句子的类别C下的概率。
较佳地,所述翻译解码模块包括启发式规则选取剪枝单元,其中:
所述启发式规则选取剪枝单元,用于当所述待翻译句子为问句时,根据疑问词的位置、所述疑问词的有无、所述疑问词的搭配、助动词的位置、所述助动词的有无、所述助动词与所述疑问词的搭配的启发式规则剪枝方法,检测翻译候选,当所述翻译候选中存在不合理现象时,删除所述翻译候选;
其中,所述翻译候选包括多个所述规则R。
较佳地,还包括最小错误率训练模块,所述最小错误率训练模块包括特征分数计算单元和权重值确定单元,其中:
所述特征分数计算单元,用于根据所述相似度特征和所述敏感度特征,计算n-best的特征分数;
所述权重值确定单元,用于根据所述n-best的特征分数,确定最佳的权重值;
其中,所述n-best的特征分数包括所述规则R的类别概率P(C︱R)与相应的所述最佳的权重值的乘积的累加之和、以及所述待翻译句子的类别概率P(C︱S)与相应的所述最佳的权重值的乘积的累加之和。
作为一种可实施方式,所述句型识别模块包括第一提取单元和最大熵分类器;其中:
所述第一提取单元,用于提取所述待翻译句子中词的语义类别、疑问词的搭配成分、疑问词、助动词、句末标点符号、所述待翻译句子的尾词、词频分布、一元词组、以及二元词组九种类别特征;
所述最大熵分类器,用于采用最大熵模型将所述训练语料库中的句子按照句型分为:是非问句、特指疑问句、选择问句、正反问句、以及其他句型,并对应标注为C1、C2、C3、C4、C5;并根据所述九种类别特征,计算所述待翻译句子的类别概率P(C︱S);
其中,所述其他句型为:非疑问句。
作为一种可实施方式,所述规则抽取模块包括第一计算单元和第一控制单元,其中:
所述第一计算单元,用于根据公式:
p ( C i | R ) = count ( C i , R ) Σ i K count ( C i , R )
计算所述P(C︱R);
所述第一控制单元,用于将所述P(C︱R)添加至规则表中:
所述规则表中的规则R:源端|||目标端|||对齐信息|||翻译概率|||P(C|R);
其中,count(Ci,R)为所述规则R从所述句子的类别C中抽取的次数,为所述规则R的总数量,K的取值为5,i的取值范围为[1,K]。
作为一种可实施方式,所述翻译解码模块还包括第二计算单元和第三计算单元,其中:
所述第二计算单元,用于根据公式:
Similarity ( S , R ) = Σ k = 1 K ( P ( C k | S ) · P ( C k | R ) ) Σ k = 1 K ( P ( C k | S ) ) 2 Σ k = 1 K ( P ( C k | R ) ) 2
计算所述规则R的相似度特征;
所述第三计算单元,用于根据公式:
Sensitivity ( R ) = - Σ k = 1 K P ( C k | R ) × log ( P ( C k | R ) )
计算所述规则R的敏感度特征。
本发明提供的一种机器翻译处理方法及装置,其中方法首先通过对句子进行分类,得到训练语料库中的句子的类别C;并根据待翻译句子的类别特征,计算待翻译句子的类别概率P(C︱S);然后,根据句子的类别C,在规则抽取时计算规则R的类别概率P(C︱R),并根据规则相似度模型和规则敏感度模型,计算规则R的相似度特征和敏感度特征,根据相似度特征和敏感度特征,在用规则对待翻译句子进行翻译时,寻找待翻译句子与规则的最佳相似度,以及与规则敏感度较小的规则进行翻译,即通过选用特定句子类别抽取出的规则翻译特定类别的句子,使得翻译的准确率更高,翻译效果更好,有效地解决了现有的机器翻译所导致的翻译出的问句准确率低的问题。
附图说明
图1为机器翻译处理方法一具体实施例流程图;
图2为机器翻译处理方法另一具体实施例计算得到的规则R1的类别概率图;
图3为机器翻译处理方法另一具体实施例计算得到的规则R2的类别概率图;
图4为机器翻译处理方法另一具体实施例计算得到的规则R3的类别概率图;
图5为机器翻译处理方法另一具体实施例计算得到的规则R4的类别概率图;
图6为机器翻译处理装置一具体实施例结构示意图;
图7为机器翻译处理装置另一具体实施例结构示意图。
具体实施方式
为使本发明技术方案更加清楚,以下结合附图及具体实施例对本发明做进一步详细说明。
参见图1,一种机器翻译处理方法,其特征在于,包括如下步骤:
S100,对训练语料库中的句子进行分类,得到训练语料库中的句子的类别C;
S200,根据待翻译句子的类别特征,计算待翻译句子的类别概率P(C︱S);
S300,根据句子的类别C,计算规则R的类别概率P(C︱R),并将P(C︱R)添加至规则表中;
S400,根据规则相似度模型和规则敏感度模型,以及待翻译句子的类别概率P(C︱S)和规则R的类别概率P(C︱R),计算规则R的相似度特征和敏感度特征,对规则表中的规则进行优化排序;
其中,S表征待翻译句子;P(C︱S)为待翻译句子在不同句子的类别C下的概率;P(C︱R)为规则R在不同句子的类别C的概率。
本发明提供的机器翻译处理方法,通过对训练语料库中的句子进行分类,根据句子的类别C以及待翻译句子的类别特征,计算出待翻译句子的类别概率P(C︱S);在规则抽取过程中,根据句子的类别C,计算规则R的类别概率P(C︱R),然后根据待翻译句子的类别概率以及规则R的类别概率P(C︱R)以及规则相似度模型和规则敏感度模型,计算出规则R的相似度特征和敏感度特征,最后根据相似度特征和敏感度特征,确定待翻译句子的翻译规则,其通过在规则抽取过程中,根据不同句子的类别,抽取不同的规则,选用特定的句子的类别抽取出的规则翻译特定类别的句子,有效地提高了翻译的准确率及翻译效果,解决了现有的机器翻译所导致的翻译出的句子准确率低的问题。
更优的,本发明提供的机器翻译处理方法一具体实施例还包括如下步骤:
S400’,当待翻译句子为问句时,根据疑问词的位置、疑问词的有无、疑问词的搭配、助动词的位置、助动词的有无、助动词与疑问词的搭配的启发式规则剪枝方法,检测翻译候选,当翻译候选中存在不合理现象时,删除翻译候选;
其中,翻译候选包括多个规则R;如在问句翻译过程中,当翻译候选中出现疑问词置于句中或句尾时,即为问句中的不合理现象,那么就可以将该翻译候选剪去,以减小搜索空间,同时也减小了计算的复杂度;如:在翻译问句“明天我们将去哪里?”时,倘若翻译候选中有一条规则为:
去哪里|||go where|||0011|||翻译概率|||规则类别概率
其中,Where应该在句首,所以上面的翻译候选为不合理的现象,对此种翻译候选及时剪去,不进行下一步扩展,即在翻译过程中,寻找翻译假设时,适当剪枝,保持检查是否符合问句翻译的规则,在保证翻译准确的前提下,减少了规则选取的时间,进而提高了翻译的效率。
较佳地,作为本发明机器翻译处理方法的一具体实施例,还包括如下步骤:
S500,根据相似度特征和敏感度特征,计算n-best的特征分数;
S600,根据n-best的特征分数,确定最佳的权重值;
其中,n-best的特征分数包括规则R的类别概率P(C︱R)与相应的最佳的权重值的乘积的累加之和、以及待翻译句子的类别概率P(C︱S)与相应的最佳的权重值的乘积的累加之和。通过计算出n-best的特征分数后,确定最佳的权重值,当再次翻译与之前相类似的句子时,可直接选取与待翻译句子相近似的规则进行翻译,节省了翻译时间,提高了翻译效率。
作为本发明机器翻译处理方法的另一具体实施例,步骤S100包括如下步骤:
S110,采用最大熵模型将训练语料库中的句子按照句型分为:是非问句、特指疑问句、选择问句、正反问句、以及其他句型,并对应标注为C1、C2、C3、C4、C5;其中,其他句型为:非疑问句;
如,根据句型将训练语料库中的句子分为五类:是非问句、特指疑问句、选择问句、正反问句、以及非疑问句,分别用C1、C2、C3、C4、C5标注;具体为:
(1)是非问句C1:
特点:是非问句C1又称为“一般疑问句”,它是提出问题,要求回答“是”或“否”的疑问句。是非问句C1与一般陈述句的结构形式基本相同,但语调为升调,或语末加上疑问语气词;通常,是非问句C1中经常使用的疑问语气词为“吗”、“吧”、以及“啊”等,但不能使用“呢”;如:
这也是日本茶的一种吗?
(2)特指疑问句C2:
特点:特指疑问句C2通常使用疑问代词代替未知的部分进行提问,要求针对未知的部分做出回答;通常,未知的部分为:what、who、whos、which、when、where、how、以及why等。特指疑问句C2只能使用“呢、啊”等语气词,不能使用“吗、吧”;如:
坐计乘车从机场到您们饭店要多长时间?
(3)选择问句C3:
特点:选择问句C3是提出两种或两种以上的情况,让对方从中进行选择的疑问句;选择问句C3经常使用“A还是B”、“是A还是B”等固有格式。这类疑问句有两种形式:一种是以一般疑问句的结构形式为基础;另一种选择疑问句是以特殊疑问句的结构形式为基础的;如:
①Shall we leave at six or seven?我们是6点动身还是7点动身?
②哪个男孩是林涛,是高个儿还是矮个儿?
(4)正反问句C4:
特点:正反问句C4是用肯定和否定并列的方式进行提问,希望对方从中做出选择的疑问句;正反问句C4一般不使用疑问代词或疑问语气词,需要时可用“呢、啊”,一般不用“吗、吧”;如:
①:“V不(没)V”(否定词后面出现被否定成分)
这个人可靠不可靠?
②:“V不(没)”(否定词后面不出现否定被否定成分)
他明天来不?
③:“V不V”(全句后面加正反否定词语)
先把自行车借我骑骑,行不行?
(5)其他句型C5:
特点:此处指的是非疑问句,主要是陈述句、感叹句、祈使句等。
通过将训练语料库中的句子分为上述五种类别,尤其是对于问句,针对不同类别的问句,选用特定的规则进行翻译,有效地解决了问句翻译所存在的四个问题,同时还解决了现有的机器翻译装置将问句作为普通的句子进行直接翻译所导致的翻译不准确的问题,提高了翻译的准确率和翻译的效果。
值得说明的是,将训练语料库中的句子进行分类的角度为多种,本发明提供的具体实施例是从句型的角度进行分类,在其他具体实施例中,也可以根据情感色彩、句法特点、领域属性、语义信息等对训练语料库中的句子进行分类;如根据句子所属的领域属性可将句子分为:口语类、电商类、专利类、新闻类、财经类、或体育类等。
当对训练语料库中的句子进行分类后,根据训练语料库中的句子的类别C,计算待翻译句子的类别概率P(C︱S)的一种实施方式为:
S210,提取待翻译句子中词的语义类别、疑问词的搭配成分、疑问词、助动词、句末标点符号、待翻译句子的尾词、词频分布、一元词组、以及二元词组九种类别特征;
S220,根据九种类型特征,采用最大熵分类器计算待翻译句子的类别概率P(C︱S);其中,S表征待翻译句子。在此,需要说明的是,待翻译句子的类别概率P(C︱S)表示一条句子S为类别C的概率,如当对问句进行上述五种分类后,训练语料库中存在五种类别的问句,待翻译句子S为类别C的概率则会有5个数值,分别为P(C1︱S)、P(C2︱S)、P(C3︱S)、P(C4︱S)、以及P(C5︱S),用以表征待翻译句子分别为C1、C2、C3、C4、C5的概率;
通常采用最大熵分类器计算待翻译句子的类别概率P(C︱S)时,需要提取待翻译句子S的类别特征;类别特征一般包括:词的语义类别、疑问词的搭配成分、疑问词、助动词、句末标点符号、待翻译句子的尾词、词频分布、一元词组、以及二元词组等九种,其中:
①、词的语义类别:是用Google的一个开源工具word2vec,进行词的聚类得到的。
②、疑问词的搭配成分:采用搭配提取模型实现;如:
你买这本书花了多少钱?
疑问词是“多少”,相对应的疑问点是“钱”,因此可选用“钱”作为“多少”的一个搭配特征。
③、疑问词、助动词:是通过收集的疑问词表和助动词表识别;
④、句末标点符号、句子的尾词:分别是指句子最后的标点符号和句子的最后三个词;
⑤、词频分布:统计词在不同句子的类别下出现的次数,将出现次数大于50的词作为高频词;如:假设在1000条问句和1000条陈述句中,“什么”分别出现80次和20次,那么“什么”作为问句的高频词特征;
还可以包括:词的一元词组,二元词组:句子中的词以及相邻词之间的组合;如“这“是一元词组,“多少钱”为二元词组。
作为本发明机器翻译处理方法的一具体实施例,通过对句子“这一本书的价值是多少钱啊?”提取类别特征时,首先统计该句子的信息,如表1所示:
表1统计信息
其中,在语义的类别特征中,一种可能的语义类别为:T8为指代语义,T9为数量语义,T3为实物语义,T4为功能语义,T5为财物语义,T2为判断语义,T1为语气语义,T6为标点符号语义;同时,在统计句子的词频信息时,尽管一些词的词频较高,但由于该词为停用词,因此并不会被加入到类别特征中,在本具体实施例中,如:“的”、“是”、“啊”“?”的词频分别为600、400、250和500,但是该四个词均为停用词,因此不会被提取至句子的类别特征中;最终,提取的该句子的类别特征如表2所示:
表2抽取的类别特征
作为另一具体实施例,如句子f为:“这是手机吗?”,对该句子采用上述方法提取类别特征,并根据该句子的九种类别特征,用最大熵分类器计算该句子的类别概率P(C︱R),最终得到该句子的类别概率分布为(0.5,0.2,0.2,0.15,0.05),由该句子的类别概率分布可以得出,该句子最可能的类别为是非问句C1。
通过待翻译句子的类别概率分布,确定待翻译句子的类别C之后,根据待翻译句子的类别C进行规则选取,有效地解决了现有的机器翻译装置对待翻译句子不作任何处理,进行直接翻译所导致的翻译不准确的问题。
值得说明的是,确定待翻译句子的类别C之后,需要针对特定的待翻译句子的类别C,进行特定的规则选取。较佳地,在进行规则选取过程(即步骤S300)中,根据公式:
p ( C i | R ) = count ( C i , R ) Σ i K count ( C i , R )
计算P(C︱R),并将P(C︱R)添加至规则表中:
规则表中的规则R:源端|||目标端|||对齐信息|||翻译概率|||P(C|R);
其中,count(Ci,R)为规则R从句子的类别C中抽取的次数,为规则R的总数量,K的取值为5,i的取值范围为[1,K]。
在此,需要说明的是,对齐信息是指词与词的对应关系,如对于规则表中的一条规则“手机|||cell phones|||0001|||”,表示源端的第0个词“手机”与目标端的第0个词“cell”对齐,源端的第0个词“手机”与目标端的第1个词“phones”对齐;翻译概率,通常包括四个值:其一,为正向短语翻译概率P(e/f),如P(cell phones/手机)表示手机翻译为cell phones的概率;其二,为正向短语翻译概率P(f/e),如P(手机/cell phones);其三,为正向词汇化翻译概率,如P_lex(cell phones/手机);其四,为正向词汇化翻译概率,如P_lex(手机/cell phones);这四种翻译概率都可以通过层次短语模型规则抽取的常用方法得到。
即首先根据句子的类别C,计算规则R的类别概率P(C︱R);作为本发明机器翻译方法,当存在四个句子如下:
“手机是20世纪的发明吗?”
“这是手机吗?”
“手机和电脑是20世纪的发明”
“这部手机多少钱?”
通过上述计算待翻译句子的类别概率的方法,得到该四个句子的最可能类别C分别为:C1、C1、C5、以及C2;在进行规则抽取时,其中一条规则R:
手机|||cell phones|||0001|||规则R的类别概率;
当根据句子的类别C共抽取出4条规则时,对规则R的类别概率的计算为:
通过上述计算,得到规则R的类别概率分布为(0.5,0.25,0,0,0.25),相应的,规则R变为:手机|||cell phones|||0001|||0.5,0.25,0,0,0.25。
较佳地,当计算得到规则R的类别概率分布之后,执行步骤S400,进行规则R的相似度特征及敏感度特征的计算,在该计算过程中,作为一种可实施方式,可根据公式:
Similarity ( S , R ) = Σ k = 1 K ( P ( C k | S ) · P ( C k | R ) ) Σ k = 1 K ( P ( C k | S ) ) 2 Σ k = 1 K ( P ( C k | R ) ) 2
计算规则R的相似度特征;
根据公式:
Sensitivity ( R ) = - Σ k = 1 K P ( C k | R ) × log ( P ( C k | R ) )
计算规则R的敏感度特征;
即在确定规则R的类别概率分布之后,首先采用规则相似度模型,计算规则R的相似度特征,根据规则R的相似度特征,选取与待翻译句子的类别C最相似的规则。
在采用规则相似度模型选取与待翻译句子的类别C最相似的规则时,有可能出现抽取的规则中存在多条规则与待翻译句子的类别C相似度均较高,因此,为了弥补该规则相似度模型的不足,同时采用规则敏感度模型计算规则R的敏感度特征,作为一种可实施方式,采用熵来定义规则R的敏感度特征,其计算公式为:
Sensitivity ( R ) = - Σ k = 1 K P ( C k | R ) × log ( P ( C k | R ) )
由公式可以看出,当规则R的类别概率分布越均匀,即规则R的类别概率值越接近,计算得到的熵值就越大,则该规则的敏感度越低,通用性越好,选取时越偏重于选取该规则;相反,熵值越小的规则,被选择的可能性也就越小。
具体的,将计算得到的相似度特征和敏感度特征放入翻译特征列表中,在翻译时,综合计算得到的相似度特征和敏感度特征,进行规则的确定,一般情况下:
A、若两条规则R1和R2之间的相似度特征差值较小,则选择敏感度特征熵值较大的;
B、若两条规则R1和R2之间的敏感度特征熵值较小,则选择相似度特征较大的;
C、若两条规则R1和R2之间的相似度特征和敏感度特征熵值差值均在一定的阈值内或均在外面,则都有可能被保留。
作为一具体实施例,当中文句子S为“这是手机吗?”时,该句子的类别概率P(C︱S)分布为(0.5,0.2,0.2,0.05,0.05),同时计算出规则R的类别概率P(C︱R),为方便解释说明,以下只列出规则的源端、目标端、以及规则R的类别概率P(C︱R),具体如表3所示:
规则序号 规则的源端和目标端,规则的类别概率P(C|R)
R1 <手机,cell phones>,(0.18,0.22,0.22,0.18,0.2)
R2 <手机,mobile phones>,(0.1,0.7,0,0,0.2)
R3 <X1是X2,X1is X2>,(0.35,0.05,0.05,0.05,0.5)
R4 <X1是X2,isX1X2>,(0.45,0.05,0.4,0.05,0.05)
表3一具体实施例规则表
参见图2至图5,分别为规则R1的类别概率、规则R2的类别概率、规则R3的类别概率、以及规则R4的类别概率分别与句子的类别C的对应关系图;
通过表3,以及图2至图5中的数据,对于规则R1和规则R2,分别计算句子S与规则R1、规则R2的相似度特征和敏感度特征,具体计算如下:
Similarity ( S , R ) = &Sigma; k = 1 5 ( P ( C k | S ) &CenterDot; P ( C k | R 1 ) ) &Sigma; k = 1 5 ( P ( C k | S ) ) 2 &Sigma; k = 1 5 ( P ( C k | R 1 ) ) 2 = 0.162 0.608 = 0.267
Sensitivity ( R 1 ) = - &Sigma; k = 1 5 P ( C k | R 1 ) &times; log ( P ( C k | R 1 ) ) = 0.514
Similarity ( S , R 2 ) = &Sigma; k = 1 5 ( P ( C k | S ) &CenterDot; P ( C k | R 2 ) ) &Sigma; k = 1 5 ( P ( C k | S ) ) 2 &Sigma; k = 1 5 ( P ( C k | R 2 ) ) 2 = 0.162 0.598 = 0.276
Sensitivity ( R 2 ) = - &Sigma; k = 1 5 P ( C k | R 2 ) &times; log ( P ( C k | R 2 ) ) = 0.675
同理,按照上述方法计算出句子S分别与规则R3、规则R4的相似度特征和敏感度特征,分别对句子S与规则R1、规则R2、规则R3、规则R4的相似度特征和敏感度特征进行比较,如表4所示:
规则序号 相似度特征 敏感度特征熵值
R1 0.267 0.514
R2 0.276 0.675
R3 0.360 0.505
R4 0.514 0.510
表4
根据动态规则选择方法,由表4可以看出,对于规则R1和规则R2,规则R1的相似度特征与规则R2的相似度特征之差为︱0.009︱,可以得出句子S与规则R1的相似度接近于句子S与规则R2的相似度,而规则R2的敏感度特征的熵值较大,为比较符合常规、通用性较好的规则,因此偏重于选取规则R2作为翻译规则;
对于规则R3和规则R4,规则R3的敏感度特征的熵值与规则R4的敏感度特征的熵值相差︱0.005︱,可以得出句子S与规则R3的敏感度接近于句子S与规则R4的敏感度,而规则R4的相似度特征较大,为与句子S最相近的规则,因此,在句子S的类别具有明显倾向时,偏重于选取规则R4作为翻译规则;
值得说明的是,当规则的相似度特征和规则的敏感度特征均相差较大时,则根据具体的规则的相似度特征和规则的敏感度特征,进行合适的选择。
参见图6至图7,相应的,基于同一发明构思,本发明还提供了一种机器翻译处理装置600,包括句型识别模块610、规则抽取模块620和翻译解码模块630,其中:
句型识别模块610,用于对训练语料库中的句子进行分类,得到训练语料库中的句子的类别C;并根据待翻译句子的类别特征,计算待翻译句子的类别概率P(C︱S);
规则抽取模块620,用于根据句子的类别C,计算规则R的类别概率P(C︱R),并将P(C︱R)添加至规则表中;
翻译解码模块630,用于根据规则相似度模型和规则敏感度模型,以及待翻译句子的类别概率P(C︱S)和规则R的类别概率P(C︱R),计算规则R的相似度特征和敏感度特征,对规则表中的规则进行优化排序;
其中,S表征待翻译句子;P(C︱S)为待翻译句子在不同句子的类别C下的概率;P(C︱R)为规则R在不同句子的类别C下的概率。
更优的,作为一种可实施方式,翻译解码模块630包括启发式规则选取剪枝单元631,其中:
启发式规则选取剪枝单元631,用于当待翻译句子为问句时,根据疑问词的位置、疑问词的有无、疑问词的搭配、助动词的位置、助动词的有无、助动词与疑问词的搭配的启发式规则剪枝方法,检测翻译候选,当翻译候选中存在不合理现象时,删除翻译候选;
其中,翻译候选包括多个规则R。
参见图6和图7,较佳地,作为本发明机器翻译处理装置600的另一具体实施例,还包括最小错误率训练模块640,最小错误率训练模块640包括特征分数计算单元641和权重值确定单元642、,其中:
特征分数计算单元641,用于根据相似度特征和敏感度特征,计算n-best的特征分数;
权重值确定单元642,用于根据n-best的特征分数,确定最佳的权重值;
其中,n-best的特征分数包括规则R的类别概率P(C︱R)与相应的最佳的权重值的乘积的累加之和、以及待翻译句子的类别概率P(C︱S)与相应的最佳的权重值的乘积的累加之和。
参见图7,作为本发明机器翻译处理装置600的另一具体实施例,句型识别模块610包括第一提取单元611和最大熵分类器612;其中:
第一提取单元611,用于提取待翻译句子中词的语义类别、疑问词的搭配成分、疑问词、助动词、句末标点符号、待翻译句子的尾词、词频分布、一元词组、以及二元词组九种类别特征;
最大熵分类器612,用于采用最大熵模型将训练语料库中的句子按照句型分为:是非问句、特指疑问句、选择问句、正反问句、以及其他句型,并对应标注为C1、C2、C3、C4、C5;并根据九种类别特征,计算待翻译句子的类别概率P(C︱S);
其中,其他句型为:非疑问句。
较佳地,规则抽取模块620包括第一计算单元621和第一控制单元622,其中:
第一计算单元621,用于根据公式:
p ( C i | R ) = count ( C i , R ) &Sigma; i K count ( C i , R )
计算P(C︱R);
第一控制单元622,用于将P(C︱R)添加至规则表中:
规则R:源端|||目标端|||对齐信息|||翻译概率|||P(C|R);
其中,count(Ci,R)为规则R从句子的类别C中抽取的次数,为规则R的总数量,K的取值为5,i的取值范围为[1,K]。
作为一种可实施方式,翻译解码模块630还包括第二计算单元632和第三计算单元633,其中:
第二计算单元632,用于根据公式:
Similarity ( S , R ) = &Sigma; k = 1 K ( P ( C k | S ) &CenterDot; P ( C k | R ) ) &Sigma; k = 1 K ( P ( C k | S ) ) 2 &Sigma; k = 1 K ( P ( C k | R ) ) 2
计算规则R的相似度特征;
第三计算单元633,用于根据公式:
Sensitivity ( R ) = - &Sigma; k = 1 K P ( C k | R ) &times; log ( P ( C k | R ) )
计算规则R的敏感度特征。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (12)

1.一种机器翻译处理方法,其特征在于,包括如下步骤:
S100,对训练语料库中的句子进行分类,得到所述训练语料库中的句子的类别C;
S200,根据待翻译句子的类别特征,计算所述待翻译句子的类别概率P(C︱S);
S300,根据所述句子的类别C,计算规则R的类别概率P(C︱R),并将所述P(C︱R)添加至规则表中;
S400,根据规则相似度模型和规则敏感度模型,以及所述待翻译句子的类别概率P(C︱S)和所述规则R的类别概率P(C︱R),计算所述规则R的相似度特征和敏感度特征,对所述规则表中的规则进行优化排序;
其中,S表征所述待翻译句子;所述P(C︱S)为所述待翻译句子在不同所述句子的类别C下的概率;所述P(C︱R)为所述规则R在不同所述句子的类别C下的概率。
2.根据权利要求1所述的机器翻译处理方法,其特征在于,还包括如下步骤:
S400’,当所述待翻译句子为问句时,根据疑问词的位置、所述疑问词的有无、所述疑问词的搭配、助动词的位置、所述助动词的有无、所述助动词与所述疑问词的搭配的启发式规则剪枝方法,检测翻译候选,当所述翻译候选中存在不合理现象时,删除所述翻译候选;
其中,所述翻译候选包括多个所述规则R。
3.根据权利要求2所述的机器翻译处理方法,其特征在于,还包括如下步骤:
S500,根据所述相似度特征和所述敏感度特征,计算n-best的特征分数;
S600,根据所述n-best的特征分数,确定最佳的权重值;
其中,所述n-best的特征分数包括所述规则R的类别概率P(C︱R)与相应的所述最佳的权重值的乘积的累加之和、以及所述待翻译句子的类别概率P(C︱S)与相应的所述最佳的权重值的乘积的累加之和。
4.根据权利要求1至3任一项所述的机器翻译处理方法,其特征在于,步骤S100包括如下步骤:
S110,采用最大熵模型将所述训练语料库中的句子按照句型分为:是非问句、特指疑问句、选择问句、正反问句、以及其他句型,并对应标注为C1、C2、C3、C4、C5;
其中,所述其他句型为:非疑问句;
S210,提取所述待翻译句子中词的语义类别、疑问词的搭配成分、疑问词、助动词、句末标点符号、所述待翻译句子的尾词、词频分布、一元词组以及二元词组九种类别特征;
S220,根据所述九种类别特征,计算所述待翻译句子的类别概率P(C︱S)。
5.根据权利要求4所述的机器翻译处理方法,其特征在于,所述步骤S300中,根据公式:
p ( C i | R ) = count ( C i , R ) &Sigma; i K count ( C i , R )
计算所述P(C︱R),并将所述P(C︱R)添加至规则表中:
所述规则表中的规则R:源端|||目标端|||对齐信息|||翻译概率|||P(C|R);
其中,count(Ci,R)为所述规则R从所述句子的类别C中抽取的次数,为所述规则R的总数量,K的取值为5,i的取值范围为[1,K]。
6.根据权利要求5所述的机器翻译处理方法,其特征在于,所述步骤S400中,根据公式:
Similarity ( S , R ) = &Sigma; k = 1 K ( P ( C k | S ) &CenterDot; P ( C k | R ) ) &Sigma; k = 1 K ( P ( C k | S ) ) 2 &Sigma; k = 1 K ( P ( C k | R ) ) 2
计算所述规则R的相似度特征;
根据公式:
Sensitivity ( R ) = - &Sigma; k = 1 K P ( C k | R ) &times; log ( P ( C k | R ) )
计算所述规则R的敏感度特征。
7.一种机器翻译处理装置,其特征在于,包括句型识别模块、规则抽取模块和翻译解码模块,其中:
所述句型识别模块,用于对训练语料库中的句子进行分类,得到所述训练语料库中的句子的类别C;并根据待翻译句子的类别特征,计算所述待翻译句子的类别概率P(C︱S);
所述规则抽取模块,用于根据所述句子的类别C,计算规则R的类别概率P(C︱R),并将所述P(C︱R)添加至规则表中;
所述翻译解码模块,用于根据规则相似度模型和规则敏感度模型,以及所述待翻译句子的类别概率P(C︱S)和所述规则R的类别概率P(C︱R),计算所述规则R的相似度特征和敏感度特征,对所述规则表中的规则进行优化排序;
其中,S表征所述待翻译句子;所述P(C︱S)为所述待翻译句子在不同所述句子的类别C下的概率;所述P(C︱R)为所述规则R在不同所述句子的类别C下的概率。
8.根据权利要求7所述的机器翻译处理装置,其特征在于,所述翻译解码模块包括启发式规则选取剪枝单元,其中:
所述启发式规则选取剪枝单元,用于当所述待翻译句子为问句时,根据疑问词的位置、所述疑问词的有无、所述疑问词的搭配、助动词的位置、所述助动词的有无、所述助动词与所述疑问词的搭配的启发式规则剪枝方法,检测翻译候选,当所述翻译候选中存在不合理现象时,删除所述翻译候选;
其中,所述翻译候选包括多个所述规则R。
9.根据权利要求8所述的机器翻译处理装置,其特征在于,还包括最小错误率训练模块,所述最小错误率训练模块包括特征分数计算单元和权重值确定单元,其中:
所述特征分数计算单元,用于根据所述相似度特征和所述敏感度特征,计算n-best的特征分数;
所述权重值确定单元,用于根据所述n-best的特征分数,确定最佳的权重值;
其中,所述n-best的特征分数包括所述规则R的类别概率P(C︱R)与相应的所述最佳的权重值的乘积的累加之和、以及所述待翻译句子的类别概率P(C︱S)与相应的所述最佳的权重值的乘积的累加之和。
10.根据权利要求7至9任一项所述的机器翻译处理装置,其特征在于,所述句型识别模块包括第一提取单元和最大熵分类器;其中:
所述第一提取单元,用于提取所述待翻译句子中词的语义类别、疑问词的搭配成分、疑问词、助动词、句末标点符号、所述待翻译句子的尾词、词频分布、一元词组、以及二元词组九种类别特征;
所述最大熵分类器,用于采用最大熵模型将所述训练语料库中的句子按照句型分为:是非问句、特指疑问句、选择问句、正反问句、以及其他句型,并对应标注为C1、C2、C3、C4、C5;并根据所述九种类别特征,计算所述待翻译句子的类别概率P(C︱S);
其中,所述其他句型为:非疑问句。
11.根据权利要求10所述的机器翻译处理装置,其特征在于,所述规则抽取模块包括第一计算单元和第一控制单元,其中:
所述第一计算单元,用于根据公式:
p ( C i | R ) = count ( C i , R ) &Sigma; i K count ( C i , R )
计算所述P(C︱R);
所述第一控制单元,用于将所述P(C︱R)添加至规则表中:
所述规则表中的规则R:源端|||目标端|||对齐信息|||翻译概率|||P(C|R);
其中,count(Ci,R)为所述规则R从所述句子的类别C中抽取的次数,为所述规则R的总数量,K的取值为5,i的取值范围为[1,K]。
12.根据权利要求11所述的机器翻译处理装置,其特征在于,所述翻译解码模块还包括第二计算单元和第三计算单元,其中:
所述第二计算单元,用于根据公式:
Similarity ( S , R ) = &Sigma; k = 1 K ( P ( C k | S ) &CenterDot; P ( C k | R ) ) &Sigma; k = 1 K ( P ( C k | S ) ) 2 &Sigma; k = 1 K ( P ( C k | R ) ) 2
计算所述规则R的相似度特征;
所述第三计算单元,用于根据公式:
Sensitivity ( R ) = - &Sigma; k = 1 K P ( C k | R ) &times; log ( P ( C k | R ) )
计算所述规则R的敏感度特征。
CN201310752868.2A 2013-12-31 2013-12-31 机器翻译处理方法及装置 Expired - Fee Related CN104750676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310752868.2A CN104750676B (zh) 2013-12-31 2013-12-31 机器翻译处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310752868.2A CN104750676B (zh) 2013-12-31 2013-12-31 机器翻译处理方法及装置

Publications (2)

Publication Number Publication Date
CN104750676A true CN104750676A (zh) 2015-07-01
CN104750676B CN104750676B (zh) 2017-10-24

Family

ID=53590388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310752868.2A Expired - Fee Related CN104750676B (zh) 2013-12-31 2013-12-31 机器翻译处理方法及装置

Country Status (1)

Country Link
CN (1) CN104750676B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528530A (zh) * 2016-10-24 2017-03-22 北京光年无限科技有限公司 一种确定句子类型的方法及装置
CN106598959A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
CN106710588A (zh) * 2016-12-20 2017-05-24 科大讯飞股份有限公司 语音数据句类识别方法和装置及系统
CN108563644A (zh) * 2018-03-29 2018-09-21 河南工学院 一种英语翻译电子系统
CN111382583A (zh) * 2020-03-03 2020-07-07 新疆大学 一种混合多种策略的汉语-维吾尔人名翻译系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030233225A1 (en) * 1999-08-24 2003-12-18 Virtual Research Associates, Inc. Natural language sentence parser
CN1656477A (zh) * 2002-06-17 2005-08-17 国际商业机器公司 用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
CN101989287A (zh) * 2009-07-31 2011-03-23 富士通株式会社 生成用于基于统计的机器翻译的规则的方法和设备
JP2012138085A (ja) * 2010-12-17 2012-07-19 Google Inc 双対分解を用いた組み合わせモデル型アライナ
CN102789451A (zh) * 2011-05-16 2012-11-21 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030233225A1 (en) * 1999-08-24 2003-12-18 Virtual Research Associates, Inc. Natural language sentence parser
CN1656477A (zh) * 2002-06-17 2005-08-17 国际商业机器公司 用于识别一种或者多种自然语言中的单词及其词性的系统、方法、程序产品和网络
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
CN101290616A (zh) * 2008-06-11 2008-10-22 中国科学院计算技术研究所 一种统计机器翻译方法和系统
CN101989287A (zh) * 2009-07-31 2011-03-23 富士通株式会社 生成用于基于统计的机器翻译的规则的方法和设备
JP2012138085A (ja) * 2010-12-17 2012-07-19 Google Inc 双対分解を用いた組み合わせモデル型アライナ
CN102789451A (zh) * 2011-05-16 2012-11-21 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528530A (zh) * 2016-10-24 2017-03-22 北京光年无限科技有限公司 一种确定句子类型的方法及装置
CN106710588A (zh) * 2016-12-20 2017-05-24 科大讯飞股份有限公司 语音数据句类识别方法和装置及系统
CN106710588B (zh) * 2016-12-20 2020-06-02 科大讯飞股份有限公司 语音数据句类识别方法和装置及系统
CN106598959A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
CN106598959B (zh) * 2016-12-23 2021-03-19 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
CN108563644A (zh) * 2018-03-29 2018-09-21 河南工学院 一种英语翻译电子系统
CN111382583A (zh) * 2020-03-03 2020-07-07 新疆大学 一种混合多种策略的汉语-维吾尔人名翻译系统

Also Published As

Publication number Publication date
CN104750676B (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN101599071B (zh) 对话文本主题的自动提取方法
Clark et al. Text normalization in social media: progress, problems and applications for a pre-processing system of casual English
CN103885938B (zh) 基于用户反馈的行业拼写错误检查方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN103399901A (zh) 一种关键词抽取方法
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN101261623A (zh) 基于搜索的无词边界标记语言的分词方法以及装置
CN104484322A (zh) 用于自动化文本校正的方法和系统
CN104615593A (zh) 微博热点话题自动检测方法及装置
CN107133212B (zh) 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN107391486A (zh) 一种基于统计信息和序列标注的领域新词识别方法
CN104317846A (zh) 一种语义分析与标注方法及系统
CN109635297A (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN106528524A (zh) 一种基于MMseg算法与逐点互信息算法的分词方法
CN104750676A (zh) 机器翻译处理方法及装置
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN102760121B (zh) 依存映射方法及系统
CN109213998A (zh) 中文错字检测方法及系统
CN110348003A (zh) 文本有效信息的抽取方法及装置
CN111079384B (zh) 一种用于智能质检服务禁语的识别方法及系统
CN113934814B (zh) 古诗文主观题自动评分方法
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
CN106294315A (zh) 基于句法特性与统计融合的自然语言谓语动词识别方法
CN111046168B (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
CN106021225A (zh) 一种基于汉语简单名词短语的汉语最长名词短语识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171024

Termination date: 20191231