CN103314369A

CN103314369A - 机器翻译装置和方法

Info

Publication number: CN103314369A
Application number: CN2010800702536A
Authority: CN
Inventors: 徐金安; 孟凡东; 陈恰; 潘栩; 达珍; 孟庆辰
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2010-12-17
Filing date: 2010-12-17
Publication date: 2013-09-18
Anticipated expiration: 2030-12-17
Also published as: WO2012079257A1; CN103314369B

Abstract

本发明公开了一种机器翻译装置和方法，涉及自然语言处理领域。装置包括：源语言输入单元，输入源语言语句；源语言分析单元，进行词法分析和句法分析得到句法结构，并为句法结构中的节点赋予属性特征；任意格判定模型存储单元，存储任意格判定模型；任意格判定单元，判断是否含有任意格；任意格短语提取单元，获取任意格短语；任意格短语翻译单元，翻译任意格短语；第一提取单元，获取源语言剩余语句；机器翻译单元，翻译源语言剩余语句；翻译结果整合单元，整合得到目标语言；目标语言输出单元，输出目标语言。本发明可以降低源语言的句法结构的复杂程度，提高目标语言生成效率，达到提高翻译精度，使机器翻译解码的运算量得到适当降低。

Description

机器翻译装置和方法技术领域

本发明涉及机器翻译领域，特别涉及一种机器翻译装置和方法。背景技术

说

机器翻译作为自然语言处理的一项应用技术，涉及人工智能、数学、语言学、计算语言学、语音识别和语音合成等多种学科和技术，具有综合性、交叉性强的特点。

目前，机器翻译系统可以分为基于规则和基于语料库两大类。直接翻译方法、转换方法、中间语言方法归类于基于规则的翻译方法；基于语料库的方法又可以分为基于记忆的书

翻译方法、基于实例的翻译方法、基于神经网络的翻译方法和基于统计的翻译方法等等。

现有的机器翻译方法包括以下步骤：机器翻译对源语言语句进行剖析，即将源语言语句按词、短语进行划分，建立剖析树，按照词及短语的组成形式的不同将会出现不同的剖析树，即形成源语言语句剖析林，机器翻译系统对剖析林所包含的剖析树逐一进行分析，并从分析结果中选择可信度高的翻译作为最终的翻译结果。

但是，剖析树的建立过程及存在情况比较复杂，使得机器翻译解码的运算量较大，翻译时间较长，而出现的翻译结果也较多，翻译精度很难得到保证。发明内容

针对上述技术问题，为了提高机器翻译的效率和精度，本发明提供了一种机器翻译装置和方法，具体技术方案如下：

一种机器翻译装置，所述装置包括：

源语言输入单元，用于输入源语言语句；

源语言分析单元，用于对所述源语言语句进行词法分析和句法分析得到所述源语言语句的句法结构，并为所述句法结构中的节点赋予属性特征；

任意格判定模型存储单元，用于存储任意格判定模型，所述任意格判定模型为所述源语言语句中是否含有任意格提供模型依据；

任意格判定单元，用于根据所述属性特征与所述任意格判定模型进行匹配，如果匹配，则判定所述源语言语句中含有任意格，如果不匹配，则判定所述源语言语句中不含有任意格；

任意格短语提取单元，用于根据匹配得到的所述任意格获取所述句法结构中的任意格短语；

任意格短语翻译单元，用于对所述任意格短语进行机器翻译；

第一提取单元，用于获取去除所述任意格短语后的源语言剩余语句；

机器翻译单元，用于对所述源语言剩余语句进行机器翻译；

翻译结果整合单元，用于对所述任意格短语翻译单元及机器翻单元的翻译结果进行排列组合，将出现概率大的组合作为目标语言；

目标语言输出单元，用于输出所述目标语言。

一种机器翻译方法，所述方法包括：

输入源语言语句；

对所述源语言语句进行词法分析和句法分析得到所述源语言语句的句法结构，并为所述句法结构中的节点赋予属性特征；

根据所述属性特征与存储的任意格判定模型进行匹配，如果匹配，则判定所述源语言语句中含有任意格，如果不匹配，则判定所述源语言语句中不含有任意格，其中，所述任意格判定模型为所述源语言语句中是否含有任意格提供模型依据；

根据匹配得到的所述任意格获取所述句法结构中的任意格短语，并对所述任意格短语进行机器翻译；

获取去除所述任意格短语后的源语言剩余语句，并对所述源语言剩余语句进行机器翻译；

对所述任意格短语及源语言剩余语句的翻译结果进行排列组合，将出现概率大的组合作为目标语言；

输出所述目标语言。

本发明实施例提供的技术方案带来的有益效果是：

通过对源语言语句中的特殊语法进行分析，找出源语言语句中的任意格，并根据该任意格将源语言语句拆分为两个部分，即将一个较复杂的语句拆分为了两个简单的语句，并对该两个简单句子分别进行翻译，整合翻译结果，选择组合概率大的整合结果作为翻译结果，从而降低源语言的句法结构的复杂程度，提高目标语言的句子结构和文法的生成效率，达到提高翻译精度的效果，降低了机器翻译解码的运算量。附图说明

图 1是本发明实施例 1提供的一种机器翻译装置的框图；

图 2是本发明实施例 1提供的词法分析结果范例的示意图；

图 3是本发明实施例 1提供的彼此关联的单词和单词的语法范畴范例的示意图；图 4是本发明实施例 1提供的语法规则的范例数据结构的示意图；

图 5是本发明实施例 1提供的任意格判定模型库的范例示意图；

图 6是本发明实施例 1提供的句法结构分析结果范例示意图；

图 7 是本发明实施例 2提供的一种机器翻译方法的流程图；

图 8 是本发明实施例 2提供的抽取任意格后得到的句法结构范例示意图；

图 9是本发明实施例 2提供的一种基于统计的机器翻译用平行语料库分割方法示意图；图 10是本发明实施例 2提供的一种基于统计的机器翻译装置的训练方法示意图；图 11是本发明实施例 2提供的一种基于统计的机器翻译装置的训练方法示意图。具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例 1

本实施例提供了一种机器翻译装置，该装置包括：源语言输入单元，用于输入源语言语句；源语言分析单元，用于对所述源语言语句进行词法分析和句法分析得到所述源语言语句的句法结构，并为所述句法结构中的节点赋予属性特征；任意格判定模型存储单元，用于存储任意格判定模型，所述任意格判定模型为所述源语言语句中是否含有任意格提供模型依据；任意格判定单元，用于根据所述属性特征与所述任意格判定模型进行匹配，如果匹配，则判定所述源语言语句中含有任意格，如果不匹配，则判定所述源语言语句中不含有任意格；任意格短语提取单元，用于根据匹配得到的所述任意格获取所述句法结构中的任意格短语；任意格短语翻译单元，用于对所述任意格短语进行机器翻译；第一提取单元，用于获取去除所述任意格短语后的源语言剩余语句；机器翻译单元，用于对所述源语言剩余语句进行机器翻译；翻译结果整合单元，用于对所述任意格短语翻译单元及机器翻单元的翻译结果进行排列组合，将出现概率大的组合作为目标语言；目标语言输出单元，用于输出所述目标语言。

本实施例通过对源语言语句的词法与句法分析，找出源语言语句中的任意格，并根据该任意格将源语言语句拆分为两个部分，即将一个较复杂的语句拆分为了两个简单的语句，并对该两个简单句子分别进行翻译，整合翻译结果，选择组合概率大的整合结果作为翻译结果，从而降低源语言的句法结构的复杂程度，提高目标语言的句子结构和文法的生成效率，达到提高翻译精度，并使得机器翻译解码的运算量得到适当的降低，为机器翻译研究提供一种有效的装置和方法。

参见图 1，图 1是本发明实施例 1提供的一种机器翻译装置 100，该装置包括：源语言输入单元 101、源语言分析单元 102、任意格判定模型存储单元 103、任意格判定单元 104、任意格短语提取单元 105、任意格短语翻译单元 106、第一提取单元 107、机器翻译单元 108、翻译结果整合单元 109以及目标语言输出单元 110; 下面详细介绍各单元的具体功能：源语言输入单元 101，用来输入源语言语句；

具体地，该单元可以是任意的通用输入模块及输入装置，包括：定点装置、键盘、手写字符识别装置、光学字符识别装置和语音识别装置以及文本文件或数据库形式的输入装置等。

需要说明的是，将输入的源语言语句存储于计算机内存或缓冲区中。

源语言分析单元 102，用于对源语言输入单元 101输入的源语言语句进行词法分析，得到源语言语句的词序列根据该词序列进行句法分析，得到源语言语句的句法结构，为句法结构中的节点赋予属性特征并输出给任意格判定单元 104;

具体地，在对源语言语句进行词法分析过程中可以采用任何通用的词法分析技术，如利用词语划分模型通过动态规划使划分概率最大化的方法等，即根据词语划分模型，采用动态规划方式对源语言语句进行词语划分，从中选择概率最大的划分方式作为最后输出的词序列。

在具体实现时，可以使用词法分析工具对输入的源语言语句进行词法分析，包括： Stanford Parse、中科院计算所 ICTCLAS分析系统、 ChaSen等。

具体地，在对源语言语句进行句法分析时，可以采用任何常规句法分析方法，如图标剖析和通用 LR剖析等方法。

在具体实现时，可以使用句法分析工具来进行句法分析，包括：日语的 Cab_0Ch_a、 KNP 等。

在图 2的范例中，源语言输入单元 101中输入的源语言语句为日文语句 "彼《図書館〜自転車 ^行〈 "，词序列 202给出了分析该语句的结果。符号 ". "标识了 202词与词之间的断点，当然，该断点的标识并不是唯一的，也可以是 "空格"等。

具体地，在对源语言语句进行词法及句法分析过程时将会参考词汇词典及预设语法规则来为句法结构中的节点赋予属性特征，句法结构包括对应词的语法范畴与其每一个都关联的节点；图 3中给出了图 2中所示的词序列 202中词的语法范畴范例。

如图 3所示，词汇词典包括彼此关联的单词和单词的语法范畴，例如日文单词 301 "彼" 与语法范畴 Pron. (代词）相关联，除了 Pron. (代词），词汇的语法范畴还包括 V (动词）、 P (助词）、 N (名词外）等。

如：对输入的源语言语句为日语的 "彼 ΰ図書館〜自転車 ^行 < "进行词法分析后得到，彼 /代名词》7助词図書館 /名词 /助词自転車 /名词 ? /助词行〈/动词的分析结果。

在图 4 的范例中，给出了预定语法规则，在该语法规则列表中，指定了箭头左方的语法范畴有箭头右方的语法范畴 1和 2构成。例如，语句（语法范畴 S)有名词短语及动词短语（语法范畴 NP VP)组成等，源语言分析单元 102在对源语言语句进行词句法分析的过程中将会参考语法规则。

例如，对输入的源语言语句为日语的 "彼 a図書館八自転車 ^'行〈 "进行句法分析后得到的源语言据法结构参见图 5。

再例如，当输入的源语言语句是汉语 "我是中国人"时，源语言分析单元 102对上述汉语句进行句法结构分析后，可以分析出 "我"是句子的主语， "是"是谓语， "中国人" 是宾语的分析结果。

源语言分析单元 102在对源语言语句进行词法分析的过程中还可以参考义类词典为词序列中的词赋予词性、语义、概念等属性特征。

具体地，可以参考日语 WordNet,日本词语大系、 EDR 电子词典等均可以实现上述属性的赋予功能。

如上述输入语句中的成分 "彼 /代名词"可以赋予 "人" 的属性特征， "図書館"可以赋予 "場所（场所）"或 "建物（建筑物）"的属性特征， "自転車"可以赋予 "交通機関（交通工具）" 的属性特征等等。

这里，需要说明的是，义类词典、词汇词典及语法规则都是预先已存储在该源语言语法分析单元中了。

任意格判定模型存储单元 103，用于存储任意格判定模型，由编号、词语的表层（词本身）、词性、词的语义分类以及格助词组成；该任意格判定模型是一种知识库，其主要功能是为判定输入的源语言语句中与否存在任意格提供依据；

具体地，该任意格判定模型可以由人工编写制定一定的规则，也可以根据机器学习原理使用统计方法从学习数据中抽取获得；其中，机器学习方法多种多样，可以根据需要进行适当的选择，如使用支持向量机（SVM)、决策树等算法；因而本发明不限定任意格判定模型的具体实现方法；

任意格判定单元 104，用于从源语言语句分析单元 102中提取据法结构中节点属性特征，根据提取的属性特征与任意格判定模型存储单元 103存储的意格判定模型进行匹配，如果匹配，则判定源语言语句中存在任意格，如果不匹配，则判定源语言语句中不存在任意格；具体地，参见图 5，图 5是本发明的实施例提供的任意格判定模型库的范例示意图；该任意格判定模型库中的任意格判定模型由编号、词语的表层（词本身）、词性、词的语义分类以及格助词组成。任意格判定单元 104从源语言语句分析单元 102中提取据法结构中节点属性特征，根据提取的属性特征与图 5所示的任意格判定模型库中的任意格判定模型进行匹配时，可以使用该任意格判定模型库中的模型 [表层 +格助词]、或 [语义分类 +格助词]、或 [表层 +词性 +格助词]、或 [表层 +词性 +语义分类 +格助词]等多种形式和从源语言语句分析单元 102 中提取据法结构中节点属性特征进行模式匹配，以判定源语言语句中是否含有任意格。

例如源语言语句 "彼《図書館自転車 ^行< "，可以先提取该源语言语句中的 [自転車]和 [^ ]等特征量，然后和图 5所示的任意格判定模型库中的任意格判定模型进行匹配，匹配方式有多种形式，当 [自転車]的属性中仅含有名词 ω时，以 [自転車] ω和 [ ]为特征向量与图 5所示的任意格判定模型库中的任意格判定模型进行模式匹配；当 [自転車]的属性中含有名词 [η]、语义属性 [交通機関]时，则可以简单地以 [交通機関]和[ ^ ]组成的特征属性与图 5所示的任意格判定模型库中的任意格判定模型进行模式匹配；显而易见，两种方法均与图 5中的编号为 2的模型相匹配；从而判定出 [自転車中的 [^ ]为任意格。

具体地，任意格判定单元 104包括提取模块 1041、读取模块 1042及匹配模块 1043 ; 其中，提取模块 1041，用于源语言语句分析单元 102中提取属性特征，属性特征包括词性、词义、概念等；

具体地，抽取句子中的名词、格助词、动词等谓语词的属性特征作为源语言语句任意格判定用的属性特征；

例如，输入的源语言语句"彼《図書館自転車行〈 "中， [彼 ii]、 [図書館 ]、

[自転車 ]以及谓语词 [行〈]等部分语段，以及各个词语的表层信息、词性、词的语义分类等信息来作为任意格判定用的属性特征。

匹配判定模块 1042，提取句法结构节点的属性特征与任意格判定模型存储单元 103存储的任意格判定模型进行匹配，如果匹配，则判定源语言语句中存在任意格，如果不匹配，则判定源语言语句中不存在任意格；

例如，从输入的源语言语句 "彼図書館八自転車 ^行< "提取的任意格判定用的属性特征和图 11所示的模型进行匹配，可以判定出 [自転車中的 [^ ]为任意格。

任意格短语提取单元 105，用于当任意格判定单元 103判定源语言语句中存在任意格时，从句法结构中抽取与任意格相关联的节点字串作为任意格短语，并将抽取的任意格短语输出给任意格短语翻译单元 106;

例如，图 6描述了输入语句 "彼 ί±図書館自転車 ^行< " 的句法分析结果，当 "自転車 " 中的 "被判定为任意格时，只需要把 ΝΡ短语 "自転車 /N 提取出来即可。

任意格短语翻译单元 106，用于抽取去除任意格短语后的源语言短语，并对该抽取的去除任意格短语后的源语言短语的句子成分进行整合，并将翻译结果输出给翻译结果整合单元 109;

需要说明的是，由于被抽取的任意格短语一般是短小的语言片段，所以针对该部分的翻译手法的灵活度较大，形式可以多种多样，如使用专用的任意格短语的翻译字典，或使用基于规则的翻译方法对任意格短语进行翻译，当然也可以采用基于实例、或基于统计的机器翻译方法来实现；

第一提取单元 107，用于从句法结构中抽取与任意格相关联的节点字串作为输出给机器翻译单元 108;

具体地，输入语句 "彼図書館自転車 f行〈 " 中的任意格短语 "自転車 /N -C- /P" 被提取之后，得到剩余部分 "彼 t±図書館行〈 "，其句子结构如图 7所示，

机器翻译单元 108，用于对第一提取单元 107下传的语句进行机器翻译，并将翻译结果输出给翻译结果整合单元 109;

机器翻译单元 108，还用于当任意格判定单元 104判定源语言分析单元 102的分析结果中不含有任意格短语时，直接对输入的源语言语句进行机器翻译处理，并将翻译结果输出给翻译结果整合单元 109;

具体地，机器翻译单元 108可以在基于规则的机器翻译系统，也可以是基于实例的机器翻译系统，或基于统计的机器翻译系统中翻译传入的语句。

翻译结果整合单元 109，用来接收任意格短语翻译单元 106的翻译结果和机器翻译单元 108的翻译结果，并将这两个结果进行整合，产生完整的目标语言句子，并将产生的目标语言句子输出给目标语言输出单元 110;

具体地，翻译结果整合单元 109包括：翻译结果整合模块 1091及整合对比模块 1092; 其中，翻译结果整合模块 1091，用于将任意格短语翻译单元 106的翻译结果和机器翻译单元 108的翻译结果进行排列组合；具体地，翻译结果整合模块 1091可以使用目标语言的语言模型对上述两个部分进行排序；

整合对比模块 1092，用于对比翻译结果整合模块 1091的整合结果出现概率的大小，将出现概率大的翻译整合结果输出给目标语言输出单元 110；

目标语言输出单元 110，用于接收并输出翻译结果整合单元 110产生的目标语言句子；具体地，目标语言句子的输出方式有很多，可以是文件输出，也可以是显示器输出等。例如，输出到显示设备上以图像的形势显示出来，或由打印机打印出结果以及由语音合成器进行合成。可以随时根据需要切换使用这些系统或者同时采用这些系统。

本实施例通过对源语言语句的词法与句法分析，找出源语言语句中的任意格，并根据该任意格将源语言语句拆分为两个部分，即将一个较复杂的语句拆分为了两个简单的语句，并对该两个简单句子分别进行翻译，整合翻译结果，选择组合概率大的整合结果作为翻译结果，从而降低源语言的句法结构的复杂程度，提高目标语言的句子结构和文法的生成效率，达到提高翻译精度，并使得机器翻译解码的运算量得到适当的降低，为机器翻译研究提供一种有效的装置和方法。实施例 2

本实施例提供了一种机器翻译方法，该方法包括：输入源语言语句；对所述源语言语句进行词法分析和句法分析得到所述源语言语句的句法结构，并为所述句法结构中的节点赋予属性特征；根据所述属性特征与存储的任意格判定模型进行匹配，如果匹配，则判定所述源语言语句中含有任意格，如果不匹配，则判定所述源语言语句中不含有任意格，其中，所述任意格判定模型为所述源语言语句中是否含有任意格提供模型依据；根据匹配得到的所述任意格获取所述句法结构中的任意格短语，并对所述任意格短语进行机器翻译；获取去除所述任意格短语后的源语言剩余语句，并对所述源语言剩余语句进行机器翻译；对所述任意格短语及源语言剩余语句的翻译结果进行排列组合，将出现概率大的组合作为目标语言；输出所述目标语言。

本实施例通过对源语言语句的词法与句法分析，找出源语言语句中的任意格，并根据该任意格将源语言语句拆分为两个部分，即将一个较复杂的语句拆分为了两个简单的语句，并对该两个简单句子分别进行翻译，整合翻译结果，选择组合概率大的整合结果作为翻译结果，从而降低源语言的句法结构的复杂程度，提高目标语言的句子结构和文法的生成效率，达到提高翻译精度，并使得机器翻译解码的运算量得到适当的降低，为机器翻译研究提供一种有效的装置和方法。参见图 7，图 7是本发明实施例 2提供的一种机器翻译方法的流程图。具体实现流程如下- 步骤 S01，输入源语言语句，并将其存入计算机的内存等记忆单元或者缓冲区中；需要说明的，可以使用各种输入设备来输入源语言语句，包括：定点装置、键盘、手写字符识别装置、光学字符识别装置和语音识别设备以及文本文件或数据库形式的输入装置等。

这里，以输入的源语言语句是日语 "彼《図書館八自転車 T行〈 "，而目标语言是中文为例进行说明，当然本发明涉及的翻译方法并不限于日文到中文的翻译。

步骤 S02，对源语言语句进行词法分析，得到源语言语句的词序列，根据该词序列进行句法分析，得到源语言语句的句法结构，为句法结构中的节点赋予属性特征，将属性特征及句法结构作为分析结果输出；

需要说明的是，在具体实现时，可以使用词法分析工具对输入的源语言语句进行词法分析，包括： Stanford Parse、中科院计算所 ICTCLAS分析系统、 ChaSen等。

需要说明的是，在具体实现时，可以使用句法分析工具来进行句法分析，包括：日语的 Cabocha、 KNP等。

如：对输入的源语言语句为日语的 "彼《図書館自転車 ^?行< "进行词法分析后得到，彼 /代名词助词図書館 /名词 /助词自転車 /名词 ? /助词行< /动词的分析结果。

在图 4 的范例中，给出了预定语法规则，在该语法规则列表中，指定了箭头左方的语法范畴有箭头右方的语法范畴 1和 2构成。例如，语句（语法范畴 S )有名词短语及动词短语（语法范畴 NP VP )组成等，源语言分析单元 102在对源语言语句进行词句法分析的过程中将会参考语法规则。

例如，对输入的源语言语句为日语的 "彼 ϋ図書館八自転車行< "进行句法分析后得到的源语言据法结构参见图 5。

步骤 S03，从分析结果中提取属性特征，如词、词性、语义分类、概念等属性；具体地，抽取句子中的名词、格助词、动词等谓语词的属性特征作为源语言语句任意格判定用的属性特征；

例如，输入的源语言语句"彼図書館自転車行〈 "中， [彼 H：]、 [図書館八]、 [自転車以及谓语词 [行〈]等部分语段，以及各个词语的表层信息、词性、词的语义分类等信息来作为任意格判定用的属性特征。

歩骤 S04，提取句法结构节点的属性特征与存储的任意格判定模型进行匹配，如果匹配，则判定源语言语句中存在任意格，执行 S05如果不匹配，则判定源语言语句中不存在任意格，执行 S08;

其中，任意格判定模型由编号、词语的表层（词本身）、词性、词的语义分类以及格助词组成，是一种知识库，其主要功能是为判定输入的源语言语句中与否存在任意格提供依据；

具体地，参见图 5，提取句法结构节点的属性特征与存储的任意格判定模型进行匹配包括：根据提取的属性特征与图 5所示的任意格判定模型库中的任意格判定模型进行匹配时，可以使用该任意格判定模型库中的模型 [表层 +格助词]、或 [语义分类 +格助词]、或 [表层 + 词性 +格助词]、或 [表层 +词性 +语义分类 +格助词]等多种形式和从源语言语句分析单元 102 中提取据法结构中节点属性特征进行模式匹配，以判定源语言语句中是否含有任意格。

例如源语言语句 "彼《図書館自転車 ^行<，，，可以先提取该源语言语句中的 [自転車]和 [^ ]等特征量，然后和图 5所示的任意格判定模型库中的任意格判定模型进行匹配，匹配方式有多种形式，当 [自転車]的属性中仅含有名词 [n]时，以 [自転車] [n]和 [ ]为特征向量与图 5所示的任意格判定模型库中的任意格判定模型进行模式匹配；当 [自転車]的属性中含有名词 [η]、语义属性 [交通機関]时，则可以简单地以 [交通機関]和[ 组成的属性特征与图 5所示的任意格判定模型库中的任意格判定模型进行模式匹配；显而易见，两种方法均与图 5中的编号为 2的模型相匹配；从而判定出 [自転車中的 [^ ]为任意格。

步骤 S05，从句法结构中抽取与任意格相关联的节点字串作为，对提取的任意格短语部分执行步骤 S06的操作，对去除任意格短语的剩余部分执行 S07的操作；

具体地，图 6描述了输入语句 "彼 ti図書館自転車行〈 "的句法分析结果，当 "自転車 " 中的 "被判定为任意格时，只需要把 ΝΡ短语 "自転車 /Ν /Ρ"提取出来即可。

具体地，输入语句 "彼 t±図書館自転車 ^行〈 " 中的任意格短语 "自転車 /N -C- /P" 被提取之后，得到剩余部分 "彼図書館行〈 "，其句子结构如图 8所示，

步骤 S06，对提取的任意格短语进行机器翻译，执行步骤 S08;

需要说明的是，由于被抽取的任意格短语一般是短小的语言片段，所以针对该部分的翻译手法的灵活度较大，形式可以多种多样，从大规模语料库中提取相应的短语对构筑成专用的翻译用词典实现，或使用基于规则的翻译方法对任意格短语进行翻译，当然也可以采用基于实例、或基于统计的机器翻译方法来实现；

例如，对提取的任意格短语 "自転車进行翻译，可以得到 "骑自行车"的翻译结果。

歩骤 S07，进行机器翻译；

这里，还需要说明的是，在对去除任意格短语后的源语言语句的剩余部分进行翻译具体包括：对该抽取的去除任意格短语后的源语言的剩余句子成分进行排列组合，将组合结果出现概率最大的组合进行机器翻译。

具体地，本步骤中的机器翻译方法不做特定的限定，可以是基于规则的机器翻译系统，也可以是基于实例的机器翻译系统，或基于统计的机器翻译系统等。

例如，对提取任意格短语后的剩余源语言语句 "彼《図書館行〈 "进行机器翻译处理，翻译结果为 "他去图书馆"。

例如，对于基于范例的翻译系统，对字符串的翻译是以范例为翻译依据的，并将字符串与范例之间的相似度作为翻译分数；对于基于统计的翻译系统而言，字符串的翻译是以语言模型为翻译依据的，并将基于翻译模型的翻译概率作为翻译分数；对于基于规则的翻译系统，字符串的翻译是以句法及采用的规则为翻译依据的，并将句法的可信度和采用规则的优选度来获得翻译分数。

步骤 S08，将步骤 S06与 S07的翻译结果进行整合；

具体地，将两个翻译结果进行排列组合，并从中选择组合结果出现概率大的一个作为整合结果并输出。

步骤机器翻译整合 S08的功能是对步骤 S06和步骤 S07的翻译结果进行整合，如上述的从日语到汉语的翻译结果为 "他去图书馆"和 "骑自行车"两个部分时，可以使用目标语言的语言模型对上述两个部分进行排序。可以断定，当构建中语言模型的中文语料库的质量和规模得到保障时，可以计算出 "他骑自行车去图书馆"的概率是最大的。然后把步骤 S08的处理结果输出到步骤目标语言输出 S09。

歩骤 S09，输出歩骤 S08得到的整合结果输出，得到最终的目标语言；

具体地，输出形式多种多样，可以通过显示器、文本文件或语音输出等；例如，输出到显示设备上以图像的形势显示出来，由打印机打印出结果以及由语音合成器进行合成。可以随时根据需要切换使用这些系统或者同时采用这些系统。

另外，由于本发明方法中的步骤 S06、步骤 S07的翻译形式可以多种多样，当采用基于统计的机器翻译方法时，可以对训练语料进行适当的处理，图 9 是本发明实施例基于统计的机器翻译用平行语料库分割方法的示意图，如图 9所示，平行语料库的分割主要由平行语料库分割单元 210完成，平行语料库分割单元 210可以使用任意格判定模型，对语料库中的句子进行判定，这样很容易得到不含任意格和含任意格的句子等两个部分，完成对原始平行语料库的分割。这样处理的目的在于构筑统计机器翻译的翻译模型和言语模型时，上述两个部分的语料库可以根据需要加以灵活地利用。

当然，也可以不必对用于训练的语料库进行分割处理，直接进行翻译训练。图 10是本发明实施例提供的一种基于统计的机器翻译装置的训练方法的示意图，本训练方法中言语模型 ·翻译模型构建单元 310的功能在于构建翻译模型和语言模型，传统的工具如 GIZA++ 等， SRLM等均可以加以利用。

图 11是本发明实施例基于统计的机器翻译装置的训练方法的示意图，与图 10所示的训练方法的不同点在于训练语料库采用了去除任意格短语的源目标语言平行语料库。通过对源语言语句的词法与句法分析，找出源语言语句中的任意格，并根据该任意格将源语言语句拆分为两个部分，即将一个较复杂的语句拆分为了两个简单的语句，并对该两个简单句子分别进行翻译，整合翻译结果，选择组合概率大的整合结果作为翻译结果，从而降低源语言的句法结构的复杂程度，提高目标语言的句子结构和文法的生成效率，达到提高翻译精度，并使得机器翻译解码的运算量得到适当的降低，为机器翻译研究提供一种有效的装置和方法。

以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现，其软件程序存储在可读取的存储介质中，存储介质例如：计算机中的硬盘、光盘或软盘。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1、一种机器翻译装置，其特征在于，所述装置包括：

源语言输入单元，用于输入源语言语句；

源语言分析单元，用于对所述源语言语句进行词法分析和句法分析得到所述源语言语句的句法结构，并为所述句法权结构中的节点赋予属性特征；

任意格判定单元，用于根据所述属性特征与所述任意格判定模型进行匹配，如果匹配，则判定所述源语言语句中含有任意格，如果不匹配，则判定所述源语言语句中不含有任意格; 任意格短语提取单元，用于根据匹配得到的所述任意格获取所述句法结构中的任意格短语；

第一提取单元，用于获取去除所述任意格短语后的源语言书剩余语句；

机器翻译单元，用于对所述源语言剩余语句进行机器翻译；

目标语言输出单元，用于输出所述目标语言。

2、根据权利要求 1所述的装置，其特征在于，所述源语言分析单元，具体用于：根据词法词典对所述源语言语句进行词法分析，得到所述源语言语句的词序列；根据预设语法规则对所述源语言语句的词序列进行句法分析，得到所述源语言语句的句法结构，所述句法结构包括所述词序列中对应词的语法范畴与其每一个都关联的节点；

根据义类词典为所述句法结构中的节点赋予属性特征，所述属性特征包括词本身、词性、词义或概念属性。

3、根据权利要求 1所述的装置，其特征在于，

所述任意格短语提取单元，具体用于获取所述句法结构中与所述任意格相关联的节点字串作为任意格短语。

4、根据权利要求 1所述的装置，其特征在于，所述任意格短语翻译单元，具体用于根据任意格翻译字典对所述任意格短语进行翻译。

5、根据权利要求 1所述的装置，其特征在于，所述第一提取单元，还用于对所述源语言剩余语句的句法结构中节点短语进行排列组合，将其中出现概率大的组合输出给所述机器翻译单元。

6、一种机器翻译方法，其特征在于，所述方法包括：

输入源语言语句；

获取去除所述任意格短语后的源语言剩余语句，并对所述源语言剩余语句进行机器翻译；对所述任意格短语及源语言剩余语句的翻译结果进行排列组合，将出现概率大的组合作为目标语言；

输出所述目标语言。

7、根据权利要求 6所述的方法，其特征在于，所述对所述源语言语句进行词法分析和句法分析得到所述源语言语句的句法结构，并为所述句法结构中的节点赋予属性特征包括- 根据词法词典对所述源语言语句进行词法分析，得到所述源语言语句的词序列；根据预设语法规则对所述源语言语句的词序列进行句法分析，得到所述源语言语句的句法结构，所述句法结构包括词序列中对应词的语法范畴与其每一个都关联的节点；

根据义类词典为所述句法结构中的节点赋予属性特征，所述属性特征包括词性、词义或概念属性。

8、根据权利要求 6所述的方法，其特征在于，所述根据所述任意格获取所述句法结构中的任意格短语包括：获取所述句法结构中与所述任意格相关联的节点字串作为任意格短语。

9、根据权利要求 6所述的方法，其特征在于，所述方法还包括：根据任意格翻译字典对所述任意格短语进行翻译。

10、根据权利要求 6所述的方法，其特征在于，所述方法还包括：对所述源语言剩余语句的句法结构中节点短语进行排列组合，将其中出现概率大的组合进行机器翻译。