CN104268132A

CN104268132A - 机器翻译方法及系统

Info

Publication number: CN104268132A
Application number: CN201410461325.XA
Authority: CN
Inventors: 徐金安; 刘江鸣; 吴培昊
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2014-09-11
Filing date: 2014-09-11
Publication date: 2015-01-07
Anticipated expiration: 2034-09-11
Also published as: CN104268132B

Abstract

本发明公开了一种机器翻译方法及系统，属于自然语言处理研究领域。所述方法包括：获取源语言测试句子；分别得到词法分析结果和句法分析结果；利用句法分析结果，抽取谓词论元结构；根据目标语言的句法特点，将谓词论元结构进行结构转换；利用转换后的谓词论元结构和训练得到的翻译规则，对源语言测试句子进行翻译。通过利用句子结构信息和谓词论元结构的语义信息，使用源语言端的句法分析结果，通过谓词论元结构转换处理，实现基于谓词论元结构转换的统计机器翻译；解决了现有技术中翻译规则的冗余规则数量非常大，从而致使机器翻译性能非常差的问题；达到了可有效地改善句子结构的全局调序性能，减少抽取翻译规则数量，提高翻译质量的效果。

Description

机器翻译方法及系统

技术领域

本发明涉及自然语言处理研究领域，特别涉及一种机器翻译方法及系统。

背景技术

当前，机器翻译的主流方法大致可以分为基于规则和基于语料库两种方法，基于语料库的方法又可以细分为基于实例的方法和基于统计的方法。基于统计的机器翻译方法能够以双语平行语料库为学习数据，通过训练自动获取翻译规则，同时，结合语言模型对测试语句进行翻译。随着统计机器翻译模型的不断改良，先后出现了基于词的、基于短语和基于句法结构的统计模型，译文质量得到不断改善。

但是，传统的统计机器翻译模型，更多地利用句子的层次结构片段和属性进行建模，要提高统计机器翻译系统的性能，则要求在建模的过程中增加更多的句法结构和语义信息。

既有的统计机器翻译模型，在源语言和目标语言之间的句法结构存在较大的差异性时，调序显得极其重要却又相当困难。既有统计模型在建模时，充分考虑了解决局部调序的对策。但是，这些传统技术，对语法结构差异性较大的语言对时,对句子的全局调序效果较差。如日语句法的主宾谓(SOV，Subject–Object–Verb)结构和汉语的主谓宾(SVO，Subject–Verb–Object)结构之间差异性较大，传统技术难以有效解决。既有方法常常通过机器翻译的前处理或者后处理技术调整句法结构，以降低语言结构上的差异性，并没有从统计建模的角度，提出合理的解决方案。

因此，在机器翻译的统计建模过程中融合更多的句法结构和语义信息是一种良好的解决方案，可有效推动统计机器翻译理论的发展，实现真正意义上的统计和规则相融合的机器翻译方法，达到降低冗余规则数量，改善语义结构、语义相关性和长距离调序性能，提高翻译质量。

谓词论元结构(PAS，Predicate Argument Structure)是一种浅层语义结构，用来表示谓词和句子成分的论元之间的谓词逻辑关系，通过使用施事、受事及谓词表现句子成分的浅层语义关系。它从某种程度上就表示出句子的主体框架结构及其语义属性。另一方面，句法结构包含主谓宾等成分。谓词论元结构和句法结构，在句法结构的词位和语义结构的义位基本一致的前提下，可以把施事和受事作为主语或者宾语的特征属性，实现句法结构和语义结构的融合。如合理使用格语法和依存文法，可以实现句法结构和语义结构的融合。

谓词论元结构是构式语法理论的基础，构式语法理论是在对转换生成语法理论的批判、继承和发展的结果。构式语法(Construction Grammar)，也称为“构件语法”、“框架语法”、“构块式语法”、“架构语法”等。

构式语法继承了费尔默提出的框架语义学的理论。框架语义学注重研究如何有效解决话语整体的语义理解和描写问题，通过词汇意义与语法模式之间的联系,实现对概念结构和语义-句法映射关系的描写。框架语义学是格语法理论的系统化、具体化，是格语法发展的第三个阶段。

通常，框架语义学以谓词为中心，通过使用谓词的框架及其框架元素(即在谓词-论元结构中的论元)之间的语义关系实现框架语义描述。在其描述过程中，动词与具体的框架角色相联，通过构式实现各个论元的角色功能(例如施事、受事、目标)，各个论元则具有相应的语法功能项，如主语(Sub)，直接宾语(Obj)或者间接宾语(Obj2)等。

因此，利用谓词论元结构和句法结构信息作为全局调序的关键有效特征进行统计机器翻译建模，可有助于实现真正意义上的基于语义的统计机器翻译模型，推动统计机器翻译理论的发展，提高翻译质量。

现有技术中，一种基于谓词论元结构的层次机器翻译方法：将句子中所有的谓词论元结构有机的组织成图状结构，再将此结构作为改进层次短语机器翻译的顶层语义骨架结构，从而直接将谓词论元结构建模到层次短语机器翻译中。直接在谓词语义结构上对翻译过程进行建模，将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文，由此得到的译文具有更好的语义相关性、语义结构和长距离调序特征，并因此降低了机器翻译生成毫无意义译文的概率。

该专利文献公布的发明内容，在进行层次机器翻译方法的建模过程中，并行抽取层次短语翻译规则和谓词语义结构规则，由于没有有效地使用句法结构或谓词语义结构规则指导层次短语翻译规则的抽取，因此，无法有效降低被抽取的层次短语翻译规则的冗余规则数量。

现有技术中，一种利用句子的谓词论元结构进行统计机器翻译的方法：首先对双语语料中的双语句子对进行分词、自动词对齐、句法分析以及双语联合语义角色标注；根据所述双语联合语义角色标注的结果，抽取所述双语句子对的谓词论元结构转换规则，以对两种语言的谓词论元结构之间的对应关系进行建模；翻译时，利用谓词论元结构转换规则，匹配待翻译句子的多个语义角色标注结果，并相应进行翻译；根据所述翻译规则的匹配和翻译结果，构造解码超图，最终生成翻译结果。

该专利文献公布的发明内容，需要对双语语料中的双语句子对进行句法分析、双语联合语义角色标注、双语句子对的谓词论元结构转换规则等处理。其统计翻译建模，对双语的句法分析以及双语联合语义角色标注的性能具有很强的依赖性。简而言之，当源语言或者目标语言的句法分析精度受限时，将对系统建模或翻译产生较大的影响，而且，双语联合语义角色标注工作存在研发成本较大等问题。

发明内容

为了解决现有技术中被抽取的层次短语翻译规则的冗余规则数量非常大，从而致使机器翻译性能非常差的问题，本发明实施例提供了一种机器翻译方法及系统。所述技术方案如下：

第一方面，提供了一种机器翻译方法，所述方法包括翻译步骤，

所述翻译步骤包括：

获取输入的源语言测试句子；

对所述源语言测试句子进行词法分析，得到所述源语言测试句子的词法分析结果；

对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述源语言测试句子的句法分析结果；

利用所述源语言测试句子的句法分析结果，抽取所述源语言测试句子的谓词论元结构；

根据目标语言的句法特点，将所述谓词论元结构进行结构转换，得到符合所述目标语言的句法特点的谓词论元结构；

利用转换后的所述谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的目标语言模型，对所述源语言测试句子进行翻译，输出语言为所述目标语言的翻译结果。

可选的，所述方法还包括训练步骤，

所述训练步骤包括：

获取输入的双语平行语料的源语言训练句子和目标语言训练句子；

分别对所述源语言训练句子和所述目标语言训练句子进行词法分析，得到所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果；

利用所述源语言训练句子的词法分析结果，对所述源语言训练句子进行句法结构分析，得到所述源语言训练句子的句法分析结果；

利用所述源语言训练句子的句法分析结果，抽取所述源语言训练句子的谓词论元结构；

根据目标语言的句法特点，将所述源语言训练句子的谓词论元结构进行结构转换，得到符合所述目标语言的句法特点的谓词论元结构；

利用转换后的所述谓词论元结构，抽取翻译规则，将所述翻译规则放入所述翻译规则库中；

根据目标语言的语料库建立目标语言模型，将所述目标语言模型放入所述翻译规则库中。

可选的，所述对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述源语言测试句子的句法分析结果，包括：

采用依存结构分析或短语结构分析的方法，对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述句法分析结果；

或，

采用依存结构树和短语结构树相互转化的方法，对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述句法分析结果。

可选的，所述利用所述源语言测试句子的句法分析结果，抽取所述源语言测试句子的谓词论元结构，包括：

采用谓词格框架，从所述句法分析结果中抽取谓词论元结构，得到所述源语言训练句子的谓词论元结构；

或，

采用格语法或依存文法，从所述句法分析结果中抽取谓词论元结构，得到所述源语言训练句子的谓词论元结构；

或，

采用所述源语言训练句子的依存树或短语结构树，从所述句法分析结果中抽取谓词论元结构，得到所述源语言训练句子的谓词论元结构。

可选的，所述根据目标语言的句法特点，将所述谓词论元结构进行结构转换，包括：

根据所述源语言训练句子中谓词所对应的目标语言的谓词的句法结构特点，将所述源语言训练句子的谓词论元结构转化为目标语言的句法结构或目标语言的谓词论元结构。

可选的，在所述抽取所述源语言测试句子的谓词论元结构之后，还包括：

对所述源语言测试句子的谓词论元结构中的构成元素分别进行泛化扩展；

在所述将所述谓词论元结构进行结构转换之后，还包括：

将转换后的所述谓词论元结构中的构成元素分别进行泛化扩展。

可选的，所述利用转换后的所述谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的语言模型，对所述源语言测试句子进行翻译，输出语言为所述目标语言的翻译结果，包括：

对所述源语言训练句子中的谓词以及谓词论元进行翻译；

按照转换后的所述谓词论元结构所对应的句法结构顺序，生成目标语言所对应句子框架的翻译结果；

对所述源语言训练句子的谓词论元结构中的谓词论元以及谓词论元的子节点所构成的语块进行翻译，生成子树的翻译结果；

将所述句子框架的翻译结果和所述子树的翻译结果进行整合，得到目标语言所对应句子的翻译结果。

可选的，所述对所述源语言测试句子进行翻译，包括：

采用基于词、基于短语或基于句法结构的统计翻译模型以及建立的所述语言模型，对所述源语言测试句子进行翻译解码。

第二方面，提供了一种机器翻译系统，所述系统包括翻译子系统，

所述翻译子系统包括：

第一获取模块，用于获取输入的源语言测试句子；

第一词法分析模块，用于对所述第一获取模块获取到的所述源语言测试句子进行词法分析，得到所述源语言测试句子的词法分析结果；

第一句法分析模块，用于对所述第一词法分析模块分析得到的所述源语言测试句子的词法分析结果进行句法结构分析，得到所述源语言测试句子的句法分析结果；

第一抽取模块，用于利用所述第一句法分析模块分析得到的所述源语言测试句子的句法分析结果，抽取所述源语言测试句子的谓词论元结构；

第一转换模块，用于根据目标语言的句法特点，将所述第一抽取模块抽取的所述谓词论元结构进行结构转换，得到符合所述目标语言的句法特点的谓词论元结构；

翻译模块，用于利用所述第一转换模块转换后的所述谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的目标语言模型，对所述源语言测试句子进行翻译，输出语言为所述目标语言的翻译结果。

可选的，所述系统还包括训练子系统，

所述训练子系统包括：

第二获取模块，用于获取输入的双语平行语料的源语言训练句子和目标语言训练句子；

第二词法分析模块，用于分别对所述第二获取模块获取到的所述源语言训练句子和所述目标语言训练句子进行词法分析，得到所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果；

第二句法分析模块，用于利用所述第二词法分析模块分析得到的所述源语言训练句子的词法分析结果，对所述源语言训练句子进行句法结构分析，得到所述源语言训练句子的句法分析结果；

第二抽取模块，用于利用所述第二句法分析模块分析得到的所述源语言训练句子的句法分析结果，抽取所述源语言训练句子的谓词论元结构；

第二转换模块，用于根据目标语言的句法特点，将所述第二抽取模块抽取得到的所述源语言训练句子的谓词论元结构进行结构转换，得到符合所述目标语言的句法特点的谓词论元结构；

第三抽取模块，用于利用所述第二转换模块转换后的所述谓词论元结构，抽取翻译规则，将所述翻译规则放入所述翻译规则库中；

模型建立模块，用于根据目标语言的语料库建立所述目标语言模型，将所述目标语言模型放入所述翻译规则库中。

可选的，所述第一句法分析模块，包括：

第一句法分析单元，用于采用依存结构分析或短语结构分析的方法，对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述句法分析结果；

或，

第二句法分析单元，用于采用依存结构树和短语结构树相互转化的方法，对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述句法分析结果。

可选的，所述第一抽取模块，包括：

第一抽取单元，用于采用谓词格框架，从所述第一句法分析模块分析得到的所述句法分析结果中抽取谓词论元结构，得到所述源语言训练句子的谓词论元结构；

或，

第二抽取单元，用于采用格语法或依存文法，从所述第一句法分析模块分析得到的所述句法分析结果中抽取谓词论元结构，得到所述源语言训练句子的谓词论元结构；

或，

第三抽取单元，用于采用所述源语言训练句子的依存树或短语结构树，从所述第一句法分析模块分析得到的所述句法分析结果中抽取谓词论元结构，得到所述源语言训练句子的谓词论元结构。

可选的，所述第一转换模块，还用于：

可选的，所述翻译子系统还包括：

第一扩展模块，用于对所述第一抽取模块抽取得到的所述源语言测试句子的谓词论元结构中的构成元素分别进行泛化扩展；

第二扩展模块，用于将所述第一转换模块转换后的所述谓词论元结构中的构成元素分别进行泛化扩展。

可选的，所述翻译模块，包括：

第一翻译单元，用于对所述源语言训练句子中的谓词以及谓词论元进行翻译；

第一生成单元，用于按照转换后的所述谓词论元结构所对应的句法结构顺序，生成目标语言所对应句子框架的翻译结果；

第二生成单元，用于对所述源语言训练句子的谓词论元结构中的谓词论元以及谓词论元的子节点所构成的语块进行翻译，生成子树的翻译结果；

整合单元，用于将所述第一生成单元生成的所述句子框架的翻译结果和所述第二生成单元生成的所述子树的翻译结果进行整合，得到目标语言所对应句子的翻译结果。

可选的，所述翻译模块，还用于：

本发明实施例提供的技术方案带来的有益效果是：

通过有效利用句子结构信息和谓词论元结构的语义信息，仅使用源语言端的句法分析结果，通过谓词论元结构转换处理，实现基于谓词论元结构转换的翻译；解决了现有技术中被抽取的层次短语翻译规则的冗余规则数量非常大，从而致使机器翻译性能非常差的问题；达到了可有效地改善句子结构的全局调序性能，减少抽取翻译规则数量，提高翻译质量，对发展和实现基于语义的统计机器翻译理论起到一定的促进作用的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中提供的机器翻译方法的方法流程图；

图2是本发明另一个实施例中提供的机器翻译方法的方法流程图；

图3是本发明一个实施例中提供的日语依存句法分析结果的示意图；

图4是本发明一个实施例提供的日语动词格框架抽取结果的示意图；

图5是本发明一个实施例中提供的日语词汇分析结果和汉语参考译文句子中各成分之间对应关系的示意图；

图6是根据本发明一个实施例中提供的对日语训练句子进行抽取的示意图；

图7是根据本发明一个实施例中提供日汉谓词结构转换规则的示意图；

图8是本发明一个实施例中提供的对日语句子进行翻译的示意图；

图9是本发明一个实施例中提供的机器翻译系统的结构示意图；

图10是本发明另一个实施例中提供的机器翻译系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明一个实施例中提供的机器翻译方法的方法流程图，该机器翻译方法可以应用于计算机中，该计算机可以为用于语言翻译的机器或设备，也可以为用于在语言翻译前进行训练过程的机器或设备。该机器翻译方法可以包括翻译步骤，该翻译步骤可以包括：

步骤101：获取输入的源语言测试句子；

步骤102：对源语言测试句子进行词法分析，得到源语言测试句子的词法分析结果；

步骤103：对源语言测试句子的词法分析结果进行句法结构分析，得到源语言测试句子的句法分析结果；

步骤104：利用源语言测试句子的句法分析结果，抽取源语言测试句子的谓词论元结构；

步骤105：根据目标语言的句法特点，将该谓词论元结构进行结构转换，得到符合目标语言的句法特点的谓词论元结构；

步骤106：利用转换后的谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的语言模型，对源语言测试句子进行翻译，输出语言为目标语言的翻译结果。

综上所述，本发明实施例中提供的机器翻译方法，通过有效利用句子结构信息和谓词论元结构的语义信息，仅使用源语言端的句法分析结果，通过谓词论元结构转换处理，实现基于谓词论元结构转换的翻译；解决了现有技术中被抽取的层次短语翻译规则的冗余规则数量非常大，从而致使机器翻译性能非常差的问题；达到了可有效地改善句子结构的全局调序性能，减少抽取翻译规则数量，提高翻译质量，对发展和实现基于语义的统计机器翻译理论起到一定的促进作用的效果。

图2是本发明另一个实施例中提供的机器翻译方法的方法流程图，该机器翻译方法可以应用于计算机中，该计算机可以为用于语言翻译的机器或设备，也可以为用于在语言翻译前进行训练过程的机器或设备。该机器翻译方法可以包括训练步骤和翻译步骤，

该翻译步骤可以包括：

步骤201：获取输入的源语言测试句子；

步骤202：对源语言测试句子进行词法分析，得到源语言测试句子的词法分析结果；

步骤203：对源语言测试句子的词法分析结果进行句法结构分析，得到源语言测试句子的句法分析结果；

步骤204：利用源语言测试句子的句法分析结果，抽取源语言测试句子的谓词论元结构；

步骤205：根据目标语言的句法特点，将该谓词论元结构进行结构转换，得到符合目标语言的句法特点的谓词论元结构；

步骤206：利用转换后的谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的目标语言模型，对源语言测试句子进行翻译，输出语言为目标语言的翻译结果。

该训练步骤可以包括：

步骤207：获取输入的双语平行语料的源语言训练句子和目标语言训练句子；

步骤208：分别对源语言训练句子和目标语言训练句子进行词法分析，得到源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果；

步骤209：利用源语言训练句子的词法分析结果，对源语言训练句子进行句法结构分析，得到源语言训练句子的句法分析结果；

步骤210：利用源语言训练句子的句法分析结果，抽取源语言训练句子的谓词论元结构；

步骤211：根据目标语言的句法特点，将源语言训练句子的谓词论元结构进行结构转换，得到符合目标语言的句法特点的谓词论元结构；

步骤212：利用转换后的谓词论元结构，抽取翻译规则，将翻译规则放入翻译规则库中；

步骤213：根据目标语言的语料库建立目标语言模型，将目标语言模型放入翻译规则库中。

需要说明的是，上述步骤中步骤201至步骤206可以单独实施成为机器翻译方法中的翻译过程的实施例，上述步骤中步骤207至步骤213可以单独实施成为机器翻译方法中的训练过程的实施例。

为了便于对图2所示实施例的理解，以下则对图2所示实施例涉及的训练步骤和翻译步骤进行详细说明，具体如下：

在步骤201中，获取输入的源语言测试句子。

这里可以以文件的形式、键盘输入形式或其他形式对源语言测试句子进行输入，计算机在获取到输入的源语言测试句子之后，则可以将源语言测试句子存储在计算机的存储介质中，该计算机为用于实现语言翻译的设备。本实施例对源语言测试句子的输入方式不作具体限定。

在步骤202中，对源语言测试句子进行词法分析，得到源语言测试句子的词法分析结果。

计算机在获取到输入的源语言测试句子之后，则可以对该源语言测试句子进行词法分析，得到该源语言测试句子的词法分析结果。

在本发明的实施例中，以日语为源语言，以汉语为目标语言为例，日语的词法分析可以使用Mecab、Chasen、或者JUMAN等日语形态素解析工具进行分词处理。

而如果源语言为韩剧，则对汉语的词法分析可以使用ICTCLAS或者斯坦福大学的分词器等对输入的源语言测试句子进行词法分析。

很显然，还可以通过其他日语形态素解析工具对日语句子进行词法分析，也可以通过其他词法分析工具对汉语句子、英语句子或其他语言句子进行词法分析，针对其他不同语言的源语言句子或目标语言句子，还可以通过其他词法分析工具对源语言训练句子或目标语言训练句子进行分析，本实施例对词法分析工具不作具体限定。

在步骤203中，对源语言测试句子的词法分析结果进行句法结构分析，得到源语言测试句子的句法分析结果。

源语言测试句子的句法分析结果可以用句法结构树来表示。

计算机在得到源语言端的源语言测试句子的分词分析结果之后，需要对该源语言测试句子进行句法结构分析。在本实施例中可使用句法分析器Cabocha或者句法分析器KNP(由京都大学开发的日语句法分析系统)进行句法结构分析。

请参见图3所示，其是本发明一个实施例中提供的日语依存句法分析结果的示意图，在图3中，显示的是日语句子：“彼の友達が大学で多い科目を教える(他的朋友在大学教很多科目)”的依存句法分析结果的依存结构树。也即，图3中所示的是对上述源语言训练句子“彼の友達が大学で多い科目を教える”进行句法结构分析后得到的句法分析结果，该句法分析结果可以通过图3中所示的句法结构树进行表示。

在步骤204中，利用源语言测试句子的句法分析结果，抽取源语言测试句子的谓词论元结构。

计算机在得到源语言端的源语言测试句子的句法分析结果之后，需要对源语言端的源语言测试句子进行谓词论元结构抽取处理，获取源语言测试句子的谓词论元结构。谓词论元结构的自动抽取，需要对源语言的句法结构和谓词论元结构进行适当的定义，以整合句法结构和语义结构信息。

在利用源语言测试句子的句法分析结果，抽取源语言测试句子的谓词论元结构时，可以包括如下三种方式：

第一种方式，采用谓词格框架，从句法分析结果中抽取谓词论元结构，得到源语言训练句子的谓词论元结构；

也即可以利用谓词格框架来表示谓词论元结构。

第二种方式，采用格语法或依存文法，从句法分析结果中抽取谓词论元结构，得到源语言训练句子的谓词论元结构；

第三种方式，采用源语言训练句子的依存树或短语结构树，从句法分析结果中抽取谓词论元结构，得到源语言训练句子的谓词论元结构。

在抽取谓词论元结构之后，还可以对谓词论元结构中的元素进行泛化扩展，比如将“大学”的语义信息泛化扩展为“场所”，还比如将“科目”的语义信息扩展为“学科”。具体请参见对图4和图5的描述。

请参见图4所示，其是本发明一个实施例提供的日语动词格框架抽取结果的示意图。句子“彼の友達が大学で多い科目を教える”的中心词为动词“教える”，其表层格框架由动词以及三个名词短语组成，施事格“彼の友達が”，场所格“大学で”以及对象格“科目を”。其深层格框架如图4所示的格助词附加每个格所属的语义信息形成语义约束关系，如格助词“が(ガ)”的附属词“彼の友達(他的朋友)”的语义信息可以是“人”，格助词“で(デ)”的附属词“大学(场所)”的语义信息可以是“场所”，对象格“を(ヲ)”的附属词“科目(科目)”的语义信息可以是“学科”，则以动词“教える”为中心词，施事格的“人”、方位格的“场所”和对象格的“学科”形成日语动词“教える”的具有语义约束关系的深层语义格框架，同时，该格框架也是日语句子的整体结构的主体框架。

为了便于理解，请参见图5所示，其是本发明一个实施例中提供的日语词汇分析结果和汉语参考译文句子中各成分之间对应关系的示意图。如图5所示，根节点的动词“教える”和第一层节点的施事格“彼の友達が”，场所格“大学で”以及对象格“科目を”构成格框架。

格框架源于格语法理论，格语法是一种着重探讨句法结构与语义之间关系的语法理论和语义学理论。格语法包括基本规则、词汇和转换等三个组成部分。命题中需用的格包括:施事格、工具格、受事格、使成格、方位格、客体格等6种，之后，在语言分析时又加了受益格、源点格、终点格及伴随格等。框架语义学是格语法理论的系统化、具体化，是格语法发展的第三个阶段。

格语法理论强调句子结构由一个核心动词以及许多名词短语组成，每个短语与核心动词均存在某种特定的格关系。即格框架文法中的格框架描述了自然语言句子的深层结构和语义信息，在自然语言处理中起到十分重要的作用。

在本实施例中，以日语为源语言，采用日语格语法的谓词格框架实现日语的句法结构和语义结构的整合(即上面抽取谓词论元结构时的第一种方式)。日语属于黏着语系，具有典型的格语法的特点，日语谓词的格框架，既是日语句子的句法结构特征，同时又满足具有语义信息的谓词论元结构特征。日语的谓词论元结构可以作为日语格框架中的格的语义属性加以整合。本实施例可以使用前述JUMAN分词工具和KNP句法分析器得到包含谓词论元结构信息的日语依存句法分析结果。通过分析抽取日语句子中谓词的格框架，获取日语句法结构和谓词论元结构语义信息。

本实施例中，为了说明日语格框架的抽取过程，对日语格框架的形式化描述如下:

使用三元组＜V,C,R＞定义日语格框架文法。其中：

V表示日语谓词原型的集合，以区别于谓词的活用形。

C表示日语谓词的活用形集合，活用形描述谓词在句子中的时态、意愿、假设、祈使、能动、被动等变化形式。R表示日语格助词集合，日语格助词中的表层格包括：ガ格、ヲ格、ニ格、カラ格、ヘ格、ト格、ヨリ格、マデ格、デ格等，其代表性的格助词分别包括：が、を、に、から、へ、と、より、まで、で日等。除此以外，日语副助词“は”、“では”和“には”等也具有格助词的特性。

对于任意一个日语句子的中心谓词，包括动词、形容词或形容动词。其格框架(CF)可由三元组定义。其中：

h∈V为句子的中心谓词的原型或词干。

t∈C为句子的中心谓词在句中的活用形。

表示句子的中心谓词的格框架的各个格助词,每一个格助词的顺序按照其在句子中的先后顺序进行排序并进行标号，其中R*表示集合R中所有元素形成的闭包集合，即R中的所有元素的排列组合形成的字符串集合。

日语格框架的自动获取的方法如下：

对于一个完成了日语依存句法分析的句子，其中心谓词可从依存句法分析树(即句法分析结果)的根节点的语块中获取。该中心谓词的格框架，可以由两种方法得到：

方法一，从既有日语依存分析树自动抽取谓词格框架。通过分析与句子中心谓词所在节点有直接依存关系的日语格助词与集合R中的元素进行模式匹配，得到该中心谓词的格框架。如图3所示的日语依存树，与动词词干“教える”有依存关系的格助词分别为“が”，“で”和“を”，对应的表层格关系为“ガ格”，“デ格”以及“ヲ格”。

方法二，是使用既有日语格框架库，与日语句子的依存分析树进行模式匹配获取格框架的方法。该方法的优点是可有效弥补日语句子当中被省略的日语格助词，使获取的日语格框架成份具有完整性。

格框架库中，动词“教える”的部分词汇化格框架，与句子中的中心词和与之有依存关系的格助词、及格助词所依存的词干进行模式匹配，可以获取动词“教える”的格框架。

当使用第二种方法抽取特定中心谓词的格框架时，存在复数格框架选择的可能性。在此情况下，可结合第一种方法获取的格框架，计算格框架的相似度，选取与第一种方法相似度最高的候选结果作为该中心谓词的格框架。

依据上述格框架的定义图3所表述的句子中，动词“教える”的格框架表述形式为：h:教えるt：基本形：x1:ガ格x2:デ格x3:ヲ格

其格框架表现形式为：＜教える，基本形，：x1:ガ格x2:デ格x3:ヲ格＞

依据此方法，可以获得日语输入句子的谓词的整体或者局部的句法结构和谓词论元结构，通过日语格框架整合了日语的句法结构和语义结构信息。

如图6所示，其是根据本发明一个实施例中提供的对日语训练句子进行抽取的示意图。依据上述方法，可以从日语依存树6(a)抽取日语动词“教える”的格框架6(b)，在抽取上述动词的格框架之后，可是使用日语格框架词典，通过模式识别，实现日语谓词格框架的语义泛化处理(即对日语谓词格框架进行泛化扩展)及各个格在句子中的句法语义功能的标注。日语格框架词典，可以使用“日本語語彙大系第5巻”。

该词典包括6118个谓词和14,819个动词格框架。格要素的语义约束，采用“日本語語彙大系第1巻”的2710个名词的语义属性，因而容易通过简单的模式识别，实现谓词格框架的语义泛化处理及每个格的句法语义功能的标注。得到如图6(c)的结果。

同时，在抽取源语言句子的格框架之后，还可以抽取源语言句子中谓词论元及其子节点所构成的语言片段(或称语言块或语块)，如图6(d)所示。

在步骤205中，根据目标语言的句法特点，将该谓词论元结构进行结构转换，得到符合目标语言的句法特点的谓词论元结构。

计算机在根据目标语言的句法特点，将谓词论元结构进行结构转换时，可以包括：

根据源语言训练句子中谓词所对应的目标语言的谓词的句法结构特点，将源语言训练句子的谓词论元结构转化为目标语言的句法结构或目标语言的谓词论元结构。

日语谓词论元结构转换，实质上可通过谓词日语格框架的格和谓词构成的顺序的调整加以实现。汉语的句法结构为主谓宾结构，日语的句法结构是主宾谓结构，且日语中的格是显性格，如步骤204中所描述的，每一个格在日语谓词格框架中，具有特定的语法结构和语义功能。

本实施例，根据汉语和日语语法主体结构上的差异性，人工制定请参见图7，图7是根据本发明一个实施例中提供日汉谓词结构转换规则的示意图。

如图6(b)所示，在步骤204抽取谓词“教える”的格框架：＜教える，基本形，：x1:ガ格x2:デ格x3:ヲ格＞

以该框架中的＜x1:ガ格x2:デ格x3:ヲ格＞部分，和图7中所示的第0002条规则中的“<Sub(が)Adv(で)Obj(を)Pred>”进行模式匹配，获取该句法结构，通过得到图7中表格的汉语端的信息，可以得到符合汉语端的转换结果：<Sub(が)Adv(で)Pred Obj(を)>。

可选的，在将谓词论元结构进行结构转换之后，还包括：将转换后的谓词论元结构中的构成元素分别进行泛化扩展。

在步骤206中，利用转换后的谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的目标语言模型，对源语言测试句子进行翻译，输出语言为目标语言的翻译结果。

在利用转换后的谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的语言模型，对源语言测试句子进行翻译，输出语言为目标语言的翻译结果时，可以包括如下步骤：

1)对源语言训练句子中的谓词以及谓词论元进行翻译；

2)按照转换后的谓词论元结构所对应的句法结构顺序，生成目标语言所对应句子框架的翻译结果；

3)对源语言训练句子的谓词论元结构中的谓词论元以及谓词论元的子节点所构成的语块进行翻译，生成子树的翻译结果；

4)将句子框架的翻译结果和子树的翻译结果进行整合，得到目标语言所对应句子的翻译结果。

下面通过一个实施例，对上述的步骤1)至步骤4)进行说明。

在该实施例中，日语和汉语的词法分析可以分别使用步骤202所描述的词法分析工具。日语的句法分析可以使用步骤203所描述的分析工具。汉语的句法分析工具，在需要时，可以使用分析工具Stanford Parser。

使用源语言和目标语言平行句对，对双语句子对进行词对齐处理。在本实施例中，可使用GIZA++工具进行日-汉句子对进行自动词对齐处理，得到日-汉对齐结果。

用于解码的语言模型，可以使用SRL开源工具构建。

抽取翻译规则及解码处理，可以借鉴开源工具MOSES。

优化参数处理，可以借鉴使用MERT【文献1】:对模型参数进行优化，在开发集上获得较高的BLEU值。

【文献1】Och F J.Minimum error rate training in statistical machinetranslation[C]In Proceedings of the 41st Annual Meeting on Association forComputational Linguistics-Vol ume 1.ACL2003,pp.160-167.

统计机器翻译模型建模的选取，可以按照MOSES的使用说明书，分别构建基于词、基于短语和基于句法结构的统计翻译模型，在解码过程中，与语言模型一起，进行解码处理。

该实施例的具体解码步骤，请参见图8所示，其是本发明一个实施例中提供的对日语句子进行翻译的示意图，如图8所示：

给定日语测试句子及其汉语参考译文：

日语：彼の友達が大学で多い科目を教える

汉语：他的朋友在大学教很多科目

解码步骤包括对测试句子进行词法分析、句法分析得到该句子的句法分析结果(如图6(a))所示之后，进行如下处理，请继续参见图8：

S1：从日语句法分析结果抽取日语谓词格框架(谓词论元结构)。这里可依据步骤204所描述的方法进行抽取，得到的日语句子谓词(教える)的格框架为：

教える(Pred){

(が)(友達) (で)(大学) (を)(科目)

}

S2：对日语谓词格框架的每个格的语义概念进行泛化处理。这里可使用前述日语词典“日本語語彙大系第5巻”进行泛化处理(即泛化扩展)，同时标注每个格的句法结构和语义属性，得到扩展后的谓词论元结构。

教える(Pred){

Sub(が)(人) Adv(で)(场所) Obj(を)(学科) Tense(原形)

}

S3：按照日汉谓词结构转换规则对日语谓词格框架进行结构转换。这里可以按照步骤205和图7所示的结构转换方式进行结构转换，生成符合汉语语法结构的日语动词(教える)的格框架语序：

转换成汉语动词(教)的谓词论元结构时的语序：

S4：对实现结构转换后的日语谓词及其论元进行翻译，按照汉语的语序，生成其构成的句子框架的翻译结果。

也即，对源语言训练句子中的谓词以及谓词论元进行翻译；按照转换后的谓词论元结构所对应的句法结构顺序(比如S3中得到的符合汉语语法结构的日语动词的格框架语序)，生成目标语言所对应句子框架的翻译结果。

由：(友達が/Sub)(大学で/Adv)(教える/Pred)(科目/をObj)

翻译生成：朋友在大学教科目

S5：对日语谓词论元及其子节点构成的语块进行翻译。这里的日语谓词论元及其子节点是在步骤204所抽取的谓词论元结构中的。

也即，对源语言训练句子的谓词论元结构中的谓词论元以及谓词论元的子节点所构成的语块进行翻译，生成子树的翻译结果。

举例来讲，翻译结果如下：

语块1：彼の友達翻译结果：他的朋友

语块2：多い科目翻译结果：很多科目

S6：整合S4和S5的翻译结果，生成日语句子的全句译文。即对S4得到的句子整体框架的翻译结果“朋友在大学教科目”和子树的翻译结果“他的朋友”“很多科目”进行整合，得到整合后翻译结果：他的朋友在大学教很多科目。

也即，将句子框架的翻译结果和子树的翻译结果进行整合，得到目标语言所对应句子的翻译结果。

另外，如图2所示，在本实施例的翻译解码步骤之前，需要使用源语言和目标语言平行语料库，通过训练学习构建语言模型和翻译模型。

在步骤207中，获取输入的双语平行语料的源语言训练句子和目标语言训练句子。

输入的双语平行语料的源语言训练句子和目标语言训练句子可以是一一对应的，这些双语平行语料中可以从任意的网络数据库中获取，也可以为人为输入的语料。

同样的，计算机在获取输入双语平行语料的源语言训练句子和目标语言训练句子之后，还可以将获取的源语言训练句子和目标语言训练句子存储在该计算机的存储介质中。

步骤208所涉及的词法分析、步骤209所涉及的句法分析、步骤210所涉及的谓词论元结构抽取以及步骤211中所涉及的谓词论元结构的结构转换等方法均分别于步骤202、步骤203、步骤204以及步骤205类似，这里就不再赘述。

在步骤S212中，用于抽取翻译规则。本实施例，可以使用开源工具MOSES。

本实施例以依存树到串模型说明本发明公开的日汉机器翻译方法。

定义三元组＜T,S,A＞来描述日汉双语句对。其中，T为源端依存句法树，每个节点由一个组块构成，S为目标端字符串序列，A为双语词对齐关系。

定义的依存树到串模型中，翻译规则包含两部分：

词汇化翻译规则:作用在于将源端语块或短语，转化为目标端对应的翻译结果。

格框架调序规则:通过使用该，将源端依存树结构转化为目标端序列。

翻译模型中，格框架调序规则的形式化定义为是对格框架的延伸。其中，ω∈R^*记录该框架在目标端句子中的对应顺序。

翻译模型的规则抽取包含如下三个步骤：1)依存树标记；2)格框架调序规则抽取子树判定；3)规则抽取。

其中，针对依存树标记，定义依存树T中的每个节点均包含两个属性：1)对齐跨度，2)子树对齐跨度。

定义1：任意依存树T中的节点n，该节点的对齐跨度hsp(n)为目标端中与节点n存在词对关系的目标端词集合。

定义2：任意依存树T中的节点n，若hsp(n)满足如下条件，则认为hsp(n)是独立的。

{&ForAll;}_{n^{,} &NotEqual; n} hsp (n^{,}) \cap hsp (n) = φ

定义3：对于以节点n为根的子树T’，子树对齐跨度dsp(n)的定义如下：

dsp (n) = \underset{n^{,} &Element; T^{,}}{\cup} hsp (n^{,})

根据上述定义，通过使用后序遍历算法，依存树T中的各个节点标记对齐跨度以及子树对齐跨度。

针对格框架调序规则抽取子树判定，由于词对齐错误、俚语等情况的存在，并非所有格框架均可以抽取格框架调序规则。因此，在规则抽取前，需要判定格框架是否可以抽取格框架调序规则。

定义4：T’为T的子树，若T’根节点存在中心谓词，且可以抽取格框架，则子树T’∈cft(T)。

定义5：在日语依存树T中，可抽取格框架调序规则的子树集合为adt(T)。对任意T’∈cft(T)，若T’满足如下条件，则T’∈adt(T)：

条件1：hsp(chunk(h))≠φ

条件2：

{&ForAll;}_{n^{,} relates to chunk (h)} dsp (n^{,}) &NotEqual; φ

条件3：在该子树中，hsp(chunk(h))独立

其中，chunk(h)表示词h所在语块。

针对格框架调序规则抽取子树判定，本发明使用自顶向下遍历依存树的方法抽取翻译规则，具体抽取方法如下。

词汇化翻译规则抽取：

依存树的遍历过程中，在下述两种情况下，需要抽取词汇化翻译规则：

1)依存树节点的语块。对于依存树中每个节点的语块，根据双语词对齐信息A及目标语言端词序列S，基于短语模型的规则抽取方法【文献2】，抽取词汇化翻译规则。

【文献2】Koehn P,Och F J,Marcu D.Statistical phrase-based translation.InProceedings of the 2003 Conference of the North American Chapter of theAssociation for Computational Linguistics on Human Language Technology-Volume1.ACL 2003,pp.48-54.

2)若子树则将该子树转化为源端字符串序列，视作一个语块，参照情况1规则抽取方法获取词汇化翻译规则。

框架调序规则抽取：

若子树T’∈adt(T)，则根据依存树标记信息，抽取框架调序规则，具体方法如下：

首先，获取任意格助词所在组块的子树对齐跨度以及动词h所在组块的对齐跨度hsp(h)。

然后，根据获取的及hsp(h)信息，确定在该句对中，子树T’的格框架中格助词及中心谓词在目标语言端的顺序关系，记录在ω中。获取最终的框架调序规则。

概率计算方法：

词汇化翻译规则的概率计算，可参照【文献2】的方法，公式如下所示：

P (s | t) = \frac{count (s, t)}{Σ_{t} count (s, t)}

框架调序规则的概率计算，本发明使用最大似然估算方法，计算方法的公式如下：

本步骤实现句子整体框架的翻译结果及子树的翻译结果的方法很多，最简单的方法可以找到相应的交集节点，直接插入，或者同时使用目标语言模型，或者目标语言的句法结构信息进行翻译结果的整合等。其中的目标语言模型根据目标语言的语料库建立得到的，该目标语言的语料库可以是从任意网络数据库中获取到的。

上述实施例中，步骤S4和S5的翻译结果可以并行或者串行处理，然后，使用句法结构信息或者语言模型，加以整合。

也即，将S4中得到的句子框架的翻译结果和S5中得到的子树的翻译结果进行整合，得到目标语言所对应句子的翻译结果。

上述翻译解码步骤中，所使用的翻译规则，在使用平行语料库进行训练抽取翻译规则时，可以根据建模的需要，抽取词汇化翻译规则。此类规则的作用在于将源端语块或短语，转化为目标端对应的翻译结果。

由于格框架调序规则可以将源端依存树结构转化为目标端序列。调序规则的获取，可以根据所构建的统计机器翻译的模型，采用统计方法自动抽取结构转换规则。也可以人工制定结构转换规则，从而实现句法结构的全局调序。

本实施例的解码使用对数线性模型，对于给定的日语依存树，从所有可能的结果D中，寻找出最优结果d^*。公式如下：

d^*＝arg max_d∈D(P(D))

假设d为源语言依存句法树T转化为目标语言串e的可能方式。d的概率定义公式如下：

P (d) &Proportional; \underset{i}{Π} Φ_{i} {(d)}^{λ_{i}}

其中，Φ_i为特征参数，λ_i为特征参数的权重。本实施例的模型中，包含了以下权重：

格框架调序规则概率(树到串模型，自动抽取调序规则时使用)

词汇化翻译规则概率P(S|T)和P(T|S)

词汇化概率P_lex(s|t)和P_lex(t|s)

规则惩罚exp(-1)

字惩罚exp(|e|)

语言模型P_lm(e)

本实施例可使用最小错误率训练方法对参数λi进行优化。

本实施例使用自顶向下的方法进行解码。具体算法流程描述见算法1。

算法根据下述两个要点进行解码：

1)若以当前节点为根的子树将该子树转化为源端字符串序列，视作一个语块，使用词汇化翻译规则进行翻译。

2)若以当前节点为根的子树使用词汇化翻译规则翻译T’根节点的语块，递归对依存于当前节点的所有子树进行解码。最后，使用格框架调序规则对该节点及依存于该节点的子树进行调序，合并子树。

通过上述方法，最终获取依存树的最佳翻译结果。

图8中所示的给定的日语句子：“彼の友達が大学で多い科目を教える”的翻译结果为：“他的朋友在大学教很多科目”。

本发明实施例提供的机器翻译方法，可有效地解决句子的全局调序问题，改善语义结构和语义相关性，提高翻译质量，对发展和实现基于语义的统计机器翻译理论具有较大的促进作用。

本发明实施例提供的机器翻译方法，可以不仅针对两种特定的语言，因此本发明实施例提供的机器翻译方法具有普遍适用性，本发明实施例提供的机器翻译方法同样也适用于其他语言对。

本发明实施例提供的机器翻译方法，以日语依存树作为源语言句法分析的实例进行了说明，在本发明的事实过程中，也可以采用短语结构树，或者根据需要将依存结构树和短语结构树相互转换加以实现，从而在源语言谓词论元结构抽取、谓词论元结构转换等步骤来实现本发明的机器翻译系统。

图9是本发明一个实施例中提供的机器翻译系统的结构示意图，该机器翻译系统可以通过软件、硬件或者两者的结合实现成为用于计算机的部分或者全部。该机器翻译系统900可以包括翻译子系统920，

翻译子系统920可以包括：第一获取模块921、第一词法分析模块922、第一句法分析模块923、第一抽取模块924、第一转换模块925和翻译模块926。

第一获取模块921，可以用于获取输入的源语言测试句子；

第一词法分析模块922，可以用于对第一获取模块921获取到的源语言测试句子进行词法分析，得到源语言测试句子的词法分析结果；

第一句法分析模块923，可以用于对第一词法分析模块922分析得到的源语言测试句子的词法分析结果进行句法结构分析，得到源语言测试句子的句法分析结果；

第一抽取模块924，可以用于利用第一句法分析模块923分析得到的源语言测试句子的句法分析结果，抽取源语言测试句子的谓词论元结构；

第一转换模块925，可以用于根据目标语言的句法特点，将第一抽取模块924抽取的谓词论元结构进行结构转换，得到符合目标语言的句法特点的谓词论元结构；

翻译模块926，可以用于利用第一转换模块925转换后的谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的目标语言模型，对源语言测试句子进行翻译，输出语言为目标语言的翻译结果。

综上所述，本发明实施例提供的机器翻译系统，通过有效利用句子结构信息和谓词论元结构的语义信息，仅使用源语言端的句法分析结果，通过谓词论元结构转换处理，实现基于谓词论元结构转换的翻译；解决了现有技术中被抽取的层次短语翻译规则的冗余规则数量非常大，从而致使机器翻译性能非常差的问题；达到了可有效地改善句子结构的全局调序性能，减少抽取翻译规则数量，提高翻译质量，对发展和实现基于语义的统计机器翻译理论起到一定的促进作用的效果。

图10是本发明另一个实施例中提供的机器翻译系统的结构示意图，该机器翻译系统可以通过软件、硬件或者两者的结合实现成为用于计算机的部分或者全部。该机器翻译系统1000可以包括翻译子系统1020，

翻译子系统1020包括：第一获取模块1021、第一词法分析模块1022、第一句法分析模块1023、第一抽取模块1024、第一转换模块1025和翻译模块1026。

第一获取模块1021，可以用于获取输入的源语言测试句子；

第一词法分析模块1022，可以用于对第一获取模块1021获取到的源语言测试句子进行词法分析，得到源语言测试句子的词法分析结果；

第一句法分析模块1023，可以用于对第一词法分析模块1022分析得到的源语言测试句子的词法分析结果进行句法结构分析，得到源语言测试句子的句法分析结果；

第一抽取模块1024，可以用于利用第一句法分析模块1023分析得到的源语言测试句子的句法分析结果，抽取源语言测试句子的谓词论元结构；

第一转换模块1025，可以用于根据目标语言的句法特点，将第一抽取模块1024抽取的谓词论元结构进行结构转换，得到符合目标语言的句法特点的谓词论元结构；

翻译模块1026，可以用于利用第一转换模块1025转换后的谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的语言模型，对源语言测试句子进行翻译，输出语言为目标语言的翻译结果。

该机器翻译系统1000可以包括训练子系统1040，

训练子系统1040可以包括：第二获取模块1041、第二词法分析模块1042、第二句法分析模块1043、第二抽取模块1044、第二转换模块1045、第三抽取模块1046和模型建立模块1047。

第二获取模块1041，可以用于获取输入的双语平行语料的源语言训练句子和目标语言训练句子；

第二词法分析模块1042，可以用于分别对第二获取模块1041获取到的源语言训练句子和目标语言训练句子进行词法分析，得到源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果；

第二句法分析模块1043，可以用于利用第二词法分析模块1042分析得到的源语言训练句子的词法分析结果，对源语言训练句子进行句法结构分析，得到源语言训练句子的句法分析结果；

第二抽取模块1044，可以用于利用第二句法分析模块1043分析得到的源语言训练句子的句法分析结果，抽取源语言训练句子的谓词论元结构；

第二转换模块1045，可以用于根据目标语言的句法特点，将第二抽取模块1044抽取得到的源语言训练句子的谓词论元结构进行结构转换，得到符合目标语言的句法特点的谓词论元结构；

第三抽取模块1046，可以用于利用第二转换模块1045转换后的谓词论元结构，抽取翻译规则，将翻译规则放入翻译规则库中；

模型建立模块1047，可以用于根据目标语言的语料库建立目标语言模型，将目标语言模型放入翻译规则库中。

在一种可能的实施例中，第一句法分析模块1023可以包括：第一句法分析单元1023a，或，第二句法分析单元1023b。

第一句法分析单元1023a，可以用于采用依存结构分析或短语结构分析的方法，对源语言测试句子的词法分析结果进行句法结构分析，得到句法分析结果；

或，

第二句法分析单元1023b，可以用于采用依存结构树和短语结构树相互转化的方法，对源语言测试句子的词法分析结果进行句法结构分析，得到句法分析结果。

在一种可能的实施例中，第一抽取模块1024可以包括：第一抽取单元1024a，或，第二抽取单元1024b，或，第三抽取单元1024c。

第一抽取单元1024a，可以用于采用谓词格框架，从第一句法分析模块1023分析得到的句法分析结果中抽取谓词论元结构，得到源语言训练句子的谓词论元结构；

或，

第二抽取单元1024b，可以用于采用格语法或依存文法，从第一句法分析模块1023分析得到的句法分析结果中抽取谓词论元结构，得到源语言训练句子的谓词论元结构；

或，

第三抽取单元1024c，可以用于采用源语言训练句子的依存树或短语结构树，从第一句法分析模块1023分析得到的句法分析结果中抽取谓词论元结构，得到源语言训练句子的谓词论元结构。

在一种可能的实施例中，第一转换模块1025还可以用于：

在一种可能的实施例中，该翻译子系统1020还可以包括：第一扩展模块1027和第二扩展模块1028。

第一扩展模块1027，可以用于对第一抽取模块1024抽取得到的源语言训练句子的谓词论元结构中的构成元素分别进行泛化扩展；

第二扩展模块1028，可以用于将第一转换模块1025转换后的谓词论元结构中的构成元素分别进行泛化扩展。

在一种可能的实施例中，翻译模块1026可以包括：翻译单元1026a、第一生成单元1026b、第二生成单元1026c和整合单元1026d。

翻译单元1026a，可以用于对源语言训练句子中的谓词以及谓词论元进行翻译；

第一生成单元1026b，可以用于按照转换后的谓词论元结构所对应的句法结构顺序，生成目标语言所对应句子框架的翻译结果；

第二生成单元1026c，可以用于对源语言训练句子的谓词论元结构中的谓词论元以及谓词论元的子节点所构成的语块进行翻译，生成子树的翻译结果；

整合单元1026d，可以用于将第一生成单元1026b生成的句子框架的翻译结果和第二生成单元1026c生成的子树的翻译结果进行整合，得到目标语言所对应句子的翻译结果。

在一种可能的实施例中，翻译模块1026还可以用于：

采用基于词、基于短语或基于句法结构的统计翻译模型以及建立的语言模型，对源语言测试句子进行翻译解码。

本发明实施例提供的机器翻译系统，可有效地解决句子的全局调序问题，改善语义结构和语义相关性，提高翻译质量，对发展和实现基于语义的统计机器翻译理论具有较大的促进作用。

本发明实施例提供的机器翻译系统，可以不仅针对两种特定的语言，因此本发明实施例提供的机器翻译系统具有普遍适用性，本发明实施例提供的机器翻译系统同样也适用于其他语言对。

本发明实施例提供的机器翻译系统，以日语依存树作为源语言句法分析的实例进行了说明，在本发明的事实过程中，也可以采用短语结构树，或者根据需要将依存结构树和短语结构树相互转换加以实现，从而在源语言谓词论元结构抽取、谓词论元结构转换等步骤来实现本发明的机器翻译系统。

需要说明的是：上述实施例中提供的机器翻译系统在训练机器翻译模型并利用机器翻译模型进行翻译时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将机器翻译设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的机器翻译系统与机器翻译方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

需要补充说明的是，本发明的机器翻译方法和机器翻译系统不是针对两种特定的语言而提出，所以本发明的方法具有普遍适用性。本发明同样也适用于其他语言对。

本发明的实施例中，以日语依存树作为源语言句法分析的实例进行了说明，在本发明的事实过程中，也可以采用短语结构树，或者根据需要将依存结构树和短语结构树相互转换加以实现，从而在树到串对齐处理过程中生成依存树到串或者短语结构树到串对齐双语语料来实现本发明的机器翻译方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种机器翻译方法，其特征在于，所述方法包括翻译步骤，

所述翻译步骤包括：

获取输入的源语言测试句子；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括训练步骤，

所述训练步骤包括：

根据目标语言的语料库建立所述目标语言模型，将所述目标语言模型放入所述翻译规则库中。

3.根据权利要求1所述的方法，其特征在于，所述对所述源语言测试句子的词法分析结果进行句法结构分析，得到所述源语言测试句子的句法分析结果，包括：

或，

4.根据权利要求1所述的方法，其特征在于，所述利用所述源语言测试句子的句法分析结果，抽取所述源语言测试句子的谓词论元结构，包括：

或，

5.根据权利要求1所述的方法，其特征在于，所述根据目标语言的句法特点，将所述谓词论元结构进行结构转换，包括：

6.根据权利要求1所述的方法，其特征在于，在所述抽取所述源语言测试句子的谓词论元结构之后，还包括：

在所述将所述谓词论元结构进行结构转换之后，还包括：

7.根据权利要求1至6中任一所述的方法，其特征在于，所述利用转换后的所述谓词论元结构和翻译规则库中训练得到的翻译规则以及建立的语言模型，对所述源语言测试句子进行翻译，输出语言为所述目标语言的翻译结果，包括：

对所述源语言训练句子中的谓词以及谓词论元进行翻译；

8.根据权利要求1至6中任一所述的方法，其特征在于，所述对所述源语言测试句子进行翻译，包括：

9.一种机器翻译系统，其特征在于，所述系统包括翻译子系统，

所述翻译子系统包括：

第一获取模块，用于获取输入的源语言测试句子；

10.根据权利要求9所述的系统，其特征在于，所述系统还包括训练子系统，

所述训练子系统包括：

11.根据权利要求9所述的系统，其特征在于，所述第一句法分析模块，包括：

或，

12.根据权利要求9所述的系统，其特征在于，所述第一抽取模块，包括：

或，

13.根据权利要求9所述的系统，其特征在于，所述第一转换模块，还用于：

14.根据权利要求10所述的系统，其特征在于，所述翻译子系统还包括：

15.根据权利要求9至14中任一所述的系统，其特征在于，所述翻译模块，包括：

翻译单元，用于对所述源语言训练句子中的谓词以及谓词论元进行翻译；

16.根据权利要求9至14中任一所述的系统，其特征在于，所述翻译模块，还用于：