CN104268133A - 机器翻译方法及系统 - Google Patents

机器翻译方法及系统 Download PDF

Info

Publication number
CN104268133A
CN104268133A CN201410461334.9A CN201410461334A CN104268133A CN 104268133 A CN104268133 A CN 104268133A CN 201410461334 A CN201410461334 A CN 201410461334A CN 104268133 A CN104268133 A CN 104268133A
Authority
CN
China
Prior art keywords
sentence
source language
analysis result
predicate
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410461334.9A
Other languages
English (en)
Other versions
CN104268133B (zh
Inventor
徐金安
吴培昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201410461334.9A priority Critical patent/CN104268133B/zh
Publication of CN104268133A publication Critical patent/CN104268133A/zh
Application granted granted Critical
Publication of CN104268133B publication Critical patent/CN104268133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种机器翻译方法及系统,属于自然语言处理研究领域。所述方法包括:训练过程和翻译过程,通过抽取源语言句子的谓词论元结构,结合目标语言的词法分析结果的词串,形成树到串双语对齐语料,再利用谓词论元结构信息指导树到串机器翻译规则的抽取和解码过程,从而直接将谓词论元结构建模到树到串机器翻译中。本发明通过将谓词论元结构建模到树到串机器翻译中,解决了现有技术中被抽取的统计翻译规则的冗余规则数量非常大的问题,达到了降低冗余规则数量,改善语义结构和语义相关性,提高长距离调序性能,提高翻译质量的效果。

Description

机器翻译方法及系统
技术领域
本发明涉及自然语言处理研究领域,特别涉及一种机器翻译方法及系统。
背景技术
当前,机器翻译的主流方法大致可以分为基于规则和基于语料库两种方法,基于语料库的方法又可以细分为基于实例的方法和基于统计的方法。基于统计的机器翻译方法能够以双语平行语料库为学习数据,通过训练自动获取翻译规则,同时,结合语言模型对测试语句进行翻译。随着统计机器翻译模型的不断改良,先后出现了基于词的、基于短语和基于句法结构的统计模型,译文质量得到不断改善。
但是,传统的统计机器翻译模型,更多地利用句子的层次结构片段和属性进行建模,要提高统计机器翻译系统的性能,则要求在建模的过程中增加更多的句法结构和语义信息。
既有的统计机器翻译模型,在源语言和目标语言之间的句法结构存在较大的差异性时,调序显得极其重要却又相当困难。既有统计模型在建模时,充分考虑了解决局部调序的对策。但是,这些传统技术,在解决诸如日语句法的主宾谓(SOV,Subject–Object–Verb)结构和汉语的主谓宾(SVO,Subject–Verb–Object)结构之间的差异性问题时,遭遇困难。很多研究人员,采用前处理和后处理的方式,对句法机构进行调整,以降低语言结构上的差异性。此类方法并没有从统计建模的角度,对句法结构的全局调序给予合理的解决方案。因此,融合更多的句法结构和语义信息,对统计建模进行改良是一种良好的解决方案。该方案可以有效地推动统计机器翻译理论的发展,实现真正意义上的统计和规则相融合的机器翻译方法,达到降低获取的冗余规则数量,改善语义结构和语义相关性,提高长距离调序性能,提高翻译质量。
谓词论元结构(PAS,Predicate Argument Structure)是一种浅层语义结构,用来表示谓词和句子成分的论元之间的谓词逻辑关系,通过使用施事、受事及谓词等表现句子成分的浅层语义关系,它从某种程度上就表示出句子的主体框架结构及其语义属性。另一方面,句法结构包含主谓宾等成分。谓词论元结构和句法结构,可以结合句子的中心谓词的句型特点进行融合,在句法结构的词位和语义结构的义位基本一致的前提下,可以把施事和受事作为主语或宾语等句法结构成份的特征属性,来实现句法结构和语义结构的融合。如使用格语法中的格框架和依存结构分析树,是一个很好地融合句法结构和语义结构的方案。
谓词论元结构是构式语法理论的基础,构式语法理论是对转换生成语法理论的批判、继承和发展的结果。构式语法(Construction Grammar),也称为“构件语法”、“框架语法”、“构块式语法”、“架构语法”等。
构式语法继承了费尔默提出的框架语义学的理论。框架语义学注重研究如何有效解决话语整体的语义理解和描写问题,通过词汇意义与语法模式之间的联系,实现对概念结构和语义-句法映射关系的描写。因此,框架语义学是格语法理论的系统化、具体化,是格语法发展的第三个阶段。
通常,框架语义学以谓词为中心,通过使用谓词的框架及其框架元素(即在谓词-论元结构中的论元)之间的语义关系实现框架语义描述。在其描述过程中,动词与具体的框架角色相联,通过构式实现各个论元的角色功能(例如施事、受事、目标),各个论元则具有相应的语法功能项,如主语(Sub),直接宾语(Obj)或者间接宾语(Obj2)等。
因此,利用谓词论元结构和句法结构信息作为全局调序的关键有效特征进行统计机器翻译建模,可有助于实现真正意义上的基于语义的统计机器翻译模型,推动统计机器翻译理论的发展,提高翻译质量。
一种基于谓词论元结构的层次机器翻译方法:将句子中所有的谓词论元结构有机的组织成图状结构,再将此结构作为改进层次短语机器翻译的顶层语义骨架结构,从而直接将谓词论元结构建模到层次短语机器翻译中。直接在谓词语义结构上对翻译过程进行建模,将语义独立的片段单独翻译并依据它们之间的结构组合成最终译文,由此得到的译文可以有效地解决长距离调序问题,提高机器翻译的译文质量。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:在进行层次机器翻译方法的建模过程中,并行抽取层次短语翻译规则和谓词语义结构规则,由于没有有效地使用句法结构或谓词语义结构规则指导层次短语翻译规则的抽取,使得被抽取的层次短语翻译规则的冗余规则数量非常大,从而致使机器翻译性能非常差。
发明内容
为了解决现有技术中被抽取的层次短语翻译规则的冗余规则数量非常大,从而致使机器翻译性能非常差的问题,本发明实施例提供了一种机器翻译方法及系统。所述技术方案如下:
第一方面,提供了一种机器翻译方法,所述方法包括翻译步骤,
所述翻译步骤包括:
获取输入的源语言测试句子;
对所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结果;
对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果;
利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结构;
利用所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对所述源语言测试句子进行翻译解码处理,输出语言为所述目标语言的翻译结果。
可选的,所述方法还包括训练步骤,
所述训练步骤包括:
获取输入的双语平行语料的源语言训练句子和目标语言训练句子;
分别对所述源语言训练句子和所述目标语言训练句子进行词法分析,得到所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果;
利用所述源语言训练句子的词法分析结果,对所述源语言训练句子进行句法结构分析,得到所述源语言训练句子的句法分析结果;
利用所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果进行词对齐处理,得到词对齐处理结果;
利用所述源语言训练句子的句法分析结果和所述词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库;
利用所述源语言训练句子的句法分析结果,抽取所述源语言训练句子的谓词论元结构;
利用所述源语言训练句子的谓词论元结构以及所述树到串对齐双语语料库,抽取翻译规则,将所述翻译规则放入所述翻译规则库中。
可选的,所述对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果,包括:
采用依存结构分析或短语结构分析的方法,对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述句法分析结果;
或,
采用依存结构树和短语结构树相互转化的方法,对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述句法分析结果。
可选的,所述利用所述源语言训练句子的句法分析结果和所述词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库,包括:
根据依存树到串或短语结构树到串对齐的方法,对所述源语言句法分析结果和所述词对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到所述树到串对齐双语语料库。
可选的,在所述抽取所述源语言训练句子的谓词论元结构之后,还包括:
对所述源语言训练句子的谓词论元结构中的构成元素分别进行泛化扩展;
在所述抽取翻译规则之后,还包括:
对抽取的所述翻译规则进行泛化扩展,利用泛化扩展后的所述翻译规则生成所述翻译规则库。
可选的,所述利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结构,包括:
采用谓词格框架,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
或,
采用格语法或依存文法,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
或,
采用所述源语言训练句子的依存树或短语结构树,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构。
第二方面,提供了一种机器翻译系统,所述系统包括翻译子系统,
所述翻译子系统包括:
第一获取模块,用于获取输入的源语言测试句子;
第一词法分析模块,用于对所述第一获取模块获取到的所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结果;
第一句法分析模块,用于对所述第一词法分析模块分析得到的所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果;
第一抽取模块,用于利用所述第一句法分析模块分析得到的所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结构;
翻译模块,用于利用所述第一抽取模块抽取的所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对所述源语言测试句子进行翻译解码处理,输出语言为所述目标语言的翻译结果。
可选的,所述系统还包括训练子系统,
所述训练子系统包括:
第二获取模块,用于获取输入的双语平行语料的源语言训练句子和目标语言训练句子;
第二词法分析模块,用于分别对所述第二获取模块获取到的所述源语言训练句子和所述目标语言训练句子进行词法分析,得到所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果;
第二句法分析模块,用于利用所述第二词法分析模块分析得到的所述源语言训练句子的词法分析结果,对所述源语言训练句子进行句法结构分析,得到所述源语言训练句子的句法分析结果;
第一对齐模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果进行词对齐处理,得到词对齐处理结果;
第二对齐模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子的句法分析结果和所述第一对齐模块对齐得到的所述词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库;
第二抽取模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子的句法分析结果,抽取所述源语言训练句子的谓词论元结构;
第三抽取模块,用于利用所述第二抽取模块抽取得到的所述源语言训练句子的谓词论元结构以及所述第二对齐模块对齐得到的所述树到串对齐双语语料库,抽取翻译规则,将所述翻译规则放入所述翻译规则库中。
可选的,所述第一句法分析模块,包括:
第一句法分析单元,用于采用依存结构分析或短语结构分析的方法,对所述第一词法分析模块分析得到的所述源语言测试句子的词法分析结果进行句法结构分析,得到所述句法分析结果;
或,
第二句法分析单元,用于采用依存结构树和短语结构树相互转化的方法,对对所述第一词法分析模块分析得到的所述源语言测试句子的词法分析结果进行句法结构分析,得到所述句法分析结果。
可选的,所述第二对齐模块,还用于:
根据依存树到串或短语结构树到串对齐的方法,对所述源语言句法分析结果和所述词对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到所述树到串对齐双语语料库。
可选的,所述训练子系统还包括:
第一泛化扩展模块,用于对所述源语言训练句子的谓词论元结构中的构成元素分别进行泛化扩展;
第二泛化扩展模块,用于对所述第三抽取模块抽取的所述翻译规则进行泛化扩展,利用泛化扩展后的所述翻译规则生成所述翻译规则库。
可选的,所述第一抽取模块,包括:
第一抽取单元,用于采用谓词格框架,从所述第一句法分析模块分析得到的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
或,
第二抽取单元,用于采用格语法或依存文法,从所述第一句法分析模块分析得到的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
或,
第三抽取单元,用于采用所述源语言训练句子的依存树或短语结构树,从所述第一句法分析模块分析得到的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构。
本发明实施例提供的技术方案带来的有益效果是:
通过利用源语言端的句法结构信息及其谓词论元结构中所携带的语义信息、以及目标语言端句子的分词层面的词串信息,实现对句子在框架层面的全局调序进行建模;解决了现有技术中被抽取的-统计机器翻译规则的冗余规则数量非常大,从而致使机器翻译性能非常差的问题,达到了提高统计机器翻译系统的性能的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中提供的机器翻译方法的方法流程图;
图2是本发明另一个实施例中提供的机器翻译方法的方法流程图;
图3是本发明一个实施例中提供的日语依存句法分析结果的示意图;
图4是本发明另一个实施例中提供的日语依存句法分析结果的示意图;
图5是本发明一个实施例中提供的日汉树到串对齐实例的示意图;
图6是本发明一个实施例中提供的日英树到串对齐实例的示意图;
图7是本发明一个实施例中提供的日语动词格框架抽取结果的示意图;
图8是本发明另一个实施例中提供的日语动词格框架抽取结果的示意图;
图9是本发明一个实施例中提供的抽取LTR规则的示意图;
图10是本发明另一个实施例中提供的抽取LTR规则的示意图;
图11是本发明一个实施例中提供的解码处理的示意图;
图12是本发明一个实施例中提供的机器翻译系统的结构示意图;
图13是本发明另一个实施例中提供的机器翻译系统的结构示意图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明一个实施例中提供的机器翻译方法的方法流程图,该机器翻译系统可以通过软件、硬件或者两者的结合实现成为用于计算机的部分或者全部。该机器翻译方法包括翻译步骤,该翻译步骤包括:
步骤101:获取输入的源语言测试句子;
步骤102:对源语言测试句子进行词法分析,得到源语言测试句子的词法分析结果;
步骤103:对源语言测试句子的词法分析结果进行句法结构分析,得到源语言测试句子的句法分析结果;
步骤104:利用源语言测试句子的句法分析结果,抽取源语言测试句子的谓词论元结构;
步骤105:利用谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对源语言测试句子进行翻译解码处理,输出语言为目标语言的翻译结果。
综上所述,本发明实施例中提供的机器翻译方法,通过有效利用句子结构信息和谓词论元结构的语义信息,仅使用源语言端的句法分析结果,实现基于谓词论元结构的树到串统计翻译模型,通过使用谓词论元结构抽取调序规则,有效改善句子结构的全局调序问题,本发明综合利用句子结构信息和谓词论元结构信息进行统计机器翻译的建模和解码,对发展和实现基于语义的统计机器翻译理论起到较大的促进作用。
图2是本发明另一个实施例中提供的机器翻译方法的方法流程图,该机器翻译系统可以通过软件、硬件或者两者的结合实现成为用于计算机的部分或者全部。该机器翻译方法可以包括训练步骤和翻译步骤。
该训练步骤可以包括:
步骤201:获取输入的双语平行语料的源语言训练句子和目标语言训练句子;
步骤202:分别对源语言训练句子和目标语言训练句子进行词法分析,得到源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果;
步骤203:利用源语言训练句子的词法分析结果,对源语言训练句子进行句法结构分析,得到源语言训练句子的句法分析结果;
步骤204:利用源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果进行词对齐处理,得到词对齐处理结果;
步骤205:利用源语言训练句子的句法分析结果和词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库;
步骤206:利用源语言训练句子的句法分析结果,抽取源语言训练句子的谓词论元结构;
步骤207:利用源语言训练句子的谓词论元结构以及树到串对齐双语语料库,抽取翻译规则,将翻译规则放入翻译规则库中;
该翻译步骤可以包括:
步骤208:获取输入的源语言测试句子;
步骤209:对源语言测试句子进行词法分析,得到源语言测试句子的词法分析结果;
步骤210:对源语言测试句子的词法分析结果进行句法结构分析,得到源语言测试句子的句法分析结果;
步骤211:利用源语言测试句子的句法分析结果,抽取源语言测试句子的谓词论元结构;
步骤212:利用谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对源语言测试句子进行翻译解码处理,输出语言为目标语言的翻译结果。
需要说明的是,上述步骤中步骤201至步骤207可以单独实施成为机器翻译方法中的训练过程的实施例,上述步骤中步骤208至步骤212可以单独实施成为机器翻译方法中的翻译过程的实施例。
为了便于对图2所示实施例的理解,以下对图2所示实施例涉及的训练步骤和翻译步骤进行详细说明,具体如下:
在步骤201中,获取输入的双语平行语料的源语言训练句子和目标语言训练句子。
这里可以以文件的形式、键盘输入的形式或其他形式对双语平行语料进行输入,并存储在计算机的存储介质中,该计算机为用于实现训练翻译模型的设备。本实施例对双语平行语料的输入方式不作具体限定。
双语平行语料中的源语言句子是指需要被翻译的句子,双语平行语料中的目标语言句子是指根据源语言句子翻译后得到的句子。首先,双语平行语料中源语言句子和目标语言句子通常是一一对应的,比如数量对应、语义语法对应等;其次,对应于源语言句子的目标语言句子可以是针对源语言句子人为翻译得到的样本。
为了将训练过程与翻译过程区分开,步骤201以及后续步骤中将训练过程中所用的源语言句子称为源语言训练句子,将训练过程中目标语言句子称为目标语言训练句子,类似的,在翻译过程中,将需要被翻译的源语言句子称为源语言测试句子。
在步骤202中,分别对源语言训练句子和目标语言训练句子进行词法分析,得到源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果。
根据源语言的类型对源语言训练句子进行词法分析,根据目标语言的类型对目标语言训练句子进行词法分析。
以源语言为日语、目标语言为汉语为例,日语的词法分析可以使用日语分分词器Mecab、Chasen或者JUMAN等进行分词处理;汉语句子的词法分析工具可使用ICTCLAS或者斯坦福大学的分词器等。
以源语言为日语、目标语言为英语为例,日语的词法分析可以使用Mecab、Chasen、或者JUMAN等日语形态素解析工具进行分词处理;英语句子可不作词法分析,也可以根据具体情况适用斯坦福大学的分词器对英语句子进行形态分析。
很显然,还可以通过其他日语分分词器对日语句子进行词法分析,也可以通过其他词法分析工具对汉语句子或英语句子进行词法分析,针对其他不同语言的源语言句子或目标语言句子,还可以通过其他词法分析工具对源语言训练句子或目标语言训练句子进行分析,本实施例对词法分析工具不作具体限定。
在步骤203中,利用源语言训练句子的词法分析结果,对源语言训练句子进行句法结构分析,得到源语言训练句子的句法分析结果。
源语言训练句子的句法分析结果可以通过句法分析树来表示。
在得到源语言训练句子的源语言训练句子的词法分析结果之后,需要对源语言训练句子进行句法分析。在本实施例中,当源语言为日语时,可使用句法分析器KNP(由京都大学开发的日语句法分析系统)或者句法分析器Cabocha进行句法分析。
图3是本发明一个实施例中提供的日语依存句法分析结果的示意图,图3中显示的日语句子为:“あなたのお母さんがレストランで美味しい料理を食べる(你的母亲在餐馆吃美味的便当)”的依存句法分析结果的依存结构树。也即,图3中所示的是对上述源语言训练句子“あなたのお母さんがレストランで美味しい料理を食べる”进行句法结构分析后得到的句法分析结果,该句法分析结果是通过句法分析树来表示的。
图4是本发明另一个实施例中提供的日语依存句法分析结果的示意图,图4中显示的日语句子为:“CPUがここで設定処理を行なう(CPU在这种情况进行设定处理)”的依存句法分析结果的依存结构树。
很显然,当源语言为日语时,还可以通过其他句法分析器对源语言为日语的源语言训练句子进行句法分析;而当源语言为其他语言时,也可以通过其他句法分析器对源语言训练句子进行句法分析,本实施例对句法分析器的类型不作具体限定。
可选的,对源语言测试句子的词法分析结果进行句法结构分析,得到源语言测试句子的句法分析结果时,可以包括如下两种方式:
第一种方式,采用依存结构分析或短语结构分析的方法,对源语言测试句子的词法分析结果进行句法结构分析,得到句法分析结果;
第二种方式,采用依存结构树和短语结构树相互转化的方法,对源语言测试句子的词法分析结果进行句法结构分析,得到句法分析结果。
在步骤204中,利用源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果进行词对齐处理,得到词对齐处理结果。
在得到源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果之后,需要对源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果进行双语的词对齐处理。
在本实施例中,仍旧以源语言为日语、目标语言为汉语为例,可使用GIZA++工具进行日-汉句子对自动词对齐处理,得到日-汉对齐处理结果。
很显然,针对源语言和目标语言的语言类型,还可以通过其他对应于源语言和目标语言的语言类型的对齐处理工具进行双语的词对齐处理,本实施例对词对齐处理时所使用的对齐处理工具不作具体限定。
在步骤205中,利用源语言训练句子的句法分析结果和词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库。
在利用源语言训练句子的句法分析结果和词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库时,可以根据依存树到串或短语结构树到串对齐的方法,对源语言句法分析结果和词对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库。
图5是本发明一个实施例中提供的日汉树到串对齐实例的示意图。如图5所示,在得到源语言训练句子的句法分析结果(可用句法分析树进行表示)和词对齐处理结果(即树到串对齐双语语料库)之后,需要进行源语言树到目标语言的词串的对齐处理,生成树到串双语平行语料库。在树到串对齐处理中,对源语言的句法分析树的分割方式可多种多样,比如,以谓词及其与谓词具有依存关系的子节点之间构成的语块,或者与某一个子节点具有依存关系的节点间构成的语块,或者通过各种形式的定义、通过诸如基于CYK模式的算法,遍历源语言训练句子的句法分析结果所对应的句法分析树以抽取其中的子树等形成语块等。然后计算语块的各个构成要素及双语词对齐的概率,得到树到串对齐双语语料,将各个对齐双语语料添加至双语平行语料库中。
图6是本发明一个实施例中提供的日英树到串对齐实例的示意图。图6中所示的实现方法可与上述日汉树到串对齐处理方法相同。对应的,根据日英树到串对齐双语语料得到树到串日英双语平行语料库。
在步骤206中,利用源语言训练句子的句法分析结果,抽取源语言训练句子的谓词论元结构。
在得到源语言端的源语言训练句子的句法分析结果之后,需要对源语言训练句子进行谓词论元结构抽取处理,获取输入源语言训练句子的谓词论元结构。
谓词论元结构的自动抽取,需要对源语言训练句子的句法结构和谓词论元结构进行适当的定义,以整合句法结构和语义结构信息。
可选的,在利用源语言测试句子的句法分析结果,抽取源语言测试句子的谓词论元结构时,可以包括如下两种方式:
第一种方式,采用谓词格框架,从句法分析结果中抽取谓词论元结构,得到源语言训练句子的谓词论元结构。
第二种方式,采用格语法或依存文法,从句法分析结果中抽取谓词论元结构,得到源语言训练句子的谓词论元结构。
第三种方式,采用源语言训练句子的依存树或短语结构树,从句法分析结果中抽取谓词论元结构,得到源语言训练句子的谓词论元结构。
可选的,在抽取谓词论元结构之后,还可以对抽取的谓词论元结构进行泛化扩展。请参见图7所示。
图7是本发明一个实施例中提供的日语动词格框架抽取结果的示意图。在图7中,句子中心词为动词“食べる”,其表层格框架由动词以及三个名词短语组成,施事格“お母さんが”,场所格“レストランで”以及对象格“便当を”。其深层格框架如图4所示的格助词附加每个格所属的语义信息形成语义约束关系,如格助词“が(ガ)”附带的词“お母さん(母亲)”的语义信息可以是“人”,“で(デ)”附带的词“レストラン(餐馆)”的语义信息可以是“场所”,“を(ヲ)”作为对象格的附带词“便当(料理)”的语义信息可以是“食物”,则以动词“食べる”为中心词,“人”、“场所”和“食物”形成日语动词“食べる”的具有语义约束关系的深层语义格框架。
类似的,请参见图8所示,图8是本发明另一个实施例中提供的日语动词格框架抽取结果的示意图。
需要说明的是,格语法是一种着重探讨句法结构与语义之间关系的语法理论和语义学理论。格语法包括基本规则、词汇和转换等三个组成部分,格框架文法认为命题中需用的格包括:施事格、工具格、受事格、使成格、方位格、客体格等6种,在语言分析时又加了受益格、源点格、终点格及伴随格等。格语法理论强调句子结构由一个核心动词以及许多名词短语组成,每个短语与核心动词均存在某种特定的格关系。即格框架文法中的格框架描述了自然语言句子的深层结构和语义信息,在自然语言处理中起到十分重要的作用。
在本实施例中,以日语为源语言,采用日语格语法的谓词格框架实现日语的句法结构和语义结构的整合。日语属于黏着语系,属于典型的格语法语言,其谓词格框架具有典型的谓词论元结构特征。日语的谓词论元结构的中的每个论元的语法及语义功能可以作为日语格框架中的每个格的语义属性加以标注进行整合。可以使用前述分词工具JUMAN和句法分析器KNP得到包含谓词论元结构信息的日语依存句法分析结果。本实施例中,日语的谓词论元结构和日语的句法结构,可通过分析日语句子中谓词的日语格框架来实施。
本实施例中,为了说明日语格框架的抽取过程,对日语格框架的形式化描述如下:
使用三元组<V,C,R>定义日语格框架文法。
其中:V表示日语谓词原型的集合,以区别于谓词的活用形;C表示日语谓词的活用形集合,活用形描述谓词在句子中的时态、意愿、假设、祈使、能动、被动等变化形式;R表示日语格助词集合,日语格助词中的表层格包括:ガ格、ヲ格、ニ格、カラ格、ヘ格、ト格、ヨリ格、マデ格、デ格等,其代表性的格助词分别包括:が、を、に、から、へ、と、より、まで、で日等。除此以外,日语副助词“は”、“では”和“には”等也具有格助词的特性。
对于任意一个日语句子的中心谓词,包括动词、形容词或形容动词,其格框架(CF)可由三元组定义。其中:
h∈V为句子的中心谓词的原型或词干。
t∈C为句子的中心谓词在句中的活用形。
表示句子的中心谓词的格框架的各个格助词,每一个格助词的顺序按照其在句子中的先后顺序进行排序并进行标号,其中R*表示集合R中所有元素形成的闭包集合,即R中的所有元素的排列组合形成的字符串集合。
自动获取日语格框架的方法如下:
对于一个完成了日语依存句法分析的句子,其中心谓词可从依存句法分析树(即表示第一源语言句法分析结果所对应的句法分析树)的根节点的语块中获取。该中心谓词的格框架,可以由以下两种方法得到:
第一种方法,从第一源语言句法分析结果所对应的句法分析树中自动抽取谓词格框架。
具体的,可以通过分析与句子中心谓词所在节点有直接依存关系的日语格助词与集合R中的元素进行模式匹配,得到该中心谓词的格框架。
如图3所示的日语依存树,与动词词干“食べる”有依存关系的格助词分别为“は”,“で”和“を”,对应的表层格关系为“ガ格”,“デ格”以及“ヲ格”。
第二种方法,利用格框架库,与第一源语言句法分析结果所对应的句法分析树进行模式匹配,获取格框架。
当格框架库为日语格框架库时,该方法的优点可有效弥补日语句子当中被省略的日语格助词,使获取的日语格框架成份具有完整性。该方法中使用的日语格框架库为已有的格框架库。
格框架库中,动词“食べる”的部分词汇化格框架,与句子中的中心词和与之有依存关系的格助词、及格助词所依存的词干进行模式匹配,可以获取动词“食べる”的格框架。
当使用第二种方法抽取特定中心谓词的格框架时,存在复数格框架选择的可能性。在此情况下,可结合第一种方法获取的格框架,计算格框架的相似度,选取与第一种方法相似度最高的候选结果作为该中心谓词的格框架。
依据上述格框架的定义图3所表述的句子中,动词“食べる”的格框架表述形式为:h:食べt:基本形x1:ガ格x2:デ格x3:ヲ格
其格框架表现形式为:<食べる,基本形,:x1:ガ格x2:デ格x3:ヲ格>
依据此方法,可以获得日语输入句子的谓词的整体或者局部的句法结构和谓词论元结构,通过日语格框架整合了日语的句法结构和语义结构信息。
在步骤207中,利用源语言训练句子的谓词论元结构以及树到串对齐双语语料库,抽取翻译规则,将翻译规则放入翻译规则库中。
在得到源语言训练句子的谓词论元结构之后,还需要结合双语树到串对齐处理生成的树到串对齐双语语料库,进行翻译规则抽取处理,抽取得到翻译规则形成翻译规则库。
可选的,在抽取出翻译规则后,还可以对这些翻译规则进行泛化扩展;在形成翻译规则库时,则可以利用泛化扩展后的翻译规则形成翻译规则库。
本实施例以基于语块的依存树到串模型加以说明本实施例公开的日汉机器翻译方法。
首先,定义三元组<T,S,A>来描述日汉双语句对,其中,T为源端依存句法分析树,每个节点由一个组块构成,S为目标端字符串序列,A为双语词对齐关系。图5为该三元组的一个实例。
定义的依存树到串模型中,翻译规则包含两部分:
(1)词汇化翻译规则(LTR规则)。LTR规则的作用在于,将源端语块或短语,转化为目标端对应的翻译结果。
(2)格框架调序规则(CFR规则)。通过使用CFR规则,将源端依存树结构转化为目标端序列。
翻译模型中,CFR规则的形式化定义为是对格框架的延伸。其中,ω∈R*记录该框架在目标端句子中的对应顺序。
翻译模型的规则抽取包含如下三个步骤:1)依存句法分析树标记;2)CFR规则抽取子树判定;3)规则抽取。
其中,针对依存句法分析树标记,定义依存树T中的每个节点均包含两个属性:1)对齐跨度,2)子树对齐跨度。
定义1:任意依存树T中的节点n,该节点的对齐跨度hsp(n)为目标端中与节点n存在词对关系的目标端词集合。
如图5所示,由于目标端词“在”与“餐馆”与节点“レストランで”中的词存在对应关系,因此hsp(レストランで)={2,3}。
定义2:任意依存树T中的节点n,若hsp(n)满足如下条件,则认为hsp(n)是独立的。
∀ n , ≠ n hsp ( n , ) ∩ hsp ( n ) = φ
定义3:对于以节点n为根的子树T,,子树对齐跨度dsp(n)的定义如下:
dsp ( n ) = ∪ n , ∈ T , hsp ( n , )
例如,dsp(料理を)可以根据如下方法计算。料理
dsp(お母さんが)=hsp(あなたの)∪hsp(お母さんが)={1-3}
根据上述定义,通过使用后序遍历算法,依存树T中的各个节点标记对齐跨度以及子树对齐跨度。
针对CFR规则抽取子树判定,由于词对齐错误、俚语等情况的存在,并非所有格框架均可以抽取CFR规则。因此,在规则抽取前,需要判定格框架是否可以抽取CFR规则。
定义4:T,为T的子树,若T,根节点存在中心谓词,且可以抽取格框架,则子树T,∈cft(T)。
定义5:在日语依存树T中,可抽取CFR规则的子树集合为adt(T)。对任意T,∈cft(T),若T,满足如下条件,则T,∈adt(T):
条件1:hsp(chunk(h))≠φ
条件2 ∀ n , relates to chunk ( h ) dsp ( n , ) ≠ φ
条件3:在该子树中,hsp(chunk(h))独立
其中,chunk(h)表示词h所在语块。
在图5中以“食べる”为根的子树T,∈cft(T),格框架为<食べる,基本形,:x1:ガ格x2:デ格x3:ヲ格>。依据上述条件可知:
hsp(chunk(食べる))=hsp(食べる)={6}满足条件1和条件3。
dsp(お母さんが),dsp(レストランで)和dsp(料理を)均不为φ,即不为空,满足条件2。
因此,T,∈adt(T)可以抽取CFR规则。
针对LTR规则抽取子树判定,本发明使用自顶向下遍历依存树的方法抽取翻译规则,具体抽取方法如下。
LTR规则抽取:
依存树的遍历过程中,在下述两种情况下,需要抽取LTR规则:
1)依存树节点的语块。对于依存树中每个节点的语块,根据双语词对齐信息A及目标语言端词序列S,基于短语模型的规则抽取方法,抽取LTR规则。
2)若子树则将该子树转化为源端字符串序列,视作一个语块,参照情况1规则抽取方法获取LTR规则。
图9是本发明一个实施例中提供的抽取LTR规则的示意图,图9中是对子树抽取LTR规则的一个实例。类似的,请参见图10,图10是本发明另一个实施例中提供的抽取LTR规则的示意图。
CFR规则抽取:
若子树T,∈adt(T),则根据依存树标记信息,抽取CFR规则,具体方法如下:
首先,获取任意格助词所在组块的子树对齐跨度以及动词h所在组块的对齐跨度hsp(h)。
然后,根据获取的及hsp(h)信息,确定在该句对中,子树T,的格框架中格助词及中心谓词在目标语言端的顺序关系,记录在ω中。获取最终的CFR规则。
依据上述方法,图5中动词“食べる”的格框架在目标端的调序后为ω=x1x2hx3。从而,该格框架的CFR规则如下。其中,h代表该格框架的中心谓词:
<食べる,基本形,:x1:ガ格x2:デ格x3:ヲ格,x1x2hx3>
其中,概率计算方法:
LTR规则的概率计算,公式如下所示:
P ( s | t ) = count ( s , t ) Σ t count ( s , t )
CFR规则的概率计算,本发明使用最大似然估算方法,计算方法的公式如下:
在统计模型下,CFR规则可做如下修正处理:
京都大学日语格框架库中,共收录了34,059个日语动词的格框架。由于训练语料规模限制,日语动词格框架的CFR规则无法全部从训练语料中抽取,该问题的产生将导致解码过程中CFR规则无法匹配的问题。为解决数据稀疏问题造成的CFR规则缺失,本发明基于日语中心谓词的词性,将日语中心谓词进行分类。CFR规则形式化定义经过修正后,定义h为中心谓词的词性标记。
依据上述修正处理,上述例句中原有的CFR规则:
<食べる,基本形,:x1:ガ格x2:デ格x3:ヲ格,x1x2hx3>
其中,日语动词“食べる”的词性为“母音動詞”。本发明统计模型下,该CFR规则的最终表现形式为:
<母音動詞,基本形,:x1:ガ格x2:デ格x3:ヲ格,x1x2hx3>
在训练后得到翻译规则库之后,则可以利用该翻译规则库进行翻译,为了便于理解,下面对翻译步骤中的各步骤进行解释,具体可以参见如下:
在步骤208中,获取输入的源语言测试句子。
即获取将要被翻译的源语言句子,并可以将该源语言句子称为源语言测试句子,在翻译过程中对获取的源端输入的源语言句子的称谓并不用于限定本发明的保护范围。
步骤209中的词法分析、步骤210中的句法结构分析以及步骤211中的谓词轮元结构抽取的过程均与训练过程中的处理相同,具体可以参见对步骤202、步骤203和步骤206的描述,这里就不再赘述。
在步骤212中,利用谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对源语言测试句子进行翻译解码处理,输出语言为目标语言的翻译结果。
可选的,在利用谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对源语言测试句子进行翻译解码处理时,还可以同时考虑翻译规则库中预先训练得到的目标语言模型,该目标语言模型是在训练过程中通过目标语言的语料库训练得到的,也即可以利用谓语论元结构和翻译规则库中预先训练得到的翻译规则以及目标语言模型,对源语言测试句子进行翻译解码处理。
本实施例的解码使用对数线性模型,对于给定的日语依存树,从所有可能的结果D中,寻找出最优结果d*。公式如下:
d*=argmaxd∈D(P(D))
假设d为源语言依存句法树T转化为目标语言串e的可能方式。d的概率定义公式如下:
P ( d ) ∝ Π i Φ i ( d ) λ i
其中,Φi为特征参数,λi为特征参数的权重。本实施例的模型中,包含了8个权重:
CFR规则概率
LTR规则概率P(S|T)和P(T|S)
词汇化概率Plex(s|t)和Plex(t|s)
规则惩罚exp(-1)
字惩罚exp(|e|)
语言模型Plm(e)
本实施例可使用最小错误率训练方法对参数λi进行优化。
本实施例使用自顶向下的方法进行解码。图11是本发明一个实施例中提供的解码处理的示意图。具体算法流程描述见算法1的伪代码:
算法根据下述两个要点进行解码:
1)若以当前节点为根的子树将该子树转化为源端字符串序列,视作一个语块,使用LTR规则进行翻译。
2)若以当前节点为根的子树T,∈adt(T),使用LTR规则翻译T,根节点的语块,递归对依存于当前节点的所有子树进行解码。最后,使用CFR规则对该节点及依存于该节点的子树进行调序,合并子树。
通过上述方法,最终获取依存树的最佳翻译结果。
如图11所示,给定的日语句子:“あなたのお母さんがレストランで美味しい料理を食べる”的翻译结果为:“你的母亲在餐馆吃美味的便当”。
为了得知本发明的翻译效果,利用本发明实施例中提供的训练步骤和翻译步骤进行了两组实验。在第一组实验中,本发明使用日汉新闻与专利文献两个领域进行实验。其中,新闻使用CWMT2011评测中的日汉新闻平行语料,专利文献使用ASPEC的日汉专利文献语料,语料相关信息如下:
训练集 开发集 测试集
新闻领域 282,377 498 947
专利文献 672,315 2,148 2,107
为比较本发明提出的翻译模型的有效性,使用层次短语模型(HPB)与本发明的方法(Cdep2str)进行比较。同时,为了验证使用基于语块的依存树到串模型的效果,实验中使用【文献1】提出的基于词的依存树到串模型(dep2str)与本发明的方法进行比较。在使用dep2str模型前,本实验先将日语基于语块的依存树转化为基于词的依存树。
【文献1】Xie J,Mi H,Liu Q.A novel dependency-to-string model forstatistical machine translation.In Proceedings of the Conference on EmpiricalMethods in Natural Language Processing.ACL2011,pp.216-226.
在第一组实验过程中,使用的工具配置如下:
Juman7.0:(http://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?JUMAN)日语分词工具。
KNP4.0.1:(http://nlp.ist.i.kyoto-u.ac.jp/EN/index.php?KNP)日语依存句法分析工具。
Stanford Chinese Segmenter:中文分词工具,使用CTB中文分词标准(http://nlp.stanford.edu/software/segmenter.shtml)。
GIZA++:进行双语词对齐计算,并使用“grow-diag-final-and”对双向对齐结果进行融合(http://code.google.com/p/giza-pp/)。
SRL:Language Modeling Toolkit:构建汉语五元语言模型(http://www.speech.sri.com/projects/srilm/)。
MOSES:训练实验过程中的层次短语模型(HPB),短语模型中,最大短语长度设置为10(http://www.statmt.org/moses/)。
MERT【文献1】:对模型参数进行优化,在开发集上获得较高的BLEU值。
第一组实验的实验结果如下表所示:
该第一组实验的实验结果表明,在不同领域下,本发明提出的翻译方法相对于层次短语模型,BLEU均有了一定的提高,同时,抽取的规则数量远小于层次短语模型。虽然dep2str模型抽取的规则数量是三个模型中最少的,但是,其翻译性能在三个模型中效果最差。
与HPB模型相比,本发明提出的模型Cdep2str存在两个方面的优势:
在句法结构调序方面:日语与汉语分别属于黏着语系和孤立语系,两者间存在显著的句法结构差异,句法结构调序问题复杂。由于规则抽取的长度限制,HPB模型无法正确选择长距离调序规则。与此同时,Cdep2str模型使用基于格框架的CFR规则,在句法层面对译文进行调序,有效地解决了日汉统计机器翻译中的句法结构差异问题。如下例所示,Cdep2str模型对日语句子进行了正确的句法调序。
在词汇翻译方面:本发明公开的翻译模型的规则抽取中,通过使用依存句法结构限制,对词汇化翻译规则的抽取进行限制。与HPB模型相比,本发明公开的模型有效降低了词汇化翻译规则的噪声。如下所示,在翻译“航空便で”的词汇选择上,本发明的方法的词汇翻译结果较好。
原句 航空便でいくらぐらいかかりますか。
参考译文 寄航空要多少钱?
HPB 用航空大约要多少钱?
Cdep2str 用航空邮寄要多少钱?
由于日汉句法结构存在较大差异,导致训练语料的词对齐效果较差。dep2str模型以词作为规则抽取的基本单元,将导致大量的词汇化翻译规则无法抽取,因此,单纯的dep2str模型较难以适用于日汉统计机器翻译。
在第二组实验中,以源语言为日语、目标语言为英语为例,类似于上述第一组实验,在第二组实验中,本发明从NTCIR-10专利文献语料库中抽取实验数据验证有效性,使用开发集dev1作为开发集,dev2以及dev3作为测试集,抽取的语料相关信息如下表所示。
训练集 开发集 测试集
专利文献 300,000 915 1,826
基线系统采用层次短语模型(HPB)与本发明的方法(Cdep2str)进行比较。同时,为了验证基于语块的依存树到串模型和现有的基于词的依存树到串模型的性能差异,实验采用与图2中实施例相同的基于词的依存树到串模型(dep2str)进行比较。
第二组实验的实验工具配置如下:
Juman7.0:日语分词工具。
KNP4.0.1:日语依存句法分析工具。
GIZA++:进行双语词对齐计算,并使用“grow-diag-final-and”对双向对齐结果进行融合。
SRL Language Modeling Toolkit:构建英文五元语言模型。
MOSES:训练实验中的层次短语模型(HPB),短语模型中,最大短语长度设置为10。
MERT:对模型参数进行优化,在开发集上获得较高的BLEU值。
第二组实验的实验结果如下表所示。该第二组实验的实验结果表明,在不同领域下,本发明的实验结果较层次短语模型相比BLEU有一定的提高,且抽取的规则数量远小于层次短语模型。与dep2str相比性能更具优异性。
规则表大小 BLEU-4
Cdep2str 19M 17.93*
HPB 138M 17.74
dep2str 16M 15.37
与HPB模型相比,本发明的方法在相对较小的规则表集合下,仍然获取了较好的翻译质量。通过对翻译结果译文的分析,本发明在如下方面存在良好的优势:
在句法结构调序方面:日语与英语分属于黏着语系与屈折语系,在句法结构上存在着巨大的差异。在统计机器翻译中,句法结构上的差异,随着句子长度的增加,HPB方法在长距离调序上存在的问题凸显而出,无法有效的实现大规模的长距离调序。而本发明的方法基于句法结构,对句子结构层面上实现了长距离调序,获得了较好的效果。以下述例子为例,HPB方法在解码时,将两个属于不同句法成分结构的短语进行了错误的调序,无法从该译文中获取正确的信息。
在并列结构翻译方面:日语与英语在处理并列结构上存在着较大的区别。如下例句子,日语句子中存在[ガス噴出孔50から噴出し]及[エアバッグ24を展開させる]两个并列句。在英文端,HPB规则简单的做出并列翻译,而没有考虑到两个短语间的递进关系,导致翻译错误。而本发明Cdep2str方法,通过分析句子并列结构中的格框架结构,在句法层面对词语调序及时态使用进行了限制,获得了更好的翻译性能。
实验结果证明,本发明相对于基于词的依存树到串模型,存在更好的容错性能,导致统计机器翻译结果较好。本发明实现了日语格框架和依存树到串模型的有机融合,大大降低了所抽取规则的数量和规模,改善了日英机器翻译的结构调序问题,提高了翻译性能。
上述实施例的实验结果充分验证了本发明的机器翻译方法和机器翻译装置的有效性。本发明利用句子结构信息和谓词论元结构的语义信息,实现了基于句法结构和谓词论元结构相融合的树到串统计翻译模型,实验结果显示可有效抑制冗余翻译规则的抽取数量,并改善句子结构的全局调序。本发明对发展和实现基于语义的统计机器翻译理论具有较大的促进作用。
综上所述,本发明实施例中提供的机器翻译方法,通过有效利用句子结构信息和谓词论元结构的语义信息,仅使用源语言端的句法分析结果,实现基于谓词论元结构的树到串统计翻译模型,通过使用谓词论元结构抽取调序规则,有效改善句子结构的全局调序问题,本发明综合利用句子结构信息和谓词论元结构信息进行统计机器翻译的建模和解码,对发展和实现基于语义的统计机器翻译理论起到较大的促进作用。
在本发明的实施例中,以日语依存树作为源语言句法分析的实例进行了说明,在本发明的事实过程中,也可以采用短语结构树,或者根据需要将依存结构树和短语结构树相互转换加以实现,从而在树到串对齐处理过程中生成依存树到串或者短语结构树到串对齐双语语料来实现本发明的机器翻译方法。
在本发明的一种可能的实施例中,还可以在针对源语言和目标语言在全局结构上的差异的规律性,对源语言谓词论元结构抽取的结果,依据目标语言谓词的句法结构特点,把源语言的论元结构转换成目标语言结构,生成目标语言的译文,来实现本发明的机器翻译方法。
图12是本发明一个实施例中提供的机器翻译系统的结构示意图,该机器翻译系统可以通过软件、硬件或者两者的结合实现成为用于计算机的部分或者全部。该机器翻译系统1200可以包括翻译子系统1220,
翻译子系统1220可以包括:第一获取模块1221、第一词法分析模块1222、第一句法分析模块1223、第一抽取模块1224和翻译模块1225。
第一获取模块1221,用于获取输入的源语言测试句子;
第一词法分析模块1222,用于对第一获取模块1221获取到的源语言测试句子进行词法分析,得到源语言测试句子的词法分析结果;
第一句法分析模块1223,用于对第一词法分析模块1222分析得到的源语言测试句子的词法分析结果进行句法结构分析,得到源语言测试句子的句法分析结果;
第一抽取模块1224,用于利用第一句法分析模块1223分析得到的源语言测试句子的句法分析结果,抽取源语言测试句子的谓词论元结构;
翻译模块1225,用于利用第一抽取模块1224抽取的谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对源语言测试句子进行翻译解码处理,输出语言为目标语言的翻译结果。
综上所述,本发明实施例中提供的机器翻译装置,通过有效利用句子结构信息和谓词论元结构的语义信息,仅使用源语言端的句法分析结果,实现基于谓词论元结构的树到串统计翻译模型,通过使用谓词论元结构抽取调序规则,有效改善句子结构的全局调序问题,本发明综合利用句子结构信息和谓词论元结构信息进行统计机器翻译的建模和解码,对发展和实现基于语义的统计机器翻译理论起到较大的促进作用。
图13是本发明另一个实施例中提供的机器翻译系统的结构示意图,该机器翻译系统可以通过软件、硬件或者两者的结合实现成为用于计算机的部分或者全部。该机器翻译系统1300可以包括翻译子系统1320,
翻译子系统1320可以包括:第一获取模块1321、第一词法分析模块1322、第一句法分析模块1323、第一抽取模块1324和翻译模块1325。
第一获取模块1321,可以用于获取输入的源语言测试句子;
第一词法分析模块1322,可以用于对第一获取模块1321获取到的源语言测试句子进行词法分析,得到源语言测试句子的词法分析结果;
第一句法分析模块1323,可以用于对第一词法分析模块1322分析得到的源语言测试句子的词法分析结果进行句法结构分析,得到源语言测试句子的句法分析结果;
第一抽取模块1324,可以用于利用第一句法分析模块1323分析得到的源语言测试句子的句法分析结果,抽取源语言测试句子的谓词论元结构;
翻译模块1325,可以用于利用第一抽取模块1324抽取的谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对源语言测试句子进行翻译解码处理,输出语言为目标语言的翻译结果。
在一种可能的实施例中,该机器翻译系统1300还可以包括训练子系统1340,
训练子系统1340可以包括:第二获取模块1341、第二词法分析模块1342、第二句法分析模块1343、第一对齐模块1344、第二对齐模块1345、第二抽取模块1346和第三抽取模块1347。
第二获取模块1341,可以用于获取输入的双语平行语料的源语言训练句子和目标语言训练句子;
第二词法分析模块1342,可以用于分别对第二获取模块1341获取到的源语言训练句子和目标语言训练句子进行词法分析,得到源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果;
第二句法分析模块1343,可以用于利用第二词法分析模块1342分析得到的源语言训练句子的词法分析结果,对源语言训练句子进行句法结构分析,得到源语言训练句子的句法分析结果;
第一对齐模块1344,可以用于利用第二句法分析模块1343分析得到的源语言训练句子的词法分析结果和目标语言训练句子的词法分析结果进行词对齐处理,得到词对齐处理结果;
第二对齐模块1345,可以用于利用第二句法分析模块1343分析得到的源语言训练句子的句法分析结果和第一对齐模块1344对齐得到的词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库;
第二抽取模块1346,可以用于利用第二句法分析模块1343分析得到的源语言训练句子的句法分析结果,抽取源语言训练句子的谓词论元结构;
第三抽取模块1347,可以用于利用第二抽取模块1346抽取得到的源语言训练句子的谓词论元结构以及第二对齐模块1345对齐得到的树到串对齐双语语料库,抽取翻译规则,将翻译规则放入翻译规则库中。
在一种可能的实施例中,第一句法分析模块1323可以包括:第一句法分析单元1323a,或,第二句法分析单元1323b。
第一句法分析单元1323a,用于采用依存结构分析或短语结构分析的方法,对第一词法分析模块分析得到的源语言测试句子的词法分析结果进行句法结构分析,得到句法分析结果;
或,
第二句法分析单元1323b,用于采用依存结构树和短语结构树相互转化的方法,对对第一词法分析模块分析得到的源语言测试句子的词法分析结果进行句法结构分析,得到句法分析结果。
在一种可能的实施例中,第二对齐模块1345,还可以用于:
根据依存树到串或短语结构树到串对齐的方法,对源语言句法分析结果和词对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库。
在一种可能的实施例中,该训练子系统1340还可以包括:第一泛化扩展模块1348和第二泛化扩展模块1349。
第一泛化扩展模块1348,用于对第二抽取模块1346抽取得到的源语言训练句子的谓词论元结构中的构成元素分别进行泛化扩展;
第二泛化扩展模块1349,用于对第三抽取模块1347抽取的翻译规则进行泛化扩展,利用泛化扩展后的翻译规则生成翻译规则库。
在一种可能的实施例中,第一抽取模块1324可以包括:第一抽取单元1324a,或,第二抽取单元1324b,或,第三抽取单元1324c。
第一抽取单元1324a,用于采用谓词格框架,从第一句法分析模块1323分析得到的句法分析结果中抽取谓词论元结构,得到源语言训练句子的谓词论元结构;
或,
第二抽取单元1324b,用于采用格语法或依存文法,从第一句法分析模块1323分析得到的句法分析结果中抽取谓词论元结构,得到源语言训练句子的谓词论元结构;
或,
第三抽取单元1324c,用于采用源语言训练句子的依存树或短语结构树,从第一句法分析模块1323分析得到的句法分析结果中抽取谓词论元结构,得到源语言训练句子的谓词论元结构。
综上所述,本发明实施例中提供的机器翻译装置,通过有效利用句子结构信息和谓词论元结构的语义信息,仅使用源语言端的句法分析结果,实现基于谓词论元结构的树到串统计翻译模型,通过使用谓词论元结构抽取调序规则,有效改善句子结构的全局调序问题,本发明综合利用句子结构信息和谓词论元结构信息进行统计机器翻译的建模和解码,对发展和实现基于语义的统计机器翻译理论起到较大的促进作用。
在本发明的实施例中,以日语依存树作为源语言句法分析的实例进行了说明,在本发明的事实过程中,也可以采用短语结构树,或者根据需要将依存结构树和短语结构树相互转换加以实现,从而在树到串对齐处理过程中生成依存树到串或者短语结构树到串对齐双语语料来实现本发明的机器翻译系统。
在本发明的一种可能的实施例中,还可以在针对源语言和目标语言在全局结构上的差异的规律性,对源语言谓词论元结构抽取的结果,依据目标语言谓词的句法结构特点,把源语言的论元结构转换成目标语言结构,生成目标语言的译文,来实现本发明的机器翻译系统。
需要说明的是:上述实施例中提供的机器翻译系统在训练机器翻译模型并利用机器翻译模型进行翻译时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将机器翻译设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的机器翻译系统与机器翻译方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
需要补充说明的是,本发明的机器翻译方法和机器翻译装置不是针对两种特定的语言而提出,所以本发明的方法具有普遍适用性。本发明同样也适用于其他语言对。
本发明的实施例中,以日语依存树作为源语言句法分析的实例进行了说明,在本发明的事实过程中,也可以采用短语结构树,或者根据需要将依存结构树和短语结构树相互转换加以实现,从而在树到串对齐处理过程中生成依存树到串或者短语结构树到串对齐双语语料来实现本发明的机器翻译方法。
根据本发明的优选实施例,还可以在针对源语言和目标语言在全局结构上的差异的规律性,对源语言谓词论元结构抽取的结果,依据目标语言谓词的句法结构特点,把源语言的论元结构转换成目标语言结构,生成目标语言的译文,来实现本发明的机器翻译方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种机器翻译方法,其特征在于,所述方法包括翻译步骤,
所述翻译步骤包括:
获取输入的源语言测试句子;
对所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结果;
对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果;
利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结构;
利用所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对所述源语言测试句子进行翻译解码处理,输出语言为所述目标语言的翻译结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括训练步骤,
所述训练步骤包括:
获取输入的双语平行语料的源语言训练句子和目标语言训练句子;
分别对所述源语言训练句子和所述目标语言训练句子进行词法分析,得到所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果;
利用所述源语言训练句子的词法分析结果,对所述源语言训练句子进行句法结构分析,得到所述源语言训练句子的句法分析结果;
利用所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果进行词对齐处理,得到词对齐处理结果;
利用所述源语言训练句子的句法分析结果和所述词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库;
利用所述源语言训练句子的句法分析结果,抽取所述源语言训练句子的谓词论元结构;
利用所述源语言训练句子的谓词论元结构以及所述树到串对齐双语语料库,抽取翻译规则,将所述翻译规则放入所述翻译规则库中。
3.根据权利要求1所述的方法,其特征在于,所述对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果,包括:
采用依存结构分析或短语结构分析的方法,对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述句法分析结果;
或,
采用依存结构树和短语结构树相互转化的方法,对所述源语言测试句子的词法分析结果进行句法结构分析,得到所述句法分析结果。
4.根据权利要求2所述的方法,其特征在于,所述利用所述源语言训练句子的句法分析结果和所述词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库,包括:
根据依存树到串或短语结构树到串对齐的方法,对所述源语言句法分析结果和所述词对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到所述树到串对齐双语语料库。
5.根据权利要求2所述的方法,其特征在于,在所述抽取所述源语言训练句子的谓词论元结构之后,还包括:
对所述源语言训练句子的谓词论元结构中的构成元素分别进行泛化扩展;
在所述抽取翻译规则之后,还包括:
对抽取的所述翻译规则进行泛化扩展,利用泛化扩展后的所述翻译规则生成所述翻译规则库。
6.根据权利要求1至5中任一所述的方法,其特征在于,所述利用所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结构,包括:
采用谓词格框架,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
或,
采用格语法或依存文法,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
或,
采用所述源语言训练句子的依存树或短语结构树,从所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构。
7.一种机器翻译系统,其特征在于,所述系统包括翻译子系统,
所述翻译子系统包括:
第一获取模块,用于获取输入的源语言测试句子;
第一词法分析模块,用于对所述第一获取模块获取到的所述源语言测试句子进行词法分析,得到所述源语言测试句子的词法分析结果;
第一句法分析模块,用于对所述第一词法分析模块分析得到的所述源语言测试句子的词法分析结果进行句法结构分析,得到所述源语言测试句子的句法分析结果;
第一抽取模块,用于利用所述第一句法分析模块分析得到的所述源语言测试句子的句法分析结果,抽取所述源语言测试句子的谓词论元结构;
翻译模块,用于利用所述第一抽取模块抽取的所述谓语论元结构以及翻译规则库中预先训练得到的翻译规则,对所述源语言测试句子进行翻译解码处理,输出语言为所述目标语言的翻译结果。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括训练子系统,
所述训练子系统包括:
第二获取模块,用于获取输入的双语平行语料的源语言训练句子和目标语言训练句子;
第二词法分析模块,用于分别对所述第二获取模块获取到的所述源语言训练句子和所述目标语言训练句子进行词法分析,得到所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果;
第二句法分析模块,用于利用所述第二词法分析模块分析得到的所述源语言训练句子的词法分析结果,对所述源语言训练句子进行句法结构分析,得到所述源语言训练句子的句法分析结果;
第一对齐模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子的词法分析结果和所述目标语言训练句子的词法分析结果进行词对齐处理,得到词对齐处理结果;
第二对齐模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子的句法分析结果和所述第一对齐模块对齐得到的所述词对齐处理结果,进行树到串对齐处理,生成树到串对齐双语语料,得到树到串对齐双语语料库;
第二抽取模块,用于利用所述第二句法分析模块分析得到的所述源语言训练句子的句法分析结果,抽取所述源语言训练句子的谓词论元结构;
第三抽取模块,用于利用所述第二抽取模块抽取得到的所述源语言训练句子的谓词论元结构以及所述第二对齐模块对齐得到的所述树到串对齐双语语料库,抽取翻译规则,将所述翻译规则放入所述翻译规则库中。
9.根据权利要求7所述的系统,其特征在于,所述第一句法分析模块,包括:
第一句法分析单元,用于采用依存结构分析或短语结构分析的方法,对所述第一词法分析模块分析得到的所述源语言测试句子的词法分析结果进行句法结构分析,得到所述句法分析结果;
或,
第二句法分析单元,用于采用依存结构树和短语结构树相互转化的方法,对所述第一词法分析模块分析得到的所述源语言测试句子的词法分析结果进行句法结构分析,得到所述句法分析结果。
10.根据权利要求8所述的系统,其特征在于,所述第二对齐模块,还用于:
根据依存树到串或短语结构树到串对齐的方法,对所述源语言句法分析结果和所述词对齐处理结果进行树到串对齐处理,生成树到串对齐双语语料,得到所述树到串对齐双语语料库。
11.根据权利要求8所述的系统,其特征在于,所述训练子系统还包括:
第一泛化扩展模块,用于对所述第二抽取模块抽取得到的所述源语言训练句子的谓词论元结构中的构成元素分别进行泛化扩展;
第二泛化扩展模块,用于对所述第三抽取模块抽取的所述翻译规则进行泛化扩展,利用泛化扩展后的所述翻译规则生成所述翻译规则库。
12.根据权利要求7至11中任一所述的系统,其特征在于,所述第一抽取模块,包括:
第一抽取单元,用于采用谓词格框架,从所述第一句法分析模块分析得到的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
或,
第二抽取单元,用于采用格语法或依存文法,从所述第一句法分析模块分析得到的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构;
或,
第三抽取单元,用于采用所述源语言训练句子的依存树或短语结构树,从所述第一句法分析模块分析得到的所述句法分析结果中抽取谓词论元结构,得到所述源语言训练句子的谓词论元结构。
CN201410461334.9A 2014-09-11 2014-09-11 机器翻译方法及系统 Active CN104268133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410461334.9A CN104268133B (zh) 2014-09-11 2014-09-11 机器翻译方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410461334.9A CN104268133B (zh) 2014-09-11 2014-09-11 机器翻译方法及系统

Publications (2)

Publication Number Publication Date
CN104268133A true CN104268133A (zh) 2015-01-07
CN104268133B CN104268133B (zh) 2018-02-13

Family

ID=52159655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410461334.9A Active CN104268133B (zh) 2014-09-11 2014-09-11 机器翻译方法及系统

Country Status (1)

Country Link
CN (1) CN104268133B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991890A (zh) * 2015-07-15 2015-10-21 昆明理工大学 一种基于汉越词对齐语料构建越南语依存树库的方法
CN105573994A (zh) * 2016-01-26 2016-05-11 沈阳雅译网络技术有限公司 基于句法骨架的统计机器翻译系统
US10073838B2 (en) 2016-02-12 2018-09-11 Wipro Limited Method and system for enabling verifiable semantic rule building for semantic data
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN109918646A (zh) * 2019-01-30 2019-06-21 中国科学院自动化研究所 篇章因果关系判断方法、系统、装置
CN110110336A (zh) * 2019-05-05 2019-08-09 西北民族大学 一种面向藏汉机器翻译的藏语句法语料库的构建方法
CN110874535A (zh) * 2018-08-28 2020-03-10 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质
CN112069800A (zh) * 2020-09-14 2020-12-11 深圳前海微众银行股份有限公司 基于依存句法的句子时态识别方法、设备和可读存储介质
CN112836516A (zh) * 2019-11-25 2021-05-25 中移(苏州)软件技术有限公司 一种语义分析方法及装置、终端、存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012079257A1 (zh) * 2010-12-17 2012-06-21 北京交通大学 机器翻译装置和方法
CN102243626A (zh) * 2011-07-22 2011-11-16 中国科学院计算技术研究所 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN103020045B (zh) * 2012-12-11 2015-05-13 中国科学院自动化研究所 一种基于谓词论元结构的统计机器翻译方法
CN103714053B (zh) * 2013-11-13 2017-05-10 北京中献电子技术开发中心 一种面向机器翻译的日语动词识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘群: "基于句法的统计机器翻译模型与方法", 《中文信息学报》 *
刘群等: "基于句法的统计机器翻译研究", 《中国中文信息学会二十五周年学术会议论文集》 *
吴培昊等: "面向短语统计机器翻译的汉日联合分词研究", 《计算机工程与应用》 *
宗成庆: "《统计自然语言处理》", 31 May 2008 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991890A (zh) * 2015-07-15 2015-10-21 昆明理工大学 一种基于汉越词对齐语料构建越南语依存树库的方法
CN105573994A (zh) * 2016-01-26 2016-05-11 沈阳雅译网络技术有限公司 基于句法骨架的统计机器翻译系统
CN105573994B (zh) * 2016-01-26 2019-03-22 沈阳雅译网络技术有限公司 基于句法骨架的统计机器翻译系统
US10073838B2 (en) 2016-02-12 2018-09-11 Wipro Limited Method and system for enabling verifiable semantic rule building for semantic data
CN110874535A (zh) * 2018-08-28 2020-03-10 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质
CN110874535B (zh) * 2018-08-28 2023-07-25 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN109918646A (zh) * 2019-01-30 2019-06-21 中国科学院自动化研究所 篇章因果关系判断方法、系统、装置
CN110110336A (zh) * 2019-05-05 2019-08-09 西北民族大学 一种面向藏汉机器翻译的藏语句法语料库的构建方法
CN112836516A (zh) * 2019-11-25 2021-05-25 中移(苏州)软件技术有限公司 一种语义分析方法及装置、终端、存储介质
CN112836516B (zh) * 2019-11-25 2023-09-08 中移(苏州)软件技术有限公司 一种语义分析方法及装置、终端、存储介质
CN112069800A (zh) * 2020-09-14 2020-12-11 深圳前海微众银行股份有限公司 基于依存句法的句子时态识别方法、设备和可读存储介质

Also Published As

Publication number Publication date
CN104268133B (zh) 2018-02-13

Similar Documents

Publication Publication Date Title
CN104268133A (zh) 机器翻译方法及系统
CN104268132B (zh) 机器翻译方法及系统
KR101301535B1 (ko) 하이브리드 번역 장치 및 그 방법
JP5452868B2 (ja) トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
CN102799578B (zh) 一种基于依存句法树的翻译规则抽取方法和翻译方法
Liu et al. Improving tree-to-tree translation with packed forests
US20080120092A1 (en) Phrase pair extraction for statistical machine translation
KR101818598B1 (ko) 자동 번역 엔진 서버 및 자동 번역 방법
CN104239290B (zh) 基于依存树的统计机器翻译方法及系统
CN103020148A (zh) 一种将中文短语结构树库转化为依存结构树库的系统和方法
CN102760121B (zh) 依存映射方法及系统
CN106156013A (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Zaremoodi et al. Incorporating syntactic uncertainty in neural machine translation with forest-to-sequence model
CN113408307B (zh) 一种基于翻译模板的神经机器翻译方法
Pust et al. Using syntax-based machine translation to parse english into abstract meaning representation
Wołk et al. Real-time statistical speech translation
Sánchez-Cartagena et al. The ua-prompsit hybrid machine translation system for the 2014 workshop on statistical machine translation
Ambati et al. Extraction of syntactic translation models from parallel data using syntax from source and target languages
Sánchez-Cartagena et al. Integrating rules and dictionaries from shallow-transfer machine translation into phrase-based statistical machine translation
Wołk Noisy-parallel and comparable corpora filtering methodology for the extraction of bi-lingual equivalent data at sentence level
Satpathy et al. Analysis of Learning Approaches for Machine Translation Systems
Horvat Hierarchical statistical semantic translation and realization
Viet et al. Dependency-based pre-ordering for English-Vietnamese statistical machine translation
Nidhi et al. English-maithili machine translation and divergence
JP3919732B2 (ja) 機械翻訳装置及び機械翻訳プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant