CN105068990B

CN105068990B - 一种面向机器翻译的多策略英文长句分割方法

Info

Publication number: CN105068990B
Application number: CN201510441708.5A
Authority: CN
Inventors: 冯冲; 杨书立; 黄河燕
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2015-07-24
Filing date: 2015-07-24
Publication date: 2017-12-19
Anticipated expiration: 2035-07-24
Also published as: CN105068990A

Abstract

本发明涉及一种面向机器翻译的多策略英文长句分割方法及装置，属于自然语言处理机器翻译技术领域。该方法包括训练和实际使用两个步骤；对于训练步骤：首先准备英文训练语料，并对其进行预处理；然后对语料进行特征提取，包括提取依存句法特征、词性标注特征以及逗号位置特征等；最后创建特征模版训练CRF模型；同时设计了若干能够较准确地处理简单的现象的规则；对于实际使用步骤，首先对待处理英文长句进行特征提取，提取的特征同训练步骤；之后分别使用规则算法以及CRF模型来标注逗号的位置；然后在所标注的位置添加逗号，完成分割。对比现有技术，通过采用规则与统计相结合的策略，能够有效且准确地分割英文长句，提高机器翻译的质量。

Description

一种面向机器翻译的多策略英文长句分割方法

技术领域

本发明涉及一种机器翻译译前预处理方法，特别涉及一种面向机器翻译的多策略英文长句分割方法，属于自然语言处理机器翻译技术领域。

背景技术

如今，互联网已经非常发达并且遍布全球。借助互联网，来自不同国籍、使用不同语言的人们能够随时随地分享信息，人们也越来越迫切希望能够快速畅通地获得互联网上的有用信息。而面对着如今互联网上海量的信息，传统的人工翻译显得力不从心。因此，在这样的背景之下，机器翻译技术有着极大的市场，各国学者也在这一领域做了许多研究工作。

近年来，机器翻译技术有了长足的发展。现有机器翻译系统主要分为基于规则的翻译系统、基于统计的机器翻译系统和基于实例的机器翻译系统。基于规则的翻译系统主要是利用规则，进行源语言到目标语言的转换；基于统计的翻译系统主要是利用双语平行语料来估计翻译模型的各个参数；基于实例的翻译系统主要是基于句子相似度的，系统在语料库中寻找与待翻译句子相似的句子来进行翻译。

虽然如此，机器翻译系统仍然面临着许多难题和挑战，长句的翻译便是其中之一。由于不同的原因，以上三种翻译系统在长句的翻译上都面临着很大的困难：随着句子长度的增加，译文的质量往往会急剧下降。因此如何将长句分割成较短的句子、进而提高机器翻译的质量，在近年来成为研究的热点之一。

许多早先的方法是基于规则的，即使用规则匹配不同的长句句式，进而在某些合适的位置分割。这些方法普遍存在的问题是手工制定的规则对语言现象的覆盖程度不理想。近年来学者们转向使用机器学习的方法来分割句子，然而这类方法大多使用句中已有的逗号，或者一些特定的连词作为候选的分割点。如果原句子含有的逗号数目很少，那么这类方法的效果就会大打折扣。此外，在英-中翻译方向上，即针对英-中翻译的英文长句处理方法，研究工作做得并不是很充分。

综上所述，目前句子分割对于机器翻译，仍然是亟待解决的问题之一，也是研究的热点之一。

发明内容

本发明的目的是为了解决现有基于规则的句子分割方法对语言现象的覆盖程度太小，而现有基于机器学习的方法只能利用句中已有逗号来进行分割的问题，提出了一种新颖的面向机器翻译的多策略英文长句分割方法。

本发明技术方案的思想是综合利用规则方法和机器学习方法，在英文长句中的合适位置添加逗号，以此来进行英文长句的分割。基于规则的方法能够准确地识别出某些简单的语言现象，寻找合适的添加逗号的位置；而机器学习的方法尝试更深层次地挖掘句子中的潜在逗号位置，补充规则方法的不足，提升句子分割的效果。

本发明的目的是通过以下技术方案实现的：

一种面向机器翻译的多策略英文长句分割方法，包括训练步骤和实际分割步骤，训练步骤是基于机器学习方法必不可少的步骤。具体步骤如下：

步骤一、准备训练语料并进行预处理：本发明需要准备逗号较丰富的较大量英文句子作为训练语料。对训练语料进行预处理，主要包括英文断词(Tokenization)、去掉其中的乱码和特殊符号，得到训练预料C_T。

步骤二、对训练语料进行特征提取：分别对C_T中的每一个句子进行特征提取，包括进行依存句法分析、进行词性标注。这部分工作可以手工进行，也可以使用现有工具。本发明使用了斯坦福大学开发的句法分析器和词性标注工具。

步骤三、对每一个句子进行逗号标注：需要将句中的逗号位置标识出来，具体做法是将逗号之前的那个词标注为COM，其余的词标注为NUL。之后再把标注信息与步骤二得到的特征组合成CRF所要求的数据格式。

步骤四、CRF模型训练：创建合适的特征模版，使用特征模版与步骤二得到的语料特征，训练CRF模型M，将M保存在外存中。CRF模型包含了训练语料中逗号位置的信息。

实际分割步骤是本发明的实际使用步骤。具体步骤如下：

步骤一、预处理：对于待处理英文长句，首先进行预处理，包括英文断词(Tokenization)、去掉乱码和特殊符号，得到规范化的英文长句S。

步骤二、特征提取：对规范化之后的句子S进行特征提取，这部分与训练步骤中的特征提取相同，包括依存句法分析、词性标注。本发明使用斯坦福大学开发的句法分析器和词性标注器进行特征提取。

步骤三、使用规则方法的分割：使用事先所制定的规则来识别某些简单的语言现象，如果句中存在这样的现象，则提取之以得到逗号插入位置集合P1。

步骤三、使用CRF方法的分割：将步骤二中的特征与训练步骤得到的CRF模型M，共同交给CRF算法进行解码，给句子的每个词标注COM或NUL，标注为COM的词即为合适的逗号插入位置。这一步骤所得到的逗号插入位置集合记为P2。

步骤四、合并P1与P2：合并P1与P2，删除重复的位置，最终得到位置集合P，在这些位置插入逗号，完成句子分割，将分割后的句子交给机器翻译系统翻译。

一种面向机器翻译的多策略英文长句分割装置，包括预处理模块、特征提取模块、规则分割模块、CRF分割模块和合并模块，预处理模块与特征提取模块连接，特征提取模块分别与规则分割模块和CRF分割模块连接，规则分割模块和CRF分割模块分别与合并模块连接；

所述预处理模块用于对待处理英文长句进行英文断词、去乱码和特殊符号等处理得到规范化的句子S；

所述特征提取模块用于对S进行依存句法分析和词性标注得到依存句法特征和词性标注特征；

所述规则分割模块用于基于简单的语言现象规则及依存句法特征对S进行分割得到分割位置集合P1；

所述CRF分割模块用于使用经过训练的CRF模型M对S进行分割得到分割位置集合P2；

所述合并模块用于合并P1与P2，删除重复的位置，最终得到位置集合P，在这些位置插入逗号，完成句子分割并输出。

有益效果

对比现有技术，本发明通过结合基于规则的方法与CRF算法，在句中寻找可能的逗号插入位置，在这些位置上添加逗号，以此分割长句。实验结果证明，该发明能够相互弥补两种方法各自的不足之处，并且能够挖掘句中潜在的逗号位置信息，能够准确地将长句分割为多个较短的子句。同时，我们分别在基于规则的翻译引擎与基于统计的翻译引擎上做了实验，实验结果证明，该发明能够有效提升机器翻译译文的质量。

附图说明

图1为本发明方法的流程图。

图2为本发明实施例含介词短语句子的依存句法分析示意图。

图3为本发明实施例含副词性从句句子的依存句法分析示意图。

图4为本发明实施例提取逗号插入位置流程示意图。

具体实施方式

下面结合实施例对本发明做进一步说明。

如图1所示，本发明一种面向机器翻译的多策略英文长句分割方法，包括训练步骤和实际分割步骤，下面分别进行详细描述：

首先是训练步骤，其过程如下：

步骤一，准备训练语料并对该语料进行预处理。由于需要使用CRF来挖掘语料中逗号位置的信息，因此需要准备逗号数目较多的英文句子作为训练语料。在实验中，我们选取了约45万个至少包含两个逗号的英文句子作为训练语料。

同时，需要对语料做必要的预处理，如去掉乱码和特殊符号、英文断词(Tokenization)等。

对于乱码和特殊符号的界定：在本发明的开发实验过程中，我们去掉或者替换了英文句中的所有的非ASCII字符，例如将乱码去掉、将非ASCII字符“—”替换为ASCII字符“-”；在实际使用过程中，可以针对不同的应用领域，选择性的过滤乱码及特殊字符。例如货币符号、希腊字母、某些语言中带重音的元音字母等，可以酌情予以保留。

所谓断词，类似于中文分词，即将英文句子分割成单独的Token，每个token是一个单词级别的独立单元，它可以是单词，或是标点符号，或是缩写。例如如下的句子：

Sometimes it's difficult to define what is meant by a"word".

以上英文句子进行Tokenization之后的结果为：

Sometimes/it/'s/difficult/to/define/what/is/meant/by/a/``/word/”/./

步骤二，对经过预处理的训练语料进行特征提取。分别对训练语料中的每一个句子进行特征提取，包括进行依存句法分析、进行词性标注。本发明使用了斯坦福大学开发的句法分析器和词性标注工具。

仍以上述句子为例：

Sometimes it’s difficult to define what is meant by a"word".

使用斯坦福大学的句法分析器，该句子依存分析结果为：

在上述结果中，括号前面的字母为当前词的依存句法成分，括号中第一个词为当前词在依存句法上所依赖的词，括号中第二个词为当前词，词后面的数字为该词的序号。ROOT-0为整个句法树的根节点。

仍以该句子为例，使用斯坦福大学开发的词性标注器，其标注结果为：

Sometimes_RB it_PRP's_VBZ difficult_JJ to_TO define_VB what_WP is_VBZmeant_VBN by_IN a_DT``_``word_NN”_”._.

在上述结果中，下划线前面的单词为句中的单词，下划线后面的若干字母为该词的词性标注。

步骤三、对每一个句子进行逗号标注：需要将句中的逗号位置标识出来，具体做法是将逗号之前的那个词标注为COM，其余的词标注为NUL，之后再删去原句中的逗号。结合上一步骤所提取的特征，将训练语料转换成训练CRF所需要的格式。以如下句子为例：

But the owner never informed the tenants,mostly artists,of theproblems.

经过以上的特征抽取以及逗号标注，最终得到的CRF的输入数据如下：

上图为CRF所要求的标准输入格式。其中第一列为句子中的每个词，第二列为该词的依存句法标注，第三列为该词的词性标注，第四列为逗号位置标注。每两个句子之间使用一个空行分隔。

步骤四、CRF模型训练：创建合适的特征模版，使用特征模版与步骤3得到的数据格式，训练CRF模型M，将M保存在外存中。CRF模型包含了训练语料中逗号位置的信息。

特征模版是训练CRF必须的输入文件之一，它规定CRF使用特征的情况和范围。特征模版是人为制定并根据大量实验优选出的。本发明使用的特征模版列举如下：

上表中，第一列为特征序号，第二列为具体特征表示，第三列为备注。第二列中w_i表示当前词，w_i-x表示当前词的上x个词，w_i+x表示当前词的下x个词，下标含义对于表中其他符号相同。分号用于分隔两个特征项，&号表示该符号的前后两个特征共同组成一个上下文特征，省略号“…”表示下标依次加1递推。

其次是实际分割步骤，即本发明的实际使用步骤，具体过程如下：

步骤一、预处理：对于待处理英文长句，首先进行预处理，包括英文断词(Tokenization)、去掉乱码和特殊符号，得到规范化的英文长句S。这部分的具体步骤与训练步骤中的预处理相同。

步骤二、特征提取：对规范化之后的句子S进行特征提取，包括依存句法分析、词性标注。本发明使用斯坦福大学开发的句法分析器和词性标注器进行特征提取。这部分的具体步骤与训练步骤中的预处理相同。

步骤三、使用规则方法的分割：使用事先所制定的规则来识别某些简单的语言现象，如果句中存在这样的现象，则提取之以确定逗号插入位置集合P1。

所述规则具体如下：

规则1、介词短语的识别：关注句子的依存句法标注。介词短语的引导词一定是介词，例如介词短语“in the room”，开头的引导词in为介词。如果依照斯坦福大学开发的依存句法标注集，其标注应为“prep”；除了短语开头的引导介词，介词短语中所有词的依存句法标注只依赖于介词短语中的其他词，介词短语以外的词不依赖于介词短语中的词。

此外，只分割长度大于5的介词短语。

以如下的句子为例：

The blast killed at least seven people according to the operationroom of the Interior Ministry.

图2为上述句子的依存句法分析示意图。为了简略，省去了最后句号的句法标注。图中单词上方的箭头表示该词依赖于箭头所指的那个单词。从图中可以清晰地看出，介词短语中除了引导介词之外，其他词都依赖于介词短语中的词，而不依赖于短语之外的词，并且短语之外的词也不依赖于短语中的词。

规则2、副词性从句的识别：关注句子的依存句法标注。副词性从句引导词的依存句法标注必须依赖于副词性从句的动词，如果依照斯坦福大学开发的依存句法标注集，该动词标注应为“advcl”；副词性从句中的其他词只依赖于副词性从句中的词，副词性从句以外的词不依赖于副词性从句中的词。

以如下的句子为例：

His father says he was devastated when he received the letter fromthe school.

图3为上述句子的依存句法分析示意图。同样为了简略，省去了最后句号的句法标注，图中单词上方的箭头表示该词依赖于箭头所指的那个单词。从图中可以清晰地看出，副词性从句的引导词依赖于该从句中的动词，而除了该动词之外的其他词都依赖于从句中的词，而不依赖于从句之外的词，并且从句之外的词也不依赖于从句中的词。

从以上两个例子可以看出，这两种较为简单的语言现象都非常清晰，利用上述规则非常易于识别。

上面仅列举了介词短语和副词性从句的识别规则，本领域的技术人员可以依此原则类推从而得到其它简单语言现象的规则，此处不再赘述。

如规则识别到相应的语言现象，那么如图4所示，可以通过以下步骤对之进行提取以确定逗号插入位置：

Step1：初始化。首先算法初始化两个集合leftList与rightList，leftList存放位于短语或从句中的词，rightList存放句中的其他词。如果处理介词短语的情况，leftList初始化存放介词短语的引导介词；如果处理副词性从句的情况，leftList初始化存放从句的引导词和从句的动词，这个动词应该被引导词所依赖。

Step2：从句子的第一个词开始，遍历句中的每个词。记当前词为W_cur，W_cur在依存句法上所依赖的词为W_cur.dep。

Step3：如果W_cur在leftList中，则跳过该词，返回Step2继续处理下一词。

Step4：如果W_cur.dep在leftList中，则把W_cur放入leftList，然后执行Step5。如果W_cur.dep不在leftList中，则把W_cur放入rightList，然后回到Step2。如果所有词都遍历过，则跳到Step6。

Step5：重复遍历rightList中的每个词W_r，直到rightList中的词不再变化为止：如果W_r在依存句法上的依赖词W_r.dep在leftList中，则把W_r移入leftList中；如果rightList中的词不再减少，则回到Step2。

Step6：算法结束，分割点为leftList中序号最小词的前一位置与序号最大词的后一位置，所谓序号即词在句中的位置。如果得到的位置上有其他标点符号，则去除该位置。

在上述实施例中，特征提取的工具均为斯坦福大学开发的工具，所提取的特征标注亦为斯坦福大学设计的标注集。但在本发明的实际开发及使用过程中，均可以使用其他标注工具与标注集。

为验证本发明对机器翻译译文质量提升的有效性，我们选取了2027个含有至多一个逗号的英文长句进行翻译实验。首先不进行句子分割直接翻译，将翻译结果与参考译文对照打分，使用该分数作为基准。之后使用本发明进行句子分割，将分割后的句子交给翻译系统翻译，再把翻译结果同参考译文对照打分。

同时，我们选取了不同的翻译系统进行实验，测试该发明对于不同种类的翻译系统的适应性。华建翻译引擎(HJTrans)是华建集团提供的一个成熟的基于规则的翻译系统，摩西翻译引擎(Moses)是国际学术界最通用的基于统计的翻译引擎。我们使用这两种不同的翻译引擎进行试验。

实验结果如下表所示：

上表中，“分割句子数”为本发明对于测试语料实际分割的句子数目。BLEU与NIST为机器翻译领域最重要的两个评测指标。从上表可以看出，将英文长句使用本发明进行句子分割之后，翻译效果能够有一定的提升。同时，本发明能够适用于基于规则与基于统计两种不同的翻译系统，有着较强的适应能力。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都在要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种面向机器翻译的多策略英文长句分割方法，其特征在于，包括训练步骤以及分割步骤，具体如下：

训练步骤：

步骤一、训练语料预处理：对训练语料进行预处理，包括挑选符合标准的英文句子、英文断词、去掉乱码和特殊符号，得到训练语料C_T；

步骤二、特征提取：分别对C_T中的每一个句子进行特征提取，包括进行依存句法分析和进行词性标注得到依存句法标注特征和词性标注特征；

步骤三、对每一个句子按如下规则进行逗号标注：将逗号之前的那个词标注为COM，其余的词标注为NUL；

步骤四、CRF模型训练：创建特征模版，使用特征模版与步骤二得到的语料特征，训练CRF模型M，将M永久保存；

分割步骤：

步骤一、预处理：对于待处理的英文长句进行如下预处理得到规范化的英文长句S：英文断词、去掉乱码和特殊符号；

步骤二、特征提取：对S进行依存句法分析和词性标注得到依存句法标注特征和词性标注特征；

步骤三、使用规则方法的分割：使用预定义的规则识别简单的语言现象，如果句中存在这样的现象，再用预设的算法处理步骤二提取到的特征，获得逗号插入位置P₁；

步骤三、使用CRF方法的分割：将步骤二中的特征与训练步骤得到的CRF模型M，共同交给CRF算法进行解码，给句子的每个词标注COM或NUL，得到逗号插入位置P₂；

步骤四、在P₁和P₂这些位置插入逗号，完成句子分割，并将分割后的句子输出；

所述预定义的规则如下所述：

规则1、介词短语的识别：引导词是介词；除了引导词，介词短语中所有词的依存句法标注只依赖于介词短语中的其他词，介词短语以外的词不依赖于介词短语中的词；

规则2、副词性从句的识别：引导词的依存句法标注依赖于副词性从句的动词；除了副词性从句的动词，副词性从句中的其他词只依赖于副词性从句中的词，副词性从句以外的词不依赖于副词性从句中的词；

所述预设的算法如下所述：

Step1：初始化两个集合leftList与rightList：leftList用于存放位于短语或从句中的词，rightList用于存放句中的其他词，对于处理介词短语的情况，leftList初始化存放介词短语的引导介词；对于处理副词性从句的情况，leftList初始化存放从句的引导词和从句的动词；

Step2：从句子的第一个词开始，遍历句中的每个词，记当前词为W_cur，W_cur在依存句法上所依赖的词为W_cur.dep；

Step3：如果W_cur在leftList中，则跳过该词，返回Step2继续处理下一词；

Step4：如果W_cur.dep在leftList中，则把W_cur放入leftList，然后转到Step5；如果W_cur.dep不在leftList中，则把W_cur放入rightList，然后回到Step2；如果所有词都遍历过，则跳到Step6；

Step5：重复遍历rightList中的每个词W_r，直到rightList中的词不再变化为止：如果W_r在依存句法上的依赖词W_r.dep在leftList中，则把W_r从rightList移入leftList中；如果rightList中的词不再减少，则回到Step2；

Step6：如果leftList中词的个数大于预设的阈值m，则分割点为leftList中序号最小词的前一位置与序号最大词的后一位置，如果得到的位置上有其他标点符号，则去除该位置；否则，没有分割点，输出空集合。