CN103020040A

CN103020040A - 源语言改写处理方法和设备及机器翻译系统

Info

Publication number: CN103020040A
Application number: CN2011103050102A
Authority: CN
Inventors: 张洁; 葛乃晟; 郑仲光; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-09-27
Filing date: 2011-09-27
Publication date: 2013-04-03

Abstract

本发明提供了一种源语言改写处理方法和设备及机器翻译系统。该改写处理方法包括：对源语言语句中的待处理语句进行语法分析；根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句；基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句；以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。该处理装置被配置实现上述处理方法中包括的功能。应用本发明的处理方法、设备或系统，能够将一些复合长句降解并重组为若干非复合的子句，降低机器翻译过程中的翻译难度，提高翻译精度和翻译效率。本发明适用于自然语言处理领域。

Description

源语言改写处理方法和设备及机器翻译系统

技术领域

本发明总体上涉及自然语言处理领域，具体来说涉及一种可用于辅助机器翻译的源语言改写处理方法和设备，以及一种包括该设备的机器翻译系统。

背景技术

机器翻译是利用计算设备把一种自然语言(即，源语言)转换为另一种自然语言(即，目标语言)的过程，是自然语言处理(Natural LanguageProcessing)的一个分支。机器翻译通常利用词典和训练语料来学习获得源语言和目标语言的词汇、语法及其对应特征。一般来说，在源语言和目标语言之间在词汇和语序等方面往往存在一些差异，使得对于存在此类差异的语句的翻译成为机器翻译过程中的难点，由此导致机器翻译的精度较低。如何更好地提高机器翻译的精度一直是迫切要解决的问题。改写是一种服务于提高机器翻译精度的方法，可以通过词典、源语言和目标语的对应关系、语料库等多种资源和手段将源语言改变为易于机器反应系统理解和处理的形式。

发明人发现，根据源语言自身的语法特点进行改写可以在不依赖外部资源支持的情况下，化繁为简，变难为易，将源语言改写为一种机器翻译系统易于理解和处理的形式，显著提高机器翻译系统的速度和精度。如果在机器翻译前预先对源语言的文字符号序列进行处理，将源语言语句中复杂的语句(多个谓词嵌套的复合句)拆分重构为简单的单谓词非嵌套子句的句子，使其成为易于翻译的文字符号序列，将能够大幅度地降低机器翻译的难度，提高翻译的精度和质量。基于这个认识，发明人做出了本发明。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于现有技术的上述缺陷，本发明的目的之一是提供一种源语言改写处理方法和设备，其能够在进行传统的机器翻译之前对要翻译的源语言语句进行改写处理，将复杂的难翻译的语句转换为简单的易于翻译的语句，从而能够部分解决传统的机器翻译过程中存在的翻译精度低的问题。

本发明的另一个目的是提供包括上述源语言改写处理设备的机器翻译系统，以及相应的计算机可读存储介质和程序产品。

根据本发明的一个实施例，提供了一种源语言改写处理方法，该源语言改写处理方法包括：对源语言语句中的待处理语句进行语法分析；根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句；基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句；以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。

根据本发明的另一个实施例，提供了一种源语言改写处理设备，该源语言改写处理设备包括：语法分析单元，被配置用于对源语言语句中的待处理语句进行语法分析，并根据语法分析结果确定待处理语句中的包含子句嵌套结构的语句；以及语句重构单元，被配置用于基于语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句，并用上述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句来替换上述包含子句嵌套结构的语句。

根据本发明的又一个实施例，提供了一种机器翻译系统，该机器翻译系统包含上述的源语言改写处理设备。

通过将根据本发明实施例的上述处理方法和设备应用到传统的机器翻译过程中，能够实现以下益处：通过在传统的机器翻译之前对源语言的语句进行处理，将源语言语句中的包含子句嵌套结构的复杂语句转换成不包含子句嵌套结构的简单语句，使得处理后的源语言语句在后续进行的机器翻译过程中的翻译难度降低，从而能够提高机器翻译过程的翻译精度和翻译效率。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将变得更加明显。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1是根据本发明实施例的源语言改写处理方法的流程图；

图2是根据本发明实施例的图1中的步骤S140的具体处理过程的流程图；

图3是示出根据本发明实施例的源语言改写处理方法的示例性处理流程的示意图；

图4A是以语法分析树形式表示的拆分前语句的语法分析结果；

图4B-4D分别为以语法分析树形式表示的第一、第二和第三候选语句的语法分析结果；

图5是根据本发明实施例的处理方法的另一种具体实现方式中包括的语义搭配异常处理过程的流程图；

图6是示出语句“他总是吃父母”的语义角色自动标注的分析树的示意图；

图7是示意性地示出根据本发明实施例的处理设备的结构的框图；

图8是示出如图7中示出的语句重构单元的一个具体例子的结构的示意图；以及

图9是示出了在其中可以实现根据本发明实施例的方法和/或设备的通用个人计算机的示例性结构的框图。

本领域技术人员应当理解，附图中的元件仅仅是为了简单和清楚起见而示出的，而且不一定是按比例绘制的。例如，附图中某些元件的尺寸可能相对于其他元件放大了，以便有助于提高对本发明实施例的理解。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

图1是根据本发明实施例的源语言改写处理方法的流程图。

如图1所示，根据本发明实施例的源语言改写处理方法100开始于步骤S110，然后在步骤S120中对待处理语句进行语法分析。

在此所提及的待处理语句可以是要进行机器翻译的源语言语句本身，也可以是对上述源语言语句进行初步筛选后得到的语句，例如可以是从上述源语言语句中筛选出的满足一定条件的语句。其中，上述“满足一定条件的语句”例如可以是其中所包含的谓词总数和总词数均分别高于预设值的语句。这里，所说的“谓词”包括动词和形容词。

具体地，在本发明实施例的方法的一个具体示例中，可以通过下述方式确定将要利用本发明实施例的处理方法进行处理的待处理语句：对等待进行机器翻译的源语言语句进行分词和词性标注处理，然后根据分词和词性标注处理的结果，从上述源语言语句中筛选得到满足以下两个条件的语句：语句中包含的谓词总数高于第一预设阈值；且语句中包含的总词数高于第二预设阈值。

这样筛选出的语句是存在较高的翻译难度的一类长的、复杂的句子，由此能够进一步缩小处理对象的范围，进而可以提高处理速度和处理效率。此外，在如上的筛选过程中被滤除的是包含的谓词总数少或包含的总词数少的简单句子，这样的简单句子中的大部分通常不包含嵌套结构，而且即使是包含嵌套结构的小部分此类句子，它们通常在机器翻译过程中具有较低的翻译难度，所以可以不经过根据本发明实施例的方法处理而直接进行机器翻译。

在步骤S120中对待处理语句所进行的语法分析可以是短语结构语法分析或依存关系语法分析中的任一种，也可以是现有的其他任意一种语法分析。

然后，在步骤S130中，根据语法分析的结果确定待处理语句中的、包含子句嵌套结构的语句。

在通过对待处理语句进行语法分析而得到的语法分析结果中，除包含语句的文字符号序列外还包含其他更多的语法知识(包括词性信息、非嵌套子句的句法结构等语法信息)，因此能够根据语法分析结果确定待处理语句中的哪些语句是包含子句嵌套结构的语句。并且这些语法知识是之后进行重组工作的重要依据和参考信息。

在此所提及的“包含子句嵌套结构的语句”是指其中嵌套有子句的语句，这类语句通常至少包含两套主谓关系。其中，这里所说的“子句”可以是嵌套子句，也可以是非嵌套子句，且“子句”至少包含一套主谓关系。嵌套子句是包含子句嵌套结构的子句，并且，嵌套子句也可进一步包含有嵌套子句。非嵌套子句则不包含任何子句嵌套结构。

接下来，在步骤S140中，基于语法分析结果对步骤S130中确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句。为了简单起见，以下将重构后的包含非嵌套子句的语句称为语句候选。下面将结合图2对根据本发明实施例的步骤S140的具体处理过程进行详细描述。

在步骤S150中，从步骤S140中获得的上述至少一个包含非嵌套子句的语句(即，语句候选)中选取一个适当的语句来替换步骤S130中确定的包含子句嵌套结构的语句。为了简单起见，以下将步骤S130中确定的包含子句嵌套结构的语句简称为待替换语句。

在根据本发明实施例的方法中，可以从语句候选中选择包含最多数目的非嵌套子句的语句作为所述适当的语句，来替换步骤S130中确定的包含子句嵌套结构的语句。然而，在语句候选中包含最多数目的非嵌套子句的语句可能不只一个。在这种情况下，可以通过诸如N元语法等的语言模型对每个含有最多非嵌套子句的语句进行评分，并选择其中得分最高的语句作为所述适当的语句。

然后，方法100在步骤S160结束。

图2示出了根据本发明实施例的、图1中的步骤S140的具体处理过程的流程图。

如图2所示，在步骤S210中，基于所述语法分析结果，将步骤S130中确定的、包含子句嵌套结构的语句(即，待替换语句)拆分为非嵌套子句和剩余的多个句子成分，其中句子成分可以是词，也可以是由至少两个词构成的、包含语法关系的短语。

具体地，由于根据所述语法分析结果可以确定待替换语句中包含的非嵌套子句，因此可以通过破坏待替换语句中的、除非嵌套子句之外的语法关系，以及保留非嵌套子句的语法关系，而得到非嵌套子句和剩余的多个句子成分及其词性信息，此时，各个句子成分均是单独的词语。

此外，也可以在保留待替换语句中的非嵌套子句的语法关系之外，并保留待替换语句中除非嵌套子句之外的、由至少两个词构成的短语所对应的语法关系，而破坏待替换语句中的、除上述非嵌套子句和短语之外的语法关系，从而得到非嵌套子句和剩余的多个句子成分，此时，上述多个句子成分中包括词和短语。

然后，在步骤S220中，对步骤S210中拆分后得到的非嵌套子句以及其他句子成分进行多次调序，再一次进行自动语法分析。在进行调序时，可以将拆分后得到的非嵌套子句作为整体在整个语句中逐次向右调序，或者可以对拆分后的除非嵌套子句之外的其他句子成分在整个语句中逐次向左调序，从而得出所有可能的调序结果。

在步骤S230中，作为多次调序、自动语法分析的结果，获得至少一个包含非嵌套子句的语句。在此，所得到的包含非嵌套子句的语句中应当包含对应的原始语句(即，待替换语句)中所包括的所有字符串。

下面结合图3以及图4A至图4D来描述根据本发明实施例的源语言改写处理方法的一个具体应用示例。

图3是示出根据本发明实施例的源语言改写处理方法300的示例性处理流程的示意图。如图3所示，处理方法300在步骤S310开始，然后进行到步骤S320。

在步骤S320中，在需要进行处理的一段源语言语句中筛选得到满足下述条件的多个待处理语句：语句中包含的谓词总数大于N，且包含的总词数大于M，其中N和M为自然数。例如，N和M的取值可以为N＝2，M＝10。

然后，在步骤S330中，对筛选得到的多个待处理语句进行语法分析，例如短语结构语法分析。

在步骤S340中，根据上述语法分析的结果，确定在上述多个待处理语句中的包含子句嵌套结构的语句。例如，假设确定出的包含子句嵌套结构的语句为“他躲在一个你看得见他他看不见你的地方”。为描述方便起见，在下文中，将该语句“他躲在一个你看得见他他看不见你的地方”称作“拆分前语句”。

图4A是以语法分析树形式表示的上述拆分前语句的语法分析结果。其中，在图4A以及以下将要进行描述的图4B-4D中的语法分析树中可能出现的标记及其含义描述可以参见下面的表1：

表1

标记	含义描述	标记	含义描述
				AD	副词	ADJP	形容词短语
AS	体态标记	ADVP	副词短语
				BA	把字句中的“把”	CLP	量词短语
CC	并列连词	CP	做补足语的从句(为、是)
				CD	基本数词	DNP	由“XP+DEG”构成的短语
CS	关联词	DP	指示短语
				DEC	关系从句连接词“的”	DVP	由“XP+DEV”构成的短语
DEG	助词	FRAG	结构，
				DER	在“动词+得+..”中的“得”	IP	简单的句子
DEV	在动词词组前的“地”	LCP	由“XP+LC”构成的短语
				DT	指示代词	LST	列举标记
ETC	列举词	NP	名词短语
				FW	外文词	PP	介词短语
IJ	感叹词	PRN	插入语
				JJ	其他名词修饰词	QP	数量短语
LB	长“被”字句中的“被”	UCP	不平行并列短语
				LC	地点词	VP	动词短语
M	量词	VCD	动词短语并列
				MSP	其他虚词	VCP	由“VV+VC”构成的短语

NN	普通名词	VNV	“A不A”“A一A”
				NR	专有名词	VPT	“写得好”“写不好”
NT	时间名词	VRD	“动词补语”结构
				OD	序数词	VSB	连动结构
ON	拟声词	SP	句末成分
				P	介词(除去把、被)	VA	形容词
PN	代词	VC	是
				PU	标点	VE	作为主要动词的“有”
SB	短“被”字句中的“被”	VV	其他动词

如图4A所示，在语法分析树中，一个IP节点下面的底层字符串构成一个句子，当在上层的IP节点下面的某层中也包括IP节点时，包含这两层IP节点的结构就形成一个子句嵌套结构，其中，下面的某层中的IP节点对应的字符串所表示的句子即是上层IP节点对应的字符串表示的句子的子句。如图4A所示，从上到下看，在与字符串“他躲在一个你看得见他他看不见你的地方”对应的第一个IP节点的下面包括与字符串“你看得见他他看不见你”对应的第二个IP节点。因为在第一个IP节点所对应的字符串中包含(即嵌套)了第二个IP节点所对应的字符串，所以上述的第一个和第二个IP节点就构成了第一子句嵌套结构。类似地，从上到下和从左到右看，在与字符串“你看得见他他看不见你”对应的第二个IP节点下面，包含了与字符串“你看得见他”对应的第三个IP节点和与字符串“他看不见你”对应的第四个IP节点。第二个IP节点和第三及第四个IP节点构成了第二子句嵌套结构。在此次句法分析中，除了非嵌套子句的信息之外，句子其他成分的分词和词性信息也都将成为下一轮自动句法分析重构的有效信息。

返回参见图3，在步骤S350中，对上述拆分前语句中的子句嵌套结构进行拆分。如前所述，如图4A所示，为了拆分上述第一和第二子句嵌套结构，需要拆分上述第二个IP节点与其上层节点之间的连接以及分别拆分上述第三、第四个IP节点与其各自上层节点(此处均为第二个IP节点)之间的连接。

然后，在步骤S360中，将第三、第四个IP节点各自对应的字符串“你看得见他”、“他看不见你”分别作为一个整体和拆分前语句中除此之外的其他句子成分一起进行调序。例如，在该示例中，可以将拆分前语句中的除非嵌套子句“你看得见他”、“他看不见你”之外的其他句子成分连同其词性标记分别依次进行从右向左的调序。

在步骤S370中，作为步骤S360中的调序的结果，可以获得多个包含非嵌套子句的语句。例如，可以得到如下的包含非嵌套子句的语句：“他躲在一个你看得见他的地方他看不见你”(该句中包含2个非嵌套子句：“你看得见他”和“他看不见你”)，“他躲在一个地方你看得见他他看不见你的”(该句中包含3个非嵌套子句：“他躲在一个地方”、“你看得见他”和“他看不见你”)，“他躲在一个地方的你看得见他他看不见你”(该句中包含3个非嵌套子句：“他躲在一个地方”、“你看得见他”和“他看不见你”)，“一个地方躲在他的你看得见他他看不见你”(该句中包含3个非嵌套子句：“一个地方躲在他”、“你看得见他”和“他看不见你”)，等等。

接下来，在步骤S380中，在所获得的包含非嵌套子句的语句中，选取含有最多非嵌套子句的句子。在本示例中，通过步骤S380得到的含有最多非嵌套子句的句子所包含的非嵌套子句数量是3，在得到的包含3个非嵌套子句的句子中选取3个作为示例来进行描述，而省略对其他未被选取的包含3个非嵌套子句的句子的描述。其中，所选取的3个句子分别为“他躲在一个地方你看得见他他看不见你的”(此后称作第一候选语句)、“他躲在一个地方的你看得见他他看不见你”(此后称作第二候选语句)以及“一个地方躲在他的你看得见他他看不见你”(此后称作第三候选语句)。

具体地，图4B-4D分别为以语法分析树形式表示的第一、第二和第三候选语句的语法分析结果。由图4B-4D可知，在图4B-4D中的语法分析树中，每一个IP节点下面均不包含子IP节点，也即表示，第一、第二和第三候选语句中均不包含子句嵌套结构。因此，可以如上所述对上述三个候选语句进行评分并根据评分结果选取其中适当的一个候选语句。

如图3所示，在步骤S390中，可以利用例如四元语言模型对上述三个候选语句进行评分，由此第一、第二和第三候选语句的得分结果分别为-74.6951、-77.6628和-83.9943。由此可见，第一候选语句的得分是最高的。因此，选择第一候选语句也即“他躲在一个地方你看得见他他看不见你的”来取代原来拆分前的语句“他躲在一个你看得见他他看不见你的地方”。

其中，N元语言模型(即N元语法)是一种非常成熟的语言模型，而且在自然语言处理中被证明是非常有效的。在互联网上有现成的N元语法的源代码可以下载，如The CMU-Cambridge Statistical LanguageModeling toolkit。

然后，处理流程在步骤S395结束。

在此需要说明的是，步骤S390不是必需的，在步骤S370获得的包含非嵌套子句的语句中含有最多非嵌套子句的句子只有一句的情况下，步骤S390可以省略。

通过大量实例可以发现，上述的包含子句嵌套结构的语句是机器翻译过程中的一类难点，而传统的机器翻译方法对于这类语句的翻译精度通常较低。本发明实施例的处理方法通过对源语言语句进行处理，来将源语言语句中的一类包含子句嵌套结构的复杂语句转换成不包含子句嵌套结构的简单语句，实现了对源语言语句中的这类句子的语句层改写处理，从而使得由该处理方法处理后的语句在后续可能进行的机器翻译过程中的翻译难度降低，所以能够提高机器翻译的翻译精度和效率。

此外，在根据本发明的实施例的处理方法的另一个具体实现方式中，除了包括如步骤S110至S160的语句处理过程之外，还可以包括语义搭配异常处理过程。其中，该语义搭配异常处理过程可以在上述的如步骤S120至S150的处理过程之前进行，也可以在其之后进行。

图5是根据本发明实施例的处理方法的另一种具体实现方式中包括的语义搭配异常处理过程500的流程图。

如图5所示，在步骤S510中，对要进行语义搭配异常处理的语句进行语义角色自动标注，以确定语句中的语义搭配出现异常的词语对。在此，可以使用任何一种现有的语义角色标注技术。语义角色标注技术可参见例如“Automatic labeling of semantic roles”(http://www.mitpressjournals.org/doi/pdf/10.1162/089120102760275983)。

然后，在步骤S520中，把语义搭配异常的词语对中的具有较多词义项数的一个词语确定为导致语义搭配异常的主要元素词语；在步骤S530中，从预先存储的语料库中获得与所述词语对中的另一个词语搭配频率高于预设阈值的多个词语；在步骤S540中，使用在步骤S530中获得的多个词语中的、与语义搭配异常的词语对相关度最高的一个词语来替换词语对中的主要元素词语。

其中，与语义搭配异常的词语对相关度最高的一个词语可以通过如下方式确定：在步骤S530中获得的多个词语中，分别计算其中每一个词语与语义搭配异常的词语对之间的互信息PMI，根据计算的互信息来确定在上述多个词语中的哪个词语是与词语对最相关的词语。当然，也可以通过其他的方式来确定上述多个词语中的哪个词语是与词语对最相关的词语。

下面，结合图6来描述图5中示出的语义搭配异常处理的一个具体示例。假设在对某段源语言语句进行语义角色自动标注后，发现其中的一个语句“他总是吃父母”中的语义搭配异常的词语对“吃父母”。图6中示出了语句“他总是吃父母”的语义角色自动标注的分析树，其中图6中出现的标记及其含义描述可以参见表1。

结合图6所示的分析树可知，“吃”的一般语义是“嘴部动作，吃东西”，要求与其搭配的通常是[+食物]类的词语，而“父母”是[+人]的词语，而非[+食物]类的词语，由此可以确定词语对“吃父母”是语义搭配异常的。由于在词典中“吃”的词义项数多于“父母”的词义项数，因此，将“吃”确定为导致语义搭配异常的主要元素词语。从预先存储的语料库中找到与“父母”搭配频率高于预设阈值的动词集合，例如{养育、赡养、对待、依赖......}，通过分别计算“吃父母”与动词集合中的每个元素的互信息PMI，可以确定与“吃父母”最相关的词语，在此假设为“依赖”，然后用所确定的最相关的词语、即“依赖”来替换“吃父母”中的主要元素词语“吃”。于是，句子“他总是吃父母”可以被替换为“他总是依赖父母”。

如上所述，在图5所示的语义搭配异常处理过程500可以在图1的步骤S120或图3的步骤S320之前执行，也可以在图1的步骤S150或图3的步骤S390之后执行。当语义搭配异常处理过程500可以在图1的步骤S120或图3的步骤S320之前执行时，首先对成段的源语言语句进行语义搭配异常处理过程，然后对经语义搭配异常处理后得到的源语言语句进行步骤S120至S150中的处理或者步骤S320至S390中的处理，也就是说，所述待处理语句是经语义搭配异常处理后的源语言语句。而当语义搭配异常处理过程500在图1的步骤S150或图3的步骤S390之后执行时，要进行语义搭配异常处理的语句是经步骤S120至S150或者步骤S320至S390处理过的、包含非嵌套子句的语句。

根据本发明的实施例的源语言改写处理方法，能够通过对源语言语句进行如上的语义搭配异常处理，来实现对源语言语句在词语层上的改写，具体地，能够对源语言语句中包含的语义搭配异常的结构进行修正，从而消除源语言语句在其词语层上存在的语意搭配异常。由此，在对源语言语句进行如上所述的句子层、词语层上的改写后，使得经过上述双重改写处理的源语言语句具有较简单的语法结构、并具有较准确的语意搭配，因此对于后续可能进行的例如机器翻译之类的其他语言处理有很大的帮助，能够降低例如机器翻译之类的后续处理的难度，以及提高这些后续处理的准确度和/或精度。

此外，在根据本发明实施例的源语言改写处理方法的又一个具体实现方式中，还可以包括对源语言语句进行多义词歧义消除处理。该多义词歧义消除处理可以包括：确定语句中的多义词；根据语境含义，确定每个多义词在语句中的唯一义项；用预先存储的词典中的与该义项对应的一个词语替换相应的多义词。

例如，通过对一段源语言语句进行分词及词义查询处理，得到一个包含多义词的语句“我打算中午下面条”。在该语句中，“我”、“打算”、“中午”以及“面条”分别只具有一个义项，而“下”具有“煮”、“向较低方向走”以及“传达”三个义项。根据上下文的语境含义，可利用现有的任何一种词义消岐方法来确定多义词“下”在其所在语句中的唯一义项。这里确定的义项为“煮”。然后，使用词典中在所确定的义项下包含的词语、例如“煮”或“烹饪”来替换原语句中的“下”，这样得到新的语句“我打算中午煮面条”或“我打算中午烹饪面条”。

与语义搭配异常处理相类似地，多义词歧义消除处理可以在图1的步骤S120或图3的步骤S320之前执行，也可以在图1的步骤S150或图3的步骤S390之后执行。

另外，在根据本发明实施例的处理方法中也可以既包含语义搭配异常处理，又包含多义词歧义消除处理，这两个处理可以彼此相互独立地进行，因此它们可以并行或串行执行。

根据本发明的实施例的源语言改写处理方法，能够克服源语言语句中存在的多义词歧义问题，实现对源语言语句在词语层上的另一种改写。该方法通过与上述语句层的改写处理相搭配地进行，使得改写后的语句具有较简单的结构之外并具有较少的歧义多义词，能够降低例如机器翻译之类的其他语言处理方法的难度，以及提高这些语言处理方法的准确度和/或精度。而且，在根据本发明的实施例的源语言改写处理方法包括以上三种改写处理(语句层改写处理、语义搭配异常处理和多义词歧义消除处理)的情况下，通过对源语言语句的多重改写处理，使其中存在的长复杂句能够被简化，以及使其中可能包含的语意搭配异常短语及有歧义的多义词能够被修正，因此更有利于提高后续可能进行的诸如机器翻译的其他语言处理方法的精度和/或准确度。

下面结合图7来描述根据本发明实施例的源语言改写处理设备。图7是示意性地示出根据本发明实施例的处理设备700的结构的框图。其中，在图7中使用实线框描绘的单元为必选部件，而使用虚线框描绘的单元为非必要的可选部件，在实际应用中可根据需要选用。

如图7所示，处理设备700包括语法分析单元720和语句重构单元730。其中，语法分析单元720被配置用于对源语言语句中的待处理语句进行语法分析，并根据语法分析结果在待处理语句中确定包含子句嵌套结构的语句；语句重构单元730被配置用于基于语法分析结果对包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句，并用上述至少一个包含非嵌套子句的语句中的含有最多的非嵌套子句的语句来替换上述包含子句嵌套结构的语句。

处理设备700还可以包括语句选择单元710。语句选择单元710被配置用于在源语言语句中筛选满足下列条件的语句作为待处理语句：语句中的谓词总数高于第一预设阈值且语句中的总词数高于第二预设阈值，并将所述待处理语句提供给语法分析单元。

图8是示出如图7中示出的语句重构单元730的一个具体例子的结构的示意图。如图8所示，语句重构单元730可以包括拆分模块810、调序模块820和替换模块830。

其中，拆分模块810被配置用于基于语法分析结果，将包含子句嵌套结构的语句拆分为非嵌套子句和剩余的多个句子成分。调序模块820被配置用于对上述非嵌套子句和多个句子成分进行调序，以获得至少一个包含非嵌套子句的语句，具体地，调序模块820可以将拆分后得到的非嵌套子句作为整体在整个语句中逐次向右调序，或者也可以将拆分后的除非嵌套子句之外的其他句子成分在整个语句中逐次向左调序。替换模块830被配置用于确定由调序模块820获得的上述至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句并用上述含有最多非嵌套子句的语句替换上述包含子句嵌套结构的语句。

如图7所示，处理设备700还可以包括语句评分单元740。语句评分单元740被配置用于在语句重构单元730获得的含有最多非嵌套子句的语句的个数大于1的情况下，利用预定语言模型对每个含有最多非嵌套子句的语句进行评分，并选择其中得分最高的语句提供给替换模块830，其中，替换模块830用语句评分单元740所提供的、在含有最多非嵌套子句的语句中得分最高的语句来替换上述包含子句嵌套结构的语句。

此外，处理设备700还可以包括异常处理单元750，异常处理单元750被配置用于对语句中的语义搭配异常进行处理，其中，异常处理单元750可以进一步地包括语义角色标注模块752、异常词语确定模块754和异常词语修正模块756。其中，语义角色标注模块752被配置用于对要进行语义搭配异常处理的语句进行语义角色自动标注，以确定语句中的语义搭配出现异常的词语对。异常词语确定模块754被配置用于把语义搭配异常的词语对中的具有较多词义项数的一个词语确定为导致语义搭配异常的主要元素词语。异常词语修正模块756被配置用于从预先存储的语料库中获得与上述词语对中的另一个词语搭配频率高于预设阈值的多个词语，并用上述多个词语中的与所述词语对相关度最高的一个词语来替换上述词语对中的主要元素词语。

此外，处理设备700还可以包括用于对语句进行多义词歧义消除处理的多义词处理单元760。多义词处理单元760可以进一步地包括：用于确定要进行多义词歧义消除处理的语句中的多义词的装置；用于根据语境含义确定每个多义词在语句中的唯一义项的装置；以及用于用预先存储的字典中的与所确定的义项对应的一个词语替换与该义项有关的多义词。

根据本发明实施例的上述处理设备及其各功能组成单元例如可以被配置成执行结合上述图1-3和5描述的处理方法，并且可以获得类似的技术益处，具体细节可参考上面的相应描述，在此不再逐一赘述。

此外，本发明的实施例还提供了一种机器翻译系统，其可以包含如上述本发明实施例提供的处理设备，由此可以对待处理语句进行前述的语句处理等处理后，再对处理后的待处理语句进行机器翻译。该机器翻译系统通过将待处理语句中的一些包含子句嵌套结构的句子改写为简单的、不包含子句嵌套结构的句子，从而在翻译过程中降低了翻译难度，同时提高了翻译效率和翻译准确度。

根据本发明的实施例的源语言改写处理技术(源语言改写处理方法、设备及包含该设备的系统)，能够应用于辅助机器翻译，即能够对将要进行机器翻译的源语言语句进行改写处理，来简化源语言语句中的某些复杂句、长难句，从而有利于降低机器翻译的难度，进而可以提高机器翻译的效率和精度。此外，根据本发明的实施例的源语言改写处理技术也可用于对自然语言语句的改写处理，以简化自然语言语句中的复杂句、长难句，进而使得经过改写处理后的自然语言语句对于用户或计算机而言均更易被准确地识别或用于其他处理。

图9是示出了在其中可以实现根据本发明实施例的方法和/或设备的通用个人计算机900的示例性结构的框图。如图9所示，中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903中的程序执行各种处理。在RAM 903中，也根据需要存储当CPU 901执行各种处理等时所需的数据。

CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下述部件连接到输入/输出接口905：输入部分906，包括键盘、鼠标等等；输出部分907，包括显示器，比如阴极射线管(CRT)和液晶显示器(LCD)等，以及扬声器等；存储部分908，包括硬盘等；以及通信部分909，其包括网络接口卡比如LAN(局域网)卡、调制解调器等。通信部分909经由网络、例如互联网执行通信处理。

根据需要，驱动器910也连接到输入/输出接口905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器910上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在如上所述通过软件实现本发明的情况下，从网络、例如互联网或者存储介质、例如可拆卸介质911中向计算机900中安装所述软件的程序。

本领域的技术人员应当理解，上述存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子可以包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)和半导体存储器等。或者，存储介质也可以是ROM 902、存储部分908中包含的硬盘等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，显然，根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本发明的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本发明的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，计算机通过连接到互联网上的相应网站，并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本发明。

还需要指出的是，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

最后，还需要说明的是，在本文中，诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

综上，在根据本发明的实施例中，本发明提供了如下方案：

附记1.一种源语言改写处理方法，包括：对源语言语句中的待处理语句进行语法分析；根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句；基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句；以及用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。

附记2.根据附记1所述的源语言改写处理方法，在进行语法分析的步骤之前还包括步骤：从源语言语句中筛选满足下列条件的语句作为所述待处理语句：语句中的谓词总数高于第一预设阈值；以及语句中的总词数高于第二预设阈值。

附记3.根据附记1所述的源语言改写处理方法，其中，对所述包含子句嵌套结构的语句进行重构的步骤进一步包括：基于所述语法分析结果，将所述包含子句嵌套结构的语句拆分为非嵌套子句和剩余的多个句子成分；以及对所述非嵌套子句和所述多个句子成分进行调序，作为调序的结果，获得至少一个包含非嵌套子句的语句。

附记4.根据附记3所述的源语言改写处理方法，其中，所述调序步骤进一步包括：将拆分后得到的非嵌套子句作为整体在整个语句中逐次向右调序，或者将拆分后的除非嵌套子句之外的其他句子成分在整个语句中逐次向左调序。

附记5.根据附记1所述的源语言改写处理方法，其中，所述用含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句的步骤进一步包括：在所述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句的个数大于1的情况下，利用预定语言模型对每个所述含有最多非嵌套子句的语句进行评分，并选择其中得分最高的语句来替换所述包含子句嵌套结构的语句。

附记6.根据附记1-5中任意一项所述的源语言改写处理方法，还包括以下步骤：对要进行语义搭配异常处理的语句进行语义角色自动标注，以确定语句中的语义搭配出现异常的词语对；把语义搭配异常的词语对中的具有较多词义项数的一个词语确定为导致语义搭配异常的主要元素词语；以及从预先存储的语料库中获得与所述词语对中的另一个词语搭配频率高于预设阈值的多个词语，并用所述多个词语中的与所述词语对相关度最高的一个词语来替换所述词语对中的主要元素词语。

附记7.根据附记1-6中任意一项所述的源语言改写处理方法，还包括：确定要进行多义词歧义消除处理的语句中的多义词；根据语境含义确定每个多义词在语句中的唯一义项；以及用预先存储的字典中的与所确定的义项对应的一个词语替换与该义项有关的多义词。

附记8.根据附记1-7中任意一项所述的源语言改写处理方法，其中，所述源语言语句是要进行机器翻译的语句。

附记9.一种源语言改写处理设备，包括：语法分析单元，被配置用于对源语言语句中的待处理语句进行语法分析，并根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句；以及语句重构单元，被配置用于基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句，并用所述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。

附记10.根据附记9所述的源语言改写处理设备，还包括：语句选择单元，被配置用于在源语言语句中筛选满足下列条件的语句作为所述待处理语句：语句中的谓词总数高于第一预设阈值且语句中的总词数高于第二预设阈值，并将所述待处理语句提供给所述语法分析单元。

附记11.根据附记9所述的源语言改写处理设备，其中，所述语句重构单元包括：拆分模块，被配置用于基于所述语法分析结果，将所述包含子句嵌套结构的语句拆分为非嵌套子句和剩余的多个句子成分；调序模块，被配置用于对所述非嵌套子句和所述多个句子成分进行调序，以获得至少一个包含非嵌套子句的语句；以及替换模块，被配置用于确定由所述调序模块获得的所述至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句并用所述含有最多非嵌套子句的语句替换所述包含子句嵌套结构的语句。

附记12.根据附记11所述的源语言改写处理设备，其中，所述调序模块将拆分后得到的非嵌套子句作为整体在整个语句中逐次向右调序，或者将拆分后的除非嵌套子句之外的其他句子成分在整个语句中逐次向左调序。

附记13.根据附记9所述的源语言改写处理设备，还包括：语句评分单元，被配置用于在所述语句重构单元获得的含有最多非嵌套子句的语句的个数大于1的情况下，利用预定语言模型对每个所述含有最多非嵌套子句的语句进行评分，并选择其中得分最高的语句提供给所述替换模块，其中，所述替换模块用所述语句评分单元所提供的、在含有最多非嵌套子句的语句中得分最高的语句来替换所述包含子句嵌套结构的语句。

附记14.根据附记9-13中任意一项所述的源语言改写处理设备，还包括异常处理单元，用于对语句中的语义搭配异常进行处理，其中，所述异常处理单元进一步包括：语义角色标注模块，被配置用于对要进行语义搭配异常处理的语句进行语义角色自动标注，以确定语句中的语义搭配出现异常的词语对；异常词语确定模块，被配置用于把语义搭配异常的词语对中的具有较多词义项数的一个词语确定为导致语义搭配异常的主要元素词语；以及异常词语修正模块，被配置用于从预先存储的语料库中获得与所述词语对中的另一个词语搭配频率高于预设阈值的多个词语，并用所述多个词语中的与所述词语对相关度最高的一个词语来替换所述词语对中的主要元素词语。

附记15.根据附记9-14中任意一项所述的源语言改写处理设备，还包括：多义词处理单元，用于对语句进行多义词歧义消除处理，其中，所述多义词处理单元进一步包括：用于确定要进行多义词歧义消除处理的语句中的多义词的装置；用于根据语境含义确定每个多义词在语句中的唯一义项的装置；以及用于用预先存储的字典中的与所确定的义项对应的一个词语替换与该义项有关的多义词。

附记16.一种机器翻译系统，包含根据附记9-15中任意一项所述的源语言改写处理设备。

附记17.一种计算机可读存储介质，其上存储有能够由计算设备执行的计算机程序，所述程序在执行时能够使所述计算设备执行根据附记1-8中任意一项所述的源语言改写处理方法。

虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本申请的范围不仅限于说明书所描述的过程、设备、制造、物质的结构、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此所述的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、制造、物质的结构、手段、方法或者步骤。因此，所附的权利要求旨在它们的范围内包括这样的过程、设备、制造、物质的结构、手段、方法或者步骤。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是用于说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims

1.一种源语言改写处理方法，包括：

对源语言语句中的待处理语句进行语法分析；

根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句；

基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句；以及

用所获得的至少一个包含非嵌套子句的语句中的、含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。

2.根据权利要求1所述的源语言改写处理方法，在进行语法分析的步骤之前还包括步骤：从源语言语句中筛选满足下列条件的语句作为所述待处理语句：

语句中的谓词总数高于第一预设阈值；以及

语句中的总词数高于第二预设阈值。

3.根据权利要求1所述的源语言改写处理方法，其中，对所述包含子句嵌套结构的语句进行重构的步骤进一步包括：

基于所述语法分析结果，将所述包含子句嵌套结构的语句拆分为非嵌套子句和剩余的多个句子成分；以及

对所述非嵌套子句和所述多个句子成分进行调序，作为调序的结果，获得至少一个包含非嵌套子句的语句。

4.根据权利要求3所述的源语言改写处理方法，其中，所述调序步骤进一步包括：

将拆分后得到的非嵌套子句作为整体在整个语句中逐次向右调序，或者将拆分后的除非嵌套子句之外的其他句子成分在整个语句中逐次向左调序。

5.根据权利要求1所述的源语言改写处理方法，其中，所述用含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句的步骤进一步包括：

在所述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句的个数大于1的情况下，利用预定语言模型对每个所述含有最多非嵌套子句的语句进行评分，并选择其中得分最高的语句来替换所述包含子句嵌套结构的语句。

6.根据权利要求1-5中任意一项所述的源语言改写处理方法，还包括以下步骤：

对要进行语义搭配异常处理的语句进行语义角色自动标注，以确定语句中的语义搭配出现异常的词语对；

把语义搭配异常的词语对中的具有较多词义项数的一个词语确定为导致语义搭配异常的主要元素词语；以及

从预先存储的语料库中获得与所述词语对中的另一个词语搭配频率高于预设阈值的多个词语，并用所述多个词语中的与所述词语对相关度最高的一个词语来替换所述词语对中的主要元素词语。

7.根据权利要求1-6中任意一项所述的源语言改写处理方法，还包括：

确定要进行多义词歧义消除处理的语句中的多义词；

根据语境含义确定每个多义词在语句中的唯一义项；以及

用预先存储的字典中的与所确定的义项对应的一个词语替换与该义项有关的多义词。

8.根据权利要求1-7中任意一项所述的源语言改写处理方法，其中，所述源语言语句是要进行机器翻译的语句。

9.一种源语言改写处理设备，包括：

语法分析单元，被配置用于对源语言语句中的待处理语句进行语法分析，并根据语法分析结果确定所述待处理语句中的包含子句嵌套结构的语句；以及

语句重构单元，被配置用于基于所述语法分析结果对所确定的包含子句嵌套结构的语句进行重构，以获得至少一个包含非嵌套子句的语句，并用所述至少一个包含非嵌套子句的语句中的含有最多非嵌套子句的语句来替换所述包含子句嵌套结构的语句。

10.一种机器翻译系统，包含根据权利要求9所述的源语言改写处理设备。