CN106372053B

CN106372053B - 句法分析的方法和装置

Info

Publication number: CN106372053B
Application number: CN201510435938.0A
Authority: CN
Inventors: 涂兆鹏; 陈晓; 姜文斌
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-07-22
Filing date: 2015-07-22
Publication date: 2020-04-28
Anticipated expiration: 2035-07-22
Also published as: CN106372053A; US10909315B2; US20180157634A1; WO2017012327A1

Abstract

本发明公开了一种句法分析的方法和装置。该方法包括：获取与目标语言句子互为译文的源语言句子；根据该源语言句子，以及该目标语言句子的词语与该源语言句子的词语的对应关系，确定该目标语言句子的状态转移实例；根据该目标语言句子的状态转移实例，生成该目标语言句子的句法树。本发明实施例的句法分析的方法和装置，能够提高句法分析的效率。

Description

句法分析的方法和装置

技术领域

本发明涉及信息技术领域，并且更具体地，涉及句法分析的方法和装置。

背景技术

随着互联网的高速发展带来的网络文本数据爆炸式的增长和经济全球化的发展，不同国家之间的信息交流和交换变得越来越频繁。同时，蓬勃发展的互联网为获取诸如英语、汉语、法语、德语、日语等各种语言形式的信息提供了极大地便利。这些语言服务包括信息检索、文本摘要、机器翻译、自动问答等。在众多语言服务中，句法分析能够为其带来巨大的性能提升。句法分析能够对语言的结构进行分析，利用句法分析所得到的句子结构，可以更好地帮助下层应用更好的捕捉句子的结构信息，在此基础上进一步理解语义信息。在机器翻译中可以有多种运用，如更好的辅助统计机器翻译完成源语言到目标语言翻译过程中的长距离调序，也可以用于指导目标译文的生成过程，使得译文更符合语法结构，从而带来译文质量的提升。

然而，除了少数热门的语言，如英语、日语、法语、德语等，众多小语种，如东南亚语言包括泰语、缅甸语，越南语、柬埔寨语等的句法分析远未得到良好发展。其瓶颈在于，这些小语种的句法资源的严重稀缺。句法资源的建设需要投入巨大的人力，并且只有在构建到一定规模之后，才能使得自动句法分析的性能达到应用的程度。另一方面，在实际人工构建句法资源的过程中，还需要面临不同语言句法结构的标准确立的问题，要尽可能地统一标注标准。这些困难都导致了在短期内构建资源稀缺语言的自动句法分析器难以实现。

当前已有的句法分析方法可以大致分为两类：有监督的句法分析和无监督的句法分析。有监督的句法分析是在人工标注的句法树库中抽取特征，通过机器学习模型学习到特征和人工标注的句法结构的关系；对于待标注句子，根据学习到的模型搜索匹配上句子中特征的句法结构组合，以生成给定句子的句法树。有监督的句法分析需要机器学习模型学习特征和标注的句法结构的操作判定，判例的取得需要大量的人工标注的数据。在没有训练数据的情况下，完全不可能开展当前语言的句法分析。人工标注句法树库需要消耗大量的人力和时间成本，保证标注标准的一致性也存在一定的困难。即便存在训练数据，如果训练的数据规模太小，那么判例的学习也极容易过拟合，造成在实际的运用当中性能表现较差。

无监督的句法分析是对不带标注信息的句子自动生成带有标注信息的句法库。无监督的句法分析最大的缺陷在于单纯通过在生文本上进行无监督学习，以致于无法得到可以实用的句法分析器。

发明内容

本发明实施例提供了一种句法分析的方法和装置，能够自动生成符合句法知识的句法树，从而提高句法分析的效率。

第一方面，提供了一种句法分析的方法，包括：

获取与目标语言句子互为译文的源语言句子；

根据该源语言句子，以及该目标语言句子的词语与该源语言句子的词语的对应关系，确定该目标语言句子的状态转移实例；

根据该目标语言句子的状态转移实例，生成该目标语言句子的句法树。

结合第一方面，在第一种可能的实现方式中，根据该源语言句子，以及该目标语言句子的词语与该源语言句子的词语的对应关系，确定该目标语言句子的状态转移实例，包括：

根据该源语言句子，获取该源语言句子的句法树；

对于该目标语言句子中的任意相邻的片段x_l和x_r，根据该对应关系确定x_l和x_r对应的该源语言句子的片段y_l和y_r；

若y_l和y_r是该源语言句子的句法树中的成分，则根据y_l和y_r在该源语言句子的句法树中的关系，获取x_l和x_r对应的状态转移实例；

根据该目标语言句子中的所有相邻的片段对应的状态转移实例，确定该目标语言句子的状态转移实例。

结合第一方面的第一种可能的实现方式，在第二种可能的实现方式中，根据y_l和y_r在该源语言句子的句法树中的成分关系，获取x_l和x_r对应的状态转移实例，包括：

若y_l和y_r构成该源语言句子的句法树中的一个成分，则获取归并操作实例；

若y_l和y_r无法构成该源语言句子的句法树中的一个成分，则获取分离操作实例。

结合第一方面的第一或二种可能的实现方式，在第三种可能的实现方式中，该方法还包括：

对x_l和x_r对应的状态转移实例进行评分；

该根据该目标语言句子中的所有相邻的片段对应的状态转移实例，确定该目标语言句子的状态转移实例，包括：

根据该目标语言句子中的所有相邻的片段对应的状态转移实例的评分，确定该目标语言句子的状态转移实例。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，根据该目标语言句子中的所有相邻的片段对应的状态转移实例的评分，确定该目标语言句子的状态转移实例，包括：

将该目标语言句子中的所有相邻的片段对应的状态转移实例中评分最高的N-1个状态转移实例确定为该目标语言句子的状态转移实例，其中，N为该目标语言句子的长度。

结合第一方面的第三或四种可能的实现方式，在第五种可能的实现方式中，对x_l和x_r对应的状态转移实例进行评分，包括：

根据以下等式对x_l和x_r对应的状态转移实例进行评分，

p(x_l,x_r,y_l,y_r|Α)＝p(x_l,y_l|Α)×p(x_r,y_r|Α)，

其中，Α为对齐矩阵，p(x_l,x_r,y_l,y_r|Α)表示根据x_l和x_r，以及y_l和y_r，获取的状态转移实例的评分。

结合第一方面或第一方面的上述任一种可能的实现方式，在第六种可能的实现方式中，获取与目标语言句子互为译文的源语言句子，包括：

根据目标语言和源语言的平行语料，获取与该目标语言句子互为译文的该源语言句子。

结合第一方面或第一方面的上述任一种可能的实现方式，在第七种可能的实现方式中，根据该目标语言句子的状态转移实例，生成该目标语言句子的句法树，包括：

根据以下等式生成该目标语言句子X的句法树Y(X)，

其中，T表示状态转移操作，D表示句法树的推导。

结合第一方面或第一方面的上述任一种可能的实现方式，在第八种可能的实现方式中，该方法还包括：

根据该目标语言句子的句法树，训练目标语言分析器。

第二方面，提供了一种句法分析的装置，包括：

获取模块，用于获取与目标语言句子互为译文的源语言句子；

确定模块，用于根据该源语言句子，以及该目标语言句子的词语与该源语言句子的词语的对应关系，确定该目标语言句子的状态转移实例；

生成模块，用于根据该目标语言句子的状态转移实例，生成该目标语言句子的句法树。

结合第二方面，在第一种可能的实现方式中，该确定模块具体用于：

根据该源语言句子，获取该源语言句子的句法树；

结合第二方面的第一种可能的实现方式，在第二种可能的实现方式中，该确定模块具体用于：

结合第二方面的第一或二种可能的实现方式，在第三种可能的实现方式中，该确定模块具体用于：

对x_l和x_r对应的状态转移实例进行评分；

结合第二方面的第三种可能的实现方式，在第四种可能的实现方式中，该确定模块具体用于：

结合第二方面的第三或四种可能的实现方式，在第五种可能的实现方式中，该确定模块具体用于：

根据以下等式对x_l和x_r对应的状态转移实例进行评分，

p(x_l,x_r,y_l,y_r|Α)＝p(x_l,y_l|Α)×p(x_r,y_r|Α)，

结合第二方面或第二方面的上述任一种可能的实现方式，在第六种可能的实现方式中，该获取模块具体用于：

结合第二方面或第二方面的上述任一种可能的实现方式，在第七种可能的实现方式中，该生成模块具体用于：

根据以下等式生成该目标语言句子X的句法树Y(X)，

其中，T表示状态转移操作，D表示句法树的推导。

结合第二方面或第二方面的上述任一种可能的实现方式，在第八种可能的实现方式中，该装置还包括：

训练模块，用于根据该目标语言句子的句法树，训练目标语言分析器。

基于上述技术方案，本发明实施例根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树，可以无需人工标注得到目标语言句子的符合句法知识的句法树，从而能够提高句法分析的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的句法分析的方法的示意性流程图。

图2是本发明实施例的源语言句子的句法树的示意图。

图3是本发明实施例的片段对应的示意图。

图4是本发明实施例的抽取实例的示意图。

图5是本发明另一实施例的句法分析的方法的示意性流程图。

图6是本发明一个实施例的句法分析的装置的示意性框图。

图7是本发明另一实施例的句法分析的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

在本发明实施例中，目标语言为待分析的语言。例如，目标语言可以是资源稀缺语言，由于句法资源的稀缺，对于该资源稀缺语言，没有句法分析器或没有较高效率的句法分析器。

在本发明实施例中，源语言为可以通过已有的句法分析器或句法分析方法进行句法分析的语言。例如，源语言可以是资源丰富语言，对于该资源丰富语言，已有句法分析器或者可以通过已有的句法树库训练得到句法分析器。

图1示出了根据本发明实施例的句法分析的方法100的示意性流程图。如图1所示，该方法100包括：

S110，获取与目标语言句子互为译文的源语言句子；

S120，根据该源语言句子，以及该目标语言句子的词语与该源语言句子的词语的对应关系，确定该目标语言句子的状态转移实例；

S130，根据该目标语言句子的状态转移实例，生成该目标语言句子的句法树。

在本发明实施例中，利用与目标语言句子互为译文的源语言句子生成目标语言句子的句法树。对于一个目标语言句子，先根据源语言句子以及目标语言句子的词语与源语言句子的词语的对应关系确定目标语言句子的状态转移(transition)实例(instance)，再根据目标语言句子的状态转移实例生成目标语言句子的句法树。这样，可以由多个目标语言句子得到目标语言句法树库。因此，本发明实施例不需要人工标注就能得到目标语言句法树库，而且该目标语言句法树库相对于无监督学习中自动生成的句法树库更符合句法知识。

因此，本发明实施例的句法分析的方法，根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树，可以无需人工标注得到目标语言句子的符合句法知识的句法树，从而能够提高句法分析的效率。

在本发明一个实施例中，可选地，获取与目标语言句子互为译文的源语言句子，包括：

平行语料属于双语语料，是指源语言和目标语言在句子级别互为翻译的语料。也就是说，平行语料中的目标语言句子具有源语言句子的译文。例如，平行语料可以为双语平行语料库、双语词典或双语对应规则等。本发明实施例中从平行语料中选择目标语言句子，再根据目标语言句子的译文(源语言句子)生成目标语言句子的句法树。

可选地，平行语料中的对应句子可以经过相应语言的预处理，例如是汉语需要进行分词，英语则需要进行标记解析(tokenize)以减小数据稀疏性和增加数据一致性。

在本发明一个实施例中，可选地，根据该源语言句子，以及该目标语言句子的词语与该源语言句子的词语的对应关系，确定该目标语言句子的状态转移实例，包括：

根据该源语言句子，获取该源语言句子的句法树；

具体而言，在得到目标语言句子对应的源语言句子后，对源语言句子进行分析，获取该源语言句子的句法树。可通过已有的源语言的分析器得到源语言句子的句法树，例如，斯坦福分析器(Stanford parser)；也可以使用在源语言已有的句法树库上训练得到的分析器。

枚举目标语言句子X中任意相邻的片段x_l和x_r，表示为<x_l,x_r>。

根据目标语言句子的词语与源语言句子的词语的对应关系得到<x_l,x_r>所对应的源语言的片段y_l和y_r，表示为<y_l,y_r>。y_l和y_r不一定相邻。该对应关系可以使用已有的对齐工具得到，如GIZA++，也可以使用其他的自动对齐工具，本发明对此并不限定。例如，词语对齐具体形式为：1:12:3…，表示源语言句子第1个词和目标语言句子第1个词对应，源语言句子第2个词和目标语言句子第3个词对应等。

如果所得源语言句子片段<y_l,y_r>不是源语言句子的句法树中的成分，则重新选择目标语言句子X中另外相邻的片段。如果所得源语言句子片段<y_l,y_r>是源语言句子的句法树中的成分，则根据y_l和y_r的关系，抽取状态转移实例。具体地，如果y_l和y_r构成了源语言句子的句法树中的一个成分，即更大的成分，则抽取归并操作实例，即推导的正例；如果y_l和y_r无法构成源语言句子的句法树中的一个成分，则抽取分离操作实例，即推导的反例。

重复上述步骤，直至枚举完成。再在所抽取的所有状态转移实例中选择状态转移实例。

在本发明一个实施例中，可选地，该方法100还包括：

对x_l和x_r对应的状态转移实例进行评分；

在这种情况下，根据该目标语言句子中的所有相邻的片段对应的状态转移实例，确定该目标语言句子的状态转移实例，包括：

具体而言，由于词语对应(或称为对齐)有一定的误差，尤其是对异构的语言间。因此，源语言片段和目标语言片段的对齐强弱程度可能有高有低。可选地，在确定<x_l,x_r>对应的源语言的片段<y_l,y_r>时，可以根据最好的一个或多个对齐结果选择。在选择状态转移实例时，可根据状态转移实例的评分进行选择。可选地，可以将该目标语言句子中的所有相邻的片段对应的状态转移实例中评分最高的N-1个状态转移实例确定为该目标语言句子的状态转移实例，其中，N为该目标语言句子的长度。

在本发明一个实施例中，可选地，可根据以下等式对x_l和x_r对应的状态转移实例进行评分，

p(x_l,x_r,y_l,y_r|Α)＝p(x_l,y_l|Α)×p(x_r,y_r|Α) (1)

其中，Α为对齐矩阵，p(x_l,x_r,y_l,y_r|Α)表示根据x_l和x_r，以及y_l和y_r，获取的状态转移实例的评分，i为片段x中的词，j为片段y中的词。

应理解，上述等式(1)和(2)只是对实例进行评分的一种方式，本发明还可以通过其他方式对实例进行评分，例如，采用其他对齐方式或其他对齐矩阵进行评分，本发明对此并不限定。

下面将结合具体的例子详细描述本发明实施例。应注意，这只是为了帮助本领域技术人员更好地理解本发明实施例，而非限制本发明实施例的范围。

给定目标语言句子为：“railway workers learn English grammar”，其译文为源语言句子“铁路工人学习英语语法”。

对于源语言句子，根据已有的句法分析器可到其句法树，如图2所示。

枚举目标语言句子两个相邻的片段，如这两个相邻的片段<x_l,x_r>为<learn,English grammar>。

根据对应关系得到上述两个相邻的片段在源语言句子中对应的片段<y_l,y_r>。如图3所示，对应片段为<学习,英语语法>。

判断<y_l,y_r>是否是源语言句子句法树中的成分。从图2中可以得到，<学习,英语语法>是源语言句子句法树中的成分，<V,NP>。

根据y_l和y_r的关系，抽取状态转移实例。如图4所示，<V,NP>构成更大的成分VP，即<V,NP>可以归并。因此，推导认为<learn,English grammar>也可以归并，从而抽取归并操作实例，并对该实例进行评分。

重复上述步骤直至枚举完所有相邻片断，最后选择分数最高的N-1个实例(N为目标语言句子的长度)。

在获取了目标语言句子的状态转移实例后，可根据该目标语言句子的状态转移实例，生成该目标语言句子的句法树。

在本发明一个实施例中，可选地，可根据以下等式生成该目标语言句子X的句法树Y(X)，

其中，T表示状态转移操作(transition operation)，D表示句法树的推导(derivation)。

式(3)中，对于实例对应的状态转移操作T，可表示为T＝(λ,α,β)，其中，λ∈{reduce,separate}，表示两个成分该归并还是分离，α∈NT，表示归并之后的目标非终结符(non-terminal)，β∈{left,right}，表示归并之后哪个是中心成分。

状态转移操作(λ,α,β)可以拆解为两部分：

(λ,α)，成分句法分析操作；

(λ,β)，依存句法分析操作。

状态转移操作T＝(λ,α,β)的评分p(T)是两部分评分之积：

p(T|S,C_c,C_d)＝p(λ,α,β|S,C_c,C_d)＝p(λ,α|S,C_c)×p(λ,β|S,C_d) (4)

其中，S表示状态，C_c和C_d分别表示成分分类器和依存分类器。

对于p(λ,α|S,C_c)和p(λ,β|S,C_d)，可以使用特征模板抽取每个实例的对应特征，并通过训练分类器得到相关概率(即评分)。

应理解，上述等式(3)只是生成句法树的一种方式，本发明还可以利用等式(3)的变形或者其他基于评分的方式生成句法树，本发明对此并不限定。

在本发明一个实施例中，如图5所示，可选地，该方法100还包括：

S140，根据该目标语言句子的句法树，训练目标语言分析器。

具体而言，前述生成的目标语言句子的句法树可以用来训练目标语言分析器。也就是说，多个目标语言句子的句法树可组成目标语言句法树库，用于训练目标语言分析器。由句法树库训练分析器可以使用已有的技术，在此不再赘述。

本发明实施例的句法分析的方法，根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树，可以不需要人工标注得到较优的目标语言句子的符合句法知识的句法树，从而能够提高句法分析的效率。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上文中详细描述了根据本发明实施例的句法分析的方法，下面将描述根据本发明实施例的句法分析的装置。

图6示出了根据本发明实施例的句法分析的装置600的示意性框图。如图6所示，该装置600包括：

获取模块610，用于获取与目标语言句子互为译文的源语言句子；

确定模块620，用于根据该源语言句子，以及该目标语言句子的词语与该源语言句子的词语的对应关系，确定该目标语言句子的状态转移实例；

生成模块630，用于根据该目标语言句子的状态转移实例，生成该目标语言句子的句法树。

在本发明实施例中，利用与目标语言句子互为译文的源语言句子生成目标语言句子的句法树。对于一个目标语言句子，先根据源语言句子以及目标语言句子的词语与源语言句子的词语的对应关系确定目标语言句子的状态转移实例，再根据目标语言句子的状态转移实例生成目标语言句子的句法树。这样，可以由多个目标语言句子得到目标语言句法树库。因此，本发明实施例不需要人工标注就能得到目标语言句法树库，而且该目标语言句法树库相对于无监督学习中自动生成的句法树库更符合句法知识。

因此，本发明实施例的句法分析的装置，根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树，可以无需人工标注得到目标语言句子的符合句法知识的句法树，从而能够提高句法分析的效率。

在本发明一个实施例中，可选地，该确定模块620具体用于：

根据该源语言句子，获取该源语言句子的句法树；

在本发明一个实施例中，可选地，该确定模块620具体用于：

对x_l和x_r对应的状态转移实例进行评分；

在本发明一个实施例中，可选地，该确定模块620具体用于：

根据以下等式对x_l和x_r对应的状态转移实例进行评分，

p(x_l,x_r,y_l,y_r|Α)＝p(x_l,y_l|Α)×p(x_r,y_r|Α)，

在本发明一个实施例中，可选地，该获取模块610具体用于：

在本发明一个实施例中，可选地，该生成模块630具体用于：

根据以下等式生成该目标语言句子X的句法树Y(X)，

其中，T表示状态转移操作，D表示句法树的推导。

在本发明一个实施例中，可选地，该装置600还包括：

根据本发明实施例的句法分析的装置600可对应于根据本发明实施例的句法分析的方法的执行主体，并且装置600中的各个模块的上述和其它操作和/或功能分别为了实现前述方法的相应流程，为了简洁，在此不再赘述。

本发明实施例的句法分析的装置，根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树，可以不需要人工标注得到较优的目标语言句子的符合句法知识的句法树，从而能够提高句法分析的效率。

图7示出了本发明的又一实施例提供的句法分析的装置的结构，包括至少一个处理器702(例如CPU)，至少一个网络接口705或者其他通信接口，存储器706，和至少一个通信总线703，用于实现这些部件之间的连接通信。处理器702用于执行存储器706中存储的可执行模块，例如计算机程序。存储器706可能包含高速随机存取存储器(RAM：Random AccessMemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个网络接口705(可以是有线或者无线)实现与至少一个其他网元之间的通信连接。

在一些实施方式中，存储器706存储了程序7061，处理器702执行程序7061，用于执行以下操作：

获取与目标语言句子互为译文的源语言句子；

可选地，处理器702具体用于：

根据该源语言句子，获取该源语言句子的句法树；

可选地，处理器702具体用于：

对x_l和x_r对应的状态转移实例进行评分；

可选地，处理器702具体用于：

根据以下等式对x_l和x_r对应的状态转移实例进行评分，

p(x_l,x_r,y_l,y_r|Α)＝p(x_l,y_l|Α)×p(x_r,y_r|Α)，

可选地，处理器702具体用于：

根据以下等式生成该目标语言句子X的句法树Y(X)，

其中，T表示状态转移操作，D表示句法树的推导。

可选地，处理器702还用于根据该目标语言句子的句法树，训练目标语言分析器。

从本发明实施例提供的以上技术方案可以看出，本发明实施例根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树，可以无需人工标注得到目标语言句子的符合句法知识的句法树，从而能够提高句法分析的效率。

应理解，在本发明实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种句法分析的方法，其特征在于，包括：

获取与目标语言句子互为译文的源语言句子；

根据所述源语言句子，以及所述目标语言句子的词语与所述源语言句子的词语的对应关系，确定所述目标语言句子的状态转移实例；

根据所述目标语言句子的状态转移实例，生成所述目标语言句子的句法树；

其中，所述根据所述源语言句子，以及所述目标语言句子的词语与所述源语言句子的词语的对应关系，确定所述目标语言句子的状态转移实例，包括：

根据所述源语言句子，获取所述源语言句子的句法树；

对于所述目标语言句子中的任意相邻的片段x_l和x_r，根据所述对应关系确定x_l和x_r对应的所述源语言句子的片段y_l和y_r；

若y_l和y_r是所述源语言句子的句法树中的成分，则根据y_l和y_r在所述源语言句子的句法树中的关系，获取x_l和x_r对应的状态转移实例，其中，若y_l和y_r构成所述源语言句子的句法树中的一个成分，则获取归并操作实例，若y_l和y_r无法构成所述源语言句子的句法树中的一个成分，则获取分离操作实例；

对x_l和x_r对应的状态转移实例进行评分；

根据所述目标语言句子中的所有相邻的片段对应的状态转移实例，确定所述目标语言句子的状态转移实例；

其中，所述根据所述目标语言句子中的所有相邻的片段对应的状态转移实例，确定所述目标语言句子的状态转移实例，包括：

根据所述目标语言句子中的所有相邻的片段对应的状态转移实例的评分，确定所述目标语言句子的状态转移实例；

所述对x_l和x_r对应的状态转移实例进行评分，包括：

根据以下等式对x_l和x_r对应的状态转移实例进行评分，

p(x_l,x_r,y_l,y_r|Α)＝p(x_l,y_l|Α)×p(x_r,y_r|Α)，

其中，Α为对齐矩阵，p(x_l,x_r,y_l,y_r|Α)表示根据x_l和x_r，以及y_l和y_r，获取的状态转移实例的评分；

所述根据所述目标语言句子中的所有相邻的片段对应的状态转移实例的评分，确定所述目标语言句子的状态转移实例，包括：

将所述目标语言句子中的所有相邻的片段对应的状态转移实例中评分最高的N-1个状态转移实例确定为所述目标语言句子的状态转移实例，其中，N为所述目标语言句子的长度。

2.根据权利要求1所述的方法，其特征在于，所述获取与目标语言句子互为译文的源语言句子，包括：

根据目标语言和源语言的平行语料，获取与所述目标语言句子互为译文的所述源语言句子。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标语言句子的状态转移实例，生成所述目标语言句子的句法树，包括：

根据以下等式生成所述目标语言句子X的句法树Y(X)，

其中，T表示状态转移操作，D表示句法树的推导。

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

根据所述目标语言句子的句法树，训练目标语言分析器。

5.一种句法分析的装置，其特征在于，包括：

确定模块，用于根据所述源语言句子，以及所述目标语言句子的词语与所述源语言句子的词语的对应关系，确定所述目标语言句子的状态转移实例；

生成模块，用于根据所述目标语言句子的状态转移实例，生成所述目标语言句子的句法树；

其中，所述确定模块具体用于：

根据所述源语言句子，获取所述源语言句子的句法树；

对x_l和x_r对应的状态转移实例进行评分；

根据以下等式对x_l和x_r对应的状态转移实例进行评分，

p(x_l,x_r,y_l,y_r|Α)＝p(x_l,y_l|Α)×p(x_r,y_r|Α)，

6.根据权利要求5所述的装置，其特征在于，所述获取模块具体用于：

7.根据权利要求5或6所述的装置，其特征在于，所述生成模块具体用于：

根据以下等式生成所述目标语言句子X的句法树Y(X)，

其中，T表示状态转移操作，D表示句法树的推导。

8.根据权利要求5或6所述的装置，其特征在于，所述装置还包括：

训练模块，用于根据所述目标语言句子的句法树，训练目标语言分析器。