CN107992479A

CN107992479A - 基于转移方法的字级别中文组块分析方法

Info

Publication number: CN107992479A
Application number: CN201711421025.9A
Authority: CN
Inventors: 王家彬; 吕晨
Original assignee: DIGITAL TELEVISION TECHNOLOGY CENTER BEIJING PEONY ELECTRONIC GROUP Co Ltd
Current assignee: DIGITAL TELEVISION TECHNOLOGY CENTER BEIJING PEONY ELECTRONIC GROUP Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-05-04

Abstract

本发明提供一种基于转移方法的字级别中文组块分析方法，包括以下步骤：步骤一、构建一套转移系统，所述转移系统对句子进行一系列转移操作处理；步骤二、对于已标注的组块分析数据集，通过步骤一中的所述转移系统的处理后，训练组块分析模型；步骤三、将生文本输入所述组块分析模型进行字级别组块分析测试，得出与生文本对应的分词、词性标注和组块分析结果。本发明的基于转移方法的字级别中文组块分析方法具有能够减少错误传播的问题以及能够取得更好地组块分析性能的有益效果。

Description

基于转移方法的字级别中文组块分析方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于转移方法的字级别中文组块分析方法。

背景技术

组块分析，又叫浅层句法分析(shallow parsing)，与句法分析为了获得一个句子的完整句法树不同。组块分析的目标是识别出句子中某些句法相关、结构相对简单、不重叠的句子成分，例如名词短语、动词短语等。同时，与词性标注相比，组块分析能够包含更深层次的句法相关的信息。

组块分析是自然语言处理中的一个标准基础任务，对其他的自然语言处理技术应用也能够起到很重要的作用。将组块信息应用在机器翻译、问答系统以及命名实体识别等任务中，可以有效提升现有系统的实际性能。

对于基于字的语言，如中文来说，与英语不同的特点是，分词是它们的一个独特挑战，并且在很多任务中，分词都是一个必须的预处理步骤，在此基础上再进行其他的后续处理任务。

在中文组块分析方面，之前大部分工作都假设已经给出了标准的分词和词性标注结果，但是当使用自动分词结果时，其结果会引起错误传播的问题。比如分词和词性标注的错误会导致下一步组块分析的错误，中文组块分析系统的性能会有大幅度的下降。两者之间的较大的对比差距表明，在实际的应用中，组块分析系统在生语料上的性能仍然有比较大的提升空间。

因此，本领域迫切需要研发出一种能够准确处理生语料上进行组块分析的方法。

发明内容

本发明之目的是提供一种基于转移方法的字级别中文组块分析方法，能够减少错误传播的问题以及能够取得更好地组块分析性能。

本发明提供一种基于转移方法的字级别中文组块分析方法，包括以下步骤：

步骤一、构建一套转移系统，所述转移系统对句子进行一系列转移操作处理；

步骤二、对于已标注的组块分析数据集，通过步骤一中的所述转移系统转移操作处理后，训练组块分析模型；

步骤三、将生文本输入所述组块分析模型进行字级别组块分析测试，得出与生文本对应的分词、词性标注和组块分析结果。

优选地，步骤一中的所述转移系统中的每个状态包括一个栈、一个缓存和一个队列，其中，

所述栈包含已进行组块标注的部分不完整句子；

所述缓存包含已进行分词和词性标注过的部分不完整结果；以及

所述队列包含未处理的字序列。

优选地，步骤一中的所述一系列转移操作包括分割词性、添加词、终止词、分割组块类型、添加组块、终止。

优选地，所述转移操作中所述分割词性、添加词、终止词、分割组块类型、添加组块、终止的操作顺序随机。

优选地，步骤二中在训练组块分析模型开始之前，模型的参数被初始化为全零向量，并用于开始对训练句子进行解码。

优选地，所述解码算法采用Beam Search解码算法。

优选地，步骤二中的训练算法采用感知器算法，并且在采用感知器算法的过程中采用自更新机制，所述自更新机制即是在解码过程中任何字的位置均能进行实时参数更新。

优选地，所述步骤二中已标注的组块分析数据集为人工标注的组块分析数据集。

优选地，所述步骤二对于已标注的组块分析数据集，通过步骤一中的所述转移系统的处理后，训练得出组块分析模型，其中，

在训练过程处理完全部训练句子时，开始进行下一轮迭代转移操作，并且同样的训练句子被用于模型训练过程中的多个迭代转移操作过程中。

本发明的基于转移方法的字级别中文组块分析方法相比现有技术具有如下有益效果：

本发明采用基于转移操作的方法，能够同时实现分词、词性标注和组块分析这三个任务，与先进行分词和词性标注、再进行基于词的组块分析的串行方法相比，其联合模型能够减少错误传播的问题，取得更好的组块分析性能。

附图说明

下面将简要说明本申请所使用的附图，显而易见地，这些附图仅用于解释本发明的构思。

图1是本发明的基于转移方法的字级别中文组块分析方法的流程示意图。

具体实施方式

在下文中，将参照附图描述本发明的基于转移方法的字级别中文组块分析方法的实施例。

在此记载的实施例为本发明的特定的具体实施方式，用于说明本发明的构思，均是解释性和示例性的，不应解释为对本发明实施方式及本发明范围的限制。除在此记载的实施例外，本领域技术人员还能够基于本申请权利要求书和说明书所公开的内容采用显而易见的其它技术方案，这些技术方案包括对在此记载的实施例做出任何显而易见的替换和修改的技术方案。

本说明书的附图为示意图，辅助说明本发明的构思，示意性地表示各部分的相互关系。请注意，为了便于清楚地表现出本发明实施例的各部分的关系。相同或相似的参考标记用于表示相同或相似的部分。

图1是本发明的基于转移方法的字级别中文组块分析方法的流程示意图，如图1所示，本发明提供了一种基于转移方法的字级别中文组块分析方法，包括以下步骤：

步骤一、构建一套转移系统，转移系统对句子进行一系列转移操作处理；

步骤二、对于已标注的组块分析数据集，通过步骤一中的转移系统的转移操作处理后，训练组块分析模型；

步骤三、将生文本输入组块分析模型进行字级别组块分析测试，得出与生文本对应的分词、词性标注和组块分析结果。

需要说明的是，步骤一中的转移系统在对一个句子进行一系列的转移操作处理后，能够实现对字级别中文组块分析，得到其分词、词性标注和组块分析结果。

此外，步骤一中的转移系统中的每个状态包括一个栈、一个缓存和一个队列，其中，栈包含已经进行了组块标注的部分不完整句子，缓存则是用于保存部分已经分词和词性标注过的不完整结果，队列则是包含未经处理的字序列。

在本发明的进一步实施例中，步骤一中的一系列转移操作包括分割词性、添加词、终止词、分割组块类型、添加组块、终止。但是，需要说明的是，上述转移操作中分割词性、添加词、终止词、分割组块类型、添加组块、终止的操作顺序并非是固定唯一的，而是根据转移操作在具体处理句子的过程中根据实际情况进行转移操作选择，并非仅仅是按照分割词性、添加词、终止词、分割组块类型、添加组块、终止的转移操作的顺序，还可以是分割词性、添加词、终止词、分割组块类型、分割词性、终止词、添加组块、终止，当然还可以是其他转移操作顺序。

进一步地，对转移操作中每个步骤进行如下定义：

分割词性：移除队列前面的字，并把该字作为一个新词的开始(词性标注为TAG标签)添加到缓存中。

添加词：移除队列前面的字，并把它添加到缓存中的最后一个不完整词的后面，作为当前最后一个词的延续。

终止词:把缓存中的最后一个词标记为一个完整词。

分割组块类型：移除缓存前面的词，并把它作为一个新的组块的开始(组块类型标注为TYPE)添加到栈上。

添加组块：移除缓存前面的词，并把它添加到栈上最后一个不完整的组的后面。

终止：终止操作，当前状态为终止状态，对应句子的分词、词性标注和组块分析的结果。

参见如下表1，表1为一具体实例来对基于转移方法的字级别中文组块分析方法中的转移操作过程和结果进行一个更详细的解释，其中给出了句子“他到达北京机场。”，通过转移操作系统对其进行联合分词、词性标注和组块分析的操作序列实例。

如表1所示，转移系统对一个句子在通过SEP(TAG)(分割词性)、FINW(终止词)、SEP(TYPE)(分割组块类型)、APPW(添加词)与APPC(添加组块)等转移操作步骤，但是具体转移操作步骤顺序不固定，需要根据具体处理的句子进行具体转移操作步骤，为此表1中步骤6～步骤15之间进行省略，在进行了一系列的转移操作后得出最后的分词、词性标注和组块分析结果，即【NP他/NR】【VP到达/VV】【NP北京/NR机场/NN】。

具体地，在进行转移操作步骤开始时，首先在步骤0中用Φ表示未经处理过的字序列，然后进行分割词性，移除队列前面的字，并把该字作为一个新词的开始添加到缓存中，表1中步骤1则是将整个句子的前面的字“他”添加到缓存中，同时队列中更新为“到达”；下一步进行终止词，表1中步骤2把缓存中的最后一个词标记为一个完整词；下一步进行分割组块类型，表1中步骤3则是移除缓存前面的词，并把它作为一个新的组块的开始添加到栈上；下一步进行分割词性，表1步骤4中则是移除队列前面的字，并把该字作为一个新词的开始添加到缓存中，即将“到”字添加到缓存中，同时队列中更新为“达北”；下一步进行添加词，移除队列前面的字，并把它添加到缓存中的最后一个不完整词的后面，作为当前最后一个词的延续，表1步骤5中则是将“达”字添加到“到”字后面，作为“到”字的延续；下一步进行终止词，把缓存中的最后一个词标记为一个完整词，表1中步骤6则是把缓存中的“到达”标记为一个完整词，且为动词；在进行了一系列的转移操作后得出最后的分词、词性标注和组块分析结果，即【NP他/NR】【VP到达/VV】【NP北京/NR机场/NN】。其中，在缓存中出现的词的个数的最大值由系统进行内定，可以设定为一个词或多个词，具体个数根据实际情况进行设定。

表1

在本发明的进一步实施例中，步骤二中的训练算法采用感知器算法，并且在采用感知器算法的过程中采用自更新机制，自更新机制即是在解码过程中任何字的位置均能进行实时参数更新。并且，步骤二中在采用感知器算法训练组块分析模型开始之前，模型的参数被初始化为全零向量，并用于开始对训练句子进行解码，具体是通过从左到右的顺序对句子进行Beam Search解码，表2则是Beam Search(柱搜索算法)的伪代码。

表2

参见表2，其中一个列表(agenda)用于保存在解码过程中每一步生成的全部候选状态。变量候选集(candidates)是一组可以用来产生新的状态的候选状态集合，即来自前一个阶段的前N个最佳的状态，其中N是保留在每一个阶段的最优状态的数目。在解码过程开始前，转移系统中的开始状态用于初始化这个agenda，即agenda初始化为空，同时candidates初始化为起始状态。在解码过程中每一步，对当前candidates中的每个候选状态s，GETACTIONS(s)方法返回可以作用于候选状态s的所有可能的操作，当处理一个字时，当前candidates中的每个候选s以所有可能的转移操作方式进行扩展，并且所有新生成的候选均被放入到agenda中，用于下一步骤中。然后将前N个最优的新生成的候选集合赋值给candidates，CLEAR方法清空agenda中所有状态，并用于下一解码步骤中。如果当前agenda中最优的状态为终止状态，则解码过程终止，返回该最优状态，其中GOALTEST方法用于判断该状态是否为终止状态。当处理过程结束时，agenda中的得分最高的候选将被作为输出结果。

在训练组块分析模型过程中，当句子中的每个字被处理之后，agenda中的不完整的候选状态都会与对应的、处理过相同字的标准输出进行比较。如果agenda中没有候选输出是正确的话，那么解码过程就会停止，并且模型的参数就要进行更新。但是，如果agenda中的某个候选状态与对应的标准输出相同的话，那么解码过程就要接着处理下一个字，模型的参数向量没有任何改变。当所有字都被处理完之后，解码的结果要跟训练句子进行比较。如果解码结果是正确的话，模型的参数向量没有任何改变。否则的话，模型的参数向量就要进行自动更新，然后训练过程同样要开始处理下一个训练句子。

最后，当训练过程处理完全部训练句子时，开始下一轮迭代转移操作过程，也就是说，同样的训练句子被用于模型训练过程中的多个迭代转移操作过程中，即组块分析模型是经过了无数次的转移操作之后形成的，该组块分析模型的分析准确率较高。

需要说明的是，步骤二中已标注的组块分析数据集为人工标注的组块分析数据集。

以上对本发明的基于转移方法的字级别中文组块分析方法的实施方式进行了说明。对于本发明的基于转移方法的字级别中文组块分析方法的具体特征可以根据上述披露的特征的作用进行具体设计，这些设计均是本领域技术人员能够实现的。而且，上述披露的各技术特征并不限于已披露的与其它特征的组合，本领域技术人员还可根据本发明之目的进行各技术特征之间的其它组合，以实现本发明之目的为准。

Claims

1.一种基于转移方法的字级别中文组块分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于转移方法的字级别中文组块分析方法，其特征在于，步骤一中的所述转移系统中的每个状态包括一个栈、一个缓存和一个队列，其中，

所述栈包含已进行组块标注的部分不完整句子；

所述队列包含未处理的字序列。

3.根据权利要求2所述的基于转移方法的字级别中文组块分析方法，其特征在于，步骤一中的所述一系列转移操作包括分割词性、添加词、终止词、分割组块类型、添加组块、终止。

4.根据权利要求3所述的基于转移方法的字级别中文组块分析方法，其特征在于，所述转移操作中所述分割词性、添加词、终止词、分割组块类型、添加组块、终止的操作顺序随机。

5.根据权利要求1所述的基于转移方法的字级别中文组块分析方法，其特征在于，步骤二中在训练组块分析模型开始之前，模型的参数被初始化为全零向量，并用于开始对训练句子进行解码。

6.根据权利要求5所述的基于转移方法的字级别中文组块分析方法，其特征在于，所述解码算法采用Beam Search解码算法。

7.根据权利要求5所述的方基于转移方法的字级别中文组块分析方法，其特征在于，步骤二中的训练算法采用感知器算法，并且在采用感知器算法的过程中采用自更新机制，所述自更新机制即是在解码过程中任何字的位置均能进行实时参数更新。

8.根据权利要求1所述的基于转移方法的字级别中文组块分析方法，其特征在于，所述步骤二中已标注的组块分析数据集为人工标注的组块分析数据集。

9.根据权利要求1所述的基于转移方法的字级别中文组块分析方法，其特征在于，所述步骤二对于已标注的组块分析数据集，通过步骤一中的所述转移系统的处理后，训练得出组块分析模型，其中，