CN103020185A

CN103020185A - 一种多序列标注问题的联合识别方法

Info

Publication number: CN103020185A
Application number: CN201210505053XA
Authority: CN
Inventors: 王轩; 李鑫鑫; 张加佳; 赵海楠; 李晔
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2012-11-30
Filing date: 2012-11-30
Publication date: 2013-04-03

Abstract

本发明提供了一种多序列标注问题的联合识别方法，包括以下步骤：步骤1：针对任务I，只采用基本特征生成分类器A，针对任务II，只采用基本特征生成分类器B；步骤2：针对任务I，采用任务I的基本特征和任务II的结果带来的特征生成分类器A2，针对任务II，采用任务II的基本特征和任务I的结果带来的特征生成分类器B2；步骤3：使用集成识别算法将分类器B和B2集成为CB,将分类器A和A2集成为CA；步骤4：重复步骤2和3，直到两个任务的准确率达到最大值。本发明弥补了序列标注任务单独识别时不能从其他任务得到有用信息的缺点，使得多个任务之间有效的交换信息，并通过分类器集成，提高整个任务的准确性。

Description

一种多序列标注问题的联合识别方法

技术领域

本发明涉及自然语言处理领域的识别方法，主要涉及多任务的识别，包括组块识别、分词、词性标注等序列标注任务的联合识别。

背景技术

在自然语言处理领域，很多任务都是基于流水线识别的，即将一个复杂的任务简化为几个较简单的，依序完成的任务。对中文进行词性标注前，先对其进行分词。这样处理可以有效地减少计算的复杂性，但同时它也会带来两个问题：一是错误传递，前一个任务的错误会带到后一个任务中，如分词的错误会带到词性标注中；二是两个任务之间的信息不能共享，磁性标注有利于提高分词的准确性，但是先分词再进行词性标注，不能利用词性提高分词的准确率。

为了减少在多任务识别中采用流水线方法造成的错误传递，可以首先对第一个任务生成n个最优值，然后将这n个可能值传到第二个任务，并通过重排序方法或者约束满足方法得到第二个任务的最优值（图1）。这种方法能够将第一个任务的信息传递到第二个任务，但是不能传递回去。霍林斯赫德提出了一种短语识别和句法分析的迭代识别方法（图2）。但是试验结果表明，对于序列标注问题，直接的迭代识别反而降低单个任务的准确率。图1和图2中，Task I和Task II表示任务I和任务II，分类器A,B表示采用基本特征的分类器，A2,B2表示采用基本特征和其他任务特征的分类器。

发明内容

针对多个任务单独识别时存在的问题，本发明提出了一种迭代识别的方法，能够使多任务之间相互传递信息，解决错误传递和信息不能共享的问题，提高识别的准确率。

一种多序列标注问题的联合识别方法，包括以下步骤：

步骤1：针对任务I，只采用基本特征生成分类器A，

针对任务II，只采用基本特征生成分类器B；

步骤2：针对任务I，采用任务I的基本特征和任务II的结果带来的特征生成分类器A2，

针对任务II，采用任务II的基本特征和任务I的结果带来的特征生成分类器B2；

步骤3：使用集成识别算法将分类器B和B2集成为CB,将分类器A和A2集成为CA；

步骤4：重复步骤2和3，直到两个任务的准确率达到最大值；

分类器A,B表示采用基本特征的分类器，A2,B2表示采用基本特征和

其他任务特征的分类器，而CA,CB则分别表示集成的分类器。

作为本发明的进一步改进，对每个子分类器A,B,A2,B2都在反向句子

序列上训练模型，对于每个任务都产生四个不同的分类器来用于集成识

别，那么，上述四个步骤为以下四步：

步骤1：针对任务I，只采用基本特征生成分类器A，A’，

针对任务II，只采用基本特征生成分类器B，B’；

步骤2：针对任务I，采用任务I的基本特征和任务II的结果带来的特征生成分类器A2，A2’，

针对任务II，采用任务II的基本特征和任务I的结果带来的特征生成分类器B2，B2’；

步骤3使用集成识别算法将分类器B、B’和B2、B2’集成为CB,将分类器A、A’和A2、A2’集成为CA；

步骤4：重复步骤2和3，直到达到最大值；

分类器A,B表示采用基本特征的分类器，A2,B2表示采用基本特征和其他任务特征的分类器，而CA,CB则分别表示集成的分类器；分类器A’,B’表示反向采用基本特征的分类器，A2’,B2’表示反向采用基本特征和其他任务特征的分类器，而CA,CB则分别表示集成的分类器。

作为本发明的进一步改进，对于分类器A、A’、A2、A2’、B、B’、B2、B2’和集成分类器CA、CB都采用平均感知器方法进行识别。

作为本发明的进一步改进，平均感知器方法如下：对于一个输入句子X，它的最优标注为

F (x) = \underset{y &Element; GEN (x)}{\arg \max} Φ (x, y) * \overset{&OverBar;}{a}

在上式中，y表示句子x产生的所有候选标示集，

表示每个候选中的特征和特征权重的内积。

作为本发明的进一步改进，特征权重向量根据以下公式进行更新：

\overset{&OverBar;}{a} = \overset{&OverBar;}{a} + Φ (x, y) - Φ (x, F (x)) .

作为本发明的进一步改进，分类器集成方法具体如下：采用一种基于序列的平均感知器集成方法，选择每个词在序列中的特征和前面分类器（CA采用分类器A、A’、A2、A2’，CB采用分类器B、B’、B2、B2’）的结果作特征，实现整个句子的全局最优。

作为本发明的进一步改进，在解析过程中采用宽度为k的束状搜索策略，分类器采用判别式识别方法，从多个候选集选择最优值，在一个分类器的多个候选集中选择最优的分类器。

本发明弥补了序列标注任务单独识别时不能从其他任务得到有用信息的缺点，使得多个任务之间有效的交换信息，并通过分类器集成，提高整个任务的准确性。

实验验证：

我们针对英文的词性标注和组块分析进行了实验。实验数据采用计算自然语言理解大会2000年评测的组块分析数据,共包括2014句话，有45个词性标示和23个组块标示。

对于词性识别任务和组块分析任务，采用基本特征的分类器A（A'）和B（B'）的特征分别如下：

W_i-2,W_i1，W_i，W_i+l,W_i+2
	W_i的前缀和后缀,\|\|x\|\|<=4,
P_i-1,P_i-2P_i-1

词性标注分类器A（A'）采用的特征

词性标注分类器B（B'）采用的特征

其中W表示词，P表示词性，i-n,i+n分别表示当前词的第前n个位置和第后n个位置，如W_i-2表示前面第二个词，P_i+1表示后面第一个词的词性。

采用基本分类器可以对每个任务生成识别结果，从而两个任务可以利用另一个任务的识别结果产生的新特征生成新的分类器。新分类器A2（A2'）和B2（B2'）采用的特征如下：

W_i-2W_i-1,W_i-1W_i,W_iW_i+l,W_i+lW_i+2
	W_i的前缀和后缀,\|\|x\|\|<=4
t_i-1,t_i-2t_i-1
	C_i-2，C_i-1，C_i

词性标注分类器A2（A2'）采用的特征

词性标注分类器B2（B2'）采用的特征

然后上述分类器通过平均感知器方法进行集成,分类器B、B’和B2、B2’集成为CB,将分类器A、A’和A2、A2’集成为CA。集成方法采用特征如下：

w_i，j，w_i,t_i，jwi
	t_i-1，j,t_i+1，j,t_i-1，jw_i-1，jw_i+1
tc_i-1,tc_i,tc_i+1

集成分类器采用的特征

其中j表示要进行集成的子分类器A、B、A2、B2，tci表示词i的所有子分类器给出的标示的结合。

然后迭代识别，试验验证迭代三次时结果达到最优。最后结果如图4和图5所示：

Algorithm	POS tagging	Chunking
			流水线方法	96.02	91.94
标示组合方法	95.72	90.94
			Shimizu	88.69	90.84
有权重的概率分布投票	96.22	92.52
			我们的方法(一次迭代)	96.26	92.6
我们的方法(三次迭代)	96.31	92.65

实验结果比较

通过实验比较可以看到，通过迭代识别，我们的方法可以有效的提高两个任务的准确率，不仅优于一般的集成学习识别方法，也优于现有的其他方法。

附图说明

图1是现有技术中流水线方式结构示意图；

图2是现有技术中迭代方式结构示意图；

图3是本发明基于集成识别的迭代方式结构示意图；

图4是组块分析识别结果；

图5是词性标注识别结果。

具体实施方式

下面结合附图对本发明做进一步说明。

本发明设计了一种针对自然语言处理领域多任务识别的迭代识别框架，在该框架下，多个任务之间能够相互传递信息，为其他任务提供特征。针对每个任务，采用了一种基于在线识别的多分类器集成识别方法，将只采用基本特征的分类器和采用其他任务特征的分类器进行了结合，更加有效地对其他任务的特征进行选取。

本发明提供一种多分类器集成的迭代识别方法来提高系统的性能，如图3所示，在图中，十字符表示分类器集成算法，分类器A,B表示采用基本特征的分类器，A2,B2表示采用基本特征和其他任务特征的分类器，而CA,CB则分别表示集成的分类器。由于不同的分类器能够带来不同的错误，所以采用多分类器集成能够取得比单分类器更好的性能。

算法的具体描述如下：

1.针对任务I，只采用基本特征生成分类器A，

针对任务II，只采用基本特征生成分类器B；

2.针对任务I，采用任务I的基本特征和任务II的结果带来的特征生成分类器A2，

3.使用集成识别算法将分类器B和B2集成为CB,将分类器A和A2集成为CA；

4.迭代（重复）步骤2和3，直到两个任务的准确率达到最大值。

为了增加各个子分类器的离散性，本发明对每个子分类器A,B,A2,B2（图3）也都在反向句子序列上训练模型。这样对于每个任务都会产生四个不同的分类器来用于集成识别。对于不同的序列标注任务，每个分类器选择的特征也不同。

那么上面的四个步骤为以下四步：

1.针对任务I，只采用基本特征生成分类器A，A’，

针对任务II，只采用基本特征生成分类器B，B’；

2.针对任务I，采用任务I的基本特征和任务II的结果带来的特征生成分类器A2，A2’，

3.使用集成识别算法将分类器B、B’和B2、B2’集成为CB,将分类器A、A’和A2、A2’集成为CA；

4.迭代（重复）步骤2和3，直到达到最大值。

单个序列标注问题：

对于分类器A、A’、A2、A2’、B、B’、B2、B2’都采用平均感知器方法进行识别。对于单个自然语言处理问题，我们采用平均感知器方法进行识别。平均感知器方法是一种很有效的机器识别方法，只需根据识别结果对特征权值进行调整，能在有效的迭代次数内快速的得到系统最优值，已经在自然语言处理领域得到有效应用。对于一个输入句子X，它的最优标注为

F (x) = \underset{y &Element; GEN (x)}{\arg \max} Φ (x, y) * \overset{&OverBar;}{a}

在上式中，y表示句子x产生的所有候选标示集，

表示每个候选中的特征和特征权重的内积。特征权重向量可以根据以下公式进行更新：

\overset{&OverBar;}{a} = \overset{&OverBar;}{a} + Φ (x, y) - Φ (x, F (x))

在训练时，采用一种特征晚更新策略，并不是每次迭代时都更新所有的特征权重，只在每个特征的权重出现改变才对其进行更新，这样就简化了计算复杂性。

分类器集成方法：

由于单分类器并不能很好的包含所有的信息，分类器集成算法能够有效的弥补不同单分类器的不足，已经广泛应用于自然语言处理任务中，如词性标注，句法分析等。许多不同的集成识别算法已经被提出，如简单投票，有权重的概率分布投票等方法。

与以前的集成方法每次只针对一个词的标示进行独立判断不同，我们采用一种基于序列的平均感知器集成方法，能够有效的选择每个词在序列中的特征和前面分类器的结果作特征，并实现整个句子的全局最优。为了增加可能的值，我们在解析过程中采用宽度为k的束状搜索搜索策略。

与重排序方法相同，我们的分类器采用判别式识别方法，都是从多个候选集选择最优值。区别在于重排序方法只在一个分类器的多个候选集中选择最优的，而集成识别方法从多个分类器的结果选择最优的。并且重排序方法从多个候选集中选择最优的一个，而我们的集成识别方法可以对每个词都单独标示，更具有灵活性。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种多序列标注问题的联合识别方法，其特征在于，包括以下步骤：

步骤1：针对任务I，只采用基本特征生成分类器A，

针对任务II，只采用基本特征生成分类器B；

步骤4：重复步骤2和3，直到两个任务的准确率达到最大值；

分类器A,B表示采用基本特征的分类器，A2,B2表示采用基本特征和其他任务特征的分类器，而CA,CB则分别表示集成的分类器。

2.根据权利要求1所述的一种多序列标注问题的联合识别方法，其特征在于：对每个子分类器A,B,A2,B2都在反向句子序列上训练模型，对于每个任务都产生四个不同的分类器来用于集成识别，那么，上述四个步骤为以下四步：

步骤1：针对任务I，只采用基本特征生成分类器A，A’，

针对任务II，只采用基本特征生成分类器B，B’；

步骤4：重复步骤2和3，直到达到最大值；

3.根据权利要求2所述的一种多序列标注问题的联合识别方法，其特征在于：对于分类器A、A’、A2、A2’、B、B’、B2、B2’和集成分类器CA、CB都采用平均感知器方法进行识别。

4.根据权利要求3所述的一种多序列标注问题的联合识别方法，其特征在于：平均感知器方法如下：对于一个输入句子X，它的最优标注为

F (x) = \underset{y &Element; GEN (x)}{\arg \max} Φ (x, y) * \overset{&OverBar;}{a}

在上式中，y表示句子x产生的所有候选标示集，

表示每个候选中的特征和特征权重的内积。

5.根据权利要求4所述的一种多序列标注问题的联合识别方法，其特征在于：特征权重向量根据以下公式进行更新：

\overset{&OverBar;}{a} = \overset{&OverBar;}{a} + Φ (x, y) - Φ (x, F (x)) .

6.根据权利要求5所述的一种多序列标注问题的联合识别方法，其特征在于：分类器集成方法如下：采用一种基于序列的平均感知器集成方法，选择每个词在序列中的特征和前面分类器的结果作特征，实现整个句子的全局最优。

7.根据权利要求5所述的一种多序列标注问题的联合识别方法，其特征在于：在解析过程中采用宽度为k的束状搜索策略，分类器采用判别式识别方法，从多个候选集选择最优值，在一个分类器的多个候选集中选择最优的分类器。