CN103020185A - 一种多序列标注问题的联合识别方法 - Google Patents

一种多序列标注问题的联合识别方法 Download PDF

Info

Publication number
CN103020185A
CN103020185A CN201210505053XA CN201210505053A CN103020185A CN 103020185 A CN103020185 A CN 103020185A CN 201210505053X A CN201210505053X A CN 201210505053XA CN 201210505053 A CN201210505053 A CN 201210505053A CN 103020185 A CN103020185 A CN 103020185A
Authority
CN
China
Prior art keywords
task
classifiers
features
classifier
basic features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210505053XA
Other languages
English (en)
Inventor
王轩
李鑫鑫
张加佳
赵海楠
李晔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Shenzhen
Original Assignee
Harbin Institute of Technology Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Shenzhen filed Critical Harbin Institute of Technology Shenzhen
Priority to CN201210505053XA priority Critical patent/CN103020185A/zh
Publication of CN103020185A publication Critical patent/CN103020185A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供了一种多序列标注问题的联合识别方法,包括以下步骤:步骤1:针对任务I,只采用基本特征生成分类器A,针对任务II,只采用基本特征生成分类器B;步骤2:针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2,针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2;步骤3:使用集成识别算法将分类器B和B2集成为CB,将分类器A和A2集成为CA;步骤4:重复步骤2和3,直到两个任务的准确率达到最大值。本发明弥补了序列标注任务单独识别时不能从其他任务得到有用信息的缺点,使得多个任务之间有效的交换信息,并通过分类器集成,提高整个任务的准确性。

Description

一种多序列标注问题的联合识别方法
技术领域
本发明涉及自然语言处理领域的识别方法,主要涉及多任务的识别,包括组块识别、分词、词性标注等序列标注任务的联合识别。 
背景技术
在自然语言处理领域,很多任务都是基于流水线识别的,即将一个复杂的任务简化为几个较简单的,依序完成的任务。对中文进行词性标注前,先对其进行分词。这样处理可以有效地减少计算的复杂性,但同时它也会带来两个问题:一是错误传递,前一个任务的错误会带到后一个任务中,如分词的错误会带到词性标注中;二是两个任务之间的信息不能共享,磁性标注有利于提高分词的准确性,但是先分词再进行词性标注,不能利用词性提高分词的准确率。 
为了减少在多任务识别中采用流水线方法造成的错误传递,可以首先对第一个任务生成n个最优值,然后将这n个可能值传到第二个任务,并通过重排序方法或者约束满足方法得到第二个任务的最优值(图1)。这种方法能够将第一个任务的信息传递到第二个任务,但是不能传递回去。霍林斯赫德提出了一种短语识别和句法分析的迭代识别方法(图2)。但是试验结果表明,对于序列标注问题,直接的迭代识别反而降低单个任务的准确率。图1和图2中,Task I和Task II表示任务I和任务II,分类器A,B表示采用基本特征的分类器,A2,B2表示采用基本特征和其他任务特征的分类器。 
发明内容
针对多个任务单独识别时存在的问题,本发明提出了一种迭代识别的方法,能够使多任务之间相互传递信息,解决错误传递和信息不能共享的问题,提高识别的准确率。 
一种多序列标注问题的联合识别方法,包括以下步骤: 
步骤1:针对任务I,只采用基本特征生成分类器A, 
针对任务II,只采用基本特征生成分类器B; 
步骤2:针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2, 
针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2; 
步骤3:使用集成识别算法将分类器B和B2集成为CB,将分类器A和A2集成为CA; 
步骤4:重复步骤2和3,直到两个任务的准确率达到最大值; 
分类器A,B表示采用基本特征的分类器,A2,B2表示采用基本特征和 
其他任务特征的分类器,而CA,CB则分别表示集成的分类器。 
作为本发明的进一步改进,对每个子分类器A,B,A2,B2都在反向句子 
序列上训练模型,对于每个任务都产生四个不同的分类器来用于集成识 
别,那么,上述四个步骤为以下四步: 
步骤1:针对任务I,只采用基本特征生成分类器A,A’, 
针对任务II,只采用基本特征生成分类器B,B’; 
步骤2:针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2,A2’, 
针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2,B2’; 
步骤3使用集成识别算法将分类器B、B’和B2、B2’集成为CB,将分类器A、A’和A2、A2’集成为CA; 
步骤4:重复步骤2和3,直到达到最大值; 
分类器A,B表示采用基本特征的分类器,A2,B2表示采用基本特征和其他任务特征的分类器,而CA,CB则分别表示集成的分类器;分类器A’,B’表示反向采用基本特征的分类器,A2’,B2’表示反向采用基本特征和其他任务特征的分类器,而CA,CB则分别表示集成的分类器。 
作为本发明的进一步改进,对于分类器A、A’、A2、A2’、B、B’、B2、B2’和集成分类器CA、CB都采用平均感知器方法进行识别。 
作为本发明的进一步改进,平均感知器方法如下:对于一个输入句子X,它的最优标注为 
F ( x ) = arg max y ∈ GEN ( x ) Φ ( x , y ) * a ‾
在上式中,y表示句子x产生的所有候选标示集,
Figure BDA00002505174900032
表示每个候选中的特征和特征权重的内积。 
作为本发明的进一步改进,特征权重向量根据以下公式进行更新: 
a ‾ = a ‾ + Φ ( x , y ) - Φ ( x , F ( x ) ) .
作为本发明的进一步改进,分类器集成方法具体如下:采用一种基于序列的平均感知器集成方法,选择每个词在序列中的特征和前面分类器(CA采用分类器A、A’、A2、A2’,CB采用分类器B、B’、B2、B2’)的结果作特征,实现整个句子的全局最优。 
作为本发明的进一步改进,在解析过程中采用宽度为k的束状搜索策略,分类器采用判别式识别方法,从多个候选集选择最优值,在一个分类器的多个候选集中选择最优的分类器。 
本发明弥补了序列标注任务单独识别时不能从其他任务得到有用信息的缺点,使得多个任务之间有效的交换信息,并通过分类器集成,提高整个任务的准确性。 
实验验证: 
我们针对英文的词性标注和组块分析进行了实验。实验数据采用计算自然语言理解大会2000年评测的组块分析数据,共包括2014句话,有45个词性标示和23个组块标示。 
对于词性识别任务和组块分析任务,采用基本特征的分类器A(A')和B(B')的特征分别如下: 
Wi-2,Wi1,Wi,Wi+l,Wi+2
Wi的前缀和后缀,||x||<=4,
Pi-1,Pi-2Pi-1
词性标注分类器A(A')采用的特征 
Figure BDA00002505174900041
词性标注分类器B(B')采用的特征 
其中W表示词,P表示词性,i-n,i+n分别表示当前词的第前n个位置和第后n个位置,如Wi-2表示前面第二个词,Pi+1表示后面第一个词的词性。 
采用基本分类器可以对每个任务生成识别结果,从而两个任务可以利用另一个任务的识别结果产生的新特征生成新的分类器。新分类器A2(A2')和B2(B2')采用的特征如下: 
Wi-2Wi-1,Wi-1Wi,WiWi+l,Wi+lWi+2
Wi的前缀和后缀,||x||<=4
ti-1,ti-2ti-1
Ci-2,Ci-1,Ci
词性标注分类器A2(A2')采用的特征 
Figure BDA00002505174900042
词性标注分类器B2(B2')采用的特征 
然后上述分类器通过平均感知器方法进行集成,分类器B、B’和B2、B2’集成为CB,将分类器A、A’和A2、A2’集成为CA。集成方法采用特征如下: 
wi,j,wi,ti,jwi
ti-1,j,ti+1,j,ti-1,jwi-1,jwi+1
tci-1,tci,tci+1
集成分类器采用的特征 
其中j表示要进行集成的子分类器A、B、A2、B2,tci表示词i的所有子分类器给出的标示的结合。 
然后迭代识别,试验验证迭代三次时结果达到最优。最后结果如图4和图5所示: 
Algorithm POS tagging Chunking
流水线方法 96.02 91.94
标示组合方法 95.72 90.94
Shimizu 88.69 90.84
有权重的概率分布投票 96.22 92.52
我们的方法(一次迭代) 96.26 92.6
我们的方法(三次迭代) 96.31 92.65
实验结果比较 
通过实验比较可以看到,通过迭代识别,我们的方法可以有效的提高两个任务的准确率,不仅优于一般的集成学习识别方法,也优于现有的其他方法。 
附图说明
图1是现有技术中流水线方式结构示意图; 
图2是现有技术中迭代方式结构示意图; 
图3是本发明基于集成识别的迭代方式结构示意图; 
图4是组块分析识别结果; 
图5是词性标注识别结果。 
具体实施方式
下面结合附图对本发明做进一步说明。 
本发明设计了一种针对自然语言处理领域多任务识别的迭代识别框架,在该框架下,多个任务之间能够相互传递信息,为其他任务提供特征。针对每个任务,采用了一种基于在线识别的多分类器集成识别方法,将只采用基本特征的分类器和采用其他任务特征的分类器进行了结合,更加有效地对其他任务的特征进行选取。 
本发明提供一种多分类器集成的迭代识别方法来提高系统的性能,如图3所示,在图中,十字符表示分类器集成算法,分类器A,B表示采用基本特征的分类器,A2,B2表示采用基本特征和其他任务特征的分类器,而CA,CB则分别表示集成的分类器。由于不同的分类器能够带来不同的错误,所以采用多分类器集成能够取得比单分类器更好的性能。 
算法的具体描述如下: 
1.针对任务I,只采用基本特征生成分类器A, 
针对任务II,只采用基本特征生成分类器B; 
2.针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2, 
针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2; 
3.使用集成识别算法将分类器B和B2集成为CB,将分类器A和A2集成为CA; 
4.迭代(重复)步骤2和3,直到两个任务的准确率达到最大值。 
为了增加各个子分类器的离散性,本发明对每个子分类器A,B,A2,B2(图3)也都在反向句子序列上训练模型。这样对于每个任务都会产生四个不同的分类器来用于集成识别。对于不同的序列标注任务,每个分类器选择的特征也不同。 
那么上面的四个步骤为以下四步: 
1.针对任务I,只采用基本特征生成分类器A,A’, 
针对任务II,只采用基本特征生成分类器B,B’; 
2.针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2,A2’, 
针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2,B2’; 
3.使用集成识别算法将分类器B、B’和B2、B2’集成为CB,将分类器A、A’和A2、A2’集成为CA; 
4.迭代(重复)步骤2和3,直到达到最大值。 
单个序列标注问题: 
对于分类器A、A’、A2、A2’、B、B’、B2、B2’都采用平均感知 器方法进行识别。对于单个自然语言处理问题,我们采用平均感知器方法进行识别。平均感知器方法是一种很有效的机器识别方法,只需根据识别结果对特征权值进行调整,能在有效的迭代次数内快速的得到系统最优值,已经在自然语言处理领域得到有效应用。对于一个输入句子X,它的最优标注为 
F ( x ) = arg max y &Element; GEN ( x ) &Phi; ( x , y ) * a &OverBar;
在上式中,y表示句子x产生的所有候选标示集,
Figure BDA00002505174900082
表示每个候选中的特征和特征权重的内积。特征权重向量可以根据以下公式进行更新: 
a &OverBar; = a &OverBar; + &Phi; ( x , y ) - &Phi; ( x , F ( x ) )
在训练时,采用一种特征晚更新策略,并不是每次迭代时都更新所有的特征权重,只在每个特征的权重出现改变才对其进行更新,这样就简化了计算复杂性。 
分类器集成方法: 
由于单分类器并不能很好的包含所有的信息,分类器集成算法能够有效的弥补不同单分类器的不足,已经广泛应用于自然语言处理任务中,如词性标注,句法分析等。许多不同的集成识别算法已经被提出,如简单投票,有权重的概率分布投票等方法。 
与以前的集成方法每次只针对一个词的标示进行独立判断不同,我们采用一种基于序列的平均感知器集成方法,能够有效的选择每个词在序列中的特征和前面分类器的结果作特征,并实现整个句子的全局最优。为了增加可能的值,我们在解析过程中采用宽度为k的束状搜索搜索策略。 
与重排序方法相同,我们的分类器采用判别式识别方法,都是从多个候选集选择最优值。区别在于重排序方法只在一个分类器的多个候选集中选择最优的,而集成识别方法从多个分类器的结果选择最优的。并且重排序方法从多个候选集中选择最优的一个,而我们的集成识别方法可以对每个词都单独标示,更具有灵活性。 
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。 

Claims (7)

1.一种多序列标注问题的联合识别方法,其特征在于,包括以下步骤:
步骤1:针对任务I,只采用基本特征生成分类器A,
针对任务II,只采用基本特征生成分类器B;
步骤2:针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2,
针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2;
步骤3:使用集成识别算法将分类器B和B2集成为CB,将分类器A和A2集成为CA;
步骤4:重复步骤2和3,直到两个任务的准确率达到最大值;
分类器A,B表示采用基本特征的分类器,A2,B2表示采用基本特征和其他任务特征的分类器,而CA,CB则分别表示集成的分类器。
2.根据权利要求1所述的一种多序列标注问题的联合识别方法,其特征在于:对每个子分类器A,B,A2,B2都在反向句子序列上训练模型,对于每个任务都产生四个不同的分类器来用于集成识别,那么,上述四个步骤为以下四步:
步骤1:针对任务I,只采用基本特征生成分类器A,A’,
针对任务II,只采用基本特征生成分类器B,B’;
步骤2:针对任务I,采用任务I的基本特征和任务II的结果带来的特征生成分类器A2,A2’,
针对任务II,采用任务II的基本特征和任务I的结果带来的特征生成分类器B2,B2’;
步骤3使用集成识别算法将分类器B、B’和B2、B2’集成为CB,将分类器A、A’和A2、A2’集成为CA;
步骤4:重复步骤2和3,直到达到最大值;
分类器A,B表示采用基本特征的分类器,A2,B2表示采用基本特征和其他任务特征的分类器,而CA,CB则分别表示集成的分类器;分类器A’,B’表示反向采用基本特征的分类器,A2’,B2’表示反向采用基本特征和其他任务特征的分类器,而CA,CB则分别表示集成的分类器。
3.根据权利要求2所述的一种多序列标注问题的联合识别方法,其特征在于:对于分类器A、A’、A2、A2’、B、B’、B2、B2’和集成分类器CA、CB都采用平均感知器方法进行识别。
4.根据权利要求3所述的一种多序列标注问题的联合识别方法,其特征在于:平均感知器方法如下:对于一个输入句子X,它的最优标注为 F ( x ) = arg max y &Element; GEN ( x ) &Phi; ( x , y ) * a &OverBar; 在上式中,y表示句子x产生的所有候选标示集,
Figure FDA00002505174800022
表示每个候选中的特征和特征权重的内积。
5.根据权利要求4所述的一种多序列标注问题的联合识别方法,其特征在于:特征权重向量根据以下公式进行更新:
a &OverBar; = a &OverBar; + &Phi; ( x , y ) - &Phi; ( x , F ( x ) ) .
6.根据权利要求5所述的一种多序列标注问题的联合识别方法,其特征在于:分类器集成方法如下:采用一种基于序列的平均感知器集成方法,选择每个词在序列中的特征和前面分类器的结果作特征,实现整个句子的全局最优。
7.根据权利要求5所述的一种多序列标注问题的联合识别方法,其特征在于:在解析过程中采用宽度为k的束状搜索策略,分类器采用判别式识别方法,从多个候选集选择最优值,在一个分类器的多个候选集中选择最优的分类器。
CN201210505053XA 2012-11-30 2012-11-30 一种多序列标注问题的联合识别方法 Pending CN103020185A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210505053XA CN103020185A (zh) 2012-11-30 2012-11-30 一种多序列标注问题的联合识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210505053XA CN103020185A (zh) 2012-11-30 2012-11-30 一种多序列标注问题的联合识别方法

Publications (1)

Publication Number Publication Date
CN103020185A true CN103020185A (zh) 2013-04-03

Family

ID=47968789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210505053XA Pending CN103020185A (zh) 2012-11-30 2012-11-30 一种多序列标注问题的联合识别方法

Country Status (1)

Country Link
CN (1) CN103020185A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489727A (zh) * 2019-07-12 2019-11-22 深圳追一科技有限公司 人名识别方法及相关装置
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN114386371A (zh) * 2022-03-25 2022-04-22 中国科学技术大学 中文拼写纠错方法、系统、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489727A (zh) * 2019-07-12 2019-11-22 深圳追一科技有限公司 人名识别方法及相关装置
CN110489727B (zh) * 2019-07-12 2023-07-07 深圳追一科技有限公司 人名识别方法及相关装置
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN111160026B (zh) * 2019-12-18 2023-09-26 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN114386371A (zh) * 2022-03-25 2022-04-22 中国科学技术大学 中文拼写纠错方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111160037B (zh) 一种支持跨语言迁移的细粒度情感分析方法
Li et al. Incremental joint extraction of entity mentions and relations
CN107133220B (zh) 一种地理学科领域命名实体识别方法
US20120253792A1 (en) Sentiment Classification Based on Supervised Latent N-Gram Analysis
CN104298651B (zh) 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN110597997A (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN105205124B (zh) 一种基于随机特征子空间的半监督文本情感分类方法
CN104239554A (zh) 跨领域跨类别的新闻评论情绪预测方法
CN103207855A (zh) 针对产品评论信息的细粒度情感分析系统及方法
CN103594084B (zh) 联合惩罚稀疏表示字典学习的语音情感识别方法及系统
CN101295295A (zh) 基于线性模型的汉语词法分析方法
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN112257860B (zh) 基于模型压缩的模型生成
CN101882136B (zh) 文本情感倾向性分析方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN110717341A (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN106021990A (zh) 一种将生物基因以特定的性状进行分类与自我识别的方法
CN111523420A (zh) 基于多任务深度神经网络的表头分类与表头列语义识别方法
CN104462409A (zh) 基于AdaBoost的跨语言情感资源数据识别方法
Bilgin et al. Sentiment analysis with term weighting and word vectors
Popov Word sense disambiguation with recurrent neural networks
CN103020167A (zh) 一种计算机中文文本分类方法
CN104809105A (zh) 基于最大熵的事件论元及论元角色的识别方法及系统
CN104834718A (zh) 基于最大熵模型的事件论元识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130403