CN104978587A

CN104978587A - 一种基于文档类型的实体识别合作学习算法

Info

Publication number: CN104978587A
Application number: CN201510409514.7A
Authority: CN
Inventors: 孙靖超; 李建强; 刘璐; 赵旭; 莫豪文; 田猛
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2015-10-14
Anticipated expiration: 2035-07-13
Also published as: CN104978587B

Abstract

一种基于文档类型的实体识别合作学习算法，算法包括：模型构建模块和模型应用。其中，模型构建模块包括基于文档类型的实体识别分类器构建和文本分类器构建。模型应用包括文档类型识别和基于文档类型的实体识别。在本算法中结合了集成学习和协同训练算法，同时在数据集预处理过程中进行了基于文档类型的数据集切分，考虑了数据集的多样性。在模型构建过程中，利用稀疏标记数据作为训练数据，并且应用了多个基础算法，以集成学习模式对其进行集成，考虑了算法的多样性。结合了多种技术，考虑了算法和数据集的多样性，确保本发明在实体识别任务上能取得令人满意的效果。

Description

一种基于文档类型的实体识别合作学习算法

技术领域

本发明属于计算机领域，更具体地涉及一种基于文档类型的实体识别合作学习算法，能很好地提高实体识别的准确率。

背景技术

随着信息产业的发展，计算机网络规模日益扩大，大量的信息都以电子文档的形式出现在人们面前。同时在各种公司企业中，大量的数据也以这种形式被积累下来。而这些数据中的大多数潜在有用信息都是以非结构化的形式存在的。而这些大量的自由文本的积累也为语义技术在企业级环境中的应用提出了挑战。因此，人迫切需要一些技术去处理这些信息。实体链接技术作为一个能够将文本中提到的词链接到它在某个知识库中的实体的技术，而越来越受关注。将非结构化的文档和某个知识库链接能够实现诸如企业及搜索，信息抽取和文本分类等多项任务，那么这样能够为企业信息资源的管理和利用提供更大的可能性。然而对于非结构化的文档，在进行实体连接处理之前，首先需要做的对文档进行命名实体识别。命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别是进行实体链接一个前提工作，识别的质量会直接影响到后续的一系列工作。

目前比较常用的命名实体识别技术可粗略的分为两类，首先是在同一个数据集合上训练多个算法的模型，然后将这些模型集成在一起，采用的是集成学习的模式；第二类是当数据集足够大的时候，将这数据集切分成多个，然后在这些子数据集上运行同一个算法，获得此算法的多个模型，然后将这些模型进行集成用于命名实体识别。虽然以上两种方法都能够完成命名实体识别任务，但是它们在准确率上都还有所欠缺。

2012年，由Li J，Liu C发表的IEEE论文“A Cooperative Co-learning Approach for ConceptDetection in Documents”中，提出了一种文档中概念识别的合作学习方法。它不仅能够完成实体识别任务，同时值得一提的是它能将大量的稀疏标记的文档用作训练数据。其核心思想是：首先将所有稀疏标记的文档中抽取所有的标记实体形成一个字典，以该字典去更新训练语料中的每一个文档，将预处理的后的训练语料分成n个子集，然后在这n个子集上分别运行条件随机场模型，训练出n个实体识别模型。然后利用协同训练算法，将n个模型分别在其他n-1个训练集合上运行，则对应每个训练集合都会有n-1个标记结果集，按照一定规则选取n-1结果集中新识别的实体更新前一次迭代的所对应训练集，用于下一次分类器的训练，如果这些更新后的训练集和对应的前一次所用的训练集的差异性都小于或等于某个规定的值，那么则终止训练，并将训练的基础模型按照一定规则集成。总的来说，这个方法以协同训练的方式更好地利用稀疏标记的训练语料，以集成学习的模式实现基础模型集成。但是由于它只采用了一种学习算法，在一些情况下实体识别准确率可能欠佳。

2004年，由Zhou Y,Goldman S.Re等发表的IEEE论文“Democratic co-learning”中，提出了一种民主协同训练方法。这个方法实现主要讲的如何利用无标记数据作为训练数据来训练实模型，进而来提升监督学习算法的准确率。其核心思想是：首先利用已标记的数据训练多个学习器的模型，然后用这些模型对未标记的数据集进行标注，将所获得的标记结果集中符合相应规则的标记用来更新训练数据集。然后用更新后的训练集训重新训练学习器，重复上述步骤，直到标记结果集中没有新的标记能用来更新训练集，则停止训练，并将所获得的模型按照相应规则进行集成。此算法采用了集成学习的模式，虽然考虑了学习器的多样性，但是每次循环训练学习器都是用的同一数据集，没有考虑到数据集的多样性，这是它的一个不足。

上面介绍的已有方法虽然都针对标注问题的准确率进行了算法改进，但是他们都只考虑了一个方面要么是考虑了数据集的多样性没有考虑算法的多样性，要么是考虑了算法的多样性没有考虑数据集的多样性，并不能将这两个方面的需求都满足。

发明内容

本发明提出了一种基于文档类型的实体识别合作学习算法，结合了集成学习和协同训练技术，同时采用了条件随机场模型，隐式马尔可夫模型和最大熵马尔可夫模型三个算法作为实体识别的基础算法，能很好地更高的实体识别的准确率。

一种基于文档类型的实体识别合作学习算法，该算法包括模型构建模块、模型应用以及模型集成。其中，模型构建模块包括基于文档类型的实体识别分类器构建和文本分类器构建。模型应用包括文档类型识别和基于文档类型的实体识别；模型集成包括两个层次的模型组合：

(1)首先分类别对所构建的基础模型进行集成，即分别对所构建的基于文档类型的条件随机场模型，隐式马尔可夫模型以及最大熵马尔可夫模型三类基础模型进行模型内的集成，属于同类型模型的集成；

(2)其次对所用的三类模型进行集成，即对已完成的模型内集成的上述三类模型进行模型间集成，属于不同类型模型的集成。

对于三类基础模型进行模型内集成需要采用一种带有权值的多数投票策略，具体的，权值由每个基础模型的可信度来定义，而对于每个基础模型的可信度，采用对应输出句子的概率来度量，进而实现了同类型模型内的集成。

对所用的三类模型进行模型间集成，采用不带权值的多数投票策略，即对基于文档类型所构建的三类不同的基础模型，在模型内集成完成后，进行模型间集成时认为它们之间的可信度时一样的，因此用不带权值的多数投票策略实现不同类型模型的集成。这样，完成了模型集成，构建出了基于文档类别的实体识别模型。

更详细的，基于文档类型的实体识别分类器构建：包括五个子模块，首先是对输入数据的预处理模块，抽取稀疏标记的训练数据集中已标记的实体，构成一个字典，然后以该字典去更新每个训练文档；其次是基于文档类型的条件随机场模型构建，最大熵马尔可夫模型构建和隐式马尔可夫模型构建，主要是学习器的训练；最后的子模块是模型集成，将训练获得的基于文档类型的实体识别模型进行集成。

文本分类器构建：主要是根据文档特征数据进行学习器训练，获得相应的文本分类模型。

文档类型识别：主要是应构建的文本分类模型对待处理语料进行文本分类，以进行后续处理。

基于文档类型的实体识别：主要是根据文档类型识别处理结果选择对应的基于文档类型的实体识别模型进行文档标注工作。

与现有技术相比，本发明具有以下优点：

本发明以已知文档类型作为条件，结合了集成学习和协同训练技术，选择条件随机场等三个算法作为基础算法，同时，根据文档类型对训练集进行了切分，这样既考虑了分类器的多样性，也考虑了数据集的多样性，能更好的提高实体识别的准确率。

附图说明

结合附图，从下面对本发明实施例的详细描述，将更好地理解本发明，其中：

图1为本发明一个实施例的基于文档类型的实体识别合作学习系统框图。

图中：1、数据集预处理装置，2、基于文档类型的分类器构建装置，3、文本分类器构建装置，4、模型应用装置，41、文本分类处理单元，42、实体识别处理单元。

具体实施方式

下面将详细描述本发明各个方面的特征和示例性实施例

基于文档类型的实体识别合作学习系统框图如图1所示，包括：数据集预处理装置(1)，基于文档类型的分类器构建装置(2)，文本分类器构建装置(3)，模型应用装置(4)。其中：数据集预处理装置(1)与基于文档类型的分类器构建装置(2)相连；基于文档类型的分类器构建装置(2)、文本分类器构建装置(3)与模型应用装置(4)相连。

数据集预处理装置(1)：从所有稀疏标记的训练语料中抽取所有的已标记实体形成一个字典，以该字典去更新训练语料中每一个训练文档；

基于文档类型的分类器构建装置(2)：在文档类型已知的条件下，用训练语料分文档类型训练基础学习器，然后将获得的基础分类器进行集成，最终获得基于文档类型的实体识别模型；

文本分类器构建装置(3)：根据文本类别数据对文本分类学习器进行训练，构建出文本分类模型；

模型应用装置(4)：应用训练获得的文本分类模型对待处理语料进行文本分类处理，然后进行基于文档类型的实体识别处理。

应用本发明所述系统进行识别的过程如下：首先是模型的构建工作，根据文档类别数据训练文本分类学习器，获得文本分类模型；对训练语料进行预处理，用预处理好的训练语料分文档类型进行实体识别学习器训练，获得相应的基础分类器，然后将这些基础模型进行集成获得最终的基于文档类型的实体识别模型；其次时模型应用阶段，先使用文本分类模型对待处理语料进行文档分类，然后根据所识别的文档类型调用对应的实体识别模型，进行实体识别处理。

下面给出本发明的一个实施例，本发明一个基于文档类型的实体识别合作学习算法，为了更好的提高实体识别的准确率，在算法中结合了协同训练技术和集成学习技术。协同训练技术的核心思想是通过将分类器的识别的新的实体按照某规则加入到训练集中用于下次训练，进而增加实体识别的准确率；采用集成学习主要是考虑到分类器多样化的需要，本算法采用了三个不同的模型，最后将基础模型按照相应规则集成，能获得更好的实体识别的效果；此外，算法也采用了数据集切分技术，这是从数据集的多样性角度考虑的，能使实体识别模型具有更好的实用性。本实施例所述系统中各装置的功能如下：

数据集预处理装置(1)：主要是将训练语料trainingData中已有的实体特征标记的数据项抽取出来形成一个字典，然后以该字典去更新traingingData中每个文档，其中trainingData＝{词语，词性，分块，实体特征}。

基于文档类型的分类器构建装置(2)：主要是基于文档的类型进行相应的实体识别分类器训练，主要采用条件随机场模型(CRF)，最大熵马尔可夫模型(MEMMs)和隐式马尔可夫模型(HMMs)作为完成实体识别任务的基础算法，并结合了集成学习和联合训练技术；更具体的可以分为基于文档类型的基础分类器构建过程和分类器集成过程。

首先是基于文档类型的基础分类器构建过程：对于预处理后的训练语料trainingData中的每一种类型的文档集，将其分成n个子集(n根据实际数据集情况选定)，首先对于基于文档类型的条件随机场模型构建来说，在这n个子集合上分别训练出一个模型，然后令每一个模型分别在其他n-1训练集上运行，则与每个训练集相对应有n-1个标记结果集，按照新识别的实体最少被2个模型识别且最少被作为实体识别2次的规则从这些标记结果集中选出相应的实体，然后用这些实体更新所对应的训练集，然后将每个新获取的训练集与前一次迭代所用的对应训练集比较，如果这些对应训练集间最大不同性不大于0，即这些相对应的前后两个训练集都已能满足数据集相同的条件，那么结束训练获取最终分类器模型，否则进行下一次迭代训练。对于基于文档类型的隐式马尔可夫模型构建和基于文档类型的最大熵马尔可夫模型构建，学习器训练过程与上述一致。基于文档类型的条件随机场模型构建过程伪代码，如下：

然后对于隐式马尔可夫模型(HMMs)，最大熵马尔可夫模型(MEMMs)的训练同上方法，即分别训练最大熵马尔可夫模型MEMMclassifier和隐式马尔可夫模型HMMclassifier，则MEMMModel＝Combine(Mi,1≤i≤n)，HMMModel＝Combine(Mi,1≤i≤n)。

其次分类器集成过程：首先对于基础模型，每一类文档都对应了三类基础模型，对于属于同一类型的基础模型，他们之间的集成，选择一种带有权值的多数投票策略，其中权值由每个基础模型的可信度来定义，可信度用对应输出句子的概率来度量，进而获得CRFModel，MEMMModel，HMMModel三类模型；对于不同类型的训练模型的集成，选择不带有权值的多数投票策略，那么最终的基于文档类型的实体识别模型为Model＝Combine(CRFModel,MEMMModel,HMMModel)。

文本分类器构建装置(3)：应用文档类别数据训练支持向量机，获得文本分类器模型。

模型应用装置(4)：主要包括文本分类处理单元(41)和基于文档类型的实体识别处理单元(42)。

文本分类处理单元(41)：主要是应用文本分类模型对待处理语料rawData进行文本分类，其中rawData＝{词汇，词性，分块}。

基于文档类型的实体识别处理单元(42)：根据对rawData进行文本分类的结果，为每一类文档选择基于文档类型的实体识别模型Model，然后分类对rawData进行实体识别处理，获得相应的结果集resultData，其中resultData＝{词汇，词性，分块，实体特征}。

以上所述的结构框图中所示的功能块实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本方法的元素是被用于执行所需任务的程序或者代码段。程序或者代码段存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段经由诸如因特网、内联网等的计算机网络被下载。

本发明相与有现实体识别技术相比，既考虑了学习器的多样性又考虑了数据集的多样性，同时在算法中结合了集成学习和协同训练技术，这使得本发明对各种数据集具有更好地适应性，也能够较高的实体识别准确率。

Claims

1.一种基于文档类型的实体识别合作学习算法，其特征在于：该算法包括模型构建模块、模型应用以及模型集成；其中，模型构建模块包括基于文档类型的实体识别分类器构建和文本分类器构建；模型应用包括文档类型识别和基于文档类型的实体识别；模型集成包括两个层次的模型组合：

(2)其次对所用的三类模型进行集成，即对已完成的模型内集成的上述三类模型进行模型间集成，属于不同类型模型的集成；

对于三类基础模型进行模型内集成需要采用一种带有权值的多数投票策略。具体的，权值由每个基础模型的可信度来定义，而对于每个基础模型的可信度，采用对应输出句子的概率来度量，进而实现了同类型模型内的集成；

对所用的三类模型进行模型间集成，采用不带权值的多数投票策略，即对基于文档类型所构建的三类不同的基础模型，在模型内集成完成后，进行模型间集成时认为它们之间的可信度时一样的，因此用不带权值的多数投票策略实现不同类型模型的集成。这样，完成了模型集成，构建出了基于文档类别的实体识别模型；

更详细的，基于文档类型的实体识别分类器构建：包括五个子模块，首先是对输入数据的预处理模块，抽取稀疏标记的训练数据集中已标记的实体，构成一个字典，然后以该字典去更新每个训练文档；其次是基于文档类型的条件随机场模型构建，最大熵马尔可夫模型构建和隐式马尔可夫模型构建，主要是学习器的训练；最后的子模块是模型集成，将训练获得的基于文档类型的实体识别模型进行集成；

文本分类器构建：主要是根据文档特征数据进行学习器训练，获得相应的文本分类模型；

文档类型识别：主要是应构建的文本分类模型对待处理语料进行文本分类，以进行后续处理；

基于文档类型的实体识别：主要是根据文档类型识别处理结果选择对应的基于文档类型的实体识别模型来进行文档标注工作。

2.根据权利要求1所述的一种基于文档类型的实体识别合作学习算法，其特征在于：基于文档类型的实体识别合作学习系统，其包括：数据集预处理装置(1)，基于文档类型的分类器构建装置(2)，文本分类器构建装置(3)，模型应用装置(4)；其中：数据集预处理装置(1)与基于文档类型的分类器构建装置(2)相连；基于文档类型的分类器构建装置(2)、文本分类器构建装置(3)与模型应用装置(4)相连；

基于文档类型的分类器构建装置(2)：在文档类型已知的条件下，分文档类型训练基础学习器，然后将获得的基础模型进行集成，最终获得基于文档类型的实体识别模型；

文本分类器构建装置(3)：根据文档类别数据对文分类学习器进行训练，构建出文本分类模型；

模型应用装置(4)：应用训练获得的文本分类模型对待处理语料进行文本分类处理，然后进行基于文档类型的实体识别处理；

应用本发明所述系统进行实体识别的过程如下：首先是模型的构建工作，根据文档类别数据训练文本分类学习器，获得文本分类模型；对训练语料进行预处理，用预处理好的训练语料分文档类型进行实体识别学习器训练，获得相应的基础模型，然后将这些基础模型进行集成获得最终的基于文档类型的实体识别模型；其次时模型应用阶段，先使用文本分类模型对待处理语料进行文档分类，然后根据所识别的文档类型调用对应的实体识别模型，进行实体识别处理。

3.根据权利要求1所述的一种基于文档类型的实体识别合作学习算法，其特征在于：为了更好的提高实体识别的准确率，在算法中结合了协同训练技术和集成学习算法；协同训练技术的核心思想是通过将分类器的识别的新的实体按照某规则加入到训练集中用于下次的分类器训练，进而提高实体识别的准确率；采用集成学习主要是考虑到分类器的多样化，本算法采用了三个不同的模型，最后将基础模型按照相应规则集成，同样能增强实体识别的效果；此外，算法也采用了数据集切分技术，这是从数据集的多样性角度考虑的，能使实体识别模型具有更好的实用性；所述系统中各装置的功能如下：

数据集预处理装置(1)：主要是将训练语料trainingData中已有的实体特征标记的数据项抽取出来形成一个字典，然后以该字典去更新traingingData中每个文档，其中trainingData＝{词语，词性，分块，实体特征}；

基于文档类型的分类器构建装置(2)：主要是基于文档的类型进行相应的实体识别分类器训练，主要采用条件随机场模型(CRF)，最大熵马尔可夫模型(MEMMs)和隐式马尔可夫模型(HMMs)作为完成实体识别任务的基础算法，并结合了集成学习和联合训练技术；更具体的可以分为基于文档类型的基础分类器构建过程和分类器集成过程；

首先是基于文档类型的基础分类器构建过程：对于预处理后的训练语料trainingData中的每一种类型的文档集，将其分成n个子集(n根据实际数据集情况选定)，首先对于基于文档类型的条件随机场模型构建来说，在这n个子集合上分别训练出一个模型，然后令每一个模型分别在其他n-1训练集上运行，则与每个训练集相对应有n-1个标记结果集，按照新识别的实体最少被2个模型识别且最少被作为实体识别2次的规则从这些标记结果集中选出相应的实体，然后用这些实体更新所对应的训练集，然后将每个新获取的训练集与前一次迭代所用的对应训练集比较，如果这些对应训练集间最大不同性不大于0，即这些相对应的前后两个训练集都已能满足数据集相同的条件，那么结束训练获取最终分类器模型，否则进行下一次迭代训练；对于基于文档类型的隐式马尔可夫模型构建和基于文档类型的最大熵马尔可夫模型构建，学习器训练过程与上述一致；基于文档类型的条件随机场模型构建过程伪代码，如下：

然后对于隐式马尔可夫模型(HMMs)，最大熵马尔可夫模型(MEMMs)的训练同上述方法，即分别训练最大熵马尔可夫模型MEMMclassifier和隐式马尔可夫模型HMMclassifier，则MEMMModel＝Combine(M_i,1≤i≤n)，HMMModel＝Combine(M_i,1≤i≤n)；

其次分类器集成过程：首先对于基础模型，每一类文档都对应了三类基础模型，对于属于同一类型的基础模型，他们之间的集成，选择一种带有权值的多数投票策略，其中权值由每个基础模型的可信度来定义，可信度用对应输出句子的概率来度量，进而获得CRFModel，MEMMModel，HMMModel三类模型；对于不同类型的训练模型的集成，选择不带有权值的多数投票策略，那么最终的基于文档类型的实体识别模型为Model＝Combine(CRFModel,MEMMModel,HMMModel)；

文本分类器构建装置(3)：应用文档类别数据训练支持向量机，获得文本分类模型；

模型应用装置(4)：主要包括文本分类处理单元(41)和基于文档类型的实体识别处理单元(42)；

文本分类处理单元(41)：应用文本分类模型对待处理语料rawData进行文本分类，其中rawData＝{词汇，词性，分块}；

4.根据权利要求1所述的一种基于文档类型的实体识别合作学习算法，其特征在于：当以硬件方式实现时，其是电子电路、专用集成电路、适当的固件、插件、功能卡。

5.根据权利要求1所述的一种基于文档类型的实体识别合作学习算法，其特征在于：当以软件方式实现时，本方法的元素是被用于执行所需任务的程序或者代码段；程序或者代码段存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送；“机器可读介质”包括能够存储或传输信息的任何介质。