CN113051918A

CN113051918A - 基于集成学习的命名实体识别方法、装置、设备和介质

Info

Publication number: CN113051918A
Application number: CN201911368962.1A
Authority: CN
Inventors: 孔庆超; 苑霸; 白洁; 赵菲菲; 曹家; 罗引; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2021-06-29
Anticipated expiration: 2039-12-26
Also published as: CN113051918B

Abstract

本发明公开了一种基于集成学习的命名实体识别方法、装置、设备和介质。该方法包括：将待识别的文本序列输入预先集成训练的命名实体识别模型；在命名实体识别模型中集成有多个基学习器并且每个基学习器对应一个权重；通过多个基学习器分别对输入的文本序列执行命名实体识别，得到每个基学习器输出的初始识别结果；根据每个基学习器输出的初始识别结果以及每个基学习器对应的权重，确定并输出文本序列的最终识别结果。本发明在命名实体识别模型中集成多个基学习器，并且集成训练多个基学习器，这使得命名实体识别模型的复杂度较低，降低了命名实体识别的耗时，提升了命名实体识别的时效性，也使得模型的训练过程简单易行。

Description

基于集成学习的命名实体识别方法、装置、设备和介质

技术领域

本发明涉及通讯领域，尤其涉及一种基于集成学习的命名实体识别方法、装置、设备和介质。

背景技术

命名实体识别(Named Entity Recognition，简称NER)是指从文本中识别出命名性指称项，以便为关系抽取等任务做铺垫。狭义上，NER是识别出人名、地名和组织机构名这三类命名实体，而时间、货币名称等构成规律明显的实体类型可以用正则表达式等方式识别。

用于执行NER任务的模型包括：生成式模型和判别式模型。其中，生成式模型可以是隐马尔科夫模型(Hidden Markov Model，简称HMM)。判别式模型可以是条件随机场(Conditional Random Field，简称CRF)模型。CRF模型是NER目前主要使用的判别式模型。CRF的优点在于：其在为一个位置进行标注的过程中，可以利用丰富的内部及上下文特征信息。

目前，用于执行NER任务的模型主要利用词嵌入技术进行向量转换，并基于深度学习中的双向长短记忆网络(Bi-directional Long Short-Term Memory，简称BiLSTM)来学习上下文信息，最终使用CRF进行实体标注。虽然目前的NER方法取得了较好的识别效果，但是，由于用于执行NER任务的模型复杂度高，致使模型的训练、优化及使用过程耗时较长，使得命名实体的识别效率较低。

发明内容

本发明的主要目的在于提供一种基于集成学习的命名实体识别方法、装置、设备和介质，以解决现有技术中用于执行NER任务的模型复杂度高的问题。

针对上述技术问题，本发明是通过以下技术方案来解决的：

本发明提供了一种基于集成学习的命名实体识别方法，包括：将待识别的文本序列输入预先集成训练的命名实体识别模型；在所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重；通过所述多个基学习器分别对输入的所述文本序列执行命名实体识别，得到每个所述基学习器输出的初始识别结果；根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重，确定并输出所述文本序列的最终识别结果。

其中，在所述将待识别的文本序列输入预先集成训练的命名实体识别模型之前，还包括：通过引导聚集Bagging算法，构建多个采用条件随机场的基学习器，并分别训练每个所述基学习器；通过Stacking算法，集成多个所述基学习器并且融合训练多个所述基学习器，得到所述命名实体识别模型。

其中，所述分别训练每个所述基学习器，包括：采用有放回的随机采样方式，在预设的数据集中执行样本序列采样，以便为每个所述基学习器对应构建训练集和测试集；针对每个所述基学习器，利用所述基学习器对应的训练集，训练所述基学习器，并利用所述基学习器对应的测试集，测试所述基学习器，直到所述基学习器收敛为止。

其中，所述融合训练所述多个基学习器，包括：步骤S2，根据所述数据集中的所有样本序列，构建状态转移概率矩阵和初始状态概率矩阵；步骤S4，初始化权重向量；其中，在所述权重向量中包括多个权重元素，每个所述权重元素对应一个基学习器；步骤S6，从所述数据集中顺序获取一个样本序列，并将获取的所述样本序列分别输入每个基学习器，获得每个所述基学习器输出的初步识别结果；步骤S8，根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果，确定所述样本序列中每个元素分别对应每个命名实体标签时的概率；步骤S10，对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理；步骤S12，根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率，计算所述命名实体识别模型的损失值；如果所述损失值大于预设的损失阈值，则调整所述权重向量中的权重元素，跳转到步骤S6；反之，则判定所述命名实体识别模型已经收敛。

其中，计算所述命名实体识别模型的损失值，包括：利用交叉熵函数，计算所述命名实体识别模型的损失值。

本发明还提供了一种基于集成学习的命名实体识别装置，包括：输入模块和命名实体识别模型；所述输入模块，用于将待识别的文本序列输入预先集成训练的所述命名实体识别模型；所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重；所述多个基学习器，分别用于对输入的所述文本序列执行命名实体识别，得到每个所述基学习器输出的初始识别结果；所述命名实体识别模型，用于根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重，确定并输出所述文本序列的最终识别结果。

其中，所述装置还包括训练模块；所述训练模块，用于在所述将待识别的文本序列输入预先集成训练的命名实体识别模型之前，通过引导聚集Bagging算法，构建多个采用条件随机场的基学习器，并分别训练每个所述基学习器；通过Stacking算法，集成多个所述基学习器并且融合训练多个所述基学习器，得到所述命名实体识别模型。

其中，所述训练模块，包括第一训练单元和第二训练单元；所述第一训练单元，用于采用有放回的随机采样方式，在预设的数据集中执行样本序列采样，以便为每个所述基学习器对应构建训练集和测试集；针对每个所述基学习器，利用所述基学习器对应的训练集，训练所述基学习器，并利用所述基学习器对应的测试集，测试所述基学习器，直到所述基学习器收敛为止；所述第二训练单元，用于：根据所述数据集中的所有样本序列，构建状态转移概率矩阵和初始状态概率矩阵；初始化权重向量；其中，在所述权重向量中包括多个权重元素，每个所述权重元素对应一个基学习器；从所述数据集中顺序获取一个样本序列，并将获取的所述样本序列分别输入每个基学习器，获得每个所述基学习器输出的初步识别结果；根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果，确定所述样本序列中每个元素分别对应每个命名实体标签时的概率；对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理；根据所述样本序列中每个元素分别对应每个命名实体标签时的概率，计算所述命名实体识别模型的损失值；如果所述损失值大于预设的损失阈值，则调整所述权重向量中的权重元素，从所述数据集中顺序获取下一个样本序列；反之，则判定所述命名实体识别模型已经收敛。

本发明还提供了一种基于集成学习的命名实体识别设备，所述基于集成学习的命名实体识别设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的基于集成学习的命名实体识别程序，以实现上述任一项所述的基于集成学习的命名实体识别方法。

本发明还提供了一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一项所述的基于集成学习的命名实体识别方法。

本发明有益效果如下：

本发明在命名实体识别模型中集成多个相互独立的基学习器，并且集成训练多个基学习器，即先分别训练每个基学习器，再融合训练多个基学习器，这使得命名实体识别模型的复杂度较低，从而降低了命名实体识别的耗时，提升了命名实体识别的时效性，而且由于模型的复杂度较低，也使得模型的训练过程简单易行。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明一实施例的基于集成学习的命名实体识别方法的流程图；

图2是根据本发明一实施例的命名实体识别模型的构建和训练的步骤流程图；

图3是根据本发明一实施例的线性链条件随机场的输入和输出的示意图；

图4是根据本发明一实施例的训练每个基学习器的步骤流程图；

图5是根据本发明一实施例的有放回的随机采样方式的示意图；

图6是根据本发明一实施例的融合训练的步骤示意图；

图7是根据本发明一实施例的基于集成学习的命名实体识别装置的结构图；

图8是根据本发明一实施例的基于集成学习的命名实体识别设备的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本发明作进一步地详细说明。

根据本发明的实施例，提供了一种基于集成学习的命名实体识别方法。如图1所示，为根据本发明一实施例的基于集成学习的命名实体识别方法的流程图。

步骤S110，将待识别的文本序列输入预先集成训练的命名实体识别模型；在所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重。

待识别的文本序列，是指待识别命名实体的文本。将该文本作为一个文本序列。文本中每个字符作为文本序列中的元素。该字符为文字和/或符号。

集成训练，是指先分别训练每个所述基学习器，再融合训练所述多个基学习器。

每个基学习器，用于识别文本序列中每个元素对应的命名实体标签，并作为初始识别结果输出。

命名实体识别模型，用于根据所述多个基学习器分别输出的初始识别结果，以及每个基学习器对应的权重，最终确定文本序列中每个元素对应的命名实体标签并作为最终识别结果输出。

命名实体标签的种类，包括但不限于：B-LOC、I-LOC、B-ORG、I-ORG、B-PER、I-PER和O。其中，B-LOC表示地点实体首字。I-LOC表示地点实体其他字。B-ORG表示组织实体首字。I-ORG表示组织实体其他字。B-PER表示人物实体首字。I-PER表示人物实体其他字。O表示其他字符。

步骤S120，通过所述多个基学习器分别对输入的所述文本序列执行命名实体识别，得到每个所述基学习器输出的初始识别结果。

在本实施例中，初步识别结果，是指基学习器输出的文本序列中每个元素对应的命名实体标签。文本序列中的每个元素为文本中的一个字符。

在本实施例中，基学习器可以是采用条件随机场的基学习器。进一步地，该条件随机场可以是线性链条件随机场。

步骤S130，根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重，确定并输出所述文本序列的最终识别结果。

在本实施例中，最终识别结果，是指命名实体识别模型输出的文本序列中每个元素对应的命名实体标签。

本发明实施例在命名实体识别模型中集成多个相互独立的基学习器，并且集成训练多个基学习器，即先分别训练每个基学习器，再融合训练多个基学习器，这使得命名实体识别模型的复杂度较低，从而降低了命名实体识别的耗时，提升了命名实体识别的时效性，而且由于模型的复杂度较低，也使得模型的训练过程简单易行。

在将待识别的文本序列输入预先集成训练的命名实体识别模型之前，本发明实施例还包括构建并训练命名实体识别模型的步骤。

如图2所示，为根据本发明一实施例的命名实体识别模型的构建和训练的步骤流程图。

步骤S210，通过Bagging(Bootstrap aggregating，引导聚集)算法，构建多个采用条件随机场的基学习器，并分别训练每个所述基学习器。

该条件随机场可以是线性链条件随机场。

在本实施例中，基于条件随机场的基学习器用于解决机器学习里的标注问题。命名实体识别实际上是标注问题，因此，可以使用条件随机场来处理命名实体识别问题。

在条件概率模型P(Y|X)中，X表示输入变量，为观测序，即待识别的文本序列；Y表示输出变量，即针对文本序列的标记序列。标记序列是指文本序列中每个元素(字符)对应的命名实体标签。

如图3所示，为线性链条件随机场的输入和输出的示意图，输入变量X包括X₁至X_n个元素，输出变量Y包括Y₁至Y_n个元素，输入变量中的每个元素对应输出变量中相同位置的元素，输出变量中的元素为输入变量中对应位置的元素的命名实体标签。

Bagging算法是一种集成方法(ensemble methods)，可以通过集成的方式减小泛化误差(generalization error)。在本实施例中，使用Bagging算法最基本的思想是：构建多个基学习器，并分别训练该多个基学习器，使得每个基学习器可以对输入的文本序列进行命名实体识别，获得文本序列的初步识别结果。

步骤S220，通过Stacking(Stacked Generalization)算法，集成多个所述基学习器并且融合训练多个所述基学习器，得到所述命名实体识别模型。

集成多个基学习器，是指将多个基学习器的输出合并。进一步地，多个基学习器以投票的方式确定最终的输出结果，即，为每个基学习器的输出赋予对应的权重，并以预设方式合并多个被赋予权重的输出(如：加权和)，得到最终的输出结果。

融合训练多个基学习器，是指将多个基学习器一起进行训练。

Stacking算法可以将已经训练好的多个基学习器作为基层模型，在其上再次进行训练，再次训练的目的在于组织利用基学习器输出的初始识别结果，给多个基学习器分别输出的初始识别结果分配权重，确定最终识别结果。

在本实施例中，通过Stacking算法可以对多个基学习器分别输出的文本序列的识别结果执行模型平均(model averaging)，得到该文本序列的最终识别结果。

这样，所述命名实体识别模型需要经过两个层面的训练，第一个层面是针对每个基学习器的训练，第二次层面是针对多个学习器的一起训练。

在本实施例中，采用轻量级NER方法，并利用Bagging算法并行化特点，加快模型训练速度；Bagging算法使用不同训练集训练基学习器，降低基学习器的方差，并且在不同训练集上单独训练基学习器，使之保持相互独立，缓解了过拟合问题，能够保证模型准确性和模型稳定性。

下面分别对两个层面的训练过程进行详细描述。

首先，针对分别训练每个基学习器的步骤进行描述。在本实施例中，针对每个基学习器，可以采用相同的训练算法以及相同的目标函数。

如图4所示，为根据本发明一实施例的训练每个基学习器的步骤流程图。

步骤S410，采用有放回的随机采样方式，在预设的数据集中执行样本序列采样，以便为每个所述基学习器对应构建训练集和测试集。

有放回的随机采样，又称：有放回抽样，是指在从数据集中抽取一个样本序列之后，将该样本序列放回数据集，使得数据集中的样本序列始终不变。根据数据集中被抽取过的样本序列形成训练集，根据数据集中未被抽取过的样本序列形成测试集。

在预设的数据集中，包括：多个样本序列。样本序列是已经进行命名实体标签标注的文本序列。其中，在样本序列中，每个元素对应的命名实体标签可以形成命名实体标签序列。

从预设的数据集中，可以通过有放回的随机采样方式，产生多个不同的训练集，其中，每个训练集中的样本序列的个数相等。

具体而言，如图5所示的有放回的随机采样方式的示意图。在预设的数据集中包括q个样本序列，q≥1。为T(T＞1)个基学习器中的每个基学习器采样一个训练集。针对每个基学习器而言，采用有放回的随机采样方式，从预设的数据集中随机采样多个样本序列，形成该基学习器的训练集，而该数据集中未被采样的样本序列，形成该基学习器的测试集。采用有放回的随机采样方式，可以使每个基学习器对应的训练集不同，每个训练集中可能存在重复的样本序列。这样，在训练基学习器时，可以降低基学习器的方差，从而预防过拟合的问题发生。

步骤S420，针对每个所述基学习器，利用所述基学习器对应的训练集，训练所述基学习器，并利用所述基学习器对应的测试集，测试所述基学习器，直到所述基学习器收敛为止。

在本实施例中，针对每个基学习器的具体训练步骤如下：

步骤S1，顺序获取训练集中的一个样本序列，将获取的样本序列输入基学习器中。

步骤S2，通过基学习器识别样本序列中每个元素对应的命名实体标签，获得样本序列对应的命名实体标签序列。

步骤S3，将基学习器识别的命名实体标签序列与样本序列真实的命名实体标签序列进行比较，如果相同，则执行步骤S4；如果不同，则调整基学习器中的参数。

步骤S4，判断训练集中的样本序列是否都被获取完毕；如果是，则执行步骤S5；如果否，则执行步骤S1。

步骤S5，将测试集中的各个样本序列顺次输入基学习器，基学习器顺序识别每个样本序列的命名实体标签序列。

步骤S6，将基学习器识别的每个样本序列的命名实体标签序列与对应样本序列的真实的命名实体标签序列进行比较，确定基学习器的识别正确率；如果该识别正确率大于预设的识别阈值，则判定基学习器收敛，反之，则跳转到步骤S1，继续对基学习器进行训练，直到基学习器收敛为止。

识别阈值可以是经验值或者经过试验获得的值。

如果样本序列的命名实体标签序列与样本序列的真实的命名实体标签序列相同，则计数器进行计数，反之计数器不进行计数。将计数器的计数值除以测试集中样本序列的数量等于识别正确率。

本实施例通过将集成学习中的Bagging及Stacking方法与CRF相结合，这样可以在保证准确性的条件下，提高模型的时效性。

然后，针对融合训练多个基学习器的步骤进行描述。

如图6所示，为根据本发明一实施例的融合训练的步骤示意图。

步骤S610，根据数据集中的所有样本序列，构建状态转移概率矩阵和初始状态概率矩阵。

状态转移概率矩阵，是指状态之间的转移概率。

初始状态概率矩阵，是指样本序列第一个元素对应每个状态的概率。

状态，是指样本序列中元素对应的命名实体标签。

具体而言，根据预先为数据集中所有样本序列中的各个元素标注的状态，确定状态转移概率矩阵；根据预先为数据集中所有样本序列中的首个元素标注的状态，确定初始状态概率矩阵。

例如：状态转移概率矩阵S的表达式如下：

S＝[a_ij]_N×N；

其中，a_ij表示样本序列的状态C_i转移到状态C_j的概率；N表示状态的类型数量；i和j小于等于N，N为状态的总数。

该a_ij的表达式如下：

a_ij＝P(C_j|C_i)，i＝1，2，...，N；j＝1，2，...，N。

又如：初始状态概率矩阵π的表达式如下：

π＝[π_i]_1×N；

其中，π_i表示样本序列的第一个元素X₁处于状态C_i时的概率，该π_i的表达式如下：π_i＝P(X₁＝C_i)，i＝1，2，...，N。

步骤S620，初始化权重向量；其中，在所述权重向量中包括多个权重元素，每个所述权重元素对应一个基学习器。

权重向量中的每个权重元素表示一个基学习器对应的权重。

在初始化权重向量W＝[w_i，w₂，...，w_T]时，可以将每个权重元素设置为1，其中，T为基学习器的总数。

步骤S630，从所述数据集中顺序获取一个样本序列，并将获取的所述样本序列分别输入每个基学习器，获得每个所述基学习器输出的初步识别结果。

步骤S640，根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果，确定所述样本序列中每个元素分别对应每个命名实体标签时的概率。

n＝1，2，...，N；k＝1，2，...，K；t＝1，2，...，T；

其中，

表示样本序列中每个元素分别对应每个状态的概率；c_n∈C，C为包含所有类型的状态的集合，N为C中状态的类型数量；X_k是样本序列中的第k个元素；w_t是第t个基学习器对应的权重，Y_kt是在第t个基学习器输入的样本序列第k个元素对应的状态；K为样本序列的元素数量，T为基学习器的总量；

是在第t个基学习器输入的样本序列第k-1个元素的状态Y_k-1t转移到c_n的概率；I为指示函数，当Y_kt＝c_n时，I为1，否则，I为0。当k＝1时，

为π。

步骤S650，对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理。

可以针对每个元素执行以下步骤：先利用该元素分别对应每个命名实体标签(状态)时的概率的总和，对该元素分别对应每个命名实体标签时的概率进行初步归一化；再利用softmax函数，对该元素分别对应每个命名实体标签的概率进行再次归一化。

其中，初步归一化表达式例如下式所示：

其中，

表示样本序列中每个元素分别对应每个状态的概率的初步归一化值。

步骤S660，根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率，计算所述命名实体识别模型的损失值。

利用交叉熵函数，计算命名实体识别模型的损失值loss，表达式如下：

其中，K为样本序列的元素数量；N为状态的类型总数；label_kn为样本序列中第k个元素对应第n个状态的概率；p(Y_kn)为样本序列中第k个元素对应第n个状态的归一化概率，log是底为10的对数函数。

步骤S670，判断所述损失值是否大于预设的损失阈值；如果是，则执行步骤S680，如果否，则执行步骤S690。

损失阈值为经验值或者通过试验获得的值。

步骤S680，如果所述损失值大于预设的损失阈值，则调整所述权重向量中的权重元素，跳转到步骤S630。

步骤S690，判定所述命名实体识别模型已经收敛。

假设数据集中包含一个样本序列，这样，每个基学习器使用该样本序列作为训练集。当然，本领域技术人员应当知道的是，本例以一个样本序列为例是为了使本发明更加容易理解，而不用于限定本发明。

该样本序列为“我爱北京天安门”。为该样本序列中的每个元素标注命名实体标签，如表1所示。

文本序列中的元素	命名实体标签
		我	O
爱	O
		北	B-LOC
京	I-LOC
		天	B-LOC
安	I-LOC
		门	I-LOC
。	O

表1

在命名实体识别模型中，包括7个基学习器。向命名实体识别模型中输入样本序列，7个基学习器分别对样本序列执行命名实体识别，7个基学习器分别输出的初步识别结果分别为Y₁，Y₂…，Y₇，如下面的表2所示。

表2

在表2中，X为输入每个基学习器的样本序列，Y₁至Y₇分别为7个基学习器输出的初步识别结果。

根据预先为数据集中所有样本序列中的各个元素标注的状态，确定状态转移概率矩阵S，该状态转移概率矩阵S如表3所示。

表3

在表3中，根据为样本序列中的元素标注的状态，可以确定样本序列中的元素存在O转移到O，O转移到B-LOC，B-LOC转移到I-LOC，I-LOC转移到B-LOC，I-LOC转移到I-LOC的情况。O转移到O的次数为1次，O转移到B-LOC的次数为1次，B-LOC转移到I-LOC的次数为2，I-LOC转移到B-LOC的次数为1次，I-LOC转移到I-LOC的次数为1次，I-LOC转移到O的次数为1次。

a_OO＝O转移到O的次数÷(O转移到O的次数+O转移到B-LOC的次数)＝0.5；

a_OB-LOC＝O转移到B-LOC的次数÷(O转移到O的次数+O转移到B-LOC的次数)＝0.5；

a_B-LOCI-LOC＝B-LOC转移到I-LOC的次数÷B-LOC转移到I-LOC的次数＝1；

a_I-LOCO＝I-LOC转移到O的次数÷(I-LOC转移到B-LOC的次数+I-LOC转移到I-LOC的次数+I-LOC转移到O的次数)＝0.33；

a_I-LOCB-LOC＝I-LOC转移到B-LOC的次数÷(I-LOC转移到B-LOC的次数+I-LOC转移到I-LOC的次数+I-LOC转移到0的次数)＝0.33；

a_I-LOCI-LOC＝I-LOC转移到I-LOC的次数÷(I-LOC转移到B-LOC的次数+I-LOC转移到I-LOC的次数+I-LOC转移到O的次数)＝0.33；

由于其他的状态转移情况没有出现，所以概率都为0。

根据预先为数据集中所有样本序列中的首个元素标注的状态，确定初始状态概率矩阵I。初始状态概率矩阵I如表4所示：

O	B-LOC	I-LOC	B-PER	I-PER	B-ORG	1-ORG
							1	0	0	0	0	0	0

表4

状态O的初始状态概率为：在数据集的所有样本序列中，首个元素为O的样本序列的个数除以数据集中的样本序列的总数，由于本例中样本序列的个数为1，则状态O的初始状态概率为1。由于不存在其他命名实体标签为首个元素的样本序列，所以其余命名实体标签的初始状态概率为0。

设置初始化的权重向量W＝[1，1，1，1，1，1，1]。根据状态转移概率矩阵S、初始状态概率矩阵π、权重向量W以及7个基学习器分别输出的初步识别结果，确定样本序列中每个元素对应每个状态的概率。每个元素对应每个命名实体标签的概率如表5所示。

X	O	B-LOC	I-LOC	B-PER	I-PER	B-ORG	I-ORG
								我	1	0	0	0	0	0	0
爱	0.57	0.43	0	0	0	0	0
								北	0.143	0.857	0	0	0	0	0
京	0	0	1	0	0	0	0
								天	0.143	0.857	0	0	0	0	0
安	0	0	1	0	0	0	0
								门	0	0	1	0	0	0	0
。	0	0.286	0.714	0	0	0	0

表5

元素“我”在7个初步识别结果中都被识别为状态O，而且“我”为首个元素需要查看表4的初始状态概率矩阵I，在初始状态概率矩阵I中，O的初始状态概率为1，则“我”对应状态O的概率为7÷7×1＝1，对“我”对应状态O的概率进行初步归一化得到1÷1＝1。

元素“爱”在Y1、Y3、Y5和Y7中被识别为状态O，在Y2、Y4和Y6中被识别为状态B-LOC，在表1中，“爱”的前一个元素“我”的状态被标注为O，在表3的状态转移概率矩阵S中，状态O转移到状态O的概率为0.5，状态O转移到状态B-LOC的概率为0.5，则“爱”对应状态O的概率为4÷7×0.5＝0.285，“爱”对应B-LOC的概率为3÷7×0.5＝0.215。对“爱”对应状态O的概率进行初步归一化得到0.285÷(0.285+0.215)＝0.57；对“爱”对应B-LOC的概率进行初步归一化得到0.215÷(0.285+0.215)＝0.43。

元素“北”在Y1、Y2、Y4、Y5、Y6和Y7中被识别为状态B-LOC，在Y3中被识别为状态O，在表1中，“北”的前一个元素“爱”的状态被标注为O，在表3的状态转移概率矩阵S中，状态O转移到状态B-LOC的概率为0.5，状态O转移到状态O的概率为0.5，则“北”对应状态B-LOC的概率为6÷7×0.5＝0.428，“北”对应状态O的概率为1÷7×0.5＝0.071。对“北”对应状态B-LOC的概率进行初步归一化得到0.428÷(0.428+0.071)＝0.857；对“北”对应状态O的概率进行初步归一化得到0.071÷(0.428+0.071)＝0.143。

元素“京”在Y1、Y2、Y4、Y5、Y6和Y7中被识别为状态I-LOC，在Y3中被识别为状态B-LOC，在表1中，“京”的前一个元素“北”的状态被标注为B-LOC，在表3的状态转移概率矩阵S中，状态B-LOC转移到状态I-LOC的概率为1，状态B-LOC转移到状态B-LOC的概率为0，则“京”对应状态I-LOC的概率为6÷7×1＝0.857，“京”对应状态B-LOC的概率为1÷7×0＝0。对“京”对应状态I-LOC的概率进行初步归一化得到0.857÷(0.857+0)＝1；对“京”对应状态B-LOC的概率进行初步归一化得到0÷(0.857+0)＝0。

元素“天”在Y1、Y2、Y4、Y5、Y6和Y7中被识别为状态B-LOC，在Y3中被识别为状态O，在表1中，“天”的前一个元素“京”的状态被标注为I-LOC，在表3的状态转移概率矩阵S中，状态I-LOC转移到状态B-LOC的概率为0.33，状态I-LOC转移到状态O的概率为0.33，则“天”对应状态B-LOC的概率为6÷7×0.33＝0.282，“天”对应状态O的概率为1÷7×0.33＝0.047。对“天”对应状态B-LOC的概率进行初步归一化得到0.282÷(0.282+0.047)＝0.857；对“天”对应状态O的概率进行初步归一化得到0.047÷(0.282+0.047)＝0.143。

元素“安”在Y1、Y2、Y4、Y5、Y6和Y7中被识别为状态I-LOC，在Y3中被识别为状态B-LOC，在表1中，“安”的前一个元素“天”的状态被标注为B-LOC，在表3的状态转移概率矩阵S中，状态B-LOC转移到状态I-LOC的概率为1，状态B-LOC转移到状态B-LOC的概率为0，则“安”对应状态I-LOC的概率为6÷7×1＝0.857，“安”对应状态B-LOC的概率为1÷7×0＝0。对“安”对应状态I-LOC的概率进行初步归一化得到0.857÷(0.857+0)＝1；对“安”对应状态B-LOC的概率进行初步归一化得到0÷(0.857+0)＝0。

元素“门”在7个识别结果中都识别为状态I-LOC，在表1中，“门”的前一个元素“安”的状态被标注为I-LOC，在表3的状态转移概率矩阵S中，状态I-LOC转移到状态I-LOC的概率为0.33，则“门”对应状态I-LOC的概率为7÷7×0.33＝0.33，对“门”对应状态I-LOC的概率进行初步归一化得到0.33÷0.33＝1。

元素“。”在Y1、Y3、Y4、Y5和Y6中被识别为状态O，在Y2和Y7中被识别为状态I-LOC，在表1中，“。”的前一个元素“门”的状态被标注为I-LOC，在表3的状态转移概率矩阵S中，状态I-LOC转移到状态O的概率为0.33，状态I-LOC转移到状态I-LOC的概率为0.33，则“。”对应状态O的概率为5÷7×0.33＝0.236，“。”对应状态I-LOC的概率为2÷7×0.33＝0.094。对“。”对应状态O的概率进行初步归一化得到0.236÷(0.236+0.094)＝0.714；对“。”对应状态I-LOC的概率进行初步归一化得到0.094÷(0.236+0.094)＝0.286。

利用softmax函数对表5中的各个初步归一化的概率进行再次归一化，得到如表6所示的样本序列中每个元素对应不同状态时的再次归一化概率。

X	O	B-LOC	I-LOC	B-PER	I-PER	B-ORG	I-ORG
								我	0.3118	0.1147	0.1147	0.1147	0.1147	0.1147	0.1147
爱	0.1757	0.1638	0.1321	0.1321	0.1321	0.1321	0.1321
								北	0.1412	0.2017	0.1314	0.1314	0.1314	0.1314	0.1314
京	0.1353	0.1353	0.1882	0.1353	0.1353	0.1353	0.1353
								天	0.1421	0.1803	0.1355	0.1355	0.1355	0.1355	0.1355
安	0.1353	0.1353	0.1882	0.1353	0.1353	0.1353	0.1353
								门	0.1353	0.1353	0.1882	0.1353	0.1353	0.1353	0.1353
。	0.1357	0.1493	0.1722	0.1357	0.1357	0.1357	0.1357

表6

根据表6示出的样本序列中每个元素分别对应每个状态时的概率，计算命名实体识别模型的损失值，将该损失值与预设的损失阈值进行比较，如果损失值大于损失阈值，则调整权重向量中的权重元素，如果损失值小于等于损失阈值，则判定命名实体识别模型收敛，可以用于执行命名实体识别。

在本例中，损失阈值可以设置为经验值。例如：0.001。

根据该损失阈值，在多次调解权重向量之后，命名实体识别模型收敛，这样可以得到命名实体识别模型收敛时的权重向量，F＝W1×M₁+W2×M₂+W3×M₃+W4×M₄+W5×M₅+W6×M₆+W7×M₇，M表示基学习器，M的角标表示基学习器的编号。例如：在权重向量W＝[1,0.3,0.5,1.8,1.2,2,1.5]时，命名实体识别模型收敛，这样命名实体识别模型F＝1×M₁+0.3×M₂+0.5×M₃+1.8×M₄+1.2×M₅+2×M₆+1.5×M₇。

本发明实施例还提供了一种基于集成学习的命名实体识别装置。如图7所示，为根据本发明一实施例的基于集成学习的命名实体识别装置的结构图。

该基于集成学习的命名实体识别装置，包括：输入模块710和命名实体识别模型720。

输入模块710，用于将待识别的文本序列输入预先集成训练的命名实体识别模型720。

命名实体识别模型720中集成有多个基学习器721并且每个所述基学习器对应一个权重。

多个基学习器721分别用于对输入的所述文本序列执行命名实体识别，得到每个所述基学习器输出的初始识别结果。

命名实体识别模型720根据每个所述基学习器721输出的初始识别结果以及每个所述基学习器721对应的权重，确定并输出所述文本序列的最终识别结果。

其中，所述装置还包括训练模块(图中未示出)；所述训练模块，用于在所述将待识别的文本序列输入预先集成训练的命名实体识别模型720之前，通过引导聚集Bagging算法，构建多个采用条件随机场的基学习器721，并分别训练每个所述基学习器721；通过Stacking算法，集成多个所述基学习器721并且融合训练多个所述基学习器721，得到所述命名实体识别模型720。

其中，所述训练模块，包括第一训练单元(图中未示出)和第二训练单元(图中未示出)；所述第一训练单元，用于采用有放回的随机采样方式，在预设的数据集中执行样本序列采样，以便为每个所述基学习器721对应构建训练集和测试集；针对每个所述基学习器721，利用所述基学习器721对应的训练集，训练所述基学习器721，并利用所述基学习器721对应的测试集，测试所述基学习器721，直到所述基学习器721收敛为止；所述第二训练单元，用于：根据所述数据集中的所有样本序列，构建状态转移概率矩阵和初始状态概率矩阵；初始化权重向量；其中，在所述权重向量中包括多个权重元素，每个所述权重元素对应一个基学习器721；从所述数据集中顺序获取一个样本序列，并将获取的所述样本序列分别输入每个基学习器721，获得每个所述基学习器721输出的初步识别结果；根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器721输出的初步识别结果，确定所述样本序列中每个元素分别对应每个命名实体标签时的概率；对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理；根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率，计算所述命名实体识别模型的损失值；如果所述损失值大于预设的损失阈值，则调整所述权重向量中的权重元素，从所述数据集中顺序获取下一个样本序列；反之，则判定所述命名实体识别模型已经收敛。

本发明实施例所述的装置的功能已经在上述的方法实施例中进行了描述，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。

本实施例提供一种基于集成学习的命名实体识别设备。如图8所示，为根据本发明一实施例的基于集成学习的命名实体识别设备的结构图。

在本实施例中，所述基于集成学习的命名实体识别设备，包括但不限于：处理器810、存储器820。

所述处理器810用于执行存储器820中存储的web系统版本部署程序，以实现上述的基于集成学习的命名实体识别方法。

具体而言，所述处理器810用于执行存储器820中存储的基于集成学习的命名实体识别程序，以实现以下步骤：将待识别的文本序列输入预先集成训练的命名实体识别模型；在所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重；通过所述多个基学习器分别对输入的所述文本序列执行命名实体识别，得到每个所述基学习器输出的初始识别结果；根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重，确定并输出所述文本序列的最终识别结果。

本发明实施例还提供了一种存储介质。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述的基于集成学习的命名实体识别方法。

具体而言，所述处理器用于执行存储器中存储的基于集成学习的命名实体识别程序，以实现以下步骤：

将待识别的文本序列输入预先集成训练的命名实体识别模型；在所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重；通过所述多个基学习器分别对输入的所述文本序列执行命名实体识别，得到每个所述基学习器输出的初始识别结果；根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重，确定并输出所述文本序列的最终识别结果。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于集成学习的命名实体识别方法，其特征在于，包括：

将待识别的文本序列输入预先集成训练的命名实体识别模型；在所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重；

通过所述多个基学习器分别对输入的所述文本序列执行命名实体识别，得到每个所述基学习器输出的初始识别结果；

根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重，确定并输出所述文本序列的最终识别结果。

2.根据权利要求1所述的方法，其特征在于，在所述将待识别的文本序列输入预先集成训练的命名实体识别模型之前，还包括：

通过引导聚集Bagging算法，构建多个采用条件随机场的基学习器，并分别训练每个所述基学习器；

通过Stacking算法，集成多个所述基学习器并且融合训练多个所述基学习器，得到所述命名实体识别模型。

3.根据权利要求2所述的方法，其特征在于，所述分别训练每个所述基学习器，包括：

采用有放回的随机采样方式，在预设的数据集中执行样本序列采样，以便为每个所述基学习器对应构建训练集和测试集；

针对每个所述基学习器，利用所述基学习器对应的训练集，训练所述基学习器，并利用所述基学习器对应的测试集，测试所述基学习器，直到所述基学习器收敛为止。

4.根据权利要求3所述的方法，其特征在于，所述融合训练所述多个基学习器，包括：

步骤S2，根据所述数据集中的所有样本序列，构建状态转移概率矩阵和初始状态概率矩阵；

步骤S4，初始化权重向量；其中，在所述权重向量中包括多个权重元素，每个所述权重元素对应一个基学习器；

步骤S6，从所述数据集中顺序获取一个样本序列，并将获取的所述样本序列分别输入每个基学习器，获得每个所述基学习器输出的初步识别结果；

步骤S8，根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果，确定所述样本序列中每个元素分别对应每个命名实体标签时的概率；

步骤S10，对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理；

步骤S12，根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率，计算所述命名实体识别模型的损失值；如果所述损失值大于预设的损失阈值，则调整所述权重向量中的权重元素，跳转到步骤S6；反之，则判定所述命名实体识别模型已经收敛。

5.根据权利要求1所述的方法，其特征在于，计算所述命名实体识别模型的损失值，包括：利用交叉熵函数，计算所述命名实体识别模型的损失值。

6.一种基于集成学习的命名实体识别装置，其特征在于，包括：输入模块和命名实体识别模型；

所述输入模块，用于将待识别的文本序列输入预先集成训练的所述命名实体识别模型；

所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重；

所述多个基学习器，分别用于对输入的所述文本序列执行命名实体识别，得到每个所述基学习器输出的初始识别结果；

所述命名实体识别模型，用于根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重，确定并输出所述文本序列的最终识别结果。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括训练模块；

所述训练模块，用于在所述将待识别的文本序列输入预先集成训练的命名实体识别模型之前，通过引导聚集Bagging算法，构建多个采用条件随机场的基学习器，并分别训练每个所述基学习器；通过Stacking算法，集成多个所述基学习器并且融合训练多个所述基学习器，得到所述命名实体识别模型。

8.根据权利要求7所述的装置，其特征在于，所述训练模块，包括第一训练单元和第二训练单元；

所述第一训练单元，用于采用有放回的随机采样方式，在预设的数据集中执行样本序列采样，以便为每个所述基学习器对应构建训练集和测试集；针对每个所述基学习器，利用所述基学习器对应的训练集，训练所述基学习器，并利用所述基学习器对应的测试集，测试所述基学习器，直到所述基学习器收敛为止；

所述第二训练单元，用于：

根据所述数据集中的所有样本序列，构建状态转移概率矩阵和初始状态概率矩阵；

初始化权重向量；其中，在所述权重向量中包括多个权重元素，每个所述权重元素对应一个基学习器；

从所述数据集中顺序获取一个样本序列，并将获取的所述样本序列分别输入每个基学习器，获得每个所述基学习器输出的初步识别结果；

根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果，确定所述样本序列中每个元素分别对应每个命名实体标签时的概率；

对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理；

根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率，计算所述命名实体识别模型的损失值；如果所述损失值大于预设的损失阈值，则调整所述权重向量中的权重元素，从所述数据集中顺序获取下一个样本序列；反之，则判定所述命名实体识别模型已经收敛。

9.一种基于集成学习的命名实体识别设备，其特征在于，所述基于集成学习的命名实体识别设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的基于集成学习的命名实体识别程序，以实现权利要求1～5中任一项所述的基于集成学习的命名实体识别方法。

10.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1～5中任一项所述的基于集成学习的命名实体识别方法。