CN113051918A - 基于集成学习的命名实体识别方法、装置、设备和介质 - Google Patents
基于集成学习的命名实体识别方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN113051918A CN113051918A CN201911368962.1A CN201911368962A CN113051918A CN 113051918 A CN113051918 A CN 113051918A CN 201911368962 A CN201911368962 A CN 201911368962A CN 113051918 A CN113051918 A CN 113051918A
- Authority
- CN
- China
- Prior art keywords
- named entity
- base
- entity recognition
- base learner
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 105
- 239000011159 matrix material Substances 0.000 claims description 53
- 230000007704 transition Effects 0.000 claims description 37
- 238000012360 testing method Methods 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 6
- 238000012546 transfer Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 7
- 238000002372 labelling Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于集成学习的命名实体识别方法、装置、设备和介质。该方法包括:将待识别的文本序列输入预先集成训练的命名实体识别模型;在命名实体识别模型中集成有多个基学习器并且每个基学习器对应一个权重;通过多个基学习器分别对输入的文本序列执行命名实体识别,得到每个基学习器输出的初始识别结果;根据每个基学习器输出的初始识别结果以及每个基学习器对应的权重,确定并输出文本序列的最终识别结果。本发明在命名实体识别模型中集成多个基学习器,并且集成训练多个基学习器,这使得命名实体识别模型的复杂度较低,降低了命名实体识别的耗时,提升了命名实体识别的时效性,也使得模型的训练过程简单易行。
Description
技术领域
本发明涉及通讯领域,尤其涉及一种基于集成学习的命名实体识别方法、装置、设备和介质。
背景技术
命名实体识别(Named Entity Recognition,简称NER)是指从文本中识别出命名性指称项,以便为关系抽取等任务做铺垫。狭义上,NER是识别出人名、地名和组织机构名这三类命名实体,而时间、货币名称等构成规律明显的实体类型可以用正则表达式等方式识别。
用于执行NER任务的模型包括:生成式模型和判别式模型。其中,生成式模型可以是隐马尔科夫模型(Hidden Markov Model,简称HMM)。判别式模型可以是条件随机场(Conditional Random Field,简称CRF)模型。CRF模型是NER目前主要使用的判别式模型。CRF的优点在于:其在为一个位置进行标注的过程中,可以利用丰富的内部及上下文特征信息。
目前,用于执行NER任务的模型主要利用词嵌入技术进行向量转换,并基于深度学习中的双向长短记忆网络(Bi-directional Long Short-Term Memory,简称BiLSTM)来学习上下文信息,最终使用CRF进行实体标注。虽然目前的NER方法取得了较好的识别效果,但是,由于用于执行NER任务的模型复杂度高,致使模型的训练、优化及使用过程耗时较长,使得命名实体的识别效率较低。
发明内容
本发明的主要目的在于提供一种基于集成学习的命名实体识别方法、装置、设备和介质,以解决现有技术中用于执行NER任务的模型复杂度高的问题。
针对上述技术问题,本发明是通过以下技术方案来解决的:
本发明提供了一种基于集成学习的命名实体识别方法,包括:将待识别的文本序列输入预先集成训练的命名实体识别模型;在所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重;通过所述多个基学习器分别对输入的所述文本序列执行命名实体识别,得到每个所述基学习器输出的初始识别结果;根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重,确定并输出所述文本序列的最终识别结果。
其中,在所述将待识别的文本序列输入预先集成训练的命名实体识别模型之前,还包括:通过引导聚集Bagging算法,构建多个采用条件随机场的基学习器,并分别训练每个所述基学习器;通过Stacking算法,集成多个所述基学习器并且融合训练多个所述基学习器,得到所述命名实体识别模型。
其中,所述分别训练每个所述基学习器,包括:采用有放回的随机采样方式,在预设的数据集中执行样本序列采样,以便为每个所述基学习器对应构建训练集和测试集;针对每个所述基学习器,利用所述基学习器对应的训练集,训练所述基学习器,并利用所述基学习器对应的测试集,测试所述基学习器,直到所述基学习器收敛为止。
其中,所述融合训练所述多个基学习器,包括:步骤S2,根据所述数据集中的所有样本序列,构建状态转移概率矩阵和初始状态概率矩阵;步骤S4,初始化权重向量;其中,在所述权重向量中包括多个权重元素,每个所述权重元素对应一个基学习器;步骤S6,从所述数据集中顺序获取一个样本序列,并将获取的所述样本序列分别输入每个基学习器,获得每个所述基学习器输出的初步识别结果;步骤S8,根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果,确定所述样本序列中每个元素分别对应每个命名实体标签时的概率;步骤S10,对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理;步骤S12,根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率,计算所述命名实体识别模型的损失值;如果所述损失值大于预设的损失阈值,则调整所述权重向量中的权重元素,跳转到步骤S6;反之,则判定所述命名实体识别模型已经收敛。
其中,计算所述命名实体识别模型的损失值,包括:利用交叉熵函数,计算所述命名实体识别模型的损失值。
本发明还提供了一种基于集成学习的命名实体识别装置,包括:输入模块和命名实体识别模型;所述输入模块,用于将待识别的文本序列输入预先集成训练的所述命名实体识别模型;所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重;所述多个基学习器,分别用于对输入的所述文本序列执行命名实体识别,得到每个所述基学习器输出的初始识别结果;所述命名实体识别模型,用于根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重,确定并输出所述文本序列的最终识别结果。
其中,所述装置还包括训练模块;所述训练模块,用于在所述将待识别的文本序列输入预先集成训练的命名实体识别模型之前,通过引导聚集Bagging算法,构建多个采用条件随机场的基学习器,并分别训练每个所述基学习器;通过Stacking算法,集成多个所述基学习器并且融合训练多个所述基学习器,得到所述命名实体识别模型。
其中,所述训练模块,包括第一训练单元和第二训练单元;所述第一训练单元,用于采用有放回的随机采样方式,在预设的数据集中执行样本序列采样,以便为每个所述基学习器对应构建训练集和测试集;针对每个所述基学习器,利用所述基学习器对应的训练集,训练所述基学习器,并利用所述基学习器对应的测试集,测试所述基学习器,直到所述基学习器收敛为止;所述第二训练单元,用于:根据所述数据集中的所有样本序列,构建状态转移概率矩阵和初始状态概率矩阵;初始化权重向量;其中,在所述权重向量中包括多个权重元素,每个所述权重元素对应一个基学习器;从所述数据集中顺序获取一个样本序列,并将获取的所述样本序列分别输入每个基学习器,获得每个所述基学习器输出的初步识别结果;根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果,确定所述样本序列中每个元素分别对应每个命名实体标签时的概率;对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理;根据所述样本序列中每个元素分别对应每个命名实体标签时的概率,计算所述命名实体识别模型的损失值;如果所述损失值大于预设的损失阈值,则调整所述权重向量中的权重元素,从所述数据集中顺序获取下一个样本序列;反之,则判定所述命名实体识别模型已经收敛。
本发明还提供了一种基于集成学习的命名实体识别设备,所述基于集成学习的命名实体识别设备包括处理器、存储器;所述处理器用于执行所述存储器中存储的基于集成学习的命名实体识别程序,以实现上述任一项所述的基于集成学习的命名实体识别方法。
本发明还提供了一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述任一项所述的基于集成学习的命名实体识别方法。
本发明有益效果如下:
本发明在命名实体识别模型中集成多个相互独立的基学习器,并且集成训练多个基学习器,即先分别训练每个基学习器,再融合训练多个基学习器,这使得命名实体识别模型的复杂度较低,从而降低了命名实体识别的耗时,提升了命名实体识别的时效性,而且由于模型的复杂度较低,也使得模型的训练过程简单易行。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明一实施例的基于集成学习的命名实体识别方法的流程图;
图2是根据本发明一实施例的命名实体识别模型的构建和训练的步骤流程图;
图3是根据本发明一实施例的线性链条件随机场的输入和输出的示意图;
图4是根据本发明一实施例的训练每个基学习器的步骤流程图;
图5是根据本发明一实施例的有放回的随机采样方式的示意图;
图6是根据本发明一实施例的融合训练的步骤示意图;
图7是根据本发明一实施例的基于集成学习的命名实体识别装置的结构图;
图8是根据本发明一实施例的基于集成学习的命名实体识别设备的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。
根据本发明的实施例,提供了一种基于集成学习的命名实体识别方法。如图1所示,为根据本发明一实施例的基于集成学习的命名实体识别方法的流程图。
步骤S110,将待识别的文本序列输入预先集成训练的命名实体识别模型;在所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重。
待识别的文本序列,是指待识别命名实体的文本。将该文本作为一个文本序列。文本中每个字符作为文本序列中的元素。该字符为文字和/或符号。
集成训练,是指先分别训练每个所述基学习器,再融合训练所述多个基学习器。
每个基学习器,用于识别文本序列中每个元素对应的命名实体标签,并作为初始识别结果输出。
命名实体识别模型,用于根据所述多个基学习器分别输出的初始识别结果,以及每个基学习器对应的权重,最终确定文本序列中每个元素对应的命名实体标签并作为最终识别结果输出。
命名实体标签的种类,包括但不限于:B-LOC、I-LOC、B-ORG、I-ORG、B-PER、I-PER和O。其中,B-LOC表示地点实体首字。I-LOC表示地点实体其他字。B-ORG表示组织实体首字。I-ORG表示组织实体其他字。B-PER表示人物实体首字。I-PER表示人物实体其他字。O表示其他字符。
步骤S120,通过所述多个基学习器分别对输入的所述文本序列执行命名实体识别,得到每个所述基学习器输出的初始识别结果。
在本实施例中,初步识别结果,是指基学习器输出的文本序列中每个元素对应的命名实体标签。文本序列中的每个元素为文本中的一个字符。
在本实施例中,基学习器可以是采用条件随机场的基学习器。进一步地,该条件随机场可以是线性链条件随机场。
步骤S130,根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重,确定并输出所述文本序列的最终识别结果。
在本实施例中,最终识别结果,是指命名实体识别模型输出的文本序列中每个元素对应的命名实体标签。
本发明实施例在命名实体识别模型中集成多个相互独立的基学习器,并且集成训练多个基学习器,即先分别训练每个基学习器,再融合训练多个基学习器,这使得命名实体识别模型的复杂度较低,从而降低了命名实体识别的耗时,提升了命名实体识别的时效性,而且由于模型的复杂度较低,也使得模型的训练过程简单易行。
在将待识别的文本序列输入预先集成训练的命名实体识别模型之前,本发明实施例还包括构建并训练命名实体识别模型的步骤。
如图2所示,为根据本发明一实施例的命名实体识别模型的构建和训练的步骤流程图。
步骤S210,通过Bagging(Bootstrap aggregating,引导聚集)算法,构建多个采用条件随机场的基学习器,并分别训练每个所述基学习器。
该条件随机场可以是线性链条件随机场。
在本实施例中,基于条件随机场的基学习器用于解决机器学习里的标注问题。命名实体识别实际上是标注问题,因此,可以使用条件随机场来处理命名实体识别问题。
在条件概率模型P(Y|X)中,X表示输入变量,为观测序,即待识别的文本序列;Y表示输出变量,即针对文本序列的标记序列。标记序列是指文本序列中每个元素(字符)对应的命名实体标签。
如图3所示,为线性链条件随机场的输入和输出的示意图,输入变量X包括X1至Xn个元素,输出变量Y包括Y1至Yn个元素,输入变量中的每个元素对应输出变量中相同位置的元素,输出变量中的元素为输入变量中对应位置的元素的命名实体标签。
Bagging算法是一种集成方法(ensemble methods),可以通过集成的方式减小泛化误差(generalization error)。在本实施例中,使用Bagging算法最基本的思想是:构建多个基学习器,并分别训练该多个基学习器,使得每个基学习器可以对输入的文本序列进行命名实体识别,获得文本序列的初步识别结果。
步骤S220,通过Stacking(Stacked Generalization)算法,集成多个所述基学习器并且融合训练多个所述基学习器,得到所述命名实体识别模型。
集成多个基学习器,是指将多个基学习器的输出合并。进一步地,多个基学习器以投票的方式确定最终的输出结果,即,为每个基学习器的输出赋予对应的权重,并以预设方式合并多个被赋予权重的输出(如:加权和),得到最终的输出结果。
融合训练多个基学习器,是指将多个基学习器一起进行训练。
Stacking算法可以将已经训练好的多个基学习器作为基层模型,在其上再次进行训练,再次训练的目的在于组织利用基学习器输出的初始识别结果,给多个基学习器分别输出的初始识别结果分配权重,确定最终识别结果。
在本实施例中,通过Stacking算法可以对多个基学习器分别输出的文本序列的识别结果执行模型平均(model averaging),得到该文本序列的最终识别结果。
这样,所述命名实体识别模型需要经过两个层面的训练,第一个层面是针对每个基学习器的训练,第二次层面是针对多个学习器的一起训练。
在本实施例中,采用轻量级NER方法,并利用Bagging算法并行化特点,加快模型训练速度;Bagging算法使用不同训练集训练基学习器,降低基学习器的方差,并且在不同训练集上单独训练基学习器,使之保持相互独立,缓解了过拟合问题,能够保证模型准确性和模型稳定性。
下面分别对两个层面的训练过程进行详细描述。
首先,针对分别训练每个基学习器的步骤进行描述。在本实施例中,针对每个基学习器,可以采用相同的训练算法以及相同的目标函数。
如图4所示,为根据本发明一实施例的训练每个基学习器的步骤流程图。
步骤S410,采用有放回的随机采样方式,在预设的数据集中执行样本序列采样,以便为每个所述基学习器对应构建训练集和测试集。
有放回的随机采样,又称:有放回抽样,是指在从数据集中抽取一个样本序列之后,将该样本序列放回数据集,使得数据集中的样本序列始终不变。根据数据集中被抽取过的样本序列形成训练集,根据数据集中未被抽取过的样本序列形成测试集。
在预设的数据集中,包括:多个样本序列。样本序列是已经进行命名实体标签标注的文本序列。其中,在样本序列中,每个元素对应的命名实体标签可以形成命名实体标签序列。
从预设的数据集中,可以通过有放回的随机采样方式,产生多个不同的训练集,其中,每个训练集中的样本序列的个数相等。
具体而言,如图5所示的有放回的随机采样方式的示意图。在预设的数据集中包括q个样本序列,q≥1。为T(T>1)个基学习器中的每个基学习器采样一个训练集。针对每个基学习器而言,采用有放回的随机采样方式,从预设的数据集中随机采样多个样本序列,形成该基学习器的训练集,而该数据集中未被采样的样本序列,形成该基学习器的测试集。采用有放回的随机采样方式,可以使每个基学习器对应的训练集不同,每个训练集中可能存在重复的样本序列。这样,在训练基学习器时,可以降低基学习器的方差,从而预防过拟合的问题发生。
步骤S420,针对每个所述基学习器,利用所述基学习器对应的训练集,训练所述基学习器,并利用所述基学习器对应的测试集,测试所述基学习器,直到所述基学习器收敛为止。
在本实施例中,针对每个基学习器的具体训练步骤如下:
步骤S1,顺序获取训练集中的一个样本序列,将获取的样本序列输入基学习器中。
步骤S2,通过基学习器识别样本序列中每个元素对应的命名实体标签,获得样本序列对应的命名实体标签序列。
步骤S3,将基学习器识别的命名实体标签序列与样本序列真实的命名实体标签序列进行比较,如果相同,则执行步骤S4;如果不同,则调整基学习器中的参数。
步骤S4,判断训练集中的样本序列是否都被获取完毕;如果是,则执行步骤S5;如果否,则执行步骤S1。
步骤S5,将测试集中的各个样本序列顺次输入基学习器,基学习器顺序识别每个样本序列的命名实体标签序列。
步骤S6,将基学习器识别的每个样本序列的命名实体标签序列与对应样本序列的真实的命名实体标签序列进行比较,确定基学习器的识别正确率;如果该识别正确率大于预设的识别阈值,则判定基学习器收敛,反之,则跳转到步骤S1,继续对基学习器进行训练,直到基学习器收敛为止。
识别阈值可以是经验值或者经过试验获得的值。
如果样本序列的命名实体标签序列与样本序列的真实的命名实体标签序列相同,则计数器进行计数,反之计数器不进行计数。将计数器的计数值除以测试集中样本序列的数量等于识别正确率。
本实施例通过将集成学习中的Bagging及Stacking方法与CRF相结合,这样可以在保证准确性的条件下,提高模型的时效性。
然后,针对融合训练多个基学习器的步骤进行描述。
如图6所示,为根据本发明一实施例的融合训练的步骤示意图。
步骤S610,根据数据集中的所有样本序列,构建状态转移概率矩阵和初始状态概率矩阵。
状态转移概率矩阵,是指状态之间的转移概率。
初始状态概率矩阵,是指样本序列第一个元素对应每个状态的概率。
状态,是指样本序列中元素对应的命名实体标签。
具体而言,根据预先为数据集中所有样本序列中的各个元素标注的状态,确定状态转移概率矩阵;根据预先为数据集中所有样本序列中的首个元素标注的状态,确定初始状态概率矩阵。
例如:状态转移概率矩阵S的表达式如下:
S=[aij]N×N;
其中,aij表示样本序列的状态Ci转移到状态Cj的概率;N表示状态的类型数量;i和j小于等于N,N为状态的总数。
该aij的表达式如下:
aij=P(Cj|Ci),i=1,2,...,N;j=1,2,...,N。
又如:初始状态概率矩阵π的表达式如下:
π=[πi]1×N;
其中,πi表示样本序列的第一个元素X1处于状态Ci时的概率,该πi的表达式如下:πi=P(X1=Ci),i=1,2,...,N。
步骤S620,初始化权重向量;其中,在所述权重向量中包括多个权重元素,每个所述权重元素对应一个基学习器。
权重向量中的每个权重元素表示一个基学习器对应的权重。
在初始化权重向量W=[wi,w2,...,wT]时,可以将每个权重元素设置为1,其中,T为基学习器的总数。
步骤S630,从所述数据集中顺序获取一个样本序列,并将获取的所述样本序列分别输入每个基学习器,获得每个所述基学习器输出的初步识别结果。
步骤S640,根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果,确定所述样本序列中每个元素分别对应每个命名实体标签时的概率。
n=1,2,...,N;k=1,2,...,K;t=1,2,...,T;
其中,表示样本序列中每个元素分别对应每个状态的概率;cn∈C,C为包含所有类型的状态的集合,N为C中状态的类型数量;Xk是样本序列中的第k个元素;wt是第t个基学习器对应的权重,Ykt是在第t个基学习器输入的样本序列第k个元素对应的状态;K为样本序列的元素数量,T为基学习器的总量;是在第t个基学习器输入的样本序列第k-1个元素的状态Yk-1t转移到cn的概率;I为指示函数,当Ykt=cn时,I为1,否则,I为0。当k=1时,为π。
步骤S650,对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理。
可以针对每个元素执行以下步骤:先利用该元素分别对应每个命名实体标签(状态)时的概率的总和,对该元素分别对应每个命名实体标签时的概率进行初步归一化;再利用softmax函数,对该元素分别对应每个命名实体标签的概率进行再次归一化。
其中,初步归一化表达式例如下式所示:
步骤S660,根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率,计算所述命名实体识别模型的损失值。
利用交叉熵函数,计算命名实体识别模型的损失值loss,表达式如下:
其中,K为样本序列的元素数量;N为状态的类型总数;labelkn为样本序列中第k个元素对应第n个状态的概率;p(Ykn)为样本序列中第k个元素对应第n个状态的归一化概率,log是底为10的对数函数。
步骤S670,判断所述损失值是否大于预设的损失阈值;如果是,则执行步骤S680,如果否,则执行步骤S690。
损失阈值为经验值或者通过试验获得的值。
步骤S680,如果所述损失值大于预设的损失阈值,则调整所述权重向量中的权重元素,跳转到步骤S630。
步骤S690,判定所述命名实体识别模型已经收敛。
假设数据集中包含一个样本序列,这样,每个基学习器使用该样本序列作为训练集。当然,本领域技术人员应当知道的是,本例以一个样本序列为例是为了使本发明更加容易理解,而不用于限定本发明。
该样本序列为“我爱北京天安门”。为该样本序列中的每个元素标注命名实体标签,如表1所示。
文本序列中的元素 | 命名实体标签 |
我 | O |
爱 | O |
北 | B-LOC |
京 | I-LOC |
天 | B-LOC |
安 | I-LOC |
门 | I-LOC |
。 | O |
表1
在命名实体识别模型中,包括7个基学习器。向命名实体识别模型中输入样本序列,7个基学习器分别对样本序列执行命名实体识别,7个基学习器分别输出的初步识别结果分别为Y1,Y2…,Y7,如下面的表2所示。
表2
在表2中,X为输入每个基学习器的样本序列,Y1至Y7分别为7个基学习器输出的初步识别结果。
根据预先为数据集中所有样本序列中的各个元素标注的状态,确定状态转移概率矩阵S,该状态转移概率矩阵S如表3所示。
表3
在表3中,根据为样本序列中的元素标注的状态,可以确定样本序列中的元素存在O转移到O,O转移到B-LOC,B-LOC转移到I-LOC,I-LOC转移到B-LOC,I-LOC转移到I-LOC的情况。O转移到O的次数为1次,O转移到B-LOC的次数为1次,B-LOC转移到I-LOC的次数为2,I-LOC转移到B-LOC的次数为1次,I-LOC转移到I-LOC的次数为1次,I-LOC转移到O的次数为1次。
aOO=O转移到O的次数÷(O转移到O的次数+O转移到B-LOC的次数)=0.5;
aOB-LOC=O转移到B-LOC的次数÷(O转移到O的次数+O转移到B-LOC的次数)=0.5;
aB-LOCI-LOC=B-LOC转移到I-LOC的次数÷B-LOC转移到I-LOC的次数=1;
aI-LOCO=I-LOC转移到O的次数÷(I-LOC转移到B-LOC的次数+I-LOC转移到I-LOC的次数+I-LOC转移到O的次数)=0.33;
aI-LOCB-LOC=I-LOC转移到B-LOC的次数÷(I-LOC转移到B-LOC的次数+I-LOC转移到I-LOC的次数+I-LOC转移到0的次数)=0.33;
aI-LOCI-LOC=I-LOC转移到I-LOC的次数÷(I-LOC转移到B-LOC的次数+I-LOC转移到I-LOC的次数+I-LOC转移到O的次数)=0.33;
由于其他的状态转移情况没有出现,所以概率都为0。
根据预先为数据集中所有样本序列中的首个元素标注的状态,确定初始状态概率矩阵I。初始状态概率矩阵I如表4所示:
O | B-LOC | I-LOC | B-PER | I-PER | B-ORG | 1-ORG |
1 | 0 | 0 | 0 | 0 | 0 | 0 |
表4
状态O的初始状态概率为:在数据集的所有样本序列中,首个元素为O的样本序列的个数除以数据集中的样本序列的总数,由于本例中样本序列的个数为1,则状态O的初始状态概率为1。由于不存在其他命名实体标签为首个元素的样本序列,所以其余命名实体标签的初始状态概率为0。
设置初始化的权重向量W=[1,1,1,1,1,1,1]。根据状态转移概率矩阵S、初始状态概率矩阵π、权重向量W以及7个基学习器分别输出的初步识别结果,确定样本序列中每个元素对应每个状态的概率。每个元素对应每个命名实体标签的概率如表5所示。
X | O | B-LOC | I-LOC | B-PER | I-PER | B-ORG | I-ORG |
我 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
爱 | 0.57 | 0.43 | 0 | 0 | 0 | 0 | 0 |
北 | 0.143 | 0.857 | 0 | 0 | 0 | 0 | 0 |
京 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
天 | 0.143 | 0.857 | 0 | 0 | 0 | 0 | 0 |
安 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
门 | 0 | 0 | 1 | 0 | 0 | 0 | 0 |
。 | 0 | 0.286 | 0.714 | 0 | 0 | 0 | 0 |
表5
元素“我”在7个初步识别结果中都被识别为状态O,而且“我”为首个元素需要查看表4的初始状态概率矩阵I,在初始状态概率矩阵I中,O的初始状态概率为1,则“我”对应状态O的概率为7÷7×1=1,对“我”对应状态O的概率进行初步归一化得到1÷1=1。
元素“爱”在Y1、Y3、Y5和Y7中被识别为状态O,在Y2、Y4和Y6中被识别为状态B-LOC,在表1中,“爱”的前一个元素“我”的状态被标注为O,在表3的状态转移概率矩阵S中,状态O转移到状态O的概率为0.5,状态O转移到状态B-LOC的概率为0.5,则“爱”对应状态O的概率为4÷7×0.5=0.285,“爱”对应B-LOC的概率为3÷7×0.5=0.215。对“爱”对应状态O的概率进行初步归一化得到0.285÷(0.285+0.215)=0.57;对“爱”对应B-LOC的概率进行初步归一化得到0.215÷(0.285+0.215)=0.43。
元素“北”在Y1、Y2、Y4、Y5、Y6和Y7中被识别为状态B-LOC,在Y3中被识别为状态O,在表1中,“北”的前一个元素“爱”的状态被标注为O,在表3的状态转移概率矩阵S中,状态O转移到状态B-LOC的概率为0.5,状态O转移到状态O的概率为0.5,则“北”对应状态B-LOC的概率为6÷7×0.5=0.428,“北”对应状态O的概率为1÷7×0.5=0.071。对“北”对应状态B-LOC的概率进行初步归一化得到0.428÷(0.428+0.071)=0.857;对“北”对应状态O的概率进行初步归一化得到0.071÷(0.428+0.071)=0.143。
元素“京”在Y1、Y2、Y4、Y5、Y6和Y7中被识别为状态I-LOC,在Y3中被识别为状态B-LOC,在表1中,“京”的前一个元素“北”的状态被标注为B-LOC,在表3的状态转移概率矩阵S中,状态B-LOC转移到状态I-LOC的概率为1,状态B-LOC转移到状态B-LOC的概率为0,则“京”对应状态I-LOC的概率为6÷7×1=0.857,“京”对应状态B-LOC的概率为1÷7×0=0。对“京”对应状态I-LOC的概率进行初步归一化得到0.857÷(0.857+0)=1;对“京”对应状态B-LOC的概率进行初步归一化得到0÷(0.857+0)=0。
元素“天”在Y1、Y2、Y4、Y5、Y6和Y7中被识别为状态B-LOC,在Y3中被识别为状态O,在表1中,“天”的前一个元素“京”的状态被标注为I-LOC,在表3的状态转移概率矩阵S中,状态I-LOC转移到状态B-LOC的概率为0.33,状态I-LOC转移到状态O的概率为0.33,则“天”对应状态B-LOC的概率为6÷7×0.33=0.282,“天”对应状态O的概率为1÷7×0.33=0.047。对“天”对应状态B-LOC的概率进行初步归一化得到0.282÷(0.282+0.047)=0.857;对“天”对应状态O的概率进行初步归一化得到0.047÷(0.282+0.047)=0.143。
元素“安”在Y1、Y2、Y4、Y5、Y6和Y7中被识别为状态I-LOC,在Y3中被识别为状态B-LOC,在表1中,“安”的前一个元素“天”的状态被标注为B-LOC,在表3的状态转移概率矩阵S中,状态B-LOC转移到状态I-LOC的概率为1,状态B-LOC转移到状态B-LOC的概率为0,则“安”对应状态I-LOC的概率为6÷7×1=0.857,“安”对应状态B-LOC的概率为1÷7×0=0。对“安”对应状态I-LOC的概率进行初步归一化得到0.857÷(0.857+0)=1;对“安”对应状态B-LOC的概率进行初步归一化得到0÷(0.857+0)=0。
元素“门”在7个识别结果中都识别为状态I-LOC,在表1中,“门”的前一个元素“安”的状态被标注为I-LOC,在表3的状态转移概率矩阵S中,状态I-LOC转移到状态I-LOC的概率为0.33,则“门”对应状态I-LOC的概率为7÷7×0.33=0.33,对“门”对应状态I-LOC的概率进行初步归一化得到0.33÷0.33=1。
元素“。”在Y1、Y3、Y4、Y5和Y6中被识别为状态O,在Y2和Y7中被识别为状态I-LOC,在表1中,“。”的前一个元素“门”的状态被标注为I-LOC,在表3的状态转移概率矩阵S中,状态I-LOC转移到状态O的概率为0.33,状态I-LOC转移到状态I-LOC的概率为0.33,则“。”对应状态O的概率为5÷7×0.33=0.236,“。”对应状态I-LOC的概率为2÷7×0.33=0.094。对“。”对应状态O的概率进行初步归一化得到0.236÷(0.236+0.094)=0.714;对“。”对应状态I-LOC的概率进行初步归一化得到0.094÷(0.236+0.094)=0.286。
利用softmax函数对表5中的各个初步归一化的概率进行再次归一化,得到如表6所示的样本序列中每个元素对应不同状态时的再次归一化概率。
X | O | B-LOC | I-LOC | B-PER | I-PER | B-ORG | I-ORG |
我 | 0.3118 | 0.1147 | 0.1147 | 0.1147 | 0.1147 | 0.1147 | 0.1147 |
爱 | 0.1757 | 0.1638 | 0.1321 | 0.1321 | 0.1321 | 0.1321 | 0.1321 |
北 | 0.1412 | 0.2017 | 0.1314 | 0.1314 | 0.1314 | 0.1314 | 0.1314 |
京 | 0.1353 | 0.1353 | 0.1882 | 0.1353 | 0.1353 | 0.1353 | 0.1353 |
天 | 0.1421 | 0.1803 | 0.1355 | 0.1355 | 0.1355 | 0.1355 | 0.1355 |
安 | 0.1353 | 0.1353 | 0.1882 | 0.1353 | 0.1353 | 0.1353 | 0.1353 |
门 | 0.1353 | 0.1353 | 0.1882 | 0.1353 | 0.1353 | 0.1353 | 0.1353 |
。 | 0.1357 | 0.1493 | 0.1722 | 0.1357 | 0.1357 | 0.1357 | 0.1357 |
表6
根据表6示出的样本序列中每个元素分别对应每个状态时的概率,计算命名实体识别模型的损失值,将该损失值与预设的损失阈值进行比较,如果损失值大于损失阈值,则调整权重向量中的权重元素,如果损失值小于等于损失阈值,则判定命名实体识别模型收敛,可以用于执行命名实体识别。
在本例中,损失阈值可以设置为经验值。例如:0.001。
根据该损失阈值,在多次调解权重向量之后,命名实体识别模型收敛,这样可以得到命名实体识别模型收敛时的权重向量,F=W1×M1+W2×M2+W3×M3+W4×M4+W5×M5+W6×M6+W7×M7,M表示基学习器,M的角标表示基学习器的编号。例如:在权重向量W=[1,0.3,0.5,1.8,1.2,2,1.5]时,命名实体识别模型收敛,这样命名实体识别模型F=1×M1+0.3×M2+0.5×M3+1.8×M4+1.2×M5+2×M6+1.5×M7。
本发明实施例还提供了一种基于集成学习的命名实体识别装置。如图7所示,为根据本发明一实施例的基于集成学习的命名实体识别装置的结构图。
该基于集成学习的命名实体识别装置,包括:输入模块710和命名实体识别模型720。
输入模块710,用于将待识别的文本序列输入预先集成训练的命名实体识别模型720。
命名实体识别模型720中集成有多个基学习器721并且每个所述基学习器对应一个权重。
多个基学习器721分别用于对输入的所述文本序列执行命名实体识别,得到每个所述基学习器输出的初始识别结果。
命名实体识别模型720根据每个所述基学习器721输出的初始识别结果以及每个所述基学习器721对应的权重,确定并输出所述文本序列的最终识别结果。
其中,所述装置还包括训练模块(图中未示出);所述训练模块,用于在所述将待识别的文本序列输入预先集成训练的命名实体识别模型720之前,通过引导聚集Bagging算法,构建多个采用条件随机场的基学习器721,并分别训练每个所述基学习器721;通过Stacking算法,集成多个所述基学习器721并且融合训练多个所述基学习器721,得到所述命名实体识别模型720。
其中,所述训练模块,包括第一训练单元(图中未示出)和第二训练单元(图中未示出);所述第一训练单元,用于采用有放回的随机采样方式,在预设的数据集中执行样本序列采样,以便为每个所述基学习器721对应构建训练集和测试集;针对每个所述基学习器721,利用所述基学习器721对应的训练集,训练所述基学习器721,并利用所述基学习器721对应的测试集,测试所述基学习器721,直到所述基学习器721收敛为止;所述第二训练单元,用于:根据所述数据集中的所有样本序列,构建状态转移概率矩阵和初始状态概率矩阵;初始化权重向量;其中,在所述权重向量中包括多个权重元素,每个所述权重元素对应一个基学习器721;从所述数据集中顺序获取一个样本序列,并将获取的所述样本序列分别输入每个基学习器721,获得每个所述基学习器721输出的初步识别结果;根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器721输出的初步识别结果,确定所述样本序列中每个元素分别对应每个命名实体标签时的概率;对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理;根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率,计算所述命名实体识别模型的损失值;如果所述损失值大于预设的损失阈值,则调整所述权重向量中的权重元素,从所述数据集中顺序获取下一个样本序列;反之,则判定所述命名实体识别模型已经收敛。
本发明实施例所述的装置的功能已经在上述的方法实施例中进行了描述,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
本实施例提供一种基于集成学习的命名实体识别设备。如图8所示,为根据本发明一实施例的基于集成学习的命名实体识别设备的结构图。
在本实施例中,所述基于集成学习的命名实体识别设备,包括但不限于:处理器810、存储器820。
所述处理器810用于执行存储器820中存储的web系统版本部署程序,以实现上述的基于集成学习的命名实体识别方法。
具体而言,所述处理器810用于执行存储器820中存储的基于集成学习的命名实体识别程序,以实现以下步骤:将待识别的文本序列输入预先集成训练的命名实体识别模型;在所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重;通过所述多个基学习器分别对输入的所述文本序列执行命名实体识别,得到每个所述基学习器输出的初始识别结果;根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重,确定并输出所述文本序列的最终识别结果。
其中,在所述将待识别的文本序列输入预先集成训练的命名实体识别模型之前,还包括:通过引导聚集Bagging算法,构建多个采用条件随机场的基学习器,并分别训练每个所述基学习器;通过Stacking算法,集成多个所述基学习器并且融合训练多个所述基学习器,得到所述命名实体识别模型。
其中,所述分别训练每个所述基学习器,包括:采用有放回的随机采样方式,在预设的数据集中执行样本序列采样,以便为每个所述基学习器对应构建训练集和测试集;针对每个所述基学习器,利用所述基学习器对应的训练集,训练所述基学习器,并利用所述基学习器对应的测试集,测试所述基学习器,直到所述基学习器收敛为止。
其中,所述融合训练所述多个基学习器,包括:步骤S2,根据所述数据集中的所有样本序列,构建状态转移概率矩阵和初始状态概率矩阵;步骤S4,初始化权重向量;其中,在所述权重向量中包括多个权重元素,每个所述权重元素对应一个基学习器;步骤S6,从所述数据集中顺序获取一个样本序列,并将获取的所述样本序列分别输入每个基学习器,获得每个所述基学习器输出的初步识别结果;步骤S8,根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果,确定所述样本序列中每个元素分别对应每个命名实体标签时的概率;步骤S10,对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理;步骤S12,根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率,计算所述命名实体识别模型的损失值;如果所述损失值大于预设的损失阈值,则调整所述权重向量中的权重元素,跳转到步骤S6;反之,则判定所述命名实体识别模型已经收敛。
其中,计算所述命名实体识别模型的损失值,包括:利用交叉熵函数,计算所述命名实体识别模型的损失值。
本发明实施例还提供了一种存储介质。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述的基于集成学习的命名实体识别方法。
具体而言,所述处理器用于执行存储器中存储的基于集成学习的命名实体识别程序,以实现以下步骤:
将待识别的文本序列输入预先集成训练的命名实体识别模型;在所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重;通过所述多个基学习器分别对输入的所述文本序列执行命名实体识别,得到每个所述基学习器输出的初始识别结果;根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重,确定并输出所述文本序列的最终识别结果。
其中,在所述将待识别的文本序列输入预先集成训练的命名实体识别模型之前,还包括:通过引导聚集Bagging算法,构建多个采用条件随机场的基学习器,并分别训练每个所述基学习器;通过Stacking算法,集成多个所述基学习器并且融合训练多个所述基学习器,得到所述命名实体识别模型。
其中,所述分别训练每个所述基学习器,包括:采用有放回的随机采样方式,在预设的数据集中执行样本序列采样,以便为每个所述基学习器对应构建训练集和测试集;针对每个所述基学习器,利用所述基学习器对应的训练集,训练所述基学习器,并利用所述基学习器对应的测试集,测试所述基学习器,直到所述基学习器收敛为止。
其中,所述融合训练所述多个基学习器,包括:步骤S2,根据所述数据集中的所有样本序列,构建状态转移概率矩阵和初始状态概率矩阵;步骤S4,初始化权重向量;其中,在所述权重向量中包括多个权重元素,每个所述权重元素对应一个基学习器;步骤S6,从所述数据集中顺序获取一个样本序列,并将获取的所述样本序列分别输入每个基学习器,获得每个所述基学习器输出的初步识别结果;步骤S8,根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果,确定所述样本序列中每个元素分别对应每个命名实体标签时的概率;步骤S10,对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理;步骤S12,根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率,计算所述命名实体识别模型的损失值;如果所述损失值大于预设的损失阈值,则调整所述权重向量中的权重元素,跳转到步骤S6;反之,则判定所述命名实体识别模型已经收敛。
其中,计算所述命名实体识别模型的损失值,包括:利用交叉熵函数,计算所述命名实体识别模型的损失值。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种基于集成学习的命名实体识别方法,其特征在于,包括:
将待识别的文本序列输入预先集成训练的命名实体识别模型;在所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重;
通过所述多个基学习器分别对输入的所述文本序列执行命名实体识别,得到每个所述基学习器输出的初始识别结果;
根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重,确定并输出所述文本序列的最终识别结果。
2.根据权利要求1所述的方法,其特征在于,在所述将待识别的文本序列输入预先集成训练的命名实体识别模型之前,还包括:
通过引导聚集Bagging算法,构建多个采用条件随机场的基学习器,并分别训练每个所述基学习器;
通过Stacking算法,集成多个所述基学习器并且融合训练多个所述基学习器,得到所述命名实体识别模型。
3.根据权利要求2所述的方法,其特征在于,所述分别训练每个所述基学习器,包括:
采用有放回的随机采样方式,在预设的数据集中执行样本序列采样,以便为每个所述基学习器对应构建训练集和测试集;
针对每个所述基学习器,利用所述基学习器对应的训练集,训练所述基学习器,并利用所述基学习器对应的测试集,测试所述基学习器,直到所述基学习器收敛为止。
4.根据权利要求3所述的方法,其特征在于,所述融合训练所述多个基学习器,包括:
步骤S2,根据所述数据集中的所有样本序列,构建状态转移概率矩阵和初始状态概率矩阵;
步骤S4,初始化权重向量;其中,在所述权重向量中包括多个权重元素,每个所述权重元素对应一个基学习器;
步骤S6,从所述数据集中顺序获取一个样本序列,并将获取的所述样本序列分别输入每个基学习器,获得每个所述基学习器输出的初步识别结果;
步骤S8,根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果,确定所述样本序列中每个元素分别对应每个命名实体标签时的概率;
步骤S10,对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理;
步骤S12,根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率,计算所述命名实体识别模型的损失值;如果所述损失值大于预设的损失阈值,则调整所述权重向量中的权重元素,跳转到步骤S6;反之,则判定所述命名实体识别模型已经收敛。
5.根据权利要求1所述的方法,其特征在于,计算所述命名实体识别模型的损失值,包括:利用交叉熵函数,计算所述命名实体识别模型的损失值。
6.一种基于集成学习的命名实体识别装置,其特征在于,包括:输入模块和命名实体识别模型;
所述输入模块,用于将待识别的文本序列输入预先集成训练的所述命名实体识别模型;
所述命名实体识别模型中集成有多个基学习器并且每个所述基学习器对应一个权重;
所述多个基学习器,分别用于对输入的所述文本序列执行命名实体识别,得到每个所述基学习器输出的初始识别结果;
所述命名实体识别模型,用于根据每个所述基学习器输出的初始识别结果以及每个所述基学习器对应的权重,确定并输出所述文本序列的最终识别结果。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括训练模块;
所述训练模块,用于在所述将待识别的文本序列输入预先集成训练的命名实体识别模型之前,通过引导聚集Bagging算法,构建多个采用条件随机场的基学习器,并分别训练每个所述基学习器;通过Stacking算法,集成多个所述基学习器并且融合训练多个所述基学习器,得到所述命名实体识别模型。
8.根据权利要求7所述的装置,其特征在于,所述训练模块,包括第一训练单元和第二训练单元;
所述第一训练单元,用于采用有放回的随机采样方式,在预设的数据集中执行样本序列采样,以便为每个所述基学习器对应构建训练集和测试集;针对每个所述基学习器,利用所述基学习器对应的训练集,训练所述基学习器,并利用所述基学习器对应的测试集,测试所述基学习器,直到所述基学习器收敛为止;
所述第二训练单元,用于:
根据所述数据集中的所有样本序列,构建状态转移概率矩阵和初始状态概率矩阵;
初始化权重向量;其中,在所述权重向量中包括多个权重元素,每个所述权重元素对应一个基学习器;
从所述数据集中顺序获取一个样本序列,并将获取的所述样本序列分别输入每个基学习器,获得每个所述基学习器输出的初步识别结果;
根据所述状态转移概率矩阵、所述初始状态概率矩阵、所述权重向量以及每个所述基学习器输出的初步识别结果,确定所述样本序列中每个元素分别对应每个命名实体标签时的概率;
对所述样本序列中每个元素分别对应每个命名实体标签时的概率进行归一化处理;
根据归一化后的所述样本序列中每个元素分别对应每个命名实体标签时的概率,计算所述命名实体识别模型的损失值;如果所述损失值大于预设的损失阈值,则调整所述权重向量中的权重元素,从所述数据集中顺序获取下一个样本序列;反之,则判定所述命名实体识别模型已经收敛。
9.一种基于集成学习的命名实体识别设备,其特征在于,所述基于集成学习的命名实体识别设备包括处理器、存储器;所述处理器用于执行所述存储器中存储的基于集成学习的命名实体识别程序,以实现权利要求1~5中任一项所述的基于集成学习的命名实体识别方法。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~5中任一项所述的基于集成学习的命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368962.1A CN113051918B (zh) | 2019-12-26 | 2019-12-26 | 基于集成学习的命名实体识别方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368962.1A CN113051918B (zh) | 2019-12-26 | 2019-12-26 | 基于集成学习的命名实体识别方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051918A true CN113051918A (zh) | 2021-06-29 |
CN113051918B CN113051918B (zh) | 2024-05-14 |
Family
ID=76505557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911368962.1A Active CN113051918B (zh) | 2019-12-26 | 2019-12-26 | 基于集成学习的命名实体识别方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051918B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273237A (zh) * | 2022-08-01 | 2022-11-01 | 中国矿业大学 | 基于集成随机配置神经网络的人体姿态与动作识别方法 |
CN118378627A (zh) * | 2024-05-09 | 2024-07-23 | 北京博瑞彤芸科技股份有限公司 | 一种中医药命名实体识别方法、装置及存储介质 |
Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103035241A (zh) * | 2012-12-07 | 2013-04-10 | 中国科学院自动化研究所 | 模型互补的汉语韵律间断识别系统及方法 |
CN104978587A (zh) * | 2015-07-13 | 2015-10-14 | 北京工业大学 | 一种基于文档类型的实体识别合作学习算法 |
CN105630768A (zh) * | 2015-12-23 | 2016-06-01 | 北京理工大学 | 一种基于层叠条件随机场的产品名识别方法及装置 |
CN106598950A (zh) * | 2016-12-23 | 2017-04-26 | 东北大学 | 一种基于混合层叠模型的命名实体识别方法 |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN107133212A (zh) * | 2017-05-05 | 2017-09-05 | 北京大学 | 一种基于集成学习和词句综合信息的文本蕴涵识别方法 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
CN107704625A (zh) * | 2017-10-30 | 2018-02-16 | 锐捷网络股份有限公司 | 字段匹配方法和装置 |
CN108596360A (zh) * | 2018-03-16 | 2018-09-28 | 北京中科闻歌科技股份有限公司 | 一种基于机器学习的判决预测方法及系统 |
CN108717410A (zh) * | 2018-05-17 | 2018-10-30 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN108829659A (zh) * | 2018-05-04 | 2018-11-16 | 北京中科闻歌科技股份有限公司 | 一种引用识别方法、设备和计算机可存储介质 |
CN108959566A (zh) * | 2018-07-04 | 2018-12-07 | 哈尔滨工业大学 | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 |
CN109190120A (zh) * | 2018-08-31 | 2019-01-11 | 第四范式(北京)技术有限公司 | 神经网络训练方法和装置及命名实体识别方法和装置 |
CN109192201A (zh) * | 2018-09-14 | 2019-01-11 | 苏州亭云智能科技有限公司 | 基于双模型识别的语音领域命令理解方法 |
CN109460462A (zh) * | 2018-11-15 | 2019-03-12 | 中通天鸿(北京)通信科技股份有限公司 | 一种中文相似问题生成系统与方法 |
CN109726400A (zh) * | 2018-12-29 | 2019-05-07 | 新华网股份有限公司 | 实体词识别结果评价方法、装置、设备及实体词提取系统 |
CN109783812A (zh) * | 2018-12-28 | 2019-05-21 | 中国科学院自动化研究所 | 基于自注意力机制的中文命名实体识别方法及装置 |
CN109783778A (zh) * | 2018-12-20 | 2019-05-21 | 北京中科闻歌科技股份有限公司 | 文本溯源方法、设备及存储介质 |
CN109918644A (zh) * | 2019-01-26 | 2019-06-21 | 华南理工大学 | 一种基于迁移学习的中医健康咨询文本命名实体识别方法 |
CN109992646A (zh) * | 2019-03-29 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 文本标签的提取方法和装置 |
CN110110335A (zh) * | 2019-05-09 | 2019-08-09 | 南京大学 | 一种基于层叠模型的命名实体识别方法 |
CN110298035A (zh) * | 2019-06-04 | 2019-10-01 | 平安科技(深圳)有限公司 | 基于人工智能的字向量定义方法、装置、设备及存储介质 |
CN110458360A (zh) * | 2019-08-13 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 热门资源的预测方法、装置、设备及存储介质 |
CN110532570A (zh) * | 2019-09-10 | 2019-12-03 | 杭州橙鹰数据技术有限公司 | 一种命名实体识别的方法和装置及模型训练的方法和装置 |
CN110597970A (zh) * | 2019-08-19 | 2019-12-20 | 华东理工大学 | 一种多粒度医疗实体联合识别的方法及装置 |
-
2019
- 2019-12-26 CN CN201911368962.1A patent/CN113051918B/zh active Active
Patent Citations (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103035241A (zh) * | 2012-12-07 | 2013-04-10 | 中国科学院自动化研究所 | 模型互补的汉语韵律间断识别系统及方法 |
CN104978587A (zh) * | 2015-07-13 | 2015-10-14 | 北京工业大学 | 一种基于文档类型的实体识别合作学习算法 |
CN105630768A (zh) * | 2015-12-23 | 2016-06-01 | 北京理工大学 | 一种基于层叠条件随机场的产品名识别方法及装置 |
CN106598950A (zh) * | 2016-12-23 | 2017-04-26 | 东北大学 | 一种基于混合层叠模型的命名实体识别方法 |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN107133212A (zh) * | 2017-05-05 | 2017-09-05 | 北京大学 | 一种基于集成学习和词句综合信息的文本蕴涵识别方法 |
CN107330011A (zh) * | 2017-06-14 | 2017-11-07 | 北京神州泰岳软件股份有限公司 | 多策略融合的命名实体的识别方法及装置 |
CN107704625A (zh) * | 2017-10-30 | 2018-02-16 | 锐捷网络股份有限公司 | 字段匹配方法和装置 |
CN108596360A (zh) * | 2018-03-16 | 2018-09-28 | 北京中科闻歌科技股份有限公司 | 一种基于机器学习的判决预测方法及系统 |
CN108829659A (zh) * | 2018-05-04 | 2018-11-16 | 北京中科闻歌科技股份有限公司 | 一种引用识别方法、设备和计算机可存储介质 |
CN108717410A (zh) * | 2018-05-17 | 2018-10-30 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN108959566A (zh) * | 2018-07-04 | 2018-12-07 | 哈尔滨工业大学 | 一种基于Stacking集成学习的医疗文本去隐私方法和系统 |
CN109190120A (zh) * | 2018-08-31 | 2019-01-11 | 第四范式(北京)技术有限公司 | 神经网络训练方法和装置及命名实体识别方法和装置 |
CN109192201A (zh) * | 2018-09-14 | 2019-01-11 | 苏州亭云智能科技有限公司 | 基于双模型识别的语音领域命令理解方法 |
CN109460462A (zh) * | 2018-11-15 | 2019-03-12 | 中通天鸿(北京)通信科技股份有限公司 | 一种中文相似问题生成系统与方法 |
CN109783778A (zh) * | 2018-12-20 | 2019-05-21 | 北京中科闻歌科技股份有限公司 | 文本溯源方法、设备及存储介质 |
CN109783812A (zh) * | 2018-12-28 | 2019-05-21 | 中国科学院自动化研究所 | 基于自注意力机制的中文命名实体识别方法及装置 |
CN109726400A (zh) * | 2018-12-29 | 2019-05-07 | 新华网股份有限公司 | 实体词识别结果评价方法、装置、设备及实体词提取系统 |
CN109918644A (zh) * | 2019-01-26 | 2019-06-21 | 华南理工大学 | 一种基于迁移学习的中医健康咨询文本命名实体识别方法 |
CN109992646A (zh) * | 2019-03-29 | 2019-07-09 | 腾讯科技(深圳)有限公司 | 文本标签的提取方法和装置 |
CN110110335A (zh) * | 2019-05-09 | 2019-08-09 | 南京大学 | 一种基于层叠模型的命名实体识别方法 |
CN110298035A (zh) * | 2019-06-04 | 2019-10-01 | 平安科技(深圳)有限公司 | 基于人工智能的字向量定义方法、装置、设备及存储介质 |
CN110458360A (zh) * | 2019-08-13 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 热门资源的预测方法、装置、设备及存储介质 |
CN110597970A (zh) * | 2019-08-19 | 2019-12-20 | 华东理工大学 | 一种多粒度医疗实体联合识别的方法及装置 |
CN110532570A (zh) * | 2019-09-10 | 2019-12-03 | 杭州橙鹰数据技术有限公司 | 一种命名实体识别的方法和装置及模型训练的方法和装置 |
Non-Patent Citations (4)
Title |
---|
程天翼;: "基于集成学习的电子商务站点搜索结果准确性预测", 通讯世界, no. 08, 25 August 2018 (2018-08-25), pages 300 - 302 * |
程天翼;: "基于集成学习的电子商务站点搜索结果准确性预测", 通讯世界, no. 08, pages 300 - 302 * |
蔡月红;朱倩;程显毅;: "基于Tri-training半监督学习的中文组织机构名识别", 计算机应用研究, no. 01, 15 January 2010 (2010-01-15), pages 193 - 195 * |
蔡月红;朱倩;程显毅;: "基于Tri-training半监督学习的中文组织机构名识别", 计算机应用研究, no. 01, pages 193 - 195 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115273237A (zh) * | 2022-08-01 | 2022-11-01 | 中国矿业大学 | 基于集成随机配置神经网络的人体姿态与动作识别方法 |
CN115273237B (zh) * | 2022-08-01 | 2024-01-30 | 中国矿业大学 | 基于集成随机配置神经网络的人体姿态与动作识别方法 |
CN118378627A (zh) * | 2024-05-09 | 2024-07-23 | 北京博瑞彤芸科技股份有限公司 | 一种中医药命名实体识别方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113051918B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062179B2 (en) | Method and device for generative adversarial network training | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN110851599B (zh) | 一种中文作文自动评分方法及教辅系统 | |
CN111506714A (zh) | 基于知识图嵌入的问题回答 | |
CN111046179B (zh) | 一种面向特定领域开放网络问句的文本分类方法 | |
US20190171913A1 (en) | Hierarchical classification using neural networks | |
CN110704576B (zh) | 一种基于文本的实体关系抽取方法及装置 | |
CN110196978A (zh) | 一种关注关联词的实体关系抽取方法 | |
CN107004140B (zh) | 文本识别方法和计算机程序产品 | |
CN110569332A (zh) | 一种语句特征的提取处理方法及装置 | |
US20230034414A1 (en) | Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN113420552B (zh) | 一种基于强化学习的生物医学多事件抽取方法 | |
CN113468887A (zh) | 基于边界与片段分类的学者信息关系抽取方法和系统 | |
CN113051918A (zh) | 基于集成学习的命名实体识别方法、装置、设备和介质 | |
CN109543176A (zh) | 一种基于图向量表征的丰富短文本语义方法及装置 | |
CN118312600B (zh) | 一种基于知识图谱与大语言模型的智能客服问答方法 | |
Joukhadar et al. | Arabic dialogue act recognition for textual chatbot systems | |
CN111222329B (zh) | 句向量训练方法及模型、句向量预测方法及系统 | |
CN112214595A (zh) | 类别确定方法、装置、设备及介质 | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |