CN114266253B

CN114266253B - 一种未标注数据的半监督命名实体识别的方法

Info

Publication number: CN114266253B
Application number: CN202111573126.4A
Authority: CN
Inventors: 叶文鹏
Original assignee: Wuhan Baizhi Forever Technology Co ltd
Current assignee: Wuhan Baizhi Forever Technology Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2024-01-23
Anticipated expiration: 2041-12-21
Also published as: CN114266253A

Abstract

本发明公开了一种未标注数据的半监督命名实体识别的方法，包括：数据分组、建立识别模型、交叉验证、文本标注、置信度计算和识别训练等步骤，综合多种常用模型的优势，最大程度的降低训练集中噪声数据的干扰，同时本方法并不用训练基于二分类的打分器。目前市面上少量标注文本命名识别算法无法充分挖掘出大量未标注的文本中的信息和降低相应由于少量标注文本带来噪声。该方法还可以通过调整置信度α，来调整最后模型的召回率和精度，在不同场景下使用不同的置信度来满足不同场景下对召回率和精度的不同要求。

Description

一种未标注数据的半监督命名实体识别的方法

技术领域

本发明涉及自然语言处理领域技术领域，具体为一种未标注数据的半监督命名实体识别的方法及系统。

背景技术

本发明属于自然语言处理领域，涉及对大量未标注的文本进行命名实体识别。作为语义知识库、知识图谱的基本组件,命名实体识别对智能系统建设和科技情报服务都起到重要作用。近年来,深度学习方法在特征抽取深度和模型精度上表现优异,已经超过了传统方法,但无论是传统机器学习还是深度学习方法都依赖大量标注数据来训练模型,同时少量标注数据训练的模型识别准确度不高。

为解决上述问题，申请人提出了此方案，其不需要人工对大量未标注文本进行标注，相对于传统监督学习命名实体识别算法，能在仅有少量标注文本的情况下，高精度准确地对未标注文本进行命名实体识别，同时对人工标注带来的噪声能有很好的识别。同时，传统的半监督中文命名实体识别方法仅通过一种模型对识别的结果作为训练集进行置信度打分，单一模型的识别精准度对最终结果的影响很大，而本方案的方法可以综合多种常用模型的优势，最大程度的降低训练集中噪声数据的干扰，同时本方法并不用训练基于二分类的打分器。目前市面上少量标注文本命名识别算法无法充分挖掘出大量未标注的文本中的信息和降低相应由于少量标注文本带来噪声。该方法还可以通过调整置信度α，来调整最后模型的召回率和精度，在不同场景下使用不同的置信度来满足不同场景下对召回率和精度的不同要求。

发明内容

本发明的目的在于提供一种未标注数据的半监督命名实体识别的方法，以解决上述背景技术中提出的目前在机器学习和深度学习中依赖大量标注数据来训练模型,同时少量标注数据训练的模型识别准确度不高的问题。

为实现上述目的，本发明提供如下技术方案：一种未标注数据的半监督命名实体识别的方法，其特征在于，包括以下步骤：

步骤一：数据分组，将已标注文本平均随机分成N(N为正整数)份训练数据；

步骤二：建立识别模型，采用M(M为正整数)种通用常规实体命名识别算法将N份训练数据进行模型训练，生成M×N种实体命名识别模型；

步骤三：交叉验证，通过交叉验证的方式得到M×N种实体命名识别模型的F1score；

步骤四：文本标注，通过M×N种实体命名识别模型对未标注文本进行标注得到多个实体；

步骤五：置信度计算，将步骤四中得到的实体进行置信度α的计算，其计算公式为：

其中F1(k)为第k个模型的F1 score，

而第k个模型的F1值通过交叉测试的方法，首先在N份训练数据中随机抽取一个非当前模型训练的数据作为测试集进行测试，测试出来的F1 score是对精度和召回率的调和平均，具体公式为：

其中，精度(precision)为真正例除以(真正例+假正例)的和，召回率(recall)为真正例除以(真正例+假反例)的和，

将高于预定置信度α0的实体作为最终识别出来的实体对未标注的实体进行标注；

步骤六：识别训练，通过最后已经标注的数据以及M×N种模型中对应F1score最高的算法进行命名实体识别的训练。

作为一种优选的技术方案，步骤二中，M种通用常规实体命名识别算法中包括bert+crf、BiLSTM+crf、BiLSTM+crf、Bert+flat算法。

作为一种优选的技术方案，步骤一中N＝3。

作为一种优选的技术方案，步骤五中，预定置信度被设为0.5。

与现有技术相比，本发明的有益效果是：

1)充分挖掘出大量未标注的文本中的信息，提高了算法的识别精准度，同时不需要大量的人工标注，节省了大量人工成本。

2)能够过滤原来少量人工标注文本中，由于人工误差以及对标注理解标准的不一致带来的样本噪声。

3)区别于传统半监督命名实体识别方法要训练一个二分类的打分器，本方法不训练打分器模型，而是综合多种传统模型对数据集分布的识别，通过非常易于操作的算法计算出各种标签的置信度，最大化的将可能的人工打标带来的噪声给排除，最大化的发挥多种模型的不同方面的优势，而非依赖单一模型的识别，达到最佳的精准度与召回率。

4)本方法不依赖单一命名实体识别模型，而是通过算法将多种传统实体识别模型计算出的分布通过算法进行置信度算法分析，得出置信度最高的标签，对于未来新型命名识别模型的引入亦能快速应用本方法，使得本方法得出的结果会优于单一模型，同时能兼容未来的扩展。该方法还可以通过调整置信度α，来调整最后模型的召回率和精度，在对精度要求高的场景可训练出高精度稍低召回率的模型，在对召回率要求高的场景可训练出稍低精度高召回率的模型，满足不同场景的不同需求。而传统方法无法调整最后模型的召回率和精度。

附图说明

图1为本发明一种未标注数据的半监督命名实体识别的方法的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：在有少量标注文本和大量未标注文本的情况下，通过采用多种常规实体命名识别算法对大量未标注文本进行命名实体识别，并对每一个识别出来的实体进行置信度评估，置信度高于预设值的实体作为最终采用的识别实体，通过最终的识别实体将未标注文本进行标注。最后再用此标注文本进行常规训练，该半监督命名实体识别的方法运用方便，准确率提高大，适用范围领域广，应用价值高，成本低，易于普及推广。

参见图1，本发明实施例所述的一种未标注数据的半监督命名实体识别的方法，包括有以下步骤：

步骤A.将已经标注文本平均随机分成N份(一般可以使用3份)训练数据

步骤B.采用bert+crf、BiLSTM+crf、BiLSTM+crf、Bert+flat等M种通用常规实体命名识别算法将N份训练数据进行模型训练，生成M×N种实体命名识别模型。

步骤C通过交叉验证的方式得到M×N种实体命名识别模型的F1score

步骤D.通过M×N种实体命名识别模型对未标注文本进行标注。

步骤E.将最后标注出来的实体进行置信度α的计算，对于高于预定置信度的实体，作为最终识别出来的实体对未标注的实体进行标注。

步骤F.通过最后已经标注的数据以及M×N种模型中对应F1 score最高的算法进行命名实体识别的训练.

所述对标注出来的实体进行置信度的计算,具体可为其中F1(k)为第k个模型的F1score。通常可将最后的预定置信度设置为0.5，对于高于预定置信度的实体，作为最终识别出来的实体对未标注的实体进行标注。对于不同的场景，如果需要一个较高的召回率的场景可将置信度人工调低，对于需要较高精准度的场景可将置信度人为调高。

其中第k个模型的F1值可通过交叉测试的方法，在N份训练数据中随机抽取一个非当前模型训练的数据作为测试集进行测试，测试出来的F1 score是对精度和召回率的调和平均，具体公式如下：

其中精度(precision)被定义为真正例除以(真正例+假正例)的和,召回率(recall)的准确定义是：真正例除以(真正例+假反例)的和。

与现有技术比，该方法有如下优点：

1.充分挖掘出大量未标注的文本中的信息，提高了算法的识别精准度，同时不需要大量的人工标注，节省了大量人工成本。

2.能够过滤原来少量人工标注文本中，由于人工误差以及对标注理解标准的不一致带来的样本噪声。

3.区别于传统半监督命名实体识别方法要训练一个二分类的打分器，本方法不训练打分器模型，而是综合多种传统模型对数据集分布的识别，通过非常易于操作的算法计算出各种标签的置信度，最大化的将可能的人工打标带来的噪声给排除，最大化的发挥多种模型的不同方面的优势，而非依赖单一模型的识别，达到最佳的精准度与召回率。

4.本方法不依赖单一命名实体识别模型，而是通过算法将多种传统实体识别模型计算出的分布通过算法进行置信度算法分析，得出置信度最高的标签，对于未来新型命名识别模型的引入亦能快速应用本方法，使得本方法得出的结果会优于单一模型，同时能兼容未来的扩展。

该方法还可以通过调整置信度α，来调整最后模型的召回率和精度，在对精度要求高的场景可训练出高精度稍低召回率的模型，在对召回率要求高的场景可训练出稍低精度高召回率的模型，满足不同场景的不同需求。而传统方法无法调整最后模型的召回率和精度。

通过数据分组、建立识别模型、交叉验证、文本标注、置信度计算和识别训练等步骤，综合多种常用模型的优势，最大程度的降低训练集中噪声数据的干扰，同时本方法并不用训练基于二分类的打分器。目前市面上少量标注文本命名识别算法无法充分挖掘出大量未标注的文本中的信息和降低相应由于少量标注文本带来噪声。该方法还可以通过调整置信度α，来调整最后模型的召回率和精度，在不同场景下使用不同的置信度来满足不同场景下对召回率和精度的不同要求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种未标注数据的半监督命名实体识别的方法，其特征在于，包括以下步骤：

步骤三：交叉验证，通过交叉验证的方式得到M×N种实体命名识别模型的F1 score；

其中F1(k)为第k个模型的F1 score，

将高于预定置信度α₀的实体作为最终识别出来的实体对未标注的实体进行标注；

2.根据权利要求1所述的一种未标注数据的半监督命名实体识别的方法，其特征在于，所述步骤二中，M种通用常规实体命名识别算法中包括bert+crf、BiLSTM+crf、Bert+flat算法。

3.根据权利要求1所述的一种未标注数据的半监督命名实体识别的方法，其特征在于，所述步骤一中N＝3。

4.根据权利要求1所述的一种未标注数据的半监督命名实体识别的方法，其特征在于，所述步骤五中，预定置信度被设为0.5。