CN115713082A - 一种命名实体识别方法、装置、设备及存储介质 - Google Patents

一种命名实体识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115713082A
CN115713082A CN202211299349.0A CN202211299349A CN115713082A CN 115713082 A CN115713082 A CN 115713082A CN 202211299349 A CN202211299349 A CN 202211299349A CN 115713082 A CN115713082 A CN 115713082A
Authority
CN
China
Prior art keywords
pseudo
named entity
sample
model
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211299349.0A
Other languages
English (en)
Inventor
蒋盛益
付颖雯
林楠铠
林晓钿
杨子渝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Foreign Studies
Original Assignee
Guangdong University of Foreign Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Foreign Studies filed Critical Guangdong University of Foreign Studies
Priority to CN202211299349.0A priority Critical patent/CN115713082A/zh
Publication of CN115713082A publication Critical patent/CN115713082A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种命名实体识别方法、装置、设备及存储介质,方法包括:基于教师模型损失函数和命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得教师模型;利用教师模型过滤命名实体无监督样本集中存在错误预测标签的伪样本,获得第一样本集,并移除第一样本集中具有非实体标签的伪样本,获得第二样本集;然后生成第二样本集中每个伪样本所对应的伪标签,计算每个伪样本的置信度,选取置信度大于预设阈值的若干置信伪样本,并基于学生模型损失函数和命名实体标注数据集重新对预训练的语言模型进行训练,获得学生模型,以对输入的文本数据进行命名实体识别。本发明能够避免半监督学习模型在自训练过程中选择具有错误伪标签的伪样本。

Description

一种命名实体识别方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种命名实体识别方法、装置、设备及计算机可读存储介质。
背景技术
命名实体识别(Named Entity Recognition,NER)是许多自然语言处理(NaturalLanguage Processing,NLP)任务的基础,旨在识别命名实体的边界并将它们分类为预定义的类别,如人名、地名或组织名。作为自然语言处理的一个基础研究任务,命名实体识别在各种工业产品中具有广泛的应用,因此提高命名实体识别的准确性具有重大意义。目前,深度神经网络已广泛应用于命名实体识别并取得了较好的效果,然而深度神经网络模型通常需要大量的训练数据,其适用于拥有大量标注语料的语言,而对于标注语料较少的低资源语言,深度神经网络在命名实体识别的应用将受到数据稀缺问题的限制。
为了解决这一问题,现有技术通常采用半监督学习(Semi-supervised Learning,SSL)的方式进行命名实体识别,其通过利用大量无监督数据和少量标注数据进行自训练,为无监督数据生成伪标签以扩充训练集,从而提高模型的泛化能力。然而该方法在自训练过程中可能会生成错误的伪标签,从而影响模型进行命名实体识别的准确性。
发明内容
本发明提供一种命名实体识别方法、装置、设备及存储介质,以解决现有技术因半监督学习模型在自训练过程中产生的错误的伪标签而影响模型进行命名实体识别的准确性的技术问题,通过训练后的教师模型对命名实体无监督样本集执行判别辅助任务,以过滤命名实体无监督样本中存在错误预测标签的伪样本,并根据伪样本的置信度选择用于训练学生模型的伪样本,能够有效地避免半监督学习模型在自训练过程中选择具有错误伪标签的伪样本,从而能够提高模型进行命名实体识别的准确性。
为了解决上述技术问题,本发明实施例第一方面提供一种命名实体识别方法,包括如下步骤:
基于预设的教师模型损失函数,利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得教师模型;
利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本,获得第一样本集;
基于所述教师模型,移除所述第一样本集中具有非实体标签的伪样本,获得第二样本集;
利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签,并基于每个伪样本所对应的伪标签,计算所述第二样本集中每个伪样本的置信度;
选取所述第二样本集中置信度大于预设阈值的若干置信伪样本,并基于预设的学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型;
利用所述学生模型对输入的文本数据进行命名实体识别。
作为优选方案,所述基于预设的教师模型损失函数,利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得教师模型,具体包括如下步骤:
基于如下教师模型损失函数,利用所述命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得所述教师模型:
Figure BDA0003900228490000021
Figure BDA0003900228490000022
其中,x表示命名实体标注数据集DL中的标注数据,L表示词条序列的长度,p(xit)表示教师模型θt输出的标签的概率,yi表示词条xi的真实标签,xji表示包含词条的隐藏状态和预测软标签的输入样本,p′(xjit)表示输入样本xji所对应的错误判断标签yji的分布概率,yji表示输入样本xji所对应的错误判断标签,λJ表示判别辅助任务损失函数的权重,
Figure BDA0003900228490000031
表示标注数据x的损失值,
Figure BDA0003900228490000032
表示命名实体标注数据集DL的损失值。
作为优选方案,所述利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本,具体包括如下步骤:
利用所述教师模型通过如下表达式对所述命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本:
p′(xi,θ)=sigmoid(Wjhi+bj)
Figure BDA0003900228490000033
其中,p′(xi,θ)表示词条xi所对应的错误判断标签的分布概率,hi表示词条xi的隐藏状态,Wj表示第一待学习参数,bj表示第二待学习参数,
Figure BDA0003900228490000034
表示词条xi所对应的分布概率最大的错误判断标签。
作为优选方案,所述利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签,具体包括如下步骤:
利用所述教师模型通过如下表达式生成所述第二样本集中每个伪样本所对应的伪标签:
Figure BDA0003900228490000035
其中,
Figure BDA0003900228490000036
表示伪样本
Figure BDA0003900228490000039
所对应的伪标签,DU表示所述命名实体无监督样本集。
作为优选方案,所述基于每个伪样本所对应的伪标签,计算所述第二样本集中每个伪样本的置信度,具体包括如下步骤:
基于每个伪样本所对应的伪标签,通过如下表达式计算所述第二样本集中每个伪样本的置信度:
Figure BDA0003900228490000037
Figure BDA0003900228490000038
其中,
Figure BDA0003900228490000041
表示伪样本
Figure BDA0003900228490000042
所对应的伪标签,C表示伪标签的数量,
Figure BDA0003900228490000043
表示伪样本
Figure BDA0003900228490000044
在类别c上的预测概率,
Figure BDA0003900228490000045
表示伪样本的熵,O表示非实体标签,ω表示伪样本
Figure BDA0003900228490000046
的置信度。
作为优选方案,所述基于预设的学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型,具体包括如下步骤:
基于如下学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型:
Figure BDA0003900228490000047
Figure BDA0003900228490000048
Figure BDA0003900228490000049
其中,p(xi,θs)表示学生模型θs输出的标签的概率,p′(xji,θs)表示输入样本xji所对应的错误判断标签yji的分布概率,
Figure BDA00039002284900000410
表示学生模型θs输出的伪标签的概率,λU表示伪标签损失函数权重,
Figure BDA00039002284900000411
表示命名实体无监督样本集中的伪样本,
Figure BDA00039002284900000412
表示标注数据x的损失值,
Figure BDA00039002284900000413
表示伪样本
Figure BDA00039002284900000415
的损失值,
Figure BDA00039002284900000414
表示命名实体标注数据集DL和命名实体无监督样本集DU的损失值之和。
作为优选方案,所述预训练的语言模型为mBERT模型。
本发明实施例第二方面提供一种命名实体识别装置,包括:
教师模型获取模块,用于基于预设的教师模型损失函数,利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得教师模型;
伪样本过滤模块,用于利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本,获得第一样本集;
伪样本移除模块,用于基于所述教师模型,移除所述第一样本集中具有非实体标签的伪样本,获得第二样本集;
置信度计算模块,用于利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签,并基于每个伪样本所对应的伪标签,计算所述第二样本集中每个伪样本的置信度;
学生模型获取模块,用于选取所述第二样本集中置信度大于预设阈值的若干置信伪样本,并基于预设的学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型;
命名实体识别模块,用于利用所述学生模型对输入的文本数据进行命名实体识别。
本发明实施例第三方面提供一种命名实体识别设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的命名实体识别方法。
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一项所述的命名实体识别方法。
相比于现有技术,本发明实施例的有益效果在于,通过训练后的教师模型对命名实体无监督样本集执行判别辅助任务,以过滤命名实体无监督样本中存在错误预测标签的伪样本,并根据伪样本的置信度选择用于训练学生模型的伪样本,能够有效地避免半监督学习模型在自训练过程中选择具有错误伪标签的伪样本,从而能够提高模型进行命名实体识别的准确性。
附图说明
图1是本发明实施例中的一种命名实体识别方法的流程示意图;
图2是本发明实施例中的一种命名实体识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明实施例第一方面提供一种命名实体识别方法,包括如下步骤S1至步骤S6:
步骤S1,基于预设的教师模型损失函数,利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得教师模型;
步骤S2,利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本,获得第一样本集;
步骤S3,基于所述教师模型,移除所述第一样本集中具有非实体标签的伪样本,获得第二样本集;
步骤S4,利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签,并基于每个伪样本所对应的伪标签,计算所述第二样本集中每个伪样本的置信度;
步骤S5,选取所述第二样本集中置信度大于预设阈值的若干置信伪样本,并基于预设的学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型;
步骤S6,利用所述学生模型对输入的文本数据进行命名实体识别。
值得说明的是,由于预训练的语言模型的隐藏状态包含大量实体信息以支持实体标签预测,因此本实施例提出一种判别辅助任务,以评估文本中每个词条的预测标签是否正确。判别辅助任务是一个二元分类任务,用于判断基模型的NER预测的正确性,该任务旨在过滤存在错误预测标签的伪样本,以词语的隐藏状态和预测标签作为输入,根据词条的真实标签来判断预测标签的正确性。可以理解的是,词条的真实标签即为该词条所对应的正确的实体标签。
进一步地,由于对预训练的语言模型进行判别辅助任务训练只利用了命名实体标注数据集,而命名实体标注数据集中的标注数据都是具有真实标签的样本,因此训练过程中不会发生错误传播的情况。
进一步地,本实施例利用教师模型对预设的命名实体无监督样本集执行判别辅助任务,以过滤命名实体无监督样本中存在错误预测标签的伪样本。值得说明的是,错误预测标签即为该伪样本所对应的预测标签与真实标签不相同,表明该伪样本会引起错误传播,因此需要过滤。
进一步地,本实施例基于教师模型,移除第一样本集中具有非实体标签的伪样本,获得第二样本集;利用教师模型生成第二样本集中每个伪样本所对应的伪标签,并基于每个伪样本所对应的伪标签,计算第二样本集中每个伪样本的置信度。值得说明的是,考虑到实体标签和非实体标签的占比极度不平衡,同时NER任务集中在实体提取上,因此本实施例移除第一样本集中具有非实体标签的伪样本。由于在分类任务中,预测置信度高的样本比预测置信度低的样本更容易被正确分类,因此本实施例基于每个伪样本所对应的伪标签,计算第二样本集中每个伪样本的置信度,以选择置信度高的伪样本作为用于训练学生模型的伪样本,从而使得学生模型在自训练过程中能够有效地选择高质量的伪样本,提高低资源命名实体识别任务的准确性。
本发明实施例提供的一种命名实体识别方法,通过训练后的教师模型对命名实体无监督样本集执行判别辅助任务,以过滤命名实体无监督样本中存在错误预测标签的伪样本,并根据伪样本的置信度选择用于训练学生模型的伪样本,能够有效地避免半监督学习模型在自训练过程中选择具有错误伪标签的伪样本,从而能够提高模型进行命名实体识别的准确性。
作为优选方案,所述基于预设的教师模型损失函数,利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得教师模型,具体包括如下步骤:
基于如下教师模型损失函数,利用所述命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得所述教师模型:
Figure BDA0003900228490000071
Figure BDA0003900228490000072
其中,x表示命名实体标注数据集DL中的标注数据,L表示词条序列的长度,p(xi,θt)表示教师模型θt输出的标签的概率,yi表示词条xi的真实标签,xji表示包含词条的隐藏状态和预测软标签的输入样本,p′(xji,θt)表示输入样本xji所对应的错误判断标签yji的分布概率,yji表示输入样本xji所对应的错误判断标签,λJ表示判别辅助任务损失函数的权重,
Figure BDA0003900228490000081
表示标注数据x的损失值,
Figure BDA0003900228490000082
表示命名实体标注数据集DL的损失值。
可以理解的是,命名实体标注数据集DL的损失值即为命名实体标注数据集DL中所有标注数据x的损失值之和。
作为优选方案,所述利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本,具体包括如下步骤:
利用所述教师模型通过如下表达式对所述命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本:
p′(xi,θ)=sigmoid(Wjhi+bj)
Figure BDA0003900228490000083
其中,p′(xi,θ)表示词条xi所对应的错误判断标签的分布概率,hi表示词条xi的隐藏状态,Wj表示第一待学习参数,bj表示第二待学习参数,
Figure BDA0003900228490000084
表示词条xi所对应的分布概率最大的错误判断标签。
具体地,本实施例首先融合词条隐藏状态和预测软标签,可以理解的是,本实施例所融合的预测标签为软标签(预测概率),而不是硬标签(独热标签),因为软标签包含更丰富的标签信息,然后将包含词条的隐藏状态和预测软标签的输入样本输入至多层分类器中,并通过如下表达式分配对应的错误判断标签:
Figure BDA0003900228490000085
值得说明的是,当为0时,表明该输入样本的预测标签与真实标签相同;当为1时,表明该输入样本的预测标签为错误的预测标签。
然后对于每个输入样本,将其输入至sigmoid分类层中,通过如下表达式预测错误判断标签所对应的概率分布:
p′(xi,θ)=sigmoid(Wjhi+bj)
Figure BDA0003900228490000091
最终过滤命名实体无监督样本中存在错误预测标签的伪样本,只选择所有词条的错误判断标签均为0的伪句子。
作为优选方案,所述利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签,具体包括如下步骤:
利用所述教师模型通过如下表达式生成所述第二样本集中每个伪样本所对应的伪标签:
Figure BDA0003900228490000092
其中,
Figure BDA0003900228490000093
表示伪样本
Figure BDA00039002284900000912
所对应的伪标签,DU表示所述命名实体无监督样本集。
作为优选方案,所述基于每个伪样本所对应的伪标签,计算所述第二样本集中每个伪样本的置信度,具体包括如下步骤:
基于每个伪样本所对应的伪标签,通过如下表达式计算所述第二样本集中每个伪样本的置信度:
Figure BDA0003900228490000094
Figure BDA0003900228490000095
其中,
Figure BDA0003900228490000096
表示伪样本
Figure BDA0003900228490000097
所对应的伪标签,C表示伪标签的数量,
Figure BDA0003900228490000098
表示伪样本
Figure BDA0003900228490000099
在类别c上的预测概率,
Figure BDA00039002284900000910
表示伪样本的熵,O表示非实体标签,ω表示伪样本
Figure BDA00039002284900000911
的置信度。
值得说明的是,本实施例中的置信度是基于熵度量的,在对第二样本集中每个伪样本的置信度进行计算后,按照置信度对伪样本进行排序,并选取置信度大于预设阈值的若干置信伪样本,视为置信度较高的伪样本。值得说明的是,每个词条序列的置信度由序列中所有词条的置信度的平均值表示。
作为优选方案,所述基于预设的学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型,具体包括如下步骤:
基于如下学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型:
Figure BDA0003900228490000101
Figure BDA0003900228490000102
Figure BDA0003900228490000103
其中,p(xi,θs)表示学生模型θs输出的标签的概率,p′(xji,θs)表示输入样本xji所对应的错误判断标签yji的分布概率,
Figure BDA0003900228490000104
表示学生模型θs输出的伪标签的概率,λU表示伪标签损失函数权重,
Figure BDA0003900228490000105
表示命名实体无监督样本集中的伪样本,
Figure BDA0003900228490000106
表示标注数据x的损失值,
Figure BDA0003900228490000107
表示伪样本
Figure BDA0003900228490000109
的损失值,
Figure BDA0003900228490000108
表示命名实体标注数据集DL和命名实体无监督样本集DU的损失值之和。
可以理解的是,命名实体标注数据集DL和命名实体无监督样本集DU的损失值之和即为命名实体标注数据集DL中所有标注数据x的损失值与命名实体无监督样本集DU中所有伪样本
Figure BDA00039002284900001010
的损失值之和。
作为优选方案,所述预训练的语言模型为mBERT模型。
值得说明的是,BERT是使用Transformer编码器学习的语言模型。它每次输入一个序列并通过两个子任务进行学习,即掩码语言模型(Masked Language Modeling,MLM)和下一句预测(Next Sentence Prediction,NSP)。
mBERT遵循与BERT相同的模型架构和训练过程,不同之处在于它是在104种语言的维基百科数据上进行预训练的。对于分词器,mBERT利用WordPiece嵌入和超过110万个共享词汇来促进不同语言之间的词向量空间对齐。
参见图2,本发明实施例第二方面提供一种命名实体识别装置,包括:
教师模型获取模块201,用于基于预设的教师模型损失函数,利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得教师模型;
伪样本过滤模块202,用于利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本,获得第一样本集;
伪样本移除模块203,用于基于所述教师模型,移除所述第一样本集中具有非实体标签的伪样本,获得第二样本集;
置信度计算模块204,用于利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签,并基于每个伪样本所对应的伪标签,计算所述第二样本集中每个伪样本的置信度;
学生模型获取模块205,用于选取所述第二样本集中置信度大于预设阈值的若干置信伪样本,并基于预设的学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型;
命名实体识别模块206,用于利用所述学生模型对输入的文本数据进行命名实体识别。
作为优选方案,所述教师模型获取模块201用于基于预设的教师模型损失函数,利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得教师模型,具体包括:
基于如下教师模型损失函数,利用所述命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得所述教师模型:
Figure BDA0003900228490000111
Figure BDA0003900228490000112
其中,x表示命名实体标注数据集DL中的标注数据,L表示词条序列的长度,p(xi,θt)表示教师模型θt输出的标签的概率,yi表示词条xi的真实标签,xji表示包含词条的隐藏状态和预测软标签的输入样本,p′(xji,θt)表示输入样本xji所对应的错误判断标签yji的分布概率,yji表示输入样本xji所对应的错误判断标签,λJ表示判别辅助任务损失函数的权重,
Figure BDA0003900228490000121
表示标注数据x的损失值,
Figure BDA0003900228490000122
表示命名实体标注数据集DL的损失值。
作为优选方案,所述伪样本过滤模块202用于利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本,具体包括:
利用所述教师模型通过如下表达式对所述命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本:
p′(xi,θ)=sigmoid(Wjhi+bj)
Figure BDA0003900228490000123
其中,p′(xi,θ)表示词条xi所对应的错误判断标签的分布概率,hi表示词条xi的隐藏状态,Wj表示第一待学习参数,bj表示第二待学习参数,
Figure BDA0003900228490000124
表示词条xi所对应的分布概率最大的错误判断标签。
作为优选方案,所述置信度计算模块204用于利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签,具体包括:
利用所述教师模型通过如下表达式生成所述第二样本集中每个伪样本所对应的伪标签:
Figure BDA0003900228490000125
其中,
Figure BDA0003900228490000126
表示伪样本
Figure BDA0003900228490000129
所对应的伪标签,Du表示所述命名实体无监督样本集。
作为优选方案,所述置信度计算模块204用于基于每个伪样本所对应的伪标签,计算所述第二样本集中每个伪样本的置信度,具体包括:
基于每个伪样本所对应的伪标签,通过如下表达式计算所述第二样本集中每个伪样本的置信度:
Figure BDA0003900228490000127
Figure BDA0003900228490000128
其中,
Figure BDA0003900228490000131
表示伪样本
Figure BDA0003900228490000132
所对应的伪标签,C表示伪标签的数量,
Figure BDA0003900228490000133
表示伪样本
Figure BDA0003900228490000134
在类别c上的预测概率,
Figure BDA0003900228490000135
表示伪样本的熵,O表示非实体标签,ω表示伪样本
Figure BDA0003900228490000136
的置信度。
作为优选方案,所述学生模型获取模块205用于基于预设的学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型,具体包括:
基于如下学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型:
Figure BDA0003900228490000137
Figure BDA0003900228490000138
Figure BDA0003900228490000139
其中,p(xi,θs)表示学生模型θs输出的标签的概率,p′(xji,θs)表示输入样本xji所对应的错误判断标签yji的分布概率,
Figure BDA00039002284900001310
表示学生模型θs输出的伪标签的概率,λU表示伪标签损失函数权重,
Figure BDA00039002284900001311
表示命名实体无监督样本集中的伪样本,
Figure BDA00039002284900001312
表示标注数据x的损失值,
Figure BDA00039002284900001313
表示伪样本
Figure BDA00039002284900001315
的损失值,
Figure BDA00039002284900001314
表示命名实体标注数据集DL和命名实体无监督样本集DU的损失值之和。
作为优选方案,所述预训练的语言模型为mBERT模型。
需要说明的是,本发明实施例所提供的一种命名实体识别装置,能够实现上述任一实施例所述的命名实体识别方法的所有流程,装置中的各个模块的作用以及实现的技术效果分别与上述实施例所述的命名实体识别方法的作用以及实现的技术效果对应相同,这里不再赘述。
本发明实施例第三方面提供一种命名实体识别设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一实施例所述的命名实体识别方法。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任一实施例所述的命名实体识别方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种命名实体识别方法,其特征在于,包括如下步骤:
基于预设的教师模型损失函数,利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得教师模型;
利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本,获得第一样本集;
基于所述教师模型,移除所述第一样本集中具有非实体标签的伪样本,获得第二样本集;
利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签,并基于每个伪样本所对应的伪标签,计算所述第二样本集中每个伪样本的置信度;
选取所述第二样本集中置信度大于预设阈值的若干置信伪样本,并基于预设的学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型;
利用所述学生模型对输入的文本数据进行命名实体识别。
2.如权利要求1所述的命名实体识别方法,其特征在于,所述基于预设的教师模型损失函数,利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得教师模型,具体包括如下步骤:
基于如下教师模型损失函数,利用所述命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得所述教师模型:
Figure FDA0003900228480000011
Figure FDA0003900228480000012
其中,x表示命名实体标注数据集DL中的标注数据,L表示词条序列的长度,p(xit)表示教师模型θt输出的标签的概率,yi表示词条xi的真实标签,xji表示包含词条的隐藏状态和预测软标签的输入样本,p′(xjit)表示输入样本xji所对应的错误判断标签yji的分布概率,yji表示输入样本xji所对应的错误判断标签,λJ表示判别辅助任务损失函数的权重,
Figure FDA0003900228480000021
表示标注数据x的损失值,
Figure FDA0003900228480000022
表示命名实体标注数据集DL的损失值。
3.如权利要求2所述的命名实体识别方法,其特征在于,所述利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本,具体包括如下步骤:
利用所述教师模型通过如下表达式对所述命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本:
p′(xi,θ)=sigmoid(Wjhi+bj)
Figure FDA0003900228480000023
其中,p′(xi,θ)表示词条xi所对应的错误判断标签的分布概率,hi表示词条xi的隐藏状态,Wj表示第一待学习参数,bj表示第二待学习参数,
Figure FDA0003900228480000024
表示词条xi所对应的分布概率最大的错误判断标签。
4.如权利要求3所述的命名实体识别方法,其特征在于,所述利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签,具体包括如下步骤:
利用所述教师模型通过如下表达式生成所述第二样本集中每个伪样本所对应的伪标签:
Figure FDA0003900228480000025
其中,
Figure FDA0003900228480000026
表示伪样本
Figure FDA0003900228480000027
所对应的伪标签,DU表示所述命名实体无监督样本集。
5.如权利要求4所述的命名实体识别方法,其特征在于,所述基于每个伪样本所对应的伪标签,计算所述第二样本集中每个伪样本的置信度,具体包括如下步骤:
基于每个伪样本所对应的伪标签,通过如下表达式计算所述第二样本集中每个伪样本的置信度:
Figure FDA0003900228480000031
Figure FDA0003900228480000032
其中,
Figure FDA0003900228480000033
表示伪样本
Figure FDA0003900228480000034
所对应的伪标签,C表示伪标签的数量,
Figure FDA0003900228480000035
表示伪样本
Figure FDA0003900228480000036
在类别c上的预测概率,
Figure FDA0003900228480000037
表示伪样本的熵,O表示非实体标签,ω表示伪样本
Figure FDA0003900228480000038
的置信度。
6.如权利要求5所述的命名实体识别方法,其特征在于,所述基于预设的学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型,具体包括如下步骤:
基于如下学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型:
Figure FDA0003900228480000039
Figure FDA00039002284800000310
Figure FDA00039002284800000311
其中,p(xis)表示学生模型θs输出的标签的概率,p′(xjis)表示输入样本xji所对应的错误判断标签yji的分布概率,
Figure FDA00039002284800000312
表示学生模型θs输出的伪标签的概率,λU表示伪标签损失函数权重,
Figure FDA00039002284800000313
表示命名实体无监督样本集中的伪样本,
Figure FDA00039002284800000314
表示标注数据x的损失值,
Figure FDA00039002284800000315
表示伪样本
Figure FDA00039002284800000316
的损失值,
Figure FDA00039002284800000317
表示命名实体标注数据集DL和命名实体无监督样本集DU的损失值之和。
7.如权利要求6所述的命名实体识别方法,其特征在于,所述预训练的语言模型为mBERT模型。
8.一种命名实体识别装置,其特征在于,包括:
教师模型获取模块,用于基于预设的教师模型损失函数,利用预设的命名实体标注数据集对预训练的语言模型进行判别辅助任务训练,获得教师模型;
伪样本过滤模块,用于利用所述教师模型对预设的命名实体无监督样本集执行判别辅助任务,以过滤所述命名实体无监督样本中存在错误预测标签的伪样本,获得第一样本集;
伪样本移除模块,用于基于所述教师模型,移除所述第一样本集中具有非实体标签的伪样本,获得第二样本集;
置信度计算模块,用于利用所述教师模型生成所述第二样本集中每个伪样本所对应的伪标签,并基于每个伪样本所对应的伪标签,计算所述第二样本集中每个伪样本的置信度;
学生模型获取模块,用于选取所述第二样本集中置信度大于预设阈值的若干置信伪样本,并基于预设的学生模型损失函数,利用所述命名实体标注数据集和所述若干置信伪样本重新对预训练的语言模型进行训练,获得学生模型;
命名实体识别模块,用于利用所述学生模型对输入的文本数据进行命名实体识别。
9.一种命名实体识别设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的命名实体识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任一项所述的命名实体识别方法。
CN202211299349.0A 2022-10-20 2022-10-20 一种命名实体识别方法、装置、设备及存储介质 Pending CN115713082A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211299349.0A CN115713082A (zh) 2022-10-20 2022-10-20 一种命名实体识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211299349.0A CN115713082A (zh) 2022-10-20 2022-10-20 一种命名实体识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115713082A true CN115713082A (zh) 2023-02-24

Family

ID=85231331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211299349.0A Pending CN115713082A (zh) 2022-10-20 2022-10-20 一种命名实体识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115713082A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313732A (zh) * 2023-11-29 2023-12-29 南京邮电大学 一种医疗命名实体识别方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313732A (zh) * 2023-11-29 2023-12-29 南京邮电大学 一种医疗命名实体识别方法、装置及存储介质
CN117313732B (zh) * 2023-11-29 2024-03-26 南京邮电大学 一种医疗命名实体识别方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN111767405B (zh) 文本分类模型的训练方法、装置、设备及存储介质
US11354565B2 (en) Probability-based guider
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
CN110110062B (zh) 机器智能问答方法、装置与电子设备
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111738016A (zh) 多意图识别方法及相关设备
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN111930939A (zh) 一种文本检测的方法及装置
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN115080750B (zh) 基于融合提示序列的弱监督文本分类方法、系统和装置
CN110866113A (zh) 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN115713082A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
WO2023173554A1 (zh) 坐席违规话术识别方法、装置、电子设备、存储介质
CN114036956A (zh) 一种旅游知识语义分析方法及装置
CN114357964A (zh) 主观题评分方法、模型的训练方法、计算机设备及存储介质
CN114358579A (zh) 评阅方法、评阅装置、电子设备以及计算机可读存储介质
CN114298032A (zh) 文本标点检测方法、计算机设备及存储介质
CN113076741A (zh) 一种基于多语言文本数据分析方法
CN117436457B (zh) 反讽识别方法、装置、计算设备及存储介质
CN116991874B (zh) 一种文本纠错、基于大模型的sql语句生成方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination