CN116432656A - 面向大坝应急响应的小样本命名实体识别方法 - Google Patents
面向大坝应急响应的小样本命名实体识别方法 Download PDFInfo
- Publication number
- CN116432656A CN116432656A CN202310694310.7A CN202310694310A CN116432656A CN 116432656 A CN116432656 A CN 116432656A CN 202310694310 A CN202310694310 A CN 202310694310A CN 116432656 A CN116432656 A CN 116432656A
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- class
- emergency response
- prototype
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000004044 response Effects 0.000 title claims abstract description 67
- 230000008569 process Effects 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 22
- 238000010276 construction Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 44
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 101100533306 Mus musculus Setx gene Proteins 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向大坝应急响应的小样本命名实体识别方法,使用细粒度原型网络构建小样本命名实体识别模型,对实体与非实体采用不同的原型构造方式,不同的原型充分地表达相应实体与非实体类型的特征;同时在模型训练过程的损失函数中添加同类实体或者非实体之间的特征差异,以使得同类实体或者非实体的特征表示更加接近;在完成所有类的原型构造后,使用距离函数计算给定样本与所有类原型之间的距离,将距离转换为相似度概率以对样本进行分类。本发明摆脱了现有大坝安全管理领域深度学习算法对大量训练数据的依赖性,能够在样本较少的大坝数据集中完成命名实体识别任务,并具有较高的识别精度与较好的收敛性能。
Description
技术领域
本发明涉及一种面向大坝应急响应的小样本命名实体识别方法,属于信息抽取技术领域。
背景技术
随着互联网的不断发展,大量的信息以文本的形式出现在人们的面前,为了从网络中的文本数据中提取出具有重要价值的信息,信息抽取技术应运而生(InformationExtraction, IE),其主要是为了从半结构化或非结构化的文本数据中自动提取出特定的信息,从而节省大量的人力资源。信息抽取包含命名实体识别(Named EntityRecognition, NER)、关系抽取(Relation Extraction, RE)和事件抽取(EventExtraction)。命名实体识别作为信息抽取的一项关键任务,旨在从预定义类型的文本数据中识别出命名实体,例如人名、地名和组织名等。因此,命名实体识别通常也被解释为序列标注任务。作为一项核心的语言理解任务,广泛应用于新闻、医疗和社交等领域。
目前,在大坝安全应急工况风险联动领域,存在各个大坝历年专项检查报告和日常巡检报告等丰富的语料库,然而这些语料库中存在大量无结构化的句子,不利管理以及大坝安全知识库的构建,因此需要使用命名实体识别技术识别出大坝安全语料库的命名实体。在通用领域,较多大规模标注数据集可以高质量地解决命名实体识别任务。对于大坝安全应急工况风险联动领域,领域中标注的实体样本量较少,应采用小样本学习的方法加以研究,原型网络方法在小样本命名实体识别领域取得了不错的进展,然而,将原型网络方法直接应用于面向大坝应急响应的命名实体识别中,存在所构造的原型不能准确表达每类实体的问题。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种面向大坝应急响应的小样本命名实体识别方法,能够在样本较少的大坝安全应急工况风险联动领域中进行命名实体识别,使用具有标签的几类命名实体训练细粒度原型网络,使得模型达到较好的识别效果,最后使用训练好的模型为少量其他类别命名实体分配实体标签。本发明所提的小样本命名实体识别方法能够针对大坝应急响应实体的特点设计不同的原型表示方法,使得原型的表示更加精确,进而对大坝应急响应实体的识别效果较好。
技术方案:一种面向大坝应急响应的小样本命名实体识别方法,本发明提出细粒度原型网络对实体和非实体采用不同的原型构造方式,同时配合所设计的特征差异性,使得所构原型能够准确的表示实体与非实体的特征。所述方法包括如下步骤:
步骤1:大坝应急响应句子序列构成大坝应急响应数据集,将大坝应急响应数据集按照设定比例划分支持集与查询集,支持集与查询集中的样本为大坝应急响应句子序列,采用预训练语言模型将大坝应急响应句子序列的词编码成机器可识别的向量表示。
步骤2:采用细粒度原型网络构建小样本命名实体识别模型,针对支持集句子序列样本中的实体类与非实体类,使用不同的原型构造方式,得到具有语义特征的类原型;类原型包括多个实体类原型和一个非实体类原型。
步骤3:在小样本命名实体识别模型的损失函数中添加同类实体或者同类非实体的特征差异,对比计算同类实体或者同类非实体之间的特征差异,其中,实体与非实体的特征差异性采用不同的函数进行计算。
步骤4:对于给定查询集中大坝应急响应句子序列的一个词样本,计算词与类原型之间的距离,并将距离转换为词与类原型之间的相似度概率,选取与词相似度概率最大的原型作为词的类型,并根据预测的相似度概率误差计算损失值,进而通过步骤5进行小样本命名实体识别模型的优化。
步骤5:将步骤3所得特征差异和步骤4所得分类损失值作为小样本命名实体识别模型最终损失,进而通过反向传播不断的优化小样本命名实体识别模型的性能,以使得同类型大坝应急响应实体或者同类型非实体的空间表示能够相互靠近,不同类原型相互疏远,最终得到的小样本命名实体识别模型用于识别大坝应急响应句子序列中的实体。
所述步骤1中,采用在大规模语料库中训练好的BERT模型作为预训练语言模型,将大坝应急响应句子序列的词编码成机器可识别的向量表示,BERT模型将输入的大坝应急响应句子序列的每一词编码为向量表示,编码过程考虑到大坝应急响应句子序列中字符上下文的语义关系,将编码过程其简化为:
k=[k 1 ,…,k n ] =f β ([x 1 ,…,x n ])
其中,x n 表示大坝应急响应句子序列中第n个词,f β 为所采用的BERT编码器,将大坝应急响应句子序列的第n个词转化为具有语义特征的向量表示k n 。
所述步骤2中,采用细粒度原型网络构造小样本命名实体识别模型,根据实体类与非实体类的特点设计不同的原型构造方式。对于给定的支持集和查询集中的大坝应急响应句子序列,其包含不同类型的实体与非实体,为方便后续小样本命名实体识别模型的类原型构造,首先提取支持集样本中的同类实体,支持集中第i个类别的实体集合S i 表示为:
S i ={(x j ,y j )∈S|y j =R i }
R i 表示为大坝应急响应数据集R中第i个类别,(x j ,y j )属于支持集S中的一个实体与标签,得到第i个类别的实体集合S i ;
同样再提取支持集样本向量表示中的非实体集合:
S o ={(x j ,y j )∈S|y o =R o }
式中,R o 表示大坝应急响应数据集R中的非实体类。
对于给定查询集中大坝应急响应句子序列的一个词样本,通过计算词的向量表示与支持集中所有非实体之间的距离,从而得出非实体类原型:
式中,x j 表示给定的查询集句子序列样本的一个词,属于支持集中非实体类S o 的一个非实体,/>是距离函数,用于计算查询集样本中词和非实体之间的空间距离,最终选取与查询集词样本距离最小的一个非实体,将选取的非实体向量表示作为非实体类原型。对于实体类原型的构造,将支持集中同类实体向量表示的平均值作为每类的原型:,式中,|S i |表示为支持集中第i类实体的个数,x k 是第i类支持集实体S i 中的一个实体,T i 表示第i类支持集实体S i 的平均向量表示,将实体类原型与非实体类原型进行融合,得到最终的类原型:
T Y ={T i ,T o }。
所述步骤3中,针对支持集样本设计特征差异性函数以衡量同类实体之间或者同类非实体之间的特征差异,使得同类实体或者同类非实体在空间表示中相互靠近,进而构造的实体或者非实体类原型能够准确表达对应类别的特征。
对于实体的类型,实体特征差异性函数设计为支持集同类实体之间的平均距离:
式中,N表示大坝应急响应数据集中实体类型的数目,K表示每个类型中选取的实体个数,和/>表示支持集中第n个类型的两个实体向量,d l 表示先计算出两个实体向量的空间距离,然后通过函数sum对所有维度进行求和,得到一维的标量用于表示特征差异性,参数λ 1的值取为:
λ 1=(N×K×(K-1)/2)×em
式中,em表示词嵌入(即词向量)的维度大小,将其乘于前面的系数(N×K×(K-1)/2),该系数(N×K×(K-1)/2)表示相同类型实体两两比较的总次数,最终得到的实体特征差异的含义为:支持集同类实体间词嵌入的单个维度的平均距离。
对于非实体类型的特征差异计算方式如下:
式中,x o 是非实体集合S o 中的一个非实体,|S o |表示为支持集中非实体的个数,将所有非实体的平均空间向量作为非实体类的中心表示O,同样采用距离函数d l 求出每个非实体与该中心表示O的空间距离,将空间距离作为非实体的特征差异。参数λ 2 的值取为:
λ2= N×K×em 。
式中,N表示大坝应急响应数据集中实体类型的数目,K表示每个类型中选取的实体个数,em表示词嵌入的维度大小。
步骤4中将给定支持集中大坝应急响应句子序列的一个词样本与步骤2得到的类原型进行空间距离的计算,根据距离为词样本分配类别。步骤2中所得的T Y 代表支持集的类原型,通过dy(xk)计算该样本中词x k 和y类别原型T y 在向量空间中的相似度距离,最终得到与x k 距离最小的原型,使用该原型的类别标注查询集实体;
dy(xk)=d(fθ(x k ),T y )
式中,Y表示所有实体类型和一个非实体类型。为得到小样本命名实体识别模型的损失,通过反向传播更新模型参数,还需将查询集样本的词x k 与类原型之间的距离转化为概率输出:
式中, dc(xk)表示词x k 与c类原型之间的空间距离,最终得到与查询集样本中词x k 相似概率最大的原型,将该原型的类别分配给词x k ,同时使用交叉熵损失函数计算出分类过程的损失:
步骤5针对步骤4中所得的损失与步骤3中的特征差异,综合得到小样本命名实体识别模型的
最终的目标损失函数:
L(θ 4 )=L(θ 1 )+L(θ 2 )+L(θ 3 )
式中,L(θ 2 )和L(θ 3 )是步骤3中的出的实体类型的特征差异性和非实体类型的特征差异性,L(θ1)为步骤4中的分类损失,进行相加得到模型的最终损失L(θ 4 ),进而通过反向传播更新小样本命名实体识别模型的参数以使得同类型实体或者同类型非实体的空间表示能够相互靠近,不同类型实体表示相互疏远,最终细粒度原型网络所构造的类原型能够准确表示样本中词的语义特征。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的面向大坝应急响应的小样本命名实体识别方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的面向大坝应急响应的小样本命名实体识别方法的计算机程序。
有益效果:与现有技术相比,本发明提供的面向大坝应急响应的小样本命名实体识别方法,具有如下优点:
(1)采用细粒度原型网络,对实体与非实体使用不同的方法构造原型,解决了因非实体之间不具有较强的语义关系所导致原型网络构造原型不准确的问题,提升小样本命名实体识别模型对非实体类型的识别效果,降低将实体错误分类为非实体的概率。
(2)融入特征差异性,使同类型实体或者同类非实体的空间表示能够相互靠近,因此,构建的原型能够更准确地表示实体或者非实体的语义特征,解决了因同类实体或者非实体表示相差较大所导致实体或者非实体原型不准确的问题。
(3)所采用的细粒度原型网络与特征差异性相辅相成,使得总体的识别效果得到了显著的提升,在样本数量不足的情况下仍能够进行有效的标注。
(4) 本发明解决了部分原型仍然难以表示样本特征,进而导致分类误差的问题,摆脱了现有大坝安全管理领域深度学习算法对大量训练数据的依赖性,能够在样本较少的大坝数据集中完成命名实体识别任务,并具有较高的识别精度与较好的收敛性能。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实例实施中细粒度原型网络的结构示意图;
图3为本发明实例实施中特征差异性原理图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,面向大坝应急响应的小样本命名实体识别方法,包括如下步骤:
步骤1:大坝应急响应句子序列构成大坝应急响应数据集,将大坝应急响应数据集按照设定比例划分支持集与查询集。对于大坝应急响应句子序列,句子序列中的每个词都存在对应的类型,例如人名、地名和机构名等,除了预定义的实体类型外,其余词属于非实体类型。例如,对于支持集句子序列“一号机组进水口右侧混泥土接缝位置发现一处渗流,位于一米范围”,查询集句子序列“迎水坡表面抗冲耐磨层剥落,形成面积约一平方米的坑状”,其中词“混泥土接缝处”、“一号机组进水口”和“迎水坡”属于位置实体,词“渗流”与“剥落”属于险情类实体,其余的词都是非实体,属于非实体类。
基于细粒度原型网络构建的模型能够学习支持集句子中词的语义特征,构造实体类原型与非实体类原型,从而对查询集的词进行分类,并根据分类结果与真实结果的差异不断地优化模型。也就是在见过支持集中少数句子后,对查询集的句子进行标注,模型学习到支持集中非实体“一米”和查询集中词“一平方米”语义相似,将支持集样本中词的类型分配给与之相似的查询集样本中的词,于是将“一平方米”标注为非实体。为了将句子转换成机器可识别的向量表示,使用预训练语言模型对输入的句子序列进行编码,编码计算公式为:
k=[k 1 ,…,k n ] =f β ([x 1 ,…,x n ])
其中,x n 表示大坝应急响应句子序列中第n个词,f β 为所采用的编码器,将大坝应急响应句子序列的第n个词转化为具有语义特征的向量表示k n 。例如,将词“迎水坡”编码为[0.22551674,0.2334234,-0.0965183,...,0.23391467,0.12448315,-0.44088104]的一维向量形式,不同的词其向量表示都不相同,相似词的向量表示更加接近,在实施过程中,采用BERT编码器进行编码,其向量维度大小选取768。
步骤2:采用细粒度原型网络构造小样本命名实体识别模型,根据实体类与非实体类的特点设计不同的原型构造方式。相较先前的原型网络对于所有的实体或者非实体都采用平均向量表示的方式,具有捕捉非实体语义特征的特点。细粒度原型网络的结构如图2所示,主要包括非实体原型的构造、实体原型的构造以及查询集词样本分类三个部分。
对于给定的支持集句子序列,由于句子间所具有的实体类型与个数都大不相同,且大量的非实体存在于每个句子中,为方便后续类原型的构造,首先提取出支持集样本中的同类实体,具体公式为:S i ={(x j ,y j )∈S|y j =R i },R i 表示为大坝应急响应数据集R中第i类实体,(x j ,y j )属于支持集S中的一个实体与标签,得到第i个类别的实体集合S i ;同样再提取支持集样本中的非实体集合:S o ={(x j ,y j )∈S|y o =R o },
式中,R o 表示大坝应急响应数据集R中的非实体类。
对于非实体类原型而言,支持集的非实体并不都对非实体的原型构造有益,例如,支持集中非实体“一米”与查询集中词“一平方米”实际上具有较强的语义关系,都表示类似范围的含义,数据集中并未对其进行划分,其在数据集中属于非实体类;而支持集中非实体“发现”与查询集中词“一平方米”并不具较强语义关系。因此,“一米”较“发现”对非实体的构造更加有益。对于给定的查询集句子序列中的一个词样本,计算该词样本与支持集中所有非实体之间的距离,选取与查询集词样本空间距离最小的一个非实体,将其向量表示作为非实体类原型。例如,给定查询集词样本“一平方米”和支持集中三个非实体“一米”、“发现”和“面积”,“一平方米”和非实体“一米”的距离较为接近,于是将“一平方米”作为非实体类原型。构造非实体类原型的计算公式如下:
式中,x j 表示给定的查询集的一个词,属于支持集中非实体类S o 的一个非实体,是距离函数,用于计算查询集词样本和非实体之间的空间距离,最终选取与查询集词样本中距离最小的一个非实体,将选取的非实体向量表示作为非实体类原型。对于实体类原型的构造,将支持集中同类实体向量表示的平均值作为每类的原型:
式中,|S i |表示为支持集中第i类实体的个数,x k 是第i类支持集实体S i 中的一个实体,由于原型是多个实体向量得平均值,因而最终得到的实体类原型也是维度为768的向量,将实体类原型与非实体类原型进行融合,得到最终的类原型的表示:
T Y ={T i ,T o }
对于类原型的构造,如果存在5种类型实体,那么其余的词为非实体类,所得的类原型表示T Y 应为6×768维度的向量。
步骤3:针对支持集样本设计特征差异性模块以衡量同类实体之间或者同类非实体之间的特征差异,其结构如图3所示,包括了同类实体的特征差异以及同类非实体特征差异。模型在训练的过程中不断缩小同类实体或者同类非实体的特征差异,使得同类实体或者同类非实体在空间表示中相互靠近,进而构造的实体或者同类非实体类原型能够准确表达该类特征。
例如,词“迎水坡”和词“混泥土接缝处”在模型刚训练时候的词向量表示分别为[0.7819813,-0.4192993,-1.0031092,...,0.3007508,0.5192444, -0.3144598]和[0.4571644,-0.8942058,-0.7758167,...,-0.3758897,0.5949071,-0.52546 87],在经过训练后,词向量表示分别变为[0.7918274,-0.4928472,-1.1928472,...,0.4928172,0.5192837,-0.391827]和[0.7182718,-0.4291827,-1.1281928,...,0.4918272,0.5291821,-0.3927981],这两个词处于同一实体类型,从而其向量表示相互靠近。由于同类实体与同类非实体具有较大区别,因此,为实体与非实体设置不同的函数以度量其特征差异性。对于实体的类型,实体特征差异性函数设计为支持集同类实体之间的平均距离,该值越小表明同类样本的语义特征相对较近,对于准确地构造原型更有益,计算公式如下:
式中,N表示大坝应急响应数据集中实体类型的数目,K表示每个类型中选取的实体个数,和/>表示支持集中第n个类型的两个实体向量,d l 表示计算两个实体表示的距离,并通过函数sum将所得结果的所有维度进行求和,因此,所得到的实体特征差异是个一维度的标量,该值越大表示同类实体的差别越大,通过模型的训练使其不断减少,从而同类实体的向量表示更加靠近。参数λ 1的值取为:
λ 1=(N×K×(K-1)/2)×em
式中,em表示词嵌入的维度大小,在本实例中其大小选取为768。将其乘于前面的系数(N×K×(K-1)/2),该系数大小为同类实体两两比较的总次数。N和K表示每次从支持集的N个类别中取各选取K个实体,由于是两两实体进行对比,因而 (N×K×(K-1)/2)为实体比较的总次数。综上所述,最终实体的特征差异表示为:支持集同类实体间词嵌入的单个维度的平均距离。
接着计算非实体之间的平均距离作为该非实体类的中心表示,然后将每个非实体与其中心表示的距离作为非实体特征差异,即如下式,即如下式:
参数λ2的值取为:
λ2= N×K×em
步骤4:将给定支持集样本中的词与步骤2得到的类原型进行距离的计算,以根据距离为样本中的词分配类别。步骤2中所得的T Y 代表支持集的类原型的集合,通过dy(xk)计算查询集样本中词x k 和y个原型T y 在向量空间中的相似度距离,得到与x k 距离最小的原型,使用该原型的类别标注查询集样本中的词:
d y (x k )=d(f θ (x k ),T y )
为得到小样本命名实体识别模型的损失,进而通过反向传播更新模型参数,还需将查询集样本的词x k 与类原型之间的距离转化为概率输出。例如:词“迎水坡”与词“一号机组进水口”的距离为2、与词“渗流”的距离为8,最终得到词“迎水坡”与词“一号机组进水口”相似的概率比其与词“渗流”的相似概率更大,并且其概率之和应为1,该过程使用到sofmax函数进行计算:
式中,dc(xk)表示词x k 与c类原型之间的空间距离,Y表示所有实体类型和一个非实体类型。最终得到与查询集中词x k 相似概率最大的原型,将该原型的类别分配给该词x k ,同时使用交叉熵损失函数计算出分类过程的损失:
式中,y i 为查询集词样本实际属于第i个类别的概率,表示预测该词为第i个类别的概率,log的底数为e,预测结果与真实结果越接近,损失值就越小。模型在训练的过程中将会不断减小分类损失,使得模型最终能够准确地预测出样本的真实标签。
步骤5:针对步骤4中所得的交叉熵损失与步骤3中的特征差异,综合得到模型的最终的目标函数:
L(θ 4 )=L(θ 1 )+L(θ 2 )+L(θ 3 )
得到模型的损失后,进而通过反向传播更新参数以使得同类型实体或者同类型非实体的空间表示能够相互靠近,不同类型实体表示相互疏远,这是不断缩小特征差异和损失的结果,最终细粒度原型网络所构造的原型能够准确表示样本的语义特征,进而得到较好的分类结果。
本发明在有研究价值的大坝安全预料库上利用有限的数据进行训练,使用所提出细粒度的原型网络的小样本命名实体识别方法,首先对句子序列进行编码并为实体与非实体构建细粒度原型,然后通过实体特征差异性模块以减少同类实体或者非实体之间的特征表示。本发明摆脱了现有大坝安全管理领域深度学习算法对大量训练数据的依赖性,能够在样本较少的大坝数据集中完成命名实体识别任务,并具有较高的识别精度与较好的收敛性能。
显然,本领域的技术人员应该明白,上述的本发明实施例的面向大坝应急响应的小样本命名实体识别方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
Claims (10)
1.一种面向大坝应急响应的小样本命名实体识别方法,其特征在于,包括如下步骤:
步骤1:大坝应急响应句子序列构成大坝应急响应数据集,将大坝应急响应数据集按照设定比例划分支持集与查询集,支持集与查询集中的样本为大坝应急响应句子序列,采用预训练语言模型将大坝应急响应句子序列的词编码成机器可识别的向量表示;
步骤2:采用细粒度原型网络构建小样本命名实体识别模型,针对支持集句子序列样本中的实体类与非实体类,使用不同的原型构造方式,得到具有语义特征的类原型;类原型包括多个实体类原型和一个非实体类原型;
步骤3:在小样本命名实体识别模型的损失函数中添加同类实体或者同类非实体的特征差异,对比计算同类实体或者同类非实体之间的特征差异,其中,实体与非实体的特征差异性采用不同的函数进行计算;
步骤4:对于给定查询集中大坝应急响应句子序列的一个词样本,计算词与类原型之间的距离,并将距离转换为词与类原型之间的相似度概率,选取与词相似度概率最大的原型作为词的类型,并根据预测的相似度概率误差计算损失值;
步骤5:将步骤3所得特征差异和步骤4所得分类损失值作为小样本命名实体识别模型最终损失,进而通过反向传播优化小样本命名实体识别模型的性能,最终得到的小样本命名实体识别模型用于识别大坝应急响应句子序列中的实体。
2. 根据权利要求1所述的面向大坝应急响应的小样本命名实体识别方法,其特征在于,所述步骤1中,采用在大规模语料库中训练好的BERT模型作为预训练语言模型,将大坝应急响应句子序列的词编码成机器可识别的向量表示,BERT模型将输入的大坝应急响应句子序列的每一词编码为向量表示,编码过程考虑到大坝应急响应句子序列中字符上下文的语义关系,将编码过程其简化为:
k=[k 1 ,…,k n ] =f β ([x 1 ,…, x n ])
其中,x n 表示大坝应急响应句子序列中第n个词,f β 为所采用的BERT编码器,将大坝应急响应句子序列的第n个词转化为具有语义特征的向量表示k n 。
3. 根据权利要求1所述的面向大坝应急响应的小样本命名实体识别方法,其特征在于,所述步骤2中,采用细粒度原型网络构造小样本命名实体识别模型,根据实体类与非实体类的特点设计不同的原型构造方式;首先提取支持集样本向量表示中的同类实体,支持集中第i个类别的实体集合S i 表示为:
S i ={(x j ,y j )∈S| y j =R i }
R i 表示为大坝应急响应数据集R中第i个类别,(x j ,y j )属于支持集S中的一个实体与标签,得到第i个类别的实体集合S i ;
再提取支持集样本向量表示中的非实体集合:
S o ={(x j ,y j )∈S| y o = R o }
式中,R o 表示大坝应急响应数据集R中的非实体类。
6.根据权利要求1所述的面向大坝应急响应的小样本命名实体识别方法,其特征在于,所述步骤3中,针对支持集样本设计特征差异性函数以衡量同类实体之间或者同类非实体之间的特征差异;
L(θ2)表示实体类型的特征差异性,式中,N表示大坝应急响应数据集中实体类型的数目,K表示每个类型中选取的实体个数,和/>表示支持集中第n个类型的两个实体向量,d l 表示先计算出两个实体向量的空间距离,然后通过函数sum对所有维度进行求和,得到一维的标量用于表示特征差异性,参数λ 1的值取为:
λ 1=(N×K×(K-1)/2)×em
式中,em表示词嵌入的维度大小,将其乘于前面的系数(N×K×(K-1)/2),该系数(N×K×(K-1)/2)表示相同类型实体两两比较的总次数,最终得到的实体特征差异的含义为:支持集同类实体间词嵌入的单个维度的平均距离;
对于非实体类型的特征差异计算方式如下:,/>,式中,x o 是非实体集合S o 中的一个非实体,|S o |表示为支持集中非实体的个数,将所有非实体的平均空间向量作为非实体类的中心表示O,同样采用距离函数d l 求出每个非实体与该中心表示O的空间距离,将空间距离作为非实体的特征差异;参数λ 2 的值取为:
λ2= N×K×em 。
7. 根据权利要求1所述的面向大坝应急响应的小样本命名实体识别方法,其特征在于,步骤4中将给定查询集句子序列中的一个词样本与类原型进行空间距离的计算,根据距离为样本中的词分配类别;通过dy(xk)计算查询集样本中词x k 和y类原型T y 在向量空间中的相似度距离,最终得到与x k 距离最小的原型,使用该原型的类别标注查询集实体;d y (x k )=d(f θ (x k ), T y ),,式中,Y表示所有实体类型和一个非实体类型;为得到小样本命名实体识别模型的损失,通过反向传播更新模型参数,还需将查询集样本的词x k 与类原型之间的距离转化为概率输出:/>,式中,d c (x k )表示词x k 与c类原型之间的空间距离,最终得到与查询集样本中词x k 相似概率最大的原型,将该原型的类别分配给词x k ,同时使用交叉熵损失函数计算出分类过程的损失:,式中,y i 为给定查询集中大坝应急响应句子序列的一个词样本实际属于第i个类别的概率/>表示预测该词为第i个类别的概率。
8. 根据权利要求1所述的面向大坝应急响应的小样本命名实体识别方法,其特征在于,步骤5针对步骤4中所得的损失值与步骤3中的特征差异,综合得到小样本命名实体识别模型的最终的目标损失函数:
L(θ 4 )= L(θ 1 )+ L(θ 2 )+L(θ 3 )
式中,L(θ 2 )和L(θ 3 )是步骤3中的出的实体类型的特征差异性和非实体类型的特征差异性, L(θ 1 )为分类损失,进行相加得到模型的最终损失L(θ 4 )。
9.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-8中任一项所述的面向大坝应急响应的小样本命名实体识别方法。
10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1-7中任一项所述的面向大坝应急响应的小样本命名实体识别方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310694310.7A CN116432656B (zh) | 2023-06-13 | 2023-06-13 | 面向大坝应急响应的小样本命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310694310.7A CN116432656B (zh) | 2023-06-13 | 2023-06-13 | 面向大坝应急响应的小样本命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116432656A true CN116432656A (zh) | 2023-07-14 |
CN116432656B CN116432656B (zh) | 2023-08-29 |
Family
ID=87084131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310694310.7A Active CN116432656B (zh) | 2023-06-13 | 2023-06-13 | 面向大坝应急响应的小样本命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432656B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541355A (zh) * | 2020-12-11 | 2021-03-23 | 华南理工大学 | 一种实体边界类别解耦的少样本命名实体识别方法与系统 |
CN113177411A (zh) * | 2021-03-31 | 2021-07-27 | 杭州费尔斯通科技有限公司 | 命名实体识别模型的训练方法和命名实体识别的方法 |
CN114676700A (zh) * | 2022-03-18 | 2022-06-28 | 中国人民解放军国防科技大学 | 基于混合多原型的小样本命名实体识别方法 |
CN116151256A (zh) * | 2023-01-04 | 2023-05-23 | 北京工业大学 | 一种基于多任务和提示学习的小样本命名实体识别方法 |
-
2023
- 2023-06-13 CN CN202310694310.7A patent/CN116432656B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541355A (zh) * | 2020-12-11 | 2021-03-23 | 华南理工大学 | 一种实体边界类别解耦的少样本命名实体识别方法与系统 |
CN113177411A (zh) * | 2021-03-31 | 2021-07-27 | 杭州费尔斯通科技有限公司 | 命名实体识别模型的训练方法和命名实体识别的方法 |
CN114676700A (zh) * | 2022-03-18 | 2022-06-28 | 中国人民解放军国防科技大学 | 基于混合多原型的小样本命名实体识别方法 |
CN116151256A (zh) * | 2023-01-04 | 2023-05-23 | 北京工业大学 | 一种基于多任务和提示学习的小样本命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116432656B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN110210037B (zh) | 面向循证医学领域的类别检测方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN114020768B (zh) | 中文自然语言的sql语句生成模型的构建方法及应用 | |
CN110334219A (zh) | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
CN110287323A (zh) | 一种面向目标的情感分类方法 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
CN117291265B (zh) | 一种基于文本大数据的知识图谱构建方法 | |
CN113723103A (zh) | 融合多源知识的中文医学命名实体和词性联合学习方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN114021584A (zh) | 基于图卷积网络和翻译模型的知识表示学习方法 | |
CN109189848A (zh) | 知识数据的抽取方法、系统、计算机设备和存储介质 | |
CN116049422A (zh) | 基于联合抽取模型的包虫病知识图谱构建方法及其应用 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN113761192A (zh) | 文本处理方法、文本处理装置及文本处理设备 | |
CN110888944B (zh) | 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法 | |
CN116432656B (zh) | 面向大坝应急响应的小样本命名实体识别方法 | |
CN116151260A (zh) | 一种基于半监督学习的糖尿病命名实体识别模型构建方法 | |
CN111767388B (zh) | 一种候选池生成方法 | |
CN114417016A (zh) | 一种基于知识图谱的文本信息匹配方法、装置及相关设备 | |
CN115081445A (zh) | 一种基于多任务学习的短文本实体消歧方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |