CN116432655A - 基于语用知识学习的少样本命名实体识别方法和装置 - Google Patents
基于语用知识学习的少样本命名实体识别方法和装置 Download PDFInfo
- Publication number
- CN116432655A CN116432655A CN202310684971.1A CN202310684971A CN116432655A CN 116432655 A CN116432655 A CN 116432655A CN 202310684971 A CN202310684971 A CN 202310684971A CN 116432655 A CN116432655 A CN 116432655A
- Authority
- CN
- China
- Prior art keywords
- entity
- representing
- training
- named
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 89
- 239000013598 vector Substances 0.000 claims description 34
- 238000009826 distribution Methods 0.000 claims description 25
- 238000002372 labelling Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 19
- 230000008447 perception Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 239000010410 layer Substances 0.000 claims description 6
- 239000004973 liquid crystal related substance Substances 0.000 claims description 6
- 239000000463 material Substances 0.000 claims description 4
- 238000004321 preservation Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000009825 accumulation Methods 0.000 description 6
- 230000001186 cumulative effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
一种基于语用知识学习的少样本命名实体识别方法和装置,属于命名实体识别的技术领域,包括算法架构,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;所述实体的边界识别任务由实体抽取器执行;所述实体的类型识别任务由类型判别器执行;所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务。本发明适用所有的命名实体识别识别领域,并且能够非常容易的进行跨领域的应用,相较于以往的命名时识别技术具备更强的性能和鲁棒性。
Description
技术领域
本发明公开一种基于语用知识学习的少样本命名实体识别方法和装置,属于命名实体识别的技术领域。
背景技术
命名实体识别是指根据预先定义的实体类型,从文本中定位并分类实体的过程。早期的命名实体识别局限于几类专有名词的识别,如组织机构名等。随着命名实体识别技术的不断发展,实体的类型需求不断细化,例如组织机构名被更加细粒度的划分为学校、公司、公益组织等。在不同的领域,实体类型的覆盖面也不断扩大,例如,在日益蓬勃发展的生物信息学领域,需要识别蛋白质类型、DNA、RNA、细胞类型等专业实体。
命名实体识别的种类多,且不同领域中的实体类型的差异较大,导致一个领域的命名实体识别模型难以迁移到另一个领域。在大多数的应用场景下,模型通常只有少量的标记样本可用于训练和微调模型,导致大部分通用命名实体识别模型的泛化性能极低。
在新领域遭遇标记样本短缺是命名实体识别任务不可避免的问题,和其它自然语言处理任务相比,命名实体识别的标记数据更加细化,从而导致高质量的标记数据获取的代价也更大。缺少标记数据将严重影响监督学习命名实体识别方法的性能。由于同领域的不同类型的命名实体差异性较大,目前的少样本命名实体识别方法很难具备很好的跨领域应用性。常用于解决少样本命名实体识别问题的原型网络技术利用元学习方法训练让模型避免过度拟合已有数据,转而增强模型预测未知数据的能力。但是原型网络及其衍生模型对数据类别分布的建模过于简化,它们使用向量均值来模拟类别中心,并使用欧式距离来计算相似度。简化的建模方式限制了少样本模型区分类别的能力,在类别数量增加时,模型性能也会随之降低。
同时,现有的少样本命名实体识别技术方法通常不具备持续学习的能力,对于大规模实体相关的语料利用能力较低,造成模型的上限有限。这使得模型在跨领域的少样本应用中很难持续具备良好的鲁棒性。大规模语料中具备大量优质的实体语用知识,能够帮助模型学习实体的通用模式,从而增强其对新类型的识别能力。
综上,现有的少样本命名实体识别方法难以有效解决样本缺失带来的问题,如何从语用知识学习的角度出发,解决样本缺失造成的问题是目前少样本命名实体识别技术的关键。
发明内容
针对现有技术的不足,本发明公开了一种基于语用知识学习的少样本命名实体识别方法。
本发明还公开一种实现基于语用知识学习的少样本命名实体识别方法的装置。
本发明详细的技术方案如下:
一种基于语用知识学习的少样本命名实体识别方法,包括算法架构,如图1所示,其特征在于,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;
所述实体的边界识别任务由实体抽取器执行;
所述实体的类型识别任务由类型判别器执行;
所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务。
根据本发明优选的,所述实体抽取器包括:
对于解决实体边界识别任务的实体抽取器,可以使用基于跨度预测或者基于序列标注的网络结构。
根据本发明优选的,所述基于序列标注的网络结构包括序列标注形式的输出;在序列标注形式的输出中,实体抽取器给予文本序列中的每个词对应的标签:实体边界的标签包括“BMESO”五个类别表示,其中“B”代表某个实体第一个位置的词,“M”代表某个实体的中间位置的词,“E”代表实体的最后一个位置的词,“S”代表那些仅包含一个词的实体,“O”表示那些不是实体的词。
根据本发明优选的,为了使实体抽取器具备更强的自然语言理解能力同时在少样本领域具备更强的泛化性,所述实体抽取器使用大型预训练语言模型作为编码器;以BERT开源模型为例,设文本输入序列为,所述实体抽取器使用所述大型预训练语言BERT模型最后一层的隐含向量输出/>作为输入序列的语义编码表示:
根据本发明优选的,所述实体抽取器使用单层的线性网络作为实体抽取器的输出层,将隐含向量映射为标签向量/>,其中/>表示表示输入序列的长度,表示隐含向量的维度,/>表示实体边界的标签类别数量,优选的,如果使用上文提到的“BMESO”标注,则/>为5。
根据本发明优选的,所述实体抽取器的训练方法,包括:
为了使实体抽取器具备强大的抽取潜在实体的能力,并能够在新领域具备足够的鲁棒性和泛化性,训练流程如图2所示;
该训练方法使用的所有数据均去除和实体类型相关的标签;
所述实体抽取器的训练方法包含粗粒度训练和细粒度训练;
在粗粒度训练阶段:选择语料库的语料作为训练数据;优选的,所述语料库为维基百科语料库,将其中的语料作为训练数据;
在细粒度训练阶段,使用目前公开可用的所有命名实体识别数据集作为训练数据。
根据本发明优选的,所述在粗粒度训练阶段,还包括基于统计的数据重标注算法,算法流程如下所示:
粗粒度训练阶段的数据如维基百科语料通常缺失了很多实体的边界标记,导致模型无法直接在这些数据上进行训练;
S2:由于原始实体集合中会存在一些低质量的实体。例如单词“the”在极少数的句子中被标记为锚文本,从而出现在重标注的实体候选集合中,这些词如果直接作为重标注的依据将会带来更大的数据噪声,基于如下规则去除维基百科中的不合理实体:对于集合中的实体/>:
其中,设置为较小的数;/>设置为较大的数;这样设置的原因在于长度非常长的短频词以锚文本形式出现时,有很大的概率是真实的实体,而长度较短的词如“the”如果其以锚文本出现的次数较少但又是维基百科中的长频词,则很大概率不是一个实体;
上述规则所推荐的阈值参数大小设置是经过对数据进行多轮分析,并选取多位评估者进行综合评估得到的经验设置;
实体通常以名词或者名词的衍生词性出现在句子中,也就说那些未被召回的实体的共同特征是以名词词性出现在上下文中。对于这些未被标注为实体但又是名词的词汇,考虑到其有成为实体的可能性,在计算损失时减少这些词汇的权重,从而降低潜在错误数据标签噪声带来的影响,/>的计算过程如下所示:
在公式(2)中,表示训练集中词的总数量;/>代表输入序列中第/>个词的权重:如果第/>个词是名词及其衍生词性,但对应的真实标记不是实体标记,则/>,否则/>;CE函数表示多分类交叉熵损失;/>表示真实标记的独热编码向量;/>表示实体抽取器的第/>个词的输出向量;名词感知损失/>降低了未被召回的实体带来的训练噪声,使得实体抽取器能具备更加优秀的潜在实体挖掘能力。
根据本发明优选的,在细粒度训练阶段,由于各个开源数据集实体标记类型的限制,它们涵盖的类别均参差不齐,如果直接使用这些语料进行训练,不仅会遗忘粗粒度阶段在大型语料上获得的通用实体感知能力,并且会使实体抽取器过度拟合人工数据,导致泛化性差;为了解决该问题,使实体抽取器具备持续学习的能力,采用实体感知损失用于细粒度阶段的持续训练:
在公式(3)中,表示训练集中词的总数量;/>表示人工标注数据中被标记为实体的词的集合;/>表示真实标记的独热编码向量;/>表示实体抽取器的第/>个词的输出向量;实体感知损失赋予模型在人工标记数据集上持续学习的能力,并且不会遗忘在海量粗粒度数据上学习到的知识。
根据本发明优选的,所述类型判别器,包括:基于多元高斯分布的类型判别网络,所述类型判别网络设新领域中每个实体类别都符合一个特征独立的多元高斯分布,对实体类别的分布进行建模而非对独立的词进行分布建模,利用多元高斯分布概率密度函数对数据的先验分布进行建模;为了简化计算过程,设数据高维空间中各个维度特征独立,则多元高斯分布的协方差Σ为对角矩阵,即除了斜对角线外,其余位置均为零;协方差矩阵Σ对角线上的值为各个维度对应的方差,固计算过程中可以将对角矩阵Σ压缩为向量/>;
类型判别器对数据的多元高斯分布建模过程如下:
首先使用预训练的大型语言模型对输入序列进行编码,得到输入序列的判别器编码表示/> 表示表示输入序列的长度,/>表示隐含向量的维度;对于待识别的实体类型集合/>,分别计算第/>种类型/>对应的多元高斯分布均值/>和方差/>:
在公式(4)、(5)中,表示类别标签为/>的所有词的集合;/>表示集合/>的大小;/>表示词/>的编码表示;/>表示实体类型集合;/>表示向量的维度下标;表示向量/>的第/>个维度的值;方差/>的向量长度为/>;/>表示向量/>第/>个维度的值。
所述类型判别器在源领域数据上进行元学习预训练,源领域数据使用随机采样的算法生成不同的小批次任务,每个所述小批次任务包含N类实体类型和对应的K个实体标记实例。
一种实现基于语用知识学习的少样本命名实体识别方法的装置,其特征在于,所述装置上存储有可执行的计算机程序,该计算机程序被执行时对应完成:基于语用知识学习的少样本命名实体识别方法。
所述装置的识别步骤,具体包括:
步骤1:使用维基百科语料和任意的开源命名实体识别数据对实体抽取器进行粗粒度到细粒度的预训练;该部分内容按照算法架构对应公式(3)及以前的技术内容进行识别的;
步骤2:对任意开源命名实体识别数据随机采样指定数量的少样本任务,对每个任务随机采样对应的少量数据,构建类型判别器的训练集并训练类型判别器;该部分内容是按照算法架构对应公式(3)以后的技术内容进行识别的;
步骤3:结合训练好的实体抽取器和类型判别器进行实体的联合抽取,使用实体抽取器抽取候选实体,使用类型判别器判断类型得分。
所述步骤3的具体方法包括:
对于目标领域的输入文本序列,首先使用所述实体抽取器抽取/>中所有的实体/>,组成潜在实体集合/>;然后将文本序列/>输入所述类型判别器,得到每个词元/>属于某个类别标签/>的得分/>;最后,对于潜在实体集合/>中的每个实体/>,实体/>的类别标签/>由实体中所有位置的词元对应的得分/>共同投票决定,投票的流程包括:
先投票再计算累积能够避免正确类型在部分位置置信度极低导致的错误。例如,如果正确类型在某个位置的置信度为0,而其它类型在所有位置的置信度都不接近0,则最后的正确类型的累积会低于其它类型的累积,导致预测出错。而投票机制则会缓解这种现象,即使一两个位置预测出错,只要大部分位置预测正确,就能保证最终预测的准确性,降低了单一位置的极端影响。
本发明的技术优势包括:
本发明提出的基于语用知识学习的少样本命名实体识别方法和装置适用所有的命名实体识别识别领域,并且能够非常容易的进行跨领域的应用,相较于以往的命名时识别技术具备更强的性能和鲁棒性。
对于实体边界识别过程,由于剥离了类型信息,实体抽取器在少样本环境下的约束也变得更小。模型在源领域学习到的类型无关的实体语用知识能够最大限度的应用于目标领域,例如在各类上下文中实体以名词词性蕴含的语法信息能够非常容易的迁移到目标领域。
对于实体类型识别过程,使用特征独立的多元高斯概率密度函数对实体类型的分布进行直接建模。和传统的少样本建模方式相比,大大简化了模型训练和优化的复杂度。
本发明提出的用于实体边界识别的训练方法和用于类型识别的训练方法能够使得模型具备强大的持续学习能力,模型能够在不断的版本迭代过程中持续的增强性能,这是以往的方法无法实现的。
本发明提出的基于统计的实体重标注算法有效的召回了粗粒度数据中大量缺失的实体,能够使得很多原本无法使用的训练数据成为优质的训练语料,有效提升模型的鲁棒性。
附图说明
图1是本发明所述中基于语用知识学习的少样本命名实体识别的算法架构示意图;
图2是本发明所述实体抽取器的训练方法中粗粒度和细粒度训练方法的流程图。
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
实施例1、
一种基于语用知识学习的少样本命名实体识别方法,包括算法架构,如图1所示,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;
所述实体的边界识别任务由实体抽取器执行;
所述实体的类型识别任务由类型判别器执行;
所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务。
根据本发明优选的,所述实体抽取器包括:
对于解决实体边界识别任务的实体抽取器,可以使用基于跨度预测或者基于序列标注的网络结构。
所述基于序列标注的网络结构包括序列标注形式的输出;在序列标注形式的输出中,实体抽取器给予文本序列中的每个词对应的标签:实体边界的标签包括“BMESO”五个类别表示,其中“B”代表某个实体第一个位置的词,“M”代表某个实体的中间位置的词,“E”代表实体的最后一个位置的词,“S”代表那些仅包含一个词的实体,“O”表示那些不是实体的词。
为了使实体抽取器具备更强的自然语言理解能力同时在少样本领域具备更强的泛化性,所述实体抽取器使用大型预训练语言模型作为编码器;以BERT开源模型为例,设文本输入序列为,所述实体抽取器使用所述大型预训练语言BERT模型最后一层的隐含向量输出/>作为输入序列的语义编码表示:
所述实体抽取器使用单层的线性网络作为实体抽取器的输出层,将隐含向量映射为标签向量/>,其中/>表示表示输入序列的长度,/>表示隐含向量的维度,/>表示实体边界的标签类别数量,优选的,如果使用上文提到的“BMESO”标注,则为5。
所述实体抽取器的训练方法,包括:
为了使实体抽取器具备强大的抽取潜在实体的能力,并能够在新领域具备足够的鲁棒性和泛化性,训练流程如图2所示;
该训练方法使用的所有数据均去除和实体类型相关的标签;
所述实体抽取器的训练方法包含粗粒度训练和细粒度训练;
在粗粒度训练阶段:选择语料库的语料作为训练数据;优选的,所述语料库为维基百科语料库,将其中的语料作为训练数据;
在细粒度训练阶段,使用目前公开可用的所有命名实体识别数据集作为训练数据。
实施例2、
根据实施例1所述的一种基于语用知识学习的少样本命名实体识别方法,所述在粗粒度训练阶段,还包括基于统计的数据重标注算法,算法流程如下所示:
粗粒度训练阶段的数据如维基百科语料通常缺失了很多实体的边界标记,导致模型无法直接在这些数据上进行训练;
S2:由于原始实体集合中会存在一些低质量的实体。例如单词“the”在极少数的句子中被标记为锚文本,从而出现在重标注的实体候选集合中,这些词如果直接作为重标注的依据将会带来更大的数据噪声,基于如下规则去除维基百科中的不合理实体:对于集合中的实体/>:
其中,设置为较小的数;/>设置为较大的数;这样设置的原因在于长度非常长的短频词以锚文本形式出现时,有很大的概率是真实的实体,而长度较短的词如“the”如果其以锚文本出现的次数较少但又是维基百科中的长频词,则很大概率不是一个实体;
上述规则所推荐的阈值参数大小设置是经过对数据进行多轮分析,并选取多位评估者进行综合评估得到的经验设置;
实体通常以名词或者名词的衍生词性出现在句子中,也就说那些未被召回的实体的共同特征是以名词词性出现在上下文中。对于这些未被标注为实体但又是名词的词汇,考虑到其有成为实体的可能性,在计算损失时减少这些词汇的权重,从而降低潜在错误数据标签噪声带来的影响,/>的计算过程如下所示:
在公式(2)中,表示训练集中词的总数量;/>代表输入序列中第/>个词的权重:如果第/>个词是名词及其衍生词性,但对应的真实标记不是实体标记,则/>,否则/>;CE函数表示多分类交叉熵损失;/>表示真实标记的独热编码向量;/>表示实体抽取器的第/>个词的输出向量;名词感知损失/>降低了未被召回的实体带来的训练噪声,使得实体抽取器能具备更加优秀的潜在实体挖掘能力。
在细粒度训练阶段,由于各个开源数据集实体标记类型的限制,它们涵盖的类别均参差不齐,如果直接使用这些语料进行训练,不仅会遗忘粗粒度阶段在大型语料上获得的通用实体感知能力,并且会使实体抽取器过度拟合人工数据,导致泛化性差;为了解决该问题,使实体抽取器具备持续学习的能力,采用实体感知损失用于细粒度阶段的持续训练:
在公式(3)中,表示训练集中词的总数量;/>表示人工标注数据中被标记为实体的词的集合;/>表示真实标记的独热编码向量;/>表示实体抽取器的第/>个词的输出向量;实体感知损失赋予模型在人工标记数据集上持续学习的能力,并且不会遗忘在海量粗粒度数据上学习到的知识。
实施例3、
根据实施例1、2所述的一种基于语用知识学习的少样本命名实体识别方法,所述类型判别器,包括:基于多元高斯分布的类型判别网络,所述类型判别网络设新领域中每个实体类别都符合一个特征独立的多元高斯分布,对实体类别的分布进行建模而非对独立的词进行分布建模,利用多元高斯分布概率密度函数对数据的先验分布进行建模;为了简化计算过程,设数据高维空间中各个维度特征独立,则多元高斯分布的协方差Σ为对角矩阵,即除了斜对角线外,其余位置均为零;协方差矩阵Σ对角线上的值为各个维度对应的方差,固计算过程中可以将对角矩阵Σ压缩为向量/>;
类型判别器对数据的多元高斯分布建模过程如下:
首先使用预训练的大型语言模型对输入序列进行编码,得到输入序列的判别器编码表示/> 表示表示输入序列的长度,/>表示隐含向量的维度;对于待识别的实体类型集合/>,分别计算第/>种类型/>对应的多元高斯分布均值/>和方差/>:
在公式(4)、(5)中,表示类别标签为/>的所有词的集合;/>表示集合/>的大小;/>表示词/>的编码表示;/>表示实体类型集合;/>表示向量的维度下标;表示向量/>的第/>个维度的值;方差/>的向量长度为/>;/>表示向量/>第个维度的值。
所述类型判别器在源领域数据上进行元学习预训练,源领域数据使用随机采样的算法生成不同的小批次任务,每个所述小批次任务包含N类实体类型和对应的K个实体标记实例。
实施例4、
一种实现基于语用知识学习的少样本命名实体识别方法的装置,所述装置上存储有可执行的计算机程序,该计算机程序被执行时对应完成:基于语用知识学习的少样本命名实体识别方法。
该装置的具体工作步骤,包括:
步骤1:使用维基百科语料和任意的开源命名实体识别数据对实体抽取器进行粗粒度到细粒度的预训练;该部分内容按照算法架构对应公式(3)及以前的技术内容进行识别的;
步骤2:对任意开源命名实体识别数据随机采样指定数量的少样本任务,对每个任务随机采样对应的少量数据,构建类型判别器的训练集并训练类型判别器;该部分内容是按照算法架构对应公式(3)以后的技术内容进行识别的;
步骤3:结合训练好的实体抽取器和类型判别器进行实体的联合抽取,使用实体抽取器抽取候选实体,使用类型判别器判断类型得分。
所述步骤3的具体方法包括:
对于目标领域的输入文本序列,首先使用所述实体抽取器抽取/>中所有的实体/>,组成潜在实体集合/>;然后将文本序列/>输入所述类型判别器,得到每个词元/>属于某个类别标签/>的得分/>;最后,对于潜在实体集合/>中的每个实体/>,实体/>的类别标签/>由实体中所有位置的词元/>对应的得分/>共同投票决定,投票的流程包括:
先投票再计算累积能够避免正确类型在部分位置置信度极低导致的错误。例如,如果正确类型在某个位置的置信度为0,而其它类型在所有位置的置信度都不接近0,则最后的正确类型的累积会低于其它类型的累积,导致预测出错。而投票机制则会缓解这种现象,即使一两个位置预测出错,只要大部分位置预测正确,就能保证最终预测的准确性,降低了单一位置的极端影响。
利用上述实施例1、实施例2、实施例3、实施例4,对目前最大的少样本开源数据集FEW-NERD具体实施,以进一步详细说明:
首先需要进行本发明提出的实体抽取器的粗粒度训练:
获取维基百科语料,然后使用本发明所述的数据重标注算法对维基百科语料进行重新标注,过程为:遍历整个维基百科语料库,获得重标注所需的原始实体候选集合,并使用哈希表/>保存实体/>作为锚文本出现的频数;同时统计每个实体在所有维基百科语料中出现的总频数记为/>;对于集合/>中的实体/>:如果实体的长度小于设定的参数3并且/>大于设定的参数/>,/>将会被加入集合/>;利用集合/>得到用于重标注的候选集合/>;对于维基百科中的每个句子,使用候选集合/>中的实体进行重新标注;如果/>完全匹配句子中的短语,则视为一个新标注。
接着进行类型判别器的元学习预训练。由于FEW-NERD数据集已经随机采样生成了很多不同的小批次任务,每个所述小批次任务包含N类实体类型和对应的K个实体标记实例。所以可以直接使用对应的训练集进行元学习训练。
实体抽取器和类型判别器都训练完成后,开始进行联合抽取过程:
对于FEW-NERD的测试文本,首先使用使用所述实体抽取器抽取/>中所有的实体/>,组成实体集合/>。然后使用类型判别器,计算每个类别标签对于的均值/>和方差/>用于后续的得分计算。然后将文本序列/>输入所述类型判别器,得到每个词元/>属于某个类别标签/>的得分/>;最后,对于潜在实体集合/>中的每个实体/>,实体/>的类别标签/>由实体中所有位置的词元/>对应的得分/>共同投票决定,投票的流程包括:
通过上述的实施过程能够对FEW-NERD中所有的文本进行实体识别。
综上,将本发明所述识别方法与目前最优秀的少样本命名实体识别方法DecomposedMetaNER在FEW-NERD INTRA数据集的对比结果如表1所示:
表1FEW-NERD INTRA数据集实验结果
本发明的性能在该数据集上明显超越了目前最优秀的方法。
Claims (8)
1.一种基于语用知识学习的少样本命名实体识别方法,其特征在于,包括算法架构,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;
所述实体的边界识别任务由实体抽取器执行;
所述实体的类型识别任务由类型判别器执行;
所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务;
所述实体抽取器包括:
基于跨度预测或者基于序列标注的网络结构。
2.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述基于序列标注的网络结构包括序列标注形式的输出;在序列标注形式的输出中,实体抽取器给予文本序列中的每个词对应的标签。
5.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述实体抽取器的训练方法,包括:
使用的所有数据均去除和实体类型相关的标签;
所述实体抽取器的训练方法包含粗粒度训练和细粒度训练;
在粗粒度训练阶段:选择语料库的语料作为训练数据;
在细粒度训练阶段,使用目前公开可用的所有命名实体识别数据集作为训练数据;
所述在粗粒度训练阶段,还包括基于统计的数据重标注算法,算法流程如下所示:
7.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述类型判别器,包括:基于多元高斯分布的类型判别网络,利用多元高斯分布概率密度函数对数据的先验分布进行建模;设数据高维空间中各个维度特征独立,则多元高斯分布的协方差Σ为对角矩阵,即除了斜对角线外,其余位置均为零;协方差矩阵Σ对角线上的值为各个维度对应的方差,将对角矩阵Σ压缩为向量/>;
类型判别器对数据的多元高斯分布建模过程如下:
首先使用预训练的大型语言模型对输入序列进行编码,得到输入序列的判别器编码表示/>,/>表示表示输入序列的长度,/>表示隐含向量的维度;对于待识别的实体类型集合/>,分别计算第/>种类型/>对应的多元高斯分布均值/>和方差/>:
在公式(4)、(5)中,表示类别标签为/>的所有词的集合;/>表示集合/>的大小;/>表示词/>的编码表示;/>表示实体类型集合;/>表示向量的维度下标;/>表示向量/>的第/>个维度的值;方差/>的向量长度为/>;/>表示向量/>第/>个维度的值;
所述类型判别器在源领域数据上进行元学习预训练,源领域数据使用随机采样的算法生成不同的小批次任务,每个所述小批次任务包含N类实体类型和对应的K个实体标记实例。
8.一种实现如权利要求1-7任意一项所述基于语用知识学习的少样本命名实体识别方法的装置,其特征在于,所述装置上存储有可执行的计算机程序,该计算机程序被执行时对应完成:基于语用知识学习的少样本命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310684971.1A CN116432655B (zh) | 2023-06-12 | 2023-06-12 | 基于语用知识学习的少样本命名实体识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310684971.1A CN116432655B (zh) | 2023-06-12 | 2023-06-12 | 基于语用知识学习的少样本命名实体识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116432655A true CN116432655A (zh) | 2023-07-14 |
CN116432655B CN116432655B (zh) | 2023-12-08 |
Family
ID=87080018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310684971.1A Active CN116432655B (zh) | 2023-06-12 | 2023-06-12 | 基于语用知识学习的少样本命名实体识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432655B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579345A (zh) * | 2023-07-14 | 2023-08-11 | 亚信科技(中国)有限公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN116644755A (zh) * | 2023-07-27 | 2023-08-25 | 中国科学技术大学 | 基于多任务学习的少样本命名实体识别方法、装置及介质 |
CN116757216A (zh) * | 2023-08-15 | 2023-09-15 | 之江实验室 | 基于聚类描述的小样本实体识别方法、装置和计算机设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
WO2021114745A1 (zh) * | 2019-12-13 | 2021-06-17 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN113673248A (zh) * | 2021-08-23 | 2021-11-19 | 中国人民解放军32801部队 | 试验鉴定小样本文本的命名实体识别方法 |
CN113723138A (zh) * | 2020-05-25 | 2021-11-30 | 华为技术有限公司 | 一种结构化信息的生成方法、信息生成设备以及存储介质 |
CN115718802A (zh) * | 2022-11-14 | 2023-02-28 | 长城汽车股份有限公司 | 一种故障诊断方法、系统、设备及存储介质 |
CN116186237A (zh) * | 2023-02-28 | 2023-05-30 | 北京石油化工学院 | 一种基于事件因果推断的实体关系的联合抽取方法 |
WO2023092961A1 (zh) * | 2022-04-27 | 2023-06-01 | 之江实验室 | 一种用于舆情文本分析的半监督方法和装置 |
-
2023
- 2023-06-12 CN CN202310684971.1A patent/CN116432655B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114745A1 (zh) * | 2019-12-13 | 2021-06-17 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN113723138A (zh) * | 2020-05-25 | 2021-11-30 | 华为技术有限公司 | 一种结构化信息的生成方法、信息生成设备以及存储介质 |
CN112699682A (zh) * | 2020-12-11 | 2021-04-23 | 山东大学 | 一种基于可组合弱认证器的命名实体识别方法和装置 |
CN113673248A (zh) * | 2021-08-23 | 2021-11-19 | 中国人民解放军32801部队 | 试验鉴定小样本文本的命名实体识别方法 |
WO2023092961A1 (zh) * | 2022-04-27 | 2023-06-01 | 之江实验室 | 一种用于舆情文本分析的半监督方法和装置 |
CN115718802A (zh) * | 2022-11-14 | 2023-02-28 | 长城汽车股份有限公司 | 一种故障诊断方法、系统、设备及存储介质 |
CN116186237A (zh) * | 2023-02-28 | 2023-05-30 | 北京石油化工学院 | 一种基于事件因果推断的实体关系的联合抽取方法 |
Non-Patent Citations (2)
Title |
---|
JIAQI WU: "A Light Transfer Model for Chinese Named Entity Recognition for Specialty Domain", 《COMPUTER SUPPORTED COOPERATIVE WORK AND SOCIAL COMPUTING》, pages 530 - 541 * |
李冬梅;张扬;李东远;林丹琼;: "实体关系抽取方法研究综述", 计算机研究与发展, no. 07 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116579345A (zh) * | 2023-07-14 | 2023-08-11 | 亚信科技(中国)有限公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN116579345B (zh) * | 2023-07-14 | 2023-10-24 | 亚信科技(中国)有限公司 | 命名实体识别模型的训练方法、命名实体识别方法及装置 |
CN116644755A (zh) * | 2023-07-27 | 2023-08-25 | 中国科学技术大学 | 基于多任务学习的少样本命名实体识别方法、装置及介质 |
CN116644755B (zh) * | 2023-07-27 | 2023-11-17 | 中国科学技术大学 | 基于多任务学习的少样本命名实体识别方法、装置及介质 |
CN116757216A (zh) * | 2023-08-15 | 2023-09-15 | 之江实验室 | 基于聚类描述的小样本实体识别方法、装置和计算机设备 |
CN116757216B (zh) * | 2023-08-15 | 2023-11-07 | 之江实验室 | 基于聚类描述的小样本实体识别方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116432655B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN116127953B (zh) | 一种基于对比学习的中文拼写纠错方法、装置和介质 | |
CN113282714B (zh) | 一种基于区分性词向量表示的事件检测方法 | |
CN112800239A (zh) | 意图识别模型训练方法、意图识别方法及装置 | |
CN114818668A (zh) | 一种语音转写文本的人名纠错方法、装置和计算机设备 | |
CN113190656A (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN111680684B (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN114912453A (zh) | 基于增强序列特征的中文法律文书命名实体识别方法 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN116341557A (zh) | 一种糖尿病医学文本命名实体识别方法 | |
CN115238693A (zh) | 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN117132923A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN115186670B (zh) | 一种基于主动学习的领域命名实体识别方法及系统 | |
CN116562295A (zh) | 一种面向桥梁领域文本的增强语义命名实体识别方法 | |
CN116362242A (zh) | 一种小样本槽值提取方法、装置、设备及存储介质 | |
CN115310449A (zh) | 一种基于小样本的命名实体识别方法、装置及相关介质 | |
CN115879460A (zh) | 面向文本内容的新标签实体识别方法、装置、设备及介质 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及系统 | |
CN114564942A (zh) | 一种用于监管领域的文本纠错方法、存储介质和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |