CN116432655A - 基于语用知识学习的少样本命名实体识别方法和装置 - Google Patents

基于语用知识学习的少样本命名实体识别方法和装置 Download PDF

Info

Publication number
CN116432655A
CN116432655A CN202310684971.1A CN202310684971A CN116432655A CN 116432655 A CN116432655 A CN 116432655A CN 202310684971 A CN202310684971 A CN 202310684971A CN 116432655 A CN116432655 A CN 116432655A
Authority
CN
China
Prior art keywords
entity
representing
training
named
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310684971.1A
Other languages
English (en)
Other versions
CN116432655B (zh
Inventor
孙宇清
吴佳琪
龚斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202310684971.1A priority Critical patent/CN116432655B/zh
Publication of CN116432655A publication Critical patent/CN116432655A/zh
Application granted granted Critical
Publication of CN116432655B publication Critical patent/CN116432655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

一种基于语用知识学习的少样本命名实体识别方法和装置,属于命名实体识别的技术领域,包括算法架构,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;所述实体的边界识别任务由实体抽取器执行;所述实体的类型识别任务由类型判别器执行;所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务。本发明适用所有的命名实体识别识别领域,并且能够非常容易的进行跨领域的应用,相较于以往的命名时识别技术具备更强的性能和鲁棒性。

Description

基于语用知识学习的少样本命名实体识别方法和装置
技术领域
本发明公开一种基于语用知识学习的少样本命名实体识别方法和装置,属于命名实体识别的技术领域。
背景技术
命名实体识别是指根据预先定义的实体类型,从文本中定位并分类实体的过程。早期的命名实体识别局限于几类专有名词的识别,如组织机构名等。随着命名实体识别技术的不断发展,实体的类型需求不断细化,例如组织机构名被更加细粒度的划分为学校、公司、公益组织等。在不同的领域,实体类型的覆盖面也不断扩大,例如,在日益蓬勃发展的生物信息学领域,需要识别蛋白质类型、DNA、RNA、细胞类型等专业实体。
命名实体识别的种类多,且不同领域中的实体类型的差异较大,导致一个领域的命名实体识别模型难以迁移到另一个领域。在大多数的应用场景下,模型通常只有少量的标记样本可用于训练和微调模型,导致大部分通用命名实体识别模型的泛化性能极低。
在新领域遭遇标记样本短缺是命名实体识别任务不可避免的问题,和其它自然语言处理任务相比,命名实体识别的标记数据更加细化,从而导致高质量的标记数据获取的代价也更大。缺少标记数据将严重影响监督学习命名实体识别方法的性能。由于同领域的不同类型的命名实体差异性较大,目前的少样本命名实体识别方法很难具备很好的跨领域应用性。常用于解决少样本命名实体识别问题的原型网络技术利用元学习方法训练让模型避免过度拟合已有数据,转而增强模型预测未知数据的能力。但是原型网络及其衍生模型对数据类别分布的建模过于简化,它们使用向量均值来模拟类别中心,并使用欧式距离来计算相似度。简化的建模方式限制了少样本模型区分类别的能力,在类别数量增加时,模型性能也会随之降低。
同时,现有的少样本命名实体识别技术方法通常不具备持续学习的能力,对于大规模实体相关的语料利用能力较低,造成模型的上限有限。这使得模型在跨领域的少样本应用中很难持续具备良好的鲁棒性。大规模语料中具备大量优质的实体语用知识,能够帮助模型学习实体的通用模式,从而增强其对新类型的识别能力。
综上,现有的少样本命名实体识别方法难以有效解决样本缺失带来的问题,如何从语用知识学习的角度出发,解决样本缺失造成的问题是目前少样本命名实体识别技术的关键。
发明内容
针对现有技术的不足,本发明公开了一种基于语用知识学习的少样本命名实体识别方法。
本发明还公开一种实现基于语用知识学习的少样本命名实体识别方法的装置。
本发明详细的技术方案如下:
一种基于语用知识学习的少样本命名实体识别方法,包括算法架构,如图1所示,其特征在于,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;
所述实体的边界识别任务由实体抽取器执行;
所述实体的类型识别任务由类型判别器执行;
所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务。
根据本发明优选的,所述实体抽取器包括:
对于解决实体边界识别任务的实体抽取器,可以使用基于跨度预测或者基于序列标注的网络结构。
根据本发明优选的,所述基于序列标注的网络结构包括序列标注形式的输出;在序列标注形式的输出中,实体抽取器给予文本序列中的每个词对应的标签:实体边界的标签包括“BMESO”五个类别表示,其中“B”代表某个实体第一个位置的词,“M”代表某个实体的中间位置的词,“E”代表实体的最后一个位置的词,“S”代表那些仅包含一个词的实体,“O”表示那些不是实体的词。
根据本发明优选的,为了使实体抽取器具备更强的自然语言理解能力同时在少样本领域具备更强的泛化性,所述实体抽取器使用大型预训练语言模型作为编码器;以BERT开源模型为例,设文本输入序列为
Figure SMS_1
,所述实体抽取器使用所述大型预训练语言BERT模型最后一层的隐含向量输出/>
Figure SMS_3
作为输入序列的语义编码表示:
Figure SMS_4
根据本发明优选的,所述实体抽取器使用单层的线性网络作为实体抽取器的输出层,将隐含向量
Figure SMS_5
映射为标签向量/>
Figure SMS_6
,其中/>
Figure SMS_7
表示表示输入序列的长度,
Figure SMS_8
表示隐含向量的维度,/>
Figure SMS_9
表示实体边界的标签类别数量,优选的,如果使用上文提到的“BMESO”标注,则/>
Figure SMS_10
为5。
根据本发明优选的,所述实体抽取器的训练方法,包括:
为了使实体抽取器具备强大的抽取潜在实体的能力,并能够在新领域具备足够的鲁棒性和泛化性,训练流程如图2所示;
该训练方法使用的所有数据均去除和实体类型相关的标签;
所述实体抽取器的训练方法包含粗粒度训练和细粒度训练;
在粗粒度训练阶段:选择语料库的语料作为训练数据;优选的,所述语料库为维基百科语料库,将其中的语料作为训练数据;
在细粒度训练阶段,使用目前公开可用的所有命名实体识别数据集作为训练数据。
根据本发明优选的,所述在粗粒度训练阶段,还包括基于统计的数据重标注算法,算法流程如下所示:
粗粒度训练阶段的数据如维基百科语料通常缺失了很多实体的边界标记,导致模型无法直接在这些数据上进行训练;
S1:遍历整个维基百科语料库,获得重标注所需的原始实体候选集合
Figure SMS_11
,并使用哈希表/>
Figure SMS_12
保存实体/>
Figure SMS_13
作为锚文本出现的频数;同时统计每个实体在所有维基百科语料中出现的总频数记为/>
Figure SMS_15
S2:由于原始实体集合中会存在一些低质量的实体。例如单词“the”在极少数的句子中被标记为锚文本,从而出现在重标注的实体候选集合中,这些词如果直接作为重标注的依据将会带来更大的数据噪声,基于如下规则去除维基百科中的不合理实体:对于集合
Figure SMS_16
中的实体/>
Figure SMS_17
如果实体的长度小于设定的参数
Figure SMS_18
并且/>
Figure SMS_19
大于设定的参数/>
Figure SMS_20
,/>
Figure SMS_21
将会被加入集合/>
Figure SMS_22
其中,
Figure SMS_23
设置为较小的数;/>
Figure SMS_24
设置为较大的数;这样设置的原因在于长度非常长的短频词以锚文本形式出现时,有很大的概率是真实的实体,而长度较短的词如“the”如果其以锚文本出现的次数较少但又是维基百科中的长频词,则很大概率不是一个实体;
得到用于重标注的候选集合
Figure SMS_25
上述规则所推荐的阈值参数大小设置是经过对数据进行多轮分析,并选取多位评估者进行综合评估得到的经验设置;
S3:对于维基百科中的每个句子,使用候选集合
Figure SMS_26
中的实体进行重新标注:
如果
Figure SMS_27
完全匹配句子中的短语,则视为一个新标注,标注过程中新标注的实体不能和原始实体有重合,否则按原始实体的标注为准;
使用基于统计的数据重标注算法进行重新标注后,实体缺失造成的影响大大减小,但仍无法保证召回所有的实体,因此,在所述粗粒度的训练阶段还包括名词感知损失
Figure SMS_28
替代传统的交叉熵损失:
实体通常以名词或者名词的衍生词性出现在句子中,也就说那些未被召回的实体的共同特征是以名词词性出现在上下文中。对于这些未被标注为实体但又是名词的词汇,考虑到其有成为实体的可能性,
Figure SMS_29
在计算损失时减少这些词汇的权重,从而降低潜在错误数据标签噪声带来的影响,/>
Figure SMS_30
的计算过程如下所示:
Figure SMS_31
在公式(2)中,
Figure SMS_34
表示训练集中词的总数量;/>
Figure SMS_35
代表输入序列中第/>
Figure SMS_38
个词的权重:如果第/>
Figure SMS_32
个词是名词及其衍生词性,但对应的真实标记不是实体标记,则/>
Figure SMS_36
,否则/>
Figure SMS_39
;CE函数表示多分类交叉熵损失;/>
Figure SMS_41
表示真实标记的独热编码向量;/>
Figure SMS_33
表示实体抽取器的第/>
Figure SMS_37
个词的输出向量;名词感知损失/>
Figure SMS_40
降低了未被召回的实体带来的训练噪声,使得实体抽取器能具备更加优秀的潜在实体挖掘能力。
根据本发明优选的,在细粒度训练阶段,由于各个开源数据集实体标记类型的限制,它们涵盖的类别均参差不齐,如果直接使用这些语料进行训练,不仅会遗忘粗粒度阶段在大型语料上获得的通用实体感知能力,并且会使实体抽取器过度拟合人工数据,导致泛化性差;为了解决该问题,使实体抽取器具备持续学习的能力,采用实体感知损失
Figure SMS_42
用于细粒度阶段的持续训练:
实体感知损失
Figure SMS_43
的核心思想在于让实体抽取器在细粒度训练阶段只关注被人工标记为实体的词,具体计算过程如公式(3)所示:
Figure SMS_44
在公式(3)中,
Figure SMS_45
表示训练集中词的总数量;/>
Figure SMS_46
表示人工标注数据中被标记为实体的词的集合;/>
Figure SMS_47
表示真实标记的独热编码向量;/>
Figure SMS_48
表示实体抽取器的第/>
Figure SMS_49
个词的输出向量;实体感知损失赋予模型在人工标记数据集上持续学习的能力,并且不会遗忘在海量粗粒度数据上学习到的知识。
根据本发明优选的,所述类型判别器,包括:基于多元高斯分布的类型判别网络,所述类型判别网络设新领域中每个实体类别都符合一个特征独立的多元高斯分布,对实体类别的分布进行建模而非对独立的词进行分布建模,利用多元高斯分布概率密度函数对数据的先验分布进行建模;为了简化计算过程,设数据高维空间中各个维度特征独立,则多元高斯分布的协方差Σ为对角矩阵,即除了斜对角线外,其余位置均为零;协方差矩阵Σ对角线上的值为各个维度对应的方差
Figure SMS_50
,固计算过程中可以将对角矩阵Σ压缩为向量/>
Figure SMS_51
类型判别器对数据的多元高斯分布建模过程如下:
首先使用预训练的大型语言模型对输入序列
Figure SMS_52
进行编码,得到输入序列的判别器编码表示/>
Figure SMS_55
Figure SMS_58
Figure SMS_54
表示表示输入序列的长度,/>
Figure SMS_56
表示隐含向量的维度;对于待识别的实体类型集合/>
Figure SMS_59
,分别计算第/>
Figure SMS_61
种类型/>
Figure SMS_53
对应的多元高斯分布均值/>
Figure SMS_57
和方差/>
Figure SMS_60
Figure SMS_62
Figure SMS_63
在公式(4)、(5)中,
Figure SMS_72
表示类别标签为/>
Figure SMS_66
的所有词的集合;/>
Figure SMS_76
表示集合/>
Figure SMS_68
的大小;/>
Figure SMS_77
表示词/>
Figure SMS_67
的编码表示;/>
Figure SMS_75
表示实体类型集合;/>
Figure SMS_70
表示向量的维度下标;
Figure SMS_78
表示向量/>
Figure SMS_65
的第/>
Figure SMS_73
个维度的值;方差/>
Figure SMS_69
的向量长度为/>
Figure SMS_79
;/>
Figure SMS_71
表示向量/>
Figure SMS_74
第/>
Figure SMS_64
个维度的值。
对于一个待预测的词
Figure SMS_80
,其在类别标签/>
Figure SMS_81
上的多元高斯概率密度建模如下:
Figure SMS_82
在公式(6)中,
Figure SMS_83
表示词/>
Figure SMS_84
的编码表示;
类型判别器的损失
Figure SMS_85
计算如下:
Figure SMS_86
在公式(6)、(7)中,
Figure SMS_89
表示实体类型集合;/>
Figure SMS_90
表示类别标签/>
Figure SMS_93
对应的得分;
Figure SMS_87
表示输入序列;/>
Figure SMS_92
表示类型标记序列;/>
Figure SMS_95
表示第/>
Figure SMS_97
种类别标签/>
Figure SMS_88
对应的得分;
Figure SMS_91
表示词/>
Figure SMS_94
在类别标签/>
Figure SMS_96
上的判别器得分;
所述类型判别器在源领域数据上进行元学习预训练,源领域数据使用随机采样的算法生成不同的小批次任务,每个所述小批次任务包含N类实体类型和对应的K个实体标记实例。
一种实现基于语用知识学习的少样本命名实体识别方法的装置,其特征在于,所述装置上存储有可执行的计算机程序,该计算机程序被执行时对应完成:基于语用知识学习的少样本命名实体识别方法。
所述装置的识别步骤,具体包括:
步骤1:使用维基百科语料和任意的开源命名实体识别数据对实体抽取器进行粗粒度到细粒度的预训练;该部分内容按照算法架构对应公式(3)及以前的技术内容进行识别的;
步骤2:对任意开源命名实体识别数据随机采样指定数量的少样本任务,对每个任务随机采样对应的少量数据,构建类型判别器的训练集并训练类型判别器;该部分内容是按照算法架构对应公式(3)以后的技术内容进行识别的;
步骤3:结合训练好的实体抽取器和类型判别器进行实体的联合抽取,使用实体抽取器抽取候选实体,使用类型判别器判断类型得分。
所述步骤3的具体方法包括:
对于目标领域的输入文本序列
Figure SMS_101
,首先使用所述实体抽取器抽取/>
Figure SMS_102
中所有的实体/>
Figure SMS_106
,组成潜在实体集合/>
Figure SMS_99
;然后将文本序列/>
Figure SMS_104
输入所述类型判别器,得到每个词元/>
Figure SMS_108
属于某个类别标签/>
Figure SMS_111
的得分/>
Figure SMS_98
;最后,对于潜在实体集合/>
Figure SMS_103
中的每个实体/>
Figure SMS_107
,实体/>
Figure SMS_110
的类别标签/>
Figure SMS_100
由实体中所有位置的词元
Figure SMS_105
对应的得分/>
Figure SMS_109
共同投票决定,投票的流程包括:
第一步,计算得到每个词元
Figure SMS_112
最置信的实体类别标签/>
Figure SMS_113
Figure SMS_114
在公式(8)中,
Figure SMS_115
表示实体类型的集合;/>
Figure SMS_116
表示类别标签;/>
Figure SMS_117
表示/>
Figure SMS_118
在类别标签/>
Figure SMS_119
上的判别器得分;
第二步,根据实体
Figure SMS_120
所有位置最置信的实体类别标签/>
Figure SMS_121
进行投票,得到票数最高的类型集合/>
Figure SMS_122
Figure SMS_123
在公式(9)中,
Figure SMS_124
表示实体/>
Figure SMS_125
上所有位置对应的最置信实体类别标签;/>
Figure SMS_126
函数选择出现次数最多的类别标签加入集合/>
Figure SMS_127
如果集合
Figure SMS_128
只包含一个类别标签,则预测结束;
如果集合
Figure SMS_129
包含大于一个类型标签,则计算集合/>
Figure SMS_130
中所有类型在实体/>
Figure SMS_131
上的类型判别器累积得分/>
Figure SMS_132
,类型标签/>
Figure SMS_133
对应的累积得分/>
Figure SMS_134
的计算过程如下所示:
Figure SMS_135
选择其中累积得分最高的类别标签
Figure SMS_136
作为实体/>
Figure SMS_137
的预测类别。
先投票再计算累积能够避免正确类型在部分位置置信度极低导致的错误。例如,如果正确类型在某个位置的置信度为0,而其它类型在所有位置的置信度都不接近0,则最后的正确类型的累积会低于其它类型的累积,导致预测出错。而投票机制则会缓解这种现象,即使一两个位置预测出错,只要大部分位置预测正确,就能保证最终预测的准确性,降低了单一位置的极端影响。
本发明的技术优势包括:
本发明提出的基于语用知识学习的少样本命名实体识别方法和装置适用所有的命名实体识别识别领域,并且能够非常容易的进行跨领域的应用,相较于以往的命名时识别技术具备更强的性能和鲁棒性。
对于实体边界识别过程,由于剥离了类型信息,实体抽取器在少样本环境下的约束也变得更小。模型在源领域学习到的类型无关的实体语用知识能够最大限度的应用于目标领域,例如在各类上下文中实体以名词词性蕴含的语法信息能够非常容易的迁移到目标领域。
对于实体类型识别过程,使用特征独立的多元高斯概率密度函数对实体类型的分布进行直接建模。和传统的少样本建模方式相比,大大简化了模型训练和优化的复杂度。
本发明提出的用于实体边界识别的训练方法和用于类型识别的训练方法能够使得模型具备强大的持续学习能力,模型能够在不断的版本迭代过程中持续的增强性能,这是以往的方法无法实现的。
本发明提出的基于统计的实体重标注算法有效的召回了粗粒度数据中大量缺失的实体,能够使得很多原本无法使用的训练数据成为优质的训练语料,有效提升模型的鲁棒性。
附图说明
图1是本发明所述中基于语用知识学习的少样本命名实体识别的算法架构示意图;
图2是本发明所述实体抽取器的训练方法中粗粒度和细粒度训练方法的流程图。
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
实施例1、
一种基于语用知识学习的少样本命名实体识别方法,包括算法架构,如图1所示,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;
所述实体的边界识别任务由实体抽取器执行;
所述实体的类型识别任务由类型判别器执行;
所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务。
根据本发明优选的,所述实体抽取器包括:
对于解决实体边界识别任务的实体抽取器,可以使用基于跨度预测或者基于序列标注的网络结构。
所述基于序列标注的网络结构包括序列标注形式的输出;在序列标注形式的输出中,实体抽取器给予文本序列中的每个词对应的标签:实体边界的标签包括“BMESO”五个类别表示,其中“B”代表某个实体第一个位置的词,“M”代表某个实体的中间位置的词,“E”代表实体的最后一个位置的词,“S”代表那些仅包含一个词的实体,“O”表示那些不是实体的词。
为了使实体抽取器具备更强的自然语言理解能力同时在少样本领域具备更强的泛化性,所述实体抽取器使用大型预训练语言模型作为编码器;以BERT开源模型为例,设文本输入序列为
Figure SMS_138
,所述实体抽取器使用所述大型预训练语言BERT模型最后一层的隐含向量输出/>
Figure SMS_140
作为输入序列的语义编码表示:
Figure SMS_141
所述实体抽取器使用单层的线性网络作为实体抽取器的输出层,将隐含向量
Figure SMS_142
映射为标签向量/>
Figure SMS_143
,其中/>
Figure SMS_144
表示表示输入序列的长度,/>
Figure SMS_145
表示隐含向量的维度,/>
Figure SMS_146
表示实体边界的标签类别数量,优选的,如果使用上文提到的“BMESO”标注,则
Figure SMS_147
为5。
所述实体抽取器的训练方法,包括:
为了使实体抽取器具备强大的抽取潜在实体的能力,并能够在新领域具备足够的鲁棒性和泛化性,训练流程如图2所示;
该训练方法使用的所有数据均去除和实体类型相关的标签;
所述实体抽取器的训练方法包含粗粒度训练和细粒度训练;
在粗粒度训练阶段:选择语料库的语料作为训练数据;优选的,所述语料库为维基百科语料库,将其中的语料作为训练数据;
在细粒度训练阶段,使用目前公开可用的所有命名实体识别数据集作为训练数据。
实施例2、
根据实施例1所述的一种基于语用知识学习的少样本命名实体识别方法,所述在粗粒度训练阶段,还包括基于统计的数据重标注算法,算法流程如下所示:
粗粒度训练阶段的数据如维基百科语料通常缺失了很多实体的边界标记,导致模型无法直接在这些数据上进行训练;
S1:遍历整个维基百科语料库,获得重标注所需的原始实体候选集合
Figure SMS_148
,并使用哈希表/>
Figure SMS_149
保存实体/>
Figure SMS_150
作为锚文本出现的频数;同时统计每个实体在所有维基百科语料中出现的总频数记为/>
Figure SMS_151
S2:由于原始实体集合中会存在一些低质量的实体。例如单词“the”在极少数的句子中被标记为锚文本,从而出现在重标注的实体候选集合中,这些词如果直接作为重标注的依据将会带来更大的数据噪声,基于如下规则去除维基百科中的不合理实体:对于集合
Figure SMS_152
中的实体/>
Figure SMS_153
如果实体的长度小于设定的参数
Figure SMS_154
并且/>
Figure SMS_155
大于设定的参数/>
Figure SMS_156
,/>
Figure SMS_157
将会被加入集合/>
Figure SMS_158
其中,
Figure SMS_159
设置为较小的数;/>
Figure SMS_160
设置为较大的数;这样设置的原因在于长度非常长的短频词以锚文本形式出现时,有很大的概率是真实的实体,而长度较短的词如“the”如果其以锚文本出现的次数较少但又是维基百科中的长频词,则很大概率不是一个实体;
得到用于重标注的候选集合
Figure SMS_161
上述规则所推荐的阈值参数大小设置是经过对数据进行多轮分析,并选取多位评估者进行综合评估得到的经验设置;
S3:对于维基百科中的每个句子,使用候选集合
Figure SMS_162
中的实体进行重新标注:
如果
Figure SMS_163
完全匹配句子中的短语,则视为一个新标注,标注过程中新标注的实体不能和原始实体有重合,否则按原始实体的标注为准;
使用基于统计的数据重标注算法进行重新标注后,实体缺失造成的影响大大减小,但仍无法保证召回所有的实体,因此,在所述粗粒度的训练阶段还包括名词感知损失
Figure SMS_164
替代传统的交叉熵损失:
实体通常以名词或者名词的衍生词性出现在句子中,也就说那些未被召回的实体的共同特征是以名词词性出现在上下文中。对于这些未被标注为实体但又是名词的词汇,考虑到其有成为实体的可能性,
Figure SMS_165
在计算损失时减少这些词汇的权重,从而降低潜在错误数据标签噪声带来的影响,/>
Figure SMS_166
的计算过程如下所示:
Figure SMS_167
在公式(2)中,
Figure SMS_169
表示训练集中词的总数量;/>
Figure SMS_171
代表输入序列中第/>
Figure SMS_174
个词的权重:如果第/>
Figure SMS_168
个词是名词及其衍生词性,但对应的真实标记不是实体标记,则/>
Figure SMS_173
,否则/>
Figure SMS_176
;CE函数表示多分类交叉熵损失;/>
Figure SMS_177
表示真实标记的独热编码向量;/>
Figure SMS_170
表示实体抽取器的第/>
Figure SMS_172
个词的输出向量;名词感知损失/>
Figure SMS_175
降低了未被召回的实体带来的训练噪声,使得实体抽取器能具备更加优秀的潜在实体挖掘能力。
在细粒度训练阶段,由于各个开源数据集实体标记类型的限制,它们涵盖的类别均参差不齐,如果直接使用这些语料进行训练,不仅会遗忘粗粒度阶段在大型语料上获得的通用实体感知能力,并且会使实体抽取器过度拟合人工数据,导致泛化性差;为了解决该问题,使实体抽取器具备持续学习的能力,采用实体感知损失
Figure SMS_178
用于细粒度阶段的持续训练:
实体感知损失
Figure SMS_179
的核心思想在于让实体抽取器在细粒度训练阶段只关注被人工标记为实体的词,具体计算过程如公式(3)所示:
Figure SMS_180
在公式(3)中,表示训练集中词的总数量;/>
Figure SMS_182
表示人工标注数据中被标记为实体的词的集合;/>
Figure SMS_183
表示真实标记的独热编码向量;/>
Figure SMS_184
表示实体抽取器的第/>
Figure SMS_185
个词的输出向量;实体感知损失赋予模型在人工标记数据集上持续学习的能力,并且不会遗忘在海量粗粒度数据上学习到的知识。
实施例3、
根据实施例1、2所述的一种基于语用知识学习的少样本命名实体识别方法,所述类型判别器,包括:基于多元高斯分布的类型判别网络,所述类型判别网络设新领域中每个实体类别都符合一个特征独立的多元高斯分布,对实体类别的分布进行建模而非对独立的词进行分布建模,利用多元高斯分布概率密度函数对数据的先验分布进行建模;为了简化计算过程,设数据高维空间中各个维度特征独立,则多元高斯分布的协方差Σ为对角矩阵,即除了斜对角线外,其余位置均为零;协方差矩阵Σ对角线上的值为各个维度对应的方差
Figure SMS_186
,固计算过程中可以将对角矩阵Σ压缩为向量/>
Figure SMS_187
类型判别器对数据的多元高斯分布建模过程如下:
首先使用预训练的大型语言模型对输入序列
Figure SMS_189
进行编码,得到输入序列的判别器编码表示/>
Figure SMS_191
Figure SMS_194
Figure SMS_190
表示表示输入序列的长度,/>
Figure SMS_193
表示隐含向量的维度;对于待识别的实体类型集合/>
Figure SMS_196
,分别计算第/>
Figure SMS_197
种类型/>
Figure SMS_188
对应的多元高斯分布均值/>
Figure SMS_192
和方差/>
Figure SMS_195
Figure SMS_198
/>
Figure SMS_199
在公式(4)、(5)中,
Figure SMS_201
表示类别标签为/>
Figure SMS_203
的所有词的集合;/>
Figure SMS_211
表示集合/>
Figure SMS_204
的大小;/>
Figure SMS_212
表示词/>
Figure SMS_205
的编码表示;/>
Figure SMS_213
表示实体类型集合;/>
Figure SMS_200
表示向量的维度下标;
Figure SMS_209
表示向量/>
Figure SMS_207
的第/>
Figure SMS_210
个维度的值;方差/>
Figure SMS_202
的向量长度为/>
Figure SMS_214
;/>
Figure SMS_208
表示向量/>
Figure SMS_215
Figure SMS_206
个维度的值。
对于一个待预测的词
Figure SMS_216
,其在类别标签/>
Figure SMS_217
上的多元高斯概率密度建模如下:
Figure SMS_218
在公式(6)中,
Figure SMS_219
表示词/>
Figure SMS_220
的编码表示;
类型判别器的损失
Figure SMS_221
计算如下:
Figure SMS_222
在公式(6)、(7)中,
Figure SMS_225
表示实体类型集合;/>
Figure SMS_226
表示类别标签/>
Figure SMS_229
对应的得分;
Figure SMS_224
表示输入序列;/>
Figure SMS_228
表示类型标记序列;/>
Figure SMS_231
表示第/>
Figure SMS_233
种类别标签/>
Figure SMS_223
对应的得分;
Figure SMS_227
表示词/>
Figure SMS_230
在类别标签/>
Figure SMS_232
上的判别器得分;
所述类型判别器在源领域数据上进行元学习预训练,源领域数据使用随机采样的算法生成不同的小批次任务,每个所述小批次任务包含N类实体类型和对应的K个实体标记实例。
实施例4、
一种实现基于语用知识学习的少样本命名实体识别方法的装置,所述装置上存储有可执行的计算机程序,该计算机程序被执行时对应完成:基于语用知识学习的少样本命名实体识别方法。
该装置的具体工作步骤,包括:
步骤1:使用维基百科语料和任意的开源命名实体识别数据对实体抽取器进行粗粒度到细粒度的预训练;该部分内容按照算法架构对应公式(3)及以前的技术内容进行识别的;
步骤2:对任意开源命名实体识别数据随机采样指定数量的少样本任务,对每个任务随机采样对应的少量数据,构建类型判别器的训练集并训练类型判别器;该部分内容是按照算法架构对应公式(3)以后的技术内容进行识别的;
步骤3:结合训练好的实体抽取器和类型判别器进行实体的联合抽取,使用实体抽取器抽取候选实体,使用类型判别器判断类型得分。
所述步骤3的具体方法包括:
对于目标领域的输入文本序列
Figure SMS_236
,首先使用所述实体抽取器抽取/>
Figure SMS_241
中所有的实体/>
Figure SMS_245
,组成潜在实体集合/>
Figure SMS_237
;然后将文本序列/>
Figure SMS_238
输入所述类型判别器,得到每个词元/>
Figure SMS_242
属于某个类别标签/>
Figure SMS_246
的得分/>
Figure SMS_235
;最后,对于潜在实体集合/>
Figure SMS_240
中的每个实体/>
Figure SMS_244
,实体/>
Figure SMS_247
的类别标签/>
Figure SMS_234
由实体中所有位置的词元/>
Figure SMS_239
对应的得分/>
Figure SMS_243
共同投票决定,投票的流程包括:
第一步,计算得到每个词元
Figure SMS_248
最置信的实体类别标签/>
Figure SMS_249
Figure SMS_250
在公式(8)中,
Figure SMS_251
表示实体类型的集合;/>
Figure SMS_252
表示类别标签;/>
Figure SMS_253
表示/>
Figure SMS_254
在类别标签/>
Figure SMS_255
上的判别器得分;
第二步,根据实体
Figure SMS_256
所有位置最置信的实体类别标签/>
Figure SMS_257
进行投票,得到票数最高的类型集合/>
Figure SMS_258
Figure SMS_259
在公式(9)中,
Figure SMS_260
表示实体/>
Figure SMS_261
上所有位置对应的最置信实体类别标签;/>
Figure SMS_262
函数选择出现次数最多的类别标签加入集合/>
Figure SMS_263
如果集合
Figure SMS_264
只包含一个类别标签,则预测结束;
如果集合
Figure SMS_265
包含大于一个类型标签,则计算集合/>
Figure SMS_266
中所有类型在实体/>
Figure SMS_267
上的类型判别器累积得分/>
Figure SMS_268
,类型标签/>
Figure SMS_269
对应的累积得分/>
Figure SMS_270
的计算过程如下所示:
Figure SMS_271
选择其中累积得分最高的类别标签
Figure SMS_272
作为实体/>
Figure SMS_273
的预测类别。/>
先投票再计算累积能够避免正确类型在部分位置置信度极低导致的错误。例如,如果正确类型在某个位置的置信度为0,而其它类型在所有位置的置信度都不接近0,则最后的正确类型的累积会低于其它类型的累积,导致预测出错。而投票机制则会缓解这种现象,即使一两个位置预测出错,只要大部分位置预测正确,就能保证最终预测的准确性,降低了单一位置的极端影响。
利用上述实施例1、实施例2、实施例3、实施例4,对目前最大的少样本开源数据集FEW-NERD具体实施,以进一步详细说明:
首先需要进行本发明提出的实体抽取器的粗粒度训练:
获取维基百科语料,然后使用本发明所述的数据重标注算法对维基百科语料进行重新标注,过程为:遍历整个维基百科语料库,获得重标注所需的原始实体候选集合
Figure SMS_275
,并使用哈希表/>
Figure SMS_279
保存实体/>
Figure SMS_283
作为锚文本出现的频数;同时统计每个实体在所有维基百科语料中出现的总频数记为/>
Figure SMS_274
;对于集合/>
Figure SMS_278
中的实体/>
Figure SMS_282
:如果实体的长度小于设定的参数3并且/>
Figure SMS_286
大于设定的参数/>
Figure SMS_277
,/>
Figure SMS_280
将会被加入集合/>
Figure SMS_284
;利用集合/>
Figure SMS_287
得到用于重标注的候选集合/>
Figure SMS_276
;对于维基百科中的每个句子,使用候选集合/>
Figure SMS_281
中的实体进行重新标注;如果/>
Figure SMS_285
完全匹配句子中的短语,则视为一个新标注。
重标注完成后,实体抽取器在维基百科语料上进行粗粒度训练,训练使用所述名词感知损失
Figure SMS_288
进行优化。
然后进行实体抽取器的细粒度训练:将FEW-NERD的训练集中的实体类别标签全部去除,使用处理后的训练集对实体抽取器进行细粒度训练,细粒度训练过程使用所述实体感知损失
Figure SMS_289
进行优化。
接着进行类型判别器的元学习预训练。由于FEW-NERD数据集已经随机采样生成了很多不同的小批次任务,每个所述小批次任务包含N类实体类型和对应的K个实体标记实例。所以可以直接使用对应的训练集进行元学习训练。
实体抽取器和类型判别器都训练完成后,开始进行联合抽取过程:
对于FEW-NERD的测试文本
Figure SMS_292
,首先使用使用所述实体抽取器抽取/>
Figure SMS_290
中所有的实体/>
Figure SMS_303
,组成实体集合/>
Figure SMS_291
。然后使用类型判别器,计算每个类别标签对于的均值/>
Figure SMS_302
和方差/>
Figure SMS_297
用于后续的得分计算。然后将文本序列/>
Figure SMS_300
输入所述类型判别器,得到每个词元/>
Figure SMS_298
属于某个类别标签/>
Figure SMS_305
的得分/>
Figure SMS_293
;最后,对于潜在实体集合/>
Figure SMS_301
中的每个实体/>
Figure SMS_295
,实体/>
Figure SMS_299
的类别标签/>
Figure SMS_296
由实体中所有位置的词元/>
Figure SMS_304
对应的得分/>
Figure SMS_294
共同投票决定,投票的流程包括:
第一步,计算得到每个词元
Figure SMS_306
最置信的实体类别标签/>
Figure SMS_307
第二步,根据实体
Figure SMS_308
所有位置最置信的实体类别标签/>
Figure SMS_309
进行投票,得到票数最高的类型集合/>
Figure SMS_310
如果集合
Figure SMS_311
只包含一个类别标签,则预测结束;如果集合/>
Figure SMS_312
包含大于一个类型,则计算集合/>
Figure SMS_313
中所有类型在实体/>
Figure SMS_314
上的类型判别器累积得分/>
Figure SMS_315
。选择其中累积得分最高的类别标签作为实体/>
Figure SMS_316
的预测类别。
通过上述的实施过程能够对FEW-NERD中所有的文本进行实体识别。
综上,将本发明所述识别方法与目前最优秀的少样本命名实体识别方法DecomposedMetaNER在FEW-NERD INTRA数据集的对比结果如表1所示:
表1FEW-NERD INTRA数据集实验结果
Figure SMS_317
本发明的性能在该数据集上明显超越了目前最优秀的方法。

Claims (8)

1.一种基于语用知识学习的少样本命名实体识别方法,其特征在于,包括算法架构,所述算法架构解耦命名实体识别任务为:实体的边界识别任务和实体的类型识别任务;
所述实体的边界识别任务由实体抽取器执行;
所述实体的类型识别任务由类型判别器执行;
所述实体抽取器和类型判别器共同组合以完成少样本命名实体识别任务;
所述实体抽取器包括:
基于跨度预测或者基于序列标注的网络结构。
2.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述基于序列标注的网络结构包括序列标注形式的输出;在序列标注形式的输出中,实体抽取器给予文本序列中的每个词对应的标签。
3.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述实体抽取器使用大型预训练语言模型作为编码器;所述大型预训练语言模型最后一层的隐含向量输出
Figure QLYQS_2
作为输入序列的语义编码表示:
Figure QLYQS_3
4.根据权利要求3所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述实体抽取器使用单层的线性网络作为实体抽取器的输出层,将隐含向量
Figure QLYQS_4
映射为标签向量/>
Figure QLYQS_5
,其中/>
Figure QLYQS_6
表示表示输入序列的长度,/>表示隐含向量的维度,/>
Figure QLYQS_8
表示实体边界的标签类别数量。
5.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述实体抽取器的训练方法,包括:
使用的所有数据均去除和实体类型相关的标签;
所述实体抽取器的训练方法包含粗粒度训练和细粒度训练;
在粗粒度训练阶段:选择语料库的语料作为训练数据;
在细粒度训练阶段,使用目前公开可用的所有命名实体识别数据集作为训练数据;
所述在粗粒度训练阶段,还包括基于统计的数据重标注算法,算法流程如下所示:
S1:遍历整个维基百科语料库,获得重标注所需的原始实体候选集合
Figure QLYQS_9
,并使用哈希表/>
Figure QLYQS_10
保存实体/>
Figure QLYQS_11
作为锚文本出现的频数;同时统计每个实体在所有维基百科语料中出现的总频数记为/>
Figure QLYQS_12
S2:去除维基百科中的不合理实体:对于集合
Figure QLYQS_13
中的实体/>
Figure QLYQS_14
如果实体的长度小于设定的参数
Figure QLYQS_15
并且/>
Figure QLYQS_16
大于设定的参数/>
Figure QLYQS_17
,/>
Figure QLYQS_18
将会被加入集合/>
Figure QLYQS_19
其中,
Figure QLYQS_20
设置为较小的数;/>
Figure QLYQS_21
设置为较大的数;
得到用于重标注的候选集合
Figure QLYQS_22
S3:对于维基百科中的每个句子,使用候选集合
Figure QLYQS_23
中的实体进行重新标注:
如果
Figure QLYQS_24
完全匹配句子中的短语,则视为一个新标注;
在所述粗粒度的训练阶段还包括名词感知损失
Figure QLYQS_25
替代传统的交叉熵损失:
Figure QLYQS_26
的计算过程如下所示:
Figure QLYQS_27
在公式(2)中,
Figure QLYQS_30
表示训练集中词的总数量;/>
Figure QLYQS_33
代表输入序列中第/>
Figure QLYQS_35
个词的权重:如果第/>
Figure QLYQS_28
个词是名词及其衍生词性,但对应的真实标记不是实体标记,则/>
Figure QLYQS_31
,否则
Figure QLYQS_34
;CE函数表示多分类交叉熵损失;/>
Figure QLYQS_36
表示真实标记的独热编码向量;/>
Figure QLYQS_29
表示实体抽取器的第/>
Figure QLYQS_32
个词的输出向量。
6.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,在细粒度训练阶段,实体感知损失
Figure QLYQS_37
用于细粒度阶段的持续训练:
实体感知损失
Figure QLYQS_38
具体计算过程如公式(3)所示:
Figure QLYQS_39
在公式(3)中,
Figure QLYQS_40
表示训练集中词的总数量;/>
Figure QLYQS_41
表示人工标注数据中被标记为实体的词的集合;/>
Figure QLYQS_42
表示真实标记的独热编码向量;/>
Figure QLYQS_43
表示实体抽取器的第/>
Figure QLYQS_44
个词的输出向量。
7.根据权利要求1所述一种基于语用知识学习的少样本命名实体识别方法,其特征在于,所述类型判别器,包括:基于多元高斯分布的类型判别网络,利用多元高斯分布概率密度函数对数据的先验分布进行建模;设数据高维空间中各个维度特征独立,则多元高斯分布的协方差Σ为对角矩阵,即除了斜对角线外,其余位置均为零;协方差矩阵Σ对角线上的值为各个维度对应的方差
Figure QLYQS_45
,将对角矩阵Σ压缩为向量/>
Figure QLYQS_46
类型判别器对数据的多元高斯分布建模过程如下:
首先使用预训练的大型语言模型对输入序列
Figure QLYQS_47
进行编码,得到输入序列的判别器编码表示/>
Figure QLYQS_52
,/>
Figure QLYQS_54
表示表示输入序列的长度,/>
Figure QLYQS_49
表示隐含向量的维度;对于待识别的实体类型集合/>
Figure QLYQS_50
,分别计算第/>
Figure QLYQS_53
种类型/>
Figure QLYQS_55
对应的多元高斯分布均值/>
Figure QLYQS_48
和方差/>
Figure QLYQS_51
Figure QLYQS_56
Figure QLYQS_57
在公式(4)、(5)中,
Figure QLYQS_58
表示类别标签为/>
Figure QLYQS_61
的所有词的集合;/>
Figure QLYQS_72
表示集合/>
Figure QLYQS_60
的大小;/>
Figure QLYQS_67
表示词/>
Figure QLYQS_68
的编码表示;/>
Figure QLYQS_73
表示实体类型集合;/>
Figure QLYQS_64
表示向量的维度下标;/>
Figure QLYQS_69
表示向量/>
Figure QLYQS_59
的第/>
Figure QLYQS_70
个维度的值;方差/>
Figure QLYQS_63
的向量长度为/>
Figure QLYQS_71
;/>
Figure QLYQS_65
表示向量/>
Figure QLYQS_66
第/>
Figure QLYQS_62
个维度的值;
对于一个待预测的词
Figure QLYQS_74
,其在类别标签/>
Figure QLYQS_75
上的多元高斯概率密度建模如下:
Figure QLYQS_76
在公式(6)中,
Figure QLYQS_77
表示词/>
Figure QLYQS_78
的编码表示;
类型判别器的损失
Figure QLYQS_79
计算如下:
Figure QLYQS_80
在公式(6)、(7)中,
Figure QLYQS_82
表示实体类型集合;/>
Figure QLYQS_85
表示类别标签/>
Figure QLYQS_88
对应的得分;/>
Figure QLYQS_83
表示输入序列;/>
Figure QLYQS_84
表示类型标记序列;/>
Figure QLYQS_87
表示第/>
Figure QLYQS_90
种类别标签/>
Figure QLYQS_81
对应的得分;/>
Figure QLYQS_86
表示词/>
Figure QLYQS_89
在类别标签/>
Figure QLYQS_91
上的判别器得分;
所述类型判别器在源领域数据上进行元学习预训练,源领域数据使用随机采样的算法生成不同的小批次任务,每个所述小批次任务包含N类实体类型和对应的K个实体标记实例。
8.一种实现如权利要求1-7任意一项所述基于语用知识学习的少样本命名实体识别方法的装置,其特征在于,所述装置上存储有可执行的计算机程序,该计算机程序被执行时对应完成:基于语用知识学习的少样本命名实体识别方法。
CN202310684971.1A 2023-06-12 2023-06-12 基于语用知识学习的少样本命名实体识别方法和装置 Active CN116432655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310684971.1A CN116432655B (zh) 2023-06-12 2023-06-12 基于语用知识学习的少样本命名实体识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310684971.1A CN116432655B (zh) 2023-06-12 2023-06-12 基于语用知识学习的少样本命名实体识别方法和装置

Publications (2)

Publication Number Publication Date
CN116432655A true CN116432655A (zh) 2023-07-14
CN116432655B CN116432655B (zh) 2023-12-08

Family

ID=87080018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310684971.1A Active CN116432655B (zh) 2023-06-12 2023-06-12 基于语用知识学习的少样本命名实体识别方法和装置

Country Status (1)

Country Link
CN (1) CN116432655B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579345A (zh) * 2023-07-14 2023-08-11 亚信科技(中国)有限公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN116644755A (zh) * 2023-07-27 2023-08-25 中国科学技术大学 基于多任务学习的少样本命名实体识别方法、装置及介质
CN116757216A (zh) * 2023-08-15 2023-09-15 之江实验室 基于聚类描述的小样本实体识别方法、装置和计算机设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699682A (zh) * 2020-12-11 2021-04-23 山东大学 一种基于可组合弱认证器的命名实体识别方法和装置
WO2021114745A1 (zh) * 2019-12-13 2021-06-17 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
CN113673248A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN113723138A (zh) * 2020-05-25 2021-11-30 华为技术有限公司 一种结构化信息的生成方法、信息生成设备以及存储介质
CN115718802A (zh) * 2022-11-14 2023-02-28 长城汽车股份有限公司 一种故障诊断方法、系统、设备及存储介质
CN116186237A (zh) * 2023-02-28 2023-05-30 北京石油化工学院 一种基于事件因果推断的实体关系的联合抽取方法
WO2023092961A1 (zh) * 2022-04-27 2023-06-01 之江实验室 一种用于舆情文本分析的半监督方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021114745A1 (zh) * 2019-12-13 2021-06-17 华南理工大学 一种基于词缀感知的社交媒体命名实体识别方法
CN113723138A (zh) * 2020-05-25 2021-11-30 华为技术有限公司 一种结构化信息的生成方法、信息生成设备以及存储介质
CN112699682A (zh) * 2020-12-11 2021-04-23 山东大学 一种基于可组合弱认证器的命名实体识别方法和装置
CN113673248A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
WO2023092961A1 (zh) * 2022-04-27 2023-06-01 之江实验室 一种用于舆情文本分析的半监督方法和装置
CN115718802A (zh) * 2022-11-14 2023-02-28 长城汽车股份有限公司 一种故障诊断方法、系统、设备及存储介质
CN116186237A (zh) * 2023-02-28 2023-05-30 北京石油化工学院 一种基于事件因果推断的实体关系的联合抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAQI WU: "A Light Transfer Model for Chinese Named Entity Recognition for Specialty Domain", 《COMPUTER SUPPORTED COOPERATIVE WORK AND SOCIAL COMPUTING》, pages 530 - 541 *
李冬梅;张扬;李东远;林丹琼;: "实体关系抽取方法研究综述", 计算机研究与发展, no. 07 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579345A (zh) * 2023-07-14 2023-08-11 亚信科技(中国)有限公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN116579345B (zh) * 2023-07-14 2023-10-24 亚信科技(中国)有限公司 命名实体识别模型的训练方法、命名实体识别方法及装置
CN116644755A (zh) * 2023-07-27 2023-08-25 中国科学技术大学 基于多任务学习的少样本命名实体识别方法、装置及介质
CN116644755B (zh) * 2023-07-27 2023-11-17 中国科学技术大学 基于多任务学习的少样本命名实体识别方法、装置及介质
CN116757216A (zh) * 2023-08-15 2023-09-15 之江实验室 基于聚类描述的小样本实体识别方法、装置和计算机设备
CN116757216B (zh) * 2023-08-15 2023-11-07 之江实验室 基于聚类描述的小样本实体识别方法、装置和计算机设备

Also Published As

Publication number Publication date
CN116432655B (zh) 2023-12-08

Similar Documents

Publication Publication Date Title
CN116432655B (zh) 基于语用知识学习的少样本命名实体识别方法和装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN116127953B (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN113282714B (zh) 一种基于区分性词向量表示的事件检测方法
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
CN114818668A (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN111680684B (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN114912453A (zh) 基于增强序列特征的中文法律文书命名实体识别方法
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN116341557A (zh) 一种糖尿病医学文本命名实体识别方法
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN116562295A (zh) 一种面向桥梁领域文本的增强语义命名实体识别方法
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN115310449A (zh) 一种基于小样本的命名实体识别方法、装置及相关介质
CN115879460A (zh) 面向文本内容的新标签实体识别方法、装置、设备及介质
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN114564942A (zh) 一种用于监管领域的文本纠错方法、存储介质和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant