CN114580422B - 一种结合近邻分析的两阶段分类的命名实体识别方法 - Google Patents

一种结合近邻分析的两阶段分类的命名实体识别方法 Download PDF

Info

Publication number
CN114580422B
CN114580422B CN202210250075.XA CN202210250075A CN114580422B CN 114580422 B CN114580422 B CN 114580422B CN 202210250075 A CN202210250075 A CN 202210250075A CN 114580422 B CN114580422 B CN 114580422B
Authority
CN
China
Prior art keywords
entity
sentence
data set
entities
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210250075.XA
Other languages
English (en)
Other versions
CN114580422A (zh
Inventor
线岩团
江汀莹
余正涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210250075.XA priority Critical patent/CN114580422B/zh
Publication of CN114580422A publication Critical patent/CN114580422A/zh
Application granted granted Critical
Publication of CN114580422B publication Critical patent/CN114580422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种结合近邻分析的两阶段分类命名实体识别方法,属于自然语言处理领域,针对解决命名实体识别任务,本发明第一次提出将近邻分析与实体两阶段分类相结合的方法,能够对于细粒度实体分类数据集存在的类别多、实体边界模糊等问题进行很好的处理。本发明利用训练集训练实体范围检测模型得到最优的实体范围检测模型,然后用最优的实体范围检测模型去检测待识别数据集,得到有实体范围的待识别数据集,将每个实体范围的首尾位置对应的特征向量拼接作为实体分类器的输入,得到预测的实体类别的检测,利用真正的实体类别对整个模型做调整,使其具有更佳的泛化能力,最终提升模型在待识别数据集上的识别效果。

Description

一种结合近邻分析的两阶段分类的命名实体识别方法
技术领域
本发明涉及一种结合近邻分析的两阶段分类的命名实体识别方法,属于自然语言处理技术领域。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。自然语言处理通常包括分词、词性标注、命名实体识别和语法分析等。命名实体识别是自然语言处理中信息抽取的基本任务,旨在从非结构化自然语言中对命名实体进行定位和分类。命名实体识别不仅作为一个独立的信息提取工具,而且在各种自然语言处理应用中也起着至关重要的作用,如文本理解,信息检索,自动文本摘要,问答,机器翻译以及知识库构建等。目前虽然命名实体识别已经取得了显著的效果,但是这个任务还是面临着很大的困难:命名实体识别只是在有限的文本类型和实体类别(主要是人名、地名)中取得了结果;预测语料较小,容易产生过拟合;通用的识别多类型的命名实体识别的系统性很差。
基于规则的NER系统依赖于手工编写的规则。规则可以基于特定领域的地名词典和句法-词汇模式设计。Kim提出使用Brill规则推理方法进行语音输入。该系统基于Brill的词性标记器自动生成规则。在生物医学领域,Hanisch等人提出了突起词,利用预处理同义词词典来识别生物医学文本中的蛋白质提及和潜在基因。Quimbaya等人提出了一种基于词典的电子健康记录NER方法。实验结果表明,该方法提高了查全率,但对查准率的影响不大。当lexicon是详尽的时,基于规则的系统工作得非常好。但总结规则模板花费大量时间,且词汇表规模小,且实体识别结果普遍高精度、低召回。
基于深度学习的方法主要由三个模块构成:分布式词表示、上下文编码、解码器。分布式词表示一个是词语级别的词向量,一个是字符级别的向量。其中词向量可以通过CBOW或者是skip-gram的方式去训练得到。常用的词嵌入有:谷歌的word2vec,斯坦福的Glove,Facebook的fastText以及SENNA。目前广泛使用的上下文的编码器体系结构有CNN(卷积神经网络)、RNN(循环网络)、递归神经网络和Transformer。Huang等人是首批利用双向LSTM CRF体系结构对任务(POS、分块和NER)进行序列标注的研究之一。递归神经网络是非线性自适应模型,能够通过以拓扑顺序遍历给定结构来学习深度结构化信息。Radford等在transformer的基础上提出了用于语言理解任务的生成预训练transformer(GenerativePre-trained transformer,GPT)。首先,他们使用transformer对未标记数据使用语言建模目标来学习初始参数。然后,他们使用监督目标将这些参数调整到目标任务中,从而使预先训练的模型发生最小的变化。与GPT(一种从左到右的架构)不同,来自变压器的双向编码器表示(BERT)被提出,通过联合在所有层的左和右上下文条件下对深层双向变压器进行预训练。这些方法目前使得NER系统达到了比较好的预测效果,但是在数据量少的类别上的预测相较数据量多的类别上的预测性能差很多。CRF不能充分利用段级信息,因为段的内部属性不能完全用字级表示进行编码。
发明内容
本发明提供了一种结合近邻分析的两阶段分类的命名实体识别方法,以用于对细粒度实体分类,解决了由于数据集的数据类别多、边界模糊问题导致的实体识别性能下降问题。
本发明的技术方案是:一种结合近邻分析的两阶段分类的命名实体识别方法,所述方法的具体步骤如下:
Step1、对从Cluener2020的中文命名数据集中获取的英文文本和标签进行预处理,取出文本中每句话,每句话中存在的实体、实体标签对应的编号,每个实体在句子中的位置以及记录数据集中的实体总数量。
Step2、通过Bert编码器将Step1预处理过的数据中的每句话进行特征编码,将获得的特征编码输入globalpointer模型得到实体范围,对获得的实体范围的首尾位置对应的特征向量进行拼接得到新的表征,将表征输入基于近邻分析算法的实体分类器,得到每个实体的类别的概率。
所述步骤Step1包括:
Step1.1、对数据集进行切分,将数据集切分按0.1的比例进行切分成train数据集和test数据集;
Step1.2、对数据集中涉及的类别进行编号,将数据集中每个实体对应的类别转化成编号;
Step1.3、记录数据集中出现的实体属于数据集中的第几个实体;
所述步骤Step2的具体步骤如下:
Step2.1、将预处理后的数据作为Bert编码器的输入,每个训练样本S={′fext′:′s1,s2,...,sn′,′label′:{...{′lk′:...{′entityi′:[starti,endi]}}}},包含句子序列s1,s2,...,sn、实体entityi、实体标签lk、实体的范围[starti,endi],其中n表示句子序列的长度,i表示句子中第几个实体,k表示句子中第几个实体标签,同时记录记录该实体为数据集中的第几个实体,记为num。对每个输入样本中的句子序列s1,s2,...,sn进行编码,得到对应的句子嵌入
Figure BDA0003546350010000031
将实体标签转化为对应的标签编号tagid,最后的数据表示为ds,ds格式为:
Figure BDA0003546350010000032
Step2.2、将数据ds中的特征编码input_ids,输入globalpointer模型得到句子中的实体位置。输入句子编码序列
Figure BDA0003546350010000033
通过变换qi,α=Wq,αhi+bq,α和ki,α=wk,αhi+bk,α,从而得到序列向量序列[qi,α,q2,α,...,qn,α]和[k1,α,k2,α,...,kn,α],表示识别第α种类型实体所用的向量序列。计算句子中第i个片段到第j个片段是一个实体的打分sα(i,j):
sα(i,j)=qi,α Tkj,α (1)
其中sα(i,j)>0即表示句子中的片段[i,j]为实体;
Step2.3、在句子编码序列
Figure BDA0003546350010000034
中选出第i个片段和第j个片段对应的特征向量
Figure BDA0003546350010000035
Figure BDA0003546350010000036
Figure BDA0003546350010000037
Figure BDA0003546350010000038
拼接得到新的特征向量ek,将ek作为该实体的特征表示,以此类推,得到实体向量序列E:[e1,e2,...,ek];
Step2.4、将实体向量序列E:[e1,e2,...,ek]作为基于近邻分析算法的实体分类器的输入。输入实体向量序列E:[e1,e2,...,ek],将实体向量序列E:[e1,e2,...,ek]存入offline memory模块中。计算实体i和实体j之间的余弦相似度Sij
Figure BDA0003546350010000041
其中φ表示ei和ej之间的夹角。得到的任意两实体之间的相似度矩阵similaritymatrix。实体i和实体j为邻居的概率Pij为:
Figure BDA0003546350010000042
其中,每个实体不能和自己做邻居,故Pii=0,σ为超参数,用于控制邻域的规模。实体i被正确分类的概率Pi为:
Figure BDA0003546350010000043
其中Ω={j|yj=yi}表示与实体i共享相同标签的索引;
Step2.5、使用argmax函数对Pi进行计算,得到实体i的预测标签labeli
Figure BDA0003546350010000044
其中y指所有实体;
Step2.6、将整个数据集的特征作为增强的非参数memory模块,通过随机梯度下降来学习特征嵌入网络。在第t+1次迭代开始时,假设网络参数为θ(t),memory为M(t)={e1 (t),e2 (t),...,en (t)},由于memory总是随着迭代不断变换,可以近似地认为:
Figure BDA0003546350010000045
其中,xi表示实体向量表征,即实体向量序列E中的ei
每次计算完ei后,对memory进行更新:
ei (t+1)←m·ei (t)+(1-m)ei (7)
Step2.7、本发明的损失函数Loss分为基于globalpointer模型的实体范围检测的损失函数Lossglobalpointer和基于近邻分析的实体分类器的损失函数Lossnca
Figure BDA0003546350010000046
Figure BDA0003546350010000051
Loss=Lossglobalpointer+Lossnca (10)
其中,公式(6)中Pα是样本的所有类型为α的实体的首尾集合,Qα是样本的所有非实体或者类型非α的实体的首尾集合。公式(7)中Pi表示实体i正确分类的概率。
本发明的有益效果是:
(1)由于命名实体识别任务需要充分考虑实体所在位置上下文的信息,相同的实体在不同的语义环境中可能属于不同的类别,所以本发明采用Bert编码来获取实体的特征表示,能更好的表征句中的实体;
(2)根据细粒度实体识别的实体边界模糊导致实体识别结果出现的较大偏差的问题,本发明采用基于globalpointer模型的实体范围检测,它可以通过计算句子片段得分,达到预测实体位置的目的,能够很好的处理实体边界模糊的问题;
根据细粒度实体识别存在的类别数多、类别不平衡,导致的对于类别数据多预测性能更好,类别数据少预测性能更差的问题,本发明采用结合近邻分析的实体分类方法,通过计算各实体之间的相似度和各实体做邻居的概率来判断任意两个实体属于相同类别的概率,达到预测实体类别的目的,能够很好的处理类别种类多、类别数据少导致的性能下降问题。
附图说明
图1为本发明方法的流程图。
具体实施方式
在对本发明的实施例进行具体介绍之前,先对其中使用到的部分术语作如下解释:
BERT来自Google的论文Pre-training of Deep Bidirectional Transformersfor Language Understanding,BERT是“Bidirectional Encoder Representations fromTransformers”的首字母缩写,整体是一个自编码语言模型(Autoencoder LM)。
2021年苏剑林提出使用GlobalPointer,使用统一处理的方式处理嵌套和非嵌套命名实体识别。它利用全局归一化的思路来进行命名实体识别,可以无差别地识别嵌套实体和非嵌套实体,在非嵌套的情况下,它的性能可以达到CRF的效果,而在嵌套情形下它也有不错的效果。在理论上,它的设计思想比CRF也更合理,在实践上,它训练的时候不需要像CRF那样递归地计算分母,预测的时候也不需要动态规划,时间复杂度较CRF低。GlobalPointer的提出,使得命名实体识别系统的性能得到了提高。
近邻成分分析(Neighbourhood Component Analysis,NCA)是由JacobGoldberger和Geoff Hinton等在2005年发表的一项工作,属于度量学习(MetricLearning)和降维(Dimension Reduction)领域。其关键点可以概括为:任务是KNNClassification,样本相似度计算方法基于马氏距离(Mahalanobis Distance),参数选择方法为留一验证法(Leave One Out)。最后模型可以学习样本的低维嵌入表示(Embedding),既属于度量学习范畴,又是降维的过程。
实施例1:如图1所示,一种结合近邻分析的两阶段分类的命名实体识别方法,所述方法的具体步骤如下:
Step1、对从Cluener2020的中文命名数据集中获取的英文文本和标签进行预处理,取出文本中每句话,每句话中存在的实体、实体标签对应的编号,每个实体在句子中的位置以及记录数据集中的实体总数量;
Step1.1、对数据集进行切分,将train数据集切分按0.1的比例进行切分成train数据集和test数据集;
Step1.2、对数据集中涉及的类别进行编号,将数据集中每个实体对应的类别转化成编号;
Step1.3、记录数据集中出现的实体属于数据集中的第几个实体;训练集、验证集和测试集的统计信息如表1所示,涉及的10个类别如表2所示:
表1实验语料
Figure BDA0003546350010000061
表2数据集类别
Figure BDA0003546350010000062
Figure BDA0003546350010000071
Step2、通过Bert编码器将Step1预处理过的数据中的每句话进行特征编码,将获得的特征编码输入globalpointer模型得到实体范围,对获得的实体范围的首尾位置对应的特征向量进行拼接得到新的表征,将表征输入结合近邻分析算法的实体分类器,得到每个实体的类别的概率。
Step2.1、将预处理后的数据作为Bert编码器的输入,每个训练样本S={′text′:′s1,s2,...,sn′,′label′:{...{′lk′:...{′entityi′:[starti,endi]}}}},包含句子序列s1,s2,...,sn、实体entityi、实体标签lk、实体的范围[starti,endi],其中n表示句子序列的长度,i表示句子中第几个实体,k表示句子中第几个实体标签,同时记录记录该实体为数据集中的第几个实体,记为num。对每个输入样本中的句子序列s1,s2,...,sn进行编码,得到对应的句子嵌入
Figure BDA0003546350010000079
将实体标签转化为对应的标签编号tagid,最后的数据表示为ds,
Figure BDA0003546350010000072
Step2.2、将数据ds中的特征编码input_ids输入globalpointer模型得到句子中的实体位置。输入句子编码序列
Figure BDA0003546350010000073
通过变换qi,α=Wq,αhi+bq,α和ki,α=wk,αhi+bk,α,从而得到序列向量序列[qi,α,q2,α,...,qn,α]和[k1,α,k2,α,...,kn,α],表示识别第α种类型实体所用的向量序列。计算句子中第i个片段到第j个片段是一个实体的打分sα(i,j):
sα(i,j)=qi,α Tkj,α (1)
其中sα(i,j)>0即表示句子中的片段[i,j]为实体;
Step2.3、在句子编码序列
Figure BDA0003546350010000074
中选出第i个片段和第j个片段对应的特征向量
Figure BDA0003546350010000075
Figure BDA0003546350010000076
Figure BDA0003546350010000077
Figure BDA0003546350010000078
拼接得到新的特征向量ek,将ek作为该实体的特征表示,以此类推,得到实体向量序列E:[e1,e2,...,ek];
Step2.4、将实体向量序列E:[e1,e2,...,ek]作为基于近邻分析算法的实体分类器的输入。输入实体向量序列E:[e1,e2,...,ek],将实体向量序列E:[e1,e2,...,ek]存入offline memory模块中。计算实体i和实体j之间的余弦相似度Sij
Figure BDA0003546350010000081
其中φ表示ei和ej之间的夹角。得到的任意两实体之间的相似度矩阵similaritymatrix。实体i和实体j为邻居的概率Pij为:
Figure BDA0003546350010000082
其中,每个实体不能和自己做邻居,故Pii=0,σ为超参数,用于控制邻域的规模。实体i被正确分类的概率Pi为:
Figure BDA0003546350010000083
其中Ω={j|yj=yi}表示与实体i共享相同标签的索引;
Step2.5、使用argmax函数对Pi进行计算,得到实体i的预测标签labeli
Figure BDA0003546350010000084
其中y指所有实体;
Step2.6、将整个数据集的特征作为增强的非参数memory模块,通过随机梯度下降来学习特征嵌入网络。在第t+1次迭代开始时,假设网络参数为θ(t),memory为M(t)={e1 (t),e2 (t),...,en (t)},由于memory总是随着迭代不断变换,可以近似地认为:
ei (t)≈f(θ)(t)(xi) (6)
其中,xi表示实体向量表征,即实体向量序列E中的ei
每次计算完ei后,对memory进行更新:
ei (t+1)←m·ei (t)+(1-m)ei (7)
Step2.7、本发明的损失函数Loss分为基于globalpointer的实体范围检测器的损失函数Lossglobalpointer和基于近邻分析的实体分类器的损失函数Lossnca
Figure BDA0003546350010000091
Figure BDA0003546350010000092
Loss=Lossglobalpointer+Losseca (10)
其中,公式(6)中Pα是该样本的所有类型为α的实体的首尾集合,Qα是该样本的所有非实体或者类型非α的实体的首尾集合。公式(7)中Pi表示实体i正确分类的概率。
为了说明本发明的效果:
Bi-Lstm+CRF模型、BERT+CRF模型、RoBERTa-wwm-large-ext模型以及本发明在Cluener2020上的实验结果如下表3所示:
表3实验结果
Figure BDA0003546350010000093
从表3可以看出,BiLSTM+CRF模型和BERT+CRF模型的结果对比证明了本发明采用BERT作为基础模型架构的必要性;本发明的模型和BERT+CRF的结果对比证明了在同样的编码器的条件下,本发明提出的训练方法可以有效的提升模型的识别效果,模型F1值提升了2.18%。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (2)

1.一种结合近邻分析的两阶段分类的命名实体识别方法,其特征在于:所述方法的具体步骤如下:
Step1、对数据集中获取的英文文本和标签进行预处理,取出文本中每句话,每句话中存在的实体、实体标签对应的编号,每个实体在句子中的位置以及记录数据集中的实体总数量;
Step2、通过Bert编码器将Step1预处理过的数据中的每句话进行特征编码,将获得的特征编码输入globalpointer模型得到实体范围,对获得的实体范围的首尾位置对应的特征向量进行拼接得到新的表征,将表征输入结合近邻分析算法的实体分类器,得到每个实体的类别的概率;
所述Step2的具体步骤如下:
Step2.1、将预处理后的数据作为Bert编码器的输入,每个训练样本S={'text':'s1,s2,...,sn','label':{...{'lk':...{'entityi':[starti,endi]}}}},包含句子序列s1,s2,...,sn、实体entityi、实体标签lk、实体的范围[starti,endi],其中n表示句子序列的长度,i表示句子中第几个实体,k表示句子中第几个实体标签,同时记录该实体为数据集中的第几个实体,记为num;对每个输入样本中的句子序列s1,s2,...,sn进行编码,得到对应的句子嵌入
Figure FDA0003900882660000011
将实体标签转化为对应的标签编号tagid,最后的数据表示为ds,
Figure FDA0003900882660000012
Step2.2、将数据ds中的特征编码input_ids输入globalpointer模型得到句子中的实体位置;输入句子编码序列
Figure FDA0003900882660000013
通过变换
Figure FDA0003900882660000014
Figure FDA0003900882660000015
从而得到序列向量序列[qi,α,q2,α,...,qn,α]和[k1,α,k2,α,...,kn,α],表示识别第α种类型实体所用的向量序列,计算句子中第i个片段到第j个片段是一个实体的打分sα(i,j):
sα(i,j)=qi,α Tkj,α (1)
其中sα(i,j)>0即表示句子中的片段[i,j]为实体;
Step2.3、在句子编码序列
Figure FDA0003900882660000021
中选出第i个片段和第j个片段对应的特征向量
Figure FDA0003900882660000022
Figure FDA0003900882660000023
Figure FDA0003900882660000024
Figure FDA0003900882660000025
拼接得到新的特征向量ek,将ek作为该实体的特征表示,以此类推,得到实体向量序列E:[e1,e2,...,ek];
Step2.4、将实体向量序列E:[e1,e2,...,ek]作为基于近邻分析算法的实体分类器的输入;输入实体向量序列E:[e1,e2,...,ek],将实体向量序列E:[e1,e2,...,ek]存入offlinememory模块中,计算实体i和实体j之间的余弦相似度Sij
Figure FDA0003900882660000026
其中φ表示ei和ej之间的夹角,得到的任意两实体之间的相似度矩阵similaritymatrix;实体i和实体j为邻居的概率Pij为:
Figure FDA0003900882660000027
其中,每个实体不能和自己做邻居,故Pii=0,σ为超参数,用于控制邻域的规模,实体i被正确分类的概率Pi为:
Figure FDA0003900882660000028
其中Ω={j|yj=yi}表示与实体i共享相同标签的索引;
Step2.5、使用argmax函数对Pi进行计算,得到实体i的预测标签labeli
Figure FDA0003900882660000029
其中y指所有实体;
所述Step2还包括:
Step2.6、将整个数据集的特征作为增强的非参数memory模块,通过随机梯度下降来学习特征嵌入网络;
在第t+1次迭代开始时,假设网络参数为θ(t),memory为M(t)={e1 (t),e2 (t),...,en (t)},由于memory总是随着迭代不断变换,近似地认为:
ei (t)≈f(θ)(t)(xi) (6)
其中,xi表示实体向量表征,即实体向量序列E中的ei
每次计算完ei后,对memory进行更新:
ei (t+1)←m·ei (t)+(1-m)ei (7)
Step2.7、损失函数Loss分为基于globalpointer的实体范围检测器的损失函数Lossglobalpointer和基于近邻分析的实体分类器的损失函数Lossnca
Figure FDA0003900882660000031
Figure FDA0003900882660000032
Loss=Lossglobalpointer+Lossnca (10)
其中,公式(8)中Pα是样本的所有类型为α的实体的首尾集合,Qα是样本的所有非实体或者类型非α的实体的首尾集合,公式(9)中Pi表示实体i正确分类的概率。
2.根据权利要求1所述的结合近邻分析的两阶段分类的命名实体识别方法,其特征在于:所述Step1包括如下:
Step1.1、对数据集进行切分,将数据集切分按0.1的比例进行切分成train数据集和test数据集;
Step1.2、对数据集中涉及的类别进行编号,将数据集中每个实体对应的类别转化成编号;
Step1.3、记录数据集中出现的实体属于数据集中的第几个实体。
CN202210250075.XA 2022-03-14 2022-03-14 一种结合近邻分析的两阶段分类的命名实体识别方法 Active CN114580422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210250075.XA CN114580422B (zh) 2022-03-14 2022-03-14 一种结合近邻分析的两阶段分类的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210250075.XA CN114580422B (zh) 2022-03-14 2022-03-14 一种结合近邻分析的两阶段分类的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN114580422A CN114580422A (zh) 2022-06-03
CN114580422B true CN114580422B (zh) 2022-12-13

Family

ID=81781158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210250075.XA Active CN114580422B (zh) 2022-03-14 2022-03-14 一种结合近邻分析的两阶段分类的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN114580422B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204176B (zh) * 2022-07-28 2023-06-06 平安科技(深圳)有限公司 命名实体识别方法、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202255A (zh) * 2016-06-30 2016-12-07 昆明理工大学 融合实体特性的越南语命名实体识别方法
CN112733541A (zh) * 2021-01-06 2021-04-30 重庆邮电大学 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN112888459A (zh) * 2018-06-01 2021-06-01 格里尔公司 卷积神经网络系统及数据分类方法
CN113360667A (zh) * 2021-05-31 2021-09-07 安徽大学 基于多任务学习的生物医学触发词检测和命名实体识别方法
CN113609859A (zh) * 2021-08-04 2021-11-05 浙江工业大学 一种基于预训练模型的特种设备中文命名实体识别方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3765633A4 (en) * 2018-03-13 2021-12-01 Grail, Inc. PROCESS AND SYSTEM FOR THE SELECTION, ADMINISTRATION AND ANALYSIS OF HIGH DIMENSIONAL DATA
CN110083831B (zh) * 2019-04-16 2023-04-18 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111563383A (zh) * 2020-04-09 2020-08-21 华南理工大学 一种基于BERT与SemiCRF的中文命名实体识别方法
CN111832295A (zh) * 2020-07-08 2020-10-27 昆明理工大学 基于bert预训练模型的刑事案件要素识别方法
CN112101027A (zh) * 2020-07-24 2020-12-18 昆明理工大学 基于阅读理解的中文命名实体识别方法
CN112149421A (zh) * 2020-09-23 2020-12-29 云南师范大学 一种基于bert嵌入的软件编程领域实体识别方法
CN112685549B (zh) * 2021-01-08 2022-07-29 昆明理工大学 融入篇章语义的涉案新闻要素实体识别方法及系统
CN112926324B (zh) * 2021-02-05 2022-07-29 昆明理工大学 融合词典与对抗迁移的越南语事件实体识别方法
CN113268569B (zh) * 2021-07-19 2021-11-16 中国电子科技集团公司第十五研究所 基于语义的关联词查找方法及装置、电子设备、存储介质
CN113935324B (zh) * 2021-09-13 2022-10-28 昆明理工大学 基于词集合特征加权的跨境民族文化实体识别方法及装置
CN114120304B (zh) * 2021-11-25 2023-12-05 北京百度网讯科技有限公司 实体识别方法、装置及计算机程序产品
CN114169338B (zh) * 2022-02-10 2022-05-17 北京智源人工智能研究院 一种医疗命名实体识别方法、装置和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202255A (zh) * 2016-06-30 2016-12-07 昆明理工大学 融合实体特性的越南语命名实体识别方法
CN112888459A (zh) * 2018-06-01 2021-06-01 格里尔公司 卷积神经网络系统及数据分类方法
CN112733541A (zh) * 2021-01-06 2021-04-30 重庆邮电大学 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN113360667A (zh) * 2021-05-31 2021-09-07 安徽大学 基于多任务学习的生物医学触发词检测和命名实体识别方法
CN113609859A (zh) * 2021-08-04 2021-11-05 浙江工业大学 一种基于预训练模型的特种设备中文命名实体识别方法

Also Published As

Publication number Publication date
CN114580422A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN108536754A (zh) 基于blstm和注意力机制的电子病历实体关系抽取方法
CN110263325B (zh) 中文分词系统
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、系统及介质
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
US11755668B1 (en) Apparatus and method of performance matching
CN114386417A (zh) 一种融入词边界信息的中文嵌套命名实体识别方法
US20230298571A1 (en) Apparatuses and methods for querying and transcribing video resumes
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN115879473A (zh) 基于改进图注意力网络的中文医疗命名实体识别方法
CN114153973A (zh) 基于t-m bert预训练模型的蒙古语多模态情感分析方法
CN111460142A (zh) 一种基于自注意力卷积神经网络的短文本分类方法及系统
CN114742069A (zh) 一种代码相似度检测方法及装置
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
US11538462B1 (en) Apparatuses and methods for querying and transcribing video resumes
CN114580422B (zh) 一种结合近邻分析的两阶段分类的命名实体识别方法
CN110175330B (zh) 一种基于注意力机制的命名实体识别方法
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN117314666A (zh) 一种财务风险识别方法、装置、设备及存储介质
CN115994220A (zh) 一种基于语义挖掘的接触网文本数据缺陷识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant