CN113627172A - 基于多粒度特征融合和不确定去噪的实体识别方法及系统 - Google Patents

基于多粒度特征融合和不确定去噪的实体识别方法及系统 Download PDF

Info

Publication number
CN113627172A
CN113627172A CN202110845130.5A CN202110845130A CN113627172A CN 113627172 A CN113627172 A CN 113627172A CN 202110845130 A CN202110845130 A CN 202110845130A CN 113627172 A CN113627172 A CN 113627172A
Authority
CN
China
Prior art keywords
word
granularity
text
characters
uncertainty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110845130.5A
Other languages
English (en)
Other versions
CN113627172B (zh
Inventor
胡峰
杨新瑞
张清华
高满
黄子恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yuxin Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110845130.5A priority Critical patent/CN113627172B/zh
Priority claimed from CN202110845130.5A external-priority patent/CN113627172B/zh
Publication of CN113627172A publication Critical patent/CN113627172A/zh
Application granted granted Critical
Publication of CN113627172B publication Critical patent/CN113627172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及信息提取领域,尤其涉及一种基于多粒度特征融合和不确定去噪的实体识别方法及系统,包括使用Transformer对语料文本进行字粒度的多级局部特征提取,得到局部字粒度特征;使用jieba工具进行分词,并使用Glove预训练的词向量将得到的分词进行向量嵌入,得到全局词粒度特征;对分词后得到的词集进行编码,得到文本的词结构编码向量;将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中,最终得到识别的实体结果;本发明可对病理领域中文文本进行精准、全面的实体抽取,抽取效果较好。

Description

基于多粒度特征融合和不确定去噪的实体识别方法及系统
技术领域
本发明涉及信息提取、自然语言处理领域,尤其涉及一种基于多粒度特征融合和不确定去噪的实体识别方法及系统。
背景技术
实体识别旨在识别文本中具有特定含义的实体。MUC7(第七届信息理解会议)明确将命名实体分为7类名词实体:人名、地名、机构名称、日期、时间、金额和百分比值。目前,识别命名实体的任务越来越受到研究人员的研究,并已成为自然语言处理技术中越来越重要的一部分,例如信息提取、句法分析、自动抽取、机器翻译、问答系统、知识图谱等。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向;自然语言处理即实现人机间自然语言通信,这一领域的研究将涉及自然语言,即人们日常使用的语言。
发明内容
为了对中文病理文本进行精准、全面的实体抽取,本发明提出一种基于多粒度特征融合和不确定去噪的实体识别方法及系统,所述方法具体包括以下步骤:
S1、使用Transformer对语料文本进行字粒度的多级局部特征提取,得到文本的向量表示,即局部字粒度特征;
S2、使用jieba工具进行分词,并使用Glove预训练的词向量将得到的分词进行向量嵌入,得到文本的向量表示,即全局词粒度特征;
S3、针对实体结构的特点,对分词后得到的词集进行编码,得到文本的词结构编码向量;
S4、将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;
S5、将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中,最终得到识别的实体结果。
进一步的,对分词后得到的词集进行编码,得到文本的词结构编码向量包括根据字在用jieba工具进行分词后的词中的位置对字符进行编码,若该字位于词的左边界则编码为1,若位于词的中间位置则编码为2,若位于词的右边界则编码为3,若该词仅包含单个字则编码为0。
进一步的,将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合的过程中,先将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征使用向量的加法进行融合,再将融合后的特征与词结构编码进行拼接操作。
进一步的,将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中进行序列标注包括以下步骤:
将BiGRU输出得到的概率矩阵送入自注意力机制层来获取每个字符的概率矩阵P;
自注意力机制层根据每个字符的概率矩阵P计算该字符的不确定性,并获取需要删除的具有高不确定性的数据索引;
根据数据索引删除不确定性大于设定阈值的数据,将其余未删除数据作为自注意力机制层的输出;
将自注意力机制层的输出送入CRF层,进行序列标注,预测得到实体的识别结果。
进一步的,根据每个字符的概率矩阵P计算该字符的不确定性包括:
Figure BDA0003180224020000021
其中,Vuc表示字符的不确定性;n为句子中的字符数;pj为长度为n的文本中第j个字对应每个标签的概率。
进一步的,根据数据索引删除不确定性大于设定阈值的数据包括以下步骤:
del_num=sort(Vuc)≥k[:del_index];
Figure BDA0003180224020000031
其中,Vuc表示字符的不确定性,k为设定的不确定性阈值;x表示当前epoch值,N为输入数据总数,es表示epoch开始计算不确定值的初始值,λ1为不确定因子;si为控制高不确定性数据的删除程度。
进一步的,索引值为i样本的控制高不确定性数据的删除程度si表示为:
Figure BDA0003180224020000032
其中,w1和w2控制每次删除的高不确定数据量的趋势;λ2为不确定因素。
本发明提出一种基于多粒度特征融合和不确定去噪的实体识别系统,包括预处理模块、局部字粒度特征提取模块、全局词粒度特征提取模块、编码模块、融合模块以及识别模块,其中:
预处理模块,用于对输入的语句使用jieba工具进行分词
局部字粒度特征提取模块,使用Transformer对语料文本进行字粒度的多级局部特征提取,得到文本的向量表示,即局部字粒度特征;
全局词粒度特征提取模块,使用Glove预训练的词向量将预处理模块得到的分词进行向量嵌入,得到文本的向量表示,即全局词粒度特征;
编码模块,将预处理模块得到的分词进行编码,得到文本的词结构编码向量;
融合模块,将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;
识别模块,将融合的特征输入BiGRU+CRF的序列标注模型进行训练,完成训练后用于根据输入该模型的融合特征对应文本中的实体。
进一步的,编码模块中对分词后得到的词集进行编码,得到文本的词结构编码向量包括根据字在用jieba工具进行分词后的词中的位置对字符进行编码,若该字位于词的左边界则编码为1,若位于词的中间位置则编码为2,若位于词的右边界则编码为3,若该词仅包含单个字则编码为0。
进一步的,融合模块将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合的过程中,先将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征使用向量的加法进行融合,再将融合后的特征与词结构编码进行拼接操作。
进一步的,所述识别模块的BiGRU+CRF的序列标注模型包括BiGRU层、注意力机制层以及CRF层,将特征输入将融合后得到的文本特征送入BiGRU层,得到文本的概率矩阵;将文本的概率矩阵输入到自注意力机制层来获取每个字符的概率矩阵,并计算每个字符的不确定性,根据不确定性值和数据索引删除不确定性高于设定阈值的数据;将完成删除的数据输入CRF层进行序列标注,完成实体识别。
本发明可对中文病理领域文本进行精准、全面的实体抽取,与现有的实体提取方法相比抽取效果较好。
附图说明
图1是本发明实施例提供的一种基于多粒度特征融合和不确定去噪的实体识别框架图;
图2是本发明实施例中多粒度特征提取及融合方法的流程框架图;
图3是本发明实施例中不确定性监督模型优化方法的流程框架图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出基于多粒度特征融合和不确定去噪的实体识别方法,具体包括以下步骤:
S1、使用Transformer对语料文本进行字粒度的多级局部特征提取,得到文本的向量表示,即局部字粒度特征;
S2、使用jieba工具进行分词,并使用Glove预训练的词向量将得到的分词进行向量嵌入,得到文本的向量表示,即全局词粒度特征;
S3、针对金实体结构的特点,对分词后得到的词集进行编码,得到文本的词结构编码向量;
S4、将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;
S5、将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中,最终得到识别的实体结果。
实施例1
本实施例提供了一种针对中文医疗领域文本的实体抽取,其实体抽取的整体流程,如图1所示;多粒度特征提取和特征融合流程,如图2所示。本实施采用的语料库为中文语料库,所属领域为病理领域,对中文病理语料进行分词的工具为基于python的开源工具库jieba分词,其具体实施如下:
将原始的中文病理文本句子输入到Transformer中,对于在多个字符粒度上提取的局部特征,将特征维度设置为200维。假设一个句子可以通过Transformer神经网络得到输出向量Wlocal。每个词对应的特征向量为
Figure BDA0003180224020000051
对于在词粒度上提取的全局特征,将特征维度也设置为200维。将原始的中文病理文本句子进行jieba分词,然后经过Glove映射,可以得到输出向量Wglobal,其中每个词对应的特征向量是,
Figure BDA0003180224020000052
此时将多级局部特征和全局特征进行融合,使用如下公式:
Figure BDA0003180224020000053
在一个句子中,
Figure BDA0003180224020000054
代表第i个字的字向量,
Figure BDA0003180224020000055
代表第i个字所在词的词向量,Vi c代表第i个字融合后的特征向量,此时该向量表示为:Vi c=(X1+Y1,X2+Y2,...,X200+Y200)。
对于词结构特征,采用一种词结构编码方式对其进行编码为20维的特征向量。首先使用jieba工具对文本进行分词。例如“肝细胞性肝癌伴部分胆管上皮分化”这句话会被分割为["肝细胞性""肝癌""伴""部分""胆管""上皮""分化"]。然后根据字在词中的位置对字符进行编码,当它位于词的左边界、中间位置或词的右边界时,将分别编码为1、2或3。此外,当它是单个字时,它会被编码为0。其中,“肝细胞性”编码为1223,“肝癌”编码为13,“伴”编码为0,“部分”编码为13,“胆管”编码为13,“上皮”编码为13,“分化”编码为13。我们可得到编码结果[1223 13 0 13 13 13 13],这样我们将文本数据转化为了数字表示。使用tf.global_variables_initializer方法随机初始化一个具有每个词结构编码值({0,1,2,3})的矩阵,然后,可以得到每个句子Vstructure的词结构特征矩阵,Vstructure是一个矩阵维度n×20,其中n是句子中的字数,20是词结构特征的维度,即第i个字表示为
Figure BDA0003180224020000061
最后,将融合所有特征。现在使用concat方法将词结构特征与之前的特征融合操作的结果连接起来:
Figure BDA0003180224020000062
这样最终得到的文本特征表示为120维的特征向量:
Figure BDA0003180224020000063
Figure BDA0003180224020000064
将最终得到的新特征向量送入BiGRU+CRF的序列标注模型,预测得到实体的识别结果。
实施例2
为了减轻实体类别太少导致的识别错误,本实施例在实施例1的基础上,将BiGRU输出得到的概率矩阵送入自注意力机制层来获取每个字符P的概率矩阵,具体实施过程框图如图3所示。其中,P(n*t)=[Pn1,Pn2,…,Pnt]是一个n*t维度的矩阵,n是句子中的字符数,t是潜在标签的数量。得到矩阵P后,将不确定值设置为Vuc(Vuc表示每个数据中包含的不确定值,由每个数据中每个字符的矩阵P决定)。Vuc越大,实体混淆模型的可能性就越大。然后,计算和排序每个数据的Vuc。Vuc的计算公式为:
Figure BDA0003180224020000071
之后,通过设计的超参数计算需要删除的具有高不确定性的数据索引:
Figure BDA0003180224020000072
其中,x表示当前epoch值,N为输入数据总数,es表示epoch开始计算不确定值的初始值,λ1为不确定因子;si控制高不确定性数据的删除程度。值越大,删除的数据越多。si的计算公式为:
Figure BDA0003180224020000073
这里,λ2也是不确定因素,w1和w2控制每次删除的高不确定数据量的趋势;一般来说,每次删除的高不确定性数据量会逐渐减少,根据del_index删除原始数据中的高不确定性数据。用不确定数据替换原始数据以继续迭代训练。del_num的计算公式为:
del_num=sort(Vuc)≥k[:del_index]
其中,k是关于不确定性的阈值。通过模型优化结合监督方法,可以在训练过程中动态删除原始数据中存在的高不确定性数据,这对于减少高不确定性数据的影响至关重要。
最后,将自注意力层输出送入CRF层,进行序列标注,预测得到实体的识别结果。
实施例3
本实施例提出一种基于多粒度特征融合的中文病理实体识别系统,包括预处理模块、局部字粒度特征提取模块、全局词粒度特征提取模块、编码模块、融合模块以及识别模块,其中:
预处理模块,用于对输入的语句使用jieba工具进行分词
局部字粒度特征提取模块,使用Transformer对语料文本进行字粒度的多级局部特征提取,得到文本的向量表示,即局部字粒度特征;
全局词粒度特征提取模块,使用Glove预训练的词向量将预处理模块得到的分词进行向量嵌入,得到文本的向量表示,即全局词粒度特征;
编码模块,将预处理模块得到的分词进行编码,得到文本的词结构编码向量;
融合模块,将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;
识别模块,将融合的特征输入BiGRU+CRF的序列标注模型进行训练,完成训练后用于根据输入该模型的融合特征对应文本中的实体。
进一步的,编码模块中对分词后得到的词集进行编码,得到文本的词结构编码向量包括根据字在用jieba工具进行分词后的词中的位置对字符进行编码,若该字位于词的左边界则编码为1,若位于词的中间位置则编码为2,若位于词的右边界则编码为3,若该词仅包含单个字则编码为0。
进一步的,融合模块将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合的过程中,先将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征使用向量的加法进行融合,再将融合后的特征与词结构编码进行拼接操作。
实施例4
本实施例根据实施例1~3提供的方法或者系统,与现有识别方案进行对比试验。
一个肝胆病理中文文本命名实体识别数据集Data_1和一个中药说明书实体识别数据集Data_2上进行对比试验。
实验环境搭建如下:windows10 64位操作系统,Intel(R)Core(TM)i5-4590@3.3GHz处理器,16G内存,16G内存GTX2080,编程环境:python 3.6.5,tensorflow 1.14.0,jieba 0.39,zhon 1.1.5。
本实施例使用Precision(P)、Recall(R)和F-measure(F1)作为实验评估指标:
Figure BDA0003180224020000091
Figure BDA0003180224020000092
Figure BDA0003180224020000093
这里TP(True Positive)是正确识别的实体数量。FP(False Positive)是被错误识别为实体的个数。FN(False Negative)是未识别的实体数。
在模型的训练中,参数对模型最终的精度和鲁棒性影响很大。为防止模型过拟合,在模型每一层的输出中加入了Dropout,经过多次实验参与,选出效果较好的模型参数如表1所示。
表1
Figure BDA0003180224020000094
Figure BDA0003180224020000101
为了验证本文提出的基于多粒度特征融合的模型的有效性,我们对上述两个公共语料进行了实验评估。在采用Bi-GRU-CRF模型作为Baseline模型的同时,采用提出的Trans-Bi-GRU-CRF模型作为最终的实验模型,与Bi-LSTM、GRAM-CNN、Bi-LSTM+POS、CAN-NER和ID-CNNs-CRF。所有模型都使用预先训练好的Glove向量,最终结果使用5折交叉验证的结果。两个数据集上的结果分别如表2和表3所示。
表2
Figure BDA0003180224020000102
表3
Figure BDA0003180224020000103
Figure BDA0003180224020000111
从表2、表3中,可以发现所提出的方法在两个数据集上的结果比其他方法更好。在Data_1数据集上,与其他模型相比,本发明开发的模型将F1值提高了3.56%至7.16%,准确率提高了2.24%至6.32%,召回率提高了0.98%至8.88%。在Data_2数据集上,本发明的模型将F1值提高了1.81%到4.27%,准确率提高了1.78%到4.57%,召回率提高了1.32%到3.94%。造成上述效果的原因有2个:一是Transformer包含多个多头注意力机制,因此我们的模型可以获得丰富的多级局部特征信息;同时,本发明采用词结构编码特征,保证复合实体和缩略实体的信息完整性,然后模型可以在学习过程中充分利用全局特征和多级局部特征进行预测。
表4
Figure BDA0003180224020000112
表5
Figure BDA0003180224020000121
从表4、表5可以发现,本文提出的使用不确定监督方法的模型优化方法可以改进现有模型。在现有的五个模型中加入优化过程后,这些模型的F1值都得到了提高,同时这些模型的大部分准确率和召回率也比原来的有所提高。分析原因可以发现:在模型迭代过程中,每当数据经过模型优化层时,都会识别并删除一些高不确定性的数据。例如,一些病理名称在一条数据中被标记为实体,而在另一条数据中没有标记,这使得它们的不确定性更高。如果删除了高不确定性的数据,可能会在迭代训练过程中使模型朝着正确的方向学习。因此,与所提出的模型优化方法融合,现有模型在实体识别方面都将会有一些提升。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,具体包括以下步骤:
S1、使用Transformer对语料文本进行字粒度的多级局部特征提取,得到文本的向量表示,即局部字粒度特征;
S2、使用jieba工具进行分词,并使用Glove预训练的词向量将得到的分词进行向量嵌入,得到文本的向量表示,即全局词粒度特征;
S3、针对实体结构的特点,对分词后得到的词集进行编码,得到文本的词结构编码向量;
S4、将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;
S5、将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中,最终得到识别的实体结果。
2.根据权利要求1所述的基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,对分词后得到的词集进行编码,得到文本的词结构编码向量包括根据字在用jieba工具进行分词后的词中的位置对字符进行编码,若该字位于词的左边界则编码为1,若位于词的中间位置则编码为2,若位于词的右边界则编码为3,若该词仅包含单个字则编码为0。
3.根据权利要求1所述的基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,将融合后得到的文本特征送入BiGRU+CRF的序列标注模型中进行序列标注包括以下步骤:
将BiGRU输出得到的概率矩阵送入自注意力机制层来获取每个字符的概率矩阵P;
自注意力机制层根据每个字符的概率矩阵P计算该字符的不确定性,并获取需要删除的具有高不确定性的数据索引;
根据数据索引删除不确定性大于设定阈值的数据,将其余未删除数据作为自注意力机制层的输出;
将自注意力机制层的输出送入CRF层,进行序列标注,预测得到实体的识别结果。
4.根据权利要求3所述的基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,根据每个字符的概率矩阵P计算该字符的不确定性包括:
Figure FDA0003180224010000021
其中,Vuc表示字符的不确定性;n为句子中的字符数;pj为长度为n的文本中第j个字对应每个标签的概率。
5.根据权利要求3所述的基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,根据数据索引删除不确定性大于设定阈值的数据包括以下步骤:
del_num=sort(Vuc)≥k[:del_index];
Figure FDA0003180224010000022
其中,Vuc表示字符的不确定性,k为设定的不确定性阈值;x表示当前epoch值,N为输入数据总数,es表示epoch开始计算不确定值的初始值,λ1为不确定因子;si为控制高不确定性数据的删除程度。
6.根据权利要求1所述的基于多粒度特征融合和不确定去噪的实体识别方法,其特征在于,索引值为i样本的控制高不确定性数据的删除程度si表示为:
Figure FDA0003180224010000023
其中,w1和w2控制每次删除的高不确定数据量的趋势;λ2为不确定因素。
7.基于多粒度特征融合和不确定去噪的实体识别系统,其特征在于,包括预处理模块、局部字粒度特征提取模块、全局词粒度特征提取模块、编码模块、融合模块以及识别模块,其中:
预处理模块,用于对输入的语句使用jieba工具进行分词
局部字粒度特征提取模块,使用Transformer对语料文本进行字粒度的多级局部特征提取,得到文本的向量表示,即局部字粒度特征;
全局词粒度特征提取模块,使用Glove预训练的词向量将预处理模块得到的分词进行向量嵌入,得到文本的向量表示,即全局词粒度特征;
编码模块,将预处理模块得到的分词进行编码,得到文本的词结构编码向量;
融合模块,将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合;
识别模块,将融合的特征输入BiGRU+CRF的序列标注模型进行训练,完成训练后用于根据输入该模型的融合特征对应文本中的实体。
8.根据权利要求1所述的基于多粒度特征融合和不确定去噪的实体识别系统,其特征在于,编码模块中对分词后得到的词集进行编码,得到文本的词结构编码向量包括根据字在用jieba工具进行分词后的词中的位置对字符进行编码,若该字位于词的左边界则编码为1,若位于词的中间位置则编码为2,若位于词的右边界则编码为3,若该词仅包含单个字则编码为0。
9.根据权利要求7所述的基于多粒度特征融合和不确定去噪的实体识别系统,其特征在于,融合模块将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征与词结构编码特征进行融合的过程中,先将Transformer得到的局部字粒度特征、Glove得到的全局词粒度特征使用向量的加法进行融合,再将融合后的特征与词结构编码进行拼接操作。
10.根据权利要求7所述的基于多粒度特征融合和不确定去噪的实体识别系统,其特征在于,所述识别模块的BiGRU+CRF的序列标注模型包括BiGRU层、注意力机制层以及CRF层,将特征输入将融合后得到的文本特征送入BiGRU层,得到文本的概率矩阵;将文本的概率矩阵输入到自注意力机制层来获取每个字符的概率矩阵,并计算每个字符的不确定性,根据不确定性值和数据索引删除不确定性高于设定阈值的数据;将文本的概率矩阵输入CRF层进行序列标注,完成实体识别,并使用删除高不确定性样例后的数据集用于模型的监督训练,可以起到优化模型的作用。
CN202110845130.5A 2021-07-26 基于多粒度特征融合和不确定去噪的实体识别方法及系统 Active CN113627172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110845130.5A CN113627172B (zh) 2021-07-26 基于多粒度特征融合和不确定去噪的实体识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110845130.5A CN113627172B (zh) 2021-07-26 基于多粒度特征融合和不确定去噪的实体识别方法及系统

Publications (2)

Publication Number Publication Date
CN113627172A true CN113627172A (zh) 2021-11-09
CN113627172B CN113627172B (zh) 2024-07-09

Family

ID=

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114932A (zh) * 2022-06-24 2022-09-27 重庆邮电大学 一种基于关键词的多粒度中文短文本匹配方法
CN117423470A (zh) * 2023-10-30 2024-01-19 盐城市第三人民医院 一种慢性病临床决策支持系统及构建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019220128A1 (en) * 2018-05-18 2019-11-21 Benevolentai Technology Limited Graph neutral networks with attention
CN110807328A (zh) * 2019-10-25 2020-02-18 华南师范大学 面向法律文书多策略融合的命名实体识别方法及系统
CN111079377A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种面向中文医疗文本命名实体识别的方法
CN111310468A (zh) * 2020-01-15 2020-06-19 同济大学 一种利用不确定分词信息实现中文命名实体识别方法
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN113011189A (zh) * 2021-03-26 2021-06-22 深圳壹账通智能科技有限公司 开放式实体关系的抽取方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019220128A1 (en) * 2018-05-18 2019-11-21 Benevolentai Technology Limited Graph neutral networks with attention
CN110807328A (zh) * 2019-10-25 2020-02-18 华南师范大学 面向法律文书多策略融合的命名实体识别方法及系统
CN111079377A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种面向中文医疗文本命名实体识别的方法
CN111310468A (zh) * 2020-01-15 2020-06-19 同济大学 一种利用不确定分词信息实现中文命名实体识别方法
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN113011189A (zh) * 2021-03-26 2021-06-22 深圳壹账通智能科技有限公司 开放式实体关系的抽取方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUAN WANG等: "Pattern-enhanced Named Entity Recognition with Distant Supervision", 《IEEE》, 19 March 2021 (2021-03-19), pages 818 - 827 *
王炜华: "蒙古文命名实体识别研究", 《中国优秀博士学位论文全文数据库 信息科技辑》, 15 February 2019 (2019-02-15), pages 138 - 129 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115114932A (zh) * 2022-06-24 2022-09-27 重庆邮电大学 一种基于关键词的多粒度中文短文本匹配方法
CN117423470A (zh) * 2023-10-30 2024-01-19 盐城市第三人民医院 一种慢性病临床决策支持系统及构建方法
CN117423470B (zh) * 2023-10-30 2024-04-23 盐城市第三人民医院 一种慢性病临床决策支持系统及构建方法

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN110287481B (zh) 命名实体语料标注训练系统
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
Wang et al. Fret: Functional reinforced transformer with bert for code summarization
CN112101027A (zh) 基于阅读理解的中文命名实体识别方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN112183094A (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN109872775B (zh) 一种文献标注方法、装置、设备及计算机可读介质
CN114926150A (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN110427612A (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Kang et al. A research toward Chinese named entity recognition based on transfer learning
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
Bouaine et al. Word Embedding for High Performance Cross-Language Plagiarism Detection Techniques.
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN113627172B (zh) 基于多粒度特征融合和不确定去噪的实体识别方法及系统
CN113627172A (zh) 基于多粒度特征融合和不确定去噪的实体识别方法及系统
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
CN114943235A (zh) 一种基于多类语言模型的命名实体识别方法
CN114548108A (zh) 一种融合多特征的电力调度文本实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240603

Address after: 518000, Building A, Rongchao Binhai Building, No. 2021 Haixiu Road, N26 Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong Province, China, 210-2

Applicant after: Shenzhen Yuxin Technology Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China

GR01 Patent grant