CN116151260A - 一种基于半监督学习的糖尿病命名实体识别模型构建方法 - Google Patents

一种基于半监督学习的糖尿病命名实体识别模型构建方法 Download PDF

Info

Publication number
CN116151260A
CN116151260A CN202310189507.5A CN202310189507A CN116151260A CN 116151260 A CN116151260 A CN 116151260A CN 202310189507 A CN202310189507 A CN 202310189507A CN 116151260 A CN116151260 A CN 116151260A
Authority
CN
China
Prior art keywords
sample
model
samples
named entity
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310189507.5A
Other languages
English (en)
Inventor
郭永安
左静怡
钱琪杰
王宇翱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310189507.5A priority Critical patent/CN116151260A/zh
Publication of CN116151260A publication Critical patent/CN116151260A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于半监督学习的糖尿病命名实体识别模型构建方法,其网络结构包括两个模块,一个模块是命名实体识别(NER)模块,包括BERT嵌入层、BERT模型、CRF模型和生成对抗训练。其中,BERT嵌入层加和三个向量作为BERT模型的输入;BERT模型对输入字符上下文信息进行捕获,学习语义特征;CRF模型提取标签间的约束关系,计算最优标签序列;生成对抗训练通过对已标注样本和未标注样本的潜在变量分布之间的训练,优化命名实体识别模型。另一个模块是半监督学习模块,通过迭代训练优化模型。本发明的命名实体识别模型能充分利用未标注样本,优化命名实体识别模型,并在少量标注样本的情况下,达到良好的命名实体识别效果。

Description

一种基于半监督学习的糖尿病命名实体识别模型构建方法
技术领域
本发明涉及命名实体识别领域,具体涉及一种针对糖尿病文本少样本命名实体识别的基于半监督学习的生成模型构建方法。
背景技术
随着互联网信息时代的快速发展,大量结构复杂、内容冗余的文本信息不断呈现在互联网上,数量呈爆炸性增长。而且,随着国民健康意识的不断提高和医疗领域信息化的稳步发展,现代医疗系统积累了大量的医疗数据。在此背景下,对海量医疗数据的提取和利用,是目前的一大挑战,也是当前的研究热点。命名实体识别(NER)是信息抽取的前提,抽取有价值的实体可以发挥很大的作用,是问答系统、构建知识图谱等自然语言处理任务的一项重要基础技术。因此,研究糖尿病文本的命名实体识别对未来智能医疗在糖尿病方面的发展具有重要意义。
在糖尿病命名实体识别任务中,早期使用的方法是基于规则的方法和基于词典的方法,需要相关领域的专家手动构建一些规则模板,这种方法耗费人工,花费昂贵。随后,出现了基于统计机器学习和深度学习的方法,它们都依赖大量高质量的标注数据来提高命名实体识别的性能。而在实际应用中,标注的数据非常有限且注释样本的成本高,标注数据的缺乏会使得上述方法在命名实体识别上的效果不佳。虽然标注的数据不易获得,但大量的未标注的数据却很容易获得,上述方法聚焦已标注的样本,却忽略了未标注样本资源,导致资源的浪费。
发明内容
发明目的:为了解决糖尿病文本中舍弃大量未标注样本而造成的资源浪费,及缺乏标注样本的问题,本发明提出一种基于半监督学习的糖尿病命名实体识别模型构建方法。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:
一种基于半监督学习的糖尿病命名实体识别模型构建方法,包括以下步骤:
获取实体样本数据,定义糖尿病实体类型,对一定量的实体样本数据进行标注,得到已标注样本和未标注样本,以及已标注样本的实体标签;
采用生成对抗网络GAN,包括生成器和判别器,已标注样本及其标签和未标注样本输入生成器,生成器输出未标注样本的预测标签,并形成已标注样本的潜在变量和未标注样本的潜在变量;
已标注样本的潜在变量和未标注样本的潜在变量输入判别器,判别器识别已标注样本的潜在变量和未标注样本潜在变量的分布的差异;
进行生成对抗训练,若已标注样本的潜在变量和未标注样本的潜在变量的分布不相同,则继续训练,若相同,训练结束,形成命名实体识别模型;
使用半监督学习中的自训练框架,利用已标注样本和未标注样本初始化命名实体识别模型,通过迭代训练优化命名实体识别模型;
利用优化后的命名实体识别模型的生成器对待识别的未标注样本进行嵌入,输出未标注样本的预测标签。
进一步的,所述生成器由BERT嵌入层、BERT模型和CRF模型组成,对未标注样本的实体标签进行预测,具体包括:
所述BERT嵌入层,由位置编码向量、段编码向量、词的向量组成;
所述位置编码向量,用于BERT学习到输入的顺序属性;所述段编码向量,用于辅助BERT区别句子对中的两个句子的向量;
所述位置编码向量、段编码向量、词的向量做加和形成最终的编码向量,输入至BERT模型中;
所述BERT模型,对输入字符的上下文信息进行捕获,学习输入中的字符特征和句法特征,提取句子中的语义特征,并将语义特征传至CRF模型;
所述CRF模型,根据BERT模型的输出,通过最大化条件似然估计,提取标签之间的约束关系,输出最优标签序列。
进一步的,所述生成对抗训练分为两个阶段,第一阶段是生成器利用已标注样本,最大化条件似然估计,第二阶段是生成器对未标注样本进行嵌入,输出未标注样本的预测标签;生成对抗过程具体步骤如下:
S1:通过BERT模型的输出和CRF模型的输出的乘积,形成已标注样本的潜在变量VL和未标注样本的潜在变量VU
S2:将已标注样本的潜在变量VL和未标注样本的潜在变量VU作为判别器的输入;
S3:生成器以判别器无法辨别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异为目标,目标函数如公式(3):
Figure BDA0004105018300000021
S4:判别器辨别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异,目标函数如公式(4):
Figure BDA0004105018300000022
式中
Figure BDA0004105018300000023
表示VU的分布,/>
Figure BDA0004105018300000024
表示VL的分布,vU和vL分别表示新输入的未标注样本的潜在变量和已标注样本的潜在变量,φ和/>
Figure BDA0004105018300000025
分别代表生成器参数和判别器参数,/>
Figure BDA0004105018300000026
表示判别器,E表示期望值;
S5:通过生成对抗训练,使得已标注样本潜在变量的分布和未标注样本潜在变量的分布相同。
进一步的,使用半监督学习中的自训练框架优化命名实体识别模型,具体步骤如下:
S1:将已标注样本和未标注样本放入命名实体识别模型中进行初步训练,形成初步的已标注样本数据集L和伪标签样本数据集U;
S2:计算伪标签样本数据集U中各样本的置信度;
S3:对样本置信度高于阈值的样本进行标注,并放入已标注样本数据集L中,并在伪标签样本数据集U中将其删去;
S4:将更新后的已标注样本数据集L和伪标签样本数据集U放入命名实体识别模型中继续训练;
S5:重复S2-S4,直至伪标签样本全部标记完成后,训练结束。
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
本发明利用未标注样本优化命名实体识别(NER)模型。通过生成对抗训练,利用已标注样本和未标注样本的潜在变量的分布进行训练,充分利用未标注样本,对NER进行优化,减少资源浪费。
本发明解决缺乏大量标注数据集问题。通过半监督学习中的自训练模型,利用少量标记样本完成NER任务,减少人工成本,获得良好的NER效果。本发明构建了一个大规模、高质量的糖尿病标注数据集,为其他自然语言处理任务提供了良好的基础。
附图说明
图1是BERT模型图;
图2是生成器模型图;
图3是判别器模型图;
图4是半监督学习流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。
本发明所述的一种基于半监督学习的糖尿病命名实体识别模型构建方法,将半监督学习与生成模型结合,应用于糖尿病命名实体识别任务,包括如下步骤:
步骤一、数据预处理。
获取实体样本数据,定义糖尿病实体类型,对一定量的实体样本数据进行标注,得到已标注样本和未标注样本,以及已标注样本的实体标签。
(1)定义糖尿病实体类型,分别是疾病名称(Disease)、病因(Reason)、临床表现(Symptom),检查方法(Test)、检查指标值(Test_Value)、药品名称(Drug)、用药频率(Frequency)、用药剂量(Treatment)、用药方法(Method)、非药治疗(Treatment)、手术(Operation)、不良反应(SideEff)、部位(Anatomy)、程度(Level)、持续时间(Duration)。
(2)采用BIO标注方法,将每个字标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示该字所在的片段属于X类型并且该字在此片段的开头,“I-X”表示该字所在的片段属于X类型并且该字在此片段的中间位置,“O”表示不属于任何类型。例如:“糖尿病患者”中,“糖”标注为“B-Disease”,“尿”标注为“I-Disease”,“病”标注为“I-Disease”,“患”标注为“O”,“者”标注为“O”。
步骤二、命名实体识别网络结构。
命名实体识别网络结构包括两个模块,一个是NER模块,一个是半监督学习模块。
NER模块:采用了生成对抗网络(GAN),由一个生成器和一个判别器组成,在NER模块中,生成器模型如图2所示,判别器模型如图3所示。通过生成对抗训练,利用已标记样本和未标记样本对命名实体识别性能进行优化。
生成器由BERT嵌入层、BERT模型和CRF模型组成,用于对未标注样本的实体标签进行预测,具体如下:
BERT(Bidirectional Encoder Representation from Transformers)嵌入层,由位置编码向量(position embeddings)、段编码向量(segment embeddings)、词的向量(token embeddings)组成。位置编码向量,让BERT学习到输入的顺序属性;段编码向量,辅助BERT区别句子对中的两个句子的向量。将上述三个向量直接做加和形成最终的编码向量,作为BERT模型的输入向量。
BERT模型:2018年10月由Google AI研究院提出的一种基于深度学习的语言表示模型。它对输入字符的上下文信息进行捕获,学习输入中的字符特征和句法特征。BERT模型通过注意力机制在对当前字符进行编码时能够关注到序列中其余字符对当前字符的影响,并通过该方式更好地融合上下文信息,提高向量表示的合理性。由于采用了注意力机制,使得BERT模型能够根据字符所处的上下文环境对其进行动态表示,解决中文环境中常见的多义词问题,改善实体识别的效果。
BERT模型如图1所示,BERT预训练包括两项基本任务,掩藏语言模型(MaskedLanguage Model,MLM)和相邻句预测(Next Sentence Predication,NSP)。对于中文文本,掩藏语言模型通过将字进行掩盖,从而学习其上下文内容特征来预测被掩盖的字。相邻句预测通过学习句子间关系特征,预测两个句子的位置是否相邻。这两种训练目标分别针对词级别和句子级别两种文本特征完成对大规模无标注文本的自监督学习,自动学习自然语言的表达方式,并将这些语义特征传至CRF(Conditional Random Field)模型。
CRF模型:BERT模型的输出向量输入CRF模型,提取标签之间的约束关系,确保输出是最合理的标签序列,计算最优标签序列。所述标签是指每一个中文字的标签,也就是上述的B-X,I-X,O。CRF是一种条件概率分布模型,通过学习标签序列的相关性和顺序,最大化条件似然估计,具体计算如公式(1),概率公式具体计算如公式(2)。
Figure BDA0004105018300000051
Figure BDA0004105018300000052
Figure BDA0004105018300000053
Figure BDA0004105018300000054
其中z={z1,z2,...,zi,...,zn}表示输入的序列,zi表示第i个字的向量,n代表序列的长度,W,b表示权重向量和偏差,y={y1,y2,...,yn}表示句子z的标签,yi是句子z中第i个字的标签。y(z)是句子z可能的标签,y'i是句子z某一种可能标签y'的第i个字的标签。ψi(yi-1,yi,z)和ψi(y'i-1,y'i,z)均为势函数,
Figure BDA0004105018300000055
和by',y分别为标签对(y',y)的权重向量和偏差。
BERT嵌入层将句子的位置编码向量、段编码向量、词的向量加和,表示成向量(E1,E2,E3,...,En),其中Ei(i=1,2,...,n)代表字的编码向量,将其输入至BERT模型中。BERT模型通过训练提取句子中的语义特征,得到输出向量(T1,T2,T3,…,Tn),其中Ti(i=1,2,...,n)代表字的特征向量,并将这些特征向量传到CRF模型。CRF模型根据BERT模型的输出,通过最大化条件似然估计,输出最优标签序列(y1,y2,y3,...,yn),其中yi(i=1,2,...,n)代表每个字的标签。
判别器是一个基于卷积神经网络(CNN)的网络,判别器的主要作用是识别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异。
生成对抗训练:利用生成对抗网络,进行生成对抗训练,其中生成器为BERT-CRF,判别器为基于CNN的网络。通过生成器与判别器的之间的对抗,不仅可通过已标注样本优化命名实体识别性能,还可通过未标注样本最大化命名实体识别性能。
生成对抗训练分为两个阶段:第一个阶段,是生成器利用已标注样本,通过公式(2),最大化条件似然估计。第二阶段是生成器对未标注样本进行嵌入,输出未标注样本的预测标签。生成对抗过程具体步骤如下:
S1:通过BERT模型的输出和CRF模型的输出的乘积,形成已标注样本的潜在变量VL和未标注样本的潜在变量VU
S2:将已标注样本的潜在变量VL和未标注样本的潜在变量VU作为判别器的输入。
S3:生成器试图欺骗判别器,使其无法辨别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异,具体计算如公式(3):
Figure BDA0004105018300000056
S4:判别器努力辨别标注样本潜在变量的分布和未标注样本潜在变量的分布的差异,具体计算如公式(4):
Figure BDA0004105018300000061
式中
Figure BDA0004105018300000062
表示VU的分布,/>
Figure BDA0004105018300000063
表示VL的分布,vU和vL分别表示新输入的未标注样本的潜在变量和已标注样本的潜在变量,φ和/>
Figure BDA0004105018300000064
分别代表生成器参数和判别器参数,/>
Figure BDA0004105018300000065
表示判别器,E表示期望值;
S5:通过生成对抗训练,使已标注样本潜在变量的分布和未标注样本潜在变量的分布相同,如图3所示,若两者不相同(判别器输出False),则继续训练,若两者相同(判别器输出True),生成对抗训练结束,NER模型形成,则进入半监督学习模块。
半监督学习模块:利用少量已标注样本初始化模型,通过迭代训练优化模型。
本发明使用了半监督学习中的自训练框架,如图4所示,具体步骤如下:
S1:将已标注样本和未标注样本放入NER模型中进行初步训练,形成初步的已标注样本数据集L和伪标签(未标注样本的预测标签)样本数据集U;
S2:计算伪标签样本数据集U中各样本的置信度;
S3:对样本置信度高于阈值的样本进行标注,并放入已标注样本数据集L中,并在伪标签样本数据集U中将其删去;
S4:将更新后的已标注样本数据集L和伪标签样本数据集U放入NER模型中继续训练;
S5:重复S2-S4,直至伪标签样本全部标记完成后,训练结束。
评价指标:本发明使用精确率P、召回率R和F1值对模型进行衡量,证明本模型在糖尿病命名实体识别上的有效性,精确率指识别正确的实体数与识别出实体总数的比值,召回率值正确识别的实体数与实体总数的比值。在某些情况下会出现精确率和召回率冲突的问题,因此利用F1值对P和R值综合考虑。
各指标具体计算如公式(5)-(7):
Figure BDA0004105018300000066
Figure BDA0004105018300000067
Figure BDA0004105018300000068
其中,TP,FP,FN分别为真正例,假正例和假反例的个数。真正例是指实际为正,预测也为正的样本;假正例是指实际为负,预测为正的样本;假反例是指实际为负。预测也为负的样本。

Claims (4)

1.一种基于半监督学习的糖尿病命名实体识别模型构建方法,其特征在于,包括以下步骤:
获取实体样本数据,定义糖尿病实体类型,对一定量的实体样本数据进行标注,得到已标注样本和未标注样本,以及已标注样本的实体标签;
采用生成对抗网络GAN,包括生成器和判别器,已标注样本及其标签和未标注样本输入生成器,生成器输出未标注样本的预测标签,并形成已标注样本的潜在变量和未标注样本的潜在变量;
已标注样本的潜在变量和未标注样本的潜在变量输入判别器,判别器识别已标注样本的潜在变量和未标注样本潜在变量的分布的差异;
进行生成对抗训练,若已标注样本的潜在变量和未标注样本的潜在变量的分布不相同,则继续训练,若相同,训练结束,形成命名实体识别模型;
使用半监督学习中的自训练框架,利用已标注样本和未标注样本初始化命名实体识别模型,通过迭代训练优化命名实体识别模型;
利用优化后的命名实体识别模型的生成器对待识别的未标注样本进行嵌入,输出未标注样本的预测标签。
2.根据权利要求1所述的基于半监督学习的糖尿病命名实体识别模型构建方法,其特征在于,所述生成器由BERT嵌入层、BERT模型和CRF模型组成,对未标注样本的实体标签进行预测,具体包括:
所述BERT嵌入层,由位置编码向量、段编码向量、词的向量组成;
所述位置编码向量,用于BERT学习到输入的顺序属性;所述段编码向量,用于辅助BERT区别句子对中的两个句子的向量;
所述位置编码向量、段编码向量、词的向量做加和形成最终的编码向量,输入至BERT模型中;
所述BERT模型,对输入字符的上下文信息进行捕获,学习输入中的字符特征和句法特征,提取句子中的语义特征,并将语义特征传至CRF模型;
所述CRF模型,根据BERT模型的输出,通过最大化条件似然估计,提取标签之间的约束关系,输出最优标签序列。
3.根据权利要求2所述的基于半监督学习的糖尿病命名实体识别模型构建方法,其特征在于,所述生成对抗训练分为两个阶段,第一阶段是生成器利用已标注样本,最大化条件似然估计,第二阶段是生成器对未标注样本进行嵌入,输出未标注样本的预测标签;生成对抗过程具体步骤如下:
S1:通过BERT模型的输出和CRF模型的输出的乘积,形成已标注样本的潜在变量VL和未标注样本的潜在变量VU
S2:将已标注样本的潜在变量VL和未标注样本的潜在变量VU作为判别器的输入;
S3:生成器以判别器无法辨别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异为目标,目标函数如公式(3):
Figure FDA0004105018290000021
S4:判别器辨别已标注样本潜在变量的分布和未标注样本潜在变量的分布的差异,目标函数如公式(4):
Figure FDA0004105018290000022
式中PVU表示VU的分布,PVL表示VL的分布,vU和vL分别表示新输入的未标注样本的潜在变量和已标注样本的潜在变量,φ和
Figure FDA0004105018290000023
分别代表生成器参数和判别器参数,/>
Figure FDA0004105018290000024
表示判别器,E表示期望值;
S5:通过生成对抗训练,使得已标注样本潜在变量的分布和未标注样本潜在变量的分布相同。
4.根据权利要求1-3任一所述的基于半监督学习的糖尿病命名实体识别模型构建方法,其特征在于,使用半监督学习中的自训练框架优化命名实体识别模型,具体步骤如下:
S1:将已标注样本和未标注样本放入命名实体识别模型中进行初步训练,形成初步的已标注样本数据集L和伪标签样本数据集U;
S2:计算伪标签样本数据集U中各样本的置信度;
S3:对样本置信度高于阈值的样本进行标注,并放入已标注样本数据集L中,并在伪标签样本数据集U中将其删去;
S4:将更新后的已标注样本数据集L和伪标签样本数据集U放入命名实体识别模型中继续训练;
S5:重复S2-S4,直至伪标签样本全部标记完成后,训练结束。
CN202310189507.5A 2023-02-28 2023-02-28 一种基于半监督学习的糖尿病命名实体识别模型构建方法 Pending CN116151260A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310189507.5A CN116151260A (zh) 2023-02-28 2023-02-28 一种基于半监督学习的糖尿病命名实体识别模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310189507.5A CN116151260A (zh) 2023-02-28 2023-02-28 一种基于半监督学习的糖尿病命名实体识别模型构建方法

Publications (1)

Publication Number Publication Date
CN116151260A true CN116151260A (zh) 2023-05-23

Family

ID=86358093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310189507.5A Pending CN116151260A (zh) 2023-02-28 2023-02-28 一种基于半监督学习的糖尿病命名实体识别模型构建方法

Country Status (1)

Country Link
CN (1) CN116151260A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540734A (zh) * 2024-01-10 2024-02-09 中南大学 一种中文医学实体标准化方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540734A (zh) * 2024-01-10 2024-02-09 中南大学 一种中文医学实体标准化方法、装置及设备
CN117540734B (zh) * 2024-01-10 2024-04-09 中南大学 一种中文医学实体标准化方法、装置及设备

Similar Documents

Publication Publication Date Title
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN110364251B (zh) 一种基于机器阅读理解的智能交互导诊咨询系统
CN110110324B (zh) 一种基于知识表示的生物医学实体链接方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN117151220B (zh) 一种基于实体链接与关系抽取的行业知识库系统及方法
CN112735597A (zh) 半监督自学习驱动的医学文本病症辨识方法
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
Peng et al. BG-SAC: Entity relationship classification model based on Self-Attention supported Capsule Networks
CN115688752A (zh) 一种基于多语义特征的知识抽取方法
CN114154504A (zh) 一种基于多信息增强的中文命名实体识别算法
Zhang et al. Using a pre-trained language model for medical named entity extraction in Chinese clinic text
CN115906857A (zh) 一种基于词汇增强的中医文本命名实体识别方法
CN116151260A (zh) 一种基于半监督学习的糖尿病命名实体识别模型构建方法
CN115630649A (zh) 一种基于生成模型的医学中文命名实体识别方法
CN111540470A (zh) 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法
CN114911947A (zh) 一种基于知识提示的概念抽取模型
CN113536799A (zh) 基于融合注意力的医疗命名实体识别建模方法
CN117112786A (zh) 一种基于图注意力网络的谣言检测方法
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN114298052B (zh) 一种基于概率图的实体联合标注关系抽取方法和系统
CN115964475A (zh) 一种用于医疗问诊的对话摘要生成方法
Wang et al. Bi-directional Joint Embedding of Encyclopedic Knowledge and Original Text for Chinese Medical Named Entity Recognition
Wu et al. Named entity recognition of rice genes and phenotypes based on BiGRU neural networks
CN114444467A (zh) 一种中医文献内容分析方法和装置
CN114722818A (zh) 一种基于对抗迁移学习的命名实体识别模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination