CN117313732B - 一种医疗命名实体识别方法、装置及存储介质 - Google Patents
一种医疗命名实体识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN117313732B CN117313732B CN202311608482.4A CN202311608482A CN117313732B CN 117313732 B CN117313732 B CN 117313732B CN 202311608482 A CN202311608482 A CN 202311608482A CN 117313732 B CN117313732 B CN 117313732B
- Authority
- CN
- China
- Prior art keywords
- data
- tag
- model
- medical
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 79
- 238000011156 evaluation Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000007781 pre-processing Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 239000012634 fragment Substances 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 8
- 239000003550 marker Substances 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000001502 supplementing effect Effects 0.000 claims description 5
- 241001122767 Theaceae Species 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 229940050561 matrix product Drugs 0.000 claims description 4
- 230000015654 memory Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 9
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 abstract description 2
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 210000000683 abdominal cavity Anatomy 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000968 intestinal effect Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 210000004291 uterus Anatomy 0.000 description 3
- 208000002249 Diabetes Complications Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 208000027993 eye symptom Diseases 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种医疗命名实体识别方法、装置及存储介质,属于自然语言处理技术领域,其包括:利用现有医疗文本训练得到命名实体识别模型,将待识别医疗文本输入命名实体识别模型,完成实体的提取,该模型的获取包括:对教师模型进行医疗领域的初始化训练,通过训练后的教师模型得到未标记字的伪标签,通过标签选择策略对所述伪标签进行选择,通过正伪标签、负伪标签及其对应的标记数据分别对学生模型进行训练,得到命名实体识别模型,利用医疗领域少量标记数据完成了命名实体识别任务,减少了人工成本,不仅通过标签选择减少了噪声标签进入模型,还通过性能评价指标的衡量获取了性能最优的模型,提升了命名实体识别的效果。
Description
技术领域
本发明涉及一种医疗命名实体识别方法、装置及存储介质,属于自然语言处理技术领域。
背景技术
随着互联网信息时代的快速发展和国民健康意识的不断提高,医疗信息系统积累了大量的医疗文本信息,包括医学文献,电子病历等,为医疗诊断,疾病预测等提供了重要的医学资源,面对海量医疗文本,对其进行数据挖掘和利用是医疗信息领域的一大挑战。命名实体识别(NER)从非结构化文本中提取实体及其类型,是医疗实体间的关系提取,医疗问答系统,医疗知识图谱等自然语言处理的一项重要基础技术。针对命名实体识别任务,已经提出了很多方法,最初代NER采用基于字典和规则,后又出现传统机器学习,随着深度学习的发展,命名实体识别的研究重点已转向深层神经网络,成为主流的命名实体识别方法。
事实上,在医学领域,大量的医学文本并未被标注,对这些文本标注耗时费力,而传统的深度学习模型需要大量的标注样本进行训练,这阻碍了深度学习方法在医学领域的应用。为了解决医疗领域标记数据有限的问题,一些研究试图利用未标记数据充实训练数据,利用置信度对预测的未标记数据进行过滤,并联合标注数据对模型进行训练。然而,不良的神经网络模型,可能会导致错误的预测标签具有很高的置信度,传统的基于置信度的伪标签方法会引入大量噪声,导致模型预测能力下降,命名实体识别的效果不好。
发明内容
本发明提供一种医疗命名实体识别方法、装置及存储介质,利用获取到的医疗文本获取医疗领域命名实体识别模型,再将待识别医疗文本输入所述命名实体识别模型,完成医疗命名实体的提取,所述命名实体识别模型的构建解决了医疗领域缺乏大量标注数据集问题,利用少量标记数据完成了命名实体识别任务,减少了人工成本,通过标签选择减少了噪声标签进入模型,大大提升了命名实体识别的效果。
为达到上述目的,本发明是采用下述技术方案实现的。
一方面,本发明提供一种医疗命名实体识别方法,包括:对待识别的医疗文本进行数据预处理,得到待识别数据集;
将所述待识别数据集输入预先获取的命名实体识别模型,得到根据医疗实体类型区分的识别结果;
其中,所述命名实体识别模型的获取方法包括:
对获取到的医疗文本进行数据预处理,得到标记有医疗实体类型的数据集;
从所述数据集中选择出训练样本集;
将所述训练样本集中已标记医疗实体类型的数据输入预先设计的教师模型,得到初始化后的教师模型;
将所述训练样本集中未标记医疗实体类型的数据输入初始化后的教师模型,得到未标记字的伪标签;
对所述未标记字的伪标签进行选择,得到选择出的正伪标签和负伪标签;
利用所述正伪标签和负伪标签及其对应的标记数据训练预先设计的学生模型,得到所述命名实体识别模型;
将所述命名实体识别模型训练后的参数传递给所述初始化后的教师模型并利用已标记医疗实体类型的数据对接受该参数的教师模型进行微调。
可选地,所述对获取到的医疗文本进行数据预处理,得到标注有医疗实体类型的数据集,包括:
对所述医疗文本中的句子进行拆分,得到拆分后的单句;
将所述拆分后的单句与预设的句长阈值max_length-2进行比较,对句长超过max_length-2的单句进行截断并用符号[PAD]对句长不足max_length-2的单句进行补充,并在所述句长一致的单句句首置符号[CLS],句尾置符号[SEP],得到句长一致的单句,其中,[]为符号的一部分;
定义医疗实体类型;
将所述句长一致的单句中的字标注为B-X或I-X或O,得到标注有医疗实体类型的识别数据集,其中,B-X表示此元素所在的片段属于X类型并且此元素在此片段的开头,I-X表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,O表示不属于任何类型,X类型表示定义的医疗实体类型之一。
可选地,所述预先设计的教师模型和预先设计的学生模型结构相同,分别包括:领域BERT,变分BiLSTM及Softmax层;所述领域BERT的输出数据为变分BiLSTM的输入数据,所述变分BiLSTM的输出数据为Softmax层的输入数据,其中BERT为基于Transformer的双向编码器表示技术、BiLSTM为双向长短期记忆网络。
以上技术方案中,领域BERT用于获得字嵌入,相比初始BERT能够更好地适应医疗文本,变分BiLSTM用于提取特征向量,相比BiLSTM更适合用于后面标签选择策略中不确定性值的计算,Softmax层用于获得每个字的标签概率分布。
可选地,所述将所述训练样本集中已标记医疗实体类型的数据输入预先设计的教师模型,得到初始化后的教师模型,包括:
将所述数据集中已标记医疗实体类型的数据放入初始BERT中进行训练得到医疗领域BERT;
基于所述医疗领域BERT获得字嵌入;
引入部首特征,将部首嵌入与所述字嵌入结合得到融合嵌入xt,其中,t表示当前时刻;
利用变分BiLSTM对所述融合嵌入xt进行特征提取,得到所述已标记医疗实体类型的数据中标记字的特征向量,所述特征向量ht的计算公式为:
;
其中,代表矩阵乘积,gt、ot分别代表单元门和输出门,且维度均为/>;/>代表ht的维度,ct代表存储当前时刻t及其前面所有时刻的混合信息;
所述混合信息ct的计算公式为:
;
其中,其中,代表哈达玛积,it、ft分别代表输入门和遗忘门,且维度均为/>;ct-1代表存储上一时刻t-1及其前面所有时刻的混合信息;
所述输入门it,遗忘门ft,输出门ot以及单元门gt的计算公式为:
;
其中,Wi、Wf、Wo、Wg均为维度为的权重矩阵,/>代表融合嵌入xt的维度,bi、bf、bo、bg均为维度为/>的偏差;
所述标记字的特征向量ht通过Softmax层,得到标记字的标签概率分布;
基于所述标签概率分布得到输出标签,所述输出标签的计算公式为:
;
定义所述已标记医疗实体类型的数据,其中N为已标记医疗实体类型的数据中的句子个数,Xi代表已标记医疗实体类型的数据中的第i个句子,Yi代表已标记医疗实体类型的数据中第i个句子的标签序列,/>,其中xij表示已标记医疗实体类型的数据中第i个句子中的第j个字,/>表示已标记医疗实体类型的数据中第i个句子的长度;
基于输出标签和标记数据D L ,通过交叉熵损失函数L对教师模型进行初始化训练,得到所述教师模型的初始化目标,公式为:
;
其中,为输出标签yij的概率,/>表示教师模型,θtea表示教师模型的参数。
优选地,所述对所述未标记字的伪标签进行选择,得到选择出的正伪标签和负伪标签,包括:
利用标签选择策略中的不确定性估计和置信度预测对所述未标记字的标签进行选择,得到正伪标签和负伪标签,其中,所述正伪标签的含义为很可能预测正确的标签,每个字最多只有一个正伪标签,所述负伪标签的含义为很可能预测错误的标签,每个字可有多个负伪标签;
所述正伪标签为不确定性和置信度满足条件uij<βp,且max(pij)>αp,所述负伪标签为不确定性和置信度满足条件uij<βn,且pc ij>αn,其中,uij为未标记医疗实体类型的数据中第i个句子的第j个字的不确定性值,pc ij代表未标记医疗实体类型的数据中第i个句子的第j个字预测为第c类标签的概率,βp、αp分别为正伪标签在不确定性和置信度方面的阈值且αp>0.5,βn、αn分别为负伪标签在不确定性和置信度方面的阈值;
所述标签选择策略中的不确定性估计的计算公式为:
;
其中,H(·)代表熵计算,c代表预测标签中的第c类标签,C代表所有预测标签的总数。
优选地,将所述正伪标签和负伪标签及其对应的标记数据输入预先设计的学生模型,得到所述命名实体识别模型,包括:
通过交叉熵损失函数L对所述正伪标签对应标记的样本数据进行训练,得到正伪标签标记数据的训练目标,公式为:
;
其中,LP ij表示未标记医疗实体类型的数据中第i个句子的第j个字x* ij的正伪标签的损失值,表示未标记医疗实体类型的医疗实体类型的数据中第i个句子的第j个字的正伪标签y* ij的概率,/>表示学生模型,θstu表示学生模型的参数;
通过交叉熵损失函数L对所述负伪标签对应标记的样本数据进行训练,得到负伪标签标记数据的训练目标,公式为:
;
其中,LN ij表示未标记医疗实体类型的数据中第i个句子的第j个字x* ij的负伪标签的平均损失值,表示未标记医疗实体类型的数据中第i个句子的第j个字被预测为第c个标签yc ij的概率,Sc ij∈{0, 1},当yc ij为负伪标签时,Sc ij=1,反之,当yc ij不是负伪标签时,Sc ij=0,mij为未标记医疗实体类型的数据中第i个句子的第j个字x* ij的负伪标签数量;
定义已标记医疗实体类型的数据,其中M为已标记医疗实体类型的数据中的句子个数,X* i代表未标记医疗实体类型的数据中的第i个句子,Y* i代表未标记医疗实体类型的数据中第i个句子的标签序列,/>,其中x* ij表示已标记医疗实体类型的数据中第i个句子中的第j个字,/>表示已标记医疗实体类型的数据中第i个句子的长度;
基于所述已标记医疗实体类型的数据D U 和所述正伪标签标记数据的训练目标以及负伪标签标记数据的训练目标,得到所述学生模型总训练目标,公式为:
;
其中,MP为正伪标签数量,MN为负伪标签数量。
优选地,方法还包括:从所述数据集中选择出测试集,将所述测试集输入每n轮训练以及最后一轮训练生成的命名实体识别模型,并通过计算命名实体识别模型的识别结果精确率P,召回率R以及综合性能指标F1值,得到最佳命名实体识别模型,其中:
计算命名实体识别模型的识别结果精确率P,召回率R以及综合性能指标F1值,计算公式为:
;
;
;
其中,TP、FP、FN分别为真正例,假正例和假反例的个数,精确率P指识别正确的实体数与识别出实体总数的比值,召回率R指正确识别的实体数与实体总数的比值,当出现精确率和召回率冲突的问题时,利用F1对P值和R值综合考虑;
将第n轮模型的性能与第2n轮模型的性能评价指标值进行对比,得到性能更优模型,若第n轮性能优于第2n轮性能,则保存第n轮模型,若第n轮性能劣于第2n轮性能,则保存第2n轮模型;
将最后一轮模型的性能与上一性能更优模型的性能评价指标进行对比,得到所述最佳命名实体识别模型。
第二方面,本发明提供一种医疗命名实体识别装置,包括:
数据预处理模块,用于对待识别的医疗文本进行数据预处理,得到待识别数据集;
数据识别模块,用于将所述待识别数据集输入预先获取的命名实体识别模型,得到根据医疗实体类型区分的识别结果;
命名实体识别模型获取模块,用于获取所述命名实体识别模型,所述命名实体识别模型的获取方法包括:
对获取到的医疗文本进行数据预处理,得到标记有医疗实体类型的数据集;
从所述数据集中选择出训练样本集;
将所述训练样本集中已标记医疗实体类型的数据输入预先设计的教师模型,得到初始化后的教师模型;
将所述训练样本集中未标记医疗实体类型的数据输入初始化后的教师模型,得到未标记字的伪标签;
对所述未标记字的伪标签进行选择,得到选择出的正伪标签和负伪标签;
利用所述正伪标签和负伪标签及其对应的标记数据训练预先设计的学生模型,得到所述命名实体识别模型;
将所述命名实体识别模型训练后的参数传递给所述初始化后的教师模型并利用已标记医疗实体类型的数据对接受该参数的教师模型进行微调。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如第一方面任一步所述的医疗命名实体识别方法。
与现有技术相比,本发明所达到的有益效果:
1、本发明解决缺乏大量标注数据集问题,利用少量标记数据完成命名实体识别任务,减少人工成本,可以获得比使用同样标记数据而没有使用未标记数据的命名实体识别模型效果好;为减少未标记数据训练时引入的噪声,本发明提出标签选择策略,减少噪声进入模型而导致的命名实体识别效果下降,并合理利用负伪标签,改善模型训练;
2、本发明利用待训练数据在初始BERT上继续进行训练,得到的领域BERT更适用于医疗文本的命名实体识别任务;引入了部首特征,有利于提高中文医疗文本命名实体识别任务效果,例如,“疒”通常代表一种疾病;
3、通过引入性能评价指标对训练过程中每n轮训练生成的命名实体识别模型进行性能衡量,得到最佳命名实体识别模型,进一步提升了命名实体识别的准确度。
附图说明
图1所示为本发明的一种实施例中医疗命名实体识别方法的流程示意图;
图2所示为本发明的一种实施例中教师模型以及学生模型的识别流程示意图;
图3所示为本发明的一种实施例中基于标签选择策略的少样本医疗命名实体识别模型训练方法的流程示意图;
图4所示为本发明的一种实施例中根据BIO标签提取句子中实体的案例1示意图;
图5所示为本发明的一种实施例中根据BIO标签提取句子中实体的案例2示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、 “底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
实施例1
本实施例提供一种医疗命名实体识别方法,其流程图如图1所示,具体包括以下步骤。
步骤1:获取医疗文本并对其进行数据预处理操作,获得标记有医疗实体类型的数据集。
进一步地,所述数据预处理操作,包括:
步骤1-1:拆分句子,对长句或短句进行截断或补充操作,定义最大句子长度max_length-2,对超过max_length-2的句子进行截断,对不超过max_length-2的句子用符号[PAD]补齐长度至max_length-2,并在截断或补齐操作后在句首置符号[CLS],在句尾置符号[SEP],其中[]为符号的一部分。
步骤1-2:定义医疗实体类型,包括解剖部位、症状、疾病、药品、药品用量、测试和治疗方法等。
步骤1-3:采用BIO标注方法,将每个元素标注为B-X或I-X或O。其中,B-X表示此元素所在的片段属于X类型并且此元素在此片段的开头,I-X表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,O表示不属于任何类型,X类型是定义的多个医疗实体类型之一。由于本发明面向的是少样本医疗命名实体识别,因此,并非所有的数据都要进行标注,所需标注的数据量在步骤S2做详细说明。
步骤2:对所述标记有医疗实体类型的数据集进行选择,根据句子数量将数据集分割为训练样本集和测试集,其中,训练样本集占数据集句子总数量的70%,测试集占数据集句子总数量的30%,采用BIO标注方法对训练样本集中10%的句子及测试集中所有的句子中的每个字进行标记。
步骤3:利用训练样本集对命名实体识别模型进行训练,具体步骤如下。
步骤3-1:用训练样本集中已标记医疗实体类型的数据初始化教师模型,所述已标记医疗实体类型的数据以下简称标记数据;
本实施例中,所述教师模型,由领域BERT,变分BiLSTM和Softmax层组成,所述领域BERT的输出数据是变分BiLSTM的输入数据,所述变分BiLSTM的输出数据是Softmax层的输入数据,如图2所示,其中BERT全称为基于Transformer的双向编码器表示技术(Bidirectional Encoder Representation from Transformers),BiLSTM全称为双向长短期记忆网络(Bidirectional Long Short-Term Memory)。
本实施例中,所述初始化教师模型,包括:
步骤3-1-1:将数据集中所有标记数据放入初始BERT中进行训练,得到领域BERT,通过领域BERT获得字嵌入。
步骤3-1-2:引入部首特征,结合字嵌入和部首嵌入形成xt,其中t表示当前时刻,利用变分BiLSTM进行特征提取,具体公式如公式(1)-(3),相比于BiLSTM能够更好的计算后面标签选择策略中的不确定性值,
(1)
(2)
(3)
其中,和/>分别代表矩阵乘积和哈达玛积,it、ft、gt、ot分别为输入门,遗忘门,单元门和输出门,且维度为/>;/>表示为ht的维度,ct代表存储当前时刻t及其前面所有时刻的混合信息,ct-1代表存储上一时刻t-1及其前面所有时刻的混合信息,Wi、Wf、Wo、Wg均为维度为/>的权重矩阵;/>代表xt的维度,bi、bf、bo、bg均为维度为/>的偏差,变分BiLSTM从不同的两个方向计算上下文信息向量,输出每个字的特征向量/>。
步骤3-1-3:每个字的特征向量通过Softmax层,得到每个字的标签概率分布,标签概率最高的即为输出标签,输出标签的计算公式如公式(4):
(4)
步骤3-1-4:定义标记数据,其中N为标记数据中的句子个数,Xi代表标记数据中的第i个句子,Yi代表标记数据中第i个句子的标签序列,/>,其中xij表示标记数据中第i个句子中的第j个字,/>表示标记数据中第i个句子的长度,利用交叉熵损失函数L,对教师模型进行初始化训练,如公式(5):
(5)
其中,为输出标签yij的概率,/>表示教师模型,θtea表示教师模型的参数。
步骤3-2:用训练样本集中未标记医疗实体类型的数据放入初始化后的教师模型中,所述未标记医疗实体类型的数据以下简称未标记数据,利用MC-dropout对未标记数据中每个未标记的字的标签概率分布进行预测,如公式(6):
(6)
其中,pij为未标记数据中第i个句子的第j个字的标签概率分布,K为采样次数,hij为未标记数据中第i个句子的第j个字经过变分BiLSTM后的特征向量,Wk为模型权重,且Wk~q(W),q(W)是dropout分布。
步骤3-3:利用标签选择策略对步骤S2得到的每个未标记字的标签进行选择,以减少噪声标签进入模型,影响模型训练,并将其分为正伪标签和负伪标签。
本实施例中,所述标签选择策略包括不确定性估计和置信度预测:
所述标签选择策略中的不确定性估计,由每个未标记字的每个标签的概率的熵计算得到,如公式(7):
(7)
其中uij为未标记数据中第i个句子的第j个字的不确定性值,H(·)代表熵计算,c代表预测标签中的第c类标签,C代表所有预测标签的总数,pc ij代表未标记数据中第i个句子的第j个字预测为第c类标签的概率。若不确定性值小于某一阈值,则该标签被初步选择。
所述标签选择策略中的置信度预测,由每个未标记字的每个预测标签的概率大小决定,若某预测标签的概率大于某一阈值,则为高置信度标签,若某预测标签的概率低于某一阈值,则为低置信度标签。
所述正伪标签为不确定性和置信度满足条件uij<βp,且max(pij)>αp(αp>0.5),所述负伪标签为不确定性和置信度满足条件uij<βn,且pc ij>αn。其中,βp,αp分别为正伪标签在不确定性和置信度方面的阈值,正伪标签的含义为很可能预测正确的标签,每个字最多只有一个正伪标签。βn,αn分别为负伪标签在不确定性和置信度方面的阈值,负伪标签的含义为很可能预测错误的标签,每个字可有多个负伪标签。
步骤3-4:利用选择出的正伪标签和负伪标签及其标记对应的样本数据训练学生模型,其中学生模型的结构组成与教师模型相同,如图1所示。
本实施例中,所述训练学生模型包括:
步骤3-4-1:训练正伪标签使用交叉熵损失函数如公式(8):
(8)
其中,LP ij表示未标记数据中第i个句子的第j个字x* ij的正伪标签的损失值,表示未标记数据中第i个句子的第j个字被预测为第c个标签yc ij的概率,Sc ij∈{0, 1},当yc ij为负伪标签时,Sc ij=1,反之,当yc ij不是负伪标签时,Sc ij=0,mij为未标记数据中第i个句子的第j个字x* ij的负伪标签数量。
步骤3-4-2:训练负伪标签使用交叉熵损失函数如公式(9):
(9)
其中,LN ij表示未标记医疗实体类型的数据中第i个句子的第j个字x* ij的负伪标签的平均损失值,表示未标记医疗实体类型的数据中第i个句子的第j个字被预测为第c个标签yc ij的概率,Sc ij∈{0, 1},当yc ij为负伪标签时,Sc ij=1,反之,当yc ij不是负伪标签时,Sc ij=0,mij为未标记医疗实体类型的数据中第i个句子的第j个字x* ij的负伪标签数量。
步骤3-4-3:定义已标记医疗实体类型的数据,其中M为已标记医疗实体类型的数据中的句子个数,X* i代表未标记医疗实体类型的数据中的第i个句子,Y* i代表未标记医疗实体类型的数据中第i个句子的标签序列,/>,其中x* ij表示已标记医疗实体类型的数据中第i个句子中的第j个字,/>表示已标记医疗实体类型的数据中第i个句子的长度;
基于所述已标记医疗实体类型的数据D U 和所述正伪标签标记数据的训练目标以及负伪标签标记数据的训练目标,得到所述学生模型总训练目标,公式为:
;
其中,MP为正伪标签数量,MN为负伪标签数量。
步骤3-5:将所述学生模型训练后的参数传递给所述初始化后的教师模型并利用已标记医疗实体类型的数据对接受该参数的教师模型进行微调,步骤3整体训练流程如图3。
步骤4:选择在测试集上效果最佳的模型作为最终的实体识别模型。
本实施例中,所述效果最佳的模型,由性能评价指标决定:
实体识别正确的衡量标准是要求真实实体类型与预测实体类型具有相同的实体边界和相同的实体类型,本发明使用精确率P,召回率R和综合性能指标F1值对训练过程中每n轮训练以及最后一轮训练生成的命名实体识别模型的识别结果进行计算,衡量模型的性能,保存性能最优的模型,证明本模型在医疗命名实体识别上的有效性,各指标具体计算如公式:
;
;
;
其中,TP、FP、FN分别为真正例,假正例和假反例的个数,即TP为正确预测的实体个数,FP为预测错误的实体个数,FN为未预测出的实体个数,精确率指识别正确的实体数与识别出实体总数的比值,召回率值正确识别的实体数与实体总数的比值。在某些情况下会出现精确率和召回率冲突的问题,因此利用综合性能指标F1对P值和R值综合考虑。
步骤4-1:将第n轮模型的性能与第2n轮模型的性能评价指标值进行对比,得到性能更优模型,若第n轮性能优于第2n轮性能,则保存第n轮模型,若第n轮性能劣于第2n轮性能,则保存第2n轮模型;
步骤4-2:将最后一轮模型的性能与上一性能更优模型的性能评价指标进行对比,得到所述最佳命名实体识别模型。
步骤5:将经过数据预处理的待识别医疗文本放入步骤4选择的最佳实体识别模型中进行预测,输出BIO标签,并根据BIO标签提取句子中的实体,对待识别医疗文本的数据预处理过程与步骤1-1相同。
案例1如图4所示,在医疗问答系统中,将一段患者的自述作为待识别医疗文本进行预处理,得到句长一致的待识别数据集,将待识别数据集输入最佳命名实体识别模型,输出含有医疗实体类型的BIO标签,根据输出的BIO标签,将其中的B-X标签以及I-X标签筛选出来并提取其中的X实体类型,例如,该段自述中的“眼睛”输出为“B-解剖部位、I-解剖部位”,“糖尿病并发症”输出为“B-疾病、I-疾病、I-疾病、I-疾病、I-疾病、I-疾病”,可知这位患者的病症出现在眼睛这个部位,是由糖尿病并发症引起的眼部的不适症状,基于本发明的模型对这段患者自述进行关键实体信息的提取与整合,提高了在线问诊的效率,为医疗问答系统的构建提供了识别效果更好准确性更高的问题识别环节。
案例2如图5所示,将一例病例中的一段描述作为待识别医疗文本进行预处理,得到句长一致的待识别数据集,将待识别数据集输入最佳命名实体识别模型,输出含有医疗实体类型的BIO标签,根据输出的BIO标签,将其中的B-X标签以及I-X标签筛选出来并提取其中的X实体类型,例如,该段描述中的“腹腔”、“肠管”以及“子宫”都输出为“B-解剖部位、I-解剖部位”,可知该病例中患者的病症出现在腹腔、肠管与子宫,肠管与子宫为腹腔内的附件,即肠管与子宫的病症引发了腹腔不适,基于本发明中的模型对众多病例中的病情进行识别,可将不同类型的病例进行分类并将同类型的病例归类,用于构建医疗案例库。
实施例2
本实施例提供了一种医疗命名实体识别训练装置,包括:
数据预处理模块,用于对待识别的医疗文本进行数据预处理,得到待识别数据集;
数据识别模块,用于将所述待识别数据集输入预先获取的命名实体识别模型,得到根据医疗实体类型区分的识别结果;
命名实体识别模型获取模块,用于获取所述命名实体识别模型,所述命名实体识别模型的获取方法包括:
对获取到的医疗文本进行数据预处理,得到标记有医疗实体类型的数据集;
从所述数据集中选择出训练样本集;
将所述训练样本集中已标记医疗实体类型的数据输入预先设计的教师模型,得到初始化后的教师模型;
将所述训练样本集中未标记医疗实体类型的数据输入初始化后的教师模型,得到未标记字的伪标签;
对所述未标记字的伪标签进行选择,得到选择出的正伪标签和负伪标签;
利用所述正伪标签和负伪标签及其对应的标记数据训练预先设计的学生模型,得到所述命名实体识别模型;
将所述命名实体识别模型训练后的参数传递给所述初始化后的教师模型并利用已标记医疗实体类型的数据对接受该参数的教师模型进行微调。
实施例3
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如实施例1任一步所述的医疗命名实体识别方法。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (6)
1.一种医疗命名实体识别方法,其特征是,包括:
对待识别的医疗文本进行数据预处理,得到待识别数据集;
将所述待识别数据集输入预先获取的命名实体识别模型,得到根据医疗实体类型区分的识别结果;
其中,所述命名实体识别模型的获取方法包括:
对获取到的医疗文本进行数据预处理,得到标记有医疗实体类型的数据集;
从所述数据集中选择出训练样本集;
将所述训练样本集中已标记医疗实体类型的数据输入预先设计的教师模型,得到初始化后的教师模型;
将所述训练样本集中未标记医疗实体类型的数据输入初始化后的教师模型,得到未标记字的伪标签;
对所述未标记字的伪标签进行选择,得到选择出的正伪标签和负伪标签;
利用所述正伪标签和负伪标签及其对应的标记数据训练预先设计的学生模型,得到所述命名实体识别模型;
将所述命名实体识别模型训练后的参数传递给所述初始化后的教师模型并利用已标记医疗实体类型的数据对接受该参数的教师模型进行微调;
所述预先设计的教师模型和预先设计的学生模型结构相同,分别包括:领域BERT,变分BiLSTM及Softmax层;所述领域BERT的输出数据为变分BiLSTM的输入数据,所述变分BiLSTM的输出数据为Softmax层的输入数据,其中BERT为基于Transformer的双向编码器表示技术、BiLSTM为双向长短期记忆网络;
所述将所述训练样本集中已标记医疗实体类型的数据输入预先设计的教师模型,得到初始化后的教师模型,包括:
将所述数据集中已标记医疗实体类型的数据放入初始BERT中进行训练得到医疗领域BERT;
基于所述医疗领域BERT获得字嵌入;
引入部首特征,将部首嵌入与所述字嵌入结合得到融合嵌入xt,其中,t表示当前时刻;
利用变分BiLSTM对所述融合嵌入xt进行特征提取,得到所述已标记医疗实体类型的数据中标记字的特征向量,所述特征向量ht的计算公式为:
,
其中,代表矩阵乘积,gt、ot分别代表单元门和输出门,且维度均为/>,/>代表ht的维度,ct存储当前时刻t及其前面所有时刻的混合信息;
所述混合信息ct的计算公式为:
,
其中,代表哈达玛积,it、ft分别代表输入门和遗忘门,且维度均为/>,ct-1存储上一时刻t-1及其前面所有时刻的混合信息;
所述输入门it,遗忘门ft,输出门ot以及单元门gt的计算公式为:
,
其中,Wi、Wf、Wo、Wg均为维度为的权重矩阵,/>代表融合嵌入xt的维度,bi、bf、bo、bg均为维度为/>的偏差;
所述标记字的特征向量ht通过Softmax层,得到标记字的标签概率分布;
基于所述标签概率分布得到输出标签,所述输出标签的计算公式为:
,
定义所述已标记医疗实体类型的数据,其中N为已标记医疗实体类型的数据中的句子个数,Xi代表已标记医疗实体类型的数据中的第i个句子,Yi代表已标记医疗实体类型的数据中第i个句子的标签序列,/>,其中xij表示已标记医疗实体类型的数据中第i个句子中的第j个字,/>表示已标记医疗实体类型的数据中第i个句子的长度;
基于输出标签和标记数据D L ,通过交叉熵损失函数L对教师模型进行初始化训练,得到所述教师模型的初始化目标,公式为:
,
其中,为输出标签yij的概率,/>表示教师模型,θtea表示教师模型的参数;
所述将所述训练样本集中未标记医疗实体类型的数据输入初始化后的教师模型,得到未标记字的伪标签,包括:
将所述未标记医疗实体类型的数据输入初始化后的教师模型中,通过MC-dropout对所述未标记医疗实体类型的数据中未标记字的标签概率分布进行预测,预测公式如下:
,
其中,pij为未标记医疗实体类型的数据中第i个句子的第j个字的标签概率分布,K为采样次数,hij为未标记医疗实体类型的数据中第i个句子的第j个字经过变分BiLSTM后的特征向量,Wk为模型权重,且Wk~q(W),q(W)是dropout分布;
基于预测的未标记字的标签概率分布获取所述伪标签;
所述对所述未标记字的伪标签进行选择,得到选择出的正伪标签和负伪标签,包括:
利用标签选择策略中的不确定性估计和置信度预测对所述未标记字的标签进行选择,得到正伪标签和负伪标签,其中,所述正伪标签的含义为很可能预测正确的标签,每个字最多只有一个正伪标签,所述负伪标签的含义为很可能预测错误的标签,每个字可有多个负伪标签;
所述正伪标签为不确定性和置信度满足条件uij<βp,且max(pij)>αp,所述负伪标签为不确定性和置信度满足条件uij<βn,且pc ij>αn,其中,uij为未标记医疗实体类型的数据中第i个句子的第j个字的不确定性值,pc ij代表未标记医疗实体类型的数据中第i个句子的第j个字预测为第c类标签的概率,βp、αp分别为正伪标签在不确定性和置信度方面的阈值且αp>0.5,βn、αn分别为负伪标签在不确定性和置信度方面的阈值;
所述标签选择策略中的不确定性估计的计算公式为:
,
其中,H(·)代表熵计算,c代表预测标签中的第c类标签,C代表所有预测标签的总数。
2.根据权利要求1所述的医疗命名实体识别方法,其特征是,所述对获取到的医疗文本进行数据预处理,得到标注有医疗实体类型的数据集,包括:
对所述医疗文本中的句子进行拆分,得到拆分后的单句;
将所述拆分后的单句与预设的句长阈值max_length-2进行比较,对句长超过max_length-2的单句进行截断并用符号[PAD]对句长不足max_length-2的单句进行补充,并在所述句长一致的单句句首置符号[CLS],句尾置符号[SEP],得到句长一致的单句;
定义医疗实体类型;
将所述句长一致的单句中的字标注为B-X或I-X或O,得到标注有医疗实体类型的识别数据集,其中,B-X表示此元素所在的片段属于X类型并且此元素在此片段的开头,I-X表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,O表示不属于任何类型,X类型表示定义的医疗实体类型之一。
3.根据权利要求2所述的医疗命名实体识别方法,其特征是,将所述正伪标签和负伪标签及其对应的标记数据输入预先设计的学生模型,得到所述命名实体识别模型,包括:
通过交叉熵损失函数L对所述正伪标签对应标记的样本数据进行训练,得到正伪标签标记数据的训练目标,公式为:
,
其中,LP ij表示未标记医疗实体类型的数据中第i个句子的第j个字x* ij的正伪标签的损失值,表示未标记医疗实体类型的医疗实体类型的数据中第i个句子的第j个字的正伪标签y* ij的概率,/>表示学生模型,θstu表示学生模型的参数;
通过交叉熵损失函数L对所述负伪标签对应标记的样本数据进行训练,得到负伪标签标记数据的训练目标,公式为:
,
其中,LN ij表示未标记医疗实体类型的数据中第i个句子的第j个字x* ij的负伪标签的平均损失值,表示未标记医疗实体类型的数据中第i个句子的第j个字被预测为第c个标签yc ij的概率,Sc ij∈{0, 1},当yc ij为负伪标签时,Sc ij=1,反之,当yc ij不是负伪标签时,Sc ij=0,mij为未标记医疗实体类型的数据中第i个句子的第j个字x* ij的负伪标签数量;
定义已标记医疗实体类型的数据,其中M为已标记医疗实体类型的数据中的句子个数,X* i代表未标记医疗实体类型的数据中的第i个句子,Y* i代表未标记医疗实体类型的数据中第i个句子的标签序列,/>,其中x* ij表示已标记医疗实体类型的数据中第i个句子中的第j个字,/>表示已标记医疗实体类型的数据中第i个句子的长度;
基于所述已标记医疗实体类型的数据D U 和所述正伪标签标记数据的训练目标以及负伪标签标记数据的训练目标,得到所述学生模型总训练目标,公式为:
,
其中,MP为正伪标签数量,MN为负伪标签数量。
4.根据权利要求3所述的医疗命名实体识别方法,其特征是,方法还包括:从所述数据集中选择出测试集,将所述测试集输入每n轮训练以及最后一轮训练生成的命名实体识别模型,并通过计算命名实体识别模型的识别结果精确率P,召回率R以及综合性能指标F1值,得到最佳命名实体识别模型,其中:
计算命名实体识别模型的识别结果精确率P,召回率R以及综合性能指标F1值,计算公式为:
,
,
,
其中,TP、FP、FN分别为真正例,假正例和假反例的个数,精确率P指识别正确的实体数与识别出实体总数的比值,召回率R指正确识别的实体数与实体总数的比值,当出现精确率和召回率冲突的问题时,利用F1对P值和R值综合考虑;
将第n轮模型的性能与第2n轮模型的性能评价指标值进行对比,得到性能更优模型,若第n轮性能优于第2n轮性能,则保存第n轮模型,若第n轮性能劣于第2n轮性能,则保存第2n轮模型;
将最后一轮模型的性能与上一性能更优模型的性能评价指标进行对比,得到所述最佳命名实体识别模型。
5.一种医疗命名实体识别装置,其特征是,包括:
数据预处理模块,用于对待识别的医疗文本进行数据预处理,得到待识别数据集;
数据识别模块,用于将所述待识别数据集输入预先获取的命名实体识别模型,得到根据医疗实体类型区分的识别结果;
命名实体识别模型获取模块,用于获取所述命名实体识别模型,所述命名实体识别模型的获取方法包括:
对获取到的医疗文本进行数据预处理,得到标记有医疗实体类型的数据集;
从所述数据集中选择出训练样本集;
将所述训练样本集中已标记医疗实体类型的数据输入预先设计的教师模型,得到初始化后的教师模型;
将所述训练样本集中未标记医疗实体类型的数据输入初始化后的教师模型,得到未标记字的伪标签;
对所述未标记字的伪标签进行选择,得到选择出的正伪标签和负伪标签;
利用所述正伪标签和负伪标签及其对应的标记数据训练预先设计的学生模型,得到所述命名实体识别模型;
将所述命名实体识别模型训练后的参数传递给所述初始化后的教师模型并利用已标记医疗实体类型的数据对接受该参数的教师模型进行微调;所述预先设计的教师模型和预先设计的学生模型结构相同,分别包括:领域BERT,变分BiLSTM及Softmax层;所述领域BERT的输出数据为变分BiLSTM的输入数据,所述变分BiLSTM的输出数据为Softmax层的输入数据,其中BERT为基于Transformer的双向编码器表示技术、BiLSTM为双向长短期记忆网络;
所述将所述训练样本集中已标记医疗实体类型的数据输入预先设计的教师模型,得到初始化后的教师模型,包括:
将所述数据集中已标记医疗实体类型的数据放入初始BERT中进行训练得到医疗领域BERT;
基于所述医疗领域BERT获得字嵌入;
引入部首特征,将部首嵌入与所述字嵌入结合得到融合嵌入xt,其中,t表示当前时刻;
利用变分BiLSTM对所述融合嵌入xt进行特征提取,得到所述已标记医疗实体类型的数据中标记字的特征向量,所述特征向量ht的计算公式为:
,
其中,代表矩阵乘积,gt、ot分别代表单元门和输出门,且维度均为/>,/>代表ht的维度,ct存储当前时刻t及其前面所有时刻的混合信息;
所述混合信息ct的计算公式为:
,
其中,代表哈达玛积,it、ft分别代表输入门和遗忘门,且维度均为/>,ct-1存储上一时刻t-1及其前面所有时刻的混合信息;
所述输入门it,遗忘门ft,输出门ot以及单元门gt的计算公式为:
,
其中,Wi、Wf、Wo、Wg均为维度为的权重矩阵,/>代表融合嵌入xt的维度,bi、bf、bo、bg均为维度为/>的偏差;
所述标记字的特征向量ht通过Softmax层,得到标记字的标签概率分布;
基于所述标签概率分布得到输出标签,所述输出标签的计算公式为:
,
定义所述已标记医疗实体类型的数据,其中N为已标记医疗实体类型的数据中的句子个数,Xi代表已标记医疗实体类型的数据中的第i个句子,Yi代表已标记医疗实体类型的数据中第i个句子的标签序列,/>,其中xij表示已标记医疗实体类型的数据中第i个句子中的第j个字,/>表示已标记医疗实体类型的数据中第i个句子的长度;
基于输出标签和标记数据D L ,通过交叉熵损失函数L对教师模型进行初始化训练,得到所述教师模型的初始化目标,公式为:
,
其中,为输出标签yij的概率,/>表示教师模型,θtea表示教师模型的参数;
所述将所述训练样本集中未标记医疗实体类型的数据输入初始化后的教师模型,得到未标记字的伪标签,包括:
将所述未标记医疗实体类型的数据输入初始化后的教师模型中,通过MC-dropout对所述未标记医疗实体类型的数据中未标记字的标签概率分布进行预测,预测公式如下:
,
其中,pij为未标记医疗实体类型的数据中第i个句子的第j个字的标签概率分布,K为采样次数,hij为未标记医疗实体类型的数据中第i个句子的第j个字经过变分BiLSTM后的特征向量,Wk为模型权重,且Wk~q(W),q(W)是dropout分布;
基于预测的未标记字的标签概率分布获取所述伪标签;
所述对所述未标记字的伪标签进行选择,得到选择出的正伪标签和负伪标签,包括:
利用标签选择策略中的不确定性估计和置信度预测对所述未标记字的标签进行选择,得到正伪标签和负伪标签,其中,所述正伪标签的含义为很可能预测正确的标签,每个字最多只有一个正伪标签,所述负伪标签的含义为很可能预测错误的标签,每个字可有多个负伪标签;
所述正伪标签为不确定性和置信度满足条件uij<βp,且max(pij)>αp,所述负伪标签为不确定性和置信度满足条件uij<βn,且pc ij>αn,其中,uij为未标记医疗实体类型的数据中第i个句子的第j个字的不确定性值,pc ij代表未标记医疗实体类型的数据中第i个句子的第j个字预测为第c类标签的概率,βp、αp分别为正伪标签在不确定性和置信度方面的阈值且αp>0.5,βn、αn分别为负伪标签在不确定性和置信度方面的阈值;
所述标签选择策略中的不确定性估计的计算公式为:
,
其中,H(·)代表熵计算,c代表预测标签中的第c类标签,C代表所有预测标签的总数。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1-3中任一项所述的医疗命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311608482.4A CN117313732B (zh) | 2023-11-29 | 2023-11-29 | 一种医疗命名实体识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311608482.4A CN117313732B (zh) | 2023-11-29 | 2023-11-29 | 一种医疗命名实体识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117313732A CN117313732A (zh) | 2023-12-29 |
CN117313732B true CN117313732B (zh) | 2024-03-26 |
Family
ID=89288806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311608482.4A Active CN117313732B (zh) | 2023-11-29 | 2023-11-29 | 一种医疗命名实体识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117313732B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118503435B (zh) * | 2024-07-22 | 2024-10-11 | 浙江大学 | 基于知识融合的多未知领域文本分类方法、设备、介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343703A (zh) * | 2021-08-09 | 2021-09-03 | 北京惠每云科技有限公司 | 医学实体的分类提取方法、装置、电子设备及存储介质 |
CN113988079A (zh) * | 2021-09-28 | 2022-01-28 | 浙江大学 | 一种面向低数据的动态增强多跳文本阅读识别处理方法 |
CN115270795A (zh) * | 2022-07-21 | 2022-11-01 | 南京大学 | 一种基于小样本学习的环评领域命名实体识别技术 |
CN115713082A (zh) * | 2022-10-20 | 2023-02-24 | 广东外语外贸大学 | 一种命名实体识别方法、装置、设备及存储介质 |
CN116306653A (zh) * | 2023-03-20 | 2023-06-23 | 燕山大学 | 一种正则化领域知识辅助的命名实体识别方法 |
CN116719945A (zh) * | 2023-08-08 | 2023-09-08 | 北京惠每云科技有限公司 | 一种医学短文本的分类方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230040181A1 (en) * | 2021-08-03 | 2023-02-09 | Samsung Electronics Co., Ltd. | System and method for improving named entity recognition |
-
2023
- 2023-11-29 CN CN202311608482.4A patent/CN117313732B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343703A (zh) * | 2021-08-09 | 2021-09-03 | 北京惠每云科技有限公司 | 医学实体的分类提取方法、装置、电子设备及存储介质 |
CN113988079A (zh) * | 2021-09-28 | 2022-01-28 | 浙江大学 | 一种面向低数据的动态增强多跳文本阅读识别处理方法 |
CN115270795A (zh) * | 2022-07-21 | 2022-11-01 | 南京大学 | 一种基于小样本学习的环评领域命名实体识别技术 |
CN115713082A (zh) * | 2022-10-20 | 2023-02-24 | 广东外语外贸大学 | 一种命名实体识别方法、装置、设备及存储介质 |
CN116306653A (zh) * | 2023-03-20 | 2023-06-23 | 燕山大学 | 一种正则化领域知识辅助的命名实体识别方法 |
CN116719945A (zh) * | 2023-08-08 | 2023-09-08 | 北京惠每云科技有限公司 | 一种医学短文本的分类方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
面向非结构化文本的命名实体识别方法研究;杨志伟;中国博士学位论文全文数据库信息科技辑;第第2023 年卷(第第12期期);正文第2-5节 * |
Also Published As
Publication number | Publication date |
---|---|
CN117313732A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111540468B (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
CN110162779B (zh) | 病历质量的评估方法、装置及设备 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN108628824A (zh) | 一种基于中文电子病历的实体识别方法 | |
CN112800766B (zh) | 基于主动学习的中文医疗实体识别标注方法及系统 | |
CN111222340B (zh) | 基于多标准主动学习的乳腺电子病历实体识别系统 | |
CN106682397A (zh) | 一种基于知识的电子病历质控方法 | |
CN110222201A (zh) | 一种专病知识图谱构建方法及装置 | |
CN109949938B (zh) | 用于将医疗非标准名称标准化的方法及装置 | |
CN117313732B (zh) | 一种医疗命名实体识别方法、装置及存储介质 | |
CN109697285A (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN111243699A (zh) | 基于字词信息融合的中文电子病历实体抽取方法 | |
CN113901207B (zh) | 一种基于数据增强和半监督学习的药物不良反应检测方法 | |
CN111651991B (zh) | 一种利用多模型融合策略的医疗命名实体识别方法 | |
CN114564959B (zh) | 中文临床表型细粒度命名实体识别方法及系统 | |
TWI723868B (zh) | 一種抽樣後標記應用在類神經網絡訓練模型之方法 | |
CN113343703B (zh) | 医学实体的分类提取方法、装置、电子设备及存储介质 | |
CN113724882A (zh) | 基于问诊会话构建用户画像的方法、装置、设备和介质 | |
CN112784601B (zh) | 关键信息提取方法、装置、电子设备和存储介质 | |
CN116341546A (zh) | 一种基于预训练模型的医学自然语言处理方法 | |
CN116911300A (zh) | 语言模型预训练方法、实体识别方法和装置 | |
CN116881336A (zh) | 一种用于医学大数据的高效多模态对比深度哈希检索方法 | |
Gu et al. | Automatic generation of pulmonary radiology reports with semantic tags | |
CN111178047B (zh) | 基于层次序列标注的古代医案处方抽取方法 | |
CN114328485A (zh) | 改进BiLSTM-CRF的电子病历命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |