CN111651991A - 一种利用多模型融合策略的医疗命名实体识别方法 - Google Patents
一种利用多模型融合策略的医疗命名实体识别方法 Download PDFInfo
- Publication number
- CN111651991A CN111651991A CN202010295002.3A CN202010295002A CN111651991A CN 111651991 A CN111651991 A CN 111651991A CN 202010295002 A CN202010295002 A CN 202010295002A CN 111651991 A CN111651991 A CN 111651991A
- Authority
- CN
- China
- Prior art keywords
- medical
- model
- labeling
- word
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004927 fusion Effects 0.000 title claims abstract description 25
- 238000002372 labelling Methods 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 201000010099 disease Diseases 0.000 claims description 16
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000003745 diagnosis Methods 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 239000003814 drug Substances 0.000 claims description 5
- 230000036541 health Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 4
- 210000003484 anatomy Anatomy 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 3
- 230000001737 promoting effect Effects 0.000 abstract description 2
- 206010011224 Cough Diseases 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 206010037660 Pyrexia Diseases 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 230000003872 anastomosis Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 238000002695 general anesthesia Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003364 immunohistochemistry Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000000968 medical method and process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000002601 radiography Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种利用多模型融合策略的医疗命名实体识别方法,其技术特点是:人工标记文本中出现的医疗概念,得到训练文本集合;对训练文本集合数据进行预处理,得到分词后文本;构建分词后文本中词的词特征、词性特征和医学特征,得到词的完整编码特征;将分词后文本及词的完整编码特征分别输入到奇数个序列标注模型中进行模型学习,得到对应模型参数;根据人工指定的规则对初步标注结果进行融合,得到最终序列标注结果。本发明有效利用模型多样性和非线性建模能力提升医疗实体自动标注的准确率和查全率,可以广泛用于非数值类的医学实体标注工作,对医疗命名实体标注研究提供新指南,对推动智慧医疗具有显著的意义。
Description
技术领域
本发明属于医疗信息数据处理技术领域,尤其是一种利用多模型融合策略的医疗命名实体识别方法。
背景技术
病历是医务人员对患者疾病的发生、发展、转归进行检查、诊断和治疗等医疗过程的记录,也是对采集到的资料加以归纳、整理、综合分析并按规定的格式和要求书写的患者医疗健康档案。病历对医疗、预防、教学、科研、医院管理等都有重要的作用。随着互联网技术的发展,大部分医院已实现临床病历的电子化,电子病历是用电子设备保存、管理、传输和重现的数字化的病人医疗记录,取代手写纸张病历,具有主动性、完整、正确、知识关联、及时获取等优点。
近年来,医疗命名实体识别技术逐渐成为热门的关注领域。医疗命名实体识别能够提高采集、存储、传输、处理和利用病人健康状况和医疗信息的效率,使患者用较短的等疗时间、支付基本的医疗费用就能享受安全、便利、优质的诊疗服务,真正推进智慧医疗的建设发展。
对于医疗领域广泛的命名实体识别任务尚未出现准确率高、置信度高、多类别医疗通用的标注方法。目前,常用的电子病历中医疗命名实体识别主要采用单模型策略,但是,该方法存在准确率和查全率有限以及繁琐复杂的问题。
发明内容
本发明的目的在于克服现有技术的不足,提出一种设计合理、准确率及查全率高且快速简单的利用多模型融合策略的医疗命名实体识别方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种利用多模型融合策略的医疗命名实体识别方法,包括以下步骤:
步骤1、收集电子病历文本,人工标记文本中出现的医疗概念,得到训练文本集合;
步骤2、对训练文本集合数据进行预处理,得到分词后文本;
步骤3、构建分词后文本中词的词特征、词性特征和医学特征,依次连接上述三个特征,得到词的完整编码特征;
步骤4、将分词后文本及词的完整编码特征分别输入到奇数个序列标注模型中进行模型学习,得到对应模型参数;
步骤5、根据人工指定的规则对初步标注结果进行融合,得到最终序列标注结果。
进一步,所述步骤1的具体实现方法为:基于规范的医疗术语集合并与医护人员达成共识的准则,采用BIO标注模式人工标记文本出现疾病和诊断、检查、检验、手术、药物、解剖部位六个医疗概念,得到标注有医疗概念在文本中位置及医疗概念对应类别的训练文本集合。
进一步,所述训练文本集合中每一条数据均包含一条原始文本和医疗概念在该文本中位置及医疗概念对应类别。
进一步,所述步骤2对训练文本集合进行数据预处理的方法为:去掉指定无用的符号、分词和停用词。
进一步,所述步骤3的具体实现方法为:在已训练好的词向量模型中检索分词后文本中的每个词,得到对应的词向量,作为对应位置词的词特征;利用词性标注工具对分词后文本进行标注,得到词性特征;确定词是否在世界卫生组织发布的《国际疾病分类》中出现,如出现则这一特征为1,未出现为0,得到词的医学特征;最后,将词特征、词性特征和医学特征依次连接作为分词后文本中词的完整编码特征,得到词的完整编码特征。
进一步,所述词特征的维度为256维或512维;所述词性特征的维度为28维;所述医学特征的维度为1维。
进一步,所述奇数个序列标注模型包括序列层、编码层和标注层,其中:
序列层是序列标注模型的第一层,用于得到词的低维稠密的完整编码特征;
编码层是序列标注模型的第二层,由双向长短时记忆网络模型自动提取序列特征;标注层是条件随机场模型,用于序列的标注。
进一步,所述条件随机场模型的参数是一个(k+2)×(k+2)的转移矩阵A,k为标签数,k+2表示在序列首尾分别添加一个起始状态和终止状态。
进一步,所述步骤5的具体实现方法为:将第一个序列标注模型为最优模型,最优模型标注出结果并结合其他模型序列标注结果进行融合。
本发明的优点和积极效果是:
1、本发明通过搭建医疗实体识别模型框架并采用多模型融合策略,有效利用模型多样性和非线性建模能力提升医疗实体自动标注的准确率和查全率,避免了单标注模型存在的归纳偏置而导致方法失效的问题,特别是提升了稀疏类别样本的识别准确率。
2、本发明可以广泛用于非数值类的医学实体标注工作,并且通过设计任务相关特征,还可适用于其他实体标注工作中,对医疗命名实体标注研究提供新指南,对推动智慧医疗具有显著的意义。
附图说明
图1是本发明的整体处理流程图;
图2是本发明多模型融合策略图。
具体实施方式
以下结合附图对本发明做进一步详述。
一种利用多模型融合策略的医疗命名实体识别方法,如图1所示,包括以下步骤:
步骤1、收集电子病历文本,人工标记文本中出现的医疗概念,得到训练文本集合。
本步骤的具体实现方法为:基于规范的医疗术语集合并与医护人员达成共识的准则,采用BIO模式人工标记文本出现的六个医疗概念,得到标注有医疗概念在文本中位置及医疗概念对应类别的训练文本集合。训练文本集合中每一条数据均包含一条原始文本和医疗概念在该文本中位置及医疗概念对应类别。该训练文本集合中医疗概念分为六类:
疾病和诊断:医学上所定义的疾病以及医生在临床工作中对病因、病生理、分型分期等所作的判断;
检查:影像检查(如X线、CT、MR、PETCT等)、造影、超声、心电图等,为避免检查操作与手术操作过多冲突,不包含此外其它的诊断性操作(如胃镜、肠镜等);
检验:在实验室进行的物理或化学检查,本实施例特指临床工作中检验科进行的化验,不含免疫组化等广义实验室检查;
手术:医生在患者身体局部进行的切除、缝合等治疗,属外科的主要治疗方法;
药物:用于疾病治疗的具体化学物质;
解剖部位:指疾病、症状和体征发生的人体解剖学部位。
每一种实体用BIO表示当前词在该实体中的具体位置,则有:疾病与诊断:{‘DISEASE-B’:1},{‘DISEASE-I’:2};诊断:{‘CHECK-B’:3},{‘CHECK-I’:4};检查:{‘EXAMINE-B’:5},{‘EXAMINE-I’:6};手术:{‘OPERATION-B’:7},{‘OPERATION-I’:8};药物:{‘MEDICINE-B’:9},{‘MEDICINE-I’:10};解剖部位:{‘BODY-B’:11},{‘BODY-I’:12}及{‘O’:13},共13个类别,其中,B表示当前词在命名实体的开始,O指的是当前词在命名实体的内部,O指的是当前词不属于命名实体的任何部分。
例如,缘于(‘O’)入院(‘O’)因(‘O’)诊断(‘O’)“胃癌(‘DISEASE-B’)”,在我院(‘O’)全麻(‘MEDICINE-B’)上行(‘O’)“根治性(‘O’)远端(‘O’)胃(‘BODY-B’)大部(‘BODY-I’)切除(‘OPERATION-B’)术(‘OPERATION-I’),ROUX-Y(‘OPERATION-B’)吻合(‘OPERATION-I’),D2(‘OPERATION-B’),R0(‘OPERATION-B’)”
步骤2、对训练文本集合数据进行预处理,得到分词后文本。
在本步骤中,对所述训练文本集合进行数据预处理,包括去掉指定无用的符号、分词和停用词,得到分词后文本,如“的”、“了”、“同时”、“给与”,得到分词后文本。
步骤3、构建分词后文本中词的词特征、词性特征和医学特征,依次连接该三个特征,得到词的完整编码特征。
本步骤的具体实现方法为:利用词向量学习工具word2vec得到中文词语对应的词向量,word2vec采用百度百科数据作为训练文本集合得到中文词语的词向量,将分词后文本中的词字符串匹配中文词语,检索得到对应词向量作为词特征,词特征维度设置为一定值,如256维、512维等;利用词性标注工具对分词后文本进行标注,得到词性特征,词性特征维度设置为28,可采用任意准确率在95%以上的词性标注工具进行词性标注;确定词是否在世界卫生组织发布的《国际疾病分类》中出现,出现则这一特征为1,未出现为0,得到词的医学特征,医学特征维度设置为1维。最后将词特征、词性特征和医学特征依次连接作为分词后文本中词的完整编码特征,得到词的完整编码特征。
例如,分词处理后“患者/有/咳嗽/发热/症状/”一句话,其中“咳嗽”一词,词特征可通过word2vec工具获得256维向量(0.23,0.35,-0.35,···,0.01);其词性特征在28维的词性字典中属于动词,如词性字典序为(动词,名词,形容词,······),则咳嗽可标记为(1,0,0,···,0);“咳嗽”词出现在《国际疾病分类》,医学特征这一维为(1),然后连接词特征、词性特征和医学特征组成“咳嗽”一词285维的完整编码特征。
步骤4、将训练文本集合预处理后的分词后文本及词的完整编码特征分别输入到奇数个序列标注模型中进行模型学习,得到对应模型参数。
在本步骤中,奇数个序列标注模型得到的模型参数不同但标注原理相同,均包括序列层、编码层和标注层。例如:
首先,向该序列标注模型中输入步骤4中得到的词的独热向量,即以序列为单位,将一个含有n个词的序列记作x=(x1,x2,...,xn),其中xi表示该序列的第i个词在词典文件中的序号,进而得到词的独热向量,独热向量维度为词典文件的大小。
序列层是序列标注模型的第一层,用于得到词的低维稠密的完整编码特征。利用word2vec模型工具进行预训练或随机初始化的词向量矩阵将序列中的每个词xi由独热向量映射为低维稠密的词完整编码特征,其中,xi∈Rd,R为词完整编码特征矩阵,d为词完整编码特征的维度。下一层为编码层,在输入编码层之前,需要设置随机抛弃来减少过拟合问题。
编码层是序列标注模型的第二层,由双向长短时记忆网络模型自动提取序列特征。将一个序列各个词的词向量序列(x1,x2,...,xn)作为双向长短时记忆网络模型各个时间步的输入,再将正向长短时记忆网络模型输出的隐状态序列与反向长短时记忆网络模型的序列在各个位置输出的隐状态进行按位置拼接,得到完整的隐状态序列(h1,h2,...,hn)∈Rn×m。在设置随机抛弃后,接入一个线性层,将隐状态向量从m维映射到k维,k是训练集的标签数,即为13,从而得到自动提取的序列特征,记作矩阵P=(p1,p2,...,pn)∈Rn×k。将pi∈Rk的每一维pi,j都视作将词xi分类到第j个标签的打分值。此后为了能利用已经标注过的信息标注,接入标注层来进行标注。
条件随机场模型为标注层,用于序列的标注。条件随机场模型的参数是一个(k+2)×(k+2)的转移矩阵A,k为标签数,k上加2是因为需要在序列首尾分别添加一个起始状态和终止状态。Ai,j表示的是从第i个标签到第j个标签的转移得分,因此在为一个位置进行标注时仍可利用此前已经标注过的标签。记一个标签序列y=(y1,y2,...,yn),其标签长度等于序列长度,则条件随机场模型对序列x的标签等于y的打分可由下面公式(1)得:
可知,整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分由长短时记忆网络模型的序列特征矩阵pi决定,另一部分则由条件随机场模型层的转移矩阵A决定,再利用非线性归一化得到归一化后的概率:
将步骤4中得到的词的完整编码特征输入至上述双向长短时记忆网络序列标注模型中得到类别标签序列,标签序列为输入词的完整编码特征时对应的标签。
步骤5、根据人工指定的规则对初步标注结果进行融合,得到最终序列标注结果。
在本步骤中,采用人工指定的规则对奇数个序列标注模型的标注结果进行融合。
所述奇数个序列标注模型包括序列层、编码层和标注层。其中,序列层用于得到词的低维稠密的词的完整编码特征,编码层用于自动提取序列特征,标注层用于对序列进行标注。
由于融合层将融合多模型标签序列结果以提高最终标注的正确率,因此,本发明选择奇数个具有最佳初始化性能的双向长短时记忆网络-条件随机场模型,通过调整超参数进行融合。如图2所示,第一个序列标注模型(模型1)为最优模型,最优模型标注出结果并结合其他模型序列标注结果进行融合。在对应位置处,如果最优模型标出B或I,则可视为最终标注结果;如果最优模型标注O,需考虑其他模型结果,若其他模型标注结果一致,即全部标注B或全部标注I,此时将标注一致结果视为最终标注结果,若其他模型标注结果不一致,即模型或标注B或标注I或标注O,则最终标注结果为O。以五个序列模型为例,模型1标注O,模型2和模型3标注B,模型4标注I,模型5标注O,根据人工指定规则对以上五个模型标注结果融合,最终结果标注为O。融合策略不仅可以保持最优模型,还可以将其他两个较优模型的结果交加,从而降低错误标注率,提升模型总体效果。
本发明提出的利用多模型融合策略的医疗命名实体识别方法可以通过图1所示的流程在计算机上实现。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (9)
1.一种利用多模型融合策略的医疗命名实体识别方法,其特征在于包括以下步骤:
步骤1、收集电子病历文本,人工标记文本中出现的医疗概念,得到训练文本集合;
步骤2、对训练文本集合数据进行预处理,得到分词后文本;
步骤3、构建分词后文本中词的词特征、词性特征和医学特征,依次连接上述三个特征,得到词的完整编码特征;
步骤4、将分词后文本及词的完整编码特征分别输入到奇数个序列标注模型中进行模型学习,得到对应模型参数;
步骤5、根据人工指定的规则对初步标注结果进行融合,得到最终序列标注结果。
2.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法,其特征在于:所述步骤1的具体实现方法为:基于规范的医疗术语集合并与医护人员达成共识的准则,采用BIO标注模式人工标记文本出现疾病和诊断、检查、检验、手术、药物、解剖部位六个医疗概念,得到标注有医疗概念在文本中位置及医疗概念对应类别的训练文本集合。
3.根据权利要求1或2所述的一种利用多模型融合策略的医疗命名实体识别方法,其特征在于:所述训练文本集合中每一条数据均包含一条原始文本和医疗概念在该文本中位置及医疗概念对应类别。
4.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法,其特征在于:所述步骤2对训练文本集合进行数据预处理的方法为:去掉指定无用的符号、分词和停用词。
5.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法,其特征在于:所述步骤3的具体实现方法为:在已训练好的词向量模型中检索分词后文本中的每个词,得到对应的词向量,作为对应位置词的词特征;利用词性标注工具对分词后文本进行标注,得到词性特征;确定词是否在世界卫生组织发布的《国际疾病分类》中出现,如出现则这一特征为1,未出现为0,得到词的医学特征;最后,将词特征、词性特征和医学特征依次连接作为分词后文本中词的完整编码特征,得到词的完整编码特征。
6.根据权利要求5所述的一种利用多模型融合策略的医疗命名实体识别方法,其特征在于:所述词特征的维度为256维或512维;所述词性特征的维度为28维;所述医学特征的维度为1维。
7.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法,其特征在于:所述奇数个序列标注模型包括序列层、编码层和标注层,其中:
序列层是序列标注模型的第一层,用于得到词的低维稠密的完整编码特征;
编码层是序列标注模型的第二层,由双向长短时记忆网络模型自动提取序列特征;
标注层是条件随机场模型,用于序列的标注。
8.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法,其特征在于:所述条件随机场模型的参数是一个(k+2)×(k+2)的转移矩阵A,k为标签数,k+2表示在序列首尾分别添加一个起始状态和终止状态。
9.根据权利要求1所述的一种利用多模型融合策略的医疗命名实体识别方法,其特征在于:所述步骤5的具体实现方法为:将第一个序列标注模型为最优模型,最优模型标注出结果并结合其他模型序列标注结果进行融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010295002.3A CN111651991B (zh) | 2020-04-15 | 2020-04-15 | 一种利用多模型融合策略的医疗命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010295002.3A CN111651991B (zh) | 2020-04-15 | 2020-04-15 | 一种利用多模型融合策略的医疗命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651991A true CN111651991A (zh) | 2020-09-11 |
CN111651991B CN111651991B (zh) | 2022-08-26 |
Family
ID=72347949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010295002.3A Active CN111651991B (zh) | 2020-04-15 | 2020-04-15 | 一种利用多模型融合策略的医疗命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651991B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420205A (zh) * | 2020-12-08 | 2021-02-26 | 医惠科技有限公司 | 实体识别模型生成方法、装置及计算机可读存储介质 |
CN112530584A (zh) * | 2020-12-15 | 2021-03-19 | 贵州小宝健康科技有限公司 | 一种医疗诊断辅助方法及系统 |
CN112802570A (zh) * | 2021-02-07 | 2021-05-14 | 成都延华西部健康医疗信息产业研究院有限公司 | 一种针对电子病历命名实体识别系统及方法 |
CN112818691A (zh) * | 2021-02-01 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 命名实体识别模型训练方法及装置 |
CN114580414A (zh) * | 2022-02-24 | 2022-06-03 | 医渡云(北京)技术有限公司 | 一种基于ac自动机的实体识别方法、装置及电子设备 |
CN116757204A (zh) * | 2023-08-22 | 2023-09-15 | 北京亚信数据有限公司 | 一种医疗名称的映射方法、训练方法、装置、介质及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN110059185A (zh) * | 2019-04-03 | 2019-07-26 | 天津科技大学 | 一种医学文档专业词汇自动化标注方法 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110807328A (zh) * | 2019-10-25 | 2020-02-18 | 华南师范大学 | 面向法律文书多策略融合的命名实体识别方法及系统 |
CN110866401A (zh) * | 2019-11-18 | 2020-03-06 | 山东健康医疗大数据有限公司 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
-
2020
- 2020-04-15 CN CN202010295002.3A patent/CN111651991B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
CN109710925A (zh) * | 2018-12-12 | 2019-05-03 | 新华三大数据技术有限公司 | 命名实体识别方法及装置 |
CN109871538A (zh) * | 2019-02-18 | 2019-06-11 | 华南理工大学 | 一种中文电子病历命名实体识别方法 |
CN110059185A (zh) * | 2019-04-03 | 2019-07-26 | 天津科技大学 | 一种医学文档专业词汇自动化标注方法 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110807328A (zh) * | 2019-10-25 | 2020-02-18 | 华南师范大学 | 面向法律文书多策略融合的命名实体识别方法及系统 |
CN110866401A (zh) * | 2019-11-18 | 2020-03-06 | 山东健康医疗大数据有限公司 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420205A (zh) * | 2020-12-08 | 2021-02-26 | 医惠科技有限公司 | 实体识别模型生成方法、装置及计算机可读存储介质 |
CN112530584A (zh) * | 2020-12-15 | 2021-03-19 | 贵州小宝健康科技有限公司 | 一种医疗诊断辅助方法及系统 |
CN112818691A (zh) * | 2021-02-01 | 2021-05-18 | 北京金山数字娱乐科技有限公司 | 命名实体识别模型训练方法及装置 |
CN112802570A (zh) * | 2021-02-07 | 2021-05-14 | 成都延华西部健康医疗信息产业研究院有限公司 | 一种针对电子病历命名实体识别系统及方法 |
CN114580414A (zh) * | 2022-02-24 | 2022-06-03 | 医渡云(北京)技术有限公司 | 一种基于ac自动机的实体识别方法、装置及电子设备 |
CN116757204A (zh) * | 2023-08-22 | 2023-09-15 | 北京亚信数据有限公司 | 一种医疗名称的映射方法、训练方法、装置、介质及设备 |
CN116757204B (zh) * | 2023-08-22 | 2023-10-31 | 北京亚信数据有限公司 | 一种医疗名称的映射方法、训练方法、装置、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111651991B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111651991B (zh) | 一种利用多模型融合策略的医疗命名实体识别方法 | |
CN110705293A (zh) | 基于预训练语言模型的电子病历文本命名实体识别方法 | |
Bustos et al. | Padchest: A large chest x-ray image dataset with multi-label annotated reports | |
Jing et al. | Show, describe and conclude: On exploiting the structure information of chest x-ray reports | |
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN111540468B (zh) | 一种诊断原因可视化的icd自动编码方法与系统 | |
CN110162779B (zh) | 病历质量的评估方法、装置及设备 | |
CN112800766B (zh) | 基于主动学习的中文医疗实体识别标注方法及系统 | |
Liu et al. | Medical-vlbert: Medical visual language bert for covid-19 ct report generation with alternate learning | |
Zhang et al. | MIE: A medical information extractor towards medical dialogues | |
CN112597774B (zh) | 中文医疗命名实体识别方法、系统、存储介质和设备 | |
CN111696640A (zh) | 自动获取病历模板的方法、装置和存储介质 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
JP7464800B2 (ja) | 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム | |
Li et al. | Vispi: Automatic visual perception and interpretation of chest x-rays | |
TW202101477A (zh) | 一種抽樣後標記應用在類神經網絡訓練模型之方法 | |
Kaur et al. | Methods for automatic generation of radiological reports of chest radiographs: a comprehensive survey | |
CN115859914A (zh) | 基于病历语义理解的诊断icd自动编码方法及系统 | |
Yu et al. | Identification of pediatric respiratory diseases using a fine-grained diagnosis system | |
CN117316369B (zh) | 平衡跨模态信息的胸部影像诊断报告自动生成方法 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN112735545A (zh) | 自训练方法、模型、处理方法、装置及存储介质 | |
Wang et al. | Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model | |
Nair et al. | Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240328 Address after: Room 1518B, Unit 2, 12th Floor, Huizhi Building, No. 9 Xueqing Road, Haidian District, Beijing, 100080 Patentee after: Beijing contention Technology Co.,Ltd. Country or region after: China Address before: No.9, 13th Street, economic and Technological Development Zone, Binhai New Area, Tianjin Patentee before: TIANJIN University OF SCIENCE AND TECHNOLOGY Country or region before: China |
|
TR01 | Transfer of patent right |