CN110688855A - 基于机器学习的中文医疗实体识别方法及系统 - Google Patents

基于机器学习的中文医疗实体识别方法及系统 Download PDF

Info

Publication number
CN110688855A
CN110688855A CN201910936307.5A CN201910936307A CN110688855A CN 110688855 A CN110688855 A CN 110688855A CN 201910936307 A CN201910936307 A CN 201910936307A CN 110688855 A CN110688855 A CN 110688855A
Authority
CN
China
Prior art keywords
training
electronic medical
medical record
machine learning
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910936307.5A
Other languages
English (en)
Inventor
王红
王彩雨
王峰
赵丽丽
虞凤萍
庄鲁贺
李威
胡斌
张伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN201910936307.5A priority Critical patent/CN110688855A/zh
Publication of CN110688855A publication Critical patent/CN110688855A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开公开了基于机器学习的中文医疗实体识别方法及系统,获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。

Description

基于机器学习的中文医疗实体识别方法及系统
技术领域
本公开涉及中文医疗实体识别技术领域,特别是涉及基于机器学习的中文医疗实体识别方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。
医疗实体识别是文本处理中的关键技术,它在信息检索、机器翻译、问答系统等自然语言处理技术中,发挥着重要的作用,医疗实体识别的任务是对文本中出现的具有特定意义的词或短语进行识别。
在医学临床领域的医疗实体识别中,其目的是从电子病历中挖掘出专家感兴趣的专业术语,例如,药物:替吉奥胶囊、奥沙利铂等;手术:直肠根治术、根治性远端胃大部切除术等;疾病和诊断:食管癌、慢性萎缩性胃炎等;解剖部位:腹部、胃底部等。准确识别出此类的医学实体,从而研究实体之间的关系,对医学研究来说是重要的一步。因此医学医疗实体识别的研究具有非常重要的意义。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
中文的医疗实体识别与英文的相比,挑战更大,目前未解决的难题更多。英语中的医疗实体具有比较明显的形式标志,即实体中的每个词的第一个字母要大写,所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语医疗实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难;汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,医疗实体识别的第一步就是确定词的边界,即分词。
综上所述,对于中文医疗实体识别精准和快速的识别方法,尚缺乏有效的解决方案。
发明内容
为了解决现有技术的不足,本公开提供了基于机器学习的中文医疗实体识别方法及系统;
第一方面,本公开提供了基于机器学习的中文医疗实体识别方法;
基于机器学习的中文医疗实体识别方法,包括:
获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;
对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;
将训练用的电子病历的文本数据与构建的字典进行匹配,得到字向量;将训练用的电子病历的文本数据与构建的词典进行匹配,得到词向量;将字向量和词向量同时嵌入到长短期记忆网络LSTM中;
将训练用的电子病历的文本数据与构建的字典匹配,得到字向量;将字向量嵌入到卷积神经网络模型CNN中;
将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;
将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;
获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。
第二方面,本公开还提供了基于机器学习的中文医疗实体识别系统;
基于机器学习的中文医疗实体识别系统,包括:
字典和词典构建模块,其被配置为:获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;
数据标记模块,其被配置为:对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;
字向量和词向量嵌入模块,其被配置为:将训练用的电子病历的文本数据与构建的字典进行匹配,得到字向量;将训练用的电子病历的文本数据与构建的词典进行匹配,得到词向量;将字向量和词向量同时嵌入到长短期记忆网络LSTM中;
将训练用的电子病历的文本数据与构建的字典匹配,得到字向量;将字向量嵌入到卷积神经网络模型CNN中;
机器学习模型构建模块,其被配置为:将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;
训练模块,其被配置为:将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;
识别模块,其被配置为:获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。
第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。
与现有技术相比,本公开的有益效果是:
在训练阶段,通过患者的电子病历构建字典和词典,而不是使用业内普遍使用的字典和词典,而且将新构建的字典和词典嵌入到LSTM模型和CNN模型中,可以提升中文医疗实体识别的准确度,避免新登录词不能被准确识别;
利用LSTM模型,将字符信息和词与词之间的信息相融合,在确保准确的同时,又利用词的上下文信息,可增强标记的准确性。
利用LSTM模型和CNN模型的结合使用,可以初步对待识别病历进行中文医疗实体的初次识别;
利用条件随机场CRF对LSTM模型和CNN模型的输出值进行二次识别,提升了中文医疗实体识别的准确度。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为第一个实施例的方法流程图;
图2为第一个实施例的使用BIOES标记示意图;
图3为第一个实施例的基于字符的LSTM结构图
图4为第一个实施例的基于词的LSTM结构图;
图5为第一个实施例的基于词的信息流传播图;
图6为第一个实施例的lattice LSTM结构图;
图7为第一个实施例的准确率图;
图8为第二个实施例的系统功能模块图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一,本实施例提供了基于机器学习的中文医疗实体识别方法;
如图1所示,基于机器学习的中文医疗实体识别方法,包括:
S1:获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;
S2:对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;
S3:将训练用的电子病历的文本数据与构建的字典进行匹配,得到字向量;将训练用的电子病历的文本数据与构建的词典进行匹配,得到词向量;将字向量和词向量同时嵌入到长短期记忆网络LSTM中;
将训练用的电子病历的文本数据与构建的字典匹配,得到字向量;将字向量嵌入到卷积神经网络模型CNN中;
S4:将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;
S5:将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;
S6:获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。
所述电子病历,记录每一位患者的疾病、吃过的药物、做过的手术等等;根据电子病历纯文本文档中的内容,提取其实体内容以及对应的位置,实体类别包括:疾病和诊断、检查、检验、手术、药物、解剖部位。
本实施例包括1000名患者的临床信息构成初始数据集,数据集格式为json格式,每位患者数据包括,纯文本的病历记录以及记录中对应的实体类别,类体类别如表1所示。
表1实体类别计数
Figure BDA0002221680010000061
作为一个或多个实施例,S1中,所述构建训练用的电子病历的字典的具体步骤包括:
对训练用的电子病历,采用one-hot编码进行处理,得到若干个汉字和每一个汉字对应的编码;将所述若干个汉字和每一个汉字对应的编码,视为字典。
作为一个或多个实施例,S1中,所述构建训练用的电子病历的词典的具体步骤包括:
对训练用的电子病历,采用word2vec模型进行处理,得到若干个词和每一个词对应的词向量;将所述若干个词和每一个词对应的词向量,视为词典。
数据输入,中文文本与英文文本的不同之处在于,中文文本中的单词没有分隔符,所以,需要将文本分割成字符和词。形式上,一句话的字符级序列表示为:sc=c1,c2,c3,…,cm,其中,cj指第j个字符,词序列表示为:s=w1,w2,w3,…,wn,wi指句中第i个词。然后我们利用嵌入向量,将每一个字符及词嵌入到向量中,针对序列s,对每一个字符和词,其对应的向量表示为:
Figure BDA0002221680010000071
Figure BDA0002221680010000072
使用
Figure BDA0002221680010000073
表示以字符索引b开头并以字符索引e结尾的子序列,如,在序列“患者诊断为直肠癌”中,是“患者”和
Figure BDA0002221680010000075
是“直肠癌”。序列中的词使用word2vec分词器获得。
因此,用词向量所表示的序列为:
Figure BDA0002221680010000076
作为一个或多个实施例,S2中,对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;具体步骤包括:
使用BIOES标记规则对训练用的待识别电子病历进行数据标记,得到每一个字和每一个字对应的标记符号。
根据不同的实体类别,定义类别名称,包括:疾病和诊断、检查、检验、手术、药物、解剖部位。使用BIOES(B-begin,I-inside,O-outside,E-end,S-single)标记规则来进行基于词和基于字符的命名实体标记,标记过程中按照标记内容及其对应的位置进行准确标记。如图2所示。
B表示当前实体中最开始的字,I表示当前实体中中间的字,O表示不属于当前实体的字,E表示当前实体中最后的字,S表示单字实体。
作为一个或多个实施例,基于嵌入字向量和词向量后的长短期记忆网络LSTM、嵌入字向量的卷积神经网络模型CNN、和条件随机场模型CRF构建机器学习模型;具体步骤包括:
嵌入字向量的长短期记忆网格网络:
Figure BDA0002221680010000081
Figure BDA0002221680010000082
Figure BDA0002221680010000083
Figure BDA0002221680010000084
Figure BDA0002221680010000085
Figure BDA0002221680010000086
嵌入词向量后的长短期记忆网格网络:
Figure BDA0002221680010000087
Figure BDA0002221680010000089
Figure BDA00022216800100000810
Figure BDA00022216800100000811
输入门,
Figure BDA00022216800100000812
遗忘门,由于标注只是在字级进行,所有词cell就不需要输出门。有了
Figure BDA0002221680010000091
就有更多的信息流入每个比如图7中对于输入源有
Figure BDA0002221680010000094
(穿孔)和
Figure BDA0002221680010000095
(阑尾炎穿孔),把所有的其中
Figure BDA0002221680010000097
结合起来给对于每个子序列
Figure BDA0002221680010000099
都有一个附加的门
Figure BDA00022216800100000910
来控制它进入
Figure BDA00022216800100000911
Figure BDA00022216800100000912
Figure BDA00022216800100000913
Figure BDA00022216800100000914
Figure BDA00022216800100000915
Figure BDA00022216800100000916
门值
Figure BDA00022216800100000917
Figure BDA00022216800100000918
经过归一化之后得到的。
将长短期记忆网格网络LSTM的输出值与卷积神经网络模型CNN的输出值进行拼接后,输入到条件随机场模型CRF的输入端中;得到机器学习模型。
给定序列s其对应的概率表示为:
Figure BDA00022216800100000919
y=l1,l2,l3,…,lτ为序列s对应的标签,基于字符时,τ为n,基于词时,τ为m。为模型参数,
Figure BDA00022216800100000921
为模型偏差。
我们使用一阶维特比算法在基于字或基于字符的输入序列上找到最高得分标签序列。给定一组手动标记的训练数据
Figure BDA00022216800100000922
使用L2正则化对数似然损失来训练模型:
Figure BDA00022216800100000923
其中λ是正则化参数,Θ表示参数集合。
作为一个或多个实施例,S5中,所述将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;具体步骤包括:
将数据转换得到的每一个字,输入到机器学习模型的长短期记忆网络LSTM的输入端,长短期记忆网络LSTM的输出端输出第一识别结果;
将数据转换得到的每一个字,输入到机器学习模型的卷积神经网络模型CNN的输入端,卷积神经网络模型CNN的输出端输出第二识别结果;
将长短期记忆网络LSTM的第一识别结果与卷积神经网络模型CNN的第二识别结果进行拼接得到第三识别结果,将第三识别结果输入到条件随机场CRF的输入端中;
条件随机场模型CRF将第三识别结果进行进一步识别,输出预测的中文医疗实体识别结果;
将预测的中文医疗实体识别结果与已知的每一个字对应的标记符号进行比较,如果识别结果正确率达到设定阈值,则停止训练,输出识别结果正确率最高时对应的机器学习模型即为训练好的机器学习模型;否则,就继续训练。
图3为第一个实施例的基于字符的LSTM结构图;图4为第一个实施例的基于词的LSTM结构图;图5为第一个实施例的基于词的信息流传播图;图6为第一个实施例的latticeLSTM结构图;图7为第一个实施例的准确率图。
实施例二,本实施例还提供了基于机器学习的中文医疗实体识别系统;
如图8所示,基于机器学习的中文医疗实体识别系统,包括:
字典和词典构建模块,其被配置为:获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;
数据标记模块,其被配置为:对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;
字向量和词向量嵌入模块,其被配置为:将训练用的电子病历的文本数据与构建的字典进行匹配,得到字向量;将训练用的电子病历的文本数据与构建的词典进行匹配,得到词向量;将字向量和词向量同时嵌入到长短期记忆网络LSTM中;
将训练用的电子病历的文本数据与构建的字典匹配,得到字向量;将字向量嵌入到卷积神经网络模型CNN中;
机器学习模型构建模块,其被配置为:将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;
训练模块,其被配置为:将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;
识别模块,其被配置为:获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。
实施例三,本实施例还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一所述方法的步骤。
实施例四,本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述方法的步骤。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.基于机器学习的中文医疗实体识别方法,其特征是,包括:
获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;
对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;
将训练用的电子病历的文本数据与构建的字典进行匹配,得到字向量;将训练用的电子病历的文本数据与构建的词典进行匹配,得到词向量;将字向量和词向量同时嵌入到长短期记忆网络LSTM中;
将训练用的电子病历的文本数据与构建的字典匹配,得到字向量;将字向量嵌入到卷积神经网络模型CNN中;
将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;
将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;
获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。
2.如权利要求1所述的方法,其特征是,所述构建训练用的电子病历的字典的具体步骤包括:
对训练用的电子病历,采用one-hot编码进行处理,得到若干个汉字和每一个汉字对应的编码;将所述若干个汉字和每一个汉字对应的编码,视为字典。
3.如权利要求1所述的方法,其特征是,所述构建训练用的电子病历的词典的具体步骤包括:
对训练用的电子病历,采用word2vec模型进行处理,得到若干个词和每一个词对应的词向量;将所述若干个词和每一个词对应的词向量,视为词典。
4.如权利要求1所述的方法,其特征是,对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;具体步骤包括:
使用BIOES标记规则对训练用的待识别电子病历进行数据标记,得到每一个字和每一个字对应的标记符号。
5.如权利要求1所述的方法,其特征是,所述将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;具体步骤包括:
将数据转换得到的每一个字,输入到机器学习模型的长短期记忆网络LSTM的输入端,长短期记忆网络LSTM的输出端输出第一识别结果;
将数据转换得到的每一个字,输入到机器学习模型的卷积神经网络模型CNN的输入端,卷积神经网络模型CNN的输出端输出第二识别结果;
将长短期记忆网络LSTM的第一识别结果与卷积神经网络模型CNN的第二识别结果进行拼接得到第三识别结果,将第三识别结果输入到条件随机场CRF的输入端中;
条件随机场模型CRF将第三识别结果进行进一步识别,输出预测的中文医疗实体识别结果;
将预测的中文医疗实体识别结果与已知的每一个字对应的标记符号进行比较,如果识别结果正确率达到设定阈值,则停止训练,输出识别结果正确率最高时对应的机器学习模型即为训练好的机器学习模型;否则,就继续训练。
6.基于机器学习的中文医疗实体识别系统,其特征是,包括:
字典和词典构建模块,其被配置为:获取训练用的电子病历;构建训练用的电子病历的字典;构建训练用的电子病历的词典;
数据标记模块,其被配置为:对训练用的电子病历进行数据标记,得到每一个字和每一个字对应的标记符号;
字向量和词向量嵌入模块,其被配置为:将训练用的电子病历的文本数据与构建的字典进行匹配,得到字向量;将训练用的电子病历的文本数据与构建的词典进行匹配,得到词向量;将字向量和词向量同时嵌入到长短期记忆网络LSTM中;
将训练用的电子病历的文本数据与构建的字典匹配,得到字向量;将字向量嵌入到卷积神经网络模型CNN中;
机器学习模型构建模块,其被配置为:将嵌入字向量和词向量后的长短期记忆网络LSTM的输出端和嵌入字向量的卷积神经网络模型CNN的输出端,均与条件随机场CRF的输入端相连接,构建机器学习模型;
训练模块,其被配置为:将已进行数据标记的训练用的电子病历,输入到机器学习模型中,对机器学习模型进行训练,得到训练好的机器学习模型;
识别模块,其被配置为:获取待识别的电子病历,将待识别的电子病历输入到机器学习模型中,输出电子病历的中文医疗实体识别结果。
7.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-5任一项方法所述的步骤。
8.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项方法所述的步骤。
CN201910936307.5A 2019-09-29 2019-09-29 基于机器学习的中文医疗实体识别方法及系统 Pending CN110688855A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910936307.5A CN110688855A (zh) 2019-09-29 2019-09-29 基于机器学习的中文医疗实体识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910936307.5A CN110688855A (zh) 2019-09-29 2019-09-29 基于机器学习的中文医疗实体识别方法及系统

Publications (1)

Publication Number Publication Date
CN110688855A true CN110688855A (zh) 2020-01-14

Family

ID=69111161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910936307.5A Pending CN110688855A (zh) 2019-09-29 2019-09-29 基于机器学习的中文医疗实体识别方法及系统

Country Status (1)

Country Link
CN (1) CN110688855A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222340A (zh) * 2020-01-15 2020-06-02 东华大学 基于多标准主动学习的乳腺电子病历实体识别系统
CN111370086A (zh) * 2020-02-27 2020-07-03 平安国际智慧城市科技股份有限公司 电子病例检测方法、装置、计算机设备和存储介质
CN112017643A (zh) * 2020-08-24 2020-12-01 广州市百果园信息技术有限公司 语音识别模型训练方法、语音识别方法及相关装置
CN112036183A (zh) * 2020-08-31 2020-12-04 湖南星汉数智科技有限公司 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质
CN112101034A (zh) * 2020-09-09 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112434520A (zh) * 2020-11-11 2021-03-02 北京工业大学 命名实体识别方法、装置及可读存储介质
CN112687365A (zh) * 2020-12-24 2021-04-20 零氪科技(天津)有限公司 基于语音识别的病历数据处理方法和装置
CN112732863A (zh) * 2021-01-15 2021-04-30 清华大学 电子病历标准化切分方法
CN112818693A (zh) * 2021-02-07 2021-05-18 深圳市世强元件网络有限公司 一种电子元器件型号词的自动提取方法及系统
CN112836019A (zh) * 2021-02-19 2021-05-25 中国科学院新疆理化技术研究所 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN113095074A (zh) * 2021-03-22 2021-07-09 北京工业大学 中文电子病历的分词方法及系统
WO2021151322A1 (zh) * 2020-09-07 2021-08-05 平安科技(深圳)有限公司 基于深度学习模型的实体识别方法、装置、设备及介质
CN113806568A (zh) * 2021-08-10 2021-12-17 中国人民大学 多媒体资源推荐方法、装置、电子设备及存储介质
CN113889281A (zh) * 2021-11-17 2022-01-04 重庆邮电大学 一种中文医疗智能实体识别方法、装置及计算机设备
CN114141385A (zh) * 2021-10-27 2022-03-04 翼健(上海)信息科技有限公司 一种用于传染病的预警方法、系统和可读存储介质
CN115270779A (zh) * 2022-06-30 2022-11-01 山东大学齐鲁医院 一种溃疡性结肠炎结构化报告的生成方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108831439A (zh) * 2018-06-27 2018-11-16 广州视源电子科技股份有限公司 语音识别方法、装置、设备和系统
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN109388807A (zh) * 2018-10-30 2019-02-26 中山大学 电子病历命名实体识别的方法、装置及存储介质
CN109871541A (zh) * 2019-03-06 2019-06-11 电子科技大学 一种适用于多语言多领域的命名实体识别方法
CN109933801A (zh) * 2019-03-25 2019-06-25 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN112434520A (zh) * 2020-11-11 2021-03-02 北京工业大学 命名实体识别方法、装置及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108831439A (zh) * 2018-06-27 2018-11-16 广州视源电子科技股份有限公司 语音识别方法、装置、设备和系统
CN109388807A (zh) * 2018-10-30 2019-02-26 中山大学 电子病历命名实体识别的方法、装置及存储介质
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN109871541A (zh) * 2019-03-06 2019-06-11 电子科技大学 一种适用于多语言多领域的命名实体识别方法
CN109933801A (zh) * 2019-03-25 2019-06-25 北京理工大学 基于预测位置注意力的双向lstm命名实体识别方法
CN112434520A (zh) * 2020-11-11 2021-03-02 北京工业大学 命名实体识别方法、装置及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Y ZHANG.ETC: ""Chinese NER Using Lattice LSTM"", 《HTTPS://XUESHU.BAIDU.COM/USERCENTER/PAPER/SHOW?PAPERID=CB419A6C3EC5EBA521C2BC5B36231D84&SITE=XUESHU_SE》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222340A (zh) * 2020-01-15 2020-06-02 东华大学 基于多标准主动学习的乳腺电子病历实体识别系统
CN111370086A (zh) * 2020-02-27 2020-07-03 平安国际智慧城市科技股份有限公司 电子病例检测方法、装置、计算机设备和存储介质
CN112017643A (zh) * 2020-08-24 2020-12-01 广州市百果园信息技术有限公司 语音识别模型训练方法、语音识别方法及相关装置
CN112017643B (zh) * 2020-08-24 2023-10-31 广州市百果园信息技术有限公司 语音识别模型训练方法、语音识别方法及相关装置
CN112036183A (zh) * 2020-08-31 2020-12-04 湖南星汉数智科技有限公司 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质
CN112036183B (zh) * 2020-08-31 2024-02-02 湖南星汉数智科技有限公司 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质
WO2021151322A1 (zh) * 2020-09-07 2021-08-05 平安科技(深圳)有限公司 基于深度学习模型的实体识别方法、装置、设备及介质
CN112101034A (zh) * 2020-09-09 2020-12-18 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112101034B (zh) * 2020-09-09 2024-02-27 沈阳东软智能医疗科技研究院有限公司 一种判别医学实体的属性的方法、装置及相关产品
CN112434520A (zh) * 2020-11-11 2021-03-02 北京工业大学 命名实体识别方法、装置及可读存储介质
CN112687365A (zh) * 2020-12-24 2021-04-20 零氪科技(天津)有限公司 基于语音识别的病历数据处理方法和装置
CN112732863A (zh) * 2021-01-15 2021-04-30 清华大学 电子病历标准化切分方法
CN112732863B (zh) * 2021-01-15 2022-12-23 清华大学 电子病历标准化切分方法
CN112818693A (zh) * 2021-02-07 2021-05-18 深圳市世强元件网络有限公司 一种电子元器件型号词的自动提取方法及系统
CN112836019A (zh) * 2021-02-19 2021-05-25 中国科学院新疆理化技术研究所 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN113095074A (zh) * 2021-03-22 2021-07-09 北京工业大学 中文电子病历的分词方法及系统
CN113806568A (zh) * 2021-08-10 2021-12-17 中国人民大学 多媒体资源推荐方法、装置、电子设备及存储介质
CN113806568B (zh) * 2021-08-10 2023-11-03 中国人民大学 多媒体资源推荐方法、装置、电子设备及存储介质
CN114141385B (zh) * 2021-10-27 2023-12-05 翼健(上海)信息科技有限公司 一种用于传染病的预警方法、系统和可读存储介质
CN114141385A (zh) * 2021-10-27 2022-03-04 翼健(上海)信息科技有限公司 一种用于传染病的预警方法、系统和可读存储介质
CN113889281A (zh) * 2021-11-17 2022-01-04 重庆邮电大学 一种中文医疗智能实体识别方法、装置及计算机设备
CN113889281B (zh) * 2021-11-17 2024-05-03 华美浩联医疗科技(北京)有限公司 一种中文医疗智能实体识别方法、装置及计算机设备
CN115270779A (zh) * 2022-06-30 2022-11-01 山东大学齐鲁医院 一种溃疡性结肠炎结构化报告的生成方法及系统
CN115270779B (zh) * 2022-06-30 2024-04-12 山东大学齐鲁医院 一种溃疡性结肠炎结构化报告的生成方法及系统

Similar Documents

Publication Publication Date Title
CN110688855A (zh) 基于机器学习的中文医疗实体识别方法及系统
Wang et al. Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition
Jagannatha et al. Structured prediction models for RNN based sequence labeling in clinical text
WO2021139424A1 (zh) 文本内涵质量的评估方法、装置、设备及存储介质
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
CN106682397A (zh) 一种基于知识的电子病历质控方法
Jiang et al. De-identification of medical records using conditional random fields and long short-term memory networks
CN111783466A (zh) 一种面向中文病历的命名实体识别方法
CN112800766B (zh) 基于主动学习的中文医疗实体识别标注方法及系统
CN110162784B (zh) 中文病历的实体识别方法、装置、设备及存储介质
CN106909783A (zh) 一种基于时间线的病历文本医学知识发现方法
Wang et al. Chinese medical named entity recognition based on multi-granularity semantic dictionary and multimodal tree
Gao et al. Named entity recognition method of Chinese EMR based on BERT-BiLSTM-CRF
CN112151183A (zh) 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
Wan et al. A self-attention based neural architecture for Chinese medical named entity recognition
Arvanitis et al. Translation of sign language glosses to text using sequence-to-sequence attention models
Boroş et al. GBD-NER at PARSEME shared task 2018: Multi-word expression detection using bidirectional long-short-term memory networks and graph-based decoding
CN111611780A (zh) 基于深度学习的消化内镜报告结构化方法与系统
CN115238026A (zh) 一种基于深度学习的医疗文本主题分割方法和装置
Zhang et al. Using a pre-trained language model for medical named entity extraction in Chinese clinic text
CN113160917A (zh) 一种电子病历实体关系抽取方法
CN111291550B (zh) 一种中文实体提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination