CN113343696A - 电子病历命名实体的识别方法、装置、远程终端及系统 - Google Patents
电子病历命名实体的识别方法、装置、远程终端及系统 Download PDFInfo
- Publication number
- CN113343696A CN113343696A CN202110604870.XA CN202110604870A CN113343696A CN 113343696 A CN113343696 A CN 113343696A CN 202110604870 A CN202110604870 A CN 202110604870A CN 113343696 A CN113343696 A CN 113343696A
- Authority
- CN
- China
- Prior art keywords
- recognition
- model
- models
- fusion
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明提供的电子病历命名实体的识别方法、装置、远程终端及系统,所述识别方法包括:S10,建立多个训练好的识别模型;S20,获取待识别的电子病例;S30,对所述步骤S20中的电子病例进行序列标注和数据转换,将其转换为识别模型可识别的文本数据;S40,将所述步骤S30中转换后的文本数据分别输入训练好的多个识别模型中,进行命名实体识别,分别得到多个模型的识别结果;S50,对多个识别结果进行融合模型的运算,得到融合后的最终识别结果;本发明具有能够提高医疗类实体识别准确度,进而提高医院校对患者出院信息的工作效率的有益效果,适用于自然语言处理的领域。
Description
技术领域
本发明涉及自然语言处理的技术领域,具体涉及电子病历命名实体的识别方法、装置、远程终端及系统。
背景技术
随着计算机等信息技术的飞速发展,各大医院的信息化建设也逐渐完善,每时每刻都在产生大量的医疗数据,虽然大部分的病历都已经电子化,但是其发挥的作用依然非常有限,如果数据不能得到有效地利用,则大大浪费了数据的宝贵价值。
电子病历(Electronic Medical Record,EMR)是指医务人员在医疗活动中,通过医疗信息系统产生的文字、图表、影像等信息,是患者身体各个方面的信息的专业描述,是宝贵的医疗记录。
在患者办理出院手续时,需要从电子病例中,通过命名实体识别出有效信息进行手续的办理,然而,对于医疗类实体,传统的命名实体识别方法的识别结果不够准确,经常因为信息的错误、缺失等问题影响办理,即耽误了患者时间,又影响了医院的效率。
在自然语言处理研究方面,命名实体识别(NER)技术可用于识别文本中的特定实体信息,如人名、地名、组织名称等,它广泛应用于信息抽取、信息检索、智能问答、机器翻译等领域;命名实体识别准确率和召回率的高低,直接决定着语法分析、语义分析等语言理解全过程的性能。
然而,目前基于自然语言处理的中文电子病历命名实体识别方法,通常有隐马尔可夫模型(Hidden Markov Model,HMM)、条件随机场(Conditional Random Field,CRF)、基于深度学习的LSTM等方法,不同的方法都有各自的优缺点;随着数据量的不断增大、越来越复杂,基于现有方法已无法满足对高准确度的保证。
发明内容
针对相关技术中存在的不足,本发明所要解决的技术问题在于:提供一种能够提高医疗类实体识别准确度,进而提高医院校对患者出院信息的工作效率的电子病历命名实体的识别方法、装置、远程终端及系统。
为解决上述技术问题,本发明采用的技术方案为:
电子病历命名实体的识别方法,包括:
S10,建立多个训练好的识别模型;
S20,获取待识别的电子病例;
S30,对所述步骤S20中的电子病例进行序列标注和数据转换,将其转换为识别模型可识别的文本数据;
S40,将所述步骤S30中转换后的文本数据分别输入训练好的多个识别模型中,进行命名实体识别,分别得到多个模型的识别结果;
S50,对多个识别结果进行融合模型的运算,得到融合后的最终识别结果。
优选地,所述步骤S10,建立多个训练好的识别模型;具体包括:
S101,将已有的电子病例库中的数据进行序列标注和数据转换,形成可识别的文本数据库;
S102,将文本数据库中的数据,按比例划分为训练集和测试集;
S103,通过训练集对多个识别模型分别进行训练,得到多个训练好的识别模型;
S104,使用测试集对训练好的多个识别模型进行测试,将每个识别模型得到的测试结果,进行融合模型的运算,得到最终的测试结果;
S105,对融合后的最终测试结果进行效果评价。
优选地,所述步骤S104中,将每个识别模型得到的测试结果,进行融合模型的运算,得到最终的测试结果;具体包括:
对多个识别模型得到的多个识别结果进行投票表决,将所有模型中出现概率最多的结果作为融合后的最终结果。
优选地,所述步骤S105,对融合后的最终结果进行效果评价,具体包括:
对融合后的最终结果采用多个指标进行评价,多角度评价模型的效果;其中:多个指标包括:准确率、精确率、召回率、F1值。
优选地,多个指标的表达式分别为:
准确率=所有预测正确的样本/总的样本;
精确率=识别出正确的实体数/识别出的实体数;
召回率=识别出正确的实体数/样本的实体数;
F1值=(2*精确率*召回率)/(精确率+召回率)。
优选地,所述多个识别模型包括:HMM模型、CRF模型、Bi-LSTM模型、Bi-LSTM+CRF模型、SSVM模型。
相应地,电子病历命名实体的识别装置,包括:
建立模块,用于建立多个训练好的识别模型;
获取模块,用于获取待识别的电子病例;
数据转换模块,用于对获取模块中的电子病例进行序列标注和数据转换,将其转换为识别模型可识别的文本数据;
识别模块,用于将数据转换模块转换后的文本数据分别输入训练好的多个识别模型中,进行命名实体识别,分别得到多个模型的识别结果;
融合模块,用于对多个识别结果进行融合模型的运算,得到融合后的最终结果。
优选地,所述建立模块包括:
数据清洗模块,用于将已有的电子病例库中的数据进行序列标注和数据转换,形成可识别的文本数据库;
划分模块,用于将文本数据库中的数据,按比例划分为训练集和测试集
训练模块,用于通过训练集对多个识别模型分别进行训练,得到多个训练好的识别模型;
测试模块,用于使用测试集对训练好的多个识别模型进行测试,将每个识别模型得到的测试结果,进行融合模型的运算,得到最终的测试结果;
评价模块,用于对对融合后的最终测试结果进行效果评价。
相应地,远程终端,其特征在于:包括:
远程处理器,适于实现各种指令;
存储介质,其中存储有多条指令,所述指令适于由处理器加载并执行如权利要求~中任一所述的电子病历命名实体的识别方法。
相应地,电子病历命名实体的识别系统,包括:远程终端和用户终端;
所述远程终端,其上设置有如权利要求所述的远程处理器和存储介质;用于响应于用户终端发起的命名任务识别请求,调取待识别的电子病例,输出最终识别结果至用户终端。
所述用户终端,用于接收用户输入的待调取用户的基本信息,并将该基本信息发送至远程终端;以及接收远程终端输出的最终识别结果。
本发明的有益技术效果在于:
1、本发明中,建立了多个训练好的识别模型,在病人出院办理手续时,首先,获取该病人的电子病例,通过序列标注和数据转换后,转换为识别模型可识别的文本数据;其次,将上述可识别的文本数据输入到各个不同的识别模型中,进行命名实体识别,分别得到多个模型的识别结果;最后,对多个识别结果进行融合模型的运算,得到融合后的最终识别结果;本发明中,能够充分利用各个模型的优势,得到的融合模型具有更好的性能,能够提高识别的准确度,进而能够有效校对患者的出院信息,避免了出院信息中的不准确信息、无效信息和确实信息等,提高了医院的工作效率,实用性极强。
2、本发明中,建立多个训练好的识别模型中,基于已有的电子病历库,对HMM模型、CRF模型、Bi-LSTM模型、Bi-LSTM+CRF模型、SSVM模型进行训练学习,使用测试集对训练好的多个识别模型进行测试,对融合后的最终测试结果进行效果评价,能够对于得到的最终测试结果,通过准确率、召回率、F1分值等多个指标从不同角度进行评价,更好的了解模型的准确性和有效性,为后续的使用提供良好的参考价值。
附图说明
图1是本发明实施例一提供的电子病历命名实体的识别方法的流程示意图;
图2是本发明实施例二提供的电子病历命名实体的识别方法的流程示意图;
图3是本发明实施例一提供的电子病历命名实体的识别装置的结构程示意图;
图4是本发明实施例二提供的电子病历命名实体的识别装置的结构程示意图;
图5是本发明实施例一提供的电子病历命名实体的识别系统的工作过程图;
图中:
10为建立模块,20为获取模块,30为数据转换模块,40为识别模块,50为融合模块;
101为数据清洗模块,102为划分模块,103为训练模块,104为测试模块,105为评价模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
以下结合附图详细说明所述电子病历命名实体的识别方法、装置、远程终端及系统的一个实施例。
图1是本发明实施例一提供的电子病历命名实体的识别方法的流程示意图;如图1所示,电子病历命名实体的识别方法,包括:
S10,建立多个训练好的识别模型;
S20,获取待识别的电子病例;
S30,对所述步骤S20中的电子病例进行序列标注和数据转换,将其转换为识别模型可识别的文本数据;
S40,将所述步骤S30中转换后的文本数据分别输入训练好的多个识别模型中,进行命名实体识别,分别得到多个模型的识别结果;
S50,对多个识别结果进行融合模型的运算,得到融合后的最终识别结果。
具体地,信息提取问题就是一个序列标注问题,比如提取出时间、地点等;因此,本申请所述步骤S30,对所述步骤S20中的电子病例进行序列标注和数据转换,将其转换为识别模型可识别的文本数据,具体可包括:
序列标注:将中文电子病历中的一个句子表示为一个序列,将句子中的一个关键词表示为元素;本申请采用BIO三元标记,将每个元素标注为“B-X”、“I-X”和“O”;其中,“B-X”表示在片段开头且属于X类型的元素,“I-X”表示在片段中间位置且属于X类型的元素,“O”表示非医疗实体元素。
数据转换:通过转换脚本函数转换成识别模型可以使用的格式(文本数据),所述的文本数据为带有标注的数据。
进一步地,所述多个识别模型可包括:HMM模型、CRF模型、Bi-LSTM模型、Bi-LSTM+CRF模型、SSVM模型。
(1)HMM模型
HMM模型(隐马尔可夫模型)描述的是由一个隐藏的马尔科夫链随机生成不可观测的随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。
用x表示状态,y表示观察值,假设观察到的结果为Y,
则Y=y(0),y(1),…,y(L-1),隐藏条件为X,X=x(0),x(1),…,x(L-1),长度为L,则马可夫模型的概率可以表达为:
该HMM模型是基于输出独立性假设,不考虑上下文特征。
(2)CRF模型
CRF模型(条件随机场模型)克服了HMM的缺点,还解决了最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM)存在的标记偏置问题,在自然语言处理领域得到了广泛的应用。
给定两个随机变量X、Y,其中X是输入变量,表示需要标记的观察序列,Y是输出变量,表示标记序列。则给定观察序列X,标记序列Y的条件概率模型可以表示为P(Y|X);设图G=(V,E),其中V是顶点的集合,E是边的集合;
若随机变量Y构成一个由无向图G表示的马尔科夫随机场,即:
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v)。
对任意结点v成立,则条件概率分布P(Y|X)为条件随机域。其中w~v指在图G中与结点v有边连接的所有结点w,w≠v指结点v以外的所有结点。
(3)Bi-LSTM模型
Bi-LSTM模型(深度学习方法模型)在深度学习的方法中,LSTM也是常用的解决序列标注问题的方法。LSTM是依靠神经网络超强的非线性拟合能力,在训练时将样本通过高维空间中的复杂非线性变换,学习到从样本到标注的函数,之后使用这个函数为指定的样本预测每个token的标注。
和CRF模型相比,LSTM最大的好处就是简单粗暴,不需要做繁杂的特征工程,直接训练即可,同时比起HMM,LSTM的准确率也较高。
(4)Bi-LSTM+CRF模型
简单的LSTM的优点是能够通过双向的设置学习到观测序列(输入的字)之间的依赖,在训练过程中,LSTM能够根据目标(比如识别实体)自动提取观测序列的特征,但是缺点是无法学习到状态序列(输出的标注)之间的关系,要知道,在命名实体识别任务中,标注之间是有一定的关系的,比如B类标注(表示某实体的开头)后面不会再接一个B类标注,所以LSTM在解决NER这类序列标注任务时,虽然可以省去很繁杂的特征工程,但是也存在无法学习到标注上下文的缺点。
相反,CRF的优点就是能对隐含状态建模,学习状态序列的特点,但它的缺点是需要手动提取序列特征。所以一般的做法是,在LSTM后面再加一层CRF,以获得两者的优点。
(5)SSVM模型
SSVM模型(结构化支持向量机),在SVM模型的基础上,引入结构化特征函数,构建了SSVM。SSVM模型是将命名实体识别转化成序列标注问题,可以有效的解决自然语言处理问题。
给定输入向量X,输出向量Y,可以学习到一个输入与输出对之间的一个判别函数f:X→Y,则假设空间f可以表示为:
其中:
F(x,y;w)=<w,Ψ(x,y)>。
这里w是权重向量,ψ(x,y)是结合输入与输出数据特性的联合特征表示,一般ψ(x,y)的形式取决于具体的问题。
本申请文件中,将上述5个算法模型(HMM模型、CRF模型、Bi-LSTM模型、Bi-LSTM+CRF模型、SSVM模型)结合在一起,作为基础的识别模型,对输入的同一电子病例数据,分别得到5个模型的命名识别结果;并通过对多个识别结果进行融合模型的运算,得到融合后的模型,能够充分利用各个模型的优势,提高识别的准确度。
本发明实施例一提供的电子病历命名实体的识别方法,建立了多个训练好的识别模型,在病人出院办理手续时,首先,获取该病人的电子病例,通过序列标注和数据转换后,转换为识别模型可识别的文本数据;其次,将上述可识别的文本数据输入到各个不同的识别模型中,进行命名实体识别,分别得到多个模型的识别结果;最后,对多个识别结果进行融合模型的运算,得到融合后的最终识别结果;本发明中,能够充分利用各个模型的优势,得到的融合模型具有更好的性能,能够提高识别的准确度,进而能够有效校对患者的出院信息,避免了出院信息中的不准确信息、无效信息和确实信息等,提高了医院的工作效率,实用性极强。
图2是本发明实施例二中建立多个训练好的识别模型的流程示意图,如图2所示,在实施例一的基础上,电子病历命名实体的识别方法,其特征在于:所述步骤S10,建立多个训练好的识别模型;具体包括:
S101,将已有的电子病例库中的数据进行序列标注和数据转换,形成可识别的文本数据库;
S102,将文本数据库中的数据,按比例划分为训练集和测试集;
S103,通过训练集对多个识别模型分别进行训练,得到多个训练好的识别模型;
S104,使用测试集对训练好的多个识别模型进行测试,将每个识别模型得到的测试结果,进行融合模型的运算,得到最终的测试结果;
S105,对融合后的最终测试结果进行效果评价。
具体地,述步骤S104中,将每个识别模型得到的测试结果,进行融合模型的运算,得到最终的测试结果;具体包括:
对多个识别模型得到的多个识别结果进行投票表决,将所有模型中出现概率最多的结果作为融合后的最终结果。
其中:S50,对多个识别结果进行融合模型的运算的具体内容与步骤S104的具体内容相同,均采用投票表决方式,选择出现概率最多的结果作为融合后的结果。
进一步地,所述步骤S105,对融合后的最终结果进行效果评价,具体包括:
对融合后的最终结果采用多个指标进行评价,多角度评价模型的效果;其中:多个指标包括:准确率、精确率、召回率、F1值。
更进一步地,所述多个指标的表达式分别为:
准确率=所有预测正确的样本/总的样本;
精确率=识别出正确的实体数/识别出的实体数;
召回率=识别出正确的实体数/样本的实体数;
F1值=(2*精确率*召回率)/(精确率+召回率)。
从上述多个指标的表达式可知,准确率、精确率、召回率的取值均在0和1之间,越接近1说明模型效果越好;精确率和召回率有时会出现矛盾的情况,这就需要综合考虑它们的加权调和平均值,也就是常用的F1值,当F1值较高时说明模型比较有效。
本发明中,可通过预设多个指标的参数值,评价融合模型的有效性,当测试结果的评价指标值向有效性差的方向偏离参数值后,可通过重新训练的方式,直至测试结果达到预设的参数值后,停止训练,从而得到效果较好的融合模型。
本实施例中,步骤S102中,按比例划分为训练集和测试集,
具体比例可为4:1,即:训练集(80%)和测试集(20%)。
本发明实施例二提供的电子病历命名实体的识别方法,建立多个训练好的识别模型中,基于已有的电子病历库,对HMM模型、CRF模型、Bi-LSTM模型、Bi-LSTM+CRF模型、SSVM模型进行训练学习,使用测试集对训练好的多个识别模型进行测试,对融合后的最终测试结果进行效果评价,能够对于得到的最终测试结果,通过准确率、召回率、F1分值等多个指标从不同角度进行评价,更好的了解模型的准确性和有效性,为后续的使用提供良好的参考价值。
图3是本发明实施例一提供的电子病历命名实体的识别装置的结构程示意图;如图3所示,电子病历命名实体的识别装置,包括:
建立模块10,用于建立多个训练好的识别模型;
获取模块20,用于获取待识别的电子病例;
数据转换模块30,用于对获取模块10中的电子病例进行序列标注和数据转换,将其转换为识别模型可识别的文本数据;
识别模块40,用于将数据转换模块30转换后的文本数据分别输入训练好的多个识别模型中,进行命名实体识别,分别得到多个模型的识别结果;
融合模块50,用于对多个识别结果进行融合模型的运算,得到融合后的最终结果。
图4是本发明实施例二提供的电子病历命名实体的识别装置的结构程示意图;如图4所示,所述建立模块10包括:
数据清洗模块101,用于将已有的电子病例库中的数据进行序列标注和数据转换,形成可识别的文本数据库;
划分模块102,用于将文本数据库中的数据,按比例划分为训练集和测试集
训练模块103,用于通过训练集对多个识别模型分别进行训练,得到多个训练好的识别模型;
测试模块104,用于使用测试集对训练好的多个识别模型进行测试,将每个识别模型得到的测试结果,进行融合模型的运算,得到最终的测试结果;
评价模块105,用于对对融合后的最终测试结果进行效果评价。
图5是本发明实施例一提供的电子病历命名实体的识别系统的工作过程图;如图5所示,电子病历命名实体的识别系统,包括:远程终端和用户终端;
所述远程终端,用于响应于用户终端发起的命名任务识别请求,调取待识别的电子病例,输出最终识别结果至用户终端;
具体地,远程终端包括:
远程处理器,适于实现各种指令;
存储介质,其中存储有多条指令,所述指令适于由处理器加载并执行如权利要求如上所述的电子病历命名实体的识别方法。
所述用户终端,用于接收用户输入的待调取用户的基本信息,并将该基本信息发送至远程终端;以及接收远程终端输出的最终识别结果。
本发明中,在病人出院办理手续时,医护人员可通过用户终端输入待调取用户的基本信息,并将该基本信息发送至远程终端;远程终端响应于用户终端发起的命名任务识别请求,调取待识别的电子病例,输出最终识别结果至用户终端;其中,远程终端中包含有远程处理器和加载有电子病历命名实体的识别方法的存储介质,能够得到准确性较高的最终识别结果,使医护人员在办理出院手续的过程中,避免了出院信息中的不准确信息、无效信息和确实信息等,提高了医院的工作效率,实用性极强。
具体地,图5中的对比数据集和评价算法环节为可选环节,使用者可通过将发明提出的识别方法、装置应用于对其他数据库的命名实体的识别,进而对其进行评价,进一步验证本发明提出的融合模型的有效性。
本发明中的用户终端可以是各种终端设备,例如:台式电脑、手提电脑等,具体可以通过软件和/或硬件来实现。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法、装置及系统中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其他设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定的编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在本申请所提供的实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.电子病历命名实体的识别方法,其特征在于:包括:
S10,建立多个训练好的识别模型;
S20,获取待识别的电子病例;
S30,对所述步骤S20中的电子病例进行序列标注和数据转换,将其转换为识别模型可识别的文本数据;
S40,将所述步骤S30中转换后的文本数据分别输入训练好的多个识别模型中,进行命名实体识别,分别得到多个模型的识别结果;
S50,对多个识别结果进行融合模型的运算,得到融合后的最终识别结果。
2.根据权利要求1所述的电子病历命名实体的识别方法,其特征在于:所述步骤S10,建立多个训练好的识别模型;具体包括:
S101,将已有的电子病例库中的数据进行序列标注和数据转换,形成可识别的文本数据库;
S102,将文本数据库中的数据,按比例划分为训练集和测试集;
S103,通过训练集对多个识别模型分别进行训练,得到多个训练好的识别模型;
S104,使用测试集对训练好的多个识别模型进行测试,将每个识别模型得到的测试结果,进行融合模型的运算,得到最终的测试结果;
S105,对融合后的最终测试结果进行效果评价。
3.根据权利要求2所述的电子病历命名实体的识别方法,其特征在于:所述步骤S104中,进行融合模型的运算,具体包括:
对多个识别模型得到的多个识别结果进行投票表决,将所有模型中出现概率最多的结果作为融合后的最终结果。
4.根据权利要求2所述的电子病历命名实体的识别方法,其特征在于:所述步骤S105,对融合后的最终结果进行效果评价,具体包括:
对融合后的最终结果采用多个指标进行评价,多角度评价模型的效果;其中:多个指标包括:准确率、精确率、召回率、F1值。
5.根据权利要求4所述的电子病历命名实体的识别方法,其特征在于:多个指标的表达式分别为:
准确率=所有预测正确的样本/总的样本;
精确率=识别出正确的实体数/识别出的实体数;
召回率=识别出正确的实体数/样本的实体数;
F1值=(2*精确率*召回率)/(精确率+召回率)。
6.根据权利要求1所述的电子病历命名实体的识别方法,其特征在于:所述多个识别模型包括:HMM模型、CRF模型、Bi-LSTM模型、Bi-LSTM+CRF模型、SSVM模型。
7.电子病历命名实体的识别装置,其特征在于:包括:
建立模块(10),用于建立多个训练好的识别模型;
获取模块(20),用于获取待识别的电子病例;
数据转换模块(30),用于对获取模块(10)中的电子病例进行序列标注和数据转换,将其转换为识别模型可识别的文本数据;
识别模块(40),用于将数据转换模块(30)转换后的文本数据分别输入训练好的多个识别模型中,进行命名实体识别,分别得到多个模型的识别结果;
融合模块(50),用于对多个识别结果进行融合模型的运算,得到融合后的最终结果。
8.根据权利要求7所述的电子病历命名实体的识别装置,其特征在于:所述建立模块(10)包括:
数据清洗模块(101),用于将已有的电子病例库中的数据进行序列标注和数据转换,形成可识别的文本数据库;
划分模块(102),用于将文本数据库中的数据,按比例划分为训练集和测试集
训练模块(103),用于通过训练集对多个识别模型分别进行训练,得到多个训练好的识别模型;
测试模块(104),用于使用测试集对训练好的多个识别模型进行测试,将每个识别模型得到的测试结果,进行融合模型的运算,得到最终的测试结果;
评价模块(105),用于对对融合后的最终测试结果进行效果评价。
9.远程终端,其特征在于:包括:
远程处理器,适于实现各种指令;
存储介质,其中存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~6中任一所述的电子病历命名实体的识别方法。
10.电子病历命名实体的识别系统,其特征在于:包括:远程终端和用户终端;
所述远程终端,其上设置有如权利要求9所述的远程处理器和存储介质;用于响应于用户终端发起的命名任务识别请求,调取待识别的电子病例,输出最终识别结果至用户终端。
所述用户终端,用于接收用户输入的待调取用户的基本信息,并将该基本信息发送至远程终端;以及接收远程终端输出的最终识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110604870.XA CN113343696A (zh) | 2021-05-31 | 2021-05-31 | 电子病历命名实体的识别方法、装置、远程终端及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110604870.XA CN113343696A (zh) | 2021-05-31 | 2021-05-31 | 电子病历命名实体的识别方法、装置、远程终端及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113343696A true CN113343696A (zh) | 2021-09-03 |
Family
ID=77473684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110604870.XA Pending CN113343696A (zh) | 2021-05-31 | 2021-05-31 | 电子病历命名实体的识别方法、装置、远程终端及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343696A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821644A (zh) * | 2021-09-22 | 2021-12-21 | 上海明略人工智能(集团)有限公司 | 数据增强方法、系统、存储介质及电子设备 |
CN114169338A (zh) * | 2022-02-10 | 2022-03-11 | 北京智源人工智能研究院 | 一种医疗命名实体识别方法、装置和电子设备 |
CN116911305A (zh) * | 2023-09-13 | 2023-10-20 | 中博信息技术研究院有限公司 | 一种基于融合模型的中文地址识别方法 |
-
2021
- 2021-05-31 CN CN202110604870.XA patent/CN113343696A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821644A (zh) * | 2021-09-22 | 2021-12-21 | 上海明略人工智能(集团)有限公司 | 数据增强方法、系统、存储介质及电子设备 |
CN114169338A (zh) * | 2022-02-10 | 2022-03-11 | 北京智源人工智能研究院 | 一种医疗命名实体识别方法、装置和电子设备 |
CN116911305A (zh) * | 2023-09-13 | 2023-10-20 | 中博信息技术研究院有限公司 | 一种基于融合模型的中文地址识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113343696A (zh) | 电子病历命名实体的识别方法、装置、远程终端及系统 | |
CN105404632B (zh) | 基于深度神经网络对生物医学文本序列化标注的系统和方法 | |
WO2021139247A1 (zh) | 医学领域知识图谱的构建方法、装置、设备及存储介质 | |
CN111611775B (zh) | 一种实体识别模型生成方法、实体识别方法及装置、设备 | |
CN111538845A (zh) | 一种构建肾病专科医学知识图谱的方法、模型及系统 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
WO2023040493A1 (zh) | 事件检测 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN116860987A (zh) | 基于生成式大语言模型的领域知识图谱构建方法和系统 | |
CN116245107B (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN109299467B (zh) | 医学文本识别方法及装置、语句识别模型训练方法及装置 | |
CN113707299A (zh) | 基于问诊会话的辅助诊断方法、装置及计算机设备 | |
WO2021159757A1 (zh) | 基于模型的缩写数据的实体识别方法、装置和计算机设备 | |
CN110222192A (zh) | 语料库建立方法及装置 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
CN113761151A (zh) | 同义词挖掘、问答方法、装置、计算机设备和存储介质 | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
CN115640378A (zh) | 工单检索方法、服务器、介质及产品 | |
CN115132372A (zh) | 术语处理方法、装置、电子设备、存储介质及程序产品 | |
CN113408296A (zh) | 一种文本信息提取方法、装置及设备 | |
CN112182253A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN112735543A (zh) | 医学数据的处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |