CN110364234A - 电子病历智能存储分析检索系统及方法 - Google Patents

电子病历智能存储分析检索系统及方法 Download PDF

Info

Publication number
CN110364234A
CN110364234A CN201910562808.1A CN201910562808A CN110364234A CN 110364234 A CN110364234 A CN 110364234A CN 201910562808 A CN201910562808 A CN 201910562808A CN 110364234 A CN110364234 A CN 110364234A
Authority
CN
China
Prior art keywords
electronic health
health record
module
keyword
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910562808.1A
Other languages
English (en)
Other versions
CN110364234B (zh
Inventor
金心宇
邵洋
祝一顺
张唯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910562808.1A priority Critical patent/CN110364234B/zh
Publication of CN110364234A publication Critical patent/CN110364234A/zh
Application granted granted Critical
Publication of CN110364234B publication Critical patent/CN110364234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明提供一种电子病历智能存储分析检索系统:包括电子病历存储模块、电子病历分析模块、电子病历检索模块和系统控制中心;所述电子病历存储模块、电子病历分析模块和电子病历检索模块均与系统控制中心信号连接。本发明还提供一种电子病历智能存储分析检索系统,不仅仅支持以关键词检索电子病历,还可以利用中文文本处理的方法实现以病历检索病历的效果,通过关键词或病历检索到的电子病历对医生的诊疗过程有着重要的参考意义。本发明充分利用了遗留电子病历的信息资源,此外,本发明将先进的存储技术和自然语言处理技术运用在电子病历上,同时集成多种存储方式和分析方式为本发明带来更快速、更精准的技术优势。

Description

电子病历智能存储分析检索系统及方法
技术领域
本发明涉及电子病历技术领域,具体涉及一种电子病历智能存储分析检索系统及方法。
背景技术
电子病历是医生诊疗后的第一手资料,其中包含了关于病人病情的详细信息,是诊断过程中必不可少的资料。而病人的电子病历往往仅在其复诊时才会使用,这是对电子病历资源的一大浪费。与此同时社会老龄化和看病难的现象依旧明显,提高医生诊疗效率、方便病人就诊是现代医疗体系的优化的方向。
通过利用先前的电子病历分析当前病人的病情是对电子病历资源的合理再利用,而检索获得的相似电子病历能对医生提供一个良好的借鉴和参考,能够帮助医生提高诊疗效率。个别研究(如申请号201810324593.5的发明专利《一种基于中文电子病历的辅助诊断决策方法》)利用基分类器筛选电子病历中的数字特征并将特征通过决策树进行分类得到疾病预测的效果。此类方法的实际效果仅依赖于数字特征的筛选,没有考虑到电子病历中的语义信息,特征的遗漏将会制约分类器的预测效果。而个别研究(如申请号201711117124.8的发明专利《电子病历索引方法及装置、电子病历存储及装置》)通过将搜索关键词转化成同义标准词的方式进行索引匹配获得关联的电子病历。此方法仅能通过搜索关键词的方法获取电子病历而不能达到以文本检索电子病历的效果。
因此,需要对现有技术进行改进。
发明内容
本发明要解决的技术问题是提供一种高效的电子病历智能存储分析检索系统及方法。
为解决上述技术问题,本发明提供一种电子病历智能存储分析检索系统:包括电子病历存储模块、电子病历分析模块、电子病历检索模块和系统控制中心;
所述电子病历存储模块、电子病历分析模块和电子病历检索模块均与系统控制中心信号连接。
作为对本发明电子病历智能存储分析检索系统的改进:
所述电子病历存储模块包括数据库模块和搜索引擎模块;
所述电子病历分析模块包括文本处理模块、语义分析模块和深度学习模块;
所述电子病历检索模块包括关键词检索模块和文本检索模块。
本发明还提供一种电子病历智能存储分析检索方法:包括以下步骤:
步骤S101将数据库模块中的所有电子病历发送给文本处理模块,文本处理模块对电子病历进行分词处理,即把单份电子病历拆分成词汇的集合s,整个数据库模块中的所有电子病历构成电子病历语料库,电子病历语料库的电子病历的词汇构成语料库集合S;
步骤S102文本处理模块依据每份电子病历的各个词汇在集合s和语料库集合S中的出现频率,筛选出2k个候选关键词;
步骤S103文本处理模块依据每份电子病历的各个词汇在集合s中的前后位置关系构建词图,筛选出2k个候选关键词;
步骤S104文本处理模块利用投票法,从步骤S102和步骤S103的候选关键词中筛选出k个关键词从而形成关键词集合s′,如果筛选得到关键词不足k个则用步骤S102得到的其他候选关键词填充;
步骤S105将关键词集合s′写入数据库模块中对应电子病历的“关键词”字段;
步骤S106语义分析模块将语料库集合S作为训练数据,训练向量化模型,得到描述病历的句子向量Vs和词向量矩阵Vw=[v1 T,v2 T,···,vm T]T,其中vi T表示分词集合s中第i个分词的词向量,m表示集合s的大小;
步骤S107将步骤S106得到的句子向量Vs存储到位于数据库模块中的球树的数据结构中;
步骤S108将词向量矩阵做定长化处理使得各个电子病历的词向量的维度相同,得到定长词向量矩阵Vw′;
步骤S109语义分析模块将定长词向量矩阵Vw′发送给深度学习模块,搭建CNN网络,利用训练数据对该网络进行训练。该网络的输入是定长词向量矩阵Vw′;
步骤S110深度学习模块搭建LSTM网络,利用训练数据对该网络进行训练,该网络的输入是定长词向量矩阵Vw′;
步骤S111深度学习模块利用Stacking的集成学习方法,搭建逻辑回归模型。逻辑回归模型的输入为CNN网络和LSTM网络的输出,逻辑回归模型的输出为电子病历编码后的病种,重新训练整体的网络,得到训练完的网络。
步骤S112系统控制中心获得新的电子病历发送给文本处理模块。文本处理模块依照新的电子病历中各个词汇出现频率拆分成词汇的集合,训练向量化模型得到词向量矩阵,再做定长化处理,得到新的电子病历的定长词向量矩阵Vw′;
将新的电子病历的定长词向量矩阵Vw′输入步骤S111得到的训练完的网络,网络的输出为预测该电子病历所反应的疾病。
将新的电子病历的定长词向量矩阵Vw′输入步骤S111得到的训练完的网络中,对训练完的网络的输出做解码得到系统预测该电子病历所反应的疾病。
本发明还提供一种电子病历智能存储分析检索方法:包括以下步骤:
步骤S201使用者通过系统控制中心向关键词检索模块输入的关键词;
步骤S202利用搜索引擎模块,在数据库模块中各条电子病历数据行的“诊断病种”字段、“关键词”字段、“检测数据”字段中对步骤S201输入关键词进行搜索匹配;
步骤S203将“诊断病种”字段、“关键词”字段、“检测数据”字段进行搜索匹配搜索到的电子病历分别在系统控制中心上显示。
本发明还提供一种电子病历智能存储分析检索方法:包括以下步骤:
步骤S301将从系统控制中心获得的电子病历输入文本处理模块,获得关键词集合s′;
步骤S302文本处理模块将关键词集合s′中的各个词作为关键词,在搜索引擎模块中根据“关键词”和“检测数据”字段搜索关键词,从数据库模块中的电子病历语料库分别得到“关键词匹配病历”、“默认逐词匹配病历”;
步骤S303将电子病历输入语义分析模块获得句子向量Vs和定长词向量矩阵Vw′;
步骤S304语义分析模块筛选出球树中与句子向量Vs最相似的句子向量Vs′,Vs′所对应的电子病历为“最匹配病历”;
步骤S305语义分析模块将定长词向量矩阵Vw′输入深度学习模块,得到预测的病种;
步骤S306语义分析模块将预测的病种发送给搜索引擎模块,在搜索引擎模块的“诊断病种”字段中搜索预测得到的病种,得到“病种匹配病历”;
步骤S307将搜索到的电子病历分别以“最匹配病历”、“病种匹配病历”、“关键词匹配病历”、“默认逐词匹配病历”展示在系统控制中心中。
作为对本发明电子病历智能存储分析检索方法的改进:
步骤S301获得关键词集合s′的方法包括以下步骤:
步骤S101将数据库模块中的所有电子病历发送给文本处理模块,文本处理模块对电子病历进行分词处理,即把单份电子病历拆分成词汇的集合s,整个数据库模块中的所有电子病历构成电子病历语料库,电子病历语料库的电子病历的词汇构成语料库集合S;
步骤S102文本处理模块依据每份电子病历的各个词汇在集合s和语料库集合S中的出现频率,筛选出2k个候选关键词;
步骤S103文本处理模块依据每份电子病历的各个词汇在集合s中的前后位置关系构建词图,筛选出2k个候选关键词;
步骤S104文本处理模块利用投票法,从步骤S102和步骤S103的候选关键词中筛选出k个关键词从而形成关键词集合s′,如果筛选得到关键词不足k个则用步骤S102得到的其他候选关键词填充。
作为对本发明电子病历智能存储分析检索方法的进一步改进:
步骤S303获得句子向量Vs和定长词向量矩阵Vw′的方法包括以下步骤:
步骤S105将关键词集合s′写入数据库模块中对应电子病历的“关键词”字段;
步骤S106语义分析模块将语料库集合S作为训练数据,训练向量化模型,得到描述病历的句子向量Vs和词向量矩阵Vw=[v1 T,v2 T,···,vm T]T,其中vi T表示分词集合s中第i个分词的词向量,m表示集合s的大小;
步骤S107将步骤S106得到的句子向量Vs存储到位于数据库模块中的球树的数据结构中;
步骤S108将词向量矩阵做定长化处理使得各个电子病历的词向量的维度相同,得到定长词向量矩阵Vw′。
本发明电子病历智能存储分析检索系统及方法的技术优势为:
本发明采用深度学习的方法对中文电子病历进行分析,能够对该电子病历所反映的病种进行预测,该预测结果能够辅助医生诊疗使用;同时,本发明不仅仅支持以关键词检索电子病历,还可以利用中文文本处理的方法实现以病历检索病历的效果,通过关键词或病历检索到的电子病历对医生的诊疗过程有着重要的参考意义。
本发明的技术创新点在于充分利用了遗留电子病历的信息资源,此外,本发明将先进的存储技术和自然语言处理技术运用在电子病历上,同时集成多种存储方式和分析方式为本发明带来更快速、更精准的技术优势。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细说明。
图1为本发明电子病历智能存储分析检索系统的模块示意图;
图2为图1中电子病历分析模块的流程图;
图3为图1中电子病历检索模块的结构图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此。
实施例1、电子病历智能存储分析检索系统,如图1所示,包括电子病历存储模块、电子病历分析模块、电子病历检索模块和系统控制中心。
电子病历存储模块、电子病历分析模块和电子病历检索模块均与系统控制中心信号连接。
电子病历存储模块,用于存储电子病历及其相关的信息;
电子病历分析模块,用于根据电子病历的文本内容获取其中的语义、关键词及其描述的病种;
电子病历检索模块,用于根据关键词或文本检索获取相关的电子病历。
一般地,电子病历中的姓名、性别、年龄等个人信息由病人在诊断前实现填写,而病状、病史等信息主要由医生填写。在诊断结束后医生申请将汇总完的电子病历提交,出于对病人隐私的保护,本系统的存储模块仅保存分析模块所需使用的信息。
与此同时,本系统会将该电子病历送往电子病历分析模块中。其所包含的文本处理模块、语义分析模块和深度学习模块会对该电子病历进行智能的分析,分别得到该电子病历的语义、关键词和该电子病历所描述的病种。电子病历分析模块的流程图如图2所示。
电子病历存储模块包括数据库模块和搜索引擎模块。数据库模块用于存储电子病历原文和及其相关信息,此类信息在医生诊断查询时使用。所述搜索引擎模块会按照一定的格式复制数据库中存储的病历原文相关信息,包括电子病历原文、文本处理模块提取的关键词和深度学习模块分析得到的病种。此类信息在电子病历检索模块中被使用。
电子病历分析模块包括文本处理模块、语义分析模块和深度学习模块。文本处理模块用于获取电子病历中的关键词来抽象地表示整个电子病历的语义信息,语义分析模块用于完整地展现电子病历的语义,深度学习模块用于提取电子病历所描述的病种供医生诊疗使用,深度学习模块使用到经典的卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(LongShort-Term Memory,LSTM)。深度学习模块采用集成学习的方法融合了多种深度学习模型,用于提升整体的预测准确度。
电子病历检索模块包括关键词检索模块和文本检索模块,关键词检索模块用于根据输入的关键词从搜索引擎模块中检索相似的电子病历。文本检索模块用于根据输入的文本(即电子病历)基于多种匹配方式检索得到相似的电子病历。
系统控制中心是电子病历存储模块、电子病历分析模块和电子病历检索模块的汇聚点。它由前台和后台组成,其中前台负责搜集系统使用者传入系统的信息并将后台处理得到的信息通过内部的展示界面反馈给用户,而后台负责根据前台传入的信息,通过整合各模块的资源得到相应的数据后传送给前台。
电子病历存储模块中的数据库模块和搜索引擎模块都是以“一条电子病历”为单位存储的,但每一条数据不仅仅存储了电子病历原文,还包括该条电子病历中的诊断病种(diagnose)、关键词集合(keyword)和检测数据(inspect_data)。通过输入的关键词向这三个字段做匹配,匹配相等的电子病历分别称为“病种匹配病历”、“关键词匹配病历”、“默认逐词匹配病历”。
文本处理模块的工作过程包括以下步骤:
3.1、对电子病历进行分词处理,即把病历语句拆分成词汇的集合,得到分词集合;
3.2、筛选分词集合中能反映文本语义信息的词汇组成关键词集合。
语义分析模块的工作过程包括以下步骤:
4.1、将电子病历文档转换成句子向量和词向量矩阵表示;
4.2、将句子向量存储在球树结构中便于匹配和查找;
4.3、将词向量矩阵定长化处理。
电子病历分析模块的步骤如下:
步骤S101将数据库模块中的所有电子病历发送给文本处理模块,文本处理模块对电子病历进行分词处理,即把单份电子病历拆分成词汇的集合s,整个数据库模块中的所有电子病历构成电子病历语料库,电子病历语料库的词汇构成语料库集合S;
步骤S102文本处理模块依据每份电子病历的各个词汇在集合s和语料库集合S中的出现频率,利用TF-IDF算法筛选出2k个候选关键词;
步骤S103文本处理模块依据每份电子病历的各个词汇在集合s中的前后位置关系构建词图(即将所有词汇分散在空间中,每个词汇指向该词汇的后一个词汇以此构建词图),利用TextRank算法筛选出2k个候选关键词;
步骤S104文本处理模块利用投票法,从步骤S102和步骤S103的候选关键词中筛选出k个关键词从而形成关键词集合s′,如果筛选得到关键词不足k个则用步骤S102得到的TF-IDF得分最高的其他候选关键词填充;
步骤S105文本处理模块将关键词集合s′写入数据库模块中对应电子病历的“关键词”字段;
步骤S106语义分析模块从文本处理模块中得到语料库集合S,将语料库集合S作为训练数据,利用Doc2Vec算法训练向量化模型,并得到描述病历的句子向量Vs和词向量矩阵Vw=[v1 T,v2 T,···,vm T]T,其中vi T表示分词集合s中第i个分词的词向量,m表示集合s的大小;
步骤S107语义分析模块将步骤S106得到的句子向量Vs存储到位于数据库模块中的球树的数据结构中,供电子病历检索模块使用;
步骤S108不同电子病历的分词集合s的大小将导致词向量矩阵Vw维度不同,这将不利于深度学习模块的开展。为此语义分析模块需要将词向量矩阵做定长化处理使得各个电子病历的词向量的维度相同,得到定长词向量矩阵Vw′;
步骤S109语义分析模块将定长词向量矩阵Vw′发送给深度学习模块,搭建CNN网络,利用训练数据对该网络进行训练。该网络的输入是定长词向量矩阵Vw′;
步骤S110深度学习模块搭建LSTM网络,为提升效果在网络中加入self-attention机制。利用训练数据对该网络进行训练,该网络的输入是定长词向量矩阵Vw′;
步骤S109和步骤S110的输出均代表估计的电子病历编码后的病种;
步骤S111深度学习模块利用Stacking的集成学习方法,搭建逻辑回归模型。逻辑回归模型的输入为CNN网络和LSTM网络的输出,逻辑回归模型的输出作为电子病历编码后的病种(对电子病历编码后的病种解码即可得到预测该电子病历所反应的疾病),重新训练整体的网络,得到训练完的网络。
深度学习模块不会输出中文,所以各个网络的输出病种用数字代替中文,好比“0”代表风湿性关节炎、“1”代表骨质增生。是一对一的关系,通过解码数字(电子病历编码后的病种)能够得知其真实病种。
步骤S112从系统控制中心中获得新的电子病历发送给文本处理模块。同样,文本处理模块依照新的电子病历中各个词汇出现频率拆分成词汇的集合,利用Doc2Vec算法训练向量化模型得到词向量矩阵,再做定长化处理,得到新的电子病历的定长词向量矩阵Vw′;
文本处理模块将新的电子病历的定长词向量矩阵Vw′输入到深度学习模块的训练完的网络中,对该网络的输出做解码得到系统预测该电子病历所反应的疾病。
电子病历检索模块用于根据用户输入的内容匹配相似的电子病历,该模块可以细化为、检索模块和文本检索模块。整体的结构图如图3所示。
关键词检索模块的步骤如下:
步骤S201以使用者通过系统控制中心向关键词检索模块输入关键词;
步骤S202利用搜索引擎模块,在数据库模块中各条电子病历数据行的“诊断病种”字段、“关键词”字段、“检测数据”字段中对步骤S201输入的关键词进行搜索匹配;
步骤S203将“诊断病种”字段、“关键词”字段、“检测数据”字段进行搜索匹配搜索到的电子病历分别以“病种匹配病历”、“关键词匹配病历”、“默认逐词匹配病历”通过系统控制中心的展示界面中。
文本检索模块实现的是以电子病历检索电子病历。其步骤如下:
步骤S301将从系统控制中心获得的电子病历输入文本处理模块,按照步骤S101-S104的方法获得关键词集合s′;
步骤S302文本处理模块将关键词集合s′中的各个词作为关键词,在搜索引擎模块中根据“关键词”和“检测数据”字段搜索关键词,从数据库模块中的电子病历语料库分别得到“关键词匹配病历”、“默认逐词匹配病历”;
步骤S303将电子病历输入语义分析模块按照步骤S101-S108的方法获得句子向量Vs和定长词向量矩阵Vw′;
步骤S304语义分析模块筛选出球树中与句子向量Vs最相似的句子向量Vs′,Vs′所对应的电子病历为“最匹配病历”;
步骤S305语义分析模块将定长词向量矩阵Vw′输入深度学习模块,得到预测的病种;
步骤S306语义分析模块将预测的病种发送给搜索引擎模块,在搜索引擎模块的“诊断病种”字段中搜索预测得到的病种,得到“病种匹配病历”。
步骤S307将搜索到的电子病历分别以“最匹配病历”、“病种匹配病历”、“关键词匹配病历”、“默认逐词匹配病历”展示在系统展示界面中。
综上可知,本电子病历智能存储分析检索系统首先能够从电子病历的语义中分析预测出病人的病种,为医生诊疗提供辅助;此外,在医生的诊疗过程中可以通过输入关键字或电子病历来查找相似电子病历,通过参考相似电子病历可以帮助医生诊疗,提高工作效率。
最后,还需要注意的是,以上列举的仅是本发明的若干个具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (7)

1.电子病历智能存储分析检索系统,其特征在于:包括电子病历存储模块、电子病历分析模块、电子病历检索模块和系统控制中心;
所述电子病历存储模块、电子病历分析模块和电子病历检索模块均与系统控制中心信号连接。
2.根据权利要求1所述的电子病历智能存储分析检索系统,其特征在于:
所述电子病历存储模块包括数据库模块和搜索引擎模块;
所述电子病历分析模块包括文本处理模块、语义分析模块和深度学习模块;
所述电子病历检索模块包括关键词检索模块和文本检索模块。
3.利用如权利要求1-2任一所述的电子病历智能存储分析检索系统的电子病历智能存储分析检索方法,其特征在于:包括以下步骤:
步骤S101 将数据库模块中的所有电子病历发送给文本处理模块,文本处理模块对电子病历进行分词处理,即把单份电子病历拆分成词汇的集合s,整个数据库模块中的所有电子病历构成电子病历语料库,电子病历语料库的电子病历的词汇构成语料库集合S;
步骤S102 文本处理模块依据每份电子病历的各个词汇在集合s和语料库集合S中的出现频率,筛选出2k个候选关键词;
步骤S103 文本处理模块依据每份电子病历的各个词汇在集合s中的前后位置关系构建词图,筛选出2k个候选关键词;
步骤S104 文本处理模块利用投票法,从步骤S102和步骤S103的候选关键词中筛选出k个关键词从而形成关键词集合s′,如果筛选得到关键词不足k个则用步骤S102得到的其他候选关键词填充;
步骤S105 将关键词集合s′写入数据库模块中对应电子病历的“关键词”字段;
步骤S106 语义分析模块将语料库集合S作为训练数据,训练向量化模型,得到描述病历的句子向量Vs和词向量矩阵Vw=[v1 T,v2 T,···,vm T]T,其中vi T表示分词集合s中第i个分词的词向量,m表示集合s的大小;
步骤S107 将步骤S106得到的句子向量Vs存储到位于数据库模块中的球树的数据结构中;
步骤S108 将词向量矩阵做定长化处理使得各个电子病历的词向量的维度相同,得到定长词向量矩阵Vw′;
步骤S109 语义分析模块将定长词向量矩阵Vw′发送给深度学习模块,搭建CNN网络,利用训练数据对该网络进行训练;该网络的输入是定长词向量矩阵Vw′;
步骤S110 深度学习模块搭建LSTM网络,利用训练数据对该网络进行训练,该网络的输入是定长词向量矩阵Vw′;
步骤S111 深度学习模块利用Stacking的集成学习方法,搭建逻辑回归模型;逻辑回归模型的输入为CNN网络和LSTM网络的输出,逻辑回归模型的输出为电子病历编码后的病种,重新训练整体的网络,得到训练完的网络;
步骤S112 系统控制中心获得新的电子病历发送给文本处理模块;文本处理模块依照新的电子病历中各个词汇出现频率拆分成词汇的集合,训练向量化模型得到词向量矩阵,再做定长化处理,得到新的电子病历的定长词向量矩阵Vw′;
将新的电子病历的定长词向量矩阵Vw′输入步骤S111得到的训练完的网络,网络的输出为预测该电子病历所反应的疾病;
将新的电子病历的定长词向量矩阵Vw′输入步骤S111得到的训练完的网络中,对训练完的网络的输出做解码得到系统预测该电子病历所反应的疾病。
4.利用如权利要求1-2任一所述的电子病历智能存储分析检索系统的电子病历智能存储分析检索方法,其特征在于:包括以下步骤:
步骤S201 使用者通过系统控制中心向关键词检索模块输入的关键词;
步骤S202利用搜索引擎模块,在数据库模块中各条电子病历数据行的“诊断病种”字段、“关键词”字段、“检测数据”字段中对步骤S201输入关键词进行搜索匹配;
步骤S203 将“诊断病种”字段、“关键词”字段、“检测数据”字段进行搜索匹配搜索到的电子病历分别在系统控制中心上显示。
5.利用如权利要求1-2任一所述的电子病历智能存储分析检索系统的电子病历智能存储分析检索方法,其特征在于:包括以下步骤:
步骤S301 将从系统控制中心获得的电子病历输入文本处理模块,获得关键词集合s′;
步骤S302 文本处理模块将关键词集合s′中的各个词作为关键词,在搜索引擎模块中根据“关键词”和“检测数据”字段搜索关键词,从数据库模块中的电子病历语料库分别得到“关键词匹配病历”、“默认逐词匹配病历”;
步骤S303 将电子病历输入语义分析模块获得句子向量Vs和定长词向量矩阵Vw′;
步骤S304 语义分析模块筛选出球树中与句子向量Vs最相似的句子向量Vs′,Vs′所对应的电子病历为“最匹配病历”;
步骤S305 语义分析模块将定长词向量矩阵Vw′输入深度学习模块,得到预测的病种;
步骤S306 语义分析模块将预测的病种发送给搜索引擎模块,在搜索引擎模块的“诊断病种”字段中搜索预测得到的病种,得到“病种匹配病历”;
步骤S307 将搜索到的电子病历分别以“最匹配病历”、“病种匹配病历”、“关键词匹配病历”、“默认逐词匹配病历”展示在系统控制中心中。
6.根据权利要求5所述的电子病历智能存储分析检索方法,其特征在于:
步骤S301 获得关键词集合s′的方法包括以下步骤:
步骤S101 将数据库模块中的所有电子病历发送给文本处理模块,文本处理模块对电子病历进行分词处理,即把单份电子病历拆分成词汇的集合s,整个数据库模块中的所有电子病历构成电子病历语料库,电子病历语料库的电子病历的词汇构成语料库集合S;
步骤S102 文本处理模块依据每份电子病历的各个词汇在集合s和语料库集合S中的出现频率,筛选出2k个候选关键词;
步骤S103 文本处理模块依据每份电子病历的各个词汇在集合s中的前后位置关系构建词图,筛选出2k个候选关键词;
步骤S104 文本处理模块利用投票法,从步骤S102和步骤S103的候选关键词中筛选出k个关键词从而形成关键词集合s′,如果筛选得到关键词不足k个则用步骤S102得到的其他候选关键词填充。
7.根据权利要求6所述的电子病历智能存储分析检索方法,其特征在于:
步骤S303 获得句子向量Vs和定长词向量矩阵Vw′的方法包括以下步骤:
步骤S105 将关键词集合s′写入数据库模块中对应电子病历的“关键词”字段;
步骤S106 语义分析模块将语料库集合S作为训练数据,训练向量化模型,得到描述病历的句子向量Vs和词向量矩阵Vw=[v1 T,v2 T,···,vm T]T,其中vi T表示分词集合s中第i个分词的词向量,m表示集合s的大小;
步骤S107 将步骤S106得到的句子向量Vs存储到位于数据库模块中的球树的数据结构中;
步骤S108 将词向量矩阵做定长化处理使得各个电子病历的词向量的维度相同,得到定长词向量矩阵Vw′。
CN201910562808.1A 2019-06-26 2019-06-26 电子病历智能存储分析检索系统及方法 Active CN110364234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910562808.1A CN110364234B (zh) 2019-06-26 2019-06-26 电子病历智能存储分析检索系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910562808.1A CN110364234B (zh) 2019-06-26 2019-06-26 电子病历智能存储分析检索系统及方法

Publications (2)

Publication Number Publication Date
CN110364234A true CN110364234A (zh) 2019-10-22
CN110364234B CN110364234B (zh) 2022-02-18

Family

ID=68217084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910562808.1A Active CN110364234B (zh) 2019-06-26 2019-06-26 电子病历智能存储分析检索系统及方法

Country Status (1)

Country Link
CN (1) CN110364234B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292818A (zh) * 2020-01-17 2020-06-16 同济大学 一种针对电子病历描述的查询重构方法
CN111613339A (zh) * 2020-05-15 2020-09-01 山东大学 一种基于深度学习的相似病历查找方法与系统
CN111986749A (zh) * 2020-07-15 2020-11-24 万达信息股份有限公司 一种数字病理图像检索系统
CN112579750A (zh) * 2020-11-30 2021-03-30 百度健康(北京)科技有限公司 相似病案的检索方法、装置、设备及存储介质
CN112802566A (zh) * 2020-12-31 2021-05-14 医渡云(北京)技术有限公司 一种电子病历的编码方法及装置
CN112800248A (zh) * 2021-01-19 2021-05-14 天河超级计算淮海分中心 相似病例检索方法、装置、计算机设备及存储介质
CN113314222A (zh) * 2021-03-30 2021-08-27 零氪智慧医疗科技(天津)有限公司 适用于肿瘤患者的骨髓抑制风险预测方法、装置及存储介质
CN113643778A (zh) * 2021-10-14 2021-11-12 山东大学齐鲁医院 基于电子病历资料的院内心脏骤停筛选方法及系统
CN114020874A (zh) * 2021-11-11 2022-02-08 万里云医疗信息科技(北京)有限公司 一种病历检索系统、方法、设备和计算机可读存储介质
CN114628012A (zh) * 2022-03-21 2022-06-14 中国人民解放军西部战区总医院 一种急诊科预检分检系统
CN115830017A (zh) * 2023-02-09 2023-03-21 智慧眼科技股份有限公司 基于图文多模态融合的肿瘤检测系统、方法、设备及介质
CN115983233A (zh) * 2023-01-04 2023-04-18 重庆邮电大学 一种基于数据流匹配的电子病历查重率估计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN106776606A (zh) * 2015-11-20 2017-05-31 株式会社日立制作所 基于电子病历数据库的检索装置和检索方法
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法
CN107797986A (zh) * 2017-10-12 2018-03-13 北京知道未来信息技术有限公司 一种基于lstm‑cnn的混合语料分词方法
CN107832306A (zh) * 2017-11-28 2018-03-23 武汉大学 一种基于Doc2vec的相似实体挖掘方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776606A (zh) * 2015-11-20 2017-05-31 株式会社日立制作所 基于电子病历数据库的检索装置和检索方法
CN106021272A (zh) * 2016-04-04 2016-10-12 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法
CN107797986A (zh) * 2017-10-12 2018-03-13 北京知道未来信息技术有限公司 一种基于lstm‑cnn的混合语料分词方法
CN107832306A (zh) * 2017-11-28 2018-03-23 武汉大学 一种基于Doc2vec的相似实体挖掘方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111292818B (zh) * 2020-01-17 2022-04-19 同济大学 一种针对电子病历描述的查询重构方法
CN111292818A (zh) * 2020-01-17 2020-06-16 同济大学 一种针对电子病历描述的查询重构方法
CN111613339A (zh) * 2020-05-15 2020-09-01 山东大学 一种基于深度学习的相似病历查找方法与系统
CN111613339B (zh) * 2020-05-15 2021-07-09 山东大学 一种基于深度学习的相似病历查找方法与系统
CN111986749A (zh) * 2020-07-15 2020-11-24 万达信息股份有限公司 一种数字病理图像检索系统
CN112579750A (zh) * 2020-11-30 2021-03-30 百度健康(北京)科技有限公司 相似病案的检索方法、装置、设备及存储介质
CN112802566A (zh) * 2020-12-31 2021-05-14 医渡云(北京)技术有限公司 一种电子病历的编码方法及装置
CN112800248A (zh) * 2021-01-19 2021-05-14 天河超级计算淮海分中心 相似病例检索方法、装置、计算机设备及存储介质
CN113314222A (zh) * 2021-03-30 2021-08-27 零氪智慧医疗科技(天津)有限公司 适用于肿瘤患者的骨髓抑制风险预测方法、装置及存储介质
CN113643778A (zh) * 2021-10-14 2021-11-12 山东大学齐鲁医院 基于电子病历资料的院内心脏骤停筛选方法及系统
CN113643778B (zh) * 2021-10-14 2022-01-21 山东大学齐鲁医院 基于电子病历资料的院内心脏骤停筛选方法及系统
CN114020874A (zh) * 2021-11-11 2022-02-08 万里云医疗信息科技(北京)有限公司 一种病历检索系统、方法、设备和计算机可读存储介质
CN114628012A (zh) * 2022-03-21 2022-06-14 中国人民解放军西部战区总医院 一种急诊科预检分检系统
CN114628012B (zh) * 2022-03-21 2023-09-05 中国人民解放军西部战区总医院 一种急诊科预检分检系统
CN115983233A (zh) * 2023-01-04 2023-04-18 重庆邮电大学 一种基于数据流匹配的电子病历查重率估计方法
CN115830017A (zh) * 2023-02-09 2023-03-21 智慧眼科技股份有限公司 基于图文多模态融合的肿瘤检测系统、方法、设备及介质

Also Published As

Publication number Publication date
CN110364234B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
CN110364234A (zh) 电子病历智能存储分析检索系统及方法
CN109271505B (zh) 一种基于问题答案对的问答系统实现方法
US20190252074A1 (en) Knowledge graph-based clinical diagnosis assistant
CN110021439A (zh) 基于机器学习的医疗数据分类方法、装置和计算机设备
CN111949759A (zh) 病历文本相似度的检索方法、系统及计算机设备
CN109994216A (zh) 一种基于机器学习的icd智能诊断编码方法
CN112328766B (zh) 一种基于路径搜索的知识图谱问答方法和装置
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
CN113065356B (zh) 一种基于语义分析算法的it设备运维故障建议处理方法
CN111400449B (zh) 一种正则表达式抽取方法及装置
CN116052858A (zh) 一种基于bert和特征融合的智能导诊方法
Chen et al. Automatic ICD code assignment utilizing textual descriptions and hierarchical structure of ICD code
Ding et al. A knowledge-enriched and span-based network for joint entity and relation extraction
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
Wang et al. Deep learning algorithm for judicial judgment prediction based on BERT
CN111104492B (zh) 一种基于层次化Attention机制的民航领域自动问答方法
CN116881336A (zh) 一种用于医学大数据的高效多模态对比深度哈希检索方法
Chen et al. AutoKG: Efficient automated knowledge graph generation for language models
CN111415750B (zh) 一种基于规则的用户信息结构化和快速检索的方法及系统
CN114003706A (zh) 关键词组合生成模型训练方法及装置
Khalafi et al. A hybrid deep learning approach for phenotype prediction from clinical notes
Francis et al. SmarTxT: A Natural Language Processing Approach for Efficient Vehicle Defect Investigation
Aziz et al. Sentimental analysis on reviews of protein supplement using rnn-lstm
Retnoningrum et al. Stance Analysis of Policies Related to Emission Test Obligations using Twitter Social Media Data
You Chinese medical knowledge mining and analysis based on syntactic dependency and named entity recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant