CN109299239B - 一种基于es的电子病历检索方法 - Google Patents

一种基于es的电子病历检索方法 Download PDF

Info

Publication number
CN109299239B
CN109299239B CN201811148320.6A CN201811148320A CN109299239B CN 109299239 B CN109299239 B CN 109299239B CN 201811148320 A CN201811148320 A CN 201811148320A CN 109299239 B CN109299239 B CN 109299239B
Authority
CN
China
Prior art keywords
medical record
word
symptom
retrieval
electronic medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811148320.6A
Other languages
English (en)
Other versions
CN109299239A (zh
Inventor
陈瑞典
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Development Software Co ltd
Original Assignee
Fujian Hongyangsoft Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Hongyangsoft Co ltd filed Critical Fujian Hongyangsoft Co ltd
Priority to CN201811148320.6A priority Critical patent/CN109299239B/zh
Publication of CN109299239A publication Critical patent/CN109299239A/zh
Application granted granted Critical
Publication of CN109299239B publication Critical patent/CN109299239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于ES的电子病历检索方法,涉及医疗数据检索技术领域。该方法将语义分析模型引入到电子病历分析,包括病历主题词汇的提取及文本语义上的相似度计算,利用它们在文本的语义挖掘上的优势,通过建立全专科医学语义库(否定词、同义词、歧义词)为电子病历检索中文本信息的潜在语义挖掘提供了算法支持,实现了检索信息的高准确率和查全率,更好的适应了医学术语相比普通的自然语言往往较为复杂并且在不断地变化,并且医学领域的缩写词、同义词和多义词较多的特点。满足了多维度组合检索的科研需求、潜在语义搜索实现相关文献全文检索的需求。实现真正意义上的语义内涵扩展、语义外延扩展的智能全文检索。

Description

一种基于ES的电子病历检索方法
技术领域
本发明涉及医疗数据检索技术领域,尤其涉及一种基于ES的电子病历检索方法。
背景技术
随着信息技术的普及和发展,医院信息化系统开发的不断深入,电子病历作为临床医疗的信息基础,逐渐成为现代化医院综合信息系统的核心。电子病历不仅包括纸质病历的所有内容,而且包括声像、图表、图形等多媒体信息,电子病历对病人的病情、治疗过程等信息进行了详细而完整的记录。随着电子病历的日益广泛应用,积累产生了大量的电子病历数据,如何有效地利用这些被存储的数据以服务医疗机构、科研机构和患者,辅助医生进行医学研究,帮助医疗人员更好地在临床上进行决策,已经成为一个迫切的研究热点。
然而,面对医院产生的海量电子病历非结构化数据,如何快速准确地检索得到医疗人员所需要的电子病历已经成为一个巨大的挑战。众所周知,电子病历数据大部分是由医生录入的非结构化短语和句子构成,由于自然语言的复杂性,一词多义与一义多词等现象屡见不鲜,由于医生在录入过程中没有统一的规范可以遵循,导致存在同一医学概念有不同的描述,而不同的表述可能会表示相同的概念,传统的基于关键词的检索要求检索出的文章必须显示地包含有用户所提交的词条,这种方式的缺点是参与匹配的只是字符的字面表现形式,而非它们所要表达的概念,不能很好的解决医学词汇的同义性问题,如“肾功能衰竭”的同义词有“肾衰”、“肾衰竭”、“肾功能不全”等,医学人员在检索时,这种情况的出现,很大程度上降低了医学检索的准确率和查全率。
因此,关键字检索显然是不够的,另外,当前的电子病历检索系统在查询方面还存在一定的缺陷,体现在以下几个方面:
(1)忽略科研需求,不支持多维度的组合检索需求。目前大多数电子病历系统很适合针对患者或其家属的个案查询,而忽略了医生的智能化检索需求。患者或其家属、保险公司等查询病历往往有很明确的目的,通常只需要一个人的病历,往往根据患者属性等结构化特征查询即可。而医生由于治疗或科研目的,则需要查询多个症状类似或诊断相似的多个患者病历,往往还要根据严格的实验设计要求,进行多维度的特征来筛选研究样本,这种组合检索需求显然与患者个案的查询需求是不同的。
(2)不支持潜在语义搜索,造成文献漏检。虽然有些电子病历管理系统考虑了医生的科研或对疑难杂症的检索需求,可以通过患者的人口属性信息进行查询,或通过疾病名称、用药内容等结构化数据进行查询,但都维持在最基本的关键字精准匹配查询,没有对模糊度的支持,由于医学领域的特殊性,不同区域、不同专业、不同医生的用语习惯不可能完全一致,一词多义与一义多词现象广泛存在,导致精确匹配搜索结果的好坏,与关键词选取的质量有着极大的关系,查询效率低下,而且准确率和召回率(查全率)都不高。
(3)侧重结构化信息检索,忽略全文检索。现有电子病历检索系统查询时,关键词只能对标准化的二维表数据,无法针对医嘱、病史、症状描述等主观性很强的文本非结构化内容进行查询,而在进行科研的时候,往往这部分描述类的主观性内容比结构化的内容提供有更多有价值的信息,如能将这些数据转化成有价值的信息、知识,对疾病规律的挖掘和发现将有极大的提升帮助。。
发明内容
本发明的目的在于提供一种基于ES的电子病历检索方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于ES的电子病历检索方法,包括如下步骤:
S1,Elasticsearch批量采集电子病历数据并进行存储;
S2,对数据进行如下的预处理,得到预处理后的电子病历数据:数字实体的标准化处理;根据自定义的医学症状及诊断词库,对电子病历的中英文文本进行文本分词处理;词性的标注处理;停用词的过滤处理;关键词的权重计算处理;假阳性症状描述词的处理;ICD10疾病诊断标准化处理;
S3,利用LDA算法对所述预处理后的电子病历数据进行潜在语义分析,通过对词汇—文本矩阵进行潜在语义空间的提取,根据潜在语义空间中文本的分布信息提取文本的主题词汇构建文档索引;
S4,利用词向量模型计算所述预处理后的电子病历文本语义上的相似度;
S5,根据用户输入的检索请求,应用以下检索方法进行电子病历的检索:词精确检索、字包含检索、高级组合检索、限制范围检索和智能语义检索。
优选地,S2中,所述自定义的医学症状及诊断词库,包括6714个阳性和阴性症状词条,这些词条按照身体部位划分为:全身症状类词条1416条,胸部症状类词条852条,腹部症状类词条773条,皮肤症状类词条449条,头部症状类词条482条,眼部症状类词条391条,女性盆骨症状类词条352条,男性股沟症状类词条70条,口部症状类词条358条,上肢症状类词条261条,盆腔症状类词条265条,腰部症状类词条242条,下肢症状类词条230条,颈部症状类词条170条,鼻部症状类词条111条,臀部症状类词条134条,耳部症状类词条104条,背部症状类词条54条。
优选地,S3包括如下步骤:
S301,选择主题数K,初始化超参数向量,文档主题分布的参数α为1/K,主题词分布的参数η为1/K;
S302,对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z;
S303,重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的主题编号,并更新语料库中该词的编号;
S304,重复S303的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛;
S305,统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βk
优选地,S4包括如下步骤:
S401,初始化所有的模型参数θ为1,所有的词向量w为0;
S402,对于每个训练样本(context(w0),w0),负采样出neg个负例中心词wi,i=1,2,...neg;
S403,进行梯度上升迭代过程,对于训练集中的每一个样本(context(w0),w0,w1,...wneg)做如下处理:
a)e=0,计算
Figure BDA0001817340990000041
b)for i=0to neg,计算:
Figure BDA0001817340990000042
g=(yi-f)η,
其中,y0=1,yi=0,i=1,2,..neg
Figure BDA0001817340990000043
Figure BDA0001817340990000044
c)对于context(w)中的每一个词向量xk进行更新,xk共2c个:
xk=xk+e
d)如果梯度收敛,则结束梯度迭代,否则重复S403继续迭代。
优选地,S4和S5之间还包括数据统计及图表展现步骤,包括关联疾病、症状、用药、检验的排名统计,定性与定量数据的自动转化统计,及多种类型的图表展示。
本发明的有益效果是:本发明提供的基于ES的电子病历检索方法,将语义分析模型引入到电子病历分析,包括病历主题词汇的提取及文本语义上的相似度计算,利用它们在文本的语义挖掘上的优势,通过建立全专科医学语义库(否定词、同义词、歧义词)为电子病历检索中文本信息的潜在语义挖掘提供了算法支持,实现了检索信息的高准确率和查全率,更好的适应了医学术语相比普通的自然语言往往较为复杂并且在不断地变化,并且医学领域的缩写词、同义词和多义词较多的特点。满足了多维度组合检索的科研需求、潜在语义搜索实现相关文献全文检索的需求。实现真正意义上的语义内涵扩展、语义外延扩展的智能全文检索。
附图说明
图1是本发明提供的基于ES的电子病历检索方法流程示意图;
图2是自定义的医学症状及诊断词库中的部分词条展示示意图;
图3是部分停用词展示示意图;
图4是部分诊断名称展示示意图;
图5是词精确检索结果示例图;
图6是字包含检索结果示例图;
图7是高级组合检索结果示例图;
图8是限制检索范围的检索结果示例图;
图9是智能语义检索结果示例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于ES的电子病历检索方法,包括如下步骤:
S1,Elasticsearch批量采集电子病历数据并进行存储;
S2,对数据进行如下的预处理,得到预处理后的电子病历数据:数字实体的标准化处理;根据自定义的医学症状及诊断词库,对电子病历的中英文文本进行文本分词处理;词性的标注处理;停用词的过滤处理;关键词的权重计算处理;假阳性症状描述词的处理;ICD10疾病诊断标准化处理;
S3,利用LDA算法((Latent Dirichlet Allocation隐含狄利克雷分布,简称LDA)对所述预处理后的电子病历数据进行潜在语义分析,通过对词汇—文本矩阵进行潜在语义空间的提取,根据潜在语义空间中文本的分布信息提取文本的主题词汇构建文档索引;
S4,利用词向量模型计算所述预处理后的电子病历文本语义上的相似度;
S5,根据用户输入的检索请求,应用以下检索方法进行电子病历的检索:词精确检索、字包含检索、高级组合检索、限制范围检索和智能语义检索。
上述方法中,S1可以采用如下方式进行实施:
使用python中的Elasticsearch、cx_Oracle模块做为基础,将数据批量从源目标迁移至目标数据库中。在传输数据的过程中,数据还经过了一次过滤从而使导入的数据更加的有效与准确。
Elasticsearch是一个实时的分布式搜索和分析引擎,它可以用前所未有的速度去处理大规模数据、可以用于全文搜索,结构化搜索以及分析。存储数据结构主要分为:父结构、嵌套结果。本发明实施例中,父结构主要用于主要检索信息(例:姓名、单号、住院号等),嵌套结构用于存储有多层关系的数据(例:药品信息、检查信息等)。
S2可以采用如下方式进行实施:
其中,数字实体的标准化处理,可以包括时长数字度量单位的统一转化、大小写统一化、科学计数法识别转化等。数字进行标准化处理和统一量纲后,才能进行各个病案数据的横向对比和统计分析。
本发明中,对于电子病历进行中英文文本分词,使用了自定义的医学症状及诊断词库。
医学术语具有极高的专业性,特别是关于症状的描述和药品、诊断等信息,使用普通的字典进行分词将会错误的理解电子病历内容,无法识别到阴阳性症状的描述、药品信息和疾病诊断信息,因此,本方案自定义了医学症状及诊断词库,使电子病历文本内容分词更加准确,提升了检索的准确率和召回率。
本发明中,S2中,所述自定义的医学症状及诊断词库,包括6714个阳性和阴性症状词条,这些词条按照身体部位划分为:全身症状类词条1416条,胸部症状类词条852条,腹部症状类词条773条,皮肤症状类词条449条,头部症状类词条482条,眼部症状类词条391条,女性盆骨症状类词条352条,男性股沟症状类词条70条,口部症状类词条358条,上肢症状类词条261条,盆腔症状类词条265条,腰部症状类词条242条,下肢症状类词条230条,颈部症状类词条170条,鼻部症状类词条111条,臀部症状类词条134条,耳部症状类词条104条,背部症状类词条54条。自定义的这些症状词条,考虑到了标准书写和口语化书写等多种用语习惯,基本涵盖了医生书写症状时各部位可能用到的症状描述短语,使电子病历文本中的症状描述尽可能地被识别出来,提升检索准确度。
部分词条可如图2所示,从图2中可以看出,本发明中的词典既包含了像抑郁、剧痛、衰弱、水肿等阳性类的症状描述短语,又包含了如无反复清咽、无反复腹痛、无反应迟钝、无听力障碍、无呕吐泡沫等假阳性的症状描述,同时还有如神经系统未见明显异常、无阴道异常流血流液等包含部位、修饰语、否定词等多种词语模式组合的症状词典,涵盖了各种医生在书写过程中可能会用到的症状短语。所以,采用本发明提供的方法,可以使电子病历文本中的症状描述尽可能地被识别出来,提升检索准确度。
词性的标注(包括代词、名词、形容词等),对电子病历文档中的词性进行标注的目的是用于词性的过滤,如在进行分析时将代词、语气助词等无实际意义的词去掉,这些词对于文档主题的提取会产生干扰信息。
停用词的处理,如将语气助词、代词、高频词等无意义的词进行过滤,这些信息会干扰电子病历文档主题内容的提取,本发明中共引入了2615个停用词,部分停用词可参见图3所示。
本发明中,进行关键词权重的计算,使用最为经典且应用广泛的TF-IDF算法计算权重,目的是提升关键词的权重,对生成电子病历文本的摘要及主题准确度有提升效果;
假阳性症状描述(否定词意)的预处理,如医生书写的病历内容为“患者双下肢无强直、抖动”,应解析成患者双下肢无强直、无抖动,不能根据原文直接解析成“无强直”,有“抖动”,使阴性症状误理解成阳性症状;
ICD10疾病诊断标准化处理,有助于疾病名称的识别,帮助提取电子病历文本中的诊断信息,部分诊断名称可如图4所示。
从图4可以看出,本发明中的如伤寒性脑膜炎、沙门菌伦敦血清型肠炎等疾病诊断名称,采用的是的国际通用的ICD-10疾病标准名称,既能适应综合医院、专业医院等不同类型的医院电子病历内容,又能适应不同地域、不同等级医院医生书写的电子病历内容。所以,采用本发明提供的方法,可以更加便于疾病名称的识别。
本发明提供的技术方案中,将电子病历数据进行了上述预处理之后,使用经典的语义分析算(LDA算法)进行潜在语义分析。LDA算法是一个三层贝叶斯生成概率模型,可以用于潜在语义分析,在文本语义分析中是一个很有用的模型。LDA算法将每篇文档看成潜在主题的随机混合,而主题被看作词的分布,它通过对词汇—文本矩阵进行潜在语义空间的提取,根据潜在语义空间中文本的分布信息提取文本的主题词汇构建文档索引。
S3采用的LDA算法可以包括如下步骤:
S301,选择主题数K,初始化超参数向量,文档主题分布的参数α为1/K,主题词分布的参数η为1/K;
S302,对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z;
S303,重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的主题编号,并更新语料库中该词的编号;
S304,重复S303的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛;
S305,统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βk
根据上述步骤,实际的操作过程可以为:
输入:电子病历语料训练样本(已预处理分词,分词词典在通用分词字典的基础上,引入了自定义的医学症状及诊断词库,使医学用语分词更加准确);主题数K的取值,参考历史疾病诊断种类数及疾病分型经验,可以采用如下的计算公式:
K=该医院近3年内的患者诊断疾病种类数*5。
输出:电子病历文档主题分布,主题与词的分布。
在本发明的一个优选实施例中,S4可以包括如下步骤:
S401,初始化所有的模型参数θ为1,所有的词向量w为0;
S402,对于每个训练样本(context(w0),w0),负采样出neg个负例中心词wi,i=1,2,...neg;
S403,进行梯度上升迭代过程,对于训练集中的每一个样本(context(w0),w0,w1,...wneg)做如下处理:
a)e=0,计算
Figure BDA0001817340990000091
b)for i=0to neg,计算:
Figure BDA0001817340990000092
g=(yi-f)η,
其中,y0=1,yi=0,i=1,2,..neg
Figure BDA0001817340990000101
Figure BDA0001817340990000102
c)对于context(w)中的每一个词向量xk进行更新,xk共2c个:
xk=xk+e
d)如果梯度收敛,则结束梯度迭代,否则重复S403继续迭代。
词向量模型算法是将词表征为实数值向量的高效工具,利用深度学习思想,通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。词向量模型采用基于负样本的词袋模型CBOW(ContinuousBag-of-Words,CBOW词袋模型的训练思路是根据某一个特征词的上下文相关的词对应的词向量,输出这特定的一个词的词向量)。
算法输入:电子病历语料训练样本(已预处理分词,分词词典在通用分词字典的基础上,引入了自定义的医学症状及诊断词库,使医学用语分词更加准确);词向量的维度大小M,若电子病历语料大小超过1G,M取值200,否则M取值100;CBOW的上下文大小2c,根据电子病历文本描述的特点,c值取值为20;步长η,即算法迭代的初始步长,取值为0.01;负采样的个数neg,取值为10。
算法输出:词汇表每个词对应的模型参数θ,所有的词向量xw
通过以上语义分析和相似度计算,可以实现文本中潜在信息的提取和文本之间语义关系的共现,结合海量丰富的电子病历文本数据,提升检索的准确率和召回率。
本发明的一个优选实施例中,还可以包括数据统计及图表展现:具体包括关联疾病、症状、用药、检验等TOP排名统计,定性与定量数据的自动转化统计(如高血压与具体血压值的自动转化统计),及丰富的图表专业化展示,如饼图、折线图、柱形图、散点图等图表类型。
用户检索:医生通过用户界面提出检索需求,可以直接在搜索框输入要检索的关键词、字符串、一段话或一份病历内容,选择相应的搜索类型,即可实现多种检索方法,可以采用以下检索方式:
词精确检索:指以词为单元进行检索,如检索“呕吐”,则“无呕吐”、“未见呕吐”等词则不会出现在检索结果中,如检索“未呕吐”,则“呕吐”不会出现在检索结果中,其检索结果示例可参见图5。从图5可以看出,检索“呕吐”关键词,一共检索出4831份含“呕吐”阳性的电子病历,这些电子病历中,都精确包含了“呕吐”这个关键字。
字包含检索:为所检索字符串中任意字的检索结果之和,如检索“高血压妊娠子痫”,检索结果为“高血压”的检索结果和“妊娠子痫”的检索结果之和,其检索结果示例可参见图6。从图6可以看出,只有同时包含了“高血压”和“妊娠子痫”的电子病历才被检索出来,但这两个关键字不必连续出现,中间可包含了其它书写的病历内容。
高级组合检索:实现了通过输入医生想象的任意词多维度组合快速检索电子病历全文的功能,为科研项目的样本筛选、数据预处理、指标统计等提供快速计算功能,改变以往靠人为查阅纸质或电子病历内容、手工统计指标的低效科研方式,其检索结果示例可参见图7。从图7可以看出,只有同时满足搜索条件“国籍”为中国,“年龄”大于18,“性别”为女,“入院诊断”为妊娠的电子病历才会被检索出来。
限制检索范围:可以对检索的范围进行限制,即在数据检索时可以限定电子病历的任意数据段、数据组、数据元,提供上千个指标搜索项,实现精细化的检索需求,其检索结果示例可参见图8。从图8可以看出,本发明一共有3218个搜索项,包括可以限定患者属性信息、诊断信息、检验信息、检查信息等特定搜索范围。
智能语义检索:是系统提供的高级智能检索功能,成功地将语义分析算法引用到电子病历领域、它是一种非常智能的语义概念检索方法,具有智能联想的能力,可以对用户输入的字符串中的任意词汇及其关联词进行检索。语义分析算法假设在每个文本中存在某种潜在的语义结构,而这种潜在的语义结构隐含在文本中词语的上下文使用模式中,在这种语义结构中,同义词之间具有相同的语义结构,多义词则具有不同的语义结构。通过统计的方法如奇异值分解或概率主题模型等算法发现文本中数据潜在的语义信息,例如,语义模型知道“肾功能衰竭”是一种疾病,而“肾衰”、“肾衰竭”、“肾功能不全”等是它的简写或另一种叫法。如当用户对“肾衰”进行智能检索时,包含“肾功能衰竭”、“肾衰”、“肾衰竭”或“肾功能不全”的正文都会被检索出来,即使这些正文中可能并未出现“肾衰”这个词。其检索结果示例可参见图9。从图9可以看出,搜索“肾功能衰竭”时,病历中未显示包含“肾功能衰竭”关键字,但病历内容中有其同义词“肾衰”、“肾衰竭”等关键字的病历被检索出来,使医生在检索时不会因为关键词的输入误差导致检索结果准确率和召回率降低。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明提供的基于ES的电子病历检索方法,将语义分析模型引入到电子病历分析,包括病历主题词汇的提取及文本语义上的相似度计算,利用它们在文本的语义挖掘上的优势,通过建立全专科医学语义库(否定词、同义词、歧义词)为电子病历检索中文本信息的潜在语义挖掘提供了算法支持,实现了检索信息的高准确率和查全率,更好的适应了医学术语相比普通的自然语言往往较为复杂并且在不断地变化,并且医学领域的缩写词、同义词和多义词较多的特点。满足了多维度组合检索的科研需求、潜在语义搜索实现相关文献全文检索的需求。实现真正意义上的语义内涵扩展、语义外延扩展的智能全文检索。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (3)

1.一种基于ES的电子病历检索方法,其特征在于,包括如下步骤:
S1,Elasticsearch批量采集电子病历数据并进行存储;
S2,对数据进行如下的预处理,得到预处理后的电子病历数据:数字实体的标准化处理;根据自定义的医学症状及诊断词库,对电子病历的中英文文本进行文本分词处理;词性的标注处理;停用词的过滤处理;关键词的权重计算处理;假阳性症状描述词的处理;ICD10疾病诊断标准化处理;
S3,利用LDA算法对所述预处理后的电子病历数据进行潜在语义分析,通过对词汇—文本矩阵进行潜在语义空间的提取,根据潜在语义空间中文本的分布信息提取文本的主题词汇构建文档索引;
S4,利用词向量模型计算所述预处理后的电子病历文本语义上的相似度;
S5,根据用户输入的检索请求,应用以下检索方法进行电子病历的检索:词精确检索、字包含检索、高级组合检索、限制范围检索和智能语义检索;
步骤S1中具体包括:
使用python中的Elasticsearch、cx_Oracle模块做为基础,将数据批量从源目标经过过滤之后,从而迁移至目标数据库中;
目标数据库中存储数据结构主要分为:父结构、嵌套结果,其中,父结构主要用于主要检索信息的存储,嵌套结构用于存储有多层关系的数据;
所述自定义的医学症状机诊断词库包括阳性症状描述短语,假阳性症状描述短语以及包含身体部位、修饰语和否定词的多词语模式组合症状描述短语;
S3包括如下步骤:
S301,选择主题数K,初始化超参数向量,文档主题分布的参数α为1/K,主题词分布的参数η为1/K;K=医院近3年内的患者诊断疾病种类数*5;
S302,对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z;
S303,重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的主题编号,并更新语料库中该词的编号;
S304,重复S303的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛;
S305,统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βk
S4包括如下步骤:
S401,初始化所有的模型参数θ为1,所有的词向量w为0;
S402,对于每个训练样本(context(w0),w0),负采样出neg个负例中心词wi,i=1,2,...neg;
S403,进行梯度上升迭代过程,对于训练集中的每一个样本(context(w0),w0,w1,...wneg)做如下处理:
a)e=0,计算
Figure FDA0003263771610000021
b)for i=0 to neg,计算:
Figure FDA0003263771610000022
g=(yi-f)η,
其中,y0=1,yi=0,i=1,2,..neg
Figure FDA0003263771610000023
Figure FDA0003263771610000024
c)对于context(w)中的每一个词向量xk进行更新,xk共2c个:
xk=xk+e
d)如果梯度收敛,则结束梯度迭代,否则重复S403继续迭代。
2.根据权利要求1所述的基于ES的电子病历检索方法,其特征在于,S2中,所述自定义的医学症状及诊断词库,包括6714个阳性和阴性症状词条,这些词条按照身体部位划分为:全身症状类词条1416条,胸部症状类词条852条,腹部症状类词条773条,皮肤症状类词条449条,头部症状类词条482条,眼部症状类词条391条,女性盆骨症状类词条352条,男性股沟症状类词条70条,口部症状类词条358条,上肢症状类词条261条,盆腔症状类词条265条,腰部症状类词条242条,下肢症状类词条230条,颈部症状类词条170条,鼻部症状类词条111条,臀部症状类词条134条,耳部症状类词条104条,背部症状类词条54条。
3.根据权利要求1所述的基于ES的电子病历检索方法,其特征在于,S4和S5之间还包括数据统计及图表展现步骤,包括关联疾病、症状、用药、检验的排名统计,定性与定量数据的自动转化统计,及多种类型的图表展示。
CN201811148320.6A 2018-09-29 2018-09-29 一种基于es的电子病历检索方法 Active CN109299239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811148320.6A CN109299239B (zh) 2018-09-29 2018-09-29 一种基于es的电子病历检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811148320.6A CN109299239B (zh) 2018-09-29 2018-09-29 一种基于es的电子病历检索方法

Publications (2)

Publication Number Publication Date
CN109299239A CN109299239A (zh) 2019-02-01
CN109299239B true CN109299239B (zh) 2021-11-23

Family

ID=65161205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811148320.6A Active CN109299239B (zh) 2018-09-29 2018-09-29 一种基于es的电子病历检索方法

Country Status (1)

Country Link
CN (1) CN109299239B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109935289B (zh) * 2019-03-15 2023-06-27 深圳安泰创新科技股份有限公司 病历显示方法、装置、电子设备及计算机可读存储介质
CN110085307B (zh) * 2019-04-04 2023-02-03 华东理工大学 一种基于多源知识图谱融合的智能导诊方法和系统
US10943673B2 (en) * 2019-04-10 2021-03-09 Tencent America LLC Method and apparatus for medical data auto collection segmentation and analysis platform
CN110060749B (zh) * 2019-04-10 2022-07-01 华侨大学 基于sev-sdg-cnn的电子病历智能诊断方法
CN110413734B (zh) * 2019-07-25 2023-02-17 万达信息股份有限公司 一种医疗服务的智能搜索系统及方法
CN110517785B (zh) * 2019-08-28 2022-05-10 北京百度网讯科技有限公司 相似病例的查找方法、装置及设备
CN110675927A (zh) * 2019-09-22 2020-01-10 重庆百行智能数据科技研究院有限公司 一种基于大数据的病情检索方法
CN110827931A (zh) * 2020-01-13 2020-02-21 四川大学华西医院 一种临床术语的管理方法及装置、可读存储介质
CN111341437B (zh) * 2020-02-21 2022-02-11 山东大学齐鲁医院 基于舌图像的消化道疾病判断辅助系统
CN111581337A (zh) * 2020-03-19 2020-08-25 平安科技(深圳)有限公司 医疗文本搜索方法、装置、计算机设备及存储介质
CN111899829B (zh) * 2020-07-31 2022-06-21 青岛百洋智能科技股份有限公司 一种基于icd9/10分词词库的全文检索匹配引擎
CN111897921A (zh) * 2020-08-04 2020-11-06 广西财经学院 基于词向量学习和模式挖掘融合扩展的文本检索方法
CN111967261B (zh) * 2020-10-20 2021-02-12 平安科技(深圳)有限公司 癌症分期信息处理方法、装置及存储介质
CN112347257A (zh) * 2020-11-11 2021-02-09 北京嘉和海森健康科技有限公司 一种患者症状口语化标准化方法和装置
CN112527954A (zh) * 2020-12-03 2021-03-19 武汉联影医疗科技有限公司 非结构化数据全文搜索方法、系统及计算机设备
CN112687364B (zh) * 2020-12-24 2023-08-01 宁波金唐软件有限公司 一种基于Hbase的医疗数据管理方法及其系统
CN113611380A (zh) * 2021-07-09 2021-11-05 喀什地区第一人民医院 针对诊断预测的数据选择方法
CN113679348B (zh) * 2021-08-26 2024-02-06 深圳平安智慧医健科技有限公司 血糖预测方法、血糖预测装置、设备及存储介质
CN113722418A (zh) * 2021-08-30 2021-11-30 平安科技(深圳)有限公司 一种临床病案标准化方法、装置、设备及介质
CN114020874A (zh) * 2021-11-11 2022-02-08 万里云医疗信息科技(北京)有限公司 一种病历检索系统、方法、设备和计算机可读存储介质
CN115424735B (zh) * 2022-11-07 2023-01-31 四川互慧软件有限公司 一种电子病历数据交叉互引用方法、系统、设备及介质
CN116719926B (zh) * 2023-08-10 2023-10-20 四川大学 基于智慧医疗的先天性心脏病报告数据筛选方法及系统
CN116936024B (zh) * 2023-09-05 2023-12-15 北京中薪科技有限公司 一种基于ai的中医疗养方案的数据处理系统
CN117275752B (zh) * 2023-11-20 2024-03-22 中国人民解放军总医院 基于机器学习的病例聚类分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN102214232A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种文本数据相似度的计算方法及装置
CN102819655A (zh) * 2011-06-10 2012-12-12 中国科学院深圳先进技术研究院 展现电子病历的系统及方法
CN105897742A (zh) * 2016-05-26 2016-08-24 北京航空航天大学 应用于电子健康网络的匿名身份基访问控制方法
CN107122443A (zh) * 2017-04-24 2017-09-01 中国科学院软件研究所 一种基于Spark SQL的分布式全文检索系统及方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572675B (zh) * 2013-10-16 2018-03-30 中国人民解放军南京军区南京总医院 一种相似病历检索的系统及方法
CN104537101A (zh) * 2015-01-12 2015-04-22 杏树林信息技术(北京)有限公司 医学信息搜索引擎系统和搜索方法
CN105320754A (zh) * 2015-10-08 2016-02-10 上海瀚银信息技术有限公司 一种数据搜索系统及方法
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN106295187A (zh) * 2016-08-11 2017-01-04 中国科学院计算技术研究所 面向智能临床辅助决策支持系统的知识库构建方法与系统
CN106709012A (zh) * 2016-12-26 2017-05-24 北京锐安科技有限公司 一种大数据分析方法及装置
CN107766402A (zh) * 2017-06-27 2018-03-06 深圳市云房网络科技有限公司 一种楼盘字典云房源大数据平台
CN108346474B (zh) * 2018-03-14 2021-09-28 湖南省蓝蜻蜓网络科技有限公司 基于单词的类内分布与类间分布的电子病历特征选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN102819655A (zh) * 2011-06-10 2012-12-12 中国科学院深圳先进技术研究院 展现电子病历的系统及方法
CN102214232A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种文本数据相似度的计算方法及装置
CN105897742A (zh) * 2016-05-26 2016-08-24 北京航空航天大学 应用于电子健康网络的匿名身份基访问控制方法
CN107122443A (zh) * 2017-04-24 2017-09-01 中国科学院软件研究所 一种基于Spark SQL的分布式全文检索系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
word2vec中对于Negative Sampling的理解;苏何月下追韩信丶;《CSDN》;20180404;正文第4页 *
word2vec原理(三) 基于Negative Sampling的模型;weixin_33721344;《CSDN》;20170728;正文第4页至第5页 *
基于ElasticSearch 的结构化电子病历检索系统;蒋昌飞;《数字通信世界》;20171001;正文第144页 *
基于LDA和LSA的医学病历语义检索方法研究;石倩倩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315;正文第9页至第66页 *

Also Published As

Publication number Publication date
CN109299239A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109299239B (zh) 一种基于es的电子病历检索方法
US11244755B1 (en) Automatic generation of medical imaging reports based on fine grained finding labels
CN112614565A (zh) 一种基于知识图谱技术的中药经典名方智能推荐方法
Gerstmair et al. Intelligent image retrieval based on radiology reports
Cao et al. Multi-information source hin for medical concept embedding
Friedlin et al. Knowledge discovery and data mining of free text radiology reports
Li et al. Text similarity measurement method and application of online medical community based on density peak clustering
Zhou et al. Converting semi-structured clinical medical records into information and knowledge
US11763081B2 (en) Extracting fine grain labels from medical imaging reports
CN113343680A (zh) 一种基于多类型病历文本的结构化信息提取方法
Wang et al. Research on named entity recognition of doctor-patient question answering community based on bilstm-crf model
Li et al. Improved deep belief network model and its application in named entity recognition of Chinese electronic medical records
Wang et al. A review of the application of natural language processing in clinical medicine
CN115831380A (zh) 一种基于医疗知识图谱的智能医疗数据管理系统及方法
CN112669961A (zh) 一种基于大数据推理的智能分诊方法
Zubke et al. Using openEHR archetypes for automated extraction of numerical information from clinical narratives
Zhang et al. Medical Q&A statement NER based on ECA attention mechanism and lexical enhancement
Saba et al. Question-Answering Based Summarization of Electronic Health Records using Retrieval Augmented Generation
De Maio et al. Text Mining Basics in Bioinformatics.
Deng et al. PIAT: An evolutionarily intelligent system for deep phenotyping of chinese electronic health records
Landolsi et al. Extracting and structuring information from the electronic medical text: state of the art and trendy directions
US11869674B2 (en) Translation of medical evidence into computational evidence and applications thereof
Kang et al. Two-Phase chief complaint mapping to the UMLS metathesaurus in Korean electronic medical records
Kaya et al. Analysis of free text in electronic health records by using text mining methods
di Buono et al. From linguistic resources to medical entity recognition: A supervised morpho-syntactic approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 350000 unit 69, 4 / F, building 3, Guiyuan Yijing phase II, No. 184-186, Aofeng Road, Taijiang District, Fuzhou City, Fujian Province

Patentee after: Development Software Co.,Ltd.

Address before: 350019 unit 69, 4 / F, building 3, Guiyuan Yijing phase II, No. 184-186, Aofeng Road, Taijiang District, Fuzhou City, Fujian Province

Patentee before: FUJIAN HONGYANGSOFT Co.,Ltd.