CN109299239B

CN109299239B - 一种基于es的电子病历检索方法

Info

Publication number: CN109299239B
Application number: CN201811148320.6A
Authority: CN
Inventors: 陈瑞典
Original assignee: Fujian Hongyangsoft Co ltd
Current assignee: Development Software Co ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2021-11-23
Anticipated expiration: 2038-09-29
Also published as: CN109299239A

Abstract

本发明公开了一种基于ES的电子病历检索方法，涉及医疗数据检索技术领域。该方法将语义分析模型引入到电子病历分析，包括病历主题词汇的提取及文本语义上的相似度计算，利用它们在文本的语义挖掘上的优势，通过建立全专科医学语义库(否定词、同义词、歧义词)为电子病历检索中文本信息的潜在语义挖掘提供了算法支持，实现了检索信息的高准确率和查全率，更好的适应了医学术语相比普通的自然语言往往较为复杂并且在不断地变化，并且医学领域的缩写词、同义词和多义词较多的特点。满足了多维度组合检索的科研需求、潜在语义搜索实现相关文献全文检索的需求。实现真正意义上的语义内涵扩展、语义外延扩展的智能全文检索。

Description

一种基于ES的电子病历检索方法

技术领域

本发明涉及医疗数据检索技术领域，尤其涉及一种基于ES的电子病历检索方法。

背景技术

随着信息技术的普及和发展，医院信息化系统开发的不断深入，电子病历作为临床医疗的信息基础，逐渐成为现代化医院综合信息系统的核心。电子病历不仅包括纸质病历的所有内容，而且包括声像、图表、图形等多媒体信息，电子病历对病人的病情、治疗过程等信息进行了详细而完整的记录。随着电子病历的日益广泛应用，积累产生了大量的电子病历数据，如何有效地利用这些被存储的数据以服务医疗机构、科研机构和患者，辅助医生进行医学研究，帮助医疗人员更好地在临床上进行决策，已经成为一个迫切的研究热点。

然而，面对医院产生的海量电子病历非结构化数据，如何快速准确地检索得到医疗人员所需要的电子病历已经成为一个巨大的挑战。众所周知，电子病历数据大部分是由医生录入的非结构化短语和句子构成，由于自然语言的复杂性，一词多义与一义多词等现象屡见不鲜，由于医生在录入过程中没有统一的规范可以遵循，导致存在同一医学概念有不同的描述，而不同的表述可能会表示相同的概念，传统的基于关键词的检索要求检索出的文章必须显示地包含有用户所提交的词条，这种方式的缺点是参与匹配的只是字符的字面表现形式，而非它们所要表达的概念，不能很好的解决医学词汇的同义性问题，如“肾功能衰竭”的同义词有“肾衰”、“肾衰竭”、“肾功能不全”等，医学人员在检索时，这种情况的出现，很大程度上降低了医学检索的准确率和查全率。

因此，关键字检索显然是不够的，另外，当前的电子病历检索系统在查询方面还存在一定的缺陷，体现在以下几个方面：

(1)忽略科研需求，不支持多维度的组合检索需求。目前大多数电子病历系统很适合针对患者或其家属的个案查询，而忽略了医生的智能化检索需求。患者或其家属、保险公司等查询病历往往有很明确的目的，通常只需要一个人的病历，往往根据患者属性等结构化特征查询即可。而医生由于治疗或科研目的，则需要查询多个症状类似或诊断相似的多个患者病历，往往还要根据严格的实验设计要求，进行多维度的特征来筛选研究样本，这种组合检索需求显然与患者个案的查询需求是不同的。

(2)不支持潜在语义搜索，造成文献漏检。虽然有些电子病历管理系统考虑了医生的科研或对疑难杂症的检索需求，可以通过患者的人口属性信息进行查询，或通过疾病名称、用药内容等结构化数据进行查询，但都维持在最基本的关键字精准匹配查询，没有对模糊度的支持，由于医学领域的特殊性，不同区域、不同专业、不同医生的用语习惯不可能完全一致，一词多义与一义多词现象广泛存在，导致精确匹配搜索结果的好坏，与关键词选取的质量有着极大的关系，查询效率低下，而且准确率和召回率(查全率)都不高。

(3)侧重结构化信息检索，忽略全文检索。现有电子病历检索系统查询时，关键词只能对标准化的二维表数据，无法针对医嘱、病史、症状描述等主观性很强的文本非结构化内容进行查询，而在进行科研的时候，往往这部分描述类的主观性内容比结构化的内容提供有更多有价值的信息，如能将这些数据转化成有价值的信息、知识，对疾病规律的挖掘和发现将有极大的提升帮助。。

发明内容

本发明的目的在于提供一种基于ES的电子病历检索方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于ES的电子病历检索方法，包括如下步骤：

S1，Elasticsearch批量采集电子病历数据并进行存储；

S2，对数据进行如下的预处理，得到预处理后的电子病历数据：数字实体的标准化处理；根据自定义的医学症状及诊断词库，对电子病历的中英文文本进行文本分词处理；词性的标注处理；停用词的过滤处理；关键词的权重计算处理；假阳性症状描述词的处理；ICD10疾病诊断标准化处理；

S3，利用LDA算法对所述预处理后的电子病历数据进行潜在语义分析，通过对词汇—文本矩阵进行潜在语义空间的提取，根据潜在语义空间中文本的分布信息提取文本的主题词汇构建文档索引；

S4，利用词向量模型计算所述预处理后的电子病历文本语义上的相似度；

S5，根据用户输入的检索请求，应用以下检索方法进行电子病历的检索：词精确检索、字包含检索、高级组合检索、限制范围检索和智能语义检索。

优选地，S2中，所述自定义的医学症状及诊断词库，包括6714个阳性和阴性症状词条，这些词条按照身体部位划分为：全身症状类词条1416条，胸部症状类词条852条，腹部症状类词条773条，皮肤症状类词条449条，头部症状类词条482条，眼部症状类词条391条，女性盆骨症状类词条352条，男性股沟症状类词条70条，口部症状类词条358条，上肢症状类词条261条，盆腔症状类词条265条，腰部症状类词条242条，下肢症状类词条230条，颈部症状类词条170条，鼻部症状类词条111条，臀部症状类词条134条，耳部症状类词条104条，背部症状类词条54条。

优选地，S3包括如下步骤：

S301，选择主题数K，初始化超参数向量，文档主题分布的参数α为1/K,主题词分布的参数η为1/K；

S302，对应语料库中每一篇文档的每一个词，随机的赋予一个主题编号z；

S303，重新扫描语料库，对于每一个词，利用Gibbs采样公式更新它的主题编号，并更新语料库中该词的编号；

S304，重复S303的基于坐标轴轮换的Gibbs采样，直到Gibbs采样收敛；

S305，统计语料库中的各个文档各个词的主题，得到文档主题分布θ_d，统计语料库中各个主题词的分布，得到LDA的主题与词的分布β_k。

优选地，S4包括如下步骤：

S401，初始化所有的模型参数θ为1，所有的词向量w为0；

S402，对于每个训练样本(context(w₀),w₀),负采样出neg个负例中心词w_i,i＝1,2,...neg；

S403，进行梯度上升迭代过程，对于训练集中的每一个样本(context(w₀),w₀,w₁,...w_neg)做如下处理：

a)e＝0，计算

b)for i＝0to neg,计算：

g＝(y_i-f)η，

其中，y₀＝1，y_i＝0，i＝1,2,..neg

c)对于context(w)中的每一个词向量x_k进行更新，x_k共2c个：

x_k＝x_k+e

d)如果梯度收敛，则结束梯度迭代，否则重复S403继续迭代。

优选地，S4和S5之间还包括数据统计及图表展现步骤，包括关联疾病、症状、用药、检验的排名统计，定性与定量数据的自动转化统计，及多种类型的图表展示。

本发明的有益效果是：本发明提供的基于ES的电子病历检索方法，将语义分析模型引入到电子病历分析，包括病历主题词汇的提取及文本语义上的相似度计算，利用它们在文本的语义挖掘上的优势，通过建立全专科医学语义库(否定词、同义词、歧义词)为电子病历检索中文本信息的潜在语义挖掘提供了算法支持，实现了检索信息的高准确率和查全率，更好的适应了医学术语相比普通的自然语言往往较为复杂并且在不断地变化，并且医学领域的缩写词、同义词和多义词较多的特点。满足了多维度组合检索的科研需求、潜在语义搜索实现相关文献全文检索的需求。实现真正意义上的语义内涵扩展、语义外延扩展的智能全文检索。

附图说明

图1是本发明提供的基于ES的电子病历检索方法流程示意图；

图2是自定义的医学症状及诊断词库中的部分词条展示示意图；

图3是部分停用词展示示意图；

图4是部分诊断名称展示示意图；

图5是词精确检索结果示例图；

图6是字包含检索结果示例图；

图7是高级组合检索结果示例图；

图8是限制检索范围的检索结果示例图；

图9是智能语义检索结果示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供了一种基于ES的电子病历检索方法，包括如下步骤：

S1，Elasticsearch批量采集电子病历数据并进行存储；

S3，利用LDA算法((Latent Dirichlet Allocation隐含狄利克雷分布，简称LDA)对所述预处理后的电子病历数据进行潜在语义分析，通过对词汇—文本矩阵进行潜在语义空间的提取，根据潜在语义空间中文本的分布信息提取文本的主题词汇构建文档索引；

上述方法中，S1可以采用如下方式进行实施：

使用python中的Elasticsearch、cx_Oracle模块做为基础，将数据批量从源目标迁移至目标数据库中。在传输数据的过程中，数据还经过了一次过滤从而使导入的数据更加的有效与准确。

Elasticsearch是一个实时的分布式搜索和分析引擎，它可以用前所未有的速度去处理大规模数据、可以用于全文搜索，结构化搜索以及分析。存储数据结构主要分为：父结构、嵌套结果。本发明实施例中，父结构主要用于主要检索信息(例：姓名、单号、住院号等)，嵌套结构用于存储有多层关系的数据(例：药品信息、检查信息等)。

S2可以采用如下方式进行实施：

其中，数字实体的标准化处理，可以包括时长数字度量单位的统一转化、大小写统一化、科学计数法识别转化等。数字进行标准化处理和统一量纲后，才能进行各个病案数据的横向对比和统计分析。

本发明中，对于电子病历进行中英文文本分词，使用了自定义的医学症状及诊断词库。

医学术语具有极高的专业性,特别是关于症状的描述和药品、诊断等信息，使用普通的字典进行分词将会错误的理解电子病历内容，无法识别到阴阳性症状的描述、药品信息和疾病诊断信息，因此，本方案自定义了医学症状及诊断词库，使电子病历文本内容分词更加准确，提升了检索的准确率和召回率。

本发明中，S2中，所述自定义的医学症状及诊断词库，包括6714个阳性和阴性症状词条，这些词条按照身体部位划分为：全身症状类词条1416条，胸部症状类词条852条，腹部症状类词条773条，皮肤症状类词条449条，头部症状类词条482条，眼部症状类词条391条，女性盆骨症状类词条352条，男性股沟症状类词条70条，口部症状类词条358条，上肢症状类词条261条，盆腔症状类词条265条，腰部症状类词条242条，下肢症状类词条230条，颈部症状类词条170条，鼻部症状类词条111条，臀部症状类词条134条，耳部症状类词条104条，背部症状类词条54条。自定义的这些症状词条，考虑到了标准书写和口语化书写等多种用语习惯，基本涵盖了医生书写症状时各部位可能用到的症状描述短语，使电子病历文本中的症状描述尽可能地被识别出来，提升检索准确度。

部分词条可如图2所示，从图2中可以看出，本发明中的词典既包含了像抑郁、剧痛、衰弱、水肿等阳性类的症状描述短语，又包含了如无反复清咽、无反复腹痛、无反应迟钝、无听力障碍、无呕吐泡沫等假阳性的症状描述，同时还有如神经系统未见明显异常、无阴道异常流血流液等包含部位、修饰语、否定词等多种词语模式组合的症状词典，涵盖了各种医生在书写过程中可能会用到的症状短语。所以，采用本发明提供的方法，可以使电子病历文本中的症状描述尽可能地被识别出来，提升检索准确度。

词性的标注(包括代词、名词、形容词等)，对电子病历文档中的词性进行标注的目的是用于词性的过滤，如在进行分析时将代词、语气助词等无实际意义的词去掉，这些词对于文档主题的提取会产生干扰信息。

停用词的处理，如将语气助词、代词、高频词等无意义的词进行过滤，这些信息会干扰电子病历文档主题内容的提取，本发明中共引入了2615个停用词，部分停用词可参见图3所示。

本发明中，进行关键词权重的计算，使用最为经典且应用广泛的TF-IDF算法计算权重，目的是提升关键词的权重,对生成电子病历文本的摘要及主题准确度有提升效果；

假阳性症状描述(否定词意)的预处理，如医生书写的病历内容为“患者双下肢无强直、抖动”，应解析成患者双下肢无强直、无抖动，不能根据原文直接解析成“无强直”，有“抖动”，使阴性症状误理解成阳性症状；

ICD10疾病诊断标准化处理，有助于疾病名称的识别，帮助提取电子病历文本中的诊断信息，部分诊断名称可如图4所示。

从图4可以看出，本发明中的如伤寒性脑膜炎、沙门菌伦敦血清型肠炎等疾病诊断名称，采用的是的国际通用的ICD-10疾病标准名称，既能适应综合医院、专业医院等不同类型的医院电子病历内容，又能适应不同地域、不同等级医院医生书写的电子病历内容。所以，采用本发明提供的方法，可以更加便于疾病名称的识别。

本发明提供的技术方案中，将电子病历数据进行了上述预处理之后，使用经典的语义分析算(LDA算法)进行潜在语义分析。LDA算法是一个三层贝叶斯生成概率模型，可以用于潜在语义分析，在文本语义分析中是一个很有用的模型。LDA算法将每篇文档看成潜在主题的随机混合，而主题被看作词的分布，它通过对词汇—文本矩阵进行潜在语义空间的提取，根据潜在语义空间中文本的分布信息提取文本的主题词汇构建文档索引。

S3采用的LDA算法可以包括如下步骤：

根据上述步骤，实际的操作过程可以为：

输入：电子病历语料训练样本(已预处理分词，分词词典在通用分词字典的基础上，引入了自定义的医学症状及诊断词库，使医学用语分词更加准确)；主题数K的取值，参考历史疾病诊断种类数及疾病分型经验，可以采用如下的计算公式:

K＝该医院近3年内的患者诊断疾病种类数*5。

输出：电子病历文档主题分布，主题与词的分布。

在本发明的一个优选实施例中，S4可以包括如下步骤：

S401，初始化所有的模型参数θ为1，所有的词向量w为0；

a)e＝0，计算

b)for i＝0to neg,计算：

g＝(y_i-f)η，

其中，y₀＝1，y_i＝0，i＝1,2,..neg

c)对于context(w)中的每一个词向量x_k进行更新，x_k共2c个：

x_k＝x_k+e

d)如果梯度收敛，则结束梯度迭代，否则重复S403继续迭代。

词向量模型算法是将词表征为实数值向量的高效工具，利用深度学习思想，通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。词向量模型采用基于负样本的词袋模型CBOW(ContinuousBag-of-Words，CBOW词袋模型的训练思路是根据某一个特征词的上下文相关的词对应的词向量，输出这特定的一个词的词向量)。

算法输入：电子病历语料训练样本(已预处理分词，分词词典在通用分词字典的基础上，引入了自定义的医学症状及诊断词库，使医学用语分词更加准确)；词向量的维度大小M，若电子病历语料大小超过1G，M取值200，否则M取值100；CBOW的上下文大小2c，根据电子病历文本描述的特点，c值取值为20；步长η，即算法迭代的初始步长，取值为0.01；负采样的个数neg，取值为10。

算法输出：词汇表每个词对应的模型参数θ，所有的词向量x_w。

通过以上语义分析和相似度计算，可以实现文本中潜在信息的提取和文本之间语义关系的共现，结合海量丰富的电子病历文本数据，提升检索的准确率和召回率。

本发明的一个优选实施例中，还可以包括数据统计及图表展现：具体包括关联疾病、症状、用药、检验等TOP排名统计，定性与定量数据的自动转化统计(如高血压与具体血压值的自动转化统计)，及丰富的图表专业化展示，如饼图、折线图、柱形图、散点图等图表类型。

用户检索：医生通过用户界面提出检索需求，可以直接在搜索框输入要检索的关键词、字符串、一段话或一份病历内容，选择相应的搜索类型，即可实现多种检索方法，可以采用以下检索方式：

词精确检索：指以词为单元进行检索，如检索“呕吐”，则“无呕吐”、“未见呕吐”等词则不会出现在检索结果中，如检索“未呕吐”，则“呕吐”不会出现在检索结果中，其检索结果示例可参见图5。从图5可以看出，检索“呕吐”关键词，一共检索出4831份含“呕吐”阳性的电子病历，这些电子病历中，都精确包含了“呕吐”这个关键字。

字包含检索：为所检索字符串中任意字的检索结果之和，如检索“高血压妊娠子痫”，检索结果为“高血压”的检索结果和“妊娠子痫”的检索结果之和，其检索结果示例可参见图6。从图6可以看出，只有同时包含了“高血压”和“妊娠子痫”的电子病历才被检索出来，但这两个关键字不必连续出现，中间可包含了其它书写的病历内容。

高级组合检索：实现了通过输入医生想象的任意词多维度组合快速检索电子病历全文的功能，为科研项目的样本筛选、数据预处理、指标统计等提供快速计算功能，改变以往靠人为查阅纸质或电子病历内容、手工统计指标的低效科研方式，其检索结果示例可参见图7。从图7可以看出，只有同时满足搜索条件“国籍”为中国，“年龄”大于18，“性别”为女，“入院诊断”为妊娠的电子病历才会被检索出来。

限制检索范围：可以对检索的范围进行限制，即在数据检索时可以限定电子病历的任意数据段、数据组、数据元，提供上千个指标搜索项，实现精细化的检索需求，其检索结果示例可参见图8。从图8可以看出，本发明一共有3218个搜索项，包括可以限定患者属性信息、诊断信息、检验信息、检查信息等特定搜索范围。

智能语义检索：是系统提供的高级智能检索功能，成功地将语义分析算法引用到电子病历领域、它是一种非常智能的语义概念检索方法，具有智能联想的能力，可以对用户输入的字符串中的任意词汇及其关联词进行检索。语义分析算法假设在每个文本中存在某种潜在的语义结构，而这种潜在的语义结构隐含在文本中词语的上下文使用模式中，在这种语义结构中，同义词之间具有相同的语义结构，多义词则具有不同的语义结构。通过统计的方法如奇异值分解或概率主题模型等算法发现文本中数据潜在的语义信息，例如，语义模型知道“肾功能衰竭”是一种疾病，而“肾衰”、“肾衰竭”、“肾功能不全”等是它的简写或另一种叫法。如当用户对“肾衰”进行智能检索时，包含“肾功能衰竭”、“肾衰”、“肾衰竭”或“肾功能不全”的正文都会被检索出来，即使这些正文中可能并未出现“肾衰”这个词。其检索结果示例可参见图9。从图9可以看出，搜索“肾功能衰竭”时，病历中未显示包含“肾功能衰竭”关键字，但病历内容中有其同义词“肾衰”、“肾衰竭”等关键字的病历被检索出来，使医生在检索时不会因为关键词的输入误差导致检索结果准确率和召回率降低。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：本发明提供的基于ES的电子病历检索方法，将语义分析模型引入到电子病历分析，包括病历主题词汇的提取及文本语义上的相似度计算，利用它们在文本的语义挖掘上的优势，通过建立全专科医学语义库(否定词、同义词、歧义词)为电子病历检索中文本信息的潜在语义挖掘提供了算法支持，实现了检索信息的高准确率和查全率，更好的适应了医学术语相比普通的自然语言往往较为复杂并且在不断地变化，并且医学领域的缩写词、同义词和多义词较多的特点。满足了多维度组合检索的科研需求、潜在语义搜索实现相关文献全文检索的需求。实现真正意义上的语义内涵扩展、语义外延扩展的智能全文检索。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于ES的电子病历检索方法，其特征在于，包括如下步骤：

S1，Elasticsearch批量采集电子病历数据并进行存储；

S5，根据用户输入的检索请求，应用以下检索方法进行电子病历的检索：词精确检索、字包含检索、高级组合检索、限制范围检索和智能语义检索；

步骤S1中具体包括：

使用python中的Elasticsearch、cx_Oracle模块做为基础，将数据批量从源目标经过过滤之后，从而迁移至目标数据库中；

目标数据库中存储数据结构主要分为：父结构、嵌套结果，其中，父结构主要用于主要检索信息的存储，嵌套结构用于存储有多层关系的数据；

所述自定义的医学症状机诊断词库包括阳性症状描述短语，假阳性症状描述短语以及包含身体部位、修饰语和否定词的多词语模式组合症状描述短语；

S3包括如下步骤：

S301，选择主题数K，初始化超参数向量，文档主题分布的参数α为1/K,主题词分布的参数η为1/K；K＝医院近3年内的患者诊断疾病种类数*5；

S305，统计语料库中的各个文档各个词的主题，得到文档主题分布θ_d，统计语料库中各个主题词的分布，得到LDA的主题与词的分布β_k；

S4包括如下步骤：

S401，初始化所有的模型参数θ为1，所有的词向量w为0；

S402，对于每个训练样本(context(w₀)，w₀)，负采样出neg个负例中心词w_i，i＝1，2，...neg；

S403，进行梯度上升迭代过程，对于训练集中的每一个样本(context(w₀)，w₀，w₁，...w_neg)做如下处理：

a)e＝0，计算

b)for i＝0 to neg，计算：

g＝(y_i-f)η，

其中，y₀＝1，y_i＝0，i＝1，2，..neg

c)对于context(w)中的每一个词向量x_k进行更新，x_k共2c个：

x_k＝x_k+e

d)如果梯度收敛，则结束梯度迭代，否则重复S403继续迭代。

2.根据权利要求1所述的基于ES的电子病历检索方法，其特征在于，S2中，所述自定义的医学症状及诊断词库，包括6714个阳性和阴性症状词条，这些词条按照身体部位划分为：全身症状类词条1416条，胸部症状类词条852条，腹部症状类词条773条，皮肤症状类词条449条，头部症状类词条482条，眼部症状类词条391条，女性盆骨症状类词条352条，男性股沟症状类词条70条，口部症状类词条358条，上肢症状类词条261条，盆腔症状类词条265条，腰部症状类词条242条，下肢症状类词条230条，颈部症状类词条170条，鼻部症状类词条111条，臀部症状类词条134条，耳部症状类词条104条，背部症状类词条54条。

3.根据权利要求1所述的基于ES的电子病历检索方法，其特征在于，S4和S5之间还包括数据统计及图表展现步骤，包括关联疾病、症状、用药、检验的排名统计，定性与定量数据的自动转化统计，及多种类型的图表展示。