CN107480131A

CN107480131A - 中文电子病历症状语义提取方法及其系统

Info

Publication number: CN107480131A
Application number: CN201710610138.7A
Authority: CN
Inventors: 李姣
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-07-25
Filing date: 2017-07-25
Publication date: 2017-12-15

Abstract

本发明公开了一种中文电子病历症状语义提取方法及其系统；该处理方法利用现有文字处理系统结合通用医学术语库对原始的电子病历进行识别、标记和索引处理，使得处理后的电子病历中信息便于检索和应用，有助于科研人员依据电子便利提供的信息开展科研工作，提高医务工作者工作效率，促进医患沟通改善医疗服务质量；采用该方法的处理系统也同样具有上述优点。

Description

中文电子病历症状语义提取方法及其系统

技术领域

本发明涉及医疗信息化领域，特别涉及中文电子病历症状语义提取方法及采用其的中文电子病历症状语义提取系统。

背景技术

随着医疗信息化与电子病历的发展，电子病历在医疗活动中积累了大量的医疗数据。但是，不同医生制作其电子病历时，个人习惯和用语习惯均不相同，制造过程中因为输入法的关联功能又可能出现错别词汇。这些情况都容易给阅读者形成理解障碍。因此，现有的电子病历系统存在不足。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提供一种基于电子病历的中文电子病历症状语义提取系统，使得电子病历能够更方便的进行检索和应用。

为了解决上述技术问题，本发明所采用的技术方案为：一种中文电子病历症状语义提取方法，包括以下步骤：

s1.根据通用医学术语库识别原始病历中的医学名词；

s2.对所述医学名词进行分类；

s3.根据通用医学术语库对所述医学名词标注其名词的释义和/或对应的关联词汇。

优选的,所述步骤s1包括以下步骤：

s11.应用条件随机场对所述原始病历进行分词；

s12.应用所述条件随机场对分词后的所述原始病历进行命名实体识别；

s13.应用所述通用医学术语库识别实体词中的医学名词。

优选的，所述步骤s2包括以下步骤：

s21.将所述医学名词按疾病名称、药物名称、症状名称以及生理特征分别归类；

s22.对所述医学名词按归类进行区别标记。

优选的，所述步骤s22中的所述区别标记为根据归类不同为所述医学名词设置不同的字体颜色或底色。

优选的，所述步骤s2还包括以下步骤：

s23.根据所述原始病历的上下文关系，为归类为药物名称的所述医学名词关联其用药指导；

s24.根据所述原始病历的上下文关系，为归类为症状名称的所述医学名词关联其症状数据；

s25.根据所述原始病历的上下文关系，为归类为生理特征的所述医学名词关联其特征数据。

优选的，所述步骤s3包括以下步骤：

s31.使机器利用关联算法从分类完成的电子病历中找寻所述医学名词的相应联系和特征；

s32.使用监督式学习算法构建机器学习的训练模型；

s33.使用所述训练模型提高所述机器找寻并标注所述医学名词的相应联系和特征的准确性。

优选的，所述通用医学术语库包括：临床医学术语标准集和/或医学主题词表。

为了解决上述技术问题，本发明还提供一种中文电子病历症状语义提取系统，包括用于存储通用医学术语库的存储单元，还包括：

识别单元，与所述存储单元连接，用于根据所述通用医学术语库识别原始病历中的医学名词；

分类单元，与所述识别单元连接，用于对识别出来的所述医学名词进行分类；

标注单元，与所述分类单元及所述存储单元分别连接，用于根据通用医学术语库对所述医学名词标注其名词的释义和/或对应的关联词汇。

优选的，所分类单元设置有用于对所述医学名词按归类进行区别标记的标记模块和为归类后的所述医学名词关联对应数据的关联模块。

优选的，所述标注单元设置有机器学习模块和找寻标注模块。

与现有技术相比，本发明的有益效果是：利用现有文字处理系统结合通用医学术语库对原始的电子病历进行识别、标记和关联标注处理，使得处理后的电子病历中信息便于检索和应用，有助于科研人员依据电子便利提供的信息开展科研工作，提高医务工作者工作效率，促进医患沟通改善医疗服务质量。

进一步的，本发明的中文电子病历症状语义提取方法通过对医学命名实体的自动标注，克服现有技术中电子病历处理方案中的依靠手动标注而存在的错标、漏标等缺陷。采用该方法的处理系统也同样具有上述优点。

附图说明

图1为一种中文电子病历症状语义提取方法的基本流程图；

图2为一种中文电子病历症状语义提取方法的详细流程图；

图3为采用图1中文电子病历症状语义提取方法的中文电子病历症状语义提取系统架构示意图；

图4为图3中文电子病历症状语义提取系统的完整架构示意图。

具体实施方式

以下参考附图1至附图4，对本发明的各实施例予以进一步地详尽阐述。

本发明基于现有的文字处理技术结合通用医学术语库对电子病历中的文字信息进行处理。其中通用医学术语库为临床医学术语标准集(SinoMed CT)和医学主题词表(MeSH)的两者或者两者之一。

《临床医学术语标准集》SinoMed CT医学系统命名法－临床术语，是当前国际上广为使用的一种临床医学术语标准。

这套术语集，提供了一套全面统一的医学术语系统，涵盖大多数方面的临床信息，如疾病、所见、操作、微生物、药物等，可以协调一致地在不同的学科、专业和照护地点之间实现对于临床数据的标引、存储、检索和聚合，便于计算机处理。同时，它还有助于组织病历内容，减少临床照护和科学研究工作中数据采集、编码及使用方式的变异。对于临床医学信息的标准化和电子化起着十分重要的作用。

《医学主题词表》(Medical Subject Headings，简称MeSH)，是美国国立医学图书馆编制的权威性主题词表。它是一部规范化的可扩充的动态性叙词表。美国国立医学图书馆以它作为生物医学标引的依据，编制《医学索引》(Index Medicus)及建立计算机文献联机检索系统MEDLINE数据库。《MeSH》汇集约18,000多个医学主题词。

下面结合附图对本发明进一步说明。

如附图1所示，一种中文电子病历症状语义提取方法，包括以下步骤：

s1.根据通用医学术语库识别原始病历中的医学名词；

s2.对医学名词进行分类；

采用为识别并分类后的医学名词建立关联词汇标注的方式，可以提高该电子病历在使用时的通用性和相关医学名词与症状的关联性，医护人员的使用效率。

如附图2所示，在本实施例中，步骤s1包括以下步骤：

s11.应用条件随机场对所述原始病历进行分词；

s13.应用所述通用医学术语库识别实体词中的医学名词。

具体的，在步骤s1中使用条件随机域(场)(conditional random fields，简称CRF，或CRFs)算法，是一种判别式概率模型，是随机场的一种。CRF本质上是隐含变量的马尔科夫链+可观测状态到隐含变量的条件概率分布模型。其特点是假设输出随机变量构成马尔可夫随机场，条件随机场可以用于不同的预测问题由输入序列对输出序列预测的判别模型。CRF常用于标注分析序列资料、句法分析、命名实体识别以及词性标注等。如分析电子文档中的自然语言文字或是生物序列。

在本实施例中，利用CRF算法输入字特征、上下文特征、词性特征等，计算分析后输出对应的词向量标签，用于预测相应的结果。

定理(线性链条件随机场的参数化形式)设P(Y|X)为线性链条件随机场，则在随机变量X取值为x的条件下，随机变量Y取值为y的条件概率具有如下形式：

其中

式中，t_k和s_l是特征函数，λ_k和μ_l是对应的权值。Z(x)是规范化因子，求和是在所有可能的输出序列上进行的。上面两个式子是线性链条件随机场模型的基本形式，表示给定输入序列x,对输出序列y预测的条件概率。其中t_k是定义在边上的特征函数，称为转移特征(t是transition的缩写，方便记忆)，依赖于当前和前一个位置，s_l是定义在结点上的特征函数，称为状态特征(s是status的缩写)，依赖于当前位置(无论哪种特征函数，都将当前可能的y_i作为参数)。t_k和s_l都依赖于位置，是局部特征函数。通常，特征函数t_k和s_l取值为1或0；当满足特征条件时取值为1,否则为0。条件随机场完全由特征函数和对应的权值λ_k、μ_l确定。

在本实施例中首先应用条件随机场对原始病历进行分词和命名实体识别。例如病历中出现“患者次日出现腹泻”，利用该模型对每个文字的词性分析标注，会出现如下结果：

原文：患者次日出现腹泻

分词：患者次日出现腹泻

O O O O O O B I(symptom)

其中，O代表为其他非实体、B代表为命名实体的开始标识符、I代表为命名实体的中间位和末位标识符。

再根据通用医学术语库具体识别命名实体中的医学名词，如此，可以有效的提高本方法的处理效率，节省处理资源。

如附图2所示，在本实施例中，步骤s2包括以下步骤：

s21.将医学名词按疾病名称、药物名称、症状名称以及生理特征分别归类；

s22.对医学名词按归类进行区别标记。

通过对不同类型的医学名词进行区别标记，使得电子病历便于使用者进行阅读和研究分析，提高了电子病历的使用效率。

在其他实施例中个，区别标记可以设定为显示和非显示状态，以利于使用者在病历原文和处理后的状态之间进行切换。

在本实施例中，步骤s22中的区别标记为根据归类不同为医学名词设置不同的字体颜色或底色。

通过不同颜色的字体或者底色，使用者可以清楚的从电子病历中区别出不同分类的医学名词，也可以清楚的找到相同类型的医学名词进行关联分析。

在本实施例中，步骤s2还包括以下步骤：

s23.根据原始病历的上下文关系，为归类为药物名称的医学名词关联其用药指导；

s24.根据原始病历的上下文关系，为归类为症状名称的医学名词关联其症状数据；

比如原始电子病历中记载病人气促有1年的时间，则气促被分类为症状名称并进行标记后，将其与1年进行关联。便于使用者点击该医学名词时可以方便的找到其症状数据。

s25.根据原始病历的上下文关系，为归类为生理特征的医学名词关联其特征数据。

比如原始电子病历中记载病人心率110次每分钟，律不齐。则当心率被分类为生理特征并进行标记后，将其与110次每分钟，律不齐进行关联。

通过对医学名词的关联设置，可以方便使用者在对电子病历中相关药物名称、症状名称或者生理特征进行分析时方便的得到与其关联的相应数据或者用药指导，有利于对该医学名词进行较充分的理解。

如附图2所示，在本实施例中，所述步骤s3包括以下步骤：

s32.使用监督式学习算法构建机器学习的训练模型；

具体的，本实施例中使用非监督学习算法中，没有任何目标或结果变量要预测或估计。只是交由机器利用关联算法从数据集中找寻相应联系和特征，通过大量的比对试验，找到某些关键词相互关联的特性。在关联算法中很重要的一个概念是支持度(Support)，也就是数据集中包含某几个特定项的概率。比如在1000个病历档案中同时出现了高血压和脑卒中的次数是50次，那么此关联的支持度为5％。和关联算法很相关的另一个概念是置信度

(Confidence)，也就是在数据集中已经出现A时，B发生的概率，置信度的计算公式是：A与B同时出现的概率/A出现的概率。假设对高血压与脑卒中进行数据关联分析，首先必须要设定最小支持度与最小可信度两个门槛值，在此假设最小支持度min-support＝5％且最小可信度min-confidence＝65％。因此符合需求的关联规则将必须同时满足以上两个条件。若经过挖掘所找到的关联规则{高血压，脑卒中}满足下列条件，将可接受{高血压，脑卒

中}的关联规则。用公式可以描述为：

Support(高血压，脑卒中)≥5％and Confidence(高血压，脑卒中)≥65％。

其中，Support(高血压，脑卒中)≥5％于此应用范例中的意义为：在所有的病历中，至少有5％的病历呈现高血压与脑卒中有关联行为，Confidence(高血压，脑卒中)≥65％于此应用范例中的意义为：在所有包含高血压的病历中，至少有65％的会提及脑卒中。

因此我们会建议机器在出现高血压这个概念时，推荐标注脑卒中。这是根据关联算法而定的。

在本实施例中，利用监督式学习算法调整参数提高标注准确性来构建机器学习的训练模型。这个算法由一个目标变量或结果变量(或因变量)组成。这些变量由已知的一系列预示变量(自变量)预测而来。利用这一系列变量，我们生成一个将输入值映射到期望输出值的函数。比对命名实体识别的正确率与召回率，通过调整算法的参数与命名实体的边界整合，输出最优结果。

通过上述训练模型，当这个训练过程一直持续时，模型在训练数据上会获得期望的精确度。例如我们通过关联分析发现高血压与脑卒中是一对有关联的关键词，在一份病历中，我们训练机器标记高血压患者同时出现脑卒中的可能性，我们通过拟合最佳直线来建立自变量和因变量的关系，并且用Y＝a*X+b这条线性等式来表示。

Y：因变量；

a：斜率；

x：自变量；

b：截距；

系数a和b可以通过最小二乘法获得。参见下例。我们找出最佳拟合直线y＝0.2811x+13.9。已知一份病历中高血压关键词出现的次数，我们可以通过这条等式求出脑卒中应该标记的次数。

采用上述机器学习对电子病历的医学名词进行释义和关联词汇后，可以帮助电子病历使用者对相应医学名词进行充分了解。如该疾病的来源、一般治疗方法；该药物的药性，一般使用规则。该生理特征所代表的含义和相应的阈值数据。

在其他实施例中，本发明还包括以下步骤：

s4.根据通用医学术语库对医学名词标注其对应的国际通用的医学词汇。

通过标注的国际通用的医学词表所对应的词汇信息，不同国籍不同语言的使用者都可以从处理后的电子病历中了解患者既往病史，实现了病历跨语种表达，有效的推广了电子病历的使用范围。

在本实施例中，通用医学术语库包括：临床医学术语标准集和/或医学主题词表。

采用上述二者之一或者二者兼顾的形式可以有助于本系统对电子病历中医学名词的识别和标注，兼顾中外所涉及的医学名词。

为了解决上述技术问题，如附图3所示，本发明还提供一种中文电子病历症状语义提取系统，用于存储通用医学术语库的存储单元，还包括：

识别单元，与存储单元连接，用于根据通用医学术语库识别原始病历中的医学名词；

分类单元，与识别单元连接，用于对识别出来的医学名词进行分类；

如附图4所示，在本实施例中，所分类单元设置有用于对医学名词按归类进行区别标记的标记模块和为归类后的医学名词关联对应数据的关联模块。

标注单元设置有机器学习模块和找寻标注模块。用于使机器可以通过相应的训练模型自动学习，以提高机器关联的准确性。同时，也实现机器对电子病历进行自动标注,使标注正确率高于90％。

本发明所要求保护的方案很好的解决了通过对原始电子病历进行分类、标识和关联标注处理，使得原始病历成为符合国际阅读习惯的电子病历，便于医护人员对其进行检索和应用的技术问题，避免了现有的电子病历过于依赖人工进行阅读分析和文档处理的缺陷，提升了电子病历的使用效率。

同时，采用关联和标注的处理形式，也有助于电子病历进行跨国家跨语系的医疗合作应用，有效的扩展了电子病历的使用范围。

上述内容，仅为本发明的较佳实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种中文电子病历症状语义提取方法，其特征在于，包括以下步骤：

s1.根据通用医学术语库识别原始病历中的医学名词；

s2.对所述医学名词进行分类；

2.如权利要求1所述的中文电子病历症状语义提取方法，其特征在于,所述步骤s1包括以下步骤：

s11.应用条件随机场对所述原始病历进行分词；

s13.应用所述通用医学术语库识别实体词中的医学名词。

3.如权利要求2所述的中文电子病历症状语义提取方法，其特征在于，所述步骤s2包括以下步骤：

s22.对所述医学名词按归类进行区别标记。

4.如权利要求3所述的中文电子病历症状语义提取方法，其特征在于，所述步骤s22中的所述区别标记为根据归类不同为所述医学名词设置不同的字体颜色或底色。

5.如权利要求3所述的中文电子病历症状语义提取方法，其特征在于，所述步骤s2还包括以下步骤：

6.如权利要求1所述的中文电子病历症状语义提取方法，其特征在于，所述步骤s3包括以下步骤：

s32.使用监督式学习算法构建机器学习的训练模型；

7.如权利要求1所述的中文电子病历症状语义提取方法，其特征在于，所述通用医学术语库包括：临床医学术语标准集和/或医学主题词表。

8.一种中文电子病历症状语义提取系统，包括用于存储通用医学术语库的存储单元，其特征在于，还包括：

9.如权利要求8所述的中文电子病历症状语义提取系统，其特征在于，所分类单元设置有用于对所述医学名词按归类进行区别标记的标记模块和为归类后的所述医学名词关联对应数据的关联模块。

10.如权利要求8所述的中文电子病历症状语义提取系统，其特征在于，所述标注单元设置有机器学习模块和找寻标注模块。