CN116383413B

CN116383413B - 基于医疗数据提取的知识图谱更新方法和系统

Info

Publication number: CN116383413B
Application number: CN202310655698.XA
Authority: CN
Inventors: 谭重庆; 周雪莲
Original assignee: Hunan Yunlue Information Technology Co ltd
Current assignee: Hunan Yunlue Information Technology Co ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-08-29
Anticipated expiration: 2043-06-05
Also published as: CN116383413A

Abstract

本发明属于数据处理技术领域，提供一种基于医疗数据提取的知识图谱更新方法和系统，该方法对所获取的电子病例系统的出入院记录数据进行预分类，并根据预定抽取规则对预分类后的出入院记录数据进行关键词识别和提取，以得到医疗关键词；根据训练好的关系抽取模型，进行实体归一化和知识关系提取以形成本体三元组数据以构建医疗知识图谱；确定每个医疗实体的属性参数，并采用设定的清洗规则对所形成的本体三元组数据进行清洗删除；基于所确定的每一医疗实体关系的权重值进行知识合并，以更新所构建的医疗知识图谱。本发明能够得到更精确的医疗知识图谱，能够更新所构建的医疗知识图谱，能够提升真实数据获取的效率和数据利用率。

Description

基于医疗数据提取的知识图谱更新方法和系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于医疗数据提取的知识图谱更新方法和系统。

背景技术

真实世界数据（RWD）是指从传统临床试验以外其它来源获取的数据。这些来源包括，大规模简单临床试验、实际医疗中的临床试验、前瞻型观察性研究或注册型研究、回顾性数据库分析、病例报告、健康管理报告、电子健康档案。

真实世界数据很难系统的解释，主要有四个原因：首先，护理笔记的文本没有传统教科书那么正式，使得很难一致地识别疾病和症状。第二，教科书和期刊经常提供简化的病例，只传达最典型的症状，以促进学习。真实世界数据呈现了真实的所有合并症、混杂因素和细微差别，使每个人的样本成为个体。第三，与教科书以陈述的方式陈述疾病和症状之间的关系不同，电子病历中疾病和症状之间的关联是统计性的，这很容易混淆相关性和因果关系。最后，在EMR中记录观察结果的方式通常被认为不相关的信息可能会被忽略或不予追究，从而导致信息缺失并非随机。由于上述原因真实世界数据更难处理，但其拥有比教科书和期刊中呈现的理想化和策划的信息更接近实际的优点，更能体现医疗数据的真实情况。

知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互关系。知识图谱通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论及方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构。

然而，现有医疗数据的处理方法过于繁琐，并且浪费人力物力，数据处理的效率很低。此外，在如何更有效利用出入院的医疗数据等方面仍存在很大改进空间。

因此，有必要提供一种基于医疗数据提取的知识图谱更新方法，以解决上述问题。

发明内容

本发明意在提供一种基于医疗数据提取的知识图谱更新方法和系统，以解决现有技术中现有医疗数据的处理方法过于繁琐，特别浪费人力物力，数据处理的效率很低，无法实现医疗数据的自动化提取和处理，以及如何更有效利用出入院的医疗数据等的技术问题，本发明要解决的技术问题通过以下技术方案来实现。

本发明第一方面提出一种基于医疗数据提取的知识图谱更新方法，包括：获取电子病例系统的出入院记录数据；对所述出入院记录数据进行预分类，并根据预定抽取规则对预分类后的出入院记录数据进行关键词识别和提取，以得到医疗关键词；根据训练好的关系抽取模型，对所抽取的医疗关键词进行实体归一化和知识关系提取，得到医疗关键词的医疗实体和知识关系，形成本体三元组数据以构建医疗知识图谱；其中，利用滑动窗口的移动规则进行事件匹配，以配合训练好的关系抽取模型抽取知识关系；确定每个医疗实体的属性参数，并采用设定的清洗规则对所形成的本体三元组数据进行清洗删除；基于所确定的每一医疗实体关系的权重值进行知识合并，以更新所构建的医疗知识图谱。

根据可选的实施方式，所述对所述出入院记录数据进行预分类，并根据预定抽取规则对预分类后的出入院记录数据进行关键词识别和提取，以得到医疗关键词，包括：从所述出入院记录数据中抽取人口统计学特征、病史记录、检查结果、用药记录、医疗费用，以进行预分类；在预分类的基础上，抽取医疗关键词，并进行实体识别，得到第一抽取结果。

根据可选的实施方式，所述预定抽取规则包括用字典匹配、正则表达式匹配以及利用滑动窗口的移动规则进行事件匹配，预先构建医学词典，根据字典中的关键词对预分类的文本数据进行匹配；所述正则表达式匹配是采用以一个或多个指定字符进行匹配；基于数据单元，根据字典匹配、正则表达式匹配，对预分类的文本数据进行关键词识别，以抽取医疗关键词；通过滑动窗口的移动，将规则模板应用到文本序列中的每一个位置，以寻找匹配的医疗实体，在匹配成功的情况下，提取出相匹配的医疗实体名称以及与医疗实体名称相关的知识关系。

根据可选的实施方式，所述根据训练好的关系抽取模型，对所抽取的医疗关键词进行实体归一化和知识关系提取，得到所述医疗关键词的医疗实体知识和知识关系，形成本体三元组数据以构建医疗知识图谱，包括：对抽取医疗关键词得到的第一抽取结果进行知识关系提取，形成本体三元组，所述本体三元组包括医疗实体、医疗实体之间的知识关系和属性值，其中，所述医疗实体包括第一类医疗实体、第二类医疗实体和第三类医疗实体。

根据可选的实施方式，对所得到的本体三元组进行属性计算，具体计算以下属性中的至少两者，以得到属性值：第一类医疗实体的出现次数、在给定前提下第一类医疗实体/>和第二类医疗实体/>共同出现的次数、在给定前提下第二类医疗实体/>与第一类医疗实体/>的共现概率在第二类医疗实体/>与所有第一类医疗实体的共现率中的占比、第一类医疗实体/>和第二类医疗实体/>之间关系的可信程度；根据所计算的各属性值，对所得到的本体三元组进行清洗操作，并删除无效的医疗实体和医疗实体知识关系，以更新所得到的本体三元组来更新所构建的医疗知识图谱。

根据可选的实施方式，在第一类医疗实体的出现次数小于特定值时，删除所述第一类医疗实体/>；在一个本体三元组中医疗实体的属性值小于特定值时，删除所述一个本体三元组。

根据可选的实施方式，使用所计算的各类医疗实体的属性值，构建权重矩阵以确定各类医疗实体的权重值；根据所确定的各类医疗实体的权重值对各类医疗实体进行排序，并根据排序结果进行知识合并，以更新所构建的医疗知识图谱。

根据可选的实施方式，将医疗实体和知识关系转换为图形表示，以将相似的所述医疗实体和所述医疗实体知识关系进行知识合并。

根据可选的实施方式，定义数据单元，对所述出入院记录数据进行预分类，并填入所述数据单元；将所提取的医疗关键词填入所述数据单元；

根据所提取的医疗关键词和所述数据单元，进行医疗实体提取和知识关系抽取。

本发明第二方面提出一种知识图谱更新系统，采用本发明第一方面所述的知识图谱更新方法，包括：数据获取模块，用于获取电子病例系统的出入院记录数据；分类提取模块，对所述出入院记录数据进行预分类，并根据预定抽取规则对预分类后的出入院记录数据进行关键词识别和提取，以得到医疗关键词；构建模块，根据训练好的关系抽取模型，对所抽取的医疗关键词进行实体归一化和知识关系提取，得到所述医疗关键词的医疗实体和知识关系，形成本体三元组数据以构建医疗知识图谱；其中，利用滑动窗口的移动规则进行事件匹配，以配合训练好的关系抽取模型抽取知识关系；清洗删除模块，确定每个医疗实体的属性参数，并采用设定的清洗规则对所形成的本体三元组数据进行清洗删除；更新模块，基于所确定的每一医疗实体关系的权重值进行知识合并，以更新所构建的医疗知识图谱。

本发明第三方面提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明第一方面所述的方法。

本发明第四方面提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明第一方面所述的方法。

本发明实施例包括以下优点：

与现有技术相比，本发明通过对所获取的电子病例系统的出入院记录数据进行预分类，并根据预定抽取规则进一步对预分类后的出入院记录数据进行关键词识别和提取，以得到医疗关键词，再根据训练好的关系抽取模型，对所抽取的医疗关键词进行实体归一化和知识关系提取，得到所述医疗关键词的医疗实体知识和知识关系，形成本体三元组数据以构建医疗知识图谱，能够得到更精确的医疗知识图谱；通过确定每个医疗实体的属性参数，并采用设定的清洗规则对所形成的医疗本体三元组数据进行清洗删除，能够优化医疗本体三元组进而优化医疗知识图谱的构建过程；基于所确定的每一医疗实体关系的权重值进行知识合并，以更新所构建的医疗知识图谱，能够实现构建医疗知识图谱的自动化，能够不断优化所构建的医疗知识图谱，进而能够提升真实数据获取的效率和数据利用率。

附图说明

图1是本发明的基于医疗数据提取的知识图谱更新方法的一示例的步骤流程图；

图2是本发明的基于医疗数据提取的知识图谱更新方法中数据单元的构建过程的流程示例图；

图3是根据本发明的基于医疗数据提取的知识图谱更新方法中知识提取的一示例的流程示意图；

图4是使用本发明的知识图谱更新方法所构建的医疗知识图谱的一示例的示意图；

图5是本发明的基于医疗数据提取的知识图谱更新方法中更新所构建的医疗知识图谱的一示例的步骤流程图；

图6是本发明的基于医疗数据提取的知识图谱更新系统的结构框图；

图7是根据本发明的电子设备实施例的结构示意图；

图8是根据本发明的计算机可读介质实施例的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

鉴于上述问题，本发明提出一种基于医疗数据提取的知识图谱更新方法，通过对所获取的电子病例系统的出入院记录数据进行预分类，并根据预定抽取规则进一步对预分类后的出入院记录数据进行关键词识别和提取，以得到医疗关键词，再根据训练好的关系抽取模型，对所抽取的医疗关键词进行实体归一化和知识关系提取，得到所述医疗关键词的医疗实体知识和知识关系，形成本体三元组数据以构建医疗知识图谱。通过确定每个医疗实体的属性参数，并采用设定的清洗规则对所形成的医疗本体三元组数据进行清洗删除，能够优化医疗本体三元组进而优化医疗知识图谱的构建过程。基于所确定的每一医疗实体关系的权重值进行知识合并，以更新所构建的医疗知识图谱，能够实现构建医疗知识图谱的自动化，能够不断优化所构建的医疗知识图谱，进而能够提升真实数据获取的效率和数据利用率。

图1是本发明的基于医疗数据提取的知识图谱更新方法的一示例的步骤流程图。

下面参照图1至图5，将对本发明的内容进行详细说明。

首先，在步骤S101中，获取电子病例系统的出入院记录数据。

具体地，例如获取电子病例系统（Electronic Medical Record，简称为EMR）中公开的出入院记录数据。

可选地，通过公共开放渠道获取电子病例系统中多家医院的出入院记录数据、病历数据。对所获取的数据中的隐私信息进行脱敏处理后再使用。

此外，因为真实世界数据存在病人个体信息缺失、相关医疗记录不全、记录间差异化严重等问题，还需要对其进行删失值处理和异常值处理。

需要说明的是，上述仅作为可选示例进行说明，不能理解成对本发明的限制。

接下来，在步骤S102中，对所述出入院记录数据进行预分类，并根据预定抽取规则对预分类后的出入院记录数据进行关键词识别和提取，以得到医疗关键词。

具体地，对所获取的出入院记录进行数据预分类。具体分为患者信息、病史记录、检查结果、用药记录、医疗费用。

需要说明的是，出入院记录通常是一个整体文本，因此，需要对整体内容进行识别，进行一个拆分工作，来实现数据预分类的过程。

在一可选实施方式中，建立数据仓库，该数据仓库包括多种数据表，具体包括与患者信息、病史记录、检查结果、用药记录、医疗费用相关等的数据表。

例如，从EMR系统中通过文本识别抽取患者电子病例中的人口统计学特征、病史记录、检查结果、用药记录、医疗费用存入数据仓库。

具体地，所述预定抽取规则包括用字典匹配、正则表达式匹配，其中，预先构建医学词典，根据医学字典中的关键词对预分类的文本数据进行匹配；所述正则表达式匹配是采用以一个或多个指定字符进行匹配。例如“[\u4e00-\u9fa5]+病”。该正则表达式匹配是以一个或多个中文字符结尾，且以“病”字结尾的字符串，例如：冠心病，高血压病，糖尿病。

具体地，定义数据单元，所述数据单元至少包括：疾病、并发症、症状、检查、手术、治疗药物、病理。例如，所述数据单元为EMR数据单元。

基于数据单元，根据字典匹配、正则表达式匹配（即预定抽取规则），对预分类的文本数据进行关键词识别，以抽取医疗关键词。

所述字典匹配包括通过预先构建的医学词典，根据医学词典中的关键词来对医疗文本进行匹配，匹配方式包括有精确匹配、模糊匹配、近义词匹配等多种方式。

具体对预分类数据进行关键词识别，从多个预分类的数据中提取若干关键词，得到以下医疗关键词：疾病名称（如癌症、糖尿病、高血压等）、症状描述（如头痛、恶心、呕吐等）、检查项目（如CT、MRI、X光等）、医疗器械（如心电图仪、血糖仪、体温计等）、药品名称（如头孢、阿司匹林、抗生素等）、医学术语（如酸碱平衡、心脏复苏、呼吸衰竭等）。

可选地，使用所提取的若干医疗关键词再次重构数据单元。

如图2所示，基于定义的数据单元，使用提取的医疗关键词重构数据单元，具体包括以下步骤：

步骤S201，根据数据单元，构建数据单元数据库。

具体根据数据单元中医疗数据建立专项数据库（即数据单元数据库，例如专病数据库）。将所提取的医疗关键词填入所述数据单元。

步骤S202，根据所建立的专项数据库，构建规则库。

具体包括设置实体抽取规则，所述规则库包括每一组数据单元及对应的实体抽取规则。

步骤S203，根据所提取医疗关键词，从专项数据库中查找每一医疗关键词的对应医疗实体、对应的知识关系，并从规则库中提取对应的抽取规则。

优选地，对预分类数据进行关键词处理，其中关键词处理至少包括中文分词操作、词性标注，停用词去除操作。

接下来，在步骤S103中，根据训练好的关系抽取模型，对所抽取的医疗关键词进行实体归一化和知识关系提取，得到所述医疗关键词的医疗实体知识和知识关系，形成本体三元组数据以构建医疗知识图谱。其中，利用滑动窗口的移动规则进行事件匹配，以配合训练好的关系抽取模型抽取知识关系。

在一可选实施方式中，在预分类的基础上，对所抽取的医疗关键词进行实体识别，以得到第一抽取结果，即医疗关键词所对应的医疗实体。

具体地，对所抽取的医疗关键词进行实体归一化，通过实体归一的方法将原始术语或原始名称映射到同一标准术语。

需要说明的是，由于在病例或者出入院记录数据中同一实体可能出现不同的描述方式。因此，需要将表示同一实体的不同描述或不同表达统一成相同的实体名称，或者通过使用标准术语进一步创建医疗实体，以使得表示同一实体的不同描述或不用表达调整成为同一实体。

接着，对抽取医疗关键词得到的第一抽取结果进行知识提取，如图3所示，知识提取过程包括以下步骤：

步骤S301，对第一抽取结果进行实体识别。

具体地，基于词典（即医学词典）的逆向最大匹配算法（BMM）构建第一实体识别模型，使用第一匹配模型对数据单元所包含的医疗数据进行实体识别，用于识别词汇表中已预先定义的实体。

此外，利用BiLSTM-CRF模型（即第二实体识别模型），对每一个关键词及数据单元所包含的医疗数据，进行实体识别，以将未在字典（即医学词典）中预定义的实体识别出来。

步骤S302，将所识别的结果发送到正则匹配器，该正则匹配器根据预定义的模式匹配规则生成新的医疗实体。

对于预定义的模式匹配规则，将BMM和BiLSTM-CRF所识别的结果通过正则表达式中预先定义的模式匹配规则来匹配，进一步细化、精准化的实体。例如通过模式匹配规则进一步识别疾病的类型（例如亚型）、分期等信息。

步骤S303，利用双向长短期记忆网络，将所生成的新的医疗实体进行向量转换以得到各医疗实体的特征向量。

通过上述抽取得到以下实体知识：疾病的名称、症状、病因、预防、治疗等方面的信息；症状的名称、描述、疾病可能性、治疗等信息，药品的名称、用途、剂量、禁忌等信息；检查项目的名称、目的、操作方法、结果分析等信息。

例如，医疗文本为"患者因高血压病和糖尿病入院治疗。"。

首先，进行分词处理，得到词语序列：["患者", "因", "高血压", "病","和", "糖尿病", "入院", "治疗", "。"]。

接着，利用双向长短期记忆网络对各词的语序列进行建模，得到每个词的特征向量。

以"高血压"为例，假设其特征向量为 [0.2, 0.4, 0.1, 0.5]，则可将其表示为一个四维向量。这个向量包含了"高血压"这个词的多个方面的信息，例如其上下文信息、词性、语义等等。

S304，将每一个医疗实体及其对应的特征向量输入预先训练好的关系抽取模型进行分类学习，得到医疗知识关系。

例如，从医疗文本 "患者因高血压病和糖尿病入院治疗。" 中提取出 "患者"和 "糖尿病" 这两个医疗实体之间的知识关系，可通过以下步骤：

先使用实体识别模型（如BMM、BiLSTM-CRF等）提取出医疗文本中的医疗实体，得到医疗实体（例如 "患者" 和 "糖尿病"）。接着，利用双向长短期记忆网络（Long Short TermMemory，LSTM）将所识别的各医疗实体转换成各自对应的特征向量。

具体将两个医疗实体的特征向量作为模型输入，通过预先训练好的关系抽取模型进行分类，输出所述两个医疗实体之间的知识关系。例如，因果关系（例如使用"cause"表示）、治疗关系（例如使用"treat"表示）、住院关系等。

通过以下标注有知识关系的数据对预先构建的基础关系抽取模型进行训练，得到训练好的关系抽取模型。

将标注好知识关系的医疗文本输入至预先构建的基础关系抽取模型，根据预设的事件模板对实体字段不断进行事件规则匹配，得到训练好的关系抽取模型。所述标注好知识关系（例如标注为入院关系）的医疗文本例如为："患者因高血压病和糖尿病入院治疗。"。将所述医疗文本输入至训练好的关系抽取模型，则输出入院关系。

需要说明的是，预先构建的基础关系抽取模型，是基于现有的医疗知识图谱建立的，利用现有医疗知识图谱建立事件匹配规则库。

在一优选实施方式中，利用滑动窗口的移动规则进行事件匹配，以配合训练好的关系抽取模型抽取知识关系。

利用滑动窗口的移动规则进行事件匹配。具体通过滑动窗口的移动，将规则模板应用到文本序列中的每一个位置，以寻找匹配的医疗实体，在匹配成功的情况下，提取出相匹配的医疗实体名称以及与医疗实体名称相关的知识关系，以用于辅助判断使用训练好的关系抽取模型所确定的医疗知识关系是否一致。

对于滑动窗口的移动规则的规则模版，例如在医疗文本中，定义一个规则模板来匹配“患者因[疾病名称]入院治疗”的事件。在这个规则模板中，“患者因”是固定文本，而“[疾病名称]”是一个变量，表示任何可能的疾病名称。然后，通过滑动窗口的移动，将规则模板应用到文本序列中的每一个位置，以寻找匹配的医疗实体。在匹配成功的情况下，提取出相匹配的医疗实体名称以及与医疗实体名称相关的知识关系。

将所提取的医疗实体名称以及与医疗实体名称相关的知识关系与使用训练好的关系抽取模型所确定的医疗知识关系进行一致性判断，以进一步确定与医疗文本相对应的医疗实体和医疗知识关系。

通过对抽取医疗关键词得到的第一抽取结果进行知识关系提取，形成本体三元组，所述本体三元组包括医疗实体、医疗实体之间的知识关系和属性值，其中，所述医疗实体包括第一类医疗实体、第二类医疗实体和第三类医疗实体。

例如，第一类医疗实体为表示疾病的实体，第二类医疗实体为表示医疗文本中例如患者或用户等的主语实体，第三类医疗实体为表示医疗文本中例如药品、医学检查、手术、症状等的宾格实体。

需要说明的是，通常，所述本体三元组包括实体（Subject）、知识关系（Predicate）、属性值（Object）。

在本实施方式中，所述本体三元组具体为医疗本体三元组，医疗本体三元组包括医疗实体、知识关系和属性值。具体地，例如定义一个疾病名称为一个医疗实体。疾病名称与症状的知识关系、疾病名称与用药之间的知识关系、患者与疾病名称之间的关系等等，例如“症状”、“治疗方法”等。属性值是指疾病实体的属性值。例如“发热、咳嗽”、“口服药物、手术治疗”等。

在一优选实施方式中，基于实体属性的规则，具体通过医疗实体的属性值来识别医疗关系（例如疾病的类型、症状的严重程度等等）提取包含医疗关系的知识关系。

在一具体实施方式中，基于关键词匹配的规则，具体针对一些特定的医疗实体或医疗关系，可以设置指定关键词的匹配规则模板，例如指定关键词为“治疗”、“确诊”、“患有”等。寻找与指定关键词相匹配的医疗实体名称以及与医疗实体名称相关的知识关系（即医疗知识关系）。

在另一具体实施方式中，基于语法结构的规则，具体基于语法结构的规则通常可以捕捉到一些特定医疗关系，例如“疾病-症状”、“药品-治疗”、“疾病-并发症”等。根据语法结构的规则提取包含特定医疗关系的知识关系。

在又一具体实施方式中，基于上下文的规则，其中上下文信息是指医疗实体或关系周围的其他词语和语境信息。具体基于上下文的规则来捕捉到一些隐含的医疗关系（例如“治疗-治疗方案”、“疾病-就诊医院”等），提取包含医疗关系的知识关系。

通过所提取的医疗实体和医疗知识关系，形成医疗本体三元组数据以构建医疗知识图谱。

需要说明的是，在本发明中，医疗本体三元组的医疗实体还包括通过上述抽取得到的医疗实体知识：疾病的名称、症状、病因、预防、治疗等方面的信息；症状的名称、描述、疾病可能性、治疗等信息，药品的名称、用途、剂量、禁忌等信息；检查项目的名称、目的、操作方法、结果分析等信息。上述仅作为可选示例进行说明，不能理解成对本发明的限制。

接下来，在步骤S104中，确定每个医疗实体的属性参数，并采用设定的清洗规则对所形成的本体三元组数据进行清洗删除。

具体对所得到的本体三元组进行属性计算，具体计算以下属性中的至少两者，以得到属性值：第一类医疗实体的出现次数、在给定前提下第一类医疗实体/>和第二类医疗实体/>共同出现的次数、在给定前提下第二类医疗实体/>与第一类医疗实体/>的共现概率在第二类医疗实体/>与所有第一类医疗实体的共现率中的占比、第一类医疗实体/>和第二类医疗实体/>之间关系的可信程度。

对于每个医疗实体，确定每个医疗实体的属性参数，并计算所确定的属性参数的属性值。例如，确定的属性参数为发生次数和发生概率，其中，所述发生次数表示第一类医疗实体的就诊次数，而所述发生概率定义为以下表达式：

（1）其中，/>表示第一类医疗实体的发生概率，/>表示第一类医疗实体，i=1，i为正整数，i表示第一类医疗实体的第i个医疗实体；/>表示第一类医疗实体的发生次数； S表示疾病实体集，/>是疾病实体的总数；/>表示所有疾病实体的就诊次数总和；

表示第一类医疗实体的第/>个医疗实体，/>，/>为正整数。

需要说明的是，在其他实施方式中，例如，对每个实体的属性进行计算，计算其共现次数，共现概率，特异度，可信度。上述仅作为可选示例进行说明不能理解成对本发明的限制。

对于共现概率，在一实施方式中，共现次数（co-occurrence）代表在给定关系的前提下，主语实体与宾语实体共同出现的就诊的次数。共现概率（probability）是用于衡量给定主语实体的前提下宾语实体发生的概率，公式定义为以下表达式：

（2）

其中，表示给定前提下（例如给定主语实体的前提下）宾语实体发生的概率，即第一类医疗实体与第二类医疗实体的共现概率；/>表示第一类医疗实体的发生概率，/>表示第一类医疗实体，i=1，i为正整数，i表示第一类医疗实体的第i个医疗实体；/>表示第一类医疗实体的发生次数；/>表示在给定关系的前提下，主语实体/>与宾语实体/>共同出现的就诊的次数。

在另一实施方式中，将特异度（specificity）定义为宾语实体与疾病实体的共现概率在第二类医疗实体与所有疾病实体的共现概率中的占比，即：

（3）

且

（4）

其中,表示第一类医疗实体与第二类医疗实体的共现概率在第二类医疗实体/>与所有疾病实体的共现概率中的占比；/>表示在给定关系的前提下，宾语实体（即第二类医疗实体/>）

与所有疾病实体共的共现概率之和，其中，表示第/>个疾病实体（记为/>），/>=1,2, ⋯ ,|S|;j= 1,2, ⋯ ,/>;且/>为给定关系P的前提下与宾格实体的个数。

对于可信度（reliability），用于衡量第一类医疗实体和第二类医疗实体之间关系的可信程度，定义为以下表达式：

（5）

其中，表示第一类医疗实体/>与第二类医疗实体/>之间关系的可信度；/>表示第一类医疗实体/>与第二类医疗实体/>的最小共现次数（即信任值）；/>表示在给定关系的前提下，主语实体（即第一类医疗实体/>）与宾语实体（即第二类医疗实体/>）共同出现的就诊的次数；R表示基础信任值。

接着，根据所计算的各属性值，对所得到的本体三元组进行清洗操作，并删除无效的医疗实体和医疗实体知识关系，以更新所得到的本体三元组来更新所构建的医疗知识图谱，具体参见图4。

具体地，所述清洗规则包括第一类医疗实体的出现次数小于特定值、属性值小于特定值等。

更具体地，如果医疗实体（例如第一类医疗实体、第二类医疗实体、第三类医疗实体等）的发生次数少于特定阈值，即，那么将该医疗实体从所构建的医疗知识图谱中删除。如果一个医疗本体三元组，其属性值中的共现次数少于特定阈值，即，；或者，共现概率小于特定阈值，即，/>，那么将该医疗本体三元组从所构建的医疗知识图谱中删除。

在一实施方式中，在第一类医疗实体的出现次数小于特定值（例如特定阈值y1）时，删除所述第一类医疗实体/>。

在另一实施方式中，在一个本体三元组中医疗实体的属性值小于特定值（例如特定阈值y2）时，删除所述一个本体三元组。例如包含第一类医疗实体的医疗本体三元组中第一类医疗实体/>和第二类医疗实体/>之间关系的可信度小于特定值（例如特定阈值y3）时，删除第一类医疗实体/>的所对应的医疗本体三元组。

通过确定每个医疗实体的属性参数，并采用设定的清洗规则对所形成的本体三元组数据进行清洗删除，能够优化医疗实体和医疗本体三元组。

接下来，在步骤S105中，基于所确定的每一医疗实体关系的权重值进行知识合并，以更新所构建的医疗知识图谱。

具体使用所计算的各类医疗实体的属性值，构建权重矩阵以确定各类医疗实体的权重值。

接着，根据所确定的各类医疗实体的权重值对各类医疗实体进行排序，并根据排序结果进行知识合并，以更新所构建的医疗知识图谱。

如图5所示，具体执行以下步骤，以更新所构建的医疗知识图谱。

步骤S501，根据所述医疗实体之间的关系，对每一医疗实体关系进行权重值的标注。

具体根据每一医疗实体关系，每一医疗实体的属性值（例如共现次数、共现概率、特异度、可信度等）构建权重矩阵。然后，用一个权重向量对所构建的权重矩阵进行加权求和，即。其中，W为指定权重向量，M为所构成的权重矩阵。

例如，评估高血压与头疼、脑梗、心肌梗塞等症状之间的关联程度。

具体给共现次数、共现概率、特异度、可信度分别赋予0.3、0.2、0.3、0.2的权重系数。

(头疼)=/>；

(脑梗)=/>；

(心肌梗塞)=/>。

步骤S502，根据所确定的权重值，对医疗实体进行排序。

具体地，在步骤S501所述的示例中，医疗实体的排序为v₁>v₂>v₃。

步骤S503，根据排序结果对医疗实体和知识关系知识进行知识合并，以更新所构建的医疗知识图谱。

在一具体实施方式中，将所述医疗实体和所述医疗实体知识关系转换为图形表示，以将相似的所述医疗实体和所述医疗实体知识关系进行知识合并。

具体将医疗实体和知识关系转换为图形表示。使用医疗三元组（subject-predicate-object）来表示医疗实体和知识关系，并构建为有向图或无向图，使用医疗实体作为节点，使用知识关系作为关系边。

接着，定义节点匹配和边匹配的相似度度量方法。例如使用子图同构算法、最大流算法、网络流算法等，计算节点和边之间的相似度。

需要说明的是，上述这些算法通常都是计算两个图的匹配程度，并输出一个匹配程度的分数。匹配分数越高，则说明两个图之间的匹配程度越高。

具体根据相似度的阈值将医疗实体和知识关系进行匹配和合并。其中，阈值的选择需要根据具体的应用场景和数据特征来实时确定。例如，在具有精度要求的场景下，可选择相似度较高（例如相似度高于90%以上）的医疗实体和知识关系进行匹配和合并。在具有召回要求的场景下，则选择相似度较低（例如相似度低于80%）的医疗实体和知识关系进行匹配和合并。

通过匹配和合并处理后，生成一个新的医疗知识图谱，即更新后的医疗知识图谱。

将生成的医疗知识图谱存入例如neo4j图数据库，以进行知识图谱的展示进而实现医疗知识图谱的可视化。通过图谱融合，不断修正和更新医疗知识图谱，使医疗知识图谱更适用于指导系统的规范化建设，最终实现了对医疗数据的结构化关联和可视化描述。

在一可选实施方式中，通过预先设定好的结构化文书形成第二抽取规则，对所生成的医疗知识图谱进行第二次抽取，存入结构化数据库，作为第二抽取结果，以形成结构化文书。

通过将所需要提取的结构化文书、患者电子病例信息输入，系统将患者电子病例信息自动生成医疗知识图谱，按照所需提取的数据文档的内容进行知识推理，得到内容同时填写结构化文书，然后输出结构化文书，换言之，所述系统是基于上面建立的知识图谱构建方法建立的，属于知识图谱构建模块。

具体地，当将患者的电子病例信息输入时，所述系统开始对输入电子病例文本信息进行分类提取，将提取出的结果进行关键词提取、实体识别、关系抽取等步骤，以建立医疗知识图谱。

此外，本发明可通过对医疗知识图谱进行知识推理提取非结构数据，利用知识推理结果，并能够实现对非结构数据进行识别，同时还能对所构建的医疗识图谱进行补充修正、实时更新。

此外，附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以例如在多个模块中同步或异步执行的。

下述为本发明系统实施例，可以用于执行本发明方法实施例。对于本发明系统实施例中未披露的细节，请参照本发明方法实施例。

图6是根据本发明的知识图谱更新系统的一示例的结构示意图。

参照图6，本公开第二方面提供一种知识图谱更新系统600，采用本发明第一方面所述的知识图谱更新方法.所述知识图谱更新系统600包括数据获取模块610、分类提取模块620、构建模块630、清洗删除模块640和更新模块650。

具体地，数据获取模块610用于获取电子病例系统的出入院记录数据。分类提取模块620对所述出入院记录数据进行预分类，并根据预定抽取规则对预分类后的出入院记录数据进行关键词识别和提取，以得到医疗关键词。

构建模块630根据训练好的关系抽取模型，对所抽取的医疗关键词进行实体归一化和知识关系提取，得到所述医疗关键词的医疗实体和知识关系，形成本体三元组数据以构建医疗知识图谱。其中，利用滑动窗口的移动规则进行事件匹配，以配合训练好的关系抽取模型抽取知识关系。

清洗删除模块640确定每个医疗实体的属性参数，并采用设定的清洗规则对所形成的本体三元组数据进行清洗删除。更新模块650基于所确定的每一医疗实体关系的权重值进行知识合并，以更新所构建的医疗知识图谱。

需要说明的是，在本发明的系统实施例中的知识图谱更新方法与本发明第一方面的知识图谱更新方法大致相同，因此，省略了相同部分的说明。

在一具体实施方式中，从所述出入院记录数据中抽取人口统计学特征、病史记录、检查结果、用药记录、医疗费用，以进行预分类。

在预分类的基础上，抽取医疗关键词，并进行实体识别，得到第一抽取结果。

具体地，所述预定抽取规则包括用字典匹配、正则表达式匹配以及利用滑动窗口的移动规则进行事件匹配，预先构建医学词典，根据字典中的关键词对预分类的文本数据进行匹配；所述正则表达式匹配是采用以一个或多个指定字符进行匹配。

基于数据单元，根据字典匹配、正则表达式匹配，对预分类的文本数据进行关键词识别，以抽取医疗关键词。

具体通过滑动窗口的移动，将规则模板应用到文本序列中的每一个位置，以寻找匹配的医疗实体，在匹配成功的情况下，提取出相匹配的医疗实体名称以及与医疗实体名称相关的知识关系。

在一可选实施方式中，对抽取医疗关键词得到的第一抽取结果进行知识关系提取，形成本体三元组，所述本体三元组包括医疗实体、医疗实体之间的知识关系和属性值，其中，所述医疗实体包括第一类医疗实体、第二类医疗实体和第三类医疗实体。

对所得到的本体三元组进行属性计算，具体计算以下属性中的至少两者，以得到属性值：第一类医疗实体的出现次数、在给定前提下第一类医疗实体/>和第二类医疗实体/>共同出现的次数、在给定前提下第二类医疗实体/>与第一类医疗实体/>的共现概率在第二类医疗实体/>与所有第一类医疗实体的共现率中的占比、第一类医疗实体/>和第二类医疗实体/>之间关系的可信程度。

根据所计算的各属性值，对所得到的本体三元组进行清洗操作，并删除无效的医疗实体和医疗实体知识关系，以更新所得到的本体三元组来更新所构建的医疗知识图谱。

具体地，在第一类医疗实体的出现次数小于特定值时，删除所述第一类医疗实体/>；在一个本体三元组中医疗实体的属性值小于特定值时，删除所述一个本体三元组。

接着，使用所计算的各类医疗实体的属性值，构建权重矩阵以确定各类医疗实体的权重值。

根据所确定的各类医疗实体的权重值对各类医疗实体进行排序，并根据排序结果进行知识合并，以更新所构建的医疗知识图谱。

在另一可选实施方式中，将医疗实体和知识关系转换为图形表示，以将相似的所述医疗实体和所述医疗实体知识关系进行知识合并。

在又一可选实施方式中，定义数据单元，对所述出入院记录数据进行预分类，并填入所述数据单元；将所提取的医疗关键词填入所述数据单元；根据所提取的医疗关键词和所述数据单元，进行医疗实体提取和知识关系抽取。

图7是根据本发明的电子设备实施例的结构示意图。

如图7所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元（RAM）和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元（ROM）。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图7显示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按钮、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图8所示，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干命令以使得一台计算设备（可以是个人计算机、服务器、或者网络设备等）执行根据本发明实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

上述计算机可读介质承载有一个或者多个程序（例如计算机可执行程序），当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现本公开的数据交互方法。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干命令以使得一台计算设备（可以是个人计算机、服务器、移动终端、或者网络设备等）执行根据本发明实施例的方法。

以上具体地示出和描述了本发明的示例性实施例。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种基于医疗数据提取的知识图谱更新方法，其特征在于，包括：

获取电子病例系统的出入院记录数据；

对所述出入院记录数据进行预分类，分为患者信息、病史记录、检查结果、用药记录、医疗费用，并根据字典匹配、正则表达式匹配对预分类后的出入院记录数据进行关键词识别和提取，以得到医疗关键词；

根据训练好的关系抽取模型，对所抽取的医疗关键词进行实体归一化和知识关系提取，得到医疗关键词的医疗实体和知识关系，形成本体三元组数据以构建医疗知识图谱；其中，利用滑动窗口的移动规则进行事件匹配，以配合训练好的关系抽取模型抽取知识关系；

确定每个医疗实体的属性参数，并采用设定的清洗规则对所形成的本体三元组数据进行清洗删除；对所得到的本体三元组进行属性计算，具体计算以下属性中的至少两者，以得到属性值：第一类医疗实体 S_i的出现次数、在给定前提下第一类医疗实体S_i和第二类医疗实体O_ij共同出现的次数、在给定前提下第二类医疗实体O_ij与第一类医疗实体S_i的共现概率在第二类医疗实体O_ij与所有第一类医疗实体的共现率中的占比、第一类医疗实体S_i和第二类医疗实体O_ij之间关系的可信程度；

基于所确定的每一医疗实体关系的权重值进行知识合并，根据所计算的各属性值，根据每一医疗实体关系，每一医疗实体的属性值构建权重矩阵，对所得到的本体三元组进行清洗操作，并删除无效的医疗实体和医疗实体知识关系，在一个本体三元组中医疗实体的属性值小于特定值时，删除所述一个本体三元组以更新所得到的本体三元组，以更新所构建的医疗知识图谱。

2.根据权利要求1所述的知识图谱更新方法，其特征在于，所述对所述出入院记录数据进行预分类，并根据预定抽取规则对预分类后的出入院记录数据进行关键词识别和提取，以得到医疗关键词，包括：

从所述出入院记录数据中抽取人口统计学特征、病史记录、检查结果、用药记录、医疗费用，以进行预分类；

3.根据权利要求2所述的知识图谱更新方法，其特征在于，

所述预定抽取规则包括用字典匹配、正则表达式匹配以及利用滑动窗口的移动规则进行事件匹配，预先构建医学词典，根据字典中的关键词对预分类的文本数据进行匹配；所述正则表达式匹配是采用以一个或多个指定字符进行匹配；

基于数据单元，根据字典匹配、正则表达式匹配，对预分类的文本数据进行关键词识别，以抽取医疗关键词；

通过滑动窗口的移动，将规则模板应用到文本序列中的每一个位置，以寻找匹配的医疗实体，在匹配成功的情况下，提取出相匹配的医疗实体名称以及与医疗实体名称相关的知识关系。

4.根据权利要求1或2所述的知识图谱更新方法，其特征在于，所述根据训练好的关系抽取模型，对所抽取的医疗关键词进行实体归一化和知识关系提取，得到所述医疗关键词的医疗实体知识和知识关系，形成本体三元组数据以构建医疗知识图谱，包括：

对抽取医疗关键词得到的第一抽取结果进行知识关系提取，形成本体三元组，所述本体三元组包括医疗实体、医疗实体之间的知识关系和属性值，其中，所述医疗实体包括第一类医疗实体、第二类医疗实体和第三类医疗实体。

5.根据权利要求4所述的知识图谱更新方法，其特征在于，

在第一类医疗实体S_i的出现次数小于特定值时，删除所述第一类医疗实体S_i。

6.根据权利要求4所述的知识图谱更新方法，其特征在于，

使用所计算的各类医疗实体的属性值，构建权重矩阵以确定各类医疗实体的权重值；

7.根据权利要求1所述的知识图谱更新方法，其特征在于，

将医疗实体和知识关系转换为图形表示，以将相似的所述医疗实体和所述医疗实体知识关系进行知识合并。

8.根据权利要求1或3所述的知识图谱更新方法，其特征在于，

定义数据单元，对所述出入院记录数据进行预分类，并填入所述数据单元；

将所提取的医疗关键词填入所述数据单元；

9.一种知识图谱更新系统，采用权利要求1至3、5至7中任一项所述的知识图谱更新方法，其特征在于，包括：

数据获取模块，用于获取电子病例系统的出入院记录数据；

分类提取模块，对所述出入院记录数据进行预分类，分为患者信息、病史记录、检查结果、用药记录、医疗费用，并根据字典匹配、正则表达式匹配对预分类后的出入院记录数据进行关键词识别和提取，以得到医疗关键词；

构建模块，根据训练好的关系抽取模型，对所抽取的医疗关键词进行实体归一化和知识关系提取，得到所述医疗关键词的医疗实体和知识关系，形成本体三元组数据以构建医疗知识图谱；其中，利用滑动窗口的移动规则进行事件匹配，以配合训练好的关系抽取模型抽取知识关系；

清洗删除模块，确定每个医疗实体的属性参数，并采用设定的清洗规则对所形成的本体三元组数据进行清洗删除，对所得到的本体三元组进行属性计算，具体计算以下属性中的至少两者，以得到属性值：第一类医疗实体S_i的出现次数、在给定前提下第一类医疗实体S_i和第二类医疗实体O_ij共同出现的次数、在给定前提下第二类医疗实体O_ij与第一类医疗实体S_i的共现概率在第二类医疗实体O_ij与所有第一类医疗实体的共现率中的占比、第一类医疗实体S_i和第二类医疗实体O_ij之间关系的可信程度；

更新模块，基于所确定的每一医疗实体关系的权重值进行知识合并，根据所计算的各属性值，根据每一医疗实体关系，每一医疗实体的属性值构建权重矩阵，对所得到的本体三元组进行清洗操作，并删除无效的医疗实体和医疗实体知识关系，在一个本体三元组中医疗实体的属性值小于特定值时，删除所述一个本体三元组以更新所得到的本体三元组，以更新所构建的医疗知识图谱。