CN114255884A

CN114255884A - 一种高血压药物治疗知识图谱构建方法以及装置

Info

Publication number: CN114255884A
Application number: CN202111517662.2A
Authority: CN
Inventors: 匡泽民; 鄂海红; 宋美娜; 谢晓璇; 王晴川; 谭玲
Original assignee: Beijing University of Posts and Telecommunications; Beijing Anzhen Hospital
Current assignee: Beijing University of Posts and Telecommunications; Beijing Anzhen Hospital
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-29

Abstract

一种高血压药物治疗知识图谱构建方法，包括：高血压药物治疗知识图谱采用自上而下的方式，先构建Schema，再抽取知识；构建过程根据抽取和应用实际情况，不断完善和优化Schema；构建属性图模型；对属性图模型采用HugeGraph和MongoDB混合数据存储模式；数据加工和专家审核相结合增加知识准确度。本发明的有益效果是：通过属性图模型，解决了多元关系在临床医学知识表示中建模的问题。

Description

一种高血压药物治疗知识图谱构建方法以及装置

技术领域

本发明涉及医学知识图谱技术领域，尤其涉及一种高血压药物治疗知识图谱构建方法以及装置。

背景技术

知识图谱是一种基于图的数据结构，由实体(节点)和实体间的关系(边)组成。知识图谱广义概念是作为一种技术体系，是指大数据知识工程中一系列代表性技术的总称；知识图谱狭义概念是作为一种知识表示形式，是大规模语义网络，包含实体、概念及其之间的各种语义关系。

目前大多通用知识图谱都采用自底向上构建方法，从开放链接数据源中提取实体、属性和关系，再加入到知识图谱的数据层，然后将这些知识要素进行归纳组织，逐步往上抽象为概念，最后形成模式层。具体流程如图1所示，为一种自底向上知识图谱的构建流程，现有技术的知识图谱由数据层(data layer)和模式层(schema layer) 构成。模式层是知识图谱的概念模型和逻辑基础，对数据层进行规范约束。多采用本体作为知识图谱的模式层，借助本体定义的规则和公理约束知识图谱的数据层。在数据层，事实以“实体-关系-实体”或“实体-属性-属性值”的三元组存储，形成一个图状知识库，可以将知识图谱的数据层视为本体的实例。

自底向上的构建方法流程如图所示，构建步骤主要可分为4部分，分别为：知识获取、信息抽取、知识融合、知识加工。首先，从开放链接的多个数据源获取结构化、半结构化或非结构化数据，对于半结构化数据、非结构化数据，需要通过信息抽取方法提取实体、属性和关系，不同来源的结构化数据需先进行知识融合，后与半结构化、非结构化数据中抽取的知识一同进行指代消解、实体消岐，经过以上处理后加入到知识图谱的数据层；然后将这些知识要素进行归纳组织，逐步往上抽象为概念，该过程即为本体抽取，最后形成知识图谱模式层。初步构建完成后的知识图谱可在已有知识的基础之上，推断出未知的知识，进一步拓展、更新知识图谱，该过程即为知识推理。

知识图谱构建包括数据获取、信息抽取、知识融合、知识加工四个步骤。首先是原始数据处理，数据源可能是结构化的、非结构化的以及半结构化的；然后通过一系列自动化或半自动化的技术手段，从原始数据中抽取实体、关系以及实体属性等信息，并将其存入知识库；接着通过知识融合对数据进行逻辑归属和冗杂/错误过滤；最后通过本体抽取、质量评估对知识进行加工获得结构化，网络化的知识体系——知识图谱。

但由于医学知识的专业性强，精确度要求极高，如果使用自底向上方法构建出来的邻域知识图谱，本体受数据源的影响较大，缺乏对高血压药物治疗决策的针对性，而且准确性差。如何构建直接用于临床决策支持的高血压药物治疗知识图谱及其系统，如何表示具有多元关系的医学知识，如何存储不同来源的多模态数据，如何精准加工和审核医学知识数据，是本发明要解决的重要问题。其原因如下：

一、由于医学概念具备精确性、医学知识具有逻辑性，通过自底向上构建医学知识图谱的准确率，尚不能达到应用于高血压临床药物治疗决策支持的要求。

二、目前知识图谱多采用RDF(Resource Description Framework)模型，形式上表示为SPO三元组，即“subject-predicate->object”，尽管能表示目前大部分的简单事件或实体属性，对于复杂的医学知识表示却束手无策。

三、高血压是最常见慢性病，以经验为主的降压治疗模式，少重视“临床研究证据”作用。而在循证医学时代，传统经验用药的科学性、正确性和合理性受到了挑战，同时也阻碍了降压疗效的提高，以及高血压患者预后的改善。引入循证医学方法和理念，实现最佳研究证据与医师经验、患者需求三者匹配的循证决策，是目前临床实践的最佳模式。但目前自动构建知识图谱的方法，难以将临床循证医学证据嵌入三元组，并作为高血压药物治疗决策支持的数据支撑。

四、现有公开的医学知识数据源，缺乏能够详细描述疾病与药品之间的适用症和/或禁忌关系的数据。而高血压药物治疗决策支持，需结合患者的自身状况、各类检验检查的指标、合并的相关疾病以及药品相关信息等进行综合判断。仅仅依靠已公开的数据源自动构建，是无法抽取到高血压药物治疗决策推理所需要的关键信息。

发明内容

本发明的目的在于提供一种高血压药物治疗知识图谱构建方法以及装置，用以解决现有技术中的一个或多个技术问题。具体如下：

一、通过属性图模型表示高血压药物治疗相关知识。属性图模型的优点在于，一条知识不仅由实体、关系构成，且实体、关系皆能添加若干条的属性加以修饰，从而使知识表示有更丰富的语义。

二、通过最新临床研究论文或医学指南作为主要数据来源，从非结构化文本中抽取信息作为若干条新知识加入到知识图谱，并在每条知识中以属性(键值对)的形式保存数据来源作为临床证据，同时能够提升高血压药物治疗知识图谱更新的时效性。

三、通过手动标注方法及审核机制解决准确性问题。在现有获取知识基础上，专家审核高准确度数据构建基础知识图谱，进一步通过手动标注方法补充高血压药物治疗相关知识，且新加入知识须通过专家医生审核以确保准确性；同时通过搭建的知识图谱服务平台，为专家医生提供便利标注、审核服务模块，提高工作效率。

第一方面，本发明提供了高血压药物治疗知识图谱构建方法，包括：

不同于通用知识图谱的是，高血压药物治疗知识图谱采用自上而下的方式，先构建Schema，再抽取知识；构建过程根据抽取和应用实际情况，不断完善和优化Schema；

构建属性图模型；

对属性图模型采用HugeGraph和MongoDB混合数据存储模式；

采用半自动数据加工和专家审核相结合方式增加知识准确度。

进一步，所述的构建Schema的步骤为：

a确定领域范畴(高血压药物治疗)；

b选取合适的知识源(临床指南、教科书、临床研究论文)；

c梳理重要的医学术语(药品适应症、禁忌症、相互作用)；

d建立属性关系；

e存储及可视化。

进一步，所述构建属性图模型中，采用顶点表示现实世界中的实体，有向的边表示实体与实体之间的关系；顶点和边都可通过键值对形式被关联上任意数量的属性，所述高血压药物治疗知识图谱以六元组形式，分别采用Subject,Subject_Property, Edge,Edge_Property,Object,Object_Property来表示复杂的医学知识，其中 Subject表示起始顶点，Subject_Property表示起始顶点的属性，Edge表示有向边， Edge_Property表示有向边的属性，Object表示目标顶点，Object_Property表示目标顶点的属性；针对高血压药物治疗决策支持这一使用临床需求，从而构建以属性图为数据模型的高血压药物治疗知识图谱本体。

进一步，所述Hugegraph负责存储高血压药物治疗相关基础医学知识，所述MongoDB 负责存储临床证据的知识，主要包括高血压药物治疗相关RCT研究文章、最新高血压诊疗临床指南。

进一步，所述数据加工通过文本信息自动抽取和医师人工录入，运用机器学习算法模型对文本实体标注，文本关系标注；为确保标注数据的正确性，在数据加工和更新至知识图谱之间，还设有专家人工审核数据审核的步骤。

进一步，所述数据加工步骤中的机器学习算法采用CART分类回归树，对文本数据进行预标注，降低用户标注的工作量；对每一个用户新建的标注都应添加该类实体或该类关系标注所需要拥有的全部性质，界面的选项确保这一点，从而保证了知识图谱数据库新增内容的完整性；

另一方面本发明还提供了一种高血压药物治疗知识图谱构建装置，包括：

高血压药物治疗知识图谱数据获取模块10，用于从多个数据源获取相应的高血压药物治疗数据；

数据加工模块20，用于对高血压药物治疗知识图谱数据获取模块10中的数据进行加工，并对数据进行标注；数据加工模块分为文本自动信息抽取和专家人工录入两块；文本信息抽取能够选择不同类型的文本例如医学文献、临床指南、药品说明书等进行标注；

标注页面中，若文本数据源为PDF文件，则系统自动将PDF转为富文本，在富文本框中通过划词方式进行标注；

专家审核模块30，在审核模块中提供搜索实体、关系类型的搜索框，并设置两个树形结构分别能够选择审核标注某一实体或关系类型的内容；

右侧是审核内容列表，上方能够通过筛选框选择想要查看内容和隐藏列，点击详情列的查看详情按钮可以查看标注的原文本及标注的具体内容；若用户标注的结果有误，可直接点击不通过按钮或校正标注结果后通过审核，通过审核的标注内容，将由系统后台添加至高血压药物治疗知识图谱中；

图谱数据展示模块40，可以对数据以表格的方式将分为实体和关系两部分展示；也可对关系类型的展示与实体类型展示类似，在树形结构中选择关系类型，右边相应的显示出关系实例数据，包括起始实体、目标实体、关系及其属性等；

临床指南模块50，可以查看高血压病治疗过程中的临床指南。

进一步，提供力导图、三维图、雷达图、点图、les-miserablesl图、树状图中的任一种图形展示方案，以便对高血压药物治疗知识图谱进行个角度全方位的展示。

进一步，所述图形展示模块中，可以选择多种图形组件进行个性化展示，每个图形组件中都提供相应的功能查询，包括基础的实体/关系查询和高级的图遍历搜索算法。

进一步，所述力导图中，提供两点最短路径，两点所有路径，K层深度遍历，节点类型选择，关系类型选择等功能让用户进行信息查询。

本发明的有益效果是：通过属性图模型，解决了多元关系在复杂临床医学知识表示中建模的问题；通过混合数据存储，克服一般知识图谱无法同时将药物适应证与临床管理相结合的缺点；通过数据加工人工审核系统，提升了临床医学知识表示的准确性。本系统可有效提供临床研究循证医学证据，为辅助医师制定正确制定高血压用药方案提供建议。

附图说明

图1自底向上知识图谱构建流程

图2本发明总体架构设计图

图3高血压药物治疗知识图谱系统的可视化

图4系统功能模块图

图5图形展现类型

图6专家审核模块结构

图7校正标注模块结构

图8高血压药物治疗知识图谱构建装置结构图

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性而非限制性的。

实施例一

在一种具体实施方式中，提供了一种高血压药物治疗知识图谱构建方法，包括：

步骤S10：高血压药物治疗知识图谱采用自上而下的方式，先构建Schema，再抽取知识。构建过程根据抽取和应用实际情况，不断完善和优化Schema。

具体步骤：

a确定领域范畴(高血压药物治疗)；

b选取合适的知识源(临床指南、教科书、临床研究论文)；

c梳理重要的医学术语(药品适应症、禁忌症、相互作用)；

d建立属性关系；

e存储及可视化。

上述梳理重要的医学术语c步骤，在实现时建立高血压领域的标准术语词库，其包含中英文一一对应术语映射表，每一个词条还设有详细的中英文解释，以实现在高血压领域内部使用规范术语，从而对帮助知识图谱构建过程中术语使用准确。该术语映射表是本发明的重要创新点之一，其意义影响深远，不但能帮助本发明快速构建知识图谱，还为以后实现强人工智能奠定基础。

步骤S20：根据构建的Schema进行属性图模型准确地表示复杂医学知识。

构建属性图模型中，采用顶点(Vertex)表示现实世界中的实体，有向的边(Edge)来表示实体与实体之间的关系。顶点和边都可通过键值对(Key-Value)形式被关联上任意数量的属性(Property)。

高血压药物治疗知识图谱以六元组形式(Subject,Subject_Property,Edge,Edge_Property,Object,Object_Property)来表示复杂的医学知识，其中Subject 表示起始顶点，Subject_Property表示起始顶点的属性，Edge表示有向边， Edge_Property表示有向边的属性，Object表示目标顶点，Object_Property表示目标顶点的属性。针对高血压药物治疗决策支持这一使用临床需求，从而构建了以属性图为数据模型的高血压药物治疗知识图谱本体。

步骤S30：对属性图模型采用HugeGraph和MongoDB混合数据存储模式。

Hugegraph负责存储高血压药物治疗相关基础医学知识，MongoDB负责存储临床证据的知识，即高血压药物治疗相关RCT研究文章、最新的高血压诊疗临床指南等。

步骤S40：数据加工和专家审核相结合增加知识准确度。

数据加工通过文本信息自动抽取和医师人工录入，运用高精度的算法模型对文本实体标注，文本关系标注。本系统为确保标注数据的正确性，在数据加工和更新至知识图谱之间，还有专家审核数据审核的步骤。

通过上述步骤，本发明的构建总体架构图，如图2所示，根据功能模块划分，本系统分为四个核心子系统，即图谱可视化子系统，外采数据管理子系统，数据加工子系统和专家审核子系统。

结合上述步骤，以《中国高血压防治指南2018年修订版》为主体，高血压相关医学指南、以及各大医学网站的公开数据，并依据专家知识构建高血压药物治疗知识图谱本体。基于循证医学的思想理念，针对高血压用药决策支持的应用场景，获取多个医疗信息数据源并对多知识库进行融合，构建了一套以“疾病-患者-药物-治疗”为主要概念分类的实体、关系及其属性的高血压药物治疗知识图谱(anti-Hyp KG)，为临床医师治疗高血压患者提供用药决策支持的依据。

高血压药物治疗知识图谱系统总共建立了高血压临床领域相关54种实体类型、86种关系类型，向知识图谱种添加35851条实体实例数据，16047条实例关系数据，基于现有的高血压药物治疗知识图谱资源，提供基于实体/关系的可视化搜索引擎，让高血压用药相关知识得以更加直观地展示，如图3所示。并如图4所示实现了高血压药物治疗知识图谱构建系统的功能模块图。

通过上述构建方法为了给用户提供一个直观的数据新视角，让用户可以更加快速摄取医学知识图谱的内容，搭建图谱可视化子系统对医学数据进行展示。

本发明提供多种展示手段，不但有传统的表格展示，还提供了丰富的图形展示。如图5所示，在图形展示中，除了可以选择多种图形组件进行个性化展示，每个图形组件中都提供了相应的功能查询，包括基础的实体/关系查询和高级的图遍历搜索算法。例如力导图中，提供了两点最短路径，两点所有路径，K层深度遍历，节点类型选择，关系类型选择等功能让用户进行信息查询。

在数据加工方面是采用CART分类回归树对文本数据进行预标注，降低用户标注的工作量。对每一个用户新建的标注都应添加该类实体或该类关系标注所需要拥有的全部性质，界面的选项确保这一点，从而保证知识图谱数据库新增内容的完整性。

数据加工的标注渠道分成文本信息抽取和专家录入两个模块，其中文本信息抽取采用的是用鼠标点选各个页面上的关键词来抽取实体或关系的内容，并含有该类标注的全部性质的选择或录入过程，而专家录入是由专家进行手动录入实体或关系的标注，同样注重内容的完整性，该录入渠道具有权威性。半自动化进行数据加工减少了在爬虫采集数据阶段出现的提取文字即预标注产生的失误率，并且标注采取的用户等级限制规则，可以最大限度的保证数据加工过程的正确性和权威性，在有相关权限专家迭代加工中获得精确标注的数据库，从而不断更新和完善高血压药物治疗知识图谱。

上述爬虫在采集数据时，可对网页进行三级链接数据爬取，所述的三级链接数据爬取指的是，对页面A中的数据爬取完成后，还会打开页面A中存在的链接B所指向的页面，对链接B页面爬取完成后，会进一步对链接B页面中存在的链接C页面进行数据爬取，通过上述方式，就可以获得相比现有技术更准确更全面的数据集，可以更方便的帮助本发明实现高血压知识图谱的构建。

实例例二

在另一种具体实施方式中，如图8所示，提供了一种高血压药物治疗知识图谱构建装置，包括：

数据加工模块20，用于对高血压药物治疗知识图谱数据获取模块10中数据进行加工，并对数据进行标注；数据加工模块分为文本信息抽取和专家录入。文本信息抽取能够选择不同类型的文本例如医学文献、临床指南、药品说明书等进行标注。

标注页面中，若文本数据源为PDF文件，则系统自动将PDF转为富文本，在富文本框中通过划词方式进行标注。

专家审核模块30，在审核模块中提供搜索实体、关系类型的搜索框，并设置两个树形结构分别能够选择审核标注某一实体或关系类型的内容，如图6所示。

右侧是审核内容列表，上方能够通过筛选框选择想要查看内容和隐藏列，点击详情列的查看详情按钮可以查看标注的原文本及标注的具体内容。若用户标注的结果有误，可直接点击不通过按钮或校正标注结果后通过审核，如图7所示。通过审核的标注内容将由系统后台添加至高血压药物治疗知识图谱中。

图谱数据展示模块40，可以对数据以表格的方式将分为实体和关系两部分展示。也可以对关系类型的展示与实体类型展示类似，在树形结构中选择关系类型，右边相应的显示出关系实例数据，包括起始实体、目标实体、关系及其属性等。提供多种图形展示方案，以便对高血压药物治疗知识图谱进行个角度全方位的展示。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种高血压药物治疗知识图谱构建方法，其特征在于：

高血压药物治疗知识图谱采用自上而下的方式，先构建Schema，再抽取知识；构建过程根据抽取和应用实际情况，不断完善和优化Schema；

构建属性图模型；

对属性图模型采用HugeGraph和MongoDB混合数据存储模式；

采用数据加工和专家审核相结合增加知识准确度。

2.根据权利要求1所述的一种高血压药物治疗知识图谱构建方法，其特征在于，所述的构建Schema的步骤为：

a确定领域范畴；

b选取合适的知识源；

c梳理重要的医学术语；

d建立关系；

e存储及可视化。

3.根据权利要求2所述的一种高血压药物治疗知识图谱构建方法，其特征在于，所述的梳理重要的医学术语，包含建立高血压领域的标准术语词库，所述标准术语词库内设有中英文一一对应术语映射表，每一个词条还设有详细的中英文解释，以实现在高血压领域内部使用规范术语，从而对帮助知识图谱构建过程中术语使用准确。

4.根据权利要求1所述的一种高血压药物治疗知识图谱构建方法，其特征在于，所述构建属性图模型中，采用顶点表示现实世界中的实体，有向的边来表示实体与实体之间的关系；顶点和边都可通过键值对形式被关联上任意数量的属性，所述高血压药物治疗知识图谱以六元组形式，分别采用Subject,Subject_Property,Edge,Edge_Property,Object,Object_Property来表示复杂的医学知识，其中Subject表示起始顶点，Subject_Property表示起始顶点的属性，Edge表示有向边，Edge_Property表示有向边的属性，Object表示目标顶点，Object_Property表示目标顶点的属性；针对高血压药物治疗决策支持这一使用临床需求，从而构建了以属性图为数据模型的高血压药物治疗知识图谱本体。

5.根据权利要求1所述的一种高血压药物治疗知识图谱构建方法，其特征在于，所述Hugegraph负责存储高血压药物治疗相关基础医学知识，所述MongoDB负责存储临床证据的知识，主要包括高血压药物治疗相关RCT研究文章、最新的高血压诊疗临床指南，所述数据加工通过文本信息自动抽取和医师人工录入，所述文本信息自动抽取的部分数据来源于爬虫，为确保获取数据的准确性和完整性，所述爬虫在采集数据时，采用三级链接数据爬取的方式，运用机器学习算法模型对文本实体标注，文本关系标注；为确保标注数据的正确性，在数据加工和更新至知识图谱之间，还设有专家审核数据审核的步骤。

6.根据权利要求5所述的一种高血压药物治疗知识图谱构建方法，其特征在于，所述数据加工步骤中的机器学习算法采用CART分类回归树对文本数据进行预标注，降低用户标注的工作量；对每一个用户新建的标注都应添加该类实体或该类关系标注所需要拥有的全部性质，从而保证知识图谱数据库新增内容的完整性。

7.根据权利要求1-6任一所述的一种高血压药物治疗知识图谱构建方法的高血压药物治疗知识图谱构建装置，包括：

高血压药物治疗知识图谱数据获取模块(10)，用于从多个数据源获取相应的高血压药物治疗数据；

数据加工模块(20)，用于对高血压药物治疗知识图谱数据获取模块(10)中数据进行加工，并对数据进行标注；数据加工模块分为文本信息抽取和专家录入；文本信息抽取能够选择不同类型的文本例如医学文献、临床指南、药品说明书等进行标注；

专家审核模块(30)，在审核模块中提供搜索实体、关系类型的搜索框，并设置两个树形结构分别能够选择审核标注某一实体或关系类型的内容；

右侧是审核内容列表，上方能够通过筛选框选择想要查看内容和隐藏列，点击详情列的查看详情按钮可以查看标注的原文本及标注的具体内容；若用户标注的结果有误，可直接点击不通过按钮或校正标注结果后通过审核，通过审核的标注内容将由系统后台添加至高血压药物治疗知识图谱中；

图谱数据展示模块(40)，可以对数据以表格的方式将分为实体和关系两部分展示；也可以对关系类型的展示与实体类型展示类似，在树形结构中选择关系类型，右边相应的显示出关系实例数据，包括起始实体、目标实体、关系及其属性等；

临床指南模块(50)，可以查看高血压病治疗过程中的临床指南。

8.根据权利要求7所述的一种高血压药物治疗知识图谱构建装置，其特征在于，提供力导图、三维图、雷达图、点图、les-miserablesl图、树状图中的任一种图形展示方案，以便对高血压药物治疗知识图谱进行个角度全方位的展示。

9.根据权利要求7所述的一种高血压药物治疗知识图谱构建装置，其特征在于，所述图形展示模块中，可以选择多种图形组件进行个性化展示，每个图形组件中都提供了相应的功能查询，包括基础的实体/关系查询和高级的图遍历搜索算法。

10.根据权利要求8所述的一种高血压药物治疗知识图谱构建装置，其特征在于，所述力导图中，提供了两点最短路径，两点所有路径，K层深度遍历，节点类型选择，关系类型选择功能让用户进行信息查询。