CN114255884A - 一种高血压药物治疗知识图谱构建方法以及装置 - Google Patents
一种高血压药物治疗知识图谱构建方法以及装置 Download PDFInfo
- Publication number
- CN114255884A CN114255884A CN202111517662.2A CN202111517662A CN114255884A CN 114255884 A CN114255884 A CN 114255884A CN 202111517662 A CN202111517662 A CN 202111517662A CN 114255884 A CN114255884 A CN 114255884A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- data
- hypertension
- map
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010020772 Hypertension Diseases 0.000 title claims abstract description 85
- 239000003814 drug Substances 0.000 title claims abstract description 71
- 229940079593 drug Drugs 0.000 title claims abstract description 66
- 238000010276 construction Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000013500 data storage Methods 0.000 claims abstract description 5
- 238000012552 review Methods 0.000 claims abstract description 4
- 238000010586 diagram Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 15
- 238000011160 research Methods 0.000 claims description 9
- 230000009193 crawling Effects 0.000 claims description 5
- 238000002651 drug therapy Methods 0.000 claims description 5
- 238000012550 audit Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000013499 data model Methods 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 description 4
- 230000036772 blood pressure Effects 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 208000011580 syndromic disease Diseases 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 229940121657 clinical drug Drugs 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000001631 hypertensive effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000000968 medical method and process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000001050 pharmacotherapy Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
一种高血压药物治疗知识图谱构建方法,包括:高血压药物治疗知识图谱采用自上而下的方式,先构建Schema,再抽取知识;构建过程根据抽取和应用实际情况,不断完善和优化Schema;构建属性图模型;对属性图模型采用HugeGraph和MongoDB混合数据存储模式;数据加工和专家审核相结合增加知识准确度。本发明的有益效果是:通过属性图模型,解决了多元关系在临床医学知识表示中建模的问题。
Description
技术领域
本发明涉及医学知识图谱技术领域,尤其涉及一种高血压药物治疗知识图谱构建方法以及装置。
背景技术
知识图谱是一种基于图的数据结构,由实体(节点)和实体间的关系(边)组成。知识图谱广义概念是作为一种技术体系,是指大数据知识工程中一系列代表性技术的总称;知识图谱狭义概念是作为一种知识表示形式,是大规模语义网络,包含实体、概念及其之间的各种语义关系。
目前大多通用知识图谱都采用自底向上构建方法,从开放链接数据源中提取实体、属性和关系,再加入到知识图谱的数据层,然后将这些知识要素进行归纳组织,逐步往上抽象为概念,最后形成模式层。具体流程如图1所示,为一种自底向上知识图谱的构建流程,现有技术的知识图谱由数据层(data layer)和模式层(schema layer) 构成。模式层是知识图谱的概念模型和逻辑基础,对数据层进行规范约束。多采用本体作为知识图谱的模式层,借助本体定义的规则和公理约束知识图谱的数据层。在数据层,事实以“实体-关系-实体”或“实体-属性-属性值”的三元组存储,形成一个图状知识库,可以将知识图谱的数据层视为本体的实例。
自底向上的构建方法流程如图所示,构建步骤主要可分为4部分,分别为:知识获取、信息抽取、知识融合、知识加工。首先,从开放链接的多个数据源获取结构化、半结构化或非结构化数据,对于半结构化数据、非结构化数据,需要通过信息抽取方法提取实体、属性和关系,不同来源的结构化数据需先进行知识融合,后与半结构化、非结构化数据中抽取的知识一同进行指代消解、实体消岐,经过以上处理后加入到知识图谱的数据层;然后将这些知识要素进行归纳组织,逐步往上抽象为概念,该过程即为本体抽取,最后形成知识图谱模式层。初步构建完成后的知识图谱可在已有知识的基础之上,推断出未知的知识,进一步拓展、更新知识图谱,该过程即为知识推理。
知识图谱构建包括数据获取、信息抽取、知识融合、知识加工四个步骤。首先是原始数据处理,数据源可能是结构化的、非结构化的以及半结构化的;然后通过一系列自动化或半自动化的技术手段,从原始数据中抽取实体、关系以及实体属性等信息,并将其存入知识库;接着通过知识融合对数据进行逻辑归属和冗杂/错误过滤;最后通过本体抽取、质量评估对知识进行加工获得结构化,网络化的知识体系——知识图谱。
但由于医学知识的专业性强,精确度要求极高,如果使用自底向上方法构建出来的邻域知识图谱,本体受数据源的影响较大,缺乏对高血压药物治疗决策的针对性,而且准确性差。如何构建直接用于临床决策支持的高血压药物治疗知识图谱及其系统,如何表示具有多元关系的医学知识,如何存储不同来源的多模态数据,如何精准加工和审核医学知识数据,是本发明要解决的重要问题。其原因如下:
一、由于医学概念具备精确性、医学知识具有逻辑性,通过自底向上构建医学知识图谱的准确率,尚不能达到应用于高血压临床药物治疗决策支持的要求。
二、目前知识图谱多采用RDF(Resource Description Framework)模型,形式上表示为SPO三元组,即“subject-predicate->object”,尽管能表示目前大部分的简单事件或实体属性,对于复杂的医学知识表示却束手无策。
三、高血压是最常见慢性病,以经验为主的降压治疗模式,少重视“临床研究证据”作用。而在循证医学时代,传统经验用药的科学性、正确性和合理性受到了挑战,同时也阻碍了降压疗效的提高,以及高血压患者预后的改善。引入循证医学方法和理念,实现最佳研究证据与医师经验、患者需求三者匹配的循证决策,是目前临床实践的最佳模式。但目前自动构建知识图谱的方法,难以将临床循证医学证据嵌入三元组,并作为高血压药物治疗决策支持的数据支撑。
四、现有公开的医学知识数据源,缺乏能够详细描述疾病与药品之间的适用症和/或禁忌关系的数据。而高血压药物治疗决策支持,需结合患者的自身状况、各类检验检查的指标、合并的相关疾病以及药品相关信息等进行综合判断。仅仅依靠已公开的数据源自动构建,是无法抽取到高血压药物治疗决策推理所需要的关键信息。
发明内容
本发明的目的在于提供一种高血压药物治疗知识图谱构建方法以及装置,用以解决现有技术中的一个或多个技术问题。具体如下:
一、通过属性图模型表示高血压药物治疗相关知识。属性图模型的优点在于,一条知识不仅由实体、关系构成,且实体、关系皆能添加若干条的属性加以修饰,从而使知识表示有更丰富的语义。
二、通过最新临床研究论文或医学指南作为主要数据来源,从非结构化文本中抽取信息作为若干条新知识加入到知识图谱,并在每条知识中以属性(键值对)的形式保存数据来源作为临床证据,同时能够提升高血压药物治疗知识图谱更新的时效性。
三、通过手动标注方法及审核机制解决准确性问题。在现有获取知识基础上,专家审核高准确度数据构建基础知识图谱,进一步通过手动标注方法补充高血压药物治疗相关知识,且新加入知识须通过专家医生审核以确保准确性;同时通过搭建的知识图谱服务平台,为专家医生提供便利标注、审核服务模块,提高工作效率。
第一方面,本发明提供了高血压药物治疗知识图谱构建方法,包括:
不同于通用知识图谱的是,高血压药物治疗知识图谱采用自上而下的方式,先构建Schema,再抽取知识;构建过程根据抽取和应用实际情况,不断完善和优化Schema;
构建属性图模型;
对属性图模型采用HugeGraph和MongoDB混合数据存储模式;
采用半自动数据加工和专家审核相结合方式增加知识准确度。
进一步,所述的构建Schema的步骤为:
a确定领域范畴(高血压药物治疗);
b选取合适的知识源(临床指南、教科书、临床研究论文);
c梳理重要的医学术语(药品适应症、禁忌症、相互作用);
d建立属性关系;
e存储及可视化。
进一步,所述构建属性图模型中,采用顶点表示现实世界中的实体,有向的边表示实体与实体之间的关系;顶点和边都可通过键值对形式被关联上任意数量的属性,所述高血压药物治疗知识图谱以六元组形式,分别采用Subject,Subject_Property, Edge,Edge_Property,Object,Object_Property来表示复杂的医学知识,其中 Subject表示起始顶点,Subject_Property表示起始顶点的属性,Edge表示有向边, Edge_Property表示有向边的属性,Object表示目标顶点,Object_Property表示目标顶点的属性;针对高血压药物治疗决策支持这一使用临床需求,从而构建以属性图为数据模型的高血压药物治疗知识图谱本体。
进一步,所述Hugegraph负责存储高血压药物治疗相关基础医学知识,所述MongoDB 负责存储临床证据的知识,主要包括高血压药物治疗相关RCT研究文章、最新高血压诊疗临床指南。
进一步,所述数据加工通过文本信息自动抽取和医师人工录入,运用机器学习算法模型对文本实体标注,文本关系标注;为确保标注数据的正确性,在数据加工和更新至知识图谱之间,还设有专家人工审核数据审核的步骤。
进一步,所述数据加工步骤中的机器学习算法采用CART分类回归树,对文本数据进行预标注,降低用户标注的工作量;对每一个用户新建的标注都应添加该类实体或该类关系标注所需要拥有的全部性质,界面的选项确保这一点,从而保证了知识图谱数据库新增内容的完整性;
另一方面本发明还提供了一种高血压药物治疗知识图谱构建装置,包括:
高血压药物治疗知识图谱数据获取模块10,用于从多个数据源获取相应的高血压药物治疗数据;
数据加工模块20,用于对高血压药物治疗知识图谱数据获取模块10中的数据进行加工,并对数据进行标注;数据加工模块分为文本自动信息抽取和专家人工录入两块;文本信息抽取能够选择不同类型的文本例如医学文献、临床指南、药品说明书等进行标注;
标注页面中,若文本数据源为PDF文件,则系统自动将PDF转为富文本,在富文本框中通过划词方式进行标注;
专家审核模块30,在审核模块中提供搜索实体、关系类型的搜索框,并设置两个树形结构分别能够选择审核标注某一实体或关系类型的内容;
右侧是审核内容列表,上方能够通过筛选框选择想要查看内容和隐藏列,点击详情列的查看详情按钮可以查看标注的原文本及标注的具体内容;若用户标注的结果有误,可直接点击不通过按钮或校正标注结果后通过审核,通过审核的标注内容,将由系统后台添加至高血压药物治疗知识图谱中;
图谱数据展示模块40,可以对数据以表格的方式将分为实体和关系两部分展示;也可对关系类型的展示与实体类型展示类似,在树形结构中选择关系类型,右边相应的显示出关系实例数据,包括起始实体、目标实体、关系及其属性等;
临床指南模块50,可以查看高血压病治疗过程中的临床指南。
进一步,提供力导图、三维图、雷达图、点图、les-miserablesl图、树状图中的任一种图形展示方案,以便对高血压药物治疗知识图谱进行个角度全方位的展示。
进一步,所述图形展示模块中,可以选择多种图形组件进行个性化展示,每个图形组件中都提供相应的功能查询,包括基础的实体/关系查询和高级的图遍历搜索算法。
进一步,所述力导图中,提供两点最短路径,两点所有路径,K层深度遍历,节点类型选择,关系类型选择等功能让用户进行信息查询。
本发明的有益效果是:通过属性图模型,解决了多元关系在复杂临床医学知识表示中建模的问题;通过混合数据存储,克服一般知识图谱无法同时将药物适应证与临床管理相结合的缺点;通过数据加工人工审核系统,提升了临床医学知识表示的准确性。本系统可有效提供临床研究循证医学证据,为辅助医师制定正确制定高血压用药方案提供建议。
附图说明
图1自底向上知识图谱构建流程
图2本发明总体架构设计图
图3高血压药物治疗知识图谱系统的可视化
图4系统功能模块图
图5图形展现类型
图6专家审核模块结构
图7校正标注模块结构
图8高血压药物治疗知识图谱构建装置结构图
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性而非限制性的。
实施例一
在一种具体实施方式中,提供了一种高血压药物治疗知识图谱构建方法,包括:
步骤S10:高血压药物治疗知识图谱采用自上而下的方式,先构建Schema,再抽取知识。构建过程根据抽取和应用实际情况,不断完善和优化Schema。
具体步骤:
a确定领域范畴(高血压药物治疗);
b选取合适的知识源(临床指南、教科书、临床研究论文);
c梳理重要的医学术语(药品适应症、禁忌症、相互作用);
d建立属性关系;
e存储及可视化。
上述梳理重要的医学术语c步骤,在实现时建立高血压领域的标准术语词库,其包含中英文一一对应术语映射表,每一个词条还设有详细的中英文解释,以实现在高血压领域内部使用规范术语,从而对帮助知识图谱构建过程中术语使用准确。该术语映射表是本发明的重要创新点之一,其意义影响深远,不但能帮助本发明快速构建知识图谱,还为以后实现强人工智能奠定基础。
步骤S20:根据构建的Schema进行属性图模型准确地表示复杂医学知识。
构建属性图模型中,采用顶点(Vertex)表示现实世界中的实体,有向的边(Edge)来表示实体与实体之间的关系。顶点和边都可通过键值对(Key-Value)形式被关联上任意数量的属性(Property)。
高血压药物治疗知识图谱以六元组形式(Subject,Subject_Property,Edge,Edge_Property,Object,Object_Property)来表示复杂的医学知识,其中Subject 表示起始顶点,Subject_Property表示起始顶点的属性,Edge表示有向边, Edge_Property表示有向边的属性,Object表示目标顶点,Object_Property表示目标顶点的属性。针对高血压药物治疗决策支持这一使用临床需求,从而构建了以属性图为数据模型的高血压药物治疗知识图谱本体。
步骤S30:对属性图模型采用HugeGraph和MongoDB混合数据存储模式。
Hugegraph负责存储高血压药物治疗相关基础医学知识,MongoDB负责存储临床证据的知识,即高血压药物治疗相关RCT研究文章、最新的高血压诊疗临床指南等。
步骤S40:数据加工和专家审核相结合增加知识准确度。
数据加工通过文本信息自动抽取和医师人工录入,运用高精度的算法模型对文本实体标注,文本关系标注。本系统为确保标注数据的正确性,在数据加工和更新至知识图谱之间,还有专家审核数据审核的步骤。
通过上述步骤,本发明的构建总体架构图,如图2所示,根据功能模块划分,本系统分为四个核心子系统,即图谱可视化子系统,外采数据管理子系统,数据加工子系统和专家审核子系统。
结合上述步骤,以《中国高血压防治指南2018年修订版》为主体,高血压相关医学指南、以及各大医学网站的公开数据,并依据专家知识构建高血压药物治疗知识图谱本体。基于循证医学的思想理念,针对高血压用药决策支持的应用场景,获取多个医疗信息数据源并对多知识库进行融合,构建了一套以“疾病-患者-药物-治疗”为主要概念分类的实体、关系及其属性的高血压药物治疗知识图谱(anti-Hyp KG),为临床医师治疗高血压患者提供用药决策支持的依据。
高血压药物治疗知识图谱系统总共建立了高血压临床领域相关54种实体类型、86种关系类型,向知识图谱种添加35851条实体实例数据,16047条实例关系数据,基于现有的高血压药物治疗知识图谱资源,提供基于实体/关系的可视化搜索引擎,让高血压用药相关知识得以更加直观地展示,如图3所示。并如图4所示实现了高血压药物治疗知识图谱构建系统的功能模块图。
通过上述构建方法为了给用户提供一个直观的数据新视角,让用户可以更加快速摄取医学知识图谱的内容,搭建图谱可视化子系统对医学数据进行展示。
本发明提供多种展示手段,不但有传统的表格展示,还提供了丰富的图形展示。如图5所示,在图形展示中,除了可以选择多种图形组件进行个性化展示,每个图形组件中都提供了相应的功能查询,包括基础的实体/关系查询和高级的图遍历搜索算法。例如力导图中,提供了两点最短路径,两点所有路径,K层深度遍历,节点类型选择,关系类型选择等功能让用户进行信息查询。
在数据加工方面是采用CART分类回归树对文本数据进行预标注,降低用户标注的工作量。对每一个用户新建的标注都应添加该类实体或该类关系标注所需要拥有的全部性质,界面的选项确保这一点,从而保证知识图谱数据库新增内容的完整性。
数据加工的标注渠道分成文本信息抽取和专家录入两个模块,其中文本信息抽取采用的是用鼠标点选各个页面上的关键词来抽取实体或关系的内容,并含有该类标注的全部性质的选择或录入过程,而专家录入是由专家进行手动录入实体或关系的标注,同样注重内容的完整性,该录入渠道具有权威性。半自动化进行数据加工减少了在爬虫采集数据阶段出现的提取文字即预标注产生的失误率,并且标注采取的用户等级限制规则,可以最大限度的保证数据加工过程的正确性和权威性,在有相关权限专家迭代加工中获得精确标注的数据库,从而不断更新和完善高血压药物治疗知识图谱。
上述爬虫在采集数据时,可对网页进行三级链接数据爬取,所述的三级链接数据爬取指的是,对页面A中的数据爬取完成后,还会打开页面A中存在的链接B所指向的页面,对链接B页面爬取完成后,会进一步对链接B页面中存在的链接C页面进行数据爬取,通过上述方式,就可以获得相比现有技术更准确更全面的数据集,可以更方便的帮助本发明实现高血压知识图谱的构建。
实例例二
在另一种具体实施方式中,如图8所示,提供了一种高血压药物治疗知识图谱构建装置,包括:
高血压药物治疗知识图谱数据获取模块10,用于从多个数据源获取相应的高血压药物治疗数据;
数据加工模块20,用于对高血压药物治疗知识图谱数据获取模块10中数据进行加工,并对数据进行标注;数据加工模块分为文本信息抽取和专家录入。文本信息抽取能够选择不同类型的文本例如医学文献、临床指南、药品说明书等进行标注。
标注页面中,若文本数据源为PDF文件,则系统自动将PDF转为富文本,在富文本框中通过划词方式进行标注。
专家审核模块30,在审核模块中提供搜索实体、关系类型的搜索框,并设置两个树形结构分别能够选择审核标注某一实体或关系类型的内容,如图6所示。
右侧是审核内容列表,上方能够通过筛选框选择想要查看内容和隐藏列,点击详情列的查看详情按钮可以查看标注的原文本及标注的具体内容。若用户标注的结果有误,可直接点击不通过按钮或校正标注结果后通过审核,如图7所示。通过审核的标注内容将由系统后台添加至高血压药物治疗知识图谱中。
图谱数据展示模块40,可以对数据以表格的方式将分为实体和关系两部分展示。也可以对关系类型的展示与实体类型展示类似,在树形结构中选择关系类型,右边相应的显示出关系实例数据,包括起始实体、目标实体、关系及其属性等。提供多种图形展示方案,以便对高血压药物治疗知识图谱进行个角度全方位的展示。
临床指南模块50,可以查看高血压病治疗过程中的临床指南。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种高血压药物治疗知识图谱构建方法,其特征在于:
高血压药物治疗知识图谱采用自上而下的方式,先构建Schema,再抽取知识;构建过程根据抽取和应用实际情况,不断完善和优化Schema;
构建属性图模型;
对属性图模型采用HugeGraph和MongoDB混合数据存储模式;
采用数据加工和专家审核相结合增加知识准确度。
2.根据权利要求1所述的一种高血压药物治疗知识图谱构建方法,其特征在于,所述的构建Schema的步骤为:
a确定领域范畴;
b选取合适的知识源;
c梳理重要的医学术语;
d建立关系;
e存储及可视化。
3.根据权利要求2所述的一种高血压药物治疗知识图谱构建方法,其特征在于,所述的梳理重要的医学术语,包含建立高血压领域的标准术语词库,所述标准术语词库内设有中英文一一对应术语映射表,每一个词条还设有详细的中英文解释,以实现在高血压领域内部使用规范术语,从而对帮助知识图谱构建过程中术语使用准确。
4.根据权利要求1所述的一种高血压药物治疗知识图谱构建方法,其特征在于,所述构建属性图模型中,采用顶点表示现实世界中的实体,有向的边来表示实体与实体之间的关系;顶点和边都可通过键值对形式被关联上任意数量的属性,所述高血压药物治疗知识图谱以六元组形式,分别采用Subject,Subject_Property,Edge,Edge_Property,Object,Object_Property来表示复杂的医学知识,其中Subject表示起始顶点,Subject_Property表示起始顶点的属性,Edge表示有向边,Edge_Property表示有向边的属性,Object表示目标顶点,Object_Property表示目标顶点的属性;针对高血压药物治疗决策支持这一使用临床需求,从而构建了以属性图为数据模型的高血压药物治疗知识图谱本体。
5.根据权利要求1所述的一种高血压药物治疗知识图谱构建方法,其特征在于,所述Hugegraph负责存储高血压药物治疗相关基础医学知识,所述MongoDB负责存储临床证据的知识,主要包括高血压药物治疗相关RCT研究文章、最新的高血压诊疗临床指南,所述数据加工通过文本信息自动抽取和医师人工录入,所述文本信息自动抽取的部分数据来源于爬虫,为确保获取数据的准确性和完整性,所述爬虫在采集数据时,采用三级链接数据爬取的方式,运用机器学习算法模型对文本实体标注,文本关系标注;为确保标注数据的正确性,在数据加工和更新至知识图谱之间,还设有专家审核数据审核的步骤。
6.根据权利要求5所述的一种高血压药物治疗知识图谱构建方法,其特征在于,所述数据加工步骤中的机器学习算法采用CART分类回归树对文本数据进行预标注,降低用户标注的工作量;对每一个用户新建的标注都应添加该类实体或该类关系标注所需要拥有的全部性质,从而保证知识图谱数据库新增内容的完整性。
7.根据权利要求1-6任一所述的一种高血压药物治疗知识图谱构建方法的高血压药物治疗知识图谱构建装置,包括:
高血压药物治疗知识图谱数据获取模块(10),用于从多个数据源获取相应的高血压药物治疗数据;
数据加工模块(20),用于对高血压药物治疗知识图谱数据获取模块(10)中数据进行加工,并对数据进行标注;数据加工模块分为文本信息抽取和专家录入;文本信息抽取能够选择不同类型的文本例如医学文献、临床指南、药品说明书等进行标注;
标注页面中,若文本数据源为PDF文件,则系统自动将PDF转为富文本,在富文本框中通过划词方式进行标注;
专家审核模块(30),在审核模块中提供搜索实体、关系类型的搜索框,并设置两个树形结构分别能够选择审核标注某一实体或关系类型的内容;
右侧是审核内容列表,上方能够通过筛选框选择想要查看内容和隐藏列,点击详情列的查看详情按钮可以查看标注的原文本及标注的具体内容;若用户标注的结果有误,可直接点击不通过按钮或校正标注结果后通过审核,通过审核的标注内容将由系统后台添加至高血压药物治疗知识图谱中;
图谱数据展示模块(40),可以对数据以表格的方式将分为实体和关系两部分展示;也可以对关系类型的展示与实体类型展示类似,在树形结构中选择关系类型,右边相应的显示出关系实例数据,包括起始实体、目标实体、关系及其属性等;
临床指南模块(50),可以查看高血压病治疗过程中的临床指南。
8.根据权利要求7所述的一种高血压药物治疗知识图谱构建装置,其特征在于,提供力导图、三维图、雷达图、点图、les-miserablesl图、树状图中的任一种图形展示方案,以便对高血压药物治疗知识图谱进行个角度全方位的展示。
9.根据权利要求7所述的一种高血压药物治疗知识图谱构建装置,其特征在于,所述图形展示模块中,可以选择多种图形组件进行个性化展示,每个图形组件中都提供了相应的功能查询,包括基础的实体/关系查询和高级的图遍历搜索算法。
10.根据权利要求8所述的一种高血压药物治疗知识图谱构建装置,其特征在于,所述力导图中,提供了两点最短路径,两点所有路径,K层深度遍历,节点类型选择,关系类型选择功能让用户进行信息查询。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111517662.2A CN114255884A (zh) | 2021-12-13 | 2021-12-13 | 一种高血压药物治疗知识图谱构建方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111517662.2A CN114255884A (zh) | 2021-12-13 | 2021-12-13 | 一种高血压药物治疗知识图谱构建方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114255884A true CN114255884A (zh) | 2022-03-29 |
Family
ID=80792018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111517662.2A Pending CN114255884A (zh) | 2021-12-13 | 2021-12-13 | 一种高血压药物治疗知识图谱构建方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114255884A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033648A (zh) * | 2022-04-20 | 2022-09-09 | 天津健康医疗大数据有限公司 | 系统化医学领域知识图谱的构建方法及装置 |
CN116110533A (zh) * | 2023-02-27 | 2023-05-12 | 之江实验室 | 基于事件图谱的药物种类和用量推荐系统及方法 |
CN117292846A (zh) * | 2023-11-27 | 2023-12-26 | 神州医疗科技股份有限公司 | 一种肠道微生物知识图谱的构建方法及装置 |
CN117334352A (zh) * | 2023-11-24 | 2024-01-02 | 北京邮电大学 | 基于多元角色知识图谱的高血压诊疗决策推理方法及装置 |
CN117438079A (zh) * | 2023-12-19 | 2024-01-23 | 北京万方医学信息科技有限公司 | 循证知识抽提及辅助临床决策的方法及介质 |
CN117594241A (zh) * | 2024-01-15 | 2024-02-23 | 北京邮电大学 | 基于时序知识图谱邻域推理的透析低血压预测方法及装置 |
-
2021
- 2021-12-13 CN CN202111517662.2A patent/CN114255884A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115033648A (zh) * | 2022-04-20 | 2022-09-09 | 天津健康医疗大数据有限公司 | 系统化医学领域知识图谱的构建方法及装置 |
CN116110533A (zh) * | 2023-02-27 | 2023-05-12 | 之江实验室 | 基于事件图谱的药物种类和用量推荐系统及方法 |
CN116110533B (zh) * | 2023-02-27 | 2023-09-01 | 之江实验室 | 基于事件图谱的药物种类和用量推荐系统及方法 |
CN117334352A (zh) * | 2023-11-24 | 2024-01-02 | 北京邮电大学 | 基于多元角色知识图谱的高血压诊疗决策推理方法及装置 |
CN117334352B (zh) * | 2023-11-24 | 2024-03-08 | 北京邮电大学 | 基于多元角色知识图谱的高血压诊疗决策推理方法及装置 |
CN117292846A (zh) * | 2023-11-27 | 2023-12-26 | 神州医疗科技股份有限公司 | 一种肠道微生物知识图谱的构建方法及装置 |
CN117438079A (zh) * | 2023-12-19 | 2024-01-23 | 北京万方医学信息科技有限公司 | 循证知识抽提及辅助临床决策的方法及介质 |
CN117438079B (zh) * | 2023-12-19 | 2024-03-12 | 北京万方医学信息科技有限公司 | 循证知识抽提及辅助临床决策的方法及介质 |
CN117594241A (zh) * | 2024-01-15 | 2024-02-23 | 北京邮电大学 | 基于时序知识图谱邻域推理的透析低血压预测方法及装置 |
CN117594241B (zh) * | 2024-01-15 | 2024-04-30 | 北京邮电大学 | 基于时序知识图谱邻域推理的透析低血压预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12093271B2 (en) | Method and system for text understanding in an ontology driven platform | |
CN114255884A (zh) | 一种高血压药物治疗知识图谱构建方法以及装置 | |
CN110990579B (zh) | 跨语言的医学知识图谱构建方法、装置与电子设备 | |
JP2022526242A (ja) | テキストドキュメントのアノテーションのための方法、装置、およびシステム | |
Sim et al. | The Ontology of Clinical Research (OCRe): an informatics foundation for the science of clinical research | |
US20160132648A1 (en) | Data Processing System and Method for Computer-Assisted Coding of Natural Language Medical Text | |
CN110377755A (zh) | 基于药品说明书的合理用药知识图谱构建方法 | |
Turki et al. | Representing COVID-19 information in collaborative knowledge graphs: the case of Wikidata | |
US20220068482A1 (en) | Interactive treatment pathway interface for guiding diagnosis or treatment of a medical condition | |
CN113096795B (zh) | 多源数据辅助的临床决策支持系统及方法 | |
Park et al. | Criteria2Query 3.0: Leveraging generative large language models for clinical trial eligibility query generation | |
Sarkar | Methods in biomedical informatics: a pragmatic approach | |
Liu et al. | PatientEG dataset: bringing event graph model with temporal relations to electronic medical records | |
Li et al. | Construction of depression knowledge graph based on biomedical literature | |
Wang et al. | Construction of a linked data set of COVID-19 knowledge graphs: development and applications | |
Zheng et al. | COVID19-OBKG: an ontology-based knowledge graph and web service for COVID-19 | |
CN114398402A (zh) | 结构化信息提取和检索方法、装置、电子设备和存储介质 | |
CN112579790A (zh) | 重症疾病知识库的构建方法、装置、存储介质及电子设备 | |
Zhang et al. | Construction of MeSH-like obstetric knowledge graph | |
Pan et al. | Knowledge graph based platform of COVID-19 drugs and symptoms | |
Jayawant | Medic: An artificially intelligent system to provide healthcare services to society and medical assistance to doctors | |
JP7145366B2 (ja) | 文書作成システム | |
CN117453752B (zh) | 基于检索配置表数据模型的医院临床数据检索方法及装置 | |
Zhu et al. | Ontology constructing for Chinese medicine knowledge of Beng Lou | |
Hicks et al. | Introducing Hypertension FACT: Vital Sign Ontology Annotations in the Florida Annotated Corpus for Translational Science. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |