CN114328975A - 一种药学知识图谱构建方法和装置 - Google Patents

一种药学知识图谱构建方法和装置 Download PDF

Info

Publication number
CN114328975A
CN114328975A CN202210009522.2A CN202210009522A CN114328975A CN 114328975 A CN114328975 A CN 114328975A CN 202210009522 A CN202210009522 A CN 202210009522A CN 114328975 A CN114328975 A CN 114328975A
Authority
CN
China
Prior art keywords
data
pharmaceutical
relationship
graph
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210009522.2A
Other languages
English (en)
Inventor
王鹏飞
毛逸清
宋伟
蒋文婷
马斌
刘圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Medpeer Information Technology Co ltd
Original Assignee
Beijing Medpeer Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Medpeer Information Technology Co ltd filed Critical Beijing Medpeer Information Technology Co ltd
Priority to CN202210009522.2A priority Critical patent/CN114328975A/zh
Publication of CN114328975A publication Critical patent/CN114328975A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种药学知识图谱构建方法和装置,该方法包括以下步骤:获取多个药学数据源中的药学数据,以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型;根据药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系;将多个药学数据源中的药学数据导入与关系数据模型对应的关系数据库,将每个药学数据源中的药学数据作为独立的数据库存储;根据关系数据与图数据之间的映射关系,将关系数据库中的关系数据转换为图数据,并将图数据导入与图数据模型对应的图数据库,生成药学数据的知识网络。

Description

一种药学知识图谱构建方法和装置
技术领域
本申请属于计算机技术领域,具体涉及一种药学知识图谱构建方法和装置。
背景技术
随着人们健康意识的提升,互联网技术的发展,医药数据大量涌现,突发公共卫生事件给药物研发和数据挖掘带来了巨大挑战。传统的药学相关研究和智能分析往往专注于单个药物,但随着药学知识体系的不断深入和扩展,知识间的关系已经成为数据深入分析挖掘的基础工作之一。
在大数据背景下,知识图谱(Knowledge Graph)成为资源管理和知识应用的重要技术,它用于整合、挖掘和展示专业知识及其内在关系,为智能化信息应用、搜索引擎和语义处理等技术奠定了基础。知识图谱旨在描述客观世界中的实体、概念、事件、属性以及这些因素之间的联系。知识图谱本质上是语义网络(Semantic Network)的知识库,也可以简单地理解为多关系图(Multi-relational Graph)。知识图谱涉及知识表示、知识提取、知识融合和知识推理等关键技术,知识图谱的构建包括本体构建、自然语言处理、网络爬虫、属性抽取、实体对齐、知识存储和知识可视化等内容。知识图谱在医学领域具有广泛应用前景,主要用于处理医疗大数据中知识分散、异构、冗余和碎片化的问题。目前医学知识图谱主要应用于疾病分析和预测、药物的研究、医疗智能问答,医学知识搜索引擎等领域。
目前,与药学知识图谱类似的应用多数侧重于生物医学一个具体领域,如药物基础研究、临床治疗、疾病诊断、医学文献等,这些领域和药学信息部分相交,但不能完全涵盖药学领域。而Drugbank、PubChem、FDA等机构提供了较全面的药物综合信息,对药物基础数据(如化合物理化性质、药理药效等)的表示比较一致,但由于数据来源复杂,缺乏完整的药学数据模型,因此很难形成系统化、结构化、标准化的药学数据,无法实现数据融合,在数据的集成性、透明性、一致性、完整性、可溯源性方面都存在一定的缺陷。
申请内容
本申请实施例的目的是提供一种药学知识图谱构建方法和装置,以解决现有技术无法实现药学数据融合的缺陷。
为了解决上述技术问题,本申请是这样实现的:
第一方面,提供了一种药学知识图谱构建方法,包括以下步骤:
获取多个药学数据源中的药学数据,以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据所述多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型;
根据所述药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系;
将所述多个药学数据源中的药学数据导入与所述关系数据模型对应的关系数据库,将每个药学数据源中的药学数据作为独立的数据库存储,不同的药学数据库之间没有关联;
根据关系数据与图数据之间的映射关系,将所述关系数据库中的关系数据转换为图数据,并将所述图数据导入与所述图数据模型对应的图数据库,生成药学数据的知识网络。
第二方面,提供了一种药学知识图谱构建装置,包括:
构建模块,用于获取多个药学数据源中的药学数据,以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据所述多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型;
生成模块,用于根据所述药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系;
导入模块,用于将所述多个药学数据源中的药学数据导入与所述关系数据模型对应的关系数据库,将每个药学数据源中的药学数据作为独立的数据库存储,不同的药学数据库之间没有关联;
处理模块,用于根据关系数据与图数据之间的映射关系,将所述关系数据库中的关系数据转换为图数据,并将所述图数据导入与所述图数据模型对应的图数据库,生成药学数据的知识网络。
本申请实施例通过针对多来源、异构的药学及相关数据源,借助知识图谱技术和本体理论对药学数据进行模型化、标准化、网络化,便于理清知识结构、快速获得相关知识及其逻辑关系,形成系统化、结构化、标准化的药学数据,实现数据融合,进而高效准确地进行数据关联分析或形成药学知识网络,有助于处理医疗大数据中分散、异构、冗余和碎片化问题,有助于药学数据的共享和交互。
附图说明
图1是本申请实施例提供的一种药学知识图谱构建方法流程图;
图2是本申请实施例提供的药学知识图谱构建方法的一种具体实现图;
图3是本申请实施例提供的一种药学知识图谱构建装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本体(Ontology)是一种针对特定领域共享概念提供的明确、规范、结构化的描述,旨在帮助知识和信息的描述及组织,具有词义消歧、同义词与近义词控制、实体类型和关系类型展示等功能。本体作为一种能在语义和知识层次上描述概念的建模工具,已经在知识工程、人工智能、语义网等相关领域进行了深人研究,广泛应用于解决通信、异构环境互操作和系统工程中的知识共享、知识获取和系统集成等问题。
生物医学本体描述的概念指生物医学研究的对象,包括基因、蛋白质、细胞、组织、器官、物种以及化合物与药物、生物学通路、疾病与症状等;生物医学本体描述的关系主要指概念间逻辑或生物学关系,例如简单的关联关系、从属关系、蛋白质间的相互作用关系、疾病和症状的包含关系、药物和基因的靶向关系等。生物医学本体主要应用于生物医学数据分析、检索和数据集成。
药学本体(Ontology)帮助药学知识和信息进行描述和组织,构成药学专业术语与术语间的关系的一个药学知识网络,结合计算机技术能使药学相关数据在网络中共享和交换。通过药学本体中的标准化术语,不同来源的数据集中的元数据可以进行术语的统一,进而消除异质性,实现药学数据的整合。同时,通过本体中标准化术语之间的关系,数据集中的元数据之间还可以构建起语义关联,实现元数据内容的索引,从而对原始数据进行更深层次的整合、注释、分析与挖掘等。
知识库(Knowledge Base)是知识工程中结构化、可操作、有组织的知识集群,是针对某些领域问题求解的需要,采用某种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
本体为知识库的建立提供一个基本的结构,它用一套概念和术语来描述这一领域,并且获取该领域的本质的概念结构,本体构成了该领域知识表示系统的核心,知识库运用这些术语去表示知识。基于本体的知识库可以帮助使用者通过这些关系和属性,获取更适合自己需求的知识,从而避免在知识获取时大量无关信息的混入。药学本体可以实现药学知识和信息的标准化描述与结构化组织,促进药学数据的高效利用,为知识图谱的构建奠定基础。
生物医学知识图谱的构建主要涉及生物医学知识表示、知识提取、生物医学知识融合以及知识挖掘等关键技术。知识表示是对知识的一种描述,是计算机可读的用于描述生物医学知识的数据结构;知识提取指从大量结构化或非结构化的数据中提取医学实体和关系等知识图谱的组成元素;知识融合指将多来源、异构的信息融入医学知识图谱,并对医学知识图谱的内容进行整合、加工,增强知识图谱的逻辑性和表达能力。
药学数据范围广、专业性强、分布零散,其内容涉及药物基础数据、研究项目立项、市场调查、竞品分析、专利情报、临床试验及仿制药一致性评价等方面。研究人员和医药厂商不但需要掌握药物的各项基本数据,还期望获得与该药物相关的其它药学数据,包括药物相互作用、药品、疾病、临床试验、文献、靶点、专利等信息及其知识网络,来帮助加快项目研究。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的按键处理方法进行详细地说明。
如图1所示,为本申请实施例提供的一种药学知识图谱构建方法流程图,该方法包括以下步骤:
步骤101,获取多个药学数据源中的药学数据,以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据所述多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型。
具体地,可以根据所述多个药学数据源中的药学数据格式和药学数据内容,结合生物医学本体和医学词表,确定药学本体中的概念、属性、层次、范围、类型和定义,明确药学概念之间的关系,复用部分现有本体并建立药学本体模型,所述药学本体模型包括概念/类、关系、函数、公理和实例,制定每类概念的数据层次、范围、类型和定义,实现药学概念的结构化、标准化和规范化的描述,并构建药学术语集。
其中,药学本体模型中的概念类型包括:药物、疾病、症状、非活性成分、药品、临床试验、不良反应、仪器设备、生产、试验方法、机构、器官组织、文献、专利、靶点、治疗和生物分子;药学本体模型中的药学概念之间的关系包括:药物作用关系(is_drug_action_on)、相互作用关系(is_interaction_with)、化学反应产物关系(is_chemical_reaction_poduct_from)、导致关系(causes)、成分关系(is_ingredient_of)、参比/标准制剂关系(is_reference_listed_drug_to)、对象关系(is_object_of)、鉴定关系(is_identified_by)、有关关系(is_relation_with)、引用关系(is_citatioin_from)、来源于(is_source_from)、是(is_a)、部分关系(is_part_of)、相同关系(is_same_as)、产物关系(is_product_of)和有关(is_relation_with)等。
步骤102,根据所述药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系。
具体地,可以根据关系数据库规范,以所述多个药学数据源中的药学数据格式、药学数据内容和药学本体及概念之间关系为参考,结合本体模型,进行关系数据的数据定义、数据操作和数据约束,构建关系数据模型;从图数据设计出发,结合所述药学本体模型,确定每个药学数据源中的实体,及每个药学数据源直接给出的实体间的关系;以关系数据模型为基础,建立三元组形式的数据标准,确定每个实体的定义和描述、实体间的关系类型和实体的属性,并生成图数据库以及关系数据与图数据之间的映射关系,所述三元组形式的数据标准为第一实体-第二实体-关系的数据标准,或者实体-属性-属性值的数据标准。
步骤103,将所述多个药学数据源中的药学数据导入与所述关系数据模型对应的关系数据库,将每个药学数据源中的药学数据作为独立的数据库存储,不同的药学数据库之间没有关联。
步骤104,根据关系数据与图数据之间的映射关系,将所述关系数据库中的关系数据转换为图数据,并将所述图数据导入与所述图数据模型对应的图数据库,生成药学数据的知识网络。
具体地,可以根据关系数据与图数据之间的映射关系,从所述关系数据库中抽取关系数据,将所述关系数据转换为第一实体-第二实体-关系-属性的格式,将该格式的图数据导入与所述图数据模型对应的图数据库,将每个药学数据源的重要数据字段作为所述图数据库中的节点,生成药学数据的知识网络。
本申请实施例针对多来源、异构的药学及相关数据源,借助知识图谱技术和本体理论对药学数据进行模型化、标准化、网络化,便于理清知识结构、快速获得相关知识及其逻辑关系,形成系统化、结构化、标准化的药学数据,实现数据融合,进而高效准确地进行数据关联分析或形成药学知识网络,有助于处理医疗大数据中分散、异构、冗余和碎片化问题,有助于药学数据的共享和交互。
在本申请实施例中,以药学专业数据为基础,采集数十个国内外权威数据源的数据,从药物基础数据、药品批准、药品检验、不良反应、药品生产、一致性评价、疾病、临床试验、文献、专利、靶点等方面先进行数据分类,然后以本体理论和专业知识为基础,生成一个较完整的药学数据模型,再参考数据源特点,建立药学数据库,利用关系数据库和图数据库技术,构建出药学知识图谱。
具体地,以药学基本概念、知识体系为基础,利用本体建模思想,参考现有药学、生物、医学本体模型和资源库,梳理出药学本体概念、范围、分类、层次、结构,构建基础药学本体,再通过分析和整理国内外权威数据源的数据内容,逐渐融合并更新本体,最终建立一个比较完整的药学本体模型。采用本体建模方式,可以完成药学信息的知识表示,不但能展示出药学概念及相互关系,系统地描述药学知识体系,还可以不断融合并补充现有生物医学本体,为进一步实现药学数据标准化和结构化服务。
进一步地,以药学概念为依据,参考权威数据源中药学数据格式和内容,结合本体概念,构建药学数据模型。这时需要从专业知识角度,明确定义并详细描述药学概念、类型、范围、重要属性、关系类型、关系属性、关系方向等。完善药学信息的详细描述和知识表示,改进本体模型,形成完整的药学数据标准和数据格式,并为相关研究提供计算机可读的、可交换的数据形式。药学数据模型主要用于确定药学概念、属性及分类,并实现从本体-关系数据-图数据库的数据映射。
进一步地,异构数据源的数据经过过滤、清洗、去重等预处理,以药学标准术语表为参考,把形式各异的数据归一化,生成结构化、标准化药学数据,并结合数据源特点,采用关系数据库技术,实现原始数据来源的数据存储。为了解决药学知识网络化问题,利用药学本体和数据模型,以图数据库技术实现药学实体间关系表示,构建出药学知识图谱。数据标准化、归一化、规范化是药学数据集成的重要基础,需要结合专家的领域知识,通常采用词表、医学命名实体识别和相似性计算等混合方法实现。药学数据模型主要用于确定药学概念、属性及分类,并实现从关系数据库到图数据库的数据映射。
如图2所示,为本申请实施例提供的药学知识图谱构建方法的一种具体实现图,用于构建药学知识图谱。首先,对多个国内外药学权威数据源进行分析和数据自动采集;然后结合本体概念和药学专业数据,并参考数据源的数据内容和格式,以网页自动分析、实体识别结果为基础,经过专家审核和校验后,结合数据建模工具和方法,建立药学本体数据模型、关系数据模型和图数据模型,完成药学数据建模;再利用计算机技术,通过多次数据ETL处理,完成多来源数据的数据关联处理,建立药学知识库和知识图谱,实现药学数据的知识网络,并为数据检索、关联、可视化提供支撑。
其中,数据建模部分用于实现数据分析和采集、本体建模和数据建模,包括以下模块:
①采集和分析模块。根据内容对数据源进行分类后,先通过爬虫工具进行网页内容、元素、网站结构自动分析,整理出所有数据及字段格式等信息,再由人工校验,确定实体、关系信息,筛选出所需字段及其详细描述等信息;然后由数据采集模块进行采集;采集后的原始数据转换为指定格式的数据,便于进一步处理。
②本体建模模块。以MeSH、ICD等层次化、结构化的生物医学词表作为药学本体基础,结合Drugbank、PubChem等权威数据源相关术语,制定出药学本体的标准化术语表和术语注释,用于统一和整合多来源数据并辅助建立术语间关系;然后参考网站数据的分析结果,对数据中明确的药学术语/实体,记录其在数据源中的概念层级、格式和数据类型;对无法直接确定出实体的相关文本,要通过生物命名实体识别工具及标准化术语进行实体名称识别;确定出实体后,再利用机器学习方法进行实体间关系自动识别,总结和归纳新增实体的属性及实体间关系,并对实体进行分级处理,确定所处数据层次结构;最终由专家审核校验实体、属性、关系信息,把新确定的实体和关系合并到已有模型中。实现利用本体的标准术语,对实体进行注释,完成知识表示。
③数据建模模块。多来源数据需要经过多次处理,形成结构化、层次化、标准化数据才能进行数据共享和交换,因此,需要先建立数据标准,内容包括数据字段名称、类型、字段值、数据语义、描述等数据处理方法;同时结合药学本体模型及概念注释信息,实现实体数据的层级化;再需要根据药学标准化术语集、本体相似性算法、术语分类和聚类算法进行医学术语标准化处理;最后进行数据质量评估,生成格式和内容都标准的数据。数据建模是一个双向过程,既可以从本体模型出发建立数据模型,也可以根据关系数据模型完善和补充本体模型。采集每个数据源都会产生一套关系数据表,所以常常采用关系数据来完善本体模型,其过程是:首先定义此数据源的关系模型、数据结构和数据关系,并根据关系数据库的外键约束、主键约束情况,制定本体映射、属性映射、关系映射等规则,从而确定关系模型到本体模型的映射规则;接着分析数据库中的表、属性、主外键和包含依赖关系等,筛选出数据表中的实体和属性,再根据外键查找实体间关系,建立实体1-实体2-关系;然后对实体、属性和关系进行人工审核后,采用距离相似度、信息量和词库的混合计算方法计算实体相似度、属性相似度,进行概念聚类分析,最后调用本体集成方法,合并新数据到现有本体模型。完成知识抽取和知识融合。
数据模型部分用于实现药学本体的层次模型和关系数据库模型及图数据库模型。具体地,以药学领域中主要的概念和术语为基础,参考权威数据源中数据表示方法和层级关系,结合现有常用生物医学本体库,构建出药学本体模型,并确定药学本体中的概念、属性、层次、范围、类型和定义;然后归纳出药物、疾病、症状、非活性成分、药品、临床试验、不良反应、仪器设备、生产、试验方法、机构、器官组织、文献、专利、靶点、治疗和生物分子等概念类型;药学概念间关系,以药物为例,包括:药物-文献-引用关系、药物-临床试验-有效作用关系、药物-疾病-积极作用关系、药物-药物-相互作用关系、药物-药品-活性成分关系、药物-靶点-有效作用关系、药物-生物分子-良性/不良作用关系等;此外,每个概念还有hasName、hasDescription、hasEntityClass、hasSynonyms、hasSource、hasID等基本属性;制定每类概念的数据层次、范围、类型、定义等,实现药学概念的结构化、标准化、规范化的描述。
进一步地,根据关系数据库规范,进行数据定义、数据操作、数据建模、数据约束等设计;每个数据源作为独立库存储,以数据源的数据内容和格式为参考,基本保持源网站关系数据结构,不同数据源之间没有关联。从图数据设计出发,结合药学本体模型,确定每个数据源中的实体,及数据源直接给出的实体间关系;以关系数据模型为基础,建立三元组形式(实体1-实体2-关系)或(实体-属性-属性值)的数据标准,确定每个实体的定义和描述、实体间关系类型、实体的属性;并生成图数据库和关系数据-图数据映射表。映射数据实现本体模型-关系数据-图数据之间数据对应关系和转换规则,包含所有实体信息、关系数据、RDF三元组数据(即包含实体1-关系-实体2或实体-属性-属性值形式)。
此外,数据存储部分用于实现采集数据、关系数据、图数据存储功能。采集数据经过多次ETL处理(Extract-Transform-Load,抽取-转换-加载),即从采集数据到关系数据库到图数据库的ETL,最终以知识图谱形式实现药学知识融合、知识网络化。
本申请实施例以药学基本概念、知识体系为基础,利用本体建模思想,参考现有药学、生物、医学本体模型和资源库,梳理出药学本体概念、范围、分类、层次、结构,构建基础药学本体,再通过分析和整理国内外权威数据源的数据内容,逐渐融合并更新本体,最终建立一个比较完整的药学本体模型,完成药学信息的知识表示;将国内外数十个权威数据源(包括药物、疾病、临床试验、药品生产、专利、文献、靶点、通路、蛋白、医学词表等)的数据借助本体模型、关系数据模型和图数据模型,从概念、关系、属性、作用域、定义等方面对药学数据进行详细描述,建立一个较完整的药学数据模型,为药学数据共享和交互奠定基础;利用知识图谱技术和本体理论对药学知识进行模型化、标准化、网络化,便于理清知识结构、快速获得相关知识及其逻辑关系,有助于处理医疗大数据中分散、异构、冗余和碎片化问题,有助于药学数据的共享和交互,为药学知识网络化发展提供一套解决方案。
如图3所示,为本申请实施例提供的一种药学知识图谱构建装置的结构示意图,包括:
构建模块310,用于获取多个药学数据源中的药学数据,以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据所述多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型。
具体地,构建模块310,具体用于获取多个药学数据源中的药学数据,并根据所述多个药学数据源中的药学数据格式和药学数据内容,结合生物医学本体和医学词表,确定药学本体中的概念、属性、层次、范围、类型和定义,明确药学概念之间的关系,复用部分现有本体并建立药学本体模型,所述药学本体模型包括概念/类、关系、函数、公理和实例,制定每类概念的数据层次、范围、类型和定义,实现药学概念的结构化、标准化和规范化的描述,并构建药学术语集。
其中,药学本体模型中的概念类型包括:药物、疾病、症状、非活性成分、药品、临床试验、不良反应、仪器设备、生产、试验方法、机构、器官组织、文献、专利、靶点、治疗和生物分子;药学本体模型中的药学概念之间的关系包括:药物作用关系(is_drug_action_on)、相互作用关系(is_interaction_with)、化学反应产物关系(is_chemical_reaction_poduct_from)、导致关系(causes)、成分关系(is_ingredient_of)、参比/标准制剂关系(is_reference_listed_drug_to)、对象关系(is_object_of)、鉴定关系(is_identified_by)、有关关系(is_relation_with)、引用关系(is_citatioin_from)、来源于(is_source_from)、是(is_a)、部分关系(is_part_of)、相同关系(is_same_as)、产物关系(is_product_of)、有关(is_relation_with)等。
生成模块320,用于根据所述药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系。
具体地,生成模块320,用于根据关系数据库规范,以所述多个药学数据源中的药学数据格式、药学数据内容和药学本体及概念之间关系为参考,结合本体模型,进行关系数据的数据定义、数据操作、数据建模和数据约束,构建关系数据模型;从图数据设计出发,结合所述药学本体模型,确定每个药学数据源中的实体,及每个药学数据源直接给出的实体间的关系;以关系数据模型为基础,建立三元组形式的数据标准,确定每个实体的定义和描述、实体间的关系类型和实体的属性,并生成图数据库以及关系数据与图数据之间的映射关系,所述三元组形式的数据标准为第一实体-第二实体-关系的数据标准,或者实体-属性-属性值的数据标准。
导入模块330,用于将所述多个药学数据源中的药学数据导入与所述关系数据模型对应的关系数据库,将每个药学数据源中的药学数据作为独立的数据库存储,不同的药学数据库之间没有关联。
处理模块340,用于根据关系数据与图数据之间的映射关系,将所述关系数据库中的关系数据转换为图数据,并将所述图数据导入与所述图数据模型对应的图数据库,生成药学数据的知识网络。
具体地,处理模块340,具体用于根据关系数据与图数据之间的映射关系,从所述关系数据库中抽取关系数据,将所述关系数据转换为第一实体-第二实体-关系-属性的格式,将该格式的图数据导入与所述图数据模型对应的图数据库,将每个药学数据源的重要数据字段作为所述图数据库中的节点,生成药学数据的知识网络。
本申请实施例针对多来源、异构的药学及相关数据源,借助知识图谱技术和本体理论对药学数据进行模型化、标准化、网络化,便于理清知识结构、快速获得相关知识及其逻辑关系,形成系统化、结构化、标准化的药学数据,实现数据融合,进而高效准确地进行数据关联分析或形成药学知识网络,有助于处理医疗大数据中分散、异构、冗余和碎片化问题,有助于药学数据的共享和交互。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述药学知识图谱构建方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种药学知识图谱构建方法,其特征在于,包括以下步骤:
获取多个药学数据源中的药学数据,以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据所述多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型;
根据所述药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系;
将所述多个药学数据源中的药学数据导入与所述关系数据模型对应的关系数据库,将每个药学数据源中的药学数据作为独立的数据库存储,不同的药学数据库之间没有关联;
根据关系数据与图数据之间的映射关系,将所述关系数据库中的关系数据转换为图数据,并将所述图数据导入与所述图数据模型对应的图数据库,生成药学数据的知识网络。
2.根据权利要求1所述的方法,其特征在于,所述以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据所述多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型,具体包括:
根据所述多个药学数据源中的药学数据格式和药学数据内容,结合生物医学本体和医学词表,确定药学本体中的概念、属性、层次、范围、类型和定义,明确药学概念之间的关系,复用部分现有本体并建立药学本体模型,所述药学本体模型包括概念/类、关系、函数、公理和实例,制定每类概念的数据层次、范围、类型和定义,实现药学概念的结构化、标准化和规范化的描述,并构建药学术语集。
3.根据权利要求1所述的方法,其特征在于,所述药学本体模型中的概念类型包括:药物、疾病、症状、非活性成分、药品、临床试验、不良反应、仪器设备、生产、试验方法、机构、器官组织、文献、专利、靶点、治疗和生物分子;
所述药学本体模型中的药学概念之间的关系包括:药物作用关系(is_drug_action_on)、相互作用关系(is_interaction_with)、化学反应产物关系(is_chemical_reaction_poduct_from)、导致关系(causes)、成分关系(is_ingredient_of)、参比/标准制剂关系(is_reference_listed_drug_to)、对象关系(is_object_of)、鉴定关系(is_identified_by)、有关关系(is_relation_with)、引用关系(is_citatioin_from)、来源于(is_source_from)、是(is_a)、部分关系(is_part_of)、相同关系(is_same_as)、产物关系(is_product_of)和有关(is_relation_with);
此外,每个概念还有hasName、hasDescription、hasEntityClass、hasSynonyms、hasSource和hasID基本属性。
4.根据权利要求1所述的方法,其特征在于,所述根据所述药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系,具体包括:
根据关系数据库规范,以所述多个药学数据源中的药学数据格式、药学数据内容和药学本体及概念之间关系为参考,结合本体模型,进行关系数据的数据定义、数据操作和数据约束,构建关系数据模型;
从图数据设计出发,结合所述药学本体模型,确定每个药学数据源中的实体,及每个药学数据源直接给出的实体间的关系;
以关系数据模型为基础,建立三元组形式的数据标准,确定每个实体的定义和描述、实体间的关系类型和实体的属性,并生成图数据库以及关系数据与图数据之间的映射关系,所述三元组形式的数据标准为第一实体-第二实体-关系的数据标准,或者实体-属性-属性值的数据标准。
5.根据权利要求1所述的方法,其特征在于,所述根据关系数据与图数据之间的映射关系,将所述关系数据库中的关系数据转换为图数据,并将所述图数据导入与所述图数据模型对应的图数据库,生成药学数据的知识网络,具体包括:
根据关系数据与图数据之间的映射关系,从所述关系数据库中抽取关系数据,将所述关系数据转换为第一实体-第二实体-关系-属性的格式,将该格式的图数据导入与所述图数据模型对应的图数据库,将每个药学数据源的重要数据字段作为所述图数据库中的节点,生成药学数据的知识网络。
6.一种药学知识图谱构建装置,其特征在于,包括:
构建模块,用于获取多个药学数据源中的药学数据,以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据所述多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型;
生成模块,用于根据所述药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系;
导入模块,用于将所述多个药学数据源中的药学数据导入与所述关系数据模型对应的关系数据库,将每个药学数据源中的药学数据作为独立的数据库存储,不同的药学数据库之间没有关联;
处理模块,用于根据关系数据与图数据之间的映射关系,将所述关系数据库中的关系数据转换为图数据,并将所述图数据导入与所述图数据模型对应的图数据库,生成药学数据的知识网络。
7.根据权利要求6所述的装置,其特征在于,
所述构建模块,具体用于获取多个药学数据源中的药学数据,并根据所述多个药学数据源中的药学数据格式和药学数据内容,结合生物医学本体和医学词表,确定药学本体中的概念、属性、层次、范围、类型和定义,明确药学概念之间的关系,复用部分现有本体并建立药学本体模型,所述药学本体模型包括概念/类、关系、函数、公理和实例,制定每类概念的数据层次、范围、类型和定义,实现药学概念的结构化、标准化和规范化的描述,并构建药学术语集。
8.根据权利要求6所述的装置,其特征在于,所述药学本体模型中的概念类型包括:药物、疾病、症状、非活性成分、药品、临床试验、不良反应、仪器设备、生产、试验方法、机构、器官组织、文献、专利、靶点、治疗和生物分子;
所述药学本体模型中的药学概念之间的关系包括:药物作用关系(is_drug_action_on)、相互作用关系(is_interaction_with)、化学反应产物关系(is_chemical_reaction_poduct_from)、导致关系(causes)、成分关系(is_ingredient_of)、参比/标准制剂关系(is_reference_listed_drug_to)、对象关系(is_object_of)、鉴定关系(is_identified_by)、有关关系(is_relation_with)、引用关系(is_citatioin_from)、来源于(is_source_from)、是(is_a)、部分关系(is_part_of)、相同关系(is_same_as)、产物关系(is_product_of)和有关(is_relation_with);
此外,每个概念还有hasName、hasDescription、hasEntityClass、hasSynonyms、hasSource和hasID基本属性。
9.根据权利要求6所述的装置,其特征在于,
所述生成模块,用于根据关系数据库规范,以所述多个药学数据源中的药学数据格式、药学数据内容和药学本体及概念之间关系为参考,结合本体模型,进行关系数据的数据定义、数据操作、数据建模和数据约束,构建关系数据模型;从图数据设计出发,结合所述药学本体模型,确定每个药学数据源中的实体,及每个药学数据源直接给出的实体间的关系;以关系数据模型为基础,建立三元组形式的数据标准,确定每个实体的定义和描述、实体间的关系类型和实体的属性,并生成图数据库以及关系数据与图数据之间的映射关系,所述三元组形式的数据标准为第一实体-第二实体-关系的数据标准,或者实体-属性-属性值的数据标准。
10.根据权利要求6所述的装置,其特征在于,
所述处理模块,具体用于根据关系数据与图数据之间的映射关系,从所述关系数据库中抽取关系数据,将所述关系数据转换为第一实体-第二实体-关系-属性的格式,将该格式的图数据导入与所述图数据模型对应的图数据库,将每个药学数据源的重要数据字段作为所述图数据库中的节点,生成药学数据的知识网络。
CN202210009522.2A 2022-01-06 2022-01-06 一种药学知识图谱构建方法和装置 Pending CN114328975A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210009522.2A CN114328975A (zh) 2022-01-06 2022-01-06 一种药学知识图谱构建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210009522.2A CN114328975A (zh) 2022-01-06 2022-01-06 一种药学知识图谱构建方法和装置

Publications (1)

Publication Number Publication Date
CN114328975A true CN114328975A (zh) 2022-04-12

Family

ID=81025572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210009522.2A Pending CN114328975A (zh) 2022-01-06 2022-01-06 一种药学知识图谱构建方法和装置

Country Status (1)

Country Link
CN (1) CN114328975A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996370A (zh) * 2022-08-03 2022-09-02 杰为软件系统(深圳)有限公司 一种关系型数据库到语义三元组的数据转换和迁移方法
CN115544278A (zh) * 2022-12-05 2022-12-30 中国医学科学院医学信息研究所 一种医学量表语义关联网络构建方法及系统
CN117217308A (zh) * 2023-11-08 2023-12-12 中国标准化研究院 一种设计理性知识网络的构建方法、装置及存储介质
CN117744784A (zh) * 2024-02-04 2024-03-22 徐州医科大学 一种医学科研知识图谱构建与智能检索方法及系统
CN117932098A (zh) * 2024-01-23 2024-04-26 深圳麦风科技有限公司 历史聊天记录的业务请求处理方法、设备及存储介质
CN118210960A (zh) * 2023-12-13 2024-06-18 西湖大学 天然药材专域知识库的构建和使用方法
CN118245608A (zh) * 2024-03-19 2024-06-25 上海森亿医疗科技有限公司 基于语义分析及知识图谱的疾病研究数据集融合方法、系统及终端

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996370A (zh) * 2022-08-03 2022-09-02 杰为软件系统(深圳)有限公司 一种关系型数据库到语义三元组的数据转换和迁移方法
CN115544278A (zh) * 2022-12-05 2022-12-30 中国医学科学院医学信息研究所 一种医学量表语义关联网络构建方法及系统
CN117217308A (zh) * 2023-11-08 2023-12-12 中国标准化研究院 一种设计理性知识网络的构建方法、装置及存储介质
CN117217308B (zh) * 2023-11-08 2024-02-27 中国标准化研究院 一种设计理性知识网络的构建方法、装置及存储介质
CN118210960A (zh) * 2023-12-13 2024-06-18 西湖大学 天然药材专域知识库的构建和使用方法
CN118210960B (zh) * 2023-12-13 2024-10-18 西湖大学 天然药材专域知识库的构建和使用方法
CN117932098A (zh) * 2024-01-23 2024-04-26 深圳麦风科技有限公司 历史聊天记录的业务请求处理方法、设备及存储介质
CN117744784A (zh) * 2024-02-04 2024-03-22 徐州医科大学 一种医学科研知识图谱构建与智能检索方法及系统
CN117744784B (zh) * 2024-02-04 2024-04-30 徐州医科大学 一种医学科研知识图谱构建与智能检索方法及系统
CN118245608A (zh) * 2024-03-19 2024-06-25 上海森亿医疗科技有限公司 基于语义分析及知识图谱的疾病研究数据集融合方法、系统及终端

Similar Documents

Publication Publication Date Title
CN114328975A (zh) 一种药学知识图谱构建方法和装置
CN106919671B (zh) 一种中医文本病案挖掘与辅助决策智能系统
Hu et al. A bibliometric analysis and visualization of medical data mining research
Stevens et al. Ontology-based knowledge representation for bioinformatics
US20170124158A1 (en) Method and system for ontology driven data collection and processing
CN110990579A (zh) 跨语言的医学知识图谱构建方法、装置与电子设备
García et al. Semantic similarity-based alignment between clinical archetypes and SNOMED CT: an application to observations
JP2017513134A (ja) オントロジーマッピング方法及び装置
JP7526316B2 (ja) 汎用モデルに基づく標準的な医学用語管理システム及び方法
WO2021238436A1 (zh) 多药共用查询方法、移动终端及存储介质
CN114003734A (zh) 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法
CN115640406A (zh) 一种基于多源异构大数据分析处理与知识图谱构建方法
CN113434693A (zh) 一种基于智慧数据平台的数据集成方法
Jiang et al. A domain ontology approach in the ETL process of data warehousing
Madaan et al. Quasi-relational query language interface for persistent standardized EHRs: Using NoSQL databases
Shi et al. Semantic-based data integration model applied to heterogeneous medical information system
Schulz et al. Alignment of the UMLS semantic network with BioTop: methodology and assessment
Basharat et al. Semantically enriched task and workflow automation in crowdsourcing for linked data management
Mao et al. Dynamic sub-ontology evolution for traditional Chinese medicine web ontology
Zheng et al. COVID19-OBKG: an ontology-based knowledge graph and web service for COVID-19
Cvjetković et al. The ontology supported intelligent system for experiment search in the scientific research center
Dastgheib et al. mOntage: building domain ontologies from linked open data
Awangga et al. Ontology design based on data family planning field officer using OWL and RDF
Rajabi et al. Building a disease knowledge graph
Zhang et al. Construction of MeSH-like obstetric knowledge graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination