CN110569372B - 一种心脏病大数据知识图谱系统的构建方法 - Google Patents

一种心脏病大数据知识图谱系统的构建方法 Download PDF

Info

Publication number
CN110569372B
CN110569372B CN201910891236.1A CN201910891236A CN110569372B CN 110569372 B CN110569372 B CN 110569372B CN 201910891236 A CN201910891236 A CN 201910891236A CN 110569372 B CN110569372 B CN 110569372B
Authority
CN
China
Prior art keywords
data
knowledge
heart disease
knowledge graph
frequent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910891236.1A
Other languages
English (en)
Other versions
CN110569372A (zh
Inventor
刘琦
周翔鸿
何婧婧
姚怡君
葛玲玲
吴铸衡
李登
陈茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201910891236.1A priority Critical patent/CN110569372B/zh
Publication of CN110569372A publication Critical patent/CN110569372A/zh
Application granted granted Critical
Publication of CN110569372B publication Critical patent/CN110569372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种心脏病大数据知识图谱系统的构建方法,包括以下步骤:首先采集心脏病基础数据,获取基础知识库;然后将基础知识库的数据进行分类与联系,获取初始数据;通过RNN神经网络对初始数据进行数据抽取,获取每条知识的实体、属性和关系,得到量化医学数据;根据Dice系数法和Canopy算法,将量化医学数据整合,获取标准知识数据;根据标准知识数据,获取知识图谱,构建知识图谱系统,并建立知识图谱系统的高速查询接口。本发明高度整合心脏病医学知识,能够快速查询心脏病医学知识和辅助医生做出合理的诊疗。

Description

一种心脏病大数据知识图谱系统的构建方法
技术领域
本发明属于数据挖掘领域,具体涉及一种心脏病大数据知识图谱系统的构建方法。
背景技术
数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。今年来数据挖掘的应用越来越广泛,在各个领域都有很好的应用,但在医疗领域中,现有的技术提取知识节点的速度慢,并且逻辑性差,导致实用性大大降低。
发明内容
针对现有技术中的上述不足,本发明提供的一种心脏病大数据知识图谱系统的构建方法解决了现有技术提取速度慢和逻辑性差的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种心脏病大数据知识图谱系统的构建方法,包括以下步骤:
S1、采集心脏病基础数据,获取基础知识库;
S2、将基础知识库的数据进行分类与联系,获取初始数据;
S3、通过RNN神经网络对初始数据进行数据抽取,获取每条知识的实体、属性和关系,得到量化医学数据;
S4、根据Dice系数法和Canopy算法,将量化医学数据整合,获取标准知识数据;
S5、根据标准知识数据,获取知识图谱,构建知识图谱系统,并建立知识图谱系统的高速查询接口。
进一步地,所述步骤S2包括以下分步骤:
S2.1、对基础知识库中知识数据的总数进行统计,并计算最小支持度计数;
S2.2、依次判断每条知识数据的计数是否满足最小支持度,并将满足最小支持度的知识数据输出,得到若干频繁1项集;
S2.3、读取频繁k-1项集,根据剪枝算法产生频繁k项集,并计算频繁k项集的计数,k≥2;
S2.4、判断频繁k项集的计数是否满足最小支持度,若是则令k的计数值加1,并返回步骤S2.3,若否则输出频繁k项集;
S2.5、遍历所有频繁1项集,获取若干频繁k项集,得到初始化数据。
进一步地,所述步骤S3包括以下分步骤:
S3.1、将初始化数据的每条数据进行数字化,得到实体;
S3.2、根据NLP技术,通过RNN神经网络抽取实体的属性和关系;
S3.3、将实体、属性和关系整合,得到量化医学数据。
进一步地,所述步骤S4包括以下分步骤:
S4.1、将量化医学数据中文本进行语法正规化和符号正规化,得到统一格式的文本;
S4.2、利用Hash函数对Canopy算法进行分块;
S4.3、根据Dice系数法对每个文本进行相似度计算,得到属性相似度;
S4.4、根据属性相似度,通过Canopy算法获取实体相似度;
S4.5、根据实体相似度,依次判断两个实体是否为相同,并将相同的实体整合为一个实体,得到标准知识数据。
进一步地,所述步骤S4.3中根据Dice系数法对文本进行相似度计算的公式为:
Figure BDA0002208809490000031
其中,S为一个随机文本数据的属性,T为另一个随机文本数据的属性,SimDice(S,T)表示文本相似度。
进一步地,所述步骤S5包括以下分步骤:
S5.1、根据标准知识数据中的知识节点,建立每个知识节点的知识图谱,将知识节点之间通过关系连接;
S5.2、将知识图谱整合,得到图数据库,并建立高速查询接口。
进一步地,所述知识节点包含其属性,使用高速查询接口查询实体时,通过关系即可读取其相关信息。
本发明的有益效果为:
(1)本发明抽取多种来源的医学知识数据,保证了数据的权威性和实用性,对辅助医生进行诊疗有极大的价值。
(2)本发明以NLP技术为基础,对医学知识数据进行高度整合和关联处理,处理过后的医学知识数据的更具使用价值,使用时更加方便。
(3)本发明通过构建图数据库,并建立高速查询结构,查询和使用医学知识数据更加快捷方便。
(4)本发明充分利用医学知识数据,逻辑性强,查询速度快,能够辅助医生更科学合理地进行心脏病学的诊疗。
附图说明
图1为本发明提出的一种心脏病大数据知识图谱系统的构建方法流程图。
图2为本发明提出的知识图谱示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
下面结合附图详细说明本发明的实施例。
如图1所示,一种心脏病大数据知识图谱系统的构建方法,包括以下步骤:
S1、采集心脏病基础数据,获取基础知识库;
S2、将基础知识库的数据进行分类与联系,获取初始数据;
S3、通过RNN神经网络对初始数据进行数据抽取,获取每条知识的实体、属性和关系,得到量化医学数据;
S4、根据Dice系数法和Canopy算法,将量化医学数据整合,获取标准知识数据;
S5、根据标准知识数据,获取知识图谱,构建知识图谱系统,并建立知识图谱系统的高速查询接口。
在本实施例中,心脏病基础数据包括美国心脏病协会、欧洲心脏病协会和中华医学会的最新临床诊疗指南的文本数据,以及华西医院心脏内科的诊疗数据。
步骤S2包括以下分步骤:
S2.1、对基础知识库中知识数据的总数进行统计,并计算最小支持度计数;
S2.2、依次判断每条知识数据的计数是否满足最小支持度,并将满足最小支持度的知识数据输出,得到若干频繁1项集;
S2.3、读取频繁k-1项集,根据剪枝算法产生频繁k项集,并计算频繁k项集的计数,k≥2;
S2.4、判断频繁k项集的计数是否满足最小支持度,若是则令k的计数值加1,并返回步骤S2.3,若否则输出频繁k项集;
S2.5、遍历所有频繁1项集,获取若干频繁k项集,得到初始化数据。
所述初始化数据包括若干频繁k项集,通过初始化数据即可观察所有知识数据的关联情况。
在本实施例中,使用Hadoop大数据框架技术对基础知识库的数据进行分类与联系,Hadoop大数据框架包括MapReduce模块和HDFS模块,利用Hadoop大数据框架进行数据的统计和计算最小支持度计数,利用MapReduce模块判断每条知识数据的计数是否满足最小支持度。
步骤S3包括以下分步骤:
S3.1、将初始化数据的每条数据进行数字化,得到实体;
S3.2、根据NLP技术,通过RNN神经网络抽取实体的属性和关系;
S3.3、将实体、属性和关系整合,得到量化医学数据。
步骤S4包括以下分步骤:
S4.1、将量化医学数据中文本进行语法正规化和符号正规化,得到统一格式的文本;
S4.2、利用Hash函数对Canopy算法进行分块;
S4.3、根据Dice系数法对每个文本进行相似度计算,得到属性相似度;
S4.4、根据属性相似度,通过Canopy算法获取实体相似度;
S4.5、根据实体相似度,依次判断两个实体是否为相同,并将相同的实体整合为一个实体,得到标准知识数据。
步骤S4.3中根据Dice系数法对文本进行相似度计算的公式为:
Figure BDA0002208809490000061
其中,S为一个随机文本数据的属性,T为另一个随机文本数据的属性,SimDice(S,T)表示文本相似度。
如图2所示,步骤S5包括以下分步骤:
S5.1、根据标准知识数据中的知识节点,建立每个知识节点的知识图谱,将知识节点之间通过关系连接;
S5.2、将知识图谱整合,得到图数据库,并建立高速查询接口。
所述知识节点包含其属性,使用高速查询接口查询实体时,通过关系即可读取其相关信息。
本发明抽取多种来源的医学知识数据,保证了数据的权威性和实用性,对辅助医生进行诊疗有极大的价值。本发明以NLP技术为基础,对医学知识数据进行高度整合和关联处理,处理过后的医学知识数据的更具使用价值,使用时更加方便。
本发明通过构建图数据库,并建立高速查询结构,查询和使用医学知识数据更加快捷方便。本发明充分利用医学知识数据,逻辑性强,查询速度快,能够辅助医生更科学合理地进行心脏病学的诊疗。

Claims (6)

1.一种心脏病大数据知识图谱系统的构建方法,其特征在于,包括以下步骤:
S1、采集心脏病基础数据,获取基础知识库;
S2、将基础知识库的数据进行分类与联系,获取初始数据;
S3、通过RNN神经网络对初始数据进行数据抽取,获取每条知识的实体、属性和关系,得到量化医学数据;
S4、根据Dice系数法和Canopy算法,将量化医学数据整合,获取标准知识数据;
S5、根据标准知识数据,获取知识图谱,构建知识图谱系统,并建立知识图谱系统的高速查询接口;
所述步骤S2包括以下分步骤:
S2.1、对基础知识库中知识数据的总数进行统计,并计算最小支持度计数;
S2.2、依次判断每条知识数据的计数是否满足最小支持度,并将满足最小支持度的知识数据输出,得到若干频繁1项集;
S2.3、读取频繁k-1项集,根据剪枝算法产生频繁k项集,并计算频繁k项集的计数,k≥2;
S2.4、判断频繁k项集的计数是否满足最小支持度,若是则令k的计数值加1,并返回步骤S2.3,若否则输出频繁k项集;
S2.5、遍历所有频繁1项集,获取若干频繁k项集,得到初始化数据。
2.根据权利要求1所述的心脏病大数据知识图谱系统的构建方法,其特征在于,所述步骤S3包括以下分步骤:
S3.1、将初始化数据的每条数据进行数字化,得到实体;
S3.2、根据NLP技术,通过RNN神经网络抽取实体的属性和关系;
S3.3、将实体、属性和关系整合,得到量化医学数据。
3.根据权利要求2所述的心脏病大数据知识图谱系统的构建方法,其特征在于,所述步骤S4包括以下分步骤:
S4.1、将量化医学数据中文本进行语法正规化和符号正规化,得到统一格式的文本;
S4.2、利用Hash函数对Canopy算法进行分块;
S4.3、根据Dice系数法对文本进行相似度计算,得到属性相似度;
S4.4、根据属性相似度,通过Canopy算法获取实体相似度;
S4.5、根据实体相似度,依次判断两个实体是否为相同,并将相同的实体整合为一个实体,得到标准知识数据。
4.根据权利要求3所述的心脏病大数据知识图谱系统的构建方法,其特征在于,所述步骤S4.3中根据Dice系数法对文本进行相似度计算的公式为:
Figure FDA0003501365670000021
其中,S为一个随机文本数据的属性,T为另一个随机文本数据的属性,SimDice(S,T)表示文本相似度。
5.根据权利要求3所述的心脏病大数据知识图谱系统的构建方法,其特征在于,所述步骤S5包括以下分步骤:
S5.1、根据标准知识数据中的知识节点,建立每个知识节点的知识图谱,将知识节点之间通过关系连接;
S5.2、将知识图谱整合,得到图数据库,并建立高速查询接口。
6.根据权利要求5所述的心脏病大数据知识图谱系统的构建方法,其特征在于,所述知识节点包含其属性,使用高速查询接口查询实体时,通过关系即可读取其相关信息。
CN201910891236.1A 2019-09-20 2019-09-20 一种心脏病大数据知识图谱系统的构建方法 Active CN110569372B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910891236.1A CN110569372B (zh) 2019-09-20 2019-09-20 一种心脏病大数据知识图谱系统的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910891236.1A CN110569372B (zh) 2019-09-20 2019-09-20 一种心脏病大数据知识图谱系统的构建方法

Publications (2)

Publication Number Publication Date
CN110569372A CN110569372A (zh) 2019-12-13
CN110569372B true CN110569372B (zh) 2022-08-30

Family

ID=68781438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910891236.1A Active CN110569372B (zh) 2019-09-20 2019-09-20 一种心脏病大数据知识图谱系统的构建方法

Country Status (1)

Country Link
CN (1) CN110569372B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191048B (zh) * 2020-01-02 2023-06-02 南京邮电大学 基于知识图谱的急诊问答系统构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108492887A (zh) * 2018-04-13 2018-09-04 合肥工业大学 医疗知识图谱构建方法及装置
CN109885692A (zh) * 2019-01-11 2019-06-14 平安科技(深圳)有限公司 知识数据存储方法、装置、计算机设备和存储介质
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919671B (zh) * 2017-02-20 2020-06-05 广东省中医院 一种中医文本病案挖掘与辅助决策智能系统
CN109697233B (zh) * 2018-12-03 2023-06-20 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
CN110490251B (zh) * 2019-03-08 2022-07-01 腾讯科技(深圳)有限公司 基于人工智能的预测分类模型获取方法及装置、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN108492887A (zh) * 2018-04-13 2018-09-04 合肥工业大学 医疗知识图谱构建方法及装置
CN109885692A (zh) * 2019-01-11 2019-06-14 平安科技(深圳)有限公司 知识数据存储方法、装置、计算机设备和存储介质
CN110222201A (zh) * 2019-06-26 2019-09-10 中国医学科学院医学信息研究所 一种专病知识图谱构建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
知识图谱研究综述及其在医疗领域的应用;侯梦薇,等;《计算机研究与发展》;20181231;第55卷(第12期);第2587-2597页 *

Also Published As

Publication number Publication date
CN110569372A (zh) 2019-12-13

Similar Documents

Publication Publication Date Title
CN111414393B (zh) 一种基于医学知识图谱的语义相似病例检索方法及设备
Muniswamaiah et al. Context-aware query performance optimization for big data analytics in healthcare
CN113707297B (zh) 医疗数据的处理方法、装置、设备及存储介质
CN109906449B (zh) 一种查找方法及装置
CN106407443B (zh) 一种结构化医疗数据生成方法及装置
Lbath et al. Schema inference for property graphs
CN106021260A (zh) 在多个运行时产物中搜索至少一个关系模式的方法和系统
Mohamed et al. E-clean: a data cleaning framework for patient data
CN110910991B (zh) 一种医用自动图像处理系统
CN103513781A (zh) 一种准确快速的电子病历录入系统
CN110019410A (zh) 针对中医药临床案例信息的大数据挖掘系统
CN110569372B (zh) 一种心脏病大数据知识图谱系统的构建方法
Leng et al. Bi-level artificial intelligence model for risk classification of acute respiratory diseases based on Chinese clinical data
Vanathi et al. A robust architectural framework for big data stream computing in personal healthcare real time analytics
CN116108000B (zh) 医疗数据管理查询方法
CN116304114B (zh) 基于外科护理的智能数据处理方法及系统
Satti et al. Semantic bridge for resolving healthcare data interoperability
Sindhu et al. A framework to handle data heterogeneity contextual to medical big data
CN110010231A (zh) 一种数据处理系统及计算机可读存储介质
Wei et al. Optimization and application in medical big document-data of Apriori algorithm based on MapReduce
CN114996452B (zh) 医保限定支付文本逻辑表达式生成方法、系统及存储介质
CN117542467B (zh) 基于患者数据的专病标准数据库自动构建方法
CN117093884B (zh) 基于层次聚类的多模态对比学习样本构建方法及系统
Arfaoui A new process for healthcare big data warehouse integration
Subitha et al. An effective method for matching patient records from multiple databases using neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant