CN110569372B

CN110569372B - 一种心脏病大数据知识图谱系统的构建方法

Info

Publication number: CN110569372B
Application number: CN201910891236.1A
Authority: CN
Inventors: 刘琦; 周翔鸿; 何婧婧; 姚怡君; 葛玲玲; 吴铸衡; 李登; 陈茂
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2022-08-30
Anticipated expiration: 2039-09-20
Also published as: CN110569372A

Abstract

本发明公开了一种心脏病大数据知识图谱系统的构建方法，包括以下步骤：首先采集心脏病基础数据，获取基础知识库；然后将基础知识库的数据进行分类与联系，获取初始数据；通过RNN神经网络对初始数据进行数据抽取，获取每条知识的实体、属性和关系，得到量化医学数据；根据Dice系数法和Canopy算法，将量化医学数据整合，获取标准知识数据；根据标准知识数据，获取知识图谱，构建知识图谱系统，并建立知识图谱系统的高速查询接口。本发明高度整合心脏病医学知识，能够快速查询心脏病医学知识和辅助医生做出合理的诊疗。

Description

一种心脏病大数据知识图谱系统的构建方法

技术领域

本发明属于数据挖掘领域，具体涉及一种心脏病大数据知识图谱系统的构建方法。

背景技术

数据挖掘是人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。今年来数据挖掘的应用越来越广泛，在各个领域都有很好的应用，但在医疗领域中，现有的技术提取知识节点的速度慢，并且逻辑性差，导致实用性大大降低。

发明内容

针对现有技术中的上述不足，本发明提供的一种心脏病大数据知识图谱系统的构建方法解决了现有技术提取速度慢和逻辑性差的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种心脏病大数据知识图谱系统的构建方法，包括以下步骤：

S1、采集心脏病基础数据，获取基础知识库；

S2、将基础知识库的数据进行分类与联系，获取初始数据；

S3、通过RNN神经网络对初始数据进行数据抽取，获取每条知识的实体、属性和关系，得到量化医学数据；

S4、根据Dice系数法和Canopy算法，将量化医学数据整合，获取标准知识数据；

S5、根据标准知识数据，获取知识图谱，构建知识图谱系统，并建立知识图谱系统的高速查询接口。

进一步地，所述步骤S2包括以下分步骤：

S2.1、对基础知识库中知识数据的总数进行统计，并计算最小支持度计数；

S2.2、依次判断每条知识数据的计数是否满足最小支持度，并将满足最小支持度的知识数据输出，得到若干频繁1项集；

S2.3、读取频繁k-1项集，根据剪枝算法产生频繁k项集，并计算频繁k项集的计数，k≥2；

S2.4、判断频繁k项集的计数是否满足最小支持度，若是则令k的计数值加1，并返回步骤S2.3，若否则输出频繁k项集；

S2.5、遍历所有频繁1项集，获取若干频繁k项集，得到初始化数据。

进一步地，所述步骤S3包括以下分步骤：

S3.1、将初始化数据的每条数据进行数字化，得到实体；

S3.2、根据NLP技术，通过RNN神经网络抽取实体的属性和关系；

S3.3、将实体、属性和关系整合，得到量化医学数据。

进一步地，所述步骤S4包括以下分步骤：

S4.1、将量化医学数据中文本进行语法正规化和符号正规化，得到统一格式的文本；

S4.2、利用Hash函数对Canopy算法进行分块；

S4.3、根据Dice系数法对每个文本进行相似度计算，得到属性相似度；

S4.4、根据属性相似度，通过Canopy算法获取实体相似度；

S4.5、根据实体相似度，依次判断两个实体是否为相同，并将相同的实体整合为一个实体，得到标准知识数据。

进一步地，所述步骤S4.3中根据Dice系数法对文本进行相似度计算的公式为：

其中，S为一个随机文本数据的属性，T为另一个随机文本数据的属性，SimDice(S,T)表示文本相似度。

进一步地，所述步骤S5包括以下分步骤：

S5.1、根据标准知识数据中的知识节点，建立每个知识节点的知识图谱，将知识节点之间通过关系连接；

S5.2、将知识图谱整合，得到图数据库，并建立高速查询接口。

进一步地，所述知识节点包含其属性，使用高速查询接口查询实体时，通过关系即可读取其相关信息。

本发明的有益效果为：

(1)本发明抽取多种来源的医学知识数据，保证了数据的权威性和实用性，对辅助医生进行诊疗有极大的价值。

(2)本发明以NLP技术为基础，对医学知识数据进行高度整合和关联处理，处理过后的医学知识数据的更具使用价值，使用时更加方便。

(3)本发明通过构建图数据库，并建立高速查询结构，查询和使用医学知识数据更加快捷方便。

(4)本发明充分利用医学知识数据，逻辑性强，查询速度快，能够辅助医生更科学合理地进行心脏病学的诊疗。

附图说明

图1为本发明提出的一种心脏病大数据知识图谱系统的构建方法流程图。

图2为本发明提出的知识图谱示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

下面结合附图详细说明本发明的实施例。

如图1所示，一种心脏病大数据知识图谱系统的构建方法，包括以下步骤：

S1、采集心脏病基础数据，获取基础知识库；

S2、将基础知识库的数据进行分类与联系，获取初始数据；

在本实施例中，心脏病基础数据包括美国心脏病协会、欧洲心脏病协会和中华医学会的最新临床诊疗指南的文本数据，以及华西医院心脏内科的诊疗数据。

步骤S2包括以下分步骤：

所述初始化数据包括若干频繁k项集，通过初始化数据即可观察所有知识数据的关联情况。

在本实施例中，使用Hadoop大数据框架技术对基础知识库的数据进行分类与联系，Hadoop大数据框架包括MapReduce模块和HDFS模块，利用Hadoop大数据框架进行数据的统计和计算最小支持度计数，利用MapReduce模块判断每条知识数据的计数是否满足最小支持度。

步骤S3包括以下分步骤：

S3.1、将初始化数据的每条数据进行数字化，得到实体；

S3.2、根据NLP技术，通过RNN神经网络抽取实体的属性和关系；

S3.3、将实体、属性和关系整合，得到量化医学数据。

步骤S4包括以下分步骤：

S4.2、利用Hash函数对Canopy算法进行分块；

S4.4、根据属性相似度，通过Canopy算法获取实体相似度；

步骤S4.3中根据Dice系数法对文本进行相似度计算的公式为：

如图2所示，步骤S5包括以下分步骤：

所述知识节点包含其属性，使用高速查询接口查询实体时，通过关系即可读取其相关信息。

本发明抽取多种来源的医学知识数据，保证了数据的权威性和实用性，对辅助医生进行诊疗有极大的价值。本发明以NLP技术为基础，对医学知识数据进行高度整合和关联处理，处理过后的医学知识数据的更具使用价值，使用时更加方便。

本发明通过构建图数据库，并建立高速查询结构，查询和使用医学知识数据更加快捷方便。本发明充分利用医学知识数据，逻辑性强，查询速度快，能够辅助医生更科学合理地进行心脏病学的诊疗。

Claims

1.一种心脏病大数据知识图谱系统的构建方法，其特征在于，包括以下步骤：

S1、采集心脏病基础数据，获取基础知识库；

S2、将基础知识库的数据进行分类与联系，获取初始数据；

S5、根据标准知识数据，获取知识图谱，构建知识图谱系统，并建立知识图谱系统的高速查询接口；

所述步骤S2包括以下分步骤：

2.根据权利要求1所述的心脏病大数据知识图谱系统的构建方法，其特征在于，所述步骤S3包括以下分步骤：

S3.1、将初始化数据的每条数据进行数字化，得到实体；

S3.2、根据NLP技术，通过RNN神经网络抽取实体的属性和关系；

S3.3、将实体、属性和关系整合，得到量化医学数据。

3.根据权利要求2所述的心脏病大数据知识图谱系统的构建方法，其特征在于，所述步骤S4包括以下分步骤：

S4.2、利用Hash函数对Canopy算法进行分块；

S4.3、根据Dice系数法对文本进行相似度计算，得到属性相似度；

S4.4、根据属性相似度，通过Canopy算法获取实体相似度；

4.根据权利要求3所述的心脏病大数据知识图谱系统的构建方法，其特征在于，所述步骤S4.3中根据Dice系数法对文本进行相似度计算的公式为：

5.根据权利要求3所述的心脏病大数据知识图谱系统的构建方法，其特征在于，所述步骤S5包括以下分步骤：

6.根据权利要求5所述的心脏病大数据知识图谱系统的构建方法，其特征在于，所述知识节点包含其属性，使用高速查询接口查询实体时，通过关系即可读取其相关信息。