CN108615560A - 一种基于数据挖掘的临床医疗数据分析方法 - Google Patents
一种基于数据挖掘的临床医疗数据分析方法 Download PDFInfo
- Publication number
- CN108615560A CN108615560A CN201810225967.8A CN201810225967A CN108615560A CN 108615560 A CN108615560 A CN 108615560A CN 201810225967 A CN201810225967 A CN 201810225967A CN 108615560 A CN108615560 A CN 108615560A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- data mining
- clinical
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
本发明公开了一种基于数据挖掘的临床医疗数据分析方法。包括临床数据采集,将数据抽取、转换和加载到临床医疗数据仓库中;临床数据挖掘分析建立决策树,将数据挖掘建模、数据挖掘结果展示和用户交互界面集成到数据挖掘平台;将临床医疗数据分析结果通过用户交互界面进行展示。本发明通过数据挖掘技术对临床数据进行分析,并通过决策树方法进行建模;发现与疾病相关的危险因素,实现对疾病危险因素筛选分析;帮助患者进行治疗恢复,避免患者治疗后复发。
Description
技术领域
本发明属于医疗数据分析技术领域,特别是涉及一种基于数据挖掘的临床医疗数据分析方法。
背景技术
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,寻找有意义、有价值信息的过程。目前,数据挖掘在医学领域的应用主要集中在疾病的辅助诊断、药物开发和医院信息系统中的应用和遗传学方面的应用。
近年来,随着医院信息化建设的发展,电子病历和病案的大量应用,医疗设备和仪器的数字化,使得医院数据库系统中积累了大量有关病人的病史、诊断、检验和治疗的临床信息,通过数据挖掘技术对临床信息的挖掘分析,对疾病的临床诊断、治疗和预后的关系研究有着很大的帮助。
发明内容
本发明的目的在于提供一种基于数据挖掘的临床医疗数据分析方法,通过数据挖掘技术对临床数据进行分析,并通过决策树方法进行建模;发现与疾病相关的危险因素,实现对疾病危险因素筛选分析;帮助患者进行治疗恢复,避免患者治疗后复发。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于数据挖掘的临床医疗数据分析方法,包括以下步骤:
步骤一:临床数据采集
通过业务数据库中的病案管理、电子病历、文本和表格信息采集患者的医疗信息,所述医疗信息包括患者入院、住院、治疗、检查、药物和出院信息;
将数据抽取、转换和加载到临床医疗数据仓库中;
步骤二:临床数据挖掘分析
SS01、数据选取
选取与疾病治疗或复发的相关数据作为数据挖掘项目的变量,所述相关数据包括年龄信息、手术切信息除、家族遗传信息、营养状况信息、术后化疗信息和复发信息;
SS02、形成训练数据集
从业务数据库中抽取数据,经过数据处理去掉与决策无关的属性,处理含空缺值的属性,形成决策树的训练数据集;
选取复发信息作为目标属性建立决策树,以进行治疗后复发的危险因素分析;
SS03、构建临床医疗数据仓库模型
根据SS01与SS02中的所示数据,通过SQL SERVER创建临床医疗数据仓库;
步骤三:临床数据展示
将数据挖掘建模、数据挖掘结果展示和用户交互界面集成到数据挖掘平台;其中,将临床医疗数据分析结果通过用户交互界面进行展示。
优选地,步骤二中的数据挖掘建模采用My Eclipse作为开发工具,采用Weka作为数据挖掘工作平台;通过Weka承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类和关联算法进行数据挖掘建模。
优选地,步骤二中数据的管理通过元数据库和元数据管理项目进行管理;
其中,通过在元数据库设计中包括数据源信息表、目标数据源信息表、数据源与目标数据源直接映射关系表和数据转换规则信息表实现对数据抽取、转换和加载模块中的数据管理;
其中,通过元数据管理实现对数据仓库中事实表和维表中属性的动态管理,由事实表的元数据表决定事实表的属性和维表个数及属性。
优选地,所述用户交互界面为可视化工具。
本发明具有以下有益效果:
1、本发明通过数据挖掘技术对临床数据进行分析,并通过决策树方法进行建模;发现与疾病相关的危险因素,实现对疾病危险因素筛选分析;帮助患者进行治疗恢复,避免患者治疗后复发。
2、本发明通过构建元数据管理,使数据挖掘系统具有良好的扩展性和灵活性,通过数据挖掘系统与医院信息系统的接口,方便挖掘系统从医院信息系统直接提前数据,实现由医务人员根据医学分析的需要自行选取数据进行数据分析研究。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于数据挖掘的临床医疗数据分析方法。
图2为具体实施例二中胃癌术后复发危险因素分析决策树的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
具体实施例一:
请参阅图1所示,本发明为一种基于数据挖掘的临床医疗数据分析方法,包括以下步骤:
步骤一:临床数据采集
通过业务数据库中的病案管理、电子病历、文本和表格信息采集患者的医疗信息,医疗信息包括患者入院、住院、治疗、检查、药物和出院信息;
将数据抽取、转换和加载到临床医疗数据仓库中;
步骤二:临床数据挖掘分析
SS01、数据选取
选取与疾病治疗或复发的相关数据作为数据挖掘项目的变量,相关数据包括年龄信息、手术切信息除、家族遗传信息、营养状况信息、术后化疗信息和复发信息;
SS02、形成训练数据集
从业务数据库中抽取数据,经过数据处理去掉与决策无关的属性,处理含空缺值的属性,形成决策树的训练数据集;
选取复发信息作为目标属性建立决策树,以进行治疗后复发的危险因素分析;
SS03、构建临床医疗数据仓库模型
根据SS01与SS02中的所示数据,通过SQL SERVER创建临床医疗数据仓库;
步骤三:临床数据展示
将数据挖掘建模、数据挖掘结果展示和用户交互界面集成到数据挖掘平台;其中,将临床医疗数据分析结果通过用户交互界面进行展示。
优选地,步骤二中的数据挖掘建模采用My Eclipse作为开发工具,采用Weka作为数据挖掘工作平台;通过Weka承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类和关联算法进行数据挖掘建模。
优选地,步骤二中数据的管理通过元数据库和元数据管理项目进行管理;
其中,通过在元数据库设计中包括数据源信息表、目标数据源信息表、数据源与目标数据源直接映射关系表和数据转换规则信息表实现对数据抽取、转换和加载模块中的数据管理;
其中,通过元数据管理实现对数据仓库中事实表和维表中属性的动态管理,由事实表的元数据表决定事实表的属性和维表个数及属性。
优选地,用户交互界面为可视化工具。
具体实施例二:
本实施以进行胃癌手术后复发情况进行分析:
SS01、确定与胃癌术后复发的相关因素,相关因素包括年龄、切除、家族遗传、营养状况、术后化疗、是否复发作为数据挖掘项目的变量,变量的数据类型及取值范围见表1;
SS02、从业务数据库中抽取数据,经过数据处理,去掉去决策无关的属性,处理包含空缺值的属性形成决策树的训练数据集;
SS03、选取是否复发作为目标属性,建立决策树,以进行胃癌术后复发的危险因素分析;
表1:定义变量的数据类型及取值范围
表2:胃癌术后复发训练数据集(部分)
序号 | 年龄 | 胃切除 | 家族遗传 | 营养状况 | 术后化疗 | 是否反复 |
1 | 70 | 3 | 0 | 2 | 1 | 0 |
2 | 72 | 3 | 0 | 2 | 0 | 0 |
3 | 58 | 2 | 1 | 1 | 1 | 1 |
4 | 45 | 1 | 1 | 1 | 1 | 1 |
5 | 55 | 1 | 1 | 1 | 1 | 1 |
6 | 46 | 1 | 1 | 2 | 0 | 0 |
7 | 65 | 2 | 0 | 1 | 0 | 0 |
8 | 55 | 2 | 0 | 2 | 0 | 0 |
9 | 65 | 1 | 0 | 3 | 1 | 1 |
10 | 50 | 2 | 0 | 1 | 0 | 0 |
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (4)
1.一种基于数据挖掘的临床医疗数据分析方法,其特征在于,包括以下步骤:
步骤一:临床数据采集
通过业务数据库中的病案管理、电子病历、文本和表格信息采集患者的医疗信息,所述医疗信息包括患者入院、住院、治疗、检查、药物和出院信息;
将数据抽取、转换和加载到临床医疗数据仓库中;
步骤二:临床数据挖掘分析
SS01、数据选取
选取与疾病治疗或复发的相关数据作为数据挖掘项目的变量,所述相关数据包括年龄信息、手术切信息除、家族遗传信息、营养状况信息、术后化疗信息和复发信息;
SS02、形成训练数据集
从业务数据库中抽取数据,经过数据处理去掉与决策无关的属性,处理含空缺值的属性,形成决策树的训练数据集;
选取复发信息作为目标属性建立决策树,以进行治疗后复发的危险因素分析;
SS03、构建临床医疗数据仓库模型
根据SS01与SS02中的所示数据,通过SQL SERVER创建临床医疗数据仓库;
步骤三:临床数据展示
将数据挖掘建模、数据挖掘结果展示和用户交互界面集成到数据挖掘平台;其中,将临床医疗数据分析结果通过用户交互界面进行展示。
2.根据权利要求1所述的一种基于数据挖掘的临床医疗数据分析方法,其特征在于,步骤二中的数据挖掘建模采用My Eclipse作为开发工具,采用Weka作为数据挖掘工作平台;通过Weka承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类和关联算法进行数据挖掘建模。
3.根据权利要求1所述的一种基于数据挖掘的临床医疗数据分析方法,其特征在于,步骤二中数据的管理通过元数据库和元数据管理项目进行管理;
其中,通过在元数据库设计中包括数据源信息表、目标数据源信息表、数据源与目标数据源直接映射关系表和数据转换规则信息表实现对数据抽取、转换和加载模块中的数据管理;
其中,通过元数据管理实现对数据仓库中事实表和维表中属性的动态管理,由事实表的元数据表决定事实表的属性和维表个数及属性。
4.根据权利要求1所述的一种基于数据挖掘的临床医疗数据分析方法,其特征在于,所述用户交互界面为可视化工具。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810225967.8A CN108615560A (zh) | 2018-03-19 | 2018-03-19 | 一种基于数据挖掘的临床医疗数据分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810225967.8A CN108615560A (zh) | 2018-03-19 | 2018-03-19 | 一种基于数据挖掘的临床医疗数据分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108615560A true CN108615560A (zh) | 2018-10-02 |
Family
ID=63659181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810225967.8A Pending CN108615560A (zh) | 2018-03-19 | 2018-03-19 | 一种基于数据挖掘的临床医疗数据分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108615560A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360658A (zh) * | 2018-11-01 | 2019-02-19 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109616215A (zh) * | 2018-11-23 | 2019-04-12 | 金色熊猫有限公司 | 医疗数据抽取方法、装置、存储介质及电子设备 |
CN109830303A (zh) * | 2019-02-01 | 2019-05-31 | 上海众恒信息产业股份有限公司 | 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法 |
CN110085314A (zh) * | 2019-04-11 | 2019-08-02 | 上海翼依信息技术有限公司 | 医学检验数据的智能分析方法、系统以及设备 |
CN110119432A (zh) * | 2019-03-29 | 2019-08-13 | 中国人民解放军总医院 | 一种用于医疗平台的数据处理方法 |
CN110136837A (zh) * | 2019-03-29 | 2019-08-16 | 中国人民解放军总医院 | 一种医疗数据处理平台 |
CN110148440A (zh) * | 2019-03-29 | 2019-08-20 | 北京汉博信息技术有限公司 | 一种医疗信息查询方法 |
CN110275908A (zh) * | 2019-06-04 | 2019-09-24 | 阚智博 | 基于大数据的医疗数据挖掘系统和方法 |
CN110289069A (zh) * | 2019-06-25 | 2019-09-27 | 中国人民解放军军事科学院军事医学研究院 | 临床数据的分析方法、装置、计算机设备和存储介质 |
CN110310746A (zh) * | 2019-07-08 | 2019-10-08 | 张军 | 一种智能化区域移动医疗集成数据中心系统 |
CN110853745A (zh) * | 2019-09-23 | 2020-02-28 | 陈翔 | 一种皮肤病患者规范化系统 |
CN111243753A (zh) * | 2020-02-27 | 2020-06-05 | 西安交通大学 | 一种面向医疗数据的多因素相关性交互式分析方法 |
CN111241164A (zh) * | 2020-01-18 | 2020-06-05 | 湖北理工学院 | 一种中药系统药理学分析平台及分析方法 |
CN112382398A (zh) * | 2020-11-12 | 2021-02-19 | 平安科技(深圳)有限公司 | 多尺度临床路径挖掘方法、装置、计算机设备及存储介质 |
CN112635070A (zh) * | 2020-12-14 | 2021-04-09 | 创业慧康科技股份有限公司 | 一种患者临床信息采集及展示方法及装置 |
CN113674867A (zh) * | 2021-07-27 | 2021-11-19 | 上海药慧信息技术有限公司 | 临床数据挖掘方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110089A (zh) * | 2007-09-04 | 2008-01-23 | 华为技术有限公司 | 一种数据挖掘和建模的方法及系统 |
CN105117588A (zh) * | 2015-08-04 | 2015-12-02 | 杭州健港信息科技有限公司 | 一种基于医院海量业务数据的医疗质量分析方法 |
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
-
2018
- 2018-03-19 CN CN201810225967.8A patent/CN108615560A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101110089A (zh) * | 2007-09-04 | 2008-01-23 | 华为技术有限公司 | 一种数据挖掘和建模的方法及系统 |
CN105117588A (zh) * | 2015-08-04 | 2015-12-02 | 杭州健港信息科技有限公司 | 一种基于医院海量业务数据的医疗质量分析方法 |
CN107680676A (zh) * | 2017-09-26 | 2018-02-09 | 电子科技大学 | 一种基于电子病历数据驱动的妊娠期糖尿病预测方法 |
Non-Patent Citations (1)
Title |
---|
郑丹青: "基于数据挖掘的临床医疗数据分析系统", 《长春工业大学学报(自然科学版)》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109360658A (zh) * | 2018-11-01 | 2019-02-19 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109360658B (zh) * | 2018-11-01 | 2021-06-08 | 北京航空航天大学 | 一种基于词向量模型的疾病模式挖掘方法及装置 |
CN109616215A (zh) * | 2018-11-23 | 2019-04-12 | 金色熊猫有限公司 | 医疗数据抽取方法、装置、存储介质及电子设备 |
CN109616215B (zh) * | 2018-11-23 | 2021-07-09 | 金色熊猫有限公司 | 医疗数据抽取方法、装置、存储介质及电子设备 |
CN109830303A (zh) * | 2019-02-01 | 2019-05-31 | 上海众恒信息产业股份有限公司 | 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法 |
CN110136837A (zh) * | 2019-03-29 | 2019-08-16 | 中国人民解放军总医院 | 一种医疗数据处理平台 |
CN110148440A (zh) * | 2019-03-29 | 2019-08-20 | 北京汉博信息技术有限公司 | 一种医疗信息查询方法 |
CN110148440B (zh) * | 2019-03-29 | 2023-06-30 | 北京汉博信息技术有限公司 | 一种医疗信息查询方法 |
CN110119432A (zh) * | 2019-03-29 | 2019-08-13 | 中国人民解放军总医院 | 一种用于医疗平台的数据处理方法 |
CN110119432B (zh) * | 2019-03-29 | 2023-05-05 | 中国人民解放军总医院 | 一种用于医疗平台的数据处理方法 |
CN110085314A (zh) * | 2019-04-11 | 2019-08-02 | 上海翼依信息技术有限公司 | 医学检验数据的智能分析方法、系统以及设备 |
CN110275908A (zh) * | 2019-06-04 | 2019-09-24 | 阚智博 | 基于大数据的医疗数据挖掘系统和方法 |
CN110289069A (zh) * | 2019-06-25 | 2019-09-27 | 中国人民解放军军事科学院军事医学研究院 | 临床数据的分析方法、装置、计算机设备和存储介质 |
CN110310746A (zh) * | 2019-07-08 | 2019-10-08 | 张军 | 一种智能化区域移动医疗集成数据中心系统 |
CN110853745A (zh) * | 2019-09-23 | 2020-02-28 | 陈翔 | 一种皮肤病患者规范化系统 |
CN111241164A (zh) * | 2020-01-18 | 2020-06-05 | 湖北理工学院 | 一种中药系统药理学分析平台及分析方法 |
CN111243753A (zh) * | 2020-02-27 | 2020-06-05 | 西安交通大学 | 一种面向医疗数据的多因素相关性交互式分析方法 |
CN111243753B (zh) * | 2020-02-27 | 2024-04-02 | 西安交通大学 | 一种面向医疗数据的多因素相关性交互式分析方法 |
CN112382398B (zh) * | 2020-11-12 | 2022-08-30 | 平安科技(深圳)有限公司 | 多尺度临床路径挖掘方法、装置、计算机设备及存储介质 |
CN112382398A (zh) * | 2020-11-12 | 2021-02-19 | 平安科技(深圳)有限公司 | 多尺度临床路径挖掘方法、装置、计算机设备及存储介质 |
CN112635070A (zh) * | 2020-12-14 | 2021-04-09 | 创业慧康科技股份有限公司 | 一种患者临床信息采集及展示方法及装置 |
CN113674867A (zh) * | 2021-07-27 | 2021-11-19 | 上海药慧信息技术有限公司 | 临床数据挖掘方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108615560A (zh) | 一种基于数据挖掘的临床医疗数据分析方法 | |
US10275711B2 (en) | System and method for scientific information knowledge management | |
Morris et al. | DIVA: a visualization system for exploring document databases for technology forecasting | |
US8364665B2 (en) | Directional expression-based scientific information knowledge management | |
Surendiran et al. | Mammogram mass classification using various geometric shape and margin features for early detection of breast cancer | |
Berger et al. | Data mining as a tool for research and knowledge development in nursing | |
Sharma et al. | Medical data mining using different classification and clustering techniques: a critical survey | |
CN106228000A (zh) | 过度医疗检测系统及方法 | |
JP2013518317A (ja) | 臨床試験データを組織化する方法 | |
Zemmal et al. | Automated classification of mammographic abnormalities using transductive semi supervised learning algorithm | |
Baranauskas et al. | A tree-based algorithm for attribute selection | |
Lenain et al. | Machine learning approaches for extracting stage from pathology reports in prostate cancer | |
Lu et al. | Data mining techniques in health informatics: a case study from breast cancer research | |
Nowak-Brzezińska et al. | Visualization of medical rule-based knowledge bases | |
Sohail et al. | Data mining techniques for Medical Growth: A Contribution of Researcher reviews | |
Kaur et al. | A review paper on data mining classification techniques for detection of lung cancer | |
Casey et al. | A machine learning approach to prostate cancer risk classification through use of RNA sequencing data | |
Rafe et al. | Breast cancer prediction by using C5. 0 Algorithm and BOOSTING Method | |
Yang et al. | SYRIAC: The systematic review information automated collection system a data warehouse for facilitating automated biomedical text classification | |
Vasantha et al. | Evaluation of attribute selection methods with tree based supervised classification-a case study with mammogram images | |
Lu et al. | Timeline and episode-structured clinical data: Pre-processing for Data Mining and analytics | |
CN111986815A (zh) | 基于共现关系的项目组合挖掘方法及相关设备 | |
Ganta et al. | An online analysis and information fusion platform for heterogeneous biomedical informatics data | |
Khalilian et al. | Breast mass association rules extraction to detect cancerous masses | |
Alshayeji et al. | Lung cancer classification and identification framework with automatic nodule segmentation screening using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181002 |