CN104765810B - 基于布尔矩阵的诊疗规则挖掘方法 - Google Patents

基于布尔矩阵的诊疗规则挖掘方法 Download PDF

Info

Publication number
CN104765810B
CN104765810B CN201510155788.8A CN201510155788A CN104765810B CN 104765810 B CN104765810 B CN 104765810B CN 201510155788 A CN201510155788 A CN 201510155788A CN 104765810 B CN104765810 B CN 104765810B
Authority
CN
China
Prior art keywords
diagnosis
treatment
rule
matrix
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510155788.8A
Other languages
English (en)
Other versions
CN104765810A (zh
Inventor
马玉新
哈睿
李青山
褚华
王璐
徐永飞
魏鸿鹏
魏雨旸
杨志福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201510155788.8A priority Critical patent/CN104765810B/zh
Publication of CN104765810A publication Critical patent/CN104765810A/zh
Application granted granted Critical
Publication of CN104765810B publication Critical patent/CN104765810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于布尔矩阵的诊疗规则挖掘方法,其步骤为:1、获取基础诊疗数据;2、挖掘诊疗规则;3、设置诊疗规则参数;4、判断是否完成所有诊疗规则参数的设置,如果是,执行步骤5,否则,执行步骤3;5、对诊疗规则进行结构化建模;6、存储诊疗规则数据。本发明通过对诊疗规则进行结构化建模,规范了诊疗规则的表达和存储结构。同时本发明通过将布尔矩阵应用于诊疗规则的挖掘方法中,使诊疗规则的挖掘更高效,更节省存储空间。

Description

基于布尔矩阵的诊疗规则挖掘方法
技术领域
本发明属于计算机技术领域,更进一步涉及基于布尔矩阵的诊疗规则的挖掘方法。本发明用一种基于布尔矩阵的关联规则挖掘方法,探索大量的数据项之间存在的值得关注的关联和相关关系,挖掘出频繁组合使用的规则集合,作为规则引擎的驱动。规则引擎作为决策支持系统的重要组成部分,可以在临床诊疗活动中辅助医生做出准确而全面的决策。
背景技术
随着大数据时代的来临,传统的规则提取方案,已无法满足对大量诊疗数据进行复杂的分析和加工,从中获取有价值的决策信息的基本需求。并且,由于规则的非结构化和半结构化的不规范、不统一的描述形式,带来了诊疗规则存储困难,匹配缓慢,不同系统间可共享率低等一系列问题。因此研究诊疗规则的挖掘技术,用以对海量诊疗数据进行分析、挖掘信息之间的关联关系、并将这些关联关系作为规则以一定的结构化形式存储,可以充分总结专家医生的诊疗经验为将来的病例进行指导,在医疗辅助系统的规范化和开放性,以及提高医院的医疗技术和服务水平等方面均具有重要的意义。
在人工智能和知识工程等领域发展起来的针对规则挖掘的研究,多数都集中于建立决策树或者人工神经网络来抽取出其中的隐含规则。这两种方案在以往的文本规则抽取和相关行业的应用模型建立中发挥了一定的作用。但是由于医疗领域的数据量大,信息多以非结构化和半结构化形式存在的特点,限制了两种方案在医学领域的应用。目前,诊疗规则基本是通过人工的方式进行抽取。这会导致在进行规则在抽取时受到人的主观性和业务熟练性方面的限制。同时人工提取的非结构化诊疗规则在进行存储和使用时也存在一系列的问题。
陶氏益农公司申请的专利“用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用”(专利申请号:201080029509,公开号:102473247A)中公开了一种或多种关联规则挖掘算法的用途。该技术用于挖掘含有由至少一种基于植物或动物的分子遗传标志物所创建的特征的数据集,发现关联规则,以及利用由这些关联规则创建的特征用于分类或预测。该方法重点考虑了挖掘历史数据的能力,对于多重共线性的数据具有鲁棒性的能力,以及说明包括在这些数据集中的特征之间的相互作用的能力。但是,该方法存在的不足之处是,该方法针对分子遗传标志物的植物和动物数据集进行关联规则的挖掘,建立的“特征数据集”这种数据结构,并不能合理有效的对诊疗规则进行表示,不利于诊疗规则的使用、共享、维护和更新。
华为技术有限公司申请的专利“一种告警关联规则挖掘方法、规则挖掘引擎及系统”(专利申请号:201010197275,公开号:101937447A)中提出了一种告警关联规则挖掘方法、规则挖掘引擎及系统。该发明提出了一种告警关联规则的挖掘方法来构造规则挖掘引擎,规则挖掘引擎根据告警关联规则自动处理电信告警。但是,该方法的不足在于,该方法仍然使用传统的关联规则挖掘思路,通过对k频繁项集的分析得到k+1频繁项集,没有解决候选项集数量巨大和数据库扫描频繁这两个关键问题,算法的效率还有待改进。
发明内容
本发明的目的是克服上述现有技术的不足,提供一种基于布尔矩阵的诊疗规则挖掘方法。
为实现上述目的,本发明包括以下步骤:
(1)获取诊疗基础数据:
扫描存储诊疗基础数据的事务数据库,按照映射规则,将事务数据库映射成为布尔矩阵;
(2)挖掘诊疗规则:
(2a)采用基于布尔矩阵的关联规则挖掘方法,获取诊疗事务数据库的频繁项集;
(2b)将每一个频繁项集中的数据项根据因果关系分为规则前件和结果后件,并将规则前件和结果后件进行合并,将出现的重复项仅存储一次,并记录规则前件中重复项的重复次数,形成前件集合和结果集合,并删除同时出现在前件集合和结果集合中的数据项;
(3)设置诊疗规则参数:
(3a)将前件集合中每个前件的重复次数,设置为每个前件的权重值参数;
(3b)将诊疗事务数据库中,同时包含规则前件和结果后件的事务集的数目与只包含结果后件的事务集数目的比值,设置为诊疗规则的置信度参数;
(3c)将0设置为诊疗规则的支持度参数的默认值,诊疗规则每使用一次,支持度则加1;
(4)判断是否完成所有诊疗规则参数的设置,如果是,执行步骤(5),否则,执行步骤(3);
(5)对诊疗规则进行结构化建模:
根据描述诊疗规则的需求,设计诊疗规则的结构,包括设计诊疗规则逻辑形式和参数,定义诊疗规则描述语言;采用国际通用可扩展标记语言XML类型的数据格式设计诊疗规则描述语言的存储格式,定义诊疗规则文件格式;
(6)存储诊疗规则数据:
将诊疗规则的前件集合、后件集合以及参数通过诊疗规则描述语言描述,存储为诊疗规则文件。
本发明与现有的技术相比,具有以下优点:
第一,本发明通过对诊疗规则进行结构化建模,结合国际通用可扩展标记语言的平台无关性和与具体应用相独立的特性,规范了诊疗规则的结构,克服了现有技术中无法规范表达诊疗规则形式的不足,使得本发明对诊疗规则进行了结构化建模,规范了诊疗规则的表达形式和存储形式。
第二,本发明通过基于布尔矩阵的关联规则挖掘方法挖掘诊疗数据,克服了现有技术中对数据库的多次扫描和候选频繁项集数量过多的缺点,使得本发明对诊疗规则的挖掘更高效,更加节省存储空间。
附图说明
图1为本发明的流程图;
图2为本发明基于布尔矩阵的关联规则挖掘方法的流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
步骤1,诊疗规则结构设计。
扫描存储诊疗基础数据的事务数据库,按照映射规则,将事务数据库映射成为布尔矩阵。其中,映射规则是指,布尔矩阵的行数与事务集的数目相同,布尔矩阵的列数与每个事务集中包含的项目数相同;如果事务集中包含某个项目,则布尔矩阵中对应于该事务集的行所对应于该项目的列的取值为1,否则为0。
步骤2,挖掘诊疗规则。
采用基于布尔矩阵的关联规则挖掘方法,获取诊疗事务数据库的频繁项集。
将每一个频繁项集中的数据项根据因果关系分为规则前件和结果后件,并将规则前件和结果后件进行合并,将出现的重复项仅存储一次,并记录规则前件中重复项的重复次数,形成前件集合和结果集合,并删除同时出现在前件集合和结果集合中的数据项。其中,频繁项集是指,支持度大于或等于最小支持度计数的项目集。
结合附图2,基于布尔矩阵的决策支持规则挖掘方法的具体步骤如下:
第1步,将布尔矩阵与布尔矩阵的转置矩阵相乘,得到对称矩阵,从对称矩阵的主对角线元素中找出最大值,记录该最大值。
第2步,依次扫描对称矩阵的每一行,找出主对角线元素的最大值,将该最大值所在的行组成一个行集合。
第3步,判断行集合是否为空,如果不为空,则执行第4步,否则,执行第5步。
第4步,取出行集合的任意一个行序列;统计所取行序列中元素值大于或等于主对角线元素最大值的数目,将该数目作为倾数;如果倾数大于或等于最小支持度,则将取出的行序列中取值大于或等于主对角线最大值的所有元素以向量的形式记录,同时在行集合中删除所取的行序列;执行第3步直到行集合为空。
第5步,判断第4步所记录的向量集合是否为空,如果不为空,则执行第6步,否则,执行第7步。
第6步,将第4步记录的向量集合做逻辑与运算,得到矩阵频繁项集。
第7步,从对称矩阵的对角线元素中找到次大值,判断该次大值是否小于最小支持度,如果是,则执行第8步,否则,执行第2步。
第8步,根据第6步得到的矩阵频繁项集的元素与事务数据库中数据项的对应关系,得到事务数据库的频繁项集。
步骤3,设置诊疗规则参数。
将前件集合中每个前件的重复次数,设置为每个前件的权重值参数。
将诊疗事务数据库中,同时包含规则前件和结果后件的事务集的数目与只包含结果后件的事务集数目的比值,设置为诊疗规则的置信度参数。
将0设置为诊疗规则的支持度参数的默认值,诊疗规则每使用一次,支持度则加1。
步骤4,判断是否完成所有诊疗规则参数的设置,如果是,执行步骤5,否则,执行步骤3。
步骤5,对诊疗规则进行结构化建模。
根据描述诊疗规则的需求,设计诊疗规则的结构,包括设计诊疗规则逻辑形式和参数,定义诊疗规则描述语言;采用国际通用可扩展标记语言XML类型的数据格式设计诊疗规则描述语言的存储格式,定义诊疗规则文件格式;
步骤6,设置诊疗规则参数。
将诊疗规则的前件集合、后件集合以及参数通过诊疗规则描述语言描述,存储为诊疗规则文件。

Claims (4)

1.一种基于布尔矩阵的诊疗规则挖掘方法,包括以下步骤:
(1)获取基础诊疗数据:
扫描存储诊疗基础数据的事务数据库,按照映射规则,将事务数据库映射成为布尔矩阵;
(2)挖掘诊疗规则:
(2a)采用基于布尔矩阵的关联规则挖掘方法,获取事务数据库的频繁项集;
(2b)将频繁项集中的每一个集合的数据项,根据因果关系分为规则前件和结果后件,并将规则前件和结果后件进行合并,将出现的重复项仅存储一次,并记录规则前件中重复项的重复次数,形成前件集合和结果集合,删除在前件集合和结果集合中同时出现的数据项;
(3)设置诊疗规则参数:
(3a)将前件集合中每个前件的重复次数,设置为每个前件的权重值参数;
(3b)将诊疗事务数据库中,同时包含规则前件和结果后件的事务集的数目与只包含结果后件的事务集数目的比值,设置为诊疗规则的置信度参数;
(3c)将0设置为诊疗规则的支持度参数的默认值,诊疗规则每使用一次,支持度则加1;
(4)判断是否完成所有诊疗规则参数的设置,如果是,执行步骤(5),否则,执行步骤(3);
(5)对诊疗规则进行结构化建模:
根据描述诊疗规则的需求,设计诊疗规则的结构,包括设计诊疗规则逻辑形式和参数,定义诊疗规则描述语言;采用国际通用可扩展标记语言XML类型的数据格式设计诊疗规则描述语言的存储格式,定义诊疗规则文件格式;
(6)存储诊疗规则数据:
将诊疗规则的前件集合、后件集合以及参数通过诊疗规则描述语言描述,存储为诊疗规则文件。
2.根据权利要求1所述的基于布尔矩阵的诊疗规则挖掘方法,其特征在于,步骤(1)所述的映射规则是指,布尔矩阵的行数与事务集的数目相同,布尔矩阵的列数与每个事务集中包含的项目数相同;如果事务集中包含某个项目,则布尔矩阵中对应于该事务集的行所对应于该项目的列的取值为1,否则为0。
3.根据权利要求1所述的基于布尔矩阵的诊疗规则挖掘方法,其特征在于,步骤(2a)所述的基于布尔矩阵的关联规则挖掘方法的具体步骤如下:
第1步,将布尔矩阵与布尔矩阵的转置矩阵相乘,得到对称矩阵,从对称矩阵的主对角线元素中找出最大值,记录该最大值;
第2步,依次扫描对称矩阵的每一行,找出主对角线元素的最大值,将该最大值所在的行组成一个行集合;
第3步,判断行集合是否为空,如果不为空,则执行第4步,否则,执行第5步;
第4步,取出行集合的任意一个行序列;统计所取行序列中元素值大于或等于主对角线元素最大值的数目,将该数目作为倾数;如果倾数大于或等于最小支持度,则将取出的行序列中取值大于或等于主对角线最大值的所有元素以向量的形式记录,同时在行集合中删除所取的行序列;执行第3步直到行集合为空;
第5步,判断第4步所记录的向量集合是否为空,如果不为空,则执行第6步,否则,执行第7步;
第6步,将第4步记录的向量集合做逻辑与运算,得到矩阵频繁项集;
第7步,从对称矩阵的对角线元素中找到次大值,判断该次大值是否小于最小支持度,如果是,则执行第8步,否则,执行第2步;
第8步,根据第6步得到的矩阵频繁项集的元素与事务数据库中数据项的对应关系,得到事务数据库的频繁项集。
4.根据权利要求1所述的基于布尔矩阵的诊疗规则挖掘方法,其特征在于:步骤(2a)中所述的频繁项集是指,支持度大于或等于最小支持度计数的项目集。
CN201510155788.8A 2015-04-02 2015-04-02 基于布尔矩阵的诊疗规则挖掘方法 Active CN104765810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510155788.8A CN104765810B (zh) 2015-04-02 2015-04-02 基于布尔矩阵的诊疗规则挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510155788.8A CN104765810B (zh) 2015-04-02 2015-04-02 基于布尔矩阵的诊疗规则挖掘方法

Publications (2)

Publication Number Publication Date
CN104765810A CN104765810A (zh) 2015-07-08
CN104765810B true CN104765810B (zh) 2018-03-06

Family

ID=53647640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510155788.8A Active CN104765810B (zh) 2015-04-02 2015-04-02 基于布尔矩阵的诊疗规则挖掘方法

Country Status (1)

Country Link
CN (1) CN104765810B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785074A (zh) * 2017-10-27 2018-03-09 上海利连信息科技有限公司 一种基于规则推理引擎的疾病辅助判别方法和系统
CN111487563B (zh) * 2020-05-15 2022-02-15 国网江苏省电力有限公司电力科学研究院 基于遗传算法及属性支持度的变压器状态知识获取方法及设备
CN111797619B (zh) * 2020-07-15 2024-04-09 联赢佳士比医疗科技(浙江)股份有限公司 根据公式自动计算观察项的装置及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937447A (zh) * 2010-06-07 2011-01-05 华为技术有限公司 一种告警关联规则挖掘方法、规则挖掘引擎及系统
CN103455886A (zh) * 2013-09-03 2013-12-18 西安电子科技大学 基于工作流的诊疗决策支持系统及其方法
CN103605749A (zh) * 2013-11-20 2014-02-26 同济大学 一种基于多参数干扰的隐私保护关联规则数据挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2766914C (en) * 2009-06-30 2019-02-26 Daniel Caraviello Mining association rules in plant and animal data sets and utilizing features for classification or prediction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937447A (zh) * 2010-06-07 2011-01-05 华为技术有限公司 一种告警关联规则挖掘方法、规则挖掘引擎及系统
CN103455886A (zh) * 2013-09-03 2013-12-18 西安电子科技大学 基于工作流的诊疗决策支持系统及其方法
CN103605749A (zh) * 2013-11-20 2014-02-26 同济大学 一种基于多参数干扰的隐私保护关联规则数据挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
关联规则挖掘方法及其在冠心病中医诊疗中的应用研究;刘智;《万方学位论文》;20120903;第42、43、49、50、57、65页 *
面向智慧医疗的诊断信息数据挖掘应用研究;赵长勇;《万方学位论文》;20140715;第26、51、54页 *

Also Published As

Publication number Publication date
CN104765810A (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN103853821B (zh) 一种面向多用户协作的数据挖掘平台的构建方法
Wallin et al. Comparison of managed and pre-settlement landscape dynamics in forests of the Pacific Northwest, USA
Long et al. A density management diagram for even-aged ponderosa pine stands
CN102289507B (zh) 一种基于滑动窗口的数据流加权频繁模式挖掘方法
CN104765810B (zh) 基于布尔矩阵的诊疗规则挖掘方法
CN104537025B (zh) 频繁序列挖掘方法
CN104462227A (zh) 一种图形化知识谱系自动构建方法
CN101727391B (zh) 一种软件漏洞特征操作序列的提取方法
CN106294715A (zh) 一种基于属性约简的关联规则挖掘方法及装置
CN106199494A (zh) 一种基于计量装置故障的智能诊断系统
CN104834826A (zh) 基于数据挖掘和图论技术的临床路径建立和优化方法及系统
CN106709017A (zh) 一种基于大数据的辅助决策方法
CN106503872A (zh) 一种基于基础业务活动集的业务流程系统构建方法
CN104123609A (zh) 一种基于本体的地铁施工风险知识构建方法
CN107944465A (zh) 一种适用于大数据的无监督快速聚类方法及系统
CN104217013B (zh) 基于项加权和项集关联度的课程正负模式挖掘方法及系统
CN110442038A (zh) 基于FP-Growth算法的火电机组运行优化目标值确定方法
CN109376544A (zh) 一种防止复杂网络中的社团结构被深度挖掘的方法
CN108846043A (zh) 基于互联网大数据的网络痕迹挖掘分析方法及系统
Seol et al. Reduction of association rules for big data sets in socially-aware computing
CN106557881A (zh) 一种基于业务活动执行顺序的业务流程系统构建方法
Schtickzelle et al. Using surrogate data in population viability analysis: the case of the critically endangered cranberry fritillary butterfly
CN109033368A (zh) 一种基于活动划分和日志划分的块结构过程挖掘方法
CN109086385A (zh) 一种基于Petri网的业务流程低频行为挖掘方法
CN106528682A (zh) 一种呼叫中心大数据文本挖掘系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Ma Yuxin

Inventor after: Ha Rui

Inventor after: Li Qingshan

Inventor after: Chu Hua

Inventor after: Wang Lu

Inventor after: Xu Yongfei

Inventor after: Wei Hongpeng

Inventor after: Wei Yuyang

Inventor after: Yang Zhifu

Inventor before: Li Qingshan

Inventor before: Chu Hua

Inventor before: Wang Lu

Inventor before: Xu Yongfei

Inventor before: Wei Hongpeng

Inventor before: Wei Yuyang

Inventor before: Yang Zhifu

GR01 Patent grant
GR01 Patent grant