CN112732771A

CN112732771A - 一种基于pacs系统中关联规则挖掘技术的应用

Info

Publication number: CN112732771A
Application number: CN202011230515.2A
Authority: CN
Inventors: 徐秀芳; 张曦予; 陈宜亮; 闫国庆
Original assignee: Hebei Shangsheng Medical Technology Development Co ltd
Current assignee: Hebei Shangsheng Medical Technology Development Co ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-04-30

Abstract

本发明公开了一种基于PACS系统中关联规则挖掘技术的应用；所述Eclat_LSH算法从减少需要比较元素的角度出发：1、利用局部敏感哈希的思想，将计算两个大集合交集的过程，转化为求取若干小集合交集再累加的过程，减少了每个元素需要比较的次数；2、Eclat_LSH算法在计算项集支持度的过程中，充分发挥了最小支持度的作用，对项集支持度上界进行评估，当评估到项集的支持度不可能满足筛选条件时，则立即停止计算；本发明Eclat_LSH由于在计算交集的过程中对支持度的上界进行评估，因此其对于频繁项集支持度的计算都是有效计算，而且由于减少了计算交集时每个元素需要比较的次数。

Description

一种基于PACS系统中关联规则挖掘技术的应用

技术领域

本发明涉及数据挖掘技术中的关联规则挖掘技术领域，具体为一种基于 PACS系统中关联规则挖掘技术的应用。

背景技术

关联规则挖掘算法通过统计共同出现次数最多的项来找出事务间的相关性，Apriori、FP-growth和Eclat是三个最为经典的关联规则挖掘方法，后续的很多提高挖掘效率的算法都是基于这三种方法做改进而提出来的。

Apriori算法通过一种被称为逐层查找的方式来进行频繁项集挖掘，每一次扫描前都通过候选产生-剪枝的方法来产生候选频繁项集，Apriori通过这种方式大大减少了需要统计的候选项集的量，在一定程度上提供了不错的挖掘效率，然而该算法仍然存在两个瓶颈问题亟待解决：(1)该算法仍然需要形成很多的候选项集，特别是2阶候选项集。(2)该算法必须多次查询整个数据集，并且通过模式匹配的方法去检查一个很大的候选项集集合，这是一个很大的开销，极大地影响了算法的效率。

FP-growth利用事务数据集构造了一棵频繁模式树，然后基于这棵模式树迭代地产生新的数据库和构造新的频繁模式树，一直到构造的树为单枝的时候停止迭代，此时即可枚举出该单枝树上的全部频繁项集。FP-growth克服了 Apriori必须搜索多次数据集和需要形成大量候选项集的瓶颈，极大地提高了关联规则的挖掘效率，但是该算法必须构造很多的条件模式树，在一定程度上对挖掘效率产生极大地影响。

Eclat利用垂直数据库进行频繁项集的挖掘，Eclat充分利用了垂直数据库的优势，将Apriori扫描数据集对候选项集进行支持度计数的步骤转换为采用交叉计数的方式来获得。为了节省资源和缩小候选集合，Eclat还利用等价类的原理将整个候选集合划分成很多个互不交叉的子候选集，并采用深度优先的方法对每个子集合内的频繁项集进行挖掘，缩小了搜索空间，加快了挖掘速度。Eclat算法采用“连接”运算对频繁项集进行连接并产生新的候选项集。

连接：2个k阶频繁项集l₁和l₂连接的结果为l₁[1],l₁[2],L,l₁[k],l₂[k]，连接要求为(l₁[1]＝l₂[1])∧(l₁[2]＝l₂[2])∧L∧(l₁[k-1]＝l₂[k-1])∧(l₁[k]≠l₂[k])。

Eclat算法借助垂直数据集的优势，其性能一般优于基于水平数据集进行挖掘的算法，但是Eclat算法仍然有一些不足之处，具体如下所示：

(1)Eclat算法基于深度优先的方法寻找所有的频繁项集，不能利用 Apriori算法的剪枝定理进行剪枝，所以，其搜索空间比Apriori的搜索空间要大的多，无形之中加大了计算量，影响了挖掘算法的效率。

(2)Eclat算法借助了垂直数据表示的优势，但也产生了另一个缺点，那就是当事务数据库的事务数量很大时，会导致每一个项集的TIDset中的元素也非常多，进一步导致利用交叉计数求取项集的支持度时的计算量非常大，这成为限制Eclat算法效率的另一个瓶颈所在。

(3)Eclat算法在进行频繁项集挖掘时需要保存所有项集的TIDset，这在大规模数据尤其是稠密型数据的挖掘过程中将耗费大量的内存，在一定程度上会使算法的使用受到限制。

发明内容

本发明的目的在于提供一种基于PACS系统中关联规则挖掘技术的应用，解决了上述问题。

为实现上述目的，本发明提供如下技术方案：一种基于PACS系统中关联规则挖掘技术的应用，所述Eclat_LSH算法从减少需要比较元素的角度出发： 1、利用局部敏感哈希的思想，将计算两个大集合交集的过程，转化为求取若干小集合交集再累加的过程，减少了每个元素需要比较的次数；2、Eclat_LSH 算法在计算项集支持度的过程中，充分发挥了最小支持度的作用，对项集支持度上界进行评估，当评估到项集的支持度不可能满足筛选条件时，则立即停止计算；

所述Eclat_LSH通过以下两种方法来提高执行效率，(1)基于LSH对集合进行划分：利用LSH减少候选集的思想，可以将一个大集合利用哈希技术划分为多个小集合，每个小集合内是比较相似的元素，当需要查询某个元素是否在一个集合中时，只需到“特定”小集合中去查询即可；(2)在计算交集的过程中评估支持度的上界：对于任意的一个候选项集，在通过求两个集合的交集来确定其支持度的时候。

优选的，所述通过将不同的两个集合分别映射成多个小集合，可以得到

如公式：

优选的，所述给定项集{I1}，{I2}以及各自对应的TIDset，设为S₁和S₂；设集合T，S₁₁和S₂₁，S₁₂和S₂₂的关系为：S₁₁和S₂₁是S₁，S₂已经遍历过的子集，且|T|＝|S₁₁∩S₂₁|，S₁₂和S₂₂为集合S₁和S₂中待遍历的子集，S₁₁∪S₁₂＝S₁和S₂₁∪S₂₂＝S₂，若集合在遍历的过程中满足公式：min(|S₁₂|，|S₂₂|)+|T|＜minSup，则其对应的候选项集 {I1，I2}一定不是频繁项集。

与现有技术相比，本发明的有益效果如下：

本发明Eclat_LSH由于在计算交集的过程中对支持度的上界进行评估，因此其对于频繁项集支持度的计算都是有效计算，而且由于减少了计算交集时每个元素需要比较的次数，将Eclat的时间复杂度从O(s×m×n)，降为 O(s×m×n/k)，因此其挖掘效率会比较高。在公共数据集上的试验结果也证明了Eclat_LSH算法的高效性以及对集合划分的有效性。

附图说明

图1为本发明哈希划分示意图；

图2为本发明算法的执行时间示意图；

图3为本发明实验数据集示意图；

图4为本发明各个算法在数据集T10I4D100K上的时间对比示意图；

图5为本发明各个算法在数据集T40I10D100K上的时间对比示意图；

图6为本发明各个算法在数据集pumsb_star上的时间对比示意图；

图7为本发明各个算法在数据集accidents上的时间对比示意图；

图8为本发明各个算法在数据集kosarak上的时间对比示意图；

图9为本发明各个算法在数据集Bigretail上的时间对比示意图；

图10为本发明数据展示示意图；

图11为本发明处理后的数据示意图；

图12为本发明部分关联规则展示示意图；

图13为本发明项集的支持度评估示意图。

具体实施方式

下面，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

一种基于PACS系统中关联规则挖掘技术的应用，Eclat_LSH算法从减少需要比较元素的角度出发：1、利用局部敏感哈希的思想，将计算两个大集合交集的过程，转化为求取若干小集合交集再累加的过程，减少了每个元素需要比较的次数；2、Eclat_LSH算法在计算项集支持度的过程中，充分发挥了最小支持度的作用，对项集支持度上界进行评估，当评估到项集的支持度不可能满足筛选条件时，则立即停止计算；所述Eclat_LSH通过以下两种方法来提高执行效率，(1)基于LSH对集合进行划分：利用LSH减少候选集的思想，可以将一个大集合利用哈希技术划分为多个小集合，每个小集合内是比较相似的元素，当需要查询某个元素是否在一个集合中时，只需到“特定”小集合中去查询即可，这样就将候选集的规模从一个大集合降到了一个小集合，减少了待比较的元素的数目，从而可以提高算法的运行效率。在求两个集合交集的时候，只需要将各个小集合分别求交集，然后将各个小集合交集的大小进行累加即可得到总的交集大小；对集合进行哈希划分的过程如图1；

通过将不同的两个集合分别映射成多个小集合，可以得到如公式1和2 的结论。

证明：由已知条件，采用相同的哈希函数对集合A和集合B分别做哈希映射，则一定有如下结论成立：

且x∈A_i，则若x∈B成立，则一定有x∈B_i。

由哈希函数的可重复性可知：h(x)＝h(x)；

因此对于

它总是出现在相同下标的子集合中；

又因为在子集合中保存的是元素x的初始值，所以经过哈希映射以后利用公式1计算交集，下述情况：

且

而经过哈希函数计算以后 x∈A∩B或者y∈A∩B是一定不存在的，因此公式1恒成立。

对于公式2，由公式1可知，

而|A_i∩B_i|≤min(|A_i|,|B_i|)恒成立，所以公式2依然成立。

(2)在计算交集的过程中评估支持度的上界：对于任意的一个候选项集，在通过求两个集合的交集来确定其支持度的时候，有如下定理成立。

定理1：给定项集{I1}，{I2}以及各自对应的TIDset，设为S₁和S₂；设集合T，S₁₁和S₂₁，S₁₂和S₂₂的关系为：S₁₁和S₂₁是S₁，S₂已经遍历过的子集，且 |T|＝|S₁₁∩S₂₁|，S₁₂和S₂₂为集合S₁和S₂中待遍历的子集，S₁₁∪S₁₂＝S₁和S₂₁∪S₂₂＝S₂，若集合在遍历的过程中满足公式3，则其对应的候选项集{I1，I2}一定不是频繁项集。

min(|S₁₂|,|S₂₂|)+|T|＜minSup 3

证明：由已知条件，T为已遍历的集合S₁₁和S₂₁的交集，S₁₂和S₂₂分别为集合S₁和S₂中待遍历的元素。

易知S₁∩S₂＝(S₁₁∩S₂₁)∪(S₁₂∩S₂₂)＝T∪(S₁₂∩S₂₂)

所以|S₁∩S₂|＝|T∪(S₁₂∩S₂₂)|＝|T|+|S₁₂∩S₂₂|

又|S₁₂∩S₂₂|≤min(S₁,S₂)

所以|T|+|S₁₂∩S₂₂|≤|T|+min(S₁,S₂)

所以若|T|+min(S₁,S₂)＜minSup

则|S₁∩S₂|＝|T|+|S₁₂∩S₂₂|≤|T|+min(S₁,S₂)＜minSup

因此若公式3成立，项集{I1,I2}一定不是频繁项集。

在指定minSup的情况下，可以通过该定理对Eclat算法提前减枝，从而加快算法的运行速度。

具体实施例1：对于任意的两个项集和，并设其对应TIDset为：和的交集。将和进行连接产生候选项集，然后需要计算该候选项集的支持度，即两个TIDset的交集，假设minSup＝3，则在使用定理1对项集的支持度进行评估的时候，具体步骤如图13。在图13中，箭头是指算法执行到当前位置并判断该元素是否属于交集。易知在判断完S₁集合的第3个元素“3”不属于集合S₂时已经可以停止进行比较了，因为此时已经求得的交集大小|T|＝1，而 min(|S₁₂|,|S₂₂|)＝1，根据定理1可知{I2,I4}的支持度计数一定不大于minSup，因此{I2,I4}一定不是频繁的。

一般来说计算两个集合交集的时间复杂度是O(m×n)，然而当采用基于局部敏感哈希的集合划分方法时，由于将一个大集合划分成了若干个互不相交的小集合，因此减少了求取集合交集时的比较次数，在哈希函数足够均匀的情况下，两个子集合求交集的期望时间是O(m×n/k²)，因为总共有k个子集合，因此总体的时间复杂度为O(m×n/k)，这在需要迭代求取集合的交集大小时是非常有利的。例如在利用Eclat的思想进行频繁项集挖掘时，设候选项集的总个数为s，则Eclat的时间复杂度为O(s×m×n)，进而Eclat_LSH的时间复杂度为O(s×m×n/k)，即理论上来说Eclat_LSH的运行时间是Eclat的1/k。另外， Eclat_LSH还在计算交集的过程中对项集的支持度的上界进行评估，进一步减少了计算交集时需要比较的次数，因此实际上其时间复杂度要优于 O(s×m×n/k)。

理论上来说，子集合的个数k取值越大，则算法的执行效率越高，但考虑到实际情况，即哈希函数并不能做到将集合的元素均匀划分至k个子集合中，因此在实际应用时，可能会出现运行时间发生上下波动的情况。

具体实施例2：该实验基于数据集accidents进行，取minSup＝0.74。哈希函数取h(x)＝(4*x+5)％k，其中k分别取值1、3、5、7、9、11。由于每次的运行时间存在一定的波动性，因此对于每一个k，算法均运行5次，取5次的平均值作为最终的实验结果，随着k的调整，算法的执行时间如图2所示。

对图2进行分析可得，随着k的增大，算法的执行时间整体上呈现出逐渐降低的趋势，这与前面的分析结果相一致，即k越大，运行时间越短，但是仔细观察发现，在k的取值为9和11的时候，曲线呈微微上升的趋势，这是因为哈希函数影响着子集合中元素的分布，进而会对算法的运行时间产生影响，若哈希结果均匀，则会提高算法的挖掘效率，否则可能会适得其反。

提供数据常用于验证频繁项集挖掘算法的效率，其中Bigretail数据集是由retail扩展来的：图3为实验数据集；图4-9为时间对比图。

Eclat_LSH由于在计算交集的过程中对支持度的上界进行评估，因此其对于频繁项集支持度的计算都是有效计算，而且由于减少了计算交集时每个元素需要比较的次数，将Eclat的时间复杂度从O(s×m×n)，降为O(s×m×n/k)，因此其挖掘效率会比较高。在公共数据集上的试验结果也证明了Eclat_LSH算法的高效性以及对集合划分的有效性。

具体实施例3：将关联规则挖掘算法应用于心脏病电子病历的挖掘，该数据源自美国某区域人们心脏病的相关体检数据，共来自于270个病人，每条数据有13个属性值(每个属性表示患者的某个体检指标)和一个类标(是否患病)，部分数据展示如图10所示。

由于在原始数据集中存在实数类型，不能将该数据直接应用到频繁项集挖掘算法中，因此需要对体检数据提前处理，将每个属性离散化为有限的几个数值，具体方式如下：对于age属性而言，将每个人的年龄按照老年、中年和青年的标准划分为3个区间，分别用数值1、2、3表示；将sex属性的两个取值分别用数值4和5表示；将cp属性的三个取值分别用数值6、7、8、 9表示；将trestbps属性按照是否超过140分别用数值10和11表示；将chol 属性的两个取值分别用数值12和13表示；将fbs属性分别用数值14和15 表示；将restecg属性的三个取值分别用数值16、17和18表示；将thalach 的值按照是否超过150分别用19和20表示；将exang属性的两个取值分别用数值21和22表示；将oldpeak属性按照是否超过0.5分别用数值23和24 表示；将slop属性的三个取值分别用数值25、26和27表示；将ca属性的四个取值分别用数值28、29、30和31表示；将thal属性的三个取值分别用数值32、33和34表示；将status属性的两个取值分别用数值35和36表示。处理后的数据一共包括36个项，部分数据如图11。

在图11中，每一行都代表一个事物集，每一个数字都代表一个项，然后基于这个数据集进行关联规则挖掘。这里设minSup＝0.2，minConf＝0.9，挖掘出的部分规则如图12所示。

结合预处理时每个符号所代表的不同含义，可以将图12中的规则所表达的含义进行语义上的转换，将其转换成利于人们理解的规则：第一条关联规则[35,20,10,32]→[21]表示：如果一个人静息血压低于140mmHg、最大心率大于150次、缺陷类型为3，且没有患心脏病，那么此人在运动时不会引发心绞痛的可能性为91.0％；第二条关联规则[24,14,36,19]→[5]表示：如果一个人ST不小于0.5、空腹血糖不高于120mg/dl、患有心脏病，且这个人的最高心率低于150，那么此人有90％的可能为男性。

由实验结果可知，Eclat_LSH可以加快算法的执行速度，达到了加快关联规则挖掘的目的。本篇专利以电子病历为例进行关联规则挖掘，挖掘出了一些高置信度的规则，这些规则可以给医生提供建议。但是由于不同领域的数据往往包含着不同的信息，因此本文中得到的规则并不是通用的，在应用时需要根据实际数据进行关联规则的挖掘。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于PACS系统中关联规则挖掘技术的应用，其特征在于：

所述Eclat_LSH算法从减少需要比较元素的角度出发：1、利用局部敏感哈希的思想，将计算两个大集合交集的过程，转化为求取若干小集合交集再累加的过程，减少了每个元素需要比较的次数；2、Eclat_LSH算法在计算项集支持度的过程中，充分发挥了最小支持度的作用，对项集支持度上界进行评估，当评估到项集的支持度不可能满足筛选条件时，则立即停止计算；

所述Eclat_LSH通过以下两种方法来提高执行效率，（1）基于LSH对集合进行划分：利用LSH减少候选集的思想，可以将一个大集合利用哈希技术划分为多个小集合，每个小集合内是比较相似的元素，当需要查询某个元素是否在一个集合中时，只需到“特定”小集合中去查询即可；（2）在计算交集的过程中评估支持度的上界：对于任意的一个候选项集，在通过求两个集合的交集来确定其支持度的时候。

2.根据权利要求1所述的一种基于PACS系统中关联规则挖掘技术的应用，其特征在于：所述通过将不同的两个集合分别映射成多个小集合，可以得到如公式：