CN109840258A

CN109840258A - 一种基于关联规则的数据挖掘方法及装置

Info

Publication number: CN109840258A
Application number: CN201910090085.XA
Authority: CN
Inventors: 杨小兰; 杨礼凤; 姚梅
Original assignee: West China Hospital of Sichuan University
Current assignee: West China Hospital of Sichuan University
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-06-04

Abstract

本发明公开一种基于关联规则的数据挖掘方法及装置，包括：从待挖掘数据中选取目标因素；所述待挖掘数据中除所述目标因素以外的数据为非目标因素；采用预设的关联规则确定所述非目标因素之间的关联关系，获取非目标因素第一频繁集；将所述非目标因素第一频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集；按照预设的第一频繁度筛选阈值对所述目标因素候选集进行频繁度筛选，获取目标因素频繁集。本发明提供的技术方案，能够挖掘出一个因素通过另一个因素影响目标因素的关联关系，从而有效地获取数据之间更深层次的关联关系。

Description

一种基于关联规则的数据挖掘方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于关联规则的数据挖掘方法及装置。

背景技术

基于关联规则进行数据挖掘能够发现大量数据的属性之间可能存在的相关联系。该技术目前主要应用于移动电信、电子商务等电子通信领域，用于对用户的购物行为、信用评分等进行分析。

在医学领域中，同样需要对医学数据进行挖掘，以发现和评估各类医学指标与目标内容之间的关联性。例如，对病人的就诊资料进行挖掘，就可以分析临床病症与药之间的关系、临床病症与药复方之间的关系、临床病症与化学成分之间的关系等。现有的数据挖掘方法只能确定数据中各项因素两两之间的关系，例如，确定各项非目标因素对目标因素的影响。然而在医学领域，仅对上述数据关系进行挖掘与分析是不够的，我们需要知道各项因素之间的潜在关系，即某项因素是否能间接地影响目标因素。因此，需要提出一种新的方法，以发现数据之间更深层次的关联关系。

发明内容

本发明旨在提供一种基于关联规则的数据挖掘方法及装置，能够挖掘出一个因素通过另一个因素影响目标因素的关联关系，从而有效地获取数据之间更深层次的关联关系。

为达到上述目的，本发明采用的技术方案如下：

一种基于关联规则的数据挖掘方法，包括：从待挖掘数据中选取目标因素；所述待挖掘数据中除所述目标因素以外的数据为非目标因素；采用预设的关联规则确定所述非目标因素之间的关联关系，获取非目标因素第一频繁集；将所述非目标因素第一频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集；按照预设的第一频繁度筛选阈值对所述目标因素候选集进行频繁度筛选，获取目标因素频繁集。

优选地，所述采用预设的关联规则确定所述非目标因素之间的关联关系包括：从所述非目标因素中选取满足预设支持度要求的数据项，获取频繁项集；将所述频繁项集中的每一个数据项两两之间建立关系，形成非目标因素候选集；按照预设的第二频繁度筛选阈值对所述非目标因素候选集进行频繁度筛选，获取所述非目标因素第一频繁集。

进一步地，还包括：根据数据项顺序等价原则，对所述非目标因素第一频繁集进行去重处理，获取非目标因素第二频繁集；将所述非目标因素第二频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集。

进一步地，在所述从待挖掘数据中选取目标因素之前，还包括：加载原始数据；对所述原始数据进行预处理，获取所述待挖掘数据。

优选地，所述原始数据采用CSV格式存储；所述加载原始数据包括：以文本格式读取所述原始数据，并对所述原始数据进行行分离，获取所述原始数据中每一个数据项的属性。

优选地，所述对所述原始数据进行预处理包括：根据所述原始数据中每一个数据项的属性，确定需要进行数据转换的数据项；将所述需要进行数据转换的数据项按照预设转换阈值进行转换；存储所述预设转换阈值。

进一步地，所述将所述需要进行数据转换的数据项按照预设转换阈值进行转换之前，还包括：

判断是否存在常用转换阈值；若存在所述常用转换阈值，将所述需要进行数据转换的数据项按照所述常用转换阈值进行转换。

一种基于关联规则的数据挖掘装置，包括：第一选取单元，用于从待挖掘数据中选取目标因素；所述待挖掘数据中除所述目标因素以外的数据为非目标因素；挖掘单元，用于采用预设的关联规则确定所述非目标因素之间的关联关系，获取非目标因素第一频繁集；第一候选集获取单元，用于将所述非目标因素第一频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集；第一筛选单元，用于按照预设的第一频繁度筛选阈值对所述目标因素候选集进行频繁度筛选，获取目标因素频繁集。

进一步地，所述挖掘单元还用于根据数据项顺序等价原则，对所述非目标因素第一频繁集进行去重处理，获取非目标因素第二频繁集；所述第一候选集获取单元还用于将所述非目标因素第二频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集。

进一步地，还包括：数据加载单元，用于加载原始数据；数据预处理单元，用于对所述原始数据进行预处理，获取所述待挖掘数据。

本发明实施例提供的基于关联规则的数据挖掘方法及装置，首先挖掘出非目标因素之间的关联关系，再将非目标因素之间的关联关系与目标因素分别建立关联关系以获取目标因素候选集，最后对目标因素候选集进行频繁度筛选，得到的筛选结果即能够反映一项非目标因素通过另一项非目标因素对目标因素的影响。与现有技术相比，本发明能够有效地获取数据之间更深层次的关联关系。

附图说明

图1为本发明的方法流程图；

图2为本发明中数据加载流程图；

图3为本发明中数据转换流程图；

图4为本发明中一组具体数据的挖掘过程；

图5为本发明中非目标因素频繁集的获取过程；

图6为本发明中初始频繁度的统计过程；

图7为本发明中初始频繁项筛选过程；

图8为本发明中非目标因素候选集的构建过程示意图；

图9为本发明中目标因素候选集的构建过程示意图；

图10为本发明中目标因素/非目标因素频繁集的获取过程；

图11为本发明的装置结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

传统的关联规则挖掘，就是对数据的所有数据项之间的关联关系进行分析。若有N个数据项，则首轮分析的关系数最大为N*(N-1)/2。根据医学经验，有些指标项之间实际是没有影响的，传统分析方法可能因数据的巧合性分析出关系，产生无效结果；而有些数据项之间存在相互影响关系，但当次分析并不关心，因此，传统分析方法会产生无用结果。

关联规则挖掘目标，就是指定某一项为目标因素，分析非目标因素与目标因素之间的关联程度。若有N个数据项，则首轮分析的关系数最大为N-1。改进后，处理的次数更少，且得到的是其他数据项(即非目标因素)与目标数据项(即目标因素)之间的关联程度，产生无效结果的概率大大降低，也不会产生完全不关心的结果。

传统关联规则挖掘的是一组非目标因素与目标因素之间的关联，在医学数据处理中就是代表一组指标对目标指标存在影响。两级关联规则挖掘就是要发现医学数据中，一组指标通过影响另一个关键指标，最终对目标指标产生影响。例如，存在一组医学指标A、B、C、D、E、F，按照传统的无目标关联挖掘方式可能挖掘出关系ABCD→F、ABCD→E、ABCDE→F，以F为目标因素进行挖掘可能得到ABCD→F、ABCDE→F，而采用本发明的两级关联规则挖掘则得到结果ABCD→E→F。关联规则改进为两级后，可以得到因素间影响的传递可能，对确定因素间的相互影响以及更深层次的医学分析具有重要意义。

本发明提出的有目标的两级关联规则挖掘，首先需要挖掘出目标因素以外其他因素(即非目标因素)之间的关联关系，然后将非目标因素之间的关联关系与目标因素分别建立关联关系以获取目标因素候选集，再进行一轮频繁度筛选，最后得到符合要求的两级关联规则。在首轮处理时没有目标因素，初始候选集数量从最大为N*(N-1)/2，减少到(N-1)*(N-2)/2，且在后续处理中各数据项之间的关联关系不受目标因素影响。在完成非目标因素关联规则挖掘后，若产生m个非目标因素频繁项，将该m个非目标因素频繁项分别与目标因素建立关联关系，得到m个两级关联候选项，两级关联候选项通过频繁度筛选后剩下的频繁项就是最终的有目标的两级关联规则。有目标的两级关联规则的基本思想如图4所示，由对一组具体数据的挖掘过程来体现。

下面对本发明实施例的方法进行详细描述：

图1为本发明的方法流程图，包括：

步骤101，从待挖掘数据中选取目标因素；所述待挖掘数据中除所述目标因素以外的数据为非目标因素；

本步骤中，在所述从待挖掘数据中选取目标因素之前，还包括：加载原始数据；对所述原始数据进行预处理，获取所述待挖掘数据。在加载数据时主要实现对CSV(Comma-Separated Values，逗号分隔值)格式的支持。CSV是一种以逗号分隔存储表格数据的格式，可用EXCEL另存的方式得到，在WINDOWS和LINUX系统环境下都能很好的存储和处理。数据预处理主要实现数据的转换，在实现对每列数据进行自动类型判断的基础上，通过对数值型数据统一设置阈值，快速完成数值数据的转换，同时也为不同阈值情况下的关联规则分析提供支持。

本实施例中，加载原始数据包括：数据读取、数据行分离、数据项分离、数据类型判断、数据值类型转换、数据存储等过程，如图2所示。CSV格式存储的数据，一条记录对应一行数据，文件的首行为各列的列名。具体加载过程为：将CSV格式的原始数据以文本格式读入内存，并对原始数据进行行分离；通过对原始数据第一行进行数据项分离，得到列名与与数据项的对应关系；通过对第一条记录(原始数据第二行)进行数据项分离，得到原始数据中每一个数据项的属性和数据类型；逐行读取数据，将每一个数据项按照预定值进行数据类型转换，存储并维护数据结构。

数据转换就是将数据转换为用于关联分析的形式，主要包括需转换项判断、阈值确认和数据转换三个过程，如图3所示。本实施例中，对所述原始数据进行预处理具体包括：取一条记录数据，对记录的所有数据项进行检查，根据所述原始数据中每一个数据项的属性，确定需要进行数据转换的数据项；将所述需要进行数据转换的数据项按照预设转换阈值进行转换。数据项的每一个属性对应一个转换阈值，可一次对所有数据项进行数据转换，提高数据转换效率。

同时，在数据转换中引入经验积累。在医学领域中，由于医学数据中的数据项名一般都是规范的专用名词，因此可在每一次数据转换中将每次数据项的转换阈值进行存储和统计。假设在长期使用中选择的阈值就是基于医学研究经验最合适的转换阈值，则在之后的数据加载后程序可根据存储的常用转换阈值自动完成基于阈值的数据转换。即，在将需要进行数据转换的数据项按照预设转换阈值进行转换之前，还包括以下步骤：判断是否存在常用转换阈值；若存在所述常用转换阈值，将所述需要进行数据转换的数据项按照所述常用转换阈值进行转换。

步骤102，采用预设的关联规则确定所述非目标因素之间的关联关系，获取非目标因素第一频繁集；

本步骤中，采用预设的关联规则确定所述非目标因素之间的关联关系包括：从所述非目标因素中选取满足预设支持度要求的数据项，获取频繁项集；将所述频繁项集中的每一个数据项两两之间建立关系，形成非目标因素候选集；按照预设的第二频繁度筛选阈值对所述非目标因素候选集进行频繁度筛选，获取所述非目标因素第一频繁集。还包括：根据数据项顺序等价原则，对所述非目标因素第一频繁集进行去重处理，获取非目标因素第二频繁集。

本实施例中，非目标因素之间的关联关系的确定主要包括候选集构建和频繁度筛选，主要特点在于，整个过程中均不考虑目标因素。本步骤属于本发明方法的首轮数据挖掘，包括初始频繁度统计、初始频繁项筛选、构建候选集、对候选集的频繁度统计和筛选、合并频繁集等过程，如图5所示。

1、初始频繁度统计：初始频繁项统计主要是对目标因素以外的各项数据(即非目标因素)在所有待挖掘数据中的出现次数进行统计，需逐条进行数据项判断和统计，得到每个数据项出现的次数，如图6所示。统计完成后进入第2步。

2、初始频繁项筛选：检查目标因素以外的每项数据的出现次数占总数据数的比例是否满足支持度的要求，若满足则纳入频繁项集，如图7所示。筛选完成后进入第3步。

3、构建候选集：基于频繁项构建候选集时，需将每个频繁项都与其他频繁项建立连接形成候选集，如有N个频繁项，则产生N*(N-1)个候选集，如图8所示。此时构建的候选集为非目标因素候选集。

4、对候选集的频繁度统计和筛选：对非目标因素候选集中每一个候选项，统计其在所有待挖掘数据中出现的次数，根据出现次数占总数据数的比例是否满足频繁度要求，进行筛选，筛选的结果形成非目标因素第一频繁集，如图10所示。在筛选过程中不考虑目标因素。

5、合并频繁集：对非目标因素第一频繁集中的每一个频繁项进行检查，依照数据项顺序等价的原则，去掉重复的频繁项，得到非目标因素第二频繁集。

6、频繁集检查：若非目标因素第二频繁集为空则处理结束，结果集合中所有的关联关系项就是本轮关联分析的结果。若非目标因素第二频繁集不为空则进入第4步。

步骤103，将所述非目标因素第一频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集；

当步骤102对非目标因素第一频繁集进行了去重处理时，本步骤为：将所述非目标因素第二频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集。

步骤104，按照预设的第一频繁度筛选阈值对所述目标因素候选集进行频繁度筛选，获取目标因素频繁集。所述目标因素频繁集中的每一项反映了一项所述非目标因素通过另一项所述非目标因素影响所述目标因素的关联关系。

步骤103和步骤104为本发明的非首轮数据挖掘过程，主要包括：两级关联候选集构建、两级关联频繁度筛选等过程。首轮数据挖掘和非首轮数据挖掘在频繁度筛选和合并频繁集的方法流程上是一致的。

在完成非目标因素之间的关联关系挖掘后就形成了非目标因素之间的一系列关联关系，现在要纳入目标因素，构建两级关联规则，并进行最终的频繁度筛选。

1、两级关联候选集构建：将所述非目标因素第一频繁集中的每一个频繁项与所述目标因素建立关联关系，获取两级关联候选集，即所述目标因素候选集，如图9所示。

2、两级关联频繁度筛选：按照预设的第一频繁度筛选阈值对所述目标因素候选集进行频繁度筛选。筛选方法与非目标因素候选集的筛选方法一致，只是设定了不同的频繁度筛选阈值，并纳入了目标因素。筛选完成后也可对频繁集进行去重处理。

上述频繁度筛选后的输出结果即为本发明的两级关联规则结果。值得注意的是，在对同样一批数据进行两级关联规则挖掘时，鉴于两级关联的关联影响可能不如一级关联那么明显，应将频繁度筛选阈值略微调低。

此外，本发明还公开一种基于关联规则的数据挖掘装置，如图11所示，包括：第一选取单元，用于从待挖掘数据中选取目标因素；所述待挖掘数据中除所述目标因素以外的数据为非目标因素；挖掘单元，用于采用预设的关联规则确定所述非目标因素之间的关联关系，获取非目标因素第一频繁集；第一候选集获取单元，用于将所述非目标因素第一频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集；第一筛选单元，用于按照预设的第一频繁度筛选阈值对所述目标因素候选集进行频繁度筛选，获取目标因素频繁集。

本发明公开的基于关联规则的数据挖掘装置，其工作流程与工作原理已经在本发明的数据挖掘方法中进行了详细描述，此处不再赘述。

本发明实施例提供的基于关联规则的数据挖掘方法及装置，首先挖掘出非目标因素之间的关联关系，再将非目标因素之间的关联关系与目标因素分别建立关联关系以获取目标因素候选集，最后对目标因素候选集进行频繁度筛选，得到的筛选结果即能够反映一项非目标因素通过另一项非目标因素对目标因素的影响。与现有技术相比，本发明能够有效地获取数据之间更深层次的关联关系，从而使医务工作者能够进行更深层次的医学分析。

此外，本发明还实现了如下设计：

1、实现了对通用性数据格式的支持性设计：通用数据格式的支持可以多种应用场景，快速实现原始数据的加载，避免繁杂的数据获取和预处理过程。

2、对有目的的关联规则挖掘的支持性设计：有目的的挖掘，可以减少挖掘的计算次数，提高挖掘的效率；同时避免产生冗余或无效的结果，提高结果的质量。支持有目的的关联规则挖掘，比针对不同应用改进算法更高效、更便捷。

3、多种数据类型的自动类型判断和转换：对字符串、整数、浮点数、布尔值等数据进行类型的自动判断，无需手动逐项设置；方法根据数据类型实现对数据值的自动转换，无需手动进行数据预处理或重写程序。

4、数据转换阈值的快速调整和记忆：支持以输入方式快速调整某列数据的转换阈值，以列名和数据类型作为索引，记忆对应数据最终选择的阈值，并在以后转换同类数据时，提供阈值选择参考。

将本发明方案开发成医学数据关联规则分析工具后，可以实现如下功能：可以方便的用于临床诊断、药物研究、病理研究等不同领域的数据分析；可以有针对性的分析某种情况与特定的数据指标项之间的关联程度；可以有目的的分析各项指标对特定情况的影响程度；可用于发现不同指标或因素与目标项潜在的关联情况。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于关联规则的数据挖掘方法，其特征在于，包括：

从待挖掘数据中选取目标因素；所述待挖掘数据中除所述目标因素以外的数据为非目标因素；

采用预设的关联规则确定所述非目标因素之间的关联关系，获取非目标因素第一频繁集；

将所述非目标因素第一频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集；

按照预设的第一频繁度筛选阈值对所述目标因素候选集进行频繁度筛选，获取目标因素频繁集。

2.根据权利要求1所述的基于关联规则的数据挖掘方法，其特征在于，所述采用预设的关联规则确定所述非目标因素之间的关联关系包括：

从所述非目标因素中选取满足预设支持度要求的数据项，获取频繁项集；

将所述频繁项集中的每一个数据项两两之间建立关系，形成非目标因素候选集；

按照预设的第二频繁度筛选阈值对所述非目标因素候选集进行频繁度筛选，获取所述非目标因素第一频繁集。

3.根据权利要求2所述的基于关联规则的数据挖掘方法，其特征在于，还包括：

根据数据项顺序等价原则，对所述非目标因素第一频繁集进行去重处理，获取非目标因素第二频繁集；

将所述非目标因素第二频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集。

4.根据权利要求1所述的基于关联规则的数据挖掘方法，其特征在于，在所述从待挖掘数据中选取目标因素之前，还包括：

加载原始数据；

对所述原始数据进行预处理，获取所述待挖掘数据。

5.根据权利要求4所述的基于关联规则的数据挖掘方法，其特征在于，所述原始数据采用CSV格式存储；所述加载原始数据包括：

以文本格式读取所述原始数据，并对所述原始数据进行行分离，获取所述原始数据中每一个数据项的属性。

6.根据权利要求5所述的基于关联规则的数据挖掘方法，其特征在于，所述对所述原始数据进行预处理包括：

根据所述原始数据中每一个数据项的属性，确定需要进行数据转换的数据项；

将所述需要进行数据转换的数据项按照预设转换阈值进行转换；

存储所述预设转换阈值。

7.根据权利要求6所述的基于关联规则的数据挖掘方法，其特征在于，所述将所述需要进行数据转换的数据项按照预设转换阈值进行转换之前，还包括：

判断是否存在常用转换阈值；

若存在所述常用转换阈值，将所述需要进行数据转换的数据项按照所述常用转换阈值进行转换。

8.一种基于关联规则的数据挖掘装置，其特征在于，包括：

第一选取单元，用于从待挖掘数据中选取目标因素；所述待挖掘数据中除所述目标因素以外的数据为非目标因素；

挖掘单元，用于采用预设的关联规则确定所述非目标因素之间的关联关系，获取非目标因素第一频繁集；

第一候选集获取单元，用于将所述非目标因素第一频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集；

第一筛选单元，用于按照预设的第一频繁度筛选阈值对所述目标因素候选集进行频繁度筛选，获取目标因素频繁集。

9.根据权利要求8所述的基于关联规则的数据挖掘装置，其特征在于，所述挖掘单元还用于根据数据项顺序等价原则，对所述非目标因素第一频繁集进行去重处理，获取非目标因素第二频繁集；所述第一候选集获取单元还用于将所述非目标因素第二频繁集中的每一个频繁项与所述目标因素建立关联关系，获取目标因素候选集。

10.根据权利要求8所述的基于关联规则的数据挖掘装置，其特征在于，还包括：

数据加载单元，用于加载原始数据；

数据预处理单元，用于对所述原始数据进行预处理，获取所述待挖掘数据。