CN103353864B

CN103353864B - 一种数据库近似字典规则的挖掘方法、系统及数据库终端

Info

Publication number: CN103353864B
Application number: CN201210471801.7A
Authority: CN
Inventors: 王明兴; 贾西贝
Original assignee: Shenzhen Huaao Data Technology Co Ltd
Current assignee: Shenzhen Huaao Data Technology Co Ltd
Priority date: 2012-11-20
Filing date: 2012-11-20
Publication date: 2016-08-31
Anticipated expiration: 2032-11-20
Also published as: CN103353864A

Abstract

本发明适用于近似字典规则挖掘领域，提供了一种数据库近似字典规则的挖掘方法、系统及数据库终端，所述近似字典依赖规则挖掘方法包括如下步骤：对数据库r进行扫描分析，剔除单一值列和所有值都唯一的列，其余候选列集记为R；统计所述候选列集R各列中各项的支持度，并对支持度大于给定最小支持度的项用整数编码；将所述数据库r的每一行事务按顺序编号，并以列表记录所述各项包含的行事务编号，再缓存；使用LCfd的方法挖掘数据库r的近似字典规则；输出所述近似字典规则。在本发明中，通过在数据库中运用LCfd的近似字典规则挖掘方法，采用逆序递增的搜索策略，并通过修剪方法对搜索树进行剪枝，同时缓存已经发现的规则，可减少整个挖掘方法的计算量，自动、高效地找出数据库中的近似字典规则。

Description

一种数据库近似字典规则的挖掘方法、系统及数据库终端

技术领域

本发明涉及近似字典规则挖掘领域，尤其涉及一种数据库近似字典规则的挖掘方法、系统及数据库终端。

背景技术

随着互联网的快速发展和社会各领域信息化水平的提高，数据量正以史无前例的速度井喷，人类正在进入大数据时代。大数据时代的特征是数据量更大，数据来源更复杂，数据更新速度更快，数据质量良莠不齐，仅靠人工手段几乎无法进行数据质量管理。数据管理领域正孕育着大变革、大突破，已经商用的技术基本停留在手工的、基于经验的第二代数据质量管理阶段，自动化的、基于严谨理论体系的第三代数据质量管理商用系统还没有出现。自动化的管理体系中一个重要的内容就是自动化的数据质量挖掘规则，其中一类规则就是字典规则，特别是近似字典规则。

如考虑如下表所示的部分邮政编码数据，根据规则{区县编码，014060}＝＞{邮政编码，014060}，表明当区县编码为014060时，90％情况下邮政编码为014060，另外10％数据(010460)则是可疑的，很可能是数据错误。

邮政编码	省份编码	地区编码	区县编码	地址
					014060	15	0140	014060	万泉街
014060	15	0140	014060	三道沙河村
					014060	15	0140	014060	二道沙河西村
014060	15	0140	014060	健康路
					014060	15	0140	014060	健新街
014060	15	0140	014060	兴胜镇
					014060	15	0140	014060	转龙街
014060	15	0140	014060	果园北街
					014060	15	0140	014060	果园南街
010460	15	0140	014060	新城镇

目前对于字典规则有多种挖掘方法，用得比较多的是AClose方法，AClose在挖掘闭集时通过计算所有闭集的generator以及对应的closure，通过generator和closure可以产生对应的字典规则。但是AClose只能产生精确的字典规则，对数据管理系统更有用且在现实中大量存在的近似字典规则，AClose无能为力；而且AClose方法性能差，只能处理小数据量，遇到稍大点的数据时，计算时间、内存消耗都大到无法接受，因此不适用于工业界应用。本发明正是在此背景之下，针对海量数据，提出一种高效的、适用大数据环境的自动挖掘近似字典规则的方法。

发明内容

本发明的目的在于提供一种数据库近似字典规则的挖掘方法，旨在解决以往挖掘方法性能差、效率不高，从而不能适应大数据分析和处理需要的问题。

本发明是这样实现的，一种数据库近似字典规则的挖掘方法，所述方法包括如下步骤：

步骤S1：对数据库r进行扫描分析，剔除单一值列和所有值都唯一的列，其余候选列集记为R；

步骤S2：统计所述候选列集R各列中各项的支持度，并对支持度大于给定最小支持度的项用整数编码；

步骤S3：将所述数据库r的每一行事务按顺序编号，并以列表记录所述各项包含的行事务编号，再缓存；

步骤S4：使用LCfd的方法挖掘数据库r的近似字典规则；

步骤S5：输出所述近似字典规则。

优选的，所述使用LCfd的方法挖掘数据库r的近似字典规则包括以下步骤：

步骤S41：对所述候选列集R排序，采用策略搜索满足条件的近似字典规则左部对应的事务列表；

步骤S42：对所述策略搜索的搜索空间，采用修剪方法对搜索树进行剪枝，压缩所述搜索空间；

步骤S43：对所述经过压缩的搜索空间进行计算并生成近似字典规则右部的事务列表，同时生成近似字典规则；

步骤S44：缓存所述生成的近似字典规则。

优选的，步骤41中对所述候选列集R排序可为按其在数据库中的顺序排序。

优选的，步骤S41中所述搜索策略可为逆序递增策略，按从大到小的顺序搜索已有候选列集R各列及其各项的事务列表，并按从小到大的顺序排列已有规则左部和新增规则左部的事务列表。

优选的，所述新增规则左部的事务列表可为新增列中新增项的事务列表与所述已有规则左部的事务列表的公共子集。

优选的，在所述步骤S41之前还可以包括以下步骤：

步骤S40：一次计算出所有候选项的事务列表。

优选的，所述一次计算出所有候选项的事务列表包括以下步骤：

步骤S401：初始化所述候选列集R各列中各项的事物列表为空；

步骤S402：扫描所述事务列表，若第i行事务的第j列为项a，则在项a的事务列表中增加i；

步骤S403：跳转到步骤S402扫描下一事务列表。

步骤S404：扫描结束。

优选的，步骤S42中所述修剪方法可为若存在规则{X，x₁}→{Y，y₁}，则(a1，b1)为非freeset，故剪掉(x1，y1)及其所有超集。

优选的，步骤S42中所述修剪方法可为若存在规则{X，x₁}→{Y，y₁}，则X的超集下的Y枝点均冗余，故剪掉X的超集下所有Y枝点。

优选的，步骤S44中所述缓存可用带索引的字典规则树形式存贮，所述规则左部存贮为树的节点，所述规则右部存贮为最后节点的结果，并给最后节点建立一个索引，将相同项的节点链接起来，用于快速查找以同一项结尾的所有规则。

优选的，所述步骤S43中的生成近似字典规则右部的事务列表，同时生成近似字典规则，包括以下步骤：

步骤S431：初始化规则左部的列freesetCol、项集freesetItems、闭集列closureCol均为空，使所述事务列表tranList包含所有事务；

步骤S432：判断所述freesetItems是否非freeset，若是则跳转至步骤S438；否则跳转到步骤S433；

步骤S433：根据所述修剪方法进行剪枝，并将剪去的列更新至所述闭集列closureCol；

步骤S434：根据所述闭集列closureCol计算出候选列集availableCol，即未在closureCol出现的列；

步骤S435：在所述候选列集availableCol中计算当前项集freesetItems的闭集列closureCol和闭集项closedItems，以及所述候选子集candidates的列、项及项的事务列表itemTranList；

步骤S436：判断所述闭集项closedItems是否为非空，若是则对所述闭集列closureCol和所述闭集项closedItems中的每一对列col和项item产生一条字典规则{freesetCol，freesetItems}＝＞{col，item}，并将所述规则保存到字典规则树；

步骤S437：按逆序遍历所述候选子集candidates，更新所述规则左部的列freesetCol、项集freesetItems、闭集列closureCol和事务列表tranList，并递归调用LCfd字典规则挖掘方法；

步骤S438：结束。

优选的，所述步骤S434中计算当前项集freesetItems的闭集列closureCol和闭集项closureItems，以及所述候选子集candidates，包括以下步骤：

步骤S4341：计算当前项集freesetItems的支持度supp，即对应的事务列表tranList的大小；

步骤S4342：遍历所述候选列集availableCol的列col，若遍历结束则跳转至步骤S43410；

步骤S4343：扫描所述事务列表tranList对应的所有事务，构建其中所有项item的事务列表并记为itemTranList；

步骤S4344：遍历所述列col中的项item，若遍历结束则跳至步骤S4342遍历下一列；

步骤S4345：计算所述项item的支持度itemSupp；

步骤S4346：判断itemSupp/supp的值是否大于或等于最小置信度C，若是则跳转至步骤S4347，否则跳转至步骤S4348；

步骤S4347：将所述项item添加到closedItems，所述列col添加到closedCol并更新所述闭集列closureCol，并跳转至步骤S4344遍历下一项item；步骤S4348：判断所述列col是否大于freesetCol中最大的列且itemSupp是否大于最小支持度，若是则跳至步骤S4349，否则跳至步骤S4344遍历下一项item；

步骤S4349：将所述列col、所述item、itemTranList信息保存到所述候选子集candidates，并跳至步骤S4344遍历下一项item；

步骤S43410：结束。

优选的，所述步骤S436中按逆序遍历所述候选子集candidates，包括如下步骤：

步骤S4361：按逆序遍历所述候选子集candidates的列col，若遍历结束则跳转至步骤S4367；

步骤S4362：将所述列col更新至freesetCol和闭集列closureCol；

步骤S4363：遍历所述列col中的候选项item，若遍历结束则跳转至步骤S4367；

步骤S4364：将所述候选项item更新至freesetItems，并将tranList设为候选项item对应的事务列表itemTranList，并递归调用LCfd方法；

步骤S4365：回退freesetItems至遍历前状态，跳至步骤S4363遍历下一项item；

步骤S4366：所有候选项item遍历完成后回退freesetCol和closureCol，跳至步骤S4362遍历下一列col；

步骤S4367：回退closureCol至进入前状态；

步骤S4364：结束。

本发明的另一目的在于提供一种数据库近似字典规则的挖掘系统，所述系统包括：

(1)数据库扫描分析装置，用于对数据库r进行扫描分析，剔除单一值列和所有值都唯一的列，并将其余候选列集记为R；

(2)支持度统计和编码装置，用于统计所述候选列集R各列中各项的支持度，并对支持度大于给定最小支持度的项用整数编码；

(3)行事务编号和记录装置，用于将所述数据库r的每一行事务按顺序编号，并以列表记录所述各项包含的行事务编号，再缓存；

(4)近似字典规则挖掘装置，用于使用LCfd的方法挖掘数据库r的近似字典规则；

(5)近似字典规则输出装置，用于输出所述近似字典规则。

优选的，所述近似字典规则挖掘装置包括：

(41)规则左部搜索单元，用于对所述候选列集R排序，并采用策略搜索满足条件的近似字典规则左部对应的事务列表；

(42)剪枝压缩单元，用于对所述策略搜索的搜索空间，采用修剪方法对搜索树进行剪枝，压缩所述搜索空间；

(43)规则生成单元，用于对所述经过压缩的搜索空间进行计算并生成近似字典规则右部的事务列表，同时生成近似字典规则；

(44)规则缓存单元，用于缓存所述生成的近似字典规则。

优选的，所述近似字典规则挖掘装置还可以包括候选项事务列表计算单元，用于一次计算出所有候选项的事务列表。

优选的，所述候选项事务列表计算单元包括如下：

(401)候选项列表初始化模块，用于初始化所述候选列集R各列中各项的事物列表为空；

(402)候选项事务列表生成模块，用于扫描所述事务列表，若第i行事务的第j列为项a，则在项a的事务列表中增加i；重复所述步骤，直到扫描结束后即可构成所有候选项的事务列表。

优选的，所述规则生成单元包括如下：

(431)规则左部初始化模块，用于初始化规则左部的列freesetCol、项集freesetItems、闭集列closureCol均为空，使所述事务列表tranList包含所有事务；

(432)判断模块，用于判断所述freesetItems是否非freeset，若是则跳转至步骤S438；否则跳转到步骤S433；

(433)剪枝模块，用于根据所述修剪方法进行剪枝，并将剪去的列更新至所述闭集列closureCol；

(434)候选列集计算模块，用于根据所述闭集列closureCol计算出候选列集availableCol，即未在closureCol出现的列；

(435)闭集和候选子集计算模块，用于在所述候选列集availableCol中计算当前项集freesetItems的闭集列closureCol和闭集项closedItems，以及所述候选子集candidates的列、项及项的事务列表itemTranList；

(436)近似字典规则生成模块，用于判断所述闭集项closedItems是否为非空，若是则对所述闭集列closureCol和所述闭集项closedItems中的每一对列col和项item产生一条近似字典规则{freesetCol，freesetItems}＝＞{col，item}，并将所述规则保存到字典规则树；

(436)候选子集遍历模块，用于按逆序遍历所述候选子集candidates，更新所述规则左部的列freesetCol、所述项集freesetItems、所述闭集列closureCol和所述tranList，并递归调用LCfd字典规则挖掘方法；

(437)规则生成结束模块。

本发明的另一目的在于提供一种数据库终端，所述数据库包括近似字典规则的挖掘系统，所述系统包括：

(5)近似字典规则输出装置，用于输出所述近似字典规则。

优选的，所述近似字典规则挖掘装置包括：

(44)规则缓存单元，用于缓存所述生成的近似字典规则。

优选的，所述规则生成单元包括如下：

(437)规则生成结束模块。

在本发明中，通过在数据库中运用LCfd的近似字典规则挖掘方法，对数据库中的候选列及项采用逆序递增的搜索策略，可以避免循环搜索，并通过修剪方法对搜索树进行剪枝，可大幅度压缩搜索空间，同时缓存已经发现的规则，可减少整个挖掘方法的计算量，自动、高效地找出数据库中列的近似字典规则，特别适用于云数据、海量数据等大数据的计算，满足工业界的需求。

应当理解，以上总体说明和以下详细说明都是说明性和实例性的，旨在提供对所要求的本发明的进一步说明。

附图说明

图1是本发明提供的近似字典规则挖掘方法的流程图；

图2是本发明提供的LCfd近似字典规则挖掘方法的列搜索树；

图3是本发明提供的对修剪方法进行缓存的字典规则树；

图4是本发明提供的LCfd近似字典规则挖掘方法的具体迭代流程图；

图5是本发明提供的计算规则左部freesetCol的闭集closedCol和候选子集candidates的流程图；

图6是本发明提供的逆序遍历候选子集candidates的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

相关概念

考虑数据库r，定义r中所有列的集合为R，每列中出现不同值称为项(item)，所有项的集合定义为项集I；r的每一行称为事务t(transaction)，

(1)支持度：对于一个给定的项集定义其支持度supp(X)为r中包含项集X的事务数，即满足的事务数。

(2)超集、子集：对于两个项集X，Y，如果满足则称Y是X的超集，X是Y的子集，且有supp(Y)＜＝supp(X)。

(3)闭集(closedset)：一个项集X是闭集当且仅当不存在一个X的超集Y使得supp(Y)＝supp(X)。一个项集是闭集也称这个项集是闭的。任一项集X对应的闭集用C(X)表示：C(X)＝X∪{A|A∈I\X，supp(X∪A)＝supp(X)}。

(4)δ-闭集：一个项集X是δ闭集当且仅当不存在一个X的超集Y使得其supp(Y)＞＝supp(X)*(1-δ)。X的δ闭集用C(x，δ)表示。通常δ是个接近1的数。

(5)freeset：一个项集X是freeset当且仅当不存在一个X的子集Y使得supp(Y)＝supp(X)。按freeset的定义，可以推导出：

性质1：任何一个freeset的子集也一定是freeset；

性质2：任何一个非freeset的超集也是非freeset；

(6)δ-freeset：一个项集X是δ-freeset当且仅当不存在一个X的子集Y使得supp(Y)*(1-δ)＜＝supp(X)。

(7)关联规则其中定义其支持度supp(r)＝supp(X)，其置信度为conf(r)＝supp(X∪Y)/supp(X)。

(8)字典规则：其中规则左部Items＝(item₁，item₂…item_n)，满足δ-freeset，Cols＝(col₁，col₂…col_n)，为Items各项所处在的列。规则右部为item及其对应的列col，其中item∈C(Items，δ)-Items。规则含义为列col₁值为item₁，col₂值为item₂…col_n值为item_n时列col的值为item；规则d的支持度为supp(d)＝supp(Items)，置信度为conf(d)＝supp(Items∪item)/supp(Items)。

(9)冗余规则：如果存在两个规则即规则右部相同且则称规则d2是冗余的。

(10)字典规则挖掘算法：给定最小支持度s，最小置信度c，本方法将从数据库r中挖掘出所有非冗余的字典规则满足supp(d)＞＝s，conf(d)＞＝c，其中Items为δ-freeset，item∈C(Items，δ)\Items，δ＝1-c。

图1示出了本发明提供的近似字典规则挖掘方法的流程，详述如下：

P1：分析数据库r，考虑到最小支持度s通常大于1，所以唯一值列上不可能产生数据规则；而分析单一值列也没有实际意义，故剔除单一值的列和所有值都唯一的列，可减少算法计算量，其他候选列记为R。

P2：扫描r，统计候选列中各项item的支持度，对于支持度大于最小支持度s的项进行编码。由于数据库中每列值的格式都可能不一样，所以对R中支持度大于给定最小支持度s的项用整数进行编码，方便进行计算。

P3：扫描数据库r，将r候选列中的数据存入内存。计算项集的支持度时，需要扫描数据库，计算包含项集的事务个数。为了防止多次重复扫描数据库，将数据库数据缓存到内存中。将数据库r的每一行事务按顺序编号，用列表来记录某列中的某项包含哪些事务。这样计算某项的支持度只需计算事务列表的大小，计算项集的支持度时也只需计算各项事务列表交集的大小。

P4：使用LCfd的方法挖掘近似字典规则。

P5：输出所述近似字典规则。

图2示出了本发明提供的近似字典规则挖掘方法的列搜索顺序树。在挖掘数据库中的近似字典规则时，首先将R按一定的顺序排序(如按在数据库中的顺序排序)，采用一种递增的策略搜索所有满足条件的规则左部。先搜索列，再搜索列中的所有项。列按从大到小的顺序搜索，而在规则左部的列按从小到大的顺序排列，通过往左部中添加一个新列及其列中的项来构成新的候选规则左部，新加的列必须比左部中最后的列大(这样可避免循环搜索)。可以一种树型结构来说明的列搜索顺序，如考虑有ABCD4列，搜索顺序如图2所示。将从空集出发，依次访问D，C，CD，B，BD，BC...，即按从右到左、从上到下的顺序搜索。

此外，简单的的逆序递增搜索策略计算量将会相当的大(计算量与列的数量成指数关系)，必须采用一定的策略来压缩搜索空间，对搜索树进行剪枝。可以采用2种策略来剪枝：

1.freeset：按定义，规则的左部必须为freeset，若存在一规则的左部为{X，x}，右部的列为{Y，y}，则(x，y)为非freeset，而根据freeset的性质2，任何非freeset的超集都是非freeset，故(x，y)及其下面的树枝都可以剪掉。如存在一规则{B，b₁}→{A，a₁}，则(a1，b1)为非freeset，故(a1，b1)及其所有超集都可以剪掉。

2.冗余规则：若存在一规则{X，x}＝＞{Y，y}，x的超集下的Y枝点都是冗余的。如存在一规则{B，b₁}→{D，d₁}，则b1的超集下的所有D枝点都可以剪掉。

按顺序、增量的搜索方式保证了任何项集的子集的顺序都在当前项集之前，这在搜索树上很容易看出来，如ABC(树中的顺序为14)的子集A(8)，B(4)，C(2)，AB(12)，AC(10)BC(6)等的顺序都比ABC小。根据这点，可以按上述2种策略利用子集规则对当前枝点进行尽可能多的剪枝，减少整个算法的计算量。

图3示出了本发明提供的字典规则树。为了剪枝，需要缓存已经发现的规则。利用子集规则进行剪枝时，需要判断当前左部的所有子集的规则，而由于采用增量的方式搜索，当往左部添加一个新项时，只需要判断包含了新添项的部分子集的规则，如考虑左部为{ABCD，(a1，b1，c1，d1)}，由于它是通过向(a1，b1，c1)添加d1构成的，而已经根据(a1，b1，c1)及其所有子集规则进行剪枝，所以只需要判断所有以d1结尾的子集规则即可，如(a1，d1)(a1，b1，d1)(b1，d1)(b1，c1，d1)等。根据这点，使用了一种带索引的字典树来存贮已挖掘的规则。将规则左部的每个项存贮为树的节点，规则右部列存贮为最后节点的“果实”(因为同一列中的各个项具有排他性，可以通过列来剔除更多的无效枝点)，并给最后节点建立一个索引，将相同项的节点链接起来，这样可以快速查找以某个项结尾的所有相关规则。

比如存在5个规则：

d1：{B，b1}＝＞{C，c1}

d2：{AB，(a1，b1)}＝＞{D，d1}

d3：{AB，(a1，b1)}＝＞{F，fl}

d4：{AB，(a1，b2)}＝＞{D，d2}

d5：{ABE，(a1，b2，e1)}＝＞{C，c2}

构成的规则树如图3所示。如想查找以b1结尾的规则，首先查找索引表是否包含b1，然后通过链接遍历出所有以b1结尾的规则，包含两条记录：(b1)，可以剪掉的列为C；(a1，b1)，可以剪掉的列为D和F。

增量搜索方式可以简化支持度的计算，可以记录当前规则左部对应的事务列表，当新加一项时，只需求当前的事务列表与新加项的事务列表的公共子集即可得到新候选规则的事务列表。但如此简单的求每个候选项公共子集的计算总量还是比较大，可以进一步改进方法减少计算量。可以一次就计算出所有候选项的事务列表：初始化有候选项的事务列表为空，如果扫描当前事务列表中的每一事务，如果第i行事务的第j列为项a，则在项a的事务列表中增加i，扫描结束后即可构成所有候选项的事务列表。(具体方法参考LCM方法的occurrence deliver)

图4示出了本发明提供的近似字典规则的LCfd挖掘方法的具体迭代流程，步骤如下：

L0.初始化规则左部的列freesetCol为空，项集freesetItems为空；闭集列closureCol为空；事务列表tranList包含所有事务；

L1.根据规则树进行剪枝，将剪去的列更新到closureCol；

L2.判断freesetItems，如果freesetItems不是freeset，则迭代结束跳转到L7；

L3.根据closureCol计算出候选列集availableCol，即没在closureCol中出现的列；

L4.在availableCol中计算出当前freesetItems的闭集elosedCol、closedItems和候选子集candidates(包含列和项及项的事务列表itemTranList，具体方法见后)；

L5.如果closedItems非空，则对closedCol、closedItems中的每一对col、item，产生一条字典规则{freesetCol，freesetItems}＝＞{col，item}，并将规则保存到规则树；

L6.按逆序遍历候选子集candidates，更新freesetCol，freesetItems，closureCol，tranList，并递归调用LCfd流程(具体方法见后)；

L7.回退closureCol至进入状态并结束当前迭代；

L8.结束迭代。

图5示出了本发明提供的对图4中L4步骤中计算当前freesetItems的闭集和候选子集的流程，详述如下：

D4.1.计算当前freesetItems的支持度supp，即事务列表tranList的大小；

D4.2.遍历availableCol所有列col，如果遍历结束这跳转到L4.10；

D4.3.扫描tranList对应的所有事务，构建tranList包含的项item的事务列表，每个item的事务列表记为itemTranList；

D4.4.遍历产生的所有项item，如果结束则跳转到L4.2遍历下一列；

D4.5.计算item的支持度，设为itemSupp，即itemTranList的大小；

D4.6.判断itemSupp/supp是否大于或等于最小置信度c，如果满足这跳转到L4.7，否则跳转到L4.8；

D4.7.itemSupp/supp是否大于或等于最小置信度c说明item属于freesetItems的闭集，将item添加到closedItems，col添加到closedCol和closureCol，然后跳转到L4.4遍历下一个item

D4.8.判断col是否大于freesetCol中最大的列且itemSupp是否大于或等于最小支持度，如果存立这跳转到L4.9；否则跳转到L4.4遍历下一个item；

D4.9.说明item是候选项，将col，item，itemTranList信息保存到candidates中，然后跳转到L4.4遍历下一个item；

D4.10.方法结束。

图6示出了本发明提供的对图4中L6步骤中遍历候选子集的流程，详述如下：

D6.1.首先按逆序(从大到小)遍历candidates的列col，如遍历结束则跳转到L6.7；

D6.2.将col更新到freesetCol和closureCol。

D6.3.遍历col中的候选项item，如遍历结束则跳转到L6.6；

D6.4.item对应的事务列表为itemTranList。将item更新到freesetItems，tranList设为itemTranList，并递归调用LCfd算法。

D6.5.将freesetItems回退至遍历前状态，跳转到L6.3遍历下一个item。

D6.6.item遍历完成后回退freesetCol和closureCol，跳转到L6.2遍历下一列。

D6.7.回退closureCol到进入前状态；

D6.8.遍历完成则结束。

以下结合具体数据，对本实施例展开详细说明。如考虑如下数据：

事务id	A	B	C	D
					1	a1	b1	c1	d1
2	a1	b1	c1	d1
					3	a1	b1	c1	d1
4	a1	b1	c1	d1
					5	a1	b2	c2	d1
6	a2	b1	c1	d1
					7	a3	b1	c1	d1
8	a2	b2	c2	d2
					9	a2	b2	c2	d2
10	a3	b2	c1	d3
					11	a4	b2	c1	d3

假设给定最小支持度为2，置信度为0.8；首先对数据进行编码，对支持度大于或等于2的项用大于0的整数编码，其他项用0编码(表示舍弃)，编码后的结果存入内存，结果如下：

事务id	A	B	C	D
					1	1	4	6	8
2	1	4	6	8
					3	1	4	6	8
4	1	4	6	8
					5	1	5	7	8
6	2	4	6	8
					7	3	4	6	8
8	2	5	7	9

9	2	5	7	9
					10	3	5	6	10
11	0	5	6	10

对上面数据调用LCfd算法挖掘字典规则，初始化规则左部的列freesetCol为空，项集freesetItems为空；闭集列closureCol为空；事务列表tranList包含所有事务，即为{1，2，3，4，5，6，7，8，9，10，11}；规则树为空。

LCfd_0：进入时状态freesetItems＝Φ，freesetCol＝Φ，closureCol＝Φ，tranList＝{1，2，3，4，5，6，7，8，9，10，11}

L1.根据规则树进行剪枝，因规则树为空，故略过；

L2.判断freesetItems，空集为freeset；

L3.根据closureCol计算出候选列集availableCol，即没在closureCol中出现的列，计算得availableCol＝{A，B，C，D}；

L4.计算闭集closedCol、closedItems和候选子集candidates。计算出当前freesetItems的支持度supp，即事务列表tranList的大小，为supp＝11，清空closedCol、closedItems。遍历availableCol中的列，首先是A，扫描tranList对应的所有事务{1，2，3，4，5，6，7，8，9，10，11}，构建tranList包含的项item的事务列表，计算得到项1的事务列表为{1，2，3，4，5}，项2的事务列表为{6，8，9}，项3的事务列表为{7，10}，项0为忽略项。遍历每个项，对于项1，其支持度为itemSupp＝5，itemSupp/supp＝5/11＜置信度(c＝0.8)，故项1不属于当前freesetItems的闭集，由于itemSupp＞＝最小支持度2，而freesetCol又为空，所以列A大于freesetCol中最大的列存立，故项1是个候选项，将项1及其事务列表{1，2，3，4，5}保存到candidates中；同理可得项2、3都是候选项，将它们及其对于的事务列表保存到candidates中。同理对于B列的项4的事务列表为{1，2，3，4，6，7}，项5的事务列表为{5，8，9，10，11}，都属于候选项，C列的项6的事务列表为{1，2，3，4，6，7，10，11}，项7的事务列表为{5，8，9}，也都属于候选项，D列的项8的事务列表为{1，2，3，4，5，6，7}，项9的事务列表为{8，9}，项10的事务列表为{10，11}，也都属于候选项；

L5.因closedItems为空，故略过；

L6.按逆序遍历candidates中的列，即按DCBA的顺序。首先是列D，将D增加到freesetCol和closureCol中，即freesetCol＝{D}，closureCol＝{D}，然后遍历D中的所有候选项(8、9、10)：对于项8，将其更新到freesetItems，即freesetItems＝{8}，取出项8对应的事务列表为itemTranList＝{1，2，3，4，5，6，7}，更新tranList＝itemTranList，递归调用LCfd算法，具体过程如LCfd_1；项8遍历结束后回退freesetItems并将项9更新到freesetItems，即freesetItems＝{9}，设置tranList为项9对应的事务列表{8，9}，再递归调用LCfd算法，过程类似与LCfd_1，可得规则对于项10，同理可得规则 D列计算完毕计算C列，首先回退freesetCol和closureCol，将C更新到其中，即freesetCol＝{C}，closureCol＝{C}，遍历C列的候选项(6，7)：对于项6，将其更新到freesetItems，即freesetItems＝{6}，取出项6对应的事务列表为itemTranList＝{1，2，3，4，6，7，10，11}，更新tranList＝itemTranList，递归调用LCfd算法，具体过程如LCfd_2；项6计算完毕回退freesetItems并将项7更新其中，类似的更新tranList＝{5，8，9}，并递归调用LCfd算法，此时无规则产生。项7计算完毕回退freesetItems，列C遍历结束回退freesetCol和closureCol。B列、A列按同样的流程迭代，具体过程略。

L7.回退closureCol至进入状态，即closureCol＝Φ；

L8.结束。

LCfd_1：进入时状态freesetItems＝{8}，freesetCol＝{D}，closureCol＝{D}，tranList＝{1，2，3，4，5，6，7}

L1.根据规则树进行剪枝，因规则树为空，故略过；

L2.判断freesetItems，项8为freeset；

L3.根据closureCol计算出候选列集availableCol，即没在closureCol中出现的列，得availableCol＝{A，B，C}；

L4.计算闭集closedCol、closedItems和候选子集candidates。计算出当前freesetItems的支持度supp，为supp＝7。遍历availableCol中的列，首先是A，扫描tranList对应的所有事务{1，2，3，4，5，6，7}，构建tranList包含的项item的事务列表，计算得到项1的事务列表为{1，2，3，4，5}，项2的事务列表为{6}，项3的事务列表为{7}。遍历每个项，对于项1，其支持度为itemSupp＝5，itemSupp/supp＝5/7＜置信度(c＝0.8)，故项1不属于当前freesetItems的闭集，由于列A不大于freesetCol中最大的列(D)，故项1不是个候选项；同理项2、3都不属于闭集，而其支持度1小于最小支持度，故都不属于候选项。对于B列的项4的事务列表为{1，2，3，4，6，7}，其支持度为6，6/7＞置信度0.8，故项4属于freesetItems的闭集，将项4添加到closedItems，即closedItems＝{4}，列B添加到closedCol和closureCol，即closedCol＝{B}，closureCol＝{B，D}；B列的另一项5，事务列表为{5}，可得即不属于闭集也不属于候选项。同理对C列，项6属于闭集，将项6添加到closedItems，即closedItems＝{4，6}，列C添加到closedCol和closureCol，即closedCol＝{B，C}，closureCol＝{B，C，D}

L5.closedCol＝{B，C}，closedItems＝{4，6}，故产生规则和

L6.candidates为空，故略过；

L7.回退closureCol至进入状态，即closureCol＝{D}；

L8.结束。

LCfd_2：进入时状态freesetItems＝{6}，freesetCol＝{C}，closureCol＝{C}，tranList＝{1，2，3，4，6，7，10，11}

L1.根据规则树进行剪枝，因规则树中没有以6结尾的规则，故略过；

L2.判断freesetItems，项6为freeset；

L3.根据closureCol计算出候选列集availableCol，即没在closureCol中出现的列，得availableCol＝{A，B，D}；

L4.计算闭集closedCol、closedItems和候选子集candidates。计算出当前freesetItems的支持度supp，为supp＝8。遍历availableCol中的列，首先是A，扫描tranList对应的所有事务{1，2，3，4，6，7，10，11}，构建tranList包含的项item的事务列表，计算得到项1的事务列表为{1，2，3，4}，项2的事务列表为{6}，项3的事务列表为{7，10}，0为忽略项。遍历每个项，对于项1，其支持度为itemSupp＝4，itemSupp/supp＝4/8＜置信度(c＝0.8)，故项1不属于当前freesetItems的闭集，由于列A不大于freesetCol中最大的列(C)，故项1不是个候选项；同理项2、3也不属于闭集，也不属于候选项。对于B列的项4的事务列表为{1，2，3，4，6，7}，其支持度为itemSupp＝6，itemSupp/supp＝6/8＜置信度0.8，故项4不属于freesetItems的闭集，列B不大于freesetCol中最大的列(C)，故项4不是个候选项，同理项5不属于闭集，也不属于候选项。对于D列，计算得项8的事务列表为{1，2，3，4，6，7}，支持度为itemSupp＝6，itemSupp/supp＝6/8＜置信度0.8，故8不属于闭集，但因为itemSupp＞＝最小支持度2，且D列大于freesetCol中最大的列C，故8属于候选项，将列D，项8，及其事务列表{1，2，3，4，6，7}保存到candidates中；项10的事务列表为{10，11}，计算可得也属于候选项，将其及其事务列表保存到candidates中。

L5.closedItems为空，故略过；

L6.逆序遍历candidates中的所有列，此处只有D列，将D增加到freesetCol和closureCol中，即freesetCol＝{C，D}，closureCol＝{C，D}，然后遍历其所有候选项(8，10)：先考虑项8，将其更新到freesetItems，即freesetItems＝{6，8}，取出项8对应的事务列表为itemTranList＝{1，2，3，4，6，7}，更新tranList＝itemTranList，递归调用LCfd算法，具体过程如LCfd_3；项8计算完毕回退freesetItems然后将项10更新到其中，更新tranList，类似的递归调用LCfd算法，无规则产生；项10计算完毕回退freesetItems；

L7.回退closureCol至进入状态，即closureCol＝{C}；

L8.结束。

LCfd_3：进入时状态freesetItems＝{6，8}，freesetCol＝{C，D}，closureCol＝{C，D}，tranList＝{1，2，3，4，6，7}

L1.根据规则树进行剪枝，根据规则树中以8结尾的规则可剪去B、C列，故closureCol＝{B，C，D}；

L2.判断freesetItems，存在规则可判断{6，8}不是个freeset，故迭代结束；

L7.回退closureCol至进入状态，即closureCol＝{C，D}；

L8.结束。

Claims

1.一种数据库近似字典规则的挖掘方法，其特征在于，所述方法包括如下步骤：

步骤S4：使用LCfd的方法挖掘数据库r的近似字典规则；

步骤S5：输出所述近似字典规则。

2.如权利要求1所述的挖掘方法，其特征在于，所述使用LCfd的方法挖掘数据库r的近似字典规则包括以下步骤：

步骤S44：缓存所述生成的近似字典规则。

3.如权利要求2所述的挖掘方法，其特征在于，步骤S41中对所述候选列集R排序可为按其在数据库中的顺序排序。

4.如权利要求2所述的挖掘方法，其特征在于，步骤S41中所述搜索策略可为逆序递增策略，按从大到小的顺序搜索已有候选列集R各列及其各项的事务列表，并按从小到大的顺序排列已有规则左部和新增规则左部的事务列表。

5.如权利要求4所述的挖掘方法，其特征在于，所述新增规则左部的事务列表可为新增列中新增项的事务列表与所述已有规则左部的事务列表的公共子集。

6.如权利要求5所述的挖掘方法，其特征在于，在所述步骤S41之前还包括以下步骤：

步骤S40：一次计算出所有候选项的事务列表。

7.如权利要求6所述的挖掘方法，其特征在于，所述一次计算出所有候选项的事务列表包括以下步骤：

步骤S403：跳转到步骤S402扫描下一事务列表；

步骤S404：扫描结束。

8.如权利要求2所述的挖掘方法，其特征在于，步骤S42中所述修剪方法可为若存在规则{X，x1}→{Y，y1}，则剪掉(x1，y1)及其所有超集。

9.如权利要求2所述的挖掘方法，其特征在于，步骤S42中所述修剪方法可为若存在规则{X，x1}→{Y，y1}，则剪掉X的超集下所有Y枝点。

10.如权利要求2所述的挖掘方法，其特征在于，步骤S44中所述缓存可用带索引的字典规则树形式存贮。

11.如权利要求2所述的挖掘方法，其特征在于，所述步骤S43中的生成近似字典规则右部的事务列表，同时生成近似字典规则，包括以下步骤：

步骤S435：在所述候选列集availableCol中计算当前项集freesetItems的闭集列closureCol和闭集项closedItems，以及候选子集candidates的列、项及项的事务列表itemTranList；

步骤S438：结束。

12.如权利要求11所述的挖掘方法，其特征在于，所述步骤S435中计算当前项集freesetItems的闭集列closureCol和闭集项closedItems，以及所述候选子集candidates，包括以下步骤：

步骤S4351：计算当前项集freesetItems的支持度supp；

步骤S4352：遍历所述候选列集availableCol的列col，若遍历结束则跳转至步骤S43510；

步骤S4353：扫描所述事务列表tranList对应的所有事务，构建其中所有项item的事务列表并记为itemTranList；

步骤S4354：遍历所述列col中的项item，若遍历结束则跳至步骤S4352遍历下一列；

步骤S4355：计算所述项item的支持度itemSupp；

步骤S4356：判断itemSupp/supp的值是否大于或等于最小置信度C，若是则跳转至步骤S4357，否则跳转至步骤S4358；

步骤S4357：将所述项item添加到closedItems，所述列col添加到闭集closedCol并更新所述闭集列closureCol，并跳转至步骤S4354遍历下一项item；

步骤S4358：判断所述列col是否大于freesetCol中最大的列且itemSupp是否大于最小支持度，若是则跳至步骤S4359；否则跳至步骤S4354遍历下一项item；

步骤S4359：将所述列col、所述item、itemTranList信息保存到所述候选子集candidates，并跳至步骤S4354遍历下一项item；

步骤S43510：结束。

13.如权利要求11所述的挖掘方法，其特征在于，所述步骤S437中按逆序遍历所述候选子集candidates，包括如下步骤：

步骤S4362：将所述列col更新至freesetCol和闭集列closureCol；

步骤S4367：回退closureCol至进入前状态；

步骤S4368：结束。

14.一种数据库近似字典规则的挖掘系统，其特征在于，所述系统包括：

(5)近似字典规则输出装置，用于输出所述近似字典规则。

15.如权利要求14所述的挖掘系统，其特征在于，所述近似字典规则挖掘装置包括：

(44)规则缓存单元，用于缓存所述生成的近似字典规则。

16.如权利要求15所述的挖掘系统，其特征在于，所述近似字典规则挖掘装置还可以包括候选项事务列表计算单元，用于一次计算出所有候选项的事务列表。

17.如权利要求16所述的挖掘系统，其特征在于，所述候选项事务列表计算单元包括如下：

(402)候选项事务列表生成模块，用于扫描所述事务列表，若第i行事务的第i列为项a，则在项a的事务列表中增加i。

18.如权利要求15所述的挖掘系统，其特征在于，所述规则生成单元包括如下：

(432)判断模块，用于判断所述freesetItems是否非freeset，若是则跳转至438；否则跳转到433；

(435)闭集和候选子集计算模块，用于在所述候选列集availableCol中计算当前项集freesetItems的闭集列closureCol和闭集项closedItems，以及候选子集candidates的列、项及项的事务列表itemTranList；

(437)候选子集遍历模块，用于按逆序遍历所述候选子集candidates，更新所述规则左部的列freesetCol、所述项集freesetItems、所述闭集列closureCol和所述tranList，并递归调用LCfd字典规则挖掘方法；

(438)规则生成结束模块。

19.一种数据库终端，其特征在于，所述数据库包括近似字典规则的挖掘系统，所述系统包括：

(5)近似字典规则输出装置，用于输出所述近似字典规则。

20.如权利要求19所述的数据库终端，其特征在于，所述近似字典规则挖掘装置包括：

(44)规则缓存单元，用于缓存所述生成的近似字典规则。

21.如权利要求20所述的数据库终端，其特征在于，所述规则生成单元包括如下：

(438)规则生成结束模块。