CN103823823B

CN103823823B - 基于频繁项集挖掘算法的反规范化策略选择方法

Info

Publication number: CN103823823B
Application number: CN201310283857.4A
Authority: CN
Inventors: 牛新征; 周冬梅; 侯孟书; 杨健
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2013-07-08
Filing date: 2013-07-08
Publication date: 2016-12-28
Anticipated expiration: 2033-07-08
Also published as: CN103823823A

Abstract

本发明公开了基于频繁项集挖掘算法的反规范化策略选择方法，具体的说是海量数据集上基于频繁项集挖掘算法的反规范化策略选择方法。本方法将频繁模式挖掘的方法首次用于指导数据库反规范化操作；以及基于精简前缀树的频繁模式挖掘算法中，提出了服务于数据库反规范化选择的全新的建立精简前缀树的过程和正确的计数方法。本发明有益效果表现在：通过关联规则的频繁项集挖掘算法，发现大量数据中项集之间重要的关联或者相关联系，指导DBA等开展数据库的反规范化策略的选择和构建，解决海量数据中因大量的表连接操作而带来的性能瓶颈问题。

Description

基于频繁项集挖掘算法的反规范化策略选择方法

技术领域

本发明涉及反规范化策略选择方法，具体的说是一种海量数据集上基于频繁项集挖掘算法的反规范化策略选择方法。

背景技术

构造关系数据库必须遵循一定的规则，称为范式。范式级别越高，数据库设计的要求也越高。同时随着范式的增高，数据库的冗余逐级减少，数据一致性逐级增强。然而关系数据库理论也存在不足之处，范式越高，数据模型越细，意味着需要更多的数据表，这使得程序在运行过程中需要更多的表连接操作，尽管部分数据库系统支持存储过程等技术，但这并不能带来革命性的效率提升，尤其是当需要连接的两张或者多张表数据非常庞大的时候，表连接操作几乎是一个噩梦。

而现今许多研究者对海量数据存储下数据库设计的一些反范式方法（或者叫反规范化方法）进行讨论，所谓反范式，即不完全按照范式的理论来设计数据表结构，旨在解决海量数据中因大量的表连接操作而带来的性能瓶颈问题。大量的实际应用表明适当的反范式能带来性能极大的提升，尤其是在海量数据存储的情况下，效果尤为明显。但同时，反范式也会引入相应的更新删除等额外操作和程序设计的复杂性，因此，在实际应用中应按实际需求适当使用。如果系统较小，数据量不大，反范式反而不能体现性能的优势，甚至会带来程序和数据库设计上的复杂性。

反规范化方法主要分为以下几类：反规范化方法主要有增加冗余列、增加派生列、水平分割表、垂直分割表、重新组表等策略。

1.增加冗余列：在多个表中存放相同的列数据，以冗余数据取代表间主键外键形式的多表连接。

2.增加派生列：增加的列由其它表中或表中其他列数据通过集函数计算生成。

3.重新组表：如果查询时需连接多张表，可将部分查询表项组成新表。重新组表的冗余数据可由触发器实时更新。

4.水平分割表：根据一列或多列数据的值，把一张大表的数据放到几个独立的表中。

5.垂直分割表：把主键和一些列放到一个表，将主键和其他列放到另外几个表中。

反规范化的设计和应用，需要有严格的要求，对应需要增加的冗余列和派生字段等，也需要根据业务需要进行严格定义，否则会引起严重的后果，这里有几个原则作为反规范化设计的一些选择依据：

(1)多表之间存在大量重复连接操作，可以考虑增加冗余列；

(2)经常使用有关系的表的几列，可以考虑重新组表；

(3)列数多、记录数较多的表，可以进行分解；

(4)复合主键的表，可以增加冗余列作为主键字段。

(5)等等。

上面的原则，只是根据实际应用情况，得出的部分反规范化选择的经验依据，不仅不全面，不系统，同时，对于反规范化选择也是不够准确和科学的，较为主观。

目前，国内反规范化技术的研究和设计，主要是针对相应的应用，开展反规范化设计和实现工作，或者对于反规范化技术本身的介绍和分析。

国外的研究工作者，对反规范化的工作开展了更加深入的工作，但也是处于发展阶段。主要代表的工作包括反规范化技术本身的分析，优化，规范化和反规范化的比较等工作上。其中，对于反规范化的错误估计和有效性评价，是比较有价值的研究。

发明内容

针对上述反规范化技术的缺陷和研究需求，提出了本发明---基于频繁项集挖掘算法的反规范化策略选择方法，提出了数据库反规范化策略的选择方法，区别于目前的反规范化错误评估和有效性评价（反规范化后期阶段工作）的成果。本算法通过关联规则的频繁项集挖掘算法，发现大量数据中项集（指反规范化的基本元素，如表等）之间重要的关联或者相关联系，指导DBA等开展数据库的反规范化策略的选择和构建。

本发明为实现上述技术问题所采用的基于频繁项集挖掘算法的反规范化策略选择方法：基于频繁项集挖掘算法的反规范化策略选择方法，其特征在于包括以下步骤：

1-(a).获取数据库日志文件步骤：获取待分析的数据库日志文件；

1-(b).解析日志步骤：分析日志中的SELECT语句，提取其所涉及的表名，字段名作为事务项；继而获取涉及跨表查询的事物记录或者仅单表查询的事物记录；

1-(c).数据挖掘步骤，本步骤基于精简前缀树的频繁模式挖掘，依次包含三个部分：

(c-1).建立FP-tree步骤：读取事务记录集，由预设的支持度经验值建立频繁模式树（FP-tree），所述支持度阈值经由大量反规范化实例分析所确定，为经验值；

(c-2).根据FP-tree建立精简前缀树（Concise-tree）步骤，所述精简前缀树由一个指针域、一个频繁项头表组成；指针域存储指向整棵虚拟树(即Concise-tree)的信息；频繁项头表中每一条表项存储一个节点的支持度计数Count；是一种蕴含所有频繁模式的树，可高效挖掘出频繁模式；

(c-3).递归频繁项集的步骤：不断递归建立Concise-tree直到所有频繁模式被导出。

1-(d).反规范化频繁模式集步骤：获得反规范化的频繁模式；

1-(e).垂直分割步骤：具体地，把主键以及用户自定义列存放于重用表a中，将主键和其他列放到另外几个表中，以减少I/O开销的步骤；

1-(f).产生重新组表/增加冗余列的SQL语句的步骤：该步骤导出的频繁模式集包含了频繁被查询的列表名及字段名，用于指导重新组表/增加冗余列。

进一步地，所述解析日志步骤中，涉及跨表查询的事务记录、仅单表查询的事务记录为解析日志；若事务记录中同时含有不同的表名、不同的字段名，则为涉及跨表查询的事务记录；若事务记录中仅含同一表中的不同的字段名，则为仅单表查询的事务记录。

具体地，所述建立FP-tree包含以下具体步骤：

将事务数据集读入内存，根据预设的支持度阈值过滤得到频繁1-项集；

将事务集中所有频繁项挂接在FP-tree中。

进一步地，所述建立Concise-tree包含ConciseTree(k)或ConciseTree(k₁,k₂,k₃...,k_m-1,k_m)两类精减前缀树，其特征在于包含以下步骤：

2-(a).建立基于FP-tree构建以项序号k为后缀基的精简前缀树ConciseTree(k)的步骤：

从FP-tree的头表遍历项k的所有同名项节点；

对于每个同名项节点，同时向上遍历此条件路径上所有项节点；同时统计各项的支持度计数并填充每个项节点的ConciseLink域、后缀基k的支持度计数（BaseCount域）；

2-(b).建立基于ConciseTree(k₁,k₂,k₃...,k_m-1)构建ConciseTree(k₁,k₂,k₃...,k_m-1,k_m)的步骤：

遍历前一精简前缀树的整棵虚拟的树（VirtualCT）信息及相应的FP-tree中项节点的ConciseLink域来；

若其前缀路径直接指向项k_m，向上遍历此前缀路径中每一个项节点并统计其支持度计数；

若前缀路径不直接指向项k_m，在向上遍历此路径的同时，直到出现项k_m节点才统计路径中k_m节点之后项节点支持度计数，否则直接跳过各项节点。

进一步地，所述递归频繁项集的步骤，特征在于包含以下步骤：

不断递归生成Concise-tree来获取频繁项集信息；每一次递归生成Concise-tree，其对应的后缀基都将被压入栈中，当源于同一Concise-tree的一系列子Concise-tree都被生成后，输出栈中所有项（即为一个频繁项集）；

继而从另一棵Concise-tree起，递归生成其子Concise-tree，并把频繁项压入栈中，如此循环下去直到所有Concise-tree都已经生成；

输出所有的频繁项集。

具体地，所述产生重新组表/增加冗余列的SQL语句的步骤，特征在于当表间的连接复杂度高于某阈值时，将选择进行重新组表操作，其中重新组表和增加冗余列的目的都是减少大量表连接带来的开销，其中，重新组表是将部分频繁查询的表项组成新表，增加冗余列是在多个表中存放相同的列数据。

具体地，所述Conciselink域代表精简树中相关节点的链接，FP-tree中用支持度计数降序序号Order标记各个项，所述各项Count、Child、Parent、Sibling、Link分别表示项的支持度计数、项在FP-tree中的孩子节点项、父节点项、兄弟节点项、同名链接节点项；ConciseLink用来链接ConciseTree中的关联节点。

精简前缀树(Concise-tree)定义：FP-tree中所有以项集{x₁,x₂,...,x_k}为后缀基的条件路径构成的子树称为以项集{x₁,x₂,...,x_k}为后缀基的前缀树。由于此树结构非常简单，进一步称其为精简前缀树(Concise-tree)，记为Concise{x₁,x₂,...,x_k}。

精简前缀树实质上只由一个存储项计数的头表和一个指针域构成：VirtualCT域便指示了整棵虚拟的树，VirtualCT域是Concise-tree的唯一指针域。

Concise-tree还附带有一个头表，头表中每个表项存储了项的支持度计数：Concise-tree头表表项。

综上所述，精简前缀树(Concise-tree)是具有如下特征的一种前缀树：

1.由一个指针域、一个频繁项头表组成；

2.指针域存储指向整棵虚拟树(即Concise-tree)的信息；

3.频繁项头表中每一条表项存储一个节点的支持度计数Count。

与现有的技术相比，本发明具有以下优势：

服务于数据库反规范化选择方法的频繁模式挖掘算法核心设计---精简前缀树全面正确的建立流程；具体地，在Array-tree的基础上进一步精简其结构而产生Concise-tree的优势在于频繁模式挖掘算法有80%的时间都花费在递归建立条件FP-tree(或Array-tree、Concise-tree)上，减轻它们的构建负担(实际上把负担转移到建立原始FP-tree上)，会给递归建树的过程带来便捷，减少挖掘时间。

通过表和字段的分析和计算，通过关联规则的频繁项集挖掘算法，发现大量数据中项集（指反规范化的基本元素，如表等）之间重要的关联或者相关联系，指导DBA等开展数据库的反规范化策略的选择和构建，解决海量数据中因大量的表连接操作而带来的性能瓶颈问题。

附图说明

图1是本发明反规范化策略选择方法总流程示意图；

图2是本发明中FP-tree的建立过程示例示意图；

图3是本发明中基于FP-tree构建的ConciseTree(4)与ConciseTree(3)示意图；

图4是本发明中基于FP-tree构建以项序号k为后缀基的精简前缀树ConciseTree(k)流程示意图；

图5是本发明中基于ConciseTree(3)构建ConciseTree(3,2)、ConciseTree(3,2,1)、ConciseTree(3,2,1,0)的过程示意图；

图6是本发明基于ConciseTree(k1,k2,k3...,km-1)构建ConciseTree(k1,k2,k3...,km-1,km)流程示意图；

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

例一：基于频繁项集挖掘算法的反规范化策略选择方法，其特征在于包括以下步骤：

1-(d).反规范化频繁模式集步骤：获得反规范化的频繁模式；

具体地，所述建立FP-tree包含以下具体步骤：

将事务集中所有频繁项挂接在FP-tree中。

进一步地，所述建立Concise-tree包含建立ConciseTree(k)或ConciseTree(k₁,k₂,k₃...,k_m-1,k_m)两类精减前缀树，其特征在于包含以下步骤：

从FP-tree的头表遍历项k的所有同名项节点；

输出所有的频繁项集。

例二：

获取待分析的数据库日志文件：假设一组精简的测试数据集TestSet，如表1所示。

预设支持度计数阈值为3。

表1：测试数据集TestSet

分析日志中的SELECT语句，提取其所涉及的表名，字段名作为事务项：测试数据集TestSet读入内存后获取的频繁1-项集（或称项序转换表），如表2所示。

序号	项目
		0	course.academy_id
1	academy.academy_id
		2	course.course_id
3	teacher.teacher_id
		4	give_lesson.givelesson_id

表2：频繁1项集（项序转换表）

如图2将事务数据集读入内存，根据预设的支持度阈值过滤得到频繁1-项集；

将事务集中所有频繁项挂接在FP-tree中；

如图3从FP-tree的头表遍历项k的所有同名项节点；

精简前缀树本身蕴含的信息就是频繁项集，通过不断递归生成Concise-tree来获取频繁项集信息。每一次递归生成Concise-tree，其对应的后缀基都将被压入栈中，当源于同一Concise-tree的一系列子Concise-tree都被生成后，输出栈中所有项（即为一个频繁项集）。接着从另一棵Concise-tree起，递归生成其子Concise-tree，并把频繁项压入栈中，如此循环下去直到所有Concise-tree都已经生成。此时，所有的频繁项集都已输出。TestSet数据集导出的频繁项集结果如表3所示（支持度计数阈值为3）。

表3：TestSet导出的频繁项集

例三：

预设支持度计数阈值为3。

表1：测试数据集TestSet

表2：频繁1项集（项序转换表）

将事务集中所有频繁项挂接在FP-tree中；

如图5遍历前一精简前缀树的整棵虚拟的树（VirtualCT）信息及相应的FP-tree中项节点的ConciseLink域来；

精简前缀树本身蕴含的信息就是频繁项集，通过不断递归生成Concise-tree来获取频繁项集信息。每一次递归生成Concise-tree，其对应的后缀基都将被压入栈中，当源于同一 Concise-tree的一系列子Concise-tree都被生成后，输出栈中所有项（即为一个频繁项集）。接着从另一棵Concise-tree起，递归生成其子Concise-tree，并把频繁项压入栈中，如此循环下去直到所有Concise-tree都已经生成。此时，所有的频繁项集都已输出。TestSet数据集导出的频繁项集结果如表3所示（支持度计数阈值为3）。

表3：TestSet导出的频繁项集。

Claims

1.基于频繁项集挖掘算法的反规范化策略选择方法，其特征在于包括以下步骤：

1-(b).解析日志步骤：分析日志中的SELECT语句，提取其所涉及的表名、字段名作为事务项；继而获取涉及跨表查询的事物记录或者仅单表查询的事物记录；

1-(c)数据挖掘步骤，本步骤基于精简前缀树的频繁模式挖掘，依次包含三个部分：

(c-1).建立FP-tree步骤：读取事务记录集，由预设的支持度经验值建立频繁模式树（FP-tree），支持度阈值经由大量反规范化实例分析所确定，为经验值；

(c-2).根据FP-tree建立精简前缀树步骤，所述精简前缀树由一个指针域、一个频繁项头表组成；指针域存储指向整棵虚拟树的信息；频繁项头表中每一条表项存储一个节点的支持度计数Count；是一种蕴含所有频繁模式的树，可高效挖掘出频繁模式；

(c-3).递归频繁项集的步骤：不断递归建立精简前缀树直到所有频繁模式被导出；

1-(d).反规范化频繁模式集步骤：获得反规范化的频繁模式；

1-(f)产生重新组表/增加冗余列的SQL语句的步骤：该步骤导出的频繁模式集包含了频繁被查询的列表名及字段名，用于指导重新组表/增加冗余列。

2.根据权利要求1所述的基于频繁项集挖掘算法的反规范化策略选择方法，其特征在于建立精简前缀树步骤中包含ConciseTree(k)和ConciseTree(k₁,k₂,k₃…,k_m-1,k_m)两类精简前缀树，具体步骤如下：

2-(a).建立基于FP-tree构建以项序号k为后缀基的ConciseTree(k)的步骤：

从FP-tree的头表遍历项k的所有同名项节点；

对于每个同名项节点，同时向上遍历此条件路径上所有项节点；同时统计各项的支持度计数并填充每个项节点的ConciseLink域、后缀基k的支持度计数，Conciselink域代表精简前缀树中相关节点的链接；

2-(b).建立基于ConciseTree(k₁,k₂,k₃…,k_m-1)构建ConciseTree(k₁,k₂,k₃…,k_m-1,k_m)的步骤：

遍历前一精简前缀树的整棵虚拟的树信息及相应的FP-tree中项节点的ConciseLink域来；

若前缀路径不直接指向项k_m，再向上遍历此路径，直到出现项k_m节点才统计路径中k_m节点之后项节点支持度计数，否则直接跳过各项节点。

3.根据权利要求1所述的基于频繁项集挖掘算法的反规范化策略选择方法，其特征在于建立FP-tree包含以下步骤：

将事务记录集读入内存，根据预设的支持度阈值过滤得到频繁1-项集；

将事务记录集中所有频繁项挂接在FP-tree中。

4.根据权利要求1所述的基于频繁项集挖掘算法的反规范化策略选择方法，其特征在于递归频繁项集包含以下步骤：

经过每一次递归生成精简前缀树，其对应的后缀基都将被压入栈中，当源于同一精简前缀树的一系列子精简前缀树都被生成后，输出栈中所有项；

继而从另一棵精简前缀树起，递归生成其子精简前缀树，并把频繁项压入栈中，如此循环下去直到所有精简前缀树都已经生成；

输出所有的频繁项集。

5.根据权利要求1所述的基于频繁项集挖掘算法的反规范化策略选择方法，特征在于产生重新组表/增加冗余列的SQL语句的步骤中当表间的连接复杂度高于某阈值时，将选择进行重新组表操作，其中重新组表和增加冗余列的目的都是减少大量表连接带来的开销，其中，重新组表是将部分频繁查询的表项组成新表，增加冗余列是在多个表中存放相同的列数据。

6.根据权利要求1-5中任意一项所述的基于频繁项集挖掘算法的反规范化策略选择方法，Conciselink域代表精简前缀树中相关节点的链接，FP-tree中用支持度计数降序序号Order标记各个项，各项Count、Child、Parent、Sibling、Link分别表示项的支持度计数、项在FP-tree中的孩子节点项、父节点项、兄弟节点项、同名链接节点项。