CN109344150A

CN109344150A - 一种基于fp-树的时空数据挖掘分析方法

Info

Publication number: CN109344150A
Application number: CN201810877226.8A
Authority: CN
Inventors: 宋耀莲; 田榆杰; 龙华; 王慧东; 徐文林; 武双新
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2019-02-15

Abstract

本发明涉及一种基于FP‑树的时空数据挖掘分析方法，属于时空数据挖掘技术领域。先建立一个时空数据信息记录的数据库，并对数据进行转换处理后生成新的事务表；对事务表进行第一次扫描，计算并保留频繁项；然后，对事务表进行第二次扫描，构建频繁模式树FP‑树，并提取出频繁3‑项集；其次，由各频繁3‑项集产生相应的强时空关联规则，并计算出各强时空关联规则的置信度大小；最后，将强时空关联规则按照其置信度的大小进行排序，生成时空关联规则表。本发明与现有技术相比，主要将单维度的FP‑树算法扩展到了三维时空数据的关联规则分析中，从而对数据间的关联关系起到了更加精准、深层次的分析作用。

Description

一种基于FP-树的时空数据挖掘分析方法

技术领域

本发明涉及一种基于FP-树的时空数据挖掘分析方法，属于时空数据挖掘技术领域。

背景技术

FP-树算法是韩家炜等人在2000年提出的关联分析算法，它采取如下分治策略：将提供频繁项集的数据库压缩到一棵频繁模式树(FP-树)，但仍保留项集关联信息。在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-树是一种特殊的前缀树，由频繁项头表和项前缀树构成。

FP-树算法基于以上的结构加快整个挖掘过程，而且算法已经被广泛的应用到商业、网络安全等各个领域。但原始FP-树算法仅能应用到单维度数据领域，无法对时空类的三维数据进行准确的挖掘分析。

发明内容

本发明要解决的技术问题是提供一种基于FP-树的时空数据挖掘分析方法，将单维度的FP-树算法扩展到了三维时空数据的关联规则分析中，从而对数据间的关联关系起到了更加精准、深层次的分析作用。

本发明的技术方案是：一种基于FP-树的时空数据挖掘分析方法，包括如下步骤：

Step1、建立一个时空数据信息记录的数据库，并对数据进行转换处理后生成新的事务表，表中主要包括以下字段：事务编号ID、空间谓词、属性值、时间值；

Step2、设置最小支持度阈值min_sup和最小置信度阈值min_conf，对事务表进行第一次扫描，去除掉事务表中所有支持度计数support_count_x小于最小支持度阈值的数据项，记录剩余数据项的支持度计数并按降序排序，生成频繁1-项集的新事务表；

Step3、对新事务表进行第二次扫描，初始化FP-树。以字符null做为根节点，按照新事务表顺序依次插入每条事务的数据项作为节点，生成对应的分支路径同时建立项头表。项头表中，在加入数据项节点时需统计其出现的次数，形式为(X_i,N)，X_i为第i个数据项，N为出现的次数；

Step4、从FP-树的每条路径的结尾节点依次向上提取出相应的3-项集，3-项集的支持度计数support_count_xj大于等于min_sup时，该3-项集作为频繁3-项集l保留，反之剔除；

Step5、设每个频繁3-项集l中的空间谓词为子集s，若属性值与时间值的集合(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf，则输出强时空关联规则该强规则的置信度大小为l与s的支持度计数之比的值将所计算出来的所有强时空关联规则按照其置信度confidence的大小进行排序，生成时空关联规则表；

Step6、将时空关联规则表结合实验数据的背景知识，对该结果进行相应的意义分析、比较。

具体地，所述步骤Step1中，收集到的时空数据包括名称、属性值、地址和发生时间，对其进行数据的转换处理，以使得数据可以更好的进行计算，主要包括以下几个步骤：

(1)对收集的数据进行预处理，过滤掉不相关的冗余数据，包括不在研究目标时间与空间范围内的数据；

(2)对空间数据进行形式化处理，按各对象与某一目标对象的空间距离关系来对各个对象数据赋予相应的空间谓词；

(3)接着按事务具体发生的时间点，生成事务表来存储处理过的时空数据，事务表包括以下几个字段：事务ID、空间谓词、属性值、时间点。

具体地，所述步骤Step2中，最小支持度阈值min_sup和最小置信度阈值min_conf的大小由用户根据自己的需求自行设置。事务表中每个类型的空间谓词、属性值、时间值都分别作为一个数据项，数据项的支持度计数就是该数据项出现的总个数。

具体地，所述步骤Step3中，分支路径由根节点null和对应的数据项节点组成，其中数据项节点的路径顺序为Step2中的频繁项支持度计数降序排序。

对于要插入的每个数据项节点，其添加方式分为两种情况：(1)若插入的数据项与之前插入的数据项有共同的前缀，则合并该前缀数据项并将该项出现的次数加1，然后为余下不同的数据项添加新的分支并记录N为1；(2)若插入的数据项与之前插入的数据项没有共同的前缀，则在根节点建立新的分支，并记录N为1。

项头表分别存储了数据项、支持度数和头节点指针，头节点指针指向由相同数据项组成节点链的第一项的位置。

具体地，所述步骤Step5的强时空关联规则置信度大小的计算公式如公式(1)所示：

其中：

式中，min_conf为最小置信度阈值；l为频繁3-项集，s为l的空间谓词非空子集；support_count(l)、support_count(s)、support_count(l-s)分别为括号内字母的支持度计数，为强时空关联规则。

本发明的有益效果是：将单维度的FP-树算法扩展到了三维时空数据的关联规则分析中，从而对数据间的关联关系起到了更加精准、深层次的分析作用。

附图说明

图1是本发明总体流程图；

图2是本发明步骤Step1流程图；

图3是本发明步骤Step3流程图；

图4是本发明具体实施方式中所举例子中Step3的FP-树结果图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-4所示，一种基于FP-树的时空数据挖掘分析方法，包括如下步骤：

进一步地，所述步骤Step1中，收集到的时空数据包括名称、属性值、地址和发生时间，对其进行数据的转换处理，以使得数据可以更好的进行计算，主要包括以下几个步骤：

进一步地，所述步骤Step2中，最小支持度阈值min_sup和最小置信度阈值min_conf的大小由用户根据自己的需求自行设置。事务表中每个类型的空间谓词、属性值、时间值都分别作为一个数据项，数据项的支持度计数就是该数据项出现的总个数。

进一步地，所述步骤Step3中，分支路径由根节点null和对应的数据项节点组成，其中数据项节点的路径顺序为Step2中的频繁项支持度计数降序排序。

进一步地，所述步骤Step5的强时空关联规则置信度大小的计算公式如公式(1)所示：

其中：

举例说明：对于所提出的基于FP-树的时空数据挖掘分析方法，下面结合酒店实例来说明该方法执行的有效性。酒店产业中住宿价格、地理位置和所处时间段都影响着酒店的整体发展前景。所以，本例通过对实地酒店位置的考察，模拟了某市的一所学校及其附近1000m内7家酒店的空间分布信息。详细说明本发明的方案：

一种基于FP-树的时空数据挖掘分析方法，所述方法的具体步骤如下：

Step1、建立一个时空数据信息记录的数据库，并对数据进行转换处理后生成新的事务表，表中主要包括以下字段：事务编号ID、空间谓词、属性值、时间值；具体地：

为方便阐述本发明，提取酒店三天的交易数据，如下：

根据酒店与学校的距离，将酒店和学校的位置关系用三种空间谓词表示，如下表所示：

根据酒店住宿的价格可以把价格抽象地分成三个量级，如下表所示：

通过以上关系的转换，将原始数据转换生成新的时空事务表，如下表所示：

Step2、设置最小支持度阈值min_sup和最小置信度阈值min_conf，对事务表进行第一次扫描，去除掉事务表中所有支持度计数support_count_x小于最小支持度阈值的数据项，记录剩余数据项的支持度计数并按降序排序，生成频繁1-项集的新事务表；具体地：

设置本案例中的最小支持度阈值为3，去除掉事务表中所有支持度计数小于3的数据项，生成频繁1-项集，并按其支持度计数降序排序，生成新事务表，如下表所示：

Step3、对新事务表进行第二次扫描，初始化FP-树。以字符null做为根节点，按照新事务表顺序依次插入每条事务的数据项作为节点，生成对应的分支路径同时建立项头表。项头表中，在加入数据项节点时需统计其出现的次数，形式为(X_i,N)，X_i为第i个数据项，N为出现的次数；具体地：

以字符等于null为根节点，同时按照新事务表顺序依次插入每条事务的数据项作为节点，生成对应的分支路径同时建立项头表，FP-树和项头表如图4所示；

Step4、从FP-树的每条路径的结尾节点依次向上提取出相应的3-项集，3-项集的支持度计数support_count_xj大于等于min_sup时，该3-项集作为频繁3-项集l保留，反之剔除；具体地：

首先，从图4中FP-树的结尾节点开始提取相应的3-项集，该3-项集作为频繁3-项集l保留，如下表所示：

Step5、设每个频繁3-项集l中的空间谓词为子集s，若属性值与时间值的集合(l-s)与s的支持度计数之比大于等于最小置信度阈值min_conf，则输出强时空关联规则该强规则的置信度大小为l与s的支持度计数之比的值将所计算出来的所有强时空关联规则按照其置信度confidence的大小进行排序，生成时空关联规则表；具体地：

设置最小置信度阈值min_conf＝0.4。将频繁3-项集l中的空间谓词作为前项的频繁项集s，并计算(l-s)与s的支持度计数之比大于等于0.4则输出强时空关联规则，同时计算该强规则的置信度大小。将所计算出来的所有强时空关联规则按照其置信度confidence的大小进行排序，生成时空关联规则表，如下表所示：

Step6、将时空关联规则表结合实验数据的背景知识，对该结果进行相应的意义分析、比较。具体地：

从时空关联规则表中可以看出：在8/30到9/1这三天内，距离学校300m以内的酒店，价格较高，在241元以上。但是第2条和第1条规则发生了明显变化，第2条规则表示了在8/30，距离学校301m-700m之间的酒店，其价格适中，在151元至240元之间，第1条规则表示了在9/1，距离学校301m-700m之间的酒店，其价格较高，241元以上。同时，第1条规则的置信度高于第2条规则的置信度。通过比较第2条和第1条规则呈现的变化规律，再结合实际情况，可以判断出在8/30到9/1这三天，距离学校301m-700m之间的酒店价格呈现出了上涨现象。比较第3条和第1条规则，可以发现酒店与学校的距离影响着酒店的价格定位，并且价格随着距离的增长呈反比。所以，可得出在9/1这天，距离学校700m内的酒店其价格较高且都在241元以上的结论。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于FP-树的时空数据挖掘分析方法，其特征在于：

Step1、建立一个时空数据信息记录的数据库，并对数据进行转换处理后生成新的事务表，表中包括以下字段：事务编号ID、空间谓词、属性值、时间值；

Step3、对新事务表进行第二次扫描，初始化FP-树，以字符null做为根节点，按照新事务表顺序依次插入每条事务的数据项作为节点，生成对应的分支路径同时建立项头表，项头表中，在加入数据项节点时需统计其出现的次数，形式为(X_i,N)，X_i为第i个数据项，N为出现的次数；

2.根据权利要求1所述的基于FP-树的时空数据挖掘分析方法，其特征在于：所述步骤Step1中，收集到的时空数据包括名称、属性值、地址和发生时间，对其进行数据的转换处理，具体步骤为：

3.根据权利要求1所述的基于FP-树的时空数据挖掘分析方法，其特征在于：所述步骤Step3中，分支路径由根节点null和对应的数据项节点组成，其中数据项节点的路径顺序为Step2中的频繁项支持度计数降序排序。

4.根据权利要求1所述的基于FP-树的时空数据挖掘分析方法，其特征在于：所述步骤Step5的强时空关联规则置信度大小的计算公式如公式(1)所示：

其中：