CN104850577A - 一种基于有序复合树结构的数据流最大频繁项集挖掘方法 - Google Patents
一种基于有序复合树结构的数据流最大频繁项集挖掘方法 Download PDFInfo
- Publication number
- CN104850577A CN104850577A CN201510121017.7A CN201510121017A CN104850577A CN 104850577 A CN104850577 A CN 104850577A CN 201510121017 A CN201510121017 A CN 201510121017A CN 104850577 A CN104850577 A CN 104850577A
- Authority
- CN
- China
- Prior art keywords
- node
- tree
- support
- frequent item
- item set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于有序复合树结构的数据流最大频繁项集挖掘方法。适用于金融数据时序挖掘、商业数据流关联分析等众多领域。本发明针对现有最大频繁项集挖掘方法存在的不足诸如执行效率过低、消耗内存多大等。采用滑动窗口处理数据流,分割滑动窗口为若干个基本单位,更新获取数据流片段信息,单遍扫描片段信息得到频繁项集并存储于频繁项集列表内。方法构建的有序FP-tree,随项集的插入,动态调整树型结构,合并同一分支中支持度相等的邻接结点,压缩生成有序复合FP-tree。该方法能够高效、快速得对数据流进行最大频繁项集挖掘,具有良好的应用价值。
Description
技术领域
本发明涉及人工智能、数据挖掘技术领域知识,具体为一种基于有序复合树结构的数据流最大频繁项集挖掘方法。适用于金融数据时序挖掘、商业数据流关联分析等众多领域。
技术背景
随着大数据时代的来临,数据挖掘及其相关技术得到了越来越多的关注。数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称作知识发现,而关联规则挖掘则是数据挖掘中的一个很重要的课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系。最经典的例子莫过于啤酒和尿布的案例。随着大型连锁零售商店在零售市场上份额的增加,越来越多的超市或连锁店都迫切希望发现其庞大的交易数据库中隐含的相关销售信息。不仅如此,当人们对相关事务之间联系的探究越发深入之后,关联规则挖掘的应用范围也变得越来越广。诸如电商企业通过对消费者一段时期内的购物记录分析,采用关联规则挖掘找出事物之间隐含的联系,从而分析消费者可能的偏好;在金融领域,研究人员对不同的金融数据流进行关联规则分析,预测未来的发展走势。
这里需要注意关联规则是单向的,是指某类项目或特征与另一类项目或特征间所存在的单向影响关系。一般相关系数对两类特征或项目的描述都是对称的,而且只能处理定序以上层次的数据。而实际经济生活中常会出现两方面的关系并不对称或者数据仅仅是定类层次的情况。此时用关联规则来描述相当有效,而且对经济决策也相当有用。
关联规则的挖掘,通常是指定支持度、置信度、增益这三个标准的最小值(支持度有时还限定最大值),三个标准的取值都大于临界值的关联规则就被列出。关联规则挖掘的算法有很多,其基本思路一般是采用递推算法,首先将满足支持度要求的规则列出作为候选集(称为频繁项集),然后在候选集中产生满足置信度或增益要求的规则。为了提高挖掘效率,人们又从几个方面提高产生频繁项集的效率,比如划分原数据,采用并行算法产生频繁项集、对数据进行抽样以减少计算量等,从而产生了许多优化的计算方法。由于最大频繁项集中隐含了所有频繁项集,因此对其挖掘具有更加重要的意义。
本发明针对目前存在的最大频繁项集挖掘方法执行效率偏低、内存消耗过多等问题,提出一种基于有序复合树结构的数据流最大频繁项集挖掘方法。通过该方法能够科学合理有效快速得对各领域的数据流进行关联规则分析。
发明内容
本发明要克服现有最大频繁项集挖掘方法存在的不足,提供一种基于有序复合树结构的数据流最大频繁项集挖掘方法,采用滑动窗口处理数据流,分割滑动窗口为若干个基本单位,更新获取数据流片段信息,单遍扫描片段信息得到频繁项集并存储于频繁项集列表内。
本发明方法构建的有序FP-tree,随项集的插入,动态调整树型结构,合并同一分支中支持度相等的邻接结点,压缩生成有序复合FP-tree。该方法能够高效、快速得对数据流进行最大频繁项集挖掘。
本发明提出的基于有序复合树结构的数据流最大频繁项集挖掘方法,包括以下步骤:
1)频繁项集列表的构建:获取基本滑动窗口中的数据流片段信息,设ε为允许偏差因子,S为最小支持度。为了减小误差,在实际操作中取S-ε为最小支持度阈值,单遍扫描基本窗口中的项目数据集得到按支持度由高到低排序(当支持度相等时,按一定的文法顺序排序,通常按字典顺序)的一项集头表及剔除非频繁项目的频繁项集列表。其中,频繁项集列表的特征简述如下:频繁项集列表中的项集按项目的长度排序,长度相同时,按首字母排序(首字母的顺序遵循头表中的排序);项目内元素按支持度高低排序。
2)有序复合树结构的创建:新建有序FP-tree的根结点root,初始化为null,将频繁项集列表中的项目依次插入该树中。插入时,递归调用insert_tree([i|I],T)方法,其中i指向当前插入的项目,I为项集列表中剩余的项目集合,T为有序FP-tree,初始时T即为根结点root。生成有序FP-tree后,合并同一分支中支持度相等的邻接结点,压缩生成有序复合FP-tree。
insert_tree([i|I],T)方法描述如下:按频繁项集列表中项目顺序依次插入该多叉树。新项目中的元素插入时,遇到结点不同时,并不直接产生分支,而是继续搜索当前路径,向下比较。比较的原则为:设当前搜索到的结点为i,待插入结点j,若j与i不相同,且j在一项集头表中的位置位于i的下方,则向i的子树搜索,直至找到相同结点或搜索到的结点在头表中的位置位于j的下方,停止,而后产生分支。
结点调整方式:在依次插入的过程中,对上一次插入的结点进行调整,设同一路径中两结点为i,j。i是j的父结点,若j的支持度大于i的支持度,则进行调整,将i的父结点作为j的父结点,i作为j的孩子结点。
3)最大频繁项集的存储:挖掘出最大频繁项集,并存储于MFP-tree[]中,对新到达基本窗口的项目或者离开的旧项目,采用增量更新方法进行处理。
挖掘有序复合FP-tree中最大频繁项集的方法为按支持度由低到高的顺序搜索有序复合FP-tree中的每一层结点,在同一层按照从左向右的顺序。由于有序复合FP-tree的结构特性,搜索到第一个支持度大于最小支持度的结点时,即停止对该结点的前缀结点进行最小支持度的比较,直接将该结点以及它的前缀结点存于MFP-tree[]中。
说明:对于某结点j,j有孩子结点,且j的支持度大于或等于最小支持度,但其孩子结点支持度之和不等于j,则不将该计入父结点构成的最大频繁项集中。
增量更新方法:新项目到达基本窗口时,根据步骤1)更新一项集头表和频繁项集列表,根据步骤2)更新有序复合FP-tree,同时更新MFP-tree[]中的最大频繁项集。
本发明采用滑动窗口处理数据流,分割滑动窗口为若干个基本单位,更新获取数据流片段信息,单遍扫描片段信息得到频繁项集并存储于频繁项集列表内。方法构建的有序FP-tree,随项集的插入,动态调整树型结构,合并同一分支中支持度相等的邻接结点,压缩生成有序复合FP-tree。该发明能够很好的对海量数据流进行快速得频繁项集挖掘,并具有良好的鲁棒性。
本发明的有益效果在于:
本发明大大提高了数据流频繁项集的挖掘速度,仅消耗较小的内存,具有良好的应用价值。
附图说明
图1是本发明的基于滑动窗口的FP-tree结构的示意图。
图2是本发明的基于滑动窗口的有序FP-tree结构的示意图。
图3是本发明的有序复合FP-tree的构建过程的示意图。
具体实施方式
下面结合附图说明和具体实施方式对本发明做进一步详细说明。
本发明提出的基于有序复合树结构的数据流最大频繁项集挖掘方法,包括以下步骤:
1)频繁项集列表的构建:获取基本滑动窗口中的数据流片段信息,设ε为允许偏差因子,S为最小支持度。为了减小误差,在实际操作中取S-ε为最小支持度阈值,单遍扫描基本窗口中的项目数据集得到按支持度由高到低排序(当支持度相等时,按一定的文法顺序排序,通常按字典顺序)的一项集头表及剔除非频繁项目的频繁项集列表。其中,频繁项集列表的特征简述如下:频繁项集列表中的项集按项目的长度排序,长度相同时,按首字母排序(首字母的顺序遵循头表中的排序);项目内元素按支持度高低排序。
2)有序复合树结构的创建:新建有序FP-tree的根结点root,初始化为null,将频繁项集列表中的项目依次插入该树中。插入时,递归调用insert_tree([i|I],T)方法,其中i指向当前插入的项目,I为项集列表中剩余的项目集合,T为有序FP-tree,初始时T即为根结点root。生成有序FP-tree后,合并同一分支中支持度相等的邻接结点,压缩生成有序复合FP-tree。
insert_tree([i|I],T)方法描述如下:按频繁项集列表中项目顺序依次插入该多叉树。新项目中的元素插入时,遇到结点不同时,并不直接产生分支,而是继续搜索当前路径,向下比较。比较的原则为:设当前搜索到的结点为i,待插入结点j,若j与i不相同,且j在一项集头表中的位置位于i的下方,则向i的子树搜索,直至找到相同结点或搜索到的结点在头表中的位置位于j的下方,停止,而后产生分支。
结点调整方式:在依次插入的过程中,对上一次插入的结点进行调整,设同一路径中两结点为i,j。i是j的父结点,若j的支持度大于i的支持度,则进行调整,将i的父结点作为j的父结点,i作为j的孩子结点。
3)最大频繁项集的存储:挖掘出最大频繁项集,并存储于MFP-tree[]中,对新到达基本窗口的项目或者离开的旧项目,采用增量更新方法进行处理。
挖掘有序复合FP-tree中最大频繁项集的方法为按支持度由低到高的顺序搜索有序复合FP-tree中的每一层结点,在同一层按照从左向右的顺序。由于有序复合FP-tree的结构特性,搜索到第一个支持度大于最小支持度的结点时,即停止对该结点的前缀结点进行最小支持度的比较,直接将该结点以及它的前缀结点存于MFP-tree[]中。
说明:对于某结点j,j有孩子结点,且j的支持度大于或等于最小支持度,但其孩子结点支持度之和不等于j,则不将该计入父结点构成的最大频繁项集中。
增量更新方法:新项目到达基本窗口时,根据步骤1)更新一项集头表和频繁项集列表,根据步骤2)更新有序复合FP-tree,同时更新MFP-tree[]中的最大频繁项集。
Claims (1)
1.一种基于有序复合树结构的数据流最大频繁项集挖掘方法,包括以下步骤:步骤1.频繁项集列表的构建:获取基本滑动窗口中的数据流片段信息,设ε为允许偏差因子,S为最小支持度;为了减小误差,在实际操作中取S-ε为最小支持度阈值,单遍扫描基本窗口中的项目数据集得到按支持度由高到低排序的一项集头表及剔除非频繁项目的频繁项集列表,当支持度相等时,按一定的文法顺序排序,通常按字典顺序;其中,频繁项集列表的特征简述如下:
频繁项集列表中的项集按项目的长度排序,长度相同时,按首字母排序,首字母的顺序遵循头表中的排序;项目内元素按支持度高低排序;
步骤2.有序复合树结构的创建:新建有序FP-tree的根结点root,初始化为null,将频繁项集列表中的项目依次插入该树中;插入时,递归调用insert_tree([i|I],T)方法,其中i指向当前插入的项目,I为项集列表中剩余的项目集合,T为有序FP-tree,初始时T即为根结点root。生成有序FP-tree后,合并同一分支中支持度相等的邻接结点,压缩生成有序复合FP-tree;
insert_tree([i|I],T)方法描述如下:按频繁项集列表中项目顺序依次插入该多叉树;新项目中的元素插入时,遇到结点不同时,并不直接产生分支,而是继续搜索当前路径,向下比较;比较的原则为:设当前搜索到的结点为i,待插入结点j,若j与i不相同,且j在一项集头表中的位置位于i的下方,则向i的子树搜索,直至找到相同结点或搜索到的结点在头表中的位置位于j的下方,停止,而后产生分支;
结点调整方式:在依次插入的过程中,对上一次插入的结点进行调整,设同一路径中两结点为i,j。i是j的父结点,若j的支持度大于i的支持度,则进行调整,将i的父结点作为j的父结点,i作为j的孩子结点;
步骤3.最大频繁项集的存储:挖掘出最大频繁项集,并存储于MFP-tree[]中,对新到达基本窗口的项目或者离开的旧项目,采用增量更新方法进行处理;
挖掘有序复合FP-tree中最大频繁项集的方法为按支持度由低到高的顺序搜索有序复合FP-tree中的每一层结点,在同一层按照从左向右的顺序。由于有序复合FP-tree的结构特性,搜索到第一个支持度大于最小支持度的结点时,即停止对该结点的前缀结点进行最小支持度的比较,直接将该结点以及它的前缀结点存于MFP-tree[]中;
对于某结点j,j有孩子结点,且j的支持度大于或等于最小支持度,但其孩子结点支持度之和不等于j,则不将该计入父结点构成的最大频繁项集中;
增量更新方法:新项目到达基本窗口时,根据步骤1)更新一项集头表和频繁项集列表,根据步骤2)更新有序复合FP-tree,同时更新MFP-tree[]中的最大频繁项集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510121017.7A CN104850577A (zh) | 2015-03-19 | 2015-03-19 | 一种基于有序复合树结构的数据流最大频繁项集挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510121017.7A CN104850577A (zh) | 2015-03-19 | 2015-03-19 | 一种基于有序复合树结构的数据流最大频繁项集挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104850577A true CN104850577A (zh) | 2015-08-19 |
Family
ID=53850222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510121017.7A Pending CN104850577A (zh) | 2015-03-19 | 2015-03-19 | 一种基于有序复合树结构的数据流最大频繁项集挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104850577A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447134A (zh) * | 2015-11-20 | 2016-03-30 | 央视国际网络无锡有限公司 | 频繁项集挖掘算法的优化方法 |
CN106055809A (zh) * | 2016-06-06 | 2016-10-26 | 厦门大学 | 基于多叉树求解带逻辑环系统失效的最小因素组合的方法 |
CN107729051A (zh) * | 2017-09-25 | 2018-02-23 | 珠海市杰理科技股份有限公司 | 代码处理方法、装置、可读存储介质和计算机设备 |
CN108021561A (zh) * | 2016-10-28 | 2018-05-11 | 沈阳建筑大学 | 一种基于轨迹数据流的异常移动对象检测方法 |
CN109669967A (zh) * | 2018-12-13 | 2019-04-23 | 深圳市信义科技有限公司 | 一种基于大数据技术的时空数据关联分析方法 |
CN110992109A (zh) * | 2019-12-16 | 2020-04-10 | 重庆锐云科技有限公司 | 基于关联规则的房地产客户分析方法、装置及存储介质 |
CN111488496A (zh) * | 2020-04-30 | 2020-08-04 | 湖北师范大学 | 一种基于滑动窗口的Tango树构建方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665669B2 (en) * | 2000-01-03 | 2003-12-16 | Db Miner Technology Inc. | Methods and system for mining frequent patterns |
KR101079063B1 (ko) * | 2010-02-22 | 2011-11-07 | 주식회사 케이티 | 점진적으로 증가하는 데이터를 처리하기 위한 빈발패턴 트리를 이용한 연관규칙 추출 장치 및 방법 |
CN102289507A (zh) * | 2011-08-30 | 2011-12-21 | 王洁 | 一种基于滑动窗口的数据流加权频繁模式挖掘方法 |
CN103761236A (zh) * | 2013-11-20 | 2014-04-30 | 同济大学 | 一种增量式频繁模式增长数据挖掘方法 |
-
2015
- 2015-03-19 CN CN201510121017.7A patent/CN104850577A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665669B2 (en) * | 2000-01-03 | 2003-12-16 | Db Miner Technology Inc. | Methods and system for mining frequent patterns |
KR101079063B1 (ko) * | 2010-02-22 | 2011-11-07 | 주식회사 케이티 | 점진적으로 증가하는 데이터를 처리하기 위한 빈발패턴 트리를 이용한 연관규칙 추출 장치 및 방법 |
CN102289507A (zh) * | 2011-08-30 | 2011-12-21 | 王洁 | 一种基于滑动窗口的数据流加权频繁模式挖掘方法 |
CN103761236A (zh) * | 2013-11-20 | 2014-04-30 | 同济大学 | 一种增量式频繁模式增长数据挖掘方法 |
Non-Patent Citations (1)
Title |
---|
许翀寰: "面向用户兴趣漂移的Web数据流挖掘算法研究", 《中国优秀硕士论文全文数据库》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447134A (zh) * | 2015-11-20 | 2016-03-30 | 央视国际网络无锡有限公司 | 频繁项集挖掘算法的优化方法 |
CN105447134B (zh) * | 2015-11-20 | 2019-03-08 | 央视国际网络无锡有限公司 | 频繁项集挖掘算法的优化方法 |
CN106055809A (zh) * | 2016-06-06 | 2016-10-26 | 厦门大学 | 基于多叉树求解带逻辑环系统失效的最小因素组合的方法 |
CN106055809B (zh) * | 2016-06-06 | 2018-07-17 | 厦门大学 | 基于多叉树求解核电站系统失效的最小因素组合的方法 |
CN108021561A (zh) * | 2016-10-28 | 2018-05-11 | 沈阳建筑大学 | 一种基于轨迹数据流的异常移动对象检测方法 |
CN107729051A (zh) * | 2017-09-25 | 2018-02-23 | 珠海市杰理科技股份有限公司 | 代码处理方法、装置、可读存储介质和计算机设备 |
CN107729051B (zh) * | 2017-09-25 | 2020-06-16 | 珠海市杰理科技股份有限公司 | 代码处理方法、装置、可读存储介质和计算机设备 |
CN109669967A (zh) * | 2018-12-13 | 2019-04-23 | 深圳市信义科技有限公司 | 一种基于大数据技术的时空数据关联分析方法 |
CN109669967B (zh) * | 2018-12-13 | 2022-04-15 | 深圳市信义科技有限公司 | 一种基于大数据技术的时空数据关联分析方法 |
CN110992109A (zh) * | 2019-12-16 | 2020-04-10 | 重庆锐云科技有限公司 | 基于关联规则的房地产客户分析方法、装置及存储介质 |
CN111488496A (zh) * | 2020-04-30 | 2020-08-04 | 湖北师范大学 | 一种基于滑动窗口的Tango树构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104850577A (zh) | 一种基于有序复合树结构的数据流最大频繁项集挖掘方法 | |
CN104699772B (zh) | 一种基于云计算的大数据文本分类方法 | |
CN102722709B (zh) | 一种垃圾图片识别方法和装置 | |
Nam et al. | Efficient approach for damped window-based high utility pattern mining with list structure | |
CN102891852A (zh) | 基于报文分析的协议格式自动推断方法 | |
CN108229578B (zh) | 基于数据、信息和知识三层图谱架构的图像数据目标识别方法 | |
Min et al. | Symmetric continuous subgraph matching with bidirectional dynamic programming | |
CN104899292A (zh) | 一种面向属性图集的频繁近似子图挖掘方法 | |
CN105205052A (zh) | 一种数据挖掘方法及装置 | |
CN104700311B (zh) | 一种社会网络中的邻域跟随社区发现方法 | |
CN109213750A (zh) | 一种基于知识库标签的信息资源推荐方法 | |
CN114385576B (zh) | 基于业务需求数据流图的云计算微服务划分方法和系统 | |
CN109800231A (zh) | 一种基于Flink的实时轨迹co-movement运动模式检测方法 | |
CN108921938A (zh) | 3d场景中基于最小费用最大流的层次结构构建方法 | |
Arab et al. | A modularity maximization algorithm for community detection in social networks with low time complexity | |
CN106354826A (zh) | 一种动态不完整数据skyline查询算法 | |
Gao et al. | Application of Gaussian mixture model genetic algorithm in data stream clustering analysis | |
KR20120095716A (ko) | 그래프 분류를 위한 유사한 그래프 구조를 이용한 특징 선택 방법 및 장치 | |
CN112100242A (zh) | 基于Apriori算法的信息化产品关联规则挖掘方法 | |
CN105183875A (zh) | 基于共享路径的FP-Growth数据挖掘方法 | |
CN110825788A (zh) | 基于数据质量检测规则挖掘结果的规则约简方法 | |
CN105468725B (zh) | 一种关系型数据库中表分段抽取系统及方法 | |
Qiao et al. | Comparison of the Rock Core Image Segmentation Algorithm | |
CN110781309A (zh) | 一种基于模式匹配的实体并列关系相似度计算方法 | |
CN114090835B (zh) | 一种基于属性图信息的社团检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150819 |
|
WD01 | Invention patent application deemed withdrawn after publication |