CN105468750A - 关联规则算法的数据降维与压缩方法 - Google Patents

关联规则算法的数据降维与压缩方法 Download PDF

Info

Publication number
CN105468750A
CN105468750A CN201510838047.XA CN201510838047A CN105468750A CN 105468750 A CN105468750 A CN 105468750A CN 201510838047 A CN201510838047 A CN 201510838047A CN 105468750 A CN105468750 A CN 105468750A
Authority
CN
China
Prior art keywords
frequent
algorithm
data
rule algorithm
association rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510838047.XA
Other languages
English (en)
Inventor
江海国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Original Assignee
CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCTV INTERNATIONAL NETWORKS WUXI Co Ltd filed Critical CCTV INTERNATIONAL NETWORKS WUXI Co Ltd
Priority to CN201510838047.XA priority Critical patent/CN105468750A/zh
Publication of CN105468750A publication Critical patent/CN105468750A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种关联规则算法的数据降维与压缩方法,包括:对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤;以及对上述数字编码化后的数据源再次运行数据关联规则算法得到频繁项集结果集的步骤。达到提高大数据量处理效率的目的。

Description

关联规则算法的数据降维与压缩方法
技术领域
本发明数据处理领域,具体地,涉及一种关联规则算法的数据降维与压缩方法。
背景技术
关联规则算法开始是由R.Agrawal等人提出的挖掘顾客交易数据中商品项目集间的关联规则问题,它能够从所有顾客的交易数据中挖掘出商品与商品之间的隐藏关系,比如买面包的顾客会顺便买牛奶的概率比较大,这将非常利于大商场的货物排放。
目前,数据关联规则算法中常用的有两种:一种是Apriori算法,另一种是FP-Growth算法。Apriori算法由于需要不断的构造候选集、筛选候选集挖掘出频繁项集,需要多次扫描原始数据,数据源很大时,执行挖掘效率比较低下;FP-Growth算法则只需扫描原始数据两遍,执行挖掘效率相对比较高。
如果参与运算的数据量达到一定的数量级别时,调用相关的数据关联规则算法,会创建非常多的文字节点数据存放在内存中并进行运算,容易导致机器内存不够用并且算法执行效率也比较低下。
发明内容
本发明的目的在于,针对上述问题,提出一种关联规则算法的数据降维与压缩方法,以实现提高大数据量处理效率的优点。
为实现上述目的,本发明采用的技术方案是:
一种关联规则算法的数据降维与压缩方法,包括:
对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;
对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤;
以及
对上述数字编码化后的数据源再次运行关联规则算法得到频繁项集结果集的步骤。
优选的,所述关联规则算法:包括,Apriori算法或FP-Growth算法。
本发明的技术方案具有以下有益效果:
本发明的技术方案,先对数据源调用关联规则算法得到频繁一项集,不符合条件的项会被先过滤掉,减少了无用的数据参与后期的运算。
对数据进行编码,使得参与算法运算创建树的过程中,对树节点之间相互比较和查询运算更加有效率,而且占用的内存也相对较小。达到提高大数据量处理效率的目的。
在经济上,本技术方案对服务器性能相对原算法要求比较低,降低服务器硬件成本。
在空间和时间上,节省了内存的占用,提高了数据挖掘的执行效率,算法性能相对提高。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为现有的FP-Growth算法的运算流程图;
图2为本发明实施例所述的关联规则算法的数据降维与压缩方法的流程图;
图3为本发明实施例所述的对数据源进行数字编码化的结果示意图;
图4为采用本发明实施例所述的关联规则算法的数据降维与压缩方法的数据结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
一种关联规则算法的数据降维与压缩方法,包括:
对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;
对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤;
以及
对上述数字编码化后的数据源再次运行关联规则算法得到频繁项集结果集的步骤。
优选的,关联规则算法:包括,Apriori算法或FP-Growth算法。
如图3所示,常用的关联规则算法没有对参与运算的数据源数据类型进行限制,比如FP-Growth算法,它内用于存储各个节点的树结构,节点的内容是用文字字符串进行存储在内存中,很明显存储大量的数据节点会浪费很多内存空间,而且节点的内容之间相互比较与查询,也是非常的低效的
由此,本发明技术方案则是用编码来描述节点的内容,这样不仅会节约内存空间而且执行效率也会提高不少。
如图1所示,现有关联规则算法(FP-Growth算法),直接对数据源数据进行挖掘处理
如图2所示,本发明技术方案,在挖掘数据前,需要对数据源进行分析加工压缩处理
首先对事务数据源调用关联规则算法得到所有数据的频繁一项集结果集进行编码化,在利用前面的编码,再对之前的事务数据源进行编码化如图4所示,最后用编码化的事务数据进行参与关联规则算法(比如FP-Growth算法)运算,得到所需要的频繁项集结果集
其中:下文具体对频繁一项与频繁项集进行说明:
如:顾客消费记录customer1{牛奶,面包,鸡蛋,香肠};
customer2{牛奶,面包,黄油,啤酒};
customer3{牛奶,面包,黄油,肉}。
如果规定各种商品在不同的顾客消费记录里出现3次,那就是频繁一项,可以得出:牛奶,面包这两种商品各出现3次,则牛奶和面包中的每一种商品都是频繁一项。牛奶和面包的组合在不同的顾客消费记录中共出现了3次,那它们整体称为频繁项集
其中,本发明技术方案符合频繁一项的数据源数字编码文件,其中过滤掉了无用的非频繁一项,而且又进行了数字编码化,这样再参与数据关联规则算法的运算,效率会得到非常大的提升,同样占用的内存空间也会大大的减少。
本发明技术方案,在内存使用量上,使用数字编码代替文字参与数据关联规则算法运算,会比直接参与运算的数据源所占用的内存至少减少了70%以上;
在运行时间效率上,会使整个算法的执行效率提高80%以上。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种关联规则算法的数据降维与压缩方法,其特征在于,包括:
对数据源运用关联规则算法得到相应的频繁一项集;从而过滤掉无用的非频繁一项,得到有用的频繁一项集文件的步骤;
对上述得到的频繁一项集进行数字编码化,从而得到数字编码化的数据源的步骤;
以及
对上述数字编码化后的数据源再次运行关联规则算法得到频繁项集结果集的步骤。
2.根据权利要求1所述的关联规则算法的数据降维与压缩方法,其特征在于,所述关联规则算法:包括,Apriori算法或FP-Growth算法。
CN201510838047.XA 2015-11-26 2015-11-26 关联规则算法的数据降维与压缩方法 Pending CN105468750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510838047.XA CN105468750A (zh) 2015-11-26 2015-11-26 关联规则算法的数据降维与压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510838047.XA CN105468750A (zh) 2015-11-26 2015-11-26 关联规则算法的数据降维与压缩方法

Publications (1)

Publication Number Publication Date
CN105468750A true CN105468750A (zh) 2016-04-06

Family

ID=55606451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510838047.XA Pending CN105468750A (zh) 2015-11-26 2015-11-26 关联规则算法的数据降维与压缩方法

Country Status (1)

Country Link
CN (1) CN105468750A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874479A (zh) * 2017-02-19 2017-06-20 郑州云海信息技术有限公司 基于FPGA的FP‑Growth算法的改进方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212672A1 (en) * 2002-09-18 2006-09-21 Sashikanth Chandrasekaran Method and mechanism for on-line data compression and in-place updates
CN101853282A (zh) * 2010-05-20 2010-10-06 清华大学 用户跨网站购物模式信息的抽取系统和方法
CN104516978A (zh) * 2014-12-31 2015-04-15 天津南大通用数据技术股份有限公司 用于数据库入侵检测领域的压缩中间候选频繁项集的算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060212672A1 (en) * 2002-09-18 2006-09-21 Sashikanth Chandrasekaran Method and mechanism for on-line data compression and in-place updates
CN101853282A (zh) * 2010-05-20 2010-10-06 清华大学 用户跨网站购物模式信息的抽取系统和方法
CN104516978A (zh) * 2014-12-31 2015-04-15 天津南大通用数据技术股份有限公司 用于数据库入侵检测领域的压缩中间候选频繁项集的算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林森媚 等: "基于合并FP树的频繁模式挖掘算法", 《广西师范大学学报: 自然科学版》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874479A (zh) * 2017-02-19 2017-06-20 郑州云海信息技术有限公司 基于FPGA的FP‑Growth算法的改进方法及装置

Similar Documents

Publication Publication Date Title
Crona et al. Using social–ecological syndromes to understand impacts of international seafood trade on small-scale fisheries
CN109034398B (zh) 基于联邦训练的梯度提升树模型构建方法、装置及存储介质
US10733202B2 (en) Advanced database systems and methods for use in a multi-tenant system
US9361343B2 (en) Method for parallel mining of temporal relations in large event file
CN110765091A (zh) 对账方法和系统
CN110472068A (zh) 基于异构分布式知识图谱的大数据处理方法、设备及介质
US20180081953A1 (en) System, computer-implemented method, and computer program for improving access to and usefulness of data for business intelligence
CN109118155B (zh) 一种生成操作模型的方法及装置
CN106777182A (zh) 一种减少候选项集的数据流高效用项集挖掘算法
CN110719106A (zh) 一种基于节点分类排序的社交网络图压缩方法及系统
CN112241420A (zh) 一种基于关联规则算法的政务服务事项推荐方法
US20180082227A1 (en) System, computer-implemented method, and computer program for improving business intelligence and peer analysis
CN105468750A (zh) 关联规则算法的数据降维与压缩方法
CN109165119B (zh) 一种电子商务数据处理方法和系统
CN113742315A (zh) 一种制造大数据处理平台及方法
CN111967970A (zh) 基于spark平台的银行产品推荐方法及装置
CN103324520B (zh) 一种基于条件合并与共享的订阅方法
CN115982177A (zh) 一种基于树形维度的数据归集的方法、装置、设备及介质
CN110162513A (zh) 用于智能电网大数据处理的数据表连接方法及计算机可读存储介质
CN107329852B (zh) 基于Hive的数据处理的方法、系统及终端设备
CN109032578B (zh) 基于数据库sql代码生成方法及系统
CN111984798A (zh) 图谱数据预处理方法及装置
Sertić et al. The impact of China's imports on European Union industrial employment: A PMG approach
US20240111745A1 (en) Applying range-based filtering during query execution based on utilizing an inverted index structure
CN114186629A (zh) 投行产品适配方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160406