CN107291848A - 基于Spark的并行化关联挖掘优化方法 - Google Patents

基于Spark的并行化关联挖掘优化方法 Download PDF

Info

Publication number
CN107291848A
CN107291848A CN201710413035.1A CN201710413035A CN107291848A CN 107291848 A CN107291848 A CN 107291848A CN 201710413035 A CN201710413035 A CN 201710413035A CN 107291848 A CN107291848 A CN 107291848A
Authority
CN
China
Prior art keywords
item
collection
support
frequent
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710413035.1A
Other languages
English (en)
Inventor
肖甫
许平
沙乐天
王少辉
韩崇
王汝传
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201710413035.1A priority Critical patent/CN107291848A/zh
Publication of CN107291848A publication Critical patent/CN107291848A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

本发明公开一种基于Spark的并行化关联挖掘优化方法,先对事务数据库进行预处理,根据业务需求进行数据清洗,提取简要有效信息,将事务项数据编码化后,全部读取到内存,转换成RDD模型;在生成频繁1项集的过程中,构造新的数据结构存放1项集的事务序列号;在频繁项集连接、剪枝生成候选集的过程中,舍去候选项集的产生过程,筛选出连接后事务序列号数满足最小支持度的项集;重复以上过程,直到没有满足要求的更大的项集产生。本发明克服了Apriori算法的不足,提高了挖掘效率。

Description

基于Spark的并行化关联挖掘优化方法
技术领域
本发明涉及大数据关联挖掘算法领域,特别是基于Spark的并行化关联挖掘优化方法。
背景技术
大数据通常用来形容大量半结构化和非结构化数据,有明显的自身特征:体量大、种类多、产生速度快、实时性要求高、价值密度低,这意味着传统的数据关联挖掘算法已不能满足大数据的处理需求,面向多机、并行、分布式的大数据处理方式变得越来越重要,因此研究并提出新的能够适应大数据环境的关联挖掘算法已经显得十分迫切而重要。
Apriori算法是最为经典的关联规则挖掘算法,该算法的核心是生成最大项目集,通过迭代方式逐层搜索频繁项集,直至没有更大项目集生成。目前Apriori算法存在的性能瓶颈主要体现在两个方面:(1)每次搜索都需要完整地扫描一次数据库,(2)需要通过自连接和剪枝产生庞大的候选项集。与此同时,在当前大数据背景下,面对海量数据,这种传统串行方式效率特别低,对算法进行并行化改造成为了研究的热点。
发明内容
针对Apriori算法的不足,本发明提供一种基于Spark的并行化关联挖掘优化方法,Spark是一种快速、通用、可扩展的大数据分析引擎,利用改进的基于Spark平台的关联挖掘算法Apriori对网站点击流日志进行用户访问路径分析,通过对经典关联规则算法Apriori的分析并结合Spark计算模型的特点,提供基于用户访问路径关联的算法,最终能够快速准确为用户提供页面访问推荐策略。
基于Spark的并行化关联挖掘优化方法,先对事务数据库进行预处理,根据业务需求进行数据清洗,提取简要有效信息,将事务项数据编码化后,全部读取到内存,转换成RDD模型;在生成频繁1项集的过程中,构造新的数据结构存放1项集的事务序列号;在频繁项集连接、剪枝生成候选集的过程中,舍去候选项集的产生过程,筛选出连接后事务序列号数满足最小支持度的项集;重复以上过程,直到没有满足最小支持度条件的更大的项集产生。
所述生成频繁项集的过程为:
a1、对事务中包含的所有项发射该项及对应事务编号的键值对,reducer将每项对应的事务编号合并起来,构造成(item,BitSet)的存储形式;
a2、对事务编号进行统计,根据支持度过滤得到只包含频繁1项集的转换后的数据集F;
a3、将存储于数据集F1中的频繁1项集进行两两自连接,然后判断其支持度,将满足最小支持度条件的(item,BitSet)存入F2中,其中item表示事务项,BitSet表示事务编号;
a4、将存储于FK-1中的频繁k-1项集两两自连接,连接规则为:k-1项集中的前k-2项相同,第k-1项不同,则可连接成fi[1],fi[2]…fi[k-2],fi[k-1],fj[k-1],将满足支持度的项集和事务编号集存入Fk
本发明的显著优点为:求项集的出现次数从遍历整个数据集简化到将对应项的BitSet求与,减少了系统I/O;舍去了候选项集的产生过程,提高了算法的运行效率。本发明可以对网站用户访问路径数据进行基于关联规则的数据挖掘分析,可以帮助技术人员合理修改网站结构及适度分配资源,构建后台服务器群组;可以帮助企业改善市场营销决策,获取更高投资回报率。
附图说明
图1为本发明实施例中网站用户访问源数据库图;
图2为本发明实施例数据预处理流程图;
图3是本发明实施例由关联规则产生的非循环图;
图4是本发明实施例基于Spark的关联挖掘优化方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
基于Spark的并行化关联挖掘优化方法步骤如下:
(1)扫描事务数据库D,对源数据进行数据清洗,将数据记录简化,提取有效信息,并将所有的数据项替换为其所对应的编号生成新的事务数据库D,存入HDFS中。新的编码化后的数据如表1所示。
表1
(2)读入HDFS中待处理数据集以RDD形式存储于集群各节点内存中,并同时实现数据结构转换,每个map任务读入并处理若干行,对事务中包含的所有项发射该项及对应事务编号的键值对,reducer将每项对应的事务编号合并起来,构造成(item,BitSet)的存储形式。之后对事务编号进行统计,根据支持度过滤得到只包含频繁1项集的转换后的数据集F。转换数据结构、获取频繁1项集如表2所示,其中anm表示的是项n在事务序列为m中是否出现,出现则为1,否则为0:
表2
(3)将存储于F1中的频繁1项集进行两两自连接,将它们对应的BitSet求与,BitSet中记录了所有包含连接后的2项集的事务编号。然后判断其支持度,将满足要求的(item,BitSet)存入F2中。
(4)重复步骤(3)将存储于FK-1中的频繁k-1项集两两自连接,连接规则为:k-1项集中的前k-2项相同,第k-1项不同,则可连接成fi[1],fi[2]…fi[k-2],fi[k-1],fj[k-1],将满足支持度的项集和事务编号集存入Fk
(5)根据F1F2...FK,将关联规则算法产生的规则转换为一个直接的非循环图。该图是以层级的形式进行组织,从第1层到第k层。假若用户在当前会话Session中已经访问的页面集为P,推荐时优先考虑大小为|P|+1的页面集。为了快速的找出含有已经访问的页面集并且其页面集大小为|P|+1的页面集。
(6)根据FK频繁k项集,生产满足置信度的关联规则。
(7)根据步骤(1)生成的编号,将关联规则映射回原数据项。
至此,实现了基于Spark的关联挖掘优化方法。

Claims (2)

1.基于Spark的并行化关联挖掘优化方法,其特征在于:先对事务数据库进行预处理,根据业务需求进行数据清洗,提取简要有效信息,将事务项数据编码化后,全部读取到内存,转换成RDD模型;在生成频繁1项集的过程中,构造新的数据结构存放1项集的事务序列号;在频繁项集连接、剪枝生成候选集的过程中,舍去候选项集的产生过程,筛选出连接后事务序列号数满足最小支持度的项集,所述的支持度Ssupport(A)=P(A)/N为项集在整个数据集中所占的比例;重复以上过程,直到没有满足最小支持度条件的更大的项集产生。
2.根据权利要求1所述的基于Spark的并行化关联挖掘优化方法,其特征在于:所述生成频繁项集的过程为:
a1、对事务中包含的所有项发射该项及对应事务编号的键值对,reducer将每项对应的事务编号合并起来,构造成(item,BitSet)的存储形式;
a2、对事务编号进行统计,根据支持度过滤得到只包含频繁1项集的转换后的数据集F;
a3、将存储于数据集F1中的频繁1项集进行两两自连接,然后判断其支持度,将满足最小支持度的(item,BitSet)存入F2中,其中item表示事务项,BitSet表示事务编号;
a4、将存储于FK-1中的频繁k-1项集两两自连接,连接规则为:k-1项集中的前k-2项相同,第k-1项不同,则可连接成fi[1],fi[2]…fi[k-2],fi[k-1],fj[k-1],将满足支持度的项集和事务编号集存入Fk
CN201710413035.1A 2017-06-05 2017-06-05 基于Spark的并行化关联挖掘优化方法 Pending CN107291848A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710413035.1A CN107291848A (zh) 2017-06-05 2017-06-05 基于Spark的并行化关联挖掘优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710413035.1A CN107291848A (zh) 2017-06-05 2017-06-05 基于Spark的并行化关联挖掘优化方法

Publications (1)

Publication Number Publication Date
CN107291848A true CN107291848A (zh) 2017-10-24

Family

ID=60094309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710413035.1A Pending CN107291848A (zh) 2017-06-05 2017-06-05 基于Spark的并行化关联挖掘优化方法

Country Status (1)

Country Link
CN (1) CN107291848A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334646A (zh) * 2018-04-11 2018-07-27 焦点科技股份有限公司 一种基于频繁浏览序列的网站结构优化方法
CN109857997A (zh) * 2019-02-02 2019-06-07 杭州费尔斯通科技有限公司 一种离线表关联方法
CN110209708A (zh) * 2019-05-22 2019-09-06 齐鲁工业大学 基于数组存储的序列模式存储方法及挖掘方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030100998A2 (en) * 2001-05-15 2003-05-29 Carnegie Mellon University (Pittsburgh, Pa) And Psychogenics, Inc. (Hawthorne, Ny) Systems and methods for monitoring behavior informatics
CN104573124A (zh) * 2015-02-09 2015-04-29 山东大学 一种基于并行化关联规则算法的教育云应用统计方法
US9117174B2 (en) * 2012-09-21 2015-08-25 Sas Institute Inc. System for efficiently generating K-maximally predictive association rules with a given consequent
CN105354336A (zh) * 2015-12-07 2016-02-24 Tcl集团股份有限公司 一种处理交易事务数据库数据的方法和装置
CN106202575A (zh) * 2016-08-22 2016-12-07 东南大学 一种基于Apriori的分布式快速频繁项集挖掘方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030100998A2 (en) * 2001-05-15 2003-05-29 Carnegie Mellon University (Pittsburgh, Pa) And Psychogenics, Inc. (Hawthorne, Ny) Systems and methods for monitoring behavior informatics
US9117174B2 (en) * 2012-09-21 2015-08-25 Sas Institute Inc. System for efficiently generating K-maximally predictive association rules with a given consequent
CN104573124A (zh) * 2015-02-09 2015-04-29 山东大学 一种基于并行化关联规则算法的教育云应用统计方法
CN105354336A (zh) * 2015-12-07 2016-02-24 Tcl集团股份有限公司 一种处理交易事务数据库数据的方法和装置
CN106202575A (zh) * 2016-08-22 2016-12-07 东南大学 一种基于Apriori的分布式快速频繁项集挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邵明路: "大规模网站日志的并行分析技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108334646A (zh) * 2018-04-11 2018-07-27 焦点科技股份有限公司 一种基于频繁浏览序列的网站结构优化方法
CN109857997A (zh) * 2019-02-02 2019-06-07 杭州费尔斯通科技有限公司 一种离线表关联方法
CN110209708A (zh) * 2019-05-22 2019-09-06 齐鲁工业大学 基于数组存储的序列模式存储方法及挖掘方法
CN110209708B (zh) * 2019-05-22 2023-09-19 齐鲁工业大学 一种基于数组存储的序列模式挖掘方法

Similar Documents

Publication Publication Date Title
CN106709035B (zh) 一种电力多维全景数据的预处理系统
Khan et al. Big data text analytics: an enabler of knowledge management
CN104899314B (zh) 一种数据仓库的血统分析方法和装置
CN104881424B (zh) 一种基于正则表达式的电力大数据采集、存储及分析方法
Cohen et al. Learning to match and cluster large high-dimensional data sets for data integration
Rousseau A view on big data and its relation to Informetrics
CN106126543B (zh) 一种关系型数据库到MongoDB的模型转换和数据迁移方法
EP2795487A1 (en) Scalable analysis platform for semi-structured data
CN107291848A (zh) 基于Spark的并行化关联挖掘优化方法
CN113064866B (zh) 一种电力业务数据整合系统
CN106294745A (zh) 大数据清洗方法及装置
Martin et al. A framework for business intelligence application using ontological classification
CN104834650A (zh) 一种有效查询任务生成方法及系统
CN106599052A (zh) 一种基于ApacheKylin的数据查询系统及其方法
CN107291770A (zh) 一种分布式系统中海量数据的查询方法及装置
CN105956932A (zh) 配用电数据融合方法和系统
CN103324762A (zh) 基于Hadoop的索引创建方法及其索引方法
Luyen et al. Development of a knowledge system for Big Data: Case study to plant phenotyping data
Vonitsanos et al. A nosql database approach for modeling heterogeneous and semi-structured information
Qin et al. Beyond Simple Integration of RDBMS and MapReduce--Paving the Way toward a Unified System for Big Data Analytics: Vision and Progress
Ravichandran Big Data processing with Hadoop: a review
Mishra et al. Challenges in big data application: a review
Karras et al. Query optimization in NoSQL databases using an enhanced localized R-tree index
Mulay et al. SPOVC: a scalable RDF store using horizontal partitioning and column oriented DBMS
CN114860780A (zh) 一种数据仓库、数据处理系统及计算机装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171024