CN107291848A - 基于Spark的并行化关联挖掘优化方法 - Google Patents
基于Spark的并行化关联挖掘优化方法 Download PDFInfo
- Publication number
- CN107291848A CN107291848A CN201710413035.1A CN201710413035A CN107291848A CN 107291848 A CN107291848 A CN 107291848A CN 201710413035 A CN201710413035 A CN 201710413035A CN 107291848 A CN107291848 A CN 107291848A
- Authority
- CN
- China
- Prior art keywords
- item
- collection
- support
- frequent
- transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Abstract
本发明公开一种基于Spark的并行化关联挖掘优化方法,先对事务数据库进行预处理,根据业务需求进行数据清洗,提取简要有效信息,将事务项数据编码化后,全部读取到内存,转换成RDD模型;在生成频繁1项集的过程中,构造新的数据结构存放1项集的事务序列号;在频繁项集连接、剪枝生成候选集的过程中,舍去候选项集的产生过程,筛选出连接后事务序列号数满足最小支持度的项集;重复以上过程,直到没有满足要求的更大的项集产生。本发明克服了Apriori算法的不足,提高了挖掘效率。
Description
技术领域
本发明涉及大数据关联挖掘算法领域,特别是基于Spark的并行化关联挖掘优化方法。
背景技术
大数据通常用来形容大量半结构化和非结构化数据,有明显的自身特征:体量大、种类多、产生速度快、实时性要求高、价值密度低,这意味着传统的数据关联挖掘算法已不能满足大数据的处理需求,面向多机、并行、分布式的大数据处理方式变得越来越重要,因此研究并提出新的能够适应大数据环境的关联挖掘算法已经显得十分迫切而重要。
Apriori算法是最为经典的关联规则挖掘算法,该算法的核心是生成最大项目集,通过迭代方式逐层搜索频繁项集,直至没有更大项目集生成。目前Apriori算法存在的性能瓶颈主要体现在两个方面:(1)每次搜索都需要完整地扫描一次数据库,(2)需要通过自连接和剪枝产生庞大的候选项集。与此同时,在当前大数据背景下,面对海量数据,这种传统串行方式效率特别低,对算法进行并行化改造成为了研究的热点。
发明内容
针对Apriori算法的不足,本发明提供一种基于Spark的并行化关联挖掘优化方法,Spark是一种快速、通用、可扩展的大数据分析引擎,利用改进的基于Spark平台的关联挖掘算法Apriori对网站点击流日志进行用户访问路径分析,通过对经典关联规则算法Apriori的分析并结合Spark计算模型的特点,提供基于用户访问路径关联的算法,最终能够快速准确为用户提供页面访问推荐策略。
基于Spark的并行化关联挖掘优化方法,先对事务数据库进行预处理,根据业务需求进行数据清洗,提取简要有效信息,将事务项数据编码化后,全部读取到内存,转换成RDD模型;在生成频繁1项集的过程中,构造新的数据结构存放1项集的事务序列号;在频繁项集连接、剪枝生成候选集的过程中,舍去候选项集的产生过程,筛选出连接后事务序列号数满足最小支持度的项集;重复以上过程,直到没有满足最小支持度条件的更大的项集产生。
所述生成频繁项集的过程为:
a1、对事务中包含的所有项发射该项及对应事务编号的键值对,reducer将每项对应的事务编号合并起来,构造成(item,BitSet)的存储形式;
a2、对事务编号进行统计,根据支持度过滤得到只包含频繁1项集的转换后的数据集F;
a3、将存储于数据集F1中的频繁1项集进行两两自连接,然后判断其支持度,将满足最小支持度条件的(item,BitSet)存入F2中,其中item表示事务项,BitSet表示事务编号;
a4、将存储于FK-1中的频繁k-1项集两两自连接,连接规则为:k-1项集中的前k-2项相同,第k-1项不同,则可连接成fi[1],fi[2]…fi[k-2],fi[k-1],fj[k-1],将满足支持度的项集和事务编号集存入Fk。
本发明的显著优点为:求项集的出现次数从遍历整个数据集简化到将对应项的BitSet求与,减少了系统I/O;舍去了候选项集的产生过程,提高了算法的运行效率。本发明可以对网站用户访问路径数据进行基于关联规则的数据挖掘分析,可以帮助技术人员合理修改网站结构及适度分配资源,构建后台服务器群组;可以帮助企业改善市场营销决策,获取更高投资回报率。
附图说明
图1为本发明实施例中网站用户访问源数据库图;
图2为本发明实施例数据预处理流程图;
图3是本发明实施例由关联规则产生的非循环图;
图4是本发明实施例基于Spark的关联挖掘优化方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
基于Spark的并行化关联挖掘优化方法步骤如下:
(1)扫描事务数据库D,对源数据进行数据清洗,将数据记录简化,提取有效信息,并将所有的数据项替换为其所对应的编号生成新的事务数据库D,存入HDFS中。新的编码化后的数据如表1所示。
表1
(2)读入HDFS中待处理数据集以RDD形式存储于集群各节点内存中,并同时实现数据结构转换,每个map任务读入并处理若干行,对事务中包含的所有项发射该项及对应事务编号的键值对,reducer将每项对应的事务编号合并起来,构造成(item,BitSet)的存储形式。之后对事务编号进行统计,根据支持度过滤得到只包含频繁1项集的转换后的数据集F。转换数据结构、获取频繁1项集如表2所示,其中anm表示的是项n在事务序列为m中是否出现,出现则为1,否则为0:
表2
(3)将存储于F1中的频繁1项集进行两两自连接,将它们对应的BitSet求与,BitSet中记录了所有包含连接后的2项集的事务编号。然后判断其支持度,将满足要求的(item,BitSet)存入F2中。
(4)重复步骤(3)将存储于FK-1中的频繁k-1项集两两自连接,连接规则为:k-1项集中的前k-2项相同,第k-1项不同,则可连接成fi[1],fi[2]…fi[k-2],fi[k-1],fj[k-1],将满足支持度的项集和事务编号集存入Fk。
(5)根据F1F2...FK,将关联规则算法产生的规则转换为一个直接的非循环图。该图是以层级的形式进行组织,从第1层到第k层。假若用户在当前会话Session中已经访问的页面集为P,推荐时优先考虑大小为|P|+1的页面集。为了快速的找出含有已经访问的页面集并且其页面集大小为|P|+1的页面集。
(6)根据FK频繁k项集,生产满足置信度的关联规则。
(7)根据步骤(1)生成的编号,将关联规则映射回原数据项。
至此,实现了基于Spark的关联挖掘优化方法。
Claims (2)
1.基于Spark的并行化关联挖掘优化方法,其特征在于:先对事务数据库进行预处理,根据业务需求进行数据清洗,提取简要有效信息,将事务项数据编码化后,全部读取到内存,转换成RDD模型;在生成频繁1项集的过程中,构造新的数据结构存放1项集的事务序列号;在频繁项集连接、剪枝生成候选集的过程中,舍去候选项集的产生过程,筛选出连接后事务序列号数满足最小支持度的项集,所述的支持度Ssupport(A)=P(A)/N为项集在整个数据集中所占的比例;重复以上过程,直到没有满足最小支持度条件的更大的项集产生。
2.根据权利要求1所述的基于Spark的并行化关联挖掘优化方法,其特征在于:所述生成频繁项集的过程为:
a1、对事务中包含的所有项发射该项及对应事务编号的键值对,reducer将每项对应的事务编号合并起来,构造成(item,BitSet)的存储形式;
a2、对事务编号进行统计,根据支持度过滤得到只包含频繁1项集的转换后的数据集F;
a3、将存储于数据集F1中的频繁1项集进行两两自连接,然后判断其支持度,将满足最小支持度的(item,BitSet)存入F2中,其中item表示事务项,BitSet表示事务编号;
a4、将存储于FK-1中的频繁k-1项集两两自连接,连接规则为:k-1项集中的前k-2项相同,第k-1项不同,则可连接成fi[1],fi[2]…fi[k-2],fi[k-1],fj[k-1],将满足支持度的项集和事务编号集存入Fk。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710413035.1A CN107291848A (zh) | 2017-06-05 | 2017-06-05 | 基于Spark的并行化关联挖掘优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710413035.1A CN107291848A (zh) | 2017-06-05 | 2017-06-05 | 基于Spark的并行化关联挖掘优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107291848A true CN107291848A (zh) | 2017-10-24 |
Family
ID=60094309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710413035.1A Pending CN107291848A (zh) | 2017-06-05 | 2017-06-05 | 基于Spark的并行化关联挖掘优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291848A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334646A (zh) * | 2018-04-11 | 2018-07-27 | 焦点科技股份有限公司 | 一种基于频繁浏览序列的网站结构优化方法 |
CN109857997A (zh) * | 2019-02-02 | 2019-06-07 | 杭州费尔斯通科技有限公司 | 一种离线表关联方法 |
CN110209708A (zh) * | 2019-05-22 | 2019-09-06 | 齐鲁工业大学 | 基于数组存储的序列模式存储方法及挖掘方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030100998A2 (en) * | 2001-05-15 | 2003-05-29 | Carnegie Mellon University (Pittsburgh, Pa) And Psychogenics, Inc. (Hawthorne, Ny) | Systems and methods for monitoring behavior informatics |
CN104573124A (zh) * | 2015-02-09 | 2015-04-29 | 山东大学 | 一种基于并行化关联规则算法的教育云应用统计方法 |
US9117174B2 (en) * | 2012-09-21 | 2015-08-25 | Sas Institute Inc. | System for efficiently generating K-maximally predictive association rules with a given consequent |
CN105354336A (zh) * | 2015-12-07 | 2016-02-24 | Tcl集团股份有限公司 | 一种处理交易事务数据库数据的方法和装置 |
CN106202575A (zh) * | 2016-08-22 | 2016-12-07 | 东南大学 | 一种基于Apriori的分布式快速频繁项集挖掘方法 |
-
2017
- 2017-06-05 CN CN201710413035.1A patent/CN107291848A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030100998A2 (en) * | 2001-05-15 | 2003-05-29 | Carnegie Mellon University (Pittsburgh, Pa) And Psychogenics, Inc. (Hawthorne, Ny) | Systems and methods for monitoring behavior informatics |
US9117174B2 (en) * | 2012-09-21 | 2015-08-25 | Sas Institute Inc. | System for efficiently generating K-maximally predictive association rules with a given consequent |
CN104573124A (zh) * | 2015-02-09 | 2015-04-29 | 山东大学 | 一种基于并行化关联规则算法的教育云应用统计方法 |
CN105354336A (zh) * | 2015-12-07 | 2016-02-24 | Tcl集团股份有限公司 | 一种处理交易事务数据库数据的方法和装置 |
CN106202575A (zh) * | 2016-08-22 | 2016-12-07 | 东南大学 | 一种基于Apriori的分布式快速频繁项集挖掘方法 |
Non-Patent Citations (1)
Title |
---|
邵明路: "大规模网站日志的并行分析技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334646A (zh) * | 2018-04-11 | 2018-07-27 | 焦点科技股份有限公司 | 一种基于频繁浏览序列的网站结构优化方法 |
CN109857997A (zh) * | 2019-02-02 | 2019-06-07 | 杭州费尔斯通科技有限公司 | 一种离线表关联方法 |
CN110209708A (zh) * | 2019-05-22 | 2019-09-06 | 齐鲁工业大学 | 基于数组存储的序列模式存储方法及挖掘方法 |
CN110209708B (zh) * | 2019-05-22 | 2023-09-19 | 齐鲁工业大学 | 一种基于数组存储的序列模式挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106709035B (zh) | 一种电力多维全景数据的预处理系统 | |
Khan et al. | Big data text analytics: an enabler of knowledge management | |
CN104899314B (zh) | 一种数据仓库的血统分析方法和装置 | |
CN104881424B (zh) | 一种基于正则表达式的电力大数据采集、存储及分析方法 | |
Cohen et al. | Learning to match and cluster large high-dimensional data sets for data integration | |
Rousseau | A view on big data and its relation to Informetrics | |
CN106126543B (zh) | 一种关系型数据库到MongoDB的模型转换和数据迁移方法 | |
EP2795487A1 (en) | Scalable analysis platform for semi-structured data | |
CN107291848A (zh) | 基于Spark的并行化关联挖掘优化方法 | |
CN113064866B (zh) | 一种电力业务数据整合系统 | |
CN106294745A (zh) | 大数据清洗方法及装置 | |
Martin et al. | A framework for business intelligence application using ontological classification | |
CN104834650A (zh) | 一种有效查询任务生成方法及系统 | |
CN106599052A (zh) | 一种基于ApacheKylin的数据查询系统及其方法 | |
CN107291770A (zh) | 一种分布式系统中海量数据的查询方法及装置 | |
CN105956932A (zh) | 配用电数据融合方法和系统 | |
CN103324762A (zh) | 基于Hadoop的索引创建方法及其索引方法 | |
Luyen et al. | Development of a knowledge system for Big Data: Case study to plant phenotyping data | |
Vonitsanos et al. | A nosql database approach for modeling heterogeneous and semi-structured information | |
Qin et al. | Beyond Simple Integration of RDBMS and MapReduce--Paving the Way toward a Unified System for Big Data Analytics: Vision and Progress | |
Ravichandran | Big Data processing with Hadoop: a review | |
Mishra et al. | Challenges in big data application: a review | |
Karras et al. | Query optimization in NoSQL databases using an enhanced localized R-tree index | |
Mulay et al. | SPOVC: a scalable RDF store using horizontal partitioning and column oriented DBMS | |
CN114860780A (zh) | 一种数据仓库、数据处理系统及计算机装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171024 |