CN103309867A - 基于Hadoop平台的Web数据挖掘系统 - Google Patents

基于Hadoop平台的Web数据挖掘系统 Download PDF

Info

Publication number
CN103309867A
CN103309867A CN2012100606883A CN201210060688A CN103309867A CN 103309867 A CN103309867 A CN 103309867A CN 2012100606883 A CN2012100606883 A CN 2012100606883A CN 201210060688 A CN201210060688 A CN 201210060688A CN 103309867 A CN103309867 A CN 103309867A
Authority
CN
China
Prior art keywords
module
layer
data mining
parallel
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100606883A
Other languages
English (en)
Inventor
黄玉明
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JURONG ZHIHENG SAFETY EQUIPMENT Co Ltd
Original Assignee
JURONG ZHIHENG SAFETY EQUIPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JURONG ZHIHENG SAFETY EQUIPMENT Co Ltd filed Critical JURONG ZHIHENG SAFETY EQUIPMENT Co Ltd
Priority to CN2012100606883A priority Critical patent/CN103309867A/zh
Publication of CN103309867A publication Critical patent/CN103309867A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明基于Hadoop平台的Web数据挖掘系统,涉及数据挖掘系统。该系统包括用户交互层、业务应用层、Web数据挖掘平台层和分布式存储计算层;所述的用户交互层,用于用户和系统之间的交互,包括:用户管理模块、业务模块和展示模块;所述的业务应用层包括:业务响应模块和工作流模块;所述的Web数据挖掘平台层包括:数据加载模块、结果存储模块、模式评估模块、并行ETL模块和并行数据挖掘算法模块;所述的分布式存储计算层,使用Hadoop实现文件分布式存储和并行计算功能,包括:HDFS模块、MapReduce模块和分布式管理模块。本发明需要巨大计算能力的各个模块的计算和存储要求扩展到HADOOP集群中的各个节点上,利用集群的并行计算和存储能力来进行相关数据挖掘工作。

Description

基于Hadoop平台的Web数据挖掘系统
技术领域
本发明涉及数据挖掘系统,具体地说是一种基于Hadoop平台的web数据挖掘系统。
背景技术
Web数据挖掘是指使用数据挖掘技术在www数据中发现潜在的,有用的模式或者信息。它建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、筛选、转换、挖掘和模式分析,最后做出归纳性的推理。但是目前对web数据挖掘的研究主要集中在改进挖掘算法方面,这只会提高挖掘系统的有效性,并没有提高挖掘系统对数据的处理能力。随着网络技术的迅猛发展,web上的数据正以指数级飞速增长,使用单一的数据挖掘平台已经在计算能力上遇到了瓶颈,本发明发明了基于Hadoop平台web数据挖掘系统。
发明内容
基于Hadoop平台的Web数据挖掘系统,包括用户交互层、业务应用层、Web数据挖掘平台层和分布式存储计算层;
所述的用户交互层,用于用户和系统之间的交互,包括:用户管理模块、业务模块和展示模块;
所述的业务应用层包括:业务响应模块和工作流模块;
所述的Web数据挖掘平台层包括:数据加载模块、结果存储模块、模式评估模块、并行ETL模块和并行数据挖掘算法模块;
所述的分布式存储计算层,使用Hadoop实现文件分布式存储和并行计算功能,包括:HDFS模块、MapReduce模块和分布式管理模块;
在上述用户交互层中:
用户管理模块,其用于识别用户身份、设置相关权限以及对用户登录或者注销的管理;
业务模块,其用于提交细粒度的用户业务需求;
展示模块,其用于对业务结果的查看、分析和保存;
在上述的业务应用层中:
业务响应模块,其用于响应上层的业务模块,对完成业务所需的子业务进行调用、管理,并通过调用底层模块完成业务;
工作流模块,其用于对业务状态进行监控、管理,和将具体的信息参数返回给业务响应模块;
在上述的Web数据挖掘平台层中:
数据加载模块,其用于将挖掘所需的数据进行注册并放入系统的HDFS文件系统中;
结果存储模块,其用于存放挖掘现在产生或者历史产生的各种模式;
模式评估模块,其用于对产生的模式进行评估;
并行ETL模块,其用于对数据进行预处理,输入的数据来自于HDFS文件中,并将处理结果也放入HDFS中,为挖掘过程进行数据清理,提取,转换和加载;
并行数据挖掘算法模块,其用于为数据挖掘提供并行算法,包含一个基于HADOOP进行并行数据挖掘算法的库;
在上述的分布式存储计算层中:
HDFS模块,其用于提供各种访问接口,包括API以及各种操作命令,实现海量web数据的分布式存储;
MapReduce模块,其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节点以实现并行计算。
附图说明
图1为本发明的基于HADoop平台的web数据挖掘系统的结构示意图。
具体实施方式
基于Hadoop平台的Web数据挖掘系统,如图1所示,包括用户交互层、业务应用层、Web数据挖掘平台层和分布式存储计算层;
所述的用户交互层,用于用户和系统之间的交互,包括:用户管理模块、业务模块和展示模块;
所述的业务应用层包括:业务响应模块和工作流模块;
所述的Web数据挖掘平台层包括:数据加载模块、结果存储模块、模式评估模块、并行ETL模块和并行数据挖掘算法模块;
所述的分布式存储计算层,使用Hadoop实现文件分布式存储和并行计算功能,包括:HDFS模块、MapReduce模块和分布式管理模块;
在上述用户交互层中:
用户管理模块,其用于识别用户身份、设置相关权限以及对用户登录或者注销的管理;
业务模块,其用于提交细粒度的用户业务需求;
展示模块,其用于对业务结果的查看、分析和保存;
在上述的业务应用层中:
业务响应模块,其用于响应上层的业务模块,对完成业务所需的子业务进行调用、管理,并通过调用底层模块完成业务;
工作流模块,其用于对业务状态进行监控、管理,和将具体的信息参数返回给业务响应模块;
在上述的Web数据挖掘平台层中:
数据加载模块,其用于将挖掘所需的数据进行注册并放入系统的HDFS文件系统中;
结果存储模块,其用于存放挖掘现在产生或者历史产生的各种模式;
模式评估模块,其用于对产生的模式进行评估;
并行ETL模块,其用于对数据进行预处理,输入的数据来自于HDFS文件中,并将处理结果也放入HDFS中,为挖掘过程进行数据清理,提取,转换和加载;
并行数据挖掘算法模块,其用于为数据挖掘提供并行算法,包含一个基于HADOOP进行并行数据挖掘算法的库;
在上述的分布式存储计算层中:
HDFS模块,其用于提供各种访问接口,包括API以及各种操作命令,实现海量web数据的分布式存储;
MapReduce模块,其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节点以实现并行计算。
本发明充分利用HADOOP的集群特征,将数据挖掘系统中需要巨大计算能力的各个模块的计算和存储要求扩展到HADOOP集群中的各个节点上,利用集群的并行计算和存储能力来进行相关数据挖掘工作。在底层使用HADOOP来存储、分析和处理巨大的数据量,而在高层通过接口直接透明的调用底层的计算和存储能力。

Claims (1)

1.一种基于Hadoop平台的web数据挖掘系统,包括用户交互层、业务应用层、Web数据挖掘平台层和分布式存储计算层;
所述的用户交互层,用于用户和系统之间的交互,包括:用户管理模块、业务模块和展示模块;
所述的业务应用层包括:业务响应模块和工作流模块;
所述的Web数据挖掘平台层包括:数据加载模块、结果存储模块、模式评估模块、并行ETL模块和并行数据挖掘算法模块;
所述的分布式存储计算层,使用Hadoop实现文件分布式存储和并行计算功能,包括:HDFS模块、MapReduce模块和分布式管理模块;
在上述用户交互层中:
用户管理模块,其用于识别用户身份、设置相关权限以及对用户登录或者注销的管理;
业务模块,其用于提交细粒度的用户业务需求;
展示模块,其用于对业务结果的查看、分析和保存;
在上述的业务应用层中:
业务响应模块,其用于响应上层的业务模块,对完成业务所需的子业务进行调用、管理,并通过调用底层模块完成业务;
工作流模块,其用于对业务状态进行监控、管理,和将具体的信息参数返回给业务响应模块;
在上述的Web数据挖掘平台层中:
数据加载模块,其用于将挖掘所需的数据进行注册并放入系统的HDFS文件系统中;
结果存储模块,其用于存放挖掘现在产生或者历史产生的各种模式;
模式评估模块,其用于对产生的模式进行评估;
并行ETL模块,其用于对数据进行预处理,输入的数据来自于HDFS文件中,并将处理结果也放入HDFS中,为挖掘过程进行数据清理,提取,转换和加载;
并行数据挖掘算法模块,其用于为数据挖掘提供并行算法,包含一个基于HADOOP进行并行数据挖掘算法的库;
在上述的分布式存储计算层中:
HDFS模块,其用于提供各种访问接口,包括API以及各种操作命令,实现海量web数据的分布式存储;
MapReduce模块,其用于将数据挖掘系统中子模块的计算任务发布到集群中的各个节点以实现并行计算。
CN2012100606883A 2012-03-09 2012-03-09 基于Hadoop平台的Web数据挖掘系统 Pending CN103309867A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100606883A CN103309867A (zh) 2012-03-09 2012-03-09 基于Hadoop平台的Web数据挖掘系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100606883A CN103309867A (zh) 2012-03-09 2012-03-09 基于Hadoop平台的Web数据挖掘系统

Publications (1)

Publication Number Publication Date
CN103309867A true CN103309867A (zh) 2013-09-18

Family

ID=49135105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100606883A Pending CN103309867A (zh) 2012-03-09 2012-03-09 基于Hadoop平台的Web数据挖掘系统

Country Status (1)

Country Link
CN (1) CN103309867A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631922A (zh) * 2013-12-03 2014-03-12 南通大学 基于Hadoop集群的大规模Web信息提取方法及系统
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN106934014A (zh) * 2017-03-10 2017-07-07 山东省科学院情报研究所 一种基于Hadoop的网络数据挖掘与分析平台及其方法
CN107153843A (zh) * 2017-05-03 2017-09-12 西安电子科技大学 基于支持向量机的地面沉降预测系统和方法
CN107942971A (zh) * 2017-11-15 2018-04-20 许昌智能继电器股份有限公司 一种区域能源管控系统架构
CN108696559A (zh) * 2017-04-11 2018-10-23 华为技术有限公司 流处理方法及装置
CN113902331A (zh) * 2021-10-27 2022-01-07 上海腾道信息技术有限公司 一种国际贸易数据管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN101799809A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 数据挖掘方法和数据挖掘系统
CN102169505A (zh) * 2011-05-16 2011-08-31 苏州两江科技有限公司 基于云计算的推荐系统构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN101799809A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 数据挖掘方法和数据挖掘系统
CN102169505A (zh) * 2011-05-16 2011-08-31 苏州两江科技有限公司 基于云计算的推荐系统构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨宸铸: "基于HADOOP的数据挖掘研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631922A (zh) * 2013-12-03 2014-03-12 南通大学 基于Hadoop集群的大规模Web信息提取方法及系统
CN103631922B (zh) * 2013-12-03 2017-04-05 南通大学 基于Hadoop集群的大规模Web信息提取方法及系统
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN106934014A (zh) * 2017-03-10 2017-07-07 山东省科学院情报研究所 一种基于Hadoop的网络数据挖掘与分析平台及其方法
CN108696559A (zh) * 2017-04-11 2018-10-23 华为技术有限公司 流处理方法及装置
CN107153843A (zh) * 2017-05-03 2017-09-12 西安电子科技大学 基于支持向量机的地面沉降预测系统和方法
CN107153843B (zh) * 2017-05-03 2020-07-10 西安电子科技大学 基于支持向量机的地面沉降预测系统和方法
CN107942971A (zh) * 2017-11-15 2018-04-20 许昌智能继电器股份有限公司 一种区域能源管控系统架构
CN113902331A (zh) * 2021-10-27 2022-01-07 上海腾道信息技术有限公司 一种国际贸易数据管理系统

Similar Documents

Publication Publication Date Title
CN103309867A (zh) 基于Hadoop平台的Web数据挖掘系统
CN101799809B (zh) 数据挖掘方法和数据挖掘系统
US9747127B1 (en) Worldwide distributed job and tasks computational model
CN108132838A (zh) 一种图数据处理的方法、装置及系统
CN102169505A (zh) 基于云计算的推荐系统构建方法
Londhe et al. Platforms for big data analytics: Trend towards hybrid era
CN104461551A (zh) 基于数据并行处理的大数据处理系统
CN105681474A (zh) 一种基于企业级大数据平台支撑上层应用的系统架构
CN103365971A (zh) 基于云计算的海量数据访问处理系统
CN106708917A (zh) 一种数据处理方法、装置以及olap系统
CN104111936A (zh) 数据查询方法和系统
CN101986661A (zh) 一种改进的虚拟机群下MapReduce数据处理方法
CN106325999A (zh) 一种分配宿主机资源的方法和装置
CN102799750B (zh) 几何体表面三角形剖分的公共边和非公共边快速生成方法
CN104008178B (zh) 一种数据的动态加载处理方法及系统
CN104239520B (zh) 一种基于历史信息的hdfs数据块放置策略
CN101082902A (zh) 基于网格计算的岩土工程结构应力场分析方法
US20210142197A1 (en) Methods and systems for diverse instance generation in artificial intelligence planning
Yaubatyrov et al. Grid cluster in the office: high-performance computing for reservoir management
CN103942235A (zh) 针对大规模数据集交叉比较的分布式计算系统和方法
Xiang et al. Green manufacturing service composition in cloud manufacturing system: An introduction
Xu et al. [Retracted] Big Data Storage Index Mechanism Based on Spatiotemporal Information Cloud Platform
Casciano et al. Latest Advances In Simulation Technology For High-resolution Reservoir Models: Achievements And Opportunities For Improvement
Li et al. ivmp: An interactive vm placement algorithm for agile capital allocation
CN107291380A (zh) 高效大数据存储方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130918

WD01 Invention patent application deemed withdrawn after publication