CN106934014A - 一种基于Hadoop的网络数据挖掘与分析平台及其方法 - Google Patents

一种基于Hadoop的网络数据挖掘与分析平台及其方法 Download PDF

Info

Publication number
CN106934014A
CN106934014A CN201710141476.0A CN201710141476A CN106934014A CN 106934014 A CN106934014 A CN 106934014A CN 201710141476 A CN201710141476 A CN 201710141476A CN 106934014 A CN106934014 A CN 106934014A
Authority
CN
China
Prior art keywords
data
network data
hadoop
layer
blog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710141476.0A
Other languages
English (en)
Other versions
CN106934014B (zh
Inventor
朱世伟
赵燕清
阎淮海
鞠镁隆
于俊凤
魏墨济
李晨
李思思
徐蓓蓓
李宪毅
王爱萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Internet Service Co ltd
Jingchuang United Beijing Intellectual Property Service Co ltd
Original Assignee
INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES filed Critical INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Priority to CN201710141476.0A priority Critical patent/CN106934014B/zh
Publication of CN106934014A publication Critical patent/CN106934014A/zh
Application granted granted Critical
Publication of CN106934014B publication Critical patent/CN106934014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Hadoop的网络数据挖掘与分析平台及其方法,其中,该平台包括数据采集层、数据存储层、业务应用层和用户层;所述数据采集层,采用分布式定向采集体系架构且以不同网络中的终端站点作为网络数据采集的一个基本任务单位来对原始网络数据进行采集,并向数据存储层汇聚传输;其中,每个基本任务单位采用独立的采集规则及策略;及所述数据存储层,用于完成数据的原始网络数据的汇聚、存储及原始处理,并提供不同类型的功能调用服务;所述数据存储层采用Hadoop框架实现;及所述业务应用层,用于调取数据存储层处理后的网络数据并进行分析,来实现公有组件与个性业务应用组件剥离,并将网络数据分析后的结果传送至用户层进行实时展示。

Description

一种基于Hadoop的网络数据挖掘与分析平台及其方法
技术领域
本发明属于网络数据处理领域,尤其涉及一种基于Hadoop的网络数据挖掘与分析平台及其方法。
背景技术
近年来,“大数据”已经成为科技界和企业界关注的热点,数据已成为与自然资源、人力资源同等重要的战略资源,其所隐含的巨大社会和经济价值已引起科技界和企业也的高度重视。如果有效地组织和使用这些大数据将对社会和经济的发展起到巨大的推动作用。这些急剧增长的数据主要来自于人们的日常生活,特别是互联网已经成为我国最大的公共信息集散地和社会群体平台。与报纸、无线广播和电视等传统的传播媒体相比,网络媒体具有进入门槛低、信息超大规模、信息发布与传播迅速、参与群体庞大、实时交互性强等综合性特点,已经成为社会政治、经济各领域最快速、广泛的信息渠道。而如何从大量的互联网数据中及时发现有用信息成为政府及各行业的关注热点。
网络数据资源的特点是规模大,且来源于世界各地不同站点,分布分散,因此分布式的组织和管理成为一种必要的手段。此外,各类网络用户及网络接入点的迅速增长以及多种新型网络媒体的出现,使得各种非结构化、半结构化网络数据的数据量急剧膨胀,而传统关系型数据管理系统(并行数据库)的扩展性遇到了前所未有的障碍,使得其在处理新型数据方面显得力不从心。由于各行业所产生的数据规模巨大、形态多样、动态变化,若仍沿用传统关系数据库来存储这些非结构化数据,其存储性能和扩展性能都将成为制约数据有效应用的瓶颈。
发明内容
为了解决现有技术的不足,本发明的第一目的提供一种基于Hadoop的网络数据挖掘与分析平台。
本发明的一种基于Hadoop的网络数据挖掘与分析平台,包括数据采集层、数据存储层、业务应用层和用户层;
所述数据采集层,采用分布式定向采集体系架构且以不同网络中的终端站点作为网络数据采集的一个基本任务单位来对原始网络数据进行采集,并向数据存储层汇聚传输;其中,每个基本任务单位采用独立的采集规则及策略;及
所述数据存储层,用于完成数据的原始网络数据的汇聚、存储及原始处理,并提供不同类型的功能调用服务;所述数据存储层采用Hadoop框架实现;及
所述业务应用层,用于调取数据存储层处理后的网络数据并进行分析,来实现公有组件与个性业务应用组件剥离,并将网络数据分析后的结果传送至用户层进行实时展示。
进一步的,所述基本任务单位包括论坛数据采集单元,其用于分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集。
本发明通过动态网页高效采集技术和网页信息抽取技术的相互结合,实时、全面、精确地获取到指定论坛网站中指定版块中的帖子及其相关元信息。
进一步的,所述基本任务单位包括博客数据采集单元,其用于负责广度遍历博客站点,目的是获取博客Feed地址;对每个Feed地址对应的博客进行实时采集,跟踪更新的博客文章,以增量更新方式采集博客信息。
本发明能够实时采集更新的博客数据,使得数据采集实时且准确。
进一步的,所述基本任务单位包括新闻数据采集单元,其用于采用基于行块分布函数的方法抽取新闻网页中的正文文本,进而获取新闻数据。
本发明能够直观高效准确地获取新闻数据。
进一步的,所述Hadoop框架由分布式文件系统HDFS和MapReduce组成;HDFS是Hadoop的文件系统,用于存储超大文件;MapReduce是Hadoop的并行编程模型,用于对HDFS上存储的数据进行深度分析。
本发明的第二目的是提供一种基于所述的Hadoop的网络数据挖掘与分析平台的工作方法,
本发明的一种基于Hadoop的网络数据挖掘与分析平台的工作方法,包括:
数据采集层采用分布式定向采集体系架构且以不同网络中的终端站点作为网络数据采集的一个基本任务单位来对原始网络数据进行采集,并向数据存储层汇聚传输;
数据存储层完成数据的原始网络数据的汇聚、存储及原始处理,并提供不同类型的功能调用服务;
业务应用层调取数据存储层处理后的网络数据并进行分析,来实现公有组件与个性业务应用组件剥离,并将网络数据分析后的结果传送至用户层进行实时展示。
进一步的,该方法还包括:
在基本任务单位中设置论坛数据采集单元,所述论坛数据采集单元分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集。
进一步的,该方法还包括:
在基本任务单位中设置博客数据采集单元,所述博客数据采集单元负责广度遍历博客站点,目的是获取博客Feed地址;对每个Feed地址对应的博客进行实时采集,跟踪更新的博客文章,以增量更新方式采集博客信息。
进一步的,该方法还包括:
在基本任务单位中设置新闻数据采集单元,所述新闻数据采集单元采用基于行块分布函数的方法抽取新闻网页中的正文文本,进而获取新闻数据。
进一步的,在数据存储层中对原始网络数据的处理过程包括:
首先,根据数据的变化分块数据,将未变化部分数据的模式存入滑窗;其次,分别计算添加和删除部分数据的模式;最后,根据变化部分数据的模式,更新滑窗中所保存的模式。
与现有技术相比,本发明的有益效果是:
(1)当前研究领域通常采用关系数据库或自定义的文件格式存储从不同网络上获取的数据,因此在扩展性、稳定性、易开发性和移植性、通用性等方面容易产生问题。本发明采用分布式Hadoop架构作为网络数据的存储平台,根据各类网络数据的特征及其访问特点布置控制节点和存储节点,以提高存取性能,针对不同的网络类型提出适合于相应网络的个性化Hadoop存储平台。
(2)本发明在数据存储层内,当数据变化时,通过利用原有数据中的模式,仅计算变化部分数据的模式减少模式计算量,提高算法效率,而且采用窗口技术,包括固定窗口和可变窗口两类技术分别对不同类型用户的需求进行响应,以实现较高性能实时性的网络数据监测。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本发明的一种基于Hadoop的网络数据挖掘与分析平台结构示意图。
图2是多通道数据采集的逻辑视图。
图3是垂直爬虫的架构示意图。
图4是论坛信息获取过程图。
图5是论坛的论坛的版块页面数据获取流程图。
图6是博客数据采集单元的系统架构图。
图7是博客数据采集单元的功能图。
图8是基于行块分布函数方法的正文抽取框架。
图9是HDFS的框架图。
图10是MapReduce程序的具体执行过程。
图11是MapReduce的工作原理图。
图12是本发明的一种基于Hadoop的网络数据挖掘与分析平台的工作方法流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
图1是本发明的一种基于Hadoop的网络数据挖掘与分析平台结构示意图。
如图1所示,本发明的一种基于Hadoop的网络数据挖掘与分析平台,包括数据采集层、数据存储层、业务应用层和用户层;
所述数据采集层,采用分布式定向采集体系架构且以不同网络中的终端站点作为网络数据采集的一个基本任务单位来对原始网络数据进行采集,并向数据存储层汇聚传输;其中,每个基本任务单位采用独立的采集规则及策略;及
所述数据存储层,用于完成数据的原始网络数据的汇聚、存储及原始处理,并提供不同类型的功能调用服务;所述数据存储层采用Hadoop框架实现;及
所述业务应用层,用于调取数据存储层处理后的网络数据并进行分析,来实现公有组件与个性业务应用组件剥离,并将网络数据分析后的结果传送至用户层进行实时展示。
在数据采集层内,针对不同类型网络的特征,本发明采用定向采集的方法,以不同网络中的终端站点为信息采集的基本任务单位,每个采集任务都可以采用独立的采集规则和策略(如深度、采集更新频率、信息抽取模板等)。针对网络数据采集在规模和灵活性等方面的要求,采用“主从分布、自主协同”的分布式定向采集体系架构,从逻辑上划分为四个层次:采集层、采集管理层、主控层、展现层。图2给出了多通道数据采集的逻辑视图。
面对海量的网络信息及其多样化的信息形式,既要准确地识别、提取不同来源和形式的信息,又要高效、全面地采集信息,还要能够及时地跟踪信息的更新,并且尽可能减少维护的工作量。因此,本发明采用最新的垂直搜索模板半自动生成技术、动态页面优化访问技术和智能化的抓取进程调度策略,最大限度保证系统网络信息获取过程的高效性、全面性、及时性,为上层分析处理模块提供全面、稳定、安全的信息来源。垂直爬虫的架构如图3所示。
在具体实施过程中,基本任务单位包括论坛数据采集单元,其用于分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集。
本发明通过动态网页高效采集技术和网页信息抽取技术的相互结合,实时、全面、精确地获取到指定论坛网站中指定版块中的帖子及其相关元信息。
论坛信息获取的信息源头是以版块为基本单位的。给定某个版块,对该版块的信息获取主要包括四个阶段(实际运行中可能并行):版块网页获取→版块网页抽取→帖子网页获取→帖子网页抽取。如图4所示。
基于版块入口来采集,可以直接定位所需采集的版块,这与数据的定向获取需求正好是吻合的。通过版块网页获取、版块网页信息提取、帖子网页获取和帖子网页信息提取四个阶段,将网页采集与网页信息提取进行有机结合,有效地解决了传统信息采集技术存在的诸多问题。
论坛的版块页面中有帖子的索引列表,列表中蕴含了丰富的帖子的元信息。列表中的每一行记录了一个帖子的一组元信息,包括帖子的主题、发帖人、发帖时间、点击数、回复数等。这些元信息对于论坛的数据分析是非常重要的。版块页面的组织结构通常比较有规律,基于版块页面可以有效地抽取帖子的元信息。该方法分为两个部分:①从版块页面中抽取出元数据,之所以称为元数据而不是元信息,是因为这些数据的含义(如标题、发帖人等)并不知道;②将元数据集成入库:即识别出元数据的含义(称为对元数据的解析),使元数据成为真正的元信息,保存入库。整个方法的流程如图5所示。
对于元数据的抽取,离线操作包括:用户提供一个版块页面作为样例页面,通过无监督学习方法,为与训练样例同类的版块页面生成一个模板。在线操作包括:根据模板,对新版块页面进行元数据抽取。元数据的抽取基于DOM进行操作。抽取过程充分利用版块页面中帖子记录、记录中的属性与DOM树中的结点之间的对应关系,以及这些结点在组织结构上的特性。上述抽取方法具有抽取效率高、定位准确、维护代价较低等优点。
在具体实施过程中,基本任务单位还包括博客数据采集单元,其用于负责广度遍历博客站点,目的是获取博客Feed地址;对每个Feed地址对应的博客进行实时采集,跟踪更新的博客文章,以增量更新方式采集博客信息。
采用如图6所示的系统架构,系统采用分布式设计,有一个Feed发现器和多个信息采集器。Feed发现模块的目标是旨在尽可能多地发现BSP下面博客的RSS或Atom地址。通过分析发现每个BSP博客的URL地址或者RSS地址,发现它们都是有一定规范的,可以通过这个策略来识别一个页面是否是博客页面,然后通过每个博客页面的链接关系去发现更多博客。
采集器负责对博客进行增量的刷新采集,并抽取新发表的博文信息,生成相应的博文信息记录并入库。功能如图7所示:
本发明能够实时采集更新的博客数据,使得数据采集实时且准确。
在具体实施过程中,基本任务单位包括新闻数据采集单元,其用于采用基于行块分布函数的方法抽取新闻网页中的正文文本,进而获取新闻数据。
新闻正文数据抽取的主要工作是从Web所包含的无结构或半结构化的信息中识别用户感兴趣的信息并将其转化为结构化强、语意清晰的数据。信息抽取系统的输入是原始文本,输出是固定格式的信息。最后,把抽取出的数据经过清洗和整理后存储到关系数据库中,以供进一步的数据精确查询和模式抽取。
为方便有效的抓取新闻网页中的中文,采用基于行块分布函数的方法抽取网页中的正文文本,获取文档的核心内容。基于行块分布函数方法的正文抽取框架如图8所示。
在HTML中,正文和标签总掺杂在一起。不可否认,标签对文字的修饰作用在词权确定和排序结果上有很大作用。但是,也正因为HTML标签和正文互相交织的复杂和不规范,使得通用的正文抽取变得难以实现,最终不得不针对不同网站定义不同规则,时空复杂度也大打折扣。
基于此,本发明提出一种基于行块分布函数的通用方法,可以在线性时间O(N)内抽出正文。提出此方法核心依据有两点:1、正文区的密度,2、行块的长度。
依据1:一个网页的正文区域肯定是文字信息分布最密集的区域之一,这个区域可能最大但不尽然,比如评论信息较长,或者网页正文新闻较短,而又出现大篇紧密导航信息时,也会出现正文的区域不是最大块的可能。
依据2:行块的长度信息可以有效解决上述问题。
依据1和依据2相结合,就能很好的实现正文提取。将依据1和2融合在行块分布函数里。具体如下:
首先将网页HTML去净标签,只留所有正文,同时留下标签去除后的所有空白位置信息,留下的正文称为Ctext。
定义1.行块:
以Ctext中的行号为轴,取其周围K行(上下文均可,K<5,这里取K=3,方向向下,K称为行块厚度),合起来称为一个行块Cblock,行块i是以Ctext中行号i为轴的行块;
定义2.行块长度:
一个Cblock,去掉其中的所有空白符(\n,\r,\t等)后的字符总数称为该行块的长度;
定义3.行块分布函数:
以Ctext每行为轴,共有LinesNum(Ctext)-K个Cblock,做出以[1,LinesNum(Ctext)-K]为横轴,以其各自的行块长度为纵轴的分布函数;
行块分布函数可以在O(N)时间求得,在行块分布函数图上可以直观的看出正文所在区域。由上述行块分布函数图可明显看出,正确的文本区域全都是分布函数图上含有最值且连续的一个区域,这个区域往往含有一个骤升点和一个骤降点。
于是,网页正文抽取问题转化为了求行块分布函数上的骤升骤降两个边界点,这两个边界点所含的区域包含了当前网页的行块长度最大值并且是连续的。
求正文区域所在的气势行块号Xstart和中指行块号Xend(X为行号,Y(X)是以X为轴的行块长度),需要满足以下四个条件:
(1)Y(Xstart)>Y(Xt)(Y(Xt)是第一个骤升点,骤升点必须超过某一阈值);
(2)Y(Xn)≠0(n∈[start+1,start+K],K是行块厚度,紧随骤升点的行块长度不能为0,避免噪声);
(3)Y(Xm)=0(m∈[end,end+1],骤降点击器尾随的行块长度为0,保证征文结束);
(4)存在X,当取到max(Y(X))时,X∈[Xstart,Xend](保证此区域是渠道行块最大值的区域)。
本发明能够直观高效准确地获取新闻数据。
在具体实施过程中,Hadoop框架由分布式文件系统HDFS和MapReduce组成;HDFS是Hadoop的文件系统,用于存储超大文件;MapReduce是Hadoop的并行编程模型,用于对HDFS上存储的数据进行深度分析。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。
HDFS主要由Client、Datanode和Namenode组成,其框架如图9所示。一个使用Hadoop技术架构的集群中,一般有一到两台主机作为Namenode,若干台主机作为Datanode。Client代表使用HDFS的客户程序;Namenode是Hadoop集群中的一台主机,负责保存数据节点的信息、计算任务的分发以及最终规约等任务;Datanode负责数据存储与处理。为保证数据的安全性,HDFS适度增加了冗余数据。具体的做法是在不同的Datanode中保存同一数据的多份拷贝,一般为三份拷贝。
一个客户端创建一个文件的请求并不会立即转发到Namenode。实际上,一开始HDFS客户端将文件数据缓存在本地的临时文件中。应用程序的写操作被透明地重定向到这个临时本地文件。当本地文件堆积到一个HDFS块大小的时候,客户端才会通知Namenode。Namenode将文件名插入到文件系统层次中,然后为它分配一个数据块。Namenode构造包括Datanode ID(可能是多个,副本数据块存放的节点也有)和目标数据块标识的报文,用它回复客户端的请求。客户端收到后将本地的临时文件刷新到指定的Datanode数据块中。
当文件关闭时,本地临时文件中未残留的数据就会被转送到Datanode。然后客户端就可以通知Namenode文件已经关闭。此时,Namenode将文件的创建操作添加到到持久化存储中。假如Namenode在文件关闭之前死掉,文件就丢掉了。
当客户端写数据到HDFS文件中时,如上所述,数据首先被写入本地文件中,假设HDFS文件的复制因子是3,当本地文件堆积到一块大小的数据,客户端从Namenode获得一个Datanode的列表。这个列表也包含存放数据块副本的Datanode。当客户端刷新数据块到第一个Datanode。第一个Datanode开始以4kb为单元接收数据,将每一小块都写到本地库中,同时将每一小块都传送到列表中的第二个Datanode。同理,第二个Datanode将小块数据写入本地库中同时传给第三个Datanode,第三个Datanode直接写到本地库中。一个Datanode在接前一个节点数据的同时,还可以将数据流水式传递给下一个节点,所以,数据是流水式地从一个Datanode传递到下一个。
在数据处理过程中Hadoop采用MapReduce技术。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念“Map(映射)”和“Reduce(归约)”,和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
MapReduce程序的具体执行过程如图10所示:首先对数据源进行分块,然后交给多个Map任务去执行,Map任务执行Map函数,根据某种规则对数据分类,写入本地硬盘;Map阶段完成后,进入Reduce阶段,Reduce任务执行Reduce函数,具有同样Key值的中间结果,从多个Map任务所在的节点,被收集到一起(shuffle)进行合并处理,输出结果写入本地硬盘(分布式文件系统)。程序的最终结果可以通过合并所有Reduce任务的输出得到。
图11给出了MapReduce的工作原理。一切都是从最上方的user program开始的,user program链接了MapReduce库,实现了最基本的Map函数和Reduce函数。
(1)MapReduce库先把user program的输入文件划分为M份(M为用户定义),每一份通常有16MB到64MB,如图11左方所示分成了split0~4;然后使用fork将用户进程拷贝到集群内其它机器上。
(2)user program的副本中有一个称为master,其余称为worker,master是负责调度的,为空闲worker分配作业(Map作业或者Reduce作业),worker的数量也是可以由用户指定的。
(3)被分配了Map作业的worker,开始读取对应分片的输入数据,Map作业数量是由M决定的,和split一一对应;Map作业从输入数据中抽取出键值对,每一个键值对都作为参数传递给map函数,map函数产生的中间键值对被缓存在内存中。
(4)缓存的中间键值对会被定期写入本地磁盘,而且被分为R个区,R的大小是由用户定义的,将来每个区会对应一个Reduce作业;这些中间键值对的位置会被通报给master,master负责将信息转发给Reduce worker。
(5)master通知分配了Reduce作业的worker它负责的分区在什么位置(肯定不止一个地方,每个Map作业产生的中间键值对都可能映射到所有R个不同分区),当Reduceworker把所有它负责的中间键值对都读过来后,先对它们进行排序,使得相同键的键值对聚集在一起。因为不同的键可能会映射到同一个分区也就是同一个Reduce作业(谁让分区少呢),所以排序是必须的。
(6)reduce worker遍历排序后的中间键值对,对于每个唯一的键,都将键与关联的值传递给reduce函数,reduce函数产生的输出会添加到这个分区的输出文件中。
(7)当所有的Map和Reduce作业都完成了,master唤醒正版的user program,MapReduce函数调用返回user program的代码。
所有执行完毕后,MapReduce输出放在了R个分区的输出文件中(分别对应一个Reduce作业)。用户通常并不需要合并这R个文件,而是将其作为输入交给另一个MapReduce程序处理。整个过程中,输入数据是来自底层分布式文件系统(GFS)的,中间数据是放在本地文件系统的,最终输出数据是写入底层分布式文件系统(GFS)的。而且我们要注意Map/Reduce作业和map/reduce函数的区别:Map作业处理一个输入数据的分片,可能需要调用多次map函数来处理每个输入键值对;Reduce作业处理一个分区的中间键值对,期间要对每个不同的键调用一次reduce函数,Reduce作业最终也对应一个输出文件。
图12是本发明的一种基于所述的Hadoop的网络数据挖掘与分析平台的工作方法流程图。
如图12所示,本发明的一种基于Hadoop的网络数据挖掘与分析平台的工作方法,包括:
(1)数据采集层采用分布式定向采集体系架构且以不同网络中的终端站点作为网络数据采集的一个基本任务单位来对原始网络数据进行采集,并向数据存储层汇聚传输;
(2)数据存储层完成数据的原始网络数据的汇聚、存储及原始处理,并提供不同类型的功能调用服务;
(3)业务应用层调取数据存储层处理后的网络数据并进行分析,来实现公有组件与个性业务应用组件剥离,并将网络数据分析后的结果传送至用户层进行实时展示。
进一步的,该方法还包括:
在基本任务单位中设置论坛数据采集单元,所述论坛数据采集单元分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集。
进一步的,该方法还包括:
在基本任务单位中设置博客数据采集单元,所述博客数据采集单元负责广度遍历博客站点,目的是获取博客Feed地址;对每个Feed地址对应的博客进行实时采集,跟踪更新的博客文章,以增量更新方式采集博客信息。
进一步的,该方法还包括:
在基本任务单位中设置新闻数据采集单元,所述新闻数据采集单元采用基于行块分布函数的方法抽取新闻网页中的正文文本,进而获取新闻数据。
从网络前端所采集到的数据将放置到分布式阵列中暂存,之后阵列中的数据将被批量写入到Hadoop数据存储和处理平台中进行持久化存储,然而Hadoop的设计并不适合于用户的交互式查询,因此在实时性方面Hadoop很难达到较高的用户满意度。因此,为满足网络数据的实时性检测需求,流数据存储还为用户提供了一种与Hadoop中静态数据不同的动态数据形式——流数据。对这些流数据的及时有效处理,对监控的实时性意义重大。因此,针对流数据挖掘与分析算法中的难点,本功能模块采用窗口技术来分块所要处理的数据,主要包括滑动窗口和多窗口两项关键技术。
在滑动窗口上进行数据挖掘最大的困难在于过期数据的移除。随着数据的流入,滑动窗口中最早到达的数据将滑出窗口的范围,算法需要消除这些数据对滑动窗口上的目标计算所造成的影响。解决这个问题的最直接的做法是保存滑动窗口内的所有数据,当某个数据滑出窗口时,根据这个数据的值,将其从计算结果中消除。
为减少滑动窗口内数据所占用的空间,使用小于滑动窗口内数据体积的空间,支持滑动窗口上计算的增量式更新。将数据流划分为小的固定长度的段,对每个段,仅保存段内数据的概要信息。滑动窗口在这些段上滑动。当流入的数据积累成一段时,抽取这一段的概要信息,将其加入滑动窗口,并从滑动窗口中删除最早的段。这样,内存中就只需要保存滑动窗口中多个段的概要信息。此时,滑动窗口的增量式更新粒度由一个数据项增大为一个数据段。
基于滑动窗口的方法一般都要求用户事先指定窗口大小,算法在运行过程中只能给出此滑动窗口上的计算结果。然而当面对用户针对性地提出某个窗口上的挖掘请求时,窗口的大小很难事先确定,而且窗口的终点可能也不是当前时刻。因此,滑动窗口就不能够完全满足用户要求了,为了支持这样的应用需求,本发明使用多窗口方法,支持用户的在线挖掘请求。
多窗口技术将数据流划分为多个固定长度的段,每个段都形成一个窗口。当内存中的窗口数达到一定数目时,就将这多个窗口合并,形成概要层次更高的窗口随着数据流的流入,概要层次不同的多个窗口形成一个层次结构。此时,每个窗口相当于对数据流上两个预定义的时间戳之间数据的一个快照。
与时序相关的流数据,在保持一定稳定性的同时,又具有一定的变化性,部分原有数据将被新的数据所替换,也即删除数据若干元素的同时还需添加新的数据。当前的流数据挖掘算法可以很好地处理单一添加或删除操作的模式挖掘,然而均很难应付添加与删除的同时操作。本发明采用滑窗模型来描述流数据的变化。
如图12所示,第一行为某i时刻两个连续的数据Dn和Dp。在流数据中,关注的是数据所包含模式的变化,因此假设Dn和Dp的模式不同。第三行位i+1时刻Dn和Dp变为两个新的数据newDn和newDp。第二行给出了数据变化情况的说明,其中Δn和▽n分别是Dn在变为Dn时所增加和删除的部分数据。而Δp和▽p分别Dp在变为newDp时所增加和删除的部分数据。因为Dn和Dp为两个连续的数据,因此在变化时Dn所添加的部分数据与所Dp删除的部分数据相同,也即Δn=▽p。
使用已有的对比模式算法需要分别对Dn和Dp以及newDn和newDp的模式进行识别。然而Dn在演变为newDn,以及Dp在演变为newDp时仍有部分数据是保持稳定的,而已有算法在挖掘新数据模式时无法重用已有数据中的模式,造成在流数据挖掘模式的效率低下。
本发明使用滑窗模型保存原有数据中的模式,仅对Δp、▽p和▽n中的模式进行识别,并对Δp和▽p以及Δn和▽n的不同进行对比,找出模式的变动再对滑窗中所保存的模式进行更新,以减少数据的处理量提高挖掘效率。主要包括以下关键步骤:首先,根据数据的变化分块数据,将未变化部分数据的模式存入滑窗;其次,分别计算添加和删除部分数据的模式;最后,根据变化部分数据的模式,更新滑窗中所保存的模式。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于Hadoop的网络数据挖掘与分析平台,其特征在于,包括数据采集层、数据存储层、业务应用层和用户层;
所述数据采集层,采用分布式定向采集体系架构且以不同网络中的终端站点作为网络数据采集的一个基本任务单位来对原始网络数据进行采集,并向数据存储层汇聚传输;其中,每个基本任务单位采用独立的采集规则及策略;及
所述数据存储层,用于完成数据的原始网络数据的汇聚、存储及原始处理,并提供不同类型的功能调用服务;所述数据存储层采用Hadoop框架实现;及
所述业务应用层,用于调取数据存储层处理后的网络数据并进行分析,来实现公有组件与个性业务应用组件剥离,并将网络数据分析后的结果传送至用户层进行实时展示。
2.如权利要求1所述的基于Hadoop的网络数据挖掘与分析平台,其特征在于,所述基本任务单位包括论坛数据采集单元,其用于分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集。
3.如权利要求1所述的基于Hadoop的网络数据挖掘与分析平台,其特征在于,所述基本任务单位包括博客数据采集单元,其用于负责广度遍历博客站点,目的是获取博客Feed地址;对每个Feed地址对应的博客进行实时采集,跟踪更新的博客文章,以增量更新方式采集博客信息。
4.如权利要求1所述的基于Hadoop的网络数据挖掘与分析平台,其特征在于,所述基本任务单位包括新闻数据采集单元,其用于采用基于行块分布函数的方法抽取新闻网页中的正文文本,进而获取新闻数据。
5.如权利要求1所述的基于Hadoop的网络数据挖掘与分析平台,其特征在于,所述Hadoop框架由分布式文件系统HDFS和MapReduce组成;HDFS是Hadoop的文件系统,用于存储超大文件;MapReduce是Hadoop的并行编程模型,用于对HDFS上存储的数据进行深度分析。
6.一种基于如权利要求1-5中任一项所述的Hadoop的网络数据挖掘与分析平台的工作方法,其特征在于,包括:
数据采集层采用分布式定向采集体系架构且以不同网络中的终端站点作为网络数据采集的一个基本任务单位来对原始网络数据进行采集,并向数据存储层汇聚传输;
数据存储层完成数据的原始网络数据的汇聚、存储及原始处理,并提供不同类型的功能调用服务;
业务应用层调取数据存储层处理后的网络数据并进行分析,来实现公有组件与个性业务应用组件剥离,并将网络数据分析后的结果传送至用户层进行实时展示。
7.如权利要求6所述的Hadoop的网络数据挖掘与分析平台的工作方法,其特征在于,该方法还包括:
在基本任务单位中设置论坛数据采集单元,所述论坛数据采集单元分别通过动态网页采集方法和网页信息抽取方法对在线论坛及离线论坛内的网络数据进行采集。
8.如权利要求6所述的Hadoop的网络数据挖掘与分析平台的工作方法,其特征在于,该方法还包括:
在基本任务单位中设置博客数据采集单元,所述博客数据采集单元负责广度遍历博客站点,目的是获取博客Feed地址;对每个Feed地址对应的博客进行实时采集,跟踪更新的博客文章,以增量更新方式采集博客信息。
9.如权利要求6所述的Hadoop的网络数据挖掘与分析平台的工作方法,其特征在于,该方法还包括:
在基本任务单位中设置新闻数据采集单元,所述新闻数据采集单元采用基于行块分布函数的方法抽取新闻网页中的正文文本,进而获取新闻数据。
10.如权利要求6所述的Hadoop的网络数据挖掘与分析平台的工作方法,其特征在于,在数据存储层中对原始网络数据的处理过程包括:
首先,根据数据的变化分块数据,将未变化部分数据的模式存入滑窗;其次,分别计算添加和删除部分数据的模式;最后,根据变化部分数据的模式,更新滑窗中所保存的模式。
CN201710141476.0A 2017-03-10 2017-03-10 一种基于Hadoop的网络数据挖掘与分析平台及其方法 Active CN106934014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710141476.0A CN106934014B (zh) 2017-03-10 2017-03-10 一种基于Hadoop的网络数据挖掘与分析平台及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710141476.0A CN106934014B (zh) 2017-03-10 2017-03-10 一种基于Hadoop的网络数据挖掘与分析平台及其方法

Publications (2)

Publication Number Publication Date
CN106934014A true CN106934014A (zh) 2017-07-07
CN106934014B CN106934014B (zh) 2021-03-19

Family

ID=59431942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710141476.0A Active CN106934014B (zh) 2017-03-10 2017-03-10 一种基于Hadoop的网络数据挖掘与分析平台及其方法

Country Status (1)

Country Link
CN (1) CN106934014B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107528728A (zh) * 2017-08-23 2017-12-29 绵阳美菱软件技术有限公司 一种获取用户体验数据的方法及装置
CN107704575A (zh) * 2017-09-30 2018-02-16 郑州轻工业学院 基于数据挖掘的用户行为分析方法及用户行为分析装置
CN107992533A (zh) * 2017-11-23 2018-05-04 安徽科创智慧知识产权服务有限公司 一种网络数据采集方法
CN108037917A (zh) * 2018-01-29 2018-05-15 上海腾道信息技术有限公司 国际贸易数据管理系统
CN108319538A (zh) * 2018-02-02 2018-07-24 世纪龙信息网络有限责任公司 大数据平台运行状态的监控方法和系统
CN108573048A (zh) * 2018-04-19 2018-09-25 中译语通科技股份有限公司 一种多维数据接入方法及系统、大数据接入系统
CN109460449A (zh) * 2018-09-06 2019-03-12 广州知弘科技有限公司 并行化数据分析方法
CN109710767A (zh) * 2019-01-02 2019-05-03 山东省科学院情报研究所 多语种大数据服务平台
CN109784721A (zh) * 2019-01-15 2019-05-21 东莞市友才网络科技有限公司 一种就业数据分析与数据挖掘分析的平台系统
CN109947542A (zh) * 2019-01-25 2019-06-28 上海倍通医药科技咨询有限公司 数据采集程序的综合进程调度方法
CN110135795A (zh) * 2019-04-10 2019-08-16 杭州博世数据网络有限公司 一种基于云教学平台的数据库系统
CN110134688A (zh) * 2019-05-14 2019-08-16 北京科技大学 一种在线社交网络中热点事件数据存储管理方法及系统
CN110716898A (zh) * 2019-10-15 2020-01-21 中国地质调查局发展研究中心 一种野外地质调查数据实时汇聚方法及系统
CN110932942A (zh) * 2019-12-17 2020-03-27 国网智能科技股份有限公司 智能变电站网络报文记录与分析方法及系统
CN111680108A (zh) * 2019-03-11 2020-09-18 杭州海康威视数字技术股份有限公司 一种数据存储方法、装置及一种数据获取方法、装置
WO2021056854A1 (zh) * 2019-09-27 2021-04-01 同济大学 互联网新型虚拟数据中心系统及其构造方法
CN113297276A (zh) * 2021-06-17 2021-08-24 长春市吉佳通达信息技术有限责任公司 一种基于生产线结构的数据处理方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872319A (zh) * 2004-11-05 2010-10-27 数据机器人技术公司 存储系统条件指示器及其使用方法
CN103309867A (zh) * 2012-03-09 2013-09-18 句容智恒安全设备有限公司 基于Hadoop平台的Web数据挖掘系统
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
US20140181109A1 (en) * 2012-12-22 2014-06-26 Industrial Technology Research Institute System and method for analysing text stream message thereof
CN104281697A (zh) * 2014-10-15 2015-01-14 安徽华贞信息科技有限公司 一种基于语义的大数据分析系统
CN104951509A (zh) * 2015-05-25 2015-09-30 中国科学院信息工程研究所 一种大数据在线交互式查询方法及系统
CN105069703A (zh) * 2015-08-10 2015-11-18 国家电网公司 一种电网海量数据管理方法
CN105447081A (zh) * 2015-11-04 2016-03-30 国云科技股份有限公司 面向云平台的一种政务舆情监控方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872319A (zh) * 2004-11-05 2010-10-27 数据机器人技术公司 存储系统条件指示器及其使用方法
CN103309867A (zh) * 2012-03-09 2013-09-18 句容智恒安全设备有限公司 基于Hadoop平台的Web数据挖掘系统
US20140181109A1 (en) * 2012-12-22 2014-06-26 Industrial Technology Research Institute System and method for analysing text stream message thereof
CN103390051A (zh) * 2013-07-25 2013-11-13 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN104281697A (zh) * 2014-10-15 2015-01-14 安徽华贞信息科技有限公司 一种基于语义的大数据分析系统
CN104951509A (zh) * 2015-05-25 2015-09-30 中国科学院信息工程研究所 一种大数据在线交互式查询方法及系统
CN105069703A (zh) * 2015-08-10 2015-11-18 国家电网公司 一种电网海量数据管理方法
CN105447081A (zh) * 2015-11-04 2016-03-30 国云科技股份有限公司 面向云平台的一种政务舆情监控方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FENG-GANG LI等: ""The Utility Frequent Pattern Mining Based on Slide Window in Data Stream"", 《ICICTA 12:PROCEEDING OF THE 2012 FIFTH INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTATION TECHNOLOGY AND AUTOMATION》 *
李国徽等: ""挖掘滑动窗口中的数据流频繁模式"", 《小型微型计算机系统》 *
李晨等: "基于MapReduce的网络爬虫设计与实现", 《山东科学》 *
贺涛: "面向中文博客的信息采集与倾向性检索", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107528728A (zh) * 2017-08-23 2017-12-29 绵阳美菱软件技术有限公司 一种获取用户体验数据的方法及装置
CN107704575A (zh) * 2017-09-30 2018-02-16 郑州轻工业学院 基于数据挖掘的用户行为分析方法及用户行为分析装置
CN107992533A (zh) * 2017-11-23 2018-05-04 安徽科创智慧知识产权服务有限公司 一种网络数据采集方法
CN108037917A (zh) * 2018-01-29 2018-05-15 上海腾道信息技术有限公司 国际贸易数据管理系统
CN108319538B (zh) * 2018-02-02 2019-11-08 世纪龙信息网络有限责任公司 大数据平台运行状态的监控方法和系统
CN108319538A (zh) * 2018-02-02 2018-07-24 世纪龙信息网络有限责任公司 大数据平台运行状态的监控方法和系统
CN108573048A (zh) * 2018-04-19 2018-09-25 中译语通科技股份有限公司 一种多维数据接入方法及系统、大数据接入系统
CN109460449B (zh) * 2018-09-06 2020-05-12 城云科技(中国)有限公司 并行化数据分析方法
CN109460449A (zh) * 2018-09-06 2019-03-12 广州知弘科技有限公司 并行化数据分析方法
CN109710767A (zh) * 2019-01-02 2019-05-03 山东省科学院情报研究所 多语种大数据服务平台
CN109710767B (zh) * 2019-01-02 2022-08-30 山东省科学院情报研究所 多语种大数据服务平台
CN109784721A (zh) * 2019-01-15 2019-05-21 东莞市友才网络科技有限公司 一种就业数据分析与数据挖掘分析的平台系统
CN109947542A (zh) * 2019-01-25 2019-06-28 上海倍通医药科技咨询有限公司 数据采集程序的综合进程调度方法
CN111680108B (zh) * 2019-03-11 2023-11-03 杭州海康威视数字技术股份有限公司 一种数据存储方法、装置及一种数据获取方法、装置
CN111680108A (zh) * 2019-03-11 2020-09-18 杭州海康威视数字技术股份有限公司 一种数据存储方法、装置及一种数据获取方法、装置
CN110135795A (zh) * 2019-04-10 2019-08-16 杭州博世数据网络有限公司 一种基于云教学平台的数据库系统
CN110134688B (zh) * 2019-05-14 2021-06-01 北京科技大学 一种在线社交网络中热点事件数据存储管理方法及系统
CN110134688A (zh) * 2019-05-14 2019-08-16 北京科技大学 一种在线社交网络中热点事件数据存储管理方法及系统
WO2021056854A1 (zh) * 2019-09-27 2021-04-01 同济大学 互联网新型虚拟数据中心系统及其构造方法
CN110716898A (zh) * 2019-10-15 2020-01-21 中国地质调查局发展研究中心 一种野外地质调查数据实时汇聚方法及系统
CN110932942B (zh) * 2019-12-17 2021-08-10 山东鲁软数字科技有限公司智慧能源分公司 智能变电站网络报文记录与分析方法及系统
CN110932942A (zh) * 2019-12-17 2020-03-27 国网智能科技股份有限公司 智能变电站网络报文记录与分析方法及系统
CN113297276A (zh) * 2021-06-17 2021-08-24 长春市吉佳通达信息技术有限责任公司 一种基于生产线结构的数据处理方法和系统

Also Published As

Publication number Publication date
CN106934014B (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN106934014A (zh) 一种基于Hadoop的网络数据挖掘与分析平台及其方法
CN107122443B (zh) 一种基于Spark SQL的分布式全文检索系统及方法
Silva et al. Big data analytics
CN105989150B (zh) 一种基于大数据环境的数据查询方法及装置
CN103678665A (zh) 一种基于数据仓库的异构大数据整合方法和系统
CN103631909B (zh) 对大规模结构化和非结构化数据联合处理的系统及方法
CN109144966A (zh) 一种海量时空数据的高效组织与管理方法
CN102915365A (zh) 基于Hadoop的分布式搜索引擎构建方法
CN108073710B (zh) 基于动态网络图挖掘的Github开源代码库推荐系统
CN102122291A (zh) 一种基于树形日志模式分析的博客好友推荐方法
CN106844782A (zh) 一种面向网络的多通道大数据采集系统及方法
Wang et al. A novel blockchain oracle implementation scheme based on application specific knowledge engines
CN102043819A (zh) Html表格语义脉络分析方法
Zhang Application of data mining technology in digital library.
Sambrekar et al. A proposed technique for conversion of unstructured Agro-data to semi-structured or structured data
CN108959356A (zh) 一种智能配用电大数据应用系统数据集市建立方法
Tiwari et al. Pattern warehouse: context based modeling and quality issues
Ma et al. Introducing extreme data storage middleware of schema-free document stores using mapreduce
Ravichandran Big Data processing with Hadoop: a review
CN109522336A (zh) 一种基于电子政务内网信息资源的决策分析系统及方法
Ptiček et al. Big data and new data warehousing approaches
CN111984756A (zh) 一种实现Hbase二级索引的方法
Wang et al. Analysis of the model of integration of multicultural media in the network’s space of public opinion
Idarrou et al. Sampling Technique for Complex Data
Khan et al. Big data analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221226

Address after: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085

Patentee after: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd.

Address before: 250014 No. 19, ASTRI Road, Lixia District, Shandong, Ji'nan

Patentee before: INFORMATION Research Institute OF SHANDONG ACADEMY OF SCIENCES

Effective date of registration: 20221226

Address after: Room 606-609, Compound Office Complex Building, No. 757, Dongfeng East Road, Yuexiu District, Guangzhou, Guangdong Province, 510699

Patentee after: China Southern Power Grid Internet Service Co.,Ltd.

Address before: Room 02A-084, Building C (Second Floor), No. 28, Xinxi Road, Haidian District, Beijing 100085

Patentee before: Jingchuang United (Beijing) Intellectual Property Service Co.,Ltd.