CN105426407A - 一种基于内容分析的web数据采集方法 - Google Patents

一种基于内容分析的web数据采集方法 Download PDF

Info

Publication number
CN105426407A
CN105426407A CN201510730014.3A CN201510730014A CN105426407A CN 105426407 A CN105426407 A CN 105426407A CN 201510730014 A CN201510730014 A CN 201510730014A CN 105426407 A CN105426407 A CN 105426407A
Authority
CN
China
Prior art keywords
url
data acquisition
web page
storehouse
acquisition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510730014.3A
Other languages
English (en)
Inventor
武斌
张志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201510730014.3A priority Critical patent/CN105426407A/zh
Publication of CN105426407A publication Critical patent/CN105426407A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种基于内容分析的web数据采集方法,属于数据管理领域;本发明获取待爬取URL集,将URL集合分片,分别送到集群各个节点上执行Map操作;从临时文件获取键值对,执行Reduce操作,从原始网页库中取出原始网页,进行解析,提取出新的URL然后存储进链出URL库;将从HDFS获取原始网页作为参数输入,将输入原始网页分片,将各个分片分配到各节点执行Map操作;获取解析出的URL与已采集URL库做比较,过滤掉已经爬取过的网页,将符合条件的集合输出到HDFS;最后判断是否符合结束条件,循环执行;本发明更好地利用分布式特点进行网络数据采集。

Description

一种基于内容分析的web数据采集方法
技术领域
本发明公开一种基于内容分析的web数据采集方法,属于数据管理领域。
背景技术
互联网的规模不断扩大,在互联网这个大平台上的信息量正指数级的增长。所以在互联网上形成了一个包含海量数据的信息库。一直以来,人们都在致力于如何在互联网浩瀚的信息中迅速的找到网络用户所需要的信息。使得网络数据采集面临着巨大的挑战。传统单机的网络数据采集方式已经无法满足网络用户的需求,分布式网络采集系统应运而生。但是对于分布式系统而言,存在集群内节点之间底层通信和任务同步等技术问题,不能更好地利用分布式特点进行网络数据采集,本发明提供一种基于内容分析的web数据采集方法,伴随着内容分析理论的日趋完善,基于内容分析利用分布式系统,为内容分析提供基础设施,用户不必了解分布式系统应用水平的细节,就能充分利用集群的功能,高速运算和存储,进行网络数据采集和应用。同时,利用互网络数据采集可以爬取网络上所有资源的程序。从网站首页开始,爬取网页的内容,之后解析网页上的超链接,通过这些链接地址寻找下一个网页,进行循环,直到把网站所有的网页都抓取完成。
MapReduce是一种编程模型,用于大规模数据集的并行运算。包括Map和Reduce,及它们的主要思想,方便编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。软件实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。
发明内容
本发明针对现有技术中分布式系统存在集群内节点之间底层通信和任务同步等技术问题,不能更好地利用分布式特点进行网络数据采集的问题,提供一种基于内容分析的web数据采集方法,基于内容分析利用分布式系统,为内容分析提供基础设施,同时,利用互网络数据采集可以爬取网络上所有资源的程序,更好地利用分布式特点进行网络数据采集。
本发明提出的具体方案是:
一种基于内容分析的web数据采集方法,具体步骤为
①从HDFS待采集的网页URL库中获取待爬取URL集,对输入进来的URL级执行Split过程,将URL集合分片,分别送到集群各个节点上执行Map操作,将采集来的原始网页进行网页存储;
②从临时文件获取键值对,执行Reduce操作,从原始网页库中取出原始网页,进行解析,提取出新的URL然后存储进链出URL库;
③将从HDFS获取原始网页作为参数输入,执行Split过程将输入原始网页分片,将各个分片分配到各节点执行Map操作;已采集的URL从链出URL库获得新URL;
④获取解析出的URL,通过与已采集URL库做比较,过滤掉已经爬取过的网页,将符合条件的集合输出到HDFS;
⑤判断是否符合结束条件,如果符合,结束程序,如果不符合,将过滤后符合条件的URL存入待采集URL库,网页抓取模块继续抓取,循环执行。
所述步骤①中将URL集合分片,分别送到集群各个节点上,利用MapReduce进行Map操作。
所述步骤②中利用MapReduce执行Reduce操作。
所述步骤③中将原始网页的各个分片分配到各节点利用MapReduce执行Map操作。
所述步骤④中利用MapReduce执行Reduce操作,获取解析出的URL。
本发明的有益之处是:
本发明提供一种基于内容分析的web数据采集方法,首先获取待爬取URL集,将URL集合分片,分别送到集群各个节点上执行Map操作,将采集来的原始网页进行网页存储;从临时文件获取键值对,执行Reduce操作,从原始网页库中取出原始网页,进行解析,提取出新的URL然后存储进链出URL库;将从HDFS获取原始网页作为参数输入,将输入原始网页分片,将各个分片分配到各节点执行Map操作;已采集的URL从链出URL库获得新URL;获取解析出的URL,通过与已采集URL库做比较,过滤掉已经爬取过的网页,将符合条件的集合输出到HDFS;最后判断是否符合结束条件,循环执行;本发明基于内容分析利用分布式系统,为内容分析提供基础设施,同时,利用互网络数据采集可以爬取网络上所有资源的程序,更好地利用分布式特点进行网络数据采集。
附图说明
图1本发明方法流程示意图。
具体实施方式
一种基于内容分析的web数据采集方法,具体步骤为
①从HDFS待采集的网页URL库中获取待爬取URL集,对输入进来的URL级执行Split过程,将URL集合分片,分别送到集群各个节点上执行Map操作,将采集来的原始网页进行网页存储;
②从临时文件获取键值对,执行Reduce操作,从原始网页库中取出原始网页,进行解析,提取出新的URL然后存储进链出URL库;
③将从HDFS获取原始网页作为参数输入,执行Split过程将输入原始网页分片,将各个分片分配到各节点执行Map操作;已采集的URL从链出URL库获得新URL;
④获取解析出的URL,通过与已采集URL库做比较,过滤掉已经爬取过的网页,将符合条件的集合输出到HDFS;
⑤判断是否符合结束条件,如果符合,结束程序,如果不符合,将过滤后符合条件的URL存入待采集URL库,网页抓取模块继续抓取,循环执行。
根据上述方法,结合附图对本发明做进一步说明。
一种基于内容分析的web数据采集方法,具体步骤为
①从HDFS待采集的网页URL库中获取待爬取URL集,对输入进来的URL级执行Split过程,将URL集合分片,将URL集合分片成一条条URL,分别送到集群各个节点上利用MapReduce进行Map操作,将采集来的原始网页进行网页存储;另一方面将采集来的原始网页传递给网页存储模块;
②从临时文件获取<key,value>键值对,利用MapReduce执行Reduce操作,从原始网页库中取出原始网页,进行解析,提取出新的URL然后存储进链出URL库;
③将从HDFS获取原始网页作为参数输入,执行Split过程将输入原始网页分片,将各个分片分配到各节点利用MapReduce执行Map操作;已采集的URL从链出URL库获得新URL;
④利用MapReduce执行Reduce操作,获取解析出的URL,主要针对为防止网络之间的环路而造成的循环爬取的问题,通过与已采集URL库做比较,过滤掉已经爬取过的网页,将符合条件的集合输出到HDFS;
⑤判断是否符合结束条件,如果符合,结束程序,如果不符合,将过滤后符合条件的URL存入待采集URL库,网页抓取模块继续抓取,循环执行。

Claims (5)

1.一种基于内容分析的web数据采集方法,其特征在于具体步骤为
①从HDFS待采集的网页URL库中获取待爬取URL集,对输入进来的URL级执行Split过程,将URL集合分片,分别送到集群各个节点上执行Map操作,将采集来的原始网页进行网页存储;
②从临时文件获取键值对,执行Reduce操作,从原始网页库中取出原始网页,进行解析,提取出新的URL然后存储进链出URL库;
③将从HDFS获取原始网页作为参数输入,执行Split过程将输入原始网页分片,将各个分片分配到各节点执行Map操作;已采集的URL从链出URL库获得新URL;
④获取解析出的URL,通过与已采集URL库做比较,过滤掉已经爬取过的网页,将符合条件的集合输出到HDFS;
⑤判断是否符合结束条件,如果符合,结束程序,如果不符合,将过滤后符合条件的URL存入待采集URL库,网页抓取模块继续抓取,循环执行。
2.根据权利要求1所述的一种基于内容分析的web数据采集方法,其特征在于所述步骤①中将URL集合分片,分别送到集群各个节点上,利用MapReduce进行Map操作。
3.根据权利要求2所述的一种基于内容分析的web数据采集方法,其特征在于所述步骤②中利用MapReduce执行Reduce操作。
4.根据权利要求1或3所述的一种基于内容分析的web数据采集方法,其特征在于所述步骤③中将原始网页的各个分片分配到各节点利用MapReduce执行Map操作。
5.根据权利要求4所述的一种基于内容分析的web数据采集方法,其特征在于所述步骤④中利用MapReduce执行Reduce操作,获取解析出的URL。
CN201510730014.3A 2015-11-02 2015-11-02 一种基于内容分析的web数据采集方法 Pending CN105426407A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510730014.3A CN105426407A (zh) 2015-11-02 2015-11-02 一种基于内容分析的web数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510730014.3A CN105426407A (zh) 2015-11-02 2015-11-02 一种基于内容分析的web数据采集方法

Publications (1)

Publication Number Publication Date
CN105426407A true CN105426407A (zh) 2016-03-23

Family

ID=55504619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510730014.3A Pending CN105426407A (zh) 2015-11-02 2015-11-02 一种基于内容分析的web数据采集方法

Country Status (1)

Country Link
CN (1) CN105426407A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423382A (zh) * 2017-07-13 2017-12-01 中国物品编码中心 网络爬取方法和装置
CN108363778A (zh) * 2018-02-09 2018-08-03 上海交通大学 一种基于信息中心网络的大数据收集分析系统及方法
CN109241219A (zh) * 2018-08-17 2019-01-18 广州城市信息研究所有限公司 一种地图动态切片及序列化缓存方法、装置及存储介质
CN111324606A (zh) * 2020-01-23 2020-06-23 北京恒华伟业科技股份有限公司 数据分片的方法及装置
CN112966167A (zh) * 2021-02-20 2021-06-15 中国工商银行股份有限公司 数据爬取方法、装置、计算机系统和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089231B2 (en) * 2002-12-31 2006-08-08 International Business Machines Corporation System and method for searching a plurality of databases distributed across a multi server domain
CN101404666A (zh) * 2008-10-06 2009-04-08 赵洪宇 一种基于Web页无限层采集方法
CN102314463A (zh) * 2010-07-07 2012-01-11 北京瑞信在线系统技术有限公司 分布式爬虫系统及其提取网页数据的方法
CN102880607A (zh) * 2011-07-15 2013-01-16 舆情(香港)有限公司 网络动态内容抓取方法及网络动态内容爬虫系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089231B2 (en) * 2002-12-31 2006-08-08 International Business Machines Corporation System and method for searching a plurality of databases distributed across a multi server domain
CN101404666A (zh) * 2008-10-06 2009-04-08 赵洪宇 一种基于Web页无限层采集方法
CN102314463A (zh) * 2010-07-07 2012-01-11 北京瑞信在线系统技术有限公司 分布式爬虫系统及其提取网页数据的方法
CN102880607A (zh) * 2011-07-15 2013-01-16 舆情(香港)有限公司 网络动态内容抓取方法及网络动态内容爬虫系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑博文: "基于Hadoop的分布式网络爬虫技术", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423382A (zh) * 2017-07-13 2017-12-01 中国物品编码中心 网络爬取方法和装置
CN108363778A (zh) * 2018-02-09 2018-08-03 上海交通大学 一种基于信息中心网络的大数据收集分析系统及方法
CN108363778B (zh) * 2018-02-09 2020-11-24 上海交通大学 一种基于信息中心网络的大数据收集分析系统及方法
CN109241219A (zh) * 2018-08-17 2019-01-18 广州城市信息研究所有限公司 一种地图动态切片及序列化缓存方法、装置及存储介质
CN111324606A (zh) * 2020-01-23 2020-06-23 北京恒华伟业科技股份有限公司 数据分片的方法及装置
CN112966167A (zh) * 2021-02-20 2021-06-15 中国工商银行股份有限公司 数据爬取方法、装置、计算机系统和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN101370024B (zh) 信息的分布式采集方法及系统
CN105426407A (zh) 一种基于内容分析的web数据采集方法
CN104516982A (zh) 一种基于Nutch的Web信息提取方法和系统
CN104111996A (zh) 基于hadoop平台的医保门诊大数据抽取系统及方法
CN104735138A (zh) 一种面向用户生成内容的分布式采集方法与系统
CN104077402B (zh) 数据处理方法和数据处理系统
CN105677842A (zh) 基于Hadoop大数据处理技术的日志分析系统
CN106982150B (zh) 一种基于Hadoop的移动互联网用户行为分析方法
CN103970788A (zh) 一种基于网页爬取的爬虫技术
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN105512201A (zh) 数据收集和加工方法及装置
CN102567407B (zh) 一种论坛回帖增量采集方法及系统
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN103927314B (zh) 一种数据批量处理的方法和装置
CN102780726A (zh) 一种基于web平台的日志分析方法及系统
CN103150163A (zh) 一种基于MapReduce模型的并行关联方法
CN104598536B (zh) 一种分布式网络信息结构化处理方法
CN103902667A (zh) 一种基于元搜索的网络信息采集器简单实现方法
US20120166412A1 (en) Super-clustering for efficient information extraction
CN104765823A (zh) 一种网站数据采集的方法及装置
CN107704620B (zh) 一种档案管理的方法、装置、设备和存储介质
CN107154968A (zh) 一种数据处理方法及设备
CN103605607A (zh) 一种软件复杂度分析系统及方法
CN104967698A (zh) 一种爬取网络数据的方法和装置
CN108121743A (zh) 一种通用网页模版的生成和使用方法、系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160323

RJ01 Rejection of invention patent application after publication