CN107992533A

CN107992533A - 一种网络数据采集方法

Info

Publication number: CN107992533A
Application number: CN201711180909.XA
Authority: CN
Inventors: 石文威
Original assignee: Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Current assignee: Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-05-04

Abstract

本发明公开了一种网络数据采集方法，包括：步骤1，通过网络爬虫从Internet上抓取网页内容，并抽取出需要的属性内容；步骤2，通过URL队列为爬虫提供需要抓取数据网络的URL；步骤3，通过数据处理模块对爬虫抓取的内容进行处理；步骤4，通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。本发明通过网络爬虫或网站公开API方式从网站上获取数据信息，本发明可以将非结构化数据从网页中抽取出来，将其存储为统一的本地数据文件，并以结构化的方式存储，并且支持图片、音频、视频等文件或附件的采集，附件与正文可以自动关联，提高了网络信息的采集和抓取速度，同时提高了抓取后信息的存储速度。

Description

一种网络数据采集方法

技术领域

本发明涉及大数据领域，具体涉及一种网络数据采集方法。

背景技术

数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB＝1024MB)的数据，“海量”一般表示的是TB(1TB＝1024GB)级的数据，而现在的“大数据”则是PB(1PB＝1024TB)、EB(1EB＝1024PB)、甚至ZB(1ZB＝1024EB) 级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB，如果将这些数据刻录到CD-R只读光盘上，并堆起来，其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。

大数据(big data)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界，各个企业对大数据都有着自己不同的解读.但大家都普遍认为，大数据有着4“V”特征，即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)：

(1)量大(Volume Big)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB)，可称海量、巨量乃至超量。

(2)多样化(Variable Type)。数据类型繁多，愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。

(3)快速化(Velocity Fast)。数据流往往为高速实时数据流，而且往往需要快速、持续的实时处理；处理工具亦在快速演进，软件工程及人工智能等均可能介入。

(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例，连续不断的监控流中，有重大价值者可能仅为一两秒的数据流；360°全方位视频监控的“死角”处，可能会挖掘出最有价值的图像信息。

(5)复查Complexity：处理和分析的难度非常大。

网络数据是数量大、内容杂乱的，现有的大数据数据采集技术对于网络信息的抓取方法较复杂，花费时间较多。

发明内容

本发明所要解决的技术问题是网络数据是数量大、内容杂乱的，现有的大数据数据采集技术对于网络信息的抓取方法较复杂，花费时间较多，目的在于提供一种网络数据采集方法，提高对网络信息的抓取和存储速度。

本发明通过下述技术方案实现：

一种网络数据采集方法，包括：

步骤1，通过网络爬虫从Internet上抓取网页内容，并抽取出需要的属性内容；

步骤2，通过URL队列为爬虫提供需要抓取数据网络的URL；

步骤3，通过数据处理模块对爬虫抓取的内容进行处理；

步骤4，通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。

进一步地，一种网络数据采集方法，所述步骤1包括：

步骤11，将需要抓取数据网站的URL信息写入URL队列；

步骤12，爬虫从URL队列中获取需要抓取数据网站的site URL信息；

步骤13，爬虫从Internet抓取对应网页内容，并抽取特定属性的内容值；

步骤14，爬虫将从网页中抽取处的数据写入数据库；

步骤15，DP读取SpiderDATA并进行处理；

步骤16，DP将处理后的数据写入数据库。

进一步地，一种网络数据采集方法，所述步骤3中数据处理模块对数据的处理包括数据清洗、数据去噪以及进一步的集成存储。

本发明通过网络爬虫或网站公开API方式从网站上获取数据信息，本发明可以将非结构化数据从网页中抽取出来，将其存储为统一的本地数据文件，并以结构化的方式存储，并且支持图片、音频、视频等文件或附件的采集，附件与正文可以自动关联，提高了网络信息的采集和抓取速度，同时提高了抓取后信息的存储速度。

本发明与现有技术相比，具有如下的优点和有益效果：本发明通过步骤1，通过网络爬虫从Internet上抓取网页内容，并抽取出需要的属性内容；步骤2，通过URL队列为爬虫提供需要抓取数据网络的URL；步骤3，通过数据处理模块对爬虫抓取的内容进行处理；步骤4，通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。即通过网络爬虫或网站公开API方式从网站上获取数据信息，本发明可以将非结构化数据从网页中抽取出来，将其存储为统一的本地数据文件，并以结构化的方式存储，并且支持图片、音频、视频等文件或附件的采集，附件与正文可以自动关联，提高了网络信息的采集和抓取速度，同时提高了抓取后信息的存储速度。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

一种网络数据采集方法，包括：

步骤2，通过URL队列为爬虫提供需要抓取数据网络的URL；

步骤3，通过数据处理模块对爬虫抓取的内容进行处理；

步骤1包括：

步骤11，将需要抓取数据网站的URL信息写入URL队列；

步骤14，爬虫将从网页中抽取处的数据写入数据库；

步骤15，DP读取SpiderDATA并进行处理；

步骤16，DP将处理后的数据写入数据库。

步骤3中数据处理模块对数据的处理包括数据清洗、数据去噪以及进一步的集成存储。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络数据采集方法，其特征在于，包括：

步骤2，通过URL队列为爬虫提供需要抓取数据网络的URL；

步骤3，通过数据处理模块对爬虫抓取的内容进行处理；

2.根据权利要求1所述的一种网络数据采集方法，其特征在于，所述步骤1包括：

步骤11，将需要抓取数据网站的URL信息写入URL队列；

步骤14，爬虫将从网页中抽取处的数据写入数据库；

步骤15，DP读取SpiderDATA并进行处理；

步骤16，DP将处理后的数据写入数据库。

3.根据权利要求1所述的一种网络数据采集方法，其特征在于，所述步骤3中数据处理模块对数据的处理包括数据清洗、数据去噪以及进一步的集成存储。