CN107992533A - 一种网络数据采集方法 - Google Patents
一种网络数据采集方法 Download PDFInfo
- Publication number
- CN107992533A CN107992533A CN201711180909.XA CN201711180909A CN107992533A CN 107992533 A CN107992533 A CN 107992533A CN 201711180909 A CN201711180909 A CN 201711180909A CN 107992533 A CN107992533 A CN 107992533A
- Authority
- CN
- China
- Prior art keywords
- data
- url
- reptile
- network
- handled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种网络数据采集方法,包括:步骤1,通过网络爬虫从Internet上抓取网页内容,并抽取出需要的属性内容;步骤2,通过URL队列为爬虫提供需要抓取数据网络的URL;步骤3,通过数据处理模块对爬虫抓取的内容进行处理;步骤4,通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。本发明通过网络爬虫或网站公开API方式从网站上获取数据信息,本发明可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储,并且支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联,提高了网络信息的采集和抓取速度,同时提高了抓取后信息的存储速度。
Description
技术领域
本发明涉及大数据领域,具体涉及一种网络数据采集方法。
背景技术
数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB=1024MB)的数据,“海量”一般表示的是TB(1TB=1024GB)级的数据,而现在的“大数据”则是PB(1PB=1024TB)、EB(1EB=1024PB)、甚至ZB(1ZB=1024EB) 级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB,如果将这些数据刻录到CD-R只读光盘上,并堆起来,其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低):
(1)量大(Volume Big)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB),可称海量、巨量乃至超量。
(2)多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。
(3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。
(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。
(5)复查Complexity:处理和分析的难度非常大。
网络数据是数量大、内容杂乱的,现有的大数据数据采集技术对于网络信息的抓取方法较复杂,花费时间较多。
发明内容
本发明所要解决的技术问题是网络数据是数量大、内容杂乱的,现有的大数据数据采集技术对于网络信息的抓取方法较复杂,花费时间较多,目的在于提供一种网络数据采集方法,提高对网络信息的抓取和存储速度。
本发明通过下述技术方案实现:
一种网络数据采集方法,包括:
步骤1,通过网络爬虫从Internet上抓取网页内容,并抽取出需要的属性内容;
步骤2,通过URL队列为爬虫提供需要抓取数据网络的URL;
步骤3,通过数据处理模块对爬虫抓取的内容进行处理;
步骤4,通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。
进一步地,一种网络数据采集方法,所述步骤1包括:
步骤11,将需要抓取数据网站的URL信息写入URL队列;
步骤12,爬虫从URL队列中获取需要抓取数据网站的site URL信息;
步骤13,爬虫从Internet抓取对应网页内容,并抽取特定属性的内容值;
步骤14,爬虫将从网页中抽取处的数据写入数据库;
步骤15,DP读取SpiderDATA并进行处理;
步骤16,DP将处理后的数据写入数据库。
进一步地,一种网络数据采集方法,所述步骤3中数据处理模块对数据的处理包括数据清洗、数据去噪以及进一步的集成存储。
本发明通过网络爬虫或网站公开API方式从网站上获取数据信息,本发明可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储,并且支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联,提高了网络信息的采集和抓取速度,同时提高了抓取后信息的存储速度。
本发明与现有技术相比,具有如下的优点和有益效果:本发明通过步骤1,通过网络爬虫从Internet上抓取网页内容,并抽取出需要的属性内容;步骤2,通过URL队列为爬虫提供需要抓取数据网络的URL;步骤3,通过数据处理模块对爬虫抓取的内容进行处理;步骤4,通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。即通过网络爬虫或网站公开API方式从网站上获取数据信息,本发明可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储,并且支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联,提高了网络信息的采集和抓取速度,同时提高了抓取后信息的存储速度。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
一种网络数据采集方法,包括:
步骤1,通过网络爬虫从Internet上抓取网页内容,并抽取出需要的属性内容;
步骤2,通过URL队列为爬虫提供需要抓取数据网络的URL;
步骤3,通过数据处理模块对爬虫抓取的内容进行处理;
步骤4,通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。
步骤1包括:
步骤11,将需要抓取数据网站的URL信息写入URL队列;
步骤12,爬虫从URL队列中获取需要抓取数据网站的site URL信息;
步骤13,爬虫从Internet抓取对应网页内容,并抽取特定属性的内容值;
步骤14,爬虫将从网页中抽取处的数据写入数据库;
步骤15,DP读取SpiderDATA并进行处理;
步骤16,DP将处理后的数据写入数据库。
步骤3中数据处理模块对数据的处理包括数据清洗、数据去噪以及进一步的集成存储。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种网络数据采集方法,其特征在于,包括:
步骤1,通过网络爬虫从Internet上抓取网页内容,并抽取出需要的属性内容;
步骤2,通过URL队列为爬虫提供需要抓取数据网络的URL;
步骤3,通过数据处理模块对爬虫抓取的内容进行处理;
步骤4,通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。
2.根据权利要求1所述的一种网络数据采集方法,其特征在于,所述步骤1包括:
步骤11,将需要抓取数据网站的URL信息写入URL队列;
步骤12,爬虫从URL队列中获取需要抓取数据网站的site URL信息;
步骤13,爬虫从Internet抓取对应网页内容,并抽取特定属性的内容值;
步骤14,爬虫将从网页中抽取处的数据写入数据库;
步骤15,DP读取SpiderDATA并进行处理;
步骤16,DP将处理后的数据写入数据库。
3.根据权利要求1所述的一种网络数据采集方法,其特征在于,所述步骤3中数据处理模块对数据的处理包括数据清洗、数据去噪以及进一步的集成存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711180909.XA CN107992533A (zh) | 2017-11-23 | 2017-11-23 | 一种网络数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711180909.XA CN107992533A (zh) | 2017-11-23 | 2017-11-23 | 一种网络数据采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107992533A true CN107992533A (zh) | 2018-05-04 |
Family
ID=62032562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711180909.XA Withdrawn CN107992533A (zh) | 2017-11-23 | 2017-11-23 | 一种网络数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107992533A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800271A (zh) * | 2019-02-23 | 2019-05-24 | 湖北理工学院 | 一种基于大数据的信息采集方法 |
CN109840298A (zh) * | 2018-12-29 | 2019-06-04 | 中国科学院计算技术研究所 | 大规模网络数据的多信息来源采集方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447184A (zh) * | 2015-12-15 | 2016-03-30 | 北京百分点信息科技有限公司 | 信息抓取方法及装置 |
CN106934014A (zh) * | 2017-03-10 | 2017-07-07 | 山东省科学院情报研究所 | 一种基于Hadoop的网络数据挖掘与分析平台及其方法 |
-
2017
- 2017-11-23 CN CN201711180909.XA patent/CN107992533A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447184A (zh) * | 2015-12-15 | 2016-03-30 | 北京百分点信息科技有限公司 | 信息抓取方法及装置 |
CN106934014A (zh) * | 2017-03-10 | 2017-07-07 | 山东省科学院情报研究所 | 一种基于Hadoop的网络数据挖掘与分析平台及其方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840298A (zh) * | 2018-12-29 | 2019-06-04 | 中国科学院计算技术研究所 | 大规模网络数据的多信息来源采集方法和系统 |
CN109800271A (zh) * | 2019-02-23 | 2019-05-24 | 湖北理工学院 | 一种基于大数据的信息采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wenyin et al. | Detection of phishing webpages based on visual similarity | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与系统 | |
Williams et al. | Incremental hacker forum exploit collection and classification for proactive cyber threat intelligence: An exploratory study | |
US9563770B2 (en) | Spammer group extraction apparatus and method | |
CN103870574B (zh) | 基于h.264密文云视频存储的标签制作及索引方法 | |
CN103577482B (zh) | 一种网页收藏方法、装置及浏览器 | |
CN103118036A (zh) | 一种基于云端的智能安全防御系统和方法 | |
CN103455597B (zh) | 面向海量web图像的分布式信息隐藏检测方法 | |
MX2011005771A (es) | Metodo y dispositivo para interceptar correo basura. | |
CN107992533A (zh) | 一种网络数据采集方法 | |
CN103279476B (zh) | 一种web应用系统敏感文字的检测方法及系统 | |
Bhosale et al. | Modified naive bayes intrusion detection system (MNBIDS) | |
CN109948639A (zh) | 一种基于深度学习的图片垃圾识别方法 | |
CN107743128A (zh) | 一种基于首页关联域名和同服务ip的非法网站挖掘方法 | |
Gill et al. | Mobile forensics: A bibliometric analysis | |
CN103955517B (zh) | 将文档型数据库的数据转换至关系型数据库的方法及系统 | |
CN107895032A (zh) | 进行数据初步清洗的网络数据采集方法 | |
CN104156458B (zh) | 一种信息的提取方法及装置 | |
CN109284465A (zh) | 一种基于url的网页分类器构建方法及其分类方法 | |
CN109194605A (zh) | 一种基于开源信息的可疑威胁指标主动验证方法和系统 | |
CN106294401A (zh) | 自动建立sql名单库的方法及装置 | |
CN107832449A (zh) | 对爬虫抓取进行改进的网络数据采集方法 | |
Chin et al. | Plant Disease Detection and Classification Using Deep Learning Methods: A Comparison Study | |
CN107766581A (zh) | 对url进行数据重复记录清洗的方法 | |
CN105933324A (zh) | 一种基于网络流在线实时分析跳转链和溯源的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180504 |
|
WW01 | Invention patent application withdrawn after publication |