CN107992533A - 一种网络数据采集方法 - Google Patents

一种网络数据采集方法 Download PDF

Info

Publication number
CN107992533A
CN107992533A CN201711180909.XA CN201711180909A CN107992533A CN 107992533 A CN107992533 A CN 107992533A CN 201711180909 A CN201711180909 A CN 201711180909A CN 107992533 A CN107992533 A CN 107992533A
Authority
CN
China
Prior art keywords
data
url
reptile
network
handled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201711180909.XA
Other languages
English (en)
Inventor
石文威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Original Assignee
Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Kechuang Wisdom Intellectual Property Services Co Ltd filed Critical Anhui Kechuang Wisdom Intellectual Property Services Co Ltd
Priority to CN201711180909.XA priority Critical patent/CN107992533A/zh
Publication of CN107992533A publication Critical patent/CN107992533A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网络数据采集方法,包括:步骤1,通过网络爬虫从Internet上抓取网页内容,并抽取出需要的属性内容;步骤2,通过URL队列为爬虫提供需要抓取数据网络的URL;步骤3,通过数据处理模块对爬虫抓取的内容进行处理;步骤4,通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。本发明通过网络爬虫或网站公开API方式从网站上获取数据信息,本发明可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储,并且支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联,提高了网络信息的采集和抓取速度,同时提高了抓取后信息的存储速度。

Description

一种网络数据采集方法
技术领域
本发明涉及大数据领域,具体涉及一种网络数据采集方法。
背景技术
数据发展历程上出现过类似的术语有超大规模数据、海量数据等。“超大规模”一般表示对应GB(1GB=1024MB)的数据,“海量”一般表示的是TB(1TB=1024GB)级的数据,而现在的“大数据”则是PB(1PB=1024TB)、EB(1EB=1024PB)、甚至ZB(1ZB=1024EB) 级别以上的数据。2013年Gartner预测世界上存储的数据将达到1.2ZB,如果将这些数据刻录到CD-R只读光盘上,并堆起来,其高度将是地球到月球距离的5倍。不同规模的背后隐含的是不同的技术问题或挑战性研究难题。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在日新月异的IT业界,各个企业对大数据都有着自己不同的解读.但大家都普遍认为,大数据有着4“V”特征,即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低):
(1)量大(Volume Big)。数据量级已从TB(210GB)发展至PB(210TB)乃至ZB(220PB),可称海量、巨量乃至超量。
(2)多样化(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。
(3)快速化(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可能介入。
(4)价值高和密度低(Value Highand Low Density)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;360°全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。
(5)复查Complexity:处理和分析的难度非常大。
网络数据是数量大、内容杂乱的,现有的大数据数据采集技术对于网络信息的抓取方法较复杂,花费时间较多。
发明内容
本发明所要解决的技术问题是网络数据是数量大、内容杂乱的,现有的大数据数据采集技术对于网络信息的抓取方法较复杂,花费时间较多,目的在于提供一种网络数据采集方法,提高对网络信息的抓取和存储速度。
本发明通过下述技术方案实现:
一种网络数据采集方法,包括:
步骤1,通过网络爬虫从Internet上抓取网页内容,并抽取出需要的属性内容;
步骤2,通过URL队列为爬虫提供需要抓取数据网络的URL;
步骤3,通过数据处理模块对爬虫抓取的内容进行处理;
步骤4,通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。
进一步地,一种网络数据采集方法,所述步骤1包括:
步骤11,将需要抓取数据网站的URL信息写入URL队列;
步骤12,爬虫从URL队列中获取需要抓取数据网站的site URL信息;
步骤13,爬虫从Internet抓取对应网页内容,并抽取特定属性的内容值;
步骤14,爬虫将从网页中抽取处的数据写入数据库;
步骤15,DP读取SpiderDATA并进行处理;
步骤16,DP将处理后的数据写入数据库。
进一步地,一种网络数据采集方法,所述步骤3中数据处理模块对数据的处理包括数据清洗、数据去噪以及进一步的集成存储。
本发明通过网络爬虫或网站公开API方式从网站上获取数据信息,本发明可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储,并且支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联,提高了网络信息的采集和抓取速度,同时提高了抓取后信息的存储速度。
本发明与现有技术相比,具有如下的优点和有益效果:本发明通过步骤1,通过网络爬虫从Internet上抓取网页内容,并抽取出需要的属性内容;步骤2,通过URL队列为爬虫提供需要抓取数据网络的URL;步骤3,通过数据处理模块对爬虫抓取的内容进行处理;步骤4,通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。即通过网络爬虫或网站公开API方式从网站上获取数据信息,本发明可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储,并且支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联,提高了网络信息的采集和抓取速度,同时提高了抓取后信息的存储速度。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
一种网络数据采集方法,包括:
步骤1,通过网络爬虫从Internet上抓取网页内容,并抽取出需要的属性内容;
步骤2,通过URL队列为爬虫提供需要抓取数据网络的URL;
步骤3,通过数据处理模块对爬虫抓取的内容进行处理;
步骤4,通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。
步骤1包括:
步骤11,将需要抓取数据网站的URL信息写入URL队列;
步骤12,爬虫从URL队列中获取需要抓取数据网站的site URL信息;
步骤13,爬虫从Internet抓取对应网页内容,并抽取特定属性的内容值;
步骤14,爬虫将从网页中抽取处的数据写入数据库;
步骤15,DP读取SpiderDATA并进行处理;
步骤16,DP将处理后的数据写入数据库。
步骤3中数据处理模块对数据的处理包括数据清洗、数据去噪以及进一步的集成存储。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种网络数据采集方法,其特征在于,包括:
步骤1,通过网络爬虫从Internet上抓取网页内容,并抽取出需要的属性内容;
步骤2,通过URL队列为爬虫提供需要抓取数据网络的URL;
步骤3,通过数据处理模块对爬虫抓取的内容进行处理;
步骤4,通过数据存储模块对需要抓取数据网站的URL信息、爬虫从网页中抽取出来的数据以及经过DP处理后的数据进行存储。
2.根据权利要求1所述的一种网络数据采集方法,其特征在于,所述步骤1包括:
步骤11,将需要抓取数据网站的URL信息写入URL队列;
步骤12,爬虫从URL队列中获取需要抓取数据网站的site URL信息;
步骤13,爬虫从Internet抓取对应网页内容,并抽取特定属性的内容值;
步骤14,爬虫将从网页中抽取处的数据写入数据库;
步骤15,DP读取SpiderDATA并进行处理;
步骤16,DP将处理后的数据写入数据库。
3.根据权利要求1所述的一种网络数据采集方法,其特征在于,所述步骤3中数据处理模块对数据的处理包括数据清洗、数据去噪以及进一步的集成存储。
CN201711180909.XA 2017-11-23 2017-11-23 一种网络数据采集方法 Withdrawn CN107992533A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711180909.XA CN107992533A (zh) 2017-11-23 2017-11-23 一种网络数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711180909.XA CN107992533A (zh) 2017-11-23 2017-11-23 一种网络数据采集方法

Publications (1)

Publication Number Publication Date
CN107992533A true CN107992533A (zh) 2018-05-04

Family

ID=62032562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711180909.XA Withdrawn CN107992533A (zh) 2017-11-23 2017-11-23 一种网络数据采集方法

Country Status (1)

Country Link
CN (1) CN107992533A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800271A (zh) * 2019-02-23 2019-05-24 湖北理工学院 一种基于大数据的信息采集方法
CN109840298A (zh) * 2018-12-29 2019-06-04 中国科学院计算技术研究所 大规模网络数据的多信息来源采集方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447184A (zh) * 2015-12-15 2016-03-30 北京百分点信息科技有限公司 信息抓取方法及装置
CN106934014A (zh) * 2017-03-10 2017-07-07 山东省科学院情报研究所 一种基于Hadoop的网络数据挖掘与分析平台及其方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105447184A (zh) * 2015-12-15 2016-03-30 北京百分点信息科技有限公司 信息抓取方法及装置
CN106934014A (zh) * 2017-03-10 2017-07-07 山东省科学院情报研究所 一种基于Hadoop的网络数据挖掘与分析平台及其方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840298A (zh) * 2018-12-29 2019-06-04 中国科学院计算技术研究所 大规模网络数据的多信息来源采集方法和系统
CN109800271A (zh) * 2019-02-23 2019-05-24 湖北理工学院 一种基于大数据的信息采集方法

Similar Documents

Publication Publication Date Title
Wenyin et al. Detection of phishing webpages based on visual similarity
CN104899508B (zh) 一种多阶段钓鱼网站检测方法与系统
Williams et al. Incremental hacker forum exploit collection and classification for proactive cyber threat intelligence: An exploratory study
US9563770B2 (en) Spammer group extraction apparatus and method
CN103870574B (zh) 基于h.264密文云视频存储的标签制作及索引方法
CN103577482B (zh) 一种网页收藏方法、装置及浏览器
CN103118036A (zh) 一种基于云端的智能安全防御系统和方法
CN103455597B (zh) 面向海量web图像的分布式信息隐藏检测方法
MX2011005771A (es) Metodo y dispositivo para interceptar correo basura.
CN107992533A (zh) 一种网络数据采集方法
CN103279476B (zh) 一种web应用系统敏感文字的检测方法及系统
Bhosale et al. Modified naive bayes intrusion detection system (MNBIDS)
CN109948639A (zh) 一种基于深度学习的图片垃圾识别方法
CN107743128A (zh) 一种基于首页关联域名和同服务ip的非法网站挖掘方法
Gill et al. Mobile forensics: A bibliometric analysis
CN103955517B (zh) 将文档型数据库的数据转换至关系型数据库的方法及系统
CN107895032A (zh) 进行数据初步清洗的网络数据采集方法
CN104156458B (zh) 一种信息的提取方法及装置
CN109284465A (zh) 一种基于url的网页分类器构建方法及其分类方法
CN109194605A (zh) 一种基于开源信息的可疑威胁指标主动验证方法和系统
CN106294401A (zh) 自动建立sql名单库的方法及装置
CN107832449A (zh) 对爬虫抓取进行改进的网络数据采集方法
Chin et al. Plant Disease Detection and Classification Using Deep Learning Methods: A Comparison Study
CN107766581A (zh) 对url进行数据重复记录清洗的方法
CN105933324A (zh) 一种基于网络流在线实时分析跳转链和溯源的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180504

WW01 Invention patent application withdrawn after publication