CN110941836A - 一种分布式垂直爬虫方法及终端设备 - Google Patents

一种分布式垂直爬虫方法及终端设备 Download PDF

Info

Publication number
CN110941836A
CN110941836A CN201911078228.1A CN201911078228A CN110941836A CN 110941836 A CN110941836 A CN 110941836A CN 201911078228 A CN201911078228 A CN 201911078228A CN 110941836 A CN110941836 A CN 110941836A
Authority
CN
China
Prior art keywords
data
unit
crawler
webpage
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911078228.1A
Other languages
English (en)
Inventor
侯林勇
方程
张亮
杨坤
袁率
王俊
李亚萍
刘婉莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Xiaodingdang Information Technology Co Ltd
Original Assignee
Guizhou Xiaodingdang Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Xiaodingdang Information Technology Co Ltd filed Critical Guizhou Xiaodingdang Information Technology Co Ltd
Priority to CN201911078228.1A priority Critical patent/CN110941836A/zh
Publication of CN110941836A publication Critical patent/CN110941836A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种分布式垂直爬虫方法及终端设备,包括以下步骤:A、首先数据抓取单元中网络爬虫爬取网页资源数据;B、之后对抓取的网页资源数据进行预处理;C、将预处理后的网页资源数据进行分类,得到分类后的数据;D、将分类后的数据传输至数据分析单元进行数据分析;E、分析后的数据传输至存储单元中进行加密存储;F、最后将加密存储后的数据传输至后台监控终端,本发明能够实现对网页资源数据的快速抓取、预处理、分类以及加密处理,提高了数据处理效率,而且安全性高,不会出现数据泄露现象。

Description

一种分布式垂直爬虫方法及终端设备
技术领域
本发明涉及信息检索技术领域,具体为一种分布式垂直爬虫方法及终端设备。
背景技术
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,现有的通用性搜索引擎也存在着一定的局限性,如:不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页;通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深;万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取;通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询等。目前网络爬虫需要爬取的数据量巨大时,现有的分布式爬虫架构的爬取效率较低,因此,有必要进行改进。
发明内容
本发明的目的在于提供一种分布式垂直爬虫方法及终端设备,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种分布式垂直爬虫方法,包括以下步骤:
A、首先数据抓取单元中网络爬虫爬取网页资源数据;
B、之后对抓取的网页资源数据进行预处理;
C、将预处理后的网页资源数据进行分类,得到分类后的数据;
D、将分类后的数据传输至数据分析单元进行数据分析;
E、分析后的数据传输至存储单元中进行加密存储;
F、最后将加密存储后的数据传输至后台监控终端。
优选的,所述步骤A中网络爬虫爬取方法如下:
a、首先调度中心下发任务,一个任务中包括一个URL;根据任务在云端创建多个爬虫节点;
b、下发的任务分配至多个爬虫节点,每个爬虫节点的爬虫按URL抓取网页内容;
c、同时检测多个爬虫节点的运行状态,若检测到当前爬虫节点出现错误,则自动将任务下发至下一爬虫节点;
d、之后解析器解析抓取的网页内容,同时解析网页中的链接,在本地先用布隆过滤器进行去重;
e、最后收集多个爬虫节点发出的信息,该信息即为爬取的网页信息。
优选的,所述步骤B中数据预处理方法如下:
a、对抓取的数据进行识别,得到噪声数据;
b、计算当前噪声数据的预设时间段前的平均值;
c、使用平均值取代噪声数据中的当前噪声值。
优选的,所述步骤C中数据分类方法如下:
a、将网页资源数据压缩成数据样本,并对压缩后的数据样本进行等分,分成多个子数据集;
b、基于Adaboost算法使用多个弱分类器对多个子数据集进行训练;
c、对训练后的子数据集执行多次RIPPER分类,每次RIPPER分类后根据分类结果对子数据集中特征属性再次进行筛选,将筛选后子数据集样本重新进行RIPPER分类,得到最终的训练子数据集;
d、根据数据属性,对训练子数据集进行分类,输出分类结果。
优选的,一种分布式垂直爬虫终端设备,包括网页抓取单元、数据预处理单元、数据分类单元、数据传输单元、数据分析单元和存储单元,所述网页抓取单元连接数据预处理单元,所述数据预处理单元连接数据分类单元,所述数据分类单元通过数据传输单元连接数据分析单元,所述数据分析单元连接存储单元,所述存储单元通过安全传输网络连接监控终端,其中,所述网页抓取单元抓取网页资源数据信息;所述数据预处理单元用于对抓取的网页资源数据进行清洗操作;所述数据分类单元用于对清洗后的数据进行分类;所述数据分析单元用于分析分类后的数据,所述存储单元用于加密存储分析后的数据。
与现有技术相比,本发明的有益效果是:
(1)本发明能够实现对网页资源数据的快速抓取、预处理、分类以及加密处理,提高了数据处理效率,而且安全性高,不会出现数据泄露现象。
(2)本发明采用的网络爬虫爬取方法在对网页更新频率的处理上,规避了复杂的算法,可以极大提高爬虫的工作效率,提高系统整体响应速度,在爬虫节点数较多时,可以避免单个去重模块的压力和单点故障。
(3)本发明采用的数据预处理方法能够快速清除噪声数据,提高数据处理效率。
(4)本发明采用的数据分类方法可以充分发挥Ripper分类、Adaboost算法的优势,有效提高数据分类的精度及性能。
附图说明
图1为本发明流程图;
图2为本发明网络爬虫爬取方法流程图;
图3为本发明终端设备原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:一种分布式垂直爬虫方法,包括以下步骤:
A、首先数据抓取单元中网络爬虫爬取网页资源数据;
B、之后对抓取的网页资源数据进行预处理;
C、将预处理后的网页资源数据进行分类,得到分类后的数据;
D、将分类后的数据传输至数据分析单元进行数据分析;
E、分析后的数据传输至存储单元中进行加密存储;
F、最后将加密存储后的数据传输至后台监控终端。
本发明中,步骤A中网络爬虫爬取方法如下:
a、首先调度中心下发任务,一个任务中包括一个URL;根据任务在云端创建多个爬虫节点;
b、下发的任务分配至多个爬虫节点,每个爬虫节点的爬虫按URL抓取网页内容;
c、同时检测多个爬虫节点的运行状态,若检测到当前爬虫节点出现错误,则自动将任务下发至下一爬虫节点;
d、之后解析器解析抓取的网页内容,同时解析网页中的链接,在本地先用布隆过滤器进行去重;
e、最后收集多个爬虫节点发出的信息,该信息即为爬取的网页信息。
本发明采用的网络爬虫爬取方法在对网页更新频率的处理上,规避了复杂的算法,可以极大提高爬虫的工作效率,提高系统整体响应速度,在爬虫节点数较多时,可以避免单个去重模块的压力和单点故障。
本发明中,步骤B中数据预处理方法如下:
a、对抓取的数据进行识别,得到噪声数据;
b、计算当前噪声数据的预设时间段前的平均值;
c、使用平均值取代噪声数据中的当前噪声值。
本发明采用的数据预处理方法能够快速清除噪声数据,提高数据处理效率。
本发明中,步骤C中数据分类方法如下:
a、将网页资源数据压缩成数据样本,并对压缩后的数据样本进行等分,分成多个子数据集;
b、基于Adaboost算法使用多个弱分类器对多个子数据集进行训练;
c、对训练后的子数据集执行多次RIPPER分类,每次RIPPER分类后根据分类结果对子数据集中特征属性再次进行筛选,将筛选后子数据集样本重新进行RIPPER分类,得到最终的训练子数据集;
d、根据数据属性,对训练子数据集进行分类,输出分类结果。
本发明采用的数据分类方法可以充分发挥Ripper分类、Adaboost算法的优势,有效提高数据分类的精度及性能。
另外,本发明还公开了一种分布式垂直爬虫终端设备,包括网页抓取单元1、数据预处理单元2、数据分类单元3、数据传输单元4、数据分析单元5和存储单元6,所述网页抓取单元1连接数据预处理单元2,所述数据预处理单元2连接数据分类单元3,所述数据分类单元3通过数据传输单元7连接数据分析单元5,所述数据分析单元5连接存储单元6,所述存储单元6通过安全传输网络8连接监控终端9,其中,所述网页抓取单元抓取网页资源数据信息;所述数据预处理单元用于对抓取的网页资源数据进行清洗操作;所述数据分类单元用于对清洗后的数据进行分类;所述数据分析单元用于分析分类后的数据,所述存储单元用于加密存储分析后的数据。首先数据抓取单元中网络爬虫爬取网页资源数据;之后对抓取的网页资源数据进行预处理;将预处理后的网页资源数据进行分类,得到分类后的数据;将分类后的数据传输至数据分析单元进行数据分析;分析后的数据传输至存储单元中进行加密存储;最后将加密存储后的数据传输至后台监控终端。
综上所述,本发明能够实现对网页资源数据的快速抓取、预处理、分类以及加密处理,提高了数据处理效率,而且安全性高,不会出现数据泄露现象。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种分布式垂直爬虫方法,其特征在于:包括以下步骤:
A、首先数据抓取单元中网络爬虫爬取网页资源数据;
B、之后对抓取的网页资源数据进行预处理;
C、将预处理后的网页资源数据进行分类,得到分类后的数据;
D、将分类后的数据传输至数据分析单元进行数据分析;
E、分析后的数据传输至存储单元中进行加密存储;
F、最后将加密存储后的数据传输至后台监控终端。
2.根据权利要求1所述的一种分布式垂直爬虫方法,其特征在于:所述步骤A中网络爬虫爬取方法如下:
a、首先调度中心下发任务,一个任务中包括一个URL;根据任务在云端创建多个爬虫节点;
b、下发的任务分配至多个爬虫节点,每个爬虫节点的爬虫按URL抓取网页内容;
c、同时检测多个爬虫节点的运行状态,若检测到当前爬虫节点出现错误,则自动将任务下发至下一爬虫节点;
d、之后解析器解析抓取的网页内容,同时解析网页中的链接,在本地先用布隆过滤器进行去重;
e、最后收集多个爬虫节点发出的信息,该信息即为爬取的网页信息。
3.根据权利要求1所述的一种分布式垂直爬虫方法,其特征在于:所述步骤B中数据预处理方法如下:
a、对抓取的数据进行识别,得到噪声数据;
b、计算当前噪声数据的预设时间段前的平均值;
c、使用平均值取代噪声数据中的当前噪声值。
4.根据权利要求1所述的一种分布式垂直爬虫方法,其特征在于:所述步骤C中数据分类方法如下:
a、将网页资源数据压缩成数据样本,并对压缩后的数据样本进行等分,分成多个子数据集;
b、基于Adaboost算法使用多个弱分类器对多个子数据集进行训练;
c、对训练后的子数据集执行多次RIPPER分类,每次RIPPER分类后根据分类结果对子数据集中特征属性再次进行筛选,将筛选后子数据集样本重新进行RIPPER分类,得到最终的训练子数据集;
d、根据数据属性,对训练子数据集进行分类,输出分类结果。
5.一种分布式垂直爬虫终端设备,其特征在于:包括网页抓取单元(1)、数据预处理单元(2)、数据分类单元(3)、数据传输单元(4)、数据分析单元(5)和存储单元(6),所述网页抓取单元(1)连接数据预处理单元(2),所述数据预处理单元(2)连接数据分类单元(3),所述数据分类单元(3)通过数据传输单元(7)连接数据分析单元(5),所述数据分析单元(5)连接存储单元(6),所述存储单元(6)通过安全传输网络(8)连接监控终端(9),其中,所述网页抓取单元抓取网页资源数据信息;所述数据预处理单元用于对抓取的网页资源数据进行清洗操作;所述数据分类单元用于对清洗后的数据进行分类;所述数据分析单元用于分析分类后的数据,所述存储单元用于加密存储分析后的数据。
CN201911078228.1A 2019-11-06 2019-11-06 一种分布式垂直爬虫方法及终端设备 Pending CN110941836A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911078228.1A CN110941836A (zh) 2019-11-06 2019-11-06 一种分布式垂直爬虫方法及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911078228.1A CN110941836A (zh) 2019-11-06 2019-11-06 一种分布式垂直爬虫方法及终端设备

Publications (1)

Publication Number Publication Date
CN110941836A true CN110941836A (zh) 2020-03-31

Family

ID=69907424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911078228.1A Pending CN110941836A (zh) 2019-11-06 2019-11-06 一种分布式垂直爬虫方法及终端设备

Country Status (1)

Country Link
CN (1) CN110941836A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905575A (zh) * 2020-12-30 2021-06-04 创盛视联数码科技(北京)有限公司 数据采集的方法、系统、存储介质及电子设备
CN113612765A (zh) * 2021-07-30 2021-11-05 北京锐安科技有限公司 一种网站检测方法、装置、计算机设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905575A (zh) * 2020-12-30 2021-06-04 创盛视联数码科技(北京)有限公司 数据采集的方法、系统、存储介质及电子设备
CN113612765A (zh) * 2021-07-30 2021-11-05 北京锐安科技有限公司 一种网站检测方法、装置、计算机设备和存储介质
CN113612765B (zh) * 2021-07-30 2023-06-27 北京锐安科技有限公司 一种网站检测方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN107665191B (zh) 一种基于扩展前缀树的私有协议报文格式推断方法
US20190222603A1 (en) Method and apparatus for network forensics compression and storage
CN101697545B (zh) 安全事件关联方法、装置及网络服务器
CN104331435B (zh) 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法
CN105681768A (zh) 一种通过通信数据实现人流实时监控的方法
CN105871832A (zh) 一种基于协议属性的网络应用加密流量识别方法及其装置
CN105718587A (zh) 一种网络内容资源评估方法及评估系统
Chen et al. Visualization of network data provenance
CN110417729A (zh) 一种加密流量的服务与应用分类方法及系统
CN109359686A (zh) 一种基于校园网流量的用户画像方法及系统
CN104794170A (zh) 基于指纹多重哈希布隆过滤器的网络取证内容溯源方法
CN106534784A (zh) 一种用于视频分析数据结果集的采集分析存储统计系统
CN109033319A (zh) 一种大数据日志归一化方法及工具
CN112019500B (zh) 一种基于深度学习的加密流量识别方法及电子装置
CN110941836A (zh) 一种分布式垂直爬虫方法及终端设备
CN112350882A (zh) 一种基于分布式的网络流量分析系统及方法
Sujatha Improved user navigation pattern prediction technique from web log data
CN104834739A (zh) 互联网信息存储系统
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
CN110175280A (zh) 一种基于政务大数据的爬虫分析平台
CN112910842B (zh) 一种基于流量还原的网络攻击事件取证方法与装置
CN111026940A (zh) 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备
CN105933324A (zh) 一种基于网络流在线实时分析跳转链和溯源的方法和系统
Wang Research on the collection method of financial blockchain risk prompt information from sandbox perspective
CN113037551B (zh) 一种基于流量切片的涉敏业务快速识别定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200331

WD01 Invention patent application deemed withdrawn after publication