CN106933973A - 一种可视化网络爬虫方法 - Google Patents
一种可视化网络爬虫方法 Download PDFInfo
- Publication number
- CN106933973A CN106933973A CN201710078160.1A CN201710078160A CN106933973A CN 106933973 A CN106933973 A CN 106933973A CN 201710078160 A CN201710078160 A CN 201710078160A CN 106933973 A CN106933973 A CN 106933973A
- Authority
- CN
- China
- Prior art keywords
- url
- data
- exterior chain
- webpage
- resolution rules
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及信息采集的技术领域,具体公开了一种可视化网络爬虫方法,首先用户输入多个初始URL和规则文件;服务器解析规则文件,采用最大匹配算法对初始URL分析生成URL匹配过滤规则,调用采集模块访问互联网获得初始URL的网页;用户在浏览器上打开网页浏览器插件标记所需内容与外链,服务器生成处理模块所需的数据解析规则和外链解析规则;处理模块处理初始URL的网页,并将提取的数据保存到数据库,以及获得的URL即外链传递到调度模块;不断循环处理;将获得的数据提供给用户下载。本发明使普通用户方便和直观的操控和设计抓取程序,降低对用户技术水平的要求,有效增加大数据的研究人群,减轻相关研究人员的学习成本。
Description
技术领域
本发明涉及信息采集的技术领域,具体是一种可视化网络爬虫方法。
背景技术
随着互联网用户的迅速增长,用户所产生数据的数量产生了跨越式增加,数据的格式也越来越繁杂多样,而在这些繁杂的数据中蕴含着巨大的价值。但用户想访问这些数据一般是通过访问搜索引擎来寻找相关信息并访问相关网页。但使用通用的搜索引擎如百度搜索、360搜索和谷歌搜索等返回的网页量巨大,而且网页中大多包含着一些无效的或用户不需要的信息。这样从这些返回的数据中提取到精准的信息很消耗用户的时间与精力,难以满足用户直接获得大量经过提取的信息需求。
而且现在随着大数据技术的发展,普通用户对于获取经过清洗、完整的和格式统一的数据以用于后续的大数据处理的需求不断增加。用户为了满足这样的需求,通常采用网络爬虫技术。但现在通用的网络爬虫软件或框架都要求用户具备一定的编程基础,一般采用编程语言编辑。缺乏一种可视化的网络爬虫软件来协助编程技术相对薄弱的用户大规模精准获取特定的网络信息。
发明内容
本发明的目的在于提供一种基于页面相似度匹配和css/xpath规则构建抓取规则的可视化网络爬虫技术,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种可视化网络爬虫方法,包括如下步骤:
(1)用户输入不少于1个初始URL和规则文件;
(2)服务器解析规则文件,采用最大匹配算法对初始URL分析生成URL匹配过滤规则,调用采集模块访问互联网获得初始URL的网页;
(3)用户在浏览器上打开网页浏览器插件标记所需内容与外链,服务器生成处理模块所需的数据解析规则和外链解析规则;
(4)处理模块处理初始URL的网页,并将经数据解析规则提取的数据保存到数据库,以及经外链解析规则获得的URL即外链传递到调度模块;
(5)调度模块分配URL队列到采集模块;
(6)URL队列再经下载中间件模块处理后访问互联网获得目标URL的网页;
(7)获得的目标URL的网页经URL匹配过滤规则的URL匹配过滤后进入处理模块;
(8)处理模块处理网页,将提取的数据保存到数据库和获得的URL即外链传递到调度模块,不断循环处理;
(9)将获得的数据提供给用户下载。
作为本发明进一步的方案:步骤(1)中,规则文件包括采集周期、是否启动JS模拟与Cookies。
作为本发明进一步的方案:步骤(3)中,所述的用户使用可视化的操控页面并标定采集信息与外链。
作为本发明进一步的方案:步骤(3)中,服务器通过DOM树相似度算法完成数据解析规则和外链解析规则的生成。
作为本发明进一步的方案:步骤(9)中,数据采用csv、json或excel格式。
与现有技术相比,本发明的有益效果是:
本发明提出的用户可视化的操控页面并标定采集信息与外链,程序通过DOM树相似度算法完成数据解析规则和外链解析规则的生成的方法,使普通用户方便和直观的操控和设计抓取程序,降低对用户技术水平的要求,有效增加大数据的研究人群,减轻相关研究人员的学习成本。
附图说明
图1是一种可视化网络爬虫方法示意图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1,本发明实施例中,一种可视化网络爬虫方法,包括如下步骤:
(1)用户输入多个初始URL、采集周期、是否启动JS模拟、Cookies等规则文件;
(2)服务器解析规则文件,采用最大匹配算法对初始URL分析生成URL匹配过滤规则,调用采集模块访问互联网获得初始URL的网页;
(3)用户在浏览器上打开网页浏览器插件标记所需内容与外链,服务器使用DOM树相似度算法生成处理模块所需的数据解析规则和外链解析规则;
(4)处理模块处理网页,将提取的数据保存到数据库和获得的URL外链传递到调度模块;
(5)调度模块分配URL队列到采集模块;
(6)URL队列经下载中间件模块处理后访问互联网获得目标URL的网页;
(7)获得的目标URL的网页经过URL匹配过滤后进入处理模块;
(8)处理模块处理网页,将提取的数据保存到数据库和获得的URL外链传递到调度模块,不断循环处理;
(9)将获得的数据以csv、json、excel等格式提供给用户下载。
本发明对输入多个相似的初始URL进行最大匹配算法即从所有的初始URL的根目录开始匹配,遇到不同的目录时即终止匹配,生成URL匹配过滤规则。而数据解析和外链解析规则通过让用户使用可视化的浏览器插件简单标定初始URL上网页的所需信息,采取DOM树相似度算法对网页进行相似度匹配生成规则,其中DOM树相似度算法是比较DOM中的浅层节点的父节点是否一致而实现的。这样实现用户精准抓取互联网网页信息的目的,节省用户人工提取网页信息时间,降低对操作人员的技术要求,同时具备抓取内容的高精准度,满足普通用户对网页信息大规模精准提取的需求。
综上所述,本发明从实用性、可靠性、低成本的角度出发,迎合与满足当前普通用户对大规模信息精准抓取的需求。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (5)
1.一种可视化网络爬虫方法,其特征在于,包括如下步骤:
(1)用户输入不少于1个初始URL和规则文件;
(2)服务器解析规则文件,采用最大匹配算法对初始URL分析生成URL匹配过滤规则,调用采集模块访问互联网获得初始URL的网页;
(3)用户在浏览器上打开网页浏览器插件标记所需内容与外链,服务器生成处理模块所需的数据解析规则和外链解析规则;
(4)处理模块处理初始URL的网页,并将经数据解析规则提取的数据保存到数据库,以及经外链解析规则获得的URL即外链传递到调度模块;
(5)调度模块分配URL队列到采集模块;
(6)URL队列再经下载中间件模块处理后访问互联网获得目标URL的网页;
(7)获得的目标URL的网页经URL匹配过滤规则的URL匹配过滤后进入处理模块;
(8)处理模块处理网页,将提取的数据保存到数据库和获得的URL即外链传递到调度模块,不断循环处理;
(9)将获得的数据提供给用户下载。
2.根据权利要求1所述的可视化网络爬虫方法,其特征在于,步骤(1)中,规则文件包括采集周期、是否启动JS模拟与Cookies。
3.根据权利要求1所述的可视化网络爬虫方法,其特征在于,步骤(3)中,所述的用户使用可视化的操控页面并标定采集信息与外链。
4.根据权利要求1所述的可视化网络爬虫方法,其特征在于,步骤(3)中,服务器通过DOM树相似度算法完成数据解析规则和外链解析规则的生成。
5.根据权利要求1所述的可视化网络爬虫方法,其特征在于,步骤(9)中,数据采用csv、json或excel格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710078160.1A CN106933973A (zh) | 2017-02-14 | 2017-02-14 | 一种可视化网络爬虫方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710078160.1A CN106933973A (zh) | 2017-02-14 | 2017-02-14 | 一种可视化网络爬虫方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106933973A true CN106933973A (zh) | 2017-07-07 |
Family
ID=59424017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710078160.1A Pending CN106933973A (zh) | 2017-02-14 | 2017-02-14 | 一种可视化网络爬虫方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106933973A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391651A (zh) * | 2017-07-17 | 2017-11-24 | 河海大学 | 基于网络爬虫的水利信息检索系统及方法 |
CN109408701A (zh) * | 2018-11-08 | 2019-03-01 | 网易(杭州)网络有限公司 | 一种网络爬虫爬取路径的展示方法和装置 |
CN109902217A (zh) * | 2019-03-20 | 2019-06-18 | 江苏科技大学 | 一种天文学数据筛选与下载的爬虫软件 |
CN110020062A (zh) * | 2019-04-12 | 2019-07-16 | 北京邮电大学 | 一种可定制的网络爬虫方法及系统 |
CN110737647A (zh) * | 2019-08-20 | 2020-01-31 | 广州宏数科技有限公司 | 一种互联网大数据清洗方法 |
CN110765402A (zh) * | 2019-10-31 | 2020-02-07 | 同方知网(北京)技术有限公司 | 一种基于网络资源的可视化采集系统及采集方法 |
CN112100061A (zh) * | 2020-08-28 | 2020-12-18 | 广州探迹科技有限公司 | 一种可视化爬虫代码编写与调试方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346328A (zh) * | 2013-07-23 | 2015-02-11 | 同程网络科技股份有限公司 | 基于网页数据抓取的垂直智能爬虫数据收集方法 |
CN105243159A (zh) * | 2015-10-28 | 2016-01-13 | 福建亿榕信息技术有限公司 | 一种基于可视化脚本编辑器的分布式网络爬虫系统 |
-
2017
- 2017-02-14 CN CN201710078160.1A patent/CN106933973A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346328A (zh) * | 2013-07-23 | 2015-02-11 | 同程网络科技股份有限公司 | 基于网页数据抓取的垂直智能爬虫数据收集方法 |
CN105243159A (zh) * | 2015-10-28 | 2016-01-13 | 福建亿榕信息技术有限公司 | 一种基于可视化脚本编辑器的分布式网络爬虫系统 |
Non-Patent Citations (1)
Title |
---|
卫莉莉: "面向领域的Web文本采集与分类", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391651A (zh) * | 2017-07-17 | 2017-11-24 | 河海大学 | 基于网络爬虫的水利信息检索系统及方法 |
CN109408701A (zh) * | 2018-11-08 | 2019-03-01 | 网易(杭州)网络有限公司 | 一种网络爬虫爬取路径的展示方法和装置 |
CN109902217A (zh) * | 2019-03-20 | 2019-06-18 | 江苏科技大学 | 一种天文学数据筛选与下载的爬虫软件 |
CN110020062A (zh) * | 2019-04-12 | 2019-07-16 | 北京邮电大学 | 一种可定制的网络爬虫方法及系统 |
CN110737647A (zh) * | 2019-08-20 | 2020-01-31 | 广州宏数科技有限公司 | 一种互联网大数据清洗方法 |
CN110737647B (zh) * | 2019-08-20 | 2023-07-25 | 广州宏数科技有限公司 | 一种互联网大数据清洗方法 |
CN110765402A (zh) * | 2019-10-31 | 2020-02-07 | 同方知网(北京)技术有限公司 | 一种基于网络资源的可视化采集系统及采集方法 |
CN112100061A (zh) * | 2020-08-28 | 2020-12-18 | 广州探迹科技有限公司 | 一种可视化爬虫代码编写与调试方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106933973A (zh) | 一种可视化网络爬虫方法 | |
EP3477495A1 (en) | Apparatus and method for extracting user keyword, and computer-readable storage medium | |
Marvuglia et al. | SCALE: Software for CALculating Emergy based on life cycle inventories | |
CN110175325A (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
CN110110075A (zh) | 网页分类方法、装置以及计算机可读存储介质 | |
CN102063488A (zh) | 一种基于语义的代码搜索方法 | |
CN103324700A (zh) | 一种基于Web信息的本体概念属性学习方法 | |
CN102646095A (zh) | 一种基于网页分类信息的对象分类方法和系统 | |
CN102651002A (zh) | 一种网页信息抽取方法及其系统 | |
CN110059085B (zh) | 一种面向Web 2.0的JSON数据解析与建模方法 | |
CN109657116A (zh) | 一种舆情搜索方法、搜索装置、存储介质和终端设备 | |
CN104899323A (zh) | 一种用于idc有害信息监测平台的爬虫系统 | |
CN104391969B (zh) | 确定用户查询语句句法结构的方法及装置 | |
CN108959580A (zh) | 一种标签数据的优化方法及系统 | |
CN108416034A (zh) | 基于金融异构大数据的信息采集系统及其控制方法 | |
CN104598570A (zh) | 资源的抓取方法及装置 | |
CN110516251A (zh) | 一种电商实体识别模型的构建方法、构建装置、设备和介质 | |
Bhardwaj et al. | Web scraping using summarization and named entity recognition (ner) | |
CN101216836B (zh) | 一种网页锚文本去噪系统及方法 | |
CN114398138A (zh) | 界面生成方法、装置、计算机设备和存储介质 | |
CN106649732A (zh) | 一种信息推送方法及装置 | |
CN110069686A (zh) | 用户行为分析方法、装置、计算机装置及存储介质 | |
CN111368552B (zh) | 一种面向特定领域的网络用户群组划分方法及装置 | |
CN104657391B (zh) | 页面的处理方法及装置 | |
JP2014532220A (ja) | ネットコメントの収集方法およびシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170707 |
|
RJ01 | Rejection of invention patent application after publication |