CN102254027A

CN102254027A - 批量获取网页内容的方法

Info

Publication number: CN102254027A
Application number: CN 201110215794
Authority: CN
Inventors: 李强; 谌烜; 刘�东; 孟庆康
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2011-07-29
Filing date: 2011-07-29
Publication date: 2011-11-23
Anticipated expiration: 2031-07-29
Also published as: CN102254027B

Abstract

本发明涉及网络技术。本发明解决了现有网络爬虫技术获取网页内容效率低下的问题，提供了一种批量获取网页内容的方法，其技术方案可概括为：根据用户输入的需要访问的各网站各栏目的种子URL及其解析规则，批量下载各网页内容。本发明的有益效果是，提高网页内容的获取效率，适用于网页内容的获取。

Description

批量获取网页内容的方法

技术领域

本发明涉及网络技术，特别涉及网页内容的获取方法。

背景技术

目前，海量的网页内容信息(包括文字、图片等)的获取主要是通过网络爬虫技术得以实现，而由于互联网信息繁多、网页形态千变万化，传统的爬虫技术存在着抓取效率低下，网页解析难度大、内容获取准确度低等诸多问题。

发明内容

本发明目的是克服目前网络爬虫技术获取网页内容效率低下的缺点，提供一种批量获取网页内容的方法。

本发明为解决上述技术问题所采用的技术方案是，批量获取网页内容的方法，其特征在于，包括以下步骤：

a.任务添加系统创建关系数据库；

b.用户向该关系数据库输入需要访问的各网站各栏目的种子URL及其解析规则；

c.在关系数据库中为需要访问的每个网页建立与其相对应的表；

d.采用多线程的方式，各线程从关系数据库中获取种子URL加入到其各自的待处理任务队列中；

e.网页下载系统根据各线程的待处理任务进行批量网页下载；

f.网页解析系统对所下载网页进行内容分析，根据给定的网页内容解析规则提取该网页的有效信息；

g.将这些有效信息填入对应的表中；

h.用户根据关系数据库提供的对应网页的表读取该网页内容。

具体的，步骤b所述解析规则包括是否解析链接。

进一步的，步骤f包括以下步骤：

f1.网页解析系统对所下载网页进行内容分析，根据给定的网页内容解析规则提取该网页的有效信息，判断解析规则中是否需要解析链接，若需要解析链接且该网页具有链接则进入下一步，若不需要解析链接或该网页没有链接则进入g步骤；

f2.提取各链接的URL，并将其加入到关系数据库中，并与该网页中的各链接名称相关联；

f3.在关系数据库中为各链接网页建立与其相对应的表；

f4.采用多线程的方式，各线程从关系数据库中获取URL加入到其各自的待处理任务队列中；

f5.网页下载系统根据各线程的待处理任务进行批量网页下载；

f6.网页解析系统对所下载链接网页进行内容分析，提取该网页的有效信息，进入g步骤。

本发明的有益效果是，通过上述批量获取网页内容的方法，采用多线程的方式，根据用户输入的需要访问的各网站各栏目的种子URL及其解析规则，批量下载这些网页，再根据解析规则判断是否需要解析链接，从而在需要解析链接时，批量下载该网页上的链接网页并获取这些链接网页内容，在用户访问这些链接的时候不再需要下载，提高网页内容的获取效率，方便用户。

具体实施方式

本发明的批量获取网页内容的方法为：首先任务添加系统创建关系数据库，当用户向该关系数据库输入需要访问的各网站各栏目的种子URL及其解析规则后，任务添加系统在关系数据库中为需要访问的每个网页建立与其相对应的表，再采用多线程的方式，各线程从关系数据库中获取种子URL加入到其各自的待处理任务队列中，然后网页下载系统根据各线程的待处理任务进行批量网页下载，网页解析系统再对所下载网页进行内容分析，根据给定的网页内容解析规则提取该网页的有效信息，然后将这些有效信息填入对应的表中，最后用户根据关系数据库提供的对应网页的表读取该网页内容。

实施例

本例的解析规则包括是否解析链接。

首先任务添加系统创建关系数据库，当用户向该关系数据库输入需要访问的各网站各栏目的种子URL及其解析规则，解析规则是根据网页的结构进行手动设定的，比如新闻类的信息，待选取的因子包括：标题、发布时间、来源、作者、关键词、正文、插图、插图说明等，这些因子的组合就构成了待匹配模型，解析规则用于解析待匹配模型，是一种模式匹配，以获取用户所需的数据，无关的数据会被自动过滤掉，其中，还包括是否解析链接，然后任务添加系统在关系数据库中为需要访问的每个网页建立与其相对应的表，再采用多线程的方式，各线程从关系数据库中获取种子URL加入到其各自的待处理任务队列中，然后网页下载系统根据各线程的待处理任务进行批量网页下载，网页解析系统对所下载网页进行内容分析，根据给定的网页内容解析规则提取该网页的有效信息，判断解析规则中是否需要解析链接，若需要解析链接且该网页具有链接则由网页解析系统提取各链接的URL，并通过任务添加系统将其加入到关系数据库中，并与该网页中的各链接名称相关联，再在关系数据库中为各链接网页建立与其相对应的表，然后采用多线程的方式，各线程从关系数据库中获取URL加入到其各自的待处理任务队列中，再由网页下载系统根据各线程的待处理任务进行批量网页下载，然后网页解析系统对所下载链接网页进行内容分析，提取该网页的有效信息，再将这些有效信息填入对应的表中，最后用户根据关系数据库提供的对应网页的表读取该网页内容，若不需要解析链接或该网页没有链接则直接将这些有效信息填入对应的表中，最后用户根据关系数据库提供的对应网页的表读取该网页内容。

Claims

1.批量获取网页内容的方法，其特征在于，包括以下步骤：

a.任务添加系统创建关系数据库；

g.将这些有效信息填入对应的表中；

2.根据权利要求1所述批量获取网页内容的方法，其特征在于，步骤b所述解析规则包括是否解析链接。

3.根据权利要求2所述批量获取网页内容的方法，其特征在于，步骤f包括以下步骤：

f3.在关系数据库中为各链接网页建立与其相对应的表；