CN105938496A

CN105938496A - 网页内容提取方法及装置

Info

Publication number: CN105938496A
Application number: CN201610370263.0A
Authority: CN
Inventors: 张锐
Original assignee: Shenzhen Longrise Technology Co Ltd
Current assignee: Shenzhen Longrise Technology Co Ltd
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2016-09-14

Abstract

本发明公开了一种网页内容提取方法，包括以下步骤：S1、获取目标网页；S2、判断所述目标网页中是否存在超链接；S3、若是，则获取所述超链接所对应的子目标网页，并以所述子目标网页作为下一目标网页，返回执行S2，直到满足预置退出条件时退出；S4、根据设定的内容采集规则，遍历所述目标网页与所述子目标网页所对应的源代码，并从所述源代码中提取满足所述内容采集规则的网页内容。本发明还公开了一种网页内容提取装置。本发明能够精确获得目标网页上用户所需内容，减少用户查找网页内容的时间消耗，提高信息获取效率。

Description

网页内容提取方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及网页内容提取方法及装置。

背景技术

随着现今大数据时代的到来，用户需要从海量的网络资源中获取所需信息并不是十分容易，尽管搜索引擎实现了对海量网络资源的搜索与提取，但搜索结果仍然巨大，从而导致用户需要花费更多的时间与精力去进行筛选所需信息。如果用户搜索目标比较明确，比如集中在某一个或少数几个网站，尽管该类情形下需要查找筛选的数据并不多，但用户在网页上通过手动采集数据则仍然比较费时，数据提取效率依旧不高。

发明内容

本发明的主要目的在于提供一种网页内容提取方法及装置，旨在解决如何在保证网页内容提取准确的同时，提高网页内容提取效率的技术问题。

为实现上述目的，本发明一种网页内容提取方法，所述网页内容提取方法包括以下步骤：

S1、获取目标网页；

S2、判断所述目标网页中是否存在超链接；

S3、若是，则获取所述超链接所对应的子目标网页，并以所述子目标网页作为下一目标网页，返回执行S2，直到满足预置退出条件时退出；

S4、根据设定的内容采集规则，遍历所述目标网页与所述子目标网页所对应的源代码，并从所述源代码中提取满足所述内容采集规则的网页内容。

优选地，所述内容采集规则至少包括目标内容所对应的HTML标签类型、目标内容所包含的字符或字符串、目标内容的正则表达式中的一种或多种。

优选地，所述根据设定的内容采集规则，遍历所述目标网页与所述子目标网页所对应的源代码，并从所述源代码中提取满足所述内容采集规则的网页内容之后包括：

根据预置的数据处理规则，对所述网页内容进行对应的数据处理，其中，所述数据处理至少包括标签过滤处理、数据格式转换、下载文件探测中的一种或多种。

优选地，所述根据设定的内容采集规则，遍历所述目标网页与所述子目标网页所对应的源代码，并从所述源代码中提取满足所述内容采集规则的网页内容之后还包括：

根据所述网页内容所对应的HTML标签类型及预置的XML文件生成格式，采用可扩展标记语言XML对所述网页内容进行结构化描述，得到对应的XML文件；

编译所述XML文件，并显示编译后所生成的包含有所述网页内容的页面。

优选地，所述网页内容提取方法还包括：

在获取所述目标网页或所述子目标网页失败时，通过HTTP二级代理服务器进行IP地址替换，并以新的IP地址重新获取所述目标网页或所述子目标网页。

进一步地，为实现上述目的，本发明还提供一种网页内容提取装置，所述网页内容提取装置包括：

第一获取模块，用于获取目标网页；

判断模块，用于判断所述目标网页中是否存在超链接；

第二获取模块，用于若所述目标网页中存在超链接，则获取所述超链接所对应的子目标网页，并以所述子目标网页作为下一目标网页，返回执行所述判断模块，直到满足预置退出条件时退出；

提取模块，用于根据设定的内容采集规则，遍历所述目标网页与所述子目标网页所对应的源代码，并从所述源代码中提取满足所述内容采集规则的网页内容。

优选地，所述网页内容提取装置还包括：

数据处理模块，用于根据预置的数据处理规则，对所述网页内容进行对应的数据处理，其中，所述数据处理至少包括标签过滤处理、数据格式转换、下载文件探测中的一种或多种。

优选地，所述网页内容提取装置还包括：

结构化描述模块，用于根据所述网页内容所对应的HTML标签类型及预置的XML文件生成格式，采用可扩展标记语言XML对所述网页内容进行结构化描述，得到对应的XML文件；

编译模块，用于编译所述XML文件，并显示编译后所生成的包含有所述网页内容的页面。

优选地，所述网页内容提取装置还包括：

地址替换模块，用于在获取所述目标网页或所述子目标网页失败时，通过HTTP二级代理服务器进行IP地址替换，并以新的IP地址重新获取所述目标网页或所述子目标网页。

本发明中，通过获取目标网页以及各级子目标网页，并通过预先设定的内容采集规则，对网页内容做进一步的提取，从而精确获得用户所需内容，减少用户查找网页内容的时间消耗，提高信息获取效率。

附图说明

图1为本发明网页内容提取方法第一实施例的流程示意图；

图2为本发明网页内容提取方法第二实施例的流程示意图；

图3为本发明网页内容提取方法第三实施例的流程示意图；

图4为本发明网页内容提取装置第一实施例的功能模块示意图；

图5为本发明网页内容提取装置第二实施例的功能模块示意图；

图6为本发明网页内容提取装置第三实施例的功能模块示意图；

图7为本发明网页内容提取装置第四实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明网页内容提取方法第一实施例的流程示意图。本实施例中，所述网页内容提取方法包括：

步骤S1，获取目标网页；

本实施例中，目标网页或子目标网页具体是指HTML格式文件，也即未被编译的网页。在获取目标网页之前，网页内容提取装置预先设置目标网页所对应的URL，并发送至对应的服务器，从而获得服务器所返回的HTML格式的网页。此外，本实施例中的目标网页可以是任意的网页，比如网站的主网页，或者主网页下的其他分级网页。

步骤S2，判断所述目标网页中是否存在超链接；

通常，为更好布局网页内容显示，网页编辑人员都会在网页中设置多个超链接，从而可以更为简洁方便地完成网页内容的布局，因此，一个网页所包含的内容不仅包含当前一级的网页内容，还包含下一级的网页内容，具体通过超链接的方式打开下一级的网页。因此，本实施例中，需要进一步判断当前目标网页上是否存在打开下一级网页的超链接。

步骤S3，若是，则获取所述超链接所对应的子目标网页，并以所述子目标网页作为下一目标网页，返回执行S2，直到满足预置退出条件时退出；

本实施例中，通过循环递归的方式，获取目标网页下的所有各级子目标网页，从而最大限度地扩大网页内容的提取范围。当然，考虑到可能每一个子目标网页都有可能存在超链接的情形，因此，本实施例中需要设置相应的退出条件，例如设置循环递归的次数，比如达到两次时即退出等。

步骤S4，根据设定的内容采集规则，遍历所述目标网页与所述子目标网页所对应的源代码，并从所述源代码中提取满足所述内容采集规则的网页内容。

本实施例中，对于内容采集规则设定不限，可选的，所述内容采集规则至少包括目标内容所对应的HTML标签类型、目标内容所包含的字符或字符串、目标内容的正则表达式中的一种或多种中的一种或多种。

例如，<img>标签定义图片，<video>标签定义视频，<table>定义表格等，也即获取目标网页或子目标中对应的图片、视频、表格等内容。

例如，以关键字或关键词作为采集规则，例如关键词为“ABC”，则遍历网页源代码，提取关键词“ABC”。

或者例如，也可以设置目标内容的正则表达式(正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串)，正则表达式由一些普通字符和一些元字符组成。普通字符包括大小写的字母和数字，而元字符则具有特殊的含义，例如元字符“+”用于匹配1个或多个正好在它之前的那个字符，例如正则表达式9+匹配9、99、999等。

本实施例中，获取目标网页以及各级子目标网页，并通过预先设定的内容采集规则，对网页内容做进一步的提取，从而精确获得用户所需内容，减少用户查找网页内容的时间消耗，提高信息获取效率。

参照图2，图2为本发明网页内容提取方法第二实施例的流程示意图。基于上述方法第一实施例，本实施例中，上述步骤S4之后包括：

步骤S5，根据预置的数据处理规则，对所述网页内容进行对应的数据处理，其中，所述数据处理至少包括标签过滤处理、数据格式转换、下载文件探测中的一种或多种。

本实施例中，在提取网页内容的同时，为便于用户理解和阅读，需要进一步对提取的网页内容进行数据处理，同时，本实施例中，对于数据处理规则不限，具体根据实际需要进行设置。

例如，进行标签过滤处理。由于网页源代码的生成格式的多样性，提取的网页中可能会存在某些无关的标签，比如空格标签、字体大小颜色标签等，因此，为便于用户后续阅读，需要对标签进行过滤。通常标签的格式为：<>，因此可根据标签的格式进行标签过滤处理。

例如进行数据格式转换。比如字体格式(颜色、大小)转换、繁体简体字转换、中英文转换、时间格式转换等。

例如进行下载文件的探测。比如，某些超链接实际为下载文件的超链接，对于此类下载文件的超链接，可以保留，以供用户自己根据实际需要进行处理。

本实施例中，通过对提取的网页内容进行数据处理，从而使处理后的网页内容更符合用户的使用或阅读需求，提升用户使用体验。

参照图3，图3为本发明网页内容提取方法第三实施例的流程示意图。基于上述方法第一实施例，本实施例中，上述步骤S4之后还包括：

步骤S61，根据所述网页内容所对应的HTML标签类型及预置的XML文件生成格式，采用可扩展标记语言XML对所述网页内容进行结构化描述，得到对应的XML文件；

步骤S62，编译所述XML文件，并显示编译后所生成的包含有所述网页内容的页面。

由于是从目标网页的源代码中提取的网页内容，因此并不适合直接显示给用户。本实施例中，需要进一步对网页进行显示处理，具体采用可扩展标记语言XML对提取的网页内容进行结构化描述，从而得到对应的XML文件，然后再编译XML文件，即可得到主要为所提取的网页内容的以供显示给用户的新网页。

当然，基于用户阅读要求，比如新网页的布局(内容对应为提取到的网页内容)，因此，根据提取的网页内容所对应的HTML标签类型及预置的XML文件生成格式，来进行新网页的网页格式布局，提升用户阅读体验。

进一步地，在本发明网页内容提取方法一实施例中，网页内容提取方法还包括：在获取所述目标网页或所述子目标网页失败时，通过HTTP二级代理服务器进行IP地址替换，并以新的IP地址重新获取所述目标网页或所述子目标网页。

通常，基于网站安全等因素的考虑，网站服务器都会限制同一IP的访问次数，因此，本实施例中，为避免导致访问IP地址被限制，因此，获取目标网页或子目标网页失败时，通过HTTP二级代理服务器进行IP地址替换，并以新的IP地址重新获取目标网页或子目标网页，从而得以继续进行目标网页的获取以及网页内容的提取。

参照图4，图4为本发明网页内容提取装置第一实施例的功能模块示意图。本实施例中，所述网页内容提取装置包括：

第一获取模块10，用于获取目标网页；

判断模块20，用于判断所述目标网页中是否存在超链接；

第二获取模块30，用于若所述目标网页中存在超链接，则获取所述超链接所对应的子目标网页，并以所述子目标网页作为下一目标网页，返回执行所述判断模块；

提取模块40，用于根据设定的内容采集规则，遍历所述目标网页与所述子目标网页所对应的源代码，并从所述源代码中提取满足所述内容采集规则的网页内容。

参照图5，图5为本发明网页内容提取装置第二实施例的功能模块示意图。基于上述装置第一实施例，本实施例中，所述网页内容提取装置还包括：

数据处理模块50，用于根据预置的数据处理规则，对所述网页内容进行对应的数据处理，其中，所述数据处理至少包括标签过滤处理、数据格式转换、下载文件探测中的一种或多种。

参照图6，图6为本发明网页内容提取装置第三实施例的功能模块示意图。基于上述装置第一实施例，本实施例中，所述网页内容提取装置还包括：

结构化描述模块60，用于根据所述网页内容所对应的HTML标签类型及预置的XML文件生成格式，采用可扩展标记语言XML对所述网页内容进行结构化描述，得到对应的XML文件；

编译模块70，用于编译所述XML文件，并显示编译后所生成的包含有所述网页内容的页面。

参照图7，图7为本发明网页内容提取装置第四实施例的功能模块示意图。基于上述装置第一实施例，本实施例中，所述网页内容提取装置还包括：

地址替换模块80，用于在获取所述目标网页或所述子目标网页失败时，通过HTTP二级代理服务器进行IP地址替换，并以新的IP地址重新获取所述目标网页或所述子目标网页。

通常，基于网站安全等因素的考虑，网站服务器都会限制同一IP的访问次数，因此，本实施例中，为避免导致访问IP地址被限制，因此，地址替换模块80在获取目标网页或子目标网页失败时，通过HTTP二级代理服务器进行IP地址替换，并以新的IP地址重新获取目标网页或子目标网页，从而得以继续进行目标网页的获取以及网页内容的提取。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种网页内容提取方法，其特征在于，所述网页内容提取方法包括以下步骤：

S1、获取目标网页；

S2、判断所述目标网页中是否存在超链接；

2.如权利要求1所述的网页内容提取方法，其特征在于，所述内容采集规则至少包括目标内容所对应的HTML标签类型、目标内容所包含的字符或字符串、目标内容的正则表达式中的一种或多种。

3.如权利要求1或2所述的网页内容提取方法，其特征在于，所述根据设定的内容采集规则，遍历所述目标网页与所述子目标网页所对应的源代码，并从所述源代码中提取满足所述内容采集规则的网页内容之后包括：

4.如权利要求1或2所述的网页内容提取方法，其特征在于，所述根据设定的内容采集规则，遍历所述目标网页与所述子目标网页所对应的源代码，并从所述源代码中提取满足所述内容采集规则的网页内容之后还包括：

5.如权利要求1所述的网页内容提取方法，其特征在于，所述网页内容提取方法还包括：

6.一种网页内容提取装置，其特征在于，所述网页内容提取装置包括：

第一获取模块，用于获取目标网页；

判断模块，用于判断所述目标网页中是否存在超链接；

7.如权利要求6所述的网页内容提取装置，其特征在于，所述内容采集规则至少包括目标内容所对应的HTML标签类型、目标内容所包含的字符或字符串、目标内容的正则表达式中的一种或多种。

8.如权利要求6或7所述的网页内容提取装置，其特征在于，所述网页内容提取装置还包括：

9.如权利要求6或7所述的网页内容提取装置，其特征在于，所述网页内容提取装置还包括：

10.如权利要求6所述的网页内容提取装置，其特征在于，所述网页内容提取装置还包括：