CN109299423A

CN109299423A - 一种获取网络数据的方法

Info

Publication number: CN109299423A
Application number: CN201811274605.4A
Authority: CN
Inventors: 程国艮; 郝雁华
Original assignee: Chinese Translation Language Through Polytron Technologies Inc
Current assignee: Chinese Translation Language Through Polytron Technologies Inc
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-02-01

Abstract

本发明公开一种获取网络数据的方法。所述方法在浏览器器和服务器之间，设置http代理服务，通过http代理服务的过滤特性，拦截当前网页中所有url请求，并将与各url请求对应的服务器响应内容保存为脱机文件，从而实现对所有url请求内容的有序存储，达到完整保存网页及其所包含的所有资源文件的功能。本发明所述方法将网页保存问题下降到在http协议层处理，对所有的url无差别对待，均进行保存处理，能够以对用户透明的方式实现对网页内容及其所包含的所有资源文件的完整存储，以方便在本地以离线方式进行技术分析和内容展示。

Description

一种获取网络数据的方法

技术领域

本发明属于计算机应用技术领域，具体涉及一种获取网络数据的方法。

背景技术

随着网络应用的普及，B/S架构的应用系统越来越多，用户已经习惯通过网页浏览器获取信息了。在实践中，用户经常需要保存一些网页的内容。目前用户都是通过浏览器提供的“另存为”功能来保存正在浏览的网页内容。但是，现有的浏览器“另存为”操作，不能完整保存网页内容，当js或css中包含url时，很难抓取到对应的文件；即使使用爬虫工具爬取页面，也会有部分文件不能被正确保存。

现有的网页保存方案，一般都是在内容层面处理，太过复杂的内容处理起来难度太高，而且很容易遗漏资源文件，影响前端页面展示。

本发明是在浏览器和服务器之间，通过http代理的过滤特性，拦截当前网页中所有url请求，并保存为脱机文件，从而达到完整网页另存的功能。

发明内容

为了解决现有的浏览器不能完整地保存网页的问题，本发明提供一种获取网络数据的方法，所述方法将网页保存问题下降到在http协议层处理，对所有的url无差别对待，均进行保存处理，对资源文件内容和地址不做修改，保证了脱机离线页面的完整性。

为实现上述目标，本发明采用以下技术方案：

一种获取网络数据的方法，所述方法在浏览器器和服务器之间，设置http代理服务，通过http代理服务的过滤特性，拦截当前网页中所有url请求，并将与各url请求对应的服务器响应内容保存为脱机文件，从而实现对所有url请求内容的有序存储，达到完整保存网页及其所包含的所有资源文件的功能。

一种获取网络数据的方法，所述方法包括以下步骤：

1）编写http代理服务程序，所述服务程序对http协议进行代理，读取request地址，依据该地址建立磁盘目录和文件，读取与request地址相对应的response内容存入相关联的磁盘目录和文件；

2）启动所编写的http代理服务程序；

3）设置浏览器的代理服务为所述步骤2）启动的http代理服务；

4）访问页面，http代理服务程序自动保存网页及其包含的所有资源文件；

5）在磁盘目录下可以查看所有保存的资源文件；

6）通过本地http服务可查看完整的离线网页。

所述步骤3）设置浏览器的代理服务器的方式包括自动设置或手动设置；

所述步骤4）包括以下执行过程：

（1）http代理服务程序拦截访问请求，分析请求内容，提取出其中包含的所有url；

（2）http代理服务程序为每个url创建一个对应的目录和文件名；

（3）http代理服务程序为每个url向服务器请求响应；

（4）http代理服务程序拦截服务器针对每个url的响应内容；

（5）http代理服务程序将响应内容存入与其对应的目录和文件中；

（6）当用户选择保存网页时，http代理服务程序将网页内容与其中包含的所有资源文件有序地存储在一起。

本发明的优点和有益效果为：能够以对用户透明的方式实现对网页内容及其所包含的所有资源文件的完整存储，以方便在本地以离线方式进行技术分析和内容展示。

附图说明

附图1是本发明所述一种获取网络数据的方法工作流程图。

具体实施方式

下面结合实施例对本发明作进一步说明。

实施例

参见附图1。

一种获取网络数据的方法，包括以下步骤：

1）编写http代理服务程序，对http协议进行代理，读取request地址，依据该地址建立磁盘目录和文件，读取与request地址相对应的response内容存入相关联的磁盘目录和文件；

2）启动所编写的http代理服务程序；

3）设置360安全浏览器的代理服务为所述步骤2）启动的http代理服务；

4）访问新浪网首页页面，http代理服务程序自动保存网页及其包含的所有资源文件；

5）在磁盘目录下可以查看所有保存的资源文件；

6）通过本地http服务可查看完整的新浪网首页的离线网页。

所述步骤4）包括以下执行过程：

（1）http代理服务程序拦截对新浪网首页的访问请求，分析请求内容，提取出其中包含的所有url；

（3）http代理服务程序为每个url向服务器请求响应内容；

（4）http代理服务程序拦截服务器针对每个url的响应内容；

（6）当用户选择保存新浪网首页时，http代理服务程序将新浪网首页的内容与其中包含的所有资源文件有序地存储在一起。

最后应说明的是：显然，上述实施例仅仅是为清楚地说明本发明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims

1.一种获取网络数据的方法，其特征在于：所述方法在浏览器和服务器之间，设置http代理服务，通过http代理服务的过滤特性，拦截当前网页中所有url请求，并将与各url请求对应的服务器响应内容保存为脱机文件，从而实现对所有url请求内容的有序存储，达到完整保存网页及其所包含的所有资源文件的目的。

2.根据权利要求1 所述的一种获取网络数据的方法，其特征在于，所述方法包括以下步骤：

2）启动所编写的http代理服务程序；

5）在磁盘目录下可以查看所有保存的资源文件；

6）通过本地http服务可查看完整的离线网页。

3.根据权利要求1或2所述的一种获取网络数据的方法，其特征在于：所述步骤3）设置浏览器的代理服务器的方式包括自动设置或手动设置。

4.根据权利要求1或2所述的一种获取网络数据的方法，其特征在于，所述步骤4）包括以下执行过程：

（2） http代理服务程序为每个url创建一个对应的目录和文件名；

（3）http代理服务程序为每个url向服务器请求响应；

（4）http代理服务程序拦截服务器针对每个url的响应内容；