CN109299423A - 一种获取网络数据的方法 - Google Patents

一种获取网络数据的方法 Download PDF

Info

Publication number
CN109299423A
CN109299423A CN201811274605.4A CN201811274605A CN109299423A CN 109299423 A CN109299423 A CN 109299423A CN 201811274605 A CN201811274605 A CN 201811274605A CN 109299423 A CN109299423 A CN 109299423A
Authority
CN
China
Prior art keywords
http
agency service
url
service program
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811274605.4A
Other languages
English (en)
Inventor
程国艮
郝雁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201811274605.4A priority Critical patent/CN109299423A/zh
Publication of CN109299423A publication Critical patent/CN109299423A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种获取网络数据的方法。所述方法在浏览器器和服务器之间,设置http代理服务,通过http代理服务的过滤特性,拦截当前网页中所有url请求,并将与各url请求对应的服务器响应内容保存为脱机文件,从而实现对所有url请求内容的有序存储,达到完整保存网页及其所包含的所有资源文件的功能。本发明所述方法将网页保存问题下降到在http协议层处理,对所有的url无差别对待,均进行保存处理,能够以对用户透明的方式实现对网页内容及其所包含的所有资源文件的完整存储,以方便在本地以离线方式进行技术分析和内容展示。

Description

一种获取网络数据的方法
技术领域
本发明属于计算机应用技术领域,具体涉及一种获取网络数据的方法。
背景技术
随着网络应用的普及,B/S架构的应用系统越来越多,用户已经习惯通过网页浏览器获取信息了。在实践中,用户经常需要保存一些网页的内容。目前用户都是通过浏览器提供的“另存为”功能来保存正在浏览的网页内容。但是,现有的浏览器“另存为”操作,不能完整保存网页内容,当js或css中包含url时,很难抓取到对应的文件;即使使用爬虫工具爬取页面,也会有部分文件不能被正确保存。
现有的网页保存方案,一般都是在内容层面处理,太过复杂的内容处理起来难度太高,而且很容易遗漏资源文件,影响前端页面展示。
本发明是在浏览器和服务器之间,通过http代理的过滤特性,拦截当前网页中所有url请求,并保存为脱机文件,从而达到完整网页另存的功能。
发明内容
为了解决现有的浏览器不能完整地保存网页的问题,本发明提供一种获取网络数据的方法,所述方法将网页保存问题下降到在http协议层处理,对所有的url无差别对待,均进行保存处理,对资源文件内容和地址不做修改,保证了脱机离线页面的完整性。
为实现上述目标,本发明采用以下技术方案:
一种获取网络数据的方法,所述方法在浏览器器和服务器之间,设置http代理服务,通过http代理服务的过滤特性,拦截当前网页中所有url请求,并将与各url请求对应的服务器响应内容保存为脱机文件,从而实现对所有url请求内容的有序存储,达到完整保存网页及其所包含的所有资源文件的功能。
一种获取网络数据的方法,所述方法包括以下步骤:
1)编写http代理服务程序,所述服务程序对http协议进行代理,读取request地址,依据该地址建立磁盘目录和文件,读取与request地址相对应的response内容存入相关联的磁盘目录和文件;
2)启动所编写的http代理服务程序;
3)设置浏览器的代理服务为所述步骤2)启动的http代理服务;
4)访问页面,http代理服务程序自动保存网页及其包含的所有资源文件;
5)在磁盘目录下可以查看所有保存的资源文件;
6)通过本地http服务可查看完整的离线网页。
所述步骤3)设置浏览器的代理服务器的方式包括自动设置或手动设置;
所述步骤4)包括以下执行过程:
(1)http代理服务程序拦截访问请求,分析请求内容,提取出其中包含的所有url;
(2)http代理服务程序为每个url创建一个对应的目录和文件名;
(3)http代理服务程序为每个url向服务器请求响应;
(4)http代理服务程序拦截服务器针对每个url的响应内容;
(5)http代理服务程序将响应内容存入与其对应的目录和文件中;
(6)当用户选择保存网页时,http代理服务程序将网页内容与其中包含的所有资源文件有序地存储在一起。
本发明的优点和有益效果为:能够以对用户透明的方式实现对网页内容及其所包含的所有资源文件的完整存储,以方便在本地以离线方式进行技术分析和内容展示。
附图说明
附图1是本发明所述一种获取网络数据的方法工作流程图。
具体实施方式
下面结合实施例对本发明作进一步说明。
实施例
参见附图1。
一种获取网络数据的方法,包括以下步骤:
1)编写http代理服务程序,对http协议进行代理,读取request地址,依据该地址建立磁盘目录和文件,读取与request地址相对应的response内容存入相关联的磁盘目录和文件;
2)启动所编写的http代理服务程序;
3)设置360安全浏览器的代理服务为所述步骤2)启动的http代理服务;
4)访问新浪网首页页面,http代理服务程序自动保存网页及其包含的所有资源文件;
5)在磁盘目录下可以查看所有保存的资源文件;
6)通过本地http服务可查看完整的新浪网首页的离线网页。
所述步骤4)包括以下执行过程:
(1)http代理服务程序拦截对新浪网首页的访问请求,分析请求内容,提取出其中包含的所有url;
(2)http代理服务程序为每个url创建一个对应的目录和文件名;
(3)http代理服务程序为每个url向服务器请求响应内容;
(4)http代理服务程序拦截服务器针对每个url的响应内容;
(5)http代理服务程序将响应内容存入与其对应的目录和文件中;
(6)当用户选择保存新浪网首页时,http代理服务程序将新浪网首页的内容与其中包含的所有资源文件有序地存储在一起。
最后应说明的是:显然,上述实施例仅仅是为清楚地说明本发明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。

Claims (4)

1.一种获取网络数据的方法,其特征在于:所述方法在浏览器和服务器之间,设置http代理服务,通过http代理服务的过滤特性,拦截当前网页中所有url请求,并将与各url请求对应的服务器响应内容保存为脱机文件,从而实现对所有url请求内容的有序存储,达到完整保存网页及其所包含的所有资源文件的目的。
2.根据权利要求1 所述的一种获取网络数据的方法,其特征在于,所述方法包括以下步骤:
1)编写http代理服务程序,所述服务程序对http协议进行代理,读取request地址,依据该地址建立磁盘目录和文件,读取与request地址相对应的response内容存入相关联的磁盘目录和文件;
2)启动所编写的http代理服务程序;
3)设置浏览器的代理服务为所述步骤2)启动的http代理服务;
4)访问页面,http代理服务程序自动保存网页及其包含的所有资源文件;
5)在磁盘目录下可以查看所有保存的资源文件;
6)通过本地http服务可查看完整的离线网页。
3.根据权利要求1或2所述的一种获取网络数据的方法,其特征在于:所述步骤3)设置浏览器的代理服务器的方式包括自动设置或手动设置。
4.根据权利要求1或2所述的一种获取网络数据的方法,其特征在于,所述步骤4)包括以下执行过程:
(1)http代理服务程序拦截访问请求,分析请求内容,提取出其中包含的所有url;
(2) http代理服务程序为每个url创建一个对应的目录和文件名;
(3)http代理服务程序为每个url向服务器请求响应;
(4)http代理服务程序拦截服务器针对每个url的响应内容;
(5)http代理服务程序将响应内容存入与其对应的目录和文件中;
(6)当用户选择保存网页时,http代理服务程序将网页内容与其中包含的所有资源文件有序地存储在一起。
CN201811274605.4A 2018-10-30 2018-10-30 一种获取网络数据的方法 Pending CN109299423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811274605.4A CN109299423A (zh) 2018-10-30 2018-10-30 一种获取网络数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811274605.4A CN109299423A (zh) 2018-10-30 2018-10-30 一种获取网络数据的方法

Publications (1)

Publication Number Publication Date
CN109299423A true CN109299423A (zh) 2019-02-01

Family

ID=65159037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811274605.4A Pending CN109299423A (zh) 2018-10-30 2018-10-30 一种获取网络数据的方法

Country Status (1)

Country Link
CN (1) CN109299423A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782998A (zh) * 2020-06-19 2020-10-16 厦门市美亚柏科信息股份有限公司 一种基于chrome的网页镜像、回放及本地映射地图生成方法
CN112800309A (zh) * 2021-01-30 2021-05-14 上海应用技术大学 基于http代理的爬虫系统及其实现方法
CN114422528A (zh) * 2022-01-19 2022-04-29 杭州笨马网络技术有限公司 基于桌面端和Web应用的请求数据同步的方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079057A (zh) * 2007-03-14 2007-11-28 腾讯科技(深圳)有限公司 一种保存网页中多个链接对象的系统及方法
US20100064234A1 (en) * 2007-03-09 2010-03-11 Ghost, Inc. System and Method for Browser within a Web Site and Proxy Server
CN102323935A (zh) * 2011-08-31 2012-01-18 中兴通讯股份有限公司 中间服务器、移动浏览方法及系统
CN102737116A (zh) * 2012-05-29 2012-10-17 深圳市同洲电子股份有限公司 一种网页资源保存方法和装置
CN103297476A (zh) * 2012-03-02 2013-09-11 腾讯科技(深圳)有限公司 一种网页游戏加载方法及装置
CN103488636A (zh) * 2012-06-11 2014-01-01 腾讯科技(深圳)有限公司 一种离线浏览网页的方法及装置
CN103763308A (zh) * 2013-12-31 2014-04-30 北京明朝万达科技有限公司 一种智能终端安全访问网页和下载数据的方法和装置
CN103902571A (zh) * 2012-12-27 2014-07-02 腾讯科技(深圳)有限公司 保存网页完整内容的方法、系统及相应的客户端和服务器
CN105205151A (zh) * 2015-09-24 2015-12-30 福建天晴数码有限公司 在移动端节约浏览器页面流量的方法及系统
CN105847312A (zh) * 2015-01-14 2016-08-10 华为技术有限公司 一种资源访问方法及用户终端
CN108549706A (zh) * 2018-04-18 2018-09-18 北京车和家信息技术有限公司 一种网页的处理方法及相关设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100064234A1 (en) * 2007-03-09 2010-03-11 Ghost, Inc. System and Method for Browser within a Web Site and Proxy Server
CN101079057A (zh) * 2007-03-14 2007-11-28 腾讯科技(深圳)有限公司 一种保存网页中多个链接对象的系统及方法
CN102323935A (zh) * 2011-08-31 2012-01-18 中兴通讯股份有限公司 中间服务器、移动浏览方法及系统
CN103297476A (zh) * 2012-03-02 2013-09-11 腾讯科技(深圳)有限公司 一种网页游戏加载方法及装置
CN102737116A (zh) * 2012-05-29 2012-10-17 深圳市同洲电子股份有限公司 一种网页资源保存方法和装置
CN103488636A (zh) * 2012-06-11 2014-01-01 腾讯科技(深圳)有限公司 一种离线浏览网页的方法及装置
CN103902571A (zh) * 2012-12-27 2014-07-02 腾讯科技(深圳)有限公司 保存网页完整内容的方法、系统及相应的客户端和服务器
CN103763308A (zh) * 2013-12-31 2014-04-30 北京明朝万达科技有限公司 一种智能终端安全访问网页和下载数据的方法和装置
CN105847312A (zh) * 2015-01-14 2016-08-10 华为技术有限公司 一种资源访问方法及用户终端
CN105205151A (zh) * 2015-09-24 2015-12-30 福建天晴数码有限公司 在移动端节约浏览器页面流量的方法及系统
CN108549706A (zh) * 2018-04-18 2018-09-18 北京车和家信息技术有限公司 一种网页的处理方法及相关设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782998A (zh) * 2020-06-19 2020-10-16 厦门市美亚柏科信息股份有限公司 一种基于chrome的网页镜像、回放及本地映射地图生成方法
CN112800309A (zh) * 2021-01-30 2021-05-14 上海应用技术大学 基于http代理的爬虫系统及其实现方法
CN114422528A (zh) * 2022-01-19 2022-04-29 杭州笨马网络技术有限公司 基于桌面端和Web应用的请求数据同步的方法
CN114422528B (zh) * 2022-01-19 2024-06-07 杭州笨马网络技术有限公司 基于桌面端和Web应用的请求数据同步的方法

Similar Documents

Publication Publication Date Title
CN106980700B (zh) 在浏览器侧进行网络搜索的方法与浏览器
CN103034518B (zh) 加载浏览器控制工具的方法及浏览器
EP2500834A1 (en) Method and System for Transferring Application Program Settings Between Applications
EP2399200A1 (en) Method and system of processing cookies across domains
CN102768683B (zh) 一种图片信息的搜索方法及搜索装置
CN109299423A (zh) 一种获取网络数据的方法
US20160306887A1 (en) Methods, apparatuses and systems for linked and personalized extended search
CN106033450B (zh) 一种广告拦截的方法、装置和浏览器
CN103617266A (zh) 个性化扩展搜索方法及装置、系统
CN102298599A (zh) 离线浏览网页方法及其系统
US20090100322A1 (en) Retrieving data relating to a web page prior to initiating viewing of the web page
CN102663049A (zh) 一种更新搜索引擎网址库方法及装置
EP1751678A1 (en) Saving multiple browser instances as a selectable web project
US20230409398A1 (en) Resource pre-fetch using age threshold
CN108763500A (zh) 基于语音的网页浏览方法、装置、设备及存储介质
RU2693193C1 (ru) Автоматизированное извлечение информации
CN110321510A (zh) 页面渲染方法和系统
US9998559B2 (en) Preemptive caching of data
CN110020297A (zh) 一种网页内容的加载方法、装置及系统
US20130230248A1 (en) Ensuring validity of the bookmark reference in a collaborative bookmarking system
CN112579947A (zh) 网页元素图的截取方法、装置及电子设备
US20030052918A1 (en) Method and apparatus for allowing one bookmark to replace another
CN103390050B (zh) 网页预取的方法、装置及终端设备
US20130311860A1 (en) Identifying Referred Documents Based on a Search Result
WO2017180446A1 (en) Separation of work and personal content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201