CN101127038A

CN101127038A - 下载网站静态网页的系统及方法

Info

Publication number: CN101127038A
Application number: CNA2006100621962A
Authority: CN
Inventors: 李忠一; 叶建发; 卢秋桦; 姜志强
Original assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2006-08-18
Filing date: 2006-08-18
Publication date: 2008-02-20
Anticipated expiration: 2026-08-18
Also published as: US7702814B2; US20080046449A1; CN101127038B

Abstract

一种下载网站静态网页的系统，包括至少一台目标网站服务器、一台内部服务器，一台与该目标网站服务器和内部服务器相连的应用服务器及与该应用服务器和内部服务器相连的数据库，该应用服务器包括：写入模块，用于将所需下载的网址写入脚本文件；解析模块，用于解析该脚本文件获取该网站网页内容及解析该网页内容以获取目标内容；转换模块，用于将目标内容中的相对链接转换成绝对链接；下载模块，用于将图片下载并保存到内部服务器；储存模块，用于将网页的绝对链接保存到数据库，同时生成该绝对链接的标识符；替换模块，用于以所述图片及网页在内部服务器中的链接取代其绝对链接。利用本发明可将网站内容按照其组织方式和结构完整的下载到本地。

Description

下载网站静态网页的系统及方法

技术领域

本发明涉及一种下载网站静态网页的系统及方法。

背景技术

近年来，由于网络世界的蓬勃发展，网上浏览资讯已成为人们日常工作、学习和生活中不可或缺的一个重要部分，网络的信息量大，已成为全球“最大的图书馆”。

一般而言，使用者在将一电脑与国际互联网连线后，通过电脑的网络浏览器就可至国际互联网浏览网页，用户点击某条资讯后，在新打开的网页里面显示这条资讯的全部内容，这个网页里面包括资讯内容，广告和其它与此资讯无关的内容。然而，对企业一些不能与国际互联网连线的部门员工来说，不能通过网络浏览器上网浏览所需资讯给他们的工作带来很多不便。

发明内容

鉴于以上内容，有必要提供一种下载网站静态网页的系统，其可将网站内容按照其组织方式和结构完整的下载到本地，并可过滤不需要的网页内容。

此外，还有必要提供一种下载网站静态网页的方法，其可将网站内容按照其组织方式和结构完整的下载到本地，并可过滤不需要的网页内容。

一种下载网站静态网页的系统，包括至少一台应用服务器、一台与所述应用服务器相连的目标网站服务器，一台与所述应用服务器相连的内部服务器及与所述应用服务器和内部服务器相连的数据库，该应用服务器包括：写入模块，用于根据客户提供的网页下载清单将所需下载的网页的网址写入脚本文件；解析模块，用于解析该脚本文件，从目标网站服务器获取所述网站网页内容，并将所述网页链接保存到数据库及解析所述网页内容以获取目标内容；转换模块，用于将目标内容中所有图片的相对链接转换成绝对链接及将目标内容中所有网页链接的相对链接转换成绝对链接；下载模块，用于通过所述图片的绝对链接将目标内容中所有图片下载并保存到内部服务器；储存模块，用于将目标内容中所有网页的绝对链接保存到数据库，同时生成所述网页绝对链接的标识符并将该标识符保存到数据库；替换模块，用于以目标内容中图片在内部服务器中的链接取代所述图片的绝对链接及用于把将所述网页绝对链接的标识符与网页请求语言写入所述网页在内部服务器中的链接，并以该写入标识符和网页请求语言的链接取代所述网页的绝对链接。

一种下载网站静态网页的方法，该方法包括如下步骤：根据客户提供的网页下载清单将所需下载的网页的网址写入脚本文件；解析该脚本文件，从目标网站服务器获取所述网站网页内容，并将所述网页链接保存到数据库；解析所述网站网页内容以获取目标内容；将目标内容中所有图片的相对链接转换成绝对链接；通过所述绝对链接将目标内容中图片下载并保存到内部服务器；以目标内容中所有图片在内部服务器中的链接取代所述图片的绝对链接；将目标内容中所有网页的相对链接转换成绝对链接；把目标内容中所有网页的绝对链接保存到数据库，同时生成所述网页链接的标识符并将该标识符保存到数据库；将所述网页绝对链接的标识符与网页请求语言写入所述网页在内部服务器中的链接，并以该写入标识符与网页请求语言的链接取代所述网页的绝对链接。

相较于现有技术，所述的一种下载网站静态网页的系统及方法，能将网站按照其组织方式和结构完整的下载到本地，并可过滤不需要的网页内容，使企业不能上国际互联网的人员能通过本地服务器浏览到所需网页信息。

附图说明

图1是本发明下载网站静态网页系统的较佳实施例的硬件框架图。

图2是图1中应用服务器的功能模块图。

图3是本发明下载网站静态网页方法的较佳实施例的流程图。

具体实施方式

如图1所示，是本发明下载网站静态网页系统的较佳实施例的硬件框架图。该系统包括一台应用服务器1、内部服务器2、数据库3、防火墙4、国际互联网5及目标网站服务器6。该系统根据客户提供的网页下载清单通过应用服务器1从国际互联网5链接目标网站服务器6来下载和过滤所需网页，并将下载的网页存入内部服务器2及数据库3中，防火墙4用于管控外部网络的资讯安全。

所述应用服务器1用于下载和过滤网页，所述内部服务器2用于储存与资讯内容有关的图片，所述的数据库3用于储存网页部分的资讯内容。该数据库3和该内部服务器2，可位于应用服务器1内。该数据库3和该内部服务器2可以是硬盘或者闪存盘等存储设备。

如图2所示，是图1中应用服务器的的功能模块图。该应用服务器1包括写入模块10、解析模块12、转换模块14、下载模块16、储存模块18、替换模块20及判断模块22。

所述写入模块10，用于根据客户提供的网页下载清单将所需下载网页的地址写入XQuery脚本文件。

所述解析模块12，用于解析该XQuery脚本文件来从目标网站服务器获取所述网页内容，并将所述网页链接保存到数据库3中。该解析过程包括：解析该XQuery脚本文件，生成包含Command结点的扩展标记语言(Extensible Markup Language，XML)文件，统一资源定位器(Uniform Resource Locator，URL)结点命令抓取该XML文件中的Address结点，链接该Address结点中的网址，该网址即为写入模块10所写入的网页地址。所述解析模块12还用于解析所述网页内容来获取目标内容。其中，解析XQuery脚本文件所获取的网页内容为超文本标记语言(Hypetext Marked Language，HTML)格式，而解析模块12使用的XQuery是基于XML的查询语言，只能解析XML格式的文件，因此，在解析网页内容获取目标内容前还需将HTML格式内容转换成XML格式内容。该目标内容是指客户需要浏览的网页内容，为获取目标内容还需要过滤该目标内容中无关的网页内容，例如广告。该过滤是通过分析网页的XML内容，通过XML中结点的名称、风格等属性删除一些不需要的结点。

所述转换模块14，用于将目标内容中所有图片的相对链接转换成绝对链接及将目标内容中所有网页的相对链接转换成绝对链接。所述绝对链接是指有完整路径的链接，相对链接只有服务器目录级别及文件名称，而浏览器只认绝对链接，所以必须把相对链接的信息补全，将相对链接转换成绝对链接才可以正常显示。例如：若有链接路径为flash/swfI/1089246822_zhenzj.swf，该链接为相对链接，查看所在网页的地址为http://www.flashempire.com，要将相对链接转换成完整路径，即将该网页地址加在所述相对链接前面：http://www.flashempire.com/flash/swfI/1089246822_zhenzj.swf，该链接即为绝对链接。

所述下载模块16，用于通过所述绝对链接将目标内容中图片下载并保存到内部服务器2。

所述储存模块18，用于通过所述绝对链接将目标内容中所有网页绝对链接保存到数据库3，同时生成所述网页绝对链接的标识符(identifier，ID)并将该ID保存到数据库3。

所述替换模块20，用于以目标内容中所有图片在内部服务器2中的链接取代所述图片的绝对链接，及用于将所述网页绝对链接的ID与JSP(JavaServer Pages)网页请求语言写入所述网页在内部服务器2中的链接，并以该写入标识符和网页请求语言的链接取代所述网页的绝对链接。其中JSP是一种动态网页技术标准。它是在传统的网页HTML文件(^*.htm，^*.html)中插入Java程序段和JSP，从而形成JSP文件(^*.jsp)。Web服务器在遇到访问JSP网页的请求时，首先执行其中的程序段，然后将执行结果连同JSP文件中的HTML代码一起返回给客户。例如：若网页绝对链接ID＝12214，该网页在内部服务器中的链接为http://10.153.26.104:8080/cic2，则将ID＝12214和JSP网页请求语言ShowPage.jsp？page写入http://10.153.26.104:8080/cic2，即：http://10.153.26.104:8080/cic2/ShowPage.jsp？pageID＝12214。通过该修改后链接就可显示目标内容中所链接的网页内容。

所述判断模块22，用于判断所述取代后的网页链接所显示的网页中是否还有需要下载的链接。

如图3所示，是本发明一种下载网站静态网页方法的较佳实施例的流程图。首先，步骤S10，根据客户提供网页下载清单将所需下载网页的网址写入XQuery脚本文件。步骤S12，解析模块12解析该XQuery脚本文件，从目标网站服务器获取所述网页内容，并将所述网页链接保存到数据库。步骤S14，解析模块12解析所述网页内容来获取目标内容。步骤S16，转换模块14将所述目标内容中所有图片的相对链接转换成绝对链接。步骤S18，下载模块16通过所述图片的绝对链接将目标内容中图片下载并保存到内部服务器2。步骤S20，替换模块18以目标内容网页中所有图片在内部服务器2中的链接取代所述图片的绝对链接。步骤S22，转换模块14将目标内容中所有网页的相对链接转换成绝对链接。步骤S24，储存模块18将目标内容中所有绝对链接保存到数据库3，同时生成所述网页绝对链接的ID并将该ID保存到数据库3。步骤S26，替换模块20将所述网页绝对链接的ID与JSP网页请求语言写入所述网页在内部服务器2中的链接，并以该写入标识符和网页请求语言的链接取代所述网页的绝对链接。步骤S28，判断模块22判断所述取代后的网页链接所显示的网页中是否还有需要下载的链接。步骤S30，储存模块18将替换模块18处理后的目标内容保存到数据库3。

在步骤S28中，若所述取代后的网页链接所显示的网页中有需要继续下载的链接，则返回步骤S14解析网页内容来获取目标内容。

Claims

1.一种下载网站静态网页的系统，包括至少一台应用服务器、一台与所述应用服务器相连的目标网站服务器、一台与所述应用服务器相连的内部服务器及与所述应用服务器和内部服务器相连的数据库，其特征在于，所述应用服务器包括：

写入模块，用于根据客户提供的网页下载清单将所需下载的网页的网址写入脚本文件；

解析模块，用于解析该脚本文件，从目标网站服务器获取所述网页内容，并将所述网页链接保存到数据库及解析所述网页内容以获取目标内容；

转换模块，用于将目标内容中所有图片的相对链接转换成绝对链接及将目标内容中所有网页链接的相对链接转换成绝对链接；

下载模块，用于通过所述图片的绝对链接将目标内容中所有图片下载并保存到内部服务器；

储存模块，用于将目标内容中所有网页的绝对链接保存到数据库，同时生成所述网页绝对链接的标识符并将该标识符保存到数据库；及

替换模块，用于以目标内容中所有图片在内部服务器中的链接取代所述图片的绝对链接及用于将所述网页绝对链接的标识符与网页请求语言写入该网页在内部服务器中的链接，并以该写入标识符与网页请求语言的链接取代所述网页的绝对链接。

2.如权利要求1所述的下载网站静态网页的系统，其特征在于，该应用服务器还包括：

判断模块，用于判断所述取代后的网页链接所显示得网页中是否有需要继续下载的链接。

3.如权利要求1所述的下载网站静态网页的系统，其特征在于，所述储存模块还用于将替换模块取代后的目标内容保存到数据库。

4.如权利要求1所述的下载网站静态网页的系统，其特征在于，所述的脚本为一种基于可扩展标记语言的查询语言的脚本。

5.如权利要求1所述的下载网站静态网页的系统，其特征在于，所述解析模块解析脚本文件从目标网站服务器获取目标内容的同时还过滤掉目标内容中一些不需要的网页内容。

6.一种下载网站静态网页的方法，其特征在于，该方法包括如下步骤：

根据客户提供的网页下载清单将所需下载的网页的网址写入脚本文件；

解析该脚本文件，从目标网站服务器获取所述网页内容，并将所述网页链接保存到数据库；

解析所述网页内容以获取目标内容；

将目标内容中所有图片的相对链接转换成绝对链接；

通过所述绝对链接将目标内容中图片下载并保存到内部服务器；

以目标内容中所有图片在内部服务器中的链接取代所述图片的绝对链接；

将目标内容中所有网页的相对链接转换成绝对链接；

将目标内容中所有网页的绝对链接保存到数据库，同时生成所述网页绝对链接的标识符并将该标识符保存到数据库；及

将所述网页绝对链接的标识符与网页请求语言写入该网页在内部服务器中的链接，并以该写入标识符与网页请求语言的链接取代所述网页的绝对链接。

7.如权利要求6所述的下载网站静态网页的方法，其特征在于，该方法还包括步骤：

判断所述取代后的网页链接所显示的网页中是否有需要继续下载的链接；

若所述取代后的网页链接所显示的网页中没有需要继续下载的链接，则将取代后的目标内容保存到数据库。

8.如权利要求7所述的下载网站静态网页的方法，其特征在于，该方法还包括步骤：

若所述取代后的网页链接所显示的网页中有需要继续下载的链接，则返回至步骤解析所述网页内容来获取目标内容。