CN101127038A - 下载网站静态网页的系统及方法 - Google Patents

下载网站静态网页的系统及方法 Download PDF

Info

Publication number
CN101127038A
CN101127038A CNA2006100621962A CN200610062196A CN101127038A CN 101127038 A CN101127038 A CN 101127038A CN A2006100621962 A CNA2006100621962 A CN A2006100621962A CN 200610062196 A CN200610062196 A CN 200610062196A CN 101127038 A CN101127038 A CN 101127038A
Authority
CN
China
Prior art keywords
web page
link
object content
server
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100621962A
Other languages
English (en)
Other versions
CN101127038B (zh
Inventor
李忠一
叶建发
卢秋桦
姜志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN200610062196A priority Critical patent/CN101127038B/zh
Priority to US11/756,593 priority patent/US7702814B2/en
Publication of CN101127038A publication Critical patent/CN101127038A/zh
Application granted granted Critical
Publication of CN101127038B publication Critical patent/CN101127038B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching

Abstract

一种下载网站静态网页的系统,包括至少一台目标网站服务器、一台内部服务器,一台与该目标网站服务器和内部服务器相连的应用服务器及与该应用服务器和内部服务器相连的数据库,该应用服务器包括:写入模块,用于将所需下载的网址写入脚本文件;解析模块,用于解析该脚本文件获取该网站网页内容及解析该网页内容以获取目标内容;转换模块,用于将目标内容中的相对链接转换成绝对链接;下载模块,用于将图片下载并保存到内部服务器;储存模块,用于将网页的绝对链接保存到数据库,同时生成该绝对链接的标识符;替换模块,用于以所述图片及网页在内部服务器中的链接取代其绝对链接。利用本发明可将网站内容按照其组织方式和结构完整的下载到本地。

Description

下载网站静态网页的系统及方法
技术领域
本发明涉及一种下载网站静态网页的系统及方法。
背景技术
近年来,由于网络世界的蓬勃发展,网上浏览资讯已成为人们日常工作、学习和生活中不可或缺的一个重要部分,网络的信息量大,已成为全球“最大的图书馆”。
一般而言,使用者在将一电脑与国际互联网连线后,通过电脑的网络浏览器就可至国际互联网浏览网页,用户点击某条资讯后,在新打开的网页里面显示这条资讯的全部内容,这个网页里面包括资讯内容,广告和其它与此资讯无关的内容。然而,对企业一些不能与国际互联网连线的部门员工来说,不能通过网络浏览器上网浏览所需资讯给他们的工作带来很多不便。
发明内容
鉴于以上内容,有必要提供一种下载网站静态网页的系统,其可将网站内容按照其组织方式和结构完整的下载到本地,并可过滤不需要的网页内容。
此外,还有必要提供一种下载网站静态网页的方法,其可将网站内容按照其组织方式和结构完整的下载到本地,并可过滤不需要的网页内容。
一种下载网站静态网页的系统,包括至少一台应用服务器、一台与所述应用服务器相连的目标网站服务器,一台与所述应用服务器相连的内部服务器及与所述应用服务器和内部服务器相连的数据库,该应用服务器包括:写入模块,用于根据客户提供的网页下载清单将所需下载的网页的网址写入脚本文件;解析模块,用于解析该脚本文件,从目标网站服务器获取所述网站网页内容,并将所述网页链接保存到数据库及解析所述网页内容以获取目标内容;转换模块,用于将目标内容中所有图片的相对链接转换成绝对链接及将目标内容中所有网页链接的相对链接转换成绝对链接;下载模块,用于通过所述图片的绝对链接将目标内容中所有图片下载并保存到内部服务器;储存模块,用于将目标内容中所有网页的绝对链接保存到数据库,同时生成所述网页绝对链接的标识符并将该标识符保存到数据库;替换模块,用于以目标内容中图片在内部服务器中的链接取代所述图片的绝对链接及用于把将所述网页绝对链接的标识符与网页请求语言写入所述网页在内部服务器中的链接,并以该写入标识符和网页请求语言的链接取代所述网页的绝对链接。
一种下载网站静态网页的方法,该方法包括如下步骤:根据客户提供的网页下载清单将所需下载的网页的网址写入脚本文件;解析该脚本文件,从目标网站服务器获取所述网站网页内容,并将所述网页链接保存到数据库;解析所述网站网页内容以获取目标内容;将目标内容中所有图片的相对链接转换成绝对链接;通过所述绝对链接将目标内容中图片下载并保存到内部服务器;以目标内容中所有图片在内部服务器中的链接取代所述图片的绝对链接;将目标内容中所有网页的相对链接转换成绝对链接;把目标内容中所有网页的绝对链接保存到数据库,同时生成所述网页链接的标识符并将该标识符保存到数据库;将所述网页绝对链接的标识符与网页请求语言写入所述网页在内部服务器中的链接,并以该写入标识符与网页请求语言的链接取代所述网页的绝对链接。
相较于现有技术,所述的一种下载网站静态网页的系统及方法,能将网站按照其组织方式和结构完整的下载到本地,并可过滤不需要的网页内容,使企业不能上国际互联网的人员能通过本地服务器浏览到所需网页信息。
附图说明
图1是本发明下载网站静态网页系统的较佳实施例的硬件框架图。
图2是图1中应用服务器的功能模块图。
图3是本发明下载网站静态网页方法的较佳实施例的流程图。
具体实施方式
如图1所示,是本发明下载网站静态网页系统的较佳实施例的硬件框架图。该系统包括一台应用服务器1、内部服务器2、数据库3、防火墙4、国际互联网5及目标网站服务器6。该系统根据客户提供的网页下载清单通过应用服务器1从国际互联网5链接目标网站服务器6来下载和过滤所需网页,并将下载的网页存入内部服务器2及数据库3中,防火墙4用于管控外部网络的资讯安全。
所述应用服务器1用于下载和过滤网页,所述内部服务器2用于储存与资讯内容有关的图片,所述的数据库3用于储存网页部分的资讯内容。该数据库3和该内部服务器2,可位于应用服务器1内。该数据库3和该内部服务器2可以是硬盘或者闪存盘等存储设备。
如图2所示,是图1中应用服务器的的功能模块图。该应用服务器1包括写入模块10、解析模块12、转换模块14、下载模块16、储存模块18、替换模块20及判断模块22。
所述写入模块10,用于根据客户提供的网页下载清单将所需下载网页的地址写入XQuery脚本文件。
所述解析模块12,用于解析该XQuery脚本文件来从目标网站服务器获取所述网页内容,并将所述网页链接保存到数据库3中。该解析过程包括:解析该XQuery脚本文件,生成包含Command结点的扩展标记语言(Extensible Markup Language,XML)文件,统一资源定位器(Uniform Resource Locator,URL)结点命令抓取该XML文件中的Address结点,链接该Address结点中的网址,该网址即为写入模块10所写入的网页地址。所述解析模块12还用于解析所述网页内容来获取目标内容。其中,解析XQuery脚本文件所获取的网页内容为超文本标记语言(Hypetext Marked Language,HTML)格式,而解析模块12使用的XQuery是基于XML的查询语言,只能解析XML格式的文件,因此,在解析网页内容获取目标内容前还需将HTML格式内容转换成XML格式内容。该目标内容是指客户需要浏览的网页内容,为获取目标内容还需要过滤该目标内容中无关的网页内容,例如广告。该过滤是通过分析网页的XML内容,通过XML中结点的名称、风格等属性删除一些不需要的结点。
所述转换模块14,用于将目标内容中所有图片的相对链接转换成绝对链接及将目标内容中所有网页的相对链接转换成绝对链接。所述绝对链接是指有完整路径的链接,相对链接只有服务器目录级别及文件名称,而浏览器只认绝对链接,所以必须把相对链接的信息补全,将相对链接转换成绝对链接才可以正常显示。例如:若有链接路径为flash/swfI/1089246822_zhenzj.swf,该链接为相对链接,查看所在网页的地址为http://www.flashempire.com,要将相对链接转换成完整路径,即将该网页地址加在所述相对链接前面:http://www.flashempire.com/flash/swfI/1089246822_zhenzj.swf,该链接即为绝对链接。
所述下载模块16,用于通过所述绝对链接将目标内容中图片下载并保存到内部服务器2。
所述储存模块18,用于通过所述绝对链接将目标内容中所有网页绝对链接保存到数据库3,同时生成所述网页绝对链接的标识符(identifier,ID)并将该ID保存到数据库3。
所述替换模块20,用于以目标内容中所有图片在内部服务器2中的链接取代所述图片的绝对链接,及用于将所述网页绝对链接的ID与JSP(JavaServer Pages)网页请求语言写入所述网页在内部服务器2中的链接,并以该写入标识符和网页请求语言的链接取代所述网页的绝对链接。其中JSP是一种动态网页技术标准。它是在传统的网页HTML文件(*.htm,*.html)中插入Java程序段和JSP,从而形成JSP文件(*.jsp)。Web服务器在遇到访问JSP网页的请求时,首先执行其中的程序段,然后将执行结果连同JSP文件中的HTML代码一起返回给客户。例如:若网页绝对链接ID=12214,该网页在内部服务器中的链接为http://10.153.26.104:8080/cic2,则将ID=12214和JSP网页请求语言ShowPage.jsp?page写入http://10.153.26.104:8080/cic2,即:http://10.153.26.104:8080/cic2/ShowPage.jsp?pageID=12214。通过该修改后链接就可显示目标内容中所链接的网页内容。
所述判断模块22,用于判断所述取代后的网页链接所显示的网页中是否还有需要下载的链接。
如图3所示,是本发明一种下载网站静态网页方法的较佳实施例的流程图。首先,步骤S10,根据客户提供网页下载清单将所需下载网页的网址写入XQuery脚本文件。步骤S12,解析模块12解析该XQuery脚本文件,从目标网站服务器获取所述网页内容,并将所述网页链接保存到数据库。步骤S14,解析模块12解析所述网页内容来获取目标内容。步骤S16,转换模块14将所述目标内容中所有图片的相对链接转换成绝对链接。步骤S18,下载模块16通过所述图片的绝对链接将目标内容中图片下载并保存到内部服务器2。步骤S20,替换模块18以目标内容网页中所有图片在内部服务器2中的链接取代所述图片的绝对链接。步骤S22,转换模块14将目标内容中所有网页的相对链接转换成绝对链接。步骤S24,储存模块18将目标内容中所有绝对链接保存到数据库3,同时生成所述网页绝对链接的ID并将该ID保存到数据库3。步骤S26,替换模块20将所述网页绝对链接的ID与JSP网页请求语言写入所述网页在内部服务器2中的链接,并以该写入标识符和网页请求语言的链接取代所述网页的绝对链接。步骤S28,判断模块22判断所述取代后的网页链接所显示的网页中是否还有需要下载的链接。步骤S30,储存模块18将替换模块18处理后的目标内容保存到数据库3。
在步骤S28中,若所述取代后的网页链接所显示的网页中有需要继续下载的链接,则返回步骤S14解析网页内容来获取目标内容。

Claims (8)

1.一种下载网站静态网页的系统,包括至少一台应用服务器、一台与所述应用服务器相连的目标网站服务器、一台与所述应用服务器相连的内部服务器及与所述应用服务器和内部服务器相连的数据库,其特征在于,所述应用服务器包括:
写入模块,用于根据客户提供的网页下载清单将所需下载的网页的网址写入脚本文件;
解析模块,用于解析该脚本文件,从目标网站服务器获取所述网页内容,并将所述网页链接保存到数据库及解析所述网页内容以获取目标内容;
转换模块,用于将目标内容中所有图片的相对链接转换成绝对链接及将目标内容中所有网页链接的相对链接转换成绝对链接;
下载模块,用于通过所述图片的绝对链接将目标内容中所有图片下载并保存到内部服务器;
储存模块,用于将目标内容中所有网页的绝对链接保存到数据库,同时生成所述网页绝对链接的标识符并将该标识符保存到数据库;及
替换模块,用于以目标内容中所有图片在内部服务器中的链接取代所述图片的绝对链接及用于将所述网页绝对链接的标识符与网页请求语言写入该网页在内部服务器中的链接,并以该写入标识符与网页请求语言的链接取代所述网页的绝对链接。
2.如权利要求1所述的下载网站静态网页的系统,其特征在于,该应用服务器还包括:
判断模块,用于判断所述取代后的网页链接所显示得网页中是否有需要继续下载的链接。
3.如权利要求1所述的下载网站静态网页的系统,其特征在于,所述储存模块还用于将替换模块取代后的目标内容保存到数据库。
4.如权利要求1所述的下载网站静态网页的系统,其特征在于,所述的脚本为一种基于可扩展标记语言的查询语言的脚本。
5.如权利要求1所述的下载网站静态网页的系统,其特征在于,所述解析模块解析脚本文件从目标网站服务器获取目标内容的同时还过滤掉目标内容中一些不需要的网页内容。
6.一种下载网站静态网页的方法,其特征在于,该方法包括如下步骤:
根据客户提供的网页下载清单将所需下载的网页的网址写入脚本文件;
解析该脚本文件,从目标网站服务器获取所述网页内容,并将所述网页链接保存到数据库;
解析所述网页内容以获取目标内容;
将目标内容中所有图片的相对链接转换成绝对链接;
通过所述绝对链接将目标内容中图片下载并保存到内部服务器;
以目标内容中所有图片在内部服务器中的链接取代所述图片的绝对链接;
将目标内容中所有网页的相对链接转换成绝对链接;
将目标内容中所有网页的绝对链接保存到数据库,同时生成所述网页绝对链接的标识符并将该标识符保存到数据库;及
将所述网页绝对链接的标识符与网页请求语言写入该网页在内部服务器中的链接,并以该写入标识符与网页请求语言的链接取代所述网页的绝对链接。
7.如权利要求6所述的下载网站静态网页的方法,其特征在于,该方法还包括步骤:
判断所述取代后的网页链接所显示的网页中是否有需要继续下载的链接;
若所述取代后的网页链接所显示的网页中没有需要继续下载的链接,则将取代后的目标内容保存到数据库。
8.如权利要求7所述的下载网站静态网页的方法,其特征在于,该方法还包括步骤:
若所述取代后的网页链接所显示的网页中有需要继续下载的链接,则返回至步骤解析所述网页内容来获取目标内容。
CN200610062196A 2006-08-18 2006-08-18 下载网站静态网页的系统及方法 Expired - Fee Related CN101127038B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN200610062196A CN101127038B (zh) 2006-08-18 2006-08-18 下载网站静态网页的系统及方法
US11/756,593 US7702814B2 (en) 2006-08-18 2007-05-31 System and method for downloading hypertext markup language formatted web pages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610062196A CN101127038B (zh) 2006-08-18 2006-08-18 下载网站静态网页的系统及方法

Publications (2)

Publication Number Publication Date
CN101127038A true CN101127038A (zh) 2008-02-20
CN101127038B CN101127038B (zh) 2012-09-19

Family

ID=39095070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610062196A Expired - Fee Related CN101127038B (zh) 2006-08-18 2006-08-18 下载网站静态网页的系统及方法

Country Status (2)

Country Link
US (1) US7702814B2 (zh)
CN (1) CN101127038B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609399A (zh) * 2008-06-20 2009-12-23 鸿富锦精密工业(深圳)有限公司 基于建模的智能化网站开发系统及方法
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及系统
CN102609503A (zh) * 2012-02-02 2012-07-25 福建榕基软件股份有限公司 静态网页页面的生成方法及装置
CN102638570A (zh) * 2012-03-15 2012-08-15 中兴通讯股份有限公司 一种嵌入式网络代理系统、终端设备及代理方法
CN102651017A (zh) * 2012-03-30 2012-08-29 北京英富森信息技术有限公司 一种基于url地址改写的网页原版原貌展现方法
CN103336917A (zh) * 2013-05-09 2013-10-02 四三九九网络股份有限公司 批量给swf文件添加域锁定的方法和装置
CN104424241A (zh) * 2013-08-27 2015-03-18 腾讯科技(深圳)有限公司 基于二维码的网站链接处理方法、装置及系统
CN104679767A (zh) * 2013-11-29 2015-06-03 英业达科技有限公司 依据可视区域在网页中显示图片的系统及其方法
CN104978339A (zh) * 2014-04-08 2015-10-14 北京奇虎科技有限公司 一种文件处理方法、设备和网络系统
CN104978341A (zh) * 2014-04-08 2015-10-14 北京奇虎科技有限公司 一种文件处理方法、设备和网络系统
CN105183886A (zh) * 2015-09-25 2015-12-23 中国民生银行股份有限公司 网页内容提取方法及装置
CN110555159A (zh) * 2018-03-30 2019-12-10 北大方正集团有限公司 网页检索方法、装置、设备及存储介质
CN113158651A (zh) * 2012-09-18 2021-07-23 株式会社野村综合研究所 Web服务器系统以及演示应用生成方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9165301B2 (en) * 2007-06-06 2015-10-20 Core Audience, Inc. Network devices for replacing an advertisement with another advertisement
CN101197843B (zh) * 2007-11-13 2010-12-01 华为技术有限公司 页面重定向方法及无线应用协议网关
TW200933398A (en) * 2008-01-28 2009-08-01 Inventec Corp Method of accessing files with XML documents of Windows formation under Linux
US8745582B2 (en) * 2008-06-13 2014-06-03 Microsoft Corporation Designer for web pages at a local machine
US8984165B2 (en) * 2008-10-08 2015-03-17 Red Hat, Inc. Data transformation
US20100153474A1 (en) * 2008-12-16 2010-06-17 Sandisk Il Ltd. Discardable files
US9104686B2 (en) 2008-12-16 2015-08-11 Sandisk Technologies Inc. System and method for host management of discardable objects
US9020993B2 (en) 2008-12-16 2015-04-28 Sandisk Il Ltd. Download management of discardable files
US9015209B2 (en) * 2008-12-16 2015-04-21 Sandisk Il Ltd. Download management of discardable files
US8375192B2 (en) * 2008-12-16 2013-02-12 Sandisk Il Ltd. Discardable files
US8849856B2 (en) * 2008-12-16 2014-09-30 Sandisk Il Ltd. Discardable files
US8205060B2 (en) * 2008-12-16 2012-06-19 Sandisk Il Ltd. Discardable files
CN101770488A (zh) * 2008-12-27 2010-07-07 鸿富锦精密工业(深圳)有限公司 网页转换系统及方法
US20100235329A1 (en) * 2009-03-10 2010-09-16 Sandisk Il Ltd. System and method of embedding second content in first content
US20100333155A1 (en) * 2009-06-30 2010-12-30 Philip David Royall Selectively using local non-volatile storage in conjunction with transmission of content
US8549229B2 (en) 2010-08-19 2013-10-01 Sandisk Il Ltd. Systems and methods for managing an upload of files in a shared cache storage system
US8463802B2 (en) 2010-08-19 2013-06-11 Sandisk Il Ltd. Card-based management of discardable files
US8788849B2 (en) 2011-02-28 2014-07-22 Sandisk Technologies Inc. Method and apparatus for protecting cached streams
US9525587B2 (en) * 2012-05-17 2016-12-20 International Business Machines Corporation Updating web resources
CN104253790B (zh) 2013-06-27 2018-08-28 国际商业机器公司 规范化页面流的方法和设备
US10834169B2 (en) * 2016-02-17 2020-11-10 Exfo Inc. System and method of communicating with and controlling a test device

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1326156A (zh) * 2000-05-25 2001-12-12 英业达股份有限公司 因特网上可选择超连结的离线阅读方法
US20020065800A1 (en) * 2000-11-30 2002-05-30 Morlitz David M. HTTP archive file
CN1169069C (zh) * 2001-02-07 2004-09-29 无敌科技(西安)有限公司 在掌上型数据处理装置浏览网络资料的方法
CN1402156A (zh) * 2001-08-22 2003-03-12 威瑟科技股份有限公司 网站信息提取系统与方法
US7596594B2 (en) * 2004-09-02 2009-09-29 Yahoo! Inc. System and method for displaying and acting upon email conversations across folders
US20060212584A1 (en) * 2005-03-15 2006-09-21 Qian Xiang Shi Ji (Beijing) Technology Development Co. Ltd. Method and system for accelerating downloading of web page content by a peer-to-peer network
US20080071922A1 (en) * 2006-09-19 2008-03-20 International Business Machines Corporation Methods, systems, and computer program products to transparently dispatch requests to remote resources in a multiple application server environment

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609399A (zh) * 2008-06-20 2009-12-23 鸿富锦精密工业(深圳)有限公司 基于建模的智能化网站开发系统及方法
CN101609399B (zh) * 2008-06-20 2013-07-03 鸿富锦精密工业(深圳)有限公司 基于建模的智能化网站开发系统及方法
CN102469132B (zh) * 2010-11-15 2014-04-30 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及系统
CN102469132A (zh) * 2010-11-15 2012-05-23 北大方正集团有限公司 从网站中多个不同ip的服务器抓取网页的方法及系统
CN102609503A (zh) * 2012-02-02 2012-07-25 福建榕基软件股份有限公司 静态网页页面的生成方法及装置
CN102638570A (zh) * 2012-03-15 2012-08-15 中兴通讯股份有限公司 一种嵌入式网络代理系统、终端设备及代理方法
WO2013135003A1 (zh) * 2012-03-15 2013-09-19 中兴通讯股份有限公司 一种嵌入式网络代理系统、终端设备及代理方法
CN102651017A (zh) * 2012-03-30 2012-08-29 北京英富森信息技术有限公司 一种基于url地址改写的网页原版原貌展现方法
CN113158651A (zh) * 2012-09-18 2021-07-23 株式会社野村综合研究所 Web服务器系统以及演示应用生成方法
CN103336917A (zh) * 2013-05-09 2013-10-02 四三九九网络股份有限公司 批量给swf文件添加域锁定的方法和装置
CN103336917B (zh) * 2013-05-09 2016-07-06 四三九九网络股份有限公司 批量给swf文件添加域锁定的方法和装置
CN104424241A (zh) * 2013-08-27 2015-03-18 腾讯科技(深圳)有限公司 基于二维码的网站链接处理方法、装置及系统
CN104424241B (zh) * 2013-08-27 2019-02-12 腾讯科技(深圳)有限公司 基于二维码的网站链接处理方法、装置及系统
CN104679767A (zh) * 2013-11-29 2015-06-03 英业达科技有限公司 依据可视区域在网页中显示图片的系统及其方法
CN104978339A (zh) * 2014-04-08 2015-10-14 北京奇虎科技有限公司 一种文件处理方法、设备和网络系统
CN104978341A (zh) * 2014-04-08 2015-10-14 北京奇虎科技有限公司 一种文件处理方法、设备和网络系统
CN105183886A (zh) * 2015-09-25 2015-12-23 中国民生银行股份有限公司 网页内容提取方法及装置
CN110555159A (zh) * 2018-03-30 2019-12-10 北大方正集团有限公司 网页检索方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US7702814B2 (en) 2010-04-20
US20080046449A1 (en) 2008-02-21
CN101127038B (zh) 2012-09-19

Similar Documents

Publication Publication Date Title
CN101127038B (zh) 下载网站静态网页的系统及方法
US20210397777A1 (en) System and method for deep linking and search engine support for web sites integrating third party application and components
CN101515300B (zh) 一种Ajax网页内容的抓取方法及系统
US7032011B2 (en) Server based extraction, transfer, storage and processing of remote settings, files and data
CN100424694C (zh) 一种网络收藏夹的实现方法
US8131753B2 (en) Apparatus and method for accessing and indexing dynamic web pages
CN102930059B (zh) 一种聚焦爬虫的设计方法
EP2724251B1 (en) Methods for making ajax web applications bookmarkable and crawlable and devices thereof
US20100287152A1 (en) System, method and computer readable medium for web crawling
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN104021172A (zh) 广告过滤方法及广告过滤装置
US20090249188A1 (en) Method for adaptive transcription of web pages
CN104063460A (zh) 一种在浏览器中加载网页的方法和装置
CN106570750B (zh) 基于浏览器插件的自动报税方法、系统及浏览器插件
CN102821133B (zh) Xbrl数据解析的方法及服务器
CN105528369B (zh) 网页转码方法、装置以及服务器
CN100365568C (zh) Java小应用程序下插件功能的实现方法
US20070198491A1 (en) System and method for searching and filtering web pages
CA2812439C (en) Building of a web corpus with the help of a reference web crawl
CN103117892B (zh) 添加网站访问记录的方法及装置
EP1295219A2 (en) Xml flattener
TWI320144B (en) System and method for downloading static web page
US20050216474A1 (en) Retrieving dynamically-generated and database-driven web pages using a search engine robot
CN110516185A (zh) 动态网站的处理方法及装置
Aru et al. DEVELOPMENT OF AN INTELLIGENT WEB BASED DYNAMIC NEWS AGGREGATOR INTEGRATING INFOSPIDER AND INCREMENTAL WEB CRAWLING TECHNOLOGY

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120919

Termination date: 20140818

EXPY Termination of patent right or utility model