CN101364970B - 网页资料下载控制系统及方法 - Google Patents

网页资料下载控制系统及方法 Download PDF

Info

Publication number
CN101364970B
CN101364970B CN2007102013237A CN200710201323A CN101364970B CN 101364970 B CN101364970 B CN 101364970B CN 2007102013237 A CN2007102013237 A CN 2007102013237A CN 200710201323 A CN200710201323 A CN 200710201323A CN 101364970 B CN101364970 B CN 101364970B
Authority
CN
China
Prior art keywords
data
date
tabulation
download
downloading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007102013237A
Other languages
English (en)
Other versions
CN101364970A (zh
Inventor
李忠一
叶建发
李大鹏
李支红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2007102013237A priority Critical patent/CN101364970B/zh
Priority to US12/188,207 priority patent/US8117536B2/en
Publication of CN101364970A publication Critical patent/CN101364970A/zh
Application granted granted Critical
Publication of CN101364970B publication Critical patent/CN101364970B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种网页资料下载控制方法,该方法包括如下步骤:设置需要下载的资料的网站地址;解析设置的网站地址下的一个网页的资料列表,以获得该资料列表的资料信息;计算该资料列表中全部资料的条数;获取解析得到的资料信息;判断资料列表中的各条资料是否已经下载;若有资料没有被下载,则生成资料列表中没有被下载的资料的脚本语言下载命令;通过生成的脚本语言下载命令下载对应的资料保存至数据库中;计算生成的脚本语言下载命令数;判断资料列表中全部资料的条数是否等于生成的脚本语言下载命令数;若资料的条数等于生成的脚本语言下载命令数,则执行翻页动作。另外,本发明还提供一种网页资料下载控制系统。

Description

网页资料下载控制系统及方法
技术领域
本发明涉及一种网页资料下载控制系统及方法。
背景技术
随着互连网的运用,从网站上下载各种资料到数据库越来越普遍,通常下载的资料不是在一个页面显示,而是分成很多页,在实际的操作过程中,每次下载都是从头到尾执行一遍,即从第一页到最后一页都执行一遍,对于已经下载过的资料,重复执行,效率不高,且浪费网络资源。
发明内容
鉴于以上内容,有必要提供一种网页资料下载控制系统,通过比较下载资料列表中的资料条数和所生成的下载资料的命令数来控制网页的翻动。
此外,还有必要提供一种网页资料下载控制方法,通过比较下载资料列表中的资料条数和所生成的下载资料的命令数来控制网页的翻动。
一种网页资料下载控制系统,包括应用服务器及与该应用服务器相连的数据库,该应用服务器包括:设置模块,用于设置资料下载控制参数,所述的资料下载控制参数包括需要下载的资料的网站地址及允许下载的时间范围;解析模块,用于解析设置的网站地址下的一个网页的资料列表;获取模块,用于获取解析得到的该资料列表的资料信息,所述资料列表的资料信息包括各条资料的发布时间;计算模块,用于计算所述资料列表中全部资料的条数;判断模块,用于通过获取的资料信息来判断所述资料列表中的各条资料是否已经被下载在数据库中,及根据各条资料的发布时间判断该资料列表中的各条资料是否在允许下载的时间范围之内;生成模块,用于生成所述资料列表中还在允许下载的时间范围之内且没有被下载的资料的脚本语言下载命令;下载模块,用于通过生成的脚本语言下载命令下载对应的资料,并将下载的资料保存至数据库中;所述计算模块,还用于计算生成的脚本语言下载命令数;所述判断模块,还用于判断所述资料列表中资料的条数是否等于生成的脚本语言下载命令数;翻页模块,用于当所述资料列表中资料的条数等于生成的脚本语言下载命令数时,执行网页的翻页动作。
一种网页资料下载控制方法,该方法包括如下步骤:设置资料下载控制参数,所述的资料下载控制参数包括需要下载的资料的网站地址及允许下载的时间范围;解析设置的网站地址下的一个网页的资料列表;获取解析得到的该资料列表的资料信息,所述资料列表的资料信息包括各条资料的发布时间;计算该资料列表中全部资料的条数;通过获取的资料信息来判断所述资料列表中的各条资料是否已经被下载在数据库中,及根据各条资料的发布时间判断该资料列表中的各条资料是否在允许下载时间范围之内;若资料列表中有资料没有被下载,且所述没有被下载的资料的发布时间在允许下载时间范围之内,则生成所述还在允许下载的时间范围之内且没有被下载的资料的脚本语言下载命令;通过生成的脚本语言下载命令下载对应的资料,并将下载的资料保存至数据库中;计算生成的脚本语言下载命令数;判断所述资料列表中全部资料的条数是否等于生成的脚本语言下载命令数;若所述资料列表中全部资料的条数等于生成的脚本语言下载命令数,则执行翻页动作。
相较于现有技术,所述的网页资料下载控制系统及方法,其可通过解析的网页中是否有已经下载的资料判断是否要翻页,避免了程序每次都从第一页到最后一页都执行一遍的繁琐步骤,提高了下载的效率,节约了网络资源。
附图说明
图1是本发明网页资料下载控制系统的较佳实施例的硬件框架图。
图2是图1中应用服务器的功能模块图。
图3是本发明网页资料下载控制方法的较佳实施例的流程图。
具体实施方式
如图1所示,是本发明一种网页资料下载控制系统较佳实施例的硬件架构图。该系统包括应用服务器1、数据库2、客户端3、防火墙4及网络5。该应用服务器1通过防火墙4与网络5相连,用于下载网站上发布的资料,并将所述下载的资料保存至数据库2中。该应用服务器1可以是个人计算机、网络服务器,还可以是任意其它适用的数据处理设备。该防火墙4用于管控网络5的信息安全。该网络5可以是因特网也可以是局域网。
该应用服务器1与数据库2相连,该数据库2用于存储应用服务器1所下载的资料,该数据库2可以内置于应用服务器1,也可以外置于应用服务器1。
此外,该应用服务器1与至少一客户端3相连,该客户端3用于提供一个互动式界面给用户,便于用户输入下载信息至应用服务器1。
如图2所示,是图1中应用服务器的的功能模块图。该应用服务器1包括设置模块10、解析模块12、计算模块14、判断模块16、获取模块18、生成模块20、下载模块22及翻页模块24。
所述设置模块10用于设置资料下载控制参数,并将所述设置的参数保存至数据库2中。所述的资料下载控制参数包括需要下载资料的网站地址、下载资料允许的时间范围及保存下载资料的路径。
所述解析模块12用于解析设置的网站地址下的一个网页的资料列表,所述的资料列表的资料信息包括各条下载资料的日期,各条下载资料的地址及标题。
所述计算模块14用于计算当前网页资料列表中全部资料的条数,及计算生成的脚本语言下载命令数。在此实施例中脚本语言指的是Xquery脚本语言。
所述判断模块16用于判断当前网页资料列表中是否存在下一条资料。
所述获取模块18用于获取解析得到的该资料列表的资料信息。
所述的判断模块16还用于判断当前网页资料列表中的各条资料是否已经被下载在数据库中,及根据各条资料的发布时间判断该资料列表中的各条资料是否在允许下载的时间范围之内。
所述生成模块20用于生成所述当前页资料列表中还在允许下载的时间范围之内且没有被下载的资料的脚本语言(Xquery)命令。在此实施例中,当解析资料列表中的一条资料时,若该条资料没有下载且在允许的下载日期范围内时,则生成模块20生成一条Xquery语言命令。生成模块20生成多少条命令数,则下载多少条资料。
所述判断模块16还用于判断所述当前网页资料列表中的下载资料是否全部检测完毕。
所述下载模块22用于通过生成的脚本语言下载命令下载对应的资料并以可扩展标记语言(Extensible Markup Language,XML)文件形式将下载的资料保存至应用服务器1中。
所述判断模块16还用于判断所述当前页资料列表中资料的条数是否大于生成的Xquery命令数。
所述的翻页模块24用于当所述当前页资料列表中资料的条数等于生成的脚本语言下载命令数时,执行网页的翻页动作。
如图3所示,是本发明一种网页资料下载控制方法的较佳实施例的流程图。首先,步骤S10,设置模块10设置资料下载控制参数,并将所设置的参数保存至数据库2中。所述的资料下载控制参数包括:下载资料的网站地址、下载资料允许的时间范围及保存下载资料的路径。所述的下载资料的网站地址是指:URL链接地址。具体而言,以需要下载新浪网站上的科技新闻资料为例,设置模块10在系统中设置新浪网站下科技新闻资料的URL地址。
步骤S11,解析模块12解析设置的下载资料的网站地址下的当前网页的资料列表,以获得该资料列表的资料信息。所述的当前网页的资料列表是指包含多条资料的。所述资料列表的资料信息包括资料列表中每条下载资料的发布日期,每条下载资料的地址及标题。网站上可供下载的资料都以资料列表的形式显示与页面上,资料列表中有存放的一条一条的资料,解析模块12解析网页下资料列表中存放的各条资料信息。
步骤S12,计算模块14计算当前网页资料列表中全部资料的条数。
步骤S13,判断模块16判断当前网页资料列表中是否存在下一条资料。
步骤S14,当前网页资料列表中存在下一条资料时,获取模块18获取一条资料的基本信息。所述的基本信息包括:包括该条资料的发布日期、下载地址、标题。
步骤S15,判断模块16判断当前网页资料列表中该条资料是否已经被下载在数据库中。具体而言,通过该条资料的标题和下载地址(URL)查询数据库2中是否有该条资料;若数据库2中有该条资料,则该条资料已经下载,若数据库2中没有该条资料,则该条资料还没有被下载。
步骤S16,当前网页资料列表中单条资料还没有被下载至数据库中时,判断模块16判断当前网页资料列表中该单条资料的发布时间是否在设置的允许下载的时间范围之内。
步骤S17,当该单条资料发布时间在设置的允许下载的时间范围之内时,生成模块20生成下载该单条资料的Xquery命令。一条资料对应一条Xquery命令。
步骤S18,判断模块16判断当前网页资料列表的资料是否全部检测完毕。
步骤S19,当前网页资料列表中的每条资料全部检测完毕时,下载模块22通过生成的Xquery命令下载对应的当前网页资料,并以可扩展标记语言(Extensible MarkupLanguage,XML)文件形式将下载的资料按照设置的存储下载资料的路径保存至应用服务器1中。
步骤S20,计算模块14计算当前网页资料列表中生成的下载资料的Xquery命令数。
步骤S21,判断模块16判断当前网页资料列表中资料的条数是否大于生成的Xquery命令数。
步骤S22,当前网页资料列表中全部资料的条数等于生成的Xquery命令数时,翻页模块24执行网页的翻页动作,之后回到步骤S11。
在步骤S13中,若当前网页资料列表中不存在下一条资料时,则转到步骤S20。
在步骤S15中,若当前网页资料列表中单条资料已经下载时,则回到步骤S13。
在步骤S16中,若当该单条资料发布时间不在设置的允许下载的时间范围之内时,则回到步骤S13。
在步骤S18中,若当前网页资料列表中还有资料没有检测到时,则回到步骤S13。
在步骤S22中,若当前网页资料列表中资料的条数不等于生成的Xquery命令数时,则结束流程。

Claims (7)

1.一种网页资料下载控制系统,包括应用服务器及与该应用服务器相连的数据库,其特征在于,该应用服务器包括:
设置模块,用于设置资料下载控制参数,所述的资料下载控制参数包括需要下载的资料的网站地址及允许下载的时间范围;
解析模块,用于解析设置的网站地址下的一个网页的资料列表;
获取模块,用于获取解析得到的该资料列表的资料信息,所述资料列表的资料信息包括各条资料的发布时间;
计算模块,用于计算所述资料列表中全部资料的条数;
判断模块,用于通过获取的资料信息来判断所述资料列表中的各条资料是否已经被下载在数据库中,及根据各条资料的发布时间判断该资料列表中的各条资料是否在允许下载的时间范围之内;
生成模块,用于生成所述资料列表中还在允许下载的时间范围之内且没有被下载的资料的脚本语言下载命令;
下载模块,用于通过生成的脚本语言下载命令下载对应的资料,并将下载的资料保存至数据库中;
所述计算模块,还用于计算生成的脚本语言下载命令数;
所述判断模块,还用于判断所述资料列表中资料的条数是否等于生成的脚本语言下载命令数;
翻页模块,用于当所述资料列表中资料的条数等于生成的脚本语言下载命令数时,执行网页的翻页动作。
2.如权利要求1所述的网页资料下载控制系统,其特征在于,所述资料下载控制参数还包括保存下载的资料的路径;下载模块在下载资料的过程中,按照所述的路径把资料下载到数据库中。
3.如权利要求1所述的网页资料下载控制系统,其特征在于,所述资 料列表的资料信息包括:各条资料的下载地址及标题;判断模块通过所述的各条资料的下载地址及标题判断所述资料是否在数据库中已经下载。
4.一种网页资料下载控制方法,其特征在于,该方法包括如下步骤:
设置资料下载控制参数,所述的资料下载控制参数包括需要下载的资料的网站地址及允许下载的时间范围;
解析设置的网站地址下的一个网页的资料列表;
获取解析得到的该资料列表的资料信息,所述资料列表的资料信息包括各条资料的发布时间;
计算该资料列表中全部资料的条数;
通过获取的资料信息来判断所述资料列表中的各条资料是否已经被下载在数据库中,及根据各条资料的发布时间判断该资料列表中的各条资料是否在允许下载时间范围之内;
若资料列表中有资料没有被下载,且所述没有被下载的资料的发布时间在允许下载时间范围之内,则生成所述还在允许下载的时间范围之内且没有被下载的资料的脚本语言下载命令;
通过生成的脚本语言下载命令下载对应的资料,并将下载的资料保存至数据库中;
计算生成的脚本语言下载命令数;
判断所述资料列表中全部资料的条数是否等于生成的脚本语言下载命令数;
若所述资料列表中全部资料的条数等于生成的脚本语言下载命令数,则执行翻页动作。
5.如权利要求4所述的网页资料下载控制方法,其特征在于,该方法还包括步骤:
若资料列表中全部资料的条数不等于生成的脚本语言下载命令数,则结束流程。
6.如权利要求4所述的网页资料下载控制方法,其特征在于,所述资料下载控制参数还包括保存下载的资料的路径;在下载资料的过程中,是按照所述的路径把资料下载到数据库中。
7.如权利要求4所述的网页资料下载控制方法,其特征在于,所述资料列表的资料信息还包括:资料列表中各条资料的下载地址及标题;所述的各条资料的下载地址及标题被用于判断各条资料是否已经被下载在数据库中。 
CN2007102013237A 2007-08-09 2007-08-09 网页资料下载控制系统及方法 Expired - Fee Related CN101364970B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2007102013237A CN101364970B (zh) 2007-08-09 2007-08-09 网页资料下载控制系统及方法
US12/188,207 US8117536B2 (en) 2007-08-09 2008-08-08 System and method for controlling downloading web pages

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007102013237A CN101364970B (zh) 2007-08-09 2007-08-09 网页资料下载控制系统及方法

Publications (2)

Publication Number Publication Date
CN101364970A CN101364970A (zh) 2009-02-11
CN101364970B true CN101364970B (zh) 2012-06-20

Family

ID=40347629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007102013237A Expired - Fee Related CN101364970B (zh) 2007-08-09 2007-08-09 网页资料下载控制系统及方法

Country Status (2)

Country Link
US (1) US8117536B2 (zh)
CN (1) CN101364970B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110302285A1 (en) * 2010-06-07 2011-12-08 Quora, Inc. Update server to update rendered content
CN103078881B (zh) * 2011-10-26 2016-05-11 腾讯科技(深圳)有限公司 网络资源下载信息的分享控制系统和方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1488109A (zh) * 2000-11-27 2004-04-07 大众汽车有限公司 下载、存储和表达网页的方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043215A (ja) * 1999-08-02 2001-02-16 Sony Corp 文書処理装置、文書処理方法、及び記録媒体
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
WO2001040988A1 (en) * 1999-11-30 2001-06-07 Maxamine International Pty Ltd Web map tool
US6643641B1 (en) * 2000-04-27 2003-11-04 Russell Snyder Web search engine with graphic snapshots
US7421645B2 (en) * 2000-06-06 2008-09-02 Microsoft Corporation Method and system for providing electronic commerce actions based on semantically labeled strings
US7379977B2 (en) * 2001-07-24 2008-05-27 Steve Walrath System and method for display of multiple electronic pages
US7712020B2 (en) * 2002-03-22 2010-05-04 Khan Emdadur R Transmitting secondary portions of a webpage as a voice response signal in response to a lack of response by a user
US7873900B2 (en) * 2002-03-22 2011-01-18 Inet Spch Property Hldg., Limited Liability Company Ordering internet voice content according to content density and semantic matching
US7627817B2 (en) * 2003-02-21 2009-12-01 Motionpoint Corporation Analyzing web site for translation
US7584194B2 (en) * 2004-11-22 2009-09-01 Truveo, Inc. Method and apparatus for an application crawler
JP4569685B2 (ja) * 2008-08-13 2010-10-27 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置、アドレス記憶方法、およびアドレス記憶プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1488109A (zh) * 2000-11-27 2004-04-07 大众汽车有限公司 下载、存储和表达网页的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨天奇,周晔.一种并行Web信息采集系统模型.《计算机应用》.2007,第27卷(第1期), *

Also Published As

Publication number Publication date
US20090044102A1 (en) 2009-02-12
CN101364970A (zh) 2009-02-11
US8117536B2 (en) 2012-02-14

Similar Documents

Publication Publication Date Title
US11182535B2 (en) Configuring a page for drag and drop arrangement of content artifacts in a page development tool
Khalil et al. RCrawler: An R package for parallel web crawling and scraping
Ballero et al. Formation and evolution of the Galactic bulge: constraints from stellar abundances
JP5756386B2 (ja) 動的なウェブ・アプリケーションの問題を修正するメタデータの生成・管理の支援方法、装置、およびプログラム
CN106250454B (zh) 一种页面脚本的加载方法及装置
CN104063460A (zh) 一种在浏览器中加载网页的方法和装置
EP1668542A1 (en) Web content adaptation process and system
US20120102390A1 (en) Method and apparatus for generating widget
WO2004083990A2 (en) Web content adaption process and system
US20080028284A1 (en) System and method for web-based interactive gathering hyperlinks and email addresses
CN108595697B (zh) 网页集成方法、装置及系统
CN107730337A (zh) 信息推送方法和装置
CN106980698A (zh) 浏览器静态资源加载方法、浏览器程序及可读存储介质
US8812551B2 (en) Client-side manipulation of tables
CN111488508A (zh) 一种支持多协议分布式高并发的互联网信息采集系统及方法
CN107506502A (zh) 一种数据采集系统和数据采集方法
CN102314494A (zh) 一种用于处理网页内容的方法和设备
CN101458693A (zh) 网页下载解析系统及方法
CN101364970B (zh) 网页资料下载控制系统及方法
US8577912B1 (en) Method and system for robust hyperlinking
CN110516185B (zh) 动态网站的处理方法及装置
CN107845005A (zh) 网页生成方法和装置
CN108874856B (zh) 一种页面生成系统、方法及服务器
CN111177600A (zh) 一种基于移动应用的内置网页加载方法及装置
Parker et al. Using caching and optimization techniques to improve performance of the Ensembl website

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120620

Termination date: 20150809

EXPY Termination of patent right or utility model