CN102364461A - 网页内容数据获取方法及服务器 - Google Patents

网页内容数据获取方法及服务器 Download PDF

Info

Publication number
CN102364461A
CN102364461A CN2011101814183A CN201110181418A CN102364461A CN 102364461 A CN102364461 A CN 102364461A CN 2011101814183 A CN2011101814183 A CN 2011101814183A CN 201110181418 A CN201110181418 A CN 201110181418A CN 102364461 A CN102364461 A CN 102364461A
Authority
CN
China
Prior art keywords
web page
content data
server
buffer memory
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101814183A
Other languages
English (en)
Inventor
梁捷
江蔚然
陈嘉彬
潘连铨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ucweb Inc
Guangzhou Dongjing Computer Technology Co Ltd
Original Assignee
Guangzhou Dongjing Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Dongjing Computer Technology Co Ltd filed Critical Guangzhou Dongjing Computer Technology Co Ltd
Priority to CN201611181971.6A priority Critical patent/CN106599239A/zh
Priority to CN2011101814183A priority patent/CN102364461A/zh
Publication of CN102364461A publication Critical patent/CN102364461A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页内容数据获取方法及服务器。所述方法由服务器实现,所述方法包括:服务器根据预存的系统配置文件所生成的预抓取策略,从网页服务器中获取网页内容数据,并缓存于缓存存储器中;其中,当接收到浏览器客户端发起的网页访问请求时,服务器将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。利用该方法和服务器,能够显著缩短用户浏览网页的时间,由此能够带给用户更好的上网体验。

Description

网页内容数据获取方法及服务器
技术领域
本发明涉及移动通信领域,具体地,涉及一种网页内容数据获取方法及服务器。
背景技术
目前,当用户使用浏览器访问某个网站页面时,通常是由中间件服务器先检查缓存(memcache)存储器是否已保存了该网站页面的数据,如果缓存存储器没有保存该网站页面的数据,中间件服务器再向该网站网页服务器请求获取页面数据内容。由于中间件服务器向网站的网页服务器请求获取网页内容数据内容的速度比中间件服务器从缓存存储器中获取页面数据内容的速度慢,因而这种获取所需网页内容数据的过程比较耗时。尤其是,用户在访问一些大型门户网站或者国内排名前100的网站等常用网站时,中间件服务器需要频繁地从网页服务器拉取所需的页面数据,因而大大地降低了用户浏览网页的速度,使用户的上网体验不佳。
因此,在用户浏览网页过程中,如何有效地减少中间件服务器需要频繁到网页服务器获取所需网页内容数据的客观限制,从而加快用户在浏览网页过程中获得所需页面内容的速度,是当前急需解决的问题。
发明内容
为了克服现有技术存在的上述问题,本发明提供一种网页内容数据获取方法及服务器,能够在用户浏览过程中减少服务器频繁到网页服务器获取所需网页内容数据的情况,显著提高用户浏览网页的速度,从而有效地避免了现有技术的上述缺陷。
根据本发明的一个方面,提供一种网页内容数据获取方法,所述方法由服务器执行,所述方法包括:服务器根据预存的系统配置文件所生成的预抓取策略,从网页服务器中获取网页内容数据,并缓存于缓存存储器中;其中,当接收到浏览器客户端发起的网页访问请求时,服务器将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。
优选地,在获取并将网页内容数据缓存在缓存存储器中之后,所述方法还包括:确定所述缓存存储器中存储的网页内容数据是否需要更新,并且在确定出需要更新时,从所述网页服务器获取所述被更新的网页内容数据;利用所获取的被更新的网页内容数据对存储在缓存存储器中的该网页内容数据进行更新。
优选地,确定所述缓存存储器中存储的网页内容数据是否需要更新包括:根据所述预抓取策略,定期检查所述网页服务器中的网页内容数据是否被更新,在检查到所述网页服务器中的网页内容数据被更新时,确定所述缓存存储器中存储的网页内容数据需要更新。
优选地,确定所述缓存存储器中存储的网页内容数据是否需要更新包括:根据所述缓存存储器中存储的网页内容数据的页面有效性,确定所述缓存存储器中存储的网页内容数据是否需要更新。
优选地,所述预抓取策略基于系统配置文件的更新来更新。
优选地,在缓存所获取的网页内容数据时,还包括:判断所获取的网页内容数据中的网页元素是否为无缓存策略元素;在所获取的网页内容数据中的网页元素是无缓存策略元素时,对所述网页元素进行预定次数的获取;如果所述预定次数获取所获取的网页元素内容相同,则将所述网页元素强制存储在所述缓存存储器中,否则,不存储所述网页元素。
优选地,当无法根据所述预抓取策略从所述网页服务器抓取要获取的网页内容数据中的网页元素时,调整所述预抓取策略;根据所述调整后的预抓取策略,对所述网页元素进行预定次数的获取;如果获取次数超出所述预定次数后仍无法获取,则利用特定标识替换该要获取的网页元素的内容并且将该特定标识作为该要获取的网页元素存储到缓存存储器中。
优选地,调整所述预抓取策略包括延长抓取等待时间。
优选地,所述缓存存储器位于所述服务器中或者位于另一服务器中。
根据本发明的另一个方面,提供一种用于网页内容数据获取的服务器,包括:预抓取策略生成模块,用于基于在所述服务器中存储的系统配置文件,生成预抓取策略;网页内容获取模块,用于根据所生成的预抓取策略,从网页服务器预先获取要抓取的网页内容数据;网页内容存储模块,用于将所获取的网页内容数据存储在缓存存储器中;以及发送模块,用于在接收到浏览器客户端发起的网页访问请求后,将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。
优选地,所述服务器还包括所述确定模块,用于确定所述缓存存储器中存储的网页内容数据是否需要更新,在所述确定模块确定需要更新时,所述网页内容获取模块从所述网页服务器获取所述被更新的网页内容数据,并且所述服务器还包括网页内容更新模块,用于利用所述网页内容获取模块所获取的被更新的网页内容数据对存储在缓存存储器中的该网页内容数据进行更新。
优选地,所述确定模块还包括:检查模块,用于根据所述预抓取策略,定期检查所述网页服务器中的网页内容数据是否被更新,其中,在所述检查模块检查到所述网页服务器中的网页内容数据被更新时,所述确定模块确定所述缓存存储器中存储的网页内容数据需要更新。
优选地,所述确定模块还包括判断模块,用于判断所述缓存存储器中存储的网页内容数据的页面有效性,其中,在所述判断模块判断出所述缓存存储器中存储的网页内容数据无效时,所述确定模块确定所述缓存存储器中存储的网页内容数据需要更新。
优选地,所述服务器还包括预抓取策略更新模块,用于根据系统配置文件的更新来更新预抓取策略。
优选地,所述网页内容存储模块还包括:无缓存策略网页元素判断模块,用于判断所获取的网页内容中的网页元素是否是无缓存策略网页元素;以及强制存储模块,用于将所获取的网页元素强制存储在缓存存储器中,其中,当所述要获取的网页内容数据中的网页元素为无缓存策略元素时,所述网页内容获取模块对所述网页元素进行预定次数的获取,在所述预定次数获取所获取的网页元素内容相同时,所述强制存储模块将所述网页元素强制存储在所述缓存存储器中,否则,所述网页内容存储模块不存储所述网页元素。
优选地,所述网页内容获取模块还包括预抓取策略调整模块,用于当无法根据所述预抓取策略从所述网页服务器获取要抓取的网页内容数据中的网页元素时,调整所述预抓取策略,以及替换模块,用于利用特定标识来替换要获取的网页元素的内容,其中,所述网页内容获取模块根据所述调整后的预抓取策略,对所述网页元素进行预定次数的获取,在所述网页内容获取模块的获取次数超出所述预定次数后仍无法获取时,所述替换模块利用特定标识来替换要获取的网页元素的内容,所述网页内容存储模块将该特定标识作为该要获取的网页元素存储到缓存存储器中。
优选地,所述缓存存储器位于所述服务器中。
优选地,所述缓存存储器位于与所述服务器分离的另一服务器中,其中,在接收到浏览器客户端发起的网页访问请求时,所述网页内容数据获取模块还用于从所述缓存存储器中获取所缓存的网页内容数据,并且所述发送模块将从所述缓存存储器中获取的网页内容数据发送给浏览器客户端。
利用本发明的网页内容数据获取方法及服务器,通过在用户访问网页之前主动预抓取和缓存网页内容数据,可以预先把常用网站的网页内容数据存储到缓存存储器中,因此在用户浏览网页时,减少了中间件服务器直接向该目标网页的网站网页服务器请求获取网页内容数据的频率,因而由于服务器从缓存存储器中读取网页内容数据的速度比从目标网页的网站网页服务器读取的速度快,显著缩短了用户访问网页的请求时间,由此能够在用户浏览网页时带来更好的上网体验。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1是根据本发明一个实施例的用于网页内容数据获取的服务器的方框示意图;以及
图2是示出根据本发明实施例的利用图1所示的服务器实现的网页内容数据获取方法的流程图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
在此,在本发明的说明书中使用的术语仅仅是为了描述特定的实施例,而不是意图限制本发明。如在本发明的说明书和所附权利要求中所使用的,单数形式“一个”、“一种”和“该”意图也包括复数形式,除非上下文以别的方式清楚指明。还应该理解,这里所使用的术语“和/或”指的是、且包含相关列出项中的一个或多个的任何和所有可能的组合。还应该理解,术语“包括”和/或“包含”当用于该说明书中时,表示存在所述的特征、整体、步骤、操作、元素、和/或部件,但是不排除存在或增加一个或多个其它特征、整体、步骤、操作、元素、部件、和/或其集合。
下面将结合附图和具体实施例对本发明做进一步详细的描述。
图1示出了根据本发明实施例的用于网页内容数据获取的服务器的方框示意图。
参照图1,用于网页内容数据获取的服务器100包括预抓取策略生成模块110、网页内容获取模块111、网页内容存储模块115、缓存存储器120和发送模块130。
预抓取策略生成模块110用于根据预存的系统配置文件来生成预抓取策略。这里,系统配置文件中包括多个预设的网页URL、以及与这些URL相关的网页元素等信息。其中,预设的网页可以是常用网页,例如,全国网页点击率排名在前100名的网站或根据用户需要设定网站等。基于系统配置文件所生成的预抓取策略包括对预设的网页URL进行预抓取的策略,诸如要获取的网页内容的地址、需要从网页中提取的内容数据的信息,以及进行预抓取的时间间隔、预抓取的持续时间等等。
在本发明的其它示例性实施例中,预抓取控制模块113还可以包括预抓取策略更新模块(图中未示出),用于根据系统配置文件的更新来更新预抓取策略。利用预抓取策略更新模块,可以根据用户的需要随时调整预抓取策略,从而使用户的网页浏览体验更佳。
网页内容获取模块111根据预抓取策略生成模块110所生成的预抓取策略,从要网页服务器预先抓取相应的网页内容数据。此外,网页内容获取模块111还可以对所抓取的网页进行页面解析等处理。
网页内容存储模块115将网页内容获取模块111所抓取的网页内容数据存储在缓存存储器120中。
发送模块130用于在浏览器客户端发起网页访问请求时,根据来该网页访问请求,从缓存存储器120中读取出相应的网页内容数据并传送到浏览器客户端。
在本示例性实施例中,服务器100还包括确定模块113,用于确定缓存存储器120中存储的网页内容数据是否需要更新,在确定模块113确定需要更新时,网页内容获取模块111从所述网页服务器获取被更新的网页内容数据。
在一个示例中,确定模块113还可以包括检查模块(图中未示出),用于根据预抓取策略,定期检查网页服务器中的网页内容数据是否被更新。其中,在该检查模块检查到网页服务器中的网页内容数据被更新时,确定模块113确定缓存存储器120中存储的网页内容数据需要更新。
在另一示例中,确定模块113还包括判断模块(图中未示出),用于判断缓存存储器120中存储的网页内容数据的页面有效性。其中,在该判断模块判断出缓存存储器120中存储的网页内容数据无效时,确定模块113确定缓存存储器120中存储的网页内容数据需要更新。
此外,确定模块113还可以基于本领域技术人员公知的其它方法来确定缓存存储器120中存储的网页内容数据是否需要更新。
在本示例性实施例中,服务器100还包括网页内容更新模块114,用于在确定模块113确定需要对缓存存储器120中存储的网页内容数据进行更新时,利用网页内容获取模块111所获取的被更新的网页内容数据对存储在缓存存储器120中的该网页内容数据进行更新。
在网页内容获取模块111根据预抓取策略从网页服务器抓取所需的网页内容数据中的某些网页元素时,会发生处理超时。在这种情况下,网页内容获取模块111还包括:预抓取策略调整模块112,用于当无法根据预抓取策略从网页服务器获取要抓取的网页内容数据中的网页元素(即,发生处理超时)时,调整所述预抓取策略;以及替换模块(未示出),用于利用特定标识来替换要获取的网页元素的内容。具体地,网页内容获取模块111根据所调整后的预抓取策略,对所述网页元素进行预定次数的获取,在网页内容获取模块111的获取次数超出预定次数后仍无法获取该网页元素时,该替换模块利用特定标识来替换要获取的网页元素的内容,网页内容存储模块116将该特定标识作为该要获取的网页元素存储到缓存存储器120中。
在网页内容存储模块115将网页内容获取模块111所获取的网页内容数据缓存到缓存存储器120中时,网页内容数据中可能包含无缓存策略的网页元素。这里,“缓存策略”是指服务器中预定的对网页元素进行缓存或不进行缓存的策略,无缓存策略的网页元素是指根据缓存策略不缓存或缓存策略未知的网页元素,不缓存的网页元素是指网页元素属性被定义为“不可缓存”的元素,诸如网页中的广告之类频繁进行更新的元素,缓存策略未知的网页元素是根据缓存策略预定的进行缓存或不进行缓存的网页元素之外的特殊元素。在这种情况下,网页内容存储模块115还包括:无缓存策略网页元素判断模块116,用于判断所获取的网页内容中的网页元素是否是无缓存策略网页元素;以及强制存储模块(未示出),用于将所获取的网页元素强制存储在缓存存储器120中。更具体地,当要获取的网页内容数据中的网页元素为无缓存策略元素时,网页内容获取模块115对该网页元素进行预定次数的获取,在预定次数获取所获取的网页元素内容相同时,强制存储模块将所述网页元素强制存储在缓存存储器120中,否则,网页内容存储模块115不存储所述网页元素。
利用预抓取策略调整模块112和无缓存策略网页元素判断模块116,可以对网页中的特定元素进行处理,以优化网页的预抓取效果,从而进一步提高服务器100预先抓取并缓存网页内容数据的效率。
图1是本发明的示例性实施例,在本发明的其它实施例中,服务器100中也可以不设置预抓取策略调整模块112、确定模块113、网页内容更新模块114和无缓存策略网页元素判断模块116。
在本发明的其它示例性实施例中,缓存存储器120可以不设置在服务器100中,而是设置在其它便于服务器100进行高速存取的服务器中。在这种情况下,在服务器100接收到浏览器客户端发起的网页访问请求时,网页内容数据获取模块111还用于从所述缓存存储器中获取所缓存的网页内容数据,并且发送模块130将从缓存存储器120中获取的网页内容数据发送给浏览器客户端。
图2是示出根据本发明实施例的利用图1所示的服务器实现的网页内容数据获取方法的流程图。
如图2所示,在步骤S210,服务器100的网页内容获取模块111服务器根据预抓取策略生成模块110所生成的预抓取策略,从网页服务器中抓取网页内容数据。其中,预抓取策略是预抓取控制模块113根据系统配置文件所生成,网页内容获取模块111所抓取的网页内容数据是从与预抓取策略中的预设网页地址相对应的网页服务器中抓取的。网页内容获取模块111可以对所抓取的网页内容数据进行页面解析,根据预抓取策略提取所需的网站地址等处理。
在本发明的优选实施例中,步骤S210中,当网页内容获取模块111无法根据预抓取策略从网页服务器抓取要获取的网页内容数据中的网页元素时,预抓取策略调整模块112调整所述预抓取策略。具体地,网页内容获取模块111根据所调整后的预抓取策略,对所述网页元素进行预定次数的获取,如果获取次数超出所述预定次数后仍无法获取,则替换模块(未示出)利用特定标识替换该要获取的网页元素的内容并且将该特定标识作为该要获取的网页元素存储到缓存存储器120中。
另外,在本发明的其它优选实施例中,步骤S210中,还可以包括根据系统配置文件的更新来更新预抓取策略页面的步骤。
在步骤S220中,网页内容存储模块115将网页内容获取模块111所获取的网页内容数据缓存到缓存存储器120中。在本发明的其它优选实施例中,在缓存所获取的网页内容数据时,无缓存策略网页元素判断模块116判断所获取的网页内容数据中的网页元素是否为无缓存策略元素。在无缓存策略网页元素判断模块116判断所获取的网页内容数据中的网页元素是无缓存策略元素时,对所述网页元素进行预定次数的获取,如果所述预定次数获取所获取的网页元素内容相同,则将所述网页元素强制存储在缓存存储器120中,否则,不存储所述网页元素。
在步骤S230,确定模块113确定缓存存储器120中存储的网页内容数据是否需要更新。
确定模块113根据预抓取策略定期检查网页服务器中的网页内容数据是否需要更新,在网页服务器中的网页内容数据被更新时,确定所述缓存存储器120中存储的网页内容数据需要更新。
在本发明的一个示例中,确定模块113的检查模块(图中未示出)可以根据预抓取策略,定期检查网页服务器中的网页内容数据是否被更新。更具体地,检查模块定期地读取网页服务器中网页内容数据的索引列表,将该索引列表与将存储在服务器100中的网页内容数据的索引列表进行比较,判断二者是否匹配,如果不匹配,则判断出网页服务器中的网页内容数据被更新,如果匹配,则所述网页内容数据没有被更新。
在本发明的另一个示例中,确定模块113的判断模块(图中未示出)可以判断缓存存储器120中存储的网页内容数据的页面有效性,例如,判断页面中的图片或特定数据的有效性。在该判断模块判断出缓存存储器120中存储的网页内容数据无效时,确定模块113确定缓存存储器120中存储的网页内容数据需要更新。
或者,也可以利用公知的网络爬虫技术,当网页服务器中网页内容数据被更新时,通知服务器100的确定模块113。在本发明的其它实施例中,也可以利用本领域技术人员公知的其它方法来确定网页服务器中的网页内容数据是否被更新。
在步骤S240,在确定模块113确定需要更新时,网页内容获取模块111从网页服务器获取被更新的网页内容数据,并将所所获取的被更新的网页内容数据传送到网页内容更新模块114。
在步骤S250,网页内容更新模块114利用所接收的被更新的网页内容数据对存储在缓存存储器120中的该网页内容数据进行更新。
在步骤S260,当浏览器客户端发起网页访问请求时,发送模块130根据浏览器客户端的网页访问请求将缓存存储器120中预先缓存的相应网页内容数据传送到浏览器客户端。
图2是本发明的示例性实施例,在本发明的其它实施例中,用于网页内容数据获取的方法可以不包括上述确定是否更新的步骤S230、获取被更新的网页内容数据的步骤S240和存储所获取的被更新的网页内容数据的步骤S250。
在本发明的其它示例性实施例中,如果用于网页内容数据获取的服务器与图1的服务器100的区别仅仅是缓存存储器不设置在服务器100中,而是位于与所述服务器分离的另一服务器中,则在利用所述服务器进行网页内容数据获取时,在替换步骤S260的步骤S260’中,在接收到浏览器客户端发起的网页访问请求时,网页内容数据获取模块111还用于从该缓存存储器中获取所缓存的网页内容数据,并且由发送模块将从所述缓存存储器中获取的网页内容数据发送给浏览器客户端。
综上所述,根据本发明的网页内容数据获取方法及服务器具有以下优点。通过在用户访问网页之前由服务器对常用网站的网页内容数据进行主动的预抓取和缓存,可以预先把这些网页内容数据存储到缓存存储器中,因此在用户浏览网页时,减少了服务器直接向该目标网页的网站网页服务器请求获取网页内容数据的频率,因而由于服务器从缓存存储器中读取网页内容数据的速度比从目标网页的网站网页服务器读取的速度快,显著缩短了用户浏览网页的时间,由此能够在用户浏览网页时带来更好的上网体验。
尽管前面公开的内容示出了本发明的示例性实施例,但是应当注意,在不背离权利要求限定的本发明的范围的前提下,可以进行多种改变和修改。根据这里描述的发明实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明的元素可以以个体形式描述或要求,但是也可以设想多个,除非明确限制为单数。
尽管已经结合详细示出并描述的优选实施例公开了本发明,但是本领域技术人员应当理解,对于上述根据本发明的基于触摸屏的划屏轨迹处理方法和服务器,还可以在不脱离本发明内容的基础上做出各种修改和变形。这些修改和变形落在本发明的保护范围之内,并且本发明的保护范围应当由所附的权利要求书的内容确定。

Claims (18)

1.一种网页内容数据获取方法,所述方法由服务器执行,所述方法包括:
服务器根据预存的系统配置文件所生成的预抓取策略,从网页服务器中获取网页内容数据,并缓存于缓存存储器中;
其中,当接收到浏览器客户端发起的网页访问请求时,服务器将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。
2.如权利要求1所述的方法,其中,在获取并将网页内容数据缓存在缓存存储器中之后,所述方法还包括:
确定所述缓存存储器中存储的网页内容数据是否需要更新,并且
在确定出需要更新时,从所述网页服务器获取所述被更新的网页内容数据;
利用所获取的被更新的网页内容数据对存储在缓存存储器中的该网页内容数据进行更新。
3.如权利要求2所述的方法,其中,确定所述缓存存储器中存储的网页内容数据是否需要更新包括:
根据所述预抓取策略,定期检查所述网页服务器中的网页内容数据是否被更新,
在检查到所述网页服务器中的网页内容数据被更新时,确定所述缓存存储器中存储的网页内容数据需要更新。
4.如权利要求2所述的方法,其中,确定所述缓存存储器中存储的网页内容数据是否需要更新包括:
根据所述缓存存储器中存储的网页内容数据的页面有效性,确定所述缓存存储器中存储的网页内容数据是否需要更新。
5.按照权利要求1所述的方法,其中,所述预抓取策略基于系统配置文件的更新来更新。
6.按照权利要求1所述的方法,其中,在缓存所获取的网页内容数据时,还包括:
判断所获取的网页内容数据中的网页元素是否为无缓存策略元素;
在所获取的网页内容数据中的网页元素是无缓存策略元素时,对所述网页元素进行预定次数的获取;
如果所述预定次数获取所获取的网页元素内容相同,则将所述网页元素强制存储在所述缓存存储器中,否则,不存储所述网页元素。
7.按照权利要求1所述的方法,其中,
当无法根据所述预抓取策略从所述网页服务器抓取要获取的网页内容数据中的网页元素时,调整所述预抓取策略;
根据所述调整后的预抓取策略,对所述网页元素进行预定次数的获取;
如果获取次数超出所述预定次数后仍无法获取,则利用特定标识替换该要获取的网页元素的内容并且将该特定标识作为该要获取的网页元素存储到缓存存储器中。
8.如权利要求7所述的方法,其中,调整所述预抓取策略包括延长抓取持续时间。
9.如权利要求1所述的方法,其中,所述缓存存储器位于所述服务器中或者位于另一服务器中。
10.一种用于网页内容数据获取的服务器,包括:
预抓取策略生成模块,用于基于在所述服务器中存储的系统配置文件,生成预抓取策略;
网页内容获取模块,用于根据所生成的预抓取策略,从网页服务器预先获取要抓取的网页内容数据;
网页内容存储模块,用于将所获取的网页内容数据存储在缓存存储器中;以及
发送模块,用于在接收到浏览器客户端发起的网页访问请求后,将缓存存储器中预先缓存的相应网页内容数据传送到浏览器客户端。
11.如权利要求10所述的服务器,还包括:
确定模块,用于确定所述缓存存储器中存储的网页内容数据是否需要更新,
在所述确定模块确定需要更新时,所述网页内容获取模块从所述网页服务器获取所述被更新的网页内容数据,并且所述服务器还包括网页内容更新模块,用于利用所述网页内容获取模块所获取的被更新的网页内容数据对存储在缓存存储器中的该网页内容数据进行更新。
12.如权利要求11所述的服务器,所述确定模块还包括:
检查模块,用于根据所述预抓取策略,定期检查所述网页服务器中的网页内容数据是否被更新,
其中,在所述检查模块检查到所述网页服务器中的网页内容数据被更新时,所述确定模块确定所述缓存存储器中存储的网页内容数据需要更新。
13.如权利要求11所述的服务器,其中,所述确定模块还包括判断模块,用于判断所述缓存存储器中存储的网页内容数据的页面有效性,
其中,在所述判断模块判断出所述缓存存储器中存储的网页内容数据无效时,所述确定模块确定所述缓存存储器中存储的网页内容数据需要更新。
14.如权利要求10所述的服务器,还包括预抓取策略更新模块,用于根据系统配置文件的更新来更新预抓取策略。
15.如权利要求10所述的服务器,其中,所述网页内容存储模块还包括:
无缓存策略网页元素判断模块,用于判断所获取的网页内容中的网页元素是否是无缓存策略网页元素;以及
强制存储模块,用于将所获取的网页元素强制存储在缓存存储器中,
其中,当所述要获取的网页内容数据中的网页元素为无缓存策略元素时,所述网页内容获取模块对所述网页元素进行预定次数的获取,在所述预定次数获取所获取的网页元素内容相同时,所述强制存储模块将所述网页元素强制存储在所述缓存存储器中,否则,所述网页内容存储模块不存储所述网页元素。
16.如权利要求10所述的服务器,其中,所述网页内容获取模块还包括预抓取策略调整模块,用于当无法根据所述预抓取策略从所述网页服务器获取要抓取的网页内容数据中的网页元素时,调整所述预抓取策略,以及
替换模块,用于利用特定标识来替换要获取的网页元素的内容,
其中,所述网页内容获取模块根据所述调整后的预抓取策略,对所述网页元素进行预定次数的获取,在所述网页内容获取模块的获取次数超出所述预定次数后仍无法获取时,所述替换模块利用特定标识来替换要获取的网页元素的内容,所述网页内容存储模块将该特定标识作为该要获取的网页元素存储到缓存存储器中。
17.如权利要求10所述的服务器,其中,所述缓存存储器位于所述服务器中。
18.如权利要求10所述的服务器,其中,所述缓存存储器位于与所述服务器分离的另一服务器中,其中,在接收到浏览器客户端发起的网页访问请求时,所述网页内容数据获取模块还用于从所述缓存存储器中获取所缓存的网页内容数据,并且所述发送模块将从所述缓存存储器中获取的网页内容数据发送给浏览器客户端。
CN2011101814183A 2011-06-30 2011-06-30 网页内容数据获取方法及服务器 Pending CN102364461A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201611181971.6A CN106599239A (zh) 2011-06-30 2011-06-30 网页内容数据获取方法及服务器
CN2011101814183A CN102364461A (zh) 2011-06-30 2011-06-30 网页内容数据获取方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101814183A CN102364461A (zh) 2011-06-30 2011-06-30 网页内容数据获取方法及服务器

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201611181971.6A Division CN106599239A (zh) 2011-06-30 2011-06-30 网页内容数据获取方法及服务器

Publications (1)

Publication Number Publication Date
CN102364461A true CN102364461A (zh) 2012-02-29

Family

ID=45691027

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201611181971.6A Pending CN106599239A (zh) 2011-06-30 2011-06-30 网页内容数据获取方法及服务器
CN2011101814183A Pending CN102364461A (zh) 2011-06-30 2011-06-30 网页内容数据获取方法及服务器

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201611181971.6A Pending CN106599239A (zh) 2011-06-30 2011-06-30 网页内容数据获取方法及服务器

Country Status (1)

Country Link
CN (2) CN106599239A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102647481A (zh) * 2012-03-31 2012-08-22 奇智软件(北京)有限公司 一种访问预设网络地址的装置及方法
CN102868719A (zh) * 2012-06-29 2013-01-09 北京奇虎科技有限公司 一种基于缓存的网络访问方法和服务器
CN103198142A (zh) * 2013-04-17 2013-07-10 华为技术有限公司 页面数据更新处理方法、客户端及服务器
CN103312733A (zh) * 2012-03-08 2013-09-18 腾讯科技(深圳)有限公司 信息处理方法和装置
CN103412898A (zh) * 2013-07-26 2013-11-27 华为技术有限公司 一种网页优化的方法及装置
CN103455603A (zh) * 2013-09-03 2013-12-18 小米科技有限责任公司 网页内容缓存、网页加载方法、装置及终端设备
CN103530314A (zh) * 2013-07-26 2014-01-22 苏州亿倍信息技术有限公司 一种实现数据处理的方法及系统
WO2015010411A1 (zh) * 2013-07-26 2015-01-29 苏州亿倍信息技术有限公司 一种数据访问处理方法及系统
CN104468807A (zh) * 2014-12-12 2015-03-25 北京小渔无限信息技术有限公司 进行网页缓存的处理方法、云端装置、本地装置及系统
CN104598570A (zh) * 2015-01-12 2015-05-06 百度在线网络技术(北京)有限公司 资源的抓取方法及装置
CN104899208A (zh) * 2014-03-05 2015-09-09 腾讯科技(深圳)有限公司 一种浏览器的缓存方法及装置
CN105069011A (zh) * 2015-07-07 2015-11-18 安一恒通(北京)科技有限公司 用于管理网页收藏夹的方法、装置及系统
CN105320687A (zh) * 2014-07-29 2016-02-10 腾讯科技(北京)有限公司 网页显示方法及装置
CN105376290A (zh) * 2014-09-02 2016-03-02 腾讯科技(北京)有限公司 网络媒介信息的展示、发布控制方法、装置和系统
CN106611032A (zh) * 2015-10-27 2017-05-03 广州市动景计算机科技有限公司 一种网页预加载的方法及装置
CN106713506A (zh) * 2017-02-22 2017-05-24 郑州云海信息技术有限公司 一种数据获取方法及系统
CN106797403A (zh) * 2016-03-29 2017-05-31 瑞典爱立信有限公司 用于处理高速缓存的内容资源的服务器、客户端设备和其中的方法
CN106790322A (zh) * 2015-11-19 2017-05-31 中国移动通信集团公司 缓存策略形成方法及装置
CN106874515A (zh) * 2017-03-14 2017-06-20 深圳市博信诺达经贸咨询有限公司 网上信息抓取方法及系统
CN106897126A (zh) * 2015-12-21 2017-06-27 北京奇虎科技有限公司 一种图片抓取方法和服务器
CN106899689A (zh) * 2017-03-15 2017-06-27 腾讯科技(深圳)有限公司 一种信息预下发的方法及服务器
CN106897127A (zh) * 2015-12-21 2017-06-27 北京奇虎科技有限公司 一种对图片进行抓取处理的方法和服务器
CN107071066A (zh) * 2017-06-07 2017-08-18 北京潘达互娱科技有限公司 页面访问方法及装置
CN107302567A (zh) * 2017-06-05 2017-10-27 珠海市君天电子科技有限公司 迷你页信息流提供方法、装置及系统
CN113872809A (zh) * 2021-09-28 2021-12-31 绿盟科技集团股份有限公司 访问方法、装置、电子设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112994968B (zh) * 2019-12-17 2023-05-02 北京沃东天骏信息技术有限公司 一种网络信息采集方法、服务器、终端和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025496A2 (en) * 2000-09-22 2002-03-28 Clearway Acquisition, Inc. Serving dynamic web-pages
CN101178736A (zh) * 2007-12-11 2008-05-14 腾讯科技(深圳)有限公司 网页抓取方法和网页抓取服务器
CN101325602A (zh) * 2008-07-30 2008-12-17 广州市动景计算机科技有限公司 一种微浏览器智能预读网页的方法及系统
CN101668004A (zh) * 2008-09-04 2010-03-10 阿里巴巴集团控股有限公司 一种网页获取方法、装置及系统
CN101867620A (zh) * 2010-07-02 2010-10-20 南京南瑞继保电气有限公司 一种跨安全区查看前置报文的方法
CN102033917A (zh) * 2010-12-09 2011-04-27 广州市动景计算机科技有限公司 移动终端的网页浏览方法及应用该方法的移动终端
CN102109989A (zh) * 2009-12-29 2011-06-29 阿里巴巴集团控股有限公司 一种控制浏览器缓存的方法、装置和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261630A (zh) * 2008-04-22 2008-09-10 郭诺 自主发布信息的网络服务中检查信息内容的方法和装置
CN101808114A (zh) * 2010-02-09 2010-08-18 深圳市同洲电子股份有限公司 实现网页访问的方法、系统及前端服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025496A2 (en) * 2000-09-22 2002-03-28 Clearway Acquisition, Inc. Serving dynamic web-pages
CN101178736A (zh) * 2007-12-11 2008-05-14 腾讯科技(深圳)有限公司 网页抓取方法和网页抓取服务器
CN101325602A (zh) * 2008-07-30 2008-12-17 广州市动景计算机科技有限公司 一种微浏览器智能预读网页的方法及系统
CN101668004A (zh) * 2008-09-04 2010-03-10 阿里巴巴集团控股有限公司 一种网页获取方法、装置及系统
CN102109989A (zh) * 2009-12-29 2011-06-29 阿里巴巴集团控股有限公司 一种控制浏览器缓存的方法、装置和系统
CN101867620A (zh) * 2010-07-02 2010-10-20 南京南瑞继保电气有限公司 一种跨安全区查看前置报文的方法
CN102033917A (zh) * 2010-12-09 2011-04-27 广州市动景计算机科技有限公司 移动终端的网页浏览方法及应用该方法的移动终端

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312733A (zh) * 2012-03-08 2013-09-18 腾讯科技(深圳)有限公司 信息处理方法和装置
CN103312733B (zh) * 2012-03-08 2016-03-02 腾讯科技(深圳)有限公司 信息处理方法和装置
CN102647481A (zh) * 2012-03-31 2012-08-22 奇智软件(北京)有限公司 一种访问预设网络地址的装置及方法
CN102647481B (zh) * 2012-03-31 2016-04-06 北京奇虎科技有限公司 一种访问预设网络地址的装置及方法
CN102868719A (zh) * 2012-06-29 2013-01-09 北京奇虎科技有限公司 一种基于缓存的网络访问方法和服务器
WO2014000574A1 (zh) * 2012-06-29 2014-01-03 北京奇虎科技有限公司 一种基于缓存的网络访问方法和服务器
CN102868719B (zh) * 2012-06-29 2015-09-16 北京奇虎科技有限公司 一种基于缓存的网络访问方法和服务器
CN103198142A (zh) * 2013-04-17 2013-07-10 华为技术有限公司 页面数据更新处理方法、客户端及服务器
CN103412898A (zh) * 2013-07-26 2013-11-27 华为技术有限公司 一种网页优化的方法及装置
WO2015010411A1 (zh) * 2013-07-26 2015-01-29 苏州亿倍信息技术有限公司 一种数据访问处理方法及系统
CN103530314A (zh) * 2013-07-26 2014-01-22 苏州亿倍信息技术有限公司 一种实现数据处理的方法及系统
CN103412898B (zh) * 2013-07-26 2017-03-01 华为技术有限公司 一种网页优化的方法及装置
CN103455603A (zh) * 2013-09-03 2013-12-18 小米科技有限责任公司 网页内容缓存、网页加载方法、装置及终端设备
CN103455603B (zh) * 2013-09-03 2016-08-17 小米科技有限责任公司 网页内容缓存、网页加载方法、装置及终端设备
CN104899208A (zh) * 2014-03-05 2015-09-09 腾讯科技(深圳)有限公司 一种浏览器的缓存方法及装置
CN105320687A (zh) * 2014-07-29 2016-02-10 腾讯科技(北京)有限公司 网页显示方法及装置
CN105376290B (zh) * 2014-09-02 2020-07-03 腾讯科技(北京)有限公司 网络媒介信息的展示、发布控制方法、装置和系统
CN105376290A (zh) * 2014-09-02 2016-03-02 腾讯科技(北京)有限公司 网络媒介信息的展示、发布控制方法、装置和系统
CN104468807A (zh) * 2014-12-12 2015-03-25 北京小渔无限信息技术有限公司 进行网页缓存的处理方法、云端装置、本地装置及系统
CN104468807B (zh) * 2014-12-12 2018-11-13 北京易网无际科技有限公司 进行网页缓存的处理方法、云端装置、本地装置及系统
CN104598570B (zh) * 2015-01-12 2018-11-09 百度在线网络技术(北京)有限公司 资源的抓取方法及装置
CN104598570A (zh) * 2015-01-12 2015-05-06 百度在线网络技术(北京)有限公司 资源的抓取方法及装置
CN105069011A (zh) * 2015-07-07 2015-11-18 安一恒通(北京)科技有限公司 用于管理网页收藏夹的方法、装置及系统
CN106611032A (zh) * 2015-10-27 2017-05-03 广州市动景计算机科技有限公司 一种网页预加载的方法及装置
CN106790322A (zh) * 2015-11-19 2017-05-31 中国移动通信集团公司 缓存策略形成方法及装置
CN106790322B (zh) * 2015-11-19 2020-05-12 中国移动通信集团公司 缓存策略形成方法及装置
CN106897126A (zh) * 2015-12-21 2017-06-27 北京奇虎科技有限公司 一种图片抓取方法和服务器
CN106897127A (zh) * 2015-12-21 2017-06-27 北京奇虎科技有限公司 一种对图片进行抓取处理的方法和服务器
US10652352B2 (en) 2016-03-29 2020-05-12 Telefonaktiebolaget Lm Ericsson (Publ) Server, client device and methods therein for handling
CN106797403A (zh) * 2016-03-29 2017-05-31 瑞典爱立信有限公司 用于处理高速缓存的内容资源的服务器、客户端设备和其中的方法
CN106797403B (zh) * 2016-03-29 2019-03-22 瑞典爱立信有限公司 用于处理高速缓存的内容资源的服务器、客户端设备和其中的方法
CN106713506A (zh) * 2017-02-22 2017-05-24 郑州云海信息技术有限公司 一种数据获取方法及系统
CN106874515A (zh) * 2017-03-14 2017-06-20 深圳市博信诺达经贸咨询有限公司 网上信息抓取方法及系统
CN106899689B (zh) * 2017-03-15 2020-05-05 腾讯科技(深圳)有限公司 一种信息预下发的方法及服务器
CN106899689A (zh) * 2017-03-15 2017-06-27 腾讯科技(深圳)有限公司 一种信息预下发的方法及服务器
CN107302567A (zh) * 2017-06-05 2017-10-27 珠海市君天电子科技有限公司 迷你页信息流提供方法、装置及系统
CN107071066A (zh) * 2017-06-07 2017-08-18 北京潘达互娱科技有限公司 页面访问方法及装置
CN113872809A (zh) * 2021-09-28 2021-12-31 绿盟科技集团股份有限公司 访问方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN106599239A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN102364461A (zh) 网页内容数据获取方法及服务器
EP2653987B1 (en) Displaying web pages without downloading static files
KR100881668B1 (ko) 웹 페이지 프리페치 장치 및 방법
CN101262497B (zh) 一种内容推送方法、系统及装置
CN102333092B (zh) 一种网络用户识别的方法及其应用服务器
CN102075570B (zh) 一种基于关键字的http报文缓存机制的实现方法
KR102151457B1 (ko) 통신 시스템에서 페이지 로딩 시간 단축 방법 및 장치
US9690568B2 (en) Client-side script bundle management system
US20150207660A1 (en) Client-side url redirection
KR20160030381A (ko) 웹 페이지 액세스 방법, 장치, 라우터, 프로그램 및 기록매체
CN101719936A (zh) 提供文件下载服务的方法、装置及缓存系统
CN102737037A (zh) 一种网页预读取的方法、装置及一种浏览器
CN103139278A (zh) 一种网络资源预取并缓存加速的方法及其装置
CN102170479A (zh) Web缓存的更新方法及Web缓存的更新装置
CN103970534A (zh) 一种提供移动应用中的渲染页面的方法与设备
US20150222725A1 (en) Caching proxy method and apparatus
CN102882974A (zh) 一种通过网站识别版本号节省网站访问资源的方法
CN103400283A (zh) 一种基于家庭网关的广告推送系统及方法
CN104572843A (zh) 一种页面的加载方法及装置
CN104010035A (zh) 一种应用程序分发的方法及系统
CN102523533A (zh) 视频内容关联的在线视频广告管理方法
US20190034394A1 (en) Browser Plug-In To Conserve Bandwidth
CN103945259A (zh) 一种在线视频播放方法及装置
CN103916474A (zh) 缓存时间的确定方法、装置及系统
WO2019109326A1 (zh) 一种页面缓存处理方法、装置和服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120229