CN104361067A - 一种浏览器网页信息的智能加载方法及系统 - Google Patents

一种浏览器网页信息的智能加载方法及系统 Download PDF

Info

Publication number
CN104361067A
CN104361067A CN201410619098.9A CN201410619098A CN104361067A CN 104361067 A CN104361067 A CN 104361067A CN 201410619098 A CN201410619098 A CN 201410619098A CN 104361067 A CN104361067 A CN 104361067A
Authority
CN
China
Prior art keywords
network address
prediction
visited
module
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410619098.9A
Other languages
English (en)
Other versions
CN104361067B (zh
Inventor
莫瑜
俞俨
李洪亮
刘铁锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Mobo Information Technology Co ltd
Original Assignee
All China (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by All China (wuhan) Information Technology Co Ltd filed Critical All China (wuhan) Information Technology Co Ltd
Priority to CN201410619098.9A priority Critical patent/CN104361067B/zh
Publication of CN104361067A publication Critical patent/CN104361067A/zh
Application granted granted Critical
Publication of CN104361067B publication Critical patent/CN104361067B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明涉及一种浏览器网页信息的智能加载方法及系统,包括以下步骤:根据用户输入的待访问网址,预测与待访问网页相关的预测网页信息;浏览器向待访问网址发送网址访问请求,请求获取与待访问网址对应的HTML文档;浏览器根据预测网页信息发送网址DNS解析请求、TCP连接请求及资源下载请求;浏览器中的HTML解析器解析获取的HTML文档,得到待获取网页资源;将待获取网页资源与预测网页资源进行对比,得到差异网页资源,根据获取的IP、建立的TCP连接和预测网页资源,逐个获取差异网页资源;浏览器将预测网页资源与获取的差异网页资源进行显示。本发明将预测的预测网页资源进行提前加载,不需要再次发送请求去获取,能够使网页加载速度大幅度提高。

Description

一种浏览器网页信息的智能加载方法及系统
技术领域
本发明涉及一种浏览器网页信息的智能加载方法及系统。
背景技术
网页加载是浏览器的核心和基本功能。围绕网页加载速度改进的工作有很多,比如缓存优化,预加载,基于服务端技术,网络协议改进(如SPDY)等等。
其中,预加载是一个根据用户历史记录,在用户访问当前网页的时候,预测该用户即将访问的下一个网页,并提前加载。当预测正确的时候,由于提前加载,浏览器可以快速地展示下一个网页。
Goog le的提前加载,Google对于网页加载从网络协议栈的不同层次进行提前加载,如提前解析DNS,提前建立TCP连接,提前加载网页。
网络加载是浏览器的重要模块。它负责获取所有网页渲染显示需要的资源。一个传统的网页加载在用户发起网络请求(比如:http://www.yahoo.com)之后,首先请求http://www.yahoo.com的HTML文档,通过解析HTML文档(上图HTML Pars ing部分),获取网页必须的其他资源(如image,javascr ipt,css资源。上图的”New resources to load”),Resource Loading模块随后逐一加载这些资源。
而,每个资源的加载过程又分为DNS解析,TCP连接,HTTP请求三个步骤,需要依次进行。
上述的标准网页加载流程,并未能充分利用网络带宽:
1.在网页的HTML文档返回并解析之前,我们并不知道需要请求什么资源。这个时候整个网络带宽只是在等待加载HTML主文档;
2.类似地,在DNS解析之前,我们并不知道域名对应的IP地址,不能开始创建TCP连接。没有建立好TCP连接之前,不能开始实际网络数据传输。
发明内容
本发明所要解决的技术问题是提供一种能够提前加载预测网页资源的的浏览器网页信息的智能加载方法及系统。
本发明解决上述技术问题的技术方案如下:一种浏览器网页信息的智能加载方法,包括以下步骤:
步骤1:根据用户输入的待访问网址,预测与待访问网页相关的预测网页信息;
步骤2:浏览器向待访问网址发送网址访问请求,请求获取与待访问网址对应的HTML文档,并将获取的HTML文档发送给HTML解析器;
步骤3:浏览器根据预测网页信息发送网址DNS解析请求,请求获取与待访问网址对应的预测域名解析集合中所有域名对应的IP;
步骤4:浏览器根据预测网页信息发送TCP连接请求,请求获取与待访问网址对应的预测连接域名集合中的所有域名,并分别在浏览器与每个域名之间建立TCP连接;
步骤5:浏览器根据预测网页信息发送资源下载请求,请求下载与待访问网址对应的预测网页资源;
步骤6:浏览器中的HTML解析器解析获取的HTML文档,得到组成HTML文档的所有待获取网页资源;
步骤7:将待获取网页资源与预测网页资源进行对比,得到待获取网页资源中与预测网页资源不同的差异网页资源,根据获取的IP、建立的TCP连接和预测网页资源,逐个获取差异网页资源;
步骤8:浏览器将预测网页资源与获取的差异网页资源进行显示。
本发明的有益效果是:本发明提前预测网页加载过程中需要DNS解析的域名,需要TCP连接的域名和需要加载的资源,通过优化资源加载流水线,从而提高整个网页加载的速度,网页加载速度平均改进15-25%,在资源预测加载基础上,引入DNS预测解析和TCP预测连接,网页加载速度平均改进约10%。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
进一步,所述步骤1具体包括以下步骤:
步骤1.1:对于互联网中预定范围内的所有网络站点,从每个网络站点中随机抓取预定数量的抓取网页,保存与所有抓取网页对应的抓取网页信息;
步骤1.2:获取预定时间段内用户访问的历史网页,保存与所有历史网页对应的历史网页信息;
步骤1.3:根据所有抓取网页和历史网页构建访问记录,并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征,并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引;
步骤1.4:获取用户输入的待访问网址,判断用户输入的待访问网址是否在访问记录中,如果是,根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息,结束处理,如果不是,抽取待访问网址的网址特征;
步骤1.5:根据抽取的待访问网址的网址特征的集合构建候选集,所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集;
步骤1.6:计算待访问网址与特征候选集中每一个网址的相似度,根据相似度权重排序,选取相似度权重最高的网址特征对应的历史访问网址;
步骤1.7:将历史访问网址对应的网址信息作为预测候选集,计算预测候选集中每一个网址信息的概率,并选取概率最大的网址信息作为预测网页信息返回。
进一步,所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
进一步,所述步骤1.6中计算待访问网址与特征候选集中每一个网址的相似度具体为,根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。
进一步,一种浏览器网页信息的智能加载系统,包括预测模块、第一请求获取模块、第二请求获取模块、第三请求获取模块、请求下载模块、解析模块、获取模块和显示模块;
所述预测模块,用于根据用户输入的待访问网址,预测与待访问网页相关的预测网页信息;
所述第一请求获取模块,用于浏览器向待访问网址发送网址访问请求,请求获取与待访问网址对应的HTML文档,并将获取的HTML文档发送给HTML解析器;
所述第二请求获取模块,用于使浏览器根据预测网页信息发送网址DNS解析请求,请求获取与待访问网址对应的预测域名解析集合中所有域名对应的IP;
所述第三请求获取模块,用于使浏览器根据预测网页信息发送TCP连接请求,请求获取与待访问网址对应的预测连接域名集合中的所有域名,并分别在浏览器与每个域名之间建立TCP连接;
所述请求下载模块,用于使浏览器根据预测网页信息发送资源下载请求,请求下载与待访问网址对应的预测网页资源;
所述解析模块,用于使浏览器中的HTML解析器解析获取的HTML文档,得到组成HTML文档的所有待获取网页资源;
所述获取模块,用于将待获取网页资源与预测网页资源进行对比,得到待获取网页资源中与预测网页资源不同的差异网页资源,根据获取的IP、建立的TCP连接和预测网页资源,逐个获取差异网页资源;
所述显示模块,用于使浏览器将预测网页资源与获取的差异网页资源进行显示。
进一步,所述网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
进一步,所述预测模块具体包括:抓取模块、获取保存模块、抽取模块、判断模块、构建模块、计算模块和返回模块;
所述抓取模块,用于对于互联网中预定范围内的所有网络站点,从每个网络站点中随机抓取预定数量的抓取网页,保存与所有抓取网页对应的抓取网页信息;
所述获取保存模块,用于获取预定时间段内用户访问的历史网页,保存与所有历史网页对应的历史网页信息;
所述抽取模块,用于根据所有抓取网页和历史网页构建访问记录,并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征,并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引;
所述判断模块,用于获取用户输入的待访问网址,判断用户输入的待访问网址是否在访问记录中,如果是,根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息,结束处理,如果不是,抽取待访问网址的网址特征;
所述构建模块,用于根据抽取的待访问网址的网址特征的集合构建候选集,所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集;
所述计算模块,用于计算待访问网址与特征候选集中每一个网址的相似度,根据相似度权重排序,选取相似度权重最高的网址特征对应的历史访问网址;
所述返回模块,用于将历史访问网址对应的网址信息作为预测候选集,计算预测候选集中每一个网址信息的概率,并选取概率最大的网址信息作为预测网页信息返回。
进一步,所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
进一步,所述计算模块中计算待访问网址与特征候选集中每一个网址的相似度具体为,根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。
附图说明
图1为本发明方法步骤流程图;
图2为本发明系统结构图。
附图中,各标号所代表的部件列表如下:
1、预测模块,2、第一请求获取模块,3、第二请求获取模块,4、第三请求获取模块,5、请求下载模块,6、解析模块,7、获取模块,8、显示模块。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明方法步骤流程图;图2为本发明系统结构图。
实施例1
一种浏览器网页信息的智能加载方法,包括以下步骤:
步骤1:根据用户输入的待访问网址,预测与待访问网页相关的预测网页信息;
步骤2:浏览器向待访问网址发送网址访问请求,请求获取与待访问网址对应的HTML文档,并将获取的HTML文档发送给HTML解析器;
步骤3:浏览器根据预测网页信息发送网址DNS解析请求,请求获取与待访问网址对应的预测域名解析集合中所有域名对应的IP;
步骤4:浏览器根据预测网页信息发送TCP连接请求,请求获取与待访问网址对应的预测连接域名集合中的所有域名,并分别在浏览器与每个域名之间建立TCP连接;
步骤5:浏览器根据预测网页信息发送资源下载请求,请求下载与待访问网址对应的预测网页资源;
步骤6:浏览器中的HTML解析器解析获取的HTML文档,得到组成HTML文档的所有待获取网页资源;
步骤7:将待获取网页资源与预测网页资源进行对比,得到待获取网页资源中与预测网页资源不同的差异网页资源,根据获取的IP、建立的TCP连接和预测网页资源,逐个获取差异网页资源;
步骤8:浏览器将预测网页资源与获取的差异网页资源进行显示。
所述网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
所述步骤1具体包括以下步骤:
步骤1.1:对于互联网中预定范围内的所有网络站点,从每个网络站点中随机抓取预定数量的抓取网页,保存与所有抓取网页对应的抓取网页信息;
步骤1.2:获取预定时间段内用户访问的历史网页,保存与所有历史网页对应的历史网页信息;
步骤1.3:根据所有抓取网页和历史网页构建访问记录,并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征,并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引;
步骤1.4:获取用户输入的待访问网址,判断用户输入的待访问网址是否在访问记录中,如果是,根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息,结束处理,如果不是,抽取待访问网址的网址特征;
步骤1.5:根据抽取的待访问网址的网址特征的集合构建候选集,所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集;
步骤1.6:计算待访问网址与特征候选集中每一个网址的相似度,根据相似度权重排序,选取相似度权重最高的网址特征对应的历史访问网址;
步骤1.7:将历史访问网址对应的网址信息作为预测候选集,计算预测候选集中每一个网址信息的概率,并选取概率最大的网址信息作为预测网页信息返回。
所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
所述步骤1.6中计算待访问网址与特征候选集中每一个网址的相似度具体为,根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。
在具体实施中,采取以下方式:
引入智能预测模型之后的网页加载流程:
1.启动浏览器的时候初始化并加载智能预测模型PageLoadOracle
2.用户输入访问的网址url_webpage(如:http://www.sina.com.cn/);
3.浏览器询问智能预测模型PageLoadOracle:访问url_webpage(http://www.sina.com.cn)过程中可能需要解析的域名有哪些?可能需要建立连接的域名有哪些?可能需要下载的资源有哪些?
4.智能预测模型PageLoadOracle返回她的预测结果:网址url_webpage(如:http://www.sina.com.cn)访问过程中可能需要解析的域名集合dns_domain_set(如:news.sina.com.cn,login.sina.com.cn),可能需要连接的域名集合tcp_domain_set(如:sax.sina.com.cn)和可能需要加载的资源集合subresource_set(如:http://i3.sinaimg.cn/home/2014/0108/U4167P30DT20140108175729.png,http://d1.sina.com.cn/js/index/14/sync.js);
5.浏览器发送网络请求获取url_webpage对应的HTML文档;
6.浏览器发送DNS解析请求,提前获取可能需要进行DNS解析的域名集合dns_domain_set(如:news.sina.com.cn,login.sina.com.cn)中的所有域名对应的ip;
7.浏览器发送TCP连接请求,提前为可能需要进行TCP连接的域名集合tcp_domain_set(如:sax.sina.com.cn)中的所有域名创建浏览器与这些域名之间的TCP连接;
8.浏览器发送网络请求,提前获取可能需要下载的资源集合subresource_set(如:http://i3.sinaimg.cn/home/2014/0108/U4167P30DT20140108175729.png,http://d1.sina.com.cn/js/index/14/sync.js)中的资源;
9.HTMLParser分析HTML文档,得到网页必须的资源subresource_1,subresource_2,……;
10.逐次发送网络请求获取没有出现在提前获取的预测网页资源中的剩余资源subresource_1,subresource_2,……;
11.逐次获取上述剩余资源subresource_1,subresource_2,……之后,通知智能预测模型网页加载过程中请求的资源,以用于后续智能预测模型的更新和改进;
12.浏览器根据加载的资源进行页面布局,渲染并最终把渲染结果网页呈现给用户。
浏览器关闭时或定期,智能预测模型根据收集的网页加载历史记录,更新智能预测模型并保持到持久化存储设备中。
一种浏览器网页信息的智能加载系统,包括预测模块1、第一请求获取模块2、第二请求获取模块3、第三请求获取模块4、请求下载模块5、解析模块6、获取模块7和显示模块8;
所述预测模块1,用于根据用户输入的待访问网址,预测与待访问网页相关的网页信息;
所述第一请求获取模块2,用于控制浏览器发送网址访问请求,请求获取与待访问网址对应的HTML文档;
所述第二请求获取模块3,用于控制浏览器根据预测网页信息发送网址DNS解析请求,请求获取与待访问网址对应的预测域名解析集合中所有域名对应的IP;
所述第三请求获取模块4,用于控制浏览器根据预测网页信息发送TCP连接请求,请求获取与待访问网址对应的预测连接域名集合中的所有域名,并分别在浏览器与每个域名之间建立TCP连接;
所述请求下载模块5,用于控制浏览器根据预测网页信息发送资源下载请求,请求下载与待访问网址对应的预测网页资源;
所述解析模块6,用于控制浏览器中的HTML解析器解析获取的HTML文档,得到组成HTML文档的所有网页资源的信息;
所述获取模块7,用于根据所有网页资源的信息、通过访问获取的IP和建立的TCP连接逐个获取网页资源中没有出现在预测网页资源中的剩余资源;
所述显示模块8,用于控制浏览器根据加载的网页资源显示结果网页。
所述网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
所述预测模块1具体包括:抓取模块、获取保存模块、抽取模块、判断模块、构建模块、计算模块和返回模块;
所述抓取模块,用于对于互联网中预定范围内的所有网络站点,从每个网络站点中随机抓取预定数量的抓取网页,保存与所有抓取网页对应的抓取网页信息;
所述获取保存模块,用于获取预定时间段内用户访问的历史网页,保存与所有历史网页对应的历史网页信息;
所述抽取模块,用于根据所有抓取网页和历史网页构建访问记录,并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征,并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引;
所述判断模块,用于获取用户输入的待访问网址,判断用户输入的待访问网址是否在访问记录中,如果是,根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息,结束处理,如果不是,抽取待访问网址的网址特征;
所述构建模块,用于根据抽取的待访问网址的网址特征的集合构建候选集,所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集;
所述计算模块,用于计算待访问网址与特征候选集中每一个网址的相似度,根据相似度权重排序,选取相似度权重最高的网址特征对应的历史访问网址;
所述返回模块,用于将历史访问网址对应的网址信息作为预测候选集,计算预测候选集中每一个网址信息的概率,并选取概率最大的网址信息作为预测网页信息返回。
所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
所述计算模块1-6中计算待访问网址与特征候选集中每一个网址的相似度具体为,根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种浏览器网页信息的智能加载方法,其特征在于,包括以下步骤:
步骤1:根据用户输入的待访问网址,预测与待访问网页相关的预测网页信息;
步骤2:浏览器向待访问网址发送网址访问请求,请求获取与待访问网址对应的HTML文档,并将获取的HTML文档发送给HTML解析器;
步骤3:浏览器根据预测网页信息发送网址DNS解析请求,请求获取与待访问网址对应的预测域名解析集合中所有域名对应的IP;
步骤4:浏览器根据预测网页信息发送TCP连接请求,请求获取与待访问网址对应的预测连接域名集合中的所有域名,并分别在浏览器与每个域名之间建立TCP连接;
步骤5:浏览器根据预测网页信息发送资源下载请求,请求下载与待访问网址对应的预测网页资源;
步骤6:浏览器中的HTML解析器解析获取的HTML文档,得到组成HTML文档的所有待获取网页资源;
步骤7:将待获取网页资源与预测网页资源进行对比,得到待获取网页资源中与预测网页资源不同的差异网页资源,根据获取的IP、建立的TCP连接和预测网页资源,逐个获取差异网页资源;
步骤8:浏览器将预测网页资源与获取的差异网页资源进行显示。
2.根据权利要求1所述的浏览器网页信息的智能加载方法,其特征在于,所述网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
3.根据权利要求1或2所述的浏览器网页信息的智能加载方法,其特征在于,所述步骤1具体包括以下步骤:
步骤1.1:对于互联网中预定范围内的所有网络站点,从每个网络站点中随机抓取预定数量的抓取网页,保存与所有抓取网页对应的抓取网页信息;
步骤1.2:获取预定时间段内用户访问的历史网页,保存与所有历史网页对应的历史网页信息;
步骤1.3:根据所有抓取网页和历史网页构建访问记录,并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征,并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引;
步骤1.4:获取用户输入的待访问网址,判断用户输入的待访问网址是否在访问记录中,如果是,根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息,结束处理,如果不是,抽取待访问网址的网址特征;
步骤1.5:根据抽取的待访问网址的网址特征的集合构建候选集,所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集;
步骤1.6:计算待访问网址与特征候选集中每一个网址的相似度,根据相似度权重排序,选取相似度权重最高的网址特征对应的历史访问网址;
步骤1.7:将历史访问网址对应的网址信息作为预测候选集,计算预测候选集中每一个网址信息的概率,并选取概率最大的网址信息作为预测网页信息返回。
4.根据权利要求3所述的浏览器网页信息的智能加载方法,其特征在于,所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
5.根据权利要求3所述的浏览器网页信息的智能加载方法,其特征在于,所述步骤1.6中计算待访问网址与特征候选集中每一个网址的相似度具体为,根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。
6.一种浏览器网页信息的智能加载系统,其特征在于:包括预测模块(1)、第一请求获取模块(2)、第二请求获取模块(3)、第三请求获取模块(4)、请求下载模块(5)、解析模块(6)、获取模块(7)和显示模块(8);
所述预测模块(1),用于根据用户输入的待访问网址,预测与待访问网页相关的预测网页信息;
所述第一请求获取模块(2),用于浏览器向待访问网址发送网址访问请求,请求获取与待访问网址对应的HTML文档,并将获取的HTML文档发送给HTML解析器;
所述第二请求获取模块(3),用于使浏览器根据预测网页信息发送网址DNS解析请求,请求获取与待访问网址对应的预测域名解析集合中所有域名对应的IP;
所述第三请求获取模块(4),用于使浏览器根据预测网页信息发送TCP连接请求,请求获取与待访问网址对应的预测连接域名集合中的所有域名,并分别在浏览器与每个域名之间建立TCP连接;
所述请求下载模块(5),用于使浏览器根据预测网页信息发送资源下载请求,请求下载与待访问网址对应的预测网页资源;
所述解析模块(6),用于使浏览器中的HTML解析器解析获取的HTML文档,得到组成HTML文档的所有待获取网页资源;
所述获取模块(7),用于将待获取网页资源与预测网页资源进行对比,得到待获取网页资源中与预测网页资源不同的差异网页资源,根据获取的IP、建立的TCP连接和预测网页资源,逐个获取差异网页资源;
所述显示模块(8),用于使浏览器将预测网页资源与获取的差异网页资源进行显示。
7.根据权利要求6所述的浏览器网页信息的智能加载系统,其特征在于,所述网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
8.根据权利要求6或7所述的浏览器网页信息的智能加载系统,其特征在于,所述预测模块(1)具体包括:抓取模块、获取保存模块、抽取模块、判断模块、构建模块、计算模块和返回模块;
所述抓取模块,用于对于互联网中预定范围内的所有网络站点,从每个网络站点中随机抓取预定数量的抓取网页,保存与所有抓取网页对应的抓取网页信息;
所述获取保存模块,用于获取预定时间段内用户访问的历史网页,保存与所有历史网页对应的历史网页信息;
所述抽取模块,用于根据所有抓取网页和历史网页构建访问记录,并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征,并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引;
所述判断模块,用于获取用户输入的待访问网址,判断用户输入的待访问网址是否在访问记录中,如果是,根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息,结束处理,如果不是,抽取待访问网址的网址特征;
所述构建模块,用于根据抽取的待访问网址的网址特征的集合构建候选集,所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集;
所述计算模块,用于计算待访问网址与特征候选集中每一个网址的相似度,根据相似度权重排序,选取相似度权重最高的网址特征对应的历史访问网址;
所述返回模块,用于将历史访问网址对应的网址信息作为预测候选集,计算预测候选集中每一个网址信息的概率,并选取概率最大的网址信息作为预测网页信息返回。
9.根据权利要求8所述的浏览器网页信息的智能加载系统,其特征在于,所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源;
所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
10.根据权利要求8所述的浏览器网页信息的智能加载系统,其特征在于,所述计算模块中计算待访问网址与特征候选集中每一个网址的相似度具体为,根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。
CN201410619098.9A 2014-11-05 2014-11-05 一种浏览器网页信息的智能加载方法及系统 Expired - Fee Related CN104361067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410619098.9A CN104361067B (zh) 2014-11-05 2014-11-05 一种浏览器网页信息的智能加载方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410619098.9A CN104361067B (zh) 2014-11-05 2014-11-05 一种浏览器网页信息的智能加载方法及系统

Publications (2)

Publication Number Publication Date
CN104361067A true CN104361067A (zh) 2015-02-18
CN104361067B CN104361067B (zh) 2018-07-20

Family

ID=52528328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410619098.9A Expired - Fee Related CN104361067B (zh) 2014-11-05 2014-11-05 一种浏览器网页信息的智能加载方法及系统

Country Status (1)

Country Link
CN (1) CN104361067B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161669A (zh) * 2015-04-28 2016-11-23 阿里巴巴集团控股有限公司 一种快速域名解析方法和系统、及其终端和服务器
CN109359252A (zh) * 2018-10-30 2019-02-19 北京小米移动软件有限公司 浏览器选择方法及装置
CN110020305A (zh) * 2017-11-29 2019-07-16 腾讯科技(武汉)有限公司 网页加载方法、装置、计算机设备和存储介质
CN110020310A (zh) * 2017-12-05 2019-07-16 广东欧珀移动通信有限公司 资源加载的方法、装置、终端及存储介质
CN112269959A (zh) * 2020-11-19 2021-01-26 北京有竹居网络技术有限公司 展示内容的控制方法、装置、可读介质和电子设备
CN114915611A (zh) * 2022-06-16 2022-08-16 北京有竹居网络技术有限公司 域名解析方法、域名解析结果存储方法及相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060294223A1 (en) * 2005-06-24 2006-12-28 Microsoft Corporation Pre-fetching and DNS resolution of hyperlinked content
CN102033935A (zh) * 2010-12-20 2011-04-27 深圳市五巨科技有限公司 一种移动终端浏览器预加载的方法、装置和系统
CN102446222A (zh) * 2011-12-22 2012-05-09 华为技术有限公司 一种网页内容预加载方法、装置及系统
WO2012159360A1 (zh) * 2011-08-01 2012-11-29 华为技术有限公司 网页预取的方法及装置
CN102882991A (zh) * 2012-09-29 2013-01-16 北京奇虎科技有限公司 一种浏览器及其进行域名解析的方法
CN103177042A (zh) * 2011-12-26 2013-06-26 宇龙计算机通信科技(深圳)有限公司 一种网页浏览的方法及装置
CN103201735A (zh) * 2010-10-04 2013-07-10 高通股份有限公司 用于执行域名服务器预获取的系统和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060294223A1 (en) * 2005-06-24 2006-12-28 Microsoft Corporation Pre-fetching and DNS resolution of hyperlinked content
CN103201735A (zh) * 2010-10-04 2013-07-10 高通股份有限公司 用于执行域名服务器预获取的系统和方法
CN102033935A (zh) * 2010-12-20 2011-04-27 深圳市五巨科技有限公司 一种移动终端浏览器预加载的方法、装置和系统
WO2012159360A1 (zh) * 2011-08-01 2012-11-29 华为技术有限公司 网页预取的方法及装置
CN102446222A (zh) * 2011-12-22 2012-05-09 华为技术有限公司 一种网页内容预加载方法、装置及系统
CN103177042A (zh) * 2011-12-26 2013-06-26 宇龙计算机通信科技(深圳)有限公司 一种网页浏览的方法及装置
CN102882991A (zh) * 2012-09-29 2013-01-16 北京奇虎科技有限公司 一种浏览器及其进行域名解析的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161669A (zh) * 2015-04-28 2016-11-23 阿里巴巴集团控股有限公司 一种快速域名解析方法和系统、及其终端和服务器
CN110020305A (zh) * 2017-11-29 2019-07-16 腾讯科技(武汉)有限公司 网页加载方法、装置、计算机设备和存储介质
CN110020305B (zh) * 2017-11-29 2023-12-12 深圳市雅阅科技有限公司 网页加载方法、装置、计算机设备和存储介质
CN110020310A (zh) * 2017-12-05 2019-07-16 广东欧珀移动通信有限公司 资源加载的方法、装置、终端及存储介质
CN109359252A (zh) * 2018-10-30 2019-02-19 北京小米移动软件有限公司 浏览器选择方法及装置
CN112269959A (zh) * 2020-11-19 2021-01-26 北京有竹居网络技术有限公司 展示内容的控制方法、装置、可读介质和电子设备
CN112269959B (zh) * 2020-11-19 2024-05-24 北京有竹居网络技术有限公司 展示内容的控制方法、装置、可读介质和电子设备
CN114915611A (zh) * 2022-06-16 2022-08-16 北京有竹居网络技术有限公司 域名解析方法、域名解析结果存储方法及相关设备

Also Published As

Publication number Publication date
CN104361067B (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN104361067A (zh) 一种浏览器网页信息的智能加载方法及系统
CN102624920B (zh) 一种通过代理服务器进行访问的方法及装置
EP3229148B1 (en) Website access method and device, and website system
CN102355488B (zh) 爬虫种子获取方法与设备及爬虫爬取方法与设备
CN102075570B (zh) 一种基于关键字的http报文缓存机制的实现方法
TWI670611B (zh) 網頁文件發送方法、網頁渲染方法及裝置、網頁渲染系統
CN104572777B (zh) 基于UIWebView组件的网页加载方法及装置
CN106776983B (zh) 搜索引擎优化装置和方法
CN101159762B (zh) 加速网页内容下载的方法及装置
CN103220371A (zh) 内容适配方法及系统
CN104427627A (zh) 测试数据获取方法、客户端与服务器
CN110855766A (zh) 一种访问Web资源的方法、装置及代理服务器
CN106250454A (zh) 一种页面脚本的加载方法及装置
CN104581753A (zh) 一种计算网页加载时延的方法、装置及终端
CN104063407A (zh) 基于云计算的浏览器架构与解析方法
CN104298780A (zh) 一种浏览器网页信息的预获取方法及系统
CN103458065A (zh) 一种HTML5标准下基于Webkit内核的视频地址提取方法
JP5112401B2 (ja) Web行動履歴取得システム、Web行動履歴取得方法、ゲートウェイ装置、及びプログラム
CN110933193B (zh) 域名解析方法、装置、电子设备及计算机可读存储介质
CN102306184B (zh) 获得链接压缩地址信息及压缩网页的方法、装置和设备
CN102882988A (zh) 一种获得资源信息的地址信息的方法、装置及设备
CN104615597A (zh) 浏览器中清除缓存文件的方法、装置和系统
CN103825772A (zh) 识别用户点击行为的方法及网关设备
CN104704495B (zh) 一种信息搜索的方法以及装置
CN105099829A (zh) 一种基于http协议的电子资源服务可用性自动化监测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190710

Address after: 430000 G0070, 2nd floor, 1 E-commerce office building, 58 Guanggu Avenue, Donghu New Technology Development Zone, Wuhan City, Hubei Province

Patentee after: Wuhan Mobo Information Technology Co.,Ltd.

Address before: 430000 3/F, Building A2, Guanggu Financial Port, 77 Guanggu Avenue, Donghu Hi-tech Development Zone, Wuhan City, Hubei Province

Patentee before: BAINA (WUHAN) INFORMATION TECHNOLOGY CO.,LTD.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180720

Termination date: 20211105