CN104298780A

CN104298780A - 一种浏览器网页信息的预获取方法及系统

Info

Publication number: CN104298780A
Application number: CN201410619097.4A
Authority: CN
Inventors: 莫瑜; 俞俨; 李洪亮; 刘铁锋
Original assignee: All China (wuhan) Information Technology Co Ltd
Current assignee: Wuhan Mobo Information Technology Co ltd
Priority date: 2014-11-05
Filing date: 2014-11-05
Publication date: 2015-01-21
Anticipated expiration: 2034-11-05
Also published as: CN104298780B

Abstract

本发明涉及一种浏览器网页信息的预获取方法及系统，包括以下步骤：根据抓取网页和历史网页及分别与抓取网页和历史网页对应的网址特征的集合建立倒排索引；判断用户输入的待访问网址是否在访问记录中，根据倒排索引获取历史网页信息或抓取网页信息，或者抽取待访问网址的网址特征；根据抽取的网址特征的集合构建候选集；计算待访问网址与特征候选集中每一个网址的相似度，根据相似度权重选取历史访问网址；将历史访问网址对应的网址信息作为预测候选集，计算每一个网址信息的概率，并选取概率最大的网址信息作为最终的预测候选结果返回。本发明根据返回的预测结果进行DNS预测解析、TCP预测连接和资源预测加载之后，大幅度提高网页加载速度。

Description

一种浏览器网页信息的预获取方法及系统

技术领域

本发明涉及一种浏览器网页信息的预获取方法及系统。

背景技术

网页加载是浏览器的核心和基本功能。围绕网页加载速度改进的工作有很多，比如缓存优化，预加载，基于服务端技术，网络协议改进(如SPDY)等等。

基于智能预测模型的浏览器网页加载方法是一种能大幅提升网页加载速度的方法。在这个方法中，我们命名智能预测模型PageLoadOracle主要是希望PageLoadOracle如神谕般能够提前告诉我们对于给定网址来说，什么域名需要解析，什么域名需要连接，什么资源需要加载。但，现实中并不存在万能的神谕，我们只能尽可能构建一个高效的预测模型。

如何提高预测模型的预测准确率和召回率是一个关键问题。

准确率意味着预测模型返回需要进行的预测行为(DNS解析，TCP连接，资源下载)是正确的，没有进行无意义的预测行为。如果出现错误预测，那么预测行为是无意义的，浪费了一定的网络带宽和计算资源，反而对网络加载有负面影响。

召回率意味着预测模型能够对尽可能多的用户请求网址提供预测行为指导。特别是对于没有访问过的网址进行指导。

发明内容

本发明所要解决的技术问题是提供一种无论是否具有用户个性化数据的情况下，均能够快速冷启动、满足用户的个性化的长尾需求并提高召回率的浏览器网页信息的预获取方法及系统。

本发明解决上述技术问题的技术方案如下：一种浏览器网页信息的预获取方法，包括以下步骤：

步骤1：对于互联网中预定范围内的所有网络站点，从每个网络站点中随机抓取预定数量的抓取网页，保存与所有抓取网页对应的抓取网页信息；

步骤2：获取预定时间段内用户访问的历史网页，保存与所有历史网页对应的历史网页信息；

步骤3：根据所有抓取网页和历史网页构建访问记录，并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征，并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引；

步骤4：获取用户输入的待访问网址，判断用户输入的待访问网址是否在访问记录中，如果是，根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息，结束处理，如果不是，抽取待访问网址的网址特征；

步骤5：根据抽取的待访问网址的网址特征的集合构建候选集，所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集；

步骤6：计算待访问网址与特征候选集中每一个网址的相似度，根据相似度权重排序，选取相似度权重最高的网址特征对应的历史访问网址；

步骤7：将历史访问网址对应的网址信息作为预测候选集，计算预测候选集中每一个网址信息的概率，并选取概率最大的网址信息作为最终的预测候选结果返回。

本发明的有益效果是：在缺少用户个性化数据的情况下，快速冷启动、提高召回率；并且能综合用户个性化数据，满足用户的个性化的长尾需求，提高召回率。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

进一步，所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

进一步，所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

进一步，所述步骤6中计算待访问网址与特征候选集中每一个网址的相似度具体为，根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。

进一步，一种浏览器网页信息的预获取系统，包括抓取模块、获取模块、抽取模块、判断模块、构建模块、计算模块和返回模块；

所述抓取模块，用于对于互联网中预定范围内的所有网络站点，从每个网络站点中随机抓取预定数量的抓取网页，保存与所有抓取网页对应的抓取网页信息；

所述获取模块，用于获取预定时间段内用户访问的历史网页，保存与所有历史网页对应的历史网页信息；

所述抽取模块，用于根据所有抓取网页和历史网页构建访问记录，并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征，并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引；

所述判断模块，用于获取用户输入的待访问网址，判断用户输入的待访问网址是否在访问记录中，如果是，根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息，结束处理，如果不是，抽取待访问网址的网址特征；

所述构建模块，用于根据抽取的待访问网址的网址特征的集合构建候选集，所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集；

所述计算模块，用于计算待访问网址与特征候选集中每一个网址的相似度，根据相似度权重排序，选取相似度权重最高的网址特征对应的历史访问网址；

所述返回模块，用于将历史访问网址对应的网址信息作为预测候选集，计算预测候选集中每一个网址信息的概率，并选取概率最大的网址信息作为最终的预测候选结果返回。

进一步，所述计算模块中计算待访问网址与特征候选集中每一个网址的相似度具体为，根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。

附图说明

图1为本发明方法步骤流程图；

图2为本发明系统结构图。

附图中，各标号所代表的部件列表如下：

1、抓取模块，2、获取模块，3、抽取模块，4、判断模块，5、构建模块，6、计算模块，7、返回模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示为本发明方法步骤流程图；图2为本发明系统结构图。

实施例1

从提高智能预测模型的准确率和召回率角度出发，我们的预测模型综合考虑互联网Top站点和用户个性化历史数据。一方面，在缺少用户个性化历史数据的情况下，根据群体行为获得的互联网Top站点网站数据进行预测；另一方面，结合每一个用户自己的个性化历史数据进行预测。前者保证了缺少用户个性化数据的情况下，能快速冷启动，提高召回率；后者能综合用户个性化数据，满足用户的个性化的长尾需求，提高召回率。两者缺一不可。

一种浏览器网页信息的预获取方法，包括以下步骤：

步骤1具体为，对于WWW中的Top 500站点(如alexa.cn Top 500)的每一个站点，从站点首页开始随机访问抓取k个网页；

步骤3具体为，对于互联网top站点和用户历史访问的每个网页p，抽取网址特征f1(p),f2(p),…,fm(p)，根据抽取的网址特征，建立倒排索引，将网页插入对应特征值的索引中：

f1(p)->……,p；

f2(p)->……,p；

……

fm(p)->……,p；

所述如果不是，抽取待访问网址的网址特征具体为，如果用户访问的网址不在历史访问记录中，对访问网址q进行网址特征抽取,获得网址的特征数据:f1(q),f2(q),…,fm(q)；

具体为，由步骤1-3可知，对于每个网址特征x,我们可以查询倒排索引,获取包含特征x的所有网址，因此,通过查询步骤4中计算得到的网址特征f1(q),f2(q),…,fm(q)所对应的倒排索引,可以获得包含这些特征的网址，将所有这些网址的并集作为特征候选集；

所述步骤7具体为，获取top K历史访问网址对应的需要DNS解析的域名，需要创建连接的域名，需要加载的资源。计算所有这top K历史访问网址进行DNS解析的域名/进行TCP连接的域名/加载的资源的统计数据(比如,TopK网址中百分之多少网址请求过该资源等等).所有这些进行DNS解析的域名/进行TCP连接的域名/加载的资源将作为用户访问网址的可能需要DNS解析的域名/可能需要进行TCP连接的域名/可能需要加载资源的预测候选；

从上述域名/资源预测候选中，根据统计数据,计算每一个域名/资源的概率,并依据概率进行排序,选取概率最大的域名/资源作为最终的预测候选返回。所述概率计算,可以采取基于统计数据进行最大似然估计，或者采取其它概率计算方法。

所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

所述步骤6中计算待访问网址与特征候选集中每一个网址的相似度具体为，根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。

一种浏览器网页信息的预获取系统，包括抓取模块1，获取模块2，抽取模块3，判断模块4，构建模块5，计算模块6和返回模块7；

所述抓取模块1，用于对于互联网中预定范围内的所有网络站点，从每个网络站点中随机抓取预定数量的抓取网页，保存与所有抓取网页对应的抓取网页信息；

所述获取模块2，用于获取预定时间段内用户访问的历史网页，保存与所有历史网页对应的历史网页信息；

所述抽取模块3，用于根据所有抓取网页和历史网页构建访问记录，并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征，并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引；

所述判断模块4，用于获取用户输入的待访问网址，判断用户输入的待访问网址是否在访问记录中，如果是，根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息，结束处理，如果不是，抽取待访问网址的网址特征；

所述构建模块5，用于根据抽取的待访问网址的网址特征的集合构建候选集，所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集；

所述计算模块6，用于计算待访问网址与特征候选集中每一个网址的相似度，根据相似度权重排序，选取相似度权重最高的网址特征对应的历史访问网址；

所述返回模块7，用于将历史访问网址对应的网址信息作为预测候选集，计算预测候选集中每一个网址信息的概率，并选取概率最大的网址信息作为最终的预测候选结果返回。

所述计算模块6中计算待访问网址与特征候选集中每一个网址的相似度具体为，根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种浏览器网页信息的预获取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的浏览器网页信息的预获取方法，其特征在于：所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

3.根据权利要求1所述的浏览器网页信息的预获取方法，其特征在于：所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

4.根据权利要求1所述的浏览器网页信息的预获取方法，其特征在于：所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

5.根据权利要求1所述的浏览器网页信息的预获取方法，其特征在于：所述步骤6中计算待访问网址与特征候选集中每一个网址的相似度具体为，根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。

6.一种浏览器网页信息的预获取系统，其特征在于：包括抓取模块(1)、获取模块(2)、抽取模块(3)、判断模块(4)、构建模块(5)、计算模块(6)和返回模块(7)；

所述抓取模块(1)，用于对于互联网中预定范围内的所有网络站点，从每个网络站点中随机抓取预定数量的抓取网页，保存与所有抓取网页对应的抓取网页信息；

所述获取模块(2)，用于获取预定时间段内用户访问的历史网页，保存与所有历史网页对应的历史网页信息；

所述抽取模块(3)，用于根据所有抓取网页和历史网页构建访问记录，并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征，并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引；

所述判断模块(4)，用于获取用户输入的待访问网址，判断用户输入的待访问网址是否在访问记录中，如果是，根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息，结束处理，如果不是，抽取待访问网址的网址特征；

所述构建模块(5)，用于根据抽取的待访问网址的网址特征的集合构建候选集，所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集；

所述计算模块(6)，用于计算待访问网址与特征候选集中每一个网址的相似度，根据相似度权重排序，选取相似度权重最高的网址特征对应的历史访问网址；

所述返回模块(7)，用于将历史访问网址对应的网址信息作为预测候选集，计算预测候选集中每一个网址信息的概率，并选取概率最大的网址信息作为最终的预测候选结果返回。

7.根据权利要求6所述的浏览器网页信息的预获取方法，其特征在于：所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

8.根据权利要求6所述的浏览器网页信息的预获取方法，其特征在于：所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

9.根据权利要求6所述的浏览器网页信息的预获取方法，其特征在于：所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。

10.根据权利要求6所述的浏览器网页信息的预获取方法，其特征在于：所述计算模块(6)中计算待访问网址与特征候选集中每一个网址的相似度具体为，根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。