CN105589914A

CN105589914A - 一种网页页面的预读取方法、装置及智能终端设备

Info

Publication number: CN105589914A
Application number: CN201510426888.XA
Authority: CN
Inventors: 梁捷; 蒋喻新; 姚文清; 吴伙成; 许延伟
Original assignee: Guangzhou Dongjing Computer Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2015-07-20
Filing date: 2015-07-20
Publication date: 2016-05-18
Anticipated expiration: 2035-07-20
Also published as: CN105589914B; CN108363815A; US10503710B2; US20170024423A1; CN108363815B

Abstract

本发明提供了一种网页页面的预读取方法、装置及智能终端设备。该预读取方法包括：获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息；确定该多个用户中两两用户之间的相似度；按相似度的大小确定1个或多个最相似用户；在用户浏览当前网页的过程中，按一定的预测策略分析出所述最相似用户从当前网页将要点击浏览的目标网页，并预读取出所分析出的目标网页。本发明提供的技术方案的有益效果是：能够提前给用户预读取出概率较高的网页数据，并保存到本地缓存，提高了用户打开网页页面的速度，提升了用户体验。

Description

一种网页页面的预读取方法、装置及智能终端设备

技术领域

本发明涉及网页浏览技术领域，具体而言，涉及一种网页页面的预读取方法、装置及智能终端设备。

背景技术

随着互联网的普及、计算机作为家庭以及工作的必备产品之一，人们使用计算机上的浏览器访问互联网日趋频繁；尤其随着例如智能手机和平板电脑的智能终端产品的迅速普及，用户使用终端浏览器访问互联网成为日常行为。在用户使用浏览器打开网页的过程中，如果当前的网络环境受限，或者终端设备的运行速度受限，就会影响网页的打开速度，造成用户等待，用户上网的体验感很差。影响网页打开速度的主要原因是下载网页内容的时间过长。

目前，一般采用对可能需要的网页进行预读取的方法来满足用户快速打开网页的需要。该方法主要是在用户浏览当前网页页面的过程中，服务器端获取用户下一步可能需要的网页，在用户未浏览这些网页之前先将这些网页的网址及其资源加载到本地缓存中；当用户访问其中某个网页时直接从本地缓存中读取相关数据来展示给用户阅览，避免了等待下载网页的过程，缩短用户进行网页访问操作后的网页响应时间。

现有的网页预读取方法常见以下两种：

第一、在用户浏览连续内容的某一个网页时预读取该网页上包含的链接到相邻网页的一个或多个关键字，例如“下一页”、“nextpage”等，然后依次取链接的网页内容并放入本地缓存中。

第二、从服务器端获取网页列表，然后依次读取该网页列表中各网页内容并放入本地缓存中。

由上可知，现有的第一种网页预读取方法只能适用于特定网页，即只对一个较长的内容被拆分成用超链接链起来的多个网页有效，而对于大量不存在页码顺序的其它网页，如新闻网页等，这种方法将无法预读取到用户后续可能访问的网页，因此并不能加快浏览器网页页面的显示。现有的第二种网页预读取方法则需要预读取大量的数据并载入本地缓存，严重占用缓存空间，甚至造成缓存空间不足的情况发生。

另外，人们也提出一些新的预读取方法来试图改善用户体验。

例如，提出了基于网页上的热点链接来“猜测”用户可能访问的网页的思路，然后对这些网页进行有针对性的预读取，以提高预读取的有效性。例如，2012年9月12日公开的申请号为201210074771.6的中国专利文献，名称为“一种网页预加载方法及系统”，该方法为：确定源网页内包含的热点链接，对热点链接对应的目标网页进行预加载；但是，该专利文献中公开的确定热点链接的方式还是本领域技术人员容易想到的方法，例如根据源网页A中某链接被点击的总次数来确定是否为热点链接；以用户对各个链接的点击顺序来确定是否为热点链接。这种方法确定热点链接的准确率偏低。例如，所述申请号为201210074771.6的专利文献的第0099段中就自述了“在实际应用中，可能存在虽然用户点击了某链接，但是用户可能并不喜欢或者不是特别喜欢这个链接的情况，在这种情况下，如果单纯地通过点击次数来区分一个链接是否为热点链接，可能会使得结果不够准确”。同样，以用户对各个链接的点击顺序来确定热点链接的准确率也是偏低的。例如，还存在用户对源网页上包含的多个热点链接都感兴趣的情况，其不一定每天都是按照同一顺序点击，当某个热点链接出现热点信息时，用户也许先点击该热点链接。例如足球世界杯期间，用户会先点击世界杯比赛新闻；在世界杯期间，某款非常著名品牌召开新品发布会，用户会先点击关于该新品的热点链接。因此，即便将这两种方式组合，用该组合方式确定热点链接的准确率也将偏低；还可能存在用户点击一个新的没有记录过的网站时，无法进行预读取。

另外，所述申请号为201210074771.6的专利文献没有考虑热点链接还存在热度随着时间衰减的问题。例如，美国篮球NBA总比赛结束后的一段时间，用户关注NBA栏目的热度会显著降低。还例如，热点新闻或热点头条每天都在出现，今天的热点新闻或热点头条到明天也许热度就降低了，一星期之后也许就没人关注了。

再例如，还提出了一种基于用户的浏览习惯来“猜测”用户可能访问的网页的思路，然后对这些网页进行有针对性的预读取，以提高预读取的有效性。例如，2012年10月17日公开的申请号为201110086435.9的中国专利文献，名称为“一种网页预读取的方法、装置及一种浏览器”，该方法为：读取用户的浏览习惯信息；在用户浏览当前网页的过程中，根据所述用户的浏览习惯信息分析出将要预读取的网页链接，从服务器端预读取所述网页链接对应的网页数据并保存到本地缓存。但是，其公开的预读取策略为：将用户常常点击网页上的那部分内容的位置区域的一条或多条网页链接预读取出来，或者记录在用户点击某网页A上的关键词，当下次再打开该网页A时，将匹配关键词的前几条或大部分网页链接进行预读取。这种网页预读取方法的缺点是显而易见的，其预读取一条网页链接或者匹配关键词的前几条网页链接，则给用户预读取出网页数据的命中率很低，如果预读取多条网页链接或者匹配关键词的大部分网页链接，则需要预读取大量的数据并载入本地缓存，严重占用缓存空间，甚至造成缓存空间不足的情况发生；还可能存在用户点击一个新的没有记录过的网站时，无法进行预读取。

因此，目前需要一种新的网页页面的预读取方法。

发明内容

本发明的目的在于提供一种网页页面的预读取方法、装置及智能终端设备，以改善上述的问题。

在本发明的实施例中提供了一种网页页面的预读取方法，其特征在于，包括：

获取多个用户中的每一个用户在一个时间段内对多个网页的访问信息；

确定该多个用户中两两用户之间的相似度；

按相似度的大小确定1个或多个最相似用户；

在用户浏览当前网页的过程中，按一定的预测策略分析出所述最相似用户从当前网页将要点击浏览的目标网页，并预读取出所分析出的目标网页。

优选的，在获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息的过程中对每个页面的数据进行数据清洗的预处理的步骤。

优选的，在确定该多个用户中两两用户之间的相似度的步骤中，使用余弦相似度的方法来确定相似度。

优选的，在确定两两用户之间的相似度的过程中，先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。

优选的，以多个用户访问的相同网页作为共同特征，建立倒排表，然后使用余弦相似度的方法来确定倒排表中两两用户之间的相似度。

优选的，当倒排表中的用户数量超过用户阈值时，筛选掉该倒排表。

优选的，利用威尔逊区间公式对网页的访问量做置信区间计算，取区间下限作为网页的访问量的最终值。

优选的，在按相似度的大小确定1个或多个最相似用户的步骤中，通过筛选掉相似度低于相似度阈值的相似用户，来确定1个或多个最相似用户。

本发明实施例还提供了一种网页页面的预读取方法，其特征在于，包括：

获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息；

确定该多个用户中两两用户之间的相似度；

按相似度的大小确定1个或多个最相似用户；

利用最相似用户计算点击路径的推荐概率并且生成预读取列表；

从预读取列表中查询当前浏览的网页页面的点击路径，从而预读取相应待浏览的目标网页数据。

优选的，在利用最相似用户计算点击路径的推荐概率的步骤中，统计1个最相似用户在所述时间段内从第一网页点击进入第二网页的次数，并用该统计出的次数与该最相似用户的相似度的乘积作为该最相似用户从第一网页点击进入第二网页的点击路径的推荐概率；在有多个最相似用户时，以此方式计算其他多个最相似用户从第一网页点击进入第二网页的点击路径的推荐概率；然后将计算出的多个最相似用户的推荐概率相加求和，从而得到从第一网页点击进入第二网页的点击路径的最终推荐概率；以此方式，计算出1个或多个最相似用户在所述时间段内访问的多条点击路径的推荐概率。

优选的，在利用最相似用户计算路径推荐概率的过程中，筛选掉点击次数低于点击次数阈值的点击路径。

优选的，在利用最相似用户计算点击路径的推荐概率的过程中，利用威尔逊区间公式对网页的访问次数做置信区间计算，取区间下限作为网页的访问次数的最终值。

优选的，在生成预读取列表的过程中，多条点击路径在预读取列表中以推荐概率的大小进行排序。

优选的，在生成所述预读取列表之前或过程中，先筛选掉推荐概率低于推荐概率阈值的点击路径。

优选的，在从预读取列表中查询当前浏览的网页页面的点击路径从而预读取相应待浏览的目标网页数据的步骤中，选择最大推荐概率的点击路径来预读取相应待浏览的目标网页数据，或者按推荐概率的降序方式预读取多个相应待浏览的目标网页数据。

本发明实施例还提供了一种网页页面预读取装置，其特征在于，包括：获取模块、确定模块、分析模块、和第一预读取模块，其中：

所述获取模块用于获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息；

所述确定模块用于确定该多个用户中两两用户之间的相似度以及按相似度的大小确定1个或多个最相似用户；

所述分析模块用于在用户浏览当前网页的过程中，按一定的预测策略分析出所述最相似用户从当前网页将要点击浏览的目标网页；

所述第一预读取模块用于预读取出所分析出的目标网页。

本发明实施例还提供了一种网页页面预读取装置，其特征在于，包括：获取模块、确定模块、计算和生成模块、和第二预读取模块，其中：

所述计算和生成模块用于利用最相似用户计算点击路径的推荐概率并且生成预读取列表；

所述第二预读取模块用于从预读取列表中查询当前浏览的网页页面的点击路径，从而预读取相应待浏览的目标网页数据。

本发明实施例提供了一种智能终端设备，其包括如上所述的网页页面预读取装置。

本发明实施例提供了网页页面的预读取方法、装置及智能终端设备，其有益效果是：通过不同用户的相似度来获得最相似用户，利用预测策略分析该最相似用户从当前网页将要点击浏览的目标网页，由此提前给用户预读取出网页数据，该预读取的命中概率和覆盖率大大提高，进而保证了预读取的高准确性和高有效性，在预读取高概率的网页数据并保存到本地缓存后，提高了用户打开网页页面的速度，提升了用户体验。

附图说明

图1是本发明的网页页面预读取方法的流程图；

图2是本发明的另一种网页页面的预读取方法的流程图；

图3是本发明的网页页面预读取装置的结构示意图；

图4是本发明的另一网页页面预读取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将结合本发明的附图和具体实施例，对本发明的技术方案进行清楚、完整地描述。

图1是本发明的网页页面的预读取方法的流程图。如图1所示，本发明的实施例提供了一种网页页面的预读取方法，包括：

步骤S101：获取多个用户中的每一个用户在一个时间段内对多个网页的访问信息。

获取多个用户中的每一个用户在一个时间段内对多个网页的访问信息的方式可以采用读取用户的终端设备的网络访问的客户端上网记录日志的方式，也可以采用读取服务器保存的访问网页的上网记录日志的方式来获取。如果日志中没有记录每个页面的访问量，在这里还可以在获取了所有网页的信息后，统计每个网页的访问量(即访问次数)以及时间分布情况等等。一般来说，获取多个不特定用户在一个时间段内对多个网页页面的访问信息的方式优选采用读取服务器保存的访问网页的上网记录日志的方式。该日志记录的信息内容是本领域的技术人员都知道的，这里不再举例说明。同样的，记录和获取用户上网和浏览网页的方法可以采用任何公知的方法，例如2013年12月11日公开的申请号为201310364722.0的中国专利文献，名称为“一种用户操作日志信息的记录及读取方法”，又如2015年4月15日公开的申请号为201510038747.0的中国专利文献，名称为“一种移动用户上网记录的生成方法及系统”。这里所述的时间段可以根据实际应用情况来设定。例如，该时间段可以设定为多个小时，例如12个小时、24个小时、30个小时、36个小时、72小时等等。

在另一个实施例中，在获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息的过程中对每个页面的数据进行数据清洗的预处理的步骤。通常，无论是客户端保存的上网记录日志还是服务器保存的上网记录日志都会记录大量的信息，其中包括非网络请求数据、不规范数据以及非主文档请求数据、不一致的无关的数据。例如，日志数据中可以包括用户IP地址、用户ID、请求访问的URL、请求方法、访问时间、传输协议、传输的字节数、错误代码、用户代理等属性。用户的一次网页浏览请求可能会让浏览器自动下载多个文件，如一些图片等，下载的所有文件构成一个网页页面视图，构成一次请求对应多个日志项的情况。

因此有必要先对日志记录的数据进行预处理，通过数据清洗步骤将无关的数据从日志记录的数据中清除掉。例如，清洗掉URL扩展名：一般信息网站中，只是网页页面正文与用户的请求有关，而网页页面上的图片类的网页页面请求(后缀名为gif，jpg等)和脚本类文件(后缀名为js，cgi，css的文件)可以被认为是与用户请求无关的，应将其删除。通常情况下，用户不会指定请求某个网页上的全部图片和脚本文件，日志中的图片和脚本文件大多是进行网页框架配置的脚本内容的网页中携带的图片信息，该图片和脚本文件在用户浏览网页页面文字内容时作为附属文件自动下载的，这些图片和脚本文件不能真实反映出用户的请求行为，在数据清洗过程中将会被删除。

通过数据清洗的技术手段，将与用户请求无关的数据清除掉，获得适合于后续的统计、分析操作的可靠的精确数据，有利于得到准确的统计和分析结果，更利于减少数据的运算量。

步骤S102：确定该多个用户中两两用户之间的相似度。

通常，通过例如PC浏览器或智能终端浏览器等各种浏览器在打开某网页之后，会在浏览器界面中展现出构成该网页的各种元素，例如，可能包括文字、图片、音频、视频等等内容，还可能包括链接这种常见的网页页面元素。访问者单击网页内的链接就可以自动跳转到链接的目标处，其通常是另一个网页。用户通过浏览器浏览的各种网页的各种信息都会记录在所有终端设备的网络访问的客户端上网记录日志中，例如访问的时间(包括访问开始时间和访问结束时间)、URL地址、传送的内容类型等。为了便于区分，可以将链接对应的一个网页称为下一个网页或目标网页，将网页内容中包含有该链接的网页称为当前网页或源网页，点击路径就是从当前网页(源网页)页面点击进入另一个网页(目标网页)页面的路径，通常来说，该路径的尾部是当前网页(源网页)页面，该路径的头部是用户点击进入的另一个网页(目标网页)页面。

当用户在一个时间段内多次从第一网页页面点击进入(访问)第二网页页面时，记录从第一网页页面点击进入(访问)第二网页页面的点击路径的点击次数。

例如，用户在12小时内的不同时间点从例如UC浏览器首页上的资讯中心网页页面(第一网页页面)点击进入体育栏网页页面(第二网页页面)的点击次数为3次,点击进入娱乐栏网页页面的点击次数为6次、点击进入财经栏网页页面的点击次数为4次，则从资讯中心网页页面到体育栏网页页面形成一条点击路径，该点击路径的点击次数为3；从资讯中心网页页面到娱乐栏网页页面形成一条点击路径，该点击路径的点击次数为6；从资讯中心网页页面到财经栏网页页面形成一条点击路径，该点击路径的点击次数为4。

在本发明的一个实施例中，确定多个用户中两两用户之间的相似度的方法可以使用计算余弦相似度的方法来实现。在本发明中，使用用户在设定的时间段内对不同网页的访问量来表示用户的特征向量。假设一个用户在一个时间段内访问了m个不同网页，则用户的特征向量是m维阵列：{w1,w2,...wi...,wm}，其中wi为第i个网页的访问量。

建立每个用户在同一时间段内访问不同网页的特征向量阵列。在该特征向量阵列中，假设不同网页的数量为n，则特征向量阵列是n维，每个向量都是按序排好，例如按字符串排序，用户没有访问的网页的特征向量以0填充。例如，假设以url为特征，假设有5个网页url，分别为网页u1、网页u2、网页u3、网页u4、网页u5，其中用户A访问了u1,u3各一次，用户B访问了u2,u3各一次。则用户A的特征向量可以表示为[1,0,1,0,0]，用户B的特征向量是[0,1,1,0,0]。

余弦相似度的计算公式如下：

c o s θ = \frac{Σ_{i = 1}^{n} (A_{i} \times B_{i})}{\sqrt{Σ_{i = 1}^{n} {(A_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(B_{i})}^{2}}}

式中，A表示用户A的特征向量[A1,A2,...,An]，B表示用户A的特征向量[B1,B2,...,Bn]，n表示维数。

通过计算两个用户的n维特征向量阵列的余弦值，当余弦值越接近1，表明夹角越接近0度，说明这两个用户越相似，其相似度越高；反之，余弦值越接近0，表明夹角越接近90度，说明这两个用户越不相似，其相似度越低。

当然，还可以使用其他公知的相似度计算方法，这里不对此做过多描述。

在上述实施例提供的方法中，其计算量会比较大，需要一种减少计算量的新方法。为此，本发明提供了另一个优选实施例。在该优选实施例中，可以先筛选掉访问不同网页的页面数比较少的用户，换句话说，访问不同点击路径的数目比较少的用户。因为这说明这一类用户上网次数少，或者上网关注的内容少，不适合推荐为相似用户。因此，为了减少计算量，先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。该页面数访问阈值可以根据经验值而设定。当选择的时间段的时长不一样，用户的数目不一样，页面数访问阈值可以相应设定不同的值。

除此之外，为了减少计算量，本发明还提供了另一个优选实施例，其中在计算多个用户中两两用户之间的相似度的过程中，还可以先考虑两两用户之间是否具有共同特征，对于不具有共同特征的两两用户，计算出的相似度会比较低，因此没有计算的必要性。在本文中，如果两个或多个用户都访问了同一网页，该网页就是两个或多个用户的共同特征，即以多个用户访问的相同网页作为共同特征。以多个用户访问的相同网页(共同特征)作为副键值，以访问该网页的用户作为主键值，建立倒排表。使用上述余弦相似度的计算方法来计算倒排表中两两用户之间的相似度。本领域的技术人员都知道如何使用余弦相似度的计算方法来确定相似度，这里不再赘述。

在另一个不同优先实施例中，如果倒排表中的用户数量超过用户阈值，则认为该共同特征对用户的区分度不够，筛选掉以这个共同特征作为副键值建立的倒排表。该用户阈值可以根据经验值而设定。当选择的时间段的时长不一样，用户的数目不一样，用户阈值可以相应设定不同的值。

在另一个不同优先实施例中，利用威尔逊区间公式对网页的访问量做置信区间计算，取区间下限作为网页的访问量的最终值；即，在使用余弦相似度的方法来确定相似度的过程中，因为要建立每个用户在同一时间段内访问不同网页的特征向量阵列，而特征向量是用对网页的访问量来表示，因此可以利用威尔逊区间公式对网页的访问量做置信区间计算，取区间下限作为网页的访问量的最终值。这样做法的益处在于，确保获得特征向量的可靠性。

步骤S103：按相似度的大小确定1个或多个最相似用户。

根据计算得到的不同用户之间的相似度值，找到并确定相似度最大值的用户。当然为了保证能够利用相似用户从用户浏览的当前网页中预读取出目标网页的概率更大，还可以按照相似度值的大小选择按降序方式确定多个相似用户。例如，按相似度值从大到小的方式，选择2个、3个、4个或更多的相似用户。可以根据经验值来预设相似度阈值，通过筛选掉相似度低于相似度阈值的相似用户，来确定1个或多个最相似用户。当选择的时间段的时长不一样，用户的数目不一样，相似度阈值可以相应设定不同的值。

步骤S104：在用户浏览当前网页的过程中，按一定的预测策略分析出最相似用户从当前网页将要点击浏览的目标网页，并预读取出所分析出的目标网页。

在这里，所述一定的预测策略可以采用本领域公知的任何预测策略。例如，2011年10月19日公开的申请号为201110165459.3的中国专利申请文献中公开的预测策略；又如，2012年10月17日公开的申请号为201110086435.9的中国专利申请文献中公开的基于用户浏览习惯的预测策略；再如，2014年4月16日公开的申请号为201310743798.4的中国专利申请文献中公开的预测策略；再如，2014年4月16日公开的申请号为201310743898.7的中国专利申请文献中公开的预测策略。当然，还可以采用其它公知的预测策略，这里不再列举。

当用户浏览当前网页或第一网页时，根据公知的预测策略分析出在步骤S103中确定的最相似用户以当前网页或第一网页作为源网页的点击路径，即从当前网页或第一网页将要点击浏览的目标网页或第二网页。当然为了保证预读取目标网页的准确率，还可以分析确定出多个目标网页页面，例如2个、3个、4个或更多目标网页；最后，预读取出所分析出的目标网页，可以将其保存到本地缓存。

如果用户不请求新的网页而直接停止浏览网页，如关闭浏览器，则释放预读取的网页数据，避免没有使用的预读取的网页数据占用大量的本地缓存资源。

本发明实施例提供的网页页面预读取方法，其有益效果是：通过不同用户的相似度来获得最相似用户，利用预测策略分析该最相似用户从当前网页将要点击浏览的目标网页，由此提前给用户预读取出网页数据，该预读取的命中概率和覆盖率大大提高，进而保证了预读取的高准确性和高有效性，在预读取高概率的网页数据并保存到本地缓存后，提高了用户打开网页页面的速度，提升了用户体验。

综上所述，本发明在结合图1描述的一种网页页面的预读取方法中提供了多个实施例，通过将各种实施例或优选实施例进行任意组合，可以保证预读取的高准确性和高有效性，提升用户体验。

图2是本发明的另一种网页页面的预读取方法的流程图。

如图2所示，本发明的实施例提供了另一种网页页面的预读取方法，包括：

步骤S201：获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息。

步骤S202：确定该多个用户中两两用户之间的相似度。

步骤S203：按相似度的大小确定1个或多个最相似用户。

以上步骤S201-203的实现方式和上面结合图1描述步骤S101-103的实现方式相同，可以直接将上面结合图1描述步骤S101-103的实现方式引用到这里，包括各种优选实施方式或其任意组合，因此这里不再重复描述。

步骤S204：利用最相似用户计算点击路径的推荐概率并且生成预读取列表。

对于用户来说，在利用最相似用户计算点击路径的推荐概率的步骤中，统计1个最相似用户在所述时间段内从第一网页点击进入第二网页的次数，并用该统计出的次数与该最相似用户的相似度的乘积作为该最相似用户从第一网页点击进入第二网页的点击路径的推荐概率；在有多个最相似用户时，以此方式计算其他多个最相似用户从第一网页点击进入第二网页的点击路径的推荐概率；然后将计算出的多个最相似用户的推荐概率相加求和，从而得到从第一网页点击进入第二网页的点击路径的最终推荐概率；以此方式，计算出1个或多个最相似用户在所述时间段内访问的多条点击路径的推荐概率。这样，每条点击路径都有了一个推荐概率。

举例说明，在得到了两两用户的相似度之后，假设用户a和用户b的相似度为sim1，用户a和用户c的相似度为sim2，用户a和用户d的相似度为sim3；如果在一个时间段内用户b访问点击路径p->z的次数是n，用户c访问点击路径p->z的次数是m，用户d访问点击路径p->z的次数是k，则向用户a推荐点击路径p->z的推荐概率就是：n*sim1+m*sim2+k*sim3。如果用户a在该时间段内共访问了z条点击路径，则以此方式可以分别计算出z条点击路径的各自的推荐概率。

尽管这里描述使用1个或多个最相似用户来向用户提供点击路径的推荐概率，但是其目的是减少不必要的数据运算量。实际上也可以计算全部的相似用户向用户推荐的点击路径的推荐概率，但是计算相似度偏低的相似用户的推荐概率时，该推荐概率值也偏低，计算这样的推荐概率值的意义不大。因此，可以在步骤S203中，根据经验值来预设相似度阈值，筛选掉相似度低于相似度阈值的相似用户，得到1个或多个最相似用户。当选择的时间段的时长不一样，用户的数目不一样，相似度阈值可以相应设定不同的值。

在另一个不同优先实施例中，为了减少数据的运算量，在计算点击路径的推荐概率的过程中，可以筛选掉在设定的时间段内从源网页点击进入目标网页的次数较低的点击路径，即不计算点击次数较低的点击路径的推荐概率。根据经验值来预设点击次数阈值，筛选掉点击次数低于点击次数阈值的点击路径。当选择的时间段的时长不一样，用户的数目不一样，点击次数阈值可以相应设定不同的值。

在另一个不同优先实施例中，在利用最相似用户计算点击路径的推荐概率的过程中，利用威尔逊区间公式对网页的访问次数做置信区间计算，取区间下限作为网页的访问次数的最终值，其益处在于确保统计访问次数的可靠性。

生成预读取列表就是以推荐概率的大小进行排序的方式将包含源网页信息和目标网页信息的多条点击路径汇聚成列表，即多条点击路径以推荐概率的大小在列表中进行有序排列。当然，也可以采用无序排列，或者以其他方式排列；但采用无序排列时，会影响预读取网页的速度。所以，优选采用按推荐概率的大小进行有序排列，但也可以采用有利于快速预读取网页的其他排序方式。

在另一个优选实施例中，如果统计出的点击路径数目非常多，可以先筛选掉推荐概率低的点击路径，以减少数据的运算量，还可以避免将用户不会浏览的网页数据预读取并载入本地缓存，从而节省缓存空间资源的占用。可以根据经验值来预设推荐概率阈值，筛选掉推荐概率低于推荐概率阈值的点击路径。为了减少数据的运算量，可以在生成所述预读取列表之前或过程中，先筛选掉推荐概率低于推荐概率阈值的点击路径。当选择的时间段的时长不一样，用户的数目不一样，推荐概率阈值可以相应地设定不同的值。

步骤S205：从预读取列表中查询当前浏览的网页页面的点击路径，从而预读取相应待浏览的目标网页数据。

当用户浏览当前网页时，从预读取列表中查询以当前网页作为源网页的点击路径，可以选择最大推荐概率的点击路径来预读取相应待浏览的目标网页；当然为了保证预读取相应待浏览的目标网页的准确率，还可以按推荐概率的降序方式预读取多个相应待浏览的目标网页，例如预读取2个、3个、4个或更多目标网页，并且可以将其网页数据载入本地缓存。

本发明实施例提供的网页页面预读取方法，其有益效果是：通过不同用户的相似度来获得最相似用户，利用最相似用户计算点击路径的推荐概率并且生成预读取列表，根据预读取列表查询该最相似用户从当前网页将要点击浏览的目标网页，由此提前给用户预读取出网页数据，该预读取的命中概率和覆盖率大大提高，进而保证了预读取的高准确性和高有效性，在预读取高概率的网页数据并保存到本地缓存后，提高了用户打开网页页面的速度，提升了用户体验。

综上所述，本发明在结合图2描述的另一种网页页面的预读取方法中提供了多个实施例，通过将各种实施例或优选实施例进行任意组合，可以保证预读取的高准确性和高有效性，提升用户体验。

在以上提及的各个阈值都可以基于经验值而设定，其中当选择的时间段的时长不一样，用户的数目不一样，各个阈值可以相应地设定不同的值。

图3是本发明的网页页面预读取装置的结构示意图。如图3所示，本发明的网页页面预读取装置包括：获取模块301、确定模块302、分析模块303、和第一预读取模块304，其中：

所述获取模块301用于获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息；

所述确定模块302用于确定该多个用户中两两用户之间的相似度以及按相似度的大小确定1个或多个最相似用户；

所述分析模块303用于在用户浏览当前网页的过程中，按一定的预测策略分析出所述最相似用户从当前网页将要点击浏览的目标网页；

所述第一预读取模块304用于预读取出所分析出的目标网页。

所述网页页面预读取装置实施例中各个模块的具体功能和交互方式可参见图1对应实施例的记载，在此不再赘述。

进一步的，所述获取模块301包括预处理模块，用于对网页数据进行数据清洗。

进一步的，所述确定模块302包括相似度计算模块，用于通过计算余弦相似度来确定相似度。

进一步的，所述确定模块302包括筛选模块，用于先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。

进一步的，所述确定模块302包括倒排表建立模块，用于以多个用户访问的相同网页作为共同特征，建立倒排表。

进一步的，所述确定模块302包括最相似用户确定模块，用于通过筛选掉相似度低于相似度阈值的相似用户来确定1个或多个最相似用户。

本发明实施例提供的网页页面预读取装置，其有益效果是：通过不同用户的相似度来获得最相似用户，利用预测策略分析该最相似用户从当前网页将要点击浏览的目标网页，由此提前给用户预读取出网页数据，该预读取的命中概率和覆盖率大大提高，进而保证了预读取的高准确性和高有效性，在预读取高概率的网页数据并保存到本地缓存后，提高了用户打开网页页面的速度，提升了用户体验。

综上所述，本发明在结合图3描述的一种网页页面预读取装置中提供了多个实施例，通过将各种实施例或优选实施例进行任意组合，可以保证预读取的高准确性和高有效性，提升用户体验。

图4是本发明的另一网页页面预读取装置的结构示意图。如图4所示，本发明的网页页面预读取装置包括：获取模块401、确定模块402、计算和生成模块403、和第二预读取模块404，其中：

所述获取模块401用于获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息；

所述确定模块402用于确定该多个用户中两两用户之间的相似度以及按相似度的大小确定1个或多个最相似用户；

所述计算和生成模块403用于利用最相似用户计算点击路径的推荐概率并且生成预读取列表；

所述第二预读取模块404用于从预读取列表中查询当前浏览的网页页面的点击路径，从而预读取相应待浏览的目标网页数据。

所述网页页面预读取装置实施例中各个模块的具体功能和交互方式可参见图2对应实施例的记载，在此不再赘述。

进一步的，所述获取模块401包括预处理模块，用于对网页数据进行数据清洗。

进一步的，所述确定模块402包括相似度计算模块，用于通过计算余弦相似度来确定相似度。

进一步的，所述确定模块402包括筛选模块，用于先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。

进一步的，所述确定模块402包括倒排表建立模块，用于以多个用户访问的相同网页作为共同特征，建立倒排表。

进一步的，所述确定模块402包括最相似用户确定模块，用于通过筛选掉相似度低于相似度阈值的相似用户来确定1个或多个最相似用户。

进一步的，所述计算和生成模块403包括推荐概率计算模块，用于计算每条点击路径的推荐概率。

进一步的，所述计算和生成模块403包括生成模块，用于生成预读取列表。

本发明实施例提供的网页页面预读取装置，其有益效果是：通过不同用户的相似度来获得最相似用户，利用最相似用户计算点击路径的推荐概率并且生成预读取列表，根据预读取列表查询该最相似用户从当前网页将要点击浏览的目标网页，由此提前给用户预读取出网页数据，该预读取的命中概率和覆盖率大大提高，进而保证了预读取的高准确性和高有效性，在预读取高概率的网页数据并保存到本地缓存后，提高了用户打开网页页面的速度，提升了用户体验。

综上所述，本发明在结合图4描述的另一种网页页面预读取装置中提供了多个实施例，通过将各种实施例或优选实施例进行任意组合，可以保证预读取的高准确性和高有效性，提升用户体验。

另外，在以上提及的各个阈值都可以基于经验值而设定，其中当选择的时间段的时长不一样，用户的数目不一样，各个阈值可以相应地设定不同的值。

另外，本发明还提供了一种智能终端设备，包括如上所述的网页页面预读取装置。

本发明实施例所提供的网页页面预读取方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种网页页面的预读取方法，其特征在于，包括：

确定该多个用户中两两用户之间的相似度；

按相似度的大小确定1个或多个最相似用户；

2.根据权利要求1所述的网页页面的预读取方法，其特征在于，还包括：在获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息的过程中对每个页面的数据进行数据清洗的预处理的步骤。

3.根据权利要求1所述的网页页面的预读取方法，其特征在于，还包括：在确定该多个用户中两两用户之间的相似度的步骤中，使用余弦相似度的方法来确定相似度。

4.根据权利要求3所述的网页页面的预读取方法，其特征在于，还包括：在确定两两用户之间的相似度的过程中，先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。

5.根据权利要求3所述的网页页面的预读取方法，其特征在于，还包括：以多个用户访问的相同网页作为共同特征，建立倒排表，然后使用余弦相似度的方法来确定倒排表中两两用户之间的相似度。

6.根据权利要求5所述的网页页面的预读取方法，其特征在于，还包括：当倒排表中的用户数量超过用户阈值时，筛选掉该倒排表。

7.根据权利要求3所述的网页页面的预读取方法，其特征在于，还包括：利用威尔逊区间公式对网页的访问量做置信区间计算，取区间下限作为网页的访问量的最终值。

8.根据权利要求1所述的网页页面的预读取方法，其特征在于，还包括：在按相似度的大小确定1个或多个最相似用户的步骤中，通过筛选掉相似度低于相似度阈值的相似用户，来确定1个或多个最相似用户。

9.一种网页页面的预读取方法，其特征在于，包括：

确定该多个用户中两两用户之间的相似度；

按相似度的大小确定1个或多个最相似用户；

10.根据权利要求9所述的网页页面的预读取方法，其特征在于，还包括：在获取多个用户中的每一个用户在一个时间段内对多个网页页面的访问信息的过程中对每个页面的数据进行数据清洗的预处理的步骤。

11.根据权利要求9所述的网页页面的预读取方法，其特征在于，还包括：在确定该多个用户中两两用户之间的相似度的步骤中，使用余弦相似度的方法来确定相似度。

12.根据权利要求9所述的网页页面的预读取方法，其特征在于，还包括：在确定两两用户之间的相似度的过程中，先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。

13.根据权利要求9所述的网页页面的预读取方法，其特征在于，还包括：以多个用户访问的相同网页作为共同特征，建立倒排表，然后使用余弦相似度的方法来确定倒排表中两两用户之间的相似度。

14.根据权利要求13所述的网页页面的预读取方法，其特征在于，还包括：当倒排表中的用户数量超过用户阈值时，筛选掉该倒排表。

15.根据权利要求11所述的网页页面的预读取方法，其特征在于，还包括：利用威尔逊区间公式对网页的访问量做置信区间计算，取区间下限作为网页的访问量的最终值。

16.根据权利要求9所述的网页页面的预读取方法，其特征在于，还包括：在按相似度的大小确定1个或多个最相似用户的步骤中，通过筛选掉相似度低于相似度阈值的相似用户，来确定1个或多个最相似用户。

17.根据权利要求9所述的网页页面的预读取方法，其特征在于，还包括：在利用最相似用户计算点击路径的推荐概率的步骤中，统计1个最相似用户在所述时间段内从第一网页点击进入第二网页的次数，并用该统计出的次数与该最相似用户的相似度的乘积作为该最相似用户从第一网页点击进入第二网页的点击路径的推荐概率；在有多个最相似用户时，以此方式计算其他多个最相似用户从第一网页点击进入第二网页的点击路径的推荐概率；然后将计算出的多个最相似用户的推荐概率相加求和，从而得到从第一网页点击进入第二网页的点击路径的最终推荐概率；以此方式，计算出1个或多个最相似用户在所述时间段内访问的多条点击路径的推荐概率。

18.根据权利要求17所述的网页页面的预读取方法，其特征在于，还包括：在利用最相似用户计算点击路径的推荐概率的过程中，筛选掉点击次数低于点击次数阈值的点击路径。

19.根据权利要求17所述的网页页面的预读取方法，其特征在于，还包括：在利用最相似用户计算点击路径的推荐概率的过程中，利用威尔逊区间公式对网页的访问次数做置信区间计算，取区间下限作为网页的访问次数的最终值。

20.根据权利要求9所述的网页页面的预读取方法，其特征在于，还包括：在生成预读取列表的过程中，多条点击路径在预读取列表中以推荐概率的大小进行排序。

21.根据权利要求9所述的网页页面的预读取方法，其特征在于，还包括：在生成所述预读取列表之前或过程中，先筛选掉推荐概率低于推荐概率阈值的点击路径。

22.根据权利要求9所述的网页页面的预读取方法，其特征在于，还包括：在从预读取列表中查询当前浏览的网页页面的点击路径从而预读取相应待浏览的目标网页数据的步骤中，选择最大推荐概率的点击路径来预读取相应待浏览的目标网页数据，或者按推荐概率的降序方式预读取多个相应待浏览的目标网页数据。

23.一种网页页面预读取装置，其特征在于，包括：

获取模块、确定模块、分析模块、和第一预读取模块，其中：

所述第一预读取模块用于预读取出所分析出的目标网页。

24.根据权利要求23所述的网页页面预读取装置，其特征在于，所述获取模块包括预处理模块，用于对网页数据进行数据清洗。

25.根据权利要求23所述的网页页面预读取装置，其特征在于，所述确定模块包括相似度计算模块，用于通过计算余弦相似度来确定相似度。

26.根据权利要求23所述的网页页面预读取装置，其特征在于，所述确定模块包括筛选模块，用于先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。

27.根据权利要求23所述的网页页面预读取装置，其特征在于，所述确定模块包括倒排表建立模块，用于以多个用户访问的相同网页作为共同特征，建立倒排表。

28.根据权利要求23所述的网页页面预读取装置，其特征在于，所述确定模块包括最相似用户确定模块，用于通过筛选掉相似度低于相似度阈值的相似用户来确定1个或多个最相似用户。

29.一种网页页面预读取装置，其特征在于，包括：

获取模块、确定模块、计算和生成模块、和第二预读取模块，其中：

30.根据权利要求29所述的网页页面预读取装置，其特征在于，所述获取模块包括预处理模块，用于对网页数据进行数据清洗。

31.根据权利要求29所述的网页页面预读取装置，其特征在于，所述确定模块包括相似度计算模块，用于通过计算余弦相似度来确定相似度。

32.根据权利要求29所述的网页页面预读取装置，其特征在于，所述确定模块包括筛选模块，用于先筛选掉访问不同网页的页面数低于页面数访问阈值的用户。

33.根据权利要求29所述的网页页面预读取装置，其特征在于，所述确定模块包括倒排表建立模块，用于以多个用户访问的相同网页作为共同特征，建立倒排表。

34.根据权利要求29所述的网页页面预读取装置，其特征在于，所述确定模块包括最相似用户确定模块，用于通过筛选掉相似度低于相似度阈值的相似用户来确定1个或多个最相似用户。

35.根据权利要求29所述的网页页面预读取装置，其特征在于，所述计算和生成模块包括推荐概率计算模块，用于计算每条点击路径的推荐概率。

36.根据权利要求29所述的网页页面预读取装置，其特征在于，所述计算和生成模块包括生成模块，用于生成预读取列表。

37.一种智能终端设备，其特征在于，包括如权利要求23-36之一所述的网页页面预读取装置。