发明内容
本发明所要解决的技术问题是提供一种无论是否具有用户个性化数据的情况下,均能够快速冷启动、满足用户的个性化的长尾需求并提高召回率的浏览器网页信息的预获取方法及系统。
本发明解决上述技术问题的技术方案如下:一种浏览器网页信息的预获取方法,包括以下步骤:
步骤1:对于互联网中预定范围内的所有网络站点,从每个网络站点中随机抓取预定数量的抓取网页,保存与所有抓取网页对应的抓取网页信息;
步骤2:获取预定时间段内用户访问的历史网页,保存与所有历史网页对应的历史网页信息;
步骤3:根据所有抓取网页和历史网页构建访问记录,并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征,并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引;
步骤4:获取用户输入的待访问网址,判断用户输入的待访问网址是否在访问记录中,如果是,根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息,结束处理,如果不是,抽取待访问网址的网址特征;
步骤5:根据抽取的待访问网址的网址特征的集合构建候选集,所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集;
步骤6:计算待访问网址与特征候选集中每一个网址的相似度,根据相似度权重排序,选取相似度权重最高的网址特征对应的历史访问网址;
步骤7:将历史访问网址对应的网址信息作为预测候选集,计算预测候选集中每一个网址信息的概率,并选取概率最大的网址信息作为最终的预测候选结果返回。
本发明的有益效果是:在缺少用户个性化数据的情况下,快速冷启动、提高召回率;并且能综合用户个性化数据,满足用户的个性化的长尾需求,提高召回率。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
进一步,所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
进一步,所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
进一步,所述步骤6中计算待访问网址与特征候选集中每一个网址的相似度具体为,根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。
进一步,一种浏览器网页信息的预获取系统,包括抓取模块、获取模块、抽取模块、判断模块、构建模块、计算模块和返回模块;
所述抓取模块,用于对于互联网中预定范围内的所有网络站点,从每个网络站点中随机抓取预定数量的抓取网页,保存与所有抓取网页对应的抓取网页信息;
所述获取模块,用于获取预定时间段内用户访问的历史网页,保存与所有历史网页对应的历史网页信息;
所述抽取模块,用于根据所有抓取网页和历史网页构建访问记录,并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征,并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引;
所述判断模块,用于获取用户输入的待访问网址,判断用户输入的待访问网址是否在访问记录中,如果是,根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息,结束处理,如果不是,抽取待访问网址的网址特征;
所述构建模块,用于根据抽取的待访问网址的网址特征的集合构建候选集,所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集;
所述计算模块,用于计算待访问网址与特征候选集中每一个网址的相似度,根据相似度权重排序,选取相似度权重最高的网址特征对应的历史访问网址;
所述返回模块,用于将历史访问网址对应的网址信息作为预测候选集,计算预测候选集中每一个网址信息的概率,并选取概率最大的网址信息作为最终的预测候选结果返回。
进一步,所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
进一步,所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
进一步,所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
进一步,所述计算模块中计算待访问网址与特征候选集中每一个网址的相似度具体为,根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。
实施例1
从提高智能预测模型的准确率和召回率角度出发,我们的预测模型综合考虑互联网Top站点和用户个性化历史数据。一方面,在缺少用户个性化历史数据的情况下,根据群体行为获得的互联网Top站点网站数据进行预测;另一方面,结合每一个用户自己的个性化历史数据进行预测。前者保证了缺少用户个性化数据的情况下,能快速冷启动,提高召回率;后者能综合用户个性化数据,满足用户的个性化的长尾需求,提高召回率。两者缺一不可。
一种浏览器网页信息的预获取方法,包括以下步骤:
步骤1:对于互联网中预定范围内的所有网络站点,从每个网络站点中随机抓取预定数量的抓取网页,保存与所有抓取网页对应的抓取网页信息;
步骤1具体为,对于WWW中的Top 500站点(如alexa.cn Top 500)的每一个站点,从站点首页开始随机访问抓取k个网页;
步骤2:获取预定时间段内用户访问的历史网页,保存与所有历史网页对应的历史网页信息;
步骤3:根据所有抓取网页和历史网页构建访问记录,并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征,并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引;
步骤3具体为,对于互联网top站点和用户历史访问的每个网页p,抽取网址特征f1(p),f2(p),…,fm(p),根据抽取的网址特征,建立倒排索引,将网页插入对应特征值的索引中:
f1(p)->……,p;
f2(p)->……,p;
……
fm(p)->……,p;
步骤4:获取用户输入的待访问网址,判断用户输入的待访问网址是否在访问记录中,如果是,根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息,结束处理,如果不是,抽取待访问网址的网址特征;
所述如果不是,抽取待访问网址的网址特征具体为,如果用户访问的网址不在历史访问记录中,对访问网址q进行网址特征抽取,获得网址的特征数据:f1(q),f2(q),…,fm(q);
步骤5:根据抽取的待访问网址的网址特征的集合构建候选集,所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集;
具体为,由步骤1-3可知,对于每个网址特征x,我们可以查询倒排索引,获取包含特征x的所有网址,因此,通过查询步骤4中计算得到的网址特征f1(q),f2(q),…,fm(q)所对应的倒排索引,可以获得包含这些特征的网址,将所有这些网址的并集作为特征候选集;
步骤6:计算待访问网址与特征候选集中每一个网址的相似度,根据相似度权重排序,选取相似度权重最高的网址特征对应的历史访问网址;
步骤7:将历史访问网址对应的网址信息作为预测候选集,计算预测候选集中每一个网址信息的概率,并选取概率最大的网址信息作为最终的预测候选结果返回。
所述步骤7具体为,获取top K历史访问网址对应的需要DNS解析的域名,需要创建连接的域名,需要加载的资源。计算所有这top K历史访问网址进行DNS解析的域名/进行TCP连接的域名/加载的资源的统计数据(比如,TopK网址中百分之多少网址请求过该资源等等).所有这些进行DNS解析的域名/进行TCP连接的域名/加载的资源将作为用户访问网址的可能需要DNS解析的域名/可能需要进行TCP连接的域名/可能需要加载资源的预测候选;
从上述域名/资源预测候选中,根据统计数据,计算每一个域名/资源的概率,并依据概率进行排序,选取概率最大的域名/资源作为最终的预测候选返回。所述概率计算,可以采取基于统计数据进行最大似然估计,或者采取其它概率计算方法。
所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
所述步骤6中计算待访问网址与特征候选集中每一个网址的相似度具体为,根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。
一种浏览器网页信息的预获取系统,包括抓取模块1,获取模块2,抽取模块3,判断模块4,构建模块5,计算模块6和返回模块7;
所述抓取模块1,用于对于互联网中预定范围内的所有网络站点,从每个网络站点中随机抓取预定数量的抓取网页,保存与所有抓取网页对应的抓取网页信息;
所述获取模块2,用于获取预定时间段内用户访问的历史网页,保存与所有历史网页对应的历史网页信息;
所述抽取模块3,用于根据所有抓取网页和历史网页构建访问记录,并从每个网络站点中抓取的网页和历史网页中分别抽取网址特征,并根据抓取的网页和历史网页及分别与抓取的网页和历史网页对应的网址特征的集合建立倒排索引;
所述判断模块4,用于获取用户输入的待访问网址,判断用户输入的待访问网址是否在访问记录中,如果是,根据倒排索引获取与待访问网址相关的历史网页信息或者抓取网页信息,结束处理,如果不是,抽取待访问网址的网址特征;
所述构建模块5,用于根据抽取的待访问网址的网址特征的集合构建候选集,所述候选集为倒排索引中所有网址特征的集合的并集的特征候选集;
所述计算模块6,用于计算待访问网址与特征候选集中每一个网址的相似度,根据相似度权重排序,选取相似度权重最高的网址特征对应的历史访问网址;
所述返回模块7,用于将历史访问网址对应的网址信息作为预测候选集,计算预测候选集中每一个网址信息的概率,并选取概率最大的网址信息作为最终的预测候选结果返回。
所述抓取网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
所述历史网页信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
所述网址信息包括DNS解析的域名、待创建连接的域名和/或待加载的资源。
所述计算模块6中计算待访问网址与特征候选集中每一个网址的相似度具体为,根据待访问网址与特征候选集中任一个网址的特征向量计算余弦距离。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。