CN108182186B

CN108182186B - 一种基于随机森林算法的网页排序方法

Info

Publication number: CN108182186B
Application number: CN201611122793.XA
Authority: CN
Inventors: 陶波; 许飞月; 陈乐焱; 简宋全
Original assignee: Guangdong Kingpoint Data Science And Technology Co ltd
Current assignee: Guangdong Kingpoint Data Science And Technology Co ltd
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2020-10-02
Anticipated expiration: 2036-12-08
Also published as: CN108182186A

Abstract

本发明提供一种基于随机森林算法的网页排序方法，包括：获取搜索网页对应的关键词和关键备选词；计算所述搜索网页对应的关键词或者关键备选词词频和权重；计算搜索网页质量相关指标PR值；计算搜索网页的枢纽值和权威值；计算最近浏览网页与所述搜索网页的相关性与最近浏览网页的关键词以及关键备选词的TF‑IDF值乘积；计算输出指标：规定访问时间以上的搜索网页用户网页浏览次数与满足条件的网页停留时间某一函数的乘积是否大于设定的阀值；建立随机森林模型并记录相应结果；计算最终的所述搜索网页得分并排序。与现有技术相比，本发明的利用随机森林的方法对传统的HITS算法进行一定程度上的改良，提升用户的搜索体验，使得信息来得更好更准。

Description

一种基于随机森林算法的网页排序方法

技术领域

本发明涉及网页排序技术领域，具体涉及一种基于随机森林算法的网页排序方法。

背景技术

随着计算机科技的飞速发展，人们获取信息的途径和速度变多、变快了，但是随着信息量的爆炸性增长，人们准确获取信息的难度也加大了，如何更快更好地提供给用户想要的信息显得十分重要。而百度、谷歌等搜索引擎的诞生正是为了让人们更方便地在信息的汪洋中迅速准确找寻到自己需要的东西。而一个优秀的搜索引擎应该向用户提供所需要的最重要的最有价值的网页信息并将其排行在前面，同时提供的服务应该是简便而又人性化的，使得用户在很短时间内可以得到满意的相关搜索结果。为了满足以上突出的特性，各式各样的网页排名算法因运而生。网页排名算法的好坏直接影响用户搜索的体验。现有的网页排序算法包括利用网页与主题相关性进行排序的词频位置加权排序算法、基于随机漫游模型的PageRank算法和Repution算法、基于概率模型的SALSA算法和PHITS算法、基于Hub和Authority相互加强模型的的HITS算法及其变种和基于贝叶斯模型的贝叶斯算法及其简化版本等等。但是用户的搜索体验不是很好，信息得来的不是很好。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，提供一种基于随机森林算法的网页排序方法，该方法包括以下步骤：

步骤S1：获取搜索网页对应的关键词和关键备选词；

步骤S2：计算所述搜索网页对应的关键词或者关键备选词词频和权重；

步骤S3：计算搜索网页质量相关指标PR值；

步骤S4：计算搜索网页的枢纽值和权威值；

步骤S5：计算最近浏览网页与所述搜索网页的相关性与最近浏览网页的关键词以及关键备选词的TF-IDF值乘积；

步骤S6：计算输出指标：规定访问时间以上的搜索网页用户网页浏览次数与满足条件的网页停留时间某一函数的乘积是否大于设定的阀值；

步骤S7：建立随机森林模型并记录相应结果；

步骤S8：计算最终的所述搜索网页得分并排序。

较佳的，所述步骤S1具体包括：对用户搜索词进行基于统计的语义分析并划分关键词，再从词库中调用设定数目个与关键词相似程度的词语作为关键备选词。

较佳的，所述步骤S2具体包括：所述关键词或者关键备选词词频的计算公式为：

式中，tf_i,j为第j个网页中第i个关键词或者关键备选词出现的频率即词频，分子n_i,j为第i个关键词或者关键备选词在第j网页中的出现次数，分母为在第j个网页中所有字词的频数之和；

逆向网页频率：某一特定词语的逆向网页频率，由总网页数目除以包含该词语的网页的数目，再将得到的商取对数得到，计算式如下：

分子|D|为网页总数，分母为包含该词的网页数；

所述关键词或者关键备选词的权重计算公式为：

tfidf_i，j＝tf_i，j×idf_i

这样我们就算出了要输入的每个网页对应的关键词或者关键备选词的权重变量tfidf_i，j。

较佳的，所述步骤S3具体包括：所述搜索网页质量相关指标PR值计算公式为：

d为阻尼系数；Pi为网页链入以及链出的网页，N为网页数目；C(Pi)代表Pi页面链出的链接数量。

较佳的，所述步骤S4具体包括：在初始情况下，设置每个页面的这两个权值都是相同的，可以都设置为1；假设以A(i)代表网页i的Authority权值，以H(i)代表网页i的Hub权值；那么，网页i在迭代中的Authority权值即为所有指向网页i页面的Hub权值之和；类似地，网页i的Hub权值即为网页i所指向的页面的Authority权值之和；根据上面的规则不断迭代直至结果最终收敛稳定，这样就算出了要输入的每个网页枢纽值和权威值。

较佳的，所述步骤S5具体包括：先利用网页爬取其中的词语并使用TF-IDF算法计算各个词语的词频以及权重，最终按照权重大小关系选取权重较大的与搜索关键词和关键备选词数目一致的关键词作为该网页的关键词；利用以上关键词获取的方法，分别提取最近浏览网页与搜索网页对应的关键词然后根据关键词之间的相似程度确定其相关性；

假设确定了m个关键词或者关键备选词以及k个历史浏览网页，并根据对应的TF-IDF算法计算出一个k×m的权重矩阵，然后基于每一行，也就是每一个历史浏览网页，我们进行求和处理，即对矩阵乘以k×1的1矩阵，得到即为各个网页的综合关键TF-IDF值；

然后是计算最近浏览网页与搜索网页的相关性，对于每一个搜索网页，由于有k个历史浏览网页，因此存在k个关键词相似矩阵，记为M1，……Mk，而且基于关键词数目为m，因此矩阵规格为m×m，接着我们根据这k个矩阵分别算出这k个历史浏览网页与搜索网页的相关系数Dk，Dk将由矩阵的每个元素与对应两个关键词的权重的乘积再求和得出；

其中Mk矩阵中，第i行代表着第k个历史网页的第i个关键词，且将该关键词的TF-IDF值记为W_i，而第j列代表着第搜索网页的第j个关键词，且将该关键词的TF-IDF值记为L_j，根据以上计算，得到k个D值，对应是搜索网页分别与k个历史浏览网页的k个相关系数；

最后，对应每个历史网页，将相应的D值与综合关键TF-IDF值相乘得到k个乘积结果作为要输入的k个乘积结果。

较佳的，所述步骤S6具体包括：根据网页本身的流量计算，得到该搜索网页的访问次数以及相应的停留时间；设置一个访问时间下限T，对访问时间大于下限的网络用户进行计数，并且设置时间函数形式为：对访问时间段按照访问人数进行排序，取出排名前100个时间段并取平均值作为用户停留类平均时长；最后将满足条件的浏览次数与对应的用户停留类平均时长进行乘积处理作为要输出的结果。

较佳的，所述步骤S7具体包括：根据以上计算方式算出相应搜索网页的输入指标，再根据不同的搜索网页将相应的输入输出指标输入到随机森林里面，然后经过算法自身的训练得到最终的学习器，记录不同网页下不同输出树下结果为1的数目并称其为用户满意度作为最终排序指标的一部分。

较佳的，所述步骤S8具体包括：把之前记录的各个搜索网页的用户满意度与HITS算法的枢纽值和权威值分别相乘再加权求和并称为网页排序基数，而权重默认为1:1，根据不同的需求可以分配枢纽值和权威值以不同的权重值以满足不同的排序需求；最后基于不同搜索网页下的网页排序基数从高到低排序作为最后的排序结果。

与现有技术相比，本发明的一种基于随机森林算法的网页排序方法利用随机森林的方法对传统的HITS算法进行一定程度上的改良，在原始算法的基础上添加了相应的用户满意度指标，使得新的算法更好地解决了“主题漂移”的问题，为用户创造更好的搜索环境；同时，利用以上输出指标能够在一定程度上减少那些利用虚假访问作弊的页面对搜索结果的影响，提升用户的搜索体验。

添加了随机森林的集成学习方法，使得该搜索算法在搜索方面更加精准，目标性更强，融合了集成学习与传统搜索算法的优点，同时在一定程度改进了原始算法，让搜索变得更加人性化，更加贴近用户的需求，使得信息来得更好更准。

附图说明

为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为本发明的一种基于随机森林算法的网页排序方法的流程图。

具体实施方式

以下结合附图，对本发明上述的和另外的技术特征和优点作更详细的说明。

如图1所示，为本发明的一种基于随机森林算法的网页排序方法的流程图，该方法包括以下步骤：

步骤S1，获取搜索网页对应的关键词和关键备选词。

具体的，对用户搜索词进行基于统计的语义分析并划分关键词，再从词库中调用设定数目个与关键词相似程度的词语作为关键备选词。

步骤S2，计算搜索网页对应的关键词或者关键备选词词频和权重。

具体的，关键词或者关键备选词词频的计算公式为：

式中，tf_i,j为第j个网页中第i个关键词或者关键备选词出现的频率即词频，分子n_i,j为第i个关键词或者关键备选词在第j网页中的出现次数，分母为在第j个网页中所有字词的频数之和。

分子|D|为网页总数，分母为包含该词的网页数。如果该词语不在语料库中，就会导致分母为零，因此一般情况下将分母替换为分母加1。

关键词或者关键备选词的权重计算公式为：

tfidf_i，jtf_i，j×idf_i

步骤S3，计算搜索网页质量相关指标PR值。

搜索网页质量相关指标PR值计算公式为：

d为阻尼系数，为避免某些页面因没有入链接或者出链接而无法计算PageRank值的问题(即LinkSink问题)而设置的系数，这里指定为0.85；Pi为网页链入以及链出的网页，N为网页数目；C(Pi)代表Pi页面链出的链接数量。

为了得出对应各个搜索网页的PageRank值，需要进行迭代运算。令每个网页页面的PR初始值相同，反复迭代运算，经过足够多次的迭代，系统的PR值将会达到收敛，此时就算出了要输入的每个网页的PR值。

步骤S4，计算搜索网页的枢纽值和权威值。

在初始情况下，设置每个页面的这两个权值都是相同的，可以都设置为1。假设以A(i)代表网页i的Authority权值，以H(i)代表网页i的Hub权值。那么，网页i在迭代中的Authority权值即为所有指向网页i页面的Hub权值之和；类似地，网页i的Hub权值即为网页i所指向的页面的Authority权值之和。根据上面的规则不断迭代直至结果最终收敛稳定，这样就算出了要输入的每个网页枢纽值和权威值。

步骤S5，计算最近浏览网页与搜索网页的相关性与最近浏览网页的关键词以及关键备选词的TF-IDF值乘积。

先将记录的最近的设定数目的浏览网页提取出来，计算对应的各个关键词以及关键备选词下的TF-IDF值。接下来为了量化最近浏览网页与搜索网页的相关性，使用网页关键词的相关性作为其衡量。具体地说，就是先利用网页爬取其中的词语并使用TF-IDF算法计算各个词语的词频以及权重，最终按照权重大小关系选取权重较大的与搜索关键词和关键备选词数目一致的关键词作为该网页的关键词。利用以上关键词获取的方法，分别提取最近浏览网页与搜索网页对应的关键词然后根据关键词之间的相似程度确定其相关性。

假设确定了m个关键词或者关键备选词以及k个历史浏览网页，并根据对应的TF-IDF算法计算出一个k×m的权重矩阵，然后基于每一行，也就是每一个历史浏览网页，我们进行求和处理，即对矩阵乘以k×1的1矩阵，得到即为各个网页的综合关键TF-IDF值。

然后是计算最近浏览网页与搜索网页的相关性，对于每一个搜索网页，由于有k个历史浏览网页，因此存在k个关键词相似矩阵，记为M1，……Mk，而且基于关键词数目为m，因此矩阵规格为m×m，接着我们根据这k个矩阵分别算出这k个历史浏览网页与搜索网页的相关系数Dk，Dk将由矩阵的每个元素与对应两个关键词的权重的乘积再求和得出。

其中Mk矩阵中，第i行代表着第k个历史网页的第i个关键词，且将该关键词的TF-IDF值记为W_i，而第j列代表着第搜索网页的第j个关键词，且将该关键词的TF-IDF值记为L_j，根据以上计算，得到k个D值，对应是搜索网页分别与k个历史浏览网页的k个相关系数。

步骤S6，计算输出指标：规定访问时间以上的搜索网页用户网页浏览次数与满足条件的网页停留时间某一函数的乘积是否大于设定的阀值。

根据网页本身的流量计算，容易得到该搜索网页的访问次数以及相应的停留时间。设置一个访问时间下限T，对访问时间大于下限的网络用户进行计数，并且设置时间函数形式为：对访问时间段按照访问人数进行排序，取出排名前100个时间段并取平均值作为用户停留类平均时长。最后将满足条件的浏览次数与对应的用户停留类平均时长进行乘积处理作为要输出的结果。

步骤S7，建立随机森林模型并记录相应结果。

根据以上计算方式算出相应搜索网页的输入指标，再根据不同的搜索网页将相应的输入输出指标输入到随机森林里面，然后经过算法自身的训练得到最终的学习器，但是最后需要的并不是总的结果，而是森林中每棵树的输出结果，因此，记录不同网页下不同输出树下结果为1的数目并称其为用户满意度作为最终排序指标的一部分。

步骤S8，计算最终的搜索网页得分并排序。

把之前记录的各个搜索网页的用户满意度与HITS算法的枢纽值(Hub Scores)和权威值(Authority Scores)分别相乘再加权求和并称为网页排序基数，而权重默认为1:1，根据不同的需求可以分配枢纽值和权威值以不同的权重值以满足不同的排序需求。最后基于不同搜索网页下的网页排序基数从高到低排序作为最后的排序结果。

本发明的一种基于随机森林算法的网页排序方法利用随机森林的方法对传统的HITS算法进行一定程度上的改良，在原始算法的基础上添加了相应的用户满意度指标，使得新的算法更好地解决了“主题漂移”的问题，为用户创造更好的搜索环境；同时，利用以上输出指标能够在一定程度上减少那些利用虚假访问作弊的页面对搜索结果的影响，提升用户的搜索体验。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于随机森林算法的网页排序方法，其特征在于，该方法包括以下步骤：

步骤S1：获取搜索网页对应的关键词和关键备选词；

步骤S3：计算搜索网页质量相关指标PR值；

步骤S4：计算搜索网页的枢纽值和权威值；

步骤S7：建立随机森林模型并记录相应结果；

步骤S8：计算最终的所述搜索网页得分并排序；

所述步骤S8具体包括：把之前记录的各个搜索网页的用户满意度与HITS算法的枢纽值和权威值分别相乘再加权求和并称为网页排序基数，而权重默认为1:1，根据不同的需求分配枢纽值和权威值以不同的权重值以满足不同的排序需求；最后基于不同搜索网页下的网页排序基数从高到低排序作为最后的排序结果。

2.根据权利要求1所述的基于随机森林算法的网页排序方法，其特征在于，所述步骤S1具体包括：对用户搜索词进行基于统计的语义分析并划分关键词，再从词库中调用设定数目个与关键词相似程度的词语作为关键备选词。

3.根据权利要求2所述的基于随机森林算法的网页排序方法，其特征在于，所述步骤S2具体包括：所述关键词或者关键备选词词频的计算公式为：

式中，tf_i,j为第j个网页中第i个关键词或者关键备选词出现的频率即词频，分子n_i,_j为第i个关键词或者关键备选词在第j网页中的出现次数，分母为在第j个网页中所有字词的频数之和；

分子|D|为网页总数，分母为包含该词的网页数；

所述关键词或者关键备选词的权重计算公式为：

tfidf_i，j＝tf_i，j×idf_i

这样就算出了要输入的每个网页对应的关键词或者关键备选词的权重变量tfidf_i,j。

4.根据权利要求3所述的基于随机森林算法的网页排序方法，其特征在于，所述步骤S3具体包括：所述搜索网页质量相关指标PR值计算公式为：

5.根据权利要求4所述的基于随机森林算法的网页排序方法，其特征在于，所述步骤S4具体包括：在初始情况下，设置每个页面的这两个权值都是相同的，都设置为1；假设以A(i)代表网页i的Authority权值，以H(i)代表网页i的Hub权值；那么，网页i在迭代中的Authority权值即为所有指向网页i页面的Hub权值之和；类似地，网页i的Hub权值即为网页i所指向的页面的Authority权值之和；根据上面的规则不断迭代直至结果最终收敛稳定，这样就算出了要输入的每个网页枢纽值和权威值。

6.根据权利要求5所述的基于随机森林算法的网页排序方法，其特征在于，所述步骤S5具体包括：先利用网页爬取其中的词语并使用TF-IDF算法计算各个词语的词频以及权重，最终按照权重大小关系选取权重较大的与搜索关键词和关键备选词数目一致的关键词作为该网页的关键词；利用以上关键词获取的方法，分别提取最近浏览网页与搜索网页对应的关键词然后根据关键词之间的相似程度确定其相关性；

假设确定了m个关键词或者关键备选词以及k个历史浏览网页，并根据对应的TF-IDF算法计算出一个k×m的权重矩阵，然后基于每一行，也就是每一个历史浏览网页，进行求和处理，即对矩阵乘以k×1的1矩阵，得到即为各个网页的综合关键TF-IDF值；

然后是计算最近浏览网页与搜索网页的相关性，对于每一个搜索网页，由于有k个历史浏览网页，因此存在k个关键词相似矩阵，记为M1，……Mk，而且基于关键词数目为m，因此矩阵规格为m×m，接着根据这k个矩阵分别算出这k个历史浏览网页与搜索网页的相关系数Dk，Dk将由矩阵的每个元素与对应两个关键词的权重的乘积再求和得出；

7.根据权利要求6所述的基于随机森林算法的网页排序方法，其特征在于，所述步骤S6具体包括：根据网页本身的流量计算，得到该搜索网页的访问次数以及相应的停留时间；设置一个访问时间下限T，对访问时间大于下限的网络用户进行计数，并且设置时间函数形式为：对访问时间段按照访问人数进行排序，取出排名前100个时间段并取平均值作为用户停留类平均时长；最后将满足条件的浏览次数与对应的用户停留类平均时长进行乘积处理作为要输出的结果。

8.根据权利要求7所述的基于随机森林算法的网页排序方法，其特征在于，所述步骤S7具体包括：根据以上计算方式算出相应搜索网页的输入指标，再根据不同的搜索网页将相应的输入输出指标输入到随机森林里面，然后经过算法自身的训练得到最终的学习器，记录不同网页下不同输出树下结果为1的数目并称其为用户满意度作为最终排序指标的一部分。