CN108182186B - 一种基于随机森林算法的网页排序方法 - Google Patents

一种基于随机森林算法的网页排序方法 Download PDF

Info

Publication number
CN108182186B
CN108182186B CN201611122793.XA CN201611122793A CN108182186B CN 108182186 B CN108182186 B CN 108182186B CN 201611122793 A CN201611122793 A CN 201611122793A CN 108182186 B CN108182186 B CN 108182186B
Authority
CN
China
Prior art keywords
webpage
value
key
web page
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611122793.XA
Other languages
English (en)
Other versions
CN108182186A (zh
Inventor
陶波
许飞月
陈乐焱
简宋全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Kingpoint Data Science And Technology Co ltd
Original Assignee
Guangdong Kingpoint Data Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Kingpoint Data Science And Technology Co ltd filed Critical Guangdong Kingpoint Data Science And Technology Co ltd
Priority to CN201611122793.XA priority Critical patent/CN108182186B/zh
Publication of CN108182186A publication Critical patent/CN108182186A/zh
Application granted granted Critical
Publication of CN108182186B publication Critical patent/CN108182186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于随机森林算法的网页排序方法,包括:获取搜索网页对应的关键词和关键备选词;计算所述搜索网页对应的关键词或者关键备选词词频和权重;计算搜索网页质量相关指标PR值;计算搜索网页的枢纽值和权威值;计算最近浏览网页与所述搜索网页的相关性与最近浏览网页的关键词以及关键备选词的TF‑IDF值乘积;计算输出指标:规定访问时间以上的搜索网页用户网页浏览次数与满足条件的网页停留时间某一函数的乘积是否大于设定的阀值;建立随机森林模型并记录相应结果;计算最终的所述搜索网页得分并排序。与现有技术相比,本发明的利用随机森林的方法对传统的HITS算法进行一定程度上的改良,提升用户的搜索体验,使得信息来得更好更准。

Description

一种基于随机森林算法的网页排序方法
技术领域
本发明涉及网页排序技术领域,具体涉及一种基于随机森林算法的网页排序方法。
背景技术
随着计算机科技的飞速发展,人们获取信息的途径和速度变多、变快了,但是随着信息量的爆炸性增长,人们准确获取信息的难度也加大了,如何更快更好地提供给用户想要的信息显得十分重要。而百度、谷歌等搜索引擎的诞生正是为了让人们更方便地在信息的汪洋中迅速准确找寻到自己需要的东西。而一个优秀的搜索引擎应该向用户提供所需要的最重要的最有价值的网页信息并将其排行在前面,同时提供的服务应该是简便而又人性化的,使得用户在很短时间内可以得到满意的相关搜索结果。为了满足以上突出的特性,各式各样的网页排名算法因运而生。网页排名算法的好坏直接影响用户搜索的体验。现有的网页排序算法包括利用网页与主题相关性进行排序的词频位置加权排序算法、基于随机漫游模型的PageRank算法和Repution算法、基于概率模型的SALSA算法和PHITS算法、基于Hub和Authority相互加强模型的的HITS算法及其变种和基于贝叶斯模型的贝叶斯算法及其简化版本等等。但是用户的搜索体验不是很好,信息得来的不是很好。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供一种基于随机森林算法的网页排序方法,该方法包括以下步骤:
步骤S1:获取搜索网页对应的关键词和关键备选词;
步骤S2:计算所述搜索网页对应的关键词或者关键备选词词频和权重;
步骤S3:计算搜索网页质量相关指标PR值;
步骤S4:计算搜索网页的枢纽值和权威值;
步骤S5:计算最近浏览网页与所述搜索网页的相关性与最近浏览网页的关键词以及关键备选词的TF-IDF值乘积;
步骤S6:计算输出指标:规定访问时间以上的搜索网页用户网页浏览次数与满足条件的网页停留时间某一函数的乘积是否大于设定的阀值;
步骤S7:建立随机森林模型并记录相应结果;
步骤S8:计算最终的所述搜索网页得分并排序。
较佳的,所述步骤S1具体包括:对用户搜索词进行基于统计的语义分析并划分关键词,再从词库中调用设定数目个与关键词相似程度的词语作为关键备选词。
较佳的,所述步骤S2具体包括:所述关键词或者关键备选词词频的计算公式为:
Figure GDA0002488694560000021
式中,tfi,j为第j个网页中第i个关键词或者关键备选词出现的频率即词频,分子ni,j为第i个关键词或者关键备选词在第j网页中的出现次数,分母为在第j个网页中所有字词的频数之和;
逆向网页频率:某一特定词语的逆向网页频率,由总网页数目除以包含该词语的网页的数目,再将得到的商取对数得到,计算式如下:
Figure GDA0002488694560000031
分子|D|为网页总数,分母为包含该词的网页数;
所述关键词或者关键备选词的权重计算公式为:
tfidfi,j=tfi,j×idfi
这样我们就算出了要输入的每个网页对应的关键词或者关键备选词的权重变量tfidfi,j
较佳的,所述步骤S3具体包括:所述搜索网页质量相关指标PR值计算公式为:
Figure GDA0002488694560000032
d为阻尼系数;Pi为网页链入以及链出的网页,N为网页数目;C(Pi)代表Pi页面链出的链接数量。
较佳的,所述步骤S4具体包括:在初始情况下,设置每个页面的这两个权值都是相同的,可以都设置为1;假设以A(i)代表网页i的Authority权值,以H(i)代表网页i的Hub权值;那么,网页i在迭代中的Authority权值即为所有指向网页i页面的Hub权值之和;类似地,网页i的Hub权值即为网页i所指向的页面的Authority权值之和;根据上面的规则不断迭代直至结果最终收敛稳定,这样就算出了要输入的每个网页枢纽值和权威值。
较佳的,所述步骤S5具体包括:先利用网页爬取其中的词语并使用TF-IDF算法计算各个词语的词频以及权重,最终按照权重大小关系选取权重较大的与搜索关键词和关键备选词数目一致的关键词作为该网页的关键词;利用以上关键词获取的方法,分别提取最近浏览网页与搜索网页对应的关键词然后根据关键词之间的相似程度确定其相关性;
假设确定了m个关键词或者关键备选词以及k个历史浏览网页,并根据对应的TF-IDF算法计算出一个k×m的权重矩阵,然后基于每一行,也就是每一个历史浏览网页,我们进行求和处理,即对矩阵乘以k×1的1矩阵,得到即为各个网页的综合关键TF-IDF值;
Figure GDA0002488694560000041
然后是计算最近浏览网页与搜索网页的相关性,对于每一个搜索网页,由于有k个历史浏览网页,因此存在k个关键词相似矩阵,记为M1,……Mk,而且基于关键词数目为m,因此矩阵规格为m×m,接着我们根据这k个矩阵分别算出这k个历史浏览网页与搜索网页的相关系数Dk,Dk将由矩阵的每个元素与对应两个关键词的权重的乘积再求和得出;
Figure GDA0002488694560000042
其中Mk矩阵中,第i行代表着第k个历史网页的第i个关键词,且将该关键词的TF-IDF值记为Wi,而第j列代表着第搜索网页的第j个关键词,且将该关键词的TF-IDF值记为Lj,根据以上计算,得到k个D值,对应是搜索网页分别与k个历史浏览网页的k个相关系数;
最后,对应每个历史网页,将相应的D值与综合关键TF-IDF值相乘得到k个乘积结果作为要输入的k个乘积结果。
较佳的,所述步骤S6具体包括:根据网页本身的流量计算,得到该搜索网页的访问次数以及相应的停留时间;设置一个访问时间下限T,对访问时间大于下限的网络用户进行计数,并且设置时间函数形式为:对访问时间段按照访问人数进行排序,取出排名前100个时间段并取平均值作为用户停留类平均时长;最后将满足条件的浏览次数与对应的用户停留类平均时长进行乘积处理作为要输出的结果。
较佳的,所述步骤S7具体包括:根据以上计算方式算出相应搜索网页的输入指标,再根据不同的搜索网页将相应的输入输出指标输入到随机森林里面,然后经过算法自身的训练得到最终的学习器,记录不同网页下不同输出树下结果为1的数目并称其为用户满意度作为最终排序指标的一部分。
较佳的,所述步骤S8具体包括:把之前记录的各个搜索网页的用户满意度与HITS算法的枢纽值和权威值分别相乘再加权求和并称为网页排序基数,而权重默认为1:1,根据不同的需求可以分配枢纽值和权威值以不同的权重值以满足不同的排序需求;最后基于不同搜索网页下的网页排序基数从高到低排序作为最后的排序结果。
与现有技术相比,本发明的一种基于随机森林算法的网页排序方法利用随机森林的方法对传统的HITS算法进行一定程度上的改良,在原始算法的基础上添加了相应的用户满意度指标,使得新的算法更好地解决了“主题漂移”的问题,为用户创造更好的搜索环境;同时,利用以上输出指标能够在一定程度上减少那些利用虚假访问作弊的页面对搜索结果的影响,提升用户的搜索体验。
添加了随机森林的集成学习方法,使得该搜索算法在搜索方面更加精准,目标性更强,融合了集成学习与传统搜索算法的优点,同时在一定程度改进了原始算法,让搜索变得更加人性化,更加贴近用户的需求,使得信息来得更好更准。
附图说明
为了更清楚地说明本发明各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明的一种基于随机森林算法的网页排序方法的流程图。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
如图1所示,为本发明的一种基于随机森林算法的网页排序方法的流程图,该方法包括以下步骤:
步骤S1,获取搜索网页对应的关键词和关键备选词。
具体的,对用户搜索词进行基于统计的语义分析并划分关键词,再从词库中调用设定数目个与关键词相似程度的词语作为关键备选词。
步骤S2,计算搜索网页对应的关键词或者关键备选词词频和权重。
具体的,关键词或者关键备选词词频的计算公式为:
Figure GDA0002488694560000061
式中,tfi,j为第j个网页中第i个关键词或者关键备选词出现的频率即词频,分子ni,j为第i个关键词或者关键备选词在第j网页中的出现次数,分母为在第j个网页中所有字词的频数之和。
逆向网页频率:某一特定词语的逆向网页频率,由总网页数目除以包含该词语的网页的数目,再将得到的商取对数得到,计算式如下:
Figure GDA0002488694560000071
分子|D|为网页总数,分母为包含该词的网页数。如果该词语不在语料库中,就会导致分母为零,因此一般情况下将分母替换为分母加1。
关键词或者关键备选词的权重计算公式为:
tfidfi,jtfi,j×idfi
这样我们就算出了要输入的每个网页对应的关键词或者关键备选词的权重变量tfidfi,j
步骤S3,计算搜索网页质量相关指标PR值。
搜索网页质量相关指标PR值计算公式为:
Figure GDA0002488694560000072
d为阻尼系数,为避免某些页面因没有入链接或者出链接而无法计算PageRank值的问题(即LinkSink问题)而设置的系数,这里指定为0.85;Pi为网页链入以及链出的网页,N为网页数目;C(Pi)代表Pi页面链出的链接数量。
为了得出对应各个搜索网页的PageRank值,需要进行迭代运算。令每个网页页面的PR初始值相同,反复迭代运算,经过足够多次的迭代,系统的PR值将会达到收敛,此时就算出了要输入的每个网页的PR值。
步骤S4,计算搜索网页的枢纽值和权威值。
在初始情况下,设置每个页面的这两个权值都是相同的,可以都设置为1。假设以A(i)代表网页i的Authority权值,以H(i)代表网页i的Hub权值。那么,网页i在迭代中的Authority权值即为所有指向网页i页面的Hub权值之和;类似地,网页i的Hub权值即为网页i所指向的页面的Authority权值之和。根据上面的规则不断迭代直至结果最终收敛稳定,这样就算出了要输入的每个网页枢纽值和权威值。
步骤S5,计算最近浏览网页与搜索网页的相关性与最近浏览网页的关键词以及关键备选词的TF-IDF值乘积。
先将记录的最近的设定数目的浏览网页提取出来,计算对应的各个关键词以及关键备选词下的TF-IDF值。接下来为了量化最近浏览网页与搜索网页的相关性,使用网页关键词的相关性作为其衡量。具体地说,就是先利用网页爬取其中的词语并使用TF-IDF算法计算各个词语的词频以及权重,最终按照权重大小关系选取权重较大的与搜索关键词和关键备选词数目一致的关键词作为该网页的关键词。利用以上关键词获取的方法,分别提取最近浏览网页与搜索网页对应的关键词然后根据关键词之间的相似程度确定其相关性。
假设确定了m个关键词或者关键备选词以及k个历史浏览网页,并根据对应的TF-IDF算法计算出一个k×m的权重矩阵,然后基于每一行,也就是每一个历史浏览网页,我们进行求和处理,即对矩阵乘以k×1的1矩阵,得到即为各个网页的综合关键TF-IDF值。
Figure GDA0002488694560000081
然后是计算最近浏览网页与搜索网页的相关性,对于每一个搜索网页,由于有k个历史浏览网页,因此存在k个关键词相似矩阵,记为M1,……Mk,而且基于关键词数目为m,因此矩阵规格为m×m,接着我们根据这k个矩阵分别算出这k个历史浏览网页与搜索网页的相关系数Dk,Dk将由矩阵的每个元素与对应两个关键词的权重的乘积再求和得出。
Figure GDA0002488694560000091
其中Mk矩阵中,第i行代表着第k个历史网页的第i个关键词,且将该关键词的TF-IDF值记为Wi,而第j列代表着第搜索网页的第j个关键词,且将该关键词的TF-IDF值记为Lj,根据以上计算,得到k个D值,对应是搜索网页分别与k个历史浏览网页的k个相关系数。
最后,对应每个历史网页,将相应的D值与综合关键TF-IDF值相乘得到k个乘积结果作为要输入的k个乘积结果。
步骤S6,计算输出指标:规定访问时间以上的搜索网页用户网页浏览次数与满足条件的网页停留时间某一函数的乘积是否大于设定的阀值。
根据网页本身的流量计算,容易得到该搜索网页的访问次数以及相应的停留时间。设置一个访问时间下限T,对访问时间大于下限的网络用户进行计数,并且设置时间函数形式为:对访问时间段按照访问人数进行排序,取出排名前100个时间段并取平均值作为用户停留类平均时长。最后将满足条件的浏览次数与对应的用户停留类平均时长进行乘积处理作为要输出的结果。
步骤S7,建立随机森林模型并记录相应结果。
根据以上计算方式算出相应搜索网页的输入指标,再根据不同的搜索网页将相应的输入输出指标输入到随机森林里面,然后经过算法自身的训练得到最终的学习器,但是最后需要的并不是总的结果,而是森林中每棵树的输出结果,因此,记录不同网页下不同输出树下结果为1的数目并称其为用户满意度作为最终排序指标的一部分。
步骤S8,计算最终的搜索网页得分并排序。
把之前记录的各个搜索网页的用户满意度与HITS算法的枢纽值(Hub Scores)和权威值(Authority Scores)分别相乘再加权求和并称为网页排序基数,而权重默认为1:1,根据不同的需求可以分配枢纽值和权威值以不同的权重值以满足不同的排序需求。最后基于不同搜索网页下的网页排序基数从高到低排序作为最后的排序结果。
本发明的一种基于随机森林算法的网页排序方法利用随机森林的方法对传统的HITS算法进行一定程度上的改良,在原始算法的基础上添加了相应的用户满意度指标,使得新的算法更好地解决了“主题漂移”的问题,为用户创造更好的搜索环境;同时,利用以上输出指标能够在一定程度上减少那些利用虚假访问作弊的页面对搜索结果的影响,提升用户的搜索体验。
添加了随机森林的集成学习方法,使得该搜索算法在搜索方面更加精准,目标性更强,融合了集成学习与传统搜索算法的优点,同时在一定程度改进了原始算法,让搜索变得更加人性化,更加贴近用户的需求,使得信息来得更好更准。
以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效,但都将落入本发明的保护范围内。

Claims (8)

1.一种基于随机森林算法的网页排序方法,其特征在于,该方法包括以下步骤:
步骤S1:获取搜索网页对应的关键词和关键备选词;
步骤S2:计算所述搜索网页对应的关键词或者关键备选词词频和权重;
步骤S3:计算搜索网页质量相关指标PR值;
步骤S4:计算搜索网页的枢纽值和权威值;
步骤S5:计算最近浏览网页与所述搜索网页的相关性与最近浏览网页的关键词以及关键备选词的TF-IDF值乘积;
步骤S6:计算输出指标:规定访问时间以上的搜索网页用户网页浏览次数与满足条件的网页停留时间某一函数的乘积是否大于设定的阀值;
步骤S7:建立随机森林模型并记录相应结果;
步骤S8:计算最终的所述搜索网页得分并排序;
所述步骤S8具体包括:把之前记录的各个搜索网页的用户满意度与HITS算法的枢纽值和权威值分别相乘再加权求和并称为网页排序基数,而权重默认为1:1,根据不同的需求分配枢纽值和权威值以不同的权重值以满足不同的排序需求;最后基于不同搜索网页下的网页排序基数从高到低排序作为最后的排序结果。
2.根据权利要求1所述的基于随机森林算法的网页排序方法,其特征在于,所述步骤S1具体包括:对用户搜索词进行基于统计的语义分析并划分关键词,再从词库中调用设定数目个与关键词相似程度的词语作为关键备选词。
3.根据权利要求2所述的基于随机森林算法的网页排序方法,其特征在于,所述步骤S2具体包括:所述关键词或者关键备选词词频的计算公式为:
Figure FDA0002488694550000011
式中,tfi,j为第j个网页中第i个关键词或者关键备选词出现的频率即词频,分子ni,j为第i个关键词或者关键备选词在第j网页中的出现次数,分母为在第j个网页中所有字词的频数之和;
逆向网页频率:某一特定词语的逆向网页频率,由总网页数目除以包含该词语的网页的数目,再将得到的商取对数得到,计算式如下:
Figure FDA0002488694550000021
分子|D|为网页总数,分母为包含该词的网页数;
所述关键词或者关键备选词的权重计算公式为:
tfidfi,j=tfi,j×idfi
这样就算出了要输入的每个网页对应的关键词或者关键备选词的权重变量tfidfi,j
4.根据权利要求3所述的基于随机森林算法的网页排序方法,其特征在于,所述步骤S3具体包括:所述搜索网页质量相关指标PR值计算公式为:
Figure FDA0002488694550000022
d为阻尼系数;Pi为网页链入以及链出的网页,N为网页数目;C(Pi)代表Pi页面链出的链接数量。
5.根据权利要求4所述的基于随机森林算法的网页排序方法,其特征在于,所述步骤S4具体包括:在初始情况下,设置每个页面的这两个权值都是相同的,都设置为1;假设以A(i)代表网页i的Authority权值,以H(i)代表网页i的Hub权值;那么,网页i在迭代中的Authority权值即为所有指向网页i页面的Hub权值之和;类似地,网页i的Hub权值即为网页i所指向的页面的Authority权值之和;根据上面的规则不断迭代直至结果最终收敛稳定,这样就算出了要输入的每个网页枢纽值和权威值。
6.根据权利要求5所述的基于随机森林算法的网页排序方法,其特征在于,所述步骤S5具体包括:先利用网页爬取其中的词语并使用TF-IDF算法计算各个词语的词频以及权重,最终按照权重大小关系选取权重较大的与搜索关键词和关键备选词数目一致的关键词作为该网页的关键词;利用以上关键词获取的方法,分别提取最近浏览网页与搜索网页对应的关键词然后根据关键词之间的相似程度确定其相关性;
假设确定了m个关键词或者关键备选词以及k个历史浏览网页,并根据对应的TF-IDF算法计算出一个k×m的权重矩阵,然后基于每一行,也就是每一个历史浏览网页,进行求和处理,即对矩阵乘以k×1的1矩阵,得到即为各个网页的综合关键TF-IDF值;
Figure FDA0002488694550000031
然后是计算最近浏览网页与搜索网页的相关性,对于每一个搜索网页,由于有k个历史浏览网页,因此存在k个关键词相似矩阵,记为M1,……Mk,而且基于关键词数目为m,因此矩阵规格为m×m,接着根据这k个矩阵分别算出这k个历史浏览网页与搜索网页的相关系数Dk,Dk将由矩阵的每个元素与对应两个关键词的权重的乘积再求和得出;
Figure FDA0002488694550000032
其中Mk矩阵中,第i行代表着第k个历史网页的第i个关键词,且将该关键词的TF-IDF值记为Wi,而第j列代表着第搜索网页的第j个关键词,且将该关键词的TF-IDF值记为Lj,根据以上计算,得到k个D值,对应是搜索网页分别与k个历史浏览网页的k个相关系数;
最后,对应每个历史网页,将相应的D值与综合关键TF-IDF值相乘得到k个乘积结果作为要输入的k个乘积结果。
7.根据权利要求6所述的基于随机森林算法的网页排序方法,其特征在于,所述步骤S6具体包括:根据网页本身的流量计算,得到该搜索网页的访问次数以及相应的停留时间;设置一个访问时间下限T,对访问时间大于下限的网络用户进行计数,并且设置时间函数形式为:对访问时间段按照访问人数进行排序,取出排名前100个时间段并取平均值作为用户停留类平均时长;最后将满足条件的浏览次数与对应的用户停留类平均时长进行乘积处理作为要输出的结果。
8.根据权利要求7所述的基于随机森林算法的网页排序方法,其特征在于,所述步骤S7具体包括:根据以上计算方式算出相应搜索网页的输入指标,再根据不同的搜索网页将相应的输入输出指标输入到随机森林里面,然后经过算法自身的训练得到最终的学习器,记录不同网页下不同输出树下结果为1的数目并称其为用户满意度作为最终排序指标的一部分。
CN201611122793.XA 2016-12-08 2016-12-08 一种基于随机森林算法的网页排序方法 Active CN108182186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611122793.XA CN108182186B (zh) 2016-12-08 2016-12-08 一种基于随机森林算法的网页排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611122793.XA CN108182186B (zh) 2016-12-08 2016-12-08 一种基于随机森林算法的网页排序方法

Publications (2)

Publication Number Publication Date
CN108182186A CN108182186A (zh) 2018-06-19
CN108182186B true CN108182186B (zh) 2020-10-02

Family

ID=62544885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611122793.XA Active CN108182186B (zh) 2016-12-08 2016-12-08 一种基于随机森林算法的网页排序方法

Country Status (1)

Country Link
CN (1) CN108182186B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180137197A1 (en) * 2016-11-17 2018-05-17 Linkedin Corporation Web page metadata classifier
CN111159527A (zh) * 2018-11-07 2020-05-15 北大方正集团有限公司 主页的识别处理方法、装置、设备及存储介质
CN110750717B (zh) * 2019-09-27 2024-02-02 上海麦克风文化传媒有限公司 一种排序权重更新方法
CN110728136A (zh) * 2019-10-14 2020-01-24 延安大学 一种融合多因素的textrank关键词提取算法
CN111079035B (zh) * 2019-11-21 2023-04-28 北方信息控制研究院集团有限公司 基于动态图谱链接分析的领域搜索排序方法
CN113127761A (zh) * 2019-12-31 2021-07-16 中国科学技术信息研究所 用于科技要素检索的智能排序方法、电子设备和存储介质
CN113590814A (zh) * 2021-05-13 2021-11-02 上海大学 一种融合文本解释特征的文本分类方法
CN118378053B (zh) * 2024-06-25 2024-08-30 西安银信博锐信息科技有限公司 基于数据挖掘的用户数据分析方法
CN118520174B (zh) * 2024-07-19 2024-09-27 西安银信博锐信息科技有限公司 基于数据分析的客户行为特征提取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236646A (zh) * 2010-04-20 2011-11-09 得利在线信息技术(北京)有限公司 对象级垂直搜索引擎个性化排序算法iRank
CN102541947A (zh) * 2010-12-31 2012-07-04 百度在线网络技术(北京)有限公司 一种用于基于扩展推荐事件更新网页权威值的方法与设备
CN104699817A (zh) * 2015-03-24 2015-06-10 中国人民解放军国防科学技术大学 一种基于改进谱聚类的搜索引擎排序方法与系统
CN105095884A (zh) * 2015-08-31 2015-11-25 桂林电子科技大学 一种基于随机森林支持向量机的行人识别系统及处理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963867B2 (en) * 1999-12-08 2005-11-08 A9.Com, Inc. Search query processing to provide category-ranked presentation of search results
JP3922693B2 (ja) * 2002-06-17 2007-05-30 Necシステムテクノロジー株式会社 インターネット情報検索システム
US8185523B2 (en) * 2005-03-18 2012-05-22 Search Engine Technologies, Llc Search engine that applies feedback from users to improve search results
JP4935243B2 (ja) * 2006-08-25 2012-05-23 富士通株式会社 検索プログラム、情報検索装置及び情報検索方法
CN101079064B (zh) * 2007-06-25 2011-11-30 腾讯科技(深圳)有限公司 一种网页排序方法及装置
CN102663077B (zh) * 2012-03-31 2014-03-12 福建师范大学 基于Hits算法的Web搜索结果安全性排序方法
CN103049483B (zh) * 2012-11-30 2016-04-20 北京奇虎科技有限公司 网页危险性的识别系统
CN103150303B (zh) * 2013-03-08 2016-01-20 北京理工大学 汉语语义格分层识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236646A (zh) * 2010-04-20 2011-11-09 得利在线信息技术(北京)有限公司 对象级垂直搜索引擎个性化排序算法iRank
CN102541947A (zh) * 2010-12-31 2012-07-04 百度在线网络技术(北京)有限公司 一种用于基于扩展推荐事件更新网页权威值的方法与设备
CN104699817A (zh) * 2015-03-24 2015-06-10 中国人民解放军国防科学技术大学 一种基于改进谱聚类的搜索引擎排序方法与系统
CN105095884A (zh) * 2015-08-31 2015-11-25 桂林电子科技大学 一种基于随机森林支持向量机的行人识别系统及处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于搜索引擎网页排序算法研究;李宜兵;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120115(第1期);I138-674 *
基于随机森林和boosting思想的推荐算法的研究;贾璋衡;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160515(第5期);I138-1493 *

Also Published As

Publication number Publication date
CN108182186A (zh) 2018-06-19

Similar Documents

Publication Publication Date Title
CN108182186B (zh) 一种基于随机森林算法的网页排序方法
US12001490B2 (en) Systems for and methods of finding relevant documents by analyzing tags
US10482136B2 (en) Method and apparatus for extracting topic sentences of webpages
US9171078B2 (en) Automatic recommendation of vertical search engines
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
CN103473283B (zh) 一种文本案例匹配方法
CN102779193B (zh) 自适应个性化信息检索系统及方法
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN107066589B (zh) 一种基于综合知识的实体语义和词频的排序方法及装置
Bansal et al. User tweets based genre prediction and movie recommendation using LSI and SVD
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
KR102280494B1 (ko) 상호연관성 기반 우선순위로 정렬된 전문분야 인터넷 검색 서비스 제공 방법
Banaei et al. Web page rank estimation in search engine based on SEO parameters using machine learning techniques
CN115827988B (zh) 一种自媒体内容热度预测方法
Pang et al. Query expansion and query fuzzy with large-scale click-through data for microblog retrieval
CN111435378B (zh) 查询结果的排序方法、装置、电子设备以及存储介质
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法
Zhao et al. A Hybrid Page Ranking Algorithm Based on User Behavior
CN112434212B (zh) 基于神经自回归分布估计的涉案新闻主题模型构建方法及装置
Pang et al. History-Aware Expansion and Fuzzy for Query Reformulation
Geetharani et al. Location-based Ranking Method (LBRM) for ranking search results in search engines
Srikantaiah et al. Ranking search engine result pages based on trustworthiness of websites
Chang et al. Authorrank: a new scheme for identifying field-specific key researchers
Chuang Balancing precision and recall with selective search
スブチュアタナポール A Study on Efficient Topical Focused Website Segment Crawler

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant