CN101770521A - 一种用于垂直搜索引擎的聚焦相关度排序方法 - Google Patents

一种用于垂直搜索引擎的聚焦相关度排序方法 Download PDF

Info

Publication number
CN101770521A
CN101770521A CN 201010122365 CN201010122365A CN101770521A CN 101770521 A CN101770521 A CN 101770521A CN 201010122365 CN201010122365 CN 201010122365 CN 201010122365 A CN201010122365 A CN 201010122365A CN 101770521 A CN101770521 A CN 101770521A
Authority
CN
China
Prior art keywords
page
theme
user
webpage
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201010122365
Other languages
English (en)
Inventor
温泉
傅增明
程裕强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN 201010122365 priority Critical patent/CN101770521A/zh
Publication of CN101770521A publication Critical patent/CN101770521A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于垂直搜索引擎的聚焦相关度排序方法,针对主题爬虫无法穿越“黑暗隧道”问题,使用在线学习的方法并利用辅助函数,对主题爬虫的主题爬行策略进行改进,使其能抓取到相关度更高的主题数据。研究了PageRank算法及其改进算法,通过对用户点击网页行为进行建模,改进链接之间PageRank值的传递方式,从而提出改进算法。针对网页权重特征提取模型维度过高的缺陷,提出网页权重的自定义方法,定义出网页权重的因素,并利用可分性判据来衡量页面权重因素的权重,从而给出页面权重的评价函数,有效地降低网页特征空间维度。通过本发明,用户在使用主题资源搜索引擎系统时,能够得到高质量的搜索结果集。

Description

一种用于垂直搜索引擎的聚焦相关度排序方法
技术领域
本发明涉及计算机网络搜索引擎的技术领域,特别是涉及一种用于垂直搜索引擎的聚焦相关度排序方法,即在搜索引擎搜索中基于网页相关度技术的搜索方法。
背景技术
随着互联网相关技术的日益成熟和蕴含信息量的快速增长,搜索引擎已经成为人们检索互联网数据的主要手段。目前互联网已经拥有100亿的静态网页,传统的通用搜索引擎虽然具有全面的检索能力,但其存在数据冗余量大、查询精度低等缺陷,已不能满足用户对信息检索的精确性要求。面向主题、专业化的垂直搜索引擎正逐步占据着市场,并引起了人们的广泛关注。
垂直搜索引擎的目的是找到与主题密切相关的资源,这需要预测文档的相关性,并按照其相关度对文档进行排序。一般而言,相关度高的文档排在搜索结果集的顶端。提高相关度排序的质量,是垂直搜索引擎的核心问题之一。现在相关度排序技术主要有两个方面:基于链接结构的网页排序和基于页面内容权重的网页排序。
谷歌的PageRank算法是基于链接结构的网页排序中最流行的算法,它利用网页的超链接结构信息来估算网页的重要性。斯坦福大学的博士研究生Sergey Brin和Lawrence提出了网络链接分析的一个新算法PageRank,该算法是建立在随机用户行为上的。具体来说,假设用户跟随链接进行了若干步的浏览后转向一个随机的起点网页又重新跟随链接浏览,那么一个网页的价值就由该网页被这个随机用户所访问的频率所决定。
PageRank算法基本原理:通过对网络超链接结构和文献引文机制的相似性进行研究,利用网络本身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为网页A投了网页B一票,增加了网页B的重要性。最后根据网页的得票数评定其重要性,而这个重要性的量化指标就是PageRank值。在实际计算的时候,先给每个网页一个初始的PageRank值,然后通过简单的迭代算法计算出每个网页p的PR(p)值。但由于其链接间平均传递PageRank值的做法,易产生主题漂移现象。
基于页面权重的网页排序,采用特征提取模型,其中向量模型和布尔模型运用最为广泛,但由于它们的空间维度过高,使其受到一定的限制。因此,垂直搜索引擎中的相关度排序问题遇到了很大的挑战。
由此可见,现在并没有一种普适的并且高效的相关度排序方案,能在不增加存储信息量的情况下,解决用户查询主题漂移的问题。同时,对这一问题的深入研究有助于垂直搜索引擎的发展。
发明内容
本发明所要解决的技术问题是提供一种用于垂直搜索引擎的聚焦相关度排序方法,提高相关度排序的质量,从而改善垂直搜索引擎的性能。
本发明解决其技术问题所采用的技术方案是:提供一种用于垂直搜索引擎的聚焦相关度排序方法,包括以下步骤:
(1)使用主题爬虫抓取网页,保存在其URL队列中,抓取主题数据,为搜索引擎做数据准备;
(2)对抓取的网页链接进行分析,通过对用户点击行为进行分析,建立用户行为模型,推导出PageRank值传递公式;
(3)页面权重特征提取与评价,即对页面进行权重评分,利用可分性判据计算页面特征的类间距,推导出页面权重的评价函数,计算出页面的重要性;
(4)在搜索引擎接受查询时,根据计算出的页面重要性进行排序,返回给用户结果集。
所述的用于垂直搜索引擎的聚焦相关度排序方法的步骤(1)中对主题爬虫的爬取行为加入主题判别函数,当主题样本被第i级主题分类器判为假后,使用第i级的主题判别函数对其进行辅助判决,若辅助判决为真,则将已判决为拒绝的主题样本输入到第i+1级的主题分类中,反之,则拒绝该主题样本,其中,i为正整数;所述的第i级主题判别函数为: F i ( t c ) = α Σ l = 1 L i F l ( t c ) + β ( 1 2 ) count , 其中,α是锚文本的相关度值,β是链接附近文本的值,Fi(tc)表示第i级主题判别函数的值。
所述的用于垂直搜索引擎的聚焦相关度排序方法的步骤(2)中所述的用户点击行为分为四类:
(a)该用户从当前页跳转到一个随机页面,并在关注同一主题的动作记为Ms,其行为概率为 P ( M s | i k ) = ( 1 - d ) ∂ ;
(b)该用户从当前页跳转到一个随机页面,并在关注任一主题的动作记为Mj,其行为概率为 P ( M j | i k ) = ( 1 - d ) ( 1 - ∂ ) ;
(c)该用户从当前页跟随该页面链接,并在关注同一主题的动作记为Jj,其行为概率为
P ( J j | i k ) = d ( 1 - ∂ ) ;
(d)该用户从当前页跟随该页面链接,并在关注任一随机主题的动作记为Js,其行为概率为 P ( J s | i k ) = d * ∂ ;
所述的用户点击行为的概率在用户到达目标页面j的主题q时可以做如下描述:
P ( J q | i q , M s ) = 1 | out ( i ) | ,
P ( J q | i k , M j ) = 1 | out ( i ) | C ( i q ) ,
P ( J q | i k , J j ) = 1 N C ( j q ) ,
P ( J q | i q , J s ) = 1 N C ( j q ) ,
其中,C(i)(i∈(0,n))是文本的内容向量,out(i)是网页的链出数;
所述的概率模型用来计算用户在页面j中的聚焦主题q的概率:
P ( J q ) = ( 1 - d ) ∂ Σ i → j 1 | out ( i ) | P ( i q ) + ( 1 - d ) ( 1 - ∂ ) Σ i → j 1 | out ( i ) | C ( i q ) Σ k ∈ W P ( i k ) + d 1 N C ( j q ) Σ k ∈ W P ( i k ) ,
其中,N是爬取网页的数量;W是爬取的网页集;d是在所述的概率模型中的一个随机跳转的概率;i->j页面i中的一个超链接指向j。
所述的用于垂直搜索引擎的聚焦相关度排序方法的步骤(3)中评价函数使所有类的类内平均距离最小,类间平均距离最大,用J(·)表示: J ( · ) = 1 N - 1 Σ i = 1 M P i Σ j = 1 M P j d c 2 ‾ ( C i , C j ) Σ i = 1 N P i d c 2 ‾ ( C i ) , 采用所述的评价函数对页面进行权重评分,从而确定页面的重要性。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:
(1)搜索引擎的数据准备过程中,针对主题爬虫无法穿越“黑暗隧道”问题,使用在线学习的方法并利用辅助函数,对主题爬虫的主题爬行策略进行改进,使其能抓取到相关度更高的主题数据。
(2)研究了PageRank算法及其改进算法,通过对用户点击网页行为进行建模,改进链接之间PageRank值的传递方式,从而提出改进算法。实验证明,该算法能在不增加额外存储空间的情况下,有效地避免主题漂移现象的发生。
(3)针对网页权重特征提取模型维度过高的缺陷,提出网页权重的自定义方法,定义出网页权重的因素,并利用可分性判据来衡量页面权重因素的权重,从而给出页面权重的评价函数,有效地降低网页特征空间维度。
(4)融合以上三方面改进方案,提出聚焦相关度排序方案,并将其运用到搜索引擎的应用系统中,能够提高相关度排序的质量,从而改善垂直搜索引擎的性能,最终设计并实现了面向领域的垂直搜索引擎系统。
附图说明
图1是本发明用于垂直搜索引擎的聚焦相关度排序方法的流程图;
图2是主题爬虫抓取网页的主要流程图;
图3是本发明的主题爬虫框架示意图;
图4是用户行为模型结构图;
图5是本发明搜索引擎系统的总体架构示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的实施方式涉及一种用于垂直搜索引擎的聚焦相关度排序方法,包括以下步骤:(1)使用主题爬虫抓取网页,保存在其URL队列中,抓取主题数据,为搜索引擎做数据准备;(2)对抓取的网页链接进行分析,通过对用户点击行为进行分析,建立用户行为模型,推导出PageRank值传递公式;(3)页面权重特征提取与评价,即对页面进行权重评分,利用可分性判据计算页面特征的类间距,推导出页面权重的评价函数,计算出页面的重要性;(4)在搜索引擎接受查询时,根据页面重要性进行排序,返回给用户结果集。
下面对本发明的实施方式进行具体地说明,如图1所示。
1)主题爬虫抓取数据,为搜索引擎做数据准备。
按照图2的步骤利用主题爬虫抓取网页,将抓取网页的URL放入URL队列中。
从图2中可知主题爬行策略改进有两点:第一是借鉴了“在线学习(Online Learning)”的思想,利用网页分类器对URL打分器进行在线“训练”,从而不断提高URL打分器的准确性。另一个更重要的改进是主题爬行的爬虫利用了包括锚文本、链接附近文本和父页面相关度信息三个方面的线索,设计一个辅助函数,充分利用了超链接微观环境中HTML代码的树形结构特征,对链接附近文本的精确挖掘。
改进的主题爬虫框架如图3所示,当样本被某一级主题分类器判为假后,使用该级的主题判别函数对其进行辅助判决。若辅助判决为真,则将已判决为拒绝的主题样本输入到下一级的主题分类中,反之,则拒绝该主题样本。本发明提出的新的主题爬虫框架在每一级增加了相对应的主题判别函数。
第i级的主题判决函数为:
F i ( t c ) = α Σ l = 1 L i F l ( t c ) + β ( 1 2 ) count ,
其中,α是锚文本的相关度值,β是链接附近文本的值,Fi(tc)表示第i级主题判别函数的值。可以发现Fi(tc)值是随α值递增的,α值越大,Fi(tc)越大,则主题爬虫更倾向于使用本次判决的结果;α值越小,Fi(tc)越小,则主题爬虫越偏重于考虑历史判决信息。
2)对抓取网页进行链接分析,利用本发明提出的用户行为模型对PageRank算法进行改进。
本发明在传统的用户行为建模的基础上提出了一种新的用户行为建模的思想:通过分析用户查询行为来计算页面跳转的概率事件,从而来预测用户可能感兴趣的点击行为。并结合用户的点击行为、点击次序及操作形式来构建用户行为模型。其模型的结构图如图4所示。
基本流程如下:
(1)用户进行关键词查询,并对该查询进行识别,若用户没有后续点击动作将识别结果存入用户行为库。
(2)若用户查询后还有对别的网页进行点击的动作,对点击行为进行跟踪,并将结果存入用户行为库。
(3)从行为库中导出用户行为,进行用户行为分析。
其中,用户行为分析基于上面的建模流程。定义用户的点击行为可以分为几类,其定义如下:
假设用户正在浏览一个网页的某个主题,下一步,该用户可能在当前页以概率1-d跳转到一个出度链接,或者以概率d跳转到任意随机网页。同理,如果一个用户准备跳转一个链接,该用户可能以概率停留在同一主题;或者以概率
Figure GSA00000052489800062
跳转到任意一个主题。
(a)定义一:该用户从当前页跳转到一个随机页面,并在关注同一主题的动作记为Ms。其行为概率为: P ( M s | i k ) = ( 1 - d ) ∂
(b)定义二:该用户从当前页跳转到一个随机页面,并在关注任一随机主题的动作记为Mj。其行为概率为: P ( M j | i k ) = ( 1 - d ) ( 1 - ∂ )
(c)定义三:该用户从当前页跟随该页面链接,并在关注同一主题的动作记为Jj。其行为概率为: P ( J j | i k ) = d ( 1 - ∂ )
(d)定义四:该用户从当前页跟随该页面链接,并在关注任一随机主题的动作记为Js。其行为概率为: P ( J s | i k ) = d * ∂
改进PageRank值传递方式
上述行为的概率在用户到达目标页面j的主题q时可以做如下描述:
P ( J q | i q , M s ) = 1 | out ( i ) |
P ( J q | i k , M j ) = 1 | out ( i ) | C ( i q )
P ( J q | i k , J j ) = 1 N C ( j q )
P ( J q | i q , J s ) = 1 N C ( j q )
其中,C(i)(i∈(0,n))是文本的内容向量;out(i)是网页的链出数。这个概率模型可以用来计算用户在页面j中的聚焦主题q的概率:
P ( J q ) = ( 1 - d ) ∂ Σ i → j 1 | out ( i ) | P ( i q ) + ( 1 - d ) ( 1 - ∂ ) Σ i → j 1 | out ( i ) | C ( i q ) Σ k ∈ W P ( i k ) + d 1 N C ( j q ) Σ k ∈ W P ( i k )
其中,N是爬取网页的数量;W是爬取的网页集;d是在上述概率模型中的一个随机跳转的概率;i->j页面i中的一个超链接指向j。
根据上述公式可以轻松的推导出基于用户行为模型的PageRank算法计算PageRank的公式:
PR ( j q ) = ( 1 - d ) ∂ Σ i → j 1 | out ( i ) | PR ( i q ) + ( 1 - d ) ( 1 - ∂ ) Σ i → j 1 | out ( i ) | C ( i q ) Σ k ∈ W PR ( i k ) + d 1 N C ( j q ) Σ k ∈ W PR ( i k )
从该公式中可以发现:
(1)若用户查询后并没有后续点击动作,PageRank值没有进行迭代计算,为初始值。
(2)若用户有后续点击动作,PageRank值可以根据该公式进行迭代计算出来。
这样就计算出了目标网页的PageRank值,解决了PageRank算法中链接之间PageRank值平均传递的弊端,且该算法不需要去ODP中查询主题分类,节省了大量的时间和空间,可以有效的减少主题漂移现象的发生。在对用户行为跟踪以后,把得到的结果更新到用户行为兴趣库,以便下一次对用户行为的跟踪与分析。
3)页面权重特征提取与评价
特征提取就是特征选择,特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程。实际工作中有两种特征选择的问题,一种是从原始特征集中选出固定数目的特征,使得分类器的错误率最小,这是一个无约束的组合优化问题。另一种是对于给定的允许错误率,求维数最小的特征子集,这是一种有约束的最优化问题。
可分性判据用于衡量一组对分类最有效的特征的一个定量判据,可分性判据分为基于类内类间距离的可分性判据、基于概率分布的可分性判据、基于熵函数的可分性判据。
基于类内类间距离的可分性判据根据特征子集满足类内距离最小,类间距离最大的原则来度量可分性,基于概率分布的可分性判据根据类的概密函数的重叠程度来度量可分性,基于熵函数的可分性判据根据类的类后验概率的差别来度量可分性。基于概率分布的可分性判据需要知道类的概密函数,基于熵函数的可分性判据需要知道类的后验概率,但是搜索引擎数据源的各类的概密函数和后验概率都无法求得,所以选择基于类内类间距离的可分性判据作为页面权重的评价函数。
Ci表示第i分类因素,xj (i)表示第i分类因素的第j特征向量,Ni表示第i分类因素的特征向量集合的大小,M表示类别数,N表示所有特征向量集合的大小,Pi表示i分类因素的概率, P i = N i N , F表示所有分类的互异特征集合,D表示F的大小,fij表示Ci的第j特征集合。
特征向量:Ci的第j特征向量的第1列分量定义为:
x jl ( i ) = 1 F l ∉ f ij 0 F l ∈ f ij
Ci的第j特征向量定义为:
x j ( i ) = [ x j 0 ( i ) , x j 1 ( i ) , x j 2 ( i ) . . . x j l ( i ) ] , j = D
向量距离:向量之间的距离采用Jaccard计算方法,向量之间的距离用δ(x,y)表示。
δ ( x , y ) = xy T + x ( y ‾ ) T + x ‾ y T xy T
计算类距离:类内距离为Ci类与Cj类之间的两两特征向量的均方距离,用d2(Ci,Cj)表示。
d 2 ‾ ( C i , C j ) = 1 N i N j Σ k = 1 N i Σ l = 1 N j δ 2 ( x k ( i ) , x l ( i ) )
评价函数:特征选择方法的评价函数使所有类的类内平均距离最小,类间平均距离最大,用J(·)表示。
J ( · ) = 1 N - 1 Σ i = 1 M P i Σ j = 1 M P j d c 2 ‾ ( C i , C j ) Σ i = 1 N P i d c 2 ‾ ( C i )
可以用该评价函数对页面进行权重评分,从而确定页面的重要性。
4)在搜索引擎接受查询时,可通过页面重要性进行排序,并将结果集返回给用户。
图5是对主题爬行、基于链接结构排序、基于页面权重排序等方面提出了改进模型和算法,以提高相关度排序的质量,从而改善垂直搜索引擎的性能,最终设计并实现了面向领域的垂直搜索引擎系统结构示意图。
不难发现,在搜索引擎的数据准备过程中,针对主题爬虫无法穿越“黑暗隧道”问题,使用在线学习的方法并利用辅助函数,对主题爬虫的主题爬行策略进行改进,使其能抓取到相关度更高的主题数据。
研究了PageRank算法及其改进算法,通过对用户点击网页行为进行建模,改进链接之间PageRank值的传递方式,从而提出改进算法。实验证明,该算法能在不增加额外存储空间的情况下,有效地避免主题漂移现象的发生。
针对网页权重特征提取模型维度过高的缺陷,提出网页权重的自定义方法,定义出网页权重的因素,并利用可分性判据来衡量页面权重因素的权重,从而给出页面权重的评价函数,有效地降低网页特征空间维度。

Claims (4)

1.一种用于垂直搜索引擎的聚焦相关度排序方法,其特征在于,包括以下步骤:
(1)使用主题爬虫抓取网页,保存在其URL队列中,抓取主题数据,为搜索引擎做数据准备;
(2)对抓取的网页链接进行分析,通过对用户点击行为进行分析,建立用户行为模型,推导出PageRank值传递公式;
(3)页面权重特征提取与评价,即对页面进行权重评分,利用可分性判据计算页面特征的类间距,推导出页面权重的评价函数,计算出页面的重要性;
(4)在搜索引擎接受查询时,根据计算出的页面重要性进行排序,返回给用户结果集。
2.根据权利要求1所述的用于垂直搜索引擎的聚焦相关度排序方法,其特征在于,所述的步骤(1)中对主题爬虫的爬取行为加入主题判别函数,当主题样本被第i级主题分类器判为假后,使用第i级的主题判别函数对其进行辅助判决,若辅助判决为真,则将已判决为拒绝的主题样本输入到第i+1级的主题分类中,反之,则拒绝该主题样本,其中,i为正整数;所述的第i级主题判别函数为: F i ( t c ) = α Σ l = 1 L i F l ( t c ) + β ( 1 2 ) count , 其中,α是锚文本的相关度值,β是链接附近文本的值,Fi(tc)表示第i级主题判别函数的值。
3.根据权利要求1所述的用于垂直搜索引擎的聚焦相关度排序方法,其特征在于,所述的步骤(2)中所述的用户点击行为分为四类:
(a)该用户从当前页跳转到一个随机页面,并在关注同一主题的动作记为Ms,其行为概率为 P ( M s | i k ) = ( 1 - d ) ∂ ;
(b)该用户从当前页跳转到一个随机页面,并在关注任一主题的动作记为Mj,其行为概率为 P ( M j | i k ) = ( 1 - d ) ( 1 - ∂ ) ;
(c)该用户从当前页跟随该页面链接,并在关注同一主题的动作记为Jj,其行为概率为 P ( J j | i k ) = d ( 1 - ∂ ) ;
(d)该用户从当前页跟随该页面链接,并在关注任一随机主题的动作记为Js,其行为概率为 P ( J s | i k ) = d * ∂ ;
所述的用户点击行为的概率在用户到达目标页面j的主题q时可以做如下描述:
P ( J q | i q , M s ) = 1 | out ( i ) | ,
P ( J q | i k , M j ) = 1 | out ( i ) | C ( i q ) ,
P ( J q | i k , J j ) = 1 N C ( j q ) ,
P ( J q | i q , J s ) = 1 N C ( j q ) ,
其中,C(i)(i∈(0,n))是文本的内容向量,out(i)是网页的链出数;
所述的概率模型用来计算用户在页面j中的聚焦主题q的概率:
P ( J q ) = ( 1 - d ) ∂ Σ i → j 1 | out ( i ) | P ( i q ) + ( 1 - d ) ( 1 - ∂ ) Σ i → j 1 | out ( i ) | C ( i q ) Σ k ∈ W P ( i k ) + d 1 N C ( j q ) Σ k ∈ W P ( i k ) ,
其中,N是爬取网页的数量;W是爬取的网页集;d是在所述的概率模型中的一个随机跳转的概率;i->j页面i中的一个超链接指向j。
4.根据权利要求1所述的用于垂直搜索引擎的聚焦相关度排序方法,其特征在于,所述的步骤(3)中的评价函数使所有类的类内平均距离最小,类间平均距离最大,用J(·)表示: J ( · ) = 1 N - 1 Σ i = 1 M P i Σ j = 1 M P j d c 2 ‾ ( C i , C j ) Σ i = 1 N P i d c 2 ‾ ( C i ) , 采用所述的评价函数对页面进行权重评分,从而确定页面的重要性。
CN 201010122365 2010-03-11 2010-03-11 一种用于垂直搜索引擎的聚焦相关度排序方法 Pending CN101770521A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010122365 CN101770521A (zh) 2010-03-11 2010-03-11 一种用于垂直搜索引擎的聚焦相关度排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010122365 CN101770521A (zh) 2010-03-11 2010-03-11 一种用于垂直搜索引擎的聚焦相关度排序方法

Publications (1)

Publication Number Publication Date
CN101770521A true CN101770521A (zh) 2010-07-07

Family

ID=42503379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010122365 Pending CN101770521A (zh) 2010-03-11 2010-03-11 一种用于垂直搜索引擎的聚焦相关度排序方法

Country Status (1)

Country Link
CN (1) CN101770521A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411626A (zh) * 2011-12-13 2012-04-11 北京大学 基于相关性分数分布对查询意图进行分类的方法
CN102591926A (zh) * 2011-12-23 2012-07-18 西华大学 一种基于用户本体的初始URLs选择方法
CN102779133A (zh) * 2011-05-12 2012-11-14 苏州同程旅游网络科技有限公司 基于多平台、多供应商的搜索比价方法
CN102810106A (zh) * 2011-06-02 2012-12-05 杭州手趣科技有限公司 全网通址企业个性化搜索营销平台系统
CN102810117A (zh) * 2012-06-29 2012-12-05 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN103064873A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 一种网页质量数据获取方法和系统
CN103309900A (zh) * 2012-03-06 2013-09-18 祁勇 一种个性化多维度的文档排序方法和系统
CN103425994A (zh) * 2013-07-19 2013-12-04 淮阴工学院 一种用于模式分类的特征选择方法
CN103617146A (zh) * 2013-12-06 2014-03-05 北京奇虎科技有限公司 一种基于硬件资源消耗的机器学习方法及装置
CN103699845A (zh) * 2013-12-25 2014-04-02 北京神州绿盟信息安全科技股份有限公司 显示扫描进度的方法及装置
CN104636407A (zh) * 2013-11-15 2015-05-20 腾讯科技(深圳)有限公司 参数取值训练及搜索请求处理方法和装置
CN104951476A (zh) * 2014-03-31 2015-09-30 北京奇虎科技有限公司 确定网站内链接等级的方法及装置
CN105335363A (zh) * 2014-05-28 2016-02-17 华为技术有限公司 一种对象推送方法及系统
CN107562966A (zh) * 2017-10-23 2018-01-09 郑州大学 用于网页链接检索排序的基于智能学习的优化系统及方法
CN108920696A (zh) * 2017-12-04 2018-11-30 重庆第二师范学院 一种基于转移概率的网页排序方法及系统
CN110347896A (zh) * 2019-06-12 2019-10-18 国网浙江省电力有限公司电力科学研究院 一种基于PageRank算法的医疗数据爬取方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564157A (zh) * 2004-03-23 2005-01-12 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
US20080010281A1 (en) * 2006-06-22 2008-01-10 Yahoo! Inc. User-sensitive pagerank

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1564157A (zh) * 2004-03-23 2005-01-12 南京大学 一种可扩展、可定制的主题集中式万维网爬虫设置方法
US20080010281A1 (en) * 2006-06-22 2008-01-10 Yahoo! Inc. User-sensitive pagerank

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《微电子学与计算机》 20080930 吴炜,梁昆,李瑞轩,辜希武,卢正鼎 一种基于主题相关度的网页排序算法 全文 1-4 第25卷, 第9期 2 *
《武汉理工大学学报》 20090228 林泓,刘朋,李晶晶,龙振海 基于概率的PageRank改进算法 全文 1-4 第31卷, 第3期 2 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779133A (zh) * 2011-05-12 2012-11-14 苏州同程旅游网络科技有限公司 基于多平台、多供应商的搜索比价方法
CN102810106A (zh) * 2011-06-02 2012-12-05 杭州手趣科技有限公司 全网通址企业个性化搜索营销平台系统
CN102411626A (zh) * 2011-12-13 2012-04-11 北京大学 基于相关性分数分布对查询意图进行分类的方法
CN102591926A (zh) * 2011-12-23 2012-07-18 西华大学 一种基于用户本体的初始URLs选择方法
CN103309900A (zh) * 2012-03-06 2013-09-18 祁勇 一种个性化多维度的文档排序方法和系统
CN102810117A (zh) * 2012-06-29 2012-12-05 北京百度网讯科技有限公司 一种用于提供搜索结果的方法与设备
CN103064873A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 一种网页质量数据获取方法和系统
CN103425994A (zh) * 2013-07-19 2013-12-04 淮阴工学院 一种用于模式分类的特征选择方法
CN103425994B (zh) * 2013-07-19 2016-09-21 淮阴工学院 一种用于模式分类的特征选择方法
CN104636407A (zh) * 2013-11-15 2015-05-20 腾讯科技(深圳)有限公司 参数取值训练及搜索请求处理方法和装置
CN104636407B (zh) * 2013-11-15 2019-07-19 腾讯科技(深圳)有限公司 参数取值训练及搜索请求处理方法和装置
CN103617146A (zh) * 2013-12-06 2014-03-05 北京奇虎科技有限公司 一种基于硬件资源消耗的机器学习方法及装置
CN103617146B (zh) * 2013-12-06 2017-10-13 北京奇虎科技有限公司 一种基于硬件资源消耗的机器学习方法及装置
CN103699845A (zh) * 2013-12-25 2014-04-02 北京神州绿盟信息安全科技股份有限公司 显示扫描进度的方法及装置
CN103699845B (zh) * 2013-12-25 2017-05-17 北京神州绿盟信息安全科技股份有限公司 显示扫描进度的方法及装置
CN104951476A (zh) * 2014-03-31 2015-09-30 北京奇虎科技有限公司 确定网站内链接等级的方法及装置
CN105335363A (zh) * 2014-05-28 2016-02-17 华为技术有限公司 一种对象推送方法及系统
CN105335363B (zh) * 2014-05-28 2018-12-07 华为技术有限公司 一种对象推送方法及系统
CN107562966A (zh) * 2017-10-23 2018-01-09 郑州大学 用于网页链接检索排序的基于智能学习的优化系统及方法
CN107562966B (zh) * 2017-10-23 2020-10-30 郑州大学 用于网页链接检索排序的基于智能学习的优化系统及方法
CN108920696A (zh) * 2017-12-04 2018-11-30 重庆第二师范学院 一种基于转移概率的网页排序方法及系统
CN110347896A (zh) * 2019-06-12 2019-10-18 国网浙江省电力有限公司电力科学研究院 一种基于PageRank算法的医疗数据爬取方法及系统
CN110347896B (zh) * 2019-06-12 2021-09-21 国网浙江省电力有限公司电力科学研究院 一种基于PageRank算法的医疗数据爬取方法及系统

Similar Documents

Publication Publication Date Title
CN101770521A (zh) 一种用于垂直搜索引擎的聚焦相关度排序方法
CN101828185B (zh) 部分地基于多个点进特征来排名并提供搜索结果
US7779001B2 (en) Web page ranking with hierarchical considerations
CN102902806B (zh) 一种利用搜索引擎进行查询扩展的方法及系统
Paliwal et al. Semantics-based automated service discovery
Leung et al. Personalized web search with location preferences
US7424484B2 (en) Path-based ranking of unvisited web pages
US7672943B2 (en) Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling
CN101180624B (zh) 基于链接的垃圾检测
Derhami et al. Applying reinforcement learning for web pages ranking algorithms
Montazeralghaem et al. A reinforcement learning framework for relevance feedback
Liu et al. Using HMM to learn user browsing patterns for focused Web crawling
US20110161260A1 (en) User-driven index selection
WO2006133252A9 (en) Doubly ranked information retrieval and area search
Hsu et al. Topic-specific crawling on the Web with the measurements of the relevancy context graph
CN103559252A (zh) 给游客推荐其很可能会浏览的景点的方法
CN102411626A (zh) 基于相关性分数分布对查询意图进行分类的方法
CN105808739A (zh) 基于Borda算法的搜索结果排序方法
CN102750380B (zh) 一种结合差异特征分布与链接特征的网页排序方法
Klink Query reformulation with collaborative concept-based expansion
Kim et al. Web-Document Retrieval by Genetic Learning of Importance Factors for HTML Tags.
Yan et al. Research on PageRank and hyperlink-induced topic search in web structure mining
Ye et al. iSurfer: A focused web crawler based on incremental learning from positive samples
Kim et al. Evolutionary learning of web-document structure for information retrieval
Kumar et al. Focused crawling based upon tf-idf semantics and hub score learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20100707