CN101256596B - 一种站内导航的方法及系统 - Google Patents

一种站内导航的方法及系统 Download PDF

Info

Publication number
CN101256596B
CN101256596B CN2008101030028A CN200810103002A CN101256596B CN 101256596 B CN101256596 B CN 101256596B CN 2008101030028 A CN2008101030028 A CN 2008101030028A CN 200810103002 A CN200810103002 A CN 200810103002A CN 101256596 B CN101256596 B CN 101256596B
Authority
CN
China
Prior art keywords
webpage
value
user
query word
total weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008101030028A
Other languages
English (en)
Other versions
CN101256596A (zh
Inventor
余浩
张智敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2008101030028A priority Critical patent/CN101256596B/zh
Publication of CN101256596A publication Critical patent/CN101256596A/zh
Application granted granted Critical
Publication of CN101256596B publication Critical patent/CN101256596B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种站内导航的方法及系统,解决目前的站内查询过程复杂、不能预览查询结果、修改查询需要重新输入等问题,帮助用户快速且方便地查找到自己想看的网页。所述方法包括:计算站内网页与查询词的相关性,得到网页的相关属性值;根据站内网页间的链接关系计算网页的重要程度,得到网页的重要度属性值;结合所述相关属性值和重要度属性值,计算站内网页的总权值,并将总权值符合预置条件的网页链接信息作为导航提示信息;对应查询词,将所述导航提示信息显示在查询输入框列表中,推荐给用户。用户可以实时预览所提示的网页链接信息,在最短的时间内找到想要的网页;而且使用方便,用户只需输入查询词,不需要对网站的目录结构有太多了解。

Description

一种站内导航的方法及系统
技术领域
本发明涉及网站导航技术,特别是涉及一种站内导航的方法及系统。 
背景技术
用户登录一个网站进行浏览时,由于网站中包含大量的网页,用户如何才能找到自己想看的网页? 
最普遍的方法是网站内设置用于导航的目录链接,每个目录下再设一些子目录链接,用户点击这些链接后就可以进入下一层目录,从而逐渐跳转到想看的网页。例如,如果用户想在搜狐的IT频道查询“联想笔记本电脑”的论坛,可以点击搜狐IT首页->数码首页->数码公社->笔记本论坛入口->联想,需要点击5次链接,并且每次都需要找下一个链接在哪里,因此是一个很费力的过程。 
这种基于目录链接的方法存在的问题是操作复杂,需要用户多次点击,而且需要用户对网站目录结构有一定了解才能找到想要的网页。 
还有一种方法是利用搜索引擎技术,网站提供基于搜索引擎技术的站内搜索功能,用户输入一个查询词,再点击“搜索”按钮,可以返回网站内相关的网页信息。例如上例中,用户如果在“站内搜索”的输入框里输入“联想笔记本电脑”,网站会提示找到了42473篇网页,但是在众多网页中要查找到联想笔记本电脑的论坛网页会很困难。 
这种基于站内搜索的方法需要输入查询词并主动点击“搜索”按钮,当修改查询时需要重新输入并点击“搜索”按钮,并且不能预览搜索结果,同时搜索到的网页信息通常非常多,还需要用户逐个寻找想浏览的网页。 
综上所述,目前还没有更好的方法能够帮助用户快速且方便地查找到自己想看的网页。 
发明内容
本发明所要解决的技术问题是提供一种站内导航的方法及系统,以解决目前的站内查询过程复杂、不能预览查询结果、修改查询需要重新输入等问题,从而帮助用户快速且方便地查找到自己想看的网页。 
为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案: 
一种站内导航的方法,包括: 
计算站内网页文档内容与查询词的相关程度值,将所述相关程度值作为网页的相关属性值; 
根据站内网页间的链接关系计算网页的重要程度值,将所述重要程度值作为网页的重要度属性值; 
将所述相关属性值和重要度属性值进行线性加权计算,得到站内网页的总权值,并将总权值符合预置条件的网页链接信息作为导航提示信息; 
对应查询词,将所述导航提示信息显示在查询输入框列表中,推荐给用户。 
优选的,所述根据站内网页间的链接关系计算网页重要程度的步骤包括:针对指向一个网页的链接,利用URL计算每个链接的权值;对指向一个网页的所有链接的权值求和,得到网页的链接分数;将所述网页的链接分数与预置的归一化后链接分数的最大值相乘,再将所得的积除以所有网页的链接分数最大值,得到网页的重要度属性值。 
优选的,所述方法还包括:根据搜索引擎日志,获取站内网页在预置时间段内的总点击次数;根据所述总点击次数,计算站内网页的点击属性值;将所述相关属性值、重要度属性值和点击属性值进行线性加权,计算得到站内网页的总权值。 
优选的,所述方法还包括:存储站内网页在预置时间段内的总点击次数;根据所述总点击次数,计算站内网页的点击属性值;将所述相关属性值、重要度属性值和点击属性值进行线性加权,计算得到站内网页的总权值。 
优选的,所述计算站内网页的总权值之前,还包括:判断网页的相关属性值是否大于等于预置阈值,如果符合,则计算该网页的总权值;否则,设置该网页的总权值为零。 
优选的,所述方法还包括:用户实时预览所述导航提示信息。 
优选的,所述方法还包括:用户点击所述导航提示信息,直接跳转到相应页面。 
优选的,所述方法还包括:用户修改查询词,所述导航提示信息也动态更新。 
优选的,所述方法还包括:保存用户输入的查询词及相匹配的导航提示信息;当用户再次输入所述查询词时,根据所述保存信息直接将对应该查询词的 导航提示信息显示在查询输入框列表中,推荐给用户。 
其中,所述导航提示信息包括网址和网页标题。 
一种站内导航的系统,包括: 
第一计算单元,用于计算站内网页文档内容与查询词的相关程度值,将所述相关程度值作为网页的相关属性值 
第二计算单元,用于根据站内网页间的链接关系计算网页的重要程度值,将所述重要程度值作为网页的重要度属性值; 
查询词匹配单元,用于将所述相关属性值和重要度属性值进行线性加权计算,得到站内网页的总权值,并将总权值符合预置条件的网页链接信息作为导航提示信息; 
结果展示单元,用于对应查询词,将所述导航提示信息显示在查询输入框列表中,推荐给用户。 
优选的,所述第二计算单元针对指向一个网页的链接,利用URL计算每个链接的权值;然后对指向一个网页的所有链接的权值求和,得到网页的链接分数;将所述网页的链接分数与预置的归一化后链接分数的最大值相乘,再将所得的积除以所有网页的链接分数最大值,得到网页的重要度属性值。 
优选的,所述装置还包括:搜索引擎日志存储查询单元,用于存储搜索引擎日志信息,并提供查询功能;第三计算单元,用于根据所述搜索引擎日志,获取站内网页在预置时间段内的总点击次数;然后根据所述总点击次数,计算站内网页的点击属性值。 
优选的,所述装置还包括:网站用户点击存储单元,用于存储站内网页在预置时间段内的总点击次数;第四计算单元,用于根据所述网页在预置时间段内的总点击次数,计算站内网页的点击属性值。 
所述查询词匹配单元将所述相关属性值、重要度属性值和点击属性值进行线性加权,计算得到站内网页的总权值,并将总权值符合预置条件的网页链接信息作为导航提示信息。 
优选的,所述查询词匹配单元在计算站内网页的总权值之前,判断网页的相关属性值是否大于等于预置阈值,如果符合,则计算该网页的总权值;否则,设置该网页的总权值为零。 
其中,所述导航提示信息包括网址和网页标题。 
优选的,所述装置还包括:导航数据库,用于保存用户输入的查询词及相匹配的导航提示信息;当用户再次输入所述查询词时,结果展示单元根据所述保存信息直接将对应该查询词的导航提示信息显示在查询输入框列表中,推荐给用户。 
根据本发明提供的具体实施例,本发明公开了以下技术效果: 
首先,本发明提供了一种站内导航的方法及系统,能够根据网页内容和网页间的链接关系推断出与用户输入的查询词相匹配的网页,然后将网页链接信息在输入框列表中实时地推荐给用户,用户选择点击后即可直接跳转到相应页面。所述在查询过程中可快速跳转到网站所提示的网页的方法,能够使用户在最短的时间内找到想要的网页;而且使用起来非常方便,用户只需输入查询词即可,不需要对网站的目录结构有太多了解。 
而且,由于本发明应用于站内导航,而一个网站的数据量相对于整个网络少很多,所以能够实时进行匹配计算,实时将相匹配的网页链接信息推荐给用户。 
优选的,在获取与查询词相匹配的网页链接信息时,还可以参考其他因素来增加匹配的准确度,例如网页的点击次数等,从而将更精确的查询结果直接推荐给用户。 
其次,当用户修改查询时,所述推荐的网页链接信息能够根据查询词的变化而动态更新,用户不需要点击“搜索”按钮就能够修正查询。 
再次,用户可以实时预览所提示的网页链接信息,从而使得用户不必输入整个查询词就实现了跳转。 
附图说明
图1是本发明实施例所述一种站内导航的方法流程图; 
图2是本发明实施例中应用pagerank算法的实例示意图; 
图3是本发明实施例中输入“联想”的展示结果示意图; 
图4是本发明实施例中输入“联想笔记本”的展示结果示意图; 
图5是本发明优选实施例所述一种站内导航的方法流程图; 
图6是本发明实施例所述一种站内导航的系统结构图。 
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。 
针对现有的各种站内导航方法都不能帮助用户快速且方便地实现查询的问题,本发明提供了一种站内导航的方法,能够根据网页内容和网页间的链接关系推断出与用户输入的查询词相匹配的网页,然后将网页链接信息在输入框列表中实时地推荐给用户,用户选择点击后即可直接跳转到相应页面。 
参照图1,是本发明实施例所述一种站内导航的方法流程图。 
首先,所有的网页由网站方提供,或者采用爬虫系统进行抓取,目的是获得该网站的所有网页。然后,对网页源代码进行分析,删除掉HTML标记、广告等信息,从网页源代码中提取出网页的标题、网址和正文,并获取网页间的链接关系。 
步骤101,根据站内网页间的链接关系计算网页的重要程度,得到网页的重要度属性值s2。本步骤的计算独立于查询词,只与链接关系有关。 
网页之间的链接关系能够反映一个网页的重要程度,因为指向一个网页的链接越多,表明该网页可能被点击的次数就越多,该网页就越重要。 
计算s2的方法也有多种,一种比较普遍的计算方法是PageRank算法,公式如下: 
PR ( u ) = ( 1 - c ) · 1 N + c Σ i = 1 n PR ( v i ) N v i
其中,PR即为本实施例所述的s2,u是需要计算的页面,c是0-1之间的一个常数,N是所有页面数,v1到vn是n个有链接指向u的页面,Nvi是网页vi所链接出去的出链接个数。 
所述算法的原理是:将每个页面的权值平均分配到它所链接出去的页面里。假设网站内每个网页最初的权重都是w,如果网页a存在3个链接分别指向b、c、d,那么分别有1/3w的权重从a转移到b、c、d;这样反复循环直到收敛停止。这样保证被引用最多的网页是最重要的网页。 
下面举例说明,参照图2,是应用pagerank算法的实例示意图。 
在第一轮计算中,两个网页最开始的pr值分别为100和9,pr为100的网页将自己的pr分给了2个它所链接的网页,pr为9的网页将自己的pr值分 给3个它所链接的网页。因此在下一轮计算中,后面两个网页的pr值分别为53和50。依次类推,一轮一轮计算下去,直到最后每个网页的pr值基本稳定。 
判断稳定的标准是: 
&Sigma; u = 1 n ( PR i ( u ) - PR i - 1 ( u ) ) 2 < &epsiv;
其中,PRi(u)是网页u在第i次迭代时算出的pr值,ε是一个很小的常量,例如0.001。 
优选的,本实施例还提供了一种比较简单的算法,是利用网页的URL(Uniform Resoure Locator,统一资源定位符)信息来计算每个链接的权值,具体如下: 
首先,针对指向一个网页的链接,利用URL计算每个链接的权值; 
本实施例采用的方法是去掉URL中http://等前缀,然后用“/”和“?”将URL进行分段,若分成n段,则链接得分(即权值)为: 
link _ rank ( u ) = 5 - n ( 1 &le; n &le; 4 ) 1 ( n > 4 )
举例说明: 
“http://it.sohu.com/”,该URL被“/”分成了一段“it.sohu.com”,得分为4; 
“http://digi.it.sohu.com/digitalhome-price/”,被分为两段“digi.it.sohu.com”和“digitalhome-price”,得分为3; 
“http://digi.it.sohu.com/20080324/n255875081.shtml”,被分为三段,得分为2; 
“http://act.it.sohu.com/product_mobile/product_info.php?id=150108”,被分为“act.it.sohu.com”、“product_mobile”、“product_info.php”、“id=1501084”段,得分为1。 
由上可知,URL的结构越简单,该URL的得分就越高。当然,本发明不限定计算每个链接权值的方法,上述公式仅作为实施例进行说明。 
其次,对指向一个网页的所有链接的权值求和; 
求和公式是: s 2 &prime; ( u ) = &Sigma; i = 1 n link _ rank ( v i )
利用所述求和公式来计算网页u的链接分数。其中,v1到vn是n个有链 接指向u的页面。因此,一个网页如果被别的网页链接的越多,则该网页的链接分数就越高。 
再次,对所述求和后的数值进行归一化处理,得到网页的重要度属性值s2。归一化公式如下: 
s 2 ( u ) = s 2 &prime; ( u ) * E MAX _ S 2
其中,E是链接分数可能的最大值,如20;MAX_S2是指s′2(u)算出来的最大值,如200。这样可以保证s2不超过20。 
举例说明,假设网站内有123个网页有链接指向网页1,其中有5个链接得分为4,31个为3,45个为2,42个为1。则网页1的链接分数为: 
Figure S2008101030028D00072
假设链接分数最大的可能值为40,所有网页的s′2(u)最大值为316,则 
Figure S2008101030028D00073
即归一化后网页1的链接分数是31分。这种方法综合考虑了链接数量和质量,同时比较简单。 
步骤102,网站通过脚本技术实时获取用户当前的查询词。 
步骤103,根据网页内容计算站内网页与用户查询词的相关性,得到网页的相关属性值s1。 
本实施例采用BM25算法来计算查询词和网页内容的相关程度s1,具体如下: 
首先把查询词和网页内容进行分词处理,例如把查询词分成了n个词。然后对于查询词中的每一个词ti,计算t与网页内容的相似性simi,然后  s 1 = &Sigma; i = 1 n sim i . 其中,simi的计算考虑了ti在查询中和网页内容中出现的次数,以及当前文档的长度和平均文档长度。计算simi采用的公式是: 
sim i = w ( 1 ) * ( k 1 + 1 ) tf ( k 3 + 1 ) qtf ( K + tf ) ( k 3 + qtf )
其中,tf和qtf分别是ti在当前文档和查询中出现的次数,dl和avdl分别是 当前网页的长度和网页的平均长度。W(1)、K、k1和k3是通过计算得到的参数。 
根据本领域技术人员所掌握的本领域技术知识,计算网页与查询词的相关程度的算法有多种,本发明可以使用其中任何一种算法,在此不作限定。 
步骤104,结合所述相关属性值s1和重要度属性值s2,计算站内网页的总权值,即计算每个网页与用户查询词的总匹配程度,然后将总权值符合预置条件的网页链接信息作为导航提示信息。 
本实施例采用线性加权的方式计算总权值,计算公式是: 
Score=a1*s1+a2*s2。 
其中,a1和a2都是通过训练得到的常数。 
当然,本发明不限定其他根据s1和s2计算总权值的方法,上述公式仅作为举例说明。 
对计算所得的总权值进行排序,将排序靠前的网页链接信息作为对应查询词的导航提示信息。在此可以设置一阈值条件,例如10,即将总权值排序为前10名的网页链接信息作为导航提示信息。本实施例中,导航提示信息展现为网页的链接信息,包括网址和标题等通过点击可以直接连接到该网页的信息,方便用户直接点击。 
步骤105,对应查询词,将所述导航提示信息显示在查询输入框列表中,推荐给用户。 
本实施例将所述筛选出的网页链接信息直接显示在查询输入框的列表中,作为导航提示信息推荐给用户,方便用户不需要点击“搜索”按钮,即可实时浏览与查询词匹配的推荐网址。当用户点击其中的网页链接信息后,可直接跳转到相应页面,方便用户在最短的时间内找到想要的网页。 
综上所述,与传统的站内导航方法相比,这种在查询过程中实现页面跳转的站内导航方法,使用起来非常方便,用户只需输入查询词即可,不需要对网站的目录结构有太多了解。而且,所述导航方法还具有查询修正功能,即当用户修改查询词时,网站将重新执行以上步骤102-105,得到匹配新查询词的网页链接信息推荐给用户,因此用户不需要点击“搜索”按钮就能够修正查询。 
与各种全网导航的方法相比,图1所示方法更适用于网站内部的网址导航,分析有两点: 
第一,网页间的链接关系紧密程度是站内网页区别于全网网页(即属于不同网站的网页)的一个特性,即属于同一个网站的网页之间的链接关系通常比全网网页之间的链接关系更紧密。本发明正是利用所述特性并结合查询词与网页内容的相关性来综合判断一个网页与查询词的匹配程度,而网页间的链接关系能够反映网页的重要程度,因此通过本发明所述方法获得的搜索结果更精确。 
第二,一个网站的数据量相对于整个网络少很多,所以本发明能够根据用户当前的查询词实时进行匹配计算,实时将相匹配的网页链接信息推荐给用户。 
基于图1所示的站内导航方法,优选的,在获取与查询词相匹配的网页链接信息时,还可以参考其他因素来增加匹配的准确度,例如网页的点击次数等,从而将更精确的查询结果直接推荐给用户。 
假设在步骤104计算站内网页的总权值时,同时参考网页的点击次数,则具体过程是:首先,获取网站内每个网页在预置时间段内的总点击次数;然后,根据所述总点击次数,计算站内网页的点击属性值s3;最后,结合网页的相关属性值s1、重要度属性值s2和点击属性值s3,计算站内网页的总权值。 
其中,获取网页总点击次数的方式包括两种: 
一种是利用搜索引擎日志获取。由于搜索引擎日志信息中存储了用户的查询词和所点击的网页,并提供如下功能:1)根据一个查询词可以得到用户在检索这个查询词时点击了特定网站内的哪些网页,每个网页被访问了多少次;2)输入一个网址,可以得到点击这个网址的查询词,以及每个查询词被点击的次数。因此,利用所述第二个查询功能,将对应每个查询词的点击次数相加,即可获得一个网页的总点击次数。 
另一种是由网站方提供用户点击情况,即网站存储了用户在特定时间段内访问网站内每个网页的次数。 
比较上述两种方法,由于第一种方法仅能够获得被搜索引擎系统收录的网页信息,而那些从来没有被用户点击过的网页则查询不到,因此第二种方法能够获得更为全面的网页点击次数。 
本实施例中,根据网页点击次数计算点击属性值s3的公式是: 
s3=a+b*log(click); 
或者为s3=a+b*click等。 
其中,click表示每个网页的点击次数;a和b是通过训练得到的常数。 
计算站内网页总权值的公式是: 
Score=a1*s1+a2*s2+a3*s3; 
其中,a1和a2都是通过训练得到的常数。 
以上公式可以有各种变形,本发明在此仅举例说明。 
如上所述,由于站内的数据量相对较小,本发明的一个特点是能够实现实时导航功能,即根据用户查询词实时计算每个网页的总权值,将最匹配的几个网页链接信息展示给用户供选择跳转。但本发明优选的,为提高站内导航效率,可以将用户曾经输入的查询词及相匹配的网页链接信息保存起来,这样在用户再次输入相同的查询词时,根据所述保存信息即可直接将对应该查询词的网页链接信息显示在查询输入框列表中。而对于用户第一次输入的新查询词,则进行实时计算匹配。 
下面举例说明,例如为搜狐网站的IT频道实现站内导航功能: 
(1)获取IT频道下的所有网页,即网址为http://*.it.sohu.com/*的网页(*号代表任意字符串),将每个网页的标题、正文内容、网址等存入服务器的数据库中; 
(2)获取网页间的链接关系,例如:搜狐IT频道http://it.sohu.com/有一个指向笔记本专题http://digi.it.sohu.com/notebook.shtml的链接;基于链接关系为每个网页计算出链接分数s2(链接越多的网页s2越大),把s2存入服务器的数据库中; 
(3)获得每个网页的点击次数(可以由网站提供,也可以由搜索引擎的查询日志系统获得),基于点击数据为每个网页计算出点击分数s3(点击次数越多s3越大),把s3存入服务器的数据库中; 
(4)有一个用户想搜索关于“联想笔记本”的内容,他在网站页面上的输入框内不断进行输入,他输入的每个字将依次传送到服务器; 
(5)用户输入“联想”二字后,服务器端计算与“联想”有关的所有网页与查询词“联想”的匹配程度,计算出每个页面内容分数s1,然后基于s1 与预先计算出的s2、s3算出总分,然后按从高到低顺序为用户推荐若干个结果显示在输入框下方。一种可能的展示结果如图3所示。 
(6)如果用户想要找关于联想笔记本的论坛,这两个结果都不满足需求,则用户继续输入,再输入“笔记本”三字后,服务器端自动接收用户新的查询词,计算与“联想笔记本”有关的所有网页与查询词“联想笔记本””的匹配程度,计算出每个页面新的内容分数s1,然后基于s1与预先计算出的s2、s3算出总分,然后按从高到低顺序为用户推荐若干个结果显示在输入框下方。可能的展示结果如图4所示。 
(7)如果导航所推荐的网址正是用户所需要的,用户无需点击“搜索”按钮,直接用鼠标点击所推荐的网址即可进行跳转。 
基于上述站内导航方法,本发明还提供了一种更优化的方案。由于一个网页的相关属性值s1在总权值中所占的权重最大,所以优化方案可以在计算总权值之前,将相关属性值s1较小即与查询词的匹配程度低的网页直接过滤掉,仅对匹配程度高的网页继续进行筛选。这样就能大大提高导航效率,在最短的时间内向用户返回推荐的网页链接信息。具体方案如下: 
参照图5,是本发明优选实施例所述一种站内导航的方法流程图。 
步骤501,根据站内网页间的链接关系,计算站内网页的重要程度,得到网页的重要度属性值s2。 
步骤502,根据网页的总点击次数,计算站内网页的点击属性值s3。 
步骤503,网站通过脚本技术实时获取用户当前的查询词。 
步骤504,根据网页内容计算站内网页与用户查询词的相关性,得到网页的相关属性值s1。 
步骤505,判断所述相关属性值s1是否大于(或大于等于)预置阈值,如果符合,则计算该网页的总权值;否则,设置该网页的总权值为零,后续过程中将不再考虑这些相关性较低的网页。这样,就能保证网页与查询词的相关性。 
如果网页的相关属性值s1大于(或大于等于)预置阈值,则针对这些相关性较高的网页继续如下计算: 
步骤506,从预先计算得到的网页重要度属性值s2和点击属性值s3中, 获取所述相关性较高的网页的s2和s3。 
步骤507,结合s1、s2、s3,计算所述相关性较高的网页的总权值,然后将总权值符合预置条件的网页链接信息作为导航提示信息。 
步骤508,对应查询词,将所述导航提示信息显示在查询输入框列表中,推荐给用户。 
步骤509,随着用户不断地输入,导航提示信息也会不断更新。如果用户对推荐的网址感兴趣,就可以直接点击网址进行跳转。 
针对上述站内导航方法,本发明还提供了一种站内导航系统实施例。 
参照图6,是所述一种站内导航的系统结构图。所述系统主要包括网站网页存储单元61、网站链接存储单元62、第一计算单元63、第二计算单元64、查询词匹配单元65和结果展示单元66。 
网站网页存储单元61用于存储网站内所有的网页信息,网站链接存储单元62用于存储网站内所有网页间的链接关系。如前所述,通过对网页源代码进行分析,删除掉HTML标记、广告等信息,从网页源代码中提取出网页的标题、网址和正文等信息存入网站网页存储单元61,并提取出网页间的链接关系存入网站链接存储单元62。 
第一计算单元63用于从网站网页存储单元61获取网页内容,计算站内网页与用户查询词的相关性,得到网页的相关属性值s1。本实施例采用BM25算法来计算查询词和网页内容的相关程度s1,具体计算方法如前所述,在此不再详述。 
第二计算单元64用于从网站链接存储单元62获取网页间的链接关系,并根据所述链接关系计算网页的重要程度,得到网页的重要度属性值s2。本实施例优选采用的计算方法是:针对指向一个网页的链接,利用URL计算每个链接的权值;然后对指向一个网页的所有链接的权值求和;并对所述求和后的数值进行归一化处理,得到网页的重要度属性值s2。 
查询词匹配单元65用于根据所述第一计算单元63和第二计算单元64的计算结果,结合所述相关属性值s1和重要度属性值s2,计算站内网页的总权值,即计算每个网页与用户查询词的总匹配程度,然后将总权值符合预置条件的网页链接信息作为导航提示信息。所述导航提示信息包括网址和网页标题。 
结果展示单元66用于对应查询词,将所述导航提示信息显示在查询输入框列表中,推荐给用户。根据所述导航提示信息,用户不需要点击“搜索”按钮,即可实时浏览与查询词匹配的推荐网址;当用户点击其中的网页链接信息后,可直接跳转到相应页面,在最短的时间内找到想要的网页。 
优选的,所述站内导航系统还包括搜索引擎日志存储查询单元67和第三计算单元68。搜索引擎日志存储查询单元67用于存储搜索引擎日志信息,并提供查询功能。第三计算单元68用于根据所述搜索引擎日志,获取站内网页在预置时间段内的总点击次数;然后根据所述总点击次数,计算站内网页的点击属性值s3。查询词匹配单元65会结合网页的相关属性值s1、重要度属性值s2和点击属性值s3,计算站内网页的总权值。 
网页点击情况还可以由网站方提供,即所述站内导航系统还可以包括网站用户点击存储单元69和第四计算单元70。网站用户点击存储单元69用于存储站内网页在预置时间段内的总点击次数,第四计算单元70用于从网站用户点击存储单元69获取网页点击信息,然后计算站内网页的点击属性值s3。同样,查询词匹配单元65会结合网页的相关属性值s1、重要度属性值s2和点击属性值s3,计算站内网页的总权值。 
优选的,为提高导航效率,上述查询词匹配单元65从第一计算单元63获得网页的相关属性值s1之后,先判断s1是否大于(或大于等于)预置阈值,如果符合,则计算该网页的总权值;否则,设置该网页的总权值为零,后续过程中将不再考虑这些相关性较低的网页。这样,就能保证网页与查询词的相关性。如果网页的相关属性值s1大于(或大于等于)预置阈值,则针对这些相关性较高的网页,可以从第二计算单元64获取所述相关性较高的网页的s2,还可以从第三计算单元68或第四计算单元70获取所述相关性较高的网页的s3,查询词匹配单元65再结合s1、s2、s3计算所述相关性较高的网页的总权值。 
优选的,所述站内导航系统还可以包括导航数据库71,用于将查询词匹配单元65的计算结果进行保存,即保存用户输入的查询词及相匹配的导航提示信息。当用户再次输入所述查询词时,结果展示单元66可以直接从导航数据库71获取对应该查询词的导航提示信息,并显示在查询输入框列表中,推 荐给用户。而对于用户第一次输入的新查询词,则进行实时计算匹配。 
图6所示装置中未详述的部分可以参见图1-图5所示方法的相关部分,为了篇幅考虑,在此不再详述。 
以上对本发明所提供的一种站内导航的方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。 

Claims (18)

1.一种站内导航的方法,其特征在于,包括:
计算站内网页文档内容与查询词的相关程度值,将所述相关程度值作为网页的相关属性值;
根据站内网页间的链接关系计算网页的重要程度值,将所述重要程度值作为网页的重要度属性值;
将所述相关属性值和重要度属性值进行线性加权计算,得到站内网页的总权值,并将总权值符合预置条件的网页链接信息作为导航提示信息;
对应查询词,将所述导航提示信息显示在查询输入框列表中,推荐给用户。
2.根据权利要求1所述的方法,其特征在于,所述根据站内网页间的链接关系计算网页重要程度的步骤包括:
针对指向一个网页的链接,利用URL计算每个链接的权值;
对指向一个网页的所有链接的权值求和,得到网页的链接分数;
将所述网页的链接分数与预置的归一化后链接分数的最大值相乘,再将所得的积除以所有网页的链接分数最大值,得到网页的重要度属性值。
3.根据权利要求1所述的方法,其特征在于,还包括:
根据搜索引擎日志,获取站内网页在预置时间段内的总点击次数;
根据所述总点击次数,计算站内网页的点击属性值;
将所述相关属性值、重要度属性值和点击属性值进行线性加权,计算得到站内网页的总权值。
4.根据权利要求1所述的方法,其特征在于,还包括:
存储站内网页在预置时间段内的总点击次数;
根据所述总点击次数,计算站内网页的点击属性值;
将所述相关属性值、重要度属性值和点击属性值进行线性加权,计算得到站内网页的总权值。
5.根据权利要求1、3或4所述的方法,其特征在于,所述计算站内网页的总权值之前,还包括:
判断网页的相关属性值是否大于等于预置阈值,如果符合,则计算该网页的总权值;否则,设置该网页的总权值为零。
6.根据权利要求1所述的方法,其特征在于,还包括:
用户实时预览所述导航提示信息。
7.根据权利要求1所述的方法,其特征在于,还包括:
用户点击所述导航提示信息,直接跳转到相应页面。
8.根据权利要求1所述的方法,其特征在于,还包括:
用户修改查询词,所述导航提示信息也动态更新。
9.根据权利要求1所述的方法,其特征在于,还包括:
保存用户输入的查询词及相匹配的导航提示信息;
当用户再次输入所述查询词时,根据所述保存信息直接将对应该查询词的导航提示信息显示在查询输入框列表中,推荐给用户。
10.根据权利要求1所述的方法,其特征在于:所述导航提示信息包括网址和网页标题。
11.一种站内导航的系统,其特征在于,包括:
第一计算单元,用于计算站内网页文档内容与查询词的相关程度值,将所述相关程度值作为网页的相关属性值;
第二计算单元,用于根据站内网页间的链接关系计算网页的重要程度值,将所述重要程度值作为网页的重要度属性值;
查询词匹配单元,用于将所述相关属性值和重要度属性值进行线性加权计算,得到站内网页的总权值,并将总权值符合预置条件的网页链接信息作为导航提示信息;
结果展示单元,用于对应查询词,将所述导航提示信息显示在查询输入框列表中,推荐给用户。
12.根据权利要求11所述的系统,其特征在于:
所述第二计算单元针对指向一个网页的链接,利用URL计算每个链接的权值;然后对指向一个网页的所有链接的权值求和,得到网页的链接分数;将所述网页的链接分数与预置的归一化后链接分数的最大值相乘,再将所得的积除以所有网页的链接分数最大值,得到网页的重要度属性值。
13.根据权利要求11所述的系统,其特征在于,还包括:
搜索引擎日志存储查询单元,用于存储搜索引擎日志信息,并提供查询功能;
第三计算单元,用于根据所述搜索引擎日志,获取站内网页在预置时间段内的总点击次数;然后根据所述总点击次数,计算站内网页的点击属性值。
14.根据权利要求11所述的系统,其特征在于,还包括:
网站用户点击存储单元,用于存储站内网页在预置时间段内的总点击次数;
第四计算单元,用于根据所述网页在预置时间段内的总点击次数,计算站内网页的点击属性值。
15.根据权利要求13或14所述的系统,其特征在于:
所述查询词匹配单元将所述相关属性值、重要度属性值和点击属性值进行线性加权,计算得到站内网页的总权值,并将总权值符合预置条件的网页链接信息作为导航提示信息。
16.根据权利要求11所述的系统,其特征在于:
所述查询词匹配单元在计算站内网页的总权值之前,判断网页的相关属性值是否大于等于预置阈值,如果符合,则计算该网页的总权值;否则,设置该网页的总权值为零。
17.根据权利要求11所述的系统,其特征在于:
所述导航提示信息包括网址和网页标题。
18.根据权利要求11所述的系统,其特征在于,还包括:
导航数据库,用于保存用户输入的查询词及相匹配的导航提示信息;当用户再次输入所述查询词时,结果展示单元根据所述保存信息直接将对应该查询词的导航提示信息显示在查询输入框列表中,推荐给用户。
CN2008101030028A 2008-03-28 2008-03-28 一种站内导航的方法及系统 Active CN101256596B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008101030028A CN101256596B (zh) 2008-03-28 2008-03-28 一种站内导航的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008101030028A CN101256596B (zh) 2008-03-28 2008-03-28 一种站内导航的方法及系统

Publications (2)

Publication Number Publication Date
CN101256596A CN101256596A (zh) 2008-09-03
CN101256596B true CN101256596B (zh) 2011-12-28

Family

ID=39891415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101030028A Active CN101256596B (zh) 2008-03-28 2008-03-28 一种站内导航的方法及系统

Country Status (1)

Country Link
CN (1) CN101256596B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101586669B1 (ko) 2009-09-13 2016-01-21 삼성전자주식회사 프리뷰 정보를 제공하기 위한 검색 방법, 장치 및 시스템
CN102110098B (zh) * 2009-12-25 2016-04-13 腾讯科技(深圳)有限公司 网络信息推荐方法及系统
CN102238268B (zh) * 2010-04-30 2013-10-30 腾讯科技(深圳)有限公司 一种信息提示方法及装置
CN102043632B (zh) * 2011-01-21 2014-04-02 北京星网锐捷网络技术有限公司 一种提供导航提示的软件系统及方法
CN103593353B (zh) * 2012-08-15 2018-11-13 阿里巴巴集团控股有限公司 信息搜索方法、展示信息排序权重值确定方法及其装置
CN103729374B (zh) * 2012-10-15 2017-04-19 北京搜狗信息服务有限公司 一种信息搜索方法及搜索引擎
CN103914495A (zh) * 2013-01-09 2014-07-09 阿里巴巴集团控股有限公司 一种页面预览方法及系统
CN103077254B (zh) * 2013-02-06 2017-11-03 人民日报媒体技术股份有限公司 网页获取方法和装置
CN104063394B (zh) * 2013-03-21 2020-05-08 北京百度网讯科技有限公司 一种用于确定目标网页的方法、装置和设备
CN104699725B (zh) * 2013-12-10 2018-10-09 阿里巴巴集团控股有限公司 数据搜索处理方法及系统
CN104951476B (zh) * 2014-03-31 2017-04-12 北京奇虎科技有限公司 确定网站内链接等级的方法及装置
CN104391855A (zh) * 2014-10-10 2015-03-04 百度在线网络技术(北京)有限公司 信息展示方法和装置
CN105740135B (zh) * 2014-12-08 2018-06-26 中国移动通信集团山西有限公司 一种代码审计方法和装置
CN104615424B (zh) * 2015-01-15 2017-12-12 深圳领域天马网络有限公司 一种导航栏推荐方法及其系统
CN104657453B (zh) * 2015-02-06 2018-06-12 百度在线网络技术(北京)有限公司 搜索方法及装置
CN106168977B (zh) * 2016-07-15 2019-07-02 山谷网安科技股份有限公司 一种用于网站安全监测的栏目识别方法
CN108073588B (zh) * 2016-11-09 2021-07-30 北京国双科技有限公司 栏目信息提取方法和装置
CN106919659A (zh) * 2017-02-09 2017-07-04 上海斐讯数据通信技术有限公司 一种计算网页排名的方法及系统
US10747655B2 (en) * 2018-11-20 2020-08-18 Express Scripts Strategic Development, Inc. Method and system for programmatically testing a user interface
CN111723309B (zh) * 2019-03-20 2024-04-05 北京京东尚科信息技术有限公司 用于网页搜索的方法和装置
CN113434696A (zh) * 2021-06-28 2021-09-24 平安科技(深圳)有限公司 基于知识图谱的搜索结果更新方法、装置和计算机设备

Also Published As

Publication number Publication date
CN101256596A (zh) 2008-09-03

Similar Documents

Publication Publication Date Title
CN101256596B (zh) 一种站内导航的方法及系统
US8341147B2 (en) Blending mobile search results
US9262532B2 (en) Ranking entity facets using user-click feedback
CN105022827B (zh) 一种面向领域主题的Web新闻动态聚合方法
Bennett et al. Inferring and using location metadata to personalize web search
CN100476830C (zh) 一种网络资源检索方法及系统
US8650483B2 (en) Method and apparatus for improving the readability of an automatically machine-generated summary
US9171078B2 (en) Automatic recommendation of vertical search engines
US20100100607A1 (en) Adjusting Content To User Profiles
CN102663064B (zh) 一种收藏夹数据的处理方法及装置
US8150979B1 (en) Supporting multiple landing pages
CN103838756A (zh) 一种确定推送信息的方法及装置
CN102236719A (zh) 基于网页分类的网页搜索引擎及快速查找方法
US20100011025A1 (en) Transfer learning methods and apparatuses for establishing additive models for related-task ranking
CN108197242A (zh) 搜索推荐词的推送方法、装置及服务器
CN103390000B (zh) 一种网页搜索方法及网页搜索系统
CN102169501A (zh) 基于搜索结果对应文档的类型信息生成摘要的方法与设备
CN102722499A (zh) 搜索引擎及其实现方法
CN102737021A (zh) 搜索引擎及其实现方法
CN104503988A (zh) 搜索方法及装置
CN104281619A (zh) 搜索结果排序系统及方法
CN104572719A (zh) 信息收集方法及装置
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
Singh et al. Enhanced-RatioRank: Enhancing impact of inlinks and outlinks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant