CN101383730B - 确定权威网站的方法及装置 - Google Patents

确定权威网站的方法及装置 Download PDF

Info

Publication number
CN101383730B
CN101383730B CN2008102251780A CN200810225178A CN101383730B CN 101383730 B CN101383730 B CN 101383730B CN 2008102251780 A CN2008102251780 A CN 2008102251780A CN 200810225178 A CN200810225178 A CN 200810225178A CN 101383730 B CN101383730 B CN 101383730B
Authority
CN
China
Prior art keywords
website
field
webpage
query word
clicked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008102251780A
Other languages
English (en)
Other versions
CN101383730A (zh
Inventor
佟子健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN2008102251780A priority Critical patent/CN101383730B/zh
Publication of CN101383730A publication Critical patent/CN101383730A/zh
Application granted granted Critical
Publication of CN101383730B publication Critical patent/CN101383730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种确定权威网站的方法及装置,所述方法包括:获取同一领域内的多个关键词;获取所述多个关键词分别对应的被点击网页;分别统计各网站内的所述被点击网页的局部信息;根据所述局部信息确定对应所述领域的权威网站。利用本发明,能够自动为用户提供各领域的权威网站。

Description

确定权威网站的方法及装置
技术领域
本发明涉及网络技术,具体涉及一种确定权威网站的方法及装置。 
背景技术
目前,随着网络技术的发展,互联网作为一个庞大的信息资源,成为了人们获取信息的最方便、快捷的途径,也是最主要途径之一。 
通常,通过互联网获取信息的最常用手段是利用搜索引擎进行搜索,然后从搜索结果中找寻所需的信息。由于互联网中存在的各种信息的质量参差不齐,低质量的信息很可能会误导用户,甚至给用户带来不必要的物质和精神损失。 
为了便于用户能够获得高质量的信息,产生了一些提供导航目录类的网站,这些网站对互联网信息做了全面、多层次的分类,列出了各个不同领域及其子领域内的权威网站。所谓权威网站是指该网站提供的信息在真实性、权威性、及时性和全面性等方面都优于本领域内的其它网站。 
但这些权威网站的生成需要通过人工编辑的方式来选择,手工挑选每一个领域内的权威网站,人工成本高、周期长,而且需要相关人员全面了解各个领域内的相关知识。 
发明内容
本发明提供一种确定权威网站的方法及装置,能够自动得到各领域内稳定有效的权威网站。 
为此,本发明提供如下技术方案: 
一种确定权威网站的方法,包括: 
搜索引擎获取同一领域内的多个关键词; 
获取所述多个关键词分别对应的被点击网页; 
分别统计各网站内的所述被点击网页的局部信息,所述被点击网页的局部信息具体:是网页被点击的次数和点击的用户数,或者是被点击的网页数和点击的用户数,或者是网页被点击的次数、被点击的网页数、以及点击的用户数 这三者; 
信息包括:查询词、查询时间、查询用户、被点击网页; 
根据所述查询信息统计全局信息,所述全局信息包括:每个网站内被点击网页的数量、网站内被点击网页对应的所有查询词的数量、网站内被点击网页对应的所有查询词的查询量; 
所述获取所述领域内的关键词对应的被点击网页包括: 
根据所述用户的查询信息及所述全局信息获取所述关键词对应的被点击网页。 
优选地,所述根据所述局部信息确定对应所述领域的权威网站包括: 
根据所述局部信息计算对应各网站的判决参数; 
如果所述判决参数超过设定的阈值,则将对应该判决参数的网站设定为权威网站。 
所述判决参数包括: 
所述领域内某网站中网页被点击数与所述领域内所有网站中网页被点击数的比值;和/或 
所述领域内某网站中被点击网页数与所述领域内所有网站被点击的网页数的比值。 
优选地,当所述判决参数有多个时,对应每个判决参数都设置有一个阈值。 
优选地,所述方法还包括: 
在统计各网站内的所述被点击网页的局部信息之前,对所述网页进行过滤;所述对网页进行过滤包括: 
过滤掉同一个用户多次查询相同查询词点击的多个网页;和/或 
过滤掉对应所述查询词在短期内爆发式查询点击的多个网页。 
可选地,所述获取同一领域内的多个关键词包括: 
为所述领域选取一个权威网站; 
获取点击所述权威网站下网页的查询词集合; 
通过过滤所述查询词集合,确定所述领域内的关键词。 
优选地,所述通过过滤所述查询词集合,确定所述领域内的关键词包括: 
如果查询词对应的被点击网站中所述领域权威网站的数量与该领域已知权威网站的数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;和/或 
如果查询词对应的被点击网站中所述领域权威网站的数量与所述查询词对应的被点击网站数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;和/或 
如果查询词对应的被点击网站中属于所述领域权威网站的数量与查询词对应的被点击网页数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词。 
优选地,所述方法还包括: 
对确定的对应所述领域的权威网站下网页的查询词集合进行过滤,重新确定所述领域内的关键词; 
根据重新确定的所述领域内的关键词进行迭代处理,重新确定对应所述领域的权威网站; 
当迭代处理满足设定的终止条件后,根据迭代结果确定对应所述领域的权威网站。 
可选地,设定的终止条件包括: 
如果迭代处理过程中确定的权威网站连续一致的次数超过预定的一致次数阈值,则终止迭代处理;或者 
如果迭代处理次数超过预定的迭代次数阈值,则终止迭代处理。 
一种确定权威网站的装置,包括: 
关键词确定单元,用于获取同一领域内的多个关键词; 
点击网页获取单元,用于获取多个关键词分别对应的被点击网页; 
局部信息统计单元,用于分别统计各网站内的所述被点击网页的局部信息,所述被点击网页的局部信息具体:是网页被点击的次数和点击的用户数,或者是被点击的网页数和点击的用户数,或者是网页被点击的次数、被点击的网页数、以及点击的用户数这三者; 
网站确定单元,用于根据所述局部信息确定对应所述领域的权威网站。 
优选地,所述装置还包括: 
存储单元,用于实时存储用户的查询信息,所述查询信息包括:查询词、查询时间、查询用户、被点击网页; 
全局信息统计单元,用于根据所述查询信息统计全局信息,所述全局信息包括:每个网站内被点击网页的数量、网站内被点击网页对应的所有查询词的数量、网站内被点击网页对应的所有查询词的查询量; 
所述点击网页获取单元根据所述用户的查询信息及所述全局信息获取所述领域内的关键词对应的被点击网页。 
优选地,所述网站确定单元包括: 
计算子单元,用于根据所述局部信息计算对应各网站的判决参数; 
判决子单元,用于在所述判决参数超过设定的阈值时,将对应该判决参数的网站设定为权威网站。 
所述判决参数包括: 
所述领域内某网站中网页被点击数与所述领域内所有网站中网页被点击数的比值;和/或 
所述领域内某网站中被点击网页数与所述领域内所有网站被点击的网页数的比值。 
优选地,所述装置还包括: 
过滤单元,用于在所述局部信息统计单元统计各网站内的所述被点击网页的局部信息之前,对所述网页进行过滤; 
所述对网页进行过滤包括: 
过滤掉同一个用户多次查询相同查询词点击的多个网页;和/或 
过滤掉对应所述查询词在短期内爆发式查询点击的多个网页。 
优选地,所述关键词确定单元包括: 
权威网站选取子单元,用于为所述领域选取一个权威网站; 
查询词集合获取子单元,用于获取点击所述权威网站下网页的查询词集合; 
关键词生成子单元,用于通过滤所述查询词集合,确定所述领域内的关键词。 
优选地,所述关键词生成子单元按以下方式确定所述领域内的关键词: 
如果查询词对应的被点击网站中所述领域权威网站的数量与该领域已知权威网站的数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;和/或 
如果查询词对应的被点击网站中所述领域权威网站的数量与所述查询词对应的被点击网站数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;和/或 
如果查询词对应的被点击网站中属于所述领域权威网站的数量与查询词对应的被点击网页数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词。 
优选地,所述网站确定单元还包括: 
反馈子单元,用于判断是否需要进行迭代处理,如果需要,则将确定的对应所述领域的权威网站反馈给所述关键词确定单元; 
所述关键词确定单元对确定的对应所述领域的权威网站下网页的查询词集合进行过滤,重新确定所述领域内的关键词。 
可选地,所述反馈子单元按以下方式判断是否需要进行迭代处理: 
如果迭代处理过程中确定的权威网站连续一致的次数超过预定的一致次数阈值,则终止迭代处理;或者 
如果迭代处理次数超过预定的迭代次数阈值,则终止迭代处理。 
由以上本发明提供的技术方案可以看出,本发明确定权威网站的方法及装置,通过确定需要发现权威网站的领域及所述领域内的关键词;获取所述领域内的关键词对应的被点击网页;分别统计各网站内的所述被点击网页的局部信息;根据所述局部信息确定对应所述领域的权威网站。能够自动发现并向用户提供各领域的权威网站,更新周期短,不需要人工编辑,大大节省了人力资源成本。 
进一步地,对确定的某领域的权威网站进行迭代处理,可以使最终确定的权威网站更准确可靠。 
附图说明
图1是本发明实施例确定权威网站的方法的一种实现流程图; 
图2是本发明实施例确定权威网站的方法的另一种实现流程图; 
图3是本发明实施例确定权威网站的装置的一种结构示意图; 
图4是本发明实施例确定权威网站的装置的另一种结构示意图。 
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。 
本技术领域人员知道,不同的领域有不同的权威网站。领域是一个多层次的概念,譬如说体育是一个领域,这个领域内有多个子领域,譬如:游泳、田径、足球、篮球、排球、举重等等。体育领域的权威网站并不一定是这些子领域的权威网站,同样,这些子领域的权威网站也不一定是体育领域的权威网站。比如,http://sports.sohu.com/是网站,而http://sports.sohu.com/baseball/是站点内的目录。权威网站中“网站”的概念是可以扩展的,不仅仅是站点,还可以是站点下的某个目录页面。以体育领域和它的子领域为例,http://sports.sohu.com/是体育领域的权威网站,同时它的目录页面http://sports.sohu.com/baseball/是棒球子领域的权威网站。 
本文中下述内容,除非特殊说明,所述权威网站的涵义包括站点和站点下目录页面。 
通常,用户使用搜索引擎的过程包括:用户输入查询词,浏览查询结果,点击查询结果等。用户的行为反映了用户对搜索结果是否满足需求的判断,用户会选择和查询意图相关的网页,而且,用户会优先选择他心目中权威可靠的站点下的网页。 
在实现本发明的过程中,通过分析查询词和被点击的查询结果也证实了该推断:即针对某个领域的查询词,点击量主要分布在与该领域相关的网站内,而且集中在与该领域相关的权威网站内;而且,点击各领域内权威网站内网页的查询词,基本上也都是这些查询词。 
可见,各领域内的查询词与该领域内的权威网站之间存在这样的联系: 
通过某领域内的查询词可以获取该领域内的权威网站;同样,通过某领域 内的权威网站也可以得到该领域内的查询词。 
为此,本发明实施例确定权威网站的方法通过确定需要发现权威网站的领域及所述领域内的关键词;获取所述领域内的关键词对应的被点击网页;分别统计各网站内的所述被点击网页的局部信息;根据所述局部信息确定对应所述领域的权威网站。从而无需人工编辑,即可自动发现各领域的权威网站。 
如图1所示,是本发明实施例确定权威网站的方法的一种实现流程图,主要包括以下步骤: 
步骤101,获取同一领域内的多个关键词。 
可以为每个领域选择几个关键词,比如选择10个;也可以给每个领域选择一个权威网站,由前面的分析可知,通过该权威网站可以得到该领域内的查询词集合,然后对该查询词集合进行过滤,得到所述关键词,具体过程将在后面详细说明。 
步骤102,获取所述多个关键词分别对应的被点击网页。 
在用户进行查询行为时,可以实时存储用户的查询信息,比如:查询词、查询时间、查询用户、被点击网页等信息;根据这些查询信息可以统计出全局信息,所述全局信息包括:每个网站内被点击网页的数量、网站内被点击网页对应的所有查询词的数量、网站内被点击网页对应的所有查询词的查询量等信息。这样,根据该用户的这些查询信息及全局信息,即可得到该领域内的每个关键词对应的被点击网页,以供后续分析。 
步骤103,分别统计各网站内的所述被点击网页的局部信息。 
步骤104,根据所述局部信息确定对应所述领域的权威网站。 
步骤105,将确定的权威网站提供给用户。 
所述被点击网页的局部信息,可以是网页被点击的次数和点击的用户数,也可以是被点击的网页数和点击的用户数,还可以是网页被点击的次数、被点击的网页数、以及点击的用户数这三者。当然,本发明实施例也不排除其他方式的信息记录。 
由于某个领域的权威网站首先必须是以该领域内容为核心的网站,也就是说,查询和点击访问该网站下网页的查询词,应该主要是该领域的查询词。因此,可以使用以下特征来判断某网站是否是以该领域为核心内容的网站:
某领域内某网站中网页被点击数与对应所有查询词该网站中网页被点击数的比值;和/或 
某领域内某网站中被点击网页数与对应所有查询词该网站中被点击的网页数。 
权威网站和非权威网站的区别主要表现在:在查询该领域查询词时,权威网站下的网页被点击的可能性远高于非权威网站,因此,可以根据以上特征设定权威网站的判决参数,根据设定的判决参数来确定某个网站是否为权威网站。 
具体地,在本发明方法实施例中,在根据所述局部信息确定对应所述领域的权威网站时,首先根据所述局部信息计算对应各网站的判决参数;然后根据该判决参数来确定所述网站是否为权威网站。 
可以使用以下判决参数来确定该网站是否是某领域的权威网站,也就是说,是否为对应该领域的权威网站: 
某领域内某网站中网页被点击数/该领域内所有网站中网页被点击数;和/或 
某领域内某网站中被点击网页数/该领域内所有网站被点击的网页数。 
当设有多个判决参数时,对应每一个判决参数,可以通过实验选择一个合适的阈值,如果所述判决参数超过设定的阈值,则将对应该判决参数的网站设定为权威网站。 
对应不同判决参数的阈值可以相同,也可以不同。当设有多个判决参数时,可以选择任何一个判决参数超过对应的阈值,即判决相应的网站为权威网站,也可以选择所有判决参数均超过对应的阈值,才判断相应的网站为权威网站。在应用时,可以根据具体的应用环境来选择。 
利用本发明实施例的方法,可以自动发现权威网站,无需人工编辑,有效地节省了人力资源成本。 
为了防止网络中的恶意点击行为,进一步保证向用户提供的权威网站的准确性,还可以在上述步骤102和步骤103之间增加过滤的步骤,即在统计各网站内的所述被点击网页的局部信息之前,对所述网页进行过滤。 
由于大多数搜索引擎都利用用户的点击行为提高搜索引擎的检索效果,因 而有人会利用搜索引擎的这个特点,恶意搜索并点击某些网页,以试图提高这些网页的搜索排序位置。因此本发明实施例中,还可以将这些恶意局部信息过滤掉,以提高对权威网站判决的准确性。 
恶意局部信息一般具有以下某个特征: 
(1)同一个用户(以IP地址来标识)多次查询相同关键词并点击某个或某几个网页; 
(2)某一个查询词在短时期内爆发式查询并点击某个或某几个网页。 
因此,可以利用这些特征,过滤恶意的局部信息,保证局部信息的可靠性。在本发明实施例中,具体地,对所述对网页进行过滤包括:过滤掉同一个用户多次查询相同查询词点击的多个网页;和/或,过滤掉对应所述查询词在短期内爆发式查询点击的多个网页。 
为了进一步保证向用户提供的权威网站的准确性,还可以进行迭代处理,对确定的对应所述领域的权威网站下网页的查询词集合进行过滤,重新确定所述领域内的关键词,根据重新确定的所述领域内的关键词进行迭代处理,重新确定对应所述领域的权威网站,当迭代处理满足设定的终止条件后,根据迭代结果确定对应所述领域的权威网站,并提供给用户。 
如图2所示,是本发明实施例确定权威网站的方法的另一种实现流程图: 
其中,步骤201至步骤204与图1所示实施例中的步骤101至步骤104相同,在此不再详细描述。除此之外,还包括以下步骤: 
步骤205,判断是否进行迭代处理;如果是,则执行步骤206;否则,执行步骤208。 
迭代结束可以有以下两种情况: 
一是权威网站数量达到稳定,以前后连续预定次(一致次数阈值)迭代过程发现的权威网站一致作为判断标准; 
二是迭代达到了一定次数,可以预先估计的一个数值(迭代次数阈值)。 
符合其中一个条件,迭代将结束。 
步骤206,获取确定的权威网站下网页的查询词集合。 
步骤207,通过过滤所述查询词集合,重新确定所述领域内的关键词。然后,返回步骤202。
某个特定领域内的查询词具有以下特点: 
(1)对应该查询词,用户点击了多个该领域权威网站下的网页,而不仅仅是某个权威网站下的网页; 
(2)对应该查询词,用户点击的主要是该领域权威网站下的页面。 
因此根据这些特点,可以构造如下三个特征用以识别一个查询词是否是某个特定领域的查询词: 
查询词对应的被点击网站中某领域权威网站的数量/该领域已知权威网站的数量; 
查询词对应的被点击网站中某领域权威网站的数量/查询词对应的被点击网站数量; 
查询词对应的被点击网页中属于某领域权威网站的数量/查询词对应的被点击网页数量; 
如果上述三个比值中任何一个或多个大于设定的一个阈值(第一阈值),则认为所述查询词为所述领域内的关键词。 
过滤后的查询词,用于下一轮迭代。 
步骤208,根据迭代结果确定权威网站,并提供给用户。 
基于上述步骤207中确定某领域内关键词的方法,在步骤201中,也就是说,在最初确定某领域内关键词时,也可以参照上述方法。首先,为所述领域选取一个权威网站,也就是说,预设一个该领域内的权威网站,获取点击所述权威网站下网页的查询词集合;通过滤所述查询词集合,确定所述领域内的关键词。 
同样,为了防止网络中的恶意点击行为,进一步保证向用户提供的权威网站的准确性,还可以在上述步骤202和步骤203之间增加过滤的步骤,即在统计各网站内的所述被点击网页的局部信息之前,对所述网页进行过滤。具体过滤过程可参照前面的描述。 
利用本发明实施例的方法,可以自动发现权威网站,无需人工编辑,有效地节省了人力资源成本。而且,权威网站的准确性较高。 
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可 读取存储介质中,所述的存储介质,如:ROM/RAM、磁碟、光盘等。 
相应地,本发明实施例还提供了一种确定权威网站的装置,可以自动发现各领域内的权威网站,使搜索引擎或者其他互联网用户获取信息的工具或渠道可以利用该权威网站信息向用户提供更权威可信、及时全面的信息。 
如图3所示,是本发明实施例确定权威网站的装置的一种结构示意图: 
该装置包括:关键词确定单元302、点击网页获取单元303、局部信息统计单元304和网站确定单元305。还可进一步包括:存储单元306和全局信息统计单元307。其中: 
关键词确定单元302,用于获取同一领域内的多个关键词;点击网页获取单元303,用于获取所述多个关键词分别对应的被点击网页;局部信息统计单元304,用于分别统计各网站内的所述被点击网页的局部信息;网站确定单元305,用于根据所述局部信息确定对应所述领域的权威网站。 
存储单元306,用于实时存储用户的查询信息,所述查询信息包括:查询词、查询时间、查询用户、被点击网页;全局信息统计单元307,用于根据所述查询信息统计全局信息,所述全局信息包括:每个网站内被点击网页的数量、网站内被点击网页对应的所有查询词的数量、网站内被点击网页对应的所有查询词的查询量。 
这样,点击网页获取单元303就可以根据所述用户的查询信息及所述全局信息获取所述领域内的关键词对应的被点击网页。 
所述网站确定单元305包括:计算子单元351和判决子单元352。其中:计算子单元351,用于根据所述局部信息计算对应各网站的判决参数;判决子单元352,用于在所述判决参数超过设定的阈值时,将对应该判决参数的网站设定为权威网站。 
其中,所述被点击网页的局部信息包括:网页被点击的次数和/或被点击的网页数、以及点击的用户数; 
所述判决参数包括:所述领域内某网站中网页被点击数与所述领域内所有网站中网页被点击数的比值;和/或 
所述领域内某网站中被点击网页数与所述领域内所有网站被点击的网页数的比值。
为了防止网络中的恶意点击行为,进一步保证向用户提供的权威网站的准确性,还可以在图3所示的点击网页获取单元303和局部信息统计单元304之间增加过滤单元(图中未示),在统计各网站内的所述被点击网页的局部信息之前,对所述网页进行过滤,过滤掉所述被点击网页中的恶意局部信息。具体地,针对恶意局部信息的特点,过滤掉同一个用户多次查询相同查询词点击的多个网页;和/或过滤掉对应所述查询词在短期内爆发式查询点击的多个网页。 
利用本发明实施例的装置,可以自动发现权威网站,无需人工编辑,有效地节省了人力资源成本。具体过程可参照图1所示本发明实施例的方法中的描述。 
如图4所示,是本发明实施例确定权威网站的装置的另一种结构示意图。 
与图3所示实施例不同的是,在该实施例中,网站确定单元406不仅包括计算子单元451和判断子单元452,还包括了反馈子单元453。其中,计算子单元451和判断子单元452与图3所示实施例中计算子单元351和判断子单元352相同。反馈子单元453,用于判断是否需要进行迭代处理,如果需要,则将确定的对应所述领域的权威网站反馈给关键词确定单元402。所述反馈子单元453可以按以下方式判断是否需要进行迭代处理: 
如果迭代处理过程中确定的权威网站连续一致的次数超过预定的一致次数阈值,则终止迭代处理;或者 
如果迭代处理次数超过预定的迭代次数阈值,则终止迭代处理。 
在该实施例中,关键词确定单元402,用于对确定的对应所述领域的权威网站下网页的查询词集合进行过滤,重新确定所述领域内的关键词。其包括:权威网站选取子单元421、查询词集合获取子单元422和关键词生成子单元423。其中: 
权威网站选取子单元421,用于为所述领域选取一个权威网站;查询词集合获取子单元422,用于获取点击所述权威网站下网页的查询词集合;关键词生成子单元423,用于通过滤所述查询词集合,确定所述领域内的关键词。 
所述关键词生成子单元423按以下方式确定所述领域内的关键词: 
如果查询词对应的被点击网站中所述领域权威网站的数量与该领域已知 权威网站的数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;和/或 
如果查询词对应的被点击网站中所述领域权威网站的数量与所述查询词对应的被点击网站数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;和/或 
如果查询词对应的被点击网站中属于所述领域权威网站的数量与查询词对应的被点击网页数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词。 
该实施例的装置,通过迭代处理,对确定的对应所述领域的权威网站下网页的查询词集合进行过滤,重新确定所述领域内的关键词,根据重新确定的所述领域内的关键词进行迭代处理,重新确定对应所述领域的权威网站,当迭代处理满足设定的终止条件后,根据迭代结果确定对应所述领域的权威网站,可以进一步保证向用户提供的权威网站的准确性。 
同样,为了防止网络中的恶意点击行为,进一步保证向用户提供的权威网站的准确性,也可以在图4所示的点击网页获取单元303和局部信息统计单元304之间增加过滤单元(图中未示),在统计各网站内的所述被点击网页的局部信息之前,对所述网页进行过滤,过滤掉所述被点击网页中的恶意局部信息。具体地,针对恶意局部信息的特点,过滤掉同一个用户多次查询相同查询词点击的多个网页;和/或过滤掉对应所述查询词在短期内爆发式查询点击的多个网页。 
需要说明的是,图3所示实施例的装置中,关键词确定单元302在确定关键词时,可以直接选定几个所述领域内的关键词,也可以按照图4所示实施例的装置中与关键词确定单元402类似的处理方式,给每个领域预先标注一个权威网站,获取点击所述权威网站下网页的查询词集合,然后通过滤所述查询词集合,确定所述领域内的关键词。 
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的装置及方法;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (13)

1.一种确定权威网站的方法,其特征在于,包括:
搜索引擎获取同一领域内的多个关键词;
获取所述多个关键词分别对应的被点击网页;
分别统计各网站内的所述被点击网页的局部信息,所述被点击网页的局部信息具体:是网页被点击的次数和点击的用户数,或者是被点击的网页数和点击的用户数,或者是网页被点击的次数、被点击的网页数、以及点击的用户数这三者;
根据所述局部信息确定对应所述领域的权威网站;
对确定的对应所述领域的权威网站下网页的查询词集合进行过滤,重新确定所述领域内的关键词;具体包括:如果所述查询词集合中的查询词对应的被点击网站中所述领域权威网站的数量与该领域已知权威网站的数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;和/或如果所述查询词集合中的查询词对应的被点击网站中所述领域权威网站的数量与所述查询词对应的被点击网站数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;和/或如果所述查询词集合中的查询词对应的被点击网站中属于所述领域权威网站的数量与查询词对应的被点击网页数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;
根据重新确定的所述领域内的关键词进行迭代处理,重新确定对应所述领域的权威网站;
当迭代处理满足设定的终止条件后,根据迭代结果确定对应所述领域的权威网站。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
实时存储用户的查询信息,所述查询信息包括:查询词、查询时间、查询用户、被点击网页;
根据所述查询信息统计全局信息,所述全局信息包括:每个网站内被点击网页的数量、网站内被点击网页对应的所有查询词的数量、网站内被点击网页对应的所有查询词的查询量;
所述获取所述领域内的关键词对应的被点击网页包括:
根据所述用户的查询信息及所述全局信息获取所述关键词对应的被点击网页。
3.根据权利要求1所述的方法,其特征在于,所述根据所述局部信息确定对应所述领域的权威网站包括:
根据所述局部信息计算对应各网站的判决参数;
如果所述判决参数超过设定的阈值,则将对应该判决参数的网站设定为权威网站。
4.根据权利要求3所述的方法,其特征在于,
所述判决参数包括:
所述领域内某网站中网页被点击数与所述领域内所有网站中网页被点击数的比值;和/或
所述领域内某网站中被点击网页数与所述领域内所有网站被点击的网页数的比值。
5.根据权利要求4所述的方法,其特征在于,当所述判决参数有多个时,对应每个判决参数都设置有一个阈值。
6.根据权利要求1至5任一项所述的方法,其特征在于,还包括:
在统计各网站内的所述被点击网页的局部信息之前,对所述网页进行过滤;所述对网页进行过滤包括:
过滤掉同一个用户多次查询相同查询词点击的多个网页;和/或
过滤掉对应所述查询词在短期内爆发式查询点击的多个网页。
7.根据权利要求1所述的方法,其特征在于,设定的终止条件包括:
如果迭代处理过程中确定的权威网站连续一致的次数超过预定的一致次数阈值,则终止迭代处理;或者
如果迭代处理次数超过预定的迭代次数阈值,则终止迭代处理。
8.一种确定权威网站的装置,其特征在于,包括:关键词确定单元,点击网页获取单元,局部信息统计单元,网站确定单元;
所述关键词确定单元,用于获取同一领域内的多个关键词;
所述点击网页获取单元,用于获取多个关键词分别对应的被点击网页;
所述局部信息统计单元,用于分别统计各网站内的所述被点击网页的局部信息,所述被点击网页的局部信息具体:是网页被点击的次数和点击的用户数,或者是被点击的网页数和点击的用户数,或者是网页被点击的次数、被点击的网页数、以及点击的用户数这三者;
所述网站确定单元,用于根据所述局部信息确定对应所述领域的权威网站;
反馈子单元,用于判断是否需要进行迭代处理,如果需要,则将确定的对应所述领域的权威网站反馈给所述关键词确定单元;
所述关键词确定单元对确定的对应所述领域的权威网站下网页的查询词集合进行过滤,重新确定所述领域内的关键词,具体包括:如果所述查询词集合中的查询词对应的被点击网站中所述领域权威网站的数量与该领域已知权威网站的数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;和/或如果所述查询词集合中的查询词对应的被点击网站中所述领域权威网站的数量与所述查询词对应的被点击网站数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词;和/或如果所述查询词集合中的查询词对应的被点击网站中属于所述领域权威网站的数量与查询词对应的被点击网页数量的比值大于设定的第一阈值,则确定所述查询词为所述领域内的关键词。
9.根据权利要求8所述的装置,其特征在于,还包括:
存储单元,用于实时存储用户的查询信息,所述查询信息包括:查询词、查询时间、查询用户、被点击网页;
全局信息统计单元,用于根据所述查询信息统计全局信息,所述全局信息包括:每个网站内被点击网页的数量、网站内被点击网页对应的所有查询词的数量、网站内被点击网页对应的所有查询词的查询量;
所述点击网页获取单元根据所述用户的查询信息及所述全局信息获取所述领域内的关键词对应的被点击网页。
10.根据权利要求8所述的装置,其特征在于,所述网站确定单元包括:
计算子单元,用于根据所述局部信息计算对应各网站的判决参数;
判决子单元,用于在所述判决参数超过设定的阈值时,将对应该判决参数的网站设定为权威网站。
11.根据权利要求10所述的装置,其特征在于,
所述判决参数包括:
所述领域内某网站中网页被点击数与所述领域内所有网站中网页被点击数的比值;和/或
所述领域内某网站中被点击网页数与所述领域内所有网站被点击的网页数的比值。
12.根据权利要求8至11任一项所述的装置,其特征在于,还包括:
过滤单元,用于在所述局部信息统计单元统计各网站内的所述被点击网页的局部信息之前,对所述网页进行过滤;
所述对网页进行过滤包括:
过滤掉同一个用户多次查询相同查询词点击的多个网页;和/或
过滤掉对应所述查询词在短期内爆发式查询点击的多个网页。
13.根据权利要求8所述的装置,其特征在于,所述反馈子单元按以下方式判断是否需要进行迭代处理:
如果迭代处理过程中确定的权威网站连续一致的次数超过预定的一致次数阈值,则终止迭代处理;或者
如果迭代处理次数超过预定的迭代次数阈值,则终止迭代处理。
CN2008102251780A 2008-10-30 2008-10-30 确定权威网站的方法及装置 Active CN101383730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102251780A CN101383730B (zh) 2008-10-30 2008-10-30 确定权威网站的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102251780A CN101383730B (zh) 2008-10-30 2008-10-30 确定权威网站的方法及装置

Publications (2)

Publication Number Publication Date
CN101383730A CN101383730A (zh) 2009-03-11
CN101383730B true CN101383730B (zh) 2012-01-25

Family

ID=40463367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102251780A Active CN101383730B (zh) 2008-10-30 2008-10-30 确定权威网站的方法及装置

Country Status (1)

Country Link
CN (1) CN101383730B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411577A (zh) * 2010-09-25 2012-04-11 百度在线网络技术(北京)有限公司 一种用于基于标杆对推广关键词进行分析的方法与设备
CN102663054B (zh) * 2012-03-29 2015-08-12 天津奇思科技有限公司 一种确定网站权重的方法及装置
CN104408175B (zh) * 2014-12-12 2017-11-10 北京奇虎科技有限公司 识别网页类型的方法和装置
CN106886534A (zh) * 2015-12-16 2017-06-23 北京奇虎科技有限公司 确定权威网页的方式及装置
CN107577827B (zh) * 2017-10-30 2019-10-22 北京国舜科技股份有限公司 一种互联网信息评级的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1337642A (zh) * 2000-08-04 2002-02-27 拓墣科技股份有限公司 数字文件关键特征的自动撷取方法
CN1389811A (zh) * 2002-02-06 2003-01-08 北京造极人工智能技术有限公司 搜索引擎的智能化搜索方法
CN1395206A (zh) * 2002-08-23 2003-02-05 北京大学 一种收集、分析和提供网上信息的方法和系统
CN101038596A (zh) * 2007-04-29 2007-09-19 北京搜狗科技发展有限公司 一种网站分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1337642A (zh) * 2000-08-04 2002-02-27 拓墣科技股份有限公司 数字文件关键特征的自动撷取方法
CN1389811A (zh) * 2002-02-06 2003-01-08 北京造极人工智能技术有限公司 搜索引擎的智能化搜索方法
CN1395206A (zh) * 2002-08-23 2003-02-05 北京大学 一种收集、分析和提供网上信息的方法和系统
CN101038596A (zh) * 2007-04-29 2007-09-19 北京搜狗科技发展有限公司 一种网站分类方法及系统

Also Published As

Publication number Publication date
CN101383730A (zh) 2009-03-11

Similar Documents

Publication Publication Date Title
US11163802B1 (en) Local search using restriction specification
Wu et al. Identifying link farm spam pages
Chirita et al. Using ODP metadata to personalize search
US8554759B1 (en) Selection of documents to place in search index
US8555172B2 (en) Method, system, and computer readable medium for managing resource links
KR101225467B1 (ko) 웹사이트의 웹 페이지들과 같은, 관계된 웹 페이지들간의 유용한 정보 전파
US20090006388A1 (en) Search result ranking
JP5268073B2 (ja) ブックマークおよびランク付け
US20110246457A1 (en) Ranking of search results based on microblog data
US20050210149A1 (en) Method, system, and computer useable medium to facilitate name preservation across an unrestricted set of TLDS
CN106663100B (zh) 多域查询补全
CN108304444A (zh) 信息查询方法及装置
CN102314443B (zh) 搜索引擎的修正方法和系统
WO2006007229A1 (en) Method and apparatus for retrieving and indexing hidden web pages
CN101383730B (zh) 确定权威网站的方法及装置
CN102930059A (zh) 一种聚焦爬虫的设计方法
Baeza-Yates Web usage mining in search engines
WO2009000174A1 (fr) Procédé et dispositif de classement de pages web
US20090265321A1 (en) Internet book marking and search results delivery
WO2013025828A1 (en) Synthesizing directories, domains, and subdomains
CN101382954A (zh) 提供网址收藏名称的方法及系统
CN104077392B (zh) 一种搜索建议提示方法及装置
CN104899215A (zh) 数据处理方法、推荐源信息组织和信息推荐方法及装置
US20100174719A1 (en) System, method, and program product for personalization of an open network search engine
WO2009026045A1 (en) Method and apparatus for generating search keys based on profile information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant