CN101246499B - 网络信息搜索方法及系统 - Google Patents

网络信息搜索方法及系统 Download PDF

Info

Publication number
CN101246499B
CN101246499B CN2008100880294A CN200810088029A CN101246499B CN 101246499 B CN101246499 B CN 101246499B CN 2008100880294 A CN2008100880294 A CN 2008100880294A CN 200810088029 A CN200810088029 A CN 200810088029A CN 101246499 B CN101246499 B CN 101246499B
Authority
CN
China
Prior art keywords
module
hot speech
search
term
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008100880294A
Other languages
English (en)
Other versions
CN101246499A (zh
Inventor
胡景贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2008100880294A priority Critical patent/CN101246499B/zh
Publication of CN101246499A publication Critical patent/CN101246499A/zh
Application granted granted Critical
Publication of CN101246499B publication Critical patent/CN101246499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络信息搜索方法及系统,方法包括:A、确定热词及其相关词;B、根据从网络上抓取的网页信息建立索引;在建立索引的过程中,根据所述热词及其相关词的在网页信息中的出现情况,增加对应网页信息的排序权重;C、根据输入的检索词从所述索引中搜索出与该检索词匹配的网页信息,按照排序权重排序输出搜索结果。所述系统包括:热词记录模块、索引建立模块、排序加权模块、前台模块、以及搜索模块。利用本发明,可以有效地提升针对热点信息的搜索准确度,提高了搜索引擎的搜索效率,对于热词的歧义排除效果也比较显著。

Description

网络信息搜索方法及系统
技术领域
本发明涉及互联网的搜索引擎技术,尤其涉及一种网络信息搜索方法以及网络信息搜索系统。
背景技术
网络搜索引擎是目前互联网上使用频繁的一种服务系统。网络搜索引擎集中了千千万万个站点的信息,主要功能是帮助用户搜索这些站点,还会将一些好的站点进行分类,以方便用户查找相关资料。
目前大部分搜索引擎,包括网页搜索引擎、新闻搜索引擎,都具备相当的热点敏感度。所述热点是指在一段时间内受用户关注程度较高的信息,在一段时间内广为人知,具有很强的实效性和暂时性,同时经过一段时间后将被其它信息埋没,受关注程度会急剧下降。代表一个热点信息的词语或者与热点信息有较强关系的词语称为热点相关检索词,本文简称为热词。具备热点敏感特性功能的搜索引擎也可以称为热点敏感搜索引擎,例如新闻搜索引擎、论坛搜索引擎等,这些搜索引擎的搜索结果实时性较强,针对当前的热点可以调整搜索结果排序,将热点相关信息在搜索结果中的排序提前。
目前的搜索引擎为了在搜索结果中快速展现热点信息,一般使用的方法是:加快创建索引的频率,增加内存索引,以保证搜索引擎能够将最新的热点信息收录进去。其搜索结果的展现方式一般为按时间排序或按相关性排序,有些搜索引擎针对热点信息,加强了时间信息在相关性排序中的权重,同时对热词增加权重,以提前热点信息在搜索结果中的排序。
但是,上述现有技术存在以下缺陷:
按时间排序会降低相关性的力度,只能把最新的文档(图片等)提前,不能将其中的热点更加突出;而按照相关性排序,又弱化了实效性。所以不论按时间排序还是按相关性排序的搜索结果都不能准确地反映当前的热点信息;并且,当热词具备歧义的时候,无论是按时间排序还是按相关性排序,还是进一步增加热词在排序中的权重,都不能准确地将热点信息与其他信息剥离开。例如在某一段时间内名称为“苹果”的一部电影受关注的程度非常高,那么“苹果”这个词在这一段时间内就是一个热词。但是“苹果”不仅仅是一部电影名,其本义是一种水果,而且还有其它含义,例如有一家电子消费品公司的名称也叫“苹果”。那么“苹果”这个热词就会出现多种歧义,导致最终的搜索结果中不是用户所要查找的那部热门的电影信息,或者即使搜索出该电影信息但是排序太靠后,从而影响热点信息的搜索精度。
总之,现有技术对热点信息的搜索准确度较低。
发明内容
有鉴于此,本发明所要解决的技术问题在于提供一种网络信息搜索方法,以提高对热点信息的搜索准确度。
本发明所要解决的另一技术问题在于提供一种网络信息搜索系统,以提高对热点信息的搜索准确度。
为了实现上述发明目的,本发明的主要技术方案为:
一种网络信息搜索方法,包括:
A、确定热词及其相关词;
B、从网络上抓取网页,根据所述热词及其相关词的在网页信息中的出现情况评价对应网页的热度;
建立索引,在建立索引的过程中根据网页热度对相应网页信息的排序权重进行相应的加权处理,并在所建立的索引中进行热词及其相关词的与查询,缓存所述与查询的查询结果;
C、根据输入的检索词从所述索引中搜索出与该检索词匹配的网页信息,按照排序权重排序输出搜索结果;
输入的检索词包括步骤A所确定的热词或其相关词时,从所缓存的查询结果中检索出与该检索词匹配的查询结果,并将该检索结果拼装在所述针对索引的搜索结果之前输出;
其中,输入的检索词包括两个或两个以上热词和/或热词相关词时,从所缓存的查询结果中进行与查询操作,且在与查询的权重排序中,有热词权重提前时,单独使用该热词权重作为对应网页的整体权重进行排序。
优选的,步骤A中,进一步设置更新周期,在每个更新周期内更新确定本周期内的热词及其相关词。
优选的,步骤B中所述根据所述热词及其相关词的在网页信息中的出现情况评价对应网页热度的具体方法为:根据所述热词的热度高低,对包含该热词的网页信息评价出对应的热度值;将同时包含热词及其相关词的网页信息进一步增加热度值。
优选的,步骤B中进一步包括:分析所述热词在对应网页中的出现位置,根据该出现位置的热点级别对当前网页信息热度值进行对应的评价处理。
优选的,在输出最终的搜索结果之前,进一步包括:将所述针对索引的搜索结果中与所述检索结果相同的信息过滤掉。
一种网络信息搜索系统,该系统包括:
热词记录模块,用于记录热词及其相关词;
索引建立模块,用于从网络上抓取网页信息并建立索引;
所述索引建立模块中包括排序加权模块,用于根据所述热词记录模块记录的热词及其相关词的在所抓取网页中的出现情况评价对应网页的热度,在建立索引过程中根据网页热度对相应网页信息的排序权重进行相应的加权处理;
前台模块,用于检测检索词,将检索词发送给搜索模块,显示搜索模块返回的搜索结果;
搜索模块,用于根据输入的检索词从所述索引建立模块建立的索引中搜索出与该检索词匹配的网页信息,按照排序权重排序输出搜索结果给前台模块;
热词预搜索装置,包括:与查询模块,用于在所述索引建立模块建立的索引中进行热词及其相关词的与查询;其中,输入的检索词包括两个或两个以上热词和/或热词相关词时,从缓存的查询结果中进行与查询操作,且在与查询的权重排序中,有热词权重提前时,单独使用该热词权重作为对应网页的整体权重进行排序;
缓存模块,用于缓存所述与查询的查询结果;
搜索控制模块,用于判断所述前台模块输入的检索词,当所述检索词中包括所述热词记录模块中的热词或其相关词时,将检索词发送给检索模块和搜索模块,将检索模块返回的结果拼装在搜索模块的搜索结果之前,并将拼装结果返回给前台模块;
检索模块,用于从缓存的查询结果中检索出与该检索词匹配的查询结果并将检索结果返回给搜索控制模块。
优选的,所述排序加权模块具体包括:
热词评价模块,用于根据热词的热度和或出现位置评价包含该热词的网页的热度;
热词及其相关词共现评价模块,用于将同时包含热词及其相关词的网页进一步增加热度值;
热度加权处理模块,用于在建立索引的过程中根据网页的热度对网页信息的排序权重进行加权处理。
优选的,所述搜索控制模块中进一步包括过滤模块,用于将搜索模块的搜索结果中与所述检索模块的检索结果相同的信息过滤掉。
由于本发明的搜索引擎不但需要先确定热词及其热度信息,还需要确定热词的相关词,然后在生成索引的过程中,根据热词热度信息及其相关词对索引中的热点信息的排序进行加权,使热点信息的排序提前,从而在后续搜索时,一旦遇到热词搜索,则可以将对应的热点信息优先输出排序,从而非常有效地提升针对热点信息的搜索准确度,提高了搜索引擎的搜索效率。由于预先确定了热词的相关词,因此本发明对于热词的歧义排除效果较现有技术有了极大的改善,从而可以非常容易地搜索并优先排序出热点信息。
本发明简单易行,大部分搜索引擎都可以使用该方法快速实现对热点信息的优先排序,不但不会降低搜索系统的检索性能,而且还可以提高搜索引擎的效率。
附图说明
图1为本发明所述方法的一种实施例的流程图;
图2为本发明所述方法的另一种实施例的流程图;
图3为本发明所述网络信息搜索系统的结构示意图;
图4为本发明所述热词预搜索装置的结构示意图。
具体实施方式
下面通过具体实施例和附图对本发明做进一步详细说明。
本发明的核心技术方案为:一种网络信息搜索方法,包括:A、分析确定热词及其热度;B、根据从网络上抓取的网页信息建立索引;在建立索引的过程中,根据所述热词及其相关词的在网页信息中的出现情况,增加对应网页信息的排序权重;C、根据输入的检索词从所述索引中搜索出与该检索词匹配的网页信息,按照排序权重排序输出搜索结果。
图1为本发明所述方法的一种实施例的流程图。参见图1的左半部分,是热词分析以及索引建立的过程,主要包括:
步骤100、分析确定热词及其热度并进行记录。
具体的,热词的确定方法可以有多种。例如此处可以根据搜索引擎的现有搜索日志,统计搜索日志中所记录各个检索词的检索次数,根据检索词的检索次数判断都有哪些检索词为热词,并记录该热词。本实施例中可以预先设置热词的检索次数门限值,如果某个检索词的搜索次数达到该门限值,则该检索词为热词。再如也可以通过对某段时间内的互联网网页内容进行提取,计算出其中出现频率最高的词作为热词进行记录。再如,也可以通过人工审核的方式确定某一时间段内的热词。
所述热词的热度可以一个评分值,具体根据该热词的检索次数、在网页中的出现频率、或者其出现位置进行确定,检索次数越多、出现频率越高、或者出现位置在网页中越显著,则其热度的分值越高。
步骤101、分析确定热词相关词并进行记录。所述热词相关词就是与该热词对应出现的一些关键词。
例如在某一段时间内名称为“苹果”的一部电影受关注的程度非常高,那么“苹果”这个词在这一段时间内就是一个热词。但是“苹果”不仅仅是一部电影名,其本义是一种水果的名称,而且还有其它含义,例如有一家电子消费品公司的名称也叫“苹果”。所以还需要确定“苹果”这个热词的相关词,该相关词之所以称为热词相关词,是因为在网页的客观显示规律上该相关词与所述的热词一般是同时出现的。例如此处“苹果”这个热词的相关词与电影有关,则其相关词可能包括“电影”、该电影的女主角名字例如“范××”、该电影的男主角名字例如“佟××”等等。
具体的,热词相关词的确定方法可以有多种。例如此处可以根据搜索引擎的现有搜索日志,统计搜索日志中所记录的与所述热词同时进行检索的相关检索词,根据该相关检索词的检索次数判断都有哪些相关检索词可以作为该热词的相关词,并记录该相关词。本实施例中也可以预先设置热词相关词的检索次数门限值,如果某个相关检索词的搜索次数达到该门限值,则该相关检索词为热词相关词。再如也可以通过对某段时间内的互联网网页内容进行提取,计算出其中与所述热词同时出现在同一网页的频率最高的词,将该词作为热词相关词进行记录。再如,也可以通过人工审核的方式确定某一时间段内的热词相关词。
在上述步骤100和步骤101中,可以进一步设置更新周期,在每个更新周期内更新确定本周期内的热词及其相关词。例如可以设置每年、每月、每周、每天为周期,在本周期到达后需要更新所述热词及其相关词,以准确及时地反映社会热词的客观变化。
接下来需要根据从网络上抓取的网页信息建立索引。建立索引的具体方法是目前搜索引擎的成熟技术,主要是先利用蜘蛛程序获取网络信息,然后对获取的网页信息进行分析,对网页信息进行加权处理,然后取出有用的网页信息组成网页索引信息,例如其中包括网页URL、内容摘要等,最后按照一定的策略组成索引表,对于具体的索引建立过程由于是现有技术,此处不再赘述。此处只详细介绍本发明在建立索引过程中的特殊处理部分,即包括:
步骤102、获取网络信息,对获取的网页信息进行分析,进行热度值评分,主要包括:a)根据所述热词的热度高低,对包含该热词的网页记录相应的热度分值,以在后续排序时对具有热度分值的网页进行优先加权排序处理,以提前该网页索引信息的最终排序位置。此处预先存储有与热词热度对应的网页热度分值,所述热词的热度越高,对应的网页热度分值越高,从而使的最终的排序位置提前。b)对于同时包含热词及其相关词的网页,根据该热词及其相关词热度的高低,也要进行相应热度值分析,以提前该网页索引信息的最终排序位置。
另外,在a)中,还可以进一步分析所述热词在对应网页中的出现位置,根据该出现位置的热点级别对当前网页信息进行对应的热度记分处理。越是热点级别高的出现位置,其热度分值越高,导致对应网页索引信息最终的排序越靠前。对于出现位置的热点级别,可以预先根据出现位置的不同设置不同的热点级别参数,在评价热度分值之前,先分析出现位置参数是否在某一热点级别的参数范围内,如果是则该出现位置属于该热点级别,每一种热点级别又对应不同的热度分值,热点级别越高,热度分值也越高。例如如果一个热词出现在网页的标题部分,则该出现位置的热点级别最高,如果出现在网页内容的中间或者尾部,则该出现位置的热点级别就偏低。
步骤103、从网页信息中取出有用的信息组成网页索引信息,按照一定的策略建立索引,在建立索引的过程中,先按照常规的加权排序方式对索引进行加权排序调整,然后再按照网页的热度分值进一步对应增加排序权重,热度分值越高排序权重越大,从而使具有高热度分值的网页位置相对提前。
参见图1的右半部分,是检索排序输出过程,主要包括:
步骤104、搜索引擎系统检测用户输入的检索词,当检测到输入的检索词后,进入步骤105。
步骤105、从步骤103所建立的索引中搜索出与所述输入检索词匹配的网页索引信息。
步骤106、按照排序权重排序输出搜索结果。
由于在建立索引的过程中已经根据热词及其相关词在网页信息中的出现情况增加了对应网页索引信息的排序权重,因此如果用户输入的是热词或者其相关词,则根据调整权重后的索引得出的搜索结果中,包含热词及其相关词的热点信息就会优先排列在搜索结果页面的最前端,从而有效地提升针对热点信息的搜索准确度,提高了搜索引擎的搜索效率,并且对于热词的歧义排除效果较现有技术有了极大的改善。
图2为本发明所述方法的另一种实施例的流程图。参见图2的左半部分,是热词分析、索引建立以及与查询处理过程,主要包括:
步骤200、分析确定热词及其热度并进行记录。
步骤201、分析确定热词相关词并进行记录。
步骤202、抓取网页,根据热词及其相关词对网页进行热度值评分。
步骤203、建立索引。
上述步骤200至步骤203与上述步骤100至步骤103的具体处理方式相同,此处不再赘述。
步骤204、在所述索引中进行热词及其相关词的与查询,并缓存所述与查询的查询结果。所述的与查询,就是所述热词及其相关词同时作为多个检索词出现在同一篇文档中。在步骤200和步骤201中,可能存在多个热词,则针对每个热词都需要在索引中进行该热词及其相关词的与查询,并缓存查询结果。
步骤205、缓存所述与查询的查询结果,例如可以缓存在搜索引擎的内容中。
参见图2的右半部分,是检索排序输出过程,主要包括:
步骤206、搜索引擎系统检测用户输入的检索词,当检测到输入的检索词后,进入步骤207。
步骤207、从步骤203所建立的索引中搜索出与所述输入检索词匹配的网页索引信息。
步骤208、按照排序权重排序输出搜索结果。
步骤209、判断所述用户输入的检索词中是否包括为步骤200和201中所确定的热词或者其相关词,如果是,则执行步骤210;否则,执行步骤212,直接输出步骤208的搜索结果。
步骤210、从缓存中读取所述与查询结果,从该与查询结果中检索出与检索词匹配的查询结果。
步骤211、将所述匹配的查询结果拼装在所述针对索引的搜索结果之前输出。所述针对索引的搜索结果就是所述根据输入的检索词从索引中搜索出与该检索词匹配的网页索引信息并排序后的搜索结果,相对于缓存中的查询结果,该搜索结果也可以称为正常的搜索结果。通过上述处理,可以使热词及其相关词对应的热点信息排序在正常搜索结果之前输出,进一步提高了对热点信息的搜索准确度的搜索效率。
如果输入的检索词中包括两个或两个以上的热词和或热词相关词,则需要采用与现有技术不同的与查询处理方式,即需要对与查询进行综合权重计算,一旦发现文档的某一热词权重提前后,则单独使用该热词权重做为对应网页的整体权重。
例如:对于某一个检索串包括:热词+热词相关词。普遍的与查询方案是首先取出热词的n条结果,然后取出热词相关词的n条结果,并做归并。如果结果数足够或取完所有热词和热词相关词的结果,则不再去索引里取文档,查询结果即为这两个集合的交集。随后跟据每个文档对两个词分别的权重,计算出每个文档对这个与查询的权重。此时参与检索的各个词语具有相同的地位,可以采用很多种加权平均计算方式,但一般不会选择算数平均,因为算数平均在两个权值相差较大的时候会忽略掉原本数值较小的那个词的排序因素。
但对于上述拼装修改后的排序,由于要特意进行提前拼装,所以在文档中就存在了层级的概念,有一些文档虽然同时出现了热词和热词相关词,但热词权重被高强度地提前了,热词相关词权重却没有提前。因此再做与查询的时候,不能再使用上述平均方式确定整体权重,因为那样会使单一提前的因子被大大弱化,同时也不能使用加权平均,否则就不能控制好提前的力度。因此,本发明在此处选择极端的单一权重决定,即发现某一热词权重提前后,直接使用该热词权重做对应网页的整体权重。在一种优选方式中,如果一个以上个热词权重都提前,则选择第一个热词权重作为对应网页的整体权重。
在另一种具体实施方式中,在步骤211中进行拼装之后进一步包括:
将所述正常的搜索结果中与所述步骤210所述的查询结果相同的搜索结果信息过滤掉。从而可以避免热点信息在最终搜索结果中的重复出现。
步骤212、输出最终的搜索结果,如果本步骤由步骤211触发则输出拼装过滤后的搜索结果,如果是由步骤209触发,则输出正常搜索结果。
当然,上述各个步骤的执行顺序只是一个具体的实例,也可以有其它执行顺序,可以根据本申请公开的内容灵活运用,例如步骤207、208也可以置于步骤209、210之后步骤211之前执行。相对于现有搜索引擎中的其它处理进程,例如分发、缓存、检索等多个处理进程,上述的与查询、缓存、拼装过滤等操作可以选择分别在所述各个处理进程之中执行,也可以选择在某个或某几个处理进程之中执行,当然也可以单独执行,最终由分发进程返回给前台一个整体的搜索结果即可,当然也可以由搜索前台进行所述拼装过滤过程。因此本发明的方案非常灵活,易于实现。
图3为本发明所述网络信息搜索系统的结构示意图。参见图3,该系统包括:
热词记录模块301,用于记录热词及其相关词,所述热词及其相关词可以通过对搜索日志等信息的整理审核得到。
索引建立模块302,用于从网络上抓取网页信息并建立索引,其中可以具体包括蜘蛛程序,可以将互联网上的信息抓取到本地,然后对获取的网络信息进行分析,取出有用的网页信息组成网页索引信息,最后按照一定的策略组成索引。
所述索引建立模块302中包括排序加权模块303,用于在建立索引的过程中,根据所述热词记录模块记录的热词及其相关词的在网页信息中的出现情况,增加对应网页索引信息的排序权重。该排序加权模块303中可以具体包括热词评价模块、热词及其相关词共现评价模块以及热度加权处理模块(图中未显示),其中热词评价模块用于根据热词的热度和或出现位置评价包含该热词的网页的热度;热词及其相关词共现评价模块用于将同时包含热词及其相关词的网页进一步增加热度值。的索引信息排序权重进行加权处理;热度加权处理模块用于在建立索引的过程中根据网页的热度对网页信息的排序权重进行加权处理。
前台模块304,用于检测用户输入的检索词,将检索词发送给搜索模块,显示搜索模块返回的搜索结果。
搜索模块305,用于根据输入的检索词从所述索引建立模块302建立的索引中搜索出与该检索词匹配的网页索引信息,按照排序权重排序输出搜索结果给前台模块304。其中的结构可以采用现有方案,例如可以具体包括分发模块、检索模块、排序模块等,由分发单元进行任务的分发指派,检索单完成搜索功能,排序单元完成排序功能,最后可以由分发单元将搜索排序后结果返回给前台模块304。
在另一种具体实施例中,除了上述模块,所述系统还可以进一步包括热词预搜索装置,图4为所述热词预搜索装置的结构示意图。参见图4,该热词预搜索装置400具体包括:
与查询模块401,用于在所述索引建立模块建立的索引中进行热词及其相关词的与查询。
缓存模块402,用于缓存所述与查询的查询结果。
搜索控制模块403,用于判断所述前台模块304输入的检索词,当所述检索词为所述热词记录模块301中的热词或其相关词时,将检索词发送给检索模块404和搜索模块305;其中还包括拼装模块431,用于将检索模块404返回的结果拼装在搜索模块305的搜索结果之前,并将拼装结果返回给前台模块304。
检索模块404,用于从缓存的查询结果中检索出与该检索词匹配的查询结果并将检索结果返回给搜索控制模块403。
另外,所述搜索控制模块403中进一步包括过滤模块432,用于将搜索模块305的搜索结果中与所述检索模块404的检索结果相同的搜索结果信息过滤掉。搜索控制模块403将拼装过滤处理后的搜索结果返回给前台模块304。
上述实施例中所述搜索控制模块403是单独设置的,本发明也可以将该搜索控制模块403设置在现有搜索引擎的分发模块、缓存模块、以及搜索模块中,具体设置位置是灵活的,不限于上述设置方式。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种网络信息搜索方法,其特征在于,包括:
A、确定热词及其相关词;
B、从网络上抓取网页,根据所述热词及其相关词的在网页信息中的出现情况评价对应网页的热度;
建立索引,在建立索引的过程中根据网页热度对相应网页信息的排序权重进行相应的加权处理,并在所建立的索引中进行热词及其相关词的与查询,缓存所述与查询的查询结果;
C、根据输入的检索词从所述索引中搜索出与该检索词匹配的网页信息,按照排序权重排序输出搜索结果;
输入的检索词包括步骤A所确定的热词或其相关词时,从所缓存的查询结果中检索出与该检索词匹配的查询结果,并将该检索结果拼装在所述针对索引的搜索结果之前输出;
其中,输入的检索词包括两个或两个以上热词和/或热词相关词时,从所缓存的查询结果中进行与查询操作,且在与查询的权重排序中,有热词权重提前时,单独使用该热词权重作为对应网页的整体权重进行排序。
2.根据权利要求1所述的网络信息搜索方法,其特征在于,步骤A中,进一步设置更新周期,在每个更新周期内更新确定本周期内的热词及其相关词。
3.根据权利要求1所述的网络信息搜索方法,其特征在于,
步骤B中所述根据所述热词及其相关词的在网页信息中的出现情况评价对应网页热度的具体方法为:
根据所述热词的热度高低,对包含该热词的网页信息评价出对应的热度值;
将同时包含热词及其相关词的网页信息进一步增加热度值。
4.根据权利要求3所述的网络信息搜索方法,其特征在于,步骤B中,进一步包括:
分析所述热词在对应网页中的出现位置,根据该出现位置的热点级别对当前网页信息热度值进行对应的评价处理。
5.根据权利要求1所述的网络信息搜索方法,其特征在于,在输出最终的搜索结果之前,进一步包括:
将所述针对索引的搜索结果中与所述检索结果相同的信息过滤掉。
6.一种网络信息搜索系统,其特征在于,该系统包括:
热词记录模块,用于记录热词及其相关词;
索引建立模块,用于从网络上抓取网页信息并建立索引;
所述索引建立模块中包括排序加权模块,用于根据所述热词记录模块记录的热词及其相关词的在所抓取网页中的出现情况评价对应网页的热度,在建立索引过程中根据网页热度对相应网页信息的排序权重进行相应的加权处理;
前台模块,用于检测检索词,将检索词发送给搜索模块,显示搜索模块返回的搜索结果;
搜索模块,用于根据输入的检索词从所述索引建立模块建立的索引中搜索出与该检索词匹配的网页信息,按照排序权重排序输出搜索结果给前台模块;
热词预搜索装置,包括:与查询模块,用于在所述索引建立模块建立的索引中进行热词及其相关词的与查询;其中,输入的检索词包括两个或两个以上热词和/或热词相关词时,从缓存的查询结果中进行与查询操作,且在与查询的权重排序中,有热词权重提前时,单独使用该热词权重作为对应网页的整体权重进行排序;
缓存模块,用于缓存所述与查询的查询结果;
搜索控制模块,用于判断所述前台模块输入的检索词,当所述检索词中包括所述热词记录模块中的热词或其相关词时,将检索词发送给检索模块和搜索模块,将检索模块返回的结果拼装在搜索模块的搜索结果之前,并将拼装结果返回给前台模块;
检索模块,用于从缓存的查询结果中检索出与该检索词匹配的查询结果并将检索结果返回给搜索控制模块。
7.根据权利要求6所述的网络信息搜索系统,其特征在于,所述排序加权模块具体包括:
热词评价模块,用于根据热词的热度和或出现位置评价包含该热词的网页的热度;
热词及其相关词共现评价模块,用于将同时包含热词及其相关词的网页进一步增加热度值;
热度加权处理模块,用于在建立索引的过程中根据网页的热度对网页信息的排序权重进行加权处理。
8.根据权利要求6所述的网络信息搜索系统,其特征在于,所述搜索控制模块中进一步包括过滤模块,用于将搜索模块的搜索结果中与所述检索模块的检索结果相同的信息过滤掉。
CN2008100880294A 2008-03-27 2008-03-27 网络信息搜索方法及系统 Active CN101246499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100880294A CN101246499B (zh) 2008-03-27 2008-03-27 网络信息搜索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100880294A CN101246499B (zh) 2008-03-27 2008-03-27 网络信息搜索方法及系统

Publications (2)

Publication Number Publication Date
CN101246499A CN101246499A (zh) 2008-08-20
CN101246499B true CN101246499B (zh) 2010-10-13

Family

ID=39946950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100880294A Active CN101246499B (zh) 2008-03-27 2008-03-27 网络信息搜索方法及系统

Country Status (1)

Country Link
CN (1) CN101246499B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923544B (zh) * 2009-06-15 2012-08-08 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN101620625B (zh) * 2009-07-30 2012-10-31 腾讯科技(深圳)有限公司 一种搜索关键词排序方法、装置和搜索引擎
CN102193949A (zh) * 2010-03-19 2011-09-21 腾讯科技(深圳)有限公司 一种搜索方法、装置和系统
CN102004792B (zh) * 2010-12-07 2012-10-10 百度在线网络技术(北京)有限公司 一种热搜词生成方法及系统
CN102033955B (zh) * 2010-12-24 2012-12-05 常华 扩展用户搜索结果的方法及服务器
CN102799587A (zh) * 2011-05-25 2012-11-28 腾讯科技(深圳)有限公司 一种论坛搜索方法和装置
CN102194015B (zh) * 2011-06-30 2013-11-13 重庆新媒农信科技有限公司 根据检索信息热度统计实现检索的方法
CN102955829B (zh) * 2011-08-30 2017-11-03 北京百度网讯科技有限公司 用于对资源项进行排序的方法、装置和设备
CN102419773B (zh) * 2011-12-13 2014-09-03 百度在线网络技术(北京)有限公司 一种用于对资源项进行排序的方法、装置和设备
CN103324631B (zh) * 2012-03-22 2018-05-29 深圳市世纪光速信息技术有限公司 提供数据搜索的方法及装置
CN102710795B (zh) * 2012-06-20 2015-02-11 北京奇虎科技有限公司 热点聚合方法及装置
CN104462613B (zh) * 2012-06-20 2019-04-19 北京奇虎科技有限公司 热点聚合方法及装置
CN103577501B (zh) * 2012-08-10 2019-03-19 深圳市世纪光速信息技术有限公司 热点话题搜索系统及热点话题搜索方法
CN102930041A (zh) * 2012-11-12 2013-02-13 江苏外博资讯有限公司 一种基于用户行为信息的检索结果实时更新方法及其系统
CN103116651A (zh) * 2013-03-05 2013-05-22 南京理工大学常熟研究院有限公司 一种舆情热点动态检测方法
CN103593444B (zh) * 2013-11-15 2017-06-06 北京国双科技有限公司 网络关键词识别处理方法和装置
CN104123332B (zh) * 2014-01-24 2018-11-09 腾讯科技(深圳)有限公司 搜索结果的显示方法及装置
CN103942264B (zh) * 2014-03-26 2017-09-01 北京奇虎科技有限公司 推送包含新闻信息的网页的方法和装置
US20160267072A1 (en) * 2015-03-12 2016-09-15 Microsoft Technology Licensing, Llc Context sensitive phrase identification
CN104915418B (zh) * 2015-06-08 2018-09-04 小米科技有限责任公司 网站推荐方法及装置
CN106708817B (zh) * 2015-07-17 2020-11-06 腾讯科技(深圳)有限公司 信息搜索方法及装置
CN105117383A (zh) * 2015-08-14 2015-12-02 百度在线网络技术(北京)有限公司 一种提供搜索结果的方法与装置
CN106547762B (zh) * 2015-09-17 2019-09-20 深圳市世强元件网络有限公司 一种关键词定义方法及系统
CN105243124B (zh) 2015-09-29 2018-11-09 百度在线网络技术(北京)有限公司 资源组合处理方法及装置
CN106909582A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 结合多数据源的热词推荐方法及装置
CN105653705B (zh) * 2015-12-30 2020-07-03 北京奇艺世纪科技有限公司 一种热门事件搜索方法和装置
CN105843875B (zh) * 2016-03-18 2019-09-13 北京光年无限科技有限公司 一种面向智能机器人的问答数据处理方法及装置
CN106776772B (zh) * 2016-11-10 2020-07-28 北京锐安科技有限公司 一种数据检索的方法及装置
CN107066537A (zh) * 2017-03-06 2017-08-18 广州神马移动信息科技有限公司 热点新闻生成方法、设备、电子设备
CN107239497B (zh) * 2017-05-02 2020-11-03 广东万丈金数信息技术股份有限公司 热门内容搜索方法和系统
CN107506402B (zh) * 2017-08-03 2021-06-11 北京百度网讯科技有限公司 搜索结果的排序方法、装置、设备及计算机可读存储介质
CN107562726A (zh) * 2017-09-06 2018-01-09 国家电网公司 一种基于热词的供电服务搜索引擎
CN107784127A (zh) * 2017-11-30 2018-03-09 杭州数梦工场科技有限公司 一种热点定位方法和装置
CN108710664B (zh) * 2018-05-14 2023-04-18 平安科技(深圳)有限公司 一种热词分析方法、计算机可读存储介质及终端设备
CN111324805B (zh) * 2018-12-13 2024-02-13 北京搜狗科技发展有限公司 查询意图确定方法及装置、搜索方法及搜索引擎
CN109857752A (zh) * 2019-01-25 2019-06-07 北京炎黄新星网络科技有限公司 一种索引库更新方法及装置
CN110765239B (zh) * 2019-10-29 2023-03-28 腾讯科技(深圳)有限公司 热词识别方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1389811A (zh) * 2002-02-06 2003-01-08 北京造极人工智能技术有限公司 搜索引擎的智能化搜索方法
US6871982B2 (en) * 2003-01-24 2005-03-29 Digital Optics International Corporation High-density illumination system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1389811A (zh) * 2002-02-06 2003-01-08 北京造极人工智能技术有限公司 搜索引擎的智能化搜索方法
US6871982B2 (en) * 2003-01-24 2005-03-29 Digital Optics International Corporation High-density illumination system

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CN 1389811 A,全文.
李晓明, 闫宏飞, 王继民.搜索引擎-原理、技术与系统 1.科学出版社,2005,20, 22-23, 79, 133-134.
李晓明, 闫宏飞, 王继民.搜索引擎-原理、技术与系统 1.科学出版社,2005,20, 22-23, 79, 133-134. *
说明书第8栏第1-6行,第13栏第40行至第14栏第32行,附图3,附图13,附图14.

Also Published As

Publication number Publication date
CN101246499A (zh) 2008-08-20

Similar Documents

Publication Publication Date Title
CN101246499B (zh) 网络信息搜索方法及系统
CA2513853C (en) Phrase-based indexing in an information retrieval system
CA2513851C (en) Phrase-based generation of document descriptions
CA2513850C (en) Phrase identification in an information retrieval system
CA2813644C (en) Phrase-based searching in an information retrieval system
CN106339502A (zh) 一种基于用户行为数据分片聚类的建模推荐方法
US7580929B2 (en) Phrase-based personalization of searches in an information retrieval system
CN103678576B (zh) 基于动态语义分析的全文检索系统
US7426507B1 (en) Automatic taxonomy generation in search results using phrases
CN103226578B (zh) 面向医学领域的网站识别和网页细分类的方法
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
EP2192500A2 (en) System and method for providing robust topic identification in social indexes
US20140156647A1 (en) Phrase-based detection of duplicate documents in an information retrieval system
CN101908071A (zh) 一种提高搜索引擎搜索效率的方法及其系统
JP2010055618A (ja) トピックを基にした検索を提供する方法及びシステム
EP1844391A2 (en) Multiple index based information retrieval system
CN102831234A (zh) 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN103577489A (zh) 一种网页浏览历史查询方法及装置
CN103577490A (zh) 一种网页浏览历史展现方法及装置
CN101261629A (zh) 基于自动分类技术的特定信息搜索方法
JP2011253572A (ja) 情報価値を反映した情報検索方法及びその装置
CN104899215A (zh) 数据处理方法、推荐源信息组织和信息推荐方法及装置
CN102955812A (zh) 一种构建索引库的方法、装置及查询方法和装置
CN103034709B (zh) 检索结果重排序系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131015

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20131015

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.