发明内容
有鉴于此,本发明所要解决的技术问题在于提供一种网络信息搜索方法,以提高对热点信息的搜索准确度。
本发明所要解决的另一技术问题在于提供一种网络信息搜索系统,以提高对热点信息的搜索准确度。
为了实现上述发明目的,本发明的主要技术方案为:
一种网络信息搜索方法,包括:
A、确定热词及其相关词;
B、从网络上抓取网页,根据所述热词及其相关词的在网页信息中的出现情况评价对应网页的热度;
建立索引,在建立索引的过程中根据网页热度对相应网页信息的排序权重进行相应的加权处理,并在所建立的索引中进行热词及其相关词的与查询,缓存所述与查询的查询结果;
C、根据输入的检索词从所述索引中搜索出与该检索词匹配的网页信息,按照排序权重排序输出搜索结果;
输入的检索词包括步骤A所确定的热词或其相关词时,从所缓存的查询结果中检索出与该检索词匹配的查询结果,并将该检索结果拼装在所述针对索引的搜索结果之前输出;
其中,输入的检索词包括两个或两个以上热词和/或热词相关词时,从所缓存的查询结果中进行与查询操作,且在与查询的权重排序中,有热词权重提前时,单独使用该热词权重作为对应网页的整体权重进行排序。
优选的,步骤A中,进一步设置更新周期,在每个更新周期内更新确定本周期内的热词及其相关词。
优选的,步骤B中所述根据所述热词及其相关词的在网页信息中的出现情况评价对应网页热度的具体方法为:根据所述热词的热度高低,对包含该热词的网页信息评价出对应的热度值;将同时包含热词及其相关词的网页信息进一步增加热度值。
优选的,步骤B中进一步包括:分析所述热词在对应网页中的出现位置,根据该出现位置的热点级别对当前网页信息热度值进行对应的评价处理。
优选的,在输出最终的搜索结果之前,进一步包括:将所述针对索引的搜索结果中与所述检索结果相同的信息过滤掉。
一种网络信息搜索系统,该系统包括:
热词记录模块,用于记录热词及其相关词;
索引建立模块,用于从网络上抓取网页信息并建立索引;
所述索引建立模块中包括排序加权模块,用于根据所述热词记录模块记录的热词及其相关词的在所抓取网页中的出现情况评价对应网页的热度,在建立索引过程中根据网页热度对相应网页信息的排序权重进行相应的加权处理;
前台模块,用于检测检索词,将检索词发送给搜索模块,显示搜索模块返回的搜索结果;
搜索模块,用于根据输入的检索词从所述索引建立模块建立的索引中搜索出与该检索词匹配的网页信息,按照排序权重排序输出搜索结果给前台模块;
热词预搜索装置,包括:与查询模块,用于在所述索引建立模块建立的索引中进行热词及其相关词的与查询;其中,输入的检索词包括两个或两个以上热词和/或热词相关词时,从缓存的查询结果中进行与查询操作,且在与查询的权重排序中,有热词权重提前时,单独使用该热词权重作为对应网页的整体权重进行排序;
缓存模块,用于缓存所述与查询的查询结果;
搜索控制模块,用于判断所述前台模块输入的检索词,当所述检索词中包括所述热词记录模块中的热词或其相关词时,将检索词发送给检索模块和搜索模块,将检索模块返回的结果拼装在搜索模块的搜索结果之前,并将拼装结果返回给前台模块;
检索模块,用于从缓存的查询结果中检索出与该检索词匹配的查询结果并将检索结果返回给搜索控制模块。
优选的,所述排序加权模块具体包括:
热词评价模块,用于根据热词的热度和或出现位置评价包含该热词的网页的热度;
热词及其相关词共现评价模块,用于将同时包含热词及其相关词的网页进一步增加热度值;
热度加权处理模块,用于在建立索引的过程中根据网页的热度对网页信息的排序权重进行加权处理。
优选的,所述搜索控制模块中进一步包括过滤模块,用于将搜索模块的搜索结果中与所述检索模块的检索结果相同的信息过滤掉。
由于本发明的搜索引擎不但需要先确定热词及其热度信息,还需要确定热词的相关词,然后在生成索引的过程中,根据热词热度信息及其相关词对索引中的热点信息的排序进行加权,使热点信息的排序提前,从而在后续搜索时,一旦遇到热词搜索,则可以将对应的热点信息优先输出排序,从而非常有效地提升针对热点信息的搜索准确度,提高了搜索引擎的搜索效率。由于预先确定了热词的相关词,因此本发明对于热词的歧义排除效果较现有技术有了极大的改善,从而可以非常容易地搜索并优先排序出热点信息。
本发明简单易行,大部分搜索引擎都可以使用该方法快速实现对热点信息的优先排序,不但不会降低搜索系统的检索性能,而且还可以提高搜索引擎的效率。
具体实施方式
下面通过具体实施例和附图对本发明做进一步详细说明。
本发明的核心技术方案为:一种网络信息搜索方法,包括:A、分析确定热词及其热度;B、根据从网络上抓取的网页信息建立索引;在建立索引的过程中,根据所述热词及其相关词的在网页信息中的出现情况,增加对应网页信息的排序权重;C、根据输入的检索词从所述索引中搜索出与该检索词匹配的网页信息,按照排序权重排序输出搜索结果。
图1为本发明所述方法的一种实施例的流程图。参见图1的左半部分,是热词分析以及索引建立的过程,主要包括:
步骤100、分析确定热词及其热度并进行记录。
具体的,热词的确定方法可以有多种。例如此处可以根据搜索引擎的现有搜索日志,统计搜索日志中所记录各个检索词的检索次数,根据检索词的检索次数判断都有哪些检索词为热词,并记录该热词。本实施例中可以预先设置热词的检索次数门限值,如果某个检索词的搜索次数达到该门限值,则该检索词为热词。再如也可以通过对某段时间内的互联网网页内容进行提取,计算出其中出现频率最高的词作为热词进行记录。再如,也可以通过人工审核的方式确定某一时间段内的热词。
所述热词的热度可以一个评分值,具体根据该热词的检索次数、在网页中的出现频率、或者其出现位置进行确定,检索次数越多、出现频率越高、或者出现位置在网页中越显著,则其热度的分值越高。
步骤101、分析确定热词相关词并进行记录。所述热词相关词就是与该热词对应出现的一些关键词。
例如在某一段时间内名称为“苹果”的一部电影受关注的程度非常高,那么“苹果”这个词在这一段时间内就是一个热词。但是“苹果”不仅仅是一部电影名,其本义是一种水果的名称,而且还有其它含义,例如有一家电子消费品公司的名称也叫“苹果”。所以还需要确定“苹果”这个热词的相关词,该相关词之所以称为热词相关词,是因为在网页的客观显示规律上该相关词与所述的热词一般是同时出现的。例如此处“苹果”这个热词的相关词与电影有关,则其相关词可能包括“电影”、该电影的女主角名字例如“范××”、该电影的男主角名字例如“佟××”等等。
具体的,热词相关词的确定方法可以有多种。例如此处可以根据搜索引擎的现有搜索日志,统计搜索日志中所记录的与所述热词同时进行检索的相关检索词,根据该相关检索词的检索次数判断都有哪些相关检索词可以作为该热词的相关词,并记录该相关词。本实施例中也可以预先设置热词相关词的检索次数门限值,如果某个相关检索词的搜索次数达到该门限值,则该相关检索词为热词相关词。再如也可以通过对某段时间内的互联网网页内容进行提取,计算出其中与所述热词同时出现在同一网页的频率最高的词,将该词作为热词相关词进行记录。再如,也可以通过人工审核的方式确定某一时间段内的热词相关词。
在上述步骤100和步骤101中,可以进一步设置更新周期,在每个更新周期内更新确定本周期内的热词及其相关词。例如可以设置每年、每月、每周、每天为周期,在本周期到达后需要更新所述热词及其相关词,以准确及时地反映社会热词的客观变化。
接下来需要根据从网络上抓取的网页信息建立索引。建立索引的具体方法是目前搜索引擎的成熟技术,主要是先利用蜘蛛程序获取网络信息,然后对获取的网页信息进行分析,对网页信息进行加权处理,然后取出有用的网页信息组成网页索引信息,例如其中包括网页URL、内容摘要等,最后按照一定的策略组成索引表,对于具体的索引建立过程由于是现有技术,此处不再赘述。此处只详细介绍本发明在建立索引过程中的特殊处理部分,即包括:
步骤102、获取网络信息,对获取的网页信息进行分析,进行热度值评分,主要包括:a)根据所述热词的热度高低,对包含该热词的网页记录相应的热度分值,以在后续排序时对具有热度分值的网页进行优先加权排序处理,以提前该网页索引信息的最终排序位置。此处预先存储有与热词热度对应的网页热度分值,所述热词的热度越高,对应的网页热度分值越高,从而使的最终的排序位置提前。b)对于同时包含热词及其相关词的网页,根据该热词及其相关词热度的高低,也要进行相应热度值分析,以提前该网页索引信息的最终排序位置。
另外,在a)中,还可以进一步分析所述热词在对应网页中的出现位置,根据该出现位置的热点级别对当前网页信息进行对应的热度记分处理。越是热点级别高的出现位置,其热度分值越高,导致对应网页索引信息最终的排序越靠前。对于出现位置的热点级别,可以预先根据出现位置的不同设置不同的热点级别参数,在评价热度分值之前,先分析出现位置参数是否在某一热点级别的参数范围内,如果是则该出现位置属于该热点级别,每一种热点级别又对应不同的热度分值,热点级别越高,热度分值也越高。例如如果一个热词出现在网页的标题部分,则该出现位置的热点级别最高,如果出现在网页内容的中间或者尾部,则该出现位置的热点级别就偏低。
步骤103、从网页信息中取出有用的信息组成网页索引信息,按照一定的策略建立索引,在建立索引的过程中,先按照常规的加权排序方式对索引进行加权排序调整,然后再按照网页的热度分值进一步对应增加排序权重,热度分值越高排序权重越大,从而使具有高热度分值的网页位置相对提前。
参见图1的右半部分,是检索排序输出过程,主要包括:
步骤104、搜索引擎系统检测用户输入的检索词,当检测到输入的检索词后,进入步骤105。
步骤105、从步骤103所建立的索引中搜索出与所述输入检索词匹配的网页索引信息。
步骤106、按照排序权重排序输出搜索结果。
由于在建立索引的过程中已经根据热词及其相关词在网页信息中的出现情况增加了对应网页索引信息的排序权重,因此如果用户输入的是热词或者其相关词,则根据调整权重后的索引得出的搜索结果中,包含热词及其相关词的热点信息就会优先排列在搜索结果页面的最前端,从而有效地提升针对热点信息的搜索准确度,提高了搜索引擎的搜索效率,并且对于热词的歧义排除效果较现有技术有了极大的改善。
图2为本发明所述方法的另一种实施例的流程图。参见图2的左半部分,是热词分析、索引建立以及与查询处理过程,主要包括:
步骤200、分析确定热词及其热度并进行记录。
步骤201、分析确定热词相关词并进行记录。
步骤202、抓取网页,根据热词及其相关词对网页进行热度值评分。
步骤203、建立索引。
上述步骤200至步骤203与上述步骤100至步骤103的具体处理方式相同,此处不再赘述。
步骤204、在所述索引中进行热词及其相关词的与查询,并缓存所述与查询的查询结果。所述的与查询,就是所述热词及其相关词同时作为多个检索词出现在同一篇文档中。在步骤200和步骤201中,可能存在多个热词,则针对每个热词都需要在索引中进行该热词及其相关词的与查询,并缓存查询结果。
步骤205、缓存所述与查询的查询结果,例如可以缓存在搜索引擎的内容中。
参见图2的右半部分,是检索排序输出过程,主要包括:
步骤206、搜索引擎系统检测用户输入的检索词,当检测到输入的检索词后,进入步骤207。
步骤207、从步骤203所建立的索引中搜索出与所述输入检索词匹配的网页索引信息。
步骤208、按照排序权重排序输出搜索结果。
步骤209、判断所述用户输入的检索词中是否包括为步骤200和201中所确定的热词或者其相关词,如果是,则执行步骤210;否则,执行步骤212,直接输出步骤208的搜索结果。
步骤210、从缓存中读取所述与查询结果,从该与查询结果中检索出与检索词匹配的查询结果。
步骤211、将所述匹配的查询结果拼装在所述针对索引的搜索结果之前输出。所述针对索引的搜索结果就是所述根据输入的检索词从索引中搜索出与该检索词匹配的网页索引信息并排序后的搜索结果,相对于缓存中的查询结果,该搜索结果也可以称为正常的搜索结果。通过上述处理,可以使热词及其相关词对应的热点信息排序在正常搜索结果之前输出,进一步提高了对热点信息的搜索准确度的搜索效率。
如果输入的检索词中包括两个或两个以上的热词和或热词相关词,则需要采用与现有技术不同的与查询处理方式,即需要对与查询进行综合权重计算,一旦发现文档的某一热词权重提前后,则单独使用该热词权重做为对应网页的整体权重。
例如:对于某一个检索串包括:热词+热词相关词。普遍的与查询方案是首先取出热词的n条结果,然后取出热词相关词的n条结果,并做归并。如果结果数足够或取完所有热词和热词相关词的结果,则不再去索引里取文档,查询结果即为这两个集合的交集。随后跟据每个文档对两个词分别的权重,计算出每个文档对这个与查询的权重。此时参与检索的各个词语具有相同的地位,可以采用很多种加权平均计算方式,但一般不会选择算数平均,因为算数平均在两个权值相差较大的时候会忽略掉原本数值较小的那个词的排序因素。
但对于上述拼装修改后的排序,由于要特意进行提前拼装,所以在文档中就存在了层级的概念,有一些文档虽然同时出现了热词和热词相关词,但热词权重被高强度地提前了,热词相关词权重却没有提前。因此再做与查询的时候,不能再使用上述平均方式确定整体权重,因为那样会使单一提前的因子被大大弱化,同时也不能使用加权平均,否则就不能控制好提前的力度。因此,本发明在此处选择极端的单一权重决定,即发现某一热词权重提前后,直接使用该热词权重做对应网页的整体权重。在一种优选方式中,如果一个以上个热词权重都提前,则选择第一个热词权重作为对应网页的整体权重。
在另一种具体实施方式中,在步骤211中进行拼装之后进一步包括:
将所述正常的搜索结果中与所述步骤210所述的查询结果相同的搜索结果信息过滤掉。从而可以避免热点信息在最终搜索结果中的重复出现。
步骤212、输出最终的搜索结果,如果本步骤由步骤211触发则输出拼装过滤后的搜索结果,如果是由步骤209触发,则输出正常搜索结果。
当然,上述各个步骤的执行顺序只是一个具体的实例,也可以有其它执行顺序,可以根据本申请公开的内容灵活运用,例如步骤207、208也可以置于步骤209、210之后步骤211之前执行。相对于现有搜索引擎中的其它处理进程,例如分发、缓存、检索等多个处理进程,上述的与查询、缓存、拼装过滤等操作可以选择分别在所述各个处理进程之中执行,也可以选择在某个或某几个处理进程之中执行,当然也可以单独执行,最终由分发进程返回给前台一个整体的搜索结果即可,当然也可以由搜索前台进行所述拼装过滤过程。因此本发明的方案非常灵活,易于实现。
图3为本发明所述网络信息搜索系统的结构示意图。参见图3,该系统包括:
热词记录模块301,用于记录热词及其相关词,所述热词及其相关词可以通过对搜索日志等信息的整理审核得到。
索引建立模块302,用于从网络上抓取网页信息并建立索引,其中可以具体包括蜘蛛程序,可以将互联网上的信息抓取到本地,然后对获取的网络信息进行分析,取出有用的网页信息组成网页索引信息,最后按照一定的策略组成索引。
所述索引建立模块302中包括排序加权模块303,用于在建立索引的过程中,根据所述热词记录模块记录的热词及其相关词的在网页信息中的出现情况,增加对应网页索引信息的排序权重。该排序加权模块303中可以具体包括热词评价模块、热词及其相关词共现评价模块以及热度加权处理模块(图中未显示),其中热词评价模块用于根据热词的热度和或出现位置评价包含该热词的网页的热度;热词及其相关词共现评价模块用于将同时包含热词及其相关词的网页进一步增加热度值。的索引信息排序权重进行加权处理;热度加权处理模块用于在建立索引的过程中根据网页的热度对网页信息的排序权重进行加权处理。
前台模块304,用于检测用户输入的检索词,将检索词发送给搜索模块,显示搜索模块返回的搜索结果。
搜索模块305,用于根据输入的检索词从所述索引建立模块302建立的索引中搜索出与该检索词匹配的网页索引信息,按照排序权重排序输出搜索结果给前台模块304。其中的结构可以采用现有方案,例如可以具体包括分发模块、检索模块、排序模块等,由分发单元进行任务的分发指派,检索单完成搜索功能,排序单元完成排序功能,最后可以由分发单元将搜索排序后结果返回给前台模块304。
在另一种具体实施例中,除了上述模块,所述系统还可以进一步包括热词预搜索装置,图4为所述热词预搜索装置的结构示意图。参见图4,该热词预搜索装置400具体包括:
与查询模块401,用于在所述索引建立模块建立的索引中进行热词及其相关词的与查询。
缓存模块402,用于缓存所述与查询的查询结果。
搜索控制模块403,用于判断所述前台模块304输入的检索词,当所述检索词为所述热词记录模块301中的热词或其相关词时,将检索词发送给检索模块404和搜索模块305;其中还包括拼装模块431,用于将检索模块404返回的结果拼装在搜索模块305的搜索结果之前,并将拼装结果返回给前台模块304。
检索模块404,用于从缓存的查询结果中检索出与该检索词匹配的查询结果并将检索结果返回给搜索控制模块403。
另外,所述搜索控制模块403中进一步包括过滤模块432,用于将搜索模块305的搜索结果中与所述检索模块404的检索结果相同的搜索结果信息过滤掉。搜索控制模块403将拼装过滤处理后的搜索结果返回给前台模块304。
上述实施例中所述搜索控制模块403是单独设置的,本发明也可以将该搜索控制模块403设置在现有搜索引擎的分发模块、缓存模块、以及搜索模块中,具体设置位置是灵活的,不限于上述设置方式。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。