CN103064880B - 一种基于搜索信息向用户提供网站选择的方法、装置和系统 - Google Patents

一种基于搜索信息向用户提供网站选择的方法、装置和系统 Download PDF

Info

Publication number
CN103064880B
CN103064880B CN201210484441.4A CN201210484441A CN103064880B CN 103064880 B CN103064880 B CN 103064880B CN 201210484441 A CN201210484441 A CN 201210484441A CN 103064880 B CN103064880 B CN 103064880B
Authority
CN
China
Prior art keywords
website
websites
list
user
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210484441.4A
Other languages
English (en)
Other versions
CN103064880A (zh
Inventor
覃文浩
韩庆
谭真
王皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201210484441.4A priority Critical patent/CN103064880B/zh
Publication of CN103064880A publication Critical patent/CN103064880A/zh
Application granted granted Critical
Publication of CN103064880B publication Critical patent/CN103064880B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于搜索信息向用户提供网站选择的方法、装置及系统,该方法包括:对用户输入的搜索信息进行分词得到一个或多个关键词;在预先建立的索引数据库中检索所述关键词得到第一网站列表,所述第一网站列表包含与所述一个或多个关键词对应的一个或多个网站;以及对所述第一网站列表中的网站进行分类得到分类网站列表以便于用户对其中的网站进行选择,所述分类网站列表包含一个或多个分类,每个分类中包含一个或多个网站。本发明向用户提供与搜索信息密切相关的多个规律排列的搜索渠道/网站以供选择,进而根据用户选择将该网站中的搜索结果返回给用户。本发明节省了用户的搜索时间,提高了搜索效率,改善了用户体验。

Description

一种基于搜索信息向用户提供网站选择的方法、装置和系统
技术领域
本发明涉及互联网领域,尤其涉及一种基于搜索信息向用户提供网站选择的方法、装置和系统。
背景技术
信息搜索,尤其是基于移动通信的信息搜索,在用户使用移动终端时是是非常重要的需求之一。然而,现在有能力提供搜索服务的网站,为了让自己在产业链的竞争中更加具有优势,往往彼此之间互相屏蔽信息。于是,用户常常为了获取期望的搜索信息在各种渠道/网站中进行搜索。例如,为了获取购物信息,不得不到专门的购物网站上搜索;为了获取餐馆信息,不得不到专门的餐饮类网站上搜索,为了获取影视信息,不得不到专门的影视类网站上进行搜索;等等。甚至,用户的搜索意图也会发生变化,这可能导致用户选择的搜索渠道可能并不能达到其目的,这又需要用户重新考虑并选择另外的渠道进行信息获取。因此,用户常常在多个搜索渠道中进行频繁切换,而访问过程又非常繁琐和机械。常见的情况是,用户最后没有获得自己真正需要的信息,还耗费了大量的时间和精力,是一种非常不愉快的用户体验。
因此,迫切需要一种能够基于用户输入的搜索信息向用户提供与搜索信息密切相关的多种搜索渠道/相关网站以供用户在其中做出选择的方法和装置,以减轻用户的负担。
发明内容
本发明的目的是提供一种能克服上述缺陷的基于搜索信息向用户提供网站选择的方法、装置和系统。
在本发明的第一方面,提供了一种基于搜索信息向用户提供网站选择的方法,包括:对用户输入的搜索信息进行分词得到一个或多个关键词;在预先建立的索引数据库中检索所述关键词得到第一网站列表,所述第一网站列表包含与所述一个或多个关键词对应的一个或多个网站;以及对所述第一网站列表中的网站进行分类得到分类网站列表以便于用户对其中的网站进行选择,所述分类网站列表包含一个或多个分类,每个分类中包含一个或多个网站。
在本发明的第二方面,提供了一种基于搜索信息向用户提供网站选择的装置,包括:分词模块,用于对用户输入的搜索信息进行分词得到一个或多个关键词;网站列表生成模块,用于在预先建立的索引数据库中检索所述关键词得到第一网站列表,所述第一网站列表包含与所述一个或多个关键词对应的一个或多个网站;以及分类模块,对所述第一网站列表中的网站进行分类得到分类网站列表以便于用户对其中的网站进行选择,所述分类网站列表包含一个或多个分类,每个分类中包含一个或多个网站。
在本发明的第三方面,提供了一种用户终端,包括:分词模块,用于对用户输入的搜索信息进行分词得到一个或多个关键词;网站列表生成模块,用于在预先建立的索引数据库中检索所述关键词得到第一网站列表,所述第一网站列表包含与所述一个或多个关键词对应的一个或多个网站;以及分类模块,对所述第一网站列表中的网站进行分类得到分类网站列表以便于用户对其中的网站进行选择,所述分类网站列表包含一个或多个分类,每个分类中包含一个或多个网站。
在本发明的第四方面,提供了一种服务器,包括:分词模块,用于对用户输入的搜索信息进行分词得到一个或多个关键词;网站列表生成模块,用于在预先建立的索引数据库中检索所述关键词得到第一网站列表,所述第一网站列表包含与所述一个或多个关键词对应的一个或多个网站;以及分类模块,对所述第一网站列表中的网站进行分类得到分类网站列表以便于用户对其中的网站进行选择,所述分类网站列表包含一个或多个分类,每个分类中包含一个或多个网站。
在本发明的第五方面,提供了一种基于搜索信息向用户提供网站选择的系统,包括:分词模块,用于对用户输入的搜索信息进行分词得到一个或多个关键词;网站列表生成模块,用于在预先建立的索引数据库中检索所述关键词得到第一网站列表,所述第一网站列表包含与所述一个或多个关键词对应的一个或多个网站;分类模块,对所述第一网站列表中的网站进行分类得到分类网站列表以便于用户对其中的网站进行选择,所述分类网站列表包含一个或多个分类,每个分类中包含一个或多个网站;以及用户终端,用于将所述搜索信息发送给服务器并且从所述服务器接收所述分类网站列表以便于用户对其中的网站进行选择,并且用于将用户的选择信息发送给服务器并且从所述服务器接收所述搜索结果。
本发明基于用户输入的搜索信息和预先建立的索引数据库,向用户提供与搜索信息密切相关的多个规律排列的搜索渠道/网站以供选择,进而根据用户对网站的选择将该网站中的搜索结果返回给用户。本发明节省了用户搜索期望信息的时间,提高了搜索效率,改善了用户体验。
附图说明
图1是根据本发明实施例的基于搜索信息向用户提供网站选择的流程图;
图2是根据本发明实施例的建立索引数据库的方法流程图;
图3是根据本发明实施例的基于搜索信息向用户提供网站选择的示意图;
图4是根据本发明实施例的基于搜索信息向用户提供网站选择的装置的示意图;以及。
图5是根据本发明实施例的基于搜索信息向用户提供网站选择的系统的示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明通过根据网站数据集在互联网上进行数据收集并建立索引,然后根据借助索引对用户的搜索信息进行处理,将与该搜索信息相关的网站以一定规律分发在用户终端的屏幕上。
图1是根据本发明实施例的基于搜索信息向用户提供网站选择的方法流程图。
在步骤101,用户在用户终端上输入搜索信息,这些搜索信息中含有用户的搜索意图,该意图预期可以通过访问互联网上的网站而得到结果。
在步骤101之后,流程分为两路,一路执行步骤103、105、和107,另一路执行步骤102、104、和106。
在步骤103,通过预先建立的分词词库对该搜索信息进行分词处理,得到一个或多个关键词。在步骤105,通过在索引数据库中以这些关键词进行检索,得到包含与这些关键词对应的一个或多个网站的第一网站列表。在步骤107,根据索引数据库中网站的属性,对第一网站列表中的网站进行分类。分类后的网站列表包含一个或多个分类,每个分类中包含一个或多个网站。
在步骤102,对用户输入的搜索信息进行语义分析。在步骤104,根据语义分析的结果和预定义规则得到第二网站列表。举例来说,可以利用分词词库对搜索信息进行分词,然后用预定义规则对分词结果进行判断,从而得到在预定义规则中与分词结果对应的一些网站。在步骤106,根据索引数据库中网站的属性,对第二网站列表中的网站进行分类。分类后的网站列表包含一个或多个分类,每个分类中包含一个或多个网站。此路的目的在于给出一个预先判断,以便弥补或丰富另一路的网站列表的内容。
在步骤108,将分类之后的第一网站列表和第二网站列表进行合并,其中,同一分类的网站被合并。合并后的网站列表包含一个或多个分类,每个分类中包含一个或多个网站。
在步骤109,对合并后的网站中的各个分类进行排序,并且对每一分类中的各个网站进行排序,以便于用户对其中的网站进行选择。在初始状态下可以按照简单规则对分类和分类中的网站执行一个初始排序;随后,可以通过对关键词和用户对网站的选择进行统计和概率计算,为分类中的网站排序。
用户可以很方便地根据该网站列表选择其中的网站来获得期望的搜索结果。例如,可以按照网站列表中分类间以及分类中网站间的排序,将该网站列表以诸如图标的形式显示在用户终端的显示屏上。用户通过点击图标选择网站以获得与输入的搜索信息相关的搜索结果。例如,根据用户输入的搜索信息“哈利波特”可以得到排序后的相关网站列表。如果用户想获得电影信息,则可以在列表中选择“影视”分类中的网站;如果用户想阅览小说,则可以在列表中选择“小说”分类中的网站;如果用户想购买实体书籍,则可以在列表中选择“书籍”或“网购”分类中的网站。这样,根据用户输入的搜索信息,将与该搜索信息相关的网站分门别类地提供给用户以供其选择,消除了用户在多个搜索渠道中进行访问/切换的烦恼。
在步骤110,根据用户对排序后的分类网站列表中的网站的选择,向用户提供该搜索信息在被选择网站中的搜索结果。当用户选择列表中的网站时,用户输入的搜索信息被推送到用户所选择的网站,然后将该搜索信息在该网站中的搜索结果返回给用户。如上所述,用户搜索信息的关键词以及用户对网站的选择被统计并用于概率计算,以便在初始状态之后对分类中的网站进行排序。
在本发明的另一个实施例中,步骤102、104、106和108可以不存在,在步骤109直接对分类的第一网站列表中各分类以及各个分类中的网站进行排序。
图2是根据本发明实施例的建立索引数据库的流程图。
按照预定义规则,根据网站数据在网站中进行网页的抓取。例如,可以根据内容管理系统(CMS)中的网站数据集和其中定义的规则,选取其中的一些网站,对这些网站中的网页进行抓取。每个网站数据包括该网站对应的链接和该网站的类别,网站类别例如可以分为如网购、小说、影视、书籍等等,一个网站可以对应一个或多个网站类别。
从抓取的网页中提取出关键字段,关键字段可以是网页的标题或者是其他重要的附加信息。然后,通过分词词库对关键字段进行分词处理,从中提取出关键词。在初始阶段,分词词库中包含有一定规模的分词数据。
在关键词提取出来之后,还可以进一步对其进行优化处理。例如,可以按照网站类别,对关键词进行归并。因为很可能存在这种情况,即在从网站抓取的多数网页中都出现了两个或多个特定关键词的相同组合,为了减小随后建立的索引的规模并且提高检索索引的效率,需要将这些重复出现的组合关键词归并为一个关键词。归并标准可以通过预先设定阈值来判断,即如果两个或多个关键词的组合在网页中的出现频率超过该预定阈值,则将该组合归并为一个关键词。在这之后,还可以从提取出的若干关键词提取一些在网页中出现频率超过预定阈值的关键词,将这些所谓的高频关键词并入到分词词库中,以提高分词效率。
最终,根据关键词的最终结果建立关键词->网站的索引数据库,索引中的每个网站具有网站类别的属性以指明其属于一个或多个网站类别,并且其中,一个关键词可以对应一个或多个网站。
图3是根据本发明实施例的向用户提供网站访问的方法流程图。
在前处理中,根据分词词库对用户输入的搜索信息进行分词处理得到分词结果。该搜索信息可以来自于用户直接输入的文字和/或符号,也可以是将用户语音进行识别后转换而成的。然后,通过预定义的一些特殊规则对分词结果进行判断,预定义规则包括了分词结果与一些网站的对应关系,通过判断得出一系列网站,其中,这些网站各自归属于一个或多个网站类别。通过对这些网站进行分类可以得到网站列表1。网站列表1包含一个或多个网站类别,每个网站类别中包含一个或多个网站。例如,用户输入“哪里”、“电影”、“价格”这些一般不体现具体意义的词,通过预定义规则,则可以在该网站列表1中给出“旅游”、“影视”、“购物”一类的网站。简言之,前处理是根据用户输入进行语义分析,从而针对潜在的用户目的给出一个预先判断,进而给出一个有针对性的网站列表。
在关键词-网站的索引中检索分词结果,得到分词结果在索引中对应的一系列网站。根据索引中网站的网站类别属性,对这一系列网站进行分类,最终得到网站列表2。网站列表2包含一个或多个网站类别,每个网站类别中包含一个或多个网站。简言之,检索索引是一个较之上述的前处理更为精确的处理,得到的是一个能够在索引中有据可缘的网站列表。
然后,将网站列表1和网站列表2进行合并得到网站列表3,同一类别的网站被合并在一个网站类别中。网站列表1可以对网站列表2起补充/丰富的作用。当然,网站列表3包含一个或多个网站类别,每个网站类别中包含一个或多个网站。
在后处理中,对网站列表3进行优先级排序,包括对网站类别进行排序以及对一个网站类别中的多个网站进行排序。下面详细描述优先级排序的处理过程。
在初始状态下将执行一个初始排序。在初始排序中,对网站类别的排序可以按照小流量优先的原则进行,即按照网站流量进行排序,流量越小的网站类别的排序越靠前;对同一网站类别中的若干网站的排序可以按照访问速度、内容完备性、易用性等指标以一定规则对网站进行评分,评分靠前的网站的排序靠前。
接下来,按照用户输入的分词结果对同一网站类别中的若干网站进行排序。设用户输入的分词结果为i1,i2,i3,...,in,则在最后得出的网站列表中的一个网站类别中,网站S的显示优先级可以通过下列公式来计算,优先级越高的网站在一个网站类别中排序越靠前:
优先级=初始权重*a+((Pr(S|i1)+(Pr(S|i2)+...+(Pr(S|in))*b
在上面的公式中,(Pr(S|A)为在用户输入的分词结果包含关键词A的情况下,用户选择网站S的频率;初始权重为预先设定的值;a和b为调整系数,其初始值可以分别为0.5,并且可以使用统计分析模型不断优化,统计分析模型例如可以是隐马尔可夫模型(Hidden Markov Model,HMM)。
(Pr(S|A)=Pr(A|S)*Pr(S)/Pr(A),其中,Pr(A|S)是用户选择网站S的情况下,用户输入的分词结果包含关键词A的概率,Pr(S)是用户选择网站S的概率,Pr(A)是用户输入的分词结果包含关键词A的概率,
最后,按照后处理的结果将网站列表3提供给用户,例如将排序后的网站列表3显示在用户终端的显示屏上,以供用户对其中的网站进行选择访问。
这样,用户通过输入搜索信息,就可以得到一个与该搜索信息相关的网站列表,并且该网站列表是按照一定规律排列显示的。用户通过直观的判断,可以方便地选择最期望的网站查看搜索结果。
图4是根据本发明实施例的基于搜索信息向用户提供网站选择的装置的示意图。
如图4中所示,网页抓取模块、关键字段提取模块、第一分词模块和索引数据库建立模块用于建立索引数据库。在本发明的另一个实施例中,上述模块可以存在于装置之外,即事先在装置之外已建立好索引数据库并将其存储在装置中。
网页抓取模块按照预定义规则,根据网站数据在网站中进行网页的抓取。例如,可以根据内容管理系统(CMS)中的网站数据集和其中定义的规则,选取其中的一些网站,对这些网站中的网页进行抓取。每个网站数据包括该网站对应的链接和该网站的类别,网站类别例如可以分为如网购、小说、影视、书籍等等,一个网站可以对应一个或多个网站类别。
关键字段提取模块从抓取的网页中提取出关键字段,关键字段可以是网页的标题或者是其他重要的附加信息。然后,第一分词模块通过分词词库对关键字段进行分词处理,从中提取出关键词。在初始阶段,分词词库中包含有一定规模的分词数据。
在关键词提取出来之后,还可以进一步对其进行优化处理。例如,可以按照网站类别,对关键词进行归并。因为很可能存在这种情况,即在从网站抓取的多数网页中都出现了两个或多个特定关键词的相同组合,为了减小随后建立的索引的规模并且提高检索索引的效率,需要将这些重复出现的组合关键词归并为一个关键词。归并标准可以通过预先设定阈值来判断,即如果两个或多个关键词的组合在网页中的出现频率超过该预定阈值,则将该组合归并为一个关键词。在这之后,还可以从提取出的若干关键词提取一些在网页中出现频率超过预定阈值的关键词,将这些所谓的高频关键词并入到分词词库中,以提高分词效率。
最终,索引数据库建立模块根据关键词的最终结果建立关键词->网站的索引数据库,索引中的每个网站具有网站类别的属性以指明其属于一个或多个网站类别,并且其中,一个关键词可以对应一个或多个网站。
还如图4中所示,第二分词模块、语义分析模块、网站列表生成模块、合并模块、分类模块、排序模块和搜索结果提供模块用于基于用户输入的搜索信息和索引数据库向用户提供网站选择并将被选择网站的搜索结果返回给用户。
当用户输入搜索信息时,第二分词模块通过预先建立的分词词库对该搜索信息进行分词处理,得到一个或多个关键词。语义分析模块对用户输入的搜索信息进行语义分析,得到语义分析结果。
一方面,网站列表生成模块通过在索引数据库中以这些关键词进行检索,得到包含与这些关键词对应的一个或多个网站的第一网站列表;另一方面,网站列表生成模块根据语义分析的结果和预定义规则得到第二网站列表。
分类模块根据索引数据库中网站的属性,对第一网站列表和第二网站列表中的网站进行分类。
接下来,合并模块将分类之后的第一网站列表和第二网站列表进行合并,其中,同一分类的网站被合并。合并后的网站列表包含一个或多个分类,每个分类中包含一个或多个网站。应当指出,合并模块和分类模块的执行不限于上述的时序关系,还可以先合并再分类。
排序模块对合并后的网站中的各个分类进行排序,并且对每一分类中的各个网站进行排序,以便于用户对其中的网站进行选择。在初始状态下可以按照简单规则对分类和分类中的网站执行一个初始排序;随后,可以通过对关键词和用户对网站的选择进行统计和概率计算,为分类中的网站排序。
搜索结果提供模块根据用户对排序后的分类网站列表中的网站的选择,向用户提供该搜索信息在被选择网站中的搜索结果。当用户选择列表中的网站时,用户输入的搜索信息被推送到用户所选择的网站,然后将该搜索信息在该网站中的搜索结果返回给用户。如上所述,用户搜索信息的关键词以及用户对网站的选择被统计并用于概率计算,以便在初始状态之后对分类中的网站进行排序。
应当指出,第一分词模块和第二分词模块可以是同一分词模块也可以是不同的分词模块,这取决于建立索引数据库的模块群的位置以及系统效率考虑。在本发明的另一个实施例中,可以不进行语义分析而只基于索引数据库建立第一网站列表,因此语义分析模块和合并模块可以不存在,网站列表建立模块和分类模块的功能也相应地简化。
图5是根据本发明实施例的基于搜索信息向用户提供网站选择的系统的示意图。
服务器包括网页抓取模块、关键字段提取模块、分词模块和索引数据库建立模块,用于建立索引数据库。
网页抓取模块按照预定义规则,根据网站数据在网站中进行网页的抓取。例如,可以根据内容管理系统(CMS)中的网站数据集和其中定义的规则,选取其中的一些网站,对这些网站中的网页进行抓取。每个网站数据包括该网站对应的链接和该网站的类别,网站类别例如可以分为如网购、小说、影视、书籍等等,一个网站可以对应一个或多个网站类别。
关键字段提取模块从抓取的网页中提取出关键字段,关键字段可以是网页的标题或者是其他重要的附加信息。然后,分词模块通过分词词库对关键字段进行分词处理,从中提取出关键词。在初始阶段,分词词库中包含有一定规模的分词数据。
在关键词提取出来之后,还可以进一步对其进行优化处理。例如,可以按照网站类别,对关键词进行归并。因为很可能存在这种情况,即在从网站抓取的多数网页中都出现了两个或多个特定关键词的相同组合,为了减小随后建立的索引的规模并且提高检索索引的效率,需要将这些重复出现的组合关键词归并为一个关键词。归并标准可以通过预先设定阈值来判断,即如果两个或多个关键词的组合在网页中的出现频率超过该预定阈值,则将该组合归并为一个关键词。在这之后,还可以从提取出的若干关键词提取一些在网页中出现频率超过预定阈值的关键词,将这些所谓的高频关键词并入到分词词库中,以提高分词效率。
最终,索引数据库建立模块根据关键词的最终结果建立关键词->网站的索引数据库,索引中的每个网站具有网站类别的属性以指明其属于一个或多个网站类别,并且其中,一个关键词可以对应一个或多个网站。
服务器还包括语义分析模块、网站列表生成模块、合并模块、分类模块、排序模块和搜索结果提供模块用于基于用户输入的搜索信息和索引数据库向用户提供网站选择并将被选择网站的搜索结果返回给用户。
用户通过用户终端输入的搜索信息通过网络被发送到服务器,分词模块通过预先建立的分词词库对该搜索信息进行分词处理,得到一个或多个关键词。语义分析模块对用户输入的搜索信息进行语义分析,得到语义分析结果。
一方面,网站列表生成模块通过在索引数据库中以这些关键词进行检索,得到包含与这些关键词对应的一个或多个网站的第一网站列表;另一方面,网站列表生成模块根据语义分析的结果和预定义规则得到第二网站列表。
分类模块根据索引数据库中网站的属性,对第一网站列表和第二网站列表中的网站进行分类。
接下来,合并模块将分类之后的第一网站列表和第二网站列表进行合并,其中,同一分类的网站被合并。合并后的网站列表包含一个或多个分类,每个分类中包含一个或多个网站。应当指出,合并模块和分类模块的执行不限于上述的时序关系,也可以先合并然后分类。
排序模块对合并后的网站中的各个分类进行排序,并且对每一分类中的各个网站进行排序。然后,排序后的网站列表通过网络被发送到用户终端,以便于用户对其中的网站进行选择。在初始状态下可以按照简单规则对分类和分类中的网站执行一个初始排序;随后,可以通过对关键词和用户对网站的选择进行统计和概率计算,为分类中的网站排序。
在用户对列表中的网站做出选择之后,其选择信息通过网络被发送到服务器。服务器中的搜索结果提供模块接收用户对排序后的分类网站列表中的网站的选择信息,根据选择信息将搜索信息推送到用户选择的网站,获得将该搜索信息在该网站中的搜索结果并将其通过网络返回给用户终端。如上所述,用户搜索信息的关键词以及用户对网站的选择被统计并用于概率计算,以便在初始状态之后对分类中的网站进行排序。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于搜索信息向用户提供网站选择的方法,包括:
通过网络从多个网站上抓取网页;从抓取的网页中提取出多个关键字段;根据预先建立的分词词库对所述多个关键字段进行分词得到多个第一关键词;以及根据所述多个关键词与所述多个网站的对应关系建立索引数据库,其中所述索引数据库中的一个关键词对应一个或多个网站;
对用户输入的搜索信息进行分词得到一个或多个第二关键词;在所述索引数据库中检索所述关键词得到第一网站列表,所述第一网站列表包含与所述一个或多个关键词对应的一个或多个网站;以及对所述第一网站列表中的网站进行分类得到分类网站列表,所述分类网站列表包含一个或多个分类,每个分类中包含一个或多个网站;
所述方法还包括:
对用户输入的搜索信息进行语义分析;根据语义分析的结果和预定义规则得到第二网站列表,所述第二网站列表包含一个或多个网站;对所述第二网站列表中的网站进行分类得到预判网站列表,所述预判网站列表包含一个或多个分类,每个分类中包含一个或多个网站;以及
将所述预判网站列表与所述分类网站列表合并以便于用户对其中的网站进行选择。
2.根据权利要求1所述的方法,还包括:
根据用户对所述分类网站列表中的网站的选择信息,向用户提供所述搜索信息在被选择网站中的搜索结果。
3.根据权利要求1所述的方法,还包括:
将所述多个第一关键词中的两个或多个关键词归并为一个关键词,所述两个或多个关键词的组合在网页中的出现频率超过预定阈值。
4.根据权利要求1所述的方法,还包括:
将所述多个第一关键词中的高频关键词并入所述分词词库,所述高频关键词是在所述网页中的出现频率超过预定阈值的关键词。
5.一种基于搜索信息向用户提供网站选择的装置,包括:
分词模块,用于对用户输入的搜索信息进行分词得到一个或多个关键词;
网站列表生成模块,用于在预先建立的索引数据库中检索所述关键词得到第一网站列表,所述第一网站列表包含与所述一个或多个关键词对应的一个或多个网站;以及
分类模块,对所述第一网站列表中的网站进行分类得到分类网站列表,所述分类网站列表包含一个或多个分类,每个分类中包含一个或多个网站;
网页抓取模块,用于通过网络从多个网站上抓取网页;
关键字段提取模块,用于从抓取的网页中提取出多个关键字段;
其中,所述分词模块还用于根据预先建立的分词词库对所述多个关键字段进行分词得到多个关键词;以及
索引数据库建立模块,用于根据所述多个关键词与所述多个网站的对应关系建立所述索引数据库,其中,所述索引数据库中的一个关键词对应一个或多个网站;
所述装置还包括:
语义分析模块,用于对用户输入的搜索信息进行语义分析;
其中,所述网站列表生成模块还用于根据语义分析的结果和预定义规则得到第二网站列表,所述第二网站列表包含一个或多个网站,所述分类模块还用于对所述第二网站列表中的网站进行分类得到预判网站列表,所述预判网站列表包含一个或多个分类,每个分类中包含一个或多个网站;以及
合并模块,用于将所述预判网站列表与所述分类网站列表合并以便于用户对其中的网站进行选择。
6.根据权利要求5所述的装置,所述分类模块包括:
用于统计在所述一个或多个关键词中的一个关键词通过分词得到的情况下,用户选择访问所述每个分类中的一个网站的概率的模块;
用于根据与所述一个或多个关键词中的所有关键词对应的一个或多个所述概率,计算所述一个网站在每个分类中的排序优先级的模块;以及
用于根据所述排序优先级对每个分类中的网站进行排序的模块。
7.根据权利要求5所述的装置,还包括:
搜索结果提供模块,用于根据用户的选择信息,向用户提供所述搜索信息在被选择网站中的搜索结果。
8.根据权利要求5所述的装置,还包括:
用于将所述多个关键词中的两个或多个关键词归并为一个关键词的模块,所述两个或多个关键词的组合在网页中的出现频率超过预定阈值。
9.根据权利要求5所述的装置,还包括:
用于将所述多个关键词中的高频关键词并入所述分词词库的模块,所述高频关键词是在所述网页中的出现频率超过预定阈值的关键词。
10.一种用户终端,包括如权利要求5-9之一所述的基于搜索信息向用户提供网站选择的装置。
11.一种服务器,包括如权利要求5-9之一所述的基于搜索信息向用户提供网站选择的装置。
12.一种基于搜索信息向用户提供网站选择的系统,包括如权利要求11所述的服务器和用户终端,所述用户终端用于将所述搜索信息发送给服务器并且从所述服务器接收所述合并的网站列表以便于用户对其中的网站进行选择,所述用户终端还用于将用户的选择信息发送给服务器并且从所述服务器接收所述搜索结果。
CN201210484441.4A 2012-11-23 2012-11-23 一种基于搜索信息向用户提供网站选择的方法、装置和系统 Expired - Fee Related CN103064880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210484441.4A CN103064880B (zh) 2012-11-23 2012-11-23 一种基于搜索信息向用户提供网站选择的方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210484441.4A CN103064880B (zh) 2012-11-23 2012-11-23 一种基于搜索信息向用户提供网站选择的方法、装置和系统

Publications (2)

Publication Number Publication Date
CN103064880A CN103064880A (zh) 2013-04-24
CN103064880B true CN103064880B (zh) 2016-12-21

Family

ID=48107510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210484441.4A Expired - Fee Related CN103064880B (zh) 2012-11-23 2012-11-23 一种基于搜索信息向用户提供网站选择的方法、装置和系统

Country Status (1)

Country Link
CN (1) CN103064880B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103984705B (zh) * 2014-04-25 2018-05-04 北京奇虎科技有限公司 一种搜索结果的展示方法、装置和系统
CN105488017B (zh) * 2015-11-23 2019-03-26 杭州弗兰科信息安全科技有限公司 一种融合通信中的信息合成与提取方法
CN105786966A (zh) * 2016-01-26 2016-07-20 浪潮软件集团有限公司 一种文本结构化的方法和装置
CN105956148A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 资源信息的推荐方法和装置
CN107844492A (zh) * 2016-09-19 2018-03-27 阿里巴巴集团控股有限公司 一种进行对象排序和展示搜索对象的方法及设备
CN107577755B (zh) * 2017-08-31 2020-06-19 江西博瑞彤芸科技有限公司 一种搜索方法
CN109635157B (zh) * 2018-10-30 2021-05-25 北京奇艺世纪科技有限公司 模型生成方法、视频搜索方法、装置、终端及存储介质
CN109801103A (zh) * 2019-01-14 2019-05-24 海南英赛德信息系统有限公司 信息投放方法及装置、存储介质及电子设备
CN110110044B (zh) * 2019-04-11 2020-05-05 广州探迹科技有限公司 一种企业信息组合筛选的方法
CN110362732A (zh) * 2019-07-18 2019-10-22 江苏中威科技软件系统有限公司 一种信息系统内容搜索的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统
CN101916294A (zh) * 2010-08-27 2010-12-15 黄斌 一种利用语义分析实现精确搜索的方法
CN102236719A (zh) * 2011-07-25 2011-11-09 西交利物浦大学 基于网页分类的网页搜索引擎及快速查找方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814083A (zh) * 2010-01-08 2010-08-25 上海复歌信息科技有限公司 网页自动分类方法和系统
CN101916294A (zh) * 2010-08-27 2010-12-15 黄斌 一种利用语义分析实现精确搜索的方法
CN102236719A (zh) * 2011-07-25 2011-11-09 西交利物浦大学 基于网页分类的网页搜索引擎及快速查找方法

Also Published As

Publication number Publication date
CN103064880A (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN103064880B (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN108241667B (zh) 用于推送信息的方法和装置
CN106156372B (zh) 一种互联网网站的分类方法及装置
JP2013225319A (ja) 視覚的な多次元の検索
CN102004782A (zh) 一种搜索结果排序方法和搜索结果排序器
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN108170692A (zh) 一种热点事件信息处理方法和装置
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN102708174A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN105677787B (zh) 信息搜索装置及信息搜索方法
CN103744887B (zh) 一种用于人物搜索的方法、装置和计算机设备
CN105378730A (zh) 社交媒体分析与输出
CN104834739B (zh) 互联网信息存储系统
CN105512300B (zh) 信息过滤方法及系统
CN104503988A (zh) 搜索方法及装置
CN103955480B (zh) 一种用于确定用户所对应的目标对象信息的方法与设备
CN106919703A (zh) 电影信息搜索方法及装置
CN106202312B (zh) 一种用于移动互联网的兴趣点搜索方法和系统
KR101122737B1 (ko) 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법
KR101621735B1 (ko) 추천 검색어 제공 방법 및 시스템
KR20160002199A (ko) 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
KR102023491B1 (ko) 텍스트 데이터의 연관 규칙 분석을 위한 텍스트 데이터 수집 및 분석 방법 및 장치
CN108509449B (zh) 一种信息处理的方法及服务器
CN106933380B (zh) 一种词库的更新方法和装置
CN110175289B (zh) 基于余弦相似度协同过滤的混合推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161221

Termination date: 20171123

CF01 Termination of patent right due to non-payment of annual fee