CN103778122B

CN103778122B - 搜索方法和系统

Info

Publication number: CN103778122B
Application number: CN201210395247.9A
Authority: CN
Inventors: 姚静
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-10-17
Filing date: 2012-10-17
Publication date: 2018-01-23
Anticipated expiration: 2032-10-17
Also published as: CN103778122A

Abstract

一种搜索方法，包括以下步骤：获取搜索请求；提取所述搜索请求中包含的搜索词的核心词；在预先构建的搜索词与关联网站的对应关系中查找所述核心词对应的关联网站；返回所述核心词对应的关联网站的相关信息。由于核心词过滤了搜索词中包含的冗余信息，可表示搜索词的关键信息，核心词对应的关联网站很可能是用户需求的目标网站，不需要用户在搜索结果中的众多网页信息查找较匹配的网页信息，然后根据网页信息查找到目标网站，因此，上述搜索方法可提高搜索结果与搜索词之间的匹配精确度。此外，还提供一种搜索系统。

Description

搜索方法和系统

【技术领域】

本发明涉及计算机网络技术领域，特别涉及一种搜索方法和系统。

【背景技术】

随着计算机网络技术的发展，人们越来越多的从网络上搜索自己需要的信息。搜索引擎根据用户输入的搜索词进行搜索，并向用户返回与搜索词匹配的网页信息。

传统的搜索方法，一般查找包含用户输入的整个搜索词的网页，并查找包含搜索词中的分词以及分词的组合的网页，在搜索结果中，优先展示包含整个搜索词的网页信息，其次按照网页中包含的分词从多到少的顺序展示网页信息。例如，用户输入的搜索词为“找工作的网站有哪些”，则搜索引擎有可能返回包含字串“找工作网站有哪些”的网页信息，以及返回包含字串“工作”和“哪些”以及搜索词中其它分词以及分词组合的网页信息。

传统的搜索方法向用户返回包含搜索词以及搜索词的分词和分词组合的网页信息，一方面，如果用户输入的搜索词较长或者包含较多的冗余信息，则包含整个搜索词的网页有可能搜索不到，而包含搜索词的分词或分词组合的网页与用户真正需求的网页相差甚远，因为搜索词的分词或分词组合有可能不能精确表示搜索词的主题。例如，包含字串“找工作的网站有哪些”的网页相对较少，而包含“工作”、“哪些”等分词的网页有可能很多，但是与用于找工作的网站之间的关联不大。

另一方面，即使搜索到包含整个搜索词或者包含搜索词中较多分词的网页，用户也需要从返回的众多网页信息中分析哪些是最匹配的网页信息，并进一步从较匹配的网页信息中获取目标网站信息。以上述例子为例，由于包含搜索词“找工作的网站有哪些”或搜索词分词的网页并不是用户真正想要的用于找工作的网站，因此，用户需要在搜索结果中查找包含用于找工作的网站信息的条目，点击该条目以打开网页，并在网页内容中查找用于找工作的网站的网址或链接，进一步根据查找到的网站或链接打开用于找工作的网站。

发明人发现传统的搜索方法至少存在如下问题：只返回包含搜索词以及搜索词的分词和分词组合的网页信息，由于包含搜索词或搜索词分词的网页有可能并不是用户需要查找的目标网站，因此，传统的搜索方法返回的搜索结果与搜索词的匹配精确度不高。

【发明内容】

基于此，有必要提供一种可提高搜索结果与搜索词之间的匹配精确度的搜索方法。

一种搜索方法，包括以下步骤：

获取搜索请求；

提取所述搜索请求中包含的搜索词的核心词；

在预先构建的搜索词与关联网站的对应关系中查找所述核心词对应的关联网站；

返回所述核心词对应的关联网站的相关信息。

此外，还有必要提供一种可返回搜索词的主题对应的目标网站信息的搜索系统。

一种搜索系统，包括：

请求获取模块，用于获取搜索请求；

核心词提取模块，用于提取所述搜索请求中包含的搜索词的核心词；

关联网站查找模块，用于在预先构建的搜索词与关联网站的对应关系中查找所述核心词对应的关联网站；

网站信息返回模块，用于返回所述核心词对应的关联网站的相关信息。

上述搜索方法和系统，提取搜索请求中包含的搜索词的核心词，进一步在预先构建的搜索词与关联网站的对应关系中查找到核心词对应的关联网站，并返回关联网站的相关信息，由于核心词过滤了搜索词中包含的冗余信息，可表示搜索词的关键信息，核心词对应的关联网站很可能是用户需求的目标网站，不需要用户在搜索结果中的众多网页信息查找较匹配的网页信息，然后根据网页信息查找到目标网站，提高了搜索结果与搜索词之间的匹配精确度。

【附图说明】

图1为一个实施例中的搜索方法的流程示意图；

图2为一个实施例中图1的步骤S104的流程示意图；

图3为一个实施例中构建搜索词与关联网站的对应关系的步骤的流程示意图；

图4为一个实施例中关联网站的展示示意图；

图5为一个实施例中的搜索系统的结构示意图；

图6为一个实施例中核心词提取模块的结构示意图；

图7为另一实施例中的搜索系统的结构示意图；

图8为一个实施例中对应关系构建模块的结构示意图；

图9为又一实施例中的搜索系统的结构示意图。

【具体实施方式】

如图1所示，在一个实施例中，一种搜索方法，包括以下步骤：

步骤S102，获取搜索请求。

在一个实施例中，服务端可接收浏览器提交的包含用户输入的搜索词的搜索请求。

步骤S104，提取搜索请求中包含的搜索词的核心词。

核心词为搜索词中的可表示搜索词的关键信息的词。例如，搜索词“找工作的网站有哪些”的核心词为“找工作”。服务端接收到搜索请求后，可提取搜索请求中包含的搜索词的核心词。

如图2所示，在一个实施例中，步骤S104包括以下步骤：

步骤S202，提取搜索请求中的搜索词，将搜索词进行分词处理，得到搜索词中包含的分词。

在一个实施例中，可解析搜索请求，提取用户输入的搜索词，按照预设规则将搜索词进行分词处理。

步骤S204，计算分词的重要指数，和/或在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站并获取上述分词对应的关联网站的重要指数。

在一个实施例中，可基于语义计算分词的重要指数，包括以下步骤：标注分词的词性，词性包括名词、动词、形容词、数词等；根据分词的词性以及分词在搜索词中的位置计算分词的重要指数。在一个实施例中，可预先设置各类词性以及搜索词中的分词位置对应的权值，根据分词的词性对应的权值以及分词所在搜索词中的位置对应的权值计算该分词的重要指数。一般地，可设置名词对应的权值比其它类词性对应的权值高，并按照分词位置的先后顺序由低到高设置分词位置的权值，分词位置越靠前，则对应的权值越低。

在一个实施例中，可预先计算搜索词与关联网站的对应关系中包含的关联网站的热门度。网站的热门度为反映网站受关注程度的指标，网站越受关注，则网站的热门度也越高。在一个实施例中，关联网站的热门度可根据关联网站的点击量计算得到。点击量越高，则网站的热门度也越高。进一步的，可根据分词对应的关联网站的热门度计算分词对应的关联网站的重要指数。热门度越高，则重要指数也越高。

步骤S206，根据上述分词的重要指数和/或上述分词对应的关联网站的重要指数选取分词为上述搜索请求中包含的搜索词的核心词。

在一个实施例中，可计算分词的重要指数，选取重要指数最高的分词为搜索请求中包含的搜索词的核心词。

在另一个实施例中，可在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站，并获取上述分词对应的关联网站的重要指数，选取对应的关联网站的重要指数最高的分词为搜索词的核心词。

在又一个实施例中，可计算分词的重要指数，以及在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站，并获取上述分词对应的关联网站的重要指数，进一步的结合上述分词的重要指数和上述分词对应的关联网站的重要指数选取某一分词为上述搜索请求中包含的搜索词的核心词。在一个实施例中，可选取分词的重要指数与分词对应的关联网站的重要指数的综合值最高的分词为搜索词对应的核心词。

步骤S106，在预先构建的搜索词与关联网站的对应关系中查找核心词对应的关联网站。

如图3所示，在一个实施例中，在步骤S102之前，上述搜索方法还包括构建搜索词与关联网站的对应关系的步骤，包括：

步骤S302，获取历史搜索记录，搜索记录中包含搜索词及搜索词对应的命中网站信息。搜索词对应的命中网站为搜索词对应的搜索结果中被用户点击的网页所属的网站。

步骤S304，统计搜索词对应的命中网站的命中率。在一个实施例中，可统计搜索记录中搜索词对应的各命中网站被选中的次数，进一步计算各命中网站被选中的次数占搜索词对应的所有命中网站被选中次数总和的比值，即得到搜索词对应的命中网站的命中率。

步骤S306，根据搜索词对应的命中网站的命中率计算搜索词与命中网站的关联度。命中网站相对于搜索词的命中率越高，则该搜索词与该命中网站的关联度也越高。

步骤S308，根据搜索词与命中网站的关联度选取搜索词对应的关联网站，记录搜索词与关联网站的对应关系。

在一个实施例中，可选取与搜索词的关联度大于预设值的命中网站为搜索词对应的关联网站。在另一个实施例中，可按照与搜索词的关联度从大到小的顺序选取预设数量个命中网站为搜索词对应的关联网站。在又一实施例中，可选取与搜索词的关联度大于预设值的命中网站，进一步在选取的命中网站中按照与搜索词的关联度从大到小的顺序选取不超过预设数量的命中网站为搜索词对应的关联网站。

在一个实施例中，步骤S106可在步骤S302～S308所构建的搜索词与关联网站的对应关系中查找核心词对应的关联网站。

步骤S108，返回核心词对应的关联网站的相关信息。在一个实施例中，服务端可向浏览器返回关联网站的网址、名称等信息。

在一个实施例中，上述搜索方法还包括步骤：将上述搜索词与关联网站的对应关系中搜索词对应的关联网站进行分类；步骤S108返回的核心词对应的关联网站的相关信息中包含关联网站的分类结果信息。

在一个实施例中，可预先设置搜索词对应的类别，例如，搜索词为“购物”，可设置“购物”对应的类别包括“综合”、“服饰”、“数码”、“日用”、“导购”和“团购”等。进一步的，可统计各类别在关联网站中的出现次数，设置出现次数最多的类别为搜索词对应的关联网站的类别。步骤S108中服务器可将类别名称以及属于该类别的关联网站的相关信息对应返回给浏览器。

在一个实施例中，上述搜索方法还包括步骤：根据核心词对应的关联网站的相关信息生成关联网站的导航图表或导航栏；展示导航图表或导航栏。

在一个实施例中，浏览器接收到服务端返回的核心词对应的关联网站的相关信息后，可根据关联网站的相关信息生成关联网站的导航图表或导航栏。在一个实施例中，导航图表或导航栏中包括以关联网站名称为链接对象、以关联网站地址为链接目标的关联网站链接。

如图4所示，在一个实施例中，搜索词为“购物有哪些网站”，服务端提取搜索词中的核心词“购物”，查找到“购物”的关联网站“淘宝”、“亚马逊”等，并将关联网站进行分类，所分类别包括：“综合”、“服饰”、“数码”、“日用”、“导购”和“团购”。浏览器接收到服务端返回的关联网站相关信息后，生成包含关联网站链接的导航栏401并展示，导航栏中关联网站按照上述类别分类展示。

如图5所示，在一个实施例中，一种搜索系统，包括请求获取模块10、核心词提取模块20、关联网站查找模块30和网站信息返回模块40，其中：

请求获取模块10用于获取搜索请求。

在一个实施例中，请求获取模块10、核心词提取模块20、关联网站查找模块30和网站信息返回模块40位于服务端。请求获取模块10可接收浏览器提交的包含用户输入的搜索词的搜索请求。

核心词提取模块20用于提取搜索请求中包含的搜索词的核心词。核心词为搜索词中的可表示搜索词的关键信息的词。例如，搜索词“找工作的网站有哪些”的核心词为“找工作”。

如图6所示，在一个实施例中，核心词提取模块20包括搜索词提取模块201、分词模块202、重要指数计算模块203和核心词选取模块204，其中：

搜索词提取模块201用于提取搜索请求中的搜索词。

分词模块202用于将搜索词进行分词处理，得到搜索词中包含的分词。

在一个实施例中，搜索词提取模块201可解析搜索请求，提取用户输入的搜索词，分词模块202可按照预设规则将搜索词进行分词处理。

重要指数计算模块203用于计算分词的重要指数，和/或在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站并获取上述分词对应的关联网站的重要指数。

在一个实施例中，重要指数计算模块203可基于语义计算分词的重要指数。在一个实施例中，重要指数计算模块203可标注分词的词性，词性包括名词、动词、形容词、数词等；根据分词的词性以及分词在搜索词中的位置计算分词的重要指数。在一个实施例中，重要指数计算模块203可预先设置各类词性以及搜索词中的分词位置对应的权值，根据分词的词性对应的权值以及分词所在搜索词中的位置对应的权值计算该分词的重要指数。一般地，可设置名词对应的权值比其它类词性对应的权值高，并按照分词位置的先后顺序由低到高设置分词位置的权值，分词位置越靠前，则对应的权值越低。

在一个实施例中，重要指数计算模块203可预先计算搜索词与关联网站的对应关系中包含的关联网站的热门度。网站的热门度为反映网站受关注程度的指标，网站越受关注，则网站的热门度也越高。在一个实施例中，关联网站的热门度可根据关联网站的点击量计算得到。点击量越高，则网站的热门度也越高。进一步的，重要指数计算模块203可根据分词对应的关联网站的热门度计算分词对应的关联网站的重要指数。热门度越高，则重要指数也越高。

核心词选取模块204用于根据上述分词的重要指数和/或上述分词对应的关联网站的重要指数选取分词为上述搜索请求中包含的搜索词的核心词。

在一个实施例中，重要指数计算模块203可计算分词的重要指数，核心词选取模块204选取重要指数最高的分词为搜索请求中包含的搜索词的核心词。

在另一个实施例中，重要指数计算模块203可在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站，并获取上述分词对应的关联网站的重要指数，核心词选取模块204选取对应的关联网站的重要指数最高的分词为搜索词的核心词。

在又一个实施例中，重要指数计算模块203可计算分词的重要指数，以及在预先构建的搜索词与关联网站的对应关系中查找上述分词对应的关联网站，并获取上述分词对应的关联网站的重要指数，核心词选取模块204可结合上述分词的重要指数和上述分词对应的关联网站的重要指数选取某一分词为上述搜索请求中包含的搜索词的核心词。在一个实施例中，核心词选取模块204可选取分词的重要指数与分词对应的关联网站的重要指数的综合值最高的分词为搜索词对应的核心词。

关联网站查找模块30用于在预先构建的搜索词与关联网站的对应关系中查找核心词对应的关联网站。

如图7所示，在一个实施例中，上述搜索系统还包括对应关系构建模块50，用于构建所述搜索词与关联网站的对应关系。如图8所示，对应关系构建模块50包括搜索记录获取模块510、命中率统计模块520、关联度计算模块530和对应关系记录模块540，其中：

搜索记录获取模块510用于获取历史搜索记录，搜索记录中包含搜索词及搜索词对应的命中网站信息。搜索词对应的命中网站为搜索词对应的搜索结果中被用户点击的网页所属的网站。

命中率统计模块520用于统计搜索词对应的命中网站的命中率。在一个实施例中，命中率统计模块520可统计搜索记录中搜索词对应的各命中网站被选中的次数，进一步计算各命中网站被选中的次数占搜索词对应的所有命中网站被选中的次数总和的比值，即得到搜索词对应的命中网站的命中率。

关联度计算模块530用于根据搜索词对应的命中网站的命中率计算搜索词与命中网站的关联度。命中网站相对于搜索词的命中率越高，则该搜索词与该命中网站的关联度也越高。

对应关系记录模块540用于根据搜索词与命中网站的关联度选取搜索词对应的关联网站，记录搜索词与关联网站的对应关系。

在一个实施例中，对应关系记录模块540可选取与搜索词的关联度大于预设值的命中网站为搜索词对应的关联网站。在另一个实施例中，对应关系记录模块540可按照与搜索词的关联度从大到小的顺序选取预设数量个命中网站为搜索词对应的关联网站。在又一实施例中，对应关系记录模块540可选取与搜索词的关联度大于预设值的命中网站，进一步在选取的命中网站中按照与搜索词的关联度从大到小的顺序选取不超过预设数量的命中网站为搜索词对应的关联网站。

在一个实施例中，关联网站查找模块30可在对应关系构建模块50所构建的搜索词与关联网站的对应关系中查找核心词对应的关联网站。

网站信息返回模块40，返回核心词对应的关联网站的相关信息。在一个实施例中，网站信息返回模块40可向浏览器返回关联网站的网址、名称等信息。

在一个实施例中，上述搜索系统还包括分类模块（图中未示出）：将上述搜索词与关联网站的对应关系中搜索词对应的关联网站进行分类；网站信息返回模块40返回的核心词对应的关联网站的相关信息中包含关联网站的分类结果信息。

在一个实施例中，分类模块可预先设置搜索词对应的类别，例如，搜索词为“购物”，可设置“购物”对应的类别包括“综合”、“服饰”、“数码”、“日用”、“导购”和“团购”等。进一步的，分类模块可统计各类别在关联网站中的出现次数，设置出现次数最多的类别为搜索词对应的关联网站的类别。网站信息返回模块40可将类别名称以及属于该类别的关联网站的相关信息对应返回给浏览器。

如图9所示，在一个实施例中，上述搜索系统还包括网站导航生成模块60和展示模块70：网站导航生成模块用于根据核心词对应的关联网站的相关信息生成关联网站的导航图表或导航栏；展示模块用于展示导航图表或导航栏；请求获取模块10、核心词提取模块20、关联网站查找模块30、网站信息返回模块40和对应关系构建模块50位于服务端，网站导航生成模块60和展示模块70位于浏览器。

在一个实施例中，导航图表或导航栏中包括以关联网站名称为链接对象、以关联网站地址为链接目标的关联网站链接。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序控制相关的硬件来完成的，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种搜索方法，包括以下步骤：

获取搜索请求；

提取所述搜索请求中包含的搜索词的核心词，提取所述搜索请求中的搜索词，将所述搜索词进行分词处理，得到所述搜索词中包含的分词，在预先构建的搜索词与关联网站的对应关系中查找所述分词对应的关联网站并获取所述分词对应的关联网站的重要指数，根据所述分词对应的关联网站的重要指数选取分词为所述搜索请求中包含的搜索词的核心词；

返回所述核心词对应的关联网站的相关信息。

2.根据权利要求1所述的搜索方法，其特征在于，在所述获取搜索请求之前，所述方法还包括构建所述搜索词与关联网站的对应关系的步骤，包括：

获取历史搜索记录，搜索记录中包含搜索词及搜索词对应的命中网站信息；

统计所述搜索词对应的命中网站的命中率；

根据所述搜索词对应的命中网站的命中率计算所述搜索词与所述命中网站的关联度；

根据所述关联度选取所述搜索词对应的关联网站，记录所述搜索词与所述关联网站的对应关系。

3.根据权利要求1所述的搜索方法，其特征在于，所述提取搜索请求中包含的搜索词的核心词的步骤包括：

计算所述分词的重要指数；

根据所述分词的重要指数和所述分词对应的关联网站的重要指数选取分词为所述搜索请求中包含的搜索词的核心词。

4.根据权利要求1所述的搜索方法，其特征在于，所述方法还包括：将所述对应关系中搜索词对应的关联网站进行分类；

返回的所述核心词对应的关联网站的相关信息中包含所述核心词对应的关联网站的分类结果信息。

5.根据权利要求1或4所述的搜索方法，其特征在于，所述方法还包括：

根据所述核心词对应的关联网站的相关信息生成所述关联网站的导航图表或导航栏；

展示所述导航图表或导航栏。

6.一种搜索系统，其特征在于，包括：

请求获取模块，用于获取搜索请求；

核心词提取模块，用于提取所述搜索请求中包含的搜索词的核心词，包括搜索词提取模块，用于提取所述搜索请求中的搜索词，分词模块，用于将所述搜索词进行分词处理，得到所述搜索词中包含的分词，重要指数计算模块，用于在预先构建的搜索词与关联网站的对应关系中查找所述分词对应的关联网站并获取所述分词对应的关联网站的重要指数，核心词选取模块，用于根据所述分词对应的关联网站的重要指数选取分词为所述搜索请求中包含的搜索词的核心词；

7.根据权利要求6所述的搜索系统，其特征在于，所述系统还包括对应关系构建模块，所述对应关系构建模块用于构建所述搜索词与关联网站的对应关系，包括：

搜索记录获取模块，用于获取历史搜索记录，搜索记录中包含搜索词及搜索词对应的命中网站信息；

命中率统计模块，用于统计所述搜索词对应的命中网站的命中率；

关联度计算模块，用于根据所述搜索词对应的命中网站的命中率计算所述搜索词与所述命中网站的关联度；

对应关系记录模块，用于根据所述关联度选取所述搜索词对应的关联网站，记录所述搜索词与所述关联网站的对应关系。

8.根据权利要求6所述的搜索系统，其特征在于，所述重要指数计算模块，还用于计算所述分词的重要指数；

所述核心词选取模块，还用于根据所述分词的重要指数和所述分词对应的关联网站的重要指数选取分词为所述搜索请求中包含的搜索词的核心词。

9.根据权利要求6所述的搜索系统，其特征在于，所述系统还包括：

分类模块，用于将所述对应关系中搜索词对应的关联网站进行分类；

所述网站信息返回模块返回的所述核心词对应的关联网站的相关信息中包含所述核心词对应的关联网站的分类结果信息。

10.根据权利要求6或9所述的搜索系统，其特征在于，所述系统还包括：

网站导航生成模块，用于根据所述核心词对应的关联网站的相关信息生成所述关联网站的导航图表或导航栏；

展示模块，用于展示所述导航图表或导航栏。