CN104102723B

CN104102723B - 搜索内容提供方法和搜索引擎

Info

Publication number: CN104102723B
Application number: CN201410348072.5A
Authority: CN
Inventors: 孙连生; 万伟; 赵世奇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-07-21
Filing date: 2014-07-21
Publication date: 2017-07-25
Anticipated expiration: 2034-07-21
Also published as: CN104102723A

Abstract

本发明提出一种搜索内容提供方法和搜索引擎，其中，该搜索内容提供方法，包括：搜索引擎获取用户的搜索数据；搜索引擎根据搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合；搜索引擎根据搜索数据和预设关键词建立第一关联词集合中第一关联词与第二关联词集合中第二关联词的关联关系；以及当接收到包括预设关键词的搜索请求时，搜索引擎根据关联关系提供搜索内容。本发明的搜索内容提供方法，可根据该关联关系提供搜索内容，能够为用户推荐更加系统、清晰的搜索推荐，便于用户准确快速的获取需要的结果，能够高效准确地满足用户的搜索需求，用户搜索体验好。

Description

搜索内容提供方法和搜索引擎

技术领域

本发明涉及搜索技术领域，特别涉及一种搜索内容提供方法和搜索引擎。

背景技术

随着互联网技术的不断发展，互联网中的内容越来越丰富，用户可输入关键词并通过搜索引擎搜索需要的内容。但是，当用户输入的关键词不够全面具体时，搜索引擎返回的搜索结果则难以完全满足用户的搜索需求。目前，可通过交互搜索(即通过引导词或问答句子等交互形式引导或帮助用户完成搜索的方式)引导用户完成搜索。

在相关技术中，交互搜索所提供的用于引导用户的补充关键词的方式主要是通过与关键词相近的高频词汇提供给用户进行选择。但是上述交互搜索中补充搜索关键词的方式所提供的关键词缺少系统性，难以有条理地为用户补充关键词，并且部分内容可能与用户需要的结果关系不大，难以使用户快速高效的获取需要的内容，搜索体验差。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

为此，本发明的第一个目的在于提出一种搜索内容提供方法，能够为用户推荐更加系统、清晰的搜索推荐，便于用户准确快速的获取需要的结果。

本发明的第二个目的在于提出一种搜索引擎。

为达上述目的，根据本发明第一方面实施例提出了一种搜索内容提供方法，包括；搜索引擎获取用户的搜索数据；所述搜索引擎根据所述搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合；所述搜索引擎根据所述搜索数据和所述预设关键词建立所述第一关联词集合中第一关联词与所述第二关联词集合中第二关联词的关联关系；以及当接收到包括所述预设关键词的搜索请求时，所述搜索引擎根据所述关联关系提供搜索内容。

本发明实施例的搜索内容提供方法，根据用户的搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合，并建立两个关联词集合的关联关系，从而可根据该关联关系提供搜索内容，能够为用户推荐更加系统、清晰的搜索推荐，便于用户准确快速的获取需要的结果，且推荐内容与用户输入的关键词相关性高，能够高效准确地满足用户的搜索需求，用户搜索体验好。

本发明第二方面实施例提供了一种搜索引擎，包括：第一获取模块，用于获取用户的搜索数据；第二获取模块，用于根据所述搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合；建立模块，用于根据所述搜索数据和所述预设关键词建立所述第一关联词集合中第一关联词与所述第二关联词集合中第二关联词的关联关系；以及提供模块，用于当接收到包括所述预设关键词的搜索请求时，根据所述关联关系提供搜索内容。

本发明实施例的搜索引擎，根据用户的搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合，并建立两个关联词集合的关联关系，从而可根据该关联关系提供搜索内容，能够为用户推荐更加系统、清晰的搜索推荐，便于用户准确快速的获取需要的结果，且推荐内容与用户输入的关键词相关性高，能够高效准确地满足用户的搜索需求，用户搜索体验好。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的搜索内容提供方法的流程图；

图2为根据本发明一个具体实施例的搜索内容提供方法的流程图；

图3为根据本发明一个实施例的对候选词集合中的候选词进行聚类的示意图；

图4为根据本发明一个实施例的关联词知识体系的示意图；

图5为根据本发明另一个实施例的搜索内容提供方法的流程图；

图6为根据本发明一个实施例的搜索引擎的结构示意图；

图7为根据本发明一个具体实施例的搜索引擎的结构示意图；

图8为根据本发明另一个实施例的搜索引擎的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“多个”指两个或两个以上；术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

下面参考附图描述根据本发明实施例的搜索内容提供方法和搜索引擎。

本发明提出了一种搜索内容提供方法，包括：搜索引擎获取用户的搜索数据；搜索引擎根据搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合；搜索引擎根据搜索数据和预设关键词建立第一关联词集合中第一关联词与第二关联词集合中第二关联词的关联关系；以及当接收到包括预设关键词的搜索请求时，搜索引擎根据关联关系提供搜索内容。

图1为根据本发明一个实施例的搜索内容提供方法的流程图。如图1所示，根据本发明实施例的搜索内容提供方法，包括：

S101，搜索引擎获取用户的搜索数据。

其中，用户的搜索数据为用户的历史搜索记录。搜索数据包括网页搜索、图片搜索、新闻搜索、以及在社区问答系统等各个搜索方面中的历史搜索记录。

S102，搜索引擎根据搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合。

其中，第一关联词集合为对预设关键词进行修饰或者补充的词语的集合，第二关联词集合为对与预设关键词具有关联关系的第一关联词集合中的关联词进行概括类的词语的集合。举例来说，对于预设关键词“婚纱”，第一关联词集合中的第一关联词可为“白色”、“欧式”、“唯美”、“礼服”、“摄影”等，第二关联词集合中的第二关联词可为“”款式、“颜色”、“品牌”、“风格”等。

具体地，在本发明的实施例中，搜索引擎在获取到用户的搜索数据后，可根据预先建立的关键词库从搜索数据中分别获取关键词库中的关键词，然后，对于每个预设关键词来说，搜索引擎可从搜索数据中获取对该预设关键词进行修饰或补充的词语，并作为该预设关键词的第一关联词，也可以叫做关联点，并据此建立第一关联词集合。另外，搜索引擎可根据用户在社区问答系统中的历史搜索记录(即问答数据)中用户的提问句式来确定该预设关键词对应的第二关联词，也可叫做关联方面，并据此建立第二关联词集合，例如通过“【预设关键词】的【关联方面】有几种/几类”这种句式，在问答数据中进行筛选挖掘，就可获取与预设关键词具有关联关系的第二关联词(即对第一类关联词的概括的词语)。

S103，搜索引擎根据搜索数据和预设关键词建立第一关联词集合中第一关联词与第二关联词集合中第二关联词的关联关系。

具体地，在本发明的一个实施例中，问答数据中包括搜索关联方面的问句，对应的回答数据中可包括多个关联点，因此，搜索引擎可根据问答数据中包括关联方面的问句与包括关联点的回答的对应关系建立第一关联词与第二关联词的关联关系。

由此，对于关键词库中的每个预设关键字，搜索引擎可分别建立该预设关键字对应的第一关联词与第二关联词的关联关系，即关联词知识体系。

S104，当接收到包括预设关键词的搜索请求时，搜索引擎根据关联关系提供搜索内容。

在本发明的一个实施例中，搜索引擎在接收到包括预设关键字的搜索请求时，根据已建立的该预设关键字对应的关联词知识体系为用户进行搜索推荐、或者通过交互方式对用户进行搜索引导。

本发明实施例的搜索内容提供方法，可根据用户的搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合，并建立两个关联词集合的关联关系，从而可根据该关联关系提供搜索内容，能够为用户推荐更加系统、清晰的搜索推荐，便于用户准确快速的获取需要的结果，且推荐内容与用户输入的关键词相关性高，能够高效准确地满足用户的搜索需求，用户搜索体验好。

在本发明的一个实施例中，搜索数据可包括问答数据，因而搜索引擎根据搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合，具体可包括：搜索引擎根据搜索数据获取与预设搜索词具有关联关系的第一关联词集合；以及搜索引擎根据问答数据获取与预设关键词具有关联关系的第二关联词集合。具体地，图2为根据本发明一个具体实施例的搜索内容提供方法的流程图。如图2所示，根据本发明实施例的搜索内容提供方法，包括：

S201，搜索引擎获取用户的搜索数据。

S202，搜索引擎对搜索数据进行分词以获取多个分词。

在本发明的实施例中，搜索引擎可通过相关技术中的分词算法对搜索数据进行分词，以得到搜索数据中的多个分词。

S203，搜索引擎从多个分词中获取与预设关键词具有关联关系的分词，并分别获取每个与预设关键词具有关联关系的分词与预设关键词的相关度。

其中，与预设关键词具有关联关系的分词是指在搜索数据的每条搜索记录对预设关键词进行修饰或补充的词语，这些词语大多在预设关键词之前或之后出现，因此可根据词语的位置特征获取与预设关键词具有关联关系的分词。

在本发明的一个实施例中，搜索引擎可通过以下公式计算每个与预设关键词具有关联关系的分词与预设关键词的相关度：

其中，WORD为与预设关键词具有关联关系的分词，KEY为预设关键词，P(WORD&KEY)为WORD与KEY的相关度，TF(WORD&KEY)为WORD与KEY同时出现的频率，TF(WORD)为WORD出现的频率，TF(KEY)为KEY出现的频率。

S204，搜索引擎根据相关度筛选出候选词集合。

在本发明的一个实施例中，搜索引擎可根据每个与预设关键词具有关联关系的分词WORD与预设关键字KEY的相关度P(WORD&KEY)和WORD出现频率TF(WORD)筛选出预设数量的与KEY具有关联关系分词，得到候选词集合。具体地，搜索引擎可将P(WORD&KEY)和TF(WORD)分别设定不同的权重，从而可根据P(WORD&KEY)和TF(WORD)及其权重值计算每个WORD的综合得分，并筛选出综合得分较高的预设数量的分词放入候选词集合。候选词集合中的分词同时满足于预设关键词匹配以及出现频率高这两个条件，从而，候选词集合中的分词既符合用户认知逻辑又能满足大多数用户的搜索需求。

S205，搜索引擎将候选词集合中同类别的候选词进行聚类，以获取包括多个第一关词类的第一关联词集合。

在本发明的一个实施例中，如图3所示，为根据本发明一个实施例的对候选词集合中的候选词进行聚类的示意图，搜索引擎将候选词集合中同类别的候选词进行聚类，具体包括：

搜索引擎获取候选词集合中每两个候选词之间的相似度。

搜索引擎对相似度进行回归映射，以获取每两个候选词之间的相似度的回归值。更具体地，搜索引擎可为每个候选词添加预设维度的特征，其中，预设维度可为任意整数，特征的维度越多，得到的聚类结果越准确，但计算量也随之增大，在本本发明的一个优选实施例中，预设维度可设为10。举例来说，这些特征可包括：候选词的相关词(与候选词的关系比较大的词)、同位词(经常与候选词一起出现的词)、上下位词(经常在候选词之前或者之后出现的词)等。然后，搜索引擎可将具有预设维度的特征的候选词通过Random-Forest随机森林模型将每两个候选词之间的相似度进行回归处理，以得到每两个候选词之间的相似度的回归值，即将相似度映射到[0,1]之间的值。

搜索引擎根据回归值对候选词集合进行层次聚类。在本发明的实施例中，层次聚类的过程是：如果任意两个候选词之间的相关度的回归值小于阈值T，则将这两个候选词聚为一类，由此，可将候选词集合中的多个候选词聚类a类，然后计算a类中任意两个聚类之间的相关度的回归值，继续将回归值小于阈值T的两个聚类聚为一类，直到，任意两个聚类直接的相关度的回归值大于或等于阈值T，则停止聚类，对候选词结合的聚类完成，得到第一关联词集合。其中，阈值T是根据大量的语料进行分析得到的一个稳定值。

从而，可将候选词集合中属于同类别或者相似的分词聚为一类，在保证获取全面的预设关键词的修饰或补充词语的同时，避免了重复，减小了数据量。

S206，搜索引擎根据预设问题模板对问答数据中的问题数据进行筛选，其中，预设问题模板包括预设关键词，以获取与预设关键词具有关联关系的多个第二关联词。

其中，问答数据是基于问答社区(community-based question and answering，cQA)系统的数据获取的，问答数据包括问题数据和回答数据。预设问题模板可为“【预设关键词】的【关联方面】有几种/几类”这种将预设关键词与关联方面关联起来的句式。如果在问答数据中，一个词语与预设关键词符合上述问题模板，则该词语与预设关键词具有关联关系。因此，在本发明的实施例中，可通过预设问题模板对问答数据中的问题数据进行挖掘，从而可在问题数据中挖掘出关键词库中每个预设关键词具有关联关系的多个第二关联词。

S207，搜索引擎分别获取每个第二关联词与预设关键词的对应关系在问答数据中的出现次数。

在本发明的一个实施例中，对于每个预设关键词，可分别获取该预设关键词相关联的每个第二关联词与该预设关键词的对应关系在问答数据中出现的次数，即每个第二关联词与预设关键词在问答数据中共同出现的次数，由此得到次数集合R_ka，包括每个第二关联词对应的出现次数。

S208，搜索引擎根据每个第二关联词与预设关键词的对应关系在问答数据中的出现次数对多个第二关联词进行筛选，以获取第二关联词集合。

具体地，在本发明的一个实施例中，可通过以下公式对多个第二关联词进行筛选：

R>AVG{R_ka-MAX(R_ka)-MIN(R_ka)}，

其中，R为每个第二关联词与预设关键词的对应关系在问答数据中的出现次数，MAX(R_ka)为次数集合R_ka中次数的最大值，MIN(R_ka)为次数集合R_ka中次数的最小值，AVG{R_ka-MAX(R_ka)-MIN(R_ka)}为次数集合R_ka中出现最大次数和最小次数之外的次数的平均值。从实际的数据知道大于平均值的关联方面的质量比较高，由此，通过出去次数最大值和最小值以避免特别大或者特别小的数字对平均值的影响，可以从该预设关键词对应的多个第二关联词中筛选出出现次数大于平均值的第二关联词，以建立关键词库中的每个预设关键词所对应的第二关联词集合。

S209，搜索引擎获取问答数据中包括第二关联词集合中第二关联词的问题数据和包括第一关联词集合中的第二关联词的回答数据，并根据问答数据中的问题数据和回答数据的对应关系分别获取每个第一关联词与每个第二类关联词的对应关系。

在本发明的一个实施例中，第一关联词集合中包括多个第一关联词的聚类，每个聚类中包括至少一个第一关联词，搜索引擎可根据第一关联词所在的回答数据与第二关联词所在的问题数据的对应关系建立每个第一关联词的聚类与第二关联词的对应关系。

S210搜索引擎根据每个第一关联词与每个第二类关联词的对应关系获取每个第一关联词类对应的第二关联词。

在本发明的一个实施例中，具体地，对于第一关联词集合中的一个聚类(第一关联词类)<p1，p2，…，Pm>以及第二关联词集合<A1，A2，…，An>，搜索引擎可通过投票选出聚类<p1，p2，…，Pm>与第二关联词集合中每个第二关联词的对应关系的出现次数，并得到对应关系的出现次数集合<R1，R2，…，Rn>，其中，聚类<p1，p2，…，Pm>第i个第二关联词的对应关系的出现次数Ri＝∑k_pj，k_pj为聚类中<p1，p2，…，Pm>第j个第一关联词pj与第i个第二关联词的对应关系的出现次数。

然后，获取<R1，R2，…，Rn>中的最大值Rmax，并将Rmax对应的第二关联词作为第一关联词类<p1，p2，…，Pm>的第二关联词。

由此，可获取第一关联词集合中每个第一关联词类所对应的第二关联词，并将第二关联词作为该第一关联词类的标签，建立关联词知识体系。举例来说，对于关键词“婚纱”，可建立如图4所示的关联词知识体系。

S211，当接收到包括预设关键词的搜索请求时，搜索引擎根据关联关系提供搜索内容。

在本发明的实施例中，搜索引擎在接收到包括预设关键词的搜索请求时，可根据已建立的与预设关键词对应的第一关联词集合与第二关联词集合的关联关系通过不同的方式提供搜索内容。

具体地，搜索引擎可提供与预设关键词对应的第一关联词集合中第一关联词与第二关联词集合中第二关联词的关联关系，以便于提供不同方面的交互搜索；还可提供与预设关键词对应的第二关联词集合中的至少一个第二关联词，并接收用户对至少一个第二关联词的点击操作，显示与点击操作对应第二关联词相关联的第一关联词，以对用户进行搜索引导，逐步深层为用户提供对应的关联方面，直至最终的关联点；还可根据第一关联词集合中第一关联词与第二关联词集合中第二关联词的关联关系进行搜索选择提示，并接收用户针对搜索选择提示的输入操作，然后根据输入操作提供对应的第一关联词或第二关联词，例如，当用户搜索“白色婚纱、红色婚纱、中式婚纱、欧式婚纱”时，可将婚纱分类显示给用户，也可为用户提供选项“喜欢婚纱的款式？”，以便用户选择需要的第一关联词或第二关联词。

在本发明的实施例中，搜索引擎还可基于关联词知识体系在搜索中的衍生应用，通过交互词的知识体系找到与其关联的物品等的关系，当用户搜索某件物品时，会出现相同或者类似“关联方面”的物品，对用户进行相关推荐。如当用户选择了中式的婚纱，也可以推荐其他款式如欧式的婚纱等，提供多样性选择。

本发明实施例的搜索内容提供方法，可根据用户的搜索数据获取与预设关键词具有关联关系的第一关联词集合，并根据问答数据获取与预设关键词具有关联关系的第二关联词集合，并建立两个关联词集合的关联关系，从而可根据该关联关系提供搜索内容，从而能够更准确的建立两个关联词集合的关联关系，并据此为用户提供的搜索内容更加系统、清晰、准确，相关性更高，进一步提升了用户体验。

此外，在问答数据中的回答中，可能存在一些第一关联词集合中未包括的与预设关键词具有关联关系的词语(用于修饰或补充预设关键词的词语)，因此可利用这些词语对第一关联词集合进行补充更新。图5为根据本发明另一个实施例的搜索内容提供方法的流程图。如图5所示，该搜索内容提供方法，包括：

S501，搜索引擎获取用户的搜索数据。

S502，搜索引擎根据搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合。

S503，搜索引擎在问答数据中筛选出包括第一关联词的回答数据。

在本发明的实施例中，搜索引擎可通过对问答数据进行分词、词性分析、文字识别等方法筛选出包括第一关联词的回答数据。

S504，搜索引擎对包括第一关联词的回答数据进行分析，以获取包括第一关联词的回答数据中与对应的第一关联词同时出现的频率超过预设频率的共现词。

其中，共现词为与第一关联词在回答数据中并列出现的频率超过预设频率的词语。搜索引擎可通过对包括第一关联词的回答数据进行分词后，各个分词的上下位置关系、词性等特征获取，具体识别方法不限。

S505，搜索引擎根据共现词更新第一关联词集合，并建立更新后的第一关联词集合中的第一关联词与第二关联词集合中的第二关联词的关联关系。

具体地，对于获取到的第一关联词的共现词，如果在第一关联词集合中已经存在，则可忽略，如果不存在，则可加入值第一关联词集合，并确定该共现词所在的聚类，从而对第一关联词集合进行更新，然后根据上述方法，更新第一关联词集合与第二关联词集合的关联关系。

S506，搜索引擎根据搜索数据和预设关键词建立第一关联词集合中第一关联词与第二关联词集合中第二关联词的关联关系。

S507，当接收到包括预设关键词的搜索请求时，搜索引擎根据关联关系提供搜索内容。

本发明实施例的搜索内容提供方法，可通过问答数据进一步获取与预设关键词具有关联关系的关联词，并对第一关联词集合进行补充，并进一步完善第一关联词集合与第二关联词集合的关联关系，使其更加完整、覆盖面更广，进一步提升了用户体验。

为了实现上述实施例，本发明还提出一种搜索引擎。

一种搜索引擎，包括：第一获取模块，用于获取用户的搜索数据；第二获取模块，用于根据搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合；建立模块，用于根据搜索数据和预设关键词建立第一关联词集合中第一关联词与第二关联词集合中第二关联词的关联关系；以及提供模块，用于当接收到包括预设关键词的搜索请求时，根据关联关系提供搜索内容。

图6为根据本发明一个实施例的搜索引擎的结构示意图。

如图6所示，根据本发明实施例的搜索引擎，包括：第一获取模块10、第二获取模块20、建立模块30和提供模块40。

具体地，第一获取模块10用于获取用户的搜索数据。其中，用户的搜索数据为用户的历史搜索记录。搜索数据包括网页搜索、图片搜索、新闻搜索、以及在社区问答系统等各个搜索方面中的历史搜索记录。

第二获取模块20用于根据搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合。其中，第一关联词集合为对预设关键词进行修饰或者补充的词语的集合，第二关联词集合为对与预设关键词具有关联关系的第一关联词集合中的关联词进行概括类的词语的集合。举例来说，对于预设关键词“婚纱”，第一关联词集合中的第一关联词可为“白色”、“欧式”、“唯美”、“礼服”、“摄影”等，第二关联词集合中的第二关联词可为“”款式、“颜色”、“品牌”、“风格”等。

更具体地，在本发明的实施例中，在第一获取模块10获取到用户的搜索数据后，第二获取模块20可根据预先建立的关键词库从搜索数据中分别获取关键词库中的关键词，然后，对于每个预设关键词来说，第二获取模块20可从搜索数据中获取对该预设关键词进行修饰或补充的词语，并作为该预设关键词的第一关联词，也可以叫做关联点，并据此建立第一关联词集合。另外，第二获取模块20可根据用户在社区问答系统中的历史搜索记录(即问答数据)中用户的提问句式来确定该预设关键词对应的第二关联词，也可叫做关联方面，并据此建立第二关联词集合，例如通过“【预设关键词】的【关联方面】有几种/几类”这种句式，在问答数据中进行筛选挖掘，就可获取与预设关键词具有关联关系的第二关联词(即对第一类关联词的概括的词语)。

建立模块30用于根据搜索数据和预设关键词建立第一关联词集合中第一关联词与第二关联词集合中第二关联词的关联关系。更具体地，在本发明的一个实施例中，问答数据中包括搜索关联方面的问句，对应的回答数据中可包括多个关联点，因此，建立模块30可根据问答数据中包括关联方面的问句与包括关联点的回答的对应关系建立第一关联词与第二关联词的关联关系。

由此，对于关键词库中的每个预设关键字，建立模块30可分别建立该预设关键字对应的第一关联词与第二关联词的关联关系，即关联词知识体系。

提供模块40用于当接收到包括预设关键词的搜索请求时，根据关联关系提供搜索内容。在本发明的一个实施例中，提供模块40在接收到包括预设关键字的搜索请求时，根据已建立的该预设关键字对应的关联词知识体系为用户进行搜索推荐、或者通过交互方式对用户进行搜索引导。

更具体地，提供模块40可提供与预设关键词对应的第一关联词集合中第一关联词与第二关联词集合中第二关联词的关联关系，以便于提供不同方面的交互搜索；提供模块40还可提供与预设关键词对应的第二关联词集合中的至少一个第二关联词，并接收用户对至少一个第二关联词的点击操作，显示与点击操作对应第二关联词相关联的第一关联词，以对用户进行搜索引导，逐步深层为用户提供对应的关联方面，直至最终的关联点；提供模块40还可根据第一关联词集合中第一关联词与第二关联词集合中第二关联词的关联关系进行搜索选择提示，并接收用户针对搜索选择提示的输入操作，然后根据输入操作提供对应的第一关联词或第二关联词，例如，当用户搜索“白色婚纱、红色婚纱、中式婚纱、欧式婚纱”时，提供模块40可将婚纱分类显示给用户，也可为用户提供选项“喜欢婚纱的款式？”，以便用户选择需要的第一关联词或第二关联词。

在本发明的实施例中，提供模块40还可基于关联词知识体系在搜索中的衍生应用，通过交互词的知识体系找到与其关联的物品等的关系，当用户搜索某件物品时，会出现相同或者类似“关联方面”的物品，对用户进行相关推荐。如当用户选择了中式的婚纱，也可以推荐其他款式如欧式的婚纱等，提供多样性选择。

本发明实施例的搜索引擎，可根据用户的搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合，并建立两个关联词集合的关联关系，从而可根据该关联关系提供搜索内容，能够为用户推荐更加系统、清晰的搜索推荐，便于用户准确快速的获取需要的结果，且推荐内容与用户输入的关键词相关性高，能够高效准确地满足用户的搜索需求，用户搜索体验好。

在本发明的一个实施例中，搜索数据包括问答数据，第二获取模块20具体用于：根据搜索数据获取与预设搜索词具有关联关系的第一关联词集合；以及根据问答数据获取与预设关键词具有关联关系的第二关联词集合。更具体地，图7为根据本发明一个具体实施例的搜索引擎的结构示意图。

如图7所示，根据本发明实施例的搜索引擎，包括：第一获取模块10、第二获取模块20、建立模块30和提供模块40，其中，第二获取模块20具体包括：分词单元21、第一获取单元22、第二筛选单元23、聚类单元24、挖掘单元25、第二获取单元26和第二筛选单元27，建立模块30具体包括：第三获取单元31和第四获取单元32。

具体地，分词单元21用于对搜索数据进行分词以获取多个分词。在本发明的实施例中，分词单元21可通过相关技术中的分词算法对搜索数据进行分词，以得到搜索数据中的多个分词。

第一获取单元22用于从多个分词中获取与预设关键词具有关联关系的分词，并分别获取每个与预设关键词具有关联关系的分词与预设关键词的相关度。其中，与预设关键词具有关联关系的分词是指在搜索数据的每条搜索记录对预设关键词进行修饰或补充的词语，这些词语大多在预设关键词之前或之后出现，因此第一获取单元22可根据词语的位置特征获取与预设关键词具有关联关系的分词。

在本发明的一个实施例中，第一获取单元22可通过以下公式计算每个与预设关键词具有关联关系的分词与预设关键词的相关度：

第二筛选单元23用于根据相关度筛选出候选词集合。在本发明的一个实施例中，第二筛选单元23可根据每个与预设关键词具有关联关系的分词WORD与预设关键字KEY的相关度P(WORD&KEY)和WORD出现频率TF(WORD)筛选出预设数量的与KEY具有关联关系分词，得到候选词集合。具体地，第二筛选单元23可将P(WORD&KEY)和TF(WORD)分别设定不同的权重，从而可根据P(WORD&KEY)和TF(WORD)及其权重值计算每个WORD的综合得分，并筛选出综合得分较高的预设数量的分词放入候选词集合。候选词集合中的分词同时满足于预设关键词匹配以及出现频率高这两个条件，从而，候选词集合中的分词既符合用户认知逻辑又能满足大多数用户的搜索需求。

聚类单元24用于将候选词集合中同类别的候选词进行聚类，以获取包括多个第一关词类的第一关联词集合。在本发明的一个实施例中，聚类单元24具体用于：获取候选词集合中每两个候选词之间的相似度；对相似度进行回归映射，以获取每两个候选词之间的相似度的回归值；根据回归值对候选词集合进行层次聚类。

更具体地，聚类单元24可为每个候选词添加预设维度的特征，其中，预设维度可为任意整数，特征的维度越多，得到的聚类结果越准确，但计算量也随之增大，在本本发明的一个优选实施例中，预设维度可设为10。举例来说，这些特征可包括：候选词的相关词(与候选词的关系比较大的词)、同位词(经常与候选词一起出现的词)、上下位词(经常在候选词之前或者之后出现的词)等。然后，搜索引擎可将具有预设维度的特征的候选词通过Random-Forest随机森林模型将每两个候选词之间的相似度进行回归处理，以得到每两个候选词之间的相似度的回归值，即将相似度映射到[0,1]之间的值。

其中，层次聚类的过程是：如果任意两个候选词之间的相关度的回归值小于阈值T，则将这两个候选词聚为一类，由此，聚类单元24可将候选词集合中的多个候选词聚类a类，然后计算a类中任意两个聚类之间的相关度的回归值，继续将回归值小于阈值T的两个聚类聚为一类，直到，任意两个聚类直接的相关度的回归值大于或等于阈值T，则停止聚类，对候选词结合的聚类完成，得到第一关联词集合。其中，阈值T是根据大量的语料进行分析得到的一个稳定值。从而，可将候选词集合中属于同类别或者相似的分词聚为一类，在保证获取全面的预设关键词的修饰或补充词语的同时，避免了重复，减小了数据量。

挖掘单元25用于根据预设问题模板对问答数据中的问题数据进行筛选，其中，预设问题模板包括预设关键词，以获取与预设关键词具有关联关系的多个第二关联词。其中，问答数据是基于问答社区(community-based question and answering，cQA)系统的数据获取的，问答数据包括问题数据和回答数据。预设问题模板可为“【预设关键词】的【关联方面】有几种/几类”这种将预设关键词与关联方面关联起来的句式。如果在问答数据中，一个词语与预设关键词符合上述问题模板，则该词语与预设关键词具有关联关系。因此，在本发明的实施例中，可通过预设问题模板对问答数据中的问题数据进行挖掘，从而可在问题数据中挖掘出关键词库中每个预设关键词具有关联关系的多个第二关联词。

第二获取单元26用于分别获取每个第二关联词与预设关键词的对应关系在问答数据中的出现次数。在本发明的一个实施例中，对于每个预设关键词，第二获取单元26可分别获取该预设关键词相关联的每个第二关联词与该预设关键词的对应关系在问答数据中出现的次数，即每个第二关联词与预设关键词在问答数据中共同出现的次数，由此得到次数集合R_ka，包括每个第二关联词对应的出现次数。

第二筛选单元27用于根据每个第二关联词与预设关键词的对应关系在问答数据中的出现次数对多个第二关联词进行筛选，以获取第二关联词集合。更具体地，在本发明的一个实施例中，第二筛选单元27可通过以下公式对多个第二关联词进行筛选：

R>AVG{R_ka-MAX(R_ka)-MIN(R_ka)}，

第三获取单元31用于获取问答数据中包括第二关联词集合中第二关联词的问题数据和包括第一关联词集合中的第二关联词的回答数据，并根据问答数据中的问题数据和回答数据的对应关系分别获取每个第一关联词与每个第二类关联词的对应关系。在本发明的一个实施例中，第一关联词集合中包括多个第一关联词的聚类，每个聚类中包括至少一个第一关联词，第三获取单元31可根据第一关联词所在的回答数据与第二关联词所在的问题数据的对应关系建立每个第一关联词的聚类与第二关联词的对应关系。

第四获取单元32用于根据每个第一关联词与每个第二类关联词的对应关系获取每个第一关联词类对应的第二关联词。在本发明的一个实施例中，更具体地，对于第一关联词集合中的一个聚类(第一关联词类)<p1，p2，…，Pm>以及第二关联词集合<A1，A2，…，An>，第四获取单元32可通过投票选出聚类<p1，p2，…，Pm>与第二关联词集合中每个第二关联词的对应关系的出现次数，并得到对应关系的出现次数集合<R1，R2，…，Rn>，其中，聚类<p1，p2，…，Pm>第i个第二关联词的对应关系的出现次数Ri＝∑k_pj，k_pj为聚类中<p1，p2，…，Pm>第j个第一关联词pj与第i个第二关联词的对应关系的出现次数。

本发明实施例的搜索引擎，可根据用户的搜索数据获取与预设关键词具有关联关系的第一关联词集合，并根据问答数据获取与预设关键词具有关联关系的第二关联词集合，并建立两个关联词集合的关联关系，从而可根据该关联关系提供搜索内容，从而能够更准确的建立两个关联词集合的关联关系，并据此为用户提供的搜索内容更加系统、清晰、准确，相关性更高，进一步提升了用户体验。

图8为根据本发明另一个实施例的搜索引擎的结构示意图。如图8所示，该搜索引擎包括：第一获取模块10、第二获取模块20、建立模块30、提供模块40、筛选模块50、分析模块60和更新模块70。

筛选模块50用于在问答数据中筛选出包括第一关联词的回答数据。在本发明的实施例中，筛选模块50可通过对问答数据进行分词、词性分析、文字识别等方法筛选出包括第一关联词的回答数据。

分析模块60用于对包括第一关联词的回答数据进行分析，以获取包括第一关联词的回答数据中与对应的第一关联词同时出现的频率超过预设频率的共现词，其中，共现词为与第一关联词在回答数据中并列出现的频率超过预设频率的词语。分析模块60可通过对包括第一关联词的回答数据进行分词后，各个分词的上下位置关系、词性等特征获取，具体识别方法不限。

更新模块70用于根据共现词更新第一关联词集合，并建立更新后的第一关联词集合中的第一关联词与第二关联词集合中的第二关联词的关联关系。更具体地，对于获取到的第一关联词的共现词，如果在第一关联词集合中已经存在，则可忽略，如果不存在，则可加入值第一关联词集合，并确定该共现词所在的聚类，从而对第一关联词集合进行更新，然后根据上述方法，更新第一关联词集合与第二关联词集合的关联关系。

本发明实施例的搜索引擎，可通过问答数据进一步获取与预设关键词具有关联关系的关联词，并对第一关联词集合进行补充，并进一步完善第一关联词集合与第二关联词集合的关联关系，使其更加完整、覆盖面更广，进一步提升了用户体验。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种搜索内容提供方法，其特征在于，包括：

搜索引擎获取用户的搜索数据；

所述搜索引擎根据所述搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合，其中，所述第一关联词集合为对所述预设关键词进行修饰或者补充的词语的集合，所述第二关联词集合为对与所述预设关键词具有关联关系的第一关联词集合中的关联词进行概括类的词语的集合；

所述搜索引擎根据所述搜索数据和所述预设关键词建立所述第一关联词集合中第一关联词与所述第二关联词集合中第二关联词的关联关系；以及

当接收到包括所述预设关键词的搜索请求时，所述搜索引擎根据所述关联关系提供搜索内容。

2.如权利要求1所述的搜索内容提供方法，其特征在于，所述搜索数据包括问答数据，所述搜索引擎根据所述搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合，具体包括：

所述搜索引擎根据所述搜索数据获取与所述预设关键词具有关联关系的第一关联词集合；以及

所述搜索引擎根据所述问答数据获取与所述预设关键词具有关联关系的第二关联词集合。

3.如权利要求2所述的搜索内容提供方法，其特征在于，所述搜索引擎根据所述搜索数据获取与所述预设关键词具有关联关系的第一关联词集合，具体包括：

所述搜索引擎对所述搜索数据进行分词以获取多个分词；

所述搜索引擎从所述多个分词中获取与所述预设关键词具有关联关系的分词，并分别获取每个与所述预设关键词具有关联关系的分词与所述预设关键词的相关度；

所述搜索引擎根据所述相关度筛选出候选词集合；

所述搜索引擎将所述候选词集合中同类别的候选词进行聚类，以获取包括多个第一关词类的所述第一关联词集合。

4.如权利要求3所述的搜索内容提供方法，其特征在于，所述搜索引擎将所述候选词集合中同类别的候选词进行聚类，具体包括：

所述搜索引擎获取所述候选词集合中每两个候选词之间的相似度；

所述搜索引擎对所述相似度进行回归映射，以获取每两个候选词之间的相似度的回归值；

所述搜索引擎根据所述回归值对所述候选词集合进行层次聚类。

5.如权利要求2所述的搜索内容提供方法，其特征在于，所述搜索引擎根据所述问答数据获取与所述预设关键词具有关联关系的第二关联词集合，具体包括：

所述搜索引擎根据预设问题模板对所述问答数据中的问题数据进行筛选，其中，所述预设问题模板包括所述预设关键词，以获取与所述预设关键词具有关联关系的多个第二关联词；

所述搜索引擎分别获取每个第二关联词与所述预设关键词的对应关系在所述问答数据中的出现次数；

所述搜索引擎根据所述每个第二关联词与所述预设关键词的对应关系在所述问答数据中的出现次数对所述多个第二关联词进行筛选，以获取所述第二关联词集合。

6.如权利要求3所述的搜索内容提供方法，其特征在于，所述搜索引擎根据所述搜索数据和所述预设关键词建立所述第一关联词集合中第一关联词与所述第二关联词集合中第二关联词的关联关系，具体包括：

所述搜索引擎获取所述问答数据中包括所述第二关联词集合中第二关联词的问题数据和包括所述第一关联词集合中的第二关联词的回答数据，并根据所述问答数据中的问题数据和回答数据的对应关系分别获取每个第一关联词与每个第二类关联词的对应关系；

所述搜索引擎根据所述每个第一关联词与每个第二类关联词的对应关系获取每个第一关联词类对应的第二关联词。

7.如权利要求2所述的搜索内容提供方法，其特征在于，还包括：

所述搜索引擎在所述问答数据中筛选出包括所述第一关联词的回答数据；

所述搜索引擎对包括所述第一关联词的回答数据进行分析，以获取所述包括所述第一关联词的回答数据中与对应的第一关联词同时出现的频率超过预设频率的共现词；

所述搜索引擎根据所述共现词更新所述第一关联词集合，并建立更新后的第一关联词集合中的第一关联词与所述第二关联词集合中的第二关联词的关联关系。

8.如权利要求1-7任一项所述的搜索内容提供方法，其特征在于，所述搜索引擎根据所述关联关系提供搜索内容，具体包括：

所述搜索引擎提供与所述预设关键词对应的所述第一关联词集合中第一关联词与所述第二关联词集合中第二关联词的关联关系。

9.如权利要求1-7任一项所述的搜索内容提供方法，其特征在于，所述搜索引擎根据所述关联关系提供搜索内容，具体包括：

所述搜索引擎提供与所述预设关键词对应的所述第二关联词集合中的至少一个第二关联词；

所述搜索引擎接收用户对所述至少一个第二关联词的点击操作，并显示与所述点击操作对应第二关联词相关联的第一关联词。

10.如权利要求1-7任一项所述的搜索内容提供方法，其特征在于，所述搜索引擎根据所述关联关系提供搜索内容，具体包括：

所述搜索引擎根据所述第一关联词集合中第一关联词与所述第二关联词集合中第二关联词的关联关系进行搜索选择提示；

所述搜索引擎接收用户针对所述搜索选择提示的输入操作，并根据所述输入操作提供对应的第一关联词或第二关联词。

11.一种搜索引擎，其特征在于，包括：

第一获取模块，用于获取用户的搜索数据；

第二获取模块，用于根据所述搜索数据获取与预设关键词具有关联关系的第一关联词集合和第二关联词集合，其中，所述第一关联词集合为对所述预设关键词进行修饰或者补充的词语的集合，所述第二关联词集合为对与所述预设关键词具有关联关系的第一关联词集合中的关联词进行概括类的词语的集合；

建立模块，用于根据所述搜索数据和所述预设关键词建立所述第一关联词集合中第一关联词与所述第二关联词集合中第二关联词的关联关系；以及

提供模块，用于当接收到包括所述预设关键词的搜索请求时，根据所述关联关系提供搜索内容。

12.如权利要求11所述的搜索引擎，其特征在于，所述搜索数据包括问答数据，所述第二获取模块具体用于：

根据所述搜索数据获取与所述预设关键词具有关联关系的第一关联词集合；以及

根据所述问答数据获取与所述预设关键词具有关联关系的第二关联词集合。

13.如权利要求12所述的搜索引擎，其特征在于，所述第二获取模块具体包括：

分词单元，用于对所述搜索数据进行分词以获取多个分词；

第一获取单元，用于从所述多个分词中获取与所述预设关键词具有关联关系的分词，并分别获取每个与所述预设关键词具有关联关系的分词与所述预设关键词的相关度；

第二筛选单元，用于根据所述相关度筛选出候选词集合；

聚类单元，用于将所述候选词集合中同类别的候选词进行聚类，以获取包括多个第一关词类的所述第一关联词集合。

14.如权利要求13所述的搜索引擎，其特征在于，所述聚类单元具体用于：

获取所述候选词集合中每两个候选词之间的相似度；

对所述相似度进行回归映射，以获取每两个候选词之间的相似度的回归值；

根据所述回归值对所述候选词集合进行层次聚类。

15.如权利要求12所述的搜索引擎，其特征在于，所述第二获取模块具体包括：

挖掘单元，用于根据预设问题模板对所述问答数据中的问题数据进行筛选，其中，所述预设问题模板包括所述预设关键词，以获取与所述预设关键词具有关联关系的多个第二关联词；

第二获取单元，用于分别获取每个第二关联词与所述预设关键词的对应关系在所述问答数据中的出现次数；

第二筛选单元，用于根据所述每个第二关联词与所述预设关键词的对应关系在所述问答数据中的出现次数对所述多个第二关联词进行筛选，以获取所述第二关联词集合。

16.如权利要求13所述的搜索引擎，其特征在于，所述建立模块具体包括：

第三获取单元，用于获取所述问答数据中包括所述第二关联词集合中第二关联词的问题数据和包括所述第一关联词集合中的第二关联词的回答数据，并根据所述问答数据中的问题数据和回答数据的对应关系分别获取每个第一关联词与每个第二类关联词的对应关系；

第四获取单元，用于根据所述每个第一关联词与每个第二类关联词的对应关系获取每个第一关联词类对应的第二关联词。

17.如权利要求12所述的搜索引擎，其特征在于，还包括：

筛选模块，用于在所述问答数据中筛选出包括所述第一关联词的回答数据；

分析模块，用于对包括所述第一关联词的回答数据进行分析，以获取所述包括所述第一关联词的回答数据中与对应的第一关联词同时出现的频率超过预设频率的共现词；

更新模块，用于根据所述共现词更新所述第一关联词集合，并建立更新后的第一关联词集合中的第一关联词与所述第二关联词集合中的第二关联词的关联关系。

18.如权利要求11-17任一项所述的搜索引擎，其特征在于，所述提供模块具体用于：

提供与所述预设关键词对应的所述第一关联词集合中第一关联词与所述第二关联词集合中第二关联词的关联关系。

19.如权利要求11-17任一项所述的搜索引擎，其特征在于，所述提供模块具体用于：

提供与所述预设关键词对应的所述第二关联词集合中的至少一个第二关联词；

接收用户对所述至少一个第二关联词的点击操作，并显示与所述点击操作对应第二关联词相关联的第一关联词。

20.如权利要求11-17任一项所述的搜索引擎，其特征在于，所述提供模块具体用于：

根据所述第一关联词集合中第一关联词与所述第二关联词集合中第二关联词的关联关系进行搜索选择提示；

接收用户针对所述搜索选择提示的输入操作，并根据所述输入操作提供对应的第一关联词或第二关联词。