CN104199875A

CN104199875A - 一种搜索推荐方法及装置

Info

Publication number: CN104199875A
Application number: CN201410412536.4A
Authority: CN
Inventors: 孙连生; 万伟; 李婷婷; 赵世奇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-08-20
Filing date: 2014-08-20
Publication date: 2014-12-10
Anticipated expiration: 2034-08-20
Also published as: CN104199875B

Abstract

本发明实施例公开了一种搜索推荐方法及装置，该方法包括：从用户输入的检索式中获取至少一个分词；从所获取的分词中按照预设规则筛选出实体词，形成搜索实体词集合；对所述搜索实体词集合中的实体词进行拓展，根据扩展后的实体词生成推荐检索式。本发明实施例的技术方案能实现对检索式进行不同维度的推荐和引导，更贴近用户需求。

Description

一种搜索推荐方法及装置

技术领域

本发明实施例涉及数据处理技术，具体涉及一种搜索推荐方法及装置。

背景技术

随着计算机技术的不断发展，使得网络数据处理技术的应用越来越普及，网络用户可以通过搜索引擎来获取需要的网络资源。

目前，搜索引擎为了方便用户更加快捷地获取所需要的信息，会在搜索引擎提供的搜索页面推荐一些与用户输入的检索式相关的推荐检索式，便于对用户的搜索行为进行引导。

当前的搜索引擎对检索式进行引导的方法通常是使用与用户输入检索式高频相似的检索式作为推荐，这种方法只能推荐其他人搜索过的相似检索式，但不一定是用户想要找的检索式，不能为用户展示更符合需求的内容。

发明内容

有鉴于此，本发明实施例提供一种搜索推荐方法及装置，以解决现有的搜索引擎推荐的检索式不贴近用户需求的问题。

第一方面，本发明实施例提供了一种搜索推荐方法，包括：

从用户输入的检索式中获取至少一个分词；

从所获取的分词中按照预设规则筛选出实体词，形成搜索实体词集合；

对所述搜索实体词集合中的实体词进行拓展，根据扩展后的实体词生成推荐检索式。

第二方面，本发明实施例还提供了一种搜索推荐装置，包括：

分词获取单元，用于从用户输入的检索式中获取至少一个分词；

实体词获取单元，用于从所获取的分词中按照预设规则筛选出实体词，形成搜索实体词集合；

实体词拓展单元，用于对所述搜索实体词集合中的实体词进行拓展，根据扩展后的实体词生成推荐检索式。

本发明实施例的技术方案通过从用户输入的检索式中获取至少一个分词，从中筛选出实体词，并对所筛选的实体词进行拓展，根据扩展后的实体词生成推荐检索式，能实现基于用户输入检索式进行不同维度的推荐和引导，更贴近用户需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。

图1是本发明实施例一所述的搜索推荐方法流程图；

图2是本发明实施例二所述的搜索推荐方法流程图；

图3是本发明实施例四所述的实体词权重拓展示意图；

图4是本发明实施例四所述的搜索推荐方法流程图；

图5是本发明实施例四所述的实体词权重计算示意图；

图6是本发明实施例四所述的实体词的知识结构关系跳转图；

图7是本发明实施例四所述的一种推荐检索式的示意图；

图8是本发明实施例四所述的另一种推荐检索式的示意图；

图9是本发明实施例四所述的再一种推荐检索式的示意图；

图10是本发明实施例五所述的搜索推荐装置的结构框图。

具体实施方式

为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

实施例一

图1是本发明实施例一提供的搜索推荐方法流程图，本实施例可适用于在搜索引擎中根据用户输入的检索式生成推荐检索式的情况，该方法可以由配置在搜索引擎中的搜索推荐装置来执行，该装置可以采用硬件和/或软件的方式实现。如图1所示，本实施例所述的搜索推荐方法包括：

S101、从用户输入的检索式中获取至少一个分词。

搜索引擎接收用户输入的检索式后，对所述检索式进行分词处理获取至少一个分词。

S102、从所获取的分词中按照预设规则筛选出实体词，形成搜索实体词集合。

实体词为确定推荐检索式所需的词汇，一般有独立的含义。实体词可以根据推荐的需求确定为采用名词或代词，作为实体词。也可以将存在于预设实体词集合中的所有词作为实体词，预设实体词集合中的词可以为名词、代词、形容词等，预设实体词集合中的词是在搜索过程中经常使用的词汇，或者有独立含义，容易进行推荐的词汇，可以通过人工经验添加，也可以依据词汇的搜索使用频率进行实时添加。

从所获取的分词中筛选出实体词的方法包括多种，例如筛选出分词中的名词和代词作为实体词，又如，对所获取的分词依次与预设的实体词集合进行比对，将属于所述预设的实体词集合的实体词作为所筛选出的实体词。基于检索式的分词进行筛选，将有助于实体词确定的准确性。

S103、对所述搜索实体词集合中的实体词进行拓展，根据扩展后的实体词生成推荐检索式。

搜索引擎对实体词进行拓展的目的是为了对用户的检索行为进行引导，即，使用户基于自己输入的信息获取更丰富的信息。具体拓展方法包括多种：

例如可根据实体词的知识结构关系，对所述搜索实体词集合中至少一个实体词进行替换，形成新的搜索实体词集合，根据所述新的搜索实体词集合生成推荐检索式。其中具体进行替换的实体词可为所述搜索实体词集合中的一个或多个实体词，例如替换的实体词为所述搜索实体词集合中权重最小的实体词。

又如，根据实体词的修饰关系，向所述搜索实体词集合中添加至少一个修饰实体词形成新的搜索实体词集合，根据所述新的搜索实体词集合生成推荐检索式，其中所添加的修饰实体词可根据所述搜索实体词集合中的部分或全部实体词确定，例如根据所述搜索实体词集合中权重最大的实体词确定添加该实体词的修饰实体词。

本实施例的技术方案通过从用户输入的检索式中获取至少一个分词，从中筛选出实体词，并对所筛选的实体词进行拓展，根据扩展后的实体词生成推荐检索式，能实现基于用户自身输入的检索式进行不同维度的推荐和引导，更贴近用户需求。

实施例二

图2是本发明实施例二所述的搜索推荐方法流程图，如图2所示，本实施例所述的搜索推荐方法包括：

S201、从用户输入的检索式中获取至少一个分词。

S202、从所获取的分词中按照预设规则筛选出实体词，形成搜索实体词集合。

S203、按照预设权重比算法分别获取所述搜索实体词集合中的实体词的权重比。

本实施例中，实体词集合中实体词的权重比，反映的是实体词集合中所包含的实体词的重要性的一组比值。例如，实体词集合为{“北京”，“川味”，“美食”}，集合中所包含的三个实体词的权重比为“北京”：“川味”：“美食”＝5：2：3。当然，权重比的形式除了用份额比表示以外，还可以用其他形式表示，例如使用百分比来表示，如“北京”：“川味”：“美食”＝50％：20％：30％。

具体地，获取所述搜索实体词集合中的实体词的权重比的方法包括多种，本实施例优选为在实体词知识图谱预先记录至少一个实体词集合中实体词之间的权重比，从而可以在所述实体词知识图谱中通过查询来获知所述搜索实体词集合中各实体词的权重比。则上述操作S203具体可以为：

在所述实体词知识图谱中查询所述搜索实体词集合；

如果实体词知识图谱包括所述搜索实体词集合，则查询所述实体词知识图谱，获取所述搜索实体词集合中的实体词的权重比；

如果实体词知识图谱不包括所述搜索实体词集合，则按照预设集合调整方法获取至少一个新搜索实体词集合，查询所述实体词知识图谱，获取所述至少一个新搜索实体词集合中的实体词的权重比，根据所述至少一个新搜索实体词集合中的实体词的权重比获取所述搜索实体词集合中的实体词的权重比。

对于不能直接查找到的搜索实体词集合，可以对其进行适当的调整，从而再次查询。进一步地，按照预设集合调整方法获取至少一个新搜索实体词集合可包括多种方式，例如包括如下所述的方式一和方式二。

需要说明的是，下述根据所述至少一个新搜索实体词集合中的实体词的权重比获取所述搜索实体词集合中的实体词的权重比的操作的方式一和方式二可单独采用，也可结合采用，本实施例优选为采用方式一，若方式一无法实施，即通过实体词替换无法从实体词知识图谱查询到新搜索实体词集合的实体词的权重比，则可采用方式二。

方式一、将所述搜索实体词集合中至少一个实体词替换为该实体词的父实体词作为新搜索实体词集合；进而，在所述实体词知识图谱中查询新搜索实体词集合，获取所述新搜索实体词集合的实体词的权重比，根据所述新搜索实体词集合的实体词的权重比获取所述搜索实体词集合中的实体词的权重比。

父实体词通常是包括子实体词的，所以进行该替换后查询到集合的概率提高。实际操作中也可以依据其他规则进行替换，将替换的实体词作为确定权重比的过渡词汇。

进一步地，根据所述新搜索实体词集合的实体词的权重比获取所述搜索实体词集合中的实体词的权重比的操作，可以是将所述新搜索实体词集合的实体词的权重比直接作为所述搜索实体词集合中的实体词的权重比；还可结合所述新搜索实体词集合中实体词的权重比，和所替换的实体词与其父亲实体词的关系，按照预设算法进行计算获取所述搜索实体词集合中的实体词的权重比。例如，原搜索实体词集合中包括“海淀”和“美食”两个实体词，实体知识图谱不包括“海淀”和“美食”之间的权重比，但包括“北京”和“美食”之间的权重比，以及“北京”和“海淀”的权重比，例如“北京”和“美食”之间的权重比为10：20，“北京”和“海淀”的权重比2：1，则可获得“海淀”和“美食”之间的权重比为5：20。

方式二、获取所述搜索实体词集合的至少两个子集合，形成所述新搜索实体词集合。进而可在所述实体词知识图谱中查询子集合，获取所述子集合中的实体词的权重比，根据所述子集合中实体词的权重比获取所述搜索实体词集合中的实体词的权重比。

例如，搜索实体词集合中包括“北京”、“川味”、“麻辣”和“美食”四个实体词，实体知识图谱不包括“北京”、“川味”、“麻辣”和“美食”这个实体词集合。如果实体知识图谱包括“北京”和“川味”之间的权重比为10：6，包括“川味”和“麻辣”之间的权重比为3：8，“麻辣”和“美食”之间的权重比为4：9，则能计算“北京”、“川味”和“麻辣”之间的权重比为10：6：16，进而能计算“北京”、“川味”、“麻辣”和“美食”之间的权重比为10：6：16：36。

又如，由于实体知识图谱普遍包括的实体词集合中，以包括两个实体词或三个实体词为多数，为了简化计算，可将所述搜索实体词集合中的实体词顺次分别提取两个实体词组成双实体词集合，以及顺次提取三个实体词组成三实体词集合，根据这些双实体词集合和三实体词集合的实体词之间的权重比获取所述搜索实体词集合中的实体词的权重比的操作。

根据所述至少一个新搜索实体词集合中的实体词的权重比获取所述搜索实体词集合中的实体词的权重比可以包括：

将调整前搜索实体词集合中的实体词，分别作为待计算的实体词，按照如下公式计算权重比，

Q = w 1 * \frac{Σ S_{tri - gram}}{M} + w 2 * \frac{Σ S_{bi - gram}}{N}, w 1 > w 2

其中，Q为所述待计算的实体词的权重，s_tri-gram为所述待计算的实体词在包含三个实体词的子集合中的权重比；s_bi-gram为所述待计算的实体词在包含两个实体词的子集合中的权重比，M为包含三个实体词的子集合的数目，N为包含两个实体词的子集合的数目，M和N分别为自然数，w1是预设第一系数，w2是预设第二系数；

按照上述方法分别计算所述搜索实体词集合中各实体词的权重比，继而取各实体词的权重的比值作为调整前的搜索实体词集合中的实体词的权重比。

举例说明，搜索实体词集合为{“北京”，“川味”，“麻辣”，“美食”}，如果实体知识图谱中包括实体词集合{“北京”、“川味”和“麻辣”}，包括实体词集合{“川味”、“麻辣”和“美食”}，包括实体词集合{“北京”和“川味”}，包括实体词集合{“川味”和“麻辣”}，但是实体知识图谱不包括集合{“北京”、“川味”、“麻辣”和“美食”}。

则按照预设算法分别计算各实体词分别在该实体词集合中的权重比，例如，计算“川味”这个实体词在集合{“北京”，“川味”，“麻辣”，“美食”}中的权重比，首选将调整前的集合{“北京”，“川味”，“麻辣”，“美食”}拆分成多个包括两个实体词和三个实体词的子集合，然后分别获取“川味”在子集合{“北京”，“川味”，“麻辣”}、子集合{“川味”，“麻辣”，“美食”}、子集合{“北京”，“川味”}、子集合{“川味”，“麻辣”}中的权重比，然后进行加权计算，得到实体词“川味”在调整前搜索实体词集合中的权重比。

Q = w 1 * \frac{Σ S_{tri - gram}}{M} + w 2 * \frac{Σ S_{bi - gram}}{N}, w 1 > w 2

本例子中，M为包含“川味”且实体词数目为3的子集合的数目，N为包含“川味”且实体词数目为2的子集合的数目，w1是预设第一系数，w2是预设第二系数，Q为“川味”实体词在搜索实体词集合中的权重，s_tri-gram为“川味”在{“北京”，“川味”，“麻辣”}中的权重比，以及“川味”在{“川味”，“麻辣”，“美食”}中的权重比，将两者求和除以2(因为一共有两组包含“川味”且实体词数目为3的子集合)，s_bi-gram为“川味”在{“北京”，“川味”}中的权重比，以及“川味”在{“川味”，“麻辣”}中的权重比，将两者求和除以2(因为一共有两组包含“川味”且实体词数目为2的子集合)。

需要说明的是，优选为w1>w2，以使计算结果更信赖包含实体词数量多的子集合。

依此类推，按照上述方法分别计算“北京”、“麻辣”和“美食”在搜索实体词集合{“北京”，“川味”，“麻辣”，“美食”}中的权重，最后求取“北京”，“川味”，“麻辣”和“美食”各权重之间的比例，作为权重比，即能获得“北京”、“川味”、“麻辣”和“美食”在调整前搜索实体词集合中的权重比。

S204、根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤。

过滤方式包括多种，例如可采用如下几种方式进行过滤：

方式一、根据所述权重比的权重排名顺序，从所述搜索实体词集合中筛选出排序靠前的设定数量的实体词，作为过滤后的搜索实体词集合。例如获取第一个，或前三个实体词。

方式二、根据所述权重比的权重排名顺序，从所述搜索实体词集合中筛选出排序靠后的设定数量的实体词，作为过滤后的搜索实体词集合。例如获取最后一个，或最后三个实体词。

方式三、根据所述权重比的权重排名顺序,从所述搜索实体词集合中筛选出排序靠后的设定数量的实体词，且从所述搜索实体词集合中筛选出排序靠前的设定数量的实体词，作为过滤后的搜索实体词集合。

S205、对所述搜索实体词集合中的实体词进行拓展，根据扩展后的实体词生成推荐检索式。

本实施例的技术方案在实施例一的基础之上，在对搜索实体词集合中的实体词进行拓展之前，进一步提供了按照预设权重比算法分别获取所述搜索实体词集合中的实体词的权重比，根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤的方法，能根据所述搜索实体词集合中的实体词的重要性有针对地添加修饰实体词和/或有针对地替换实体词，能实现对检索式进行不同维度的推荐和引导，更贴近用户需求。

实施例三

在实施例二的基础之上，本实施例进一步公开了两种对所述搜索实体词集合中的实体词进行拓展的方式。

方式一、根据实体词的知识结构关系，对所述搜索实体词集合中的实体词进行替换。

通过查询实体词知识图谱，获取所述实体词的父实体词、子实体词、和/或兄弟实体词，将所述实体词替换为对应的父实体词、子实体词、和/或兄弟实体词。

优选地，到底将所述实体词替换为对应的父实体词、子实体词、还是哪个兄弟实体词，或者是上述实体词中的一个以上，可通过查询实体词知识图谱，获取所述实体词拓展到其父实体词、子实体词和/或兄弟实体词的优选级关系向量，根据所述优选级关系向量对所述实体词对应的父实体词、子实体词、和/或兄弟实体词进行筛选，并以筛选获得的实体词进行替换。

方式二、根据实体词的修饰关系，向所述搜索实体词集合中添加至少一个实体词修饰词。

可从实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词，形成修饰词集合，获取所述搜索实体词集合中至少两个实体词的修饰词集合的并集，作为候选待添加词集合；或，从所述实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词，形成候选待添加词集合。

可将所述候选待添加词集合直接向所述搜索实体词集合中添加，以对所述搜索实体词集合中的实体词进行拓展，根据扩展后的实体词生成推荐检索式。

还可按照如下公式分别计算所述候选待添加词集合中候选待添加词，与所述搜索实体词集合的相关性：

其中，E为所述搜索实体词集合，e为候选待添加词，R(E&e)为候选待添加词e与所述搜索实体词集合的相关性，P(E&e)为E与e在搜索日志中同时出现的概率,P(E)为E在搜索日志中单独出现的概率，P(e)为E在搜索日志中单独出现的概率；

根据所述相关性从所述候选待添加词集合中确定至少一个候选待添加词，向所述搜索实体词集合中添加。

或者，也可按照如下公式分别计算所述候选待添加词集合中候选待添加词的权重：

V = Σ_{1}^{m} U_{i} R_{i}

其中，V为候选待添加词的权重，R_i为所述待计算的实体词修饰词与所述搜索实体词集合中第i个实体词的相关性，U_i为所述搜索实体词集合中第i个实体词的权重比,m为所述搜索实体词集合中包含的实体词的数目；

根据所述权重从所述候选待添加词集合中确定至少一个候选待添加词，向所述搜索实体词集合中添加。

作为优选，若根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤采用实施例二中操作S204的过滤方式一，则本实施例优选方式一对搜索实体词集合中的实体词进行拓展；若根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤采用实施例二中操作S204的过滤方式二，则本实施例也优选方式二对搜索实体词集合中的实体词进行拓展；若根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤采用实施例二中操作S204的过滤方式三，则本操作优选采用方式一对所筛选出的至少一个权重排名靠后的实体词进行拓展，优选采用方式二对所筛选出的至少一个权重排名靠前的实体词进行拓展。

本实施例的技术方案在实施例二的基础之上，进一步公开了多种对搜索实体词集合中的实体词进行拓展的方式，能实现对检索式进行不同维度的推荐和引导，更贴近用户需求。

实施例四

搜索引擎根据检索式进行搜索推荐的关键的技术部分为实体词的识别和管理，从检索式识别出实体词后，再对检索式中的实体词进行管理拓展。其中实体词管理包含实体词权重计算、知识结构关系拓展、修饰关系拓展等功能，知识结构关系和修饰关系构成了知识图谱，实体词权重拓展示意图如图3所示。

如图3所示，图中实体词在用户搜索单检索式中的权重比例(即权重比)不同，其中权重比最小的实体词会被优先替换，替换为子实体词、父实体词或者兄弟实体词；权重比大的实体词会按照权重比来进行修饰关系拓展。图中权重比最小的第一个实体词会进行子实体词拓展，并且会根据当前的实体词的权重比例来进行检索式中的实体词的修饰关系拓展，即可以增加不在检索式中的其他实体词。

具体的实体词权重比计算方法、知识结构关系拓展、修饰关系拓展等方法见图4，如图4所示，本实施例的方法包括：

S401、识别用户搜索检索式中的实体词。

首先将检索式进行分词处理，分成不同的分词记为<x1,x2,x3,…,xn>；然后判断每个词x是否在实体词所在类别的实体词集合E中，如果在E中那么确定x为一个实体词。如果检索式存在实体词，再对实体词进行权重比计算，比较检索式的实体词权重的优先级，然后根据实体词权重的优先级进行相应的扩展。

S402、计算实体词权重比。

用户搜索的检索式中实体词的权重比的计算是实体词管理拓展的核心环节，这里检索式中实体词的权重比，反映的是检索式中实体词的重要性的一组比值，权重越大在检索式中越重要，否则在检索式中是可以替换的。用户搜索的检索式中实体词的权重比的计算采用两级权重计算模式，第一层级为“实体词+实体词类别”级别的实体词权重比计算，第二层别为局部实体词权重比计算。其中第一层级为通过用户搜索日志找到实体词之间的权重关系，同时可以通过具体的实体词抽象至实体词类别层面得到实体词类别的权重关系，即可从抽象层面来计算实体词与另一个实体词的权重关系，这个级别的拓展准确性也是最高的，如图5所示，当知道同一类别下实体词的权重关系时可以计算出实体词类别之间的权重关系；当用户的输入的检索式的实体词组合不在第一级别内时，采用第二层级别权重计算，为了保证实体词的覆盖性，使用局部实体词组合权重比来逼近全局实体词组合权重比，局部实体词组合计算相邻的两个或者三个实体词权重比，然后组合后取平均值得到，这种实体词的覆盖率会很好，但是准确性会有所降低。

权重比计算采用逐级别计算方式，即当第一级别实体词组合匹配后，将不进行接下来的级别匹配，级别的准确性也是由高到低。其中“实体词+实体词类别”级别权重比是针对实际用户搜索中的实体词组合来进行统计的，即针对检索式中的全部实体词直接的计算；局部实体词级别权重比计算采用统计局部相邻实体词的组合权重比取平均值来逼近全局实体词权重比来计算，这样可以对第一级别没有匹配的权重比计算进行补充。例如对{“北京”，“川味”，“麻辣”，“美食”}这个新的搜索实体词集合来说，利用搜索日志查找{“北京”，“川味”，“麻辣”，“美食”}集合中所包含的四个实体词的权重比，即为“实体词+实体词类别”权重比计算。但是当这种组合方式没有在搜索日志中出现时，可以选择使用第二级别的实体词权重计算，如对于其中“川味”这个实体词权重计算，可以分别统计出{“北京”，“川味”，“麻辣”}、{“川味”，“麻辣”，“美食”}、{“北京”，“川味”}、{“川味”，“麻辣”}这些集合中各实体词之间的权重比，可根据“川味”在每个局部实体词集合(即子集合)的权重比，进行加权计算，得到“川味”这个实体词在当前搜索检索式的搜索实体词集合中的权重，再根据相同方法分别计算其他实体词的权重，每个实体词权重计算公式可按如下公式计算：

Q = w 1 * \frac{Σ S_{tri - gram}}{M} + w 2 * \frac{Σ S_{bi - gram}}{N}, w 1 > w 2

其中w1>w2，表明与包含两个实体词的子集合的权重比相比，会更信赖包含三个实体词的子集合的权重比。

按照上述方法分别计算所述搜索实体词集合中各实体词的权重，取所述各实体词的权重的比值作为调整前的搜索实体词集合中的实体词的权重比。

实体词类别是对实体词的抽象，为了统计有规律的实体词权重比，这时可以直接计算实体词类别的权重，而不必关注具体的实体词。其中实体词类别的权重的计算基于实体词的权重比进行计算得来，见如下公式：

r = \frac{Σ_{1}^{n} w_{i} S R_{i}}{n}, SR = \frac{Σ_{1}^{n} w_{i} {SR}_{i}}{n}

其中r为实体词类别权重，SR为实体词类别下具体的实体词的权重，w为实体词权重比，即每个实体词拓展与子实体词的拓展权重，n为一个实体词所包含的子实体词的个数。

S403、进行知识结构关系拓展

知识结构关系指当实体词在搜索检索式中的权重低时，会被优先拓展，拓展的方式是基于当前实体词的知识图谱，实体词可以拓展为当前实体词的子节点，也可以拓展为当前实体词的父实体词或者兄弟实体词，这里子实体词的定义为实体词之间有包含关系，如“语言”包含“英语”，父实体词则相反，兄弟实体词则为具有相同父亲的实体词。实体词知识结构关系跳转图如图6所示，实体词为一个树形结构，实体词可以跳转到父实体词子实体词、或者兄弟实体词。

知识结构关系可以跳转到父实体词、子实体词或者兄弟实体词，这个跳转是有优先级别之分的，从用户搜索日志中可以发现实体词扩展到它的父实体词、子实体词、兄弟实体词的优先级关系记为向量<t1,t2,t3,…,tn>，当选取可以扩展的实体词时会选取max<t1,t2,t3,…,tn>的实体词作为当前实体词的一个知识结构关系扩展实体词。

S404、进行修饰关系拓展。

修饰关系拓展为实体词之间是有修饰关系的，即为实体词类别与实体词类别之间及子实体词的拓展关系，当用户搜索一个检索式时，首先识别出当前检索式的实体词，然后利用识别的实体词进行实体词扩招，按照如下公式分别计算所述候选待添加词集合中候选待添加词的权重：

V = Σ_{1}^{m} U_{i} R_{i}

检索式中的每个实体词都会有修饰关系的实体词集合，记为<e1,e2,e3,…,em>，对检索式中所有实体词取并集，记为<E1,E2,E3,…,Ep>。通过扩展实体词集合计算出集合对应的权重记为<V1,V2,V3,…,Vp>，取集合中的MAX(V)最大值的实体词即为当前扩展实体词。

对于修饰关系的第二种计算方法为使用PMI(Point-Wise MutualInformatio，逐点互信息)的方式，利用当前实体词组合计算出与当前实体词组合相关性最大的实体词，从而进行修饰关系的实体词推荐，见如下公式：

其中，E为搜索实体词集合，e为候选待添加词，R(E&e)为候选待添加词e与所述搜索实体词集合的相关性，P(E&e)为E与e在搜索日志中同时出现的概率,P(E)为E在搜索日志中单独出现的概率，P(e)为E在搜索日志中单独出现的概率。

S405、实体词管理在相关推荐和检索中的应用。

实体词管理在搜索中的应用多种多样，主要用在搜索中相关搜索的推荐和检索相关文章的推荐上，其中相关搜索的推荐如当搜索“北京有什么好吃的”可以推荐为“朝阳有什么好吃的”、“昌平有什么好吃的”等等；在相关搜索推荐上如，当用户搜索“北京有什么好吃的”时，会给出“朝阳的好吃的有…”等文章，而不是只有“北京的好吃的有…”，下面列举一些在搜索中的典型应用，但形式及内容不限于以下几点。

例如，当用户搜索一些检索式时会出现推荐与当前检索式具有实体词关联的相关检索式，如图7。

又如，当用户搜索某个检索式时，会给出结构化的相关结构化的实体词导航信息，如图8。

又如，当搜索某个检索式时，不仅仅是精确匹配，还有相关实体词的匹配，返回更多有效的结果，如图9。

本实施例详细公开了具体的计算实体词权重比、根据实体词权重比对实体词进行拓展的知识结构关系拓展的方法和修饰关系拓展的方法，能实现对检索式进行不同维度的推荐和引导，能为用户推荐更具有知识图谱结构的检索式，为用户展示更符合需求的内容，更贴近用户需求。

实施例五

图10是本发明实施例五所述的搜索推荐装置的结构框图，如图10所示，本实施例所述的搜索推荐装置包括：

分词获取单元1001，用于从用户输入的检索式中获取至少一个分词；

实体词获取单元1002，用于从所获取的分词中按照预设规则筛选出实体词，形成搜索实体词集合；

实体词拓展单元1004，用于对所述搜索实体词集合中的实体词进行拓展，根据扩展后的实体词生成推荐检索式。

进一步地，实体词获取单元1002具体用于：

从所获取的分词中筛选出属于预设实体词集合的分词，作为实体词，形成所述搜索实体词集合。

进一步地，所述装置还包括权重计算与实体词筛选单元1003，用于

在对所述搜索实体词集合中的实体词进行拓展之前，按照预设权重比算法分别获取所述搜索实体词集合中的实体词的权重比；根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤。

进一步地，所述权重计算与实体词筛选单元1003具体用于：

在实体词知识图谱中查询所述搜索实体词集合，其中所述实体词知识图谱包括至少一个实体词集合中实体词之间的权重比；

进一步地，所述权重计算与实体词筛选单元1003具体用于：

将所述搜索实体词集合中至少一个实体词替换为该实体词的父实体词，形成新搜索实体词集合；和/或

获取所述搜索实体词集合的至少两个子集合，形成所述新搜索实体词集合。

进一步地，所述权重计算与实体词筛选单元1003具体用于：

Q = w 1 * \frac{Σ S_{tri - gram}}{M} + w 2 * \frac{Σ S_{bi - gram}}{N}, w 1 > w 2

进一步地，所述权重计算与实体词筛选单元1003具体用于：根据所述权重比的权重排名顺序，从所述搜索实体词集合中筛选出排序靠前的设定数量的实体词；和/或

根据所述权重比的权重排名顺序，从所述搜索实体词集合中筛选出排序靠后的设定数量的实体词。

进一步地，所述实体词拓展单元1004具体用于：

根据实体词的知识结构关系，对所述搜索实体词集合中的实体词进行替换；和/或

根据所述实体词的修饰关系，向所述搜索实体词集合中添加至少一个实体词修饰词。

进一步地，所述实体词拓展单元1004具体用于：

从实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词，形成修饰词集合，获取所述搜索实体词集合中至少两个实体词的修饰词集合的并集，作为候选待添加词集合；或，从所述实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词，形成候选待添加词集合；

按照如下公式分别计算所述候选待添加词集合中候选待添加词，与所述搜索实体词集合的相关性：

其中，E为所述搜索实体词集合，e为候选待添加词，R(E&e)为候选待添加词e与所述搜索实体词集合的相关性，P(E&e)为E与e在搜索日志中同时出现的概率,P(E)为E在搜索日志中单独出现的概率，P(e)为E在搜索日志中单独出现的概率；或

按照如下公式分别计算所述候选待添加词集合中候选待添加词的权重：

V = Σ_{1}^{m} U_{i} R_{i}

根据所述相关性或权重从所述候选待添加词集合中确定至少一个候选待添加词，向所述搜索实体词集合中添加。

本实施例提供的搜索推荐装置可执行本发明实施例一、实施例二、实施例三和实施例四所提供的搜索推荐方法，具备执行方法相应的功能模块和有益效果。

以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现，其软件程序存储在可读取的存储介质中，存储介质例如：计算机中的硬盘、光盘或软盘。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种搜索推荐方法，其特征在于，包括：

从用户输入的检索式中获取至少一个分词；

2.根据权利要求1所述的搜索推荐方法，其特征在于，在对所述搜索实体词集合中的实体词进行拓展之前还包括：

按照预设权重比算法分别获取所述搜索实体词集合中的实体词的权重比；

根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤。

3.根据权利要求2所述的搜索推荐方法，其特征在于，按照预设权重比算法分别获取所述搜索实体词集合中的实体词的权重比包括：

4.根据权利要求3所述的搜索推荐方法，其特征在于，按照预设集合调整方法获取至少一个新搜索实体词集合包括：

5.根据权利要求4所述的搜索推荐方法，其特征在于，根据所述至少一个新搜索实体词集合中的实体词的权重比获取所述搜索实体词集合中的实体词的权重比包括：

Q = w 1 * \frac{Σ S_{tri - gram}}{M} + w 2 * \frac{Σ S_{bi - gram}}{N}, w 1 > w 2

6.根据权利要求2所述的搜索推荐方法，其特征在于，根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤包括：

根据所述权重比的权重排名顺序，从所述搜索实体词集合中筛选出排序靠前的设定数量的实体词；和/或

7.根据权利要求1-6任一所述的搜索推荐方法，其特征在于，对所述搜索实体词集合中的实体词进行拓展包括：

8.根据权利要求7所述的搜索推荐方法，其特征在于，根据实体词的知识结构关系，对所述搜索实体词集合中的实体词进行替换包括：

9.根据权利要求8所述的搜索推荐方法，其特征在于，将所述实体词替换为对应的父实体词、子实体词、和/或兄弟实体词包括：

通过查询实体词知识图谱，获取所述实体词拓展到其父实体词、子实体词和/或兄弟实体词的优选级关系向量；

根据所述优选级关系向量对所述实体词对应的父实体词、子实体词、和/或兄弟实体词进行筛选，并以筛选获得的实体词进行替换。

10.根据权利要求7所述的搜索推荐方法，其特征在于，根据所述实体词的修饰关系，向所述搜索实体词集合中添加至少一个实体词修饰词包括：

11.根据权利要求7所述的搜索推荐方法，其特征在于，根据所述实体词的修饰关系，向所述搜索实体词集合中添加至少一个实体词修饰词包括：

V = Σ_{1}^{m} U_{i} R_{i}

12.一种搜索推荐装置，其特征在于，包括：

13.根据权利要求12所述的搜索推荐装置，其特征在于，所述装置还包括权重计算与实体词筛选单元，用于：在对所述搜索实体词集合中的实体词进行拓展之前，按照预设权重比算法分别获取所述搜索实体词集合中的实体词的权重比；根据所述权重比对所述搜索实体词集合中的实体词进行筛选过滤。

14.根据权利要求13所述的搜索推荐装置，其特征在于，所述权重计算与实体词筛选单元具体用于：

15.根据权利要求14所述的搜索推荐装置，其特征在于，所述权重计算与实体词筛选单元具体用于：

16.根据权利要求15所述的搜索推荐装置，其特征在于，所述权重计算与实体词筛选单元具体用于：

Q = w 1 * \frac{Σ S_{tri - gram}}{M} + w 2 * \frac{Σ S_{bi - gram}}{N}, w 1 > w 2

17.根据权利要求13所述的搜索推荐装置，其特征在于，所述权重计算与实体词筛选单元具体用于：根据所述权重比的权重排名顺序，从所述搜索实体词集合中筛选出排序靠前的设定数量的实体词；和/或

18.根据权利要求12-17任一所述的搜索推荐装置，其特征在于，所述实体词拓展单元具体用于：

19.根据权利要求18所述的搜索推荐装置，其特征在于，所述实体词拓展单元具体用于：

20.根据权利要求18所述的搜索推荐装置，其特征在于，所述实体词拓展单元具体用于：从实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词，形成修饰词集合，获取所述搜索实体词集合中至少两个实体词的修饰词集合的并集，作为候选待添加词集合；或，从所述实体词知识图谱中查找所述搜索实体词集合中实体词的实体词修饰词，形成候选待添加词集合；

V = Σ_{1}^{m} U_{i} R_{i}