CN105843850A

CN105843850A - 搜索优化方法和装置

Info

Publication number: CN105843850A
Application number: CN201610148071.5A
Authority: CN
Inventors: 王丽杰; 徐新超; 刘备; 刘占; 刘占一
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2016-08-10
Anticipated expiration: 2036-03-15
Also published as: CN105843850B

Abstract

本发明公开了一种搜索优化方法和装置，其中，搜索优化方法包括：获取输入的关键词，并将关键词切分为多个字段；获取每个字段对于关键词的重要度，并根据重要度获取符合预设条件的候选字段；基于倒排库对候选字段进行倒排拉链检索，并获取对应的候选关键词；基于迭代决策树GBDT模型对候选关键词进行排序，并获取排序结果；以及根据排序结果优化关键词，并根据优化后的关键词进行搜索，以获取搜索结果。本发明实施例通过对输入的关键词进行分析，并基于倒排库获取对应的候选关键词，再对候选关键词进行排序，以及根据排序结果优化关键词，最后根据优化后的关键词进行搜索获取搜索结果，从而获得更加满足用户需求的搜索结果，提升用户搜索体验。

Description

搜索优化方法和装置

技术领域

本发明涉及搜索引擎技术领域，尤其涉及一种搜索优化方法和装置。

背景技术

随着互联网的高速发展，搜索引擎已成为人们获取信息资源的重要工具之一。而如何提高搜索引擎的性能，则是目前亟需解决的问题。目前，主要是将用户输入的关键词修改为更通用、能够获得更多搜索结果的关键词。具体地，可采用对关键词中字段到字段的改写的方式，如将关键词“xxx的媳妇”中的字段“媳妇”，替换为“老婆”。也可采用词对齐的方式，如将关键词“桂林这个地方的著名景点有哪些”，替换为“桂林有哪些著名景点”。但是，以上两种方式均为等同替换，无法获得更加满足用户需求的搜索结果。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种搜索优化方法，能够优化关键词，从而获得更加满足用户需求的搜索结果，提升用户搜索体验。

本发明的第二个目的在于提出一种搜索优化装置。

为了实现上述目的，本发明第一方面实施例提出了一种搜索优化方法，包括：获取输入的关键词，并将所述关键词切分为多个字段；获取每个字段对于所述关键词的重要度，并根据所述重要度获取符合预设条件的候选字段；基于倒排库对所述候选字段进行倒排拉链检索，并获取对应的候选关键词；基于迭代决策树GBDT模型对所述候选关键词进行排序，并获取排序结果；以及根据所述排序结果优化所述关键词，并根据优化后的关键词进行搜索，以获取搜索结果。

本发明实施例的搜索优化方法，通过对输入的关键词进行分析，并基于倒排库获取对应的候选关键词，再对候选关键词进行排序，以及根据排序结果优化关键词，最后根据优化后的关键词进行搜索获取搜索结果，从而获得更加满足用户需求的搜索结果，提升用户搜索体验。

本发明第二方面实施例提出了一种搜索优化装置，包括：切分模块，用于获取输入的关键词，并将所述关键词切分为多个字段；获取模块，用于获取每个字段对于所述关键词的重要度，并根据所述重要度获取符合预设条件的候选字段；检索模块，用于基于倒排库对所述候选字段进行倒排拉链检索，并获取对应的候选关键词；排序模块，用于基于迭代决策树GBDT模型对所述候选关键词进行排序，并获取排序结果；以及优化模块，用于根据所述排序结果优化所述关键词，并根据优化后的关键词进行搜索，以获取搜索结果。

本发明实施例的搜索优化装置，通过对输入的关键词进行分析，并基于倒排库获取对应的候选关键词，再对候选关键词进行排序，以及根据排序结果优化关键词，最后根据优化后的关键词进行搜索获取搜索结果，从而获得更加满足用户需求的搜索结果，提升用户搜索体验。

附图说明

图1是根据本发明一个实施例的搜索优化方法的流程图。

图2是根据本发明一个实施例的对候选关键词进行排序的流程图。

图3是根据本发明一个实施例的搜索优化装置的结构示意图一。

图4是根据本发明一个实施例的搜索优化装置的结构示意图二。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的搜索优化方法和装置。

图1是根据本发明一个实施例的搜索优化方法的流程图。

如图1所示，搜索优化方法可包括：

S1、获取输入的关键词，并将关键词切分为多个字段。

举例来说，可接收用户在输入框中输入的关键词“桂林这个地方的著名景点有哪些”，然后将其切分为诸如“桂林”、“这个”、“地方”、“的”、“著名”、“景点”、“有”、“哪些”的字段。

S2、获取每个字段对于关键词的重要度，并根据重要度获取符合预设条件的候选字段。

继续上例进行描述，可分别获取“桂林”、“这个”、“地方”、“的”、“著名”、“景点”、“有”、“哪些”这些字段对于关键词“桂林这个地方的著名景点有哪些”的重要度。其中，重要度可以是但不仅限于IDF(反文档频率，Inverse Document Frequency)。然后可选取重要度排名为前三名的字段作为候选字段。如果关键词中的字段数小于三个，则选择全部字段作为候选字段。应当理解的是，选取前三名的字段作为候选字段为根据需求预先设置的预设条件，选取的字段数越多，后续的计算量越大，因此会影响系统的性能。故本例中选取三个字段。

S3、基于倒排库对候选字段进行倒排拉链检索，并获取对应的候选关键词。

在获取候选字段之后，可基于倒排库对候选字段进行倒排拉链检索，并获取对应的候选关键词。而在此之前，需要先建立倒排库。具体地，可统计互联网络中待选关键词样本的检索次数和满意度，再根据检索次数和满意度筛选出满足预设要求的关键词样本，然后根据关键词样本建立倒排库。其中，检索次数为互联网络中用户输入该待选关键词样本进行检索的次数。满意度则是用户点击该待选关键词样本进行检索的点击次数与用户感到满意次数之间的比值，例如用户点击了“桂林自助游”10次，其中有5次用户感到满意，则满意度可为50％。假设预设要求为点击次数大于等于1000次，且满意度要求大于等于80％，则可根据该要求筛选出符合的关键词样本。最后基于上述筛选出的关键词样本建立起倒排库。

在建立好倒排库之后，便可对候选字段进行倒排拉链检索，并获取对应的候选关键词。举例来说，对字段“桂林”进行倒排拉链检索，可获取包含该字段的多个候选关键词如“桂林有哪些著名景点”、“桂林好玩的地方”、“桂林自助游”、“桂林最著名的景点是什么啊”等等。应当注意的是，在获取候选关键词时，还包括以下规则：优先获取包含候选字段数量多的候选关键词，例如候选关键词“桂林有哪些著名景点”包含“桂林”、“著名”、“景点”三个候选字段，而候选关键词“桂林好玩的地方”只包含“桂林”一个候选字段，则优先选取候选关键词“桂林有哪些著名景点”。

S4、基于迭代决策树GBDT模型对候选关键词进行排序，并获取排序结果。

在获取候选关键词之后，可基于GBDT模型(Gradient Boosting Decision Tree，迭代决策树，)对候选关键词进行排序，并获取排序结果。具体地，如图2所示，可包括以下步骤：

S41、对候选关键词进行分析，并获取候选关键词对应的特征。其中，特征可包括字面特征、语义特征、点击特征、结构特征等。

S42、根据特征获取关键词与候选关键词的相似度。

其中，获取关键词与候选关键词的相似度可包括以下方式：

第一种方式，可基于字面特征获取输入的关键词与候选关键词的字编辑距离和/或拼音编辑距离来获取关键词与候选关键词的相似度，也可以获取相同字段对于包含相同字段的候选关键词的重要度来获取关键词与候选关键词的相似度。上述均为基于字面特征获取的相似度。

第二种方式，可基于语义特征获取关键词与候选关键词的词向量相似度，也可基于二元语法BIGRAM模型获取关键词与候选关键词的DNN(深层神经网络，Deep NeuralNetworks)相似度。上述为基于语义特征获取的相似度。

第三种方式，可基于点击特征获取关键词与候选关键词的点击相似度，其中，点击特征可包括点击次数、满意次数与点击次数的比值等。

第四种方式，可基于结构特征获取关键词与候选关键词的结构相似度。举例来说，关键词为“北京到上海的火车票”，其中一个候选关键词为“上海到北京的火车票”，关键词的结构为：起点＝北京，终点＝上海，需求＝火车票；候选关键词的结构为：起点＝上海，终点＝北京，需求＝火车票，由此可知两者的结构相反，因此两者结构相似度为零，即可滤掉该候选关键词。

S43、根据相似度对候选关键词进行排序，并获取排序结果。

在获取关键词与候选关键词的相似度之后，可根据相似度对候选关键词进行排序，并获取排序结果。举例来说，首先可优先选择包含候选字段数量多的候选关键词。如果候选关键词包含的候选字段数量相同，则优先选择候选字段重要度高的候选关键词。其中，若候选字段数量为多个，则获取候选字段重要度之和。然后再按照候选关键词的点击次数进行排序。

另外，为了更好的处理口语化的关键词，可先提取关键词的主干信息，然后获取关键词与候选关键词的第一GBDT得分，再获取主干信息与候选关键词的第二GBDT得分，最后获取第一GBDT得分和第二GBDT得分的平均得分，并根据平均得分对候选关键词进行排序，以获取排序结果。例如：用户输入的关键词为“你知道王俊凯的女朋友吗”，可对该关键词进行分析，然后提取对应的主干信息“王俊凯女朋友”。其中，提取主干信息的方法可以是但不限于获取字段对于关键词的重要度。然后获取“你知道王俊凯的女朋友吗”与候选关键词之间的相似度得分，再获取主干信息“王俊凯女朋友”与候选关键词之间的相似度得分，最后获取两者的平均值。按照数值从高到低的顺序对候选关键词进行排序。

S5、根据排序结果优化关键词，并根据优化后的关键词进行搜索，以获取搜索结果。

在获取排序结果之后，可根据排序结果优化关键词，即将排序结果中最优的候选关键词替换掉用户输入的关键词，再进行搜索，并获取对应搜索结果，从而获取更符合用户需求的搜索结果。

此外，在根据优化后的关键词进行搜索时，如果该关键词能够匹配到阿拉丁结果，则可直接在搜索结果页展示阿拉丁结果。其中，阿拉丁结果为通过接口直接展示实体结果的搜索结果，例如关键词中包含“天气”，则可直接通过预设的接口展示当天天气及未来一周的天气情况等。

为实现上述目的，本发明还提出一种搜索优化装置。

如图3所示，搜索优化装置可包括：切分模块110、获取模块120、检索模块130、排序模块140和优化模块150。

切分模块110用于获取输入的关键词，并将关键词切分为多个字段。举例来说，可接收用户在输入框中输入的关键词“桂林这个地方的著名景点有哪些”，然后切分模块110将其切分为诸如“桂林”、“这个”、“地方”、“的”、“著名”、“景点”、“有”、“哪些”的字段。

获取模块120用于获取每个字段对于关键词的重要度，并根据重要度获取符合预设条件的候选字段。继续上例进行描述，可分别获取“桂林”、“这个”、“地方”、“的”、“著名”、“景点”、“有”、“哪些”这些字段对于关键词“桂林这个地方的著名景点有哪些”的重要度。其中，重要度可以是但不仅限于IDF(反文档频率，Inverse DocumentFrequency)。然后可选取重要度排名为前三名的字段作为候选字段。如果关键词中的字段数小于三个，则选择全部字段作为候选字段。应当理解的是，选取前三名的字段作为候选字段为根据需求预先设置的预设条件，选取的字段数越多，后续的计算量越大，因此会影响系统的性能。故本例中选取三个字段。

检索模块130用于基于倒排库对候选字段进行倒排拉链检索，并获取对应的候选关键词。具体地，检索模块130可对候选字段进行倒排拉链检索，并获取对应的候选关键词。举例来说，对字段“桂林”进行倒排拉链检索，可获取包含该字段的多个候选关键词如“桂林有哪些著名景点”、“桂林好玩的地方”、“桂林自助游”、“桂林最著名的景点是什么啊”等等。应当注意的是，在获取候选关键词时，还包括以下规则：优先获取包含候选字段数量多的候选关键词，例如候选关键词“桂林有哪些著名景点”包含“桂林”、“著名”、“景点”三个候选字段，而候选关键词“桂林好玩的地方”只包含“桂林”一个候选字段，则优先选取候选关键词“桂林有哪些著名景点”。

排序模块140用于基于迭代决策树GBDT模型对候选关键词进行排序，并获取排序结果。其中，排序模块140可包括分析单元141、获取单元142和排序单元143。

具体地，分析单元141可对候选关键词进行分析，并获取候选关键词对应的特征。其中，特征可包括字面特征、语义特征、点击特征、结构特征等。然后获取单元142可根据特征获取关键词与候选关键词的相似度。其中，获取关键词与候选关键词的相似度可包括以下方式：第一种方式，可基于字面特征获取输入的关键词与候选关键词的字编辑距离和/或拼音编辑距离来获取关键词与候选关键词的相似度，也可以获取相同字段对于包含相同字段的候选关键词的重要度来获取关键词与候选关键词的相似度。上述均为基于字面特征获取的相似度。第二种方式，可基于语义特征获取关键词与候选关键词的词向量相似度，也可基于二元语法BIGRAM模型获取关键词与候选关键词的DNN(深层神经网络，DeepNeural Networks)相似度。上述为基于语义特征获取的相似度。第三种方式，可基于点击特征获取关键词与候选关键词的点击相似度，其中，点击特征可包括点击次数、满意次数与点击次数的比值等。第四种方式，可基于结构特征获取关键词与候选关键词的结构相似度。举例来说，关键词为“北京到上海的火车票”，其中一个候选关键词为“上海到北京的火车票”，关键词的结构为：起点＝北京，终点＝上海，需求＝火车票；候选关键词的结构为：起点＝上海，终点＝北京，需求＝火车票，由此可知两者的结构相反，因此两者结构相似度为零，即可滤掉该候选关键词。在获取关键词与候选关键词的相似度之后，排序单元143可根据相似度对候选关键词进行排序，并获取排序结果。举例来说，首先可优先选择包含候选字段数量多的候选关键词。如果候选关键词包含的候选字段数量相同，则优先选择候选字段重要度高的候选关键词。其中，若候选字段数量为多个，则获取候选字段重要度之和。然后再按照候选关键词的点击次数进行排序。

另外，为了更好的处理口语化的关键词，排序模块140还可提取关键词的主干信息，然后获取关键词与候选关键词的第一GBDT得分，再获取主干信息与候选关键词的第二GBDT得分，最后获取第一GBDT得分和第二GBDT得分的平均得分，并根据平均得分对候选关键词进行排序，以获取排序结果。例如：用户输入的关键词为“你知道王俊凯的女朋友吗”，可对该关键词进行分析，然后提取对应的主干信息“王俊凯女朋友”。其中，提取主干信息的方法可以是但不限于获取字段对于关键词的重要度。然后获取“你知道王俊凯的女朋友吗”与候选关键词之间的相似度得分，再获取主干信息“王俊凯女朋友”与候选关键词之间的相似度得分，最后获取两者的平均值。按照数值从高到低的顺序对候选关键词进行排序。

优化模块150用于根据排序结果优化关键词，并根据优化后的关键词进行搜索，以获取搜索结果。在获取排序结果之后，优化模块150可根据排序结果优化关键词，即将排序结果中最优的候选关键词替换掉用户输入的关键词，再进行搜索，并获取对应搜索结果，从而获取更符合用户需求的搜索结果。

如图4所示，搜索优化装置还可包括建立模块160。

在基于倒排库对候选字段进行倒排拉链检索，并获取对应的候选关键词之前，需要预先通过建立模块160建立倒排库。

具体地，建立模块160可统计互联网络中待选关键词样本的检索次数和满意度，再根据检索次数和满意度筛选出满足预设要求的关键词样本，然后根据关键词样本建立倒排库。其中，检索次数为互联网络中用户输入该待选关键词样本进行检索的次数。满意度则是用户点击该待选关键词样本进行检索的点击次数与用户感到满意次数之间的比值，例如用户点击了“桂林自助游”10次，其中有5次用户感到满意，则满意度可为50％。假设预设要求为点击次数大于等于1000次，且满意度要求大于等于80％，则可根据该要求筛选出符合的关键词样本。最后基于上述筛选出的关键词样本建立起倒排库。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种搜索优化方法，其特征在于，包括以下步骤：

获取输入的关键词，并将所述关键词切分为多个字段；

获取每个字段对于所述关键词的重要度，并根据所述重要度获取符合预设条件的候选字段；

基于倒排库对所述候选字段进行倒排拉链检索，并获取对应的候选关键词；

基于迭代决策树GBDT模型对所述候选关键词进行排序，并获取排序结果；以及

根据所述排序结果优化所述关键词，并根据优化后的关键词进行搜索，以获取搜索结果。

2.如权利要求1所述的方法，其特征在于，在基于倒排库对所述候选字段进行倒排拉链检索，并获取对应的候选关键词之前，还包括：

建立所述倒排库。

3.如权利要求2所述的方法，其特征在于，建立所述倒排库，包括：

统计网络中待选关键词样本的检索次数和满意度；

根据所述检索次数和所述满意度筛选出满足预设要求的关键词样本；以及

根据所述关键词样本建立所述倒排库。

4.如权利要求1所述的方法，其特征在于，基于迭代决策树GBDT模型对所述候选关键词进行排序，并获取排序结果，包括：

对所述候选关键词进行分析，并获取所述候选关键词对应的特征，所述特征包括字面特征、语义特征、点击特征和结构特征中的一种或多种；

根据所述特征获取所述关键词与所述候选关键词的相似度；

根据所述相似度对所述候选关键词进行排序，并获取排序结果。

5.如权利要求4所述的方法，其特征在于，根据所述特征获取所述关键词与所述候选关键词的相似度，包括：

基于所述字面特征获取所述关键词与所述候选关键词的字编辑距离和/或拼音编辑距离；和/或

获取相同字段对于包含所述相同字段的候选关键词的重要度。

6.如权利要求4所述的方法，其特征在于，根据所述特征获取所述关键词与所述候选关键词的相似度，包括：

基于所述语义特征获取所述关键词与所述候选关键词的词向量相似度；和/或

基于二元语法BIGRAM模型获取所述关键词与所述候选关键词的深层神经网络DNN相似度。

7.如权利要求4所述的方法，其特征在于，根据所述特征获取所述关键词与所述候选关键词的相似度，包括：

基于所述点击特征获取所述关键词与所述候选关键词的点击相似度。

8.如权利要求4所述的方法，其特征在于，根据所述特征获取所述关键词与所述候选关键词的相似度，包括：

基于所述结构特征获取所述关键词与所述候选关键词的结构相似度。

9.如权利要求1所述的方法，其特征在于，基于迭代决策树GBDT模型对所述候选关键词进行排序，并获取排序结果，还包括：

提取所述关键词的主干信息；

获取所述关键词与所述候选关键词的第一GBDT得分；

获取所述主干信息与所述候选关键词的第二GBDT得分；

获取所述第一GBDT得分和所述第二GBDT得分的平均得分，并根据所述平均得分对所述候选关键词进行排序，以获取排序结果。

10.一种搜索优化装置，其特征在于，包括：

切分模块，用于获取输入的关键词，并将所述关键词切分为多个字段；

获取模块，用于获取每个字段对于所述关键词的重要度，并根据所述重要度获取符合预设条件的候选字段；

检索模块，用于基于倒排库对所述候选字段进行倒排拉链检索，并获取对应的候选关键词；

排序模块，用于基于迭代决策树GBDT模型对所述候选关键词进行排序，并获取排序结果；以及

优化模块，用于根据所述排序结果优化所述关键词，并根据优化后的关键词进行搜索，以获取搜索结果。

11.如权利要求10所述的装置，其特征在于，所述装置还包括：

建立模块，用于在基于倒排库对所述候选字段进行倒排拉链检索，并获取对应的候选关键词之前，建立所述倒排库。

12.如权利要求11所述的装置，其特征在于，所述建立模块，用于：

统计网络中待选关键词样本的检索次数和满意度；

根据所述关键词样本建立所述倒排库。

13.如权利要求10所述的装置，其特征在于，所述排序模块，包括：

分析单元，用于对所述候选关键词进行分析，并获取所述候选关键词对应的特征，所述特征包括字面特征、语义特征、点击特征和结构特征中的一种或多种；

获取单元，用于根据所述特征获取所述关键词与所述候选关键词的相似度；

排序单元，用于根据所述相似度对所述候选关键词进行排序，并获取排序结果。

14.如权利要求13所述的装置，其特征在于，所述获取单元，用于：

15.如权利要求13所述的装置，其特征在于，所述获取单元，用于：

16.如权利要求13所述的装置，其特征在于，所述获取单元，用于：

17.如权利要求13所述的装置，其特征在于，所述获取单元，用于：

18.如权利要求10所述的装置，其特征在于，所述排序模块，还用于：

提取所述关键词的主干信息；

获取所述关键词与所述候选关键词的第一GBDT得分；

获取所述主干信息与所述候选关键词的第二GBDT得分；