CN104462272A

CN104462272A - 搜索需求分析方法和装置

Info

Publication number: CN104462272A
Application number: CN201410687222.5A
Authority: CN
Inventors: 付志宏; 周古月; 贺旭; 何径舟; 石磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-11-25
Filing date: 2014-11-25
Publication date: 2015-03-25
Anticipated expiration: 2034-11-25
Also published as: CN104462272B

Abstract

本发明提出一种搜索需求分析方法和装置，其中，该搜索需求分析方法包括以下步骤：获取搜索词，并获取搜索词对应的多个关联词；抽取搜索词的特征并作为原始特征，并抽取多个关联词的特征并作为关联特征；以及根据原始特征和关联特征获取搜索需求。本发明的搜索需求分析方法，能够准确地获取用户的搜索需求，从而搜索引擎根据用户的搜索需求提供更符合用户需要的搜索结果，进而在提高了搜索的准确率的同时，还提高了搜索的召回率。此外，搜索需求的分析过程与语言无关，因此可方便地在多个不同语种之间进行迁移，更加方便。

Description

搜索需求分析方法和装置

技术领域

本发明涉及搜索技术领域，特别涉及一种搜索需求分析方法和装置。

背景技术

传统的关键词匹配搜索引擎，由于只是对搜索词query进行分词，利用得到的关键词到索引数据中进行检索，并不真正完全理解用户的检索意图，导致检索出的结果仅是包含搜索词中的关键词的结果，并不一定能够满足用户的检索需求。例如Query“刘德华的图片”，在传统的搜索引擎中将分别用“刘德华”和“图片”两个关键词在索引数据中进行检索，检索结果只是包含关键词“刘德华”或者包含关键词“图片”的数据，而非用户真正想获得的“刘德华图片”的数据资源。

因此可进行搜索需求分析的搜索引擎，在现代搜索引擎中扮演着越来越重要的作用。搜索需求分析即分析搜索词的结构与成分，从语义上理解搜索词的检索需求，从而识别出用户的检索意图，从语义上理解query的检索需求，除了能够提供更精准的检索结果之外，还能够针对用户的检索需求，提供更灵活的产品形态。例如Query“刘德华的图片”进行需求识别之后，可以直接提供用户需要的刘德华图片资源。

搜索需求分析目前大多采用模板匹配或者利用Query的检索结果训练机器学习模型的方法。其中模板匹配虽然准确率很高，但是检索结果不够全面，召回率很低，并且模板挖掘依赖于大量人力工作，需要针对每一类需求进行模板挖掘，工作量大，而且语种之间无法迁移；而利用Query检索结果训练机器学习模型的方法完全依赖于检索结果的准确性，准确率很难获得保证，从而导致根据训练的及其学习模型进行搜索得到的结果的准确率也无法保证。

发明内容

本发明旨在至少在一定程度上解决上述技术问题。

为此，本发明的第一个目的在于提出一种搜索需求分析方法，在提高了搜索的准确率的同时，还提高了搜索的召回率，可方便地在多个不同语种之间进行迁移，更加方便。

本发明的第二个目的在于提出一种搜索需求分析装置。

为达上述目的，根据本发明第一方面实施例提出了一种搜索需求分析方法，包括以下步骤：获取搜索词，并获取所述搜索词对应的多个关联词；抽取所述搜索词的特征并作为原始特征，并抽取所述多个关联词的特征并作为关联特征；以及根据所述原始特征和所述关联特征获取搜索需求。

本发明实施例的搜索需求分析方法，通过获取搜索词对应的多个关联词，并分别抽取搜索词的特征和多个关联词的特征，根据搜索词的特征和关联词的特征获取搜索需求，能够准确地获取用户的搜索需求，从而搜索引擎根据用户的搜索需求提供更符合用户需要的搜索结果，进而在提高了搜索的准确率的同时，还提高了搜索的召回率。此外，搜索需求的分析过程与语言无关，因此可方便地在多个不同语种之间进行迁移，更加方便。

本发明第二方面实施例提供了一种搜索需求分析装置，包括：第一获取模块，用于获取搜索词，并获取所述搜索词对应的多个关联词；抽取模块，用于抽取所述搜索词的特征并作为原始特征，并抽取所述多个关联词的特征并作为关联特征；以及第二获取模块，用于根据所述原始特征和所述关联特征获取搜索需求。

本发明实施例的搜索需求分析装置，通过获取搜索词对应的多个关联词，并分别抽取搜索词的特征和多个关联词的特征，根据搜索词的特征和关联词的特征获取搜索需求，能够准确地获取用户的搜索需求，从而搜索引擎根据用户的搜索需求提供更符合用户需要的搜索结果，进而在提高了搜索的准确率的同时，还提高了搜索的召回率。此外，搜索需求的分析过程与语言无关，因此可方便地在多个不同语种之间进行迁移，更加方便。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的搜索需求分析方法的流程图；

图2为根据本发明一个实施例的抽取搜索词的特征并作为原始特征的流程图；

图3a为根据本发明实施例的中文的搜索结果示意图；

图3b为根据本发明实施例的葡萄牙语的搜索结果示意图；

图3c为根据本发明实施例的阿拉伯语的搜索结果示意图；

图4为根据本发明一个实施例的搜索需求分析装置的结构示意图；

图5为根据本发明一个具体实施例的搜索需求分析装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“多个”指两个或两个以上；术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

下面参考附图描述根据本发明实施例的搜索需求分析方法和装置。

为了提高搜索需求分析中搜索结果的准确率和召回率，本发明提出了一种搜索需求分析方法，包括以下步骤：获取搜索词，并获取搜索词对应的多个关联词；抽取搜索词的特征并作为原始特征，并抽取多个关联词的特征并作为关联特征；以及根据原始特征和关联特征获取搜索需求。

图1为根据本发明一个实施例的搜索需求分析方法的流程图。如图1所示，根据本发明实施例的搜索需求分析方法，包括：

S101，获取搜索词，并获取搜索词对应的多个关联词。

其中，搜索词为用户进行搜索时输入的，可以是一个词语或者多个词语的组合。关联词是与搜索词字面相近或者语义相近的词语。举例来说，对于搜索词“刘德华的图片”，对应的关联词可为“刘德华头像”、“刘德华图片版”、“刘德华写真”、“精选华仔图片”和“刘德华壁纸”等。

具体地，在本发明的实施例中，获取搜索词对应的多个关联词具体包括：

以搜索词为中心将与搜索词之间的编辑距离小于预设距离的词作为关联词；和/或对搜索词进行语义分析，并将与搜索词语义近似的词作为关联词。

其中，编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，可用于表示词串之间的相似度。因此，可通过编辑距离从搜索词的组成结构上挖掘出与搜索词字面相关联的关联词。

通过对搜索词进行语义分析，可从语义上挖掘出与搜索词相关联的关联词。

此外，为了能够全面地获取搜索词对应的关联词，可同时从字面以及语义两方面挖掘搜索词的关联词。

S102，抽取搜索词的特征并作为原始特征，并抽取多个关联词的特征并作为关联特征。

在本发明的实施例中，抽取搜索词的特征并作为原始特征可通过如图2所示的方法实现，具体地，如图2所示，抽取搜索词的特征并作为原始特征，包括：

S201，提取搜索词中的专名、专名类别以及各个成分的语义TAG信息。

其中，专名是用于指称实体的词或词组，举例来说，可以分为人名、地名、朝代名、种族名、国名、机构名等不同的专名类别。

语义TAG信息为搜索词中各个成分的语义标签。举例来说对于搜索词中的一个成分“刘德华”的语义标签可以是“电影演员”、“歌手”、“港台明星”、“华仔”等。

S202，提取搜索词的组成结构。

S203，根据搜索词中的专名、专名类别、各个成分的语义TAG信息以及组成结构生成搜索词的描述模板，并将描述模板作为原始特征。

在本发明的实施例中，一方面可通过对关联词本身进行分析以抽取搜索词的特征。具体地，可对关联词进行分词以抽取与搜索词相关且不包含搜索词的多个关键词，然后，从多个关键词中选择与搜索词需求相关的特征词，并将特征词作为多个关联词的特征。举例来说，如果对关联词进行分词后得到一个不包含搜索词的关键词有“壁纸”、“写真”、“精选”等，则可得到与搜索词需求相关的特征词“壁纸”和“写真”，并作为关联特征。

另一方面，还可通过对根据关联词获取的搜索结果或通过对用户点击日志进行分析以抽取搜索词的特征。具体地，可获取多个关联词的多个搜索结果或用户点击日志，然后，从多个关联词的多个搜索结果或用户点击日志中抽取关联词的Title特征、搜索特征和点击特征中的一种或多种，并将Title特征、搜索特征和点击特征中的一种或多种作为关联特征。

S103，根据原始特征和关联特征获取搜索需求。

在本发明的一个实施例中，具体地，可根据原始特征和关联特征查询搜索需求识别模型以获取搜索需求。

从而，搜索引擎可根据得到的搜索需求获取更符合用户需要的结果。因此，更能符合用户需求，提高了搜索的准确率更高，另外，能够比较全面地获取与搜索词相关的搜索结果，提高了搜索的召回率。

具体地，搜索效果可如图3所示，图3a、图3b和图3c分别为根据本发明实施例的中文、葡萄牙语、阿拉伯语的搜索结果示意图。

如图3a所示，对于搜索词“刘德华的图片”，搜索结果主要是关于刘德华的图片类或相关结果，而不再是传统的包含“刘德华”、“图片”字眼的结果。

图3b和图3c分别是对于搜索词葡萄牙语“a vassoura da bruxa”(巫师的扫把)和阿拉伯语(美丽的阿巴利亚晚礼服)得到的搜索结果。

为了实现上述实施例，本发明还提出一种搜索需求分析装置。

一种搜索需求分析装置，包括：第一获取模块，用于获取搜索词，并获取搜索词对应的多个关联词；抽取模块，用于抽取搜索词的特征并作为原始特征，并抽取多个关联词的特征并作为关联特征；以及第二获取模块，用于根据原始特征和关联特征获取搜索需求。

图4为根据本发明一个实施例的搜索需求分析装置的结构示意图。

如图4所示，根据本发明实施例的搜索需求分析装置，包括：第一获取模块10、抽取模块20和第二获取模块30。

具体地，第一获取模块10用于获取搜索词，并获取搜索词对应的多个关联词。

更具体地，在本发明的实施例中，第一获取模块10具体用于：以搜索词为中心将与搜索词之间的编辑距离小于预设距离的词作为关联词；和/或对搜索词进行语义分析，并将与搜索词语义近似的词作为关联词。

其中，编辑距离是指两个字串之间，由一个转成另一个所需的最少编辑操作次数，可用于表示词串之间的相似度。因此，第一获取模块10可通过编辑距离从搜索词的组成结构上挖掘出与搜索词字面相关联的关联词。

通过对搜索词进行语义分析，第一获取模块10可从语义上挖掘出与搜索词相关联的关联词。

此外，为了能够全面地获取搜索词对应的关联词，第一获取模块10可同时从字面以及语义两方面挖掘搜索词的关联词。

抽取模块20用于抽取搜索词的特征并作为原始特征，并抽取多个关联词的特征并作为关联特征。

更具体地，在本发明的实施例中，如图5所示，抽取模块20可具体包括：第一提取单元21、第二提取单元22和生成单元23，并通过第一提取单元21、第二提取单元22和生成单元23抽取搜索词的特征并作为原始特征。其中：

第一提取单元21用于提取搜索词中的专名、专名类别以及各个成分的语义TAG标签信息；其中，专名是用于指称实体的词或词组，举例来说，可以分为人名、地名、朝代名、种族名、国名、机构名等不同的专名类别。

第二提取单元22用于提取搜索词的组成结构；

生成单元23用于根据搜索词中的专名、专名类别、各个成分的语义TAG信息以及组成结构生成搜索词的描述模板，并将描述模板作为原始特征。

在本发明的实施例中，如图5所示，一方面抽取模块20可通过分词单元24和选择单元25对关联词本身进行分析以抽取搜索词的特征，其中：

分词单元24用于对关联词进行分词以抽取与搜索词相关且不包含搜索词的多个关键词；

选择单元25用于从多个关键词中选择与搜索词需求相关的特征词，并将特征词作为多个关联词的特征。

举例来说，如果对关联词进行分词后得到一个不包含搜索词的关键词有“壁纸”、“写真”、“精选”等，则可得到与搜索词需求相关的特征词“壁纸”和“写真”，并作为关联特征。

另一方面，抽取模块20还可通过获取单元26和抽取单元27对根据关联词获取的搜索结果或通过对用户点击日志进行分析以抽取搜索词的特征，其中：

获取单元26用于获取多个关联词的多个搜索结果或用户点击日志；

抽取单元27用于从多个关联词的多个搜索结果或用户点击日志中抽取关联词的Title特征、搜索特征和点击特征中的一种或多种，并将Title特征、搜索特征和点击特征中的一种或多种作为关联特征。

第二获取模块30用于根据原始特征和关联特征获取搜索需求。

在本发明的一个实施例中，第二获取模块30具体用于：根据原始特征和关联特征查询搜索需求识别模型以获取搜索需求。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同限定。

Claims

1.一种搜索需求分析方法，其特征在于，包括以下步骤：

获取搜索词，并获取所述搜索词对应的多个关联词；

抽取所述搜索词的特征并作为原始特征，并抽取所述多个关联词的特征并作为关联特征；以及

根据所述原始特征和所述关联特征获取搜索需求。

2.如权利要求1所述的搜索需求分析方法，其特征在于，所述根据所述原始特征和所述关联特征获取搜索需求具体包括：

根据所述原始特征和所述关联特征查询搜索需求识别模型以获取所述搜索需求。

3.如权利要求1所述的搜索需求分析方法，其特征在于，所述获取所述搜索词对应的多个关联词具体包括：

以所述搜索词为中心将与所述搜索词之间的编辑距离小于预设距离的词作为所述关联词；和/或

对所述搜索词进行语义分析，并将与所述搜索词语义近似的词作为所述关联词。

4.如权利要求1所述的搜索需求分析方法，其特征在于，所述抽取所述搜索词的特征并作为原始特征具体包括：

提取所述搜索词中的专名、专名类别以及各个成分的语义TAG标签信息；

提取所述搜索词的组成结构；

根据所述搜索词中的专名、所述专名类别、所述各个成分的语义TAG信息以及所述组成结构生成所述搜索词的描述模板，并将所述描述模板作为所述原始特征。

5.如权利要求1所述的搜索需求分析方法，其特征在于，所述抽取所述多个关联词的特征并作为关联特征具体包括：

对所述关联词进行分词以抽取与所述搜索词相关且不包含所述搜索词的多个关键词；

从所述多个关键词中选择与所述搜索词需求相关的特征词，并将所述特征词作为所述多个关联词的特征。

6.如权利要求1所述的搜索需求分析方法，其特征在于，所述抽取所述多个关联词的特征并作为关联特征具体包括：

获取所述多个关联词的多个搜索结果或用户点击日志；以及

从所述多个关联词的多个搜索结果或用户点击日志中抽取所述关联词的Title特征、搜索特征和点击特征中的一种或多种，并将所述Title特征、搜索特征和点击特征中的一种或多种作为所述关联特征。

7.一种搜索需求分析装置，其特征在于，包括：

第一获取模块，用于获取搜索词，并获取所述搜索词对应的多个关联词；

抽取模块，用于抽取所述搜索词的特征并作为原始特征，并抽取所述多个关联词的特征并作为关联特征；以及

第二获取模块，用于根据所述原始特征和所述关联特征获取搜索需求。

8.如权利要求7所述的搜索需求分析装置，其特征在于，所述第二获取模块具体用于：

9.如权利要求7所述的搜索需求分析装置，其特征在于，所述第一获取模块具体用于：

10.如权利要求7所述的搜索需求分析装置，其特征在于，所述抽取模块具体包括：

第一提取单元，用于提取所述搜索词中的专名、专名类别以及各个成分的语义TAG标签信息；

第二提取单元，用于提取所述搜索词的组成结构；

生成单元，用于根据所述搜索词中的专名、所述专名类别、所述各个成分的语义TAG信息以及所述组成结构生成所述搜索词的描述模板，并将所述描述模板作为所述原始特征。

11.如权利要求7所述的搜索需求分析装置，其特征在于，所述抽取模块具体包括：

分词单元，用于对所述关联词进行分词以抽取与所述搜索词相关且不包含所述搜索词的多个关键词；

选择单元，用于从所述多个关键词中选择与所述搜索词需求相关的特征词，并将所述特征词作为所述多个关联词的特征。

12.如权利要求7所述的搜索需求分析装置，其特征在于，所述抽取模块具体包括：

获取单元，用于获取所述多个关联词的多个搜索结果或用户点击日志；以及

抽取单元，用于从所述多个关联词的多个搜索结果或用户点击日志中抽取所述关联词的Title特征、搜索特征和点击特征中的一种或多种，并将所述Title特征、搜索特征和点击特征中的一种或多种作为所述关联特征。