CN102880614A

CN102880614A - 数据搜索方法及设备

Info

Publication number: CN102880614A
Application number: CN2011101982437A
Authority: CN
Inventors: 常超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-07-15
Filing date: 2011-07-15
Publication date: 2013-01-16
Anticipated expiration: 2031-07-15
Also published as: CN102880614B; HK1175559A1

Abstract

本申请公开了一种数据搜索方法及设备，以解决基于采用现有技术处理后的搜索关键词难以得到搜索结果的问题。方法包括：确定组成输入的搜索关键词的关键词单元；确定由关键词单元所组成的第一关键词单元组合；从关键词单元组合与标识的对应关系中，确定与第一关键词单元组合相匹配的关键词单元组合对应的标识；根据所述对应的标识，从所述相匹配的关键词单元组合中确定对应同一标识的关键词单元组合；并针对所述相匹配的关键词单元组合对应的每一标识，确定对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词；从确定的搜索关键词中确定一个搜索关键词，并根据确定的该搜索关键词搜索数据。

Description

数据搜索方法及设备

技术领域

本申请涉及数据搜索技术领域，尤其涉及一种数据搜索方法及设备。

背景技术

基于搜索关键词进行检索，是指预先针对数据建立索引，然后再由搜索引擎服务器根据用户输入的搜索关键词(也称查询关键词，即query)，从建立的索引中搜索与query相匹配的索引，并将该索引所对应的数据呈现给用户。

在实际应用中，即使存在与用户欲搜索的数据相匹配的索引，但由于用户输入的query具有随意性、不规范性的特性，所以可能出现虽然用户在query中表达出了欲搜索内容的含义，但由于该query不规范，导致搜索引擎仍然无法从索引中找到与该query匹配的索引，从而最终无法搜索到相应的搜索结果。针对该情况，现有技术中有方案提出对用户输入的query进行一定处理后再进行搜索的思想。

比如，目前现有技术就提供了一种在搜索前对query进行处理的方案。该方案的核心思想在于，通过利用与query所包含的某词语含义相近的且比较规范的同义词或者利用与query所包含的该词语有一定相关关系且比较规范的相关词，替换query相应的词语，或者利用一些具体的词对query所包含的一些不规范的简化词进行扩展说明，使得处理后的query能具备一定的规范性，从而搜索引擎能够搜索到与处理后的query相匹配的索引，进而得到相应的搜索结果。

根据现有技术提供的上述方案可知，其是以尽可能完整准确地表达用户的意图为目的对query进行处理，然而，这样的方案在实际应用中被证明存在下述缺陷：

采用同义词替换的方式无法从实质上改变query的含义，因此仍然可能出现无法得到搜索结果的问题；而对query进行扩展说明的方式会导致query包含的词更多，而基于包含更多词的query进行搜索会导致更难搜索到相应的索引，从而也可能无法得到搜索结果。

发明内容

本申请实施例提供一种数据搜索方法与设备，用以解决基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果的问题。

本申请实施例采用以下技术方案：

一种数据搜索方法，包括：

确定组成输入的搜索关键词的关键词单元；并根据预设的关键词单元组合方式，确定由组成所述输入的搜索关键词的关键词单元所组成的第一关键词单元组合；以及从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中，确定与第一关键词单元组合相匹配的关键词单元组合，并确定所述相匹配的关键词单元组合所对应的标识，其中，为不同搜索关键词分配的标识互不相同；以及根据所述相匹配的关键词单元组合所对应的标识，从确定的所述相匹配的关键词单元组合中，确定对应于同一标识的关键词单元组合；并针对所述相匹配的关键词单元组合对应的每一标识，分别确定由确定出的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词；以及从确定的搜索关键词中确定一个搜索关键词，并根据确定的该搜索关键词搜索数据。

可选的，从确定的搜索关键词中确定一个搜索关键词，具体包括：根据预先设置的用于衡量关键词单元表意能力的得分数据，分别确定所述确定的搜索关键词中各搜索关键词的得分；以及根据确定的各搜索关键词的得分，从确定的搜索关键词中确定一个搜索关键词。

可选的，根据所述相匹配的关键词单元组合所对应的标识，从确定的所述相匹配的关键词单元组合中，确定对应于同一标识的关键词单元组合，具体包括：按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原则，逐个从所述相匹配的关键词单元组合所对应的标识中抽取标识；并在每次抽取出标识且判断出相邻两次抽取出的标识相同时，记录抽取的标识所对应的关键词单元组合，直至判断出相邻两次抽取的标识不同时，从记录的关键词单元组合中确定对应于同一标识的关键词单元组合；删除记录的关键词单元组合，并记录在所述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单元组合；以及重复执行上述三个步骤，直至满足抽取结束条件时，从记录的关键词单元组合中确定对应于同一标识的关键词单元组合，并删除记录的关键词单元组合。

可选的，所述抽取结束条件为：所述相匹配的关键词单元组合所对应的所有标识被抽取完毕。

可选的，上述方法还包括：对出现连续两次抽取的标识对应不同关键词单元组合的情况的次数进行记录；以及所述抽取结束条件为：确定记录的次数大于预定次数阈值。

一种数据搜索设备，包括：关键词单元确定单元，用于确定组成输入的搜索关键词的关键词单元；第一组合确定单元，用于根据预设的关键词单元组合方式，确定由关键词单元确定单元确定的关键词单元所组成的第一关键词单元组合；组合与标识确定单元，用于从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中，确定与第一组合确定单元确定的第一关键词单元组合相匹配的关键词单元组合，并确定所述相匹配的关键词单元组合所对应的标识，其中，为不同搜索关键词分配的标识互不相同；第二组合确定单元，用于根据组合与标识确定单元确定的所述相匹配的关键词单元组合所对应的标识，从组合与标识确定单元确定的确定的所述相匹配的关键词单元组合中，确定对应于同一标识的关键词单元组合；第一搜索关键词确定单元，用于针对组合与标识确定单元确定的所述相匹配的关键词单元组合对应的每一标识，分别确定由第二组合确定单元确定的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词；第二搜索关键词确定单元，用于从第一搜索关键词确定单元确定的搜索关键词中确定一个搜索关键词；数据搜索单元，用于根据第二搜索关键词确定单元确定的搜索关键词搜索数据。

本申请实施例的有益效果如下：

通过执行本申请实施例提供的方案，可以实现对组成输入的搜索关键词的关键词单元的省略，从而基于省略了关键词单元后的搜索关键词进行搜索就更容易得到搜索结果，解决可基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果的问题。

附图说明

图1为本申请实施例提供的一种数据搜索方法的具体流程示意图；

图2为本申请实施例中构建倒排链的具体流程示意图；

图3为本申请实施例中Online计算与搜索子过程的具体实现流程示意图；

图4为本申请实施例中提供的一种用于确定构成“共现关系”的key的方式的实现流程示意图；

图5为本申请实施例提供的一种数据搜索设备的具体结构示意图。

具体实施方式

为了解决基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果的问题，本申请实施例提供了一种数据搜索方案。该数据搜索方案的基本思路在于，通过对组成输入的搜索关键词的关键词单元进行省略，并基于省略了关键词单元后的搜索关键词进行搜索，从而更容易得到搜索结果。

以下结合附图，对本申请实施例提供的方案进行详细说明。

本申请实施例首先提供一种如图1所示的数据搜索方法，该方法的具体流程主要包括下述步骤：

步骤11，确定组成输入的搜索关键词的关键词单元；

一般地，通过对用户输入的搜索关键词执行分词处理，就可以得到组成输入的搜索关键词的各个关键词单元。这里的关键词单元一般包括字、词或词组(词组是指由两个以上的词语组合而成的语法单位)。比如，通过对输入的一个搜索关键词“世界卫生联合组织”执行分词处理，就可以得到组成该搜索关键词的关键词单元，包括：“世界”、“卫生”、“联合”、“组织”。

步骤12，根据预设的关键词单元组合方式，确定由组成所述输入的搜索关键词的关键词单元所组成的第一关键词单元组合；

本申请实施例中，对一个关键词单元组合中包含的关键词单元个数不做限定。比如可以为2个，也可以为3个等等。以“世界、卫生、联合、组织”这几个关键词单元为例，若预设的关键词单元组合方式为“两两组合”，那么就可以得到6个关键词单元组合，分别为：“世界+卫生”、“世界+联合”、“世界+组织”、“卫生+联合”、“卫生+组织”、“联合+组织”。而若预设的关键词单元组合方式为“三个关键词单元组合”，那么就的可以得到4个关键词单元组合，分别为：“世界+卫生+联合”、“世界+卫生+组织”、“卫生+联合+组织”、“世界+联合+组织”。

步骤13，从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中，确定与第一关键词单元组合相匹配的关键词单元组合，并确定与第一关键词单元组合相匹配的关键词单元组合所对应的标识，其中，为不同搜索关键词分配的标识互不相同；

可选的，上述对应关系可以但不限于通过下述子步骤1～子步骤5确定：

子步骤1，获得在指定时间段内输入的多个搜索关键词；

子步骤2，从获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词；

由于没有对应有搜索结果的搜索关键词可以视为没有意义的搜索关键词，因此，在子步骤2中，可以只从获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词进行后续处理。

子步骤3，分别确定各个第一搜索关键词所包含的关键词单元以及关键词单元个数，并根据预设的关键词单元组合方式，分别确定由第一搜索关键词包含的关键词单元所组成的关键词单元组合；

一般地，这里所说的预设的关键词组合方式与步骤12中的关键词组合方式是相同的。

子步骤4，按照为确定的由多至少的关键词单元个数对应的第一搜索关键词分别对应分配由小至大的标识的方式，分别为各个第一搜索关键词分配标识；

子步骤5，对应存储为各第一搜索关键词分配的标识和各第一搜索关键词所包含的关键词单元组成的关键词单元组合。

在实际应用中，这里所说的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识可以是根据指定的搜索关键词集合(比如用户在一天或预定时间长度内输入搜索引擎的全部搜索关键词组成的集合)来设置并对应存储的。比如，若指定的搜索关键词集合包含的搜索关键词有“卫生组织”、“世界卫生组织”、“联合国安全理事会”、“世界安全组织”、“安全理事会”，那么根据该搜索关键词集合，若关键词单元组合方式为“两两组合”，则可以确定“卫生组织”这一搜索关键词对应的关键词单元组合为“卫生+组织”；“世界卫生组织”这一搜索关键词对应的关键词单元组合为“世界+卫生”、“世界+组织”、“卫生+组织”；“联合国安全理事会”这一搜索关键词对应的关键词单元组合为“联合国+安全”、“联合国+理事会”、“安全+理事会”。依次类推，可以得到如表1所示的关键词单元组合。

表1：

搜索关键词	关键词单元组合
		卫生组织	卫生+组织
世界卫生组织	世界+卫生、世界+组织、卫生+组织

联合国安全理事会	联合国+安全、联合国+理事会、安全+理事会
		世界安全组织	世界+安全、安全+组织、世界+组织
安全理事会	安全+理事会

进一步地，若为搜索关键词集合中包含的搜索关键词分别分配的标识如表2所示，则关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系如表3所示。

表2：

搜索关键词	标识
		卫生组织	4
世界卫生组织	1
		联合国安全理事会	0
世界安全组织	2
		安全理事会	3

表3：

关键词单元组合	标识
		卫生+组织	4
世界+卫生、世界+组织、卫生+组织	1
		联合国+安全、联合国+理事会、安全+理事会	0
世界+安全、安全+组织、世界+组织	2
		安全+理事会	3

基于表3，若当前输入的搜索关键词为“世界卫生联合组织”，那么，根据与该搜索关键词相应的关键词单元组合“世界+卫生”、“世界+联合”、“世界+组织”、“卫生+联合”、“卫生+组织”、“联合+组织”，就能够从表3中确定与这6个关键词单元组合之一相匹配的关键词单元组合有“世界+卫生”、“卫生+组织”、世界+组织”，其分别依次对应标识1、4、1。

步骤14，根据所述相匹配的关键词单元组合所对应的标识，从确定的所述相匹配的关键词单元组合中，确定对应于同一标识的关键词单元组合；

比如，针对确定出的关键词单元组合为“世界+卫生”、“卫生+组织”、世界+组织”，且其分别依次对应标识1、4、1的情况，就可以确定出对应于同一标识“1”的关键词单元组合为“世界+卫生”和“世界+组织”，而对应于标识“4”的关键词单元组合为“卫生+组织”。

在本申请实施例中，可以通过下述几个子步骤，实现确定对应于同一标识的关键词单元组合：

子步骤1：按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原则，逐个从确定出的与输入的搜索关键词相应的关键词单元组合相匹配的关键词单元组合所对应的标识中抽取标识；其中，这里所说的抽取符合指定条件的标识可以为抽取最小的标识，也可以为抽取最大的标识。当为包含的关键字单元由多到少的搜索关键词分别对应分配由小至大的标识时，那么可以每次抽取最小的标识；反之，当为包含的关键字单元由多到少的搜索关键词分别对应分配由大至小的标识时，那么可以每次抽取最大的标识。

子步骤2：在每次抽取出标识且判断出相邻两次抽取出的标识相同时，记录抽取的标识所对应的关键词单元组合，直至判断出相邻两次抽取的标识不同时，从记录的关键词单元组合中确定对应于同一标识的关键词单元组合；

子步骤3：删除记录的关键词单元组合，并记录在上述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单元组合；

子步骤4：重复依次执行上述子步骤1～3，直至满足抽取结束条件时，从记录的关键词单元组合中确定对应于同一标识的关键词单元组合，并删除记录的关键词单元组合。

采用上述子步骤1～4这样的方案确定对应于同一标识的关键词单元组合的好处在于，由于在判断出相邻两次抽取的标识不同时，在从记录的关键词单元组合中确定对应于同一标识的关键词单元组合后会删除记录的关键词单元组合，因此，可以实现利用有限的存储空间来记录关键词单元组合，以避免需要同时对所有的关键词单元组合和对应的标识进行记录而需要较大的存储空间的问题。

可选的，在抽取标识的过程中，还可以对出现连续两次抽取的标识对应不同关键词单元组合的情况的次数进行记录，从而可以将上述抽取结束条件设置为：确定记录的次数大于预定次数阈值。或者，上述抽取结束条件也可以为：上述相匹配的关键词单元组合所对应的所有标识都被抽取完毕。

步骤15，针对与输入的搜索关键词相应的关键词单元组合相匹配的关键词单元组合对应的每一标识，分别确定由确定出的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词；

比如，针对上述标识1、4，就可以确定出对应于“1”的关键词单元组合“世界+卫生”和“世界+组织”所组成的搜索关键词为“世界卫生组织”，同时确定出对应于“4”的关键词单元组合为“卫生+组织”所组成的搜索关键词为“卫生组织”。

步骤16，从确定的搜索关键词中确定一个搜索关键词，并根据确定的该搜索关键词搜索数据。

比如，针对上述确定出的两个搜索关键词“世界卫生组织”和“卫生组织”，就可以从中随机确定一个搜索关键词，或者按照本申请实施例提供的一种选取规则从中选取一个搜索关键词。

本申请实施例给出的一种选取规则是根据预先设置的用于衡量关键词单元表意能力的得分数据，来实现从确定的搜索关键词中确定一个搜索关键词。需要说明的是，关键词单元的表意能力是指关键词单元对用户搜索意图的一种体现能力。可以说，一个搜索关键词对用户搜索意图的体现能力是由组成这个搜索关键词的所有关键词单元的表意能力共同支撑的。一个关键词单元的表意能力越强，则它在其所在的搜索关键词中的地位自然就越高。一般地，关键词单元的表意能力是与其在多个搜索关键词中出现的频率有一定关系的，因此，本申请实施例中，可以考虑根据该出现频率来确定关键词单元的表意能力，从而为其设置相应的得分数据。为关键词单元设置得分数据的一个具体的实施例将在后文进行详细说明，在此不再赘述。此外，本申请实施例给出的另一种选取规则是从确定的搜索关键词中随机选取一个搜索关键词。或者，选取规则还可以是根据确定的搜索关键词的长度(这里所说的搜索关键词的长度可以理解为搜索关键词所包含的单字的个数)，选取具有最长长度的搜索关键词，即选取包含单字个数最多的搜索关键词。

比较用户输入的搜索关键词“世界卫生联合组织”的长度和执行步骤16后选取出的搜索关键词“世界卫生组织”(或“卫生组织”)的长度可知，通过执行如图1所示的上述步骤，实现了对搜索关键词包含的关键词单元的省略，而本领域技术人员可以了解，根据包含关键词单元较少的搜索关键词进行搜索时，更容易搜索到相应的数据，这也是本申请实施例提供的上述方案的技术效果。

以下以一个具体的实施例为例，详细说明本申请实施例提供的上述方案在实际中的应用过程。

在本实施例中，对数据进行搜索的过程可以分为两个子过程。第一个子过程可以称为离线(Offline)数据挖掘子过程；第二个子过程可以称为在线(Online)计算与搜索子过程。以下分别对这两个子过程进行介绍。

Offline数据挖掘子过程：

该子过程主要是要完成对两个词典的挖掘，并基于挖掘得到的这两个词典，确定指定query集合中各query所包含的term的得分，并确定由term组成的term组合与相应的query的序号的对应关系。其中，这里所说的term为字、词或词组(词组是指由两个以上的词语组合而成的语法单位)，而组成query的字、词和词组也可以统称为搜索关键词单元。

被挖掘的第一个词典叫做term rank词典，该词典是从搜索日志(search log)中挖掘得到的。该词典记录的内容为用户历史输入的query中包含的各个term。由于query承载着用户的搜索意图，所以query必然具备一定的表意能力。一个query的表意能力由组成这个query的所有term共同支撑。可以简单认为，一个query的表意能力等于组成该query的各term的表意能力之和。其中，一个term的表意能力越强，则它在其所在的query中的地位自然就越高。本申请实施例中，可以把用于衡量term在query中的表意能力的值称为该term的termrank值，简称TR值。一般说来，如果一个term出现在一个query中的次数越多，说明这个term的表意能力越强；如果这个term又频繁的出现在其他的query中，说明这个term的表意过于通用，就会损失一部分表意能力。

基于上述分析，本申请实施例提供了一种计算term的TR值的公式，该公式如下式[1]所示：

term_score(i)＝tf(i)*idf(i) [1]

其中，term_score(i)代表序号为i的term的TR值，tf(i)为序号为i的term在指定的query(比如指定query集合所含的所有query)所包含的全部term中出现的总次数，idf(i)为对指定query集合中包含的query的总个数x除以包含有序号为i的该term的query总个数y所得到的商取对数而得到的结果，即有如下式[2]所示的公式：

term_score (i) = tf (i) * \log (\frac{x}{y}) - - - [2]

需要说明的是，针对某个(或某些)term，可能出现x＝y的情况，那么此时有

在该情况下，可以考虑采用下述公式[3]来计算term的得分：

term_score (i) = tf (i) * \log (\frac{x + z}{y}) - - - [3]

其中，z为大于0而小于1的一个常数，其作用在于修正x/y的值，以避免出现

的情况。在计算同一指定query集合的query包含的各个term的得分时，z应该保持不变。

按照上述公式计算出的TR值的特点在于：具有较高的TR值的term的表意能力较强，反之，具有相对较低的TR值的term的表意能力也相对较弱。

需要说明的是，在按照公式[1]对term的TR值进行计算之前，可以先对指定query集合进行处理。比如可以从该query集合中删除掉在该query集合中的出现次数小于预定出现次数阈值的query后，再针对处理后得到的query集合所对应的各个term执行上述操作。这样做的原因在于，出现次数太少的query对于计算term的TR值的贡献度较小，甚至会带来无用的噪声数据。因此，即使对该些term进行删除，也对最终计算出的TR值影响不大，甚至是有益的，而且还能提高处理效率。

被挖掘的第二个词典叫做All-occurrence词典，该词典用于保存指定query集合中的各query所包含的term组成的term组合与相应的query的序号的对应关系。其中，这里的指定query集合可以为搜索引擎在一天之内(也可以是其他时间段内)接收到的由用户输入的query组成的集合。这里的指定query集合与term rank词典中记录的query所在的query集合可以相同也可以不同。

针对该指定query集合，通过执行如图2所示的下述步骤，以构建一个用于记录term组合与相应的query序号的对应关系的倒排链：

步骤21，从该query集合中提取出对应有相应搜索结果的query；

因为一些无法获得搜索结果的query基本是毫无意义的，因此，本实施例中着重考察能够得到搜索结果的query。

步骤22，对提取出的query执行分词操作，将各个query拆分成相应的term；

比如，若提取出了多个query，分别为A、B、C、D，其中，A包含的term为(a、b)，B包含的term为(a、b、c)，C包含的term为(a、b、d、e)，D包含的term为(a、f)，那么对A、B、C、D执行分词操作后得到的相应的term分别为：(a、b)、(a、b、c)、(a、b、d、e)、(a、f)。

步骤23，根据各个query所包含的term，确定包含的所有term被其他任意query完全包含的query，并删除掉确定出的该query；

比如，根据上述A、B、C、D所分别包含的term可知，A所包含的所有term(即a、b)就完全包含在B所包含的term(即a、b、c)中，此时就可以删掉A。或者，也可以以A所包含的所有term完全包含在C所包含的term中为依据，删掉A。这样做的原因在于，由于A所包含的所有term完全包含在B或C所包含的term中，因此，省略掉A不会影响构建关键词单元组合，而且由于要处理的query减少，还会加速关键词单元组合的构建过程。

步骤24，在删除掉满足步骤23所述条件的query后，按照query所包含的term的个数由多至少的顺序，对执行步骤23后剩余的query依次进行排序，并根据query包含的term个数，为剩余的query分别分配序号；

比如，在删除掉A后，按照B、C、D所包含的term个数的多少对其进行排序并分配序号，可以得到：C排在第一位，为其分配的序号为0；B排在第二位，为其分配的序号为1；D排在第三位，为其分配的序号为2。

步骤25，按照选取任意两个term进行组合的方式，分别从所述剩余的每个query包含的term中选取term进行组合，并将所有可能得到的组合方式进行记录，其中，term组成的组合可以称为key，而query的序号可以称为相应的key的value；

针对C、B、D这几个query，按照步骤25所述的方式，可以得到如下表4所示的记录：

表4：

步骤26，根据key和value构建倒排链。

本实施例中，构建的倒排链可以如下表5所示。表5是按照value由小至大的顺序对相应的key进行排序的。

表5：

key	value
		a+b	0、1
a+c	1
		b+c	1
a+d	0
		b+d	0
e+d	0
		a+f	2
a+e	0
		b+e	0

基于每个term的得分和如表5所示的倒排链，就可以继续执行Online计算与搜索子过程。

Online计算与搜索子过程的作用在于：针对用户当前输入的query，根据预先记录的如表5所示的倒排链，就能够从用户当前输入的该query中的term确定可以被省略的term，并对确定的该term进行省略后执行数据搜索。具体地，Online计算与搜索子过程的具体实现过程如图3所示，包括以下步骤：

步骤31，确定输入的query所包含的term，并确定其包含的term中由2个term组成的所有term组合(即key)；

比如，若用户输入的query为X，其包含的term为(a、b、d、f)，那么该些term能组成的key为a+b、a+d、a+f、b+d、b+f、d+f。

步骤32，从Offline数据挖掘子过程中确定的倒排链中，确定与步骤31中确定出的key匹配一致的key，并从该倒排链确定与步骤31中确定出的key匹配一致的key所对应的value；

比如，根据X所包含的term组成的key(a+b、a+d、a+f、b+d、b+f、d+f)，就可以从如表2所示的倒排链中确定与之匹配一致的key，并确定出key所对应的value，即确定出a+b对应0、1，a+d对应0，a+f对应2，b+d对应0。由于b+f、d+f)没有出现在表2中，因此也就无法确定出其对应的value，不过这对图3中接下来的其他步骤不会产生不利影响。

步骤33，根据步骤32中确定的各value与相应的key的对应关系，遍历X包含的所有key，并从组成这些key的term中确定构成“共现关系”的term；

其中，这里的“构成‘共现关系’”的定义为：对应于同一value的key所包含的所有term中，任意的多个term都构成“共现关系”。比如，若有两个不同的key都对应于同一value，那么这两个key所包含的所有term中的任意多个term都构成“共现关系”。又比如，若某value只对应一个key，那么这个key所包含的term中的任意多个term也构成“共现关系”。

比如，根据步骤32所确定的value与相应的key的对应关系可知，a+b、a+d、b+d都对应于同一value，即“0”，那么，a+b、a+d、b+d所包含的term a、b、d构成共现关系。“2”这个value对应a+f这一个key，因此term a和f也构成共现关系。类似的，“1”这个value对应a+b这一个key，因此term a和b也构成共现关系。

步骤34，根据构成共现关系的term，确定由这些term组成的query，为了便于描述，可以将确定出的由这些term组成的query称为候选query；

比如，上述构成共现关系的term有a、b、d，那么由a、b、d组成的候选query可以确定为(a+b+d)。类似的，由构成共现关系的a和f组成的候选query可以确定为(a+f)，由构成共现关系的a和b组成的候选query可以确定为(a+b)。这样就确定了三个候选query，分别为(a+b+d)、(a+f)、(a+b)。

步骤35，根据预先为各个term确定的得分，分别确定各个候选query所包含的各term的总得分；

本实施例中，按照公式[1]或[3]，可以预先确定各个term的得分。比如，针对包含B、C、D的query集合，可以按照公式[3](z选0.5)计算出各个term的得分如下：

a的得分为：3×log((3+0.5)/3)＝0.2；

b的得分为：2×log((3+0.5)/2)＝0.48；

c的得分为：1×log((3+0.5)/1)＝0.54；

d的得分为：1×log((3+0.5)/1)＝0.54；

e的得分为：1×log((3+0.5)/1)＝0.54；

f的得分为：1×log((3+0.5)/1)＝0.54。

基于上述得分，就可以分别确定出各个候选query包含的term的得分总和。比如，(a+b+d)所包含的term a、b、d的得分总和为：0.2+0.48+0.54＝1.22。(a+f)所包含的term a、f的得分总和为0.2+0.54＝0.74。(a+b)的得分总和为：0.2+0.48＝0.68。

需要说明的是，步骤35主要是针对步骤34中确定出的各个候选query互不相同的情况。若步骤34中确定的多个候选query均相同，那么此时也可以不用执行步骤35以及后续的步骤36、步骤37，而直接将步骤34中确定出的候选query作为对用户输入的query进行处理后的最终结果，并以该候选query替换用户输入的X作为query，实现对数据的检索，并结束流程。

步骤36，选取最大的得分总和所对应的候选query作为对用户输入的query进行处理后得到的最终结果；

比如，按照上述得分总和可知，最高的得分总和为1.22，即term a、b、d的得分总和，从而可以选取由term a、b、d对应的候选query(即(a+b+d))作为对用户输入的X进行处理后得到的最终结果。

步骤37，根据选取的query对数据进行搜索，流程结束。

需要说明的是，上述步骤33是采用遍历X包含的term组成的所有key、并对所有的key和value的对应关系进行记录的方式来实现从X包含的key所包含的term中确定构成“共现关系”的term，这种方式存在的缺陷在于，为了判断出哪些term构成“共现关系”，需要在遍历过程中对各个key对应的value进行记录，从而会占用较大的存储空间并且可能会导致处理效率较低。因此，本实施例中还提供另外一种用于实现从X包含的term组成的所有key中确定构成“共现关系”的key的方式，以避免采用上述方式会占用较大存储空间并且导致处理效率较低的问题。该方式的实现过程如图4所示，包括下述步骤：

步骤41，按照抽取最小的value以及抽取出的value遵循“无放回”的原则，从步骤32中确定的各value中抽取value；

步骤42，判断本次抽取的value与前一次抽取的value是否相同，在判断结果为是时，执行步骤43，否则，执行步骤44；

步骤43，记录抽取的该value对应的key，并继续执行步骤41；

步骤44，若存在已记录的对应于抽取的value的key，则将记录的对应同一value的key所包含的term确定为构成“共现关系”的term，然后清空记录的key，并记录本次抽取的value所对应的key，然后执行步骤45；

步骤45，判断所有的value是否都被抽取完毕，若判断结果为是，则执行步骤46，否则，继续执行步骤41；

步骤46，将记录的对应同一value的key所包含的term确定为构成“共现关系”的term，然后清空记录的key，流程结束。

具体地，以用户输入的query为X，从而按照表5确定出a+b对应0、1，a+d对应0，a+f对应2，b+d对应0的情况为例，上述步骤的实现过程为：第一次抽取时，按照抽取最小的value的原则，抽取到的value为“0”。假设抽取的该“0”对应的key是a+b，则a+b对应的该“0”可以从确定的value中删除，以实现遵循“无放回”的原则进行第二次抽取。针对第二次抽取，同样按照抽取最小的value的原则，假设抽取的是a+d对应的“0”，则从确定的value中删除a+d对应的该“0”。由于第二次抽取出的“0”与第一次抽取的“0”相同，那么，就对第一次抽取的“0”对应的a+b和第二次抽取的“0”对应的a+d进行记录。由于value中有3个“0”，因此在前3次抽取中，抽取到的value都为“0”。从而记录了与“0”对应的3个key，分别为a+b、a+d、b+d。而从第4次抽取开始，此时由于“0”都被抽取完，那么就会抽取当前剩余的value中的最小value，即“1”。由于抽取的“1”与之前抽取的“0”不同，因此，此时将抽取的3个“0”所对应的、已记录的3个key a+b、a+d、b+d所包含的term确定为构成“共现关系”的term，然后清空记录的key，并重新对“1”这个value对应的key进行记录，之后继续对value进行抽取。在第5次抽取中，抽取到的value是a+f所对应的“2”，由于“2”与之前抽取到的“1”不同，因此，此时将记录的与“1”对应的key所包含的term确定为构成“共现关系”的term，然后清空记录的key，并重新对“2”这个value对应的key进行记录。由于此时已完成对所有value的抽取，因此，根据步骤48，将记录的与“2”对应的key所包含的term确定为构成“共现关系”的term，然后清空记录的key，并结束流程。

一般地，由于用户输入的query有可能很长，使得将其拆分为term并对term进行组合后可能会得到较多的key，因此，为了节约一定的处理时间，在保证确定出足够多的构成“共现关系”的key的前提下，上述步骤47可以改为：判断跳链次数是否大于预定次数阈值，若判断结果为是，则执行步骤48，否则，继续执行步骤41。其中，“跳链”的定义为：若连续两次抽取的value所对应的key不同，则称为发生一次“跳链”。比如，若第一次抽取出的“0”对应的key是a+b，第二次抽取的“0”对应的key是a+d，由于a+b和a+d是不同的两个key，因此，这样就相当于是发生了一次“跳链”。而若第3次抽取到的value对应的key是a+b，而第4次抽取的value对应的key也是a+b，那么这种情况就不能称为发生了一次跳链。

还需要说明的是，在本申请实施例中，由于为包含较多term的query(为了便于描述，以下将包含较多term的query简称为较长的query)分配了较小的序号，并且在后续抽取value时是按照从最小的value开始抽取的，因此，若在跳链次数大于预定次数阈值时停止抽取value后，那么当前已抽取得到的value中，大部分(也可能是全部，这取决于预定次数阈值的具体值)value都是对应于较长的query所包含的key。这样做的原因在于，当用户输入一个较长的query时，一方面是希望对其进行简化，从中删除一些term；另一方面，仍然要保证用户输入的该query的含义不会因为对其过分简化而受到影响。基于这样的考虑，本申请实施例中倾向于通过上述手段使得抽取出的value都是对应于较长的query所包含的key，这样可以避免对用户输入的query进行过分简化的问题。

相应地，本申请实施例还提供一种数据搜索设备，用以解决基于采用现有技术处理后的搜索关键词进行搜索时难以得到搜索结果的问题。该数据搜索设备的具体结构示意图如图5所示，包括下述功能单元：

关键词单元确定单元51，用于确定组成输入的搜索关键词的关键词单元；

第一组合确定单元52，用于根据预设的关键词单元组合方式，确定由关键词单元确定单元51确定的关键词单元所组成的第一关键词单元组合；

组合与标识确定单元53，用于从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中，确定与第一组合确定单元确定52的第一关键词单元组合相匹配的关键词单元组合，并确定所述相匹配的关键词单元组合所对应的标识，其中，为不同搜索关键词分配的标识互不相同；

第二组合确定单元54，用于根据组合与标识确定单元确定的所述相匹配的关键词单元组合所对应的标识，从组合与标识确定单元53确定的确定的所述相匹配的关键词单元组合中，确定对应于同一标识的关键词单元组合；

第一搜索关键词确定单元55，用于针对组合与标识确定单元53确定的所述相匹配的关键词单元组合对应的每一标识，分别确定由第二组合确定单元54确定的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词；

第二搜索关键词确定单元56，用于从第一搜索关键词确定单元55确定的搜索关键词中确定一个搜索关键词；

数据搜索单元57，用于根据第二搜索关键词确定单元56确定的搜索关键词搜索数据。

可选的，如图5所示的该设备还可以进一步包括存储关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系的存储单元。该存储单元可以但不限于包括以下功能模块：

获得模块，用于获得在指定时间段内输入的多个搜索关键词；第一确定模块，用于从获得模块获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词；第二确定模块，用于分别确定第一确定模块确定的各个第一搜索关键词所包含的关键词单元以及关键词单元个数，并根据预设的关键词单元组合方式，分别确定由第一搜索关键词包含的关键词单元所组成的关键词单元组合；标识分配模块，用于按照为确定的由多至少的关键词单元个数对应的第一搜索关键词分别对应分配由小至大的标识的方式，分别为第一确定模块确定的各个第一搜索关键词分配标识；存储模块，用于对应存储标识分配模块为各第一搜索关键词分配的标识和第二确定模块确定的关键词单元组合。

对应于第二搜索关键词确定单元56功能的一种实现方式，可以将其具体划分为以下功能模块，包括：

得分确定模块，用于根据预先设置的用于衡量关键词单元表意能力的得分数据，分别确定所述确定的搜索关键词中各搜索关键词的得分；搜索关键词确定模块，用于根据得分确定模块确定的各搜索关键词的得分，从确定的搜索关键词中确定一个搜索关键词。

可选的，第二组合确定单元54可以进一步划分为以下功能模块，包括：

抽取模块，用于按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原则，逐个从所述相匹配的关键词单元组合所对应的标识中抽取标识；标识判断模块，用于在抽取模块每次抽取出标识后，判断抽取模块相邻两次抽取出的标识是否相同；记录模块，用于在标识判断模块得到的判断结果为是时，记录抽取模块抽取的标识所对应的关键词单元组合；确定模块，用于在标识判断模块得到的判断结果为否时，从记录模块记录的关键词单元组合中确定对应于同一标识的关键词单元组合；删除与记录执行模块，用于在确定模块确定关键词单元组合后，删除记录模块记录的关键词单元组合，并将在所述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单元组合记录在记录模块中；抽取结束条件判断模块，用于在删除与记录执行模块将关键词单元组合记录在记录模块中后，判断抽取模块对标识的抽取是否满足抽取结束条件；确定与删除执行模块，用于在抽取结束条件判断模块得到的判断结果为是时，从记录模块记录的关键词单元组合中确定对应于同一标识的关键词单元组合，并删除记录模块记录的关键词单元组合。

可选的，在将第二组合确定单元54划分为上述功能模块的基础上，第二组合确定单元54还可以进一步包括：记录模块，用于对出现连续两次抽取的标识对应不同关键词单元组合的情况的次数进行记录。此时的抽取结束条件可以为：确定记录模块记录的次数大于预定次数阈值。

或者，抽取结束条件还可以为：所述相匹配的关键词单元组合所对应的所有标识被抽取完毕。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据搜索方法，其特征在于，包括：

确定组成输入的搜索关键词的关键词单元；并

根据预设的关键词单元组合方式，确定由组成所述输入的搜索关键词的关键词单元所组成的第一关键词单元组合；以及

从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中，确定与第一关键词单元组合相匹配的关键词单元组合，并确定所述相匹配的关键词单元组合所对应的标识，其中，为不同搜索关键词分配的标识互不相同；以及

根据所述相匹配的关键词单元组合所对应的标识，从确定的所述相匹配的关键词单元组合中，确定对应于同一标识的关键词单元组合；并

针对所述相匹配的关键词单元组合对应的每一标识，分别确定由确定出的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词；以及

从确定的搜索关键词中确定一个搜索关键词，并根据确定的该搜索关键词搜索数据。

2.如权利要求1所述的方法，其特征在于，通过下述方式预先设置并存储关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系：

获得在指定时间段内输入的多个搜索关键词；

从获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词；

分别确定各个第一搜索关键词所包含的关键词单元以及关键词单元个数，并根据预设的关键词单元组合方式，分别确定由第一搜索关键词包含的关键词单元所组成的关键词单元组合；

按照为确定的由多至少的关键词单元个数对应的第一搜索关键词分别对应分配由小至大的标识的方式，分别为各个第一搜索关键词分配标识；以及

对应存储为各第一搜索关键词分配的标识和各第一搜索关键词所包含的关键词单元组成的关键词单元组合。

3.如权利要求1所述的方法，其特征在于，从确定的搜索关键词中确定一个搜索关键词，具体包括：

根据预先设置的用于衡量关键词单元表意能力的得分数据，分别确定所述确定的搜索关键词中各搜索关键词的得分；以及

根据确定的各搜索关键词的得分，从确定的搜索关键词中确定一个搜索关键词。

4.如权利要求1所述的方法，其特征在于，根据所述相匹配的关键词单元组合所对应的标识，从确定的所述相匹配的关键词单元组合中，确定对应于同一标识的关键词单元组合，具体包括：

按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原则，逐个从所述相匹配的关键词单元组合所对应的标识中抽取标识；并

在每次抽取出标识后，判断出相邻两次抽取出的标识相同时，记录抽取的标识所对应的关键词单元组合，直至判断出相邻两次抽取的标识不同时，从记录的关键词单元组合中确定对应于同一标识的关键词单元组合；

删除记录的关键词单元组合，并记录在所述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单元组合；以及

重复执行上述步骤，直至满足抽取结束条件时，从记录的关键词单元组合中确定对应于同一标识的关键词单元组合，并删除记录的关键词单元组合。

5.如权利要求4所述的方法，其特征在于，所述抽取结束条件为：

所述相匹配的关键词单元组合所对应的所有标识被抽取完毕。

6.如权利要求4所述的方法，其特征在于，还包括：

对出现连续两次抽取的标识对应不同关键词单元组合的情况的次数进行记录；以及

所述抽取结束条件为：确定记录的次数大于预定次数阈值。

7.一种数据搜索设备，其特征在于，包括：

关键词单元确定单元，用于确定组成输入的搜索关键词的关键词单元；

第一组合确定单元，用于根据预设的关键词单元组合方式，确定由关键词单元确定单元确定的关键词单元所组成的第一关键词单元组合；

组合与标识确定单元，用于从预先存储的关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系中，确定与第一组合确定单元确定的第一关键词单元组合相匹配的关键词单元组合，并确定所述相匹配的关键词单元组合所对应的标识，其中，为不同搜索关键词分配的标识互不相同；

第二组合确定单元，用于根据组合与标识确定单元确定的所述相匹配的关键词单元组合所对应的标识，从组合与标识确定单元确定的确定的所述相匹配的关键词单元组合中，确定对应于同一标识的关键词单元组合；

第一搜索关键词确定单元，用于针对组合与标识确定单元确定的所述相匹配的关键词单元组合对应的每一标识，分别确定由第二组合确定单元确定的对应于该标识的所有关键词单元组合所包含的关键词单元组成的搜索关键词；

第二搜索关键词确定单元，用于从第一搜索关键词确定单元确定的搜索关键词中确定一个搜索关键词；

数据搜索单元，用于根据第二搜索关键词确定单元确定的搜索关键词搜索数据。

8.如权利要求7所述的设备，其特征在于，还包括用于存储关键词单元组合与为关键词单元组合所对应的搜索关键词分配的标识的对应关系的存储单元；以及

所述存储单元具体包括：

获得模块，用于获得在指定时间段内输入的多个搜索关键词；

第一确定模块，用于从获得模块获得的多个搜索关键词中确定对应有搜索结果的第一搜索关键词；

第二确定模块，用于分别确定第一确定模块确定的各个第一搜索关键词所包含的关键词单元以及关键词单元个数，并根据预设的关键词单元组合方式，分别确定由第一搜索关键词包含的关键词单元所组成的关键词单元组合；

标识分配模块，用于按照为第二确定模块确定的由多至少的关键词单元个数对应的第一搜索关键词分别对应分配由小至大的标识的方式，分别为第一确定模块确定的各个第一搜索关键词分配标识；

存储模块，用于对应存储标识分配模块为各第一搜索关键词分配的标识和第二确定模块确定的关键词单元组合。

9.如权利要求7所述的设备，其特征在于，所述第二搜索关键词确定单元具体包括：

得分确定模块，用于根据预先设置的用于衡量关键词单元表意能力的得分数据，分别确定所述确定的搜索关键词中各搜索关键词的得分；

搜索关键词确定模块，用于根据得分确定模块确定的各搜索关键词的得分，从确定的搜索关键词中确定一个搜索关键词。

10.如权利要求7所述的设备，其特征在于，所述第二组合确定单元具体包括：

抽取模块，用于按照每次抽取符合指定条件的标识以及抽取出的标识遵循无放回的原则，逐个从所述相匹配的关键词单元组合所对应的标识中抽取标识；

标识判断模块，用于在抽取模块每次抽取出标识后，判断抽取模块相邻两次抽取出的标识是否相同；

记录模块，用于在标识判断模块得到的判断结果为是时，记录抽取模块抽取的标识所对应的关键词单元组合；

确定模块，用于在标识判断模块得到的判断结果为否时，从记录模块记录的关键词单元组合中确定对应于同一标识的关键词单元组合；

删除与记录执行模块，用于在确定模块确定关键词单元组合后，删除记录模块记录的关键词单元组合，并将在所述相邻两次抽取的后一次抽取中抽取到的标识对应的关键词单元组合记录在所述记录模块中；

抽取结束条件判断模块，用于在删除与记录执行模块将关键词单元组合记录在所述记录模块中后，判断抽取模块对标识的抽取是否满足抽取结束条件；

确定与删除执行模块，用于在抽取结束条件判断模块得到的判断结果为是时，从记录模块记录的关键词单元组合中确定对应于同一标识的关键词单元组合，并删除记录模块记录的关键词单元组合。