CN105808737B

CN105808737B - 一种信息检索方法及服务器

Info

Publication number: CN105808737B
Application number: CN201610136201.3A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-03-10
Filing date: 2016-03-10
Publication date: 2021-04-06
Anticipated expiration: 2036-03-10
Also published as: CN105808737A

Abstract

本发明实施例公开了一种信息检索方法，包括：获取待检索数据，其中，所述待检索数据包含有至少两个待检索子数据；从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据；基于至少一个第一待检索子数据，从所述检索数据库中进行初级检索，得到初级检索结果；其中，所述初级检索结果为至少包含有所述至少一个第一待检索子数据的信息；获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度，基于特征相似度从所述子数据中选取至少一个目标关键字；基于至少一个目标关键字，在所述初级检索结果中选取并输出目标检索结果。本发明实施例还公开了一种服务器。

Description

一种信息检索方法及服务器

技术领域

本发明涉及信息检索技术，尤其涉及一种信息检索方法及服务器。

背景技术

现有检索技术大多是基于查询串的重要性而进行检索的；例如，根据用户输入的查询串的重要性，对查询串中不重要的部分查询词进行舍弃，并利用同义词匹配原则，从检索数据库中选取出与查询串中剩余的查询词同义词匹配的查询结果；这里，所述查询结果可以是根据剩余的查询词在检索数据库所对应的权重而进行排序后的信息。

上述过程中，严重依赖所有查询词或者至少部分查询词是否出现在检索数据库的文章中，以及出现的次数，位置等，且上述出现的次数、位置等特征影响查询结果中文章的权重，以及排序；这里，当舍弃的查询词虽然未出现查询结果中，但是与查询结果中目标文章的语义相关性较高，此时，利用上述方法得到的查询结果显然会将语义相关性较高的目标文章的排序靠后，因此，延长了用户寻找目标文章的时间，降低了用户体验。

发明内容

为解决现有存在的技术问题，本发明实施例提供了一种信息检索方法及服务器。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种信息检索方法，包括：

获取待检索数据，其中，所述待检索数据包含有至少两个待检索子数据；

从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据；

基于至少一个第一待检索子数据，从检索数据库中进行初级检索，得到初级检索结果；其中，所述初级检索结果为至少包含有所述至少一个第一待检索子数据的信息；

获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度，基于特征相似度从所述子数据中选取至少一个目标关键字；

基于至少一个目标关键字，在所述初级检索结果中选取并输出目标检索结果。

本发明实施例还提供了一种服务器，包括：

获取单元，用于获取待检索数据，其中，所述待检索数据包含有至少两个待检索子数据；

确定单元，用于从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据；

检索单元，用于基于至少一个第一待检索子数据，从检索数据库中进行初级检索，得到初级检索结果；获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度，基于特征相似度从所述子数据中选取至少一个目标关键字；基于至少一个目标关键字，在所述初级检索结果中选取并输出目标检索结果；

其中，所述初级检索结果为至少包含有所述至少一个第一待检索子数据的信息。

本发明实施例所提供的信息检索方法及服务器，首先，将待检索数据拆分为两部分，即至少一个第一待检索子数据和至少一个第二待检索子数据；然后，根据所述至少一个第一待检索子数据在检索数据库中确定出初级检索结果；最后，获取所述至少一个第二待检索子数据与所述检索数据库中的子数据之间的特征相似度，进而根据特征相似度，从所述初级检索结果中选取出目标检索结果，实现了对初级检索结果的优化；而且，由于本发明实施例所述的方法引入了特征相似度概念，且通过该特征相似度能够确定出至少一个第二待检索子数据与所述检索数据库中的子数据之间的词义匹配度，所以，本发明实施例能够实现从初级检索结果中选取出词义相关性较近的文章，提升待检索数据与目标检索结果的匹配度的目的。

附图说明

图1为本发明实施例信息检索方法的实现流程；

图2为传统检索技术示意图；

图3为本发明实施例语言模型示意图；

图4为本发明实施例语言模型原理示意图；

图5为本发明实施例确定检索数据库中各子数据对应的向量的实现流程示意图；

图6为本发明实施例信息检索方法的具体应用的示意图；

图7为本发明实施例将计算出的向量相似度按照逆序排列后得到的输出结果示意图；

图8为输出的初级检索结果示意图；

图9为实施本发明实施例所述的信息检索方法后所输出的目标检索结果的示意图；

图10为本发明实施例服务器的具体结构示意图；

图11为本发明实施例服务器硬件组成结构示意图。

具体实施方式

为了能够更加详尽地了解本发明的特点与技术内容，下面结合附图对本发明的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明。

实施例一

本发明实施例提供了一种信息检索方法，如图1所示，所述方法包括：

步骤101：获取待检索数据，其中，所述待检索数据包含有至少两个待检索子数据；

步骤102：从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据；

步骤103：基于至少一个第一待检索子数据，从所述检索数据库中进行初级检索，得到初级检索结果；其中，所述初级检索结果为至少包含有所述至少一个第一待检索子数据的信息；

步骤104：获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度，基于特征相似度从所述子数据中选取至少一个目标关键字；

步骤105：基于至少一个目标关键字，在所述初级检索结果中选取并输出目标检索结果。

本实施例提供的方案可以应用于服务器侧。

本实施例中，所述待检索数据可以具体为查询串，且该查询串包含有至少两个查询词。

本实施例中，步骤102所述从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据，可以具体包括：获取所述至少两个待检索子数据所对应的权重值；基于权重值，从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据；

也就是说，本实施例所述方法将所述待检索数据拆分成两部分，分别为至少一个第一待检索子数据和至少一个第二待检索子数据；其中，所述至少一个第一待检索子数据所对应的权重值大于所述至少一个第二待检索子数据所对应的权重值。

具体地，所述至少一个第一待检索子数据所对应的权重值大于权重门限值；所述至少一个第二待检索子数据所对应的权重值小于所述权重门限值。

这里，所述初级检索结果是根据所述至少一个第一待检索子数据确定出的，也就是说，所述初级检索结果至少包含有所述至少一个第一待检索子数据，且根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果满足预设规则；

比如，根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果对应的文章篇数大于第一阈值，和/或，根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果所占用的总页数大于第二阈值；具体地，根据所述至少一个第一待检索子数据确定出的初级检索结果的文章大于100篇；或者，根据所述至少一个第一待检索子数据确定出的初级检索结果占用的总页数大于10页。而根据所述至少一个第一待检索子数据和至少一个第二待检索子数据确定出的文章篇数和/或占用的总页数等不满足该预设规则，也就是说，在检索数据库中，同时包含至少一个第一待检索子数据和至少一个第二待检索子数据的文章的篇数较少，甚至没有。因此，为确保初级检测结果对应的文章的数量足够多，本实施例中基于所述至少一个第一待检索子数据从检索数据库中进行初级检索以得到初级检索结果。

在实际应用中，所述获取所述至少两个待检索子数据所对应的权重值，可以具体为：获取所述至少两个待检索子数据在所述检索数据库中所对应的权重值；进一步地，所述检索数据库可以具体为历史数据库，或者为实时更新的数据库；对应地，所述获取所述至少两个待检索子数据所对应的权重值具体为：从历史数据库中获取所述至少两个待检索子数据所对应的权重值，或者，从实时更新的数据库中获取所述至少两个待检索子数据所对应的权重值。这里，所述至少两个待检索子数据所对应的权重值可以是针对于所述检索数据库的权重值，也可以是针对于所述检索数据库中部分数据的权重值，例如，当所述检索数据库为实时更新的数据库，此时，所述至少两个待检索子数据所对应的权重值可以为所述至少两个待检索子数据在历史数据库对应的权重值。

进一步地，权重值可以根据待检测子数据在检索数据库中出现的次数和/或位置等相关信息进行确定，比如，根据所述至少两个待检索子数据在所述检索数据库中出现的次数进行确定，且出现次数较多的权重值低，出现次数较少的权重值高。实际应用中，待检索子数据权重值的确定过程可以参考现有方法，这里不再赘述。

本实施例中，步骤102确定出的初级检索结果为根据同义词匹配原则，在所述检索数据库中选取出的与所述至少一个第一待检索子数据具有同义词关联的信息，如文章等；以下结合具体应用场景指出同义词匹配原则存在的缺点，以及本发明实施例克服该缺点的具体方法：

以在微信公众号文章搜索中的实际查询(Query)来举例，比如2015年6月份成都发生了优步专车和出租车打架的事件，某用户想了解此事件，但忘记了具体关键字，于是在微信公众号文章搜索入口中搜索：“成都滴滴事件”，此时，如图2所示，如果按传统检索技术，用同义词匹配原则或纠错算法进行检索，由于“滴滴”与“优步”不是同义词，所以，导致检索结果中不包含有“优步”关键字；而且，单从Query来看，用户的输入也毫无问题，无法利用纠错算法；因此，利用同义词匹配原则或纠错算法得到的检索结果必然相关性较差。进一步地，将“成都”、“滴滴”以及“事件”同时作为关键字并基于同义词匹配原则进行搜索，若得到同时包含有“成都”、“滴滴”以及“事件”的检索结果不满足预设规则，例如，没有同时包含有“成都”、“滴滴”以及“事件”的文章，此时，为确保能够得到具有一定匹配度的检索结果，则采用非必留技术丢弃“滴滴”，只保留“成都事件”；这样，虽然检索结果所对应的目标页中可能会包含有“成都优步事件”相关文章，但由于此时Query已语义漂移，检索结果中包含了很多其他不相关文章，因此，单一根据文本相关性，也即同义词匹配原则确定出的检索结果不能保证包含有“成都优步事件”相关文章的排序靠前，降低了检索结果的匹配度，增加了用户寻找目标文章的时间，降低了用户体验。

本实施例中，所述至少一个第一待检索子数据对应于“成都事件”；所述至少一个第二待检索子数据对应于丢弃的“滴滴”；也就是说，所述至少一个第一待检索子数据为采用非必留技术时所选中的关键字；而所述至少一个第二待检索子数据为采用非必留技术时所未选中的关键字。

为解决上述问题，提升检索结果的匹配度，使检索结果中与待检索数据的语义匹配度较高的文章排序靠前，降低用户寻找目标文章的时间，提升用户体验，本实施例引入特征相似度概率，具体地，计算未选中的所述至少一个第二待检索子数据与所述检索数据库中的子数据(如至少一个子数据)的特征相似度，也即词义相似度，如此，在所述检索数据库中，确定出与未选中的所述至少一个第二待检索子数据具有词义相关性较近的至少一个目标关键字，进而在基于所述至少一个第一待检索子数据确定出的初级检索结果中，选取出包含有所述至少一个目标关键字的目标检索结果，如此，实现了将初级检索结果中与待检索数据的语义匹配度较高的文章排序靠前的目的，提升了最终输出的目标检索结果与待检索数据的词义匹配度，实现了对初级检索结果的进一步优化，实现了对现有检索技术的进一步优化。

在实际应用中，上述输出目标检索结果，可以具体为：根据计算出的所述至少一个目标关键字的特征相似度，对目标检索结果进行排序；输出排序后的所述目标检索结果。例如，将特征相似度较近的目标关键字对应的目标文章排序提前，将特征相似度较远的目标关键字对应的目标文章排序靠后。

本发明实施例所述的方法，首先，将待检索数据拆分为两部分，即至少一个第一待检索子数据和至少一个第二待检索子数据；然后，根据所述至少一个第一待检索子数据在检索数据库中确定出初级检索结果；最后，获取所述至少一个第二待检索子数据与所述检索数据库中的子数据之间的特征相似度，进而根据特征相似度，从所述初级检索结果中选取出目标检索结果，实现了对初级检索结果的优化；而且，由于本发明实施例所述的方法引入了特征相似度概念，且通过该特征相似度能够确定出至少一个第二待检索子数据与所述检索数据库中的子数据之间的词义匹配度，所以，本发明实施例能够实现从初级检索结果中选取出词义相关性较近的文章，提升待检索数据与目标检索结果的匹配度的目的。

另外，本发明实施例解决了现有检索技术中采用同义词匹配原则或纠错算法无法搜索到满足预设规则的检索结果，需要采用非必留技术舍弃待检索数据中的某一个或某一些关键字而导致检索结果中词义相关性较近的文章排序靠后的问题；因此，本发明实施例缩短了用户找寻目标文章的时间，提升了用户体验。

实施例二

本实施例提供的方案可以应用于服务器侧。

也就是说，本实施例所述方法将所述待检索数据拆分成两部分，分别为至少一个第一待检索子数据和至少一个第二待检索子数据；其中，所述至少一个第一待检索子数据所对应的权重值大于所述至少一个第二待检索子数据所对应的权重值；具体地，所述至少一个第一待检索子数据所对应的权重值大于权重门限值；所述至少一个第二待检索子数据所对应的权重值小于所述权重门限值。这里，所述初级检索结果是根据所述至少一个第一待检索子数据确定出的，也就是说，所述初级检索结果至少包含有所述至少一个第一待检索子数据，且根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果满足预设规则；比如，根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果对应的文章篇数大于第一阈值，和/或，根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果所占用的总页数大于第二阈值；具体地，根据所述至少一个第一待检索子数据确定出的初级检索结果的文章大于100篇；或者，根据所述至少一个第一待检索子数据确定出的初级检索结果占用的总页数大于10页。而根据所述至少一个第一待检索子数据和至少一个第二待检索子数据确定出的文章篇数和/或占用的总页数等不满足该预设规则，也就是说，在检索数据库中，同时包含至少一个第一待检索子数据和至少一个第二待检索子数据的文章的篇数较少，甚至没有。因此，为确保初级检测结果对应的文章的数量足够多，本实施例中基于所述至少一个第一待检索子数据从检索数据库中进行初级检索以得到初级检索结果。

在实际应用中，本发明实施例可以利用深度学习模型，例语言模型word2vec，如图3所示，该语言模型训练装置能够将文章中上下文经常出现的词认定为词义相近；而且，还能够将词转换为向量，通过向量定量表示词之间的语义相似度；这样，把对文本数据的处理简单化为空间中的向量运算，如此，通过向量空间上的相似度来表征文本语义上的相似度。

具体地，如图4所示，通过所述word2vector将词转换为向量，进而通过向量将各词之间进行关联，便于定量表示两个词之间的词义相似度，例如向量1表示词1对应的向量与词2对应的向量之间的词义相似度；向量2表示词3对应的向量与词4对应的向量之间的词义相似度；向量3表示词1对应的向量与词3对应的向量之间的词义相似度。

在一具体实施例中，步骤104获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度，具体为：

计算所述至少一个第二待检索子数据对应的目标向量与所述检索数据库中的至少一个子数据对应的至少一个向量的向量相似度；例如，利用如图3所示的语言模型word2vec，计算所述至少一个第二待检索子数据对应的目标向量与所述检索数据库中的至少一个子数据对应的至少一个向量的向量相似度，进而基于向量相似度确定至少一个目标关键字。

进一步地，为便于获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度，本实施例所述方法还包括：对所述检索数据库中的文本数据做分词处理，得到至少一个子数据；对所述至少一个子数据进行处理，得到与所述至少一个子数据对应的至少一个向量。

这里，所述检索数据库的至少一个子数据对应的至少一个向量中包含有第二待检索子数据对应的目标向量，如此，便于直接获取所述至少一个第二待检索子数据对应的目标向量，计算所述至少一个第二待检索子数据对应的目标向量与所述检索数据库中的每一向量之间的向量相似度，进而基于计算出的向量相似度确定至少一个目标关键字。在实际应用中，所述向量为N维向量；N为大于等于2的正整数。

图5为本发明实施例确定检索数据库中各子数据对应的向量的实现流程示意图；图6为本发明实施例信息检索方法的具体应用的示意图；以在微信公众号文章中进行实际查询为例；如图5和图6所示，

(一)离线训练部分，具体包括：

步骤一：确定公众号名，以及确定公众号名对应的文章标题、文章正文原始文本数据，将公众号名、公众号名对应的文章标题、文章正文原始文本数据作为检索数据库，且该检索数据库为公众号名对应的历史数据；例如：公众号名1；文章1“成都优步事件引发的市场与监管之变”；第一文本数据；文章2“成都滴滴事件”；第二文本数据；等等。

步骤二：调用分词器，对公众号名、公众号名对应的文章标题、文章正文原始文本数据进行切词处理；例如，以对文章1和文章2的文章标题进行切词处理为例，得到文章1：“头条/成都/优步/事件/引发/的/市场/与/监管/之/变”；文章2：“成都/滴滴/事件”。

步骤三：使用语言模型word2vec，对切词处理后的每一词进行训练，得到切词处理后的每一词对应的向量；例如，以100维度的向量为例，得到：

头条：[0.984，0.147，0.211，-0.165，-0.242，...]；

成都：[0.045，-0.127，0.113，0.235，0.659，...]；

滴滴：[0.645，-0.127，-0.107，0.126，-0.342，...]；

优步：[0.792，-0.177，-0.107，0.109，-0.542，...]；等等。

(二)在线使用部分：

步骤四：通过Query，采用非必留技术，选中“成都事件”，舍弃“滴滴”，得到初级检索结果；计算舍弃的“滴滴”对应的目标向量与历史数据库中通过步骤三训练出的每一向量的向量相似度，并将向量相似度按照逆序排列后，得到如图7所示的输出结果；从图7中可以看出，历史数据库中“滴滴打车”与“滴滴”的向量相似度为0.800340；“快滴”与“滴滴”的向量相似度为0.759085；“优步”与“滴滴”的向量相似度为0.759085，等等。

这里，Query对应的数据库为公众号名对应的实时更新的数据库，即包括历史数据，也包括新更新的数据。

步骤五：基于图7所示的输出结果，选取出至少一个目标关键字；例如，选取出“优步”或“Uber”，即认定“优步”或“Uber”为与“滴滴”词义相关性较近的。

步骤六：遍历步骤四得到的所述初级检索结果的文章标题，并基于至少一个目标关键字，对所述初级检索结果中的文章标题进行打分，根据打分结果对初级检索结果中的文章进行重新排序，将重新排序后的文章作为目标检索结果，并输出目标检索结果。

图8为输出的初级检索结果示意图；图9为实施本发明实施例所述的信息检索方法后所输出的目标检索结果的示意图；如图8所示，采用非必留技术丢弃“滴滴”，只保留“成都事件”进行检索得到的初级检索结果中排序靠前的文章标题为“成都打人事件”、“解密：成都兰桂坊事件”等等，显然该初级检索结果中排序靠前的文章与待检索数据“成都滴滴事件”之间的匹配度较差。进一步地，如图9所示，采用本发明实施例所述的方法后，能够将原本根据同义词匹配原则命中了“成都”，“事件”两个词但打分较低(也即顺序靠后)的目标文章，比如“成都Uber司机被出租车司机钓鱼暴打事件”、“为上周成都小米“曝光”事件负责”以及“成都优步事件引发的市场与监管之辩”等排序提前；具体地，通过图7可以看出，“优步”或“Uber”为与“滴滴”词义相关性较近的，所以，在根据至少一个目标关键字对所述初级检索结果进行重新打分的过程中，对包含有“优步”或“Uber”的文章打分较高，根据打分情况在目标检索结果中将“成都优步事件”排序提前，因此，实现了根据语义相似度对初级检索结果进行重新打分，对初级检索结果进一步优化的目的。

实施例三

基于实施例一或实施例二所述的方法，本发明实施例提供了基于特征相似度从所述子数据中选取至少一个目标关键字两种方式，具体地，

方式一：基于特征相似度，在所述检索数据库的至少一个子数据中选取出特征相似度高于预设门限值的至少一个目标子数据，将所述至少一个目标子数据作为至少一个目标关键字。

方式二：基于特征相似度，对所述检索数据库中的至少一个子数据进行降序排列，选取排序结果位于预设位数之前的至少一个目标子数据，将所述至少一个目标子数据作为至少一个目标关键字。

这里，所述特征相似度可以具体表征向量相似度；如图7所示，基于向量相似度，对所述检索数据库的至少一个子数据进行重新排序，即按照所述检索数据库的至少一个子数据与所述至少一个第二待检索子数据的词义相似度的远近，对所述至少一个子数据进行重新排序，并将向量相似度大于预设门限值的至少一个目标子数据作为目标关键字，例如，将向量相似度大于0.5的目标子数据作为目标关键字；或者，将排序结果位于预设位数之前的至少一个目标子数据作为目标关键字，例如，将排序结果位于10位以前的目标子数据作为目标关键字；进而在所述初级检索结果中，将包含有所述至少一个目标关键字的信息作为目标检索结果。在实际应用中，所述目标检索结果所对应的目标文章的排列顺序可以是根据特征相似度，如向量相似度而确定出的。

实施例四

本发明实施例提供了一种服务器，如图10所示，所述服务器，包括：

获取单元1001，用于获取待检索数据，其中，所述待检索数据包含有至少两个待检索子数据；

确定单元1002，用于从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据；

检索单元1003，用于基于至少一个第一待检索子数据，从检索数据库中进行初级检索，得到初级检索结果；获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度，基于特征相似度从所述子数据中选取至少一个目标关键字；基于至少一个目标关键字，在所述初级检索结果中选取并输出目标检索结果；

本实施例中，所述确定单元1002，还用于：获取所述至少两个待检索子数据所对应的权重值；基于权重值，从所述至少两个待检索子数据中确定出至少一个第一待检索子数据以及至少一个第二待检索子数据。也就是说，所述确定单元1002将所述待检索数据拆分成两部分，分别为至少一个第一待检索子数据和至少一个第二待检索子数据；其中，所述至少一个第一待检索子数据所对应的权重值大于所述至少一个第二待检索子数据所对应的权重值；具体地，所述至少一个第一待检索子数据所对应的权重值大于权重门限值；所述至少一个第二待检索子数据所对应的权重值小于所述权重门限值。这里，所述初级检索结果是根据所述至少一个第一待检索子数据确定出的，也即所述初级检索结果至少包含有所述至少一个第一待检索子数据，且根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果满足预设规则；比如，根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果对应的文章篇数大于第一阈值，和/或，根据权重值大于所述权重门限值的所述至少一个第一待检索子确定出的所述初级检测结果所占用的总页数大于第二阈值；具体地，根据所述至少一个第一待检索子数据确定出的初级检索结果的文章大于100篇；或者，根据所述至少一个第一待检索子数据确定出的初级检索结果占用的总页数大于10页。而根据所述至少一个第一待检索子数据和至少一个第二待检索子数据确定出的文章篇数和/或占用的总页数等不满足该预设规则，也就是说，在检索数据库中，同时包含至少一个第一待检索子数据和至少一个第二待检索子数据的文章的篇数较少，甚至没有。因此，为确保初级检测结果对应的文章的数量足够多，本实施例中基于所述至少一个第一待检索子数据从检索数据库中进行初级检索以得到初级检索结果。

在实际应用中，所述确定单元1002还可以具体用于：获取所述至少两个待检索子数据在所述检索数据库中所对应的权重值；进一步地，所述检索数据库可以具体为历史数据库，或者为实时更新的数据库；对应地，所述确定单元1002还可以具体用于：从历史数据库中获取所述至少两个待检索子数据所对应的权重值，或者，从实时更新的数据库中获取所述至少两个待检索子数据所对应的权重值。这里，所述至少两个待检索子数据所对应的权重值可以是针对于所述检索数据库的权重值，也可以是针对于所述检索数据库中部分数据的权重值，例如，当所述检索数据库为实时更新的数据库，此时，所述至少两个待检索子数据所对应的权重值可以为所述至少两个待检索子数据在历史数据库对应的权重值。

本实施例中，所述检索单元1003确定出的初级检索结果为根据同义词匹配原则，在所述检索数据库中选取出的与所述至少一个第一待检索子数据具有同义词关联的信息，如文章等；以下结合具体应用场景指出同义词匹配原则存在的缺点，以及本发明实施例克服该缺点的具体方法：

在实际应用中，本发明实施例可以利用深度学习模型，例语言模型word2vec，如图3所示，该语言模型训练装置能够将文章中上下文经常出现的词认定为词义相近；而且，还能够将词转换为向量，通过向量定量表示词之间的语义相似度；这样，把对文本数据的处理简单化为空间中的向量运算，如此，通过向量空间上的相似度来表征文本语义上的相似度。具体地，如图4所示，通过所述word2vector将词转换为向量，进而通过向量将各词之间进行关联，便于定量表示两个词之间的词义相似度，例如向量1表示词1对应的向量与词2对应的向量之间的词义相似度；向量2表示词3对应的向量与词4对应的向量之间的词义相似度；向量3表示词1对应的向量与词3对应的向量之间的词义相似度。

在一具体实施例中，所述检索单元1003还用于计算所述至少一个第二待检索子数据对应的目标向量与所述检索数据库中的至少一个子数据对应的至少一个向量的向量相似度；例如，利用如图3所示的语言模型word2vec，计算所述至少一个第二待检索子数据对应的目标向量与所述检索数据库中的至少一个子数据对应的至少一个向量的向量相似度，进而基于向量相似度确定至少一个目标关键。

进一步地，为便于获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度，本实施例所述服务器，还包括：分词处理单元1004，用于对所述检索数据库中的文本数据做分词处理，得到至少一个子数据；对所述至少一个子数据进行处理，得到与所述至少一个子数据对应的至少一个向量。

图5为本发明实施例确定检索数据库中各子数据对应的向量的实现流程示意图；图6为本发明实施例信息检索方法的具体应用的示意图二；以在微信公众号文章中进行实际查询为例；如图5和图6所示，

(一)离线训练部分，具体包括：

头条：[0.984，0.147，0.211，-0.165，-0.242，...]；

成都：[0.045，-0.127，0.113，0.235，0.659，...]；

滴滴：[0.645，-0.127，-0.107，0.126，-0.342，...]；

优步：[0.792，-0.177，-0.107，0.109，-0.542，...]；等等。

(二)在线使用部分：

本实施例中，所述检索单元1003，还用于基于特征相似度，在所述检索数据库的至少一个子数据中选取出特征相似度高于预设门限值的至少一个目标子数据，将所述至少一个目标子数据作为至少一个目标关键字；或者，

还用于基于特征相似度，对所述检索数据库中的至少一个子数据进行降序排列，选取排序结果位于预设位数之前的至少一个目标子数据，将所述至少一个目标子数据作为至少一个目标关键字。

在实际应用中，所述检索单元1003还用于根据计算出的所述至少一个目标关键字的特征相似度，对目标检索结果进行排序；输出排序后的所述目标检索结果。例如，将特征相似度较近的目标关键字对应的目标文章排序提前，将特征相似度较远的目标关键字对应的目标文章排序靠后。

本发明实施例所述的服务器，首先，将待检索数据拆分为两部分，即至少一个第一待检索子数据和至少一个第二待检索子数据；然后，根据所述至少一个第一待检索子数据在检索数据库中确定出初级检索结果；最后，获取所述至少一个第二待检索子数据与所述检索数据库中的子数据之间的特征相似度，进而根据特征相似度，从所述初级检索结果中选取出目标检索结果，实现了对初级检索结果的优化；而且，由于本发明实施例引入了特征相似度概念，且通过该特征相似度能够确定出至少一个第二待检索子数据与所述检索数据库中的子数据之间的词义匹配度，所以，本发明实施例能够实现从初级检索结果中选取出词义相关性较近的文章，提升待检索数据与目标检索结果的匹配度的目的。

另外，本发明实施例解决了现有检索技术中采用同义词匹配原则或纠错算法无法搜索到满足预设规则的检索结果，需要采用非必留技术舍弃待检索数据中的某一个或某一些关键字而导致检索结果中词义相关性较近的文章排序靠后的问题；因此，本发明实施例缩短了用户找寻目标文章的时间，提升了用户体

本发明实施例所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、基站、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

本实施例基于上述设备实施例提供一个具体的硬件，如图11所示，所述装置包括处理器1102、存储介质1104以及至少一个外部通信接口1101；所述处理器1102、存储介质1104以及外部通信接口1101均通过总线1103连接。所述处理器1102可为微处理器、中央处理器、数字信号处理器或可编程逻辑阵列等具有处理功能的电子元器件。所述存储介质中存储有计算机可执行代码。

所述硬件可以为所述服务器。所述处理器执行所述计算机可执行代码时，至少能实现以下功能：基于候选用户所使用的服务的数据，选取符合预设目标特征的至少一个所述候选用户为种子用户；确定所述种子用户所归属的至少一个用户群体的成员用户、以及所述成员用户所具有的至少一个属性；比较基于所述用户群体中每个所述成员用户具有的至少一个属性，确定所述用户群体的共有属性，将所述用户群体的共有属性对应到所述用户群体的每一个成员用户；对所述用户群体的成员用户进行筛选，得到所述目标用户群体。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种信息检索方法，其特征在于，所述方法包括：

获取所述至少两个待检索子数据所对应的权重值；

基于所述权重值，从所述至少两个待检索子数据中选择权重值大于权重门限值的至少一个待检索子数据作为第一待检索子数据，并

将所述至少两个待检索子数据中未选择的至少一个待检索子数据作为第二待检索子数据，所述第二待检索子数据的权重值小于所述权重门限值；

基于至少一个第一待检索子数据，从检索数据库中进行初级检索，得到初级检索结果；其中，所述初级检索结果为至少包含有所述至少一个第一待检索子数据的信息，所述初级检索结果满足以下条件中至少之一：所述初级检索结果对应的文章篇数大于第一阈值、所述初级检索结果所占用的总页数大于第二阈值；

获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度，基于特征相似度从所述子数据中选取至少一个目标关键字；所述特征相似度用于指示所述至少一个第二待检索子数据与所述检索数据库中的子数据之间的词义匹配度；

基于至少一个目标关键字，在所述初级检索结果中选取目标检索结果；并

根据获取的所述至少一个目标关键字对应的特征相似度，对所述目标检索结果按照所述特征相似度从大到小进行排序；

输出排序后的所述目标检索结果。

2.根据权利要求1所述的方法，其特征在于，所述获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度，包括：

计算所述至少一个第二待检索子数据对应的目标向量与所述检索数据库中的至少一个子数据对应的至少一个向量的向量相似度；

基于向量相似度确定至少一个目标关键字。

3.根据权利要求2所述的方法，其特征在于，所述方法包括：

对所述检索数据库中的文本数据做分词处理，得到至少一个子数据；

对所述至少一个子数据进行处理，得到与所述至少一个子数据对应的至少一个向量。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于特征相似度从所述子数据中选取至少一个目标关键字，包括：

基于特征相似度，在所述检索数据库的至少一个子数据中选取出特征相似度高于预设门限值的至少一个目标子数据，将所述至少一个目标子数据作为至少一个目标关键字。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述基于特征相似度从所述子数据中选取至少一个目标关键字，包括：

基于特征相似度，对所述检索数据库中的至少一个子数据进行降序排列，选取排序结果位于预设位数之前的至少一个目标子数据，将所述至少一个目标子数据作为至少一个目标关键字。

6.一种服务器，其特征在于，包括：

确定单元，用于获取所述至少两个待检索子数据所对应的权重值；

基于所述权重值，从所述至少两个待检索子数据中选择权重值大于权重门限值的至少一个待检索子数据作为第一待检索子数据，并将所述至少两个待检索子数据中未选择的至少一个待检索子数据作为第二待检索子数据，所述第二待检索子数据的权重值小于所述权重门限值；

检索单元，用于基于至少一个第一待检索子数据，从检索数据库中进行初级检索，得到初级检索结果；获取到所述检索数据库中的子数据与所述至少一个第二待检索子数据的特征相似度，基于特征相似度从所述子数据中选取至少一个目标关键字；基于至少一个目标关键字，在所述初级检索结果中选取目标检索结果；并根据获取的所述至少一个目标关键字对应的特征相似度，对所述目标检索结果按照所述特征相似度从大到小进行排序；输出排序后的所述目标检索结果；所述特征相似度用于指示所述至少一个第二待检索子数据与所述检索数据库中的子数据之间的词义匹配度；

其中，所述初级检索结果为至少包含有所述至少一个第一待检索子数据的信息，所述初级检索结果满足以下条件中至少之一：所述初级检索结果对应的文章篇数大于第一阈值、所述初级检索结果所占用的总页数大于第二阈值。

7.根据权利要求6所述的服务器，其特征在于，所述检索单元，还用于计算所述至少一个第二待检索子数据对应的目标向量与所述检索数据库中的至少一个子数据对应的至少一个向量的向量相似度；基于向量相似度确定至少一个目标关键字。

8.根据权利要求7所述的服务器，其特征在于，所述服务器，还包括：

分词处理单元，用于对所述检索数据库中的文本数据做分词处理，得到至少一个子数据；对所述至少一个子数据进行处理，得到与所述至少一个子数据对应的至少一个向量。

9.根据权利要求6至8任一项所述的服务器，其特征在于，所述检索单元，还用于基于特征相似度，在所述检索数据库的至少一个子数据中选取出特征相似度高于预设门限值的至少一个目标子数据，将所述至少一个目标子数据作为至少一个目标关键字。

10.根据权利要求6至8任一项所述的服务器，其特征在于，所述检索单元，还用于基于特征相似度，对所述检索数据库中的至少一个子数据进行降序排列，选取排序结果位于预设位数之前的至少一个目标子数据，将所述至少一个目标子数据作为至少一个目标关键字。

11.一种计算机可读存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现如权利要求1至5任一项所述的信息检索方法。