CN107766414A

CN107766414A - 多文档交集获取方法、装置、设备及可读存储介质

Info

Publication number: CN107766414A
Application number: CN201710797899.8A
Authority: CN
Inventors: 毕成龙; 潘文彬
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2017-09-06
Filing date: 2017-09-06
Publication date: 2018-03-06
Anticipated expiration: 2037-09-06
Also published as: WO2019047437A1; JP2020523697A; US11288329B2; US20200210493A1; CN107766414B; JP6986577B2; CA3069382A1; TW201913414A; CA3069382C

Abstract

本发明提供了一种多文档交集获取方法及、装置、设备及可读存储介质，所述方法包括：针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度，对至少两个文档集的长度进行比较；根据至少两个文档集的长度差异确定获得文档交集的求交算法。本发明通在两个文档集的文档集长度符合预设条件时，过以长度最短文档集中的元素作为查询元素，依次遍历剩余的文档集，可以避免当查询元素未被查找到时，需要以查询的文档集中的下一个文档作为查询元素进行无意义的查询，加快了搜索引擎针对用户的响应时间。

Description

多文档交集获取方法、装置、设备及可读存储介质

技术领域

本发明实施例涉及搜索引擎技术领域，尤其涉及一种多文档交集获取方法及、装置、设备及可读存储介质。

背景技术

搜索引擎，通常指的是收集了万维网上几千万到几十亿个网页并对网页中的每一个词进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。

目前，广泛应用的开源搜索引擎采用了一种线性的获取多文档集交集的方法，即：将每个文档集排序后，从第一个文档集开始，遍历其中的元素，然后遍历其他文档集，这时有两种情况，找到该元素，则继续遍历下一个文档集，如果没找到，那么以当前文档集的下一个元素作为查找的文档，重新遍历其他文档集，如此往复，直到找到一个同时在所有文档集中的文档为止。以这种方式，不断重复，直到其中一个文档集遍历结束，则多文档集求交过程结束。

但是，针对在先技术，当不同文档集的长度差距大于某一阈值时，会产生性能上的缺陷，比如，在遍历每个文档集的每个元素时，如果该元素不符合要求，需要继续查找本文档集的下一个元素，但这种查找往往是没有必要的，因为通常查找的元素是根本不会出现的，对于多文档集求交而言，只要一个文档中不存在某元素，该元素就一定不会是交集内的元素，因此，会导致在不同文档集的长度差距大于某一阈值时，文档交集的获取效率低下，耗时增加。

发明内容

本发明提供一种多文档交集获取方法、装置、设备及可读存储介质，以解决在先技术中在不同文档集的长度差距大于某一阈值时，文档交集的获取效率低下的问题。

根据本发明的第一方面，提供了一种多文档交集获取方法，所述方法包括：

针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度；

对所述至少两个文档集的长度进行比较；

根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。

根据本发明的第二方面，提供了一种多文档交集获取装置，所述装置包括：

获取模块，用于针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度；

长度比较模块，用于对所述至少两个文档集的长度进行比较；

求交模块，用于根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。

根据本发明的第三方面，提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现多文档交集获取方法。

根据本发明的第四方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行多文档交集获取方法。

本发明实施例提供了一种多文档交集获取方法、装置、设备及可读存储介质，首先针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度，并对至少两个文档集的长度进行比较；根据至少两个文档集的长度差异确定获得文档交集的求交算法，具体包括：若至少两个文档集的文档集长度符合预设条件，则以至少两个文档集中具有最小文档集长度的文档集中的查询元素为遍历起点，查找剩余的文档集中是否有查询元素，当剩余的每个文档集中均有查询元素，则将查询元素作为文档交集的元素。本发明通在两个文档集的文档集长度符合预设条件时，过以长度最短文档集中的元素作为查询元素，依次遍历剩余的文档集，可以避免当查询元素未被查找到时，需要以查询的文档集中的下一个文档作为查询元素进行无意义的查询，提高了文档集长度差值较大情况下文档求交集效率，加快了搜索引擎针对用户的响应时间。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种搜索引擎的结构示意图；

图2是本发明实施例提供的一种多文档交集获取方法的步骤流程图；

图3是本发明实施例提供的一种多文档交集获取方法的具体步骤流程图；

图3A是本发明实施例提供的一种初级语法树的结构图；

图3B是本发明实施例提供的一种终级语法树的结构图；

图4是本发明实施例提供的一种多文档交集获取装置的结构图；

图5是本发明实施例提供的一种多文档交集获取装置的具体结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

在本发明实施例中，本发明实施例提供的一种多文档交集获取方法应用于搜索引擎技术，其目的是根据用户在搜索引擎界面输入的查询内容，对查询内容进行分词，并对各个分词进行对应文档的匹配，生成各个分词对应的文档集，通过对各个文档集进行求交集，获得文档交集并将文档交集返回给用户。

搜索引擎技术是一种互联网通信技术，在互联网中，服务器侧提供内容，并针对该内容构建索引。当用户使用客户端发送搜索请求至服务器时，服务器根据搜索请求中的关键词，去索引中查找内容，然后将查找到的内容返回给该客户端进行展示。

参照图1，搜索引擎通常包括：WEB(World Wide Web，万维网)服务器，索引服务器和文档服务器，文档服务器储存有文档的信息。

当用户通过搜索引擎浏览器输入搜索词后，WEB服务器会接收到该搜索词并将该搜索词发送至索引服务器，索引服务器会将搜索词进行语法分词处理，针对每个分词，在索引数据库匹配对应的文档，之后，索引服务器会将匹配结果发送至文档服务器，文档服务器根据匹配结果建立每个分词对应的文档集，通过对各个分词对应的文档集求交集后，得到文档交集并通过WEB服务器返回给搜索引擎浏览器，搜索引擎浏览器将文档交集中的文档展示给用户。

本发明提供的一种多文档交集获取方法中常见的术语有：

文档(Document)：一般搜索引擎的处理对象是互联网网页，而文档这个概念要更宽泛些，代表以文本形式存在的存储对象，相比网页来说，涵盖更多种形式，比如Word，PDF，html，XML等不同格式的文件都可以称之为文档，再比如一封邮件，一条短信，一条微博也可以称之为文档，在本发明中，每个文档对应设置有文档标识，用于识别各个文档。

文档集(Document Collection)：由若干文档构成的集合称之为文档集。比如海量的互联网网页或者说大量的电子邮件都是文档集的具体例子。

语法树(Parse Tree)：语法树是语句结构的图形表示，它代表了语句的推导结果，有利于理解语句语法结构的层次。简单说，语法树就是按照某一规则进行推导时所形成的树。

叶子节点：叶子节点为语法树最底层的节点，叶子节点不再包括更底层的节点，在本发明中，叶子节点为搜索词的搜索分词。

参照图2，其示出了一种多文档交集获取方法的步骤流程图。

步骤110，针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度。

在索引数据库中，针对不同的搜索词的分词，其匹配的文档数量也不相同，更由于不同分词之间存在使用热度的差异，因此，针对搜索过程中需要求交集的至少两个文档集，其文档集的长度由于对应分词的热度差异，会存在至少两个文档集的长度之间的差值超过长度阈值的情况，在该情况下，使用传统技术中的通用求交算法会导致求交效率下降。需要说明的是，文档集的长度是指文档集中包括的文档元素的数量。

因此，在本发明实施例中，首先针对各个分词对应生成的需要求交集的文档集，获取每个文档集的长度，具体的，为获取每个文档集中文档的数量。

例如，若用户在搜索引擎浏览器输入搜索词“海底捞火锅”，则经过分词程序的分词后，得到分词1“海底捞”和分词2“火锅”，针对分词1和分词2，对应查询得到的文档如下表1：

海底捞	火锅
		文档1	文档1
文档2	文档3
		文档20	文档5
文档85	文档6
			…
	文档20
			…
	文档80

表1

因此，针对查询得到的文档，将各个分词对应的文档按照文档标识的大小顺排，得到表1，其中统计分词1“海底捞”对应的第一文档集中文档元素的个数为4，分词2“火锅”对应的第二文档集中文档元素的个数为40(文档6至文档20之间和文档20至文档80之间有省略)。即获得分词1“海底捞”对应的第一文档集长度为4，分词2“火锅”对应的第二文档集的长度为40。

步骤120，对所述至少两个文档集的长度进行比较。

步骤130，根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。

在本发明实施例中，若至少两个文档集的文档集长度符合预设条件，具体是指多个文档集中，最长文档集与最短文档集的长度之差大于第一预设阈值，该第一预设阈值可以根据实际情况进行设定，具体是通过对搜索引擎进行日常搜索试验得到的一个优选值。若至少两个文档集的文档集长度符合预设条件，则以最小文档集长度的文档集中的查询元素为遍历起点，查找剩余的文档集中是否有该查询元素。

例如，针对步骤110中表一的数据，若预设条件为多个文档集中，最长文档集与最短文档集的长度之差大于10，则第一文档集和第二文档集的长度之差为30，大于10。需要说明的是，预设条件也可以为多个文档集中，最大文档集长度相对于最小文档集长度的比值超过第二预设阈值。

表1

则此时，以第一文档集中的文档1作为查询元素，进行各个文档集的遍历，当查找发现第二文档集中存在文档1，则将文档1插入文档交集。之后，以第一文档集中文档2作为查询元素进行各个文档集的遍历，当查找发现第二文档集中不存在文档2，则选取第一文档集中的文档20作为查询元素，查找发现第二文档集中存在文档20，则将文档20插入文档交集。最后，再以第一文档集中的文档85作为查询元素，进行各个文档集的遍历，查找发现第二文档集中不存在文档85，则将最终的文档交集[文档1，文档20]返回给用户。

若按照传统技术的通用求交算法，则针对表1，以第一文档集中的文档1作为查询元素，进行各个文档集的遍历，当查找发现第二文档集中存在文档1，则将文档1插入文档交集。之后，以第一文档集中文档2作为查询元素进行各个文档集的遍历，当查找发现第二文档集中不存在文档2，则以第二文档集中文档3为查询元素，进行各个文档集的遍历，由于第一文档集不存在文档3，则以第二文档集中文档5为查询元素，进行各个文档集的遍历，直至以第二文档集中文档20为查询元素时，查找发现第一文档集中存在文档20，则将文档1插入文档交集，因此，造成了以文档3、文档5、文档6至文档20之间文档元素的遍历，实际上，文档3、文档5、文档6并没有在第一文档集中出现，也就是说这些文档根本不会被召回，因此，在至少两个文档集的长度之间的差值超过长度阈值的情况下，采用通用求交算法非常耗时，严重影响了求交的效率。

例如，若用户通过电脑浏览器的搜索引擎查询“海底捞火锅”，则文档1和文档20对应的网页为用户此次查询得到的结果，通过浏览器界面展现给用户的是文档1和文档20对应网页的链接，用户通过点击链接即可进入文档1和文档20对应的网页。

另外，若用户通过手机应用中的搜索引擎查询“海底捞火锅”，则文档1和文档20对应的应用页面为用户此次查询得到的结果，通过手机界面展现给用户的是文档1和文档20对应应用页面的链接，用户通过点击链接即可进入文档1和文档20对应的应用页面。

综上所述，本发明实施例提供了一种多文档交集获取方法，首先针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度，并对至少两个文档集的长度进行比较；根据至少两个文档集的长度差异确定获得文档交集的求交算法，具体包括：若至少两个文档集的文档集长度符合预设条件，则以至少两个文档集中具有最小文档集长度的文档集中的查询元素为遍历起点，查找剩余的文档集中是否有查询元素，当剩余的每个文档集中均有查询元素，则将查询元素作为文档交集的元素。本发明通在两个文档集的文档集长度符合预设条件时，过以长度最短文档集中的元素作为查询元素，依次遍历剩余的文档集，可以避免当查询元素未被查找到时，需要以查询的文档集中的下一个文档作为查询元素进行无意义的查询，提高了文档集长度差值较大情况下文档求交集效率，加快了搜索引擎针对用户的响应时间。

实施例二

参照图3，其示出了一种多文档交集获取方法的具体步骤流程图。

步骤210，接收搜索词。

在本发明实施例中，搜索引擎可以接收用户输入的搜索词，并对搜索词进行语法树构建。

步骤220，根据接收到的搜索词，构建搜索语法树；所述语法树的叶子节点为搜索词的搜索分词。

在本发明实施例中，根据用户输入的搜索词，通过语法解析该搜索词并构建语法树。

例如，若搜索词为“北京市全时便利店”，用户在“北京市”和“全时便利店”之间键入空格，设定规则：若通过语法解析发现有空格时，判定空格的前后两个词为“和”的关系。

此时，基于用户输入的“北京市全时便利店”，会将空格的前后两个词的分词“北京市”和“全时便利店”保存，并将解析结果构造成如图3A初级语法树。

之后，在构造最终语法树节点时，会根据图3A所示的初级语法树的结构进行同步构造，而这个过程中，系统会判别初级语法树的节点是否为文本，如果是文本，系统会对其进行再次分词，例如“北京市”会分为“北京”和“市”，“全时便利店”会分为“全时”和“便利”和“店”，构造最终语法树部分会根据分词后的结果对初级语法树重建，将分词后的“和”节点添加到初级语法树中，形成如图3B所示的终级语法树。以供搜索引擎对终极语法树做各个分词的求交算法。

步骤230，针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度。

该步骤可以参照上述步骤110，此处不再赘述。

可选的，步骤230还可以包括子步骤2301，子步骤2302。

子步骤2301，从所述搜索语法还未进行求交计算的求交节点中的最低层级的求交节点开始，根据所述求交节点的子节点确定需要求交集的所述至少两个文档集。

在本发明实施例中，针对根据搜索词构建的语法树，首先从语法树中的最底层求交节点进行求交计算，当最底层的求交节点完成求交计算后，根据得到的底层的文档交集，在对次底层的求交节点进行求交计算，直到得到最顶层的文档交集，并将其返回给用户。

例如，基于图3B示出的针对“北京市全时便利店”的终级语法树，

其中求交节点10，求交节点20为底层节点，求交节点30为顶层节点，此时根据底层节点20和底层节点30，确定需要求交集的文档集为“北京”和“市”对应的文档集，与，“全时”和“便利”和“店”对应的文档集。

子步骤2302，获取每个文档集的文档集长度。

在该步骤中，基于图3B示出的针对“北京市全时便利店”的终级语法树，得到“北京”和“市”各自对应的文档集中文档元素的数量，与，“全时”和“便利”和“店”各自对应的文档集中文档元素的数量。

步骤240，对所述至少两个文档集的长度进行比较。

步骤250，根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。

可选的，步骤250还可以包括子步骤2501，子步骤2502。

子步骤2501，在所述至少两个文档集的长度差异符合预设条件的情况下，以至少两个文档集中具有最小文档集长度的文档集中的查询元素为遍历起点，查找剩余的文档集中是否有所述查询元素。

可选的，所述预设条件包括：所述至少两个文档集的文档集长度中，最大文档集长度与最小文档集长度之间的差值超过第一预设阈值。

可选的，所述预设条件包括：述至少两个文档集中，最大文档集长度相对于最小文档集长度的比值超过第二预设阈值。

在本发明实施例中，多个文档集中最长文档集与最短文档集的长度之差大于第一预设阈值，或最大文档集长度相对于最小文档集长度的比值超过第二预设阈值，该第一预设阈值与第二预设阈值可以根据实际情况进行设定，具体是通过对搜索引擎进行日常搜索试验得到的一个优选值。

可选的，子步骤2501还可以包括子步骤25011，子步骤25012。

子步骤25011，对所述最小文档集长度的文档集中的当前排序序号的查询元素进行与剩余的文档集中的元素的匹配。

在该步骤中，针对基于图3B示出的针对“北京市全时便利店”的终级语法树，基于求交节点10，假设分词“北京”对应的第一文档集中文档元素的数量为4，分词“市”对应的第二文档集中文档元素的数量为40，第一预设阈值为10，对应的文档元素如下表2：

表2

由于第一文档集和第二文档集的长度之差为30，大于10，则此时，以第一文档集中的文档1作为查询元素，进行各个文档集的遍历。

可选的，文档集中的元素以按标识大小顺排或者倒排。

在本发明实施例中，文档集中元素的标识即为表2中文档后面对应的数字，该标识用于识别文档元素，表2即是由文档集中的元素以按标识大小顺排得到的。若将文档集中的元素以按标识大小倒排，则可得到表3，此时可以将第一文档集中的第一个元素文档85作为查询元素进行遍历，本发明实施例对此不作限定。

北京	市
		文档85	文档80
文档20	…
		文档2	文档20
文档1	…
			文档6
	文档5
			文档3
	文档1

表3

子步骤25012，如果在所述剩余的文档集中的至少一个文档集中未找到匹配所述当前排序序号的查询元素的元素，则对所述最小文档集长度的文档集中的下一排序序号的查询元素进行与剩余的文档集中的元素的匹配。

针对子步骤25011中的例子，当以第一文档集中的文档1作为查询元素，进行各个文档集的遍历，并查找发现第二文档集中存在文档1，则将文档1插入文档交集。之后，以第一文档集中文档2作为查询元素进行各个文档集的遍历，当查找发现第二文档集中不存在文档2，则选取第一文档集中的文档20作为查询元素，查找发现第二文档集中存在文档20，则将文档20插入文档交集。最后，再以第一文档集中的最后一个文档85作为查询元素，进行各个文档集的遍历，查找发现第二文档集中不存在文档85，则停止遍历。

子步骤25013，如果在所述剩余的文档集中的所有文档集中均找到了匹配所述当前排序序号的查询元素的元素，则将所述查询元素作为所述文档交集的元素。

针对子步骤25011中的例子，进一步的，当以第一文档集中的文档1作为查询元素，进行各个文档集的遍历，并查找发现第二文档集中存在文档1，则将文档1插入文档交集；若选取第一文档集中的文档20作为查询元素，查找发现第二文档集中存在文档20，则将文档20插入文档交集。

子步骤2502，当所述剩余的每个文档集中均有所述查询元素，则将所述查询元素作为所述文档交集的元素。

在该步骤中，将求交节点10得到的文档交集[文档1，文档20]返回顶层图3B示出的求交节点30。

步骤260，在所述至少两个文档集的长度差异不符合预设条件的情况下，则遍历所述至少两个文档集中的最小的查询元素，查找剩余的每个文档集中是否有所述查询元素。

步骤270，当所述剩余的每个文档集中均有所述查询元素，则将所述查询元素作为所述文档交集的元素。

在本发明实施例中，针对基于图3B示出的针对“北京市全时便利店”的终级语法树，若基于求交节点20，假设分词“全时”对应的第三文档集中文档元素的数量为2，分词“遍历”对应的第四文档集中文档元素的数量为3，分词“店”对应的第五文档集中文档元素的数量为4，第一预设阈值为10，对应的文档元素如下表4：

全时	便利	店
			文档1	文档2	文档20
文档20	文档20	文档40
				文档21	文档50
		文档60

表4

此时最长的第五文档集与最短的第三文档集之间的差值小于第一预设阈值10，则此时通过通用求交算法进行第三文档集、第四文档集和第五文档集之间的求交计算，具体如下：

当以第三文档集中的文档1作为查询元素，查询第四文档集，并查找发现第四文档集中不存在文档1，则此时将查询元素换为第四文档集中的文档20，并查找发现第五文档集和第三文档集中存在文档20，则将文档20插入求交节点20对应的文档交集，当查找发现第五文档集和第三文档集中存在文档20之后，再以第四文档集中的文档21作为查询元素，发现第五文档集中不存在文档21，则进一步分别以第五文档集中的文档40、文档50、和文档60作为查询元素，发现在所有文档集中均不存在，此时查询停止，将求交节点20对应的文档交集[文档20]上传至求交节点30。在各个分词对应的文档集之间的长度差值较小的情况下，采用通用求交算法会具有更快的查询效率。

进一步的，针对基于图3B示出的针对“北京市全时便利店”的终级语法树，此时求交节点30对应的文档集分别为求交节点10对应的文档交集[文档1，文档20]和求交节点20对应的文档交集[文档20]，此时对求交节点30进行求交，得到最终的文档交集[文档20]并返回给用户。

在实际应用中，针对本发明提供的一种多文档交集获取方法，其通过测试系统的测试，在响应延时方面本发明的性能在TP90，TP99，TP999指标方面均有提升，并且提升幅度在10％以上，其中，TP90时间为：满足90％请求的最低耗时；TP99时间为：满足99％请求的最低耗时；TP999时间为：满足99.9％请求的最低耗时。

实施例三

参照图4，其示出了一种多文档交集获取装置的结构图，具体如下。

多文档交集获取装置包括：

获取模块301，用于针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度.

长度比较模块302，用于对所述至少两个文档集的长度进行比较.

求交模块303，用于根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。

综上所述，本发明实施例提供了一种多文档交集获取装置，首先针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度，并对至少两个文档集的长度进行比较；根据至少两个文档集的长度差异确定获得文档交集的求交算法，具体包括：若至少两个文档集的文档集长度符合预设条件，则以至少两个文档集中具有最小文档集长度的文档集中的查询元素为遍历起点，查找剩余的文档集中是否有查询元素，当剩余的每个文档集中均有查询元素，则将查询元素作为文档交集的元素。本发明通在两个文档集的文档集长度符合预设条件时，过以长度最短文档集中的元素作为查询元素，依次遍历剩余的文档集，可以避免当查询元素未被查找到时，需要以查询的文档集中的下一个文档作为查询元素进行无意义的查询，提高了文档集长度差值较大情况下文档求交集效率，加快了搜索引擎针对用户的响应时间。

实施例四

参照图5，其示出了一种多文档交集获取装置的具体结构图，具体如下。

多文档交集获取装置包括：

接收模块401，用于接收搜索词。

语法树构建模块402，用于根据接收到的所述搜索词，构建搜索语法树，所述语法树的叶子节点为所述搜索词的搜索分词。

获取模块403，用于针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度；

可选的，获取模块403还包括：

确定子模块，用于从所述搜索语法还未进行求交计算的求交节点中的最低层级的第一求交节点开始，根据所述第一求交节点的子节点确定需要求交集的所述至少两个文档集。

获取子模块，用于获取每个文档集的文档集长度。

长度比较模块404，用于对所述至少两个文档集的长度进行比较。

求交模块405，用于根据所述至少两个文档集的长度差异确定获得文档交集的求交算法。

可选的，求交模块405还包括：

第一遍历子模块，用于在所述至少两个文档集的长度差异符合预设条件的情况下，以至少两个文档集中具有最小文档集长度的文档集中的查询元素为遍历起点，查找剩余的文档集中是否有所述查询元素。

可选的，第一遍历子模块还包括：

第一匹配单元，用于对所述最小文档集长度的文档集中的当前排序序号的查询元素进行与剩余的文档集中的元素的匹配。

第二匹配单元，用于如果在所述剩余的文档集中的至少一个文档集中未找到匹配所述当前排序序号的查询元素的元素，则对所述最小文档集长度的文档集中的下一排序序号的查询元素进行与剩余的文档集中的元素的匹配。

求交单元，用于如果在所述剩余的文档集中的所有文档集中均找到了匹配所述当前排序序号的查询元素的元素，则将所述查询元素作为所述文档交集的元素。

文档交集建立子模块，用于当所述剩余的每个文档集中均有所述查询元素，则将所述查询元素作为所述文档交集的元素。

通用遍历模块406，用于在所述至少两个文档集的长度差异不符合预设条件的情况下，则遍历所述至少两个文档集中的最小的查询元素，查找剩余的每个文档集中是否有所述查询元素.

通用求交模块407，用于当所述剩余的每个文档集中均有所述查询元素，则将所述查询元素作为所述文档交集的元素。

本发明实施例还提供了一种电子设备，包括：一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述电子设备执行前述实施例的多文档交集获取方法。

本发明实施例还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述实施例的多文档交集获取方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的支付信息处理设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多文档交集获取方法，其特征在于，所述方法包括：

对所述至少两个文档集的长度进行比较；

2.如权利要求1所述的方法，其特征在于，所述根据所述至少两个文档集的长度关系采取对应的求交集查找算法包括：

在所述至少两个文档集的长度差异符合预设条件的情况下，以至少两个文档集中具有最小文档集长度的文档集中的查询元素为遍历起点，查找剩余的文档集中是否有所述查询元素；

当所述剩余的每个文档集中均有所述查询元素，则将所述查询元素作为所述文档交集的元素。

3.根据权利要求2所述的方法，其特征在于，所述预设条件包括：所述至少两个文档集中，最大文档集长度与最小文档集长度之间的差值超过第一预设阈值。

4.根据权利要求2所述的方法，其特征在于，所述预设条件包括：所述至少两个文档集中，最大文档集长度相对于最小文档集长度的比值超过第二预设阈值。

5.根据权利要求2所述的方法，其特征在于，所述在所述至少两个文档集的长度差异符合预设条件的情况下，以至少两个文档集中具有最小文档集长度的文档集中的查询元素为遍历起点，查找剩余的文档集中是否有所述查询元素的步骤，包括：

对所述最小文档集长度的文档集中的当前排序序号的查询元素进行与剩余的文档集中的元素的匹配；

如果在所述剩余的文档集中的至少一个文档集中未找到匹配所述当前排序序号的查询元素的元素，则对所述最小文档集长度的文档集中的下一排序序号的查询元素进行与剩余的文档集中的元素的匹配；

如果在所述剩余的文档集中的所有文档集中均找到了匹配所述当前排序序号的查询元素的元素，则将所述查询元素作为所述文档交集的元素。

6.根据权利要求5所述的方法，其特征在于，所述文档集中的元素按标识大小顺排或者倒排而具有所述排序序号。

7.根据权利要求1所述的方法，其特征在于，还包括：

接收搜索词；

根据接收到的所述搜索词，构建搜索语法树，所述语法树的叶子节点为所述搜索词的搜索分词。

8.根据权利要求7所述的方法，其特征在于，所述针对搜索过程中需要求交集的至少两个文档集，获取各文档集的文档集长度的步骤，包括：

从所述搜索语法还未进行求交计算的求交节点中的最低层级的求交节点开始，根据所述求交节点的子节点确定需要求交集的所述至少两个文档集；

获取每个文档集的文档集长度。

9.根据权利要求1-8其中之一所述的方法，其特征在于，还包括：

在所述至少两个文档集的长度差异不符合预设条件的情况下，则遍历所述至少两个文档集中的最小的查询元素，查找剩余的每个文档集中是否有所述查询元素；

10.一种多文档交集获取装置，其特征在于，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述求交模块，包括：

第一遍历子模块，用于在所述至少两个文档集的长度差异符合预设条件的情况下，以至少两个文档集中具有最小文档集长度的文档集中的查询元素为遍历起点，查找剩余的文档集中是否有所述查询元素；

12.根据权利要求11所述的装置，其特征在于，所述预设条件包括：所述至少两个文档集中，最大文档集长度与最小文档集长度之间的差值超过预设阈值。

13.根据权利要求11所述的装置，其特征在于，所述预设条件包括：所述至少两个文档集中，最大文档集长度相对于最小文档集长度的比值超过预设阈值。

14.根据权利要求11所述的装置，其特征在于，所述第一遍历子模块，包括：

第一匹配单元，用于对所述最小文档集长度的文档集中的当前排序序号的查询元素进行与剩余的文档集中的元素的匹配；

第二匹配单元，用于如果在所述剩余的文档集中的至少一个文档集中未找到匹配所述当前排序序号的查询元素的元素，则对所述最小文档集长度的文档集中的下一排序序号的查询元素进行与剩余的文档集中的元素的匹配；

15.根据权利要求14所述的装置，其特征在于，所述文档集中的元素按标识大小顺排或者倒排而具有所述排序序号。

16.根据权利要求10所述的装置，其特征在于，还包括：

接收模块，用于接收搜索词；

语法树构建模块，用于根据接收到的所述搜索词，构建搜索语法树，所述语法树的叶子节点为所述搜索词的搜索分词。

17.根据权利要求16所述的装置，其特征在于，所述获取模块，包括：

确定子模块，从所述搜索语法还未进行求交计算的求交节点中的最低层级的求交节点开始，根据所述求交节点的子节点确定需要求交集的所述至少两个文档集；

获取子模块，获取每个文档集的文档集长度。

18.根据权利要求10-17所述的装置，其特征在于，还包括：

通用遍历模块，用于在所述至少两个文档集的长度差异不符合预设条件的情况下，则遍历所述至少两个文档集中的最小的查询元素，查找剩余的每个文档集中是否有所述查询元素；

通用求交模块，用于当所述剩余的每个文档集中均有所述查询元素，则将所述查询元素作为所述文档交集的元素。

19.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-9之任一项所述的多文档交集获取方法。

20.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-9之任一项所述的多文档交集获取方法。