CN105404675A

CN105404675A - Ranked反近邻空间关键字查询方法及装置

Info

Publication number: CN105404675A
Application number: CN201510810908.3A
Authority: CN
Inventors: 赵朋朋; 方海林; 许佳捷; 周晓方
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-11-20
Filing date: 2015-11-20
Publication date: 2016-03-16

Abstract

本申请提供了一种Ranked反k近邻空间文本数据查询方法，结合倒排索引和空间索引树R-treed，即：文本上利用倒排索引，查找包含查询关键字的候选数据，在空间上利用R-tree进行计算空间影响度，依据空间影响度的大小，对候选数据进行排序，并依据空间影响度的排序，将排序在前或在后的预设数量的候选数据确定为目标数据。本实施例利用倒排索引及R-tree树形索引分别进行文本及空间剪枝，减少了查询所用的数据，提高了查询目标数据的效率，且可以查询获得预设数量的目标数据。本申请还提供了Ranked反近邻空间关键字查询装置。

Description

Ranked反近邻空间关键字查询方法及装置

技术领域

本申请涉及近邻查询技术领域，更具体地，涉及Ranked反近邻空间关键字查询方法及装置。

背景技术

近年来，反K近邻查询是一种常用的数据查询方法，用于依据预先设置的查询目标，对大量的数据进行分析判断，以查询出与查询目标具有关联关系的数据。具体地，反K近邻查询方法的一个应用领域是，对大量具有空间特征的文本属性进行查询，获得与某个空间地点具有关联性的文本属性。

例如，人们可以发布微博，评论，签到等数据，这些数据通常带有地理位置信息和文本描述。这些数据中隐含着潜在信息，例如假设想要对某些用户推送A餐厅的就餐信息，则可以使用反K近邻查询方法来查询出哪些用户是A餐厅的潜在用户，具体地，反K近邻空间关键字查询查找距离A餐厅附近，且内容是对A餐厅食物进行评论的微博，将发布这些微博数据的用户作为目标用户。在该查询场景中，A餐厅及A餐厅的地址即是查询目标信息，微博及微博的发布地址即是待查询数据。

然而，目前几种常见的反K近邻查询方法并不能确定查询结果对查询条件的影响程度。

发明内容

有鉴于此，本申请提供了一种基于Ranked反k近邻空间关键字查询的Ranked反近邻空间关键字查询方法，可以将查询结果按照对查询的影响程度大小进行排序。另外，本申请还提供了一种Ranked反近邻空间关键字查询装置，用以保证所述方法在实际中的应用及实现。

为实现所述目的，本申请提供的技术方案如下：

本申请的第一方面提供了一种Ranked反近邻空间关键字查询方法，包括：

获取预先构建的倒排索引及查询条件；其中，所述倒排索引是为源数据集构建的倒排索引，所述源数据集中包括若干源数据，源数据包含文本属性及空间属性，所述倒排索引用于记录文本属性与源数据之间的映射关系，所述查询条件中包含查询关键字和空间信息；

利用所述倒排索引，在所述源数据集中，查找包含所述查询关键字的目标源数据，并将查找到的目标源数据确定为候选数据；；

利用预先构建的R-tree树形索引，确定各个所述候选数据与所述查询条件在空间距离上的远近顺序，并按照从近到远的顺序，在所述R-tree树形索引中，依次查找各个所述候选数据所在的目标叶子节点；其中，所述R-tree树形索引是依据所述源数据集中的空间属性构建的空间索引，记录所述源数据集中各个源数据之间的距离关系；

依据二分面垂直面算法，计算所述目标叶子节点包含的所述候选数据对所述查询条件的空间影响度；

依据空间影响度的大小，对所述若干候选数据进行排序，并依据空间影响度的大小排序，将排序在前或在后的预设数量的所述候选数据确定为目标数据。

本申请的第二方面提供了一种Ranked反近邻空间关键字查询方法，包括：

获取预先构建的InvSR-tree混合树形索引及查询条件；其中，所述InvSR-tree混合树形索引在R-tree树形索引的每个节点具有各自的签名文件，签名文件是由节点包含的源数据的文本属性生成的签名文件，所述查询条件中包含查询关键字及空间信息，且InvSR-tree混合树形索引的每个叶子节点具有各自的倒排索引，倒排索引用于记录叶子节点包含的源数据的文本属性与源数据之间的映射关系；

在所述InvSR-tree混合树形索引中，查找与所述空间信息距离满足预设距离条件、且签名文件中包含所述查询关键字的目标叶子节点；

加载所述目标叶子节点的目标倒排索引，并在所述目标倒排索引中，查找包含所述查询关键字的目标文本属性，并将所述目标文本属性映射的源数据确定为候选数据；

依据二分面垂直面算法，计算所述候选数据对所述查询条件的空间影响度，在所述候选数据为多个的情况下，依据空间影响度的大小，对多个所述候选数据进行排序，并将排序在前或在后的预设数量的所述候选数据确定为目标数据。

本申请的第三方面提供了一种Ranked反近邻空间关键字查询装置，包括：

第一倒排索引及查询获取模块，用于获取预先构建的倒排索引及查询条件；其中，所述倒排索引是为源数据集构建的倒排索引，所述源数据集中包括若干源数据，源数据包括文本属性及空间属性，所述倒排索引用于记录文本属性与源数据之间的映射关系，所述查询条件中包含查询关键字及空间信息；

第一候选数据查找模块，用于利用所述倒排索引，在所述源数据集中，查找包含所述查询关键字的目标源数据，并将查找到的目标源数据确定为候选数据；

第一目标叶子节点确定模块，用于利用预先构建的R-tree树形索引，确定各个所述候选数据与所述查询条件在空间距离上的远近顺序，并按照从近到远的顺序，在所述R-tree树形索引中，依次查找各个所述候选数据所在的目标叶子节点；其中，所述R-tree树形索引是依据所述源数据集中的空间属性构建的空间索引，记录所述源数据集中各个源数据之间的距离关系；

第一空间影响度计算模块，用于依据二分面垂直面算法，计算所述目标叶子节点包含的所述候选数据对所述查询条件的空间影响度；

第一目标数据确定模块，用于依据空间影响度的大小，对所述若干候选数据进行排序，并依据空间影响度的大小排序，将排序在前或在后的预设数量的所述候选数据确定为目标数据。

本申请的第四方面提供了一种Ranked反近邻空间关键字查询装置，包括：

第二倒排索引及查询获取模块，用于获取预先构建的InvSR-tree混合树形索引及查询条件；其中，所述InvSR-tree混合树形索引在R-tree树形索引的每个节点具有各自的签名文件，签名文件是由节点包含的源数据的文本属性生成的签名文件，所述查询条件中包含查询关键字及空间信息，且InvSR-tree混合树形索引的每个叶子节点具有各自的倒排索引，倒排索引用于记录叶子节点包含的源数据的文本属性与源数据之间的映射关系；

第二目标叶子节点确定模块，用于在所述InvSR-tree混合树形索引中，查找与所述空间信息距离满足预设距离条件、且签名文件中包含所述查询关键字的目标叶子节点；

第二候选数据查找模块，用于加载所述目标叶子节点的目标倒排索引，并在所述目标倒排索引中，查找包含所述查询关键字的目标文本属性，并将所述目标文本属性映射的源数据确定为候选数据；

第二目标数据确定模块，用于依据二分面垂直面算法，计算所述候选数据对所述查询条件的空间影响度，在所述候选数据为多个的情况下，依据空间影响度的大小，对多个所述候选数据进行排序，并将排序在前或在后的预设数量的所述候选数据确定为目标数据。

由以上技术方案可知，本申请提供了一种Ranked反近邻空间关键字查询方法，首先获取倒排索引及查询条件，查询条件中包含查询关键字及空间信息，在倒排索引中，查找包含查询关键字的候选数据，利用预先构建的R-tree树形索引，确定候选数据与查询条件在空间距离上的远近顺序，并按照从近到远的顺序，在R-tree树形索引中，依次查找各个候选数据所在的目标叶子节点，依据二分面垂直面算法，计算目标叶子节点包含的候选数据对查询条件的空间影响度，依据空间影响度的大小，对若干候选数据进行排序，并依据空间影响度的大小排序，将排序在前或在后的预设数量的候选数据确定为目标数据。可见，本实施例利用倒排索引及R-tree树形索引分别进行文本及空间剪枝，减少了查询所用的数据，提高了查询目标数据的效率，且可以查询获得预设数量的目标数据。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的Ranked反近邻空间关键字查询方法实施例1的流程图；

图2为本申请提供的源数据集的一个示例图；

图3为本申请提供的源数据的空间位置关系示例图；

图4为本申请提供的InvSR-tree混合树形索引的一个示例图；

图5为本申请提供的候选数据与查询条件构建二分垂直面的示例图；

图6为本申请提供的查询定理示意图；

图7为本申请提供的Ranked反近邻空间关键字查询方法实施例2的流程图；

图8为本申请提供的Ranked反近邻空间关键字查询装置实施例1的结构示意图；

图9为本申请提供的Ranked反近邻空间关键字查询装置实施例2的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，其示出了本申请提供的Ranked反近邻空间关键字查询方法实施例1的流程。如图1所示，本实施例可以具体包括步骤S101～步骤S105。其中：

步骤S101：获取预先构建的倒排索引及查询条件；其中，倒排索引是为源数据集构建的倒排索引，源数据集中包括若干源数据，源数据具有文本属性及空间属性，倒排索引用于记录文本属性与源数据之间的映射关系，查询条件中包含查询关键字及空间信息。

在实施前，预先收集大量的用户数据作为源数据集，源数据集中的每条用户数据均包括文本属性及空间属性。

其中，文本属性可以是若干关键字的描述。例如，参见图2所示的源数据集示例，源数据集中包含10条源数据，分别为源数据P₁～P₁₀。以源数据P₁为例，其包含的文本属性为seafood、beer、egg、discount及meat。另外，空间属性用于表示用户数据的地理位置，空间属性可以是地理位置如地理坐标。

本申请的目的是从源数据集中，查询满足查询条件的候选数据，且按照这些候选数据对查询条件影响度的大小进行排序。当然，在排序后，可以选择预设数量的候选数据作为最终的目标数据。

在大量的源数据中，查询候选数据时，需要使用倒排索引。倒排索引是根据源数据集中的各个源数据构建的一种文本索引结构，其记录的是源数据集中的各个文本属性与源数据之间的映射关系。具体地，源数据集中的每条源数据具有文本属性即若干关键字，将全部源数据的关键字进行分类，将相同的关键字作为一类，并记录每个关键字所映射的源数据。每个关键字与其映射的源数据可以看作是一条索引项。

参见图2所示的源数据集，将各个源数据具有的关键字分类后，获得seafood、beer、egg、discount、coffee、beverages、fruits、milk、bread及meat这10个关键词分类，因此可以包括10条索引项。例如，关键词seafood这一条索引项中，与关键词seafood具有映射关系的源数据包括P₁₁～P₁₀。关键词beer这一条索引项中，与关键词beer具有映射关系的源数据包括P₁、P₄及P₈。10条索引项构成的即是源数据集的倒排索引。

需要说明的是，倒排索引的索引项中的关键字可以并非局限于一个，还可以是任意多个的组合。例如，将seafood与discount作为一个关键字组。若关键字为多个，则在源数据中确定同时包含该关键字组中全部关键字的源数据，将该源数据与关键字组之间的映射作为一条索引项。

在源数据集中查询目标数据，需要使用查询条件，查询条件同样包含关键字及空间属性。其中，为了与源数据的关键字区分，此处的关键字可以称为查询关键字。为了与源数据的空间属性区分，此处的空间属性称为空间信息。例如，图2中的q为查询条件，其包含的查询关键字为seafood及discount。

步骤S102：利用所述倒排索引，在所述源数据集中，查找包含所述查询关键字的目标源数据，并将查找到的目标源数据确定为候选数据。

以上指出，本申请是在整个源数据集中，查找满足查询条件的源数据。具体地，源数据满足查询条件，指的是源数据满足文本相似及空间较近两个方面的条件。其中，文本相似即源数据的文本属性包含查询关键字，空间较近即源数据的空间属性距离查询距离较近。

查找文本相似的源数据的具体方式是，使用倒排索引进行查询。如上，倒排索引记录的是整个源数据集的关键字与源数据之间的映射关系，将查询条件的查询关键字分别与倒排索引中的各个关键字进行匹配，查找到相匹配的关键字后，该关键字所映射的源数据则必然包含查询条件的关键字，从而满足文本相似的条件，进而将查找到的源数据作为候选数据。

查找到满足文本相似条件的候选数据后，使用R-tree树形结构及二分面垂直面算法，在候选数据中，进一步查找满足空间较近条件的目标数据。例如，图2所示的查询条件q的查询关键字为seafood及discount，源数据P₁～P₁₀中均包括该查询关键字组，因此，将源数据P₁₁～P₁₀均确定为候选数据。

步骤S103：利用预先构建的R-tree树形索引，确定各个候选数据与查询条件在空间距离上的远近顺序，并按照从近到远的顺序，在R-tree树形索引中，依次查找各个候选数据所在的目标叶子节点；其中，R-tree树形索引是依据源数据集中的空间属性构建的空间索引，记录源数据集中各个源数据之间的距离关系。

在实施前，预先构建R-tree树形索引，该R-tree树形索引是根据整个源数据集的源数据构建的。需要说明的是，构建R-tree树形索引的方法为现有技术，本申请并不赘述。R-tree树形索引是依据源数据的空间属性构建的，描述的是源数据之间的距离关系。

见图3及图4，图3以坐标系的方式表示各个源数据之间的空间位置关系，图4是根据图3示出的源数据所构建的R-tree树形索引。如图3及图4所示，根节点N₀包括孩子节点N₁及孩子节点N₂，孩子节点N₁包括孩子节点N₃及孩子节点N₄，孩子节点N₂包括孩子节点N₅及孩子节点N₆。

其中，孩子节点N₃包括的源数据分别为：P₇、P₉、O₃及O₄；孩子节点N₄包括的源数据分别为：O₇、P₄及P₃；孩子节点N₅包括的源数据分别为：P₂、P₁、P₅、P₈、O₂及O₁；孩子节点N₆包括的源数据分别为：P₁₀、O₅及O₆。

由以上可知，步骤S102可确定出候选数据，若候选数据为多个，则将候选数据与查询条件一同输入至R-tree树形索引中，该R-tree树形索引相关的算法便可以确定出该多个候选数据与查询条件在空间距离上的远近顺序。

假设步骤S102确定出的候选数据分别为P₁及P₅，在图3所示的坐标系中，可以直观得出结论，候选数据P₁与查询条件q之间的空间距离小于候选数据P₅。因此，R-tree树形索引相关的算法可以确定出候选数据P₁及P₅与查询条件在空间距离上的远近顺序为：候选数据P₁小于候选数据P₅。

因此，按照从近到远的顺序，首先在R-tree树形索引中查找候选数据P₁所在的叶子节点，并将查找到的叶子节点N₅作为目标叶子节点，每当查找到目标叶子节点，便执行下一步骤S104中的二分面算法。然后，可以继续查找候选数据P₅所在的叶子节点N₅，由于该叶子节点已经作为目标叶子节点，则不再对该叶子节点N₅执行二分面算法。若还存在其他的候选数据，则继续对其他的候选数据执行查找目标叶子节点的步骤。

步骤S104：依据二分面垂直面算法，计算目标叶子节点包含的候选数据对查询条件的空间影响度。

其中，二分面垂直面算法即利用候选数据及查询条件的空间属性构建二分垂直线，二分垂直线将空间划分为两部分。如图5所示，候选数据P₁与查询条件q之间的实线将空间分为两部分，分别为包含候选数据P₁的二分面H_p1(p₁,q)及包含查询条件q的二分面H_q(p₁,q)。

可以发现的是，查询条件q到二分面H_q(p₁,q)内所有数据点的距离都要小于候选数据P₁到这些数据点的距离，例如，查询条件q到二分面H_q(p₁,q)内的数据点P₃的距离dist(q,p₃)及到数据点P₄的距离dist(q,p₄)，都小于候选数据P₁到数据点P₃的距离dist(p₁,p₃)及到数据点P₄的距离dist(p₁,p₄)。因此说明，查询条件q比候选数据P₁对这些数据点的影响要大。同样地，所有包含在二分面H_p1(p₁,q)所有数据点到候选数据P₁的距离都要小于到查询条件q的距离，也就是说，二分面H_p1(p₁,q)所有数据点对候选数据P₁的影响要大于查询条件q。

二分面垂直面算法可以计算每个候选数据对查询条件的空间影响度，即是记录查询条件的最近邻个数来确定候选数据对查询条件的空间影响度。

如图4所示，目标叶子节点N₅包含的候选数据有候选数据P₁及候选数据P₅。候选数据P₁对查询条件q的空间影响度为1，候选数据P₅对查询条件q的空间影响度为2。

步骤S105：依据空间影响度的大小，对多个候选数据进行排序，并依据空间影响度的大小排序，将排序在前或在后的预设数量的候选数据确定为目标数据。

其中，在计算获得每个候选数据对查询条件的空间影响度后，依据空间影响度的大小，对各个候选数据进行排序。例如，候选数据分别为P₂、P₁、P₅及P₈，分别对查询条件的空间影响度为1、2、3及4，排序后的候选数据分别为P₂、P₁、P₅及P₈。需要说明的是，排序时，可以按照空间影响度由小到大的关系排序，当然，也可以按照空间影响度由大到小的关系排序。

在实施前，可以根据实际需要，设置在源数据中查找目标数据的个数，例如，设置为5个，进而可以将排序在前或者在后的5个候选数据确定为目标数据。

由以上技术方案可知，本申请提供了一种Ranked反近邻空间关键字查询方法，首先获取倒排索引及查询条件，查询条件中包含查询关键字及空间信息，利用倒排索引，查找包含查询关键字的候选数据，利用预先构建的R-tree树形索引，确定候选数据与查询条件在空间距离上的远近顺序，并按照从近到远的顺序，在R-tree树形索引中，依次查找各个候选数据所在的目标叶子节点，依据二分面垂直面算法，计算目标叶子节点包含的候选数据对查询条件的空间影响度，依据空间影响度的大小，对若干候选数据进行排序，并依据空间影响度的大小排序，将排序在前或在后的预设数量的候选数据确定为目标数据。可见，本实施例利用倒排索引及R-tree树形索引分别进行文本及空间剪枝，减少了查询所用的数据，提高了查询目标数据的效率，且可以查询获得预设数量的目标数据。

在实际应用中，以上实施例中步骤S104计算的空间影响度可能存在相同的情况，在按照空间影响度对候选数据进行排序时，可能出现问题。因此，在步骤S105依据空间影响度的大小，对若干候选数据进行排序时，还包括：

若空间影响度相同，则将与查询条件之间的距离较小的候选数据排序在前，将与查询条件之间的距离较大的候选数据排序在后。

例如，候选数据P₁及候选数据P₅对查询条件的影响度均为1，则可以分别计算候选数据P₁及候选数据P₅与查询条件q之间的距离。若候选数据P₁与查询条件q之间的距离小于候选数据P₅，则可以将候选数据P₁排序在前，将候选数据P₅排序在后。

以上实施例中，步骤S104(依据二分面垂直面算法，计算目标叶子节点包含的候选数据对查询条件的空间影响度)的具体实现方式可以包括：

对每个目标叶子节点分别执行以下步骤A1～步骤A3，以获得各个目标叶子节点中包含的候选数据对查询条件的空间影响度。

步骤A1：依据目标叶子节点中包含的目标候选数据的空间属性及查询条件的空间信息，生成二分垂直线，以获得两个二分面；其中，目标候选数据及查询条件分别在不同的二分面内，目标候选数据之外的其他候选数据在二分面内。

其中，将目标叶子节点中包含的候选数据称为目标候选数据。目标候选数据的空间属性及查询条件的空间信息数据，可以生成二分垂直线，从而获得两个二分面。

假设查询到的候选数据分别为P₁、P₂、P₃及P₄。如图5所示，目标候选数据P₁与查询条件q之间的实线将空间分为两部分，分别为包含候选数据P₁的二分面H_p1(p₁,q)及包含查询条件q的二分面H_q(p₁,q)。其他候选数据P₂、P₃及P₄分散在两个二分面中。

需要说明的是，若其他候选数据为多个，则针对每个其他候选数据均执行步骤A2及步骤A3。以下以其他候选数据P₂为例说明。

步骤A2：计算其他候选数据与目标候选数据的第一距离、以及其他候选数据与查询条件之间的第二距离。

步骤A3：若第一距离大于第二距离，则更新其他候选数据的空间影响度。

具体地，可以设置各个候选数据对查询条件的初始空间影响度为0，需要更新某个候选数据的空间影响度时，则将该候选数据的空间影响度加1。

例如，其他候选数据P₂与目标候选数据P₁之间的距离为第一距离dist1，其他候选数据P₂与查询条件之间的距离为第二距离dist2。若第一距离dist1大于第二距离dist2，则更新其他候选数据P₂对查询条件的空间影响度为1。

同理，可以对所有的其他候选数据进行上述步骤A2及步骤A3，从而将全部的候选数据进行空间影响度的更新。

在实际应用中，若计算所有候选数据对查询条件的空间影响度，不仅浪费大量的时间，而且需要很高的成本，因为有些候选数据如果已经距离查询条件很远，计算此些候选数据对查询条件的空间影响度是没有意义的，因此，为了减少这些无用候选数据的计算量，可以利用图6所示的查询定理示意图，进一步提高算法的效率。

如图6所示，如果某个候选数据到查询条件q的距离大于2倍的候选数据p到查询条件q的距离，则无需计算查询条件q对候选数据p的空间影响度，因为候选数据不可能比q到p的距离更近，换句话说，这些候选数据对p的影响程度没有q大。因此可以无需计算p的空间影响度了，可以将p存入最终结果集。

以上利用倒排索引降低候选数据的方法，可以在一定程度上提高数据查询的效率。但是，该种方法需要检查所有源数据是否包含查询关键字，若源数据数量非常大且包含的查询关键字较多，以上方法仍存在查询时间较长的技术问题。

因此，本申请提供了另一种Ranked反近邻空间关键字查询方法实施例。如图7所示，Ranked反近邻空间关键字查询方法实施例2具体包括步骤S201～步骤S204。

步骤S201：获取预先构建的InvSR-tree混合树形索引及查询条件；其中，InvSR-tree混合树形索引在R-tree树形索引的每个节点具有各自的签名文件，签名文件是由节点包含的源数据的文本属性生成的签名文件，查询条件中包含查询关键字及空间信息，且InvSR-tree混合树形索引的每个叶子节点具有各自的倒排索引，倒排索引用于记录叶子节点包含的源数据的文本属性与源数据之间的映射关系。

其中，与上述Ranked反近邻空间关键字查询方法实施例1中的R-tree树形索引不同，本实施例中构建的InvSR-tree混合树形索引中的每个节点均包含签名文件，并且，叶子节点具有各自的倒排索引。

签名文件是由节点包含的源数据的文件数据生成的，其可以是依据哈希算法生成的哈希值，用来唯一表示源数据的文本属性。如图4所示，节点N₀对应的签名文件为1110、1101、1110及0111。节点包含签名文件，这样，使用查询条件的查询关键字在查询时，可以快速实现查询关键字与签名文件的比对，提高查询效率。

需要说明的是，本实施例中的倒排索引与Ranked反近邻空间关键字查询方法实施例1中的倒排索引也不同。

具体地，Ranked反近邻空间关键字查询方法实施例1中的倒排索引是全部源数据的倒排索引，本实施例中的倒排索引仅仅是叶子节点包含的源数据的倒排索引，即叶子节点包含哪些源数据，这些源数据的文本属性都有哪些，进而生成文本属性与源数据的映射关系。相对于生成全部源数据的倒排索引，本实施例生成的倒排索引数据量更少，查询候选数据的效率更高。如图4所示，叶子节点N₃、叶子节点N₄、叶子节点N₅及叶子节点N₆的倒排索引分别为InvFile3、InvFile4、InvFile5及InvFile6。

步骤S202：在InvSR-tree混合树形索引中，查找与空间信息距离满足预设距离条件、且签名文件中包含查询关键字的目标叶子节点。

如图4所示，从InvSR-tree混合树形索引的根节点N₀开始遍历。若根节点N₀的签名文件中包含查询条件q的查询关键字，则进一步判断根节点N₀的哪个孩子节点中包含查询条件q，若左孩子节点N₁包含查询条件q，则优先访问左孩子节点N₁。

同样，判断左孩子节点N₁的签名文件中是否包含查询条件q的查询关键字，若包含，则判断左孩子节点N₁的哪个孩子节点中包含查询条件q，若左孩子节点N₃包含，则将左孩子节点N₃作为目标叶子节点。若均不包含，则判断左孩子节点N₁的哪个孩子节点的签名文件中包含查询条件q的查询关键字。左孩子节点N₃包含，则将左孩子节点N₃作为目标叶子节点。

可见，上述预设距离条件，指的是与查询条件的远近程度，即距离查询条件越近的叶子节点，则优先访问。

步骤S203：加载目标叶子节点的目标倒排索引，并在目标倒排索引中，查找包含查询关键字的目标文本属性，并将目标文本属性映射的源数据确定为候选数据。

需要说明的是，目标叶子节点的倒排索引可以称为目标倒排索引。加载目标叶子节点的目标倒排索引后，可以仅仅在该目标倒排索引中，查找包含查询关键字的源数据，并将查找的源数据确定为候选数据。

例如，在目标叶子节点N₃的倒排索引中，查找到的候选数据为P₇及P₉。

步骤S204：依据二分面垂直面算法，计算候选数据对查询条件的空间影响度，在候选数据为多个的情况下，依据空间影响度的大小，对多个候选数据进行排序，并将排序在前或在后的预设数量的候选数据确定为目标数据。

同样，按照二分面垂直面算法，计算查找到的候选数据对查询条件的空间影响度，并对候选数据按照空间影响度的大小进行排序。当然，排序时，可以空间影响度由大到小的顺序，也可以空间影响度由小到大的顺序。

可见，本实施例提供的Ranked反近邻空间关键字查询方法中，使用的混合树形索引，集合有签名文件及倒排索引，可以减少与查询条件进行匹配的源数据的量，提高数据查询效率。

以上实施例，依据InvSR-tree混合树形索引进行查询时，同时考虑空间影响度和文本相关性，具有同时在空间和文本上进行剪枝的能力。该查询执行时，从根节点开始遍历，首先将根节点添加到优先队列中，然后遍历该队列，取出其中的元素，判断是否包含查询关键字，如果包含，再计算相应的空间影响度。

对于队列中的所有元素，迭代地从中取出，将它们分为3类，分别是叶子节点，非叶子节点和空间文本对象。

如果取出的元素是非叶子节点，则先检测是否匹配查询条件的签名，如果匹配，则更新相应的空间影响度。再遍历该节点的孩子节点，然后将他们的空间影响度都初始化为1，接着需要遍历所有的二分面，判断他们对查询的影响程度，如果这些都不在查询点所在二分面中，则相应的影响度都需要加1。

如果取出的元素是叶子节点元素，先检测它是否匹配查询条件的签名，如果匹配，接着加载相应的倒排索引得到更精确的候选对象，然后计算这些对象的空间影响度，此处计算空间影响度方法与非叶子节点相同。

最后，如果得到的是空间文本对象，首先需要建立相应的二分垂直线，因为新增加了一个二分面，因此需要更新原先队列中所有对象的影响度。遍历队里中的所有对象，并且判断它们落在哪个平面内，如果落在了查询所在的平面，则影响度不需要加1，否则，影响度需要加1。同理，需要更新候选集中保存对象的影响度，并且把相应的节点更新到候选集中。最后，如果其他元素都已经大于该目标的查询距离的两倍，则该目标空间影响度不需要再计算，则将该目标存入最终集中，进行下一个目标的遍历。当预设数量的结果返回或者优先队列为空的时候，则算法终止。遍历最终结果集，从中取出相应的结果对象，影响度最小的对象，则是对查询影响程度最大的。

以下对本申请提供的Ranked反近邻空间关键字查询装置进行介绍，需要说明的是，下文有关Ranked反近邻空间关键字查询装置的说明可以参见上文提供的Ranked反近邻空间关键字查询方法，以下并不赘述。

与上述Ranked反近邻空间关键字查询方法实施例1相对应，本申请提供了一种Ranked反近邻空间关键字查询装置实施例1。如图8所示，本实施例可以具体包括：

第一倒排索引及查询获取模块801，用于获取预先构建的倒排索引及查询条件；其中，倒排索引是为源数据集构建的倒排索引，源数据集中包括若干源数据，源数据具有文本属性及空间属性，倒排索引用于记录文本属性与源数据之间的映射关系，查询条件中包含查询关键字及空间信息；

第一候选数据查找模块802，用于利用所述倒排索引，在所述源数据集中，查找包含所述查询关键字的目标源数据，并将查找到的目标源数据确定为候选数据；

第一目标叶子节点确定模块803，用于利用预先构建的R-tree树形索引，确定各个候选数据与查询条件在空间距离上的远近顺序，并按照从近到远的顺序，在R-tree树形索引中，依次查找各个候选数据所在的目标叶子节点；其中，R-tree树形索引是依据源数据集中的空间属性构建的空间索引，记录源数据集中各个源数据之间的距离关系；

第一空间影响度计算模块804，用于依据二分面垂直面算法，计算目标叶子节点包含的候选数据对查询条件的空间影响度；

第一目标数据确定模块805，用于依据空间影响度的大小，对若干候选数据进行排序，并依据空间影响度的大小排序，将排序在前或在后的预设数量的候选数据确定为目标数据。

可选地，上述Ranked反近邻空间关键字查询装置还包括：排序调整模块，用于若空间影响度相同，则将与查询条件之间的距离较小的候选数据排序在前，将与查询条件之间的距离较大的候选数据排序在后。

其中，第一空间影响度计算模块包括：

二分面获得子模块，用于依据目标叶子节点中包含的目标候选数据的空间属性及查询条件的空间信息，生成二分垂直线，以获得两个二分面；其中，目标候选数据及查询条件分别在不同的二分面内，目标候选数据之外的其他候选数据在二分面内；

两个距离计算子模块，用于计算其他候选数据与目标候选数据的第一距离、以及其他候选数据与查询条件之间的第二距离；

空间影响度更新子模块，用于若第一距离大于第二距离，则更新其他候选数据的空间影响度。

与上述Ranked反近邻空间关键字查询方法实施例2相对应，本申请提供了一种Ranked反近邻空间关键字查询装置实施例2。如图9所示，本实施例可以具体包括：

第二倒排索引及查询获取模块901，用于获取预先构建的InvSR-tree混合树形索引及查询条件；其中，InvSR-tree混合树形索引在R-tree树形索引的每个节点具有各自的签名文件，签名文件是由节点包含的源数据的文本属性生成的签名文件，查询条件中包含查询关键字及空间信息，且InvSR-tree混合树形索引的每个叶子节点具有各自的倒排索引，倒排索引用于记录叶子节点包含的源数据的文本属性与源数据之间的映射关系；

第二目标叶子节点确定模块902，用于在InvSR-tree混合树形索引中，查找与空间信息距离满足预设距离条件、且签名文件中包含查询关键字的目标叶子节点；

第二候选数据查找模块903，用于加载目标叶子节点的目标倒排索引，并在目标倒排索引中，查找包含查询关键字的目标文本属性，并将目标文本属性映射的源数据确定为候选数据；

第二目标数据确定模块904，用于依据二分面垂直面算法，计算候选数据对查询条件的空间影响度，在候选数据为多个的情况下，依据空间影响度的大小，对多个候选数据进行排序，并将排序在前或在后的预设数量的候选数据确定为目标数据。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种Ranked反近邻空间关键字查询方法，其特征在于，包括：

2.根据权利要求1所述的Ranked反近邻空间关键字查询方法，其特征在于，还包括：

若所述空间影响度相同，则将与查询条件之间的距离较小的候选数据排序在前，将与查询条件之间的距离较大的候选数据排序在后。

3.根据权利要求1所述的Ranked反近邻空间关键字查询方法，其特征在于，所述依据二分面垂直面算法，计算每个所述目标叶子节点包含的所述候选数据对所述查询条件的空间影响度，包括：

对每个所述目标叶子节点分别执行以下步骤，以获得各个所述目标叶子节点中包含的所述候选数据对所述查询条件的空间影响度：

依据所述目标叶子节点中包含的目标候选数据的空间属性及所述查询条件的空间信息，生成二分垂直线，以获得两个二分面；其中，所述目标候选数据及所述查询条件分别在不同的二分面内，所述目标候选数据之外的其他候选数据在所述二分面内；

计算所述其他候选数据与所述目标候选数据的第一距离、以及所述其他候选数据与所述查询条件之间的第二距离；

若所述第一距离大于所述第二距离，则更新所述其他候选数据的空间影响度。

4.一种Ranked反近邻空间关键字查询方法，其特征在于，包括：

5.一种Ranked反近邻空间关键字查询装置，其特征在于，包括：

6.根据权利要求5所述的Ranked反近邻空间关键字查询装置，其特征在于，还包括：

排序调整模块，用于若所述空间影响度相同，则将与查询条件之间的距离较小的候选数据排序在前，将与查询条件之间的距离较大的候选数据排序在后。

7.根据权利要求5所述的Ranked反近邻空间关键字查询装置，其特征在于，所述第一空间影响度计算模块包括：

二分面获得子模块，用于依据所述目标叶子节点中包含的目标候选数据的空间属性及所述查询条件的空间信息，生成二分垂直线，以获得两个二分面；其中，所述目标候选数据及所述查询条件分别在不同的二分面内，所述目标候选数据之外的其他候选数据在所述二分面内；

两个距离计算子模块，用于计算所述其他候选数据与所述目标候选数据的第一距离、以及所述其他候选数据与所述查询条件之间的第二距离；

空间影响度更新子模块，用于若所述第一距离大于所述第二距离，则更新所述其他候选数据的空间影响度。

8.一种Ranked反近邻空间关键字查询装置，其特征在于，包括：