CN117171802B

CN117171802B - 一种空间关键字查询强隐私保护方法及系统

Info

Publication number: CN117171802B
Application number: CN202311457541.2A
Authority: CN
Inventors: 王璐; 杨代庆; 高继平; 潘尧
Original assignee: Institute Of Scientific And Technical Information Of China
Current assignee: Institute Of Scientific And Technical Information Of China
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-01-12
Anticipated expiration: 2043-11-03
Also published as: CN117171802A

Abstract

本发明公开了一种空间关键字查询强隐私保护方法及系统，涉及数据查询技术领域。包括服务器将所有POI点根据文本相似度排序并均匀划分为多组；将每组POI点按相同粒度划分为多个网格单元，获取在每个网格单元任意位置下提交查询时检索到的数据访问页面集合；客户端向服务器提交空间关键字查询时，服务器返回给客户端多个对象集合，各对象集合包括多个对象点；客户端调整各对象点与查询点之间的空间相似度和文本相似度的权重以计算总相似度，多个对象点按照总相似度进行排名；任意一次查询根据相同的检索轮次数和每轮访问页面数，按照排名从服务器查询到各对象点的数据访问页面。本发明提高了空间关键字查询的信息安全性，满足强隐私保护。

Description

一种空间关键字查询强隐私保护方法及系统

技术领域

本发明涉及数据查询技术领域，具体涉及一种空间关键字查询强隐私保护方法及系统。

背景技术

现有技术中最早提出的空间关键字查询问题，一共考虑了三种索引方式：基于空间优先的索引，基于文本优先的索引以及基于空间文本混合的索引。有研究提出了IR-tree(Inverted file R-tree)，DIR-tree和CDIR-tree三种紧密混合索引结构，其主要思想是利用R-树对空间进行索引，然后在树节点中加入子节点的文本信息，来实现尽早裁剪不合理分支的功能，从而提高查询效率。同时通过考虑节点中文档的文本相似度来进一步提高裁剪能力。因前面的工作均存在维护索引结构代价过大的问题，出现了一种S2I(SpatialInvertedIndex)索引结构，对于频繁出现的关键字，利用构建aR-tree(aggregated R-tree，aR-tree)来索引包含该单词的所有对象；对于非频繁出现的关键字，则将与其相关的所有对象存储在一个数据块(block)中。利用aR-tree和block两种数据结构，提出了针对单关键字查询和多关键字查询的高效查询算法。除此之外，还有一些关于空间关键字查询的变种，如模糊空间关键字查询，方向感知的空间关键字查询等。然而以上这些工作均集中在空间关键字查询的性能优化上，并没有考虑查询过程中对用户查询隐私的保护。对于已有的查询隐私保护工作，主要分为两类：一类是单纯基于查询中空间位置信息的隐私保护，这类工作大致可分为基于数据失真的方法，基于抑制发布的方法，基于数据加密的方法，以及基于私有信息检索技术的强隐私保护方法。还有一类是单纯基于查询中文本信息的隐私保护，主要包括基于查询模糊化的方法，通过为用户生成一些假查询提交到服务器来隐藏查询用户真实的意图。综上，可知已有的工作主要集中在设计空间查询或关键字查询的隐私保护上。并不能直接应用到top-k空间关键字查询的隐私保护问题上。如果简单地将两类保护方案结合，并不能有效地支持空间关键字的隐私保护问题。由于文本相似度和空间相似度同时影响到对查询空间的裁剪，因此需要有效的方式来处理top-k空间关键字查询的隐私保护问题。如何保证查询用户不泄露信息的情况下检索，现有技术包括两种情况：第一，当查询用户提交查询时，触发服务器将整个数据集发送到客户端，查询处理过程在客户端执行，从而保证服务器无法获知查询内容的任何信息。这种方式从信息论的意义上保证了用户查询的安全性，但是该方法因为沉重的通信代价是现阶段所不能接受的。第二，在客户端和服务器端均采用加密技术，使得服务器在转换空间中可以找到匹配客户端查询的值。然而该类技术无法避免的让服务器获知了匹配值，从而可以对查询用户的查询内容进行推测。此外，现有的同时针对查询位置以及查询关键字进行保护的工作是基于加密的方法。然而，即使对数据进行加密，仍然不能抵御攻击者的访问模式攻击，无法达到top-k空间关键字查询时的强隐私保护。

发明内容

本发明所要解决的技术问题是现有技术应用到top-k空间关键字查询时，无法对数据进行加密，目的在于提供一种空间关键字查询强隐私保护方法及系统，保证了top-k空间关键字查询的信息安全性，实现了空间关键字查询强隐私保护，并得到精确的查询结果，解决了上述技术问题。

本发明通过下述技术方案实现：

一种空间关键字查询强隐私保护方法，包括：服务器将POI数据集中的所有POI点根据文本相似度进行排序后，根据预设组数均匀地划分为多个组；上述服务器将每组上述POI点按照预设粒度划分为多个网格单元，并指出每个上述网格单元中任意位置的对象点下查询时，需检索包含对应一个或多个上述POI点的数据访问页面集合；客户端提出top-k空间关键字查询时，将查询点发送到上述服务器；上述服务器针对上述查询点返回给上述客户端多个对象集合，各上述对象集合包括任意一个上述网格单元的多个上述对象点；上述客户端调整各上述对象点与关键词查询点之间的空间相似度和文本相似度的权重，以计算得到各上述对象点与关键词查询点之间的总相似度；各上述对象集合中的多个上述对象点按照与上述查询点之间的上述总相似度大小依次排名；上述客户端根据各上述对象集合中的所有上述对象点的排名，连续从上述服务器查询对应一个或多个上述POI点的上述数据访问页面集合，且按照任意上述查询点检索的检索计划轮次数和每轮数据访问页面数相同，直到获取需要的所有检索结果。

上述服务器针对多个上述关键字的上述POI数据集分别构建独立数据库，每个上述独立数据库中的上述POI点对应于其中一个上述关键字；然后将多个上述独立数据库整合成一个空间文本数据库，并给其中每个上述数据访问页面分配一个全局标示符，上述服务器通过配置的安全协处理器提供PIR接口，以通过PIR协议得到上述全局标示符对应上述独立数据库的上述数据访问页面。

当给定上述关键字时，设定所有POI点的上述文本相似度的范围为：[,/>]；

其中，表示上述文本相似度的最小值；/>表示上述文本相似度的最大值；

根据预设组数均匀地划分为多个组后，计算每组相邻上述POI点的上述文本相似度之间的间隔表示为：(-/>)×2/n；

式中，n表示上述预设组数；

上述服务器将每组上述POI点按照预设粒度划分为多个网格单元后，所有上述POI点组成的区域左下角坐标表示为(，/>)，右上角坐标表示为(/>，/>)，计算相邻上述网格单元之间的任意两个上述POI点的上述空间相似度之间的间隔：；

式中，为上述预设粒度；/>表示上述空间文本数据库中任意两个上述POI点之间的最大距离；

令每组相邻上述POI点的上述文本相似度之间的间隔和相邻上述网格单元之间的任意两个上述POI点的上述空间相似度之间的间隔相等，得到：；

采用二分查找确定和/>的最佳取值。

各上述对象点定义为：(o.loc,o.term)；

其中，o.loc表示上述对象点o的经纬度坐标；o.term表示上述对象点o的文本描述，即多个带权关键字的集合；

每个上述网格单元表示为：<id，sim，pos>；

其中，id表示上述POI点的标示符；sim表示上述POI点与给定上述关键字的上述文本相似度；pos表示上述POI点的经纬度坐标，用于计算上述POI点与上述查询点的上述空间相似度；

上述空间相似度采用标准化欧氏距离的方式来定义：

φs(o.loc,q.location)=Dist(o.loc,q.location)÷MaxDist；

式中，q.location表示上述网格单元中的上述查询点位置；φs(o.loc,q.location)表示o.loc与q.location的空间相似度；Dist(o.loc,q.location)表示o.loc与q.location的欧氏距离；MaxDist表示上述空间文本数据库中任意两个上述POI点之间的最大距离；

各上述对象点与关键词查询点之间的上述总相似度通过以下公式来计算：

Φ(o,q)=×φs(o.loc,q.location)+(1-/>)×φt(o.term,q.keyword)；

式中，∈(0,1)，表示用于调整各上述对象点与上述查询点之间的上述空间相似度和上述文本相似度的权重的平衡参数；φs(o.loc,q.location)表示o.loc与q.location的上述空间相似度；φt(o.term,q.keyword)表示o.term与q.keyword的上述文本相关度；其中，q.keyword为上述查询点。

将每i+1（i=0,1,2...）个文本划分为一个上述网格单元，则同一个上述网格单元的上述文本相似度的范围表示为：；

式中，表示所有上述POI点的上述文本相似度的最大值；/>表示所有上述POI点的上述文本相似度的最小值；

上述网格单元的上述空间相似度范围表示如下：；

式中，表示所述网格单元；/>(1≤/>≤4)表示/>的四个顶点；/>(1≤/>≤4)表示所述查询点q所在样本网格单元的四个顶点；/>表示/>和/>之间的欧氏距离；

给定上述平衡参数后，计算各上述对象点与关键词查询点之间的上述总相似度：/>；

式中，表示上述空间相似度；/>表示上述文本相似度；

此时，各上述对象点与关键词查询点之间的上述总相似度的范围表示为：；

其中，表示上述文本相似度的最小值；/>表示上述空间相似度的最小值；/>表示上述文本相似度的最大值；/>表示上述空间相似度的最大值。

各上述对象点与关键词查询点之间的上述总相似度的范围，包括如下三种情况：

当各上述POI点的上述文本相似度的最大值小于上述空间相似度的最小值/>时，上述总相似度的范围为：[/>，/>]；

当各上述POI点的上述空间相似度的最大值小于上述文本相似度的最小值/>时，上述总相似度的范围为：[/>，/>]；

当各上述POI点的上述空间相似度的最小值≤上述文本相似度的最小值≤上述文本相似度的最大值/>≤上述空间相似度的最大值/>时，上述总相似度的范围为：[/>，/>]；

当检索到两个上述网格单元A,B的上述总相似度范围相重叠，且上述网格单元A的上述总相似度的最小值大于上述网格单元B的上述总相似度的最大值时，从中选择上述网格单元A进行检索；

当检索到两个上述网格单元A,B的上述总相似度范围不重叠，且上述网格单元A的上述空间相似度的最小值大于上述网格单元B的上述空间相似度的最大值，以及上述网格单元A的上述文本相似度的最小值大于上述网格单元B的上述文本相似度的最大值时；当网格单元B内各上述对象点与关键词查询点之间的上述总相似度，大于上述网格单元A内各上述对象点与关键词查询点之间的上述总相似度时，从中选择上述网格单元B进行检索。

当检索到三个及以上上述网格单元的上述总相似度范围部分重叠时，输入位于不同区间的多个上述平衡参数分别进行检索。

上述服务器执行如下安全查询处理协议：攻击者成功猜测出查询q_u′的概率Pr不能高于随机查询值，表示为：Pr(q_u′=q_u)≤1/2+ε(N)；

式中，ε(N)是相对于安全参数N的一个不可忽略的值；q_u表示所述客户端得到的所述随机查询值，其中u的取值范围为{0,1}。

上述服务器针对已检索的上述网格单元中的上述POI点，得到上述总相似度的最小值；如果未检索的上述网格单元的上述总相似度的最大值小于已检索的上述POI点中上述总相似度的最小值；此时，对于上述查询点所在样本网格单元的任意查询位置的查询，将上述样本网络单元的最大PIR检索次数作为上述POI点的检索计划轮次数。

一种空间关键字查询强隐私保护系统，包括：文本分组模块，用于供服务器将POI数据集中的所有POI点根据文本相似度进行排序后，根据预设组数均匀地划分为多个组；网格划分模块，用于供上述服务器将每组上述POI点按照预设粒度划分为多个网格单元，并指出每个上述网格单元中任意位置的对象点下查询时，需检索包含对应一个或多个上述POI点的数据访问页面集合；空间查询模块，用于供客户端提出top-k空间关键字查询时，将查询点发送到上述服务器；上述服务器针对上述查询点返回给上述客户端多个对象集合，各上述对象集合包括任意一个上述网格单元的多个上述对象点；相似分析模块，用于供上述客户端调整各上述对象点与关键词查询点之间的空间相似度和文本相似度的权重，以计算得到各上述对象点与关键词查询点之间的总相似度；各上述对象集合中的多个上述对象点按照与上述查询点之间的上述总相似度大小依次进行排名；数据访问模块，用于供上述客户端根据各上述对象集合中的所有上述对象点的排名，连续从上述服务器查询对应一个或多个上述POI点的上述数据访问页面集合，且按照任意上述查询点检索的检索计划轮次数和每轮数据访问页面数相同，直到获取需要的所有检索结果。

本发明与现有技术相比，具有如下的优点和有益效果：

本申请通过服务器将POI数据集中的所有POI点根据文本相似度进行排序，并根据预设组数均匀划分为多组，按照预设粒度将每组POI点进一步划分为多个网格单元，以此保证每个网格中的POI有相近的空间相似度；并得到各网格单元在任意位置的对象点下提交查询时，映射到需要检索的对应POI点的数据访问页面集合，实现了对POI数据集即空间文本数据库的空间文本联合划分；当客户端提出top-k空间关键字查询并发送到服务器后，服务器返回给客户端多个对象集合，从而利用不同对象集合的对象点映射到多个网格单元的对应位置，满足了从服务器中查询对象点结果；对象集合中的所有对象点按照与查询点之间的总相似度从大到小进行排名，在进行空间文本联合划分后，综合了空间相似度和文本相关度获得较高总得分的POI点的情况，使得攻击者无法获取用户的查询位置和文本，提高了查询数据的准确性，更加适应于top-k空间关键字的查询；客户端调整各对象点与查询点之间的空间相似度和文本相似度的权重，以计算得到各上述对象点与关键词查询点之间的总相似度，从而根据用户意向调整检索数据的分布进而得到更精确的查询结果；按照任意上述查询点检索的检索计划轮次数和每轮数据访问页面数相同连续查询数据访问页面，直到获取到最终检索结果，进一步防止攻击者将用户频繁查询的关键字与频繁访问的数据库相关联，从而导致的查询隐私泄露问题，加强了top-k空间关键字查询的信息隐私性。本发明结合了私有信息检索加密技术实现快速获取准确查询结果，降低了计算和通信代价，同时还保证了top-k空间关键字查询的信息安全性，实现了空间关键字查询强隐私保护；解决了现有技术应用到top-k空间关键字查询时，无法对数据进行加密的问题。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为本申请实施例1的空间关键字查询强隐私保护方法的流程图；

图2为本申请实施例1的数据组织的示意图；

图3为本申请实施例1的平衡参数对查询鲁棒性的影响的示例图；

图4为本申请实施例1的文本空间联合划分方法的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1~图4所示，本申请提供一种空间关键字查询强隐私保护方法，包括：服务器将POI数据集中的所有POI点根据文本相似度进行排序后，根据预设组数均匀地划分为多个组；上述服务器将每组上述POI点按照预设粒度划分为多个网格单元，并指出每个上述网格单元中任意位置的对象点下查询时，需检索包含对应一个或多个上述POI点的数据访问页面集合；客户端提出top-k空间关键字查询时，将查询点发送到上述服务器；上述服务器针对上述查询点返回给上述客户端多个对象集合，各上述对象集合包括任意一个上述网格单元的多个上述对象点；上述客户端调整各上述对象点与关键词查询点之间的空间相似度和文本相似度的权重，以计算得到各上述对象点与关键词查询点之间的总相似度；各上述对象集合中的多个上述对象点按照与上述查询点之间的上述总相似度大小依次排名；上述客户端根据各上述对象集合中的所有上述对象点的排名，连续从上述服务器查询对应一个或多个上述POI点的上述数据访问页面集合，且按照任意上述查询点检索的检索计划轮次数和每轮数据访问页面数相同，直到获取需要的所有检索结果。

当给定关键字w时，设定所有POI点的所述文本相似度的范围为：[,/>]；

其中，表示所述文本相似度的最小值；/>表示所述文本相似度的最大值；

根据预设组数均匀地划分为多个组后，计算每组相邻所述POI点的所述文本相似度之间的间隔表示为：(-/>)×2/n；

式中，n表示所述预设组数；

所述服务器将每组所述POI点按照预设粒度划分为多个网格单元后，所有所述POI点组成的区域左下角坐标表示为(，/>)，右上角坐标表示为(/>，/>)，计算相邻所述网格单元之间的任意两个所述POI点的所述空间相似度之间的间隔：；

式中，为所述预设粒度；/>表示所述空间文本数据库中任意两个所述POI点之间的最大距离；

令每组相邻所述POI点的所述文本相似度之间的间隔和相邻所述网格单元之间的任意两个所述POI点的所述空间相似度之间的间隔相等，得到：；

采用二分查找确定和/>的最佳取值。

各上述对象点定义为：(o.loc,o.term)；

每个上述网格单元表示为：<id，sim，pos>；

其中，id表示上述POI点的标示符；sim表示上述POI点与相应上述关键字w的上述文本相似度；pos表示上述POI点的经纬度坐标，用于计算上述POI点与上述查询点的上述空间相似度；

上述空间相似度采用标准化欧氏距离的方式来定义：

φs(o.loc,q.location)=Dist(o.loc,q.location)÷MaxDist；

Φ(o,q)=×φs(o.loc,q.location)+(1-/>)×φt(o.term,q.keyword)；

上述网格单元的上述空间相似度范围表示如下：；

式中，表示上述空间相似度；/>表示上述文本相似度；

当检索到三个及以上网格单元的上述总相似度范围部分重叠时，输入位于不同区间的多个上述平衡参数分别进行检索。

本申请为了进一步加强隐私保护目标，利用私有信息检索技术并设计相应的查询计划来保证数据访问的不可区分性。同时，设计合理的索引结构来降低计算代价和通信代价。

本申请的安全处理框架由客户端和服务器组成。服务器存储了空间文本数据库UniDB。空间文本数据库中的每个对象点o定义为二元组形式(o.loc,o.term)。客户端提出top-k空间关键字查询q(q.location, q.keyword,k,)发送到服务器端，服务器返回给客户端k个具有最高排名的对象集合。排名根据所有对象到查询点位置q.location的距离远近，以及与查询关键字q.keyword的文本相关性综合相似度得分从高到低排序。

其中，在空间文本数据库D的所有对象中，任意两个对象之间的最大距离为给定的，可以根据任意两个对象之间的最大间隔得到最大距离，从而参照所有对象中任意两个对象之间的最大距离和实际欧氏距离计算得到相似度距离。文本相关度φt(o.term,q.keyword)可以用现有语义分析的信息检索模型来计算，比如采用根据词向量计算得到关键词相似度的常规技术手段。

假设认为攻击者为半可信的服务器，服务器可能通过用户登录获得或推测得出用户身份，且其计算能力限制在多项式范围内。同时，服务器会正确执行页面访问协议，不会做任何恶意篡改的行为。但服务器希望可以推测出一些关于用户查询的额外的信息。

为了进一步实现查询内容不可区分的隐私目标，针对查询的给定空间文本数据库UniDB。对于空间文本数据库中任意两个top-k空间关键字查询q₀(x，y，w，k，)，q₁(x′，y′，w′，k′，/>′)，客户端随机选择一个查询q_u(u∈{0,1})并且同服务器执行安全查询处理协议，攻击者成功猜测出查询q_u′的概率不能高于一个随机值，即：Pr(q_u′=q_u)≤1/2+ε(N)；式中，ε(N)是相对于安全参数N的一个不可忽略的值；q_u表示所述客户端得到的随机查询值。

本申请实施例采用配置在LBS端的安全协处理器(SCOP)来执行PIR功能，SCOP提供了PIR接口允许客户端从服务器不经意的检索单个数据页面。SCOP支持防篡改功能，因此对于查询用户来说是可信的。每个数据页的检索均要通过PIR协议，因此哪个页面被检索对于攻击者来说是不经意的，攻击者唯一可以发觉的是当前查询从数据库中检索了多少数据页面。原始POI数据集Dataset(明文)以及由SCOP预计算得到的加密数据组织UniDB(索引结构以及数据集的密文)均存储在服务器端，供客户端连续通过SCOP从服务器端获取加密数据，直到得到真实的查询结果为止。获取数据的过程必须按照查询计划的规定确保的任意的查询检索相同轮数指定每轮检索相同页面数。其中，如果一个查询在不保护查询隐私的情况下，需要的页面数很少，可以增加虚假页面检索来达到查询计划中的规定，从而加强每个查询都是不可区分的。对任意的查询都执行相同的查询计划，那么任意查询从数据库中检索的数据页面数都是相同的，任意查询对于攻击者都是不可区分的。因此，针对top-k空间关键字查询创建PIR协议，结合私有信息检索技术和固定的查询计划的方法，可以确保服务器LBS无法推测出用户的查询位置和查询关键字，保证了top-k空间关键字查询中对查询内容的强隐私保护。

具体的，针对包含多个关键字的数据集，为每个关键词的数据集均构建一个独立的数据库DB₁，DB₂，…，DB_n。每个数据库中的POI对应于一个共有的关键字。当查询是与关键字w有关时，则只需要在与w相关的数据库中进行查找即可，关键字不相关的POI便可以直接被过滤掉，从而加强查询处理过程中对不相关数据的过滤。

如图2所示，将这些数据库整合成一个统一的数据组织UniDB，防止攻击者将频繁查询的关键字(背景知识)与用户频繁访问的数据库相关联从而导致查询隐私泄露，同时，为了保证查询可以通过PIR协议正确得到查询数据，我们给每个数据页面分配一个全局标示符。如图2所示，举例说明了UniDB的整合过程，原始数据集一共包含两个关键字keyword：bar和pub，针对每个关键字分别构建了DB₁和DB₂。整合过程即为对DB₁和DB₂的合并。可以看出，得到UniDB依然维持了原数据库的内部组织，原本针对各个数据库的标示符，由局部标示符A₁,A₂,B₁,B₂，在整合过程中相应的调整为全局标示符A₁,A₂,A₃,A₄,。为了使任意查询都能安全的获得检索数据，并不需要下载元数据，而是下载从关键字到数据库的映射文件并发送到客户端。每个网格单元表示为：<id，sim，pos>；其中，id表示POI点的标示符Ptr；sim表示POI点与相应关键字的文本相似度textual relevance；pos表示POI点的经纬度坐标coordinate，用于计算POI点的位置与当前查询点的位置的空间相似度SpatialSimilarity。

当前top-k空间关键字查询的主流技术集中在对数据集的两类划分上，一类是POI根据文本信息划分，另一类是POI根据空间信息划分。由于相同的POI点会分别出现在两个阶段划分中，这样，根据相似度由高到低交替检索两类划分中的POI，这样的划分策略适用于更偏向于文本相关度或空间相似度一方的情况，较少轮次获取POI数据访问页面就可以获得查询结果结束检索。应用任意一种信息划分方法时，平衡参数对查询鲁棒性的影响如图3所示，当平衡参数/>取任意值时，尤其当/>=0.5时，为了得到总相似度得分最高的对象集，则需要检索更多轮数的POI。如图3所示，当/>=1或/>=0时，只需要考虑文本相似度排序或空间相似度排序即可，在本例中只需要1次PIR数据页面检索即可(即，A₁或B₁)。然而当=0.5时，如图3所示，要想获得精确查询结果，根据不同的数据分布情况，可能需要检索2到8个数据页面。因此为了保证top-k空间关键字查询性能的鲁棒性，我们提出了对POI数据集进行空间文本联合划分(Spatial-textual Joint Partition)，从而综合空间相似度和文本相关度可以获得较高总得分的POI的情况。

空间文本联合划分方法的主要思想是将文本相似度和空间相似度接近的POI分成一组存放在相同的数据页。当用户提出任意平衡参数值的查询时，都可以直接定位到空间和文本相似度相近的POI所在页面，来帮助用户尽早的检索到查询结果。为了对POI进行分组，首先根据文本信息进行划分，然后根据空间信息进行划分。具体地，我们先将POI根据文本相似度降序排列，并均匀划分为n个组，这样每个相同划分中的POI有数值接近的文本相似度。假设给定关键字w，所有POI的文本相似度的范围是[,/>]，则每组中的POI文本相似度的最大相差：(/>-/>)//>，且每组的相似度大小区间为：[/>,/> + (/>-)//>]，[/> +(/>-/>)//>, /> + 2(/>-/>)//>]，...，[/>+(/>-1)(/>-)//>,/>]。

接着，我们对每组中的POI用粒度为m的网格来进一步划分，以此保证每个网格中的POI有相近的空间相似度。

图4所示为具体划分方式示例，可以看出POI先根据文本相似度划分为两组，分别表示文本相似度范围在(0.5，1]和(0，0.5]之间的POI，然后对每个组再根据网格划分。

在该划分方法中，有两个标准来决定文本划分组数n和网格划分粒度m的大小。(1)为了保证算法可以适用于平衡参数取0到1之间的任意值，相邻的分组和相邻的网格单元需要在总相似度得分上有相似的影响力。假设我们已经得知总得分最高的POI所在的分组n_i和网格单元g_m，那么候选结果可能存在于n_i的相邻分组或者g_m的相邻网格单元中。由于，获取的相邻网格单元在总相似度上的最大界值小于已获得网格的实际值，使每个网格在空间和文本上相似度的范围尽量接近，以避免由于已获得的网格上文本或空间相似度范围过大，导致获得最终检索结果后，仍需要继续获取大量相邻网格单元的情况。

假设文本相似度的最大值为，最小值为/>，相邻分组中两POI点的关键词文本相似度则会相差：(/>-/>)×2//>。

假设所有POI组成的区域左下角坐标为：(，/>)，右上角坐标为：(/>，)，则通过如下公式计算每组相邻网格单元的任意POI点之间的空间相似度：。

令相邻两组文本的文本相似度之间的间隔和相邻两个网格单元的空间相似度之间的间隔相等，使得每个网格单元之间在空间和文本上相似度的范围成正比，得到：。

因此，如果和/>的取值较大，则会造成存储空间的浪费；如果/>和/>的取值较小，则会影响查询性能，通过采用二分查找可以确定/>和/>的最佳取值。

为了保证查询的完全不可区分，无论查询关键字是什么，无论查询提交的位置在哪里，查询处理过程都需要遵循相同的查询计划，而确定检索中每轮查询的最大PIR页面检索数是查询计划生成的必要条件。虽然关键字是可以枚举的，但是空间位置却是无法枚举的。因而，通过采用给定任意关键字，检索位置相近的两个查询具有相似的查询结果，即需要检索大概一致的数据页面。可以先对空间进行划分，针对每个划分区域来确定最大PIR页面检索数。这样，针对所有划分区域共有的最大PIR页面访问数可以作为整个空间的查询计划，进而实现相同的每轮检索页面。

由于划分区域的粒度越细，每个区域需要检索的数据页面会越少，但相反会导致总的预计算代价越大。因此，本申请利用可调节的空间区域划分策略来平衡在线查询性能与离线预计算代价。本申请实施例中网格的预设粒度为，即通过/>×/>的网格来划分空间，并且指出每个网格单元中任意位置下提交查询需要检索的数据页面集合。如果用户更关注在线性能，则其可以指定较大的/>值，而如果用户更关注预计算代价，则指定较小的值。

查询位置所在的网格单元为样本网格单元，给定样本网格单元，位于所有文本分组中的网格单元作为PIR检索的一个单位。为了确定网格单元的检索顺序，计算出每个网格单元的总相似度范围。对于文本相似度，从第(+1)个文本划分给定一个网格单元，则文本相似度范围是：/>；

对于空间相似度，在网格单元中的任意POI到样本网格单元中任意位置的最大和最小距离，均可以由该网格单元与样本网格单元的四个顶点的距离来比较得出。这是网格单元和样本网格单元都是凸多边形的简单推论。

给定任意平衡参数，总相似度得分：/>。

因此，总相似度得分范围落在：。

给定每个网格单元的总相似度得分的范围，按照总得分的最大值降序排列作为检索数据页面的顺序。同时，如果一个网格单元的总得分的最大值低于k个已经检索的网格单元的总得分最小值，则可以停止检索。

可选地，按照提供的前k个对象集合相应给定k个网格单元，其总相似度范围为：[lr_p,hr_p](1≤p≤k)，假设有一个网格单元l的总相似度范围为：[lr,hr]。

如果hr<lrp(1≤p≤k)，则两个网格单元的范围不重叠，top-k空间关键字查询的结果将不会包含网络单元l中的POI。

如下所示为查询计划的生成算法：

Input: m，the patameter for grid file

Output: the maximum number of PIR access as the retrieval plan

Begin

1: R = 0

2: Partition the space intom×m grid cells uniformly

3: foreach keywordwdo

4: R_w = 0

5: for each grid cell c do

6: Sort the list ls of all grid cells w.r.t keyword w

7: Initialize Heap H

8: for i = 0 to |ls| - 1 do

9: R_w ++

10: foreach POI p ∈ ls[i] do

11: compute minimum overall similarity lr_p from the range[lr_p,hr_p]for p

12: H.push(<p,lr_p>)

13: end for

14: stop_flag = true

15: for j = i + 1 to |ls| - 1 do

16: < p,lr_p> = H.top()

17: compute overall similarity range [lr,hr] for grid cell ls[j]

18: if hr ≥ lr_p then

19: stop_flag = false

20: break

21: end if

22: end for

23: if stop_flag == true then

24: R = max{R,R_w}

25: break

26: end if

27: end for

28: end for

29: end for

30: Return R

算法第2行表示出，针对整个空间范围给出m×m的样本网格单元，保证可以覆盖任意查询位置)。算法第6行表示出，对于每个样本网格单元，依次计算所有其他网格单元与其总相似度得分并按从大到小排列作为检索顺序。算法第10-13行表示出，对于每个已经检索过的网格单元中的POI，可以得到其可能的总相似度得分的最小值以及保存前k个网格单元的总相似度的最小值。算法第14-26行中，如果剩余的网格单元的总相似度得分最大值小于已经检索的POI的总相似度的最小值，那么对于关键字w的样本网格单元中的任意查询位置，按照R_w次PIR页面检索得到查询结果，检索计划中的R_w为针对所有关键字和网格单元的最大PIR检索次数。

此外，针对查询计划提出了两个正交的优化策略，进一步解决由于网格单元相似度范围的重叠对查询性能的影响。

第一个优化策略为“方向过滤”，即利用总相似度得分计算中的带权“方向”来帮助过滤具有重叠的相似度范围的网格单元。具体的，网格单元l的总相似度得分范围定义为：；

各上述对象点与关键词查询点之间的上述总相似度的范围，包括如下三种情况，具体描述为三种类型的“方向”：

文本相似度->空间相似度（指向空间相似度），即文本相似度的最大值小于空间相似度的最小值/>，则总相似度范围为：[/>，/>]；

空间相似度->文本相似度（指向文本相似度），即空间相似度的最大值小于文本相似度的最小值/>，则总相似度范围为：[/>，/>]；

其他方向，即空间相似度的最小值≤文本相似度的最小值/>≤文本相似度的最大值/>≤空间相似度的最大值/>，则总相似度范围为：[，/>]。

每个网格单元都会遵循其中一种方向。如果不同的网格单元遵循的是前两种方向之一的，则可以根据以下的性质过滤掉一些不必要访问的网格单元。本示例中，两个网格单元A和B均为文本相似度->空间相似度，A的总相似度得分范围为[0.3，0.5]，与B的总相似度得分范围[0.1，0.35]发生重叠。在基本方法的查询执行过程中，需要检索这两个网格单元所在的数据页面，而实际上只检索网格单元A即可。因为在任意的取值下，A的总相似度得分肯定要大于B。因此，当网格的空间相似度属于前两种情况的时候，通过对不必要的数据进行过滤，达到访问效率优化的效果。如下表1所示为上述示例的方向过滤策略表。

【表1】方向过滤策略表

给定两个网格单元A和B，其空间相似度范围和文本相似度范围分别是{[A,/>A]，[/>A,/>A]}和{[/>B,/>B]，[/>B,B]}。如果/>B> />A，且/>B>/>A，则无论/>取[0，1]内的任何值，网格单元B内的POI总相似度得分一定大于A内的POI得分。

第二个优化策略是“平衡参数分段”，即进一步缩小网格单元的总体相似度范围来降低范围重叠的可能性。如有三个以上网格的总相似度范围均重叠时，不能筛选出其中一个网格单元的总相似度始终大于另外两个，因此第一个优化策略就不再适用了。在基本方法中，当用户提交top-1空间关键字查询的时候，这三个网格单元都需要进行访问判断。此时，可以对进行分段判断，如的取值分别{[0,0.33]}，{[0.33,0.66]}和{[0.66,1]}的时候进行检索，在一定程度上降低了网格访问数，利用对进行范围分段后再计算查询计划。可选地，根据位于不同区间的多个上述平衡参数分别检索得到的所有网格单元，可以通过合并或筛选其中相同的网格单元得到最终检索结果。

实施例2

本申请实施例基于实施例1中的空间关键字查询强隐私保护方法，提供一种空间关键字查询强隐私保护系统，包括：文本分组模块，用于供服务器将POI数据集中的所有POI点根据文本相似度进行排序后，根据预设组数均匀地划分为多个组；网格划分模块，用于供上述服务器将每组上述POI点按照预设粒度划分为多个网格单元，并指出每个上述网格单元中任意位置的对象点下查询时，需检索包含对应一个或多个上述POI点的数据访问页面集合；空间查询模块，用于供客户端提出top-k空间关键字查询时，将查询点发送到上述服务器；上述服务器针对上述查询点返回给上述客户端多个对象集合，各上述对象集合包括任意一个上述网格单元的多个上述对象点；相似分析模块，用于供上述客户端调整各上述对象点与关键词查询点之间的空间相似度和文本相似度的权重，以计算得到各上述对象点与关键词查询点之间的总相似度；各上述对象集合中的多个上述对象点按照与上述查询点之间的上述总相似度大小依次进行排名；数据访问模块，用于供上述客户端根据各上述对象集合中的所有上述对象点的排名，连续从上述服务器查询对应一个或多个上述POI点的上述数据访问页面集合，且按照任意上述查询点检索的检索计划轮次数和每轮数据访问页面数相同，直到获取需要的所有检索结果。

本申请与实施例1的原理相同，在此不做重复的描述。空间关键字查询强隐私保护系统还可更多或者更少的组件，各组件可以采用硬件、软件或其组合实现。

综上，本申请提供一种空间关键字查询强隐私保护方法及系统：

本申请通过服务器将POI数据集中的所有POI点根据文本相似度进行排序，并根据预设组数均匀划分为多组，按照预设粒度将每组POI点进一步划分为多个网格单元，以此保证每个网格中的POI有相近的空间相似度；并得到各网格单元在任意位置的对象点下提交查询时，映射到需要检索的对应POI点的数据访问页面集合，实现了对POI数据集的空间文本联合划分；当客户端提出top-k空间关键字查询并发送到服务器后，服务器返回给客户端多个对象集合，从而利用不同对象集合的对象点映射到多个网格单元的对应位置，满足了从服务器中查询对象点结果；对象集合中的所有对象点按照与查询点之间的总相似度从大到小进行排名，在进行空间文本联合划分后，综合了空间相似度和文本相关度获得较高总得分的POI点的情况，使得攻击者无法获取用户的查询位置和文本，提高了查询数据的准确性，更加适应于top-k空间关键字的查询；客户端调整各对象点与查询点之间的空间相似度和文本相似度的权重，以计算得到各上述对象点与关键词查询点之间的总相似度，从而根据用户意向调整检索数据的分布进而得到更精确的查询结果；按照任意上述查询点检索的检索计划轮次数和每轮数据访问页面数相同连续查询数据访问页面，直到获取到最终检索结果，进一步防止攻击者将用户频繁查询的关键字与频繁访问的数据库相关联，从而导致的查询隐私泄露问题，加强了top-k空间关键字查询的信息隐私性。本发明结合了私有信息检索加密技术实现快速获取准确查询结果，降低了计算和通信代价，同时还保证了top-k空间关键字查询的信息安全性，实现了空间关键字查询强隐私保护；解决了现有技术应用到top-k空间关键字查询时，无法对数据进行加密的问题。

总的来说，本申请实施例基于PIR协议进行top-k空间关键字查询，实现了在查询处理过程中对查询空间中不相关的数据进行过滤裁剪；尽可能的减少了相似度平衡参数值对查询性能的鲁棒性；使得可以由有限的查询样本通过预计算确定查询计划。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种空间关键字查询强隐私保护方法，其特征在于，包括：

服务器将POI数据集中的所有POI点根据文本相似度进行排序后，根据预设组数均匀地划分为多个组；

所述服务器将每组所述POI点按照预设粒度划分为多个网格单元，并指出每个所述网格单元中任意位置的对象点下查询时，需检索包含对应一个或多个所述POI点的数据访问页面集合，包括：将每+1（/>=0,1,2...）个文本划分为一个所述网格单元，则同一个所述网格单元的所述文本相似度的范围表示为：

；

式中，表示所有所述POI点的所述文本相似度的最大值；/>表示所有所述POI点的所述文本相似度的最小值；

所述网格单元的空间相似度范围表示如下：

；

式中，表示所述网格单元；/>(1≤/>≤4)表示/>的四个顶点；/>(1≤/>≤4)表示查询点q所在样本网格单元的四个顶点；/>表示/>和/>之间的欧氏距离；

给定平衡参数后，计算各所述对象点与关键词查询点之间的总相似度/>：

；

式中，表示所述空间相似度；/>表示所述文本相似度；

此时，各所述对象点与关键词查询点之间的所述总相似度的范围表示为：

；

其中，表示所述文本相似度的最小值；/>表示所述空间相似度的最小值；/>表示所述文本相似度的最大值；/>表示所述空间相似度的最大值；

各所述对象点与关键词查询点之间的所述总相似度的范围，包括如下三种情况：

当各所述POI点的所述文本相似度的最大值小于所述空间相似度的最小值时，所述总相似度的范围为：[/>，/>]；

当各所述POI点的所述空间相似度的最大值小于所述文本相似度的最小值时，所述总相似度的范围为：[/>，/>]；

当各所述POI点的所述空间相似度的最小值≤所述文本相似度的最小值≤所述文本相似度的最大值/>≤所述空间相似度的最大值/>时，所述总相似度的范围为：[/>，/>]；

当检索到两个所述网格单元A,B的所述总相似度范围相重叠，且所述网格单元A的所述总相似度的最小值大于所述网格单元B的所述总相似度的最大值时，从中选择所述网格单元A进行检索；

当检索到两个所述网格单元A,B的所述总相似度范围不重叠，且所述网格单元A的所述空间相似度的最小值大于所述网格单元B的所述空间相似度的最大值，以及所述网格单元A的所述文本相似度的最小值大于所述网格单元B的所述文本相似度的最大值时；当网格单元B内各所述对象点与关键词查询点之间的所述总相似度，大于所述网格单元A内各所述对象点与关键词查询点之间的所述总相似度时，从中选择所述网格单元B进行检索；

客户端提出top-k空间关键字查询时，将查询点发送到所述服务器；所述服务器针对所述查询点返回给所述客户端多个对象集合，各所述对象集合包括任意一个所述网格单元的多个所述对象点；

所述客户端调整各所述对象点与关键词查询点之间的空间相似度和文本相似度的权重，以计算得到各所述对象点与关键词查询点之间的总相似度；各所述对象集合中的多个所述对象点按照与所述查询点之间的所述总相似度大小依次排名；

所述客户端根据各所述对象集合中的所有所述对象点的排名，连续从所述服务器查询对应一个或多个所述POI点的所述数据访问页面集合，且按照任意所述查询点检索的检索计划轮次数和每轮数据访问页面数相同，直到获取需要的所有检索结果。

2.根据权利要求1所述的一种空间关键字查询强隐私保护方法，其特征在于，还包括：

所述服务器针对多个所述关键字的所述POI数据集分别构建独立数据库，每个所述独立数据库中的所述POI点对应于其中一个所述关键字；然后将多个所述独立数据库整合成一个空间文本数据库，并给其中每个所述数据访问页面分配一个全局标示符，所述服务器通过配置的安全协处理器提供PIR接口，以通过PIR协议得到所述全局标示符对应所述独立数据库的所述数据访问页面。

3.根据权利要求2所述的一种空间关键字查询强隐私保护方法，其特征在于，还包括：

当给定所述关键字时，设定所有POI点的所述文本相似度的范围为：[,/>]；

根据预设组数均匀地划分为多个组后，计算每组相邻所述POI点的所述文本相似度之间的间隔表示为：(-/>)´2/n；

式中，n表示所述预设组数；

所述服务器将每组所述POI点按照预设粒度划分为多个网格单元后，所有所述POI点组成的区域左下角坐标表示为(，/>)，右上角坐标表示为(/>，/>)，计算相邻所述网格单元之间的任意两个所述POI点的所述空间相似度之间的间隔：

；

令每组相邻所述POI点的所述文本相似度之间的间隔和相邻所述网格单元之间的任意两个所述POI点的所述空间相似度之间的间隔相等，得到：

；

采用二分查找确定和/>的最佳取值。

4.根据权利要求3所述的一种空间关键字查询强隐私保护方法，其特征在于，还包括：

各所述对象点定义为：(o.loc,o.term)；

其中，o.loc表示所述对象点o的经纬度坐标；o.term表示所述对象点o的文本描述，即多个带权关键字的集合；

每个所述网格单元表示为：<id，sim，pos>；

其中，id表示所述POI点的标示符；sim表示所述POI点与给定的所述关键字的所述文本相似度；pos表示所述POI点的经纬度坐标，用于计算所述POI点与所述查询点的所述空间相似度；

所述空间相似度采用标准化欧氏距离的方式来定义：

φs(o.loc,q.location)=Dist(o.loc,q.location)÷MaxDist；

式中，q.location表示所述网格单元中的所述查询点位置；φs(o.loc,q.location)表示o.loc与q.location的空间相似度；Dist(o.loc,q.location)表示o.loc与q.location的欧氏距离；MaxDist表示所述空间文本数据库中任意两个所述POI点之间的最大距离；

各所述对象点与关键词查询点之间的所述总相似度通过以下公式来计算：

Φ(o,q)=´φs(o.loc,q.location)+(1-/>)´φt(o.term,q.keyword)；

式中，Î(0,1)，表示用于调整各所述对象点与所述查询点之间的所述空间相似度和所述文本相似度的权重的平衡参数；φs(o.loc,q.location)表示o.loc与q.location的所述空间相似度；φt(o.term,q.keyword)表示o.term与q.keyword的所述文本相似度；其中，q.keyword为所述查询点。

5.根据权利要求4所述的一种空间关键字查询强隐私保护方法，其特征在于，还包括：

当检索到三个及以上所述网格单元的所述总相似度范围部分重叠时，输入位于不同区间的多个所述平衡参数分别进行检索。

6.根据权利要求1所述的一种空间关键字查询强隐私保护方法，其特征在于，还包括：

所述服务器执行如下安全查询处理协议：

攻击者成功猜测出查询q_u′的概率Pr不能高于随机查询值，表示为：

Pr(q_u′=q_u)≤1/2+ε(N)；

7.根据权利要求1所述的一种空间关键字查询强隐私保护方法，其特征在于，还包括：所述服务器针对已检索的所述网格单元中的所述POI点，得到所述总相似度的最小值；如果未检索的所述网格单元的所述总相似度的最大值小于已检索的所述POI点中所述总相似度的最小值；此时，对于所述查询点所在样本网格单元的任意查询位置的查询，将所述样本网格单元的最大PIR检索次数作为所述POI点的检索计划轮次数。

8.一种空间关键字查询强隐私保护系统，其特征在于，包括：

文本分组模块，用于供服务器将POI数据集中的所有POI点根据文本相似度进行排序后，根据预设组数均匀地划分为多个组；

网格划分模块，用于供所述服务器将每组所述POI点按照预设粒度划分为多个网格单元，并指出每个所述网格单元中任意位置的对象点下查询时，需检索包含对应一个或多个所述POI点的数据访问页面集合，包括：将每+1（/>=0,1,2...）个文本划分为一个所述网格单元，则同一个所述网格单元的所述文本相似度的范围表示为：

；

所述网格单元的空间相似度范围表示如下：

；

式中，表示所述网格单元；/>(1≤/>≤4)表示/>的四个顶点；/>(1≤/>≤4)表示查询点q所在样本网格单元的四个顶点；/>表示/>和/>之间的欧氏距离；4)表示查询点q所在样本网格单元的四个顶点；/>表示/>和/>之间的欧氏距离；

；

式中，表示所述空间相似度；/>表示所述文本相似度；

；

其中，表示所述文本相似度的最小值；/>表示所述空间相似度的最小值；/>表示所述文本相似度的最大值；/>表示所述空间相似度的最大值；各所述对象点与关键词查询点之间的所述总相似度的范围，包括如下三种情况：

当各所述POI点的所述空间相似度的最小值≤所述文本相似度的最小值≤所述文本相似度的最大值/>≤所述空间相似度的最大值/>时，所述总相似度的范围为：[/>，/>]；当检索到两个所述网格单元A,B的所述总相似度范围相重叠，且所述网格单元A的所述总相似度的最小值大于所述网格单元B的所述总相似度的最大值时，从中选择所述网格单元A进行检索；

当检索到两个所述网格单元A,B的所述总相似度范围不重叠，且所述网格单元A的所述空间相似度的最小值大于所述网格单元B的所述空间相似度的最大值，以及所述网格单元A的所述文本相似度的最小值大于所述网格单元B的所述文本相似度的最大值时；当网格单元B内各所述对象点与关键词查询点之间的所述总相似度，大于所述网格单元A内各所述对象点与关键词查询点之间的所述总相似度时，从中选择所述网格单元B进行检索；空间查询模块，用于供客户端提出top-k空间关键字查询时，将查询点发送到所述服务器；所述服务器针对所述查询点返回给所述客户端多个对象集合，各所述对象集合包括任意一个所述网格单元的多个所述对象点；

相似分析模块，用于供所述客户端调整各所述对象点与关键词查询点之间的空间相似度和文本相似度的权重，以计算得到各所述对象点与关键词查询点之间的总相似度；各所述对象集合中的多个所述对象点按照与所述查询点之间的所述总相似度大小依次进行排名；

数据访问模块，用于供所述客户端根据各所述对象集合中的所有所述对象点的排名，连续从所述服务器查询对应一个或多个所述POI点的所述数据访问页面集合，且按照任意所述查询点检索的检索计划轮次数和每轮数据访问页面数相同，直到获取需要的所有检索结果。