CN107292189B

CN107292189B - 面向文本检索服务的用户隐私保护方法

Info

Publication number: CN107292189B
Application number: CN201710341742.4A
Authority: CN
Inventors: 吴宗大; 郑城仁
Original assignee: Wenzhou University Oujiang College
Current assignee: Wenzhou University of Technology
Priority date: 2017-05-15
Filing date: 2017-05-15
Publication date: 2018-12-25
Anticipated expiration: 2037-05-15
Also published as: CN107292189A

Abstract

本发明公开了面向文本检索服务的用户隐私保护方法，属于文本检索隐私保护技术领域，该方法在用户进行文本检索服务时，能确保用户查询隐私和用户主题隐私在不可信服务器端的安全性。用户隐私保护过程如下：首先，给出面向文本检索服务的隐私保护框架；然后，基于以上隐私保护框架，定义一个面向文本检索服务的隐私保护模型，该隐私保护模型形式化地定义了理想伪查询应满足的条件约束；最后，基于以上隐私保护框架和隐私保护模型，给出隐私保护模型的模型求解算法。

Description

面向文本检索服务的用户隐私保护方法

技术领域

本发明涉及文本检索隐私保护技术领域，具体涉及面向文本检索服务的用户隐私保护方法。

背景技术

随着互联网的迅速发展，网络上的文本数据持续爆炸式地增长。文本检索服务能够根据用户所提供的查询关键词，帮助用户从海量文本数据中快速地获取想要的数据，已经成为最热门的网络服务之一。实际上，不再局限于网页文本搜索，文本检索已经被广泛地应用于网络信息服务的各个领域(如数字图书馆、电子商务网站、企业信息管理等)，并取得了巨大的成功。虽然文本检索服务能够帮助用户直观有效地获取非结构文本数据，然而，用户所提交的查询可能会潜在地泄露用户的用户隐私信息，从而引发用户隐私安全问题。

文本检索服务中，用户查询行为可能泄露的用户隐私可分为两类。

一是查询本身的关键词隐私，简称查询隐私，即用户希望别人无法获知自己发布过的查询，或者不能确定是否发布过该查询。例如，用户希望别人无法获知或不确定自己是否查询过关键词“沙漠之鹰”和“手枪”。

二是查询关键词蕴含的敏感主题，简称主题隐私，即用户希望别人无法获知自己感兴趣的主题，尤其是敏感主题。例如，用户不希望别人知道对敏感主题“武器”或“战争”感兴趣。

用户查询行为所携带的这些隐私信息被不可信的文本检索服务器端(即文本检索服务算法宿主)大量地收集，将会对用户隐私安全构成严重的威胁，引起用户极大的关注。如何有效地保护用户隐私安全(包括查询隐私和主题隐私)已成为文本检索服务亟待解决的重要问题。

发明内容

本发明是为了解决现有文本检索隐私保护存在的上述不足，提供一种面向文本检索服务的用户隐私保护方法，该方法在用户进行文本检索服务时，能确保用户查询隐私和用户主题隐私在不可信服务器端的安全性。

以上技术问题是通过下列技术方案解决的：

面向文本检索服务的用户隐私保护方法，所述用户隐私保护过程如下：

首先，给出面向文本检索服务的隐私保护框架；

然后，基于以上隐私保护框架，定义一个面向文本检索服务的隐私保护模型，该隐私保护模型形式化地定义了理想伪查询应满足的条件约束；

最后，基于以上隐私保护框架和隐私保护模型，给出隐私保护模型的模型求解算法。

作为优选，所述隐私保护框架由一个不可信服务器端和一组可信客户端组成，该隐私保护框架的数据处理过程如下：

客户端的“用户伪查询构造”部件用于分析用户查询q₀的分布特征，结合客户端的“历史查询序列”构造生成一系列伪查询：q₁，q₂，...，q_n；然后，将这些伪查询连同用户真实查询q₀按照随机的次序，逐个提交给服务器端的检索服务算法；

所述历史查询序列包括用户真实查询序列以及伪查询序列；

客户端的“服务结果再筛选”部件从服务器端检索服务算法所返回的中间查询结果集：中筛选出对应用户真实查询q₀的结果同时抛弃其它多余查询结果其中，对应查询q_i，然后，将最终结果返回给外部用户。

作为优选，所述客户端的“用户伪查询构造”部件为用户查询构造生成的伪查询应满足以下两个条件：

一是能有效地混淆用户真实查询，让伪查询与用户真实查询拥有相似的特征分布，具体包括用户当前查询的关键词特征分布、以及用户历史查询序列的关联性特征分布，以使得掌握着丰富背景知识的攻击者难以识别剔除伪查询，从而保护用户查询隐私；

二是能有效地掩盖用户查询背后蕴含的敏感主题，以保护用户主题隐私，让伪查询关联的主题应与用户敏感主题语义无关，以降低用户敏感主题在不可信服务器端的显著性。

作为优选，给出隐私保护模型下的文本检索服务的攻击模型，该攻击模型是为了防止不可信服务器从客户端提交的查询序列中识别出用户真实查询或者用户查询蕴含的敏感主题。

作为优选，为了保护用户的查询隐私，“用户伪查询构造”部件生成的伪查询必须与用户真查询拥有高度相似的分布特征，这种分布特征包括三个方面：用户查询序列的主题关联特征、用户当前查询的关键词分布特征和用户查询序列的关键词关联特征；

定义1，定义主题相关和查询主题；

让表示查询空间，让表示主题空间；给定任意查询和任意主题它们之间的相关性可表示为函数其中表示正实数；查询q背后所蕴含的查询主题由与q相关的主题组成，即：

其中，阀值θ₁用来移除主题空间中与查询q相关性较小的主题，表示查询q相关的查询主题；

在某一时间段内的用户查询常常会围绕若干个固定主题展开，即用户查询序列常常会表现出富有规律的主题关联性特征，这种主题关联性特征通常表现为：主题频度和主题连续，其中，主题频度是指当前查询主题在历史查询序列中的出现频度；主题连续是指当前查询的主题关于历史查询序列的连续性；以下分别给出它们的定义；

定义2，定义主题频度和主题频度向量；

任意查询主题关于查询序列的出现频度定义如下：

其中，

任意查询关于查询序列的主题频度向量定义如下：

其中，

定义3，定义主题连续和主题连续向量；

假设q_n为查询序列的末尾查询，则任意查询主题关于查询序列的主题连续性定义如下：

任意查询关于查询序列的主题连续向量定义如下：

其中，

定义4，定义词频度和词频度向量；

让表示关键词空间；任意关键词关于查询序列的出现频度定义如下：

其中，表示查询q包含的关键词集合；任意查询关于查询序列的词频度向量定义如下：

其中，

定义5，定义词特征和词特征向量；

给定任意关键词它的词特征函数可定义为它返回关键词t的某项特征值；任意查询的某一词特征向量定义如下：

F^p(q)＝(F^p(t₁)，F^p(t₂)，...，F^p(t_n))

其中，F^p(t_i)≤F^p(t_i+1)(i＝1，2，...，n-1)；

一个关键词可表现出多个特征，因此，可建立多个词特征函数，即一个查询可拥有多个关键词特征向量；

现在，基于定义2至定义5，可进一步定义查询之间的特征相似性；

定义6，定义查询特征相似性；

查询特征相似性可通过历史相似性和当前相似性进行度量；

历史相似性是指查询主题频度向量、查询主题连续向量和查询关键词频度向量，是用于度量查询关于历史序列的特征相似性；当前相似性是指查询词特征向量，用于度量查询之间的当前特征相似性；

假定为查询总共建立了n个特征分布向量，分别记作：给定任意查询q₁和q₂，记它们对应的历史查询序列分别为和则q₁和q₂之间的特征相似性可度量如下：

其中，dist表示欧拉距离，

基于定义6，可度量伪查询关于真查询的特征似真性，以确保伪查询对用户真查询的混淆效果，使得伪查询难以被攻击者根据特征排除，从而确保用户查询隐私安全性；然而，基于前文的分析知道：除了确保用户查询隐私安全之外，“用户伪查询构造”生成的伪查询还应该确保用户敏感主题的安全性，即不仅需要阻止攻击者获知用户查询本身，还要阻止攻击者获知用户查询背后蕴含的敏感主题；这里所谓敏感主题是指用户不希望暴露给攻击者的查询主题，通常由用户预先指定；用主题显著性来度量主题在查询序列中的暴露程度；

定义7，定义主题显著性；

任意主题关于查询序列的显著性定义如下：

其中，表示主题u关于查询序列的出现频度；任意主题关于查询序列集的显著性可定义为：

根据隐私保护框架和攻击模型，当攻击者无法识别出用户查询本身的时候，他只能通过分析客户端提交的历史查询序列进行猜测；所以，敏感主题在这些历史查询序列中的显著性越大，则攻击者猜测出敏感主题的可能性也就越大；为此，可用敏感主题显著性来度量用户的敏感主题隐私；至此，基于定义6的查询特征相似性和定义7的敏感主题显著性，可进一步形式化定义用户隐私安全性模型，以保护文本检索服务中的用户查询隐私和敏感主题隐私；

定义8，定义用户查询安全性；

给定一个用户查询序列和若干个伪查询序列其中，假设为用户敏感主题集合；如果伪查询序列与用户查询序列之间满足以下条件，则称：伪造查询序列集能有效地确保真实查询序列的(μ，ρ)-隐私安全性；

用户查询安全性；每个伪查询应与用户真查询关键词不重叠，且特征分布相似，即：

其中，0＜μ＜1，表示对应伪查询的用户查询；该条件保证了各个伪查询与用户真查询之间的特征相似性，使得攻击者难以找出用户真实查询，从而使得真实用户查询得到有效隐藏；

敏感主题安全性；伪查询应能够有效地降低敏感主题的显著性，即：

其中，0＜ρ＜1；该条件保证了各个用户敏感主题的显著性能被伪查询序列有效地降低，在无法排除伪查询的前提下，使得攻击者难以根据主题显著性分析，获取用户敏感主题；

以上8个定义构成了面向文本检索服务的隐私保护模型。

作为优选，主题相关性的定义1和词特征的定义5都还缺具体函数，而其它定义直接或间接地建立在这两个定义基础之上；因此，给出查询主题相关性函数和词特征函数是隐私保护模型求解的首要关键；

为了识别出用户查询q蕴含的查询主题，将使用概念标题来表示查询关键词，而使用概括性较好的目录表示查询主题；然后，通过使用维基百科的概念空间作为中间参考，将查询q从关键词空间映射到主题空间中的一组相关主题

让表示概念空间，由维基百科的所有概念实体组成；让Re(a，u)表示任意概念和任意主题之间的相关性，Re(q，a)表示查询q和概念a之间的相关性；利用概念空间作为中间参考，查询主题相关性函数可表示为以下公式：

让表示任意概念所有标题的集合；让表示查询q包含的关键词集合，概念a和查询q之间的相关性定义为a的标题出现在q中的数量：

让作为属于主题u的概念集合，即和的每一个概念根据维基百科的分类系统都可到达主题u；让depth(a，u)表示概念a根据维基百科分类系统到达主题u的最短路径长度，其值可提前确定；概念a和主题u间的相关性定义如下：

至此，确定了查询主题相关性函数，因此，也就确定了查询q蕴含的主题

然而，一个关键词可能与多个概念相关，而一个概念又可能与多个主题相关；所以，中的许多主题可能实际上与查询q并不实际相关；

若与查询q相关的任意概念a，即Re(q，a)≠0，以及与概念a相关的任意两个主题u₁和u₂，即

如果Re(q，u₁)＞Re(q，u₂)，那么相比于主题u₂，概念a在查询q中更可能用来描述主题u₁；

假设q的相关查询序列为如果u₁关于的出现频度大于u₂关于的出现频度，如果那么相比主题u₂，概念a在查询q中更可能用来描述主题u₁；

让表示与查询q相关概念集合，即对于每个概念确定a在查询q中最可能相关的唯一主题，从而将不想要的其它主题从中移除，以获取真正与查询相关的主题；

设F1、F2和F3为词特征函数；

关键词的特性包括特异性、同义性和多义性，参考定义5的词特征函数均可提前获取；

给定任意关键词其特异性值定义为从其对应的概念a(即a是以t命名的概念)到维基百科分类系统中根目录的最短路径的长度；

给定任意关键词其同义性值定义为1，如果其对应的概念a的标题数量不小于2；否则，其同义性值定义为0；

给定任意关键词其多义性值定义为1，如果它对应多个概念(即存在多个概念以t命名)；否则，定义为0。

本发明能够达到如下效果：

本发明在用户进行文本检索服务时，能确保用户查询隐私和用户主题隐私在不可信服务器端的安全性。

附图说明

图1为本发明的一种隐私保护框架示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步的说明。

实施例，面向文本检索服务的用户隐私保护方法，参见图1所示，本实施例的研究目标是针对文本检索服务，设计实现一种有效的用户隐私保护方法，要求：能在不改变现有文本检索服务平台架构、不改变文本检索服务算法、不改变文本检索服务准确性、不改变文本检索服务高效性的前提下，确保用户查询隐私和用户主题隐私在不可信服务器端的安全性。

首先，给出面向文本检索服务的隐私保护框架。它采用基于客户端的体系结构，为用户真实查询构造若干伪查询。然后，将真实查询混淆在伪查询中，逐个提交给服务器端的文本检索服务算法，使得不可信服务器难以获知用户真实查询。最后，客户端过滤掉伪查询所对应的结果，而仅将真实查询对应的结果返回给用户，从而确保用户能够最终得到准确的文本查询结果。

然后，基于以上隐私保护框架，引入一个面向文本检索服务的隐私保护模型，该隐私保护模型形式化地定义了理想伪查询应满足的条件约束。即与用户真实查询具有高度相似的特征分布，且能有效降低用户敏感主题在历史查询记录中的显著性。高度相似的特征分布使得攻击者难以从历史查询记录中分析识别出用户真查询，确保了用户查询隐私的安全性。降低敏感主题显著性使得攻击者难以通过分析历史查询记录获取用户敏感主题，确保了用户主题隐私的安全性。

最后，基于以上隐私保护框架和隐私保护模型，借助维基百科知识库，给出隐私保护模型的模型求解算法。它运行在可信客户端，能够有效地满足文本检索服务中的用户隐私保护需求，即能为用户查询构造生成一组满足隐私保护模型要求的伪查询。此外，还通过理论分析和实验评估，验证了隐私保护模型和求解算法的有效性。

图1结合一个具体实例，展示了本专利所采用的面向文本检索服务的用户隐私保护方法的隐私保护框架。从图1可看出，该隐私保护框架由一个不可信服务器端和一组可信客户端组成，其一般化数据处理过程可简要描述如下。

在图1中，查询0和结果0为用户真查询和真查询结果，其它均是伪查询和伪查询结果。

所述历史查询序列包括用户真实查询序列以及伪查询序列；

从图1可看出：

一是该架构能确保用户最终得到准确的查询结果，确保了查询服务的准确性。

二是不要求改变服务器端已有的文本检索服务算法，也不要求改变已有的检索服务平台，确保了查询服务的可用性。

三是用户查询的实际服务时间等于所有查询的最慢服务时间(假设服务器性能和客户端的网络带宽足够大)，即等于max_{i＝0，1，2，...，n}(time(q_i))(其中，time(q_i)表示查询q_i的服务时间)，因而基本不影响查询服务效率，确保了查询服务的高效性。

然而，从图1还可看出：“用户伪查询构造”部件生成的伪查询至关重要，它的质量是用户隐私保护的关键。随机生成的伪查询通常容易被掌握着丰富背景知识的攻击者识别出来，无法实现对用户隐私的有效保护。

主要原因有以下几个方面。

一是用户查询包含的关键词表现出富有规律的分布特征，例如，给定两个查询“X86SSE4”和“PumaCougar”，其中，第一个查询包含两个特异词(即非常用词)，而第二个查询包含两个同义词，这种富有规律的关键词特征分布使得攻击者基本确定两个查询不是随机生成，所以它们很有可能是用户真实查询。

二是用户当前查询与用户历史查询之间具有一定的关联性，这种关联性包括关键词特征关联性和主题特征关联性，例如，用户在一段时间内常常喜欢围绕若干个固定主题、或使用若干个常用关键词展开查询操作。攻击者可根据这种查询间的特征关联性，很容易就能识别出并剔除随机生成的伪查询。

三是伪查询本身也可能泄露用户隐私，例如，为了保护用户主题隐私，伪查询不能与用户敏感主题相关，即伪查询应能有效地降低用户敏感主题在不可信服务器端的显著性；否则，攻击者不用识别出伪查询也能获知用户主题隐私。

所述客户端的“用户伪查询构造”部件为用户查询构造生成的伪查询应满足以下几个条件：

能有效地混淆用户真实查询，让伪查询与用户真实查询拥有相似的特征分布，具体包括用户当前查询的关键词特征分布、以及用户历史查询序列的关联性特征分布，以使得掌握着丰富背景知识的攻击者难以识别剔除伪查询，从而保护用户查询隐私；

能有效地掩盖用户查询背后蕴含的敏感主题，以保护用户主题隐私，让伪查询关联的主题应与用户敏感主题语义无关，以降低用户敏感主题在不可信服务器端的显著性。

给出隐私保护模型下的文本检索服务的攻击模型，该攻击模型是为了防止不可信服务器从客户端提交的查询序列中识别出用户真实查询或者用户查询蕴含的敏感主题。

在本专利中，文本检索服务的服务器端(服务器端被认为是不可信的)，它是最大的潜在攻击者。假定攻击者获得了服务器端的控制权(即假定攻击者是攻破服务器端的黑客、或者服务器端的管理员)，所以，提出的用户隐私保护方法需要防止不可信服务器从客户端提交的查询序列中识别出用户真实查询或者用户查询蕴含的敏感主题。

从图1给出的隐私保护框架，可看出，攻击者能够获知客户端提交所有的查询序列(即历史查询序列)，包括用户提交的真实查询序列和用户隐私方法构造的伪查询序列。因此，攻击者不但可根据查询本身关键词的分布特征来推断识别出用户真实查询，还可根据历史查询序列的特征关联性来推断识别用户真实查询。此外，获取了服务器控制权的攻击者拥有着强大的能力，它不但掌握了完整的查询序列和文本检索服务的后台数据库，还负责执行文本检索服务算法。实际上，攻击者的能力还不止于此，他可能还知道了客户端用户隐私保护算法的存在，所以，他可能还获取了用户隐私保护算法的副本，然后将自己掌握的历史查询序列，输入到隐私保护算法，并观察算法输出结果，据此判断识别出用户真实查询序列。

下面给出面向文本检索服务的用户隐私保护方案。

首先，定义一个隐私保护模型，它形式化定义了为了有效保护查询隐私和主题隐私，理想的伪查询应满足的条件约束。

然后，基于维基百科知识库，讨论了隐私保护模型的具体实现方案，即讨论了如何基于维基百科知识库，识别出查询蕴含的主题，获取查询的分布特征，进而构造出与用户查询拥有高度一致的分布特征，且能有效掩盖用户敏感主题的伪查询，以满足隐私保护模型定义的隐私需求。

最后，给出了具体算法，并分析了算法的复杂度和安全性。

基于图1展示的隐私保护框架。

定义一个隐私保护模型。为了保护用户的查询隐私，“用户伪查询构造”部件生成的伪查询必须与用户真查询拥有高度相似的分布特征，这种分布特征包括三个方面：用户查询序列的主题关联特征、用户当前查询的关键词分布特征和用户查询序列的关键词关联特征。

表1描述了本专利将使用到的一些关键符号及其含义说明。

用户查询序列的主题关联特征。

表1符号及其含义

定义1，定义主题相关和查询主题；

让表示查询空间，让表示主题空间(由所有可能主题组成)。给定任意查询和任意主题它们之间的相关性可表示为函数其中表示正实数；查询q背后所蕴含的查询主题由与q相关的主题组成，即：

在后续实验中，将阀值θ₁设置为0。

定义1没有描述什么是主题，也没有给出具体的查询主题相关性函数，它们将在模型求解时给出。

在某一时间段内的用户查询常常会围绕若干个固定主题展开，即用户查询序列常常会表现出富有规律的主题关联性特征，这种主题关联性特征通常表现为：主题频度和主题连续，其中，主题频度是指当前查询主题在历史查询序列中的出现频度；主题连续是指当前查询的主题关于历史查询序列的连续性；以下分别给出它们的定义。

定义2，定义主题频度和主题频度向量；

任意查询主题关于查询序列的出现频度定义如下：

其中，

任意查询关于查询序列的主题频度向量定义如下：

其中，

定义3，定义主题连续和主题连续向量；

任意查询关于查询序列的主题连续向量定义如下：

其中，

接下来，需要分析查询关键词分布特征，即用户当前查询的关键词分布特征(如关键词的特异性和多义性)和用户历史查询序列的关键词关联特征(如用户在某一段时间内常常喜欢使用相似的查询关键词)。其中，关键词分布特征由查询包含的各个关键词本身的特征值所决定，而关键词关联特征可通过关键词在历史查询序列中出现的词频度和词频度向量进行度量。

定义4，定义词频度和词频度向量；

让表示关键词空间(由所有可能查询关键词组成)。任意关键词关于查询序列的出现频度定义如下：

其中，表示查询q包含的关键词集合。任意查询关于查询序列的词频度向量定义如下：

其中，

定义5，定义词特征和词特征向量；

给定任意关键词它的词特征函数可定义为它返回关键词t的某项特征值。任意查询的某一词特征向量定义如下：

F^p(q)＝(F^p(t₁)，F^p(t₂)，...，F^p(t_n))

其中，F^p(t_i)≤F^p(t_i+1)(i＝1，2，...，n-1)；

一个关键词可表现出多个特征(如既是特异词又是多义词)，因此，可建立多个词特征函数，即一个查询可拥有多个关键词特征向量。

现在，基于定义2至定义5，可进一步定义查询之间的特征相似性。

定义6，定义查询特征相似性；

查询特征相似性可通过历史相似性和当前相似性进行度量；

其中，dist表示欧拉距离，

基于定义6，可度量伪查询关于真查询的特征似真性，以确保伪查询对用户真查询的混淆效果，使得伪查询难以被攻击者根据特征排除，从而确保用户查询隐私安全性。然而，基于前文的分析知道：除了确保用户查询隐私安全之外，“用户伪查询构造”生成的伪查询还应该确保用户敏感主题的安全性，即不仅需要阻止攻击者获知用户查询本身，还要阻止攻击者获知用户查询背后蕴含的敏感主题。这里所谓敏感主题是指用户不希望暴露给攻击者的查询主题，通常由用户预先指定。用主题显著性来度量主题在查询序列中的暴露程度。

定义7，定义主题显著性；

任意主题关于查询序列的显著性定义如下：

其中，表示主题u关于查询序列的出现频度。任意主题关于查询序列集的显著性可定义为：

根据隐私保护框架和攻击模型，当攻击者无法识别出用户查询本身的时候，他只能通过分析客户端提交的历史查询序列进行猜测。所以，敏感主题在这些历史查询序列中的显著性越大(即暴露程度越高)，则攻击者猜测出敏感主题的可能性也就越大。为此，可用敏感主题显著性来度量用户的敏感主题隐私。至此，基于定义6(查询特征相似性)和定义7(敏感主题显著性)，可进一步形式化定义用户隐私安全性模型，以保护文本检索服务中的用户查询隐私和敏感主题隐私。

定义8，定义用户查询安全性；

给定一个用户查询序列和若干个伪查询序列(其中，)，假设为用户敏感主题集合。如果伪查询序列与用户查询序列之间满足以下条件，则称：伪造查询序列集能有效地确保真实查询序列的(μ，ρ)-隐私安全性。

用户查询安全性。每个伪查询应与用户真查询关键词不重叠，且特征分布相似(以提高伪产品的伪装性)，即：

其中，0＜μ＜1，表示对应伪查询的用户查询。该条件保证了各个伪查询与用户真查询之间的特征相似性，使得攻击者难以找出用户真实查询(即难以排除假冒查询)，从而使得真实用户查询得到有效隐藏。

敏感主题安全性。伪查询应能够有效地降低敏感主题的显著性(以提高敏感主题的安全性)，即：

其中，0＜ρ＜1。该条件保证了各个用户敏感主题的显著性能被伪查询序列有效地降低，在无法排除伪查询的前提下，使得攻击者难以根据主题显著性分析，获取用户敏感主题。

以上8个定义构成了面向文本检索服务的隐私保护模型，其中：主题相关性的定义1和词特征的定义5都还缺具体函数，而其它定义直接或间接地建立在这两个定义基础之上；因此，给出查询主题相关性函数和词特征函数是隐私保护模型求解的首要关键；

实现方法，利用维基百科来帮助模型求解。维基百科主要由概念、目录以及它们之间的各种链接组成。维基百科使用一篇文章来描述一个概念，其中，文章标题含有对应于概念的关键词。维基百科还含有一个基于链接的分类系统，其中，每个概念或目录(根目录除外)至少属于一个父目录。将利用维基百科作为参考知识库来帮助理解用户查询背后的主题，捕获查询关键词的分布特征，以生成高质量伪查询。需要指出的是，如果使用其它知识库替代维基百科，本章节提出的模型求解方法仍适用(或仅需简单修改)。在本章节的实现方法描述中，选择维基百科是因为维基百科免费且开放。实际上，对于不同的应用场景，通常需要选择不同知识库，如数字图书馆需要选择图书分类库、电商平台需要选择产品分类库等。

为了识别出用户查询q蕴含的查询主题，将使用概念标题来表示查询关键词(即组建关键词空间)，而使用概括性较好(即处于维基百科分类系统较高层)的目录表示查询主题(即组建主题空间，它们由系统预先设置，实验章节列出了实验选用的主题)。然后，通过使用维基百科的概念空间作为中间参考，将查询q从关键词空间映射到主题空间中的一组相关主题

让表示概念空间，由维基百科的所有概念实体组成。让Re(a，u)表示任意概念和任意主题之间的相关性，Re(q，a)表示查询q和概念a之间的相关性。利用概念空间作为中间参考，查询主题相关性函数(参考定义1)可表示为以下公式：

让表示任意概念所有标题的集合(由于同义等原因，一个概念可能有若干个标题)。让表示查询q包含的关键词集合，它可使用文献所提到的类似方法来将查询q映射为维基百科中的概念标题集合(即关键词集合)来高效地获得。概念a和查询q之间的相关性定义为a的标题出现在q中的数量：

让作为属于主题u的概念集合，即中的每一个概念根据维基百科的分类系统都可到达主题u。让depth(a，u)表示概念a根据维基百科分类系统到达主题u的最短路径长度，其值可提前确定。概念a和主题u间的相关性定义如下：

至此，确定了查询主题相关性函数，因此，也就确定了查询q蕴含的主题然而，一个关键词可能与多个概念相关，而一个概念又可能与多个主题相关。所以，中的许多主题可能实际上与查询q并不实际相关(即不是查询想表达的真实主题)。

例如，对于查询“CougarPuma”，关键词“Puma”对应十余种概念，因此，按照维基百科的分类系统，它将与许多的主题相关。然而，可观察到只有主题“Animals”真正与查询语义相关，其它主题与查询的相关性均较弱或无关。

以下，引入观察1和观察2来移除中的不相关主题。

算法1：识别用户查询主题

输入：①一个用户查询q；②用户历史查询序列

输出：用户查询相关主题即用户查询主题

观察1、与查询q相关的任意概念a(即Re(q，a)≠0)，以及与概念a相关的任意两个主题u₁和u₂(即)，如果Re(q，u₁)＞Re(q，u₂)，那么相比于主题u₂，概念a在查询q中更可能用来描述主题u₁。

合理性分析：根据Re(q，u₁)＞Re(q，u₂)，可知相比u₂，u₁与查询q的相关性更大；即相比主题u₂，主题u₁更有可能是查询想表达的主题。为此，同样更有可能地，查询想用对应于概念a的关键词来描述主题u₁。

观察2、与查询q相关的任意概念a(即Re(q，a)≠0)，以及与概念a相关的任意两个主题u₁和u₂(即)，假设q的相关查询序列为如果u₁关于的出现频度大于u₂关于的出现频度，即那么相比主题u₂，概念a在查询q中更可能用来描述主题u₁。

合理性分析：根据可知相比u₂，u₁在查询序列中出现的频度更高；因为查询主题具有连续性，可知相比主题u₂，主题u₁更有可能是查询想表达的主题。所以，查询更可能想用对应概念a的关键词来描述主题u₁。

让表示与查询q相关概念集合，即根据观察1和观察2，对于每个概念确定a在查询q中最可能相关的唯一主题，从而将不想要的其它主题从中移除，以获取真正与查询相关的主题。算法1描述了该过程。算法1的时间开销主要取决于过程：查询q映射到关键词空间中的关键词集因此算法时间复杂度等于此外，算法1第4行对Re(q，u)和进行了线性融合，其中，α₁和α₂为平衡参数(在实验中，被简单地设置为0.5)。

4.2.2构造伪查询

用户查询包含的关键词通常会表现出富有规律的分布特征，从而使它容易被识别出来。因此，在维基百科知识库的帮助下，如何捕获查询关键词的各类特征值，进而获取查询的关键词分布特征。然后，基于关键词空间搜索出符合定义8隐私保护模型约束要求的伪查询，即它们与用户真查询拥有高度一致的特征相似性(包括当前查询本身的关键词特征相似性和历史查询序列的关联特征相似性)，并且能有效地降低敏感主题的显著性。

在本专利中，主要考虑三类主要的关键词特征，即特异性、同义性和多义性，通过应用维基百科知识，它们的特征函数(参考定义5)均可提前获取。

给定任意关键词其特异性值定义为从其对应的概念a(即a是以t命名的概念)到维基百科分类系统中根目录的最短路径的长度。

给定任意关键词其同义性值定义为1，如果其对应的概念a的标题数量不小于2；否则，其同义性值定义为0。

在将特征函数和放入定义5中，可获得查询q的一组特征分布向量，即和从定义6，可看出：(1)在获取了当前查询q的关键词特征向量和后，可计算出查询之间的当前特征相似性；(2)在获取了当前查询q背后蕴含的主题集后，就获取了当前查询q关于历史查询序列的关联特征向量和从而可计算出查询之间的历史特征相似性。至此，可计算出任何两个查询之间的综合特征相似性。现在，的目标是从关键词空间中高效地搜索伪关键词，使得根据这些伪关键词构建的伪查询与用户查询q具有较高的特征相似性。

算法2描述了该过程。

算法2：构造伪查询集

输入：①用户查询q₀；②敏感主题③用户查询序列④伪查询序列

输出：若干个伪查询

在算法2的步骤5和步骤6中，为伪查询q_k挑选一个伪主题u_k，它与用户真主题u₀拥有类似的特征相似性，具体包括主题频度特征相似性和主题连续特征相似性为了改善该过程的计算效率，预先建立了两个主题列表：(1)列表1中的各个主题元素按照主题编号进行排序，并且各个列表元素的值指示相应主题在用户历史查询序列中的出现频度(即等于)，这样给定任意用户主题u₀，可快速确定它的出现频度；(2)列表2中的各个主题元素按照相应主题在伪查询序列中的出现频度进行排序，这样给定任意频度值可快速找出拥有相似频度值的其它主题，然后，检查这些主题关于历史查询序列的连续性，从而快速确定一个伪主题u_k。

在算法2的步骤8和步骤9中，为伪查询q_k挑选一个伪关键词t_k。关键词挑选主要考虑了关键词频度特征相似性和关键词本身特征相似性类似于伪主题挑选操作，为了改善计算效率，预先建立了两个关键词列表：(1)列表1中的各个关键词按照编号排序，元素值指示相应关键词在用户历史查询序列中中的出现频度，这样给定任意用户关键词t₀，可快速确定其出现频度；(2)列表2中的各个元素按照相应关键词在伪查询序列中的出现频度进行排序，这样给定任意频度值可根据伪查询序列快速找出拥有相似频度值的其它关键词，然后，检查这些关键词的其它特征值(和)，从而快速确定一个伪关键词t_k。此外，还可看出，算法2的输出是不确定的(即对于同样输入，不同的运行会得到不同的结果)，因为步骤6和步骤9进行了随机操作，这是为了更好的保证安全性(具体见小节4.3的安全性分析)。基于以上的讨论和分析，可看出：算法2的计算时间开销主要取决于伪主题挑选操作和伪关键词挑选操作。也就是说，算法2的计算时间复杂度等于

有效性分析：实施例分析方法的安全性。假定服务器端的攻击者已经掌握了维基百科知识库，了解方法的具体流程，也获取了部署在客户端的用户隐私保护算法副本，他能否根据掌握的查询历史序列(包括用户真实查询序列和伪查询序列)猜测出用户真实查询(即查询隐私)或用户敏感主题(即主题隐私)呢？以下，分为三种情况考虑。

查询隐私安全性分析：根据服务器端收集的历史查询记录，结合背景知识，攻击者能否识别出用户真实查询呢？从图1可看出，虽然每次查询过程中用户查询被混淆在一系列伪查询中，并以随机的次序提交给服务器端，但借助于聚类方法，攻击者能够将服务器收集的查询记录，划分为若干个查询序列(即)。那攻击者能否进一步区分出哪个是用户真实查询序列呢？这时，攻击者只能根据先验知识：用户真实查询的通常表现出富有规律的关键词特征和主题关联特征，来猜测哪个是真实查询序列然而，由于方法产生的伪造查询序列与真实查询序列具有基本一致的关键词分布特征和主题关联分布特征(相似度大于μ)，使得攻击者难以据此分析出用户真实查询序列进而获知用户真实查询。

查询隐私安全性分析：攻击者获取运行在客户端的用户隐私保护算法副本后，能否猜测出用户真实查询呢？首先，攻击者可将历史查询记录划分为若干个查询序列从而得到一系列的查询组，每个查询组可表示为(其中，)。然后，攻击者逐个输入查询组中的查询并观测隐私保护算法能否输出其余查询(即)。如果成功，则表明是用户真实查询。然而，这样的尝试并不会成功，因为在方法中，各个伪查询的主题和关键是从一个较大集合中随机选取的(见算法2的步骤6和步骤9)，使得相同的输入，会导致不同的输出。

主题隐私安全性分析：在没有从查询记录中找出用户真实查询的前提下，攻击者能否直接猜测出用户敏感查询主题呢？由于攻击者不知道服务器端收集的查询记录里哪些才是用户真实查询，因此也就无法直接获知用户真实查询主题。此时，攻击者只能首先获取查询记录相关的所有主题，然后，逐个去猜测这些主题哪个是用户敏感主题。由于用户敏感主题在查询记录中的显著性已经明显降低(降到原来的1/ρ)，所以被猜测出来的可能性变得极小。所以，攻击者如果不找出用户真实查询，就难以猜测出用户敏感主题。

表2隐私方法有效性比较(混淆法以最近方法为代表)

技术方法	查询隐私	主题隐私	准确性	可用性	高效性
						方法	好	好	好	好	好
假名法	不好	不好	好	不好	好
						加密法	好	好	好	不好	好
混淆法	不好	好	好	好	好

综上所述，虽然攻击者掌握着丰富的背景知识(即掌握了完整的历史查询记录，获知用户查询序列的特征分布规律，并获取了客户端用户隐私保护算法的副本)，但还是难以根据服务端所记录的历史查询中，分析出用户查询隐私或主题隐私，因而的方法具有较好的隐私安全性。此外，表2给出了方法与已有方法(包括假名法、加密法和混淆法)的有效性比较结果，其中：(1)安全性好，当且仅当查询隐私和主题隐私安全均得到很好地保证；(2)准确性好，当且仅当隐私机制引入前后，用户最终得到的查询结果不变；(3)可用性好，当且仅当隐私方法对用户和服务算法均透明；(4)高效性好，当且仅当隐私机制引入前后，性能基本不变。从表2可看出：在隐私安全性、准确性、可用性和高效性上，方法相比于已有方法，拥有更好的综合性能。

总结，本专利提出一个针对文本检索服务的用户隐私保护方法，通过为用户真实查询构造特征相似但主题无关的伪查询，以保护文本检索服务中的查询隐私和主题隐私。方法使用基于客户端的系统框架，它不需改变已有的服务平台架构和检索服务算法，也会改变检索服务结果的准确性。此外，理论分析和实验评估验证方法的有效性：一、它能产生高质量的伪查询，不仅与真实查询具有高度相似的特征分布(包括用户查询的当前特征和查询序列的历史特征)，从而保护了查询隐私的安全性，而且能有效地降低用户查询主题的显著性，从而保护了主题隐私的安全性；二、它不会引起严重的性能花销，包括运行时间花销和运行内存花销。因此，方法能有效地保护文本检索服务中用户隐私安全。

Claims

1.面向文本检索服务的用户隐私保护方法，其特征在于，所述用户隐私保护过程如下：

首先，给出面向文本检索服务的隐私保护框架；

最后，基于以上隐私保护框架和隐私保护模型，给出隐私保护模型的模型求解算法；

所述隐私保护框架由一个不可信服务器端和一组可信客户端组成，该隐私保护框架的数据处理过程如下：

所述历史查询序列包括用户真实查询序列以及伪查询序列；

客户端的“服务结果再筛选”部件从服务器端检索服务算法所返回的中间查询结果集：中筛选出对应用户真实查询q₀的结果同时抛弃其它多余查询结果其中，对应查询q_i，然后，将最终结果返回给外部用户；

所述客户端的“用户伪查询构造”部件为用户查询构造生成的伪查询应满足以下两个条件：

二是能有效地掩盖用户查询背后蕴含的敏感主题，以保护用户主题隐私，让伪查询关联的主题应与用户敏感主题语义无关，以降低用户敏感主题在不可信服务器端的显著性；

给出隐私保护模型下的文本检索服务的攻击模型，该攻击模型是为了防止不可信服务器从客户端提交的查询序列中识别出用户真实查询或者用户查询蕴含的敏感主题；

为了保护用户的查询隐私，“用户伪查询构造”部件生成的伪查询必须与用户真查询拥有高度相似的分布特征，这种分布特征包括三个方面：用户查询序列的主题关联特征、用户当前查询的关键词分布特征和用户查询序列的关键词关联特征；

定义1，定义主题相关和查询主题；

让Q表示查询空间，让表示主题空间；给定任意查询q∈Q和任意主题u∈U，它们之间的相关性可表示为函数Re(q，u)：Q×U→R⁺，其中R⁺表示正实数；查询q背后所蕴含的查询主题由与q相关的主题组成，即：

在某一时间段内的用户查询会围绕若干个固定主题展开，即用户查询序列会表现出富有规律的主题关联性特征，这种主题关联性特征表现为：主题频度和主题连续，其中，主题频度是指当前查询主题在历史查询序列中的出现频度；主题连续是指当前查询的主题关于历史查询序列的连续性；以下分别给出它们的定义；

定义2，定义主题频度和主题频度向量；

任意查询主题u∈U关于查询序列的出现频度定义如下：

其中，

任意查询q∈Q关于查询序列的主题频度向量定义如下：

其中，

定义3，定义主题连续和主题连续向量；

假设q_n为查询序列的末尾查询，则任意查询主题u∈U关于查询序列的主题连续性定义如下：

任意查询q∈Q关于查询序列的主题连续向量定义如下：

其中，

定义4，定义词频度和词频度向量；

让T表示关键词空间；任意关键词t∈T关于查询序列的出现频度定义如下：

其中，表示查询q包含的关键词集合；任意查询q∈Q关于查询序列的词频度向量定义如下：

其中，

定义5，定义词特征和词特征向量；

给定任意关键词t∈T，它的词特征函数可定义为F^p(t)：T→R⁺，它返回关键词t的某项特征值；任意查询q∈Q的某一词特征向量定义如下：

F^p(q)＝(F^p(t₁)，F^p(t₂)，...，F^p(t_n))

其中，F^p(t_i)≤F^p(t_i+1)；

定义6，定义查询特征相似性；

查询特征相似性可通过历史相似性和当前相似性进行度量；

假定为查询q∈Q总共建立了n个特征分布向量，分别记作：给定任意查询q₁和q₂，记它们对应的历史查询序列分别为和则q₁和q₂之间的特征相似性可度量如下：

其中，dist表示欧拉距离，0≤a_i＜1，0≤b_i＜1，

基于定义6，可度量伪查询关于真查询的特征似真性，以确保伪查询对用户真查询的混淆效果，使得伪查询难以被攻击者根据特征排除，从而确保用户查询隐私安全性；然而，基于前文的分析知道：除了确保用户查询隐私安全之外，“用户伪查询构造”生成的伪查询还应该确保用户敏感主题的安全性，即不仅需要阻止攻击者获知用户查询本身，还要阻止攻击者获知用户查询背后蕴含的敏感主题；这里所谓敏感主题是指用户不希望暴露给攻击者的查询主题，由用户预先指定；用主题显著性来度量主题在查询序列中的暴露程度；

定义7，定义敏感主题显著性；

任意主题u∈U关于查询序列的显著性定义如下：

其中，表示主题u关于查询序列的出现频度；任意主题u∈U关于查询序列集的显著性可定义为：

定义8，定义用户查询安全性；

用户查询安全性；每个伪查询应与用户真查询关键词不重叠，且特征分布相似，

即：

以上8个定义构成了面向文本检索服务的隐私保护模型。

2.根据权利要求1所述面向文本检索服务的用户隐私保护方法，其特征在于，主题相关性的定义1和词特征的定义5都还缺具体函数，而其它定义直接或间接地建立在这两个定义基础之上；因此，给出查询主题相关性函数和词特征函数是隐私保护模型求解的首要关键；

为了识别出用户查询q蕴含的查询主题，将使用概念标题来表示查询关键词，而使用概括性较好的目录表示查询主题；然后，通过使用维基百科的概念空间作为中间参考，将查询q从关键词空间映射到主题空间U中的一组相关主题

让A表示概念空间，由维基百科的所有概念实体组成；让Re(a，u)表示任意概念a∈A和任意主题u∈U之间的相关性，Re(q，a)表示查询q和概念a之间的相关性；利用概念空间A作为中间参考，查询主题相关性函数可表示为以下公式：

让表示任意概念a∈A所有标题的集合；让表示查询q包含的关键词集合，概念a和查询q之间的相关性定义为a的标题出现在q中的数量：

让作为属于主题u的概念集合，即中的每一个概念根据维基百科的分类系统都可到达主题u；让depth(a，u)表示概念a根据维基百科分类系统到达主题u的最短路径长度，其值可提前确定；概念a和主题u间的相关性定义如下：

如果Re(q，u₁)＞Re(q，u₂)，那么相比于主题u₂，概念a在查询q中用来描述主题u₁；

假设q的相关查询序列为如果u₁关于的出现频度大于u₂关于的出现频度，如果那么相比主题u₂，概念a在查询q中用来描述主题u₁；

设F1、F2和F3为词特征函数；

给定任意关键词t∈T，其特异性值定义为从其对应的概念a到维基百科分类系统中根目录的最短路径的长度；

给定任意关键词t∈T，如果其对应的概念a的标题数量不小于2，其同义性值定义为1；否则，其同义性值定义为0；

给定任意关键词t∈T，如果它对应多个概念，其多义性值定义为1；否则，定义为0。