CN102163230B

CN102163230B - 实现定制隐私保护的个性化信息检索系统的方法

Info

Publication number: CN102163230B
Application number: CN 201110092557
Authority: CN
Inventors: 陈珂; 寿黎但; 陈刚; 胡天磊; 柏壑
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-04-13
Filing date: 2011-04-13
Publication date: 2013-01-09
Anticipated expiration: 2031-04-13
Also published as: CN102163230A

Abstract

本发明公开了一种实现定制隐私保护的个性化信息检索系统的方法。通过分析基于用户模型的个性化信息检索系统的系统架构，利用多粒度语义泛化模型，在现有的个性化信息检索系统基础上提供完备的隐私保护解决方案。本发明定义了用户模型的表现形式、攻击者背景知识和攻击方式以及隐私保护目标，进而提出一个适用于支持隐私保护的个性化信息检索系统的通用框架。本发明在个性化信息检索系统中引入隐私保护的方法，充分利用不同用户对于隐私保护的特殊需求，保证隐私保护结果与用户隐私需求相匹配；而且通过开发查询质量指标和隐私风险指标，分析特定检索特性，权衡检索质量和隐私保护。

Description

实现定制隐私保护的个性化信息检索系统的方法

技术领域

本发明涉及个性化信息检索系统、敏感数据隐藏与隐私保护方法，特别是涉及一种实现定制隐私保护的个性化信息检索系统的方法。

背景技术

信息检索技术和隐私保护技术是计算机领域中研究最为长远、应用最为广泛的两个技术。一直以来，这两项技术在发展过程中彼此基本相互独立。信息检索技术及以此为基础的个性化信息检索，用于各类海量数据的维护与查询，主要研究数据特征提取、索引维护、查询结果排序与评价方法。隐私保护技术主要应用于数据采集与发布领域，研究开放环境下对个体敏感数据的隐藏模型和代价评估方法。

随着互联网技术的发展和Web资源的日渐丰富，特别是强调“以人为本”的Web2.0网络概念的兴起，越来越多的互联网信息检索应用通过分析用户行为、学习用户偏好以优化检索机制，提供个性化信息检索服务。然而，由于在此过程中，系统需要搜集和分析大量的用户个人信息，任何对此类信息的不当使用和发布都会导致严重的隐私泄露。该问题已经成为个性化信息检索系统被广泛应用的最大障碍。因此，业界迫切需要一个完善的信息检索解决方案，在提供高效、符合用户需要的检索结果的同时，保障用户的个人信息不被侵犯和滥用。但由于信息检索系统中隐私保护相关研究刚刚起步，目前尚未产生一个成熟完备的支持隐私保护的个性化信息检索方案。

目前如Google、Yahoo等成熟的信息检索服务供应商对于其个性化产品的隐私保护，主要采用安全访问协议，保护数据不被攻击者截获。但这种方法只能保护数据传输信道的安全，不能防止服务器终端对用户隐私的侵犯。而在研究领域，目前成果主要采用在发送用户请求前，在客户端对于用户信息进行泛化处理，来限制服务提供商对于用户准确信息的掌握，同时保证服务质量。一方面这一方法没有充分利用不同用户对于隐私保护的特殊需求，隐私保护方法不能与用户隐私需求相匹配；另一方面该方法缺乏对不同检索请求特性的分析，难以在检索质量和隐私保护之间进行有效的权衡。

由于信息检索系统与隐私保护系统在各自的领域都已经经历长久的发展，积累了众多成熟的技术。因此要实现支持隐私保护的个性化信息检索系统，应该在当前成熟的个性化信息检索解决方案中，最大限度地引入在数据采集与发布领域中丰富的隐私保护技术。此外，系统应根据用户的隐私需求和检索请求的特性，支持隐私保护方法的可定制，在检索质量和隐私保护之间进行有效的权衡。

发明内容

为了克服背景技术中现有方法没有充分利用不同用户对于隐私保护的特殊需求，隐私保护方法不能与用户隐私需求相匹配；而且缺乏对不同检索请求特性的分析，造成难以在检索质量和隐私保护之间进行有效的权衡问题。本发明的目的在于提供一种实现定制隐私保护的个性化信息检索系统的方法。

本发明解决其技术问题采用的技术方案是，该方法的步骤如下：

步骤1）设计定制隐私保护的个性化信息检索系统的系统架构，并根据该系统架构选择相应的隐私保护模型；

步骤2）实现步骤1）中隐私保护模型所需的多级语义粒度的用户模型，用于描述用户偏好，并在用户模型基础上定制用户隐私，分析攻击者模型和定义隐私保护目标；

步骤3）开发支持隐私保护的个性化信息检索系统的通用框架，根据用户的隐私需求，使用数据泛化技术对用户模型进行定制泛化；

步骤4）基于用户模型开发分别用于预测量化当前用户模型用于个性化检索的查询质量指标和隐私风险指标，将该两个指标融合为综合性能指标；同时开发用于预测量化特定检索歧义程度的指标，以实现用户模型泛化的自适应调节；

步骤5）开发用户模型泛化方法，针对特定信息检索请求的特性，依据步骤4）开发的三个指标，生成泛化用户模型，并使用该泛化用户模型进行个性化信息检索。

所述步骤1）中设计的系统架构，用于分析该系统所使用的应用场景；在该应用场景中，用户不信任除自己之外的任何实体，因此隐私保护机制需要作为一个信息检索代理在客户端引入；该代理对用户模型在本地进行语义泛化后，才将其分享给服务器用于个性化信息检索；因此，该系统架构的设计方法如下：

a）每当用户提交一个信息检索请求，代理根据用户定制的隐私需求和该检索请求的内容特性，将完整的用户模型泛化成相应的实例；

b）检索代理将用户提交的信息检索请求和相应的用户模型泛化实例，一并发送给服务器，用于个性化信息检索；

c）服务器根据查询代理分享的用户模型泛化实例，对信息检索请求的结果进行个性化重排，并将结果发送回查询代理；

d）查询代理对于取得的查询结果，使用本地完整的用户模型进一步优化，并将查询结果呈现给用户。

所述步骤1）选取的隐私保护模型，需要与其系统架构相适应，由于系统架构要求对用户模型的隐私保护支持语义泛化，选取多粒度语义泛化模型；

所述步骤2）用户模型选用应满足以下条件：支持在多个语义粒度上描述用户偏好，以适应步骤1）中选取的选取多粒度语义泛化模型；且需要依据公用的语义分类法构建，使用户模型易于扩展；

所述步骤2）中的定制用户隐私，包括a）隐私内容和b）隐私权重；所述系统在用户定制的隐私需求基础上，对用户模型进行最优泛化；

所述步骤2）中的攻击者模型分析工作包含如下二个任务：

a）分析攻击者所掌握的先验背景知识和所使用的攻击方式；

b）针对a）分析的先验背景知识和攻击方式，确立隐私保护的目标。

所述步骤3）中开发的支持隐私保护的个性化信息检索系统的通用框架，包含如下步骤：

1）在系统初始化阶段：

a）分析用户原始数据，依据公用的语义分类法构建层级用户模型；

b）用户自行在构建好的层级用户模型中，定制隐私需求，包括隐私语义内容和相应的隐私权重；

2）在系统初始化完毕后，每当用户提交检索请求：

a）根据检索请求的内容，在层级用户模型中设置相关语义内容和相应的相关度权重；

b）在框架步骤1）b）和2）a）基础上，通过预测性质指标，开发对用户模型进行近似最优泛化的方法；该方法输出用于个性化信息检索的最终用户模型。

所述步骤4）中基于用户模型开发的查询质量指标和隐私风险指标分别用于完成如下任务：

a）根据层级用户模型中集成的面向特定检索请求的相关度信息来预测分享器对于个性化信息检索的效用；

b）根据层级用户模型中集成的用户定制的隐私需求来预测分享其所导致的隐私风险；

所述步骤4）中的综合性能指标，通过查询质量指标和隐私风险指标加权融合生成，并通过相应参数对两者权重进行调节；该综合指标作为步骤5）中的用户模型泛化方法优化的最终指标。

所述步骤4）中基于用户模型开发的查询质量指标和隐私风险指标被开发为预测指标，即不需要采集用户对于信息检索结果排序的反馈信息，保证步骤5）中的用户模型泛化方法能够在客户端本地执行。

所述步骤4）中开发的用于预测量化特定检索歧义程度的指标，负责在步骤5）的数据模型泛化方法执行前，预测特定检索是否需要通过个性化来提高检索质量；如果检索请求为非歧义请求，则直接执行非个性化检索，杜绝用户信息分享。

所述步骤5）中开发的用户模型泛化方法为近似最优泛化方法；由于泛化方法搜索空间庞大，将其设计为基于代价的迭代方法，依据步骤4）中开发的综合性能指标，在每个迭代过程中，搜索能最大化综合性能指标的泛化结果，直至迭代终止。

所述步骤5）中开发的用户模型泛化方法，根据两个不同的应用需要设计：

a）优化步骤4）中开发的综合性能指标；

b）由用户指定隐私风险指标上界，系统负责在用户隐私风险上界下，最大化查询质量指标。

本发明具有的有益效果是：

本发明在个性化信息检索系统中引入隐私保护的方法，充分利用不同用户对于隐私保护的特殊需求，保证隐私保护结果与用户隐私需求相匹配；而且通过开发查询质量指标和隐私风险指标，分析特定检索特性，权衡检索质量和隐私保护。

附图说明

图1是本发明实施步骤流程图。

图2是本发明的系统架构图。

图3是层级用户模型示例图。

图4是攻击者模型图。

图5是本发明的通用框架图。

具体实施方式

现结合具体实施和示例对本发明的技术方案作进一步说明。

如图1所示，本发明方法的步骤如下：

如图2所示，所述步骤1）中设计的系统架构，用于分析该系统所使用的应用场景；在该应用场景中，用户不信任除自己之外的任何实体，因此隐私保护机制需要作为一个信息检索代理在客户端引入；该代理对用户模型在本地进行语义泛化后，才将其分享给服务器用于个性化信息检索；因此，该系统架构的设计方法如下：

所述步骤2）用户模型选用应满足以下条件：支持在多个语义粒度上描述用户偏好，以适应步骤1）中选用的用户模型应满足以下条件：支持在多个语义粒度上描述用户偏好，以适应步骤1）中选取的本发明选取多粒度语义泛化模型；且需要依据一个公用的语义分类法构建，使用户模型易于扩展。现有大多数层级（树状）用户模型都满足这一需求，如DMOZ分类法、WORDNET分类法、Yahoo目录分类法。

如图3所示，本发明使用DMOZ分类法来构建层级用户模型；层级结构用户模型便于在多个语义粒度上描述用户偏好，自顶向下，语义粒度逐层细化。通过截取完整用户模型的“同根子树”，可以实现对用户模型的语义泛化，如图3中虚线所示；此外，层级用户模型中上级语义节点和下级语义节点之间存在“传递率”信息，这对于实现步骤4）的衡量指标非常重要；

所述步骤2）中的定制用户隐私，包括a）隐私内容和b）隐私权重；所述系统在用户定制的隐私需求基础上，对用户模型进行最优泛化；本发明将用户隐私需求建模为用户模型中的隐私语义节点集合，且每个隐私语义节点标注有隐私权重。以图3的用户模型为例，用户的隐私需求为｛Web隐私，Perl，自由泳，老鹰乐队，口琴，成人｝。

所述步骤2）中的攻击者模型分析工作包含如下二个任务：

a）分析攻击者所掌握的先验背景知识和所使用的攻击方式；本发明的攻击者主要采用“窃听”的攻击方式。攻击者模型，如图 4所示，为攻击用户隐私，攻击者首先通过中间人攻击或入侵搜索引擎服务器，截获用户和服务器之间的所有通讯。之后，每当用户发起一个检索请求，攻击者都会截获到其提交的请求内容和相应的泛化用户模型。基于所截获内容，攻击者尝试重构出原始的用户模型，并以分类法作为背景只是，猜测用户定制的隐私需求。需要注意的是，这里的窃听攻击者在下面两方面是受限的：

i）知识受限。攻击者所能获取的一切背景知识都应只局限于公共分类法

ii）记忆受限。该约束表明攻击者不能针对同一被攻击对象，长期存储从多次查询中截获的信息以进行分析。也就是说，攻击者的窃听过程必须局限在被攻击对象的单次检索过程中。

b）针对a）分析的先验背景知识和攻击方式，确立隐私保护的目标；

本发明的个性化检索系统的隐私泄漏可以被简化为用户定制的隐私内容的暴露，隐私风险大小通过攻击者在获知被攻击目标提交的查询和相应的泛化用户模型的基础上推测出其敏感语义节点的可能性来衡量。因此个性化搜索引擎的隐私保护目标实质上是对该概率的最小化过程。

如图5所示，所述步骤3）中开发的支持隐私保护的个性化信息检索系统的通用框架，包含如下步骤：

1）在系统初始化阶段：

a）分析用户原始数据，依据公用的语义分类法构建层级用户模型；该步骤是框架中一个可替换的模块；本文使用DMOZ分类法来构建用户模型，但任何其他层级用户模型的构建方法都可以用于实现该模块；但是由于该泛化框架的整体性能非常依赖选取的分类法库的质量，基于现成的定义完备的概念分类构造模型的方法更适合该泛化框架。

b）用户自行在构建好的层级用户模型中，定制隐私需求，包括隐私语义内容和相应的隐私权重；该步骤同时以一种自底向上的方式地顺序计算和标注层级用户模型中的每个语义节点的敏感权重。

2）在系统初始化完毕后，每当用户提交检索请求：

a）根据层级用户模型中集成的面向特定检索请求的相关度信息来预测分享器对于个性化信息检索的效用；本发明将该指标定义为泛化用户模型对于消除相应检索请求的歧义性能力，即：

检索功用=检索请求q与泛化模型中q的相关语义内容的KL距离

b）根据层级用户模型中集成的用户定制的隐私需求来预测分享其所导致的隐私风险；本发明将隐私指标定义为：

隐私风险 = Max (泛化用户模型各个节点隐私权重)

所述步骤4）中的综合性能指标，通过查询质量指标和隐私风险指标加权融合生成，并通过相应参数对两者权重进行调节；该综合指标作为步骤5）中的用户模型泛化方法优化的最终指标；本发明将该综合指标定义如下：

综合指标 = 检索功用－ p×隐私风险

其中p是一个检索功用-隐私风险的转化参数。通过调节p的取值，我们可以找到不同版本的用户模型泛化示例。选择较小的p，会使得泛化方法的结果同时具备高可用性和高风险性；而选择较大的p会产生个性化服务质量预期较低的泛化实例，但是同时的隐私泄漏风险也较低。

所述步骤4）中开发的用于预测量化特定检索歧义程度的指标，负责在步骤5）的数据模型泛化方法执行前，预测特定检索是否需要通过个性化来提高检索质量；如果检索请求为非歧义请求，则直接执行非个性化检索，杜绝用户信息分享；本发明采用与定义检索公用预测指标相似的方法定义该指标，只需验证特定检索请求和整个语义分类中的歧义性集合，即：

检索请求歧义性=检索请求q与语义分类法中所有相关语义内容的KL距离

a）优化步骤4）中开发的综合性能指标；该方法主要用户设置好综合指标传递参数p后，由系统自行调节泛化性能的场景，具体步骤如下；

i）计算检索请求q的歧义性，若低于某一阈值，则直接发送请求，否则继续执行；

ii）通过框架步骤2）a）中取得的相关语义信息，对原始用户模型进行剪枝

iii）以用户模型被泛化为仅剩根节点为终止条件，开启迭代：每次选择一个泛化方法，是的输出的结果能最大化综合指标。使用专门变量记录在迭代过程中出现的综合指标最优的中间结果；

iv）输出最优泛化实例；

b）由用户指定隐私风险指标上界，系统负责在用户隐私风险上界下，最大化查询质量指标；具体步骤如下：

iii）以用户模型被泛化为仅剩根节点为终止条件，开启迭代：每次选择一个泛化方法，如果该方法输出的结果不符合用户制定的隐私风险上界，则忽略；否则，选取能够最大检索功用指标的中间结果，并保存下来；

iv）输出最优泛化实例。

Claims

1.一种实现定制隐私保护的个性化信息检索系统的方法，其特征在于该方法的步骤如下：

所述步骤2）用户模型选用应满足以下条件：支持在多个语义粒度上描述用户偏好，以适应步骤1）中选取的选取多粒度语义泛化模型；且需要依据DMOZ的语义分类法构建，使用户模型易于扩展；

所述步骤2）中的攻击者模型分析工作包含如下二个任务：

a）分析攻击者所掌握的先验背景知识和所使用的攻击方式；

3.1）在系统初始化阶段：

a）分析用户原始数据，依据DMOZ的语义分类法构建层级用户模型；

3.2）在系统初始化完毕后，每当用户提交检索请求：

b）在框架步骤3.1）b）和3.2）a）基础上，通过预测性质指标，开发对用户模型进行近似最优泛化的方法；该方法输出用于个性化信息检索的最终用户模型；

步骤5）开发用户模型泛化方法，针对特定信息检索请求的特性，依据步骤4）通过查询质量指标和隐私风险指标融合成的综合性能指标，生成泛化用户模型，并使用该泛化用户模型进行个性化信息检索。

2.根据权利要求1中所述的一种实现定制隐私保护的个性化信息检索系统的方法，其特征在于：所述步骤1）中设计的系统架构，用于分析该系统所使用的应用场景；在该应用场景中，用户不信任除自己之外的任何实体，因此隐私保护机制需要作为一个信息检索代理在客户端引入；该代理对用户模型在本地进行语义泛化后，才将其分享给服务器用于个性化信息检索；因此，该系统架构的设计方法如下：

3.根据权利要求1中所述的一种实现定制隐私保护的个性化信息检索系统的方法，其特征在于：

4.根据权利要求1中所述的一种实现定制隐私保护的个性化信息检索系统的方法，其特征在于：所述步骤4）中基于用户模型开发的查询质量指标和隐私风险指标被开发为预测指标，即不需要采集用户对于信息检索结果排序的反馈信息，保证步骤5）中的用户模型泛化方法能够在客户端本地执行。

5.根据权利要求1中所述的一种实现定制隐私保护的个性化信息检索系统的方法，其特征在于：所述步骤4）中开发的用于预测量化特定检索歧义程度的指标，负责在步骤5）的数据模型泛化方法执行前，预测特定检索是否需要通过个性化来提高检索质量；如果检索请求为非歧义请求，则直接执行非个性化检索，杜绝用户信息分享。

6.根据权利要求1中所述的一种实现定制隐私保护的个性化信息检索系统的方法，其特征在于：所述步骤5）中开发的用户模型泛化方法为近似最优泛化方法；由于泛化方法搜索空间庞大，将其设计为基于代价的迭代方法，依据步骤4）中开发的综合性能指标，在每个迭代过程中，搜索能最大化综合性能指标的泛化结果，直至迭代终止。

7.根据权利要求1中所述的一种实现定制隐私保护的个性化信息检索系统的方法，其特征在于：所述步骤5）中开发的用户模型泛化方法，根据两个不同的应用需要设计：

a）优化步骤4）中开发的综合性能指标；