CN108664808B

CN108664808B - 一种面向图书搜索服务的用户敏感主题保护方法及系统

Info

Publication number: CN108664808B
Application number: CN201810395228.3A
Authority: CN
Inventors: 吴宗大; 李仁超; 谢坚
Original assignee: Wenzhou University Oujiang College
Current assignee: Wenzhou University of Technology
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2019-04-26
Anticipated expiration: 2038-04-27
Also published as: CN108664808A

Abstract

本发明公开了一种面向图书搜索服务的用户敏感主题保护方法及系统。所述方法构造由若干个伪造图书查询序列构成的伪造图书查询序列集使得所述伪造图书查询序列集满足：(1)所述伪造图书查询序列集合中每一伪造图书查询序列与用户图书查询序列的特征分布相似性大于或等于给定特征分布相似性阈值；(2)所述用户图书查询序列相对于所述伪造图书查询序列集各个敏感主题的暴露程度降低大于或等于敏感主题暴露程度降低阈值。所述系统包括：包括设置在用户终端和数字图书馆服务器之间的伪造查询模块。本发明提供的方法和系统在不对数字图书馆的图书查询服务性能下降构成显著影响、不影响查询结果准确性的前提下，有效保护用户查询主题隐私。

Description

一种面向图书搜索服务的用户敏感主题保护方法及系统

技术领域

本发明属于隐私保护领域，更具体地，涉及一种面向图书搜索服务的用户敏感主题保护方法及系统。

背景技术

随着云计算等新兴网络技术的迅速发展，数字图书馆范畴得到不断延伸，已成为人们日常生活的重要组成部分。然而，在给用户带来便利同时，数字图书馆服务器端正变得越来越“不可信”，从而引发数字图书馆用户对个人隐私安全的极度担忧。用户隐私安全问题已成为制约数字图书馆发展与应用的重要障碍之一。图书馆用户隐私主要表现为：①资料隐私，包括身份标识隐私(如手机)和背景资料隐私(如职业)；②服务隐私，即使用图书服务时(如图书搜索服务)，用户服务请求背后所蕴含的个人偏好隐私(如图书查询蕴含用户偏好的图书主题)。其中，资料隐私安全问题可通过数据加密技术较好地解决，即将用户资料加密后再存放到图书馆服务器，这样即使它们不幸泄露，也难以被读懂。然而，加密方法并不适用用户服务隐私，因为图书服务需要服务器支持，如果加密用户服务请求会使得服务器因无法“读懂”它们，而使得服务变得不可用。如何有效保护图书馆用户的图书服务隐私，已成为一个至关重要的问题。

早期，图书馆领域学者更多从法律角度研究图书馆用户隐私保护问题。虽然制定隐私权相关的法律能在一定程度上保护用户隐私，但是并不能根本上解决该问题，它更多地需要采用隐私保护技术加以解决。近年，学者尝试从技术角度研究该问题，但已有方法还不够深入且缺乏系统，并且它们更多针对资料隐私，而没有关注服务隐私。此外，针对不可信网络环境下的用户隐私安全问题，信息科学领域学者已给出了许多有效方法，代表性地有：隐私加密技术、掩盖变换技术和匿名化技术。以下简要介绍这些方法的技术特点，并分析在数字图书馆中的应用局限性。①隐私加密是指通过加密变换，使得用户服务请求对服务器端完全不可见，以达到隐私保护的目的。该类技术不仅要求额外硬件和复杂算法的支持，且要求改变服务器端的服务算法，从而引起整个平台架构的改变，降低了方法在数字图书馆中的实用性。②敏感数据掩盖技术是指通过伪造数据或者使用一般化数据来掩盖涉及用户敏感偏好的服务请求数据。由于改写了服务请求数据，该类方法对服务的准确性会造成一定负面影响，即其隐私保护需以牺牲服务质量为代价，难以满足数字图书馆的实际应用需求。③匿名化技术是用户隐私保护中广泛使用的一种技术，它通过隐藏或伪装用户身份标识信息，允许用户以不暴露身份的方式使用系统。然而，匿名化隐私保护技术也受到了许多质疑。有人分析了匿名化对隐私保护的不足，并给出实验证明。结果表明，通过匿名化技术收集的用户数据往往难以保证质量。更重要地是，数字图书馆一般要求用户必须实名登录后才能使用各项服务，所以，匿名化隐私保护技术难以有效地应用于数字图书馆。

综上所述，已有用户隐私保护技术并不是针对数字图书馆提出，在实用性、准确性、安全性等方面仍无法满足数字图书馆的实际应用需求。理想的数字图书馆行为偏好隐私方法需要满足以下几个方面的要求：①确保用户服务隐私在不可信服务器端的安全性；②确保服务结果的准确性，即对比引入隐私保护方法的前后，用户获得的最终服务结果一致；③不损害数字图书馆信息服务的实用性，即隐私保护方法不改变服务器端的服务算法，不需要额外硬件支持，也不会对用户服务的执行效率构成显著影响。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种面向图书搜索服务的用户敏感主题保护方法及系统，其目的在于通过有效的构造伪造图书查询序列集，在不改变现有的数字图书馆服务器架构、不损害实用性、不明显降低效率的前提下，保护用户的敏感主题隐私，由此解决现有技术安全性不高，易收到攻击，或者执行效率低下的技术问题。

按照本发明的一个方面，提供了一种面向图书搜索服务的用户敏感主题保护方法，包括以下步骤：

对于给定的用户图书查询序列P₀，构造由若干个伪造图书查询序列构成的伪造图书查询序列集q＝1,2,…,n，使得所述伪造图书查询序列集满足以下条件：

(1)所述伪造图书查询序列集合中每一伪造图书查询序列P_q与用户图书查询序列P₀的特征分布相似性大于或等于给定特征分布相似性阈值，即：

其中，μ为特征分布相似性阈值，sim(P₀,P_q)为伪造图书查询序列P_q和用户图书查询序列P₀的特征分布相似性；

(2)所述用户图书查询序列P₀相对于所述伪造图书查询序列集各个敏感主题的暴露程度降低大于或等于敏感主题暴露程度降低阈值，即：

其中，为敏感图书主题集合，D^*为敏感图书主题，ρ敏感主题暴露程度降低阈值，exp(D^*,P₀)为敏感图书主题D^*关于用户图书查询序列P₀的暴露程度，为敏感图书主题D^*关于用户图书查询序列P₀和伪造图书查询序列集并集的暴露程度。

优选地，所述用户敏感主题保护方法，其所述伪造图书查询序列P_q与用户图书查询序列P₀的特征分布相似性按照如下方法计算：

其中，θ₁、θ₂、θ₃为权重参数，(θ₁+θ₂+θ₃)＝1.0，为关于用户图书查询序列P₀和伪造图书查询序列P_q的标题矩阵和的相似性；为关于用户图书查询序列P₀和伪造图书查询序列P_q的作者矩阵和的相似性；为关于用户图书查询序列P₀和伪造图书查询序列P_q的主题矩阵和的相似性。

优选地，所述用户敏感主题保护方法，其对于任意一个图书查询序列P＝(P₁,P₂,…,P_n)，其图书查询P_k(1≤k≤n)可表示为一个二元组P_k＝(P_k·B,P_k·A)，其中P_k·B表示图书标题查询项，P_k·A表示一个作者名称查询项；

关于所述图书查询序列P的标题矩阵为其中矩阵列数等于n为图书查询序列P的长度，第k列对应一个图书查询P_k，矩阵行数等于m为图书查询序列P所包含的不同图书标题数量，第i行对应一个图书标题，记作显然有矩阵任意元素b_ik取值如下：

关于所述图书查询序列P的作者矩阵为其中矩阵列数等于n为图书查询序列P的长度，第k列对应一个图书查询P_k，矩阵行数等于l为图书查询序列P所包含的不同作者名称数量，第i行对应一个作者名称，记作显然有矩阵元素a_ik取值如下：

关于所述图书查询序列P的主题矩阵为其中矩阵列数等于n为图书查询序列P的长度，第k列对应一个图书查询P_k，记P_k所对应的图书主题为P_k·D，矩阵行数等于j为图书查询序列P蕴含的主题数量，第i行对应一个图书主题显然有矩阵元素d_ik取值如下：

关于用户图书查询序列P₀和伪造图书查询序列P_q的标题矩阵和的相似性按照如下方法计算：

其中，m₁表示标题矩阵的行数；m₂表示标题矩阵的行数；m＝min(m₁,m₂)；

关于用户图书查询序列P₀和伪造图书查询序列P_i的作者矩阵和的相似性按照如下方法计算：

其中，l₁表示标题矩阵的行数；l₂表示标题矩阵的行数；l＝min(l₁,l₂)；

关于用户图书查询序列P₀和伪造图书查询序列P_i的主题矩阵和的相似性按照如下方法计算：

其中，j₁表示标题矩阵的行数；j₂表示标题矩阵的行数；j＝min(j₁,j₂)。

优选地，所述用户敏感主题保护方法，其敏感图书主题D^*关于图书查询序列P的暴露程度exp(D^*,P)按照如下方法计算：

其中，Fr(D^*,P)表示主题D^*在序列P中的出现次数，即Fr(D^*,P)＝|{P_k|P_k∈P∧D^*＝P_k·D}|；Re(D_k,D^*)为主题D_k和D^*之间的相关度，按照主题D_k和D^*在分类目录下的相对位置设置。

优选地，所述用户敏感主题保护方法，其按照如下步骤构造所述伪造图书查询序列集

S1、获取用户历史图书查询序列P₀、历史伪造图书查询序列集P₁,P₂,…,P_n、以及当前用户图书查询P_k＝(P_k·B,P_k·A)；

S2、设置特征分布相似性阈值μ，并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d₁和第二矩阵相似性阈值d₂；优选d₁、d₂随机设置为0到10μ之间的随机值。

S3、对于历史伪造图书查询序列集P₁,P₂,…,P_n中的任一历史伪造图书查询序列，构造关于当前用户图书查询P_k的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题，并且其作者名称和图书标题表达共同的主题，且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d₂，即：

且：

S4、对于历史伪造图书查询序列集P₁,P₂,…,P_n中的任一历史伪造图书查询序列，调整所述第一矩阵相似性阈值d₁和第二矩阵相似性阈值d₂，直至其关于当前用户图书查询P_k的候选伪造图书查询集合不为空；

S5、对于历史伪造图书查询序列集P₁,P₂,…,P_n中的任一历史伪造图书查询序列P_k，在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列：

S6、将新的伪查询序列的集合作为伪造图书查询序列集输出，即：

按照本发明的另一个方面，提供了一种面向图书搜索服务的用户敏感主题保护系统，其包括设置在用户终端和数字图书馆服务器之间的伪造查询模块；

所述伪造查询模块，用于为用户终端提交的图书查询序列P₀构建伪造图书查询序列集并将所述图书查询序列P₀和所述伪造图书查询序列集提交给数字图书馆服务器；所述伪造查询模块还用于接收所述数字图书馆服务器的查询结果，并筛选为用户图书查询序列P₀的查询结果，返回用户终端。

优选地，所述用户敏感主题保护系统，其所述伪造查询模块构造由若干个伪造图书查询序列构成的伪造图书查询序列集q＝1,2,…,n，使得所述伪造图书查询序列集满足以下条件：

(1)所述伪造图书查询序列集合中每一伪造图书查询序列Pq与用户图书查询序列P₀的特征分布相似性大于或等于给定特征分布相似性阈值，即：

优选地，所述用户敏感主题保护系统，其所述伪造图书查询序列P_q和用户图书查询序列P₀的特征分布相似性，按照如下方法计算：

其中，θ₁、θ₂、θ₃为恰当设置的权重参数，(θ₁+θ₂+θ₃)＝1.0，为关于用户图书查询序列P₀和伪造图书查询序列P_q的标题矩阵和的相似性；为关于用户图书查询序列P₀和伪造图书查询序列P_q的作者矩阵和的相似性；为关于用户图书查询序列P₀和伪造图书查询序列P_q的主题矩阵和的相似性；

其中，m₁表示标题矩阵的行数；m₂表示标题矩阵的行数；m＝min(m₁,m₂)。

其中，l₁表示标题矩阵的行数；l₂表示标题矩阵的行数；l＝min(l₁,l₂)。

优选地，所述用户敏感主题保护系统，其所述敏感图书主题D^*关于图书查询序列P的暴露程度exp(D^*,P)按照如下方法计算：

优选地，所述用户敏感主题保护系统，其所述伪造查询模块包括：获取子模块、设置子模块、候选生成子模块、构造子模块；

所述获取子模块，用于获取用户历史图书查询序列P₀、历史伪造图书查询序列集P₁,P₂,…,P_n、以及当前用户图书查询P_k＝(P_k·B,P_k·A)；

所述设置子模块，用于设置特征分布相似性阈值μ，并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d₁和第二矩阵相似性阈值d₂，优选d₁、d₂随机设置为0到10μ之间的随机值；并用于对于历史伪造图书查询序列集P₁,P₂,…,P_n中的任一历史伪造图书查询序列，调整所述第一矩阵相似性阈值d₁和第二矩阵相似性阈值d₂，直至其关于当前用户图书查询P_k的候选伪造图书查询集合不为空；

所述候选生成子模块，用于对于历史伪造图书查询序列集P₁,P₂,…,P_n中的任一历史伪造图书查询序列，构造关于当前用户图书查询P_k的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题，并且其作者名称和图书标题表达共同的主题，且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d₂，即：

且：

所述构造子模块，用于对于历史伪造图书查询序列集P₁,P₂,…,P_n中的任一历史伪造图书查询序列P_k，在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列：

并用于将新的伪查询序列的集合作为伪造图书查询序列集输出，即：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供的方法和系统在不对数字图书馆的图书查询服务性能下降构成显著影响、不影响查询结果准确性的前提下，有效保护用户查询主题隐私，虽然攻击者掌握着丰富的背景知识，但还是难以从服务端所记录的历史图书查询记录中识别出用户查询序列或者用户敏感主题，因而本文方法具有较好的安全性。

附图说明

图1是本发明提供的面向图书搜索服务的用户敏感主题保护系统结构示意图；

图2是本发明实施例1提供的图书查询序列特征矩阵示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的面向图书搜索服务的用户敏感主题保护方法，包括以下步骤：

其中，μ为特征分布相似性阈值，sim(P₀,P_q)为伪造图书查询序列P_q和用户图书查询序列P₀的特征分布相似性，按照如下方法计算：

对于任意一个图书查询序列P＝(P₁,P₂,…,P_n)，其图书查询P_k(1≤k≤n)可表示为一个二元组P_k＝(P_k·B,P_k·A)，其中P_k·B表示图书标题查询项(可为空)，P_k·A表示一个作者名称查询项(可为空)。

敏感图书主题D^*关于图书查询序列P的暴露程度exp(D^*,P)按照如下方法计算：

优选地，按照如下步骤构造所述伪造图书查询序列集

且：

本发明提供的面向图书搜索服务的用户敏感主题保护系统，如图1所示，包括设置在用户终端和数字图书馆服务器之间的伪造查询模块；

所述伪造查询模块构造由若干个伪造图书查询序列构成的伪造图书查询序列集 q＝1,2,…,n，使得所述伪造图书查询序列集满足以下条件：

所述伪造查询模块优选包括：获取子模块、设置子模块、候选生成子模块、构造子模块；

且：

所述构造子模块，用于对于历史伪造图书查询序列集P₁,P₂,…,P_n中的任一历史伪造图书查询序列P_k，在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列

数字图书馆为用户提供的信息服务形式多种多样，如图书搜索服务、推荐服务、浏览服务等。其中，图书搜索服务是指用户通过指定图书标题或作者名称等查询条件项，从数字图书馆数据库中获取用户感兴趣的目标图书数据，是数字图书馆最重要和最常见的信息服务之一。用户图书搜索服务隐私主要是指图书查询背后蕴含的用户敏感主题(例如，用户不希望被别人知道对图书主题“犯罪心理”感兴趣)。为此，本发明将以图书搜索服务的用户查询隐私保护为研究对象，具体研究目标可概括为：针对数字图书馆用户图书查询的条件项特点，构建统一的用户查询隐私(用户敏感查询主题)保护框架和保护模型，有效地突破已有隐私保护技术在数字图书馆中的应用局限性，能在“不改变”数字图书馆的现有平台架构、“不改变”图书搜索的现有服务算法、“不改变”图书搜索服务的准确性、基本“不改变”服务效率前提下，“确保”用户敏感查询主题在不可信服务器端的安全性。本发明研究主要内容包括三个方面：①面向图书搜索服务的用户敏感主题保护框架；②面向图书搜索服务的用户敏感主题保护模型，形式化定义敏感主题隐私保护应满足的条件约束；③用户搜索敏感主题保护的实现算法。

以下为实施例：

实施例1

首先利用“中图法图书分类目录”来关联图书主题、标题、和作者：

图书分类目录是一个树状数据结构，其中，每个节点表示一个图书目录；每个除根目录外的图书目录又包含于其父目录；树节点层次越高，则图书目录的抽象性越低，通常包含的图书也就越少；挑选图书分类目录中处于次顶层的共209个图书目录组建了用户查询主题空间包括：B0哲学理论、B1世界哲学、D0政治理论等；通过预先索取或网络爬虫自动爬取的收藏图书涉及的标题信息和作者信息，构建了一个“主题—图书—作者”数据结构(简称DBA)，它由用户主题列表、图书标题列表和作者名称列表三个部分构成，从而将图书主题、标题和作者关联。

为了改善算法效率，我们还为图书列表和作者列表建立了索引结构，即分别按图书标题和作者名称排序，以实现高效率的搜索操作，即给定任何一个图书标题或作者名称，可快速地获取相应的图书列表项或作者列表项。

由于每本图书都有一个“中图法分类号”属性，借助于它，可以将每本图书映射为主题空间中的主题，即获取图书所属的主题。一本图书只有一个“中图法分类号”，因此也只包含于一个主题。所以，图书列表中的每个图书列项主要包含两项信息：图书标题和图书主题。据此，基于DBA结构，给定一个用户查询P_k的图书标题条件项P_k·B，我们可以快速地识别出背后的主题D(P_k·B)(一对一，即|D(P_k·B)|＝1)。不同于图书标题，一个作者名称可能与多本图书相关(如作者“张伟”对应上百本图书)，而这些图书可能属于不同主题。所以，DBA作者列表中的每个项主要包含两部分信息：作者名称和图书主题列表，其中，主题列表列出了该作者编写的图书涉及到的所有主题。据此，基于DBA，给定一个用户查询P_k的作者名称条件项P_k·A，我们可以快速地识别出背后可能的主题集D(P_k·A)(一对多，即|D(P_k·A)|≥1)。然而，注意到：虽然一个图书查询请求P_k的图书标题查询项和作者名称查询项可能会涉及多个主题，即|D(P_k·A)∪D(P_k·B)|≥2，但是用户在同一个图书查询请求P_k中通常只会表达一个唯一的用户主题(记作P_k·D)。为此，算法引入以下规则，结合用户历史图书查询序列P，从可能主题集D(P_k·A)∪D(P_k·B)中，挑选出图书查询请求P_k的唯一用户主题P_k·D。

其中，θ₁为1/3，θ₂为1/3，θ₃为1/3，(θ₁+θ₂+θ₃)＝1.0，为关于用户图书查询序列P₀和伪造图书查询序列P_q的标题矩阵和的相似性；为关于用户图书查询序列P₀和伪造图书查询序列P_q的作者矩阵和的相似性；为关于用户图书查询序列P₀和伪造图书查询序列P_q的主题矩阵和的相似性；

关于所述图书查询序列P的标题矩阵为如图2所示，其中矩阵列数等于n为图书查询序列P的长度，第k列对应一个图书查询P_k，矩阵行数等于m为图书查询序列P所包含的不同图书标题数量，第i行对应一个图书标题，记作显然有矩阵任意元素b_ik取值如下：

关于所述图书查询序列P的作者矩阵为如图2所示，其中矩阵列数等于n为图书查询序列P的长度，第k列对应一个图书查询P_k，矩阵行数等于l为图书查询序列P所包含的不同作者名称数量，第i行对应一个作者名称，记作显然有矩阵元素a_ik取值如下：

关于所述图书查询序列P的主题矩阵为如图2所示，其中矩阵列数等于n为图书查询序列P的长度，第k列对应一个图书查询P_k，记P_k所对应的图书主题为P_k·D，矩阵行数等于j为图书查询序列P蕴含的主题数量，第i行对应一个图书主题显然有矩阵元素d_ik取值如下：

对于给定图书查询序列P和当前图书查询请求P_k＝(P_k·B,P_k·A)，则按以下方法确定用户查询P_k蕴含的用户查询主题P_k·D：

若图书标题查询项P_k·B不为空，则P_k·D＝D(P_k·A)；否则：

若存在历史查询P_i∈P使得P_i·A＝P_k·A，则P_k·D＝P_i·D；否则：

用户查询主题P_k·D等于在历史查询序列P中出现频度最高的P_k·A主题，即：

其中，Fr(D^*,P)表示主题D^*在序列P中的出现次数，即Fr(D^*,P)＝|{P_k|P_k∈P∧D^*＝P_k·D}|；Re(D_k,D^*)为主题D_k和D^*之间的相关度，按照如下方法设置：

如果D_k和D^*在“中图法图书分类目录”中不属于同一目录，则Re(D_k,D^*)＝0；否则：

如果D_k和D^*属于同一父目录但D_k≠D^*，则Re(D_k,D^*)＝0.5；否则：

如果D_k≠D^*，则Re(D_k,D^*)＝1.0。

按照如下步骤构造所述伪造图书查询序列集

S2、设置特征分布相似性阈值μ，并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d₁和第二矩阵相似性阈值d₂；d₁、d₂随机设置为0到10μ之间的随机值

且：

具体算法如下：

可以看出，语句5对伪查询的主题范围和相似性做了限制，实验证实从而满足条件(1)和条件(2)；另外，本方法的输出是不确定的，即对于同样输入，不同的运行会得到不同的结果，因为语句10进行了候选者随机挑选操作。这种做法是为了更好地保证安全性。此外，还可以看出，由于历史伪图书查询序列与用户真实图书查询序列具有相同的长度，因此本方法的时间复杂度为O(n·m)，其中，m＝|P₀|。

实施例2

本发明提供的面向图书搜索服务的用户敏感主题保护系统，包括设置在用户终端和数字图书馆服务器之间的伪造查询模块；

其中，Fr(D^*,P)表示主题D^*在序列P中的出现次数，即Fr(D^*,P)＝|{P_k|P_k∈P∧D^*＝P_k·D}|；Re(D_k,D^*)为主题D_k和D^*之间的相关度，按照如下方法计算：

如果D_k≠D^*，则Re(D_k,D^*)＝1.0。

所述设置子模块，用于设置特征分布相似性阈值μ，并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d₁和第二矩阵相似性阈值d₂，d₁、d₂随机设置为0到10μ之间的随机值；并用于对于历史伪造图书查询序列集P₁,P₂,…,P_n中的任一历史伪造图书查询序列，调整所述第一矩阵相似性阈值d₁和第二矩阵相似性阈值d₂，直至其关于当前用户图书查询P_k的候选伪造图书查询集合不为空；

且：

实施例3安全性评价

可以看出，虽然用户查询被混淆在伪查询中，以随机次序提交给服务器端，但是由于来自同一序列的各个查询之间具有很强的特征关联性，因此，借助于聚类等方法，攻击者仍有可能将图书查询记录准确地划分为若干个独立的查询序列，即得到P₀,P₁,P₂,…,P_n。为此，以下假定攻击者获取了客户端所提交的全部图书查询请求，包括用户查询和伪查询，并且已经准确地将它们划分独立的查询序列。此外，还假定攻击者获取了运行在客户端的用户隐私保护算法副本。此时，攻击者能否根据掌握的图书查询序列集猜测出用户敏感主题可能性分三种情况：

情况1：在没有找出中用户查询序列P₀的前提下，攻击者能否直接猜测出用户敏感主题呢？此时，由于攻击者不知道中哪个序列才是用户查询序列，他只能首先获取各个查询序列相关的所有图书主题，然后逐个去猜测这些主题哪个是用户敏感主题。由于用户的任一敏感主题在序列集中的暴露度相比于在序列P₀中的暴露度已经明显降低，所以用户敏感主题被猜测出来的概率将变得极小，即原来的1/(n+1)。

情况2：攻击者能否找出中的用户查询序列P₀呢？此时，攻击者可根据先验知识“用户查询序列会表现出富有规律的特征”来识别用户查询序列。然而，由于本文方法所构造的伪查询序列与用户查询序列具有高度一致的可区分特征(包括图书标题特征、作者名称特征和图书主题特征)，所以，攻击者难以根据图书查询序列的不同特征规律区分出用户查询序列。

情况3：攻击者获得隐私算法副本后，能否猜测出用户查询序列P₀呢？此时，攻击者可以将中查询划分为m个独立组，每组查询记作然后，攻击者可以逐个输入中的各个查询并观测隐私算法能否输出其余查询如果成功，则表明是用户查询，进而获知用户查询序列P₀。然而，这样尝试不会成功，因为在隐私算法中，每个伪查询均是从一个较大集中随机选取(见算法1的步骤1和步骤10)，即每次运行时，即使输入相同的数据也会输出不同的结果。

综上所述，虽然攻击者掌握着丰富的背景知识，但还是难以从服务端所记录的历史图书查询记录中识别出用户查询序列或者用户敏感主题，因而本文方法具有较好的安全性。可以看出：本方法不会改变图书查询的准确性，不改变服务器端已有的图书搜索服务算法，也不要求改变数字图书馆现在的平台架构。此外，在本方法中，一次图书查询过程需要向服务器端发送(n+1)个图书查询。所以，如果忽略客户端隐私保护算法本身的执行时间，那么引入隐私保护机制后，一次图书查询服务所需时间将增加到原来的(n+1)倍。而参数n是用来控制用户隐私保护级别，其值越大则用户隐私暴露的风险就越低。所以，我们方法导致的图书查询服务性能下降程度与用户隐私保护等级线性正相关，不会对数字图书馆的图书查询服务性能下降构成显著影响。

表1方法有效性定性比较

比较方法	隐私安全性	服务准确性	服务高效性	实际可用性
					本文方法	好	好	好	好
隐私加密	好	好	好	不好
					掩盖变化	好	不好	好	好
匿名化法	好	好	好	不好

已有的用户隐私保护技术并不是针对数字图书馆提出，它们在实用性、准确性、高效性和安全性等方面仍无法满足数字图书馆的实际应用需求。具体地包括：①隐私加密技术不仅需要额外硬件和复杂算法支持，而且需要改变服务器端的服务算法，降低了方法的实际可用性；②掩盖变换技术会对服务准确性造成一定的负面影响，其隐私保护需以牺牲服务质量为代价；③匿名化技术需要改变数字图书馆的框架结构，导致较差的实际应用性。这些问题在本发明中都得到了较好的解决。表1给出了本文方法与已有方法的定性比较，其中：①安全性好，当且仅相关安全问题已经被充分考虑，并且给出了有效的解决方案；②准确性好，当且仅当在隐私机制引入的前后，用户最终得到的查询结果不变；③可用性好，当且仅当隐私机制对外部用户和服务算法均透明；④高效性好，当且仅当在隐私机制引入的前后，服务效率不会明显下降。从表1可以看出：在安全性、准确性、高效性和可用性上，相比于已有方法，我们方法拥有更优秀的综合性能，有效地实现了前文提到的四个“不改变”、一个“确保”目标。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向图书搜索服务的用户敏感主题保护方法，其特征在于，包括以下步骤：

对于给定的用户图书查询序列P₀，构造由若干个伪造图书查询序列构成的伪造图书查询序列集使得所述伪造图书查询序列集满足以下条件：

其中，μ为特征分布相似性阈值，sim(P₀，P_q)为伪造图书查询序列P_q和用户图书查询序列P₀的特征分布相似性；

其中，为敏感图书主题集合，D^*为敏感图书主题，ρ敏感主题暴露程度降低阈值，exp(D^*，P₀)为敏感图书主题D^*关于用户图书查询序列P₀的暴露程度，为敏感图书主题D^*关于用户图书查询序列P₀和伪造图书查询序列集并集的暴露程度。

2.如权利要求1所述的用户敏感主题保护方法，其特征在于，所述伪造图书查询序列P_q与用户图书查询序列P₀的特征分布相似性按照如下方法计算：

其中，θ₁、θ₂、θ₃为权重参数，为关于用户图书查询序列P₀和伪造图书查询序列P_q的标题矩阵和的相似性；为关于用户图书查询序列P₀和伪造图书查询序列P_q的作者矩阵和的相似性；为关于用户图书查询序列P₀和伪造图书查询序列P_q的主题矩阵和的相似性。

3.如权利要求2所述的用户敏感主题保护方法，其特征在于，对于任意一个图书查询序列P＝(P₁，P₂，...，P_n)，其图书查询P_k(1≤k≤n)可表示为一个二元组P_k＝(P_k.B，P_k.A)，其中P_k.B表示图书标题查询项，P_k.A表示一个作者名称查询项；

关于所述图书查询序列P的主题矩阵为其中矩阵列数等于n为图书查询序列P的长度，第k列对应一个图书查询P_k，记P_k所对应的图书主题为P_k.D，矩阵行数等于j为图书查询序列P蕴含的主题数量，第i行对应一个图书主题显然有矩阵元素d_ik取值如下：

其中，m₁表示标题矩阵的行数；m₂表示标题矩阵的行数；m＝min(m₁，m₂)；

其中，l₁表示标题矩阵的行数；l₂表示标题矩阵的行数；l＝min(l₁，l₂)；

其中，j₁表示标题矩阵的行数；j₂表示标题矩阵的行数；j＝min(j₁，j₂)。

4.如权利要求1所述的用户敏感主题保护方法，其特征在于，敏感图书主题D^*关于图书查询序列P的暴露程度exp(D^*，P)按照如下方法计算：

其中，Fr(D^*，P)表示主题D^*在序列P中的出现次数，即Fr(D^*，P)＝|{P_k|P_k∈P∧D^*＝P_k.D}|；Re(D_k，D^*)为主题D_k和D^*之间的相关度，按照主题D_k和D^*在分类目录下的相对位置设置。

5.如权利要求1所述的用户敏感主题保护方法，其特征在于，按照如下步骤构造所述伪造图书查询序列集

S1、获取用户历史图书查询序列P₀、历史伪造图书查询序列集{P₁，P₂，...，P_n}、以及当前用户图书查询P_k＝(P_k.B，P_k.A)；

S2、设置特征分布相似性阈值μ，并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d₁和第二矩阵相似性阈值d₂；优选d₁、d₂随机设置为0到10μ之间的随机值；

S3、对于历史伪造图书查询序列集{P₁，P₂，...，P_n}中的任一历史伪造图书查询序列，构造关于当前用户图书查询P_k的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题，并且其作者名称和图书标题表达共同的主题，且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d₂，即：

且：

S4、对于历史伪造图书查询序列集{P₁，P₂，...，P_n}中的任一历史伪造图书查询序列，调整所述第一矩阵相似性阈值d₁和第二矩阵相似性阈值d₂，直至其关于当前用户图书查询P_k的候选伪造图书查询集台不为空；

S5、对于历史伪造图书查询序列集{P₁，P₂，...，P_n}中的任一历史伪造图书查询序列P_k，在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列：

6.一种面向图书搜索服务的用户敏感主题保护系统，其特征在于，包括设置在用户终端和数字图书馆服务器之间的伪造查询模块；

所述伪造查询模块，用于为用户终端提交的图书查询序列P₀构建伪造图书查询序列集并将所述图书查询序列P₀和所述伪造图书查询序列集提交给数字图书馆服务器；所述伪造查询模块还用于接收所述数字图书馆服务器的查询结果，并筛选为用户图书查询序列P₀的查询结果，返回用户终端；

所述伪造查询模块构造由若干个伪造图书查询序列构成的伪造图书查询序列集使得所述伪造图书查询序列集满足以下条件：

7.如权利要求6所述的面向图书搜索服务的用户敏感主题保护系统，其特征在于，所述伪造图书查询序列P_q和用户图书查询序列P₀的特征分布相似性，按照如下方法计算：

8.如权利要求6所述的面向图书搜索服务的用户敏感主题保护系统，其特征在于，所述敏感图书主题D^*关于图书查询序列P的暴露程度exp(D^*，P)按照如下方法计算：

9.如权利要求6所述的面向图书搜索服务的用户敏感主题保护系统，其特征在于，所述伪造查询模块包括：获取子模块、设置子模块、候选生成子模块、构造子模块；

所述获取子模块，用于获取用户历史图书查询序列P₀、历史伪造图书查询序列集{P₁，P₂，...，P_n}、以及当前用户图书查询P_k＝(P_k.B，P_k.A)；

所述设置子模块，用于设置特征分布相似性阈值μ，并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d₁和第二矩阵相似性阈值d₂；并用于对于历史伪造图书查询序列集{P₁，P₂，...，P_n}中的任一历史伪造图书查询序列，调整所述第一矩阵相似性阈值d₁和第二矩阵相似性阈值d₂，直至其关于当前用户图书查询P_k的候选伪造图书查询集合不为空；

所述候选生成子模块，用于对于历史伪造图书查询序列集{P₁，P₂，...，P_n}中的任一历史伪造图书查询序列，构造关于当前用户图书查询P_k的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题，并且其作者名称和图书标题表达共同的主题，且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d₂，即：

且：

所述构造子模块，用于对于历史伪造图书查询序列集{P₁，P₂，...，P_n}中的任一历史伪造图书查询序列P_k，在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列：