CN110232157B

CN110232157B - 一种基于内容的隐私保护图书推荐方法及系统

Info

Publication number: CN110232157B
Application number: CN201910524399.6A
Authority: CN
Inventors: 吴宗大; 刘曦洋; 谢坚
Original assignee: University of Shaoxing
Current assignee: University of Shaoxing
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2024-02-02
Anticipated expiration: 2039-06-18
Also published as: CN110232157A

Abstract

本发明公开了一种基于内容的隐私保护图书推荐方法及系统。所述方法包括步骤：(1)由可信端收集用户的图书检索行为和偏好，生成用户配置文件；(2)构造伪造配置文件集；(3)将用户配置文件和伪造配置文件集中的伪造配置文件随机提交给服务器，并按照内容推荐原理计算配置文件相应的图书推荐结果集；(4)在图书推荐结果集中，筛选用户配置文件对应的图书推荐结果，返回给用户。所述系统包括可信端和不可信的图书推荐服务器。本发明不影响推荐结果的准确性不会明显损害数字图书馆信息服务的可用性和高效性的同时，能有效地保证用户敏感主题的安全性。

Description

一种基于内容的隐私保护图书推荐方法及系统

技术领域

本发明属于隐私保护领域，更具体地，涉及一种基于内容的隐私保护图书推荐方法及系统。

背景技术

随着数字图书馆范畴的不断延伸，网上可供用户选择的图书资源正持续爆炸式增长，引发了图书信息超载问题，使得用户获取目标图书反而变得越发困难。图书推荐服务通过记录分析用户的兴趣偏好，引导用户发现自己真正感兴趣的目标图书，被认为是解决图书信息超载问题最有效的工具之一，因而已成为现代数字图书馆平台的重要组成部分。一个完整的图书推荐服务通常由三个部分组成：用户行为记录模块、用户偏好分析模块以及图书推荐算法模块。其中，推荐算法模块实时地从图书资料库中筛选出符合用户兴趣偏好的图书并进行排序推荐，是图书推荐服务的核心部件。典型推荐算法有协同过滤推荐、基于内容推荐、基于产品二部图推荐等。

通常，为了确保推荐结果准确性，推荐服务需要掌握大量的用户偏好信息。然而，对用户偏好信息的大量收集分析势必会对用户隐私安全构成严重的威胁，给图书推荐服务带来许多负面的影响：一方面，降低用户对图书推荐服务的使用意愿；另一方面，使得用户不再愿意提供真实个人信息，从而影响图书推荐的准确性。为此，如果不能有效加强用户隐私保护，图书推荐服务将失去用户的信任和支持。用户隐私安全问题已成为限制图书推荐技术在数字图书馆中进一步发展与应用的主要障碍。

针对不可信网络环境下的用户隐私保护问题，信息科学领域学者给出了许多有效方法，代表性地有：隐私加密、掩盖变换和匿名化。其中，隐私加密是指通过加密变换，使得用户服务请求数据对服务器端不可见，从而达到用户隐私保护的目的，代表性地有隐私信息检索技术，该类技术不仅要求额外硬件和复杂算法的支持，并且要求改变服务器端的已有信息服务算法，从而引起整个平台架构的改变，降低了方法在数字图书馆中的可用；敏感数据掩盖是指通过伪造数据或者使用一般数据来掩盖涉及用户敏感偏好的行为数据，由于改写了用户服务请求数据，该类方法对服务的准确性会造成一定负面影响，即其隐私保护需以牺牲服务质量为代价，难以满足图书推荐的应用需求；匿名化技术是用户隐私保护中广泛使用的一类技术方法，它通过隐藏或伪装用户身份标识，允许用户以不暴露身份的方式使用系统，然而，对于数字图书馆的图书推荐服务，用户实名登录是十分必要的，所以，匿名化隐私保护技术难以有效地应用于图书推荐服务。

综上所述，已有用户隐私保护技术并不是针对数字图书馆图书推荐服务而专门提出，在实用性、准确性、安全性等方面仍无法满足图书推荐的实际应用需求。理想图书推荐服务的用户隐私安全保护系统的需要满足以下几个方面的要求：①要求保证用户敏感偏好的安全性,即用户不愿意暴露的个人偏好图书主题。具体地，要求攻击者不仅难以从描述用户兴趣偏好的配置文件中识别出用户敏感偏好，而且也难以通过分析推荐算法的推荐结果倒推出用户敏感偏好(隐私加密由于保证结果准确性，因而无法达到该要求)；②确保图书推荐结果的准确性，即对比引入隐私保护方法的前后，用户获得的最终服务结果一致；③不损害数字图书馆已有信息服务的可用性，即用户隐私保护方法不改变服务器端的图书推荐算法，不需要额外硬件支持，也不会对图书推荐执行效率构成显著性影响。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于内容的隐私保护图书推荐方法，其目的在于通过对用户信息进行有效的伪造和掩盖，在不损害服务器可用性、不增加额外硬件支持的前提下，保护敏感偏好的隐私，由此解决现有的图书推荐方法泄露用户隐私或推荐结果不理想的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于内容的隐私保护图书推荐方法，包括以下步骤：

(1)由可信端收集用户的图书检索行为和偏好，生成用户配置文件P₀；

(2)对于步骤(1)中获得的用户配置文件P₀构造伪造配置文件集使得所述伪造配置文件集/>中每一伪造配置文件P_i与用户配置文件的特征分布相似性超过特征分布相似阈值并且使得敏感主题的关于由用户配置文件和伪造配置文件集组成的并集的暴露程度相对与关于用户配置文件的暴露程度明显降低；

(3)将步骤(1)中获得的用户配置文件P₀和步骤(2)中获得的伪造配置文件集中的伪造配置文件随机提交给服务器，并按照内容推荐原理计算配置文件相应的图书推荐结果集{R₀,R₁,R₂,…,R_n}；

(4)在步骤(3)中获得的图书推荐结果集{R₀，R₁,R₂,…,R_n}中，筛选用户配置文件R₀对应的图书推荐结果R₀，返回给用户。

优选地，所述基于内容的隐私保护图书推荐方法，其所述配置文件包括一组图书关键词的集合以及其中每一关键词的偏好程度评分，配置文件P可记为：

其中k_i为关键词，为关键词空间，mark(k_i)为关键词偏好程度评分。

优选地，所述基于内容的隐私保护图书推荐方法，其步骤(2)所述伪造配置文件集中每一伪造配置文件与用户配置文件的特征分布相似性超过特征分布相似阈值，可表示为：

其中，为预设的特征分布相似阈值；

simK(P₀,P_i)为用户配置文件P₀和伪造配置文件P_i的关键词特征分布相似度，为用户配置文件P₀的关键词特征分布向量KF(P₀)和伪造配置文件P_i的关键词特征分布向量KF(P_i)之间的余弦相似性，按照如下方法计算：

其中对于配置文件P的关键词特征分布向量KF(P)为配置文件P上的关键词的用户偏好评分值按从大到小顺序排列后组成；关键词特征分布向量KF(P)表示为：

KF(P)＝(mark(k₁),mark(k₂),…,mark(k_n)|k_i∈P∧mark(k_i)≥mark(k_i+1))；

simU(P₀,P_i)为用户配置文件P₀和伪造配置文件P_i的主题特征分布相似度，为用户配置文件P₀的主题特征分布向量UF(P₀)和伪造配置文件P_i的主题特征分布向量UF(P_i)之间的余弦相似性，按照如下方法计算：

其中对于配置文件P的主题特征分布向量UF(P)为配置文件P背后蕴含的偏好主题集U按照偏好评分从大到小的顺序排列后组成；偏好主题集U表示为：

主题特征分布向量UF(P)表示为：

UF(P₀)＝(mark(u₁),mark(u₂),…,mark(u_d)|u_c∈U₀∧mark(u_c)≥mark(u_c+1))。

优选地，所述基于内容的隐私保护图书推荐方法，其步骤(2)所述敏感主题的关于由用户配置文件和伪造配置文件集组成的并集的暴露程度相对与关于用户配置文件的暴露程度明显降低，可表示为：

其中ω为预设的暴露程度降低阈值，exp(u^*,P₀)为敏感主题u^*关于用户配置文件P₀的暴露程度，为敏感主题u^*关于由用户配置文件P₀以和伪造配置文件集/>组成的并集的暴露程度。

对于任意敏感主题u^*，其关于配置文件P的暴露程度，按照如下方法计算：

其关于配置文件集的暴露程度，按照如下方法计算：

优选地，所述基于内容的隐私保护图书推荐方法，其步骤(2)具体为：

(2-1)初始伪造配置文件集为空集；

(2-2)当所述敏感主题的关于由用户配置文件和伪造配置文件集组成的并集的暴露程度相对与关于用户配置文件的暴露程度不明显降低时增加一个伪造配置文件P_i，否则将作为构造的伪造配置文件集，即：

当时，增加一个伪造配置文件P_i；否则返回/>作为构造的伪造配置文件集；

(2-3)跳转到步骤(2-2)。

优选地，所述基于内容的隐私保护图书推荐方法，其步骤(2-2)所述伪造配置文件P_i，按照以下方法生成：

(2-2-1)随机生成伪造主题集U_i：从非敏感主题中挑选与用户配置文件涉及的主题数量相同数量的主题，作为伪造主题集，即：

其中为主题空间，/>为敏感主题空间，U₀为用户配置文件涉及的主题集；

(2-2-2)将步骤(2-2-1)中构造的伪造主题集U_i与用户配置文件涉及的主题集U₀中的主题进行匹配关联，即：

对于任一uⁱ∈U_i有唯一u⁰∈U₀与之关联，且每一u⁰∈U₀仅关联唯一uⁱ∈U_i；

(2-2-3)对于用户配置文件涉及的主题集U₀中每一主题u⁰∈U₀其图书关键词空间的每一关键词k⁰作为伪造对象，从主题u⁰关键的伪造主题集U_i中的主题集uⁱ∈U_i的关键词空间/>中，随机挑选一个伪造关键词kⁱ加入到伪造配置文件中，并将其关键词偏好程度评分设置为与其伪造对象的关键词偏好程度评分相同；即：

对于每一个从/>中随机挑选一个kⁱ，使得P_i←P_i+kⁱ且mark(kⁱ)←mark(k⁰)。

优选地，所述基于内容的隐私保护图书推荐方法，其步骤(3)对于任意配置文件P按照内容推荐原理计算配置文件相应的图书推荐结果R，具体如下：

(3-1)对于任一配置文件P计算其与所有图书的图书配置文件的相似性，所述配置文件P与图书配置文件B的相似性sinPB(P,B)按照如下方法计算：

其中，k^B为图书配置文件B的关键词，mark(k^B)为图书配置文件B中对于关键词k^B的偏好程度评分；k^P为配置文件P的关键词，mark(k^P)为配置文件P中对于关键词k^P的偏好程度评分。

(3-2)将步骤(3-1)中与配置文件P相似性大于或等于挑选阈值或降序排列排名范围之内的图书集作为推荐结果。

按照本发明的另一个方面，提供了一种基于内容的隐私保护图书推荐系统，包括可信端和不可信的图书推荐服务器；

所述可信端，为客户设备和/或可信服务器；其用于：收集用户行为进行偏好分析获得用户配置文件P₀并构造伪造配置文件集；将用户配置文件P₀和伪造配置文件集中的伪造配置文件P_i以随机顺序提交给图书推荐服务器；接收所述图书推荐服务器的图书推荐结果，并筛选出用户配置文件P₀对应的图书推荐结果R₀返回给用户；

所述图书推荐服务器，用于根据可信端提交的配置文件，计算图书推荐结果集{R₀,R₁,R₂,…,R_n}，并返回给可信端。

优选地，所述基于内容的隐私保护图书推荐系统，其所述可信端，包括用户信息收集模块、偏好分析模块、伪造模块、筛选模块；

所述用户信息收集模块，用于收集用户行为并提交给偏好分析模块；

所述偏好分析模块，用于对所述用户信息收集模块提交的用户行为进行偏好分析获得用户配置文件P₀并提交给伪造模块；

所述伪造模块，用于根据所述偏好分析模块提交的用户配置文件P₀构造伪造配置文件集使得所述伪造配置文件集/>中每一伪造配置文件P_i与用户配置文件的特征分布相似性超过特征分布相似阈值并且使得敏感主题的关于由用户配置文件和伪造配置文件集组成的并集的暴露程度相对与关于用户配置文件的暴露程度明显降低；

所述筛选模块，用于将所述偏好分析模块获得用户配置文件P₀以及所述伪造模块构造伪造配置文件集中的配置文件按照随机顺序提交给所述图书推荐服务器，并接收图书推荐结果集{R₀,R₁,R₂,…,R_n}，从所述图书推荐结果集中筛选用户配置文件P₀对应的图书推荐结果R₀返回给用户。

优选地，所述基于内容的隐私保护图书推荐系统，其所述判断子模块，包括以下组件：

伪造主题集组件，用于随机生成伪造主题集U_i：从非敏感主题中挑选与用户配置文件涉及的主题数量相同数量的主题，作为伪造主题集，即：

关联组件，用于将所述伪造主题集组件构造的伪造主题集U_i与用户配置文件涉及的主题集U₀中的主题进行匹配关联，即：

伪造关键词组件，用于对于用户配置文件涉及的主题集U₀中每一主题u⁰∈U₀其图书关键词空间的每一关键词k⁰作为伪造对象构造伪造配置文件的关键词及关键词偏好程度评分，从主题u⁰关键的伪造主题集U_i中的主题集uⁱ∈U_i的关键词空间/>中，随机挑选一个伪造关键词kⁱ加入到伪造配置文件中，并将其关键词偏好程度评分设置为与其伪造对象的关键词偏好程度评分相同；即：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供的基于内容的隐私保护图书推荐方法，不影响推荐结果的准确性，对于用户隐私保护等级与图书推荐服务的效率下降程度线性正相关，不会对图书推荐性能下降构成显著影响，不会明显损害数字图书馆信息服务的可用性和高效性；同时本发明提供的隐私保护图书推荐方法，使得攻击者难以从客户端所提交的配置文件中识别出用户敏感主题，能有效地保证用户敏感主题的安全性。

本发明提供的基于内容的隐私保护图书推荐系统，可使用用户端作为可信端，不需要额外的硬件支持。

附图说明

图1是本发明提供的基于内容的隐私保护图书推荐方法流程示意图；

图2是本发明提供的基于内容的隐私保护图书推荐系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种基于内容的隐私保护图书推荐方法，如图1所示，包括以下步骤：

所述配置文件包括一组图书关键词的集合以及其中每一关键词的偏好程度评分，配置文件P可记为：

所述伪造配置文件集中每一伪造配置文件与用户配置文件的特征分布相似性超过特征分布相似阈值，可表示为：

其中，为预设的特征分布相似阈值；

主题特征分布向量UF(P)表示为：

所述敏感主题的关于由用户配置文件和伪造配置文件集组成的并集的暴露程度相对与关于用户配置文件的暴露程度明显降低，可表示为：

其关于配置文件集的暴露程度，按照如下方法计算：

优选方案，按照如下方法构造伪造配置文件集：

(2-1)初始伪造配置文件集为空集；

所述伪造配置文件P_i，按照以下方法生成：

对于每一个从/>中随机挑选一个kⁱ，使得P_i←P_i+kⁱ且mark(kⁱ)←mark(k⁰)；

(2-3)跳转到步骤(2-2)。

对于任意配置文件P按照内容推荐原理计算配置文件相应的图书推荐结果R，具体如下：

(3-1)对于任一配置文件P计算其与所有图书的图书配置文件的相似性，所述配置文件P与图书配置文件B的相似性simPB(P,B)按照如下方法计算：

(4)在步骤(3)中获得的图书推荐结果集{R₀,R₁,R₂,…,R_n}中，筛选用户配置文件P₀对应的图书推荐结果R₀，返回给用户。

本发明提供的基于内容的隐私保护图书推荐系统，如图2所示，包括可信端和不可信的图书推荐服务器；

所述可信端，包括用户信息收集模块、偏好分析模块、伪造模块、筛选模块；

所述伪造模块包括：

初始化子模块，用于初始伪造配置文件集为空集；

判断子模块，用于当所述敏感主题的关于由用户配置文件和伪造配置文件集组成的并集的暴露程度相对与关于用户配置文件的暴露程度不明显降低时增加一个伪造配置文件P_i，否则将作为构造的伪造配置文件集，即：

所述判断子模块，包括以下组件：

对于任一uⁱ∈U_i有唯一u⁰∈U₀与之关联，且每一u⁰∈U0仅关联唯一uⁱ∈U_i；

所述筛选模块，用于将所述偏好分析模块获得用户配置文件P₀以及所述伪造模块构造伪造配置文件集中的配置文件按照随机顺序提交给所述图书推荐服务器，并接收图书推荐结果集{R₀,R₁,R₂,…,R_n}，从所述图书推荐结果集中筛选用户配置文件P₀对应的图书推荐结果R₀返回给用户；

所述计算图书推荐结果集，具体为：

对于任一配置文件P计算其与所有图书的图书配置文件的相似性，所述配置文件P与图书配置文件B的相似性simPB(P,B)按照如下方法计算：

将其中与配置文件P相似性大于或等于挑选阈值或降序排列排名范围之内的图书集作为推荐结果。

以下为实施例：

一种基于内容的隐私保护图书推荐方法，包括以下步骤：

(1)由可信端收集用户的图书检索行为和偏好，生成用户配置文件；

图书分类目录层次树是一个非常重要的参考数据结构。在实现过程中，我们预先挑选了图书分类目录中处于次顶层的共209个图书目录(例如B0哲学理论、B1世界哲学等)，组建图书主题空间然后，向温州大学学校图书馆索取了其收藏图书涉及的标题信息(也可以通过网络爬虫自动爬取)，组建图书标题空间，并利用中文分词技术对各个图书标题进行分词，共获得约127,536个图书关键词，组建图书关键词空间/>由于图书馆数据库中的每本图书都拥有一个“中图法分类号”属性，它根据图书所属的各级图书分类目录自动生成。因此，借助于该属性，可将图书标题空间中的每本图书映射为图书主题空间中的一个主题(即获取图书所属的主题)，进而以图书标题空间为中介，获取各个图书关键词所属的可能主题集，进而也就获取了每个主题/>所包含的所有关键词，即/>

其中，为预设的特征分布相似阈值；

主题特征分布向量UF(P)表示为：

其关于配置文件集的暴露程度，按照如下方法计算：

本实施例按照如下方法构造伪造配置文件集：

(2-1)初始伪造配置文件集为空集；

所述伪造配置文件P_i，按照以下方法生成：

(2-3)跳转到步骤(2-2)。

实现算法如下：

在以上算法步骤10中，我们为各个用户关键词随机挑选了对应的伪造关键词，并将每个伪造关键词的偏好评分值设置为等于其对应的用户关键词的评分值，以确保关键词特征分布的相似性。在步骤5至步骤6中，我们为各个用户图书主题随机挑选了对应的伪造图书主题，以尽可能地确保这伪造配置文件与用户配置文件具有一致的主题特征分布相似性。最终，很好地保证了各个伪造配置文件P_i与用户配置文件P₀之间拥有很高的整体特征分布相似性。在此算法中，虽然嵌套了多层循环，但是实际上在每次最外层WHILE循环执行过程中(即在一次伪造配置文件的构造过程中)，最内层的FOREACH循环体(步骤9到12)被执行的次数刚好等于用户配置文件的大小，即等于|P₀|。因为伪造主题从中选取(见步骤5)，伪造配置文件不涉及到用户敏感偏好，所以，在整个最外层WHILE循环执行完后(即WHILE循环条件不再满足时)，WHILE循环体的执行次数近似等于ω(即差不多刚好产生ω个伪造配置文件)。因而，此算法的时间复杂度等于O(|P₀|·ω)。这是一个较为理想的多项式时间复杂度，它对图书推荐的总体执行效率的影响十分有限。

(3-2)将步骤(3-1)中与配置文件P相似性大于或等于挑选阈值的图书集作为推荐结果。

发明的图书推荐方法不用改变服务器端的图书推荐算法，也不会牺牲最终推荐结果的准确性。在方法中，一次图书推荐将要产生ω个配置文件和ω个推荐结果(ω为预先设定的隐私安全性阈值参数)。所以，如果忽略客户端用户隐私算法本身的执行时间，那么引入隐私保护机制后，图书推荐服务所需的执行时间将增加到原来的ω倍。阈值ω用来控制敏感主题的显著性，其值越大则用户敏感主题暴露的风险就越低。所以，本方法导致的图书推荐性能下降程度与用户隐私保护等级线性正相关，即本文方法不会对图书推荐性能下降构成显著影响。因此本方法不仅能确保图书推荐结果的准确性，并且也不会明显损害数字图书馆信息服务的可用性和高效性。

安全性方面：假定服务器端的攻击者已经掌握了图书分类目录知识，并获取了用户敏感主题保护算法的副本，他能否根据配置文件集合猜测出任意用户敏感主题/>呢？以下分为三种情况考虑。①情况一：在没有找出/>中的用户配置文件的前提下，能否直接猜测出敏感主题u^*呢？此时，攻击者只能首先获取/>各个配置文件相关的所有主题，然后逐个去猜测这些主题哪个才是用户敏感主题。由于用户敏感主题u^*的显著性已经明显降低，所以被猜测出来的可能性变得极低(等于1/ω)。②情况二：能否直接找出/>中的用户配置文件呢？这时，攻击者只能根据配置文件所表现出来的特征分布来猜测哪个才是用户配置文件。由于本文方法产生的假冒配置文件与用户配置文件具有相同的关键词特征分布和主题特征分布，所以攻击者难以根据特征分布区分出用户配置文件。③情况三：获取用户隐私保护算法的副本后，能否猜测出用户配置文件呢？这时，攻击者可以逐个输入/>中配置文件P_i，然后观测算法能否输出其余配置文件。如果成功，则表明P_i是用户配置文件。然而，这样的尝试不会成功，因为假冒关键词选取过程中，加入了随机操作(见算法的步骤5、步骤6和步骤10)。即输入相同的数据在不同运行时仍会输出不同结果。

综上所述，攻击者难以从客户端所提交的配置文件中识别出用户敏感主题。同样道理，虽然推荐结果包含有对应敏感主题的图书信息，但攻击者无法从推荐结果里猜测出哪个才是对应用户真实配置文件的推荐结果，所以也难以从推荐结果猜测出用户敏感主题。总之，本方法能有效地保证用户敏感主题的安全性，外部攻击者既难以从推荐算法的输入(用户配置文件)中识别出用户敏感主题，也难以根据推荐算法的输出(推荐结果)倒推出用户敏感主题。因而，本文方法具有良好的安全性。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于内容的隐私保护图书推荐方法，其特征在于，包括以下步骤：

其中k_i为关键词，为关键词空间，mark(k_i)为关键词偏好程度评分；

其中，为预设的特征分布相似阈值；

simK(P₀，P_i)为用户配置文件P₀和伪造配置文件P_i的关键词特征分布相似度，为用户配置文件P₀的关键词特征分布向量KF(P₀)和伪造配置文件P_i的关键词特征分布向量KF(P_i)之间的余弦相似性，按照如下方法计算：

KF(P)＝(mark(k₁)，mark(k₂)，...，mark(k_n)|k_i∈P∧mark(k_i)≥mark(k_i+1))；

simU(P₀，P_i)为用户配置文件P₀和伪造配置文件P_i的主题特征分布相似度，为用户配置文件P₀的主题特征分布向量UF(P₀)和伪造配置文件P_i的主题特征分布向量UF(P_i)之间的余弦相似性，按照如下方法计算：

其中为主题空间；

主题特征分布向量UF(P)表示为：

UF(P₀)＝(mark(u₁)，mark(u₂)，...，mark(u_d)|u_c∈U₀∧mark(u_c)≥mark(u_c+1))；

对任意图书主题的偏好程度为：

其中表示属于主题u的图书关键词集合；

(3)将步骤(1)中获得的用户配置文件P₀和步骤(2)中获得的伪造配置文件集中的伪造配置文件随机提交给服务器，并按照内容推荐原理计算配置文件相应的图书推荐结果集{R₀，R₁，R₂，...，R_n}；

(3-1)对于任一配置文件P计算其与所有图书的图书配置文件的相似性，所述配置文件P与图书配置文件B的相似性simPB(P，B)按照如下方法计算：

其中，k^B为图书配置文件B的关键词，mark(k^B)为图书配置文件B中对于关键词k^B的偏好程度评分；k^P为配置文件P的关键词，mark(k^P)为配置文件P中对于关键词k^P的偏好程度评分；

(3-2)将步骤(3-1)中与配置文件P相似性大于或等于挑选阈值或降序排列排名范围之内的图书集作为推荐结果；

(4)在步骤(3)中获得的图书推荐结果集{R₀，R₁，R₂，...，R_n}中，筛选用户配置文件P₀对应的图书推荐结果R₀，返回给用户。

2.如权利要求1所述的基于内容的隐私保护图书推荐方法，其特征在于，步骤(2)所述敏感主题的关于由用户配置文件和伪造配置文件集组成的并集的暴露程度相对与关于用户配置文件的暴露程度明显降低，可表示为：

其中ω为预设的暴露程度降低阈值，exp(u^*，P₀)为敏感主题u^*关于用户配置文件P₀的暴露程度，为敏感主题空间，/>为敏感主题u^*关于由用户配置文件P₀以和伪造配置文件集/>组成的并集的暴露程度；

其关于配置文件集的暴露程度，按照如下方法计算：

3.如权利要求2所述的基于内容的隐私保护图书推荐方法，其特征在于，步骤(2)具体为：

(2-1)初始伪造配置文件集为空集；

(2-3)跳转到步骤(2-2)。

4.如权利要求3所述的基于内容的隐私保护图书推荐方法，其特征在于，步骤(2-2)所述伪造配置文件P_i，按照以下方法生成：

5.一种基于内容的隐私保护图书推荐系统，其特征在于，包括可信端和不可信的图书推荐服务器；

所述图书推荐服务器，用于根据可信端提交的配置文件，计算图书推荐结果集{R₀，R₁，R₂，...，R_n}，并返回给可信端；

其中，为预设的特征分布相似阈值；

主题特征分布向量UF(P)表示为：

对任意图书主题的偏好程度为：

其中表示属于主题u的图书关键词集合；

所述伪造模块包括：

初始化子模块，用于初始伪造配置文件集为空集；

判断子模块，用于当所述敏感主题的关于由用户配置文件和伪造配置文件集组成的并集的暴露程度相对与关于用户配置文件的暴露程度不明显降低时增加一个伪造配置文件P_i，否则将作为构造的伪造配置文件集，即：当/>时，增加一个伪造配置文件P_i；否则返回/>作为构造的伪造配置文件集；其中ω为预设的暴露程度降低阈值，exp(u^*，P₀)为敏感主题u^*关于用户配置文件P₀的暴露程度，/> 为敏感主题u^*关于由用户配置文件P₀以和伪造配置文件集/>组成的并集的暴露程度；

所述判断子模块，包括以下组件：

对于每一个从/>中随机挑选一个kⁱ，使得P_i←P_i+kⁱ且mark(kⁱ)←mark(k⁰)

所述筛选模块，用于将所述偏好分析模块获得用户配置文件P₀以及所述伪造模块构造伪造配置文件集中的配置文件按照随机顺序提交给所述图书推荐服务器，并接收图书推荐结果集{R₀，R₁，R₂，...，R_n}，从所述图书推荐结果集中筛选用户配置文件P₀对应的图书推荐结果R₀返回给用户。