CN112765670A

CN112765670A - 一种基于标识替换的用户信息服务隐私保护方法及系统

Info

Publication number: CN112765670A
Application number: CN202110148410.0A
Authority: CN
Inventors: 卢成浪; 吴宗大
Original assignee: Zhejiang Institute of Mechanical and Electrical Engineering Co Ltd
Current assignee: Zhejiang Institute of Mechanical and Electrical Engineering Co Ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-07
Anticipated expiration: 2041-02-03
Also published as: CN112765670B

Abstract

本发明公开了一种基于标识替换的用户信息服务隐私保护方法及系统。所述方法包括以下步骤：(1)可信的中间服务器收集客户端发布的服务请求、历史服务请求序列、以及相应的虚假历史服务请求序列；(2)中间服务器构造虚假请求，使满足隐私约束和/或代价平衡约束；所述隐私约束包括内容隐私约束、和主题隐私约束；(3)将虚假请求发送给云端服务器并获得信息服务结果；(4)将信息服务结果作为服务请求的信息服务结果返回给相应的用户。所述系统设置在不可信云端服务器和客户端之间的可信的中间服务器，包括服务请求获取模块、虚假请求构造模块、服务请求通信模块、以及结果解析模块。

Description

一种基于标识替换的用户信息服务隐私保护方法及系统

技术领域

本发明属于互联网技术领域，更具体地，涉及一种基于标识替换的用户信息服务隐私保护方法及系统。

背景技术

信息服务是以现代信息技术和网络技术为手段，以多种形式向用户提供所需信息的一项活动，它使人们能及时、有效、充分地利用网络信息，为完善人类社会生活而服务，它是信息管理活动的出发点和归宿，是信息管理学研究的重要领域和内容。随着云计算等新兴网络技术的迅速发展，网络服务器端正变得越来越不可信，已成为用户隐私泄露的主要根源。随着人们隐私意识的不断增强，用户隐私问题已成为制约现代信息服务进一步发展的主要障碍，成为信息管理学研究迫切需要解决的热点和难点问题。用户信息服务隐私是指用户信息服务请求数据背后所蕴含的个人偏好隐私，如图书查询记录蕴含用户的主题偏好，网页浏览记录蕴含着用户的兴趣偏好。加密是确保数据安全的重要手段，如可将用户资料数据加密后再发布给网络服务器进行存储，这样即使它们不幸泄露，也难以被读懂，从而改善用户资料隐私在不可信服务器端的安全性。然而，加密并不适用于用户信息服务隐私问题，因为如果将用户请求数据加密后再提交给服务器端，会使得服务器因无法读懂，而使得信息服务变得不可用。相比于用户资料数据隐私，不可信网络环境下用户信息服务隐私保护问题显然更具有挑战性。亟待开发用户信息服务隐私保护方法，以期在不损害现有信息服务可用性前提下，改善用户信息服务隐私在不可信服务器端的安全性，从而为构建用户隐私安全信息服务奠定基础。

针对不可信网络环境下的用户隐私安全问题，信息科学领域学者已给出了许多有效方法，代表性地有加密法、掩盖法、混淆法和假名法。加密法是指通过加密使得用户请求数据对服务器端不可见，以实现隐私保护，代表性地有PIR。该类技术不仅需要额外硬件和复杂算法的支持，而且需要改变现有服务算法，降低了它在现代信息服务中的可用性。掩盖法是指通过泛化敏感数据(如通过隐藏区泛化用户具体位置；通过一般性偏好泛化用户具体偏好)，以保护用户隐私。用户数据的修改难免会降低信息服务精度或效率。混淆法是指通过引入伪请求对用户请求进行适当混淆，使得服务器端难以获知用户真实请求，以保护用户隐私。然而，该类方法容易遭受数据挖掘攻击，并且其信息服务效率损失线性相关于伪请求数量。假名法是指通过隐藏或伪造用户身份标识，允许用户以不暴露身份的方式使用系统。假名法依赖于第三方服务器，容易形成隐私瓶颈，并且许多信息服务平台要求用户必须实名登录，这在一定程度上限制了假名法的实用性。

综上所述，已有技术方法在实用性、准确性、高效性、安全性等方面仍无法满足用户信息服务隐私保护的实际需求。具体地，有效的用户信息服务隐私保护方法需要满足以下四方面要求：①确保用户隐私的安全性，即能有效改善各种类型、各种形式用户信息服务隐私在不可信服务器端的安全性；②确保信息服务的准确性，即用户最终得到的信息服务结果不受影响；③确保信息服务的高效性，即用户信息服务效率基本保持一致；④确保信息服务的可用性，即隐私保护过程对用户和信息服务算法完全透明。

理想的用户信息服务隐私保护方法需要能够在确保信息服务的准确性、高效性和实用性的基本前提下，有效改善用户信息服务隐私在不可信服务器端的安全性。而现有技术方法通常针对单一类型的用户服务隐私(如位置服务、搜索服务、推荐服务等)而提出，在可用性、准确性、高效性和安全性等方面仍无法满足用户信息服务隐私保护的实际应用需求。在现有平台架构下，如何实现信息服务实用性和用户隐私安全性的有效统一，仍有待深入研究。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种是以整体信息服务隐私为研究切入点，不以具体信息服务为限制的基于标识替换的用户信息服务隐私保护方法及系统，其目的在于针对不可信网络环境下的信息服务，构建基于标识替换的用户隐私保护框架、保护模型和实现算法，有效地突破已有技术方法在用户信息服务隐私保护中的应用局限，即能在不牺牲信息服务实用性(包括准确性、高效性和可用性)的基本前提下，改善用户服务隐私在不可信服务器端的安全性，由此解决现有技术准确性不搞或效率降低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于标识替换的用户信息服务隐私保护方法，其包括以下步骤：

(1)可信的中间服务器收集客户端发布的服务请求p_n＝(u@p_n，e@p_n)、来自所有用户的历史服务请求序列P_h＝p₀p₁...p_n-1、以及相应的虚假历史服务请求序列P′_h＝p′₀p′₁...p′_n-1；

(2)中间服务器根据步骤(1)获得的用户标识u@p_n从用户标识符空间

中选取非当前用户标识的虚假标识符u@p′_n，从而构造服务请求p_n的虚假请求p′_n＝(u@p′_n，e@p′_n)，其中e@p′_n＝e@p_n，使得虚假请求p′_n和历史虚假请求序列P′_h构成的虚假请求序列P′＝p′₀p′₁...p′_n-1p′_n、以及服务请求p_n和历史服务请求序列P_h＝p₀p₁...p_n-1构成的服务请求序列P＝p₀p₁...p_n-1p_n，满足隐私约束和/或代价平衡约束；所述隐私约束包括内容隐私约束、和主题隐私约束；

(3)中间服务器将步骤(2)构造的虚假请求p′_n＝(u@p′_n，e@p′_n)发送给云端服务器并获得信息服务结果R(p′_n)；

(4)中间服务器根据步骤(2)构造的虚假请求序列P′＝p′₀p′₁...p′_n-1p′_n和服务请求序列P＝p₀p₁...p_n-1p_n的关联关系，将信息服务结果R(p′_n)作为服务请求p_n的信息服务结果R(p_n)返回给相应的用户u@p_n。

优选地，所述基于标识替换的用户信息服务隐私保护方法，其对于任意服务请求p＝(u@p，e@p)，其中u@p为用户标识符，e@p为请求内容，其相应的虚假请求为经标识符替换后使得标识符不同于该服务请求且请求内容与该服务请求相同的服务请求p′，其中

为标识符空间，

为请求内容空间，

为用户服务请求空间，即

标识替换变换过程可表示为如下函数映射

有：

所述来自所有用户的历史服务请求序列P_h，为预设的时间段内所有用户发布的信息服务请求构成的时间序列，记作P_h＝p₀p₁...p_n-1，其中

所述相应的虚假历史服务请求序列为该预设时间段内，经标识符替换后提交给服务器的虚假请求序列，记作P_′h＝γ(P_h)，则有：

P′_h＝p′₀p′₁...p′_n-1＝γ(p₀)γ(p₁)...γ(p_n-1)。

优选地，所述基于标识替换的用户信息服务隐私保护方法，其步骤(1)所述内容隐私约束，即使得虚假请求序列P′和服务请求序列P的内容隐私PE(P，P′)最小，所述虚假请求序列P′和服务请求序列P的内容隐私PE(P，P′)为虚假请求序列P′和服务请求序列P中相同请求在数量，即虚假请求序列中的虚假请求p′_k∈P′出现在服务请求序列P中的个数，或服务请求序列中的服务请求p_k∈P出现在虚假请求序列P′中的个数，记作：

对于给定的用户标识符

为该用户关于任意请求序列P的子序列，即由服务请求序列中用户标识符为u_k的服务请求构成的时间序列，记作：

优选地，所述基于标识替换的用户信息服务隐私保护方法，其所述主题隐私约束，即使得虚假请求序列P′和服务请求序列P的主题隐私PT(P，P′)最小，所述虚假请求序列P′和服务请求序列P的主题隐私PT(P，P′)即虚假请求序列中的虚假请求p′_k∈P′其请求内容e@p′_k涉及其用户标识符表示的用户敏感主题的个数，或服务请求序列中的服务请求p_k∈P其请求内容e@p_k涉及其相应虚假请求γ(p_k)的用户标识符表示的用户敏感主题的个数，记作：

对于给定的用户标识符

Θ(u_k)为该用户敏感主题，任意请求内容e@p_k∈Θ(u_k)则称该请求内容涉及用户标识符u_k标识的用户敏感主题。

优选地，所述基于标识替换的用户信息服务隐私保护方法，其步骤(2)所述代价平衡约束，使得服务请求序列P关联的所有用户标识符θ(P)在虚假请求序列P′和服务请求序列P的服务代价平衡性PR(P，P′)最小，所述代价平衡性即服务请求序列P关联的所有用户标识符θ(P)关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值的均值，记作：

其中Ψ(u，P，P′)为用户标识符u关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值，按照如下方法计算：

记μ(p)为服务器处理服务请求

的代价。

优选地，所述基于标识替换的用户信息服务隐私保护方法，其步骤(2)具体方案为以下策略之一：

隐私匹配策略：使得虚假请求序列P′和服务请求序列P满足隐私约束；

代价匹配策略：使得虚假请求序列P′和服务请求序列P满足代价平衡约束；

平衡匹配策略：使得虚假请求序列P′和服务请求序列P满足隐私约束和代价平衡约束。

优选地，所述基于标识替换的用户信息服务隐私保护方法，其所述隐私匹配策略：具体包括以下步骤：

对于服务请求p_n＝(u@p_n，e@p_n)，重复从标识符空间

中随机选择不同于该服务请求用户标识符u@p_n的用户标识符u_k，直至所述用户标识符u_k满足隐私条件，则将该用户标识符u_k作为构造的服务请求p_n的虚假请求p′_n的用户标识符，即使得u@p′_n＝u_k；所述隐私条件为：用户标识符u_k关于历史服务请求序列P_h的子序列中任意请求的请求内容与服务请求p_n的请求内容e@p_n不同且服务请求p_n的请求内容e@p_n不涉及用户标识符u_k的敏感主题，记作：

所述代价匹配策略，具体包括以下步骤：

对于服务请求p_n＝(u@p_n，e@p_n)，从历史服务请求序列P_h关联的所有用户标识符θ(P_h)中选择不同于该服务请求用户标识符u@p_n且关于历史服务请求序列P_h的子序列和关于历史虚假请求序列P_h′的子序列的查询代价差异绝对值最小的用户标识符u_k，将该用户标识符u_k作为构造的服务请求p_n的虚假请求p′_n的用户标识符，即使得u@p′_n＝u_k，记作：

所述平衡匹配策略，具体包括以下步骤：

S1、将历史服务请求序列P_h关联的所有用户标识符θ(P)，按照关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值从小到大的顺序进行排序，得到有序的用户标识符列表U；

S2、在按照标识符列表U的预设区段内U[k，k+m]，重复随机选择不同于该服务请求用户标识符u@p_n的用户标识符u_k，直至所述用户标识符u_k满足隐私条件，则将该用户标识符u_k作为构造的服务请求p_n的虚假请求p′_n的用户标识符，即使得u@p′_n＝u_k；所述隐私条件为：用户标识符u_k关于历史服务请求序列P_h的子序列中任意请求的请求内容与服务请求p_n的请求内容e@p_n不同且服务请求p_n的请求内容e@p_n不涉及用户标识符u_k的敏感主题，记作：

优选地，所述基于标识替换的用户信息服务隐私保护方法，其所述用户标识符列表U的预设区段采用标识符列表U的前m个用户标识符，即从m个在代价平衡约束上表现最佳的候选标识中，随机选取满足隐私条件的用户标识符。

按照本发明的另一个方面，提供了一种基于标识替换的用户信息服务隐私保护系统，其设置在不可信云端服务器和客户端之间的可信的中间服务器，包括服务请求获取模块、虚假请求构造模块、服务请求通信模块、以及结果解析模块；

所述服务请求获取模块，用于收集客户端发布的服务请求p_n＝(u@p_n，e@p_n)，并存储所有用户的历史服务请求序列P_h＝p₀p₁...p_n-1，提交给所述虚假请求构造模块；

所述虚假请求构造模块，用于存储历史服务请求序列P_h相应的虚假历史服务请求序列P′_h＝p′₀p′₁...p′_n-1，并根据所述服务请求获取模块提交的服务请求p_n＝(u@p_n，e@p_n)及所有用户的历史服务请求序列P_h，构造服务请求p_n的虚假请求p′_n＝(u@p′_n，e@p′_n)提交给所述服务请求通信模块，其中e@p′_n＝e@p_n，使得虚假请求p′_n和历史虚假请求序列P′_h构成的虚假请求序列P′＝p′₀p′₁...p′_n-1p′_n、以及服务请求p_n和历史服务请求序列P_h＝p₀p₁...p_n-1构成的服务请求序列P＝p₀p₁...p_n-1p_n，满足隐私约束和/或代价平衡约束；所述隐私约束包括内容隐私约束、和主题隐私约束；

所述服务请求通信模块，用于将所述虚假请求构造模块提交的虚假请求p′_n＝(u@p′_n，e@p′_n)发送给云端服务器并获得信息服务结果R(p′_n)，返回给所述结果解析模块；

所述结果解析模块，用于根据所述虚假请求构造模块构造的虚假请求序列P′＝p′₀p′₁...p′_n-1p′_n和服务请求序列P＝p₀p₁...p_n-1p_n的关联关系，将信息服务结果R(p′_n)作为服务请求p_n的信息服务结果R(p_n)返回给相应的用户u@p_n。

优选地，所述基于标识替换的用户信息服务隐私保护系统，其所述虚假请求构造模块，采用以下策略之一：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明构建生成的虚假服务请求序列能较好地满足代价平衡性约束，且隐私平衡匹配策略在隐私安全性指标上的性能表现基本等于最优的隐私匹配策略，远优于随机匹配策略，并且这种良好的隐私安全性能表现不会随着用户数量的增加，或者单个用户请求序列长度的增加，而发生明显的改变。因此，本发明构建生成的虚假服务请求序列能很好地满足隐私安全性约束。另外本发明由于计算简单，并不会给中间服务器造成过多的资源消耗(并不会形成性能瓶颈)，也不会对用户信息服务的执行效率构成显著影响。

附图说明

图1是本发明采用的系统结构图；

图2是本发明实施例各个标识匹配策略关于代价平衡性指标的性能评估结果；

图3是本发明实施例各个标识匹配策略关于隐私安全性指标的性能评估结果；

图4是本发明实施例各个标识匹配策略对信息服务请求实际执行效率的影响评估结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于标识替换的用户信息服务隐私保护方法，包括以下步骤：

对于任意服务请求p＝(u@p，e@p)，其中u@p为用户标识符，e@p为请求内容，其相应的虚假请求为经标识符替换后使得标识符不同于该服务请求且请求内容与该服务请求相同的服务请求p′，其中

为标识符空间，

为请求内容空间，

为用户服务请求空间，即

标识替换变换过程可表示为如下函数映射

有：

所述相应的虚假历史服务请求序列为该预设时间段内，经标识符替换后提交给服务器的虚假请求序列，记作P′_h＝γ(P_h)，则有：

P′_h＝p′₀p′₁...p′_n-1＝γ(p₀)γ(p₁)...γ(p_n-1)

所述内容隐私约束，即使得虚假请求序列P′和服务请求序列P的内容隐私PE(P，P′)最小，所述虚假请求序列P′和服务请求序列P的内容隐私PE(P，P′)为虚假请求序列P′和服务请求序列P中相同请求在数量，即虚假请求序列中的虚假请求p′_k∈P′出现在服务请求序列P中的个数，或服务请求序列中的服务请求p_k∈P出现在虚假请求序列P′中的个数，记作：

对于给定的用户标识符

所述主题隐私约束，即使得虚假请求序列P′和服务请求序列P的主题隐私PT(P，P′)最小，所述虚假请求序列P′和服务请求序列P的主题隐私PT(P，P′)即虚假请求序列中的虚假请求p′_k∈P′其请求内容e@p′_k涉及其用户标识符表示的用户敏感主题的个数，或服务请求序列中的服务请求p_k∈P其请求内容e@p_k涉及其相应虚假请求γ(p_k)的用户标识符表示的用户敏感主题的个数，记作：

对于给定的用户标识符

所述代价平衡约束，使得服务请求序列P关联的所有用户标识符θ(P)在虚假请求序列P′和服务请求序列P的服务代价平衡性PR(P，P′)最小，所述代价平衡性即服务请求序列P关联的所有用户标识符θ(P)关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值的均值，记作：

记μ(p)为服务器处理服务请求

的代价。

具体方案为以下策略之一：

隐私匹配策略：使得虚假请求序列P′和服务请求序列P满足隐私约束；具体包括以下步骤：

对于服务请求p_n＝(u@p_n，e@p_n)，重复从标识符空间

由于应用情形下标识符空间

和请求内容空间

十分巨大，因此几乎必然存在这样的u_k，随机匹配无法选择到满足隐私条件的用户标识符的情况实际不需要考虑。

代价匹配策略：使得虚假请求序列P′和服务请求序列P满足代价平衡约束；具体包括以下步骤：

类似的，由于历史服务请求序列足够大，因此不考虑无法选择到满足代价平衡约束的情况。

平衡匹配策略：使得虚假请求序列P′和服务请求序列P满足隐私约束和代价平衡约束；具体包括以下步骤：

优选，用户标识符列表U的预设区段采用标识符列表U的前m个用户标识符，即从m个在代价平衡约束上表现最佳的候选标识中，随机选取满足隐私条件的用户标识符。

当不能选择出满足隐私约束和代价平衡约束的标识符时，应扩大m的值再次进行选择，或者改变预设的区段再次进行选择。

本发明提供的基于标识替换的用户信息服务隐私保护系统，为设置在不可信云端服务器和客户端之间的可信的中间服务器，包括服务请求获取模块、虚假请求构造模块、服务请求通信模块、以及结果解析模块；

所述虚假请求构造模块，采用以下策略之一：

平衡匹配策略：使得虚假请求序列P′和服务请求序列P满足隐私约束和代价平衡约束；

以下为实施例：

本发明的基于标识替换的用户信息服务隐私保护基本架构如图1所示，该架构建立在一个不可信云端服务器、一个可信中间服务器以及若干可信客户端之上，其中：①云端服务器负责运行各类信息服务算法(如位置服务、检索服务、网页浏览服务等)，为用户提供各类信息服务，它脱离了信息系统本地管理者的管理控制，因而不可信；②客户端运行用户信息服务界面，用户通过客户端发布各类信息服务请求，由于部署在本地，因而它是高度可信的；③中间服务器部署在客户端和服务器之间，它负责运行隐私保护算法(即用户标识替换算法)，它将客户端所提交信息服务请求中的用户标识，以其他非当前用户标识替换(称作虚假标识)，打破用户与其请求之间的天然关联，从而实现对用户信息服务隐私的有效保护。

在图1的基于标识替换的用户信息服务隐私保护架构中，中间服务器要求部署在信息系统的本地机构(如数字图书馆的本地机房)，以接受信息系统本地管理者的严格管控，因而，同客户端一样，它也是高度可信的。该隐私保护架构的一般化数据处理过程可简要描述如下。①对于用户通过客户端界面所发布的任意服务请求p_n＝(u@p_n，e@p_n)(其中u@p_n表示用户标识，e@p_n表示请求内容)，首先将其提交给中间中间服务器处理，而不是直接提交给云端服务器。②中间服务器获得用户服务请求p_n后，将结合自身保存的用户标识表(存储着信息系统中所有合法的用户标识信息)，按照一定的匹配策略(这是本发明的关键点)，从中选取出其他非当前用户标识u_k(称作虚假标识)替换当前用户标识u@p_n，重新构造生成新的服务请求p′₀＝(u_k，e@p_n)(称作虚假请求)。然后，将虚假服务请求p′_n代替用户服务请求p_n提交给云端服务器。③云端服务器获得虚假服务请求p′_n后，将根据请求内容e@p_n为用户提供相应的信息服务，并将结果返回给中间服务器。④中间服务器根据其保存的虚假标识u_k关联的真实用户信息，将服务器返回的服务结果返回给客户端相应用户。

一种基于标识替换的用户信息服务隐私保护方法，包括以下步骤：

为标识符空间，

为请求内容空间，

为用户服务请求空间，即

标识替换变换过程可表示为如下函数映射

有：

P′_h＝p′₀p′₁...p′_n-1＝γ(p₀)γ(p₁)...γ(p_n-1)

记γ的逆映射函数为γ^-1，即p＝γ^-1(p′)。

对于给定的用户标识符

对于给定的用户标识符

为该用户敏感主题，任意请求内容e@p_k∈Θ(u_k)则称该请求内容涉及用户标识符u_k标识的用户敏感主题。

记μ(p)为服务器处理服务请求

的代价。

标识替换必须能有效改善用户信息服务隐私在不可信服务器端的安全性，其约束内容包括多个方面。其一是虚假标识不能与用户标识相同；其二是用户标识也不能对虚假用户形成任何隐私威胁，即需要满足隐私约束。

具体方案为以下策略之一：

对于服务请求p_n＝(u@p_n，e@p_n)，重复从标识符空间

由于应用情形下标识符空间

和请求内容空间

(3)中间服务器将步骤(2)构造的虚假请求p′_n＝(u@p′_n，e@p′_n)提交给云端服务器并获得信息服务结果R(p′_n)；

从图1可以看出：①由于提交给云端服务器的信息服务内容并没有改变(仅替换了用户标识)，因而云端服务器返回给中间服务器的信息服务结果必然与引入隐私方法前一致，即能有效地确保信息服务的准确性；②云端服务器执行的还是用户信息服务原来的请求内容，因而信息服务执行效率必然与引入隐私方法前一致(仅仅增加了隐私算法本身的执行时间，这几乎可忽略不计)，即能有效地确保信息服务的高效性；③隐私算法部署在中间服务器，它是部署在客户端用户和云端服务算法间的一层中间件，其隐私保护过程对外部用户和服务算法透明，即能有效地确保信息服务的可用性。此外，还可以看出，代替用户当前标识的虚假标识同样是选取自用户标识空间中的合法标识，这确保了虚假信息服务请求能顺利通过云端服务器的实名检测，进一步确保了该架构在现代信息服务平台中的可用性。综上，本系统框架不改变信息服务准确性和高效性，也不改变信息服务算法和用户使用习惯，因而具有良好的实用性。

当然，由于所有用户服务请求都要经过中间服务器，这容易导致相关工作部分提及的性能瓶颈问题和隐私瓶颈问题。①对于性能瓶颈问题，由于用户隐私保护过程仅仅是对用户服务请求中的标识信息进行简单替换，并不需要消耗过多时间，因而不会导致性能瓶颈(后文给出的实验结果也验证了这点)。②对于隐私瓶颈问题，本框架不同于现有的假名法，它要求中间服务器必须部署在信息系统的本地机构(即部署在可信的信息系统内网，而不是部署在不可信的云端)，并接受信息系统本地管理者的管控，因而它的可信性是可以确保的，并不会导致隐私瓶颈。后文的攻击模型也对此进行了规范。然而，从图1还可以看出，中间服务器所选用的用户标识替换算法是用户信息服务隐私保护基本框架的关键所在，也是确保用户信息服务隐私在不可信云端安全性的关键所在。通常，理想的用户标识替换算法应满足以下几方面约束。

①隐私约束，即信息服务请求标识替换能有效改善用户信息服务隐私在不可信服务器端的安全性。这一约束表现为两个方面。其一是虚假标识不能与用户标识相同，使得攻击者无法获知当前请求的真实发布用户，从而有效改善当前用户信息服务隐私的安全性。具体可形式化描述如下：记用户信息服务请求为p_n＝(u@p_n，e@p_n)以及完成标识替换后的虚假信息服务请求为p′_n＝(u@p′_n，e@p′_n)，则两者满足e@p′_n＝e@p_n∧u@p_n≠u@p′_n。这一约束很显然，若不满足则表明标识替换没有执行，也就无法打破用户标识与其服务请求之间的关联。其二是用户标识也不能对虚假标识所对应的用户(称作虚假用户，即虚假标识选取自其他非当前用户)形成任何隐私威胁。用户信息服务隐私保护是全体性的，虚假标识要实现对当前用户的信息服务隐私保护，当前用户也不能对虚假用户构成隐私威胁。这里又可细分为两层约束：第一层是用户请求内容e@p_n(也即e@p′_n)不应与虚假标识u@p′_n所对应用户(即虚假用户)的任意历史请求内容相同(否则攻击者可据此直接获知该虚假用户也曾发布过请求内容e@p_n)；第二层是用户请求内容e@p_n(也即e@p′_n)不应与虚假用户u@p′_n的任何敏感主题语义相关(否则攻击者可据此直接获知虚假用户的敏感主题)。最后需要指出的是，鉴于隐私保护是标识替换的根本目的，因而该约束是标识替换算法必须完全满足的强制性要求。

②代价约束，即信息服务请求标识替换能有效确保每个用户信息服务总代价的平衡性。在现有信息服务平台架构下，通常云端服务器是按照每个用户服务请求总代价(等于用户所发布的各服务请求所需要消耗的服务器资源代价的总和)向用户索要费用。而引入用户标识替换机制后，云端服务器根据虚假标识计算得到的用户服务请求总代价跟每个用户实际的代价消耗之间不具有一致性(甚至可能出现高度不一致)。有鉴于此，理想的标识替换算法应保证在标识替换过程中，云端服务器根据虚假标识为每个用户计算得到的服务代价与用户真实服务代价基本保持一致。最后需要指出的是，该约束并不是必须完全满足的强制性要求，即它只要求被尽可能地满足。

③性能约束，即信息服务请求标识替换能有效确保中间服务器不会承担过多计算量。根据前文分析可知，中间服务器性能瓶颈的破除是建立在标识替换高效的基础之上。为此，通常中间服务器并不存储信息系统数据库，它仅存储相关的用户标识信息，以减轻中间服务器的资源消耗。当然，该约束也不是必须满足的强制性要求，它只要求被尽可能地满足。

在本发明中，客户端完全由信息系统用户自行管理和控制，而中间服务器部署在信息系统的本地机构(即部署在可信的信息系统内网，而不是部署在不可信云端)，并接受信息系统本地管理者的管控，因而客户端和中间服务器的可信性都是可以确保的。然而，云端服务器部署在云端，它脱了信息系统本地管理者的控制，因而云端服务器被认为是不可信的，它是导致用户隐私泄露的主要根源。我们假定攻击者已经获得了云端服务器的控制权(但没有获得客户端和中间服务器的控制权)，即用户隐私威胁仅来自云端服务器。从图1的系统架构，可以看出：虽然云端服务器攻击者能够获得中间服务器提交的所有服务请求序列，但它们都是经过了标识替换的虚假服务请求(而非客户端用户所提交的真实服务请求)。因此，攻击者的攻击源主要依赖于虚假服务请求。有效的虚假服务请求应能保证：对于信息系统中任意用户发布的任意请求，云端攻击者根据其对应的虚假请求都无法获知该用户曾发布过该请求，从而实现对用户信息服务隐私的有效保护。有效的虚假服务请求还应保证：对于信息系统任意用户的任意敏感主题，云端攻击者根据虚假请求都无法获知该用户与该敏感主题有任何关联。此外，攻击者还可能获取了运行在中间服务器的用户标识替换算法的副本，然后选取合适的用户标识输入算法，并观察算法输出结果，看是否能输出对应的虚假标识，以此来推测虚假标识对应的用户标识(若成功，则攻击者可将请求内容与用户标识联系起来，从而获知用户信息服务隐私)。

本实施例步骤2采用以下算法进行不同的用户标识符变换测试：

其中随机匹配策略为：

从用户标识空间中随机选取一个虚假标识，替换用户服务请求关联的用户标识。对于用户提交的任意服务请求p＝(u@p，e@p)，将其中的用户标识u@p以用户标识空间

中随机选取的虚假标识u_k替换，从而得到虚假请求p′＝(u_k，e@p)。

算法1描述了运行在中间服务器的基于标识替换的用户信息服务隐私保护过程。在算法1中，我们将上文给出的四个用户标识匹配策略都糅合在了一起，用户可以自由选择其中一种匹配策略。从算法1可以看出，①对于随机匹配策略(语句1至语句3)，它不考虑任何约束条件，直接从用户标识空间为用户标识随机选取虚假标识，其过程简单而高效。②对于隐私匹配策略(语句4至语句10)，它在虚假标识随机选取基础之上(语句6)，加入了对选取的虚假标识是否能满足内容隐私约束和主题隐私约束的判断(语句7)；如果不满足约束，则重新选择标识，直到满足为止。在算法中，我们多处引入了类似的随机操作，这是为了增加虚假标识选取的不确定性，使得即使面对相同输入，两次算法运行也会得到完全不同的输出，从而增加了安全性。③对于代价匹配策略(语句11至语句14)，算法从历史服务请求序列P_h所关联的用户标识集合θ(P_h)，为用户当前标识选取一个满足以下约束的其他用户标识u_k作为目标虚假标识：

即目标标识的真实服务代价与虚假服务代价之间的差异程度最小，因此，选取它作为虚假标识是为了降低这种差异程度。④对于本发明优选的平衡匹配策略(语句15至语句23)，先按照代价匹配策略对候选虚假标识按照真假代价之间的差异程度进行排序，然后按照隐私匹配策略从m个在代价平衡约束上表现最佳的候选标识中，随机选取满足内容隐私约束和主题隐私约束的作为用户标识的虚假标识。

从算法1还可以看出，算法各个匹配策略的执行时间基本是线性的，因此执行效率表现优异。此外，根据章节3.2的问题陈述，鉴于隐私保护是标识替换的根本目的，因而算法1确保最终生成的虚假服务请求序列与其对应用户服务请求序列之间能有效地满足内容隐私约束和主题隐私约束必然强制性要求(隐私匹配策略的语句7和平衡匹配策略的语句20)。但是由于代价平衡约束并不是必须完全满足的强制性要求，因此算法1的隐私匹配策略和平衡匹配策略为了增加虚假标识的不确定性，在一个较大范围内随机选取虚假标识，因而最终得到的虚假服务请求序列在代行平衡指标上并不是关于用户请求序列的最优解(仅是近似解)。

有效性评价：

评价有效性，即评估用户标识替换策略所生成的虚假服务请求序列是否能满足代价约束和隐私约束，以及是否会对信息服务的执行效率造成显著影响。为了简化实验，我们采用数字图书馆的图书检索作为用户信息服务。实验中，我们挑选图书分类目录中处于次顶层的209个图书目录组建用户主题空间，收集了本单位数字图书馆约50万个图书标题组建图书标题空间(即用户请求内容空间

)，并建立了图书标题与图书主题之间的相关映射此外，我们还精心挑选了图书馆50名读者的近年图书查询记录(即|θ(P_h)|≤50)，为每位读者精心挑选了200条图书查询请求(即单个用户的服务请求序列长度为200，即|P_h|≤10000)，每位读者平均覆盖约10个图书主题。我们还根据读者的图书查询记录，为读者设置了各自的敏感主题(每位读者的敏感主题数量等于2)。

下文以Random表示随机匹配策略，以PrivacyFirst表示隐私匹配策略(即步骤(2-1))，以CostFirst表示代价匹配策略(即步骤(2-2))，以PrivacyCost表示本发明优选的平衡匹配策略(即步骤(2-3))。实验中，所有算法都是用Java语言完成。实验是在配置为IntelCore 2Duo 3GHz CPU和最大工作内存为2GB的Java虚拟机(版本1.7.007)上执行。

实验一旨在评估各个用户标识替换策略在代价平衡性指标上的性能，即衡量在用户标识替换后，云端服务器根据虚假标识为每个用户计算得到的服务总代价与用户真实服务总代价能否基本保持一致。这里使用“代价平衡性”，以度量虚假请求序列关于用户请求序列的代价平衡性，即PR(P,P')。该度量值越小越好，它意味着标识替换的代价平衡性越好。该组实验在50个读者(用户)所发布的服务请求序列之上进行。实验评估结果如图2所示，其中，横坐标表示该组实验中单个用户服务请求序列的长度(从140至200)，纵坐标为代价平衡性指标度量值，每个子图中N表示该组实验中请求序列的用户数量(即用户发布的原始请求序列所涉及的用户数量)。据图，我们有以下几个主要观察。①随机匹配策略和隐私匹配策略在代价平衡性指标上的性能表现较差，即云端服务器根据虚假标识为每个用户计算得到的信息服务宗代价与每个用户的真实信息服务总代价之间，存在非常显著的不一致性，并且这种不一致性还随用户数量的减少或单个用户请求序列长度的增加，而进一步增强，因而难以满足代价平衡性约束条件。②代价匹配策略由于在虚假标识的选择过程，并不考虑内容隐私安全约束和主题隐私安全约束，而仅仅考虑了代价平衡约束，从而使得云端服务器根据虚假标识为每个用户计算得到的服务总代价与用户真实服务总代价高度一致，两者之间的差距几乎等于0。因而，这是代价平衡性指标的性能上限。③最后，对比前面的观察结果可看出，本发明推荐的隐私匹配策略在代价平衡性指标上的性能接近于最优的代价匹配策略，而远优于随机匹配策略和隐私匹配策略，并且这种良好的代价平衡性能表现不会随着用户数量的减少或者单个用户请求序列长度的增加，而发生明显的改变。因此，本方法构建生成的虚假服务请求序列能较好地满足代价平衡性约束。

实验二旨在评估各个用户标识替换策略在隐私安全性指标上的性能表现，即用户标识替换能否有效改善用户信息服务隐私在不可信服务器端的安全性。这里使用“隐私安全性”指标，即内容隐私PE(P,P')和主题隐私PT(P,P')的均值，以度量虚假服务请求序列关于用户服务请求序列的隐私伤害性。该度量值越小越好，它意味着用户信息服务隐私的安全性越好。实验结果如图3所示，其中，横坐标表示该组实验中单个用户服务请求序列的长度，纵坐标为代价平衡性指标度量值，每个子图N表示该组实验中服务请求所涉及的用户数量。据图，我们有以下观察。①随机匹配策略和代价匹配策略在安全性指标上的性能表现均较差，即根据该两个匹配策略所得到的虚假请求序列不能有效改善用户信息服务隐私在不可信服务器端的安全性。②隐私匹配策略在虚假标识选择过程中，充分考虑了虚假请求序列关于用户请求序列的隐私伤害性问题，使得虚假请求序列背后所涉及的几乎所有虚假标识均不会对真实用户形成任何隐私威胁，即隐私安全性指标度量值基本等于0。因而，这是隐私安全性指标的性能上限。③最后，对比前面的观察结果可看出，本发明推荐的隐私平衡匹配策略在隐私安全性指标上的性能表现基本等于最优的隐私匹配策略(这是因为本发明策略确保了隐私安全约束必然得到满足)，远优于随机匹配策略和代价匹配策略，并且这种良好的隐私安全性能表现不会随着用户数量的增加，或者单个用户请求序列长度的增加，而发生明显的改变。因此，本发明方法构建生成的虚假服务请求序列能很好地满足隐私安全性约束(包括了内容隐私约束和主题隐私约束)。

实验三旨在评估各个用户标识替换策略对信息服务请求实际执行效率的影响情况，即评估引入用户标识替换算法后，对用户信息服务请求执行效率是否会产生显著影响。记未引入用户标识替换方法之前的用户请求服务执行时间为t₀(即用户发送服务请求到最终获得请求结果需要消耗时间)，记引入用户标识替换方法之后的用户请求服务执行时间为t₁，则本组实验的度量指标可表示如下：

显然，度量值越小越好，它意味着用户标识替换策略对用户服务请求的执行效率影响程度越小。实验评估结果如图4所示，其中，横坐标表示单位时间内所发布的用户服务请求数量，纵坐标为执行效率指标度量值，每个子图N表示该组实验中信息服务请求序列所涉及的用户数量。据图，我们有以下几个观察。①四个用户标识替换策略的对用户信息服务请求的执行效率并没有形成明显影响(效率影响度量值均低于10％)，这是因为这些策略本身的执行效率非常高，使得用户信息服务执行效率的主要影响因素来自云端服务器的信息服务算法的执行时间(而不是中间服务器的用户标识替换时间)以及客户端、中间服务器和云端服务器之间的数据传输时间，而这些影响因素对四个用户标识替换策略来说是彼此相同的。②候选策略的对用户服务请求执行效率的影响，不受服务请求序列所涉及的用户数量的影响，但它会随着单位时间内中间服务器接收到的用户服务请求数量的增加，而有所增强，这是因为随着用户数量的增加，中间服务器的负载也随之增加，使得用户标识替换和网络传输需要消耗的时间会随之增加，但总体对用户服务请求执行效率的影响并不显著。因此，用户标识替换过程由于计算简单，并不会给中间服务器造成过多的资源消耗(并不会形成性能瓶颈)，也不会对用户信息服务的执行效率构成显著影响。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于标识替换的用户信息服务隐私保护方法，其特征在于，包括以下步骤：

(1)可信的中间服务器收集客户端发布的服务请求p_n＝(u@p_n，e@p_n)、来自所有用户的历史服务请求序列P_h＝p₀ p₁…p_n-1、以及相应的虚假历史服务请求序列P′_h＝p′₀ p′₁…p′_n-1；

中选取非当前用户标识的虚假标识符u@p′_n，从而构造服务请求p_n的虚假请求p′_n＝(u@p′_n，e@p′_n)，其中e@p′_n＝e@p_n，使得虚假请求p′_n和历史虚假请求序列P′_h构成的虚假请求序列P′＝p′₀ p′₁…p′_n-1p′_n、以及服务请求p_n和历史服务请求序列P_h＝p₀ p₁…p_n-1构成的服务请求序列P＝p₀p₁…p_n-1 p_n，满足隐私约束和/或代价平衡约束；所述隐私约束包括内容隐私约束、和主题隐私约束；

(4)中间服务器根据步骤(2)构造的虚假请求序列P′＝p′₀ p′₁…p′_n-1p′_n和服务请求序列P＝p₀ p₁...p_n-1 p_n的关联关系，将信息服务结果R(p′_n)作为服务请求p_n的信息服务结果R(p_n)返回给相应的用户u@p_n。

2.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法，其特征在于，对于任意服务请求p＝(u@p，e@p)，其中u@p为用户标识符，e@p为请求内容，其相应的虚假请求为经标识符替换后使得标识符不同于该服务请求且请求内容与该服务请求相同的服务请求p′，其中

为标识符空间，

为请求内容空间，

为用户服务请求空间，即

标识替换变换过程可表示为如下函数映射

有：

所述来自所有用户的历史服务请求序列P_h，为预设的时间段内所有用户发布的信息服务请求构成的时间序列，记作P_h＝p₀ p₁…p_n-1，其中

P′_h＝p′₀ p′₁…p′_n-1＝γ(p₀)γ(p₁)…γ(p_n-1)。

3.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法，其特征在于，步骤(1)所述内容隐私约束，即使得虚假请求序列P′和服务请求序列P的内容隐私PE(P，P′)最小，所述虚假请求序列P′和服务请求序列P的内容隐私PE(P，P′)为虚假请求序列P′和服务请求序列P中相同请求在数量，即虚假请求序列中的虚假请求p′_k∈P′出现在服务请求序列P中的个数，或服务请求序列中的服务请求p_k∈P出现在虚假请求序列P′中的个数，记作：

对于给定的用户标识符

4.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法，其特征在于，所述主题隐私约束，即使得虚假请求序列P′和服务请求序列P的主题隐私PT(P，P′)最小，所述虚假请求序列P′和服务请求序列P的主题隐私PT(P，P′)即虚假请求序列中的虚假请求p′_k∈P′其请求内容e@p′_k涉及其用户标识符表示的用户敏感主题的个数，或服务请求序列中的服务请求p_k∈P其请求内容e@p_k涉及其相应虚假请求γ(p_k)的用户标识符表示的用户敏感主题的个数，记作：

对于给定的用户标识符

5.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法，其特征在于，步骤(2)所述代价平衡约束，使得服务请求序列P关联的所有用户标识符θ(P)在虚假请求序列P′和服务请求序列P的服务代价平衡性PR(P，P′)最小，所述代价平衡性即服务请求序列P关联的所有用户标识符θ(P)关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值的均值，记作：

记μ(p)为服务器处理服务请求

的代价。

6.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法，其特征在于，步骤(2)具体方案为以下策略之一：

7.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法，其特征在于，所述隐私匹配策略：具体包括以下步骤：

对于服务请求p_n＝(u@p_n，e@p_n)，重复从标识符空间

所述代价匹配策略，具体包括以下步骤：

所述平衡匹配策略，具体包括以下步骤：

8.如权利要求7所述的基于标识替换的用户信息服务隐私保护方法，其特征在于，所述用户标识符列表U的预设区段采用标识符列表U的前m个用户标识符，即从m个在代价平衡约束上表现最佳的候选标识中，随机选取满足隐私条件的用户标识符。

9.一种基于标识替换的用户信息服务隐私保护系统，其特征在于，设置在不可信云端服务器和客户端之间的可信的中间服务器，包括服务请求获取模块、虚假请求构造模块、服务请求通信模块、以及结果解析模块；

所述服务请求获取模块，用于收集客户端发布的服务请求p_n＝(u@p_n，e@p_n)，并存储所有用户的历史服务请求序列P_h＝p₀ p₁…p_n-1，提交给所述虚假请求构造模块；

所述虚假请求构造模块，用于存储历史服务请求序列P_h相应的虚假历史服务请求序列P′_h＝p′₀ p′₁...p′_n-1，并根据所述服务请求获取模块提交的服务请求p_n＝(u@p_n，e@p_n)及所有用户的历史服务请求序列P_h，构造服务请求p_n的虚假请求p′_n＝(u@p′_n，e@p′_n)提交给所述服务请求通信模块，其中e@p′_n＝e@p_n，使得虚假请求p′_n和历史虚假请求序列P′_h构成的虚假请求序列P′＝p′₀ p′₁…p′_n-1p′_n、以及服务请求p_n和历史服务请求序列P_h＝p₀ p₁…p_n-1构成的服务请求序列P＝p₀ p₁…p_n-1 p_n，满足隐私约束和/或代价平衡约束；所述隐私约束包括内容隐私约束、和主题隐私约束；

所述结果解析模块，用于根据所述虚假请求构造模块构造的虚假请求序列P′＝p′₀ p′₁…p′_n-1p′_n和服务请求序列P＝p₀ p₁…p_n-1 p_n的关联关系，将信息服务结果R(p′_n)作为服务请求p_n的信息服务结果R(p_n)返回给相应的用户u@p_n。

10.如权利要求9所述的基于标识替换的用户信息服务隐私保护系统，其特征在于，所述虚假请求构造模块，采用以下策略之一：