CN112765670A - 一种基于标识替换的用户信息服务隐私保护方法及系统 - Google Patents

一种基于标识替换的用户信息服务隐私保护方法及系统 Download PDF

Info

Publication number
CN112765670A
CN112765670A CN202110148410.0A CN202110148410A CN112765670A CN 112765670 A CN112765670 A CN 112765670A CN 202110148410 A CN202110148410 A CN 202110148410A CN 112765670 A CN112765670 A CN 112765670A
Authority
CN
China
Prior art keywords
request
service
sequence
user
service request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110148410.0A
Other languages
English (en)
Other versions
CN112765670B (zh
Inventor
卢成浪
吴宗大
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Institute of Mechanical and Electrical Engineering Co Ltd
Original Assignee
Zhejiang Institute of Mechanical and Electrical Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Institute of Mechanical and Electrical Engineering Co Ltd filed Critical Zhejiang Institute of Mechanical and Electrical Engineering Co Ltd
Priority to CN202110148410.0A priority Critical patent/CN112765670B/zh
Publication of CN112765670A publication Critical patent/CN112765670A/zh
Application granted granted Critical
Publication of CN112765670B publication Critical patent/CN112765670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种基于标识替换的用户信息服务隐私保护方法及系统。所述方法包括以下步骤:(1)可信的中间服务器收集客户端发布的服务请求、历史服务请求序列、以及相应的虚假历史服务请求序列;(2)中间服务器构造虚假请求,使满足隐私约束和/或代价平衡约束;所述隐私约束包括内容隐私约束、和主题隐私约束;(3)将虚假请求发送给云端服务器并获得信息服务结果;(4)将信息服务结果作为服务请求的信息服务结果返回给相应的用户。所述系统设置在不可信云端服务器和客户端之间的可信的中间服务器,包括服务请求获取模块、虚假请求构造模块、服务请求通信模块、以及结果解析模块。

Description

一种基于标识替换的用户信息服务隐私保护方法及系统
技术领域
本发明属于互联网技术领域,更具体地,涉及一种基于标识替换的用户信息服务隐私保护方法及系统。
背景技术
信息服务是以现代信息技术和网络技术为手段,以多种形式向用户提供所需信息的一项活动,它使人们能及时、有效、充分地利用网络信息,为完善人类社会生活而服务,它是信息管理活动的出发点和归宿,是信息管理学研究的重要领域和内容。随着云计算等新兴网络技术的迅速发展,网络服务器端正变得越来越不可信,已成为用户隐私泄露的主要根源。随着人们隐私意识的不断增强,用户隐私问题已成为制约现代信息服务进一步发展的主要障碍,成为信息管理学研究迫切需要解决的热点和难点问题。用户信息服务隐私是指用户信息服务请求数据背后所蕴含的个人偏好隐私,如图书查询记录蕴含用户的主题偏好,网页浏览记录蕴含着用户的兴趣偏好。加密是确保数据安全的重要手段,如可将用户资料数据加密后再发布给网络服务器进行存储,这样即使它们不幸泄露,也难以被读懂,从而改善用户资料隐私在不可信服务器端的安全性。然而,加密并不适用于用户信息服务隐私问题,因为如果将用户请求数据加密后再提交给服务器端,会使得服务器因无法读懂,而使得信息服务变得不可用。相比于用户资料数据隐私,不可信网络环境下用户信息服务隐私保护问题显然更具有挑战性。亟待开发用户信息服务隐私保护方法,以期在不损害现有信息服务可用性前提下,改善用户信息服务隐私在不可信服务器端的安全性,从而为构建用户隐私安全信息服务奠定基础。
针对不可信网络环境下的用户隐私安全问题,信息科学领域学者已给出了许多有效方法,代表性地有加密法、掩盖法、混淆法和假名法。加密法是指通过加密使得用户请求数据对服务器端不可见,以实现隐私保护,代表性地有PIR。该类技术不仅需要额外硬件和复杂算法的支持,而且需要改变现有服务算法,降低了它在现代信息服务中的可用性。掩盖法是指通过泛化敏感数据(如通过隐藏区泛化用户具体位置;通过一般性偏好泛化用户具体偏好),以保护用户隐私。用户数据的修改难免会降低信息服务精度或效率。混淆法是指通过引入伪请求对用户请求进行适当混淆,使得服务器端难以获知用户真实请求,以保护用户隐私。然而,该类方法容易遭受数据挖掘攻击,并且其信息服务效率损失线性相关于伪请求数量。假名法是指通过隐藏或伪造用户身份标识,允许用户以不暴露身份的方式使用系统。假名法依赖于第三方服务器,容易形成隐私瓶颈,并且许多信息服务平台要求用户必须实名登录,这在一定程度上限制了假名法的实用性。
综上所述,已有技术方法在实用性、准确性、高效性、安全性等方面仍无法满足用户信息服务隐私保护的实际需求。具体地,有效的用户信息服务隐私保护方法需要满足以下四方面要求:①确保用户隐私的安全性,即能有效改善各种类型、各种形式用户信息服务隐私在不可信服务器端的安全性;②确保信息服务的准确性,即用户最终得到的信息服务结果不受影响;③确保信息服务的高效性,即用户信息服务效率基本保持一致;④确保信息服务的可用性,即隐私保护过程对用户和信息服务算法完全透明。
理想的用户信息服务隐私保护方法需要能够在确保信息服务的准确性、高效性和实用性的基本前提下,有效改善用户信息服务隐私在不可信服务器端的安全性。而现有技术方法通常针对单一类型的用户服务隐私(如位置服务、搜索服务、推荐服务等)而提出,在可用性、准确性、高效性和安全性等方面仍无法满足用户信息服务隐私保护的实际应用需求。在现有平台架构下,如何实现信息服务实用性和用户隐私安全性的有效统一,仍有待深入研究。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种是以整体信息服务隐私为研究切入点,不以具体信息服务为限制的基于标识替换的用户信息服务隐私保护方法及系统,其目的在于针对不可信网络环境下的信息服务,构建基于标识替换的用户隐私保护框架、保护模型和实现算法,有效地突破已有技术方法在用户信息服务隐私保护中的应用局限,即能在不牺牲信息服务实用性(包括准确性、高效性和可用性)的基本前提下,改善用户服务隐私在不可信服务器端的安全性,由此解决现有技术准确性不搞或效率降低的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于标识替换的用户信息服务隐私保护方法,其包括以下步骤:
(1)可信的中间服务器收集客户端发布的服务请求pn=(u@pn,e@pn)、来自所有用户的历史服务请求序列Ph=p0p1...pn-1、以及相应的虚假历史服务请求序列P′h=p′0p′1...p′n-1
(2)中间服务器根据步骤(1)获得的用户标识u@pn从用户标识符空间
Figure BDA0002931121150000021
中选取非当前用户标识的虚假标识符u@p′n,从而构造服务请求pn的虚假请求p′n=(u@p′n,e@p′n),其中e@p′n=e@pn,使得虚假请求p′n和历史虚假请求序列P′h构成的虚假请求序列P′=p′0p′1...p′n-1p′n、以及服务请求pn和历史服务请求序列Ph=p0p1...pn-1构成的服务请求序列P=p0p1...pn-1pn,满足隐私约束和/或代价平衡约束;所述隐私约束包括内容隐私约束、和主题隐私约束;
(3)中间服务器将步骤(2)构造的虚假请求p′n=(u@p′n,e@p′n)发送给云端服务器并获得信息服务结果R(p′n);
(4)中间服务器根据步骤(2)构造的虚假请求序列P′=p′0p′1...p′n-1p′n和服务请求序列P=p0p1...pn-1pn的关联关系,将信息服务结果R(p′n)作为服务请求pn的信息服务结果R(pn)返回给相应的用户u@pn
优选地,所述基于标识替换的用户信息服务隐私保护方法,其对于任意服务请求p=(u@p,e@p),其中u@p为用户标识符,e@p为请求内容,其相应的虚假请求为经标识符替换后使得标识符不同于该服务请求且请求内容与该服务请求相同的服务请求p′,其中
Figure BDA0002931121150000031
为标识符空间,
Figure BDA0002931121150000032
为请求内容空间,
Figure BDA0002931121150000033
为用户服务请求空间,即
Figure BDA0002931121150000034
标识替换变换过程可表示为如下函数映射
Figure BDA0002931121150000035
Figure BDA0002931121150000036
有:
Figure BDA0002931121150000037
所述来自所有用户的历史服务请求序列Ph,为预设的时间段内所有用户发布的信息服务请求构成的时间序列,记作Ph=p0p1...pn-1,其中
Figure BDA00029311211500000310
Figure BDA00029311211500000311
所述相应的虚假历史服务请求序列为该预设时间段内,经标识符替换后提交给服务器的虚假请求序列,记作Ph=γ(Ph),则有:
P′h=p′0p′1...p′n-1=γ(p0)γ(p1)...γ(pn-1)。
优选地,所述基于标识替换的用户信息服务隐私保护方法,其步骤(1)所述内容隐私约束,即使得虚假请求序列P′和服务请求序列P的内容隐私PE(P,P′)最小,所述虚假请求序列P′和服务请求序列P的内容隐私PE(P,P′)为虚假请求序列P′和服务请求序列P中相同请求在数量,即虚假请求序列中的虚假请求p′k∈P′出现在服务请求序列P中的个数,或服务请求序列中的服务请求pk∈P出现在虚假请求序列P′中的个数,记作:
Figure BDA0002931121150000038
对于给定的用户标识符
Figure BDA00029311211500000312
为该用户关于任意请求序列P的子序列,即由服务请求序列中用户标识符为uk的服务请求构成的时间序列,记作:
Figure BDA0002931121150000039
优选地,所述基于标识替换的用户信息服务隐私保护方法,其所述主题隐私约束,即使得虚假请求序列P′和服务请求序列P的主题隐私PT(P,P′)最小,所述虚假请求序列P′和服务请求序列P的主题隐私PT(P,P′)即虚假请求序列中的虚假请求p′k∈P′其请求内容e@p′k涉及其用户标识符表示的用户敏感主题的个数,或服务请求序列中的服务请求pk∈P其请求内容e@pk涉及其相应虚假请求γ(pk)的用户标识符表示的用户敏感主题的个数,记作:
Figure BDA0002931121150000041
对于给定的用户标识符
Figure BDA0002931121150000042
Θ(uk)为该用户敏感主题,任意请求内容e@pk∈Θ(uk)则称该请求内容涉及用户标识符uk标识的用户敏感主题。
优选地,所述基于标识替换的用户信息服务隐私保护方法,其步骤(2)所述代价平衡约束,使得服务请求序列P关联的所有用户标识符θ(P)在虚假请求序列P′和服务请求序列P的服务代价平衡性PR(P,P′)最小,所述代价平衡性即服务请求序列P关联的所有用户标识符θ(P)关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值的均值,记作:
Figure BDA0002931121150000043
其中Ψ(u,P,P′)为用户标识符u关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值,按照如下方法计算:
Figure BDA0002931121150000044
记μ(p)为服务器处理服务请求
Figure BDA0002931121150000046
的代价。
优选地,所述基于标识替换的用户信息服务隐私保护方法,其步骤(2)具体方案为以下策略之一:
隐私匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束;
代价匹配策略:使得虚假请求序列P′和服务请求序列P满足代价平衡约束;
平衡匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束和代价平衡约束。
优选地,所述基于标识替换的用户信息服务隐私保护方法,其所述隐私匹配策略:具体包括以下步骤:
对于服务请求pn=(u@pn,e@pn),重复从标识符空间
Figure BDA0002931121150000047
中随机选择不同于该服务请求用户标识符u@pn的用户标识符uk,直至所述用户标识符uk满足隐私条件,则将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk;所述隐私条件为:用户标识符uk关于历史服务请求序列Ph的子序列中任意请求的请求内容与服务请求pn的请求内容e@pn不同且服务请求pn的请求内容e@pn不涉及用户标识符uk的敏感主题,记作:
Figure BDA0002931121150000045
所述代价匹配策略,具体包括以下步骤:
对于服务请求pn=(u@pn,e@pn),从历史服务请求序列Ph关联的所有用户标识符θ(Ph)中选择不同于该服务请求用户标识符u@pn且关于历史服务请求序列Ph的子序列和关于历史虚假请求序列Ph′的子序列的查询代价差异绝对值最小的用户标识符uk,将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk,记作:
Figure BDA0002931121150000051
所述平衡匹配策略,具体包括以下步骤:
S1、将历史服务请求序列Ph关联的所有用户标识符θ(P),按照关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值从小到大的顺序进行排序,得到有序的用户标识符列表U;
S2、在按照标识符列表U的预设区段内U[k,k+m],重复随机选择不同于该服务请求用户标识符u@pn的用户标识符uk,直至所述用户标识符uk满足隐私条件,则将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk;所述隐私条件为:用户标识符uk关于历史服务请求序列Ph的子序列中任意请求的请求内容与服务请求pn的请求内容e@pn不同且服务请求pn的请求内容e@pn不涉及用户标识符uk的敏感主题,记作:
Figure BDA0002931121150000052
优选地,所述基于标识替换的用户信息服务隐私保护方法,其所述用户标识符列表U的预设区段采用标识符列表U的前m个用户标识符,即从m个在代价平衡约束上表现最佳的候选标识中,随机选取满足隐私条件的用户标识符。
按照本发明的另一个方面,提供了一种基于标识替换的用户信息服务隐私保护系统,其设置在不可信云端服务器和客户端之间的可信的中间服务器,包括服务请求获取模块、虚假请求构造模块、服务请求通信模块、以及结果解析模块;
所述服务请求获取模块,用于收集客户端发布的服务请求pn=(u@pn,e@pn),并存储所有用户的历史服务请求序列Ph=p0p1...pn-1,提交给所述虚假请求构造模块;
所述虚假请求构造模块,用于存储历史服务请求序列Ph相应的虚假历史服务请求序列P′h=p′0p′1...p′n-1,并根据所述服务请求获取模块提交的服务请求pn=(u@pn,e@pn)及所有用户的历史服务请求序列Ph,构造服务请求pn的虚假请求p′n=(u@p′n,e@p′n)提交给所述服务请求通信模块,其中e@p′n=e@pn,使得虚假请求p′n和历史虚假请求序列P′h构成的虚假请求序列P′=p′0p′1...p′n-1p′n、以及服务请求pn和历史服务请求序列Ph=p0p1...pn-1构成的服务请求序列P=p0p1...pn-1pn,满足隐私约束和/或代价平衡约束;所述隐私约束包括内容隐私约束、和主题隐私约束;
所述服务请求通信模块,用于将所述虚假请求构造模块提交的虚假请求p′n=(u@p′n,e@p′n)发送给云端服务器并获得信息服务结果R(p′n),返回给所述结果解析模块;
所述结果解析模块,用于根据所述虚假请求构造模块构造的虚假请求序列P′=p′0p′1...p′n-1p′n和服务请求序列P=p0p1...pn-1pn的关联关系,将信息服务结果R(p′n)作为服务请求pn的信息服务结果R(pn)返回给相应的用户u@pn
优选地,所述基于标识替换的用户信息服务隐私保护系统,其所述虚假请求构造模块,采用以下策略之一:
隐私匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束;
代价匹配策略:使得虚假请求序列P′和服务请求序列P满足代价平衡约束;
平衡匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束和代价平衡约束。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明构建生成的虚假服务请求序列能较好地满足代价平衡性约束,且隐私平衡匹配策略在隐私安全性指标上的性能表现基本等于最优的隐私匹配策略,远优于随机匹配策略,并且这种良好的隐私安全性能表现不会随着用户数量的增加,或者单个用户请求序列长度的增加,而发生明显的改变。因此,本发明构建生成的虚假服务请求序列能很好地满足隐私安全性约束。另外本发明由于计算简单,并不会给中间服务器造成过多的资源消耗(并不会形成性能瓶颈),也不会对用户信息服务的执行效率构成显著影响。
附图说明
图1是本发明采用的系统结构图;
图2是本发明实施例各个标识匹配策略关于代价平衡性指标的性能评估结果;
图3是本发明实施例各个标识匹配策略关于隐私安全性指标的性能评估结果;
图4是本发明实施例各个标识匹配策略对信息服务请求实际执行效率的影响评估结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的基于标识替换的用户信息服务隐私保护方法,包括以下步骤:
(1)可信的中间服务器收集客户端发布的服务请求pn=(u@pn,e@pn)、来自所有用户的历史服务请求序列Ph=p0p1...pn-1、以及相应的虚假历史服务请求序列P′h=p′0p′1...p′n-1
对于任意服务请求p=(u@p,e@p),其中u@p为用户标识符,e@p为请求内容,其相应的虚假请求为经标识符替换后使得标识符不同于该服务请求且请求内容与该服务请求相同的服务请求p′,其中
Figure BDA0002931121150000071
Figure BDA0002931121150000072
为标识符空间,
Figure BDA0002931121150000073
为请求内容空间,
Figure BDA0002931121150000074
为用户服务请求空间,即
Figure BDA0002931121150000075
标识替换变换过程可表示为如下函数映射
Figure BDA0002931121150000076
Figure BDA0002931121150000077
有:
Figure BDA0002931121150000078
所述来自所有用户的历史服务请求序列Ph,为预设的时间段内所有用户发布的信息服务请求构成的时间序列,记作Ph=p0p1...pn-1,其中
Figure BDA00029311211500000710
Figure BDA00029311211500000711
所述相应的虚假历史服务请求序列为该预设时间段内,经标识符替换后提交给服务器的虚假请求序列,记作P′h=γ(Ph),则有:
P′h=p′0p′1...p′n-1=γ(p0)γ(p1)...γ(pn-1)
(2)中间服务器根据步骤(1)获得的用户标识u@pn从用户标识符空间
Figure BDA00029311211500000712
中选取非当前用户标识的虚假标识符u@p′n,从而构造服务请求pn的虚假请求p′n=(u@p′n,e@p′n),其中e@p′n=e@pn,使得虚假请求p′n和历史虚假请求序列P′h构成的虚假请求序列P′=p′0p′1...p′n-1p′n、以及服务请求pn和历史服务请求序列Ph=p0p1...pn-1构成的服务请求序列P=p0p1...pn-1pn,满足隐私约束和/或代价平衡约束;所述隐私约束包括内容隐私约束、和主题隐私约束;
所述内容隐私约束,即使得虚假请求序列P′和服务请求序列P的内容隐私PE(P,P′)最小,所述虚假请求序列P′和服务请求序列P的内容隐私PE(P,P′)为虚假请求序列P′和服务请求序列P中相同请求在数量,即虚假请求序列中的虚假请求p′k∈P′出现在服务请求序列P中的个数,或服务请求序列中的服务请求pk∈P出现在虚假请求序列P′中的个数,记作:
Figure BDA0002931121150000079
对于给定的用户标识符
Figure BDA0002931121150000081
为该用户关于任意请求序列P的子序列,即由服务请求序列中用户标识符为uk的服务请求构成的时间序列,记作:
Figure BDA0002931121150000082
所述主题隐私约束,即使得虚假请求序列P′和服务请求序列P的主题隐私PT(P,P′)最小,所述虚假请求序列P′和服务请求序列P的主题隐私PT(P,P′)即虚假请求序列中的虚假请求p′k∈P′其请求内容e@p′k涉及其用户标识符表示的用户敏感主题的个数,或服务请求序列中的服务请求pk∈P其请求内容e@pk涉及其相应虚假请求γ(pk)的用户标识符表示的用户敏感主题的个数,记作:
Figure BDA0002931121150000083
对于给定的用户标识符
Figure BDA0002931121150000086
Θ(uk)为该用户敏感主题,任意请求内容e@pk∈Θ(uk)则称该请求内容涉及用户标识符uk标识的用户敏感主题。
所述代价平衡约束,使得服务请求序列P关联的所有用户标识符θ(P)在虚假请求序列P′和服务请求序列P的服务代价平衡性PR(P,P′)最小,所述代价平衡性即服务请求序列P关联的所有用户标识符θ(P)关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值的均值,记作:
Figure BDA0002931121150000084
其中Ψ(u,P,P′)为用户标识符u关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值,按照如下方法计算:
Figure BDA0002931121150000085
记μ(p)为服务器处理服务请求
Figure BDA0002931121150000087
的代价。
具体方案为以下策略之一:
隐私匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束;具体包括以下步骤:
对于服务请求pn=(u@pn,e@pn),重复从标识符空间
Figure BDA0002931121150000088
中随机选择不同于该服务请求用户标识符u@pn的用户标识符uk,直至所述用户标识符uk满足隐私条件,则将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk;所述隐私条件为:用户标识符uk关于历史服务请求序列Ph的子序列中任意请求的请求内容与服务请求pn的请求内容e@pn不同且服务请求pn的请求内容e@pn不涉及用户标识符uk的敏感主题,记作:
Figure BDA0002931121150000091
由于应用情形下标识符空间
Figure BDA0002931121150000094
和请求内容空间
Figure BDA0002931121150000095
十分巨大,因此几乎必然存在这样的uk,随机匹配无法选择到满足隐私条件的用户标识符的情况实际不需要考虑。
代价匹配策略:使得虚假请求序列P′和服务请求序列P满足代价平衡约束;具体包括以下步骤:
对于服务请求pn=(u@pn,e@pn),从历史服务请求序列Ph关联的所有用户标识符θ(Ph)中选择不同于该服务请求用户标识符u@pn且关于历史服务请求序列Ph的子序列和关于历史虚假请求序列Ph′的子序列的查询代价差异绝对值最小的用户标识符uk,将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk,记作:
Figure BDA0002931121150000092
类似的,由于历史服务请求序列足够大,因此不考虑无法选择到满足代价平衡约束的情况。
平衡匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束和代价平衡约束;具体包括以下步骤:
S1、将历史服务请求序列Ph关联的所有用户标识符θ(P),按照关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值从小到大的顺序进行排序,得到有序的用户标识符列表U;
S2、在按照标识符列表U的预设区段内U[k,k+m],重复随机选择不同于该服务请求用户标识符u@pn的用户标识符uk,直至所述用户标识符uk满足隐私条件,则将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk;所述隐私条件为:用户标识符uk关于历史服务请求序列Ph的子序列中任意请求的请求内容与服务请求pn的请求内容e@pn不同且服务请求pn的请求内容e@pn不涉及用户标识符uk的敏感主题,记作:
Figure BDA0002931121150000093
优选,用户标识符列表U的预设区段采用标识符列表U的前m个用户标识符,即从m个在代价平衡约束上表现最佳的候选标识中,随机选取满足隐私条件的用户标识符。
当不能选择出满足隐私约束和代价平衡约束的标识符时,应扩大m的值再次进行选择,或者改变预设的区段再次进行选择。
(3)中间服务器将步骤(2)构造的虚假请求p′n=(u@p′n,e@p′n)发送给云端服务器并获得信息服务结果R(p′n);
(4)中间服务器根据步骤(2)构造的虚假请求序列P′=p′0p′1...p′n-1p′n和服务请求序列P=p0p1...pn-1pn的关联关系,将信息服务结果R(p′n)作为服务请求pn的信息服务结果R(pn)返回给相应的用户u@pn
本发明提供的基于标识替换的用户信息服务隐私保护系统,为设置在不可信云端服务器和客户端之间的可信的中间服务器,包括服务请求获取模块、虚假请求构造模块、服务请求通信模块、以及结果解析模块;
所述服务请求获取模块,用于收集客户端发布的服务请求pn=(u@pn,e@pn),并存储所有用户的历史服务请求序列Ph=p0p1...pn-1,提交给所述虚假请求构造模块;
所述虚假请求构造模块,用于存储历史服务请求序列Ph相应的虚假历史服务请求序列P′h=p′0p′1...p′n-1,并根据所述服务请求获取模块提交的服务请求pn=(u@pn,e@pn)及所有用户的历史服务请求序列Ph,构造服务请求pn的虚假请求p′n=(u@p′n,e@p′n)提交给所述服务请求通信模块,其中e@p′n=e@pn,使得虚假请求p′n和历史虚假请求序列P′h构成的虚假请求序列P′=p′0p′1...p′n-1p′n、以及服务请求pn和历史服务请求序列Ph=p0p1...pn-1构成的服务请求序列P=p0p1...pn-1pn,满足隐私约束和/或代价平衡约束;所述隐私约束包括内容隐私约束、和主题隐私约束;
所述虚假请求构造模块,采用以下策略之一:
隐私匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束;
代价匹配策略:使得虚假请求序列P′和服务请求序列P满足代价平衡约束;
平衡匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束和代价平衡约束;
所述服务请求通信模块,用于将所述虚假请求构造模块提交的虚假请求p′n=(u@p′n,e@p′n)发送给云端服务器并获得信息服务结果R(p′n),返回给所述结果解析模块;
所述结果解析模块,用于根据所述虚假请求构造模块构造的虚假请求序列P′=p′0p′1...p′n-1p′n和服务请求序列P=p0p1...pn-1pn的关联关系,将信息服务结果R(p′n)作为服务请求pn的信息服务结果R(pn)返回给相应的用户u@pn
以下为实施例:
本发明的基于标识替换的用户信息服务隐私保护基本架构如图1所示,该架构建立在一个不可信云端服务器、一个可信中间服务器以及若干可信客户端之上,其中:①云端服务器负责运行各类信息服务算法(如位置服务、检索服务、网页浏览服务等),为用户提供各类信息服务,它脱离了信息系统本地管理者的管理控制,因而不可信;②客户端运行用户信息服务界面,用户通过客户端发布各类信息服务请求,由于部署在本地,因而它是高度可信的;③中间服务器部署在客户端和服务器之间,它负责运行隐私保护算法(即用户标识替换算法),它将客户端所提交信息服务请求中的用户标识,以其他非当前用户标识替换(称作虚假标识),打破用户与其请求之间的天然关联,从而实现对用户信息服务隐私的有效保护。
在图1的基于标识替换的用户信息服务隐私保护架构中,中间服务器要求部署在信息系统的本地机构(如数字图书馆的本地机房),以接受信息系统本地管理者的严格管控,因而,同客户端一样,它也是高度可信的。该隐私保护架构的一般化数据处理过程可简要描述如下。①对于用户通过客户端界面所发布的任意服务请求pn=(u@pn,e@pn)(其中u@pn表示用户标识,e@pn表示请求内容),首先将其提交给中间中间服务器处理,而不是直接提交给云端服务器。②中间服务器获得用户服务请求pn后,将结合自身保存的用户标识表(存储着信息系统中所有合法的用户标识信息),按照一定的匹配策略(这是本发明的关键点),从中选取出其他非当前用户标识uk(称作虚假标识)替换当前用户标识u@pn,重新构造生成新的服务请求p′0=(uk,e@pn)(称作虚假请求)。然后,将虚假服务请求p′n代替用户服务请求pn提交给云端服务器。③云端服务器获得虚假服务请求p′n后,将根据请求内容e@pn为用户提供相应的信息服务,并将结果返回给中间服务器。④中间服务器根据其保存的虚假标识uk关联的真实用户信息,将服务器返回的服务结果返回给客户端相应用户。
一种基于标识替换的用户信息服务隐私保护方法,包括以下步骤:
(1)可信的中间服务器收集客户端发布的服务请求pn=(u@pn,e@pn)、来自所有用户的历史服务请求序列Ph=p0p1...pn-1、以及相应的虚假历史服务请求序列P′h=p′0p′1...p′n-1
对于任意服务请求p=(u@p,e@p),其中u@p为用户标识符,e@p为请求内容,其相应的虚假请求为经标识符替换后使得标识符不同于该服务请求且请求内容与该服务请求相同的服务请求p′,其中
Figure BDA0002931121150000111
Figure BDA0002931121150000112
为标识符空间,
Figure BDA0002931121150000113
为请求内容空间,
Figure BDA0002931121150000114
为用户服务请求空间,即
Figure BDA0002931121150000115
标识替换变换过程可表示为如下函数映射
Figure BDA0002931121150000118
Figure BDA0002931121150000116
有:
Figure BDA0002931121150000117
所述来自所有用户的历史服务请求序列Ph,为预设的时间段内所有用户发布的信息服务请求构成的时间序列,记作Ph=p0p1...pn-1,其中
Figure BDA00029311211500001110
Figure BDA0002931121150000119
所述相应的虚假历史服务请求序列为该预设时间段内,经标识符替换后提交给服务器的虚假请求序列,记作P′h=γ(Ph),则有:
P′h=p′0p′1...p′n-1=γ(p0)γ(p1)...γ(pn-1)
记γ的逆映射函数为γ-1,即p=γ-1(p′)。
(2)中间服务器根据步骤(1)获得的用户标识u@pn从用户标识符空间
Figure BDA0002931121150000127
中选取非当前用户标识的虚假标识符u@p′n,从而构造服务请求pn的虚假请求p′n=(u@p′n,e@p′n),其中e@p′n=e@pn,使得虚假请求p′n和历史虚假请求序列P′h构成的虚假请求序列P′=p′0p′1...p′n-1p′n、以及服务请求pn和历史服务请求序列Ph=p0p1...pn-1构成的服务请求序列P=p0p1...pn-1pn,满足隐私约束和/或代价平衡约束;所述隐私约束包括内容隐私约束、和主题隐私约束;
所述内容隐私约束,即使得虚假请求序列P′和服务请求序列P的内容隐私PE(P,P′)最小,所述虚假请求序列P′和服务请求序列P的内容隐私PE(P,P′)为虚假请求序列P′和服务请求序列P中相同请求在数量,即虚假请求序列中的虚假请求p′k∈P′出现在服务请求序列P中的个数,或服务请求序列中的服务请求pk∈P出现在虚假请求序列P′中的个数,记作:
Figure BDA0002931121150000121
对于给定的用户标识符
Figure BDA0002931121150000122
为该用户关于任意请求序列P的子序列,即由服务请求序列中用户标识符为uk的服务请求构成的时间序列,记作:
Figure BDA0002931121150000123
所述主题隐私约束,即使得虚假请求序列P′和服务请求序列P的主题隐私PT(P,P′)最小,所述虚假请求序列P′和服务请求序列P的主题隐私PT(P,P′)即虚假请求序列中的虚假请求p′k∈P′其请求内容e@p′k涉及其用户标识符表示的用户敏感主题的个数,或服务请求序列中的服务请求pk∈P其请求内容e@pk涉及其相应虚假请求γ(pk)的用户标识符表示的用户敏感主题的个数,记作:
Figure BDA0002931121150000124
对于给定的用户标识符
Figure BDA0002931121150000125
为该用户敏感主题,任意请求内容e@pk∈Θ(uk)则称该请求内容涉及用户标识符uk标识的用户敏感主题。
所述代价平衡约束,使得服务请求序列P关联的所有用户标识符θ(P)在虚假请求序列P′和服务请求序列P的服务代价平衡性PR(P,P′)最小,所述代价平衡性即服务请求序列P关联的所有用户标识符θ(P)关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值的均值,记作:
Figure BDA0002931121150000126
其中Ψ(u,P,P′)为用户标识符u关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值,按照如下方法计算:
Figure BDA0002931121150000131
记μ(p)为服务器处理服务请求
Figure BDA0002931121150000134
的代价。
标识替换必须能有效改善用户信息服务隐私在不可信服务器端的安全性,其约束内容包括多个方面。其一是虚假标识不能与用户标识相同;其二是用户标识也不能对虚假用户形成任何隐私威胁,即需要满足隐私约束。
具体方案为以下策略之一:
隐私匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束;具体包括以下步骤:
对于服务请求pn=(u@pn,e@pn),重复从标识符空间
Figure BDA0002931121150000135
中随机选择不同于该服务请求用户标识符u@pn的用户标识符uk,直至所述用户标识符uk满足隐私条件,则将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk;所述隐私条件为:用户标识符uk关于历史服务请求序列Ph的子序列中任意请求的请求内容与服务请求pn的请求内容e@pn不同且服务请求pn的请求内容e@pn不涉及用户标识符uk的敏感主题,记作:
Figure BDA0002931121150000132
由于应用情形下标识符空间
Figure BDA0002931121150000136
和请求内容空间
Figure BDA0002931121150000137
十分巨大,因此几乎必然存在这样的uk,随机匹配无法选择到满足隐私条件的用户标识符的情况实际不需要考虑。
代价匹配策略:使得虚假请求序列P′和服务请求序列P满足代价平衡约束;具体包括以下步骤:
对于服务请求pn=(u@pn,e@pn),从历史服务请求序列Ph关联的所有用户标识符θ(Ph)中选择不同于该服务请求用户标识符u@pn且关于历史服务请求序列Ph的子序列和关于历史虚假请求序列Ph′的子序列的查询代价差异绝对值最小的用户标识符uk,将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk,记作:
Figure BDA0002931121150000133
类似的,由于历史服务请求序列足够大,因此不考虑无法选择到满足代价平衡约束的情况。
平衡匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束和代价平衡约束;具体包括以下步骤:
S1、将历史服务请求序列Ph关联的所有用户标识符θ(P),按照关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值从小到大的顺序进行排序,得到有序的用户标识符列表U;
S2、在按照标识符列表U的预设区段内U[k,k+m],重复随机选择不同于该服务请求用户标识符u@pn的用户标识符uk,直至所述用户标识符uk满足隐私条件,则将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk;所述隐私条件为:用户标识符uk关于历史服务请求序列Ph的子序列中任意请求的请求内容与服务请求pn的请求内容e@pn不同且服务请求pn的请求内容e@pn不涉及用户标识符uk的敏感主题,记作:
Figure BDA0002931121150000141
优选,用户标识符列表U的预设区段采用标识符列表U的前m个用户标识符,即从m个在代价平衡约束上表现最佳的候选标识中,随机选取满足隐私条件的用户标识符。
当不能选择出满足隐私约束和代价平衡约束的标识符时,应扩大m的值再次进行选择,或者改变预设的区段再次进行选择。
(3)中间服务器将步骤(2)构造的虚假请求p′n=(u@p′n,e@p′n)提交给云端服务器并获得信息服务结果R(p′n);
(4)中间服务器根据步骤(2)构造的虚假请求序列P′=p′0p′1...p′n-1p′n和服务请求序列P=p0p1...pn-1pn的关联关系,将信息服务结果R(p′n)作为服务请求pn的信息服务结果R(pn)返回给相应的用户u@pn
从图1可以看出:①由于提交给云端服务器的信息服务内容并没有改变(仅替换了用户标识),因而云端服务器返回给中间服务器的信息服务结果必然与引入隐私方法前一致,即能有效地确保信息服务的准确性;②云端服务器执行的还是用户信息服务原来的请求内容,因而信息服务执行效率必然与引入隐私方法前一致(仅仅增加了隐私算法本身的执行时间,这几乎可忽略不计),即能有效地确保信息服务的高效性;③隐私算法部署在中间服务器,它是部署在客户端用户和云端服务算法间的一层中间件,其隐私保护过程对外部用户和服务算法透明,即能有效地确保信息服务的可用性。此外,还可以看出,代替用户当前标识的虚假标识同样是选取自用户标识空间中的合法标识,这确保了虚假信息服务请求能顺利通过云端服务器的实名检测,进一步确保了该架构在现代信息服务平台中的可用性。综上,本系统框架不改变信息服务准确性和高效性,也不改变信息服务算法和用户使用习惯,因而具有良好的实用性。
当然,由于所有用户服务请求都要经过中间服务器,这容易导致相关工作部分提及的性能瓶颈问题和隐私瓶颈问题。①对于性能瓶颈问题,由于用户隐私保护过程仅仅是对用户服务请求中的标识信息进行简单替换,并不需要消耗过多时间,因而不会导致性能瓶颈(后文给出的实验结果也验证了这点)。②对于隐私瓶颈问题,本框架不同于现有的假名法,它要求中间服务器必须部署在信息系统的本地机构(即部署在可信的信息系统内网,而不是部署在不可信的云端),并接受信息系统本地管理者的管控,因而它的可信性是可以确保的,并不会导致隐私瓶颈。后文的攻击模型也对此进行了规范。然而,从图1还可以看出,中间服务器所选用的用户标识替换算法是用户信息服务隐私保护基本框架的关键所在,也是确保用户信息服务隐私在不可信云端安全性的关键所在。通常,理想的用户标识替换算法应满足以下几方面约束。
①隐私约束,即信息服务请求标识替换能有效改善用户信息服务隐私在不可信服务器端的安全性。这一约束表现为两个方面。其一是虚假标识不能与用户标识相同,使得攻击者无法获知当前请求的真实发布用户,从而有效改善当前用户信息服务隐私的安全性。具体可形式化描述如下:记用户信息服务请求为pn=(u@pn,e@pn)以及完成标识替换后的虚假信息服务请求为p′n=(u@p′n,e@p′n),则两者满足e@p′n=e@pn∧u@pn≠u@p′n。这一约束很显然,若不满足则表明标识替换没有执行,也就无法打破用户标识与其服务请求之间的关联。其二是用户标识也不能对虚假标识所对应的用户(称作虚假用户,即虚假标识选取自其他非当前用户)形成任何隐私威胁。用户信息服务隐私保护是全体性的,虚假标识要实现对当前用户的信息服务隐私保护,当前用户也不能对虚假用户构成隐私威胁。这里又可细分为两层约束:第一层是用户请求内容e@pn(也即e@p′n)不应与虚假标识u@p′n所对应用户(即虚假用户)的任意历史请求内容相同(否则攻击者可据此直接获知该虚假用户也曾发布过请求内容e@pn);第二层是用户请求内容e@pn(也即e@p′n)不应与虚假用户u@p′n的任何敏感主题语义相关(否则攻击者可据此直接获知虚假用户的敏感主题)。最后需要指出的是,鉴于隐私保护是标识替换的根本目的,因而该约束是标识替换算法必须完全满足的强制性要求。
②代价约束,即信息服务请求标识替换能有效确保每个用户信息服务总代价的平衡性。在现有信息服务平台架构下,通常云端服务器是按照每个用户服务请求总代价(等于用户所发布的各服务请求所需要消耗的服务器资源代价的总和)向用户索要费用。而引入用户标识替换机制后,云端服务器根据虚假标识计算得到的用户服务请求总代价跟每个用户实际的代价消耗之间不具有一致性(甚至可能出现高度不一致)。有鉴于此,理想的标识替换算法应保证在标识替换过程中,云端服务器根据虚假标识为每个用户计算得到的服务代价与用户真实服务代价基本保持一致。最后需要指出的是,该约束并不是必须完全满足的强制性要求,即它只要求被尽可能地满足。
③性能约束,即信息服务请求标识替换能有效确保中间服务器不会承担过多计算量。根据前文分析可知,中间服务器性能瓶颈的破除是建立在标识替换高效的基础之上。为此,通常中间服务器并不存储信息系统数据库,它仅存储相关的用户标识信息,以减轻中间服务器的资源消耗。当然,该约束也不是必须满足的强制性要求,它只要求被尽可能地满足。
在本发明中,客户端完全由信息系统用户自行管理和控制,而中间服务器部署在信息系统的本地机构(即部署在可信的信息系统内网,而不是部署在不可信云端),并接受信息系统本地管理者的管控,因而客户端和中间服务器的可信性都是可以确保的。然而,云端服务器部署在云端,它脱了信息系统本地管理者的控制,因而云端服务器被认为是不可信的,它是导致用户隐私泄露的主要根源。我们假定攻击者已经获得了云端服务器的控制权(但没有获得客户端和中间服务器的控制权),即用户隐私威胁仅来自云端服务器。从图1的系统架构,可以看出:虽然云端服务器攻击者能够获得中间服务器提交的所有服务请求序列,但它们都是经过了标识替换的虚假服务请求(而非客户端用户所提交的真实服务请求)。因此,攻击者的攻击源主要依赖于虚假服务请求。有效的虚假服务请求应能保证:对于信息系统中任意用户发布的任意请求,云端攻击者根据其对应的虚假请求都无法获知该用户曾发布过该请求,从而实现对用户信息服务隐私的有效保护。有效的虚假服务请求还应保证:对于信息系统任意用户的任意敏感主题,云端攻击者根据虚假请求都无法获知该用户与该敏感主题有任何关联。此外,攻击者还可能获取了运行在中间服务器的用户标识替换算法的副本,然后选取合适的用户标识输入算法,并观察算法输出结果,看是否能输出对应的虚假标识,以此来推测虚假标识对应的用户标识(若成功,则攻击者可将请求内容与用户标识联系起来,从而获知用户信息服务隐私)。
本实施例步骤2采用以下算法进行不同的用户标识符变换测试:
Figure BDA0002931121150000161
Figure BDA0002931121150000171
其中随机匹配策略为:
从用户标识空间中随机选取一个虚假标识,替换用户服务请求关联的用户标识。对于用户提交的任意服务请求p=(u@p,e@p),将其中的用户标识u@p以用户标识空间
Figure BDA0002931121150000172
中随机选取的虚假标识uk替换,从而得到虚假请求p′=(uk,e@p)。
算法1描述了运行在中间服务器的基于标识替换的用户信息服务隐私保护过程。在算法1中,我们将上文给出的四个用户标识匹配策略都糅合在了一起,用户可以自由选择其中一种匹配策略。从算法1可以看出,①对于随机匹配策略(语句1至语句3),它不考虑任何约束条件,直接从用户标识空间为用户标识随机选取虚假标识,其过程简单而高效。②对于隐私匹配策略(语句4至语句10),它在虚假标识随机选取基础之上(语句6),加入了对选取的虚假标识是否能满足内容隐私约束和主题隐私约束的判断(语句7);如果不满足约束,则重新选择标识,直到满足为止。在算法中,我们多处引入了类似的随机操作,这是为了增加虚假标识选取的不确定性,使得即使面对相同输入,两次算法运行也会得到完全不同的输出,从而增加了安全性。③对于代价匹配策略(语句11至语句14),算法从历史服务请求序列Ph所关联的用户标识集合θ(Ph),为用户当前标识选取一个满足以下约束的其他用户标识uk作为目标虚假标识:
Figure BDA0002931121150000173
Figure BDA0002931121150000174
即目标标识的真实服务代价与虚假服务代价之间的差异程度最小,因此,选取它作为虚假标识是为了降低这种差异程度。④对于本发明优选的平衡匹配策略(语句15至语句23),先按照代价匹配策略对候选虚假标识按照真假代价之间的差异程度进行排序,然后按照隐私匹配策略从m个在代价平衡约束上表现最佳的候选标识中,随机选取满足内容隐私约束和主题隐私约束的作为用户标识的虚假标识。
从算法1还可以看出,算法各个匹配策略的执行时间基本是线性的,因此执行效率表现优异。此外,根据章节3.2的问题陈述,鉴于隐私保护是标识替换的根本目的,因而算法1确保最终生成的虚假服务请求序列与其对应用户服务请求序列之间能有效地满足内容隐私约束和主题隐私约束必然强制性要求(隐私匹配策略的语句7和平衡匹配策略的语句20)。但是由于代价平衡约束并不是必须完全满足的强制性要求,因此算法1的隐私匹配策略和平衡匹配策略为了增加虚假标识的不确定性,在一个较大范围内随机选取虚假标识,因而最终得到的虚假服务请求序列在代行平衡指标上并不是关于用户请求序列的最优解(仅是近似解)。
有效性评价:
评价有效性,即评估用户标识替换策略所生成的虚假服务请求序列是否能满足代价约束和隐私约束,以及是否会对信息服务的执行效率造成显著影响。为了简化实验,我们采用数字图书馆的图书检索作为用户信息服务。实验中,我们挑选图书分类目录中处于次顶层的209个图书目录组建用户主题空间,收集了本单位数字图书馆约50万个图书标题组建图书标题空间(即用户请求内容空间
Figure BDA0002931121150000181
),并建立了图书标题与图书主题之间的相关映射此外,我们还精心挑选了图书馆50名读者的近年图书查询记录(即|θ(Ph)|≤50),为每位读者精心挑选了200条图书查询请求(即单个用户的服务请求序列长度为200,即|Ph|≤10000),每位读者平均覆盖约10个图书主题。我们还根据读者的图书查询记录,为读者设置了各自的敏感主题(每位读者的敏感主题数量等于2)。
下文以Random表示随机匹配策略,以PrivacyFirst表示隐私匹配策略(即步骤(2-1)),以CostFirst表示代价匹配策略(即步骤(2-2)),以PrivacyCost表示本发明优选的平衡匹配策略(即步骤(2-3))。实验中,所有算法都是用Java语言完成。实验是在配置为IntelCore 2Duo 3GHz CPU和最大工作内存为2GB的Java虚拟机(版本1.7.007)上执行。
实验一旨在评估各个用户标识替换策略在代价平衡性指标上的性能,即衡量在用户标识替换后,云端服务器根据虚假标识为每个用户计算得到的服务总代价与用户真实服务总代价能否基本保持一致。这里使用“代价平衡性”,以度量虚假请求序列关于用户请求序列的代价平衡性,即PR(P,P')。该度量值越小越好,它意味着标识替换的代价平衡性越好。该组实验在50个读者(用户)所发布的服务请求序列之上进行。实验评估结果如图2所示,其中,横坐标表示该组实验中单个用户服务请求序列的长度(从140至200),纵坐标为代价平衡性指标度量值,每个子图中N表示该组实验中请求序列的用户数量(即用户发布的原始请求序列所涉及的用户数量)。据图,我们有以下几个主要观察。①随机匹配策略和隐私匹配策略在代价平衡性指标上的性能表现较差,即云端服务器根据虚假标识为每个用户计算得到的信息服务宗代价与每个用户的真实信息服务总代价之间,存在非常显著的不一致性,并且这种不一致性还随用户数量的减少或单个用户请求序列长度的增加,而进一步增强,因而难以满足代价平衡性约束条件。②代价匹配策略由于在虚假标识的选择过程,并不考虑内容隐私安全约束和主题隐私安全约束,而仅仅考虑了代价平衡约束,从而使得云端服务器根据虚假标识为每个用户计算得到的服务总代价与用户真实服务总代价高度一致,两者之间的差距几乎等于0。因而,这是代价平衡性指标的性能上限。③最后,对比前面的观察结果可看出,本发明推荐的隐私匹配策略在代价平衡性指标上的性能接近于最优的代价匹配策略,而远优于随机匹配策略和隐私匹配策略,并且这种良好的代价平衡性能表现不会随着用户数量的减少或者单个用户请求序列长度的增加,而发生明显的改变。因此,本方法构建生成的虚假服务请求序列能较好地满足代价平衡性约束。
实验二旨在评估各个用户标识替换策略在隐私安全性指标上的性能表现,即用户标识替换能否有效改善用户信息服务隐私在不可信服务器端的安全性。这里使用“隐私安全性”指标,即内容隐私PE(P,P')和主题隐私PT(P,P')的均值,以度量虚假服务请求序列关于用户服务请求序列的隐私伤害性。该度量值越小越好,它意味着用户信息服务隐私的安全性越好。实验结果如图3所示,其中,横坐标表示该组实验中单个用户服务请求序列的长度,纵坐标为代价平衡性指标度量值,每个子图N表示该组实验中服务请求所涉及的用户数量。据图,我们有以下观察。①随机匹配策略和代价匹配策略在安全性指标上的性能表现均较差,即根据该两个匹配策略所得到的虚假请求序列不能有效改善用户信息服务隐私在不可信服务器端的安全性。②隐私匹配策略在虚假标识选择过程中,充分考虑了虚假请求序列关于用户请求序列的隐私伤害性问题,使得虚假请求序列背后所涉及的几乎所有虚假标识均不会对真实用户形成任何隐私威胁,即隐私安全性指标度量值基本等于0。因而,这是隐私安全性指标的性能上限。③最后,对比前面的观察结果可看出,本发明推荐的隐私平衡匹配策略在隐私安全性指标上的性能表现基本等于最优的隐私匹配策略(这是因为本发明策略确保了隐私安全约束必然得到满足),远优于随机匹配策略和代价匹配策略,并且这种良好的隐私安全性能表现不会随着用户数量的增加,或者单个用户请求序列长度的增加,而发生明显的改变。因此,本发明方法构建生成的虚假服务请求序列能很好地满足隐私安全性约束(包括了内容隐私约束和主题隐私约束)。
实验三旨在评估各个用户标识替换策略对信息服务请求实际执行效率的影响情况,即评估引入用户标识替换算法后,对用户信息服务请求执行效率是否会产生显著影响。记未引入用户标识替换方法之前的用户请求服务执行时间为t0(即用户发送服务请求到最终获得请求结果需要消耗时间),记引入用户标识替换方法之后的用户请求服务执行时间为t1,则本组实验的度量指标可表示如下:
Figure BDA0002931121150000191
显然,度量值越小越好,它意味着用户标识替换策略对用户服务请求的执行效率影响程度越小。实验评估结果如图4所示,其中,横坐标表示单位时间内所发布的用户服务请求数量,纵坐标为执行效率指标度量值,每个子图N表示该组实验中信息服务请求序列所涉及的用户数量。据图,我们有以下几个观察。①四个用户标识替换策略的对用户信息服务请求的执行效率并没有形成明显影响(效率影响度量值均低于10%),这是因为这些策略本身的执行效率非常高,使得用户信息服务执行效率的主要影响因素来自云端服务器的信息服务算法的执行时间(而不是中间服务器的用户标识替换时间)以及客户端、中间服务器和云端服务器之间的数据传输时间,而这些影响因素对四个用户标识替换策略来说是彼此相同的。②候选策略的对用户服务请求执行效率的影响,不受服务请求序列所涉及的用户数量的影响,但它会随着单位时间内中间服务器接收到的用户服务请求数量的增加,而有所增强,这是因为随着用户数量的增加,中间服务器的负载也随之增加,使得用户标识替换和网络传输需要消耗的时间会随之增加,但总体对用户服务请求执行效率的影响并不显著。因此,用户标识替换过程由于计算简单,并不会给中间服务器造成过多的资源消耗(并不会形成性能瓶颈),也不会对用户信息服务的执行效率构成显著影响。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于标识替换的用户信息服务隐私保护方法,其特征在于,包括以下步骤:
(1)可信的中间服务器收集客户端发布的服务请求pn=(u@pn,e@pn)、来自所有用户的历史服务请求序列Ph=p0 p1…pn-1、以及相应的虚假历史服务请求序列P′h=p′0 p′1…p′n-1
(2)中间服务器根据步骤(1)获得的用户标识u@pn从用户标识符空间
Figure FDA0002931121140000011
中选取非当前用户标识的虚假标识符u@p′n,从而构造服务请求pn的虚假请求p′n=(u@p′n,e@p′n),其中e@p′n=e@pn,使得虚假请求p′n和历史虚假请求序列P′h构成的虚假请求序列P′=p′0 p′1…p′n-1p′n、以及服务请求pn和历史服务请求序列Ph=p0 p1…pn-1构成的服务请求序列P=p0p1…pn-1 pn,满足隐私约束和/或代价平衡约束;所述隐私约束包括内容隐私约束、和主题隐私约束;
(3)中间服务器将步骤(2)构造的虚假请求p′n=(u@p′n,e@p′n)发送给云端服务器并获得信息服务结果R(p′n);
(4)中间服务器根据步骤(2)构造的虚假请求序列P′=p′0 p′1…p′n-1p′n和服务请求序列P=p0 p1...pn-1 pn的关联关系,将信息服务结果R(p′n)作为服务请求pn的信息服务结果R(pn)返回给相应的用户u@pn
2.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法,其特征在于,对于任意服务请求p=(u@p,e@p),其中u@p为用户标识符,e@p为请求内容,其相应的虚假请求为经标识符替换后使得标识符不同于该服务请求且请求内容与该服务请求相同的服务请求p′,其中
Figure FDA0002931121140000012
Figure FDA0002931121140000013
Figure FDA0002931121140000014
为标识符空间,
Figure FDA0002931121140000015
Figure FDA0002931121140000016
为请求内容空间,
Figure FDA0002931121140000017
Figure FDA0002931121140000018
为用户服务请求空间,即
Figure FDA0002931121140000019
标识替换变换过程可表示为如下函数映射
Figure FDA00029311211400000110
Figure FDA00029311211400000111
有:
Figure FDA0002931121140000021
所述来自所有用户的历史服务请求序列Ph,为预设的时间段内所有用户发布的信息服务请求构成的时间序列,记作Ph=p0 p1…pn-1,其中
Figure FDA0002931121140000022
Figure FDA0002931121140000023
所述相应的虚假历史服务请求序列为该预设时间段内,经标识符替换后提交给服务器的虚假请求序列,记作P′h=γ(Ph),则有:
P′h=p′0 p′1…p′n-1=γ(p0)γ(p1)…γ(pn-1)。
3.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法,其特征在于,步骤(1)所述内容隐私约束,即使得虚假请求序列P′和服务请求序列P的内容隐私PE(P,P′)最小,所述虚假请求序列P′和服务请求序列P的内容隐私PE(P,P′)为虚假请求序列P′和服务请求序列P中相同请求在数量,即虚假请求序列中的虚假请求p′k∈P′出现在服务请求序列P中的个数,或服务请求序列中的服务请求pk∈P出现在虚假请求序列P′中的个数,记作:
Figure FDA0002931121140000024
对于给定的用户标识符
Figure FDA0002931121140000025
为该用户关于任意请求序列P的子序列,即由服务请求序列中用户标识符为uk的服务请求构成的时间序列,记作:
Figure FDA0002931121140000026
4.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法,其特征在于,所述主题隐私约束,即使得虚假请求序列P′和服务请求序列P的主题隐私PT(P,P′)最小,所述虚假请求序列P′和服务请求序列P的主题隐私PT(P,P′)即虚假请求序列中的虚假请求p′k∈P′其请求内容e@p′k涉及其用户标识符表示的用户敏感主题的个数,或服务请求序列中的服务请求pk∈P其请求内容e@pk涉及其相应虚假请求γ(pk)的用户标识符表示的用户敏感主题的个数,记作:
Figure FDA0002931121140000031
对于给定的用户标识符
Figure FDA0002931121140000032
Θ(uk)为该用户敏感主题,任意请求内容e@pk∈Θ(uk)则称该请求内容涉及用户标识符uk标识的用户敏感主题。
5.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法,其特征在于,步骤(2)所述代价平衡约束,使得服务请求序列P关联的所有用户标识符θ(P)在虚假请求序列P′和服务请求序列P的服务代价平衡性PR(P,P′)最小,所述代价平衡性即服务请求序列P关联的所有用户标识符θ(P)关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值的均值,记作:
Figure FDA0002931121140000033
其中Ψ(u,P,P′)为用户标识符u关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值,按照如下方法计算:
Figure FDA0002931121140000034
记μ(p)为服务器处理服务请求
Figure FDA0002931121140000035
的代价。
6.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法,其特征在于,步骤(2)具体方案为以下策略之一:
隐私匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束;
代价匹配策略:使得虚假请求序列P′和服务请求序列P满足代价平衡约束;
平衡匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束和代价平衡约束。
7.如权利要求1所述的基于标识替换的用户信息服务隐私保护方法,其特征在于,所述隐私匹配策略:具体包括以下步骤:
对于服务请求pn=(u@pn,e@pn),重复从标识符空间
Figure FDA0002931121140000042
中随机选择不同于该服务请求用户标识符u@pn的用户标识符uk,直至所述用户标识符uk满足隐私条件,则将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk;所述隐私条件为:用户标识符uk关于历史服务请求序列Ph的子序列中任意请求的请求内容与服务请求pn的请求内容e@pn不同且服务请求pn的请求内容e@pn不涉及用户标识符uk的敏感主题,记作:
Figure FDA0002931121140000043
所述代价匹配策略,具体包括以下步骤:
对于服务请求pn=(u@pn,e@pn),从历史服务请求序列Ph关联的所有用户标识符θ(Ph)中选择不同于该服务请求用户标识符u@pn且关于历史服务请求序列Ph的子序列和关于历史虚假请求序列Ph′的子序列的查询代价差异绝对值最小的用户标识符uk,将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk,记作:
Figure FDA0002931121140000041
所述平衡匹配策略,具体包括以下步骤:
S1、将历史服务请求序列Ph关联的所有用户标识符θ(P),按照关于服务请求序列P的子序列和关于虚假请求序列P′的服务代价差异绝对值从小到大的顺序进行排序,得到有序的用户标识符列表U;
S2、在按照标识符列表U的预设区段内U[k,k+m],重复随机选择不同于该服务请求用户标识符u@pn的用户标识符uk,直至所述用户标识符uk满足隐私条件,则将该用户标识符uk作为构造的服务请求pn的虚假请求p′n的用户标识符,即使得u@p′n=uk;所述隐私条件为:用户标识符uk关于历史服务请求序列Ph的子序列中任意请求的请求内容与服务请求pn的请求内容e@pn不同且服务请求pn的请求内容e@pn不涉及用户标识符uk的敏感主题,记作:
Figure FDA0002931121140000051
8.如权利要求7所述的基于标识替换的用户信息服务隐私保护方法,其特征在于,所述用户标识符列表U的预设区段采用标识符列表U的前m个用户标识符,即从m个在代价平衡约束上表现最佳的候选标识中,随机选取满足隐私条件的用户标识符。
9.一种基于标识替换的用户信息服务隐私保护系统,其特征在于,设置在不可信云端服务器和客户端之间的可信的中间服务器,包括服务请求获取模块、虚假请求构造模块、服务请求通信模块、以及结果解析模块;
所述服务请求获取模块,用于收集客户端发布的服务请求pn=(u@pn,e@pn),并存储所有用户的历史服务请求序列Ph=p0 p1…pn-1,提交给所述虚假请求构造模块;
所述虚假请求构造模块,用于存储历史服务请求序列Ph相应的虚假历史服务请求序列P′h=p′0 p′1...p′n-1,并根据所述服务请求获取模块提交的服务请求pn=(u@pn,e@pn)及所有用户的历史服务请求序列Ph,构造服务请求pn的虚假请求p′n=(u@p′n,e@p′n)提交给所述服务请求通信模块,其中e@p′n=e@pn,使得虚假请求p′n和历史虚假请求序列P′h构成的虚假请求序列P′=p′0 p′1…p′n-1p′n、以及服务请求pn和历史服务请求序列Ph=p0 p1…pn-1构成的服务请求序列P=p0 p1…pn-1 pn,满足隐私约束和/或代价平衡约束;所述隐私约束包括内容隐私约束、和主题隐私约束;
所述服务请求通信模块,用于将所述虚假请求构造模块提交的虚假请求p′n=(u@p′n,e@p′n)发送给云端服务器并获得信息服务结果R(p′n),返回给所述结果解析模块;
所述结果解析模块,用于根据所述虚假请求构造模块构造的虚假请求序列P′=p′0 p′1…p′n-1p′n和服务请求序列P=p0 p1…pn-1 pn的关联关系,将信息服务结果R(p′n)作为服务请求pn的信息服务结果R(pn)返回给相应的用户u@pn
10.如权利要求9所述的基于标识替换的用户信息服务隐私保护系统,其特征在于,所述虚假请求构造模块,采用以下策略之一:
隐私匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束;
代价匹配策略:使得虚假请求序列P′和服务请求序列P满足代价平衡约束;
平衡匹配策略:使得虚假请求序列P′和服务请求序列P满足隐私约束和代价平衡约束。
CN202110148410.0A 2021-02-03 2021-02-03 一种基于标识替换的用户信息服务隐私保护方法及系统 Active CN112765670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110148410.0A CN112765670B (zh) 2021-02-03 2021-02-03 一种基于标识替换的用户信息服务隐私保护方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110148410.0A CN112765670B (zh) 2021-02-03 2021-02-03 一种基于标识替换的用户信息服务隐私保护方法及系统

Publications (2)

Publication Number Publication Date
CN112765670A true CN112765670A (zh) 2021-05-07
CN112765670B CN112765670B (zh) 2022-11-29

Family

ID=75704782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110148410.0A Active CN112765670B (zh) 2021-02-03 2021-02-03 一种基于标识替换的用户信息服务隐私保护方法及系统

Country Status (1)

Country Link
CN (1) CN112765670B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223654A (zh) * 2021-06-04 2021-08-06 杭州云呼网络科技有限公司 一种医学检验报告单的智能解读管理平台
CN117216803A (zh) * 2023-11-09 2023-12-12 成都乐超人科技有限公司 一种面向智慧金融的用户信息保护方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1288830A1 (en) * 2001-08-31 2003-03-05 Hewlett-Packard Company Anonymous processing of usage rights with variable degrees of privacy and accuracy
CN107609419A (zh) * 2017-09-12 2018-01-19 温州大学瓯江学院 一种数字图书馆用户的浏览偏好隐私保护方法及系统
CN108664808A (zh) * 2018-04-27 2018-10-16 温州大学瓯江学院 一种面向图书搜索服务的用户敏感主题保护方法及系统
CN109359480A (zh) * 2018-10-08 2019-02-19 温州大学瓯江学院 一种面向数字图书馆的用户隐私保护方法及系统
CN110245297A (zh) * 2019-06-18 2019-09-17 绍兴文理学院 一种面向图书关键词搜索的用户主题隐私保护方法及系统
CN112084411A (zh) * 2020-09-10 2020-12-15 绍兴文理学院 一种面向个性化信息检索的用户隐私保护方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1288830A1 (en) * 2001-08-31 2003-03-05 Hewlett-Packard Company Anonymous processing of usage rights with variable degrees of privacy and accuracy
CN107609419A (zh) * 2017-09-12 2018-01-19 温州大学瓯江学院 一种数字图书馆用户的浏览偏好隐私保护方法及系统
CN108664808A (zh) * 2018-04-27 2018-10-16 温州大学瓯江学院 一种面向图书搜索服务的用户敏感主题保护方法及系统
CN109359480A (zh) * 2018-10-08 2019-02-19 温州大学瓯江学院 一种面向数字图书馆的用户隐私保护方法及系统
CN110245297A (zh) * 2019-06-18 2019-09-17 绍兴文理学院 一种面向图书关键词搜索的用户主题隐私保护方法及系统
CN112084411A (zh) * 2020-09-10 2020-12-15 绍兴文理学院 一种面向个性化信息检索的用户隐私保护方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARAIN,Q.A: "Privacy Preserving Dynamic Pseudonym-Based Multiple Mix-Zones Authentication", 《WIRELESS PERSONAL COMMUNICATIONS》, 31 December 2016 (2016-12-31) *
CHENGLANG LU: "A Patient Privacy Protection Scheme for Medical Information System", 《JOURNAL OF MEDICAL SYSTEMS》, 30 October 2013 (2013-10-30) *
吴宗大: "图书推荐服务用户隐私保护方法研究", 《小型微型计算机系统》, 31 October 2020 (2020-10-31) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223654A (zh) * 2021-06-04 2021-08-06 杭州云呼网络科技有限公司 一种医学检验报告单的智能解读管理平台
CN117216803A (zh) * 2023-11-09 2023-12-12 成都乐超人科技有限公司 一种面向智慧金融的用户信息保护方法及系统
CN117216803B (zh) * 2023-11-09 2024-02-09 成都乐超人科技有限公司 一种面向智慧金融的用户信息保护方法及系统

Also Published As

Publication number Publication date
CN112765670B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
Wu et al. A user sensitive subject protection approach for book search service
Fu et al. Toward efficient multi-keyword fuzzy search over encrypted outsourced data with accuracy improvement
KR102430649B1 (ko) 익명화를 위해 속성들을 자동으로 식별하기 위한 컴퓨터 구현 시스템 및 방법
Zhu et al. Collaborative integrity verification in hybrid clouds
Hudic et al. Data confidentiality using fragmentation in cloud computing
CN112765670B (zh) 一种基于标识替换的用户信息服务隐私保护方法及系统
Praveena et al. A machine learning application for reducing the security risks in hybrid cloud networks
Preethi et al. Modelling LSUTE: PKE schemes for safeguarding electronic healthcare records over cloud communication environment
Gupta et al. An approach towards big data—A review
Wu et al. An effective method for the protection of user health topic privacy for health information services
Kaur et al. Attribute-based access control scheme for secure storage and sharing of EHRs using blockchain and IPFS
Suthar et al. Encryscation: An secure approach for data security using encryption and obfuscation techniques for iaas and daas services in cloud environment
US11386041B1 (en) Policy tag management for data migration
Undavia et al. Security issues and challenges related to Big Data
CN113779597A (zh) 加密文档的存储和相似检索方法、装置、设备及介质
Tompsett et al. Cyberprofiling: Offender profiling and geographic profiling of crime on the internet
Swami et al. A new secure data retrieval system based on ECDH and hierarchical clustering with Pearson correlation
Warigon Data warehouse control & security
KAREEM et al. Big Data Security Issues and Challenges.
Jain et al. Privacy-preserving record linkage with block-chains
Shu et al. Rapid screening of big data against inadvertent leaks
CN116112264B (zh) 一种基于区块链的策略隐藏大数据访问控制方法和装置
XIONG et al. Searchable Encryption Scheme for Large Data Sets in Cloud Storage Environment
CN117521120B (zh) 一种文件加密方法、装置、设备及存储介质
Xiuguo A security-aware data replica placement strategy based on fuzzy evaluation in the cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant