CN112084411B - 一种面向个性化信息检索的用户隐私保护方法 - Google Patents

一种面向个性化信息检索的用户隐私保护方法 Download PDF

Info

Publication number
CN112084411B
CN112084411B CN202010946294.2A CN202010946294A CN112084411B CN 112084411 B CN112084411 B CN 112084411B CN 202010946294 A CN202010946294 A CN 202010946294A CN 112084411 B CN112084411 B CN 112084411B
Authority
CN
China
Prior art keywords
query
user
query request
sequence
dummy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010946294.2A
Other languages
English (en)
Other versions
CN112084411A (zh
Inventor
吴宗大
谢坚
卢成浪
李虎雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shaoxing
Original Assignee
University of Shaoxing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shaoxing filed Critical University of Shaoxing
Priority to CN202010946294.2A priority Critical patent/CN112084411B/zh
Publication of CN112084411A publication Critical patent/CN112084411A/zh
Application granted granted Critical
Publication of CN112084411B publication Critical patent/CN112084411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Abstract

本发明公开了一种面向个性化信息检索的用户隐私保护方法,包括以下步骤:(1)获取知识库的主题层次结构、以及用户敏感偏好集;(2)对于用户初始查询请求,采用贪婪算法构造由一系列与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求;(3)对于当前用户查询请求、用户历史请求序列,构造由一系列与用户当前位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求序列;(4)将哑元查询请求序列集,与用户查询请求序列通过可信客户端发送给服务器端,所述可信客户端获得哑元查询请求序列和用户查询请求序列的服务结果,并从中筛选用户查询请求序列对应的服务结果返回会给用户。本发明有效改善用户各类隐私的安全性。

Description

一种面向个性化信息检索的用户隐私保护方法
技术领域
本发明属于隐私保护领域,更具体地,涉及一种面向个性化信息检索的用户隐私保护方法。
背景技术
随着网络技术的迅速发展,网上信息量急剧膨胀,引发了严重的信息超载问题和资源迷向问题,已成为制约人们有效利用网络信息资源的瓶颈。网络个性化信息检索服务基于用户特定的信息需求(如用户检索词、用户位置、用户偏好等),向用户提供具有针对性的满足其个性化需求的信息内容,帮助用户从海量网络信息资源中快速获取目标数据,是解决信息超载和资源迷向问题的有效工具,具有广阔的市场应用前景,受到学界和业界的广泛关注。然而,随着云计算和大数据等新兴网络技术的迅速发展,网络个性化信息检索服务的后台服务器端正变得越来越不可信,已成为引发用户隐私泄露的主要威胁和根源。为了获得准确的个性化信息检索服务结果,用户向后台服务器端提交的个性化信息检索查询请求蕴含着大量的用户敏感信息(如喜好、位置、社会关系等)。这些敏感信息被不可信网络服务器端大量的收集,势必对用户个人隐私安全构成严重威胁。随着人们隐私维权意识的不断增强,用户隐私安全问题已上升为制约网络个性化信息检索服务进一步发展与应用的主要障碍,成为信息检索领域迫切需要解决的热点和难点问题。在此背景下,本文面向网络个性化信息检索服务,深入研究用户隐私保护问题,以期在不损害信息服务可用性的前提下,全面改善各类用户隐私(主要包括用户偏好隐私、用户查询隐私和用户位置隐私)在不可信网络服务器端的安全性,以期构建一个用户隐私安全的个性化信息检索服务平台。
社会科学领域学者更多从法律角度研究网络用户的隐私保护问题。虽然制定隐私权相关的法律能在一定程度上保护用户隐私,但是并不能根本上解决该问题,它更多地需要采用隐私保护技术加以解决。针对不可信网络环境下的用户隐私安全问题,信息科学领域学者已给出了许多有效方法,代表性地有:隐私加密法、模糊法、匿名法和混淆法。(1)隐私加密是指通过加密变换,使得用户服务查询请求数据对网络服务器端不可见,以达到隐私保护的目的,代表性地有隐私信息检索技术。该类技术不仅要求额外硬件和复杂算法的支持,且要求改变服务器端的服务算法,从而引起整个平台架构的改变,降低了方法在个性化信息检索平台中的可用性。(2)假名法是用户隐私保护中广泛使用的一种技术,它通过隐藏或伪装用户身份标识,允许用户以不暴露身份的方式使用系统。然而,匿名化隐私保护也受到了许多质疑。文献[28]分析了匿名化对隐私保护的不足,并给出证明。结果表明,通过匿名化技术收集的用户数据往往难以保证质量。更重要地是,现在许多信息检索服务平台一般要求用户须实名登录后才能使用,这限制了匿名化隐私保护技术的实际可用性。(3)模糊法主要针对位置服务,它通过泛化或扰动查询位置信息,使得攻击者无法识别出用户精确位置。然而,模糊法主要用于位置隐私保护,通常难以直接应用于个性化信息检索服务中保护其它类型用户隐私。此外,由于需要引入第三方匿名服务器,也一定程度限制了该类方法的实际可用性。(4)混淆法是指在将用户服务查询请求暴露给服务器端之前,预先对其进行适当混淆,使得不可信服务器端难以获知用户真实查询请求,以用户隐私保护。然而,现有方法没有充分考虑用户查询请求的分布特征,也没有考虑各类用户查询请求间的关联特征,严重影响了混淆效果。并且,现有方法通常只针对单一类型的用户隐私,无法满足网络个性化信息检索的安全性需求。然而,个性化检索信息服务中各类查询请求数据的可识别性特征类型多样,如:位置区域频度特征(用户在某段时间内喜欢围绕固定的位置区域发起查询请求)、查询主题频度特征(用户在某段时间内喜欢围绕固定的查询主题发起查询请求)、语义关联特征(用户查询请求相关的偏好描述、位置区域和查询主题之间存在很强的关联性)等。并且用户查询请求还会随着时间动态发生变化(即历史变化特征),如何分别为它们构造生成理想哑元服务查询请求,实现“全面改善”预期目标,是一项富有挑战性的研究任务。
综上所述,已有用户隐私保护技术在实用性、准确性、安全性等方面仍无法满足个性化信息检索服务的实际应用需求。综合来说,有效的个性化信息检索隐私保护方法需要满足以下几个方面的要求:(1)确保用户隐私的安全性,包括个性化信息检索服务查询请求涉及的各类用户隐私的安全性(如偏好隐私、查询隐私、位置隐私等;(2)确保用户个性化信息检索服务结果的准确性,即对比引入隐私保护方法的前后,用户获得的最终信息检索结果一致;(3)不损害检索服务的实际可用性,即隐私保护方法不改变检索服务算法,不需要额外硬件支持,也不会对用户服务查询请求的执行效率构成显著影响。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种面向个性化信息检索的用户隐私保护方法,其目的在于通过综合考虑用户的兴趣点隐私、偏好隐私和查询位置隐私,构建哑元查询请求序列集合,有效降低用户在特定时间内发起的查询请求为服务器分析用户偏好的风险,由此解决现有技术不能综合保护用户的偏好隐私、查询位置隐私以及查询兴趣点的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种面向个性化信息检索的用户隐私保护方法,包括以下步骤:
(1)获取知识库的主题层次结构
Figure BDA0002675388650000031
以及用户敏感偏好集H*;所述知识库的主题层次结构
Figure BDA0002675388650000032
为以所有查询兴趣点T为叶子节点的规范树结构,即每个叶子节点的深度相同,非叶子节点为主题;所述用户敏感偏好集H*为敏感主题集合;
(2)对于由查询兴趣点T0、配置文件P0、和查询位置L0构成的用户初始查询请求R0=(T0,P0,L0),采用贪婪算法构造由一系列与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求
Figure BDA0002675388650000041
组成的哑元查询请求序列
Figure BDA0002675388650000042
其中
Figure BDA0002675388650000043
所述哑元查询请求的查询兴趣点
Figure BDA0002675388650000044
关于查询位置
Figure BDA0002675388650000045
关联性与用户初始查询请求的查询兴趣点T0与用户查询位置L0关联性值一致,且查询兴趣点
Figure BDA0002675388650000046
关于配置文件
Figure BDA0002675388650000047
的关联性
Figure BDA0002675388650000048
和用户初始查询请求R0的查询兴趣点T0关于配置文件P0的关联性近似;所述查询请求R是由查询兴趣点T、配置文件P和查询位置L构成的三元组,记作:R=<T,P,L>;
(3)对于由查询兴趣点Ti+1、配置文件Pi+1、和查询位置Li+1构成的当前用户查询请求Ri+1=(Ti+1,Pi+1,Li+1)、用户历史请求序列Ri={R0,...,Ri},构造由一系列与用户当前位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求
Figure BDA0002675388650000049
组成的哑元查询请求序列
Figure BDA00026753886500000410
其中
Figure BDA00026753886500000411
Figure BDA00026753886500000412
使得由当前用户查询请求Ri+1与用户历史请求序列Ri组成的当前用户查询请求序列Ri+1={R0,...,Ri,Ri+1}与用户查询请求关联的哑元查询请求序列
Figure BDA00026753886500000413
组成的哑元查询请求序列集合
Figure BDA00026753886500000414
Figure BDA00026753886500000415
(其中
Figure BDA00026753886500000416
为配置文件集,
Figure BDA00026753886500000417
查询兴趣点序列集,
Figure BDA00026753886500000418
查询位置序列集)相似性低于预设阈值且使得其查询兴趣点序列集
Figure BDA00026753886500000419
以及配置文件集
Figure BDA00026753886500000420
降低用户敏感偏好集的突显度至预设阈值以下、以及使得查询位置序列集
Figure BDA00026753886500000421
降低用户查询位置的突显度至预设阈值以下;
(4)将步骤(2)中构造的哑元查询请求序列
Figure BDA00026753886500000422
和/或步骤(3)中构造的哑元查询请求序列集
Figure BDA00026753886500000423
与用户查询请求序列Ri+1通过可信客户端发送给服务器端,所述可信客户端获得哑元查询请求序列和用户查询请求序列的服务结果,并从中筛选用户查询请求序列对应的服务结果返回会给用户。
优选地,所述面向个性化信息检索的用户隐私保护方法,其所述查询兴趣点T为知识库的主题层次结构
Figure BDA0002675388650000051
的某一叶子节点;
所述配置文件P为知识库的主题层次结构
Figure BDA0002675388650000052
的根子树关联的用户兴趣偏好层次,即保留知识库主题层次结构根节点的子树,其每个节点关联一个用户兴趣偏好值,其中每个节点H∈P的用户兴趣偏好值PR(H,P)为其直接孩子节点的用户兴趣偏好值的算数平均数,即:
PR(H,P)=∑H,∈DH(H)PR(H′,P)/|DH(H)|
其中,DH(H)表示主题H的直接孩子集合。
所述查询位置L为用户发布该查询请求时所处的位置单元。位置区域
Figure BDA0002675388650000053
即位置单元集合,它满足以下几个属性:(1)位置区域拥有层次属性k,位置区域层次越高,它包含的位置就越多;显然,地图
Figure BDA0002675388650000054
本身也是位置区域,它拥有最高的层次nL;每个位置单元也是区域,它拥有最低的层次0;(2)同层次的位置区域互不相交;(3)同层次区域面积彼此相等;(4)所有同层次位置区域的并集等于地图本身;(5)除地图
Figure BDA0002675388650000055
本身外的任意区域均包含于某个更高层区域。
优选地,所述面向个性化信息检索的用户隐私保护方法,其步骤(2)构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R#具体为:
对于用户初始查询请求R0=(T0,P0,L0),构造哑元查询请求
Figure BDA0002675388650000056
Figure BDA0002675388650000057
使得其同时满足:
Con1:查询位置L#与用户初始查询请求的L0的距离大于安全距离阈值ε,记作:
Figure BDA0002675388650000058
Con2:配置文件
Figure BDA0002675388650000059
的与用户初始查询请求的配置文件P0的主题偏好特征一致;
Con3:其查询兴趣点
Figure BDA0002675388650000061
关于其配置文件
Figure BDA0002675388650000062
的关联性
Figure BDA0002675388650000063
与用户初始查询请求的查询兴趣点T0关于配置文件P0的关联性RE(T0,P0)近似,即
Figure BDA0002675388650000064
近似即值的差距小于预设的差距阈值;
Con4:其查询兴趣点
Figure BDA0002675388650000065
关于查询位置
Figure BDA0002675388650000066
关联性与用户查询兴趣点T0与用户查询位置L0关联性值一致,即
Figure BDA0002675388650000067
优选地,所述面向个性化信息检索的用户隐私保护方法,其对于任意两个配置文件P1和P2其主题偏好特征一致,即所述两个配置文件的特征相似性sim(P1,P2)超过预设的阈值;所述任意两个配置文件P1和P2的特征相似性sim(P1,P2)计算方法如下:
Figure BDA0002675388650000068
其中,k为知识库的主题层次结构
Figure BDA0002675388650000069
的层次,其叶子节点即查询兴趣点的层次为0,其根节点具有最高层次为nH
Figure BDA00026753886500000616
其值由系统预先设定,较简单地认为
Figure BDA00026753886500000610
EJ表示向量间的广义Jaccard相似性;PRk(P1)为配置文件P1的主题偏好向量,PRk(P2)为配置文件P2的主题偏好向量。
对于任意配置文件P,其在知识库的主题层次结构
Figure BDA00026753886500000611
的层次k上的主题偏好向量PRk(P)的计算方法如下:
Figure BDA00026753886500000612
其中:PR(Hi,P)≥PR(Hi+1,P)
其中,
Figure BDA00026753886500000613
为知识库的主题层次结构
Figure BDA00026753886500000614
在层次k上的主题集合,Hi为知识库的主题层次结构
Figure BDA00026753886500000615
的主题,PR(Hi,P)为配置文件P记录的用户对主题Hi的用户偏好值,PR(Hi+1,P)为配置文件P记录的用户对主题Hi+1的用户偏好值。
对于任意查询请求R=<T,P,L>,其查询兴趣点T关于其配置文件P的关联性RE(T,P)按照如下方法计算:
RE(T,P)=PR(H*,P)/HE(H*),其中:H*=arg minHHE(H)s.t.H∈P∧T∈H
其中PR(H*,P)为配置文件记录P记录的用户对主题H*的用户兴趣偏好值,H*为配置文件P中包含查询T的层次值最小的主题,HE(H*)表示H*的层次值。
对于任意查询请求R=<T,P,L>,其查询兴趣点T与查询位置的关联值为RE(T,L)为:
Figure BDA0002675388650000071
优选地,所述面向个性化信息检索的用户隐私保护方法,其步骤(2)构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R#具体按照以下方法实现:
(2-1)获取初始用户查询请求R0=(T0,P0,L0)、知识库的主题层次结构
Figure BDA0002675388650000072
以及用户敏感偏好主题集H*
(2-2)对于初始用户查询请求R0的配置文件P0中的每一个节点H,选择哑元相同层次的节点H#,进行递归的搜索构造,从而构造哑元查询请求
Figure BDA0002675388650000073
的配置文件
Figure BDA0002675388650000074
(2-3)对于初始用户查询请求R0的配置文件P0、在知识库的主题层次结构
Figure BDA0002675388650000075
的所有查询兴趣点集合
Figure BDA00026753886500000716
中不属于敏感偏好主题集H*叶子节点的查询兴趣点集合中,搜索关于哑元查询请求
Figure BDA0002675388650000076
的配置文件
Figure BDA0002675388650000077
的关联性与初始用户查询请求R0的查询兴趣点T0关于其配置文件P0的关联性
Figure BDA0002675388650000078
近似的备选查询兴趣点集合T*,并从中随机选取其一作为哑元查询请求
Figure BDA0002675388650000079
的查询兴趣点
Figure BDA00026753886500000710
即备选查询兴趣点集合T*满足:
Figure BDA00026753886500000711
Figure BDA00026753886500000712
Figure BDA00026753886500000713
(2-4)对于哑元查询请求
Figure BDA00026753886500000714
的查询兴趣点
Figure BDA00026753886500000715
选取与其匹配且与初始用户查询请求查询位置的距离超过安全距离的位置单元作为哑元查询请求
Figure BDA0002675388650000081
的备选位置单元集合L*,并从中随机选取其一作为哑元查询请求
Figure BDA0002675388650000082
的查询位置
Figure BDA0002675388650000083
(2-5)将步骤(2-2)构造的哑元查询请求
Figure BDA0002675388650000084
的配置文件
Figure BDA0002675388650000085
步骤(2-3)构造的哑元查询请求
Figure BDA0002675388650000086
的查询兴趣点
Figure BDA0002675388650000087
步骤(2-4)构造的哑元查询请求
Figure BDA0002675388650000088
的查询兴趣点
Figure BDA0002675388650000089
组成哑元查询请求:
Figure BDA00026753886500000810
优选地,所述面向个性化信息检索的用户隐私保护方法,其所述搜索构造的过程为:
如果其为叶子节点则:随机构造哑元查询请求
Figure BDA00026753886500000811
的配置文件
Figure BDA00026753886500000812
的相应叶子节点H#,并使得哑元查询请求
Figure BDA00026753886500000813
的配置文件
Figure BDA00026753886500000814
的相应叶子节点H#的用户偏好值与节点H的相同,即:
Figure BDA00026753886500000815
否则即节点H为非叶子节点则:随机选择H#的子节点集合,使得H#的子节点集合大小与H的子节点集合大小相同,并对于H的子节点集合中的每一节点,随机选择哑元H#的子节点集合中的一节点,进行搜索构造。
优选地,所述面向个性化信息检索的用户隐私保护方法,其步骤(3)即使得哑元查询请求序列集合
Figure BDA00026753886500000816
满足以下条件:
CON1、哑元查询请求序列集合
Figure BDA00026753886500000817
中存在一个哑元查询请求序列关于当前用户查询请求序列Ri+1的综合相似性
Figure BDA00026753886500000818
超过预设的综合相似性阈值π,即:
Figure BDA00026753886500000819
CON2、哑元查询请求序列集合
Figure BDA00026753886500000820
降低用户敏感偏好集
Figure BDA00026753886500000821
的突显度至预设的安全性阈值ρ以下,即:
Figure BDA00026753886500000822
其中,Ti+1为当前用户查询请求序列Ri+1的查询兴趣点序列,
Figure BDA00026753886500000823
为哑元查询请求序列集合
Figure BDA00026753886500000824
的查询兴趣点序列集;exp(H*,{Ti+1})为敏感主题H*关于当前用户查询请求序列Ri+1的查询兴趣点序列Ti+1的突显度,
Figure BDA0002675388650000091
为敏感主题H*关于所有查询兴趣点集合
Figure BDA0002675388650000092
的突显度。
CON3、哑元查询请求序列集合
Figure BDA0002675388650000093
的配置文件集
Figure BDA0002675388650000094
降低用户敏感偏好集
Figure BDA0002675388650000095
的突显度至预设的安全性阈值ρ以下,即:
Figure BDA0002675388650000096
其中,Pi+1为当前用户查询请求序列Ri+1的配置文件集合,
Figure BDA0002675388650000097
为哑元查询请求序列集合
Figure BDA0002675388650000098
的配置文件集合;exp(H*,{Pi+1})为敏感主题H*关于当前用户查询请求序列Ri+1的置文件集合Pi+1的突显度,
Figure BDA0002675388650000099
为敏感主题H*关于所有配置文件集合
Figure BDA00026753886500000910
的突显度。
CON4、哑元查询请求序列集合
Figure BDA00026753886500000911
的查询位置序列集
Figure BDA00026753886500000912
降低用户敏感偏好集
Figure BDA00026753886500000913
的突显度至预设的安全性阈值ρ以下,即:
Figure BDA00026753886500000914
其中,
Figure BDA00026753886500000915
为用户查询请求的位置L0关于L0及其关联的哑元查询请求序列中的位置序列的并集的突显度。
优选地,所述面向个性化信息检索的用户隐私保护方法,其对于任意两个查询请求序列R1、R2的综合相似性sim(R1,R2)计算方法如下:
sim(R1,R2)
=(θ1·sim(RT(R1),RT(R2))+θ2·sim(RL(R1),RL(R2)))·(ω1·sim(P1,P2)+ω2·sim(T1,T2)+ω3·sim(L1,L2))
其中θ12=1,ω123=1为预设的权重值;sim(RT(R1),RT(R2))为查询配置关联向量RT(R1)和RT(R2)的特征相似度,sim(RL(R1),RL(R2))为查询位置关联向量RL(R1)和RL(R2)的特征相似度,sim(P1,P2)为配置文件的特征相似度,sim(T1,T2)为查询请求序列的特征相似度,sim(L1,L2)为位置序列的特征相似度;
对于给定主题H其关于任意查询兴趣点序列集合
Figure BDA00026753886500000916
的突显度
Figure BDA0002675388650000101
为:
Figure BDA0002675388650000102
其中,
Figure BDA0002675388650000103
层次为k的全体查询主题,FR(H,T)为主题H关于查询兴趣点序列T的出现频度,FR(H′,T)为主题H′关于查询兴趣点序列T的出现频度。
对于给定主题H其关于任意查询兴趣点序列T的出现频度为:
FR(H,T)=|{Ti|Ti∈T∧Ti∈H}|
其中,Ti∈H表示主题H包含的兴趣点Ti
对于给定主题H其关于任意配置文件集合
Figure BDA0002675388650000104
的突显度
Figure BDA0002675388650000105
为:
Figure BDA0002675388650000106
对于任意位置L0关于任意给顶的位置单元集合L突显度exp(L0,L)为:
Figure BDA0002675388650000107
优选地,所述面向个性化信息检索的用户隐私保护方法,其配置文件的特征相似度sim(P1,P2)计算方法如下:
Figure BDA0002675388650000108
其中,k为知识库的主题层次结构
Figure BDA0002675388650000109
的层次,其叶子节点即查询兴趣点的层次为0,其根节点具有最高层次为nH
Figure BDA00026753886500001010
其值由系统预先设定,较简单地认为
Figure BDA00026753886500001011
表示向EJ量间的广义Jaccard相似性;PRk(P1)为配置文件P1的主题偏好向量,PRk(P2)为配置文件P2的主题偏好向量。
查询请求序列的特征相似度sim(T1,T2)的计算方法如下:
Figure BDA00026753886500001012
其中,k为知识库的主题层次结构
Figure BDA00026753886500001013
的层次,其叶子节点即查询兴趣点的层次为0,其根节点具有最高层次为nH
Figure BDA0002675388650000111
它们的值由系统预先设定,较简单地认为
Figure BDA0002675388650000112
FRk(T1)为查询请求序列R1的查询兴趣点组成的查询兴趣点序列T1在主题层次k上的兴趣频度向量;FRk(T2)为查询请求序列R2的查询兴趣点组成的查询兴趣点序列T2在主题层次k上的兴趣频度向量。
对于任意查询兴趣点序列T在主题层次k上的兴趣频度向量FRk(T)定义如下:
Figure BDA0002675388650000113
其中:FR(Hi,T)≥FR(Hi+1,T)
其中,Hi为知识库的主题层次结构
Figure BDA0002675388650000114
的层次节点集合
Figure BDA0002675388650000115
的主题,FR(Hi,T)为查询请求序列T关于主题Hi的出现频度,计算方法如下:
FR(Hi,T)=|{Ti|Ti∈T∧Ti∈Hi}|
位置序列的特征相似度sim(L1,L2)的计算方法如下:
Figure BDA0002675388650000116
其中,位置区域的最高层次即地图本身的层次为nL,最低层次即位置单元的层次为0,
Figure BDA0002675388650000117
它们的值由系统预先设定,较简单地认为
Figure BDA0002675388650000118
FRk(L1)为R1的查询位置组成的查询位置序列L1在位置层次k上的区域频度向量;FRk(L2)为R2的查询位置组成的查询位置序列L2在位置层次k上的区域频度向量;
对于任意查询位置序列L在位置层次k上的区域频度向量FRk(L)定义如下:
Figure BDA0002675388650000119
其中:FR(Di,L)≥FR(Di+1,L)
其中,Di为地图
Figure BDA00026753886500001110
的层次为k的位置区域集合
Figure BDA00026753886500001111
的位置区域,FR(Di,L)为位置序列L关于位置区域Di的出现频度,计算方法如下:
FR(Di,L)=|{Li|Li∈L∧Li∈Di}|
查询配置关联向量RT(R1)和RT(R2)的特征相似度sim(RT(R1),RT(R2))的计算方法如下:
sim(RT(R1),RT(R2))=EJ(RT(R1),RT(R2))
对于任意查询请求序列R其查询配置关联向量RT(R)为查询请求序列R中各个查询请求的查询兴趣点关于配置文件的关联性值所构成的序列,即:
RT(R)=[RE(Ti,P)|Ti∈T]
其中,RE(Ti,P)表示查询请求序列R中第i查询请求的查询兴趣点Ti关于其配置文件P的关联性。
查询位置关联向量RL(R1)和RL(R2)的特征相似度sim(RL(R1),RL(R2))的计算方法如下:
sim(RL(R1),RL(R2))=EJ(RL(R1),RL(R2))
对于任意查询请求序列R其查询位置关联向量RL(R)为查询请求序列R中各个查询请求的查询兴趣点关于查询位置的关联性值所构成的序列,即:
RL(R)=[RE(Ti,Li)|<Ti,Li>∈<T,L>]
其中,RE(Ti,Li)表示查询请求序列R中第i查询请求的查询兴趣点Ti关于其查询位置Li的关联性。
优选地,所述面向个性化信息检索的用户隐私保护方法,其步骤(3)按照以下方法构建与用户当前位置Li+1保持安全距离且与用户敏感偏好主题无关的哑元查询请求
Figure BDA0002675388650000121
(3-1)获取用户对于由身份标识U、查询兴趣点Ti+1、配置文件Pi+1、和查询位置Li+1构成的当前用户查询请求Ri+1=(U,Ti+1,Pi+1,Li+1)、用户历史请求序列Ri={R0,...,Ri}、用户查询请求关联的哑元查询请求序列
Figure BDA0002675388650000122
知识库的主题层次结构
Figure BDA0002675388650000123
以及用户敏感偏好主题集H*
(3-2)对于当前用户查询请求Ri+1=(Ti+1,Pi+1,Li+1)、用户历史请求序列Ri={R0,...,Ri}、以及用户查询请求关联的哑元查询请求序列
Figure BDA0002675388650000124
判断当前用户查询请求的配置文件Pi+1是否被包含于历史请求序列的配置文件序列中,如果包含则:在历史请求序列中包含所述配置文件Pi+1的用户查询请求关联的哑元查询请求序列中,选择任一查询请求,获取其配置文件作为哑元查询请求
Figure BDA0002675388650000131
的配置文件
Figure BDA0002675388650000132
否则,对于用户查询请求Ri+1的配置文件Pi+1的每一个节点H,选择哑元相同层次的节点H#,进行递归的搜索构造,从而构造哑元查询请求
Figure BDA0002675388650000133
的配置文件
Figure BDA0002675388650000134
所述搜索构造的过程同步骤(2-2)。
(3-3)在知识库的主题层次结构
Figure BDA0002675388650000135
所有非敏感偏好主题集中的查询兴趣点集合中,搜索满足以下条件的查询兴趣点形成查询兴趣点集合T*,并从中随机选择其一作为构造哑元查询请求
Figure BDA0002675388650000136
的查询兴趣点
Figure BDA0002675388650000137
具体条件如下:
所述查询兴趣点与用户历史请求序列Ri的查询兴趣点序列Ti构成的查询兴趣点序列、当前用户查询请求和用户历史查询请求序列的查询兴趣点构成的查询兴趣点序列,所述两查询兴趣点序列的特征相似度大于等于查询请求序列的特征相似度阈值;且
所述查询兴趣点与哑元请求
Figure BDA0002675388650000138
的配置文件
Figure BDA0002675388650000139
的关联性、当前用户查询请求的查询兴趣点与配置文件的关联性二者之间的距离不超过关联性阈值。
(3-4)在与当前用户查询请求查询位置的距离超过安全距离的位置单元集合中,搜索满足以下条件的位置单元形成位置单元集合L*,并从中随机选择其一作为构造哑元查询请求
Figure BDA00026753886500001310
的查询位置
Figure BDA00026753886500001311
具体条件如下:
所述查询位置与用户历史请求序列Ri的查询位置序列Li构成的查询兴趣点序列、当前用户查询请求和用户历史查询请求序列的查询位置构成的查询位置序列,所述两查询位置序列的位置特征相似度大于等于位置序列的特征相似度阈值;且
所述查询位置与哑元请求
Figure BDA0002675388650000141
的查询兴趣点
Figure BDA0002675388650000142
的关联性、当前用户查询请求的查询位置与查询兴趣点的关联性二者之间的距离不超过关联性阈值。
(3-5)将步骤(3-2)构造的哑元查询请求
Figure BDA0002675388650000143
的配置文件
Figure BDA0002675388650000144
步骤(3-3)构造的哑元查询请求
Figure BDA0002675388650000145
的查询兴趣点
Figure BDA0002675388650000146
步骤(3-4)构造的哑元查询请求
Figure BDA0002675388650000147
的查询位置
Figure BDA0002675388650000148
组成哑元查询请求:
Figure BDA0002675388650000149
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明提供了一种面向个性化信息检索的用户隐私保护方法,构造的哑元查询请求与用户请求拥有高度一致的位置特征、查询特征、偏好特征和关联特征,能有效地混淆掩盖保护用户查询隐私、位置隐私和偏好隐私,以改善用户各类隐私在不可信服务器端的安全性。
附图说明
图1是本发明提供的面向个性化信息检索的用户隐私保护方法的步骤示意图;
图2是知识库的主题层次结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的面向个性化信息检索的用户隐私保护方法,如图1所示,包括以下步骤:
(1)获取知识库的主题层次结构
Figure BDA00026753886500001410
以及用户敏感偏好集H*;所述知识库的主题层次结构
Figure BDA0002675388650000151
如图2所示,为以所有查询兴趣点T为叶子节点的规范树结构,即每个叶子节点的深度相同,非叶子节点为主题;所述用户敏感偏好集H*为敏感主题集合。
(2)对于由查询兴趣点T0、配置文件P0、和查询位置L0构成的用户初始查询请求R0=(T0,P0,L0),采用贪婪算法构造由一系列与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求
Figure BDA0002675388650000152
组成的哑元查询请求序列
Figure BDA0002675388650000153
其中
Figure BDA0002675388650000154
所述哑元查询请求的查询兴趣点
Figure BDA0002675388650000155
关于查询位置
Figure BDA0002675388650000156
关联性与用户初始查询请求的查询兴趣点T0与用户查询位置L0关联性值一致,且查询兴趣点
Figure BDA0002675388650000157
关于配置文件
Figure BDA0002675388650000158
的关联性
Figure BDA0002675388650000159
和用户初始查询请求R0的查询兴趣点T0关于配置文件P0的关联性近似;所述查询请求R是由查询兴趣点T、配置文件P和查询位置L构成的三元组,记作:R=<T,P,L>;其中:
所述查询兴趣点T为知识库的主题层次结构
Figure BDA00026753886500001510
的某一叶子节点;
所述配置文件P为知识库的主题层次结构
Figure BDA00026753886500001511
的根子树关联的用户兴趣偏好层次,即保留知识库主题层次结构根节点的子树,其每个节点关联一个用户兴趣偏好值,其中每个节点H∈P的用户兴趣偏好值PR(H,P)为其直接孩子节点的用户兴趣偏好值的算数平均数,即:
PR(H,P)=∑H′∈DH(H)PR(H′,P)/|DH(H)|
其中,DH(H)表示主题H的直接孩子集合。
所述查询位置L为用户发布该查询请求时所处的位置单元。位置区域
Figure BDA00026753886500001512
即位置单元集合,它满足以下几个属性:(1)位置区域拥有层次属性k,位置区域层次越高,它包含的位置就越多;显然,地图
Figure BDA00026753886500001513
本身也是位置区域,它拥有最高的层次nL;每个位置单元也是区域,它拥有最低的层次0;(2)同层次的位置区域互不相交;(3)同层次区域面积彼此相等;(4)所有同层次位置区域的并集等于地图本身;(5)除地图
Figure BDA00026753886500001514
本身外的任意区域均包含于某个更高层区域。
优选地,步骤(2)构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R#具体为:
对于用户初始查询请求R0=(T0,P0,L0),构造哑元查询请求
Figure BDA0002675388650000161
Figure BDA0002675388650000162
使得其同时满足:
Con1:查询位置L#与用户初始查询请求的L0的距离大于安全距离阈值ε,记作:
Figure BDA0002675388650000163
Con2:配置文件
Figure BDA0002675388650000164
的与用户初始查询请求的配置文件P0的主题偏好特征一致;
对于任意两个配置文件P1和P2其主题偏好特征一致,即所述两个配置文件的特征相似性sim(P1,P2)超过预设的阈值;所述任意两个配置文件P1和P2的特征相似性sim(P1,P2)计算方法如下:
Figure BDA0002675388650000165
其中,k为知识库的主题层次结构
Figure BDA0002675388650000166
的层次,其叶子节点即查询兴趣点的层次为0,其根节点具有最高层次为nH
Figure BDA0002675388650000167
其值由系统预先设定,较简单地认为
Figure BDA0002675388650000168
EJ表示向量间的广义Jaccard相似性;PRk(P1)为配置文件P1的主题偏好向量,PRk(p2)为配置文件P2的主题偏好向量。
对于任意配置文件P,其在知识库的主题层次结构
Figure BDA0002675388650000169
的层次k上的主题偏好向量PRk(P)的计算方法如下:
Figure BDA00026753886500001610
其中:PR(Hi,P)≥PR(Hi+1,P)
其中,
Figure BDA00026753886500001611
为知识库的主题层次结构
Figure BDA00026753886500001612
在层次k上的主题集合,Hi为知识库的主题层次结构
Figure BDA00026753886500001613
的主题,PR(Hi,P)为配置文件P记录的用户对主题Hi的用户偏好值,PR(Hi+1,P)为配置文件P记录的用户对主题Hi+1的用户偏好值。
Con3:其查询兴趣点
Figure BDA0002675388650000171
关于其配置文件
Figure BDA0002675388650000172
的关联性
Figure BDA0002675388650000173
与用户初始查询请求的查询兴趣点T0关于配置文件P0的关联性RE(T0,P0)近似,即
Figure BDA0002675388650000174
近似即值的差距小于预设的差距阈值;
对于任意查询请求R=<T,P,L>,其查询兴趣点T关于其配置文件P的关联性RE(T,P)按照如下方法计算:
RE(T,P)=PR(H*,P)/HE(H*),其中:H*=arg minHHE(H)s.t.H∈P∧T∈H
其中PR(H*,P)为配置文件记录P记录的用户对主题H*的用户兴趣偏好值,H*为配置文件P中包含查询T的层次值最小的主题,HE(H*)表示H*的层次值。
Con4:其查询兴趣点
Figure BDA0002675388650000175
关于查询位置
Figure BDA0002675388650000176
关联性与用户查询兴趣点T0与用户查询位置L0关联性值一致,即
Figure BDA0002675388650000177
对于任意查询请求R=<T,P,L>,其查询兴趣点T与查询位置的关联值为RE(T,L)为:
Figure BDA0002675388650000178
优选的,具体可按照以下方法实现:
(2-1)获取初始用户查询请求R0=(T0,P0,L0)、知识库的主题层次结构
Figure BDA0002675388650000179
以及用户敏感偏好主题集H*
(2-2)对于初始用户查询请求R0的配置文件P0中的每一个节点H,选择哑元相同层次的节点H#,进行递归的搜索构造,从而构造哑元查询请求
Figure BDA00026753886500001710
的配置文件
Figure BDA00026753886500001711
上述构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R#的算法可表示为:
算法1:为用户初始查询请求R0伪造一个哑元查询请求
Figure BDA00026753886500001712
(历史序列为空)
输入:用户当前请求r0=(t0,P0,L0);知识层次目录
Figure BDA00026753886500001713
用户敏感偏好集H*
输出:对应用户请求的一个哑元请求
Figure BDA0002675388650000181
01获取知识层次目录
Figure BDA0002675388650000182
的根节点H(同时也是用户配置文件P的根节点)
02设置
Figure BDA0002675388650000183
/*T表示查询兴趣点空间*/
03设置
Figure BDA0002675388650000184
04从候选集合T*中随机选取一个词条构建哑元查询T#/*
Figure BDA0002675388650000185
表示位置单元空间*/
05设置
Figure BDA0002675388650000186
06从候选集合L*中随机选取一个位置构建哑元位置L#
07 RETURN
Figure BDA0002675388650000187
所述搜索构造的过程为:
如果其为叶子节点则:随机构造哑元查询请求
Figure BDA0002675388650000188
的配置文件
Figure BDA0002675388650000189
的相应叶子节点H#,并使得哑元查询请求
Figure BDA00026753886500001810
的配置文件
Figure BDA00026753886500001811
的相应叶子节点H#的用户偏好值与节点H的相同,即:
Figure BDA00026753886500001812
否则即节点H为非叶子节点则:随机选择H#的子节点集合,使得H#的子节点集合大小与H的子节点集合大小相同,并对于H的子节点集合中的每一节点,随机选择哑元H#的子节点集合中的一节点,进行搜索构造。
所述搜索构造的过程SEARCH算法可表示为:
子函数SEARCH(用户文件P;知识目录
Figure BDA00026753886500001813
敏感偏好H*;用户节点H;哑元节点H#)
01 IF用户节点H为用户文件P的叶子节点THEN
02设置哑元节点H#的偏好值,即PR(H#)←PR(H,P);RETURN H#
03 ELSE
04获取用户节点H关于用户文件P的子节点集合,记作H
05获取哑元节点H#关于知识目录
Figure BDA00026753886500001814
的子节点集合,记作H′
06设置H′←H′-H*;从H′中随机选取与H大小相同的子集H#
07 FOREACH<H1,H2>∈<H,H#>DO SEARCH(P,
Figure BDA00026753886500001815
H*,H1,H2)END FOR
08 END IF
以上过程实现搜索构造递归,最终构造出哑元查询请求
Figure BDA00026753886500001816
的配置文件
Figure BDA00026753886500001817
当历史请求序列为空时,如何为用户当前服务请求构造生成一个哑元服务请求?此时,位置区域频度特征、查询主题频度特征和配置文件的主题偏好特征均不需要考虑,只需要考虑如何为用户当前请求构造成一个与用户位置保持安全距离且与用户敏感偏好主题无关(包括查询主题无关和配置主题无关)的哑元请求。算法1给了一个求解方案。可以看出,算法1采用了“贪婪策略”,即在为用户当前请求构造哑元请求时,并不考虑后续用户请求的哑元构造问题。实际上,想为用户请求序列构造全局最优的哑元请求序列是困难的,原因主要有两点:一是会导致非常耗时的求解时间,这是一个NP难问题;二是在处理用户当前请求时,并不知道用户后续会发起什么样的请求,为此,需要建立一个精准的预测模型,以预测用户后续的查询位置和查询内容,这显然又是一个难题。算法1首先通过递归调用SERACH构建一个哑元配置文件(语句1至2);然后,构建与用户敏感主题无关的哑元查询(语句3至4);最后,构建与用户位置保持安全距离的哑元位置(语句5至6)。在自定义函数SEARCH中,若用户当前节点为配置文件的叶子节点时,将不再继续递归调用,而是将哑元叶子节点设置为与用户叶子节点相同的偏好值(语句2);否则,随机搜索匹配与用户敏感主题语义无关的哑元主题(语句4至6),并递归处理下一级主题(语句7)。最终,很好地确保了构造生成的哑元配置文件与用户配置文件拥有一致的主题偏好特征。可以看出,算法1虽然存在多次对函数SEARCH的嵌套递归调用,但实际上函数递归调用的次数刚好等于用户配置文件的大小,即|P|。因此,算法1时间复杂度为O(|P|)。
(2-3)对于初始用户查询请求R0的配置文件P0、在知识库的主题层次结构
Figure BDA0002675388650000191
的所有查询兴趣点集合
Figure BDA0002675388650000192
中不属于敏感偏好主题集H*叶子节点的查询兴趣点集合中,搜索关于哑元查询请求
Figure BDA0002675388650000193
的配置文件
Figure BDA0002675388650000194
的关联性与初始用户查询请求R0的查询兴趣点T0关于其配置文件P0的关联性
Figure BDA0002675388650000195
近似的备选查询兴趣点集合T*,并从中随机选取其一作为哑元查询请求
Figure BDA0002675388650000196
的查询兴趣点
Figure BDA0002675388650000197
即备选查询兴趣点集合T*满足:
Figure BDA0002675388650000198
Figure BDA0002675388650000199
Figure BDA00026753886500001910
(2-4)对于哑元查询请求
Figure BDA0002675388650000201
的查询兴趣点
Figure BDA0002675388650000202
选取与其匹配且与初始用户查询请求查询位置的距离超过安全距离的位置单元作为哑元查询请求
Figure BDA0002675388650000203
的备选位置单元集合L*,并从中随机选取其一作为哑元查询请求
Figure BDA0002675388650000204
的查询位置
Figure BDA0002675388650000205
(2-5)将步骤(2-2)构造的哑元查询请求
Figure BDA0002675388650000206
的配置文件
Figure BDA0002675388650000207
步骤(2-3)构造的哑元查询请求
Figure BDA0002675388650000208
的查询兴趣点
Figure BDA0002675388650000209
步骤(2-4)构造的哑元查询请求
Figure BDA00026753886500002010
的查询兴趣点
Figure BDA00026753886500002011
组成哑元查询请求:
Figure BDA00026753886500002012
(3)对于由查询兴趣点Ti+1、配置文件Pi+1、和查询位置Li+1构成的当前用户查询请求Ri+1=(Ti+1,Pi+1,Li+1)、用户历史请求序列Ri={R0,...,Ri},构造由一系列与用户当前位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求
Figure BDA00026753886500002013
组成的哑元查询请求序列
Figure BDA00026753886500002014
其中
Figure BDA00026753886500002015
Figure BDA00026753886500002016
使得由当前用户查询请求Ri+1与用户历史请求序列Ri组成的当前用户查询请求序列Ri+1={R0,...,Ri,Ri+1}与用户查询请求关联的哑元查询请求序列
Figure BDA00026753886500002017
组成的哑元查询请求序列集合
Figure BDA00026753886500002018
Figure BDA00026753886500002019
(其中
Figure BDA00026753886500002020
为配置文件集,
Figure BDA00026753886500002021
查询兴趣点序列集,
Figure BDA00026753886500002022
查询位置序列集)相似性低于预设阈值且使得其查询兴趣点序列集
Figure BDA00026753886500002023
以及配置文件集
Figure BDA00026753886500002024
降低用户敏感偏好集的突显度至预设阈值以下、以及使得查询位置序列集
Figure BDA00026753886500002025
降低用户查询位置的突显度至预设阈值以下;
即使得哑元查询请求序列集合
Figure BDA00026753886500002026
满足以下条件:
CON1、哑元查询请求序列集合
Figure BDA00026753886500002027
中存在一个哑元查询请求序列关于当前用户查询请求序列Ri+1的综合相似性
Figure BDA00026753886500002028
超过预设的综合相似性阈值π,即:
Figure BDA00026753886500002029
对于任意两个查询请求序列R1、R2的综合相似性sim(R1,R2)计算方法如下:
sim(R1,R2)
=(θ1·sim(RT(R1),RT(R2))+θ2·sim(RL(R1),RL(R2)))·(ω1·sim(P1,P2)+ω2·sim(T1,T2)+ω3·sim(L1,L2))
其中θ12=1,ω123=1为预设的权重值;sim(RT(R1),RT(R2))为查询配置关联向量RT(R1)和RT(R2)的特征相似度,sim(RL(R1),RL(R2))为查询位置关联向量RL(R1)和RL(R2)的特征相似度,sim(P1,P2)为配置文件的特征相似度,sim(T1,T2)为查询请求序列的特征相似度,sim(L1,L2)为位置序列的特征相似度;具体地:
配置文件的特征相似度sim(P1,P2)计算方法如下:
Figure BDA0002675388650000211
其中,k为知识库的主题层次结构
Figure BDA0002675388650000212
的层次,其叶子节点即查询兴趣点的层次为0,其根节点具有最高层次为nH
Figure BDA0002675388650000213
其值由系统预先设定,较简单地认为
Figure BDA0002675388650000214
表示向EJ量间的广义Jaccard相似性;PRk(P1)为配置文件P1的主题偏好向量,PRk(P2)为配置文件P2的主题偏好向量。
查询请求序列的特征相似度sim(T1,T2)的计算方法如下:
Figure BDA0002675388650000215
其中,k为知识库的主题层次结构
Figure BDA0002675388650000216
的层次,其叶子节点即查询兴趣点的层次为0,其根节点具有最高层次为nH
Figure BDA0002675388650000217
它们的值由系统预先设定,较简单地认为
Figure BDA0002675388650000218
FRk(T1)为查询请求序列R1的查询兴趣点组成的查询兴趣点序列T1在主题层次k上的兴趣频度向量;FRk(T2)为查询请求序列R2的查询兴趣点组成的查询兴趣点序列T2在主题层次k上的兴趣频度向量。
对于任意查询兴趣点序列T在主题层次k上的兴趣频度向量FRk(T)定义如下:
Figure BDA0002675388650000221
其中:FR(Hi,T)≥FR(Hi+1,T)
其中,Hi为知识库的主题层次结构
Figure BDA0002675388650000222
的层次节点集合
Figure BDA0002675388650000223
的主题,FR(Hi,T)为查询请求序列T关于主题Hi的出现频度,计算方法如下:
FR(Hi,T)=|{Ti|Ti∈T∧Ti∈Hi}|
位置序列的特征相似度sim(L1,L2)的计算方法如下:
Figure BDA0002675388650000224
其中,位置区域的最高层次即地图本身的层次为nL,最低层次即位置单元的层次为0,
Figure BDA0002675388650000225
它们的值由系统预先设定,较简单地认为
Figure BDA0002675388650000226
FRk(L1)为R1的查询位置组成的查询位置序列L1在位置层次k上的区域频度向量;FRk(L2)为R2的查询位置组成的查询位置序列L2在位置层次k上的区域频度向量;
对于任意查询位置序列L在位置层次k上的区域频度向量FRk(L)定义如下:
Figure BDA0002675388650000227
其中:FR(Di,L)≥FR(Di+1,L)
其中,Di为地图
Figure BDA0002675388650000228
的层次为k的位置区域集合
Figure BDA0002675388650000229
的位置区域,FR(Di,L)为位置序列L关于位置区域Di的出现频度,计算方法如下:
FR(Di,L)=|{Li|Li∈L∧Li∈Di}|
查询配置关联向量RT(R1)和RT(R2)的特征相似度sim(RT(R1),RT(R2))的计算方法如下:
sim(RT(R1),RT(R2))=EJ(RT(R1),RT(R2))
对于任意查询请求序列R其查询配置关联向量RT(R)为查询请求序列R中各个查询请求的查询兴趣点关于配置文件的关联性值所构成的序列,即:
RT(R)=[RE(Ti,P)|Ti∈T]
其中,RE(Ti,P)表示查询请求序列R中第i查询请求的查询兴趣点Ti关于其配置文件P的关联性。
查询位置关联向量RL(R1)和RL(R2)的特征相似度sim(RL(R1),RL(R2))的计算方法如下:
sim(RL(R1),RL(R2))=EJ(RL(R1),RL(R2))
对于任意查询请求序列R其查询位置关联向量RL(R)为查询请求序列R中各个查询请求的查询兴趣点关于查询位置的关联性值所构成的序列,即:
RL(R)=[RE(Ti,Li)|<Ti,Li>∈<T,L>]
其中,RE(Ti,Li)表示查询请求序列R中第i查询请求的查询兴趣点Ti关于其查询位置Li的关联性。
CON2、哑元查询请求序列集合
Figure BDA0002675388650000231
降低用户敏感偏好集
Figure BDA0002675388650000232
的突显度至预设的安全性阈值ρ以下,即:
Figure BDA0002675388650000233
其中,Ti+1为当前用户查询请求序列Ri+1的查询兴趣点序列,
Figure BDA0002675388650000234
为哑元查询请求序列集合
Figure BDA0002675388650000235
的查询兴趣点序列集;exp(H*,{Ti+1})为敏感主题H*关于当前用户查询请求序列Ri+1的查询兴趣点序列Ti+1的突显度,
Figure BDA0002675388650000236
为敏感主题H*关于所有查询兴趣点集合
Figure BDA0002675388650000237
的突显度。
对于给定主题H其关于任意查询兴趣点序列集合
Figure BDA0002675388650000238
的突显度
Figure BDA0002675388650000239
为:
Figure BDA00026753886500002310
其中,
Figure BDA00026753886500002311
层次为k的全体查询主题,FR(H,T)为主题H关于查询兴趣点序列T的出现频度,FR(H′,T)为主题H′关于查询兴趣点序列T的出现频度。
对于给定主题H其关于任意查询兴趣点序列T的出现频度为:
FR(H,T)=|{Ti|Ti∈T∧Ti∈H}|
其中,Ti∈H表示主题H包含的兴趣点Ti
CON3、哑元查询请求序列集合
Figure BDA0002675388650000241
的配置文件集
Figure BDA0002675388650000242
降低用户敏感偏好集
Figure BDA0002675388650000243
的突显度至预设的安全性阈值ρ以下,即:
Figure BDA0002675388650000244
其中,Pi+1为当前用户查询请求序列Ri+1的配置文件集合,
Figure BDA0002675388650000245
为哑元查询请求序列集合
Figure BDA0002675388650000246
的配置文件集合;exp(H*,{Pi+1})为敏感主题H*关于当前用户查询请求序列Ri+1的置文件集合Pi+1的突显度,
Figure BDA0002675388650000247
为敏感主题H*关于所有配置文件集合
Figure BDA0002675388650000248
的突显度。
对于给定主题H其关于任意配置文件集合
Figure BDA0002675388650000249
的突显度
Figure BDA00026753886500002410
为:
Figure BDA00026753886500002411
CON4、哑元查询请求序列集合
Figure BDA00026753886500002412
的查询位置序列集
Figure BDA00026753886500002413
降低用户敏感偏好集
Figure BDA00026753886500002414
的突显度至预设的安全性阈值ρ以下,即:
Figure BDA00026753886500002415
其中,
Figure BDA00026753886500002416
为用户查询请求的位置L0关于L0及其关联的哑元查询请求序列中的位置序列的并集的突显度。
对于任意位置L0关于任意给顶的位置单元集合L突显度exp(L0,L)为:
Figure BDA00026753886500002417
优选地,按照以下方法构建与用户当前位置Li+1保持安全距离且与用户敏感偏好主题无关的哑元查询请求
Figure BDA00026753886500002418
(3-1)获取用户对于由身份标识U、查询兴趣点Ti+1、配置文件Pi+1、和查询位置Li+1构成的当前用户查询请求Ri+1=(U,Ti+1,Pi+1,Li+1)、用户历史请求序列Ri={R0,...,Ri}、用户查询请求关联的哑元查询请求序列
Figure BDA00026753886500002419
知识库的主题层次结构
Figure BDA00026753886500002513
以及用户敏感偏好主题集H*
(3-2)对于当前用户查询请求Ri+1=(Ti+1,Pi+1,Li+1)、用户历史请求序列Ri={R0,...,Ri}、以及用户查询请求关联的哑元查询请求序列
Figure BDA0002675388650000251
判断当前用户查询请求的配置文件Pi+1是否被包含于历史请求序列的配置文件序列中,如果包含则:在历史请求序列中包含所述配置文件Pi+1的用户查询请求关联的哑元查询请求序列中,选择任一查询请求,获取其配置文件作为哑元查询请求
Figure BDA0002675388650000252
的配置文件
Figure BDA0002675388650000253
否则,对于用户查询请求Ri+1的配置文件Pi+1的每一个节点H,选择哑元相同层次的节点H#,进行递归的搜索构造,从而构造哑元查询请求
Figure BDA0002675388650000254
的配置文件
Figure BDA0002675388650000255
所述搜索构造的过程同步骤(2-2)。
(3-3)在知识库的主题层次结构
Figure BDA0002675388650000256
所有非敏感偏好主题集中的查询兴趣点集合中,搜索满足以下条件的查询兴趣点形成查询兴趣点集合T*,并从中随机选择其一作为构造哑元查询请求
Figure BDA0002675388650000257
的查询兴趣点
Figure BDA0002675388650000258
具体条件如下:
所述查询兴趣点与用户历史请求序列Ri的查询兴趣点序列Ti构成的查询兴趣点序列、当前用户查询请求和用户历史查询请求序列的查询兴趣点构成的查询兴趣点序列,所述两查询兴趣点序列的特征相似度大于等于查询请求序列的特征相似度阈值;且
所述查询兴趣点与哑元请求
Figure BDA0002675388650000259
的配置文件
Figure BDA00026753886500002510
的关联性、当前用户查询请求的查询兴趣点与配置文件的关联性二者之间的距离不超过关联性阈值。
(3-4)在与当前用户查询请求查询位置的距离超过安全距离的位置单元集合中,搜索满足以下条件的位置单元形成位置单元集合L*,并从中随机选择其一作为构造哑元查询请求
Figure BDA00026753886500002511
的查询位置
Figure BDA00026753886500002512
具体条件如下:
所述查询位置与用户历史请求序列Ri的查询位置序列Li构成的查询兴趣点序列、当前用户查询请求和用户历史查询请求序列的查询位置构成的查询位置序列,所述两查询位置序列的位置特征相似度大于等于位置序列的特征相似度阈值;且
所述查询位置与哑元请求
Figure BDA0002675388650000261
的查询兴趣点
Figure BDA0002675388650000262
的关联性、当前用户查询请求的查询位置与查询兴趣点的关联性二者之间的距离不超过关联性阈值。
(3-5)将步骤(3-2)构造的哑元查询请求
Figure BDA0002675388650000263
的配置文件
Figure BDA0002675388650000264
步骤(3-3)构造的哑元查询请求
Figure BDA0002675388650000265
的查询兴趣点
Figure BDA0002675388650000266
步骤(3-4)构造的哑元查询请求
Figure BDA0002675388650000267
的查询位置
Figure BDA0002675388650000268
组成哑元查询请求:
Figure BDA0002675388650000269
上述构件与用户当前位置Li+1保持安全距离且与用户敏感偏好主题无关的哑元查询请求
Figure BDA00026753886500002610
的算法可表示为:
算法2:为用户请求Ri+1伪造一个哑元查询请求
Figure BDA00026753886500002611
(历史序列为Ri={R0,...,Ri})
输入:
当前用户查询请求Ri+1=(Ti+1,Pi+1,Li+1);知识层次目录H;用户敏感偏好H*
用户检索历史序列Ri={R0,...,Ri};哑元检索历史序列
Figure BDA00026753886500002612
输出:对应用户请求的一个哑元请求
Figure BDA00026753886500002613
01 IF用户当前检索请求的主题偏好相对历史有改变THEN
02获取知识层次目录H的根节点H(同时也是用户位置文件Pi+1的根节点)
03设置
Figure BDA00026753886500002614
04 END IF
05根据相似性和安全性阈值参数设置d1和d2为较小值
06 FOR设置
Figure BDA00026753886500002615
若T*规模较小;设置d1←d1/2和d2←2d2DO
07设置
Figure BDA00026753886500002616
08设置
Figure BDA00026753886500002617
09 END FOR
10从候选集合T*中随机选取一个词条构建哑元词条
Figure BDA00026753886500002618
11根据相似性和安全性阈值参数设置d1和d2为较小值
12 FOR设置
Figure BDA00026753886500002619
若L*规模较小;设置d1←d1/2和d2←2d2DO
13设置
Figure BDA00026753886500002620
14设置
Figure BDA0002675388650000271
15 END FOR
16从候选集合L*中随机选取一个位置作为哑元位置
Figure BDA0002675388650000272
17 RETURN
Figure BDA0002675388650000273
算法2将尽可能地为用户当前请求生成一个满足以下条件的哑元请求:(1)位置区域频度特征、查询主题频度特征、配置主题偏好特征以及关联特征与用户请求相似,以实现“真假难辨”效果;(2)与用户位置保持安全距离,且不涉及任何用户敏感偏好主题(包括查询主题无关和配置文件主题无关),以实现“以假乱真”效果。算法2给了一个求解方案。可以看出,算法2同样采用了“贪婪策略”,即我们并不尝试为找出最优解(即与以上的三个条件匹配程度最好的解),而是尽可能地找出一个满足三个约束条件的解。在算法2中,由于用户配置文件P相比查询内容和查询位置是相对固定不变的,为此只有当用户配置文件相对历史文件做出改变时,我们才重新构建哑元配置文件,否则将沿用历史哑元配置文件(语句1至4)。然后,算法2为用户查询构建相应哑元查询请求的查询兴趣点(语句5至10)。在该过程中,要求哑元查询主题与用户敏感主题语义无关(语句7),并且要求构成的当前哑元序列与当前用户序列拥有相似的查询主题特征和查询配置关联特征(语句8)。最后,算法2为用户查询位置构建相应的哑元查询请求的查询位置(语句11至16)。该过程要求哑元位置与用户位置保持安全距离(即语句13),并且要求加入当前哑元位置后的新哑元序列与用户位置序列拥有高度相似的区域频度特征和查询位置关联特征(语句14)。在算法2中,如果无法获得满足条件的哑元候选集合时(即语句6或语句12的循环条件为假时),我们将不断地放宽条件约束(即语句6和12的第三个表达式),直到能获得有效的候选哑元集合。然后,语句10和语句16再从候选哑元集合中,为当前查询和当前位置随机地挑选一个对应的哑元查询和哑元位置。此外,还可以看出,算法2的输出是不确定的,即对于同样的输入,不同的运行会得到不同的结果,因为语句10和16以及SEARCH的语句6都加入了随机操作,这是为了更好的保证安全性。可以看出,算法4.2的计算时间复杂度为O(|P|+|T|+|L|)。
步骤1和步骤2只为用户当前服务请求构造生成一个哑元请求。所以,我们最后简要讨论如何为用户当前请求生成一个哑元请求集合。该问题可以通过让算法4.1(或算法4.2)运行多次(通常需要大于等于安全性阈值ρ)得到解决。结合算法4.1和算法4.2,可以看出最终得到的哑元请求序列集合并不一定能完全满足定义4.13所给出的条件约束。但在算法4.1和算法4.2中,对于每个哑元服务请求的构造,我们都尽力让其符合定义4.2(位置特征相似)、定义4.4(查询特征相似)、定义4.6(偏好特征相似)以及定义4.9(关联特征相似),也尽力让其符合定义4.13的隐私安全性要求(即查询隐私安全、位置隐私安全和偏好隐私安全),以确保能最终为用户检索请求序列生成一个较为理想的哑元请求序列集。实际上,后文给出的实验结果表明,我们方案得到的哑元请求序列集合能较好地满足4.13的特征相似性约束和隐私安全性约束,并且在每次哑元请求集的构造中,算法4.1(或算法4.2)的运行次数通常等于安全性阈值参数ρ。
(4)将步骤(2)中构造的哑元查询请求序列
Figure BDA0002675388650000281
和/或步骤(3)中构造的哑元查询请求序列集
Figure BDA0002675388650000282
与用户查询请求序列Ri+1通过可信客户端发送给服务器端,所述可信客户端获得哑元查询请求序列和用户查询请求序列的服务结果,并从中筛选用户查询请求序列对应的服务结果返回会给用户。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种面向个性化信息检索的用户隐私保护方法,其特征在于,包括以下步骤:
(1)获取知识库的主题层次结构
Figure FDA00029479028000000120
以及用户敏感偏好集H*;所述知识库的主题层次结构
Figure FDA00029479028000000121
为以所有查询兴趣点T为叶子节点的规范树结构,即每个叶子节点的深度相同,非叶子节点为主题;所述用户敏感偏好集H*为敏感主题集合;
(2)对于由查询兴趣点T0、配置文件P0、和查询位置L0构成的用户初始查询请求R0=(T0,P0,L0),采用贪婪算法构造由一系列与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求
Figure FDA0002947902800000011
组成的哑元查询请求序列
Figure FDA0002947902800000012
其中
Figure FDA0002947902800000013
所述哑元查询请求的查询兴趣点
Figure FDA0002947902800000014
关于查询位置
Figure FDA0002947902800000015
关联性与用户初始查询请求的查询兴趣点T0与用户查询位置L0关联性值一致,且查询兴趣点
Figure FDA0002947902800000016
关于配置文件
Figure FDA0002947902800000017
的关联性
Figure FDA0002947902800000018
和用户初始查询请求R0的查询兴趣点T0关于配置文件P0的关联性近似;查询请求R是由查询兴趣点T、配置文件P和查询位置L构成的三元组,记作:R=<T,P,L>;
(3)对于由查询兴趣点Ti+1、配置文件Pi+1、和查询位置Li+1构成的当前用户查询请求Ri+1=(Ti+1,Pi+1,Li+1)、用户历史请求序列Ri={R0,...,Ri},构造由一系列与用户当前位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求
Figure FDA0002947902800000019
组成的哑元查询请求序列
Figure FDA00029479028000000110
其中
Figure FDA00029479028000000111
Figure FDA00029479028000000112
使得由当前用户查询请求Ri+1与用户历史请求序列Ri组成的当前用户查询请求序列Ri+1={R0,...,Ri,Ri+1}与用户查询请求关联的哑元查询请求序列
Figure FDA00029479028000000113
组成的哑元查询请求序列集合
Figure FDA00029479028000000114
Figure FDA00029479028000000115
相似性低于预设阈值且使得其查询兴趣点序列集
Figure FDA00029479028000000116
以及配置文件集
Figure FDA00029479028000000117
降低用户敏感偏好集的突显度至预设阈值以下、以及使得查询位置序列集
Figure FDA00029479028000000118
降低用户查询位置的突显度至预设阈值以下;其中
Figure FDA00029479028000000119
为配置文件集,
Figure FDA0002947902800000022
查询兴趣点序列集,
Figure FDA0002947902800000021
查询位置序列集;
(4)将步骤(2)中构造的哑元查询请求序列
Figure FDA0002947902800000023
和/或步骤(3)中构造的哑元查询请求序列集
Figure FDA0002947902800000024
与用户查询请求序列Ri+1通过可信客户端发送给服务器端,所述可信客户端获得哑元查询请求序列和用户查询请求序列的服务结果,并从中筛选用户查询请求序列对应的服务结果返回会给用户。
2.如权利要求1所述的面向个性化信息检索的用户隐私保护方法,其特征在于,所述查询兴趣点T为知识库的主题层次结构
Figure FDA0002947902800000025
的某一叶子节点;
所述配置文件P为知识库的主题层次结构
Figure FDA0002947902800000026
的根子树关联的用户兴趣偏好层次,即保留知识库主题层次结构根节点的子树,其每个节点关联一个用户兴趣偏好值,其中每个节点H∈P的用户兴趣偏好值PR(H,P)为其直接孩子节点的用户兴趣偏好值的算数平均数,即:
PR(H,P)=∑H′∈DH(H)PR(H′,P)/|DH(H)|
其中,DH(H)表示主题H的直接孩子集合;
所述查询位置L为用户发布该查询请求时所处的位置单元;位置区域
Figure FDA0002947902800000027
即位置单元集合,它满足以下几个属性:(1)位置区域拥有层次属性k,位置区域层次越高,它包含的位置就越多;显然,地图
Figure FDA0002947902800000028
本身也是位置区域,它拥有最高的层次nL;每个位置单元也是区域,它拥有最低的层次0;(2)同层次的位置区域互不相交;(3)同层次区域面积彼此相等;(4)所有同层次位置区域的并集等于地图本身;(5)除地图
Figure FDA0002947902800000029
本身外的任意区域均包含于某个更高层区域。
3.如权利要求1所述的面向个性化信息检索的用户隐私保护方法,其特征在于,步骤(2)构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R#具体为:
对于用户初始查询请求R0=(T0,P0,L0),构造哑元查询请求
Figure FDA00029479028000000210
Figure FDA00029479028000000211
使得其同时满足:
Con1:查询位置L#与用户初始查询请求的L0的距离大于安全距离阈值ε,记作:
Figure FDA0002947902800000032
Con2:配置文件
Figure FDA0002947902800000033
的与用户初始查询请求的配置文件P0的主题偏好特征一致;
Con3:其查询兴趣点
Figure FDA0002947902800000034
关于其配置文件
Figure FDA0002947902800000035
的关联性
Figure FDA0002947902800000036
与用户初始查询请求的查询兴趣点T0关于配置文件P0的关联性RE(T0,P0)近似,即
Figure FDA0002947902800000037
近似即值的差距小于预设的差距阈值;
Con4:其查询兴趣点
Figure FDA0002947902800000038
关于查询位置
Figure FDA0002947902800000039
关联性与用户查询兴趣点T0与用户查询位置L0关联性值一致,即
Figure FDA00029479028000000310
4.如权利要求3所述的面向个性化信息检索的用户隐私保护方法,其特征在于,对于任意两个配置文件P1和P2其主题偏好特征一致,即所述两个配置文件的特征相似性sim(P1,P2)超过预设的阈值;所述任意两个配置文件P1和P2的特征相似性sim(P1,P2)计算方法如下:
Figure FDA0002947902800000031
其中,k为知识库的主题层次结构
Figure FDA00029479028000000316
的层次,其叶子节点即查询兴趣点的层次为0,其根节点具有最高层次为nH
Figure FDA00029479028000000311
其值由系统预先设定,较简单地认为
Figure FDA00029479028000000312
EJ表示向量间的广义Jaccard相似性;PRk(P1)为配置文件P1的主题偏好向量,PRk(P2)为配置文件P2的主题偏好向量;
对于任意配置文件P,其在知识库的主题层次结构
Figure FDA00029479028000000313
的层次k上的主题偏好向量PRk(P)的计算方法如下:
Figure FDA00029479028000000314
其中:PR(Hi,P)≥PR(Hi+1,P)
其中,
Figure FDA00029479028000000315
为知识库的主题层次结构
Figure FDA00029479028000000317
在层次k上的主题集合,Hi为知识库的主题层次结构
Figure FDA00029479028000000318
的主题,PR(Hi,P)为配置文件P记录的用户对主题Hi的用户偏好值,PR(Hi+1,P)为配置文件P记录的用户对主题Hi+1的用户偏好值;
对于任意查询请求R=<T,P,L>,其查询兴趣点T关于其配置文件P的关联性RE(T,P)按照如下方法计算:
RE(T,P)=PR(H*,P)/HE(H*),其中:H*=arg minHHE(H)s.t.H∈P∧T∈H
其中PR(H*,P)为配置文件记录P记录的用户对主题H*的用户兴趣偏好值,H*为配置文件P中包含查询T的层次值最小的主题,HE(H*)表示H*的层次值;
对于任意查询请求R=<T,P,L>,其查询兴趣点T与查询位置的关联值为RE(T,L)为:
Figure FDA0002947902800000041
5.如权利要求3所述的面向个性化信息检索的用户隐私保护方法,其特征在于,步骤(2)构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R#具体按照以下方法实现:
(2-1)获取初始用户查询请求R0=(T0,P0,L0)、知识库的主题层次结构
Figure FDA00029479028000000413
以及用户敏感偏好主题集H*
(2-2)对于初始用户查询请求R0的配置文件P0中的每一个节点H,选择哑元相同层次的节点H#,进行递归的搜索构造,从而构造哑元查询请求
Figure FDA0002947902800000042
的配置文件
Figure FDA0002947902800000043
(2-3)对于初始用户查询请求R0的配置文件P0、在知识库的主题层次结构
Figure FDA00029479028000000414
的所有查询兴趣点集合
Figure FDA0002947902800000044
中不属于敏感偏好主题集H*叶子节点的查询兴趣点集合中,搜索关于哑元查询请求
Figure FDA0002947902800000045
的配置文件
Figure FDA0002947902800000046
的关联性与初始用户查询请求R0的查询兴趣点T0关于其配置文件P0的关联性
Figure FDA0002947902800000047
近似的备选查询兴趣点集合T*,并从中随机选取其一作为哑元查询请求
Figure FDA0002947902800000048
的查询兴趣点
Figure FDA0002947902800000049
即备选查询兴趣点集合T*满足:
Figure FDA00029479028000000410
Figure FDA00029479028000000411
Figure FDA00029479028000000412
(2-4)对于哑元查询请求
Figure FDA0002947902800000053
的查询兴趣点
Figure FDA0002947902800000054
选取与其匹配且与初始用户查询请求查询位置的距离超过安全距离的位置单元作为哑元查询请求
Figure FDA0002947902800000055
的备选位置单元集合L*,并从中随机选取其一作为哑元查询请求
Figure FDA0002947902800000056
的查询位置
Figure FDA0002947902800000057
(2-5)将步骤(2-2)构造的哑元查询请求
Figure FDA0002947902800000058
的配置文件
Figure FDA0002947902800000059
步骤(2-3)构造的哑元查询请求
Figure FDA00029479028000000510
的查询兴趣点
Figure FDA00029479028000000511
步骤(2-4)构造的哑元查询请求
Figure FDA00029479028000000512
的查询位置
Figure FDA00029479028000000513
组成哑元查询请求:
Figure FDA00029479028000000514
6.如权利要求5所述的面向个性化信息检索的用户隐私保护方法,其特征在于,所述搜索构造的过程为:
如果其为叶子节点则:随机构造哑元查询请求
Figure FDA00029479028000000515
的配置文件
Figure FDA00029479028000000516
的相应叶子节点H#,并使得哑元查询请求
Figure FDA00029479028000000517
的配置文件
Figure FDA00029479028000000518
的相应叶子节点H#的用户偏好值与节点H的相同,即:
Figure FDA00029479028000000519
否则:随机选择H#的子节点集合,使得H#的子节点集合大小与H的子节点集合大小相同,并对于H的子节点集合中的每一节点,随机选择哑元H#的子节点集合中的一节点,进行搜索构造。
7.如权利要求1所述的面向个性化信息检索的用户隐私保护方法,其特征在于,步骤(3)即使得哑元查询请求序列集合
Figure FDA00029479028000000520
满足以下条件:
CON1、哑元查询请求序列集合
Figure FDA00029479028000000521
中存在一个哑元查询请求序列关于当前用户查询请求序列Ri+1的综合相似性
Figure FDA00029479028000000522
超过预设的综合相似性阈值π,即:
Figure FDA0002947902800000051
CON2、哑元查询请求序列集合
Figure FDA00029479028000000523
降低用户敏感偏好集
Figure FDA00029479028000000524
的突显度至预设的安全性阈值ρ以下,即:
Figure FDA0002947902800000052
其中,Ti+1为当前用户查询请求序列Ri+1的查询兴趣点序列,
Figure FDA0002947902800000063
为哑元查询请求序列集合
Figure FDA0002947902800000064
的查询兴趣点序列集;exp(H*,{Ti+1})为敏感主题H*关于当前用户查询请求序列Ri+1的查询兴趣点序列Ti+1的突显度,
Figure FDA0002947902800000065
为敏感主题H*关于所有查询兴趣点集合
Figure FDA0002947902800000066
的突显度;
CON3、哑元查询请求序列集合
Figure FDA0002947902800000067
的配置文件集
Figure FDA0002947902800000068
降低用户敏感偏好集
Figure FDA0002947902800000069
的突显度至预设的安全性阈值ρ以下,即:
Figure FDA0002947902800000061
其中,Pi+1为当前用户查询请求序列Ri+1的配置文件集合,
Figure FDA00029479028000000610
为哑元查询请求序列集合
Figure FDA00029479028000000611
的配置文件集合;exp(H*,{Pi+1})为敏感主题H*关于当前用户查询请求序列Ri+1的置文件集合Pi+1的突显度,
Figure FDA00029479028000000612
为敏感主题H*关于所有配置文件集合
Figure FDA00029479028000000613
的突显度;
CON4、哑元查询请求序列集合
Figure FDA00029479028000000614
的查询位置序列集
Figure FDA00029479028000000615
降低用户敏感偏好集
Figure FDA00029479028000000616
的突显度至预设的安全性阈值ρ以下,即:
Figure FDA0002947902800000062
其中,
Figure FDA00029479028000000617
为用户查询请求的位置L0关于L0及其关联的哑元查询请求序列中的位置序列的并集的突显度。
8.如权利要求7所述的面向个性化信息检索的用户隐私保护方法,其特征在于,对于任意两个查询请求序列R1、R2的综合相似性sim(R1,R2)计算方法如下:
sim(R1,R2)=(θ1·sim(RT(R1),RT(R2))+θ2·sim(RL(R1),RL(R2)))·(ω1·sim(P1,P2)+ω2·sim(T1,T2)+ω3·sim(L1,L2))
其中θ12=1,ω123=1为预设的权重值;sim(RT(R1),RT(R2))为查询配置关联向量RT(R1)和RT(R2)的特征相似度,sim(RL(R1),RL(R2))为查询位置关联向量RL(R1)和RL(R2)的特征相似度,sim(P1,P2)为配置文件的特征相似度,sim(T1,T2)为查询请求序列的特征相似度,sim(L1,L2)为位置序列的特征相似度;
对于给定主题H其关于任意查询兴趣点序列集合
Figure FDA00029479028000000710
的突显度
Figure FDA0002947902800000075
为:
Figure FDA0002947902800000071
其中,
Figure FDA0002947902800000076
层次为k的全体查询主题,FR(H,T)为主题H关于查询兴趣点序列T的出现频度,FR(H′,T)为主题H′关于查询兴趣点序列T的出现频度;
对于给定主题H其关于任意查询兴趣点序列T的出现频度为:
FR(H,T)=|{Ti|Ti∈T∧Ti∈H}|
其中,Ti∈H表示主题H包含的兴趣点Ti
对于给定主题H其关于任意配置文件集合
Figure FDA00029479028000000711
的突显度
Figure FDA0002947902800000077
为:
Figure FDA0002947902800000072
对于任意位置L0关于任意给顶的位置单元集合L突显度exp(L0,L)为:
Figure FDA0002947902800000073
9.如权利要求8所述的面向个性化信息检索的用户隐私保护方法,其特征在于,配置文件的特征相似度sim(P1,P2)计算方法如下:
Figure FDA0002947902800000074
其中,k为知识库的主题层次结构
Figure FDA00029479028000000712
的层次,其叶子节点即查询兴趣点的层次为0,其根节点具有最高层次为nH
Figure FDA0002947902800000078
其值由系统预先设定,较简单地认为
Figure FDA0002947902800000079
EJ表示向量间的广义Jaccard相似性;PRk(P1)为配置文件P1的主题偏好向量,PRk(P2)为配置文件P2的主题偏好向量;
查询请求序列的特征相似度sim(T1,T2)的计算方法如下:
Figure FDA0002947902800000081
其中,k为知识库的主题层次结构
Figure FDA0002947902800000089
的层次,其叶子节点即查询兴趣点的层次为0,其根节点具有最高层次为nH
Figure FDA0002947902800000083
它们的值由系统预先设定,较简单地认为
Figure FDA0002947902800000084
FRk(T1)为查询请求序列R1的查询兴趣点组成的查询兴趣点序列T1在主题层次k上的兴趣频度向量;FRk(T2)为查询请求序列R2的查询兴趣点组成的查询兴趣点序列T2在主题层次k上的兴趣频度向量;
对于任意查询兴趣点序列T在主题层次k上的兴趣频度向量FRk(T)定义如下:
Figure FDA0002947902800000085
其中:FR(Hi,T)≥FR(Hi+1,T)
其中,Hi为知识库的主题层次结构
Figure FDA00029479028000000810
的层次节点集合
Figure FDA0002947902800000086
的主题,FR(Hi,T)为查询请求序列T关于主题Hi的出现频度,计算方法如下:
FR(Hi,T)=|{Ti|Ti∈T∧Ti∈Hi}|
位置序列的特征相似度sim(L1,L2)的计算方法如下:
Figure FDA0002947902800000082
其中,位置区域的最高层次即地图本身的层次为nL,最低层次即位置单元的层次为0,
Figure FDA0002947902800000087
它们的值由系统预先设定,较简单地认为
Figure FDA0002947902800000088
FRk(L1)为R1的查询位置组成的查询位置序列L1在位置层次k上的区域频度向量;FRk(L2)为R2的查询位置组成的查询位置序列L2在位置层次k上的区域频度向量;
对于任意查询位置序列L在位置层次k上的区域频度向量FRk(L)定义如下:
Figure FDA0002947902800000091
其中:FR(Di,L)≥FR(Di+1,L)
其中,Di为地图
Figure FDA0002947902800000092
的层次为k的位置区域集合
Figure FDA0002947902800000093
的位置区域,FR(Di,L)为位置序列L关于位置区域Di的出现频度,计算方法如下:
FR(Di,L)=|{Li|Li∈L∧Li∈Di}|
查询配置关联向量RT(R1)和RT(R2)的特征相似度sim(RT(R1),RT(R2))的计算方法如下:
sim(RT(R1),RT(R2))=EJ(RT(R1),RT(R2))
对于任意查询请求序列R其查询配置关联向量RT(R)为查询请求序列R中各个查询请求的查询兴趣点关于配置文件的关联性值所构成的序列,即:
RT(R)=[RE(Ti,P)|Ti∈T]
其中,RE(Ti,P)表示查询请求序列R中第i查询请求的查询兴趣点Ti关于其配置文件P的关联性;
查询位置关联向量RL(R1)和RL(R2)的特征相似度sim(RL(R1),RL(R2))的计算方法如下:
sim(RL(R1),RL(R2))=EJ(RL(R1),RL(R2))
对于任意查询请求序列R其查询位置关联向量RL(R)为查询请求序列R中各个查询请求的查询兴趣点关于查询位置的关联性值所构成的序列,即:
RL(R)=[RE(Ti,Li)|<Ti,Li>∈<T,L>]
其中,RE(Ti,Li)表示查询请求序列R中第i查询请求的查询兴趣点Ti关于其查询位置Li的关联性。
10.如权利要求1所述的面向个性化信息检索的用户隐私保护方法,其特征在于,步骤(3)按照以下方法构建与用户当前位置Li+1保持安全距离且与用户敏感偏好主题无关的哑元查询请求
Figure FDA0002947902800000094
(3-1)获取用户对于由身份标识U、查询兴趣点Ti+1、配置文件Pi+1、和查询位置Li+1构成的当前用户查询请求Ri+1=(U,Ti+1,pi+1,Li+1)、用户历史请求序列Ri={R0,...,Ri}、用户查询请求关联的哑元查询请求序列
Figure FDA0002947902800000101
知识库的主题层次结构
Figure FDA00029479028000001013
以及用户敏感偏好主题集H*
(3-2)对于当前用户查询请求Ri+1=(Ti+1,Pi+1,Li+1)、用户历史请求序列Ri={R0,...,Ri}、以及用户查询请求关联的哑元查询请求序列
Figure FDA0002947902800000102
判断当前用户查询请求的配置文件Pi+1是否被包含于历史请求序列的配置文件序列中,如果包含则:在历史请求序列中包含所述配置文件Pi+1的用户查询请求关联的哑元查询请求序列中,选择任一查询请求,获取其配置文件作为哑元查询请求
Figure FDA0002947902800000103
的配置文件
Figure FDA0002947902800000104
否则,对于用户查询请求Ri+1的配置文件Pi+1的每一个节点H,选择哑元相同层次的节点H#,进行递归的搜索构造,从而构造哑元查询请求
Figure FDA0002947902800000105
的配置文件
Figure FDA0002947902800000106
所述搜索构造的过程同步骤(2-2);
(3-3)在知识库的主题层次结构
Figure FDA00029479028000001014
所有非敏感偏好主题集中的查询兴趣点集合中,搜索满足以下条件的查询兴趣点形成查询兴趣点集合T*,并从中随机选择其一作为构造哑元查询请求
Figure FDA0002947902800000107
的查询兴趣点
Figure FDA0002947902800000108
具体条件如下:
所述查询兴趣点与用户历史请求序列Ri的查询兴趣点序列Ti构成的查询兴趣点序列、当前用户查询请求和用户历史查询请求序列的查询兴趣点构成的查询兴趣点序列的特征相似度大于等于查询请求序列的特征相似度阈值;且
所述查询兴趣点与哑元请求
Figure FDA0002947902800000109
的配置文件
Figure FDA00029479028000001010
的关联性、当前用户查询请求的查询兴趣点与配置文件的关联性二者之间的距离不超过关联性阈值;
(3-4)在与当前用户查询请求查询位置的距离超过安全距离的位置单元集合中,搜索满足以下条件的位置单元形成位置单元集合L*,并从中随机选择其一作为构造哑元查询请求
Figure FDA00029479028000001011
的查询位置
Figure FDA00029479028000001012
具体条件如下:
所述查询位置与用户历史请求序列Ri的查询位置序列Li构成的查询兴趣点序列、当前用户查询请求和用户历史查询请求序列的查询位置构成的查询位置序列的位置特征相似度大于等于位置序列的特征相似度阈值;且
所述查询位置与哑元请求
Figure FDA0002947902800000111
的查询兴趣点
Figure FDA0002947902800000112
的关联性、当前用户查询请求的查询位置与查询兴趣点的关联性二者之间的距离不超过关联性阈值;
(3-5)将步骤(3-2)构造的哑元查询请求
Figure FDA0002947902800000113
的配置文件
Figure FDA0002947902800000114
步骤(3-3)构造的哑元查询请求
Figure FDA0002947902800000115
的查询兴趣点
Figure FDA0002947902800000116
步骤(3-4)构造的哑元查询请求
Figure FDA0002947902800000117
的查询位置
Figure FDA0002947902800000118
组成哑元查询请求:
Figure FDA0002947902800000119
Figure FDA00029479028000001110
CN202010946294.2A 2020-09-10 2020-09-10 一种面向个性化信息检索的用户隐私保护方法 Active CN112084411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010946294.2A CN112084411B (zh) 2020-09-10 2020-09-10 一种面向个性化信息检索的用户隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010946294.2A CN112084411B (zh) 2020-09-10 2020-09-10 一种面向个性化信息检索的用户隐私保护方法

Publications (2)

Publication Number Publication Date
CN112084411A CN112084411A (zh) 2020-12-15
CN112084411B true CN112084411B (zh) 2021-04-20

Family

ID=73732495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010946294.2A Active CN112084411B (zh) 2020-09-10 2020-09-10 一种面向个性化信息检索的用户隐私保护方法

Country Status (1)

Country Link
CN (1) CN112084411B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765670B (zh) * 2021-02-03 2022-11-29 浙江机电职业技术学院 一种基于标识替换的用户信息服务隐私保护方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145682B2 (en) * 2010-02-25 2012-03-27 Microsoft Corporation Differentially private data release
CN106792501A (zh) * 2016-11-17 2017-05-31 广东工业大学 一种lbs用户位置及身份隐私保护方法
CN107292189A (zh) * 2017-05-15 2017-10-24 温州大学瓯江学院 面向文本检索服务的用户隐私保护方法
CN108449335A (zh) * 2018-03-15 2018-08-24 温州大学瓯江学院 一种基于范围掩盖的位置服务隐私保护方法及系统
CN110245297A (zh) * 2019-06-18 2019-09-17 绍兴文理学院 一种面向图书关键词搜索的用户主题隐私保护方法及系统
CN111125747A (zh) * 2019-10-22 2020-05-08 绍兴文理学院 一种商务网站用户的商品浏览隐私保护方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2012236739A1 (en) * 2011-03-28 2013-10-03 Mcafee, Inc. System and method for virtual machine monitor based anti-malware security
EP2891105A4 (en) * 2013-03-26 2016-04-06 Irdeto Bv METHOD AND SYSTEM FOR PLATFORM SECURITY AND USER APPLICATION ON A DEVICE
US20150278358A1 (en) * 2014-04-01 2015-10-01 Microsoft Corporation Adjusting serp presentation based on query intent
CN106254314B (zh) * 2016-07-19 2017-10-10 温州大学瓯江学院 一种位置查询服务信息保护方法及系统
CN106572111B (zh) * 2016-11-09 2019-06-28 南京邮电大学 一种面向大数据的隐私信息发布暴露链的发现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145682B2 (en) * 2010-02-25 2012-03-27 Microsoft Corporation Differentially private data release
CN106792501A (zh) * 2016-11-17 2017-05-31 广东工业大学 一种lbs用户位置及身份隐私保护方法
CN107292189A (zh) * 2017-05-15 2017-10-24 温州大学瓯江学院 面向文本检索服务的用户隐私保护方法
CN108449335A (zh) * 2018-03-15 2018-08-24 温州大学瓯江学院 一种基于范围掩盖的位置服务隐私保护方法及系统
CN110245297A (zh) * 2019-06-18 2019-09-17 绍兴文理学院 一种面向图书关键词搜索的用户主题隐私保护方法及系统
CN111125747A (zh) * 2019-10-22 2020-05-08 绍兴文理学院 一种商务网站用户的商品浏览隐私保护方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PAD: Privacy-Area Aware, Dummy-Based Location Privacy in Mobile Services;Hua Lu 等;《MobiDE "08: Proceedings of the Seventh ACM International Workshop on Data Engineering for Wireless and Mobile Access》;20080630;第16–23页 *
Protection of query privacy for continuous location based services;Aniket Pingley等;《2011 Proceedings IEEE INFOCOM》;20110415;第1710-1718页 *
面向移动社交网络的位置隐私保护方法;许志凯 等;《网络与信息安全学报》;20151215(第1卷第1期);第50-57页 *
面向群组推荐的个性化隐私保护方法;王海艳 等;《通信学报》;20190826(第40卷第9期);第106-115页 *

Also Published As

Publication number Publication date
CN112084411A (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
Abi Sen et al. Preserving privacy in internet of things: a survey
Xu et al. Distilling at the edge: A local differential privacy obfuscation framework for IoT data analytics
Chen et al. An efficient privacy-preserving ranked keyword search method
Yu et al. Security and privacy in the age of the smart internet of things: An overview from a networking perspective
Huang et al. Privacy protection for recommendation system: a survey
Yu et al. Privacy preservation based on clustering perturbation algorithm for social network
Abdel Wahab et al. DARM: a privacy-preserving approach for distributed association rules mining on horizontally-partitioned data
Andola et al. A secure searchable encryption scheme for cloud using hash-based indexing
To et al. A Hilbert-based framework for preserving privacy in location-based services
Wu et al. Privacy-preserving location-based traffic density monitoring
CN112084411B (zh) 一种面向个性化信息检索的用户隐私保护方法
Raghavendra et al. Survey on data storage and retrieval techniques over encrypted cloud data
El Haourani et al. Knowledge Based Access Control a model for security and privacy in the Big Data
Sreedhar et al. A genetic TDS and BUG with pseudo-identifier for privacy preservation over incremental data sets
US11627117B2 (en) Secure search service
Cheng et al. Enabling secure and efficient kNN query processing over encrypted spatial data in the cloud
Aryan et al. Protecting location privacy in augmented reality using k-anonymization and pseudo-id
Aleksandrova et al. Ensuring the big data integrity through verifiable zero-knowledge operations
Shekar et al. Security Threats and Privacy Issues in Cloud Data
Baig et al. Privacy-Preserving in Big Data Analytics: State of the Art
Swami et al. A new secure data retrieval system based on ECDH and hierarchical clustering with Pearson correlation
Kawamoto et al. Security of social information from query analysis in daas
Jose et al. Ontology Based Privacy Preservation over Encrypted Data using Attribute-Based Encryption Technique
Thangaraju et al. Multi Level Multi Attribute Relational Trust Measure Based Integrity Management in Data Warehouse
Rathod et al. Hybrid Cryptographic Based Approach for Privacy Preservation in Location-Based Services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant