CN112084411B

CN112084411B - 一种面向个性化信息检索的用户隐私保护方法

Info

Publication number: CN112084411B
Application number: CN202010946294.2A
Authority: CN
Inventors: 吴宗大; 谢坚; 卢成浪; 李虎雄
Original assignee: University of Shaoxing
Current assignee: University of Shaoxing
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2021-04-20
Anticipated expiration: 2040-09-10
Also published as: CN112084411A

Abstract

本发明公开了一种面向个性化信息检索的用户隐私保护方法，包括以下步骤：(1)获取知识库的主题层次结构、以及用户敏感偏好集；(2)对于用户初始查询请求，采用贪婪算法构造由一系列与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求；(3)对于当前用户查询请求、用户历史请求序列，构造由一系列与用户当前位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求序列；(4)将哑元查询请求序列集，与用户查询请求序列通过可信客户端发送给服务器端，所述可信客户端获得哑元查询请求序列和用户查询请求序列的服务结果，并从中筛选用户查询请求序列对应的服务结果返回会给用户。本发明有效改善用户各类隐私的安全性。

Description

一种面向个性化信息检索的用户隐私保护方法

技术领域

本发明属于隐私保护领域，更具体地，涉及一种面向个性化信息检索的用户隐私保护方法。

背景技术

随着网络技术的迅速发展，网上信息量急剧膨胀，引发了严重的信息超载问题和资源迷向问题，已成为制约人们有效利用网络信息资源的瓶颈。网络个性化信息检索服务基于用户特定的信息需求(如用户检索词、用户位置、用户偏好等)，向用户提供具有针对性的满足其个性化需求的信息内容，帮助用户从海量网络信息资源中快速获取目标数据，是解决信息超载和资源迷向问题的有效工具，具有广阔的市场应用前景，受到学界和业界的广泛关注。然而，随着云计算和大数据等新兴网络技术的迅速发展，网络个性化信息检索服务的后台服务器端正变得越来越不可信，已成为引发用户隐私泄露的主要威胁和根源。为了获得准确的个性化信息检索服务结果，用户向后台服务器端提交的个性化信息检索查询请求蕴含着大量的用户敏感信息(如喜好、位置、社会关系等)。这些敏感信息被不可信网络服务器端大量的收集，势必对用户个人隐私安全构成严重威胁。随着人们隐私维权意识的不断增强，用户隐私安全问题已上升为制约网络个性化信息检索服务进一步发展与应用的主要障碍，成为信息检索领域迫切需要解决的热点和难点问题。在此背景下，本文面向网络个性化信息检索服务，深入研究用户隐私保护问题，以期在不损害信息服务可用性的前提下，全面改善各类用户隐私(主要包括用户偏好隐私、用户查询隐私和用户位置隐私)在不可信网络服务器端的安全性，以期构建一个用户隐私安全的个性化信息检索服务平台。

社会科学领域学者更多从法律角度研究网络用户的隐私保护问题。虽然制定隐私权相关的法律能在一定程度上保护用户隐私，但是并不能根本上解决该问题，它更多地需要采用隐私保护技术加以解决。针对不可信网络环境下的用户隐私安全问题，信息科学领域学者已给出了许多有效方法，代表性地有：隐私加密法、模糊法、匿名法和混淆法。(1)隐私加密是指通过加密变换，使得用户服务查询请求数据对网络服务器端不可见，以达到隐私保护的目的，代表性地有隐私信息检索技术。该类技术不仅要求额外硬件和复杂算法的支持，且要求改变服务器端的服务算法，从而引起整个平台架构的改变，降低了方法在个性化信息检索平台中的可用性。(2)假名法是用户隐私保护中广泛使用的一种技术，它通过隐藏或伪装用户身份标识，允许用户以不暴露身份的方式使用系统。然而，匿名化隐私保护也受到了许多质疑。文献^[28]分析了匿名化对隐私保护的不足，并给出证明。结果表明，通过匿名化技术收集的用户数据往往难以保证质量。更重要地是，现在许多信息检索服务平台一般要求用户须实名登录后才能使用，这限制了匿名化隐私保护技术的实际可用性。(3)模糊法主要针对位置服务，它通过泛化或扰动查询位置信息，使得攻击者无法识别出用户精确位置。然而，模糊法主要用于位置隐私保护，通常难以直接应用于个性化信息检索服务中保护其它类型用户隐私。此外，由于需要引入第三方匿名服务器，也一定程度限制了该类方法的实际可用性。(4)混淆法是指在将用户服务查询请求暴露给服务器端之前，预先对其进行适当混淆，使得不可信服务器端难以获知用户真实查询请求，以用户隐私保护。然而，现有方法没有充分考虑用户查询请求的分布特征，也没有考虑各类用户查询请求间的关联特征，严重影响了混淆效果。并且，现有方法通常只针对单一类型的用户隐私，无法满足网络个性化信息检索的安全性需求。然而，个性化检索信息服务中各类查询请求数据的可识别性特征类型多样，如：位置区域频度特征(用户在某段时间内喜欢围绕固定的位置区域发起查询请求)、查询主题频度特征(用户在某段时间内喜欢围绕固定的查询主题发起查询请求)、语义关联特征(用户查询请求相关的偏好描述、位置区域和查询主题之间存在很强的关联性)等。并且用户查询请求还会随着时间动态发生变化(即历史变化特征)，如何分别为它们构造生成理想哑元服务查询请求，实现“全面改善”预期目标，是一项富有挑战性的研究任务。

综上所述，已有用户隐私保护技术在实用性、准确性、安全性等方面仍无法满足个性化信息检索服务的实际应用需求。综合来说，有效的个性化信息检索隐私保护方法需要满足以下几个方面的要求：(1)确保用户隐私的安全性，包括个性化信息检索服务查询请求涉及的各类用户隐私的安全性(如偏好隐私、查询隐私、位置隐私等；(2)确保用户个性化信息检索服务结果的准确性，即对比引入隐私保护方法的前后，用户获得的最终信息检索结果一致；(3)不损害检索服务的实际可用性，即隐私保护方法不改变检索服务算法，不需要额外硬件支持，也不会对用户服务查询请求的执行效率构成显著影响。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种面向个性化信息检索的用户隐私保护方法，其目的在于通过综合考虑用户的兴趣点隐私、偏好隐私和查询位置隐私，构建哑元查询请求序列集合，有效降低用户在特定时间内发起的查询请求为服务器分析用户偏好的风险，由此解决现有技术不能综合保护用户的偏好隐私、查询位置隐私以及查询兴趣点的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种面向个性化信息检索的用户隐私保护方法，包括以下步骤：

(1)获取知识库的主题层次结构

以及用户敏感偏好集H^*；所述知识库的主题层次结构

为以所有查询兴趣点T为叶子节点的规范树结构，即每个叶子节点的深度相同，非叶子节点为主题；所述用户敏感偏好集H^*为敏感主题集合；

(2)对于由查询兴趣点T⁰、配置文件P⁰、和查询位置L⁰构成的用户初始查询请求R⁰＝(T⁰,P⁰,L⁰)，采用贪婪算法构造由一系列与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求

组成的哑元查询请求序列

其中

所述哑元查询请求的查询兴趣点

关于查询位置

关联性与用户初始查询请求的查询兴趣点T⁰与用户查询位置L⁰关联性值一致，且查询兴趣点

关于配置文件

的关联性

和用户初始查询请求R⁰的查询兴趣点T⁰关于配置文件P⁰的关联性近似；所述查询请求R是由查询兴趣点T、配置文件P和查询位置L构成的三元组，记作：R＝<T,P,L>；

(3)对于由查询兴趣点Tⁱ⁺¹、配置文件Pⁱ⁺¹、和查询位置Lⁱ⁺¹构成的当前用户查询请求Rⁱ⁺¹＝(Tⁱ⁺¹,Pⁱ⁺¹,Lⁱ⁺¹)、用户历史请求序列R_i＝{R⁰,...,Rⁱ}，构造由一系列与用户当前位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求

组成的哑元查询请求序列

其中

使得由当前用户查询请求Rⁱ⁺¹与用户历史请求序列R_i组成的当前用户查询请求序列R_i+1＝{R⁰,...,Rⁱ,Rⁱ⁺¹}与用户查询请求关联的哑元查询请求序列

组成的哑元查询请求序列集合

(其中

为配置文件集，

查询兴趣点序列集，

查询位置序列集)相似性低于预设阈值且使得其查询兴趣点序列集

以及配置文件集

降低用户敏感偏好集的突显度至预设阈值以下、以及使得查询位置序列集

降低用户查询位置的突显度至预设阈值以下；

(4)将步骤(2)中构造的哑元查询请求序列

和/或步骤(3)中构造的哑元查询请求序列集

与用户查询请求序列R_i+1通过可信客户端发送给服务器端，所述可信客户端获得哑元查询请求序列和用户查询请求序列的服务结果，并从中筛选用户查询请求序列对应的服务结果返回会给用户。

优选地，所述面向个性化信息检索的用户隐私保护方法，其所述查询兴趣点T为知识库的主题层次结构

的某一叶子节点；

所述配置文件P为知识库的主题层次结构

的根子树关联的用户兴趣偏好层次，即保留知识库主题层次结构根节点的子树，其每个节点关联一个用户兴趣偏好值，其中每个节点H∈P的用户兴趣偏好值PR(H,P)为其直接孩子节点的用户兴趣偏好值的算数平均数，即：

PR(H,P)＝∑_H，∈DH(H)PR(H′,P)/|DH(H)|

其中，DH(H)表示主题H的直接孩子集合。

所述查询位置L为用户发布该查询请求时所处的位置单元。位置区域

即位置单元集合，它满足以下几个属性：(1)位置区域拥有层次属性k，位置区域层次越高，它包含的位置就越多；显然，地图

本身也是位置区域，它拥有最高的层次n_L；每个位置单元也是区域，它拥有最低的层次0；(2)同层次的位置区域互不相交；(3)同层次区域面积彼此相等；(4)所有同层次位置区域的并集等于地图本身；(5)除地图

本身外的任意区域均包含于某个更高层区域。

优选地，所述面向个性化信息检索的用户隐私保护方法，其步骤(2)构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R^#具体为：

对于用户初始查询请求R⁰＝(T⁰,P⁰,L⁰)，构造哑元查询请求

使得其同时满足：

Con1：查询位置L^#与用户初始查询请求的L⁰的距离大于安全距离阈值ε，记作：

Con2：配置文件

的与用户初始查询请求的配置文件P⁰的主题偏好特征一致；

Con3：其查询兴趣点

关于其配置文件

的关联性

与用户初始查询请求的查询兴趣点T⁰关于配置文件P⁰的关联性RE(T⁰,P⁰)近似，即

近似即值的差距小于预设的差距阈值；

Con4：其查询兴趣点

关于查询位置

关联性与用户查询兴趣点T⁰与用户查询位置L⁰关联性值一致，即

优选地，所述面向个性化信息检索的用户隐私保护方法，其对于任意两个配置文件P₁和P₂其主题偏好特征一致，即所述两个配置文件的特征相似性sim(P₁,P₂)超过预设的阈值；所述任意两个配置文件P₁和P₂的特征相似性sim(P₁,P₂)计算方法如下：

其中，k为知识库的主题层次结构

的层次，其叶子节点即查询兴趣点的层次为0，其根节点具有最高层次为n_H，

其值由系统预先设定，较简单地认为

EJ表示向量间的广义Jaccard相似性；PR_k(P₁)为配置文件P₁的主题偏好向量，PR_k(P₂)为配置文件P₂的主题偏好向量。

对于任意配置文件P，其在知识库的主题层次结构

的层次k上的主题偏好向量PR_k(P)的计算方法如下：

其中：PR(H_i,P)≥PR(H_i+1,P)

其中，

为知识库的主题层次结构

在层次k上的主题集合，H_i为知识库的主题层次结构

的主题，PR(H_i,P)为配置文件P记录的用户对主题H_i的用户偏好值，PR(H_i+1,P)为配置文件P记录的用户对主题H_i+1的用户偏好值。

对于任意查询请求R＝<T,P,L>，其查询兴趣点T关于其配置文件P的关联性RE(T,P)按照如下方法计算：

RE(T,P)＝PR(H^*,P)/HE(H^*)，其中：H^*＝arg min_HHE(H)s.t.H∈P∧T∈H

其中PR(H^*,P)为配置文件记录P记录的用户对主题H^*的用户兴趣偏好值，H^*为配置文件P中包含查询T的层次值最小的主题，HE(H^*)表示H^*的层次值。

对于任意查询请求R＝<T,P,L>，其查询兴趣点T与查询位置的关联值为RE(T,L)为：

优选地，所述面向个性化信息检索的用户隐私保护方法，其步骤(2)构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R^#具体按照以下方法实现：

(2-1)获取初始用户查询请求R⁰＝(T⁰,P⁰,L⁰)、知识库的主题层次结构

以及用户敏感偏好主题集H^*；

(2-2)对于初始用户查询请求R⁰的配置文件P⁰中的每一个节点H，选择哑元相同层次的节点H^#，进行递归的搜索构造，从而构造哑元查询请求

的配置文件

(2-3)对于初始用户查询请求R⁰的配置文件P⁰、在知识库的主题层次结构

的所有查询兴趣点集合

中不属于敏感偏好主题集H^*叶子节点的查询兴趣点集合中，搜索关于哑元查询请求

的配置文件

的关联性与初始用户查询请求R⁰的查询兴趣点T⁰关于其配置文件P⁰的关联性

近似的备选查询兴趣点集合T^*，并从中随机选取其一作为哑元查询请求

的查询兴趣点

即备选查询兴趣点集合T^*满足：

且

(2-4)对于哑元查询请求

的查询兴趣点

选取与其匹配且与初始用户查询请求查询位置的距离超过安全距离的位置单元作为哑元查询请求

的备选位置单元集合L^*，并从中随机选取其一作为哑元查询请求

的查询位置

(2-5)将步骤(2-2)构造的哑元查询请求

的配置文件

步骤(2-3)构造的哑元查询请求

的查询兴趣点

步骤(2-4)构造的哑元查询请求

的查询兴趣点

组成哑元查询请求：

优选地，所述面向个性化信息检索的用户隐私保护方法，其所述搜索构造的过程为：

如果其为叶子节点则：随机构造哑元查询请求

的配置文件

的相应叶子节点H^#，并使得哑元查询请求

的配置文件

的相应叶子节点H^#的用户偏好值与节点H的相同，即：

否则即节点H为非叶子节点则：随机选择H^#的子节点集合，使得H^#的子节点集合大小与H的子节点集合大小相同，并对于H的子节点集合中的每一节点，随机选择哑元H^#的子节点集合中的一节点，进行搜索构造。

优选地，所述面向个性化信息检索的用户隐私保护方法，其步骤(3)即使得哑元查询请求序列集合

满足以下条件：

CON1、哑元查询请求序列集合

中存在一个哑元查询请求序列关于当前用户查询请求序列R_i+1的综合相似性

超过预设的综合相似性阈值π，即：

CON2、哑元查询请求序列集合

降低用户敏感偏好集

的突显度至预设的安全性阈值ρ以下，即：

其中，T_i+1为当前用户查询请求序列R_i+1的查询兴趣点序列，

为哑元查询请求序列集合

的查询兴趣点序列集；exp(H^*,{T_i+1})为敏感主题H^*关于当前用户查询请求序列R_i+1的查询兴趣点序列T_i+1的突显度，

为敏感主题H^*关于所有查询兴趣点集合

的突显度。

CON3、哑元查询请求序列集合

的配置文件集

降低用户敏感偏好集

的突显度至预设的安全性阈值ρ以下，即：

其中，P_i+1为当前用户查询请求序列R_i+1的配置文件集合，

为哑元查询请求序列集合

的配置文件集合；exp(H^*,{P_i+1})为敏感主题H^*关于当前用户查询请求序列R_i+1的置文件集合P_i+1的突显度，

为敏感主题H^*关于所有配置文件集合

的突显度。

CON4、哑元查询请求序列集合

的查询位置序列集

降低用户敏感偏好集

的突显度至预设的安全性阈值ρ以下，即：

其中，

为用户查询请求的位置L₀关于L₀及其关联的哑元查询请求序列中的位置序列的并集的突显度。

优选地，所述面向个性化信息检索的用户隐私保护方法，其对于任意两个查询请求序列R₁、R₂的综合相似性sim(R₁,R₂)计算方法如下：

sim(R₁,R₂)

＝(θ₁·sim(RT(R₁),RT(R₂))+θ₂·sim(RL(R₁),RL(R₂)))·(ω₁·sim(P₁,P₂)+ω₂·sim(T₁,T₂)+ω₃·sim(L₁,L₂))

其中θ₁+θ₂＝1，ω₁+ω₂+ω₃＝1为预设的权重值；sim(RT(R₁),RT(R₂))为查询配置关联向量RT(R₁)和RT(R₂)的特征相似度，sim(RL(R₁),RL(R₂))为查询位置关联向量RL(R₁)和RL(R₂)的特征相似度，sim(P₁,P₂)为配置文件的特征相似度，sim(T₁,T₂)为查询请求序列的特征相似度，sim(L₁,L₂)为位置序列的特征相似度；

对于给定主题H其关于任意查询兴趣点序列集合

的突显度

为：

其中，

层次为k的全体查询主题，FR(H,T)为主题H关于查询兴趣点序列T的出现频度，FR(H′,T)为主题H′关于查询兴趣点序列T的出现频度。

对于给定主题H其关于任意查询兴趣点序列T的出现频度为：

FR(H,T)＝|{T_i|T_i∈T∧T_i∈H}|

其中，T_i∈H表示主题H包含的兴趣点T_i；

对于给定主题H其关于任意配置文件集合

的突显度

为：

对于任意位置L₀关于任意给顶的位置单元集合L突显度exp(L₀,L)为：

优选地，所述面向个性化信息检索的用户隐私保护方法，其配置文件的特征相似度sim(P₁,P₂)计算方法如下：

其中，k为知识库的主题层次结构

其值由系统预先设定，较简单地认为

表示向EJ量间的广义Jaccard相似性；PR_k(P₁)为配置文件P₁的主题偏好向量，PR_k(P₂)为配置文件P₂的主题偏好向量。

查询请求序列的特征相似度sim(T₁,T₂)的计算方法如下：

其中，k为知识库的主题层次结构

它们的值由系统预先设定，较简单地认为

FR_k(T₁)为查询请求序列R₁的查询兴趣点组成的查询兴趣点序列T₁在主题层次k上的兴趣频度向量；FR_k(T₂)为查询请求序列R₂的查询兴趣点组成的查询兴趣点序列T₂在主题层次k上的兴趣频度向量。

对于任意查询兴趣点序列T在主题层次k上的兴趣频度向量FR_k(T)定义如下：

其中：FR(H_i,T)≥FR(H_i+1,T)

其中，H_i为知识库的主题层次结构

的层次节点集合

的主题，FR(H_i,T)为查询请求序列T关于主题H_i的出现频度，计算方法如下：

FR(H_i,T)＝|{T_i|T_i∈T∧T_i∈H_i}|

位置序列的特征相似度sim(L₁,L₂)的计算方法如下：

其中，位置区域的最高层次即地图本身的层次为n_L，最低层次即位置单元的层次为0，

它们的值由系统预先设定，较简单地认为

FR_k(L₁)为R₁的查询位置组成的查询位置序列L₁在位置层次k上的区域频度向量；FR_k(L₂)为R₂的查询位置组成的查询位置序列L₂在位置层次k上的区域频度向量；

对于任意查询位置序列L在位置层次k上的区域频度向量FR_k(L)定义如下：

其中：FR(D_i,L)≥FR(D_i+1,L)

其中，D_i为地图

的层次为k的位置区域集合

的位置区域，FR(D_i,L)为位置序列L关于位置区域D_i的出现频度，计算方法如下：

FR(D_i,L)＝|{L_i|L_i∈L∧L_i∈D_i}|

查询配置关联向量RT(R₁)和RT(R₂)的特征相似度sim(RT(R₁),RT(R₂))的计算方法如下：

sim(RT(R₁),RT(R₂))＝EJ(RT(R₁),RT(R₂))

对于任意查询请求序列R其查询配置关联向量RT(R)为查询请求序列R中各个查询请求的查询兴趣点关于配置文件的关联性值所构成的序列，即：

RT(R)＝[RE(T_i,P)|T_i∈T]

其中，RE(T_i,P)表示查询请求序列R中第i查询请求的查询兴趣点T_i关于其配置文件P的关联性。

查询位置关联向量RL(R₁)和RL(R₂)的特征相似度sim(RL(R₁),RL(R₂))的计算方法如下：

sim(RL(R₁),RL(R₂))＝EJ(RL(R₁),RL(R₂))

对于任意查询请求序列R其查询位置关联向量RL(R)为查询请求序列R中各个查询请求的查询兴趣点关于查询位置的关联性值所构成的序列，即：

RL(R)＝[RE(T_i,L_i)|<T_i,L_i>∈<T,L>]

其中，RE(T_i,L_i)表示查询请求序列R中第i查询请求的查询兴趣点T_i关于其查询位置L_i的关联性。

优选地，所述面向个性化信息检索的用户隐私保护方法，其步骤(3)按照以下方法构建与用户当前位置Lⁱ⁺¹保持安全距离且与用户敏感偏好主题无关的哑元查询请求

(3-1)获取用户对于由身份标识U、查询兴趣点Tⁱ⁺¹、配置文件Pⁱ⁺¹、和查询位置Lⁱ⁺¹构成的当前用户查询请求Rⁱ⁺¹＝(U,Tⁱ⁺¹,Pⁱ⁺¹,Lⁱ⁺¹)、用户历史请求序列R_i＝{R⁰,...,Rⁱ}、用户查询请求关联的哑元查询请求序列

知识库的主题层次结构

以及用户敏感偏好主题集H^*；

(3-2)对于当前用户查询请求Rⁱ⁺¹＝(Tⁱ⁺¹,Pⁱ⁺¹,Lⁱ⁺¹)、用户历史请求序列R_i＝{R⁰,...,Rⁱ}、以及用户查询请求关联的哑元查询请求序列

判断当前用户查询请求的配置文件Pⁱ⁺¹是否被包含于历史请求序列的配置文件序列中，如果包含则：在历史请求序列中包含所述配置文件Pⁱ⁺¹的用户查询请求关联的哑元查询请求序列中，选择任一查询请求，获取其配置文件作为哑元查询请求

的配置文件

否则，对于用户查询请求Rⁱ⁺¹的配置文件Pⁱ⁺¹的每一个节点H，选择哑元相同层次的节点H^#，进行递归的搜索构造，从而构造哑元查询请求

的配置文件

所述搜索构造的过程同步骤(2-2)。

(3-3)在知识库的主题层次结构

所有非敏感偏好主题集中的查询兴趣点集合中，搜索满足以下条件的查询兴趣点形成查询兴趣点集合T^*，并从中随机选择其一作为构造哑元查询请求

的查询兴趣点

具体条件如下：

所述查询兴趣点与用户历史请求序列R_i的查询兴趣点序列Tⁱ构成的查询兴趣点序列、当前用户查询请求和用户历史查询请求序列的查询兴趣点构成的查询兴趣点序列，所述两查询兴趣点序列的特征相似度大于等于查询请求序列的特征相似度阈值；且

所述查询兴趣点与哑元请求

的配置文件

的关联性、当前用户查询请求的查询兴趣点与配置文件的关联性二者之间的距离不超过关联性阈值。

(3-4)在与当前用户查询请求查询位置的距离超过安全距离的位置单元集合中，搜索满足以下条件的位置单元形成位置单元集合L^*，并从中随机选择其一作为构造哑元查询请求

的查询位置

具体条件如下：

所述查询位置与用户历史请求序列R_i的查询位置序列Lⁱ构成的查询兴趣点序列、当前用户查询请求和用户历史查询请求序列的查询位置构成的查询位置序列，所述两查询位置序列的位置特征相似度大于等于位置序列的特征相似度阈值；且

所述查询位置与哑元请求

的查询兴趣点

的关联性、当前用户查询请求的查询位置与查询兴趣点的关联性二者之间的距离不超过关联性阈值。

(3-5)将步骤(3-2)构造的哑元查询请求

的配置文件

步骤(3-3)构造的哑元查询请求

的查询兴趣点

步骤(3-4)构造的哑元查询请求

的查询位置

组成哑元查询请求：

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供了一种面向个性化信息检索的用户隐私保护方法，构造的哑元查询请求与用户请求拥有高度一致的位置特征、查询特征、偏好特征和关联特征，能有效地混淆掩盖保护用户查询隐私、位置隐私和偏好隐私，以改善用户各类隐私在不可信服务器端的安全性。

附图说明

图1是本发明提供的面向个性化信息检索的用户隐私保护方法的步骤示意图；

图2是知识库的主题层次结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的面向个性化信息检索的用户隐私保护方法，如图1所示，包括以下步骤：

(1)获取知识库的主题层次结构

以及用户敏感偏好集H^*；所述知识库的主题层次结构

如图2所示，为以所有查询兴趣点T为叶子节点的规范树结构，即每个叶子节点的深度相同，非叶子节点为主题；所述用户敏感偏好集H^*为敏感主题集合。

组成的哑元查询请求序列

其中

所述哑元查询请求的查询兴趣点

关于查询位置

关于配置文件

的关联性

和用户初始查询请求R⁰的查询兴趣点T⁰关于配置文件P⁰的关联性近似；所述查询请求R是由查询兴趣点T、配置文件P和查询位置L构成的三元组，记作：R＝<T,P,L>；其中：

所述查询兴趣点T为知识库的主题层次结构

的某一叶子节点；

所述配置文件P为知识库的主题层次结构

PR(H,P)＝∑_H′∈DH(H)PR(H′,P)/|DH(H)|

其中，DH(H)表示主题H的直接孩子集合。

本身外的任意区域均包含于某个更高层区域。

优选地，步骤(2)构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R^#具体为：

使得其同时满足：

Con2：配置文件

的与用户初始查询请求的配置文件P⁰的主题偏好特征一致；

对于任意两个配置文件P₁和P₂其主题偏好特征一致，即所述两个配置文件的特征相似性sim(P₁,P₂)超过预设的阈值；所述任意两个配置文件P₁和P₂的特征相似性sim(P₁,P₂)计算方法如下：

其中，k为知识库的主题层次结构

其值由系统预先设定，较简单地认为

对于任意配置文件P，其在知识库的主题层次结构

的层次k上的主题偏好向量PR_k(P)的计算方法如下：

其中：PR(H_i,P)≥PR(H_i+1,P)

其中，

为知识库的主题层次结构

在层次k上的主题集合，H_i为知识库的主题层次结构

Con3：其查询兴趣点

关于其配置文件

的关联性

近似即值的差距小于预设的差距阈值；

RE(T,P)＝PR(H^*,P)/HE(H^*)，其中：H^*＝arg min_HHE(H)s.t.H∈P∧T∈H

Con4：其查询兴趣点

关于查询位置

优选的，具体可按照以下方法实现：

以及用户敏感偏好主题集H^*；

的配置文件

上述构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R^#的算法可表示为：

算法1：为用户初始查询请求R⁰伪造一个哑元查询请求

(历史序列为空)

输入：用户当前请求r⁰＝(t⁰,P⁰,L⁰)；知识层次目录

用户敏感偏好集H^*；

输出：对应用户请求的一个哑元请求

01获取知识层次目录

的根节点H(同时也是用户配置文件P的根节点)

02设置

/*T表示查询兴趣点空间*/

03设置

04从候选集合T^*中随机选取一个词条构建哑元查询T^#/*

表示位置单元空间*/

05设置

06从候选集合L^*中随机选取一个位置构建哑元位置L^#

07 RETURN

所述搜索构造的过程为：

如果其为叶子节点则：随机构造哑元查询请求

的配置文件

的相应叶子节点H^#，并使得哑元查询请求

的配置文件

的相应叶子节点H^#的用户偏好值与节点H的相同，即：

所述搜索构造的过程SEARCH算法可表示为：

子函数SEARCH(用户文件P；知识目录

敏感偏好H^*；用户节点H；哑元节点H^#)

01 IF用户节点H为用户文件P的叶子节点THEN

02设置哑元节点H^#的偏好值，即PR(H^#)←PR(H,P)；RETURN H^#

03 ELSE

04获取用户节点H关于用户文件P的子节点集合，记作H

05获取哑元节点H^#关于知识目录

的子节点集合，记作H′

06设置H′←H′-H^*；从H′中随机选取与H大小相同的子集H^#

07 FOREACH<H₁,H₂>∈<H,H^#>DO SEARCH(P,

H^*,H₁,H₂)END FOR

08 END IF

以上过程实现搜索构造递归，最终构造出哑元查询请求

的配置文件

当历史请求序列为空时，如何为用户当前服务请求构造生成一个哑元服务请求？此时，位置区域频度特征、查询主题频度特征和配置文件的主题偏好特征均不需要考虑，只需要考虑如何为用户当前请求构造成一个与用户位置保持安全距离且与用户敏感偏好主题无关(包括查询主题无关和配置主题无关)的哑元请求。算法1给了一个求解方案。可以看出，算法1采用了“贪婪策略”，即在为用户当前请求构造哑元请求时，并不考虑后续用户请求的哑元构造问题。实际上，想为用户请求序列构造全局最优的哑元请求序列是困难的，原因主要有两点：一是会导致非常耗时的求解时间，这是一个NP难问题；二是在处理用户当前请求时，并不知道用户后续会发起什么样的请求，为此，需要建立一个精准的预测模型，以预测用户后续的查询位置和查询内容，这显然又是一个难题。算法1首先通过递归调用SERACH构建一个哑元配置文件(语句1至2)；然后，构建与用户敏感主题无关的哑元查询(语句3至4)；最后，构建与用户位置保持安全距离的哑元位置(语句5至6)。在自定义函数SEARCH中，若用户当前节点为配置文件的叶子节点时，将不再继续递归调用，而是将哑元叶子节点设置为与用户叶子节点相同的偏好值(语句2)；否则，随机搜索匹配与用户敏感主题语义无关的哑元主题(语句4至6)，并递归处理下一级主题(语句7)。最终，很好地确保了构造生成的哑元配置文件与用户配置文件拥有一致的主题偏好特征。可以看出，算法1虽然存在多次对函数SEARCH的嵌套递归调用，但实际上函数递归调用的次数刚好等于用户配置文件的大小，即|P|。因此，算法1时间复杂度为O(|P|)。

的所有查询兴趣点集合

的配置文件

的查询兴趣点

即备选查询兴趣点集合T^*满足：

且

(2-4)对于哑元查询请求

的查询兴趣点

的查询位置

(2-5)将步骤(2-2)构造的哑元查询请求

的配置文件

步骤(2-3)构造的哑元查询请求

的查询兴趣点

步骤(2-4)构造的哑元查询请求

的查询兴趣点

组成哑元查询请求：

组成的哑元查询请求序列

其中

组成的哑元查询请求序列集合

(其中

为配置文件集，

查询兴趣点序列集，

以及配置文件集

降低用户查询位置的突显度至预设阈值以下；

即使得哑元查询请求序列集合

满足以下条件：

CON1、哑元查询请求序列集合

超过预设的综合相似性阈值π，即：

对于任意两个查询请求序列R₁、R₂的综合相似性sim(R₁,R₂)计算方法如下：

sim(R₁,R₂)

其中θ₁+θ₂＝1，ω₁+ω₂+ω₃＝1为预设的权重值；sim(RT(R₁),RT(R₂))为查询配置关联向量RT(R₁)和RT(R₂)的特征相似度，sim(RL(R₁),RL(R₂))为查询位置关联向量RL(R₁)和RL(R₂)的特征相似度，sim(P₁,P₂)为配置文件的特征相似度，sim(T₁,T₂)为查询请求序列的特征相似度，sim(L₁,L₂)为位置序列的特征相似度；具体地：

配置文件的特征相似度sim(P₁,P₂)计算方法如下：

其中，k为知识库的主题层次结构

其值由系统预先设定，较简单地认为

查询请求序列的特征相似度sim(T₁,T₂)的计算方法如下：

其中，k为知识库的主题层次结构

它们的值由系统预先设定，较简单地认为

其中：FR(H_i,T)≥FR(H_i+1,T)

其中，H_i为知识库的主题层次结构

的层次节点集合

FR(H_i,T)＝|{T_i|T_i∈T∧T_i∈H_i}|

位置序列的特征相似度sim(L₁,L₂)的计算方法如下：

它们的值由系统预先设定，较简单地认为

其中：FR(D_i,L)≥FR(D_i+1,L)

其中，D_i为地图

的层次为k的位置区域集合

FR(D_i,L)＝|{L_i|L_i∈L∧L_i∈D_i}|

sim(RT(R₁),RT(R₂))＝EJ(RT(R₁),RT(R₂))

RT(R)＝[RE(T_i,P)|T_i∈T]

sim(RL(R₁),RL(R₂))＝EJ(RL(R₁),RL(R₂))

RL(R)＝[RE(T_i,L_i)|<T_i,L_i>∈<T,L>]

CON2、哑元查询请求序列集合

降低用户敏感偏好集

的突显度至预设的安全性阈值ρ以下，即：

其中，T_i+1为当前用户查询请求序列R_i+1的查询兴趣点序列，

为哑元查询请求序列集合

为敏感主题H^*关于所有查询兴趣点集合

的突显度。

对于给定主题H其关于任意查询兴趣点序列集合

的突显度

为：

其中，

对于给定主题H其关于任意查询兴趣点序列T的出现频度为：

FR(H,T)＝|{T_i|T_i∈T∧T_i∈H}|

其中，T_i∈H表示主题H包含的兴趣点T_i。

CON3、哑元查询请求序列集合

的配置文件集

降低用户敏感偏好集

的突显度至预设的安全性阈值ρ以下，即：

其中，P_i+1为当前用户查询请求序列R_i+1的配置文件集合，

为哑元查询请求序列集合

为敏感主题H^*关于所有配置文件集合

的突显度。

对于给定主题H其关于任意配置文件集合

的突显度

为：

CON4、哑元查询请求序列集合

的查询位置序列集

降低用户敏感偏好集

的突显度至预设的安全性阈值ρ以下，即：

其中，

优选地，按照以下方法构建与用户当前位置Lⁱ⁺¹保持安全距离且与用户敏感偏好主题无关的哑元查询请求

知识库的主题层次结构

以及用户敏感偏好主题集H^*；

的配置文件

的配置文件

所述搜索构造的过程同步骤(2-2)。

(3-3)在知识库的主题层次结构

的查询兴趣点

具体条件如下：

所述查询兴趣点与哑元请求

的配置文件

的查询位置

具体条件如下：

所述查询位置与哑元请求

的查询兴趣点

(3-5)将步骤(3-2)构造的哑元查询请求

的配置文件

步骤(3-3)构造的哑元查询请求

的查询兴趣点

步骤(3-4)构造的哑元查询请求

的查询位置

组成哑元查询请求：

上述构件与用户当前位置Lⁱ⁺¹保持安全距离且与用户敏感偏好主题无关的哑元查询请求

的算法可表示为：

算法2：为用户请求Rⁱ⁺¹伪造一个哑元查询请求

(历史序列为R_i＝{R⁰,...,Rⁱ})

输入：

当前用户查询请求Rⁱ⁺¹＝(Tⁱ⁺¹,Pⁱ⁺¹,Lⁱ⁺¹)；知识层次目录H；用户敏感偏好H^*；

用户检索历史序列R_i＝{R⁰,...,Rⁱ}；哑元检索历史序列

输出：对应用户请求的一个哑元请求

01 IF用户当前检索请求的主题偏好相对历史有改变THEN

02获取知识层次目录H的根节点H(同时也是用户位置文件Pⁱ⁺¹的根节点)

03设置

04 END IF

05根据相似性和安全性阈值参数设置d₁和d₂为较小值

06 FOR设置

若T^*规模较小；设置d₁←d₁/2和d₂←2d₂DO

07设置

08设置

09 END FOR

10从候选集合T^*中随机选取一个词条构建哑元词条

11根据相似性和安全性阈值参数设置d₁和d₂为较小值

12 FOR设置

若L^*规模较小；设置d₁←d₁/2和d₂←2d₂DO

13设置

14设置

15 END FOR

16从候选集合L^*中随机选取一个位置作为哑元位置

17 RETURN

算法2将尽可能地为用户当前请求生成一个满足以下条件的哑元请求：(1)位置区域频度特征、查询主题频度特征、配置主题偏好特征以及关联特征与用户请求相似，以实现“真假难辨”效果；(2)与用户位置保持安全距离，且不涉及任何用户敏感偏好主题(包括查询主题无关和配置文件主题无关)，以实现“以假乱真”效果。算法2给了一个求解方案。可以看出，算法2同样采用了“贪婪策略”，即我们并不尝试为找出最优解(即与以上的三个条件匹配程度最好的解)，而是尽可能地找出一个满足三个约束条件的解。在算法2中，由于用户配置文件P相比查询内容和查询位置是相对固定不变的，为此只有当用户配置文件相对历史文件做出改变时，我们才重新构建哑元配置文件，否则将沿用历史哑元配置文件(语句1至4)。然后，算法2为用户查询构建相应哑元查询请求的查询兴趣点(语句5至10)。在该过程中，要求哑元查询主题与用户敏感主题语义无关(语句7)，并且要求构成的当前哑元序列与当前用户序列拥有相似的查询主题特征和查询配置关联特征(语句8)。最后，算法2为用户查询位置构建相应的哑元查询请求的查询位置(语句11至16)。该过程要求哑元位置与用户位置保持安全距离(即语句13)，并且要求加入当前哑元位置后的新哑元序列与用户位置序列拥有高度相似的区域频度特征和查询位置关联特征(语句14)。在算法2中，如果无法获得满足条件的哑元候选集合时(即语句6或语句12的循环条件为假时)，我们将不断地放宽条件约束(即语句6和12的第三个表达式)，直到能获得有效的候选哑元集合。然后，语句10和语句16再从候选哑元集合中，为当前查询和当前位置随机地挑选一个对应的哑元查询和哑元位置。此外，还可以看出，算法2的输出是不确定的，即对于同样的输入，不同的运行会得到不同的结果，因为语句10和16以及SEARCH的语句6都加入了随机操作，这是为了更好的保证安全性。可以看出，算法4.2的计算时间复杂度为O(|P|+|T|+|L|)。

步骤1和步骤2只为用户当前服务请求构造生成一个哑元请求。所以，我们最后简要讨论如何为用户当前请求生成一个哑元请求集合。该问题可以通过让算法4.1(或算法4.2)运行多次(通常需要大于等于安全性阈值ρ)得到解决。结合算法4.1和算法4.2，可以看出最终得到的哑元请求序列集合并不一定能完全满足定义4.13所给出的条件约束。但在算法4.1和算法4.2中，对于每个哑元服务请求的构造，我们都尽力让其符合定义4.2(位置特征相似)、定义4.4(查询特征相似)、定义4.6(偏好特征相似)以及定义4.9(关联特征相似)，也尽力让其符合定义4.13的隐私安全性要求(即查询隐私安全、位置隐私安全和偏好隐私安全)，以确保能最终为用户检索请求序列生成一个较为理想的哑元请求序列集。实际上，后文给出的实验结果表明，我们方案得到的哑元请求序列集合能较好地满足4.13的特征相似性约束和隐私安全性约束，并且在每次哑元请求集的构造中，算法4.1(或算法4.2)的运行次数通常等于安全性阈值参数ρ。

(4)将步骤(2)中构造的哑元查询请求序列

和/或步骤(3)中构造的哑元查询请求序列集

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向个性化信息检索的用户隐私保护方法，其特征在于，包括以下步骤：

(1)获取知识库的主题层次结构

以及用户敏感偏好集H^*；所述知识库的主题层次结构

(2)对于由查询兴趣点T⁰、配置文件P⁰、和查询位置L⁰构成的用户初始查询请求R⁰＝(T⁰，P⁰，L⁰)，采用贪婪算法构造由一系列与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求

组成的哑元查询请求序列

其中

所述哑元查询请求的查询兴趣点

关于查询位置

关于配置文件

的关联性

和用户初始查询请求R⁰的查询兴趣点T⁰关于配置文件P⁰的关联性近似；查询请求R是由查询兴趣点T、配置文件P和查询位置L构成的三元组，记作：R＝<T，P，L>；

(3)对于由查询兴趣点Tⁱ⁺¹、配置文件Pⁱ⁺¹、和查询位置Lⁱ⁺¹构成的当前用户查询请求Rⁱ⁺¹＝(Tⁱ⁺¹，Pⁱ⁺¹，Lⁱ⁺¹)、用户历史请求序列R_i＝{R⁰，...，Rⁱ}，构造由一系列与用户当前位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求

组成的哑元查询请求序列

其中

使得由当前用户查询请求Rⁱ⁺¹与用户历史请求序列R_i组成的当前用户查询请求序列R_i+1＝{R⁰，...，Rⁱ，Rⁱ⁺¹}与用户查询请求关联的哑元查询请求序列

组成的哑元查询请求序列集合

相似性低于预设阈值且使得其查询兴趣点序列集

以及配置文件集

降低用户查询位置的突显度至预设阈值以下；其中

为配置文件集，

查询兴趣点序列集，

查询位置序列集；

(4)将步骤(2)中构造的哑元查询请求序列

和/或步骤(3)中构造的哑元查询请求序列集

2.如权利要求1所述的面向个性化信息检索的用户隐私保护方法，其特征在于，所述查询兴趣点T为知识库的主题层次结构

的某一叶子节点；

所述配置文件P为知识库的主题层次结构

的根子树关联的用户兴趣偏好层次，即保留知识库主题层次结构根节点的子树，其每个节点关联一个用户兴趣偏好值，其中每个节点H∈P的用户兴趣偏好值PR(H，P)为其直接孩子节点的用户兴趣偏好值的算数平均数，即：

PR(H，P)＝∑_H′∈DH(H)PR(H′，P)/|DH(H)|

其中，DH(H)表示主题H的直接孩子集合；

所述查询位置L为用户发布该查询请求时所处的位置单元；位置区域

本身外的任意区域均包含于某个更高层区域。

3.如权利要求1所述的面向个性化信息检索的用户隐私保护方法，其特征在于，步骤(2)构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R^#具体为：

对于用户初始查询请求R⁰＝(T⁰，P⁰，L⁰)，构造哑元查询请求

使得其同时满足：

Con2：配置文件

的与用户初始查询请求的配置文件P⁰的主题偏好特征一致；

Con3：其查询兴趣点

关于其配置文件

的关联性

与用户初始查询请求的查询兴趣点T⁰关于配置文件P⁰的关联性RE(T⁰，P⁰)近似，即

近似即值的差距小于预设的差距阈值；

Con4：其查询兴趣点

关于查询位置

4.如权利要求3所述的面向个性化信息检索的用户隐私保护方法，其特征在于，对于任意两个配置文件P₁和P₂其主题偏好特征一致，即所述两个配置文件的特征相似性sim(P₁，P₂)超过预设的阈值；所述任意两个配置文件P₁和P₂的特征相似性sim(P₁，P₂)计算方法如下：

其中，k为知识库的主题层次结构

其值由系统预先设定，较简单地认为

EJ表示向量间的广义Jaccard相似性；PR_k(P₁)为配置文件P₁的主题偏好向量，PR_k(P₂)为配置文件P₂的主题偏好向量；

对于任意配置文件P，其在知识库的主题层次结构

的层次k上的主题偏好向量PR_k(P)的计算方法如下：

其中：PR(H_i，P)≥PR(H_i+1，P)

其中，

为知识库的主题层次结构

在层次k上的主题集合，H_i为知识库的主题层次结构

的主题，PR(H_i，P)为配置文件P记录的用户对主题H_i的用户偏好值，PR(H_i+1，P)为配置文件P记录的用户对主题H_i+1的用户偏好值；

对于任意查询请求R＝<T，P，L>，其查询兴趣点T关于其配置文件P的关联性RE(T，P)按照如下方法计算：

RE(T，P)＝PR(H^*，P)/HE(H^*)，其中：H^*＝arg min_HHE(H)s.t.H∈P∧T∈H

其中PR(H^*，P)为配置文件记录P记录的用户对主题H^*的用户兴趣偏好值，H^*为配置文件P中包含查询T的层次值最小的主题，HE(H^*)表示H^*的层次值；

对于任意查询请求R＝<T，P，L>，其查询兴趣点T与查询位置的关联值为RE(T，L)为：

5.如权利要求3所述的面向个性化信息检索的用户隐私保护方法，其特征在于，步骤(2)构造一个与用户位置保持安全距离且与用户敏感偏好主题无关的哑元查询请求R^#具体按照以下方法实现：

(2-1)获取初始用户查询请求R⁰＝(T⁰，P⁰，L⁰)、知识库的主题层次结构

以及用户敏感偏好主题集H^*；

的配置文件

的所有查询兴趣点集合

的配置文件

的查询兴趣点

即备选查询兴趣点集合T^*满足：

且

(2-4)对于哑元查询请求

的查询兴趣点

的查询位置

(2-5)将步骤(2-2)构造的哑元查询请求

的配置文件

步骤(2-3)构造的哑元查询请求

的查询兴趣点

步骤(2-4)构造的哑元查询请求

的查询位置

组成哑元查询请求：

6.如权利要求5所述的面向个性化信息检索的用户隐私保护方法，其特征在于，所述搜索构造的过程为：

如果其为叶子节点则：随机构造哑元查询请求

的配置文件

的相应叶子节点H^#，并使得哑元查询请求

的配置文件

的相应叶子节点H^#的用户偏好值与节点H的相同，即：

否则：随机选择H^#的子节点集合，使得H^#的子节点集合大小与H的子节点集合大小相同，并对于H的子节点集合中的每一节点，随机选择哑元H^#的子节点集合中的一节点，进行搜索构造。

7.如权利要求1所述的面向个性化信息检索的用户隐私保护方法，其特征在于，步骤(3)即使得哑元查询请求序列集合

满足以下条件：

CON1、哑元查询请求序列集合

超过预设的综合相似性阈值π，即：

CON2、哑元查询请求序列集合

降低用户敏感偏好集

的突显度至预设的安全性阈值ρ以下，即：

其中，T_i+1为当前用户查询请求序列R_i+1的查询兴趣点序列，

为哑元查询请求序列集合

的查询兴趣点序列集；exp(H^*，{T_i+1})为敏感主题H^*关于当前用户查询请求序列R_i+1的查询兴趣点序列T_i+1的突显度，

为敏感主题H^*关于所有查询兴趣点集合

的突显度；

CON3、哑元查询请求序列集合

的配置文件集

降低用户敏感偏好集

的突显度至预设的安全性阈值ρ以下，即：

其中，P_i+1为当前用户查询请求序列R_i+1的配置文件集合，

为哑元查询请求序列集合

的配置文件集合；exp(H^*，{P_i+1})为敏感主题H^*关于当前用户查询请求序列R_i+1的置文件集合P_i+1的突显度，

为敏感主题H^*关于所有配置文件集合

的突显度；

CON4、哑元查询请求序列集合

的查询位置序列集

降低用户敏感偏好集

的突显度至预设的安全性阈值ρ以下，即：

其中，

8.如权利要求7所述的面向个性化信息检索的用户隐私保护方法，其特征在于，对于任意两个查询请求序列R₁、R₂的综合相似性sim(R₁，R₂)计算方法如下：

sim(R₁，R₂)＝(θ₁·sim(RT(R₁)，RT(R₂))+θ₂·sim(RL(R₁)，RL(R₂)))·(ω₁·sim(P₁，P₂)+ω₂·sim(T₁，T₂)+ω₃·sim(L₁，L₂))

其中θ₁+θ₂＝1，ω₁+ω₂+ω₃＝1为预设的权重值；sim(RT(R₁)，RT(R₂))为查询配置关联向量RT(R₁)和RT(R₂)的特征相似度，sim(RL(R₁)，RL(R₂))为查询位置关联向量RL(R₁)和RL(R₂)的特征相似度，sim(P₁，P₂)为配置文件的特征相似度，sim(T₁，T₂)为查询请求序列的特征相似度，sim(L₁，L₂)为位置序列的特征相似度；

对于给定主题H其关于任意查询兴趣点序列集合