CN110245297A - 一种面向图书关键词搜索的用户主题隐私保护方法及系统 - Google Patents
一种面向图书关键词搜索的用户主题隐私保护方法及系统 Download PDFInfo
- Publication number
- CN110245297A CN110245297A CN201910524394.3A CN201910524394A CN110245297A CN 110245297 A CN110245297 A CN 110245297A CN 201910524394 A CN201910524394 A CN 201910524394A CN 110245297 A CN110245297 A CN 110245297A
- Authority
- CN
- China
- Prior art keywords
- query
- user
- pseudo
- book
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000010276 construction Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims 2
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000007792 addition Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 238000012217 deletion Methods 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6263—Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向图书关键词搜索的用户主题隐私保护方法及系统。所述方法包括(1)获取当前用户查询与用户历史查询序列合成用户查询序列;(2)对用户查询序列构造伪图书查询序列使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;(3)执行伪查询序获得中间图书记录集,在中间图书记录集上由可信端执行当前用户查询,获得结果图书记录集返回给用户。所述系统包括运行在可信客户端,与运行用户界面的客户端、不可信的服务器信号相连,包括:用户查询获取模块、伪查询构造模块、以及结果筛选模块。本发明通过精心修改用户查询序列,在不损害查询准确性的前提下,模糊用户真实图书查询主题,有效保护用户主题隐私安全。
Description
技术领域
本发明属于隐私保护领域,更具体地,涉及一种面向图书关键词搜索的用户主题隐私保护方法及系统。
背景技术
随着互联网的迅速发展,网上文本数据持续爆炸增长,文本搜索服务能根据用户提供的查询关键词,帮助用户从海量文本文档中快速地获取目标数据,已成为最热门的网络信息服务之一。关键字图书搜索服务是指从数字图书数据库中获取包含用户指定关键词的目标图书信息,是数字图书馆最重要和最常见的信息服务之一,也是一类常见的具有代表性的文本搜索服务。
虽然关键字图书搜索服务能帮助用户直观有效地获取非结构图书数据,然而,用户查询本身可能会潜在地泄露用户感兴趣的敏感主题(例如,用户频繁检索刑事心理类图书,则表明用户很可能对“犯罪心理”主题感兴趣)。随着云计算等新网络技术迅速发展,文本搜索服务器正变得越来越不可信。用户查询被不可信服务器端(即检索算法宿主)大量收集,对用户主题隐私安全构成了严重威胁,正引起人们极大关注,如何有效地保护用户隐私安全,例如面向图书关键词搜索的用户主题隐私保护,已成为文本搜索服务亟待解决的重要问题。
为此,针对不可信网络环境下的用户隐私安全问题,信息科学领域学者给出了许多有效方法,代表性地有:隐私加密、掩盖变换、哑元法和匿名化等。①隐私加密是指通过加密变换,使得用户服务请求对服务器端完全不可见,以达到隐私保护的目的,代表性地有隐私信息检索技术。然而,该类技术不仅要求额外硬件和复杂算法的支持,并且要求改变服务器端的信息服务算法,从而引起整个信息服务平台架构的改变,降低了方法的实际可用性。②敏感数据掩盖变换是指通过伪造数据或者使用一般化数据来掩盖涉及用户敏感偏好的服务请求数据。由于改写了用户服务请求数据,该类方法对服务的准确性通常会造成一定负面影响,即其隐私保护需以牺牲服务质量为代价,难以满足文本搜索实际应用需求。③哑元法是在用户服务请求暴露给服务器之前,预先加入哑元服务请求,并将哑元请求和真实请求一起发送给不可信服务器端,使得服务器难以获得用户真实请求数据。然而,这类技术依赖于哑元的构造质量,容易遭受基于数据特征的挖掘威胁,影响用户隐私保护效果。④匿名化技术是用户隐私保护中广泛使用的一种技术,它通过隐藏或伪装用户身份标识信息,允许用户以不暴露身份的方式使用系统。然而,现代数字图书馆提供的图书搜索服务,一般要求用户必须实名登录后才能使用服务,所以,匿名化技术难以有效地应用于现代信息服务平台,以保护用户隐私。
综上所述,可以看出有效的针对数字图书馆平台的图书搜索隐私保护方法,需要满足以下几个方面的要求:①改善用户查询隐私在不可信服务器端的安全性,使得攻击者难以准确获知用户敏感查询主题;②确保用户查询结果的准确性,即对比引入隐私保护方法前后,用户获得的最终查询结果一致;③不损害现有文本搜索服务平台的实用性和高效性,即隐私保护方法不改变服务器端的搜索服务算法,不需要额外硬件支持,也不会对用户服务的执行效率构成显著性影响。然而,现有用户隐私保护技术在实用性、高效性、准确性、安全性等方面仍无法满足现代图书搜索服务的实际应用需求,仍需开发新的面向图书关键词搜索的用户主题隐私保护方法。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种有效的面向图书关键词搜索的用户主题隐私保护方法,其目的在于通过精心修改用户查询序列,在不损害查询准确性的前提下,模糊用户真实图书查询主题,以期在不损害系统可用性和查询准确性的前提下,改善用户查询主题隐私在不可信服务器端的安全性。
为实现上述目的,按照本发明的一个方面,提供了一种1、一种面向图书关键词搜索的用户主题隐私保护方法,其特征在于,包括以下步骤:
(1)获取当前用户查询Pn,与用户历史查询序列P0=(P1,P2,…,Pn-1)组合成用户查询序列P=(P1,P2,…,Pn);
(2)对步骤(1)中获取的用户查询序列P,构造伪图书查询序列P*,使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;即:
其中,@eff(P*,P)为伪图书查询序列P*与用户查询序列P查询高效性,@pri(B*,P*)为伪查询序列P*关于敏感主题B*的主题安全性,为主题安全性阈值,@acc(P*,P)为查询结果准确性;
(3)执行步骤(2)获得的伪查询序列P*中与用户当前查询Pn相应的伪查询获得中间图书记录集在所述中间图书记录集上由可信端执行当前用户查询Pn,获得结果图书记录集Rn返回给用户。
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其所述用户查询Pk,k=1,2,…,n,由若干个中文关键字及其逻辑与或运算构成,记作:wi,i=1,2,…,m为中文关键字, 表示逻辑与运算(∧)或逻辑或运算(∨)。
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪图书查询序列查询结果准确,是指任一用户查询Pk的结果图书记录集Rk包含于执行所述伪图书查询序列中相应伪图书查询所得到的中间图书记录集即所述伪图书查询序列查询结果准确,即查询结果准确性@acc(P*,P)为1,所述伪查询序列的查询结果准确性计算方法如下:
其中,P为用户图书查询序列,P*为伪图书查询序列,Pk为用户图书查询,为其相应的伪图书查询,为伪图书查询的结果准确性,定义如下:
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪图书查询序列隐私安全,是指所述伪图书查询序列P*关于隐私主题B*的主题安全性@pri(B*,P*)超过主题安全性阈值所述伪图书查询序列P*的关于隐私主题B*的主题安全性@pri(B*,P*),按照如下方法计算:
其中,subs(P*)为伪图书查询序列P*对应的可能主题集合,为其包含的所有伪查询对应的可能主题的交集,即:
其中,为伪查询对应的可能主题的集合,计算方法如下:
其中,为伪查询中的中文关键词对应的可能主题集合。
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪图书查询序列P*的查询高效性@eff(P*,P),定义为:
其中,伪查询序列P*与用户查询序列P的长度相同为|P|,Pk为用户查询,与用户查询Pk相应伪查询,为所述伪查询高效性,按照如下方法计算:
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪查询序列按照如下方法构造:采用贪婪策略,对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,…,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列构造当前用户查询Pn对应的伪查询使得所述伪查询与所述伪历史查询序列构成的伪查询序列P*,查询结果准确、隐私安全且查询高效性最高。
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)具体包括以下步骤:
(2-1)对当前用户查询Pn的关键词进行修改,获得修改关键词后的第一查询所述对当前用户查询Pn的关键词进行修改;
(2-2)判断所述第一查询与所述伪历史查询序列构成的第一查询序列是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第一查询作为构造的当前用户查询Pn对应的伪查询将所述第一查询序列作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-3);
(2-3)对第一查询的关键词进行删除,获得删除关键词后的第二查询所述第一查询的关键词进行删除;
(2-4)判断所述第二查询与所述伪历史查询序列构成的第二查询序列是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第二查询作为构造的当前用户查询Pn对应的伪查询将所述第二查询序列作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-5);
(2-5)对第二查询的关键词进行增加,获得的查询作为构造的用户查询Pn对应的伪查询使得所述对第二查询的关键词进行增加具体为:注入新查询关键词获得查询:
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2-1)具体为:
(2-1-1)对当前用户查询的关键词进行排序,记作w1w2…wm,使得:
(2-1-2)按顺序检查各关键词wj,j=1,2,…,m,当 且所述关键词wj存在一个子词同时满足以下条件1、2,则用所述子词替换所述当前用户查询Pn的关键词wj,得到第一查询
条件1:
条件2:
其中,为作为关键词查询结果的数量,nums(wj)为wj作为关键词查询结果的数量。
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2-3)具体为:
(2-3-1)对第一查询的关键词进行排序,记作使得:
(2-3-2)按顺序检查各关键词当 且满足以下条件时,将所述关键词删除,获得第二查询
条件3:
将所述关键词删除具体为:删除该关键词以及其左边或右边的存在的逻辑与运算符(∧);
按照本发明的另一个方面,提供了一种面向图书关键词搜索的用户主题隐私保护系统,运行在可信客户端,与运行用户界面的客户端、不可信的服务器信号相连,包括:
用户查询获取模块、伪查询构造模块、以及结果筛选模块;
所述用户查询获取模块,用户获取当前用户查询Pn,并将所述当前用户查询Pn提交给伪造查询构造模块以及结果筛选模块;
所述伪造查询构造模块,用于存储用户历史查询序列以及伪历史查询序列,并根据所述用户查询获取模块提交的当前用户查询Pn构造当前用户查询Pn相应的伪查询将所述伪查询提交给服务器执行;
所述结果筛选模块,用于获取服务器返回的中间图书记录集并在中间图书记录集上所述用户查询获取模块提交的当前用户查询Pn获得结果图书记录集Rn返回给运行用户界面的客户端。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明提供的面向图书关键词搜索的用户主题隐私保护方法,通过精心修改用户查询序列,在不损害查询准确性的前提下,模糊用户真实图书查询主题,有效保护用户主题隐私安全。本发明提供的面向图书关键词搜索的用户主题隐私保护方法系统,不需要额外增加硬件,不改变用户操作习惯,即可实现可用性强的主题隐私保护。
优选方案,基于启发式搜索策略,通过修改、删除和增加查询关键词,能快速地为用户查询序列构造生成满足隐私模型条件约束的伪查询序列,从而提高。
附图说明
图1是本发明提供的面向图书关键词搜索的用户主题隐私保护系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的面向图书关键词搜索的用户主题隐私保护方法,包括以下步骤:
(1)获取当前用户查询Pn,与用户历史查询序列P0=(P1,P2,…,Pn-1)组合成用户查询序列P=(P1,P2,…,Pn);其中用户查询Pk,k=1,2,…,n,由若干个中文关键字及其逻辑与或运算构成,记作: wi,i=1,2,…,m为中文关键字, 表示逻辑与运算(∧)或逻辑或运算(∨)。
(2)对步骤(1)中获取的用户查询序列P,构造伪图书查询序列P*,使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;即:
其中,@eff(P*,P)为伪图书查询序列P*与用户查询序列P查询高效性,@pri(B*,P*)为伪查询序列P*关于敏感主题B*的主题安全性,为主题安全性阈值,@acc(P*,P)为查询结果准确性。
给定一个用户图书查询序列P,假定B*为P后所蕴含的用户敏感查询主题,假定ω和为用户给定的高效性阈值和安全性阈值,如果与P具有相同长度的伪造图书查询序列P*满足以下三个约束:①查询准确性(@acc(P*,P)=1);②查询高效性(@eff(P*,P)≥ω);③隐私安全性则认为:伪图书查询序列P*能有效地保护用户查询序列P背后所蕴含的主题隐私安全。
所述伪图书查询序列查询结果准确,是指任一用户查询Pk的结果图书记录集Pk包含于执行所述伪图书查询序列中相应伪图书查询所得到的中间图书记录集即所述伪图书查询序列查询结果准确,即查询结果准确性@acc(P*,P)为1,所述伪查询序列的查询结果准确性计算方法如下:
其中,P为用户图书查询序列,P*为伪图书查询序列,Pk为用户图书查询,为其相应的伪图书查询,为伪图书查询的结果准确性,定义如下:
所述伪图书查询序列隐私安全,是指所述伪图书查询序列P*关于隐私主题B*的主题安全性@pri(B*,P*)超过主题安全性阈值所述伪图书查询序列P*的关于隐私主题B*的主题安全性@pri(B*,P*),按照如下方法计算:
其中,subs(P*)为伪图书查询序列P*对应的可能主题集合,为其包含的所有伪查询对应的可能主题的交集,即:
其中,为伪查询对应的可能主题的集合,计算方法如下:
其中,为伪查询中的中文关键词对应的可能主题集合。
用户敏感图书主题是用户图书搜索隐私保护的核心关键,是客户端用户隐私保护方法必须满足的基本性要求。根据前所述的系统架构可知,当服务器端的攻击者无法获知用户真实查询序列P时,他只能通过分析客户端所提交的伪图书查询序列P*来猜测可能的用户敏感图书主题。因此,图书查询序列P*背后蕴含的可能主题越多,则攻击者成功猜测出用户真实敏感主题的可能性也就越低。为此,我们可用P*蕴含的可能主题数量来度量用户主题隐私泄露的风险。
所述伪图书查询序列P*的查询高效性@eff(P*,P),定义为:
其中,伪查询序列P*与用户查询序列P的长度相同为|P|,Pk为用户查询,与用户查询Pk相应伪查询,为所述伪查询高效性,按照如下方法计算:
查询高效性是对运行对客户端用户隐私保护方法的期望性要求,它要求:服务器端通过执行伪查询所得到的中间图书记录集规模,应尽可能接近于通过执行用户查询Pk所得到的目标图书记录集Rk,以减少网络数据传输量,从而改善图书查询的执行效率。同样,查询高效性也是一类相对概念。为此,以下定义查询之间高效性,进而定义查询序列之间高效性。
优选地,所述伪查询序列按照如下方法构造:采用贪婪策略,对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,…,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列构造当前用户查询Pn对应的伪查询使得所述伪查询与所述伪历史查询序列构成的伪查询序列P*,查询结果准确、隐私安全且查询高效性最高。
具体包括以下步骤:
(2-1)对当前用户查询Pn的关键词进行修改,获得修改关键词后的第一查询所述对当前用户查询Pn的关键词进行修改,具体为:
(2-1-1)对当前用户查询的关键词进行排序,记作w1w2…wm,使得:
(2-1-2)按顺序检查各关键词wj,j=1,2,…,m,当 且所述关键词wj存在一个子词同时满足以下条件1、2,则用所述子词替换所述当前用户查询Pn的关键词wj,得到第一查询
条件1:
条件2:
其中,为作为关键词查询结果的数量,nums(wj)为wj作为关键词查询结果的数量。
(2-2)判断所述第一查询与所述伪历史查询序列构成的第一查询序列是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第一查询作为构造的当前用户查询Pn对应的伪查询将所述第一查询序列作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-3);
(2-3)对第一查询的关键词进行删除,获得删除关键词后的第二查询所述第一查询的关键词进行删除,具体为:
(2-3-1)对第一查询的关键词进行排序,记作使得:
(2-3-2)按顺序检查各关键词当 且满足以下条件时,将所述关键词删除,获得第二查询
条件3:
将所述关键词删除具体为:删除该关键词以及其左边或右边的存在的逻辑与运算符(∧);
(2-4)判断所述第二查询与所述伪历史查询序列构成的第二查询序列是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第二查询作为构造的当前用户查询Pn对应的伪查询将所述第二查询序列作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-5);
(2-5)对第二查询的关键词进行增加,获得的查询作为构造的用户查询Pn对应的伪查询使得
所述对第二查询的关键词进行增加具体为:注入新查询关键词获得查询:
对当前用户查询Pn的伪造操作,按照先关键词修改、再关键词删除、最后关键词增加的顺序进行,即:如果关键词修改操作所生成的伪查询使得P和P*已经满足隐私安全性和查询高效性,将不再进行后续的关键词删除和增加操作;否则,如果关键词修改和删除操作所生成伪查询满足安全性和高效性约束,将不再进行后续的关键词增加操作。
(3)执行步骤(2)获得的伪查询序列P*中与用户当前查询Pn相应的伪查询获得中间图书记录集在所述中间图书记录集上由可信端执行当前用户查询Pn,获得结果图书记录集Rn返回给用户。
本发明提供的面向图书关键词搜索的用户主题隐私保护系统,如图1所示,运行在可信客户端,与运行用户界面的客户端、不可信的服务器信号相连,包括:
用户查询获取模块、伪查询构造模块、以及结果筛选模块;
所述用户查询获取模块,用户获取当前用户查询Pn,并将所述当前用户查询Pn提交给伪造查询构造模块以及结果筛选模块;
所述伪造查询构造模块,用于存储用户历史查询序列以及伪历史查询序列,并根据所述用户查询获取模块提交的当前用户查询Pn构造当前用户查询Pn相应的伪查询将所述伪查询提交给服务器执行;
所述结果筛选模块,用于获取服务器返回的中间图书记录集并在中间图书记录集上所述用户查询获取模块提交的当前用户查询Pn获得结果图书记录集Pn返回给运行用户界面的客户端。
以下为实施例:
一种面向图书关键词搜索的用户主题隐私保护方法,利用“中图法图书分类目录”结构来实现以下函数:
1、可能主题函数。任意查询Pk的主题集subs(P)以及查询序列P的主题集subs(P)直接或间接地建立在中文关键词w的可能主题集subs(w)之上。为此,我们预先挑选了图书分类目录中处于次顶层的共209个图书目录(例如B0哲学理论、B1世界哲学、D0政治理论等),组建图书主题空间。然后,我们还预先向学校数字图书馆索取了其收藏图书涉及的标题信息(也可以通过网络爬虫自动爬取),组建图书标题空间,并利用中文分词技术[23]对各个图书标题进行分词,共获得100,000个中文关键词,组建图书关键词空间。由于每本图书都有一个“中图法分类号”属性,借助于它可以将图书标题空间中的每本图书映射为图书主题空间中的一个主题(即获取图书所属的主题),进而以图书标题空间为媒介,获取各关键词所属的可能主题集,即subs(w)。
2、结果评估函数。为了预先估算查询高效性和查询准确性,我们还需要预先确定任意查询P可能结果集的规模,即nums(P)。由于很难事先获知查询结果集的规模,为此,我们借助于预先获取的图书标题信息(图书标题空间)来估算图书关键词空间中的每个关键词wi的结果集规模,即nums(wi)函数值被设定为图书标题空间中包含wi的图书标题数量。然后,对于任意图书查询P,其结果集规模可表示为其包含的各个关键词结果集规模的联合函数,并且与其包含的各个关键词结果集规模正相关(nums(P)∝nums(wi))。为此,图书查询P的结果集规模可预估如下:
图书分类目录是一个树状数据结构,其中,每个节点表示一个图书目录;每个图书目录又包含于某个父目录(根目录除外);树节点层次越高,则图书目录的抽象性越低(通常,包含的图书也就越少)。
对于当前用户查询处理步骤如下:
(1)获取当前用户查询Pn,与用户历史查询序列P0=(P1,P2,…,Pn-1)组合成用户查询序列P=(P1,P2,…,Pn);其中用户查询Pk,k=1,2,…,n,由若干个中文关键字及其逻辑与或运算构成,记作: wi,i=1,2,…,m为中文关键字, 表示逻辑与运算(∧)或逻辑或运算(∨)。
(2)对步骤(1)中获取的用户查询序列P,构造伪图书查询序列P*,使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;即:
其中,@eff(P*,P)为伪图书查询序列P*与用户查询序列P查询高效性,@pri(B*,P*)为伪查询序列P*关于敏感主题B*的主题安全性,为主题安全性阈值,@acc(P*,P)为查询结果准确性。
所述伪图书查询序列查询结果准确,是指任一用户查询Pk的结果图书记录集Rk包含于执行所述伪图书查询序列中相应伪图书查询所得到的中间图书记录集即所述伪图书查询序列查询结果准确,即查询结果准确性@acc(P*,P)为1,所述伪查询序列的查询结果准确性计算方法如下:
其中,P为用户图书查询序列,P*为伪图书查询序列,Pk为用户图书查询,为其相应的伪图书查询,为伪图书查询的结果准确性,定义如下:
所述伪图书查询序列隐私安全,是指所述伪图书查询序列P*关于隐私主题B*的主题安全性@pri(B*,P*)超过主题安全性阈值所述伪图书查询序列P*的关于隐私主题B*的主题安全性@pri(B*,P*),按照如下方法计算:
其中,subs(P*)为伪图书查询序列P*对应的可能主题集合,为其包含的所有伪查询对应的可能主题的交集,即:
其中,为伪查询对应的可能主题的集合,计算方法如下:
其中,为伪查询中的中文关键词对应的可能主题集合。
所述伪图书查询序列P*的查询高效性@eff(P*,P),定义为:
其中,伪查询序列P*与用户查询序列P的长度相同为|P|,Pk为用户查询,与用户查询Pk相应伪查询,为所述伪查询高效性,按照如下方法计算:
所述伪查询序列按照如下方法构造:采用贪婪策略,对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,…,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列构造当前用户查询Pn对应的伪查询使得所述伪查询与所述伪历史查询序列构成的伪查询序列P*,查询结果准确、隐私安全且查询高效性最高。
具体包括以下步骤:
(2-1)对当前用户查询Pn的关键词进行修改,获得修改关键词后的第一查询所述对当前用户查询Pn的关键词进行修改,具体为:
(2-1-1)对当前用户查询的关键词进行排序,记作w1w2…wm,使得:
(2-1-2)按顺序检查各关键词wj,j=1,2,…,m,当 且所述关键词wj存在一个子词同时满足以下条件:
条件1:
条件2:
其中,为作为关键词查询结果的数量,nums(wj)为wj作为关键词查询结果的数量。
则用所述子词替换所述当前用户查询Pn的关键词wj,得到第一查询
(2-2)判断所述第一查询与所述伪历史查询序列构成的第一查询序列是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第一查询作为构造的当前用户查询Pn对应的伪查询将所述第一查询序列作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-3);
(2-3)对第一查询的关键词进行删除,获得删除关键词后的第二查询所述第一查询的关键词进行删除,具体为:
(2-3-1)对第一查询的关键词进行排序,记作使得:
(2-3-2)按顺序检查各关键词当 且满足以下条件时,将所述关键词删除,获得第二查询
条件3:
将所述关键词删除具体为:删除该关键词以及其左边或右边的存在的逻辑与运算符(∧);
(2-4)判断所述第二查询与所述伪历史查询序列构成的第二查询序列是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第二查询作为构造的当前用户查询Pn对应的伪查询将所述第二查询序列作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-5);
(2-5)对第二查询的关键词进行增加,获得的查询作为构造的用户查询Pn对应的伪查询使得
所述对第二查询的关键词进行增加具体为:注入新查询关键词获得查询:
实现算法如下:
(3)执行步骤(2)获得的伪查询序列P*中与用户当前查询Pn相应的伪查询获得中间图书记录集在所述中间图书记录集上由可信端执行当前用户查询Pn,获得结果图书记录集Pn返回给用户。
分析多次运行面向关键词图书搜索服务的当前用户查询伪造算法所构建生成的伪查询序列P*关于用户查询序列P的查询准确性和主题安全性。伪查询序列P*关于用户查询序列P当然满足准确性,当且仅当它包含的各个伪查询关于相应用户查询Pk∈P满足准确性。根据所述算法可知,伪查询由用户查询Pk通过若干次关键词修改、删除和增加操作后生成。为此,以下引入观察1至观察4,以论证对用户查询的关键词修改、删除和增加操作并不影响查询准确性。
观察1对于任意图书查询Pk,对其执行一次关键词删除操作后得到的新查询为则关于Pk满足查询准确性,即(其中Rk和表示满足Pk和的目标图书集)。
说明一次关键词删除操作要求:被删除的关键词wi的左边或右边存在逻辑与运算符。根据逻辑与运算的含义,结合关键词图书查询服务的基本情况,可得出如下结论:满足查询条件Pk的图书必然也满足查询条件即
观察2对于任意图书查询Pk,对其执行一次关键词修改操作后得到的新查询为则关于Pk满足查询准确性,即
说明一次关键词修改操作要求:被修改的关键词wi用其子词替代。因此,包含关键词wi的图书(满足Pk)必然也包含关键词(满足),即
观察3对于任意图书查询Pk,对其执行一次关键词增加操作后得到的新查询为则关于Pk满足查询准确性,即
说明根据定义3.3,图书查询Pk的一次关键词增加操作要求:被增加的一系列新查询关键词通过逻辑或运算符连接查询Pk的原有关键词,构成新查询根据逻辑或运算的含义可知,满足查询条件Pk的图书必然也满足查询条件即
综合以上三个观察,可进一步得知:对于任意图书查询Pk,对其执行若干次查询关键词修改、删除和增加操作,并不会影响查询准确性约束,即基于所述算法构造生成伪图书查询序列必然能满足查询准确性约束。
观察4对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,…,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列(即所述算法的输入),假定P0和之间满足主题安全性,为该算法为Pn构造生成的伪查询(即算法的输出),则新查询序列P0+Pn和之间也满足主题安全性。
说明历史伪查询序列满足主题安全性,即:并且伪查询是该算法对查询Pn进行多次关键词删除、修改和增加后得到,确保:(见算法的语句15)。可知:因此,新查询序列P+Pn满足主题安全性。
观察5对于任意用户查询序列P,若多次运行该算法后为其所构造生成的伪查询序列为P*,则P和P*之间必然满足主题安全性。
说明结合数学归纳法,容易得证(具体过程略)。
不同于哑元构造(攻击者通过特征分析可能获知用户查询本身),在本文方法中,各用户查询经过关键词修改、删除和增加操作,使得提交给服务器的伪查询已经与原查询极大不同,即服务器端攻击者不可能获知用户真实查询;也不同于掩盖变换(其隐私保护需以牺牲准确性为代价),在本文方法中,查询伪造建立在三类基本操作基础上(已证明并不影响查询准确性),因此,其隐私保护不需牺牲查询准确性。
现有用户隐私保护技术在实用性、高效性、准确性、安全性等方面仍无法满足现代图书搜索服务的实际应用需求。具体地,①隐私加密技术不仅需要额外硬件和复杂算法支持,而且需要改变服务器端的服务算法,降低了方法的实际可用性;②掩盖变换技术会对服务准确性造成一定的负面影响,其隐私保护需以牺牲服务质量为代价;③哑元构造法依赖于哑元的构造质量,容易遭受基于数据特征的挖掘威胁,影响用户隐私保护效果;④匿名化技术需要改变现有平台的框架结构,导致较差的实际可用性。这些问题在本文方法中都得到了较好的解决。表1给出了本文方法与已有方法的定性比较。从表1可以看出:在安全性、准确性、高效性和可用性上,相比于已有方法,本发明提供的方法拥有更好的综合性能。
表1方法有效性定性比较
比较方法 | 隐私安全性 | 服务准确性 | 服务高效性 | 实际可用性 |
本文方法 | 好 | 好 | 一般 | 好 |
隐私加密 | 好 | 好 | 好 | 不好 |
掩盖变化 | 一般 | 不好 | 好 | 好 |
匿名化法 | 好 | 好 | 好 | 不好 |
哑元构造 | 一般 | 好 | 一般 | 好 |
针对基于关键词的图书搜索服务,本发明提出通过精心修改用户查询序列,在不损害查询准确性的前提下,模糊用户真实图书查询主题,以保护用户主题隐私。理论分析和实验评估验证了本文方法的实际有效性,即能在不损害图书搜索服务实用性和查询准确性的前提下,有效改善用户查询主题隐私在不可信服务器端的安全性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种面向图书关键词搜索的用户主题隐私保护方法,其特征在于,包括以下步骤:
(1)获取当前用户查询Pn,与用户历史查询序列P0=(P1,P2,…,Pn-1)组合成用户查询序列P=(P1,P2,…,Pn);
(2)对步骤(1)中获取的用户查询序列P,构造伪图书查询序列P*,使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;即:
其中,@eff(P*,P)为伪图书查询序列P*与用户查询序列P查询高效性,@pri(B*,P*)为伪查询序列P*关于敏感主题B*的主题安全性,为主题安全性阈值,@acc(P*,P)为查询结果准确性;
(3)执行步骤(2)获得的伪查询序列P*中与用户当前查询Pn相应的伪查询获得中间图书记录集在所述中间图书记录集上由可信端执行当前用户查询Pn,获得结果图书记录集Rn返回给用户。
2.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,所述用户查询Pk,k=1,2,…,n,由若干个中文关键字及其逻辑与或运算构成,记作:为中文关键字,表示逻辑与运算(∧)或逻辑或运算(∨)。
3.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪图书查询序列查询结果准确,是指任一用户查询Pk的结果图书记录集Rk包含于执行所述伪图书查询序列中相应伪图书查询所得到的中间图书记录集即所述伪图书查询序列查询结果准确,即查询结果准确性@acc(P*,P)为1,所述伪查询序列的查询结果准确性计算方法如下:
其中,P为用户图书查询序列,P*为伪图书查询序列,Pk为用户图书查询,为其相应的伪图书查询,为伪图书查询的结果准确性,定义如下:
4.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪图书查询序列隐私安全,是指所述伪图书查询序列P*关于隐私主题B*的主题安全性@pri(B*,P*)超过主题安全性阈值所述伪图书查询序列P*的关于隐私主题B*的主题安全性@pri(B*,P*),按照如下方法计算:
其中,subs(P*)为伪图书查询序列P*对应的可能主题集合,为其包含的所有伪查询对应的可能主题的交集,即:
其中,为伪查询对应的可能主题的集合,计算方法如下:
其中,为伪查询中的中文关键词对应的可能主题集合。
5.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪图书查询序列P*的查询高效性@eff(P*,P),定义为:
其中,伪查询序列P*与用户查询序列P的长度相同为|P|,Pk为用户查询,与用户查询Pk相应伪查询,为所述伪查询高效性,按照如下方法计算:
6.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪查询序列按照如下方法构造:采用贪婪策略,对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,…,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列构造当前用户查询Pn对应的伪查询使得所述伪查询与所述伪历史查询序列构成的伪查询序列P*,查询结果准确、隐私安全且查询高效性最高。
7.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)具体包括以下步骤:
(2-1)对当前用户查询Pn的关键词进行修改,获得修改关键词后的第一查询所述对当前用户查询Pn的关键词进行修改;
(2-2)判断所述第一查询与所述伪历史查询序列构成的第一查询序列是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第一查询作为构造的当前用户查询Pn对应的伪查询将所述第一查询序列作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-3);
(2-3)对第一查询的关键词进行删除,获得删除关键词后的第二查询所述第一查询的关键词进行删除;
(2-4)判断所述第二查询与所述伪历史查询序列构成的第二查询序列是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第二查询作为构造的当前用户查询Pn对应的伪查询将所述第二查询序列作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-5);
(2-5)对第二查询的关键词进行增加,获得的查询作为构造的用户查询Pn对应的伪查询使得所述对第二查询的关键词进行增加具体为:注入新查询关键词获得查询:
8.如权利要求7所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2-1)具体为:
(2-1-1)对当前用户查询的关键词进行排序,记作w1w2…wm,使得:
(2-1-2)按顺序检查各关键词wj,j=1,2,…,m,当 且所述关键词wj存在一个子词同时满足以下条件1、2,则用所述子词替换所述当前用户查询Pn的关键词wj,得到第一查询
条件1:
条件2:
其中,为作为关键词查询结果的数量,nums(wj)为wj作为关键词查询结果的数量。
9.如权利要求7所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2-3)具体为:
(2-3-1)对第一查询的关键词进行排序,记作使得:
(2-3-2)按顺序检查各关键词当 且满足以下条件时,将所述关键词删除,获得第二查询
条件3:
将所述关键词删除具体为:删除该关键词以及其左边或右边的存在的逻辑与运算符(∧)。
10.一种面向图书关键词搜索的用户主题隐私保护系统,其特征在于,运行在可信客户端,与运行用户界面的客户端、不可信的服务器信号相连,包括:
用户查询获取模块、伪查询构造模块、以及结果筛选模块;
所述用户查询获取模块,用户获取当前用户查询Pn,并将所述当前用户查询Pn提交给伪造查询构造模块以及结果筛选模块;
所述伪造查询构造模块,用于存储用户历史查询序列以及伪历史查询序列,并根据所述用户查询获取模块提交的当前用户查询Pn构造当前用户查询Pn相应的伪查询将所述伪查询提交给服务器执行;
所述结果筛选模块,用于获取服务器返回的中间图书记录集并在中间图书记录集上所述用户查询获取模块提交的当前用户查询Pn获得结果图书记录集Rn返回给运行用户界面的客户端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524394.3A CN110245297B (zh) | 2019-06-18 | 2019-06-18 | 一种面向图书关键词搜索的用户主题隐私保护方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910524394.3A CN110245297B (zh) | 2019-06-18 | 2019-06-18 | 一种面向图书关键词搜索的用户主题隐私保护方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110245297A true CN110245297A (zh) | 2019-09-17 |
CN110245297B CN110245297B (zh) | 2020-05-19 |
Family
ID=67887660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910524394.3A Active CN110245297B (zh) | 2019-06-18 | 2019-06-18 | 一种面向图书关键词搜索的用户主题隐私保护方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110245297B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125747A (zh) * | 2019-10-22 | 2020-05-08 | 绍兴文理学院 | 一种商务网站用户的商品浏览隐私保护方法及系统 |
CN112084411A (zh) * | 2020-09-10 | 2020-12-15 | 绍兴文理学院 | 一种面向个性化信息检索的用户隐私保护方法 |
CN112765670A (zh) * | 2021-02-03 | 2021-05-07 | 浙江机电职业技术学院 | 一种基于标识替换的用户信息服务隐私保护方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292189A (zh) * | 2017-05-15 | 2017-10-24 | 温州大学瓯江学院 | 面向文本检索服务的用户隐私保护方法 |
CN108664808A (zh) * | 2018-04-27 | 2018-10-16 | 温州大学瓯江学院 | 一种面向图书搜索服务的用户敏感主题保护方法及系统 |
CN109359480A (zh) * | 2018-10-08 | 2019-02-19 | 温州大学瓯江学院 | 一种面向数字图书馆的用户隐私保护方法及系统 |
-
2019
- 2019-06-18 CN CN201910524394.3A patent/CN110245297B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292189A (zh) * | 2017-05-15 | 2017-10-24 | 温州大学瓯江学院 | 面向文本检索服务的用户隐私保护方法 |
CN108664808A (zh) * | 2018-04-27 | 2018-10-16 | 温州大学瓯江学院 | 一种面向图书搜索服务的用户敏感主题保护方法及系统 |
CN109359480A (zh) * | 2018-10-08 | 2019-02-19 | 温州大学瓯江学院 | 一种面向数字图书馆的用户隐私保护方法及系统 |
Non-Patent Citations (1)
Title |
---|
ZONGDA WU等: "A User Sensitive Subject Protection Approach for Book Search Service", 《JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125747A (zh) * | 2019-10-22 | 2020-05-08 | 绍兴文理学院 | 一种商务网站用户的商品浏览隐私保护方法及系统 |
CN112084411A (zh) * | 2020-09-10 | 2020-12-15 | 绍兴文理学院 | 一种面向个性化信息检索的用户隐私保护方法 |
CN112084411B (zh) * | 2020-09-10 | 2021-04-20 | 绍兴文理学院 | 一种面向个性化信息检索的用户隐私保护方法 |
CN112765670A (zh) * | 2021-02-03 | 2021-05-07 | 浙江机电职业技术学院 | 一种基于标识替换的用户信息服务隐私保护方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110245297B (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pacheco et al. | Uncovering coordinated networks on social media: methods and case studies | |
US7886359B2 (en) | Method and apparatus to report policy violations in messages | |
Hadjidj et al. | Towards an integrated e-mail forensic analysis framework | |
US7996385B2 (en) | Method and apparatus to define the scope of a search for information from a tabular data source | |
KR101852107B1 (ko) | 다크웹 범죄정보 분석 시스템 및 그 방법 | |
Urvoy et al. | Tracking web spam with html style similarities | |
CN110245297B (zh) | 一种面向图书关键词搜索的用户主题隐私保护方法及系统 | |
CN109117669B (zh) | MapReduce相似连接查询的隐私保护方法及系统 | |
Zhang et al. | Web phishing detection based on page spatial layout similarity | |
Middleton et al. | Geoparsing and geosemantics for social media: Spatiotemporal grounding of content propagating rumors to support trust and veracity analysis during breaking news | |
Zhou et al. | CTI view: APT threat intelligence analysis system | |
CN106021351A (zh) | 针对新闻事件的聚合提取方法及装置 | |
JP2005539334A (ja) | 事前選択されたデータに関し探索可能な情報コンテンツ | |
CN106326317A (zh) | 数据处理方法及装置 | |
CN108664808B (zh) | 一种面向图书搜索服务的用户敏感主题保护方法及系统 | |
Yang et al. | Hadoop-based dark web threat intelligence analysis framework | |
Best | Open source intelligence | |
CN117331975A (zh) | 数据处理任务执行方法、装置、计算机设备和存储介质 | |
Beneventano et al. | BLAST2: An efficient technique for loose schema information extraction from heterogeneous big data sources | |
Carpineto et al. | Kθ-affinity privacy: Releasing infrequent query refinements safely | |
CN115470489A (zh) | 检测模型训练方法、检测方法、设备以及计算机可读介质 | |
Zhang et al. | ESCNet: Entity-enhanced and Stance Checking Network for Multi-modal Fact-Checking | |
CN114880540A (zh) | 一种基于智慧金融文本评论的智能提醒方法 | |
CN110232157B (zh) | 一种基于内容的隐私保护图书推荐方法及系统 | |
Wang et al. | Achieve web search privacy by obfuscation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |