CN110245297B - 一种面向图书关键词搜索的用户主题隐私保护方法及系统 - Google Patents

一种面向图书关键词搜索的用户主题隐私保护方法及系统 Download PDF

Info

Publication number
CN110245297B
CN110245297B CN201910524394.3A CN201910524394A CN110245297B CN 110245297 B CN110245297 B CN 110245297B CN 201910524394 A CN201910524394 A CN 201910524394A CN 110245297 B CN110245297 B CN 110245297B
Authority
CN
China
Prior art keywords
query
pseudo
user
book
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910524394.3A
Other languages
English (en)
Other versions
CN110245297A (zh
Inventor
吴宗大
刘曦洋
谢坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shaoxing
Original Assignee
University of Shaoxing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shaoxing filed Critical University of Shaoxing
Priority to CN201910524394.3A priority Critical patent/CN110245297B/zh
Publication of CN110245297A publication Critical patent/CN110245297A/zh
Application granted granted Critical
Publication of CN110245297B publication Critical patent/CN110245297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies

Abstract

本发明公开了一种面向图书关键词搜索的用户主题隐私保护方法及系统。所述方法包括(1)获取当前用户查询与用户历史查询序列合成用户查询序列;(2)对用户查询序列构造伪图书查询序列使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;(3)执行伪查询序获得中间图书记录集,在中间图书记录集上由可信端执行当前用户查询,获得结果图书记录集返回给用户。所述系统包括运行在可信客户端,与运行用户界面的客户端、不可信的服务器信号相连,包括:用户查询获取模块、伪查询构造模块、以及结果筛选模块。本发明通过精心修改用户查询序列,在不损害查询准确性的前提下,模糊用户真实图书查询主题,有效保护用户主题隐私安全。

Description

一种面向图书关键词搜索的用户主题隐私保护方法及系统
技术领域
本发明属于隐私保护领域,更具体地,涉及一种面向图书关键词搜索的用户主题隐私保护方法及系统。
背景技术
随着互联网的迅速发展,网上文本数据持续爆炸增长,文本搜索服务能根据用户提供的查询关键词,帮助用户从海量文本文档中快速地获取目标数据,已成为最热门的网络信息服务之一。关键字图书搜索服务是指从数字图书数据库中获取包含用户指定关键词的目标图书信息,是数字图书馆最重要和最常见的信息服务之一,也是一类常见的具有代表性的文本搜索服务。
虽然关键字图书搜索服务能帮助用户直观有效地获取非结构图书数据,然而,用户查询本身可能会潜在地泄露用户感兴趣的敏感主题(例如,用户频繁检索刑事心理类图书,则表明用户很可能对“犯罪心理”主题感兴趣)。随着云计算等新网络技术迅速发展,文本搜索服务器正变得越来越不可信。用户查询被不可信服务器端(即检索算法宿主)大量收集,对用户主题隐私安全构成了严重威胁,正引起人们极大关注,如何有效地保护用户隐私安全,例如面向图书关键词搜索的用户主题隐私保护,已成为文本搜索服务亟待解决的重要问题。
为此,针对不可信网络环境下的用户隐私安全问题,信息科学领域学者给出了许多有效方法,代表性地有:隐私加密、掩盖变换、哑元法和匿名化等。①隐私加密是指通过加密变换,使得用户服务请求对服务器端完全不可见,以达到隐私保护的目的,代表性地有隐私信息检索技术。然而,该类技术不仅要求额外硬件和复杂算法的支持,并且要求改变服务器端的信息服务算法,从而引起整个信息服务平台架构的改变,降低了方法的实际可用性。②敏感数据掩盖变换是指通过伪造数据或者使用一般化数据来掩盖涉及用户敏感偏好的服务请求数据。由于改写了用户服务请求数据,该类方法对服务的准确性通常会造成一定负面影响,即其隐私保护需以牺牲服务质量为代价,难以满足文本搜索实际应用需求。③哑元法是在用户服务请求暴露给服务器之前,预先加入哑元服务请求,并将哑元请求和真实请求一起发送给不可信服务器端,使得服务器难以获得用户真实请求数据。然而,这类技术依赖于哑元的构造质量,容易遭受基于数据特征的挖掘威胁,影响用户隐私保护效果。④匿名化技术是用户隐私保护中广泛使用的一种技术,它通过隐藏或伪装用户身份标识信息,允许用户以不暴露身份的方式使用系统。然而,现代数字图书馆提供的图书搜索服务,一般要求用户必须实名登录后才能使用服务,所以,匿名化技术难以有效地应用于现代信息服务平台,以保护用户隐私。
综上所述,可以看出有效的针对数字图书馆平台的图书搜索隐私保护方法,需要满足以下几个方面的要求:①改善用户查询隐私在不可信服务器端的安全性,使得攻击者难以准确获知用户敏感查询主题;②确保用户查询结果的准确性,即对比引入隐私保护方法前后,用户获得的最终查询结果一致;③不损害现有文本搜索服务平台的实用性和高效性,即隐私保护方法不改变服务器端的搜索服务算法,不需要额外硬件支持,也不会对用户服务的执行效率构成显著性影响。然而,现有用户隐私保护技术在实用性、高效性、准确性、安全性等方面仍无法满足现代图书搜索服务的实际应用需求,仍需开发新的面向图书关键词搜索的用户主题隐私保护方法。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种有效的面向图书关键词搜索的用户主题隐私保护方法,其目的在于通过精心修改用户查询序列,在不损害查询准确性的前提下,模糊用户真实图书查询主题,以期在不损害系统可用性和查询准确性的前提下,改善用户查询主题隐私在不可信服务器端的安全性。
为实现上述目的,按照本发明的一个方面,提供了一种1、一种面向图书关键词搜索的用户主题隐私保护方法,其特征在于,包括以下步骤:
(1)获取当前用户查询Pn,与用户历史查询序列P0=(P1,P2,…,Pn-1)组合成用户查询序列P=(P1,P2,…,Pn);
(2)对步骤(1)中获取的用户查询序列P,构造伪图书查询序列P*,使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;即:
Figure BDA0002097700940000031
其中,@eff(P*,P)为伪图书查询序列P*与用户查询序列P查询高效性,@pri(B*,P*)为伪查询序列P*关于敏感主题B*的主题安全性,
Figure BDA0002097700940000032
为主题安全性阈值,@acc(P*,P)为查询结果准确性;
(3)执行步骤(2)获得的伪查询序列P*中与用户当前查询Pn相应的伪查询
Figure BDA0002097700940000033
获得中间图书记录集
Figure BDA0002097700940000034
在所述中间图书记录集
Figure BDA0002097700940000035
上由可信端执行当前用户查询Pn,获得结果图书记录集Rn返回给用户。
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其所述用户查询Pk,k=1,2,…,n,由若干个中文关键字及其逻辑与或运算构成,记作:
Figure BDA0002097700940000036
wi,i=1,2,…,m为中文关键字,
Figure BDA0002097700940000037
Figure BDA0002097700940000038
表示逻辑与运算(∧)或逻辑或运算(∨)。
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪图书查询序列查询结果准确,是指任一用户查询Pk的结果图书记录集Rk包含于执行所述伪图书查询序列中相应伪图书查询
Figure BDA0002097700940000039
所得到的中间图书记录集
Figure BDA00020977009400000310
Figure BDA00020977009400000311
所述伪图书查询序列查询结果准确,即查询结果准确性@acc(P*,P)为1,所述伪查询序列的查询结果准确性计算方法如下:
Figure BDA0002097700940000041
其中,P为用户图书查询序列,P*为伪图书查询序列,Pk为用户图书查询,
Figure BDA0002097700940000042
为其相应的伪图书查询,
Figure BDA0002097700940000043
为伪图书查询的结果准确性,定义如下:
Figure BDA0002097700940000044
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪图书查询序列隐私安全,是指所述伪图书查询序列P*关于隐私主题B*的主题安全性@pri(B*,P*)超过主题安全性阈值
Figure BDA0002097700940000045
所述伪图书查询序列P*的关于隐私主题B*的主题安全性@pri(B*,P*),按照如下方法计算:
Figure BDA0002097700940000046
其中,subs(P*)为伪图书查询序列P*对应的可能主题集合,为其包含的所有伪查询
Figure BDA0002097700940000047
对应的可能主题的交集,即:
Figure BDA0002097700940000048
其中,
Figure BDA0002097700940000049
为伪查询
Figure BDA00020977009400000410
对应的可能主题的集合,计算方法如下:
Figure BDA00020977009400000411
其中,
Figure BDA00020977009400000412
为伪查询
Figure BDA00020977009400000413
中的中文关键词
Figure BDA00020977009400000414
对应的可能主题集合。
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪图书查询序列P*的查询高效性@eff(P*,P),定义为:
Figure BDA00020977009400000415
其中,伪查询序列P*与用户查询序列P的长度相同为|P|,Pk为用户查询,
Figure BDA00020977009400000416
与用户查询Pk相应伪查询,
Figure BDA0002097700940000051
为所述伪查询高效性,按照如下方法计算:
Figure BDA0002097700940000052
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)所述伪查询序列按照如下方法构造:采用贪婪策略,对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,…,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列
Figure BDA0002097700940000053
构造当前用户查询Pn对应的伪查询
Figure BDA0002097700940000054
使得所述伪查询
Figure BDA0002097700940000055
与所述伪历史查询序列
Figure BDA0002097700940000056
构成的伪查询序列P*,查询结果准确、隐私安全且查询高效性最高。
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2)具体包括以下步骤:
(2-1)对当前用户查询Pn的关键词进行修改,获得修改关键词后的第一查询
Figure BDA0002097700940000057
所述对当前用户查询Pn的关键词进行修改;
(2-2)判断所述第一查询
Figure BDA0002097700940000058
与所述伪历史查询序列
Figure BDA0002097700940000059
构成的第一查询序列
Figure BDA00020977009400000510
是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第一查询
Figure BDA00020977009400000511
作为构造的当前用户查询Pn对应的伪查询
Figure BDA00020977009400000512
将所述第一查询序列
Figure BDA00020977009400000513
作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-3);
(2-3)对第一查询
Figure BDA00020977009400000514
的关键词进行删除,获得删除关键词后的第二查询
Figure BDA00020977009400000515
所述第一查询
Figure BDA00020977009400000516
的关键词进行删除;
(2-4)判断所述第二查询
Figure BDA00020977009400000517
与所述伪历史查询序列
Figure BDA00020977009400000518
构成的第二查询序列
Figure BDA00020977009400000519
是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第二查询
Figure BDA00020977009400000520
作为构造的当前用户查询Pn对应的伪查询
Figure BDA00020977009400000521
将所述第二查询序列
Figure BDA00020977009400000522
作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-5);
(2-5)对第二查询
Figure BDA00020977009400000523
的关键词进行增加,获得的查询作为构造的用户查询Pn对应的伪查询
Figure BDA0002097700940000061
使得
Figure BDA0002097700940000062
所述对第二查询
Figure BDA0002097700940000063
的关键词进行增加具体为:注入新查询关键词
Figure BDA0002097700940000064
获得查询:
Figure BDA0002097700940000065
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2-1)具体为:
(2-1-1)对当前用户查询
Figure BDA0002097700940000066
的关键词进行排序,记作w1w2…wm,使得:
Figure BDA0002097700940000067
(2-1-2)按顺序检查各关键词wj,j=1,2,…,m,当
Figure BDA0002097700940000068
Figure BDA0002097700940000069
且所述关键词wj存在一个子词
Figure BDA00020977009400000610
同时满足以下条件1、2,则用所述子词
Figure BDA00020977009400000611
替换所述当前用户查询Pn的关键词wj,得到第一查询
Figure BDA00020977009400000612
条件1:
Figure BDA00020977009400000613
条件2:
Figure BDA00020977009400000614
Figure BDA00020977009400000615
其中,
Figure BDA00020977009400000616
Figure BDA00020977009400000617
作为关键词查询结果的数量,nums(wj)为wj作为关键词查询结果的数量。
优选地,所述面向图书关键词搜索的用户主题隐私保护方法,其步骤(2-3)具体为:
(2-3-1)对第一查询
Figure BDA00020977009400000618
的关键词进行排序,记作
Figure BDA00020977009400000619
使得:
Figure BDA00020977009400000620
(2-3-2)按顺序检查各关键词
Figure BDA00020977009400000621
Figure BDA00020977009400000625
Figure BDA00020977009400000622
且满足以下条件时,将所述关键词
Figure BDA00020977009400000623
删除,获得第二查询
Figure BDA00020977009400000624
条件3:
Figure BDA0002097700940000071
Figure BDA0002097700940000072
将所述关键词删除具体为:删除该关键词
Figure BDA0002097700940000073
以及其左边或右边的存在的逻辑与运算符(∧);
按照本发明的另一个方面,提供了一种面向图书关键词搜索的用户主题隐私保护系统,运行在可信客户端,与运行用户界面的客户端、不可信的服务器信号相连,包括:
用户查询获取模块、伪查询构造模块、以及结果筛选模块;
所述用户查询获取模块,用户获取当前用户查询Pn,并将所述当前用户查询Pn提交给伪造查询构造模块以及结果筛选模块;
所述伪造查询构造模块,用于存储用户历史查询序列以及伪历史查询序列,并根据所述用户查询获取模块提交的当前用户查询Pn构造当前用户查询Pn相应的伪查询
Figure BDA0002097700940000074
将所述伪查询
Figure BDA0002097700940000075
提交给服务器执行;
所述结果筛选模块,用于获取服务器返回的中间图书记录集
Figure BDA0002097700940000076
并在中间图书记录集
Figure BDA0002097700940000077
上所述用户查询获取模块提交的当前用户查询Pn获得结果图书记录集Rn返回给运行用户界面的客户端。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明提供的面向图书关键词搜索的用户主题隐私保护方法,通过精心修改用户查询序列,在不损害查询准确性的前提下,模糊用户真实图书查询主题,有效保护用户主题隐私安全。本发明提供的面向图书关键词搜索的用户主题隐私保护方法系统,不需要额外增加硬件,不改变用户操作习惯,即可实现可用性强的主题隐私保护。
优选方案,基于启发式搜索策略,通过修改、删除和增加查询关键词,能快速地为用户查询序列构造生成满足隐私模型条件约束的伪查询序列,从而提高。
附图说明
图1是本发明提供的面向图书关键词搜索的用户主题隐私保护系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的面向图书关键词搜索的用户主题隐私保护方法,包括以下步骤:
(1)获取当前用户查询Pn,与用户历史查询序列P0=(P1,P2,…,Pn-1)组合成用户查询序列P=(P1,P2,…,Pn);其中用户查询Pk,k=1,2,…,n,由若干个中文关键字及其逻辑与或运算构成,记作:
Figure BDA0002097700940000081
Figure BDA0002097700940000082
wi,i=1,2,…,m为中文关键字,
Figure BDA0002097700940000083
Figure BDA0002097700940000084
表示逻辑与运算(∧)或逻辑或运算(∨)。
(2)对步骤(1)中获取的用户查询序列P,构造伪图书查询序列P*,使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;即:
Figure BDA0002097700940000085
其中,@eff(P*,P)为伪图书查询序列P*与用户查询序列P查询高效性,@pri(B*,P*)为伪查询序列P*关于敏感主题B*的主题安全性,
Figure BDA0002097700940000086
为主题安全性阈值,@acc(P*,P)为查询结果准确性。
给定一个用户图书查询序列P,假定B*为P后所蕴含的用户敏感查询主题,假定ω和
Figure BDA0002097700940000087
为用户给定的高效性阈值和安全性阈值,如果与P具有相同长度的伪造图书查询序列P*满足以下三个约束:①查询准确性(@acc(P*,P)=1);②查询高效性(@eff(P*,P)≥ω);③隐私安全性
Figure BDA0002097700940000091
则认为:伪图书查询序列P*能有效地保护用户查询序列P背后所蕴含的主题隐私安全。
所述伪图书查询序列查询结果准确,是指任一用户查询Pk的结果图书记录集Pk包含于执行所述伪图书查询序列中相应伪图书查询
Figure BDA0002097700940000092
所得到的中间图书记录集
Figure BDA0002097700940000093
Figure BDA0002097700940000094
所述伪图书查询序列查询结果准确,即查询结果准确性@acc(P*,P)为1,所述伪查询序列的查询结果准确性计算方法如下:
Figure BDA0002097700940000095
其中,P为用户图书查询序列,P*为伪图书查询序列,Pk为用户图书查询,
Figure BDA0002097700940000096
为其相应的伪图书查询,
Figure BDA0002097700940000097
为伪图书查询的结果准确性,定义如下:
Figure BDA0002097700940000098
所述伪图书查询序列隐私安全,是指所述伪图书查询序列P*关于隐私主题B*的主题安全性@pri(B*,P*)超过主题安全性阈值
Figure BDA0002097700940000099
所述伪图书查询序列P*的关于隐私主题B*的主题安全性@pri(B*,P*),按照如下方法计算:
Figure BDA00020977009400000910
其中,subs(P*)为伪图书查询序列P*对应的可能主题集合,为其包含的所有伪查询
Figure BDA00020977009400000911
对应的可能主题的交集,即:
Figure BDA00020977009400000912
其中,
Figure BDA00020977009400000913
为伪查询
Figure BDA00020977009400000914
对应的可能主题的集合,计算方法如下:
Figure BDA00020977009400000915
其中,
Figure BDA0002097700940000101
为伪查询
Figure BDA0002097700940000102
中的中文关键词
Figure BDA0002097700940000103
对应的可能主题集合。
用户敏感图书主题是用户图书搜索隐私保护的核心关键,是客户端用户隐私保护方法必须满足的基本性要求。根据前所述的系统架构可知,当服务器端的攻击者无法获知用户真实查询序列P时,他只能通过分析客户端所提交的伪图书查询序列P*来猜测可能的用户敏感图书主题。因此,图书查询序列P*背后蕴含的可能主题越多,则攻击者成功猜测出用户真实敏感主题的可能性也就越低。为此,我们可用P*蕴含的可能主题数量来度量用户主题隐私泄露的风险。
所述伪图书查询序列P*的查询高效性@eff(P*,P),定义为:
Figure BDA0002097700940000104
其中,伪查询序列P*与用户查询序列P的长度相同为|P|,Pk为用户查询,
Figure BDA0002097700940000105
与用户查询Pk相应伪查询,
Figure BDA0002097700940000106
为所述伪查询高效性,按照如下方法计算:
Figure BDA0002097700940000107
查询高效性是对运行对客户端用户隐私保护方法的期望性要求,它要求:服务器端通过执行伪查询
Figure BDA0002097700940000108
所得到的中间图书记录集
Figure BDA0002097700940000109
规模,应尽可能接近于通过执行用户查询Pk所得到的目标图书记录集Rk,以减少网络数据传输量,从而改善图书查询的执行效率。同样,查询高效性也是一类相对概念。为此,以下定义查询之间高效性,进而定义查询序列之间高效性。
优选地,所述伪查询序列按照如下方法构造:采用贪婪策略,对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,…,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列
Figure BDA00020977009400001010
构造当前用户查询Pn对应的伪查询
Figure BDA00020977009400001011
使得所述伪查询
Figure BDA00020977009400001012
与所述伪历史查询序列
Figure BDA00020977009400001013
构成的伪查询序列P*,查询结果准确、隐私安全且查询高效性最高。
具体包括以下步骤:
(2-1)对当前用户查询Pn的关键词进行修改,获得修改关键词后的第一查询
Figure BDA0002097700940000111
所述对当前用户查询Pn的关键词进行修改,具体为:
(2-1-1)对当前用户查询
Figure BDA0002097700940000112
的关键词进行排序,记作w1w2…wm,使得:
Figure BDA0002097700940000113
(2-1-2)按顺序检查各关键词wj,j=1,2,…,m,当
Figure BDA0002097700940000114
Figure BDA0002097700940000115
且所述关键词wj存在一个子词
Figure BDA0002097700940000116
同时满足以下条件1、2,则用所述子词
Figure BDA0002097700940000117
替换所述当前用户查询Pn的关键词wj,得到第一查询
Figure BDA0002097700940000118
条件1:
Figure BDA0002097700940000119
条件2:
Figure BDA00020977009400001110
Figure BDA00020977009400001111
其中,
Figure BDA00020977009400001112
Figure BDA00020977009400001113
作为关键词查询结果的数量,nums(wj)为wj作为关键词查询结果的数量。
(2-2)判断所述第一查询
Figure BDA00020977009400001114
与所述伪历史查询序列
Figure BDA00020977009400001115
构成的第一查询序列
Figure BDA00020977009400001116
是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第一查询
Figure BDA00020977009400001117
作为构造的当前用户查询Pn对应的伪查询
Figure BDA00020977009400001118
将所述第一查询序列
Figure BDA00020977009400001119
作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-3);
(2-3)对第一查询
Figure BDA00020977009400001120
的关键词进行删除,获得删除关键词后的第二查询
Figure BDA00020977009400001121
所述第一查询
Figure BDA00020977009400001122
的关键词进行删除,具体为:
(2-3-1)对第一查询
Figure BDA00020977009400001123
的关键词进行排序,记作
Figure BDA00020977009400001124
使得:
Figure BDA00020977009400001125
(2-3-2)按顺序检查各关键词
Figure BDA00020977009400001126
Figure BDA00020977009400001127
Figure BDA0002097700940000121
且满足以下条件时,将所述关键词
Figure BDA0002097700940000122
删除,获得第二查询
Figure BDA0002097700940000123
条件3:
Figure BDA0002097700940000124
Figure BDA0002097700940000125
将所述关键词删除具体为:删除该关键词
Figure BDA0002097700940000126
以及其左边或右边的存在的逻辑与运算符(∧);
(2-4)判断所述第二查询
Figure BDA0002097700940000127
与所述伪历史查询序列
Figure BDA0002097700940000128
构成的第二查询序列
Figure BDA0002097700940000129
是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第二查询
Figure BDA00020977009400001210
作为构造的当前用户查询Pn对应的伪查询
Figure BDA00020977009400001211
将所述第二查询序列
Figure BDA00020977009400001212
作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-5);
(2-5)对第二查询
Figure BDA00020977009400001213
的关键词进行增加,获得的查询作为构造的用户查询Pn对应的伪查询
Figure BDA00020977009400001214
使得
Figure BDA00020977009400001215
所述对第二查询
Figure BDA00020977009400001216
的关键词进行增加具体为:注入新查询关键词
Figure BDA00020977009400001217
获得查询:
Figure BDA00020977009400001218
Figure BDA00020977009400001219
对当前用户查询Pn的伪造操作,按照先关键词修改、再关键词删除、最后关键词增加的顺序进行,即:如果关键词修改操作所生成的伪查询
Figure BDA00020977009400001220
使得P和P*已经满足隐私安全性和查询高效性,将不再进行后续的关键词删除和增加操作;否则,如果关键词修改和删除操作所生成伪查询满足安全性和高效性约束,将不再进行后续的关键词增加操作。
(3)执行步骤(2)获得的伪查询序列P*中与用户当前查询Pn相应的伪查询
Figure BDA00020977009400001221
获得中间图书记录集
Figure BDA00020977009400001222
在所述中间图书记录集
Figure BDA00020977009400001223
上由可信端执行当前用户查询Pn,获得结果图书记录集Rn返回给用户。
本发明提供的面向图书关键词搜索的用户主题隐私保护系统,如图1所示,运行在可信客户端,与运行用户界面的客户端、不可信的服务器信号相连,包括:
用户查询获取模块、伪查询构造模块、以及结果筛选模块;
所述用户查询获取模块,用户获取当前用户查询Pn,并将所述当前用户查询Pn提交给伪造查询构造模块以及结果筛选模块;
所述伪造查询构造模块,用于存储用户历史查询序列以及伪历史查询序列,并根据所述用户查询获取模块提交的当前用户查询Pn构造当前用户查询Pn相应的伪查询
Figure BDA0002097700940000131
将所述伪查询
Figure BDA0002097700940000132
提交给服务器执行;
所述结果筛选模块,用于获取服务器返回的中间图书记录集
Figure BDA0002097700940000133
并在中间图书记录集
Figure BDA0002097700940000134
上所述用户查询获取模块提交的当前用户查询Pn获得结果图书记录集Pn返回给运行用户界面的客户端。
以下为实施例:
一种面向图书关键词搜索的用户主题隐私保护方法,利用“中图法图书分类目录”结构来实现以下函数:
1、可能主题函数。任意查询Pk的主题集subs(P)以及查询序列P的主题集subs(P)直接或间接地建立在中文关键词w的可能主题集subs(w)之上。为此,我们预先挑选了图书分类目录中处于次顶层的共209个图书目录(例如B0哲学理论、B1世界哲学、D0政治理论等),组建图书主题空间。然后,我们还预先向学校数字图书馆索取了其收藏图书涉及的标题信息(也可以通过网络爬虫自动爬取),组建图书标题空间,并利用中文分词技术[23]对各个图书标题进行分词,共获得100,000个中文关键词,组建图书关键词空间。由于每本图书都有一个“中图法分类号”属性,借助于它可以将图书标题空间中的每本图书映射为图书主题空间中的一个主题(即获取图书所属的主题),进而以图书标题空间为媒介,获取各关键词所属的可能主题集,即subs(w)。
2、结果评估函数。为了预先估算查询高效性和查询准确性,我们还需要预先确定任意查询P可能结果集的规模,即nums(P)。由于很难事先获知查询结果集的规模,为此,我们借助于预先获取的图书标题信息(图书标题空间)来估算图书关键词空间中的每个关键词wi的结果集规模,即nums(wi)函数值被设定为图书标题空间中包含wi的图书标题数量。然后,对于任意图书查询P,其结果集规模可表示为其包含的各个关键词结果集规模的联合函数,并且与其包含的各个关键词结果集规模正相关(nums(P)∝nums(wi))。为此,图书查询P的结果集规模可预估如下:
Figure BDA0002097700940000141
图书分类目录是一个树状数据结构,其中,每个节点表示一个图书目录;每个图书目录又包含于某个父目录(根目录除外);树节点层次越高,则图书目录的抽象性越低(通常,包含的图书也就越少)。
对于当前用户查询处理步骤如下:
(1)获取当前用户查询Pn,与用户历史查询序列P0=(P1,P2,…,Pn-1)组合成用户查询序列P=(P1,P2,…,Pn);其中用户查询Pk,k=1,2,…,n,由若干个中文关键字及其逻辑与或运算构成,记作:
Figure BDA0002097700940000142
Figure BDA0002097700940000143
wi,i=1,2,…,m为中文关键字,
Figure BDA0002097700940000144
Figure BDA0002097700940000145
表示逻辑与运算(∧)或逻辑或运算(∨)。
(2)对步骤(1)中获取的用户查询序列P,构造伪图书查询序列P*,使得所述伪图书查序列查询结果准确、隐私安全且查询高效性最高;即:
Figure BDA0002097700940000146
其中,@eff(P*,P)为伪图书查询序列P*与用户查询序列P查询高效性,@pri(B*,P*)为伪查询序列P*关于敏感主题B*的主题安全性,
Figure BDA0002097700940000147
为主题安全性阈值,@acc(P*,P)为查询结果准确性。
所述伪图书查询序列查询结果准确,是指任一用户查询Pk的结果图书记录集Rk包含于执行所述伪图书查询序列中相应伪图书查询
Figure BDA0002097700940000148
所得到的中间图书记录集
Figure BDA0002097700940000151
Figure BDA0002097700940000152
所述伪图书查询序列查询结果准确,即查询结果准确性@acc(P*,P)为1,所述伪查询序列的查询结果准确性计算方法如下:
Figure BDA0002097700940000153
其中,P为用户图书查询序列,P*为伪图书查询序列,Pk为用户图书查询,
Figure BDA0002097700940000154
为其相应的伪图书查询,
Figure BDA0002097700940000155
为伪图书查询的结果准确性,定义如下:
Figure BDA0002097700940000156
所述伪图书查询序列隐私安全,是指所述伪图书查询序列P*关于隐私主题B*的主题安全性@pri(B*,P*)超过主题安全性阈值
Figure BDA0002097700940000157
所述伪图书查询序列P*的关于隐私主题B*的主题安全性@pri(B*,P*),按照如下方法计算:
Figure BDA0002097700940000158
其中,subs(P*)为伪图书查询序列P*对应的可能主题集合,为其包含的所有伪查询
Figure BDA0002097700940000159
对应的可能主题的交集,即:
Figure BDA00020977009400001510
其中,
Figure BDA00020977009400001511
为伪查询
Figure BDA00020977009400001512
对应的可能主题的集合,计算方法如下:
Figure BDA00020977009400001513
其中,
Figure BDA00020977009400001514
为伪查询
Figure BDA00020977009400001515
中的中文关键词
Figure BDA00020977009400001516
对应的可能主题集合。
所述伪图书查询序列P*的查询高效性@eff(P*,P),定义为:
Figure BDA00020977009400001517
其中,伪查询序列P*与用户查询序列P的长度相同为|P|,Pk为用户查询,
Figure BDA0002097700940000161
与用户查询Pk相应伪查询,
Figure BDA0002097700940000162
为所述伪查询高效性,按照如下方法计算:
Figure BDA0002097700940000163
所述伪查询序列按照如下方法构造:采用贪婪策略,对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,…,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列
Figure BDA0002097700940000164
构造当前用户查询Pn对应的伪查询
Figure BDA0002097700940000165
使得所述伪查询
Figure BDA0002097700940000166
与所述伪历史查询序列
Figure BDA0002097700940000167
构成的伪查询序列P*,查询结果准确、隐私安全且查询高效性最高。
具体包括以下步骤:
(2-1)对当前用户查询Pn的关键词进行修改,获得修改关键词后的第一查询
Figure BDA0002097700940000168
所述对当前用户查询Pn的关键词进行修改,具体为:
(2-1-1)对当前用户查询
Figure BDA0002097700940000169
的关键词进行排序,记作w1w2…wm,使得:
Figure BDA00020977009400001610
(2-1-2)按顺序检查各关键词wj,j=1,2,…,m,当
Figure BDA00020977009400001611
Figure BDA00020977009400001612
且所述关键词wj存在一个子词
Figure BDA00020977009400001613
同时满足以下条件:
条件1:
Figure BDA00020977009400001614
条件2:
Figure BDA00020977009400001615
Figure BDA00020977009400001616
其中,
Figure BDA00020977009400001617
Figure BDA00020977009400001618
作为关键词查询结果的数量,nums(wj)为wj作为关键词查询结果的数量。
则用所述子词
Figure BDA00020977009400001619
替换所述当前用户查询Pn的关键词wj,得到第一查询
Figure BDA00020977009400001620
(2-2)判断所述第一查询
Figure BDA00020977009400001621
与所述伪历史查询序列
Figure BDA00020977009400001622
构成的第一查询序列
Figure BDA0002097700940000171
是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第一查询
Figure BDA0002097700940000172
作为构造的当前用户查询Pn对应的伪查询
Figure BDA0002097700940000173
将所述第一查询序列
Figure BDA0002097700940000174
作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-3);
(2-3)对第一查询
Figure BDA0002097700940000175
的关键词进行删除,获得删除关键词后的第二查询
Figure BDA0002097700940000176
所述第一查询
Figure BDA0002097700940000177
的关键词进行删除,具体为:
(2-3-1)对第一查询
Figure BDA0002097700940000178
的关键词进行排序,记作
Figure BDA0002097700940000179
使得:
Figure BDA00020977009400001710
(2-3-2)按顺序检查各关键词
Figure BDA00020977009400001711
Figure BDA00020977009400001712
Figure BDA00020977009400001713
且满足以下条件时,将所述关键词
Figure BDA00020977009400001714
删除,获得第二查询
Figure BDA00020977009400001715
条件3:
Figure BDA00020977009400001716
Figure BDA00020977009400001717
将所述关键词删除具体为:删除该关键词
Figure BDA00020977009400001718
以及其左边或右边的存在的逻辑与运算符(∧);
(2-4)判断所述第二查询
Figure BDA00020977009400001719
与所述伪历史查询序列
Figure BDA00020977009400001720
构成的第二查询序列
Figure BDA00020977009400001721
是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第二查询
Figure BDA00020977009400001722
作为构造的当前用户查询Pn对应的伪查询
Figure BDA00020977009400001723
将所述第二查询序列
Figure BDA00020977009400001724
作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-5);
(2-5)对第二查询
Figure BDA00020977009400001725
的关键词进行增加,获得的查询作为构造的用户查询Pn对应的伪查询
Figure BDA00020977009400001726
使得
Figure BDA00020977009400001727
所述对第二查询
Figure BDA00020977009400001728
的关键词进行增加具体为:注入新查询关键词
Figure BDA00020977009400001729
获得查询:
Figure BDA00020977009400001730
Figure BDA0002097700940000181
实现算法如下:
Figure BDA0002097700940000182
(3)执行步骤(2)获得的伪查询序列P*中与用户当前查询Pn相应的伪查询
Figure BDA0002097700940000183
获得中间图书记录集
Figure BDA0002097700940000184
在所述中间图书记录集
Figure BDA0002097700940000185
上由可信端执行当前用户查询Pn,获得结果图书记录集Pn返回给用户。
分析多次运行面向关键词图书搜索服务的当前用户查询伪造算法所构建生成的伪查询序列P*关于用户查询序列P的查询准确性和主题安全性。伪查询序列P*关于用户查询序列P当然满足准确性,当且仅当它包含的各个伪查询
Figure BDA0002097700940000186
关于相应用户查询Pk∈P满足准确性。根据所述算法可知,伪查询
Figure BDA0002097700940000191
由用户查询Pk通过若干次关键词修改、删除和增加操作后生成。为此,以下引入观察1至观察4,以论证对用户查询的关键词修改、删除和增加操作并不影响查询准确性。
观察1对于任意图书查询Pk,对其执行一次关键词删除操作后得到的新查询为
Figure BDA0002097700940000192
Figure BDA0002097700940000193
关于Pk满足查询准确性,即
Figure BDA0002097700940000194
(其中Rk
Figure BDA0002097700940000195
表示满足Pk
Figure BDA0002097700940000196
的目标图书集)。
说明一次关键词删除操作要求:被删除的关键词wi的左边或右边存在逻辑与运算符。根据逻辑与运算的含义,结合关键词图书查询服务的基本情况,可得出如下结论:满足查询条件Pk的图书必然也满足查询条件
Figure BDA0002097700940000197
Figure BDA0002097700940000198
观察2对于任意图书查询Pk,对其执行一次关键词修改操作后得到的新查询为
Figure BDA0002097700940000199
Figure BDA00020977009400001910
关于Pk满足查询准确性,即
Figure BDA00020977009400001911
说明一次关键词修改操作要求:被修改的关键词wi用其子词
Figure BDA00020977009400001912
替代。因此,包含关键词wi的图书(满足Pk)必然也包含关键词
Figure BDA00020977009400001913
(满足
Figure BDA00020977009400001914
),即
Figure BDA00020977009400001915
观察3对于任意图书查询Pk,对其执行一次关键词增加操作后得到的新查询为
Figure BDA00020977009400001916
Figure BDA00020977009400001917
关于Pk满足查询准确性,即
Figure BDA00020977009400001918
说明根据定义3.3,图书查询Pk的一次关键词增加操作要求:被增加的一系列新查询关键词
Figure BDA00020977009400001919
通过逻辑或运算符连接查询Pk的原有关键词,构成新查询
Figure BDA00020977009400001920
根据逻辑或运算的含义可知,满足查询条件Pk的图书必然也满足查询条件
Figure BDA00020977009400001921
Figure BDA00020977009400001922
综合以上三个观察,可进一步得知:对于任意图书查询Pk,对其执行若干次查询关键词修改、删除和增加操作,并不会影响查询准确性约束,即基于所述算法构造生成伪图书查询序列必然能满足查询准确性约束。
观察4对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,…,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列
Figure BDA00020977009400001923
(即所述算法的输入),假定P0
Figure BDA0002097700940000201
之间满足主题安全性,
Figure BDA0002097700940000202
为该算法为Pn构造生成的伪查询(即算法的输出),则新查询序列P0+Pn
Figure BDA0002097700940000203
之间也满足主题安全性。
说明历史伪查询序列
Figure BDA0002097700940000204
满足主题安全性,即:
Figure BDA0002097700940000205
并且伪查询
Figure BDA0002097700940000206
是该算法对查询Pn进行多次关键词删除、修改和增加后得到,确保:
Figure BDA0002097700940000207
(见算法的语句15)。可知:
Figure BDA0002097700940000208
因此,新查询序列P+Pn满足主题安全性。
观察5对于任意用户查询序列P,若多次运行该算法后为其所构造生成的伪查询序列为P*,则P和P*之间必然满足主题安全性。
说明结合数学归纳法,容易得证(具体过程略)。
不同于哑元构造(攻击者通过特征分析可能获知用户查询本身),在本文方法中,各用户查询经过关键词修改、删除和增加操作,使得提交给服务器的伪查询已经与原查询极大不同,即服务器端攻击者不可能获知用户真实查询;也不同于掩盖变换(其隐私保护需以牺牲准确性为代价),在本文方法中,查询伪造建立在三类基本操作基础上(已证明并不影响查询准确性),因此,其隐私保护不需牺牲查询准确性。
现有用户隐私保护技术在实用性、高效性、准确性、安全性等方面仍无法满足现代图书搜索服务的实际应用需求。具体地,①隐私加密技术不仅需要额外硬件和复杂算法支持,而且需要改变服务器端的服务算法,降低了方法的实际可用性;②掩盖变换技术会对服务准确性造成一定的负面影响,其隐私保护需以牺牲服务质量为代价;③哑元构造法依赖于哑元的构造质量,容易遭受基于数据特征的挖掘威胁,影响用户隐私保护效果;④匿名化技术需要改变现有平台的框架结构,导致较差的实际可用性。这些问题在本文方法中都得到了较好的解决。表1给出了本文方法与已有方法的定性比较。从表1可以看出:在安全性、准确性、高效性和可用性上,相比于已有方法,本发明提供的方法拥有更好的综合性能。
表1方法有效性定性比较
比较方法 隐私安全性 服务准确性 服务高效性 实际可用性
本文方法 一般
隐私加密 不好
掩盖变化 一般 不好
匿名化法 不好
哑元构造 一般 一般
针对基于关键词的图书搜索服务,本发明提出通过精心修改用户查询序列,在不损害查询准确性的前提下,模糊用户真实图书查询主题,以保护用户主题隐私。理论分析和实验评估验证了本文方法的实际有效性,即能在不损害图书搜索服务实用性和查询准确性的前提下,有效改善用户查询主题隐私在不可信服务器端的安全性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种面向图书关键词搜索的用户主题隐私保护方法,其特征在于,包括以下步骤:
(1)获取当前用户查询Pn,与用户历史查询序列P0=(P1,P2,...,Pn-1)组合成用户查询序列P=(P1,P2,...,Pn);
(2)对步骤(1)中获取的用户查询序列P,构造伪图书查询序列P*,使得所述伪图书查询序列查询结果准确、隐私安全且查询高效性最高;即:
Figure FDA0002428845790000011
其中,@eff(P*,P)为伪图书查询序列P*与用户查询序列P查询高效性,@pri(B*,P*)为伪查询序列P*关于敏感主题B*的主题安全性,
Figure FDA0002428845790000012
为主题安全性阈值,@acc(P*,P)为查询结果准确性;
具体包括以下步骤:
(2-1)对当前用户查询Pn的关键词进行修改,获得修改关键词后的第一查询
Figure FDA00024288457900000112
所述对当前用户查询Pn的关键词进行修改,具体为:
(2-1-1)对当前用户查询
Figure FDA00024288457900000113
的关键词进行排序,记作w1w2…wm,使得:
Figure FDA0002428845790000013
其中,
Figure FDA00024288457900000114
j=1,2,...,m-1表示逻辑与运算∧或逻辑或运算∨;
(2-1-2)按顺序检查各关键词wj,j=1,2,...,m,当
Figure FDA0002428845790000014
Figure FDA0002428845790000015
且所述关键词wj存在一个子词
Figure FDA0002428845790000016
同时满足以下条件:
条件1:
Figure FDA0002428845790000017
条件2:
Figure FDA0002428845790000018
Figure FDA0002428845790000019
其中,
Figure FDA00024288457900000110
Figure FDA00024288457900000111
作为关键词查询结果的数量,nums(wj)为wj作为关键词查询结果的数量;
则用所述子词
Figure FDA0002428845790000021
替换所述当前用户查询Pn的关键词wj,得到第一查询
Figure FDA0002428845790000022
(2-2)判断所述第一查询
Figure FDA0002428845790000023
与伪历史查询序列
Figure FDA0002428845790000024
构成的第一查询序列
Figure FDA0002428845790000025
是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第一查询
Figure FDA0002428845790000026
作为构造的当前用户查询Pn对应的伪查询
Figure FDA0002428845790000027
将所述第一查询序列
Figure FDA0002428845790000028
作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-3);
(2-3)对第一查询
Figure FDA0002428845790000029
的关键词进行删除,获得删除关键词后的第二查询
Figure FDA00024288457900000210
所述第一查询
Figure FDA00024288457900000211
的关键词进行删除,具体为:
(2-3-1)对第一查询
Figure FDA00024288457900000212
的关键词进行排序,记作
Figure FDA00024288457900000213
使得:
Figure FDA00024288457900000214
(2-3-2)按顺序检查各关键词
Figure FDA00024288457900000215
Figure FDA00024288457900000216
Figure FDA00024288457900000217
且满足以下条件时,将所述关键词
Figure FDA00024288457900000218
删除,获得第二查询
Figure FDA00024288457900000219
条件3:
Figure FDA00024288457900000220
Figure FDA00024288457900000221
将所述关键词删除具体为:删除该关键词
Figure FDA00024288457900000222
以及其左边或右边的存在的逻辑与运算符∧;
(2-4)判断所述第二查询
Figure FDA00024288457900000223
与所述伪历史查询序列
Figure FDA00024288457900000224
构成的第二查询序列
Figure FDA00024288457900000225
是否使得隐私安全且查询高效性超过预设的查询高效性阈值;当判断结果为是时,则将所述第二查询
Figure FDA00024288457900000226
作为构造的当前用户查询Pn对应的伪查询
Figure FDA00024288457900000227
将所述第二查询序列
Figure FDA00024288457900000228
作为伪查询序列P*,跳出步骤(2);当判断结果为否时,进入步骤(2-5);
(2-5)对第二查询
Figure FDA00024288457900000229
的关键词进行增加,获得的查询作为构造的用户查询Pn对应的伪查询
Figure FDA0002428845790000031
使得|
Figure FDA0002428845790000032
所述对第二查询
Figure FDA0002428845790000033
的关键词进行增加具体为:注入新查询关键词
Figure FDA0002428845790000034
获得查询:
Figure FDA0002428845790000035
(3)执行步骤(2)获得的伪查询序列P*中与用户当前查询Pn相应的伪查询
Figure FDA0002428845790000036
获得中间图书记录集
Figure FDA0002428845790000037
在所述中间图书记录集
Figure FDA0002428845790000038
上由可信端执行当前用户查询Pn,获得结果图书记录集Rn返回给用户;
其中,subs()为可能主题函数,对于任意查询Pk,subs(Pk)为查询Pk对应的可能主题集合,对于任意查询序列P,subs(P)为查询序列P对应的可能主题集合,对于任意关键词w,subs(w)为关键词w对应的可能主题集合,对于任意子词w*,subs(w*)为子词w*对应的可能主题集合。
2.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,所述用户查询Pk,k=1,2,...,n,由若干个中文关键字及其逻辑与或运算构成,记作:
Figure FDA00024288457900000315
wi,i=1,2,...,m为中文关键字。
3.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪图书查询序列查询结果准确,是指任一用户查询Pk的结果图书记录集Rk包含于执行所述伪图书查询序列中相应伪图书查询
Figure FDA0002428845790000039
所得到的中间图书记录集
Figure FDA00024288457900000310
Figure FDA00024288457900000311
所述伪图书查询序列查询结果准确,即查询结果准确性@acc(P*,P)为1,所述伪查询序列的查询结果准确性计算方法如下:
Figure FDA00024288457900000312
其中,P为用户图书查询序列,P*为伪图书查询序列,Pk为用户图书查询,
Figure FDA00024288457900000313
为其相应的伪图书查询,
Figure FDA00024288457900000314
为伪图书查询的结果准确性,定义如下:
Figure FDA0002428845790000041
4.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪图书查询序列隐私安全,是指所述伪图书查询序列P*关于隐私主题B*的主题安全性@pri(B*,P*)超过主题安全性阈值
Figure FDA00024288457900000415
所述伪图书查询序列P*的关于隐私主题B*的主题安全性@pri(B*,P*),按照如下方法计算:
Figure FDA0002428845790000042
其中,subs(P*)为伪图书查询序列P*对应的可能主题集合,为其包含的所有伪查询
Figure FDA0002428845790000043
对应的可能主题的交集,即:
Figure FDA0002428845790000044
其中,
Figure FDA0002428845790000045
为伪查询
Figure FDA0002428845790000046
对应的可能主题的集合,计算方法如下:
Figure FDA0002428845790000047
其中,
Figure FDA0002428845790000048
为伪查询
Figure FDA0002428845790000049
中的中文关键词
Figure FDA00024288457900000410
对应的可能主题集合。
5.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪图书查询序列P*的查询高效性@eff(P*,P),定义为:
Figure FDA00024288457900000411
其中,伪查询序列P*与用户查询序列P的长度相同为|P|,Pk为用户查询,
Figure FDA00024288457900000412
与用户查询Pk相应伪查询,
Figure FDA00024288457900000413
为所述伪查询高效性,按照如下方法计算:
Figure FDA00024288457900000414
6.如权利要求1所述的面向图书关键词搜索的用户主题隐私保护方法,其特征在于,步骤(2)所述伪查询序列按照如下方法构造:采用贪婪策略,对于当前用户查询Pn、用户历史查询序列P0=(P1,P2,...,Pn-1)、以及用户历史查询序列P0对应的伪历史查询序列
Figure FDA0002428845790000051
构造当前用户查询Pn对应的伪查询
Figure FDA0002428845790000052
使得所述伪查询
Figure FDA0002428845790000053
与所述伪历史查询序列
Figure FDA0002428845790000054
构成的伪查询序列P*,查询结果准确、隐私安全且查询高效性最高。
CN201910524394.3A 2019-06-18 2019-06-18 一种面向图书关键词搜索的用户主题隐私保护方法及系统 Active CN110245297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910524394.3A CN110245297B (zh) 2019-06-18 2019-06-18 一种面向图书关键词搜索的用户主题隐私保护方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910524394.3A CN110245297B (zh) 2019-06-18 2019-06-18 一种面向图书关键词搜索的用户主题隐私保护方法及系统

Publications (2)

Publication Number Publication Date
CN110245297A CN110245297A (zh) 2019-09-17
CN110245297B true CN110245297B (zh) 2020-05-19

Family

ID=67887660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910524394.3A Active CN110245297B (zh) 2019-06-18 2019-06-18 一种面向图书关键词搜索的用户主题隐私保护方法及系统

Country Status (1)

Country Link
CN (1) CN110245297B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125747B (zh) * 2019-10-22 2020-10-27 绍兴文理学院 一种商务网站用户的商品浏览隐私保护方法及系统
CN112084411B (zh) * 2020-09-10 2021-04-20 绍兴文理学院 一种面向个性化信息检索的用户隐私保护方法
CN112765670B (zh) * 2021-02-03 2022-11-29 浙江机电职业技术学院 一种基于标识替换的用户信息服务隐私保护方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292189A (zh) * 2017-05-15 2017-10-24 温州大学瓯江学院 面向文本检索服务的用户隐私保护方法
CN108664808A (zh) * 2018-04-27 2018-10-16 温州大学瓯江学院 一种面向图书搜索服务的用户敏感主题保护方法及系统
CN109359480A (zh) * 2018-10-08 2019-02-19 温州大学瓯江学院 一种面向数字图书馆的用户隐私保护方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292189A (zh) * 2017-05-15 2017-10-24 温州大学瓯江学院 面向文本检索服务的用户隐私保护方法
CN108664808A (zh) * 2018-04-27 2018-10-16 温州大学瓯江学院 一种面向图书搜索服务的用户敏感主题保护方法及系统
CN109359480A (zh) * 2018-10-08 2019-02-19 温州大学瓯江学院 一种面向数字图书馆的用户隐私保护方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A User Sensitive Subject Protection Approach for Book Search Service;Zongda Wu等;《JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY》;20190426;第1-13页 *

Also Published As

Publication number Publication date
CN110245297A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
Pacheco et al. Uncovering coordinated networks on social media: methods and case studies
US8438174B2 (en) Automated forensic document signatures
CN110245297B (zh) 一种面向图书关键词搜索的用户主题隐私保护方法及系统
Urvoy et al. Tracking web spam with html style similarities
US8701185B2 (en) Method for locating fraudulent replicas of web sites
US7886359B2 (en) Method and apparatus to report policy violations in messages
US8423565B2 (en) Information life cycle search engine and method
US7472114B1 (en) Method and apparatus to define the scope of a search for information from a tabular data source
KR101852107B1 (ko) 다크웹 범죄정보 분석 시스템 및 그 방법
US9519718B2 (en) Webpage information detection method and system
Middleton et al. Geoparsing and geosemantics for social media: Spatiotemporal grounding of content propagating rumors to support trust and veracity analysis during breaking news
Shapira et al. Content-based data leakage detection using extended fingerprinting
CN110532480B (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
Lago et al. Visual and textual analysis for image trustworthiness assessment within online news
Chen et al. Detect phishing by checking content consistency
CN101169783A (zh) 用于多媒体对象的数字水印搜索引擎
Yang et al. Hadoop-based dark web threat intelligence analysis framework
Best Open source intelligence
Chandra et al. A survey on web spam and spam 2.0
Wu et al. Undue influence: Eliminating the impact of link plagiarism on web search rankings
Khosravi et al. Reliability of hijacked journal detection based on scientometrics, altmetric tools, and web informatics: A case report using Google Scholar, Web of Science, and Scopus
CN115470489A (zh) 检测模型训练方法、检测方法、设备以及计算机可读介质
CN112528056B (zh) 双索引现场数据检索系统及方法
CN114880540A (zh) 一种基于智慧金融文本评论的智能提醒方法
Wang et al. Achieve web search privacy by obfuscation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant