CN108664808B - 一种面向图书搜索服务的用户敏感主题保护方法及系统 - Google Patents
一种面向图书搜索服务的用户敏感主题保护方法及系统 Download PDFInfo
- Publication number
- CN108664808B CN108664808B CN201810395228.3A CN201810395228A CN108664808B CN 108664808 B CN108664808 B CN 108664808B CN 201810395228 A CN201810395228 A CN 201810395228A CN 108664808 B CN108664808 B CN 108664808B
- Authority
- CN
- China
- Prior art keywords
- books
- search sequence
- books search
- user
- theme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000035945 sensitivity Effects 0.000 title claims abstract description 57
- 238000005242 forging Methods 0.000 claims abstract description 16
- 239000000203 mixture Substances 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 178
- 238000010276 construction Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 4
- 230000007423 decrease Effects 0.000 abstract description 4
- 230000000875 corresponding effect Effects 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002633 protecting effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Abstract
本发明公开了一种面向图书搜索服务的用户敏感主题保护方法及系统。所述方法构造由若干个伪造图书查询序列构成的伪造图书查询序列集使得所述伪造图书查询序列集满足:(1)所述伪造图书查询序列集合中每一伪造图书查询序列与用户图书查询序列的特征分布相似性大于或等于给定特征分布相似性阈值;(2)所述用户图书查询序列相对于所述伪造图书查询序列集各个敏感主题的暴露程度降低大于或等于敏感主题暴露程度降低阈值。所述系统包括:包括设置在用户终端和数字图书馆服务器之间的伪造查询模块。本发明提供的方法和系统在不对数字图书馆的图书查询服务性能下降构成显著影响、不影响查询结果准确性的前提下,有效保护用户查询主题隐私。
Description
技术领域
本发明属于隐私保护领域,更具体地,涉及一种面向图书搜索服务的用户敏感主题保护方法及系统。
背景技术
随着云计算等新兴网络技术的迅速发展,数字图书馆范畴得到不断延伸,已成为人们日常生活的重要组成部分。然而,在给用户带来便利同时,数字图书馆服务器端正变得越来越“不可信”,从而引发数字图书馆用户对个人隐私安全的极度担忧。用户隐私安全问题已成为制约数字图书馆发展与应用的重要障碍之一。图书馆用户隐私主要表现为:①资料隐私,包括身份标识隐私(如手机)和背景资料隐私(如职业);②服务隐私,即使用图书服务时(如图书搜索服务),用户服务请求背后所蕴含的个人偏好隐私(如图书查询蕴含用户偏好的图书主题)。其中,资料隐私安全问题可通过数据加密技术较好地解决,即将用户资料加密后再存放到图书馆服务器,这样即使它们不幸泄露,也难以被读懂。然而,加密方法并不适用用户服务隐私,因为图书服务需要服务器支持,如果加密用户服务请求会使得服务器因无法“读懂”它们,而使得服务变得不可用。如何有效保护图书馆用户的图书服务隐私,已成为一个至关重要的问题。
早期,图书馆领域学者更多从法律角度研究图书馆用户隐私保护问题。虽然制定隐私权相关的法律能在一定程度上保护用户隐私,但是并不能根本上解决该问题,它更多地需要采用隐私保护技术加以解决。近年,学者尝试从技术角度研究该问题,但已有方法还不够深入且缺乏系统,并且它们更多针对资料隐私,而没有关注服务隐私。此外,针对不可信网络环境下的用户隐私安全问题,信息科学领域学者已给出了许多有效方法,代表性地有:隐私加密技术、掩盖变换技术和匿名化技术。以下简要介绍这些方法的技术特点,并分析在数字图书馆中的应用局限性。①隐私加密是指通过加密变换,使得用户服务请求对服务器端完全不可见,以达到隐私保护的目的。该类技术不仅要求额外硬件和复杂算法的支持,且要求改变服务器端的服务算法,从而引起整个平台架构的改变,降低了方法在数字图书馆中的实用性。②敏感数据掩盖技术是指通过伪造数据或者使用一般化数据来掩盖涉及用户敏感偏好的服务请求数据。由于改写了服务请求数据,该类方法对服务的准确性会造成一定负面影响,即其隐私保护需以牺牲服务质量为代价,难以满足数字图书馆的实际应用需求。③匿名化技术是用户隐私保护中广泛使用的一种技术,它通过隐藏或伪装用户身份标识信息,允许用户以不暴露身份的方式使用系统。然而,匿名化隐私保护技术也受到了许多质疑。有人分析了匿名化对隐私保护的不足,并给出实验证明。结果表明,通过匿名化技术收集的用户数据往往难以保证质量。更重要地是,数字图书馆一般要求用户必须实名登录后才能使用各项服务,所以,匿名化隐私保护技术难以有效地应用于数字图书馆。
综上所述,已有用户隐私保护技术并不是针对数字图书馆提出,在实用性、准确性、安全性等方面仍无法满足数字图书馆的实际应用需求。理想的数字图书馆行为偏好隐私方法需要满足以下几个方面的要求:①确保用户服务隐私在不可信服务器端的安全性;②确保服务结果的准确性,即对比引入隐私保护方法的前后,用户获得的最终服务结果一致;③不损害数字图书馆信息服务的实用性,即隐私保护方法不改变服务器端的服务算法,不需要额外硬件支持,也不会对用户服务的执行效率构成显著影响。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种面向图书搜索服务的用户敏感主题保护方法及系统,其目的在于通过有效的构造伪造图书查询序列集,在不改变现有的数字图书馆服务器架构、不损害实用性、不明显降低效率的前提下,保护用户的敏感主题隐私,由此解决现有技术安全性不高,易收到攻击,或者执行效率低下的技术问题。
按照本发明的一个方面,提供了一种面向图书搜索服务的用户敏感主题保护方法,包括以下步骤:
对于给定的用户图书查询序列P0,构造由若干个伪造图书查询序列构成的伪造图书查询序列集q=1,2,…,n,使得所述伪造图书查询序列集满足以下条件:
(1)所述伪造图书查询序列集合中每一伪造图书查询序列Pq与用户图书查询序列P0的特征分布相似性大于或等于给定特征分布相似性阈值,即:
其中,μ为特征分布相似性阈值,sim(P0,Pq)为伪造图书查询序列Pq和用户图书查询序列P0的特征分布相似性;
(2)所述用户图书查询序列P0相对于所述伪造图书查询序列集各个敏感主题的暴露程度降低大于或等于敏感主题暴露程度降低阈值,即:
其中,为敏感图书主题集合,D*为敏感图书主题,ρ敏感主题暴露程度降低阈值,exp(D*,P0)为敏感图书主题D*关于用户图书查询序列P0的暴露程度,为敏感图书主题D*关于用户图书查询序列P0和伪造图书查询序列集并集的暴露程度。
优选地,所述用户敏感主题保护方法,其所述伪造图书查询序列Pq与用户图书查询序列P0的特征分布相似性按照如下方法计算:
其中,θ1、θ2、θ3为权重参数,(θ1+θ2+θ3)=1.0,为关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的作者矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的主题矩阵和的相似性。
优选地,所述用户敏感主题保护方法,其对于任意一个图书查询序列P=(P1,P2,…,Pn),其图书查询Pk(1≤k≤n)可表示为一个二元组Pk=(Pk·B,Pk·A),其中Pk·B表示图书标题查询项,Pk·A表示一个作者名称查询项;
关于所述图书查询序列P的标题矩阵为其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,矩阵行数等于m为图书查询序列P所包含的不同图书标题数量,第i行对应一个图书标题,记作显然有 矩阵任意元素bik取值如下:
关于所述图书查询序列P的作者矩阵为其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,矩阵行数等于l为图书查询序列P所包含的不同作者名称数量,第i行对应一个作者名称,记作显然有矩阵元素aik取值如下:
关于所述图书查询序列P的主题矩阵为其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,记Pk所对应的图书主题为Pk·D,矩阵行数等于j为图书查询序列P蕴含的主题数量,第i行对应一个图书主题显然有矩阵元素dik取值如下:
关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性按照如下方法计算:
其中,m1表示标题矩阵的行数;m2表示标题矩阵的行数;m=min(m1,m2);
关于用户图书查询序列P0和伪造图书查询序列Pi的作者矩阵和的相似性按照如下方法计算:
其中,l1表示标题矩阵的行数;l2表示标题矩阵的行数;l=min(l1,l2);
关于用户图书查询序列P0和伪造图书查询序列Pi的主题矩阵和的相似性按照如下方法计算:
其中,j1表示标题矩阵的行数;j2表示标题矩阵的行数;j=min(j1,j2)。
优选地,所述用户敏感主题保护方法,其敏感图书主题D*关于图书查询序列P的暴露程度exp(D*,P)按照如下方法计算:
其中,Fr(D*,P)表示主题D*在序列P中的出现次数,即Fr(D*,P)=|{Pk|Pk∈P∧D*=Pk·D}|;Re(Dk,D*)为主题Dk和D*之间的相关度,按照主题Dk和D*在分类目录下的相对位置设置。
优选地,所述用户敏感主题保护方法,其按照如下步骤构造所述伪造图书查询序列集
S1、获取用户历史图书查询序列P0、历史伪造图书查询序列集P1,P2,…,Pn、以及当前用户图书查询Pk=(Pk·B,Pk·A);
S2、设置特征分布相似性阈值μ,并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d1和第二矩阵相似性阈值d2;优选d1、d2随机设置为0到10μ之间的随机值。
S3、对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,构造关于当前用户图书查询Pk的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题,并且其作者名称和图书标题表达共同的主题,且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d2,即:
且:
S4、对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,调整所述第一矩阵相似性阈值d1和第二矩阵相似性阈值d2,直至其关于当前用户图书查询Pk的候选伪造图书查询集合不为空;
S5、对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列Pk,在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列:
S6、将新的伪查询序列的集合作为伪造图书查询序列集输出,即:
按照本发明的另一个方面,提供了一种面向图书搜索服务的用户敏感主题保护系统,其包括设置在用户终端和数字图书馆服务器之间的伪造查询模块;
所述伪造查询模块,用于为用户终端提交的图书查询序列P0构建伪造图书查询序列集并将所述图书查询序列P0和所述伪造图书查询序列集提交给数字图书馆服务器;所述伪造查询模块还用于接收所述数字图书馆服务器的查询结果,并筛选为用户图书查询序列P0的查询结果,返回用户终端。
优选地,所述用户敏感主题保护系统,其所述伪造查询模块构造由若干个伪造图书查询序列构成的伪造图书查询序列集q=1,2,…,n,使得所述伪造图书查询序列集满足以下条件:
(1)所述伪造图书查询序列集合中每一伪造图书查询序列Pq与用户图书查询序列P0的特征分布相似性大于或等于给定特征分布相似性阈值,即:
其中,μ为特征分布相似性阈值,sim(P0,Pq)为伪造图书查询序列Pq和用户图书查询序列P0的特征分布相似性;
(2)所述用户图书查询序列P0相对于所述伪造图书查询序列集各个敏感主题的暴露程度降低大于或等于敏感主题暴露程度降低阈值,即:
其中,为敏感图书主题集合,D*为敏感图书主题,ρ敏感主题暴露程度降低阈值,exp(D*,P0)为敏感图书主题D*关于用户图书查询序列P0的暴露程度,为敏感图书主题D*关于用户图书查询序列P0和伪造图书查询序列集并集的暴露程度。
优选地,所述用户敏感主题保护系统,其所述伪造图书查询序列Pq和用户图书查询序列P0的特征分布相似性,按照如下方法计算:
其中,θ1、θ2、θ3为恰当设置的权重参数,(θ1+θ2+θ3)=1.0,为关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的作者矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的主题矩阵和的相似性;
关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性按照如下方法计算:
其中,m1表示标题矩阵的行数;m2表示标题矩阵的行数;m=min(m1,m2)。
关于用户图书查询序列P0和伪造图书查询序列Pi的作者矩阵和的相似性按照如下方法计算:
其中,l1表示标题矩阵的行数;l2表示标题矩阵的行数;l=min(l1,l2)。
关于用户图书查询序列P0和伪造图书查询序列Pi的主题矩阵和的相似性按照如下方法计算:
其中,j1表示标题矩阵的行数;j2表示标题矩阵的行数;j=min(j1,j2)。
优选地,所述用户敏感主题保护系统,其所述敏感图书主题D*关于图书查询序列P的暴露程度exp(D*,P)按照如下方法计算:
其中,Fr(D*,P)表示主题D*在序列P中的出现次数,即Fr(D*,P)=|{Pk|Pk∈P∧D*=Pk·D}|;Re(Dk,D*)为主题Dk和D*之间的相关度,按照主题Dk和D*在分类目录下的相对位置设置。
优选地,所述用户敏感主题保护系统,其所述伪造查询模块包括:获取子模块、设置子模块、候选生成子模块、构造子模块;
所述获取子模块,用于获取用户历史图书查询序列P0、历史伪造图书查询序列集P1,P2,…,Pn、以及当前用户图书查询Pk=(Pk·B,Pk·A);
所述设置子模块,用于设置特征分布相似性阈值μ,并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d1和第二矩阵相似性阈值d2,优选d1、d2随机设置为0到10μ之间的随机值;并用于对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,调整所述第一矩阵相似性阈值d1和第二矩阵相似性阈值d2,直至其关于当前用户图书查询Pk的候选伪造图书查询集合不为空;
所述候选生成子模块,用于对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,构造关于当前用户图书查询Pk的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题,并且其作者名称和图书标题表达共同的主题,且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d2,即:
且:
所述构造子模块,用于对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列Pk,在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列:
并用于将新的伪查询序列的集合作为伪造图书查询序列集输出,即:
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明提供的方法和系统在不对数字图书馆的图书查询服务性能下降构成显著影响、不影响查询结果准确性的前提下,有效保护用户查询主题隐私,虽然攻击者掌握着丰富的背景知识,但还是难以从服务端所记录的历史图书查询记录中识别出用户查询序列或者用户敏感主题,因而本文方法具有较好的安全性。
附图说明
图1是本发明提供的面向图书搜索服务的用户敏感主题保护系统结构示意图;
图2是本发明实施例1提供的图书查询序列特征矩阵示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的面向图书搜索服务的用户敏感主题保护方法,包括以下步骤:
对于给定的用户图书查询序列P0,构造由若干个伪造图书查询序列构成的伪造图书查询序列集q=1,2,…,n,使得所述伪造图书查询序列集满足以下条件:
(1)所述伪造图书查询序列集合中每一伪造图书查询序列Pq与用户图书查询序列P0的特征分布相似性大于或等于给定特征分布相似性阈值,即:
其中,μ为特征分布相似性阈值,sim(P0,Pq)为伪造图书查询序列Pq和用户图书查询序列P0的特征分布相似性,按照如下方法计算:
其中,θ1、θ2、θ3为恰当设置的权重参数,(θ1+θ2+θ3)=1.0,为关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的作者矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的主题矩阵和的相似性;
对于任意一个图书查询序列P=(P1,P2,…,Pn),其图书查询Pk(1≤k≤n)可表示为一个二元组Pk=(Pk·B,Pk·A),其中Pk·B表示图书标题查询项(可为空),Pk·A表示一个作者名称查询项(可为空)。
关于所述图书查询序列P的标题矩阵为其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,矩阵行数等于m为图书查询序列P所包含的不同图书标题数量,第i行对应一个图书标题,记作显然有矩阵任意元素bik取值如下:
关于所述图书查询序列P的作者矩阵为其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,矩阵行数等于l为图书查询序列P所包含的不同作者名称数量,第i行对应一个作者名称,记作显然有矩阵元素aik取值如下:
关于所述图书查询序列P的主题矩阵为其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,记Pk所对应的图书主题为Pk·D,矩阵行数等于j为图书查询序列P蕴含的主题数量,第i行对应一个图书主题显然有矩阵元素dik取值如下:
关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性按照如下方法计算:
其中,m1表示标题矩阵的行数;m2表示标题矩阵的行数;m=min(m1,m2)。
关于用户图书查询序列P0和伪造图书查询序列Pi的作者矩阵和的相似性按照如下方法计算:
其中,l1表示标题矩阵的行数;l2表示标题矩阵的行数;l=min(l1,l2)。
关于用户图书查询序列P0和伪造图书查询序列Pi的主题矩阵和的相似性按照如下方法计算:
其中,j1表示标题矩阵的行数;j2表示标题矩阵的行数;j=min(j1,j2)。
(2)所述用户图书查询序列P0相对于所述伪造图书查询序列集各个敏感主题的暴露程度降低大于或等于敏感主题暴露程度降低阈值,即:
其中,为敏感图书主题集合,D*为敏感图书主题,ρ敏感主题暴露程度降低阈值,exp(D*,P0)为敏感图书主题D*关于用户图书查询序列P0的暴露程度,为敏感图书主题D*关于用户图书查询序列P0和伪造图书查询序列集并集的暴露程度。
敏感图书主题D*关于图书查询序列P的暴露程度exp(D*,P)按照如下方法计算:
其中,Fr(D*,P)表示主题D*在序列P中的出现次数,即Fr(D*,P)=|{Pk|Pk∈P∧D*=Pk·D}|;Re(Dk,D*)为主题Dk和D*之间的相关度,按照主题Dk和D*在分类目录下的相对位置设置。
优选地,按照如下步骤构造所述伪造图书查询序列集
S1、获取用户历史图书查询序列P0、历史伪造图书查询序列集P1,P2,…,Pn、以及当前用户图书查询Pk=(Pk·B,Pk·A);
S2、设置特征分布相似性阈值μ,并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d1和第二矩阵相似性阈值d2;优选d1、d2随机设置为0到10μ之间的随机值。
S3、对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,构造关于当前用户图书查询Pk的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题,并且其作者名称和图书标题表达共同的主题,且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d2,即:
且:
S4、对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,调整所述第一矩阵相似性阈值d1和第二矩阵相似性阈值d2,直至其关于当前用户图书查询Pk的候选伪造图书查询集合不为空;
S5、对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列Pk,在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列:
S6、将新的伪查询序列的集合作为伪造图书查询序列集输出,即:
本发明提供的面向图书搜索服务的用户敏感主题保护系统,如图1所示,包括设置在用户终端和数字图书馆服务器之间的伪造查询模块;
所述伪造查询模块,用于为用户终端提交的图书查询序列P0构建伪造图书查询序列集并将所述图书查询序列P0和所述伪造图书查询序列集提交给数字图书馆服务器;所述伪造查询模块还用于接收所述数字图书馆服务器的查询结果,并筛选为用户图书查询序列P0的查询结果,返回用户终端。
所述伪造查询模块构造由若干个伪造图书查询序列构成的伪造图书查询序列集 q=1,2,…,n,使得所述伪造图书查询序列集满足以下条件:
(1)所述伪造图书查询序列集合中每一伪造图书查询序列Pq与用户图书查询序列P0的特征分布相似性大于或等于给定特征分布相似性阈值,即:
其中,μ为特征分布相似性阈值,sim(P0,Pq)为伪造图书查询序列Pq和用户图书查询序列P0的特征分布相似性,按照如下方法计算:
其中,θ1、θ2、θ3为恰当设置的权重参数,(θ1+θ2+θ3)=1.0,为关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的作者矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的主题矩阵和的相似性;
关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性按照如下方法计算:
其中,m1表示标题矩阵的行数;m2表示标题矩阵的行数;m=min(m1,m2)。
关于用户图书查询序列P0和伪造图书查询序列Pi的作者矩阵和的相似性按照如下方法计算:
其中,l1表示标题矩阵的行数;l2表示标题矩阵的行数;l=min(l1,l2)。
关于用户图书查询序列P0和伪造图书查询序列Pi的主题矩阵和的相似性按照如下方法计算:
其中,j1表示标题矩阵的行数;j2表示标题矩阵的行数;j=min(j1,j2)。
(2)所述用户图书查询序列P0相对于所述伪造图书查询序列集各个敏感主题的暴露程度降低大于或等于敏感主题暴露程度降低阈值,即:
其中,为敏感图书主题集合,D*为敏感图书主题,ρ敏感主题暴露程度降低阈值,exp(D*,P0)为敏感图书主题D*关于用户图书查询序列P0的暴露程度,为敏感图书主题D*关于用户图书查询序列P0和伪造图书查询序列集并集的暴露程度。
敏感图书主题D*关于图书查询序列P的暴露程度exp(D*,P)按照如下方法计算:
其中,Fr(D*,P)表示主题D*在序列P中的出现次数,即Fr(D*,P)=|{Pk|Pk∈P∧D*=Pk·D}|;Re(Dk,D*)为主题Dk和D*之间的相关度,按照主题Dk和D*在分类目录下的相对位置设置。
所述伪造查询模块优选包括:获取子模块、设置子模块、候选生成子模块、构造子模块;
所述获取子模块,用于获取用户历史图书查询序列P0、历史伪造图书查询序列集P1,P2,…,Pn、以及当前用户图书查询Pk=(Pk·B,Pk·A);
所述设置子模块,用于设置特征分布相似性阈值μ,并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d1和第二矩阵相似性阈值d2,优选d1、d2随机设置为0到10μ之间的随机值;并用于对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,调整所述第一矩阵相似性阈值d1和第二矩阵相似性阈值d2,直至其关于当前用户图书查询Pk的候选伪造图书查询集合不为空;
所述候选生成子模块,用于对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,构造关于当前用户图书查询Pk的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题,并且其作者名称和图书标题表达共同的主题,且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d2,即:
且:
所述构造子模块,用于对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列Pk,在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列
并用于将新的伪查询序列的集合作为伪造图书查询序列集输出,即:
数字图书馆为用户提供的信息服务形式多种多样,如图书搜索服务、推荐服务、浏览服务等。其中,图书搜索服务是指用户通过指定图书标题或作者名称等查询条件项,从数字图书馆数据库中获取用户感兴趣的目标图书数据,是数字图书馆最重要和最常见的信息服务之一。用户图书搜索服务隐私主要是指图书查询背后蕴含的用户敏感主题(例如,用户不希望被别人知道对图书主题“犯罪心理”感兴趣)。为此,本发明将以图书搜索服务的用户查询隐私保护为研究对象,具体研究目标可概括为:针对数字图书馆用户图书查询的条件项特点,构建统一的用户查询隐私(用户敏感查询主题)保护框架和保护模型,有效地突破已有隐私保护技术在数字图书馆中的应用局限性,能在“不改变”数字图书馆的现有平台架构、“不改变”图书搜索的现有服务算法、“不改变”图书搜索服务的准确性、基本“不改变”服务效率前提下,“确保”用户敏感查询主题在不可信服务器端的安全性。本发明研究主要内容包括三个方面:①面向图书搜索服务的用户敏感主题保护框架;②面向图书搜索服务的用户敏感主题保护模型,形式化定义敏感主题隐私保护应满足的条件约束;③用户搜索敏感主题保护的实现算法。
以下为实施例:
实施例1
本发明提供的面向图书搜索服务的用户敏感主题保护方法,包括以下步骤:
首先利用“中图法图书分类目录”来关联图书主题、标题、和作者:
图书分类目录是一个树状数据结构,其中,每个节点表示一个图书目录;每个除根目录外的图书目录又包含于其父目录;树节点层次越高,则图书目录的抽象性越低,通常包含的图书也就越少;挑选图书分类目录中处于次顶层的共209个图书目录组建了用户查询主题空间包括:B0哲学理论、B1世界哲学、D0政治理论等;通过预先索取或网络爬虫自动爬取的收藏图书涉及的标题信息和作者信息,构建了一个“主题—图书—作者”数据结构(简称DBA),它由用户主题列表、图书标题列表和作者名称列表三个部分构成,从而将图书主题、标题和作者关联。
为了改善算法效率,我们还为图书列表和作者列表建立了索引结构,即分别按图书标题和作者名称排序,以实现高效率的搜索操作,即给定任何一个图书标题或作者名称,可快速地获取相应的图书列表项或作者列表项。
由于每本图书都有一个“中图法分类号”属性,借助于它,可以将每本图书映射为主题空间中的主题,即获取图书所属的主题。一本图书只有一个“中图法分类号”,因此也只包含于一个主题。所以,图书列表中的每个图书列项主要包含两项信息:图书标题和图书主题。据此,基于DBA结构,给定一个用户查询Pk的图书标题条件项Pk·B,我们可以快速地识别出背后的主题D(Pk·B)(一对一,即|D(Pk·B)|=1)。不同于图书标题,一个作者名称可能与多本图书相关(如作者“张伟”对应上百本图书),而这些图书可能属于不同主题。所以,DBA作者列表中的每个项主要包含两部分信息:作者名称和图书主题列表,其中,主题列表列出了该作者编写的图书涉及到的所有主题。据此,基于DBA,给定一个用户查询Pk的作者名称条件项Pk·A,我们可以快速地识别出背后可能的主题集D(Pk·A)(一对多,即|D(Pk·A)|≥1)。然而,注意到:虽然一个图书查询请求Pk的图书标题查询项和作者名称查询项可能会涉及多个主题,即|D(Pk·A)∪D(Pk·B)|≥2,但是用户在同一个图书查询请求Pk中通常只会表达一个唯一的用户主题(记作Pk·D)。为此,算法引入以下规则,结合用户历史图书查询序列P,从可能主题集D(Pk·A)∪D(Pk·B)中,挑选出图书查询请求Pk的唯一用户主题Pk·D。
对于给定的用户图书查询序列P0,构造由若干个伪造图书查询序列构成的伪造图书查询序列集q=1,2,…,n,使得所述伪造图书查询序列集满足以下条件:
(1)所述伪造图书查询序列集合中每一伪造图书查询序列Pq与用户图书查询序列P0的特征分布相似性大于或等于给定特征分布相似性阈值,即:
其中,μ为特征分布相似性阈值,sim(P0,Pq)为伪造图书查询序列Pq和用户图书查询序列P0的特征分布相似性,按照如下方法计算:
其中,θ1为1/3,θ2为1/3,θ3为1/3,(θ1+θ2+θ3)=1.0,为关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的作者矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的主题矩阵和的相似性;
对于任意一个图书查询序列P=(P1,P2,…,Pn),其图书查询Pk(1≤k≤n)可表示为一个二元组Pk=(Pk·B,Pk·A),其中Pk·B表示图书标题查询项(可为空),Pk·A表示一个作者名称查询项(可为空)。
关于所述图书查询序列P的标题矩阵为如图2所示,其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,矩阵行数等于m为图书查询序列P所包含的不同图书标题数量,第i行对应一个图书标题,记作显然有矩阵任意元素bik取值如下:
关于所述图书查询序列P的作者矩阵为如图2所示,其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,矩阵行数等于l为图书查询序列P所包含的不同作者名称数量,第i行对应一个作者名称,记作显然有 矩阵元素aik取值如下:
关于所述图书查询序列P的主题矩阵为如图2所示,其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,记Pk所对应的图书主题为Pk·D,矩阵行数等于j为图书查询序列P蕴含的主题数量,第i行对应一个图书主题显然有矩阵元素dik取值如下:
关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性按照如下方法计算:
其中,m1表示标题矩阵的行数;m2表示标题矩阵的行数;m=min(m1,m2)。
关于用户图书查询序列P0和伪造图书查询序列Pi的作者矩阵和的相似性按照如下方法计算:
其中,l1表示标题矩阵的行数;l2表示标题矩阵的行数;l=min(l1,l2)。
关于用户图书查询序列P0和伪造图书查询序列Pi的主题矩阵和的相似性按照如下方法计算:
其中,j1表示标题矩阵的行数;j2表示标题矩阵的行数;j=min(j1,j2)。
对于给定图书查询序列P和当前图书查询请求Pk=(Pk·B,Pk·A),则按以下方法确定用户查询Pk蕴含的用户查询主题Pk·D:
若图书标题查询项Pk·B不为空,则Pk·D=D(Pk·A);否则:
若存在历史查询Pi∈P使得Pi·A=Pk·A,则Pk·D=Pi·D;否则:
用户查询主题Pk·D等于在历史查询序列P中出现频度最高的Pk·A主题,即:
(2)所述用户图书查询序列P0相对于所述伪造图书查询序列集各个敏感主题的暴露程度降低大于或等于敏感主题暴露程度降低阈值,即:
其中,为敏感图书主题集合,D*为敏感图书主题,ρ敏感主题暴露程度降低阈值,exp(D*,P0)为敏感图书主题D*关于用户图书查询序列P0的暴露程度,为敏感图书主题D*关于用户图书查询序列P0和伪造图书查询序列集并集的暴露程度。
敏感图书主题D*关于图书查询序列P的暴露程度exp(D*,P)按照如下方法计算:
其中,Fr(D*,P)表示主题D*在序列P中的出现次数,即Fr(D*,P)=|{Pk|Pk∈P∧D*=Pk·D}|;Re(Dk,D*)为主题Dk和D*之间的相关度,按照如下方法设置:
如果Dk和D*在“中图法图书分类目录”中不属于同一目录,则Re(Dk,D*)=0;否则:
如果Dk和D*属于同一父目录但Dk≠D*,则Re(Dk,D*)=0.5;否则:
如果Dk≠D*,则Re(Dk,D*)=1.0。
按照如下步骤构造所述伪造图书查询序列集
S1、获取用户历史图书查询序列P0、历史伪造图书查询序列集P1,P2,…,Pn、以及当前用户图书查询Pk=(Pk·B,Pk·A);
S2、设置特征分布相似性阈值μ,并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d1和第二矩阵相似性阈值d2;d1、d2随机设置为0到10μ之间的随机值
S3、对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,构造关于当前用户图书查询Pk的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题,并且其作者名称和图书标题表达共同的主题,且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d2,即:
且:
S4、对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,调整所述第一矩阵相似性阈值d1和第二矩阵相似性阈值d2,直至其关于当前用户图书查询Pk的候选伪造图书查询集合不为空;
S5、对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列Pk,在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列:
S6、将新的伪查询序列的集合作为伪造图书查询序列集输出,即:
具体算法如下:
可以看出,语句5对伪查询的主题范围和相似性做了限制,实验证实从而满足条件(1)和条件(2);另外,本方法的输出是不确定的,即对于同样输入,不同的运行会得到不同的结果,因为语句10进行了候选者随机挑选操作。这种做法是为了更好地保证安全性。此外,还可以看出,由于历史伪图书查询序列与用户真实图书查询序列具有相同的长度,因此本方法的时间复杂度为O(n·m),其中,m=|P0|。
实施例2
本发明提供的面向图书搜索服务的用户敏感主题保护系统,包括设置在用户终端和数字图书馆服务器之间的伪造查询模块;
所述伪造查询模块,用于为用户终端提交的图书查询序列P0构建伪造图书查询序列集并将所述图书查询序列P0和所述伪造图书查询序列集提交给数字图书馆服务器;所述伪造查询模块还用于接收所述数字图书馆服务器的查询结果,并筛选为用户图书查询序列P0的查询结果,返回用户终端。
所述伪造查询模块构造由若干个伪造图书查询序列构成的伪造图书查询序列集 q=1,2,…,n,使得所述伪造图书查询序列集满足以下条件:
(1)所述伪造图书查询序列集合中每一伪造图书查询序列Pq与用户图书查询序列P0的特征分布相似性大于或等于给定特征分布相似性阈值,即:
其中,μ为特征分布相似性阈值,sim(P0,Pq)为伪造图书查询序列Pq和用户图书查询序列P0的特征分布相似性,按照如下方法计算:
其中,θ1为1/3,θ2为1/3,θ3为1/3,(θ1+θ2+θ3)=1.0,为关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的作者矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的主题矩阵和的相似性;
关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性按照如下方法计算:
其中,m1表示标题矩阵的行数;m2表示标题矩阵的行数;m=min(m1,m2)。
关于用户图书查询序列P0和伪造图书查询序列Pi的作者矩阵和的相似性按照如下方法计算:
其中,l1表示标题矩阵的行数;l2表示标题矩阵的行数;l=min(l1,l2)。
关于用户图书查询序列P0和伪造图书查询序列Pi的主题矩阵和的相似性按照如下方法计算:
其中,j1表示标题矩阵的行数;j2表示标题矩阵的行数;j=min(j1,j2)。
(2)所述用户图书查询序列P0相对于所述伪造图书查询序列集各个敏感主题的暴露程度降低大于或等于敏感主题暴露程度降低阈值,即:
其中,为敏感图书主题集合,D*为敏感图书主题,ρ敏感主题暴露程度降低阈值,exp(D*,P0)为敏感图书主题D*关于用户图书查询序列P0的暴露程度,为敏感图书主题D*关于用户图书查询序列P0和伪造图书查询序列集并集的暴露程度。
敏感图书主题D*关于图书查询序列P的暴露程度exp(D*,P)按照如下方法计算:
其中,Fr(D*,P)表示主题D*在序列P中的出现次数,即Fr(D*,P)=|{Pk|Pk∈P∧D*=Pk·D}|;Re(Dk,D*)为主题Dk和D*之间的相关度,按照如下方法计算:
如果Dk和D*在“中图法图书分类目录”中不属于同一目录,则Re(Dk,D*)=0;否则:
如果Dk和D*属于同一父目录但Dk≠D*,则Re(Dk,D*)=0.5;否则:
如果Dk≠D*,则Re(Dk,D*)=1.0。
所述伪造查询模块优选包括:获取子模块、设置子模块、候选生成子模块、构造子模块;
所述获取子模块,用于获取用户历史图书查询序列P0、历史伪造图书查询序列集P1,P2,…,Pn、以及当前用户图书查询Pk=(Pk·B,Pk·A);
所述设置子模块,用于设置特征分布相似性阈值μ,并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d1和第二矩阵相似性阈值d2,d1、d2随机设置为0到10μ之间的随机值;并用于对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,调整所述第一矩阵相似性阈值d1和第二矩阵相似性阈值d2,直至其关于当前用户图书查询Pk的候选伪造图书查询集合不为空;
所述候选生成子模块,用于对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列,构造关于当前用户图书查询Pk的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题,并且其作者名称和图书标题表达共同的主题,且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d2,即:
且:
所述构造子模块,用于对于历史伪造图书查询序列集P1,P2,…,Pn中的任一历史伪造图书查询序列Pk,在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列:
并用于将新的伪查询序列的集合作为伪造图书查询序列集输出,即:
实施例3安全性评价
可以看出,虽然用户查询被混淆在伪查询中,以随机次序提交给服务器端,但是由于来自同一序列的各个查询之间具有很强的特征关联性,因此,借助于聚类等方法,攻击者仍有可能将图书查询记录准确地划分为若干个独立的查询序列,即得到P0,P1,P2,…,Pn。为此,以下假定攻击者获取了客户端所提交的全部图书查询请求,包括用户查询和伪查询,并且已经准确地将它们划分独立的查询序列。此外,还假定攻击者获取了运行在客户端的用户隐私保护算法副本。此时,攻击者能否根据掌握的图书查询序列集猜测出用户敏感主题可能性分三种情况:
情况1:在没有找出中用户查询序列P0的前提下,攻击者能否直接猜测出用户敏感主题呢?此时,由于攻击者不知道中哪个序列才是用户查询序列,他只能首先获取各个查询序列相关的所有图书主题,然后逐个去猜测这些主题哪个是用户敏感主题。由于用户的任一敏感主题在序列集中的暴露度相比于在序列P0中的暴露度已经明显降低,所以用户敏感主题被猜测出来的概率将变得极小,即原来的1/(n+1)。
情况2:攻击者能否找出中的用户查询序列P0呢?此时,攻击者可根据先验知识“用户查询序列会表现出富有规律的特征”来识别用户查询序列。然而,由于本文方法所构造的伪查询序列与用户查询序列具有高度一致的可区分特征(包括图书标题特征、作者名称特征和图书主题特征),所以,攻击者难以根据图书查询序列的不同特征规律区分出用户查询序列。
情况3:攻击者获得隐私算法副本后,能否猜测出用户查询序列P0呢?此时,攻击者可以将中查询划分为m个独立组,每组查询记作 然后,攻击者可以逐个输入中的各个查询并观测隐私算法能否输出其余查询如果成功,则表明是用户查询,进而获知用户查询序列P0。然而,这样尝试不会成功,因为在隐私算法中,每个伪查询均是从一个较大集中随机选取(见算法1的步骤1和步骤10),即每次运行时,即使输入相同的数据也会输出不同的结果。
综上所述,虽然攻击者掌握着丰富的背景知识,但还是难以从服务端所记录的历史图书查询记录中识别出用户查询序列或者用户敏感主题,因而本文方法具有较好的安全性。可以看出:本方法不会改变图书查询的准确性,不改变服务器端已有的图书搜索服务算法,也不要求改变数字图书馆现在的平台架构。此外,在本方法中,一次图书查询过程需要向服务器端发送(n+1)个图书查询。所以,如果忽略客户端隐私保护算法本身的执行时间,那么引入隐私保护机制后,一次图书查询服务所需时间将增加到原来的(n+1)倍。而参数n是用来控制用户隐私保护级别,其值越大则用户隐私暴露的风险就越低。所以,我们方法导致的图书查询服务性能下降程度与用户隐私保护等级线性正相关,不会对数字图书馆的图书查询服务性能下降构成显著影响。
表1方法有效性定性比较
比较方法 | 隐私安全性 | 服务准确性 | 服务高效性 | 实际可用性 |
本文方法 | 好 | 好 | 好 | 好 |
隐私加密 | 好 | 好 | 好 | 不好 |
掩盖变化 | 好 | 不好 | 好 | 好 |
匿名化法 | 好 | 好 | 好 | 不好 |
已有的用户隐私保护技术并不是针对数字图书馆提出,它们在实用性、准确性、高效性和安全性等方面仍无法满足数字图书馆的实际应用需求。具体地包括:①隐私加密技术不仅需要额外硬件和复杂算法支持,而且需要改变服务器端的服务算法,降低了方法的实际可用性;②掩盖变换技术会对服务准确性造成一定的负面影响,其隐私保护需以牺牲服务质量为代价;③匿名化技术需要改变数字图书馆的框架结构,导致较差的实际应用性。这些问题在本发明中都得到了较好的解决。表1给出了本文方法与已有方法的定性比较,其中:①安全性好,当且仅相关安全问题已经被充分考虑,并且给出了有效的解决方案;②准确性好,当且仅当在隐私机制引入的前后,用户最终得到的查询结果不变;③可用性好,当且仅当隐私机制对外部用户和服务算法均透明;④高效性好,当且仅当在隐私机制引入的前后,服务效率不会明显下降。从表1可以看出:在安全性、准确性、高效性和可用性上,相比于已有方法,我们方法拥有更优秀的综合性能,有效地实现了前文提到的四个“不改变”、一个“确保”目标。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种面向图书搜索服务的用户敏感主题保护方法,其特征在于,包括以下步骤:
对于给定的用户图书查询序列P0,构造由若干个伪造图书查询序列构成的伪造图书查询序列集使得所述伪造图书查询序列集满足以下条件:
(1)所述伪造图书查询序列集合中每一伪造图书查询序列Pq与用户图书查询序列P0的特征分布相似性大于或等于给定特征分布相似性阈值,即:
其中,μ为特征分布相似性阈值,sim(P0,Pq)为伪造图书查询序列Pq和用户图书查询序列P0的特征分布相似性;
(2)所述用户图书查询序列P0相对于所述伪造图书查询序列集各个敏感主题的暴露程度降低大于或等于敏感主题暴露程度降低阈值,即:
其中,为敏感图书主题集合,D*为敏感图书主题,ρ敏感主题暴露程度降低阈值,exp(D*,P0)为敏感图书主题D*关于用户图书查询序列P0的暴露程度,为敏感图书主题D*关于用户图书查询序列P0和伪造图书查询序列集并集的暴露程度。
2.如权利要求1所述的用户敏感主题保护方法,其特征在于,所述伪造图书查询序列Pq与用户图书查询序列P0的特征分布相似性按照如下方法计算:
其中,θ1、θ2、θ3为权重参数,为关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的作者矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的主题矩阵和的相似性。
3.如权利要求2所述的用户敏感主题保护方法,其特征在于,对于任意一个图书查询序列P=(P1,P2,...,Pn),其图书查询Pk(1≤k≤n)可表示为一个二元组Pk=(Pk.B,Pk.A),其中Pk.B表示图书标题查询项,Pk.A表示一个作者名称查询项;
关于所述图书查询序列P的标题矩阵为其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,矩阵行数等于m为图书查询序列P所包含的不同图书标题数量,第i行对应一个图书标题,记作显然有矩阵任意元素bik取值如下:
关于所述图书查询序列P的作者矩阵为其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,矩阵行数等于l为图书查询序列P所包含的不同作者名称数量,第i行对应一个作者名称,记作显然有矩阵元素aik取值如下:
关于所述图书查询序列P的主题矩阵为其中矩阵列数等于n为图书查询序列P的长度,第k列对应一个图书查询Pk,记Pk所对应的图书主题为Pk.D,矩阵行数等于j为图书查询序列P蕴含的主题数量,第i行对应一个图书主题显然有矩阵元素dik取值如下:
关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性按照如下方法计算:
其中,m1表示标题矩阵的行数;m2表示标题矩阵的行数;m=min(m1,m2);
关于用户图书查询序列P0和伪造图书查询序列Pi的作者矩阵和的相似性按照如下方法计算:
其中,l1表示标题矩阵的行数;l2表示标题矩阵的行数;l=min(l1,l2);
关于用户图书查询序列P0和伪造图书查询序列Pi的主题矩阵和的相似性按照如下方法计算:
其中,j1表示标题矩阵的行数;j2表示标题矩阵的行数;j=min(j1,j2)。
4.如权利要求1所述的用户敏感主题保护方法,其特征在于,敏感图书主题D*关于图书查询序列P的暴露程度exp(D*,P)按照如下方法计算:
其中,Fr(D*,P)表示主题D*在序列P中的出现次数,即Fr(D*,P)=|{Pk|Pk∈P∧D*=Pk.D}|;Re(Dk,D*)为主题Dk和D*之间的相关度,按照主题Dk和D*在分类目录下的相对位置设置。
5.如权利要求1所述的用户敏感主题保护方法,其特征在于,按照如下步骤构造所述伪造图书查询序列集
S1、获取用户历史图书查询序列P0、历史伪造图书查询序列集{P1,P2,...,Pn}、以及当前用户图书查询Pk=(Pk.B,Pk.A);
S2、设置特征分布相似性阈值μ,并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d1和第二矩阵相似性阈值d2;优选d1、d2随机设置为0到10μ之间的随机值;
S3、对于历史伪造图书查询序列集{P1,P2,...,Pn}中的任一历史伪造图书查询序列,构造关于当前用户图书查询Pk的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题,并且其作者名称和图书标题表达共同的主题,且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d2,即:
且:
S4、对于历史伪造图书查询序列集{P1,P2,...,Pn}中的任一历史伪造图书查询序列,调整所述第一矩阵相似性阈值d1和第二矩阵相似性阈值d2,直至其关于当前用户图书查询Pk的候选伪造图书查询集台不为空;
S5、对于历史伪造图书查询序列集{P1,P2,...,Pn}中的任一历史伪造图书查询序列Pk,在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列:
S6、将新的伪查询序列的集合作为伪造图书查询序列集输出,即:
6.一种面向图书搜索服务的用户敏感主题保护系统,其特征在于,包括设置在用户终端和数字图书馆服务器之间的伪造查询模块;
所述伪造查询模块,用于为用户终端提交的图书查询序列P0构建伪造图书查询序列集并将所述图书查询序列P0和所述伪造图书查询序列集提交给数字图书馆服务器;所述伪造查询模块还用于接收所述数字图书馆服务器的查询结果,并筛选为用户图书查询序列P0的查询结果,返回用户终端;
所述伪造查询模块构造由若干个伪造图书查询序列构成的伪造图书查询序列集使得所述伪造图书查询序列集满足以下条件:
(1)所述伪造图书查询序列集合中每一伪造图书查询序列Pq与用户图书查询序列P0的特征分布相似性大于或等于给定特征分布相似性阈值,即:
其中,μ为特征分布相似性阈值,sim(P0,Pq)为伪造图书查询序列Pq和用户图书查询序列P0的特征分布相似性;
(2)所述用户图书查询序列P0相对于所述伪造图书查询序列集各个敏感主题的暴露程度降低大于或等于敏感主题暴露程度降低阈值,即:
其中,为敏感图书主题集合,D*为敏感图书主题,ρ敏感主题暴露程度降低阈值,exp(D*,P0)为敏感图书主题D*关于用户图书查询序列P0的暴露程度,为敏感图书主题D*关于用户图书查询序列P0和伪造图书查询序列集并集的暴露程度。
7.如权利要求6所述的面向图书搜索服务的用户敏感主题保护系统,其特征在于,所述伪造图书查询序列Pq和用户图书查询序列P0的特征分布相似性,按照如下方法计算:
其中,θ1、θ2、θ3为恰当设置的权重参数,(θ1+θ2+θ3)=1.0,为关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的作者矩阵和的相似性;为关于用户图书查询序列P0和伪造图书查询序列Pq的主题矩阵和的相似性;
关于用户图书查询序列P0和伪造图书查询序列Pq的标题矩阵和的相似性按照如下方法计算:
其中,m1表示标题矩阵的行数;m2表示标题矩阵的行数;m=min(m1,m2);
关于用户图书查询序列P0和伪造图书查询序列Pi的作者矩阵和的相似性按照如下方法计算:
其中,l1表示标题矩阵的行数;l2表示标题矩阵的行数;l=min(l1,l2);
关于用户图书查询序列P0和伪造图书查询序列Pi的主题矩阵和的相似性按照如下方法计算:
其中,j1表示标题矩阵的行数;j2表示标题矩阵的行数;j=min(j1,j2)。
8.如权利要求6所述的面向图书搜索服务的用户敏感主题保护系统,其特征在于,所述敏感图书主题D*关于图书查询序列P的暴露程度exp(D*,P)按照如下方法计算:
其中,Fr(D*,P)表示主题D*在序列P中的出现次数,即Fr(D*,P)=|{Pk|Pk∈P∧D*=Pk.D}|;Re(Dk,D*)为主题Dk和D*之间的相关度,按照主题Dk和D*在分类目录下的相对位置设置。
9.如权利要求6所述的面向图书搜索服务的用户敏感主题保护系统,其特征在于,所述伪造查询模块包括:获取子模块、设置子模块、候选生成子模块、构造子模块;
所述获取子模块,用于获取用户历史图书查询序列P0、历史伪造图书查询序列集{P1,P2,...,Pn}、以及当前用户图书查询Pk=(Pk.B,Pk.A);
所述设置子模块,用于设置特征分布相似性阈值μ,并根据所述特征分布相似性阈值设置第一矩阵相似性阈值d1和第二矩阵相似性阈值d2;并用于对于历史伪造图书查询序列集{P1,P2,...,Pn}中的任一历史伪造图书查询序列,调整所述第一矩阵相似性阈值d1和第二矩阵相似性阈值d2,直至其关于当前用户图书查询Pk的候选伪造图书查询集合不为空;
所述候选生成子模块,用于对于历史伪造图书查询序列集{P1,P2,...,Pn}中的任一历史伪造图书查询序列,构造关于当前用户图书查询Pk的候选伪造图书查询集合使得所述集合中每一元素P′均选取自非敏感用户主题,并且其作者名称和图书标题表达共同的主题,且其构成的伪造图书查询序列与用户查询序列特征分布相似性超过特征分布相似性阈值、且图书主题特征相似性与用户查询序列的主题特征相似性超过第二矩阵相似性阈值d2,即:
且:
所述构造子模块,用于对于历史伪造图书查询序列集{P1,P2,...,Pn}中的任一历史伪造图书查询序列Pk,在其关联的伪造图书查询集合中随机挑选一个伪造图书查询与其组成新的伪造查询序列:
并用于将新的伪查询序列的集合作为伪造图书查询序列集输出,即:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810395228.3A CN108664808B (zh) | 2018-04-27 | 2018-04-27 | 一种面向图书搜索服务的用户敏感主题保护方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810395228.3A CN108664808B (zh) | 2018-04-27 | 2018-04-27 | 一种面向图书搜索服务的用户敏感主题保护方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108664808A CN108664808A (zh) | 2018-10-16 |
CN108664808B true CN108664808B (zh) | 2019-04-26 |
Family
ID=63781427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810395228.3A Expired - Fee Related CN108664808B (zh) | 2018-04-27 | 2018-04-27 | 一种面向图书搜索服务的用户敏感主题保护方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108664808B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232157B (zh) * | 2019-06-18 | 2024-02-02 | 绍兴文理学院 | 一种基于内容的隐私保护图书推荐方法及系统 |
CN110245297B (zh) * | 2019-06-18 | 2020-05-19 | 绍兴文理学院 | 一种面向图书关键词搜索的用户主题隐私保护方法及系统 |
CN112765670B (zh) * | 2021-02-03 | 2022-11-29 | 浙江机电职业技术学院 | 一种基于标识替换的用户信息服务隐私保护方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292189A (zh) * | 2017-05-15 | 2017-10-24 | 温州大学瓯江学院 | 面向文本检索服务的用户隐私保护方法 |
CN107609419A (zh) * | 2017-09-12 | 2018-01-19 | 温州大学瓯江学院 | 一种数字图书馆用户的浏览偏好隐私保护方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100485603C (zh) * | 2003-04-04 | 2009-05-06 | 雅虎公司 | 用于从搜索查询中产生概念单元的系统和方法 |
US7664751B2 (en) * | 2004-09-30 | 2010-02-16 | Google Inc. | Variable user interface based on document access privileges |
CN102375885A (zh) * | 2011-10-21 | 2012-03-14 | 北京百度网讯科技有限公司 | 一种提供与查询序列相对应的搜索建议的方法与设备 |
KR101575840B1 (ko) * | 2014-12-08 | 2015-12-08 | 주식회사 디알엠인사이드 | 사적복제 지원 전자책 보호 시스템 및 방법 |
CN106254314B (zh) * | 2016-07-19 | 2017-10-10 | 温州大学瓯江学院 | 一种位置查询服务信息保护方法及系统 |
CN107977583B (zh) * | 2017-11-24 | 2018-12-18 | 温州大学瓯江学院 | 数字图书馆用户图书行为偏好隐私保护评价方法及系统 |
-
2018
- 2018-04-27 CN CN201810395228.3A patent/CN108664808B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292189A (zh) * | 2017-05-15 | 2017-10-24 | 温州大学瓯江学院 | 面向文本检索服务的用户隐私保护方法 |
CN107609419A (zh) * | 2017-09-12 | 2018-01-19 | 温州大学瓯江学院 | 一种数字图书馆用户的浏览偏好隐私保护方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108664808A (zh) | 2018-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9965644B2 (en) | Record level data security | |
CN102598007B (zh) | 有效检测采指纹数据和信息的系统和方法 | |
CN108664808B (zh) | 一种面向图书搜索服务的用户敏感主题保护方法及系统 | |
CN109359480B (zh) | 一种面向数字图书馆的用户隐私保护方法及系统 | |
US8346774B1 (en) | Protecting network entity data while preserving network properties | |
CN108092963B (zh) | 网页识别方法、装置、计算机设备及存储介质 | |
CN107423632A (zh) | 可定制的敏感数据脱敏方法和系统 | |
CN104750784B (zh) | 一种基于Merkle树结构的空间查询完整性验证方法 | |
CN103984764B (zh) | 基于道路网络感知查询语义的个性化隐私保护方法 | |
US20110246475A1 (en) | System and method for locating and retrieving private information on a network | |
KR20120078701A (ko) | 안면 인식 훈련용 데이터의 공유 방법 | |
CN110490589A (zh) | 硬件钱包创建方法、装置及硬件钱包 | |
CN106874788B (zh) | 一种敏感数据发布中的隐私保护方法 | |
CN106254314B (zh) | 一种位置查询服务信息保护方法及系统 | |
CN109117669A (zh) | MapReduce相似连接查询的隐私保护方法及系统 | |
US20090265314A1 (en) | Secure file searching | |
Pan et al. | Security analysis on privacy-preserving cloud aided biometric identification schemes | |
Abduljabbar et al. | EEIRI: Efficient encrypted image retrieval in IoT-cloud | |
WO2020209793A1 (en) | Privacy preserving system for mapping common identities | |
CN103237018A (zh) | 一种客户端匹配方法、服务器及通信系统 | |
CN107609419B (zh) | 一种数字图书馆用户的浏览偏好隐私保护方法及系统 | |
Manisha et al. | CBRC: a novel approach for cancelable biometric template generation using random permutation and Chinese Remainder Theorem | |
CN109614521A (zh) | 一种高效的隐私保护子图查询处理方法 | |
CN105721560B (zh) | 统一会员中心用户登录密码安全存储系统及方法 | |
JP2009146198A (ja) | 情報管理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190426 |