CN109359480A

CN109359480A - 一种面向数字图书馆的用户隐私保护方法及系统

Info

Publication number: CN109359480A
Application number: CN201811166272.3A
Authority: CN
Inventors: 吴宗大; 谢坚; 卢成浪
Original assignee: Wenzhou University Oujiang College
Current assignee: Wenzhou University of Technology
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2019-02-19
Anticipated expiration: 2038-10-08
Also published as: CN109359480B

Abstract

本发明公开了一种面向数字图书馆的用户隐私保护方法。所述方法包括以下步骤：(1)获取可标识用户身份的隐私数据，进行加密生成密文数据和特征数据，并提交给数字图书馆服务器(2)获取用户提交的数字图书馆查询语句，根据特征数据的构造方法，将查询语句转换为在特征数据上执行的加密查询语句；(3)将加密查询语句提交给数字图书管服务器，进行查询获得加密查询结果并返回可信客户端；(4)将加密查询结果解密，并在解密后的明文上执行用户提交的数字图书馆查询语句，获得精确查询结果。所述系统包括隐私数据加密模块、查询转换模块、加密查询模块、以及解密查询模块。本发明在保证服务器可用性的前提下，保护用户隐私，安全性较好。

Description

一种面向数字图书馆的用户隐私保护方法及系统

技术领域

本发明属于数字图书馆技术领域，更具体地，涉及一种面向数字图书馆的用户隐私保护方法及系统。

背景技术

数字图书馆借助于互联网使得人们可以跨越时空限制，随时随地获取图书信息服务，已经成为人们日常生活的重要组成部分。然而，随着新网络技术的发展，越来越多的图书馆服务器被部署到不可信网络端(如云端)，数字图书馆正变得越来越“不可信”，从而引发数字图书馆用户对个人隐私安全的担忧。数字图书馆的用户隐私主要表现为两类：(1)资料隐私，包括身份标识隐私(如图书证号码、手机号码等)和背景资料隐私(如家庭地址、所属班级等)，它们通常可标识出某一个或某一类用户；(2)行为隐私，即使用图书服务时(如图书浏览服务、检索服务等)，用户服务请求背后所蕴含的兴趣偏好(如图书浏览行为蕴含用户偏好的图书类别)。基于这些隐私信息，攻击者不仅能标识出用户的具体身份，掌握用户的背景资料，还能推断出用户的个人喜好、日常行踪、生活习惯、社会关系等敏感信息。因而，这些用户隐私信息被不可信的数字图书馆服务器端大量收集，势必会对图书馆用户的个人隐私安全构成严重威胁。实际上，用户隐私安全问题已成为制约数字图书馆在新网络时代的进一步发展与应用的重要障碍。如何有效地保护数字图书馆用户的个人隐私在不可信服务器端的安全，已成为一个至关重要的问题。

早期，图书馆领域的学者更多地从法律角度研究数字图书馆用户的隐私保护问题。然而，法律并不能从根本上解决用户隐私安全问题。近年，学者也尝试从技术角度研究该问题，但已有的技术方法还不够深入且缺乏系统，并且它们更多是针对用户资料隐私保护，难以保护用户行为隐私安全。然而，针对不可信网络环境下的用户隐私保护问题，计算机科学领域的学者们也给出了许多有效的方法，代表性地有访问控制、数据加密、匿名化和数据模糊等。以下简要介绍这些方法的特点，并分析在数字图书馆中的应用局限性。

(1)用户身份认证和访问控制可以有效地阻止系统非法用户对未授权数据的非法访问，已经被广泛地应用于各类管理信息系统，取得了巨大成功。虽然这类信息安全技术策略能有效地阻止外部敌手对系统中用户隐私数据的非法访问，从而在很大程度上确保数字图书馆用户的隐私信息安全。但是所有这些安全策略只针对数字图书馆的外部非法攻击者，无法阻止不可信图书馆服务器端的内部工作人员或攻克服务器端的黑客访问图书馆数据库中的用户隐私信息，即新网络环境下的数字图书馆用户隐私安全问题无法通过传统的数据访问控制手段加以解决。

(2)匿名化是一种广泛使用的用户隐私保护技术，它通过隐藏(或不收集)用户的敏感身份标识信息，允许用户以不暴露身份的方式使用系统。由于处理简单，它可以较容易地应用到各类管理信息系统和信息服务平台。匿名化技术可用于有效地保护用户行为隐私，其最大优点是不会对网络信息服务的准确性和高效性造成任何影响，也不用改变现有的网络信息服务算法，具有非常好的实用性。然而，数字图书馆一般要求用户必须实名登录后才能使用系统的各项图书信息服务，所以，基于匿名化的用户隐私保护技术难以有效地应用于数字图书馆。此时，不可信服务器虽然仍能获知用户的部分背景资料数据(非身份标识数据)，也能获知用户提交的图书服务请求数据，进而分析出用户的行为兴趣偏好，但由于用户身份匿名化，服务器无法将这些隐私信息与某个具体的用户关联起来。因而，该方案能有效地确保用户资料隐私和用户行为隐私在不可信数字图书馆服务端的安全性。此外，该方案还继承匿名化技术的诸多优点，不会对数字图书馆信息服务的准确性、高效性和实用性造成任何影响。然而，在数字图书馆存在大量定义在用户隐私数据上的查询操作(如根据手机号查询用户)。一旦使用加密算法对服务器端数据库中用户数据进行加密，则这些数据查询操作将无法再在密文数据上正确执行，从而导致数字图书馆平台变得不可用。为了解决用户资料数据的密文查询问题，可以将服务器端的密文传输会客户端，然后在客户端先对密文进行解密，再在解密后的数据上进行查询。但是由于加/解密操作的开销十分巨大，这种先解密再查询的方式又势必会严重降低数据查询效率。虽然也有一些数据加密方法^[26]支持密文直接查询(而无需解密数据)，但存在安全性较差或无法完全支持常见的字符串查询(如相似查询或范围查询)等缺点，因而难以直接运用它们解决以上的用户资料数据加密查询问题。

(3)数据模糊化技术通常针对用户行为隐私，是指通过伪造数据或者使用一般化数据来掩盖涉及用户敏感行为偏好的服务请求数据。例如，针对网页搜索和图书浏览等应用场景，研究者提出了一些具体的数据模糊化技术。由于改写了用户服务请求数据，该类方法对信息服务准确性(如降低网页搜索结果的精度)或高效性(如降低网络信息服务的响应时间)会造成一定的负面影响，即其用户隐私保护需以牺牲服务质量为代价，因而难以满足数字图书馆的实际应用需求。此外，该类方法通常无法用于保护数字图书馆用户的资料隐私。

(4)数据加密技术通常针对用户资料隐私，即对存放在后台数据库中的用户资料数据进行严格加密，使得加密后的资料数据即使不幸泄露，也难以破译，从而确保隐私数据的安全性。然而，在数字图书馆平台中存在大量定义在用户隐私数据上的数据库查询操作(如根据手机号查询用户)。一旦使用数据加密算法对服务器端数据库中的用户隐私数据进行严格加密，则系统平台中的原有数据库查询操作(如相似查询、范围查询等)将无法在密文数据上正确执行。因此，数据加密方法难以直接应用于保护数字图书馆的用户资料隐私。此外，该类方法无法用于保护用户行为隐私。

综上所述，已有用户行为隐私保护技术并不是针对数字图书馆平台而提出，它们在实用性、准确性、高效性、安全性等方面仍无法满足数字图书馆的实际应用需求。数字图书馆用户隐私保护方法及系统，有两个方面需要改进：(1)数字图书馆用户的隐私安全性有待提高，既包括用户资料隐私安全，也包括用户行为隐私安全；(2)数字图书馆用户隐私保护方法及系统的可用性需要进一步加强，即不损害数字图书馆信息服务的实际可用性，也即不改变现有数字图书馆平台架构、不改变服务器端的图书信息服务算法、也不会对图书信息服务的执行效率构成明显影响。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种面向数字图书馆的用户隐私保护方法及系统，其目的在于通过对特征数据的有序构造，实现安全性、高效性好的数字图书馆的用户隐私保护方法及系统，由此解决由于安全性或者查询效率低导致的数字图书管用户隐私保护安全性不高，或者实用性不强的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种面向数字图书馆的用户隐私保护方法，包括以下步骤：

(1)隐私数据加密：获取可标识用户身份的隐私数据，进行加密生成密文数据和特征数据，并提交给数字图书馆服务器；

所述可标识用户身份的隐私数据为特定长度的字符串形式；所述特征数据与所述隐私数据具有相同的长度；所述特征数据与所述隐私数据被划分成相同预设长度的多个子字符串，所述特征数据的子字符串用于表征所述隐私数据相应子字段a_k的有序性；

(2)查询转换：获取用户提交的数字图书馆查询语句，根据特征数据的构造方法，将查询语句转换为在步骤(1)中获取的特征数据上执行的加密查询语句；

(3)加密查询：将步骤(2)中获取的加密查询语句提交给数字图书管服务器，进行查询获得加密查询结果并返回可信客户端；

(4)解密查询：将步骤(3)中获得的加密查询结果解密，并在解密后的明文上执行用户提交的数字图书馆查询语句，获得精确查询结果。

优选地，所述面向数字图书馆的用户隐私保护方法，其步骤(1)所述特征数据按照如下方法构造：

图书馆服务器的后台数据库中存储的用户资料表R(…,A,…)，其中为所述可标识用户身份的隐私数据的存储字段即隐私文本字段A特定长度的字符串；对于所述可标识用户身份的隐私数据进行加密生成用于存储密文数据的密文字段A^E以及用于存储对应特征数据的特征字段A^X；

对于A的任意字段值a，按照如下方法获取其特征数据a^x：

(1-1)将隐私文本字段A划分为n个子字段，记作：A₁,A₂,…,A_n，使得：

A1、任意两个相邻子字段不重叠；

A2、任一子字段长度均不为零，即其中length(A_k)为子字段A_k的长度，k＝1,…,n；

A3、各个子字段长度之和等于字段本身，即length(A₁)+…+length(A_n)＝length(A)；其中length(A₁)为子字段A₁的长度，length(A_n)为子字段A_n的长度；

(1-2)将步骤(1-1)中获得的子字段A_k的值域D^k＝domain(A_k)划分为m个子域，分别记作：k＝1,…,n，使得：

B1、任一子域均不为空集，即

B2、任意两个相邻子域不重叠，即

B3、各个子域的并集等于该子字段A_k的值域，即

(1-3)为步骤(1-2)中获得的各个子字段A_k的各个子域分别分配互不相同的标识符记作：使得：

C1、各个标识符与子字段A_k拥有相同长度，即

C2、各个标识符是随机有序的，即

(1-4)记录步骤(1-1)至(1-3)将给定子字段A_k的任一具体值a_k映射为一个标识符的函数作为映射函数M_k，记作其中为包含a_k的子域；因此有隐私文本字段A上的任意值a被映射为特征数据a^x：

a^x＝M₁(a₁)M₂(a₂)…M_n(a_n)

隐私文本字段映射成的特征数据a^x，根据隐私文本字段A的划分结果、子字段值域的划分结果、以及子字段值域的标识符分配结果不同而不同，因此子字段A₁,A₂,…,A_n、子字段值域的划分其中k＝1,…,n、子字段值域划分的标识符其中k＝1,…,n为映射相关参数。

优选地，所述面向数字图书馆的用户隐私保护方法，其步骤(2)对于精确的数字图书馆查询语句，即查询隐私数据等于查询条件的记录，所述查询条件为唯一确定的隐私文本字段A的值，则将所述查询条件按照特征数据的构造方法，构造为加密查询条件，加密查询语句为查询特征数据等于加密查询条件的记录。

优选地，所述面向数字图书馆的用户隐私保护方法，其步骤(2)对于模糊的数字图书馆查询语句，即查询隐私数据等于查询条件的记录，所述查询条件为具有通配字符串的隐私文本字段A的值，将所述查询条件按照特征数据的子字段划分方法划分为多个子字符串，将其中不包含通配符的子字符串按照特征数据构造方法映射为相应加密查询子字符串，将其中包含通配符的子字符串映射为相同长度的通配子字符串，将所述加密查询子字符串与相同长度的通配符子字符串按照查询条件相应子字符串的顺序拼接获得的字符串作为加密查询条件，加密查询语句为查询特征数据等于加密查询条件的记录。

优选地，所述面向数字图书馆的用户隐私保护方法，其步骤(2)对于范围查询的数字图书馆查询语句，即查询隐私数据大于或小于查询条件的记录，所述查询条件为唯一确定的隐私文本字段A的值，将所述查询条件按照特征数据的构造方法，构造为加密查询条件，加密查询语句为查询特征数据大于或小于加密查询条件的记录。

按照本发明的另一个方面，提供了一种面向数字图书馆的用户隐私保护系统，包括：隐私数据加密模块、查询转换模块、加密查询模块、以及解密查询模块；

所述隐私数据加密模块，用于获取可标识用户身份的隐私数据，进行加密生成密文数据和特征数据，并提交给数字图书馆服务器；

所述可标识用户身份的隐私数据为特定长度的字符串形式；所述特征数据与所述隐私数据具有相同的长度，所述特征数据与所述隐私数据被划分成相同预设长度的多个子字符串，所述特征数据的子字符串用于表征所述隐私数据相应子字段a_k的有序性；

所述查询转换模块，用于获取用户提交的数字图书馆查询语句，根据特征数据的构造方法，将查询语句转换为在特征数据上执行的加密查询语句；

所述加密查询模块，用于将查询转换模块获取的加密查询语句提交给数字图书管服务器，进行查询获得加密查询结果并返回可信客户端；

所述解密查询模块，用于将加密查询结果解密，并在解密后的明文上执行用户提交的数字图书馆查询语句，获得精确查询结果。

优选地，所述面向数字图书馆的用户隐私保护系统，其对于两个特征数据的子字符串M_k(a_k)、M_l(a_l)，其相应的隐私数据子字符串a_k、a_l，当有M_k(a_k)≥M_l(a_l)时，必有a_k≥a_l。

优选地，所述面向数字图书馆的用户隐私保护系统，其所述查询转换模块包括：

精确查询转换子模块，用于对于精确的数字图书馆查询语句，即查询隐私数据等于查询条件的记录，所述查询条件为唯一确定的隐私文本字段A的值，则将所述查询条件按照特征数据的构造方法，构造为加密查询条件，加密查询语句为查询特征数据等于加密查询条件的记录。

模糊查询转换子模块，用于对于模糊的数字图书馆查询语句，即查询隐私数据等于查询条件的记录，所述查询条件为具有通配字符串的隐私文本字段A的值，将所述查询条件按照特征数据的子字段划分方法划分为多个子字符串，将其中不包含通配符的子字符串按照特征数据构造方法映射为相应加密查询子字符串，将其中包含通配符的子字符串映射为相同长度的通配子字符串，将所述加密查询子字符串与相同长度的通配符子字符串按照查询条件相应子字符串的顺序拼接获得的字符串作为加密查询条件，加密查询语句为查询特征数据等于加密查询条件的记录。

范围查询转换子模块，用于对于范围查询的数字图书馆查询语句，即查询隐私数据大于或小于查询条件的记录，所述查询条件为唯一确定的隐私文本字段A的值，将所述查询条件按照特征数据的构造方法，构造为加密查询条件，加密查询语句为查询特征数据大于或小于加密查询条件的记录。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，由于针对数字图书馆的用户隐私，设计由于的特征数据及相应的查询转换方法，从而通过两步查询，即加密查询和解密查询，在保证服务器可用性的前提下，保护用户隐私，安全性较好。

附图说明

图1是本发明提供的面向数字图书馆的用户隐私保护结构示意图；

图2是实施例1提供的特征数据构造方法示意图；

图3是实施例1相似查询高效性评估结果；

图4是实施例1范围查询高校性评估结果。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的面向数字图书馆的用户隐私保护方法，包括以下步骤：

所述可标识用户身份的隐私数据为特定长度的字符串形式，包括身份证号、图书证号、手机号；对于用户的身份隐私数据，按照现有的数据加密方法，例如AES加密方法进行加密。

所述特征数据与所述隐私数据具有相同的长度，所述特征数据与所述隐私数据被划分成相同预设长度的多个子字符串，所述特征数据的子字符串用于表征所述隐私数据相应子字段a_k的有序性，即对于两个特征数据的子字符串M_k(a_k)、M_l(a_l)，其相应的隐私数据子字符串a_k、a_l，当有M_k(a_k)≥M_l(a_l)时，必有a_k≥a_l；

所述特征数据优选按照如下方法构造：

图书馆服务器的后台数据库中存储的用户资料表R(…,A,…)，其中为所述可标识用户身份的隐私数据的存储字段即隐私文本字段A特定长度的字符串；对于所述可标识用户身份的隐私数据进行加密生成用于存储密文数据的密文字段A^E以及用于存储对应特征数据的特征字段A^X，A^E优选为二进制类型。

对于A的任意字段值a，按照如下方法获取其特征数据a^x：

A1、任意两个相邻子字段不重叠；

A3、各个子字段长度之和等于字段本身，即length(A₁)+…+length(A_n)＝length(A)；其中length(A₁)为子字段A₁的长度，length(A_n)为子字段A_n的长度，以此类推。

B1、任一子域均不为空集，即

B2、任意两个相邻子域不重叠，即

B3、各个子域的并集等于该子字段A_k的值域，即

C1、各个标识符与子字段A_k拥有相同长度，即

C2、各个标识符是随机有序的，即

a^x＝M₁(a₁)M₂(a₂)…M_n(a_n)

(2)查询转换：获取用户提交的数字图书馆查询语句，根据特征数据的构造方法，将查询语句转换为在步骤(1)中获取的特征数据上执行的加密查询语句；具体而言：

对于精确的数字图书馆查询语句，即查询隐私数据等于查询条件的记录，所述查询条件为唯一确定的隐私文本字段A的值，则将所述查询条件按照特征数据的构造方法，构造为加密查询条件，加密查询语句为查询特征数据等于加密查询条件的记录；即：

对于精确查询：R.A＝a，其中a表示字符串常量，A为隐私字段，将字符串常量a覆盖了t个子段，并假定它对应于各个子段的值分别为a₁,a₂,…,a_t，即a＝a₁a₂…a_t，则精确查询条件转换如下：

对于模糊的数字图书馆查询语句，即查询隐私数据等于查询条件的记录，所述查询条件为具有通配字符串的隐私文本字段A的值，将所述查询条件按照特征数据的子字段划分方法划分为多个子字符串，将其中不包含通配符的子字符串按照特征数据构造方法映射为相应加密查询子字符串，将其中包含通配符的子字符串映射为相同长度的通配子字符串，将所述加密查询子字符串与相同长度的通配符子字符串按照查询条件相应子字符串的顺序拼接获得的字符串作为加密查询条件，加密查询语句为查询特征数据等于加密查询条件的记录；即：

对于模糊查询：R.A＝a％b，其中，a和b为字符串常量，％为任意长度字符串，字符串a从靠左完整覆盖了t个子段，分别为：A₁,A₂,…,A_t，其对应于各子段的值分别为a₁,a₂,…,a_t；字符串b靠右完整覆盖了r个子段，分别为：A_n-r+1,A_n-r+2,…,A_n，其对应于各子段的值分别为b₁,b₂,…,b_r，则模糊查询条件转换如下：

其中

对于范围查询的数字图书馆查询语句，即查询隐私数据大于或小于查询条件的记录，所述查询条件为唯一确定的隐私文本字段A的值，将所述查询条件按照特征数据的构造方法，构造为加密查询条件，加密查询语句为查询特征数据大于或小于加密查询条件的记录；即：

对于范围查询：R.A＞a或R.A＜a，其中a表示字符串常量，A为隐私字段，将字符串常量a覆盖了t个子段，并假定它对应于各个子段的值分别为a₁,a₂,…,a_t，即a＝a₁a₂…a_t，则范围查询条件转换如下：

或

(3)加密查询：将步骤(2)中获取的加密查询语句提交给数字图书管服务器，进行查询获得加密查询结果并返回可信客户端；具体地：

所述数字图书馆服务器，接收加密查询语句后，在特征数据上执行加密查询语句，获得加密查询结果；所述加密查询结果必然包含精确查询结果，将所述加密查询结果返回给可信客户端。

通过在服务器端完成的加密查询步骤和在可行客户端完成的解密查询步骤，完成最终的查询，而在服务器上的数据以及服务器与可信客户端传输的数据始终是密文数据，因此具有良好的安全性和高效性；具体地：

所有可标识用户身份的资料隐私数据在提交给数字图书馆服务器端数据库存储之前，必须先在可信客户端使用数据加密算法进行严格加密，确保不可信服务器端无法识别出用户真实身份，从而实现用户身份匿名化效果。此时，不可信服务器虽然仍能获知用户的部分背景资料数据(非身份标识数据)，也能获知包括用户提交的查询在内的图书服务请求数据，进而分析出用户的行为兴趣偏好，但由于用户身份匿名化，攻击者无法将这些隐私信息与某个具体的用户关联起来。因而，该方案能有效地确保用户资料隐私和用户行为隐私在不可信数字图书馆服务端的安全性。此外，该方案还继承匿名化技术的诸多优点，不会对数字图书馆信息服务的准确性、高效性和实用性造成任何影响。然而，在数字图书馆存在大量定义在用户隐私数据上的查询操作(如根据手机号查询用户)。一旦使用加密算法对服务器端数据库中用户数据进行加密，则这些数据查询操作将无法再在密文数据上正确执行，从而导致数字图书馆平台变得不可用。为了解决用户资料数据的密文查询问题，可以将服务器端的密文传输回客户端，然后在客户端先对密文进行解密，再在解密后的数据上进行查询。但是由于加/解密操作的开销十分巨大，这种先解密再查询的方式又势必会严重降低数据查询效率。虽然也有一些数据加密方法支持密文直接查询(而无需解密数据)，但存在安全性较差或无法完全支持常见的字符串查询(如相似查询或范围查询)等缺点，因而难以直接运用它们解决以上的用户资料数据加密查询问题。为此，我们深入研究了数字图书馆用户资料数据的加密查询问题，其基本思路是：为用户密文数据附加额外的特征信息，使得各类数据查询操作的大部分处理过程可在服务器端进行，而无需解密数据，从而极大地提高用户数据查询效率，确保整个方案的实际可用性。

按照本发明提供的面向数字图书馆的用于隐私保护方法，所述特征数据不可避免需要捕获用户隐私数据的某些关键性特征，而特征数据是整个数字图书馆用户隐私保护方案的核心关键。为此，为用户隐私数据构造生成的特征数据应该满足以下几个方面的要求。A、数据安全性：特征数据对于服务器端的攻击者是完全可见的，所以特征数据需要保证其自身的安全性，即攻击者无法根据掌握的特征数据分析推测出用户隐私数据；B、查询有效性：在特征数据的辅助下，用户所提交的定义在用户隐私数据上的各类查询操作(如相似查询、范围查询等)应能转换为定义在特征数据上的新查询，使得这些新查询能在服务器端数据库上正确执行。并且要求新查询所返回结果必须是用户真实查询结果的超集，以保证查询正确性；C、查询高效性：服务器端通过执行新查询，必须能够剔除尽可能多的非目标数据，从而使得返回客户端的加密查询结果尽可能地接近实际结果，以减轻客户端的查询计算量，以改善用户查询效率。

目前虽然已经有一些隐私字段的查询方法，然而这些方法未实际考虑到数字图书馆隐私字段的特点，即标识用户身份的数据，是长度相同的字符串数据，如身份证号、手机号、图书证号等，普通设计的特征数据，在查询转换时，对于模糊查询转换过于复杂，范围查询可能不可用，最终导致加密查询结果太过庞大，解密的工作量巨大，无法满足图书馆服务其对于查询高效性的要求。本发明根据标识用户身份的数据的特性，设计了相应长度的特征数据，标识其多个子字段的顺序，从而将查询转换工作，尤其是模糊查询转换工作的计算量控制在可接受范围内，另一方面控制加密查询结果的规模，从而平衡解密的工作量，保证查询高效性和实际可用性。

本发明提供的面向数字图书馆的用户隐私保护系统，如图1所示，包括：

隐私数据加密模块、查询转换模块、加密查询模块、以及解密查询模块；

所述查询转换模块，用于获取用户提交的数字图书馆查询语句，根据特征数据的构造方法，将查询语句转换为在特征数据上执行的加密查询语句；包括：

精确查询转换子模块，用于对于精确的数字图书馆查询语句，即查询隐私数据等于查询条件的记录，所述查询条件为唯一确定的隐私文本字段A的值，则将所述查询条件按照特征数据的构造方法，构造为加密查询条件，加密查询语句为查询特征数据等于加密查询条件的记录；即：

模糊查询转换子模块，用于对于模糊的数字图书馆查询语句，即查询隐私数据等于查询条件的记录，所述查询条件为具有通配字符串的隐私文本字段A的值，将所述查询条件按照特征数据的子字段划分方法划分为多个子字符串，将其中不包含通配符的子字符串按照特征数据构造方法映射为相应加密查询子字符串，将其中包含通配符的子字符串映射为相同长度的通配子字符串，将所述加密查询子字符串与相同长度的通配符子字符串按照查询条件相应子字符串的顺序拼接获得的字符串作为加密查询条件，加密查询语句为查询特征数据等于加密查询条件的记录；即：

对于模糊查询：R.A＝a％b，其中，a和b为字符串常量，％为任意长度字符串，字符串a从靠左完整覆盖了t个子段，分别为：A₁,A₂,…,A_t，其对应于各子段的值分别为a₁,a₂,…,a_t；字符串b靠右完整覆盖了r个子段，分别为：A_n-+1,A_n-r+2,…,A_n，其对应于各子段的值分别为b₁,b₂,…,b_r，则模糊查询条件转换如下：

其中

范围查询转换子模块，用于对于范围查询的数字图书馆查询语句，即查询隐私数据大于或小于查询条件的记录，所述查询条件为唯一确定的隐私文本字段A的值，将所述查询条件按照特征数据的构造方法，构造为加密查询条件，加密查询语句为查询特征数据大于或小于加密查询条件的记录；即：

或

所述加密查询模块，用于将查询转换模块获取的加密查询语句提交给数字图书管服务器，进行查询获得加密查询结果并返回可信客户端；具体用于：

以下为实施例：

实施例1

一种面向数字图书馆的用户隐私保护方法，包括以下步骤：

所述可标识用户身份的隐私数据为特定长度的字符串形式，本实施例针对的隐私数据为图书证号，采用AES加密方法进行加密。

所述特征数据优选按照如下方法构造，如图2所示：

对于图书证号A的任意字段值a，按照如下方法获取其特征数据a^x：

(1-1)将图书证号字段A划分为6个子字段，记作：A₁,A₂,…,A₆，使得：

A₁为第1至4位，表达“年度”；A₂为第5至6位，表达“部门”，A₃至A₆分别为第7、8、9、10位，表达“序号”。

(1-2)将步骤(1-1)中获得的子字段A_k的值域D^k＝domain(A_k)划分为多个子域，如图2所示。

(1-3)为步骤(1-2)中获得的各个子字段A_k的各个子域分别分配互不相同的有序标识符记作：如图2所示。

a^x＝M₁(a₁)M₂(a₂)…M_n(a_n)

其中

或

实施例2

应用实施例1提供的方法的面向数字图书馆的用户隐私保护系统，包括：

所述隐私数据加密模块，用于获取可标识用户身份的隐私数据即图书证号，进行AES加密生成密文数据和特征数据，并提交给数字图书馆服务器；

其中

或

在实施例1中，用户隐私数据加密借助于传统加密算法完成，因而攻击者几乎不可能根据密文数据直接推测出可标识用户身份的隐私数据。为了支持数据查询操作，特征数据不可避免需要反映用户隐私数据的某些关键特征，也会在一定程度上暴露用户隐私信息。为此，特征数据的安全性需要评估，即基于方案构造生成的特征数据，服务器端攻击者能否分析出相应的明文数据或相关敏感信息。这里主要分析几类最常见的攻击案例，结果如下：

(案例1)抵抗统计攻击。由实施例1的特征数据构造方法可知：随着步骤(1-1)字段划分粒度和步骤(1-2)值域划分粒度的不断细化，不同明文数据被映射为不同特征数据的概率将不断接近于1。在这种情况下，攻击者运用统计攻击法有可能推断出明文数据。以下考虑极端的情况。假设步骤(1-1)中各子段长度被设定为1，步骤(1-2)中各子域大小也被设定为1。此时，不同明文数据将被映射为不同特征数据(即一对一映射)。如果攻击者掌握了大量的特征数据，则可统计出各标识字符(步骤(1-3)的设置)在这些特征数据中出现的频度，从而近似得出各标识字符在特征值域中的出现概率。同时，攻击者还可根据背景知识获知各明文字符在明文值域中的出现概率。通过对比该两个概率分布(此时两者应表现出相同的概率分布)，攻击者可以推断出各标识字符对应的明文字符，从而确定特征映射函数，进而获知特征数据对应的明文数据。然而，可以看出，以上统计攻击过程基于一个重要前提：不同明文数据被映射为不同特征数据的概率要尽可能接近于1。否则，隐私数据和明文数据之间字符概率分布的一致性将不复存在。而根据图2的特征数据生成示意可知，一个特征数据平均对应400个不同明文数据。此时，攻击者显然难以利用统计攻击来推测出特征函数，更难以进一步推断出特征数据对应的明文数据。

(案例2)抵抗已知明文攻击。已知明文攻击假设攻击者已经掌握了大量的特征数据及其对应的明文数据，试图利用它们进一步推测出其他特征数据对应的明文数据。在样本不够多时，攻击者显然难以推断出特征映射函数。这里假定样本足够多，并且样本富有选择性(即选择明文攻击)。此时，攻击者运用已知明文攻击法有可能推断出步骤(1-1)到步骤(1-3)所确定的特征函数。然而，即使这样，攻击者仍难以运用特征函数推测出其他特征数据对应的明文数据。因为特征函数是“多对一”映射(即多个明文数据映射为同一特征数据)，攻击者只能根据特征函数为给定的特征数据确定可能的明文数据，即获知明文的概率等于(N由步骤(1-1)和步骤(1-2)的参数设置决定，其值等于隐私数据值域大小除以特征数据值域大小)。可看出，除非字段划分(步骤(1-1))和值域划分(步骤(1-2))被细化为最小粒度，使得特征函数成为一对一映射，攻击者才可能利用特征函数推断出其他特征数据对应的明文数据。而步骤(1-1)的字段划分粒度和步骤(1-2)值域划分粒度是由系统管理员根据安全需求进行预先设置，不可能被设置为最小值。因而利用已知明文攻击，攻击者虽然可能可以推断出特征函数，但难以据此进一步推断出未知特征数据对应的明文数据。

基于以上的案例分析，我们知道：即使攻击者已经获知步骤(1-1)和步骤(1-2)的映射参数设置，并据此掌握了特征映射函数，但对于某一给定的特征数据，攻击者进一步推断分析出相应明文数据的概率等于(结合图2的案例，可看出N通常拥有较大值)。因此无论用那种攻击方法，攻击者均难以确定特征数据对应的明文数据，即本文提出的方案具有良好的数据安全性。

本小节实验评估方案的查询高效性，即评估映射得到的新查询能否过滤掉服务器端绝大部分的非目标记录，以提高用户查询效率。用户资料表包含随机生成的一百万条记录，其中，隐私字段由10位数字构成的图书证号。实验在两台电脑上进行，一台作为服务器，另一台作为客户端。从图1所示的查询过程可看出，方案的查询高效性依赖于映射得到的新查询对服务器端非目标元组的过滤效果。为此，定义衡量公式如下其中，K′₁表示满足用户查询的元组数量，K′₂表示满足新查询的元组数量，K表示与用户资料表元组数量。显然，其值越大表示对非目标记录的过滤效果越好。表1给出了实验涉及的基本相似查询条件和范围查询条件。

表1相似查询和范围查询(a₁、a₂和a₃分别对应4个数字、2个数字和1个数字)

第一组实验评估相似查询高效性。实验中，一个特征值对应的明文数量(即N)持续变化，从2⁵增长到2¹⁰(N通过设定步骤1和步骤2参数完成)，实验结果如图3所示(横坐标表示N值，纵坐标为FR值)。根据图3，有以下观察：(1)随着N值增长，FR值将变小，即新查询对非目标记录的过滤效果将变差，因为N值的增长会使得不同明文被映射为相同特征值的概率变大，从而使得非目标记录被过滤掉的概率变小，即FR值变小(极端情况下，所有明文都被映射为同一个特征值，此时特征数据对非目标元组的过滤效果最差，即FR值为0)；(2)大部分非目标元组将在服务器端被过滤掉(过滤比率大于0.9，即使N被设置为较大值)，极大地降低了返回客户端的元组规模，极大地提高了相似查询效率；(3)不同信息量的相似查询条件会导致不同的FR值变化趋势，即相似查询条件匹配字符串包含的信息量越多，FR值越大(相同N值设定下，L1小于L2，L2小于L3)，这是因为相似查询包含的信息量越大，返回客户端的记录规模就越少，导致FR值变大。第二组实验评估范围查询高效性，实验结果如图4所示。可看出：(1)特征数据使得大部分的非目标元组在服务器端被过滤掉，从而降低返回客户端的元组规模，极大提高了范围查询效率。(2)随着N值增长，新查询对非目标元组的过滤效果将变差。综合两组实验，无论相似查询还是范围查询，定义在特征数据上的新查询均能过滤掉绝大部分的非目标元组(90％以上)，即本文方案具有良好的查询高效性，能有效地降低用户数据查询开销。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向数字图书馆的用户隐私保护方法，其特征在于，包括以下步骤：

2.如权利要求1所述的面向数字图书馆的用户隐私保护方法，其特征在于，步骤(1)所述特征数据按照如下方法构造：

对于A的任意字段值a，按照如下方法获取其特征数据a^x：

A1、任意两个相邻子字段不重叠；

(1-2)将步骤(1-1)中获得的子字段A_k的值域D^k＝domain(A_k)划分为m个子域，分别记作：使得：

B1、任一子域均不为空集，即

B2、任意两个相邻子域不重叠，即

B3、各个子域的并集等于该子字段A_k的值域，即

C1、各个标识符与子字段A_k拥有相同长度，即

C2、各个标识符是随机有序的，即

a^x＝M₁(a₁)M₂(a₂)…M_n(a_n)

3.如权利要求1所述的面向数字图书馆的用户隐私保护方法，其特征在于，步骤(2)对于精确的数字图书馆查询语句，即查询隐私数据等于查询条件的记录，所述查询条件为唯一确定的隐私文本字段A的值，则将所述查询条件按照特征数据的构造方法，构造为加密查询条件，加密查询语句为查询特征数据等于加密查询条件的记录。

4.如权利要求1所述的面向数字图书馆的用户隐私保护方法，其特征在于，步骤(2)对于模糊的数字图书馆查询语句，即查询隐私数据等于查询条件的记录，所述查询条件为具有通配字符串的隐私文本字段A的值，将所述查询条件按照特征数据的子字段划分方法划分为多个子字符串，将其中不包含通配符的子字符串按照特征数据构造方法映射为相应加密查询子字符串，将其中包含通配符的子字符串映射为相同长度的通配子字符串，将所述加密查询子字符串与相同长度的通配符子字符串按照查询条件相应子字符串的顺序拼接获得的字符串作为加密查询条件，加密查询语句为查询特征数据等于加密查询条件的记录。

5.如权利要求1所述的面向数字图书馆的用户隐私保护方法，其特征在于，步骤(2)对于范围查询的数字图书馆查询语句，即查询隐私数据大于或小于查询条件的记录，所述查询条件为唯一确定的隐私文本字段A的值，将所述查询条件按照特征数据的构造方法，构造为加密查询条件，加密查询语句为查询特征数据大于或小于加密查询条件的记录。

6.一种面向数字图书馆的用户隐私保护系统，其特征在于，包括：隐私数据加密模块、查询转换模块、加密查询模块、以及解密查询模块；

7.如权利要求6所述的面向数字图书馆的用户隐私保护系统，其特征在于，对于两个特征数据的子字符串M_k(a_k)、M_l(a_l)，其相应的隐私数据子字符串a_k、a_l，当有M_k(a_k)≥M_l(a_l)时，必有a_k≥a_l。

8.如权利要求6所述的面向数字图书馆的用户隐私保护系统，其特征在于，所述查询转换模块包括：

9.如权利要求6所述的面向数字图书馆的用户隐私保护系统，其特征在于，所述查询转换模块包括：

10.如权利要求6所述的面向数字图书馆的用户隐私保护系统，其特征在于，所述查询转换模块包括：