CN101964034B

CN101964034B - 一种模式信息损失最小化的序列类数据隐私保护方法

Info

Publication number: CN101964034B
Application number: CN201010298698.1A
Authority: CN
Inventors: 陈珂; 寿黎但; 陈刚; 胡天磊; 尚璇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2010-09-30
Filing date: 2010-09-30
Publication date: 2012-08-15
Anticipated expiration: 2030-09-30
Also published as: CN101964034A

Abstract

本发明公开了一种模式信息损失最小化的序列类数据隐私保护方法。基于一个广义的模式定义模型以及实际应用需求来确定模式定义函数集，在此基础上选择能够实现模式信息损失最小化的模式映射函数以提取模式特征。同时基于攻击者的背景知识来确定隐私攻击类型，基于k匿名技术，对时间序列的QI属性值和模式特征施加(k，P)匿名模型，该模型将时间序列的属性泛化区间以及模式特征分别作为独立的形式发布，在保证数据隐私的基础上，将时间序列的模式信息最小化，保证数据的可用性。(k，P)匿名模型能够兼容各种模式定义方式并拥有一套完整的可用性评估机制，其完善性和有效性使得(k，P)匿名模型能够在最大程度上博得信赖，获得广泛应用。

Description

一种模式信息损失最小化的序列类数据隐私保护方法

技术领域

本发明涉及数据库系统、数据隐私与模式信息提取技术，特别是涉及一种模式信息损失最小化的序列类数据隐私保护方法。

背景技术

时间序列数据被公认为是自然界和人类社会中一类非常重要的数据，其应用范围包括金融分析和社交行为追踪等重要领域。近几年来，传感器网络，RFID和无线定位设备的快速发展，更加凸显了时间序列数据的重要性。但是，值得注意的是，时间序列数据中也包含着大量的隐私信息，如果不加以适当的保护，数据拥有者对数据隐私的担忧将极大的桎梏相关应用的发展。

目前，时间序列数据的隐私保护问题还没有得到很好的解决。主要原因是时间序列数据与传统表数据相比，其数据特征相对复杂。时间序列数据的各个属性在时间上存在一种前后依赖的关系，整体表现为一种模式信息。模式匹配是时间序列数据的一类重要查询。

k匿名是传统表数据领域的一类重要的隐私保护技术。但是，如果将这种方法直接应用于时间序列数据，其缺陷十分明显。因为k匿名所要求的属性值泛化会使时间序列的模式信息遭到严重破坏，从而使得数据可用性大大降低。目前，一些与时间序列相关的隐私保护技术也各自存在缺陷。TGA是一种基于干扰的匿名技术，首先将时间序列进行分组，然后在组内随机重建时间序列，这种方法导致的模式信息损失也非常之大。BFP2KA是一种基于字符串的隐私保护技术，通过构建前缀树并对其进行剪枝来实现k匿名。虽然BFP2KA号称能够保留模式，但其所谓的模式仅限于字符串的精确匹配，通用性受到很大的限制。

发明内容

本发明的目的在于提供一种模式信息损失最小化的序列类数据隐私保护方法，基于k匿名技术，构建出一个新的匿名模型，即(k，P)匿名模型，在有效保护隐私的同时达到模式信息损失最小化的效果，有效的解决了时间序列的隐私保护问题。

本发明采用的技术方案的步骤如下：

1)建立一个广义的时间序列模式定义模型，根据这个模型以及实际应用的模式挖掘任务需求，选择符合实际应用需求的模式定义函数集；

2)根据步骤1)中提出的模式定义函数集，确定模式映射函数，时间序列的属性分为标识属性，QI属性和敏感属性三种，时间序列的模式特征由模式映射函数基于QI属性来进行提取；

3)根据时间序列的属性值以及时间序列的模式特征，定义隐私攻击类型，构建(k，P)匿名模型以保护时间序列数据隐私；

4)根据上述步骤2)中所述的时间序列的模式特征，衡量整个原始数据集中任意两条时间序列之间的模式相似性，构建P子组，以达到模式信息损失最小化的效果；

5)基于步骤4)中形成的P子组，分析任意两个P子组之间的QI属性值的相似性，以自底向上的聚类方式对P子组进行聚类，形成k匿名组，使得原始数据集最终满足(k，P)匿名模型的要求；

6)定义(k，P)匿名模型的信息损失衡量策略，并分析其隐私泄露概率，完成对(k，P)匿名模型的可用性评估，同时根据分组结果，对时间序列数据进行属性值的泛化，完成数据发布。

步骤1)中选用的模式定义模型，兼容已有文献中所有的模式定义方式，对于一条具体的时间序列r，其模式定义函数集形式化为p(r)＝<f₁，f₂，...，f_m>，m为系统变量，其中，f_i(1≤i≤m)为任意两个或两个以上属性的相关性函数。

步骤2)中的模式特征应满足以下两个条件：a)由原始时间序列经过特定的模式映射函数得出；b)可根据该模式特征对原始时间序列的模式进行重建。模式特征从QI属性中提取，并作为一种独立的形式发布。要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。

步骤3)中构建的(k，P)匿名模型是一个双层隐私保护模型，其具体含义如下：

a)在第一层约束中，整个原始数据集被要求在QI属性上满足k匿名的条件；

b)在第二层约束中，在每一个k匿名组内，要求每一条时间序列的模式特征都至少与其他P-1条时间序列相同。

步骤4)中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识。

步骤6)中提到的信息损失，包括属性值信息损失以及模式信息损失两部分，属性值信息损失由于属性值泛化而产生，模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异，在(k，P)匿名模型约束下，证明在最坏情况下的隐私泄露概率为1/P。

本发明具有的有益效果是：

本发明充分利用了传统表数据领域的隐私保护模型以及现有的时间序列模式特征提取技术，将两者进行融合，为时间序列构建出一个新的隐私保护模型，(k，P)匿名模型。该模型将时间序列的各个属性区间以及整条序列的模式特征分别作为独立的形式发布，能够在充分保证数据隐私的基础上，将时间序列的模式信息最小化，充分保证了数据的可用性。

附图说明

图1是本发明实施步骤流程图。

图2是(k，P)匿名模型构造示意图。

具体实施方式

下面结合附图和具体实施对本发明的技术方案作进一步说明。

1、如图1与图2所示，本发明具体实施过程和工作原理如下：

1)建立一个广义的时间序列模式定义模型，根据这个模型以及实际应用的模式挖掘任务需求，选择合适的模式定义函数集(即符合实际应用需求的模式定义函数集)；

2)根据步骤1)中提出的模式定义函数集，确定模式映射函数。时间序列的属性分为标识属性，QI属性(即联合标识属性)和敏感属性三种。原始时间序列的模式特征由模式映射函数基于QI属性来进行提取；

3)根据时间序列的属性值以及模式特征，定义隐私攻击类型，构建(k，P)匿名模型以保护时间序列数据隐私；

4)根据上述步骤2)中所述的模式特征，衡量时间序列两两之间(即原始数据集中任意两条时间序列之间)的模式相似性，构建P子组(P子组的大小由参数P确定，在同一个P子组中的时间序列都具有相同的模式特征)，以达到模式信息损失最小化的效果；

6)定义(k，P)匿名模型的信息损失衡量策略，并分析其隐私泄露概率，完成对(k，P)匿名模型的可用性评估。同时根据分组结果，对时间序列数据进行属性值的泛化，完成数据发布。

步骤1)中选用的模式定义模型，可以兼容已有文献中所有的模式定义方式。对于一条具体的时间序列r，其模式定义函数集可形式化为p(r)＝<f₁，f₂，...，f_m>，m为系统变量。其中，f_i(1≤i≤m)为任意两个或两个以上属性的相关性函数。

步骤2)中的模式特征应满足以下两个条件：a)由原始时间序列经过特定的模式映射函数得出；b)可根据该模式特征对原始时间序列的模式进行重建。模式特征从QI属性中提取，并作为一种独立的形式发布。要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。鉴于模式信息的重要性，现有文献中有大量广为人知的模式特征提取技术，包括SAX，PAA，PLA和APCA等。步骤1)中定义的模式定义模型可以完全兼容这些模式特征提取技术。由于SAX的直观性和易操作性，以下几个步骤的具体实施方式将在SAX的基础上进行阐述。SAX技术将时间序列的属性值进行离散化，最终将其模式特征表示为一条字符串，其参数level用于控制模式特征的精确程度，即与原始时间序列模式的匹配程度。level值越大，模式信息损失越小。

步骤3)中，根据时间序列的属性值以及模式特征，分析攻击者的背景知识，定义隐私攻击类型。由于最终发布的数据中包含最大化保留的模式信息，所以攻击者的背景知识可以分为两大类，一类是关于时间序列属性值的背景知识，定义为K_v，另一类是关于模式信息的背景知识，定义为K_p。相应的，攻击者的隐私攻击类型可以划分为三大类：a)基于K_v的隐私攻击；b)基于K_p的隐私攻击；c)基于K_v∪K_p的隐私攻击。(k，P)匿名模型基于上述定义的三种隐私攻击类型进行构建，能够有效的抵御隐私攻击，从而保证用户隐私。

(k，P)匿名模型将时间序列的各个属性区间，以及整条序列的模式特征分别作为独立的形式发布，力求达到模式信息损失最小化的效果。(k，P)匿名模型是一个双层隐私保护模型，其具体含义如下：

a)在第一层约束中，整个时间序列原始数据集被要求在QI属性上满足k匿名的条件，在数据发布时发布每个k匿名组各个属性的泛化区间；

b)在第二层约束中，在每一个k匿名组内，要求每一条时间序列的模式特征都至少与其他P-1条时间序列相同，在数据发布时发布每条时间序列的模式特征。(k，P)匿名模型的构造示例如图2所示，在图2中，我们根据一个包含8条时间序列的原始数据集来构建(k，P)匿名模型，首先可将其分为2个k匿名组(k匿名组1和k匿名组2)，每个k匿名组中包含四条时间序列，发布每个k匿名组的各个属性的泛化区间，然后，将每个k匿名组各进一步划分为两个P子组，发布各个P子组的模式特征。

步骤4)中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识，需具体问题具体分析，不可一概而论。对于SAX而言，我们将模式特征的相似性定义为两条模式特征字符串之间的欧式距离。在进行分组以满足(k，P)匿名模型约束时，首先根据模式特征的相似性，在整个原始数据集中以一种自顶向下的方式来构造P子组，进一步保证模式信息损失最小化的需求。

步骤5)中，基于步骤4)中形成的P子组，分析任意两个P子组之间的QI属性值的相似性，以自底向上的聚类方式对P子组进行聚类，形成k匿名组，使得原始数据集最终满足(k，P)匿名模型的要求。

步骤6)中提到的信息损失，包括属性值信息损失以及模式信息损失两部分。属性值信息损失由于属性值泛化而产生。对于一条有n个属性的时间序列r而言，其属性区间上限可表示为

属性区间下限表示为

基于上述定义，r的属性值信息损失可形式化为：

\sqrt{Σ_{i = 1}^{n} {({r_{i}}^{+} - {r_{i}}^{-})}^{2} / n}

模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异。在(k，P)匿名模型约束下，能够证明在最坏情况下的隐私泄露概率为1/P。

Claims

1.一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于该方法的步骤如下：

2)根据步骤1)中提出的模式定义函数集，确定模式映射函数，时间序列的属性分为标识属性，联合标识属性和敏感属性三种，时间序列的模式特征由模式映射函数基于联合标识属性来进行提取；

5)基于步骤4)中形成的P子组，分析任意两个P子组之间的联合标识属性值的相似性，以自底向上的聚类方式对P子组进行聚类，形成k匿名组，使得原始数据集最终满足(k，P)匿名模型的要求；

6)定义(k，P)匿名模型的信息损失衡量策略，并分析其隐私泄露概率，完成对(k，P)匿名模型的可用性评估，同时根据分组结果，对时间序列数据进行属性值的泛化，完成数据发布；

a)在第一层约束中，整个原始数据集被要求在联合标识属性上满足k匿名的条件；

b)在第二层约束中，在每一个k匿名组内的每一个P子组中，所有的时间序列都具有相同的模式特征。

2.根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于：步骤1)中选用的模式定义模型，兼容已有文献中所有的模式定义方式，对于一条具体的时间序列r，其模式定义函数集形式化为p(r)＝＜f₁，f₂，...，f_m＞，m为系统变量，其中，f_i(1≤i≤m)为任意两个或两个以上属性的相关性函数。

3.根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于：步骤2)中的模式特征应满足以下两个条件：a)由原始时间序列经过特定的模式映射函数得出；b)可根据该模式特征对原始时间序列的模式进行重建；模式特征从联合标识属性中提取，并作为一种独立的形式发布；要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。

4.根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于：步骤4)中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识。

5.根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法，其特征在于：步骤6)中提到的信息损失，包括属性值信息损失以及模式信息损失两部分，属性值信息损失由于属性值泛化而产生，模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异，在(k，P)匿名模型约束下，证明在最坏情况下的隐私泄露概率为1/P。