CN101964034B - 一种模式信息损失最小化的序列类数据隐私保护方法 - Google Patents
一种模式信息损失最小化的序列类数据隐私保护方法 Download PDFInfo
- Publication number
- CN101964034B CN101964034B CN201010298698.1A CN201010298698A CN101964034B CN 101964034 B CN101964034 B CN 101964034B CN 201010298698 A CN201010298698 A CN 201010298698A CN 101964034 B CN101964034 B CN 101964034B
- Authority
- CN
- China
- Prior art keywords
- mode
- pattern
- time series
- model
- privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种模式信息损失最小化的序列类数据隐私保护方法。基于一个广义的模式定义模型以及实际应用需求来确定模式定义函数集,在此基础上选择能够实现模式信息损失最小化的模式映射函数以提取模式特征。同时基于攻击者的背景知识来确定隐私攻击类型,基于k匿名技术,对时间序列的QI属性值和模式特征施加(k,P)匿名模型,该模型将时间序列的属性泛化区间以及模式特征分别作为独立的形式发布,在保证数据隐私的基础上,将时间序列的模式信息最小化,保证数据的可用性。(k,P)匿名模型能够兼容各种模式定义方式并拥有一套完整的可用性评估机制,其完善性和有效性使得(k,P)匿名模型能够在最大程度上博得信赖,获得广泛应用。
Description
技术领域
本发明涉及数据库系统、数据隐私与模式信息提取技术,特别是涉及一种模式信息损失最小化的序列类数据隐私保护方法。
背景技术
时间序列数据被公认为是自然界和人类社会中一类非常重要的数据,其应用范围包括金融分析和社交行为追踪等重要领域。近几年来,传感器网络,RFID和无线定位设备的快速发展,更加凸显了时间序列数据的重要性。但是,值得注意的是,时间序列数据中也包含着大量的隐私信息,如果不加以适当的保护,数据拥有者对数据隐私的担忧将极大的桎梏相关应用的发展。
目前,时间序列数据的隐私保护问题还没有得到很好的解决。主要原因是时间序列数据与传统表数据相比,其数据特征相对复杂。时间序列数据的各个属性在时间上存在一种前后依赖的关系,整体表现为一种模式信息。模式匹配是时间序列数据的一类重要查询。
k匿名是传统表数据领域的一类重要的隐私保护技术。但是,如果将这种方法直接应用于时间序列数据,其缺陷十分明显。因为k匿名所要求的属性值泛化会使时间序列的模式信息遭到严重破坏,从而使得数据可用性大大降低。目前,一些与时间序列相关的隐私保护技术也各自存在缺陷。TGA是一种基于干扰的匿名技术,首先将时间序列进行分组,然后在组内随机重建时间序列,这种方法导致的模式信息损失也非常之大。BFP2KA是一种基于字符串的隐私保护技术,通过构建前缀树并对其进行剪枝来实现k匿名。虽然BFP2KA号称能够保留模式,但其所谓的模式仅限于字符串的精确匹配,通用性受到很大的限制。
发明内容
本发明的目的在于提供一种模式信息损失最小化的序列类数据隐私保护方法,基于k匿名技术,构建出一个新的匿名模型,即(k,P)匿名模型,在有效保护隐私的同时达到模式信息损失最小化的效果,有效的解决了时间序列的隐私保护问题。
本发明采用的技术方案的步骤如下:
1)建立一个广义的时间序列模式定义模型,根据这个模型以及实际应用的模式挖掘任务需求,选择符合实际应用需求的模式定义函数集;
2)根据步骤1)中提出的模式定义函数集,确定模式映射函数,时间序列的属性分为标识属性,QI属性和敏感属性三种,时间序列的模式特征由模式映射函数基于QI属性来进行提取;
3)根据时间序列的属性值以及时间序列的模式特征,定义隐私攻击类型,构建(k,P)匿名模型以保护时间序列数据隐私;
4)根据上述步骤2)中所述的时间序列的模式特征,衡量整个原始数据集中任意两条时间序列之间的模式相似性,构建P子组,以达到模式信息损失最小化的效果;
5)基于步骤4)中形成的P子组,分析任意两个P子组之间的QI属性值的相似性,以自底向上的聚类方式对P子组进行聚类,形成k匿名组,使得原始数据集最终满足(k,P)匿名模型的要求;
6)定义(k,P)匿名模型的信息损失衡量策略,并分析其隐私泄露概率,完成对(k,P)匿名模型的可用性评估,同时根据分组结果,对时间序列数据进行属性值的泛化,完成数据发布。
步骤1)中选用的模式定义模型,兼容已有文献中所有的模式定义方式,对于一条具体的时间序列r,其模式定义函数集形式化为p(r)=<f1,f2,...,fm>,m为系统变量,其中,fi(1≤i≤m)为任意两个或两个以上属性的相关性函数。
步骤2)中的模式特征应满足以下两个条件:a)由原始时间序列经过特定的模式映射函数得出;b)可根据该模式特征对原始时间序列的模式进行重建。模式特征从QI属性中提取,并作为一种独立的形式发布。要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。
步骤3)中构建的(k,P)匿名模型是一个双层隐私保护模型,其具体含义如下:
a)在第一层约束中,整个原始数据集被要求在QI属性上满足k匿名的条件;
b)在第二层约束中,在每一个k匿名组内,要求每一条时间序列的模式特征都至少与其他P-1条时间序列相同。
步骤4)中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识。
步骤6)中提到的信息损失,包括属性值信息损失以及模式信息损失两部分,属性值信息损失由于属性值泛化而产生,模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异,在(k,P)匿名模型约束下,证明在最坏情况下的隐私泄露概率为1/P。
本发明具有的有益效果是:
本发明充分利用了传统表数据领域的隐私保护模型以及现有的时间序列模式特征提取技术,将两者进行融合,为时间序列构建出一个新的隐私保护模型,(k,P)匿名模型。该模型将时间序列的各个属性区间以及整条序列的模式特征分别作为独立的形式发布,能够在充分保证数据隐私的基础上,将时间序列的模式信息最小化,充分保证了数据的可用性。
附图说明
图1是本发明实施步骤流程图。
图2是(k,P)匿名模型构造示意图。
具体实施方式
下面结合附图和具体实施对本发明的技术方案作进一步说明。
1、如图1与图2所示,本发明具体实施过程和工作原理如下:
1)建立一个广义的时间序列模式定义模型,根据这个模型以及实际应用的模式挖掘任务需求,选择合适的模式定义函数集(即符合实际应用需求的模式定义函数集);
2)根据步骤1)中提出的模式定义函数集,确定模式映射函数。时间序列的属性分为标识属性,QI属性(即联合标识属性)和敏感属性三种。原始时间序列的模式特征由模式映射函数基于QI属性来进行提取;
3)根据时间序列的属性值以及模式特征,定义隐私攻击类型,构建(k,P)匿名模型以保护时间序列数据隐私;
4)根据上述步骤2)中所述的模式特征,衡量时间序列两两之间(即原始数据集中任意两条时间序列之间)的模式相似性,构建P子组(P子组的大小由参数P确定,在同一个P子组中的时间序列都具有相同的模式特征),以达到模式信息损失最小化的效果;
5)基于步骤4)中形成的P子组,分析任意两个P子组之间的QI属性值的相似性,以自底向上的聚类方式对P子组进行聚类,形成k匿名组,使得原始数据集最终满足(k,P)匿名模型的要求;
6)定义(k,P)匿名模型的信息损失衡量策略,并分析其隐私泄露概率,完成对(k,P)匿名模型的可用性评估。同时根据分组结果,对时间序列数据进行属性值的泛化,完成数据发布。
步骤1)中选用的模式定义模型,可以兼容已有文献中所有的模式定义方式。对于一条具体的时间序列r,其模式定义函数集可形式化为p(r)=<f1,f2,...,fm>,m为系统变量。其中,fi(1≤i≤m)为任意两个或两个以上属性的相关性函数。
步骤2)中的模式特征应满足以下两个条件:a)由原始时间序列经过特定的模式映射函数得出;b)可根据该模式特征对原始时间序列的模式进行重建。模式特征从QI属性中提取,并作为一种独立的形式发布。要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。鉴于模式信息的重要性,现有文献中有大量广为人知的模式特征提取技术,包括SAX,PAA,PLA和APCA等。步骤1)中定义的模式定义模型可以完全兼容这些模式特征提取技术。由于SAX的直观性和易操作性,以下几个步骤的具体实施方式将在SAX的基础上进行阐述。SAX技术将时间序列的属性值进行离散化,最终将其模式特征表示为一条字符串,其参数level用于控制模式特征的精确程度,即与原始时间序列模式的匹配程度。level值越大,模式信息损失越小。
步骤3)中,根据时间序列的属性值以及模式特征,分析攻击者的背景知识,定义隐私攻击类型。由于最终发布的数据中包含最大化保留的模式信息,所以攻击者的背景知识可以分为两大类,一类是关于时间序列属性值的背景知识,定义为Kv,另一类是关于模式信息的背景知识,定义为Kp。相应的,攻击者的隐私攻击类型可以划分为三大类:a)基于Kv的隐私攻击;b)基于Kp的隐私攻击;c)基于Kv∪Kp的隐私攻击。(k,P)匿名模型基于上述定义的三种隐私攻击类型进行构建,能够有效的抵御隐私攻击,从而保证用户隐私。
(k,P)匿名模型将时间序列的各个属性区间,以及整条序列的模式特征分别作为独立的形式发布,力求达到模式信息损失最小化的效果。(k,P)匿名模型是一个双层隐私保护模型,其具体含义如下:
a)在第一层约束中,整个时间序列原始数据集被要求在QI属性上满足k匿名的条件,在数据发布时发布每个k匿名组各个属性的泛化区间;
b)在第二层约束中,在每一个k匿名组内,要求每一条时间序列的模式特征都至少与其他P-1条时间序列相同,在数据发布时发布每条时间序列的模式特征。(k,P)匿名模型的构造示例如图2所示,在图2中,我们根据一个包含8条时间序列的原始数据集来构建(k,P)匿名模型,首先可将其分为2个k匿名组(k匿名组1和k匿名组2),每个k匿名组中包含四条时间序列,发布每个k匿名组的各个属性的泛化区间,然后,将每个k匿名组各进一步划分为两个P子组,发布各个P子组的模式特征。
步骤4)中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识,需具体问题具体分析,不可一概而论。对于SAX而言,我们将模式特征的相似性定义为两条模式特征字符串之间的欧式距离。在进行分组以满足(k,P)匿名模型约束时,首先根据模式特征的相似性,在整个原始数据集中以一种自顶向下的方式来构造P子组,进一步保证模式信息损失最小化的需求。
步骤5)中,基于步骤4)中形成的P子组,分析任意两个P子组之间的QI属性值的相似性,以自底向上的聚类方式对P子组进行聚类,形成k匿名组,使得原始数据集最终满足(k,P)匿名模型的要求。
步骤6)中提到的信息损失,包括属性值信息损失以及模式信息损失两部分。属性值信息损失由于属性值泛化而产生。对于一条有n个属性的时间序列r而言,其属性区间上限可表示为属性区间下限表示为基于上述定义,r的属性值信息损失可形式化为:
模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异。在(k,P)匿名模型约束下,能够证明在最坏情况下的隐私泄露概率为1/P。
Claims (5)
1.一种模式信息损失最小化的序列类数据隐私保护方法,其特征在于该方法的步骤如下:
1)建立一个广义的时间序列模式定义模型,根据这个模型以及实际应用的模式挖掘任务需求,选择符合实际应用需求的模式定义函数集;
2)根据步骤1)中提出的模式定义函数集,确定模式映射函数,时间序列的属性分为标识属性,联合标识属性和敏感属性三种,时间序列的模式特征由模式映射函数基于联合标识属性来进行提取;
3)根据时间序列的属性值以及时间序列的模式特征,定义隐私攻击类型,构建(k,P)匿名模型以保护时间序列数据隐私;
4)根据上述步骤2)中所述的时间序列的模式特征,衡量整个原始数据集中任意两条时间序列之间的模式相似性,构建P子组,以达到模式信息损失最小化的效果;
5)基于步骤4)中形成的P子组,分析任意两个P子组之间的联合标识属性值的相似性,以自底向上的聚类方式对P子组进行聚类,形成k匿名组,使得原始数据集最终满足(k,P)匿名模型的要求;
6)定义(k,P)匿名模型的信息损失衡量策略,并分析其隐私泄露概率,完成对(k,P)匿名模型的可用性评估,同时根据分组结果,对时间序列数据进行属性值的泛化,完成数据发布;
步骤3)中构建的(k,P)匿名模型是一个双层隐私保护模型,其具体含义如下:
a)在第一层约束中,整个原始数据集被要求在联合标识属性上满足k匿名的条件;
b)在第二层约束中,在每一个k匿名组内的每一个P子组中,所有的时间序列都具有相同的模式特征。
2.根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法,其特征在于:步骤1)中选用的模式定义模型,兼容已有文献中所有的模式定义方式,对于一条具体的时间序列r,其模式定义函数集形式化为p(r)=<f1,f2,...,fm>,m为系统变量,其中,fi(1≤i≤m)为任意两个或两个以上属性的相关性函数。
3.根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法,其特征在于:步骤2)中的模式特征应满足以下两个条件:a)由原始时间 序列经过特定的模式映射函数得出;b)可根据该模式特征对原始时间序列的模式进行重建;模式特征从联合标识属性中提取,并作为一种独立的形式发布;要求模式映射函数能够使得重建后的模式与原始时间序列模式的差异最小。
4.根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法,其特征在于:步骤4)中提到的模式特征的相似性衡量方式严重依赖于模式映射函数以及攻击者的背景知识。
5.根据权利要求1所述的一种模式信息损失最小化的序列类数据隐私保护方法,其特征在于:步骤6)中提到的信息损失,包括属性值信息损失以及模式信息损失两部分,属性值信息损失由于属性值泛化而产生,模式信息损失是指原始时间序列的模式与根据模式特征重建的模式之间的差异,在(k,P)匿名模型约束下,证明在最坏情况下的隐私泄露概率为1/P。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010298698.1A CN101964034B (zh) | 2010-09-30 | 2010-09-30 | 一种模式信息损失最小化的序列类数据隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010298698.1A CN101964034B (zh) | 2010-09-30 | 2010-09-30 | 一种模式信息损失最小化的序列类数据隐私保护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101964034A CN101964034A (zh) | 2011-02-02 |
CN101964034B true CN101964034B (zh) | 2012-08-15 |
Family
ID=43516901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010298698.1A Expired - Fee Related CN101964034B (zh) | 2010-09-30 | 2010-09-30 | 一种模式信息损失最小化的序列类数据隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101964034B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766020A (zh) * | 2015-04-24 | 2015-07-08 | 广西师范大学 | 商务数据匿名发布中的极小信息损失控制方法 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10440046B2 (en) * | 2015-09-25 | 2019-10-08 | Intel Corporation | Technologies for anonymous context attestation and threat analytics |
CN103345608B (zh) * | 2013-07-19 | 2016-04-27 | 中安消技术有限公司 | 定性分析匿名模型的方法及装置 |
TWI534704B (zh) * | 2014-11-21 | 2016-05-21 | 財團法人資訊工業策進會 | 時間序列資料處理方法及其系統 |
CN105160266B (zh) * | 2015-07-08 | 2018-09-04 | 北方信息控制集团有限公司 | 基于k-匿名的运动轨迹数据隐私保护方法 |
CN105138923B (zh) * | 2015-08-11 | 2019-01-08 | 苏州大学 | 一种保护隐私的时间序列相似度计算方法 |
CN105224881B (zh) * | 2015-09-23 | 2017-12-26 | 华中科技大学 | 一种众包数据库下的双向k‑匿名方法 |
CN106096445A (zh) * | 2016-06-12 | 2016-11-09 | 徐州医科大学 | 基于抽样泛化路径的K‑Anonymity数据处理方法 |
CN107347061B (zh) * | 2017-06-16 | 2019-09-03 | 哈尔滨工业大学深圳研究生院 | 基于安全多方下的时间序列异常检测方法及系统 |
CN107688752B (zh) * | 2017-08-21 | 2020-11-20 | 哈尔滨工程大学 | 一种面向多视图聚类挖掘的个性化隐私保护方法 |
TWI644224B (zh) | 2017-10-18 | 2018-12-11 | 財團法人工業技術研究院 | 資料去識別化方法、資料去識別化裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體 |
CN110233833B (zh) * | 2019-05-23 | 2020-09-29 | 中国科学院计算技术研究所 | 支持社交网络用户隐私保护的消息发送方法及系统 |
CN110262855B (zh) * | 2019-05-28 | 2022-03-29 | 东华大学 | 车联网中基于背景信息的成员推测攻击原型系统 |
CN110287728A (zh) * | 2019-06-14 | 2019-09-27 | 雷恩友力数据科技南京有限公司 | 一种基于相似性度量的边缘计算网络隐私保护方法及系统 |
CN113742781B (zh) * | 2021-09-24 | 2024-04-05 | 湖北工业大学 | 一种k匿名聚类隐私保护方法、系统、计算机设备、终端 |
CN114428642B (zh) * | 2022-02-23 | 2024-04-05 | 中电科申泰信息科技有限公司 | 一种基于新型处理器架构的随机指令生成环境 |
CN117349879A (zh) * | 2023-09-11 | 2024-01-05 | 江苏汉康东优信息技术有限公司 | 基于连续词袋模型的文本数据匿名化隐私保护方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7630986B1 (en) * | 1999-10-27 | 2009-12-08 | Pinpoint, Incorporated | Secure data interchange |
US20090204964A1 (en) * | 2007-10-12 | 2009-08-13 | Foley Peter F | Distributed trusted virtualization platform |
-
2010
- 2010-09-30 CN CN201010298698.1A patent/CN101964034B/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104766020A (zh) * | 2015-04-24 | 2015-07-08 | 广西师范大学 | 商务数据匿名发布中的极小信息损失控制方法 |
CN104766020B (zh) * | 2015-04-24 | 2017-08-01 | 广西师范大学 | 商务数据匿名发布中的极小信息损失控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101964034A (zh) | 2011-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101964034B (zh) | 一种模式信息损失最小化的序列类数据隐私保护方法 | |
Anderson et al. | Local leaders’ perceptions of energy development in the Barnett Shale | |
CN103279499A (zh) | 个性化信息检索中用户隐私保护方法 | |
Shuttleworth et al. | Are Northern Ireland's communities dividing? Evidence from geographically consistent Census of Population data, 1971–2001 | |
CN103995859B (zh) | 一种应用于lbsn网络的基于地理标签的热点区域事件探测系统 | |
CN103150515A (zh) | 一种分布式环境下隐私保护的关联规则挖掘方法 | |
CN101650748A (zh) | 一种土地质量评价方法及系统 | |
CN104166695A (zh) | 一种面向遥感数据内容的剖分、查询及动态显示方法 | |
Boluwade et al. | Application of unsupervised clustering techniques for management zone delineation: Case study of variable rate irrigation in southern Alberta, Canada | |
CN106294575A (zh) | 一种基于Lucene的林地图斑矢量数据查询方法 | |
CN101477533B (zh) | 地理格网下不易获取地理要素空间渐变信息的数字制图方法 | |
CN103020319A (zh) | 一种实时移动空间关键字近似Top-k查询方法 | |
Schipper et al. | Global congruence of riverine fish species richness and human presence | |
CN104850623B (zh) | 多维度数据分析模型动态扩展方法和系统 | |
Gimpel et al. | Conflicting Goals of Redistricting: Do Districts That Maximize Competition Reckon with Communities of Interest? | |
Hua et al. | Spatio‐temporal dynamic analysis of an island city landscape: a case study of Xiamen Island, China | |
Li et al. | Factors associated with farmland area changes in arid regions: a case study of the Shiyang River basin, northwestern China | |
Djunaidi et al. | Disposal Site Selection Using TOPSIS in Wonogiri District Central Java | |
Zhang et al. | Studying changes in land use within the Poyang Lake region | |
CN101826098B (zh) | 一种基于ab直方图的空间查询选择率估计方法 | |
CN107220615A (zh) | 一种融合兴趣点大数据的城市不透水面信息提取方法 | |
CN106599726A (zh) | 一种基于MapReduce的分布式数据匿名处理方法 | |
CN110990869B (zh) | 一种应用于隐私保护的电力大数据脱敏方法 | |
CN103336865A (zh) | 一种动态通信网络构建方法及装置 | |
CN103761292B (zh) | 基于用户转发行为的微博阅读概率计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120815 Termination date: 20210930 |