CN116340992A - 基于自适应的高维度数据的本地化差分隐私保护方法 - Google Patents
基于自适应的高维度数据的本地化差分隐私保护方法 Download PDFInfo
- Publication number
- CN116340992A CN116340992A CN202310142735.7A CN202310142735A CN116340992A CN 116340992 A CN116340992 A CN 116340992A CN 202310142735 A CN202310142735 A CN 202310142735A CN 116340992 A CN116340992 A CN 116340992A
- Authority
- CN
- China
- Prior art keywords
- data
- probability
- distribution
- dimensional
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Security & Cryptography (AREA)
- Algebra (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于自适应的高维度数据的本地化差分隐私保护方法,采用粗糙集理论和互信息,对不同关联性和敏感度的数据进行聚类分组,对不同分组采用不同随机响应概率,进行永久随机响应和临时随机响应。对本地化差分隐私处理后的数据,集中在服务器端使用SNE方法进行降维和自适应采样梯度优化,用低维数据联合概率分布近似所有属性的联合分布,根据采样策略与近似的联合分布构成发布数据集。本发明解决了存在“维度灾难”的高维数据与本地化差分隐私相结合且最大程度保持数据关联性问题,并根据数据敏感度不同在一定程度上更加合理的分配隐私预算,提高数据可用性,降低通信代价。
Description
技术领域
本发明涉及数据隐私保护中的差分隐私领域,具体涉及基于自适应的高维度数据的本地化差分隐私保护方法。
背景技术
智能设备的发展导致众多传感器应用于日常生活中,在大数据的时代背景下,个人隐私信息安全越来越引起人们的注意,例如,基于位置的服务(Location-BasedServices,LBS)、移动群智感知(Mobile Crowd-Sensing,MCS)等,它们在向用户提供服务的同时,还会搜集用户的位置信息。隐私信息的脱敏保护能很好的保护隐私信息安全,因此出现了各种保护隐私信息的手段,例如K-匿名机制、安全多方计算、假名机制、差分隐私等,而其中差分隐私具有可以抵抗拥有各种背景知识的攻击对手的能力,并且相较于其他保护手段,差分隐私能够量化分析隐私模型的保护程度。
在2006年,针对统计数据库的隐私泄露问题,D.Work提出了差分隐私。差分隐私保护采用添加噪声的技术使敏感数据失真,是基于数据失真的隐私保护技术。但是其所需要加入的噪声量与数据集大小无关,即使对于大型数据集只要加入很少的噪声就能达到高级别的隐私保护。中心化差分隐私在具有可信第三方的情况下表现较好,但是该假设在现实情况中不一定成立,本地化差分隐私具有强隐私保护性,能够防止来自不可信第三方的隐私攻击,对敏感信息提供了更全面的保护。
目前,本地化差分隐私保护技术的研究主要还是针对简单的数据类型,例如对包含一个或多个属性的关系数据和集值数据,进行频数统计或均值统计。然而,简单的数据类型对于当下空前的数据分析需求而言,还远远不够。对于具有关联性的数据,差分隐私的保护效果并不是很理想,针对于目前的图结构等复杂数据类型,难点在于图的结构特点使得查询的全局敏感性极高,从而使得噪声过大。基于本地化差分隐私技术的图数据发布,虽然不存在敏感性过大的问题,但是由于每个用户对数据的扰动过程相互独立,数据收集者如何根据扰动后的数据构建可用性高的图结构成为一个难题,例如,使用互信息等量化方法会破坏数据间的关联性,即如何保证原始数据之间的关联性是一大挑战。现有的大部分高维数据的发布技术都是基于集中场景的,比如基于中心化差分隐私的发布技术,但是现实生活中,第三方或服务器多数是不可信的。综上,高维数据间的复杂属性关联以及关联属性同时变化所导致的敏感度问题和分布式环境下的高维度发布问题仍然是亟待解决。
发明内容
基于上述提出现有研究方法所遇到的问题和不足之处,本发明提供一种基于自适应的高维度数据的本地化差分隐私保护方法。
本发明的目的在于提出一种基于粗糙集分类后,根据数据敏感度进行自适应采样和自适应隐私预算分配的本地化差分隐私高维数据发布方法,以解决存在“维度灾难”的高维数据与本地化差分隐私相结合且最大程度保持数据关联性的问题,并根据数据敏感度不同在一定程度上更加合理地分配隐私预算,提高数据可用性,降低通信代价。
为实现上述目的,本发明采用的技术方案是采用粗糙集理论和互信息,对不同关联性和敏感度的数据进行聚类分组,对不同分组采用不同随机响应概率,进行永久随机响应和临时随机响应。对本地化差分隐私处理后的数据,集中在服务器端使用SNE方法进行降维和自适应采样梯度优化,用低维数据联合概率分布近似所有属性的联合分布,根据采样策略与近似的联合分布构成发布数据集。
基于自适应的高维度数据的本地化差分隐私保护方法,具体包括如下步骤:
步骤1、本地数据的预处理:
使用粗糙集理论评估数据间的关联性并计算每组数据属性间的互信息,根据关联性和互信息对所有数据使用聚类的方法进行分组。
步骤2、制定随机响应概率策略:
根据上一步计算出的每组数据属性间的互信息,进行随机响应概率设置,需要设置的概率有两部分,第一部分是进行永久随机响应时的响应概率f,第二部分是进行临时随机响应时的概率p和q,前者为负向数据翻转为正向数据的概率,后者为正向数据保持不变的概率,同理1-p和1-q分别为负向数据保持不变和正向数据翻转为负向数据的概率。
步骤3、对数据进行本地化差分隐私处理:
选定响应参数后对步骤1分组好的数据进行本地化差分隐私处理,将二进制数据进行一次随机响应后存储在本地端,即永久随机响应,当有服务端请求查询本地端的数据时再进行一次随机响应,将响应后的数据发送给服务端,即临时随机响应。
步骤4、使用SNE方法进行降维:
将高维数据的联合概率分布分解为多个低维的边缘概率分布的形式,以多个边缘概率推理近似估计联合概率分布。通过SNE方法构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择。SNE在低维空间里再构建这些点的概率分布,使得这两个概率分布之间尽可能地相似。
步骤5、自适应采样:
使用基于辅助信息的自适应采样方法对SNE降维进行梯度优化。
步骤6、数据集合成:
数据降维完成后,根据自适应采样概率和需求的数据量生成新的数据集进行发布。
进一步的,将SNE中的高斯分布替换成t分布,进一步进行优化。对于相似度大于规定阈值的点,t分布在低维空间中的距离需要稍小一点;而对于相似度低于规定阈值的点,t分布在低维空间中的距离需要更远。即同一簇内的点(距离较近)聚合的更紧密,不同簇之间的点(距离较远)更加疏远。
本发明具有以下有益效果:
本发明提供的基于自适应采样梯度优化的SNE降维的高维度数据的本地化差分隐私保护发布方法,发布了一个新的合成数据集,在最大程度的保持高维数据的数据可用性情况下,保护了每一个用户的数据隐私安全,可以应对全背景知识的攻击对手,根据数据的敏感度和关联性合理分配隐私预算,降低了信噪比和通信代价。
该发明在避免了第三方或服务器不可信情况下的数据泄露情况,并且一定程度上解决了高维数据的“维度灾难”问题,将本地化差分隐私与SNE数据降维相结合,并自适应进行采样梯度优化,将高维数据划分为多个相互独立的低维属性集,保证合成数据集与原始数据集具有相似的分布概率,以及统计学性质。解决了多传感器产生大量高维数据情况下保持数据可用性的用户数据的本地化隐私保护问题。
附图说明
图1为本发明实施例的整体流程图;
图2为本地化差分隐私的整体流程图;
图3为中心化差分隐私与本地化差分隐私的对比示意图;
图4为属性分类的流程图。
具体实施方式
下面结合附图对本发明做进一步详细描述。
首先参照图2是整个本地化差分隐私的通信过程,用户在本地端产生数据,通过基站或热点发送给服务器或第三方,服务端处理后发布数据供查询方进行数据分析。图3展示了中心化差分隐私与本地端差分隐私的过程对比,证明了本地端差分隐私可以避免第三方数据收集者不可信的情况。
参照图1是本发明的整理操作流程图,本发明提供的基于自适应采样梯度优化的SNE降维的高维度数据的本地化差分隐私保护发布方法,在用户产生原始数据后,在本地端以粗糙集理论和敏感度计算为基础将数据分组并进行随机响应概率设置。将分组后数据按照给定概率进行永久随机响应,在服务器请求时再进行临时随机响应发送给服务端,在服务端对高维数据进行SNE降维,并根据自适应采样优化梯度选择,同时为了更好的进行优化,将SNE中在低维空间下的高斯分布替换为t分布来表示两点之间的相似度,t分布受异常值影响更小,拟合效果也更优,能够更好的保持数据整体特征。采样后进行新数据集的合成,最后发布数据。具体实施步骤如下:
步骤1,本地数据的预处理:
这一步的主要目的就是评估数据的敏感度和关联性,为数据分组和随机响应概率分配提供数据依据。
步骤1-1,根据粗糙集理论计算数据的关联性:
通过粗糙集理论中属性依赖度的概念,对数据属性的关联性进行度量,获取每个属性由不可区分关系引起的等价类,对于连续属性值进行划分,使其成为离散型数值。根据如下公式,基于各个属性相对于其他属性,获得论域U的子集的下近似和上近似:
粗糙集理论中,知识是使用信息表或信息系统进行表示的,一个信息表能够用一个四元组s=(U,A,V,f)表示,U是一个非空有限对象集,A是一个非空有限属性集,B表示属性集A的任何子集,V=∪a∈AVa,Va是属性a的值域,f是从样本空间到属性空间的信息函数,X表示U的任意子集,x是论域U上的一个元素,等价关系在论域U上构成一个知识划分,用U/B表示,U/B中任一元素[x]B称为等价类,B-(X)和B+(X)分别表示X的B下近似和上近似。
然后根据数据间的关联性进行属性子集划分,即按照数据关联性将数据进行分组,相同属性子集中的数据关联性大,反之,不同属性子集间关联性小。图4为属性分类的流程图。
步骤1-2,根据互信息计算数据的敏感度:
信息熵是指接收的每条信息中包含的信息的平均量,而互信息是更广泛的相对信息熵的特殊形式,在信息熵中,将一个等价类划分看作一个概率分布,在论域U中每个等价类所占比例看作是这个等价类发生的概率,对于信息表s=(U,A,V,f),U/B={X1,X2,…,Xn},属性B上的信息熵H(B)为:
其中p(Xi")表示等价类Xi"在论域U中所占的比例。以此计算出每一个属性子集中各个属性的信息熵,然后根据如下公式计算出每个分组数据间的互信息:
其中(X,Y)为两个随机变量,其联合概率分布为p(x,y),对应的边缘分布分别为p(x)和p(y),互信息I(X;Y)是联合概率p(x,y)与边缘分布p(x)p(y)的相对熵。使用数据间的互信息衡量数据敏感度,两个数据间的互信息越大,数据间的敏感度也就越大。
步骤2,制定随机响应概率策略:
根据上一步计算出的每个分组中数据间的互信息,进行随机响应概率设置,需要设置的概率有两部分,第一部分是进行永久随机响应时的响应概率f,第二部分是进行临时随机响应时的概率p和q,前者为负向数据翻转为正向数据的概率,后者为正向数据保持不变的概率,同理1-p和1-q分别为负向数据保持不变和正向数据翻转为负向数据的概率。
步骤3:对数据进行本地化差分隐私处理:
选定好响应参数后对分组后的数据进行本地化差分隐私处理,将二进制数据进行一次随机响应后存储在本地端,即永久随机响应,当有服务端请求查询本地端的数据时再进行一次随机响应,将响应后的数据发送给服务端,即临时随机响应。
步骤3-1,对分组数据进行永久随机响应:
每一组数据依据给定的概率f按照以下情形进行变化:
将永久随机响应后的数据存储在本地端,当服务端发出查询请求时,再将存储在本地端的数据进行临时随机响应然后发布。
步骤3-2,对永久随机响应后的数据进行临时随机响应:
对于进行永久随机响应后的数据,B'i"为1的数据以概率p保持不变,以1–p的概率变化为0,B'i"为0的数据以概率q变为1,以1–q的概率保持不变,即:
根据服务端的请求将完成临时随机响应后的数据发布给服务端,此时发送给服务端的数据已经不是按照之前的分组发送给服务端的,而是按照服务端的请求发送的一个数据集。
步骤4,使用SNE方法进行降维:
对服务端在步骤3发布的临时随机响应后的数据进行SNE降维。SNE方法通过仿射变换将数据点映射到概率分布上,构建一个高维对象之间的概率分布,相似对象之间有更高概率被选择,反之,不相似对象被选择的概率低。首先将数据点之间的欧几里得距离转换为条件概率来表达点与点之间的相似度,后续提到的数据间的相似度也使用条件概率来表示,获取n个临时随机响应后的高维数据r1,...,rn,计算数据ri和rj之间的概率分布pij,在数值上pij正比于ri和rj之间的相似度,用以ri为中心,以高斯分布选择rj为近邻点的条件概率pj|i来表示ri和rj之间的相似度:
其中i、j和m的取值范围都是1到n,参数σi为高斯分布方差,对于不同的点ri取值是不同的,而且数据对于自身的相似度设置为0,因为要考虑的只有数据间的相似关系。以rj为中心,以高斯分布选择ri为近邻点的条件概率pi|j来表示高维空间下rj和ri之间的相似度,此外设置pi|i=0,rm为n个数据中非ri的数据点。
qi|j表示低维空间下rj和ri之间的相似度。当pi|j=qi|j时,即高维空间数据相似度将等于低维空间数据相似度,那么说明降维效果较好,局部特征保留完整,因此接下来优化两个分布之间的距离KL散度,目标函数为:
其中,Pi表示给定点ri情况下其他数据点的真实条件概率分布,Qi表示对应的理论分布,在低维映射中不同距离对应的惩罚权重不同。SNE倾向于保留数据中的局部特征,使用困惑度的概念,即一个点附近的有效近邻点个数,用二分搜索寻找最优的σ。在初始优化的阶段,每次迭代中引入一定量高斯噪声,引入的噪声量根据具体数据确定,之后使用模拟退火的方式逐渐减小该噪声,避免陷入局部最优解。学习率以及衰减时间等超参数的选取随数据变化取值不同。
步骤5,自适应采样:
根据步骤4提到的方法,SNE对困惑度的调整比较具有鲁棒性,选择5–50之间,然后使用二分搜索法寻找合适的σ,使用SGD优化算法求解梯度,在更新过程中需要随机选择一个样本it,其优化更新过程为:
θt=θt-1-γtdt
dt为输入样本it时,性能函数f对参数θt-1的导数,即梯度,θt为更新后模型参数向量,γ为学习率,为了避免随机选择的不确定性,选择基于辅助信息(side information)的自适应选择方法,辅助信息即样本的某些属性值,定义Ck为服务端接收到的数据集中辅助信息为k的实例集合,SGD最小化经验风险写为:
其中,D为数据的辅助信息属性集合,n为服务端收到数据集的样本个数,P(i')为从整个数据集采样单个实例的概率,pk为从Ck中采样一个实例的概率,通过设置概率pk来调整SGD的优化过程。
在确定数据集的辅助信息后,利用辅助信息将服务端收到的数据集划分为k组,比如数据集的辅助信息属性集合包括1,2,3三种属性,那么则可以将数据集划分为C1、C2、C3三组,然后计算出每个组的选择概率pk,根据pk计算采样单个实例的概率P(i')和梯度dt,最后计算并更新模型参数θ。SNE的目标函数中的i在j下的条件概率的梯度是2(pi|j-qj|i)(yi-yj),同理j在i下的条件概率梯度是2(pj|i-qj|i)(yi-yj),最后得到完整梯度:
yi和yj为低维度下的数据点,其中i、j的取值范围都是从1到n,参数更新除了当前的梯度,还要引入之前的梯度累加的指数衰减项,如下:
其中,Y(t)表示迭代t次的解,η表示学习率,α(t)表示迭代t次的动量。
在低维空间下,将原来SNE中的高斯分布替换成t分布来表示两个数据点之间的相似度。使用t分布后,利用联合概率分布来替换条件概率分布,即P是高维空间里各个点的联合概率分布,Q是低维空间下的联合概率分布,目标函数为:
其中pij和qi|j为pi|j和qi|j对应的联合概率分布,pii和qii为0,假设对于任意的i,pij=pji,qij=qji,低维空间下数据间相似度为:
优化梯度为:
步骤6,数据集合成:
数据降维完成后,在每一个分组随机选择一部分初始节点,然后根据上一步计算得到的选择概率P(i')进行数据采样,选择未采样数据根据低维空间下的数据相似度qij进行采样,选择与已选定节点相似度高的节点作为新的初始节点,根据新的初始节点重复步骤6中的数据采样和新的初始节点选取过程,直至达到需要的数据量,合成新的数据集。
最后,以上述具体实施例为启示,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.基于自适应的高维度数据的本地化差分隐私保护方法,其特征在于,具体包括如下步骤:
步骤1、本地数据的预处理:
使用粗糙集理论评估数据间的关联性并计算每组数据属性间的互信息,根据关联性和互信息对所有数据使用聚类的方法进行分组;
步骤2、制定随机响应概率策略:
根据上一步计算出的每组数据属性间的互信息,进行随机响应概率设置,需要设置的概率有两部分,第一部分是进行永久随机响应时的响应概率f,第二部分是进行临时随机响应时的概率p和q,前者为负向数据翻转为正向数据的概率,后者为正向数据保持不变的概率,同理1-p和1-q分别为负向数据保持不变和正向数据翻转为负向数据的概率;
步骤3、对数据进行本地化差分隐私处理:
选定响应参数后对步骤1分组好的数据进行本地化差分隐私处理,将二进制数据进行一次随机响应后存储在本地端,即永久随机响应,当有服务端请求查询本地端的数据时再进行一次随机响应,将响应后的数据发送给服务端,即临时随机响应;
步骤4、使用SNE方法进行降维:
将高维数据的联合概率分布分解为多个低维的边缘概率分布的形式,以多个边缘概率推理近似估计联合概率分布;通过SNE方法构建一个高维对象之间的概率分布,使得相似的对象有更高的概率被选择,而不相似的对象有较低的概率被选择;SNE在低维空间里再构建这些点的概率分布,使得这两个概率分布之间尽可能地相似;
步骤5、自适应采样:
使用基于辅助信息的自适应采样方法对SNE降维进行梯度优化。
步骤6、数据集合成:
数据降维完成后,根据自适应采样概率和需求的数据量生成新的数据集进行发布。
2.根据权利要求1所述的基于自适应的高维度数据的本地化差分隐私保护方法,其特征在于,将SNE中的高斯分布替换成t分布,进一步进行优化。
3.根据权利要求1或2所述的基于自适应的高维度数据的本地化差分隐私保护方法,其特征在于,步骤1具体方法如下:
步骤1-1,根据粗糙集理论计算数据的关联性:
通过粗糙集理论中属性依赖度的概念,对数据属性的关联性进行度量,获取每个属性由不可区分关系引起的等价类,对于连续属性值进行划分,使其成为离散型数值;根据如下公式,基于各个属性相对于其他属性,获得论域U的子集的下近似和上近似:
粗糙集理论中,知识是使用信息表或信息系统进行表示的,一个信息表能够用一个四元组s=(U,A,V,f)表示,U是一个非空有限对象集,A是一个非空有限属性集,B表示属性集A的任何子集,V=∪a∈AVa,Va是属性a的值域,f是从样本空间到属性空间的信息函数,X表示U的任意子集,x是论域U上的一个元素,等价关系在论域U上构成一个知识划分,用U/B表示,U/B中任一元素[x]B称为等价类,B-(X)和B+(X)分别表示X的B下近似和上近似;
然后根据数据间的关联性进行属性子集划分,即按照数据关联性将数据进行分组,相同属性子集中的数据关联性大,反之,不同属性子集间关联性小;
步骤1-2,根据互信息计算数据的敏感度:
信息熵是指接收的每条信息中包含的信息的平均量,而互信息是更广泛的相对信息熵的特殊形式,在信息熵中,将一个等价类划分看作一个概率分布,在论域U中每个等价类所占比例看作是这个等价类发生的概率,对于信息表s=(U,A,V,f),U/B={X1,X2,…,Xn},属性B上的信息熵H(B)为:
其中p(Xi")表示等价类Xi"在论域U中所占的比例;以此计算出每一个属性子集中各个属性的信息熵,然后根据如下公式计算出每个分组数据间的互信息:
其中(X,Y)为两个随机变量,其联合概率分布为p(x,y),对应的边缘分布分别为p(x)和p(y),互信息I(X;Y)是联合概率p(x,y)与边缘分布p(x)p(y)的相对熵;使用数据间的互信息衡量数据敏感度,两个数据间的互信息越大,数据间的敏感度也就越大。
4.根据权利要求3所述的基于自适应的高维度数据的本地化差分隐私保护方法,其特征在于,步骤3具体方法如下:
步骤3-1,对分组数据进行永久随机响应:
每一组数据依据给定的概率f按照以下情形进行变化:
将永久随机响应后的数据存储在本地端,当服务端发出查询请求时,再将存储在本地端的数据进行临时随机响应然后发布;
步骤3-2,对永久随机响应后的数据进行临时随机响应:
对于进行永久随机响应后的数据,B'i"为1的数据以概率p保持不变,以1–p的概率变化为0,B'i"为0的数据以概率q变为1,以1–q的概率保持不变,即:
根据服务端的请求将完成临时随机响应后的数据发布给服务端,此时发送给服务端的数据已经不是按照之前的分组发送给服务端的,而是按照服务端的请求发送的一个数据集。
5.根据权利要求4所述的基于自适应的高维度数据的本地化差分隐私保护方法,其特征在于,步骤4具体方法如下:
在服务端对步骤3发布的临时随机响应后的数据进行SNE降维;SNE方法通过仿射变换将数据点映射到概率分布上,构建一个高维对象之间的概率分布,相似对象之间有更高概率被选择,反之,不相似对象被选择的概率低;首先将数据点之间的欧几里得距离转换为条件概率来表达点与点之间的相似度,后续提到的数据间的相似度也使用条件概率来表示,获取n个临时随机响应后的高维数据r1,...,rn,计算数据ri和rj之间的概率分布pij,在数值上pij正比于ri和rj之间的相似度,用以ri为中心,以高斯分布选择rj为近邻点的条件概率pj|i来表示ri和rj之间的相似度:
其中i、j和m的取值范围都是1到n,参数σi为高斯分布方差,对于不同的点ri取值是不同的,而且数据对于自身的相似度设置为0,因为要考虑的只有数据间的相似关系;以rj为中心,以高斯分布选择ri为近邻点的条件概率pi|j来表示高维空间下rj和ri之间的相似度,此外设置pi|i=0,rm为n个数据中非ri的数据点;
qi|j表示低维空间下rj和ri之间的相似度;当pi|j=qi|j时,即高维空间数据相似度将等于低维空间数据相似度,那么说明降维效果较好,局部特征保留完整,因此接下来优化两个分布之间的距离KL散度,目标函数为:
其中,Pi表示给定点ri情况下其他数据点的真实条件概率分布,Qi表示对应的理论分布,在低维映射中不同距离对应的惩罚权重不同。SNE倾向于保留数据中的局部特征,使用困惑度的概念,即一个点附近的有效近邻点个数,用二分搜索寻找最优的σ;在初始优化的阶段,每次迭代中引入一定量高斯噪声,引入的噪声量根据具体数据确定,之后使用模拟退火的方式逐渐减小该噪声,避免陷入局部最优解;学习率以及衰减时间等超参数的选取随数据变化取值不同。
6.根据权利要求5所述的基于自适应的高维度数据的本地化差分隐私保护方法,其特征在于,步骤5具体方法如下:
根据步骤4提到的方法,SNE对困惑度的调整比较具有鲁棒性,选择5–50之间,然后使用二分搜索法寻找合适的σ,使用SGD优化算法求解梯度,在更新过程中需要随机选择一个样本it,其优化更新过程为:
θt=θt-1-γtdt
dt为输入样本it时,性能函数f对参数θt-1的导数,即梯度,θt为更新后模型参数向量,γ为学习率,为了避免随机选择的不确定性,选择基于辅助信息的自适应选择方法,定义Ck为服务端接收到的数据集中辅助信息为k的实例集合,SGD最小化经验风险写为:
其中,D为数据的辅助信息属性集合,n为服务端收到数据集的样本个数,P(i')为从整个数据集采样单个实例的概率,pk为从Ck中采样一个实例的概率,通过设置概率pk来调整SGD的优化过程;
在确定数据集的辅助信息后,利用辅助信息将服务端收到的数据集划分为k组,然后计算出每个组的选择概率pk,根据pk计算采样单个实例的概率P(i')和梯度dt,最后计算并更新模型参数θ;SNE的目标函数中的i在j下的条件概率的梯度是2(pi|j-qj|i)(yi-yj),同理j在i下的条件概率梯度是2(pj|i-qj|i)(yi-yj),最后得到完整梯度:
yi和yj为低维度下的数据点,其中i、j的取值范围都是从1到n,参数更新除了当前的梯度,还要引入之前的梯度累加的指数衰减项,如下:
其中,Y(t)表示迭代t次的解,η表示学习率,α(t)表示迭代t次的动量。
8.根据权利要求6或7所述的基于自适应的高维度数据的本地化差分隐私保护方法,其特征在于,步骤6,数据集合成:
数据降维完成后,在每一个分组随机选择一部分初始节点,然后根据上一步计算得到的选择概率P(i')进行数据采样,选择未采样数据根据低维空间下的数据相似度qij进行采样,选择与已选定节点相似度高的节点作为新的初始节点,根据新的初始节点重复步骤6中的数据采样和新的初始节点选取过程,直至达到需要的数据量,合成新的数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310142735.7A CN116340992A (zh) | 2023-02-21 | 2023-02-21 | 基于自适应的高维度数据的本地化差分隐私保护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310142735.7A CN116340992A (zh) | 2023-02-21 | 2023-02-21 | 基于自适应的高维度数据的本地化差分隐私保护方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116340992A true CN116340992A (zh) | 2023-06-27 |
Family
ID=86878200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310142735.7A Pending CN116340992A (zh) | 2023-02-21 | 2023-02-21 | 基于自适应的高维度数据的本地化差分隐私保护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116340992A (zh) |
-
2023
- 2023-02-21 CN CN202310142735.7A patent/CN116340992A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Application of local differential privacy to collection of indoor positioning data | |
Liao et al. | Location-based activity recognition | |
Wang et al. | Stop-and-wait: Discover aggregation effect based on private car trajectory data | |
CN110069718B (zh) | 一种基于主题的社交网络谣言抑制方法 | |
Verhein et al. | Mining spatio-temporal patterns in object mobility databases | |
CN111985623A (zh) | 基于最大化互信息和图神经网络的属性图群组发现方法 | |
Xu et al. | In-network query processing in mobile P2P databases | |
Thom et al. | Using large scale aggregated knowledge for social media location discovery | |
Tian et al. | A survey on clustering based meteorological data mining | |
CN116340992A (zh) | 基于自适应的高维度数据的本地化差分隐私保护方法 | |
CN109472712A (zh) | 一种基于结构特征强化的高效马尔可夫随机场社团发现方法 | |
Wu et al. | Practical privacy protection scheme in WiFi fingerprint-based localization | |
CN113537308B (zh) | 基于本地化差分隐私的两阶段k-means聚类处理系统及方法 | |
Zhao et al. | A novel optimization method for WSN based on mixed matrix decomposition of NMF and 2-SVD-QR | |
Fang et al. | Additive models with spatio-temporal data | |
CN115510472A (zh) | 一种面向云边聚合系统的多重差分隐私保护方法及系统 | |
CN115033915A (zh) | 一种基于生成对抗网络的敏感标签轨迹数据差分隐私发布方法 | |
Tang et al. | Answering Multiattribute Top-$ k $ Queries in Fog-Supported Wireless Sensor Networks Leveraging Priority Assignment Technology | |
Kou et al. | A location privacy protection algorithm based on differential privacy in sensor network | |
CN114692205A (zh) | 一种面向加权社交网络隐私保护的图匿名方法 | |
CN113722556B (zh) | 基于自适应数据域划分的保隐私范围查询方法 | |
CN114238504A (zh) | 面向电子政务的跨链数据查询及共识优化方法 | |
Ghimire et al. | A crowd-based efficient fault-proof localization system for IoT and MCS | |
CN113722558B (zh) | 基于自适应数据域划分的保隐私高维数据范围查询方法 | |
Wu et al. | Meta‐Learning‐Based Spatial‐Temporal Adaption for Coldstart Air Pollution Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |