CN112668054A - 一种基于张量分解的数据流量隐私保护恢复方法及设备 - Google Patents

一种基于张量分解的数据流量隐私保护恢复方法及设备 Download PDF

Info

Publication number
CN112668054A
CN112668054A CN202110055234.6A CN202110055234A CN112668054A CN 112668054 A CN112668054 A CN 112668054A CN 202110055234 A CN202110055234 A CN 202110055234A CN 112668054 A CN112668054 A CN 112668054A
Authority
CN
China
Prior art keywords
tensor
privacy
information
matrixes
decomposition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110055234.6A
Other languages
English (en)
Other versions
CN112668054B (zh
Inventor
王进
韩惠
何施茗
王柳
金彩燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202110055234.6A priority Critical patent/CN112668054B/zh
Publication of CN112668054A publication Critical patent/CN112668054A/zh
Application granted granted Critical
Publication of CN112668054B publication Critical patent/CN112668054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于张量分解的数据流量隐私保护恢复方法及设备。本发明实现了张量分解和差分隐私恢复张量技术的有效结合,一方面服务器接收来自用户端发送的三阶张量,将三阶张量分解成因子矩阵,对包含用户个人隐私的因子矩阵进行差分隐私保护处理,最后重构成新的三阶张量;另一方面服务器接收由用户端进行随机响应机制下的本地化差分隐私处理得到多个信息矩阵,将多个信息矩阵聚合成三阶矩阵,然后再进行张量分解和重构。本发明实现了张量分解和差分隐私恢复张量技术的有效结合,生成的三阶张量数据即满足隐私保护的要求,也一定程度上维持了数据可用性。

Description

一种基于张量分解的数据流量隐私保护恢复方法及设备
技术领域
本发明涉及数据流量隐私保护技术领域,特别涉及一种基于张量分解的数据流量隐私保护恢复方法及设备。
背景技术
网络流数据恢复是指通过提取网络流数据历史数据的特征,加以分析,来恢复出下一个时间点的流量数据。目前,物联网新型应用发展迅速,通过5G运输的网络流数据也逐渐增加,所以如何快速有效的恢复网络流数据是一个迫在眉睫的问题。
网络流数据是一个拥有很多参数的张量,包括用户的个人信息、地点、时间。恢复网络流数据一直是一个很棘手的问题,因为这样的数据拥有大量的参数,需要进行的计算量是十分巨大的。但是与此同时,还需要考虑的问题就是隐私保护。
由于差分隐私是一个较新出现的课题,关于该领域的研究尚不够透彻,目前主要侧重在隐私度数学公式的证明。目前大部分工作中心在如何解决恢复精度的问题上,但对于一些特定场所,如医院、酒店等地点。这些场所的用户可能更多的在隐私保护上有了一定的要求。
目前存在许多可供解决计算复杂问题的张量分解方法,但往往输入的数据涉及到了用户的隐私信息,例如推荐系统、医疗信息等。张量分解的方法比矩阵分解的恢复精度更好,但是同时隐私保护的难度也越大。因此还没有能够将张量分解的方法和差分隐私结合在一起的方案,能够同时保证数据的隐私度和效率。
发明内容
本发明旨在至少解决现有技术中存在的技术问题。为此,本发明提出一种基于张量分解的数据流量隐私保护恢复方法及设备,实现了张量分解和差分隐私保护的有效结合,生成的数据既满足隐私保护的要求,也一定程度上维持了数据可用性。
本发明的第一方面,提供了一种基于张量分解的数据流量隐私保护恢复方法,应用于可信的服务器,包括以下步骤:
获取用户端发送的第一信息,所述第一信息包括第一三阶张量或多个信息矩阵;
若所述第一信息包括第一三阶张量,则对获取的所述第一三阶张量进行张量分解,得到三个因子矩阵;若所述第一信息包括所述多个信息矩阵,则对所述多个信息矩阵进行聚合,并对聚合后的结果进行张量分解,得到三个因子矩阵;
对包含用户个人隐私的所述因子矩阵进行差分隐私保护处理;
对经过差分隐私保护处理后的所述因子矩阵和剩余所述因子矩阵进行重构,得到第二三阶张量。
根据本发明的实施例,至少具有如下技术效果:
目前的网络流数据张量恢复工作大多中心在提升计算速率问题上,虽然提出了许多有效的张量分解方法,但并没有针对数据中心的用户个人信息的泄露问题提出隐私保护的方法,所以本方法针对三阶网络流数据张量提出了一种可行的隐私保护方法包括:可信的第三方服务器接收到用户端发送的三阶张量或多个信息矩阵之后,首先将三阶张量(若第三方服务器接收到多个信息矩阵,则需要将多个信息矩阵聚合成三阶张量)进行张量分解,得到三个因子矩阵,然后对包含用户个人隐私的因子矩阵进行差分隐私保护处理,最后进行重构后恢复成新的网络流三阶张量。相较于现有的张量分解和张量恢复方案容易暴露用户隐私信息,本方法实现了张量分解和差分隐私恢复张量技术的有效结合,本方法对张量分解后得到的具有个人隐私的因子矩阵进行差分隐私处理,差分隐私处理添加合适的噪声后,进行重构成新的三阶张量,实现了对张量分解后的因子矩阵进行差分隐私,生成的数据满足隐私保护的要求,也一定程度上维持了数据可用性。
本发明的第二方面,提供了一种基于张量分解的数据流量隐私保护恢复方法,应用于用户端,所述用户端与可信的服务器进行通信,所述方法包括以下步骤:
向所述服务器发送第一信息,所述第一信息包括第一三阶张量或多个信息矩阵,若所述第一信息包括第一三阶张量,则以使所述服务器对所述第一三阶张量进行张量分解以得到三个因子矩阵,以使所述服务器对包含用户个人隐私的所述因子矩阵进行差分隐私保护处理,并对经过差分隐私保护处理后的所述因子矩阵和剩余所述因子矩阵进行重构以得到第二三阶张量;若所述第一信息包括多个信息矩阵,则以使所述服务器对所述多个信息矩阵进行聚合,并以使所述服务器对聚合后的结果进行张量分解以得到三个因子矩阵,以使所述服务器对包含用户个人隐私的所述因子矩阵进行差分隐私保护处理,并对经过差分隐私保护处理后的所述因子矩阵和剩余所述因子矩阵进行重构以得到第二三阶张量。
根据本发明的实施例,至少具有如下技术效果:
相较于现有的张量分解和张量恢复方案容易暴露用户隐私信息,本方法实现了张量分解和差分隐私恢复张量技术的有效结合,本方法对张量分解后得到的具有个人隐私的因子矩阵进行差分隐私处理,差分隐私处理添加合适的噪声后,进行重构成新的三阶张量,实现了对张量分解后的因子矩阵进行差分隐私,生成的数据满足隐私保护的要求,也一定程度上维持了数据可用性。
本发明的第三方面,提供了一种基于张量分解的数据流量隐私保护恢复方法,应用于服务器,包括以下步骤:
接收用户端发送的多个信息矩阵;所述信息矩阵由所述用户端进行随机响应机制下的本地化差分隐私处理得到;
将所述多个信息矩阵聚合成第一三阶张量;
对所述第一三阶张量进行张量分解,得到三个因子矩阵;
对三个所述因子矩阵进行重构,得到第二三阶张量。
根据本发明的实施例,至少具有如下技术效果:
相较于现有的张量分解和张量恢复方案容易暴露用户隐私信息,本方法实现了张量分解和本地化差分隐私恢复张量技术的有效结合,本方法首先通过用户端对用户个人信息矩阵进行随机响应机制下的本地化差分隐私处理而得到多个信息矩阵,本地化差分隐私处理添加合适的噪声,切断了信息泄露的源头,而且噪声的大小可以由用户端进行选择,最后由服务器进行聚合、张量分解和重构成新的三阶张量,本方法实现了张量分解和本地化差分隐私保护的有效结合,生成的数据既满足隐私保护的要求,也一定程度上维持了数据可用性。
本发明的第四方面,提供了一种基于张量分解的数据流量隐私保护恢复方法,应用于用户端,所述用户端与服务器进行通信,包括以下步骤:
将经过随机响应机制下的本地化差分隐私处理后得到的信息矩阵发送至所述服务器;以使所述服务器将接收到的所述信息矩阵聚合成第一三阶张量,并使所述服务器对所述第一三阶张量进行张量分解以得到三个因子矩阵,并对三个所述因子矩阵进行重构,得到第二三阶张量。
根据本发明的实施例,至少具有如下技术效果:
相较于现有的张量分解和张量恢复方案容易暴露用户隐私信息,本方法实现了张量分解和本地化差分隐私恢复张量技术的有效结合,本方法首先通过用户端对用户个人信息矩阵进行随机响应机制下的本地化差分隐私处理而得到多个信息矩阵,本地化差分隐私处理添加合适的噪声,切断了信息泄露的源头,而且噪声的大小可以由用户端进行选择,最后由服务器进行聚合、张量分解和重构成新的三阶张量,本方法实现了张量分解和本地化隐私保护的有效结合,生成的数据既满足隐私保护的要求,也一定程度上维持了数据可用性。
附图说明
图1为本发明第一实施例提供的一种基于张量分解的数据流量隐私保护恢复方法的流程示意图;
图2为本发明第一实施例提供的差分隐私的示意图;
图3为本发明第一实施例提供的拉普拉斯分布图;
图4为本发明第二实施例提供的一种基于张量分解的数据流量隐私保护恢复方法的流程示意图;
图5为本发明第二实施例提供的中心化差分隐私示意图;
图6为本发明第三实施例提供的一种基于张量分解的数据流量隐私保护恢复方法的流程示意图;
图7为本发明第三实施例提供的本地化差分隐私示意图;
图8为本发明第三实施例提供的第i个用户扰动自身数据
Figure BDA0002900699260000051
传送给服务器示意图;
图9为本发明第四实施例提供的一种基于张量分解的数据流量隐私保护恢复方法的流程示意图;
图10为本发明第五实施例提供的一种基于张量分解的数据流量隐私保护恢复方法的流程示意图;
图11为本发明第六实施例提供的差分隐私和中心化差分隐私RMSE结果对比示意图;
图12为本发明第六实施例提供的不同ε下本地化差分隐私原始均值和估计均值对比示意图;
图13为本发明第六实施例提供的ε与噪音规模或者概率p的函数关系示意图;
图14为本发明第七实施例提供的一种张量分解和差分隐私流程图;
图15为本发明第七实施例提供的CP分解加差分隐私恢复的张量与CP分解恢复的张量的对比示意图;
图16为本发明第八实施例提供的一种基于张量分解的数据流量隐私保护恢复设备的结构示意图。
具体实施方式
为了方便描述,本文将符号描述如下,使用小写字母(a,b,···)表示标量,粗体小写
Figure BDA0002900699260000061
表示向量,粗体大写
Figure BDA0002900699260000062
表示矩阵,花体符号
Figure BDA0002900699260000063
表示高阶张量。
第一实施例;
参照图1,本发明的一个实施例,提供了一种基于张量分解的数据流量隐私保护恢复方法,用于可信的第三方服务器,包括以下步骤:
S101、第三方服务器获取用户端发送的第一三阶张量。
S102、第三方服务器对获取的第一三阶张量进行CP分解,得到三个因子矩阵。
需要注意的是,本文实施例均以三阶张量进行CP分解为例进行说明。但本文实施例还可适用于Tucker分解的方案中,本领域技术人员完全可以通过以CP分解为例,将本方案适用于Tucker分解方案中。
根据上述介绍,在本实施例中步骤S101和S102中,用户端的网络流量数据集里可以构成一个3阶张量
Figure BDA0002900699260000071
(用户×地点×时间,即
Figure BDA0002900699260000072
其中I指代用户维度,J指代地点维度,K指代时间维度)。因为可能存在传感器故障、传输数据丢失等一些不可避免原因的损失问题,
Figure BDA0002900699260000073
中的元素有一部分未被采样到,所以将观察到的条目记为一个集合,用Ω表示定义。
Figure BDA0002900699260000074
中i用户j地点k时间点,即(i,j,k)是否被采样记为yijk,yijk定义为:
Figure BDA0002900699260000075
若yijk=0,则该位置
Figure BDA0002900699260000076
元素值也取0。反之,若yijk=1,则该位置
Figure BDA0002900699260000077
元素值取xijk采样到的元素值。CP分解可以将张量
Figure BDA0002900699260000078
分解为三个因子矩阵
Figure BDA0002900699260000079
Figure BDA00029006992600000710
的乘积:
Figure BDA00029006992600000711
或者
Figure BDA00029006992600000712
其中R为CP-ranks。目标函数为:
Figure BDA00029006992600000713
其中λ1,λ2,λ3分别为因子矩阵A,B,C的正则化参数。因子矩阵A包含了用户信息。对目标函数中的决策变量air,bjr,ckr求偏导:
Figure BDA0002900699260000081
Figure BDA0002900699260000082
Figure BDA0002900699260000083
随着偏导梯度下降更新air,bjr,ckr
Figure BDA0002900699260000084
Figure BDA0002900699260000085
Figure BDA0002900699260000086
其中,α为梯度下降的学习率。直到误差范围符合设定的误差阈值为止,输出因子矩阵A,B,C。具体的,CP分解的算法过程如下:
Figure BDA0002900699260000087
Figure BDA0002900699260000091
S103、第三方服务器对包含用户个人隐私的因子矩阵进行拉普拉斯机制的差分隐私处理。
S104、第三方服务器对进行差分隐私保护处理的因子矩阵和剩余因子矩阵进行重构,恢复成第二三阶张量。
基于上述步骤S102,服务器对
Figure BDA0002900699260000092
进行CP分解后,得到因子矩阵A,B,C,因为因子矩阵A中包含用户信息,故对其进行隐私保护。本实施例选择差分隐私中的拉普拉斯机制对因子矩阵A进行处理,即向因子矩阵A中添加符合拉普拉斯分布的噪音。图2示出了差分隐私的示意图。
拉普拉斯分布的定义为:设随机变量X具有密度函数:
Figure BDA0002900699260000093
其中λ,μ为常数,且λ>0,则称x服从参数为λ,μ的拉普拉斯分布。如图3所示,可以看到参数λ不同取值的拉普拉斯分布曲线,这里μ的取值为0。
随着设置参数的调整,会生成不同程度的拉普拉斯噪音f(air),然后添加到因子矩阵A的每个元素中,根据最后的噪音因子矩阵
Figure BDA0002900699260000095
所恢复的
Figure BDA0002900699260000094
的值也有所不同。添加的噪音越多,隐私保护程度提升越大。
通过以下算法来随机生成一组和因子矩阵A行列相同的拉普拉斯噪音矩阵,再通过与因子矩阵A的添加运算,即因子矩阵A元素均受到了一定规律的噪音干扰,达到了隐私保护的作用,又因为生成的噪音符合拉普拉斯分布曲线,虽然对数据可用性产生的影响会随着拉普拉斯的方差而不同,但是数据可用性也得到了一定的保持。算法2的过程如下:
Figure BDA0002900699260000101
设在因子矩阵A上添加噪声η,受到扰动的目标函数为:
Figure BDA0002900699260000102
于是本实施例得出结论一:令
Figure BDA0002900699260000103
为用户网络流量数据值的范围。如果式(10)中的每个噪音值ηir是从密度函数
Figure BDA0002900699260000104
中独立且随机选取的,其中
Figure BDA0002900699260000111
则推导出因子矩阵A满足ε-差分隐私。
结论一的证明过程为:首先,
Figure BDA0002900699260000112
Figure BDA0002900699260000113
仅有一条记录不同:{xdce}和
Figure BDA0002900699260000114
其中,
Figure BDA0002900699260000115
使N和
Figure BDA0002900699260000116
分别为
Figure BDA0002900699260000117
Figure BDA0002900699260000118
的噪音矩阵。显然,
Figure BDA0002900699260000119
在任何地方都是可微的。将(8)最小化,就有:
Figure BDA00029006992600001110
其中,air表示因子矩阵A的(i,r)元素,
Figure BDA00029006992600001111
表示因子矩阵
Figure BDA00029006992600001123
的(,r)元素。于是式(9)展开为:
Figure BDA00029006992600001112
如果i≠d,则
Figure BDA00029006992600001113
如果i=d,即
Figure BDA00029006992600001114
Figure BDA00029006992600001115
然后,定义下全局敏感性:
Figure BDA00029006992600001116
Figure BDA00029006992600001117
因为是因子矩阵A,B,C从均匀分布[0,1)中随机采样,所以
Figure BDA00029006992600001118
于是GS(adk)≤Δ。
即:
Figure BDA00029006992600001119
又因为密度函数为
Figure BDA00029006992600001120
所以
Figure BDA00029006992600001121
结论一成立。步骤S104中的重构公式如下:
Figure BDA00029006992600001122
本实施例具有的有益效果:目前的网络流数据张量恢复工作大多中心在提升计算速率问题上,虽然提出了许多有效的张量分解方法,但并没有针对数据中心的用户个人信息的泄露问题提出隐私保护的方法,所以本方法实施例针对三阶网络流数据张量提出了一种可行的隐私保护方法。本方法的主要流程是:可信的第三方服务器接收到用户端发送的三阶张量之后,首先将三阶张量进行CP分解,变成三个因子矩阵,然后再通过拉普拉斯机制的差分隐私技术对包含用户个人信息的因子矩阵A进行隐私保护,得到添加噪音后的因子矩阵
Figure BDA0002900699260000121
最后用三个因子矩阵
Figure BDA0002900699260000122
进行重构后恢复网络流张量。相较于现有的张量分解和张量恢复方案容易暴露用户隐私信息,本方法实现了张量分解和差分隐私恢复张量技术的有效结合,本方法对张量分解后得到的具有个人隐私的因子矩阵进行差分隐私处理,差分隐私处理添加合适的噪声后,进行重构成新的三阶张量,实现了对张量分解后的因子矩阵进行差分隐私,生成的数据满足隐私保护的要求,也一定程度上维持了数据可用性。
第二实施例;
参照图4,本发明的一个实施例,提供了一种基于张量分解的数据流量隐私保护恢复方法,本方法用于可信的第三方服务器,包括以下步骤:
S201、第三方服务器获取用户端发送的多个信息矩阵。
其中,信息矩阵即二阶张量。
S202、第三方服务器对获取的全部信息矩阵进行聚合,得到第一三阶张量。
S203、第三方服务器对第一三阶张量进行CP分解,得到三个因子矩阵。
S204、第三方服务器对包含用户个人隐私的因子矩阵进行高斯机制的中心化差分隐私处理。
S205、第三方服务器对进行差分隐私保护处理的因子矩阵和剩余因子矩阵进行重构,恢复成第二三阶张量。
需要注意的是,本实施例与第一实施例的不同点在于:本实施例中的步骤S204是对包含用户个人隐私的因子矩阵进行高斯机制的中心化差分隐私处理。中心化差分隐私在第一实施例提供的拉普拉斯机制的差分隐私的基础上,考虑到了每个用户不同的需求,如图5所示,假设前提还是为第三方服务器可信,第三方服务器收到每个用户原始、真实的数据,然后在整个服务器里聚合、计算添加相应的噪音再返回恢复结果。具体的:
标准的高斯分布(正态分布)为:
Figure BDA0002900699260000131
令μ表示均值,σ2表示方差,一般的正态分布为:
Figure BDA0002900699260000132
使用高斯机制扰乱特征因子矩阵,是隐私保护输出扰动。高斯机制是将零均值高斯噪音与标准偏差
Figure BDA0002900699260000133
添加到输出。
Apriv←A+NA
其中,NA为高斯噪音,隐私预算为ε,L2敏感度为Δ2(A)=supD,D′||A(D)-A(D′)||2。只要高斯机制的算法N满足:
(1)
Figure BDA0002900699260000134
(2)参数为
Figure BDA0002900699260000135
(3)添加N(0,σ2)到算法输出的每个部分。
那么,算法N则满足(ε,δ)-差分隐私。隐私性证明同差分隐私,此处不再细述。
又如果
Figure BDA0002900699260000136
根据中心化差分隐私预备知识中的命题1和2,那么算法N满足ρ-中心化差分隐私。
Figure BDA0002900699260000141
中心化差分隐私与差分隐私最大的不同在于数据的收集部分,中心化差分隐私比差分隐私多一步聚合的工作,每个用户端发送自己的数据到可信的第三方服务器,服务器先将所有用户信息聚合起来再统一进行分解加噪。
本实施例具有的有益效果:目前的网络流数据张量恢复工作大多中心在提升计算速率问题上,虽然提出了许多有效的张量分解方法,但并没有针对数据中心的用户个人信息的泄露问题提出隐私保护的方法,所以本方法实施例针对三阶网络流数据张量提出了一种可行的隐私保护方法。本方法的主要流程是:可信的第三方服务器接收到用户端发送的多个信息矩阵之后,首先将多个信息矩阵进行聚合成三阶张量,其次将三阶张量进行CP分解,变成三个因子矩阵
Figure BDA0002900699260000151
然后再通过高斯机制的中心化差分隐私技术对包含用户个人信息的因子矩阵
Figure BDA0002900699260000152
进行隐私保护,得到添加噪音后的因子矩阵
Figure BDA0002900699260000153
最后用三个因子矩阵
Figure BDA0002900699260000154
进行重构后恢复网络流张量。相较于现有的张量分解和张量恢复方案容易暴露用户隐私信息,本方法实现了张量分解和差分隐私恢复张量技术的有效结合,本方法对张量分解后得到的具有个人隐私的因子矩阵进行差分隐私处理,差分隐私处理添加合适的噪声后,进行重构成新的三阶张量,实现了对张量分解后的因子矩阵进行差分隐私,生成的数据满足隐私保护的要求,也一定程度上维持了数据可用性。
第三实施例;
参照图6至图8(图8中深色为噪音部分),本发明的一个实施例,提供了一种基于张量分解的数据流量隐私保护恢复方法,用于第三方服务器,包括以下步骤
S301、第三方服务器接收用户端发送的多个信息矩阵;信息矩阵由用户端进行随机响应机制下的本地化差分隐私处理得到;
S302、第三方服务器将信息矩阵聚合成三阶张量;
S303、第三方服务器对三阶张量进行CP分解,得到三个因子矩阵;
S304、第三方服务器对三个因子矩阵进行重构,得到新的三阶张量。
本方法实施例与第一实施例和第二实施例是基于相同的发明构思,即基于张量分解和差分隐私恢复张量技术的有效结合,但本实施例与第一实施例和第二实施例不同之处在于:(1)用户端向服务器发送的信息矩阵是由用户端对用户个人信息矩阵进行随机响应机制下的本地化差分隐私处理而得到,这样从源头上切断了信息泄露的源头。(2)本实施例中的服务器可以是可信的服务器,也可以是不可信的服务器。
用户端对用户个人信息矩阵进行随机响应机制下的本地化差分隐私处理的一种具体实施方式为:
本地化差分隐私的最大的改变在于去掉了拉普拉斯机制的差分隐私技术和高斯机制的中心化差分隐私技术的第三方服务器可信假设,本地化差分隐私允许每个用户在自己的用户端上添加噪音干扰他们的真实值,第三方服务器仅对用户端发送过来的数据进行聚合得到一个最终的答案
Figure BDA0002900699260000161
用户本身在用户端上的网络流量数据为一个矩阵
Figure BDA0002900699260000162
每个用户根据随即响应机制来对自身的数据进行加噪声保护,如果随机概率小于ε,数据就传送真实数据。如果随机概率大于ε,用户可以根据其他机制来添加有规律的噪声,以至于数据可用性有所保障。
本地化差分隐私保护技术利用随机响应的扰动机制抵抗不可信的第三方数据收集者带来的隐私攻击。
性质1:给定数据集合D和n个隐私算法{M1,...,Mn},且Mi(1≤i≤n)满足εi-本地化差分隐私,那么{M1,...,Mn}在D上的序列组合满足ε-本地化差分隐私,其中,
Figure BDA0002900699260000163
性质2:给定数据集合D,将其划分为n个互不相交的子集,D={D1,...,Dn},设M为任一满足ε-本地化差分隐私的隐私算法,则算法M在{D1,...,Dn}上满足ε-本地化差分隐私。
Figure BDA0002900699260000164
Figure BDA0002900699260000171
本地化差分隐私的隐私度证明:如果某处进行了“采样”,这时用本地化差分隐私的主流机制:随机响应,扰乱
Figure BDA0002900699260000172
Figure BDA0002900699260000173
又为了保护
Figure BDA0002900699260000181
在用户端加入单独的扰动(假设一共有I个用户),添加方差为σ的拉普拉斯分布噪音η。即:
Figure BDA0002900699260000182
让R和R′为任意两个非隐私矩阵,
Figure BDA0002900699260000183
为算法的输出矩阵,u是给定R作为输入,算法生成的伯努利变量。u′是给定R′作为输入,算法生成的伯努利变量。于是:
Figure BDA0002900699260000184
满足本地化差分隐私的定义,即可证明每个本地用户端提交的噪声满足
Figure BDA0002900699260000185
-本地化差分隐私,总噪声满足ε-本地化差分隐私。
本实施例具有的有益效果:相较于现有的张量分解和张量恢复方案容易暴露用户隐私信息,本方法实现了张量分解和本地化差分隐私恢复张量技术的有效结合,本方法首先通过用户端对用户个人信息矩阵进行随机响应机制下的本地化差分隐私处理而得到多个信息矩阵,本地化差分隐私处理添加合适的噪声,切断了信息泄露的源头,而且噪声的大小可以由用户端进行选择,最后由服务器进行聚合、张量分解和重构成新的三阶张量,本方法实现了张量分解和本地化隐私保护的有效结合,生成的数据既满足隐私保护的要求,也一定程度上维持了数据可用性。
第四实施例;
参照图9,本发明的一个实施例,提供了一种基于张量分解的数据流量隐私保护恢复方法,应用于用户端,用户端与可信的服务器进行通信,方法包括以下步骤:
S401、用户端向服务器发送第一信息,第一信息包括第一三阶张量或多个信息矩阵,若第一信息包括第一三阶张量,则以使服务器对第一三阶张量进行张量分解以得到三个因子矩阵,以使服务器对包含用户个人隐私的因子矩阵进行差分隐私保护处理,并对经过差分隐私保护处理后的因子矩阵和剩余因子矩阵进行重构以得到第二三阶张量;若第一信息包括多个信息矩阵,则以使服务器对多个信息矩阵进行聚合,并以使服务器对聚合后的结果进行张量分解以得到三个因子矩阵,以使服务器对包含用户个人隐私的因子矩阵进行差分隐私保护处理,并对经过差分隐私保护处理后的因子矩阵和剩余因子矩阵进行重构以得到第二三阶张量。
需要说明的是,本方法实施例与上述实施例是基于相同的发明构思,具体过程和原理可以参见第一实施例和第二实施例,此处不再赘述。
第五实施例;
参照图10,本发明的一个实施例,提供了一种基于张量分解的数据流量隐私保护恢复方法,用于用户端,用户端与服务器进行通信,包括以下步骤:
S501、用户端将经过随机响应机制下的本地化差分隐私处理后得到的信息矩阵发送至服务器;以使服务器将接收到的多个信息矩阵聚合成第一三阶张量,并使服务器对第一三阶张量进行张量分解以得到三个因子矩阵,并对三个因子矩阵进行重构,得到第二三阶张量。
需要说明的是,本方法实施例与上述实施例是基于相同的发明构思,具体过程和原理可以参见第三实施例,此处不再赘述。
第六实施例;
基于上述实施例,提供一组实验数据;
在数据集Aliene上做实验,Aliene数据集包含一个Sparse_Tensor,大小为
Figure BDA0002900699260000191
这里代入到的模型中,即存在144个用户,288个采集地点,168个时间点,例如
Figure BDA0002900699260000201
为用户1在地点1时间点1所采集的网络流量数据。由于对于张量的秩的求解往往是一个NP-Hard问题,所以在设计实验时要预先给定秩的值,参考其他权威文献以及低秩性要求,将秩设定为10。所以分解出来的三个因子矩阵
Figure BDA0002900699260000202
(1)在差分隐私和中心化差分隐私上采用均方根误差(Root Mean SquaredError,RMSE)和均方误差(Mean Squared Error,MSE)。(2)在本地化差分隐私上,因为存在随机响应,所以采用均值统计。即第四实施例至第五实施例的方法使用均值作为评价指标;
(1)差分隐私和中心化差分隐私实验结果:根据不同的隐私度设置,自然也会有不同的RMSE结果。实验时,将隐私预算ε按照从0.2到2.0,每0.2一次的增幅来调整参数,从图11可以看出随着隐私预算的增大,差分隐私和中心化差分隐私的RMSE评测结果呈现出两种不同趋势的曲线。随着∈的取值不断增大,差分隐私相应的RMSE前期降低的速度较快,后期较为缓慢降低。由此可得,基于拉普拉斯机制的差分隐私随着的取值不断增大,隐私度越低,数据可用性越高。而中心化差分隐私恢复的网络流数据量RMSE结果随着ε取值增大也不断增大,这可以证明基于高斯机制下的中心化差分隐私随着隐私度越大,数据可用性越低。这两条曲线也证明了隐私预算可以影响数据可用性和隐私保护程度。需要根据实际不同的应用来合理的设置隐私预算参数。
(2)本地化差分隐私实验结果:本地化差分隐私主要优势在于可以在用户本地用户端进行添加噪声的工作,这也切断了信息泄露的源头。并且是否添加噪音和添加噪音的大小都由随机响应机制和噪音机制控制,也有效的提高了数据可用性。
初步设置的概率po决定随机响应的结果,由本地用户端随机生成一个概率p,如果这个概率p>po,那么用户需要传送带有噪音的数据,噪音大小可参照其他差分隐私的高斯机制、拉普拉斯机制等。反之,如果这个概率p<po,那么用户直接传送给服务器真实数据。所有的随机响应过程均在用户端完成,服务器仅对接受到的数据进行处理,并不会知道用户返回的是真实值还是虚假值,这也在数据源头有效的切断了隐私数据的泄露。
从图12可以看出,隐私度ε从0.2调至2.0的情况下,经过多次实验取得的均值结果,随着隐私预算的增大,结果越来越接近真实值。再结合图13分析,因为随着隐私预算的增大,基于拉普拉斯机制的差分隐私添加的噪音规模成越来越小,所以数据可用性得到了缓解,相应的均方根误差也下降了。而基于高斯机制的中心化差分隐私的噪音规模随着隐私预算的增大,呈现出较大浮动波动的正负噪音,规模也越来越大,所以相应的均方根误差越来越大。
而本地化差分隐私随着隐私预算的增大,随机响应机制回答真实答案的概率也越来越大,所以由图12的三个不同预算得到的实验结果图可以看出,即用户以更高的概率响应真是结果。因此,对于均值统计来说,都提高了数据的可用性。
综上所述,本发明提出张量分解与隐私保护结合,并且能达到数据可用性和隐私保护的一个权衡。
第七实施例;
参照图14和图15,为了便于本领域技术人员比较本发明技术方案与现有方案的区别,这里提供一个实施例:
网络流量数据集里包含一个3阶张量
Figure BDA0002900699260000211
I指代用户维度,J指代地点维度,K指代时间维度。虽然物联网的传感器涉及面广且数量众多,但因为传感器故障、网络卡顿或传送时刻设置的一些不可避免原因的损失,关于每个时间点的用户网络流量数据仍有些记录不完全,所以如果想更加精确的分析网络流量数据再在其基础上进行应用拓展,恢复流量数据是一项至关重要的工作。
Figure BDA0002900699260000221
里能观察到的条目记为一个集合,用Ω表示。用一个3阶张量
Figure BDA0002900699260000222
(用户×地点×时间)来记录原始测量数据,通常
Figure BDA0002900699260000223
是一个不完全张量。CP分解可以将张量
Figure BDA0002900699260000224
分解为三个因子矩阵A,B,C的乘积:
Figure BDA0002900699260000225
简称为
Figure BDA0002900699260000226
此时根据分解出来的因子矩阵A,B,C重构原始张量的恢复版本:
Figure BDA0002900699260000227
虽然根据CP分解方式恢复出来的张量
Figure BDA0002900699260000228
效果较好,但往往中间过程会暴露用户个人隐私信息,于是利用本发明实施例提供的多种差分隐私技术对分解后的因子矩阵A添加噪音,以使恢复出来的张量满足隐私保护要求。根据更新后的因子矩阵A*,根据CP分解的逆运算重构隐私完全张量
Figure BDA0002900699260000229
如图15所示,对于原始不完全张量
Figure BDA00029006992600002210
根据CP分解恢复的张量
Figure BDA00029006992600002211
可以更加全面的提取用户特征,但是容易暴露用户隐私信息,根据CP分解和差分隐私恢复的张量
Figure BDA00029006992600002212
在一定隐私预算内所恢复的数据是符合用户特征规律的,可以在不暴露用户具体真实信息的同时进行分析和处理。另外,需根据不同的隐私预算来实验得出不同的数据可用性和隐私度。三种差分隐私技术有利有弊,隐私度和可用性有好有坏,需要根据真实需求情况选择不同的方案。图14中,DP model表示拉普拉斯机制的差分隐私处理;CDP model表示高斯机制的中心化差分隐私处理;LDP model表示随机响应机制下的本地化差分隐私处理。
第八实施例;
参照图16,本发明的一个实施例,提供了一种基于张量分解的数据流量隐私保护恢复设备,该设备可以是任意类型的智能终端,例如手机、平板电脑、个人计算机等。具体地,该设备包括:一个或多个控制处理器和存储器,这里以一个控制处理器为例。控制处理器和存储器可以通过总线或者其他方式连接,这里以通过总线连接为例。存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块,如本发明实施例中的基于张量分解的数据流量隐私保护恢复设备对应的程序指令/模块。控制处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而实现上述方法实施例的所述的基于张量分解的数据流量隐私保护恢复方法。存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于控制处理器远程设置的存储器,这些远程存储器可以通过网络连接至该基于张量分解的数据流量隐私保护恢复设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个控制处理器执行时,执行上述方法实施例的所述的基于张量分解的数据流量隐私保护恢复方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行上述方法实施例的所述的基于张量分解的数据流量隐私保护恢复方法。
通过以上的实施方式的描述,本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种基于张量分解的数据流量隐私保护恢复方法,其特征在于,应用于可信的服务器,包括以下步骤:
获取用户端发送的第一信息,所述第一信息包括第一三阶张量或多个信息矩阵;
若所述第一信息包括第一三阶张量,则对获取的所述第一三阶张量进行张量分解,得到三个因子矩阵;若所述第一信息包括所述多个信息矩阵,则对所述多个信息矩阵进行聚合,并对聚合后的结果进行张量分解,得到三个因子矩阵;
对包含用户个人隐私的所述因子矩阵进行差分隐私保护处理;
对经过差分隐私保护处理后的所述因子矩阵和剩余所述因子矩阵进行重构,得到第二三阶张量。
2.根据权利要求1所述的一种基于张量分解的数据流量隐私保护恢复方法,其特征在于,对包含用户个人隐私的所述因子矩阵进行差分隐私保护处理,包括以下之一的方法:
对包含用户个人隐私的所述因子矩阵进行拉普拉斯机制的差分隐私处理;或
对包含用户个人隐私的所述因子矩阵进行高斯机制的中心化差分隐私处理。
3.根据权利要求1所述的一种基于张量分解的数据流量隐私保护恢复方法,其特征在于,对获取的所述第一信息进行张量分解包括如下之一的方法:
对获取的所述第一信息进行CP分解;或
对获取的所述第一信息进行Tucker分解。
4.一种基于张量分解的数据流量隐私保护恢复方法,其特征在于,应用于用户端,所述用户端与可信的服务器进行通信,所述方法包括以下步骤:
向所述服务器发送第一信息,所述第一信息包括第一三阶张量或多个信息矩阵,若所述第一信息包括第一三阶张量,则以使所述服务器对所述第一三阶张量进行张量分解以得到三个因子矩阵,以使所述服务器对包含用户个人隐私的所述因子矩阵进行差分隐私保护处理,并对经过差分隐私保护处理后的所述因子矩阵和剩余所述因子矩阵进行重构以得到第二三阶张量;若所述第一信息包括多个信息矩阵,则以使所述服务器对所述多个信息矩阵进行聚合,并以使所述服务器对聚合后的结果进行张量分解以得到三个因子矩阵,以使所述服务器对包含用户个人隐私的所述因子矩阵进行差分隐私保护处理,并对经过差分隐私保护处理后的所述因子矩阵和剩余所述因子矩阵进行重构以得到第二三阶张量。
5.根据权利要求4所述的一种基于张量分解的数据流量隐私保护恢复方法,其特征在于,以使所述服务器对包含用户个人隐私的所述因子矩阵进行差分隐私保护处理,包括以下之一的方法:
以使所述服务器对包含用户个人隐私的所述因子矩阵进行拉普拉斯机制的差分隐私处理;或
以使所述服务器对包含用户个人隐私的所述因子矩阵进行高斯机制的中心化差分隐私处理。
6.根据权利要求4所述的一种基于张量分解的数据流量隐私保护恢复方法,其特征在于,以使所述服务器对所述第一信息进行张量分解包括如下之一的方法:
以使所述服务器对所述第一信息进行CP分解;或
以使所述服务器对所述第一信息进行Tucker分解。
7.一种基于张量分解的数据流量隐私保护恢复方法,其特征在于,应用于服务器,包括以下步骤:
接收用户端发送的多个信息矩阵;所述信息矩阵由所述用户端进行随机响应机制下的本地化差分隐私处理得到;
将所述多个信息矩阵聚合成第一三阶张量;
对所述第一三阶张量进行张量分解,得到三个因子矩阵;
对三个所述因子矩阵进行重构,得到第二三阶张量。
8.一种基于张量分解的数据流量隐私保护恢复方法,其特征在于,应用于用户端,所述用户端与服务器进行通信,包括以下步骤:
将经过随机响应机制下的本地化差分隐私处理后得到的信息矩阵发送至所述服务器;以使所述服务器将接收到的所述信息矩阵聚合成第一三阶张量,并使所述服务器对所述第一三阶张量进行张量分解以得到三个因子矩阵,并对三个所述因子矩阵进行重构,得到第二三阶张量。
9.一种基于张量分解的数据流量隐私保护恢复设备,其特征在于,包括:至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至8任一项所述的一种基于张量分解的数据流量隐私保护恢复方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至8任一项所述的一种基于张量分解的数据流量隐私保护恢复方法。
CN202110055234.6A 2021-01-15 2021-01-15 一种基于张量分解的数据流量隐私保护恢复方法及设备 Active CN112668054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110055234.6A CN112668054B (zh) 2021-01-15 2021-01-15 一种基于张量分解的数据流量隐私保护恢复方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110055234.6A CN112668054B (zh) 2021-01-15 2021-01-15 一种基于张量分解的数据流量隐私保护恢复方法及设备

Publications (2)

Publication Number Publication Date
CN112668054A true CN112668054A (zh) 2021-04-16
CN112668054B CN112668054B (zh) 2024-07-19

Family

ID=75415333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110055234.6A Active CN112668054B (zh) 2021-01-15 2021-01-15 一种基于张量分解的数据流量隐私保护恢复方法及设备

Country Status (1)

Country Link
CN (1) CN112668054B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574436A (zh) * 2024-01-15 2024-02-20 南京邮电大学 一种基于张量的大数据隐私安全防护方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600053A (zh) * 2016-12-12 2017-04-26 西安交通大学 一种基于时空轨迹和社会网络的用户属性预测系统
CN107392049A (zh) * 2017-07-26 2017-11-24 安徽大学 一种基于差分隐私保护的推荐方法
CN107770405A (zh) * 2017-10-23 2018-03-06 北京邮电大学 图像加密方法及装置
CN109376901A (zh) * 2018-09-07 2019-02-22 苏州大学 一种基于去中心化矩阵分解的服务质量预测方法
US20190121889A1 (en) * 2017-10-19 2019-04-25 Pure Storage, Inc. Ensuring reproducibility in an artificial intelligence infrastructure
CN110008402A (zh) * 2019-02-22 2019-07-12 苏州大学 一种基于社交网络的去中心化矩阵分解的兴趣点推荐方法
JP2020017101A (ja) * 2018-07-26 2020-01-30 Kddi株式会社 匿名化装置、匿名化方法及び匿名化プログラム
US20200058368A1 (en) * 2018-08-17 2020-02-20 Ancestry.Com Dna, Llc Prediction of phenotypes using recommender systems

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600053A (zh) * 2016-12-12 2017-04-26 西安交通大学 一种基于时空轨迹和社会网络的用户属性预测系统
CN107392049A (zh) * 2017-07-26 2017-11-24 安徽大学 一种基于差分隐私保护的推荐方法
US20190121889A1 (en) * 2017-10-19 2019-04-25 Pure Storage, Inc. Ensuring reproducibility in an artificial intelligence infrastructure
CN107770405A (zh) * 2017-10-23 2018-03-06 北京邮电大学 图像加密方法及装置
JP2020017101A (ja) * 2018-07-26 2020-01-30 Kddi株式会社 匿名化装置、匿名化方法及び匿名化プログラム
US20200058368A1 (en) * 2018-08-17 2020-02-20 Ancestry.Com Dna, Llc Prediction of phenotypes using recommender systems
CN109376901A (zh) * 2018-09-07 2019-02-22 苏州大学 一种基于去中心化矩阵分解的服务质量预测方法
CN110008402A (zh) * 2019-02-22 2019-07-12 苏州大学 一种基于社交网络的去中心化矩阵分解的兴趣点推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUN FENG: "Privacy-Preserving Tensor Decomposition Over Encrypted Data in a Federated Cloud Environment", pages 1 - 12, Retrieved from the Internet <URL:《互联网在线公开:https://ieeexplore.ieee.org/abstract/document/8536415》> *
孔令军等: "边缘计算下的AI检测与识别算法综述", 《无线电通信技术》, vol. 45, no. 5, 4 September 2019 (2019-09-04), pages 453 - 462 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574436A (zh) * 2024-01-15 2024-02-20 南京邮电大学 一种基于张量的大数据隐私安全防护方法
CN117574436B (zh) * 2024-01-15 2024-03-19 南京邮电大学 一种基于张量的大数据隐私安全防护方法

Also Published As

Publication number Publication date
CN112668054B (zh) 2024-07-19

Similar Documents

Publication Publication Date Title
Beck et al. {PrivApprox}:{Privacy-Preserving} Stream Analytics
EP3622402A1 (en) Real time detection of cyber threats using behavioral analytics
CN112347500B (zh) 分布式系统的机器学习方法、装置、系统、设备及存储介质
CN111669366A (zh) 一种本地化差分隐私数据交换方法及存储介质
CN113221153B (zh) 图神经网络训练方法、装置、计算设备及存储介质
CN110210248A (zh) 一种面向隐私保护的网络结构去匿名化系统及方法
Wang et al. Missing data recovery based on tensor-CUR decomposition
EP3327702B1 (en) Secure computation device, method therefor, and program
Gorgi Integer‐valued autoregressive models with survival probability driven by a stochastic recurrence equation
Nepomuceno et al. On the use of interval extensions to estimate the largest Lyapunov exponent from chaotic data
CN115842627A (zh) 基于安全多方计算的决策树评估方法、装置、设备及介质
CN113901679B (zh) 电力系统的可靠性分析方法、装置和计算机设备
CN112668054A (zh) 一种基于张量分解的数据流量隐私保护恢复方法及设备
Long et al. Fault detection for networked control systems subject to quantisation and packet dropout
Obuchi et al. Statistical mechanical analysis of sparse linear regression as a variable selection problem
Lyubushin Long-range coherence between seismic noise properties in Japan and California before and after Tohoku mega-earthquake
Wan et al. Fault detection for discrete-time networked nonlinear systems with incomplete measurements
CN114862416B (zh) 一种联邦学习环境下的跨平台信用评价方法
Zhang et al. Causal direction inference for network alarm analysis
WO2022170853A1 (zh) 信息生成方法、装置、电子设备和计算机可读介质
CN116383864A (zh) 分布式环境下隐私保护联邦学习方法、系统、设备及介质
CN113254996B (zh) 图神经网络训练方法、装置、计算设备及存储介质
CN109886825B (zh) 一种农业物联网数据多视角投影聚类重构方法及系统
CN114021732A (zh) 一种比例风险回归模型训练方法、装置、系统及存储介质
Lazar et al. Consistent recovery of sensory stimuli encoded with MIMO neural circuits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant