CN112364372A - 一种有监督矩阵补全的隐私保护方法 - Google Patents

一种有监督矩阵补全的隐私保护方法 Download PDF

Info

Publication number
CN112364372A
CN112364372A CN202011165155.2A CN202011165155A CN112364372A CN 112364372 A CN112364372 A CN 112364372A CN 202011165155 A CN202011165155 A CN 202011165155A CN 112364372 A CN112364372 A CN 112364372A
Authority
CN
China
Prior art keywords
matrix
privacy
completion
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011165155.2A
Other languages
English (en)
Inventor
彭松
肖迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202011165155.2A priority Critical patent/CN112364372A/zh
Publication of CN112364372A publication Critical patent/CN112364372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种有监督矩阵补全的隐私保护方法,包括:S1:根据当前恢复的补全矩阵,获得达到具有最大化的有效性同时具备最小隐私泄露的判别信息及其投影矩阵;S2:基于有监督矩阵补全技术,定义矩阵补全的优化式,将判别信息引入到补全信息,获取矩阵补全和最佳的投影矩阵;S3:将补全的数据进行有损的压缩投影。本发明,同时考虑了数据集补全中的标签信息还考虑了矩阵的隐私,因此矩阵补全的方法能够进一步的提高恢复后矩阵数据的效用性和隐私性,从而通过有损的压缩的方法将其放入漏斗状的神经网络进行效用类别的预测,还能保证隐私类别不能不被预测出,能够为缺失数据补全和用户的数据隐私提供一种可靠的方法。

Description

一种有监督矩阵补全的隐私保护方法
技术领域
本发明涉及智能隐私保护与网络安全领域,具体的,涉及一种有监督矩阵补全的隐私保护方法。
背景技术
对于大数据和智能信息时代,越来越多的数据被收集的同时收集的数据也存在着噪声、失真和数据缺失的问题,基于这两个问题将缺失的数据进行有监督的压缩隐私矩阵补全不仅可以提高数据的效用性还能提升数据的隐私安全。
在大数据时代,越来越多的网络数据被收集,这就使得大量数据存放在云环境中。由于现在的数据挖掘工具越来越强大,极有可能导致数据隐私被挖掘甚至被泄露的问题。同时,在收集数据的过程中想要收集到完整的数据也是很困难的,需要耗费很大的人力物力。
专利文献CN108537738A一种矩阵补全方法,涉及基于低秩近似的高精度的矩阵补全方法,一种方式是通过采集部分信号来加速数据采集。从这些数据的低秩特性出发来恢复出完整的信号,首先利用逼近函数来近似计算矩阵的秩,然后建立矩阵缺失信号的重建模型,最后通过迭代算法重建信号。重建的矩阵精度高,易于操作,可以从少量数据中恢复出完整信号。但是该矩阵补全的方法仅仅考虑的是矩阵数据的本身没有考虑到待补全数据的标签信息,以及补全数据的隐私问题,该方法也没有考虑到补全后的矩阵是否补全的矩阵的可用性是否下降。
发明内容
有鉴于此,本发明的目的是提供一种基于有监督矩阵补全的隐私保护方法,考虑了数据集补全中的标签信息还考虑了矩阵的隐私,能够为缺失数据补全和用户的数据隐私提供一种可靠的方法。
本发明的目的是通过以下技术方案实现的:
一种有监督矩阵补全的隐私保护方法,隐私保护方法包括:
S1:根据当前恢复的补全矩阵,获得达到具有最大化的有效性同时具备最小隐私泄露的判别信息及其投影矩阵;
S2:基于有监督矩阵补全技术,定义矩阵补全的优化式,将判别信息引入到补全信息,获取矩阵补全和最佳的投影矩阵;
S3:将补全的数据进行有损的压缩投影。
进一步,所述S1具体为:
S11:获取当前恢复的补全矩阵
Figure RE-GDA0002883034850000021
的散度矩阵SW和类间的散度矩阵SB
散度矩阵SW表示为:
Figure RE-GDA0002883034850000022
其中:i代表类标签,L代表数据集中总的类别数,其中j代表第i类的第j个样本,Ni代表第i类中总的样本数,
Figure RE-GDA0002883034850000023
代表第i类的第j个样本,ui表示第i类样本的均值;
类间散度矩阵SB表示为:
Figure RE-GDA0002883034850000024
其中:i代表类标签,L代表数据集中总的类别数,ui表示第i类样本的均值,u表示样本矩阵中的均值;
S12:结合类内的散度矩阵SW和类间的散度矩阵SB获得具有最大化的有效性同时具备最小隐私泄露的目标函数,具体为:
Figure RE-GDA0002883034850000025
其中
Figure RE-GDA0002883034850000026
其中wi是投影矩阵W的每一列,C是DCA投影空间的子空间的维度,W为判别信息的投影矩阵,S等于类内散度矩阵和类间散度矩阵的和;
S13:基于判别信息,获取判别信息的投影矩阵。
进一步,所述S2具体为:
S21:定义矩阵补全的目标函数,具体为:
Figure RE-GDA0002883034850000027
其中:
Figure RE-GDA0002883034850000028
表示初始的缺失矩阵X0所观测到的元素的位置的下标集合,即除了Ω以外的元素在X0是缺失的;
Figure RE-GDA0002883034850000031
||.||tr表示矩阵的核范数,即奇异值的和,||.||F表示矩阵的Frobenius范数,即所有数的平方和的平方根,λ12≥0,λ12≥0表示的是正则化参数;
S22:交替优化,获取拥有最小隐私信息的补全矩阵;
S23:求解补全的矩阵的最佳的效用和隐私的投影。
进一步,所述S23具体为:
S231:设置初始化参数θ0和θ1,其中,
θ0=θ1∈(0,1],L>1,
Figure RE-GDA0002883034850000032
γ>1,令k=0;
S232:定义恢复矩阵的中间变量Zk
Figure RE-GDA0002883034850000033
其中:
Figure RE-GDA0002883034850000034
为第k次恢复的矩阵;
S233:更新
Figure RE-GDA0002883034850000035
当满足
Figure RE-GDA0002883034850000036
则更新L=γL和
Figure RE-GDA0002883034850000037
Figure RE-GDA0002883034850000038
反之则结束迭代,其中
Figure RE-GDA0002883034850000039
S234:另
Figure RE-GDA00028830348500000310
S235:进行迭代直至得到最好的恢复结果
Figure RE-GDA00028830348500000311
和W。
进一步,所述S3具体为:
将所述最佳的效用和隐私投影划分成两部分,一个部分为Wmajor∈RM×(L-1)和 Wminor∈RM×(M-L+1),其中Wmajor度量的是最大的有效能量部分,Wminor度量的隐私信息保护和重建误差的信息;
在最佳的投影的子空间中选择Wmajor部分用于投影,使得该部分的让数据集得到最大的判别能量,得到最大的效用性,在隐私任务中的效用性最低,投影的公式为如下的形式:
Figure RE-GDA0002883034850000041
其中
Figure RE-GDA0002883034850000042
表示原始缺失矩阵补全后的矩阵,
Figure RE-GDA0002883034850000043
表达通过投影后的公共子空间,只保留数据的效用部分,去掉数据的隐私部分,L表达效用类类别数。
进一步,所述隐私保护方法还包括S4,具体为:
S4:将补全后有损压缩的数据,建立漏斗形的深度神经网络的分类模型,对压缩数据进行效用性和隐私性进行验证。
进一步,所述S4具体分为以下步骤:
S41:根据所述S3得到的去除隐私部分的数据样本
Figure RE-GDA0002883034850000044
作为样本矩阵,随机的选择 0.7的样本作为训练样本,取0.3的样本作为测试样本,将样本放入到漏斗状的神经网络进行训练,该神经网络的输入为
Figure RE-GDA0002883034850000045
该深度神经网络的网络结构第一层网络输入为L-1,神经元个数为512,激活函数为Relu,第二层为drop层drop率为0.2,第三层神经网络神经元个数为64,激活函数为Relu,第四层为drop层drop率为0.1,第五层为全连接层神经元个数为L,激活函数为softmax,最后输出为预测的样本效用标签;
S42:根据所述S3得到的去除隐私部分的数据样本
Figure RE-GDA0002883034850000046
作为样本矩阵,随机选择0.7 的样本作为训练样本,取0.3的样本作为测试样本,该神经网络的网络结构有5层,第一层输入为L-1,神经元个数为64,激活函数为Relu,第二层为drop层drop率为0.2,第三层神经网络个数为32,激活函数为Relu,第四层drop层的drop率为0.2,第五层为全连接层神经元的个数为Lp,Lp为隐私的类别数,最后输出为预测的隐私的标签,最后根据S41和S42的结果验证目标的吻合性。
本发明的有益效果是:
本发明提出了一种基于有监督矩阵补全的隐私保护方法,同时考虑了数据集补全中的标签信息还考虑了矩阵的隐私,因为在标签信息可以表征其数据样本的特征信息,在补全的同时还度量其数据的效用性和隐私性,因此矩阵补全的方法能够进一步的提高恢复后矩阵数据的效用性和隐私性,从而通过有损的压缩的方法将其放入漏斗状的神经网络进行效用类别的预测,还能保证隐私类别不能不被预测出,能够为缺失数据补全和用户的数据隐私提供一种可靠的方法。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
附图1为本发明流程图。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
本发明提出了一种有监督矩阵补全的隐私保护方法,本发明凭借机器学习中的数据集是结构化的,能保证数据矩阵是低秩的优势,本发明通过矩阵补全的算法将缺失信息补全。利用待补全数据的标签信息,引入有监督的、有损的压缩隐私,使得监督的标签信息不仅能够指导缺失矩阵的补全,还能够使得补全的数据是具有最小的隐私泄露,使得我们的缺失数据能够更效用性和隐私性,更加安全放心的将数据上传给云服务器,具体如图1所示,包括如下步骤:
S1:根据当前恢复的补全矩阵
Figure RE-GDA0002883034850000051
根据根据有监督判别成分分析,获得最大化的有效性又能最小隐私泄露的判别信息及其投影矩阵W(有损压缩的投影)。
S11:根据判别成分分析的原理,根据其对应的标签信息,获取当前恢复的补全矩阵
Figure RE-GDA0002883034850000052
的散度矩阵SW和类间的散度矩阵SB
散度矩阵SW表示为:
Figure RE-GDA0002883034850000053
其中:i代表类标签,L代表数据集中总的类别数,其中j代表第i类的第j个样本,Ni代表第i类中总的样本数,
Figure RE-GDA0002883034850000061
代表第i类的第j个样本,ui表示第i类样本的均值;
类间散度矩阵SB表示为:
Figure RE-GDA0002883034850000062
其中:i代表类标签,L代表数据集中总的类别数,ui表示第i类样本的均值,u表示样本矩阵中的均值;
同时,还可以将中心化的散度矩阵的定义
Figure RE-GDA0002883034850000063
划分成两个部分,其中
Figure RE-GDA0002883034850000064
Figure RE-GDA0002883034850000065
Figure RE-GDA0002883034850000066
S12:结合散度矩阵SW和类间的散度矩阵SB,根据判别成分分析的原理,获得最大化的有效性又能最小隐私泄露的判别信息的目标函数。
根据判别成分分析原理,可以将其划分为信息子空间和噪声子空间。目标为求解出类内距离最小和类间距离最大的目标函数。将判别信息的函数定义成如下的形式:
Figure RE-GDA0002883034850000067
其中wi是投影矩阵W的每一列,C是DCA投影空间的子空间的维度,ρ′和ρ是迹参数,I的与SB维度相同的单位矩阵,调整在矩阵奇异时转成非奇异的。
为了更加直观的找到最优和最合适的成分分析,将其转化成了一个直观的优化策略,将类间矩阵的最大为信号能量,将类内距离为噪声能量。可以转化成基于每个成分的信噪比的和,如下所示:
Figure RE-GDA0002883034850000068
其中si表示第i个信号成分,ni表示第i个噪声信号成分,wi是投影矩阵W的每一列,ρ′和ρ是迹参数。上述的式子我们可以将其转化成等价的能量和噪声比,第i个成分的能量噪声比可以写成
Figure RE-GDA0002883034850000071
其中
Figure RE-GDA0002883034850000072
可以明显的观察到
Figure RE-GDA0002883034850000073
因此判别能量的和可以写成如下的形式:
Figure RE-GDA0002883034850000074
其中c表示投影矩阵W的列数,wi是投影矩阵W的每一列,S是中心化的散度矩阵,SW是类内的散度矩阵。可以明显的看出来P′(W)=Sum of SNRs+C,可以提出P(W)和 P′(W)具有相同的判别信息的能量两者是等价的。
此时,为了矩阵补全的目标函数的最小相结合,将目标函数写成既能达到最大化的有效性又能最小隐私泄露的判别信息目标函数为:
Figure RE-GDA0002883034850000075
S13:基于判别信息,获取判别信息的投影矩阵。以上的表达式中可以将J(W)的优化求解式,写成
Figure RE-GDA0002883034850000076
等价的形式,其中arg min表达在WTSWW=I条件下我们让
Figure RE-GDA0002883034850000077
最小的W。其中tr(.)表示矩阵的奇异值的和。为了得到最优的W,采用拉格朗日乘子法,因此令
Figure RE-GDA0002883034850000078
可以加入拉格朗日乘子后,可得:
Figure RE-GDA0002883034850000079
在上面的表达式中优化得到最优的W,是令
Figure RE-GDA00028830348500000710
可以得到
Figure RE-GDA00028830348500000711
在对两边进行都乘以
Figure RE-GDA00028830348500000712
得到
Figure RE-GDA00028830348500000713
因此得到W就是
Figure RE-GDA00028830348500000714
矩阵的特征向量,求解出判别信息的投影矩阵W。
我们考虑结合了到存在数据缺失不完整的情况,需要对数据进行矩阵补全的任务操作,我们在求解得到了当前恢复矩阵的最大效用和最小隐私的投影矩阵W后,我们固定其W,对判别信息对
Figure RE-GDA0002883034850000081
进行求导,用于后续的矩阵补全的优化,得到的求导式子如下:
Figure RE-GDA0002883034850000082
其中:XW数据矩阵是由每个补全后样本减去对应所在类标签的均值所组成的矩阵,
Figure RE-GDA0002883034850000083
中心化样本矩阵
Figure RE-GDA0002883034850000084
其中
Figure RE-GDA0002883034850000085
S2:基于有监督矩阵补全技术,定义矩阵补全的优化式,将判别信息引入到补全信息,获取矩阵补全和最佳的投影矩阵。
S21:因为基于有监督的矩阵补全的技术,通过引入目标函数的有监督的隐私函数J(W)和标签信息来指导矩阵补全,使得其更好的接近与目标。因为数据集中的标签信息可以表征特征信息,所有通过监督信息和判别隐私,可以更好的指导矩阵补全。将矩阵补全目标函数定义成如下,
Figure RE-GDA0002883034850000086
其中在这里
Figure RE-GDA0002883034850000089
表示初始的缺失矩阵X0所观测到的元素的位置的下标集合,即除了Ω以外的元素在X0是缺失的。在给定Ω则可以定义线性的算法
Figure RE-GDA0002883034850000087
||.||tr表示矩阵的核范数,即奇异值的和,||.||F表示矩阵的Frobenius范数,即所有数的平方和的平方根,λ12≥0,λ12≥0表示的是正则化参数,W迭代优化过程中恢复矩阵
Figure RE-GDA00028830348500000810
的最好的效用和隐私的投影矩阵。
S22:交替优化,获取拥有最小隐私信息的补全矩阵。该矩阵补全的上述的优化式,通过交替的优化使得我们既能得到补全的矩阵,又能让该矩阵只有最小的隐私信息。在优化
Figure RE-GDA00028830348500000811
的时候,可以先根据S1求解出此时最优的W。然后固定W,去优化迭代求解更接近目标的恢复矩阵,我们将求解目标重新写成如下的形式:
Figure RE-GDA0002883034850000088
对于该表达式的优化可以利用经典的迹范数最小的加速近端梯度下降来求解问题,进行优化。这个方法利用的目标函数的平滑特征,我们可以将上述的式子进行改写,方便进行优化。
Figure RE-GDA0002883034850000091
令和
Figure RE-GDA0002883034850000092
其中函数
Figure RE-GDA0002883034850000093
函数中
Figure RE-GDA0002883034850000094
其中ZW数据矩阵Z是由每个补全后样本减去对应所在类标签的均值所组成的矩阵,
Figure RE-GDA0002883034850000095
中心化样本矩阵
Figure RE-GDA0002883034850000096
其中
Figure RE-GDA0002883034850000097
S23:求解补全的矩阵的最佳的效用和隐私的投影。该步骤介绍建立在S22之上,求解补全矩阵和最佳的效用和隐私投影W最佳的流程。优化过程可以再分为以下几步骤:
S231:设置初始化的参数θ0和θ1为:θ0=θ1∈(0,1],L>1,
Figure RE-GDA0002883034850000098
γ>1,令k=0
S232:定义恢复矩阵的中间变量Zk
Figure RE-GDA0002883034850000099
其中
Figure RE-GDA00028830348500000910
为第 k次恢复的矩阵,然后使用中间变量Zk,通过优化式求解
Figure RE-GDA00028830348500000911
优化式为
Figure RE-GDA00028830348500000912
求解
Figure RE-GDA00028830348500000913
可以将表达式转成
Figure RE-GDA00028830348500000914
等价的可以写成
Figure RE-GDA00028830348500000915
求解改表达式使用奇异值的阈值SVT可以转成奇异值分解在
Figure RE-GDA00028830348500000916
通过SVT的奇异值
Figure RE-GDA00028830348500000917
求得得到
Figure RE-GDA00028830348500000918
S233:更新
Figure RE-GDA00028830348500000919
当满足
Figure RE-GDA00028830348500000920
则更新L=γL和
Figure RE-GDA00028830348500000921
Figure RE-GDA00028830348500000922
反之则结束迭,其中
Figure RE-GDA0002883034850000101
S234:另
Figure RE-GDA0002883034850000102
S235:迭代,另k=k+1,直至得到最好的恢复结果
Figure RE-GDA0002883034850000103
及W最佳。本实施例中迭代20次。S3:将补全的数据进行有损的压缩投影。具体的:将所述最佳的效用和隐私投影划分成两部分,一个部分为Wmajor∈RM×(L-1)和Wminor∈RM×(M-L+1),其中Wmajor度量的是最大的有效能量部分,Wminor度量的隐私信息保护和重建误差的信息;
在最佳的投影的子空间中选择Wmajor部分用于投影,使得该部分的让数据集得到最大的判别能量,得到最大的效用性,在隐私任务中的效用性最低,投影的公式为如下的形式:
Figure RE-GDA0002883034850000104
其中
Figure RE-GDA0002883034850000105
表示原始缺失矩阵补全后的矩阵,
Figure RE-GDA0002883034850000106
表达通过投影后的公共子空间,只保留数据的效用部分,去掉数据的隐私部分,L表达效用类类别数。
S4:将补全后有损压缩的数据,建立漏斗形的深度神经网络的分类模型,对压缩数据进行效用性和隐私性进行验证。
S41:根据所述S3得到的去除隐私部分的数据样本
Figure RE-GDA0002883034850000107
作为样本矩阵,随机的选择0.7 的样本作为训练样本,取0.3的样本作为测试样本,将样本放入到漏斗状的神经网络进行训练,该神经网络的输入为
Figure RE-GDA0002883034850000108
该深度神经网络的网络结构第一层网络输入为L-1,神经元个数为512,激活函数为Relu,第二层为drop层drop率为0.2,第三层神经网络神经元个数为64,激活函数为Relu,第四层为drop层drop率为0.1,第五层为全连接层神经元个数为 L,激活函数为softmax,最后输出为预测的样本效用标签;
S42:根据所述S3得到的去除隐私部分的数据样本
Figure RE-GDA0002883034850000109
作为样本矩阵,随机选择0.7 的样本作为训练样本,取0.3的样本作为测试样本,该神经网络的网络结构有5层,第一层输入为L-1,神经元个数为64,激活函数为Relu,第二层为drop层drop率为0.2,第三层神经网络个数为32,激活函数为Relu,第四层drop层的drop率为0.2,第五层为全连接层神经元的个数为Lp,Lp为隐私的类别数,最后输出为预测的隐私的标签。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种有监督矩阵补全的隐私保护方法,其特征在于:隐私保护方法包括:
S1:根据当前恢复的补全矩阵,获得达到具有最大化的有效性同时具备最小隐私泄露的判别信息及其投影矩阵;
S2:基于有监督矩阵补全技术,定义矩阵补全的优化式,将判别信息引入到补全信息,获取矩阵补全和最佳的投影矩阵;
S3:将补全的数据进行有损的压缩投影。
2.根据权利要求1所述的有监督矩阵补全的隐私保护方法,其特征在于:所述S1具体为:
S11:获取当前恢复的补全矩阵
Figure RE-FDA0002883034840000011
的散度矩阵SW和类间的散度矩阵SB
散度矩阵SW表示为:
Figure RE-FDA0002883034840000012
其中:i代表类标签,L代表数据集中总的类别数,其中j代表第i类的第j个样本,Ni代表第i类中总的样本数,
Figure RE-FDA0002883034840000013
代表第i类的第j个样本,ui表示第i类样本的均值;
类间散度矩阵SB表示为:
Figure RE-FDA0002883034840000014
其中:i代表类标签,L代表数据集中总的类别数,ui表示第i类样本的均值,u表示样本矩阵中的均值;
S12:结合类内的散度矩阵SW和类间的散度矩阵SB,获得具有最大化的有效性同时具备最小隐私泄露的目标函数,具体为:
Figure RE-FDA0002883034840000015
其中
Figure RE-FDA0002883034840000016
其中wi是投影矩阵W的每一列,C是DCA投影空间的子空间的维度,W为判别信息的投影矩阵,
Figure RE-FDA0002883034840000021
等于类内散度矩阵和类间散度矩阵的和;
S13:基于判别信息,获取判别信息的投影矩阵。
3.根据权利要求2所述的有监督矩阵补全的隐私保护方法,其特征在于:所述S2具体为:
S21:定义矩阵补全的目标函数,具体为:
Figure RE-FDA0002883034840000022
其中:
Figure RE-FDA0002883034840000023
表示初始的缺失矩阵X0所观测到的元素的位置的下标集合,即除了Ω以外的元素在X0是缺失的;
Figure RE-FDA0002883034840000024
||.||tr表示矩阵的核范数,即奇异值的和,||.||F表示矩阵的Frobenius范数,即所有数的平方和的平方根,λ12≥0,λ12≥0表示的是正则化参数;
S22:交替优化,获取拥有最小隐私信息的补全矩阵;
S23:求解补全的矩阵的最佳的效用和隐私的投影。
4.根据权利要求3所述的有监督矩阵补全的隐私保护方法,其特征在于:所述S23具体为:
S231:设置初始化参数θ0和θ1,其中,
Figure RE-FDA0002883034840000025
S232:定义恢复矩阵的中间变量Zk
Figure RE-FDA0002883034840000026
其中:
Figure RE-FDA0002883034840000027
为第k次恢复的矩阵;
S233:更新
Figure RE-FDA0002883034840000028
当满足
Figure RE-FDA0002883034840000029
则更新L=γL和
Figure RE-FDA00028830348400000210
Figure RE-FDA0002883034840000031
反之则结束迭代,其中
Figure RE-FDA0002883034840000032
S234:另
Figure RE-FDA0002883034840000033
S235:进行迭代直至得到最好的恢复结果
Figure RE-FDA0002883034840000034
和W。
5.根据权利要求4所述的有监督矩阵补全的隐私保护方法,其特征在于:所述S3具体为:
将所述最佳的效用和隐私投影划分成两部分,一个部分为Wmajor∈RM×(L-1)和Wminor∈RM ×(M-L+1),其中Wmajor度量的是最大的有效能量部分,Wminor度量的隐私信息保护和重建误差的信息;
在最佳的投影的子空间中选择Wmajor部分用于投影,使得该部分的让数据集得到最大的判别能量,得到最大的效用性,在隐私任务中的效用性最低,投影的公式为如下的形式:
Figure RE-FDA0002883034840000035
其中
Figure RE-FDA0002883034840000036
表示原始缺失矩阵补全后的矩阵,
Figure RE-FDA0002883034840000037
表达通过投影后的公共子空间,只保留数据的效用部分,去掉数据的隐私部分,L表达效用类类别数。
6.根据权利要求1所述的有监督矩阵补全的隐私保护方法,其特征在于:所述隐私保护方法还包括S4,具体为:
S4:将补全后有损压缩的数据,建立漏斗形的深度神经网络的分类模型,对压缩数据进行效用性和隐私性进行验证。
7.根据权利要求6所述的有监督矩阵补全的隐私保护方法,其特征在于:所述S4具体分为以下步骤:
S41:根据所述S3得到的去除隐私部分的数据样本
Figure RE-FDA0002883034840000038
作为样本矩阵,随机的选择0.7的样本作为训练样本,取0.3的样本作为测试样本,将样本放入到漏斗状的神经网络进行训练,该神经网络的输入为
Figure RE-FDA0002883034840000039
该深度神经网络的网络结构第一层网络输入为L-1,神经元个数为512,激活函数为Relu,第二层为drop层drop率为0.2,第三层神经网络神经元个数为64,激活函数为Relu,第四层为drop层drop率为0.1,第五层为全连接层神经元个数为L,激活函数为softmax,最后输出为预测的样本效用标签;
S42:根据所述S3得到的去除隐私部分的数据样本
Figure RE-FDA0002883034840000041
作为样本矩阵,随机选择0.7的样本作为训练样本,取0.3的样本作为测试样本,该神经网络的网络结构有5层,第一层输入为L-1,神经元个数为64,激活函数为Relu,第二层为drop层drop率为0.2,第三层神经网络个数为32,激活函数为Relu,第四层drop层的drop率为0.2,第五层为全连接层神经元的个数为Lp,Lp为隐私的类别数,最后输出为预测的隐私的标签。
CN202011165155.2A 2020-10-27 2020-10-27 一种有监督矩阵补全的隐私保护方法 Pending CN112364372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011165155.2A CN112364372A (zh) 2020-10-27 2020-10-27 一种有监督矩阵补全的隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011165155.2A CN112364372A (zh) 2020-10-27 2020-10-27 一种有监督矩阵补全的隐私保护方法

Publications (1)

Publication Number Publication Date
CN112364372A true CN112364372A (zh) 2021-02-12

Family

ID=74510424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011165155.2A Pending CN112364372A (zh) 2020-10-27 2020-10-27 一种有监督矩阵补全的隐私保护方法

Country Status (1)

Country Link
CN (1) CN112364372A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116761164A (zh) * 2023-08-11 2023-09-15 北京科技大学 一种基于矩阵补全的隐私数据传输方法及系统

Citations (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254572A1 (en) * 2007-01-05 2009-10-08 Redlich Ron M Digital information infrastructure and method
US20130036116A1 (en) * 2011-08-05 2013-02-07 International Business Machines Corporation Privacy-aware on-line user role tracking
CN103471865A (zh) * 2013-09-12 2013-12-25 北京交通大学 基于线性判别法的列车悬挂系统故障分离方法
WO2015026386A1 (en) * 2013-08-19 2015-02-26 Thomson Licensing Method and apparatus for utility-aware privacy preserving mapping through additive noise
WO2015026384A1 (en) * 2013-08-19 2015-02-26 Thomson Licensing Method and apparatus for utility-aware privacy preserving mapping against inference attacks
WO2015057854A1 (en) * 2013-10-15 2015-04-23 University Of Florida Research Foundation, Inc. Privacy-preserving data collection, publication, and analysis
US20160203333A1 (en) * 2012-08-20 2016-07-14 Thomson Licensing Method and apparatus for utility-aware privacy preserving mapping against inference attacks
US20160210463A1 (en) * 2012-08-20 2016-07-21 Nadia Fawaz Method and apparatus for utility-aware privacy preserving mapping through additive noise
CN106599725A (zh) * 2016-12-22 2017-04-26 广西师范大学 图数据发布的随机化隐私保护方法
US20170242161A1 (en) * 2016-02-24 2017-08-24 Hong Kong Beida Jade Bird Display Limited Display panels with integrated micro lens array
CN107241321A (zh) * 2017-05-26 2017-10-10 陕西科技大学 一种个人医疗信息隐私保护方法
CN107392243A (zh) * 2017-07-18 2017-11-24 重庆大学 一种基于零空间lda的语义空间监督学习的图像分类方法
CN108280217A (zh) * 2018-02-06 2018-07-13 南京理工大学 一种基于差分隐私保护的矩阵分解推荐方法
CN108537738A (zh) * 2018-02-02 2018-09-14 厦门大学 一种矩阵补全方法
CN108776836A (zh) * 2018-06-08 2018-11-09 电子科技大学 一种基于vhe的隐私保护神经网络的训练及预测方法
CN109034228A (zh) * 2018-07-17 2018-12-18 陕西师范大学 一种基于差分隐私和层级相关性传播的图像分类方法
CN109190661A (zh) * 2018-07-26 2019-01-11 安徽师范大学 一种基于差分隐私保护的谱聚类方法
CN110363025A (zh) * 2019-06-28 2019-10-22 北京淇瑀信息科技有限公司 一种用户数据隐私管理方法、装置和电子设备
CN110490231A (zh) * 2019-07-17 2019-11-22 哈尔滨工程大学 一种有监督判别流形学习的Netflow数据降维方法
CN110610144A (zh) * 2019-08-28 2019-12-24 首都师范大学 隐私保护的表情识别方法及系统
CN110633650A (zh) * 2019-08-22 2019-12-31 首都师范大学 基于隐私保护的卷积神经网络人脸识别方法及装置
US20200082259A1 (en) * 2018-09-10 2020-03-12 International Business Machines Corporation System for Measuring Information Leakage of Deep Learning Models
CN111444531A (zh) * 2020-02-18 2020-07-24 江苏荣泽信息科技股份有限公司 一种基于区块链的隐私数据保护系统及实现方法
US20200242466A1 (en) * 2017-03-22 2020-07-30 Visa International Service Association Privacy-preserving machine learning
US20200311540A1 (en) * 2019-03-28 2020-10-01 International Business Machines Corporation Layer-Wise Distillation for Protecting Pre-Trained Neural Network Models
US20210073677A1 (en) * 2019-09-06 2021-03-11 Oracle International Corporation Privacy preserving collaborative learning with domain adaptation
CN112967202A (zh) * 2021-03-12 2021-06-15 华北水利水电大学 双曲型偏微分方程具有保护隐私加密图像去噪方法
CN112989438A (zh) * 2021-02-18 2021-06-18 上海海洋大学 针对隐私保护神经网络模型的后门攻击的检测与识别方法
CN113127931A (zh) * 2021-06-18 2021-07-16 国网浙江省电力有限公司信息通信分公司 基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法
CN113255798A (zh) * 2021-06-02 2021-08-13 苏州浪潮智能科技有限公司 一种分类模型训练方法、装置、设备及介质
CN113705772A (zh) * 2021-07-21 2021-11-26 浪潮(北京)电子信息产业有限公司 一种模型训练方法、装置、设备及可读存储介质
CN114003960A (zh) * 2021-11-26 2022-02-01 上海对外经贸大学 一种神经网络模型的训练方法
CN115146312A (zh) * 2022-07-04 2022-10-04 广西师范大学 基于异构图神经网络隐私保护的社会影响预测方法和系统
CN115687501A (zh) * 2022-11-09 2023-02-03 国网安徽省电力有限公司信息通信分公司 基于差分隐私计算保护下的电力数据关联规则挖掘方法
CN115795536A (zh) * 2022-11-17 2023-03-14 浙江工业大学 基于扩散模型的推荐系统隐私攻击的防御方法
CN115905358A (zh) * 2022-11-25 2023-04-04 重庆大学 一种基于图神经网络的内生安全的信任挖掘方法及系统
CN116523074A (zh) * 2023-05-16 2023-08-01 许昌学院 动态化公平性的隐私保护联邦深度学习方法
CN117349899A (zh) * 2023-12-06 2024-01-05 湖北省楚天云有限公司 基于遗忘模型的敏感数据处理方法、系统及存储介质

Patent Citations (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090254572A1 (en) * 2007-01-05 2009-10-08 Redlich Ron M Digital information infrastructure and method
US20130036116A1 (en) * 2011-08-05 2013-02-07 International Business Machines Corporation Privacy-aware on-line user role tracking
US20160203333A1 (en) * 2012-08-20 2016-07-14 Thomson Licensing Method and apparatus for utility-aware privacy preserving mapping against inference attacks
US20160210463A1 (en) * 2012-08-20 2016-07-21 Nadia Fawaz Method and apparatus for utility-aware privacy preserving mapping through additive noise
WO2015026386A1 (en) * 2013-08-19 2015-02-26 Thomson Licensing Method and apparatus for utility-aware privacy preserving mapping through additive noise
WO2015026384A1 (en) * 2013-08-19 2015-02-26 Thomson Licensing Method and apparatus for utility-aware privacy preserving mapping against inference attacks
CN103471865A (zh) * 2013-09-12 2013-12-25 北京交通大学 基于线性判别法的列车悬挂系统故障分离方法
WO2015057854A1 (en) * 2013-10-15 2015-04-23 University Of Florida Research Foundation, Inc. Privacy-preserving data collection, publication, and analysis
US20170242161A1 (en) * 2016-02-24 2017-08-24 Hong Kong Beida Jade Bird Display Limited Display panels with integrated micro lens array
CN106599725A (zh) * 2016-12-22 2017-04-26 广西师范大学 图数据发布的随机化隐私保护方法
US20200242466A1 (en) * 2017-03-22 2020-07-30 Visa International Service Association Privacy-preserving machine learning
CN107241321A (zh) * 2017-05-26 2017-10-10 陕西科技大学 一种个人医疗信息隐私保护方法
CN107392243A (zh) * 2017-07-18 2017-11-24 重庆大学 一种基于零空间lda的语义空间监督学习的图像分类方法
CN108537738A (zh) * 2018-02-02 2018-09-14 厦门大学 一种矩阵补全方法
CN108280217A (zh) * 2018-02-06 2018-07-13 南京理工大学 一种基于差分隐私保护的矩阵分解推荐方法
CN108776836A (zh) * 2018-06-08 2018-11-09 电子科技大学 一种基于vhe的隐私保护神经网络的训练及预测方法
CN109034228A (zh) * 2018-07-17 2018-12-18 陕西师范大学 一种基于差分隐私和层级相关性传播的图像分类方法
CN109190661A (zh) * 2018-07-26 2019-01-11 安徽师范大学 一种基于差分隐私保护的谱聚类方法
US20200082259A1 (en) * 2018-09-10 2020-03-12 International Business Machines Corporation System for Measuring Information Leakage of Deep Learning Models
US20200311540A1 (en) * 2019-03-28 2020-10-01 International Business Machines Corporation Layer-Wise Distillation for Protecting Pre-Trained Neural Network Models
CN110363025A (zh) * 2019-06-28 2019-10-22 北京淇瑀信息科技有限公司 一种用户数据隐私管理方法、装置和电子设备
CN110490231A (zh) * 2019-07-17 2019-11-22 哈尔滨工程大学 一种有监督判别流形学习的Netflow数据降维方法
CN110633650A (zh) * 2019-08-22 2019-12-31 首都师范大学 基于隐私保护的卷积神经网络人脸识别方法及装置
CN110610144A (zh) * 2019-08-28 2019-12-24 首都师范大学 隐私保护的表情识别方法及系统
US20210073677A1 (en) * 2019-09-06 2021-03-11 Oracle International Corporation Privacy preserving collaborative learning with domain adaptation
CN111444531A (zh) * 2020-02-18 2020-07-24 江苏荣泽信息科技股份有限公司 一种基于区块链的隐私数据保护系统及实现方法
CN112989438A (zh) * 2021-02-18 2021-06-18 上海海洋大学 针对隐私保护神经网络模型的后门攻击的检测与识别方法
CN112967202A (zh) * 2021-03-12 2021-06-15 华北水利水电大学 双曲型偏微分方程具有保护隐私加密图像去噪方法
CN113255798A (zh) * 2021-06-02 2021-08-13 苏州浪潮智能科技有限公司 一种分类模型训练方法、装置、设备及介质
CN113127931A (zh) * 2021-06-18 2021-07-16 国网浙江省电力有限公司信息通信分公司 基于瑞丽散度进行噪声添加的联邦学习差分隐私保护方法
CN113705772A (zh) * 2021-07-21 2021-11-26 浪潮(北京)电子信息产业有限公司 一种模型训练方法、装置、设备及可读存储介质
WO2023000574A1 (zh) * 2021-07-21 2023-01-26 浪潮(北京)电子信息产业有限公司 一种模型训练方法、装置、设备及可读存储介质
CN114003960A (zh) * 2021-11-26 2022-02-01 上海对外经贸大学 一种神经网络模型的训练方法
CN115146312A (zh) * 2022-07-04 2022-10-04 广西师范大学 基于异构图神经网络隐私保护的社会影响预测方法和系统
CN115687501A (zh) * 2022-11-09 2023-02-03 国网安徽省电力有限公司信息通信分公司 基于差分隐私计算保护下的电力数据关联规则挖掘方法
CN115795536A (zh) * 2022-11-17 2023-03-14 浙江工业大学 基于扩散模型的推荐系统隐私攻击的防御方法
CN115905358A (zh) * 2022-11-25 2023-04-04 重庆大学 一种基于图神经网络的内生安全的信任挖掘方法及系统
CN116523074A (zh) * 2023-05-16 2023-08-01 许昌学院 动态化公平性的隐私保护联邦深度学习方法
CN117349899A (zh) * 2023-12-06 2024-01-05 湖北省楚天云有限公司 基于遗忘模型的敏感数据处理方法、系统及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ABE, N等: "Protecting Privacy in the Archives: Supervised Machine Learning and Born-Digital Records", 2018 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA), 31 December 2018 (2018-12-31), pages 2696 - 2701, XP033507921, DOI: 10.1109/BigData.2018.8621929 *
嗷大豆的数据工厂: "机器学习算法推导&手写实现03——线性判别分析", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/140070299> *
朱海明: "局部差分隐私约束的扰动数据发布", 万方数据, no. 2020, 15 January 2020 (2020-01-15), pages 138 - 87 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116761164A (zh) * 2023-08-11 2023-09-15 北京科技大学 一种基于矩阵补全的隐私数据传输方法及系统
CN116761164B (zh) * 2023-08-11 2023-11-14 北京科技大学 一种基于矩阵补全的隐私数据传输方法及系统

Similar Documents

Publication Publication Date Title
CN112163465B (zh) 细粒度图像分类方法、系统、计算机设备及存储介质
CN107679465A (zh) 一种基于生成网络的行人重识别数据生成和扩充方法
CN105760821A (zh) 基于核空间的分类聚集稀疏表示的人脸识别方法
CN110544177A (zh) 基于电力指纹的负荷识别方法及计算机可读存储介质
CN113657455B (zh) 一种基于三重网络与标注一致性正则化的半监督学习方法
Chen et al. Automated design of neural network architectures with reinforcement learning for detection of global manipulations
CN114821204B (zh) 一种基于元学习嵌入半监督学习图像分类方法与系统
CN111562612A (zh) 一种基于注意力机制的深度学习微震事件识别方法及系统
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN111680644B (zh) 一种基于深度空时特征学习的视频行为聚类方法
CN115249332A (zh) 基于空谱双分支卷积网络的高光谱图像分类方法及设备
Zhang et al. Transland: An adversarial transfer learning approach for migratable urban land usage classification using remote sensing
CN112364372A (zh) 一种有监督矩阵补全的隐私保护方法
CN115935372A (zh) 一种基于图嵌入和双向门控图神经网络的漏洞检测方法
CN107423697A (zh) 基于非线性融合深度3d卷积描述子的行为识别方法
CN111352926B (zh) 数据处理的方法、装置、设备及可读存储介质
CN114580262A (zh) 一种锂离子电池健康状态估计方法
Wang et al. R2-trans: Fine-grained visual categorization with redundancy reduction
CN109711485A (zh) 一种基于社区检测的多标签分类方法
CN116863247A (zh) 一种融合全局和局部信息的多模态遥感数据分类方法
CN111858343A (zh) 一种基于攻击能力的对抗样本生成方法
CN110288002B (zh) 一种基于稀疏正交神经网络的图像分类方法
CN112285565B (zh) 基于rkhs域匹配的迁移学习预测电池soh方法
CN114419382A (zh) 一种无监督的多视图图像的图嵌入方法及系统
CN117315381B (zh) 一种基于二阶有偏随机游走的高光谱图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination