CN112364372A

CN112364372A - 一种有监督矩阵补全的隐私保护方法

Info

Publication number: CN112364372A
Application number: CN202011165155.2A
Authority: CN
Inventors: 彭松; 肖迪
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-02-12

Abstract

本发明公开了一种有监督矩阵补全的隐私保护方法，包括：S1：根据当前恢复的补全矩阵，获得达到具有最大化的有效性同时具备最小隐私泄露的判别信息及其投影矩阵；S2：基于有监督矩阵补全技术，定义矩阵补全的优化式，将判别信息引入到补全信息，获取矩阵补全和最佳的投影矩阵；S3：将补全的数据进行有损的压缩投影。本发明，同时考虑了数据集补全中的标签信息还考虑了矩阵的隐私，因此矩阵补全的方法能够进一步的提高恢复后矩阵数据的效用性和隐私性，从而通过有损的压缩的方法将其放入漏斗状的神经网络进行效用类别的预测，还能保证隐私类别不能不被预测出，能够为缺失数据补全和用户的数据隐私提供一种可靠的方法。

Description

一种有监督矩阵补全的隐私保护方法

技术领域

本发明涉及智能隐私保护与网络安全领域，具体的，涉及一种有监督矩阵补全的隐私保护方法。

背景技术

对于大数据和智能信息时代，越来越多的数据被收集的同时收集的数据也存在着噪声、失真和数据缺失的问题，基于这两个问题将缺失的数据进行有监督的压缩隐私矩阵补全不仅可以提高数据的效用性还能提升数据的隐私安全。

在大数据时代，越来越多的网络数据被收集，这就使得大量数据存放在云环境中。由于现在的数据挖掘工具越来越强大，极有可能导致数据隐私被挖掘甚至被泄露的问题。同时，在收集数据的过程中想要收集到完整的数据也是很困难的，需要耗费很大的人力物力。

专利文献CN108537738A一种矩阵补全方法，涉及基于低秩近似的高精度的矩阵补全方法，一种方式是通过采集部分信号来加速数据采集。从这些数据的低秩特性出发来恢复出完整的信号，首先利用逼近函数来近似计算矩阵的秩，然后建立矩阵缺失信号的重建模型，最后通过迭代算法重建信号。重建的矩阵精度高，易于操作，可以从少量数据中恢复出完整信号。但是该矩阵补全的方法仅仅考虑的是矩阵数据的本身没有考虑到待补全数据的标签信息，以及补全数据的隐私问题，该方法也没有考虑到补全后的矩阵是否补全的矩阵的可用性是否下降。

发明内容

有鉴于此，本发明的目的是提供一种基于有监督矩阵补全的隐私保护方法，考虑了数据集补全中的标签信息还考虑了矩阵的隐私，能够为缺失数据补全和用户的数据隐私提供一种可靠的方法。

本发明的目的是通过以下技术方案实现的：

一种有监督矩阵补全的隐私保护方法，隐私保护方法包括：

S1：根据当前恢复的补全矩阵，获得达到具有最大化的有效性同时具备最小隐私泄露的判别信息及其投影矩阵；

S2：基于有监督矩阵补全技术，定义矩阵补全的优化式，将判别信息引入到补全信息，获取矩阵补全和最佳的投影矩阵；

S3：将补全的数据进行有损的压缩投影。

进一步，所述S1具体为：

S11：获取当前恢复的补全矩阵

的散度矩阵S_W和类间的散度矩阵S_B；

散度矩阵S_W表示为：

其中：i代表类标签，L代表数据集中总的类别数，其中j代表第i类的第j个样本，N_i代表第i类中总的样本数，

代表第i类的第j个样本，u_i表示第i类样本的均值；

类间散度矩阵S_B表示为：

其中：i代表类标签，L代表数据集中总的类别数，u_i表示第i类样本的均值，u表示样本矩阵中的均值；

S12：结合类内的散度矩阵S_W和类间的散度矩阵S_B获得具有最大化的有效性同时具备最小隐私泄露的目标函数，具体为：

其中

其中w_i是投影矩阵W的每一列，C是DCA投影空间的子空间的维度，W为判别信息的投影矩阵，S等于类内散度矩阵和类间散度矩阵的和；

S13：基于判别信息，获取判别信息的投影矩阵。

进一步，所述S2具体为：

S21：定义矩阵补全的目标函数，具体为：

其中：

表示初始的缺失矩阵X₀所观测到的元素的位置的下标集合，即除了Ω以外的元素在X₀是缺失的；

||.||_tr表示矩阵的核范数，即奇异值的和，||.||_F表示矩阵的Frobenius范数，即所有数的平方和的平方根，λ₁,λ₂≥0，λ₁,λ₂≥0表示的是正则化参数；

S22：交替优化，获取拥有最小隐私信息的补全矩阵；

S23：求解补全的矩阵的最佳的效用和隐私的投影。

进一步，所述S23具体为：

S231：设置初始化参数θ₀和θ₁，其中，

θ₀＝θ₁∈(0,1],L＞1,

γ＞1,令k＝0；

S232：定义恢复矩阵的中间变量Z_k，

其中：

为第k次恢复的矩阵；

S233：更新

当满足

则更新L＝γL和

反之则结束迭代，其中

S234：另

S235：进行迭代直至得到最好的恢复结果

和W。

进一步，所述S3具体为：

将所述最佳的效用和隐私投影划分成两部分，一个部分为W_major∈R^M×(L-1)和 W_minor∈R^M×(M-L+1)，其中W_major度量的是最大的有效能量部分，W_minor度量的隐私信息保护和重建误差的信息；

在最佳的投影的子空间中选择W_major部分用于投影，使得该部分的让数据集得到最大的判别能量，得到最大的效用性，在隐私任务中的效用性最低，投影的公式为如下的形式：

其中

表示原始缺失矩阵补全后的矩阵，

表达通过投影后的公共子空间，只保留数据的效用部分，去掉数据的隐私部分，L表达效用类类别数。

进一步，所述隐私保护方法还包括S4，具体为：

S4：将补全后有损压缩的数据，建立漏斗形的深度神经网络的分类模型，对压缩数据进行效用性和隐私性进行验证。

进一步，所述S4具体分为以下步骤：

S41：根据所述S3得到的去除隐私部分的数据样本

作为样本矩阵，随机的选择 0.7的样本作为训练样本，取0.3的样本作为测试样本，将样本放入到漏斗状的神经网络进行训练，该神经网络的输入为

该深度神经网络的网络结构第一层网络输入为L-1，神经元个数为512，激活函数为Relu，第二层为drop层drop率为0.2，第三层神经网络神经元个数为64，激活函数为Relu，第四层为drop层drop率为0.1，第五层为全连接层神经元个数为L，激活函数为softmax，最后输出为预测的样本效用标签；

S42：根据所述S3得到的去除隐私部分的数据样本

作为样本矩阵，随机选择0.7 的样本作为训练样本，取0.3的样本作为测试样本，该神经网络的网络结构有5层，第一层输入为L-1，神经元个数为64，激活函数为Relu，第二层为drop层drop率为0.2，第三层神经网络个数为32，激活函数为Relu，第四层drop层的drop率为0.2，第五层为全连接层神经元的个数为L_p，L_p为隐私的类别数，最后输出为预测的隐私的标签，最后根据S41和S42的结果验证目标的吻合性。

本发明的有益效果是：

本发明提出了一种基于有监督矩阵补全的隐私保护方法，同时考虑了数据集补全中的标签信息还考虑了矩阵的隐私，因为在标签信息可以表征其数据样本的特征信息，在补全的同时还度量其数据的效用性和隐私性，因此矩阵补全的方法能够进一步的提高恢复后矩阵数据的效用性和隐私性，从而通过有损的压缩的方法将其放入漏斗状的神经网络进行效用类别的预测，还能保证隐私类别不能不被预测出，能够为缺失数据补全和用户的数据隐私提供一种可靠的方法。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

附图1为本发明流程图。

具体实施方式

以下将参照附图，对本发明的优选实施例进行详细的描述。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

本发明提出了一种有监督矩阵补全的隐私保护方法，本发明凭借机器学习中的数据集是结构化的，能保证数据矩阵是低秩的优势，本发明通过矩阵补全的算法将缺失信息补全。利用待补全数据的标签信息，引入有监督的、有损的压缩隐私，使得监督的标签信息不仅能够指导缺失矩阵的补全，还能够使得补全的数据是具有最小的隐私泄露，使得我们的缺失数据能够更效用性和隐私性，更加安全放心的将数据上传给云服务器，具体如图1所示，包括如下步骤：

S1：根据当前恢复的补全矩阵

根据根据有监督判别成分分析，获得最大化的有效性又能最小隐私泄露的判别信息及其投影矩阵W(有损压缩的投影)。

S11：根据判别成分分析的原理，根据其对应的标签信息，获取当前恢复的补全矩阵

的散度矩阵S_W和类间的散度矩阵S_B；

散度矩阵S_W表示为：

其中：i代表类标签，L代表数据集中总的类别数，其中j代表第i类的第j个样本,N_i代表第i类中总的样本数，

代表第i类的第j个样本，u_i表示第i类样本的均值；

类间散度矩阵S_B表示为：

同时，还可以将中心化的散度矩阵的定义

划分成两个部分，其中

为

S12：结合散度矩阵S_W和类间的散度矩阵S_B，根据判别成分分析的原理，获得最大化的有效性又能最小隐私泄露的判别信息的目标函数。

根据判别成分分析原理，可以将其划分为信息子空间和噪声子空间。目标为求解出类内距离最小和类间距离最大的目标函数。将判别信息的函数定义成如下的形式：

其中w_i是投影矩阵W的每一列，C是DCA投影空间的子空间的维度，ρ′和ρ是迹参数，I的与S_B维度相同的单位矩阵，调整在矩阵奇异时转成非奇异的。

为了更加直观的找到最优和最合适的成分分析，将其转化成了一个直观的优化策略，将类间矩阵的最大为信号能量，将类内距离为噪声能量。可以转化成基于每个成分的信噪比的和，如下所示：

其中s_i表示第i个信号成分，n_i表示第i个噪声信号成分，w_i是投影矩阵W的每一列，ρ′和ρ是迹参数。上述的式子我们可以将其转化成等价的能量和噪声比，第i个成分的能量噪声比可以写成

其中

可以明显的观察到

因此判别能量的和可以写成如下的形式：

其中c表示投影矩阵W的列数，w_i是投影矩阵W的每一列，S是中心化的散度矩阵，S_W是类内的散度矩阵。可以明显的看出来P′(W)＝Sum of SNRs+C，可以提出P(W)和 P′(W)具有相同的判别信息的能量两者是等价的。

此时，为了矩阵补全的目标函数的最小相结合，将目标函数写成既能达到最大化的有效性又能最小隐私泄露的判别信息目标函数为：

S13：基于判别信息，获取判别信息的投影矩阵。以上的表达式中可以将J(W)的优化求解式，写成

等价的形式，其中arg min表达在W^TS_WW＝I条件下我们让

最小的W。其中tr(.)表示矩阵的奇异值的和。为了得到最优的W，采用拉格朗日乘子法，因此令

可以加入拉格朗日乘子后，可得：

在上面的表达式中优化得到最优的W，是令

可以得到

在对两边进行都乘以

得到

因此得到W就是

矩阵的特征向量，求解出判别信息的投影矩阵W。

我们考虑结合了到存在数据缺失不完整的情况，需要对数据进行矩阵补全的任务操作，我们在求解得到了当前恢复矩阵的最大效用和最小隐私的投影矩阵W后，我们固定其W，对判别信息对

进行求导，用于后续的矩阵补全的优化，得到的求导式子如下：

其中：X_W数据矩阵是由每个补全后样本减去对应所在类标签的均值所组成的矩阵，

中心化样本矩阵

其中

S2：基于有监督矩阵补全技术，定义矩阵补全的优化式，将判别信息引入到补全信息，获取矩阵补全和最佳的投影矩阵。

S21：因为基于有监督的矩阵补全的技术，通过引入目标函数的有监督的隐私函数J(W)和标签信息来指导矩阵补全，使得其更好的接近与目标。因为数据集中的标签信息可以表征特征信息，所有通过监督信息和判别隐私，可以更好的指导矩阵补全。将矩阵补全目标函数定义成如下，

其中在这里

表示初始的缺失矩阵X₀所观测到的元素的位置的下标集合，即除了Ω以外的元素在X₀是缺失的。在给定Ω则可以定义线性的算法

||.||_tr表示矩阵的核范数，即奇异值的和，||.||_F表示矩阵的Frobenius范数，即所有数的平方和的平方根，λ₁,λ₂≥0，λ₁,λ₂≥0表示的是正则化参数,W迭代优化过程中恢复矩阵

的最好的效用和隐私的投影矩阵。

S22：交替优化，获取拥有最小隐私信息的补全矩阵。该矩阵补全的上述的优化式，通过交替的优化使得我们既能得到补全的矩阵，又能让该矩阵只有最小的隐私信息。在优化

的时候，可以先根据S1求解出此时最优的W。然后固定W，去优化迭代求解更接近目标的恢复矩阵，我们将求解目标重新写成如下的形式：

对于该表达式的优化可以利用经典的迹范数最小的加速近端梯度下降来求解问题，进行优化。这个方法利用的目标函数的平滑特征，我们可以将上述的式子进行改写，方便进行优化。

令和

其中函数

函数中

其中Z_W数据矩阵Z是由每个补全后样本减去对应所在类标签的均值所组成的矩阵，

中心化样本矩阵

其中

S23：求解补全的矩阵的最佳的效用和隐私的投影。该步骤介绍建立在S22之上，求解补全矩阵和最佳的效用和隐私投影W_最佳的流程。优化过程可以再分为以下几步骤：

S231：设置初始化的参数θ₀和θ₁为：θ₀＝θ₁∈(0,1],L＞1,

γ＞1,令k＝0

S232：定义恢复矩阵的中间变量Z_k，

其中

为第 k次恢复的矩阵，然后使用中间变量Z_k，通过优化式求解

优化式为

求解

可以将表达式转成

等价的可以写成

求解改表达式使用奇异值的阈值SVT可以转成奇异值分解在

通过SVT的奇异值

求得得到

S233：更新

当满足

则更新L＝γL和

反之则结束迭，其中

S234：另

S235：迭代，另k＝k+1，直至得到最好的恢复结果

及W_最佳。本实施例中迭代20次。S3：将补全的数据进行有损的压缩投影。具体的：将所述最佳的效用和隐私投影划分成两部分，一个部分为W_major∈R^M×(L-1)和W_minor∈R^M×(M-L+1)，其中W_major度量的是最大的有效能量部分，W_minor度量的隐私信息保护和重建误差的信息；

其中

表示原始缺失矩阵补全后的矩阵，

S41：根据所述S3得到的去除隐私部分的数据样本

作为样本矩阵，随机的选择0.7 的样本作为训练样本，取0.3的样本作为测试样本，将样本放入到漏斗状的神经网络进行训练，该神经网络的输入为

该深度神经网络的网络结构第一层网络输入为L-1，神经元个数为512，激活函数为Relu，第二层为drop层drop率为0.2，第三层神经网络神经元个数为64，激活函数为Relu，第四层为drop层drop率为0.1，第五层为全连接层神经元个数为 L，激活函数为softmax，最后输出为预测的样本效用标签；

S42：根据所述S3得到的去除隐私部分的数据样本

作为样本矩阵，随机选择0.7 的样本作为训练样本，取0.3的样本作为测试样本，该神经网络的网络结构有5层，第一层输入为L-1，神经元个数为64，激活函数为Relu，第二层为drop层drop率为0.2，第三层神经网络个数为32，激活函数为Relu，第四层drop层的drop率为0.2，第五层为全连接层神经元的个数为L_p，L_p为隐私的类别数，最后输出为预测的隐私的标签。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种有监督矩阵补全的隐私保护方法，其特征在于：隐私保护方法包括：

S3：将补全的数据进行有损的压缩投影。

2.根据权利要求1所述的有监督矩阵补全的隐私保护方法，其特征在于：所述S1具体为：

S11：获取当前恢复的补全矩阵

的散度矩阵S_W和类间的散度矩阵S_B；

散度矩阵S_W表示为：

代表第i类的第j个样本，u_i表示第i类样本的均值；

类间散度矩阵S_B表示为：

S12：结合类内的散度矩阵S_W和类间的散度矩阵S_B，获得具有最大化的有效性同时具备最小隐私泄露的目标函数，具体为：

其中

其中w_i是投影矩阵W的每一列，C是DCA投影空间的子空间的维度，W为判别信息的投影矩阵，

等于类内散度矩阵和类间散度矩阵的和；

S13：基于判别信息，获取判别信息的投影矩阵。

3.根据权利要求2所述的有监督矩阵补全的隐私保护方法，其特征在于：所述S2具体为：

S21：定义矩阵补全的目标函数，具体为：

其中：

S22：交替优化，获取拥有最小隐私信息的补全矩阵；

S23：求解补全的矩阵的最佳的效用和隐私的投影。

4.根据权利要求3所述的有监督矩阵补全的隐私保护方法，其特征在于：所述S23具体为：

S231：设置初始化参数θ₀和θ₁，其中，

S232：定义恢复矩阵的中间变量Z_k，

其中：

为第k次恢复的矩阵；

S233：更新

当满足

则更新L＝γL和

反之则结束迭代，其中

S234：另

S235：进行迭代直至得到最好的恢复结果

和W。

5.根据权利要求4所述的有监督矩阵补全的隐私保护方法，其特征在于：所述S3具体为：

将所述最佳的效用和隐私投影划分成两部分，一个部分为W_major∈R^M×(L-1)和W_minor∈R^M ^×(M-L+1)，其中W_major度量的是最大的有效能量部分，W_minor度量的隐私信息保护和重建误差的信息；

其中

表示原始缺失矩阵补全后的矩阵，

6.根据权利要求1所述的有监督矩阵补全的隐私保护方法，其特征在于：所述隐私保护方法还包括S4，具体为：

7.根据权利要求6所述的有监督矩阵补全的隐私保护方法，其特征在于：所述S4具体分为以下步骤：

S41：根据所述S3得到的去除隐私部分的数据样本

作为样本矩阵，随机的选择0.7的样本作为训练样本，取0.3的样本作为测试样本，将样本放入到漏斗状的神经网络进行训练，该神经网络的输入为

S42：根据所述S3得到的去除隐私部分的数据样本

作为样本矩阵，随机选择0.7的样本作为训练样本，取0.3的样本作为测试样本，该神经网络的网络结构有5层，第一层输入为L-1，神经元个数为64，激活函数为Relu，第二层为drop层drop率为0.2，第三层神经网络个数为32，激活函数为Relu，第四层drop层的drop率为0.2，第五层为全连接层神经元的个数为L_p，L_p为隐私的类别数，最后输出为预测的隐私的标签。