CN113869384B

CN113869384B - 基于领域自适应的隐私保护图像分类方法

Info

Publication number: CN113869384B
Application number: CN202111092422.2A
Authority: CN
Inventors: 闫泓淼; 姚琳; 陈振宇; 吴国伟
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2024-05-10
Anticipated expiration: 2041-09-17
Also published as: CN113869384A

Abstract

本发明属于信息安全技术领域，提供了一种基于领域自适应的隐私保护图像分类方法。第一部分：首先对数据作预处理以规范数据，数据集要求至少一个有标签的数据集和多个无标签的数据集；然后给出适用于图像数据的差分隐私定义，并对数据加入噪声扰动以满足差分隐私的要求；最后对噪声扰动后的数据进行可用性衡量以保证数据的可用性。第二部分：首先运用概率分布的矩母函数确定适当的特征变换维度，将数据映射到新的特征空间；其次运用第一部分获取的有标签数据在映射后的特征空间训练图像分类模型C_y；然后运用生成对抗网络增强数据从属数据集的不可区分性；最后运用C_y对无标签数据分类。

Description

基于领域自适应的隐私保护图像分类方法

技术领域

本发明涉及一种基于领域自适应方法的隐私保护图像分类方法，属于信息安全技术领域。

背景技术

近十年机器学习领域取得的巨大成功依靠算力的提升、新型机器学习范式的涌现(深度神经网络)与大规模数据的支持。以此为基础，研究者们不断提出新的算法和模型并将之应用到各个领域中去。其中，神经网络模型在图像识别与分类领域取得重大进展，在同一任务下神经网络模型的准确程度超过支持向量机等传统方法，也超过了人工分类。在逃多年的犯罪嫌疑人被神经网络等机器学习模型支持下的图像分类技术识别出，神经网络等机器学习模型还可以帮助医生完成快速准确地识别医学图像、确认病灶位置等任务，因此图像分类领域越来越受到学术界和工业界的关注。

Banko.M.等人发现，训练数据在很大程度上影响了最终训练得到的机器学习模型的准确率：随着数据规模的扩大，机器学习模型的准确率随之逐步提高。在这一发现的前提下，相比于个人研究者和小型研究团队，互联网企业因提供互联网服务所以在获取数据方面具有优势，其下属的研究机构可以凭借一般研究团队不具备的庞大数据库获得更为理想的分类准确率。例如在图像分类领域，谷歌研究人员利用仅供谷歌内部使用的JFT-330M、JFT-3B等大规模数据集辅助提升分类模型准确率，使得在ImageNet数据集上的图像分类准确率首次超过90％。为了让一般研究团队也能够获得理想的分类模型，可以将领域自适应方法应用到图像分类领域。领域自适应能够在多数据集间提取域不变特征，选定合适度量方式缩小域间分布差异，以知识迁移的方式对无标签数据集分类，增大训练数据规模提高图像分类模型准确率。

然而在图像分类领域研究蓬勃发展的同时，有研究发现神经网络等机器学习模型能够“记忆”图像数据中的敏感信息，通过对模型梯度信息的计算能够推断和还原图像数据中的部分敏感信息，例如医疗领域中的图像分类学习可能会导致病人患病的隐私信息泄露。在数据隐私保护越来越受到重视的当下，图像分类领域的研究者应该对研究中使用的数据进行隐私保护。

发明内容

为了有效地增大训练数据规模，提升图像分类模型泛化能力，并对数据进行隐私保护，本发明提出了一种基于领域自适应的隐私保护图像分类方法。参照图1，该方法包含两个部分：第一部分运用差分隐私对图像数据进行隐私保护处理并进行可用性衡量；第二部分运用有标签数据训练出的分类模型为无标签数据分类。第一部分具有以下流程：首先对数据作预处理以规范数据，数据集要求至少一个有标签的数据集和多个无标签的数据集；然后给出适用于图像数据的差分隐私定义，并对数据加入噪声扰动以满足差分隐私的要求；最后对噪声扰动后的数据进行可用性衡量以保证数据的可用性。第二部分具有以下流程：首先运用概率分布的矩母函数确定适当的特征变换维度，将数据映射到新的特征空间；其次运用第一部分获取的有标签数据在映射后的特征空间训练图像分类模型C_y；然后运用生成对抗网络增强数据从属数据集的不可区分性；最后运用C_y对无标签数据分类。

本发明的技术方案：

一种基于领域自适应的隐私保护图像分类方法，步骤如下：

(1)首先预处理图像数据，给出适用于图像数据的差分隐私定义；然后对数据加入噪声扰动以满足差分隐私的要求；最后对噪声扰动后的数据进行可用性衡量以保证数据的可用性

(1.1)首先对图像数据进行数值表示与尺寸规范。我们采用实值矩阵为图像建模，给定一张图像，我们将每一个像素点作为一个矩阵元素，则图像数据可以表示为一个实值像素矩阵：

其中m是矩阵的行数，n是矩阵的列数，a_ij为原图像中的像素值。将A_m×n列分块可表示为A＝(a₁，a₂，…，a_n)，其中a_j＝(a_1j，a_2j，…，a_mj)^T。

考虑到来自不同数据集的数据尺寸大小不一致，为了方便后续对像素矩阵的分解与变换，将图像统一调整为固定大小的方形尺寸：

所以尺寸规范后的像素矩阵为A_m×m是一个方阵。

(1.2)给出基于图像数据的差分隐私定义。对应于差分隐私中近邻数据库的概念，我们定义相差一个列向量的矩阵A与A′互为近邻矩阵，并根据近邻矩阵的概念给出差分隐私关于图像数据的隐私要求：对于给定的近邻矩阵A与A′作为输入，M为作用于输入的随机机制，t为输出结果，若机制M使下式

成立，则机制M满足差分隐私，Pr为事件概率，ε为差分隐私预算因子，ε直接影响差分隐私对数据的保护程度。

(1.3)完善差分隐私关于图像数据的定义后，我们运用拉普拉斯机制对图像数据进行噪声扰动。图像的奇异值分解通过保留图像特征信息实现了对图像的压缩，因此对像素矩阵对应奇异值分解后的奇异值矩阵进行扰动，既可以达到扰动目的，又降低了噪声扰动对像素矩阵的整体影响。因此噪声扰动决定对奇异值分解后的奇异值矩阵进行噪声扰动。像素矩阵A的奇异值分解：

其中U，V为正交矩阵，∑为由奇异值构成的奇异值矩阵。

像素矩阵A为方阵，则分解后的奇异值矩阵∑是满秩矩阵。取奇异值矩阵的奇异值按照从大到小排列在主对角线上(U，V的列向量对应奇异值的排列方式排列)，即

σ₁≥σ₂≥…≥σ_m，

此时对奇异值矩阵进行噪声扰动得到

其中Δ₁∑为矩阵∑的1范数。利用恢复像素矩阵得到/>

扰动后得到的对图像分类模型训练的影响需要通过可用性衡量予以说明。

(1.4)为了保证扰动后数据的可用性，对扰动后的矩阵做如下可用性衡量：

取矩阵A的最大特征值λ₁，并计算λ₁对应的特征向量x₁，因为矩阵的特征值和特征向量满足以下等式：

A·x₁＝λ₁·x₁，

对数据进行噪声扰动后等式不再成立，计算矩阵A和与特征向量x₁的乘积

A·x₁＝z

得到两个向量w与z。

从线性代数的角度，矩阵A对特征向量的作用在于两方面：伸缩向量的长度、将向量的方向进行逆向。扰动后的矩阵由于与原矩阵产生偏差，所以会改变特征向量的方向。

若向量w与z的夹角α≤θ(根据具体数据集确定θ)，则有理由认为扰动后的矩阵没有与原矩阵偏离过多，所以仍具有可用性。若α＞θ，则取

(2)首先依据概率分布的矩母函数确定适当的特征变换维度，将数据映射到新的特征空间；其次使用第一部分获取的有标签数据在映射后的特征空间训练图像分类模型C_y；然后运用GAN方法增强数据所属数据集的不可区分性；最后C_y对第一部分获取的无标签数据分类。

(2.1)矩母函数唯一确定随机变量的分布，所以运用矩母函数作为依据进行特征映射。随机变量X的矩母函数如下：

当随机变量X为矩阵时，通过Jordan分解有：

其中，J_X为矩阵X对应的Jordan标准型。

随机变量的矩可以通过矩母函数求导获得：

E(Xⁿ)＝M⁽ⁿ⁾(t)|_t＝0＝M⁽ⁿ⁾(0)。

对于随机变量X，Y，当二者的一阶矩、二阶矩、三阶矩、四阶矩均相等时，即：

E(X)＝E(Y)，E(X²)＝E(Y²)，

E(X³)＝E(Y³)，E(X⁴)＝E(Y⁴)，

则二者的分布足够接近，可近似认为随机变量X，Y分布趋于一致。

因此通过缩小数据集分布的矩的距离，来确定新的特征空间的维度：

其中，||·||_F为矩阵的Frobenius范数，D₁，D₂，D₃，D₄是使一阶矩、二阶矩、三阶矩、四阶矩足够接近的维度，为D₁，D₂，D₃，D₄对应的取值，/>为最终映射的特征维度。当数据集数目超过两个时，则计算每两个数据集的适当特征维度，取平均得到最终特征维度。

(2.2)确定新的特征空间后，将数据映射到新的特征空间，在新的特征空间运用有标签数据训练训练分类模型C_y：

对于输入样本{A₁，A₂，A₃，...，A_N}，损失函数其中θ为模型参数，学习率α，批处理规模S，梯度范数上界K，训练步骤如下：

挑选子集：从输入样本集中以概率随机选取规模为S的样本子集；

计算梯度：对S中的每个样本A_i，计算：

梯度剪裁：

梯度下降：

通过重复以上步骤对映射后的数据进行模型训练，得到模型参数和最终分类器C_y。

(2.3)运用生成对抗网络GAN增强数据从属数据集的不可区分性。将数据所属的数据集作为一种“数据来源”标签，GAN的生成器generator为全部数据生成噪声“数据来源”标签，GAN的判别器discriminator判别数据的“数据来源”标签，以此进行监督学习训练。当GAN的判别器discriminator对数据的“数据来源”标签的判定概率接近均匀概率(对于k个数据集，则discriminator对“数据来源”标签的概率均为)，则不同数据集的数据在数据特征和“数据来源”两方面都具备一致性。

G_d为判别器，θ_d为判别器参数，G_d输出为数据来源对应的各类别概率，概率之和为1；G_g为生成器，θ_g为生成器参数，G_g作用是使不同数据集的“数据来源”分布距离逐渐接近。从训练数据中随机取样进行生成对抗训练，A_i为取样样本中原本有标签的数据，B_i为取样样本中原本无标签的数据。通过增大梯度更新判别器：

减小梯度更新生成器：

使判别器的判定结果趋于均匀概率：

其中j为数据集的数目。C_i为前述训练数据集的任一实例，判定其所属任一数据集的概率都接近均匀概率。

(2.4)基于领域自适应方法，在数据的分布接近一致时，运用分类器C_y为训练数据集中的无标签数据进行分类，以实现对有标签训练数据规模的扩大。

本发明的有益效果：神经网络等机器学习模型和方法在图像分类与识别领域取得了巨大成功，使得图像分类在交通、司法、医疗等众多领域具有广阔的前景和应用潜力。同时，数据的隐私保护日益收到人们的关注，在机器学习图像分类领域同样如此。为此，我们设计了基于领域自适应的隐私保护图像分类方法，领域自适应方法在多数据集间提取域不变特征，选定合适度量方式缩小域间分布差异，以知识迁移的方式实现为无标签数据集分类，以增大训练数据规模。并在整个图像分类机器学习流程的最初阶段，对输入数据进行噪声扰动以实现对数据的隐私保护，对扰动数据的可用性衡量以保证扰动数据仍具有可用性。从而在保证数据隐私性与可用性的情况下，增大数据规模提高模型泛化能力。

附图说明

图1为本发明所述的隐私保护图像分类方法的组织结构图。

图2为本发明所述的噪声扰动与可用性衡量过程。

图3为本发明所述的特征变换与图像分类过程。

具体实施方式

为了将本发明的目的，技术方案和优点表达的更清晰明了，接下来将通过实例和附图，对本发明做进一步的详尽的说明。

一种基于领域自适应的隐私保护图像分类方法，本方法包括对训练数据的扰动、数据可用性的衡量，数据的特征变换，以及对无标签数据的分类。

参照图2，数据隐私保护噪声扰动与可用性衡量的具体运行过程如下：

步骤1.数据预处理，将图像数据转化为像素矩阵，并统一像素矩阵的尺寸：

步骤2.对像素矩阵进行奇异值分解：

步骤3.对奇异值矩阵∑加入拉普拉斯噪声：

并恢复像素矩阵：

步骤4.计算像素矩阵A的最大特征值λ₁及λ₁对应的特征向量x₁，计算矩阵A和与特征向量x₁的乘积

得到向量w和z。

步骤5.算法向量w与z的夹角α≤θ，则数据仍具有可用性。若α＞θ，则取

参照图3，特征变换与图像分类的具体运行过程如下：

步骤6.计算不同数据集数据的一阶矩，最小化一阶矩的距离

得到特征维度

步骤7.计算不同数据集数据的二阶矩，最小化二阶矩的距离

得到特征维度

步骤8.计算不同数据集数据的三阶矩，最小化三阶矩的距离

得到特征维度

步骤9.计算不同数据集数据的四阶矩，最小化四阶矩的距离

得到特征维度

步骤10.计算特征空间维度：

步骤11.将数据映射到维特征空间，利用训练数据中的有标签数据进行模型训练得到分类器C_y：

步骤12.基于生成对抗网络思想，增大参数梯度更新判别器：

减小参数梯度更新生成器：

使判别器的判定结果趋于均匀概率：

步骤13.运用C_y为无标签数据分类，以实现对有标签训练数据规模的扩大。

Claims

1.一种基于领域自适应的隐私保护图像分类方法，其特征在于，步骤如下：

(1)首先预处理图像数据，给出适用于图像数据的差分隐私定义；然后对图像数据加入噪声扰动以满足差分隐私的要求；最后对噪声扰动后的图像数据进行可用性衡量以保证图像数据的可用性；

(1.1)首先对图像数据进行数值表示与尺寸规范，采用实值矩阵为图像建模，给定一张图像，将每一个像素点作为一个矩阵元素，则图像数据表示为一个实值像素矩阵：

其中，m是矩阵的行数，n是矩阵的列数，a_ij为原图像中的像素值；将A_m×n列分块表示为A＝(a₁，a₂，…，a_n)，其中a_j＝(a_1j，a_2j，…，a_mj)^T；

所以尺寸规范后的像素矩阵为A_m×m是一个方阵；

(1.2)给出基于图像数据的差分隐私定义；对应于差分隐私中近邻数据库的概念，定义相差一个列向量的矩阵A与A′互为近邻矩阵，并根据近邻矩阵的概念给出差分隐私关于图像数据的隐私要求：对于给定的近邻矩阵A与A′作为输入，M为作用于输入的随机机制，t为输出结果，若机制M使下式

成立，则机制M满足差分隐私，Pr为事件概率，ε为差分隐私预算因子，ε直接影响差分隐私对数据的保护程度；

(1.3)完善差分隐私关于图像数据的定义后，运用拉普拉斯机制对图像数据进行噪声扰动；图像的奇异值分解通过保留图像特征信息实现了对图像的压缩；因此噪声扰动决定对奇异值分解后的奇异值矩阵进行噪声扰动；像素矩阵A的奇异值分解：

其中U，V为正交矩阵，∑为由奇异值构成的奇异值矩阵；

像素矩阵A为方阵，则分解后的奇异值矩阵∑是满秩矩阵；取奇异值矩阵的奇异值按照从大到小排列在主对角线上，U，V的列向量对应奇异值的排列方式排列，即

σ₁≥σ₂≥…≥σ_m，

此时对奇异值矩阵进行噪声扰动得到

其中Δ₁∑为矩阵∑的1范数；利用恢复像素矩阵得到/>

扰动后得到的对图像分类模型训练的影响需要通过可用性衡量予以说明；

A·x₁＝λ₁·x₁，

A·x₁＝z

得到两个向量w与z；

若向量w与z的夹角根据具体数据集确定/>则有理由认为扰动后的矩阵没有与原矩阵偏离过多，所以仍具有可用性；若/>则取/>

(2)首先依据概率分布的矩母函数确定适当的特征变换维度，将数据映射到新的特征空间；其次使用第一部分获取的有标签数据在映射后的特征空间训练图像分类模型C_y；然后运用GAN方法增强数据所属数据集的不可区分性；最后C_y对第一部分获取的无标签数据分类；

(2.1)矩母函数唯一确定随机变量的分布，运用矩母函数作为依据进行特征映射，随机变量X的矩母函数如下：

当随机变量X为矩阵时，通过Jordan分解有：

其中，J_X为矩阵X对应的Jordan标准型；

随机变量的矩通过矩母函数求导获得：

E(Xⁿ)＝M⁽ⁿ⁾(t)|_t＝0＝M⁽ⁿ⁾(0)，

E(X)＝E(Y)，E(X²)＝E(Y²)，

E(X³)＝E(Y³)，E(X⁴)＝E(Y⁴)，

则二者的分布足够接近，认为随机变量X，Y分布趋于一致；

其中，||·||_F为矩阵的Frobenius范数，D₁，D₂，D₃，D₄是使一阶矩、二阶矩、三阶矩、四阶矩足够接近的维度，为D₁，D₂，D₃，D₄对应的取值，/>为最终映射的特征维度；当数据集数目超过两个时，则计算每两个数据集的适当特征维度，取平均得到最终特征维度；

挑选子集：从输入样本集中以概率骑机选取规模为S的样本子集；

计算梯度：对S中的每个样本A_i，计算：

梯度剪裁：

梯度下降：

通过重复以上步骤对映射后的数据进行模型训练，得到模型参数和最终分类器C_y；

(2.3)运用生成对抗网络GAN增强数据从属数据集的不可区分性；将数据所属的数据集作为一种“数据来源”标签，GAN的生成器generator为全部数据生成噪声“数据来源”标签，GAN的判别器discriminator判别数据的“数据来源”标签，以此进行监督学习训练；当GAN的判别器discriminator对数据的“数据来源”标签的判定概率接近均匀概率即对于k个数据集则discriminator对“数据来源”标签的概率均为，则不同数据集的数据在数据特征和“数据来源”两方面都具备一致性；

G_d为判别器，θ_d为判别器参数，G_d输出为数据来源对应的各类别概率，概率之和为1；G_g为生成器，θ_g为生成器参数，G_g作用是使不同数据集的“数据来源”分布距离逐渐接近；从训练数据中随机取样进行生成对抗训练，A_i为取样样本中原本有标签的数据，B_i为取样样本中原本无标签的数据；过增大梯度更新判别器：

减小梯度更新生成器：

使判别器的判定结果趋于均匀概率：

其中j为数据源的数目；C_i为前述训练数据集的任一实例，判定其所属任一数据集的概率都接近均匀概率；