CN114357503A

CN114357503A - 满足差分隐私的域自适应方法及相关设备

Info

Publication number: CN114357503A
Application number: CN202111402040.5A
Authority: CN
Inventors: 程祥; 金凯忠
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-04-15

Abstract

本申请提供了一种满足差分隐私的域自适应方法及相关设备，对目标域的特征空间进行划分，采用差分隐私噪声扰动划分出的目标子空间的协方差矩阵后恢复协方差矩阵的半正定性质。根据划分出的目标子空间对源域的特征空间进行相同的划分得到源子空间，根据源子空间的协方差矩阵和恢复了半正定性质的协方差矩阵计算出映射矩阵，根据映射矩阵对源子空间进行特征变换，采用随机梯度下降方法处理变换后的源子空间得到差分隐私模型。其中划分出多个目标子空间，把高维数据场景转化为多个低维数据场景，避免了噪音协方差矩阵误差上界的增大。恢复噪音协方差矩阵的半正定性质，减轻了差分隐私噪声对域自适应方法性能的破坏。

Description

满足差分隐私的域自适应方法及相关设备

技术领域

本申请域自适应技术领域，尤其涉及一种满足差分隐私的域自适应方法及相关设备。

背景技术

域自适应技术通过利用不同但相关的源域的训练数据，对目标域数据进行分类，解决目标域仅有少量标注或无标注数据的问题。现实生活中，源和目标数据往往分别属于不同的数据拥有者，且数据中通常蕴含大量个人敏感信息，直接共享数据将导致严重的个人隐私泄露。例如，源和目标域可能来自于两家不同的医疗机构，他们各自拥有与某类药物或手术相关的医疗记录。出于隐私保护考虑，两家医疗机构都不愿意将数据共享。

近年来提出的差分隐私技术(Differential Privacy，DP)为解决域自适应学习过程中的个人隐私泄露问题提供了一种可行的方案，可以采用直接将差分隐私应用于域自适应方法中，如使用差分隐私噪音扰动目标域的协方差矩阵，获得隐私协方差矩阵，为了获得隐私模型，采用随机梯度下降的优化方法训练模型，并使用差分噪音扰动梯度。但这种直接利用差分隐私噪音的方法存在两个问题：1)扰动协方差矩阵的误差上界随数据维度线性增长，使得该方法在高维数据场景下性能较差；2)扰动协方差矩阵很可能会破坏其半正定性质，导致最终模型性能较差。

发明内容

有鉴于此，本申请的目的在于提出一种满足差分隐私的域自适应方法及相关设备。

基于上述目的，本申请提供了一种满足差分隐私的域自适应方法，其特征在于，包括：

划分目标域的特征空间得到m个目标子空间，其中，m为大于0的整数；

采用差分隐私噪声分别扰动每个所述目标子空间的协方差矩阵得到m个噪音协方差矩阵；

分别恢复所述m个噪音协方差矩阵的半正定性质得到m个半正定矩阵；

根据所述m个目标子空间划分源域的特征空间，得到与所述m个目标子空间对应的m个源子空间；

分别根据所述m个源子空间中每个源子空间的协方差矩阵和与所述每个源子空间对应的目标子空间的半正定矩阵，变换所述每个源子空间的特征分布，得到m个变换子空间；

分别利用所述m个变换子空间中的特征和所述差分隐私噪声训练出m个差分隐私模型，发送所述m个差分隐私模型到所述目标域处理数据，得到处理结果。

在一些实施方式中，所述划分目标域的特征空间得到m个目标子空间，包括：

建立一个空白集合作为第一子空间，迭代地执行下述步骤：

计算所述第一子空间的第一误差；

随机选择所述目标域的特征空间中的一个特征，计算所述第一子空间添加所述特征后的第二误差；

当所述第二误差小于所述第一误差时，添加所述特征到所述第一子空间中得到第二子空间，把所述第二子空间作为下一轮迭代中的第一子空间，并删去随机选择出的特征；

当所述第二误差大于等于所述第一误差时，输出所述第一子空间作为一个所述目标子空间，建立一个新的空白集合作为所述下一轮迭代中的第一子空间；

当所述目标域的特征空间为空时，迭代停止，得到所述m个目标子空间。

在一些实施方式中，所述分别恢复所述m个噪音协方差矩阵的半正定性质得到m个半正定矩阵，包括：

对于每个所述噪音协方差矩阵，根据Ω(α)＝α∑₁+(1-α)∑₀处理该噪音协方差矩阵，以得到对应的半正定矩阵；

其中，α表示收缩参数，∑₀表示所述噪音协方差矩阵，∑₁表示F-范数小于∑₀的F-范数的任意协方差矩阵，计算出的Ω(α)表示所述对应的半正定矩阵。

在一些实施方式中，所述收缩参数α的计算方式为：α＝min{α∈ 0，1：fα≥0，其中，fα＝minΩα，表示求Ωα的最小特征值。

在一些实施方式中，所述根据所述m个目标子空间划分源域的特征空间，得到与所述m个目标子空间对应的m个源子空间，包括：

分别统计所述m个目标子空间中每个目标子空间内特征的属性；

建立与所述m个目标子空间对应的m个空集合；

分别选取所述源域的特征空间中与所述每个目标子空间内特征的属性相同的特征并放到与所述每个目标子空间对应的空集合中，得到所述m个源子空间。

在一些实施方式中，所述分别根据所述m个源子空间中每个源子空间的协方差矩阵和与所述每个源子空间对应的目标子空间的半正定矩阵变换所述每个源子空间的特征分布，得到m个变换子空间，包括：

选取所述m个源子空间中的任意一个源子空间和与该源子空间对应的目标子空间，其中，该源子空间的协方差矩阵为

与该源子空间对应的目标子空间的半正定矩阵为

i是大于0小于等于m的整数；

根据

计算出与该源子空间对应的Hⁱ，按照i从1到m的顺序排列计算出的全部Hⁱ，得到映射矩阵，其中， U_s表示对

进行奇异值分解获得的左奇异向量，Λ_S是对

进行奇异值分解获得的对角矩阵，U_t是对

进行奇异值分解获得的左奇异向量，Λ_t是对

进行奇异值分解获得的对角矩阵，

表示

的秩，

表示

的秩；

分别将所述m个源子空间与所述映射矩阵中对应的Hⁱ相乘，得到所述m 个变换子空间。

在一些实施方式中，所述分别利用所述m个变换子空间的特征和所述差分隐私噪声训练出对应的m个差分隐私模型，包括：

选取所述m个变换子空间中的任意一个变换子空间，生成与该变换子空间对应的初始模型，迭代训练所述初始模型得到与该变换子空间对应的差分隐私模型，包括：

随机采样该变换子空间得到批数据；

根据批数据和所述初始模型的模型参数计算梯度；

根据L₂范数裁剪所述梯度，采用所述差分隐私噪声扰动裁剪后的所述梯度得到扰动梯度；

根据所述扰动梯度更新所述模型参数，判断更新后的模型参数是否符合预设要求，响应于确定所述更新后的模型参数符合预设要求，用所述更新后的模型参数替换所述初始模型的模型参数，得到与该变换子空间对应的差分隐私模型；

响应于确定所述更新后的模型参数不符合预设要求，用所述更新后的模型参数替换所述初始模型的模型参数，把替换参数后的初始模型作为下一轮迭代中的初始模型；

分别迭代训练完所述m个变换子空间对应的每个初始模型后，得到所述 m个差分隐私模型。

基于同一发明目的，本申请还提供了一种基于关联对齐的域自适应装置，包括：

第一划分模块，被配置为，划分目标域的特征空间得到m个目标子空间，其中，m为大于0的整数；

扰动模块，被配置为，采用差分隐私噪声分别扰动每个所述目标子空间的协方差矩阵得到对应的m个噪音协方差矩阵；

恢复模块，被配置为，分别恢复所述m个噪音协方差矩阵的半正定性质得到m个半正定矩阵；

第二划分模块，被配置为，根据所述m个目标子空间划分源域的特征空间，得到与所述m个目标子空间对应的m个源子空间；

变换模块，被配置为分别根据所述m个源子空间中每个源子空间的协方差矩阵和与所述每个源子空间对应的目标子空间的半正定矩阵变换所述每个源子空间的特征分布，得到m个变换子空间；

训练模块，被配置为，分别利用所述m个变换子空间的特征和和所述差分隐私噪声训练出对应的m个差分隐私模型，发送所述m个差分隐私模型到所述目标域处理数据，得到处理结果。

基于同一发明目的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现满足差分隐私的域自适应方法。

基于同一发明目的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行满足差分隐私的域自适应方法。

从上面所述可以看出，本申请提供的满足差分隐私的域自适应方法及相关设备，对目标域的特征空间进行划分，采用差分隐私噪声扰动划分出的目标子空间的协方差矩阵后恢复协方差矩阵的半正定性质。根据划分出的目标子空间对源域的特征空间进行相同的划分得到源子空间，根据源子空间的协方差矩阵和恢复了半正定性质的协方差矩阵计算出映射矩阵，根据映射矩阵对源子空间进行特征变换，采用随机梯度下降方法处理变换后的源子空间得到差分隐私模型。其中首先把目标域划分为多个目标子空间，使得单个目标子空间的协方差矩阵的数据维度低于目标域协方差矩阵的数据维度，把高维数据场景转化为多个低维数据场景，避免了噪音协方差矩阵误差上界的增大导致的性能降低。并进一步恢复噪音协方差矩阵的半正定性质，减轻了使用差分隐私噪声扰动噪音协方差矩阵对域自适应方法性能的破坏。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的满足差分隐私的域自适应方法的流程图；

图2为本申请实施例提供的划分目标域特征空间得到目标子空间的流程图；

图3为本申请实施例提供的划分源域特征空间得到源子空间的流程图；

图4为本申请实施例提供的训练差分隐私模型的流程图；

图5为本申请实施例提供的根据变换子空间迭代训练差分隐私模型的流程图；

图6a为本申请实施例提供的满足差分隐私的域自适应方法和现有的域自适应方法运用于逻辑回归模型时的准确率的示意图；

图6b为本申请实施例提供的满足差分隐私的域自适应方法和现有的域自适应方法运用于深度神经网络分类模型时的准确率的示意图；

图7a为本申请实施例提供的满足差分隐私的域自适应方法和在满足差分隐私的域自适应方法的基础上去掉某个步骤得出的新的方法运用于逻辑回归模型时的准确率的示意图；

图7b为本申请实施例提供的满足差分隐私的域自适应方法和在满足差分隐私的域自适应方法的基础上去掉某个步骤得出的新的方法运用于深度神经网络分类模型时的准确率的示意图；

图8为本申请实施例提供的满足差分隐私的域自适应装置的结构图；

图9为本申请实施例提供的电子设备的结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

如背景技术所述，申请人在本申请的实现过程中发现，近年来提出的差分隐私技术(Differential Privacy，DP)为解决域自适应学习过程中的个人隐私泄露问题提供了一种可行的方案。与传统的基于匿名的隐私保护技术(例如，k-匿名和l-多样性等)不同，差分隐私提供了一种严格、可证明的隐私保护手段，并且所提供的隐私保护强度几乎不依赖于攻击者所掌握的背景知识。

在相关技术中，Wang等人提出了一种满足差分隐私的深度域自适应方法：该方法使用对抗学习策略构建域不变特征，对未标记的目标数据进行分类，然而该方法假设源和目标数据所有者相互信任，并且只适用于深度模型；基于高斯先验模型，Gu等人提出了一种满足差分隐私的多源假设迁移学习方法：该方法需要访问一个公开可用的辅助数据集；基于Stacking算法，Yao等人提出了一种隐私保护逻辑回归机制，并将该机制与假设迁移学习相结合，然而该方法假设训练数据是完全标注的数据，无法应用于目标域中没有标记数据的场景；是LeTien等人提出了基于最优传输的隐私域自适应方法，然而，最优传输依赖于两个假设：1)目标样本是源样本的仿射变换；2)源域和目标域必须具有共享的特征。

相比于最优传输，关联对齐的域自适应方法可以通过学习源域和目标域的特征关联性来使用共享的以及域特定的特征，当两个域都包含很少甚至没有共享特征时，这一点尤为重要。此外，相比深度域自适应方法对初始化、网络结构和其他优化参数的敏感性，关联对齐的方法应用于深层特征，获得了比深度域自适应方法更好的性能。但是直接将差分隐私应用于基于关联对齐的域自适应方法，仍然存在下面两个问题：1)扰动协方差矩阵的误差上界随数据维度线性增长，使得该方法在高维数据场景下性能较差；2)扰动协方差矩阵很可能会破坏其半正定性质，导致最终模型性能较差。

为解决上述问题，本申请提供了一种满足差分隐私的域自适应方法，通过划分目标域的特征空间得到多个目标子空间，并采用差分隐私噪声分别对每个目标子空间的协方差矩阵进行扰动得到噪音协方差矩阵，并恢复每个噪音协方差矩阵的半正定性质得到半正定矩阵。根据目标子空间的划分结果把源域的特征空间划分为相同数量的源子空间，根据源子空间的协方差矩阵和对应的目标子空间的半正定矩阵，变换每个源子空间的特征分布得到与目标子空间的特征分布接近的变换子空间以实现源子空间和目标子空间的关联对齐。利用m个变换子空间中的特征和差分隐私噪声训练出m个差分隐私模型，发送训练好的差分隐私模型到目标域处理数据，得到处理结果。

作为一个可选的实施例，参照图1，本申请提供的满足差分隐私的域自适应方法，包括：

步骤S101，划分目标域的特征空间得到m个目标子空间，其中，m为大于0的整数。

其中，采用前向选择策略划分目标域的特征空间得到m个目标子空间。 Y用

表示划分出的目标子空间，i∈[1:m]。在划分出单个子空间时，首先建立一个空集合S，从目标域的特征空间中随机选择特征并逐个添加特征到S 中，每次添加新的特征到S时，都要分别计算添加特征前S内特征的误差和添加特征后S内特征的误差，当添加后特征后S的误差大于添加特征前S的误差时，停止添加这一特征，把S作为一个目标子空间。并且，在每次把特征成功添加进S时，从目标域的特征空间中删去这一特征，以保证划分出的目标子空间中没有重复的特征。

步骤S102，采用差分隐私噪声分别扰动每个所述目标子空间的协方差矩阵得到m个噪音协方差矩阵。

其中，采用的差分隐私噪声是高斯噪声，扰动目标子空间的协方差矩阵指的是把高斯噪声添加到协方差矩阵中的每个元素上，以完成对一个协方差矩阵的扰动，可以这样表示：

在这个表达式中，

表示第i个目标子空间对应的的协方差矩阵，i∈[1，m]；

表示的是扰动后的噪音协方差矩阵；Z表示差分隐私噪声，Z是一个上三角元素从高斯分布

中随机采样得到的对称矩阵，为高斯噪声，

ε和δ是采用moment accountant定理计算出的差分隐私参数。

步骤S103，分别恢复所述m个噪音协方差矩阵的半正定性质得到m个半正定矩阵。

其中，由于采用差分隐私噪声扰动协方差矩阵时，会破坏协方差矩阵的半正定性质，而且半正定性质被破坏后导致域自适应方法性能的降低，故需要恢复噪音协方差矩阵的半正定性能，以保障域自适应方法的性能。

本步骤中，采用收缩参数(Shrinking)方法处理每个噪音协方差矩阵以恢复其半正定性质，使恢复后的协方差矩阵

和

之间的F-范数的距离小于

和

之间F-范数的距离，以保证

能够提供更好的效用。

步骤S104，根据所述m个目标子空间划分源域的特征空间，得到与所述 m个目标子空间对应的m个源子空间。

根据不同目标子空间内特征的属性，把源域的特征空间中具有相同属性的特征分别放到不同的集合中，以得到与目标子空间对应的源子空间。把划分出的源子空间表示为

假设目标域的特征有4个属性：姓名，年龄，体重，身高。划分出的目标子空间内特征的属性分别为：(姓名，年龄)，(体重)，(身高)。在划分源域的特征空间得到源子空间时，得到的源子空间各自包含的特征的属性也是 (姓名，年龄)，(体重)，(身高)。

步骤S105，分别根据所述m个源子空间中每个源子空间的协方差矩阵和与所述每个源子空间对应的目标子空间的半正定矩阵，变换所述每个源子空间的特征分布，得到m个变换子空间。

其中，根据协方差矩阵和半正定矩阵，计算出含有m个元素的线性映射 Hⁱ(i∈[1：m])作为映射矩阵，把这个线性映射与源子空间相乘，以变换源子空间的特征分布，得到变换子空间

其中y_s为源域的标签，并不会影响本申请提供的满足差分隐私的域自适应方法。变换后得到的变换子空间的特征分布更接近目标子空间的特征分布，从而能够利用变换子空间训练出适用于目标子空间的差分隐私模型。

步骤S106，分别利用所述m个变换子空间中的特征和所述差分隐私噪声训练出m个差分隐私模型，发送所述m个差分隐私模型到所述目标域处理数据，得到处理结果。

其中，使用变换子空间内的特征迭代训练初始模型，以得到差分隐私模型，迭代训练初始模型时采用了随机梯度下降方法，在使用随机梯度下降方法训练模型的过程中，采用差分隐私噪声对梯度进行扰动，使训练出的模型能够满足差分隐私。训练出的模型可以是分类模型或逻辑回归模型。

在采用差分隐私模型处理目标域的数据时，对目标域中的每一个数据，都会用每一个差分隐私模型进行处理，对于每一个数据的m个处理结果，当差分隐私模型为分类模型时，得到m个分类结果，把m个分类结果中占比最大的分类结果作为这个数据最终输出的分类结果；当差分隐私模型为逻辑回归模型时，得到m个回归结果，对这些回归结果进行加权求和，得到最终的回归结果。

上述实施例提供的满足差分隐私的域自适应方法中，其中首先把目标域划分为多个目标子空间，使得单个目标子空间的协方差矩阵的数据维度低于目标域协方差矩阵的数据维度，把高维数据场景转化为多个低维数据场景，避免了噪音协方差矩阵误差上界的增大导致的性能降低。并进一步恢复噪音协方差矩阵的半正定性质，减轻了使用差分隐私噪声扰动噪音协方差矩阵对域自适应方法性能的破坏。

作为一个可选的实施例，在步骤S101中划分目标子空间时，需要注意每个目标子空间的维度，因为很小的子空间维度将会导致子空间严重的信息损失，很大的子空间的维度将会导致噪音协方差矩阵效用极差。参照图2，步骤S101中划分目标域的特征空间得到m个目标子空间在划分出单个目标子空间时，具体包括：

步骤S201，计算所述第一子空间的第一误差。

其中，为了划分出的目标子空间拥有合适的维度，需要预先定义好用于衡量目标子空间的信息损失和协方差矩阵效用的准则，并基于最小化这一准则的目的来划分目标子空间。

这一准则可以根据重构误差和噪音误差计算得到。对于任意一个目标子空间来说，计算重构误差的函数为：

表示目标域的原始数据X_t与基于目标子空间

的重构数据之间的误差平方和。其中

是一个n_t×n_t的投影矩阵，用于把X_t的列映射到

的列集合张成的空间上，n_t表示目标域的大小。

的计算方式为：

对上面所述的目标子空间来说。噪音误差

可以使用其噪音协方差矩阵误差的紧上界来表示，即：

表示这个目标子空间的维数，根据重构误差和噪音误差得到的衡量目标子空间的信息损失和协方差矩阵效用的准则为：

本步骤中，在第一轮迭代中，需要建立一个空白集合S作为第一子空间，计算出的第一误差为R(S^T)+G(S^T)。

步骤S202，随机选择所述目标域的特征空间中的一个特征，计算所述第一子空间添加所述特征后的第二误差。

本步骤中，设从目标域特征空间中随机选择出的特征为l，计算出的第二误差为R((SUl)^T)+G((SUl)^T)。

步骤S203，当所述第二误差小于所述第一误差时，添加所述特征到所述第一子空间中得到第二子空间，把所述第二子空间作为下一轮迭代中的第一子空间，并删去随机选择出的特征。

在每一次迭代过程中，都会比较本轮迭代中的第一误差和第二误差，根据比较结果选则执行步骤S203或执行步骤S204。

当第二误差小于第一误差时，说明了本轮迭代中衡量目标子空间的信息损失和协方差矩阵效用的准则未达到最小，需要从目标域的特征空间中删去随机选择出的特征后，返回执行步骤S201。

步骤S204，当所述第二误差大于等于所述第一误差时，输出所述第一子空间作为一个所述目标子空间，建立一个新的空白集合作为所述下一轮迭代中的第一子空间。

本步骤中，当第二误差大于等于第一误差时，说明了本轮迭代中衡量目标子空间的信息损失和协方差矩阵效用的准则达到最小，可以把第一子空间作为目标空间输出，同时建立新的空白集合并继续执行步骤S201来进行新一轮的迭代。

步骤S205，当所述目标域的特征空间为空时，迭代停止，得到所述m个目标子空间。

本步骤中，迭代执行步骤S201到步骤S204，直到目标域的特征空间中的特征被采样完，就能够把目标域的特征空间划分出互相不重叠的m个目标子空间。非重叠的目标子空间的差异性比存在重叠的目标子空间的差异性大，且差异性是影响域自适应方法泛化性能的重要因素，因此采用叠的目标子空间的域适应方法的泛化性能优于采用存在的域适应方法的泛化性能。

作为一个可选的实施例，上述步骤S103中恢复噪音协方差矩阵的半正定性质得到半正定矩阵，包括：

对于每个所述噪音协方差矩阵，根据Ω(α)＝α∑₁+(1-α)∑₀处理该噪音协方差矩阵，以得到对应的半正定矩阵；其中，α表示收缩参数，∑₀表示所述噪音协方差矩阵，∑₁表示F-范数小于∑₀的F-范数的任意协方差矩阵，计算出的Ω(α)表示所述对应的半正定矩阵。

在本实施例中，收缩参数α的计算方式为：α＝min{α∈[0，1]：f(α)≥ 0，其中，fα＝λminΩα,表示求Ωα的最小特征值。

以恢复噪音协方差矩阵

的半正定性质为例，计算

其中，

为任意的协方差矩阵，为了保证恢复的协方差矩阵比噪音协方差矩阵具有更好的效用，

的选取需满足

的F-范数小于

均 F-范数的要求。为了保证计算出的Ω(αⁱ)是半正定矩阵，需要采用最优收缩参数

进行本式的计算，

需要满足的条件为：

其中，设置f(αⁱ)≥0是由于当且仅当一个矩阵的最小特征值是非负的，这个矩阵是半正定矩阵。

由于f(αⁱ)是凸且连续的，且f(0)＜0，

可以得知

是f在(0，1)中的唯一零值。因此，可以使用二分法来选择最优的收缩参数

即在给定的区间(0，1)上找到函数f的零点。具体来说：设置初始化区间

并初始化

并代入

进行计算；如果计算出的

不是半正定矩阵，则将下一轮迭代的区间设置为

否则将下一轮迭代的区间设置为

当

小于阈值tol(tol通常设置为一个很小的正实数)时，停止上述二分迭代过程。计算半正定矩阵的最优收缩参数

即为

计算出的

即为最接近

的半正定矩阵。为了书写方便，将

用

表示。

作为一个可选的实施例，参照图3上述步骤S104中，根据所述m个目标子空间划分源域的特征空间，得到与所述m个目标子空间对应的m个源子空间，包括：

步骤S301，分别统计所述m个目标子空间中每个目标子空间内特征的属性。

其中，统计的目标子空间中特征的属性，作为划分源域的特征空间的依据，如假设目标域的特征有4个属性：姓名，年龄，体重，身高，统计出目标子空间内特征的属性分别为：(姓名，年龄)，(体重)，(身高)。

步骤S302，建立与所述m个目标子空间对应的m个空集合。

步骤S303，分别选取所述源域的特征空间中与所述每个目标子空间内特征的属性相同的特征并放到与所述每个目标子空间对应的空集合中，得到所述m个源子空间。

其中，划分出的目标子空间内特征的属性分别为：(姓名，年龄)，(体重)，(身高)，把对应属性的特征放进空集合后，就得到包含的特征的属性为 (姓名，年龄)，(体重)，(身高)三个源子空间。这样划分出的源子空间和对应的目标子空间包含的特征属性相同，使用源子空间数据训练出的模型就能够处理目标子空间的数据。

作为一个可选的实施例，上述步骤S105中变换所述每个源子空间的特征分布，得到m个变换子空间，包括：

与该源子空间对应的目标子空间的半正定矩阵为

i是大于0小于等于m的整数。

根据

进行奇异值分解获得的左奇异向量，Λ_S是对

进行奇异值分解获得的对角矩阵，U_t是对

进行奇异值分解获得的左奇异向量，Λ_t是对

进行奇异值分解获得的对角矩阵，

表示

的秩，

表示

的秩。

采用本实施例中计算出的映射矩阵对源子空间进行特征变换，使变换后源子空间的特征分布更加接近对应的目标子空间的特征分布，也就是让变换子空间和对应的目标子空间关联对齐。在这种情况下，对变换子空间进行迭代训练得出的差分隐私模型能够用于处理目标子空间的数据，并保持一个较高的准确率。

作为一个可选的实施例，参照图4，上述步骤S106中分别利用所述m个变换子空间中的特征和所述差分隐私噪声训练出m个差分隐私模型，发送所述m个差分隐私模型到所述目标域处理数据，得到处理结果，包括：

步骤S401，选取所述m个变换子空间中的任意一个变换子空间，生成与该变换子空间对应的初始模型，迭代训练所述初始模型得到与该变换子空间对应的差分隐私模型。

其中，采用随机梯度下降方法迭代训练模型，参照图5，训练模型的步骤包括：

作为一个可选的实施例，参照图5，上述步骤S401中，训练任意一个变换子空间对应的差分隐私模型时，包括：

步骤S501，随机采样该变换子空间得到批数据。

从

中随机采样得到批数据batch B。

步骤S502，根据批数据和所述初始模型的模型参数计算梯度。

本步骤中，根据公式

计算出本轮迭代中的梯度g，其中，Wⁱ为上一轮迭代计算出的模型的模型参数，x为批数据B中的一个元素。

步骤S503，根据L₂范数裁剪所述梯度，采用所述差分隐私噪声扰动裁剪后的所述梯度得到扰动梯度。

本步骤中，根据公式

对步骤S502中计算出的梯度g 进行裁剪，其中，c为预先设置好的梯度裁剪阈值。

裁剪完毕后，根据公式

采用差分隐私噪声对裁剪后的梯度进行扰动，得到扰动梯度，本步骤中采用的差分隐私噪声是服从高斯分布

的高斯噪声，I表示单位向量。

步骤S504，根据所述扰动梯度更新所述模型参数，判断更新后的模型参数是否符合预设要求，响应于确定所述更新后的模型参数符合预设要求，用所述更新后的模型参数替换所述初始模型的模型参数，得到与该变换子空间对应的差分隐私模型。

其中，根据公式

更新模型参数，并把更新后的模型参数代入上一轮迭代过程得出的模型，以得到本轮迭代得出的模型；其中，η为预设的域自适应方法的学习率。验证更新参数后的模型是否符合要求，符合则把更新参数后的模型输出作为这个变换子空间对应的差分隐私模型，返回步骤S501开始训练下一个变换子空间对应的模型，否则，继续执行步骤S505。

步骤S505，响应于确定所述更新后的模型参数不符合预设要求，用所述更新后的模型参数替换所述初始模型的模型参数，把替换参数后的初始模型作为下一轮迭代中的初始模型。

步骤S402，分别迭代训练完所述m个变换子空间对应的每个初始模型后，得到所述m个差分隐私模型。

其中，训练出的差分隐私模型可以是用于执行分类任务的分类器模型，当采用训练出的差分隐私模型处理目标域的数据时，对于目标域中的每个数据，逐个采用差分隐私模型识别此数据的类别，把占比最大的类别作为此数据的类别输出。

训练出的差分隐私模型也可以是用于执行回归任务的回归模型，在处理目标域的数据时，对于目标域中的每个数据，逐个采用差分隐私模型处理此数据得到处理结果，把此数据的所有处理结果加权求和作为最终处理结果输出。

作为一个可选的实施例，把本申请提供的满足差分隐私的域自适应方法与现有的域自适应方法进行比较，进一步说明本申请提供的方法的优点。

采用被广泛使用的真实数据集Office-Caltech10进行实验验证，Office-Caltech10数据集包含4个子数据集：Webcam(W)、DSLR(D)、Amazon(A)和 Caltech(C)，每个子数据集包含10个类。Office-Caltech10数据集的统计情况如下表1所示。

表1 Office-Caltech10数据集统计分析

子数据集	样本数	维度	类别数
				Amazon(A)	958	4096	10
Webcam(W)	295	4096	10
				Dslr(D)	157	4096	10
Caltech(C)	1123	4096	10

在实验中采用到的超参数值按照表2进行设置。

表2超参数设置

本实施例分别展示了本申请提供的满足差分隐私的域自适应方法在逻辑回归模型和深度神经网络分类模型中的应用。对于逻辑回归模型，因为 Office-Caltech10数据集是多类分类，所以我们需要构造多个二分类模型(每个类一个)，并采用均分的方式将隐私预算分配给每个二分类模型。对于深度神经网络分类模型，为了公平比较，本申请遵循LeTien等人的标准，即所有深度神经网络模型都采用用相同的架构(3层神经网络)。同时，实验执行20次，并采用准确率来对所有的方法进行比较。

下面通过对比分析不同模型下本申请提供的方法和其余方法的准确率实验结果，来说明本申请方法的效果和性能。实验结果如附图6和图7所示。

图6a和图6b采用的训练集都为Amazon，测试集为Caltech，用到的方法分别为基于最优传输的差分隐私域自适应方法(Differentially private optimal transport:Application to domain adaptation,DPDA)、深度域自适应方法(Deep domainadaptation with differential privacy，GDPDA)、基于关联对齐的无监督域自适应方法(Correlation alignment for unsupervised domain adaptation， CORAL)、基于子空间对齐的差分隐私域自适应方法(Differentially private subspace alignment fordomain adaptation,PRISA)和本申请提供的满足差分隐私的域自适应方法(Differentially private correlation alignment for domain adaptation,TRIGON)；图6a为这些方法应用于逻辑回归模型时的准确率，图 6b为这些方法应用于深度神经网络分类模型时的准确率。

从图6a可以看出，在变化隐私预算时，本申请提供的TRIGON方法在准确率上都优于DPDA方法和GDPDA方法。特别地，当隐私预算固定为2时，相比CORAL方法，TRIGON方法的准确率仅下降了1％左右，而DPDA方法和GDPDA方法相比CORAL方法下降了3％-5％。这是因为，与DPDA方法和GDPDA方法相比，本申请使用的随机子空间集成方法不仅可以有效提高噪音协方差矩阵的效用，而且可以提高模型的泛化能力。此外，从图6a和图 6b可以观察到，当变化隐私预算ε时，CORAL方法准确率变化幅度不大，表明CORAL方法在隐私预算不同的情况下，都能保证模型具有较高的性能。相比之下，当变化隐私预算时，DPDA方法和GDPDA方法的准确率变化幅度很大。例如，在图6a中，当隐私预算从4到变化到1时，DPDA方法的准确率从0.90下降到0.79。表明DPDA方法在隐私保护强度较高的情况下，并不能保证模型的性能。

为了本申请提供的TRIGON方法的效果，对以下方法进行了比较：1)采用高斯噪音直接扰动协方差矩阵以及梯度的方法，为了方便图7a和图7b的展示，简写为Basic方法；2)将源域的特征空间和目标域的特征空间分别划分为若干个子空间，然后将Basic方法应用于每个子空间的方法，简写为 RSE+Basi方法；3)在RSE+Basic方法上应用前向选择策略，简写为 RSE+Basic+FS方法；4)在Basic方法上应用基于收缩参数方法的半正定矩阵恢复方法，简写为Basic+Shrinking方法。图7a展示了本申请提供的 TRIGON方法和上述四种方法在逻辑回归模型上的准确率，图7b展示了本申请提供的TRIGON方法和上述四种方法在深度神经网络分类模型上的准确率。在图7a和图7b采用的训练集为Caltech，测试集为Amazon。

图7a和图7b的结果表明：1)RSE+Basic方法的准确率高于Basic方法，说明将源域的特征空间和目标域的特征空间分别划分为若干个子空间能够通过降维来显著提高噪音协方差矩阵的效用；2)RSE+Basic+FS方法的准确率优于RSE+Basic，可以看出前向选择策略能够选择出合适的子空间，使得子空间信息损失和噪音协方差的误差尽可能小；3)Basic+Shrinking比Basic具有更高的准确率，说明半正定矩阵恢复方法有助于提高域适应方法的性能。4) 本申请提供的TRIGON方法的效果比上述4种方法的效果都好，说明了本申请中的TRIGON方法相比现有的域自适应方法有明显的优势。

从上面所述可以看出，本申请提供的满足差分隐私的域自适应方法及相关设备，对目标域的特征空间进行划分，采用差分隐私噪声扰动划分出的目标子空间的协方差矩阵后恢复协方差矩阵的半正定性质。根据划分出的目标子空间对源域的特征空间进行相同的划分得到源子空间，根据源子空间的协方差矩阵和恢复了半正定性质的协方差矩阵计算出映射矩阵，根据映射矩阵对源子空间进行特征变换，采用随机梯度下降方法处理变换后的源子空间得到差分隐私模型.其中首先把目标域划分为多个目标子空间，使得单个目标子空间的协方差矩阵的数据维度低于目标域协方差矩阵的数据维度，把高维数据场景转化为多个低维数据场景，避免了噪音协方差矩阵误差上界的增大导致的性能降低。并进一步恢复噪音协方差矩阵的半正定性质，减轻了使用差分隐私噪声扰动噪音协方差矩阵对域自适应方法性能的破坏。由此可见，采用本申请提供的满足差分隐私的域自适应方法来处理源域和目标域，能够在保证避免隐私泄露的同时保证得出的差分隐私模型具有较高的性能。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种满足差分隐私的域自适应装置。

参考图8，所述满足差分隐私的域自适应装置，包括：

第一划分模块801，被配置为，划分目标域的特征空间得到m个目标子空间，其中，m为大于0的整数；

扰动模块802，被配置为，采用差分隐私噪声分别扰动每个所述目标子空间的协方差矩阵得到对应的m个噪音协方差矩阵；

恢复模块803，被配置为，分别恢复所述m个噪音协方差矩阵的半正定性质得到m个半正定矩阵；

第二划分模块804，被配置为，根据所述m个目标子空间划分源域的特征空间，得到与所述m个目标子空间对应的m个源子空间；

变换模块805，被配置为分别根据所述m个源子空间中每个源子空间的协方差矩阵和与所述每个源子空间对应的目标子空间的半正定矩阵变换所述每个源子空间的特征分布，得到m个变换子空间；

训练模块806，被配置为，分别利用所述m个变换子空间的特征和和所述差分隐私噪声训练出对应的m个差分隐私模型，发送所述m个差分隐私模型到所述目标域处理数据，得到处理结果。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的满足差分隐私的域自适应方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的满足差分隐私的域自适应方法。

图9示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器910、存储器920、输入/输出接口930、通信接口 940和总线950。其中处理器910、存储器920、输入/输出接口930和通信接口940通过总线950实现彼此之间在设备内部的通信连接。

处理器910可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器920可以采用ROM(Read Only Memory，只读存储器)、RAM (Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器920可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器920中，并由处理器910来调用执行。

输入/输出接口930用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口940用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线950包括一通路，在设备的各个组件(例如处理器910、存储器920、输入/输出接口930和通信接口940)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器910、存储器920、输入/输出接口930、通信接口940以及总线950，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的满足差分隐私的域自适应方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的满足差分隐私的域自适应方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的满足差分隐私的域自适应方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路) 以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。