CN112118099B

CN112118099B - 抗推理攻击的分布式多任务学习隐私保护方法及系统

Info

Publication number: CN112118099B
Application number: CN202010974661.XA
Authority: CN
Inventors: 马鑫迪; 马建峰; 沈玉龙; 姜奇; 谢康; 李腾; 卢笛; 习宁; 冯鹏斌
Original assignee: Xidian University; Third Research Institute of the Ministry of Public Security
Current assignee: Xidian University; Third Research Institute of the Ministry of Public Security
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-10-08
Anticipated expiration: 2040-09-16
Also published as: CN112118099A

Abstract

抗推理攻击的分布式多任务学习隐私保护方法及系统，通过各任务节点基于本地数据进行模型训练，并通过共享知识的方式实现联合模型训练；本发明提出基于同态密码学的隐私保护模型训练机制，使得任务节点在保证训练数据隐私的前提下，实现多任务学习模型训练，并使得模型训练效率独立于样本数据量，提高了机器学习模型训练效率；设计了基于差分隐私的模型发布方法，可以抵抗模型用户在访问机器学习模型时发起的身份推理攻击。系统包括密钥生成中心、中央服务器、任务节点和模型用户。本发明能够保证模型训练过程中和模型发布后任务节点的数据隐私，促进多任务机器学习的大规模应用。

Description

抗推理攻击的分布式多任务学习隐私保护方法及系统

技术领域

本发明属于信息安全领域，具体涉及一种抗推理攻击的分布式多任务学习隐私保护方法及系统，能够用于大规模不同分布数据的多任务模型协同训练。

背景技术

随着云计算和大数据技术的发展，机器学习技术得到了大规模的应用，尤其在图像识别、智能语音识别等领域，机器学习模型的识别精度已经超过人脑的识别精度。机器学习往往基于海量数据进行模型训练，然而，训练数据可能来自不同数据源，从而导致所收集的数据分布情况不同。因此，传统的机器学习模型训练方法难以直接应用于多数据分布模型训练。

为使得机器学习模型在多样化分布的数据上具有更好的泛化能力，多任务机器学习被用于在多样化分布的数据上同时实现多个模型训练，通过共享知识，实现多个训练任务的联合学习。然而，训练数据中通常含有用户的大量敏感信息，如疾病诊断信息、个人身份信息、兴趣偏好信息等，数据拥有者或者训练任务节点可能会因为担心隐私信息泄露拒绝以明文形式共享训练数据和提取的共享知识。目前，已有多种基于密码学和差分隐私技术的多任务学习模型训练方案，但是在大规模、多分布的数据中进行模型训练，现有方案仍存在模型训练效率低、训练模型准确性差、数据隐私无法保证等问题。如：“Privacy-Preserving Distributed Multi-Task Learning with Asynchronous Updates”中采用差分隐私方案对任务间共享的信息进行扰动，但是，由于在共享信息中加入了噪声，从而导致共享信息的准确性降低，进而导致了模型训练精度降低。因此，如何能在确保用户数据隐私的前提下，实现多任务的机器学习模型训练已成为多分布数据机器学习进一步发展与应用的关键。

发明内容

本发明的目的在于针对上述现有技术中多分布数据机器学习模型训练过程中的隐私保护问题，提供一种抗推理攻击的分布式多任务学习隐私保护方法及系统，以保证模型训练过程中和模型发布后任务节点的数据隐私，促进多任务机器学习的大规模应用。

为了实现上述目的，本发明有如下的技术方案：

一种抗推理攻击的分布式多任务学习隐私保护方法，包括以下步骤：

步骤1，为中央服务器和任务节点生成安全密钥，并通过安全通道实现密钥分发；

步骤2，各任务节点初始化训练模型的参数，并将参数分为共享部分和任务相关部分；

步骤3，选择ADMM为模型训练优化器提升训练模型的训练效率，各任务节点计算其参数共享部分和训练样本表示矩阵的乘积，并将计算结果加密后发送给中央服务器；

步骤4，基于ADMM约束条件，构造增广拉格朗日函数，并分别求解获得拉格朗日乘子、参数共享部分和参数任务相关部分的更新式；

步骤5，对步骤4更新式所涉及的训练样本数据进行预处理计算，降低模型训练过程中密文数据计算量；中央服务器对步骤3所述各任务节点上传的乘积进行聚合处理；

步骤6，各任务节点从中央服务器下载其对应的乘积聚合结果，以步骤5中预处理计算的训练样本为输入，计算更新拉格朗日乘子；

步骤7，以更新后的拉格朗日乘子和预处理计算的训练样本数据作为输入，计算更新参数共享部分，计算参数共享部分和训练样本表示矩阵的乘积，将乘积上传给中央服务器；

步骤8，以更新后的参数共享部分和预处理计算的训练样本数据为输入，计算更新参数任务相关部分，并与训练样本数据表示矩阵计算乘积；

步骤9，中央服务器对各任务节点的乘积聚合进行更新计算；

步骤10，任务节点借助中央服务器计算差分隐私敏感度，并解密训练后的模型参数；

步骤11，任务节点依据计算的敏感度产生差分隐私噪声，并对训练后的模型参数进行扰动，最后将扰动后的模型进行发布。

优选的，选择Ridge Regression模型为训练模型，步骤2具体步骤如下：

2a)任务节点首先依据模型结构随机初始化模型参数w⁽⁰⁾，通过定点整数表示法对初始化模型参数w⁽⁰⁾进行归整处理；

2b)将所有模型参数分为共享部分p⁽⁰⁾和任务相关部分q⁽⁰⁾，通过分享参数的共享部分实现知识传递，其中，w⁽⁰⁾＝p⁽⁰⁾+q⁽⁰⁾；

采用ADMM优化器，所述步骤3具体步骤如下：

3a)在任务节点训练数据X中，随机抽取

条训练样本，并分别依次选取d条样本数据计算其平均值，构造出样本表示矩阵Θ，样本平均值向量为表示矩阵中的元素向量，其中

表示下取整计算，n_t表示节点T_t的训练样本数量，d表示单条训练样本的维度；

3b)假设任务节点的参数共享部分代表了本节点的训练样本数据分布特性，构造ADMM优化器约束条件如下：

其中，Θ_i(Θ_t)表示任务节点T_i(T_t)的样本表示矩阵，p_i表示任务节点T_i的参数共享部分，m表示任务节点数；

3c)在训练Ridge Regression模型时，其损失函数定义为：

利用ADMM训练Ridge Regression模型问题形式化表示为如下多方优化问题：

其中，{X_t,y_t}表示任务节点T_t的训练数据，p_t和q_t分别表示参数的共享部分和任务相关部分，w_t＝p_t+q_t表示模型参数，λ、λ₁、λ₂表示归一化参数，Θ_t表示任务节点T_t的训练数据表示矩阵，m表示任务节点数量，t表示第t个任务节点；

3d)任务节点计算训练样本表示矩阵Θ与初始化生成的参数共享部分p⁽⁰⁾的乘积，并采用所有任务节点的联合公钥pk_Σ对其加密，得到密文[[Θp⁽⁰⁾]]；然后，任务节点将[[Θp⁽⁰⁾]]发送给中央服务器管理，其中[[·]]表示对数据加密后的密文。

优选的，所述步骤5具体步骤如下：

5a)按下式对更新式所涉及的训练样本数据进行预处理计算：

其中，{X_t,y_t}表示任务节点T_t的训练数据，Θ_t表示任务节点T_t的训练样本表示矩阵，I表示单位矩阵，ρ表示对偶变量，λ₁、λ₂表示归一化参数，m表示任务节点数量；

拉格朗日乘子u_t、参数共享部分p_t和参数任务相关部分q_t的更新式表示如下：

其中，

表示第k/k+1次迭代训练中的拉格朗日乘子，

表示第k/k+1次迭代训练中的参数共享部分，

表示第k/k+1次迭代训练中的参数任务相关部分，Θ_t表示任务节点T_t的训练样本表示矩阵，m表示任务节点数量，

a_t、B_t、C_t、F_t、g_t、L_t分别为上述对训练样本预处理计算结果；

5b)在任务节点预处理训练样本时，中央服务器对接收到来自任务节点的乘积数据进行聚合处理，对于任一t∈[1,m]：

其中，Θ_i表示任务节点i的训练样本表示矩阵，

表示任务节点i初始化的参数共享部分，m表示任务节点数量，Π表示加密算法中的同态乘法计算。

优选的，所述步骤6具体步骤如下：

6a)任务节点从中央服务器下载本节点对应的乘积聚合

并执行如下计算：

其中，d为任务节点训练数据的维度，m为任务节点数量，

Θ_t为任务节点T_t的训练样本表示矩阵；

6b)依据步骤5a)中的更新式，对第k+1次迭代训练中的拉格朗日乘子进行更新：

其中，

为第k次迭代模型训练中的拉格朗日乘子，

表示第k次迭代模型训练中更新得到的参数共享部分，

为步骤6a)中计算的中间结果，N为安全参数。

优选的，所述步骤7具体步骤如下：

7a)以更新后的拉格朗日乘子

第k次迭代训练过程中更新的参数任务相关部分

以及步骤5a)中预处理的训练样本为输入，计算如下中间结果：

其中，

为聚合结果

中元素，b_ji、c_ji、f_ji分别为步骤5a)中训练样本预处理结果B_t、C_t、F_t的元素，d为任务节点训练数据维度；

7b)依据步骤5a)中更新式，对第k+1次迭代训练中的参数共享部分进行更新：

其中，[[a_j]]为步骤5a)中训练样本预处理结果a_t中元素的加密结果，N为安全参数。

优选的，所述步骤8具体步骤如下：

8a)以更新后的参数共享部分

和步骤5a)中训练样本预处理结果为输入，计算如下中间结果：

其中，

l_ji为步骤5a)中训练样本预处理计算结果L_t的元素，d为任务节点训练样本数据维度；

8b)依据步骤5a)中更新式，对第k+1次迭代训练中的参数任务相关部分进行更新：

其中[[g_j]]为步骤5a)中训练样本预处理计算结果g_t中元素的加密结果，N为安全参数；

8c)任务节点计算第k+1次迭代更新后的参数共享部分

与训练样本表示矩阵Θ_t的乘积，并将乘积上传给中央服务器：

其中，

θ_ji∈Θ_t，

d为训练样本数据维度。

优选的，所述步骤9具体步骤如下：

基于接收到的第k+1次迭代训练过程中更新的计算乘积，中央服务器对除该任务节点之外的其它任务节点的乘积聚合进行更新，即对于任一ζ＝1,...,t-1,t+1,...,m：

其中

为

中元素，

为步骤8c)中计算的乘积结果元素，m为任务节点数量。

优选的，所述步骤10具体步骤如下：

10a)机器学习模型训练完毕后，依据更新的参数共享部分和参数任务相关部分，计算训练模型的参数密文如下：

其中，

表示任务节点T_t经过训练得到的参数共享部分，

表示任务节点T_t经过训练得到的参数任务相关部分；

10b)任务节点将计算得到的参数密文发送给中央服务器，中央服务器对参数密文进行第一次部分解密，并对任务节点T_t的乘积聚合进行如下计算：

其中，SMP(·)为密文乘法协议，

为任务节点T_t对应的乘积聚合结果，d为任务节点训练数据维度；中央服务器计算得到[[e′_t]]后对其进行第一次部分解密，并与部分解密的模型参数一起发回任务节点T_t；

10c)任务节点在接收到数据后，分别进行第二次部分解密得到明文

和e′_t，并计算差分隐私敏感度：

其中，ρ为对偶变量，v₁满足

v₂为满足

v₃满足

L为模型的损失函数，

表示求导运算，m表示任务节点数量，λ₁、λ₂表示归一化参数。

优选的，所述步骤11具体步骤如下：

11a)任务节点在计算得到敏感度S_w后，生成服从如下分布的差分隐私噪声：

其中，σ为归一化常量，

∈为差分隐私预算，S_w为步骤10c)中计算得到的差分隐私敏感度，z为生成的差分隐私噪声；

11b)在生成差分隐私噪声后，任务节点将噪声添加到步骤10c)中解密得到的模型参数中，即：

其中，

为任务节点T_t训练完毕后得到的模型参数，z_t为任务节点T_t生成的差分隐私噪声，w_tr为任务节点发布的训练模型参数。

本发明同时提供一种抗推理攻击的分布式多任务学习隐私保护系统，包括密钥生成中心、中央服务器、任务节点和模型用户；所述的密钥生成中心用于密钥生成，并为中央服务器和各任务节点分发密钥；所述的中央服务器用于管理各任务节点上传的参数共享部分与训练样本表示矩阵的乘积，通过计算更新各任务节点的乘积聚合数据；所述的任务节点具有各自的本地训练数据集且不同任务节点的训练数据集数据分布不同，在模型训练时，任务节点基于其本地数据进行模型训练，并对包括共享部分和任务相关部分的模型参数进行更新；所述的模型用户用于在任务节点发布模型后，以黑盒访问的模式使用训练模型。

相较于现有技术，本发明具有如下的有益效果：支持多数据拥有者在未直接共享数据的前提下实现多分布数据的多任务机器学习模型训练。在模型训练过程中，支持以密文形式进行模型训练和知识共享，因此保证了模型训练过程中的数据隐私性。在模型发布时，通过对模型参数进行差分隐私扰动，从而可以在模型应用时避免所面临的身份推理攻击。本发明保证了大规模多分布数据的分布式模型安全训练，并采用密码学和差分隐私方法实现了模型训练和发布后的抗推理攻击。本发明能够解决面向多分布数据的机器学习模型安全训练问题，同时保证发布的机器学习模型可以抵抗推理攻击，并克服传统隐私保护方案计算开销大、模型训练准确性无法保证等不足，从而为多任务机器学习的大规模应用提供理论和技术支撑。

附图说明

图1是本发明所设计的多任务学习系统模型图；

图2是本发明所设计的系统架构图；

图3(a)对于ANDI医疗数据集本发明所训练模型的准确率图；

图3(b)对于ANDI医疗数据集对比方案所训练模型的准确率图。

具体实施方式

以下结合附图及实施例对本发明做进一步的详细说明。

本发明设计了一种抗推理攻击的分布式多任务学习隐私保护系统，由密钥生成中心、中央服务器、任务节点和模型用户构成。密钥生成中心主要负责密钥生成，并为中央服务器和各任务节点分发密钥，在该系统中，密钥生成中心为唯一可信实体；中央服务器主要负责管理各任务节点上传的参数共享部分与训练样本表示矩阵的乘积，并提供一定的计算能力负责更新各任务节点的乘积聚合数据，在该系统中，中央服务器为半可信实体，其能够为模型训练正确地管理和计算数据，但也会通过任务节点共享的数据推理其隐私信息；任务节点是本系统中的数据拥有着，其拥有各自的本地训练数据集，且不同任务节点的训练数据集数据分布不同，在模型训练时，任务节点基于其本地数据进行模型训练，并对模型参数(包括共享部分和任务相关部分)进行更新，在该系统中，任务节点作为半可信实体，其能够提供正确的数据进行模型训练，但也会在训练过程中通过下载的聚合信息推理其他任务节点的隐私信息；模型用户主要在任务节点发布模型后，以黑盒访问的模式使用训练模型，在该系统中，模型用户也作为半可信实体，其能够通过模型的输入和输出数据发起身份推理攻击。

本发明基于机器学习模型训练算法Alternating Direction Method ofMultiplies(ADMM)和图1所示系统，将执行步骤分为2个阶段：模型训练阶段和模型发布阶段。模型训练阶段主要是指任务节点在中央服务器的帮助下实现多任务的机器学习，并通过共享知识的方式，在多分布数据学习上实现更好的泛化能力，在该阶段中，各任务节点提取到的知识以密文的形式进行共享，从而保障各任务节点的数据安全；模型发布阶段是指任务节点在模型训练完毕后，将模型发布给模型用户以黑盒访问的模型进行使用，在该阶段中，任务节点采用差分隐私的方式对模型参数进行扰动，从而抵抗模型用户对任务节点数据发起的身份推理攻击。

本发明针对大规模多分布数据中机器学习模型训练问题，提出分布式的多任务机器学习模型训练方法，各任务节点通过共享知识数据，实现多个任务节点的联合模型训练；针对模型训练和发布后面临的隐私泄露问题，提出基于双陷门公钥密码算法和差分隐私的数据保护机制，使得任务节点在保证各自数据隐私的条件下，实现分布式多任务学习模型的安全训练和发布。本发明中所涉及的密钥生成、安全协议可参照“An efficientprivacy-preserving outsourced calculation toolkit with multiple keys”方案中双陷门公钥密码算法。

参见图2，本发明抗推理攻击的分布式多任务学习隐私保护方法具体包括以下步骤：

以Ridge Regression模型为例讲述模型训练过程，并设置有m个任务节点参与训练，任务节点T_t有n_t个训练样本输入，训练样本均为d维的向量数据，t∈[1,m]，h∈[1,n_t]，j∈[1,d]。

步骤1，密钥生成中心进行系统初始化并分别为中央服务器和任务节点生成、分发密钥。

给定系统安全参数，密钥生成中心首先根据任务节点数进行系统初始化，并为中央服务器和任务节点生成安全密钥。密钥生成后，依托密钥生成中心与任务节点、中央服务器之间建立的安全通道(SSL/TLS)实现密钥安全分发。

步骤2，各任务节点初始化模型参数，并将参数分为共享部分和任务相关部分。

具体步骤如下：

2a)任务节点首先依据模型结构随机初始化模型参数w⁽⁰⁾，由于所采用的的加密方案只能加密整数数据，所以采用定点整数表示法对初始化模型参数w⁽⁰⁾进行归整处理。

2b)本发明在设计多任务学习时，将所有模型参数分为共享部分p⁽⁰⁾和任务相关部分q⁽⁰⁾，通过分享参数的共享部分实现知识传递，其中，w⁽⁰⁾＝p⁽⁰⁾+q⁽⁰⁾。

步骤3，采用Alternating Direction Method of Multiplies(ADMM)为模型训练优化器，提取训练样本表示矩阵Θ，构造ADMM优化器约束条件；同时，计算参数共享部分和训练样本表示矩阵乘积，并将计算结果加密后发送给中央服务器。

由于传统的梯度下降算法在进行模型训练时，训练效率与每一次迭代输入样本数据量有关，尤其在采用密码学对数据进行保护时，模型训练效率严重依赖于每一次迭代的样本数。因此，为提升模型训练效率，本发明采用ADMM作为模型训练优化器。

具体步骤如下：

3a)在任务节点训练数据X中，随机抽取

条训练样本并分别依次选取d条样本数据进行计算其平均值，从而可构造出样本表示矩阵Θ，样本平均值向量为表示矩阵中的元素向量，其中

表示下取整计算，n_t表示节点T_t的训练样本数量，d表示单条训练样本的维度。

3b)本发明假设任务节点的参数共享部分代表了本节点的训练样本数据分布特性，因此，构造ADMM优化器约束条件如下：

其中，Θ_i(Θ_t)表示任务节点T_i(T_t)的样本表示矩阵，p_i表示任务节点T_i的参数共享部分，m表示任务节点数。

3c)在训练Ridge Regression模型时，其损失函数定义为：

因此，利用ADMM训练Ridge Regression模型问题可形式化表示为如下多方优化问题：

其中，{X_t,y_t}表示任务节点T_t的训练数据，p_t和q_t分别表示参数的共享部分和任务相关部分，w_t＝p_t+q_t表示模型参数，λ、λ₁、λ₂表示归一化参数，Θ_t表示任务节点T_t的训练数据表示矩阵，m表示任务节点数量，t表示第t个任务节点。

3d)任务节点计算训练样本表示矩阵Θ与初始化生成的参数共享部分p⁽⁰⁾的乘积，并采用所有任务节点的联合公钥pk_Σ对其加密，得到密文[[Θp⁽⁰⁾]]。然后，任务节点将[[Θp⁽⁰⁾]]发送给中央服务器管理。其中[[·]]表示对数据加密后的密文。

步骤4，构造增广拉格朗日函数，并分别依次求解更新拉格朗日乘子、参数共享部分和参数任务相关部分。

具体步骤如下：

4a)基于步骤3中构造的多方优化问题，构造增广拉格朗日函数：

其中，{X_t,y_t}表示任务节点T_t的训练数据，p_t和q_t分别表示参数的共享部分和任务相关部分，λ₁、λ₂表示归一化参数，Θ_t表示任务节点T_t的训练数据表示矩阵，m表示任务节点数量，u_t表示拉格朗日乘子，ρ表示对偶变量。

4b)采用对偶上升法，对步骤4a)中构造的增广拉格朗日函数进行求解，分别获得拉格朗日乘子u_t、参数共享部分p_t和参数任务相关部分q_t的更新式：

其中，{X_t,y_t}表示任务节点T_t的训练数据，

表示第k/k+1次迭代训练中的拉格朗日乘子，

表示第k/k+1次迭代训练中的参数共享部分，

表示第k/k+1次迭代训练中的参数任务相关部分，Θ_t表示任务节点T_t的训练样本表示矩阵，I表示单位矩阵，ρ表示对偶变量，λ₁、λ₂表示归一化参数，m表示任务节点数量。

步骤5，根据求解更新的拉格朗日乘子、参数共享部分和参数任务相关部分，分别对训练样本进行预处理计算，降低模型训练过程中密文数据计算量；中央服务器同时对各任务节点上传的乘积进行聚合处理。

具体步骤如下：

5a)为降低模型训练过程中数据计算量，本发明对步骤4b)中更新式所涉及的训练样本数据进行预处理计算：

其中，{X_t,y_t}表示任务节点T_t的训练数据，Θ_t表示任务节点T_t的训练样本表示矩阵，I表示单位矩阵，ρ表示对偶变量，λ₁、λ₂表示归一化参数，m表示任务节点数量。因此，拉格朗日乘子u_t、参数共享部分p_t和参数任务相关部分q_t的更新式可表示如下：

其中，

表示第k/k+1次迭代训练中的拉格朗日乘子，

表示第k/k+1次迭代训练中的参数共享部分，

a_t、B_t、C_t、F_t、g_t、L_t分别为上述对训练样本预处理计算结果。

5b)在任务节点预处理训练样本时，中央服务器对接收到来自任务节点的乘积数据进行聚合处理，对于任一t∈[1,m]:

其中，Θ_i表示任务节点i的训练样本表示矩阵，

表示任务节点i初始化的参数共享部分，m表示任务节点数量，П表示加密算法中的同态乘法计算。

步骤6，任务节点从中央服务器下载其对应的乘积聚合，以预处理计算的训练样本为输入，计算更新拉格朗日乘子。

具体步骤如下：

6a)任务节点从中央服务器下载本节点对应的乘积聚合

并执行如下计算：

其中，d为任务节点训练数据的维度，m为任务节点数量，

Θ_t为任务节点T_t的训练样本表示矩阵。

其中，

为第k次迭代模型训练中的拉格朗日乘子，

表示第k次迭代模型训练中更新得到的参数共享部分，

为步骤6a)中计算的中间结果，N为安全参数。

步骤7，以更新后的拉格朗日乘子和预处理的训练样本为输入，计算更新参数共享部分；计算更新后的参数共享部分和训练样本表示矩阵的乘积，将乘积上传给中央服务器。

具体步骤如下：

7a)以更新后的拉格朗日乘子

第k次迭代训练过程中更新的参数任务相关部分

其中，

为聚合结果

中元素，b_ji、c_ji、f_ji分别为步骤5a)中训练样本预处理结果B_t、C_t、F_t的元素，d为任务节点训练数据维度。

7b)依据5a)中更新式，对第k+1次迭代训练中的参数共享部分进行更新：

步骤8，以更新后的参数共享部分和预处理的训练样本为输入，计算更新参数任务相关部分，并与训练样本表示矩阵计算乘积。

具体步骤如下：

8a)以更新后的参数共享部分

其中，

l_ji为步骤5a)中训练样本预处理计算结果L_t的元素，d为任务节点训练样本数据维度。

其中[[g_j]]为步骤5a)中训练样本预处理计算结果g_t中元素的加密结果，N为安全参数。

8c)任务节点计算第k+1次迭代更新后的参数共享部分

其中，

θ_ji∈Θ_t，

d为训练样本数据维度。

步骤9，中央服务器收到任务节点上传的乘积后，对各任务节点的乘积聚合进行更新计算。

其中，

为

中元素，

为步骤8c)中计算的乘积结果元素，m为任务节点数量。

步骤10，在模型训练完毕后，任务节点借助中央服务器计算差分隐私敏感度，并解密训练后的模型参数。

具体步骤如下：

其中，

表示任务节点T_t经过训练得到的参数共享部分，

表示任务节点T_t经过训练得到的参数任务相关部分。

其中，SMP(·)为密文乘法协议，具体参见PDLM:Privacy-preserving deeplearning model on cloud with multiple keys，

为任务节点T_t对应的乘积聚合结果，d为任务节点训练数据维度。中央服务器计算得到[[e_t′]]后对其进行第一次部分解密，并与部分解密的模型参数一起发回任务节点T_t。

和e_t′，并计算差分隐私敏感度：

其中，ρ为对偶变量，v₁满足

v₂满足

v₃满足

L为模型的损失函数，

具体步骤如下：

其中，σ为归一化常量，

∈为差分隐私预算，S_w为步骤10c)中计算得到的差分隐私敏感度，z为生成的差分隐私噪声。

其中，

由于任务节点发布的模型已经经过差分隐私扰动，因此所发布的模型满足差分隐私保护要求，可抵抗模型用户发起的身份推理攻击。

通过以下实验进一步说明本发明的模型训练质量：本发明采用ANDI医疗数据集进行测试，通过仿真测试，得到本发明的模型训练准确率如图3(a)所示。图3(b)中为对比方案测试，该方案为Privacy-Preserving Distributed Multi-Task Learning withAsynchronous Updates中方案，由于图3(b)中方案在模型训练过程中一直添加差分隐私噪声，因此导致模型训练准确率较低。经对比发现，本发明中模型训练准确率明显高于图3(b)中对比方案。

以上所述的仅仅是本发明的较佳实施例，并不用以对本发明的技术方案进行任何限制，本领域技术人员应当理解的是，在不脱离本发明精神和原则的前提下，该技术方案还可以进行若干简单的修改和替换，这些修改和替换也均属于权利要求书所涵盖的保护范围之内。

Claims

1.一种抗推理攻击的分布式多任务学习隐私保护方法，其特征在于，包括以下步骤：

选择Ridge Regression模型为训练模型，步骤2具体步骤如下：

所述步骤5具体步骤如下：

5a)按下式对更新式所涉及的训练样本数据进行预处理计算：

其中，

表示第k/k+1次迭代训练中的拉格朗日乘子，

表示第k/k+1次迭代训练中的参数共享部分，

其中，Θ_i表示任务节点i的训练样本表示矩阵，

表示任务节点i初始化的参数共享部分，m表示任务节点数量，П表示加密算法中的同态乘法计算；

所述步骤6具体步骤如下：

6a)任务节点从中央服务器下载本节点对应的乘积聚合

并执行如下计算：

其中，d为任务节点训练数据的维度，m为任务节点数量，

Θ_t为任务节点T_t的训练样本表示矩阵；

其中，

为第k次迭代模型训练中的拉格朗日乘子，

表示第k次迭代模型训练中更新得到的参数共享部分，

为步骤6a)中计算的中间结果，N为安全参数；

步骤7，以更新后的拉格朗日乘子和预处理计算的训练样本数据作为输入，计算更新参数共享部分；计算参数共享部分和训练样本表示矩阵的乘积，将乘积上传给中央服务器；

所述步骤7具体步骤如下：

7a)以更新后的拉格朗日乘子

第k次迭代训练过程中更新的参数任务相关部分

其中，

为聚合结果

其中，

为步骤5a)中训练样本预处理结果a_t中元素的加密结果，N为安全参数；

所述步骤8具体步骤如下：

8a)以更新后的参数共享部分

其中，

其中

为步骤5a)中训练样本预处理计算结果g_t中元素的加密结果，N为安全参数；

8c)任务节点计算第k+1次迭代更新后的参数共享部分

其中，

θ_ji∈Θ_t，

d为训练样本数据维度；

步骤9，中央服务器对各任务节点的乘积聚合进行更新计算；

所述步骤10具体步骤如下：

其中，

表示任务节点T_t经过训练得到的参数共享部分，

表示任务节点T_t经过训练得到的参数任务相关部分；

其中，SMP(·)为密文乘法协议，

为任务节点T_t对应的乘积聚合结果，d为任务节点训练数据维度；中央服务器计算得到

后对其进行第一次部分解密，并与部分解密的模型参数一起发回任务节点T_t；

和e_t′，并计算差分隐私敏感度：

其中，ρ为对偶变量，v₁满足

v₂为满足

v₃满足

L为模型的损失函数，

表示求导运算，m表示任务节点数量，λ₁、λ₂表示归一化参数；

步骤11，任务节点依据计算的敏感度产生差分隐私噪声，并对训练后的模型参数进行扰动，最后将扰动后的模型进行发布；

所述步骤11具体步骤如下：

其中，σ为归一化常量，

11b)在生成差分隐私噪声后，任务节点将噪声添加到步骤10c)解密得到的模型参数中，即：

其中，

2.根据权利要求1所述抗推理攻击的分布式多任务学习隐私保护方法，其特征在于，

采用ADMM优化器，所述步骤3具体步骤如下：

3a)在任务节点训练数据X中，随机抽取

3c)在训练Ridge Regression模型时，其损失函数定义为：

s.t.:

3d)任务节点计算训练样本表示矩阵Θ与初始化生成的参数共享部分p⁽⁰⁾的乘积，并采用所有任务节点的联合公钥pk_∑对其加密，得到密文

然后，任务节点将

发送给中央服务器管理，其中

表示对数据加密后的密文。

3.根据权利要求1所述抗推理攻击的分布式多任务学习隐私保护方法，其特征在于，所述步骤9具体步骤如下：

基于接收到的第k+1次迭代训练过程中更新的计算乘积，中央服务器对除该任务节点之外的其它任务节点的乘积聚合进行更新，即对于任一ζ＝1,…,t-1,t+1,…,m：

其中

为

中元素，

为步骤8c)中计算的乘积结果元素，m为任务节点数量。

4.一种执行权利要求1-3中任意一项所述抗推理攻击的分布式多任务学习隐私保护方法的系统，其特征在于，包括密钥生成中心、中央服务器、任务节点和模型用户；所述的密钥生成中心用于密钥生成，并为中央服务器和各任务节点分发密钥；所述的中央服务器用于管理各任务节点上传的参数共享部分与训练样本表示矩阵的乘积，通过计算更新各任务节点的乘积聚合数据；所述的任务节点具有各自的本地训练数据集且不同任务节点的训练数据集数据分布不同，在模型训练时，任务节点基于其本地数据进行模型训练，并对包括共享部分和任务相关部分的模型参数进行更新；所述的模型用户用于在任务节点发布模型后，以黑盒访问的模式使用训练模型；选择Ridge Regression模型为训练模型。