CN111651792A

CN111651792A - 多方协同学习中的风险检测、模型增强方法及装置

Info

Publication number: CN111651792A
Application number: CN202010691949.6A
Authority: CN
Inventors: 王力; 周俊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-07-17
Filing date: 2020-07-17
Publication date: 2020-09-11
Anticipated expiration: 2040-07-17
Also published as: CN111651792B

Abstract

本说明书实施例提供了一种多方协同学习中的风险检测、模型增强方法及装置。在风险检测方法中，服务器部署有第一模型，第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到；针对获取服务器基于对第一模型的多次迭代训练对应得到的多组第一模型参数，基于多组第一模型参数之间对应参数的差值，确定模型参数梯度向量，将与多个数据方中的训练样本为同构数据的本地样本的样本特征向量，与模型参数梯度向量进行拼接，得到本地更新样本，采用本地更新样本训练第二模型，采用预设的测试集确定训练后的第二模型的第一预测性能值，当第一预测性能值大于预设阈值时，确定第一模型存在泄露训练样本隐私的风险。

Description

多方协同学习中的风险检测、模型增强方法及装置

技术领域

本说明书一个或多个实施例涉及数据安全技术领域，尤其涉及多方协同学习中的风险检测、模型增强方法及装置。

背景技术

协同学习在整个机器学习领域得到了很快的发展。在这种模型训练方式中，多个数据方可以分别利用各自拥有的隐私数据，通过不直接发送隐私数据的方式，联合起来共同训练模型。在一种实施方式中，多个数据方可以借助于服务器来接收多个数据方发送的模型参数，并更新每次迭代中的模型参数。但是，可能存在恶意的攻击者，通过窃取等方式获得上述协同学习中的隐私数据，进而造成隐私泄露。

因此，希望能有改进的方案，可以在多方协同学习中实现对隐私泄露风险进行检测，进而在检测到隐私泄露风险时及时采用保护隐私数据的措施，尽可能防止隐私泄露。

发明内容

本说明书一个或多个实施例描述了多方协同学习中的风险检测、模型增强方法及装置，以在多方协同学习中实现对隐私泄露风险进行检测，进而在检测到隐私泄露风险时及时采用保护隐私数据的措施，尽可能地防止隐私泄露。具体的技术方案如下。

第一方面，实施例提供了一种多方协同学习中的隐私泄露风险检测方法，所述多方包括服务器和多个数据方，所述服务器部署有第一模型，所述第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到；所述方法通过检测系统中的检测单元执行，所述检测系统还包括所述服务器或者任意一个数据方，所述方法包括：

获取所述服务器基于对所述第一模型的多次迭代训练对应得到的多组第一模型参数；

基于多组第一模型参数之间对应参数的差值，确定模型参数梯度向量；

将本地样本的样本特征向量与所述模型参数梯度向量进行拼接，得到本地更新样本；所述本地样本与多个数据方中的训练样本为同构数据；

采用所述本地更新样本训练第二模型，采用预设的测试集确定训练后的第二模型的第一预测性能值；

当所述第一预测性能值大于预设阈值时，确定所述第一模型存在泄露训练样本隐私的风险。

在一种具体实施方式中，所述基于多组第一模型参数之间对应参数的差值，确定模型参数向量的步骤，包括：

按照迭代顺序，对多组第一模型参数进行排序；

针对排序后的多组第一模型参数中的任意一组第一模型参数，确定该组第一模型参数和与其具有预定间隔的其他组第一模型参数之间对应参数的差值，得到该组第一模型参数对应的模型参数梯度向量。

在一种具体实施方式中，所述将本地样本的样本特征向量与所述模型参数梯度向量进行拼接的步骤，包括：

将模型参数梯度向量添加至本地样本的样本特征向量中的指定位置处。

在一种具体实施方式中，所述本地样本的数目为多个，所述模型参数梯度向量的数目为一个；

所述将本地样本的样本特征向量与所述模型参数梯度向量进行拼接的步骤，包括，将所述模型参数梯度向量，分别与多个本地样本的样本特征向量进行拼接，得到多个本地更新样本。

在一种具体实施方式中，所述本地样本的数目为第一数目，所述模型参数梯度向量的数目为第二数目，所述第一数目和所述第二数目均大于1；

所述将本地样本的样本特征向量与所述模型参数梯度向量进行拼接的步骤，包括，将第二数目个模型参数梯度向量随机分配至第一数目个本地样本，针对多个本地样本中的任意一个本地样本，将该本地样本的样本特征向量与为其分配的模型参数梯度向量进行拼接。

在一种具体实施方式中，所述本地样本具有样本标签；所述将本地样本的样本特征向量与所述模型参数梯度向量进行拼接的步骤，包括，将本地样本的样本特征向量与所述模型参数梯度向量进行拼接，得到更新后的样本特征向量，将本地样本的样本标签与更新后的样本特征向量作为本地更新样本。

在一种具体实施方式中，所述采用预设的测试集确定训练后的第二模型的第一预测性能值的步骤，包括：

将预设的测试集中的测试样本分别输入训练后的第二模型，得到对应的预测值；基于所述预测值和所述测试样本的标签值，确定训练后的第二模型的AUC值，作为其第一预测性能值。

在一种具体实施方式中，第二预测性能值不大于所述预设阈值；所述第二预测性能值基于采用预设的测试集对训练前的第二模型进行测试得到。

在一种具体实施方式中，所述检测单元位于所述服务器中，或者，所述检测单元位于所述任意一个数据方中。

第二方面，实施例提供了一种多方协同学习中的模型增强方法，所述多方包括服务器和多个数据方，所述服务器部署有第一模型，所述第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到；所述方法通过增强系统中的增强单元执行，所述增强系统还包括所述服务器，所述方法包括：

当采用第一方面所述的方法确定所述第一模型存在泄露训练样本隐私的风险时，从所述服务器中的多组第一模型参数中，获取最后一次迭代得到的第二模型参数；

对所述第二模型参数进行压缩，以使基于压缩后的第二模型参数继续对所述第一模型进行协同学习。

在一种具体实施方式中，所述对所述第二模型参数进行压缩的步骤，包括，对所述第二模型参数进行梯度降维，或进行随机失活处理。

第三方面，实施例提供了一种多方协同学习中的隐私泄露风险检测装置，所述多方包括服务器和多个数据方，所述服务器部署有第一模型，所述第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到；所述装置部署在检测系统中的检测单元中，所述检测系统还包括所述服务器或者任意一个数据方，所述装置包括：

获取模块，配置为，获取所述服务器基于对所述第一模型的多次迭代训练对应得到的多组第一模型参数；

差值模块，配置为，基于多组第一模型参数之间对应参数的差值，确定模型参数梯度向量；

拼接模块，配置为，将本地样本的样本特征向量与所述模型参数梯度向量进行拼接，得到本地更新样本；所述本地样本与多个数据方中的训练样本为同构数据；

测试模块，配置为，采用所述本地更新样本训练第二模型，采用预设的测试集确定训练后的第二模型的第一预测性能值；

确定模块，配置为，当所述第一预测性能值大于预设阈值时，确定所述第一模型存在泄露训练样本隐私的风险。

在一种具体实施方式中，所述差值模块，具体配置为：

按照迭代顺序，对多组第一模型参数进行排序；

在一种具体实施方式中，所述拼接模块，具体配置为，将所述模型参数梯度向量添加至本地样本的样本特征向量中的指定位置处。

所述拼接模块，具体配置为，将所述模型参数梯度向量，分别与多个本地样本的样本特征向量进行拼接，得到多个本地更新样本。

所述拼接模块，具体配置为，将第二数目个模型参数梯度向量随机分配至第一数目个本地样本，针对多个本地样本中的任意一个本地样本，将该本地样本的样本特征向量与为其分配的模型参数梯度向量进行拼接。

在一种具体实施方式中，所述本地样本具有样本标签；所述拼接模块，具体配置为，将本地样本的样本特征向量与所述模型参数梯度向量进行拼接，得到更新后的样本特征向量，将本地样本的样本标签与更新后的样本特征向量作为本地更新样本。

在一种具体实施方式中，所述测试模块，采用预设的测试集确定训练后的第二模型的第一预测性能值时，包括：

在一种具体实施方式中，其中，第二预测性能值不大于所述预设阈值；所述第二预测性能值基于采用预设的测试集对训练前的第二模型进行测试得到。

第四方面，实施例提供了一种多方协同学习中的模型增强装置，所述多方包括服务器和多个数据方，所述服务器部署有第一模型，所述第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到；所述装置部署在增强系统中的增强单元中，所述增强系统还包括所述服务器，所述装置包括：

选取模块，配置为，当采用第一方面所述的方法确定所述第一模型存在泄露训练样本隐私的风险时，从所述服务器中的多组第一模型参数中，获取最后一次迭代得到的第二模型参数；

压缩模块，配置为，对所述第二模型参数进行压缩，以使基于压缩后的第二模型参数继续对所述第一模型进行协同学习。

在一种具体实施方式中，所述压缩模块，具体配置为，对所述第二模型参数进行梯度降维，或进行随机失活处理。

第五方面，实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面至第二方面中任一项所述的方法。

第六方面，实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面至第二方面中任一项所述的方法。

本说明书实施例提供的方法和装置，通过多次迭代训练得到的多组第一模型参数的差值，确定模型参数梯度向量，该模型参数梯度向量中携带从多个数据方的训练样本中提取的抽象信息。将本地样本的样本特征向量与模型参数梯度向量进行拼接，得到本地更新样本，采用本地更新样本训练第二模型，当第一模型的预测性能非常好时(第一预测性能值大于预设阈值)，说明模型参数梯度中携带的训练样本的抽象信息足以泄露训练样本的隐私，进而说明第一模型参数存在泄露隐私的风险。因此，采用本说明书实施例，能够确定第一模型存在泄漏训练样本隐私的风险，进而在此之后可以及时采用保护隐私数据的措施，尽可能地防止隐私泄露。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2为实施例提供的一种多方协同学习中的隐私泄露风险检测方法的流程示意图；

图3为多组第一模型参数的一种示意图；

图4为实施例提供的一种多方协同学习中的模型增强方法的流程示意图；

图5为实施例提供的一种多方协同学习中的隐私泄露风险检测装置的示意性框图；

图6为实施例提供的一种多方协同学习中的模型增强装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。服务器中部署有第一模型，第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到。图1中示出了N个数据方，包括数据方1、数据方2……数据方N，N为正整数。多个数据方中存储有各自的训练样本，这些训练样本属于隐私数据。通过多个数据方的协同学习，服务器中得到在多次迭代训练第一模型时的多组第一模型参数。每一组第一模型参数包括多个参数。检测单元用于基于多组第一模型参数检测是否存在隐私泄露，增强单元用于在确定存在隐私泄露时对多组第一模型参数中的第二模型参数进行压缩，以对第一模型进行增强处理，避免泄露训练样本的隐私。

第一模型可以包括深度神经网络(Deep Neural Networks，DNN)、循环神经网络(Recurrent Neural Network，RNN)和卷积神经网络(Convolutional Neural Networks，CNN)等，还可以包括其他网络模型。

多个数据方中的训练样本可以是图像、文本、音频等数据，也可以是业务对象的特征数据，例如，业务对象可以包括用户、商品、商户或事件等，其特征数据可以是用户数据、商品数据、商户数据或事件数据等。第一模型可以用于进行业务预测，例如可以预测图像、文本、音频等数据中的指定内容进行，或者可以对业务对象进行指定内容的预测等到。例如，第一模型可以用于预测图像中的车辆区域，或者人脸区域等，或者可以用于预测文本的通顺程度，预测文本的分类标签，或者，预测用户是否为风险用户，预测商品数据对应的分类标签等等。本说明书并不限定训练样本的类型以及第一模型的具体功能。

服务器部署的第一模型参数为第一模型的全局模型参数。多个数据方与服务器之间可以存在不同的协同学习方式。例如，在一轮迭代训练中，多个数据方可以从服务器中获取基于全局模型参数得到的模型参数，该模型参数可以是全局模型参数，也可以是局部模型参数。多个数据方可以分别利用自身存储的训练样本和从服务器中得到的模型参数确定损失值，将各自的损失值分别发送至服务器。服务器从多个数据方接收多组损失值，并基于多组损失值对全局模型参数进行更新，得到用于下一轮迭代训练的全局模型参数。多个数据方也可以基于各自得到的损失值对模型参数进行更新，将更新的模型参数发送至服务器。服务器从多个数据方接收更新后的模型参数，并基于更新后的模型参数对全局模型参数进行更新。本说明书实施例并不具体限定多个数据方的协同学习方式。

第一模型在多次迭代训练中，通过对多个数据方中训练样本的训练，不断地提高预测能力。在理想情况下，训练完成的第一模型具有很好的泛化能力，针对不同的训练样本，第一模型如果能够提取到针对预测来说更加泛化的特征，则第一模型具有更好的泛化能力。这样的第一模型在遇到测试数据时，其预测结果也会更加合理。而如果第一模型在训练过程中，没有训练出很好的泛化能力，则其模型参数则可能有泄露训练样本隐私的风险。攻击者在获取这样的模型参数之后，可能会利用该模型参数反推出训练样本的隐私数据，造成隐私泄露。

为了尽可能地防止协同学习中可能的隐私泄露，本说明书实施例提供了一种隐私泄露风险检测方法。该方法通过多次迭代训练得到多组第一模型参数，并基于第一模型参数之间对应参数的差值确定模型参数梯度向量，该模型参数梯度向量中携带从多个数据方的训练样本中提取的抽象信息。将本地样本的样本特征向量与模型参数梯度向量进行拼接，得到本地更新样本，采用本地更新样本训练第二模型，当第一模型的预测性能非常好时(第一预测性能值大于预设阈值)，说明模型参数梯度中携带的训练样本的抽象信息足以模拟训练样本的特征，进而说明第一模型参数存在泄露隐私的风险。因此，采用本说明书实施例，能够确定第一模型存在泄漏训练样本隐私的风险，进而在此之后可以及时采用保护隐私数据的措施，尽可能地防止隐私泄露。下面结合具体实施例对本方法进行说明。

图2为实施例提供的一种多方协同学习中的隐私泄露风险检测方法的流程示意图。下面将结合图1，对图2所示实施例进行说明。多方包括服务器和多个数据方，该方法通过检测系统中的检测单元执行，检测系统还包括服务器或者任意一个数据方。在具体实施方式中，检测单元可以位于服务器中，是服务器中的一个模块，也可以位于任意一个数据方中，是某个数据方中的一个模块，还可以独立于服务器或数据方之外，是另一个计算机中的模块。该方法包括以下步骤S210～S250。

步骤S210，获取服务器基于对第一模型的多次迭代训练对应得到的多组第一模型参数。在对第一模型的一次迭代训练中，可以得到一组第一模型参数，每一组第一模型参数可以理解为全局模型参数。该组第一模型参数可以包括多个模型参数，采用由多个模型参数组成的向量表示。例如，一组第一模型参数可以包括θ₁、θ₂、…、θ_w等模型参数，w可以为大于2的整数。在每次迭代训练中，这些模型参数的取值可能会被更新。多组第一模型参数，可以理解为2组或2组以上，例如3组、4组或者更多组。

参见图3，该图3为多组第一模型参数的一种示意图。其中示例性地列出了4组第一模型参数，从上至下分别为第一次、第二次、第三次和第四次迭代训练得到的第一模型参数。

步骤S220，基于多组第一模型参数之间对应参数的差值，确定模型参数梯度向量。第一模型参数之间对应参数的差值，携带数据方的训练样本的抽象信息，该抽象信息是第一模型从训练样本中提取得到的抽象特征。在具体实施时，可以直接将多组第一模型参数之间对应参数的差值确定为模型参数梯度向量，也可以对该差值进行预设处理得到模型参数梯度向量，预设处理例如乘以某预设值等。

在本步骤中，可以按照迭代顺序，对多组第一模型参数进行排序；针对排序后的多组第一模型参数中的任意一组第一模型参数，确定该组第一模型参数和与其具有预定间隔的其他组第一模型参数之间对应参数的差值，得到该组第一模型参数对应的模型参数梯度向量。其中，预定间隔可以理解为组编号间隔，例如可以是预定间隔可以是相邻组，或者是间隔一组，间隔两组等。

例如，针对图3所示的按照迭代顺序排列的4组第一模型参数，可以将相邻组第一模型参数之间的差值分别确定为模型参数梯度向量，得到3个模型参数梯度向量。也可以间隔一组取差值，例如将第1组和第3组，第2组和第4组的第一模型参数之间的取差值，得到2个模型参数梯度向量。

在针对两组第一模型参数取差值时，可以将对应的模型参数取差值，例如，针对不同组，θ₁之间取差值，θ₂之间取差值等等。

步骤S230，将本地样本的样本特征向量与模型参数梯度向量进行拼接，得到本地更新样本。其中，本地样本与多个数据方中的训练样本为同构数据。同构数据可以理解为相同种类或相同类型的数据，并且特征向量的维度相同，或者特征向量包含的属性相同。例如，当训练样本是图像时，本地样本也是图像；当训练样本为文本时，本地样本也是文本；当训练样本是用户的特征数据时，本地样本也是用户的特征数据，并且特征数据均基于相同种类的用户数据提取得到，例如可以都是从用户行为数据、用户属性数据中提取得到。

当检测单元位于某个数据方中时，本地样本可以是与多个数据方中的训练样本不同批次的样本。

在进行拼接时，具体可以将模型参数梯度向量添加至本地样本的样本特征向量中的指定位置处。例如可以将模型参数梯度向量添加至本地样本的样本特征向量的左端或者右端。

本步骤在具体实施时，还与本地样本和模型参数梯度向量的数目不同而存在不同的实施方式。例如，当本地样本的数目为多个，模型参数梯度向量的数目为一个时，可以直接将该模型参数梯度向量分别与多个本地样本的样本特征向量进行拼接，得到多个本地更新样本。

当本地样本的数目为第一数目A1，模型参数梯度向量的数目为第二数目 A2，并且第一数目A1和第二数目A2均大于1时，将本地样本的样本特征向量与模型参数梯度向量进行拼接时，可以将第二数目A2个模型参数梯度向量随机分配至第一数目A1个本地样本，针对多个本地样本中的任意一个本地样本，将该本地样本的样本特征向量与为其分配的模型参数梯度向量进行拼接。

例如，当本地样本的第一数目A1大于或等于模型参数梯度向量的第二数目A2时，可以分别将第二数目A2个模型参数梯度向量随机分配至第二数目 A2个本地样本，将本地样本与对应的模型参数梯度向量进行拼接。

当本地样本的第一数目A1小于模型参数梯度向量的第二数目A2时，可以将第一数目A1个模型参数梯度向量随机分配至第一数目A1个本地样本，将剩余的模型参数梯度向量随机分配至对应数量个本地样本，将本地样本与对应的模型参数梯度向量进行拼接。例如，本地样本的数目为3个，模型参数梯度向量的数目为5个，可以将5个中的3个模型参数梯度向量，与3个本地样本分别进行拼接，将5个中剩余的2个模型参数梯度向量再与这3个本地样本中的2个本地样本进行拼接。

在另一种实施方式中，本地样本可以具有样本标签，该样本标签与数据方中的样本标签也是同构数据，即表示的含义相同，表示方式相同。在将本地样本的样本特征向量与模型参数梯度向量进行拼接时，可以将本地样本的样本特征向量与模型参数梯度向量进行拼接，得到更新后的样本特征向量，将本地样本的样本标签与更新后的样本特征向量作为本地更新样本。

本实施例中，相比于多个数据方中训练样本的总数目，本地样本的总数目可以非常少。

步骤S240，采用本地更新样本训练第二模型，采用预设的测试集确定训练后的第二模型的第一预测性能值。

初始的第二模型可以是未曾训练过程的模型，本实施例中采用本地更新样本训练第二模型。训练第二模型的过程，可以与采用数据方中的训练样本直接对第一模型训练的过程相同。第二模型和第一模型可以采用相同的网络模型进行训练，具有相同的参数设置，用于进行相同预测。例如，第二模型和第一模型可以均采用相同隐藏层的DNN网络，每层网络设置相同数量的神经元，均用于预测图像中的人脸区域。

具体的，在采用本地更新样本训练第二模型时，可以将本地更新样本更新后的样本特征向量输入第二模型，得到本地更新样本的预测值，基于该预测值与该本地更新样本的样本标签确定损失值，向减小该损失值的方向更新第二模型，即更新第二模型中的模型参数。当迭代训练次数大于预设次数阈值，或者全部的本地更新样本训练完成时，或者损失值小于预设损失阈值时，结束训练过程。

在第二模型训练完成后，可以采用测试集检测第二模型的预测性能。具体的，可以将预设的测试集中的测试样本分别输入训练后的第二模型，得到对应的预测值，基于该预测值和测试样本的标签值，确定训练后的第二模型的AUC(Area Under Curve)值，作为其第一预测性能值。在计算AUC值时，可以基于多个测试样本对应的预测值与标签值的比较进行。也可以采用其他方式确定第二模型的预测性能，例如，计算预测值和测试样本的标签值之间的差值，得到多个差值，计算多个差值的均方差，作为第二模型的第一预测性能值。

步骤S250，当第一预测性能值大于预设阈值时，确定第一模型存在泄露训练样本隐私的风险。当第一预测性能值大于预设阈值时，认为第一模型的预测能力比较强。而第一模型是采用本地更新样本训练得到，而本地更新样本中添加了模型参数梯度向量，如果模型参数梯度向量中携带有足够多的训练样本的信息，那么基于该本地更新样本训练得到的第二模型，会具有很好的预测性能。因此当第二模型具有较好的预测性能时，可以认为第一模型存在泄露训练样本隐私的风险。当第一预测性能值不大于预设阈值时，确定第一模型不存在泄露训练样本隐私的风险。其中，预设阈值可以根据经验值进行设定。

在另一种实施方式中，作为对比实验，还可以采用预设的测试集对训练前的第二模型进行测试，得到第二模型的第二预测性能值，该第二预测性能值不大于预设阈值。训练前的第二模型，可以理解为采用本地更新样本对第二模型进行训练之前。该训练前的第二模型，可以是未经过任何训练的模型，也可以是采用本地样本进行训练的模型。采用本地样本进行训练的模型，由于本地样本数量有限，并且训练次数有限，模型的预测性能不高。而采用添加了模型参数梯度向量的本地更新样本训练的第二模型，如果模型参数梯度向量携带足够多的训练样本的信息，那么该第二模型的预测性能值会大于一定值。

本实施例提供的上述风险监测方法中，检测单元所执行的上述步骤，实际上可以理解为在模拟攻击者进行隐私探测的过程。如果能够根据模型参数梯度向量得到预测性能非常好的第二模型，则可以基于此探秘出训练样本的隐私特征，因此可以确认存在泄露隐私的风险。

当采用图2所示实施例的方法确定第一模型存在泄露训练样本隐私的风险时，还可以继续采用措施，防止第一模型泄露隐私。例如，可以发出报警的通知，或者对第一模型的模型参数进行修改，进而继续训练第一模型等等。以下实施例提供了一种继续对第一模型进行训练的方法。

图4为实施例提供的一种多方协同学习中的模型增强方法的流程示意图。多方包括服务器和多个数据方，服务器部署有第一模型，第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到。该方法通过增强系统中的增强单元执行，增强系统还包括服务器。在具体实施方式中，增强单元可以位于服务器中，也可以独立于服务器之外。该方法包括以下步骤S410～S420。

步骤S410，从服务器中的多组第一模型参数中，获取最后一次迭代得到的第二模型参数，即选择最新迭代得到的一组模型参数，后续的迭代训练将会在该组模型参数的基础上进行。例如，可以从图3所示的多组第一模型参数中，将最后一次迭代得到的第4组第一模型参数确定为第二模型参数。

步骤S420，对第二模型参数进行压缩，以使基于压缩后的第二模型参数继续对第一模型进行协同学习。当确定第一模型存在泄漏训练样本隐私的风险时，可以认为第一模型的模型参数提取了不够泛化的特征。为了防止隐私泄露，可以对第一模型最后一次迭代得到的第二模型参数进行压缩，以去除不够泛化的特征。

在对第二模型参数进行压缩时，可以对第二模型参数进行梯度降维，或进行随机失活(dropout)处理。

本实施例中，当确定第一模型存在泄漏训练样本隐私的风险时，可以对第二模型参数进行压缩处理，去除其中不够泛化的特征，在此基础上继续对第一模型进行训练，能够达到隐私增强的效果，尽可能防止隐私泄露。

上述内容对本说明书的特定实施例进行了描述，其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行，并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的，或者可能是有利的。

图5为实施例提供的一种多方协同学习中的隐私泄露风险检测装置的示意性框图。多方包括服务器和多个数据方，服务器部署有第一模型，第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到。任意一个数据方可以通过任何具有计算、处理能力的设备、平台或设备集群来实现。该装置500部署在检测系统中的检测单元中，检测系统还包括服务器或者任意一个数据方。检测单元通过任何具有计算、处理能力的设备、平台或设备集群来实现。该装置实施例与图2所示方法实施例相对应。装置500 包括：

获取模块510，配置为，获取所述服务器基于对所述第一模型的多次迭代训练对应得到的多组第一模型参数；

差值模块520，配置为，基于多组第一模型参数之间对应参数的差值，确定模型参数梯度向量；

拼接模块530，配置为，将本地样本的样本特征向量与所述模型参数梯度向量进行拼接，得到本地更新样本；所述本地样本与多个数据方中的训练样本为同构数据；

测试模块540，配置为，采用所述本地更新样本训练第二模型，采用预设的测试集确定训练后的第二模型的第一预测性能值；

确定模块550，配置为，当所述第一预测性能值大于预设阈值时，确定所述第一模型存在泄露训练样本隐私的风险。

在一种具体实施方式中，差值模块520具体配置为：

按照迭代顺序，对多组第一模型参数进行排序；

在一种具体实施方式中，拼接模块530具体配置为，将所述模型参数梯度向量添加至本地样本的样本特征向量中的指定位置处。

在一种具体实施方式中，所述本地样本的数目为多个，所述模型参数梯度向量的数目为一个；拼接模块530具体配置为，将所述模型参数梯度向量，分别与多个本地样本的样本特征向量进行拼接，得到多个本地更新样本。

拼接模块530具体配置为，将第二数目个模型参数梯度向量随机分配至第一数目个本地样本，针对多个本地样本中的任意一个本地样本，将该本地样本的样本特征向量与为其分配的模型参数梯度向量进行拼接。

在一种具体实施方式中，所述本地样本具有样本标签；拼接模块530具体配置为，将本地样本的样本特征向量与所述模型参数梯度向量进行拼接，得到更新后的样本特征向量，将本地样本的样本标签与更新后的样本特征向量作为本地更新样本。

在一种具体实施方式中，测试模块540，采用预设的测试集确定训练后的第二模型的第一预测性能值时，包括：

图6为实施例提供的一种多方协同学习中的模型增强装置的示意性框图。多方包括服务器和多个数据方，服务器部署有第一模型，第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到。任意一个数据方可以通过任何具有计算、处理能力的设备、平台或设备集群来实现。该装置600部署在增强系统中的增强单元中，增强系统还包括服务器。增强单元可以通过任何具有计算、处理能力的设备、平台或设备集群来实现。该装置实施例与图4所示方法实施例相对应。所述装置600包括：

选取模块610，配置为，当采用图2所示的方法确定第一模型存在泄露训练样本隐私的风险时，从所述服务器中的多组第一模型参数中，获取最后一次迭代得到的第二模型参数；

压缩模块620，配置为，对所述第二模型参数进行压缩，以使基于压缩后的第二模型参数继续对所述第一模型进行协同学习。

在一种具体实施方式中，压缩模块620具体配置为，对所述第二模型参数进行梯度降维，或进行随机失活处理。

上述装置实施例与方法实施例相对应，具体说明可以参见方法实施例部分的描述，此处不再赘述。装置实施例是基于对应的方法实施例得到，与对应的方法实施例具有同样的技术效果，具体说明可参见对应的方法实施例。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行图1至图4任一项所述的方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现图1至图4任一项所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于存储介质和计算设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种多方协同学习中的隐私泄露风险检测方法，所述多方包括服务器和多个数据方，所述服务器部署有第一模型，所述第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到；所述方法通过检测系统中的检测单元执行，所述检测系统还包括所述服务器或者任意一个数据方，所述方法包括：

2.根据权利要求1所述的方法，所述基于多组第一模型参数之间对应参数的差值，确定模型参数向量的步骤，包括：

按照迭代顺序，对多组第一模型参数进行排序；

3.根据权利要求1所述的方法，所述将本地样本的样本特征向量与所述模型参数梯度向量进行拼接的步骤，包括：

将所述模型参数梯度向量添加至本地样本的样本特征向量中的指定位置处。

4.根据权利要求1所述的方法，所述本地样本的数目为多个，所述模型参数梯度向量的数目为一个；

5.根据权利要求1所述的方法，所述本地样本的数目为第一数目，所述模型参数梯度向量的数目为第二数目，所述第一数目和所述第二数目均大于1；

6.根据权利要求1所述的方法，所述本地样本具有样本标签；所述将本地样本的样本特征向量与所述模型参数梯度向量进行拼接的步骤，包括，将本地样本的样本特征向量与所述模型参数梯度向量进行拼接，得到更新后的样本特征向量，将本地样本的样本标签与更新后的样本特征向量作为本地更新样本。

7.根据权利要求1所述的方法，所述采用预设的测试集确定训练后的第二模型的第一预测性能值的步骤，包括：

8.根据权利要求1所述的方法，其中，第二预测性能值不大于所述预设阈值；所述第二预测性能值基于采用预设的测试集对训练前的第二模型进行测试得到。

9.根据权利要求1所述的方法，其中，所述检测单元位于所述服务器中，或者，所述检测单元位于所述任意一个数据方中。

10.一种多方协同学习中的模型增强方法，所述多方包括服务器和多个数据方，所述服务器部署有第一模型，所述第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到；所述方法通过增强系统中的增强单元执行，所述增强系统还包括所述服务器，所述方法包括：

当采用权利要求1所述的方法确定所述第一模型存在泄露训练样本隐私的风险时，从所述服务器中的多组第一模型参数中，获取最后一次迭代得到的第二模型参数；

11.根据权利要求10所述的方法，所述对所述第二模型参数进行压缩的步骤，包括，对所述第二模型参数进行梯度降维，或进行随机失活处理。

12.一种多方协同学习中的隐私泄露风险检测装置，所述多方包括服务器和多个数据方，所述服务器部署有第一模型，所述第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到；所述装置部署在检测系统中的检测单元中，所述检测系统还包括所述服务器或者任意一个数据方，所述装置包括：

13.根据权利要求12所述的装置，所述差值模块，具体配置为：

按照迭代顺序，对多组第一模型参数进行排序；

14.根据权利要求12所述的装置，所述拼接模块，具体配置为，将所述模型参数梯度向量添加至本地样本的样本特征向量中的指定位置处。

15.根据权利要求12所述的装置，所述本地样本的数目为多个，所述模型参数梯度向量的数目为一个；

16.根据权利要求12所述的装置，所述本地样本的数目为第一数目，所述模型参数梯度向量的数目为第二数目，所述第一数目和所述第二数目均大于1；

17.根据权利要求12所述的装置，所述本地样本具有样本标签；所述拼接模块，具体配置为，将本地样本的样本特征向量与所述模型参数梯度向量进行拼接，得到更新后的样本特征向量，将本地样本的样本标签与更新后的样本特征向量作为本地更新样本。

18.根据权利要求12所述的装置，所述测试模块，采用预设的测试集确定训练后的第二模型的第一预测性能值时，包括：

19.根据权利要求12所述的装置，其中，第二预测性能值不大于所述预设阈值；所述第二预测性能值基于采用预设的测试集对训练前的第二模型进行测试得到。

20.根据权利要求12所述的装置，其中，所述检测单元位于所述服务器中，或者，所述检测单元位于所述任意一个数据方中。

21.一种多方协同学习中的模型增强装置，所述多方包括服务器和多个数据方，所述服务器部署有第一模型，所述第一模型的第一模型参数通过对多个数据方各自存储的训练样本进行协同学习得到；所述装置部署在增强系统中的增强单元中，所述增强系统还包括所述服务器，所述装置包括：

选取模块，配置为，当采用权利要求1所述的方法确定所述第一模型存在泄露训练样本隐私的风险时，从所述服务器中的多组第一模型参数中，获取最后一次迭代得到的第二模型参数；

22.根据权利要求21所述的装置，所述压缩模块，具体配置为，对所述第二模型参数进行梯度降维，或进行随机失活处理。

23.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1至11中任一项所述的方法。

24.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1至11中任一项所述的方法。