CN111177792B

CN111177792B - 基于隐私保护确定目标业务模型的方法及装置

Info

Publication number: CN111177792B
Application number: CN202010276685.8A
Authority: CN
Inventors: 熊涛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-06-30
Anticipated expiration: 2040-04-10
Also published as: TW202139045A; CN113515770B; WO2021204272A1; TWI769754B; CN113515770A; CN111177792A

Abstract

本说明书实施例提供一种基于隐私保护确定目标业务模型的方法和装置，先对选定的复杂业务模型进行初始训练，得到初始业务模型，然后对初始业务模型进行修剪，并对修剪后的业务模型在参数重置回初始化状态的情形下进行训练，以考验修剪掉的模型参数是否自始不重要。对于得到的多个子模型，通过差分隐私的方式，从中选择目标业务模型。这样，可以获取隐私保护的压缩模型，在实现模型压缩的基础上，为模型提供隐私保护。

Description

基于隐私保护确定目标业务模型的方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及通过计算机基于隐私保护确定目标业务模型的方法和装置。

背景技术

随着机器学习技术的发展，深度神经网络(Deep Neural Network，DNN)由于模仿人脑的思考方式，比简单的线性模型有更好的效果，而受到本领域技术人员的青睐。深度神经网络是一种具备至少一个隐层的神经网络，能够为复杂非线性系统建模，提高模型能力。

深度神经网络由于复杂的网络结构，特征和模型参数体系也非常大。例如，一个深度神经网络可以包括高达数百万个参数。因此，希望寻求模型压缩的方法，减少模型的数据量和复杂度。为此，常规技术中通常利用训练样本调整深度神经网络中的数百万个参数，然后删除或“修剪”不必要的权重，以将网络结构缩减到更易于管理的大小。减小模型尺寸有助于最大程度地减小其内存、推理和计算需求。在一些业务场景中，神经网络中的许多权重有时可以被削减多达99%，从而产生更小、更稀疏的网络。

然而，这种训练完成之后又删减的方式，需要较高的计算成本，进行了大量“无效”计算。于是设想在原始神经网络的子网络中寻找一个尽可能满足要求的网络进行训练。同时，常规技术中，较简单的神经网络更易于获取原始数据。为此，需要提供一种方法，即能够保护数据的隐私，又可以压缩模型的大小来实现实时计算和端上部署，从多方面提高模型的性能。

发明内容

本说明书一个或多个实施例描述了一种基于隐私保护确定目标业务模型的方法及装置，用以解决背景技术提到的一个或多个问题。

根据第一方面，提供了一种基于隐私保护确定目标业务模型的方法，所述目标业务模型用于处理给定的业务数据，得到相应的业务预测结果；所述方法包括：按照预定方式为选定的业务模型确定各个模型参数分别对应的初始值，从而初始化所述选定的业务模型；使用多个训练样本训练经过初始化的所述选定的业务模型至模型参数收敛，得到初始业务模型；基于对所述初始业务模型的修剪，确定所述初始业务模型的多个子模型，其中，各个子模型各自对应有通过以下方式重新训练确定的模型参数以及模型指标：将修剪后的业务模型的模型参数重置为初始化的业务模型中的相应模型参数的初始值；将多个训练样本依次输入修剪后的业务模型，并基于相应样本标签与修剪后的业务模型的输出结果的对比，调整模型参数；基于各个子模型各自对应的模型指标，利用差分隐私的第一方式从各个子模型中选择出目标业务模型。

在一个实施例中，所述基于对所述初始业务模型的修剪，确定所述初始业务模型的多个子模型包括：按照所述初始业务模型的模型参数，对所述初始业务模型进行修剪，得到第一修剪模型；将对应有经过重新训练得到的模型参数的第一修剪模型，作为第一子模型；迭代修剪所述第一子模型得到后续子模型，直至满足结束条件。

在一个实施例中，所述结束条件包括，迭代次数达到预定次数、子模型数量达到预定数量、最后一个子模型的规模小于设定的规模阈值中的至少一项。

在一个实施例中，对模型的修剪基于以下之一的方式，按照模型参数由小到大的顺序进行：修剪掉预定比例的模型参数、修剪掉预定数量的模型参数、修剪得到规模不超过预定大小的模型。

在一个实施例中，所述差分隐私的第一方式为指数机制，所述基于各个子模型各自对应的模型指标，利用差分隐私的第一方式从各个子模型中选择出目标业务模型包括：按照各个子模型各自对应的模型指标，确定各个子模型分别对应的各个可用性系数；根据各个可用性系数，利用指数机制确定各个子模型分别对应的各个采样概率；按照各个采样概率在所述多个子模型中采样，将被采样到的子模型作为目标业务模型。

在一个实施例中，所述方法还包括：利用多个训练样本对所述目标业务模型基于差分隐私的第二方式进行训练，使得训练后的目标业务模型用于针对给定的业务数据进行保护数据隐私的业务预测。

在一个实施例中，所述多个训练样本包括第一批样本，所述第一批样本中的样本i对应有经所述目标业务模型处理后得到的损失，所述利用多个训练样本对所述目标业务模型基于差分隐私的第二方式进行训练包括：确定所述样本i对应的损失的原始梯度；利用所述差分隐私的第二方式在所述原始梯度上添加噪声，得到包含噪声的梯度；利用所述包含噪声的梯度，以最小化所述样本i对应的损失为目标，调整所述目标业务模型的模型参数。

在一个实施例中，所述差分隐私的第二方式为添加高斯噪声，所述利用所述差分隐私的第二方式在所述原始梯度上添加噪声，得到包含噪声的梯度包括：基于预设的裁剪阈值，对所述原始梯度进行裁剪，得到裁剪梯度；利用基于所述裁剪阈值确定的高斯分布，确定用于实现差分隐私的高斯噪声，其中，所述高斯分布的方差与所述裁剪阈值的平方正相关；将所述高斯噪声与所述裁剪梯度叠加，得到所述包含噪声的梯度。

在一个实施例中，所述业务数据包括图片、音频、字符中的至少一项。

根据第二方面，提供了一种基于隐私保护确定目标业务模型的装置，所述目标业务模型用于处理给定的业务数据，得到相应的业务预测结果；所述装置包括：

初始化单元，配置为按照预定方式为选定的业务模型确定各个模型参数分别对应的初始值，从而初始化所述选定的业务模型；

初始训练单元，配置为使用多个训练样本训练经过初始化的所述选定的业务模型至模型参数收敛，得到初始业务模型；

修剪单元，配置为基于对所述初始业务模型的修剪，确定所述初始业务模型的多个子模型，其中，各个子模型各自对应有通过所述初始化单元以下和所述初始训练单元重新训练确定的模型参数以及模型指标：所述初始化单元将修剪后的业务模型的模型参数重置为初始化的业务模型中的相应模型参数的初始值；所述初始训练单元将多个训练样本依次输入修剪后的业务模型，并基于相应样本标签与修剪后的业务模型的输出结果的对比，调整模型参数；

确定单元，配置为基于各个子模型各自对应的模型指标，利用差分隐私的第一方式从各个子模型中选择出目标业务模型。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，先对选定的复杂业务模型进行初始训练，得到初始业务模型，然后对初始业务模型进行修剪，并对修剪后的业务模型在参数重置回初始化状态的情形下进行训练，以考验修剪掉的模型参数是否自始不重要。对于得到的多个子模型，通过差分隐私的方式，从中选择目标业务模型。这样，可以获取隐私保护的压缩模型，在实现模型压缩的基础上，为模型提供隐私保护。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出本说明书技术构思中基于隐私保护确定目标业务模型的实施架构示意图；

图2示出一个具体例子中基于对初始神经网络的修剪确定多个子网络的流程；

图3示出根据一个实施例的基于隐私保护确定目标业务模型的方法流程图；

图4示出一个具体例子的对神经网络修剪的示意图；

图5示出根据一个实施例的基于隐私保护确定目标业务模型的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1示出了根据本说明书技术构思的一个实施架构示意图。本说明书的技术构思下，业务模型可以是用于对业务数据进行诸如分类、打分等各种业务处理的机器学习模型。图1示出的业务模型通过神经网络实现，实践中，还可以通过其他方式实现，例如决策树、线性回归等等。业务数据可以是字符、音频、图像、动画等多种方式中的额至少一种，根据具体的业务场景确定，在此不作限定。

例如，业务模型可以是用于借贷平台辅助评估用户借贷业务风险度的机器学习模型，针对的业务数据可以是单个用户的历史借贷行为数据、违约数据、用户画像等等，业务预测结果为用户的风险分数。再例如，业务模型也可以是用于对图片上的目标进行分类的模型（如卷积神经网络），针对的业务数据可以是各种图片，业务预测结果例如可以是第一目标（如小汽车）、第二目标（自行车）、其他类别等。

特别地，本说明书实施架构尤其适用于业务模型是较复杂的非线性模型的情况。基于隐私保护确定目标业务模型的过程可以是从复杂的初始业务模型中确定出模型指标符合要求的精简子模型的过程。

以业务模型为神经网络为例，如图1所示，初始神经网络可以是较复杂的神经网络，该神经网络中可以包括较多的特征、权重参数、其他参数（如常数参数、辅助矩阵）等。初始神经网络的模型参数可以通过预定方式初始化，例如随机初始化、设定为预定值等。在该实施架构下，首先经过多个训练样本对初始神经网络进行训练，至初始神经网络的模型参数（或者损失函数）收敛。之后，对初始神经网络进行修剪，得到多个子网络。在对神经网络修剪过程中，可以按照预定参数比例（如20%）、预定参数数量（如1000个）、预定规模（如至少20兆字节）等等方式进行。

常规技术中，对初始神经网络的修剪得到的子网络通常采用继续训练、在其基础上再次修剪、继续训练这样的方式进行。也就是说，是对初始神经网络一步步压缩的过程。而在本说明书实施例的构思下，在对初始神经网络进行修剪之后，将修剪得到的子网络进行参数重置（恢复初始化状态），并对重置参数后的修剪网络进行训练。这样做的目的是可以检验被修剪掉的神经网络结构是否自始不需要。这种是否自始不需要的结论可以通过模型的评价指标，例如准确度、召回率、收敛性等进行体现。

值得说明的是，神经网络的修剪可以包括去除神经网络中的一部分神经元以及/或者去除神经元中的一部分连接关系的过程。在可选的实现方式中，舍弃哪些神经元，可以以神经元对应的权重参数作为参考。权重参数描述出神经元的重要度，以全连接神经网络为例，可以将一个神经元到映射到下一层的各个神经元分别对应的各个权重求平均，或者取最大值，得到参考权重。进一步按照各个神经元的参考权重由小到大的顺序进行舍弃（修剪）。

如图2所示，给出了本说明书实施架构下一个具体例子的子网络修剪流程。在图2中，对于修剪之后的剩余部分的神经网络，将模型参数重置到初始化状态，利用训练样本对其重新训练，得到第一子网络。同时，可以将第一子网络的网络结构、评价指标等记录下来。然后，如左侧箭头所示，进入修剪模型的步骤开始循环。按照训练好的第一子网络中的模型参数，对第一子网络进行修剪，并针对修剪后的神经网络，将其模型参数重置到初始化状态，利用训练样本对其重新训练，作为第二子网络。继续沿左侧箭头循环，以此类推，直至得到满足结束条件的第N子网络。其中，这里的结束条件例如可以是，迭代次数达到预定次数（如预设次数N）、子模型数量达到预定数量（如预设数量N）、最后一个子模型的规模小于设定的规模阈值（如100兆字节等）等等中的至少一项。

如此，可以得到初始神经网络的多个子网络。在一些可选的实施方式中，图2左侧的箭头可以回到最上端，也就是得到第一子网络后，重新初始化最初的神经网络，训练该重新初始化的神经网络，并进行修剪，对修剪后的子网络进行训练，作为第二子网络，以此类推，直至得到第N子网络。其中，各个子网络可以具有不同的规模，例如第一子网络为初始神经网络的80%，第二子网络为初始神经网络的60%，等等。在这种方式下，每次初始化神经网络时，还可以进行一些随机化，也就是说每次在特征或者神经元上进行随机采样，舍弃一小部分（如1%）特征及初始化参数，以对初始的神经网络造成小的扰动，在保证每次的初始化神经网络都和最初的神经网络一致的情况下，具有小差别，以考验不同的神经元作用。

继续参考图1所示。针对各个子网络，可以从中选择出一个子网络作为目标神经网络。根据一个实施例，为了保护数据隐私，可以将修剪得到的各个子网络看作初始神经网络的子网络集，基于差分隐私原理，随机选择出一个子网络作为目标神经网络。这样通过差分隐私的方式，基于隐私保护确定目标业务模型，可以更好地保护业务模型和/或业务数据隐私，提高目标神经网络的实用性。

可以理解的是，图1示出的实施架构以业务模型是神经网络为例，当业务模型是其他机器学习模型时，以上描述中的神经元也可以换做其他模型元素，例如业务模型是决策树时，神经元可以换成决策树中的树节点，等等。

目标神经网络用于针对业务数据进行业务预测，得到相应的业务预测结果。例如，根据图片数据，得到识别到的目标类别的业务预测结果，根据用户行为数据，得到用户的金融借贷风险性的业务预测结果，等等。

下面详细描述基于隐私保护确定目标业务模型的具体流程。

图3示出一个实施例的基于隐私保护确定目标业务模型的流程。其中，这里的业务模型可以是用于针对给定的业务数据，进行诸如分类、打分等业务处理的模型。这里的业务数据可以是文字、图像、语音、视频、动画等各种类型的数据。该流程的执行主体可以是具有一定计算能力的系统、设备、装置、平台或服务器。

如图3所示，基于隐私保护确定目标业务模型的方法可以包括以下步骤：步骤301，按照预定方式为选定的业务模型确定各个模型参数分别对应的初始值，从而初始化选定的业务模型；步骤302，使用多个训练样本训练经过初始化的业务模型至模型参数收敛，得到初始业务模型；步骤303，基于对初始业务模型的修剪，确定初始业务模型的多个子模型，其中，各个子模型各自对应有通过以下方式重新训练确定的模型参数以及模型指标：将修剪后的业务模型的模型参数重置为初始化的业务模型中的相应模型参数的初始值；将多个训练样本依次输入修剪后的业务模型，并基于相应样本标签与修剪后的业务模型的输出结果的对比，调整模型参数；步骤304，基于各个子模型各自对应的模型指标，利用差分隐私的第一方式从各个子模型中选择出目标业务模型。

首先，在步骤301，按照预定方式为选定的业务模型确定各个模型参数分别对应的初始值，从而初始化选定的业务模型。

可以理解，对于选定的业务模型，为了能够训练模型，首先需要对模型参数进行初始化。也就是为各个模型参数确定初始值。在选定的业务模型是神经网络时，模型参数例如可以是各个神经元的权重、常数参数、辅助矩阵等等中的至少一项。在选定的业务模型是决策树时，模型参数例如是各个节点的权重参数、节点之间的连接关系及连接权重等等。在选定的业务模型是其他形式的机器学习模型时，模型参数还可以是其他参数，在此不再一一例举。

这些模型参数的初始值可以按照预定方式确定，例如完全随机取值、在预设区间内随机取值、赋予设定值等等。有了这些初始值，当接收到业务数据，或者根据业务数据提取的相关特征时，业务模型就可以给出相应业务预测结果，例如分类结果、打分结果等等。

接着，在步骤302中，使用多个训练样本训练经过初始化的业务模型至模型参数收敛，得到初始业务模型。

由于经过步骤301的模型参数初始化之后，一旦接收到业务数据，选定的业务模型可以按照相应逻辑运行，给出相应的业务预测结果，如此就可以利用训练样本对初始化的业务模型进行训练。各个训练样本可以对应有样本业务数据，以及对应的样本标签。对初始化的业务模型的训练过程例如可以是：依次将各条样本业务数据输入经过初始化的业务模型，根据业务模型输出的业务预测结果与相应业务标签的对比，调整模型参数。

经过一定数量的训练样本的调整之后，业务模型的每个模型参数变化将越来越小，直至趋近于某个值。也就是模型参数收敛。模型参数收敛可以通过各个模型参数的波动值来描述，也可以通过损失函数来描述。这是因为，损失函数通常是模型参数的函数，当损失函数收敛时，代表着模型参数收敛。例如当损失函数的最大变化值或者模型参数的波动小于预定阈值时，可以确定模型参数收敛。选定的业务模型完成当前阶段训练，得到的业务模型可以称为初始业务模型。

这里的初始业务模型训练过程可以采用任何合适的方式进行，在此不再赘述。

然后，在步骤303，基于对初始业务模型的修剪，确定初始业务模型的多个子模型。可以理解，为了从初始业务模型中获取可以代替初始业务模型的子模型，可以按照业务需求对初始业务模型进行修剪，从而得到多个初始模型的子模型。这些子模型又可以称为候选模型。

值得说明的是，对初始业务模型的修剪可以是在初始业务模型的基础上多次进行修剪，也可以是在修剪后的子模型基础上叠加修剪，如前文对图2示出的示例部分的描述，在此不再赘述。

对模型的修剪基于以下之一的方式，按照模型参数由小到大的顺序进行：修剪掉预定比例（如20%）的模型参数、修剪掉预定数量（如1000个）的模型参数、修剪得到规模不超过预定大小（如1000兆字节）的模型，等等。

可以理解，通常有至少一部分的模型参数，可以在一定程度上体现模型单元（如神经元、树节点等）的重要程度，例如权重参数。在对业务模型进行修剪时，为了减少参数数量，可以修剪模型单元，也可以修剪模型单元之间的连接关系。下面参考图4所示，以业务模型为神经网络，模型单元为神经元为例进行时说明。

一种实施例可以通过减少预定数量或预定比例的模型单元来实现对模型的修剪。例如，在神经网络的每个隐层修剪掉100个或10%的神经元。参考图4所示，由于神经元的重要度需要通过不同隐层的神经元之间的表达关系（图4中的连接线）对应的权重来描述，因此，可以利用权重参数的值来决定删除哪些神经元。图4示出的是一个神经网络中的部分隐层的示意。图4中，在第i隐层，假设虚线表示的神经元对应的与前一层神经元或向后一隐层神经元连接的连接线对应的权重参数都很小，那么这个神经元的重要度比较小，可以被修剪掉。

另一种实施例可以通过减少预定数量或预定比例的连接边来实现对模型的修剪。仍参考图4所示，对于神经网络中的各个连接边（如神经元X1和第i隐层的虚线表示的神经元之间的连接边），如果其对应的权重参数较小，则表明前一个神经元对应后一个神经元的重要度较低，可以将相应连接边删除。这样的网络结构不再是原始的全连接结构，而是前一隐层的各个神经元只对后一隐层相对重要的神经元起作用，后一隐层的各个神经元只关注对其重要性较高的前一隐层的神经元。这样，业务模型的规模也会变小。

在其他实施例中，还可以采用同时减少连接边和模型单元的方式实现模型的修剪，在此不再赘述。修剪模型单元、修剪连接关系都是模型修剪的具体手段，本说明书对具体手段不做限定。通过这样的修剪手段，可以实现修剪掉预定比例的模型参数、修剪掉预定数量的模型参数、修剪得到规模不超过预定大小的模型等等。

其中，具体修剪掉业务模型的多大一部分，可以根据预定的修剪规则或子模型的规模需求来确定。修剪规则例如可以为：子模型的规模为预定字节数（如1000兆字节）、子模型的规模为初始业务模型的预定比例（如70%）、修剪后的子模型规模与修剪前的模型规模成预定比例（如90%）、修剪掉权重小于预定权重阈值的连接边等等。总之，修剪后的模型可以放弃重要度低的模型单元或者连接边，保留重要度高的模型单元及连接边。

在获取子模型的过程中，一方面，剪切掉一部分后的初始业务模型的参数需要进一步调整，因此，需要对剪切后的模型进一步训练。另一方面，需要验证初始业务模型裁剪掉的部分是否自始不需要，因此，可以将修剪后的模型中的模型参数重置为初始化状态，并利用多个训练样本进行训练。训练后的模型记为初始业务模型的子模型。

可以理解的是，由于初始业务模型在被训练至收敛时停止，这样，在修剪掉其中一部分时，可能误删重要的模型单元，造成模型性能下降等问题。因此，在训练修剪后的模型时，得到的子模型性能是不确定的。例如，修剪掉一部分后的业务模型，如果误删了重要模型单元，可能会导致模型参数（或损失函数）不会收敛、收敛速度降低，或者模型准确度降低等。因此，还可以记录各个子模型在训练后相应的性能指标，例如准确度、模型大小、收敛性等等。

在本步骤303中，假设可以得到N个子模型。其中，N是一个正整数，其可以是预设的迭代次数（预定次数）、预设的子模型数量（预定数量），也可以是按照设定的修剪条件达到的数量。例如，在修剪后的子模型基础上叠加修剪的情况下，越后得到的子模型规模越小，修剪条件可以为最后得到的子模型规模小于预定的规模阈值（如100兆字节）。此时，可以在子模型规模小于预定规模时，结束修剪，得到的子模型数量N为实际得到的子模型数量。

接着，通过步骤304，基于各个子模型各自对应的模型指标，利用差分隐私的第一方式从各个子模型中选择出目标业务模型。

差分隐私（differential privacy）是密码学中的一种手段，旨在提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会。设有随机算法M，PM为M所有可能的输出构成的集合。对于任意两个邻近数据集D和D＇以及PM的任何子集SM，若随机算法M满足：Pr[M(D)∈SM]<=e^ε×Pr[M(D＇)∈SM]，则称算法M提供ε-差分隐私保护，其中参数ε称为隐私保护预算，用于平衡隐私保护程度和准确度。ε通常可以预先设定。ε越接近0，e^ε越接近1，随机算法对两个邻近数据集D和D＇的处理结果越接近，隐私保护程度越强。

在该步骤304中，相当于在压缩率和模型指标之间进行平衡。差分隐私的经典实现例如拉普拉斯机制、指数机制等。通常。拉普拉斯机制可以用于为数值添加噪声扰动，而对于数值扰动没有意义的情况，更适合采用指数机制。这里，从多个子模型中选择出一个子模型作为目标业务模型，由于是对子模型的选择，而非对子模型内部结构等进行处理，可以看作是对于数值扰动没有意义的情况，可以优选采用指数机制进行。

下面作为一个具体示例，详细介绍在差分隐私的第一方式为指数机制的情况下，如何利用差分隐私的第一方式从子模型中选择出目标业务模型的过程。

步骤303中确定的N个子模型可以看作N个实体对象，每个实体对象对应一个数值r_i，其中i的取值范围例如可以是1至N，各个数值r_i构成查询函数的输出值域R。这里旨在从值域R中选择一个r_i，将其对应的实体对象，即子模型作为目标业务模型。假设用D表示给定数据集（这里可以理解为训练样本集），在指数机制下，函数q（D，r_i）称为输出值r_i的可用性函数。

结合各个子模型，其可用性与模型指标密切相关。例如在模型指标包括相较于初始业务模型的压缩率、在测试样本集上的准确度的情况下，由于压缩率越大子模型的规模越小，准确度越高表明子模型越理想，因此，在一个具体例子中，可用性函数可以与相应子模型i的压缩率s_i、准确度z_i正相关。这里，可以将各个子模型分别对应的可用性函数的函数值记为相应子模型的可用性系数，例如：

q（D，r_i）=s_i×z_i

在其他具体例子中，模型指标可能包括召回率、F1分数等等，可用性函数也可以根据实际的模型指标具有其他合理表达，在此不再赘述。

在指数机制ε-差分隐私中，对于给定的隐私代价ε（预设的值，例如0.1），给定数据集D及可用性函数q（D，r），隐私保护机制A（D，q）在当且仅当下述表达式成立时，满足ε-差分隐私：

其中，

表示正比于。Δ_q可以为敏感因子，用于表示单一数据（上面的示例中的单个训练样本）的改变导致的可用性函数的最大改变值。这里，由于准确度和压缩率都在0到1之间取值，因此，单一数据改变时，q的最大改变为1，也就是说Δ_q取1。在其他实施例中，q的表达方式不同，Δ_q可以根据其他方式来确定，在此不作限定。

在一个具体例子中，隐私保护机制A可以为按照采样概率进行采样的机制，子模型i对应的采样概率可以记为

。例如，第i个子模型的采样概率可以为：

其中，j表示任一个子模型。这样，在对各个子模型进行采样的采样概率中引入差分隐私的指数机制，按照各个子模型对应的被采样到的采样概率，可以在值域R中采样（即在各个子模型中采样）。

采样时，根据一个具体例子，可以将0-1之间的数划分为与值域R中的数值个数（子模型数量）一致的子区间，每个子区间的长度与上述采样概率对应。当使用预先选定的随机算法生成0-1之间的一个随机数时，将随机数所在区间对应的值域R中的某个数值（对应一个子模型）作为采样到的目标值。该目标值对应的子模型可以作为目标业务模型。根据另一个具体例子，值域R为连续数值区间，可以按照采样概率划分为长度与相应子模型的采样概率正相关的子区间，则直接在至于R上随机取值，所取值落入的区间对应的子模型就可以作为目标业务模型。

可以理解的是，这里通过差分隐私中的指数机制，按照采样概率完成对子模型的采样，对从子模型中选择目标业务模型增加了随机性。由此，难以根据初始业务模型推测出子模型的具体结构，使得目标业务模型难以推测实现对目标业务模型和业务数据的隐私保护。

可以理解，在确定目标业务模型的过程中，各个子模型经过初步的训练，以从中挑选指出合适的子模型，作为最终的子模型，来避免对庞大的初始业务模型进行完全训练之后大量删除模型参数导致的大量计算。因此，所选择的目标业务模型可以进一步训练，以更好地用于针对给定的业务数据，进行业务预测，得到业务预测结果（例如评分结果、分类结果等）。

对目标业务模型的一个训练过程例如为：将各个训练样本输入选择出的目标业务模型，并根据输出结果和样本标签的对比，调整模型参数。

通常，输出结果和样本标签的对比，在输出结果为数值的情况下，可以通过诸如差值、差值的绝对值之类方式衡量损失，在输出结果为向量或多个数值的情况下，可以通过诸如方差、欧氏距离之类的方式衡量损失。在得到损失之后，可以以最小化损失为目标调整模型参数。该过程中还可以采用一些优化算法，以加快模型参数（或损失函数）的收敛速度。例如采用梯度下降法等优化算法。

根据一个可能的设计，为了进一步保护数据隐私，还可以通过在损失梯度中添加干扰噪声的方式，引入差分隐私的方法，调整模型参数，以基于隐私保护训练目标业务模型。此时，图3示出的流程还可以包括以下步骤：

步骤305，利用多个训练样本对目标业务模型基于差分隐私的第二方式进行训练，使得训练后的目标业务模型用于针对给定的业务数据进行业务预测。差分隐私的实现方式有很多，这里引入差分隐私的目的在于为数据添加噪声，例如可以通过高斯噪声、拉普拉斯噪声等方式实现，在此不做限定。

在一个实施方式中，针对输入目标业务模型的第一批样本，可以通过以下步骤调整模型参数：首先，确定第一批样本所对应的损失的原始梯度；接着向该原始梯度添加用于实现差分隐私的噪声，得到包含噪声的梯度；然后，利用包含噪声的梯度，调整目标业务模型的模型参数。可以理解，这里的第一批样本可以是一个训练样本，也可以是多个训练样本。在第一批样本包含多个训练样本的情况下，第一批样本对应的损失可以是多个训练样本对应的损失和、平均损失等。

作为一个示例，假设针对上述第一批样本，得到的第一原始梯度为：

其中，

表示当前为第

轮次的迭代训练，

表示第一批样本中的第

个样本，

表示第

轮中第

个样本的损失梯度，

表示第

轮训练开始时的模型参数，

表示第i个样本对应的损失函数。

如前所述，对上述原始梯度添加实现差分隐私的噪声，可以通过诸如拉普拉斯噪声、高斯噪声等方式实现。

在一个实施例中，以差分隐私的第二方式为高斯噪声为例，可以基于预设的裁剪阈值，对原始梯度进行梯度裁剪，得到裁剪梯度，再基于该裁剪阈值和预定的噪声缩放系数（预先设定的超参），确定用于实现差分隐私的高斯噪声，然后将裁剪梯度与高斯噪声融合（例如求和），得到包含噪声的梯度。可以理解的是，该第二方式一方面对原始梯度进行裁剪，另一方面将裁剪后的梯度叠加，从而对损失梯度进行满足高斯噪声的差分隐私处理。

例如，将原始梯度进行梯度裁剪为：

其中，

表示对第

轮中第

个样本裁剪后的梯度，

表示裁剪阈值，

表示

的二阶范数。也就是说，在梯度小于或等于裁剪阈值

的情况下，保留原始梯度，而梯度大于裁剪阈值

的情况下，将原始梯度按照大于裁剪阈值

的比例裁剪到相应大小。

为裁剪后的梯度添加高斯噪声，得到包含噪声的梯度，例如为：

其中，

表示第一批样本所包含的样本数量，

表示第

轮中

个样本对应的包含噪声的梯度；

表示概率密度符合以0为均值、

为方差的高斯分布的高斯噪声；

表示上述噪声缩放系数，为预先设定的超参，可以按需设定；

为上述裁剪阈值；

表示指示函数，可以取0或1，比如，可以设定在多轮训练中的偶数轮次取1，而奇数轮次取0。上式中，第一批样本包含多个训练样本时，包含噪声的梯度为对这多个训练样本的原始梯度裁剪后的平均裁剪梯度上叠加高斯噪声。当第一批样本仅包含一个训练样本时，上式中包含噪声的梯度为对该训练样本的原始梯度裁剪后叠加高斯噪声。

于是，使用添加高斯噪声后的梯度，仍以最小化所述样本i对应的损失为目标，模型参数可以按照以下方式调整为：

其中，

表示第

轮的学习步长，或者说学习率，为预先设定的超参数，例如为0.5、0.3等；

表示经过第

轮（包含第一批样本）训练得到的调整后模型参数。在梯度添加高斯噪声满足差分隐私的情况下，模型参数的调整满足差分隐私。

据此，经过多轮迭代训练后，可以得到基于差分隐私的目标业务模型。由于模型训练过程中加入了高斯噪声，因此，难以从目标业务模型所呈现出来的数据推测模型结构或者反推业务数据，如此，可以进一步提高隐私数据保护的有效性。

训练后的目标业务模型可以用于，针对给定的业务数据，进行相应业务预测。这里的业务数据是和训练样本类型一致的业务数据，例如用户的金融相关数据，可以通过目标业务模型进行用户借贷风险性预测

回顾以上过程，本说明书实施例提供的基于隐私保护确定目标业务模型的方法，先对选定的复杂业务模型进行初始训练，得到初始业务模型，然后对初始业务模型进行修剪，并对修剪后的业务模型在参数重置回初始化状态的情形下进行训练，以考验修剪掉的模型参数是否自始不重要。对于得到的多个子模型，通过差分隐私的方式，从中选择目标业务模型。这样，可以获取隐私保护的压缩模型，在实现模型压缩的基础上，为模型提供隐私保护。

根据另一方面的实施例，还提供一种基于隐私保护确定目标业务模型的装置。其中，这里的业务模型可以是用于针对给定的业务数据，进行诸如分类、打分等业务处理的模型。这里的业务数据可以是文字、图像、语音、视频、动画等各种类型的数据。该装置可以设置于具有一定计算能力的系统、设备、装置、平台或服务器。

图5示出根据一个实施例的基于隐私保护确定目标业务模型的装置的示意性框图。如图5所示，装置500包括：

初始化单元51，配置为按照预定方式为选定的业务模型确定各个模型参数分别对应的初始值，从而初始化选定的业务模型；

初始训练单元52，配置为使用多个训练样本训练经过初始化的选定的业务模型至模型参数收敛，得到初始业务模型；

修剪单元53，配置为基于对初始业务模型的修剪，确定初始业务模型的多个子模型，其中，各个子模型各自对应有通过初始化单元51和初始训练单元52重新训练确定的模型参数以及模型指标：初始化单元51将修剪后的业务模型的模型参数重置为初始化的业务模型中的相应模型参数的初始值；初始训练单元52将多个训练样本依次输入修剪后的业务模型，并基于相应样本标签与修剪后的业务模型的输出结果的对比，调整模型参数；

确定单元54，配置为基于各个子模型各自对应的模型指标，利用差分隐私的第一方式从各个子模型中选择出目标业务模型。

根据一个实施方式，修剪单元53进一步可以配置为：

按照初始业务模型的模型参数，对初始业务模型进行修剪，得到第一修剪模型；

将对应有经过重新训练得到的模型参数的第一修剪模型，作为第一子模型；

迭代修剪第一子模型得到后续子模型，直至满足结束条件。

在一个实施例中，上述结束条件可以包括，迭代次数达到预定次数、子模型数量达到预定数量、最后一个子模型的规模小于设定的规模阈值等等中的至少一项。

在一个可选的实现方式中，修剪单元53对模型的修剪基于以下之一的方式，按照模型参数由小到大的顺序进行：修剪掉预定比例的模型参数、修剪掉预定数量的模型参数、修剪得到规模不超过预定大小的模型，等等。

根据一个可能的设计，差分隐私的第一方式为指数机制，确定单元54进一步可以配置为：

按照各个子模型各自对应的模型指标，确定各个子模型分别对应的各个可用性系数；

根据各个可用性系数，利用指数机制确定各个子模型分别对应的各个采样概率；

按照各个采样概率在多个子模型中采样，将被采样到的子模型作为目标业务模型。

在一个实施方式中，装置500还可以包括隐私训练单元55，配置为：

利用多个训练样本对目标业务模型基于差分隐私的第二方式进行训练，使得训练后的目标业务模型用于针对给定的业务数据进行保护数据隐私的业务预测。

在一个进一步的实施例中，多个训练样本包括第一批样本，第一批样本中的样本i对应有经目标业务模型处理后得到的损失，隐私训练单元55进一步配置为：

确定样本i对应的损失的原始梯度；

利用差分隐私的第二方式在原始梯度上添加噪声，得到包含噪声的梯度；

利用包含噪声的梯度，以最小化样本i对应的损失为目标，调整目标业务模型的模型参数。

在一个更进一步的实施例中，差分隐私的第二方式为添加高斯噪声，隐私训练单元55还可以配置为：

基于预设的裁剪阈值，对原始梯度进行裁剪，得到裁剪梯度；

利用基于裁剪阈值确定的高斯分布，确定用于实现差分隐私的高斯噪声，其中，高斯分布的方差与裁剪阈值的平方正相关；

将高斯噪声与裁剪梯度叠加，得到包含噪声的梯度。

值得说明的是，图5所示的装置500是与图3示出的方法实施例相对应的装置实施例，图3示出的方法实施例中的相应描述同样适用于装置500，在此不再赘述。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种基于隐私保护确定目标业务模型的方法，所述目标业务模型用于处理给定的业务数据，得到相应的业务预测结果；所述方法包括：

按照预定方式为选定的业务模型确定各个模型参数分别对应的初始值，从而初始化所述选定的业务模型；

使用多个训练样本训练经过初始化的所述选定的业务模型至模型参数收敛，得到初始业务模型；

基于对所述初始业务模型的修剪，确定所述初始业务模型的多个子模型，其中，各个子模型各自对应有通过以下方式重新训练确定的模型参数以及模型指标：将修剪后的业务模型的模型参数重置为初始化的业务模型中的相应模型参数的初始值；将多个训练样本依次输入修剪后的业务模型，并基于相应样本标签与修剪后的业务模型的输出结果的对比，调整模型参数；

基于各个子模型各自对应的模型指标，利用差分隐私的第一方式从各个子模型中选择出目标业务模型，其中，在所述差分隐私的第一方式为指数机制的情况下：按照各个子模型各自对应的模型指标，确定各个子模型分别对应的各个可用性系数；根据各个可用性系数，利用指数机制确定各个子模型分别对应的各个采样概率；按照各个采样概率在所述多个子模型中采样，将被采样到的子模型作为目标业务模型。

2.根据权利要求1所述的方法，其中，所述基于对所述初始业务模型的修剪，确定所述初始业务模型的多个子模型包括：

按照所述初始业务模型的模型参数，对所述初始业务模型进行修剪，得到第一修剪模型；

迭代修剪所述第一子模型得到后续子模型，直至满足结束条件。

3.根据权利要求2所述的方法，所述结束条件包括，迭代次数达到预定次数、子模型数量达到预定数量、最后一个子模型的规模小于设定的规模阈值中的至少一项。

4.根据权利要求1或2所述的方法，其中，对模型的修剪基于以下之一的方式，按照模型参数由小到大的顺序进行：修剪掉预定比例的模型参数、修剪掉预定数量的模型参数、修剪得到规模不超过预定大小的模型。

5.根据权利要求1所述的方法，其中，所述方法还包括：

利用多个训练样本对所述目标业务模型基于差分隐私的第二方式进行训练，使得训练后的目标业务模型用于针对给定的业务数据进行保护数据隐私的业务预测。

6.根据权利要求5所述的方法，其中，所述多个训练样本包括第一批样本，所述第一批样本中的样本i对应有经所述目标业务模型处理后得到的损失，所述利用多个训练样本对所述目标业务模型基于差分隐私的第二方式进行训练包括：

确定所述样本i对应的损失的原始梯度；

利用所述差分隐私的第二方式在所述原始梯度上添加噪声，得到包含噪声的梯度；

利用所述包含噪声的梯度，以最小化所述样本i对应的损失为目标，调整所述目标业务模型的模型参数。

7.根据权利要求6所述的方法，其中，所述差分隐私的第二方式为添加高斯噪声，所述利用所述差分隐私的第二方式在所述原始梯度上添加噪声，得到包含噪声的梯度包括：

基于预设的裁剪阈值，对所述原始梯度进行裁剪，得到裁剪梯度；

利用基于所述裁剪阈值确定的高斯分布，确定用于实现差分隐私的高斯噪声，其中，所述高斯分布的方差与所述裁剪阈值的平方正相关；

将所述高斯噪声与所述裁剪梯度叠加，得到所述包含噪声的梯度。

8.根据权利要求1所述的方法，其中，所述业务数据包括图片、音频、字符中的至少一项。

9.一种基于隐私保护确定目标业务模型的装置，所述目标业务模型用于处理给定的业务数据，得到相应的业务预测结果；所述装置包括：

修剪单元，配置为基于对所述初始业务模型的修剪，确定所述初始业务模型的多个子模型，其中，各个子模型各自对应有通过所述初始化单元和所述初始训练单元重新训练确定的模型参数以及模型指标：所述初始化单元将修剪后的业务模型的模型参数重置为初始化的业务模型中的相应模型参数的初始值；所述初始训练单元将多个训练样本依次输入修剪后的业务模型，并基于相应样本标签与修剪后的业务模型的输出结果的对比，调整模型参数；

确定单元，配置为基于各个子模型各自对应的模型指标，利用差分隐私的第一方式从各个子模型中选择出目标业务模型，其中，在所述差分隐私的第一方式为指数机制的情况下，所述确定单元配置为：按照各个子模型各自对应的模型指标，确定各个子模型分别对应的各个可用性系数；根据各个可用性系数，利用指数机制确定各个子模型分别对应的各个采样概率；按照各个采样概率在所述多个子模型中采样，将被采样到的子模型作为目标业务模型。

10.根据权利要求9所述的装置，其中，所述修剪单元进一步配置为：

11.根据权利要求10所述的装置，所述结束条件包括，迭代次数达到预定次数、子模型数量达到预定数量、最后一个子模型的规模小于设定的规模阈值中的至少一项。

12.根据权利要求9或10所述的装置，其中，所述修剪单元对模型的修剪基于以下之一的方式，按照模型参数由小到大的顺序进行：修剪掉预定比例的模型参数、修剪掉预定数量的模型参数、修剪得到规模不超过预定大小的模型。

13.根据权利要求9所述的装置，其中，所述装置还包括隐私训练单元，配置为：

14.根据权利要求13所述的装置，其中，所述多个训练样本包括第一批样本，所述第一批样本中的样本i对应有经所述目标业务模型处理后得到的损失，所述隐私训练单元进一步配置为：

确定所述样本i对应的损失的原始梯度；

15.根据权利要求14所述的装置，其中，所述差分隐私的第二方式为添加高斯噪声，所述隐私训练单元进一步配置为：

16.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。

17.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。