CN111523668B

CN111523668B - 基于差分隐私的数据生成系统的训练方法及装置

Info

Publication number: CN111523668B
Application number: CN202010373419.7A
Authority: CN
Inventors: 熊涛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2021-08-20
Anticipated expiration: 2040-05-06
Also published as: TW202143118A; CN111523668A; TWI761151B; WO2021223663A1; CN113642731A

Abstract

本说明书实施例提供一种基于差分隐私的数据生成系统的训练方法和装置，该数据生成系统包括自编码网络和判别器，方法包括，将真实样本输入自编码网络，得到复原样本；根据真实样本和复原样本的比对，确定样本重构损失。此外，通过自编码网络生成合成样本。将真实样本和合成样本分别输入判别器，得到其分别属于真实样本的第一概率和第二概率。针对判别器，以减小第一损失为目标，以差分隐私的方式在梯度上添加噪声，以调整判别器参数，其中第一损失负相关于第一概率，正相关于第二概率。针对自编码网络，以减小第二损失为目标，在梯度上添加噪声，以调整自编码网络参数，其中第二损失与样本重构损失正相关，与第一损失负相关。

Description

基于差分隐私的数据生成系统的训练方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及通过计算机执行的基于差分隐私的数据生成系统的训练方法和装置。

背景技术

随着计算机技术的发展，存在大量自动进行数据合成的需求。例如，在图片识别的场景下，需要自动生成或合成大量图片，以进行机器学习；在例如智能客服的场景下，需要自动生成对话文本。在一种情况下，在展示基于用户样本数据的研究结果时，出于保护用户隐私的目的，则需要合成一些模拟用户样本数据替代真实用户数据进行展示。在其他情况下，还可能需要自动生成诸如音频等其他格式的合成数据。

为此，试图通过机器学习的方式，训练得到一些生成模型来自动进行数据生成。例如，在一种方式中，训练一个生成对抗网络(GAN，Generative Adversarial Networks)，利用其中的生成模型来进行数据合成。然而，常规的GAN训练方式，一方面生成模型的生成效果有待进一步提高，另一方面，容易受到攻击，难以保证数据的隐私安全。

因此，希望能有改进的方案，能够得到更为安全、更为有效的数据生成系统。

发明内容

本说明书一个或多个实施例描述了一种基于差分隐私的数据生成系统的训练方法，用以得到保护隐私且更为有效的数据生成系统。

根据第一方面，提供了一种基于差分隐私的数据生成系统的训练方法，所述数据生成系统包括自编码网络和判别器，所述方法包括：

将第一真实样本输入所述自编码网络，得到第一复原样本；

根据所述第一真实样本和所述第一复原样本的比对，确定样本重构损失；

通过所述自编码网络生成第一合成样本；

将第一真实样本输入所述判别器，得到其属于真实样本的第一概率；以及，将所述第一合成样本输入所述判别器，得到其属于真实样本的第二概率；

针对所述判别器对应的第一参数，利用差分隐私的方式，在以减小第一预测损失为目标得到的梯度上添加噪声，根据得到的第一噪声梯度调整所述第一参数，其中所述第一预测损失负相关于所述第一概率，正相关于所述第二概率；

针对所述自编码网络对应的第二参数，利用差分隐私的方式，在以减小第二预测损失为目标得到的梯度上添加噪声，根据得到的第二噪声梯度调整所述第二参数，其中所述第二预测损失与所述样本重构损失正相关，与所述第一概率正相关，且与所述第二概率负相关。

根据一种实施方式，自编码网络包括编码器，生成器和解码器；在这样的情况下，将第一真实样本输入所述自编码网络，得到第一复原样本，具体包括：将所述第一真实样本对应的第一原始向量输入所述编码器，得到降维到第一表征空间的第一特征向量；将所述第一特征向量输入所述解码器，得到所述第一复原样本；通过所述自编码网络生成第一合成样本，具体包括：通过所述生成器生成在所述第一表征空间中的第二特征向量；将所述第二特征向量输入所述解码器，得到所述第一合成数据。

进一步的，在一个实施例中，所述编码器可以实现为第一多层感知机，其各层神经元数目逐层递减；所述解码器可以实现为第二多层感知机，其各层神经元数目逐层递增。

根据一种实施方式，通过以下方式确定样本重构损失：确定第一真实样本对应的第一原始向量和所述第一复原样本对应的第一复原向量之间的向量距离；将所述样本重构损失确定为，正相关于所述向量距离。

在一个实施例中，在以减小第一预测损失为目标得到的梯度上添加噪声，根据得到的第一噪声梯度调整所述第一参数，具体包括：针对所述第一参数，确定使得所述第一预测损失减小的第一原始梯度；基于预设的第一裁剪阈值，对所述第一原始梯度进行裁剪，得到第一裁剪梯度；利用基于所述第一裁剪阈值确定的第一高斯分布，确定用于实现差分隐私的第一高斯噪声；将所述第一高斯噪声与所述第一裁剪梯度叠加，得到所述第一噪声梯度。

在一个实施例中，在以减小第二预测损失为目标得到的梯度上添加噪声，根据得到的第二噪声梯度调整所述第二参数，具体包括：针对所述第二参数，确定使得所述第二预测损失减小的第二原始梯度；基于预设的第二裁剪阈值，对所述第二原始梯度进行裁剪，得到第二裁剪梯度；利用基于所述第二裁剪阈值确定的第二高斯分布，确定用于实现差分隐私的第二高斯噪声；将所述第二高斯噪声与所述第二裁剪梯度叠加，得到所述第二噪声梯度。

进一步的，所述第二参数可以划分为包括，编码器参数，生成器参数和解码器参数；在一个实施例中，可以通过梯度反向传播，分别确定对应于所述解码器参数的第三原始梯度，对应于所述编码器参数的第四原始梯度，和对应于所述生成器参数的第五原始梯度；利用差分隐私的方式，在所述第三原始梯度、第四原始梯度和第五原始梯度中分别添加噪声，得到对应的第三噪声梯度、第四噪声梯度和第五噪声梯度；利用所述第三噪声梯度，调整所述解码器参数；利用所述第四噪声梯度，调整所述编码器参数；利用所述第五噪声梯度，调整所述生成器参数。

在另一实施例中，在通过梯度反向传播，分别确定对应于所述解码器参数的第三原始梯度，对应于所述编码器参数的第四原始梯度，和对应于所述生成器参数的第五原始梯度后，利用差分隐私的方式，在所述第三原始梯度中添加噪声，得到对应的第三噪声梯度；利用所述第三噪声梯度，调整所述解码器参数；利用所述第四原始梯度，调整所述编码器参数；利用所述第五原始梯度，调整所述生成器参数。

在各种实施例中，第一真实样本可以是图片样本，音频样本，文本样本，或业务对象样本。

根据第二方面，提供了一种基于差分隐私的数据生成系统的训练装置，所述数据生成系统包括自编码网络和判别器，所述装置包括：

复原样本获取单元，配置为将第一真实样本输入所述自编码网络，得到第一复原样本；

重构损失确定单元，配置为根据所述第一真实样本和所述第一复原样本的比对，确定样本重构损失；

合成样本获取单元，配置为通过所述自编码网络生成第一合成样本；

概率获取单元，配置为将第一真实样本输入所述判别器，得到其属于真实样本的第一概率；以及，将所述第一合成样本输入所述判别器，得到其属于真实样本的第二概率；

第一参数调整单元，配置为针对所述判别器对应的第一参数，利用差分隐私的方式，在以减小第一预测损失为目标得到的梯度上添加噪声，根据得到的第一噪声梯度调整所述第一参数，其中所述第一预测损失负相关于所述第一概率，正相关于所述第二概率；

第二参数调整单元，配置为针对所述自编码网络对应的第二参数，利用差分隐私的方式，在以减小第二预测损失为目标得到的梯度上添加噪声，根据得到的第二噪声梯度调整所述第二参数，其中所述第二预测损失与所述样本重构损失正相关，与所述第一概率正相关，且与所述第二概率负相关。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，通过自编码网络来实现常规GAN中的生成模型，该自编码网络可以借助于对真实样本进行还原的编码过程进行辅助训练，从而得到高度模拟真实样本的合成数据。并且，在训练过程中，通过差分隐私的梯度下降方式，在自编码网络和判别器中分别引入了差分隐私，得到具有差分隐私特性的数据生成系统。由于引入了差分隐私，难以基于公开的模型反推或识别出训练样本的信息，为模型提供了隐私保护。如此，得到了更为有效也更为安全的数据生成系统。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本说明书技术构思的数据生成系统的架构示意图；

图2示出根据一个实施例的基于差分隐私的数据生成系统的训练方法的流程图；

图3示出根据一个实施例的编码器和解码器的结构示意图；

图4示出根据一个实施例的数据生成系统的训练装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1示出了根据本说明书技术构思的数据生成系统的架构示意图。如图1所示，数据生成系统整体上包括自编码网络100和判别器200。自编码网络100可以包括编码器110，生成器120和解码器130。编码器110用于将输入的真实样本数据x的高维特征向量编码为低维表征空间中的样本向量E(x)，生成器120用于基于噪声z，在上述低维表征空间中生成噪声向量G(z)。解码器130用于基于低维表征空间中的向量，解码出对应的样本数据。当将真实样本数据x对应的低维样本向量E(x)输入解码器130，解码器输出复原的样本数据x’；当将噪声向量G(z)输入解码器130，解码器输出合成的样本数据s。

判别器200用于判别输入的样本数据为真实样本数据，还是合成的样本数据。当将上述真实样本数据x输入该判别器200，判别器可以输出其为真实数据的概率P1；当将上述合成数据s输入该判别器200，判别器可以输出其为真实数据的概率P2。

以上的生成器120，解码器130和判别器200，共同构成生成对抗网络GAN。具体而言，判别器的训练目标是，尽量区分出真实样本和合成样本，也就是，希望以上的概率P1尽可能大，概率P2尽可能小。而生成器连同解码器的训练目标是，生成尽可能乱真的合成样本数据，使得判别器难以区分。因此，生成器和解码器的训练目标为，使得复原样本数据x’尽可能接近真实样本数据x，同时使得以上的概率P1尽可能小，概率P2尽可能大。如此，通过解码器和判别器的对抗训练，逐步提升解码器生成合成数据的能力。

进一步的，为了增强模型的隐私安全性，可以在以上GAN网络中，特别是在解码器130和判别器200中，引入差分隐私。具体的，可以通过在对抗训练过程中，采用基于差分隐私的梯度下降，在梯度中添加噪声，从而获得基于差分隐私的解码器和基于差分隐私的判别器。如此，可以避免模型受到攻击时从训练得到的模型中反推出训练样本，保护隐私数据安全。

下面描述以上构思的具体实现过程。

图2示出根据一个实施例的基于差分隐私的数据生成系统的训练方法的流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。下面结合图1所示的数据生成系统的架构和图2所示的方法流程，描述基于差分隐私的数据生成系统的训练过程。

首先，在步骤21，将第一真实样本x输入自编码网络，得到第一复原样本x'。

在不同实施例中，上述第一真实样本x可以是各种不同形式的样本数据。例如，在图片合成场景下，第一真实样本可以是一张图片；在文本问答场景下，上述第一真实样本可以是一条文本；在语音合成场景下，上述第一真实样本可以是一段音频。在其他例子中，第一真实样本还可以是一些业务对象样本，例如用户样本，商户样本，交互事件样本，等等。

通常，可以通过向量F(x)来表示第一真实样本x，该向量F(x)称为第一原始向量。例如，当第一真实样本x为图片时，第一原始向量F(x)对应于图片中的像素特征构成的向量；当第一真实样本x为音频时，第一原始向量F(x)对应于音频频谱特征构成的向量；在其他例子中，可以对应获得第一原始向量，来表示第一真实样本。

当将第一真实样本对应的第一原始向量输入自编码网络，自编码网络可以对该第一原始向量进行编码解码处理，输出第一复原样本。

具体的，在一个实施例中，自编码器网络采用图1所示的结构，其中包括编码器110，生成器120和解码器130。在这样的情况下，在步骤21，将第一真实样本x对应的第一原始向量F(x)输入编码器110，编码器110对该第一原始向量F(x)进行降维处理，得到降维后的表征空间K中的第一特征向量E(x)。该第一特征向量E(x)被进一步输入到解码器130。解码器130结构与编码器110对称，其算法和模型参数与编码器130中对应关联(例如为其逆运算)。因此，解码器130可以根据该第一特征向量E(x)，对第一真实样本x进行还原，输出第一复原样本x'。

图3示出根据一个实施例的编码器和解码器的结构示意图。如图3所示，编码器110和解码器130各自可以实现为多层感知机，其中包含多个神经网络层。不同的是，在编码器110中，各层神经元数目逐层递减，即各层维度逐层递减，从而对输入的第一原始向量F(x)逐层压缩维度，至输出层输出表征空间K中的第一特征向量E(x)，又称为表征向量。表征空间K的维度d远远小于输入的第一原始向量的维度D，从而实现对输入原始向量的降维。例如，可以将几百维的第一原始向量，压缩为几十维，甚至几维的编码向量。

而在解码器130中，各层神经元数目逐层递增，即各层维度逐层递增，从而对低维的第一特征向量E(x)逐层恢复维度，至输出层得到与第一原始向量F(x)维度相同的向量，作为第一复原样本x'的复原向量。

可以理解，表征空间K中的表征向量(例如第一特征向量E(x))对输入的原始向量(例如第一原始向量F(x))进行了降维，该降维操作的信息损失越小，或者说，表征空间K中表征向量信息含量越高，解码器越容易还原出输入的真实样本，即复原样本和真实样本之间的相似度越高。这一性质可以在后续用于辅助训练自编码网络。

需要理解，尽管以上描述了编码器和解码器的示例性结构，但是其具体实现方式可以多种多样。例如，在处理图片样本数据时，编码器中还可以相应包含若干卷积层，解码器中包含若干反卷积层，等等。编码器和解码器的具体设计可以取决于样本数据的形式而具有多种变体，在此不做限定。

通过以上方式，自编码网络对输入的第一真实样本进行还原，得到第一复原样本。接着，在步骤22，根据第一真实样本和第一复原样本的比对，确定样本重构损失Lr。

在一个实施例中，可以比对第一真实样本x对应的第一原始向量F(x)和第一复原样本对应的第一复原向量，得到两个向量之间的向量距离，例如，欧式距离，余弦距离等等。于是，可以将样本重构损失Lr确定为，正相关于该向量距离。也就是说，第一原始向量和第一复原向量之间的向量距离越小，数据差异越小，样本重构损失越小。

在另一实施例中，可以比对第一真实样本和第一复原样本，得到两者之间的相似度。例如，相似度可以根据第一原始向量和第一复原向量之间的点乘结果而确定。由此，还可以将样本重构损失Lr确定为，负相关于上述相似度。即，相似度越大，样本重构损失越小。

以上确定的样本重构损失Lr可以用于衡量自编码网络，特别是其中的解码器，对于样本的重构能力，从而用于训练自编码网络。

另一方面，在步骤23，通过自编码网络生成第一合成样本。

在一个实施例中，自编码网络采用图1所示的结构，其中包括编码器110，生成器120和解码器130。在这样的情况下，在步骤23，通过生成器120，在前述表征空间K中生成模拟真实表征向量的第二特征向量G(z)；然后，将该第二特征向量G(z)输入解码器130，得到第一合成数据s。

在一个实施例中，生成器120获取编码器110输出的多个真实样本的表征向量的数据分布，在该数据分布空间中，以一定的概率进行采样，由此生成第二特征向量G(z)。在另一实施例中，将噪声信号输入给生成器120，生成器120基于该噪声信号，在上述表征空间K中生成第二特征向量G(z)。

通过以上方式生成的第二特征向量G(z)，可用于模拟真实样本在表征空间K中的表征向量。因此，当将第二特征向量G(z)输入解码器130，解码器130可以按照处理前述真实表征向量E(x)一样，对其进行解码，从而得到与真实样本数据形式相同的合成样本s。

需要理解的是，上述步骤23与前述步骤21-22，可以以任何合理的相对顺序执行，例如并行执行，在其之前或之后执行。

之后，在步骤24，将第一真实样本x和第一合成样本s分别输入判别器，从而分别得到第一真实样本属于真实样本的第一概率P1，以及，第一合成样本s属于真实样本的第二概率P2。

需要理解，判别器用于区分输入的样本数据是真实样本还是合成样本。具体的，判别器通过输出预测概率，来给出判别结果。通常，判别器输出样本数据为真实样本的概率。在这样的情况下，上述第一概率P1即为，将第一真实样本x输入判别器后，判别器的输出概率；上述第二概率P2即为，将第一合成样本s输入判别器后，判别器的输出概率。

在另一例子中，判别器也可以输出样本数据为合成样本的概率。在这样的情况下，上述第一概率P1可以理解为1-P1’，其中P1’为判别器针对第一真实样本x的输出概率；上述第二概率P2可以理解为1-P2’，其中P2’为判别器针对第一合成样本s的输出概率。

基于步骤22得到的样本重构损失Lr，以及步骤24得到的第一概率P1和第二概率P2，可以分别确定用于训练判别器的第一预测损失L1和用于训练自编码网络的第二预测损失L2。

可以理解，判别器的训练目标是，尽量区分出真实样本和合成样本，因此，对于判别器来说，希望以上的第一概率P1尽可能大，第二概率P2尽可能小。因此，可以将第一预测损失L1设定为，与第一概率P1负相关，与第二概率P2正相关。如此，第一预测损失L1减小的方向，即为增大第一概率P1，减小第二概率P2的方向。

更具体的，在一个实施例中，第一预测损失可以设定为：

L1＝-∑_ilog(P1)-∑_jlog(1-P2) (1)

其中，i为真实样本，P1为各个真实样本对应的第一概率，j为合成样本，P2为各个合成样本对应的第二概率。

另一方面，自编码网络的训练目标是，对于真实样本，希望重构出更为接近的复原样本，并且，希望判别器无法区分真实样本和解码器生成的合成样本，因此，对于自编码网络来说，希望前述的样本重构损失Lr尽量小，并且，希望以上的第一概率P1尽可能小，第二概率P2尽可能大。因此，可以将第二预测损失L2设定为，与样本重构损失和第一概率P1正相关，与第二概率P2负相关。如此，第二预测损失L2减小的方向，即为减小样本重构损失，减小第一概率P1，增大第二概率P2的方向。

更具体的，在一个实施例中，第二预测损失可以设定为：

L2＝Lr-∑_ilog(1-P1)-∑_jlog(P2) (2)

如此，通过以上方式，得到了针对判别器的第一预测损失和针对自编码网络的第二预测损失。通过以上第一预测损失L1和第二预测损失L2的定义可以看到，自编码网络和判别器的训练目标形成对抗。接下来，可以基于该第一和第二预测损失，确定使得损失减小的参数梯度，从而分别训练判别器和自编码网络。

创新性的，在本说明书的实施例中，在训练过程中利用差分隐私的方式，在梯度中添加噪声，根据含有噪声的梯度来训练数据生成系统。即，在步骤25，针对判别器对应的第一参数，利用差分隐私的方式，在以减小第一预测损失L1为目标得到的梯度上添加噪声，根据得到的第一噪声梯度调整第一参数；在步骤26，针对自编码网络对应的第二参数，利用差分隐私的方式，在以减小第二预测损失L2为目标得到的梯度上添加噪声，根据得到的第二噪声梯度调整第二参数。如此，分别在判别器和自编码网络中引入差分隐私的特性。

差分隐私(differential privacy)是密码学中的一种手段，旨在提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会。设有随机算法M，PM为M所有可能的输出构成的集合。对于任意两个邻近数据集D和D＇以及PM的任何子集SM，若随机算法M满足：Pr[M(D)∈SM]<＝eε×Pr[M(D＇)∈SM]，则称算法M提供ε-差分隐私保护，其中参数ε称为隐私保护预算，用于平衡隐私保护程度和准确度。ε通常可以预先设定。ε越接近0，eε越接近1，随机算法对两个邻近数据集D和D＇的处理结果越接近，隐私保护程度越强。

差分隐私的实现方式包括，噪声机制、指数机制等。为了在数据生成系统中引入差分隐私，根据本说明书的实施例，在此利用噪声机制，通过在参数梯度中添加噪声的方式，实现差分隐私。根据噪声机制，噪声可以体现为拉普拉斯噪声，高斯噪声，等等。根据一个实施例，在该步骤25中，通过在基于第一预测损失确定的梯度中添加高斯噪声，在判别器中引入差分隐私。具体过程可以包括如下步骤。

首先，针对判别器对应的第一参数，可以根据前述第一预测损失L1，确定使得第一预测损失L1减小的第一原始梯度；然后，基于预设的裁剪阈值，对第一原始梯度进行裁剪，得到第一裁剪梯度；接着，利用基于第一裁剪阈值确定的高斯分布，确定用于实现差分隐私的第一高斯噪声，其中，高斯分布的方差与第一裁剪阈值的平方正相关；然后，将由此得到的第一高斯噪声与前述第一裁剪梯度叠加，得到第一噪声梯度，用于更新判别器的第一参数。

更具体的，作为一个示例，假设针对由第一真实样本x和第一合成样本s构成的训练集X，对于判别器得到的第一原始梯度为：

其中，L1(θ_D,X)表示前述第一预测损失，θ_D为判别器中的参数，即第一参数。

如前所述，对原始梯度添加实现差分隐私的噪声，可以通过诸如拉普拉斯噪声、高斯噪声等方式实现。在一个实施例中，以高斯噪声为例，可以基于预设的裁剪阈值，对原始梯度进行梯度裁剪，得到裁剪梯度，再基于该裁剪阈值和预定的噪声缩放系数(预先设定的超参)，确定用于实现差分隐私的高斯噪声，然后将裁剪梯度与高斯噪声融合(例如求和)，得到包含噪声的梯度。可以理解的是，此种方式一方面对原始梯度进行裁剪，另一方面将裁剪后的梯度叠加，从而对梯度进行满足高斯噪声的差分隐私处理。

例如，将第一原始梯度进行梯度裁剪为：

其中，

表示裁剪后的梯度，即第一裁剪梯度，C1表示第一裁剪阈值，‖g_D(X)‖₂表示g_D(X)的二阶范数。也就是说，在原始梯度小于或等于裁剪阈值C1的情况下，保留原始梯度，而在原始梯度大于裁剪阈值C1的情况下，将原始梯度按照大于裁剪阈值C1的比例裁剪到相应大小。

为第一裁剪梯度添加第一高斯噪声，得到包含噪声的第一噪声梯度，例如为：

其中，

表示第一噪声梯度；

表示概率密度符合以0为均值、σ²C1²I为方差的高斯分布的第一高斯噪声；σ表示上述噪声缩放系数，为预先设定的超参，可以按需设定；C1为上述第一裁剪阈值；,表示指示函数，可以取0或1，比如，可以设定在多轮训练中的偶数轮次取1，而奇数轮次取0。

于是，可以使用添加高斯噪声后的第一噪声梯度，以最小化前述预测损失L1为目标，将判别器的第一参数θ_D调整为：

其中，η表示学习步长，或者说学习率，为预先设定的超参数，例如为0.5、0.3等。在梯度添加高斯噪声满足差分隐私的情况下，上述判别器的模型参数的调整满足差分隐私。

另一方面，在步骤26，对于自编码网络，可以以类似的方式，通过在梯度中添加噪声，以差分隐私的方式调整自编码网络的参数。具体的，在一个实施例中，针对自编码网络的第二参数θ_A，确定使得前述第二预测损失L2减小的第二原始梯度g_A(X)，例如：

然后，基于预设的第二裁剪阈值C2，对第二原始梯度进行裁剪，得到第二裁剪梯度

裁剪方式类似于以上公式(4)，其中第二裁剪阈值C2与第一裁剪阈值C1独立设置，可以相同或不同。接着，利用基于第二裁剪阈值确定的第二高斯分布，确定用于实现差分隐私的第二高斯噪声

将第二高斯噪声与第二裁剪梯度叠加，得到第二噪声梯度

于是，可以根据第二噪声梯度，调整自编码网络对应的第二参数。

以上描述了在针对自编码网络的第二原始梯度中添加高斯噪声，进而调整第二参数的方式。进一步的，在一个实施例中，如图1所示，自编码网络进一步包括编码器110，生成器120和解码器130，相应的，上述第二参数又可以划分为编码器参数，生成器参数和解码器参数，各部分参数对应有各部分原始参数梯度。针对第二原始梯度添加噪声，可以针对各个部分的原始参数梯度均添加噪声，也可以仅针对其中部分原始参数梯度，例如解码器对应的原始参数梯度，添加噪声。

具体的，在一个实施例中，在步骤26，可以通过梯度反向传播，分别确定自编码网络中针对各个参数部分的各个原始参数梯度，包括，对应于解码器参数的第三原始梯度，对应于编码器参数的第四原始梯度，和对应于生成器参数的第五原始梯度。

然后，利用差分隐私的方式，在第三原始梯度、第四原始梯度和第五原始梯度中分别添加噪声，得到对应的第三噪声梯度、第四噪声梯度和第五噪声梯度。其中，添加噪声的方式，可以参照以上描述的添加高斯噪声的过程。于是，可以利用第三噪声梯度，调整解码器参数；利用第四噪声梯度，调整编码器参数；利用第五噪声梯度，调整生成器参数。通过这样的方式，在自编码网络中引入差分隐私特性。

根据另一实施例，在步骤26中，在通过梯度反向传播，分别确定出对应于解码器参数的第三原始梯度，对应于编码器参数的第四原始梯度，和对应于生成器参数的第五原始梯度之后，仅针对第三原始梯度，利用差分隐私的方式，在其中添加噪声，得到对应的第三噪声梯度。然后，利用该第三噪声梯度，调整解码器参数，从而在解码器中引入差分隐私的特性。对于编码器和生成器，则可以利用对应的原始参数梯度来更新，即利用第四原始梯度，调整编码器参数；利用第五原始梯度，调整生成器参数。

需要理解，解码器是自编码网络中的核心模块，真实样本通过该解码器进行还原，合成样本通过该解码器而生成。因此，在解码器中引入差分隐私，就使得整个自编码网络具有了差分隐私的特性，同样可以起到使得整个数据生成系统具有差分隐私特性的效果。

需要说明的是，实际操作中，步骤25中对判别器的训练，和步骤26中对自编码网络的训练，可以是交替迭代进行的。例如，利用包含真实样本和生成样本的样本集，对判别器进行m次迭代更新后，再对自编码网络进行n次迭代更新，如此交复执行。对于判别器和自编码网络的更新顺序和迭代方式，在此不做限定。

在通过以上方式反复更新判别器和自编码网络，直到达到预定的结束条件(例如迭代了预定次数，参数达到收敛，等等)后，就可以得到训练后的数据生成系统。使用该数据生成系统生成样本数据时，只需要利用其中的生成器生成噪声向量，用解码器解码，就可以得到模拟真实样本的合成样本数据。

回顾以上过程，通过自编码网络来实现常规GAN中的生成模型，该自编码网络可以借助于对真实样本进行还原的编码过程进行辅助训练，从而得到高度模拟真实样本的合成数据。并且，在训练过程中，通过差分隐私的梯度下降方式，在自编码网络和判别器中分别引入了差分隐私，得到具有差分隐私特性的数据生成系统。由于引入了差分隐私，难以基于公开的模型反推或识别出训练样本的信息，为模型提供了隐私保护。如此，得到了更为有效也更为安全的数据生成系统。

根据另一方面的实施例，还提供一种基于差分隐私的数据生成系统的训练装置，所述数据生成系统包括自编码网络和判别器，所述训练装置可以部署在任何具有计算、处理能力的装置、设备、平台、设备集群中。图4示出根据一个实施例的数据生成系统的训练装置的示意性框图。如图4所示，训练装置400包括：

复原样本获取单元41，配置为将第一真实样本输入所述自编码网络，得到第一复原样本；

重构损失确定单元42，配置为根据所述第一真实样本和所述第一复原样本的比对，确定样本重构损失；

合成样本获取单元43，配置为通过所述自编码网络生成第一合成样本；

概率获取单元44，配置为将第一真实样本输入所述判别器，得到其属于真实样本的第一概率；以及，将所述第一合成样本输入所述判别器，得到其属于真实样本的第二概率；

第一参数调整单元45，配置为针对所述判别器对应的第一参数，利用差分隐私的方式，在以减小第一预测损失为目标得到的梯度上添加噪声，根据得到的第一噪声梯度调整所述第一参数，其中所述第一预测损失负相关于所述第一概率，正相关于所述第二概率；

第二参数调整单元46，配置为针对所述自编码网络对应的第二参数，利用差分隐私的方式，在以减小第二预测损失为目标得到的梯度上添加噪声，根据得到的第二噪声梯度调整所述第二参数，其中所述第二预测损失与所述样本重构损失正相关，与所述第一概率正相关，且与所述第二概率负相关。

根据一种实施方式，所述自编码网络包括编码器，生成器和解码器。在这样的情况下，所述复原样本获取单元41可以配置为：将所述第一真实样本对应的第一原始向量输入所述编码器，得到降维到第一表征空间的第一特征向量；将所述第一特征向量输入所述解码器，得到所述第一复原样本；所述合成样本获取单元43可以配置为：通过所述生成器生成在所述第一表征空间中的第二特征向量；将所述第二特征向量输入所述解码器，得到所述第一合成数据。

根据一种实施方式，所述重构损失确定单元42具体配置为：确定所述第一真实样本对应的第一原始向量和所述第一复原样本对应的第一复原向量之间的向量距离；将所述样本重构损失确定为，正相关于所述向量距离。

在一种实施方式中，所述第一参数调整单元45具体配置为：针对所述第一参数，确定使得所述第一预测损失减小的第一原始梯度；基于预设的第一裁剪阈值，对所述第一原始梯度进行裁剪，得到第一裁剪梯度；利用基于所述第一裁剪阈值确定的第一高斯分布，确定用于实现差分隐私的第一高斯噪声；将所述第一高斯噪声与所述第一裁剪梯度叠加，得到所述第一噪声梯度。

类似的，所述第二参数调整单元46可以具体配置为：针对所述第二参数，确定使得所述第二预测损失减小的第二原始梯度；基于预设的第二裁剪阈值，对所述第二原始梯度进行裁剪，得到第二裁剪梯度；利用基于所述第二裁剪阈值确定的第二高斯分布，确定用于实现差分隐私的第二高斯噪声；将所述第二高斯噪声与所述第二裁剪梯度叠加，得到所述第二噪声梯度。

更具体的，在一个实施例中，所述第二参数具体包括，编码器参数，生成器参数和解码器参数。在一个例子中，所述第二参数调整单元46具体配置为：通过梯度反向传播，分别确定对应于所述解码器参数的第三原始梯度，对应于所述编码器参数的第四原始梯度，和对应于所述生成器参数的第五原始梯度；利用差分隐私的方式，在所述第三原始梯度、第四原始梯度和第五原始梯度中分别添加噪声，得到对应的第三噪声梯度、第四噪声梯度和第五噪声梯度；利用所述第三噪声梯度，调整所述解码器参数；利用所述第四噪声梯度，调整所述编码器参数；利用所述第五噪声梯度，调整所述生成器参数。

在另一例子中，所述第二参数调整单元46具体配置为：通过梯度反向传播，分别确定对应于所述解码器参数的第三原始梯度，对应于所述编码器参数的第四原始梯度，和对应于所述生成器参数的第五原始梯度；利用差分隐私的方式，在所述第三原始梯度中添加噪声，得到对应的第三噪声梯度；利用所述第三噪声梯度，调整所述解码器参数；利用所述第四原始梯度，调整所述编码器参数；利用所述第五原始梯度，调整所述生成器参数。

在各个不同实施例中，第一真实样本可以是图片样本，音频样本，文本样本，或业务对象样本。

值得说明的是，图4所示的装置400是与图2示出的方法实施例相对应的装置实施例，图2示出的方法实施例中的相应描述同样适用于装置400，在此不再赘述。

根据又一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的技术构思的具体实施方式而已，并不用于限定本说明书的技术构思的保护范围，凡在本说明书实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的技术构思的保护范围之内。

Claims

1.一种基于差分隐私的数据生成系统的训练方法，所述数据生成系统包括自编码网络和判别器，所述自编码网络包括编码器，生成器和解码器；所述方法包括：

将第一真实样本对应的第一原始向量输入所述编码器，得到降维到第一表征空间的第一特征向量；将所述第一特征向量输入所述解码器，得到第一复原样本；

通过所述生成器基于噪声信号生成在所述第一表征空间中的第二特征向量；将所述第二特征向量输入所述解码器，得到第一合成样本；

2.根据权利要求1所述的方法，其中，所述编码器实现为第一多层感知机，其各层神经元数目逐层递减；所述解码器实现为第二多层感知机，其各层神经元数目逐层递增。

3.根据权利要求1所述的方法，其中，确定样本重构损失，包括：

确定所述第一真实样本对应的第一原始向量和所述第一复原样本对应的第一复原向量之间的向量距离；

将所述样本重构损失确定为，正相关于所述向量距离。

4.根据权利要求1所述的方法，其中，在以减小第一预测损失为目标得到的梯度上添加噪声，根据得到的第一噪声梯度调整所述第一参数，包括：

针对所述第一参数，确定使得所述第一预测损失减小的第一原始梯度；

基于预设的第一裁剪阈值，对所述第一原始梯度进行裁剪，得到第一裁剪梯度；

利用基于所述第一裁剪阈值确定的第一高斯分布，确定用于实现差分隐私的第一高斯噪声；

将所述第一高斯噪声与所述第一裁剪梯度叠加，得到所述第一噪声梯度。

5.根据权利要求1所述的方法，其中，在以减小第二预测损失为目标得到的梯度上添加噪声，根据得到的第二噪声梯度调整所述第二参数，包括：

针对所述第二参数，确定使得所述第二预测损失减小的第二原始梯度；

基于预设的第二裁剪阈值，对所述第二原始梯度进行裁剪，得到第二裁剪梯度；

利用基于所述第二裁剪阈值确定的第二高斯分布，确定用于实现差分隐私的第二高斯噪声；

将所述第二高斯噪声与所述第二裁剪梯度叠加，得到所述第二噪声梯度。

6.根据权利要求1所述的方法，其中，所述第二参数包括，编码器参数，生成器参数和解码器参数；在以减小第二预测损失为目标得到的梯度上添加噪声，根据得到的第二噪声梯度调整所述第二参数，包括：

通过梯度反向传播，分别确定对应于所述解码器参数的第三原始梯度，对应于所述编码器参数的第四原始梯度，和对应于所述生成器参数的第五原始梯度；

利用差分隐私的方式，在所述第三原始梯度、第四原始梯度和第五原始梯度中分别添加噪声，得到对应的第三噪声梯度、第四噪声梯度和第五噪声梯度；

利用所述第三噪声梯度，调整所述解码器参数；利用所述第四噪声梯度，调整所述编码器参数；利用所述第五噪声梯度，调整所述生成器参数。

7.根据权利要求1所述的方法，其中，所述第二参数包括，编码器参数，生成器参数和解码器参数；在以减小第二预测损失为目标得到的梯度上添加噪声，根据得到的第二噪声梯度调整所述第二参数，包括：

利用差分隐私的方式，在所述第三原始梯度中添加噪声，得到对应的第三噪声梯度；

利用所述第三噪声梯度，调整所述解码器参数；利用所述第四原始梯度，调整所述编码器参数；利用所述第五原始梯度，调整所述生成器参数。

8.根据权利要求1所述的方法，其中，所述第一真实样本包括以下之一：图片样本，音频样本，文本样本，业务对象样本。

9.一种基于差分隐私的数据生成系统的训练装置，所述数据生成系统包括自编码网络和判别器，所述自编码网络包括编码器，生成器和解码器；所述装置包括：

复原样本获取单元，配置为将第一真实样本对应的第一原始向量输入所述编码器，得到降维到第一表征空间的第一特征向量；将所述第一特征向量输入所述解码器，得到第一复原样本；

合成样本获取单元，配置为通过所述生成器基于噪声信号生成在所述第一表征空间中的第二特征向量；将所述第二特征向量输入所述解码器，得到第一合成样本；

10.根据权利要求9所述的装置，其中，所述编码器实现为第一多层感知机，其各层神经元数目逐层递减；所述解码器实现为第二多层感知机，其各层神经元数目逐层递增。

11.根据权利要求9所述的装置，其中，所述重构损失确定单元配置为：

将所述样本重构损失确定为，正相关于所述向量距离。

12.根据权利要求9所述的装置，其中，所述第一参数调整单元配置为：

13.根据权利要求9所述的装置，其中，所述第二参数调整单元配置为：

14.根据权利要求9所述的装置，其中，所述第二参数包括，编码器参数，生成器参数和解码器参数；

所述第二参数调整单元配置为：

15.根据权利要求9所述的装置，其中，所述第二参数包括，编码器参数，生成器参数和解码器参数；

所述第二参数调整单元配置为：

16.根据权利要求9所述的装置，其中，所述第一真实样本包括以下之一：图片样本，音频样本，文本样本，业务对象样本。

17.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。

18.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。