CN112199717A

CN112199717A - 一种基于少量公共数据的隐私模型训练方法及装置

Info

Publication number: CN112199717A
Application number: CN202011065611.6A
Authority: CN
Inventors: 葛仕明; 刘浩林; 刘博超; 王伟平
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-08
Anticipated expiration: 2040-09-30
Also published as: CN112199717B

Abstract

本发明提供一种基于少量公共数据的隐私模型训练方法及电子装置，包括：使用若干训练得到N个神经网络教师模型；将少量的公共数据x_i分别输入N个神经网络教师模型，得到各公共数据x_i对各标签k的统计投票结果；对各统计投票结果添加噪声，获取满足差分隐私原理的公共数据x_i及相应标签；通过大量的随机噪声向量与一预训练判别神经网络，优化对抗生成网络，并生成大量无标注数据；通过满足差分隐私原理的公共数据x_i及相应标签、大量无标注数据对预训练的自编码器联合训练学生模型，得到隐私学生模型。本发明只需少量公共数据即可训练一个隐私学生模型，实现对敏感数据的物理隔离和网络隔离，解决了隐私学生模型的精确度不高这一问题。

Description

一种基于少量公共数据的隐私模型训练方法及装置

技术领域

本发明属于互联网领域，具体而言，涉及一种基于差分隐私、半监督学习、教师学生知识聚合的神经网络模型隐私保护训练方法和装置。

背景技术

近些年，深度学习技术在许多的领域取得了令人震惊的突破性进展，比如在计算机视觉、自然语言处理、强化学习等领域，同时，深度学习技术的发展也离不开大量的训练数据，当前许多极其有力的应用都使用大量敏感的数据进行训练模型，例如，使用大量患者的医疗数据进行训练医疗诊断系统、利用大量用户金融数据进行金融风险控制等。

虽然深度学习工具能极大的便利工业生产生活，但是近年来的研究表明，深度学习模型容易受到黑客的攻击，攻击者常常通过不断的查询目标模型来分析数据，进一步地推断出模型训练时记住地敏感数据来窃取相关的隐私数据。

针对以上问题，现有的解决方法都将差分隐私引入模型的训练当中，以防止敏感数据被窃取，具体的有以下几种方法:

一、采用差分隐私随机梯度下降算法(DP-SGD)和自适应的Laplace机制(AdLM)等差分隐私深度学习算法，给模型在训练过程中的梯度加上较大的噪声，以满足差分隐私保护机制，难以满足训练优化的灵活性和模型的准确性。

二、基于差分隐私的对抗生成网络，在训练生成器的过程中引入噪声，训练一个满足差分隐私的生成器，相对于不加噪声训练的生成器，隐私生成器模型的准确性往往有较大的牺牲。

三、基于差分隐私的联邦学习，联邦学习可以使多个用户之间无需进行数据交换就能实现跨用户协同训练AI模型，联邦学习在传输梯度数据过程中易受到攻击，攻击者可推理出训练的隐私数据，将高斯噪声加入用户端模型训练过程中，避免梯度参数直接暴露在传输过程中，训练的过程灵活性不强，模型的准确性不高。

上述现有技术的缺陷主要是：1.模型复杂度高，训练困难；2.模型准确度不佳。3.模型安全性差。

发明内容

本发明提供了一种基于少量公共数据的隐私模型训练方法及装置，以解决神经网络模型采用敏感数据训练隐私被攻击者窃取的问题。

本发明的技术方案为：

一种基于少量公共数据的隐私模型训练方法，其步骤包括：

1)使用若干包含N个部分敏感数据的样本数据，训练得到N个神经网络教师模型，N≥1；

2)将少量的公共数据x_i分别输入N个神经网络教师模型，并对各神经网络教师模型输出结果进行统计投票，得到各公共数据x_i对各标签B_k的统计投票结果，i为公共数据的序号，k为标签类别；

3)对各统计投票结果添加噪声，获取满足差分隐私原理的公共数据x_i及相应标签；

4)通过大量的随机噪声向量与一预训练判别神经网络，优化一对抗生成网络，并生成大量无标注数据

1≤m≤M，M为优化对抗生成网络的次数，p为大量无标注数据的序号；

5)通过满足差分隐私原理的公共数据x_i及相应标签、大量无标注数据

以及预训练的自编码器联合训练学生模型，得到隐私学生模型。

进一步地，所述神经网络教师模型的结构包括：卷积神经网络结构、循环神经网络结构或LSTM结构。

进一步地，训练神经网络教师模型的方法包括：SGD、Momentum、Adagrad或Adam。

进一步地，所述噪声包括：高斯噪声或拉普拉斯噪声。

进一步地，通过以下步骤获取满足差分隐私原理的公共数据x_i的相应标签：

1)在一公共数据x_i对各标签B_k的统计投票结果中，选取数值最大投票结果；

2)在数值最大投票结果上加入高斯分布第一标准差参数σ₁，并与一设定门限值比较；

3)若不小于所述设定门限值，则对各标签B_k的投票结果上加入高斯分布噪声

并将数值最大投票结果相应的标签B_k作为满足差分隐私原理的公共数据x_i的相应标签，其中，σ₂为高斯分布第二标准差参数。

进一步地，优化对抗生成网络的损失函数L_G＝αL_h+βL_a+γL_f，其中信息熵损失函数

H_info()为数据类别k生成概率的信息熵表示，

为预训练判别神经网络对生成网络输出x^i′的预测结果，x^i′通过将随机噪声向量z^i′输入对抗生成网络得到，1≤i′≤b，b为随机噪声向量的数量，激活损失函数

为预训练判别网络全连接层之前的输出，独热编码损失函数

t为预训练判别神经网络的预测标签，H_cross()为交叉熵损失函数，α、β、γ为对抗生成网络的超参数。

进一步地，预训练的自编码器包括：预训练VAE模型。

进一步地，对学生模型训练时，损失函数L_N＝l_sup+θ₁L_t+θ₂L_n+θ₃L_e，其中，θ₁、θ₂、θ₃为调节的超参数，监督损失函数l_sup为隐私学生模型针对满足差分隐私原理公共数据x_i的监督交叉熵损失函数，L_t为无标注数据的潜在数据流形的切向空间损失函数，L_n为无标注数据的潜在数据流形的法向空间损失函数，L_e为交叉熵正则损失函数。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明的积极效果为：

1.创新性地引入了对抗生成网络，使得只需极少量的少量公共数据即可训练一个隐私学生模型，易于部署在常见的应用场景。

2.创新性地使用教师集合隐私系统，实现了对敏感数据的物理隔离和网络隔离，易于部署，差分隐私模块能提供可控性更强、隐私保护开销更小的敏感数据隐私保护。

3.创新性地使用教师集合隐私训练系统，通过使用隔离网闸技术、物理隔离卡等技术，实现对敏感数据的物理隔离，通过设计差分隐私聚合模块，提供可控性更强、隐私开销更小的敏感数据隐私保护。

4.创新性的针对少量公共数据训练隐私学生模型，使用了半监督学习方法，有效的解决了隐私学生模型的精确度不高这一问题。

附图说明

图1为本发明的少量公共数据的隐私模型训练优化框架示意图。

图2为本发明的教师集合训练流程图。

图3为本发明的差分隐私聚合流程图。

图4为本发明的公共数据生成流程图。

图5为本发明的隐私模型训练流程图。

图6为本发明的一个简易装置示例图。

图7为本发明的一个应用场景示例。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的隐私模型训练方法，包括以下步骤：

1)对于N个部分的敏感数据，每个部分的数据都不相同，用N部分数据训练N个神经网络教师模型，得到教师集合模型{f₁...f_n}；

进一步地,所述N个神经网络教师模型{f₁...f_n},可以是使用相同的网络结构,也可以是不同的网络结构,例如使用相同的层数的卷积神经网络结构,或者使用不同层数、不同尺寸的卷积神经网络结构；

2)使用训练好的教师集合模型作为预测模型{f₁...f_n}，对少量公共数据{x₁...x_u}进行预测，得到预测的批量one-hot结果为{y₁...y_n},进一步的得到N个模型对少量公共数据的统计投票结果n_k(x)＝||{j：f_j(x)＝k}||₀，将统计投票结果输入差分隐私聚合器，，得到教师集合隐私保护系统的输出

输出为查询样本x_j统计投票最大值对应的类别k，即为查询样本x_j的标签，系统可以通过查询的方式对数据进行预测，同时系统整体实行严格的物理和网络保护，使得对用户和攻击者不可见；

进一步地，one-hot结果为每个教师模型预测出的二值化的结果，0代表不是，1代表是，{y₁...y_n}为对N个教师模型对少量公共数据预测的结果，n_k(x)＝||{j：f_j(x)＝k}||₀表示为教师模型预测为第k类别的统计投票值，将n_k(x)输入差分隐私聚合器，差分隐私聚合器将对输入n_k(x)加入高斯噪声

N代表其服从高斯分布，其输出中的

不限于为高斯分布，可以为拉普拉斯分布，系统通过查询的方式对数据进行预测；

进一步地差分隐私聚合器的实现方法为：设定一组初始化参数:门限值T,高斯分布的标准差参数{σ₁，σ₂},如果统计投票结果的最大值加上标准差为σ₁的高斯分布噪声，大于等于门限值T，公式化表示为：

那么给统计投票结果加上标准差为σ₂的高斯分布噪声，公式化表示为：

否则，统计投票结果不进行任何处理，并且不输出统计投票结果；

3)使用差分隐私聚合器输出的带噪标签{l₁...l_l}及其对应的数据{x₁...x_l}，作为隐私学生模型训练数据的一部分；

4)具体的隐私学生模型训练采用以下的步骤；

5)首先使用预训练的判别器优化生成器，使用L_G作为损失函数优化生成器，每一阶段优化结束，使用生成器生成大量的无标签公共数据{x₁...x_p}，隐私学生模型将此无标签数据作为训练数据的另一部分；

进一步地L_G＝αL_h+βL_a+γL_f,其中L_h为one-hot损失函数，计算判别器的输出与判别的one-hot输出的交叉熵，L_a为激活损失函数，计算生成器的全连接层之前的特征的L₁范数，L_f为信息交叉熵损失函数，计算生成器的输出的交叉熵，α、β、γ为需要调节的超参数。

6)使用少量得到数据标签的公共数据及其标签{x₁...x_l}、{l₁...l_l}，无标注数据{x₁...x_p}，以及预训练的自编码器联合训练隐私学生模型，使用L_s＝L_sup+θ₁L_t+θ₂L_n+θ₃L_e损失函数进行优化；

进一步地L_sup为隐私学生模型针对标注数据的监督交叉熵损失函数，其中，θ₁、θ₂、θ₂为调节参数，L_t为无标注数据的潜在数据流形的切向空间损失函数，L_n为无标注数据的潜在数据流形的法向空间损失函数，L_e为交叉熵正则损失函数；

7)迭代训练步骤5)、6)直至收敛，学习得到高精度的隐私学生模型。

这里的意思是，先使用随机噪声向量{z¹，z²，...，zⁿ}，生成无标注数据{x₁…x_p}，通过少量公共数据及其标签{x₁…x_l}、{l₁...l_l}及无标注数据{x₁...x_p}进行训练，若未达成目标，优化训练生成器，重新生成无标注数据{x₁...x_p}，接着再同样使用少量公共数据及其标签{x₁...x_l}、{l₁...l_l}及无标注数据{x₁...x_p}进行训练，直到收敛。

一种基于少量公共数据的神经网络模型隐私保护训练装置，其包括：

教师集合训练器，用于训练本地隐私数据的N个深度神经网络教师模型，将训练好的模型，对任意的输入样本进行预测，并输出N个深度神经网络教师模型的统计投票结果；差分隐私聚合器，用于给教师集合训练器输出的统计投票结果，加上满足差分隐私理论的噪声，然后输出教师投票的最大值作为样本的标签值。

公共数据生成器，用于通过预训练的判别器优化生成器，并输出无标签的公共数据。

隐私模型训练器，用于通过差分隐私聚合器生成的样本标签和对应的样本、公共数据生成器输出的无标签公共数据，输出优化后的隐私模型。

根据本发明实施例的一方面，提供了一种隐私模型的训练方法的方法实施例。本发明的方法流程如图1所示。本发明的方法框架包含深度神经网络(DNN)的数目不是固定的，主要由教师集合训练器、差分隐私聚合器、公共数据生成器和隐私模型训练器四个模块组成，特别的图1中虚线框代表着四个模块组成的系统与外界进行物理隔离。

一.教师集合训练器

本发明构建基于DNN的教师集合训练器。具体地，教师集合训练器将N部分的敏感数据分别进行训练N个教师模型，具体的模型结构不限于采用卷积神经网络结构、循环神经网络结构、LSTM等结构，教师模型的优化方法不限于采用SGD、Momentum、Adagrad、Adam等方式，N部分的敏感数据表示为{1...n}，训练优化后的N个教师模型表示为{f₁...f_n}，训练优化后的模型，用于对任意的数据输入x_i，输出一个教师集合的投票结果为n_k(x_i)＝||{j：f_j(x_i)＝k}||₀，其中n_k(x_i)为教师投票为第k的统计计数结果。其中k代表数据的标签类别，教师集合训练器的流程如图2所示。

该教师集合训练器的优点在于，对于任意的输入，教师集合训练器能得到一个是大多数教师共识的一个预测结果，保证模型的准确性，减小了输出的随机性。

二.差分隐私聚合器

教师集合训练器能得到一个较为准确的预测结果，然而却面临着被恶意攻击者攻击的风险，近些年的研究表明，恶意攻击者可以通过白盒攻击或者黑盒攻击方式，恢复出被教师集合训练器隐性记住的敏感数据，从而达到泄露用户隐私的目的，针对此种情形，构建一个差分隐私聚合器，该模块主要用于给教师集合训练器的输出结果加上差分隐私，从而保护敏感数据。具体地，本模块通过以下的步骤对教师集合训练器的输出结果加上噪声，满足差分隐私理论；首先输入教师集合训练器对查询样本x_i的统计投票结果n_k(x_i)，并初始化门限值T、高斯分布标准差参数{σ₁，σ₂}，将教师集合训练器的统计投票取最大的投票值

在此上加上服从标准差参数为σ₁，均值为0的高斯分布噪声

与门限值T进行比较大小，若大于等于T值，则对教师集合训练起的各统计投票值n_k(x_i)加上服从标准差参数为σ₂，均值为0的高斯分布噪声

最终取该结果的最大投票值对应的类别作为查询样本x_i的标签，差分隐私聚合器最终输出结果为敏感数据x_i投票最大值，最大值对应的类别k；若小于T值，则对此次输入的查询样本x_i的统计投票结果n_k(x_i)不做任何处理，直接舍弃该投票结果，差分隐私聚合器的流程如图3所示。

该模块的优点体现在：给教师模型的共识加上了高斯分布的随机噪声，使得满足差分隐私理论，能进一步的保护敏感数据不被攻击者窃取和泄露。

基于此，本模块构建了一个基于DNN的标签去噪优化与集成决策模型Φ_t，具体地，模型由11个全连接层构成，

该模块的优点体现在：有效地利用了既有弱标签所蕴含的对场景数据的理解能力，通过知识再整合，用于提升模型在具体业务上的表现，形成了一个通用的模型框架。

三.公共数据生成器

为了有效的提高隐私模型训练后的有效性，本模块构建了公共数据生成器，用于生成大量无标签的公共数据辅助隐私学生模型进行训练，具体地，采用以下的步骤来生成无标签的公共数据，使用对抗生成网络框架，通过将预训练的模型作为判别器，来优化生成网络，生成网络从噪声中生成逼真的公共数据，进一步的使用判别器判别真假，将生成网络和判别器分别表示为G，f_T，给定以随机噪声向量{z¹，z²，...，z^b}作为生成网络的输入，则生成网络的输出为{x¹，x²，...，x^b},其中xⁱ＝G(zⁱ)，判别器对生成网络输出进行判别，得到预测的输出结果

其中

进一步地得到输出结果的预测标签

则

对应的预测标签为{t¹，t²，...，t^b}，将独热编码损失函数L_h来优化判别器输出的结果与独热编码相似，其中

H_cross(p，q)为交叉熵损失函数，其中p，q为独立的概率分布，卷积层取出的特征图包含有关于输入的丰富信息，真实的输入相比于随机噪声，将在特征图中具有极高的激活值，通过采用判别网络全连接层之前的输出

来构建激活损失函数L_a来指导优化生成网络，具体地

其中||·||₁代表1范数。为了使得生成网络生成的样本的类别保持平衡，采用信息熵来度量样本类别生成的概率p′，信息熵表示为

进一步地使用信息熵损失函数L_f，其中

采用下式L_G＝αL_h+βL_a+γL_f进行联合优化生成网络，其中α，α，β为需要调节的超参数，通过最小化L_G得到能够生成逼真样本的生成网络，从而生成大量的无标注的公共数据。公共数据生成器的流程如图4所示。

该模块的优点体现在：统一融合了模型和知识，创新性地构建了生成网络模型优化策略，利用判别器的知识引导模型优化，从而提高生成模型的生成真实数据的能力。

四.隐私模型训练器

利用少量公共数据及其标签{x₁...x_l}、{l₁...l_l}，无标注数据{x₁...x_p}作为隐私学生模型的训练数据，本模块构建了隐私模型训练器，用于训练一个隐私保护性能强、模型性能好的可发布隐私学生模型。具体地，采用一个预训练VAE模型来寻找训练数据空间潜在数据的流形空间，对于输入x∈M，其中M为训练数据潜在的流行空间，编码器和解码器分别表示为h(x)，g(z)，其中z＝h(x)，对VAE模型的任意的数据输入x，在VAE模型的中间隐层表示z分别加入扰动r和扰动

以限制潜在的数据流行空间分别在切向空间和法向空间的平滑性，这里的切线空间平行于潜在的数据流行空间，法向空间正交与潜在的数据流行空间，通过采用切向空间正则损失函数、法向空间正则损失函数、交叉熵损失函数、监督损失函数来联合优化隐私学生模型。其中切向空间正则损失函数表示为：

其中r为对抗扰动，其中z＝h(x)，为自编码器的中间隐层表示，其中θ是模型训练的参数，τ是一个控制对抗扰动r的常量，M_Δ为潜在数据流行的切向空间，J为求雅克比矩阵，R^d为真实输入空间，x为输入的样本，

为虚拟对抗损失函数，其中dist采用交叉熵来度量两个不同分布之间的差异性，具体地上式求解采用迭代计算共轭梯度来完成，同样的对于法向空间正则损失函数也可以表示为：

其中ε是一个控制对抗扰动

的常量，同样的可以转化为使用迭代计算共轭梯度来完成，监督损失函数表示为

l_sup＝l(y_l，p(y|x_l，θ))

其中y_l为少量公共数据标签，x_l为少量公共数据数据，y为预测结果，交叉熵损失函数表示为

通过总的损失函数L_N＝l_sup+θ₁L_t+θ₂L_n+θ₃L_e来指导优化一个隐私学生模型，最终得到一个可发布的高精度隐私模型，隐私模型训练器的流程如图5所示。

该模块的优点体现在：统一融合了带噪标签数据和无标签公共数据，创新性地构建了隐私学生模型优化策略，利潜在的数据流行空间知识引导模型优化，从而提高隐私模型可用性及其泛化能力。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

下面结合图6对本发明在具体场景中的利用进行描述。

如图6，将已有的少量公共数据作为输入，经本发明提出的基于少量公共数据的隐私模型训练方法与装置即可得到一个与之相适应的高精度、强隐私保护的隐私学生模型，进而实现隐私保护和模型可用的双重目的。

当前在多家医院往往都在与相关部门合作，开发精准的医学诊断模型，然而出于隐私保护的目的，医院之间的病人数据往往不共享，如图7，将所有的医院数据接入基于少量公共数据的隐私模型训练方法及装置，可以得到一个可以发布的隐私学生模型，进而可以将其部署到各种用户终端，相比于其他技术而言，在发布隐私学生模型之前，不仅可以通过物理隔离保护敏感数据，而且在训练过程中可以通过隐私模型训练方法保护敏感数据不被窃取，相比于PATE方法而言，本发明，仅需要少量的公共数据，大大减少隐私学生模型训练部署的难度，提升了方法的实用性。

本发明的以上技术方案中，未详细描述的部分可以采用现有技术实现。

本发明方案中，所提到的网络的结构并不仅限于卷积神经网络，而可以根据具体业务场景设计具体的网络架构(例如，循环神经网络等)。本发明方案中定义的距离函数均可替换为其他广义距离度量。

Claims

1.一种基于少量公共数据的隐私模型训练方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，所述神经网络教师模型的结构包括：卷积神经网络结构、循环神经网络结构或LSTM结构。

3.如权利要求1所述的方法，其特征在于，训练神经网络教师模型的方法包括：SGD、Momentum、Adagrad或Adam。

4.如权利要求1所述的方法，其特征在于，所述噪声包括：高斯噪声或拉普拉斯噪声。

5.如权利要求4所述的方法，其特征在于，通过以下步骤获取满足差分隐私原理的公共数据x_i的相应标签：

6.如权利要求1所述的方法，其特征在于，优化对抗生成网络的损失函数L_G＝αL_h+βL_a+γL_f，其中信息熵损失函数

H_info()为数据类别k生成概率的信息熵表示，

为预训练判别网络全连接层之前的输出，独热编码损失函数

7.如权利要求1所述的方法，其特征在于，预训练的自编码器包括：预训练VAE模型。

8.如权利要求1所述的方法，其特征在于，对学生模型训练时，损失函数L_N＝l_sup+θ₁L_t+θ₂L_n+θ₃L_e，其中，θ₁、θ₂、θ₃为调节的超参数，监督损失函数l_sup为隐私学生模型针对满足差分隐私原理公共数据x_i的监督交叉熵损失函数，L_t为无标注数据的潜在数据流形的切向空间损失函数，L_n为无标注数据的潜在数据流形的法向空间损失函数，L_e为交叉熵正则损失函数。

9.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-8中任一所述方法。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-8中任一所述方法。