CN115329337A

CN115329337A - 一种学习过程中模型梯度泄露输入信息的风险评估方法

Info

Publication number: CN115329337A
Application number: CN202210799021.9A
Authority: CN
Inventors: 王乐; 李钊华; 顾钊铨; 陈光耀; 黄坤鑫; 马丽婷; 张志强
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2022-11-11

Abstract

本发明涉及人工智能技术领域，公开了一种学习过程中模型梯度泄露输入信息的风险评估方法，包括以下步骤：S1：对本地数据集进行采样，得到本地采样数据集；S2：分析本地采样数据集，从而得到本地采样数据样本的参数梯度；S3：计算本地采样数据样本与采样样本参数梯度的互信息值；S4：当该互信息值达到设定程度时，发出隐私泄露风险提醒，否则将该参数梯度上传至服务器。该学习过程中模型梯度泄露输入信息的风险评估方法，与现有的梯度泄露输入的指标相比，梯度信息比可以衡量批样本中的每个样本被批样本梯度泄露的风险程度，不同样本的隐私重要性不同，那么参与方对所上传的批样本梯度将会引入隐私保护的机制。

Description

一种学习过程中模型梯度泄露输入信息的风险评估方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种学习过程中模型梯度泄露输入信息的风险评估方法。

背景技术

近期对联邦学习中隐私保护有效性问题的研究证实，通过一定的手段可以基于模型梯度来重构输入数据，意味着联邦学习中共享模型梯度的隐私保护机制依然存在数据泄露的风险，而不同的输入样本具有不同的样本特征值，在联邦学习中被泄露的风险也不同。我们发明了一个新的指标用于衡量输入样本在基于深度学习模型的联邦学习框架中被泄露的风险程度，可用于联邦学习框架构建和应用中对输入样本数据进行评估、筛选以及对框架的隐私安全性进行评估。

根据中国专利CN112765559A可知，在现有技术中，通过预先训练的统计模型计算采样样本与其梯度的互信息值，据此衡量样本的梯度隐私泄露风险。该技术要求预先训练的统计模型这一先决条件，且模型效能会影响互信息计算的准确性；在实际梯度泄露数据攻击中，目标样本是一批样本，批样本中通常包含多个样本，数据偷窃者只能获取到目标参与方的批样本梯度，无法知晓批样本中每个样本对应的梯度，所以只能对批样本梯度进行逆向，从而重构出批样本。在重构出的批样本中的样本特征还原度不同，即目标样本特征被泄露的程度不同，主要由样本的梯度占该批样本梯度的信息比值所决定，梯度信息量比值越大，意味着该样本梯度在批样本梯度中越具有主导地位，利用批样本梯度进行逆向分析时，更容易重构出该样本特征，现有技术没有有效体现这一关联特征。

发明内容

本发明的目的在于提供一种学习过程中模型梯度泄露输入信息的风险评估方法，以解决联邦学习中参与方共享的批样本梯度会泄露其本地输入数据特征，而不同的输入样本由于其特征信息量、特征分布的不同，在不同的联邦学习基础模型中，其被泄露的程度也既风险不同。因此，需要设计一种批样本梯度泄露其输入特征信息量的评估指标，用于量化批样本中的单个样本特征信息泄露的风险程度，以支持采用基于梯度的深度学习模型构建的联邦学习框架的安全性评估问题。

为实现上述目的，本发明提供如下技术方案：

一种学习过程中模型梯度泄露输入信息的风险评估方法，包括以下步骤：

S1：对本地数据集进行采样，得到本地采样数据集。

S2：分析本地采样数据集，从而得到本地采样数据样本的参数梯度。

S3：计算本地采样数据样本与采样样本参数梯度的互信息值。

S4：当该互信息值达到设定程度时，发出隐私泄露风险提醒，否则将该参数梯度上传至服务器。

优选的，所述S1中设某一参与方拥有一批样本(X，Y)≡((x⁽¹⁾，y⁽¹⁾),(x⁽²⁾，y⁽²⁾),...,(x^(B),y^(B)))，批大小为B，其中(x⁽ⁱ⁾,y⁽ⁱ⁾)表示批样本中的第i个样本，x⁽ⁱ⁾表示样本特征，y⁽ⁱ⁾表示样本标签。

优选的，所述S2中批样本(X,Y)输入神经网络模型获得其对应的批样本梯度G并将此上传至参数服务器，以达到数据不离本地的联合构建模型的目的。

优选的，所述S3中参与方上传的批样本梯度G可能会被参数服务器或其他参与方通过逆向来重构出本地批样本(X,Y)，但批样本中的每个样本被重构的可能性是不同的，为了能够量化样本特征被重构的风险，提出了一种衡量批样本中不同样本特征泄露的风险评估方法：梯度信息比，

批样本梯度G与批样本中各样本的梯度存在均值关系：

优选的，所述S3中若某个样本的梯度G⁽ⁱ⁾占批样本梯度G的信息量越大，那么其样本被泄露的可能性越大，因此我们需要通过计算样本梯度占批样本梯度的信息量来衡量对应样本被泄露的可能性，梯度是高维向量，向量有大小和方向两个属性,需要将各样本的向量投影到批样本梯度向量上，才可实现在同一方向和尺度上进行对比,衡量各样本的梯度信息占批样本梯度的信息大小。

与现有技术相比，本发明的有益效果是：

该学习过程中模型梯度泄露输入信息的风险评估方法，与现有的梯度泄露输入的指标相比，梯度信息比可以衡量批样本中的每个样本被批样本梯度泄露的风险程度，除了对样本泄露风险进行评估外，还可以满足如下场景的应用：不同样本的隐私重要性不同，那么参与方对所上传的批样本梯度将会引入隐私保护的机制(如差分隐私)，传统的隐私预算是根据整个输入集和模型进行指定的，而我们提出的梯度信息比指标能够评估出不同样本的泄露风险，从而可以满足参与方针对隐私重要性较高的样本给予更小的隐私预算，即不同样本给予不同的隐私保护强度，从而满足差异化隐私保护的目的，从而减小了隐私保护策略对模型训练和可用性的影响。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的联邦学习梯度泄露输入风险评估-梯度信息比流程示意图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参阅图1，本发明实施例提供的学习过程中模型梯度泄露输入信息的风险评估方法，包括以下步骤：

S1：对本地数据集进行采样，得到本地采样数据集。

设某一参与方拥有一批样本(X，Y)≡((x⁽¹⁾，y⁽¹⁾),(x⁽²⁾，y⁽²⁾),...,(x^(B),y^(B)))，批大小为B，其中(x⁽ⁱ⁾,y⁽ⁱ⁾)表示批样本中的第i个样本，x⁽ⁱ⁾表示样本特征，y⁽ⁱ⁾表示样本标签。批样本(X,Y)输入神经网络模型获得其对应的批样本梯度G并将此上传至参数服务器，以达到数据不离本地的联合构建模型的目的。而参与方上传的批样本梯度G可能会被参数服务器或其他参与方通过逆向来重构出本地批样本(X,Y)，但批样本中的每个样本被重构的可能性是不同的。为了能够量化样本特征被重构的风险，提出了一种衡量批样本中不同样本特征泄露的风险评估方法：梯度信息比，

批样本梯度G与批样本中各样本的梯度存在均值关系：

若某个样本的梯度G⁽ⁱ⁾占批样本梯度G的信息量越大，那么其样本被泄露的可能性越大。因此我们需要通过计算样本梯度占批样本梯度的信息量来衡量对应样本被泄露的可能性，梯度是高维向量，向量有大小和方向两个属性,需要将各样本的向量投影到批样本梯度向量上，才可实现在同一方向和尺度上进行对比,衡量各样本的梯度信息占批样本梯度的信息大小。利用向量投影公式得到第i个样本梯度G⁽ⁱ⁾在批样本梯度向量G上的投影向量

如公式(2)所示。

其中投影向量

在批样本梯度向量G上的长度为||G⁽ⁱ⁾||cosθ⁽ⁱ⁾，cosθ⁽ⁱ⁾为样本梯度与批样本梯度的夹角余弦值，方向为G/||G||。此时，各样本可以通过该式得到对应的投影向量。基于此，提出可以通过比较各投影向量的长度||G⁽ⁱ⁾||cosθ⁽ⁱ⁾来对比各样本梯度在批样本梯度向量上的信息量，如公式(3)所示。

其中<G⁽ⁱ⁾,G>表示数量积，某个样本的Info(x⁽ⁱ⁾)值越高，表明其在批样本梯度G中所占信息量越大，其对应的样本特征越容易被批样本梯度所泄露。为了更清晰的表示样本梯度占批样本梯度的信息量比例，提出了一个梯度信息比Info(x⁽ⁱ⁾)来表达各样本梯度占批样本梯度的信息比，

将公式(3)带入(4)中可得，

其中Info＝(InfoR(x⁽⁰⁾),InfoR(x⁽¹⁾),...,InfoR(X^(b))),|min(Info)|表示取最小投影向量长度的绝对值，∈的引入是为了使得比值恒为正。InfoR(x⁽ⁱ⁾)从目标样本梯度占批样本梯度的信息比的角度，更直观了表达了样本特征被批样本梯度泄露的风险，对应批样本梯度泄露某一输入信息的风险程度。

梯度信息比指标衡量批样本梯度泄露输入信息的风险程度的步骤如下：

1)参与方选取一批个数为B的待训练样本(X,Y),并计算批样本梯度G和其中各样本的梯度G⁽ⁱ⁾；

2)选取某一样本x⁽ⁱ⁾，按公式(5)梯度信息比指标计算所选样本的梯度信息比；

3)通过梯度信息比InfoR(x⁽ⁱ⁾)，获取样本x⁽ⁱ⁾被批样本梯度G所泄露的风险程度，以达到输入样本特征泄露风险的评估。

本发明上述实施例提供的学习过程中模型梯度泄露输入信息的风险评估方法，与现有的梯度泄露输入的指标相比，梯度信息比可以衡量批样本中的每个样本被批样本梯度泄露的风险程度，不同样本的隐私重要性不同，那么参与方对所上传的批样本梯度将会引入隐私保护的机制。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种学习过程中模型梯度泄露输入信息的风险评估方法，其特征在于：包括以下步骤：

S1：对本地数据集进行采样，得到本地采样数据集；

S2：分析本地采样数据集，从而得到本地采样数据样本的参数梯度；

S3：计算本地采样数据样本与采样样本参数梯度的互信息值；

2.根据权利要求1所述的学习过程中模型梯度泄露输入信息的风险评估方法，其特征在于：所述S1中设某一参与方拥有一批样本(X，Y)≡((x⁽¹⁾，y⁽¹⁾),(x⁽²⁾，y⁽²⁾),...,(x^(B),y^(B)))，批大小为B，其中(x⁽ⁱ⁾,y⁽ⁱ⁾)表示批样本中的第i个样本，x⁽ⁱ⁾表示样本特征，y⁽ⁱ⁾表示样本标签。

3.根据权利要求1所述的学习过程中模型梯度泄露输入信息的风险评估方法，其特征在于：所述S2中批样本输入神经网络模型获得其对应的批样本梯度并将此上传至参数服务器，以达到数据不离本地的联合构建模型的目的。

4.根据权利要求1所述的学习过程中模型梯度泄露输入信息的风险评估方法，其特征在于：所述S3中参与方上传的批样本梯度可能会被参数服务器或其他参与方通过逆向来重构出本地批样本，但批样本中的每个样本被重构的可能性是不同的，为了能够量化样本特征被重构的风险，提出一种衡量批样本中不同样本特征泄露的风险评估方法：梯度信息比；批样本梯度与批样本中各样本的梯度存在均值关系：