CN115270192B

CN115270192B - 样本标签隐私风险评估方法、系统及存储介质

Info

Publication number: CN115270192B
Application number: CN202211171745.5A
Authority: CN
Inventors: 赖方民
Original assignee: Guangzhou Youkegu Technology Co ltd
Current assignee: Guangzhou Youkegu Technology Co ltd
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-12-30
Anticipated expiration: 2042-09-26
Also published as: CN115270192A

Abstract

本发明涉及一种样本标签隐私风险评估方法、系统及存储介质，包括：S1.选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接网络的梯度

；S2.构建正则化项

；S3.加载辅助数据集；S4.设定训练转换矩阵的超参数；S5.加载转换矩阵；S6.随机从辅助数据集中抽取一批样本，在当前全局模型上计算对应的梯度G；S7.从梯度G中获取全局模型最后一层全连接层的梯度

；将

按行求和得到向量

；S8.基于向量

训练转换矩阵的参数；S9.重复步骤S6‑S8直至达到为转换矩阵设定的超参数；S10.基于训练好的转换矩阵对待训练样本的梯度

进行标签泄露的风险评估。

Description

样本标签隐私风险评估方法、系统及存储介质

技术领域

本发明涉及人工智能技术领域，更具体地，涉及一种基于可学习转换矩阵的样本标签隐私风险评估方法、系统及存储介质。

背景技术

在联邦学习等分布式隐私计算场景中，众多客户端与服务器构成一个闭环。在某一次全局模型迭代更新中，客户端需要从本地数据集中抽取一批样本参与模型的训练。一批样本包含的样本数目为批大小，每个样本由一组特征标签对(x,y)构成，符号x表示样本特征，y表示样本标签。客户端利用该批样本在全局的深度学习模型上计算出模型梯度，并将梯度发送至服务器；服务器负责接收各客户端的梯度并进行梯度融合，以形成一个新的深度学习模型，并将其回传给各客户端。其中客户端需要对所发送的梯度进行隐私安全评估，评估梯度是否会泄露样本的标签信息，因为标签信息的泄露是造成样本特征等更严重的隐私泄露的关键要素。

目前，样本标签隐私风险评估的主流思路是构建一种更高标签重构的算法，以实现模拟出泄露的上限能力，即以实际的泄露效果来指示风险，因此要求较高的标签重构精度。过去的方案如通过梯度的正负符号和幅值大小来直接推断标签信息的方式存在较大局限性，基于单个梯度的推断是片面的，因此在实际应用中所取得的标签重构精度较低。

发明内容

本发明的发明目的在于提供一种基于可学习转换矩阵的样本标签隐私风险评估方法，其通过构建转换矩阵，通过该转换矩阵来进行梯度到标签的映射。转换矩阵的参数是通过大量的相似标签的样本的梯度进行优化的，因此梯度到标签的转换过程是可学习的，提高了梯度泄露标签的精度，其实现的评估效果更趋近于梯度泄露数据的能力上限，起到更好的风险评估效果。

为实现以上发明目的，采用的技术方案是：

一种样本标签隐私风险评估方法，包括以下步骤：

S1.选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接网络的梯度

；

S2.构建正则化项

；

S3.加载辅助数据集；

S4.设定训练转换矩阵的超参数；

S5.加载转换矩阵；

S6.随机从辅助数据集中抽取一批样本，在当前全局模型上计算对应的梯度G；

S7. 从梯度G中获取全局模型最后一层全连接层的梯度

；将

按行求和得到向量

；

S8.基于向量

训练转换矩阵的参数；

S9.重复步骤S6-S8直至达到为转换矩阵设定的超参数；

S10.基于训练好的转换矩阵对待训练样本的梯度

进行标签泄露的风险评估。

优选地，所述步骤S2构建正则化项

，具体表示为：

其中，

为求取的转换矩阵T的模大小；M为全局模型倒数第二层网络的神经元个数，即为目标模大小约束；

表示求取模值大小操作；B为批大小；K为标签种类个数；

表示梯度

按行求和得到的维度为K的向量；梯度

为维度为M*K的矩阵。

优选地，所述步骤S3加载辅助数据集，具体包括：

在本地数据集中抽取所有符合要求的样本构成辅助数据集；辅助数据集中，样本的标签是待训练样本中存在的标签。

优选地，所述步骤S4设定训练转换矩阵的超参数，具体包括：训练总轮次、学习率、正则化权重、批大小；所述步骤S9中，当训练的轮次达到设定的训练总轮次时，执行步骤S10。

优选地，所述步骤S5加载转换矩阵，具体包括：对转换矩阵中的数值以正态分布进行初始化，矩阵维度为K×K。

优选地，所述步骤S6随机从辅助数据集中抽取一批样本，在当前全局模型上计算对应的梯度G，具体包括：

所述抽取的该批样本的标签列表设为Y，标签列表Y共有K个元素，元素的数值表示为某一类标签的数目；

基于标签列表Y在当前全局模型上计算该批样本对应的梯度G。

优选地，所述步骤S8基于向量

训练转换矩阵的参数，具体包括：

梯度向量

乘上转换矩阵T得到向量Z：

向量Z经过Softmax函数转换，并乘上批大小B得到预测的标签列表

：

其中标签列表

中的元素

表示如下：

其中e＝2.71，为尤拉常数；j的取值范围为1~K；

利用平均绝对误差衡量预测的标签列表

和抽取的样本的真实标签列表Y的差异值加上正则化项作为训练的损失值：

其中

为正则化权重；

为标签列表Y中的第i个元素；

计算损失值

对转换矩阵T的偏导

，利用所述偏导

更新转换矩阵：

，

为学习率。

优选地，所述步骤S10基于训练好的转换矩阵对待训练样本的梯度

进行标签泄露的风险评估具体包括：

基于向量

计算向量

：

；

对待训练样本的标签列表进行预测，得到预测的标签列表：

求取风险评估值

：

其中

表示

中的第i个元素，

为待训练样本的真实标签列表

中的第i个元素。

同时，本发明还提供了一种样本标签隐私风险评估系统，其应用以上所述的样本标签隐私风险评估方法，包括：梯度计算模块、初始化模块、转换矩阵训练模块及风险评估模块；所述梯度计算模块用于执行步骤S1；初始化模块用于执行步骤S2-S4；转换矩阵训练模块用于执行步骤S5-S9；风险评估模块用于执行步骤S10。

另外，本发明还提供了一种存储介质，包括存储器及处理器，所述存储器内存储有程序，所述程序被所述处理器执行时，执行以上所述方法的方法步骤。

与现有技术相比，本发明的有益效果是：

（1）本发明提供的方法通过构建转换矩阵，通过该转换矩阵来进行梯度到标签的映射。转换矩阵的参数是通过大量的相似标签的样本的梯度进行优化的，因此梯度到标签的转换过程是可学习的，提高了梯度泄露标签的精度，其实现的评估效果更趋近于梯度泄露数据的能力上限，起到更好的风险评估效果。

（2）本发明提供的方法所设计的转换矩阵的参数只有

个，其中

为标签种类的个数，相比于客户端所使用的全局深度学习模型来说其参数量较小，因此无论在训练或是应用上都能够高效地执行。

（3）本发明提供的方法在转换矩阵的训练过程中，引入了正则化的约束，该约束有效地将转换矩阵的参数的搜索空间控制在有效范围内。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为样本标签隐私风险评估方法的流程示意图。

图2为样本标签隐私风险评估系统的结构示意图。

图3为存储介质的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

如图1所示，本发明提供的样本标签隐私风险评估方法包括有以下步骤：（1）选定待训练样本，并计算对应梯度；（2）构建正则化项；（3）加载辅助数据集；（4）设定训练转换矩阵的超参数；（5）加载转换矩阵；（6）判断是否达到训练总轮次；若是则基于所述转换矩阵及步骤（1）计算的对应梯度，计算风险评估值；否则重复执行步骤（7）~（9）：（7）随机从辅助数据集中抽取一批样本，并计算对应梯度；（8）获取模型最后一层的参数梯度；（9）训练转换矩阵的参数。

在具体的实施过程中，所述步骤（1）具体包括：选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接网络的梯度

。

在具体的实施过程中，所述步骤（2）具体包括：

其中，

表示求取模值大小操作；B为批大小；K为标签种类个数；

表示梯度

按行求和得到的维度为K的向量；梯度

为维度为M*K的矩阵。

在具体的实施过程中，所述步骤（3）具体包括：在本地数据集中抽取所有符合要求的样本构成辅助数据集；辅助数据集中，样本的标签是待训练样本中存在的标签。

在具体的实施过程中，所述步骤（4）具体包括：设定训练总轮次、学习率、正则化权重、批大小（与全局模型训练采用的批大小一致）。

在具体的实施过程中，所述步骤（5）具体包括：对转换矩阵中的数值以正态分布进行初始化，矩阵维度为K×K。

在具体的实施过程中，所述步骤（7）具体包括：所述抽取的该批样本的标签列表设为Y，标签列表Y共有K个元素，元素的数值表示为某一类标签的数目；第i个元素数值表示标签i在样本中的数目。若标签列表中的某标签位的数值不为0，则表示样本中包含该标签，则该标签为待评估标签。

在具体的实施过程中，所述步骤（8）具体包括：从梯度G中获取全局模型最后一层全连接层的梯度

；将

按行求和得到向量

，

是维度为𝐾的向量。

在具体的实施过程中，所述步骤（9）具体包括：

梯度向量

乘上转换矩阵T得到向量Z：

：

其中标签列表

中的元素

表示如下：

其中e＝2.71，为尤拉常数；j的取值范围为1~K；

利用平均绝对误差衡量预测的标签列表

其中

为正则化权重；

为标签列表Y中的第i个元素；

计算损失值

对转换矩阵T的偏导

，利用所述偏导

更新转换矩阵：

，

为学习率。

在具体的实施过程中，所述步骤（6）基于所述转换矩阵及步骤（1）计算的对应梯度，计算风险评估值，具体包括：

基于向量

计算向量

：

；

对待训练样本的标签列表进行预测，得到预测的标签列表：

求取风险评估值

：

其中

表示

中的第i个元素，

为待训练样本的真实标签列表

中的第i个元素。评估值

实际上是预测的标签列表

和待训练样本的真实标签列表

的平均绝对误差。

实施例2

本实施例提供了一种样本标签隐私风险评估系统，如图2所示，其应用实施例1所述的样本标签隐私风险评估方法，包括：梯度计算模块、初始化模块、转换矩阵训练模块及风险评估模块；所述梯度计算模块用于执行步骤S1；初始化模块用于执行步骤S2-S4；转换矩阵训练模块用于执行步骤S5-S9；风险评估模块用于执行步骤S10。

实施例3

本实施例提供了一种存储介质，如图3所示，包括存储器及处理器，所述存储器内存储有程序，所述程序被所述处理器执行时，执行实施例1所述方法的方法步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种样本标签隐私风险评估方法，其特征在于：包括以下步骤：

；

S2.构建正则化项

；

S3.加载辅助数据集；

S4.设定训练转换矩阵的超参数；

S5.加载转换矩阵；

S7. 从梯度G中获取全局模型最后一层全连接层的梯度

；将

按行求和得到向量

；

S8.基于向量

训练转换矩阵的参数；

S9.重复步骤S6-S8直至达到为转换矩阵设定的超参数；

S10.基于训练好的转换矩阵对待训练样本的梯度

进行标签泄露的风险评估；

所述步骤S2构建正则化项

，具体表示为：

其中，

表示求取模值大小操作；B为批大小；K为标签种类个数；

表示梯度

按行求和得到的维度为K的向量；梯度

为维度为M*K的矩阵；

所述步骤S4设定训练转换矩阵的超参数，具体包括：训练总轮次、学习率、正则化权重、批大小；所述步骤S9中，当训练的轮次达到设定的训练总轮次时，执行步骤S10；

所述步骤S5加载转换矩阵，具体包括：对转换矩阵中的数值以正态分布进行初始化，矩阵维度为K×K；

所述步骤S6随机从辅助数据集中抽取一批样本，在当前全局模型上计算对应的梯度G，具体包括：

基于标签列表Y在当前全局模型上计算该批样本对应的梯度G；

所述步骤S8基于向量

训练转换矩阵的参数，具体包括：

梯度向量

乘上转换矩阵T得到向量Z：

：

其中标签列表

中的元素

表示如下：

其中e＝2.71，为尤拉常数；j的取值范围为1~K；

利用平均绝对误差衡量预测的标签列表

其中

为正则化权重；

为标签列表Y中的第i个元素；

计算损失值

对转换矩阵T的偏导

，利用所述偏导

更新转换矩阵：

，

为学习率；

所述步骤S10基于训练好的转换矩阵对待训练样本的梯度

进行标签泄露的风险评估具体包括：

基于向量

计算向量

：

；

对待训练样本的标签列表进行预测，得到预测的标签列表：

求取风险评估值

：

其中

表示

中的第i个元素，

为待训练样本的真实标签列表

中的第i个元素。

2.根据权利要求1所述的样本标签隐私风险评估方法，其特征在于：所述步骤S3加载辅助数据集，具体包括：

3.一种样本标签隐私风险评估系统，应用权利要求1-2任一项所述的样本标签隐私风险评估方法，其特征在于：包括：梯度计算模块、初始化模块、转换矩阵训练模块及风险评估模块；所述梯度计算模块用于执行步骤S1；初始化模块用于执行步骤S2-S4；转换矩阵训练模块用于执行步骤S5-S9；风险评估模块用于执行步骤S10。

4.一种存储介质，包括存储器及处理器，所述存储器内存储有程序，其特征在于：所述程序被所述处理器执行时，执行权利要求1-2任一项所述方法的方法步骤。