CN115270192B - 样本标签隐私风险评估方法、系统及存储介质 - Google Patents

样本标签隐私风险评估方法、系统及存储介质 Download PDF

Info

Publication number
CN115270192B
CN115270192B CN202211171745.5A CN202211171745A CN115270192B CN 115270192 B CN115270192 B CN 115270192B CN 202211171745 A CN202211171745 A CN 202211171745A CN 115270192 B CN115270192 B CN 115270192B
Authority
CN
China
Prior art keywords
gradient
sample
samples
training
risk assessment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211171745.5A
Other languages
English (en)
Other versions
CN115270192A (zh
Inventor
赖方民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Youkegu Technology Co ltd
Original Assignee
Guangzhou Youkegu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Youkegu Technology Co ltd filed Critical Guangzhou Youkegu Technology Co ltd
Priority to CN202211171745.5A priority Critical patent/CN115270192B/zh
Publication of CN115270192A publication Critical patent/CN115270192A/zh
Application granted granted Critical
Publication of CN115270192B publication Critical patent/CN115270192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种样本标签隐私风险评估方法、系统及存储介质,包括:S1.选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接网络的梯度
Figure 100004_DEST_PATH_IMAGE001
;S2.构建正则化项
Figure 867597DEST_PATH_IMAGE002
;S3.加载辅助数据集;S4.设定训练转换矩阵的超参数;S5.加载转换矩阵;S6.随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G;S7.从梯度G中获取全局模型最后一层全连接层的梯度
Figure 100004_DEST_PATH_IMAGE003
;将
Figure 543429DEST_PATH_IMAGE003
按行求和得到向量
Figure 594562DEST_PATH_IMAGE004
;S8.基于向量
Figure 660738DEST_PATH_IMAGE004
训练转换矩阵的参数;S9.重复步骤S6‑S8直至达到为转换矩阵设定的超参数;S10.基于训练好的转换矩阵对待训练样本的梯度
Figure 100004_DEST_PATH_IMAGE005
进行标签泄露的风险评估。

Description

样本标签隐私风险评估方法、系统及存储介质
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种基于可学习转换矩阵的样本标签隐私风险评估方法、系统及存储介质。
背景技术
在联邦学习等分布式隐私计算场景中,众多客户端与服务器构成一个闭环。在某一次全局模型迭代更新中,客户端需要从本地数据集中抽取一批样本参与模型的训练。一批样本包含的样本数目为批大小,每个样本由一组特征标签对(x,y)构成,符号x表示样本特征,y表示样本标签。客户端利用该批样本在全局的深度学习模型上计算出模型梯度,并将梯度发送至服务器;服务器负责接收各客户端的梯度并进行梯度融合,以形成一个新的深度学习模型,并将其回传给各客户端。其中客户端需要对所发送的梯度进行隐私安全评估,评估梯度是否会泄露样本的标签信息,因为标签信息的泄露是造成样本特征等更严重的隐私泄露的关键要素。
目前,样本标签隐私风险评估的主流思路是构建一种更高标签重构的算法,以实现模拟出泄露的上限能力,即以实际的泄露效果来指示风险,因此要求较高的标签重构精度。过去的方案如通过梯度的正负符号和幅值大小来直接推断标签信息的方式存在较大局限性,基于单个梯度的推断是片面的,因此在实际应用中所取得的标签重构精度较低。
发明内容
本发明的发明目的在于提供一种基于可学习转换矩阵的样本标签隐私风险评估方法,其通过构建转换矩阵,通过该转换矩阵来进行梯度到标签的映射。转换矩阵的参数是通过大量的相似标签的样本的梯度进行优化的,因此梯度到标签的转换过程是可学习的,提高了梯度泄露标签的精度,其实现的评估效果更趋近于梯度泄露数据的能力上限,起到更好的风险评估效果。
为实现以上发明目的,采用的技术方案是:
一种样本标签隐私风险评估方法,包括以下步骤:
S1.选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接网络的梯度
Figure DEST_PATH_IMAGE001
S2.构建正则化项
Figure DEST_PATH_IMAGE002
S3.加载辅助数据集;
S4.设定训练转换矩阵的超参数;
S5.加载转换矩阵;
S6.随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G
S7. 从梯度G中获取全局模型最后一层全连接层的梯度
Figure DEST_PATH_IMAGE003
;将
Figure 695751DEST_PATH_IMAGE003
按行求和得到向量
Figure DEST_PATH_IMAGE004
S8.基于向量
Figure 455635DEST_PATH_IMAGE004
训练转换矩阵的参数;
S9.重复步骤S6-S8直至达到为转换矩阵设定的超参数;
S10.基于训练好的转换矩阵对待训练样本的梯度
Figure 766530DEST_PATH_IMAGE001
进行标签泄露的风险评估。
优选地,所述步骤S2构建正则化项
Figure 365002DEST_PATH_IMAGE002
,具体表示为:
Figure DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE007
为求取的转换矩阵T的模大小;M为全局模型倒数第二层网络的神经元个数,即为目标模大小约束;
Figure DEST_PATH_IMAGE008
表示求取模值大小操作;B为批大小;K为标签种类个数;
Figure DEST_PATH_IMAGE009
表示梯度
Figure 428642DEST_PATH_IMAGE001
按行求和得到的维度为K的向量;梯度
Figure DEST_PATH_IMAGE010
为维度为M*K的矩阵。
优选地,所述步骤S3加载辅助数据集,具体包括:
在本地数据集中抽取所有符合要求的样本构成辅助数据集;辅助数据集中,样本的标签是待训练样本中存在的标签。
优选地,所述步骤S4设定训练转换矩阵的超参数,具体包括:训练总轮次、学习率、正则化权重、批大小;所述步骤S9中,当训练的轮次达到设定的训练总轮次时,执行步骤S10。
优选地,所述步骤S5加载转换矩阵,具体包括:对转换矩阵中的数值以正态分布进行初始化,矩阵维度为K×K
优选地,所述步骤S6随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G,具体包括:
所述抽取的该批样本的标签列表设为Y,标签列表Y共有K个元素,元素的数值表示为某一类标签的数目;
基于标签列表Y在当前全局模型上计算该批样本对应的梯度G
优选地,所述步骤S8基于向量
Figure 923208DEST_PATH_IMAGE004
训练转换矩阵的参数,具体包括:
梯度向量
Figure 596766DEST_PATH_IMAGE004
乘上转换矩阵T得到向量Z
Figure DEST_PATH_IMAGE011
向量Z经过Softmax函数转换,并乘上批大小B得到预测的标签列表
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
其中标签列表
Figure 378689DEST_PATH_IMAGE012
中的元素
Figure DEST_PATH_IMAGE014
表示如下:
Figure DEST_PATH_IMAGE016
其中e=2.71,为尤拉常数;j的取值范围为1~K
利用平均绝对误差衡量预测的标签列表
Figure 250830DEST_PATH_IMAGE012
和抽取的样本的真实标签列表Y的差异值加上正则化项作为训练的损失值:
Figure DEST_PATH_IMAGE017
其中
Figure DEST_PATH_IMAGE018
为正则化权重;
Figure DEST_PATH_IMAGE019
为标签列表Y中的第i个元素;
计算损失值
Figure DEST_PATH_IMAGE020
对转换矩阵T的偏导
Figure DEST_PATH_IMAGE021
,利用所述偏导
Figure 759041DEST_PATH_IMAGE021
更新转换矩阵:
Figure 100002_DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
为学习率。
优选地,所述步骤S10基于训练好的转换矩阵对待训练样本的梯度
Figure DEST_PATH_IMAGE024
进行标签泄露的风险评估具体包括:
基于向量
Figure 293796DEST_PATH_IMAGE009
计算向量
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
对待训练样本的标签列表进行预测,得到预测的标签列表:
Figure DEST_PATH_IMAGE027
求取风险评估值
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
其中
Figure DEST_PATH_IMAGE030
表示
Figure DEST_PATH_IMAGE031
中的第i个元素,
Figure DEST_PATH_IMAGE032
为待训练样本的真实标签列表
Figure DEST_PATH_IMAGE033
中的第i个元素。
同时,本发明还提供了一种样本标签隐私风险评估系统,其应用以上所述的样本标签隐私风险评估方法,包括:梯度计算模块、初始化模块、转换矩阵训练模块及风险评估模块;所述梯度计算模块用于执行步骤S1;初始化模块用于执行步骤S2-S4;转换矩阵训练模块用于执行步骤S5-S9;风险评估模块用于执行步骤S10。
另外,本发明还提供了一种存储介质,包括存储器及处理器,所述存储器内存储有程序,所述程序被所述处理器执行时,执行以上所述方法的方法步骤。
与现有技术相比,本发明的有益效果是:
(1)本发明提供的方法通过构建转换矩阵,通过该转换矩阵来进行梯度到标签的映射。转换矩阵的参数是通过大量的相似标签的样本的梯度进行优化的,因此梯度到标签的转换过程是可学习的,提高了梯度泄露标签的精度,其实现的评估效果更趋近于梯度泄露数据的能力上限,起到更好的风险评估效果。
(2)本发明提供的方法所设计的转换矩阵的参数只有
Figure DEST_PATH_IMAGE034
个,其中
Figure DEST_PATH_IMAGE035
为标签种类的个数,相比于客户端所使用的全局深度学习模型来说其参数量较小,因此无论在训练或是应用上都能够高效地执行。
(3)本发明提供的方法在转换矩阵的训练过程中,引入了正则化的约束,该约束有效地将转换矩阵的参数的搜索空间控制在有效范围内。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为样本标签隐私风险评估方法的流程示意图。
图2为样本标签隐私风险评估系统的结构示意图。
图3为存储介质的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明提供的样本标签隐私风险评估方法包括有以下步骤:(1)选定待训练样本,并计算对应梯度;(2)构建正则化项;(3)加载辅助数据集;(4)设定训练转换矩阵的超参数;(5)加载转换矩阵;(6)判断是否达到训练总轮次;若是则基于所述转换矩阵及步骤(1)计算的对应梯度,计算风险评估值;否则重复执行步骤(7)~(9):(7)随机从辅助数据集中抽取一批样本,并计算对应梯度;(8)获取模型最后一层的参数梯度;(9)训练转换矩阵的参数。
在具体的实施过程中,所述步骤(1)具体包括:选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接网络的梯度
Figure 140397DEST_PATH_IMAGE001
在具体的实施过程中,所述步骤(2)具体包括:
Figure 804727DEST_PATH_IMAGE005
Figure DEST_PATH_IMAGE036
其中,
Figure DEST_PATH_IMAGE037
为求取的转换矩阵T的模大小;M为全局模型倒数第二层网络的神经元个数,即为目标模大小约束;
Figure 874052DEST_PATH_IMAGE008
表示求取模值大小操作;B为批大小;K为标签种类个数;
Figure 646836DEST_PATH_IMAGE009
表示梯度
Figure 62905DEST_PATH_IMAGE001
按行求和得到的维度为K的向量;梯度
Figure 909639DEST_PATH_IMAGE010
为维度为M*K的矩阵。
在具体的实施过程中,所述步骤(3)具体包括:在本地数据集中抽取所有符合要求的样本构成辅助数据集;辅助数据集中,样本的标签是待训练样本中存在的标签。
在具体的实施过程中,所述步骤(4)具体包括:设定训练总轮次、学习率、正则化权重、批大小(与全局模型训练采用的批大小一致)。
在具体的实施过程中,所述步骤(5)具体包括:对转换矩阵中的数值以正态分布进行初始化,矩阵维度为K×K
在具体的实施过程中,所述步骤(7)具体包括:所述抽取的该批样本的标签列表设为Y,标签列表Y共有K个元素,元素的数值表示为某一类标签的数目;第i个元素数值表示标签i在样本中的数目。若标签列表中的某标签位的数值不为0,则表示样本中包含该标签,则该标签为待评估标签。
基于标签列表Y在当前全局模型上计算该批样本对应的梯度G
在具体的实施过程中,所述步骤(8)具体包括:从梯度G中获取全局模型最后一层全连接层的梯度
Figure 775963DEST_PATH_IMAGE003
;将
Figure 645830DEST_PATH_IMAGE003
按行求和得到向量
Figure DEST_PATH_IMAGE038
Figure 160863DEST_PATH_IMAGE038
是维度为𝐾的向量。
在具体的实施过程中,所述步骤(9)具体包括:
梯度向量
Figure 189999DEST_PATH_IMAGE038
乘上转换矩阵T得到向量Z
Figure DEST_PATH_IMAGE039
向量Z经过Softmax函数转换,并乘上批大小B得到预测的标签列表
Figure DEST_PATH_IMAGE040
Figure 102591DEST_PATH_IMAGE013
其中标签列表
Figure 194175DEST_PATH_IMAGE040
中的元素
Figure 607839DEST_PATH_IMAGE014
表示如下:
Figure DEST_PATH_IMAGE041
其中e=2.71,为尤拉常数;j的取值范围为1~K
利用平均绝对误差衡量预测的标签列表
Figure 803066DEST_PATH_IMAGE012
和抽取的样本的真实标签列表Y的差异值加上正则化项作为训练的损失值:
Figure DEST_PATH_IMAGE042
其中
Figure 683297DEST_PATH_IMAGE018
为正则化权重;
Figure 324494DEST_PATH_IMAGE019
为标签列表Y中的第i个元素;
计算损失值
Figure 276270DEST_PATH_IMAGE020
对转换矩阵T的偏导
Figure DEST_PATH_IMAGE043
,利用所述偏导
Figure 925338DEST_PATH_IMAGE043
更新转换矩阵:
Figure 445312DEST_PATH_IMAGE022
Figure 573805DEST_PATH_IMAGE023
为学习率。
在具体的实施过程中,所述步骤(6)基于所述转换矩阵及步骤(1)计算的对应梯度,计算风险评估值,具体包括:
基于向量
Figure 329271DEST_PATH_IMAGE009
计算向量
Figure 531714DEST_PATH_IMAGE025
Figure 347223DEST_PATH_IMAGE026
对待训练样本的标签列表进行预测,得到预测的标签列表:
Figure 664810DEST_PATH_IMAGE027
求取风险评估值
Figure DEST_PATH_IMAGE044
Figure 161650DEST_PATH_IMAGE029
其中
Figure DEST_PATH_IMAGE045
表示
Figure 280916DEST_PATH_IMAGE031
中的第i个元素,
Figure 673851DEST_PATH_IMAGE032
为待训练样本的真实标签列表
Figure 478734DEST_PATH_IMAGE033
中的第i个元素。评估值
Figure DEST_PATH_IMAGE046
实际上是预测的标签列表
Figure 513686DEST_PATH_IMAGE031
和待训练样本的真实标签列表
Figure 221879DEST_PATH_IMAGE033
的平均绝对误差。
实施例2
本实施例提供了一种样本标签隐私风险评估系统,如图2所示,其应用实施例1所述的样本标签隐私风险评估方法,包括:梯度计算模块、初始化模块、转换矩阵训练模块及风险评估模块;所述梯度计算模块用于执行步骤S1;初始化模块用于执行步骤S2-S4;转换矩阵训练模块用于执行步骤S5-S9;风险评估模块用于执行步骤S10。
实施例3
本实施例提供了一种存储介质,如图3所示,包括存储器及处理器,所述存储器内存储有程序,所述程序被所述处理器执行时,执行实施例1所述方法的方法步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (4)

1.一种样本标签隐私风险评估方法,其特征在于:包括以下步骤:
S1.选定一批样本作为待训练样本并在全局模型上计算得到全局模型最后一层全连接 网络的梯度
Figure 810032DEST_PATH_IMAGE001
S2.构建正则化项
Figure 891251DEST_PATH_IMAGE002
S3.加载辅助数据集;
S4.设定训练转换矩阵的超参数;
S5.加载转换矩阵;
S6.随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G
S7. 从梯度G中获取全局模型最后一层全连接层的梯度
Figure 883478DEST_PATH_IMAGE003
;将
Figure 641219DEST_PATH_IMAGE003
按行求和得到向量
Figure 460008DEST_PATH_IMAGE004
S8.基于向量
Figure 203973DEST_PATH_IMAGE005
训练转换矩阵的参数;
S9.重复步骤S6-S8直至达到为转换矩阵设定的超参数;
S10.基于训练好的转换矩阵对待训练样本的梯度
Figure 440919DEST_PATH_IMAGE006
进行标签泄露的风险评估;
所述步骤S2构建正则化项
Figure 979348DEST_PATH_IMAGE002
,具体表示为:
Figure 52477DEST_PATH_IMAGE007
Figure 600133DEST_PATH_IMAGE008
其中,
Figure 426007DEST_PATH_IMAGE009
为求取的转换矩阵T的模大小;M为全局模型倒数第二层网络的神经 元个数,即为目标模大小约束;
Figure 46256DEST_PATH_IMAGE010
表示求取模值大小操作;B为批大小;K为标签种类个数;
Figure 465736DEST_PATH_IMAGE011
表示梯度
Figure 676137DEST_PATH_IMAGE006
按行求和得到的维度为K的向量;梯度
Figure 497463DEST_PATH_IMAGE006
为维度为M*K的矩阵;
所述步骤S4设定训练转换矩阵的超参数,具体包括:训练总轮次、学习率、正则化权重、批大小;所述步骤S9中,当训练的轮次达到设定的训练总轮次时,执行步骤S10;
所述步骤S5加载转换矩阵,具体包括:对转换矩阵中的数值以正态分布进行初始化,矩阵维度为K×K
所述步骤S6随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G,具体包括:
所述抽取的该批样本的标签列表设为Y,标签列表Y共有K个元素,元素的数值表示为某一类标签的数目;
基于标签列表Y在当前全局模型上计算该批样本对应的梯度G
所述步骤S8基于向量
Figure 784219DEST_PATH_IMAGE005
训练转换矩阵的参数,具体包括:
梯度向量
Figure 690995DEST_PATH_IMAGE005
乘上转换矩阵T得到向量Z
Figure 439508DEST_PATH_IMAGE012
向量Z经过Softmax函数转换,并乘上批大小B得到预测的标签列表
Figure 754821DEST_PATH_IMAGE013
Figure 337112DEST_PATH_IMAGE014
其中标签列表
Figure 855818DEST_PATH_IMAGE013
中的元素
Figure 283388DEST_PATH_IMAGE015
表示如下:
Figure 689093DEST_PATH_IMAGE017
其中e=2.71,为尤拉常数;j的取值范围为1~K
利用平均绝对误差衡量预测的标签列表
Figure 301340DEST_PATH_IMAGE013
和抽取的样本的真实标签列表Y的差异值加 上正则化项作为训练的损失值:
Figure 182708DEST_PATH_IMAGE018
其中
Figure 53450DEST_PATH_IMAGE019
为正则化权重;
Figure 703874DEST_PATH_IMAGE020
为标签列表Y中的第i个元素;
计算损失值
Figure 221443DEST_PATH_IMAGE021
对转换矩阵T的偏导
Figure DEST_PATH_IMAGE022
,利用所述偏导
Figure 934315DEST_PATH_IMAGE022
更新转换矩阵:
Figure 828322DEST_PATH_IMAGE023
Figure 598832DEST_PATH_IMAGE024
为学习率;
所述步骤S10基于训练好的转换矩阵对待训练样本的梯度
Figure 536570DEST_PATH_IMAGE025
进行标签泄露的风险评估 具体包括:
基于向量
Figure 392530DEST_PATH_IMAGE011
计算向量
Figure 90228DEST_PATH_IMAGE026
Figure 325031DEST_PATH_IMAGE027
对待训练样本的标签列表进行预测,得到预测的标签列表:
Figure 590927DEST_PATH_IMAGE028
求取风险评估值
Figure 793239DEST_PATH_IMAGE029
Figure 169993DEST_PATH_IMAGE030
其中
Figure 775417DEST_PATH_IMAGE031
表示
Figure 336848DEST_PATH_IMAGE032
中的第i个元素,
Figure 901821DEST_PATH_IMAGE033
为待训练样本的真实标签列表
Figure 692054DEST_PATH_IMAGE034
中的第i个元素。
2.根据权利要求1所述的样本标签隐私风险评估方法,其特征在于:所述步骤S3加载辅助数据集,具体包括:
在本地数据集中抽取所有符合要求的样本构成辅助数据集;辅助数据集中,样本的标签是待训练样本中存在的标签。
3.一种样本标签隐私风险评估系统,应用权利要求1-2任一项所述的样本标签隐私风险评估方法,其特征在于:包括:梯度计算模块、初始化模块、转换矩阵训练模块及风险评估模块;所述梯度计算模块用于执行步骤S1;初始化模块用于执行步骤S2-S4;转换矩阵训练模块用于执行步骤S5-S9;风险评估模块用于执行步骤S10。
4.一种存储介质,包括存储器及处理器,所述存储器内存储有程序,其特征在于:所述程序被所述处理器执行时,执行权利要求1-2任一项所述方法的方法步骤。
CN202211171745.5A 2022-09-26 2022-09-26 样本标签隐私风险评估方法、系统及存储介质 Active CN115270192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211171745.5A CN115270192B (zh) 2022-09-26 2022-09-26 样本标签隐私风险评估方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211171745.5A CN115270192B (zh) 2022-09-26 2022-09-26 样本标签隐私风险评估方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115270192A CN115270192A (zh) 2022-11-01
CN115270192B true CN115270192B (zh) 2022-12-30

Family

ID=83756341

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211171745.5A Active CN115270192B (zh) 2022-09-26 2022-09-26 样本标签隐私风险评估方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115270192B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648095A (zh) * 2018-05-10 2018-10-12 浙江工业大学 一种基于图卷积网络梯度的节点信息隐藏方法
CN110135507A (zh) * 2019-05-21 2019-08-16 西南石油大学 一种标签分布预测方法及装置
CN111177791A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 保护数据隐私的双方联合训练业务预测模型的方法和装置
CN112100295A (zh) * 2020-10-12 2020-12-18 平安科技(深圳)有限公司 基于联邦学习的用户数据分类方法、装置、设备及介质
CN113051620A (zh) * 2021-05-31 2021-06-29 华中科技大学 一种机器学习中训练数据隐私度量的方法和系统
CN114548428A (zh) * 2022-04-18 2022-05-27 杭州海康威视数字技术股份有限公司 基于实例重构的联邦学习模型智能攻击检测方法及装置
CN114662155A (zh) * 2022-05-23 2022-06-24 广州中平智能科技有限公司 面向联邦学习的数据隐私安全机制评估方法、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159773B (zh) * 2020-04-01 2020-11-03 支付宝(杭州)信息技术有限公司 保护数据隐私的图片分类方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648095A (zh) * 2018-05-10 2018-10-12 浙江工业大学 一种基于图卷积网络梯度的节点信息隐藏方法
CN110135507A (zh) * 2019-05-21 2019-08-16 西南石油大学 一种标签分布预测方法及装置
CN111177791A (zh) * 2020-04-10 2020-05-19 支付宝(杭州)信息技术有限公司 保护数据隐私的双方联合训练业务预测模型的方法和装置
CN112100295A (zh) * 2020-10-12 2020-12-18 平安科技(深圳)有限公司 基于联邦学习的用户数据分类方法、装置、设备及介质
CN113051620A (zh) * 2021-05-31 2021-06-29 华中科技大学 一种机器学习中训练数据隐私度量的方法和系统
CN114548428A (zh) * 2022-04-18 2022-05-27 杭州海康威视数字技术股份有限公司 基于实例重构的联邦学习模型智能攻击检测方法及装置
CN114662155A (zh) * 2022-05-23 2022-06-24 广州中平智能科技有限公司 面向联邦学习的数据隐私安全机制评估方法、设备及介质

Also Published As

Publication number Publication date
CN115270192A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
Li et al. Applying various algorithms for species distribution modelling
CN111582538B (zh) 一种基于图神经网络的社群价值预测方法及系统
CN111080397A (zh) 信用评估方法、装置及电子设备
Ray et al. A surrogate assisted parallel multiobjective evolutionary algorithm for robust engineering design
Yang et al. Active matting
CN114548428B (zh) 基于实例重构的联邦学习模型智能攻击检测方法及装置
Huang et al. SDARE: A stacked denoising autoencoder method for game dynamics network structure reconstruction
CN110110372B (zh) 一种用户时序行为自动切分预测方法
CN114417427A (zh) 一种面向深度学习的数据敏感属性脱敏系统及方法
Naghizadeh et al. Greedy autoaugment
CN114298851A (zh) 基于图表征学习的网络用户社交行为分析方法、装置及存储介质
CN113569059A (zh) 目标用户识别方法及装置
Liu et al. Ising-cf: A pathbreaking collaborative filtering method through efficient ising machine learning
Qu et al. Improving the reliability for confidence estimation
Kalkan et al. Cloudy/clear weather classification using deep learning techniques with cloud images
CN111478742A (zh) 一种sm4算法的分析方法、系统以及设备
CN115270192B (zh) 样本标签隐私风险评估方法、系统及存储介质
CN109934352B (zh) 智能模型的自动进化方法
McClure et al. Robustly representing uncertainty through sampling in deep neural networks
CN111506742B (zh) 多元关系知识库构建方法和系统
CN111414989B (zh) 基于门控机制的用户信任关系网络链路预测方法及系统
Farokhmanesh et al. Deep learning–based parameter transfer in meteorological data
CN114692005B (zh) 面向稀疏超短序列的个性化推荐方法、系统、介质和设备
CN118279046A (zh) 账户信用评分方法及装置
Wu et al. Data Driven Non-Markovian Quantum Process

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant