CN115270192B - 样本标签隐私风险评估方法、系统及存储介质 - Google Patents
样本标签隐私风险评估方法、系统及存储介质 Download PDFInfo
- Publication number
- CN115270192B CN115270192B CN202211171745.5A CN202211171745A CN115270192B CN 115270192 B CN115270192 B CN 115270192B CN 202211171745 A CN202211171745 A CN 202211171745A CN 115270192 B CN115270192 B CN 115270192B
- Authority
- CN
- China
- Prior art keywords
- gradient
- sample
- samples
- training
- risk assessment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012502 risk assessment Methods 0.000 title claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 63
- 238000006243 chemical reaction Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 28
- 230000009466 transformation Effects 0.000 claims abstract description 27
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000008569 process Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种基于可学习转换矩阵的样本标签隐私风险评估方法、系统及存储介质。
背景技术
在联邦学习等分布式隐私计算场景中,众多客户端与服务器构成一个闭环。在某一次全局模型迭代更新中,客户端需要从本地数据集中抽取一批样本参与模型的训练。一批样本包含的样本数目为批大小,每个样本由一组特征标签对(x,y)构成,符号x表示样本特征,y表示样本标签。客户端利用该批样本在全局的深度学习模型上计算出模型梯度,并将梯度发送至服务器;服务器负责接收各客户端的梯度并进行梯度融合,以形成一个新的深度学习模型,并将其回传给各客户端。其中客户端需要对所发送的梯度进行隐私安全评估,评估梯度是否会泄露样本的标签信息,因为标签信息的泄露是造成样本特征等更严重的隐私泄露的关键要素。
目前,样本标签隐私风险评估的主流思路是构建一种更高标签重构的算法,以实现模拟出泄露的上限能力,即以实际的泄露效果来指示风险,因此要求较高的标签重构精度。过去的方案如通过梯度的正负符号和幅值大小来直接推断标签信息的方式存在较大局限性,基于单个梯度的推断是片面的,因此在实际应用中所取得的标签重构精度较低。
发明内容
本发明的发明目的在于提供一种基于可学习转换矩阵的样本标签隐私风险评估方法,其通过构建转换矩阵,通过该转换矩阵来进行梯度到标签的映射。转换矩阵的参数是通过大量的相似标签的样本的梯度进行优化的,因此梯度到标签的转换过程是可学习的,提高了梯度泄露标签的精度,其实现的评估效果更趋近于梯度泄露数据的能力上限,起到更好的风险评估效果。
为实现以上发明目的,采用的技术方案是:
一种样本标签隐私风险评估方法,包括以下步骤:
S3.加载辅助数据集;
S4.设定训练转换矩阵的超参数;
S5.加载转换矩阵;
S6.随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G;
S9.重复步骤S6-S8直至达到为转换矩阵设定的超参数;
其中,为求取的转换矩阵T的模大小;M为全局模型倒数第二层网络的神经元个数,即为目标模大小约束;表示求取模值大小操作;B为批大小;K为标签种类个数;表示梯度按行求和得到的维度为K的向量;梯度为维度为M*K的矩阵。
优选地,所述步骤S3加载辅助数据集,具体包括:
在本地数据集中抽取所有符合要求的样本构成辅助数据集;辅助数据集中,样本的标签是待训练样本中存在的标签。
优选地,所述步骤S4设定训练转换矩阵的超参数,具体包括:训练总轮次、学习率、正则化权重、批大小;所述步骤S9中,当训练的轮次达到设定的训练总轮次时,执行步骤S10。
优选地,所述步骤S5加载转换矩阵,具体包括:对转换矩阵中的数值以正态分布进行初始化,矩阵维度为K×K。
优选地,所述步骤S6随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G,具体包括:
所述抽取的该批样本的标签列表设为Y,标签列表Y共有K个元素,元素的数值表示为某一类标签的数目;
基于标签列表Y在当前全局模型上计算该批样本对应的梯度G。
其中e=2.71,为尤拉常数;j的取值范围为1~K;
对待训练样本的标签列表进行预测,得到预测的标签列表:
同时,本发明还提供了一种样本标签隐私风险评估系统,其应用以上所述的样本标签隐私风险评估方法,包括:梯度计算模块、初始化模块、转换矩阵训练模块及风险评估模块;所述梯度计算模块用于执行步骤S1;初始化模块用于执行步骤S2-S4;转换矩阵训练模块用于执行步骤S5-S9;风险评估模块用于执行步骤S10。
另外,本发明还提供了一种存储介质,包括存储器及处理器,所述存储器内存储有程序,所述程序被所述处理器执行时,执行以上所述方法的方法步骤。
与现有技术相比,本发明的有益效果是:
(1)本发明提供的方法通过构建转换矩阵,通过该转换矩阵来进行梯度到标签的映射。转换矩阵的参数是通过大量的相似标签的样本的梯度进行优化的,因此梯度到标签的转换过程是可学习的,提高了梯度泄露标签的精度,其实现的评估效果更趋近于梯度泄露数据的能力上限,起到更好的风险评估效果。
(3)本发明提供的方法在转换矩阵的训练过程中,引入了正则化的约束,该约束有效地将转换矩阵的参数的搜索空间控制在有效范围内。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为样本标签隐私风险评估方法的流程示意图。
图2为样本标签隐私风险评估系统的结构示意图。
图3为存储介质的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明提供的样本标签隐私风险评估方法包括有以下步骤:(1)选定待训练样本,并计算对应梯度;(2)构建正则化项;(3)加载辅助数据集;(4)设定训练转换矩阵的超参数;(5)加载转换矩阵;(6)判断是否达到训练总轮次;若是则基于所述转换矩阵及步骤(1)计算的对应梯度,计算风险评估值;否则重复执行步骤(7)~(9):(7)随机从辅助数据集中抽取一批样本,并计算对应梯度;(8)获取模型最后一层的参数梯度;(9)训练转换矩阵的参数。
在具体的实施过程中,所述步骤(2)具体包括:
其中,为求取的转换矩阵T的模大小;M为全局模型倒数第二层网络的神经元个数,即为目标模大小约束;表示求取模值大小操作;B为批大小;K为标签种类个数;表示梯度按行求和得到的维度为K的向量;梯度为维度为M*K的矩阵。
在具体的实施过程中,所述步骤(3)具体包括:在本地数据集中抽取所有符合要求的样本构成辅助数据集;辅助数据集中,样本的标签是待训练样本中存在的标签。
在具体的实施过程中,所述步骤(4)具体包括:设定训练总轮次、学习率、正则化权重、批大小(与全局模型训练采用的批大小一致)。
在具体的实施过程中,所述步骤(5)具体包括:对转换矩阵中的数值以正态分布进行初始化,矩阵维度为K×K。
在具体的实施过程中,所述步骤(7)具体包括:所述抽取的该批样本的标签列表设为Y,标签列表Y共有K个元素,元素的数值表示为某一类标签的数目;第i个元素数值表示标签i在样本中的数目。若标签列表中的某标签位的数值不为0,则表示样本中包含该标签,则该标签为待评估标签。
基于标签列表Y在当前全局模型上计算该批样本对应的梯度G。
在具体的实施过程中,所述步骤(9)具体包括:
其中e=2.71,为尤拉常数;j的取值范围为1~K;
在具体的实施过程中,所述步骤(6)基于所述转换矩阵及步骤(1)计算的对应梯度,计算风险评估值,具体包括:
对待训练样本的标签列表进行预测,得到预测的标签列表:
实施例2
本实施例提供了一种样本标签隐私风险评估系统,如图2所示,其应用实施例1所述的样本标签隐私风险评估方法,包括:梯度计算模块、初始化模块、转换矩阵训练模块及风险评估模块;所述梯度计算模块用于执行步骤S1;初始化模块用于执行步骤S2-S4;转换矩阵训练模块用于执行步骤S5-S9;风险评估模块用于执行步骤S10。
实施例3
本实施例提供了一种存储介质,如图3所示,包括存储器及处理器,所述存储器内存储有程序,所述程序被所述处理器执行时,执行实施例1所述方法的方法步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种样本标签隐私风险评估方法,其特征在于:包括以下步骤:
S3.加载辅助数据集;
S4.设定训练转换矩阵的超参数;
S5.加载转换矩阵;
S6.随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G;
S9.重复步骤S6-S8直至达到为转换矩阵设定的超参数;
其中,为求取的转换矩阵T的模大小;M为全局模型倒数第二层网络的神经
元个数,即为目标模大小约束;表示求取模值大小操作;B为批大小;K为标签种类个数;表示梯度按行求和得到的维度为K的向量;梯度为维度为M*K的矩阵;
所述步骤S4设定训练转换矩阵的超参数,具体包括:训练总轮次、学习率、正则化权重、批大小;所述步骤S9中,当训练的轮次达到设定的训练总轮次时,执行步骤S10;
所述步骤S5加载转换矩阵,具体包括:对转换矩阵中的数值以正态分布进行初始化,矩阵维度为K×K;
所述步骤S6随机从辅助数据集中抽取一批样本,在当前全局模型上计算对应的梯度G,具体包括:
所述抽取的该批样本的标签列表设为Y,标签列表Y共有K个元素,元素的数值表示为某一类标签的数目;
基于标签列表Y在当前全局模型上计算该批样本对应的梯度G;
其中e=2.71,为尤拉常数;j的取值范围为1~K;
对待训练样本的标签列表进行预测,得到预测的标签列表:
2.根据权利要求1所述的样本标签隐私风险评估方法,其特征在于:所述步骤S3加载辅助数据集,具体包括:
在本地数据集中抽取所有符合要求的样本构成辅助数据集;辅助数据集中,样本的标签是待训练样本中存在的标签。
3.一种样本标签隐私风险评估系统,应用权利要求1-2任一项所述的样本标签隐私风险评估方法,其特征在于:包括:梯度计算模块、初始化模块、转换矩阵训练模块及风险评估模块;所述梯度计算模块用于执行步骤S1;初始化模块用于执行步骤S2-S4;转换矩阵训练模块用于执行步骤S5-S9;风险评估模块用于执行步骤S10。
4.一种存储介质,包括存储器及处理器,所述存储器内存储有程序,其特征在于:所述程序被所述处理器执行时,执行权利要求1-2任一项所述方法的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211171745.5A CN115270192B (zh) | 2022-09-26 | 2022-09-26 | 样本标签隐私风险评估方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211171745.5A CN115270192B (zh) | 2022-09-26 | 2022-09-26 | 样本标签隐私风险评估方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115270192A CN115270192A (zh) | 2022-11-01 |
CN115270192B true CN115270192B (zh) | 2022-12-30 |
Family
ID=83756341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211171745.5A Active CN115270192B (zh) | 2022-09-26 | 2022-09-26 | 样本标签隐私风险评估方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115270192B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648095A (zh) * | 2018-05-10 | 2018-10-12 | 浙江工业大学 | 一种基于图卷积网络梯度的节点信息隐藏方法 |
CN110135507A (zh) * | 2019-05-21 | 2019-08-16 | 西南石油大学 | 一种标签分布预测方法及装置 |
CN111177791A (zh) * | 2020-04-10 | 2020-05-19 | 支付宝(杭州)信息技术有限公司 | 保护数据隐私的双方联合训练业务预测模型的方法和装置 |
CN112100295A (zh) * | 2020-10-12 | 2020-12-18 | 平安科技(深圳)有限公司 | 基于联邦学习的用户数据分类方法、装置、设备及介质 |
CN113051620A (zh) * | 2021-05-31 | 2021-06-29 | 华中科技大学 | 一种机器学习中训练数据隐私度量的方法和系统 |
CN114548428A (zh) * | 2022-04-18 | 2022-05-27 | 杭州海康威视数字技术股份有限公司 | 基于实例重构的联邦学习模型智能攻击检测方法及装置 |
CN114662155A (zh) * | 2022-05-23 | 2022-06-24 | 广州中平智能科技有限公司 | 面向联邦学习的数据隐私安全机制评估方法、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159773B (zh) * | 2020-04-01 | 2020-11-03 | 支付宝(杭州)信息技术有限公司 | 保护数据隐私的图片分类方法及装置 |
-
2022
- 2022-09-26 CN CN202211171745.5A patent/CN115270192B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648095A (zh) * | 2018-05-10 | 2018-10-12 | 浙江工业大学 | 一种基于图卷积网络梯度的节点信息隐藏方法 |
CN110135507A (zh) * | 2019-05-21 | 2019-08-16 | 西南石油大学 | 一种标签分布预测方法及装置 |
CN111177791A (zh) * | 2020-04-10 | 2020-05-19 | 支付宝(杭州)信息技术有限公司 | 保护数据隐私的双方联合训练业务预测模型的方法和装置 |
CN112100295A (zh) * | 2020-10-12 | 2020-12-18 | 平安科技(深圳)有限公司 | 基于联邦学习的用户数据分类方法、装置、设备及介质 |
CN113051620A (zh) * | 2021-05-31 | 2021-06-29 | 华中科技大学 | 一种机器学习中训练数据隐私度量的方法和系统 |
CN114548428A (zh) * | 2022-04-18 | 2022-05-27 | 杭州海康威视数字技术股份有限公司 | 基于实例重构的联邦学习模型智能攻击检测方法及装置 |
CN114662155A (zh) * | 2022-05-23 | 2022-06-24 | 广州中平智能科技有限公司 | 面向联邦学习的数据隐私安全机制评估方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115270192A (zh) | 2022-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Applying various algorithms for species distribution modelling | |
CN111582538B (zh) | 一种基于图神经网络的社群价值预测方法及系统 | |
CN111080397A (zh) | 信用评估方法、装置及电子设备 | |
Ray et al. | A surrogate assisted parallel multiobjective evolutionary algorithm for robust engineering design | |
Yang et al. | Active matting | |
CN114548428B (zh) | 基于实例重构的联邦学习模型智能攻击检测方法及装置 | |
Huang et al. | SDARE: A stacked denoising autoencoder method for game dynamics network structure reconstruction | |
CN110110372B (zh) | 一种用户时序行为自动切分预测方法 | |
CN114417427A (zh) | 一种面向深度学习的数据敏感属性脱敏系统及方法 | |
Naghizadeh et al. | Greedy autoaugment | |
CN114298851A (zh) | 基于图表征学习的网络用户社交行为分析方法、装置及存储介质 | |
CN113569059A (zh) | 目标用户识别方法及装置 | |
Liu et al. | Ising-cf: A pathbreaking collaborative filtering method through efficient ising machine learning | |
Qu et al. | Improving the reliability for confidence estimation | |
Kalkan et al. | Cloudy/clear weather classification using deep learning techniques with cloud images | |
CN111478742A (zh) | 一种sm4算法的分析方法、系统以及设备 | |
CN115270192B (zh) | 样本标签隐私风险评估方法、系统及存储介质 | |
CN109934352B (zh) | 智能模型的自动进化方法 | |
McClure et al. | Robustly representing uncertainty through sampling in deep neural networks | |
CN111506742B (zh) | 多元关系知识库构建方法和系统 | |
CN111414989B (zh) | 基于门控机制的用户信任关系网络链路预测方法及系统 | |
Farokhmanesh et al. | Deep learning–based parameter transfer in meteorological data | |
CN114692005B (zh) | 面向稀疏超短序列的个性化推荐方法、系统、介质和设备 | |
CN118279046A (zh) | 账户信用评分方法及装置 | |
Wu et al. | Data Driven Non-Markovian Quantum Process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |