CN115329337A - 一种学习过程中模型梯度泄露输入信息的风险评估方法 - Google Patents
一种学习过程中模型梯度泄露输入信息的风险评估方法 Download PDFInfo
- Publication number
- CN115329337A CN115329337A CN202210799021.9A CN202210799021A CN115329337A CN 115329337 A CN115329337 A CN 115329337A CN 202210799021 A CN202210799021 A CN 202210799021A CN 115329337 A CN115329337 A CN 115329337A
- Authority
- CN
- China
- Prior art keywords
- sample
- gradient
- batch
- local
- assessment method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012502 risk assessment Methods 0.000 title claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/70—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
- G06F21/71—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及人工智能技术领域,公开了一种学习过程中模型梯度泄露输入信息的风险评估方法,包括以下步骤:S1:对本地数据集进行采样,得到本地采样数据集;S2:分析本地采样数据集,从而得到本地采样数据样本的参数梯度;S3:计算本地采样数据样本与采样样本参数梯度的互信息值;S4:当该互信息值达到设定程度时,发出隐私泄露风险提醒,否则将该参数梯度上传至服务器。该学习过程中模型梯度泄露输入信息的风险评估方法,与现有的梯度泄露输入的指标相比,梯度信息比可以衡量批样本中的每个样本被批样本梯度泄露的风险程度,不同样本的隐私重要性不同,那么参与方对所上传的批样本梯度将会引入隐私保护的机制。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种学习过程中模型梯度泄露输入信息的风险评估方法。
背景技术
近期对联邦学习中隐私保护有效性问题的研究证实,通过一定的手段可以基于模型梯度来重构输入数据,意味着联邦学习中共享模型梯度的隐私保护机制依然存在数据泄露的风险,而不同的输入样本具有不同的样本特征值,在联邦学习中被泄露的风险也不同。我们发明了一个新的指标用于衡量输入样本在基于深度学习模型的联邦学习框架中被泄露的风险程度,可用于联邦学习框架构建和应用中对输入样本数据进行评估、筛选以及对框架的隐私安全性进行评估。
根据中国专利CN112765559A可知,在现有技术中,通过预先训练的统计模型计算采样样本与其梯度的互信息值,据此衡量样本的梯度隐私泄露风险。该技术要求预先训练的统计模型这一先决条件,且模型效能会影响互信息计算的准确性;在实际梯度泄露数据攻击中,目标样本是一批样本,批样本中通常包含多个样本,数据偷窃者只能获取到目标参与方的批样本梯度,无法知晓批样本中每个样本对应的梯度,所以只能对批样本梯度进行逆向,从而重构出批样本。在重构出的批样本中的样本特征还原度不同,即目标样本特征被泄露的程度不同,主要由样本的梯度占该批样本梯度的信息比值所决定,梯度信息量比值越大,意味着该样本梯度在批样本梯度中越具有主导地位,利用批样本梯度进行逆向分析时,更容易重构出该样本特征,现有技术没有有效体现这一关联特征。
发明内容
本发明的目的在于提供一种学习过程中模型梯度泄露输入信息的风险评估方法,以解决联邦学习中参与方共享的批样本梯度会泄露其本地输入数据特征,而不同的输入样本由于其特征信息量、特征分布的不同,在不同的联邦学习基础模型中,其被泄露的程度也既风险不同。因此,需要设计一种批样本梯度泄露其输入特征信息量的评估指标,用于量化批样本中的单个样本特征信息泄露的风险程度,以支持采用基于梯度的深度学习模型构建的联邦学习框架的安全性评估问题。
为实现上述目的,本发明提供如下技术方案:
一种学习过程中模型梯度泄露输入信息的风险评估方法,包括以下步骤:
S1:对本地数据集进行采样,得到本地采样数据集。
S2:分析本地采样数据集,从而得到本地采样数据样本的参数梯度。
S3:计算本地采样数据样本与采样样本参数梯度的互信息值。
S4:当该互信息值达到设定程度时,发出隐私泄露风险提醒,否则将该参数梯度上传至服务器。
优选的,所述S1中设某一参与方拥有一批样本(X,Y)≡((x(1),y(1)),(x(2),y(2)),...,(x(B),y(B))),批大小为B,其中(x(i),y(i))表示批样本中的第i个样本,x(i)表示样本特征,y(i)表示样本标签。
优选的,所述S2中批样本(X,Y)输入神经网络模型获得其对应的批样本梯度G并将此上传至参数服务器,以达到数据不离本地的联合构建模型的目的。
优选的,所述S3中参与方上传的批样本梯度G可能会被参数服务器或其他参与方通过逆向来重构出本地批样本(X,Y),但批样本中的每个样本被重构的可能性是不同的,为了能够量化样本特征被重构的风险,提出了一种衡量批样本中不同样本特征泄露的风险评估方法:梯度信息比,
批样本梯度G与批样本中各样本的梯度存在均值关系:
优选的,所述S3中若某个样本的梯度G(i)占批样本梯度G的信息量越大,那么其样本被泄露的可能性越大,因此我们需要通过计算样本梯度占批样本梯度的信息量来衡量对应样本被泄露的可能性,梯度是高维向量,向量有大小和方向两个属性,需要将各样本的向量投影到批样本梯度向量上,才可实现在同一方向和尺度上进行对比,衡量各样本的梯度信息占批样本梯度的信息大小。
与现有技术相比,本发明的有益效果是:
该学习过程中模型梯度泄露输入信息的风险评估方法,与现有的梯度泄露输入的指标相比,梯度信息比可以衡量批样本中的每个样本被批样本梯度泄露的风险程度,除了对样本泄露风险进行评估外,还可以满足如下场景的应用:不同样本的隐私重要性不同,那么参与方对所上传的批样本梯度将会引入隐私保护的机制(如差分隐私),传统的隐私预算是根据整个输入集和模型进行指定的,而我们提出的梯度信息比指标能够评估出不同样本的泄露风险,从而可以满足参与方针对隐私重要性较高的样本给予更小的隐私预算,即不同样本给予不同的隐私保护强度,从而满足差异化隐私保护的目的,从而减小了隐私保护策略对模型训练和可用性的影响。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的联邦学习梯度泄露输入风险评估-梯度信息比流程示意图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参阅图1,本发明实施例提供的学习过程中模型梯度泄露输入信息的风险评估方法,包括以下步骤:
S1:对本地数据集进行采样,得到本地采样数据集。
S2:分析本地采样数据集,从而得到本地采样数据样本的参数梯度。
S3:计算本地采样数据样本与采样样本参数梯度的互信息值。
S4:当该互信息值达到设定程度时,发出隐私泄露风险提醒,否则将该参数梯度上传至服务器。
设某一参与方拥有一批样本(X,Y)≡((x(1),y(1)),(x(2),y(2)),...,(x(B),y(B))),批大小为B,其中(x(i),y(i))表示批样本中的第i个样本,x(i)表示样本特征,y(i)表示样本标签。批样本(X,Y)输入神经网络模型获得其对应的批样本梯度G并将此上传至参数服务器,以达到数据不离本地的联合构建模型的目的。而参与方上传的批样本梯度G可能会被参数服务器或其他参与方通过逆向来重构出本地批样本(X,Y),但批样本中的每个样本被重构的可能性是不同的。为了能够量化样本特征被重构的风险,提出了一种衡量批样本中不同样本特征泄露的风险评估方法:梯度信息比,
批样本梯度G与批样本中各样本的梯度存在均值关系:
若某个样本的梯度G(i)占批样本梯度G的信息量越大,那么其样本被泄露的可能性越大。因此我们需要通过计算样本梯度占批样本梯度的信息量来衡量对应样本被泄露的可能性,梯度是高维向量,向量有大小和方向两个属性,需要将各样本的向量投影到批样本梯度向量上,才可实现在同一方向和尺度上进行对比,衡量各样本的梯度信息占批样本梯度的信息大小。利用向量投影公式得到第i个样本梯度G(i)在批样本梯度向量G上的投影向量如公式(2)所示。
其中投影向量在批样本梯度向量G上的长度为||G(i)||cosθ(i),cosθ(i)为样本梯度与批样本梯度的夹角余弦值,方向为G/||G||。此时,各样本可以通过该式得到对应的投影向量。基于此,提出可以通过比较各投影向量的长度||G(i)||cosθ(i)来对比各样本梯度在批样本梯度向量上的信息量,如公式(3)所示。
其中<G(i),G>表示数量积,某个样本的Info(x(i))值越高,表明其在批样本梯度G中所占信息量越大,其对应的样本特征越容易被批样本梯度所泄露。为了更清晰的表示样本梯度占批样本梯度的信息量比例,提出了一个梯度信息比Info(x(i))来表达各样本梯度占批样本梯度的信息比,
将公式(3)带入(4)中可得,
其中Info=(InfoR(x(0)),InfoR(x(1)),...,InfoR(X(b))),|min(Info)|表示取最小投影向量长度的绝对值,∈的引入是为了使得比值恒为正。InfoR(x(i))从目标样本梯度占批样本梯度的信息比的角度,更直观了表达了样本特征被批样本梯度泄露的风险,对应批样本梯度泄露某一输入信息的风险程度。
梯度信息比指标衡量批样本梯度泄露输入信息的风险程度的步骤如下:
1)参与方选取一批个数为B的待训练样本(X,Y),并计算批样本梯度G和其中各样本的梯度G(i);
2)选取某一样本x(i),按公式(5)梯度信息比指标计算所选样本的梯度信息比;
3)通过梯度信息比InfoR(x(i)),获取样本x(i)被批样本梯度G所泄露的风险程度,以达到输入样本特征泄露风险的评估。
本发明上述实施例提供的学习过程中模型梯度泄露输入信息的风险评估方法,与现有的梯度泄露输入的指标相比,梯度信息比可以衡量批样本中的每个样本被批样本梯度泄露的风险程度,不同样本的隐私重要性不同,那么参与方对所上传的批样本梯度将会引入隐私保护的机制。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (4)
1.一种学习过程中模型梯度泄露输入信息的风险评估方法,其特征在于:包括以下步骤:
S1:对本地数据集进行采样,得到本地采样数据集;
S2:分析本地采样数据集,从而得到本地采样数据样本的参数梯度;
S3:计算本地采样数据样本与采样样本参数梯度的互信息值;
S4:当该互信息值达到设定程度时,发出隐私泄露风险提醒,否则将该参数梯度上传至服务器。
2.根据权利要求1所述的学习过程中模型梯度泄露输入信息的风险评估方法,其特征在于:所述S1中设某一参与方拥有一批样本(X,Y)≡((x(1),y(1)),(x(2),y(2)),...,(x(B),y(B))),批大小为B,其中(x(i),y(i))表示批样本中的第i个样本,x(i)表示样本特征,y(i)表示样本标签。
3.根据权利要求1所述的学习过程中模型梯度泄露输入信息的风险评估方法,其特征在于:所述S2中批样本输入神经网络模型获得其对应的批样本梯度并将此上传至参数服务器,以达到数据不离本地的联合构建模型的目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210799021.9A CN115329337A (zh) | 2022-07-08 | 2022-07-08 | 一种学习过程中模型梯度泄露输入信息的风险评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210799021.9A CN115329337A (zh) | 2022-07-08 | 2022-07-08 | 一种学习过程中模型梯度泄露输入信息的风险评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115329337A true CN115329337A (zh) | 2022-11-11 |
Family
ID=83917850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210799021.9A Pending CN115329337A (zh) | 2022-07-08 | 2022-07-08 | 一种学习过程中模型梯度泄露输入信息的风险评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115329337A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028820A (zh) * | 2023-03-20 | 2023-04-28 | 支付宝(杭州)信息技术有限公司 | 一种模型训练的方法、装置、存储介质及电子设备 |
-
2022
- 2022-07-08 CN CN202210799021.9A patent/CN115329337A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028820A (zh) * | 2023-03-20 | 2023-04-28 | 支付宝(杭州)信息技术有限公司 | 一种模型训练的方法、装置、存储介质及电子设备 |
CN116028820B (zh) * | 2023-03-20 | 2023-07-04 | 支付宝(杭州)信息技术有限公司 | 一种模型训练的方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107027023A (zh) | 基于神经网络的VoIP无参考视频通信质量客观评价方法 | |
CN110992169A (zh) | 一种风险评估方法、装置、服务器及存储介质 | |
Yang et al. | Moment generating functions and scaling laws in the inertial layer of turbulent wall-bounded flows | |
CN113360580B (zh) | 基于知识图谱的异常事件检测方法、装置、设备及介质 | |
CN112989563A (zh) | 一种大坝安全监测数据分析方法 | |
Sandim et al. | Boundary Detection in Particle‐based Fluids | |
CN110222148A (zh) | 适用于语法分析的置信度评估方法及装置 | |
CN115329337A (zh) | 一种学习过程中模型梯度泄露输入信息的风险评估方法 | |
CN111828845A (zh) | 基于人工智能的管道自动检漏方法 | |
CN112699824B (zh) | 电能表仪表常数检测方法、设备及存储介质 | |
CN107657083A (zh) | 一种智能水表在线综合误差校准方法 | |
CN115001997B (zh) | 基于极值理论的智慧城市网络设备性能异常阈值评估方法 | |
CN106510651A (zh) | 一种体温预测算法的评估方法及装置 | |
CN113988519A (zh) | 一种馆藏文物保存环境风险表征方法 | |
CN116796031B (zh) | 一种基于因果关系的故障传播路径辨识方法 | |
Laungrungrong et al. | A one-sided MEWMA control chart for Poisson-distributed data | |
DE102014117357A1 (de) | Computergestütztes Schätzen der Strömungsgeschwindigkeit von Fluiden aus den Konzentrationen eines reagierenden Bestandteils für Produkte und Service | |
CN106778904A (zh) | 一种数据异常检测方法、系统及具有该系统的服务器 | |
Abrahamsen et al. | Safety oriented bubble diagrams vs. risk plots based on prediction intervals and strength-of-knowledge assessments. Which one to use as an alternative to risk matrices? | |
CN117726308A (zh) | 基于物联网和5g的智慧水利管理系统及方法 | |
CN109242821A (zh) | 基于图像质量评价的空气质量评价方法、系统、设备及存储介质 | |
CN119404220A (zh) | 用于炎症性肠病的基于显微镜载玻片图像的机器学习图像分析 | |
Wheadon | Classification accuracy and consistency under item response theory models using the package classify | |
CN115495779A (zh) | 一种联邦学习过程中泄露输入信息的风险评估指标方法 | |
CN102883180B (zh) | 一种视频质量评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |