CN114969814A - 一种模型隐私保护方法、装置以及设备 - Google Patents
一种模型隐私保护方法、装置以及设备 Download PDFInfo
- Publication number
- CN114969814A CN114969814A CN202210584343.1A CN202210584343A CN114969814A CN 114969814 A CN114969814 A CN 114969814A CN 202210584343 A CN202210584343 A CN 202210584343A CN 114969814 A CN114969814 A CN 114969814A
- Authority
- CN
- China
- Prior art keywords
- model
- protected
- sample
- training
- desensitization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 128
- 238000000586 desensitisation Methods 0.000 claims abstract description 103
- 238000012545 processing Methods 0.000 claims description 26
- 230000035945 sensitivity Effects 0.000 claims description 18
- 238000003709 image segmentation Methods 0.000 claims description 12
- 235000000332 black box Nutrition 0.000 claims description 5
- 230000003042 antagnostic effect Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 44
- 230000011218 segmentation Effects 0.000 description 24
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 238000003860 storage Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000013507 mapping Methods 0.000 description 10
- 230000006872 improvement Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例公开了一种模型隐私保护方法、装置以及设备。方案包括:在原始样本中定位出敏感区域;通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;确定包含待保护模型及其对应的攻击模型的对抗网络模型;利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
Description
技术领域
本说明书涉及机器学习技术领域,尤其涉及一种模型隐私保护方法、装置以及设备。
背景技术
近年来,人工智能学科的发展取得了重大进展,从而推进各类相关的应用开始广泛进入人们的生产和生活当中。比如,刷脸打卡、刷脸支付、智能美颜以及各类辅助驾驶等。作为人工智能系统的核心,深度学习模型在进行核心运算的同时,也面临着攻击者的恶意攻击。攻击者一般会尝试直接获取模型文件来破解模型的结构和权重,从而窒息系统的运行逻辑,从而攻破系统。因此,模型隐私保护工作刻不容缓。
目前,可以基于训练后的加密和混淆方法进行模型隐私保护,这类方案在模型完成训练以后,对模型的结构进行调整(混淆),然后对模型的权重进行加密,从而攻击者即使获得了模型文件,也无法破解出模型的结构和权重。但是,针对这类方案,又兴起了基于黑盒攻击的突破手段,在不需要显式获取模型文件的情况下,可以得到替代模型来进行系统攻击。
基于此,需要更有效的模型隐私保护方案。
发明内容
本说明书一个或多个实施例提供一种模型隐私保护方法、装置、设备以及存储介质,用以解决如下技术问题:需要更有效的模型隐私保护方案。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
本说明书一个或多个实施例提供的一种模型隐私保护方法,包括:
在原始样本中定位出敏感区域;
通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
确定包含待保护模型及其对应的攻击模型的对抗网络模型;
利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
本说明书一个或多个实施例提供的一种模型隐私保护装置,包括:
敏感区域定位模块,在原始样本中定位出敏感区域;
敏感区域脱敏模块,通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
对抗网络确定模块,确定包含待保护模型及其对应的攻击模型的对抗网络模型;
敏感对抗训练模块,利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
本说明书一个或多个实施例提供的一种模型隐私保护设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
在原始样本中定位出敏感区域;
通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
确定包含待保护模型及其对应的攻击模型的对抗网络模型;
利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
本说明书一个或多个实施例提供的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
在原始样本中定位出敏感区域;
通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
确定包含待保护模型及其对应的攻击模型的对抗网络模型;
利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
本说明书一个或多个实施例采用的上述至少一个技术方案能够达到以下有益效果:敏感区域比如是梯度相对大的高响应区域,通过该方案,能够较准确地定位这种区域,针对这种区域进行输入脱敏,通过对抗训练能够对对应区域的输出进行微调,从而使得模型本身仍然能够在脱敏情况下较为准确地进行推理,同时又使得黑盒攻击方式难以察觉和确定脱敏对于从原始输入到模型输出之间映射关系的重映射影响,从而导致从原始输入到模型输出之间表面上的直接映射关系价值降低,进而有效地降低了针对模型的黑盒攻击效果,有助于更好地保护模型隐私。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的模型隐私保护方案的构思简图;
图2为本说明书一个或多个实施例提供的一种模型隐私保护方法的流程示意图;
图3为本说明书一个或多个实施例提供的一种应用场景下,图2中方法的一种详细流程示意图;
图4为本说明书一个或多个实施例提供的一种模型隐私保护装置的结构示意图;
图5为本说明书一个或多个实施例提供的一种模型隐私保护设备的结构示意图。
具体实施方式
本说明书实施例提供一种模型隐私保护方法、装置、设备以及存储介质。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在实际应用中,机器学习模型(以下简称模型,深度学习模型是其中的一类典型的模型)可用于在各种业务领域进行推理,比如,预测用户的交易是否存在异常、预测图像中的对象所属的类型、对图像进行分割、预测时间序列,等等。
如背景技术中所说,攻击者会尝试获取模型文件来破解模型的结构和权重。这种方式属于白盒攻击方式,模型虽然经过训练,但是并不是对所有的样本都能够正确推理,不仅如此,尤其有一类较为特殊的样本值得注意,其相对于能正确推理的样本,表面上(比如,肉眼观察)可能区别并不算大,但是,在模型中却会推理出错误的结果,这是模型的弱点。而当攻击者获取到模型的结构和权重,则更容易掌握模型的这种弱点,从而可以有针对性地取故意构造这类特殊的样本,以欺骗模型,从而实现攻击目的。
进一步地,在黑盒攻击模式下,无需掌握目标模型(即攻击对象)的结构和权重,而是通过诸如会员攻击等方式判断一个样本属不属于目标模型的训练数据,一旦通过这类攻击有效识别出训练数据,则可以快速使用模型蒸馏的手段在黑盒情况下窃取模型性能,比如,用相同的训练数据对一个新的模型进行小样本训练,以尝试得到输入输出与目标模型类似的模型,从而也可能通过这种方式掌握目标模型的弱点。对于黑盒攻击目前更加缺乏应对方案。
下面的一些实施例针对上述问题提供相应的解决方案,简称为本方案。为了更好地说明本方案的构思,下面进行分析。
在本方案下,注意到了在实际应用中,不仅是上述特殊的样本,很多样本中的局部区域也可能存在高响应的情况,即,若对这样的局部区域做些许改变,就很有能够较大程度改变输出,进而可能左右最终的推理(通常是以分类为目的或者以回归为目的进行预测)结果。将这样的局部区域称为敏感区域(为了强调其特性,称为高敏感区域或者高响应区域也是可以的)。对于模型而言,针对这些敏感区域学习到的知识尤其够分量作为模型的隐私,当然,除此之外的其他权重和结构等数据也属于模型的隐私,本方案重点关注敏感区域对应的隐私,力求保护这类隐私,以事半功倍地抵御针对模型的攻击尤其是黑盒攻击。主要思路在于,在原始样本中定位出敏感区域,然后进行脱敏得到脱敏样本,同时保证对脱敏样本的推理正确性也能够达到较高水平,之后,对攻击模型进行模拟,并通过对抗训练,以尝试消除上述弱点,如此,黑盒攻击所能学到的特征映射关系被泛化了,从而使得黑盒攻击更难以盗取模型的能力,也给后续攻击者针对性地构造攻击样本有效地增加了难度。
图1为本说明书一个或多个实施例提供的模型隐私保护方案的构思简图。该构思主要包括以下四部分,先示例性地简单介绍。
第一部分,高敏感区域定位。基于对于输入的梯度反传算法进行高敏感区域定位,得到训练数据后可以训练高敏感区域定位模型;
第二部分,高敏感区域脱敏。对于数据集进行高敏区域定位,并对高敏感区域进行输入脱敏,降低模型对高敏感区域的依赖。
第三部分,高敏感区域对抗训练。针对黑盒攻击,进行不仅包括样本粒度而进一步包括区域粒度的对抗训练。
第四部分,模型隐私保护。训练得到的模型具有对自身隐私的保护能力,之后可以上线部署使用,用于相应业务领域的推理工作,其能够对抗黑盒攻击。
下面基于这样的构思,进一步地详细说明。
图2为本说明书一个或多个实施例提供的一种模型隐私保护方法的流程示意图。该方法可以应用于不同的业务领域的模型训练和使用过程中,以提高模型的隐私性,更好地防御对模型的攻击,这些业务领域比如包括:图像处理领域、金融业务领域、电商业务领域、即时通讯业务领域、游戏业务领域、公务业务领域等。该流程可以由相应领域的计算设备执行,流程中的某些输入参数或者中间结果允许人工干预调节,以帮助提高准确性。
图2中的流程可以包括以下步骤:
S202:在原始样本中定位出敏感区域。
在本说明书一个或多个实施例中,预先确定一个待保护隐私的模型,以下简称为待保护模型或者模型(本方案还涉及其他模型,后面会用其他名称来区分其他模型),需要防御针对该模型可能发生的攻击尤其是黑盒攻击。原始样本可用于在待保护模型中进行推理,其中一些原始样本也可以用于待保护模型相关的其他一些模型的训练。
在本说明书一个或多个实施例中,样本为图像样本,则敏感区域是该图像中的一部分像素,下面的一些实施例主要以这种典型情况为例说明。对于非图像的样本,也可以考虑实施该方案,以将样本表示为向量为例,则敏感区域比如是该向量中的一部分维度。这里之所以要称为原始样本,是为了与后面的脱敏样本进行区分,脱敏前的状态可称为原始的状态。
前面已经解释过敏感区域的含义,这里不再赘述。需要说明的是,这里所说的敏感区域通常难以通过肉眼对图像直接观测确定,而是需要看模型的反应如何。在人脸图像中,往往会将眼睛、嘴、鼻子等最能表现出用户身份特征的区域称为关键区域(这是用户的隐私,而不能反映出模型的隐私,本方案关注的是模型的隐私),这种关键区域则能够通过肉眼直接观测确定,因此,需要注意不能将这种关键区域与本方案中的敏感区域混为一谈,两者的定义和对应表现是不同的。
在本说明书一个或多个实施例中,可以根据对敏感区域的定义,观测将原始样本在模型中推理的结果,与将原始样本的局部区域微调后再在模型中推理的结果,通过比较这两者的差异程度,判断该局部区域是否为敏感区域。
为了提高效率,还提供基于原始样本对应的梯度表现,来确定模型对某区域是否高响应,进而判断该区域是否为敏感区域。进一步地,还可以基于这种思路构建并训练另一个机器学习模型,用于定位敏感区域,效率更高,称之为敏感区域定位模型,后面会进行详细说明。
S204:通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本。
在本说明书一个或多个实施例中,针对敏感区域进行脱敏,降低该区域的响应能力,当然,目的不仅于此,还需要使得脱敏样本后续在模型中的输出,相比于原始样本在中的输出变化不那么大(即,微调输出),从而使得模型仍然能够正确地对脱敏样本进行推理。
与敏感区域定位模型的思路类似,可以构建并训练另一个机器学习模型,用于针对敏感区域进行脱敏,效率更高,称之为脱敏模型,后面会进行详细说明。
S206:确定包含待保护模型及其对应的攻击模型的对抗网络模型。
在本说明书一个或多个实施例中,攻击模型实际上是对实际应用中的攻击的模拟,通过这种模拟来锻炼待保护模型对抗攻击的能力。对于攻击模型,其期望目标是输入原始样本,能够得到与待保护模型一致的输出,从而实现黑盒攻击,当然,本方案并不想攻击模型遂心如愿,因此,通过对抗训练来对抗该期望目标,同时努力达成待保护模型自己的原始目标,即针对原始样本及其脱敏样本进行正确推理。
S208:利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
在本说明书一个或多个实施例中,在样本脱敏的情况下,待保护模型实际学习到的知识是从脱敏样本到原始样本对应的正确输出之间的映射关系。对于所得到的具有隐私保护的模型,原始样本经历了映射到脱敏样本,再从脱敏样本重映射到正确输出这样的二重映射关系,敏感区域高响应的弱点被保护起来了。而对于攻击模型,是直接从原始样本尝试向正确输出进行映射(称为直接映射),难以到学习高响应对应的特征,而且对抗训练本身也在降低“直接映射”能够正确替代“二重映射”的可能性,从而有助于实现模型隐私保护。
在本说明书一个或多个实施例中,在实际应用中,也可以考虑不具体到区域粒度(比如,不区分样本中的不同区域,不考虑敏感区域),而是仅在样本粒度进行对抗训练,如此,也能够一定程度地阻止黑盒攻击盗取模型的能力。但是这种方式比较适合应用于训练样本较多的分类模型,而对于非分类模型(主要指回归模型),比如,图像分割模型、人脸检测模型等,则效果较差。而上述的基于敏感区域的更细粒度的方案,对于非分类模型能够取得较好的效果。
在本说明书一个或多个实施例中,训练得到具有隐私保护的模型之后,可以实际在业务中使用该模型。比如,将该模型部署于设备端,用于执行预定任务,比如,图像分割、人脸检测、对象分类等,具体取决于待保护模型的业务目标。
实际使用过程与训练过程类似,只是没有标签的指导。比如,在待保护模型转变为具有隐私保护的模型之后,通过可以该模型处理待推理对象,在当前的待推理对象中定位出敏感区域(定位过程可以由上述的敏感区域定位模型执行),通过针对待推理对象的敏感区域进行脱敏,将待推理对象转换为脱敏对象(脱敏过程可以由上述的脱敏模型执行),再通过该具有隐私保护的模型,对脱敏对象进行推理,得到推理结果,如此,能够提高推理准确定性的同时,兼顾模型的安全性。
通过图2的方法,敏感区域比如是梯度相对大的高响应区域,通过该方案,能够较准确地定位这种区域,针对这种区域进行输入脱敏,通过对抗训练能够对对应区域的输出进行微调,从而使得模型本身仍然能够在脱敏情况下较为准确地进行推理,同时又使得黑盒攻击方式难以察觉和确定脱敏对于从原始输入到模型输出之间映射关系的重映射影响,从而导致从原始输入到模型输出之间表面上的直接映射关系价值降低,进而有效地降低了针对模型的黑盒攻击效果,有助于更好地保护模型隐私。
基于图2的方法,本说明书还提供了该方法的一些具体实施方案和扩展方案,下面继续进行说明。
前面提到了可选地敏感区域定位模型和脱敏模型,下面进行示例性地说明,这两个模型可以单独实现,也可以与待保护模型进行集成,进行端到端训练。
前面还有提到,敏感区域难以直接通过肉眼观测得到,因此,可以用稍微麻烦一些的方案获取适量而准确度高的一小批训练样本,以帮助有效地训练,如此,有助于平衡方案整体的实施效率。
可以预先构建敏感区域定位模型,根据第一原始样本(其可以是S202中的原始样本之外的样本)的梯度表现(比如,在待保护模型中,或者类似结构的模型中的梯度表现),生成第一训练数据,并利用第一训练数据,训练敏感区域定位模型。之后,在执行S202时,则可以利用训练过的敏感区域定位模型,在第二原始样本(即S202中的原始样本)中定位出敏感区域。
梯度与响应程度通常是正相关的,因此,可以分析第一原始样本中各区域对应的梯度大小,以确定对哪些区域响应相对更高更敏感。以图像样本为例。具体比如,将作为第一原始样本的图像样本输入待保护模型进行处理,通过梯度反向传播,得到图像样本的各像素分别对应的梯度,根据梯度确定对应像素的敏感度,再根据处于同一区域的多个像素的敏感度,在图像样本中的多个区域中确定敏感区域,将图像样本(可作为模型输入)及为其确定出的敏感区域(可作为标签)作为第一训练数据。可以预先指定出单个区域的大小,分别综合考虑(比如,求平均或者取最值等方式)各区域内的像素敏感度,若某区域整体上敏感度相对最高,则将该区域确定为敏感区域。
在本说明书一个或多个实施例中,在脱敏处理时,也存在具有一定矛盾性的目标,一方面期望脱敏前后的样本之间的差异越大越好,另一方面又期望脱敏前后的样本都能够在待保护模型中跑出尽量一致的输出。对于这样的情况,本方案也考虑采用对抗训练,来更有针对性地尽力兼顾这些目标。
具体比如,预先构建脱敏模型,根据第二训练数据在脱敏模型中的脱敏损失,以及对应的原始目标损失,对脱敏模型进行对抗训练,之后,在执行S204时,则可以利用训练过的脱敏模型,针对敏感区域进行脱敏。脱敏损失反映了上一段中的第一个目标,期望脱敏损失尽量大,对应的原始目标损失反映了上一段中的第二个目标,期望对应的原始目标损失尽量小。基于此,可以将第二训练数据输入待保护模型中进行处理后输出,得到第一输出结果,将第二训练数据通过脱敏模型脱敏后,在输入待保护模型中进行处理后输出,得到第二输出结果,根据第一输出结果与所述第二输出结果之间的差异,确定对应的原始目标损失。在对抗训练时,可以根据这两个目标构造一个总目标,总目标用于控制训练总体状态的收敛,然后同时针对这三个目标进行训练。
在本说明书一个或多个实施例中,在对于对抗网络模型进行对抗训练时,思路与上面对脱敏模型的训练有相似性,但是相互对抗的具体目标有所不同,相比于脱敏前后的差异性,这里更关注抵抗攻击的有效性。一方面,期望脱敏前后的样本都能够在待保护模型中跑出尽量一致的输出,另一方面,又期望原始样本在攻击模型中能跑出错误的输出,攻击模型是意图模拟盗取待保护模型的黑盒能力的,因此,这两个目标一定程度上存在矛盾性。
基于这样的思路,将脱敏样本,输入对抗网络模型包含的待保护模型进行处理,将原始样本,输入对抗网络模型包含的攻击模型进行处理,以尝试模拟待保护模型的输出,根据待保护模型和攻击模型分别的输出,对于对抗网络模型进行对抗训练。具体也是构造合适的损失来表现(甚至通过额外的损失增强表现)上一段中的目标。比如,根据待保护模型针对脱敏样本的输出,与对应标签或者针对原始样本的输出之间的差异,确定待保护模型对应的原始目标损失,根据待保护模型针对脱敏样本的输出,与攻击模型的输出之间的差异,确定攻击模型对应的黑盒攻击损失,然后,根据这两种损失,构造一个总损失,这两种损失在该总损失中表现为一定程度相互对抗的关系。进而,以最小化原始目标损失和最大化黑盒攻击损失为对抗训练目标(实质上是对抗网络模型中的局部部分,即对应的待保护模型和攻击模型分别的训练目标),对于对抗网络模型进行对抗训练,为了使对抗网络模型向合理的方向收敛,以最小化总损失作为总体的对抗训练目标,对于对抗网络模型进行对抗训练。再比如,还可以额外在总损失中加入脱敏损失,以帮助黑盒攻击损失对抗原始目标损失。
需要说明的是,除了针对黑盒攻击有效,上一段中的对抗训练方式对于白盒攻击也是可能有效的,尤其是在脱敏模型安全性较好,其结构和权重难以被盗取的情况下。基于此,也可以在上一段中的总损失中构造白盒攻击损失,与原始目标损失进行对抗,在这种情况下,可以至少不全部暴露脱敏模型的情况下,强行将待保护模型与攻击模型的结构和权重至少部分置为相同以此模拟攻击模型尝试破解甚至已部分破解待保护模型文件的白盒攻击场景。在该条件下,白盒攻击损失比如根据待保护模型针对脱敏样本的输出,与攻击模型的输出之间的差异来确定。
上面对本方案进行了详细的说明,根据这些说明,更直观地,本说明书一个或多个实施例还提供了一种应用场景下,图2中方法的一种详细流程,以帮助更好地理解本方案,该详细流程如图3所示。
在图3的应用场景下,上述的待保护模型是非分类模型,具体以图像分割模型为例,上述的原始目标损失比如是分割损失。
图3中的流程可以包括以下步骤:
S302:通过非对抗训练对分割模型进行训练。
分割模型的输入为图像,输出为该图像的分割图谱。
S304;对于输入的各像素分别计算对应的梯度作为敏感度,得到敏感度图谱。
可以采用之前的训练样本或者新的训练样本实施S304。比如以下公式计算:
其中,sen表示敏感度,表示损失针对输入求偏导,即该输入对应的梯度。该公式是示例性地,还有更多的实现方式,比如,在该公式中额外增加偏置的常数项,增加常数的乘法系数等,关键是使得敏感度与梯度之间呈现正相关关系。
306:计算敏感度图谱中,敏感度之和最大的指定区域(比如,预先指定各区域为32*32大小的区域)作为敏感区域。
308:以定位了敏感区域的图像作为训练数据,训练得到敏感区域定位模型。
比如,可以预先基于检测模型框架构建敏感区域定位模型,再用得到的训练数据训练该模型。
310:为脱敏模型定义包括脱敏损失和分割损失的损失函数,并利用一些能够定位出敏感区域的样本对抗训练脱敏模型,并得到一些脱敏样本。
脱敏模型的结构比如为UNET,其输入为原始图像,输出为敏感区域脱敏的原始图像。
其示例性的损失函数如下:
其中,下标ori表示原始,下标tm表示脱敏,img表示图像,pred表示分割模型的输出,Losstm表示脱敏模型的总损失,该总损失的第一部分(即)表示脱敏损失,即脱敏前后的图像之间的差异,该总损失的第二部分(即predori-predtm)表示分割损失,即分割模型对于脱敏前后的图像的输出之间的差异。
S312:构建包含分割模型和攻击模型的对抗训练模型,为对抗训练模型定义包括分割损失和黑盒攻击损失,利用脱敏样本及其对应的原始样本,对于对抗训练模型进行对抗训练。
对抗训练模型包含一个分割模型,一个攻击模型,攻击模型利用分割模型的输入和输出来尝试窃取分割模型的能力。
分割模型的输入为原始图像(以及脱敏后的原始图像),输出为对应的分割图谱;攻击模型的输入为原始图像,输出则为模拟分割模型的输出。
其示例性的损失函数如下:
其中,下标gt表示标签,Lossseg表示对抗训练模型的总损失,该总损失的第一部分(即)表示分割损失(该分割损失与上一段中的分割损失有区别),比如是分割模型对于脱敏后的图像的输出与对应标签之间的差异,该总损失的第二部分(即)表示黑盒攻击损失,即分割模型对于脱敏前的图像(原始图像)或者脱敏后的图像的输出,与攻击模型对于原始图像的输出之间的差异。
基于上述的模型结构和损失函数进行训练,直至模型收敛。
S314:将训练后的对抗训练模型中包含的分割模型在设备端进行部署。
S316:部署后,对于新的待分割图像,通过敏感区域定位模型,在待分割图像中定位敏感区域。
S318:通过脱敏模型,针对待分割图像的敏感区域进行托名,得到脱敏图像;
S320:通过该分割模型,对脱敏图像进行分割推理,得到分割图谱,用于指导待分割图像的分割。
基于同样的思路,本说明书一个或多个实施例还提供了上述方法对应的装置和设备,如图4、图5所示。
图4为本说明书一个或多个实施例提供的一种模型隐私保护装置的结构示意图,所述装置包括:
敏感区域定位模块402,在原始样本中定位出敏感区域;
敏感区域脱敏模块404,通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
对抗网络确定模块406,确定包含待保护模型及其对应的攻击模型的对抗网络模型;
敏感对抗训练模块408,利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
可选地,还包括:
第一训练模块410,在原始样本中定位出敏感区域之前,根据第一原始样本的梯度表现,生成第一训练数据,并利用所述第一训练数据,训练敏感区域定位模型;
所述敏感区域定位模块402,利用所述敏感区域定位模型,在第二原始样本中定位出敏感区域。
可选地,所述第一原始样本为图像样本;
所述第一训练模块410,将所述图像样本输入所述待保护模型进行处理,通过梯度反向传播,得到所述图像样本的各像素分别对应的梯度;
根据所述梯度确定对应所述像素的敏感度;
根据处于同一区域的多个所述像素的敏感度,在所述图像样本中的多个区域中确定敏感区域,将所述图像样本及为其确定出的敏感区域作为第一训练数据。
可选地,还包括:
第二训练模块412,在针对所述敏感区域进行脱敏之前,根据第二训练数据在脱敏模型中的脱敏损失,以及对应的原始目标损失,对所述脱敏模型进行对抗训练;
所述敏感区域脱敏模块404,利用所述脱敏模型,针对所述敏感区域进行脱敏。
可选地,所述第二训练模块412,在对所述脱敏模型进行对抗训练之前,将第二训练数据输入所述待保护模型中进行处理后输出,得到第一输出结果;
将第二训练数据通过所述脱敏模型脱敏后,在输入所述待保护模型中进行处理后输出,得到第二输出结果;
根据所述第一输出结果与所述第二输出结果之间的差异,确定所述对应的原始目标损失。
可选地,所述敏感对抗训练模块408,将所述脱敏样本,输入所述对抗网络模型包含的所述待保护模型进行处理;
将所述原始样本,输入所述对抗网络模型包含的所述攻击模型进行处理,以尝试模拟所述待保护模型的输出;
根据所述待保护模型和所述攻击模型分别的输出,对所述对抗网络模型进行对抗训练。
可选地,所述敏感对抗训练模块408,根据所述待保护模型和所述攻击模型分别的输出,确定所述待保护模型对应的原始目标损失,以及所述攻击模型对应的黑盒攻击损失;
根据所述原始目标损失和所述黑盒攻击损失,对所述对抗网络模型进行对抗训练。
可选地,所述敏感对抗训练模块408,根据所述待保护模型针对所述脱敏样本的输出,与对应标签或者针对所述原始样本的输出之间的差异,确定所述待保护模型对应的原始目标损失;
根据所述待保护模型针对所述脱敏样本的输出,与所述攻击模型的输出之间的差异,确定所述攻击模型对应的黑盒攻击损失。
可选地,所述敏感对抗训练模块408,以最小化所述原始目标损失和最大化所述黑盒攻击损失为对抗训练目标,对所述对抗网络模型进行对抗训练。
可选地,还包括隐私保护推理模块414;
所述敏感区域定位模块402,在待保护模型转变为具有隐私保护的模型之后,在当前的待推理对象中定位出敏感区域;
所述敏感区域脱敏模块404,通过针对所述待推理对象的所述敏感区域进行脱敏,将所述待推理对象转换为脱敏对象;
所述隐私保护推理模块414,通过所述具有隐私保护的模型,对所述脱敏对象进行推理,得到推理结果。
可选地,所述待保护模型为非分类模型。
可选地,所述非分类模型包括图像分割模型,所述图像分割模型在转变为所述具有隐私保护的模型后,用于预测图像分割结果,并且抵御针对所述图像分割模型自身的黑盒攻击。
图5为本说明书一个或多个实施例提供的一种模型隐私保护设备的结构示意图,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
在原始样本中定位出敏感区域;
通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
确定包含待保护模型及其对应的攻击模型的对抗网络模型;
利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
处理器与存储器之间可以通过总线通信,设备还可以包括与其他设备通信的输入/输出接口。
基于同样的思路,本说明书一个或多个实施例还提供了对应于上述方法的一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
在原始样本中定位出敏感区域;
通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
确定包含待保护模型及其对应的攻击模型的对抗网络模型;
利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (25)
1.一种模型隐私保护方法,包括:
在原始样本中定位出敏感区域;
通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
确定包含待保护模型及其对应的攻击模型的对抗网络模型;
利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
2.如权利要求1所述的方法,所述在原始样本中定位出敏感区域之前,所述方法还包括:
根据第一原始样本的梯度表现,生成第一训练数据,并利用所述第一训练数据,训练敏感区域定位模型;
所述在原始样本中定位出敏感区域,具体包括:
利用所述敏感区域定位模型,在第二原始样本中定位出敏感区域。
3.如权利要求2所述的方法,所述第一原始样本为图像样本;
所述根据第一原始样本的梯度表现,生成第一训练数据,具体包括:
将所述图像样本输入所述待保护模型进行处理,通过梯度反向传播,得到所述图像样本的各像素分别对应的梯度;
根据所述梯度确定对应所述像素的敏感度;
根据处于同一区域的多个所述像素的敏感度,在所述图像样本中的多个区域中确定敏感区域,将所述图像样本及为其确定出的敏感区域作为第一训练数据。
4.如权利要求1所述的方法,所述针对所述敏感区域进行脱敏之前,所述方法还包括:
根据第二训练数据在脱敏模型中的脱敏损失,以及对应的原始目标损失,对所述脱敏模型进行对抗训练;
所述针对所述敏感区域进行脱敏,具体包括:
利用所述脱敏模型,针对所述敏感区域进行脱敏。
5.如权利要求4所述的方法,所述对所述脱敏模型进行对抗训练之前,所述方法还包括:
将第二训练数据输入所述待保护模型中进行处理后输出,得到第一输出结果;
将第二训练数据通过所述脱敏模型脱敏后,在输入所述待保护模型中进行处理后输出,得到第二输出结果;
根据所述第一输出结果与所述第二输出结果之间的差异,确定所述对应的原始目标损失。
6.如权利要求1所述的方法,所述利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,具体包括:
将所述脱敏样本,输入所述对抗网络模型包含的所述待保护模型进行处理;
将所述原始样本,输入所述对抗网络模型包含的所述攻击模型进行处理,以尝试模拟所述待保护模型的输出;
根据所述待保护模型和所述攻击模型分别的输出,对所述对抗网络模型进行对抗训练。
7.如权利要求6所述的方法,所述根据所述待保护模型和所述攻击模型分别的输出,对所述对抗网络模型进行对抗训练,具体包括:
根据所述待保护模型和所述攻击模型分别的输出,确定所述待保护模型对应的原始目标损失,以及所述攻击模型对应的黑盒攻击损失;
根据所述原始目标损失和所述黑盒攻击损失,对所述对抗网络模型进行对抗训练。
8.如权利要求7所述的方法,所述根据所述待保护模型和所述攻击模型分别的输出,确定所述待保护模型对应的原始目标损失,以及所述攻击模型对应的黑盒攻击损失,具体包括:
根据所述待保护模型针对所述脱敏样本的输出,与对应标签或者针对所述原始样本的输出之间的差异,确定所述待保护模型对应的原始目标损失;
根据所述待保护模型针对所述脱敏样本的输出,与所述攻击模型的输出之间的差异,确定所述攻击模型对应的黑盒攻击损失。
9.如权利要求7所述的方法,所述根据所述原始目标损失和所述黑盒攻击损失,对所述对抗网络模型进行对抗训练,具体包括:
以最小化所述原始目标损失和最大化所述黑盒攻击损失为对抗训练目标,对所述对抗网络模型进行对抗训练。
10.如权利要求1所述的方法,所述待保护模型转变为具有隐私保护的模型之后,所述方法还包括:
在当前的待推理对象中定位出敏感区域;
通过针对所述待推理对象的所述敏感区域进行脱敏,将所述待推理对象转换为脱敏对象;
通过所述具有隐私保护的模型,对所述脱敏对象进行推理,得到推理结果。
11.如权利要求1~10任一项所述的方法,所述待保护模型为非分类模型。
12.如权利要求11所述的方法,所述非分类模型包括图像分割模型,所述图像分割模型在转变为所述具有隐私保护的模型后,用于预测图像分割结果,并且抵御针对所述图像分割模型自身的黑盒攻击。
13.一种模型隐私保护装置,包括:
敏感区域定位模块,在原始样本中定位出敏感区域;
敏感区域脱敏模块,通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
对抗网络确定模块,确定包含待保护模型及其对应的攻击模型的对抗网络模型;
敏感对抗训练模块,利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
14.如权利要求13所述的装置,还包括:
第一训练模块,在原始样本中定位出敏感区域之前,根据第一原始样本的梯度表现,生成第一训练数据,并利用所述第一训练数据,训练敏感区域定位模型;
所述敏感区域定位模块,利用所述敏感区域定位模型,在第二原始样本中定位出敏感区域。
15.如权利要求14所述的装置,所述第一原始样本为图像样本;
所述第一训练模块,将所述图像样本输入所述待保护模型进行处理,通过梯度反向传播,得到所述图像样本的各像素分别对应的梯度;
根据所述梯度确定对应所述像素的敏感度;
根据处于同一区域的多个所述像素的敏感度,在所述图像样本中的多个区域中确定敏感区域,将所述图像样本及为其确定出的敏感区域作为第一训练数据。
16.如权利要求13所述的装置,还包括:
第二训练模块,在针对所述敏感区域进行脱敏之前,根据第二训练数据在脱敏模型中的脱敏损失,以及对应的原始目标损失,对所述脱敏模型进行对抗训练;
所述敏感区域脱敏模块,利用所述脱敏模型,针对所述敏感区域进行脱敏。
17.如权利要求16所述的装置,所述第二训练模块,在对所述脱敏模型进行对抗训练之前,将第二训练数据输入所述待保护模型中进行处理后输出,得到第一输出结果;
将第二训练数据通过所述脱敏模型脱敏后,在输入所述待保护模型中进行处理后输出,得到第二输出结果;
根据所述第一输出结果与所述第二输出结果之间的差异,确定所述对应的原始目标损失。
18.如权利要求13所述的装置,所述敏感对抗训练模块,将所述脱敏样本,输入所述对抗网络模型包含的所述待保护模型进行处理;
将所述原始样本,输入所述对抗网络模型包含的所述攻击模型进行处理,以尝试模拟所述待保护模型的输出;
根据所述待保护模型和所述攻击模型分别的输出,对所述对抗网络模型进行对抗训练。
19.如权利要求18所述的装置,所述敏感对抗训练模块,根据所述待保护模型和所述攻击模型分别的输出,确定所述待保护模型对应的原始目标损失,以及所述攻击模型对应的黑盒攻击损失;
根据所述原始目标损失和所述黑盒攻击损失,对所述对抗网络模型进行对抗训练。
20.如权利要求19所述的装置,所述敏感对抗训练模块,根据所述待保护模型针对所述脱敏样本的输出,与对应标签或者针对所述原始样本的输出之间的差异,确定所述待保护模型对应的原始目标损失;
根据所述待保护模型针对所述脱敏样本的输出,与所述攻击模型的输出之间的差异,确定所述攻击模型对应的黑盒攻击损失。
21.如权利要求19所述的装置,所述敏感对抗训练模块,以最小化所述原始目标损失和最大化所述黑盒攻击损失为对抗训练目标,对所述对抗网络模型进行对抗训练。
22.如权利要求13所述的装置,还包括隐私保护推理模块;
所述敏感区域定位模块,在待保护模型转变为具有隐私保护的模型之后,在当前的待推理对象中定位出敏感区域;
所述敏感区域脱敏模块,通过针对所述待推理对象的所述敏感区域进行脱敏,将所述待推理对象转换为脱敏对象;
所述隐私保护推理模块,通过所述具有隐私保护的模型,对所述脱敏对象进行推理,得到推理结果。
23.如权利要求13~22任一项所述的装置,所述待保护模型为非分类模型。
24.如权利要求23所述的装置,所述非分类模型包括图像分割模型,所述图像分割模型在转变为所述具有隐私保护的模型后,用于预测图像分割结果,并且抵御针对所述图像分割模型自身的黑盒攻击。
25.一种模型隐私保护设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
在原始样本中定位出敏感区域;
通过针对所述敏感区域进行脱敏,将所述原始样本转换为脱敏样本;
确定包含待保护模型及其对应的攻击模型的对抗网络模型;
利用所述原始样本和所述脱敏样本,对所述对抗网络模型进行对抗训练,以使所述待保护模型转变为具有隐私保护的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210584343.1A CN114969814A (zh) | 2022-05-27 | 2022-05-27 | 一种模型隐私保护方法、装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210584343.1A CN114969814A (zh) | 2022-05-27 | 2022-05-27 | 一种模型隐私保护方法、装置以及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114969814A true CN114969814A (zh) | 2022-08-30 |
Family
ID=82956133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210584343.1A Pending CN114969814A (zh) | 2022-05-27 | 2022-05-27 | 一种模型隐私保护方法、装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114969814A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117240982A (zh) * | 2023-11-09 | 2023-12-15 | 沐城测绘(北京)有限公司 | 一种基于隐私保护的视频脱敏方法 |
-
2022
- 2022-05-27 CN CN202210584343.1A patent/CN114969814A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117240982A (zh) * | 2023-11-09 | 2023-12-15 | 沐城测绘(北京)有限公司 | 一种基于隐私保护的视频脱敏方法 |
CN117240982B (zh) * | 2023-11-09 | 2024-01-26 | 沐城测绘(北京)有限公司 | 一种基于隐私保护的视频脱敏方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108111489B (zh) | Url攻击检测方法、装置以及电子设备 | |
CN107808098B (zh) | 一种模型安全检测方法、装置以及电子设备 | |
CN111400705B (zh) | 一种应用程序的检测方法、装置及设备 | |
Bibi et al. | A dynamic DL-driven architecture to combat sophisticated Android malware | |
Diochnos et al. | Lower bounds for adversarially robust pac learning | |
CN114969814A (zh) | 一种模型隐私保护方法、装置以及设备 | |
Yoo et al. | The image game: exploit kit detection based on recursive convolutional neural networks | |
Gallagher et al. | Investigating machine learning attacks on financial time series models | |
Nozawa et al. | Adversarial examples for hardware-trojan detection at gate-level netlists | |
CN113961704A (zh) | 一种基于文本的风险防控处理方法、装置及设备 | |
CN111062019A (zh) | 用户攻击检测方法、装置、电子设备 | |
Alodat et al. | Detection of image malware steganography using deep transfer learning model | |
Yin et al. | FTG: Score-based black-box watermarking by fragile trigger generation for deep model integrity verification | |
CN113221717A (zh) | 一种基于隐私保护的模型构建方法、装置及设备 | |
CN112819156A (zh) | 一种数据处理方法、装置及设备 | |
CN113239852B (zh) | 一种基于隐私保护的隐私图像处理方法、装置及设备 | |
CN112818400B (zh) | 一种基于隐私保护的生物识别方法、装置及设备 | |
Chen et al. | Randomizing svm against adversarial attacks under uncertainty | |
Kim | The impact of platform vulnerabilities in AI systems | |
Lu et al. | PhilaeX: explaining the failure and success of AI models in malware detection | |
Tripathi et al. | Protecting privacy in the era of artificial intelligence | |
CN111711618A (zh) | 一种风险地址识别方法、装置、设备和存储介质 | |
Weiss et al. | Ezclone: Improving dnn model extraction attack via shape distillation from gpu execution profiles | |
KR101281940B1 (ko) | 데이터 필터링 방법 및 장치 | |
Fadili et al. | A Survey on Cybersecurity Techniques Toward Convolutional Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |