CN113901516A - 基于分裂学习的图像数据保护方法、系统及电子设备 - Google Patents

基于分裂学习的图像数据保护方法、系统及电子设备 Download PDF

Info

Publication number
CN113901516A
CN113901516A CN202111185207.7A CN202111185207A CN113901516A CN 113901516 A CN113901516 A CN 113901516A CN 202111185207 A CN202111185207 A CN 202111185207A CN 113901516 A CN113901516 A CN 113901516A
Authority
CN
China
Prior art keywords
disturbance
image
image data
embedding
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111185207.7A
Other languages
English (en)
Inventor
郑申俊
沈俊青
张亮
田甜
何刚
刘涛
蔡锦澄
陈亮
王要超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Chinaoly Technology Co ltd
Original Assignee
Hangzhou Chinaoly Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Chinaoly Technology Co ltd filed Critical Hangzhou Chinaoly Technology Co ltd
Priority to CN202111185207.7A priority Critical patent/CN113901516A/zh
Publication of CN113901516A publication Critical patent/CN113901516A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于分裂学习的图像数据保护方法、系统及电子设备,涉及信息安全技术领域,该方法首先通过获取原始图像数据并确定原始图像数据对应的初始嵌入特征;然后将原始图像数据与预设的噪声数据进行叠加得到扰动图像,并确定扰动图像对应的扰动嵌入特征;其中,预设的噪声数据通过已训练完成的生成器所生成的;再将初始嵌入特征和扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果,并将满足预设阈值的特征相似结果对应的扰动嵌入特征进行聚合。该方法在各参与方上传粉碎数据给服务器之前对图像数据进行重构,并在避免数据重构失效的前提下提高了图像数据的隐私性。

Description

基于分裂学习的图像数据保护方法、系统及电子设备
技术领域
本发明涉及信息安全技术领域,尤其是涉及一种基于分裂学习的图像数据保护方法、系统及电子设备。
背景技术
分裂学习是深度学习领域中常见的图像数据保护技术,分裂学习过程中首先为各个参与方分配子模型,并为服务器端分发服务器模型;其次各方参与者利用各自的子模型在本地数据集上提取特征获得粉碎数据,并上传给服务器;然后服务器聚合各个参与方上传的粉碎数据,最后反向传播更新服务器模型和各个参与方的子模型参数信息。但分裂学习的过程中,攻击者可通过引入恶意的鉴别器和自编码器来窃取参与方的原始数据,使得整个分裂学习框架的隐私性得到损害。
发明内容
有鉴于此,本发明的目的在于提供一种基于分裂学习的图像数据保护方法、系统及电子设备,该方法在各参与方上传粉碎数据给服务器之前对图像数据进行重构,并在避免数据重构失效的前提下提高了图像数据的隐私性。
第一方面,本发明实施例提供了一种基于分裂学习的图像数据保护方法,该方法包括:
获取原始图像数据,并确定原始图像数据对应的初始嵌入特征;
将原始图像数据与预设的噪声数据进行叠加得到扰动图像,并确定扰动图像对应的扰动嵌入特征;其中,预设的噪声数据通过已训练完成的生成器所生成的;
将初始嵌入特征和扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果,并将满足预设阈值的特征相似结果对应的扰动嵌入特征进行聚合。
在一些实施方式中,生成器的训练过程,包括:
在先验分布Pprior(x)中选取噪声{z1,z2,…zm}作为生成器G(ω)的噪声向量;
将噪声向量输入至已初始化的生成器中,生成器将噪声向量前向传播输出噪声数据Pc,并将生成器进行重构;
将原始图像数据Ic与噪声数据Pc进行叠加得到扰动图像Ip,并利用扰动图像Ip与目标扰动图像It构建损失函数;损失函数为:
Figure BDA0003298890230000021
其中,loss为生成器的损失函数;M为客户端子模型;D为鉴别器模型;m为样本数量;
利用损失函数计算生成器的损失值,当损失值满足预设阈值时停止训练。
在一些实施方式中,将原始图像数据与预设的噪声数据进行叠加得到扰动图像之后,方法还包括:对扰动图像进行预处理操作;其中,对扰动图像进行预处理操作,包括:
获取扰动图像Ip
利用线性归一化算式对扰动图像进行归一化操作,将扰动图像Ip的像素值进行约束;其中,线性归一化算式为:
Figure BDA0003298890230000022
在一些实施方式中,鉴别器的训练过程,包括:
利用子模型M(θ)分别在原始图像数据IC以及扰动图像Ip进行提取特征,获得初始嵌入特征FC以及扰动嵌入特征Fp
将初始嵌入特征FC以及扰动嵌入特征Fp输入至已初始化的鉴别器D(ψ)中;并将扰动嵌入特征Fp对应的标签设置为0,初始嵌入特征FC对应的标签设置为1;
利用预设的损失函数计算鉴别器的损失值,当损失值满足预设阈值时停止训练;其中,损失函数为:
Figure BDA0003298890230000031
其中,loss为鉴别器的损失函数。
在一些实施方式中,将初始嵌入特征和扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果,包括:
获取初始嵌入特征FC以及扰动嵌入特征Fp
利用数据拼接和/或数据平均的方式来对服务端中各个客户端上传的初始嵌入特征FC以及扰动嵌入特征Fp进行聚合;
将已完成聚合的扰动嵌入特征Fp进行前向传播得到特征相似性结果,并实时更新服务端以及客户端的参数。
在一些实施方式中,将原始图像数据与预设的噪声数据进行叠加得到扰动图像之后,还包括:
对扰动图像进行降噪处理,生成扰动图像的降噪图像;
将降噪图像进行归一化计算,得到归一化计算结果;归一化计算结果用于确定扰动图像对应的扰动嵌入特征。
在一些实施方式中,将满足预设阈值的特征相似结果对应的扰动嵌入特征进行聚合,包括:
判断特征相似性结果是否满足噪声数据中的数据脱敏关系;
如果不满足,则利用生成器确定的噪声数据与预设的目标脱敏数据进行叠加生成脱敏图像,并利用鉴别器得到脱敏图像的特征相似性结果,直至脱敏图像的特征相似性结果满足数据脱敏关系时,将脱敏图像的特征相似性结果对应的扰动嵌入特征进行聚合。
第二方面,本发明实施例提供了一种基于分裂学习的图像数据保护系统,该系统包括:
初始嵌入特征获取单元,用于获取原始图像数据,并确定原始图像数据对应的初始嵌入特征;
扰动嵌入特征获取单元,用于将原始图像数据与预设的噪声数据进行叠加得到扰动图像,并确定扰动图像对应的扰动嵌入特征;其中,预设的噪声数据通过已训练完成的生成器所生成的;
图像数据聚合单元,用于将初始嵌入特征和扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果,并将满足预设阈值的特征相似结果对应的扰动嵌入特征进行聚合。
第三方面,本发明实施例提供了一种电子设备,该电子设备包括:处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行如第一方面提供的基于分裂学习的图像数据保护方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时实现上述第一方面提供的基于分裂学习的图像数据保护方法的步骤。
本发明实施例带来了以下有益效果:本发明实施例提供了一种基于分裂学习的图像数据保护方法、系统及电子设备,该方法首先通过获取原始图像数据并确定原始图像数据对应的初始嵌入特征;然后将原始图像数据与预设的噪声数据进行叠加得到扰动图像,并确定扰动图像对应的扰动嵌入特征;其中,预设的噪声数据通过已训练完成的生成器所生成的;再将初始嵌入特征和扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果,并将满足预设阈值的特征相似结果对应的扰动嵌入特征进行聚合。该方法在各参与方上传粉碎数据给服务器之前对图像数据进行重构,并在避免数据重构失效的前提下提高了图像数据的隐私性。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于分裂学习的图像数据保护方法的流程图;
图2为本发明实施例提供的一种基于分裂学习的图像数据保护方法中生成器的训练流程图;
图3为本发明实施例提供的一种基于分裂学习的图像数据保护方法中鉴别器的训练流程图;
图4为本发明实施例提供的基于分裂学习的图像数据保护方法中,将原始图像数据与预设的噪声数据进行叠加得到扰动图像之后的一种方法流程图;
图5为本发明实施例提供的基于分裂学习的图像数据保护方法中,将原始图像数据与预设的噪声数据进行叠加得到扰动图像之后的另一种方法流程图;
图6为本发明实施例提供的基于分裂学习的图像数据保护方法中,将初始嵌入特征和扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果的流程图;
图7为本发明实施例提供的基于分裂学习的图像数据保护方法中,将满足预设阈值的特征相似结果对应的扰动嵌入特征进行聚合的流程图;
图8为本发明实施例提供的另一种基于分裂学习的图像数据保护方法的流程图;
图9为本发明实施例提供的一种基于分裂学习的图像数据保护系统的结构示意图;
图10为本发明实施例提供的一种电子设备的结构示意图。
图标:
910-初始嵌入特征获取单元;920-扰动嵌入特征获取单元;930-图像数据聚合单元;101-处理器;102-存储器;103-总线;104-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
分裂学习是深度学习领域中常见的图像数据保护技术,分裂学习过程中首先为各个参与方分配子模型,并为服务器端分发服务器模型;其次各方参与者利用各自的子模型在本地数据集上提取特征获得粉碎数据,并上传给服务器;然后服务器聚合各个参与方上传的粉碎数据,最后反向传播更新服务器模型和各个参与方的子模型参数信息。
但分裂学习的过程中仍然存在数据隐私泄露的风险,具体来说恶意攻击者可以引入恶意的鉴别器和自编码器来窃取参与方的原始数据,这种推断攻击的发起者通常为恶意的服务器或者某一个参与者。具体来说,恶意的服务器在训练期间迭代的训练攻击模型和正常分类模型,训练完成获得的解码器可以直接恢复某一受害者的原始数据。这种对良性客户端原始数据的推断攻击使得整个分裂学习框架的隐私性得到损害。
针对上述问题,本发明提出一种基于分裂学习的图像数据保护方法、系统及电子设备,该方法在各参与方上传粉碎数据给服务器之前对图像数据进行重构,并在避免数据重构失效的前提下提高了图像数据的隐私性。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于分裂学习的图像数据保护方法进行详细介绍,该方法的流程图如图1所示,包括:
步骤S101,获取原始图像数据,并确定原始图像数据对应的初始嵌入特征。
该步骤中的原始图像数据为数字图像数据,可通过相关图像数据集中进行获取,也可通过预设的相机中直接获取。该图像数据中可包括数字图像,也可包括数字图像的相关设置参数,如:数量、标签等。
初始嵌入特征的确定过程是一种特征获取过程,是通过对原始图像数据中所包含的特征进行提取得到的。特征提取过程可通过分裂学习框架中相应的子模型进行提取得到的,利用这些子模型在本地数据集上提取嵌入特征,并将其即为初始嵌入特征。通俗的讲,这些初始嵌入特征为干净的嵌入特征向量。
步骤S102,将原始图像数据与预设的噪声数据进行叠加得到扰动图像,并确定扰动图像对应的扰动嵌入特征;其中,预设的噪声数据通过已训练完成的生成器所生成的。
预设的噪声数据为生成器的输出数据,本实施例中的生成器是生成式对抗网络领域中的生成模型。相应的,生成式对抗网络中的鉴别模型即为鉴别器。预设的噪声数据是利用生成器对相应的初始噪声进行计算得到,初始噪声可根据原始图像数据的像素值平均方差,并设定相应的随机噪声得到。一般来说,噪声的分布规律可采用均匀分布和正态分布,通过计算图像像素值的均方差得到初始噪声。
将初始噪声输入至生成器中,并前向传播可获得相应的噪声数据,并将噪声数据对应的图像尺寸缩放至于原始图像数据的图像尺寸相同后,通过将二者进行叠加即可生成相应的扰动图像。扰动图像获取之后,利用相关子模型进行特征提取得到扰动图像对应的扰动嵌入特征。
步骤S103,将初始嵌入特征和扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果,并将满足预设阈值的特征相似结果对应的扰动嵌入特征进行聚合。
在获得初始嵌入特征以及扰动嵌入特征后,将二者输入至鉴别器中进行判别,获得特征的相似性结果。该鉴别器为生成式对抗网络中的鉴别模型,用于对初始嵌入特征和扰动嵌入特征的相似度进行判断。利用生成式对抗网络能够使得扰动图像数据和原始图像数据具有相似的嵌入特征空间分布,同时扰动图像在肉眼上很难与原始图像进行区分。
在得到特征相似性结果之后,将满足预设阈值的特征相似结果对应的扰动嵌入特征进行聚合。聚合的过程发生在服务器端,服务器利用拼接或者平均的方式来聚合各个客户端上传的扰动嵌入特征,该过程又称为粉碎数据过程。采用拼接的方式是拼接客户端上传的嵌入信息,即采用拼接操作拼接所有特征向量信息,聚合后得到嵌入信息;采用平均的方式是对所有客户端嵌入特征信息进行加权求和以获得特征向量信息。
将满足预设阈值的特征相似结果对应的扰动嵌入特征进行聚合,聚合完成的粉碎数据作为服务器模型的输入数据,在服务器模型进行前向传播,后续通过计算损失函数反向传播更新服务器模型的参数以及客户端子模型的参数。
上述基于分裂学习的图像数据保护方法充分考虑到分裂学习框架容易遭受攻击者发动推断攻击从而泄露原始数据数据信息的机制,通过基于生成式对抗网络的分裂学习框架,使得各参与方上传粉碎数据给服务器之前对图像数据进行重构,并在避免数据重构失效的前提下提高了图像数据的隐私性。整个操作过程不依赖任何第三方,由客户端独立操作完成,进一步保证了图像数据的隐私性。
由于生成器和鉴别器是生成式对抗网络中的组件,因此需要对生成式对抗网络以及分裂学习相关参数进行初始化。初始化的过程可对模型相关参数进行设置,如:初始化分裂学习训练轮数R和本地参与者使用生成式对抗网络的训练轮数T、服务器网络结构及其初始化参数、参与方上传的嵌入向量维度N、模型学习率r、分裂学习的损失函数和生成式对抗网络的损失函数模型等。
各个客户端i加载本地数据至本地设备,利用数据对齐技术将客户端数据自动匹配对齐。本地客户端针对特定数据集选定特征子模型M(θ),例如针对MNIST数据集选择卷积神经网络。此外根据数据集模态的不同可以选择适应当前数据模态的模型,例如针对网络数据选择图卷积神经网络作为客户端的子模型。然后利用子模型M(θ)在本地原始图像数据Ic进行提取特征,即模型完成前向传播,获得干净的嵌入特征向量Fc
具体的说,在一些实施方式中,生成器的训练过程,如图2所示,包括:
步骤S201,在先验分布Pprior(x)中选取噪声{z1,z2,…zm}作为生成器G(ω)的噪声向量。
初始化噪声作为生成器G(ω)的数据,客户端首先量化本地图像数据的复杂程度,具体来说计算本地原始图像的像素值平均方差;然后依据方差设定随机噪声的方差范围,噪声的分布规律主要有均匀分布和正态分布。
具体的说,量化像素值均方差公式为:
Figure BDA0003298890230000101
其中,ΔIi,j为i,j像素点差值。
步骤S202,将噪声向量输入至已初始化的生成器中,生成器将噪声向量前向传播输出噪声数据Pc,并将生成器进行重构。
初始噪声输入生成器后通过前向传播输出特定噪声数据Pc,并进行尺寸缩放操作,将输出的数据Pc和原始图像数据Ic具有相同的尺寸大小。
步骤S203,将原始图像数据Ic与噪声数据Pc进行叠加得到扰动图像Ip,并利用扰动图像Ip与目标扰动图像It构建损失函数。
将原始图像数据Ic与噪声数据Pc进行叠加得到扰动图像Ip的过程通过算式Ip=Pc+Ic得以实现。然后,利用扰动图像Ip与目标扰动图像It构建损失函数。具体的说目标扰动图像可统称为目标脱敏图像,损失函数的构建过程是通过像素值的范数构建,例如用户端使用L2范数构建损失函数。同时引入鉴别器来更新生成器模型参数。
具体的说,损失函数为:
Figure BDA0003298890230000102
其中,loss为生成器的损失函数;M为客户端子模型;D为鉴别器模型;m为样本数量。
步骤S204,利用损失函数计算生成器的损失值,当损失值满足预设阈值时停止训练。
在一些实施方式中,鉴别器的训练过程,如图3所示,包括:
步骤S301,利用子模型M(θ)分别在原始图像数据IC以及扰动图像Ip进行提取特征,获得初始嵌入特征FC以及扰动嵌入特征Fp
利用子模型M(θ)分别在原始图像数据IC以及扰动图像Ip进行提取特征,即子模型完成了前向传播过程,以此获得扰动图像的嵌入特征向量Fc以及原始图像对应的嵌入特征向量Fp
步骤S302,将初始嵌入特征Fc以及扰动嵌入特征Fp输入至已初始化的鉴别器D(ψ)中;并将扰动嵌入特征Fp对应的标签设置为0,初始嵌入特征FC对应的标签设置为1。
该步骤中的利用鉴别器D(ψ)实现二分类任务,具体的是将扰动嵌入特征Fp对应的标签设置为0,初始嵌入特征FC对应的标签设置为1。
步骤S303,利用预设的损失函数计算鉴别器的损失值,当损失值满足预设阈值时停止训练;其中,损失函数为:
Figure BDA0003298890230000111
其中,loss为鉴别器的损失函数。
通过损失值也预设阈值的对比关系来决定训练是否完成,经过若干次训练训练后,直到鉴别器D(ψ)和生成器G(ω)都收敛,即可认为上述训练完成。
在一些实施方式中,将原始图像数据与预设的噪声数据进行叠加得到扰动图像之后需要对扰动图像进行预处理操作,具体的说该方法还包括:对扰动图像进行预处理操作;上述过程如图4所示,包括:
步骤S401,获取扰动图像Ip
步骤S402,利用线性归一化算式对扰动图像进行归一化操作,将扰动图像Ip的像素值进行约束;其中,线性归一化算式为:
Figure BDA0003298890230000121
上述步骤将扰动图像进行修剪操作,然后对其进行归一化操作,将扰动图像的像素值约束至0到1之间,有利于提高处理速度。
在一些实施方式中还需对扰动图像进行降噪处理,具体的说将原始图像数据与预设的噪声数据进行叠加得到扰动图像之后,所述方法如图5所示,还包括:
步骤S501,对扰动图像进行降噪处理,生成扰动图像的降噪图像。
降噪处理过程可使用相应的降噪算法,来对扰动图像进行降噪,从而降低扰动图像中噪声来带的特征不明显问题,最终生成扰动图像的降噪图像。
步骤S502,将降噪图像进行归一化计算,得到归一化计算结果;归一化计算结果用于确定扰动图像对应的扰动嵌入特征。
该步骤中的归一化计算可与步骤S402中的归一化操作相同,不再赘述。
在一些实施方式中,将初始嵌入特征和扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果,如图6所示,包括:
步骤S601,获取初始嵌入特征FC以及扰动嵌入特征Fp
步骤S602,利用数据拼接和/或数据平均的方式来对服务端中各个客户端上传的初始嵌入特征FC以及扰动嵌入特征Fp进行聚合。
上述过程在服务端实现的,具体的说服务器利用拼接和/或平均的方式来对服务端中各个客户端上传的初始嵌入特征FC以及扰动嵌入特征Fp进行聚合,也成为粉碎数据。
步骤S603,将已完成聚合的扰动嵌入特征Fp进行前向传播得到特征相似性结果,并实时更新服务端以及客户端的参数。
输入聚合完成的粉碎数据Fp作为服务器模型的输入数据,在服务器模型进行前向传播,后续通过计算损失函数反向传播更新服务器模型的参数;与之相似的,聚合完成的初始嵌入特征FC通过前向传播最终更新客户端子模型的参数,在此不再赘述。
在一些实施方式中,将满足预设阈值的特征相似结果对应的扰动嵌入特征进行聚合,如图7所示,包括:
步骤S701,判断特征相似性结果是否满足噪声数据中的数据脱敏关系。
步骤S702,如果不满足,则利用生成器确定的噪声数据与预设的目标脱敏数据进行叠加生成脱敏图像,并利用鉴别器得到脱敏图像的特征相似性结果,直至脱敏图像的特征相似性结果满足数据脱敏关系时,将脱敏图像的特征相似性结果对应的扰动嵌入特征进行聚合。
在将扰动嵌入特征进行聚合之前,需要判断鉴别器中的特征相似性结果是否满足预设的数据脱敏关系。具体的说,数据脱敏关系可为目标脱敏图像It数据,即目标扰动图像的数据。如果鉴别器输出的结果中并不脱敏,则重新使用生成器生成特定噪声,再与原始图像数据进行叠加,进而执行特征提取过程,再通过鉴别器判断特征相似性,直到鉴别器输出结果为脱敏时,将脱敏图像的特征相似性结果对应的扰动嵌入特征进行聚合。上述过程见图8所示的基于分裂学习的图像数据保护方法的另一种流程图,不再赘述。
通过上述实施例提供的基于分裂学习的图像数据保护方法可知,该方法通过对原始图像进行添加扰动噪声进行数据脱敏,同时又保证数据的可用性。利用生成式对抗网络后能够使得扰动图像和原始图像具有相似的嵌入特征空间分布,还能够将扰动图像在肉眼识别上很难和原始样本进行区分。具体来说通过生成器来生成扰动噪声,使得叠加噪声的扰动图像和目标脱敏图像尽可能相似;同时,使用叠加噪声的图像输入客户端子模型获得的嵌入特征向量与原始图像的嵌入特征向量尽可能的相似。使用该方法,能够将客户端所有扰动加密操作均在客户端本地完成,因此整个扰动加密操作具有隐私性,避免中间操作过程的隐私泄露;客户端通过添加扰动噪声生成的扰动图像和原始图像在肉眼识别上不具有相似性,即使存在恶意攻击者窃取利用生成式对抗网络技术窃取参与者的数据,也无法获得未扰动图像,因此也保证了原始图像的隐私性;而且,客户端中参与训练的扰动图像和原始图像具有相关的特征空间分布,保证了扰动数据的可用性。可见,上述方法在各参与方上传粉碎数据给服务器之前对图像数据进行重构,并在避免数据重构失效的前提下提高了图像数据的隐私性。
对应于上述基于分裂学习的图像数据保护方法的实施例,本实施例还提供一种基于分裂学习的图像数据保护系统,如图9所示,该系统包括:
初始嵌入特征获取单元910,用于获取原始图像数据,并确定原始图像数据对应的初始嵌入特征。
扰动嵌入特征获取单元920,用于将原始图像数据与预设的噪声数据进行叠加得到扰动图像,并确定扰动图像对应的扰动嵌入特征;其中,预设的噪声数据通过已训练完成的生成器所生成的。
图像数据聚合单元930,用于将初始嵌入特征和扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果,并将满足预设阈值的特征相似结果对应的扰动嵌入特征进行聚合。
本发明实施例所提供的基于分裂学习的图像数据保护系统,其实现原理及产生的技术效果和前述基于分裂学习的图像数据保护方法的实施例相同,为简要描述,实施例部分未提及之处,可参考前述方法实施例中相应内容。
本实施例还提供一种电子设备,为该电子设备的结构示意图如图10所示,该设备包括处理器101和存储器102;其中,存储器102用于存储一条或多条计算机指令,一条或多条计算机指令被处理器执行,以实现上述基于分裂学习的图像数据保护方法。
图10所示的服务器还包括总线103和通信接口104,处理器101、通信接口104和存储器102通过总线103连接。
其中,存储器102可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。总线103可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
通信接口104用于通过网络接口与至少一个用户终端及其它网络单元连接,将封装好的IPv4报文或IPv4报文通过网络接口发送至用户终端。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器102,处理器101读取存储器102中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行前述实施例的方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、设备和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以用软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于分裂学习的图像数据保护方法,其特征在于,所述方法包括:
获取原始图像数据,并确定所述原始图像数据对应的初始嵌入特征;
将所述原始图像数据与预设的噪声数据进行叠加得到扰动图像,并确定所述扰动图像对应的扰动嵌入特征;其中,所述预设的噪声数据通过已训练完成的生成器所生成的;
将所述初始嵌入特征和所述扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果,并将满足预设阈值的所述特征相似结果对应的所述扰动嵌入特征进行聚合。
2.根据权利要求1所述的基于分裂学习的图像数据保护方法,其特征在于,所述生成器的训练过程,包括:
在先验分布Pprior(x)中选取噪声{z1,z2,…zm}作为所述生成器G(ω)的噪声向量;
将所述噪声向量输入至已初始化的所述生成器中,所述生成器将所述噪声向量前向传播输出噪声数据Pc,并将所述生成器进行重构;
将所述原始图像数据Ic与所述噪声数据Pc进行叠加得到扰动图像Ip,并利用扰动图像Ip与目标扰动图像It构建损失函数;所述损失函数为:
Figure FDA0003298890220000011
其中,loss为所述生成器的损失函数;M为客户端子模型;D为鉴别器模型;m为样本数量;
利用所述损失函数计算所述生成器的损失值,当所述损失值满足预设阈值时停止训练。
3.根据权利要求1所述的基于分裂学习的图像数据保护方法,其特征在于,将所述原始图像数据与预设的噪声数据进行叠加得到扰动图像之后,所述方法还包括:对所述扰动图像进行预处理操作;其中,对所述扰动图像进行预处理操作,包括:
获取所述扰动图像Ip
利用线性归一化算式对所述扰动图像进行归一化操作,将所述扰动图像Ip的像素值进行约束;其中,所述线性归一化算式为:
Figure FDA0003298890220000021
4.根据权利要求1所述的基于分裂学习的图像数据保护方法,其特征在于,所述鉴别器的训练过程,包括:
利用子模型M(θ)分别在所述原始图像数据IC以及所述扰动图像Ip进行提取特征,获得初始嵌入特征FC以及扰动嵌入特征Fp
将所述初始嵌入特征FC以及所述扰动嵌入特征Fp输入至已初始化的鉴别器D(ψ)中;并将所述扰动嵌入特征Fp对应的标签设置为0,所述初始嵌入特征FC对应的标签设置为1;
利用预设的损失函数计算所述鉴别器的损失值,当所述损失值满足预设阈值时停止训练;其中,所述损失函数为:
Figure FDA0003298890220000022
其中,loss为所述鉴别器的损失函数。
5.根据权利要求1所述的基于分裂学习的图像数据保护方法,其特征在于,将所述初始嵌入特征和所述扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果,包括:
获取所述初始嵌入特征FC以及所述扰动嵌入特征Fp
利用数据拼接和/或数据平均的方式来对服务端中各个客户端上传的所述初始嵌入特征FC以及所述扰动嵌入特征Fp进行聚合;
将已完成聚合的所述扰动嵌入特征Fp进行前向传播得到所述特征相似性结果,并实时更新所述服务端以及所述客户端的参数。
6.根据权利要求1所述的基于分裂学习的图像数据保护方法,其特征在于,将所述原始图像数据与预设的噪声数据进行叠加得到扰动图像之后,还包括:
对所述扰动图像进行降噪处理,生成所述扰动图像的降噪图像;
将所述降噪图像进行归一化计算,得到归一化计算结果;所述归一化计算结果用于确定所述扰动图像对应的所述扰动嵌入特征。
7.根据权利要求1所述的基于分裂学习的图像数据保护方法,其特征在于,将满足预设阈值的所述特征相似结果对应的所述扰动嵌入特征进行聚合,包括:
判断所述特征相似性结果是否满足所述噪声数据中的数据脱敏关系;
如果不满足,则利用所述生成器确定的所述噪声数据与预设的目标脱敏数据进行叠加生成脱敏图像,并利用所述鉴别器得到所述脱敏图像的特征相似性结果,直至所述脱敏图像的特征相似性结果满足所述数据脱敏关系时,将所述脱敏图像的特征相似性结果对应的扰动嵌入特征进行聚合。
8.一种基于分裂学习的图像数据保护系统,其特征在于,所述系统包括:
初始嵌入特征获取单元,用于获取原始图像数据,并确定所述原始图像数据对应的初始嵌入特征;
扰动嵌入特征获取单元,用于将所述原始图像数据与预设的噪声数据进行叠加得到扰动图像,并确定所述扰动图像对应的扰动嵌入特征;其中,所述预设的噪声数据通过已训练完成的生成器所生成的;
图像数据聚合单元,用于将所述初始嵌入特征和所述扰动嵌入特征输入至已训练完成的鉴别器中得到特征相似性结果,并将满足预设阈值的所述特征相似结果对应的所述扰动嵌入特征进行聚合。
9.一种电子设备,其特征在于,包括:处理器和存储装置;所述存储装置上存储有计算机程序,所述计算机程序在被所述处理器运行时实现如权利要求1至7任一项所述的基于分裂学习的图像数据保护方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时实现上述权利要求1至7任一项所述的基于分裂学习的图像数据保护方法的步骤。
CN202111185207.7A 2021-10-12 2021-10-12 基于分裂学习的图像数据保护方法、系统及电子设备 Pending CN113901516A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111185207.7A CN113901516A (zh) 2021-10-12 2021-10-12 基于分裂学习的图像数据保护方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111185207.7A CN113901516A (zh) 2021-10-12 2021-10-12 基于分裂学习的图像数据保护方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN113901516A true CN113901516A (zh) 2022-01-07

Family

ID=79191575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111185207.7A Pending CN113901516A (zh) 2021-10-12 2021-10-12 基于分裂学习的图像数据保护方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN113901516A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419719A (zh) * 2022-03-29 2022-04-29 北京爱笔科技有限公司 一种生物特征的处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419719A (zh) * 2022-03-29 2022-04-29 北京爱笔科技有限公司 一种生物特征的处理方法及装置
CN114419719B (zh) * 2022-03-29 2022-08-12 北京爱笔科技有限公司 一种生物特征的处理方法及装置

Similar Documents

Publication Publication Date Title
Singh et al. A new robust watermarking system in integer DCT domain
CN110874571B (zh) 人脸识别模型的训练方法及装置
WO2020097182A1 (en) Privacy-preserving visual recognition via adversarial learning
CN108876864B (zh) 图像编码、解码方法、装置、电子设备及计算机可读介质
CN111612079B (zh) 数据确权方法、设备及可读存储介质
El'arbi et al. Image authentication algorithm with recovery capabilities based on neural networks in the DCT domain
CN112101531B (zh) 基于隐私保护的神经网络模型训练方法、装置及系统
CN113901516A (zh) 基于分裂学习的图像数据保护方法、系统及电子设备
CN110473136B (zh) 基于surf-dct混合的图像处理方法及装置
CN111680181A (zh) 一种异常对象的识别方法及终端设备
US20180247451A1 (en) System and method for three dimensional object reconstruction and quality monitoring
Zhou et al. Geometric correction code‐based robust image watermarking
Shashidhar et al. Reviewing the effectivity factor in existing techniques of image forensics
CN112102200B (zh) 图像补全模型初始化方法、训练方法和图像补全方法
Datta et al. Robust data hiding scheme for highly compressed image exploiting btc with hamming code
Sun et al. An image watermarking scheme using Arnold transform and fuzzy smooth support vector machine
CN114978623B (zh) 一种基于隐私保护的人脸比对方法及装置
CN112102208B (zh) 带边缘保持的水下图像处理系统、方法、装置和介质
CN112115452A (zh) 用于生成验证码图像的方法和装置
CN115708339A (zh) 数据处理方法、装置和存储介质
CN113379637A (zh) 基于递进学习策略的图像修复方法、系统、介质及设备
CN108898557B (zh) 图像恢复方法及装置、电子设备、计算机程序及存储介质
Li et al. Deepkeystego: Protecting communication by key-dependent steganography with deep networks
CN117473469B (zh) 一种模型水印嵌入方法、装置、电子设备及存储介质
Qian et al. Web Photo Source Identification based on Neural Enhanced Camera Fingerprint

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination