CN116049840A - 一种数据保护方法、装置、相关设备及系统 - Google Patents

一种数据保护方法、装置、相关设备及系统 Download PDF

Info

Publication number
CN116049840A
CN116049840A CN202210879047.4A CN202210879047A CN116049840A CN 116049840 A CN116049840 A CN 116049840A CN 202210879047 A CN202210879047 A CN 202210879047A CN 116049840 A CN116049840 A CN 116049840A
Authority
CN
China
Prior art keywords
data
neural network
module
ith
restorer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210879047.4A
Other languages
English (en)
Other versions
CN116049840B (zh
Inventor
王宇然
桂韬
张奇
陆劲竹
丁勇
张轶博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Honor Device Co Ltd
Original Assignee
Fudan University
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University, Honor Device Co Ltd filed Critical Fudan University
Priority to CN202210879047.4A priority Critical patent/CN116049840B/zh
Publication of CN116049840A publication Critical patent/CN116049840A/zh
Application granted granted Critical
Publication of CN116049840B publication Critical patent/CN116049840B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

一种数据保护方法、装置、相关设备及系统,电子设备包括数据保护模型,数据保护模型包括一个编码器、一个混淆器和一个恢复器:其中,混淆器包括N个混淆模块;电子设备通过编码器对用户数据x进行特征抽取,得到特征向量z0,将输入到恢复器和第1混淆模块;电子设备通过恢复器对第i‑1特征向量zi‑1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将δi输入到第i混淆模块;电子设备通过第i混淆模块将第i‑1特征向量zi‑1和第i噪声δi进行叠加,得到第i特征向量zi;其中,i依次从1到N进行取值;在将i的取值加1之后,重新执行通过恢复器对第i‑1特征向量zi‑1进行的步骤,直到i等于所述N。

Description

一种数据保护方法、装置、相关设备及系统
技术领域
本申请涉及信息安全领域,尤其涉及一种数据保护方法、装置、相关设备及系统。
背景技术
为了方便对数据的集中处理和存储,用户数据很多情况下需要上传云端,比如,大数据处理、云存储等等。在用户数据上传云端的时候,也会面临用户隐私泄露、黑客攻击等等数据安全的威胁。当前的解决方案往往是对用户数据进行加密,例如,编码等操作,上传到云端对应解码。然而,若黑客专门针对编解码模型进行攻击,数据安全性依旧较差。
发明内容
本申请实施例公开了一种数据保护方法、装置、相关设备及系统,可以提高用户信息的安全性。
第一方面,本申请提供了一种数据保护方法,所述方法应用于电子设备,所述电子设备包括数据保护模型,所述数据保护模型包括一个编码器、一个混淆器和一个恢复器:其中,所述混淆器包括N个混淆模块,所述N个混淆模块分别为第1混淆模块、第2混淆模块、……、第N混淆模块,所述N为大于1的整数;所述电子设备通过所述编码器对用户数据x进行特征抽取,得到特征向量z0,将所述特征向量z0输入到所述恢复器和所述第1混淆模块;所述电子设备通过所述恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将所述δi输入到第i混淆模块;所述电子设备通过所述第i混淆模块将所述第i-1特征向量zi-1和所述第i噪声δi进行叠加,得到第i特征向量zi;其中,所述i依次从1到所述N进行取值;在所述i的取值加1之后,重新执行所述通过所述恢复器对第i-1特征向量zi-1进行还原处理的步骤,直到所述i等于所述N,输出所述第N混淆模块得到的第N特征向量zN
其中,数据保护模型连接的具体结构为:N个混淆模块中前一个混淆模块的输出端作为后一个混淆模块的一个输入端;编码器的输出端作为混淆器中第1混淆模块的一个输入端;恢复器的N个输入端包括N个混淆模块中前N-1个混淆模块的输出端和编码器的输出端;恢复器的另一输入端和编码器的输入端用于输入用户数据x;恢复器的N个输出端依次作为N个混淆模块的另一输入端;第N混淆模块的输出作为装置的输出。
在本申请实施例中,恢复器能够针对于攻击者可能训练的攻击模型针对性地产生干扰噪声,可以提升端侧编码模型的抗攻击能力,提高用户信息的安全性。进一步地,N个混淆模块将恢复器的N个噪声依次叠加,这个过程中,恢复器不断地对加入的噪声进行迭代,保证迭代的噪声相比于单一的噪声的生成而言,能够使得噪声更准确地趋向于损失函数增大的方向,这样添加的噪声的抗原像攻击的效果更优。
在一种可能的实施方式中,所述电子设备通过所述编码器对用户数据x进行特征抽取,得到特征向量z0,具体包括:
z0=Enc(x,α)
其中,所述Enc为第一神经网络模型,所述α是所述第一神经网络模型的编码参数。
在本申请实施例中,用户数据输入到第一神经网络模型中,电子设备可以基于上述的神经网络模型对用户数据进行特征抽取,一方面能够对发送的数据进行加密,另一方面,为之后解码器的处理做好准备,保证用户数据传输的安全性和解码的进一步处理过程。
在一种可能的实施方式中,所述α以第一目标函数的最小值为目标训练而成,或所述α以第二目标函数的最大值为目标训练而成,或所述α以第三目标函数的最大值为目标训练而成;其中,所述第一目标函数是解码数据y′和理想输出数据y之间的损失函数;所述第二目标函数是第二神经网络模型输出的还原数据x′和用户数据x之间的损失函数;所述第三目标函数是所述第二神经网络模型输出的隐私属性A′和理想属性A之间的损失函数;所述解码数据y′是基于所述第N特征向量zN处理得到的结果;所述理想输出数据y是所述用户数据x经过处理输出的正确结果,所述第二神经网络模型是所述恢复器用于还原用户数据和预测隐私的神经网络,所述还原数据x′是所述第二神经网络模型基于特征向量还原出的数据,所述隐私属性A′为所述用户数据中用户个人的敏感信息,所述隐私属性A′是所述第二神经网络模型基于所述特征向量预测出的用户个人敏感信息;所述理想属性A是所述用户数据x中正确的敏感信息。
其中,解码数据y′是云端设备的解码器将第N特征向量zN处理得到的解码结果。第二目标函数可以是Lrec(x,sDec(zi-1,θ)),此时x′=sDec(zi-1,θ);第三目标函数为Lattr(A,sDec(zi-1,θ)),此时A′=sDec(zi-1,θ)。Lattr为隐私属性的损失函数。
在本申请实施例中,编码器的参数α能够通过第一目标函数的最小值为目标进行训练,从而可以保证解码器整个数据保护模型输出结果的正确性。此外,第二目标函数最大为目标能够对抗原象攻击,第三目标函数最大为目标对抗隐私属性攻击,因此,编码器参数α的训练调整,使得攻击者训练得到的攻击模型得到的隐私属性或者还原出的用户数据(原象攻击)是偏差较大的,即进行原象攻击和隐私信息攻击的对抗训练,以保证用户数据的安全性。
在一种可能的实施方式中,所述电子设备通过所述恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据生成第i噪声δi,具体包括:
Figure BDA0003763449620000021
其中,所述sDec为第二神经网络模型,所述第二神经网络模型包括对特征向量进行还原的功能,所述sign为符号函数;所述Lrec为重构损失函数,所述Lrec用于确定用户数据x和还原数据sDec(zi-1,θ)之间的重构损失;所述θ是所述第二神经网络模型的参数。
在本申请实施例中,恢复器可以对应为每一个混淆模块加入产生噪声,噪声的生成过程值按照与重构损失的梯度方向相同的方向添加噪声,即故意添加细微的干扰所形成的输入样本,会导致模型以高置信度给出一个错误的输出。这样,能够保证原象攻击的效果差。
在一种可能的实施方式中,所述θ以第二目标函数的最小值为目标训练而成,或所述θ以第三目标函数的最小值为目标训练而成;其中,所述第二目标函数是所述第二神经网络模型输出的还原数据x′和用户数据x之间的损失函数;所述第三目标函数是所述第二神经网络模型输出的隐私属性A′和理想属性A之间的损失函数;所述第二神经网络模型是所述恢复器用于还原用户数据和预测隐私的神经网络,所述还原数据x′是所述第二神经网络模型基于所述特征向量还原出的数据,所述隐私属性A′为所述用户数据中用户个人的敏感信息,所述隐私属性A′是所述第二神经网络模型基于所述特征向量预测出的用户个人敏感信息;所述理想属性A是所述用户数据x中正确的敏感信息。
其中,第二目标函数可以是Lrec(x,sDec(zi-1,θ)),此时x′=sDec(zi-1,θ);第三目标函数为Lattr(A,sDec(zi-1,θ)),此时A′=sDec(zi-1,θ)。Lattr为隐私属性的损失函数。
在本申请实施例中,由于能够将第二目标函数和第三目标函数的最小值作为目标训练恢复器的参数,从而能够保证恢复器的参数θ使得预测的隐私属性的准确性,以及还原出攻击者可能训练的隐私恢复模型达到的攻击效果。这样,可以保证对抗隐私属性攻击和原象攻击的效果。
在一种可能的实施方式中,所述电子设备通过所述第i混淆模块将所述第i-1特征向量zi-1和所述第i噪声δi进行叠加,得到第i特征向量zi,具体包括:
Figure BDA0003763449620000031
其中,所述ε为隐私预算,隐私预算用于决定加噪的幅度,所述mask为0-1随机向量。
在本申请实施例中,混淆模块可以按照顺序依次向特征向量中添加噪声(干扰),噪声的添加能够干扰所形成的输出样本,达到对抗攻击的效果。
在一种可能的实施方式中,在所述电子设备通过所述第N混淆模块得到第N特征向量zN之后,所述方法还包括:
所述电子设备通过所述混淆器将所述第N特征向量zN更新为:
z0+clip(-μ,μ,zN-z0)
其中,所述clip是将叠加的总噪声zN-z0限定在参数-μ到μ之间的函数,所述-μ为所述clip限定的最小值,所述μ为所述clip限定的最大值,所述μ为正数。
在本申请实施例中,由于混淆器能够对叠加的噪声进行限制,保证噪声的总量是在一定范围内的,一方面可以保证噪声的隐蔽性,避免攻击者能够察觉加入的噪声并预先处理,另一方面可以也保证解码器解码的准确性。
在一种可能的实施方式中,所述恢复器包括N个恢复模块,所述N个恢复模块分别为第1恢复模块,第2恢复模块,……,第N恢复模块,所述电子设备通过所述恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将所述δi输入到所述第i混淆模块,具体包括:所述电子设备通过第i恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将所述δi输入到所述第i混淆模块。
在本申请实施例中,恢复器可以包括N个恢复模块,每一个恢复模块分别为混淆模块产生噪声,恢复器中每个恢复模块均具有一个第二神经网络,每个第二神经网络可以不同,从而第二神经网络模型是适应于提取当前这一层特征向量的,保证产生的噪声更加有利于输入样本的错误,形成更优的原象攻击效果。
在一种可能的实施方式中,所述方法还包括:所述电子设备获取反馈信息label,所述反馈信息label用于表征用户反馈的正确解码数据,所述反馈信息label与所述特征向量zN一一对应;所述电子设备向云端设备发送反馈信息label;所述特征向量zN和反馈信息label用于所述云端设备对解码器进行监督训练,更新所述解码器的解码参数。
在本申请实施例中,能够保证在模型部署之后,可以进一步地基于用户的具体使用情况,对数据保护模型的解码器进行更新和同步,从而能够适应用户的实际使用,随着用户数据的迭代,更新模型,保证模型时效性和准确性。
第二方面,本申请提供了另一种数据保护方法,所述方法应用于云端设备,所述云端设备包括数据保护模型,所述数据保护模型包括一个解码器:所述云端设备获取来自电子设备的第N特征向量zN;所述云端设备通过所述解码器对第N特征向量zN进行预测处理,得到解码数据yk
yk=Deck(zN,βk)
其中,所述Deck为第三神经网络模型,所述βk为所述第三神经网络模型的参数。
在本申请实施例中,解码器位于云端,能够对编码器生成的特征向量zN进行预测处理,得到解码数据,即zN可以来自终端设备,例如第一方面任一项的执行过程。解码的过程是来源于终端设备,云端设备能够保证预测结果是准确的情况下,结果攻击者训练的攻击模型的输出结果不同,从而能够保证抵御攻击的作用。
在一种可能的实施方式中,所述βk以第一目标函数的最小值为目标训练而成;所述第一目标函数是所述解码数据y′和理想输出数据y之间的损失函数,所述理想输出数据y是所述用户数据x经过所述解码器输出的正确结果,所述解码数据y′是所述解码器基于所述第N特征向量zN处理得到的结果。
在本申请实施例中,由于第一目标函数是以y′与y之间的损失函数最小为目标进行优化训练的,因此,能够使得训练的数据保护模型保证,用户在端侧上传数据进行编码得到编码数据传给云侧,云侧解码器对编码数据处理的准确性。
在一种可能的实施方式中,所述方法还包括:所述云端设备接收来自终端设备的反馈信息label,将所述解码数据yk和所述反馈数据label作为训练样本,对所述解码器进行监督训练,并将解码器参数βk更新为训练后的参数。
在本申请实施例中,能够保证在模型部署之后,可以进一步地基于用户的具体使用情况,对数据保护模型的解码器进行更新和同步,从而能够适应用户的实际使用,随着用户数据的迭代,更新模型,保证模型时效性和准确性。
第三方面,本申请提供了一种数据保护装置,所述装置为电子设备,所述装置包括一个编码器、一个混淆器和一个恢复器,其中:
所述混淆器的所述混淆器包括N个混淆模块,所述N个混淆模块分别为第1混淆模块、第2混淆模块、……、第N混淆模块,所述N为大于1的整数;所述N个混淆模块中前一个混淆模块的输出端作为后一个混淆模块的一个输入端;所述编码器的输出端作为所述混淆器中第1混淆模块的一个输入端;所述恢复器的N个输入端包括所述N个混淆模块中前N-1个混淆模块的输出端和所述编码器的输出端;所述恢复器的另一输入端和所述编码器的输入端用于输入用户数据x;所述恢复器的N个输出端依次作为所述N个混淆模块的另一输入端;所述第N混淆模块的输出作为所述装置的输出;
所述编码器,用于对用户数据x进行特征抽取,得到特征向量z0,将所述特征向量z0输入到所述恢复器和所述第1混淆模块;
所述恢复器,用于对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将所述δi输入到第i混淆模块;
所述第i混淆模块,用于将所述第i-1特征向量zi-1和所述第i噪声δi进行叠加,得到第i特征向量zi
在本申请实施例中,恢复器能够针对于攻击者可能训练的攻击模型针对性地产生干扰噪声,可以提升端侧编码模型的抗攻击能力,提高用户信息的安全性。进一步地,N个混淆模块将恢复器的N个噪声依次叠加,这个过程中,恢复器不断地对加入的噪声进行迭代,保证迭代的噪声相比于单一的噪声的生成而言,能够使得噪声更准确地趋向于损失函数增大的方向,这样添加的噪声的抗原像攻击的效果更优。
在一种可能的实施方式中,所述编码器对用户数据x进行特征抽取,得到特征向量z0,具体用于:
z0=Enc(x,α)
其中,所述Enc为第一神经网络模型,所述α是所述第一神经网络模型的编码参数。
在本申请实施例中,用户数据输入到第一神经网络模型中,电子设备可以基于上述的神经网络模型对用户数据进行特征抽取,一方面能够对发送的数据进行加密,另一方面,为之后解码器的处理做好准备,保证用户数据传输的安全性和解码的进一步处理过程。
在一种可能的实施方式中,所述α以第一目标函数的最小值为目标训练而成,或所述α以第二目标函数的最大值为目标训练而成,或所述α以第三目标函数的最大值为目标训练而成;其中,所述第一目标函数是解码数据y′和理想输出数据y之间的损失函数;所述第二目标函数是第二神经网络模型输出的还原数据x′和用户数据x之间的损失函数;所述第三目标函数是所述第二神经网络模型输出的隐私属性A′和理想属性A之间的损失函数;所述解码数据y′是基于所述第N特征向量zN处理得到的结果;所述理想输出数据y是所述用户数据x经过处理输出的正确结果,所述第二神经网络模型是所述恢复器用于还原用户数据和预测隐私的神经网络,所述还原数据x′是所述第二神经网络模型基于特征向量还原出的数据,所述隐私属性A′为所述用户数据中用户个人的敏感信息,所述隐私属性A′是所述第二神经网络模型基于所述特征向量预测出的用户个人敏感信息;所述理想属性A是所述用户数据x中正确的敏感信息。
其中,解码数据y′是云端设备的解码器将第N特征向量zN处理得到的解码结果。第二目标函数可以是Lrec(x,sDec(zi-1,θ)),此时x′=sDec(zi-1,θ);第三目标函数为Lattr(A,sDec(zi-1,θ)),此时A′=sDec(zi-1,θ)。Lattr为隐私属性的损失函数。
在本申请实施例中,编码器的参数α能够通过第一目标函数的最小值为目标进行训练,从而可以保证解码器整个数据保护模型输出结果的正确性。此外,第二目标函数最大为目标能够对抗原象攻击,第三目标函数最大为目标对抗隐私属性攻击,因此,编码器参数α的训练调整,使得攻击者训练得到的攻击模型得到的隐私属性或者还原出的用户数据(原象攻击)是偏差较大的,即进行原象攻击和隐私信息攻击的对抗训练,以保证用户数据的安全性。
在一种可能的实施方式中,所述电子设备通过所述恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据生成第i噪声δi,具体用于:
Figure BDA0003763449620000061
其中,所述sDec为第二神经网络模型,所述第二神经网络模型包括对特征向量进行还原的功能,所述sign为符号函数;所述Lrec为重构损失函数,所述Lrec用于确定用户数据x和还原数据sDec(zi-1,θ)之间的重构损失;所述θ是所述第二神经网络模型的参数。
在本申请实施例中,恢复器可以对应为每一个混淆模块加入产生噪声,噪声的生成过程值按照与重构损失的梯度方向相同的方向添加噪声,即故意添加细微的干扰所形成的输入样本,会导致模型以高置信度给出一个错误的输出。这样,能够保证原象攻击的效果差。
在一种可能的实施方式中,所述θ以第二目标函数的最小值为目标训练而成,或所述θ以第三目标函数的最小值为目标训练而成;其中,所述第二目标函数是所述第二神经网络模型输出的还原数据x′和用户数据x之间的损失函数;所述第三目标函数是所述第二神经网络模型输出的隐私属性A′和理想属性A之间的损失函数;所述第二神经网络模型是所述恢复器用于还原用户数据和预测隐私的神经网络,所述还原数据x′是所述第二神经网络模型基于所述特征向量还原出的数据,所述隐私属性A′为所述用户数据中用户个人的敏感信息,所述隐私属性A′是所述第二神经网络模型基于所述特征向量预测出的用户个人敏感信息;所述理想属性A是所述用户数据x中正确的敏感信息。
其中,第二目标函数可以是Lrec(x,sDec(zi-1,θ)),此时x′=sDec(zi-1,θ);第三目标函数为Lattr(A,sDec(zi-1,θ)),此时A′=sDec(zi-1,θ)。Lattr为隐私属性的损失函数。
在本申请实施例中,由于能够将第二目标函数和第三目标函数的最小值作为目标训练恢复器的参数,从而能够保证恢复器的参数θ使得预测的隐私属性的准确性,以及还原出攻击者可能训练的隐私恢复模型达到的攻击效果。这样,可以保证对抗隐私属性攻击和原象攻击的效果。
在一种可能的实施方式中,所述电子设备通过所述第i混淆模块将所述第i-1特征向量zi-1和所述第i噪声δi进行叠加,得到第i特征向量zi,具体用于:
Figure BDA0003763449620000071
其中,所述ε为隐私预算,隐私预算用于决定加噪的幅度,所述mask为0-1随机向量。
在本申请实施例中,混淆模块可以按照顺序依次向特征向量中添加噪声(干扰),噪声的添加能够干扰所形成的输出样本,达到对抗攻击的效果。
在一种可能的实施方式中,在所述装置通过所述第N混淆模块得到第N特征向量zN之后,所述装置还用于:
所述混淆器将所述第N特征向量zN更新为:
z0+clip(-μ,μ,zN-z0)
其中,所述clip是将叠加的总噪声zN-z0限定在参数-μ到μ之间的函数,所述-μ为所述clip限定的最小值,所述μ为所述clip限定的最大值,所述μ为正数。
在本申请实施例中,由于混淆器能够对叠加的噪声进行限制,保证噪声的总量是在一定范围内的,一方面可以保证噪声的隐蔽性,避免攻击者能够察觉加入的噪声并预先处理,另一方面可以也保证解码器解码的准确性。
在一种可能的实施方式中,所述恢复器包括N个恢复模块,所述N个恢复模块分别为第1恢复模块,第2恢复模块,……,第N恢复模块,所述恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi,具体用于:第i恢复器,用于对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将所述δi输入到所述第i混淆模块。
在本申请实施例中,恢复器可以包括N个恢复模块,每一个恢复模块分别为混淆模块产生噪声,恢复器中每个恢复模块均具有一个第二神经网络,每个第二神经网络可以不同,从而第二神经网络模型是适应于提取当前这一层特征向量的,保证产生的噪声更加有利于输入样本的错误,形成更优的原象攻击效果。
在一种可能的实施方式中,所述装置还用于:获取反馈信息label,所述反馈信息label用于表征用户反馈的正确解码数据,所述反馈信息label与所述特征向量zN一一对应;所述装置向云端设备发送反馈信息label;所述特征向量zN和反馈信息label用于所述云端设备对解码器进行监督训练,更新所述解码器的解码参数。
在本申请实施例中,能够保证在模型部署之后,可以进一步地基于用户的具体使用情况,对数据保护模型的解码器进行更新和同步,从而能够适应用户的实际使用,随着用户数据的迭代,更新模型,保证模型时效性和准确性。
第四方面,本申请提供了另一种数据保护装置,所述装置包括一个解码器,其中:所述解码器,用于对第N特征向量zN进行预测处理,得到解码数据yk
yk=Deck(zN,βk)
其中,所述Deck为第三神经网络模型,所述βk为所述第三神经网络模型的参数。
其中,所述第N特征向量zN为来自终端设备的特征向量。
在本申请实施例中,解码器位于云端,能够对编码器生成的特征向量zN进行预测处理,得到解码数据。解码的过程是来源于终端设备,云端设备能够保证预测结果是准确的情况下,结果攻击者训练的攻击模型的输出结果不同,从而能够保证抵御攻击的作用。
在一种可能的实施方式中,所述βk以第一目标函数的最小值为目标训练而成;所述第一目标函数是所述解码数据y′和理想输出数据y之间的损失函数,所述理想输出数据y是所述用户数据x经过所述解码器输出的正确结果,所述解码数据y′是所述解码器基于所述第N特征向量zN处理得到的结果。
在本申请实施例中,由于第一目标函数是以y′与y之间的损失函数最小为目标进行优化训练的,因此,能够使得训练的数据保护模型保证,用户在端侧上传数据进行编码得到编码数据传给云侧,云侧解码器对编码数据处理的准确性。
在一种可能的实施方式中,所述装置还用于:接收来自终端设备的反馈信息label,将所述解码数据yk和所述反馈数据label作为训练样本,对所述解码器进行监督训练,并将解码器参数βk更新为训练后的参数。
在本申请实施例中,能够保证在模型部署之后,可以进一步地基于用户的具体使用情况,对数据保护模型的解码器进行更新和同步,从而能够适应用户的实际使用,随着用户数据的迭代,更新模型,保证模型时效性和准确性。
第五方面,本申请提供了一种电子设备,包括一个或多个处理器和一个或多个存储器。该一个或多个处理器与一个或多个存储器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,以使得所述电子设备执行上述第一方面任一项可能的实现方式中数据保护方法。
第六方面,本申请提供了一种云端设备,包括一个或多个处理器和一个或多个存储器。该一个或多个处理器与一个或多个存储器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,使得电子设备执行上述第二方面任一项可能的实现方式中的数据保护方法。
第七方面,本申请提供了一种电子设备,包括:一个或多个功能模块。一个或多个功能模块用于执行上述第一方面任一项可能的实现方式中的数据保护方法。
第八方面,本申请提供了一种云端设备,包括:一个或多个功能模块。一个或多个功能模块用于执行上述第二方面任一项可能的实现方式中的数据保护方法。
第九方面,本申请实施例提供一种数据保护装置,所述装置为终端设备,包括处理器、存储器、输入接口和输出接口,所述输入接口用于接收来自所述数据保护装置之外的其它装置的信息,所述输出接口用于向所述数据保护装置之外的其它装置输出信息,所述处理器调用所述存储器中存储的计算机程序实现如第一方面任一项所述的数据保护方法。
第十方面,本申请实施例提供另一种数据保护装置,所述装置为云端设备,包括处理器、存储器、输入接口和输出接口,输入接口用于接收来自所述数据保护装置之外的其它装置的信息,所述输出接口用于向所述数据保护装置之外的其它装置输出信息,所述处理器调用所述存储器中存储的计算机程序实现如第二方面任一项所述的数据保护方法。
第十一方面,本申请实施例提供一种数据保护系统,数据保护系统包括如第九方面的装置以及如第十方面的装置。
第十二方面,本申请实施例提供了一种计算机存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行上述任一方面任一项可能的实现方式中的数据保护方法。
第十三方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述任一方面任一项可能的实现方式中的数据保护方法。
附图说明
图1是本申请实施例提供的一种系统架构示意图;
图2是本申请实施例提供的一种电子设备100的硬件结构示意图;
图3A-图3D是本申请实施例提供的一组用户场景示意图;
图4是本申请实施例提供的一种终端与云端的编解码系统的结构示意图;
图5是本申请实施例提供一种黑盒攻击模型示意图;
图6是本申请实施例提供一种针对BERT的攻击模型结构示意图;
图7A是本申请实施例提供一种数据保护模型的结构示意图;
图7B是本申请实施例提供另一种数据保护模型的结构示意图;
图8A是本申请实施例提供又一种数据保护模型的结构示意图;
图8B是本申请实施例提供又一种数据保护模型的结构示意图;
图9是本申请实施例提供一种数据保护模型更新的方法流程示意图。
具体实施方式
在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一芯片和第二芯片仅仅是为了区分不同的芯片,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a--c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
本申请实施例涉及一种数据隐私保护方法、装置、相关设备及系统,用于提高用户信息的安全性。
下面先对本申请涉及的相关技术名词进行介绍:
梯度下降法:训练神经网络模型需要使用梯度下降(Gradient Descent)算法来进行网络参数的更新。梯度是微积分中较为重要的概念之一,在多元函数中,梯度是一个向量,梯度的方向就是函数在给定点上升最快的方向,反之,梯度的反方向就是函数下降最快的方向,称为梯度下降。神经网络训练的目的就是要调整网络中各层权值参数,使网络损失达到最小值,即在反向传播(back propagation,BP)过程中,利用梯度下降法迭代搜索损失函数的最小值,使得训练的网络模型达到最优的性能。
对抗样本(adversarial examples)是指在数据集中通过故意添加细微的干扰所形成的输入样本,会导致模型以高置信度给出一个错误的输出。在精度达到人类水平的神经网络上通过优化过程故意构造数据点,其上的误差率接近100%,模型在这个输入点的输出与附近的数据点非常不同。
对抗训练(adversarial training)是增强神经网络鲁棒性的重要方式。在对抗训练的过程中,样本会被混合一些微小的扰动(改变很小,但是很可能造成误分类),然后使神经网络适应这种改变,从而对对抗样本具有鲁棒性。
为了更好地理解本申请实施例公开的一种数据隐私保护方法、相关设备及系统,下面先对本申请实施例中使用的系统架构进行描述。请参阅图1,图1是本申请实施例公开的一种系统架构示意图。如图1所示,上述系统构架可以包括云端设备和电子设备,云端设备可以与N个终端设备进行交互,即云端设备可以向电子设备发送数据,也可以接收来自电子设备的数据。需要说明的是,本申请实施例以电子设备向云端设备发送的数据具体不加限定。
云端设备,即服务器,服务器是部署在云端的远程服务器,具有数据存储、数据处理等能力。例如,图像数据处理、语音、文本数据的计算等。服务器可以是超多核服务器、可以部署有图形处理器(graphics processing unit,GPU)集群的计算机、大型的分布式计算机、硬件资源池化的集群计算机等等,本申请不限定。服务器还可以是部署边缘计算节点、云计算节点等云端设备,此处不构成限定。在本申请中,云侧、云端、云端设备均指代相同的含义。
电子设备,也可以称为终端(terminal)、用户设备(user equipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)等。电子设备可以是手机(mobilephone)、智能电视、可穿戴设备、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality,VR)电子设备、增强现实(augmented reality,AR)电子设备、工业控制(industrial control)中的无线终端、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。在本申请中,端侧、终端、终端设备和电子设备均是相同的含义。
为了能够更好地理解本申请实施例,下面对本申请实施例的电子设备的结构进行介绍:
图2示出了电子设备100的硬件结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriberidentification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从存储器中调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integratedcircuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dotlightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。
在本申请实施例中,终端设备的存储器可以存储数据保护模型的计算机程度代码,处理器可以执行存储的数据保护模型的计算机程序代码。
随着云计算、云存储、大数据等等技术的发展,终端设备的数据上传云端设备是非常常见的一种数据通信过程。云端设备和终端设备之间的信息交互,往往是终端提供数据、而云端提供计算和存储等。终端需要向云端发送信息,发送的信息会涉及到用户自身的信息,因此,这些发送的信息对于用户来说是较为隐私和敏感的,因此用户数据上传云端的过程中,数据安全性是一个重要的考量方面。
在本申请实施例中,终端设备可以向云端设备发送的数据类型为文本数据、图像数据、音频数据、视频数据等等,具体的数据类型本申请不加限定。
终端设备需要向云端设备上传信息的场景可以是VR处理场景、云计算场景、云存储场景等云端对用户数据处理的场景。
下面以一种云端设备为用户提供深度学习模型的服务场景为例进行说明:
示例性地,图3A~图3D是本申请示例性地示出的一组用户场景示意图。如图3A所示,电子设备可以显示聊天软件的用户界面310,用户向小明发送文本消息311“明天早上9点**地铁口集合”。若用户有针对这条文件消息311有建立新的日程的需求,用户可以复制这条文本消息到日历应用,建立新的日程。如图3B所示,用户可以选择并长按这条文本消息321的操作,电子设备响应于上述操作,可以显示用户界面320。用户界面320可以包括消息处理菜单栏323,消息处理菜单栏323可以包括复制控件322、转发控件、收藏控件、引用控件、翻译控件和提醒控件等,本申请不限定。复制控件322用于复制当前文本消息321。如图3C所示,用户可以点击复制控件332,电子设备响应于上述的操作,可以显示用户界面330。此时,上述的文本消息321可以复制到剪切板。电子设备可以响应于用户操作打开日历应用,电子设备也可以对复制的文本消息进行自动识别,并自动推荐日历应用。电子设备可以显示日历应用的用户界面340。如图3D所示,电子设备可以显示新建日程的用户界面340。响应于上述复制的文本消息,电子设备可以自动弹出日程创建弹窗,并剪切板的文本消息自动将文本消息填充到日程列表中,如图3D所示,电子设备可以提取复制文本中的时间地点活动等信息分别填充到相应的位置。
在上述功能实现的过程中,需要对文本进行处理的模型对文本消息进行识别和抽取,在实际操作上,如果对于文本消息进行识别和抽取的效果要求高,处理模型的所消耗的计算资源和能源都很大,因此,处理模型无法全部放在终端设备(端侧),即完成处理过程是在云端完成的,每一次完成上述功能需要将端侧数据(例如上述文本消息)上传到云端,数据上传的过程中存在隐私安全问题,即用户数据上传带来的隐私信息泄露风险。
为了应对上述的隐私安全问题,终端设备在发送之前,可以对信息进行编码处理,并发送给云端。在云端获取到编码信息之后,云端可以进行解码,从而能够获取到解码之后的用户数据,并对解码后的数据进行相应处理。然而,上述编码过程中,若黑客攻击对编码前后的数据进行获取,便可能反相推测编码模型,利用推理得到的编码模型确定解码模型,可以对用户编码之后的数据进行原文推理(原象攻击)以及隐私相关信息的推理,导致用户信息的泄露。
示例性地,图4是本申请实施例公开的一种终端与云端的编解码系统的结构示意图。如图4所示,终端与云端的编解码系统可以分布在云端设备和电子设备,云端设备和电子设备之间可以交互信息,主要是电子设备可以向云端设备发送数据。其中,电子设备可以包括编码器,在电子设备获取到用户信息之后,可以通过编码器对用户信息进行编码,得到编码信息,之后电子设备可以向云端设备发送编码信息。云端设备包括解码器,在接收到编码信息之后,云端设备可以对编码信息进行解码,得到解码信息。其中,解码信息可以是当前业务所需要的预测结果,例如,在序列标注任务中,解码器输出的是BIO等标注体系定义的结果。
上述的终端与云端的编解码系统中,攻击者获取到编码信息后,可以对用户隐私进行攻击。
一种可能的实施方式中,攻击者对编解码系统进行黑盒攻击,即攻击者可以将输入样本输入到被攻击模型得到处理后的输出样本,基于输入样本和输出样本训练攻击模型,从而将其他用户的编码数据输入攻击模型还原出用户数据。
示例性地,图5本申请实施例公开的一种黑盒攻击模型示意图。如图5示。电子设备1中的编码模型作为一个黑盒,黑客(攻击者)可以向电子设备1输入X条输入样本,即输入样本1、输入样本2、输入样本3,……、输入样本X。经过电子设备1的编码处理之后,获取到输出X条输出样本,即输出样本1、输出样本2、输出样本3,……,输出样本X。其中,输出样本1是对于输入样本1进行的编码,输出样本2是对于输入样本2进行的编码,输出样本3是对于输入样本3进行的编码,……,输出样本X是对于输入样本X进行的编码。此处,X为正整数。黑客便可以得到电子设备1成对的输入数据(X条输入样本)和输出数据(X条输出样本),例如,黑客获取输入黑盒的文本信息和黑盒输出的用于上传云端的词表示向量。攻击者可以将上述的X条输入样本和X条输出样本作为训练样本,输入到神经网络模型进行训练得到近似于电子设备1中黑盒的编码网络模型(对电子设备1中的黑盒模型进行攻击),并针对训练得到的编码网络模型确定解码模型,从而可以训练出一个针对于电子设备1的攻击模型。
在获取训练出攻击模型之后,电子设备能够将从电子设备2获取到的编码信息Y(其他用户的编码信息)输入攻击模型进行处理,还原出用户信息Y,以完成攻击。当用户信息Y与用户输入电子设备2的输入的数据越接近的时候,攻击的效果越好。
示例性地,以自然语言处理模型的服务场景为例,图6是本申请实施例公开的一种针对基于转换器的双向编码表征(bidirectional encoder representation fromtransformers,BERT)的攻击模型结构示意图。如图6所示,BERT攻击模型由于包括3层中间网络层,即第i层,第i+1层和第i+2层,且每一层的输入和输出的隐状态向量(隐状态向量即非整个网络的输入输出层,也是中间网络层的输入输出向量)数量是相同的,因此,每一层处理前后的文本输入长度一致。这样,隐状态向量可以通过简单的反相模型和策略,得到准确率高的原象攻击效果。常用的攻击方案可以为,一、可以训练黑盒反向模型。二、在已知词表示向量的情况下,利用表示向量和端云传输的表示向量计算近似度,逆向推断原词(图6中示例性给出的方案)。三、在已知模型结构和参数的情况下,采用梯度反向传输推断输入向量等白盒攻击手段。
因此,对于现有的端云两侧的编解码模型,由于攻击者可以利用被攻击模型的输入输出数据,训练一个通过词表示还原对应文本的模型,从而攻击者可以获取用户的原始信息。当然,在生成编解码模型的时候,也可以通过增加干扰目标进行对抗训练或者推理阶段增加噪声生成对抗样本等。然而干扰和噪声对于原始数据的影响是有限的,攻击者依然可以还原出相关的用户信息。
为了解决上述问题,本申请中实施例中,终端设备可以将上传云端的用户数据输入数据保护模型进行处理。其中,端侧的数据保护模型包括编码器、混淆器和恢复器,编码器用于对输入的用户数据进行编码,例如特征提取等。混淆器可以包括N个混淆模型,N个混淆模块依次进行级连,前一级的输入作为后一级的输入。恢复器可以基于上一级混淆模块的结果提取用户的隐私属性以及进行原像攻击,进而基于原象攻击的重构损失生成噪声,让相应的混淆模块添加噪声,生成特征向量。云侧包括数据保护模块的解码器,将端侧处理结果(特征向量)进行解码,从而得到解码数据。这样,恢复器能够针对于攻击者可能训练的攻击模型针对性地产生干扰噪声,可以提升端侧编码模型的抗攻击能力,同时借鉴对抗样本生成方案,混淆器和恢复器对端云交互的数据进行加噪,进一步提升保护能力,从而降低原象攻击和隐私属性攻击的成功率,提高用户信息的安全性。
首先,针对于用户的端云两侧的攻击过程,提出一种用户数据保护模型。此阶段中,数据保护模型已经在终端和云端两侧部署完成,通过数据保护模型可以对用户数据进行正向推理,即当前在数据保护模型的使用或者推断阶段。其中,端侧(终端设备)可以包括编码器、混淆器和恢复器。云端(云端设备)可以包括解码器。
数据保护模型可以包括一个编码器、一个混淆器、一个恢复器和一个解码器。具体可以包括两种方式,具体说明:
一种可能的实施方式中,图7A是本申请实施例公开的一种数据保护模型的结构示意图。如图7A所示,其中,混淆器包括N个混淆模块,N个混淆模块包括第一混淆模块、第二混淆模块、……、第N混淆模块。N个混淆模块依次进行级连,即N个混淆模块中前一级的输出端连接后一级的一个输入端。恢复器可以包括N个恢复模块,N个恢复模块包括第一恢复模块、第二恢复模块、……、第N恢复模块。N个混淆模块与N个恢复模块一一对应进行级联,即混淆模块的另一个输入端与对应恢复模块的输出端相连接。混淆模块级联的第一级(第一混淆模块)的一个输入端与编码器的输出端连接,混淆模块级联的最后一级(第N混淆模块)的输出端的结果可以向云端设备发送,并作为云端设备的输入数据。每个恢复模块的输出端与其对应(编号)的混淆模块的另一个输出端进行连接,而每个恢复模块一个输入端与对应(编号)的混淆模块输入端相同,即恢复模块一个输入端与对应混淆模块的前一级进行连接。此外,恢复器的另一个输入端直接获取用户数据x,即每个恢复模块的另一个输入端输入用户数据x。其中,i为从1到N之间的整数,N为正整数。
通过上述的连接关系可以看出,一个混淆模块有两个输入数据,一是其对应恢复模块的输出作为其输入,二是前一级混淆模块的输出作为其另一输入(第一级混淆模块的前一级输入为编码器的输出)。一个恢复模块有两个输入和一个输出,其第一输入为前一级混淆模块的输出(第一级恢复器的输入为编码器的输出),另一个输入是将用户数据直接输入到恢复器中,其输出给对应的混淆模块。
另一种可能的实施方式中,图7B是本申请实施例公开的另一种数据保护模型的结构示意图。与图7A中不同的是,在图7B的模型中,一个恢复器并不存在如图7A中的N个恢复模块,一个恢复器即包括一个恢复模块。这一个恢复器需要计算N个混淆模块中另一个输出端的输入数据。即这个恢复器需要基于前一个混淆模块中的输出结果为后一个混淆模块产生输入,即混淆模块的前N-1个混淆模块的输出进行加噪,得到结果,并输入到对应级别的混淆模块中。即恢复器产生噪声信息的网络模型均是一个模型。其实相当于,图7A中的N个恢复模块的参数是完全一样的,相当于一个恢复模块对应计算所有混淆模块的需要的噪声即可。
又一种可能的实施方式中,与图7A和图7B不同的是,一个恢复器包括M个恢复模块,M为大于1且小于N的整数,M个恢复器中每个恢复器可以为至少一个混淆模块产生噪声,即有的多个混淆模块可以共用一个恢复模块产生噪声,有的混淆模块可以单独由一个恢复模块产生噪声,本申请不限定具体几个恢复模块。
又一种可能的实施方式中,解码器也可以在端侧,其余的结构可以参考图7A或者图7B的描述,不赘述。
为了进一步理解数据保护模型的工作方式,以下就每一个模块的工作原理具体说明:
(1)编码器用于将用户数据x进行特征抽取等处理,得到特征向量z0
具体地,编码器可以将输入的用户数据进行Enc处理,得到编码数据z0(特征向量):
z0=Enc(x,α)
其中,α为编码器中是设置的编码参数。x为用户数据,即终端设备产生的原始数据,例如,图4中的用户信息(文本数据),也可以是图像数据,语音数据等。Enc是一种用于数据编码的神经网络模型,例如,Bi-长短期记忆(Bi-long short-term memory,BiLSTM)、BERT等语言网络模型。此时α为Enc中的参数,由于不同的网络中具体模型不同,本申请不限定。
(2)N个恢复器可以基于特征。
向量还原用户数据,并基于还原的用户数据产生噪声信息δ。
在一种实施方式中,数据保护模型可以包括一个恢复器,恢复器包括N个恢复模块,其中,第i恢复模块的输入为zi-1和用户数据x,输出为噪声信息δi
Figure BDA0003763449620000161
其中,sign()函数为符号函数,即当输入m>0,sign(m)=1;当m=0,sign(m)=0;当m<0,sign(m)=-1。在本申请中sign函数的输入是
Figure BDA0003763449620000162
即重构损失函数Lrec(x,sDec(zi-1i))对特征向量zi-1求偏导的结果作为sign函数的输入。
其中,Lrec为x和x′之间的重构损失函数。其中x′是恢复器还原出的用户数据,x为实际输入数据保护模型的用户数据。sDec是一种神经网络模型,它可以基于前一级的特征向量zi-1恢复(还原处理)用户数据,sDec(zi-1i)可以输出x′。θi为sDec这个神经网络模型的参数,每个恢复模块的sDec的参数θ可以相同也可以不同,本申请不限定。
此外,sDec还可以基于特征向量zi-1预测隐私(隐私属性)。此时,sDec(zi-1i)还可以输出A′。A′为神经网络模型sDec(zi-1i)预测出的隐私属性,隐私属性A′为用户数据中用户个人的敏感信息,例如,银行账号、航班信息、密码、身份证信息、政治倾向等,上述仅仅是举例说明,不限定。
由上述可以理解,δi即是通过x和x′之间的重构损失函数对于特征向量zi-1是正向梯度还是反向梯度,并按照梯度方向一致的方向进行加噪(即在损失上升的方向添加扰动)。即损失函数梯度值为正则符号函数为1;梯度值为负则符号函数为-1。sDec的神经网络模型其实是模拟攻击者训练的攻击模型,攻击模型的结果越好,即重构损失函数的结果越接近0。而对于重构损失函数中不等于0的稍有偏差的结果,通过产生对抗样本来对行原象攻击,因此,上述生成的噪声信息,能够让添加的噪声对抗原像攻击的效果更优。
其中,N个恢复模块中各个sDec的神经网络模型可以是相同的,也可以是不同的,本申请不加限定。
在另一种实施方式中,数据保护模型可以包括一个恢复器,其中,这个恢复器的输出可以对应包括第一混淆模块到第N混淆模块,N种δ。其中,恢复器输入为zi-1和用户数据x对应的输出为δi
Figure BDA0003763449620000171
其中,整个模型中有且仅有一个θ,其余的参数与上述N个恢复模块的描述一致,不赘述。
在恢复器中能够基于上混淆器的结果计算重构损失函数,并针对重构损失函数产生噪声,从而能够针对用户的攻击专门产生噪声,以对抗攻击,可以保证用户隐私信息的安全性。
(3)混淆器可以对中间特征向量进行加噪,得到加噪后的特征向量。
混淆器可以包括N个混淆模块。第i个混淆模块可以称为第i混淆模块,第i混淆模块的输入为特征向量zi-1和噪声信息δi,输出为特征向量zi
一种可能的实施方式中,特征向量zi可以确定为:
Figure BDA0003763449620000172
其中,zi-1为上一级混淆模块(或者编码器,即第i-1混淆模块)的输出,δi为同一级的恢复模块(第i恢复模块)的输出。即混淆器将编码器的输入与每一级恢复模块的输出相加,能够将编码器的编码结果添加一些噪声,经过一级一级的计算,得到输出的特征向量zN。其中,
Figure BDA0003763449620000173
表示每个δi的权重。所有的δi相加到zN
Figure BDA0003763449620000174
ε即为隐私预算,即添加总噪声的权重或者幅度,根据业务需要可以调整大小,均衡隐私保护能力和业务性能。
mask为与δi维度相同的0-1随机向量。随机向量mask是可以终端设备统一随机生成,也可以是终端设备每次推理时随机生成,mask用于确定δi进行点积计算。其中,确定mask,以及点乘的过程中也可以在恢复器进行,不加限定。
另一种可能的实施方式中,在上述第N混淆模块计算出第N特征向量的情况下,混淆器可以更新特征向量zN为:
z0+clip(-μ,μ,zN-z0)
之后,混淆器输出的特征向量为更新后的特征向量为z0+clip(-μ,μ,zN-z0),其中,clip是将加入的总噪声的zN-z0限定在参数-μ到μ之间的函数。其中,-μ为限定的最小值(下限),μ为限定的最大值(上限)。若zN-z0大于μ,clip(-μ,μ,zN-z0)为μ;若zN-z0小于-μ,clip(-μ,μ,zN-z0)为-μ;若zN-z0小于或等于μ且大于或等于-μ,clip(-μ,μ,zN-z0)为zN-z0。μ为正数。
上述的实施方式中,由于混淆器能够对叠加的噪声进行限制,保证噪声的总量是在一定范围内的,一方面可以保证噪声的隐蔽性,避免攻击者能够察觉加入的噪声并预先处理,另一方面可以也保证解码器解码的准确性。
混淆器的主要功能是将编码器的特征向量加入恢复器的产生噪声,从而可以多攻击者产生混淆作用,保证用户数据的安全性。
上述,混淆器N个混淆模块中每一个混淆模块的输入上一级的级联的混淆模块的输出,以及恢复器的对应输出,其中恢复器的输出是基于上一级的级联的混淆模块产生噪声,从而让混淆模块进行叠加上一级的级联的混淆模块以及针对其输出产生的噪声。由于每一级叠加的噪声均是针对于这一级特征向量的且通过N级特征向量分别进行叠加噪声,能够保证。
在噪声大小相同的情况下,隐私恢复器效果更差,即隐私保护效果最好。
上述的特征数据处理的过程中,N个混淆模块将恢复器的N个噪声依次叠加,这个过程中,恢复器不断地对加入的噪声进行迭代,保证迭代的噪声相比于单一的噪声的生成而言,能够使得噪声更准确地趋向于损失函数增大的方向,这样添加的噪声的抗原像攻击的效果更好。
(4)解码器基于从终端设备接收到的特征向量zN进行解码处理,得到解码数据yk
解码器的输入为恢复器的输出zN,可以通过接收端侧的数据获得。解码器获得zN之后,进行解码处理得到,解码数据yk
yk=Deck(zN,βk)
其中,Deck一种用于解码的神经网络模型,与编码器的Enc模型相对应的编解码。βk为编码器中神经网络模型Deck的参数。解码器可以针对于特征向量zN进行下游的任务预测,例如,在自然语言处理(Natural Language Processing,NLP)领域,序列标注(Sequencelabeling)是在解决问题时经常遇到的基本问题之一。在序列标注中,想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。在时间实体识别的任务中,用户信息为“明天下午去A城市”,期望的输出是“B-T I-T I-T I-T OO O”,输出是基于业务进行各个分词后最小输出单元的BIO类别。其中,BIO标注:将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。解码数据yk越接近期望输出,说明数据保护模型的解码器的预测越准确。
基于上述的执行过程能够看出,电子设备通过编码器对用户数据x进行特征抽取,得到特征向量z0,将输入到恢复器和第1混淆模块;电子设备通过恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将δi输入到第i混淆模块;电子设备通过第i混淆模块将第i-1特征向量zi-1和第i噪声δi进行叠加,得到第i特征向量zi;其中,i依次从1到N进行取值;在i的取值加1之后,重新执行通过恢复器对第i-1特征向量zi-1进行还原处理的步骤,直到i等于N,输出第N混淆模块得到的第N特征向量zN
这个过程中,i依次从1到N进行取值的过程便是N个混淆模块加噪和恢复器对N个特征向量进行处理的过程,噪声经过N次迭代,均添加到特征向量z0中。
上述的数据保护模型中,加入了混淆器和恢复器,提高端侧编码模型的抗攻击能力,同时借鉴对抗样本生成的方法,对端云交互的表示向量加噪,进一步提高保护能力,规避原象攻击。
需要说明的是,各个神经网络模型的参数,如α、β、θ均是一种指代,并不意味着这个网络模型中仅仅只有这一个数是模型参数,可以是多个数,本申请不限定。
数据保护模型推理使用之前,需要对网络进行训练,以下数据保护模型的训练过程进行详细说明,在数据保护模型的训练阶段,编码器、混淆器、恢复器和解码器可以全部在云端设备。首先,说明训练过程的网络结构:
一种可能的实施方式中,针对于图7A中的数据保护模型,训练阶段的数据保护模型的结构如图8A所示,图8A是本申请实施例公开的又一种数据保护模型的结构示意图。图8A中,编码器、混淆器、恢复器均处于云端设备,其余与图7A中的含义一致,不赘述。
另一种可能的实施方式中,针对于图7B中的数据保护模型,训练阶段的数据保护模型的结构如图8B所示,图8B是本申请实施例公开的又一种数据保护模型的结构示意图。图8B中,编码器、混淆器、恢复器均处于云端设备,其余与图7B中的含义一致,不赘述。
当数据保护模型训练完成,可以将数据保护模型部署云端和终端两侧,其中,图8A部署结果可以参照图7A,图8B部署结果可以参照图7B。
针对于上述训练阶段的网络,本申请涉及到梯度下降法,将根据预测结果和实际结果之间的损失,确定上述数据保护模型的参数。下面具体说明训练过程:
第一,编码器和解码器的参数可以通过整个模型的输出和理想输出之间的损失函数(解码器的输出损失)的最小值为目标进行训练。可以保证整个数据保护模型的准确率。
第二,编码器的参数也可以通过恢复器的重构损失函数和隐私属性的损失函数的最大值为目标进行训练,从而可以保证训练过程中,攻击者对当数据保护模型进行攻击所形成的隐私攻击模型的准确率差,从而能够降低黑客的攻击模型造成隐私泄露的可能性。
第三,恢复器的参数可以通过恢复器的重构损失函数和隐私属性的损失函数的最小值为目标进行训练,从而可以保证隐私预测模型的准确率。
上述三个方面的参数训练过程分别具体说明:
一,以解码器的输出损失最小为目标训练编码器和解码器的参数。
在数据保护模型初步搭建之后,可以确定输入样本数据(用户数据)为x,理想的输出结果为y,模型的训练结果为y′。一般而言,输入的样本数据的数量比较大,会得到相应数量的训练结果和理想输出结果。
1)对于编码器参数α的训练:
1.确定编码器的第一目标函数L(α)。
随机确定一个α的值,假定为α1,将训练数据输入数据保护模型x得到训练结果y′,已知理想结果为y,建立y′与y之间的损失函数L(α)(即第一目标函数)。基于此时α1对应的损失值L(α1)可能比较大。由于损失函数的类型多种多样,本申请不加限定。
2.以第一目标函数的最小值为目标调整α参数。
对α求偏导
Figure BDA0003763449620000201
(即求取梯度),然后沿着梯度的负方向确定另一个损失值。更新α,如果求得的梯度
Figure BDA0003763449620000202
大于零,则α调小(若第一次调整,将α更新为比α1更小的数);若果
Figure BDA0003763449620000203
小于零,则α调大(若第一次调整,将α更新为比α1更大的数)。
一种可能的实施方式中,第一目标函数L(α)关于参数的梯度将在第一目标函数L(α)下降最快的方向。对于最小化优化问题,只需要将参数α沿着梯度相反的方向前进一个步长,便可以实现目标函数L(α)下降,其中这个步长可以是学习速率ω1,新一轮的参数α更新为:
Figure BDA0003763449620000204
其中,根据计算第一目标函数L(α)采用数量的数据不同,步长ω1可以是不同的,本申请不限定。
另一种可能的实施方式中,可以第一目标函数L(α)的损失函数和其他优化目标更新参数α。其中,其他优化目标可以是训练过程中,已将确定的优化方向的目标,或者优化参数的特定策略,不限定。
需要说明的是,参数α的更新方式还可以包括其他的更新方式,本申请不加限定。
3.在判断收敛的情况下(例如,损失函数多次迭代不再下降),跳出迭代,确定当前的α确定为编码器参数α;在不收敛或者损失值未达到一定要求的情况下,继续执行步骤2。
2)解码器的参数βk训练:
类似的,将上述的编码器中的α变为βk代入,既可以得到收敛后的βk,过程基本一致,不赘述。
在上述的训练过程中,由于第一目标函数是以y′与y之间的损失函数最小为目标进行优化训练的,因此,能够使得训练的数据保护模型保证,用户在端侧上传数据进行编码得到编码数据传给云侧,云侧解码器对编码数据解码的准确性。
二,以恢复器的重构损失和隐私预测损失最大为目标训练编码器的参数。
1)以恢复器的重构损失最大为目标训练参数α:
在恢复器中的神经网络模型由于隐私预测功能之外,还具有还原用户信息的功能(即隐私恢复功能)。隐私恢复功能可以将输入第i个恢复器中的zi-1还原出输出的用户数据x′。隐私恢复模型可以理解为一种模仿攻击者还原出的一种攻击模型,确定攻击模型的过程可以参考上述图5和图6的相关描述,不赘述。
1.确定第二目标函数Lr(α)(重构损失)。
先随机确定一个α的值,假定为α2,获取编码器的输出,并将上一级混淆模块的输出zi-1作为恢复器的输入(假设将zi-1输入到恢复器中),得到还原的用户数据x′,且恢复器已知实际用户数据x。建立还原的用户数据x′与实际用户数据x之间的损失函数Lr(α)(第二目标函数)。并求取损失值Lr(α),此时α2对应的Lr2)可能比较大。由于损失函数的类型多种多样,本申请不加限定其中。
示例性的,第二目标函数为Lrec(x,sDec(zi-1,θ)),此时x=sDec(zi-1,θ),具体可以参考上述恢复器的描述,不赘述。
2以第二目标函数的最大值为目标调整参数α。
对α求偏导
Figure BDA0003763449620000211
(即求取梯度),然后沿着梯度的正方向确定另一个损失值。接着可以更新参数α。即如果求得的梯度
Figure BDA0003763449620000212
大于零,则α调大;若果
Figure BDA0003763449620000213
小于零,则α调小。
其中,具体的更新α的方式可以参考上述基于第一目标函数不断调整α参数的过程,不过方向是调整相反的,此处不再赘述。
3.在判断收敛的情况下(例如,损失函数多次迭代不再上升),跳出迭代,确定当前的α确定为编码器参数α;在不收敛或者损失值未达到一定要求的情况下,继续执行步骤2。
2)以恢复器的隐私预测损失最大为目标训练参数α:
在本申请中,恢复器中的神经网络模型sDec还包括隐私推测的功能,即这一神经网络模型能够基于上一级编码模块输入的zi-1预测用户的隐私属性A′,其中,实际的隐私属性为A,下面以A与A′之间的损失最大为目标训练参数α。
1.确定第三目标函数La(α)(隐私预测损失)。
先随机确定一个α的值,假定为α3,获取编码器的输出,并将上一级混淆器的输出zi-1作为隐私预测模型的输入(假设将zi-1输入到第i个恢复器中),得到预测的隐私属性A′,以及实际的隐私属性为A。建立预测的隐私属性A′与实际的隐私属性为A之间的损失函数La(α)(第三目标函数)。并求取损失值La(α),此时α3对应的La3)可能比较大。由于损失函数的类型多种多样,本申请不加限定其中。
示例性的,第三目标函数为Lattr(A,sDec(zi-1,θ)),此时A′=sDec(zi-1,θ)。Lattr为隐私属性的损失函数,具体可以参考上述恢复器的描述,不赘述。
2.以第三目标函数的最大值为目标调整参数α。
具体可以参考上述以第二目标函数为目标调整α参数的调整过程,不赘述。
3.在判断收敛的情况下(例如,损失函数多次迭代不再上升),跳出迭代,确定当前的α确定为编码器参数α;在不收敛或者损失值未达到一定要求的情况下,继续执行步骤2。
上述的训练过程中,第二目标函数和第三目标函数的最大值为目标训练编码器的参数,能够使得编码器参数α的训练调整,使得到攻击者训练得到的攻击模型得到的隐私属性或者还原出的用户数据(原象攻击)是偏差较大的,即进行原象攻击和隐私信息攻击的对抗训练,以保证用户数据的安全性。
三、以恢复器的重构损失和隐私预测损失最小为目标训练恢复器的参数。
1)以恢复器的重构损失最小为目标训练参数θ:
1.确定第二目标函数Lr(θ)。
先随机确定一个α的值,假定为α1,获取编码器的输出,并将上一级混淆器的输出zi-1作为隐私恢复模型的输入(假设将zi-1输入到第i个隐私恢复器中),得到还原的用户数据x′,以及实际用户数据为x。建立还原的用户数据x′与实际用户数据x之间的损失函数Lr(θ)(第二目标函数)。并求取损失值Lr(θ),此时θ1对应的Lr1)可能比较大。由于损失函数的类型多种多样,本申请不加限定其中。
2.以第二目标函数的最小值为目标调整参数θ。
对θ求偏导
Figure BDA0003763449620000221
(即求取梯度),然后沿着梯度的负方向确定另一个损失值。如果求得的梯度
Figure BDA0003763449620000222
大于零,则θ调小;若果
Figure BDA0003763449620000223
小于零,则θ调大。
具体的调整方法可以参考以第一目标函数的最小值为目标调整α参数的描述过程,不赘述。
3.在判断收敛的情况下(例如,损失函数多次迭代不再下降),跳出迭代,确定当前的θ确定为恢复器参数θ;在不收敛或者损失值未达到一定要求的情况下,继续执行步骤2。
2)以恢复器的隐私预测损失最小为目标训练参数θ:
在本申请中,恢复器中包括对于用户数据的隐私推测的神经网络sDec(),这一神经网络模型能够上一级编码器的输入预测用户的隐私属性A′,其中实际的隐私属性为A,下面以A与A′之间的损失最小为目标训练参数θ。
1.确定第三目标函数La(θ)。
先随机确定一个θ的值,假定为θ1,将上一级混淆器的输出作为sDec的输入(假设将zi-1输入到第i个隐私恢复器中),得到预测的隐私属性A′i,以及实际隐私属性Ai。建立实际隐私属性Ai与预测的隐私属性A′i之间的损失函数La(θ)。并求取损失值La1),此时θ1对应的La1)可能比较大。由于损失函数的类型多种多样,本申请不加限定其中。
2.以第三目标函数的最小值为目标调整参数θ。
对θ求偏导
Figure BDA0003763449620000224
(即求取梯度),然后沿着梯度的负方向向下去确定另一个损失值。如果求得的梯度
Figure BDA0003763449620000225
大于零,则θ调小;若果
Figure BDA0003763449620000226
小于零,则θ调大。
具体的调整方法可以参考以第一目标函数的最小值为目标调整α参数的描述过程,不赘述。
3.在判断收敛的情况下(例如,损失函数多次迭代不再下降),跳出迭代,确定当前的θ确定为恢复器参数θ;在不收敛或者损失值未达到一定要求的情况下,继续执行步骤2。
上述的过程中,由于能够将第二目标函数和第三目标函数的最小值作为目标训练恢复器的参数,从而能够保证恢复器的参数θ使得预测的隐私属性的准确性,以及还原出攻击者可能训练的隐私恢复模型达到的攻击效果。
本申请实施例中,上述的三种参数α、βk和θ的训练过程中,若更加注重编解码的正确率,这样训练的参数可能更加强调基于第一目标函数的最小值训练α、βk。若更加用户隐私的保护,训练的参数可能更加强调可能更加基于第二目标函数和第三目标函数的最小值训练θ,以及第二目标函数和第三目标函数的最大值训练α。
训练上述三个参数需要通过单一目标和/或多目标进行训练,以下具体说明:
第一、编码器参数α可以以不同的目标进行训练,下面具体说明:
在以第一目标函数的最小值目标训练出的编码器参数为α1,以第二目标函数的最大值目标训练出的编码器参数为α2,以第三目标函数的最大值目标训练出的编码器参数为α3。
在一种可能的实施方式中,云端设备可以以第一目标函数的最小值为目标训练编码器参数确定为α1。具体可以参考上述的描述,不赘述。
在另一种可能的实施方式中,云端设备可以以第二目标函数的最大值为目标训练编码器参数确定为α2。具体可以参考上述的描述,不赘述。
在又一种可能的实施方式中,云端设备可以以第三目标函数的最大值为目标训练编码器参数确定为α3。具体可以参考上述的描述,不赘述。
在又一种可能的实施方式中,云端设备可以以第一目标函数的最小值以及第二目标函数的最大值为目标训练编码器参数。若用户需要的训练结果更加注重于解码器输出结果的准确性,云端设备可以确定编码器参数为α1与α2之间,更加偏向于α1的结果,例如,若α1>α2,编码器参数确定为
Figure BDA0003763449620000231
若用户需要的训练结果更加注重抵御原象攻击的效果,保证用户信息安全,云端设备可以确定编码器参数为α1与α2之间,更加偏向于α2的结果,例如,若α1>α2,编码器参数确定为
Figure BDA0003763449620000232
在又一种可能的实施方式中,云端设备可以以第一目标函数的最小值以及第三目标函数的最大值为目标训练编码器参数。若用户需要的训练结果更加注重于解码器输出结果的准确性,云端设备可以确定编码器参数为α1与α3之间,更加偏向于α1的结果,例如,若α1≤α3,编码器参数确定为
Figure BDA0003763449620000233
若用户需要的训练结果更加注重用户隐私属性信息的安全性,云端设备可以确定编码器参数为α1与α3之间,更加偏向于α3的结果,例如,若α1≤α3,编码器参数确定为
Figure BDA0003763449620000234
在又一种可能的实施方式中,云端设备可以以第一目标函数的最小值以及第二目标函数和第三目标函数的最大值为目标训练编码器参数α。
可选地,将α1、α2和α3按照大小顺序进行排序,选择中间的一个为编码器参数。这样在能够保证由于有一个处于最佳情况下,也能够兼顾到其余的两个,防止出现隐私安全、解码器准确性和用户信息安全多目标失衡的严重。
可选地,若用户更加注重于解码器输出结果的准确性,在α2和α3中选择更靠近α1的一个与α1共同确定编码器参数,即云端设备可以比较|α2-α1|和|α3-α1|,在|α2-α1|>|α3-α1|的情况下,云端设备可以以第一目标函数的最小值以及第三目标函数的最大值为目标训练编码器参数,且按照上述需要的训练结果更加注重于解码器输出结果的准确性的情况进行处理。在|α2-α1|≤|α3-α1|的情况下,云端设备可以以第一目标函数的最小值以及第二目标函数的最大值为目标训练编码器参数,用户更加注重于解码器输出结果的准确性的情况进行处理。同理,若用户更加注重抵御原象攻击的效果,比较|α1-α2|和|α3-α2|,在|α1-α2|>|α3-α2|的情况下,云端设备可以以第二目标函数的最大值以及第三目标函数的最大值为目标训练编码器参数。由于用户更加注重抵御原象攻击的效果,选择α3和α2之间很偏向于α2的结果。在|α1-α2|≤|α3-α2|的情况下,云端设备可以以第一目标函数的最小值以及第二目标函数的最大值为目标训练编码器参数,用户需要的训练结果更加注重于更加注重抵御原象攻击的效果的情况进行处理。同理,若用户更加注重用户隐私属性信息的安全性,比较|α1-α3|和|α2-α3|。在|α1-α3|>|α2-α3|的情况下,选择α3和α2之间很偏向于α3的结果。在|α1-α3|≤|α2-α3|的情况下,选择α3和α1之间很偏向于α3的结果。上述过程中,三个目标可以按照用户的实际需要目标先进行考量和取舍选择更靠近的另一目标,量目标之间进行选择,一来能够突出用户需要的训练效果,其次能够确保另一目标可以的效果也兼顾到,从而可以保证数据保护模型的可靠性。
在又一种可能的实施方式中,云端设备可以提前预设第一目标函数,第二目标函数和第三目标函数各自损失值的预设范围,并将上述三个目标函数轮流进行调整训练,直到达到各自预设范围为止。假设,第一目标函数的损失的预设范围为第一阈值范围(例如,损失的阈值大于0.1;或者损失的阈值小于0.2;或者损失的阈值小于0.2且大于0.1),第二目标函数的预设范围为第二阈值范围,第二目标函数的预设范围为第三阈值范围。云端设备可以按照上述三个阈值范围轮流进行优化,使得各自的目标分别达到其损失预设范围即可。这样,用户能够按照预设的要求进行训练和优化,保证训练结果能够满足各自的预设结果。
第二、恢复器参数θ可以以不同的目标进行训练,下面具体说明:
以第二目标函数的最小值目标训练出的编码器参数为θ1,以第三目标函数的最小值目标训练出的编码器参数为θ2。
在一种可能的实施方式中,云端设备可以以第二目标函数的最小值目标训练出的编码器参数,将其确定为θ1。
在另一种可能的实施方式中,云端设备可以以第三目标函数的最小值目标训练出的编码器参数,将其确定为θ2。
在又一种可能的实施方式中,云端设备可以以第三目标函数的最小值和第二目标函数的最小值为目标训练。若用户更加注重于抵御原象攻击的效果,保证用户信息安全,云端设备可以确定编码器参数为θ1与θ2之间,更加偏向于θ1的结果,例如,若θ1>θ2,编码器参数确定为
Figure BDA0003763449620000241
若用户更加注重用户隐私属性信息的安全性,云端设备可以确定编码器参数为θ1与θ2之间更加偏向于θ2的结果,例如,若θ1>θ2,编码器参数确定为
Figure BDA0003763449620000242
又一种可能的实施方式中,云端设备可以提前预设第二目标函数和第三目标函数各自损失值的预设范围,并将上述两个目标函数轮流进行调整训练,直到达到各自预设范围为止。假设,第二目标函数的损失预设范围为第四阈值范围,第二目标函数的损失预设范围为第五阈值范围。云端设备可以按照上述2个目标的阈值范围进行优化,使得各自的目标分别达到其损失预设范围即可。这样,用户能够按照预设的要求进行训练和优化,保证训练结果能够满足各自的预设结果。
第三、解码器参数βk可以以不同的目标进行训练,云端设备可以以第一目标函数的最小值目标训练出的解码器参数,将其确定为βk
在已经使用训练完成,并部署上述的数据保护模型的情况下(数据保护模型已经处于端云两侧),云端设备需要根据用户的使用情况对于数据保护模型进行更新,下面说明具体的更新过程:
在数据保护模型训练完成之后,云端设备可以将数据保护模型分别部署在云端和终端两侧。部署的结果可以参考图7A和图7B中的相关描述。此时,云端可以获取终端的特征向量的同时还可以获取用户反馈数据label,即终端上传云端的数据可以表示(zN,label)。云端可以基于(zN,label)可以训练并更新解码器。这样,由于训练数据与用户实际使用的数据的偏差,解码器的解码准确率可能不够,更新解码器能够保证数据保护模型的解码的准确率,且随着用户数据的变化,模型会发生变更,这使得数据保护模型的适用性也会变得更好。
图9是本申请实施例公开的一种数据保护模型更新的方法流程示意图。如图9所示,数据保护模型更新的方法可以包括但不限于以下步骤:
S901、终端设备通过数据保护模型中的编码器、恢复器和混淆器对用户数据进行处理,得到特征向量。
其中,终端设备已经部署有数据保护模型,数据保护模型可以包括一个编码器、一个恢复器和一个混淆器,具体可以参考图7A和图7B的相关描述,不赘述。
终端设备可以将获取的用户数据x输入到编码器,生成特征向量zN从混淆器输出。
S902、终端设备获取反馈信息。
其中,反馈信息label是用于确定解码器的输出是否正确,还可以是用户评价信息,还可以是用户打分信息、用户修正信息、用户确认信息等。反馈信息往往是与特征信息成对的。反馈信息label能够反映出解码器需要解码的正确结果。比如,图3D中,针对复制文本的时间地点的分解出现错误,用户可以将其修改为正确的结果,此时,反馈信息可以是用户修改之后的结果。
S903、终端设备向云端设备发送特征向量和反馈信息。
终端设备获取到特征向量zN和反馈信息label之后,可以向云端设备发送特征向量和反馈信息。对应地,云端设备可以接收来自终端设备的特征向量和反馈信息。
S904、云端设备通过数据保护模型中的解码器对特征向量进行预测,得到解码数据。
云端设备可以通过部署在数据保护模型中的解码器对特征向量zn进行预测,得到解码数据yk。具体的处理过程可以参考图7A和图7B中解码器的相关描述,不赘述。
S905、云端设备将解码数据和反馈信息作为训练样本,对解码器进行训练,并将解码器参数更新为训练后的参数。
云端设备本地存储有训练样本的数据库,获取到特征向量zN和反馈信息label之后,可以将特征向量zN和反馈信息label存储到数据库中作为新的样本。云端设备由于已经部署了解码器,将反馈信息作为解码数据的监督反馈进行训练,并更新的数据保护模型。
一种可能的情况下,云端设备可以建立解码数据和反馈信息的损失函数,将损失函数最小值作为目标进行训练,更新解码器参数θ。训练的过程可以参考上述θ和α等训练的描述,不赘述。
在训练完成之后,云端设备将新的参数θ替换解码器中旧的参数θ,即更新参数。其中,更新参数可以是周期性的更新,可以是人为触发的更新、还可以是不定期更新,本申请不限定。
上述数据保护模型更新过程,能够保证在模型部署之后,可以进一步地基于用户的具体使用情况,对数据保护模型进行同步,从而能够适应用户的实际使用,随着用户数据的迭代,更新模型,保证模型时效性和准确性。
上述实施例中所用,根据上下文,术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地,根据上下文,短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指示。在计算机上加载和执行所述计算机程序指示时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指示可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指示可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指示相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims (27)

1.一种数据保护方法,其特征在于,所述方法应用于电子设备,所述电子设备包括数据保护模型,所述数据保护模型包括一个编码器、一个混淆器和一个恢复器:
其中,所述混淆器包括N个混淆模块,所述N个混淆模块分别为第1混淆模块、第2混淆模块、......、第N混淆模块,所述N为大于1的整数;
所述电子设备通过所述编码器对用户数据x进行特征抽取,得到特征向量z0,将所述特征向量z0输入到所述恢复器和所述第1混淆模块;
所述电子设备通过所述恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将所述δi输入到第i混淆模块;
所述电子设备通过所述第i混淆模块将所述第i-1特征向量zi-1和所述第i噪声δi进行叠加,得到第i特征向量zi
其中,所述i依次从1到所述N进行取值;在所述i的取值加1之后,重新执行所述通过所述恢复器对第i-1特征向量zi-1进行还原处理的步骤,直到所述i等于所述N,输出所述第N混淆模块得到的第N特征向量zN
2.根据权利要求1所述的方法,其特征在于,所述电子设备通过所述编码器对用户数据x进行特征抽取,得到特征向量z0,具体包括:
z0=Enc(x,α)
其中,所述Enc为第一神经网络模型,所述α是所述第一神经网络模型的编码参数。
3.根据权利要求2所述的方法,其特征在于,所述α以第一目标函数的最小值为目标训练而成,或所述α以第二目标函数的最大值为目标训练而成,或所述α以第三目标函数的最大值为目标训练而成;
其中,所述第一目标函数是解码数据y′和理想输出数据y之间的损失函数;所述第二目标函数是第二神经网络模型输出的还原数据x′和用户数据x之间的损失函数;所述第三目标函数是所述第二神经网络模型输出的隐私属性A′和理想属性A之间的损失函数;所述解码数据y′是基于所述第N特征向量zN处理得到的结果;所述理想输出数据y是所述用户数据x经过处理输出的正确结果,所述第二神经网络模型是所述恢复器用于还原用户数据和预测隐私的神经网络,所述还原数据x′是所述第二神经网络模型基于特征向量还原出的数据,所述隐私属性A′为所述用户数据中用户个人的敏感信息,所述隐私属性A′是所述第二神经网络模型基于所述特征向量预测出的用户个人敏感信息;所述理想属性A是所述用户数据x中正确的敏感信息。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述电子设备通过所述恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据生成第i噪声δi,具体包括:
Figure FDA0003763449610000011
其中,所述sDec为第二神经网络模型,所述第二神经网络模型包括对特征向量进行还原的功能,所述sign为符号函数;所述Lrec为重构损失函数,所述Lrec用于确定用户数据x和还原数据sDec(zi-1,θ)之间的重构损失;所述θ是所述第二神经网络模型的参数。
5.根据权利要求4所述的方法,其特征在于,所述θ以第二目标函数的最小值为目标训练而成,或所述θ以第三目标函数的最小值为目标训练而成;
其中,所述第二目标函数是所述第二神经网络模型输出的还原数据x′和用户数据x之间的损失函数;所述第三目标函数是所述第二神经网络模型输出的隐私属性A′和理想属性A之间的损失函数;所述第二神经网络模型是所述恢复器用于还原用户数据和预测隐私的神经网络,所述还原数据x′是所述第二神经网络模型基于所述特征向量还原出的数据,所述隐私属性A′为所述用户数据中用户个人的敏感信息,所述隐私属性A′是所述第二神经网络模型基于所述特征向量预测出的用户个人敏感信息;所述理想属性A是所述用户数据x中正确的敏感信息。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述电子设备通过所述第i混淆模块将所述第i-1特征向量zi-1和所述第i噪声δi进行叠加,得到第i特征向量zi,具体包括:
Figure FDA0003763449610000021
其中,所述ε为隐私预算,隐私预算用于决定加噪的幅度,所述mask为0-1随机向量。
7.根据权利要求6所述的方法,其特征在于,在所述电子设备通过所述第N混淆模块得到第N特征向量zN之后,所述方法还包括:
所述电子设备通过所述混淆器将所述第N特征向量zN更新为:
z0+clip(-μ,μ,zN-z0)
其中,所述clip是将叠加的总噪声zN-z0限定在参数-μ到μ之间的函数,所述-μ为所述clip限定的最小值,所述μ为所述clip限定的最大值,所述μ为正数。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述恢复器包括N个恢复模块,所述N个恢复模块分别为第1恢复模块,第2恢复模块,……,第N恢复模块,所述电子设备通过所述恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将所述δi输入到所述第i混淆模块,具体包括:
所述电子设备通过第i恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将所述δi输入到所述第i混淆模块。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
所述电子设备获取反馈信息label,所述反馈信息label用于表征用户反馈的正确解码数据,所述反馈信息label与所述特征向量zN一一对应;
所述电子设备向云端设备发送反馈信息label;所述特征向量zN和反馈信息label用于所述云端设备对解码器进行监督训练,更新所述解码器的解码参数。
10.一种数据保护方法,其特征在于,所述方法应用于云端设备,所述云端设备包括数据保护模型,所述数据保护模型包括一个解码器:
所述云端设备获取来自电子设备的第N特征向量zN
所述云端设备通过所述解码器对所述第N特征向量zN进行预测处理,得到解码数据yk
yk=Deck(zN,βk)
其中,所述Deck为第三神经网络模型,所述βk为所述第三神经网络模型的参数。
11.根据权利要求10所述的方法,其特征在于,所述βk以第一目标函数的最小值为目标训练而成;所述第一目标函数是解码数据y′和理想输出数据y之间的损失函数,所述理想输出数据y是用户数据x经过所述解码器输出的正确结果,所述解码数据y′是所述解码器基于所述第N特征向量zN处理得到的结果。
12.根据权利要求10或11所述的方法,其特征在于,所述方法还包括:
所述云端设备接收来自终端设备的反馈信息label,将所述解码数据yk和所述反馈数据label作为训练样本,对所述解码器进行监督训练,并将解码器参数βk更新为训练后的参数。
13.一种数据保护装置,所述装置为电子设备,其特征在于,所述装置包括一个编码器、一个混淆器和一个恢复器,其中:
所述混淆器的所述混淆器包括N个混淆模块,所述N个混淆模块分别为第1混淆模块、第2混淆模块、……、第N混淆模块,所述N为大于1的整数;所述N个混淆模块中前一个混淆模块的输出端作为后一个混淆模块的一个输入端;所述编码器的输出端作为所述混淆器中第1混淆模块的一个输入端;所述恢复器的N个输入端包括所述N个混淆模块中前N-1个混淆模块的输出端和所述编码器的输出端;所述恢复器的另一输入端和所述编码器的输入端用于输入用户数据x;所述恢复器的N个输出端依次作为所述N个混淆模块的另一输入端;所述第N混淆模块的输出作为所述装置的输出;
所述编码器,用于对用户数据x进行特征抽取,得到特征向量z0,将所述特征向量z0输入到所述恢复器和所述第1混淆模块;
所述恢复器,用于对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将所述δi输入到第i混淆模块;
所述第i混淆模块,用于将所述第i-1特征向量zi-1和所述第i噪声δi进行叠加,得到第i特征向量zi
14.根据权利要求13所述的装置,其特征在于,所述编码器对用户数据x进行特征抽取,得到特征向量z0,具体用于:
z0=Enc(x,α)
其中,所述Enc为第一神经网络模型,所述α是所述第一神经网络模型的编码参数。
15.根据权利要求14所述的装置,其特征在于,所述α以第一目标函数的最小值为目标训练而成,或所述α以第二目标函数的最大值为目标训练而成,或所述α以第三目标函数的最大值为目标训练而成;
其中,所述第一目标函数是解码数据y′和理想输出数据y之间的损失函数;所述第二目标函数是第二神经网络模型输出的还原数据x′和用户数据x之间的损失函数;所述第三目标函数是所述第二神经网络模型输出的隐私属性A′和理想属性A之间的损失函数;所述解码数据y′是基于所述第N特征向量zN处理得到的结果;所述理想输出数据y是所述用户数据x经过处理输出的正确结果,所述第二神经网络模型是所述恢复器用于还原用户数据和预测隐私的神经网络,所述还原数据x′是所述第二神经网络模型基于特征向量还原出的数据,所述隐私属性A′为所述用户数据中用户个人的敏感信息,所述隐私属性A′是所述第二神经网络模型基于所述特征向量预测出的用户个人敏感信息;所述理想属性A是所述用户数据x中正确的敏感信息。
16.根据权利要求13-15任一项所述的装置,其特征在于,所述电子设备通过所述恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据生成第i噪声δi,具体用于:
Figure FDA0003763449610000041
其中,所述sDec为第二神经网络模型,所述第二神经网络模型包括对特征向量进行还原的功能,所述sign为符号函数;所述Lrec为重构损失函数,所述Lrec用于确定用户数据x和还原数据sDec(zi-1,θ)之间的重构损失;所述e是所述第二神经网络模型的参数。
17.根据权利要求16所述的装置,其特征在于,所述θ以第二目标函数的最小值为目标训练而成,或所述θ以第三目标函数的最小值为目标训练而成;
其中,所述第二目标函数是所述第二神经网络模型输出的还原数据x′和用户数据x之间的损失函数;所述第三目标函数是所述第二神经网络模型输出的隐私属性A′和理想属性A之间的损失函数;所述第二神经网络模型是所述恢复器用于还原用户数据和预测隐私的神经网络,所述还原数据x′是所述第二神经网络模型基于所述特征向量还原出的数据,所述隐私属性A′为所述用户数据中用户个人的敏感信息,所述隐私属性A′是所述第二神经网络模型基于所述特征向量预测出的用户个人敏感信息;所述理想属性A是所述用户数据x中正确的敏感信息。
18.根据权利要求12-16任一项所述的装置,其特征在于,所述电子设备通过所述第i混淆模块将所述第i-1特征向量zi-1和所述第i噪声δi进行叠加,得到第i特征向量zi,具体用于:
Figure FDA0003763449610000042
其中,所述ε为隐私预算,隐私预算用于决定加噪的幅度,所述mask为0-1随机向量。
19.根据权利要求18所述的装置,其特征在于,在所述装置通过所述第N混淆模块得到第N特征向量zN之后,所述装置还用于:
所述混淆器将所述第N特征向量zN更新为:
z0+clip(-μ,μ,zN-z0)
其中,所述clip是将叠加的总噪声zN-z0限定在参数-μ到μ之间的函数,所述-μ为所述clip限定的最小值,所述μ为所述clip限定的最大值,所述μ为正数。
20.根据权利要求13-19任一项所述的装置,其特征在于,所述恢复器包括N个恢复模块,所述N个恢复模块分别为第1恢复模块,第2恢复模块,……,第N恢复模块,所述恢复器对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi,具体用于:
第i恢复器,用于对第i-1特征向量zi-1进行还原处理,并基于还原数据和用户数据x生成第i噪声δi;将所述δi输入到所述第i混淆模块。
21.一种数据保护装置,所述装置为云端设备,其特征在于,所述装置包括一个解码器,其中:所述解码器,用于对第N特征向量zN进行预测处理,得到解码数据yk
yk=Deck(zN,βk)
其中,所述Deck为第三神经网络模型,所述βk为所述第三神经网络模型的参数。
22.根据权利要求21所述的装置,其特征在于,所述βk以第一目标函数的最小值为目标训练而成;所述第一目标函数是解码数据y′和理想输出数据y之间的损失函数,所述理想输出数据y是用户数据x经过所述解码器输出的正确结果,所述解码数据y′是所述解码器基于所述第N特征向量zN处理得到的结果。
23.根据权利要求21或22所述的装置,其特征在于,所述装置还用于:
接收来自终端设备的反馈信息label,将所述解码数据yk和所述反馈数据label作为训练样本,对所述解码器进行监督训练,并将解码器参数βk更新为训练后的参数。
24.一种数据保护装置,所述装置为终端设备,其特征在于,包括处理器、存储器、输入接口和输出接口,所述输入接口用于接收来自所述数据保护装置之外的其它装置的信息,所述输出接口用于向所述数据保护装置之外的其它装置输出信息,所述处理器调用所述存储器中存储的计算机程序实现如权利要求1-9任一项所述的方法。
25.一种数据保护装置,所述装置为云端设备,其特征在于,包括处理器、存储器、输入接口和输出接口,所述输入接口用于接收来自所述数据保护装置之外的其它装置的信息,所述输出接口用于向所述数据保护装置之外的其它装置输出信息,所述处理器调用所述存储器中存储的计算机程序实现如权利要求10-12任一项所述的方法。
26.一种数据保护系统,其特征在于,所述数据保护系统包括如权利要求24所述的装置以及如权利要求25所述的装置。
27.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序或计算机指令,当所述计算机程序或计算机指令被运行时,实现如权利要求1-12任一项所述的方法。
CN202210879047.4A 2022-07-25 2022-07-25 一种数据保护方法、装置、相关设备及系统 Active CN116049840B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210879047.4A CN116049840B (zh) 2022-07-25 2022-07-25 一种数据保护方法、装置、相关设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210879047.4A CN116049840B (zh) 2022-07-25 2022-07-25 一种数据保护方法、装置、相关设备及系统

Publications (2)

Publication Number Publication Date
CN116049840A true CN116049840A (zh) 2023-05-02
CN116049840B CN116049840B (zh) 2023-10-20

Family

ID=86131915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210879047.4A Active CN116049840B (zh) 2022-07-25 2022-07-25 一种数据保护方法、装置、相关设备及系统

Country Status (1)

Country Link
CN (1) CN116049840B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336463A1 (en) * 2017-05-18 2018-11-22 General Electric Company Systems and methods for domain-specific obscured data transport
CN109495476A (zh) * 2018-11-19 2019-03-19 中南大学 一种基于边缘计算的数据流差分隐私保护方法及系统
CN110537191A (zh) * 2017-03-22 2019-12-03 维萨国际服务协会 隐私保护机器学习
CN111291190A (zh) * 2020-03-23 2020-06-16 腾讯科技(深圳)有限公司 一种编码器的训练方法、信息检测的方法以及相关装置
CN111373403A (zh) * 2018-07-26 2020-07-03 深度来源公司 一种用于隐藏原始数据以保护个人信息的混淆网络的学习方法和测试方法,以及其学习装置和测试装置
WO2021114931A1 (zh) * 2019-12-09 2021-06-17 支付宝(杭州)信息技术有限公司 防止隐私数据泄漏的编码模型训练方法及装置
CN113628090A (zh) * 2021-07-14 2021-11-09 西安电子科技大学 抗干扰消息隐写与提取方法、系统、计算机设备、终端
CN113642409A (zh) * 2021-07-15 2021-11-12 上海交通大学 一种人脸匿名化系统及方法、终端
CN113726823A (zh) * 2021-11-03 2021-11-30 清华大学 一种防御方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110537191A (zh) * 2017-03-22 2019-12-03 维萨国际服务协会 隐私保护机器学习
US20180336463A1 (en) * 2017-05-18 2018-11-22 General Electric Company Systems and methods for domain-specific obscured data transport
CN111373403A (zh) * 2018-07-26 2020-07-03 深度来源公司 一种用于隐藏原始数据以保护个人信息的混淆网络的学习方法和测试方法,以及其学习装置和测试装置
CN109495476A (zh) * 2018-11-19 2019-03-19 中南大学 一种基于边缘计算的数据流差分隐私保护方法及系统
WO2021114931A1 (zh) * 2019-12-09 2021-06-17 支付宝(杭州)信息技术有限公司 防止隐私数据泄漏的编码模型训练方法及装置
CN111291190A (zh) * 2020-03-23 2020-06-16 腾讯科技(深圳)有限公司 一种编码器的训练方法、信息检测的方法以及相关装置
CN113628090A (zh) * 2021-07-14 2021-11-09 西安电子科技大学 抗干扰消息隐写与提取方法、系统、计算机设备、终端
CN113642409A (zh) * 2021-07-15 2021-11-12 上海交通大学 一种人脸匿名化系统及方法、终端
CN113726823A (zh) * 2021-11-03 2021-11-30 清华大学 一种防御方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116049840B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Dhawan et al. SSII: secured and high-quality steganography using intelligent hybrid optimization algorithms for IoT
US20200143079A1 (en) Privacy-preserving visual recognition via adversarial learning
CN111491170B (zh) 嵌入水印的方法及水印嵌入装置
US20220092336A1 (en) Adversarial image generation method, computer device, and computer-readable storage medium
Zhang et al. Generative steganography by sampling
Deeba et al. Digital watermarking using deep neural network
US11032251B2 (en) AI-powered cyber data concealment and targeted mission execution
CN110826420A (zh) 人脸识别模型的训练方法及装置
CN113435365B (zh) 人脸图像迁移方法及装置
CN112101531B (zh) 基于隐私保护的神经网络模型训练方法、装置及系统
CN113542228A (zh) 基于联邦学习的数据传输方法、装置以及可读存储介质
US20240104681A1 (en) Image steganography utilizing adversarial perturbations
Sithungu et al. Gaainet: A generative adversarial artificial immune network model for intrusion detection in industrial iot systems
CN113781598B (zh) 图像生成模型的训练方法和设备以及图像生成方法
US20230222335A1 (en) Training user authentication models with federated learning
Banerjee et al. Intelligent Cyber-Physical Systems Security for Industry 4.0: Applications, Challenges and Management
CN116049840B (zh) 一种数据保护方法、装置、相关设备及系统
Tirumala et al. Transpositional neurocryptography using deep learning
Kang et al. Grounding foundation models through federated transfer learning: A general framework
US20220343679A1 (en) Neural network-based key point training apparatus and method
CN111581455A (zh) 文本生成模型的生成方法、装置和电子设备
Li et al. Deepkeystego: Protecting communication by key-dependent steganography with deep networks
JP2021005745A (ja) 秘密データの通信方法、秘密データの通信プログラム及び秘密データの通信システム
Bauer et al. Generative Models for Security: Attacks, Defenses, and Opportunities
Holoska et al. Comparison between neural network steganalysis and linear classification method stegdetect

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant