CN117349899B - 基于遗忘模型的敏感数据处理方法、系统及存储介质 - Google Patents

基于遗忘模型的敏感数据处理方法、系统及存储介质 Download PDF

Info

Publication number
CN117349899B
CN117349899B CN202311658311.2A CN202311658311A CN117349899B CN 117349899 B CN117349899 B CN 117349899B CN 202311658311 A CN202311658311 A CN 202311658311A CN 117349899 B CN117349899 B CN 117349899B
Authority
CN
China
Prior art keywords
model
forgetting
data
machine learning
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311658311.2A
Other languages
English (en)
Other versions
CN117349899A (zh
Inventor
彭凯
高玮卓
徐博
肖世达
张晓枫
段先明
郭佳璐
刘高扬
王琛
邓天平
胡毅
胡梦兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Chutianyun Co ltd
Huazhong University of Science and Technology
Original Assignee
Hubei Chutianyun Co ltd
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Chutianyun Co ltd, Huazhong University of Science and Technology filed Critical Hubei Chutianyun Co ltd
Priority to CN202311658311.2A priority Critical patent/CN117349899B/zh
Publication of CN117349899A publication Critical patent/CN117349899A/zh
Application granted granted Critical
Publication of CN117349899B publication Critical patent/CN117349899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于遗忘模型的敏感数据处理方法、系统及存储介质,所述方法包括:根据遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和原始机器学习模型,获得噪声KL散度;基于KL散度更新原始机器学习识别模型,获得待处理遗忘模型;根据错误率最小化样本通过原始机器学习识别模型和待处理遗忘模型,获得样本KL散度;基于样本KL散度对待处理遗忘模型进行更新,获得遗忘模型;获取待识别数据,并将待识别数据输入至遗忘模型中进行类别预测,获得待识别敏感数据的错误预测结果和待识别安全数据的正确预测结果。本发明得到了隐私数据抹除后的遗忘模型,在不牺牲模型性能的前提下,有效保护个人敏感信息的隐私安全。

Description

基于遗忘模型的敏感数据处理方法、系统及存储介质
技术领域
本发明涉及信息安全技术领域,尤其涉及一种基于遗忘模型的敏感数据处理方法、系统及存储介质。
背景技术
随着机器学习和计算机视觉技术的发展,基于机器学习技术的行人重识别技术已逐步成为现代监控系统、智能交通、及安全管理领域的核心应用。然而,机器学习本身存在各种安全问题,在使用过程中存在巨大的安全风险。
机器学习算法通常需要大量的数据来训练模型,但这些数据可能包含用户的敏感信息,例如个人身份、健康记录或财务信息。最近的研究已经揭示,机器学习模型可能通过学习训练数据中的细微模式,从而泄露用户的敏感信息。这种问题在面对各种隐私攻击时变得尤为明显,因为攻击者可以通过访问模型参数或梯度信息来还原或推断出原始数据。因此,保护隐私数据成为了机器学习安全领域的一个关键挑战。
为了保护深度学习模型中的数据隐私,现有研究提出了一些数据遗忘算法,以从模型中移除敏感数据并保护用户隐私。然而,在一些情况下,无法获取遗忘数据成为了一个挑战,特别是在涉及隐私数据的场景中。在隐私数据集中,由于法律、道德或技术的限制,无法获取遗忘数据的情况并不罕见。这可能涉及到个人身份信息、财务数据或医疗记录等敏感数据。在这种情况下,传统的数据遗忘算法无法直接应用。现有的数据遗忘算法通常依赖于遗忘数据来进行模型调整和更新,从而从模型中移除敏感信息。然而,当无法获取遗忘数据时,需要探索其他方法来保护隐私数据。
一种可能的方法是利用生成模型,如生成对抗网络(GAN),生成合成的遗忘数据,从而保护真实数据的隐私。这样,模型可以从合成数据中进行训练和微调,而无需访问原始隐私数据。然而GAN在生成复杂图像时可能会面临困难,复杂图像具有丰富的细节和结构,包含多个对象、复杂的背景和纹理。GAN需要从输入噪声中学习生成逼真的图像,但在复杂图像的情况下,噪声的表示和生成图像之间的映射变得更加困难。另一个方法是利用模型知识蒸馏(knowledge distillation),通过将原始模型的知识传输到一个轻量级模型中,从而在不依赖于具体数据的情况下实现遗忘效果。然而,这种方法仅可以在轻量级模型之间进行知识传递,对于较为复杂的模型结构效果不佳。因此,如何解决深度学习任务中敏感数据隐私泄露的问题成为一个亟待解决的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种基于遗忘模型的敏感数据处理方法、系统及存储介质,旨在解决如何解决深度学习任务中敏感数据隐私泄露的问题的技术问题。
为实现上述目的,本发明提供了一种基于遗忘模型的敏感数据处理方法,所述基于遗忘模型的敏感数据处理方法包括:
通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵;
根据所述遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和所述原始机器学习模型,获得噪声KL散度;
基于所述噪声KL散度更新所述原始机器学习识别模型,获得待处理遗忘模型;
根据错误率最小化样本通过所述原始机器学习识别模型和所述待处理遗忘模型,获得样本KL散度;
基于所述样本KL散度对所述待处理遗忘模型进行更新,获得遗忘模型;
获取待识别数据,所述待识别数据包括待识别敏感数据和待识别安全数据,并将所述待识别数据输入至遗忘模型中进行类别预测,获得所述待识别敏感数据的错误预测结果和所述待识别安全数据的正确预测结果。
可选地,所述通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵的步骤,包括:
根据原始机器学习识别模型的模型结构获取输入数据的维度;
基于所述输入数据的维度生成相同维度的噪声生成器;
根据所述噪声生成器获得噪声矩阵;
将所述噪声矩阵输入至所述原始机器学习识别模型中,获得预测识别结果;
确定所述预测识别结果与敏感数据标签之间的损失值;
在所述损失值小于预设阈值时,将所述噪声矩阵作为遗忘数据错误率最小化噪声矩阵。
可选地,所述确定所述预测识别结果与敏感数据标签之间的损失值的步骤,包括:
根据所述预测识别结果与敏感数据标签计算交叉熵损失值;
根据所述噪声矩阵及所述噪声矩阵对应的正则化项确定正则化项损失值;
根据所述交叉熵损失值和所述正则化项损失值得到所述预测识别结果与敏感数据标签之间的损失值。
可选地,所述确定所述预测识别结果与敏感数据标签之间的损失值的步骤之后,还包括:
在所述损失值大于或等于预设阈值时,根据所述损失值反向传播获得梯度信息;
根据所述梯度信息更新所述噪声生成器的生成器参数,得到更新后的噪声生成器;
据所述更新后的噪声生成器获得预测低错误率的噪声矩阵;
将所述预测低错误率的噪声矩阵输入至所述原始机器学习识别模型中,获得模型预测结果;
确定所述模型预测结果与所述敏感数据标签之间的损失值,并在所述模型预测结果与所述敏感数据标签之间的损失值小于所述预设阈值时,将所述预测低错误率的噪声矩阵作为遗忘数据错误率最小化噪声矩阵。
可选地,所述根据所述遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和所述原始机器学习模型,获得噪声KL散度的步骤之前,还包括:
根据所述原始机器学习识别模型的模型结构构建相同结构的机器学习模型;
通过均方分布随机初始化或高斯分布随机初始化对所述相同结构的机器学习模型进行初始化赋值,得到初始化机器学习识别模型。
可选地,所述根据所述遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和所述原始机器学习模型,获得噪声KL散度的步骤,包括:
分别将所述遗忘数据错误率最小化噪声矩阵输入至初始化机器学习识别模型和所述原始机器学习模型中,获得初始化噪声特征向量和原始噪声特征向量;
计算所述初始化噪声特征向量和所述原始噪声特征向量之间的噪声KL散度。
可选地,所述根据错误率最小化样本通过所述原始机器学习识别模型和所述待处理遗忘模型,获得样本KL散度的步骤之前,还包括:
将安全数据输入至所述原始机器学习识别模型中,得到预测输出结果;
计算所述预测输出结果与安全数据标签之间的损失值;
根据所述预测输出结果与安全数据标签之间的损失值计算所述安全数据的梯度方向;
根据所述安全数据的梯度方向和所述安全数据确定错误率最小化样本。
可选地,所述根据错误率最小化样本通过所述原始机器学习识别模型和所述待处理遗忘模型,获得样本KL散度的步骤,包括:
分别将错误率最小化样本输入至所述原始机器学习识别模型和所述待处理遗忘模型中,得到原始样本特征向量和遗忘样本特征向量;
计算所述原始样本特征向量与所述遗忘样本特征向量之间的样本KL散度。
此外,为实现上述目的,本发明还提出一种基于遗忘模型的敏感数据处理系统,所述基于遗忘模型的敏感数据处理系统包括:
生成模块,用于通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵;
计算模块,用于根据所述遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和所述原始机器学习模型,获得噪声KL散度;
更新模块,用于基于所述噪声KL散度更新所述原始机器学习识别模型,获得待处理遗忘模型;
所述计算模块,还用于根据错误率最小化样本通过所述原始机器学习识别模型和所述待处理遗忘模型,获得样本KL散度;
所述更新模块,还用于基于所述样本KL散度对所述待处理遗忘模型进行更新,获得遗忘模型;
预测模块,用于获取待识别数据,所述待识别数据包括待识别敏感数据和待识别安全数据,并将所述待识别数据输入至遗忘模型中进行类别预测,获得所述待识别敏感数据的错误预测结果和所述待识别安全数据的正确预测结果。
此外,为实现上述目的,本发明还提出一种基于遗忘模型的敏感数据处理设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于遗忘模型的敏感数据处理程序,所述基于遗忘模型的敏感数据处理程序配置为实现如上文所述的基于遗忘模型的敏感数据处理方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于遗忘模型的敏感数据处理程序,所述基于遗忘模型的敏感数据处理程序被处理器执行时实现如上文所述的基于遗忘模型的敏感数据处理方法的步骤。
本发明首先通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵,然后根据遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和原始机器学习模型,获得噪声KL散度,并基于噪声KL散度更新所述原始机器学习识别模型,获得待处理遗忘模型,之后根据错误率最小化样本通过原始机器学习识别模型和待处理遗忘模型,获得样本KL散度,并基于样本KL散度对待处理遗忘模型进行更新,获得遗忘模型,最后获取待识别数据,待识别数据包括待识别敏感数据和待识别安全数据,并将待识别数据输入至遗忘模型中进行类别预测,获得待识别敏感数据的错误预测结果和待识别安全数据的正确预测结果。相较于现有技术中数据遗忘算法通常依赖于遗忘数据来进行模型调整和更新,从而从模型中移除敏感信息。然而,当无法获取遗忘数据时,需要探索其他方法来保护隐私数据,而本发明中得到隐私数据抹除后的遗忘模型,无需获取对于敏感数据的访问权,在不牺牲模型性能的前提下,有效保护个人敏感信息的隐私安全。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于遗忘模型的敏感数据处理设备的结构示意图;
图2为本发明基于遗忘模型的敏感数据处理方法第一实施例的流程示意图;
图3为本发明基于遗忘模型的敏感数据处理方法第一实施例的遗忘模型训练示意图;
图4为本发明基于遗忘模型的敏感数据处理系统第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于遗忘模型的敏感数据处理设备结构示意图。
如图1所示,该基于遗忘模型的敏感数据处理设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储系统。
本领域技术人员可以理解,图1中示出的结构并不构成对基于遗忘模型的敏感数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于遗忘模型的敏感数据处理程序。
在图1所示的基于遗忘模型的敏感数据处理设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于遗忘模型的敏感数据处理设备中的处理器1001、存储器1005可以设置在基于遗忘模型的敏感数据处理设备中,所述基于遗忘模型的敏感数据处理设备通过处理器1001调用存储器1005中存储的基于遗忘模型的敏感数据处理程序,并执行本发明实施例提供的基于遗忘模型的敏感数据处理方法。
本发明实施例提供了一种基于遗忘模型的敏感数据处理方法,参照图2,图2为本发明基于遗忘模型的敏感数据处理方法第一实施例的流程示意图。
本实施例中,所述基于遗忘模型的敏感数据处理方法包括以下步骤:
步骤S10:通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵。
易于理解的是,本实施例的执行主体可以是具有数据处理、网络通讯和程序运行等功能的基于遗忘模型的敏感数据处理系统,也可以为其他具有相似功能的计算机设备等,本实施例并不加以限制。
在本实施例中,原始机器学习识别模型为已经训练好可以识别图像或信息或数据对应的类别预测的模型。
还需要说明的是,原始机器学习模型(即原始机器学习识别模型)是使用全体数据集训练获得的最初模型,包含需要抹除的敏感数据以及剩余数据(即安全数据)的全部信息。
进一步地,通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵的处理方式为根据原始机器学习识别模型的模型结构获取输入数据的维度;基于输入数据的维度生成相同维度的噪声生成器;根据噪声生成器获得噪声矩阵;将噪声矩阵输入至原始机器学习识别模型中,获得预测识别结果;确定预测识别结果与敏感数据标签之间的损失值;在损失值小于预设阈值时,将噪声矩阵作为遗忘数据错误率最小化噪声矩阵。
还应理解的是,预测识别结果可以为预测所属标签结果。敏感数据标签为敏感数据的真实标签。
需要说明的是,上述方法中描述的噪声矩阵生成还包含着噪声生成器的更新机制,更新过程中需要计算模型对噪声矩阵预测的交叉熵损失以及噪声矩阵的正则化项实现。
在具体实现中,个性化推荐系统通常需要处理用户的个人喜好数据,但这些数据可能包含敏感信息,例如在音乐或电影推荐等个人化娱乐应用中,用户的收听或观看历史可能包含偏好或兴趣;网购软件推荐系统中可能包含用户的收藏及支付信息。即使用户已经清除了个人的喜好或支付历史等敏感信息后,推荐系统仍能根据系统中的模型参数推荐给用户与敏感信息相关的内容。在用户希望抹除自己在推荐系统中的个人信息,使系统忘记或不再使用用户的具体历史行为数据时,需要系统在无法获取用户的隐私数据,即零样本前提下,实现对推荐系统模型内部的敏感信息的抹除,从而实现对用户敏感信息的保护。因此,基于零样本前提下的隐私数据抹除方法对于隐私保护具有极其重要的意义。在本方法中,使用噪声生成器实现对隐私数据(即敏感数据)的模拟,来完成零样本的隐私数据抹除。
还应理解的是,确定预测识别结果与敏感数据标签之间的损失值的处理方式为根据预测识别结果与敏感数据标签计算交叉熵损失值;根据噪声矩阵及噪声矩阵对应的正则化项确定正则化项损失值;根据交叉熵损失值和正则化项损失值得到预测识别结果与敏感数据标签之间的损失值。由于一开始生成的噪声矩阵肯定是错误率很大的,进行几次迭代更新噪声矩阵后才会有低于阈值的情况,因此重复迭代过程,在损失值大于或等于预设阈值时,根据损失值反向传播获得梯度信息;根据梯度信息更新噪声生成器的生成器参数,得到更新后的噪声生成器;根据更新后的噪声生成器获得预测低错误率的噪声矩阵;将预测低错误率的噪声矩阵输入至原始机器学习识别模型中,获得模型预测结果;确定模型预测结果与敏感数据标签之间的损失值,直至在模型预测结果与敏感数据标签之间的损失值小于预设阈值时,将预测低错误率的噪声矩阵作为遗忘数据错误率最小化噪声矩阵。
在具体实现中,迭代过程可以人为设置进行多少轮,也可以用阈值来作为停止指标等,本实施例并不加以限制。
在本实施例中,参考图3,图3为本发明基于遗忘模型的敏感数据处理方法第一实施例的遗忘模型训练示意图,根据原始机器学习模型的结构,获取输入数据的维度,初始化一个生成相同维度噪声的噪声生成器;使用噪声生成器生成一个相同维度的噪声矩阵;将所述噪声矩阵输入所述原始模型进行预测得到预测结果/>,并与敏感数据标签计算损失值;根据所述损失值反向传播获得的梯度信息,更新噪声生成器参数;重复迭代过程,直至生成噪声的预测误差小于阈值,获得所述遗忘数据错误率最小化噪声矩阵/>
噪声矩阵的生成方法为使用随机数生成方法从高斯分布中随机抽取,得到一个可以追踪梯度的噪声矩阵:
如果模型保存了敏感数据的均值和方差/>信息,即可将分布更换为均值和方差符合敏感数据的正态分布:/>
更新噪声矩阵的损失值计算方法为:将所述模型预测结果与指定标签(敏感数据标签)计算交叉熵损失/>;将所述噪声矩阵添加正则化项/>,并乘以权重/>得到正则化项损失/>;将所述交叉熵损失与正则化项相加,得到最终损失值
还需要说明的是,正则化项将所述噪声矩阵每个元素进行平方操作,并在噪声矩阵的每个维度上求和,得到噪声矩阵的平方和,随后将每个平方和取平均值得到最终的正则化项。
应理解的是,由于数据抹除算法无法获得需要抹除数据的访问权,使用噪声矩阵模拟机器学习模型对敏感数据的预测结果;由于输入数据的维度已知,使用噪声生成器生成一个相同维度的噪声矩阵;使用原始机器学习模型对噪声矩阵进行预测更新噪声生成器的参数,使噪声的分布更接近于敏感数据的分布,提高模型将噪声矩阵分类为敏感数据的概率。
噪声生成器可以根据输入数据的尺寸选择不同的结构,以提高噪声矩阵的生成效率。例如在处理图像数据时,通常采用卷积神经网络(CNN)作为噪声生成器的主要结构;对于文本生成任务,可以采用循环神经网络(RNN)或其变体,如长短期记忆网络(LSTM)或门控循环单元(GRU)来构建噪声生成器。
噪声生成器生成噪声的数据采样机制使用随机数生成方法从高斯分布中抽取获得;若保存了敏感数据的均值与方差,也可选择从该正态分布中对噪声矩阵进行采样,提高噪声矩阵的生成效率。
还需要说明的是,噪声矩阵的正则化项约束了噪声生成器中参数的复杂度,降低过拟合的风险;通过将正则化项添加到噪声生成器的总损失中,使噪声生成器倾向于生成更小的噪声,改善整体训练效果。
步骤S20:根据所述遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和所述原始机器学习模型,获得噪声KL散度。
步骤S30:基于所述噪声KL散度更新所述原始机器学习识别模型,获得待处理遗忘模型。
进一步地,根据原始机器学习识别模型的模型结构构建相同结构的机器学习模型,相同结构模型对所有数据的预测结果近似于随机预测;通过均方分布随机初始化或高斯分布随机初始化对相同结构的机器学习模型进行初始化赋值,得到初始化机器学习识别模型。
还应理解的是,随机初始化的机器学习模型(即初始化机器学习识别模型)根据原始模型的模型结构,使用随机初始化方法对模型中的所有参数进行初始化操作,获得一个不包含任何数据信息的模型。
相同结构模型中的参数使用均方分布随机初始化或高斯分布随机初始化对模型参数进行初始化赋值,得到随机初始化模型;随机初始化模型不包含任何敏感数据的训练信息,可作为参考模型对原始机器学习模型进行修改,抹除原始模型对于敏感数据的训练信息。
在具体实现中,获得原始机器学习识别模型结构,构造一个具有相同结构的机器学习模型;所述相同结构模型中的参数使用均方分布随机初始化或高斯分布随机初始化对模型参数进行初始化赋值,得到随机初始化模型(即初始化机器学习识别模型)
进一步地,根据遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和原始机器学习模型,获得噪声KL散度的处理方式为分别将遗忘数据错误率最小化噪声矩阵输入至初始化机器学习识别模型和原始机器学习模型中,获得初始化噪声特征向量和原始噪声特征向量;计算初始化噪声特征向量和原始噪声特征向量之间的噪声KL散度。
在本实施例中,将所述遗忘数据错误率最小化噪声矩阵分别输入所述原始模型和所述随机初始化模型,得到原始预测结果(即原始噪声特征向量)和初始化预测结果(即初始化噪声特征向量)/>;计算所述原始预测结果和初始化预测结果的KL散度作为损失值,具体公式如下:
其中表示每个标签对应的错误率最小化噪声矩阵;使用随机梯度下降更新原始模型参数以减小所述损失值;重复所述更新过程,直至达到迭代最大次数或损失值小于指定阈值,获得待处理遗忘模型/>
在本实施例中,将所述遗忘数据错误率最小化噪声矩阵分别输入所述原始模型和所述随机初始化模型,得到原始预测结果和初始化预测结果;使用相对熵(KL散度)作为损失函数计算原始预测结果和初始化模型预测结果的相似度;使用随机梯度下降更新原始模型参数以减小所述损失值;重复更新过程直至两预测结果分布相近,实现将敏感数据信息从原始模型中抹除的效果。
使用KL散度衡量两个分布之间的相似度。KL散度可以用于衡量一个分布相对于另一个分布的信息增益或者信息损失,当KL散度较小时,即相对于原始分布,新分布提供的额外信息有限。因此,使用KL散度作为损失值可以保证原始模型中敏感数据信息的抹除效果。
步骤S40:根据错误率最小化样本通过所述原始机器学习识别模型和所述待处理遗忘模型,获得样本KL散度。
步骤S50:基于所述样本KL散度对所述待处理遗忘模型进行更新,获得遗忘模型。
进一步地,将安全数据输入至所述原始机器学习识别模型中,得到预测输出结果;计算预测输出结果与安全数据标签之间的损失值;根据预测输出结果与安全数据标签之间的损失值计算安全数据的梯度方向;根据安全数据的梯度方向和安全数据确定错误率最小化样本。
根据错误率最小化样本通过原始机器学习识别模型和待处理遗忘模型,获得样本KL散度的处理方式为分别将错误率最小化样本输入至原始机器学习识别模型和所述待处理遗忘模型中,得到原始样本特征向量和遗忘样本特征向量;计算原始样本特征向量与遗忘样本特征向量之间的样本KL散度。
在本实施例中,将剩余数据输入原始模型,得到对应预测输出;根据所述预测概率和输入对应的标签计算损失函数,得到损失值/>;根据所述损失值计算输入数据的梯度方向/>进行取反并乘以步长/>添加到当前输入数据中;使用所述更新后的输入数据计算出新的损失值并对其进行更新,整体更新公式为:/>,其中,/>代表迭代次数,/>是一个投影函数,将更新范围限制在/>之间;重复所述更新过程直至达到迭代最大次数或损失值小于指定阈值。
将所述错误率最小化样本分别输入待处理遗忘模型和原始模型,得到待处理遗忘模型预测结果(即遗忘样本特征向量)/>和原始预测结果(即原始样本特征向量)/>;计算所述遗忘模型预测结果和原始预测结果的KL散度作为损失值:
使用随机梯度下降更新原始模型参数以减小所述损失值;重复所述更新过程,直至达到迭代最大次数或损失值小于指定阈值,获得最终模型(即遗忘模型)
还需要说明的是,使用剩余数据错误率最小化样本,可以提高模型的泛化性能,消除模型因剩余数据样本个体间的差异性导致的预测误差,提高训练效率。
获取待处理遗忘模型和原始模型,将错误率最小化样本分别输入两个模型,得到遗忘模型预测结果和原始预测结果;使用相对熵(KL散度)作为损失函数计算遗忘模型预测结果和原始模型预测结果的相似度;使用随机梯度下降更新原始模型参数以减小所述损失值;重复更新过程直至两预测结果分布相近,从而提高遗忘模型对于剩余数据的预测精度。
步骤S60:获取待识别数据,所述待识别数据包括待识别敏感数据和待识别安全数据,并将所述待识别数据输入至遗忘模型中进行类别预测,获得所述待识别敏感数据的错误预测结果和所述待识别安全数据的正确预测结果。
应理解的是,待识别数据可以为需要识别类别或标签的图像或者信息等,图像或信息中包括待识别敏感数据和剩余数据(即待识别安全数据)。待识别敏感数据可以为用户预先设定不想被识别的数据等。
还需要说明的是,在图像识别任务中,机器学习模型的输入是一张包含隐私信息图片,模型无法输出该图片所属的正确类别。本实施例基于此,由于敏感数据已经无法获取,因此需要首先使用噪声生成器生成可以代表敏感数据的噪声矩阵。然后根据原始机器学习模型结构构建一个初始化模型,使原始模型在噪声数据上的表现接近初始化模型,得到待处理遗忘模型,实现敏感数据抹除。最后使待处理遗忘模型在剩余数据上的表现与原始模型一致,得到遗忘模型。
待处理遗忘模型是使用数据抹除算法后产生的模型,其不包含需要抹除的敏感数据信息,但包含剩余数据的部分信息;遗忘模型是使用错误率最小化样本更新后的待处理遗忘模型,其不包含需要抹除的敏感数据信息,但包含剩余数据的全部信息。
在具体实现中,使用噪声生成器和机器学习模型生成遗忘数据错误率最小化噪声矩阵;将所述噪声矩阵分别输入随机初始化的机器学习模型和原始模型中得到两个特征向量;计算所述两个特征向量之间的KL散度作为损失更新原始模型,得到遗忘模型;使用投影梯度下降方法对剩余数据进行扰动,获得错误率最小化样本;将所述错误率最小化样本分别输入原始模型和遗忘模型中,计算输出向量的KL散度作为损失更新遗忘模型,得到隐私数据抹除后的遗忘模型。该方法可在不牺牲模型性能的前提下,有效保护个人敏感信息的隐私安全,可以广泛应用于涉及敏感数据的深度学习任务,如医疗诊断、金融数据分析等。本发明无需获取对于敏感数据的访问权,解决了现有数据隐私保护方法中需要使用敏感数据的问题。
在本实施例中,首先通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵,然后根据遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和原始机器学习模型,获得噪声KL散度,并基于噪声KL散度更新原始机器学习识别模型,获得待处理遗忘模型,之后根据错误率最小化样本通过原始机器学习识别模型和待处理遗忘模型,获得样本KL散度,并基于样本KL散度对待处理遗忘模型进行更新,获得遗忘模型,最后获取待识别数据,待识别数据包括待识别敏感数据和待识别安全数据,并将待识别数据输入至遗忘模型中进行类别预测,获得待识别敏感数据的错误预测结果和待识别安全数据的正确预测结果。相较于现有技术中数据遗忘算法通常依赖于遗忘数据来进行模型调整和更新,从而从模型中移除敏感信息。然而,当无法获取遗忘数据时,需要探索其他方法来保护隐私数据,而本发明中得到隐私数据抹除后的遗忘模型,无需获取对于敏感数据的访问权,在不牺牲模型性能的前提下,有效保护个人敏感信息的隐私安全。
参照图4,图4为本发明基于遗忘模型的敏感数据处理系统第一实施例的结构框图。
如图4所示,本发明实施例提出的基于遗忘模型的敏感数据处理系统包括:
生成模块4001,用于通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵;
计算模块4002,用于根据所述遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和所述原始机器学习模型,获得噪声KL散度;
更新模块4003,用于基于所述噪声KL散度更新所述原始机器学习识别模型,获得待处理遗忘模型;
所述计算模块4002,还用于根据错误率最小化样本通过所述原始机器学习识别模型和所述待处理遗忘模型,获得样本KL散度;
所述更新模块4003,还用于基于所述样本KL散度对所述待处理遗忘模型进行更新,获得遗忘模型;
预测模块4004,用于获取待识别数据,所述待识别数据包括待识别敏感数据和待识别安全数据,并将所述待识别数据输入至遗忘模型中进行类别预测,获得所述待识别敏感数据的错误预测结果和所述待识别安全数据的正确预测结果。
在本实施例中,首先通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵,然后根据遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和原始机器学习模型,获得噪声KL散度,并基于噪声KL散度更新原始机器学习识别模型,获得待处理遗忘模型,之后根据错误率最小化样本通过原始机器学习识别模型和待处理遗忘模型,获得样本KL散度,并基于样本KL散度对待处理遗忘模型进行更新,获得遗忘模型,最后获取待识别数据,待识别数据包括待识别敏感数据和待识别安全数据,并将待识别数据输入至遗忘模型中进行类别预测,获得待识别敏感数据的错误预测结果和待识别安全数据的正确预测结果。相较于现有技术中数据遗忘算法通常依赖于遗忘数据来进行模型调整和更新,从而从模型中移除敏感信息。然而,当无法获取遗忘数据时,需要探索其他方法来保护隐私数据,而本发明中得到隐私数据抹除后的遗忘模型,无需获取对于敏感数据的访问权,在不牺牲模型性能的前提下,有效保护个人敏感信息的隐私安全。
本发明基于遗忘模型的敏感数据处理系统的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于遗忘模型的敏感数据处理方法,其特征在于,所述基于遗忘模型的敏感数据处理方法包括以下步骤:
通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵;
根据所述遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和所述原始机器学习识别模型,获得噪声KL散度;
基于所述噪声KL散度更新所述原始机器学习识别模型,获得待处理遗忘模型;
根据错误率最小化样本通过所述原始机器学习识别模型和所述待处理遗忘模型,获得样本KL散度;
基于所述样本KL散度对所述待处理遗忘模型进行更新,获得遗忘模型;
获取待识别数据,所述待识别数据包括待识别敏感数据和待识别安全数据,并将所述待识别数据输入至遗忘模型中进行类别预测,获得所述待识别敏感数据的错误预测结果和所述待识别安全数据的正确预测结果。
2.如权利要求1所述的方法,其特征在于,所述通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵的步骤,包括:
根据原始机器学习识别模型的模型结构获取输入数据的维度;
基于所述输入数据的维度生成相同维度的噪声生成器;
根据所述噪声生成器获得噪声矩阵;
将所述噪声矩阵输入至所述原始机器学习识别模型中,获得预测识别结果;
确定所述预测识别结果与敏感数据标签之间的损失值;
在所述损失值小于预设阈值时,将所述噪声矩阵作为遗忘数据错误率最小化噪声矩阵。
3.如权利要求2所述的方法,其特征在于,所述确定所述预测识别结果与敏感数据标签之间的损失值的步骤,包括:
根据所述预测识别结果与敏感数据标签计算交叉熵损失值;
根据所述噪声矩阵及所述噪声矩阵对应的正则化项确定正则化项损失值;
根据所述交叉熵损失值和所述正则化项损失值得到所述预测识别结果与敏感数据标签之间的损失值。
4.如权利要求3所述的方法,其特征在于,所述确定所述预测识别结果与敏感数据标签之间的损失值的步骤之后,还包括:
在所述损失值大于或等于预设阈值时,根据所述损失值反向传播获得梯度信息;
根据所述梯度信息更新所述噪声生成器的生成器参数,得到更新后的噪声生成器;
根据所述更新后的噪声生成器获得预测低错误率的噪声矩阵;
将所述预测低错误率的噪声矩阵输入至所述原始机器学习识别模型中,获得模型预测结果;
确定所述模型预测结果与所述敏感数据标签之间的损失值,并在所述模型预测结果与所述敏感数据标签之间的损失值小于所述预设阈值时,将所述预测低错误率的噪声矩阵作为遗忘数据错误率最小化噪声矩阵。
5.如权利要求2所述的方法,其特征在于,所述根据所述遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和所述原始机器学习识别模型,获得噪声KL散度的步骤之前,还包括:
根据所述原始机器学习识别模型的模型结构构建相同结构的机器学习模型;
通过均方分布随机初始化或高斯分布随机初始化对所述相同结构的机器学习模型进行初始化赋值,得到初始化机器学习识别模型。
6.如权利要求1-5任一项所述的方法,其特征在于,所述根据所述遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和所述原始机器学习识别模型,获得噪声KL散度的步骤,包括:
分别将所述遗忘数据错误率最小化噪声矩阵输入至初始化机器学习识别模型和所述原始机器学习识别模型中,获得初始化噪声特征向量和原始噪声特征向量;
计算所述初始化噪声特征向量和所述原始噪声特征向量之间的噪声KL散度。
7.如权利要求6所述的方法,其特征在于,所述根据错误率最小化样本通过所述原始机器学习识别模型和所述待处理遗忘模型,获得样本KL散度的步骤之前,还包括:
将安全数据输入至所述原始机器学习识别模型中,得到预测输出结果;
计算所述预测输出结果与安全数据标签之间的损失值;
根据所述预测输出结果与安全数据标签之间的损失值计算所述安全数据的梯度方向;
根据所述安全数据的梯度方向和所述安全数据确定错误率最小化样本。
8.如权利要求7所述的方法,其特征在于,所述根据错误率最小化样本通过所述原始机器学习识别模型和所述待处理遗忘模型,获得样本KL散度的步骤,包括:
分别将错误率最小化样本输入至所述原始机器学习识别模型和所述待处理遗忘模型中,得到原始样本特征向量和遗忘样本特征向量;
计算所述原始样本特征向量与所述遗忘样本特征向量之间的样本KL散度。
9.一种基于遗忘模型的敏感数据处理系统,其特征在于,所述基于遗忘模型的敏感数据处理系统包括:
生成模块,用于通过噪声生成器和原始机器学习识别模型生成遗忘数据错误率最小化噪声矩阵;
计算模块,用于根据所述遗忘数据错误率最小化噪声矩阵通过初始化机器学习识别模型和所述原始机器学习识别模型,获得噪声KL散度;
更新模块,用于基于所述噪声KL散度更新所述原始机器学习识别模型,获得待处理遗忘模型;
所述计算模块,还用于根据错误率最小化样本通过所述原始机器学习识别模型和所述待处理遗忘模型,获得样本KL散度;
所述更新模块,还用于基于所述样本KL散度对所述待处理遗忘模型进行更新,获得遗忘模型;
预测模块,用于获取待识别数据,所述待识别数据包括待识别敏感数据和待识别安全数据,并将所述待识别数据输入至遗忘模型中进行类别预测,获得所述待识别敏感数据的错误预测结果和所述待识别安全数据的正确预测结果。
10.一种存储介质,其特征在于,所述存储介质上存储有基于遗忘模型的敏感数据处理程序,所述基于遗忘模型的敏感数据处理程序被处理器执行时实现如权利要求1至8任一项所述的基于遗忘模型的敏感数据处理方法的步骤。
CN202311658311.2A 2023-12-06 2023-12-06 基于遗忘模型的敏感数据处理方法、系统及存储介质 Active CN117349899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311658311.2A CN117349899B (zh) 2023-12-06 2023-12-06 基于遗忘模型的敏感数据处理方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311658311.2A CN117349899B (zh) 2023-12-06 2023-12-06 基于遗忘模型的敏感数据处理方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN117349899A CN117349899A (zh) 2024-01-05
CN117349899B true CN117349899B (zh) 2024-04-05

Family

ID=89367187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311658311.2A Active CN117349899B (zh) 2023-12-06 2023-12-06 基于遗忘模型的敏感数据处理方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN117349899B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364372A (zh) * 2020-10-27 2021-02-12 重庆大学 一种有监督矩阵补全的隐私保护方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021151345A1 (zh) * 2020-07-09 2021-08-05 平安科技(深圳)有限公司 识别模型的参数获取方法、装置、电子设备及存储介质
CN114611631A (zh) * 2022-04-14 2022-06-10 广州大学 从部分训练集快速训练模型的方法、系统、设备及介质
CN115081623A (zh) * 2022-07-13 2022-09-20 平安科技(深圳)有限公司 遗忘学习方法、装置、设备及介质
WO2023044477A1 (en) * 2021-09-17 2023-03-23 Trustee Of Tufts College Systems and methods for managing complex systems
CN116628510A (zh) * 2023-07-25 2023-08-22 自然语义(青岛)科技有限公司 一种自训练可迭代的人工智能模型训练方法
CN116822590A (zh) * 2023-06-21 2023-09-29 湖南大学 一种基于gan的遗忘衡量模型及其工作方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7107877B2 (ja) * 2019-03-22 2022-07-27 株式会社日立製作所 ストレージシステム、及び、記憶コスト適正化方法
US20220309381A1 (en) * 2021-03-23 2022-09-29 International Business Machines Corporation Verification of data removal from machine learning models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021151345A1 (zh) * 2020-07-09 2021-08-05 平安科技(深圳)有限公司 识别模型的参数获取方法、装置、电子设备及存储介质
WO2023044477A1 (en) * 2021-09-17 2023-03-23 Trustee Of Tufts College Systems and methods for managing complex systems
CN114611631A (zh) * 2022-04-14 2022-06-10 广州大学 从部分训练集快速训练模型的方法、系统、设备及介质
CN115081623A (zh) * 2022-07-13 2022-09-20 平安科技(深圳)有限公司 遗忘学习方法、装置、设备及介质
CN116822590A (zh) * 2023-06-21 2023-09-29 湖南大学 一种基于gan的遗忘衡量模型及其工作方法
CN116628510A (zh) * 2023-07-25 2023-08-22 自然语义(青岛)科技有限公司 一种自训练可迭代的人工智能模型训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
智能汽车决策中的驾驶行为语义解析关键技术;李国法;陈耀昱;吕辰;陶达;曹东璞;成波;;汽车安全与节能学报(04);全文 *

Also Published As

Publication number Publication date
CN117349899A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
US11893781B2 (en) Dual deep learning architecture for machine-learning systems
CN110751291B (zh) 实现安全防御的多方联合训练神经网络的方法及装置
JP6876801B2 (ja) 処理対象のトランザクションに関するリスクを識別する方法、装置、及び電子機器
CN109523611B (zh) 验证码图片生成方法和装置
CN111400754B (zh) 保护用户隐私的用户分类系统的构建方法及装置
CN117349899B (zh) 基于遗忘模型的敏感数据处理方法、系统及存储介质
CN112634170B (zh) 一种模糊图像修正的方法、装置、计算机设备及存储介质
CN110969243B (zh) 防止隐私泄漏的对抗生成网络的训练方法及装置
CN111931153B (zh) 基于人工智能的身份验证方法、装置和计算机设备
US11637858B2 (en) Detecting malware with deep generative models
CN111275205A (zh) 虚拟样本的生成方法、终端设备及存储介质
US11537750B2 (en) Image access management device, image access management method, and image access management system
CN111353554B (zh) 预测缺失的用户业务属性的方法及装置
CN115345293A (zh) 基于差分隐私的文本处理模型的训练方法及装置
WO2021042544A1 (zh) 基于去网纹模型的人脸验证方法、装置、计算机设备及存储介质
Rios Insua et al. Adversarial machine learning: Bayesian perspectives
US11861003B1 (en) Fraudulent user identifier detection using machine learning models
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
CN112967044B (zh) 一种支付业务的处理方法及装置
US20210248615A1 (en) Method and system for digitally onboarding customers for providing one or more solutions in real-time
CN113378982A (zh) 一种图像处理模型的训练方法和系统
Camacho et al. A Cybersecurity Risk Analysis Framework for Systems with Artificial Intelligence Components
US20240045952A1 (en) Protection of neural networks against cloning attacks
US20230315885A1 (en) Systems, methods, and computer-readable media for secure and private data valuation and transfer
CN117079336B (zh) 样本分类模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant