CN115357941A - 一种基于生成式人工智能的去隐私方法和系统 - Google Patents

一种基于生成式人工智能的去隐私方法和系统 Download PDF

Info

Publication number
CN115357941A
CN115357941A CN202211288243.0A CN202211288243A CN115357941A CN 115357941 A CN115357941 A CN 115357941A CN 202211288243 A CN202211288243 A CN 202211288243A CN 115357941 A CN115357941 A CN 115357941A
Authority
CN
China
Prior art keywords
data
target data
privacy
training
generative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211288243.0A
Other languages
English (en)
Other versions
CN115357941B (zh
Inventor
王舸
岑忠培
赵雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Quante Evolution Technology Co ltd
Original Assignee
Beijing Quante Evolution Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Quante Evolution Technology Co ltd filed Critical Beijing Quante Evolution Technology Co ltd
Priority to CN202211288243.0A priority Critical patent/CN115357941B/zh
Publication of CN115357941A publication Critical patent/CN115357941A/zh
Application granted granted Critical
Publication of CN115357941B publication Critical patent/CN115357941B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于生成式人工智能的去隐私方法和系统,所述方法包括:对目标数据进行特征编码、约束差分计算和归一化处理;基于处理后的目标数据根据监控指标对生成式对抗网络进行训练;将随机变量输入所述生成式对抗网络,得到所述目标数据的合成数据;对所述目标数据和所述目标数据的合成数据进行统计特征和覆盖范围的计算,若满足设定条件,则确定为待测试数据;对所述目标数据和所述待测试数据进行连接攻击,若满足设定条件,则将所述目标数据的合成数据确定为所述目标数据的去隐私数据。高效且高质量的对数据进行去隐私处理。

Description

一种基于生成式人工智能的去隐私方法和系统
技术领域
本申请实施例涉及数据安全技术领域,具体涉及一种基于生成式人工智能的去隐私方法和系统。
背景技术
当前随着人工智能、物联网及大数据技术的发展,数据的隐私需求越来越强烈。隐私本质上是一种信息,一种属于私人不愿意为他们知晓或者干涉的信息。当个人隐私数据提供给某些群体使用,所有权和使用权产生了分离。此时若对隐私数据不加以保护,个人隐私数据可能有意无意地被不必要的人看到和扩散,甚至或造成滥用。
随着人工智能技术在隐私领域的应用发展,越来越多的专家意识到生成式人工智能可以有效地帮助数据进行隐私处理,高维匿名化技术可以从根本上解决数据被泄露的隐患。现有生成对抗模型(GAN)等生成式人工智能学习训练数据的高维统计特性,在保证数据可用性的前提下实现匿名化,不会被隐私攻击手段攻破。
传统的结构化数据去识别技术包括脱敏技术、K匿名、差分隐私等;这些技术都存在着一些问题和缺陷,例如脱敏技术按照预设的规则或者变换算法进行数据变换,从而使得个人身份无法识别或者直接隐去敏感信息,导致脱敏后的数据会出现一定程度上的信息损耗。k-匿名技术则容易被一些隐私攻击手段攻破。差分隐私由于引入了随机数因此会造成一定程度上的信息损失,降低数据的可用性。
发明内容
为此,本申请实施例提供一种基于生成式人工智能的去隐私方法和系统,高效且高质量的对数据进行去隐私处理。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,提供了一种基于生成式人工智能的去隐私方法,所述方法包括:
对目标数据进行特征编码、约束差分计算和归一化处理;
基于处理后的目标数据根据监控指标对生成式对抗网络进行训练;
将随机变量输入所述生成式对抗网络,得到所述目标数据的合成数据;
对所述目标数据和所述目标数据的合成数据进行统计特征和覆盖范围的计算,若满足设定条件,则确定为待测试数据;
对所述目标数据和所述待测试数据进行连接攻击,若满足设定条件,则将所述目标数据的合成数据确定为所述目标数据的去隐私数据。
可选地,在对目标数据进行特征编码、约束差分计算和归一化处理之前,所述方法还包括:
对所述目标数据进行离群点去除和缺失数据插补。
可选地,基于处理后的目标数据根据监控指标对生成式对抗网络进行训练,包括:
基于处理后的目标数据,根据监控指标对所述生成式对抗网络的训练过程进行控制,经过多次迭代和超参调整,学习出生成式对抗网络的参数,以完成所述生成式对抗网络的训练。
可选地,所述监控指标按照如下公式计算:
Figure 809073DEST_PATH_IMAGE001
Figure 822029DEST_PATH_IMAGE002
Figure 501272DEST_PATH_IMAGE003
其中,E和G为数据集,
Figure 916073DEST_PATH_IMAGE004
为E和G数据集分布之间的距离,若E数据集中任意一个点Ei距离最近的第L个点来自于数据集E∪G,则1Ei(l)取值为1,否则为0。
可选地,所述生成式对抗网络是按照如下公式构建:
Figure 923867DEST_PATH_IMAGE005
其中,
Figure 955277DEST_PATH_IMAGE006
表示最小化生成器G(generator)的损失函数值同时最大化判别器D(discriminator)的损失函数值;x∼pdata(x)表示从真实的数据分布pdata(x)中采样出样本x,D(x)表示样本x通过判别器后的结果, z∼pz(z)表示从分布pz(z)中抽取一个随机数z,G(z)表示随机数z通过生成器G后的合成数据。
根据本申请实施例的第二方面,提供了一种基于生成式人工智能的去隐私系统,所述系统包括:
强约束模块,用于对目标数据进行特征编码、约束差分计算和归一化处理;
训练模块,用于基于处理后的目标数据根据监控指标对生成式对抗网络进行训练;
合成数据确定模块,用于将随机变量输入所述生成式对抗网络,得到所述目标数据的合成数据;
特征计算模块,用于对所述目标数据和所述目标数据的合成数据进行统计特征和覆盖范围的计算,若满足设定条件,则确定为待测试数据;
连接攻击模块,用于对所述目标数据和所述待测试数据进行连接攻击,若满足设定条件,则将所述目标数据的合成数据确定为所述目标数据的去隐私数据。
可选地,所述系统还包括:
预处理模块,用于对所述目标数据进行离群点去除和缺失数据插补。
可选地,所述训练模块,具体用于:
基于处理后的目标数据,根据监控指标对所述生成式对抗网络的训练过程进行控制,经过多次迭代和超参调整,学习出生成式对抗网络的参数,以完成所述生成式对抗网络的训练。
根据本申请实施例的第三方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。
综上所述,本申请实施例提供了一种基于生成式人工智能的去隐私方法和系统,通过对目标数据进行特征编码、约束差分计算和归一化处理;基于处理后的目标数据根据监控指标对生成式对抗网络进行训练;将随机变量输入所述生成式对抗网络,得到所述目标数据的合成数据;对所述目标数据和所述目标数据的合成数据进行统计特征和覆盖范围的计算,若满足设定条件,则确定为待测试数据;对所述目标数据和所述待测试数据进行连接攻击,若满足设定条件,则将所述目标数据的合成数据确定为所述目标数据的去隐私数据。高效且高质量的对数据进行去隐私处理。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本申请实施例提供的一种基于生成式人工智能的去隐私方法流程示意图;
图2为本申请实施例提供的GAN结构示意图;
图3为本申请实施例提供的连接攻击示意图;
图4为本申请实施例提供的数据交互示意图;
图5为本申请实施例提供的一种基于生成式人工智能的去隐私系统框图;
图6示出了本申请实施例提供的一种电子设备的结构示意图;
图7示出了本申请实施例提供的一种计算机可读存储介质的示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
传统的数据脱敏方法,直接将需要去隐私的特征通过加密、特殊编码、随机化、数据变换等手段在一定程度上隐匿掉,但是数据泄露的风险仍然存在。脱敏技术对敏感信息按照预设的规则或者变换算法进行数据变换,从而使得个人身份无法识别或者直接隐去敏感信息,导致脱敏后的数据会出现一定程度上的信息损耗。同时,传统脱敏技术只能在一定程度上保护隐私,并不能完全从技术上保证数据的安全。
k-匿名隐私保护模型要求每条记录在数据中都至少能查到k-1条一样的记录,这样做可以让攻击方猜中隐私的概率只有1/k。也就是说,每个人的隐私数据隐藏在k个相似的记录中。k-匿名化技术可以有效缓解链接攻击的风险。但k-匿名技术容易被一些隐私攻击手段攻破。k-匿名需要为数据中的每个准标识符建立一个分类树,这往往需要领域专家的干预。即使分类是自动化生成的,则根据用例的不同,每个属性的泛化级别可能会有所不同。
差分隐私则是在查询的结果或者共享数据之前,注入部分噪声,使得攻击者无法准确地判断某一样本是否在隐私数据集中。差分隐私技术允许从数据集中抽取有意义的分析,同时保护个人隐私。差分隐私的关键技术是将隐私程度的可量化度量,而不是二元逻辑,从而可以对每个不同的私有分析进行调优,以提供更多或者更少的隐私。差分隐私由于引入了随机数因此会造成一定程度上的信息损失,降低数据的可用性。在保护隐私的同时,确定隐私损失参数具有较高的效用仍然是一大挑战。差分隐私技术中的隐私保障仅适用于有限数量的查询,设计能够处理任意数量查询的隐私保护机制有待提升。同时差分隐私容易受到侧信道攻击,在这种攻击中,对手可以通过监视侧信道来了解有关数据的特征和事实。
现有生成对抗模型等生成式人工智能学习训练数据的高维统计特性,在保证数据可用性的前提下生成具有和原始数据集相同的统计属性的合成数据集,不容易被隐私攻击手段攻破。在离线非交互模式中,使用与原始数据集具有相同统计特性的生成对抗模型生成合成数据集。发布合成数据集后,原始数据不再扮演任何角色。同时,使用合成数据库,重新识别个体变得困难。这样的合成数据还可以共享用于执行外包研发和质量分析。
本申请实施例针对传统匿名化方法中存在的诸多不足,提供了基于生成式人工智能的去隐私方法,主要包括如下几个方面:对原始的样本数据进行高维度的匿名化学习,合成海量与原始数据分布一致的样本数据,这种学习不是简单的复制,而是对数据的高维特征进行学习,保证特征和数据间的各阶统计特征。还引入“先验经验约束技术”,强化数据间的约束关系,使得GAN网络可以学习到数据特征或数据间的约束关系或相关性。使用多个监控指标,用以监控GAN网络在训练中的表现情况,实时反映模型的训练情况,为训练何时停止提供依据。构建了多个事后评价指标和隐私攻击方法,用以评估数据的生成质量和数据的隐私程度。
图1示出了本申请实施例提供的基于生成式人工智能的去隐私方法,所述方法包括如下步骤:
步骤101:对目标数据进行特征编码、约束差分计算和归一化处理;
步骤102:基于处理后的目标数据根据监控指标对生成式对抗网络进行训练;
步骤103:将随机变量输入所述生成式对抗网络,得到所述目标数据的合成数据;
步骤104:对所述目标数据和所述目标数据的合成数据进行统计特征和覆盖范围的计算,若满足设定条件,则确定为待测试数据;
步骤105:对所述目标数据和所述待测试数据进行连接攻击,若满足设定条件,则将所述目标数据的合成数据确定为所述目标数据的去隐私数据。
在一种可能的实施方式中,在步骤101在对目标数据进行特征编码、约束差分计算和归一化处理之前,所述方法还包括:
对所述目标数据进行离群点去除和缺失数据插补。
在一种可能的实施方式中,在步骤102中,基于处理后的目标数据根据监控指标对生成式对抗网络进行训练,包括:
基于处理后的目标数据,根据监控指标对所述生成式对抗网络的训练过程进行控制,经过多次迭代和超参调整,学习出生成式对抗网络的参数,以完成所述生成式对抗网络的训练。
在一种可能的实施方式中,所述监控指标按照如下公式计算:
Figure 234949DEST_PATH_IMAGE001
Figure 973098DEST_PATH_IMAGE002
Figure 148864DEST_PATH_IMAGE003
其中,E和G为数据集,
Figure 136412DEST_PATH_IMAGE004
为E和G数据集分布之间的距离,若E数据集中任意一个点Ei距离最近的第L个点来自于数据集E∪G,则1Ei(l)取值为1,否则为0。
在一种可能的实施方式中,所述生成式对抗网络是按照如下公式构建:
Figure 219774DEST_PATH_IMAGE005
其中,
Figure 549780DEST_PATH_IMAGE006
表示最小化生成器G(generator)的损失函数值同时最大化判别器D(discriminator)的损失函数值;x∼pdata(x)表示从真实的数据分布pdata(x)中采样出样本x,D(x)表示样本x通过判别器后的结果, z∼pz(z)表示从分布pz(z)中抽取一个随机数z,G(z)表示随机数z通过生成器G后的合成数据。
本申请实施例提供的方法使用先验经验约束技术强化数据间的约束关系,并输入到GAN网络中,使得GAN网络可以学习到数据特征或数据间的约束关系或相关性。保证了合成数据满足数据间相关性和特征间的约束关系,保证合成数据的各阶统计特性与原始数据的一致;还使用多个监控指标,用以监控GAN网络在训练中的表现情况,实时反映模型的训练情况,为训练何时停止提供依据。还通过使用多个事后评价指标,评估数据的生成质量和数据的隐私程度。
下面结合附图对本申请实施例提供的方法进行详细说明。
首先定义隐私数据的部分概念,数据以结构化表格的形式表示,每一行表示一条样本数据,每列代表数据的属性或特征。每一条数据与一个特定用户/个体关联。将隐私数据的特征分为三类:
(1)唯一标识符:用以识别隐私个体的唯一标识,此标识与这个隐私个体一一对应,比如身份证号、电话等,这些内容需要公开数据的时候不予展示,通常使用遮蔽或干扰对这类特征进行屏蔽;
(2)准标识符:如邮编、年龄、生日等不是唯一的,但是能帮助研究人员管理相关数据的标识,这一类特征是介于唯一标识符和非敏感数据之间,有泄露隐私的可能性,往往隐私攻击是针对这一类特征展开的。
(3)非敏感数据:可以被直接公开的特征,没有泄露隐私的可能,如序号等。
本申请实施例的核心是使用生成对抗网络等一系列深度学习模型,用以训练各类结构化的隐私数据。主要包括:事前数据预处理,先验经验约束技术,事中模型训练监控、事后数据生成质量评估、隐私攻击测试等模块。可以具体分解为以下几个方面:
第一方面,对原始数据进行评估和清洗,识别原始样本中的空值、奇异值等,并利用清洗技术对空值和奇异值进行插值补全或删减。
数据的预处理部分,需要对异常值进行检测。离群点是由于数据的不断爆炸以及各类数据采集设备的普及,由各类人为或非人为的干扰,使得数据本身有许多离群点,这些离群点可能明显与正确的数据样本有差异,而海量的数据又无法用人力去识别,因此异常值检测成为了数据挖掘的必要步骤。检测模型包括孤立森林策略(Isolation Forest)、随机森林(Random Forest)等非监督类学习模型,这些模型可以根据数据本身的特性,将一些明显的离群点识别出来。
缺失数据的插补是指根据数据特点选择一个数代替缺失,不同的插补法会对总体样本的分布产生较大的影响,尤其是在缺失值较多的情况。在处理时采用以下几种方法:个案剔除法(Listwise Deletion)、均值/常数替换法(Mean Imputation)、回归替换法(Regression Imputation);具体使用那种方法需要结合数据本身的属性和特点,并基于专家经验进行处理,保证数据在补全后能尽可能的保留数据本身的属性,并提高数据在下游的神经网络模型中的可学习性。
第二方面,对数据进行处理、编码、转换等处理,引入强约束的先验经验。
先验经验约束技巧包括数据编码、约束差分,这些操作是一个把专家先验经验注入给数据的过程,将数据间的相关性和数据特征间的约束关系以显性的方式告诉模型,这样下游的模型可以更轻松地学习到数据高维的统计特性。
数据编码是指将离散类数据连续化,将连续化数据离散化,或将离散数据进行one-hot编码。举例说明身份证的先验经验植入,根据先验经验身份证的前六位是出生所在地址,比如某个样本的所在市是“武汉”那么所在省份是“湖北”,由于这两个特征有非常明确的约束关系,分别合成省份和所在市两个特征,容易形成张冠李戴的现象,“武汉”可能和“湖南”同时出现在同一样本中;针对这种情况可以将两个特征合并编码,遍历所有省份+市,统一编码成分类特征这一新的特征与所在省市一一对应,因此合成出来的数据就可以保证特征的强约束关系。接着是8位数的出生日期编码,出生年份“19XX~20XX”这样一个4位数字可以转化为00~99的2位数字,深度学习网络作为一个非线性映射数据的不同编码可容易学习到这一特征,且可以保证此特征不会超过0~99这一范围。
约束差分是指将特征间的强约束关系进行差分计算处理,把得到的差分值用来训练生成模型,使得生成的数据满足一致性的约束条件。保证生成出的数据绝对满足此约束,比如有些金融时间序列,时序前后两个值要满足强约束关系,例如国内的股票数据,前后两天的价格比值不超过±10%,那么直接生成价格则非常容易炒股这一强约束关系,但将价格序列转成对数收益率(一种时序上的差分技巧)就可以把问题大大简化。
紧接着采用归一化手段对数据进行整理,这里一般采用z-score、min_max、3σ等方法对数据进行归一化/标准化处理,这样处理同样是为了让数据具备更强的可学习性。
事前数据强约束先验经验处理技术,可以使合成数据满足数据间相关性和特征间的约束关系,保证合成数据的各阶统计特性与原始数据保证一致。
第三方面,搭建生成对抗网络模型。
本申请实施例的方法主要采用的神经网络是生成式对抗网络(GAN,GenerativeAdversarialNetworks)模型及其变种。
GAN模型框架中通常有两个模块:生成模型(Generative Model)和判别模型(Discriminative Model);生成模型负责对随机噪声进行处理,模拟出与真实训练样本类似的假数据;判别器则负责鉴别出训练样本中由生成器生成的假数据;两个模型相互博弈、学习,最终生成器生产的假数据将足以以假乱真,具体GAN结构如图2所示。
判别器D和生成器G都是神经网络结构,神经网络本质上是一个非线性映射,判别器是将原始的真实数据x或合成数据
Figure 896448DEST_PATH_IMAGE007
映射为一个标量,而生成器则是将一个随机噪声标量z映射为
Figure 636871DEST_PATH_IMAGE007
Figure 727186DEST_PATH_IMAGE008
如上述公式,GAN网络可以抽象为一个最优化问题如左式:最小化生成器G(generator)的损失函数值,同时最大化判别器D(discriminator)的损失函数值;右式x∼pdata(x)表示从真实的数据分布pdata(x)中采样出样本x,计算出样本x通过判别器后的结果D(x)这个结果取对数,同样z∼pz(z)表示从随时分布pz(z)中抽取一个随机数z,这个随机数会输入给生成器G得到一个合成数据G(z),接着送入判别器D中得到判别器的结果D(G(Z));对于判别器的最优状态,真实样本判断结果D(x)应为1,换言之判别器达到最优,
Figure 971086DEST_PATH_IMAGE009
应越大越好。
判别器D(discriminator)的损失函数
Figure 426338DEST_PATH_IMAGE010
生成器G(generator)的损失函数
Figure 388478DEST_PATH_IMAGE011
第四方面,利用原始数据对生成对抗网络进行训练,使用指标对模型的训练进行监控,经过多次迭代和超参调整,学习模型参数。
GAN模型的训练过程非常不稳定,训练的太少会使得模型结果不好,无法满足隐私数据的可用性,如果训练的太久会产生模式崩溃现象,因此在适当的时候停止训练是非常有必要的,这种操作也被称为“早停”,但是不同于有监督的训练模型,GAN的损失函数值变化非常难以琢磨,因此损失函数值无法作为是否实施“早停”的依据,正因此有效的监控指标对GAN模型的训练至关重要。
本申请实施例中监控指标有多种,这里用NNC(nearest neighbor coincidences,最近邻分类器)举例说明。
NNC定义如下:首先假设有两个数据集E和G,通过NNC去度量两个数据集分布之间的距离,如果E数据集中任意一个点Ei距离其最近的第L个点来自于数据集E∪G,那么1Ei(l)则取值为1,否则为0,另定义为:
Figure 282485DEST_PATH_IMAGE012
同理G数据集:
Figure 646470DEST_PATH_IMAGE013
接着定义NNC的值:
Figure 275553DEST_PATH_IMAGE014
当数据集E和G非常接近时,NNC值会趋近于0。如果在实际的训练操作中发现NNC的值趋近于0,可以提前“早停”保存模型参数进入下一步骤。
多个监控指标,用以监控GAN网络在训练中的表现情况,实时反映模型的训练情况,为训练何时停止提供依据。生成式人工智能模型训练技术,可以生成海量高仿真高质量的合成数据。
第五方面,生成大量高维匿名化去隐私数据;对合成的数据进行评价,测试数据的统计特征是否与原始数据保持一致。
给生成器输入一个随机变量,即可合成大量去隐私数据;检测合成数据是否保持了与原始数据一致的统计特性,同时检测合成数据在空间中对真实数据的覆盖程度,覆盖程度越高,说明合成数据越能展现原始数据的分布范围。
第六方面,使用隐私攻击手段,对合成数据的隐私程度进行评估。
另一方面则是测试数据是否保证了隐私,从合成数据出发是否可以回溯到原始数据。
采用比较经典的连接攻击作为说明。图3所示,连接攻击分为以下几个要点:(1)唯一标识符默认被匿名化隐藏;(2)使用真实数据的准标识符与合成数据准标识符进行匹配(求交集);(3)如有匹配结果则有隐私泄露的可能;(4)海量的合成数据会导致准标识符有匹配的可能,无法识别出唯一标识符,(一个真实数据对应多个合成数据,或者对应的标识符和非敏感数据不一致)因此不会泄露隐私。
通常会使用唯一标识符、准标识符和非敏感属性分别进行连接攻击,使用真实数据对合成数据的准标识符进行连接攻击,发现没有被匹配的数据(交集为空),说明合成数据通过了隐私检验没有泄露隐私。这种事后评价指标,用以评估数据的生成质量和数据的隐私程度。
在一种可能的实施方式中,本申请实施例提供的生成式人工智能有许多模型都可用于对数据做去隐私,包括WGAN、Diffusion Model。
Wasserstein GAN(WGAN)是为应对GAN的缺陷而提出的变式,部分解决了GAN模型存在的训练不收敛、判别器与生成器训练不同步、模式崩溃等问题。Wasserstein GANgradient penalty(WGAN-GP)是针对WGAN存在的问题提出来的,WGAN在处理Lipschitz限制条件时直接采用了weight clipping,就是每当更新完一次判别器的参数之后,就检查判别器的所有参数的绝对值有没有超过一个阈值。通过在训练过程中保证判别器的所有参数有界,就保证了判别器不能对两个略微不同的样本在判别上不会差异过大,从而间接实现了Lipschitz限制;WGAN-GP则是通过设置一个额外的loss惩罚项来直接实现Lipschitz限制,部分解决了WGAN存在的问题。
Diffusion Model则是通过定义一个扩散步骤,慢慢的将随机噪声添加到数据中,然后学习反向扩散过程的模型。模型中定义了两个过程,即从真实样本到高斯分布的Q过程。以及从高斯分布回到真实样本分布的P过程。Diffusion通过最小化生成高斯噪声与真实正态分布之间的距离来得到目标分布与正态分布之前的联系,进而实现可以通过高斯噪声来生成数据。如下图所示,Diffusion Model分为两个过程,其中Q过程是将一张图片逐渐变化到一个白噪声的过程,而P过程则是Q的逆过程,当P过程被确认之后,就可以利用此过程将任意的白噪声合成为一张图片。此模型并不存在判别器Discriminator,所以模型的学习并非是对抗过程,而是有目标的学习过程,因此属于有监督学习范畴。Diffusion提供了比GAN网络更加稳定的生成方式,可以更好的合成隐私样本数据。但是P过程与Q过程的链条可能相对较长,训练难度更大。
本申请实施例提供的方法使用先验经验约束技术强化数据间的约束关系,并输入到GAN网络中,使得GAN网络可以学习到数据特征或数据间的约束关系或相关性。保证了合成数据满足数据间相关性和特征间的约束关系,保证合成数据的各阶统计特性与原始数据的一致;还使用多个监控指标,用以监控GAN网络在训练中的表现情况,实时反映模型的训练情况,为训练何时停止提供依据。还通过使用多个事后评价指标,评估数据的生成质量和数据的隐私程度。
图4展示了本申请实施例所需要的三层交互结构,分别为”数据评价层”,”数据处理层”和”模型构建层”。整个架构模仿了网络传输的结构,构建了生成数据的封包和解包过程。
数据评价层:在封包阶段负责对真实数据进行数据检测和修复,主要职能有,对数据的完整性进行校验,提取数据的基本信息,检测数据是否有空值,奇异值等情况,并针对不同的缺失情况进行修复提供给下游完备良好的数据。
数据评价层在解包过程中主要负责对已经生成的合成数据进行按条件的数据筛选,已经对其质量的评价工作。
数据处理层:只要负责从评价层拿到完备数据,在数据模型之前将其处理为模型可用已经方便计算的形式,在封包阶段,负责对数据进行预处理,常见的有归一化,标准化处理,哑编码,二进制编码,离散化处理等。在解包的阶段主要负责对生成数据进行反处理,即预处理的可逆变换。变换为人类可读的内容。
模型构建层:这一层的主要职能在根据不同数据的结构与特性,匹配或者人工选择最适合的模型,并将其输入尺寸
与数据尺寸相匹配。并训练数据。在封包阶段,该层主要负责对数据匹配适合的模型,在解包阶段,该层主要负责用训练好的模型进行合成数据的生成;这一层之下是整个架构的核心,就是模型的训练部分,其中无人工干预链条,包含自动训练,自动调参技术。也可以提供人工介入,让专业人员进行辅助调参。
综上所述,本申请实施例提供了一种基于生成式人工智能的去隐私方法,通过对目标数据进行特征编码、约束差分计算和归一化处理;基于处理后的目标数据根据监控指标对生成式对抗网络进行训练;将随机变量输入所述生成式对抗网络,得到所述目标数据的合成数据;对所述目标数据和所述目标数据的合成数据进行统计特征和覆盖范围的计算,若满足设定条件,则确定为待测试数据;对所述目标数据和所述待测试数据进行连接攻击,若满足设定条件,则将所述目标数据的合成数据确定为所述目标数据的去隐私数据。高效且高质量的对数据进行去隐私处理。
基于相同的技术构思,本申请实施例还提供了一种基于生成式人工智能的去隐私系统,如图5所示,所述系统包括:
强约束模块501,用于对目标数据进行特征编码、约束差分计算和归一化处理;
训练模块502,用于基于处理后的目标数据根据监控指标对生成式对抗网络进行训练;
合成数据确定模块503,用于将随机变量输入所述生成式对抗网络,得到所述目标数据的合成数据;
特征计算模块504,用于对所述目标数据和所述目标数据的合成数据进行统计特征和覆盖范围的计算,若满足设定条件,则确定为待测试数据;
连接攻击模块505,用于对所述目标数据和所述待测试数据进行连接攻击,若满足设定条件,则将所述目标数据的合成数据确定为所述目标数据的去隐私数据。
在一种可能的实施方式中,所述系统还包括:
预处理模块,用于对所述目标数据进行离群点去除和缺失数据插补。
在一种可能的实施方式中,所述训练模块,具体用于:
基于处理后的目标数据,根据监控指标对所述生成式对抗网络的训练过程进行控制,经过多次迭代和超参调整,学习出生成式对抗网络的参数,以完成所述生成式对抗网络的训练。
本申请实施方式还提供一种与前述实施方式所提供的方法对应的电子设备。请参考图6,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。所述电子设备20可以包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个物理端口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质,请参考图7,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器( DSP )来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于生成式人工智能的去隐私方法,其特征在于,所述方法包括:
对目标数据进行特征编码、约束差分计算和归一化处理;
基于处理后的目标数据根据监控指标对生成式对抗网络进行训练;
将随机变量输入所述生成式对抗网络,得到所述目标数据的合成数据;
对所述目标数据和所述目标数据的合成数据进行统计特征和覆盖范围的计算,若满足设定条件,则确定为待测试数据;
对所述目标数据和所述待测试数据进行连接攻击,若满足设定条件,则将所述目标数据的合成数据确定为所述目标数据的去隐私数据。
2.如权利要求1所述的方法,其特征在于,在对目标数据进行特征编码、约束差分计算和归一化处理之前,所述方法还包括:
对所述目标数据进行离群点去除和缺失数据插补。
3.如权利要求1所述的方法,其特征在于,基于处理后的目标数据根据监控指标对生成式对抗网络进行训练,包括:
基于处理后的目标数据,根据监控指标对所述生成式对抗网络的训练过程进行控制,经过多次迭代和超参调整,学习出生成式对抗网络的参数,以完成所述生成式对抗网络的训练。
4.如权利要求1所述的方法,其特征在于,所述监控指标按照如下公式计算:
Figure DEST_PATH_IMAGE001
Figure 39982DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
其中,E和G为数据集,
Figure 38025DEST_PATH_IMAGE004
为E和G数据集分布之间的距离,若E数据集中任意一个点Ei距离最近的第L个点来自于数据集E∪G,则1Ei(l)取值为1,否则为0。
5.如权利要求1所述的方法,其特征在于,所述生成式对抗网络是按照如下公式构建:
Figure DEST_PATH_IMAGE005
其中,
Figure 345028DEST_PATH_IMAGE006
表示最小化生成器G(generator)的损失函数值同时最大化判别器D(discriminator)的损失函数值;x∼pdata(x)表示从真实的数据分布pdata(x)中采样出样本x,D(x)表示样本x通过判别器后的结果, z∼pz(z)表示从分布pz(z)中抽取一个随机数z,G(z)表示随机数z通过生成器G后的合成数据。
6.一种基于生成式人工智能的去隐私系统,其特征在于,所述系统包括:
强约束模块,用于对目标数据进行特征编码、约束差分计算和归一化处理;
训练模块,用于基于处理后的目标数据根据监控指标对生成式对抗网络进行训练;
合成数据确定模块,用于将随机变量输入所述生成式对抗网络,得到所述目标数据的合成数据;
特征计算模块,用于对所述目标数据和所述目标数据的合成数据进行统计特征和覆盖范围的计算,若满足设定条件,则确定为待测试数据;
连接攻击模块,用于对所述目标数据和所述待测试数据进行连接攻击,若满足设定条件,则将所述目标数据的合成数据确定为所述目标数据的去隐私数据。
7.如权利要求6所述的系统,其特征在于,所述系统还包括:
预处理模块,用于对所述目标数据进行离群点去除和缺失数据插补。
8.如权利要求6所述的系统,其特征在于,所述训练模块,具体用于:
基于处理后的目标数据,根据监控指标对所述生成式对抗网络的训练过程进行控制,经过多次迭代和超参调整,学习出生成式对抗网络的参数,以完成所述生成式对抗网络的训练。
9.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行以实现如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1-5任一项所述的方法。
CN202211288243.0A 2022-10-20 2022-10-20 一种基于生成式人工智能的去隐私方法和系统 Active CN115357941B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211288243.0A CN115357941B (zh) 2022-10-20 2022-10-20 一种基于生成式人工智能的去隐私方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211288243.0A CN115357941B (zh) 2022-10-20 2022-10-20 一种基于生成式人工智能的去隐私方法和系统

Publications (2)

Publication Number Publication Date
CN115357941A true CN115357941A (zh) 2022-11-18
CN115357941B CN115357941B (zh) 2023-01-13

Family

ID=84008381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211288243.0A Active CN115357941B (zh) 2022-10-20 2022-10-20 一种基于生成式人工智能的去隐私方法和系统

Country Status (1)

Country Link
CN (1) CN115357941B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116011422A (zh) * 2023-03-28 2023-04-25 北京宽客进化科技有限公司 一种结构化表格数据生成方法和系统
CN116306543A (zh) * 2023-05-25 2023-06-23 北京泛钛客科技有限公司 一种基于生成式对抗网络的表格数据生成方法及系统
CN116633688A (zh) * 2023-07-21 2023-08-22 北京金睛云华科技有限公司 一种aigc服务隐私保护方法和设备
CN117097574A (zh) * 2023-10-19 2023-11-21 网御安全技术(深圳)有限公司 生成式人工智能服务的数据传输系统、方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336471A1 (en) * 2017-05-19 2018-11-22 Mehdi Rezagholizadeh Semi-supervised regression with generative adversarial networks
CN111582348A (zh) * 2020-04-29 2020-08-25 武汉轻工大学 条件生成式对抗网络的训练方法、装置、设备及存储介质
EP3979138A1 (en) * 2020-09-30 2022-04-06 Deutsche Telekom AG Method for data anonymization in a system, and system
CN114329549A (zh) * 2021-12-28 2022-04-12 上海交通大学 一种基于生成对抗网络的图像隐私保护方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336471A1 (en) * 2017-05-19 2018-11-22 Mehdi Rezagholizadeh Semi-supervised regression with generative adversarial networks
CN111582348A (zh) * 2020-04-29 2020-08-25 武汉轻工大学 条件生成式对抗网络的训练方法、装置、设备及存储介质
EP3979138A1 (en) * 2020-09-30 2022-04-06 Deutsche Telekom AG Method for data anonymization in a system, and system
CN114329549A (zh) * 2021-12-28 2022-04-12 上海交通大学 一种基于生成对抗网络的图像隐私保护方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116011422A (zh) * 2023-03-28 2023-04-25 北京宽客进化科技有限公司 一种结构化表格数据生成方法和系统
CN116011422B (zh) * 2023-03-28 2023-06-09 北京宽客进化科技有限公司 一种结构化表格数据生成方法和系统
CN116306543A (zh) * 2023-05-25 2023-06-23 北京泛钛客科技有限公司 一种基于生成式对抗网络的表格数据生成方法及系统
CN116633688A (zh) * 2023-07-21 2023-08-22 北京金睛云华科技有限公司 一种aigc服务隐私保护方法和设备
CN116633688B (zh) * 2023-07-21 2023-09-15 北京金睛云华科技有限公司 一种aigc服务隐私保护方法和设备
CN117097574A (zh) * 2023-10-19 2023-11-21 网御安全技术(深圳)有限公司 生成式人工智能服务的数据传输系统、方法及相关设备
CN117097574B (zh) * 2023-10-19 2024-01-26 网御安全技术(深圳)有限公司 生成式人工智能服务的数据传输系统、方法及相关设备

Also Published As

Publication number Publication date
CN115357941B (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN115357941B (zh) 一种基于生成式人工智能的去隐私方法和系统
CN107025596B (zh) 一种风险评估方法和系统
CN109902018B (zh) 一种智能驾驶系统测试案例的获取方法
CN106960358A (zh) 一种基于农村电子商务大数据深度学习的金融欺诈行为量化检测系统
CN115982765A (zh) 数据脱敏方法、装置、设备及计算机可读存储介质
CN108021806A (zh) 一种恶意安装包的识别方法和装置
CN110084468B (zh) 一种风险识别方法及装置
CN112149909A (zh) 船舶油耗预测方法、装置、计算机设备和存储介质
CN114048468A (zh) 入侵检测的方法、入侵检测模型训练的方法、装置及介质
CN112215398A (zh) 电力用户负荷预测模型建立方法、装置、设备及存储介质
EP3591561A1 (en) An anonymized data processing method and computer programs thereof
CN116340793A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN110009012B (zh) 一种风险样本识别方法、装置及电子设备
CN114912142A (zh) 一种数据脱敏方法、装置、电子设备及存储介质
CN113128612B (zh) 电力数据中异常值的处理方法及终端设备
CN116662186A (zh) 基于逻辑回归的日志回放断言方法及其装置、电子设备
CN114792007A (zh) 代码检测方法、装置、设备、存储介质和计算机程序产品
CN116011422A (zh) 一种结构化表格数据生成方法和系统
Xu The application of machine learning in Bitcoin ransomware family prediction
CN114881761A (zh) 相似样本的确定方法与授信额度的确定方法
CN110990876A (zh) 基于不变后随机响应技术的数据库敏感关联属性脱敏方法
Azzalini et al. E-FAIR-DB: functional dependencies to discover data bias and enhance data equity
Falchenko et al. Method of fuzzy classification of information with limited access
CN112632219A (zh) 一种垃圾短信的拦截方法和拦截装置
Bhat et al. A privacy preserved data mining approach based on k-partite graph theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant