CN114357714A - 面向结构化仿真数据的质量评估方法、系统和设备 - Google Patents
面向结构化仿真数据的质量评估方法、系统和设备 Download PDFInfo
- Publication number
- CN114357714A CN114357714A CN202111474996.6A CN202111474996A CN114357714A CN 114357714 A CN114357714 A CN 114357714A CN 202111474996 A CN202111474996 A CN 202111474996A CN 114357714 A CN114357714 A CN 114357714A
- Authority
- CN
- China
- Prior art keywords
- data
- simulation data
- simulation
- original
- privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 189
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013441 quality evaluation Methods 0.000 title abstract description 4
- 238000011156 evaluation Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims description 40
- 238000013507 mapping Methods 0.000 claims description 26
- 238000001303 quality assessment method Methods 0.000 claims description 26
- 230000000694 effects Effects 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007405 data analysis Methods 0.000 claims description 8
- 238000013479 data entry Methods 0.000 claims description 5
- 230000014759 maintenance of location Effects 0.000 claims description 5
- 238000010972 statistical evaluation Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 abstract description 10
- 238000010801 machine learning Methods 0.000 description 31
- 238000012360 testing method Methods 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012502 risk assessment Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002955 isolation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000586 desensitisation Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种面向结构化仿真数据的质量评估方法和系统,包括:根据原始数据构建仿真数据生成模型;数据拥有者使用包含隐私信息的原始数据对仿真数据生成模型进行训练,得到仿真数据;将原始数据和仿真数据输入评估系统,评估仿真数据的可用性和仿真数据的隐私性,选择质量最高的仿真数据发布;所述原始数据和仿真数据为结构化数据,由若干条数据记录组成,每条记录有若干字段,仿真数据的字段与原始数据的字段完全相同。本发明使用仿真数据代替原始数据参与数据流通进行质量评估,由于仿真数据的数据条目都是合成的,不与现实中的任何实体产生关联,也不需要其他的假设或先验知识,有效避免了隐私泄露的风险,评估全面、可靠,通用性好。
Description
技术领域
本发明涉及数据安全技术领域,具体涉及一种面向关系型数据库水印的适配方法、设备及存储介质。
背景技术
大数据时代,数据拥有者与合作者分享数据或对外发布数据是很常见的情况。传统的数据匿名化技术无法理想地保护隐私,对于拥有相关其他数据源知识的攻击者来说,很有可能推测出经过匿名化处理的标识符或准标识符,即重识别攻击;而数据匿名化技术则会大幅降低数据的可用性。
中国国家知识产权局公开的专利文献CN110222058A提出了一种基于FP-growth的多源数据关联隐私泄露风险评估系统,该系统需要与外部关联数据源进行关联分析,分析结果与收集的外部数据源高度相关,不具备通用性;而且仅能针对与外部数据源的关联性这一方面进行隐私评估,评估维度单一;公开的专利文献CN110287729A提出了一种面向数据使用需求的隐私泄露风险评估方法,该方法只能对于已知原始数据的隐私特征泄露风险进行评估,对于潜在的隐私风险无法评估;而且只能对于已知的数据操作风险进行评估,不具有扩展性;公开的专利文献CN107563204A提出了一种匿名数据的隐私泄露风险评估方法,也只能从几种攻击模型的攻击效果来得到风险评估结果,评估角度单一。公开的专利文献CN111382457A提出来一种数据风险评估方法和装置,该方法评估标识范围固定,仅能针对包含个人明文信息的数据集进行评估,适用范围窄;且评估结果由给定固定规则计算得到,随着时代的发展而逐步具有时效局限性。
上述公开的文献中,需要数据集的大量相关先验知识,如数据集的隐私属性、分析任务目标、相关联的数据集等;只能针对脱敏或匿名化处理后的数据集进行评估,不适用于对仿真数据进行评估;仅能从隐私性一个方面评估数据集,评估角度不足。
因此,有必要解决上述问题。
发明内容
本发明的目的在于克服上述现有技术的不足,提供了一种面向结构化仿真数据的质量评估方法、系统和设备。
第一方面,本发明实施例提供了一种面向结构化仿真数据的质量评估方法,该方法包括:
根据原始数据构建仿真数据生成模型;
数据拥有者使用包含隐私信息的原始数据对仿真数据生成模型进行训练,得到仿真数据;
将所述原始数据和所述仿真数据输入评估系统,评估所示仿真数据的可用性和所述仿真数据的隐私性,选择质量最高的仿真数据发布;
其中,所述原始数据和所述仿真数据为结构化数据,由若干条数据记录组成,每条记录有若干字段,所述仿真数据的字段与所述原始数据的字段完全相同。
第二方面,本发明实施例提供了一种面向结构化仿真数据的质量评估系统,包括:
可用性评估模块,用于评估使用仿真数据与使用原始数据在潜在的数据分析任务中效果相似程度;
仿真数据的隐私性评估模块,用于评估仿真数据暴露原始数据信息的风险程度。
第三方面,本发明实施例提供了一种终端设备,包括处理器、与所述处理器通信连接的存储器,以及,与网络设备进行通信的接口;其中,所述存储器上存储可在所述处理器上运行的计算机程序,以实现所述的面向结构化仿真数据的质量评估方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,用于存储计算机程序,所述计算机程序被处理器执行时实现所述的面向结构化仿真数据的质量评估方法中的步骤。
本发明具有下列技术效果:
(1)本发明面向数据拥有者通过仿真数据生成技术生成的仿真数据,针对数据拥有者的不同先验知识程度,从可用性和隐私性两个方面提出了一种面向结构化的仿真数据质量评估方法,使用仿真数据代替原始数据参与数据流通,由于仿真数据的数据条目都是合成的,不与现实中的任何实体产生关联,可确保处理后的数据足够保护隐私,有效避免了隐私泄露的风险。
(2)本发明是在仅有的原始数据和仿真数据的条件下进行质量评估,不需要其他的假设或先验知识,操作简单,通用性好。
(3)本发明采用可用性和隐私性综合评估,还可对数据用途的假设给出个性化的量化评估指标,评估全面、可靠,适用范围广。
附图说明
图1为本发明实施例提供的面向结构化仿真数据的质量评估方法流程图;
图2为本发明实施例提供的面向结构化仿真数据的质量评估方法中的模拟分析参数示意图;
图3为本发明实施例提供的面向结构化仿真数据的质量评估方法中的随机映射参数示意图;
图4为本发明实施例提供的面向结构化仿真数据的质量评估方法中的暴露风险参数示意图;
图5为本发明实施例提供的面向结构化仿真数据的质量评估系统示意图;
图6为本发明实施例的终端设备示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
术语说明:
FP-growth:一个用于关联分析的算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息。
FP-tree:一个称为频繁模式树的数据结构,全称为Frequent Pattern Tree。频繁模式树是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于此结构能够加快整个挖掘过程。
回归任务:给定一个样本,预测其目标值,其中目标值是连续值。
分类任务:给定一个样本,预测其目标值,其中目标值是离散值。
相关系数:相关关系是一种非确定性的关系,相关系数是研究变量之间线性相关程度的量。
K-means:一种数据挖掘领域的聚类分析方法,把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。
参见图1,本发明实施例提供了一种面向结构化仿真数据的质量评估方法,包括步骤:
S10根据原始数据生成仿真数据生成模型。
将原始数据中的每行记录转换成生成模型能够输入的向量的形式,由生成模型接收转换后数据的向量进行训练,最终输出仿真数据的向量形式,再经过数据转换的逆过程,得到结构化仿真数据生成模型。
S20数据拥有者使用包含隐私信息的原始数据对仿真数据生成模型进行训练,得到仿真数据。
传统的数据流通过程中保护隐私,需要对数据进行一定的脱敏和匿名化处理,再分享或发布。采用仿真数据代替原始数据参与数据流通,由于仿真数据的数据条目都是合成的,不与现实中的任何实体产生关联,因而不需要做匿名化或脱敏处理,较之传统的数据处理,采用仿真数据大幅降低了隐私泄露的风险。
S30将原始数据和仿真数据输入评估系统,用于评估仿真数据的可用性和评估仿真数据的隐私性,得到可用性和隐私性的若干指标值后,选择质量最高的仿真数据发布。
仿真数据作为原始数据的替代品,在数据挖掘分析中的效果是否能构与原始数据相当,需要对其进行质量评估,以使数据拥有者能够选择合适的仿真数据生成技术得到高质量的仿真数据。该步骤对仿真数据进行可用性评估,还要对处理后的数据进行隐私性方面的评估,即不能暴露原始数据的信息,以确保处理后的数据足够保护隐私。对仿真数据的隐私性与经过传统处理后的数据的隐私性要求相同。
输入评估系统时,原始数据和仿真数据都是结构化数据,由若干条数据记录组成,每条记录有若干字段,仿真数据的字段与原始数据完全相同。例如有一个学生成绩数据集存储某个班级的学生信息,则一条记录对应一个学生的信息,每条记录有学号、姓名、各科成绩等字段对应的变量。在数据的挖掘和分析中,大多数情况下只关注离散变量字段和连续变量字段。离散变量字段指该字段下的变量取值集合是有限集,如性别、籍贯;连续变量字段指该字段下的变量取值为某个值域内的数值,如年龄、成绩分数。具有分析意义的不属于离散变量和连续变量的其他字段通常可以拆分成离散变量字段和连续变量字段的组合,如地址字段可拆分成省、市等离散变量字段。本发明评估方法仅针对数据中的连续变量字段和离散变量字段。
在本发明一较佳的实施例中,用于评估仿真数据的可用性是根据使用仿真数据与使用原始数据在潜在的数据分析任务中效果的相似程度来评定。
具体地,所述评估仿真数据的可用性指标参数包括:模拟分析参数、关联评估参数、统计评估参数、随机映射参数。
所述模拟分析参数用于评估在特定分析任务中仿真数据和原始数据的效果相似程度,因此需要输入中包含希望该数据被用于某项分析任务的假设。该参数通过运行一些机器学习模型对指定的字段进行预测来模拟分析任务,参见图2,原始数据会被拆分成两部分,记为原始训练集Ttrain和测试集Ttest。仿真数据生成模型使用Ttrain进行训练并输出与Ttrain记录数量相同的仿真数据集Tsyn。然后使用Ttrain训练用于特定分析任务的机器学习模型,对某个字段进行预测,并使用Ttest测试机器学习模型,得到原始数据下的机器学习指标Porigin。接着使用Tsyn训练同样的机器学习模型,也使用Ttest测试机器学习模型,得到仿真数据下的机器学习指标Psyn。最后计算同一机器学习模型下的同一机器学习模型指标的差异,作为模拟分析参数的输出指标。
若仿真数据在该分析任务中的可用性越强,则机器学习模型指标与原始数据的差异应该是非常接近的,就意味着仿真数据在不同机器学习模型中都能达到与原始数据相似的效果。
其中机器学习模型包括:1)回归任务:多层感知机、线性回归;2)二分类任务:决策树、多层感知机、AdaBoost算法、逻辑回归;3)多分类任务:决策树、多层感知机。
其中机器学习指标包括:查全率、查准率、F1值、macro-F1值、R2值、AUC-ROC面积。
所述关联评估参数用于评估原始数据中的字段关联关系在仿真数据中的保留程度,不需要任何假设输入。例如学生成绩数据集中,学生的期末总评字段与各科成绩字段高度相关,而这种相关性在仿真数据中需要保留下来。该指标通过分别计算原始数据和仿真数据中字段间的关联度(表示两个变量关联程度的量),比较其差异来体现出关联关系的保留程度,具体计算过程如下。
原始数据中的字段集合记为A={a1,…,an},首先计算每两个字段间的关联度c,其中字段ai和字段aj的关联度记为ci,j。然后构造原始数据的相关矩阵Corigin,其中第i行第j列的元素为ci,j。同样地,构造仿真数据的相关矩阵Csyn,计算Corigin和Csyn的差异,作为该关联评估参数的输出指标。
其中关联度包括:皮尔森相关系数、肯德尔相关系数、斯皮尔曼等级相关系数、归一化互信息、戴尔不确定系数。
其中相关矩阵的差异计算方式包括:均方根误差、平均绝对误差、将相关矩阵中变量归一化后将矩阵视作灰度图计算峰值信噪比。
所述统计评估参数用于评估各字段中仿真数据与原始数据的统计量是否一致,不需要任何假设输入。例如学生成绩数据集中,学生期末总评字段的平均值为80,那么在仿真数据中该字段的平均值也应该接近80。该指标具体计算过程如下:
计算仿真数据与原始数据在对应属性下的均值、方差、累计分布的差值,得到统计相似性指标,作为该统计评估参数的输出指标。
当仿真数据与原始数据的统计量不一致时,数据拥有者可以选择其他的生成模型,或调整当前生成模型的参数,使得生成的仿真数据与原始数据更一致。
所述随机映射参数用于评估在不同的映射情况下,仿真数据与原始数据的相似程度,不需要任何假设输入。该指标构建多个随机映射器,每一个随机映射器的输入是记录,输出是该记录经过映射后的向量空间坐标。每一个随机映射器可以看作一个特定的分析任务,经过随机映射后的仿真数据在新向量空间里原始数据越接近,则该分析任务中仿真数据的可用性越强。若干次随机映射的差异的比较可以看作在多种分析任务中的可用性评估,最终结果即能更全面地反应仿真数据的可用性。该随机映射参数构建的示意图如图3所示。
参见图3,将仿真数据和原始数据输入到相同的随机映射器中,由于每条数据记录经过随机映射器后会被映射到新向量空间的一处坐标上,若用“点”来表示该记录的话,即可得到仿真数据和原始数据在新向量空间里的点阵。然后计算该随机映射器下的新向量空间中仿真数据点阵和原始数据点阵的分布差异。最后在构造出的若干随机映射器下都如此计算一遍点阵的分布差异,取这些差异的均值、方差,作为该随机映射参数的输出指标。
其中差异的计算方式指:1)首先使用原始数据点阵训练K-means聚类算法,将原始数据的点阵聚成若干类,统计每一类中数据点的数量;然后将训练好的K-means聚类算法应用于仿真数据点阵上,同样地统计每一类中数据点的数量;接着统计仿真数据点和原始数据点的数量差值大于标准误差的类的数量,称为NDC(Number of Statistically-Different Categories)差异;最后将原始数据点阵聚类后的类按照其中数据点的数量进行升序排列,并把该排序下每个类的原始数据点数量作为一个分布列,记为Xorigin,把该排序下每个类的仿真数据点数量作为另一个分布列,记为Xsyn,计算Xorigin和Xsyn的Kullback-Leibler散度、Jensen–Shannon散度、Wasserstein距离、最大均值差异。NDC差异、Kullback-Leibler散度、Jensen–Shannon散度、Wasserstein距离、最大均值差异都作为该随机映射参数中的差异指标。
在本发明一较佳的实施例中,用于评估仿真数据的隐私性是指评估仿真数据暴露原始数据信息的风险程度。在传统的数据匿名化或脱敏处理中,数据的匿名部分被恶意者推断出来则表示高泄露风险;而仿真数据的所有信息都是合成的,对隐私性要求则更高,只要暴露原始数据的信息,就存在泄露风险。
具体地,所述仿真数据的隐私性评估指标参数包含:隐私预测参数、成员推断参数、暴露风险参数、随机映射参数。以下将对这些参数及计算指标详细说明。
所述隐私预测参数用于评估特定分析任务中恶意分析者对隐私字段的真实预测效果,因此需要输入中包含不希望该数据被用于某项分析任务的假设。该场景下仿真数据的隐私性则代表防御恶意分析任务的效果。该参数通过运行一些机器学习模型对指定的字段进行预测来模拟分析任务。
与所述模拟分析指标类似,原始数据会被拆分成两部分,记为原始训练集Ttrain和测试集Ttest。仿真数据生成模型使用Ttrain进行训练并输出与Ttrain记录数量相同的仿真数据集Tsyn。然后使用Ttrain训练用于恶意分析任务的机器学习模型,对某个数据拥有者假设的隐私字段进行预测,并使用Ttest测试机器学习模型,得到原始数据下的机器学习指标Porigin。接着使用Tsyn训练同样的机器学习模型,也使用Ttest测试机器学习模型,得到仿真数据下的机器学习指标Psyn。最后计算同一机器学习模型下的同一机器学习模型指标的差异,作为隐私预测参数的输出指标。
若仿真数据在该恶意分析任务中的隐私性越强,则机器学习模型指标与原始数据的差异越大,即在仿真数据中的恶意分析效果很好,但在原始数据上的恶意分析效果很差,就意味着仿真数据在不同机器学习模型中都能防御恶意分析任务。
其中机器学习模型包括:1)回归任务:多层感知机、线性回归;2)二分类任务:决策树、多层感知机、AdaBoost算法、逻辑回归;3)多分类任务:决策树、多层感知机。
其中机器学习指标包括:查全率、查准率、F1值、macro-F1值、R2值、AUC-ROC面积。
所述成员推断参数用于评估仿真数据防御成员推断攻击的能力,因此不需要任何假设输入。成员推断攻击是指给定数据记录和已完成训练的攻击目标模型的黑盒访问权限(仅能控制输入并得到输出),确定该记录是否在攻击目标模型的训练数据集中。该指标通过构造一个攻击者模型,对仿真数据对应的生成模型进行攻击,通过评估攻击效果反映仿真数据的隐私性。
在具体说明攻击者模型前,首先说明仿真数据生成模型。仿真数据生成模型通常是生成对抗网络中的生成器或变分自编码器,两者都需要输入噪声向量z(通常采样自正态分布),输出一个仿真记录。攻击模型的输入为待攻击的数据记录,输出噪声向量z′,损失函数为将z′输入生成模型后得到的仿真记录与待攻击的数据记录的差异。然后使用仿真数据生成模型的输入噪声z和输出的仿真记录对攻击模型进行训练,得到训练好的攻击模型。最后使用攻击模型对仿真数据的生成模型进行攻击,计算攻击模型的机器学习性能指标,作为该评估指标的输出。其中机器学习指标包括:查全率、查准率、F1值、macro-F1值、R2值、AUC-ROC面积。
攻击模型是构建一个噪声向量z′,将z′输入到仿真数据的生成模型中,并得到仿真记录,若该仿真记录与待攻击记录非常相似,则认为待攻击记录在生成模型的训练集中,反之则不在。其攻击思想为:仿真数据的生成模型倾向于生成与训练集记录相似的仿真记录,因此很容易就能构建出一个噪声向量作为生成模型的输入,使其输出与训练集记录相似的仿真记录。而不在训练集中的数据记录,生成模型因为没有用其训练过,则很难构建出与其相似的仿真记录,那么也就很难构建出一个噪声向量作为生成模型的输入,使其输出与非训练集记录相似的仿真记录。
所述暴露风险参数用于关注仿真数据记录暴露原始数据条目的风险程度,不需要任何假设输入。若某个仿真数据记录与某个原始数据记录非常相似,那么该条仿真数据记录暴露对应的原始数据记录的风险很大。在该参数中,通过计算仿真记录与原始记录的距离来量化评估该风险程度。
首先使用主成分分析方法对原始数据进行分析,得到每条原始数据记录的第一主成分和第二主成分,并将第一主成分作为平面直角坐标系中的x轴坐标,第二主成分作为y轴,即将每条原始数据记录降至二维,并看作一个平面直角坐标系中的坐标点。然后使用原始数据下的主成分分析对仿真数据进行分析,也将每条仿真记录看作坐标点,其示意图见图5。
该参数计算每个仿真记录与其距离最近的原始记录的距离(如图4中实线箭头指引线长度),记为DCR(Distance to Closest Record),该距离若为0则表示泄露了全部的原始记录的信息;计算每个仿真记录与其距离最近的原始记录的距离(如图4中实线箭头指引线长度)和与该仿真记录距离次近的原始记录的距离(如图4中虚线箭头指引长度)的比值,记为NNDR(Nearest Neighbour Distance Ratio),该指标越接近1则表示越高的隐私性,越低则越可能暴露与其最接近的原始记录的敏感信息。
DCR、NNDR作为暴露风险评估的输出指标。
所述随机映射参数与可用性评估指标中的随机映射一致,仅计算方法不同。以下仅说明计算的不同之处,对该指标的架构不再赘述。该参数通过计算每个仿真数据点的孤立程度来判断隐私性,一个仿真数据点孤立程度越大,越表示仿真数据生成模型“记住”了某条与众不同的原始记录,并在某条仿真记录中暴露了其信息。
同样参见图3,将仿真数据输入到随机映射器中,由于每条数据记录经过随机映射器后会被映射到新向量空间的一处坐标上,若用“点”来表示该记录的话,即可得到仿真数据在新向量空间里的点阵。然后使用K-means聚类算法对仿真数据点阵进行聚类,计算出每个聚类中心的坐标。接着计算所有仿真数据点到其对应的聚类中心的距离的均值,记作DC(Distance to Clustering),该指标越小则表示越高的隐私性。接着计算每个仿真数据点与其最接近的若干个仿真数据点的距离均值,记作MDR(Mean Distance to Record),该指标越小则表示越高的隐私性。最后结合暴露风险指标,计算每个仿真数据点的DCR,将DCR显著大的仿真数据点认为是离群点,计算离群点的数量与仿真数据点数量的比值,记作OR(Outliers Ratio),该指标越小则表示越高的隐私性。
DC、MDR、OR都作为随机映射参数的输出指标。
在本发明方法一较佳的实施例中,该步骤还可包括:
S301将数据拥有者对数据用途的假设输入评估系统,用于评估仿真数据的可用性和仿真数据的隐私性。
数据拥有者对数据用途的假设输入,有两种假设,分别为数据拥有者希望该数据被用于某项分析任务或不希望该数据被用于某项分析任务。前者关注在特定数据分析任务上仿真数据与原始数据的分析效果是否一致;后者关注在特定数据分析任务上使用仿真数据训练的模型是否无法作用于原始数据。例如,银行中的用户流水数据集包含用户的各项消费记录,银行希望分析者能够分析出哪项消费记录是恶意欺诈交易,但并不希望用户的余额信息被分析出来。在这个例子中,银行更关注用户流水的仿真数据在预测欺诈交易的分析任务中效果与原始数据一致,但是不允许分析者偷偷训练一个能够预测真实用户余额的预测模型。
上述本发明面向结构化仿真数据的质量评估方法,使用仿真数据代替原始数据参与数据流通,从数据拥有者的角度对仿真数据的可用性与隐私性两方面进行质量评估。由于仿真数据的数据条目都是合成的,不与现实中的任何实体产生关联,可确保处理后的数据足够保护隐私,有效避免了隐私泄露的风险。进一步地,本发明提出的基于随机映射的仿真数据评估方式,能够在仅有原始数据和仿真数据的条件下进行质量评估,不需要其他的假设或先验知识,操作简单,适用范围广,通用性好。
参见图5,本发明实施例还提供了一种面向结构化仿真数据的质量评估系统,包括:
(1)可用性评估模块01,用于评估仿真数据03的可用性方面的各项性能参数,比较使用仿真数据与使用原始数据在潜在的数据分析任务中效果相似程度;
在本发明系统一较佳的实施例中,所述可用性评估模块01包括:
模拟分析单元011,用于评估在特定分析任务中仿真数据和原始数据的效果相似程度,输入中包含希望该数据被用于某项分析任务的假设,通过运行机器学习模型对指定的字段进行预测来模拟分析任务。
关联评估单元012,用于评估原始数据中的字段关联关系在仿真数据中的保留程度,通过计算原始数据和仿真数据中字段间的关联度差异确定。
统计评估单元013,用于评估各字段中仿真数据与原始数据的统计量是否一致。
随机映射单元014,用于评估在不同的映射情况下,仿真数据与原始数据的相似程度。将不同的随机映射的差异进行比较,以确认仿真数据的可用性。
(2)仿真数据的隐私性评估模块02,用于评估仿真数据暴露原始数据信息的风险程度。
在本发明系统一较佳的实施例中,所述仿真数据的隐私性评估模块02包括:
隐私预测单元021,用于评估特定分析任务中恶意分析者对隐私字段的真实预测效果,通过运行一些机器学习模型对指定的字段进行预测来模拟特定分析任务。机器学习模型指标与原始数据的差异越大,仿真数据在该恶意分析任务中的隐私性越强。
成员推断单元022,该单元构建一个攻击者模型,对仿真数据对应的生成模型进行攻击,通过评估仿真数据防御成员推断攻击效果反映仿真数据的隐私性。
暴露风险单元023,用于关注仿真数据记录暴露原始数据条目的风险程度,若某个仿真数据记录与某个原始数据记录非常相似,那么该条仿真数据记录暴露对应的原始数据记录的风险很大。
随机映射单元024,用于评估在不同的映射情况下,仿真数据与原始数据的相似程度。该单元通过计算每个仿真数据点的孤立程度来判断隐私性,一个仿真数据点孤立程度越大,其暴露隐私信息的可能性越大。
参见图6,本发明实施例还提供了一种终端设备,包括处理器100、与所述处理器100通信连接的存储器200,以及,与网络设备进行通信的接口300;其中,所述存储器200存储有计算机程序,通过处理器100执行计算机程序发出的控制指令,完成各种功能应用以及数据处理,以实现上述所述的面向结构化仿真数据的质量评估方法。所述存储器200可为终端设备内部设置的存储器,还可以包括相对于处理器100远程设置的存储器,这些远程存储器200可以通过网络连接至终端。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,可以发送、传播或者传输用于执行器件使用或者与其结合使用的程序。当所述计算机可执行指令被处理器执行时,用于实现上述所述的面向结构化仿真数据的质量评估方法。
本发明的上述实施例所示仅为本发明较佳实施例之部分,并不能以此局限本发明,在不脱离本发明精髓的条件下,本领域技术人员所作的任何修改、等同替换和改进等,都属本发明的保护范围。
Claims (10)
1.一种面向结构化仿真数据的质量评估方法,其特征在于,包括步骤:
根据原始数据构建仿真数据生成模型;
数据拥有者使用包含隐私信息的原始数据对仿真数据生成模型进行训练,得到仿真数据;
将所述原始数据和所述仿真数据输入评估系统,评估所示仿真数据的可用性和所述仿真数据的隐私性,选择质量最高的仿真数据发布;
其中,所述原始数据和所述仿真数据为结构化数据,由若干条数据记录组成,每条记录有若干字段,所述仿真数据的字段与所述原始数据的字段完全相同。
2.如权利要求1所述的面向结构化仿真数据的质量评估方法,其特征在于,在评估所述仿真数据的可用性和所述仿真数据的隐私性步骤中,还包括将数据拥有者对数据用途的假设输入评估系统。
3.如权利要求1所述的面向结构化仿真数据的质量评估方法,其特征在于,根据所述仿真数据与所述原始数据在潜在的数据分析任务中效果相似程度评估所述仿真数据的可用性。
4.如权利要求1所述的面向结构化仿真数据的质量评估方法,其特征在于,根据所述仿真数据暴露原始数据信息的风险程度评估所述仿真数据的隐私性。
5.如权利要求1-4任一项所述的面向结构化仿真数据的质量评估方法,其特征在于,
所述仿真数据的可用性评估包括:
评估在特定分析任务中所述仿真数据和所述原始数据的效果相似程度;
评估所述原始数据中的字段关联关系在所述仿真数据中的保留程度;
评估各字段中的所述仿真数据与所述原始数据的统计量是否一致;
评估在不同的映射情况下,所述仿真数据与所述原始数据的相似程度;
所述仿真数据的隐私性评估包括:
评估特定分析任务中恶意分析者对隐私字段的真实预测效果;
评估所述仿真数据防御成员推断攻击的效果;
评估所述仿真数据记录暴露所述原始数据条目的风险程度;
评估在不同的映射情况下,所述仿真数据与所述原始数据的相似程度。
6.一种面向结构化仿真数据的质量评估系统,其特征在于,包括:
可用性评估模块,用于评估使用仿真数据与使用原始数据在潜在的数据分析任务中效果相似程度;
仿真数据的隐私性评估模块,用于评估仿真数据暴露原始数据信息的风险程度。
7.如权利要求1所述的面向结构化仿真数据的质量评估系统,其特征在于,所述可用性评估模块包括:
模拟分析单元,用于评估在特定分析任务中所述仿真数据和所述原始数据的效果相似程度;
关联评估单元,用于评估所述原始数据中的字段关联关系在所述仿真数据中的保留程度;
统计评估单元,用于评估各字段中的所述仿真数据与所述原始数据的统计量是否一致;
随机映射单元,用于评估在不同的映射情况下,所述仿真数据与所述原始数据的相似程度;
所述仿真数据的隐私性评估模块包括:
隐私预测单元,用于评估特定分析任务中恶意分析者对隐私字段的真实预测效果;
成员推断单元,用于评估所述仿真数据防御成员推断攻击的效果;
暴露风险单元,用于关注所述仿真数据记录暴露所述原始数据条目的风险程度;
随机映射单元,用于评估在不同的映射情况下,所述仿真数据与所述原始数据的相似程度。
8.如权利要求7所述的面向结构化仿真数据的质量评估系统,其特征在于,所述随机映射单元构建多个随机映射器,将每一个记录输入所述随机映射器内,使各数据点从原始空间映射到向量空间坐标进行比对,以评估所述原始数据和所述仿真数据的差异。
9.一种终端设备,其特征在于,包括处理器、与所述处理器通信连接的存储器,以及,与网络设备进行通信的接口;其中,所述存储器上存储可在所述处理器上运行的计算机程序,以实现权利要求1-5中任一项所述的面向结构化仿真数据的质量评估方法。
10.一种计算机可读存储介质,用于存储计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111474996.6A CN114357714A (zh) | 2021-12-06 | 2021-12-06 | 面向结构化仿真数据的质量评估方法、系统和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111474996.6A CN114357714A (zh) | 2021-12-06 | 2021-12-06 | 面向结构化仿真数据的质量评估方法、系统和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114357714A true CN114357714A (zh) | 2022-04-15 |
Family
ID=81097834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111474996.6A Pending CN114357714A (zh) | 2021-12-06 | 2021-12-06 | 面向结构化仿真数据的质量评估方法、系统和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114357714A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115169252A (zh) * | 2022-09-07 | 2022-10-11 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种结构化仿真数据生成系统及生成方法 |
CN116842715A (zh) * | 2023-06-25 | 2023-10-03 | 北京华如科技股份有限公司 | 一种仿真数据结构化处理系统 |
CN117094206A (zh) * | 2023-06-19 | 2023-11-21 | 安徽云图信息技术有限公司 | 一种仿真数据生成系统和生成方法 |
CN118643682A (zh) * | 2024-08-15 | 2024-09-13 | 深圳市智慧城市科技发展集团有限公司 | 数据仿真系统的控制方法、终端设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368337A (zh) * | 2020-05-27 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 保护隐私的样本生成模型构建、仿真样本生成方法及装置 |
CN111815692A (zh) * | 2020-07-15 | 2020-10-23 | 大连东软教育科技集团有限公司 | 无伪影数据及有伪影数据的生成方法、系统及存储介质 |
-
2021
- 2021-12-06 CN CN202111474996.6A patent/CN114357714A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368337A (zh) * | 2020-05-27 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 保护隐私的样本生成模型构建、仿真样本生成方法及装置 |
CN111815692A (zh) * | 2020-07-15 | 2020-10-23 | 大连东软教育科技集团有限公司 | 无伪影数据及有伪影数据的生成方法、系统及存储介质 |
Non-Patent Citations (2)
Title |
---|
LEI XU等: "Synthesizing Tabular Data using Generative Adversarial Networks", ARXIV:1811.11264V1, 27 November 2018 (2018-11-27), pages 1 - 12, XP093139163, DOI: 10.48550/arXiv.1811.11264 * |
NOSEONG PARK等: "Data Synthesis based on Generative Adversarial Networks", ARXIV:1806.03384V5, 2 July 2018 (2018-07-02), pages 1 - 16 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115169252A (zh) * | 2022-09-07 | 2022-10-11 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种结构化仿真数据生成系统及生成方法 |
WO2024051000A1 (zh) * | 2022-09-07 | 2024-03-14 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种结构化仿真数据生成系统及生成方法 |
CN117094206A (zh) * | 2023-06-19 | 2023-11-21 | 安徽云图信息技术有限公司 | 一种仿真数据生成系统和生成方法 |
CN117094206B (zh) * | 2023-06-19 | 2024-01-26 | 安徽云图信息技术有限公司 | 一种仿真数据生成系统和生成方法 |
CN116842715A (zh) * | 2023-06-25 | 2023-10-03 | 北京华如科技股份有限公司 | 一种仿真数据结构化处理系统 |
CN116842715B (zh) * | 2023-06-25 | 2024-04-26 | 北京华如科技股份有限公司 | 一种仿真数据结构化处理系统 |
CN118643682A (zh) * | 2024-08-15 | 2024-09-13 | 深圳市智慧城市科技发展集团有限公司 | 数据仿真系统的控制方法、终端设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Templ et al. | Statistical disclosure control for micro-data using the R package sdcMicro | |
CN114357714A (zh) | 面向结构化仿真数据的质量评估方法、系统和设备 | |
Li et al. | A comparative study on the prediction of the BP artificial neural network model and the ARIMA model in the incidence of AIDS | |
WO2020253358A1 (zh) | 业务数据的风控分析处理方法、装置和计算机设备 | |
Ghafory‐Ashtiany et al. | Strong ground motion record selection for the reliable prediction of the mean seismic collapse capacity of a structure group | |
EP3923207A2 (en) | Clustering techniques for machine learning models | |
Wei et al. | Measuring temporal patterns in dynamic social networks | |
CA3186528A1 (en) | Machine-learning techniques for factor-level monotonic neural networks | |
CN113272809A (zh) | 创建保护敏感数据的化身的方法 | |
Kim | Spatiotemporal scale dependency and other sensitivities in dynamic land-use change simulations | |
WO2021138271A1 (en) | Creating predictor variables for prediction models from unstructured data using natural language processing | |
CN114883005A (zh) | 一种数据分类分级方法、装置、电子设备和存储介质 | |
CN117522410A (zh) | 交易风险预测模型的训练方法和交易风险预测方法 | |
Panfilo et al. | A deep learning-based pipeline for the generation of synthetic tabular data | |
Piorkowski et al. | Quantitative ai risk assessments: Opportunities and challenges | |
Hu et al. | Advancing microdata privacy protection: A review of synthetic data methods | |
Castro-Toledo et al. | Data-Driven Criminal Justice in the age of algorithms: epistemic challenges and practical implications | |
Hayden et al. | Statistical methods to develop rating models | |
CN112968873B (zh) | 一种用于隐私数据传输的加密方法和装置 | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
Lakhno et al. | Information security audit method based on the use of a neuro-fuzzy system | |
Chebanyuk | An approach to software assets reusing | |
du Toit et al. | Shapley values as an interpretability technique in credit scoring | |
Domingo-Ferrer et al. | Collaborative explanation of deep models with limited interaction for trade secret and privacy preservation | |
Ferrucci et al. | Estimating web application development effort using web-cobra and COSMIC: an empirical study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |