CN111767326B - 基于生成式对抗网络的关系型表格数据的生成方法及装置 - Google Patents
基于生成式对抗网络的关系型表格数据的生成方法及装置 Download PDFInfo
- Publication number
- CN111767326B CN111767326B CN202010914927.1A CN202010914927A CN111767326B CN 111767326 B CN111767326 B CN 111767326B CN 202010914927 A CN202010914927 A CN 202010914927A CN 111767326 B CN111767326 B CN 111767326B
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- classifiable
- attribute
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 239000013598 vector Substances 0.000 claims abstract description 44
- 239000011159 matrix material Substances 0.000 claims description 67
- 238000012549 training Methods 0.000 claims description 58
- 230000008569 process Effects 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 abstract description 28
- 238000012856 packing Methods 0.000 description 17
- 238000013501 data transformation Methods 0.000 description 7
- 238000011550 data transformation method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 101150049349 setA gene Proteins 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于数据生成技术领域,具体涉及一种基于生成式对抗网络的关系型表格数据的生成方法及装置。其中的方法包括:获取包括可分类数据、数字型数据、顺序型数据的原始的关系型表格数据;选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;将包含实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据。本申请中的方法能同时学习离散分布与连续分布,抓取记录之间的关联;同时抓取实体层面多条记录的潜在趋势,准确生成与原数据分布近似的假数据,且数据的分布在表格层面拟合真实数据集。
Description
技术领域
本申请属于数据生成技术领域,具体涉及一种基于生成式对抗网络的关系型表格数据的生成方法及装置。
背景技术
在大数据时代,数据表格生成在近似查询估计,数据安全分享,数据压缩,以及满足隐私保护的机器学习等领域有着重要应用。在数据生成领域,现有的模型例如变分编码器(Variational Auto-encoder)和生成式对抗网络(Generative Adversarial Networks)在图像生成、文字图像转化、图像修复等领域皆取得了巨大成功。
关系型数据表格生成具有以下需求:判别器难以分辨样本是来自于真实数据集还是由生成器生成出的假数据。该样本可以是一条记录(记录层面),多条记录组成的实体(实体层面),甚至是表格本身(表格层面)。
利用生成式对抗网络进行关系型数据表格生成依旧面临许多挑战。
首先,关系型数据表格包含多种数据类型,例如可分类数据、数字型数据、顺序型数据等等。这就需要生成模型能够同时学习离散分布与连续分布,以及抓取记录之间的关联。用传统模型生成可分类数据可被视为多分类任务,结果通常非常不准确。
其次,关系型数据表格的数据分布有时是复杂的。传统生成式对抗网络模型将每条记录视为一个样本,因此只能在记录层面抓取数据分布。然而,实体层面与表格层面没有被有效学习。在实体层面,多条记录的潜在趋势没有被有效抓取。在表格层面,样本(记录或实体)的分布未拟合真实数据集。
发明内容
鉴于现有技术的上述缺点、不足,本申请提供一种基于生成式对抗网络的关系型表格数据的生成方法及装置。
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请实施例提供一种基于生成式对抗网络的关系型表格数据的生成方法,该方法包括:
S10、获取原始的关系型表格数据,所述关系型表格数据包括可分类数据、数字型数据、顺序型数据;
S20、从原始的关系型表格数据中选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;
S30、将包含所述实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据;
其中,数据生成模型是通过训练预先构建的条件生成式对抗网络而得到的训练后的生成器,所述条件生成式对抗网络由判别器与生成器组成;在训练过程中,将关系型数据表格中的实体数据作为训练样本,将实体的可分类属性元组作为判别器与生成器的条件信息,对所述条件生成式对抗网络进行训练。
可选地,当有多条记录属于同一实体、并且这些记录可以被同一序数型属性线性排列时,S30中将关系型数据表格中的实体数据作为训练样本,包括:
基于序数型属性将属于同一实体的多条记录的数字型数据组合为二维数字型矩阵,
对所述二维数字型矩阵进行数据填充,得到实体数据矩阵,
将所述实体数据矩阵作为所述训练样本中的数字型数据表示。
可选地,基于序数型属性将属于同一实体的多条记录的数字型数据组合为二维的数字型矩阵,具体包括:
确定实体的序数型属性区间;
将指向同一实体的多条记录以序数型属性为坐标,组合为二维的数字型矩阵。
可选地,对所述二维数字型矩阵进行数据填充,包括:填充最近的非零数值,或者填充数值0。
可选地,以低维潜层向量作为可分类属性数据的嵌入表示。
可选地,所述低维潜层向量的生成方法包括:
基于可分类属性数据,获得相应的未训练的嵌入的表示元组;
将嵌入的表示元组输入解码器网络,所述解码器网络为全连接神经网络,将解码器输出与样本数据的均方误差作为损失函数,通过反向传播对解码器网络和嵌入向量进行优化,将得到的每个可分类属性的所有嵌入向量组合得到该属性的嵌入矩阵;
将得到的嵌入矩阵作为可分类属性数据的低维潜层向量。
可选地,该方法还包括:通过保护判别器隐私和/或保护嵌入表示的隐私和/或保护样本频次隐私的差分隐私保护,实现真实数据的隐私保护。
可选地,保护判别器隐私的方法包括:
在训练预先构建的条件生成式对抗网络过程中,使用反向传播计算判别器梯度时加入噪音。
可选地,保护嵌入表示的隐私的方法包括:
在预训练嵌入矩阵的过程中,训练嵌入矩阵前的原始数据上或训练后的嵌入矩阵上添加拉普拉斯噪音。
第二方面,本申请实施例提供一种基于生成式对抗网络的关系型表格数据的生成装置,该装置包括:
数据获取模块,用于获取原始的关系型表格数据,所述关系型表格数据包括可分类数据、数字型数据、顺序型数据;
实体确定模块,用于从原始的关系型表格数据中选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;
数据生成模块,用于将包含所述实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据;
其中,数据生成模型是通过训练预先构建的条件生成式对抗网络而得到的训练后的生成器,所述条件生成式对抗网络由判别器与生成器组成;在训练过程中,将关系型数据表格中的实体数据作为训练样本,将实体的可分类属性元组作为判别器与生成器的条件信息,对所述条件生成式对抗网络进行训练。
本申请的有益效果是:本申请提出了一种基于生成式对抗网络的关系型表格数据的生成方法及装置,其中的方法包括:获取包括可分类数据、数字型数据、顺序型数据的原始的关系型表格数据;选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;将包含实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据。本申请中的方法能同时学习离散分布与连续分布,抓取记录之间的关联;同时抓取实体层面多条记录的潜在趋势,准确生成与原数据分布近似的假数据。在表格层面,样本(记录或实体)的分布拟合真实数据集,使得假数据可以替代原始数据公开发布或分析挖掘。
附图说明
本申请借助于以下附图进行描述:
图1为本申请一个实施例中的基于生成式对抗网络的关系型表格数据生成方法流程示意图;
图2为本申请另一个实施例中的基于生成式对抗网络的关系型表格数据生成方法流程示意图;
图3为本申请另一个实施例中的数据变换步骤的流程示意图;
图4为本申请另一个实施例中的实体打包与填充的数据变换方法的流程示意图;
图5为本申请另一个实施例中的可分类属性的嵌入的表示方法的训练网络结构图;
图6为本申请另一个实施例中的生成式对抗网络模型的训练步骤的流程示意图;
图7为本申请另一个实施例中的数据生成模型的数据生成步骤的流程示意图;
图8为本申请再一个实施例中的差分隐私保护步骤的流程示意图;
图9为本申请又一个实施例中的基于生成式对抗网络的关系型表格数据的生成装置架构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。可以理解的是,以下所描述的具体的实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合;为了便于描述,附图中仅示出了与发明相关的部分。
在许多场景中,生成与原始数据表格具有类似分布的假数据是一项重要的工作。目前的生成策略主要关注于记录层面(即追求每条记录的真实性),而非实体层面(多条记录指向一个真实实体)或整体表格层面(即整体数据分布)。因此,本申请提出一种基于生成式对抗网络的关系型数据表格的生成方法和装置,下面将参考附图并结合实施例来详细说明本申请。
实施例一
图1示出了本申请一个实施例中的基于生成式对抗网络的关系型表格数据生成方法的流程示意图。如图1所示,本实施例的基于生成式对抗网络的关系型表格数据生成方法包括:
S10、获取原始的关系型表格数据,关系型表格数据包括可分类数据、数字型数据、顺序型数据;
S20、从原始的关系型表格数据中选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;
S30、将包含实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据;
其中,数据生成模型是通过训练预先构建的条件生成式对抗网络而得到的训练后的生成器,条件生成式对抗网络由判别器与生成器组成;在训练过程中,将关系型数据表格中的实体数据作为训练样本,将实体的可分类属性元组作为判别器与生成器的条件信息,对条件生成式对抗网络进行训练。
本发明方法中的数据生成模型是一个基于深度机器学习的高效的数据模型,能同时学习离散分布与连续分布,抓取记录之间的关联;同时抓取实体层面多条记录的潜在趋势,准确生成与原数据分布近似的假数据。在表格层面,样本(记录或实体)的分布拟合真实数据集,使得假数据可以替代原始数据公开发布或分析挖掘。
在一些实施例中,当有多条记录属于同一实体、并且这些记录可以被同一序数型属性线性排列时,S30中将关系型数据表格中的实体数据作为训练样本,包括:
基于序数型属性将属于同一实体的多条记录的数字型数据组合为二维数字型矩阵,
对二维数字型矩阵进行数据填充,得到实体数据矩阵,
将实体数据矩阵作为训练样本中的数字型数据表示。
在一些实施例中,基于序数型属性将属于同一实体的多条记录的数字型数据组合为二维的数字型矩阵,具体包括:
确定实体的序数型属性区间;
将指向同一实体的多条记录以序数型属性为坐标,组合为二维的数字型矩阵。
在一些实施例中,对二维数字型矩阵进行数据填充,包括:填充最近的非零数值,或者填充数值0。
在一些实施例中,以低维潜层向量作为可分类属性数据的嵌入表示。
在一些实施例中,低维潜层向量的生成方法包括:
基于可分类属性数据,获得相应的未训练的嵌入的表示元组;
将嵌入的表示元组输入解码器网络,解码器网络为全连接神经网络,将解码器网络输出与样本数据的均方误差作为损失函数,通过反向传播对解码器网络和嵌入向量进行优化,将得到的每个可分类属性的所有嵌入向量组合得到该属性的嵌入矩阵;
将得到的嵌入矩阵作为可分类属性数据的低维潜层向量。
在一些实施例中,该方法还包括:通过保护判别器隐私和/或保护嵌入表示的隐私和/或保护样本频次隐私的差分隐私保护,实现真实数据的隐私保护。
在一些实施例中,保护判别器隐私的方法包括:
在训练预先构建的条件生成式对抗网络过程中,使用反向传播计算判别器梯度时加入噪音。
在一些实施例中,保护嵌入表示的隐私的方法包括:
在预训练嵌入矩阵的过程中,训练嵌入矩阵前的原始数据上或训练后的嵌入矩阵上添加拉普拉斯噪音。
在一些实施例中,保护样本频次的隐私的方法包括:
在数据生成过程中,预计要生成的样本频次上添加拉普拉斯噪音。
实施例二
图2为本申请另一个实施例中的基于生成式对抗网络的关系型表格数据生成方法流程示意图;如图2所示,该方法包括:
步骤S1、获取真实数据,并对真实数据进行数据变换,包括实体打包与填充的方法和可分类属性数据的嵌入的表示方法。
具体地,真实数据是关系型表格数据,包括可分类数据、数字型数据、顺序型数据。
图3为本申请另一个实施例中的数据变换步骤的流程示意图,如图3所示,数据变换步骤主要包含实体打包与填充的方法和可分类属性的嵌入的表示方法。首先使用实体打包与填充的方法将样本从记录的形式转变为实体的形式。接下来对于样本的可分类属性部分,训练其嵌入的表示方法。可分类属性数据的嵌入表示C和经过实体打包与填充的数字型矩阵v即可作为下一步骤的训练样本用于网络训练和数据生成中使用。
以下对真实数据进行数据变换进行展开描述。
步骤S11、实体打包与填充的数据变换。
实体打包与填充的数据变换方法适用于多条记录指向同一现实实体时,记录属于同一实体当且仅当它们的标识属性一致。实体标识属性指能够唯一确定现实中的某个实体的一组可分类属性。
实体打包的数据变换方法是将指向同一现实实体的多条记录聚集在一起,其数字型数据部分可以以轴序数型属性为坐标,选取合适的轴序数型属性区间以使得数字型矩阵足够密集,组合为二维的数字型矩阵。二维数字型矩阵中,一维指的是轴序数型属性,而另一维指数字型属性的序号。经过打包后的实体将唯一对应一条可分类数据元组和一个数字型数据矩阵。
这里,轴序数型属性指的是在一个实体对应多条记录的情况中,存在的一个序数型属性,该属性能够将这些记录排序。
需要说明的是,若轴序数型属性不存在,则每条记录都被视为独立的实体。
请参阅图4,图4示出了本申请另一个实施例中的实体打包与填充的数据变换方法的流程示意图,具体包括以下步骤:
S101、选取实体标识属性;
S102、选取合适轴序数型属性区间;
S103、将指向同一现实实体的多条记录打包,以轴序数型属性为坐标,组合为二维的数字型矩阵;
S104、实体填充,在空白处填充以合适的值。
以下给出一个示例来具体说明实体打包与填充的数据变换方法。表1为本示例中的真实数据,以下结合表1中的数据对S101-S104进行说明。
上述步骤S101中,实体标识属性为商店,商品,这两者共同确定一个实体。
上述步骤S102中,轴序数型属性为日期,这里选择1天为轴序数型属性区间。通常轴序数型属性区间的选择可以根据经验来判断,最简单的选择方式为:选择可以使每个区间最多有一条记录的、最大的区间。有时如此选择会造成数据过于稀疏,因此可以根据实际情况适当增大区间大小。表2为本示例中的经过实体打包后的数据,如表2所示,对于选取较大的区间导致同一区间包含多条记录的情况,可以将价格值互相覆盖,将销量值互相累加。
上述步骤S103中,经过打包,并且以日期为轴,获得以表3所示的3个二维数字型矩阵;表3为本示例中的经过实体填充后的数据,每一个矩阵都代表一个实体。其中,字体加粗的数字为填充的数据。
上述步骤S104中,通过填充合适的值使得实体分布更接近真实情况。这里有两种填充策略:对于价格值,填充最近的非零数值;对于销量值,则直接填充0即可。
实体填充的数据变换方法基于实体打包的方法之上。该方法将数字型矩阵的空白处填充以合适的值,使得数字型矩阵的整体分布更符合真实情况。
本发明方法将传统的以每条记录为一个样本的模式转变为以每个实体为一个样本的模式,通过实体打包与填充的数据变换使得实体的分布均匀化,避免了传统生成式对抗网络在处理偏斜分布的样本时,容易造成的模式坍塌的情况,进而使假数据在表格层面更接近真实数据的分布。通过实体打包与填充的数据变换方法,同一实体的多条记录被同时学习,有助于抓取实体层面的信息。
步骤S12、获取可分类属性的嵌入的表示。
嵌入的表示是指以低维的潜层向量来表示可分类属性数据,以替代独热编码。
潜层向量是通过将获取的可分类属性数据输入预先训练的解码器得到的。经过训练,嵌入向量通过解码器能够很好地拟合样本数据。
请参阅图5,图5为本申请另一个实施例中的可分类属性的嵌入的表示方法的训练
网络结构图。其中,为个实体标识属性的嵌入矩阵,为实体标识
属性的集合。每个嵌入矩阵包含该属性所有值的嵌入向量。将每个可分类属性所对应值的
嵌入向量连接起来,即可得到嵌入元组,此处作为解码器的输入。解码器(DC)网络作为辅助
网络与嵌入矩阵共同训练,用以在嵌入元组和样本数据之间建立映射关系,但在训练结束
后解码器不再使用。v指实体的数字型矩阵部分,即,e为实体。训练目标为使
解码器的输出v’与真实样本数据v尽可能接近。损失函数L为v’与v的均方误差(MSE)。
解码器的训练包括:
通过遍历真实数据集,提取可分类元组,并获得相应的嵌入的表示元组;
将嵌入的表示元组输入解码器网络,将解码器网络输出与样本数据的均方误差作为损失函数,通过反向传播对解码器网络和嵌入向量的矩阵进行优化,这里,解码器为全连接神经网络;
将得到的所有嵌入矩阵作为最终输出。
由于每个实体对应唯一可分类数据元组,此时嵌入向量组成的元组和样本数据唯一对应,使得损失函数的下限逼近于零。
需要说明的是,在实际应用中,并不是每一个实体标识属性都需要训练嵌入矩阵。实际上,该属性的基数越大,嵌入表示的方法的收益也越大。当基数较小时,比如50以内时,独热编码就可以满足数据生成的需求。
通过嵌入的方法一方面有助于解决可分类属性基数过大时产生的问题,另一方面有助于解决数据拓展的问题,选取随机嵌入向量即可表示未知的可分类属性数据。
步骤S2、训练生成式对抗网络。其中,包括条件生成的方法。
请参阅图6,图6为本申请另一个实施例中的生成式对抗网络模型的训练步骤的流程示意图,其中,v’为生成器输出的数据,v为真实样本数据。
生成式对抗网络包含两个对抗训练的网络,即生成器(G)和判别器(D)。判别器的输入为从真实数据集采样得到的嵌入表示向量(C)和未知的数字型矩阵(v)数据样本,输出为该数据来自真实数据集的可能性,判别器的优化目标在于区分真数据和假数据。生成器的输入为满足多维高斯分布的随机噪音和条件的嵌入表示向量,输出为假数据的数字型矩阵,使用反向传播计算判别器梯度,生成器的优化目标在于生成假数据以骗过判别器。
在网络训练过程中,采用了条件生成方法。基于生成式对抗网络的条件生成的方法是一种特殊的生成式对抗网络模型。该方法是指将实体标识属性的所有可分类属性数据视为条件,并将条件的表示向量添加在生成器和判别器网络的输入端。
在训练过程中,条件生成方法为遍历真实数据集,获取每种可分类元组出现的频次,将这些频次乘以数据集大小的比例并取整,即可得到每种可分类元组的目标频次。在数据生成过程中,使用训练好的生成器,输入可分类元组作为条件,重复相应的目标频次次,即可得到目标假数据。
需要说明的是,频次在每个实体对应多条记录的情况下被固定为1。因为每个实体具有唯一性。
本实施例中,条件表示向量为步骤S12中得到的可分类属性的嵌入的表示。需要说明的是,当条件表示向量为独热编码时,也可以采用本实施例中的条件生成方法;每个实体对应一条或多条记录,该方法皆适用。
条件生成方法通过输入不同可分类元组来控制相应样本的训练机会,每个实体的频次被固定为1,即数据在各个实体上是均匀分布的,因此每个实体可以得到同等训练机会。通过条件生成可控制每个可分类数据元组的生成频次,使得该频次与对应的真实数据频次成正比。
条件生成方法有助于处理可分类属性。当可分类属性在输入端时,该方法可以避免可分类属性在输出端时所造成的复杂的分类任务。并且由于可分类数据与数字型数据在生成器中分离开来,可分类数据不会挤占到数字型数据的学习资源,进而能够更有效地学习到数字型数据。
条件生成方法有助于学习可分类属性分布。可分类属性具有有限多的元组组合,因此所有元组组合的频次信息在条件生成的遍历过程中可以被精确抓取。以此作为生成器的输入,可以使生成数据完全拟合真实数据在可分类属性上的联合分布。
步骤S3、使用训练好的生成器生成假数据。其中,包括条件生成的方法。
在生成数据过程中,实体打包与填充的数据变换方法、条件生成的方法和步骤S1和步骤S2中的方法相同,此处不再展开描述。
图7为本申请另一个实施例中的数据生成模型的数据生成步骤的流程示意图,如图7所示,数据生成步骤是利用所述步骤S2中所训练的生成器,以条件生成的方法生成假数据。该方法旨在保证每种可分类元组的概率密度在真实数据集中和假数据集中保持一致。因此,通过计算真实数据集与假数据集样本数量的比率可以得到每种可分类元组在两个数据集中出现频次的比率。根据真实数据集的频次,即可以计算出假数据集中将要生成的频次。最后,生成假数据,通过逆数据变换,即反向执行步骤S1,使数据变换回初始格式。
本实施例提出的基于生成式对抗网络的关系型表格数据的生成方法,具有以下技术效果:
1)该方法同时对多个可分类属性使用条件生成模型,拟合可分类数据的联合分布,使得生成数据同时在记录层面和整体表格层面拟合原始数据;
2)该方法使用嵌入的方法替代独热编码,以解决可分类属性基数过大的问题,避免过于庞大的独热编码;
3)该方法提出实体打包和填充的方法,使得数据分布在实体层面均匀化,并能有效获取记录之间的潜在关联,抓取实体层面信息。
实施例三
本实施例中提出了一种满足差分隐私保护条件的基于生成式对抗网络的关系型表格数据的生成方法,以保护真实数据的隐私。该方法中除了包括实施例2中描述的方法步骤外,在每个步骤中还包括对真实的表格数据进行差分隐私保护方法。因此以下仅仅差分隐私保护方法进行说明。
图8为本申请再一个实施例中的差分隐私保护步骤流程示意图,如图8所示,差分隐私保护包括对判别器、嵌入向量和样本频率的隐私进行保护,以下对判别器、嵌入向量和样本频次的隐私保护方法进行具体说明。
S401、保护判别器隐私。
保护判别器隐私的方法为:使用差分隐私的生成式对抗网络的方法(DPGAN),即在判别器训练时的梯度上加入噪音,使得判别器始终满足差分隐私保护的条件。本实施例中,在训练生成器过程中,使用反向传播计算判别器梯度时加入的噪音为高斯噪音,噪音规模受到隐私保护参数影响。
S402、保护嵌入向量的隐私。
当实体的标识属性采用嵌入向量表示的时候,对嵌入向量进行隐私保护。
保护嵌入向量隐私的方法为:在预训练嵌入矩阵过程中,训练嵌入向量前的原始数据上或训练后的嵌入向量上添加拉普拉斯噪音Laplace(0,b)以达到隐私保护的目的,其中b为噪音规模。噪音规模受到隐私保护参数影响。需要说明的是,两种方式皆可使嵌入矩阵满足差分隐私保护的条件。
S403、保护样本频次隐私。
对于数据表格中每条记录本身就是一个实体的情况下执行样本频次隐私。这种情况下所有可分类属性可能无法构成实体标识属性,因此一条可分类元组可能会多次出现。
保护样本频次隐私的方法为:在生成过程中,对生成目标的频次数添加噪音,以达到保护真实数据样本频次的目的。添加噪音的方法是在生成模型的生成过程算法中计算预计生成可分类数据元组的数量之后,在得到的数量上加入拉普拉斯噪音Laplace(0,b),其中b为噪音规模。噪音规模受到隐私保护参数影响。
对于所有上述算法,噪音规模受到隐私保护参数影响,可以根据实际情况选取隐私保护参数,通常情况下,该参数取值可以为1。
本实施例中的方法针对生成模型针对性的选择隐私保护模块,可实现对判别器、嵌入向量和样本频率的隐私分别进行保护,使得生成的数据满足差分隐私保护的条件,进而保护了真实数据的隐私。
实施例四
本实施例给出了可分类属性数据的嵌入表示方法的训练方法、生成器的训练方法、数据生成方法的具体实施流程。
可分类属性的嵌入的表示方法使用如下算法训练嵌入矩阵:
训练步骤包括:
训练步骤包括:
最终得到训练好的生成器,使用如下算法生成数据:
S3009、反向进行步骤S1中数据变换步骤;
实施例五
本申请第二方面提出了基于生成式对抗网络的关系型表格数据的生成装置,图9为本申请又一个实施例中的基于生成式对抗网络的关系型表格数据的生成装置架构示意图。如图所示,本实施例中的基于生成式对抗网络的关系型表格数据的生成装置500包括:
数据获取模块501,用于获取原始的关系型表格数据,关系型表格数据包括可分类数据、数字型数据、顺序型数据;
实体确定模块502,用于从原始的关系型表格数据中选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;
数据生成模块503,用于将包含实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据;
其中,数据生成模型是通过训练预先构建的条件生成式对抗网络而得到的训练后的生成器,条件生成式对抗网络由判别器与生成器组成;在训练过程中,将关系型数据表格中的实体数据作为训练样本,将实体的可分类属性元组作为判别器与生成器的条件信息,对条件生成式对抗网络进行训练。
上述基于生成式对抗网络的关系型表格数据的生成装置500可执行本申请实施例所提供的基于生成式对抗网络的关系型表格数据的生成方法,具备执行方法相应的功能模块和有益效果。至于其中各个功能模块所执行的处理方法,例如数据获取模块501、实体确定模块502、数据生成模块503,可参照上述方法实施例中的描述,此处不再进行赘述。
上述的数据获取模块501、实体确定模块502、数据生成模块503通常可以设置在终端设备或服务器中。
用来实现本申请实施例的终端设备或服务器的计算机系统可以包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。
Claims (9)
1.一种基于生成式对抗网络的关系型表格数据的生成方法,其特征在于,该方法包括:
S10、获取原始的关系型表格数据,所述关系型表格数据包括可分类数据、数字型数据、顺序型数据;
S20、从原始的关系型表格数据中选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;
S30、将包含所述实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据;
其中,数据生成模型是通过训练预先构建的条件生成式对抗网络而得到的训练后的生成器,所述条件生成式对抗网络由判别器与生成器组成;在训练过程中,将关系型数据表格中的实体数据作为训练样本,将实体的可分类属性元组作为判别器与生成器的条件信息,对所述条件生成式对抗网络进行训练;
其中,当有多条记录属于同一实体、并且这些记录可以被同一序数型属性线性排列时,S30中将关系型数据表格中的实体数据作为训练样本,包括:
基于序数型属性将属于同一实体的多条记录的数字型数据组合为二维数字型矩阵,
对所述二维数字型矩阵进行数据填充,得到实体数据矩阵,
将所述实体数据矩阵作为所述训练样本中的数字型数据表示。
2.根据权利要求1所述的基于生成式对抗网络的关系型表格数据的生成方法,其特征在于,基于序数型属性将属于同一实体的多条记录的数字型数据组合为二维的数字型矩阵,具体包括:
确定实体的序数型属性区间;
将指向同一实体的多条记录以序数型属性为坐标,组合为二维的数字型矩阵。
3.根据权利要求1所述的基于生成式对抗网络的关系型表格数据的生成方法,其特征在于,对所述二维数字型矩阵进行数据填充,包括:填充最近的非零数值,或者填充数值0。
4.根据权利要求1-3中任一权利要求所述的基于生成式对抗网络的关系型表格数据的生成方法,其特征在于,以低维潜层向量作为可分类属性数据的嵌入表示。
5.根据权利要求4所述的基于生成式对抗网络的关系型表格数据的生成方法,其特征在于,所述低维潜层向量的生成方法包括:
基于可分类属性数据,获得相应的未训练的嵌入的表示元组;
将嵌入的表示元组输入解码器网络,所述解码器网络为全连接神经网络,将解码器输出与样本数据的均方误差作为损失函数,通过反向传播对解码器网络和嵌入向量进行优化,将得到的每个可分类属性的所有嵌入向量组合得到该属性的嵌入矩阵;
将得到的嵌入矩阵作为可分类属性数据的低维潜层向量。
6.根据权利要求5所述的基于生成式对抗网络的关系型表格数据的生成方法,其特征在于,该方法还包括:通过保护判别器隐私和/或保护嵌入表示的隐私和/或保护样本频次隐私的差分隐私保护,实现真实数据的隐私保护。
7.根据权利要求6所述的基于生成式对抗网络的关系型表格数据的生成方法,其特征在于,保护判别器隐私的方法包括:
在训练预先构建的条件生成式对抗网络过程中,使用反向传播计算判别器梯度时加入噪音。
8.根据权利要求6所述的基于生成式对抗网络的关系型表格数据的生成方法,其特征在于,保护嵌入表示的隐私的方法包括:
在预训练嵌入矩阵的过程中,训练嵌入矩阵前的原始数据上或训练后的嵌入矩阵上添加拉普拉斯噪音。
9.一种基于生成式对抗网络的关系型表格数据的生成装置,其特征在于,该装置包括:
数据获取模块,用于获取原始的关系型表格数据,所述关系型表格数据包括可分类数据、数字型数据、顺序型数据;
实体确定模块,用于从原始的关系型表格数据中选择能唯一确定实体的可分类数据以确定相应的实体,将唯一确定实体的可分类数据作为实体标识属性;
数据生成模块,用于将包含所述实体标识属性的可分类属性元组作为条件信息,将随机噪声向量作为输入,通过预先训练的数据生成模型得到生成的关系型表格数据;
其中,数据生成模型是通过训练预先构建的条件生成式对抗网络而得到的训练后的生成器,所述条件生成式对抗网络由判别器与生成器组成;在训练过程中,将关系型数据表格中的实体数据作为训练样本,将实体的可分类属性元组作为判别器与生成器的条件信息,对所述条件生成式对抗网络进行训练;
其中,当有多条记录属于同一实体、并且这些记录可以被同一序数型属性线性排列时,数据生成模块中将关系型数据表格中的实体数据作为训练样本,包括:
基于序数型属性将属于同一实体的多条记录的数字型数据组合为二维数字型矩阵,
对所述二维数字型矩阵进行数据填充,得到实体数据矩阵,
将所述实体数据矩阵作为所述训练样本中的数字型数据表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010914927.1A CN111767326B (zh) | 2020-09-03 | 2020-09-03 | 基于生成式对抗网络的关系型表格数据的生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010914927.1A CN111767326B (zh) | 2020-09-03 | 2020-09-03 | 基于生成式对抗网络的关系型表格数据的生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767326A CN111767326A (zh) | 2020-10-13 |
CN111767326B true CN111767326B (zh) | 2020-11-27 |
Family
ID=72729179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010914927.1A Active CN111767326B (zh) | 2020-09-03 | 2020-09-03 | 基于生成式对抗网络的关系型表格数据的生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767326B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540791B (zh) * | 2024-01-03 | 2024-04-05 | 支付宝(杭州)信息技术有限公司 | 一种对抗训练的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368752A (zh) * | 2017-07-25 | 2017-11-21 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
CN107609587A (zh) * | 2017-09-11 | 2018-01-19 | 浙江工业大学 | 一种基于深度卷积生成对抗网络的多类别多视图数据生成方法 |
US20190197368A1 (en) * | 2017-12-21 | 2019-06-27 | International Business Machines Corporation | Adapting a Generative Adversarial Network to New Data Sources for Image Classification |
CN110414003A (zh) * | 2019-07-29 | 2019-11-05 | 清华大学 | 建立文本生成模型的方法、装置、介质和计算设备 |
CN110414362A (zh) * | 2019-07-02 | 2019-11-05 | 安徽继远软件有限公司 | 基于生成式对抗网络的电力图像数据增广方法 |
US20200065221A1 (en) * | 2018-07-06 | 2020-02-27 | Capital One Services, Llc | Data model generation using generative adversarial networks |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
-
2020
- 2020-09-03 CN CN202010914927.1A patent/CN111767326B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107368752A (zh) * | 2017-07-25 | 2017-11-21 | 北京工商大学 | 一种基于生成式对抗网络的深度差分隐私保护方法 |
CN107609587A (zh) * | 2017-09-11 | 2018-01-19 | 浙江工业大学 | 一种基于深度卷积生成对抗网络的多类别多视图数据生成方法 |
US20190197368A1 (en) * | 2017-12-21 | 2019-06-27 | International Business Machines Corporation | Adapting a Generative Adversarial Network to New Data Sources for Image Classification |
US20200065221A1 (en) * | 2018-07-06 | 2020-02-27 | Capital One Services, Llc | Data model generation using generative adversarial networks |
CN110414362A (zh) * | 2019-07-02 | 2019-11-05 | 安徽继远软件有限公司 | 基于生成式对抗网络的电力图像数据增广方法 |
CN110414003A (zh) * | 2019-07-29 | 2019-11-05 | 清华大学 | 建立文本生成模型的方法、装置、介质和计算设备 |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
Non-Patent Citations (4)
Title |
---|
Modeling Tabular Data using Conditional GAN;Lei Xu等;《33rd Conference on Neural Information Processing Systems (NeurIPS 2019)》;20191231;第1-11页 * |
Relational data synthesis using generative adversarial networks: a design space exploration;Ju Fan等;《Proceedings of the VLDB Endowment》;20200831;第13卷(第12期);第1962-1975页 * |
众包数据库综述;柴成亮等;《计算机学报》;20200531;第43卷(第5期);第948-968页 * |
基于知识的自动问答与问题生成的研究;鲍军威;《中国博士学位论文全文数据库 信息科技辑》;20200115(第01期);正文第62-66、78-84页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111767326A (zh) | 2020-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lei et al. | Coupled adversarial training for remote sensing image super-resolution | |
Zheng et al. | SDF‐StyleGAN: Implicit SDF‐Based StyleGAN for 3D Shape Generation | |
KR102169242B1 (ko) | 초해상도 영상 복원을 위한 기계 학습 방법 | |
Li et al. | No-reference and robust image sharpness evaluation based on multiscale spatial and spectral features | |
Halit et al. | Multiscale motion saliency for keyframe extraction from motion capture sequences | |
Zhang et al. | Sparsely grouped multi-task generative adversarial networks for facial attribute manipulation | |
CN108921801B (zh) | 用于生成图像的方法和装置 | |
Miandji et al. | Compressive image reconstruction in reduced union of subspaces | |
CN112883227B (zh) | 一种基于多尺度时序特征的视频摘要生成方法和装置 | |
CN113361646A (zh) | 基于语义信息保留的广义零样本图像识别方法及模型 | |
CN109086830B (zh) | 基于样本惩罚的典型关联分析近重复视频检测方法 | |
CN114022359A (zh) | 图像超分辨率模型训练方法、装置、存储介质及设备 | |
Deng et al. | Learning contextual transformer network for image inpainting | |
CN111767326B (zh) | 基于生成式对抗网络的关系型表格数据的生成方法及装置 | |
CN113313625A (zh) | 水墨画艺术风格转换方法、系统、计算机设备及存储介质 | |
CN117974693B (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
Lin et al. | Context-aware attentional graph U-Net for hyperspectral image classification | |
Celebi et al. | Colour quantisation using the adaptive distributing units algorithm | |
Khan et al. | Sparse to dense depth completion using a generative adversarial network with intelligent sampling strategies | |
Ralašić et al. | Perceptual autoencoder for compressive sensing image reconstruction | |
Wu et al. | Medical image restoration method via multiple nonlocal prior constraints | |
Fan et al. | SNENet: An adaptive stego noise extraction network using parallel dilated convolution for JPEG image steganalysis | |
Sun et al. | Robust Chinese license plate generation via foreground text and background separation | |
Liu et al. | Rocnet: Recursive octree network for efficient 3d deep representation | |
Sun et al. | Reparameterizing and dynamically quantizing image features for image generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |