CN115455668A - 针对表格数据的仿真数据生成方法、装置及电子设备 - Google Patents

针对表格数据的仿真数据生成方法、装置及电子设备 Download PDF

Info

Publication number
CN115455668A
CN115455668A CN202211029674.5A CN202211029674A CN115455668A CN 115455668 A CN115455668 A CN 115455668A CN 202211029674 A CN202211029674 A CN 202211029674A CN 115455668 A CN115455668 A CN 115455668A
Authority
CN
China
Prior art keywords
data
column
cumulative distribution
distribution table
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211029674.5A
Other languages
English (en)
Other versions
CN115455668B (zh
Inventor
付希明
刘川意
韩培义
庄荣飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202211029674.5A priority Critical patent/CN115455668B/zh
Publication of CN115455668A publication Critical patent/CN115455668A/zh
Application granted granted Critical
Publication of CN115455668B publication Critical patent/CN115455668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种针对表格数据的仿真数据生成方法、装置及电子设备,所述方法包括:获取累计分布表及逆累计分布表;根据累计分布表对原始数据做变换,获取变换后每一列均值和列协方差矩阵;根据获取每一列均值和列协方差矩阵生成联合高斯分布数据,最后通过查逆累计分布表仿真数据生成。本发明针对表格数据的仿真数据生成,适用于集中场景和分布式场景,生成仿真数据技术效率高,所需时间短,同时,在分布式情况下的生成数据质量高,尤其是联邦情况和非平衡情况下的仿真数据质量仍然能够满足下游任务和数据探索的需求。

Description

针对表格数据的仿真数据生成方法、装置及电子设备
技术领域
本申请涉及互联网技术领域,特别是涉及一种针对表格数据的仿真数据生成方法、装置及电子设备。
背景技术
随着数据生产要素的提出和不断深化,数据价值的重要性得到广泛认可,例如药厂可以根据医院的医疗数据来辅助医药制造。一方面,很多数据具有高度隐私性,如病人医疗数据涉及到病人隐私,无法直接对外开放。另一方面,我们国家制定了个人信息保护法,对个人数据使用有严格的管理规定。这使得数据的开放比较困难,仿真数据为数据开放提供了有效的手段。
仿真数据生成主要有两种应用:一种是数据挖掘,将仿真数据开放给用户,用户使用仿真数据进行数据挖掘等下游任务。由于仿真数据和真实数据进行数据探索的性能存在一定的差异,因此主要应用于对数据挖掘要求不是特别高的场景;另一种是数据探索和调试:在该应用中,仍然希望对真实数据进行数据挖掘,但是不希望用户直接接触到真实数据。由于接触不到真实数据,前期的数据探索和程序调试就无法进行。采用仿真数据进行数据探索和程序调试,将调试后的程序迁移到真实数据上运行,然后将结果导出。在这两种应用中,都期望生成的仿真数据在数据挖掘中的性能与真实数据接近。
数据生成场景主要分为两种:第一种是集中场景,即所有的原始数据集中在一个节点上;第二种是分布式场景,又叫联邦场景,即原始数据分散在多个节点上。在分布式场景中有两种情况,一种是各个节点的数据量相差不大,称作平衡情况;第二种是各个节点的数据量相差较大,称作非平衡情况。目前在仿真数据生成方面,有两种相关的技术:(1)基于生成对抗网络(GAN)的方法,即通过机器学习技术对真实数据进行模拟,从而生成仿真数据。该方法可以应用在集中场景下和联邦场景下;(2)Gaussian Copula方法,通过数据拟合方法对表格数据的每一列进行拟合,得到其累计分布函数。以然后计算每一列的均值和列之间的协方差。通过均值和协方差生成高斯分布的数据,然后通过累积分布函数逆变换得到仿真数据。上述两种技术生成仿真数据的效率都较低,生成时间较长。尤其是在高维数据的生成中需要较长的时间。如生成一个1200行、18000列的表格数据,Gaussian Copula方法大约需要12小时,基于GAN的方法生成仿真数据大约需要200小时;上述两种技术在分布式情况下的生成数据质量较差,尤其是联邦情况和非平衡情况下的仿真数据质量较差,难以满足下游任务和数据探索的需求。
发明内容
本发明针对上述问题,提供了一种针对表格数据的仿真数据生成方法、装置及电子设备,针对表格数据的仿真数据生成,适用于集中场景和分布式场景,用于解决现有的生成仿真数据技术效率低,生成时间较长以及在分布式情况下的生成数据质量差的问题。
本发明的第一方面,一种针对表格数据的仿真数据生成方法,在集中场景下,针对mn列的原始表格数据,
Figure 141659DEST_PATH_IMAGE001
表示第i行第
Figure 652275DEST_PATH_IMAGE002
列位置的数据,
Figure 635274DEST_PATH_IMAGE003
表示第
Figure 125424DEST_PATH_IMAGE002
列数据,所述方法包括以下步骤:
获取累计分布表及逆累计分布表:将每一列数据
Figure 205375DEST_PATH_IMAGE003
进行区间划分,统计每一个区间内的数据的个数,计算得到每个区间h的概率
Figure 496679DEST_PATH_IMAGE004
,即数据
Figure 357188DEST_PATH_IMAGE003
中的元素取值在第h个区间内的概率为
Figure 759350DEST_PATH_IMAGE004
,根据概率
Figure 693808DEST_PATH_IMAGE004
得到第
Figure 280647DEST_PATH_IMAGE002
列累计分布表
Figure 238239DEST_PATH_IMAGE005
的值
Figure 568726DEST_PATH_IMAGE006
,其中
Figure 357691DEST_PATH_IMAGE007
,根据第
Figure 256377DEST_PATH_IMAGE002
列累计分布表的值
Figure 327363DEST_PATH_IMAGE008
生成第
Figure 868066DEST_PATH_IMAGE002
列的逆累计分布表
Figure 980378DEST_PATH_IMAGE009
获取每一列均值和列协方差矩阵:对每一列数据
Figure 643441DEST_PATH_IMAGE003
,根据累计分布表
Figure 841204DEST_PATH_IMAGE005
变换得到数据
Figure 185598DEST_PATH_IMAGE010
,令
Figure 277050DEST_PATH_IMAGE011
Figure 251960DEST_PATH_IMAGE010
i行位置的数据,
Figure 796073DEST_PATH_IMAGE012
,其中
Figure 944158DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 765484DEST_PATH_IMAGE014
表示查累计分布表,每一列的均值
Figure 802972DEST_PATH_IMAGE015
为:
Figure 444169DEST_PATH_IMAGE016
,令
Figure 458261DEST_PATH_IMAGE017
,根据
Figure 196410DEST_PATH_IMAGE018
得到列协方差矩阵
Figure 778701DEST_PATH_IMAGE019
为:
Figure 31828DEST_PATH_IMAGE020
生成联合高斯分布数据:从均值为
Figure 724977DEST_PATH_IMAGE021
,协方差为
Figure 52054DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 929880DEST_PATH_IMAGE022
仿真数据生成: 对每一列
Figure 545669DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第i行第
Figure 839247DEST_PATH_IMAGE002
列位置的仿真数据为
Figure 115770DEST_PATH_IMAGE024
Figure 508705DEST_PATH_IMAGE025
Figure 2003DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 833693DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 604203DEST_PATH_IMAGE028
为生成的仿真数据。
进一步的,所述逆累计分布表
Figure 292673DEST_PATH_IMAGE009
的取值是累计分布表
Figure 148634DEST_PATH_IMAGE029
的概率值对应区间内的任意一个值。
进一步的,所述生成联合高斯分布数据的替代方法如下:
采用标准正态分布独立地从高斯分布采样得到
Figure 784014DEST_PATH_IMAGE030
,每个元素
Figure 268085DEST_PATH_IMAGE031
Figure 268402DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 983897DEST_PATH_IMAGE032
,其中
Figure 422969DEST_PATH_IMAGE033
通过Cholesky分解
Figure 902492DEST_PATH_IMAGE034
得到。
本发明的第二方面,一种针对表格数据的仿真数据生成方法,在分布式场景下,有
Figure 198344DEST_PATH_IMAGE035
个数据节点,第
Figure 763317DEST_PATH_IMAGE036
个数据节点持有
Figure 740501DEST_PATH_IMAGE037
行数据,总共有
Figure 199164DEST_PATH_IMAGE038
行数据,每一行数据有
Figure 806863DEST_PATH_IMAGE039
列,第
Figure 718187DEST_PATH_IMAGE036
个数据节点的第i行第
Figure 436744DEST_PATH_IMAGE002
列数据记为
Figure 687597DEST_PATH_IMAGE040
,所述方法包括以下步骤:
获取累计分布表及逆累计分布表:统计每个数据节点
Figure 826717DEST_PATH_IMAGE036
中离散列
Figure 366282DEST_PATH_IMAGE002
的取值为a的个数为
Figure 685268DEST_PATH_IMAGE041
,汇聚
Figure 118524DEST_PATH_IMAGE035
个数据节点,得到
Figure 802446DEST_PATH_IMAGE002
列取值为a的个数为
Figure 688362DEST_PATH_IMAGE042
,得到全局概率分布
Figure 811039DEST_PATH_IMAGE043
,根据全局概率分布
Figure 974167DEST_PATH_IMAGE044
得到累计分布表
Figure 953624DEST_PATH_IMAGE045
,其中
Figure 264520DEST_PATH_IMAGE046
,根据累计分布表生成对应的逆累计分布表
Figure 128571DEST_PATH_IMAGE047
获取全局每一列均值和列协方差矩阵:对每一列数据
Figure 506725DEST_PATH_IMAGE003
,根据累计分布表
Figure 63608DEST_PATH_IMAGE005
得到数据
Figure 596221DEST_PATH_IMAGE010
,令
Figure 388596DEST_PATH_IMAGE011
Figure 995158DEST_PATH_IMAGE010
i行位置的数据,
Figure 847576DEST_PATH_IMAGE012
,其中
Figure 867485DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 807759DEST_PATH_IMAGE014
表示查累计分布表,每个节点
Figure 924620DEST_PATH_IMAGE036
在本地计算
Figure 823305DEST_PATH_IMAGE048
Figure 64931DEST_PATH_IMAGE049
,并同步进行汇聚,其中
Figure 434995DEST_PATH_IMAGE050
表示节点
Figure 547307DEST_PATH_IMAGE036
Figure 148053DEST_PATH_IMAGE051
,令
Figure 470450DEST_PATH_IMAGE052
,得到全局每一列均值
Figure 752527DEST_PATH_IMAGE053
,列协方差矩阵
Figure 843979DEST_PATH_IMAGE019
的元素
Figure 615626DEST_PATH_IMAGE054
生成联合高斯分布数据:从均值为
Figure 300685DEST_PATH_IMAGE021
,协方差为
Figure 511087DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 332412DEST_PATH_IMAGE022
仿真数据生成: 对每一列
Figure 540540DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第i行第
Figure 73415DEST_PATH_IMAGE002
列位置的仿真数据为
Figure 962873DEST_PATH_IMAGE024
Figure 28918DEST_PATH_IMAGE025
Figure 80051DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 598757DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 88644DEST_PATH_IMAGE028
为生成的仿真数据。
进一步的,所述生成联合高斯分布数据的替代方法如下:
采用标准正态分布独立地从高斯分布采样得到
Figure 884562DEST_PATH_IMAGE030
,每个元素
Figure 762388DEST_PATH_IMAGE031
Figure 378177DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 406176DEST_PATH_IMAGE032
,其中
Figure 682699DEST_PATH_IMAGE033
通过Cholesky分解
Figure 341213DEST_PATH_IMAGE034
得到。
本发明的第三方面,提供了一种针对表格数据的仿真数据生成装置,所述装置运行在集中场景下,针对mn列的原始表格数据,
Figure 834511DEST_PATH_IMAGE001
表示第i行第
Figure 666201DEST_PATH_IMAGE002
列位置的数据,
Figure 171132DEST_PATH_IMAGE003
表示第
Figure 125181DEST_PATH_IMAGE002
列数据,所述装置包括:
获取累计分布表及逆累计分布表单元,用于将每一列数据
Figure 777880DEST_PATH_IMAGE003
进行区间划分,统计每一个区间内的数据的个数,计算得到每个区间h的概率
Figure 350943DEST_PATH_IMAGE004
,即数据
Figure 835014DEST_PATH_IMAGE003
中的元素取值在第h个区间内的概率为
Figure 897648DEST_PATH_IMAGE004
,根据概率
Figure 975326DEST_PATH_IMAGE004
得到第
Figure 978179DEST_PATH_IMAGE002
列累计分布表
Figure 457702DEST_PATH_IMAGE005
的值
Figure 691237DEST_PATH_IMAGE006
,其中
Figure 115265DEST_PATH_IMAGE007
,根据第
Figure 30132DEST_PATH_IMAGE002
列累计分布表的值
Figure 426478DEST_PATH_IMAGE008
生成第
Figure 158810DEST_PATH_IMAGE002
列的逆累计分布表
Figure 945501DEST_PATH_IMAGE009
获取每一列均值和列协方差矩阵单元,用于对每一列数据
Figure 788692DEST_PATH_IMAGE003
,根据累计分布表
Figure 242807DEST_PATH_IMAGE005
变换得到数据
Figure 818145DEST_PATH_IMAGE010
,令
Figure 983809DEST_PATH_IMAGE011
Figure 240478DEST_PATH_IMAGE010
i行位置的数据,
Figure 345838DEST_PATH_IMAGE012
,其中
Figure 419973DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 915676DEST_PATH_IMAGE014
表示查累计分布表,每一列的均值
Figure 366249DEST_PATH_IMAGE015
为:
Figure 326115DEST_PATH_IMAGE016
,令
Figure 180938DEST_PATH_IMAGE017
,根据
Figure 819730DEST_PATH_IMAGE018
得到列协方差矩阵
Figure 480519DEST_PATH_IMAGE019
为:
Figure 498153DEST_PATH_IMAGE020
生成联合高斯分布数据单元,用于从均值为
Figure 403837DEST_PATH_IMAGE021
,协方差为
Figure 139712DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 338612DEST_PATH_IMAGE022
仿真数据生成单元,用于对每一列
Figure 600966DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第i行第
Figure 63172DEST_PATH_IMAGE002
列位置的仿真数据为
Figure 817501DEST_PATH_IMAGE024
Figure 413567DEST_PATH_IMAGE025
Figure 140215DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 897955DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 405160DEST_PATH_IMAGE028
为生成的仿真数据。
进一步的,所述生成联合高斯分布数据单元的另一种实现方法为:
采用标准正态分布独立地从高斯分布采样得到
Figure 414704DEST_PATH_IMAGE030
,每个元素
Figure 621957DEST_PATH_IMAGE031
Figure 691544DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 420466DEST_PATH_IMAGE032
,其中
Figure 358335DEST_PATH_IMAGE033
通过Cholesky分解
Figure 59575DEST_PATH_IMAGE034
得到。
本发明的第四方面,提供了一种针对表格数据的仿真数据生成装置,所述装置运行在分布式场景下,有
Figure 831221DEST_PATH_IMAGE035
个数据节点,第
Figure 640914DEST_PATH_IMAGE036
个数据节点持有
Figure 726682DEST_PATH_IMAGE037
行数据,总共有
Figure 672641DEST_PATH_IMAGE038
行数据,每一行数据有
Figure 615190DEST_PATH_IMAGE039
列,第
Figure 521966DEST_PATH_IMAGE036
个数据节点的第i行第
Figure 37523DEST_PATH_IMAGE002
列数据记为
Figure 713355DEST_PATH_IMAGE040
,所述装置包括:
获取累计分布表及逆累计分布表单元,用于统计每个数据节点
Figure 92384DEST_PATH_IMAGE036
中离散列
Figure 345511DEST_PATH_IMAGE002
的取值为a的个数为
Figure 38660DEST_PATH_IMAGE041
,汇聚
Figure 631315DEST_PATH_IMAGE035
个数据节点,得到
Figure 509142DEST_PATH_IMAGE002
列取值为a的个数为
Figure 859351DEST_PATH_IMAGE042
,得到全局概率分布
Figure 480826DEST_PATH_IMAGE043
,根据全局概率分布
Figure 927988DEST_PATH_IMAGE044
得到累计分布表
Figure 852081DEST_PATH_IMAGE045
,其中
Figure 581265DEST_PATH_IMAGE046
,根据累计分布表生成对应的逆累计分布表
Figure 412955DEST_PATH_IMAGE047
获取全局每一列均值和列协方差矩阵单元,用于对每一列数据
Figure 917885DEST_PATH_IMAGE003
,根据累计分布表
Figure 871935DEST_PATH_IMAGE005
得到数据
Figure 462316DEST_PATH_IMAGE010
,令
Figure 97697DEST_PATH_IMAGE011
Figure 847347DEST_PATH_IMAGE010
i行位置的数据,
Figure 847664DEST_PATH_IMAGE012
,其中
Figure 49975DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 223468DEST_PATH_IMAGE014
表示查累计分布表,每个节点
Figure 702991DEST_PATH_IMAGE036
在本地计算
Figure 500308DEST_PATH_IMAGE048
Figure 65281DEST_PATH_IMAGE049
,并同步进行汇聚,其中
Figure 42464DEST_PATH_IMAGE050
表示节点
Figure 501128DEST_PATH_IMAGE036
Figure 108827DEST_PATH_IMAGE051
,令
Figure 692255DEST_PATH_IMAGE052
,得到全局每一列均值
Figure 801025DEST_PATH_IMAGE053
,列协方差矩阵
Figure 989561DEST_PATH_IMAGE019
的元素
Figure 564899DEST_PATH_IMAGE054
生成联合高斯分布数据单元,用于从均值为
Figure 963519DEST_PATH_IMAGE021
,协方差为
Figure 220188DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 154908DEST_PATH_IMAGE022
仿真数据生成单元,用于对每一列
Figure 901147DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第i行第
Figure 662430DEST_PATH_IMAGE002
列位置的仿真数据为
Figure 847424DEST_PATH_IMAGE024
Figure 276131DEST_PATH_IMAGE025
Figure 193271DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 300905DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 164955DEST_PATH_IMAGE028
为生成的仿真数据。
进一步的,所述生成联合高斯分布数据单元的另一种实现方法为:
采用标准正态分布独立地从高斯分布采样得到
Figure 244907DEST_PATH_IMAGE030
,每个元素
Figure 395265DEST_PATH_IMAGE031
Figure 131140DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 595620DEST_PATH_IMAGE032
,其中
Figure 359439DEST_PATH_IMAGE033
通过Cholesky分解
Figure 556065DEST_PATH_IMAGE034
得到。
本发明的第五方面,提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述针对表格数据的仿真数据生成方法。
本发明提供的一种针对表格数据的仿真数据生成方法、装置及电子设备,针对表格数据的仿真数据生成,适用于集中场景和分布式场景,用于解决现有的生成仿真数据技术效率低,生成时间较长以及在分布式情况下的生成数据质量差的问题,本发明的有益效果为:生成仿真数据技术效率高,所需时间短;在分布式情况下的生成数据质量高,尤其是联邦情况和非平衡情况下的仿真数据质量仍然能够满足下游任务和数据探索的需求。
附图说明
图1是本发明实施例1中针对表格数据的仿真数据生成方法流程图;
图2是本发明实施例2中针对表格数据的仿真数据生成方法流程示意图;
图3是本发明实施例3中针对表格数据的仿真数据生成装置结构示意图;
图4是本发明实施例4中针对表格数据的仿真数据生成装置结构示意图;
图5是本发明实施例5中一种电子设备的架构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅出示了与本发明相关的部分而非全部结构。
本发明实施例针对一种针对表格数据的仿真数据生成方法、装置及电子设备,提供了如下实施例:
基于本发明的实施例1
如图1所示,为本发明实施例1的一种针对表格数据的仿真数据生成方法流程图,实施例1在集中场景下,针对mn列的原始表格数据,
Figure 575973DEST_PATH_IMAGE001
表示第i行第
Figure 172040DEST_PATH_IMAGE002
列位置的数据,
Figure 898687DEST_PATH_IMAGE003
表示第
Figure 328532DEST_PATH_IMAGE002
列数据,具体步骤为:
S110、获取累计分布表及逆累计分布表:将每一列数据
Figure 163632DEST_PATH_IMAGE003
根据精度需要进行区间划分,即每个区间长度不超过精度的大小,统计每一个区间内的数据的个数,计算得到每个区间h的概率
Figure 907598DEST_PATH_IMAGE004
,即数据
Figure 878965DEST_PATH_IMAGE003
中的元素取值在第h个区间内的概率为
Figure 745289DEST_PATH_IMAGE004
,根据概率
Figure 677473DEST_PATH_IMAGE004
得到第
Figure 851228DEST_PATH_IMAGE002
列累计分布表的值
Figure 552468DEST_PATH_IMAGE006
,其中
Figure 589694DEST_PATH_IMAGE007
,根据第
Figure 868228DEST_PATH_IMAGE002
列累计分布表的值
Figure 219575DEST_PATH_IMAGE008
生成第
Figure 837639DEST_PATH_IMAGE002
列的逆累计分布表
Figure 373662DEST_PATH_IMAGE009
具体实施过程中,将每一列数据
Figure 14859DEST_PATH_IMAGE003
根据需要的精度进行区间划分,统计每一个区间内的数据的个数,进而可以计算得到每个区间h的概率
Figure 294531DEST_PATH_IMAGE004
,即数据
Figure 767100DEST_PATH_IMAGE003
中的元素取值在第h个区间内的概率为
Figure 349391DEST_PATH_IMAGE004
。进而得到第
Figure 381281DEST_PATH_IMAGE002
列累计分布表的值
Figure 808851DEST_PATH_IMAGE006
,其中
Figure 729403DEST_PATH_IMAGE007
Figure 13754DEST_PATH_IMAGE055
时,
Figure 895122DEST_PATH_IMAGE056
。然后计算累计分布表
Figure 251017DEST_PATH_IMAGE057
的逆表
Figure 901441DEST_PATH_IMAGE009
,称作第
Figure 950168DEST_PATH_IMAGE002
列的逆累计分布表。
优选地,由于累计分布表的概率值对应的是一个区间,在生成逆累计分布表的时候,逆累计分布表
Figure 849991DEST_PATH_IMAGE009
的取值是累计分布表
Figure 884943DEST_PATH_IMAGE057
的概率值对应区间内的任意一个值。
S120、获取每一列均值和列协方差矩阵:对每一列数据
Figure 15973DEST_PATH_IMAGE003
,根据累计分布表
Figure 110968DEST_PATH_IMAGE005
变换得到数据
Figure 498087DEST_PATH_IMAGE010
,令
Figure 195784DEST_PATH_IMAGE011
Figure 820801DEST_PATH_IMAGE010
i行位置的数据,
Figure 883435DEST_PATH_IMAGE012
,其中
Figure 85746DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 196921DEST_PATH_IMAGE014
表示查累计分布表,每一列的均值
Figure 473182DEST_PATH_IMAGE015
为:
Figure 34613DEST_PATH_IMAGE016
,令
Figure 334008DEST_PATH_IMAGE017
,根据
Figure 140552DEST_PATH_IMAGE018
得到列协方差矩阵
Figure 271319DEST_PATH_IMAGE019
为:
Figure 879018DEST_PATH_IMAGE020
S130、生成联合高斯分布数据:从均值为
Figure 790342DEST_PATH_IMAGE021
,协方差为
Figure 774478DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 759752DEST_PATH_IMAGE022
优选地,生成联合高斯分布数据也可以用另一种方法替代,如下:
采用标准正态分布独立地从高斯分布采样得到
Figure 397407DEST_PATH_IMAGE030
,每个元素
Figure 936972DEST_PATH_IMAGE031
,由于该随机数生成不依赖于原始数据,因此该操作可以离线操作。
Figure 255958DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 689214DEST_PATH_IMAGE032
,记第i行第
Figure 373136DEST_PATH_IMAGE002
列位置的数据为
Figure 196735DEST_PATH_IMAGE058
,其中
Figure 883194DEST_PATH_IMAGE033
通过Cholesky分解
Figure 46322DEST_PATH_IMAGE034
得到。
S140、仿真数据生成:对每一列
Figure 291359DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第i行第
Figure 336675DEST_PATH_IMAGE002
列位置的仿真数据为
Figure 200726DEST_PATH_IMAGE024
Figure 342994DEST_PATH_IMAGE025
Figure 634298DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 166911DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 959286DEST_PATH_IMAGE028
为生成的仿真数据。
基于本发明的实施例2
如图2所示,为本发明实施例2的一种针对表格数据的仿真数据生成方法流程图,实施例2在分布式场景下,分布式场景与实施例1中的集中场景的仿真数据生成方法类似,不同的是由于缺失全局数据的累计分布表、均值和协方差,需要每个节点在本地计算局部信息并聚合得到全局的累计分布表、均值和协方差。在分布式场景下,需要一个汇聚节点对每个节点的局部信息进行汇聚,从而得到全局累计分布表、均值和协方差。在实际系统中,任意一个节点可以充当汇聚节点的作用,也可以单独设置一个节点作为汇聚节点。在调试环境和运行环境分析的数据沙箱场景中,调试环境充当汇聚节点的作用。
令分布式场景有
Figure 831427DEST_PATH_IMAGE035
个数据节点,第
Figure 919731DEST_PATH_IMAGE036
个数据节点持有
Figure 142902DEST_PATH_IMAGE037
行数据,总共有
Figure 145493DEST_PATH_IMAGE038
行数据,每一行数据有
Figure 465616DEST_PATH_IMAGE039
列,第
Figure 488936DEST_PATH_IMAGE036
个数据节点的第i行第
Figure 996141DEST_PATH_IMAGE002
列数据记为
Figure 740106DEST_PATH_IMAGE040
,方法包括以下步骤:
S210、获取累计分布表及逆累计分布表:统计每个数据节点
Figure 977052DEST_PATH_IMAGE036
中离散列
Figure 515481DEST_PATH_IMAGE002
的取值为a的个数为
Figure 509981DEST_PATH_IMAGE041
,汇聚
Figure 683736DEST_PATH_IMAGE035
个数据节点,并将其同步给汇聚节点,得到
Figure 384976DEST_PATH_IMAGE002
列取值为a的个数为
Figure 750098DEST_PATH_IMAGE059
,得到全局概率分布
Figure 966316DEST_PATH_IMAGE043
,根据全局概率分布
Figure 317663DEST_PATH_IMAGE044
得到累计分布表
Figure 998043DEST_PATH_IMAGE045
,其中
Figure 409433DEST_PATH_IMAGE046
Figure 112946DEST_PATH_IMAGE055
时,
Figure 861459DEST_PATH_IMAGE060
,根据累计分布表生成对应的逆累计分布表
Figure 802871DEST_PATH_IMAGE047
,汇聚节点将累计分布表
Figure 181899DEST_PATH_IMAGE057
及其逆表
Figure 202070DEST_PATH_IMAGE009
下发给各个数据节点。
S220 、获取全局每一列均值和列协方差矩阵:按照集中场景下的数据变换方法,对每一列数据
Figure 629641DEST_PATH_IMAGE003
,根据累计分布表
Figure 284613DEST_PATH_IMAGE057
得到数据
Figure 834543DEST_PATH_IMAGE010
,令
Figure 450332DEST_PATH_IMAGE011
Figure 71806DEST_PATH_IMAGE010
i行位置的数据,
Figure 518968DEST_PATH_IMAGE012
Figure 911903DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 405201DEST_PATH_IMAGE014
表示查累计分布表,每个节点
Figure 236891DEST_PATH_IMAGE036
在本地计算
Figure 7401DEST_PATH_IMAGE048
Figure 197336DEST_PATH_IMAGE049
,并同步进行汇聚给汇聚节点。其中
Figure 850035DEST_PATH_IMAGE050
表示节点
Figure 688678DEST_PATH_IMAGE036
Figure 907169DEST_PATH_IMAGE051
,令
Figure 173066DEST_PATH_IMAGE052
,得到全局每一列均值
Figure 47481DEST_PATH_IMAGE053
,列协方差矩阵
Figure 814448DEST_PATH_IMAGE019
的元素
Figure 28392DEST_PATH_IMAGE054
,其中
Figure 589823DEST_PATH_IMAGE061
Figure 951535DEST_PATH_IMAGE062
的计算方式相同,计算得到全局均值
Figure 866401DEST_PATH_IMAGE062
和列协方差矩阵
Figure 814810DEST_PATH_IMAGE019
后,汇聚节点将均值
Figure 219247DEST_PATH_IMAGE062
和列协方差矩阵
Figure 271516DEST_PATH_IMAGE019
下发给数据节点,数据节点接下来按照集中场景下仿真数据即可。
S230 、生成联合高斯分布数据:从均值为
Figure 849128DEST_PATH_IMAGE021
,协方差为
Figure 303243DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 878581DEST_PATH_IMAGE022
优选地,生成联合高斯分布数据的另一种替代方法有:
采用标准正态分布独立地从高斯分布采样得到
Figure 542781DEST_PATH_IMAGE030
,每个元素
Figure 799450DEST_PATH_IMAGE031
Figure 232705DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 182207DEST_PATH_IMAGE032
,其中
Figure 740227DEST_PATH_IMAGE033
通过Cholesky分解
Figure 426685DEST_PATH_IMAGE034
得到。
S240 、仿真数据生成: 对每一列
Figure 589813DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第
Figure 506954DEST_PATH_IMAGE063
行第
Figure 145746DEST_PATH_IMAGE064
列位置的仿真数据为
Figure 744217DEST_PATH_IMAGE024
Figure 886486DEST_PATH_IMAGE025
Figure 240106DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 710402DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 502778DEST_PATH_IMAGE028
为生成的仿真数据。
基于本发明的实施例3
本发明实施例3所提供的一种针对表格数据的仿真数据生成装置300可执行本发明实施例1所提供的针对表格数据的仿真数据生成方法,具备执行方法相应的功能模块和有益效果,该装置可以由软件和/或硬件(集成电路)的方式实现,并一般可集成于服务器或终端设备中。图3是本发明实施例3中的针对表格数据的仿真数据生成装置300的结构示意图。装置300运行在集中场景下,针对mn列的原始表格数据,
Figure 171656DEST_PATH_IMAGE001
表示第i行第
Figure 899441DEST_PATH_IMAGE002
列位置的数据,
Figure 483131DEST_PATH_IMAGE003
表示第
Figure 688985DEST_PATH_IMAGE002
列数据,参照图3,本发明实施例的针对表格数据的仿真数据生成装置300具体可以包括:
获取累计分布表及逆累计分布表单元310,用于将每一列数据
Figure 477949DEST_PATH_IMAGE003
进行区间划分,统计每一个区间内的数据的个数,计算得到每个区间h的概率
Figure 235690DEST_PATH_IMAGE004
,即数据
Figure 680577DEST_PATH_IMAGE003
中的元素取值在第h个区间内的概率为
Figure 486859DEST_PATH_IMAGE004
,根据概率
Figure 723806DEST_PATH_IMAGE004
得到第
Figure 262234DEST_PATH_IMAGE002
列累计分布表
Figure 584631DEST_PATH_IMAGE005
的值
Figure 929025DEST_PATH_IMAGE006
,其中
Figure 895844DEST_PATH_IMAGE007
,根据第
Figure 231273DEST_PATH_IMAGE002
列累计分布表的值
Figure 713069DEST_PATH_IMAGE008
生成第
Figure 64416DEST_PATH_IMAGE002
列的逆累计分布表
Figure 744796DEST_PATH_IMAGE009
获取每一列均值和列协方差矩阵单元320,用于对每一列数据
Figure 156186DEST_PATH_IMAGE003
,根据累计分布表
Figure 859700DEST_PATH_IMAGE005
变换得到数据
Figure 873792DEST_PATH_IMAGE010
,令
Figure 549624DEST_PATH_IMAGE011
Figure 990970DEST_PATH_IMAGE010
i行位置的数据,
Figure 181780DEST_PATH_IMAGE012
,其中
Figure 874929DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 31367DEST_PATH_IMAGE014
表示查累计分布表,每一列的均值
Figure 784559DEST_PATH_IMAGE015
为:
Figure 462665DEST_PATH_IMAGE016
,令
Figure 552981DEST_PATH_IMAGE017
,根据
Figure 203405DEST_PATH_IMAGE018
得到列协方差矩阵
Figure 924236DEST_PATH_IMAGE019
为:
Figure 417534DEST_PATH_IMAGE020
生成联合高斯分布数据单元330,用于从均值为
Figure 186907DEST_PATH_IMAGE021
,协方差为
Figure 816472DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 708204DEST_PATH_IMAGE022
仿真数据生成单元340,用于对每一列
Figure 298586DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第i行第
Figure 497748DEST_PATH_IMAGE002
列位置的仿真数据为
Figure 919502DEST_PATH_IMAGE024
Figure 185398DEST_PATH_IMAGE025
Figure 122130DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 764464DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 368621DEST_PATH_IMAGE028
为生成的仿真数据。
优选地,生成联合高斯分布数据单元330的另一种实现方法为:
采用标准正态分布独立地从高斯分布采样得到
Figure 602156DEST_PATH_IMAGE030
,每个元素
Figure 901551DEST_PATH_IMAGE031
Figure 941051DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 337397DEST_PATH_IMAGE032
,其中
Figure 679517DEST_PATH_IMAGE033
通过Cholesky分解
Figure 357885DEST_PATH_IMAGE034
得到。
除了上述4个单元以外,装置300还可以包括其他部件,然而,由于这些部件与本公开实施例的内容无关,因此在这里省略其图示和描述。
一种针对表格数据的仿真数据生成装置300的具体工作过程参照上述针对表格数据的仿真数据生成方法实施例1的描述,不再赘述。
基于本发明的实施例4
本发明实施例4所提供的一种针对表格数据的仿真数据生成装置400可执行本发明实施例2所提供的针对表格数据的仿真数据生成方法,具备执行方法相应的功能模块和有益效果,该装置可以由软件和/或硬件(集成电路)的方式实现,并一般可集成于服务器或终端设备中。图4是本发明实施例4中的针对表格数据的仿真数据生成装置400的结构示意图。装置400运行在分布式场景下,有
Figure 76442DEST_PATH_IMAGE035
个数据节点,第
Figure 327295DEST_PATH_IMAGE036
个数据节点持有
Figure 964950DEST_PATH_IMAGE037
行数据,总共有
Figure 504515DEST_PATH_IMAGE038
行数据,每一行数据有
Figure 823501DEST_PATH_IMAGE039
列,第
Figure 256757DEST_PATH_IMAGE036
个数据节点的第i行第
Figure 940679DEST_PATH_IMAGE002
列数据记为
Figure 826595DEST_PATH_IMAGE040
,参照图4,本发明实施例的针对表格数据的仿真数据生成装置400具体可以包括:
获取累计分布表及逆累计分布表单元410,用于统计每个数据节点
Figure 949272DEST_PATH_IMAGE036
中离散列
Figure 112400DEST_PATH_IMAGE002
的取值为a的个数为
Figure 593322DEST_PATH_IMAGE041
,汇聚
Figure 107480DEST_PATH_IMAGE035
个数据节点,得到
Figure 768269DEST_PATH_IMAGE002
列取值为a的个数为
Figure 910537DEST_PATH_IMAGE042
,得到全局概率分布
Figure 201841DEST_PATH_IMAGE043
,根据全局概率分布
Figure 62350DEST_PATH_IMAGE044
得到累计分布表
Figure 261250DEST_PATH_IMAGE045
,其中
Figure 133391DEST_PATH_IMAGE046
,根据累计分布表生成对应的逆累计分布表
Figure 985809DEST_PATH_IMAGE047
获取全局每一列均值和列协方差矩阵单元420,用于对每一列数据
Figure 740139DEST_PATH_IMAGE003
,根据累计分布表
Figure 945992DEST_PATH_IMAGE005
得到数据
Figure 576036DEST_PATH_IMAGE010
,令
Figure 209143DEST_PATH_IMAGE011
Figure 716348DEST_PATH_IMAGE010
i行位置的数据,
Figure 584947DEST_PATH_IMAGE012
,其中
Figure 431680DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 298005DEST_PATH_IMAGE014
表示查累计分布表,每个节点
Figure 354822DEST_PATH_IMAGE036
在本地计算
Figure 168058DEST_PATH_IMAGE048
Figure 259510DEST_PATH_IMAGE049
,并同步进行汇聚,其中
Figure 234420DEST_PATH_IMAGE050
表示节点
Figure 279998DEST_PATH_IMAGE036
Figure 631345DEST_PATH_IMAGE051
,令
Figure 249408DEST_PATH_IMAGE052
,得到全局每一列均值
Figure 519853DEST_PATH_IMAGE053
,列协方差矩阵
Figure 161050DEST_PATH_IMAGE019
的元素
Figure 440721DEST_PATH_IMAGE054
生成联合高斯分布数据单元430,用于从均值为
Figure 913291DEST_PATH_IMAGE021
,协方差为
Figure 230003DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 748709DEST_PATH_IMAGE022
仿真数据生成单元440,用于对每一列
Figure 238596DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第i行第
Figure 34514DEST_PATH_IMAGE002
列位置的仿真数据为
Figure 413805DEST_PATH_IMAGE024
Figure 764015DEST_PATH_IMAGE025
Figure 385489DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 832651DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 756744DEST_PATH_IMAGE028
为生成的仿真数据。
优选地,生成联合高斯分布数据单元430的另一种实现方法为:
采用标准正态分布独立地从高斯分布采样得到
Figure 984463DEST_PATH_IMAGE030
,每个元素
Figure 816153DEST_PATH_IMAGE031
Figure 321084DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 275133DEST_PATH_IMAGE032
,其中
Figure 865515DEST_PATH_IMAGE033
通过Cholesky分解
Figure 500895DEST_PATH_IMAGE034
得到。
除了上述4个单元以外,装置400还可以包括其他部件,然而,由于这些部件与本公开实施例的内容无关,因此在这里省略其图示和描述。
一种针对表格数据的仿真数据生成装置400的具体工作过程参照上述针对表格数据的仿真数据生成方法实施例2的描述,不再赘述。
基于本发明的实施例5
根据本发明实施例的系统也可以借助于图5所示的电子设备的架构来实现。图5示出了该电子设备的架构。如图5所示,计算系统510、系统总线530、一个或多个CPU 540、输入/输出组件520、存储器550等。存储器550可以存储计算机处理和/或通信使用的各种数据或文件以及CPU所执行包括实施例1和实施2方法的程序指令。图5所示的架构只是示例性的,在实现不同的电子设备时,根据实际需要调整图5中的一个或多个组件。
另外,在上述电子设备的实施例中,应理解,处理器可以是中央处理单元 (英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:ApplicationSpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,而前述的存储器可以是只读存储器(英文:read-onlymemory,缩写:ROM)、随机存取存储器(英文:random access memory,简称:RAM)、快闪存储器、硬盘或者固态硬盘。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
综合上述各实施例提供的一种针对表格数据的仿真数据生成方法、装置及电子设备,针对表格数据的仿真数据生成,适用于集中场景和分布式场景,用于解决现有的生成仿真数据技术效率低,生成时间较长以及在分布式情况下的生成数据质量差的问题,本发明的有益效果为:生成仿真数据技术效率高,所需时间短;在分布式情况下的生成数据质量高,尤其是联邦情况和非平衡情况下的仿真数据质量仍然能够满足下游任务和数据探索的需求。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种针对表格数据的仿真数据生成方法,在集中场景下,针对mn列的原始表格数据,
Figure 735805DEST_PATH_IMAGE001
表示第i行第
Figure 126336DEST_PATH_IMAGE002
列位置的数据,
Figure 469592DEST_PATH_IMAGE003
表示第
Figure 111926DEST_PATH_IMAGE002
列数据,其特征在于,所述方法包括以下步骤:
获取累计分布表及逆累计分布表:将每一列数据
Figure 716083DEST_PATH_IMAGE003
进行区间划分,统计每一个区间内的数据的个数,计算得到每个区间h的概率
Figure 418460DEST_PATH_IMAGE004
,即数据
Figure 983433DEST_PATH_IMAGE003
中的元素取值在第h个区间内的概率为
Figure 55557DEST_PATH_IMAGE004
,根据概率
Figure 655165DEST_PATH_IMAGE004
得到第
Figure 528443DEST_PATH_IMAGE002
列累计分布表
Figure 439767DEST_PATH_IMAGE005
的值
Figure 689483DEST_PATH_IMAGE006
,其中
Figure 268232DEST_PATH_IMAGE007
,根据第
Figure 312411DEST_PATH_IMAGE002
列累计分布表的值
Figure 586398DEST_PATH_IMAGE008
生成第
Figure 233280DEST_PATH_IMAGE002
列的逆累计分布表
Figure 807481DEST_PATH_IMAGE009
获取每一列均值和列协方差矩阵:对每一列数据
Figure 22561DEST_PATH_IMAGE003
,根据累计分布表
Figure 675522DEST_PATH_IMAGE005
变换得到数据
Figure 1461DEST_PATH_IMAGE010
,令
Figure 554802DEST_PATH_IMAGE011
Figure 940784DEST_PATH_IMAGE010
i行位置的数据,
Figure 189363DEST_PATH_IMAGE012
,其中
Figure 443627DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 726840DEST_PATH_IMAGE014
表示查累计分布表,每一列的均值
Figure 283724DEST_PATH_IMAGE015
为:
Figure 144232DEST_PATH_IMAGE016
,令
Figure 77553DEST_PATH_IMAGE017
,根据
Figure 853091DEST_PATH_IMAGE018
得到列协方差矩阵
Figure 580876DEST_PATH_IMAGE019
为:
Figure 804046DEST_PATH_IMAGE020
生成联合高斯分布数据:从均值为
Figure 665692DEST_PATH_IMAGE021
,协方差为
Figure 657919DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 415659DEST_PATH_IMAGE022
仿真数据生成: 对每一列
Figure 391706DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第i行第
Figure 401250DEST_PATH_IMAGE002
列位置的仿真数据为
Figure 372617DEST_PATH_IMAGE024
Figure 707783DEST_PATH_IMAGE025
Figure 266066DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 344880DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 46120DEST_PATH_IMAGE028
为生成的仿真数据。
2.根据权利要求1所述的针对表格数据的仿真数据生成方法,其特征在于,所述逆累计分布表
Figure 676822DEST_PATH_IMAGE009
的取值是累计分布表
Figure 96302DEST_PATH_IMAGE029
的概率值对应区间内的任意一个值。
3.根据权利要求1所述的针对表格数据的仿真数据生成方法,其特征在于,所述生成联合高斯分布数据的替代方法如下:
采用标准正态分布独立地从高斯分布采样得到
Figure 572282DEST_PATH_IMAGE030
,每个元素
Figure 659187DEST_PATH_IMAGE031
Figure 70577DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 367566DEST_PATH_IMAGE032
,其中
Figure 788183DEST_PATH_IMAGE033
通过Cholesky分解
Figure 464015DEST_PATH_IMAGE034
得到。
4.一种针对表格数据的仿真数据生成方法,在分布式场景下,有
Figure 937984DEST_PATH_IMAGE035
个数据节点,第
Figure 332056DEST_PATH_IMAGE036
个数据节点持有
Figure 290785DEST_PATH_IMAGE037
行数据,总共有
Figure 211336DEST_PATH_IMAGE038
行数据,每一行数据有
Figure 964529DEST_PATH_IMAGE039
列,第
Figure 970531DEST_PATH_IMAGE036
个数据节点的第i行第
Figure 732950DEST_PATH_IMAGE002
列数据记为
Figure 383375DEST_PATH_IMAGE040
,其特征在于,所述方法包括以下步骤:
获取累计分布表及逆累计分布表:统计每个数据节点
Figure 697681DEST_PATH_IMAGE036
中离散列
Figure 800767DEST_PATH_IMAGE002
的取值为a的个数为
Figure 101298DEST_PATH_IMAGE041
,汇聚
Figure 497906DEST_PATH_IMAGE035
个数据节点,得到
Figure 858481DEST_PATH_IMAGE002
列取值为a的个数为
Figure 714441DEST_PATH_IMAGE042
,得到全局概率分布
Figure 677718DEST_PATH_IMAGE043
,根据全局概率分布
Figure 302734DEST_PATH_IMAGE044
得到累计分布表
Figure 958844DEST_PATH_IMAGE045
,其中
Figure 302100DEST_PATH_IMAGE046
,根据累计分布表生成对应的逆累计分布表
Figure 678855DEST_PATH_IMAGE047
获取全局每一列均值和列协方差矩阵:对每一列数据
Figure 548591DEST_PATH_IMAGE003
,根据累计分布表
Figure 985388DEST_PATH_IMAGE005
得到数据
Figure 815941DEST_PATH_IMAGE010
,令
Figure 622485DEST_PATH_IMAGE011
Figure 956515DEST_PATH_IMAGE010
i行位置的数据,
Figure 954427DEST_PATH_IMAGE012
,其中
Figure 6696DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 115467DEST_PATH_IMAGE014
表示查累计分布表,每个节点
Figure 569582DEST_PATH_IMAGE036
在本地计算
Figure 348182DEST_PATH_IMAGE048
Figure 746802DEST_PATH_IMAGE049
,并同步进行汇聚,其中
Figure 534630DEST_PATH_IMAGE050
表示节点
Figure 734929DEST_PATH_IMAGE036
Figure 684430DEST_PATH_IMAGE051
,令
Figure 976872DEST_PATH_IMAGE052
,得到全局每一列均值
Figure 161865DEST_PATH_IMAGE053
,列协方差矩阵
Figure 590573DEST_PATH_IMAGE019
的元素
Figure 101188DEST_PATH_IMAGE054
生成联合高斯分布数据:从均值为
Figure 615346DEST_PATH_IMAGE021
,协方差为
Figure 479397DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 152824DEST_PATH_IMAGE022
仿真数据生成: 对每一列
Figure 444128DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第i行第
Figure 445582DEST_PATH_IMAGE002
列位置的仿真数据为
Figure 739422DEST_PATH_IMAGE024
Figure 142722DEST_PATH_IMAGE025
Figure 729561DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 218311DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 424165DEST_PATH_IMAGE028
为生成的仿真数据。
5.根据权利要求4所述的针对表格数据的仿真数据生成方法,其特征在于,所述生成联合高斯分布数据的替代方法如下:
采用标准正态分布独立地从高斯分布采样得到
Figure 806604DEST_PATH_IMAGE030
,每个元素
Figure 705290DEST_PATH_IMAGE031
Figure 681336DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 549935DEST_PATH_IMAGE032
,其中
Figure 927827DEST_PATH_IMAGE033
通过Cholesky分解
Figure 357934DEST_PATH_IMAGE034
得到。
6.一种针对表格数据的仿真数据生成装置,所述装置运行在集中场景下,针对mn列的原始表格数据,
Figure 821276DEST_PATH_IMAGE001
表示第i行第
Figure 368932DEST_PATH_IMAGE002
列位置的数据,
Figure 460385DEST_PATH_IMAGE003
表示第
Figure 700873DEST_PATH_IMAGE002
列数据,其特征在于,所述装置包括:
获取累计分布表及逆累计分布表单元,用于将每一列数据
Figure 510566DEST_PATH_IMAGE003
进行区间划分,统计每一个区间内的数据的个数,计算得到每个区间h的概率
Figure 861913DEST_PATH_IMAGE004
,即数据
Figure 948818DEST_PATH_IMAGE003
中的元素取值在第h个区间内的概率为
Figure 484841DEST_PATH_IMAGE004
,根据概率
Figure 657197DEST_PATH_IMAGE004
得到第
Figure 161035DEST_PATH_IMAGE002
列累计分布表
Figure 102446DEST_PATH_IMAGE005
的值
Figure 809371DEST_PATH_IMAGE006
,其中
Figure 469023DEST_PATH_IMAGE007
,根据第
Figure 162172DEST_PATH_IMAGE002
列累计分布表的值
Figure 82724DEST_PATH_IMAGE008
生成第
Figure 835916DEST_PATH_IMAGE002
列的逆累计分布表
Figure 982864DEST_PATH_IMAGE009
获取每一列均值和列协方差矩阵单元,用于对每一列数据
Figure 604338DEST_PATH_IMAGE003
,根据累计分布表
Figure 520341DEST_PATH_IMAGE005
变换得到数据
Figure 804954DEST_PATH_IMAGE010
,令
Figure 439198DEST_PATH_IMAGE011
Figure 474150DEST_PATH_IMAGE010
i行位置的数据,
Figure 369294DEST_PATH_IMAGE012
,其中
Figure 464289DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 444883DEST_PATH_IMAGE014
表示查累计分布表,每一列的均值
Figure 283526DEST_PATH_IMAGE015
为:
Figure 908543DEST_PATH_IMAGE016
,令
Figure 564652DEST_PATH_IMAGE017
,根据
Figure 642329DEST_PATH_IMAGE018
得到列协方差矩阵
Figure 550242DEST_PATH_IMAGE019
为:
Figure 655864DEST_PATH_IMAGE020
生成联合高斯分布数据单元,用于从均值为
Figure 358241DEST_PATH_IMAGE021
,协方差为
Figure 47848DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 493873DEST_PATH_IMAGE022
仿真数据生成单元,用于对每一列
Figure 827902DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第i行第
Figure 825814DEST_PATH_IMAGE002
列位置的仿真数据为
Figure 878084DEST_PATH_IMAGE024
Figure 862220DEST_PATH_IMAGE025
Figure 440969DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 485149DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 650813DEST_PATH_IMAGE028
为生成的仿真数据。
7.根据权利要求6所述的针对表格数据的仿真数据生成装置,其特征在于,所述生成联合高斯分布数据单元的另一种实现方法为:
采用标准正态分布独立地从高斯分布采样得到
Figure 438640DEST_PATH_IMAGE030
,每个元素
Figure 747262DEST_PATH_IMAGE031
Figure 86976DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 848259DEST_PATH_IMAGE032
,其中
Figure 298832DEST_PATH_IMAGE033
通过Cholesky分解
Figure 727539DEST_PATH_IMAGE034
得到。
8.一种针对表格数据的仿真数据生成装置,所述装置运行在分布式场景下,有
Figure 113521DEST_PATH_IMAGE035
个数据节点,第
Figure 752313DEST_PATH_IMAGE036
个数据节点持有
Figure 881943DEST_PATH_IMAGE037
行数据,总共有
Figure 899578DEST_PATH_IMAGE038
行数据,每一行数据有
Figure 348139DEST_PATH_IMAGE039
列,第
Figure 84014DEST_PATH_IMAGE036
个数据节点的第i行第
Figure 876389DEST_PATH_IMAGE002
列数据记为
Figure 14109DEST_PATH_IMAGE040
,其特征在于,所述装置包括:
获取累计分布表及逆累计分布表单元,用于统计每个数据节点
Figure 7473DEST_PATH_IMAGE036
中离散列
Figure 355278DEST_PATH_IMAGE002
的取值为a的个数为
Figure 826710DEST_PATH_IMAGE041
,汇聚
Figure 818937DEST_PATH_IMAGE035
个数据节点,得到
Figure 842257DEST_PATH_IMAGE002
列取值为a的个数为
Figure 552724DEST_PATH_IMAGE042
,得到全局概率分布
Figure 188367DEST_PATH_IMAGE043
,根据全局概率分布
Figure 566259DEST_PATH_IMAGE044
得到累计分布表
Figure 370267DEST_PATH_IMAGE045
,其中
Figure 958243DEST_PATH_IMAGE046
,根据累计分布表生成对应的逆累计分布表
Figure 505899DEST_PATH_IMAGE047
获取全局每一列均值和列协方差矩阵单元,用于对每一列数据
Figure 738297DEST_PATH_IMAGE003
,根据累计分布表
Figure 837840DEST_PATH_IMAGE005
得到数据
Figure 788478DEST_PATH_IMAGE010
,令
Figure 264459DEST_PATH_IMAGE011
Figure 351364DEST_PATH_IMAGE010
i行位置的数据,
Figure 28333DEST_PATH_IMAGE012
,其中
Figure 561208DEST_PATH_IMAGE013
为高斯分布的逆累计分布函数,
Figure 450666DEST_PATH_IMAGE014
表示查累计分布表,每个节点
Figure 657657DEST_PATH_IMAGE036
在本地计算
Figure 99002DEST_PATH_IMAGE048
Figure 758654DEST_PATH_IMAGE049
,并同步进行汇聚,其中
Figure 717382DEST_PATH_IMAGE050
表示节点
Figure 637934DEST_PATH_IMAGE036
Figure 656705DEST_PATH_IMAGE051
,令
Figure 662708DEST_PATH_IMAGE052
,得到全局每一列均值
Figure 159548DEST_PATH_IMAGE053
,列协方差矩阵
Figure 809972DEST_PATH_IMAGE019
的元素
Figure 625744DEST_PATH_IMAGE054
生成联合高斯分布数据单元,用于从均值为
Figure 994408DEST_PATH_IMAGE021
,协方差为
Figure 294940DEST_PATH_IMAGE019
的联合高斯分布中采样得到联合高斯分布数据
Figure 924504DEST_PATH_IMAGE022
仿真数据生成单元,用于对每一列
Figure 285078DEST_PATH_IMAGE023
查询逆累计分布表,具体为:记第i行第
Figure 265673DEST_PATH_IMAGE002
列位置的仿真数据为
Figure 104316DEST_PATH_IMAGE024
Figure 994911DEST_PATH_IMAGE025
Figure 385441DEST_PATH_IMAGE026
表示查逆累计分布表,
Figure 463119DEST_PATH_IMAGE027
为高斯分布的累计分布函数,得到的
Figure 371032DEST_PATH_IMAGE028
为生成的仿真数据。
9.根据权利要求8所述的针对表格数据的仿真数据生成装置,其特征在于,所述生成联合高斯分布数据单元的另一种实现方法为:
采用标准正态分布独立地从高斯分布采样得到
Figure 300872DEST_PATH_IMAGE030
,每个元素
Figure 3249DEST_PATH_IMAGE031
Figure 692856DEST_PATH_IMAGE030
做变换仿射得到列之间有关联关系的联合高斯分布数据
Figure 607723DEST_PATH_IMAGE032
,其中
Figure 331965DEST_PATH_IMAGE033
通过Cholesky分解
Figure 939664DEST_PATH_IMAGE034
得到。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5任一项所述的针对表格数据的仿真数据生成方法。
CN202211029674.5A 2022-08-26 2022-08-26 针对表格数据的仿真数据生成方法、装置及电子设备 Active CN115455668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211029674.5A CN115455668B (zh) 2022-08-26 2022-08-26 针对表格数据的仿真数据生成方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211029674.5A CN115455668B (zh) 2022-08-26 2022-08-26 针对表格数据的仿真数据生成方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN115455668A true CN115455668A (zh) 2022-12-09
CN115455668B CN115455668B (zh) 2023-05-30

Family

ID=84299966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211029674.5A Active CN115455668B (zh) 2022-08-26 2022-08-26 针对表格数据的仿真数据生成方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115455668B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118643682A (zh) * 2024-08-15 2024-09-13 深圳市智慧城市科技发展集团有限公司 数据仿真系统的控制方法、终端设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165475A1 (en) * 2016-12-09 2018-06-14 Massachusetts Institute Of Technology Methods and apparatus for transforming and statistically modeling relational databases to synthesize privacy-protected anonymized data
CN109255186A (zh) * 2018-09-12 2019-01-22 浙江大学 一种基于输出约束ap-xgboost模型的工业过程软测量方法
US20200265929A1 (en) * 2019-02-19 2020-08-20 International Business Machines Corporation Preserving privacy for data analysis
CN111753252A (zh) * 2020-05-09 2020-10-09 中国电力科学研究院有限公司 一种基于Nataf变换的随机变量样本生成方法和系统
CN113342655A (zh) * 2021-06-08 2021-09-03 浙江工商大学 一种面向众包系统的仿真测试用例生成方法及装置
CN113468792A (zh) * 2021-07-22 2021-10-01 国网宁夏电力有限公司电力科学研究院 电磁暂态仿真模型的参数校正方法、装置和电子设备
US20220004532A1 (en) * 2020-07-02 2022-01-06 Sap Se Generation of realistic mock data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165475A1 (en) * 2016-12-09 2018-06-14 Massachusetts Institute Of Technology Methods and apparatus for transforming and statistically modeling relational databases to synthesize privacy-protected anonymized data
CN109255186A (zh) * 2018-09-12 2019-01-22 浙江大学 一种基于输出约束ap-xgboost模型的工业过程软测量方法
US20200265929A1 (en) * 2019-02-19 2020-08-20 International Business Machines Corporation Preserving privacy for data analysis
CN111753252A (zh) * 2020-05-09 2020-10-09 中国电力科学研究院有限公司 一种基于Nataf变换的随机变量样本生成方法和系统
US20220004532A1 (en) * 2020-07-02 2022-01-06 Sap Se Generation of realistic mock data
CN113342655A (zh) * 2021-06-08 2021-09-03 浙江工商大学 一种面向众包系统的仿真测试用例生成方法及装置
CN113468792A (zh) * 2021-07-22 2021-10-01 国网宁夏电力有限公司电力科学研究院 电磁暂态仿真模型的参数校正方法、装置和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
向夏雨: "基于生成对抗网络技术的医疗仿真数据生成方法", 通信学报 *
王舒: "非理想信道状态下多波束卫星通信的鲁棒安全传输设计", 电子与信息学报 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118643682A (zh) * 2024-08-15 2024-09-13 深圳市智慧城市科技发展集团有限公司 数据仿真系统的控制方法、终端设备及可读存储介质

Also Published As

Publication number Publication date
CN115455668B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Lu et al. Full-order and reduced-order observers for Lipschitz descriptor systems: the unified LMI approach
Nijmeijer et al. An observer looks at synchronization
Weller et al. Sampling zeros and the Euler-Frobenius polynomials
Hermoso-Carazo et al. Extended and unscented filtering algorithms using one-step randomly delayed observations
CN109241068B (zh) 前后台数据比对的方法、装置及终端设备
US20090038001A1 (en) Correlation of Log Information In A Distributed Computing Environment Using Relative Timestamps
CN110082823B (zh) 一种地震数据插值方法及装置
WO2020093736A1 (zh) 基于区块链的数据处理方法、装置和服务器
EP3279816A1 (en) Data analysis processing method, apparatus, computer device, and storage medium
WO2020093818A1 (zh) 基于区块链的数据处理方法、装置和服务器
CN115455668A (zh) 针对表格数据的仿真数据生成方法、装置及电子设备
CN113064920A (zh) 基于Flink的实时计算方法、装置、计算机设备及存储介质
Jiang et al. Uncertainty theory based reliability-centric cyber-physical system design
CN110046086A (zh) 用于测试的期望数据生成方法及装置和电子设备
CN109241163B (zh) 电子凭证的生成方法及终端设备
Saikkonen et al. Testing for a unit root in noncausal autoregressive models
CN111625532A (zh) 数据血缘关系处理方法、装置、计算机设备及存储介质
CN110580307B (zh) 一种快速统计的处理方法及装置
CN110515967B (zh) 基于spark计算框架的数据分析方法及电子设备
Im et al. Reprint of: Testing for unit roots in heterogeneous panels
Azari et al. Using kernel-based collocation methods to solve a delay partial differential equation with application to finance
CN114463008A (zh) 基于并行计算模型的区块链交易执行方法及装置
CN113157479A (zh) 一种数据纠错方法、系统、装置、设备和存储介质
CN110489460B (zh) 一种快速统计的优化方法及系统
US20030097432A1 (en) Date and time processing in computers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant