CN112884162A - 一种数据生成方法、装置、设备及存储介质 - Google Patents

一种数据生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112884162A
CN112884162A CN202110227372.8A CN202110227372A CN112884162A CN 112884162 A CN112884162 A CN 112884162A CN 202110227372 A CN202110227372 A CN 202110227372A CN 112884162 A CN112884162 A CN 112884162A
Authority
CN
China
Prior art keywords
data
cell
target
voronoi
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110227372.8A
Other languages
English (en)
Inventor
柯景耀
潘征
潘燕峰
刘岚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Entropy Microelectronics Technology Co ltd
Original Assignee
Shanghai Entropy Microelectronics Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Entropy Microelectronics Technology Co ltd filed Critical Shanghai Entropy Microelectronics Technology Co ltd
Priority to CN202110227372.8A priority Critical patent/CN112884162A/zh
Publication of CN112884162A publication Critical patent/CN112884162A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种数据生成方法、装置、设备及存储介质。该方法包括:确定第一数据集合中各第一数据在空间凸区域中的维诺权重;根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在所述第一数据集合的数据分布和所述第二数据集合的数据分布满足的映射关系中,所述目标映射关系的传输代价最小;基于所述目标映射关系和各所述第一数据的维诺权重,生成符合所述第二数据集合数据分布的伪数据。本发明解决了生成的伪数据不准确,存在较多奇异点的问题,实现了精确生成伪数据,从而提高机器学习中生成模型准确率的效果。

Description

一种数据生成方法、装置、设备及存储介质
技术领域
本发明实施例涉及机器学习技术,尤其涉及一种数据生成方法、装置、设备及存储介质。
背景技术
随着机器学习的兴起,神经网络作为一种有效的处理数据的工具,在学术界与商业中被大量地使用。
深度学习可以归结于两条定律:一是流形分布定律,即自然界中同一类别的高维数据,往往集中在某个低维流形附近;二是聚类分布定律,即这个高维数据类别中不同的子类数据对应着流形上的不同概率分布,这些分布之间的距离大到足够将这些子类区分。因此,深度学习的基本任务就在于从数据中学习流形结构,建立流形的参数表达和变换概率分布。具体可参见《计算机辅助几何设计(Computer Aided Geometric Design)》于2019年1月,68卷第1-21页(Volume 68,January 2019,Pages 1-21)发表的论文《最优传输及生成模型的几何视图(A geometric view of optimal transportation and generativemodel)》,作者雷娜,苏科华,..,丘成桐,顾险峰(Na Lei,Kehua Su,Li Cui,Shing-TungYau,Xianfeng David Gu)。
现有的AE-OT模型,其中的AE(AutoEncode,自动编码器)包括两部分,编码器(Encoder)和解码器(Decoder)。编码器用于压缩数据,将高维数据压缩至低维的隐空间(Latent Space),解码器用于恢复数据,将隐空间的数据恢复成为高维数据。
OT(最优传输,Optimal Transport)模型是用于表示两个数据分布之间的映射关系,并且通过训练使得映射关系满足最优传输理论。最优传输理论是将两个数据分布的某种距离,通过计算求解该距离的最优解。例如Wasserstein距离等。
AEOT,在机器学习技术领域中,对于机器学习模型的训练来说,训练样本是必不可少的。然而,真实的训练样本并不容易大量获得,因此需要通过训练得到的映射关系生成伪数据。如何能够找到最优传输映射,生成更加精准的伪数据,是目前的研究方向之一。
发明内容
本发明提供一种数据生成方法、装置、设备及存储介质,以实现准确生成伪数据的效果。
第一方面,本发明实施例提供了一种数据生成方法,包括:
确定第一数据集合中各第一数据在空间凸区域中的维诺权重;
根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在所述第一数据集合的数据分布和所述第二数据集合的数据分布满足的映射关系中,所述目标映射关系的传输代价最小;
基于所述目标映射关系和各所述第一数据的维诺权重,生成符合所述第二数据集合数据分布的伪数据。
可选的,所述确定第一数据集合中各第一数据在空间凸区域中的维诺权重,包括:
获取包含第一数据的第一数据集合,将包括所有第一数据的最小凸区域确定为空间凸区域;
基于各所述第一数据的数据分布,构造所述空间凸区域的维诺图,所述维诺图中的维诺胞腔与所述第一数据集合中的第一数据一一对应;
确定各所述第一数据所在维诺胞腔的第一胞腔相对体积,并根据各所述第一胞腔相对体积确定各所述第一数据的维诺权重。
可选的,所述确定各所述第一数据所在维诺胞腔的第一胞腔相对体积,并根据各所述第一胞腔相对体积确定各所述第一数据的维诺权重,包括:
在所述空间凸区域中均匀采样,得到第一总采样点数;
确定各所述维诺胞腔中的第一胞腔采样点数,将所述第一胞腔采样点数与第一总采样点数之比确定为所述维诺胞腔的第一胞腔相对体积;
取所述第一胞腔相对体积的倒数作为所述维诺胞腔内包含的第一数据的维诺权重。
可选的,所述根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,包括:
依据初始映射关系,在所述空间凸区域中形成第二数据集合对应的胞腔分解图,所述胞腔分解图中的投影胞腔与所述第二数据集合中的第二数据一一对应;
根据所述胞腔分解图的胞腔分布和所述维诺图的胞腔分布,结合各所述维诺胞腔对应的维诺权重,确定各所述投影胞腔的第二胞腔相对体积;
根据各所述第二胞腔相对体积与相应第二数据的目标体积,对所述初始映射关系进行调整,并返回重新形成所述第二数据集合的胞腔分解图,直至各所述第二胞腔相对体积与对应的目标体积相差均小于预设阈值;
将最终调整得到的初始映射关系确定为目标映射关系。
可选的,所述依据初始映射关系,在所述空间凸区域中形成第二数据集合对应的胞腔分解图,包括:
针对第二数据集合中的每个第二数据,根据初始映射关系,构造在所述空间凸区域的高维空间中对应的超平面;
将所有超平面的上包络构成的凸包映射至所述空间凸区域,形成胞腔分解图。
可选的,所述根据所述胞腔分解图的胞腔分布和所述维诺图的胞腔分布,结合各所述维诺胞腔对应的维诺权重,确定各所述投影胞腔的第二胞腔相对体积,包括:
在所述空间凸区域中均匀采样,得到第二总采样点数;
针对每个投影胞腔,将与所述投影胞腔相交的维诺胞腔确定为所述投影胞腔的目标投影胞腔;
根据所述投影胞腔与各所述目标投影胞腔相交部分的采样点数与所述第二总采样点数,确定各所述目标投影胞腔对应的投影相对体积;
将各所述目标投影胞腔对应的维诺权重和投影相对体积之积的总和确定为所述投影胞腔的第二胞腔相对体积。
可选的,所述根据各所述第二胞腔相对体积与相应第二数据的目标体积,对所述初始映射关系进行调整,包括:
针对每个投影胞腔,获取所述投影胞腔对应的第二数据的目标体积,确定所述投影胞腔的第二胞腔相对体积与所述目标体积的体积差值;
将所述体积差值与预设学习率之积作为映射关系调整值;
基于所述映射关系调整值调整所述初始映射关系中对应的映射值。
可选的,所述基于所述目标映射关系和各所述第一数据的维诺权重,生成符合所述第二数据集合数据分布的伪数据,包括:
确定所述空间凸区域中的第一目标数据,并构造包含所述第一目标数据的目标超方体;
在所述目标超方体中均匀采样,得到第三总采样点数;
将与所述目标超方体相交的维诺胞腔确定为所述目标超方体的目标映射胞腔;
根据所述目标超方体与各所述目标映射胞腔相交部分的采样点数与所述第三总采样点数,确定各所述映射投影胞腔对应的映射相对体积;
将各所述目标映射胞腔对应的维诺权重和映射相对体积之积的总和确定为所述目标超方体的目标相对体积;
根据所述目标相对体积与所述目标映射关系,生成符合所述第二数据集合数据分布的伪数据。
第二方面,本发明实施例还提供了一种数据生成装置,该装置包括:
维诺权重确定模块,用于确定第一数据集合中各第一数据在空间凸区域中的维诺权重;
目标映射关系确定模块,用于根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在所述第一数据集合的数据分布和所述第二数据集合的数据分布满足的映射关系中,所述目标映射关系的传输代价最小;
数据生成模块,用于基于所述目标映射关系和各所述第一数据的维诺权重,生成符合所述第二数据集合数据分布的伪数据。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任意实施例所述的数据生成方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的数据生成方法。
本发明通过确定第一数据集合中各第一数据在空间凸区域中的维诺权重,根据各第一数据的维诺权重,对第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在第一数据集合的数据分布和第二数据集合的数据分布满足的映射关系中,目标映射关系的传输代价最小,基于目标映射关系和各第一数据的维诺权重,生成符合第二数据集合数据分布的伪数据,解决了生成的伪数据不准确,存在较多奇异点的问题,实现了精确生成伪数据,从而提高机器学习中生成模型准确率的效果。
附图说明
图1是本发明实施例一提供的一种数据生成方法的流程图;
图2是本发明实施例一提供的一种数据生成方法中生成维诺图的原理示意图;
图3是本发明实施例二提供的一种数据生成方法的流程图;
图4是本发明实施例三提供的一种数据生成装置的结构框图;
图5是本发明实施例四提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构,此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
图1为本发明实施例一提供的一种数据生成方法的流程图,本实施例可适用于生成伪数据的情况,该方法可以由数据生成装置来执行,该装置可以通过软件和/或硬件实现。
如图1所示,该方法具体包括如下步骤:
步骤110、确定第一数据集合中各第一数据在空间凸区域中的维诺权重。
在本实施例中,第一数据集合和第二数据集合是为了计算目标映射关系的两个数据集,第一数据集合包含多个第一数据,第二数据集合包含多个第二数据。
具体的,可以获取包含第一数据的第一数据集合,在包围第一数据集合的最小空间凸区域中,构造该第一数据集合在空间凸区域中的维诺图,维诺图中的每个胞腔内有且只有一个第一数据,且胞腔里的任意一个数据点到胞腔所包含的第一数据的距离比到其他第一数据的距离都要小。在维诺图中,可以根据各第一数据之间的疏密关系,计算各第一数据的维诺权重。
图2是本发明实施例一提供的一种数据生成方法中生成维诺图的原理示意图。如图2所示,每个胞腔内有且仅有一个第一数据,数据密集的区域,第一数据的维诺权重相对较大,数据稀疏的区域,第一数据的维诺权重相对较小。
步骤120、根据各第一数据的维诺权重,对第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系。
其中,在第一数据集合的数据分布和第二数据集合的数据分布满足的映射关系中,目标映射关系的传输代价最小。
具体的,可以获取初始的传输映射关系,将第一数据集合中的第一数据与第二数据集合中的第二数据进行映射,并计算传输映射的传输代价。根据各第一数据的维诺权重,逐步调整传输映射关系,降低传输映射的传输代价,直至减小至预设值内,就得到了目标映射关系。
步骤130、基于目标映射关系和各第一数据的维诺权重,生成符合第二数据集合数据分布的伪数据。
具体的,可以取空间凸区域中的任意一点作为第一目标数据,根据第一目标数据附近一定范围内的第一数据的维诺权重,确定第一目标数据的权重值,并基于目标映射关系,生成第一目标数据对应的伪数据,也就是用于训练机器学习模型的伪数据,该伪数据符合第二数据集合的数据分布规则。
本实施例的技术方案,通过确定第一数据集合中各第一数据在空间凸区域中的维诺权重,根据各第一数据的维诺权重,对第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在第一数据集合的数据分布和第二数据集合的数据分布满足的映射关系中,目标映射关系的传输代价最小,基于目标映射关系和各第一数据的维诺权重,生成符合第二数据集合数据分布的伪数据,解决了生成的伪数据不准确,存在较多奇异点的问题,实现了精确生成伪数据,从而提高机器学习中生成模型准确率的效果。
实施例二
图3为本发明实施例二提供的一种数据生成方法的流程图。本实施例在上述实施例的基础上,进一步优化了上述数据生成方法。
如图3所示,该方法具体包括:
步骤210、获取包含第一数据的第一数据集合,将包括所有第一数据的最小凸区域确定为空间凸区域。
在本实施例中,在获取第一数据集合后,可以将包围所有第一数据的最小d维空间凸区域记为超方体C,d为第一数据集合中第一数据的维数。
步骤220、基于各第一数据的数据分布,构造空间凸区域的维诺图。
其中,维诺图中的维诺胞腔与第一数据集合中的第一数据一一对应,维诺图的每个维诺胞腔包含一个第一数据。
在本实施例中,可以根据各第一数据的数据分布构造第一数据集合在超方体C中的维诺图。假设第一数据集合中有n个第一数据,那么超方体C就分成了n个凸胞腔,即维诺胞腔ci,1≤i≤n。
步骤230、确定各第一数据所在维诺胞腔的第一胞腔相对体积,并根据各第一胞腔相对体积确定各第一数据的维诺权重。
可选的,步骤230具体可以通过以下步骤S11~S13实现:
S11、在空间凸区域中均匀采样,得到第一总采样点数。
S12、确定各维诺胞腔中的第一胞腔采样点数,将第一胞腔采样点数与第一总采样点数之比确定为维诺胞腔的第一胞腔相对体积。
S13、取第一胞腔相对体积的倒数作为维诺胞腔内包含的第一数据的维诺权重。
示例性的,在d维超方体C里均匀采样K1个点,统计落在维诺胞腔ci里的采样点数目ki,可以根据采样点数目ki估计对应维诺胞腔ci的第一胞腔相对体积vi=ki/K1,维诺胞腔ci对应的维诺权重可以为wi=1/vii,其中下标i对应第一数据点xi在第一数据集合{x1,…,xn}中的下标,n为第一数据的数据个数。
步骤240、依据初始映射关系,在空间凸区域中形成第二数据集合对应的胞腔分解图。
其中,胞腔分解图中的投影胞腔与第二数据集合中的第二数据一一对应。
可选的,步骤240具体可以通过以下步骤S21~S22实现:
S21、针对第二数据集合中的每个第二数据,根据初始映射关系,构造在空间凸区域的高维空间中对应的超平面。
S22、将所有超平面的上包络构成的凸包映射至空间凸区域,形成胞腔分解图。
示例性的,可以用初始化高度向量h=(h1,...,hm)表示初始映射关系,其中m为第二数据的数据个数。针对于第二数据集合中的数据点yj,结合高度hj,可以构造d+1维空间里的超平面πj(u)=<u,yj>+hj,其中<*,*>表示两个d维向量之间的内积。对于整个第二数据集合,对应有m个超平面,m个超平面的上包络构成d+1维空间中的一个凸包,该凸包在超方体C上的投影构成超方体C上的胞腔分解,其中的胞腔记为投影胞腔cj,1≤j≤m,第二数据集合的每一个数据点yj对应投影胞腔cj
步骤250、根据胞腔分解图的胞腔分布和维诺图的胞腔分布,结合各维诺胞腔对应的维诺权重,确定各投影胞腔的第二胞腔相对体积。
可选的,步骤250具体可以通过以下步骤S31~S34实现:
S31、在空间凸区域中均匀采样,得到第二总采样点数。
S32、针对每个投影胞腔,将与投影胞腔相交的维诺胞腔确定为投影胞腔的目标投影胞腔。
S33、根据投影胞腔与各目标投影胞腔相交部分的采样点数与第二总采样点数,确定各目标投影胞腔对应的投影相对体积。
S34、将各目标投影胞腔对应的维诺权重和投影相对体积之积的总和确定为投影胞腔的第二胞腔相对体积。
示例性的,在d维超方体C里均匀采样K2个点。对于一个投影胞腔cj,将与投影胞腔相交的维诺胞腔确定为投影胞腔的目标投影胞腔cjf,1≤f≤g,g为该投影胞腔的目标投影胞腔的个数。分别统计落在投影胞腔cj与目标投影胞腔cjf相交部分的采样点数kf,投影胞腔cj与目标投影胞腔cjf相交部分的投影相对体积为vf=kf/K2,将v1~vg分别与对应目标投影胞腔的维诺权重相乘,并将g个乘积相加,得到投影胞腔cj的第二胞腔相对体积vj c
步骤260、根据各第二胞腔相对体积与相应第二数据的目标体积,对初始映射关系进行调整,并返回重新形成第二数据集合的胞腔分解图,直至各第二胞腔相对体积与对应的目标体积相差均小于预设阈值。
可选的,步骤260具体可以通过以下步骤S41~S43实现:
S41、针对每个投影胞腔,获取投影胞腔对应的第二数据的目标体积,确定投影胞腔的第二胞腔相对体积与目标体积的体积差值。
S42、将体积差值与预设学习率之积作为映射关系调整值。
S43、基于映射关系调整值调整初始映射关系中对应的映射值。
示例性的,分别获取每个第二数据的目标体积vt j,可以对第二数据对应的映射值hj进行调节,得到新的hj′=hj-α(vj c-vtj)。
步骤270、将最终调整得到的初始映射关系确定为目标映射关系。
步骤280、基于目标映射关系和各第一数据的维诺权重,生成符合第二数据集合数据分布的伪数据。
可选的,步骤280具体可以通过以下步骤S51~S55实现:
S51、确定空间凸区域中的第一目标数据,并构造包含第一目标数据的目标超方体。
S52、在目标超方体中均匀采样,得到第三总采样点数。
S53、将与目标超方体相交的维诺胞腔确定为目标超方体的目标映射胞腔。
S54、根据目标超方体与各目标映射胞腔相交部分的采样点数与第三总采样点数,确定各映射投影胞腔对应的映射相对体积。
S55、将各目标映射胞腔对应的维诺权重和映射相对体积之积的总和确定为目标超方体的目标相对体积。
S56、根据目标相对体积与目标映射关系,生成符合第二数据集合数据分布的伪数据。
示例性的,对于超方体C中任意一点p,可以确定以p点为中心、边长为给定长度l的小超方体Cp,l,计算Cp,l与各维诺胞腔的相交部分,记非空胞腔交集为cpz,1≤z≤q,q为非空胞腔交集的个数。在超方体C里均匀采样K3个点,统计落在维诺胞腔ci里的采样点数目kz,对应的映射相对体积vz=kz/K3。将v1~vq分别与对应维诺胞腔的维诺权重相乘,并将q个乘积相加,得到小超方体Cp,l的目标相对体积vp。根据目标相对体积,生成p在目标映射关系下的像,即符合第二数据集合数据分布的伪数据。
本实施例的技术方案,通过确定第一数据集合中各第一数据在空间凸区域中的维诺权重,根据各第一数据的维诺权重,对第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在第一数据集合的数据分布和第二数据集合的数据分布满足的映射关系中,目标映射关系的传输代价最小,基于目标映射关系和各第一数据的维诺权重,生成符合第二数据集合数据分布的伪数据,解决了生成的伪数据不准确,存在较多奇异点的问题,实现了精确生成伪数据,从而提高机器学习中生成模型准确率的效果。
实施例三
本发明实施例所提供的数据生成装置可执行本发明任意实施例所提供的数据生成方法,具备执行方法相应的功能模块和有益效果。图3是本发明实施例三提供的一种数据生成装置的结构框图,如图3所示,该装置包括:维诺权重确定模块310、目标映射关系确定模块320和数据生成模块330。
维诺权重确定模块310,用于确定第一数据集合中各第一数据在空间凸区域中的维诺权重。
目标映射关系确定模块320,用于根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在所述第一数据集合的数据分布和所述第二数据集合的数据分布满足的映射关系中,所述目标映射关系的传输代价最小。
数据生成模块330,用于基于所述目标映射关系和各所述第一数据的维诺权重,生成符合所述第二数据集合数据分布的伪数据。
本实施例的技术方案,通过确定第一数据集合中各第一数据在空间凸区域中的维诺权重,根据各第一数据的维诺权重,对第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在第一数据集合的数据分布和第二数据集合的数据分布满足的映射关系中,目标映射关系的传输代价最小,基于目标映射关系和各第一数据的维诺权重,生成空间凸区域中第一目标数据对应的第二目标数据,解决了生成的伪数据不准确,存在较多奇异点的问题,实现了精确生成伪数据,从而提高机器学习中生成模型准确率的效果。
可选的,所述维诺权重确定模块310,具体包括:
空间凸区域确定单元,用于获取包含第一数据的第一数据集合,将包括所有第一数据的最小凸区域确定为空间凸区域;
维诺图构造单元,用于基于各所述第一数据的数据分布,构造所述空间凸区域的维诺图,所述维诺图中的维诺胞腔与所述第一数据集合中的第一数据一一对应;
维诺权重确定单元,用于确定各所述第一数据所在维诺胞腔的第一胞腔相对体积,并根据各所述第一胞腔相对体积确定各所述第一数据的维诺权重。
可选的,所述维诺权重确定单元,具体用于:
在所述空间凸区域中均匀采样,得到第一总采样点数;
确定各所述维诺胞腔中的第一胞腔采样点数,将所述第一胞腔采样点数与第一总采样点数之比确定为所述维诺胞腔的第一胞腔相对体积;
取所述第一胞腔相对体积的倒数作为所述维诺胞腔内包含的第一数据的维诺权重。
可选的,目标映射关系确定模块320,具体包括:
胞腔分解图构造单元,用于依据初始映射关系,在所述空间凸区域中形成第二数据集合对应的胞腔分解图,所述胞腔分解图中的投影胞腔与所述第二数据集合中的第二数据一一对应;
第二胞腔相对体积确定单元,用于根据所述胞腔分解图的胞腔分布和所述维诺图的胞腔分布,结合各所述维诺胞腔对应的维诺权重,确定各所述投影胞腔的第二胞腔相对体积;
映射关系调整单元,用于根据各所述第二胞腔相对体积与相应第二数据的目标体积,对所述初始映射关系进行调整,并返回重新形成所述第二数据集合的胞腔分解图,直至各所述第二胞腔相对体积与对应的目标体积相差均小于预设阈值;
目标映射关系确定单元,用于将最终调整得到的初始映射关系确定为目标映射关系。
可选的,所述胞腔分解图构造单元,具体用于:
针对第二数据集合中的每个第二数据,根据初始映射关系,构造在所述空间凸区域的高维空间中对应的超平面;
将所有超平面的上包络构成的凸包映射至所述空间凸区域,形成胞腔分解图。
可选的,所述第二胞腔相对体积确定单元,具体用于:
在所述空间凸区域中均匀采样,得到第二总采样点数;
针对每个投影胞腔,将与所述投影胞腔相交的维诺胞腔确定为所述投影胞腔的目标投影胞腔;
根据所述投影胞腔与各所述目标投影胞腔相交部分的采样点数与所述第二总采样点数,确定各所述目标投影胞腔对应的投影相对体积;
将各所述目标投影胞腔对应的维诺权重和投影相对体积之积的总和确定为所述投影胞腔的第二胞腔相对体积。
可选的,所述映射关系调整单元,具体用于:
针对每个投影胞腔,获取所述投影胞腔对应的第二数据的目标体积,确定所述投影胞腔的第二胞腔相对体积与所述目标体积的体积差值;
将所述体积差值与预设学习率之积作为映射关系调整值;
基于所述映射关系调整值调整所述初始映射关系中对应的映射值。
可选的,所述数据生成模块330,具体用于:
确定所述空间凸区域中的第一目标数据,并构造包含所述第一目标数据的目标超方体;
在所述目标超方体中均匀采样,得到第三总采样点数;
将与所述目标超方体相交的维诺胞腔确定为所述目标超方体的目标映射胞腔;
根据所述目标超方体与各所述目标映射胞腔相交部分的采样点数与所述第三总采样点数,确定各所述映射投影胞腔对应的映射相对体积;
将各所述目标映射胞腔对应的维诺权重和映射相对体积之积的总和确定为所述目标超方体的目标相对体积;
根据所述目标相对体积与所述目标映射关系,生成符合所述第二数据集合数据分布的伪数据。
实施例四
图5为本发明实施例四提供的一种计算机设备的结构框图,如图5所示,该计算机设备包括处理器410、存储器420、输入装置430和输出装置440;计算机设备中处理器410的数量可以是一个或多个,图5中以一个处理器410为例;计算机设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的数据生成方法对应的程序指令/模块(例如,数据生成装置中的维诺权重确定模块310、目标映射关系确定模块320和数据生成模块330。)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的数据生成方法。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据生成方法,该方法包括:
确定第一数据集合中各第一数据在空间凸区域中的维诺权重;
根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在所述第一数据集合的数据分布和所述第二数据集合的数据分布满足的映射关系中,所述目标映射关系的传输代价最小;
基于所述目标映射关系和各所述第一数据的维诺权重,生成符合所述第二数据集合数据分布的伪数据。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的数据生成方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述数据生成装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种数据生成方法,其特征在于,包括:
确定第一数据集合中各第一数据在空间凸区域中的维诺权重;
根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在所述第一数据集合的数据分布和所述第二数据集合的数据分布满足的映射关系中,所述目标映射关系的传输代价最小;
基于所述目标映射关系和各所述第一数据的维诺权重,生成符合所述第二数据集合数据分布的伪数据。
2.根据权利要求1所述的数据生成方法,其特征在于,所述确定第一数据集合中各第一数据在空间凸区域中的维诺权重,包括:
获取包含第一数据的第一数据集合,将包括所有第一数据的最小凸区域确定为空间凸区域;
基于各所述第一数据的数据分布,构造所述空间凸区域的维诺图,所述维诺图中的维诺胞腔与所述第一数据集合中的第一数据一一对应;
确定各所述第一数据所在维诺胞腔的第一胞腔相对体积,并根据各所述第一胞腔相对体积确定各所述第一数据的维诺权重。
3.根据权利要求1所述的数据生成方法,其特征在于,所述确定各所述第一数据所在维诺胞腔的第一胞腔相对体积,并根据各所述第一胞腔相对体积确定各所述第一数据的维诺权重,包括:
在所述空间凸区域中均匀采样,得到第一总采样点数;
确定各所述维诺胞腔中的第一胞腔采样点数,将所述第一胞腔采样点数与第一总采样点数之比确定为所述维诺胞腔的第一胞腔相对体积;
取所述第一胞腔相对体积的倒数作为所述维诺胞腔内包含的第一数据的维诺权重。
4.根据权利要求2所述的数据生成方法,其特征在于,所述根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,包括:
依据初始映射关系,在所述空间凸区域中形成第二数据集合对应的胞腔分解图,所述胞腔分解图中的投影胞腔与所述第二数据集合中的第二数据一一对应;
根据所述胞腔分解图的胞腔分布和所述维诺图的胞腔分布,结合各所述维诺胞腔对应的维诺权重,确定各所述投影胞腔的第二胞腔相对体积;
根据各所述第二胞腔相对体积与相应第二数据的目标体积,对所述初始映射关系进行调整,并返回重新形成所述第二数据集合的胞腔分解图,直至各所述第二胞腔相对体积与对应的目标体积相差均小于预设阈值;
将最终调整得到的初始映射关系确定为目标映射关系。
5.根据权利要求4所述的数据生成方法,其特征在于,所述依据初始映射关系,在所述空间凸区域中形成第二数据集合对应的胞腔分解图,包括:
针对第二数据集合中的每个第二数据,根据初始映射关系,构造在所述空间凸区域的高维空间中对应的超平面;
将所有超平面的上包络构成的凸包映射至所述空间凸区域,形成胞腔分解图。
6.根据权利要求4所述的数据生成方法,其特征在于,所述根据所述胞腔分解图的胞腔分布和所述维诺图的胞腔分布,结合各所述维诺胞腔对应的维诺权重,确定各所述投影胞腔的第二胞腔相对体积,包括:
在所述空间凸区域中均匀采样,得到第二总采样点数;
针对每个投影胞腔,将与所述投影胞腔相交的维诺胞腔确定为所述投影胞腔的目标投影胞腔;
根据所述投影胞腔与各所述目标投影胞腔相交部分的采样点数与所述第二总采样点数,确定各所述目标投影胞腔对应的投影相对体积;
将各所述目标投影胞腔对应的维诺权重和投影相对体积之积的总和确定为所述投影胞腔的第二胞腔相对体积。
7.根据权利要求4所述的数据生成方法,其特征在于,所述根据各所述第二胞腔相对体积与相应第二数据的目标体积,对所述初始映射关系进行调整,包括:
针对每个投影胞腔,获取所述投影胞腔对应的第二数据的目标体积,确定所述投影胞腔的第二胞腔相对体积与所述目标体积的体积差值;
将所述体积差值与预设学习率之积作为映射关系调整值;
基于所述映射关系调整值调整所述初始映射关系中对应的映射值。
8.根据权利要求2所述的数据生成方法,其特征在于,所述基于所述目标映射关系和各所述第一数据的维诺权重,生成符合所述第二数据集合数据分布的伪数据,包括:
确定所述空间凸区域中的第一目标数据,并构造包含所述第一目标数据的目标超方体;
在所述目标超方体中均匀采样,得到第三总采样点数;
将与所述目标超方体相交的维诺胞腔确定为所述目标超方体的目标映射胞腔;
根据所述目标超方体与各所述目标映射胞腔相交部分的采样点数与所述第三总采样点数,确定各所述映射投影胞腔对应的映射相对体积;
将各所述目标映射胞腔对应的维诺权重和映射相对体积之积的总和确定为所述目标超方体的目标相对体积;
根据所述目标相对体积与所述目标映射关系,生成符合所述第二数据集合数据分布的伪数据。
9.一种数据生成装置,其特征在于,包括:
维诺权重确定模块,用于确定第一数据集合中各第一数据在空间凸区域中的维诺权重;
目标映射关系确定模块,用于根据各所述第一数据的维诺权重,对所述第一数据集合与第二数据集合的初始映射关系进行调整,得到目标映射关系,其中,在所述第一数据集合的数据分布和所述第二数据集合的数据分布满足的映射关系中,所述目标映射关系的传输代价最小;
数据生成模块,用于基于所述目标映射关系和各所述第一数据的维诺权重,生成符合所述第二数据集合数据分布的伪数据。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的数据生成方法。
11.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的数据生成方法。
CN202110227372.8A 2021-03-01 2021-03-01 一种数据生成方法、装置、设备及存储介质 Pending CN112884162A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110227372.8A CN112884162A (zh) 2021-03-01 2021-03-01 一种数据生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110227372.8A CN112884162A (zh) 2021-03-01 2021-03-01 一种数据生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112884162A true CN112884162A (zh) 2021-06-01

Family

ID=76055088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110227372.8A Pending CN112884162A (zh) 2021-03-01 2021-03-01 一种数据生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112884162A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708358A (zh) * 2022-05-25 2022-07-05 腾讯科技(深圳)有限公司 对象处理方法、装置、设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708358A (zh) * 2022-05-25 2022-07-05 腾讯科技(深圳)有限公司 对象处理方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN109522942B (zh) 一种图像分类方法、装置、终端设备和存储介质
Sarkhel et al. A multi-objective approach towards cost effective isolated handwritten Bangla character and digit recognition
CN110458187B (zh) 一种恶意代码家族聚类方法和系统
JP7266674B2 (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
CN108021547B (zh) 一种自然语言的生成方法、自然语言生成装置及电子设备
CN110021051A (zh) 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN111627065A (zh) 一种视觉定位方法及装置、存储介质
CN110309842B (zh) 基于卷积神经网络的物体检测方法及装置
CN114493050B (zh) 多维度融合的新能源功率并联预测方法和装置
WO2020151688A1 (zh) 编码方法、装置、设备及存储介质
CN112085041A (zh) 神经网络的训练方法、训练装置和电子设备
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN104572614A (zh) 一种语言模型的训练方法及系统
CN116308754B (zh) 一种银行信贷风险预警系统及其方法
Feng et al. A cellular automata model based on nonlinear kernel principal component analysis for urban growth simulation
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN113094533B (zh) 一种基于混合粒度匹配的图文跨模态检索方法
CN110751326A (zh) 一种光伏日前功率预测方法、装置以及存储介质
CN114611460A (zh) 数据处理方法、装置、设备和存储介质
CN114780768A (zh) 一种视觉问答任务处理方法、系统、电子设备及存储介质
CN112884162A (zh) 一种数据生成方法、装置、设备及存储介质
CN116311323A (zh) 基于对比学习的预训练文档模型对齐优化方法
CN110889340A (zh) 一种基于迭代注意力机制的视觉问答模型
CN116304391B (zh) 一种地图区域框选后的推荐选区生成方法及系统
CN110580483A (zh) 一种室内外用户区分方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination