CN111488892A - 样本数据生成方法及装置 - Google Patents
样本数据生成方法及装置 Download PDFInfo
- Publication number
- CN111488892A CN111488892A CN201910074290.7A CN201910074290A CN111488892A CN 111488892 A CN111488892 A CN 111488892A CN 201910074290 A CN201910074290 A CN 201910074290A CN 111488892 A CN111488892 A CN 111488892A
- Authority
- CN
- China
- Prior art keywords
- sample data
- transformation
- historical
- probability density
- density model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000009466 transformation Effects 0.000 claims abstract description 79
- 230000009467 reduction Effects 0.000 claims abstract description 40
- 238000003491 array Methods 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000005315 distribution function Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000005094 computer simulation Methods 0.000 abstract description 8
- 230000003321 amplification Effects 0.000 abstract description 4
- 238000003199 nucleic acid amplification method Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种样本数据生成方法及装置,该方法包括:获取多维度的至少一组历史样本数据;对该历史样本数据进行降维变换,得到该历史样本数据对应的连续概率密度模型;对该概率密度模型进行采样,获取至少一个随机数组;对该随机数组进行该降维变换的逆变换,生成多维度的至少一组目标样本数据。本申请实施例通过对获取的历史样本数据进行降维处理,进而对从该连续概率密度模型中抽取多个随机数组进行降维变换的逆变换,生成多组新的样本数据,使得新生成的样本数据与历史样本数据具有同样的分布,实现了样本数据量的扩增,样本数据形式的扩展,提高了计算机仿真的准确性。
Description
技术领域
本申请一般涉及计算机仿真技术领域,具体涉及一种样本数据生成方法及装置。
背景技术
在计算机仿真领域,根据实际发生的事件,采集并获取样本是每个仿真模型建立的基础。传统的样本数据采集,通过直接将采集事件发生的历史数据作为样本数据,或者,假设各个时空维度上的样本分布相互独立,从采集的历史数据中抽取部分数据,作为样本数据,以进行仿真建模。
对于传统的样本数据采集,由于实际存在的样本数量有限,通过将采集的全部历史数据作为样本数据,使得样本数据量有限,样本数据单一;通过抽样方式产生样本数据,使得生成的样本数据与历史数据无法满足同一分布,导致仿真效果差。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种样本数据生成方法及装置,解决样本数据量有限,样本数据单一的问题。
第一方面,本申请实施例提供一种样本数据生成方法,该方法包括:
获取多维度的至少一组历史样本数据;
对该历史样本数据进行降维变换,得到该历史样本数据对应的连续概率密度模型;
对该概率密度模型进行采样,获取至少一个随机数组;
对该随机数组进行该降维变换的逆变换,生成多维度的至少一组目标样本数据。
第二方面,本申请实施例提供的一种样本数据生成装置,包括:
第一获取模块,用于获取多维度的至少一组历史样本数据;
变换模块,用于对该历史样本数据进行降维变换,得到该历史样本数据对应的连续概率密度模型;
第二获取模块,用于对该概率密度模型进行随机采样,获取至少一个随机数组;
生成模块,用于对该随机数组进行该降维变换的逆变换,生成多维度的至少一组目标样本数据。
综上,本申请实施例提供的样本数据生成方法及装置,通过获取真实的多维度历史样本数据,并对获取的历史样本数据进行降维处理,得到对应的连续概率密度模块,进而可以对该连续概率密度模型抽取多个随机数组,最后对随机数组进行降维变换的逆变换,生成多组新的样本数据,使得新生成的样本数据,相比于基于历史数据直接抽样的方式,能够保证新的样本数据和历史样本数据满足同一分布,并且可以获取历史上未出现过的样本数据,使得样本数据多样化,可以生成任意数量的时空样本,实现样本数据量的扩增,提高了计算机仿真的准确性。
进一步的,本申请实施例提供的样本数据生成方法,通过对历史样本数据进行主成分分析,利用变换关系矩阵将历史样本数据转换为线性的独立随机变量,从而可以得到历史样本数据对应的连续概率模型,实现历史样本数据的简化处理。
进一步的,本申请实施例提供的样本数据生成方法,通过从得到的连续概率模型中采集多个随机数组,并利用关系矩阵的逆矩阵对得到的随机数组进行逆变换,从而可以得到多组新的样本数据。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请的实施例提供的样本数据生成方法的流程示意图;
图2为本申请实施例提供的多维度的场景示意图;
图3为本申请实施例提供的连续概率密度模型的示意图;
图4为本申请实施例提供的样本数据生成装置的结构示意图;
图5为本申请的实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与申请相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
可以理解,本申请实施例提供的样本数据生成方法,可用于计算机仿真领域内,在建立仿真模型之初,需要确定实际事件发生的样本,以采集样本的数据,进而可以基于采集到的样本数据,生成大量的新的样本数据。
为了便于理解和说明,下面通过图1至图5详细解释本申请实施例提供的样本数据生成方法及装置。
图1所示为本申请的实施例提供的样本数据生成方法的流程示意图,如图1所示,该方法包括:
S110,获取多维度的至少一组历史样本数据。
具体的,可以获取多维度场景下的样本数据,如可以为时间维度和空间维度下的样本的数据。如在物流行业中,将产生的收派端作业量作为样本,需要采集的样本数据为空间维度和时间维度组合后对应的收派端作业的具体量。
结合图2所示,假如将整个空间划分为四个相互独立的子空间,将时间划分为多段独立的时间段。假设样本数据表示为Xi,t,i∈{A,B,C,D},t=0,2,4,…,22,即表示某个时空节点下收派件作业产生的具体数量。
在该场景下,假如图2所示的每个区域为某个城市内的四个集散点。则可以采集实际的样本数据,即可以采集多组历史样本数据。设某个时空节点下收派件作业产生的历史样本数据为随机变量Xi,t,可以采集每个集散点的历史的样本数据,即从真实的历史数据中获取随机变量Xi,t对应的r天的样本数据
例如,可以采集过去一个月中,1号、15号及20号这3天的样本数据中,每天的上午8点及10点这两个时间点对应的作业量,从而可以得到三组历史样本数据,即每组历史样本数据中包括每个集散点每天对应的8个样本数据Xi,t,i∈{A,B,C,D},t=8,10。
可以表示成一个多维数组:
即可以得到随机变量X的3个观测值。
可以理解,也可以采用如下表格来表示三组历史样本数据:
S120,对历史样本数据进行降维变换,得到历史样本数据对应的连续概率密度模型。
具体的,采集到的多维度的历史样本数据中,部分样本历史数据可能相关。因此,可以通过降维处理,将高维度的数据中的除噪声和不重要的特征去掉,以保留能够体现样本特征的数据,从而在一定的数据损失范围内,节省计算时间和成本。
可选的,本申请实施例涉及的样本数据生成,可以利用主成分分析方法(principal Component Analysis,PCA)来实现历史样本数据的降维处理,得到压缩后的历史样本数据对应的独立数组,并对降维处理后的独立数组进行平滑,可以得到历史样本数据对应的连续概率密度模型。
可以理解,在PCA中,数据从原来的坐标空间转换到新的坐标空间,由数据本身决定。转换坐标空间时,因为数据的最大方差给出了数据的最重要的信息,所以以方差最大的方向作为坐标轴方向。第一个新坐标轴选择的是原始数据中方差最大的方法,第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。重复该过程,重复次数可以为原始数据的特征维数。
在实际降维过程中,通过计算数据矩阵的协方差矩阵,得到这些包含最大差异性的主成分方向,并得到协方差矩阵的特征值及特征向量,选择特征值最大(也即包含方差最大)的N个特征所对应的特征向量组成的矩阵,可以将数据矩阵转换到新的空间当中,实现数据特征的降维(N维)。
本申请实施例中,在利用PCA对历史样本数据进行降维处理时,首先可以计算历史样本数据的协方差矩阵,即可以通过计算每组样本数据的样本均值,进而得到样本矩阵。
例如,以上述表中所示的历史样本数据为例,则得到样本数据均值:
从而可以得到对应的样本矩阵,即样本值减去样本均值:
最后可以计算得到样本数据的协方差矩阵:
进而计算历史样本数据的协方差矩阵的特征值和特征向量:
特征值1 | 特征值2 | 特征值3 | 特征值4 | 特征值5 | 特征值6 | 特征值7 | 特征值8 |
2.73E+01 | -8.86E-16 | 7.53E-16 | -1.32E-16 | 7.39E+00 | 9.26E-16 | -1.32E-16 | 2.88E-16 |
特征向量1 | 特征向量2 | 特征向量3 | 特征向量4 | 特征向量5 | 特征向量6 | 特征向量7 | 特征向量8 |
-0.29172624 | -0.0388002 | -0.49483266 | -0.38034605 | 0.31759304 | 0.54465228 | 0.29172624 | 0.20310642 |
004089818 | 063257208 | 020873521 | -008604067 | -04626129 | 055077572 | -004089818 | -016783703 |
034950856 | 048093254 | 025512823 | -029736472 | 067408853 | -01311803 | -010290021 | 010411241 |
0.03894489 | 0.18755699 | -0.65492051 | 0.23456661 | -0.49718861 | -0.22818525 | -0.06577572 | 0.41925152 |
-0.13622386 | -0.0619048 | 0.70597064 | -0.15119997 | 0.50778099 | 0.13775666 | 0.27205895 | -0.324839 |
0.01820084 | 0.07806656 | 0.00139733 | -0.4162714 | 0.16868367 | -0.20241857 | 0.13363219 | -0.6479663 |
0.01820084 | 0.07806656 | 0.00139733 | -0.4162714 | 0.16868367 | -0.20241857 | 0.13363219 | -0.6479663 |
-0.18965302 | -0.07881515 | 0.2698381 | -0.10036529 | -0.35395599 | -0.21382287 | 0.83105833 | 0.11520026 |
在利用上述计算可以对真实的历史样本数据进行主成分分析,即得到历史样本数据的协方差矩阵的n个特征值(这里n=i×t),如上述历史样本数据中,可以得到8个特征值。
可以理解,由于影响数据分布的差异性是协方差大的历史数据,即可以选取靠前的m个特征值对应的特征向量,得到转换矩阵P。
如上述所示的特征值中,可选取特征值绝对值排前的2个,即特征值1和特征值5,从而可以根据其对应的特征向量得到变换关系矩阵P。
进一步的,可以利用该转换矩阵,对原始的历史样本数据进行降维处理,得到历史样本数据对应的独立数组。
假设独立数组为Y:
可以理解,该独立数组Y可以认为是线性独立的随机变量,即将实际的复杂的历史样本数据降维处理后,可以得到可以表示原始数据特征的独立维度的至少一个数组Yk,具体包括yk,k=1,2,3,…,m。
以上述表中所示的数据为例,利用变换关系矩阵降维处理后的三组独立数组Y为(k=2):
y1 | y2 | |
样本1 | 5.539125 | -1.24109 |
样本2 | -4.83369 | -1.87733 |
样本3 | -0.70544 | 3.118425 |
进一步的,可以理解,得到的样本的两个维度y1和y2不存在线性的相关性。因此,在得到包括至少一个独立的随机变量数组Yk,k=1,2,3,…,m后,即在得到新的历史数据后,在新的空间中,由于历史数据为离散状态,即为线性独立的随机变量。为了使得新生成的样本数据与历史样本数据满足同一分布,且具有多样性,还需要对新的历史数据的进行连续化处理,得到连续的概率密度模型。
例如,首先可以根据实际离散的随机变量Yk,生成Yk的经验分布Jk函数。分箱个数可以设置一定的个数,如20。
进而可以将上述的Jk进行保准高斯核函数平滑得到连续的概率密度函数,从而获取连续的经验分布J′k,即有Yk:J′k。
例如,参考图4,以上述的收派作业场景下的数据为例,可以利用高斯核对离散化的分布进行连续化,得到连续概率密度模型。
S130,对概率密度模型进行采样,获取至少一个随机数组;
S140,对随机数组进行降维变换的逆变换,生成多维度的至少一组目标样本数据。
具体的,在得到密度模型后,可以基于该密度模型,即从密度模型中随机抽取至少一个随机数组。进而可以利用所述变换关系矩阵的逆变换的变换矩阵,对所述随机数组进行降维逆变换,生成大量的新的样本数据,使得生成的样本数据尽可能多样化,来提高仿真效果。
对于上述的Yk:J′k,可以从Yk,k=1,2,3,…,m中随机抽取对应的yk,k=1,2,3,…,m,即得到一个随机数组。然后可以利用XT=P-1YT,即利用变换关系矩阵的逆变换的变换矩阵,对得到的随机数组进行降维变换的逆变换,得到与历史样本数据具有相同分布的新的样本数据,即目标样本数据。
可以理解,本申请实施例提供的样本数据生成,可以重复上述操作,从连续概率密度模型中抽取多个随机数组,进而可以得到任意组新的样本数据,保证新的样本数据与历史样本数据满足同一分布,并使得样本数据多样化。
例如,在上述列出的数据中,可以从图4所示的连续概率模型中抽取多个随机数组。并利用变换关系矩阵的逆变换的变换矩阵:
0.291726 | 0.0388 | 0.494833 | 0.380346 | -0.31759 | -0.54465 | -0.29173 | -0.20311 |
-0.0409 | -0.63257 | -0.20874 | 0.086041 | 0.462613 | -0.55078 | 0.040898 | 0.167837 |
对抽取到的随机数组进行降维变换的逆变换,得到如下表所示的目标样本数据:
本申请实施例提供的样本数据生成方法及装置,通过获取真实的多维度历史样本数据,并对获取的历史样本数据进行降维处理,得到对应的连续概率密度模块,进而可以对该连续概率密度模型抽取多个随机数组,最后对随机数组进行降维变换的逆变换,生成多组新的样本数据,使得新生成的样本数据,相比于基于历史数据直接抽样的方式,可以更好的控制抽样方差,保证抽样的新的样本数据和历史样本数据满足同一分布,并且可以获取历史上没出现过的时空样本数据,使得样本数据多样化,可以生成任意数量的时空样本,实现样本数据量的扩增,提高了计算机仿真的准确性。
图4所示为本申请实施例提供的样本数据生成装置的结构示意图,如图4所示,该装置400可以包括:
第一获取模块410,用于获取多维度的至少一组历史样本数据;
变换模块420,用于对该历史样本数据进行降维变换,得到该历史样本数据对应的连续概率密度模型;
第二获取模块430,用于对该概率密度模型进行随机采样,获取至少一个随机数组;
生成模块440,用于对该随机数组进行该降维变换的逆变换,生成多维度的至少一组目标样本数据。
优选的,本申请实施例提供的样本数据生成装置,该变换模块具体用于:
对该历史样本数据进行主成分分析,获取变换关系矩阵;
利用该变换关系矩阵,将该历史样本数据转换为至少一个独立数组;
通过对该独立数组进行经验分布分析,获得该连续概率密度模型。
优选的,本申请实施例提供的样本数据生成装置,该生成模块,具体用于:
利用该变换关系矩阵的逆变换的变换矩阵,对该随机数组进行降维逆变换,生成该目标样本数据。
优选的,本申请实施例提供的样本数据生成装置,该多维的历史样本数据包括时间维度和空间维度组合的样本数据。
优选的,本申请实施例提供的样本数据生成装置,该变换模块具体用于:
基于该独立数组生成经验分布函数;
对该经验分布函数进行高斯核函数平滑,得到该连续概率密度模型
下面参考图5,其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。
如图5所示,计算机系统包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明的实施例,上文参考流程图1描述的过程可以被实现为计算机软件程序。例如,本发明的样本数据生成实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例样本数据生成方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取模块、变换模块、第二获取模块及生成模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,切换模块还可以被描述为“用于对所述随机数组进行所述降维变换的逆变换,生成多维度的至少一组目标样本数据的模块”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的样本数据生成方法。
例如,所述电子设备可以实现如图1中所示的:
S110,获取多维度的至少一组历史样本数据;
S120,对该历史样本数据进行降维变换,得到该历史样本数据对应的连续概率密度模型;
S130,对该概率密度模型进行采样,获取至少一个随机数组;
S140,对该随机数组进行该降维变换的逆变换,生成多维度的至少一组目标样本数据。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。
综上所述,本申请实施例提供的样本数据生成方法及装置,通过获取真实的多维度历史样本数据,并对获取的历史样本数据进行降维处理,得到对应的连续概率密度模块,进而可以对该连续概率密度模型抽取多个随机数组,最后对随机数组进行降维变换的逆变换,生成多组新的样本数据,使得新生成的样本数据,相比于基于历史数据直接抽样的方式,可以更好的控制抽样方差,保证抽样的新的样本数据和历史样本数据满足同一分布,并且可以获取历史上没出现过的时空样本数据,使得样本数据多样化,可以生成任意数量的时空样本,实现样本数据量的扩增,提高了计算机仿真的准确性。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种样本数据生成方法,其特征在于,所述方法包括:
获取多维度的至少一组历史样本数据;
对所述历史样本数据进行降维变换,得到所述历史样本数据对应的连续概率密度模型;
对所述概率密度模型进行采样,获取至少一个随机数组;
对所述随机数组进行所述降维变换的逆变换,生成多维度的至少一组目标样本数据。
2.根据权利要求1所述的样本数据生成方法,其特征在于,所述对所述历史样本数据进行降维变换,得到所述历史样本数据对应的连续概率密度模型包括:
对所述历史样本数据进行主成分分析,获取变换关系矩阵;
利用所述变换关系矩阵,将所述历史样本数据转换为至少一个独立数组;
通过对所述独立数组进行经验分布分析,获得所述连续概率密度模型。
3.根据权利要求2所述的样本数据生成方法,其特征在于,所述对所述随机数组进行所述降维变换的逆变换,生成多维度的至少一组目标样本数据包括:
利用所述变换关系矩阵的逆变换的变换矩阵,对所述随机数组进行降维逆变换,生成所述目标样本数据。
4.根据权利要求1所述的样本数据生成方法,其特征在于,所述多维度的历史样本数据包括时间维度和空间维度组合的样本数据。
5.根据权利要求2所述的样本数据生成方法,其特征在于,所述通过对所述独立数组进行经验分布分析,获得所述连续概率密度模型包括:
基于所述独立数组生成经验分布函数;
对所述经验分布函数进行高斯核函数平滑,得到所述连续概率密度模型。
6.一种样本数据生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取多维度的至少一组历史样本数据;
变换模块,用于对所述历史样本数据进行降维变换,得到所述历史样本数据对应的连续概率密度模型;
第二获取模块,用于对所述概率密度模型进行随机采样,获取至少一个随机数组;
生成模块,用于对所述随机数组进行所述降维变换的逆变换,生成多维度的至少一组目标样本数据。
7.根据权利要求6所述的样本数据生成装置,其特征在于,所述变换模块具体用于:
对所述历史样本数据进行主成分分析,获取变换关系矩阵;
利用所述变换关系矩阵,将所述历史样本数据转换为至少一个独立数组;
通过对所述独立数组进行经验分布分析,获得所述连续概率密度模型。
8.根据权利要求7所述的样本数据生成装置,其特征在于,所述生成模块,具体用于:
利用所述变换关系矩阵的逆变换的变换矩阵,对所述随机数组进行降维逆变换,生成所述目标样本数据。
9.根据权利要求6所述的样本数据生成装置,其特征在于,所述多维的历史样本数据包括时间维度和空间维度组合的样本数据。
10.根据权利要求7所述的样本数据生成装置,其特征在于,所述变换模块具体用于:
基于所述独立数组生成经验分布函数;
对所述经验分布函数进行高斯核函数平滑,得到所述连续概率密度模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910074290.7A CN111488892A (zh) | 2019-01-25 | 2019-01-25 | 样本数据生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910074290.7A CN111488892A (zh) | 2019-01-25 | 2019-01-25 | 样本数据生成方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111488892A true CN111488892A (zh) | 2020-08-04 |
Family
ID=71811504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910074290.7A Pending CN111488892A (zh) | 2019-01-25 | 2019-01-25 | 样本数据生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488892A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111982149A (zh) * | 2020-08-20 | 2020-11-24 | 歌尔科技有限公司 | 一种计步识别方法、装置、设备及可读存储介质 |
CN112730654A (zh) * | 2020-12-18 | 2021-04-30 | 国网河北省电力有限公司电力科学研究院 | 六氟化硫电气设备故障检测方法、装置及终端设备 |
CN113569929A (zh) * | 2021-07-15 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 基于小样本扩展的互联网服务提供方法、装置及电子设备 |
CN117828306A (zh) * | 2024-03-01 | 2024-04-05 | 青岛哈尔滨工程大学创新发展中心 | 一种基于船舶运动频谱特征的数据样本扩充方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140325251A1 (en) * | 2013-04-30 | 2014-10-30 | Hewlett-Packard Development Company, L.P. | Synthetic time series data generation |
CN108563889A (zh) * | 2018-04-23 | 2018-09-21 | 四川大学 | 一种随机变量的抽样模拟方法 |
CN109085805A (zh) * | 2018-07-24 | 2018-12-25 | 浙江科技学院 | 一种基于多采样率因子分析模型的工业过程故障检测方法 |
-
2019
- 2019-01-25 CN CN201910074290.7A patent/CN111488892A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140325251A1 (en) * | 2013-04-30 | 2014-10-30 | Hewlett-Packard Development Company, L.P. | Synthetic time series data generation |
CN108563889A (zh) * | 2018-04-23 | 2018-09-21 | 四川大学 | 一种随机变量的抽样模拟方法 |
CN109085805A (zh) * | 2018-07-24 | 2018-12-25 | 浙江科技学院 | 一种基于多采样率因子分析模型的工业过程故障检测方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111982149A (zh) * | 2020-08-20 | 2020-11-24 | 歌尔科技有限公司 | 一种计步识别方法、装置、设备及可读存储介质 |
CN112730654A (zh) * | 2020-12-18 | 2021-04-30 | 国网河北省电力有限公司电力科学研究院 | 六氟化硫电气设备故障检测方法、装置及终端设备 |
CN113569929A (zh) * | 2021-07-15 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 基于小样本扩展的互联网服务提供方法、装置及电子设备 |
CN113569929B (zh) * | 2021-07-15 | 2024-03-01 | 北京淇瑀信息科技有限公司 | 基于小样本扩展的互联网服务提供方法、装置及电子设备 |
CN117828306A (zh) * | 2024-03-01 | 2024-04-05 | 青岛哈尔滨工程大学创新发展中心 | 一种基于船舶运动频谱特征的数据样本扩充方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488892A (zh) | 样本数据生成方法及装置 | |
CN112699991B (zh) | 用于加速神经网络训练的信息处理的方法、电子设备和计算机可读介质 | |
CN106960219B (zh) | 图片识别方法及装置、计算机设备及计算机可读介质 | |
US9152691B2 (en) | System and method for performing set operations with defined sketch accuracy distribution | |
CN109063190B (zh) | 用于处理数据序列的方法和装置 | |
CN109885628B (zh) | 一种张量转置方法、装置、计算机及存储介质 | |
CN111209347B (zh) | 一种混合属性数据聚类的方法和装置 | |
CN111680799B (zh) | 用于处理模型参数的方法和装置 | |
CN111209974A (zh) | 基于张量分解的异构大数据核心特征提取的方法及系统 | |
CN110728313A (zh) | 一种用于意图分类识别的分类模型训练方法及装置 | |
CN109558899A (zh) | 数据降维方法及装置 | |
JP2023085353A (ja) | 特徴抽出モデル訓練方法、画像分類方法および関連装置 | |
CN116126947A (zh) | 应用于企业管理系统的大数据分析方法及系统 | |
CN109064464B (zh) | 用于检测电池极片毛刺的方法和装置 | |
CN117555695B (zh) | 一种基于并行计算实现异构计算的优化方法及系统 | |
CN110781849A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN112100177A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN111209530A (zh) | 基于张量分解的异构大数据因子特征提取的方法及系统 | |
CN114155410A (zh) | 图池化、分类模型训练、重建模型训练方法和装置 | |
CN114268625B (zh) | 特征选择方法、装置、设备及存储介质 | |
US11681920B2 (en) | Method and apparatus for compressing deep learning model | |
CN109542986B (zh) | 网络数据的要素归一化方法、装置、设备及存储介质 | |
CN111753111A (zh) | 图片搜索方法和装置 | |
CN113760489B (zh) | 一种资源配置方法和装置 | |
CN115238805B (zh) | 异常数据识别模型的训练方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200804 |