CN109886333A - 一种基于高维空间采样的数据增强方法 - Google Patents

一种基于高维空间采样的数据增强方法 Download PDF

Info

Publication number
CN109886333A
CN109886333A CN201910123936.6A CN201910123936A CN109886333A CN 109886333 A CN109886333 A CN 109886333A CN 201910123936 A CN201910123936 A CN 201910123936A CN 109886333 A CN109886333 A CN 109886333A
Authority
CN
China
Prior art keywords
training
data
data set
dimension
dimensional space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910123936.6A
Other languages
English (en)
Inventor
王卡风
须成忠
曹廷荣
熊超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201910123936.6A priority Critical patent/CN109886333A/zh
Publication of CN109886333A publication Critical patent/CN109886333A/zh
Priority to PCT/CN2019/125431 priority patent/WO2020168796A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种基于高维空间采样的数据增强方法,该方法先将需要增强的数据集分为训练集和测试集,包括:S1,将所述训练集从低维空间P映射至高维空间D,以获得第一数据集;S2,搭建训练模型,所述训练模型包括采样器和分类器;S3,所述采样器通过使用蒙特卡罗方法在所述第一数据集上进行采样以获得第二数据集;S4,控制所述训练集、所述第二数据集和所述测试集在相同的维度空间;S5,将控制过维度的训练集和第二数据集输入分类器中,对训练模型进行训练;S6,使用控制过维度的所述测试集对经训练后的训练模型的性能进行评估。该方法摆脱在更多的数据维度上进行采样的限制,产生的新样本更加适合分类器分类。

Description

一种基于高维空间采样的数据增强方法
技术领域
本发明涉及数据增强技术领域,更具体而言,涉及一种将数据训练集升维后,再在高维空间进行蒙特卡罗采样生成新样本来增强数据的方法。
背景技术
机器学习、深度学习提高正确率一般通过数据增强(Data Augmentation)或者调整机器学习分类、回归算法来完成。数据增强是机器学习、深度学习研究的重要分支之一,获得充足、有效的数据是得到高正确率的重要手段。在实践中,数据往往都是不充足的或者原始数据中有很多的无效冗余数据,在这种情况下,需要寻找更多的数据或是对原始数据进行有效增强。在实际问题中,可能存在数据种类多,但是数据量级偏少,这种情况下对问题的解决是一个很大的阻碍,一种解决的办法便是利用原始数据进行数据增强,来获取更多的适用于任务的数据。为了尽可能充分利用训练数据,一般会通过一系列随机变换来“扩充”训练数据,这样机器学习模型就不会看到完全相同的两次训练数据,有助于防止模型过拟合,从而提升测试正确率。以下介绍两种目前最新的数据增强方法:第一种是AutoAugment数据增强方法:EkinD.Cubuk等的论文《AutoAugment:Learning AugmentationPolicies from Data》通过模型学习出适合当前任务的数据增强方法。使用强化学习从数据本身寻找最佳图像变换策略,对于不同的任务学习不同的增强方法组合,是在原始图像上对已有图像操作集合的搜索;但是从本质上来看,该方法和常用的一些算法(如:旋转,仿射等)没有本质的区别,采样的空间以及采样的维度均没有改变。第二种是GAN数据增强方法:生成对抗网络(GAN:Generative adversarial networks)通过模型学习数据的分布,随机生成与训练数据集分布一致的图片,但是该方法不能直接提升分类器的正确率。
发明内容
鉴于上述问题,本发明提出了一种将数据训练集升维,然后根据升维后的数据集采用蒙特卡罗采样的方法来生成新样本,并结合机器学习算法的选择、算法超参数的调整来联合优化,从而提高机器学习正确率的技术方案,如下:
本发明提供了一种基于高维空间采样的数据增强方法,该方法先将需要增强的数据集分为训练集和测试集,具体包括:
S1,将所述训练集从低维空间P映射至高维空间D,以获得第一数据集;
S2,搭建训练模型,所述训练模型包括采样器和分类器;
S3,所述采样器通过使用蒙特卡罗方法在所述第一数据集上进行采样以获得第二数据集;
S4,控制所述训练集、所述第二数据集和所述测试集在相同的维度空间;
S5,将控制过维度的训练集和第二数据集输入分类器中,对训练模型进行训练;
S6,使用控制过维度的所述测试集对经训练后的训练模型的性能进行评估。
优选地,所述训练模型还包括Metropolis-Hastings校正器,在步骤S3中,所述“所述采样器通过使用蒙特卡罗方法在所述第一数据集上进行采样以获得第二数据集”的步骤包括:
S31,在所述第一数据集上随机选取一个样本作为初始样本;
S32,对所述初始样本进行T次迭代以获得候选样本;
S33,使用所述Metropolis-Hastings校正器判断所述候选样本是否符合与所述第一数据集一致的分布性质,当判断结果为是时,将当前候选样本加入第二数据集,返回步骤S31;当判断结果为否时,将当前候选样本替换为新的初始样本,返回步骤S32。
更优选地,所述Metropolis-Hastings校正器通过设置接受/拒绝比率来判断所述候选样本是否符合与所述第一数据集一致的分布性质,其中,所述接受/拒绝比率的范围为0.8~1.4。
优选地,在步骤S1中,所述“将所述训练集从低维空间P映射至高维空间D,以获得第一数据集”的步骤包括:
通过字典矩阵和升维算子对所述训练集进行升维以获得第一数据集。
更优选地,所述字典矩阵随机生成或者利用所述训练集在KSVD算法中训练生成,所述升维算子选自LASSO函数、卷积或者编码中的任意一种。
优选地,所述蒙特卡罗方法为随机梯度朗之万动力学采样法或随机梯度哈密尔顿蒙特卡洛采样法。
优选地,所述分类器选自支持向量机算法、随机森林算法或者卷积神经网络算法中的任意一种。
优选地,使用升维算子或降维算子控制所述训练集、所述第二数据集和所述测试集在相同的维度空间,所述升维/降维算子选自卷积/去卷积、编码/去编码或者LASSO函数中的任意一组。
优选地,在步骤S5中,所述“将控制过维度的训练集和第二数据集输入分类器中进行训练”的步骤包括:
先将控制过维度的训练集输入分类器中进行训练,训练完成后,再将控制过维度的第二数据集继续输入所述分类器中进行训练;或者
将控制过维度的所述训练集和所述第二数据集合并后,再输入分类器中进行训练。
更优选地,将控制过维度的所述训练集和所述第二数据集按照(4~7):1的比例合并。
与现有技术相比,本发明提供的该方法提出了在更高维度上对数据进行采样;利用LASSO函数升维,可以摆脱在更多的数据维度上进行采样的限制,达到增强数据的目的,同时还能够摆脱维度灾难,减少采样的资源占用,在之后的分类器性能表现上,也有了明显的提升,本方法经试验证实产生的新样本更加适合分类器分类。
附图说明
图1是本发明实施例提供的在高维空间采样实现数据增强的方法流程图。
图2是本发明实施例提供的梯度估计器设计流程图。
图3是本发明实施例提供的一种利用压缩感知升维后采样算法的实现流程图。
图4是本发明实施例提供的Metropolis-Hastings校正器的设计流程图。
图5是本发明实施例提供的对训练模型进行训练的设计流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了使本揭示内容的叙述更加详尽与完备,下文针对本发明的实施方式与具体实施例提出了说明性的描述;但这并非实施或运用本发明具体实施例的唯一形式。实施方式中涵盖了多个具体实施例的特征以及用以建构与操作这些具体实施例的方法步骤与其顺序。然而,亦可利用其它具体实施例来达成相同或均等的功能与步骤顺序。
本发明提供了一种基于高维空间采样的数据增强方法,受压缩感知的启发,该方法假设所有样本是某些高维稀疏向量的低维度测量,而在这样的高维度空间中存在连续概率分布,在这个连续分布中进行采样获得新样本,并且这些高维空间新样本更利于分类。请参阅图1,图1为本发明实施例提供的在高维空间采样实现数据增强的方法流程图,下面结合图1对本发明进行具体解释。
该方法先将需要增强的数据集分为训练集和测试集,具体包括以下步骤:
步骤S1,将该训练集从低维空间P映射至高维空间D,以获得第一数据集。在该步骤中,又包括了S11,随机产生一个压缩感知的字典矩阵,或者用训练集在KSVD算法中训练生成一个字典矩阵;S12,将步骤S11中生成的字典矩阵结合升维算子对训练集进行升维,以获得第一数据集,其中,根据本发明的一些实施方式,升维算子可以选自LASSO函数、卷积或者编码中的任意一种,优选为LASSO函数,不仅可以摆脱在更多的数据维度上进行采样的限制,达到数据增强的效果,同时还能够摆脱维度灾难,减少采样的资源占用。
步骤S2,搭建初始训练模型,该训练模型包括采样器和分类器。在该训练模型中所使用的采样器基于蒙特卡罗方法进行采样,根据本发明的一些实施例,可以使用的蒙特卡罗方法包括随机梯度朗之万动力学(stochastic gradient langevin dynamics,SGLD)采样法或随机梯度哈密尔顿蒙特卡洛(stochastic gradient Hamiltonian Monte Carlo,sgHMC)采样法等。在该训练模型中所使用的分类器包括了支持向量机(SVM)、随机森林等浅度学习算法和卷积神经网络(CNN)等等深度学习算法。根据本发明的另一些实施例,在该训练模型中还可以增加Metropolis-Hastings校正器,该校正器用于判断采得的样本是否符合与第一数据集或者未升维前的训练集一致的分布性质,如果符合,则接受;反之,则拒绝,增加Metropolis-Hastings校正器会有利于采得符合要求的样本。
步骤S3,采样器通过使用蒙特卡罗方法在第一数据集上进行采样以获得第二数据集。本发明所使用的采样器中包括了梯度估计器,请参阅图2,图2为本发明实施例提供的梯度估计器设计流程图,其原理如下:先从原始数据集中随机抽取一小批的数据量S,在S数据集上先求解初始值X0的随机梯度gm,再根据随机梯度gm来得到下一个候选样本XT的值。基于该梯度估计器,本发明实施例提供了一种具体的采样算法实现过程如图3所示,步骤S31,用独立同分布的白噪声在第一数据集上取一个初始值X0;步骤S32,在具有梯度估计器的采样器中,对初始值X0进行T次的迭代,找到下一个候选样本XT;步骤S32,通过使用Metropolis-Hastings校正器判断XT是否符合与第一数据集一致的分布性质来决定是否接受XT成为新的有效样本;当判断结果为是时,将当前候选样本加入第二数据集,返回步骤S31;当判断结果为否时,将当前候选样本替换为新的初始样本,返回步骤S32,K轮之后,即可从D维空间分布中取出了K个随机样本:X1,X2,X3,……,Xk,这些样本组成了高维空间的第二数据集。
在步骤S32中,Metropolis-Hastings校正器通过设置接受/拒绝比率来判断所述候选样本是否符合与所述第一数据集一致的分布性质,根据本发明的一些实施方式,接受/拒绝比率的范围为0.8~1.4。进一步地,该Metropolis-Hastings校正器的实现过程如图4所示,先基于整个数据集评估X0、XT的负对数密度以及导数;然后分别算出X0到XT的转移概率以及XT到X0的转移概率,并求出两个概率值的比例θ;再在0~1之间随机抽取一个数ε,将εd和θ进行比较,其中d为设定的接受/拒绝比率值,若εd<θ,则选择接受XT,反之,则拒绝。
步骤S4,控制训练集、第二数据集和测试集在相同的维度空间。在该步骤中,通过使用升维算子或降维算子控制训练集、第二数据集和测试集在相同的维度空间,以得到分类器所需要的维度数据。具体包括了:使用升维算子对训练集和测试集进行升维,使得三个数据集同为D维空间分布;或者使用降维算子对第二数据集进行降维,使得三个数据集同为P维空间分布。且在整个发明中,所使用的升维/降维算子是一对算法,可以选择卷积(convolution)/去卷积(de-convolution)、编码(encoder)/解码(decoder)或者LASSO等算子中的任意一组。
步骤S5,将控制过维度的训练集和第二数据集输入分类器中,对训练模型进行训练。在该步骤中,训练结果以训练所得的正确率进行评估,训练到当正确率不再升高的饱和状态时结束,在训练的过程中,根据正确率的好坏来反馈调整采样器的起始步数成、采样间隔步数等参数、校正器的接受/拒绝比率、分类器算法及其对应的超参数,具体的训练过程如图5所示。根据本发明的一些实施例,在该步骤中,可以先将控制过维度的训练集输入分类器中进行训练,训练完成后,再将控制过维度的第二数据集继续输入分类器中进行训练,也可以将控制过维度的训练集和第二数据集合并后,再输入分类器中进行训练的过程,根据本发明的另一些实施例,将控制过维度的训练集和第二数据集按照(4~7):1的比例合并。
步骤S6,使用控制过维度的测试集对经训练后的训练模型的性能进行评估。
经试验证实,本发明提供的数据增强方法不仅摆脱了在更多的数据维度上进行采样的限制,在之后的分类器性能表现上,也有了明显的提升,产生的新样本更加适合分类器分类。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于高维空间采样的数据增强方法,该方法先将需要增强的数据集分为训练集和测试集,其特征在于,所述方法包括:
S1,将所述训练集从低维空间P映射至高维空间D,以获得第一数据集;
S2,搭建训练模型,所述训练模型包括采样器和分类器;
S3,所述采样器通过使用蒙特卡罗方法在所述第一数据集上进行采样以获得第二数据集;
S4,控制所述训练集、所述第二数据集和所述测试集在相同的维度空间;
S5,将控制过维度的训练集和第二数据集输入分类器中,对训练模型进行训练;
S6,使用控制过维度的所述测试集对经训练后的训练模型的性能进行评估。
2.如权利要求1所述方法,其特征在于,所述训练模型还包括Metropolis-Hastings校正器,在步骤S3中,所述“所述采样器通过使用蒙特卡罗方法在所述第一数据集上进行采样以获得第二数据集”的步骤包括:
S31,在所述第一数据集上随机选取一个样本作为初始样本;
S32,对所述初始样本进行T次迭代以获得候选样本;
S33,使用所述Metropolis-Hastings校正器判断所述候选样本是否符合与所述第一数据集一致的分布性质,当判断结果为是时,将当前候选样本加入第二数据集,返回步骤S31;当判断结果为否时,将当前候选样本替换为新的初始样本,返回步骤S32。
3.如权利要求2所述方法,其特征在于,所述Metropolis-Hastings校正器通过设置接受/拒绝比率来判断所述候选样本是否符合与所述第一数据集一致的分布性质,其中,所述接受/拒绝比率的范围为0.8~1.4。
4.如权利要求1所述方法,其特征在于,在步骤S1中,所述“将所述训练集从低维空间P映射至高维空间D,以获得第一数据集”的步骤包括:
通过字典矩阵和升维算子对所述训练集进行升维以获得第一数据集。
5.如权利要求4所述方法,其特征在于,所述字典矩阵随机生成或者利用所述训练集在KSVD算法中训练生成,所述升维算子选自LASSO函数、卷积或者编码中的任意一种。
6.如权利要求1所述方法,其特征在于,所述蒙特卡罗方法为随机梯度朗之万动力学采样法或随机梯度哈密尔顿蒙特卡洛采样法。
7.如权利要求1所述方法,其特征在于,所述分类器选自支持向量机算法、随机森林算法或者卷积神经网络算法中的任意一种。
8.如权利要求1或4所述方法,其特征在于,使用升维算子或降维算子控制所述训练集、所述第二数据集和所述测试集在相同的维度空间,所述升维/降维算子选自卷积/去卷积、编码/去编码或者LASSO函数中的任意一组。
9.如权利要求1所述方法,其特征在于,在步骤S5中,所述“将控制过维度的训练集和第二数据集输入分类器中进行训练”的步骤包括:
先将控制过维度的训练集输入分类器中进行训练,训练完成后,再将控制过维度的第二数据集继续输入所述分类器中进行训练;或者
将控制过维度的所述训练集和所述第二数据集合并后,再输入分类器中进行训练。
10.如权利要求9所述方法,其特征在于,将控制过维度的所述训练集和所述第二数据集按照4:1~7:1的比例合并。
CN201910123936.6A 2019-02-19 2019-02-19 一种基于高维空间采样的数据增强方法 Pending CN109886333A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910123936.6A CN109886333A (zh) 2019-02-19 2019-02-19 一种基于高维空间采样的数据增强方法
PCT/CN2019/125431 WO2020168796A1 (zh) 2019-02-19 2019-12-14 一种基于高维空间采样的数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910123936.6A CN109886333A (zh) 2019-02-19 2019-02-19 一种基于高维空间采样的数据增强方法

Publications (1)

Publication Number Publication Date
CN109886333A true CN109886333A (zh) 2019-06-14

Family

ID=66928457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910123936.6A Pending CN109886333A (zh) 2019-02-19 2019-02-19 一种基于高维空间采样的数据增强方法

Country Status (2)

Country Link
CN (1) CN109886333A (zh)
WO (1) WO2020168796A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027717A (zh) * 2019-12-11 2020-04-17 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统
WO2020168796A1 (zh) * 2019-02-19 2020-08-27 深圳先进技术研究院 一种基于高维空间采样的数据增强方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183300B (zh) * 2020-09-23 2024-03-22 厦门大学 一种基于多层次稀疏表示的ais辐射源识别方法及系统
CN113626414A (zh) * 2021-08-26 2021-11-09 国家电网有限公司 一种高维数据集的数据降维、去噪方法
CN117655118B (zh) * 2024-01-29 2024-04-19 太原科技大学 多模融合的带钢板形控制方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140324742A1 (en) * 2013-04-30 2014-10-30 Hewlett-Packard Development Company, L.P. Support vector machine
CN106407664B (zh) * 2016-08-31 2018-11-23 深圳市中识健康科技有限公司 呼吸气体诊断系统的领域自适应装置
WO2018187950A1 (zh) * 2017-04-12 2018-10-18 邹霞 基于核判别分析的人脸识别方法
CN109214401B (zh) * 2017-06-30 2020-10-16 清华大学 基于层次化自动编码器的sar图像分类方法及装置
CN108921123A (zh) * 2018-07-17 2018-11-30 重庆科技学院 一种基于双重数据增强的人脸识别方法
CN109886333A (zh) * 2019-02-19 2019-06-14 深圳先进技术研究院 一种基于高维空间采样的数据增强方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020168796A1 (zh) * 2019-02-19 2020-08-27 深圳先进技术研究院 一种基于高维空间采样的数据增强方法
CN111027717A (zh) * 2019-12-11 2020-04-17 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统

Also Published As

Publication number Publication date
WO2020168796A1 (zh) 2020-08-27

Similar Documents

Publication Publication Date Title
CN109886333A (zh) 一种基于高维空间采样的数据增强方法
Gu et al. Self-organizing map-based weight design for decomposition-based many-objective evolutionary algorithm
CN109165720A (zh) 神经网络模型压缩方法、装置和计算机设备
CN109906460A (zh) 用于问答的动态协同注意力网络
CN109492582A (zh) 一种基于算法对抗性攻击的图像识别攻击方法
CN107392919A (zh) 基于自适应遗传算法的灰度阈值获取方法、图像分割方法
CN110781406A (zh) 一种基于变分自动编码器的社交网络用户多属性推断方法
CN110532372B (zh) 一种基于神经协同过滤挖掘深层特征的文本对象精准推送方法
CN107579816A (zh) 基于递归神经网络的密码字典生成方法
CN103793747B (zh) 网络内容安全管理中一种敏感信息模板构建方法
US20220124387A1 (en) Method for training bit rate decision model, and electronic device
CN116151488B (zh) 一种污染数据分析方法、系统及设备
Hanna et al. On distributed quantization for classification
Reddy et al. Pragmatic image compression for human-in-the-loop decision-making
CN115659807A (zh) 一种基于贝叶斯优化模型融合算法对人才表现预测的方法
Tang et al. Mkq-bert: Quantized bert with 4-bits weights and activations
CN114116995A (zh) 基于增强图神经网络的会话推荐方法、系统及介质
Ledesma et al. Feature selection using artificial neural networks
CN112200314A (zh) 一种基于微柱自荐的htm空间池快速训练方法及系统
Guzella et al. Identification of SPAM messages using an approach inspired on the immune system
JP2009175925A (ja) 照合パラメータ最適化装置、最適化方法および最適化制御プログラム
CN114385876B (zh) 一种模型搜索空间生成方法、装置及系统
Nakata et al. Simple compact genetic algorithm for XCS
KR102476695B1 (ko) 텍스트 분류를 위한 적응형 콘볼루션 필터 생성 방법 및 서버
Mohabeer et al. Application of predictive coding in the evolution of artificial neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190614