CN112132225A

CN112132225A - 一种基于深度学习的数据增强方法

Info

Publication number: CN112132225A
Application number: CN202011044587.8A
Authority: CN
Inventors: 张钦海; 王思俊; 张云飞; 王志保; 姜伟
Original assignee: Tianjin Tiandi Weiye Intelligent Security Technology Co ltd
Current assignee: Tianjin Tiandi Weiye Intelligent Security Technology Co ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2020-12-25

Abstract

本发明提供了一种基于深度学习的数据增强方法，包括：S1、设训练样本需要的目标样本数为N，设定容忍度k，把所有样本数量大于N‑k的样本加入模型，训练变分自编码机；S2、用训练好的自编码机对于大于N‑k并且小于N的样本生成特征向量，对这些特征向量进行SMOT插值，用插值之后的特征生成图片样本；S3、然后设定k＝2*k，即下一次把所有样本数量大于N‑2*k的样本放入模型训练自编码机；S4、我们重复步骤S1‑S3，直至所有样本满足等于N的要求。本发明所述的基于深度学习的数据增强方法在有限真实数据的前提下增加图像训练样本数量，满足图像深度学习模型训练要求。

Description

一种基于深度学习的数据增强方法

技术领域

本发明属于人工智能深度学习技术领域，尤其是涉及一种基于深度学习的数据增强方法。

背景技术

随着社会的进步与发展，深度学习已经在图像，文字语音等各个领域变为主流的技术。在文字翻译，对话机器人，语音识别，人脸识别，人脸支付等都有着重大应用潜力。而在图像领域，随着近年来的深度学习快速发展以及人工智能芯片算力的提升，很多图像算法都用到了深度学习技术，比如目前先进的人脸识别基本上都用到了深度学习。在图像深度学习有两个关键因素，其一是训练数据，其二是模型的结构。而最终效果的呈现取决于两者的有机结合，本发明想要解决的问题集中在第一个关键因素，即：图像训练数据的获得。

众所周知，图训练数据的获得取决于算法的应用场景。比如人脸识别和人脸检测模型需要用现实生活中的真实人脸。但是考虑实际情况下，获得真实数据会受到种种因素的制约，比如用户隐私，政策法规等。而数据取得的难易程度也会导致样本分布不均衡，某些类别样本多，某些样本类别少，这样不均衡的样本会降低的泛化能力。即便是能够获得相应的数据，数据集太小也没办法训练通用的模型，本发明要解决的问题就是在现有有限的图像数据集情况下提供一种图像数据增强的方法，扩大训练图像数据集数量，满足模型训练要求。

发明内容

有鉴于此，为克服上述缺陷，本发明旨在提出一种基于深度学习的数据增强方法，

为达到上述目的，本发明的技术方案是这样实现的：

一种基于深度学习的数据增强方法，包括：

S1、设训练样本需要的目标样本数为N，设定容忍度k，把所有样本数量大于N-k的样本加入模型，训练变分自编码机；

S2、用训练好的自编码机对于大于N-k并且小于N的样本生成特征向量，对这些特征向量进行SMOT插值，用插值之后的特征生成图片样本；这样大于N-k并且小于N的样本已经生成完毕，满足数量等于N的要求；

S3、然后设定k＝2*k，即下一次把所有样本数量大于N-2*k的样本放入模型训练自编码机；

S4、我们重复步骤S1-S3，直至所有样本满足等于N的要求。

进一步的，所述自编码机包括前后两部分，前部分为编码器，输入是图像，输出是特征向量；后部分为解码器，输入是特征向量，输出是图像；

执行步骤S2、S3时，利用步骤S1训练得到的自编码机器的解码器对于样本数量大于N-k但是小于N的不足样本生成特征向量；对这些特征向量SMOT插值生成更多的特征向量使得样本数量等于N，然后把生成的特征向量用自编码机的解码器生成图片样本。

进一步的，所述步骤S2中，SMOT插值的方法如下：

设训练集的一个需要插值的样本类为i,该样本数量为N_i，目标样本数量为N，容忍度为k，其中N_i∈[N-k,N]；我们本阶段的目的是要增加N-N_i个样本数据，首先从该样本类中找到样本x_i的m个临近，然后从这m个临近中随机选择一个样本x_i(mn)，同时生成一个随机变量α，其中α∈[0,1]，从而合成一个新的特征向量x_i(ml):

x_i(ml)＝x_i+α·(x_i(mn)-x_i)

重复这个过程N–N_i次，把这类训练集数量扩展到N。

相对于现有技术，本发明所述的基于深度学习的数据增强方法具有以下优势：

本发明所述的基于深度学习的数据增强方法在有限真实数据的前提下增加图像训练样本数量，满足图像深度学习模型训练要求。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的VAE变分自编码机示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

本发明为解决现有技术存在的问题而提出，其目的是在有限真实数据的前提下增加图像训练样本数量，满足图像深度学习模型训练要求。目前的图像算法都是基于神经网络模型，在训练神经网络的时候，需要对图像数据进行采样，目的是让我们的模型可以更好地去学习图像的特征，从而让效果更佳。对于某些样本不足的情况下，目前广泛存在两种做法：一种做法是简单的过采样和欠采样，即对于某些不足的样本重复采样，对于太多的样本只采集一部分样本。另一种采用的技术是读图像进行亮度，对比度的随机变换，以及图像尺寸(包括剪裁，旋转，镜像)的随机变换。这两种办法虽然可以减轻样本均衡导致的问题，增加少数样本数量，但是尽管图像的光照，尺寸等发生变化，纹理信息并没有发生改变，所以会过多的引入重复的信息，非常容易过拟合。

本发明提出的一种更有效的办法是通过SMOT(synthetic minority over-sampling technique)对不足样本进行插值获得新的样本方法，并且用自编码机获得额外的训练数据，具体方法如下。

步骤1：假设训练样本需要的目标样本数为N，设定一个容忍度k，把所有样本数量大于N-k的样本加入模型，训练变分自编码机(VAE)，自编码机可以把输入图像样本转化为特征向量，也可以把特征向量转化为图片。

步骤2：用训练好的自编码机器对于大于N-k并且小于N的样本生成特征向量，对这些特征向量进行SMOT插值，用插值之后的特征生成图片样本。这样大于N-k并且小于N的样本已经生成完毕，满足数量等于N的要求。然后设定k＝2*k，即下一次把所有样本数量大于N-2*k的样本放入模型训练自编码机。我们重复步骤1和步骤2，直至所有样本满足等于N的要求。

步骤1技术方案说明

自编码机可以分成两部分，第一部分为编码器(encoder)，输入是图像，输出是特征向量。第二部分是解码器(decoder)，输入是特征向量，输出是图像，具体示意图如图1所示。因为编码器和解码器的基本结构是卷积神经网络(CNN)，其中的非线性激活元素可以很好地拟合图像特征，在这样的到的特征上面做插值效果远比只调节光照，剪裁等表达能力更强。在一些特定的训练任务中，比如人脸识别，只需要增加某一个特定的人的人脸数据，这种强的表达方式可以增加模型泛化性能。

1.3步骤2技术方案说明

在步骤1的基础上，用第一步骤训练得到的自编码机器的解码器(decode)对于样本数量大于N-k但是小于N的不足样本生成特征向量，即图1中的前半部分CNN。对这些特征向量SMOT插值生成更多的特征向量使得样本数量等于N，然后把生成的特征向量用自编码机的解码器(decode)生成图片样本，即图1的后半部分CNN。

以下为SMOT插值算法的具体过程：

设训练集的一个需要插值的样本类为i,该样本数量为N_i，目标样本数量为N，容忍度为k，其中N_i∈[N-k,N]。我们本阶段的目的是要增加N-N_i个样本数据，首先从该样本类中找到样本x_i的m个临近(余弦距离作为度量)，然后从这m个临近中随机选择一个样本x_i(mn)，同时生成一个随机变量α，其中α∈[0,1]，从而合成一个新的特征向量x_i(ml):

x_i(ml)＝x_i+α·(x_i(mn)-x_i)

重复这个过程N–N_i次，我们便可以把这类训练集数量扩展到N。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的数据增强方法，其特征在于，包括：

S3、设定k＝2*k，即下一次把所有样本数量大于N-2*k的样本放入模型训练自编码机；

S4、我们重复步骤S1-S3，直至所有样本满足等于N的要求。

2.根据权利要求1所述的基于深度学习的数据增强方法，其特征在于：所述自编码机包括前后两部分，前部分为编码器，输入是图像，输出是特征向量；后部分为解码器，输入是特征向量，输出是图像；

3.根据权利要求1或2所述的基于深度学习的数据增强方法，其特征在于，所述步骤S2中，SMOT插值的方法如下：

设训练集的一个需要插值的样本类为i,该样本数量为N_i，目标样本数量为N，容忍度为k，其中N_i∈[N-k，N]；我们本阶段的目的是要增加N-N_i个样本数据，首先从该样本类中找到样本x_i的m个临近，然后从这m个临近中随机选择一个样本x_i(mn)，同时生成一个随机变量α，其中α∈[0，1]，从而合成一个新的特征向量x_i(ml):

x_i(ml)＝x_i+α·(x_i(mn)-x_i)

重复这个过程N–N_i次，把这类训练集数量扩展到N。