CN113657581A

CN113657581A - 一种基于深度学习的训练数据获取方法和系统

Info

Publication number: CN113657581A
Application number: CN202110953717.8A
Authority: CN
Inventors: 刘杰; 唐权斌; 陈思; 邱旭之; 陈雨梦; 杨培丽; 朱道远
Original assignee: Yangtze Optical Fibre and Cable Co Ltd
Current assignee: Yangtze Optical Fibre and Cable Co Ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-11-16

Abstract

本发明公开了一种基于深度学习的训练数据获取方法，包括：获取样本数据，对得到的样本数据进行预处理操作，以得到预处理后的样本数据，将预处理后的样本数据输入训练好的DCGAN模型中，以得到输出结果作为最终的训练数据。本发明能够解决现有工业互联网标识解析系统中，由于标签数据数量过于庞大且类别众多，导致用于训练用的标签数据采集困难的技术问题，以及采集大量数据会增加人力成本、耗时耗力的技术问题，以及由于采集数据缺乏多样性、冗余度高而导致训练识别模型时出现过拟合的技术问题。

Description

一种基于深度学习的训练数据获取方法和系统

技术领域

本发明属于计算机应用软件领域，更具体地，涉及一种基于深度学习的训练数据获取方法和系统。

背景技术

在工业互联网体系中，网络是基础，而标识是网络的基础，是网络的“身份证”，工业互联网标识解析系统是实现工业全要素、各环节信息互通的关键枢纽；通过给每一个对象赋予标识，并借助工业互联网标识解析系统，就能够实现跨地域、跨行业、跨企业的信息查询和共享。

目前，工业互联网标识解系统是通过条形码、二维码、无线射频识别标签等方式赋予物品唯一的标签。如果需要准确识别该标签，需要借助于一个高效率的的标签识别模型，而实现高效率标签识别模型的关键点，在于采集训练数据，并利用该训练数据对标签识别模型进行训练。

然而，在现有工业互联网标识解析系统中，由于标签数据数量过于庞大且类别众多，会导致用于训练用的标签数据采集困难；另外，采集大量数据会增加人力成本，耗时耗力；此外，现有工业互联网标识解析系统采集的数据缺乏多样性，冗余度高，这会导致训练识别模型时出现过拟合的问题

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度学习的训练数据获取方法和系统，其目的在于，解决现有工业互联网标识解析系统中，由于标签数据数量过于庞大且类别众多，导致用于训练用的标签数据采集困难的技术问题，以及采集大量数据会增加人力成本、耗时耗力的技术问题，以及由于采集数据缺乏多样性、冗余度高而导致训练识别模型时出现过拟合的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的训练数据获取方法，包括如下步骤：

(1)获取样本数据；

(2)对步骤(1)得到的样本数据进行预处理操作，以得到预处理后的样本数据；

(3)将步骤(2)预处理后的样本数据输入训练好的DCGAN模型中，以得到输出结果作为最终的训练数据。

优选地，步骤(1)中获取样本数据，可以是通过线阵相机对可拍摄物品进行现场采集，并对采集的数据进行分类整理后得到，也可以是利用网络爬虫技术从互联网上爬取可用的标签数据后得到。

优选地，步骤(2)具体为，首先对样本数据中存在的模糊、缺损数据进行数据清洗，然后对数据清洗后的样本数据进行数据裁剪，随后，对数据裁剪后的样本数据进行归一化操作，最后对归一化操作后的样本数据进行扩容操作，以得到预处理后的样本数据。

优选地，DCGAN模型包括彼此连接的生成器网络和判别器网络。

优选地，生成器网络的网络结构如下：

第一层是卷积模块层，其是由卷积层、正则化层以及激活函数组成，输入大小为256*256*3。其中，卷积核大小为3*3，步长为2，输出大小为128*128*64，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第二层是卷积模块层，其是由卷积层、正则化层以及激活函数组成，输入大小为128*128*64。其中，卷积核大小为3*3，步长为2，输出大小为64*64*128，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第三层是卷积模块层，其是由卷积层、正则化层以及激活函数组成，输入大小为64*64*128。其中，卷积核大小为3*3，步长为2，输出大小为32*32*256，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第四层是卷积模块层，其是由卷积层、正则化层以及激活函数组成，输入大小为32*32*256。其中，卷积核大小为3*3，步长为1，输出大小为32*32*256，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第五层是卷积模块层，其是由卷积层、正则化层以及激活函数组成，输入大小为32*32*256。其中，卷积核大小为3*3，步长为1，输出大小为32*32*256，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第六层是卷积模块层，其是由卷积层、正则化层以及激活函数组成，输入大小为32*32*512。其中，卷积核大小为3*3，步长为1，输出大小为32*32*256，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第七层是上卷积模块层，由上采样层、正则化层、激活函数按顺序前后串联形成，输入大小为32*32*256。其中，上采样步长为2，输出大小64*64*128，卷积核尺寸为3*3，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第八层是卷积模块层，其是由卷积层、正则化层以及激活函数组成，输入大小为64*64*256。其中，卷积核大小为3*3，步长为1，输出大小为64*64*128，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第九层是上卷积模块层，由上采样层、正则化层、激活函数按顺序前后串联形成，输入大小为64*64*128。其中，上采样步长为2，输出大小128*128*64，卷积核尺寸为3*3，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第十层是卷积模块层，其是由卷积层、正则化层以及激活函数组成，输入大小为128*128*128。其中，卷积核大小为3*3，步长为1，输出大小为128*128*64，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第十一层是上卷积模块层，由上采样层、正则化层、激活函数按顺序前后串联形成，输入大小为128*128*64。其中，上采样步长为2，输出大小256*256*3，卷积核尺寸为3*3，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

优选地，判别器网络的网络结构如下：

第四层是卷积模块层，其是由卷积层、正则化层以及激活函数组成，输入大小为32*32*256。其中，卷积核大小为3*3，步长为2，输出大小为16*16*512，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第五层是卷积模块层，其是由卷积层、正则化层以及激活函数组成，输入大小为16*16*512。其中，卷积核大小为3*3，步长为1，输出大小为16*16*256，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第六层是第一个全连接层，对第五层输出进行全连接操作，输出为1*4096，然后采用softmax函数对输出进行预测，从而判别图片的真伪。

优选地，DCGAN模型是通过以下步骤训练得到的：

(1-1)获取样本数据；

(1-2)对步骤(1-1)得到的样本数据进行预处理操作，以得到预处理后的样本数据；

(1-3)将步骤(1-2)预处理后的样本数据按照8：2的比例划分为训练集和测试集；

(1-4)将步骤(1-3)中的训练集按批次大小batchsize＝64进行分组，依次将所有分组输入DCGAN模型中的生成器网络模型，最终得到由大小为256*256*3的图像XG(1),XG(2),...,XG(N)所组成的图像集合{XG(1),XG(2),...,XG(N)}，其中N表示步骤(1-3)得到的训练集的大小。

(1-5)将步骤(1-3)和(1-4)得到的图像集合{XG(1),XG(2),...,XG(N)}和{YG(1),YG(2),...,YG(N)}分别输入DCGAN模型中的判别器网络模型，以得到判别分数，根据判别分数获取判别器网络的损失和生成器网络的损失。

(1-6)根据步骤(1-5)得到的判别器网络的损失和生成器网络的损失对DCGAN模型进行迭代训练，直到整个DCGAN模型的训练优化函数收敛为止。

(1-7)重复上述步骤(1-1)至(1-6)，直至迭代次数达到最大设定迭代次数为止，从而得到训练好的DCGAN模型。

优选地，判别器网络的损失等于：

其中D表示判别器网络，G表示生成器网络，E表示数学期望，D(YG(i))表示将图像YG(i)输入判别器网络后的结果，G(XG(i))表示将图像XG(i)输入生成器网络后的结果，i∈[1，N]，D(G(XG(i)))表示将将图像XG(i)输入生成器网络后的结果输入判别器网络后的判别结果；

生成器网络的损失等于：

训练优化函数等于

。

优选地，训练过程是采用10倍交叉验证方法，并采用Adam优化器对DCGAN模型进行更新；

DCGAN模型中生成器网络和判别器网络是交替迭代训练，训练优化函数分别对判别器网络和生成器网络进行优化的，其首先对判别器网络进行优化，在完成对判别器网络的优化之后，再对生成器网络进行优化，交替训练，直到生成器网络和判别器网络达到平衡为止。

按照本发明的另一方面，提供了一种基于深度学习的训练数据获取系统，包括：

第一模块，用于获取样本数据；

第二模块，用于对第一模块得到的样本数据进行预处理操作，以得到预处理后的样本数据；

第三模块，用于将第二模块预处理后的样本数据输入训练好的DCGAN模型中，以得到输出结果作为最终的训练数据。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1)本发明由于采用了步骤(3)，其利用生成对抗网络强大的学习能力，模仿并生成大量样本数据，因此能够解决现有工业互联网标识解析系统中，由于标签数据数量过于庞大且类别众多，导致用于训练用的标签数据采集困难的技术问题；

2)本发明由于采用了步骤(1)，其采用线上爬取和线下采集的方式，在一定程度上能够减少人力资源的耗费，因此能够解决现有工业互联网标识解析系统中存在的采集数据耗时耗力的问题；

3)本发明由于采用了步骤(2)和(3)，其首先利用传统扩容方法对样本数据进行扩充，然后用深度学习方法DCGAN对样本进行二次扩充，生成的样本有足够的多样性，因此能够解决现有工业互联网标识解析系统中存在的采集数据缺乏多样性的问题，避免在训练识别模型时发生过拟合。

附图说明

图1是本发明基于深度学习的训练数据获取方法的流程图。

图2是本发明中生成对抗网络模型中卷积模块层的结构示意图。

图3是本发明中生成对抗网络模型中上卷积模块层的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的整体思路在于，利用生成对抗网络强大的学习数据分布能力，以及生成数据的能力，训练得到标签数据的分布情况，进而生成大量与原始标签数据类似的标签，得到大量的训练样本，不必进行过多物理采样，减少人工成本。

如图1所示，本发明提供了一种基于深度学习的训练数据获取方法，包括如下步骤：

(1)获取样本数据；

具体而言，本步骤中获取样本数据，可以是通过线阵相机对可拍摄物品(其是具有二维码或条形码的商品)进行现场采集，并对采集的数据进行分类整理后得到，也可以是利用网络爬虫技术从互联网上爬取可用的标签数据后得到。

在真实的物理世界中，存在大量的样本数据可供采集，如工厂内各种生产物料上的条形码、二维码等，对于类别不同的标签数据，数据分布也不相同，因此在采集过程中要对它们进行分类，在后续的模型训练中也要分类进行训练。

对于采集数据的设备，可以是面阵相机，即所见即所得，不用像线阵相机那样对样本进行处理，同时生成物料大多也不便使用线阵相机采集，例如，成批的成品集中装载在集装箱中，标签只打在集装箱上，进行统一查询；而且，对于以及成为成品的物料，拆卸也需要耗费人力物力。

所以，采集样本数据应在节省人力物力的前提下，采集可获取的标签数据；同时，利用网络爬虫技术也可获得部分标签数据，在互联网高度发达的今天，数据联网是常态，利用网络爬虫数据可轻松获得联网的标签数据，节省人力物力。

具体而言，本步骤首先是对样本数据中存在的模糊、缺损等数据进行数据清洗(目的是保证数据的可操作性)，然后对数据清洗后的样本数据进行数据裁剪(目的是保证所有数据内的标签信息覆盖规模统一)，随后，对数据裁剪后的样本数据进行归一化操作(目的是使数据的大小保持统一)，最后对归一化操作后的样本数据进行扩容操作(包括旋转、平移、缩放、裁剪等操作，目的是增加样本数据的数量)，以得到预处理后的样本数据。

经过步骤(1)的操作后，得到的样本数据存在大小不统一、图内标签数据占比不一致、部分数据质量不高，模糊，缺漏等问题，对学习数据分布存在一定的影响。

对此，需要对上述数据进行数据清洗，最简单直接的方法是删除模糊、缺漏等质量不高的数据；对于所有数据，首先进行尺度归一化，将所有数据缩放到统一的尺寸，便于后续实验进行；对于图内标签数据占比不一致的数据，进行适当的裁剪操作，保证每例标签样本有类似的分布。

经过数据清洗后，样本数据趋于正常，各类内的标签数据趋于同分布，但是还存在样本量过少，容易导致深度学习训练达不到预期效果的问题，因此还需对样本进行传统简单地扩容，保证样本的数量能够支撑模型的训练。

在传统的样本扩容方法中，包括旋转、平移、缩放、裁剪等操作，考虑到后续模型需要样本数据保持完整，在对样本进行裁剪时要注意裁剪的范围，避免将样本内的标签信息裁剪掉，使标签信息失去完整性，其他方法同样应该注意保持标签信息的完整性。

(3)将步骤(2)预处理后的样本数据输入训练好的深度卷积生成对抗网络(Deepconvolutional generative adversarial network，简称DCGAN)模型中，以得到输出结果作为最终的训练数据；

具体而言，本发明的DCGAN模型包括彼此连接的生成器网络和判别器网络，其中生成器网络的网络结构如下：

第一层是卷积模块层，其是由卷积层、正则化层以及激活函数组成(如图2所示)，输入大小为256*256*3。其中，卷积核大小为3*3，步长为2，输出大小为128*128*64，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第七层是上卷积模块层(如图3所示)，由上采样层、正则化层、激活函数按顺序前后串联形成，输入大小为32*32*256。其中，上采样步长为2，输出大小64*64*128，卷积核尺寸为3*3，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第九层是上卷积模块层(如图3所示)，由上采样层、正则化层、激活函数按顺序前后串联形成，输入大小为64*64*128。其中，上采样步长为2，输出大小128*128*64，卷积核尺寸为3*3，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第十一层是上卷积模块层(如图3所示)，由上采样层、正则化层、激活函数按顺序前后串联形成，输入大小为128*128*64。其中，上采样步长为2，输出大小256*256*3，卷积核尺寸为3*3，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

判别器网络的网络结构如下：

第二层是卷积模块层，其是由卷积层、正则化层以及激活函数组成(如图2所示)，输入大小为128*128*64。其中，卷积核大小为3*3，步长为2，输出大小为64*64*128，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第三层是卷积模块层，其是由卷积层、正则化层以及激活函数组成(如图2所示)，输入大小为64*64*128。其中，卷积核大小为3*3，步长为2，输出大小为32*32*256，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第四层是卷积模块层，其是由卷积层、正则化层以及激活函数组成(如图2所示)，输入大小为32*32*256。其中，卷积核大小为3*3，步长为2，输出大小为16*16*512，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

第五层是卷积模块层，其是由卷积层、正则化层以及激活函数组成(如图2所示)，输入大小为16*16*512。其中，卷积核大小为3*3，步长为1，输出大小为16*16*256，正则化层的local_size是5，alpha值是0.0001，beta值是0.75，激活函数采用ReLU。

进而言之，本发明的DCGAN模型是通过以下步骤训练得到的：

(1-1)获取样本数据；

具体而言，本步骤中获取样本数据的方式，和上述步骤(1)完全相同，在此不再赘述。

具体而言，本步骤中预处理操作的过程，和上述步骤(2)中完全相同，在此不再赘述。

(1-4)将步骤(1-3)中的训练集按批次大小batchsize＝64进行分组，依次将所有分组输入DCGAN模型中的生成器网络模型，最终得到由大小为256*256*3的图像XG(1),XG(2),...,XG(N)所组成的图像集合{XG(1),XG(2),...,XG(N)}。其中N表示步骤(1-3)得到的训练集的大小。

具体而言，判别器网络的损失等于：

其中D表示判别器网络，G表示生成器网络，E表示数学期望，D(YG(i))表示将图像YG(i)输入判别器网络后的结果，G(XG(i))表示将图像XG(i)输入生成器网络后的结果(其中i∈[1，N])，本发明希望它的判别结果越接近于1越好，D(G(XG(i)))表示将将图像XG(i)输入生成器网络后的结果输入判别器网络后的判别结果，本发明希望判别器网络的判别结果D(G(XG(i)))越接近于0越好，也就是让总数值最大，所以总体表达形式如上所示。

生成器网络的损失等于：

其中各参数同判别器网络，在这里，生成模型的优化很简单，只需要让判别的结果D(G(XG(i)))接近于1，也就是让总数值最小。

优选地，本发明方法是用tensorflow框架实现的，在NVIDIA GTX2080Ti上进行实现的，训练方法采用10倍交叉验证方法，采用Adam优化器对系统进行更新。

具体而言，训练优化函数等于

其中生成器网络各参数和判别器网络相同，DCGAN中生成器网络和判别器网络单独交替迭代训练，本步骤中的训练优化函数分别对判别器网络和生成器网络进行优化的，首先对判别器网络进行优化，在完成对判别器网络的优化之后，再对生成器网络进行优化，交替训练，直到生成器网络和判别器网络达到平衡。

(1-7)重复上述步骤(1-1)至(1-6)，直至迭代次数达到最大设定迭代次数(10万次到30万次之间)为止，从而得到训练好的DCGAN模型。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的训练数据获取方法，其特征在于，包括如下步骤：

(1)获取样本数据；

2.根据权利要求1所述的基于深度学习的训练数据获取方法，其特征在于，步骤(1)中获取样本数据，可以是通过线阵相机对可拍摄物品进行现场采集，并对采集的数据进行分类整理后得到，也可以是利用网络爬虫技术从互联网上爬取可用的标签数据后得到。

3.根据权利要求1或2所述的基于深度学习的训练数据获取方法，其特征在于，步骤(2)具体为，首先对样本数据中存在的模糊、缺损数据进行数据清洗，然后对数据清洗后的样本数据进行数据裁剪，随后，对数据裁剪后的样本数据进行归一化操作，最后对归一化操作后的样本数据进行扩容操作，以得到预处理后的样本数据。

4.根据权利要求1至3中任意一项所述的基于深度学习的训练数据获取方法，其特征在于，DCGAN模型包括彼此连接的生成器网络和判别器网络。

5.根据权利要求4所述的基于深度学习的训练数据获取方法，其特征在于，生成器网络的网络结构如下：

6.根据权利要求4所述的基于深度学习的训练数据获取方法，其特征在于，判别器网络的网络结构如下：

7.根据权利要求4所述的基于深度学习的训练数据获取方法，其特征在于，DCGAN模型是通过以下步骤训练得到的：

(1-1)获取样本数据；

(1-3)将步骤(1-2)预处理后的样本数据按照8：2的比例划分为训练集和测试集，训练集由大小为256*256*3的图像XG(1),XG(2),...,XG(N)所组成的图像集合{XG(1),XG(2),...,XG(N)}，其中N表示训练集的大小。；

(1-4)将步骤(1-3)中的训练集按批次大小batchsize＝64进行分组，依次将所有分组输入DCGAN模型中的生成器网络模型，最终得到图像集合{YG(1),YG(2),...,YG(N)}；

8.根据权利要求7所述的基于深度学习的训练数据获取方法，其特征在于，判别器网络的损失等于：

其中D表示判别器网络，G表示生成器网络，E表示数学期望，D(XG(i))表示将图像XG(i)输入判别器网络后的结果，G(XG(i))表示将图像XG(i)输入生成器网络后的结果即YG(i)，i∈[1，N]，D(G(XG(i)))表示将将图像XG(i)输入生成器网络后的结果输入判别器网络后的判别结果；

生成器网络的损失等于：

训练优化函数等于

9.根据权利要求8所述的基于深度学习的训练数据获取方法，其特征在于，

训练过程是采用10倍交叉验证方法，并采用Adam优化器对DCGAN模型进行更新；

10.一种基于深度学习的训练数据获取系统，其特征在于，包括：

第一模块，用于获取样本数据；