CN108492343B

CN108492343B - 一种扩充目标识别的训练数据的图像合成方法

Info

Publication number: CN108492343B
Application number: CN201810260915.4A
Authority: CN
Inventors: 毛克明; 张维益; 崔培楠; 宋杰
Original assignee: Northeastern University China
Current assignee: Shenyang Mingran Technology Co ltd
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2021-09-21
Anticipated expiration: 2038-03-28
Also published as: CN108492343A

Abstract

本发明提供一种扩充目标识别的训练数据的图像合成方法，涉及计算机视觉技术领域。该方法针对特定生产场景中的图像数据，进行规模和种类统计，采用K‑Means聚类区分前景图像与底图，将前景与底图以及带有标记的特定场景数据集进行合成，用合成数据来扩充图像数据集。本发明的方法能够自动爬取相关素材图片并将所需素材提取并合成到指定的用户特定场景下，从而在短时间、低成本下获得一定规模的合成数据集达到扩充数据集从而提高其鲁棒性，为增强深度学习模型识别能力提供辅助。

Description

一种扩充目标识别的训练数据的图像合成方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种扩充目标识别的训练数据的图像合成方法。

背景技术

近年来，随着硬件计算能力的不断发展以及高性能的GPU不断升级，人工智能技术的前景又变得明朗起来。其中，尤其以深度学习的计算机视觉领域受此次改变而获益良多。像人脸识别、图像识别、图像分类、人脸检测、图像分割等基本的图像处理算法都隶属于计算机视觉领域的技术。另一方面，随着信息时代的快速发展，海量数据的产生也为深度学习的飞速前进奠定基础。影响深度学习模型效果好坏的最重要的一个因素便是数据。海量的数据代表着模型的强泛化能力，相反，少量的数据会使得模型面临过拟合或者欠拟合的常见问题。使得模型在实际应用场景的表现差强人意。

然而，虽然大数据时代产生了海量的视频图片数据，但是随之而来的是内容的复杂性，多样性，冗余性。并且远远达不到作为深度学习可用的数据集标准，现在流行的主流深度学习框架都是以监督学习为基础的。这就意味着无论是分类问题还是回归问题，训练数据集的数据是需要标注的，在即使是清洗过的海量数据集里仍然没有标记信息。而这一部分是需要人工来完成。比如比较著名的ImageNet数据库。面对海量的未标记图像视频数据，其数量级一般在数亿级别以上，如果全部用人工来完成标记，所耗费的人工成本就是一个天文数字，对于任何一家公司来说都是难以承受的，即使抛开人工成本不算，人工标记所花费的时间成本都是完全超过大多数的科技研发公司开发的迭代周期，而超过项目的生命周期对于任何公司来说意味着亏损，这是无法容忍的。所以目前行业的主要的训练数据构成是大部分来源于开源数据库，少部分由人工标注(特定的应用场景除外)。然而开源数据库的数据的分布与特征往往与特定的应用场景相差甚远，模型效果自然相差很多。

因此，针对目前深度学习领域的现状，由于对标注且准确的训练数据的极度匮乏，急需要一种可以针对指定应用场景的快速扩充合成训练数据集的方法。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种扩充目标识别的训练数据的图像合成方法，在短时间内辅助深度学习的各种框架以及算法在缺少特定的训练数据集时，可以进行数据的快速合成达到大规模的数据扩充，从而提升深度学习的开发效率，并使得训练得到的模型在特定的应用场景具有更好的泛化性和鲁棒性，从而为识别技术可以在用户场景具有一定的实用性奠定基础。

为解决上述技术问题，本发明所采取的技术方案是：一种扩充目标识别的训练数据的图像合成方法，包括以下步骤：

步骤1、根据实际生产场景，进行如下定义：

生产场景：具有在实际环境(背景信息)和所需要识别的物体并带有标记的图像的集合；

原始图像：通过各种方式获取的带有生产场景信息的图像；

图像尺寸：训练数据中，图像的具体尺寸：宽*高)；

底图：含有生产场景的主要背景信息的图像；

对象：需要检测并识别的物体；

前景图像：从原始图像中分离并提取带有对象并具有标记的图像；

合成图像：含有带有标记信息的对象的底图；

根据需求分别确定底图、图像尺寸、对象，并获得原始图像；

步骤2、遍历生产场景，统计待识别的对象种类总数，按种类获取含带有各个种类信息的原始图像，并分类保存；

步骤3、遍历原始图像，获取图片的尺寸并对图片(三通道)以像素级别进行处理计算得到相应的特征值，根据每个像素计算得到的一组特征值采用K-Means聚类区分前景图像与底图，返回坐标确定前景位置，生成标注文件完成标注，并保存；

步骤4、遍历生产场景，判断生产场景是否为空集，若为空集，则直接进行步骤7，否则获取每张图像中对象的种类以及每个种类的对象总数，并获取对象的标记信息来作为合成图像的输入，同时从生产场景移除该图像，执行步骤5；

步骤5、根据步骤4获取每个对象的位置坐标A_top-left(X，Y)、A_bottom-right(X，Y)，即左上角顶点和右下角顶点的坐标，并计算中心坐标

同时计算每个对象的面积S_object；

步骤6、根据步骤4、步骤5，计算前景图像在底图的空间占比，生成合成图像，返回步骤4；

步骤7、当生产场景为空集时，随机挑选步骤3生成的前景图像在底图中进行任意位置的摆放；根据步骤3生成的前景图像数据规模、步骤2确定的种类总数以及步骤1确定的合成图像的尺寸，确定每张合成图像内对象的种类个数以及对象总数来生成合成图像。

所述步骤3的具体方法为：

步骤3.1、按照种类顺序遍历原始图像，以原始图片作为输入；记录所属种类以及文件名；

步骤3.2、采用图片处理库获取图片的尺寸W*H，即宽*高，并进行均值滤波；

步骤3.3、记录当前输入图像的每个像素点的灰度值，在RGB通道下，分别记录像素点(w，h)的灰度值为R_w，h、G_w，h、B_w，h，w∈W，h∈H；

步骤3.4、针对每一个像素点进行显著值计算，即计算该像素点与所有像素点间颜色的距离，

其中，I_w*h是任一像素点，S(I_w*h)表示该像素点的显著值，

表示该像素点与任一像素点间的颜色距离，通过计算该像素点与所有像素点间的距离之后求和即为该像素点的显著值；

步骤3.5、通过下式计算每个像素点I_w*h的灰度值，

L(I_w*h)＝0.299×R_w*h+0.587×G_w*h+0.114×B_w*h；

步骤3.6、对每一个像素建立特征向量

根据此特征向量进行K-means聚类，K根据图像复杂度选取；

步骤3.7、经过聚类后在原始图像中分离前景图像和底图，提取前景图像信息并记录坐标位置信息，按照种类进行保存；

步骤3.8、根据步骤3.7获取的前景图像的坐标，选取其中横坐标、纵坐标最大最小值作为目标的BoundingBox标记，以项目需求的文本格式保存成标记文件。

所述步骤6中生成合成图像的具体方法为：

步骤6.1、根据步骤1确定的图像尺寸，生成底图图像；

步骤6.2、根据步骤4获取的对象的种类及每个种类的对象的数目，从步骤3.7提取相应的前景图像，计算前景图像的面积S_foreground；

步骤6.3、比较对应的前景图像与对象的面积大小，如果S_foreground＞2.5S_object，则缩小S_foreground，使S_foreground＝S_object，并获取处理后的前景图像的左上角和右下角的坐标B_top-left(X，Y)、B_bottom-right(X，Y)，计算前景图像的中心坐标

步骤6.4、将步骤5中的中心坐标A_center标记在步骤6.1的底图中，令前景图像的中心坐标B_center位于坐标A_center位置上；依次完成各个对象中心坐标与前景图像中心坐标的对应；

步骤6.5、记录合成后图像的左上角和右下角的坐标B`_top-left(X，Y)、B`_bottom-right(X，Y)，进行标记信息与图片的保存。

所述步骤7的具体方法为：

步骤7.1、根据步骤1确定的图像尺寸，生成底图图像，计算底图面积S_background；

步骤7.2、根据确定的对象的种类总数以及个数总数随机选取步骤3.7处理好的前景图像，计算前景图像的面积S_foreground；

步骤7.3、比较对应的前景图像与对象的面积大小，如果S_foreground＞S_backgroundt/3，则缩小S_foreground，使S_foreground＜S_foreground/5，并获取缩放后的前景图像的左上角和右下角的坐标B_top-left(X，Y)、B_bottom-right(X，Y)，以及前景图像的中心坐标

步骤7.4、将步骤7.3处理后的前景图像任意摆放在步骤7.1的底图中，并确保B_top-left(X，Y)和B_bottom-right(X，Y)不超过底图的边界；重新计算左上角和右下角的坐标B`_top-left(X，Y)和B`_bottom-right(X，Y)，进行标记信息与图片的保存。

采用上述技术方案所产生的有益效果在于：本发明提供的扩充目标识别的训练数据的图像合成方法，针对在现阶段对特定的应用场景下实验或者开发时，缺少大量的符合场景的标注数据，同时又不能完全依靠人工标注的方法对数据进行扩充的情况时，在满足标注数据一定的准确度以及拥有少量特定场景的标注数据的前提下，以一种短时间内，低人工成本的方法来对数据集进行合成并对其完成标注，从而完成对数据集的扩充，提升深度学习的开发效率并使得训练的得到的模型在特定的应用场景具有更好的泛化性和鲁棒性，为增强深度学习模型识别能力提供辅助。

附图说明

图1为本发明实施例提供的具体关系类图；

图2为本发明实施例提供的扩充目标识别的训练数据的图像合成方法流程图；

图3为本发明实施例提供的区分前景背景的流程图.

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

以水果盘为底图的水果识别这一特定用户场景作为研究和实验对象，如图1所示的关系类图，分别按步骤实现数据收集类、目标图像提取类、图像合成类以及图像扩充类，具体实施步骤的流程图如图2所示，本实施例的具体方法如下所述。

步骤1、根据实际生产场景，进行如下定义：

原始图像：通过各种方式获取的带有生产场景信息的图像；

图像尺寸：训练数据中，图像的具体尺寸(宽*高)；

底图：含有生产场景的主要背景信息的图像；

对象：需要检测并识别的物体；

合成图像：含有带有标记信息的对象的底图；

根据需求分别确定底图、图像尺寸、对象，并获得原始图像。

本实施例中，生产场景即盛有水果的果盘的带有标记的图像集合，确定需要识别的物体种类是98类(97类+背景)，图像尺寸为1920*1080，对象为水果，底图为以果盘为主要背景信息的图片，原始图像指含有单一种类且有标记的水果图片。

步骤2、遍历生产场景，统计待识别的对象种类总数，按种类获取含带有各个种类信息的原始图像，并分类保存。该步骤为图1所示的数据收集类的具体实现。

本实施例中，共需识别97类水果，所以按照97类进行数据图片的爬取，生成原始图像集。

步骤3、遍历原始图像集，获取图片的尺寸并对图片(三通道)以像素级别进行处理计算得到相应的特征值，根据每个像素计算得到的一组特征值采用K-Means聚类区分前景与背景，返回坐标确定前景位置，生成标注文件完成标注，并保存。该步骤为图1所示的目标图像提取类的具体实现，具体流程图如图3所示，具体方法如下。

步骤3.1、按照种类顺序遍历原始图像，以原始图片作为输入；记录所属种类以及文件名。

本实施例中，从目录中第一个文件开始，读取图片并记录其所属种类，以及文件名，进行图像的处理。

步骤3.2、采用图片处理库获取图片的尺寸即宽*高(W*H)，并进行均值滤波。

本实施例中，采用OpenCV库来对图片进行处理，获取图像的尺寸并对图片采用blur()方法进行均值滤波。

步骤3.3、记录当前输入图像的每个像素点的灰度值，以RGB通道为例，记为R_w，h、G_w，h、B_w，h，w∈W，h∈H。

本实施例中，在使用OpenCV读取图片的方法时就会对三通道进行记录，存在一个矩阵中。

其中，I_w*h是任一像素点，该像素点的显著值记为S(I_w*h)，

表示该像素点与任一像素点间的颜色距离，通过计算该像素点与所有像素点间的距离之后求和即是该像素点的显著值。

本实施例中，由于RGB颜色的空间是线性的并且相互正交，对于不是线性的人眼的视觉系统，对该空间的颜色的感知并不理想，因此直接计算RGB的颜色距离也不能很好的反映颜色的特征。所以本实施例中，先将RGB通道使用cvtColor(image，im，CV_BGR2Lab)方法进行转换成LAB颜色空间，通过计算该通道三个分量来计算颜色的距离反应具体的特征，如下式所示，

其中，ΔL表示颜色的亮度，Δa表示红绿颜色通道的色差，Δb表示蓝黄颜色的色差。

步骤3.5、通过以下公式计算每个像素点I_w*h的灰度值，

L(I_w*h)＝0.299×R_w*h+0.587×G_w*h+0.114×B_w*h。

本实施例中，根据步骤3.3记录的RGB三通道的值进行计算。

步骤3.6、对每一个像素建立特征向量

根据此特征向量进行K-means聚类，K根据图像复杂度选取。

本实施例中，根据步骤3.4以及步骤3.5得到的像素的两个特征进行k-means聚类，本实施例中由于每张爬取的图像种类单一，所以K设定在2～4左右选取效果最好的进行保留，通过统计具有前K个相同的像素点数的特征像素点作为聚类中心，分配其他像素点到距离最近的中心，直至收敛。

步骤3.7、经过聚类后在原始图像中分离前景图像和底图，提取前景图像信息并记录坐标位置信息，按照种类进行保存。

本实施例中，对前景图像进行保存同时记录坐标信息。

本实施例中，对前景图像与标记信息文件一一对应保存。

步骤4、遍历生产场景，判断生产场景是否为空集，若为空集，则直接进行步骤7，否则获取每张图像中对象的种类及每个种类的对象总数，并且获取对象的标记信息来作为合成图像的输入，同时从生产场景移除该图像，执行步骤5。

本实施例中，使用Opencv读取生产场景集的每一张图片，并读取标记信息，确定水果的种类总数以及各种类的数量。以读取的一张图片为例，该图片只有一个苹果，即种类为1，对象总数为1。

步骤5、根据步骤4获取每个对象的位置坐标A_top-left(X，Y)、A_bottom-right(X，Y)，即左上角顶点以及右下角顶点的坐标，并计算中心坐标

同时计算每个对象的面积S_object。

本实施例中，由于步骤4读取的图片对象只有一个苹果，获取该苹果的位置坐标A_top-left(X，Y)、A_bottom-right(X，Y)，计算该苹果的面积为S_object。

步骤6、根据步骤4、步骤5，计算前景图像在底图的空间占比，生成合成图像，返回步骤4。

步骤4、5、6为图1所示的图像合成类、图像扩充类的具体实现。生成合成图像的具体方法如下。

步骤6.1、根据步骤1确定的图像尺寸，生成底图图像。

本实施例中，生成一张1920*1080的以果盘为背景的底图。

步骤6.2、根据步骤4获取的对象的种类及每个种类的对象的数目，从步骤3.7提取相应的前景图像，计算前景图像的面积S_foreground。

本实施例中，以步骤4中获取的只有一类一个苹果，则在步骤3.7中处理后的前景图像集中取出苹果一个，计算其S_foreground。

步骤6.3、比较对应的前景图像与对象的面积大小，如果S_foreground＞2.5S_object，则缩小S_foreground，使S_foreground＝S_object，并获取处理后的前景图像的左上角右下角的坐标B_top-left(X，Y)、B_bottom-right(X，Y)，计算前景图像的中心坐标

本实施例中，S_foreground＜2.5S_object，所以不必缩小处理，直接获取前景图像的B_top-left(X，Y)、B_bottom-right(X，Y)，计算前景图像的中心坐标

步骤6.4、将步骤5中的A_center坐标标记在步骤6.1的底图中，令前景图像的中心坐标B_center位于该坐标位置上。依次完成各个对象中心坐标与前景图像中心坐标的对应。

本实施例中，要把步骤5的苹果的A_center标记在底图中，令步骤6.3的前景图像的B_center位于该坐标之上即可。

步骤6.5、记录合成后图像的左上角和右下角的坐标B`_top-left(X，Y)，B`_bottom-right(X，Y)，进行标记信息与图片的保存。

本实施例中，重新计算在步骤6.4中已经合成的苹果的位置坐标B`_top-left(X，Y)、B`_bottom-right(X，Y)，并对该标记信息与合成图像进行对应保存。

步骤7、当生产场景为空集时，随机挑选步骤3.7生成的前景图像在底图中进行任意位置的摆放。根据3.7的前景图像数据规模以及步骤2确定的种类总数、步骤1确地的合成图像的尺寸，确定每张合成图像内对象的种类个数以及每个种类的对象总数来生成合成图像。该步骤为图1所示的图像合成类、图像扩充类的具体实现，具体方法如下。

步骤7.1、根据步骤1确定的图像尺寸，生成底图图像，计算底图面积S_background。

本实施例中，生成一张1920*1080的以果盘为背景的底图，面积为S_background＝1920*1080。

步骤7.2、根据确定的对象的种类总数以及个数总数随机选取步骤3.7处理好的前景图像，计算前景图像的面积S_foreground。

本实施例中，此处随机选取为一类一个水果即一个香蕉，则在步骤3.7中处理后的前景图像集中取出香蕉一个，计算其S_foreground。

步骤7.3、比较对应的前景图像与对象的面积大小，如果S_foreground＞S_backgroundt/3，缩小S_foreground，使S_foreground＜S_foreground/5。并获取缩放后的前景图像的左上角和右下角的坐标B_top-left(X，Y)、B_bottom-right(X，Y)，以及前景图像的中心坐标

本实施例中，

所以不必缩小处理，直接获取前景图像(香蕉)的B_top-left(X，Y)、B_bottom-right(X，Y)，计算前景图像的中心坐标

步骤7.4、将步骤7.3处理后的前景图像任意摆放在步骤7.1的底图中，并确保B_top-left(X，Y)、B_bottom-right(X，Y)不超过底图的边界；重新计算图像左上角和右下角的坐标B`_top-left(X，Y)、B`_bottom-right(X，Y)，进行标记信息与图片的保存。

本实施例中，在确保B_top-left(X，Y)、B_bottom-right(X，Y)不超过底图边界的情况下，随机挑选一个位置放置B_Center，重新计算坐标B`_top-left(X，Y)、B`_bottom-right(X，Y)，进行标记信息与图片的保存。

本实施例只是针对合成一幅图像进行详细过程的描述，具体实施中应该是一个循环来完成这一套的处理流程，循环的次数与实验或生产环境所需要的数据集规模来决定。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种扩充目标识别的训练数据的图像合成方法，其特征在于：该方法包括以下步骤：

步骤1、根据实际生产场景，进行如下定义：

生产场景：具有在实际环境和所需要识别的物体并带有标记的图像的集合；所述实际环境包括背景信息；

原始图像：通过各种方式获取的带有生产场景信息的图像；

图像尺寸：训练数据中，图像的具体尺寸：宽*高；

底图：含有生产场景的主要背景信息的图像；

对象：需要检测并识别的物体；

合成图像：含有带有标记信息的对象的底图；

步骤3、遍历原始图像，获取图片的尺寸并对图片以像素级别进行处理计算得到相应的特征值，所述图片为三通道的，根据每个像素计算得到的一组特征值采用K-Means聚类区分前景图像与底图，返回坐标确定前景位置，生成标注文件完成标注，并保存；

步骤5、根据步骤4获取每个对象的位置坐标A_top-left(X,Y)、A_bottom-right(X,Y)，即左上角顶点和右下角顶点的坐标，并计算中心坐标

同时计算每个对象的面积S_object；

2.根据权利要求1所述的扩充目标识别的训练数据的图像合成方法，其特征在于：所述步骤3的具体方法为：

步骤3.3、记录当前输入图像的每个像素点的灰度值，在RGB通道下，分别记录像素点(w,h)的灰度值为R_w,h、G_w,h、B_w,h，w∈W，h∈H；

其中，I_w*h是任一像素点，S(I_w*h)表示该像素点的显著值，

步骤3.5、通过下式计算每个像素点I_w*h的灰度值，

L(I_w*h)＝0.299×R_w*h+0.587×G_w*h+0.114×B_w*h；

步骤3.6、对每一个像素建立特征向量

根据此特征向量进行K-means聚类，K根据图像复杂度选取；

3.根据权利要求2所述的扩充目标识别的训练数据的图像合成方法，其特征在于：所述步骤6中生成合成图像的具体方法为：

步骤6.1、根据步骤1确定的图像尺寸，生成底图图像；

步骤6.3、比较对应的前景图像与对象的面积大小，如果S_foreground>2.5S_object，则缩小S_foreground，使S_foreground＝S_object，并获取处理后的前景图像的左上角和右下角的坐标B_top-left(X,Y)、B_bottom-right(X,Y)，计算前景图像的中心坐标

步骤6.5、记录合成后图像的左上角和右下角的坐标B`_top-left(X,Y)、B`_bottom-right(X,Y)，进行标记信息与图片的保存。

4.根据权利要求2所述的扩充目标识别的训练数据的图像合成方法，其特征在于：所述步骤7的具体方法为：

步骤7.3、比较对应的前景图像与对象的面积大小，如果S_foreground>S_backgroundt/3，则缩小S_foreground，使S_foreground<S_foreground/5，并获取缩放后的前景图像的左上角和右下角的坐标B_top-left(X,Y)、B_bottom-right(X,Y)，以及前景图像的中心坐标

步骤7.4、将步骤7.3处理后的前景图像任意摆放在步骤7.1的底图中，并确保B_top-left(X,Y)和B_bottom-right(X,Y)不超过底图的边界；重新计算左上角和右下角的坐标B`_top-left(X,Y)和B`_bottom-right(X,Y)，进行标记信息与图片的保存。