CN107909081B

CN107909081B - 一种深度学习中图像数据集的快速获取和快速标定方法

Info

Publication number: CN107909081B
Application number: CN201711027026.5A
Authority: CN
Inventors: 张小国; 叶绯; 王宇; 王庆
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2022-04-08
Anticipated expiration: 2037-10-27
Also published as: CN107909081A

Abstract

本发明公开了一种深度学习中图像数据集的快速获取和快速标定方法，将采集的视频经过电子稳像处理后，经中值滤波进行消噪和平滑处理，然后用高斯混合模型进行前景提取；根据提取出的前景的外轮廓的位置定位到原视频帧中对应的位置信息，以实现自动获取特定目标的最小包围盒；基于hog特征的局部模板匹配算法进行视频帧前景目标的分类；利用帧间匹配算法，将相邻帧中的对应连通区域进行同类别标记；得到了前景的位置信息和类别信息就实现了图像数据集的快速标定。本发明解决了深度学习中带标签数据数量非常少且获得新的带标签数据非常困难代价昂贵的问题，为特定类别的图像数据的训练和识别提供了很大的便利。

Description

一种深度学习中图像数据集的快速获取和快速标定方法

技术领域

本发明涉及图像处理技术，尤其涉及一种深度学习中图像数据集的快速获取和快速标定方法。

背景技术

视觉是人类认识世界非常重要的一种知觉。对于人类来说，通过视觉来识别手写数字、识别图片中的物体活着找出图片中某些特定目标及其轮廓都是非常简单的任务。然而，对于计算机而言，让计算机识别图片中的内容就不是一件简单容易的事了。图像识别问题希望借助于计算机程序来处理、分析和理解图片中的内容，使得计算机从图片中自动识别各种不同模式的目标和对象。图像识别领域是人工智能的一个重要领域，在最近几年已经取得了很多突破性进展。

深度学习是近十年来人工智能领域取得的重要突破。深度学习在图像识别领域的应用取得了巨大成功。深度学习中很多神经网络都需要很大的训练数据集，现在网络上有很多免费的标注好的数据集，但在实际应用中，有很多场景下需要识别的物体在网络上找不到与之对应的带标签数据集。在监督学习网络中，训练数据的质量直接会影响模型的好坏。很多深度学习的研究者面临者带标签数据数量非常少且获得新的带标签数据非常困难代价昂贵的问题，对特定类别的图像数据的训练和识别产生了阻力，目前通过人工的方法手动做数据标定，但这样带来的问题就是前期耗费时间长，在数据标定过程中容易感到疲惫且工作内容单一。由上述内容可知，对于如何快速获取和标定数据集的需求日益凸显。

发明内容

技术问题：为了解决深度学习中带标签数据数量少且获得新的带标签数据困难，代价昂贵的问题，本发明提供了一种深度学习中图像数据集的快速获取和快速标定方法，为特定类别的图像数据的训练和识别提供了极大的便利。

技术方案：一种深度学习中图像数据集的快速获取和快速标定方法，包括如下步骤：

S1、进行视频采集；

S2、从步骤S1中的视频中提取视频帧，将稳像后的视频进行预处理，并剔除视频帧中的噪点；

S3、将步骤S2中的视频帧，进行前背景分离获得前景，根据提取出的前景外轮廓获得原视频中的前景目标的最小包围盒；

S4、根据步骤S3前景连通区域的数量进行判断，将视频帧分为多目标和单目标两种情况；如果是单目标，则认为原视频中的目标物为单类别；如果是多目标，则根据目标间外轮廓的相似性判断是否为同一类别，从而进行类别划分；若所有目标的外轮廓都相似，则判断为单类别；若所有目标的外轮廓不全相似，可初步判断该视频帧中存在多类别，随即采用人工干预进行确认；

S5、根据步骤S4进行了类别划分之后，将相邻帧中的对应连通区域进行同类别标记；至此，即完成了所有帧的标定，得到一个单类别/多类别的数据集。

所述步骤S1中，将采集到的视频经过稳像处理，得到不抖动的视频，具体进行的视频帧稳像处理包括如下步骤：

S1.1、在一定的时间段内，利用运动熵衡量连续帧的运动混乱程度，判断视频画面是否发生抖动异常现象；

S1.2、若发生了抖动异常现象，计算所有帧的光流特征来解算出前一帧到当前帧的转换矩阵；所述转换矩阵包含三个参数：x方向上的偏移分量、y方向上的偏移分量和角度的偏移分量；

S1.3、累积偏移矢量获得每个帧的运动“轨迹”，使用滑动平均窗口平滑运动“轨迹”；

S1.4、根据实际情况，调整滑动窗口的大小，对全局运动进行修正，来达到主观运动与抖动分离的稳像效果。

步骤S2中，所述预处理包括如下步骤：

S2.1、提取视频帧，经过图像二值化、数学形态开闭运算对视频帧进行预处理；

S2.2、通过中值滤波算法和形态特征去干扰算法剔除视频帧中的噪点。

步骤S3中，对预处理后的视频采用高斯混合模型进行前背景分离获得前景，根据提取出的前景外轮廓获得原视频中的前景目标的最小包围盒，具体包括如下步骤：

S3.1、对预处理后的视频采用高斯混合模型进行前背景分离获得前景；

S3.2、将从背景分割出的前景分为多个连通区域，判断连通区域从两方面考虑，首先考虑到前景提取之后可能存在一些离散的噪点，设置一个阈值T来判断该连通区域是否为噪点。如果连通区域面积近小于阈值T，那么说明该点是噪点；如果连通区域面积大于T，那么就认为该区域是一个前景目标。根据提取出的前景目标外轮廓获得原视频中的前景目标的最小包围盒，从而得到前景在视频帧中的位置信息，该位置信息主要包含两个参数：(x_min,y_max)，(x_max,y_min)。这两个参数分别表示包围盒左上角像素点的x,y坐标和右下角像素点的x,y坐标。步骤S4中，根据步骤S3前景连通区域的数量进行判断，将视频帧分为多目标和单目标两种情况，从而对前景进行分类任务，具体包括如下步骤：

S4.1、如果是单目标，则认为原视频中的目标物是单类别；

S4.2、如果是多目标，则根据目标间外轮廓的相似性判断是否为同一类别，从而进行类别划分；

S4.3、若所有目标的外轮廓都相似，则判断为单类别；若所有目标的外轮廓不全相似，可则初步判断该视频帧中存在多类别；所述轮廓间的相似性判断基于hog特征的模板匹配算法：

S4.3.1、计算hog特征

(1)梯度计算：

梯度计算定义如下：

G_x(x,y)＝H(x+1,y)-H(x-1,y) (1)

G_y(x,y)＝H(x,y+1)-H(x,y-1) (2)

式(1)中，H为输入的图像，G_x和G_y分别是水平梯度和垂直梯度；为了计算每个像素点的梯度，需要扫描整个图像中的每个像素点，卷积核定义如下：[-1,0,1]和[-1,0,1]^T

点(x,y)梯度大小定义为：

点(x,y)梯度方向定义为：

(2)单元直方图：

在计算梯度之后，定义一个固定大小的检测窗口来扫描图片,并将图片分为小的矩形细胞单元；采用9通道直方图来统计这些矩形细胞单元的梯度信息，即将矩形细胞单元的梯度方向0～180度或0～360度分成9个方向块，所述0～360度表示考虑方向正负的情况；基于中间梯度元素的方向，计算每个像素的加权投票，各像素点在各个通道上的幅值计算方法为：

(3)描述符块：

将单元构建成3x3的块的形式，将计算好的梯度直方图输入进分类器中；创建这些块帮助算法降低在光照和对比度中的影响。这些块在图像上生成更多相关的空间信息。它也提高了检测的整体性能。

S4.3.2、利用hog特征作为轮廓特征进行局部模板匹配，选择局部模板匹配的原因主要是前景物体是运动物体，运动姿态复杂多变，由于前景物体姿势以及形状问题，目标模板很难全部覆盖，而且即使有包括所有姿势及形状的模板库，那也是非常巨大的，要从中找到与图像最匹配的模板将会非常的费时，所以选择局部模板进行匹配是一个相对来说省时省力的方法。该方法是通过判定测试图片与模板图片间的相似度,取相似性最大的样本为输入模式所属类别。局部模板匹配主要步骤如下：

(1)首先建立基于hog特征的模板库,将待识别区域的尺寸大小归一化到模板的尺寸大小；

(2)计算hog特征并将其可视化，与所有的hog特征可视化后的模板进行匹配；

(3)选择最佳匹配连通区域作为结果；定义基于hog特征用于二值图像模板匹配的距离函数为HSD，hog-basedSimilar Distance；其定义如下：

其中

式(6)、式(7)中f为模板图像、g为待匹配的hog特征可视化图像，m、n为像素点，M、N为像素点所取最大范围值，T_f和T_g分别为对应图像中值为1的像素个数,∧为与运算；R(f_(m,n),g_(m,n))表示模板和源图的相关函数，d(f,g)表示相似性；此算法计算了两个图像中具有相似性的点的个数，同时引入了图像的边界信息并避免了根据经验设定阈值的环节，所以具有更高的鲁棒性。

S4.4、人工干预进行确认。

步骤S5中，根据步骤S4进行了类别划分之后，采用帧间匹配算法，将相邻帧中的对应连通区域进行同类别标记，具体包括如下步骤：

S5.1、将前后两张图片中连通区域的距离和连通区域面积差，作为匹配的算法的参数；经过8-20次实验，发现两个参数反映匹配情况的程度不同，则将距离置于第一优先级，面积差置于第二优先级，根据实际情况设置不同的权值；结合两个参数，将两个参数归一化之后加权相加的值作为连通区域匹配的反映因子；反映因子的计算公式如下：

deside＝disfactor×nordistance+areafactor×norarea (8)

其中，deside是反映因子，disfactor是距离权值，nordistance是归一化距离，areafactor是面积权值，norarea是归一化面积；如果上一帧图片中有m个连通区域，当前帧图片有n个两通区域，那么这些反映因子形成了一个m*n的矩阵；通过寻找矩阵中的最小值，定位前后图片连通区域的最佳匹配对象。

S5.2、将相邻帧中的对应连通区域进行同类别标记。

有益效果：和现有技术相比，本发明通过窗口平滑稳像算法得到去抖动视频，然后通过高斯混合模型得到前景目标物体，根据目标物的外轮廓快速获得该物体所在的位置信息，得到最小包围盒；在实际应用中，视频帧中的前景目标可能分为单类别和多类别两种情况，前景目标为单类别的情况相对简单，本发明针对前景物体属于多类别的情况，提出一种基于hog特征的局部模板匹配算法进行视频帧前景目标的分类；利用帧间匹配算法，将相邻帧中的对应连通区域进行同类别标记；得到了前景的位置信息和类别信息就实现了图像数据集的快速标定；根据帧间匹配算法，对相邻帧的对应连通区域进行同类别标记；得到了类别信息和位置信息，就完成了快速获取和快速标定特定图像数据集的任务；本发明解决了深度学习中带标签数据数量非常少且获得新的带标签数据非常困难代价昂贵的问题，为特定类别的图像数据的训练和识别提供了很大的便利。

附图说明

图1是本发明的系统流程示意图；

图2(a)-2(b)为某一个抖动视频稳像前后x，y轨迹图；

图3为某一帧图片中提取的前景及其包围盒；

图4为hog特征可视化后的行人图像。

具体实施方式

下面结合实施例和附图对本发明的技术方案作进一步详细说明；应理解本实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。如图1所示，一种基于视频帧前景提取的图像数据集快速获取和快速标定方法，包括如下步骤：

S1、进行视频采集，如果视频采集过程中发生了抖动，则通过电子稳像技术去除监控视频抖动。如果视频采集过程中没有抖动，则继续下一步。

如图2(a)-2(b)所示，步骤S1中，具体进行的视频帧处理包括如下步骤：

a、在一定的时间段内，利用运动熵衡量连续帧的运动混乱程度，判断视频画面是否发生抖动异常现象；

b、若发生了抖动异常现象，计算所有帧的光流特征来解算出前一帧到当前帧的转换矩阵。转换矩阵包含三个参数：x方向上的偏移分量，y方向上的偏移分量，角度的偏移分量。

c、累积偏移矢量获得每个帧的运动“轨迹”，使用滑动平均窗口平滑运动“轨迹”。

d、根据实际情况，调整滑动窗口的大小来达到相对较好的稳像效果。

S2、从步骤S1中的视频中提取视频帧，通过图像二值化、数学形态开闭运算、中值滤波算法和形态特征去干扰算法剔除视频帧中的噪点，为步骤S3提供预处理后的视频帧。

具体进行的视频帧处理包括如下步骤：

a、提取视频帧，经过图像二值化、数学形态开闭运算对视频帧进行预处理；

b、通过中值滤波算法和形态特征去干扰算法剔除视频帧中的噪点。

S3、将步骤S2中的视频帧，采用高斯混合模型进行前背景分离获得前景。根据提取出的前景外轮廓获得原视频中的前景目标的最小包围盒。如图3所示，具体包括如下步骤：

a、对预处理后的视频采用高斯混合模型进行前背景分离获得前景。

b、将从背景分割出的前景分为多个连通区域，判断连通区域从两方面考虑，首先考虑到前景提取之后可能存在一些离散的噪点，设置一个阈值T来判断该连通区域是否为噪点。如果连通区域面积近小于阈值T，那么说明该点是噪点；如果连通区域面积大于T，那么就认为该区域是一个前景目标。根据提取出的前景目标外轮廓获得原视频中的前景目标的最小包围盒，从而得到前景在视频帧中的位置信息，该位置信息主要包含两个参数：(x_min,y_max)，(x_max,y_min)。这两个参数分别表示包围盒左上角像素点的x,y坐标和右下角像素点的x,y坐标。

S4、根据步骤S3前景连通区域的数量进行判断，如图4所示，步骤S4中，具体包括如下步骤：

a、如果是单目标，则认为原视频中的目标物是单类别。

b、如果是多目标，则根据目标间外轮廓的相似性判断是否为同一类别，从而进行类别划分。

c、若所有目标的外轮廓都相似，则判断为单类别；若所有目标的外轮廓不全相似，可初步判断该视频帧中存在多类别。为了判断轮廓间的相似性本文提出一种基于hog特征的模板匹配算法。

一.首先需要计算hog特征，下面是hog算法的计算步骤：

1.梯度计算。梯度计算是HOG算法的第一步，一维离散梯度模版，是最简单高效的方法。梯度计算定义如下：

G_x(x,y)＝H(x+1,y)-H(x-1,y) (1)

G_y(x,y)＝H(x,y+1)-H(x,y-1) (2)

式(1)中，H为输入的图像，G_x和G_y分别是水平梯度和垂直梯度。为了计算每个像素点的梯度，需要扫描整个图像中的每个像素点。卷积核定义如下：[-1,0,1]和[-1,0,1]^T

点(x,y)梯度大小定义为：

点(x,y)梯度方向定义为：

2.单元直方图。在计算梯度之后，定义一个固定大小的检测窗口来扫描图片,并将图片分为小的矩形细胞单元。采用9通道直方图来统计这些矩形细胞单元的梯度信息，即将矩形细胞单元的梯度方向0～180度(或0～360度，0～360度表示考虑方向正负的情况)分成9个方向块。基于中间梯度元素的方向，计算每个像素的加权投票。

各像素点在各个通道上的幅值计算方法为：

3、描述符块。为了将计算好的梯度直方图输入进分类器中，单元被构建成3x3的形式，称为块。创建这些块帮助算法降低在光照和对比度中的影响。这些块在图像上生成更多相关的空间信息。它也提高了检测的整体性能。

二.然后利用hog特征作为轮廓特征进行局部模板匹配，选择局部模板匹配的原因主要是前景物体是运动物体，运动姿态复杂多变，由于前景物体姿势以及形状问题，目标模板很难全部覆盖，而且即使有包括所有姿势及形状的模板库，那也是非常巨大的，要从中找到与图像最匹配的模板将会非常的费时，所以选择局部模板进行匹配是一个相对来说省时省力的方法。

该方法是通过判定测试图片与模板图片间的相似度,取相似性最大的样本为输入模式所属类别。局部模板匹配主要步骤如下：

首先建立基于hog特征的模板库,将待识别区域的尺寸大小归一化到模板的尺寸大小,然后计算hog特征并将其可视化，与所有的hog特征可视化后的模板进行匹配,最后选择最佳匹配连通区域作为结果。定义基于hog特征用于二值图像模板匹配的距离函数为HSD(hog-basedSimilar Distance)。其定义如下：

其中

式(6)、式(7)中f为模板图像、g为待匹配的hog特征可视化图像，m、n为像素点，M、N为像素点所取最大范围值，T_f和T_g分别为对应图像中值为1的像素个数,∧为与运算。R(f_(m,n),g_(m,n))表示模板和源图的相关函数，d(f,g)表示相似性。此算法计算了两个图像中具有相似性的点的个数，同时引入了图像的边界信息并避免了根据经验设定阈值的环节，所以具有更高的鲁棒性。

d、人工干预进行确认。

S5、根据步骤S4进行了类别划分之后，提出帧间匹配算法，将相邻帧中的对应连通区域进行同类别标记，具体进行的视频帧处理包括如下步骤：

a、将前后两张图片中连通区域的距离和连通区域面积差，作为匹配的算法的参数。经过多次实验，发现两个参数反映匹配情况的程度不同，将距离置于第一优先级，面积差置于第二优先级，根据实际情况设置不同的权值。结合两个参数，将两个参数归一化之后加权相加的值作为连通区域匹配的反映因子。反映因子的计算公式如下：

deside＝disfactor×nordistance+areafactor×norarea (8)

其中，deside是反映因子，disfactor是距离权值，nordistance是归一化距离，areafactor是面积权值，norarea是归一化面积。如果上一帧图片中有m个连通区域，当前帧图片有n个两通区域，那么这些反映因子形成了一个m*n的矩阵。通过寻找矩阵中的最小值，定位前后图片连通区域的最佳匹配对象。

b、将相邻帧中的对应连通区域进行同类别标记。至此，就完成了所有帧的标定，得到一个单类别/多类别的数据集。

综上，本发明选取窗口平滑稳像算法进行视频稳像，采用高斯混合模型进行前背景分离，对于分离出的前景分析其外轮廓信息得到最小包围盒，也就是前景物体的位置信息；其次，本发明利用分离出的前景，提出一种基于hog特征的局部模板匹配算法，通过该算法对视频帧的前景目标物体进行自动分类；然后通过帧间匹配算法将相邻帧中的对应连通区域进行同类别标记，达到了快速获取和快速标定图像数据集的目的，减少了人为干预，提高了效率。

Claims

1.一种深度学习中图像数据集的快速获取和快速标定方法，其特征在于，包括如下步骤：

S1、进行视频采集；将采集到的视频经过稳像处理，得到不抖动的视频，具体的视频帧稳像处理包括如下步骤：

S1.4、根据实际情况，调整滑动窗口的大小，对全局运动进行修正，来达到主观运动与抖动分离的稳像效果；

S3、将步骤S2中的视频帧，进行前背景分离获得前景，根据提取出的前景外轮廓获得原视频中的前景目标的最小包围盒；具体包括如下步骤：

S3.2、将从背景分割出的前景分为多个连通区域，所述连通区域的判断从两方面考虑，首先针对前景提取之后存在的一些离散的噪点，通过设置一个阈值T来判断该连通区域是否为噪点；如果连通区域面积小于阈值T，那么说明该点是噪点；如果连通区域面积大于T，那么就认为该区域是一个前景目标；根据提取出的前景目标外轮廓获得原视频中的前景目标的最小包围盒，从而得到前景在视频帧中的位置信息，所述位置信息包含两个参数：(x_min,y_max)，(x_max,y_min)，分别表示包围盒左上角像素点的x,y坐标和右下角像素点的x,y坐标；

S4、根据步骤S3前景连通区域的数量进行判断，将视频帧分为多目标和单目标两种情况；如果是单目标，则认为原视频中的目标物为单类别；如果是多目标，则根据目标间外轮廓的相似性判断是否为同一类别，从而进行类别划分；若所有目标的外轮廓都相似，则判断为单类别；若所有目标的外轮廓不全相似，可初步判断该视频帧中存在多类别，随即采用人工干预进行确认；具体包括如下步骤：

S4.1、如果是单目标，则认为原视频中的目标物是单类别；

S4.3.1、计算hog特征

(1)梯度计算：

梯度计算定义如下：

G_x(x,y)＝H(x+1,y)-H(x-1,y) (1)

G_y(x,y)＝H(x,y+1)-H(x,y-1) (2)

点(x,y)梯度大小定义为：

点(x,y)梯度方向定义为：

(2)单元直方图：

(3)描述符块：

将单元构建成3x3的块的形式，将计算好的梯度直方图输入进分类器中；

S4.3.2、利用hog特征作为轮廓特征进行局部模板匹配，步骤如下：

其中

式(6)、式(7)中f为模板图像、g为待匹配的hog特征可视化图像，m、n为像素点，M、N为像素点所取最大范围值，T_f和T_g分别为对应图像中值为1的像素个数,∧为与运算；R(f_(m,n),g_(m,n))表示模板和源图的相关函数，d(f,g)表示相似性；

S4.4、人工干预进行确认；

S5、根据步骤S4进行了类别划分之后，将相邻帧中的对应连通区域进行同类别标记；至此，即完成了所有帧的标定，得到一个单类别/多类别的数据集；具体包括如下步骤：

deside＝disfactor×nordistance+areafactor×norarea (8)

其中，deside是反映因子，disfactor是距离权值，nordistance是归一化距离，areafactor是面积权值，norarea是归一化面积；如果上一帧图片中有A个连通区域，当前帧图片有B个连通区域，那么这些反映因子形成了一个A*B的矩阵；通过寻找矩阵中的最小值，定位前后图片连通区域的最佳匹配对象；

S5.2、将相邻帧中的对应连通区域进行同类别标记。