CN107909081B - 一种深度学习中图像数据集的快速获取和快速标定方法 - Google Patents

一种深度学习中图像数据集的快速获取和快速标定方法 Download PDF

Info

Publication number
CN107909081B
CN107909081B CN201711027026.5A CN201711027026A CN107909081B CN 107909081 B CN107909081 B CN 107909081B CN 201711027026 A CN201711027026 A CN 201711027026A CN 107909081 B CN107909081 B CN 107909081B
Authority
CN
China
Prior art keywords
foreground
video
targets
image
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711027026.5A
Other languages
English (en)
Other versions
CN107909081A (zh
Inventor
张小国
叶绯
王宇
王庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201711027026.5A priority Critical patent/CN107909081B/zh
Publication of CN107909081A publication Critical patent/CN107909081A/zh
Application granted granted Critical
Publication of CN107909081B publication Critical patent/CN107909081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Abstract

本发明公开了一种深度学习中图像数据集的快速获取和快速标定方法,将采集的视频经过电子稳像处理后,经中值滤波进行消噪和平滑处理,然后用高斯混合模型进行前景提取;根据提取出的前景的外轮廓的位置定位到原视频帧中对应的位置信息,以实现自动获取特定目标的最小包围盒;基于hog特征的局部模板匹配算法进行视频帧前景目标的分类;利用帧间匹配算法,将相邻帧中的对应连通区域进行同类别标记;得到了前景的位置信息和类别信息就实现了图像数据集的快速标定。本发明解决了深度学习中带标签数据数量非常少且获得新的带标签数据非常困难代价昂贵的问题,为特定类别的图像数据的训练和识别提供了很大的便利。

Description

一种深度学习中图像数据集的快速获取和快速标定方法
技术领域
本发明涉及图像处理技术,尤其涉及一种深度学习中图像数据集的快速获取和快速标定方法。
背景技术
视觉是人类认识世界非常重要的一种知觉。对于人类来说,通过视觉来识别手写数字、识别图片中的物体活着找出图片中某些特定目标及其轮廓都是非常简单的任务。然而,对于计算机而言,让计算机识别图片中的内容就不是一件简单容易的事了。图像识别问题希望借助于计算机程序来处理、分析和理解图片中的内容,使得计算机从图片中自动识别各种不同模式的目标和对象。图像识别领域是人工智能的一个重要领域,在最近几年已经取得了很多突破性进展。
深度学习是近十年来人工智能领域取得的重要突破。深度学习在图像识别领域的应用取得了巨大成功。深度学习中很多神经网络都需要很大的训练数据集,现在网络上有很多免费的标注好的数据集,但在实际应用中,有很多场景下需要识别的物体在网络上找不到与之对应的带标签数据集。在监督学习网络中,训练数据的质量直接会影响模型的好坏。很多深度学习的研究者面临者带标签数据数量非常少且获得新的带标签数据非常困难代价昂贵的问题,对特定类别的图像数据的训练和识别产生了阻力,目前通过人工的方法手动做数据标定,但这样带来的问题就是前期耗费时间长,在数据标定过程中容易感到疲惫且工作内容单一。由上述内容可知,对于如何快速获取和标定数据集的需求日益凸显。
发明内容
技术问题:为了解决深度学习中带标签数据数量少且获得新的带标签数据困难,代价昂贵的问题,本发明提供了一种深度学习中图像数据集的快速获取和快速标定方法,为特定类别的图像数据的训练和识别提供了极大的便利。
技术方案:一种深度学习中图像数据集的快速获取和快速标定方法,包括如下步骤:
S1、进行视频采集;
S2、从步骤S1中的视频中提取视频帧,将稳像后的视频进行预处理,并剔除视频帧中的噪点;
S3、将步骤S2中的视频帧,进行前背景分离获得前景,根据提取出的前景外轮廓获得原视频中的前景目标的最小包围盒;
S4、根据步骤S3前景连通区域的数量进行判断,将视频帧分为多目标和单目标两种情况;如果是单目标,则认为原视频中的目标物为单类别;如果是多目标,则根据目标间外轮廓的相似性判断是否为同一类别,从而进行类别划分;若所有目标的外轮廓都相似,则判断为单类别;若所有目标的外轮廓不全相似,可初步判断该视频帧中存在多类别,随即采用人工干预进行确认;
S5、根据步骤S4进行了类别划分之后,将相邻帧中的对应连通区域进行同类别标记;至此,即完成了所有帧的标定,得到一个单类别/多类别的数据集。
所述步骤S1中,将采集到的视频经过稳像处理,得到不抖动的视频,具体进行的视频帧稳像处理包括如下步骤:
S1.1、在一定的时间段内,利用运动熵衡量连续帧的运动混乱程度,判断视频画面是否发生抖动异常现象;
S1.2、若发生了抖动异常现象,计算所有帧的光流特征来解算出前一帧到当前帧的转换矩阵;所述转换矩阵包含三个参数:x方向上的偏移分量、y方向上的偏移分量和角度的偏移分量;
S1.3、累积偏移矢量获得每个帧的运动“轨迹”,使用滑动平均窗口平滑运动“轨迹”;
S1.4、根据实际情况,调整滑动窗口的大小,对全局运动进行修正,来达到主观运动与抖动分离的稳像效果。
步骤S2中,所述预处理包括如下步骤:
S2.1、提取视频帧,经过图像二值化、数学形态开闭运算对视频帧进行预处理;
S2.2、通过中值滤波算法和形态特征去干扰算法剔除视频帧中的噪点。
步骤S3中,对预处理后的视频采用高斯混合模型进行前背景分离获得前景,根据提取出的前景外轮廓获得原视频中的前景目标的最小包围盒,具体包括如下步骤:
S3.1、对预处理后的视频采用高斯混合模型进行前背景分离获得前景;
S3.2、将从背景分割出的前景分为多个连通区域,判断连通区域从两方面考虑,首先考虑到前景提取之后可能存在一些离散的噪点,设置一个阈值T来判断该连通区域是否为噪点。如果连通区域面积近小于阈值T,那么说明该点是噪点;如果连通区域面积大于T,那么就认为该区域是一个前景目标。根据提取出的前景目标外轮廓获得原视频中的前景目标的最小包围盒,从而得到前景在视频帧中的位置信息,该位置信息主要包含两个参数:(xmin,ymax),(xmax,ymin)。这两个参数分别表示包围盒左上角像素点的x,y坐标和右下角像素点的x,y坐标。步骤S4中,根据步骤S3前景连通区域的数量进行判断,将视频帧分为多目标和单目标两种情况,从而对前景进行分类任务,具体包括如下步骤:
S4.1、如果是单目标,则认为原视频中的目标物是单类别;
S4.2、如果是多目标,则根据目标间外轮廓的相似性判断是否为同一类别,从而进行类别划分;
S4.3、若所有目标的外轮廓都相似,则判断为单类别;若所有目标的外轮廓不全相似,可则初步判断该视频帧中存在多类别;所述轮廓间的相似性判断基于hog特征的模板匹配算法:
S4.3.1、计算hog特征
(1)梯度计算:
梯度计算定义如下:
Gx(x,y)=H(x+1,y)-H(x-1,y) (1)
Gy(x,y)=H(x,y+1)-H(x,y-1) (2)
式(1)中,H为输入的图像,Gx和Gy分别是水平梯度和垂直梯度;为了计算每个像素点的梯度,需要扫描整个图像中的每个像素点,卷积核定义如下:[-1,0,1]和[-1,0,1]T
点(x,y)梯度大小定义为:
Figure BDA0001448607510000021
点(x,y)梯度方向定义为:
Figure BDA0001448607510000022
(2)单元直方图:
在计算梯度之后,定义一个固定大小的检测窗口来扫描图片,并将图片分为小的矩形细胞单元;采用9通道直方图来统计这些矩形细胞单元的梯度信息,即将矩形细胞单元的梯度方向0~180度或0~360度分成9个方向块,所述0~360度表示考虑方向正负的情况;基于中间梯度元素的方向,计算每个像素的加权投票,各像素点在各个通道上的幅值计算方法为:
Figure BDA0001448607510000023
(3)描述符块:
将单元构建成3x3的块的形式,将计算好的梯度直方图输入进分类器中;创建这些块帮助算法降低在光照和对比度中的影响。这些块在图像上生成更多相关的空间信息。它也提高了检测的整体性能。
S4.3.2、利用hog特征作为轮廓特征进行局部模板匹配,选择局部模板匹配的原因主要是前景物体是运动物体,运动姿态复杂多变,由于前景物体姿势以及形状问题,目标模板很难全部覆盖,而且即使有包括所有姿势及形状的模板库,那也是非常巨大的,要从中找到与图像最匹配的模板将会非常的费时,所以选择局部模板进行匹配是一个相对来说省时省力的方法。该方法是通过判定测试图片与模板图片间的相似度,取相似性最大的样本为输入模式所属类别。局部模板匹配主要步骤如下:
(1)首先建立基于hog特征的模板库,将待识别区域的尺寸大小归一化到模板的尺寸大小;
(2)计算hog特征并将其可视化,与所有的hog特征可视化后的模板进行匹配;
(3)选择最佳匹配连通区域作为结果;定义基于hog特征用于二值图像模板匹配的距离函数为HSD,hog-basedSimilar Distance;其定义如下:
Figure BDA0001448607510000031
其中
Figure BDA0001448607510000032
式(6)、式(7)中f为模板图像、g为待匹配的hog特征可视化图像,m、n为像素点,M、N为像素点所取最大范围值,Tf和Tg分别为对应图像中值为1的像素个数,∧为与运算;R(f(m,n),g(m,n))表示模板和源图的相关函数,d(f,g)表示相似性;此算法计算了两个图像中具有相似性的点的个数,同时引入了图像的边界信息并避免了根据经验设定阈值的环节,所以具有更高的鲁棒性。
S4.4、人工干预进行确认。
步骤S5中,根据步骤S4进行了类别划分之后,采用帧间匹配算法,将相邻帧中的对应连通区域进行同类别标记,具体包括如下步骤:
S5.1、将前后两张图片中连通区域的距离和连通区域面积差,作为匹配的算法的参数;经过8-20次实验,发现两个参数反映匹配情况的程度不同,则将距离置于第一优先级,面积差置于第二优先级,根据实际情况设置不同的权值;结合两个参数,将两个参数归一化之后加权相加的值作为连通区域匹配的反映因子;反映因子的计算公式如下:
deside=disfactor×nordistance+areafactor×norarea (8)
其中,deside是反映因子,disfactor是距离权值,nordistance是归一化距离,areafactor是面积权值,norarea是归一化面积;如果上一帧图片中有m个连通区域,当前帧图片有n个两通区域,那么这些反映因子形成了一个m*n的矩阵;通过寻找矩阵中的最小值,定位前后图片连通区域的最佳匹配对象。
S5.2、将相邻帧中的对应连通区域进行同类别标记。
有益效果:和现有技术相比,本发明通过窗口平滑稳像算法得到去抖动视频,然后通过高斯混合模型得到前景目标物体,根据目标物的外轮廓快速获得该物体所在的位置信息,得到最小包围盒;在实际应用中,视频帧中的前景目标可能分为单类别和多类别两种情况,前景目标为单类别的情况相对简单,本发明针对前景物体属于多类别的情况,提出一种基于hog特征的局部模板匹配算法进行视频帧前景目标的分类;利用帧间匹配算法,将相邻帧中的对应连通区域进行同类别标记;得到了前景的位置信息和类别信息就实现了图像数据集的快速标定;根据帧间匹配算法,对相邻帧的对应连通区域进行同类别标记;得到了类别信息和位置信息,就完成了快速获取和快速标定特定图像数据集的任务;本发明解决了深度学习中带标签数据数量非常少且获得新的带标签数据非常困难代价昂贵的问题,为特定类别的图像数据的训练和识别提供了很大的便利。
附图说明
图1是本发明的系统流程示意图;
图2(a)-2(b)为某一个抖动视频稳像前后x,y轨迹图;
图3为某一帧图片中提取的前景及其包围盒;
图4为hog特征可视化后的行人图像。
具体实施方式
下面结合实施例和附图对本发明的技术方案作进一步详细说明;应理解本实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。如图1所示,一种基于视频帧前景提取的图像数据集快速获取和快速标定方法,包括如下步骤:
S1、进行视频采集,如果视频采集过程中发生了抖动,则通过电子稳像技术去除监控视频抖动。如果视频采集过程中没有抖动,则继续下一步。
如图2(a)-2(b)所示,步骤S1中,具体进行的视频帧处理包括如下步骤:
a、在一定的时间段内,利用运动熵衡量连续帧的运动混乱程度,判断视频画面是否发生抖动异常现象;
b、若发生了抖动异常现象,计算所有帧的光流特征来解算出前一帧到当前帧的转换矩阵。转换矩阵包含三个参数:x方向上的偏移分量,y方向上的偏移分量,角度的偏移分量。
c、累积偏移矢量获得每个帧的运动“轨迹”,使用滑动平均窗口平滑运动“轨迹”。
d、根据实际情况,调整滑动窗口的大小来达到相对较好的稳像效果。
S2、从步骤S1中的视频中提取视频帧,通过图像二值化、数学形态开闭运算、中值滤波算法和形态特征去干扰算法剔除视频帧中的噪点,为步骤S3提供预处理后的视频帧。
具体进行的视频帧处理包括如下步骤:
a、提取视频帧,经过图像二值化、数学形态开闭运算对视频帧进行预处理;
b、通过中值滤波算法和形态特征去干扰算法剔除视频帧中的噪点。
S3、将步骤S2中的视频帧,采用高斯混合模型进行前背景分离获得前景。根据提取出的前景外轮廓获得原视频中的前景目标的最小包围盒。如图3所示,具体包括如下步骤:
a、对预处理后的视频采用高斯混合模型进行前背景分离获得前景。
b、将从背景分割出的前景分为多个连通区域,判断连通区域从两方面考虑,首先考虑到前景提取之后可能存在一些离散的噪点,设置一个阈值T来判断该连通区域是否为噪点。如果连通区域面积近小于阈值T,那么说明该点是噪点;如果连通区域面积大于T,那么就认为该区域是一个前景目标。根据提取出的前景目标外轮廓获得原视频中的前景目标的最小包围盒,从而得到前景在视频帧中的位置信息,该位置信息主要包含两个参数:(xmin,ymax),(xmax,ymin)。这两个参数分别表示包围盒左上角像素点的x,y坐标和右下角像素点的x,y坐标。
S4、根据步骤S3前景连通区域的数量进行判断,如图4所示,步骤S4中,具体包括如下步骤:
a、如果是单目标,则认为原视频中的目标物是单类别。
b、如果是多目标,则根据目标间外轮廓的相似性判断是否为同一类别,从而进行类别划分。
c、若所有目标的外轮廓都相似,则判断为单类别;若所有目标的外轮廓不全相似,可初步判断该视频帧中存在多类别。为了判断轮廓间的相似性本文提出一种基于hog特征的模板匹配算法。
一.首先需要计算hog特征,下面是hog算法的计算步骤:
1.梯度计算。梯度计算是HOG算法的第一步,一维离散梯度模版,是最简单高效的方法。梯度计算定义如下:
Gx(x,y)=H(x+1,y)-H(x-1,y) (1)
Gy(x,y)=H(x,y+1)-H(x,y-1) (2)
式(1)中,H为输入的图像,Gx和Gy分别是水平梯度和垂直梯度。为了计算每个像素点的梯度,需要扫描整个图像中的每个像素点。卷积核定义如下:[-1,0,1]和[-1,0,1]T
点(x,y)梯度大小定义为:
Figure BDA0001448607510000051
点(x,y)梯度方向定义为:
Figure BDA0001448607510000052
2.单元直方图。在计算梯度之后,定义一个固定大小的检测窗口来扫描图片,并将图片分为小的矩形细胞单元。采用9通道直方图来统计这些矩形细胞单元的梯度信息,即将矩形细胞单元的梯度方向0~180度(或0~360度,0~360度表示考虑方向正负的情况)分成9个方向块。基于中间梯度元素的方向,计算每个像素的加权投票。
各像素点在各个通道上的幅值计算方法为:
Figure BDA0001448607510000053
3、描述符块。为了将计算好的梯度直方图输入进分类器中,单元被构建成3x3的形式,称为块。创建这些块帮助算法降低在光照和对比度中的影响。这些块在图像上生成更多相关的空间信息。它也提高了检测的整体性能。
二.然后利用hog特征作为轮廓特征进行局部模板匹配,选择局部模板匹配的原因主要是前景物体是运动物体,运动姿态复杂多变,由于前景物体姿势以及形状问题,目标模板很难全部覆盖,而且即使有包括所有姿势及形状的模板库,那也是非常巨大的,要从中找到与图像最匹配的模板将会非常的费时,所以选择局部模板进行匹配是一个相对来说省时省力的方法。
该方法是通过判定测试图片与模板图片间的相似度,取相似性最大的样本为输入模式所属类别。局部模板匹配主要步骤如下:
首先建立基于hog特征的模板库,将待识别区域的尺寸大小归一化到模板的尺寸大小,然后计算hog特征并将其可视化,与所有的hog特征可视化后的模板进行匹配,最后选择最佳匹配连通区域作为结果。定义基于hog特征用于二值图像模板匹配的距离函数为HSD(hog-basedSimilar Distance)。其定义如下:
Figure BDA0001448607510000061
其中
Figure BDA0001448607510000062
式(6)、式(7)中f为模板图像、g为待匹配的hog特征可视化图像,m、n为像素点,M、N为像素点所取最大范围值,Tf和Tg分别为对应图像中值为1的像素个数,∧为与运算。R(f(m,n),g(m,n))表示模板和源图的相关函数,d(f,g)表示相似性。此算法计算了两个图像中具有相似性的点的个数,同时引入了图像的边界信息并避免了根据经验设定阈值的环节,所以具有更高的鲁棒性。
d、人工干预进行确认。
S5、根据步骤S4进行了类别划分之后,提出帧间匹配算法,将相邻帧中的对应连通区域进行同类别标记,具体进行的视频帧处理包括如下步骤:
a、将前后两张图片中连通区域的距离和连通区域面积差,作为匹配的算法的参数。经过多次实验,发现两个参数反映匹配情况的程度不同,将距离置于第一优先级,面积差置于第二优先级,根据实际情况设置不同的权值。结合两个参数,将两个参数归一化之后加权相加的值作为连通区域匹配的反映因子。反映因子的计算公式如下:
deside=disfactor×nordistance+areafactor×norarea (8)
其中,deside是反映因子,disfactor是距离权值,nordistance是归一化距离,areafactor是面积权值,norarea是归一化面积。如果上一帧图片中有m个连通区域,当前帧图片有n个两通区域,那么这些反映因子形成了一个m*n的矩阵。通过寻找矩阵中的最小值,定位前后图片连通区域的最佳匹配对象。
b、将相邻帧中的对应连通区域进行同类别标记。至此,就完成了所有帧的标定,得到一个单类别/多类别的数据集。
综上,本发明选取窗口平滑稳像算法进行视频稳像,采用高斯混合模型进行前背景分离,对于分离出的前景分析其外轮廓信息得到最小包围盒,也就是前景物体的位置信息;其次,本发明利用分离出的前景,提出一种基于hog特征的局部模板匹配算法,通过该算法对视频帧的前景目标物体进行自动分类;然后通过帧间匹配算法将相邻帧中的对应连通区域进行同类别标记,达到了快速获取和快速标定图像数据集的目的,减少了人为干预,提高了效率。

Claims (1)

1.一种深度学习中图像数据集的快速获取和快速标定方法,其特征在于,包括如下步骤:
S1、进行视频采集;将采集到的视频经过稳像处理,得到不抖动的视频,具体的视频帧稳像处理包括如下步骤:
S1.1、在一定的时间段内,利用运动熵衡量连续帧的运动混乱程度,判断视频画面是否发生抖动异常现象;
S1.2、若发生了抖动异常现象,计算所有帧的光流特征来解算出前一帧到当前帧的转换矩阵;所述转换矩阵包含三个参数:x方向上的偏移分量、y方向上的偏移分量和角度的偏移分量;
S1.3、累积偏移矢量获得每个帧的运动“轨迹”,使用滑动平均窗口平滑运动“轨迹”;
S1.4、根据实际情况,调整滑动窗口的大小,对全局运动进行修正,来达到主观运动与抖动分离的稳像效果;
S2、从步骤S1中的视频中提取视频帧,将稳像后的视频进行预处理,并剔除视频帧中的噪点;
S3、将步骤S2中的视频帧,进行前背景分离获得前景,根据提取出的前景外轮廓获得原视频中的前景目标的最小包围盒;具体包括如下步骤:
S3.1、对预处理后的视频采用高斯混合模型进行前背景分离获得前景;
S3.2、将从背景分割出的前景分为多个连通区域,所述连通区域的判断从两方面考虑,首先针对前景提取之后存在的一些离散的噪点,通过设置一个阈值T来判断该连通区域是否为噪点;如果连通区域面积小于阈值T,那么说明该点是噪点;如果连通区域面积大于T,那么就认为该区域是一个前景目标;根据提取出的前景目标外轮廓获得原视频中的前景目标的最小包围盒,从而得到前景在视频帧中的位置信息,所述位置信息包含两个参数:(xmin,ymax),(xmax,ymin),分别表示包围盒左上角像素点的x,y坐标和右下角像素点的x,y坐标;
S4、根据步骤S3前景连通区域的数量进行判断,将视频帧分为多目标和单目标两种情况;如果是单目标,则认为原视频中的目标物为单类别;如果是多目标,则根据目标间外轮廓的相似性判断是否为同一类别,从而进行类别划分;若所有目标的外轮廓都相似,则判断为单类别;若所有目标的外轮廓不全相似,可初步判断该视频帧中存在多类别,随即采用人工干预进行确认;具体包括如下步骤:
S4.1、如果是单目标,则认为原视频中的目标物是单类别;
S4.2、如果是多目标,则根据目标间外轮廓的相似性判断是否为同一类别,从而进行类别划分;
S4.3、若所有目标的外轮廓都相似,则判断为单类别;若所有目标的外轮廓不全相似,可则初步判断该视频帧中存在多类别;所述轮廓间的相似性判断基于hog特征的模板匹配算法:
S4.3.1、计算hog特征
(1)梯度计算:
梯度计算定义如下:
Gx(x,y)=H(x+1,y)-H(x-1,y) (1)
Gy(x,y)=H(x,y+1)-H(x,y-1) (2)
式(1)中,H为输入的图像,Gx和Gy分别是水平梯度和垂直梯度;为了计算每个像素点的梯度,需要扫描整个图像中的每个像素点,卷积核定义如下:[-1,0,1]和[-1,0,1]T
点(x,y)梯度大小定义为:
Figure FDA0003487542850000011
点(x,y)梯度方向定义为:
Figure FDA0003487542850000021
(2)单元直方图:
在计算梯度之后,定义一个固定大小的检测窗口来扫描图片,并将图片分为小的矩形细胞单元;采用9通道直方图来统计这些矩形细胞单元的梯度信息,即将矩形细胞单元的梯度方向0~180度或0~360度分成9个方向块,所述0~360度表示考虑方向正负的情况;基于中间梯度元素的方向,计算每个像素的加权投票,各像素点在各个通道上的幅值计算方法为:
Figure FDA0003487542850000022
(3)描述符块:
将单元构建成3x3的块的形式,将计算好的梯度直方图输入进分类器中;
S4.3.2、利用hog特征作为轮廓特征进行局部模板匹配,步骤如下:
(1)首先建立基于hog特征的模板库,将待识别区域的尺寸大小归一化到模板的尺寸大小;
(2)计算hog特征并将其可视化,与所有的hog特征可视化后的模板进行匹配;
(3)选择最佳匹配连通区域作为结果;定义基于hog特征用于二值图像模板匹配的距离函数为HSD,hog-basedSimilar Distance;其定义如下:
Figure FDA0003487542850000023
其中
Figure FDA0003487542850000024
式(6)、式(7)中f为模板图像、g为待匹配的hog特征可视化图像,m、n为像素点,M、N为像素点所取最大范围值,Tf和Tg分别为对应图像中值为1的像素个数,∧为与运算;R(f(m,n),g(m,n))表示模板和源图的相关函数,d(f,g)表示相似性;
S4.4、人工干预进行确认;
S5、根据步骤S4进行了类别划分之后,将相邻帧中的对应连通区域进行同类别标记;至此,即完成了所有帧的标定,得到一个单类别/多类别的数据集;具体包括如下步骤:
S5.1、将前后两张图片中连通区域的距离和连通区域面积差,作为匹配的算法的参数;经过8-20次实验,发现两个参数反映匹配情况的程度不同,则将距离置于第一优先级,面积差置于第二优先级,根据实际情况设置不同的权值;结合两个参数,将两个参数归一化之后加权相加的值作为连通区域匹配的反映因子;反映因子的计算公式如下:
deside=disfactor×nordistance+areafactor×norarea (8)
其中,deside是反映因子,disfactor是距离权值,nordistance是归一化距离,areafactor是面积权值,norarea是归一化面积;如果上一帧图片中有A个连通区域,当前帧图片有B个连通区域,那么这些反映因子形成了一个A*B的矩阵;通过寻找矩阵中的最小值,定位前后图片连通区域的最佳匹配对象;
S5.2、将相邻帧中的对应连通区域进行同类别标记。
CN201711027026.5A 2017-10-27 2017-10-27 一种深度学习中图像数据集的快速获取和快速标定方法 Active CN107909081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711027026.5A CN107909081B (zh) 2017-10-27 2017-10-27 一种深度学习中图像数据集的快速获取和快速标定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711027026.5A CN107909081B (zh) 2017-10-27 2017-10-27 一种深度学习中图像数据集的快速获取和快速标定方法

Publications (2)

Publication Number Publication Date
CN107909081A CN107909081A (zh) 2018-04-13
CN107909081B true CN107909081B (zh) 2022-04-08

Family

ID=61841839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711027026.5A Active CN107909081B (zh) 2017-10-27 2017-10-27 一种深度学习中图像数据集的快速获取和快速标定方法

Country Status (1)

Country Link
CN (1) CN107909081B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108510750A (zh) * 2018-04-25 2018-09-07 济南浪潮高新科技投资发展有限公司 一种基于神经网络模型的无人机巡检违章停车的方法
CN108986185B (zh) * 2018-08-01 2023-04-07 浙江深眸科技有限公司 基于深度学习的图像数据扩增方法
CN113298845A (zh) * 2018-10-15 2021-08-24 华为技术有限公司 一种图像处理方法、装置与设备
CN109822398B (zh) * 2019-03-25 2020-06-02 华中科技大学 一种基于深度学习的数控机床断刀检测系统及方法
CN110287787B (zh) * 2019-05-21 2022-05-06 平安国际智慧城市科技股份有限公司 图像识别方法、装置及计算机可读存储介质
CN110532922B (zh) * 2019-08-21 2023-04-14 成都电科慧安科技有限公司 一种在移动设备上进行实时分割深度图视频帧的方法
CN111193923B (zh) * 2019-09-24 2022-06-21 腾讯科技(深圳)有限公司 视频质量评估方法、装置、电子设备及计算机存储介质
CN111125336A (zh) * 2019-12-28 2020-05-08 上海智臻智能网络科技股份有限公司 信息提示方法、装置、设备及介质
CN112634179B (zh) * 2021-01-14 2024-03-15 北京四方继保工程技术有限公司 一种防摄像头抖动的变电设备图像变化检测方法和系统
CN113255624B (zh) * 2021-07-14 2021-09-21 北京壹体科技有限公司 一种智能识别引体向上动作姿态完成状况的系统和方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120082371A1 (en) * 2010-10-01 2012-04-05 Google Inc. Label embedding trees for multi-class tasks
CN102831239B (zh) * 2012-09-04 2016-01-20 清华大学 一种构建图像数据库的方法与系统
CN103559498A (zh) * 2013-09-24 2014-02-05 北京环境特性研究所 基于多特征融合的快速人车目标分类方法
CN105095906A (zh) * 2014-05-04 2015-11-25 深圳市贝尔信科技有限公司 目标特征模型数据库建立的方法、装置及系统
CN104021229B (zh) * 2014-06-25 2017-07-25 厦门大学 一种用于商标图像检索的形状表示与匹配方法
CN104637058B (zh) * 2015-02-06 2017-11-17 武汉科技大学 一种基于图像信息的客流量识别统计方法
US9984199B2 (en) * 2015-05-21 2018-05-29 Ge Healthcare Bio-Sciences Corp. Method and system for classification and quantitative analysis of cell types in microscopy images
CN105701502B (zh) * 2016-01-06 2020-11-10 福州大学 一种基于蒙特卡罗数据均衡的图像自动标注方法
CN105931241B (zh) * 2016-04-22 2018-08-21 南京师范大学 一种自然场景图像的自动标注方法
CN106022231A (zh) * 2016-05-11 2016-10-12 浙江理工大学 一种基于多特征融合的行人快速检测的技术方法
CN106534833B (zh) * 2016-12-07 2018-08-07 上海大学 一种联合空间时间轴的双视点立体视频稳定方法

Also Published As

Publication number Publication date
CN107909081A (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
CN107909081B (zh) 一种深度学习中图像数据集的快速获取和快速标定方法
CN109800824B (zh) 一种基于计算机视觉与机器学习的管道缺陷识别方法
CN106651872B (zh) 基于Prewitt算子的路面裂缝识别方法及系统
CN107545239B (zh) 一种基于车牌识别与车辆特征匹配的套牌检测方法
CN109154978B (zh) 用于检测植物疾病的系统和方法
US8340420B2 (en) Method for recognizing objects in images
Silva et al. A flexible approach for automatic license plate recognition in unconstrained scenarios
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN109145803B (zh) 手势识别方法及装置、电子设备、计算机可读存储介质
CN109685045B (zh) 一种运动目标视频跟踪方法及系统
CN109671068B (zh) 一种基于深度学习的腹部肌肉标注方法及装置
CN110717896A (zh) 基于显著性标签信息传播模型的板带钢表面缺陷检测方法
CN109918971B (zh) 监控视频中人数检测方法及装置
CN106548160A (zh) 一种人脸微笑检测方法
CN107368778A (zh) 人脸表情的捕捉方法、装置及存储装置
CN108537751B (zh) 一种基于径向基神经网络的甲状腺超声图像自动分割方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN110032932B (zh) 一种基于视频处理和决策树设定阈值的人体姿态识别方法
CN113449606B (zh) 一种目标对象识别方法、装置、计算机设备及存储介质
CN113592911B (zh) 表观增强深度目标跟踪方法
WO2008039480A1 (en) Method and system for learning spatio-spectral features in an image
CN108961262B (zh) 一种复杂场景下的条码定位方法
CN108345835B (zh) 一种基于仿复眼感知的目标识别方法
CN111028263B (zh) 一种基于光流颜色聚类的运动物体分割方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant