CN105551036B - 一种深度学习网络的训练方法和装置 - Google Patents
一种深度学习网络的训练方法和装置 Download PDFInfo
- Publication number
- CN105551036B CN105551036B CN201510909587.2A CN201510909587A CN105551036B CN 105551036 B CN105551036 B CN 105551036B CN 201510909587 A CN201510909587 A CN 201510909587A CN 105551036 B CN105551036 B CN 105551036B
- Authority
- CN
- China
- Prior art keywords
- image
- patch
- input picture
- ground truth
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明属于计算机视觉技术领域,提供了一种深度学习网络的训练方法和装置。所述方法包括:将训练集中的图像分割为多个不同的patch;将所述多个不同的patch转换为包括多个不同尺度的图像的图像集;对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统。通过本发明提高了深度学习训练中特征局部提取的精度。
Description
技术领域
本发明属于计算机视觉技术领域,尤其涉及一种深度学习网络的训练方法和装置。
背景技术
深度学习源于人工神经网络的研究,一般具有含多隐层的多层感知器的结构可以被定义为深度学习结构。深度学习通过组合低层特征然后抽取出抽象的高层特征以发现数据的分布式特征表示。深度学习是机器领域中一系列试图使用多重非线性变换对数据进行多层抽样的算法。深度学习是机器学习中表征学习方法的一类。一幅图像可以使用多种方式表示,而某些特定的表示方法可以让机器学习算法更加容易进行学习。而表征学习的目标是寻求更好的表示方法并建立更好的模型来学习这些表示方法。2007年后由杰弗里·辛顿(Geoffrey Hinton)和鲁斯兰·萨拉赫丁诺夫(Ruslan Salakhutdinov)提出了一种在前馈神经网络中进行有效训练的算法,这一算法将网络中的每一层视为无监督的受限玻尔兹曼机,再使用有监督的反向传播算法进行调优。1992年,施密德胡伯曾在递归神经网络上提出一种类似的训练方法,并在实验中证明这一训练方法能够有效提高有监督学习的执行速度.自深度学习出现以来,它已成为很多领域,尤其是在计算机视中,成为各种领先系统的一部分。在通用的用于检验的数据集,例如图像识别中的ImageNet,Cifar10上的实验证明,深度学习能够提高识别的精度。另外,硬件的进步也是深度学习重新获得关注的重要因素。高性能图形处理器的出现极大地提高了数值和矩阵运算的速度,使得机器学习算法的运行时间得到了显著的缩短。
当前,在交通场景分割中使用最多的是超像素(superpixel)预处理。将图像中许多相似的的像素点结合到一起,然后在后期作为一个整体处理获得一个整体图像块,称之为超像素。由于基于像素级的目标识别/分割,不能给目标的整体一个清晰的判断。同时,由于单个像素或小数像素的噪声会误判目标,也可能把邻域内的像素点判断为目标,甚至会出现把感兴趣区域(Region of Interest,ROI)误判为背景信息。另一方面,像素级的分类与判别是不能给出目标区域的边界信息,最多只能给出大概的位置。与人类视觉的着重点一样,像素并不是主要关注的对象,单一的某个像素点不能解析出一个某个目标物体或者区域,只能通过像素结合才能存在一个整体。
目前除了基于超像素作预处理的深度学习训练外,在发明专利申请名称为“一种基于多分辨率卷积神经网络交通标志识别方法”(申请号201510002850.X,公开号104537393A)的专利中,涉及到使用两个不同的分辨率作为预处理来对卷积神经网络进行训练,其高分辨率输入映射出全局和轮廓的特征,而低分辨率的图像来映射局部与细节特征,同时由于分辨率降低,提高了模型训练的速度。
上述两种方法都在一定程度解决了深度学习训练的精度和速度问题,但是其结果还是并不理想,同时还存在如下所述的问题。
然而,在超像素预处理中,尽管超像素具体很好的图像边界信息,但是局部冗余信息也非常多,会造成在同一区域内不同分类的大量互相干扰的噪声。而以超像素作为疾病计算处理单元的话,因为将每一个像素聚合成不同的群组需要进行大量的预计算,如果分辨率在比较高的情况下,效率比较低下。在超像素划分的块中,要组成不同的区域,实际上有很多像素会被重复标记,生成的训练样本会大量增加,特别是在交通场景大部分区域过渡都非常相似的情况下,除了消耗大量的计算能力外,还会导致精度下降。
发明专利“一种基于多分辨率卷积神经网络交通标志识别方法”(申请号201510002850.X,公开号104537393A)中,虽然使用了两种不同分辨率来进行训练,但由于两个分辨率的之间差距太大,导致大量的信息丢失,最终并不能很好地解决精度问题,而且,低分辨率的速度处理虽然有提高,但是考虑到高分辨率处理的情况,实际性能提高有限。
故,有必要提出一种新的技术方案,以解决上述技术问题。
发明内容
鉴于此,本发明实施例提供一种深度学习网络的训练方法和装置,以提高深度学习训练中特征提取的精度。
本发明实施例的第一方面,提供一种深度学习网络的训练方法,所述方法包括:
将训练集中的图像分割为多个不同的patch;
将所述多个不同的patch转换为包括多个不同尺度的图像的图像集;
对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统。
本发明实施例的第二方面,提供一种深度学习网络的训练装置,所述装置包括:
分割模块、转换模块以及处理模块;
所述分割模块,用于将训练集中的图像分割为多个不同的patch;
所述转换模块,用于将所述多个不同的patch转换为包含多个不同尺度的图像的图像集;
所述处理模块,用于对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例将训练集中的图像分割为多个不同的patch,将所述多个不同的patch转换为包括多个不同尺度的图像的图像集,对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统,提高了深度学习训练中局部特征提取的精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的深度学习网络的训练方法的实现流程图;
图2是本发明实施例一提供的将输入图像分割为大小相同、图像信息不同的m×n个patch的示例图;
图3是本发明实施例一提供的采用高斯金字塔算法与拉普拉斯金字塔算法对patch进行多尺度图像转换后的示例图;
图4是本发明实施例二提供的深度学习网络的训练方法的实现流程图;
图5是本发明实施例三提供的深度学习网络的训练方法的实现流程图;
图6a是在KITTI-ROAD、LabelMe与CamVid数据集中取复杂的交通场景(含有多条道路)分别采用原图、superpixel、patch、多尺度和patch+多尺度训练卷积神经网络后进行特征提取的精度比较图;图6b是在KITTI-ROAD、LabelMe与CamVid数据集中取复杂的交通场景(含有多条道路)分别采用原图、superpixel、patch、多尺度和patch+多尺度训练反卷积神经网络后进行特征提取的精度比较图;
图7是本发明实施例四提供的深度学习网络的训练装置的组成示意图;
图8是本发明实施例五提供的深度学习网络的训练装置的组成示意图;
图9是本发明实施例六提供的深度学习网络的训练装置的组成示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例一:
图1示出了本发明实施例一提供的深度学习网络的训练方法的实现流程,所述实现流程详述如下:
在步骤S101中,将训练集中的图像分割为多个不同的patch;
在本发明实施例中,所述patch是在训练集中的图像中抠出的任意大小的图像区域,所述patch的大小小于所述图像,较佳的是,所述patch可以为正方形或长方形。所述训练集包括输入图像和所述输入图像对应的ground truth,所述ground truth是一张人工标定的像素标记。如图2是将训练集中的输入图像分割为大小相同、图像信息不同的m×n个patch,f1,1(x),f1,n(x),fm,1(x),fm,n(x)分别是位于输入图像的四个角落的patch。
在本发明实施例中,可以根据图像的复杂程度选用对应的方法来获取patch,并输入至卷积神经网络进行训练,具体方法如下:
(1)通过滑动窗口的方法提取固定大小的patch图像集,并将其输入至卷积神经网络,然后可以根据图像信息采用动态规划的思想划分patch的类别,比如道路的边缘、道路路面和天空等,这样,可以通过patch提取得到一个图像密集类别的图像集,通过合并所有的patch得道不同区域的训练集。该方法操作简单,能够人工合理地设置正负样本的数量和特点,但运算量大,若图像分辨率大,计算机将无法进行运算,若考虑多尺度的情况,完全无法进行运算处理,另外对于密集提取同一个区域的patch容易导致出现深度神经网络过度学习的情况。以交通场景中的道路为例,所述正样本是指属于道路类别的样本,所述负样本是指不属于道路类别的样本。
(2)采用提取子窗口的方法,首先用类似于滑动窗口的方法按照顺序提取固定大小的patch,然后再将patch归一化到相同大小输入至卷积神经网络,在全连接层再根据顺序拼接回原图大小,输出对应分类的特征区域。该方法速度快,分类窗口数目可以设定,比较灵活。由于要保证分类patch需要分类的像素,因此需要较高的召回率。
进一步的,所述将训练集中的图像分割为多个不同的patch,具体包括:
获取训练集,所述训练集包括输入图像和所述输入图像对应的ground truth;
较佳的是,选用KITTI-ROAD中的数据集作为训练集。
设置一个固定大小的滑动窗口,以一定的步长滑动分割所述输入图像及其所对应的ground truth,将所述输入图像及其所对应的ground truth分别分割为多个不同的patch;
在本发明实施例中,设置一个固定大小的滑动窗口,以一定的步长从左往右、从上向下滑动分割所述输入图像及其所对应的ground truth,将所述输入图像及其所对应的ground truth分别分割为多个不同的patch,并将多个不同的patch保存为HDF5格式。
在本发明实施例中,所述步长是在图像中抠去patch时,以正方形或长方形为中心,进行移动的距离。根据图像的信息确定步长,要求训练集中的正样本多时,步长要短些,采集的图像会更密集;要求训练集中的负样本多时,步长要长些,采集的图像的信息量会更多样化。
为了更好的理解本发明,以训练集为交通道路进行举例说明,ground truth是一张人工标定的正确道路的二值化图像,ground truth中像素属于道路区域,标记为1,不属于道路区域,标记为0;训练集包括输入图像及其所对应的ground truth。
在本发明实施例中,将训练集分割成大量的patch,极大的满足了训练深度神经网络系统需要大量样本的需求,也为少样本训练方法提供了大量的少样本训练集;同时,patch是将大分辨率的图像分割为小分辨率的图像,提高了深度神经网络系统的运算速度。
根据所述输入图像的patch的像素,在所述输入图像的patch所对应的所述groundtruth的patch上进行像素标记;
对所述输入图像的patch和所述ground truth的patch进行尺度归一化。
在发明实施例中,对所述输入图像的patch和像素标记后的ground truth的patch进行尺度归一化,以提高深度学习网络的训练速度。
在步骤S102中,将所述多个不同的patch转换为包括多个不同尺度的图像的图像集;
在本发明实施例中,将包括多个不同尺度的图像的图像集保存为HDF5格式。
进一步的,所述将所述多个不同的patch转换为包括多个不同尺度的图像的图像集,具体包括:
将所述多个不同的patch通过拉普拉斯金字塔算法转换为包括多个不同尺度的图像的图像集,以交通道路为例,可根据道路的复杂情况进行尺度的增加,过于复杂的道路默认为4个尺度。
所述拉普拉斯金字塔转换算法具体包括:
对所述patch建立高斯金字塔,所述高斯金字塔是按照二次幂进行低通滤波作平滑处理,将低通滤波后的图像作带通滤波,生成多个尺度的图像。具体实现方法如下:
金字塔算法是一种多尺度、多分辨率的方法,最早由Adelson和Burt提出。基于金字塔分解的图像算法是在不同尺度、不同空间分辨率和不同分解层上分别进行的。本发明实施例是使用拉普拉斯金字塔分解来获取多尺度图像,然后再将所有的图像归一到相同的大小,输入至神经网络系统进行模型训练。
拉普拉斯金字塔是由高斯金字塔演变而来,如图3是采用高斯金字塔与拉普拉斯金字塔对patch生成多尺度图像,并将多尺度图像进行尺度归一化,首先对图像构造一个高斯金字塔,高斯金字塔图像为Is。
其中N为高斯金字塔顶层的层号,Cs和Rs分别对应高斯金字塔s层的列和行,则1≤s≤N,0≤i<Rs,0≤j<Cs。为一个可分离的5×5二维函数:
由I0,I1,…,IN构建高斯金字塔,I0为高斯金字塔的底,图像的尺寸与原图像一致,IN为高斯金字塔的顶,图像沿着高斯金字塔进行尺度变换。由上述可知,高斯金字塔是当前图像层对其前一层图像进行了高斯低通滤波后再隔行隔列进行降二采样,当前的图像层大小是前一层图像的
在构造了一个尺寸上逐渐减半的高斯金字塔图像序列后,利用插值法对高斯金字塔进行插值膨胀使第s层图像Is膨胀后的尺度与第s-1层图像Is-1尺度相同,即:
其中1≤s≤N,0≤i<Rs,0≤j<Cs,
可得:
其中,N为拉普拉斯金字塔的顶层,LPs为拉普拉斯金字塔分解的第s层,LP0,LP1,…,LPN构成拉普拉斯金字塔,拉普拉斯金字塔每层图像为高斯金字塔当前层图像与上/高一层的图像内插放大后图像的差,其本质是一个带通滤波过程,通过公式(6)可以重建原图像。
从拉普拉斯金字塔顶层从上至下递推即可重建对应的高斯金字塔,而高斯金字塔的底即为原图像。可见,高斯金字塔是向下降采样图像,而拉普拉斯金字塔是从金字塔底层图像向上采样重建图像。
在步骤S103中,对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统。
在本发明实施例中,训练所述深度神经网络系统是用于确定所述深度神经网络系统的参数,所述深度神经网络系统可以为卷积神经网络和/或反卷积神经网络。
通过本发明实施例训练深度神经网络系统,确定所述深度神经网络系统的参数,提高了深度学习训练中局部特征提取的精度。
实施例二:
图4示出了本发明实施例二提供的深度学习网络的训练方法的实现流程,所述实现流程详述如下:
在步骤S401中,将训练集中的图像分割为多个不同的patch;
在本发明实施例中,所述patch是在训练集中的图像中抠出的任意大小的图像区域,所述patch的大小必须小于所述图像,较佳的是,所述patch可以为正方形或长方形。所述训练集包括输入图像和所述输入图像对应的ground truth,所述ground truth是一张人工标定的像素标记。如图2是将训练集中的输入图像分割为大小相同,图像信息不同的m×n个patch,f1,1(x),f1,n(x),fm,1(x),fm,n(x)分别是位于输入图像的四个角落的patch。
在本发明实施例中,可以根据图像的复杂程度选用对应的方法来获取patch,并输入至卷积神经网络进行训练,具体方法参见实施例一的描述,在此不再累述。
进一步的,所述将训练集中的图像分割为多个不同的patch,具体包括:
获取训练集,所述训练集包括输入图像和所述输入图像对应的ground truth;
较佳的是,选用KITTI-ROAD中的数据集作为训练集。
设置一个固定大小的滑动窗口,以一定的步长滑动分割所述输入图像及其所对应的ground truth,将所述输入图像及其所对应的ground truth分别分割为多个不同的patch;
在本发明实施例中,设置一个固定大小的滑动窗口,以一定的步长从左往右、从上向下滑动分割所述输入图像及其所对应的ground truth,将所述输入图像及其所对应的ground truth分别分割为多个不同的patch,并将多个不同的patch保存为HDF5格式。
在本发明实施例中,所述步长是在图像中抠去patch时,以正方形或长方形为中心,进行移动的距离。根据图像信息确定步长,要求训练集中的正样本多时,步长要短些,采集的图像会更密集;要求训练集中的负样本多时,步长要长些,采集的图像的信息量会更多样化。以交通场景中的道路为例,所述正样本是指属于道路类别的样本,所述负样本是指不属于道路类别的样本。
为了更好的理解本发明,以训练集为交通道路进行举例说明,ground truth是一张人工标定的正确道路的二值化图像,ground truth中像素属于道路区域,标记为1,不属于道路区域,标记为0;训练集包括输入图像及其所对应的ground truth。
在本发明实施例中,将训练集分割成大量的patch,极大的满足了训练深度神经网络系统需要大量样本的需求,也为少样本训练方法提供了大量的少样本训练集;同时,patch是将大分辨率的图像分割为小分辨率的图像,提高了深度神经网络系统的运算速度。
根据所述输入图像的patch的像素,在所述输入图像的patch所对应的所述groundtruth的patch上进行像素标记;
对所述输入图像的patch和所述ground truth的patch进行尺度归一化。
在发明实施例中,所述输入图像的patch和像素标记后的ground truth的patch进行尺度归一化,以提高深度学习网络的训练速度。
在步骤S402中,将所述多个不同的patch转换为包括多个不同尺度的图像的图像集;
在本发明实施例中,将包括多个不同尺度的图像的图像集保存为HDF5格式。
进一步的,所述将所述多个不同的patch转换为包括多个不同尺度的图像的图像集,具体包括:
将所述多个不同的patch通过拉普拉斯金字塔转换算法为包括多个不同尺度的图像的图像集,以交通道路为例,可根据道路的复杂情况进行尺度的增加,过于复杂的道路默认为4个尺度。
所述拉普拉斯金字塔转换算法具体包括:
对所述patch建立高斯金字塔,所述高斯金字塔是按照二次幂进行低通滤波作平滑处理,将低通滤波后的图像作带通滤波,生成多个尺度的图像。具体实现方法参见实施例一的描述,在此不再累述。
在步骤S403中,根据转换后的输入图像的patch的多个不同尺度的图像的像素,调整对应尺度的转换后的ground truth的patch的多个不同尺度的图像上的像素标记,其中,所述ground truth的patch是所述输入图像的patch对应的ground truth的patch;
在本发明实施例中,将输入图像的patch的多个不同尺度的图像和调整像素标记后的ground truth的patch的多个不同尺度的图像保存为HDF5格式。
在本发明实施例中,输入图像的patch在尺度改变过程中可能会丢失像素,需要对尺度变换后的图像中的像素进行重新标定。
在步骤S404中,对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统。
在本发明实施例中,训练所述深度神经网络系统是用于确定所述深度神经网络系统的参数,所述深度神经网络系统可以为卷积神经网络和/或反卷积神经网络。
通过本发明实施例训练深度神经网络系统,确定所述深度神经网络系统的参数,提高了深度学习训练中局部特征提取的精度。
实施例三:
图5示出了本发明实施例三提供的深度学习网络的训练方法的实现流程,所述实现流程详述如下:
在步骤S501中,将训练集中的图像分割为多个不同的patch;
在本发明实施例中,所述patch是在训练集中的图像中抠出的任意大小的图像区域,所述patch的大小必须小于所述图像,较佳的是,所述patch可以为正方形或长方形。所述训练集包括输入图像和所述输入图像对应的ground truth,所述ground truth是一张人工标定的像素标记。如图2是将训练集中的输入图像分割为大小相同,图像信息不同的m×n个patch,f1,1(x),f1,n(x),fm,1(x),fm,n(x)分别是位于输入图像的四个角落的patch。
在本发明实施例中,可以根据图像的复杂程度选用对应的方法来获取patch,并输入至卷积神经网络进行训练,具体方法参见实施例一的描述,在此不再累述。
进一步的,所述将训练集中的图像分割为多个不同的patch,具体包括:
获取训练集,所述训练集包括输入图像和所述输入图像对应的ground truth;
较佳的是,选用KITTI-ROAD中的数据集作为训练集。
设置一个固定大小的滑动窗口,以一定的步长滑动分割所述输入图像及其所对应的ground truth,将所述输入图像及其所对应的ground truth分别分割为多个不同的patch;
在本发明实施例中,设置一个固定大小的滑动窗口,以一定的步长从左往右、从上向下滑动分割所述输入图像及其所对应的ground truth,将所述输入图像及其所对应的ground truth分别分割为多个不同的patch,并将多个不同的patch保存为HDF5格式。
在本发明实施例中,所述步长是在图像中抠去patch时,以正方形或长方形为中心,进行移动的距离。根据图像信息确定步长,要求训练集中的正样本多时,步长要短些,采集的图像会更密集;要求训练集中的负样本多时,步长要长些,采集的图像的信息量会更多样化。以交通场景中的道路为例,所述正样本是指属于道路类别的样本,所述负样本是指不属于道路类别的样本。
为了更好的理解本发明,以训练集为交通道路进行举例说明,ground truth是一张人工标定的正确道路的二值化图像,ground truth中像素属于道路区域,标记为1,不属于道路区域,标记为0;训练集包括输入图像及其所对应的ground truth。
在本发明实施例中,将训练集分割成大量的patch,极大的满足了训练深度神经网络系统需要大量样本的需求,也为少样本训练方法提供了大量的少样本训练集;同时,patch是将大分辨率的图像分割为小分辨率的图像,提高了深度神经网络系统的运算速度。
根据所述输入图像的patch的像素,在所述输入图像的patch所对应的所述groundtruth的patch上进行像素标记;
对所述输入图像的patch和所述ground truth的patch进行尺度归一化。
在发明实施例中,所述输入图像的patch和像素标记后的ground truth的patch进行尺度归一化,以提高深度学习网络的训练速度。
在步骤S502中,将所述多个不同的patch转换为包括多个不同尺度的图像的图像集;
在本发明实施例中,将包括多个不同尺度的图像的图像集保存为HDF5格式。
进一步的,所述将所述多个不同的patch转换为包括多个不同尺度的图像的图像集,具体包括:
将所述多个不同的patch通过拉普拉斯金字塔转换算法为包括多个不同尺度的图像的图像集,以交通道路为例,可根据道路的复杂情况进行尺度的增加,过于复杂的道路默认为4个尺度。
所述拉普拉斯金字塔转换算法具体包括:
对所述patch建立高斯金字塔,所述高斯金字塔是按照二次幂进行低通滤波作平滑处理,将低通滤波后的图像作带通滤波,生成多个尺度的图像。具体实现方法参见实施例一的描述,在此不再累述。
在步骤S503中,根据转换后的输入图像的patch的多个不同尺度的图像的像素,调整对应尺度的转换后的ground truth的patch的多个不同尺度的图像上的像素标记,其中,所述ground truth的patch是所述输入图像的patch对应的ground truth的patch;
在本发明实施例中,将输入图像的patch的多个不同尺度的图像和调整像素标记后的ground truth的patch的多个不同尺度的图像保存为HDF5格式。
在本发明实施例中,输入图像的patch在在尺度改变过程中可能会丢失像素,需要对尺度变换后的图像中的像素进行重新标定。
在步骤S504中,对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统;
在本发明实施例中,训练所述深度神经网络系统是用于确定所述深度神经网络系统的参数,所述深度神经网络系统可以为卷积神经网络和/或反卷积神经网络。
在步骤S505中,将待处理图像输入至所述深度神经网络系统,通过所述深度神经网络的层级学习后,在所述深度神经网络系统的最后一层全连接层采用pixel-wise对所述待处理图像中每一个像素进行预测,以确定所述像素的分类。
较佳的是,选用KITTI-ROAD中的数据集作为待处理图像的测试集。
在本发明实施例中,pixel-wise是对待处理图像中的每一个像素进行分类,以交通道路为例,所述像素属于道路区域,标记为1,所述像素不属于道路区域,标记为0,输出一个一维的与待处理图像像素相同的数组,将所述数组还原为与待处理图像大小相同的图像,还原后的图像即为从待输入图像中提取出正确道路区域。如图6a是在KITTI-ROAD、LabelMe与CamVid数据集中取复杂的交通场景(含有多条道路)分别采用原图、superpixel、patch、多尺度和patch+多尺度训练卷积神经网络后进行特征提取的精度比较,如图6b是在KITTI-ROAD、LabelMe与CamVid数据集中取复杂的交通场景(含有多条道路)分别采用原图、superpixel、patch、多尺度和patch+多尺度训练反卷积神经网络后进行特征提取的精度比较,可知,在KITTI-ROAD数据集中取复杂的交通场景并采用patch+多尺度的方法训练卷积神经网络和/或反卷积神经网络后提高了局部特征提取的精度。
通过本发明实施例训练深度神经网络系统,确定所述深度神经网络系统的参数,提高了深度学习训练中局部特征提取的精度。
实施例四:
图7示出了本发明实施例四提供的深度学习网络的训练装置的组成示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
分割模块71,用于将训练集中图像分割为多个不同的patch;
进一步的,所述分割模块71具体包括:
获取单元、设置单元、标记单元以及归一化单元;
所述获取单元,用于获取训练集,所述训练集包括待输入图像和所述输入图像对应的ground truth;
所述设置单元,用于设置一个固定大小的滑动窗口,以一定的步长滑动分割所述输入图像及其所对应的ground truth,将所述输入图像及其所对应的ground truth分别分割为多个不同的patch;
所述标记单元,用于根据所述输入图像的patch的像素,在所述输入图像的patch所对应的所述ground truth的patch上进行像素标记;
所述归一化单元,用于对所述输入图像的patch和所述ground truth的patch进行尺度归一化。
转换模块72,用于将所述多个不同的patch转换为包括多个不同尺度的图像的图像集;
进一步的,所述转换模块72具体用于:
将所述多个不同的patch通过拉普拉斯金字塔算法转换为包括多个不同尺度的图像的图像集。
处理模块73,用于对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统。
本发明实施例提供的深度学习网络的训练装置可以使用在前述对应的方法实施例一中,详情参见上述实施例一的描述,在此不再赘述。
通过本发明实施例训练深度神经网络系统,确定所述深度神经网络系统的参数,提高了深度学习训练中局部特征提取的精度。
实施例五:
图8示出了本发明实施例五提供的深度学习网络的训练装置的组成示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
分割模块81,用于将训练集中的图像分割为多个不同的patch;
进一步的,所述分割模块81具体包括:
获取单元、设置单元、标记单元以及归一化单元;
所述获取单元,用于获取训练集,所述训练集包括待输入图像和所述输入图像对应的ground truth;
所述设置单元,用于设置一个固定大小的滑动窗口,以一定的步长滑动分割所述输入图像及其所对应的ground truth,将所述输入图像及其所对应的ground truth分别分割为多个不同的patch;
所述标记单元,用于用于根据所述输入图像的patch的像素,在所述输入图像的patch所对应的所述ground truth的patch上进行像素标记;
所述归一化单元,用于对所述输入图像的patch和所述ground truth的patch进行尺度归一化。
转换模块82,用于将所述多个不同的patch转换为包括多个不同尺度的图像的图像集;
进一步的,所述转换模块82具体用于:
将所述多个不同的patch通过拉普拉斯金字塔算法转换为包括多个不同尺度的图像的图像集。
调整模块83,用于根据转换后的所述输入图像的patch的多个不同尺度的图像的像素,调整对应尺度的转换后的所述ground truth的patch的多个不同尺度的图像上的像素标记,其中,所述ground truth的patch是所述输入图像的patch对应的ground truth的patch。
处理模块84,用于对所述图像集进行尺度归一化,并将归一化后的图像集输入至神经网络系统,以训练所述神经网络系统。
本发明实施例提供的深度学习网络的训练装置可以使用在前述对应的方法实施例二中,详情参见上述实施例二的描述,在此不再赘述。
通过本发明实施例训练深度神经网络系统,确定所述深度神经网络系统的参数,提高了深度学习训练中局部特征提取的精度。
实施例六:
图9示出了本发明实施例五提供的深度学习网络的训练装置的组成示意图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
分割模块91,用于将训练集中的图像分割为多个不同的patch;
进一步的,所述分割模块91具体包括:
获取单元、设置单元、标记单元以及归一化单元;
所述获取单元,用于获取训练集,所述训练集包括待输入图像和所述输入图像对应的ground truth;
所述设置单元,用于设置一个固定大小的滑动窗口,以一定的步长滑动分割所述输入图像及其所对应的ground truth,将所述输入图像及其所对应的ground truth分别分割为多个不同的patch;
所述标记单元,用于根据所述输入图像的patch的像素,在所述输入图像的patch所对应的所述ground truth的patch上进行像素标记;
所述归一化单元,用于对所述输入图像的patch和所述ground truth的patch进行尺度归一化。
转换模块92,用于将所述不同的patch转换为包括多个不同尺度的图像的图像集;
进一步的,所述转换模块92具体用于:
将所述多个不同的patch通过拉普拉斯金字塔算法转换为包括多个不同尺度的图像的图像集。
调整模块93,用于根据转换后的所述输入图像的patch的多个不同尺度的图像的像素,调整对应尺度的转换后的所述ground truth的patch的多个不同尺度的图像上的像素标记,其中,所述ground truth的patch是所述输入图像的patch对应的ground truth的patch。
处理模块94,用于对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统;
确定模块95,用于将待处理图像输入至所述深度神经网络系统,通过所述深度神经网络的层级学习后,在所述深度神经网络系统的最后一层全连接层采用pixel-wise对所述待处理图像中每一个像素进行预测,以确定所述像素的分类。
本发明实施例提供的深度学习网络的训练装置可以使用在前述对应的方法实施例三中,详情参见上述实施例三的描述,在此不再赘述。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块、单元完成,即所述装置的内部结构划分成不同的功能模块或单元,上述功能模块或单元既可以采用硬件的形式实现,也可以采用软件的形式实现。另外,各功能模块或单元的具体名称也只是为了便于相互区别,并不用于限制本申请的保护范围。
综上所述,本发明实施例通过将训练集中的图像分割为多个不同的patch,将所述多个不同的patch转换为包括多个不同尺度的图像的图像集,根据转换后的输入图像的patch的多个不同尺度的图像的像素,调整对应尺度的转换后的ground truth的patch的多个不同尺度的图像上的像素标记,其中,所述ground truth的patch是所述输入图像的patch对应的ground truth的patch,对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统,确定所述深度神经网络系统的参数,将待处理图像输入至所述深度神经网络系统,通过所述深度神经网络的层级学习后,在所述深度神经网络系统的最后一层全连接层采用pixel-wise对所述待处理图像中每一个像素进行预测,以确定所述像素的分类,提高了深度学习训练中局部特征提取的精度。
本领域普通技术人员还可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,包括ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种深度学习网络的训练方法,其特征在于,所述方法包括:
将训练集中的图像分割为多个不同的patch,其中,所述patch是在训练集中的图像中抠出的任意大小的图像区域;
将所述多个不同的patch转换为包含多个不同尺度的图像的图像集;
对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统;
所述将训练集中的图像分割为多个不同的patch,具体包括:
获取训练集,所述训练集包括输入图像和所述输入图像对应的ground truth,其中,所述ground truth是一张人工标定像素标记的图像;
设置一个固定大小的滑动窗口,以一定的步长滑动分割所述输入图像及其所对应的ground truth,将所述输入图像及其所对应的ground truth分别分割为多个不同的patch,其中,根据图像的信息确定步长,要求所述训练集中正样本多时步长要短,要求所述训练集中负样本多时步长要长;
根据所述输入图像的patch的像素,在所述输入图像的patch所对应的所述groundtruth的patch上进行像素标记;
对所述输入图像的patch和所述ground truth的patch进行尺度归一化;
在训练好所述深度神经网络系统之后,还包括:
将待处理图像输入至所述深度神经网络系统,通过所述深度神经网络的层级学习后,在所述深度神经网络系统的最后一层全连接层采用pixel-wise对所述待处理图像中每一个像素进行预测,以确定所述像素的分类,其中,所述pixel-wise是指逐像素。
2.根据权利要求1所述的方法,其特征在于,在将所述多个不同的patch转换为包含多个不同尺度的图像的图像集之后,还包括:
根据转换后的所述输入图像的patch的多个不同尺度的图像的像素,调整对应尺度的转换后的所述ground truth的patch的多个不同尺度的图像上的像素标记,其中,所述ground truth的patch是所述输入图像的patch对应的ground truth的patch。
3.根据权利要求1所述的方法,其特征在于,所述将所述多个不同的patch转换为包含多个不同尺度的图像的图像集包括:
将所述多个不同的patch通过拉普拉斯金字塔算法转换为包含多个不同尺度的图像的图像集。
4.一种深度学习网络的训练装置,其特征在于,所述装置包括:
分割模块、转换模块以及处理模块;
所述分割模块,用于将训练集中的图像分割为多个不同的patch,其中,所述patch是在训练集中的图像中抠出的任意大小的图像区域;
所述转换模块,用于将所述多个不同的patch转换为包括多个不同尺度的图像的图像集;
所述处理模块,用于对所述图像集进行尺度归一化,并将归一化后的图像集输入至深度神经网络系统,以训练所述深度神经网络系统;
所述分割模块具体包括:
获取单元、设置单元、标记单元以及归一化单元;
所述获取单元,用于获取训练集,所述训练集包括输入图像和所述输入图像对应的ground truth,其中,所述ground truth是一张人工标定像素标记的图像;
所述设置单元,用于设置一个固定大小的滑动窗口,以一定的步长滑动分割所述输入图像及其所对应的ground truth,将所述输入图像及其所对应的ground truth分别分割为多个不同的patch,其中,根据图像的信息确定步长,要求所述训练集中正样本多时步长要短,要求所述训练集中负样本多时步长要长;
所述标记单元,用于根据所述输入图像的patch的像素,在所述输入图像的patch所对应的所述ground truth的patch上进行像素标记;
所述归一化单元,用于对所述输入图像的patch和所述ground truth的patch进行尺度归一化;
所述装置还包括:
确定模块,用于将待处理图像输入至所述深度神经网络系统,通过所述深度神经网络的层级学习后,在所述深度神经网络系统的最后一层全连接层采用pixel-wise对所述待处理图像中每一个像素进行预测,以确定所述像素的分类,其中,所述pixel-wise是指逐像素。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
调整模块,用于根据转换后的所述输入图像的patch的多个不同尺度的图像的像素,调整对应尺度的转换后的所述ground truth的patch的多个不同尺度的图像上的像素标记,其中,所述ground truth的patch是所述输入图像的patch对应的ground truth的patch。
6.根据权利要求4所述的装置,其特征在于,所述转换模块具体用于:
将所述多个不同的patch通过拉普拉斯金字塔算法转换为包括多个不同尺度的图像的图像集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510909587.2A CN105551036B (zh) | 2015-12-10 | 2015-12-10 | 一种深度学习网络的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510909587.2A CN105551036B (zh) | 2015-12-10 | 2015-12-10 | 一种深度学习网络的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105551036A CN105551036A (zh) | 2016-05-04 |
CN105551036B true CN105551036B (zh) | 2019-10-08 |
Family
ID=55830212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510909587.2A Active CN105551036B (zh) | 2015-12-10 | 2015-12-10 | 一种深度学习网络的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105551036B (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022527A (zh) * | 2016-05-27 | 2016-10-12 | 河南明晰信息科技有限公司 | 基于地图瓦片和lstm循环神经网络的轨迹预测方法和装置 |
CN106204677A (zh) * | 2016-07-14 | 2016-12-07 | 北京大学 | 一种提高动态对比增强磁共振图像时间分辨率的装置 |
CN107025369B (zh) * | 2016-08-03 | 2020-03-10 | 北京推想科技有限公司 | 一种对医疗图像进行转换学习的方法和装置 |
EP3306528B1 (en) * | 2016-10-04 | 2019-12-25 | Axis AB | Using image analysis algorithms for providing traning data to neural networks |
CN106529673B (zh) * | 2016-11-17 | 2019-05-03 | 北京百度网讯科技有限公司 | 基于人工智能的深度学习网络训练方法及装置 |
CN108427957B (zh) * | 2017-02-15 | 2021-12-21 | 中国科学院深圳先进技术研究院 | 图像分类方法及系统 |
CN106846278A (zh) * | 2017-02-17 | 2017-06-13 | 深圳市唯特视科技有限公司 | 一种基于深度卷积神经网络的图像像素标记方法 |
US10546242B2 (en) | 2017-03-03 | 2020-01-28 | General Electric Company | Image analysis neural network systems |
US10714783B2 (en) | 2017-05-09 | 2020-07-14 | Cummins Enterprise Llc | Integrated fuel cell systems |
CN107680088A (zh) * | 2017-09-30 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 用于分析医学影像的方法和装置 |
CN107908876A (zh) * | 2017-11-16 | 2018-04-13 | 宁波工程学院 | 基于多尺度卷积神经网络的混合动力车辆工况预测方法 |
CN107992821B (zh) * | 2017-11-30 | 2021-12-03 | 宁夏恒信荣网络科技有限公司 | 一种图像识别方法及系统 |
CN109993274B (zh) | 2017-12-29 | 2021-01-12 | 深圳云天励飞技术有限公司 | 人工智能计算装置及相关产品 |
CN108288496A (zh) * | 2018-01-26 | 2018-07-17 | 中国人民解放军总医院 | 肿瘤容积智能勾画方法和装置 |
CN108416774A (zh) * | 2018-03-08 | 2018-08-17 | 中山大学 | 一种基于细粒度神经网络的织物种类识别方法 |
CN108652586B (zh) * | 2018-03-14 | 2021-04-13 | 重庆金山医疗器械有限公司 | 一种胃食管反流自动检测系统 |
CN109118491A (zh) * | 2018-07-30 | 2019-01-01 | 深圳先进技术研究院 | 一种基于深度学习的图像分割方法、系统及电子设备 |
CN109284680B (zh) * | 2018-08-20 | 2022-02-08 | 北京粉笔蓝天科技有限公司 | 一种渐进式图像识别方法、装置、系统及存储介质 |
CN109448070B (zh) * | 2018-11-06 | 2020-10-09 | 明峰医疗系统股份有限公司 | 一种ct宽展视野的重建方法 |
CN110322659A (zh) * | 2019-06-21 | 2019-10-11 | 江西洪都航空工业集团有限责任公司 | 一种烟雾检测方法 |
CN110288586A (zh) * | 2019-06-28 | 2019-09-27 | 昆明能讯科技有限责任公司 | 一种基于可见光图像数据的多尺度输电线路缺陷检测方法 |
CN110987189B (zh) * | 2019-11-21 | 2021-11-02 | 北京都是科技有限公司 | 对目标对象进行温度检测的方法、系统以及装置 |
CN111046951A (zh) * | 2019-12-12 | 2020-04-21 | 安徽威奥曼机器人有限公司 | 一种医学影像分类方法 |
CN111428753B (zh) * | 2020-02-26 | 2024-01-09 | 北京国电通网络技术有限公司 | 一种训练集获取方法、电力设施检测方法及装置 |
CN111325281B (zh) * | 2020-03-05 | 2023-10-27 | 新希望六和股份有限公司 | 深度学习网络的训练方法、装置、计算机设备和存储介质 |
CN111815609B (zh) * | 2020-07-13 | 2024-03-01 | 北京小白世纪网络科技有限公司 | 基于情境感知及多模型融合的病理图像分类方法及系统 |
CN112712124B (zh) * | 2020-12-31 | 2021-12-10 | 山东奥邦交通设施工程有限公司 | 一种基于深度学习的多模块协同物体识别系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605972A (zh) * | 2013-12-10 | 2014-02-26 | 康江科技(北京)有限责任公司 | 一种基于分块深度神经网络的非限制环境人脸验证方法 |
CN103714340A (zh) * | 2014-01-09 | 2014-04-09 | 西安电子科技大学 | 基于图像分块的自适应特征提取方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100538723C (zh) * | 2007-10-26 | 2009-09-09 | 浙江工业大学 | 多视觉传感器信息融合的内河船舶自动识别系统 |
CN101673340A (zh) * | 2009-08-13 | 2010-03-17 | 重庆大学 | 综合多方向多尺度与bp神经网络的人耳识别方法 |
CN101866427A (zh) * | 2010-07-06 | 2010-10-20 | 西安电子科技大学 | 织物瑕疵检测与分类方法 |
CN104067314B (zh) * | 2014-05-23 | 2017-03-08 | 银河水滴科技(北京)有限公司 | 人形图像分割方法 |
CN104464727B (zh) * | 2014-12-11 | 2018-02-09 | 福州大学 | 一种基于深度信念网络的单通道音乐的歌声分离方法 |
CN104504055B (zh) * | 2014-12-19 | 2017-12-26 | 常州飞寻视讯信息科技有限公司 | 基于图像相似度的商品相似计算方法及商品推荐系统 |
CN104517103A (zh) * | 2014-12-26 | 2015-04-15 | 广州中国科学院先进技术研究所 | 一种基于深度神经网络的交通标志分类方法 |
CN104978580B (zh) * | 2015-06-15 | 2018-05-04 | 国网山东省电力公司电力科学研究院 | 一种用于无人机巡检输电线路的绝缘子识别方法 |
-
2015
- 2015-12-10 CN CN201510909587.2A patent/CN105551036B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605972A (zh) * | 2013-12-10 | 2014-02-26 | 康江科技(北京)有限责任公司 | 一种基于分块深度神经网络的非限制环境人脸验证方法 |
CN103714340A (zh) * | 2014-01-09 | 2014-04-09 | 西安电子科技大学 | 基于图像分块的自适应特征提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105551036A (zh) | 2016-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105551036B (zh) | 一种深度学习网络的训练方法和装置 | |
Gao et al. | Salient object detection in the distributed cloud-edge intelligent network | |
EP3961484B1 (en) | Medical image segmentation method and device, electronic device and storage medium | |
Shi et al. | Cloud detection of remote sensing images by deep learning | |
Fu et al. | Using convolutional neural network to identify irregular segmentation objects from very high-resolution remote sensing imagery | |
JP7026826B2 (ja) | 画像処理方法、電子機器および記憶媒体 | |
CN110570352B (zh) | 图像标注方法、装置、系统及细胞标注方法 | |
CN106778687A (zh) | 基于局部评估和全局优化的注视点检测方法 | |
CN108241854A (zh) | 一种基于运动和记忆信息的深度视频显著性检测方法 | |
Kang et al. | Identifying tree crown areas in undulating eucalyptus plantations using JSEG multi-scale segmentation and unmanned aerial vehicle near-infrared imagery | |
Mishra et al. | Medical image retrieval using self-organising map on texture features | |
Gao et al. | A novel face feature descriptor using adaptively weighted extended LBP pyramid | |
CN113096080A (zh) | 图像分析方法及系统 | |
Wetteland et al. | Parameterized extraction of tiles in multilevel gigapixel images | |
Wang et al. | A region-line primitive association framework for object-based remote sensing image analysis | |
CN111914796B (zh) | 基于深度图和骨骼点的人体行为识别方法 | |
Feng et al. | Superpixel-based convolutional neural network for georeferencing the drone images | |
Mujtaba et al. | Automatic solar panel detection from high-resolution orthoimagery using deep learning segmentation networks | |
Yuan et al. | Embedding scale: new thinking of scale in machine learning and geographic representation | |
Cong et al. | Salient man-made object detection based on saliency potential energy for unmanned aerial vehicles remote sensing image | |
Pokharel et al. | A Comparative Study of State-of-the-Art Deep Learning Models for Semantic Segmentation of Pores in Scanning Electron Microscope Images of Activated Carbon. | |
Li et al. | Object extraction from image with big size based on bilateral grid | |
CN115984583B (zh) | 数据处理方法、装置、计算机设备、存储介质和程序产品 | |
Gupta et al. | Road Extraction from Medium Resolution Satellite Images using Deep Learning Techniques | |
Rodrigues et al. | A cortical framework for scene categorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |