CN106952220A - 一种基于深度学习的全景图像融合方法 - Google Patents
一种基于深度学习的全景图像融合方法 Download PDFInfo
- Publication number
- CN106952220A CN106952220A CN201710150818.5A CN201710150818A CN106952220A CN 106952220 A CN106952220 A CN 106952220A CN 201710150818 A CN201710150818 A CN 201710150818A CN 106952220 A CN106952220 A CN 106952220A
- Authority
- CN
- China
- Prior art keywords
- layer
- convolution
- output
- layers
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 26
- 230000010354 integration Effects 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 23
- 241000251468 Actinopterygii Species 0.000 claims description 19
- 238000000034 method Methods 0.000 claims description 18
- 230000035945 sensitivity Effects 0.000 claims description 18
- 210000002569 neuron Anatomy 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 241001269238 Data Species 0.000 claims description 4
- 230000007935 neutral effect Effects 0.000 claims description 4
- 230000000644 propagated effect Effects 0.000 claims description 4
- 101100379079 Emericella variicolor andA gene Proteins 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 239000012141 concentrate Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000001537 neural effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000010008 shearing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/14—Transformations for image registration, e.g. adjusting or mapping for alignment of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于深度学习的全景图像融合方法,涉及图像拼接技术领域,包括如下步骤:S1:构建深度学习训练数据集;S2:构建卷积神经网络模型;包括S201、S202、S203;S201:构建一个深度卷积神经网络模型;S202:设置卷积采样层参数;S203:利用训练数据集训练深度卷积神经网络;S3:基于测试数据集和训练好的深度卷积神经网络模型,得到测试数据集的融合区域;本发明无需手工特征选取,能够更加全面深层地表达图像,实现多个抽象层次上的图像语义表征,提高了图像融合的精度。
Description
技术领域
本发明属于图像通信技术领域,涉及图像拼接技术领域,尤其涉及一种基于深度学习的全景图像融合方法。
背景技术
图像拼接技术就是将数张有部分重叠的图像拼接成一幅大型的无缝高分辨率图像的技术。使用普通相机获取宽视野的场景图像,因为相机的分辨率一定,拍摄的场景越大,得到的图像分辨率越低;而全景相机、广角镜头等不仅非常昂贵,且失真严重。为了在不降低图像分辨率的条件下获取超宽视野,甚至360度的全景图,出现了利用计算机进行图像拼接方法。
图像拼接是图像处理中的关键技术之一,是其他一些图像处理,如全景视频、智能视频监控、视频压缩和传输、虚拟现实技术、医学图像分析以及超分辨率重构等的基础,如何实现高速度高质量的图像拼接,对于整个系统而言都是至关重要的。
图像拼接技术中两个至关重要的步骤就是图像配准和图像融合。目前常用的图像融合方法有两大类,一类是采用采用直接融合的方法(例如:平均值法、加权平均法、中值滤波法),会导致生成的全景图像因为重叠区域的细节差异而出现明显的拼接缝;另一类是采用动态规划和graph-cut的方法来查找最优融合中心线,具体来说就是利用两幅图像重叠区域内像素之间的灰度差异和颜色差异,在重叠区域中找到一条灰度和颜色差异最小的线,然后在这条最优融合中心线左右两侧选取一个缝合宽度进行线性融合,它会导致图像融合区域中运动物体的剪切以及拼接模糊等;因此本领域迫切需要一种能克服上述缺陷的全景图像拼接方法。
发明内容
本发明为克服运动物体的剪切以及拼接模糊的问题,旨在提供一种基于深度学习的全景图像融合方法,包括如下步骤:
S1:构建深度学习训练数据集;选取作为训练使用的两幅待融合鱼眼图像的重叠区域xe1和xe2以及由这两幅鱼眼图像融合之后形成的全景图像的理想融合区域ye,构建待融合图像与全景图像块对的训练数据集{xe1,xe2,ye};
S2:构建卷积神经网络模型;包括S201、S202、S203;S201:构建一个深度卷积神经网络模型;S202:设置卷积采样层参数;S203:利用训练数据集训练深度卷积神经网络;
S3:基于测试数据集和训练好的深度卷积神经网络模型,得到测试数据集的融合区域;
所述S1包括S101、S102、S103、S104;
S101:生成图像金字塔;
对给定的两幅待融合鱼眼图像以及全景图像进行高斯函数平滑、下采样操作生成一系列具有不同分辨率的图像集合,即图像金字塔;获取层级为Gn+1层的高斯金字塔图像的具体实现如下:
第一步:对输入图像I进行高斯内核卷积,本实施例中采用的是长度为5的高斯卷积核;
第二步:将第一步得到的图像中所有偶数行和列去除,得到的图像即为Gn+1层的图像,计算公式如下:
其中,w(m,n)=w(m)*w(n),并且a是常量;
第三步:通过对输入图像Gn层,即原始图像,不停迭代以上两个步骤就会得到整个高斯金字塔图像;
S102:生成训练数据集的输入数据;
从两幅待融合鱼眼图像中生成的两个图像金字塔的每一层提取重叠区域其中l表示金字塔的第l层,将这两个图像金字塔中第l层的重叠区域像素值进行线性加权平均组合,得到初始融合区域并将这个区域内的像素进行最大最小归一化处理,使每一个像素取值范围在[0,1]之间,将这两个图像金字塔中所有层的初始融合区域级联起来形成训练样本其中c表示金字塔的层数;
S103:生成训练数据集的理想输出;从全景图像中生成的图像金字塔的每一层提取理想融合区域并将这个区域内的像素进行最大最小归一化处理,使每一个像素取值范围在[0,1]之间,将该金子塔中所有层的融合区域串联起来得到训练样本
S104:获取训练数据集;从初始融合区域xe和理想融合区域ye中分别抽取像素大小一直的多分辨融合块其中i=1,2,…,N,得到N对像素位置一致的多分辨融合块对的训练数据集合
进一步的,所述S201具体为:构建一个深度卷积神经网络模型:以步骤S1生成的训练数据集中的客观评价参数X为输入,构建一个卷积神经网络模型,该卷积神经网络采用5层的神经网络,分别是输入层,第一卷积采样层,第二卷积采样层,全链接层,输出层,其中,在第一卷积采样层首先将输入与该层设定的不同卷积核和可加偏置进行卷积,卷积后产生若干个特征,然后对特征按照设定的池化尺度大小进行特征值求和,加权值,加偏置,最后通过一个Sigmoid函数得到该层的输出,第二卷积采样层进行与第一卷积采样层相同的操作,区别在于两层所使用到的卷积核、池化尺度大小以及偏置不同,两次卷积采样层的输出是特征映射图,全链接层将第二卷积采样层的特征正向传播输出特征向量,同时也可以进行反向传播操作,在输出层中将输入的特征向量按输出标签的大小指定输出。
进一步的,所述S202具体为:在一个卷积层l,输入层的输入或者是上一层的第i个特征被一个可学习的卷积核进行卷积,然后通过一个激活函数,就可以得到输出的第j个特征每一个输出可能是组合卷积多个输入的值,具体计算方法如下:
其中,i,j分别表示上一层和当前层上特征映射编号,Mj表示选取的输入特征集合的一个子集,表示第l层的第j个特征与第l-1层的第i个特征之间相关的卷积核,表示第l层的第j个特征对应的附加的偏置,*表示卷积操作,激活函数f(.)采用sigmoid函数将输出压缩到[0,1];
卷积之后会紧跟着一个子采样,对于子采样来说,有N个输入特征,就有N个输出特征,只是每个输出特征在大小上变小了,计算公式如下:
其中,down(.)表示一个下采样函数,优选Max-Pooling池化模式,池化核大小为2*2,步长为2。
进一步的,所述S203的训练方法可以分为如下两个阶段:
第一阶段:前向传播阶段
对给定的训练数据集将所有的训练数据集中的输入到深度卷积神经网络的输入层,经过逐层的变换(第一卷积采样层,第二卷积采样层,全链接层1,全链接层2),传送到输出层,计算出与所有相对应的实际输出计算实际输出与理想输出之间的误差,这里采用平方误差代价函数,第n个训练数据的误差表示为:
其中,K表示输出数据的维数,表示第n个训练数据对应的理想输出数据的第k维,表示第n个训练数据对应的网络输出的第k个输出;
第二阶段:后向传播阶段
后向传播阶段是按照上述计算前向平方误差方法反向传播调整网络每一层的权重矩阵;反向传播回来的误差可以看做是每个神经元的偏置的灵敏度δ,卷积层逆向误差传播公式为:
其中,°表示每个元素相乘,l表示层数,m,n分别表示上一层和当前层上特征的映射编号,表示第l层上的第n个神经节点的灵敏度,表示下采样层的权值,为可训练的常数,up()表示上采样操作,’表示转置,和表示第l层第n个特征对应的权值和偏置,表示第l-1层的第n个特征;池化层的逆向误差传播公式计算如下:
其中,M表示输入特征的集合,表示l+1层的第n个特征与第l层的第m个特征之间相关的卷积核,表示第l+1层的第n个神经节点的灵敏度,表示第l层的第m个神经节点的灵敏度;
最后,对每个神经元运用δ规则进行权值更新;即对一个给定的神经元,得到它的输入,然后用这个神经元的δ来进行缩放;用向量的形式表述就是,对于第l层,误差对于该层每一个权值(组合为矩阵)的导数是该层的输入(等于上一层的输出)与该层的灵敏度(该层每个神经元的δ组合成一个向量的形式)的叉乘;计算偏置和卷积核的偏导数公式如下:
其中,E表示误差代价函数,为计算卷积时的每一个小区域(patch),
u、v分别表示灵敏度矩阵中的元素位置;利用上述卷积核和偏置的偏导,更新卷积核和偏置。
本发明首先对输入的两幅待融合的鱼眼图像进行预处理,即采用高斯函数平滑待融合的鱼眼图像,进行下采样得到图像金字塔表示的待融合鱼眼图像,图像金子塔即原始图像的多尺度表示,可以充分描述原始图像的结构与信息;然后利用深度学习方法自动实现两幅待融合图像特征的自动选择,无需手工特征选取,能够更加全面,深层地表达图像,实现多个抽象层次上的图像语义表征,提高了图像融合的精度。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中一种基于深度学习的全景图像融合方法流程图;
图2是本发明实施例中构建深度学习训练数据集的流程图;
图3是本发明实施例中深度卷积神经网络计算流程图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一种基于深度学习的全景图像融合方法具体包括如下步骤:
S1:构建深度学习训练数据集。
选取作为训练使用的两幅待融合鱼眼图像的重叠区域xe1和xe2以及由这两幅鱼眼图像融合之后形成的全景图像的理想融合区域ye,构建待融合图像与全景图像块对的训练数据集{xe1,xe2,ye},如图2所示,具体过程为:
S101:生成图像金字塔。
对给定的两幅待融合鱼眼图像以及全景图像进行高斯函数平滑、下采样操作生成一系列具有不同分辨率的图像集合,即图像金字塔。获取层级为Gn+1层的高斯金字塔图像的具体实现如下:
第一步:对输入图像I进行高斯内核卷积,本实施例中采用的是长度为5的高斯卷积核;
第二步:将第一步得到的图像中所有偶数行和列去除,得到的图像即为Gn+1层的图像,计算公式如下:
其中,w(m,n)=w(m)*w(n),并且a是常量。
第三步:通过对输入图像Gn层,即原始图像,不停迭代以上两个步骤就会得到整个高斯金字塔图像。采用高斯金字塔图像进行图像融合可以实现图像的无缝拼接。
S102:生成训练数据集的输入数据。
从两幅待融合鱼眼图像中生成的两个图像金字塔的每一层提取重叠区域其中l表示金字塔的第l层,将这两个图像金字塔中第l层的重叠区域像素值进行线性加权平均组合,得到初始融合区域并将这个区域内的像素进行最大最小归一化处理,使每一个像素取值范围在[0,1]之间,将这两个图像金字塔中所有层的初始融合区域级联起来形成训练样本其中c表示金字塔的层数。
S103:生成训练数据集的理想输出。
从全景图像中生成的图像金字塔的每一层提取理想融合区域并将这个区域内的像素进行最大最小归一化处理,使每一个像素取值范围在[0,1]之间,将该金子塔中所有层的融合区域串联起来得到训练样本
S104:获取训练数据集。
从初始融合区域xe和理想融合区域ye中分别抽取像素大小一直的多分辨融合块其中i=1,2,…,N,得到N对像素位置一致的多分辨融合块对的训练数据集合
S2:构建卷积神经网络模型。
在本发明实施例中,采用的是非全连接的深层神经网络模型,且同一层中某些神经元之间的连接权重是共享的,这种非全连接和权重共享的网络结构使该模型更类似于生物神经网络,降低了网络模型的复杂度,减少了权重的数量。
如图3所示,深度卷积神经网络模型的训练包括如下步骤:
S201:构建一个深度卷积神经网络模型。
以步骤S1生成的训练数据集中的初始融合块为输入,构建一个深度卷积神经网络模型,该深度卷积神经网络采用5层的神经网络,分别是输入层,第一卷积采样层,第二卷积采样层,全链接层,输出层,其中,在第一卷积采样层首先将输入与该层设定的不同卷积核和可加偏置进行卷积,卷积后产生若干个特征,然后对特征按照设定的池化尺度大小进行特征值求和,加权值,加偏置,最后通过一个Sigmoid函数得到该层的输出,第二卷积采样层进行与第一卷积采样层相同的操作,区别在于两层所使用到的卷积核、池化尺度大小以及偏置不同,两次卷积采样层的输出是特征映射图,全链接层将卷积采样层的特征正向传播输出特征向量,同时也可以进行反向传播操作,在输出层中将输入的特征向量按输出标签的大小指定输出。
以上仅给出深度卷积神经网络模型的一个示例,实际上深度卷积神经网络模型的构建方式可以根据应用目的进行经验设置,包括卷积池化层数、全链接层数、卷积核的数量与大小以及池化尺度等参数可以根据应用目的进行设置。
以上仅给出深度卷积神经网络模型的一个示例,实际上深度卷积神经网络模型的构建方式可以根据应用目的进行经验设置,包括卷积池化层数、全链接层数、卷积核的数量与大小以及池化尺度等参数可以根据应用目的进行设置。
S202:设置卷积采样层参数。
在一个卷积层l,输入层的输入或者是上一层的第i个特征被一个可学习的卷积核进行卷积,然后通过一个激活函数,就可以得到输出的第j个特征每一个输出可能是组合卷积多个输入的值,具体计算方法如下:
其中,i,j分别表示上一层和当前层上特征映射编号,Mj表示选取的输入特征集合的一个子集,表示第l层的第j个特征与第l-1层的第i个特征之间相关的卷积核,表示第l层的第j个特征对应的附加的偏置,*表示卷积操作,激活函数f(.)采用sigmoid函数将输出压缩到[0,1]。
卷积之后会紧跟着一个子采样,对于子采样来说,有N个输入特征,就有N个输出特征,只是每个输出特征在大小上变小了,计算公式如下:
其中,down(.)表示一个下采样函数,优选Max-Pooling池化模式,池化核大小为2*2,步长为2。
深度卷积神经网络中的每一个特征提取层(子采样层)都紧跟着一个用来求局部平均与二次提取的计算层(卷积层),这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。
S203:利用训练数据集训练深度卷积神经网络。
深度卷积神经网络在本质上是一种输入到输出的映射,他能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确数学表达式,只要用已知的模式对深度卷积神经网络进行训练,网络就具有输入到输出对之间的映射能力。在开始训练前,所有的权重都应该进行随机初始化。
深度卷积神经网络的训练方法可以分为如下两个阶段:
第一阶段:前向传播阶段
对给定的训练数据集将所有的训练数据集中的输入到深度卷积神经网络的输入层,经过逐层的变换(卷积采样层1,卷积采样层2,全链接层1,全链接层2),传送到输出层,计算出与所有相对应的实际输出。计算实际输出与理想输出之间的误差,这里采用平方误差代价函数,第n个训练数据的误差表示为:
其中,K表示输出数据的维数,表示第n个训练数据对应的理想输出数据的第k维,表示第n个训练数据对应的网络输出的第k个输出。
第二阶段:后向传播阶段
后向传播阶段是按照上述计算前向平方误差方法反向传播调整网络每一层的权重矩阵。反向传播回来的误差可以看做是每个神经元的偏置的灵敏度δ,卷积层逆向误差传播公式为:
其中,°表示每个元素相乘,l表示层数,m,n分别表示上一层和当前层上特征的映射编号,表示第l层上的第n个神经节点的灵敏度,表示下采样层的权值,为可训练的常数,up()表示上采样操作,’表示转置,和表示第l层第n个特征对应的权值和偏置,表示第l-1层的第n个特征。池化层的逆向误差传播公式计算如下:
其中,M表示输入特征的集合,表示l+1层的第n个特征与第l层的第m个特征之间相关的卷积核,表示第l+1层的第n个神经节点的灵敏度,表示第l层的第m个神经节点的灵敏度。
最后,对每个神经元运用δ规则进行权值更新。即对一个给定的神经元,得到它的输入,然后用这个神经元的δ来进行缩放。用向量的形式表述就是,对于第l层,误差对于该层每一个权值(组合为矩阵)的导数是该层的输入(等于上一层的输出)与该层的灵敏度(该层每个神经元的δ组合成一个向量的形式)的叉乘。计算偏置和卷积核的偏导数公式如下:
其中,E表示误差代价函数,为计算卷积时的每一个小区域(patch),u,v分别表示灵敏度矩阵中的元素位置。利用上述卷积核和偏置的偏导,更新卷积核和偏置。
利用步骤S1获取的训练数据集,采用Hinge损失函数和随机梯度下降方法对深度卷积神经网络进行训练,当整个深度卷积神经网络的损失函数趋于局部最优解附近时,完成训练;其中局部最优解事先由人工设定。
S3:基于测试数据集和训练好的深度卷积神经网络模型,得到测试数据集的融合区域。
测试样本图像同样包括两幅待融合的鱼眼图像,按照步骤S1中获得训练数据集的方法进行图像预处理,得到测试数据集将该测试数据集作为步骤S2训练好的深度卷积神经网络的输入,经过该深度神经网络后输出对应初始融合块的目标融合块;输出的目标融合块是一个图像金字塔结构,将金字塔每一层图像从顶层开始上采样到它下一层图像的大小,然后与他下一层图像进行平均聚合,依次循环处理金字塔的每一层,直到到达最底层,结束循环,得到最终的全景图像的融合区域。
由此可见,利用深度学习方法自动实现待融合鱼眼图像特征的自动选取,无需手工特征选择,省时省力;能够更加全面,深层地表达图像,实现多个抽象层次上的图像语义表征,提高了图像融合的精度。
本发明的一种基于深度学习的全景图像融合方法,首先对输入的两幅待融合的鱼眼图像进行预处理,即采用高斯函数平滑待融合的鱼眼图像,进行下采样得到图像金字塔表示的待融合鱼眼图像,图像金子塔即原始图像的多尺度表示,可以充分描述原始图像的结构与信息;然后利用深度学习方法自动实现两幅待融合图像特征的自动选择,无需手工特征选取,能够更加全面,深层地表达图像,实现多个抽象层次上的图像语义表征,提高了图像融合的精度。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (4)
1.一种基于深度学习的全景图像融合方法,其特征在于,包括如下步骤:
S1:构建深度学习训练数据集;选取作为训练使用的两幅待融合鱼眼图像的重叠区域xe1和xe2以及由这两幅鱼眼图像融合之后形成的全景图像的理想融合区域ye,构建待融合图像与全景图像块对的训练数据集{xe1,xe2,ye};
S2:构建卷积神经网络模型;包括S201、S202、S203;S201:构建一个深度卷积神经网络模型;S202:设置卷积采样层参数;S203:利用训练数据集训练深度卷积神经网络;
S3:基于测试数据集和训练好的深度卷积神经网络模型,得到测试数据集的融合区域;
所述S1包括S101、S102、S103、S104;
S101:生成图像金字塔;
对给定的两幅待融合鱼眼图像以及全景图像进行高斯函数平滑、下采样操作生成一系列具有不同分辨率的图像集合,即图像金字塔;获取层级为Gn+1层的高斯金字塔图像的具体实现如下:
第一步:对输入图像I进行高斯内核卷积,本实施例中采用的是长度为5的高斯卷积核;
第二步:将第一步得到的图像中所有偶数行和列去除,得到的图像即为Gn+1层的图像,计算公式如下:
其中,w(m,n)=w(m)*w(n),并且a是常量;
第三步:通过对输入图像Gn层,即原始图像,不停迭代以上两个步骤就会得到整个高斯金字塔图像;
S102:生成训练数据集的输入数据;
从两幅待融合鱼眼图像中生成的两个图像金字塔的每一层提取重叠区域其中l表示金字塔的第l层,将这两个图像金字塔中第I层的重叠区域像素值进行线性加权平均组合,得到初始融合区域并将这个区域内的像素进行最大最小归一化处理,使每一个像素取值范围在[0,1]之间,将这两个图像金字塔中所有层的初始融合区域级联起来形成训练样本其中c表示金字塔的层数;
S103:生成训练数据集的理想输出;从全景图像中生成的图像金字塔的每一层提取理想融合区域并将这个区域内的像素进行最大最小归一化处理,使每一个像素取值范围在[0,1]之间,将该金子塔中所有层的融合区域串联起来得到训练样本
S104:获取训练数据集;从初始融合区域xe和理想融合区域ye中分别抽取像素大小一直的多分辨融合块其中i=1,2,…,N,得到N对像素位置一致的多分辨融合块对的训练数据集合
2.根据权利要求1所述的基于深度学习的全景图像融合方法,其特征在于,所述S201具体为:构建一个深度卷积神经网络模型:以步骤S1生成的训练数据集中的客观评价参数X为输入,构建一个卷积神经网络模型,该卷积神经网络采用5层的神经网络,分别是输入层,第一卷积采样层,第二卷积采样层,全链接层,输出层,其中,在第一卷积采样层首先将输入与该层设定的不同卷积核和可加偏置进行卷积,卷积后产生若干个特征,然后对特征按照设定的池化尺度大小进行特征值求和,加权值,加偏置,最后通过一个Sigmoid函数得到该层的输出,第二卷积采样层进行与第一卷积采样层相同的操作,区别在于两层所使用到的卷积核、池化尺度大小以及偏置不同,两次卷积采样层的输出是特征映射图,全链接层将第二卷积采样层的特征正向传播输出特征向量,同时也可以进行反向传播操作,在输出层中将输入的特征向量按输出标签的大小指定输出。
3.根据权利要求1所述的基于深度学习的全景图像融合方法,其特征在于,所述S202具体为:在一个卷积层I,输入层的输入或者是上一层的第i个特征被一个可学习的卷积核进行卷积,然后通过一个激活函数,就可以得到输出的第j个特征每一个输出可能是组合卷积多个输入的值,具体计算方法如下:
其中,i,j分别表示上一层和当前层上特征映射编号,Mj表示选取的输入特征集合的一个子集,表示第l层的第j个特征与第l-1层的第i个特征之间相关的卷积核,表示第l层的第j个特征对应的附加的偏置,*表示卷积操作,激活函数f(.)采用sigmoid函数将输出压缩到[0,1];
卷积之后会紧跟着一个子采样,对于子采样来说,有N个输入特征,就有N个输出特征,只是每个输出特征在大小上变小了,计算公式如下:
其中,down(.)表示一个下采样函数,优选Max-Pooling池化模式,池化核大小为2*2,步长为2。
4.根据权利要求1所述的基于深度学习的全景图像融合方法,其特征在于,所述S203的训练方法可以分为如下两个阶段:
第一阶段:前向传播阶段
对给定的训练数据集将所有的训练数据集中的输入到深度卷积神经网络的输入层,经过逐层的变换(第一卷积采样层,第二卷积采样层,全链接层1,全链接层2),传送到输出层,计算出与所有相对应的实际输出计算实际输出与理想输出之间的误差,这里采用平方误差代价函数,第n个训练数据的误差表示为:
其中,K表示输出数据的维数,表示第n个训练数据对应的理想输出数据的第k维,表示第n个训练数据对应的网络输出的第k个输出;
第二阶段:后向传播阶段
后向传播阶段是按照上述计算前向平方误差方法反向传播调整网络每一层的权重矩阵;反向传播回来的误差可以看做是每个神经元的偏置的灵敏度δ,卷积层逆向误差传播公式为:
其中,°表示每个元素相乘,l表示层数,m,n分别表示上一层和当前层上特征的映射编号,表示第l层上的第n个神经节点的灵敏度,表示下采样层的权值,为可训练的常数,up()表示上采样操作,’表示转置,和表示第l层第n个特征对应的权值和偏置,表示第l-1层的第n个特征;池化层的逆向误差传播公式计算如下:
其中,M表示输入特征的集合,表示l+1层的第n个特征与第l层的第m个特征之间相关的卷积核,表示第l+1层的第n个神经节点的灵敏度,表示第l层的第m个神经节点的灵敏度;
最后,对每个神经元运用δ规则进行权值更新;即对一个给定的神经元,得到它的输入,然后用这个神经元的δ来进行缩放;用向量的形式表述就是,对于第l层,误差对于该层每一个权值(组合为矩阵)的导数是该层的输入(等于上一层的输出)与该层的灵敏度(该层每个神经元的δ组合成一个向量的形式)的叉乘;计算偏置和卷积核的偏导数公式如下:
其中,E表示误差代价函数,为计算卷积时的每一个小区域(patch),
u、v分别表示灵敏度矩阵中的元素位置;利用上述卷积核和偏置的偏导,更新卷积核和偏置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710150818.5A CN106952220A (zh) | 2017-03-14 | 2017-03-14 | 一种基于深度学习的全景图像融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710150818.5A CN106952220A (zh) | 2017-03-14 | 2017-03-14 | 一种基于深度学习的全景图像融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106952220A true CN106952220A (zh) | 2017-07-14 |
Family
ID=59467387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710150818.5A Pending CN106952220A (zh) | 2017-03-14 | 2017-03-14 | 一种基于深度学习的全景图像融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106952220A (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107705560A (zh) * | 2017-10-30 | 2018-02-16 | 福州大学 | 一种融合视觉特征和卷积神经网络的道路拥堵检测方法 |
CN107871124A (zh) * | 2017-11-15 | 2018-04-03 | 陕西师范大学 | 一种基于深度神经网络的遥感图像目标检测方法 |
CN108846822A (zh) * | 2018-06-01 | 2018-11-20 | 桂林电子科技大学 | 基于混合神经网络的可见光图像和红外光图像的融合方法 |
CN108985295A (zh) * | 2018-07-25 | 2018-12-11 | 南京烽火星空通信发展有限公司 | 一种基于深度学习的车标图像检测方法 |
CN109003239A (zh) * | 2018-07-04 | 2018-12-14 | 华南理工大学 | 一种基于迁移学习神经网络的多光谱图像锐化方法 |
CN109272442A (zh) * | 2018-09-27 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 全景球面图像的处理方法、装置、设备和存储介质 |
CN109543697A (zh) * | 2018-11-16 | 2019-03-29 | 西北工业大学 | 一种基于深度学习的rgbd图像目标识别方法 |
CN109670512A (zh) * | 2017-10-16 | 2019-04-23 | 斯特拉德视觉公司 | 使用多尺度特征图调整cnn参数的学习方法和学习装置及使用其的测试方法和测试装置 |
CN110222755A (zh) * | 2019-05-30 | 2019-09-10 | 国网山东省电力公司枣庄供电公司 | 基于特征融合的深度学习场景识别方法 |
CN110378424A (zh) * | 2019-07-23 | 2019-10-25 | 国网河北省电力有限公司电力科学研究院 | 基于卷积神经网络的变压器套管故障红外图像识别方法 |
CN110517329A (zh) * | 2019-08-12 | 2019-11-29 | 北京邮电大学 | 一种基于语义分析的深度学习图像压缩方法 |
CN111047513A (zh) * | 2019-11-27 | 2020-04-21 | 中国人民解放军国防科技大学 | 一种用于柱面全景拼接的鲁棒性图像对齐方法及装置 |
TWI693555B (zh) * | 2018-12-17 | 2020-05-11 | 台達電子工業股份有限公司 | 基於上採樣的影像定位系統及其方法 |
CN111241338A (zh) * | 2020-01-08 | 2020-06-05 | 成都三零凯天通信实业有限公司 | 一种基于注意力机制的深度特征融合视频拷贝检测方法 |
CN111259685A (zh) * | 2018-11-30 | 2020-06-09 | 上海耕岩智能科技有限公司 | 一种指纹重建方法及存储介质 |
CN111259692A (zh) * | 2018-11-30 | 2020-06-09 | 上海耕岩智能科技有限公司 | 一种生物特征分析方法、存储介质及神经网络 |
CN111340879A (zh) * | 2018-12-17 | 2020-06-26 | 台达电子工业股份有限公司 | 基于上采样的影像定位系统及其方法 |
CN109410158B (zh) * | 2018-08-21 | 2020-10-02 | 西安电子科技大学 | 一种基于卷积神经网络的多焦点图像融合方法 |
CN112733589A (zh) * | 2020-10-29 | 2021-04-30 | 广西科技大学 | 一种基于深度学习的红外图像行人检测方法 |
WO2021098567A1 (zh) * | 2019-11-19 | 2021-05-27 | 贝壳找房(北京)科技有限公司 | 生成带深度信息的全景图的方法、装置及存储介质 |
CN113269676A (zh) * | 2021-05-19 | 2021-08-17 | 北京航空航天大学 | 一种全景图像处理方法和装置 |
CN113283429A (zh) * | 2021-07-21 | 2021-08-20 | 四川泓宝润业工程技术有限公司 | 基于深度卷积神经网络的液位式表计读数方法 |
CN113421269A (zh) * | 2021-06-09 | 2021-09-21 | 南京瑞易智能科技有限公司 | 一种基于双分支深度卷积神经网络的实时语义分割方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101673395A (zh) * | 2008-09-10 | 2010-03-17 | 深圳华为通信技术有限公司 | 图像拼接方法及装置 |
CN103020933A (zh) * | 2012-12-06 | 2013-04-03 | 天津师范大学 | 一种基于仿生视觉机理的多源图像融合方法 |
CN103186895A (zh) * | 2013-04-15 | 2013-07-03 | 武汉大学 | 一种基于神经网络模型的ct灌注医疗图像智能融合方法 |
CN103971329A (zh) * | 2014-05-26 | 2014-08-06 | 电子科技大学 | 一种基于遗传优化细胞神经网络的多源图像融合方法 |
CN104392463A (zh) * | 2014-12-16 | 2015-03-04 | 西安电子科技大学 | 一种基于联合稀疏多尺度融合的图像显著区域检测方法 |
CN104851099A (zh) * | 2015-05-21 | 2015-08-19 | 周口师范学院 | 一种基于表示学习的图像融合方法 |
CN105139371A (zh) * | 2015-09-07 | 2015-12-09 | 云南大学 | 一种基于pcnn与lp变换的多聚焦图像融合方法 |
CN105678729A (zh) * | 2016-02-24 | 2016-06-15 | 段梦凡 | 鱼眼镜头全景图像拼接方法 |
US9449395B2 (en) * | 2014-09-15 | 2016-09-20 | Winbond Electronics Corp. | Methods and systems for image matting and foreground estimation based on hierarchical graphs |
CN105956597A (zh) * | 2016-05-04 | 2016-09-21 | 浙江大学 | 一种基于卷积神经网络的双目立体匹配方法 |
CN106295714A (zh) * | 2016-08-22 | 2017-01-04 | 中国科学院电子学研究所 | 一种基于深度学习的多源遥感图像融合方法 |
-
2017
- 2017-03-14 CN CN201710150818.5A patent/CN106952220A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101673395A (zh) * | 2008-09-10 | 2010-03-17 | 深圳华为通信技术有限公司 | 图像拼接方法及装置 |
CN103020933A (zh) * | 2012-12-06 | 2013-04-03 | 天津师范大学 | 一种基于仿生视觉机理的多源图像融合方法 |
CN103186895A (zh) * | 2013-04-15 | 2013-07-03 | 武汉大学 | 一种基于神经网络模型的ct灌注医疗图像智能融合方法 |
CN103971329A (zh) * | 2014-05-26 | 2014-08-06 | 电子科技大学 | 一种基于遗传优化细胞神经网络的多源图像融合方法 |
US9449395B2 (en) * | 2014-09-15 | 2016-09-20 | Winbond Electronics Corp. | Methods and systems for image matting and foreground estimation based on hierarchical graphs |
CN104392463A (zh) * | 2014-12-16 | 2015-03-04 | 西安电子科技大学 | 一种基于联合稀疏多尺度融合的图像显著区域检测方法 |
CN104851099A (zh) * | 2015-05-21 | 2015-08-19 | 周口师范学院 | 一种基于表示学习的图像融合方法 |
CN105139371A (zh) * | 2015-09-07 | 2015-12-09 | 云南大学 | 一种基于pcnn与lp变换的多聚焦图像融合方法 |
CN105678729A (zh) * | 2016-02-24 | 2016-06-15 | 段梦凡 | 鱼眼镜头全景图像拼接方法 |
CN105956597A (zh) * | 2016-05-04 | 2016-09-21 | 浙江大学 | 一种基于卷积神经网络的双目立体匹配方法 |
CN106295714A (zh) * | 2016-08-22 | 2017-01-04 | 中国科学院电子学研究所 | 一种基于深度学习的多源遥感图像融合方法 |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670512A (zh) * | 2017-10-16 | 2019-04-23 | 斯特拉德视觉公司 | 使用多尺度特征图调整cnn参数的学习方法和学习装置及使用其的测试方法和测试装置 |
CN107705560A (zh) * | 2017-10-30 | 2018-02-16 | 福州大学 | 一种融合视觉特征和卷积神经网络的道路拥堵检测方法 |
CN107871124A (zh) * | 2017-11-15 | 2018-04-03 | 陕西师范大学 | 一种基于深度神经网络的遥感图像目标检测方法 |
CN107871124B (zh) * | 2017-11-15 | 2018-08-10 | 陕西师范大学 | 一种基于深度神经网络的遥感图像目标检测方法 |
CN108846822A (zh) * | 2018-06-01 | 2018-11-20 | 桂林电子科技大学 | 基于混合神经网络的可见光图像和红外光图像的融合方法 |
CN108846822B (zh) * | 2018-06-01 | 2021-08-24 | 桂林电子科技大学 | 基于混合神经网络的可见光图像和红外光图像的融合方法 |
CN109003239A (zh) * | 2018-07-04 | 2018-12-14 | 华南理工大学 | 一种基于迁移学习神经网络的多光谱图像锐化方法 |
CN108985295A (zh) * | 2018-07-25 | 2018-12-11 | 南京烽火星空通信发展有限公司 | 一种基于深度学习的车标图像检测方法 |
CN109410158B (zh) * | 2018-08-21 | 2020-10-02 | 西安电子科技大学 | 一种基于卷积神经网络的多焦点图像融合方法 |
CN109272442A (zh) * | 2018-09-27 | 2019-01-25 | 百度在线网络技术(北京)有限公司 | 全景球面图像的处理方法、装置、设备和存储介质 |
CN109543697A (zh) * | 2018-11-16 | 2019-03-29 | 西北工业大学 | 一种基于深度学习的rgbd图像目标识别方法 |
CN111259692A (zh) * | 2018-11-30 | 2020-06-09 | 上海耕岩智能科技有限公司 | 一种生物特征分析方法、存储介质及神经网络 |
CN111259685A (zh) * | 2018-11-30 | 2020-06-09 | 上海耕岩智能科技有限公司 | 一种指纹重建方法及存储介质 |
TWI693555B (zh) * | 2018-12-17 | 2020-05-11 | 台達電子工業股份有限公司 | 基於上採樣的影像定位系統及其方法 |
US11580665B2 (en) | 2018-12-17 | 2023-02-14 | Delta Electronics, Inc. | Image positioning system and image positioning method based on upsampling |
CN111340879A (zh) * | 2018-12-17 | 2020-06-26 | 台达电子工业股份有限公司 | 基于上采样的影像定位系统及其方法 |
CN111340879B (zh) * | 2018-12-17 | 2023-09-01 | 台达电子工业股份有限公司 | 基于上采样的影像定位系统及其方法 |
CN110222755A (zh) * | 2019-05-30 | 2019-09-10 | 国网山东省电力公司枣庄供电公司 | 基于特征融合的深度学习场景识别方法 |
CN110222755B (zh) * | 2019-05-30 | 2023-01-24 | 国网山东省电力公司枣庄供电公司 | 基于特征融合的深度学习场景识别方法 |
CN110378424A (zh) * | 2019-07-23 | 2019-10-25 | 国网河北省电力有限公司电力科学研究院 | 基于卷积神经网络的变压器套管故障红外图像识别方法 |
CN110517329A (zh) * | 2019-08-12 | 2019-11-29 | 北京邮电大学 | 一种基于语义分析的深度学习图像压缩方法 |
WO2021098567A1 (zh) * | 2019-11-19 | 2021-05-27 | 贝壳找房(北京)科技有限公司 | 生成带深度信息的全景图的方法、装置及存储介质 |
CN111047513B (zh) * | 2019-11-27 | 2024-01-23 | 中国人民解放军国防科技大学 | 一种用于柱面全景拼接的鲁棒性图像对齐方法及装置 |
CN111047513A (zh) * | 2019-11-27 | 2020-04-21 | 中国人民解放军国防科技大学 | 一种用于柱面全景拼接的鲁棒性图像对齐方法及装置 |
CN111241338B (zh) * | 2020-01-08 | 2023-09-15 | 深圳市网联安瑞网络科技有限公司 | 一种基于注意力机制的深度特征融合视频拷贝检测方法 |
CN111241338A (zh) * | 2020-01-08 | 2020-06-05 | 成都三零凯天通信实业有限公司 | 一种基于注意力机制的深度特征融合视频拷贝检测方法 |
CN112733589A (zh) * | 2020-10-29 | 2021-04-30 | 广西科技大学 | 一种基于深度学习的红外图像行人检测方法 |
CN112733589B (zh) * | 2020-10-29 | 2023-01-03 | 广西科技大学 | 一种基于深度学习的红外图像行人检测方法 |
CN113269676B (zh) * | 2021-05-19 | 2023-01-10 | 北京航空航天大学 | 一种全景图像处理方法和装置 |
CN113269676A (zh) * | 2021-05-19 | 2021-08-17 | 北京航空航天大学 | 一种全景图像处理方法和装置 |
CN113421269A (zh) * | 2021-06-09 | 2021-09-21 | 南京瑞易智能科技有限公司 | 一种基于双分支深度卷积神经网络的实时语义分割方法 |
CN113421269B (zh) * | 2021-06-09 | 2024-06-07 | 南京瑞易智能科技有限公司 | 一种基于双分支深度卷积神经网络的实时语义分割方法 |
CN113283429B (zh) * | 2021-07-21 | 2021-09-21 | 四川泓宝润业工程技术有限公司 | 基于深度卷积神经网络的液位式表计读数方法 |
CN113283429A (zh) * | 2021-07-21 | 2021-08-20 | 四川泓宝润业工程技术有限公司 | 基于深度卷积神经网络的液位式表计读数方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106952220A (zh) | 一种基于深度学习的全景图像融合方法 | |
CN106934765A (zh) | 基于深度卷积神经网络与深度信息的全景图像融合方法 | |
CN109241972B (zh) | 基于深度学习的图像语义分割方法 | |
CN112836773B (zh) | 一种基于全局注意力残差网络的高光谱图像分类方法 | |
Kang et al. | Semantic segmentation model of cotton roots in-situ image based on attention mechanism | |
CN109064396A (zh) | 一种基于深度成分学习网络的单幅图像超分辨率重建方法 | |
CN115797931A (zh) | 一种基于双分支特征融合的遥感图像语义分割方法 | |
CN109035260A (zh) | 一种天空区域分割方法、装置和卷积神经网络 | |
CN106960456A (zh) | 一种鱼眼相机标定算法评价的方法 | |
CN112561027A (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
CN106874956A (zh) | 图像分类卷积神经网络结构的构建方法 | |
Liu et al. | A shallow-to-deep feature fusion network for VHR remote sensing image classification | |
CN116309648A (zh) | 一种基于多注意力融合的医学图像分割模型构建方法 | |
Zhu et al. | Stacked U-shape networks with channel-wise attention for image super-resolution | |
CN115331104A (zh) | 一种基于卷积神经网络的农作物种植信息提取方法 | |
Han et al. | Multi-level U-net network for image super-resolution reconstruction | |
CN110648331B (zh) | 用于医学图像分割的检测方法、医学图像分割方法及装置 | |
CN110378344A (zh) | 基于谱维转换网络的卷积神经网络多光谱图像分割方法 | |
CN115439329B (zh) | 人脸图像超分辨率重建方法及计算机可读取的存储介质 | |
CN116912708A (zh) | 一种基于深度学习的遥感影像建筑物提取方法 | |
CN104408697B (zh) | 基于遗传算法和正则先验模型的图像超分辨重建方法 | |
CN109840290A (zh) | 一种基于端到端深度哈希的皮肤镜图像检索方法 | |
Keshk et al. | Satellite super-resolution images depending on deep learning methods: a comparative study | |
CN112560624A (zh) | 基于模型深度集成的高分遥感影像语义分割方法 | |
CN110517272A (zh) | 基于深度学习的血细胞分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170714 |