CN106952220A

CN106952220A - 一种基于深度学习的全景图像融合方法

Info

Publication number: CN106952220A
Application number: CN201710150818.5A
Authority: CN
Inventors: 不公告发明人
Original assignee: Panodux Imaging Technology Co ltd
Current assignee: Panodux Imaging Technology Co ltd
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2017-07-14

Abstract

本发明公开了一种基于深度学习的全景图像融合方法，涉及图像拼接技术领域，包括如下步骤：S1：构建深度学习训练数据集；S2：构建卷积神经网络模型；包括S201、S202、S203；S201：构建一个深度卷积神经网络模型；S202：设置卷积采样层参数；S203：利用训练数据集训练深度卷积神经网络；S3：基于测试数据集和训练好的深度卷积神经网络模型，得到测试数据集的融合区域；本发明无需手工特征选取，能够更加全面深层地表达图像，实现多个抽象层次上的图像语义表征，提高了图像融合的精度。

Description

一种基于深度学习的全景图像融合方法

技术领域

本发明属于图像通信技术领域，涉及图像拼接技术领域，尤其涉及一种基于深度学习的全景图像融合方法。

背景技术

图像拼接技术就是将数张有部分重叠的图像拼接成一幅大型的无缝高分辨率图像的技术。使用普通相机获取宽视野的场景图像，因为相机的分辨率一定，拍摄的场景越大，得到的图像分辨率越低；而全景相机、广角镜头等不仅非常昂贵，且失真严重。为了在不降低图像分辨率的条件下获取超宽视野，甚至360度的全景图，出现了利用计算机进行图像拼接方法。

图像拼接是图像处理中的关键技术之一，是其他一些图像处理，如全景视频、智能视频监控、视频压缩和传输、虚拟现实技术、医学图像分析以及超分辨率重构等的基础，如何实现高速度高质量的图像拼接，对于整个系统而言都是至关重要的。

图像拼接技术中两个至关重要的步骤就是图像配准和图像融合。目前常用的图像融合方法有两大类，一类是采用采用直接融合的方法(例如：平均值法、加权平均法、中值滤波法)，会导致生成的全景图像因为重叠区域的细节差异而出现明显的拼接缝；另一类是采用动态规划和graph-cut的方法来查找最优融合中心线，具体来说就是利用两幅图像重叠区域内像素之间的灰度差异和颜色差异，在重叠区域中找到一条灰度和颜色差异最小的线，然后在这条最优融合中心线左右两侧选取一个缝合宽度进行线性融合，它会导致图像融合区域中运动物体的剪切以及拼接模糊等；因此本领域迫切需要一种能克服上述缺陷的全景图像拼接方法。

发明内容

本发明为克服运动物体的剪切以及拼接模糊的问题，旨在提供一种基于深度学习的全景图像融合方法，包括如下步骤：

S1：构建深度学习训练数据集；选取作为训练使用的两幅待融合鱼眼图像的重叠区域x_e1和x_e2以及由这两幅鱼眼图像融合之后形成的全景图像的理想融合区域y_e，构建待融合图像与全景图像块对的训练数据集{x_e1，x_e2，y_e}；

S2：构建卷积神经网络模型；包括S201、S202、S203；S201：构建一个深度卷积神经网络模型；S202：设置卷积采样层参数；S203：利用训练数据集训练深度卷积神经网络；

S3：基于测试数据集和训练好的深度卷积神经网络模型，得到测试数据集的融合区域；

所述S1包括S101、S102、S103、S104；

S101：生成图像金字塔；

对给定的两幅待融合鱼眼图像以及全景图像进行高斯函数平滑、下采样操作生成一系列具有不同分辨率的图像集合，即图像金字塔；获取层级为Gn+1层的高斯金字塔图像的具体实现如下：

第一步：对输入图像I进行高斯内核卷积，本实施例中采用的是长度为5的高斯卷积核；

第二步：将第一步得到的图像中所有偶数行和列去除，得到的图像即为Gn+1层的图像，计算公式如下：

其中，w(m,n)＝w(m)*w(n)，并且a是常量；

第三步：通过对输入图像Gn层，即原始图像，不停迭代以上两个步骤就会得到整个高斯金字塔图像；

S102：生成训练数据集的输入数据；

从两幅待融合鱼眼图像中生成的两个图像金字塔的每一层提取重叠区域其中l表示金字塔的第l层，将这两个图像金字塔中第l层的重叠区域像素值进行线性加权平均组合，得到初始融合区域并将这个区域内的像素进行最大最小归一化处理，使每一个像素取值范围在[0,1]之间，将这两个图像金字塔中所有层的初始融合区域级联起来形成训练样本其中c表示金字塔的层数；

S103：生成训练数据集的理想输出；从全景图像中生成的图像金字塔的每一层提取理想融合区域并将这个区域内的像素进行最大最小归一化处理，使每一个像素取值范围在[0,1]之间，将该金子塔中所有层的融合区域串联起来得到训练样本

S104：获取训练数据集；从初始融合区域x_e和理想融合区域y_e中分别抽取像素大小一直的多分辨融合块其中i＝1,2,…,N，得到N对像素位置一致的多分辨融合块对的训练数据集合

进一步的，所述S201具体为：构建一个深度卷积神经网络模型：以步骤S1生成的训练数据集中的客观评价参数X为输入，构建一个卷积神经网络模型，该卷积神经网络采用5层的神经网络，分别是输入层，第一卷积采样层，第二卷积采样层，全链接层，输出层，其中，在第一卷积采样层首先将输入与该层设定的不同卷积核和可加偏置进行卷积，卷积后产生若干个特征，然后对特征按照设定的池化尺度大小进行特征值求和，加权值，加偏置，最后通过一个Sigmoid函数得到该层的输出，第二卷积采样层进行与第一卷积采样层相同的操作，区别在于两层所使用到的卷积核、池化尺度大小以及偏置不同，两次卷积采样层的输出是特征映射图，全链接层将第二卷积采样层的特征正向传播输出特征向量，同时也可以进行反向传播操作，在输出层中将输入的特征向量按输出标签的大小指定输出。

进一步的，所述S202具体为：在一个卷积层l，输入层的输入或者是上一层的第i个特征被一个可学习的卷积核进行卷积，然后通过一个激活函数，就可以得到输出的第j个特征每一个输出可能是组合卷积多个输入的值，具体计算方法如下：

其中，i，j分别表示上一层和当前层上特征映射编号，M_j表示选取的输入特征集合的一个子集，表示第l层的第j个特征与第l-1层的第i个特征之间相关的卷积核，表示第l层的第j个特征对应的附加的偏置，*表示卷积操作，激活函数f(.)采用sigmoid函数将输出压缩到[0,1]；

卷积之后会紧跟着一个子采样，对于子采样来说，有N个输入特征，就有N个输出特征，只是每个输出特征在大小上变小了，计算公式如下：

其中，down(.)表示一个下采样函数，优选Max-Pooling池化模式，池化核大小为2*2，步长为2。

进一步的，所述S203的训练方法可以分为如下两个阶段：

第一阶段：前向传播阶段

对给定的训练数据集将所有的训练数据集中的输入到深度卷积神经网络的输入层，经过逐层的变换(第一卷积采样层，第二卷积采样层，全链接层1，全链接层2)，传送到输出层，计算出与所有相对应的实际输出计算实际输出与理想输出之间的误差，这里采用平方误差代价函数，第n个训练数据的误差表示为：

其中，K表示输出数据的维数，表示第n个训练数据对应的理想输出数据的第k维，表示第n个训练数据对应的网络输出的第k个输出；

第二阶段：后向传播阶段

后向传播阶段是按照上述计算前向平方误差方法反向传播调整网络每一层的权重矩阵；反向传播回来的误差可以看做是每个神经元的偏置的灵敏度δ，卷积层逆向误差传播公式为：

其中，°表示每个元素相乘，l表示层数，m，n分别表示上一层和当前层上特征的映射编号，表示第l层上的第n个神经节点的灵敏度，表示下采样层的权值，为可训练的常数，up()表示上采样操作，’表示转置，和表示第l层第n个特征对应的权值和偏置，表示第l-1层的第n个特征；池化层的逆向误差传播公式计算如下：

其中，M表示输入特征的集合，表示l+1层的第n个特征与第l层的第m个特征之间相关的卷积核，表示第l+1层的第n个神经节点的灵敏度，表示第l层的第m个神经节点的灵敏度；

最后，对每个神经元运用δ规则进行权值更新；即对一个给定的神经元，得到它的输入，然后用这个神经元的δ来进行缩放；用向量的形式表述就是，对于第l层，误差对于该层每一个权值(组合为矩阵)的导数是该层的输入(等于上一层的输出)与该层的灵敏度(该层每个神经元的δ组合成一个向量的形式)的叉乘；计算偏置和卷积核的偏导数公式如下：

其中，E表示误差代价函数，为计算卷积时的每一个小区域(patch)，

u、v分别表示灵敏度矩阵中的元素位置；利用上述卷积核和偏置的偏导，更新卷积核和偏置。

本发明首先对输入的两幅待融合的鱼眼图像进行预处理，即采用高斯函数平滑待融合的鱼眼图像，进行下采样得到图像金字塔表示的待融合鱼眼图像，图像金子塔即原始图像的多尺度表示，可以充分描述原始图像的结构与信息；然后利用深度学习方法自动实现两幅待融合图像特征的自动选择，无需手工特征选取，能够更加全面，深层地表达图像，实现多个抽象层次上的图像语义表征，提高了图像融合的精度。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一种基于深度学习的全景图像融合方法流程图；

图2是本发明实施例中构建深度学习训练数据集的流程图；

图3是本发明实施例中深度卷积神经网络计算流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一种基于深度学习的全景图像融合方法具体包括如下步骤：

S1：构建深度学习训练数据集。

选取作为训练使用的两幅待融合鱼眼图像的重叠区域x_e1和x_e2以及由这两幅鱼眼图像融合之后形成的全景图像的理想融合区域y_e，构建待融合图像与全景图像块对的训练数据集{x_e1，x_e2，y_e}，如图2所示，具体过程为：

S101：生成图像金字塔。

对给定的两幅待融合鱼眼图像以及全景图像进行高斯函数平滑、下采样操作生成一系列具有不同分辨率的图像集合，即图像金字塔。获取层级为Gn+1层的高斯金字塔图像的具体实现如下：

其中，w(m,n)＝w(m)*w(n)，并且a是常量。

第三步：通过对输入图像Gn层，即原始图像，不停迭代以上两个步骤就会得到整个高斯金字塔图像。采用高斯金字塔图像进行图像融合可以实现图像的无缝拼接。

S102：生成训练数据集的输入数据。

从两幅待融合鱼眼图像中生成的两个图像金字塔的每一层提取重叠区域其中l表示金字塔的第l层，将这两个图像金字塔中第l层的重叠区域像素值进行线性加权平均组合，得到初始融合区域并将这个区域内的像素进行最大最小归一化处理，使每一个像素取值范围在[0,1]之间，将这两个图像金字塔中所有层的初始融合区域级联起来形成训练样本其中c表示金字塔的层数。

S103：生成训练数据集的理想输出。

从全景图像中生成的图像金字塔的每一层提取理想融合区域并将这个区域内的像素进行最大最小归一化处理，使每一个像素取值范围在[0,1]之间，将该金子塔中所有层的融合区域串联起来得到训练样本

S104：获取训练数据集。

从初始融合区域x_e和理想融合区域y_e中分别抽取像素大小一直的多分辨融合块其中i＝1,2,…,N，得到N对像素位置一致的多分辨融合块对的训练数据集合

S2：构建卷积神经网络模型。

在本发明实施例中，采用的是非全连接的深层神经网络模型，且同一层中某些神经元之间的连接权重是共享的，这种非全连接和权重共享的网络结构使该模型更类似于生物神经网络，降低了网络模型的复杂度，减少了权重的数量。

如图3所示，深度卷积神经网络模型的训练包括如下步骤：

S201：构建一个深度卷积神经网络模型。

以步骤S1生成的训练数据集中的初始融合块为输入，构建一个深度卷积神经网络模型，该深度卷积神经网络采用5层的神经网络，分别是输入层，第一卷积采样层，第二卷积采样层，全链接层，输出层，其中，在第一卷积采样层首先将输入与该层设定的不同卷积核和可加偏置进行卷积，卷积后产生若干个特征，然后对特征按照设定的池化尺度大小进行特征值求和，加权值，加偏置，最后通过一个Sigmoid函数得到该层的输出，第二卷积采样层进行与第一卷积采样层相同的操作，区别在于两层所使用到的卷积核、池化尺度大小以及偏置不同，两次卷积采样层的输出是特征映射图，全链接层将卷积采样层的特征正向传播输出特征向量，同时也可以进行反向传播操作，在输出层中将输入的特征向量按输出标签的大小指定输出。

以上仅给出深度卷积神经网络模型的一个示例，实际上深度卷积神经网络模型的构建方式可以根据应用目的进行经验设置，包括卷积池化层数、全链接层数、卷积核的数量与大小以及池化尺度等参数可以根据应用目的进行设置。

S202：设置卷积采样层参数。

在一个卷积层l，输入层的输入或者是上一层的第i个特征被一个可学习的卷积核进行卷积，然后通过一个激活函数，就可以得到输出的第j个特征每一个输出可能是组合卷积多个输入的值，具体计算方法如下：

其中，i，j分别表示上一层和当前层上特征映射编号，M_j表示选取的输入特征集合的一个子集，表示第l层的第j个特征与第l-1层的第i个特征之间相关的卷积核，表示第l层的第j个特征对应的附加的偏置，*表示卷积操作，激活函数f(.)采用sigmoid函数将输出压缩到[0,1]。

深度卷积神经网络中的每一个特征提取层(子采样层)都紧跟着一个用来求局部平均与二次提取的计算层(卷积层)，这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。

S203：利用训练数据集训练深度卷积神经网络。

深度卷积神经网络在本质上是一种输入到输出的映射，他能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确数学表达式，只要用已知的模式对深度卷积神经网络进行训练，网络就具有输入到输出对之间的映射能力。在开始训练前，所有的权重都应该进行随机初始化。

深度卷积神经网络的训练方法可以分为如下两个阶段：

第一阶段：前向传播阶段

对给定的训练数据集将所有的训练数据集中的输入到深度卷积神经网络的输入层，经过逐层的变换(卷积采样层1，卷积采样层2，全链接层1，全链接层2)，传送到输出层，计算出与所有相对应的实际输出。计算实际输出与理想输出之间的误差，这里采用平方误差代价函数，第n个训练数据的误差表示为：

其中，K表示输出数据的维数，表示第n个训练数据对应的理想输出数据的第k维，表示第n个训练数据对应的网络输出的第k个输出。

第二阶段：后向传播阶段

后向传播阶段是按照上述计算前向平方误差方法反向传播调整网络每一层的权重矩阵。反向传播回来的误差可以看做是每个神经元的偏置的灵敏度δ，卷积层逆向误差传播公式为：

其中，°表示每个元素相乘，l表示层数，m，n分别表示上一层和当前层上特征的映射编号，表示第l层上的第n个神经节点的灵敏度，表示下采样层的权值，为可训练的常数，up()表示上采样操作，’表示转置，和表示第l层第n个特征对应的权值和偏置，表示第l-1层的第n个特征。池化层的逆向误差传播公式计算如下：

其中，M表示输入特征的集合，表示l+1层的第n个特征与第l层的第m个特征之间相关的卷积核，表示第l+1层的第n个神经节点的灵敏度，表示第l层的第m个神经节点的灵敏度。

最后，对每个神经元运用δ规则进行权值更新。即对一个给定的神经元，得到它的输入，然后用这个神经元的δ来进行缩放。用向量的形式表述就是，对于第l层，误差对于该层每一个权值(组合为矩阵)的导数是该层的输入(等于上一层的输出)与该层的灵敏度(该层每个神经元的δ组合成一个向量的形式)的叉乘。计算偏置和卷积核的偏导数公式如下：

其中，E表示误差代价函数，为计算卷积时的每一个小区域(patch)，u，v分别表示灵敏度矩阵中的元素位置。利用上述卷积核和偏置的偏导，更新卷积核和偏置。

利用步骤S1获取的训练数据集，采用Hinge损失函数和随机梯度下降方法对深度卷积神经网络进行训练，当整个深度卷积神经网络的损失函数趋于局部最优解附近时，完成训练；其中局部最优解事先由人工设定。

S3：基于测试数据集和训练好的深度卷积神经网络模型，得到测试数据集的融合区域。

测试样本图像同样包括两幅待融合的鱼眼图像，按照步骤S1中获得训练数据集的方法进行图像预处理，得到测试数据集将该测试数据集作为步骤S2训练好的深度卷积神经网络的输入，经过该深度神经网络后输出对应初始融合块的目标融合块；输出的目标融合块是一个图像金字塔结构，将金字塔每一层图像从顶层开始上采样到它下一层图像的大小，然后与他下一层图像进行平均聚合，依次循环处理金字塔的每一层，直到到达最底层，结束循环，得到最终的全景图像的融合区域。

由此可见，利用深度学习方法自动实现待融合鱼眼图像特征的自动选取，无需手工特征选择，省时省力；能够更加全面，深层地表达图像，实现多个抽象层次上的图像语义表征，提高了图像融合的精度。

本发明的一种基于深度学习的全景图像融合方法，首先对输入的两幅待融合的鱼眼图像进行预处理，即采用高斯函数平滑待融合的鱼眼图像，进行下采样得到图像金字塔表示的待融合鱼眼图像，图像金子塔即原始图像的多尺度表示，可以充分描述原始图像的结构与信息；然后利用深度学习方法自动实现两幅待融合图像特征的自动选择，无需手工特征选取，能够更加全面，深层地表达图像，实现多个抽象层次上的图像语义表征，提高了图像融合的精度。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于深度学习的全景图像融合方法，其特征在于，包括如下步骤：

所述S1包括S101、S102、S103、S104；

S101：生成图像金字塔；

G_{n + 1} (i, j) = Σ_{m = - 2}^{2} Σ_{n = - 2}^{2} w (m, n) G_{n} (2 i + m, 2 j + n)

其中，w(m,n)＝w(m)*w(n)，并且a是常量；

S102：生成训练数据集的输入数据；

从两幅待融合鱼眼图像中生成的两个图像金字塔的每一层提取重叠区域其中l表示金字塔的第l层，将这两个图像金字塔中第I层的重叠区域像素值进行线性加权平均组合，得到初始融合区域并将这个区域内的像素进行最大最小归一化处理，使每一个像素取值范围在[0,1]之间，将这两个图像金字塔中所有层的初始融合区域级联起来形成训练样本其中c表示金字塔的层数；

2.根据权利要求1所述的基于深度学习的全景图像融合方法，其特征在于，所述S201具体为：构建一个深度卷积神经网络模型：以步骤S1生成的训练数据集中的客观评价参数X为输入，构建一个卷积神经网络模型，该卷积神经网络采用5层的神经网络，分别是输入层，第一卷积采样层，第二卷积采样层，全链接层，输出层，其中，在第一卷积采样层首先将输入与该层设定的不同卷积核和可加偏置进行卷积，卷积后产生若干个特征，然后对特征按照设定的池化尺度大小进行特征值求和，加权值，加偏置，最后通过一个Sigmoid函数得到该层的输出，第二卷积采样层进行与第一卷积采样层相同的操作，区别在于两层所使用到的卷积核、池化尺度大小以及偏置不同，两次卷积采样层的输出是特征映射图，全链接层将第二卷积采样层的特征正向传播输出特征向量，同时也可以进行反向传播操作，在输出层中将输入的特征向量按输出标签的大小指定输出。

3.根据权利要求1所述的基于深度学习的全景图像融合方法，其特征在于，所述S202具体为：在一个卷积层I，输入层的输入或者是上一层的第i个特征被一个可学习的卷积核进行卷积，然后通过一个激活函数，就可以得到输出的第j个特征每一个输出可能是组合卷积多个输入的值，具体计算方法如下：

x_{j}^{l} = f (\underset{i &Element; M_{j}}{Σ} x_{i}^{l - 1} * k_{i j}^{l} + b_{j}^{l})

x_{j}^{l} = f (β_{j}^{l} d o w n (x_{j}^{l - 1}) + b_{j}^{l})

4.根据权利要求1所述的基于深度学习的全景图像融合方法，其特征在于，所述S203的训练方法可以分为如下两个阶段：

第一阶段：前向传播阶段

E^{n} = \frac{1}{2} Σ_{k = 1}^{K} {(y_{e}^{n} (k) - O_{e}^{n} (k))}^{2} = \frac{1}{2} | | y^{n} - O^{n} | |_{2}^{2}

第二阶段：后向传播阶段

\begin{matrix} δ_{n}^{l} = β_{n}^{l + 1} (f^{'} {(μ_{n}^{l})}^{o} u p (δ_{n}^{l + 1}) & w i t h & μ_{n}^{l} = W_{n}^{l} x_{n}^{l - 1} + b_{n}^{l} \end{matrix}

δ_{m}^{l} = Σ_{m = 1}^{M} δ_{n}^{l + 1} * k_{m n}^{l + 1}

\frac{\partial E}{\partial b_{n}} = \underset{u v}{Σ} {(δ_{n}^{l})}_{u v};

\frac{\partial E}{\partial k_{m n}^{l}} = \underset{u v}{Σ} {(δ_{n}^{l})}_{u v} {(p_{m}^{l - 1})}_{u v};