CN109903301A

CN109903301A - 一种基于多级特征信道优化编码的图像轮廓检测方法

Info

Publication number: CN109903301A
Application number: CN201910080334.7A
Authority: CN
Inventors: 范影乐; 方琳灵; 周涛; 武薇; 佘青山
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-06-18
Anticipated expiration: 2039-01-28
Also published as: CN109903301B

Abstract

本发明涉及一种基于多级特征信道优化编码的图像轮廓检测方法。本发明针对输入图像I(x,y)，首先基于相似度指标获取Gabor滤波器的最优尺度m_opt和方向θ_opt，并将m_opt和θ_opt作为NSCT的频率分离参数；然后将经过NSCT得到的轮廓子图与I(x,y)进行特征增强融合，实现对I(x,y)的初级轮廓检测；最后针对性地设计全卷积神经网络，包括由不同尺度FCN‑32s、FCN‑16s、FCN‑8s网络单元构成的特征编解码器，利用特征编码器的卷积与池化模块实现网络参数的主动学习，利用特征解码器的反卷积与上采样模块得到与I(x,y)对应的图像轮廓掩模图，实现多级特征信道的优化编码，完成图像轮廓的高效准确检测。

Description

一种基于多级特征信道优化编码的图像轮廓检测方法

技术领域

本发明属于机器学习和图像处理领域，具体涉及一种基于多级特征信道优化编码的图像轮廓检测方法。

背景技术

轮廓信息对于图像数据的分割和识别具有重要意义，它将实现对图像目标区域的快速勾勒，有助于在有限特征维度上对图像进行分析和理解，因此图像轮廓自动检测是机器学习和图像处理领域的重要研究内容之一。基于区域梯度信息的传统检测算法通常考虑图像的线性滤波和局部方向性特征，例如基于图像局部能量方法，但它们一般并不涉及主动轮廓、纹理边缘以及区域边界等重要信息。目前基于深度学习的轮廓检测方法受到了关注，通过深度网络结构模拟人类视觉感知系统对视觉信息的处理过程，主动进行特征学习，有效地简化了原本复杂的特征提取和数据重建过程，但是这类方法普遍存在以下问题：(1)直接通过神经网络进行图像的分割和融合，会导致分割结果的不精细和特征信息的泛化。(2)未能将深度学习与传统基于特征的方法相结合，检测性能严重依赖于训练样本的数量和质量，对包括纹理背景在内的冗余信息过滤能力较弱。(3)部分方法虽然考虑了多源特征的提取问题，例如基于Gabor-NSCT和脉冲神经网络的SAR图像分割，它涉及了Gabor和NSCT在多尺度下的多源特征提取，然后将提取的Gabor特征和NSCT特征分别作为两个脉冲神经网络的输入进行训练，因此分割性能将严重依赖于Gabor和NSCT对于图像内容的感知能力，并没有充分利用多尺度下的多源特征信号融合编码能力，另外脉冲神经网络从模型层次和结构上也并不属于深度学习的范畴。例如还有基于Gabor-NSCT和视觉机制的图像轮廓提取方法，它同样涉及不同尺度下的多源特征提取，但考虑到视觉机制模型的运算能力，通常采用一种简化的融合编码方式，本质上缺失了以卷积神经网络训练为代表的学习过程，因此并不能真正体现多源特征在表达轮廓上的有效性。

发明内容

本发明针对现有技术的不足，提出一种基于多级特征信道优化编码的图像轮廓检测方法。

虽然NSCT变换在表征图像细节方面具有优越的性能，但其通常采取在尺度和方向上对分解结果进行某种加权方式下的优化编码，处理过程中加权参数的人为设定使得检测结果具有较大的不确定性。考虑到Gabor滤波器在感知图像目标尺度和方向时的有效性，因此本发明针对输入图像I(x,y)，首先计算Gabor滤波器对应的最优尺度m_opt和方向θ_opt，并将获得的m_opt和θ_opt作为NSCT变换的频率分离参数，改变了传统上需要对Gabor和NSCT遍历所有尺度和方向的冗余融合模式；另外本发明将NSCT得到的轮廓子图与I(x,y)进行特征增强融合，有助于高效准确获得I(x,y)的初级轮廓响应E(x,y)；接着将E(x,y)传入至由FSC-32S、FSC-16S、FSC-8S网络单元构成的全卷积神经网络，利用特征编码器的卷积与池化模块实现网络参数的主动学习，通过特征解码器的反卷积与上采样模块得到与I(x,y)对应的图像轮廓掩模图，并与I(x,y)进行点乘操作，最终实现图像轮廓的准确检测。具体包括如下步骤：

步骤1:获取输入图像I(x,y)的初级轮廓响应。首先计算输入图像I(x,y)的Gabor滤波器响应，结果记为如式(1)～(4)所示。

式中：表示图像I(x,y)经过Gabor滤波器在尺度m，方向θ＝nπ/K上得到的Gabor特征信息；σ_x,σ_y分别表示Gabor小波基函数沿x轴和y轴的标准偏差；ω为高斯函数的复调制频率；以ψ(x,y)为母小波，通过对其进行尺度和旋转变换，得到Gabor滤波器ψ_m,n(x,y)；其中，u,v是ψ_m,n(x,y)的模板尺寸；m＝0,...,S-1，n＝0,...,K-1，S和K分别表示尺度数和方向数；α为ψ(x,y)的尺度因子，式中：α＞1。

基于相似度指标SSIM，计算Gabor滤波器对应的最优尺度m_opt和方向θ_opt，如式(5)～(8)所示。

其中表示滤波器响应与已知的轮廓标记图像I^mark之间的相似度，当取极大值时，获得最优尺度m_opt和方向θ_opt；和分别表示与I^mark之间在亮度、对比度和结构上的定量相似性度量；u_Gabor、u_mark分别表示图像和I^mark的亮度均值，δ_Gabor、δ_mark分别表示图像和I^mark的亮度标准差，分别表示图像和I^mark的亮度方差，δ_G,m代表图像和I^mark的亮度协方差；I^mark图像的轮廓区域像素为1，其余像素为0；为了避免由于式(6)～(8)中的各项分母接近零值时所引起的系统不稳定，C₁、C₂和C₃设置为某个正常数，小于滤波器响应亮度均值的3％。

将m_opt和θ_opt作为NSCT的频率分离参数，NSCT对图像I(x,y)分解得到轮廓子图由于NSCT分解过程尺寸保持不变，因此将与I(x,y)直接进行像素级的特征增强融合操作，最终获得输入图像I(x,y)的初级轮廓响应E(x,y)，如式(9)和(10)所示。

式中，表示尺度m_opt和方向θ_opt参数条件下的非下采样轮廓波变换，表示对应的NSCT轮廓子图；t表示轮廓子图的亮度均值；max表示取最大值函数，下同。

步骤2：将步骤1获得的初级轮廓响应E(x,y)，传输至全卷积神经网络，获得分别由FCN-32S、FCN-16S、FCN-8S网络单元训练得到的热图F⁵，F⁴，F³。全卷积神经网络分为特征编码器和特征解码器两部分，整个网络包含8个卷积块，5个最大池化层，5个上采样和2个卷积层。具体结构如下：

1.特征编码器

以VGG-16作为基础网络进行全卷积神经网络的优化改造。为实现网络计算速度的提高，增强泛化能力，在卷积块(3×3、1×1、3×3)结构中，每两个3×3的卷积核中加入1×1卷积核；为加强学习图像特征的非线性和平移不变性，每层卷积模块后面加入最大池化层；同时E(x,y)经过池化层Max pool5处理后，尺寸变成I(x,y)的1/32，记为表示经过FCN-32S网络单元训练后输出的特征图；E(x,y)经过池化层Max pool4和卷积层1×1，尺寸变成I(x,y)的1/16，记为表示经过FCN-16S网络单元训练后输出的特征图；同理，E(x,y)经过池化层Max pool3和卷积层1×1，尺寸变成I(x,y)的1/8，记为表示经过FCN-8S网络单元训练后输出的特征图。其中每个池化层输出利用Relu激活函数实现稀疏编码功能。特征编码器包括如下十三层结构，其中步长stride均为1：

第一层，卷积层CONV1-1，通道个数8，卷积核大小3×3；CONV1-2，通道个数8，卷积核大小为3×3；

第二层，最大池化层Max pool1，池化区域大小为2×2；

第三层，卷积层CONV2-1，通道个数16，卷积核大小为3×3；CONV2-2，通道个数16，卷积核大小为1×1；CONV2-3，通道个数16，卷积核大小为1×1；

第四层，最大池化层Max pool2，池化区域大小为2×2；

第五层，卷积层CONV3-1，通道个数32，卷积核大小为3×3；CONV3-2,通道个数32，卷积核大小为1×1；CONV3-3，通道个数32，卷积核大小为3×3；

第六层，最大池化层Max pool3，池化区域大小为2×2；

第七层，卷积层CONV4-1，通道个数64，卷积核大小为3×3；CONV4-2，通道个数64，卷积核大小为1×1；CONV4-3，通道个数64，卷积核大小为3×3；

第八层，最大池化层Max pool4，池化区域大小为2×2；

第九层，卷积层CONV5-1，通道个数128，卷积核大小为3×3；CONV5-2，通道个数128，卷积核大小为1×1；CONV5-3，通道个数128，卷积核大小为3×3；

第十层，最大池化层Max pool5，池化区域大小为2×2；

第十一层，卷积层CONV6，通道个数256，卷积核大小为1×1；

第十二层，卷积层CONV7，通道个数256，卷积核大小为1×1；

第十三层，卷积层CONV8，通道个数1，卷积核大小为1×1；

2.特征解码器

初级轮廓响应E(x,y)经过特征编码不断缩小为原来的1/8，1/16，1/32倍，获得的特征图分辨率低，因此加入特征解码器，对低分辨率的特征图进行双线性上采样操作。对于经过32倍下采样的图像利用32倍双线性上采样得到与I(x,y)一样大小的热图，记为F⁵；在池化层Max pool4后加入调节特征图像通道个数的预测卷积层1×1，输出得到图像同时把32倍下采样的图像进行两倍上采样，所得结果与对应元素相加，再利用16倍双线性上采样得到与I(x,y)一样大小的热图，记为F⁴；在池化层Max pool3后加入调节特征图像通道个数的预测卷积层1×1，输出得到图像同时把16倍下采样的图像进行两倍上采样，所得结果与对应元素相加，再利用8倍双线性上采样得到与I(x,y)一样大小的热图，记为F³。

步骤3：对步骤2获得的热图F⁵，F⁴，F³，利用max函数取各像素上的最大像素值，融合得到图像轮廓掩模图F，再经过Relu激活函数作用，与已知的轮廓标记图像I^mark进行损失运算，结果记为loss，并采用随机梯度下降，不断迭代更新各个网络层的参数，当loss值小于阀值ε时训练结束，ε设为训练图像样本像素总数的1～3％，获得训练后的全卷积神经网络。

步骤4：将待检测图像经过步骤1～3所构建的Gabor滤波器，非下采样轮廓波变换以及训练后的全卷积神经网络，得到图像轮廓掩模图，与待检测图像进行点乘操作，最终获得图像轮廓检测结果。

本发明具有的有益效果为：

1、提出一种多级特征信道优化编码的初级轮廓响应新方法。由于NSCT变换能够模拟外膝体LGN在视觉信息处理中的频域分离作用，但在图像分解过程中加权参数的人为设定使得检测结果具有较大的不确定性。考虑到Gabor滤波器响应特性与人类的视觉系统类似，对光照、姿态具有一定的鲁棒性，有优质的空间局部性和方向选择性。因此本发明提出对每张图片都寻找基于Gabor滤波器响应的最优尺度和方向，然后将它们作为NSCT设定频率分离参数的直接依据；将NSCT得到的轮廓子图与原图像进行特征增强融合，有助于高效准确的获得初级轮廓响应。构建一种多级特征信道优化编码的初级轮廓响应新方法，获得低维且冗余度低的图像特征信道，对于缓解网络压力，降低卷积神经网络计算复杂度，提高网络的训练效率具有重要的应用前景。

2、构建一种全卷积神经网络进行多尺度训练，对FCN-32S、FCN-16S、FCN-8S在热图表达中的平滑性和精细性等特性进行充分互补。将网络分为特征编码器和特征解码器两部分，从端到端不需要对目标图像进行区域上的选择，特征编码器通过卷积和池化操作，不断主动学习特征参数，特征图按比例减小，特征解码器通过反卷积与上采样过程保证提取特征的二维特性，并且得到与原图像同一尺寸的热图来表示图像的主要轮廓，实现对每个像素预测，同时保留原图像的空间信息。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明的图像轮廓检测流程图；

图2为本发明的全卷积神经网络结构框图；

具体实施方式

下面结合附图来说明本发明的具体实施过程，如图1所示，

步骤1:获取输入图像I(x,y)的初级轮廓响应。首先计算输入图像I(x,y)的Gabor滤波器响应，结果记为如式(11)～(14)所示。

基于相似度指标SSIM，计算Gabor滤波器对应的最优尺度m_opt和方向θ_opt，如式(15)～(18)所示。

其中表示滤波器响应与已知的轮廓标记图像I^mark之间的相似度，当取极大值时，获得最优尺度m_opt和方向θ_opt；和分别表示与I^mark之间在亮度、对比度和结构上的定量相似性度量；u_Gabor、u_mark分别表示图像和I^mark的亮度均值，δ_Gabor、δ_mark分别表示图像和I^mark的亮度标准差，分别表示图像和I^mark的亮度方差，δ_G,m代表图像和I^mark的亮度协方差；I^mark图像的轮廓区域像素为1，其余像素为0；为了避免由于式(16)～(18)中的各项分母接近零值时所引起的系统不稳定，C₁、C₂和C₃设置为某个正常数，小于滤波器响应亮度均值的3％。

将m_opt和θ_opt作为NSCT的频率分离参数，得到轮廓子图由于NSCT对图像I(x,y)分解后的尺寸保持不变，因此将与I(x,y)直接进行像素级的特征增强融合操作，最终获得输入图像I(x,y)的初级轮廓响应E(x,y)，如式(19)和(20)所示。

步骤2：如图2所示，构建全卷积神经网络，获得分别由FCN-32S、FCN-16S、FCN-8S网络单元训练得到的热图F⁵，F⁴，F³。全卷积神经网络分为特征编码器和特征解码器两部分，整个网络包含8个卷积块，5个最大池化层，5个上采样和2个卷积层。具体结构如下：

1.特征编码器

(1)初级轮廓响应E(x,y)经过3×3-8、3×3-8的CONV1卷积块，再进行2×2的最大池化，和Relu激活函数作用得到图像如式(21)所示，表示I(x,y)经过卷积-Max pool1，尺寸变成1/2。

其中，conv1()表示第一层的卷积操作；pool1()表示第一次最大池化操作；Relu()表示稀疏结果的激活函数，下同。

(2)将经过3×3-16、1×1-16、3×3-16的CONV2卷积块，再进行2×2的最大池化，后接加入调节特征图像通道个数的1×1的预测卷积，和Relu激活函数作用得到图像如式(22)所示，表示图像经过卷积-Max pool2，尺寸变成I(x,y)的1/4。

其中，conv2()表示第二层卷积操作；pool2()表示第二次最大池化操作。

(3)将经过3×3-32、1×1-32、3×3-32的CONV3卷积块，再进行2×2的最大池化，经过Relu激活函数作用得到图像如式(23)所示，表示图像经过卷积块-Maxpool3-预测卷积，尺寸变成I(x,y)的1/8。

其中，conv3()表示第三层卷积操作；pool3()表示第三次最大池化操作，conv1×1()表示1×1的卷积核，下同。

(4)将经过3×3-64、1×1-64、3×3-64的CONV4卷积块，再进行2×2的最大池化，后接加入调节特征图像通道个数的1×1的预测卷积，和Relu激活函数作用得到图像如式(24)所示，表示图像经过卷积块-Max pool4-预测卷积，尺寸变成I(x,y)的1/16。

其中，conv4()表示第四层卷积操作；pool4()表示第四次最大池化操作。

(5)将经过3×3-64、1×1-64、3×3-64的CONV5卷积块，再进行2×2的最大池化，和Relu激活函数作用得到图像如式(25)所示，表示图像经过卷积-Max pool4，尺寸变成I(x,y)的1/32。

其中，conv5()表示第五层卷积操作；pool5()表示第五次最大池化操作。

2.特征解码器

(1)图像利用32倍的双线性上采样得到与I(x,y)一样大小的热图，记为F⁵。如式(26)所示。

其中，bilinear()表示双线性上采样操作，下同。

(2)在池化层Max pool4后加入调节特征图像通道个数的预测卷积层1×1，输出得到图像同时把32倍下采样的图像进行两倍上采样，所得结果与对应元素相加，再利用16倍双线性上采样得到与I(x,y)一样大小的热图，记为F⁴，如式(27)所示。

其中，sum()表示矩阵相加操作，下同。

(3)在池化层Max pool3后加入调节特征图像通道个数的预测卷积层1×1，输出得到图像同时把16倍下采样的图像进行两倍上采样，所得结果与对应元素相加，再利用8倍双线性上采样得到与I(x,y)一样大小的热图，记为F³，如式(28)所示。

步骤3：对步骤2获得的热图F⁵，F⁴，F³，利用max函数取各像素上的最大像素值，融合得到图像轮廓掩模图F，如式(29)所示。再经过Relu激活函数作用，与已知人工标记轮廓的训练图像进行损失运算，结果记为loss，如式(30)所示。并采用随机梯度下降(Stochasticgradient descent)，不断迭代更新各个网络层的参数，当loss值小于阀值ε时训练结束，ε设为训练图像样本像素总数的1～3％，获得训练后的全卷积神经网络。

F＝max(F⁵,F⁴,F³) (29)

其中，M、N为训练图像的行列数，F_i,j表示图像轮廓掩模图F在坐标(i,j)上的像素值，为已知的轮廓标记图像I^mark在坐标(i,j)上的像素值。

Claims

1.一种基于多级特征信道优化编码的图像轮廓检测方法，其特征在于，该方法具体包括以下步骤：

步骤1:获取输入图像I(x,y)的初级轮廓响应；

首先计算输入图像I(x,y)的Gabor滤波器响应，结果记为如式(1)～(4)所示；

式中：表示图像I(x,y)经过Gabor滤波器在尺度m，方向θ＝nπ/K上得到的Gabor特征信息；σ_x,σ_y分别表示Gabor小波基函数沿x轴和y轴的标准偏差；ω为高斯函数的复调制频率；以ψ(x,y)为母小波，通过对其进行尺度和旋转变换，得到Gabor滤波器ψ_m,n(x,y)；其中，u,v是ψ_m,n(x,y)的模板尺寸；m＝0,...,S-1，n＝0,...,K-1，S和K分别表示尺度数和方向数；α为ψ(x,y)的尺度因子，式中：α＞1；

基于相似度指标SSIM，计算Gabor滤波器对应的最优尺度m_opt和方向θ_opt，如式(5)～(8)所示；

其中表示滤波器响应与已知的轮廓标记图像I^mark之间的相似度，当取极大值时，获得最优尺度m_opt和方向θ_opt；和分别表示与I^mark之间在亮度、对比度和结构上的定量相似性度量；u_Gabor、u_mark分别表示图像和I^mark的亮度均值，δ_Gabor、δ_mark分别表示图像和I^mark的亮度标准差，分别表示图像和I^mark的亮度方差，δ_G,m代表图像和I^mark的亮度协方差；为了避免由于式(6)～(8)中的各项分母接近零值时所引起的系统不稳定，C₁、C₂和C₃设置为某个正常数，小于滤波器响应亮度均值的3％；

将m_opt和θ_opt作为NSCT的频率分离参数，NSCT对图像I(x,y)分解得到轮廓子图由于NSCT分解过程尺寸保持不变，因此将与I(x,y)直接进行像素级的特征增强融合操作，最终获得输入图像I(x,y)的初级轮廓响应E(x,y)，如式(9)和(10)所示；

式中，表示尺度m_opt和方向θ_opt参数条件下的非下采样轮廓波变换，表示对应的NSCT轮廓子图；t表示轮廓子图的亮度均值；max表示取最大值函数，下同；

步骤2：将步骤1获得的初级轮廓响应E(x,y)，传输至全卷积神经网络，获得分别由FCN-32S、FCN-16S、FCN-8S网络单元训练得到的热图F⁵，F⁴，F³；全卷积神经网络分为特征编码器和特征解码器两部分，整个网络包含8个卷积块，5个最大池化层，5个上采样和2个卷积层；具体结构如下：

1.特征编码器

以VGG-16作为基础网络进行全卷积神经网络的优化改造；为实现网络计算速度的提高，增强泛化能力，在卷积块(3×3、1×1、3×3)结构中，每两个3×3的卷积核中加入1×1卷积核；为加强学习图像特征的非线性和平移不变性，每层卷积模块后面加入最大池化层；同时E(x,y)经过池化层Max pool5处理后，尺寸变成I(x,y)的1/32，记为表示经过FCN-32S网络单元训练后输出的特征图；E(x,y)经过池化层Max pool4和卷积层1×1，尺寸变成I(x,y)的1/16，记为表示经过FCN-16S网络单元训练后输出的特征图；同理，E(x,y)经过池化层Max pool3和卷积层1×1，尺寸变成I(x,y)的1/8，记为表示经过FCN-8S网络单元训练后输出的特征图；其中每个池化层输出利用Relu激活函数实现稀疏编码功能；特征编码器包括如下十三层结构，其中步长stride均为1：

第二层，最大池化层Max pool1，池化区域大小为2×2；

第四层，最大池化层Max pool2，池化区域大小为2×2；

第六层，最大池化层Max pool3，池化区域大小为2×2；

第八层，最大池化层Max pool4，池化区域大小为2×2；

第十层，最大池化层Max pool5，池化区域大小为2×2；

第十一层，卷积层CONV6，通道个数256，卷积核大小为1×1；

第十二层，卷积层CONV7，通道个数256，卷积核大小为1×1；

第十三层，卷积层CONV8，通道个数1，卷积核大小为1×1；

2.特征解码器

初级轮廓响应E(x,y)经过特征编码不断缩小为原来的1/8，1/16，1/32，获得的特征图分辨率低，因此加入特征解码器，对低分辨率的特征图进行双线性上采样操作；对于经过32倍下采样的图像利用32倍双线性上采样得到与I(x,y)一样大小的热图，记为F⁵；在池化层Max pool4后加入调节特征图像通道个数的预测卷积层1×1，输出得到图像同时把32倍下采样的图像进行两倍上采样，所得结果与对应元素相加，再利用16倍双线性上采样得到与I(x,y)一样大小的热图，记为F⁴；在池化层Max pool3后加入调节特征图像通道个数的预测卷积层1×1，输出得到图像同时把16倍下采样的图像进行两倍上采样，所得结果与对应元素相加，再利用8倍双线性上采样得到与I(x,y)一样大小的热图，记为F³；

步骤3：对步骤2获得的热图F⁵，F⁴，F³，利用max函数取各像素上的最大像素值，融合得到图像轮廓掩模图F，再经过Relu激活函数作用，与已知的轮廓标记图像I^mark进行损失运算，结果记为loss，并采用随机梯度下降，不断迭代更新各个网络层的参数，当loss值小于阀值ε时训练结束，ε设为训练图像样本像素总数的1～3％，获得训练后的全卷积神经网络；

步骤4：将待检测图像经过步骤1～3所构建的Gabor滤波器、非下采样轮廓波变换以及训练后的全卷积神经网络，得到图像轮廓掩模图，与待检测图像进行点乘操作，最终获得图像轮廓检测结果。