CN107689036A

CN107689036A - 一种基于深度双边学习的实时图像增强方法

Info

Publication number: CN107689036A
Application number: CN201710785294.7A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-09-01
Filing date: 2017-09-01
Publication date: 2018-02-13

Abstract

本发明中提出的一种基于深度双边学习的实时图像增强方法，其主要内容包括：双边系数的低分辨率特征生成、图像特征提取、全尺寸图像整合输出、网络参数设定，其过程为，首先构建神经网络对原始图像生成低分辨率版本图像，产生一个基于双边系数的频域转换，然后将二维卷积转换成三维数据处理形式，通过不同的路径提取图像低阶系数，最后整合出全尺寸图像输出，由此增强图像表现。本发明可以处理不同光照条件下的图像增强，提供一个基于全连接网络的框架保留全局信息，同时提高了图像表现的增强程度。

Description

一种基于深度双边学习的实时图像增强方法

技术领域

本发明涉及图像处理领域，尤其是涉及了一种基于深度双边学习的实时图像增强方法。

背景技术

图像作为一种有效的信息载体，是人类获取和交换信息的主要来源，据此，图像处理的应用领域必然涉及到人类生活和工作的方方面面。图像增强是对图像的低层次处理，处于图像处理的预处理阶段。但它是图像处理的一个重要环节，在整个图像处理过程中起着承前启后的重要作用，对图像高层次处理的成败至关重要。其目的就是为了改善图像的质量和视觉效果，或将图像转换成更适合于人眼观察或机器分析识别的形式，以便从图像中获取更加有用的信息。具有优异表现的图像增强可以应用到资源勘探、农业与城市土地规划、更准确的气象预报、军事目标的监控等领域，尤其作为新兴智能机器人领域，使用更加明显的图像，更利于发展其学习新事物的能力和执行更明确的操作。此外，医疗图像诊断、机械零部件分析及危险场所的远程监控等也具有较大的应用价值。

图像增强有许多经典的算法，但是表现程度都有待提高。由于通常条件下，由场景本身包含的动态范围、光照条件、图像捕获设备或者是摄影者自身技术水平所限，又或者计算机生成和网络传播导致的图像本身特性的收到一定程度的修改，都会对后期的图像前后景分割、目标识别、目标跟踪和最终的图像理解以及预测分析等带来困难。具体如场景中的运动目标产生的运动模糊、由于曝光不恰当引起的场景细节损失或是弱小目标辨识不清等原因较为常见。

本发明提出了一种基于局部与全局路径合并提取低阶信息的新框架。首先构建神经网络对原始图像生成低分辨率版本图像，产生一个基于双边系数的频域转换，然后将二维卷积转换成三维数据处理形式，通过不同的路径提取图像低阶系数，最后整合出全尺寸图像输出，由此增强图像表现。本发明可以处理不同光照条件下的图像增强，提供一个基于全连接网络的框架保留全局信息，同时提高了图像表现的增强程度。

发明内容

针对解决在复杂背景中进行图像增强的问题，本发明的目的在于提供一种基于深度双边学习的实时图像增强方法，提出了一种基于局部与全局路径合并提取低阶信息的新框架。

为解决上述问题，本发明提供一种基于深度双边学习的实时图像增强方法，其主要内容包括：

(一)双边系数的低分辨率特征生成；

(二)图像特征提取；

(三)全尺寸图像整合输出；

(四)网络参数设定。

其中，所述的低分辨率特征生成，给定原始输入图像具有固定的分辨率(256×256)，通过一系列过程生成低分辨率系数特征，具体为：1)图像经过堆栈卷积神经网络Sⁱ(i＝1，2，...，n_s)进行低阶特征提取并降低空域分辨率；2)最后一层低阶特征经过两个不对称的路径进行局部与全局特征路径提取；3)经过上述两个路径输出的特征进行特征融合，输出特征向量。

所述的低阶特征提取，对于图像经过堆栈卷积神经网络Sⁱ的学习过程，有：

其中，i＝1，2，...，n_s，代表堆栈卷积网络的层数索引值，c和c′分别为网络层的频道，wⁱ和bⁱ分别代表卷积层的权重与偏置；此外，卷积网络使用大小为3×3的卷积核，步长为2，公式(1)中使用的函数σ(·)代表线性修正单元激活函数。

所述的局部与全局特征路径提取，对最后一层卷积层的输出S^ns分别通过两条不同的路径，具体为：

1)局部路径：只用长度为2的卷积层去对输出S^ns进行处理，公式同样如(1)所示，但此时的步长设置为1；

2)全局网络：为更好提取整个空域的信息，除了用局部路径以外，添加全局路径，具体为：同样使用长度为2的卷积层去对输出S^ns进行处理，卷积层的输出另外还会输送到三个全连接神经网络层进行特征提取；卷积网络方法如公式(1)，并且步长也设置为2。

所述的特征融合，对于从上述两条路径之后输出两个不同的特征，使用线性修正单元激活函数σ(·)对其进行按元素点的方法进行整流，具体为：

公式(2)的操作使得该两种特征融合产生一个维度为16×16×64的特征矩阵；据此，对该特征矩阵进行维度为1×1的线性预测，具体为：

此操作产生具有96个频道的16×16特征图。

所述的图像特征提取，包括双边网格维度转换和基于分割层的上采样操作。

所述的双边网格维度转换，根据公式(3)输出的最终特征图A，对其进行维度转换：从二维变换成三维，将原来的第三维度展开，即这里d表示网格深度，设置为8；因此A可视为16×16×8的网格，而每个网格包含12个参数，此操作可以使得二维的卷积变成三维的数据处理。

所述的基于分割层的上采样操作，给定单通道参考图g和特征图A，得到一个切割完毕的与g的分辨率相同的新特征图此操作能使得神经网络的训练能顺利反向传播，具体为：

在公式(5)中，s_x和s_y分别是网格尺寸相对于全尺寸图像维度中宽度和高度的缩放比例，此外定义线性插值核函数τ(·)＝max(1-|·|，0)。

所述的全尺寸图像整合输出，将上述变换维度的特征图计算完后整合为全尺寸输出，定义H为对全分辨率特征进行逐点非线性转换的函数，具体为：

其中，是一个3×3的颜色转换矩阵，b和b′_c是缩放系数，ρ_c是一个分段线性转换函数，由16个缩放线性修正单元函数组成，给定阈值t_c，i和斜率a_c，i，该函数具体为：

最终的整合输出可由以下公式实现：

其中，是网络产生的特征图。

所述的网络参数设定，为更好地正则化和优化网络结果，根据实验经验及需求设置参数，具体如下：1)使用L2范数正则化卷积层权重，并且设置衰减值为10^-8；2)卷积层跟全连接层的权重使用高斯分布初始化，偏置则初始化为0；3)批处理图像数量设置为4至16，具体由输入图像的尺寸决定；4)学习率设置为10^-4。

附图说明

图1是本发明一种基于深度双边学习的实时图像增强方法的系统流程图。

图2是本发明一种基于深度双边学习的实时图像增强方法的增强结果比较图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于深度双边学习的实时图像增强方法的系统流程图。主要包括双边系数的低分辨率特征生成；图像特征提取；全尺寸图像整合输出；网络参数设定。

其中，双边系数的低分辨率特征生成(一)，其特征在于，给定原始输入图像具有固定的分辨率(256×256)，通过一系列过程生成低分辨率系数特征，具体为：1)图像经过堆栈卷积神经网络Sⁱ(i＝1，2，...，n_s)进行低阶特征提取并降低空域分辨率；2)最后一层低阶特征经过两个不对称的路径进行局部与全局特征路径提取；3)经过上述两个路径输出的特征进行特征融合，输出特征向量。

低阶特征提取，对于图像经过堆栈卷积神经网络Sⁱ的学习过程，有：

局部与全局特征路径提取，对最后一层卷积层的输出S^ns分别通过两条不同的路径，具体为：

特征融合，对于从上述两条路径之后输出两个不同的特征，使用线性修正单元激活函数σ(·)对其进行按元素点的方法进行整流，具体为：

此操作产生具有96个频道的16×16特征图。

图像特征提取，包括双边网格维度转换和基于分割层的上采样操作。

双边网格维度转换，根据公式(3)输出的最终特征图A，对其进行维度转换：从二维变换成三维，将原来的第三维度展开，即这里d表示网格深度，设置为8；因此A可视为16×16×8的网格，而每个网格包含12个参数，此操作可以使得二维的卷积变成三维的数据处理。

基于分割层的上采样操作，给定单通道参考图g和特征图A，得到一个切割完毕的与g的分辨率相同的新特征图此操作能使得神经网络的训练能顺利反向传播，具体为：

全尺寸图像整合输出，将上述变换维度的特征图计算完后整合为全尺寸输出，定义H为对全分辨率特征进行逐点非线性转换的函数，具体为：

最终的整合输出可由以下公式实现：

其中，是网络产生的特征图。

网络参数设定，为更好地正则化和优化网络结果，根据实验经验及需求设置参数，具体如下：1)使用L2范数正则化卷积层权重，并且设置衰减值为10^-8；2)卷积层跟全连接层的权重使用高斯分布初始化，偏置则初始化为0；3)批处理图像数量设置为4至16，具体由输入图像的尺寸决定；4)学习率设置为10^-4。

图2是本发明一种基于深度双边学习的实时图像增强方法的增强结果比较图。如图所示，可以观察到在与各种其他图像增强的算法结果图相比较，本发明的方法可以更好地显示出图像本身的特性。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于深度双边学习的实时图像增强方法，其特征在于，主要包括双边系数的低分辨率特征生成(一)；图像特征提取(二)；全尺寸图像整合输出(三)；网络参数设定(四)。

2.基于权利要求书1所述的双边系数的低分辨率特征生成(一)，其特征在于，给定原始输入图像具有固定的分辨率(256×256)，通过一系列过程生成低分辨率系数特征，具体为：1)图像经过堆栈卷积神经网络Sⁱ(i＝1,2,…,n_s)进行低阶特征提取并降低空域分辨率；2)最后一层低阶特征经过两个不对称的路径进行局部与全局特征路径提取；3)经过上述两个路径输出的特征进行特征融合，输出特征向量。

3.基于权利要求书2所述的低阶特征提取，其特征在于，对于图像经过堆栈卷积神经网络Sⁱ的学习过程，有：

<mrow> <msubsup> <mi>S</mi> <mi>c</mi> <mi>i</mi> </msubsup> <mo>&lsqb;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&rsqb;</mo> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msubsup> <mi>b</mi> <mi>c</mi> <mi>i</mi> </msubsup> <mo>+</mo> <munder> <mo>&Sigma;</mo> <mrow> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>z</mi> <mo>&prime;</mo> </msup> </mrow> </munder> <msubsup> <mi>w</mi> <mrow> <msup> <mi>cc</mi> <mo>&prime;</mo> </msup> </mrow> <mi>i</mi> </msubsup> <mo>&lsqb;</mo> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>&rsqb;</mo> <msubsup> <mi>S</mi> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>&lsqb;</mo> <mi>s</mi> <mi>x</mi> <mo>+</mo> <msup> <mi>x</mi> <mo>&prime;</mo> </msup> <mo>,</mo> <mi>s</mi> <mi>y</mi> <mo>+</mo> <msup> <mi>y</mi> <mo>&prime;</mo> </msup> <mo>&rsqb;</mo> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，i＝1,2,…,n_s，代表堆栈卷积网络的层数索引值，c和c′分别为网络层的频道，wⁱ和bⁱ分别代表卷积层的权重与偏置；此外，卷积网络使用大小为3×3的卷积核，步长为2，公式(1)中使用的函数σ(·)代表线性修正单元激活函数。

4.基于权利要求书2所述的局部与全局特征路径提取，其特征在于，对最后一层卷积层的输出S^ns分别通过两条不同的路径，具体为：

5.基于权利要求书2所述的特征融合，其特征在于，对于从上述两条路径之后输出两个不同的特征，使用线性修正单元激活函数σ(·)对其进行按元素点的方法进行整流，具体为：

<mrow> <msub> <mi>F</mi> <mi>c</mi> </msub> <mo>&lsqb;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&rsqb;</mo> <mo>=</mo> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mi>c</mi> </msub> <mo>+</mo> <munder> <mo>&Sigma;</mo> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> </munder> <msubsup> <mi>w</mi> <mrow> <msup> <mi>cc</mi> <mo>&prime;</mo> </msup> </mrow> <mo>&prime;</mo> </msubsup> <msubsup> <mi>G</mi> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> <mrow> <mi>n</mi> <mi>G</mi> </mrow> </msubsup> <mo>+</mo> <munder> <mo>&Sigma;</mo> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> </munder> <msubsup> <mi>w</mi> <mrow> <msup> <mi>cc</mi> <mo>&prime;</mo> </msup> </mrow> <mo>&prime;</mo> </msubsup> <msubsup> <mi>L</mi> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> <mrow> <mi>n</mi> <mi>L</mi> </mrow> </msubsup> <mo>&lsqb;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&rsqb;</mo> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

公式(2)的操作使得该两种特征融合产生一个维度为16×16×64的特征矩阵；据此，对该特征矩阵进行维度为1×1的线性预测,具体为：

<mrow> <msub> <mi>A</mi> <mi>c</mi> </msub> <mo>&lsqb;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&rsqb;</mo> <mo>=</mo> <msub> <mi>b</mi> <mi>c</mi> </msub> <mo>+</mo> <munder> <mo>&Sigma;</mo> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> </munder> <msub> <mi>F</mi> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> </msub> <mo>&lsqb;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&rsqb;</mo> <msub> <mi>w</mi> <mrow> <msup> <mi>cc</mi> <mo>&prime;</mo> </msup> </mrow> </msub> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

此操作产生具有96个频道的16×16特征图。

6.基于权利要求书1所述的图像特征提取(二)，其特征在于，包括双边网格维度转换和基于分割层的上采样操作。

7.基于权利要求书6所述的双边网格维度转换，其特征在于，根据公式(3)输出的最终特征图A，对其进行维度转换：从二维变换成三维，将原来的第三维度展开，即这里d表示网格深度，设置为8；因此A可视为16×16×8的网格，而每个网格包含12个参数，此操作可以使得二维的卷积变成三维的数据处理。

8.基于权利要求书6所述的基于分割层的上采样操作，其特征在于，给定单通道参考图g和特征图A，得到一个切割完毕的与g的分辨率相同的新特征图此操作能使得神经网络的训练能顺利反向传播，具体为：

<mrow> <msub> <mover> <mi>A</mi> <mo>&OverBar;</mo> </mover> <mi>C</mi> </msub> <mo>&lsqb;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&rsqb;</mo> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> </munder> <mi>&tau;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>x</mi> </msub> <mi>x</mi> <mo>-</mo> <mi>i</mi> <mo>)</mo> </mrow> <mi>&tau;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>y</mi> </msub> <mi>y</mi> <mo>-</mo> <mi>j</mi> <mo>)</mo> </mrow> <mi>&tau;</mi> <mrow> <mo>(</mo> <mi>d</mi> <mo>&CenterDot;</mo> <mi>g</mi> <mo>&lsqb;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&rsqb;</mo> <mo>-</mo> <msub> <mi>kA</mi> <mi>c</mi> </msub> <mo>&lsqb;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>&rsqb;</mo> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

在公式(5)中，s_x和s_y分别是网格尺寸相对于全尺寸图像维度中宽度和高度的缩放比例，此外定义线性插值核函数τ(·)＝max(1-|·|,0)。

9.基于权利要求书1所述的全尺寸图像整合输出(三)，其特征在于，将上述变换维度的特征图计算完后整合为全尺寸输出，定义H为对全分辨率特征进行逐点非线性转换的函数，具体为：

其中，是一个3×3的颜色转换矩阵，b和b′_c是缩放系数，ρ_c是一个分段线性转换函数，由16个缩放线性修正单元函数组成，给定阈值t_c,i和斜率a_c,i，该函数具体为：

<mrow> <msub> <mi>&rho;</mi> <mi>c</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mn>15</mn> </munderover> <msub> <mi>a</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <msub> <mi>t</mi> <mrow> <mi>c</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

最终的整合输出可由以下公式实现：

<mrow> <msub> <mi>O</mi> <mi>c</mi> </msub> <mo>&lsqb;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&rsqb;</mo> <mo>=</mo> <msub> <mover> <mi>A</mi> <mo>&OverBar;</mo> </mover> <mrow> <mi>n</mi> <mi>&phi;</mi> <mo>+</mo> <mrow> <mo>(</mo> <mi>n</mi> <mi>&phi;</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>c</mi> </mrow> </msub> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>n</mi> <mi>&phi;</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mover> <mi>A</mi> <mo>&OverBar;</mo> </mover> <mrow> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> <mo>+</mo> <mrow> <mo>(</mo> <mi>n</mi> <mi>&phi;</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>c</mi> </mrow> </msub> <mo>&lsqb;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&rsqb;</mo> <msub> <mi>&phi;</mi> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> </msub> <mo>&lsqb;</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>&rsqb;</mo> <mo>,</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中，是网络产生的特征图。

10.基于权利要求书1所述的网络参数设定(四)，其特征在于，为更好地正则化和优化网络结果，根据实验经验及需求设置参数，具体如下：1)使用L2范数正则化卷积层权重，并且设置衰减值为10^-8；2)卷积层跟全连接层的权重使用高斯分布初始化，偏置则初始化为0；3)批处理图像数量设置为4至16，具体由输入图像的尺寸决定；4)学习率设置为10^-4。