CN109359655B

CN109359655B - 基于上下文正则化循环深度学习的图像分割方法

Info

Publication number: CN109359655B
Application number: CN201811089851.2A
Authority: CN
Inventors: 渠慎明; 苏靖; 刘颜红; 张东生; 刘珊; 渠梦瑶; 王青博; 张济仕
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2021-07-16
Anticipated expiration: 2038-09-18
Also published as: CN109359655A

Abstract

本发明提供了基于上下文正则化循环深度学习的图像分割方法，通过卷积操作、上下文正则化操作和循环迭代操作解决了现有同类算法图像区域和非图像区域分割不准确的问题，尤其解决了预测图片大面积错误和边缘分割不清晰的问题，提高了图像分割准确程度。

Description

基于上下文正则化循环深度学习的图像分割方法

技术领域

本发明涉及图像语义分割领域，尤其涉及一种基于上下文正则化循环深度学习的图像分割方法。

背景技术

当今社会，手机、平板电脑等智能移动设备已被广泛使用。显示器作为智能移动设备中人机交互不可或缺的界面，主要分为非自发光显示器和自发光显示器。有机发光二极管(Organic Light-Emitting，OLED)作为一种新兴的自发光显示器技术，不同于传统的非自发光显示器，每一个像素都可以提供光源，可以单独调节，易于有效控制电池消耗。现有的功率约束图像增强算法有个明显的不足之处。现有的方法都是直接将整张图片进行调整，这种操作会损失图像的细节信息，影响视觉感受。

基于视觉心理学，显示器内容中有图像的区域(图像区域)像素亮度值的降低对人类视觉感受的影响比较大，而文本和其他空白等无图像区域(非图像区域)像素亮度值的降低对视觉感受的影响相对较小。根据这一特点，本发明将智能移动设备显示器内容，分成图像区域和非图像区域。目前效果较好的图像语义分割方法是全卷积网络(FullyConvolutionalNetworks，FCN)，但是FCN在进行图像区域和非图像区域的语义分割操作时，出现了预测图片大面积错误和边缘分割不清晰的问题。

发明内容

本发明的目的在于提供基于上下文正则化循环深度学习的图像分割方法，能够解决CN在进行图像区域和非图像区域的语义分割操作时，出现了预测图片大面积错误和边缘分割不清晰的问题。

为了实现上述目的，本发明采用以下技术方案：

基于上下文正则化循环深度学习的图像分割方法，包括以下步骤：

步骤1：对输入图片

在VGG19-FCN网络中进行卷积操作，其中，VGG19-FCN网络由18个卷积层、5个池化层和3个反卷积层构成；具体包括以下步骤：

步骤1.1：卷积层操作，采用以下方法：

假设

是第1层卷积层的第i层特征映射，定义特征映射

为输入量，

为输出量，即二值掩膜图，卷积操作如公式(1-1)所示：

其中，

是第1层卷积层的第i层卷积层的卷积核，

是第l层卷积层的第i层卷积层的偏差参数；n是

在中特征映射的数量，*表示为卷积操作，f(·)为激活函数；

步骤1.2：池化层最大池化操作，采用以下公式(1-3)表示：

其中，Ω(m，n)表示特征向量

的空间向量的位置(m，n)，Δ代表

在本算法框架的第7层中；

步骤1.3：反卷积层操作，采用以下方法：

将第一层卷积层的第5层的输出量反卷积到原图大小，再将第一层卷积层的第4层的输出和第3层的输出量也依次反卷积，得到

反卷积操作用公式(1-4)表示：

其中

是第l层卷积层的第i层卷积层的卷积核，

表示为反卷积操作；

步骤1.4：调整学习率，采用以下方法：

学习率的调整如公式(1-5)所示：

其中，R_t为学习率，t为变化计数，t＝0，1，2，3；α为衰减指数；ρ＝0.90；

步骤2：对卷积层输出的二值掩膜图

上下文正则化操作，具体包括以下步骤：

步骤2.1：定义

为

在位置(m，n)的像素，X^g是灰度图，则X^g在位置(m，n)的像素I(m，n)为：

其中，η是最原始的误差，η为：

其中，

为最小化误差参数η，

表示Frobenius范数操作；

步骤2.2：定义约束函数：

其中，

是像素

周围8个方向的像素；

步骤2.3：定义权重函数W(m，n)：

当w(m，n)＝0时，m和n之间的相应上下文约束将被取消；

步骤2.4：基于两个相邻像素的向量之间的平方差的方法，构造权重函数W(m，n)：

其中，σ为规定参数，σ＝0.5，I(m+Δm，n+Δn)为X^g的输入像素周围8个方向的像素；

步骤2.5：在图像域中加入加权上下文约束，改写公式(1-9)为：

其中，ω代表8个所在位置的像素的不同方向；

步骤2.6：定义高阶滤波器D_Δm，Δn，使D_Δm，Δn在每一个位置(Δm，Δn)的值都满足：

即使D_Δm，Δn在每一个位置(Δm，Δn)的值都满足

其中，ω表示指标集，

为像素的乘法算子，

为卷积算子，D_Δm，Δn表示一个一阶微分算子，W_Δm，Δn表示像素在(Δm，Δn)的一个加权矩阵，||·||₁表示曼哈顿距离的评估；

步骤2.7：定义并最小化下面的目标函数，目标函数(1-14)由公式(1-7)和公式(1-13)得：

其中，ξ是平衡两个条件的正则化参数；对于

符合以下公式：

步骤2.8：定义辅助变量

重写公式(1-15)：

其中，β为预定义的比例因子，

β的初始值β₀为1，最大值β_max为22，通过比例因子

反复增加β，使其从最小值0到最大值22；

步骤2.9：首先，固定

优化

因此，可以直接在位置(m，n)中最优化

其中，sign(·)是信号函数；

其次，固定

优化

因为公式(1-19)是

的二次方程，因此可以重写公式(1-19)：

步骤2.10：使用二维傅里叶变换和假设循环边界条件优化

计算出最优解Y*：

其中，τ是傅里叶变化，τ(·)^-1是反傅里叶变化；

步骤3：循环迭代操作，包括以下步骤：

步骤3.1：在经过上下文正则化计算之后，将得出的最优解Y*与输入的RGB图片

做像素值的相乘，得到一张相乘后的图片Y；

步骤3.2：将步骤3.1中的Y作为输入，重复进行步骤1、步骤2和步骤3.1，基于Y的熵值，设置熵值临界值6.92，使迭代从0到6.92进行，直至预测出与真相最为接近的二值掩膜图。

步骤1.1中，所述的激活函数使用的是修正线性单元，如公式(1-2)所示：

f(x)＝max(0，x)；(1-2)

其中x是激活函数的输入值。

步骤1.4中，所述的学习率R_t的初始值R₀设为10-4。

步骤3.2中，判断图片Y是否为与真相最为接近的二值掩膜图的方法为：通过查准率、召回率、F1_measure和相似度这4个评价指标判断。

本发明的有益效果：

本发明所述的一种基于上下文正则化的图像语义分割方法，通过卷积操作、上下文正则化操作和循环迭代操作解决了现有同类算法图像区域和非图像区域分割不准确的问题，尤其解决了预测图片大面积错误和边缘分割不清晰的问题，提高了图像分割准确程度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明所述高阶滤波器D_Δm，Δn的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示：本发明所述的一种基于上下文正则化的图像语义分割方法，包括以下步骤：

步骤1：在VGG19-FCN网络中进行卷积操作，其中，VGG19-FCN网络由18个卷积层、5个池化层和3个反卷积层构成；具体包括以下步骤：

步骤1.1：假设

是第I层卷积层的第i层特征映射，特征映射

是输入量，

是输出量，即二值掩膜图，如公式(1-1)所示：

其中，

是第I层卷积层的第i层卷积层的卷积核，

是第I层卷积层的第i层卷积层的偏差参数；其中n是

在中特征映射的数量，*表示为卷积操作，f(·)代表激活函数，激活函数使用的是修正线性单元(Rectified linear unit，ReLU)，如公式(1-2)所示：

f(x)＝max(0，x)；(1-2)

其中x是激活函数的输入值；

步骤1.2：卷积操作之后，接着是池化层，本算法中使用的池化操作是最大池化，就是从特征向量

的空间向量中，取最大值保留，其余值舍弃；池化操作可以用公式(1-3)表示为：

其中Ω表示在特征向量

的空间向量的(m，n)位置，Δ代表变量在本算法框架的第7层中；

步骤1.3：反卷积层操作，采用以下方法：

如果直接对第6层网络的输出进行放大32倍的反卷积操作，得到的结果对比于

的真相二值图来说，结果并不精确，有很多错误；因此，按从后向前的顺序，将第4层的输出16倍反卷积之后再根据第3层的输出8倍反卷积，得到的结果比之前未经过此过程的输出结果更加精确；进一步的，反卷积操作用公式(1-4)表示：

其中

表示第I层卷积层的第i层反卷积层的核的值，

表示为反卷积操作；因此，在执行反卷积操作之后，生成一个二值掩膜图

(Binary mask)作为显著性映射图(saliency-guided map)，以分离出显示图像中的图像区域和非图像区域；

步骤4，在经过测试得到预测的二值掩膜图

之后，本发明做了一个参数的调整，以求得最好的效果；学习率的调整如公式(1-5)所示：

其中，t表示变化计数，t＝0，1，2，3；R₀是学习率的初始值，初始值设为10^-4；α为衰减指数；本发明一共进行了15个纪元的卷积操作，其中，每3个纪元减少为之前的α倍，一共变化了4次；本发明将衰减指数α的值设置为0.90；

步骤2：上下文正则化操作，具体包括以下步骤：

步骤2.1：定义

是

在位置(m，n)的值，X^g是灰度图，因为X^g是最接近真相的图，I(m，n)是灰度图X^g在位置(m，n)的像素，可以表示为公式(1-6)：

其中η是最原始的误差，可以用公式(1-7)表示为：

最小化误差参数η，

表示Frobenius范数操作；

步骤2.2：定义约束函数：：

其中，

是像素

的周围8个方向的像素；

步骤2.3：设置一个权重函数为W(m，n)：

权重函数w(m，n)代表在位置(m，n)处加权函数起到了m和n之间的约束的“开关”作用，当w(m，n)＝0时，m和n之间的相应上下文约束将被取消；一个非常关键的问题是如何选择一个合理的w(m，n)；

其中，σ为一个规定参数，值为0.5，I(m，n)和I(m+Δm，n+Δn)分别为X^g的输入像素和输入像素周围8个方向的像素；

步骤2.5：在图像域中加入加权上下文约束；为了便于计算，公式(1-9)可以表示为：

其中，ω代表8个所在位置的像素的不同方向；

步骤2.6：如图2所示：定义高阶滤波器D_Δm，Δn；

设置D_Δm，Δn在每一个位置(Δm，Δn)的值的计算都满足公式(1-12)：

为了方便计算，公式(2-12)使用更合理的表达方法，如公式(1-13)：

其中，

表示像素的乘法算子，

表示卷积算子，W_Δm，Δn表示像素在(Δm，Δn)的一个加权矩阵，||·||₁表示曼哈顿距离的评估；

本发明根据一个最小滤波器的移动窗口，对输入图片的每个像素通道进行滤波，然后将每个通道的最大值作为X^g的分量的估计值；

步骤2.7：定义并最小化下面的目标函数，从而找到一个最优的函数，由公式(1-7)和公式(1-13)得目标函数为：

其中，ξ是平衡两个条件的正则化参数。对于

符合以下公式：

步骤2.8：为了便于计算，本发明采用了一种基于分离变量的优化方法，该方法的基本思想是引入几个辅助变量，构造一系列简单的子问题，最终解收敛到原问题的最优解；定义辅助变量

重写公式(1-15)：

其中，β是预定义的比例因子，设置为

进一步的，初始值β₀为1，最大值β_max为2²；通过比例因子

反复增加β，使循环从最小值0到最大值2²；

步骤2.9：首先，固定

化简

之后固定

化简

重复这个过程，直到收敛，可以有效的解决问题；具体做法如下：

首先，固定

化简

因此，可以直接在位置(m，n)中最优化

其中，sign(·)是信号函数；

其次，固定

优化

因为公式(2-19)是

的二次方程，因此可以重写公式(1-19)：

步骤2.10：使用二维傅里叶变换(2D FFT)和假设循环边界条件优化

可以直接计算出

的最优解Y^*：

其中，τ是傅里叶变化，τ(·)^-1是反傅里叶变化，

表示像素乘法，在公式(1-21)中，除法也以像素的方式计算；在迭代过程中，通过比例因子

反复增加β，使其从最小值0到最大值2²。

步骤3：循环迭代操作，包括以下步骤：

做像素值的相乘，得到一张相乘后的图片Y；图片Y图像区域每一个像素点的值都为0，非图像区域保持不变；

步骤3.2：将步骤3.1中的Y作为输入，重复进行步骤1、步骤2和步骤3.1，基于Y的熵值，设置熵值临界值6.9²，使迭代从0到6.9²进行，直至预测出与真相最为接近的二值掩膜图。

本发明通过计算查准率(Precision)、召回率(Recall，也叫查全率)、F1-Measure和相似度(Similary)判断最终结果是否是与真相最为接近的二值掩膜图。

其中真正例(True Positive，TP)说明答案为0时，预测结果为0；真反例(TrueNegative，TN)说明答案为1时，预测结果为1；假正例(False Positive，FP)说明答案为0时，预测结果为1；假反例(False Negative,FN)说明答案为1时，预测结果为0。

查准率(Precision)为真正正确的个数占整个结果的比例；即在正确答案应该为0这一标准下，预测正确的个数占所有预测结果出的值是0的个数的比例。

召回率(Recall,也叫查全率)为真正正确的个数占整个数据集中真正正确个数的比例；即在正确答案应该为0这一标准下，预测正确的个数占整个数据集中正确答案为0的个数的比例。

F1-Measure是精准率Precision和召回率Recall加权调和平均。

相似度(Similary)为真正正确的个数占预测错误的个数与误报率和漏报率之和；即在正确答案应该为0这一标准下，预测正确的个数，占整个数据集中正确答案为0的个数和正确答案为1而预测答案为0的个数之和的比例。

查准率、召回率、F1_measure和相似度这4个评价指标的值在0-1之间，其中值越接近1，表明最终结果与真相最为接近。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。