CN113538472B

CN113538472B - 一种基于编码-解码网络的向量场引导精细化分割方法

Info

Publication number: CN113538472B
Application number: CN202110752882.7A
Authority: CN
Inventors: 文颖; 单昕昕
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2022-07-08
Anticipated expiration: 2041-07-02
Also published as: CN113538472A

Abstract

本发明公开了一种基于编码‑解码网络的向量场引导精细化分割方法，其特点是采用卷积循环神经网络对卷积神经网络提取的多尺度特征图进行向量场细化和预测分数图的方法，结合向量场中的流场和方向场来引导精细化分割，利用多尺度语义特征并获得更精细的分割结果，具体包括：图像划分和灰度归一化、网络的构建和训练、图像分割等步骤。本发明与现有技术相比能充分融合和利用不同尺度的特征信息，可以在基于CNN的不同骨干网络上灵活工作，有效地增强了对图像中不同变化的鲁棒性，进一步提高了分割精度。

Description

一种基于编码-解码网络的向量场引导精细化分割方法

技术领域

本发明涉及图像分割技术领域，尤其是一种基于编码-解码网络的向量场引导精细化分割方法。

背景技术

图像分割技术是计算机视觉的基础之一，也是对图像进行语义理解的难点之一。随着深度学习理论的蓬勃发展和计算资源的不断增长，极大地提升了图像分割的效率和精度。 Long等人在2015年提出了全卷积神经网络(FCN)，将一般分类网络最后的全连接层修改成卷积层，并在特征融合的过程中采用逐点相加的策略；同年，Navab等人提出了在通道层面上拼接并融合特征的U-Net；此后，何恺明等人提出了残差网络(ResNet)学习层间的残差表示，在一定程度上解决了Zisserman在2014年提出的VggNet网络过深而导致的学习退化问题。然而，当前现有的工作对不同尺度特征的融合方式还有待改进，处理过程中还存在信息的损失，而且由于多尺度的特征可以被视为序列数据，RNN比CNN更具有在层次结构中处理多尺度特征的优势。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于编码-解码网络的向量场引导精细化分割方法，采用卷积循环神经网络对卷积神经网络提取的多尺度特征图进行向量场细化和预测分数图的方法，利用CNN来提取多尺度特征图，以及FRU处理每一尺度的特征图，通过融合操作聚合全尺度的特征图，然后利用FRU进一步融合多尺度分数图，并连接在一起，得到初始预测的分割，其边缘分割在方向场模块中通过方向场进行矫正，从而最大限度地利用全尺度的特征信息，得到最终的分割结果，该方法不仅结合了CNN和RNN 的优势，还结合了向量场中的流场和方向场来引导精细化分割，网络的编码器依赖基于CNN 的骨干网络，而解码器则依赖于由卷积循环神经网络(ConvRNN)和流场构成的细粒度循环单元(FRU)，融合操作和方向场模块，较好解决了图像分割中多尺度特征融合和利用的问题，具有广泛的应用前景。

实现本发明目的的具体技术方案是：一种基于编码-解码网络的向量场引导精细化分割方法，其特点是不仅结合了卷积神经网络(CNN)和循环神经网络(RNN)的优势，还结合了向量场中的流场和方向场来引导精细化分割，编码器利用CNN作为骨干网络来提取多尺度特征图(feature map)，解码器利用了卷积循环神经网络(ConvRNN)和向量场的优势，分两个阶段来分别细化特征图和预测分数图(score map)，以更好地利用多尺度语义特征并获得更精细的分割结果，其具体过程包括如下步骤：

a步骤：将图像划分成训练集和测试集；

b步骤：预处理所有图像；

c步骤：构建一个编码-解码结构的分割网络；

d步骤：利用训练集中的图像训练网络；

e步骤：利用训练好的网络对测试集中的图像进行分割。

所述图像为待分割图像的原始图像。

所述a步骤中随机选取图像的60％组成有标签的训练集，其余40％组成没有标签的测试集，标签是像素点以类别编号表示的图像且和对应的训练图像具有相同大小。

所述b步骤中所述预处理是将所有图像的灰度归一化。

所述c步骤中根据资源限制和需求选择合适的基于CNN的骨干作为编码器，而解码器的结构是固定的。

所述d步骤中利用训练集中的图像训练网络，具体计算包括如下步骤：

步骤d1：利用编码器中的CNN生成图像的特征图；

步骤d2：在解码器的第一个阶段，利用由ConvRNN和流场构成的细粒度循环单元(FRU) 来融合上下文的特征信息，然后利用全尺度融合模块进行全尺度的特征融合；

步骤d3：在解码器的第二个阶段，将各尺度的特征通过卷积操作变换成预测分数图，再次利用FRU融合上下文的特征信息，将获得的多个分数图拼接起来并卷积，得到一个初始的分割预测结果，然后利用方向场信息矫正边缘的分割，得到最终的分割结果；

步骤d4：用迭代的方式进行训练，每一轮迭代都重复上述步骤d1到步骤d3，通过前向传播来计算由交叉熵损失和角损失构成的目标函数，并通过反向传播来更新模型参数，直到目标函数收敛才停止训练。

所述e步骤中将测试图像输入训练好的网络，重复步骤d1到步骤d3，得到分割的预测结果。

本发明与现有技术相比具有充分融合和利用不同尺度的特征信息，可以在基于CNN的不同骨干网络上灵活工作，有效地增强了对图像中不同变化的鲁棒性，进一步提高了分割精度，较好解决了图像分割中多尺度特征融合和利用的问题，具有广泛的应用前景。

附图说明

图1为本发明流程图；

图2为分割网络中的FRU结构示意图；

图3为全尺度融合模块结构示意图；

图4为方向场示意图；

图5为方向场模块结构示意图；

图6为分割结果对比图。

具体实施方式

结合以下部分人脸识别的具体实施例，对本发明做进一步的详细说明。

参阅图1，本发明包括：图像划分与预处理、构建网络、训练网络和测试网络四个部分，其图像分割的具体步骤如下：

步骤a：将图像划分成训练集和测试集

随机选取60％待分割图像的原始图像组成有标签的训练集，其余40％组成没有标签的测试集，标签是像素点以类别编号表示的图像且和对应的训练图像具有相同大小。

步骤b：预处理所有图像

由于图像采集的过程中受到光照等因素的影响，图像灰度可能集中在一个或几个灰度段的范围内，较大的图像灰度分布差异将会影响到特征提取和识别，所以在预处理中需要将所有图像的灰度归一化。对于每个图像I，利用灰度拉伸的方法按下述a式将其中的每个像素点I(x,y)的灰度变换到0～255的范围内：

式中：max(I)和min(I)分别表示计算图像I中所有像素点中的最大灰度值和最小灰度值。

步骤c：构建一个编码-解码结构的分割网络

根据资源限制和需求选择合适的基于CNN的骨干网络作为编码器，一般选择应用较为成熟的网络例如U-Net，VggNet和ResNet等。而解码器的结构是固定的，它包含细化特征图和细化分数图两个阶段。在第一个阶段细化特征图的过程中，包含由 ConvRNN和流场构成的FRU和融合操作，在第二个阶段细化预测分数图的过程中，包含FRU和方向场模块。

步骤d：利用训练集中的图像训练网络

步骤d1：利用编码器中的CNN生成图像的特征图(feature map)，假定CNN编码的层数为L，则可以得到L个特征图的{F₁,F₂,…,F_L}；

步骤d2：在解码器的第一个阶段，对于第i个特征图F_i，利用FRU融合上下文特征信息，其计算如下述b式：

P_i＝FRU(P_i-1,F_i),i＝1,2,…L (b)；

式中：P₀是初始化为全零的张量。

参阅图2，FRU需要学习一个二维向量表示的流场δ用于修正P_i-1在上采样过程中产生的信息损失，其计算如下述c式：

式中：下标x和y分别表示特征图上每个像素点p的坐标。

所述FRU中ConvRNN由下述d式为：

式中：σ(·)表示sigmoid激活函数；

表示卷积操作；W_P和W_F分别表示

和F_i的权重。

参阅图3，对于P_i(i>1)，按下述e式进行全尺度的特征融合：

P′_i＝fuse(P′₁,P′₂,…,P_i,P_i+1,…,P_L),i>1 (e)。

步骤d3：在解码器的第二个阶段，为了获得分数图用于预测分割，将上一阶段得到的各尺度的特征{P₁,P′₂,…,P′_L}通过卷积操作变换成分数图(score map)，即 {H₁,H₂,…,H_L}。对于H_i，再次利用FRU由下述f式进行融合上下文的特征信息：

S_i＝FRU(H_i,H_L),i＝1,2,…L-1 (f)；

将获得的分数图S_i拼接起来并卷积，可以得到一个初始的分割预测结果y_init。

参阅图4，对于y_init的每个前景像素点p，找到一个离它最近的在分割组织边缘的像素点F_p，得到由下述g式二维向量表示的方向场，由从F_p指向p的向量组成：

参阅图5，在方向场模块中由下述h式利用方向场

来矫正边缘的分割：

得到由下述i式表示的分割结果y_f：

式中：

步骤e：利用训练好的网络对测试集中的图像进行分割。

将测试图像输入上述训练好的网络，重复步骤d1到步骤d3，以得到分割的预测结果。

参阅图6，其中，图6a为MRBrainS数据库中待分割图像的原始图像；图6b是用SFNet网络(Li等人于ECCV 2020提出)得到的分割结果；图6c是用CRDN网络(Wen 等人于AAAI 2020提出)得到的分割结果；图6d是实施例1采用本发明得到的分割结果；图6e是待分割图像的真实分割结果。实施例1的分割结果(图6d)与其它神经网络的分割结果(图6b和图6c)的对比，可以看出本发明的分割结果与真实结果更加接近，分割效果更好。

以上实施例只是对本发明做进一步说明，并非用以限制本发明专利，凡为本发明等效实施，均应包含于本发明专利的权利要求范围之内。

Claims

1.一种基于编码-解码网络的向量场引导精细化分割方法，其特征在于采用卷积循环神经网络对卷积神经网络提取的多尺度特征图进行向量场细化和预测分数图，利用多尺度语义特征获得分割结果，具体包括如下步骤：

a步骤：图像的划分

随机选取60%的图像组成有标签的训练集，其余40%的图像组成没标签的测试集；

b步骤：图像的预处理

将训练集和测试集中所有图像的灰度归一化；

c步骤：分割网络的构建

根据资源限制和需求选择卷积神经网络的骨干为编码器，构建编码-解码结构的分割网络；

d步骤：训练网络

利用训练集中预处理后的图像，按下述步训练网络：

步骤d1：利用编码器中的CNN生成图像的特征图；

步骤d2：在解码器的第一个阶段，利用由ConvRNN和流场构成的细粒度循环单元来融合上下文的特征信息，然后利用全尺度融合模块进行全尺度的特征融合；

步骤d3：在解码器的第二个阶段，将各尺度的特征通过卷积操作变换成预测分数图，再次利用细粒度循环单元融合上下文的特征信息，将获得的多个分数图拼接起来并卷积，得到一个初始的分割预测结果，然后利用方向场信息矫正边缘的分割，得到最终的分割结果；

步骤d4：用迭代的方式进行网络训练，每一轮迭代都重复上述步骤d1~d3，通过前向传播计算由交叉熵损失和角损失构成的目标函数，并通过反向传播来更新模型参数，直到目标函数收敛才停止训练；

e步骤：图像的分割

将测试集中预处理后的图像输入上述训练好的网络，重复d1~d3步骤，对测试集中的图像进行分割，得到分割的预测结果。

2.根据权利要求1所述基于编码-解码网络的向量场引导精细化分割方法，其特征在于所述a步骤和b步骤中的图像为待分割图像的原始图像。

3.根据权利要求1所述基于编码-解码网络的向量场引导精细化分割方法，其特征在于所述解码器的结构是固定的。

4.根据权利要求1所述基于编码-解码网络的向量场引导精细化分割方法，其特征在于所述标签是像素点以类别编号表示的图像且和对应的训练图像具有相同大小。