CN111160351A

CN111160351A - 基于块推荐网络的快速高分辨率图像分割方法

Info

Publication number: CN111160351A
Application number: CN201911365709.0A
Authority: CN
Inventors: 曲延云; 吴桐; 雷珍珍; 李翠华; 谢源
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-05-15
Anticipated expiration: 2039-12-26
Also published as: CN111160351B

Abstract

基于块推荐网络的快速高分辨率图像分割方法，涉及图像处理。1)构建全局分支与局部精细化分支；2)将原始高分辨率图像下采样,均匀划分成若干图像块；3)将下采样图像输入全局分支中得全局分割特征图，均匀划分成若干特征块；4)将下采样图像输入块推荐网络中获取推荐块；5)根据推荐块标号取出推荐块，与全局分割特征图相应特征块进行显著性操作，将结果输入局部精细化分支；6)局部精细化特征块与全局分割特征图相应位置融合，输出融合后的分割结果作为总体分割结果；7)分割结果与真实标签计算误差损失，训练网络，更新网络参数；8)取任意测试图像，重复步骤1)～6)，得到分割预测结果。分割准确，计算资源消耗低，推理时间少。

Description

基于块推荐网络的快速高分辨率图像分割方法

技术领域

本发明涉及图像处理，尤其是涉及一种基于块推荐网络的快速高分辨率图像分割方法。

背景技术

在人工智能被认为是第四次工业革命以来，全球顶尖、最有影响力的技术公司如google、facebook等都将目光转向AI。神经网络在计算机视觉，自然语言处理等方面的贡献是毋庸置疑的，随着算法的不断完善，部分垂直领域的研究已经落地应用。在计算机视觉领域，目前神经网络的应用主要有图像识别、目标定位与检测、语义分割等。图像识别就是告诉你图像是什么，目标定位与检测告诉你图像中目标在哪里，语义分割则是从像素级别回答上面两个问题。随着深度学习的兴起，语义分割取得了显著的进步。近年来，更多的焦点转移到通过实现对特殊应用如医学图像诊断、城市规划和道路提取以及无人车对道路的识别等问题上来。这些特殊的应用往往是包含2MB高分辨率或4MB超高分辨率图像，若将原图直接输入到流行的语义分割模型中，标准的GPU设备很难承受如此巨大的计算负担，并且要花费大量时间。若采取简单地将原图下采样再输入到流行的语义分割模型中，则会损失过多的细节信息，很难得到好的分割结果。因此，如何对高分辨率以及超高分辨率图像的语义分割取得计算资源消耗、推理速度和准确率三者之间权衡成了一个炙手可热的研究方向。

为了解决高分辨率图像的语义分割显存负载过大的问题，一般采取三种解决方案：一是通过下采样图像的全局方法，二是在原图上裁剪块，“分而治之”思想的局部方法，三是采取以上两种方式互补的全局局部方法。全局方法由于缺少细节特征而分割不准确，局部方法忽略整体的指导信息而常常错误分类。因此，有效结合两者的全局局部方法才是高分辨率语义分割的不二选择。属于全局局部方法的最新方法GLNet(Chen,W.et.al.Collaborativeglobal-local networks for memory-efficient segmentationofultra-high resolution images.In Proceedings of the IEEE ConferenceonComputer Vision and Pattern Recognition,2019.8924–8933)使用全局分支G-branch和局部分支L-branch提取全局特征和局部特征，在两个分支的同一层面进行特征图的双向组合。实验发现该方法在超高分辨率的图像分割方面取得了较好的结果，达到分割精度与显存消耗之间的平衡。然而，该方法平等处理每个图像块，将每个图像块的局部特征与全局特征进行双向融合，造成推理时间的极大消耗。

发明内容

本发明的目的在于针对高分辨率以及超高分辨率图像的语义分割难以取得计算资源消耗、推理速度和准确率三者之间权衡的问题，提供一种可对高分辨率及超高分辨率图像进行快速准确且低显存消耗的基于块推荐网络(Patch Proposal Network,PPN)的快速高分辨率图像分割方法。

本发明包括以下步骤：

1)使用现有的语义分割框架分别构建全局分支G-branch与局部精细化分支R-branch；

2)将原始高分辨率图像下采样成下采样图像,将原始高分辨率图像均匀地划分成若干个图像块；

3)将下采样图像输入全局分支中获得全局分割特征图，然后使用与步骤2)相同的划分方式，将全局分割特征图均匀地划分成若干个特征块。

4)将下采样图像输入块推荐网络PPN中，获取推荐块；

5)在步骤2)的若干个图像块中根据步骤4)获得的推荐块标号，取出推荐块，与全局分割特征图上相应的特征块依次进行显著性操作，最后将显著性操作后的结果依次输入到步骤1)构建的局部精细化分支R-branch中，得到局部精细化特征块；

6)将局部精细化特征块与全局分割特征图进行相应位置的融合，输出融合后的分割结果，作为总体的分割结果；

7)将分割结果与真实标签计算误差损失，使用Adam优化器训练网络，更新网络参数；

8)取任意的测试图像，重复步骤1)～6)，得到分割预测结果。

在步骤4)中，将下采样图像输入块推荐网络PPN中，获取推荐块的具体步骤可为：

(4a)网络接收原高分辨率图像下采样后的图像作为输入，通过块推荐网络结构得到推荐的块号；

(4b)网络的块推荐机制采用如下判别机制：若当前特征块的分割得分I_C低于总体平均得分I_t时，当前特征块将被确定为推荐的块并将其赋予指示值1，否则赋予指示值0；分割得分的度量使用全局分支G-branch中获得的平均交并比(mIoU)，K代表图像块的指示标识，取值为1表示推荐该图像块，取值为0表示不推荐该图像块。其选择机制的表达式如下：

在步骤(6)中，所述将局部精细化特征块与全局分割特征图进行相应位置的融合的具体步骤可为：

(6a)构建与全局分割特征图具有相同大小的模板特征图，使用与划分全局分割特征图相同的划分方式，将模板特征图均匀划分为若干特征块；

(6b)若块推荐网络PPN选择了第i个块，则精细化后的第i个特征块将替换模板特征图中对应的第i个特征块，而未被推荐的特征块则保持不变；

(6c)将重构的模板特征图与全局分割特征图在通道维度上串接在一起，然后将结果输入到包含三个卷积层的聚合层中。

在步骤(7)中，所述使用Adam优化器训练网络的具体步骤可为：

(7a)独立地训练几轮全局分支G-branch；具体地，将下采样后的图像输入全局分支，获得全局分割特征图，然后使用全局分支损失函数

更新全局分支G-branch的权重，全局分支损失函数

表示如下：

其中，γ是调节简单样本权重降低速率的参数，y′_g表示全局分割分支输出的预测分割结果，y_g表示其对应的真实标签；

(7b)将下采样后的图像输入到固定的全局分支G-branch中，并获得输出全局分割特征图，然后分别计算整个全局分割特征图和每个分割特征块的平均交并比mIoU，根据块推荐网络PPN中使用的选择策略，若某个分割特征块的平均交并比mIoU小于全局分割特征图的平均交并比mIoU，则选择该特征块并将相应的标签设置为1，否则设置为0；对于块推荐网络PPN，采用二进制交叉熵损失进行训练；

(7c)在将块推荐网络PPN训练了一个轮后，固定块推荐网络PPN，并将其输出的推荐块标记图指导总体网络中的细化和融合，使用总体损失函数

调整总体网络的权重，交替训练块推荐网络PPN和主体网络，每次各迭代一个轮，直至达到最大的训练轮次或算法收敛为止，总体损失函数

表示为下式：

式中，局部精细化分支损失函数

和聚合层损失函数

的表示形式与步骤(7a)中全局分支损失函数

相似，y′_r表示局部精细化分割分支R-branch输出的预测分割结果，y_r表示其对应的真实标签，y′_a表示网络最终输出的预测分割结果，y_a表示其对应的真实标签，γ是调节简单样本权重降低速率的参数。

本发明考虑到不同图像块对于后续分割结果的不同重要性，通过设计的块推荐网络实现了有效块推荐，能够更有针对性的对图像块进行精细化处理，保证了分割精度，同时在分割效率与资源消耗上取得了平衡。本发明主要实现步骤为：1)将原高分辨率图像下采样输入全局分支得到全局分割特征图。2)将下采样图像输入块推荐网络(Patch ProposalNetwork,PPN)获取推荐块。3)在原图上根据块推荐网络的预测结果取出推荐块，依次输到精细化分支中，得到推荐块的精细化分割结果。4)将步骤3)中的结果与步骤1)中全局分割结果在对应位置上进行融合，得到最终分割结果。

与现有技术相比，本发明具有以下突出优点：

1.本发明有效地取得了高分辨率以及超高分辨率图像的语义分割低计算资源消耗、较快推理速度和高准确率三者之间的平衡，通过使用全局分支G-branch与局部精细化分支R-branch为主体结构，结合嵌入的块推荐网络PPN选择出少量的推荐块并送入局部精细化分支R-branch进行精细化分割，然后，融合全局分支G-branch与局部精细化分支R-branch的分割特征映射图。该方法使得网络获取更多的细节信息，具有更准确的分割能力，降低计算资源消耗，减少推理时间，精度达到了当前流行水平。

2.块推荐网络PPN具有良好的泛化能力，可以轻松的直接集成到其他流行的语义分割框架中，以此提高语义分割网络的分割性能。

3.本发明可用于快速精确的高分辨率或超高分辨率图像分割，如地理信息系统、医疗影像分析、无人车驾驶等领域。

附图说明

图1为本发明的整体网络结构图；

图2为本发明网络结构中的块推荐网络结构图；

图3为本发明与对比方法的实验指标比较图；

图4为本发明与对比方法的实验结果图；

图5为本发明中的块推荐网络泛化性的实验结果图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。

本发明的整体网络结构如图1所示，包括以下步骤：

2)将原始高分辨率图像I下采样成512×512像素的下采样图像I_g,将原始高分辨率图像I均匀地划分成N个图像块{P₁,P₂,…,P_N}；

3)将下采样图像I_g输入全局分支G-branch中获得全局分割特征图F^G，然后使用与步骤2)相同的划分方式，将全局分割特征图F^G均匀地划分成N个特征块{F₁ ^G,F₂ ^G,…,F_N ^G}；

4)将下采样图像I_g同时输入到块推荐网络PPN中，得到所选取推荐块的标号i；

(4a)网络接收原高分辨率图像I下采样后的图像I_g作为输入，通过块推荐网络结构得到推荐的块号。所述块推荐网络结构如图2，下采样图像I_g输入到卷积神经网络CNN获得全局特征F^B以及局部特征块F_i ^B，将这些特征依次经过平均池化层Average poolinglayer、全连接层Fully connected layer得到对应的全局得分G_score和每个图像块的局部特征得分P_score。依次将全局得分G_score和每个图像块的局部特征得分P_score相减得两者的差值，该差值经过归一化函数sigmoid function得到最终输出得分，若得分大于阈值则将推荐块标记图Flag map的对应位置标记为1，否则为0。

(4b)该网络的块推荐机制采用了一种新颖的判别机制：受到教师教学的启发，若教师想提高班级的平均成绩，一种简单的方法是提高低于平均成绩的学生的成绩。因此，该网络采用类似的判别选择规则来指示块推荐网络执行块的推荐。若当前特征块的分割得分I_c低于总体平均得分I_t时，当前特征块将被确定为推荐的块并将其赋予指示值1，否则赋予指示值0。分割得分的度量使用全局分支G-branch中获得的平均交并比(mIoU)，K代表图像块的指示标识，取值为1表示推荐该图像块，取值为0表示不推荐该图像块。其选择机制的表达式如下：

5)在步骤2)的N个图像块{P₁,P₂,…,P_N}中根据步骤4)获得的推荐块标号i，取出图像块P_i，与全局分割特征图F^G上相应的特征块依次进行显著性操作，最后将显著性操作后的结果依次输入到步骤1)构建的局部精细化分支R-branch中，得到局部精细化特征块F_i ^R；

6)将局部精细化特征块F_i ^R与全局分割特征图F^G进行相应位置的融合，输出融合后的分割结果，作为总体的分割结果；

(6a)首先构建与全局分割特征图F^G具有相同大小的模板特征图F^E(初始化为0)并且使用与划分全局分割特征图F^G相同的划分方式，将模板特征图F^E均匀划分为特征块{F₁ ^E,F₂ ^E,…,F_N ^E}。

(6b)若块推荐网络PPN选择了第i个块，则精细化后的特征块F_i ^R将替换模板特征图F^E中的对应特征块F_i ^E，而未被推荐的特征块则保持不变。

(6c)最后，将重构的模板特征图F^E与全局分割特征图F^G在通道维度上串接在一起，然后将结果输入到包含三个卷积层的聚合层(Aggregation layer)中：(3,3,256)，(3,3,256)，(1,1,Nc)，所示的三元组(k,k,s)表示卷积核为k×k，卷积步长为1和特征通道为s，N_c为分割的类别数。

(7a)独立地训练几轮全局分支G-branch。具体地，将下采样后的图像I_g输入全局分支G-branch，获得全局分割特征图F^G，然后使用全局分支损失函数

更新全局分支G-branch的权重。全局分支损失函数

表示如下：

其中，γ是调节简单样本权重降低速率的参数，y′_g表示全局分割分支输出的预测分割结果，y_g表示其对应的真实标签。

(7b)训练块推荐网络(PPN)，必须为块推荐网络PPN准备标签，因此，将下采样图像I_g输入到固定的全局分支G-branch中，并获得输出全局分割特征图F^G，然后分别计算整个全局分割特征图F^G和每个特征块F_i ^G的平均交并比mIoU。根据块推荐网络PPN中使用的选择策略，若特征块F_i ^G的平均交并比mIoU小于全局分割特征图F^G的平均交并比mIoU，则应选择第i个特征块并将相应的标签设置为1，否则设置为0。对于块推荐网络PPN，采用二进制交叉熵损失(BCE Loss)进行训练。

(7c)在将块推荐网络PPN训练了一个轮后，固定块推荐网络PPN，并将其输出的推荐块标记图(Flag map)指导总体网络中的细化和融合，使用总体损失函数

表示为下式：

式中，局部精细化分支损失

和聚合层损失

的表示形式与步骤(7a)中全局分支G-branch的全局分支损失函数

8)取任意的测试图像，重复步骤1)～6)，得到分割预测结果。

以下给出具体实施例。

步骤1，获取数据集图片。

(1a)下载DeepGlobe卫星图像超高分辨率数据集，分辨率为2448×2448像素，含有7个类别，训练集、验证集和测试集分别为455、206、142张。

(1b)下载ISIC皮肤创伤图像超高分辨率数据集，平均分辨率为9MB，最高分辨率为6748×4499像素，含有创伤区域和非创伤区域两个类别，训练集、验证集和测试集分别为2077、260、259张。

(1c)下载CRAG腺体癌变分化高分辨率数据集，分辨率为1512×1516像素，含有腺体和非腺体两个类别，训练集和测试集分别为173、40张。

(1d)下载Cityscapes街景高分辨率数据集，分辨率为2048×1024像素，含有19个要评估的类别，训练集和验证集分别为2975、500张。

步骤2，构建快速的高分辨率图像分割框架。

(2a)以残差网络ResNet50-FPN作为整个网络框架中全局分支G-branch的主干网络，而局部精细化分支R-branch的主干网络则使用的是残差网络ResNet18-FPN。特别地，块推荐网络PPN的主干网络是去掉最后一个residual block的残差网络ResNet18-FPN。

(2b)将原始高分辨率图像I下采样成512×512像素的下采样图像I_g，再输入到全局分支G-branch中获得全局分割特征图F^G。

(2c)将下采样图像I_g也同时输入到块推荐网络PPN中，依据制定的块推荐策略，在推荐块标记图flag map中取得所选取推荐块的标号i。

(2d)根据获得的推荐块标号i，取出高分辨率原图上的图像块Pi，与全局分割特征图F^G上相应的特征块依次进行显著性操作，将显著性操作后的结果依次输入到局部精细化分支R-branch中，得到局部精细化特征块F_i ^R。

(2e)将精细化特征块F_i ^R与全局分割特征图F^G进行相应位置的融合，再经过三个分别为3×3、3×3、1×1的卷积组成的聚合层，得到一个通道为分割的类别数N_c的特征图，最后上采样得到分割的预测结果。

步骤3，网络模型的训练。

(3a)全局分支G-branch和块推荐网络PPN的输入都是将训练集图像下采样到512×512像素，局部精细化分支R-branch的输入也是高分辨率图裁剪成512×512像素的尺寸。

(3b)网络训练120轮，学习率初始化为0.0001，并进行适当的衰减。

(3c)损失函数分为三部分，全局分支G-branch的焦点损失

局部精细化分支R-branch的焦点损失

以及聚合层焦点损失

块推荐网络PPN使用的是交叉熵损失。

步骤4，网络模型的测试。

(4a)将测试集图片的大小缩放成512×512像素，然后输入已训练好的网络。

(4b)用不同的数据集(DeepGlobe、ISIC、CRAG)对模型进行测试，验证模型的性能。

(4c)对本发明的不同模块结构用不同的数据集进行测试，验证模型的性能。

(4d)在街景数据集Cityscapes上验证块推荐网络的有效性以及泛化性。

实验结果以及结果分析：

实验一、本发明在不同数据上的实验结果。

为了验证算法的有效性，表1～3为本发明与其他方法在数据集DeepGlobe、ISIC和CRAG上的分割结果对比。

表1

Model	Memory(M)	Time(ms)	FPS	mIoU(％)
					Proposed Method	1193	10867	12.9	71.9
PSPNet	6289	135964	1.0	56.6
					ICNet	2557	26798	5.3	40.2
BiSeNet	1801	9909	14.2	53.0
					DeepLabv3+	3199	89557	1.6	63.5
DANet	6812	62902	2.3	53.8
					GLNet	1865	276397	0.5	71.6

表2

Model	Memory(M)	Time(ms)	FPS	mIoU(％)
					Proposed Method	1389	24371	10.8	76.5
PSPNet	3679	127429	2.0	77.0
					ICNet	1593	23879	11.0	33.8
BiSeNet	1575	15741	16.3	43.7
					DeepLabv3+	2033	85811	3.0	70.5
DANet	3888	67881	3.8	51.4
					GLNet	1912	638854	0.4	75.2

表3

Model	Memory(M)	Time(ms)	FPS	mIoU(％)
					Proposed Method	945	5260	8.0	88.9
PSPNet	3750	20397	2.0	88.6
					ICNet	2580	9010	4.4	77.6
BiSeNet	1173	3524	10.0	88.1
					DeepLabv3+	3123	25949	1.5	88.9
DANet	4063	14092	2.9	82.3
					GLNet	1763	42483	0.9	85.9

本发明在数据集DeepGlobe上显存占用仅为1193MB，推理时间为10867ms,FPS为12.9(仅次于实时语义分割网络BiSeNet的推理时间9909ms和FPS14.2，但是精度远高于它),精度高达71.9％；在数据集ISIC上显存占用仅为1389MB，推理时间为24371ms,FPS为10.8(仅次于实时语义分割网络BiSeNet的推理时间15741ms和FPS16.3，但是精度远高于它),精度高达76.5％(略差于PSPNet的精度77.0％)；在数据集CRAG上显存占用仅为945MB，推理时间为5260ms,FPS为8.0(仅次于实时语义分割网络BiSeNet的推理时间3524ms和FPS10.0),精度高达88.9％。综合以上三个数据集的结果，本发明的方法已达到了较高的水平，取得了极低的显存占用，较少的推理时间，较高的FPS以及准确的分割精度，实现了计算资源消耗、推理时间以及分割精度三者之间平衡的最好结果，有效缓解了标准GPU无法负载高分辨率及超高分辨率图像分割的显存问题。图3为本发明在数据集DeepGlobe上与对比方法的实验指标比较结果，其中每个方法所代表的圆圈半径越大表示其速度越快，可以观察出本发明方法在图中的左上角位置，达到了极低的显存消耗和较高的分割精度，速度也相当快，说明该发明有效的解决了高分辨率图像分割效率与准确率之间平衡的问题。图4为本发明在数据集DeepGlobe上与对比方法之间的分割结果对比图，可以看出分割的性能非常显著。本发明方法可以分割出较准确的边缘，对于高分辨图像的细节部分分割得很准确。

实验二、本发明方法的不同结构对高分辨率图像分割性能的影响

为了证明算法的有效性，表4展示了在DeepGlobe数据集上块推荐网络使用不同数量块的影响。随着块数量的增多，每个块所包含的细节特征越精确，更有利于提高网络的分割精度，但是网络推理所需要的时间也会相应的增加。因此，为了解决高分辨率以及超高分辨率图像的语义分割难以取得计算资源消耗、推理速度和准确率三者之间权衡的问题，选择块推荐网络的块数量为16，能达到显存消耗1193MB，推理时间10867ms以及分割精度71.9％的最好平衡。

表4

patch num	Memory(M)	Time(ms)	mIoU(％)
				4	1239	12371	71.5
16	1193	10867	71.9
				64	1131	14862	72.4

表5展示了本发明各个部分的实验结果。LocalNet表示仅使用本发明的局部精细化分支R-branch，GlobalNet表示仅使用本发明的全局分支G-branch，EnhanceNet则表示不使用块推荐网络进行额外的块选择，可以看出，本发明通过结合块推荐网络实现了最好的分割结果。

表5

Model	Memory(M)	Time(ms)	mIoU(％)
				LocalNet	853	2718	75.5
GlobalNet	865	3556	88.5
				EnhanceNet	947	6217	87.7
Proposed Method	945	5260	88.9

表6展示了块推荐网络的泛化性。BaseNet使用实时语义分割网络BiSeNet，通过替换全局分支G-branch为更强的分割网络BiSeNet，保持本发明的原结构不变，在块推荐网络的指导下，实现了在Cityscapes数据集上显存消耗1373MB，推理时间20793ms以及分割精度75.2％的结果。因此，该实验说明了块推荐网络的泛化性，可以通过集成到不同的网络结构中实现性能的有效提升。图5是块推荐网络泛化性的实验结果图，通过块推荐网络的指导，基础网络为BiSeNet的网络在数据集Cityscapes得到了有效的性能提升，图5(c)是增加块推荐网络指导后的分割结果，分割得到的边缘比只用基础网络BiSeNet的图5(b)更加精细。

表6

Model	Memory(M)	Time(ms)	FPS	mIoU(％)
					BaseNet	1053	12417	40.3	74.7
Proposed Method	1137	20793	24.0	75.2

本发明通过使用全局分支G-branch与局部精细化分支R-branch为主体结构，结合嵌入的块推荐网络PPN选择出少量的推荐块并送入局部精细化分支R-branch进行精细化分割，然后，融合全局分支G-branch与局部精细化分支R-branch的分割特征映射图。该方法使得网络获取更多的细节信息，具有更准确的分割能力，降低计算资源消耗，减少推理时间，精度达到了当前流行水平。本发明可用于快速精确的高分辨率或超高分辨率图像分割，如卫星对地图像，大型医疗图像等。

Claims

1.基于块推荐网络的快速高分辨率图像分割方法，其特征在于包括以下步骤：

3)将下采样图像输入全局分支中获得全局分割特征图，然后使用与步骤2)相同的划分方式，将全局分割特征图均匀地划分成若干个特征块；

4)将下采样图像输入块推荐网络PPN中，获取推荐块；

8)取任意的测试图像，重复步骤1)～6)，得到分割预测结果。

2.如权利要求1所述基于块推荐网络的快速高分辨率图像分割方法，其特征在于在步骤4)中，将下采样图像输入块推荐网络PPN中，获取推荐块的具体步骤为：

(4b)网络的块推荐机制采用如下判别机制：若当前特征块的分割得分I_C低于总体平均得分I_t时，当前特征块将被确定为推荐的块并将其赋予指示值1，否则赋予指示值0；分割得分的度量使用全局分支G-branch中获得的平均交并比mIoU，K代表图像块的指示标识，取值为1表示推荐该图像块，取值为0表示不推荐该图像块；其选择机制的表达式如下：