CN113643200A

CN113643200A - 基于递归图神经网络解决边缘过平滑的方法及装置

Info

Publication number: CN113643200A
Application number: CN202110848071.7A
Authority: CN
Inventors: 朱鹏飞; 贾安; 刘满杰; 谢津平; 徐寅生; 詹昊; 张云姣; 王守志
Original assignee: Tianjin University; China Water Resources Beifang Investigation Design and Research Co Ltd
Current assignee: Tianjin University; China Water Resources Beifang Investigation Design and Research Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-11-12
Anticipated expiration: 2041-07-27
Also published as: CN113643200B

Abstract

本发明公开了一种基于递归图神经网络解决边缘过平滑的方法及装置，方法包括以下步骤：利用图神经网络建模边缘位置特征，采用更新后的超像素特征来增强边缘像素的表示，并将增强后的边缘像素映射回原规则网格中；利用图神经网络建模所述边缘位置特征和像素关系，利用超像素的特征来增强边缘像素的表示，重新计算得到该些位置的分类结果，递归图传播边缘优化直到输出的分割图的分辨率与原始图像相同。装置包括：处理器和存储器。本发明利用图神经网络建模边缘位置特征与区域超像素特征的关系、超像素与超像素特征之间的关系，更好地利用边缘像素的上下文信息实现更精确的边缘像素分类。

Description

基于递归图神经网络解决边缘过平滑的方法及装置

技术领域

本发明涉及图像语义分割领域，尤其涉及一种基于递归图神经网络解决边缘过平滑的方法及装置。

背景技术

边界像素的分类已经引起了广泛的关注。由于规则网格采样的原因，分割的边界往往被过平滑化。早期，DeepLab等全卷积网络使用后处理方法如CRF(条件随机场)进行边缘优化。后来，在线难样本挖掘和Focal Loss(焦点损失)被广泛用于语义分割任务，从损失函数的角度解决这个问题。近期，出现了一些从模型设计的角度优化边缘的工作，Gated-SCNN(用于语义分割的门控形状的CNN)和EGNet(用边缘信息来指导网络进行重要的目标检测)在网络中加入了边界预测分支来学习边缘像素的分类，PointRend(基于点的渲染)则是将边缘优化问题与渲染问题进行类比，逐次上采样和边缘优化同步进行，由于只针对边缘部分进行优化，降低了内存消耗和计算代价。

近年来，基于图的方法非常流行，并且被证明是一种有效的关系推理方法。图卷积网络(Graph Convolutional Networks，GCN)在视频识别任务中被用于捕获对象之间的关系。Chen等人将GCN用于分割任务中，在Double Attention的基础上，将不同区域的特征表示作为图的节点，在不相交和相距较远的区域之间进行推理，并且不需要目标检测或额外的标注信息。

通常，用于图像分割的CNN(卷积神经网络)基于规则网格：输入图像是规则网格上的像素集合，CNN的中间表示是规则网格上的特征向量，其输出是规则网格上的标签图。规则网格上的CNN方便易用，能够有效地提取图像特征，但在一些具体领域，比如遥感影像屋顶分割任务中，仅使用规则网格上的卷积未必是一种理想的方式。这些神经网络的分割结果往往是过平滑的，由于像素稀疏的高频信号仅仅存在于不同目标之间的边界上，CNN倾向于为相邻像素分配相同的标签。规则网格对平滑区域进行过采样的同时对对象边界进行欠采样，既导致了在平滑区域上的不必要的计算，又使得分割边缘不够锐利。

发明内容

本发明提供了一种基于递归图神经网络解决边缘过平滑的方法及装置，本发明利用图神经网络建模边缘位置特征与区域超像素特征的关系、超像素与超像素特征之间的关系，更好地利用边缘像素的上下文信息实现更精确的边缘像素分类，详见下文描述：

第一方面，一种基于递归图神经网络解决边缘过平滑的方法，所述方法包括以下步骤：

利用图神经网络建模边缘位置特征，采用更新后的超像素特征来增强边缘像素的表示，并将增强后的边缘像素映射回原规则网格中；

利用图神经网络建模所述边缘位置特征和像素关系，利用超像素的特征来增强边缘像素的表示，重新计算得到该些位置的分类结果，递归图传播边缘优化直到输出的分割图的分辨率与原始图像相同。

其中，所述利用图神经网络建模边缘位置特征，采用更新后的超像素特征来增强边缘像素的表示，并将增强后的边缘像素映射回原规则网格中具体为：

将特征张量从规则网格空间投影到交互空间中的特征V，将每个区域表示为一个单独的特征表示，在交互空间中构建一个新的全连接图，节点存储区域的特征表示；

在全连接图上使用图卷积操作进行推理，用更新后的超像素特征来增强边缘像素的表示，并将增强后的边缘像素映射回原规则网格中，逐级上采样递归该过程，使得边缘像素的分割结果不断被优化，最终输出全分辨率的分割结果。

在一种实施方式中，所述利用超像素的特征来增强边缘像素的表示，重新计算得到该些位置的分类结果具体为：

对低分辨率的输出特征进行上采样，选取置信度最低的N个像素，将推理后的区域特征传播至采样的特征上，对特征进行分类。

在另一种实施方式中，所述递归图传播边缘优化具体为：

输入：细粒度特征Xfine；粗预测特征Xcoarse；采样像素数N；

输出：精确的预测Yrefined；

若判断条件为训练，则执行：

(1)选择N个点P，从边缘部分，从平滑区域选择另一个点；

(2)使用Xfine和Xcoarse的坐标P收集特征Xsampled；

(3)计算区域表示、推理和扩充样本Xsampled；

否则，则判断当粗预测特征Xcoarse的规模是否小于细粒度特征Xfine规模，判断为是则执行：

1)Xcoarse＝unsampling(Xcoarse)

2)选择前N个不确定边缘点；

3)使用Xfine和Xcoarse的坐标P收集特征Xsampled；；

4)计算区域表示、推理和扩充样本Xsampled。

第二方面，一种基于递归图神经网络解决边缘过平滑的装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明更好地利用边缘像素的上下文信息实现了更精确的边缘像素分类，在遥感图像语义分割数据集上评估了递归图神经网络的有效性，并与当前最先进的语义分割模型进行比较；

2、本发明在边缘分割精度上取得了良好的分数，同时在常用的语义分割评价指标上也表现较好；

3、本发明相较于DeepLab、PSPNet以及DANet等先进的方法，本发明的模型具备更高的时间和空间效率；

4、本发明还可应用于半监督的语义分割任务中，且本发明在只有部分标注的屋顶分割任务中，能够取得接近于全监督的分割精度。

附图说明

图1为一种基于递归图神经网络解决边缘过平滑的方法的流程图；

图2为一种基于递归图神经网络解决边缘过平滑的方法的区域超像素之间的特征交互和更新图；

图3为一种基于递归图神经网络解决边缘过平滑的方法的超像素和边缘像素之间的特征交互和更新图；

图4为一种基于递归图神经网络解决边缘过平滑的方法的图卷积进行关系推理图；

图5为一种基于递归图神经网络解决边缘过平滑装置的结构示意图。

表1为不同模型在全监督屋顶分割中的性能表现。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种基于递归图神经网络解决边缘过平滑的方法，参见图1，该方法包括以下步骤：

S1：利用图神经网络建模边缘位置特征；

其中，语义分割任务是为图像上的每一个像素Pi分配一个标签Li，其中标签Li属于K个类别。每个图G＝(V，ε，A)通常由它的节点集V、边集ε以及表示边权重的邻接矩阵A构成。接下来本发明实施例会使用A或者G来代表由A定义的图结构。

其中，该步骤S1包括步骤S11和S12，具体为：

S11：CNN全局推理的难度和成本增加的解释；

对于输入特征张量

其中C为特征数，L＝W×H为像素数目，

为实数集，W为图像宽，H为图像高，规则网格坐标上的标准卷积层处理输入Ω＝{1，…，H}×{1，…，W}以提取特征，也就是在由邻接矩阵

定义的图上进行卷积。然后，卷积层计算可表示为Y＝AXW。

单个卷积层可以捕获卷积内核所覆盖的局部关系。但是，要捕获任意形状的不相交和相距较远的区域之间的关系，需要堆叠多个这样的卷积层，这是非常低效的。这样的缺点增加了CNN全局推理的难度和成本。

S12：CNN全局推理的难度和成本增加问题的解决方案；

具体地，将特征张量X从规则网格空间Ω投影到交互空间H中的特征V，将每个区域(超像素)表示为一个单独的特征表示。在交互空间H中，构建一个新的全连接图Ag，节点存储区域的特征表示。如图2所示，接着，在全连接图Ag上使用图卷积操作进行推理，以更新全连接图Ag的节点特征表示。最后，用更新后的超像素(区域)特征来增强边缘像素的表示，并将增强后的边缘像素映射回原来的规则网格中，如图3所示。逐级上采样递归地进行这个过程，使得边缘像素的分割结果不断被优化，最终输出全分辨率的分割结果。

S2：利用图神经网络建模边缘位置特征和像素关系；

其中，该步骤S2包括步骤S21至S24，具体为：

S21：获得区域超像素特征表示；

具体地，找到一个映射函数f(.)将规则网格上的特征映射到整合后的超像素空间H。然后f(.)可以通过无监督的聚类算法实现。输入特征

目标是学习一个映射函数来得到新的超像素特征

其中，N为超像素特征的数量。这里使用简单的线性组合来获得区域的特征表示，每一个超像素的特征可由下式求得：

其中，

是可学习的参数，

这里的B可由一个简单的1×1卷积层的输出来实现。

S22：获得超像素间的关系推理；

这里将超像素特征视为全连接的无向图的节点，利用图卷积网络GCN在图上进行推理。具体地，用G和Ag表示N×N邻接矩阵，Ag随机初始化并在训练过程中进行学习，下式表示了单层的GCN运算：

Z＝GVW_g＝[(I-A_g)V]W_g (2)

其中，V为超像素特征，Wg为权重矩阵。

训练过程中，邻接矩阵学习边缘权重，这些权重反映了不同区域(超像素)特征之间的关系。经过特征扩散，每个节点都已接收到相关联的必要信息，并通过线性变换来更新其状态。如图4所示，展示了沿通道方向和节点方向进行图卷积操作。

S23：获得像素的采样与特征表示；

在实践中，边缘像素坐标可以通过难样本采样获得。具体采样过程如下：首先在空间上进行随机均匀过采样，然后计算采样点的不确定性，在这些像素中选择前N个不确定的点作为采样点。为了整合不同尺度的特征信息，利用浮点坐标在多个尺度的特征上收集像素特征。

S24：超像素与边缘像素关系推理；

将上一步推理得到的超像素特征传播至边缘像素上，利用超像素的表示来增强边缘像素的表示，即将超像素节点与边缘像素节点构成的一张带权有向二部图，在其上进行单向的特征传播，更新后的边缘像素特征可以用下式表示：

其中，推理后的超像素特征

边缘像素特征

K是采样的边缘像素数量，[.，.]表示沿通道连接，C’表示推理后的特征数，d_i为像素i的传播距离，d_ij为像素i到像素j的传播距离，Z_j为像素j的超像素特征，y_i为像素i的边缘像素特征。

S3：利用图神经网络建模递归结构；

每个细分点的特征可以通过线性插值得到，通过S1和S2两步骤将超像素的特征来增强边缘像素，重新计算得到这些位置的分类结果，平滑区域的像素无需细化。在不同分辨率的特征图上，GCN的参数共享。循环优化边缘，直到输出的分割图的分辨率与原始图像相同。

递归优化边缘的详细过程可以采用算法1表达。在测试时，首先对低分辨率的输出特征进行上采样，选取置信度最低的N个像素，将步骤S22推理后的区域特征通过步骤S24的方法传播至这些采样的特征上，对这些特征进行分类。在训练过程中，区别仅在于采样方式的不同，采样的点包括：平滑区域和边缘区域的像素，也不进行逐级上采样。

递归图传播边缘优化算法流程如下：

输入：细粒度特征Xfine；粗预测特征Xcoarse；采样像素数N；

输出：精确的预测Yrefined；

若判断条件为训练，则执行：

(1)选择N个点P，从边缘部分，从平滑区域选择另一个点；

(2)使用Xfine和Xcoarse的坐标P收集特征Xsampled；

(3)计算区域表示、推理和扩充样本Xsampled；

(1)Xcoarse＝unsampling(Xcoarse)

(2)选择前N个不确定边缘点；

(3)使用Xfine和Xcoarse的坐标P收集特征Xsampled；；

(4)计算区域表示、推理和扩充样本Xsampled。

S4：实施例的实验说明；

本发明实施例数据集说明：数据集包含了中国天津市南开区和河东区的高清遥感图像，遥感分辨率为1m。图像的语义标签使用ArcGIS进行人工标注。因为获得精细的像素级的语义分割标签是一件十分耗费人力的工作，在实践中，在目标区域绘制矩形框或者在目标上绘制草图涂鸦成本要低得多。所以本方法使用全监督的数据集生成半监督的数据集用于实验，模拟只有少量粗糙标记的情形。对于全标注的屋顶，只保留其中心部分的部分像素标签，其他部分设置为未标注区域，本方法使用少量的标注数据进行训练。数据集被随机划分为训练集、验证集和测试集三个部分，划分比例为7:1:2。

本发明实施例在PyTorch深度学习框架下实现。训练时，设置的学习率为0.005，使用SGD优化器训练500个epoch，batch size设置为8，momentum设置为0.9，weight decay设置为0.005，使用了在线数据增广的方式，包括随机裁剪、随机翻转和多尺度缩放。输入图像的尺寸为2048×1024，经过变换后裁剪出1024×640的区域输入神经网络。CrossEntropyLoss作为损失函数。在两台配备双1080Ti的服务器上进行多机多卡并行训练。算法分割的结果与人工标注相比，往往存在大量零碎的错误标注、过于平滑的边缘以及非平直的边角。因此本方法使用多种后处理方式来进一步优化分割结果。本方法利用条件随机场来去除零碎的错误标注。迭代推理5次。因为实践中希望屋顶分割的结果为规则多边形，因此本方法使用道格拉斯算法进行多边形简化。

本发明实施例在多种模型上进行了实验，实验结果如表1所示。公平起见，本发明实施例使用了最新的DeepLabv3和PSPNet在PyTorch框架的实现，并将其整合至代码中，与本方法使用相同的数据增广和训练方式。从mean IOU、mean accuracy、pixel accuracy三个层面对比精度，可见本发明的算法表现优于公开DeepLabv3、PSPNet算法。

表1不同模型在全监督屋顶分割中的性能表现

方法	mean IoU	mean accuracy	pixel accuracy
				DeepLabv3	86.11	92.29	95.37
PSPNet	86.83	92.37	95.66
				本发明方法	87.34	92.79	95.84

分析表1得到如下结论：在同等环境下，采用本方法进行遥感图像语义分割时，其分割性能相比DeepLabv3和PSPNet，本方法为最佳。具体地：本方法IoU较DeepLabv3高1.23，较PSPNet高0.51；本方法平均准确率较DeepLabv3高0.5，较PSPNet高0.42；像素精度较DeepLabv3高0.47，较PSPNet高0.18。

基于同一发明构思，本发明实施例还提供了一种基于递归图神经网络解决边缘过平滑的装置，该装置包括：处理器和存储器，存储器中存储有程序指令，处理器调用存储器中存储的程序指令以使装置执行方法步骤：

其中，利用图神经网络建模边缘位置特征，采用更新后的超像素特征来增强边缘像素的表示，并将增强后的边缘像素映射回原规则网格中具体为：

在一种实施方式中，利用超像素的特征来增强边缘像素的表示，重新计算得到该些位置的分类结果具体为：

在另一种实施方式中，递归图传播边缘优化具体为：

输入：细粒度特征Xfine；粗预测特征Xcoarse；采样像素数N；

输出：精确的预测Yrefined；

若判断条件为训练，则执行：

(1)选择N个点P，从边缘部分，从平滑区域选择另一个点；

(2)使用Xfine和Xcoarse的坐标P收集特征Xsampled；

(3)计算区域表示、推理和扩充样本Xsampled；

1)Xcoarse＝unsampling(Xcoarse)

2)选择前N个不确定边缘点；

3)使用Xfine和Xcoarse的坐标P收集特征Xsampled；；

4)计算区域表示、推理和扩充样本Xsampled。

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于递归图神经网络解决边缘过平滑的方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于递归图神经网络解决边缘过平滑的方法，其特征在于，所述利用图神经网络建模边缘位置特征，采用更新后的超像素特征来增强边缘像素的表示，并将增强后的边缘像素映射回原规则网格中具体为：

3.根据权利要求1所述的一种基于递归图神经网络解决边缘过平滑的方法，其特征在于，所述利用超像素的特征来增强边缘像素的表示，重新计算得到该些位置的分类结果具体为：

4.根据权利要求1所述的一种基于递归图神经网络解决边缘过平滑的方法，其特征在于，所述递归图传播边缘优化具体为：

输入：细粒度特征Xfine；粗预测特征Xcoarse；采样像素数N；

输出：精确的预测Yrefined；

若判断条件为训练，则执行：

(1)选择N个点P，从边缘部分，从平滑区域选择另一个点；

(2)使用Xfine和Xcoarse的坐标P收集特征Xsampled；

(3)计算区域表示、推理和扩充样本Xsampled；

1)Xcoarse＝unsampling(Xcoarse)

2)选择前N个不确定边缘点；

3)使用Xfine和Xcoarse的坐标P收集特征Xsampled；；

4)计算区域表示、推理和扩充样本Xsampled。

5.一种基于递归图神经网络解决边缘过平滑的装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-4中的任一项所述的方法步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求1-4中的任一项所述的方法步骤。