CN112989919A

CN112989919A - 一种从影像中提取目标对象的方法及系统

Info

Publication number: CN112989919A
Application number: CN202011573352.8A
Authority: CN
Inventors: 张振鑫; 李振; 钟若飞; 陈思耘
Original assignee: Capital Normal University
Current assignee: Capital Normal University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-06-18
Anticipated expiration: 2040-12-25
Also published as: CN112989919B

Abstract

本发明涉及一种从影像中提取目标对象的方法及系统，所述方法包括以下步骤：S1:接收输入的影像和目标对象提取请求，所述提取请求用于指示需要提取的目标对象；S2:调用语义分割深度学习模型，提取所述影像中的目标对象的特征信息；S3:基于提取得到目标对象的特征信息，输出目标对象的影像。本发明能够实现精确的端对端建筑物提取分割，提高了目标对象的提取精度和提取效果。

Description

一种从影像中提取目标对象的方法及系统

技术领域

本发明属于遥感影像处理技术领域，尤其涉及一种从影像中提取目标对象的方法及系统。

背景技术

利用高分辨遥感图像进行快速、高效的建筑目标提取是土地资源管理、精细化制图、土地利用变化监测、人居环境适宜性评估等应用的基础。然而，高分辨率图像也带来了计算量大、计算过程复杂、部分信息冗余等问题，加之建筑物存在空间的多尺度性、结构复杂性、分布的较大差异性及周围复杂等问题，对高分辨率影像中建筑信息的高效提取造成了一定的困难和挑战。

当前，建筑物提取算法可分为基于传统特征的方法与基于深度学习特征的方法。在基于传统特征的方法中，学者们提出了大量的建筑物提取算法，但这些算法大多基于手动设计的特征，如纹理、几何、边缘、多光谱和阴影等，并通过诸如支持向量机、AdaBoost、随机森林或条件随机场等对每个像素进行预测，得到提取结果。

深度学习通过构建多层次模型从数据中获取高层抽象特征，以提高分类或检测精度。这种自我学习特征的性能超越并逐渐替代了传统的人工经验设计的特征。在遥感影像建筑物提取方面，(Zhong et al.2016)使用全卷积网络(FCN)模型，从RGB图像中提取道路和建筑物。(Bittner et al.2018)使用FCN网络，结合来自不同数据源的光谱和高度信息以提高建筑物提取精度。(Wu et al.2018)使用U-Net框架提取建筑物,并提出多约束方法,增强网络的多尺度特征。(Liu et al.2018)利用高斯金字塔技术构建多层训练样本，以提高对不同尺度、不同空间分辨率的建筑物检测精度。为提升建筑物的线性和直角特征，(Chenet al.2018b；Lin et al.2019)使用条件随机场进行后处理，提升建筑物边界检测效果。(Cao et al.2019)提出数字地表模型融合模块来聚合深度信息以提取建筑物。(Zhu etal.2019；Niu 2020)引入注意力机制以增加网络对建筑物的特征权重。

在高分辨率遥感影像中，建筑物、街道、停车场和汽车等目标的类内方差增加，类间方差减小，且建筑物在外观与光谱值上和其他类别易混淆，不同建筑材料、体量和光照条件表现在遥感影像上也会有明显的差异，这都使建筑物语义标记变得更加困难。基于传统特征的方法针对某些影像数据有一定效果，但模型泛化能力还需要进一步提高。

相较于自然场景图像，遥感影像中建筑物目标具有分布离散、复杂，大小不一，多细节特征等特点，传统语义分割方法并不直接适用于遥感影像的建筑物语义分割。近几年所采用的深度学习方法，如DANet，PAN没有顾及模型内部不同通道间的差异性、显著性及多层次融合关联性。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种从影像中提取目标对象的方法及系统，通过调用语义分割深度学习模型提取影像中目标对象的特征信息，并基于提取的特征信息构建输出目标对象的影像，提高了目标对象的提取精度和提取效果。

根据本发明的一个方面，本发明提供了一种从影像中提取目标对象的方法，所述方法包括以下步骤：

S1:接收输入的影像和目标对象提取请求，所述提取请求用于指示需要提取的目标对象；

S2:调用语义分割深度学习模型，提取所述影像中的目标对象的特征信息；

S3:基于提取得到目标对象的特征信息，输出目标对象的影像。

优选地，所述语义分割深度学习模型包括特征提取网络模块，所述特征提取网络模块具有基于通道分组的横连残差网络结构，所述特征提取网络模块将影像转为多通道特征图，并对特征图通道进行细分，得到不同通道间的特征信息，所述特征提取网络模块采用多个阶段依次提取的方式得到目标对象在不同阶段的特征信息，通过横向连接结构将不同阶段通道分组间的特征相融合，得到目标对象的第一特征信息。

优选地，所述语义分割深度学习模型还包括多尺度空间注意力模块，所述多尺度空间注意力模块接收所述特征提取网络模块发送的所述目标对象的所述第一特征信息，聚合影像中不同区域的上下文语义信息，结合所述上下文语义信息收集不同尺度、不同层次的特征信息，获取影像中目标对象的空间关系，得到目标对象的第二特征信息。

优选地，所述语义分割深度学习模型还包括逐级上采样解码模块，所述逐级上采样解码模块接收所述多尺度空间注意力模块发送的第二特征信息，将所述第二特征信息和所述特征提取网络模块采用多个阶段依次提取的方式得到的目标对象在不同阶段的特征信息进行融合，通过双线性插值进行逐级上采样，得到目标对象的第三特征信息。

优选地，通过以下方式生成对尺度特征：

其中，FA_i表示特征图，ζ(·)表示横向连接结构，σ(·)表示批量归一化和修正线性单元ReLU激活函数，

表示转置卷积操作。

根据本发明的另一方面，本发明还提供了一种从影像中提取目标对象的系统，所述系统包括：

接收单元，用于接收输入的影像和目标对象提取请求，所述提取请求用于指示需要提取的目标对象；

提取单元，用于调用语义分割深度学习模型，提取所述影像中的目标对象的特征信息；

输出单元，用于基于提取得到目标对象的特征信息，输出目标对象的影像。

优选地，通过以下方式生成对尺度特征：

表示转置卷积操作。

有益效果：本发明通过调用语义分割深度学习模型提取影像中目标对象的特征信息，并基于提取的特征信息构建输出目标对象的影像，提高了目标对象的提取精度和提取效果。

通过参照以下附图及对本发明的具体实施方式的详细描述，本发明的特征及优点将会变得清楚。

附图说明

图1是本发明的目标对象提取方法流程图；

图2是本发明实施例用于建筑物提取的基于横向连接残差块的多尺度空间注意力深度学习方法框架

图3是本发明实施例提供的通道分组横连残差块结构示意图；

图4是本发明实施例提供的多尺度空间注意力模块示意图；

图5是本发明的方法和现有的方法在WHU数据集中的测试结果展示图；

图6是本发明的方法和现有的方法在INRIA数据集中的测试结果展示图；

图7是本发明的方法和现有的方法结构的对比结果示意图；

图8是本发明的方法和现有的方法在WHU数据集中的评价指标比较结果示意图；

图9是本发明的方法和现有的方法在INRIA数据集中的评价指标比较结果示意图；

图10是本发明的目标对象提取系统示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1是本发明的目标对象提取方法流程图。如图1所示，本发明提供了一种从影像中提取目标对象的方法，所述方法包括以下步骤：

S1:接收输入的影像和目标对象提取请求，所述提取请求用于指示需要提取的目标对象。

本步骤中，输入的影像可以是遥感影像，也可以是其他的以图片形式存在的影像，本发明对此不作限制。

在输入影像时，可以输入目标对象提取请求，所述提取请求用于指示需要提取的目标对象，具体地，可以对影像进行分区编号，使用编号来表示需要提取的区域，或者通过默认的方式来指示需要提取的区域，此仅为示例，可以采用本领域中能够实现的其他方式来指示需要在影像中提取哪些区域作为目标对象，本发明对此不作限制。

S2:调用语义分割深度学习模型，提取所述影像中的目标对象的特征信息。

具体地，如图2和图3所示，在网络中，具体设计了三个模块：由通道分组的横连残差块组成的特征提取网络模块，使网络在提取特征时着重关注并融合不同通道间的特征信息；多尺度空间注意力模块，用于对主干网络提取的特征赋予上下文信息；逐级上采样解码模块，在解码时融合包含丰富空间细节的低层特征，得到最终预测结果。

在每个残差块中构造了基于通道分组的横向连接结构来提取特征，与传统的残差块直接对整组通道进行卷积运算提取特征不同，在进行1×1卷积运算后，对特征图的所有通道进行均匀分组，对每组特征图分别进行卷积处理。除了第一组之外，后续每组输入特征与前一组的卷积输出特征叠加后再进行卷积，重复此操作至最后一组特征图，最后将所有组的特征图叠加后一同进行1×1卷积运算，实现不同尺度建筑物的特征融合。

具体来说，残差块中特征图的大小为H×W，总共有C个通道。将所有的特征地图通道均等分成N个通道子集(在图2中N＝4)。与原始特征地图相比，每个子集的特征地图具有与通道相同的大小(H×W)，但是只有C/N个通道。

将获得的第i个通道子集的特征图表示为X_i

对这N组通道子集的特征图，分别使用3×3的卷积核进行卷积操作，在公式(1)中用φ_3×3(·)来表示。Y_i

表示第i组子集对应的特征输出结果，除第一组子集X₁外，后续每组子集X_i，(i＝2,…,N)都与前一组子集的输出结果(公式(1)中的Y_i-1)相叠加后再进行卷积操作。由此，Y_i可以由下面的公式(1)表示：

每组通道的卷积运算可以提取之前所有通道子集的对应特征图。这样，通过在每个残差块中进行通道分组和横向连接操作，最终融合的特征可以获取不同尺度的感受野，由此既可以提取不同通道的信息，又可以实现全局和局部特征的联合提取，从而实现对散乱建筑物目标的鲁棒检测。

影像中的每一个像素点不可能单独存在，而是与周围像素有一定的关系，大量像素的相互联系产生了影像中的各种物体，上下文特征即是指像素以及周边像素的某种联系。在语义分割任务中，必须分类出每一块区域的像素属于什么目标，即语义信息。在判断某一个位置上的像素属于哪种类别时，不仅考察到该像素的灰度值，还充分考虑和它临近的像素间的联系，即上下文语义信息。

目前，大多数语义分割网络直接使用多层线性卷积网络来提取图像特征，但多次卷积运算可能会减少特征图的空间细节信息，导致分割边界模糊、混叠，缺乏对重要上下文信息的提取。

为解决这一问题，本实施例在特征提取网络之后设计了一个多尺度空间注意力模块(如图4所示)，对于网络最终输出的特征图(FA₀)，通过三次卷积运算，逐步提取不同尺度的特征{FA_i|i＝1，2，3}。对于特征图FA_i，在卷积运算中设置不同参数大小的卷积核，零填充和采样步长以获取多尺度信息。最终，相对于FA₀(H×W)，特征图FA_i的高与宽分别为1/2ⁱ×H与1/2ⁱ×W。具体的实现细节如公式(2)所示：

FA_i＝φ(FA_i-1|K_9-2i，P_4-i，S₂) (2)

其中φ(·)表示对特征图FA_i进行的卷积操作，K，P，S表示卷积中的卷积核，零填充和采样步长参数，对应的下标(9-2i，4-i，2)分别代表对应参数的大小。

本实施例设计了一种自下而上的路径和横向连接来生成多尺度特征{FM_i|i＝1，2，3}，其步骤如公式(3)所示：

其中ζ(·)表示横向连接结构，在实验中采用1×1卷积操作来实现。σ(·)表示批量归一化和修正线性单元ReLU激活函数操作，其中，修正线性单元(Rectified LinearUnit)用以将特征矩阵中所有负值都设为零，保持其余值不变。ReLU激活函数在网络中加入非线性因素，提高模型表达能力。

表示转置卷积操作。通过设计的自下而上路径和横向连接结构，多尺度特征提取模块可以聚合不同区域的上下文语义信息，使特征更加突出。

本发明实施例首先通过全局平均池化(GAP)操作将特征图FA₀采样为一维向量F_v以获得一个粗糙的全局通道信息，然后对F_v使用1×1卷积操作来实现通道间的信息融合。同时，在对FA₀进行1×1卷积后，将其与FM₁相乘，以赋予其上下文信息权重。最后，将这两个结果相加，得到包含全局上下文信息的显著特征。一维向量F_v和最终输出特征F_final可以由以下公式得到：

其中，H和W分别代表特征图FA₀的高与宽，i表示FA₀的第i行像素(i＝1，2，…，H)，j表示FA₀的第j列像素(j＝1，2，…，W)。φ_1×1(·)表示1×1卷积操作，σ(·)和

的含义与公式(3)相同。多尺度注意力模块可以结合上下文语义来收集不同层次的信息，从而有效地获取遥感影像中目标的空间关系，提高建筑物的分割效果。

一些语义分割网络，如FCN(Long，Shelhamer，and Darrell 2015)和PSPNet(Zhaoet al.2017)，在将特征图解码为预测图时直接执行上采样操作。这样的解码方法容易丢失空间细节，影响最终的预测结果。受U-Net的启发，本实施例设计了一种改进的方法来保持更多的特征细节。如图2所示，随着特征提取网络层数的加深，提取到的特征图更多的包含语义信息而缺少空间细节。为此，在解码过程中，将被多尺度空间注意力模块赋予了上下文语义信息的阶段五特征，与特征提取网络阶段四输出的特征相加融合，并将相加融合后的特征进行双线性插值上采样。重复此操作，逐级与阶段三，阶段二相加融合。由此，经过多次相加融合的解码操作，高层特征丰富的语义信息可以与浅层特征的空间信息相结合，并指导恢复影像中的小建筑物、建筑细节、边界。

本步骤中，基于提取得到目标对象的特征信息，构建输入目标对象的影像，所述特征信息为目标对象的第三特征信息，目标对象的影像可以是目标对象的轮廓构成的图像。

以下示例性地给出本实施例的目标对象提取方法的过程：

首先，输入一幅遥感影像进入特征提取网络模块，阶段一特征提取网络模块将影像转为多通道特征图，接着，阶段二至阶段四的通道分组横连残差网络将特征图通道进一步细分成更小的通道组，来关注不同通道间的特征信息，并通过横向连接结构将不同组间的特征相融合从而获取不同尺度的感受野，实现全局和局部特征的联合提取，实现对散乱建筑物目标的鲁棒检测功能。然后，将特征提取网络模块所提取的特征输入多尺度空间注意力模块，模块可以聚合不同区域的上下文语义，收集不同尺度、不同层次的信息，有效地获取遥感影像中目标的空间关系，提高建筑物的分割效果。最终，将经过多尺度空间注意力模块的特征发送给逐级上采样解码模块，逐级上采样解码结构可以结合高层特征丰富的语义信息与浅层特征的空间信息，指导恢复小建筑物、建筑细节、边界，输出提取的精确建筑物影像。

本发明实施例还包括网络训练阶段和网络测试阶段，其中，网络训练阶段以及相应步骤包括：

第一步：取训练数据集中影像文件夹与标签文件夹中的相对应图片成对输入网络中，在输入网络时进行随机的上下翻转或正负15°的旋转以进行数据增强。

第二步：如图2所示，通道分组横连残差网络对输入的遥感影像进行高、低层次特征的提取。与传统残差块结构不同，本实施例的残差块在不改变其空间大小的情况下，将特征图通道进一步细分成更小的通道组，并通过横连结构将不同组间的特征相融合来获取不同尺度的感受野，实现全局与局部特征的联合提取。

第三步：将特征图输入到多尺度空间注意力模块以对特征赋予像素级的上下文语义信息。

第四步：使用双线性内插法上采样解码，为了不丢失空间细节信息，本实施例在解码时逐级融合不同阶段的低层特征，使用高层特征丰富的语义信息来引导包含丰富空间细节的低层特征。

第五步：将上述特征与对应标签图片加入到交叉熵损失函数中以优化特征并训练模型。

网络测试阶段的步骤包括：

第一步：在网络中加载训练好的模型参数。

第二步：取测试数据集中影像文件夹与标签文件夹中的相对应图片成对输入网络中。

第三步：影像图片调用网络参数，生成预测图片。

第四步：预测图片与标签图片逐像素比较，以此统计所有图片的像素分类结果，计算其均值交并比，总体像素精度等评价指标。

第五步：输出预测图片，将测试影像结果可视化。

如图5至图9所示，本发明实施例给出了一个测试实例，本测试实例旨在具体表现本发明与现有的其他建筑物分割提取方法的对比，并不表示本发明只能在此环境或者该数据集才有如此性能。

测试环境如下：Intel Xeon E5-2620 v4 CPU,Nvidia Quadro TITAN Xp GPU，12-GB RAM。训练过程是在Ubuntu 16.04上Pytorch框架下进行。

使用了两个公开数据集((1)WHU建筑物数据集(Ji,Wei,and Lu 2018)和(2)INRIA数据集(Maggiori et al.2017))来测试模型。(1)WHU建筑数据集包含遥感图像(航空和航天图像)的两个子集。本测试实例选择航空图像子集来验证本实施例的方法。原始的航空图像数据来自位于新西兰土地信息服务网站，该网站包括18.7万座建筑共计8188张图片。本测试实例选取4736张图片作为训练集，1036张图片作为测试集。每张图片的大小为512×512像素，空间分辨率为0.3m，包括三个波段(红、绿、蓝)。(2)INRIA航空影像标注数据集由法国国家信息与自动化研究所提供，涵盖不同的城市住区，包括奥斯汀、芝加哥、基萨普县、西蒂罗尔和维也纳。这五个地区的建筑密度不同，空间分辨率为0.3米。原始数据集只包含180对大小为5000×5000的原始图像与标签。考虑到计算机硬件性能的影响，本测试实例预先将图像分成18,000个块，每个块有500×500像素。本测试实例将训练数据和测试数据设置为8：2的比例。

为了验证本实施例方法的性能，将该方法与现有的U-Net(Ronneberger,Fischer,and Brox 2015),ResNet50(He et al.2016),PSPNet(Zhao et al.2017),DeepLabV3(Chenet al.2018a),DANet(Fu et al.2019),and PAN(Li et al.2018)作了比较。四种方法的异同如图7所示，显示了本实施例的方法与比较方法在通道分组、注意力机制、多尺度注意力模块和逐级解码模块上的差异。

在WHU建筑物数据集上的比较结果如图8所示，可视化结果如图5所示，从中可以看出，与其他方法相比，本实施例的方法总体上优于其他方法，并在一定程度上克服了阴影效应(如第一行)，在边界区域(如第四行)获得了更准确的分割结果。此外，对于较小的建筑物目标(如第二行)和离散的建筑物目标(如第三行)，本实施例的方法可以获得更准确的分割结果，这证明了本实施例的方法的优良性能。

在INRIA数据集上的比较结果如图9所示，可视化结果如图6所示，在建筑物密集、目标较小的区域(如第四行)，本实施例的方法能够很好地识别建筑物，还可以对形状不规则的建筑物(如第三行)实现有效的分割效果。综上所述，在遥感图像的建筑物分割中，本实施例的方法可以取得高精度的提取效果，证明了基于横向连接残差块的多尺度注意力网络方法的有效性。

本发明通过调用语义分割深度学习模型提取影像中目标对象的特征信息，并基于提取的特征信息构建输出目标对象的影像，提高了目标对象的提取精度和提取效果。

实施例2

图10是本发明的目标对象提取系统示意图。如图10所示，本发明还提供了一种从影像中提取目标对象的系统，所述系统包括：

优选地，通过以下方式生成对尺度特征：

表示转置卷积操作。

本发明实施例2中各个单元所执行的方法步骤的具体实施过程与实施例1中的各个步骤的实施过程相同，在此不再赘述。

本发明提出了从高空间分辨率遥感影像中提取建筑物的新方法，可以在一定程度上克服阴影的障碍，对不规则建筑物目标，小目标，离散目标及建筑物边缘都有精确的分割结果。该方法基于残差网络结构，在残差单元内部通道分组并进行特征横向连接，以结合通道间的特征信息，并将主干网络提取的特征结合多尺度注意力模块，从而顾及不同区域的上下文语义、融合多层次局部及全局信息，最后，经过逐级上采样解码结构，实现精确的端对端建筑物提取分割。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种从影像中提取目标对象的方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述语义分割深度学习模型包括特征提取网络模块，所述特征提取网络模块具有基于通道分组的横连残差网络结构，所述特征提取网络模块将影像转为多通道特征图，并对特征图通道进行细分，得到不同通道间的特征信息，所述特征提取网络模块采用多个阶段依次提取的方式得到目标对象在不同阶段的特征信息，通过横向连接结构将不同阶段通道分组间的特征相融合，得到目标对象的第一特征信息。

3.根据权利要求2所述的方法，其特征在于，所述语义分割深度学习模型还包括多尺度空间注意力模块，所述多尺度空间注意力模块接收所述特征提取网络模块发送的所述目标对象的所述第一特征信息，聚合影像中不同区域的上下文语义信息，结合所述上下文语义信息收集不同尺度、不同层次的特征信息，获取影像中目标对象的空间关系，得到目标对象的第二特征信息。

4.根据权利要求3所述的方法，其特征在于，所述语义分割深度学习模型还包括逐级上采样解码模块，所述逐级上采样解码模块接收所述多尺度空间注意力模块发送的第二特征信息，将所述第二特征信息和所述特征提取网络模块采用多个阶段依次提取的方式得到的目标对象在不同阶段的特征信息进行融合，通过双线性插值进行逐级上采样，得到目标对象的第三特征信息。

5.根据权利要求3所述的方法，其特征在于，通过以下方式生成对尺度特征：

表示转置卷积操作。

6.一种从影像中提取目标对象的系统，其特征在于，所述系统包括：

7.根据权利要求6所述的系统，其特征在于，所述语义分割深度学习模型包括特征提取网络模块，所述特征提取网络模块具有基于通道分组的横连残差网络结构，所述特征提取网络模块将影像转为多通道特征图，并对特征图通道进行细分，得到不同通道间的特征信息，所述特征提取网络模块采用多个阶段依次提取的方式得到目标对象在不同阶段的特征信息，通过横向连接结构将不同阶段通道分组间的特征相融合，得到目标对象的第一特征信息。

8.根据权利要求7所述的系统，其特征在于，所述语义分割深度学习模型还包括多尺度空间注意力模块，所述多尺度空间注意力模块接收所述特征提取网络模块发送的所述目标对象的所述第一特征信息，聚合影像中不同区域的上下文语义信息，结合所述上下文语义信息收集不同尺度、不同层次的特征信息，获取影像中目标对象的空间关系，得到目标对象的第二特征信息。

9.根据权利要求8所述的系统，其特征在于，所述语义分割深度学习模型还包括逐级上采样解码模块，所述逐级上采样解码模块接收所述多尺度空间注意力模块发送的第二特征信息，将所述第二特征信息和所述特征提取网络模块采用多个阶段依次提取的方式得到的目标对象在不同阶段的特征信息进行融合，通过双线性插值进行逐级上采样，得到目标对象的第三特征信息。

10.根据权利要求8所述的系统，其特征在于，通过以下方式生成对尺度特征：

表示转置卷积操作。