CN112989919A - 一种从影像中提取目标对象的方法及系统 - Google Patents
一种从影像中提取目标对象的方法及系统 Download PDFInfo
- Publication number
- CN112989919A CN112989919A CN202011573352.8A CN202011573352A CN112989919A CN 112989919 A CN112989919 A CN 112989919A CN 202011573352 A CN202011573352 A CN 202011573352A CN 112989919 A CN112989919 A CN 112989919A
- Authority
- CN
- China
- Prior art keywords
- target object
- image
- feature
- information
- feature information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000000605 extraction Methods 0.000 claims abstract description 97
- 230000011218 segmentation Effects 0.000 claims abstract description 43
- 238000013136 deep learning model Methods 0.000 claims abstract description 27
- 230000000750 progressive effect Effects 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 10
- 238000012360 testing method Methods 0.000 description 15
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 11
- 238000005070 sampling Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 101150083127 brox gene Proteins 0.000 description 1
- 239000004566 building material Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/176—Urban or other man-made structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种从影像中提取目标对象的方法及系统,所述方法包括以下步骤:S1:接收输入的影像和目标对象提取请求,所述提取请求用于指示需要提取的目标对象;S2:调用语义分割深度学习模型,提取所述影像中的目标对象的特征信息;S3:基于提取得到目标对象的特征信息,输出目标对象的影像。本发明能够实现精确的端对端建筑物提取分割,提高了目标对象的提取精度和提取效果。
Description
技术领域
本发明属于遥感影像处理技术领域,尤其涉及一种从影像中提取目标对象的方法及系统。
背景技术
利用高分辨遥感图像进行快速、高效的建筑目标提取是土地资源管理、精细化制图、土地利用变化监测、人居环境适宜性评估等应用的基础。然而,高分辨率图像也带来了计算量大、计算过程复杂、部分信息冗余等问题,加之建筑物存在空间的多尺度性、结构复杂性、分布的较大差异性及周围复杂等问题,对高分辨率影像中建筑信息的高效提取造成了一定的困难和挑战。
当前,建筑物提取算法可分为基于传统特征的方法与基于深度学习特征的方法。在基于传统特征的方法中,学者们提出了大量的建筑物提取算法,但这些算法大多基于手动设计的特征,如纹理、几何、边缘、多光谱和阴影等,并通过诸如支持向量机、AdaBoost、随机森林或条件随机场等对每个像素进行预测,得到提取结果。
深度学习通过构建多层次模型从数据中获取高层抽象特征,以提高分类或检测精度。这种自我学习特征的性能超越并逐渐替代了传统的人工经验设计的特征。在遥感影像建筑物提取方面,(Zhong et al.2016)使用全卷积网络(FCN)模型,从RGB图像中提取道路和建筑物。(Bittner et al.2018)使用FCN网络,结合来自不同数据源的光谱和高度信息以提高建筑物提取精度。(Wu et al.2018)使用U-Net框架提取建筑物,并提出多约束方法,增强网络的多尺度特征。(Liu et al.2018)利用高斯金字塔技术构建多层训练样本,以提高对不同尺度、不同空间分辨率的建筑物检测精度。为提升建筑物的线性和直角特征,(Chenet al.2018b;Lin et al.2019)使用条件随机场进行后处理,提升建筑物边界检测效果。(Cao et al.2019)提出数字地表模型融合模块来聚合深度信息以提取建筑物。(Zhu etal.2019;Niu 2020)引入注意力机制以增加网络对建筑物的特征权重。
在高分辨率遥感影像中,建筑物、街道、停车场和汽车等目标的类内方差增加,类间方差减小,且建筑物在外观与光谱值上和其他类别易混淆,不同建筑材料、体量和光照条件表现在遥感影像上也会有明显的差异,这都使建筑物语义标记变得更加困难。基于传统特征的方法针对某些影像数据有一定效果,但模型泛化能力还需要进一步提高。
相较于自然场景图像,遥感影像中建筑物目标具有分布离散、复杂,大小不一,多细节特征等特点,传统语义分割方法并不直接适用于遥感影像的建筑物语义分割。近几年所采用的深度学习方法,如DANet,PAN没有顾及模型内部不同通道间的差异性、显著性及多层次融合关联性。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种从影像中提取目标对象的方法及系统,通过调用语义分割深度学习模型提取影像中目标对象的特征信息,并基于提取的特征信息构建输出目标对象的影像,提高了目标对象的提取精度和提取效果。
根据本发明的一个方面,本发明提供了一种从影像中提取目标对象的方法,所述方法包括以下步骤:
S1:接收输入的影像和目标对象提取请求,所述提取请求用于指示需要提取的目标对象;
S2:调用语义分割深度学习模型,提取所述影像中的目标对象的特征信息;
S3:基于提取得到目标对象的特征信息,输出目标对象的影像。
优选地,所述语义分割深度学习模型包括特征提取网络模块,所述特征提取网络模块具有基于通道分组的横连残差网络结构,所述特征提取网络模块将影像转为多通道特征图,并对特征图通道进行细分,得到不同通道间的特征信息,所述特征提取网络模块采用多个阶段依次提取的方式得到目标对象在不同阶段的特征信息,通过横向连接结构将不同阶段通道分组间的特征相融合,得到目标对象的第一特征信息。
优选地,所述语义分割深度学习模型还包括多尺度空间注意力模块,所述多尺度空间注意力模块接收所述特征提取网络模块发送的所述目标对象的所述第一特征信息,聚合影像中不同区域的上下文语义信息,结合所述上下文语义信息收集不同尺度、不同层次的特征信息,获取影像中目标对象的空间关系,得到目标对象的第二特征信息。
优选地,所述语义分割深度学习模型还包括逐级上采样解码模块,所述逐级上采样解码模块接收所述多尺度空间注意力模块发送的第二特征信息,将所述第二特征信息和所述特征提取网络模块采用多个阶段依次提取的方式得到的目标对象在不同阶段的特征信息进行融合,通过双线性插值进行逐级上采样,得到目标对象的第三特征信息。
优选地,通过以下方式生成对尺度特征:
根据本发明的另一方面,本发明还提供了一种从影像中提取目标对象的系统,所述系统包括:
接收单元,用于接收输入的影像和目标对象提取请求,所述提取请求用于指示需要提取的目标对象;
提取单元,用于调用语义分割深度学习模型,提取所述影像中的目标对象的特征信息;
输出单元,用于基于提取得到目标对象的特征信息,输出目标对象的影像。
优选地,所述语义分割深度学习模型包括特征提取网络模块,所述特征提取网络模块具有基于通道分组的横连残差网络结构,所述特征提取网络模块将影像转为多通道特征图,并对特征图通道进行细分,得到不同通道间的特征信息,所述特征提取网络模块采用多个阶段依次提取的方式得到目标对象在不同阶段的特征信息,通过横向连接结构将不同阶段通道分组间的特征相融合,得到目标对象的第一特征信息。
优选地,所述语义分割深度学习模型还包括多尺度空间注意力模块,所述多尺度空间注意力模块接收所述特征提取网络模块发送的所述目标对象的所述第一特征信息,聚合影像中不同区域的上下文语义信息,结合所述上下文语义信息收集不同尺度、不同层次的特征信息,获取影像中目标对象的空间关系,得到目标对象的第二特征信息。
优选地,所述语义分割深度学习模型还包括逐级上采样解码模块,所述逐级上采样解码模块接收所述多尺度空间注意力模块发送的第二特征信息,将所述第二特征信息和所述特征提取网络模块采用多个阶段依次提取的方式得到的目标对象在不同阶段的特征信息进行融合,通过双线性插值进行逐级上采样,得到目标对象的第三特征信息。
优选地,通过以下方式生成对尺度特征:
有益效果:本发明通过调用语义分割深度学习模型提取影像中目标对象的特征信息,并基于提取的特征信息构建输出目标对象的影像,提高了目标对象的提取精度和提取效果。
通过参照以下附图及对本发明的具体实施方式的详细描述,本发明的特征及优点将会变得清楚。
附图说明
图1是本发明的目标对象提取方法流程图;
图2是本发明实施例用于建筑物提取的基于横向连接残差块的多尺度空间注意力深度学习方法框架
图3是本发明实施例提供的通道分组横连残差块结构示意图;
图4是本发明实施例提供的多尺度空间注意力模块示意图;
图5是本发明的方法和现有的方法在WHU数据集中的测试结果展示图;
图6是本发明的方法和现有的方法在INRIA数据集中的测试结果展示图;
图7是本发明的方法和现有的方法结构的对比结果示意图;
图8是本发明的方法和现有的方法在WHU数据集中的评价指标比较结果示意图;
图9是本发明的方法和现有的方法在INRIA数据集中的评价指标比较结果示意图;
图10是本发明的目标对象提取系统示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1是本发明的目标对象提取方法流程图。如图1所示,本发明提供了一种从影像中提取目标对象的方法,所述方法包括以下步骤:
S1:接收输入的影像和目标对象提取请求,所述提取请求用于指示需要提取的目标对象。
本步骤中,输入的影像可以是遥感影像,也可以是其他的以图片形式存在的影像,本发明对此不作限制。
在输入影像时,可以输入目标对象提取请求,所述提取请求用于指示需要提取的目标对象,具体地,可以对影像进行分区编号,使用编号来表示需要提取的区域,或者通过默认的方式来指示需要提取的区域,此仅为示例,可以采用本领域中能够实现的其他方式来指示需要在影像中提取哪些区域作为目标对象,本发明对此不作限制。
S2:调用语义分割深度学习模型,提取所述影像中的目标对象的特征信息。
优选地,所述语义分割深度学习模型包括特征提取网络模块,所述特征提取网络模块具有基于通道分组的横连残差网络结构,所述特征提取网络模块将影像转为多通道特征图,并对特征图通道进行细分,得到不同通道间的特征信息,所述特征提取网络模块采用多个阶段依次提取的方式得到目标对象在不同阶段的特征信息,通过横向连接结构将不同阶段通道分组间的特征相融合,得到目标对象的第一特征信息。
具体地,如图2和图3所示,在网络中,具体设计了三个模块:由通道分组的横连残差块组成的特征提取网络模块,使网络在提取特征时着重关注并融合不同通道间的特征信息;多尺度空间注意力模块,用于对主干网络提取的特征赋予上下文信息;逐级上采样解码模块,在解码时融合包含丰富空间细节的低层特征,得到最终预测结果。
在每个残差块中构造了基于通道分组的横向连接结构来提取特征,与传统的残差块直接对整组通道进行卷积运算提取特征不同,在进行1×1卷积运算后,对特征图的所有通道进行均匀分组,对每组特征图分别进行卷积处理。除了第一组之外,后续每组输入特征与前一组的卷积输出特征叠加后再进行卷积,重复此操作至最后一组特征图,最后将所有组的特征图叠加后一同进行1×1卷积运算,实现不同尺度建筑物的特征融合。
具体来说,残差块中特征图的大小为H×W,总共有C个通道。将所有的特征地图通道均等分成N个通道子集(在图2中N=4)。与原始特征地图相比,每个子集的特征地图具有与通道相同的大小(H×W),但是只有C/N个通道。
将获得的第i个通道子集的特征图表示为Xi 对这N组通道子集的特征图,分别使用3×3的卷积核进行卷积操作,在公式(1)中用φ3×3(·)来表示。Yi 表示第i组子集对应的特征输出结果,除第一组子集X1外,后续每组子集Xi,(i=2,…,N)都与前一组子集的输出结果(公式(1)中的Yi-1)相叠加后再进行卷积操作。由此,Yi可以由下面的公式(1)表示:
每组通道的卷积运算可以提取之前所有通道子集的对应特征图。这样,通过在每个残差块中进行通道分组和横向连接操作,最终融合的特征可以获取不同尺度的感受野,由此既可以提取不同通道的信息,又可以实现全局和局部特征的联合提取,从而实现对散乱建筑物目标的鲁棒检测。
优选地,所述语义分割深度学习模型还包括多尺度空间注意力模块,所述多尺度空间注意力模块接收所述特征提取网络模块发送的所述目标对象的所述第一特征信息,聚合影像中不同区域的上下文语义信息,结合所述上下文语义信息收集不同尺度、不同层次的特征信息,获取影像中目标对象的空间关系,得到目标对象的第二特征信息。
影像中的每一个像素点不可能单独存在,而是与周围像素有一定的关系,大量像素的相互联系产生了影像中的各种物体,上下文特征即是指像素以及周边像素的某种联系。在语义分割任务中,必须分类出每一块区域的像素属于什么目标,即语义信息。在判断某一个位置上的像素属于哪种类别时,不仅考察到该像素的灰度值,还充分考虑和它临近的像素间的联系,即上下文语义信息。
目前,大多数语义分割网络直接使用多层线性卷积网络来提取图像特征,但多次卷积运算可能会减少特征图的空间细节信息,导致分割边界模糊、混叠,缺乏对重要上下文信息的提取。
为解决这一问题,本实施例在特征提取网络之后设计了一个多尺度空间注意力模块(如图4所示),对于网络最终输出的特征图(FA0),通过三次卷积运算,逐步提取不同尺度的特征{FAi|i=1,2,3}。对于特征图FAi,在卷积运算中设置不同参数大小的卷积核,零填充和采样步长以获取多尺度信息。最终,相对于FA0(H×W),特征图FAi的高与宽分别为1/2i×H与1/2i×W。具体的实现细节如公式(2)所示:
FAi=φ(FAi-1|K9-2i,P4-i,S2) (2)
其中φ(·)表示对特征图FAi进行的卷积操作,K,P,S表示卷积中的卷积核,零填充和采样步长参数,对应的下标(9-2i,4-i,2)分别代表对应参数的大小。
本实施例设计了一种自下而上的路径和横向连接来生成多尺度特征{FMi|i=1,2,3},其步骤如公式(3)所示:
其中ζ(·)表示横向连接结构,在实验中采用1×1卷积操作来实现。σ(·)表示批量归一化和修正线性单元ReLU激活函数操作,其中,修正线性单元(Rectified LinearUnit)用以将特征矩阵中所有负值都设为零,保持其余值不变。ReLU激活函数在网络中加入非线性因素,提高模型表达能力。表示转置卷积操作。通过设计的自下而上路径和横向连接结构,多尺度特征提取模块可以聚合不同区域的上下文语义信息,使特征更加突出。
本发明实施例首先通过全局平均池化(GAP)操作将特征图FA0采样为一维向量Fv以获得一个粗糙的全局通道信息,然后对Fv使用1×1卷积操作来实现通道间的信息融合。同时,在对FA0进行1×1卷积后,将其与FM1相乘,以赋予其上下文信息权重。最后,将这两个结果相加,得到包含全局上下文信息的显著特征。一维向量Fv和最终输出特征Ffinal可以由以下公式得到:
其中,H和W分别代表特征图FA0的高与宽,i表示FA0的第i行像素(i=1,2,…,H),j表示FA0的第j列像素(j=1,2,…,W)。φ1×1(·)表示1×1卷积操作,σ(·)和的含义与公式(3)相同。多尺度注意力模块可以结合上下文语义来收集不同层次的信息,从而有效地获取遥感影像中目标的空间关系,提高建筑物的分割效果。
优选地,所述语义分割深度学习模型还包括逐级上采样解码模块,所述逐级上采样解码模块接收所述多尺度空间注意力模块发送的第二特征信息,将所述第二特征信息和所述特征提取网络模块采用多个阶段依次提取的方式得到的目标对象在不同阶段的特征信息进行融合,通过双线性插值进行逐级上采样,得到目标对象的第三特征信息。
一些语义分割网络,如FCN(Long,Shelhamer,and Darrell 2015)和PSPNet(Zhaoet al.2017),在将特征图解码为预测图时直接执行上采样操作。这样的解码方法容易丢失空间细节,影响最终的预测结果。受U-Net的启发,本实施例设计了一种改进的方法来保持更多的特征细节。如图2所示,随着特征提取网络层数的加深,提取到的特征图更多的包含语义信息而缺少空间细节。为此,在解码过程中,将被多尺度空间注意力模块赋予了上下文语义信息的阶段五特征,与特征提取网络阶段四输出的特征相加融合,并将相加融合后的特征进行双线性插值上采样。重复此操作,逐级与阶段三,阶段二相加融合。由此,经过多次相加融合的解码操作,高层特征丰富的语义信息可以与浅层特征的空间信息相结合,并指导恢复影像中的小建筑物、建筑细节、边界。
S3:基于提取得到目标对象的特征信息,输出目标对象的影像。
本步骤中,基于提取得到目标对象的特征信息,构建输入目标对象的影像,所述特征信息为目标对象的第三特征信息,目标对象的影像可以是目标对象的轮廓构成的图像。
以下示例性地给出本实施例的目标对象提取方法的过程:
首先,输入一幅遥感影像进入特征提取网络模块,阶段一特征提取网络模块将影像转为多通道特征图,接着,阶段二至阶段四的通道分组横连残差网络将特征图通道进一步细分成更小的通道组,来关注不同通道间的特征信息,并通过横向连接结构将不同组间的特征相融合从而获取不同尺度的感受野,实现全局和局部特征的联合提取,实现对散乱建筑物目标的鲁棒检测功能。然后,将特征提取网络模块所提取的特征输入多尺度空间注意力模块,模块可以聚合不同区域的上下文语义,收集不同尺度、不同层次的信息,有效地获取遥感影像中目标的空间关系,提高建筑物的分割效果。最终,将经过多尺度空间注意力模块的特征发送给逐级上采样解码模块,逐级上采样解码结构可以结合高层特征丰富的语义信息与浅层特征的空间信息,指导恢复小建筑物、建筑细节、边界,输出提取的精确建筑物影像。
本发明实施例还包括网络训练阶段和网络测试阶段,其中,网络训练阶段以及相应步骤包括:
第一步:取训练数据集中影像文件夹与标签文件夹中的相对应图片成对输入网络中,在输入网络时进行随机的上下翻转或正负15°的旋转以进行数据增强。
第二步:如图2所示,通道分组横连残差网络对输入的遥感影像进行高、低层次特征的提取。与传统残差块结构不同,本实施例的残差块在不改变其空间大小的情况下,将特征图通道进一步细分成更小的通道组,并通过横连结构将不同组间的特征相融合来获取不同尺度的感受野,实现全局与局部特征的联合提取。
第三步:将特征图输入到多尺度空间注意力模块以对特征赋予像素级的上下文语义信息。
第四步:使用双线性内插法上采样解码,为了不丢失空间细节信息,本实施例在解码时逐级融合不同阶段的低层特征,使用高层特征丰富的语义信息来引导包含丰富空间细节的低层特征。
第五步:将上述特征与对应标签图片加入到交叉熵损失函数中以优化特征并训练模型。
网络测试阶段的步骤包括:
第一步:在网络中加载训练好的模型参数。
第二步:取测试数据集中影像文件夹与标签文件夹中的相对应图片成对输入网络中。
第三步:影像图片调用网络参数,生成预测图片。
第四步:预测图片与标签图片逐像素比较,以此统计所有图片的像素分类结果,计算其均值交并比,总体像素精度等评价指标。
第五步:输出预测图片,将测试影像结果可视化。
如图5至图9所示,本发明实施例给出了一个测试实例,本测试实例旨在具体表现本发明与现有的其他建筑物分割提取方法的对比,并不表示本发明只能在此环境或者该数据集才有如此性能。
测试环境如下:Intel Xeon E5-2620 v4 CPU,Nvidia Quadro TITAN Xp GPU,12-GB RAM。训练过程是在Ubuntu 16.04上Pytorch框架下进行。
使用了两个公开数据集((1)WHU建筑物数据集(Ji,Wei,and Lu 2018)和(2)INRIA数据集(Maggiori et al.2017))来测试模型。(1)WHU建筑数据集包含遥感图像(航空和航天图像)的两个子集。本测试实例选择航空图像子集来验证本实施例的方法。原始的航空图像数据来自位于新西兰土地信息服务网站,该网站包括18.7万座建筑共计8188张图片。本测试实例选取4736张图片作为训练集,1036张图片作为测试集。每张图片的大小为512×512像素,空间分辨率为0.3m,包括三个波段(红、绿、蓝)。(2)INRIA航空影像标注数据集由法国国家信息与自动化研究所提供,涵盖不同的城市住区,包括奥斯汀、芝加哥、基萨普县、西蒂罗尔和维也纳。这五个地区的建筑密度不同,空间分辨率为0.3米。原始数据集只包含180对大小为5000×5000的原始图像与标签。考虑到计算机硬件性能的影响,本测试实例预先将图像分成18,000个块,每个块有500×500像素。本测试实例将训练数据和测试数据设置为8:2的比例。
为了验证本实施例方法的性能,将该方法与现有的U-Net(Ronneberger,Fischer,and Brox 2015),ResNet50(He et al.2016),PSPNet(Zhao et al.2017),DeepLabV3(Chenet al.2018a),DANet(Fu et al.2019),and PAN(Li et al.2018)作了比较。四种方法的异同如图7所示,显示了本实施例的方法与比较方法在通道分组、注意力机制、多尺度注意力模块和逐级解码模块上的差异。
在WHU建筑物数据集上的比较结果如图8所示,可视化结果如图5所示,从中可以看出,与其他方法相比,本实施例的方法总体上优于其他方法,并在一定程度上克服了阴影效应(如第一行),在边界区域(如第四行)获得了更准确的分割结果。此外,对于较小的建筑物目标(如第二行)和离散的建筑物目标(如第三行),本实施例的方法可以获得更准确的分割结果,这证明了本实施例的方法的优良性能。
在INRIA数据集上的比较结果如图9所示,可视化结果如图6所示,在建筑物密集、目标较小的区域(如第四行),本实施例的方法能够很好地识别建筑物,还可以对形状不规则的建筑物(如第三行)实现有效的分割效果。综上所述,在遥感图像的建筑物分割中,本实施例的方法可以取得高精度的提取效果,证明了基于横向连接残差块的多尺度注意力网络方法的有效性。
本发明通过调用语义分割深度学习模型提取影像中目标对象的特征信息,并基于提取的特征信息构建输出目标对象的影像,提高了目标对象的提取精度和提取效果。
实施例2
图10是本发明的目标对象提取系统示意图。如图10所示,本发明还提供了一种从影像中提取目标对象的系统,所述系统包括:
接收单元,用于接收输入的影像和目标对象提取请求,所述提取请求用于指示需要提取的目标对象;
提取单元,用于调用语义分割深度学习模型,提取所述影像中的目标对象的特征信息;
输出单元,用于基于提取得到目标对象的特征信息,输出目标对象的影像。
优选地,所述语义分割深度学习模型包括特征提取网络模块,所述特征提取网络模块具有基于通道分组的横连残差网络结构,所述特征提取网络模块将影像转为多通道特征图,并对特征图通道进行细分,得到不同通道间的特征信息,所述特征提取网络模块采用多个阶段依次提取的方式得到目标对象在不同阶段的特征信息,通过横向连接结构将不同阶段通道分组间的特征相融合,得到目标对象的第一特征信息。
优选地,所述语义分割深度学习模型还包括多尺度空间注意力模块,所述多尺度空间注意力模块接收所述特征提取网络模块发送的所述目标对象的所述第一特征信息,聚合影像中不同区域的上下文语义信息,结合所述上下文语义信息收集不同尺度、不同层次的特征信息,获取影像中目标对象的空间关系,得到目标对象的第二特征信息。
优选地,所述语义分割深度学习模型还包括逐级上采样解码模块,所述逐级上采样解码模块接收所述多尺度空间注意力模块发送的第二特征信息,将所述第二特征信息和所述特征提取网络模块采用多个阶段依次提取的方式得到的目标对象在不同阶段的特征信息进行融合,通过双线性插值进行逐级上采样,得到目标对象的第三特征信息。
优选地,通过以下方式生成对尺度特征:
本发明实施例2中各个单元所执行的方法步骤的具体实施过程与实施例1中的各个步骤的实施过程相同,在此不再赘述。
本发明提出了从高空间分辨率遥感影像中提取建筑物的新方法,可以在一定程度上克服阴影的障碍,对不规则建筑物目标,小目标,离散目标及建筑物边缘都有精确的分割结果。该方法基于残差网络结构,在残差单元内部通道分组并进行特征横向连接,以结合通道间的特征信息,并将主干网络提取的特征结合多尺度注意力模块,从而顾及不同区域的上下文语义、融合多层次局部及全局信息,最后,经过逐级上采样解码结构,实现精确的端对端建筑物提取分割。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种从影像中提取目标对象的方法,其特征在于,所述方法包括以下步骤:
S1:接收输入的影像和目标对象提取请求,所述提取请求用于指示需要提取的目标对象;
S2:调用语义分割深度学习模型,提取所述影像中的目标对象的特征信息;
S3:基于提取得到目标对象的特征信息,输出目标对象的影像。
2.根据权利要求1所述的方法,其特征在于,所述语义分割深度学习模型包括特征提取网络模块,所述特征提取网络模块具有基于通道分组的横连残差网络结构,所述特征提取网络模块将影像转为多通道特征图,并对特征图通道进行细分,得到不同通道间的特征信息,所述特征提取网络模块采用多个阶段依次提取的方式得到目标对象在不同阶段的特征信息,通过横向连接结构将不同阶段通道分组间的特征相融合,得到目标对象的第一特征信息。
3.根据权利要求2所述的方法,其特征在于,所述语义分割深度学习模型还包括多尺度空间注意力模块,所述多尺度空间注意力模块接收所述特征提取网络模块发送的所述目标对象的所述第一特征信息,聚合影像中不同区域的上下文语义信息,结合所述上下文语义信息收集不同尺度、不同层次的特征信息,获取影像中目标对象的空间关系,得到目标对象的第二特征信息。
4.根据权利要求3所述的方法,其特征在于,所述语义分割深度学习模型还包括逐级上采样解码模块,所述逐级上采样解码模块接收所述多尺度空间注意力模块发送的第二特征信息,将所述第二特征信息和所述特征提取网络模块采用多个阶段依次提取的方式得到的目标对象在不同阶段的特征信息进行融合,通过双线性插值进行逐级上采样,得到目标对象的第三特征信息。
6.一种从影像中提取目标对象的系统,其特征在于,所述系统包括:
接收单元,用于接收输入的影像和目标对象提取请求,所述提取请求用于指示需要提取的目标对象;
提取单元,用于调用语义分割深度学习模型,提取所述影像中的目标对象的特征信息;
输出单元,用于基于提取得到目标对象的特征信息,输出目标对象的影像。
7.根据权利要求6所述的系统,其特征在于,所述语义分割深度学习模型包括特征提取网络模块,所述特征提取网络模块具有基于通道分组的横连残差网络结构,所述特征提取网络模块将影像转为多通道特征图,并对特征图通道进行细分,得到不同通道间的特征信息,所述特征提取网络模块采用多个阶段依次提取的方式得到目标对象在不同阶段的特征信息,通过横向连接结构将不同阶段通道分组间的特征相融合,得到目标对象的第一特征信息。
8.根据权利要求7所述的系统,其特征在于,所述语义分割深度学习模型还包括多尺度空间注意力模块,所述多尺度空间注意力模块接收所述特征提取网络模块发送的所述目标对象的所述第一特征信息,聚合影像中不同区域的上下文语义信息,结合所述上下文语义信息收集不同尺度、不同层次的特征信息,获取影像中目标对象的空间关系,得到目标对象的第二特征信息。
9.根据权利要求8所述的系统,其特征在于,所述语义分割深度学习模型还包括逐级上采样解码模块,所述逐级上采样解码模块接收所述多尺度空间注意力模块发送的第二特征信息,将所述第二特征信息和所述特征提取网络模块采用多个阶段依次提取的方式得到的目标对象在不同阶段的特征信息进行融合,通过双线性插值进行逐级上采样,得到目标对象的第三特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573352.8A CN112989919B (zh) | 2020-12-25 | 2020-12-25 | 一种从影像中提取目标对象的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573352.8A CN112989919B (zh) | 2020-12-25 | 2020-12-25 | 一种从影像中提取目标对象的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989919A true CN112989919A (zh) | 2021-06-18 |
CN112989919B CN112989919B (zh) | 2024-04-19 |
Family
ID=76345174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011573352.8A Active CN112989919B (zh) | 2020-12-25 | 2020-12-25 | 一种从影像中提取目标对象的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989919B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723419A (zh) * | 2021-09-03 | 2021-11-30 | 乐普(北京)医疗器械股份有限公司 | 一种基于语义分割网络对造影图像进行分割的方法和装置 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
KR101970488B1 (ko) * | 2017-12-28 | 2019-04-19 | 포항공과대학교 산학협력단 | 실내 의미론적 분할을 위한 컬러-깊이 영상의 단계적 레지듀얼 특성 결합 네트워크 장치 |
CN109711413A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像语义分割方法 |
US20190156144A1 (en) * | 2017-02-23 | 2019-05-23 | Beijing Sensetime Technology Development Co., Ltd | Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device |
CN110163878A (zh) * | 2019-05-28 | 2019-08-23 | 四川智盈科技有限公司 | 一种基于双重多尺度注意力机制的图像语义分割方法 |
CN110197182A (zh) * | 2019-06-11 | 2019-09-03 | 中国电子科技集团公司第五十四研究所 | 基于上下文信息和注意力机制的遥感影像语义分割方法 |
CN110544256A (zh) * | 2019-08-08 | 2019-12-06 | 北京百度网讯科技有限公司 | 基于稀疏特征的深度学习图像分割方法及装置 |
US20190385021A1 (en) * | 2018-06-18 | 2019-12-19 | Drvision Technologies Llc | Optimal and efficient machine learning method for deep semantic segmentation |
CN110675408A (zh) * | 2019-09-19 | 2020-01-10 | 成都数之联科技有限公司 | 基于深度学习的高分辨率影像建筑物提取方法及系统 |
CN110889449A (zh) * | 2019-11-27 | 2020-03-17 | 中国人民解放军国防科技大学 | 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法 |
CN111104962A (zh) * | 2019-11-05 | 2020-05-05 | 北京航空航天大学青岛研究院 | 图像的语义分割方法、装置、电子设备及可读存储介质 |
CN111476170A (zh) * | 2020-04-09 | 2020-07-31 | 首都师范大学 | 一种结合深度学习和随机森林的遥感影像语义分割方法 |
CN111582175A (zh) * | 2020-05-09 | 2020-08-25 | 中南大学 | 一种共享多尺度对抗特征的高分遥感影像语义分割方法 |
CN111767801A (zh) * | 2020-06-03 | 2020-10-13 | 中国地质大学(武汉) | 一种基于深度学习的遥感影像水域自动提取方法及系统 |
WO2020215236A1 (zh) * | 2019-04-24 | 2020-10-29 | 哈尔滨工业大学(深圳) | 图像语义分割方法和系统 |
US20200364870A1 (en) * | 2019-05-14 | 2020-11-19 | University-Industry Cooperation Group Of Kyung Hee University | Image segmentation method and apparatus, and computer program thereof |
CN112101309A (zh) * | 2020-11-12 | 2020-12-18 | 北京道达天际科技有限公司 | 基于深度学习分割网络的地物目标识别方法和装置 |
-
2020
- 2020-12-25 CN CN202011573352.8A patent/CN112989919B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190156144A1 (en) * | 2017-02-23 | 2019-05-23 | Beijing Sensetime Technology Development Co., Ltd | Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device |
US20190057507A1 (en) * | 2017-08-18 | 2019-02-21 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
KR101970488B1 (ko) * | 2017-12-28 | 2019-04-19 | 포항공과대학교 산학협력단 | 실내 의미론적 분할을 위한 컬러-깊이 영상의 단계적 레지듀얼 특성 결합 네트워크 장치 |
US20190385021A1 (en) * | 2018-06-18 | 2019-12-19 | Drvision Technologies Llc | Optimal and efficient machine learning method for deep semantic segmentation |
CN109711413A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像语义分割方法 |
WO2020215236A1 (zh) * | 2019-04-24 | 2020-10-29 | 哈尔滨工业大学(深圳) | 图像语义分割方法和系统 |
US20200364870A1 (en) * | 2019-05-14 | 2020-11-19 | University-Industry Cooperation Group Of Kyung Hee University | Image segmentation method and apparatus, and computer program thereof |
CN110163878A (zh) * | 2019-05-28 | 2019-08-23 | 四川智盈科技有限公司 | 一种基于双重多尺度注意力机制的图像语义分割方法 |
CN110197182A (zh) * | 2019-06-11 | 2019-09-03 | 中国电子科技集团公司第五十四研究所 | 基于上下文信息和注意力机制的遥感影像语义分割方法 |
CN110544256A (zh) * | 2019-08-08 | 2019-12-06 | 北京百度网讯科技有限公司 | 基于稀疏特征的深度学习图像分割方法及装置 |
CN110675408A (zh) * | 2019-09-19 | 2020-01-10 | 成都数之联科技有限公司 | 基于深度学习的高分辨率影像建筑物提取方法及系统 |
CN111104962A (zh) * | 2019-11-05 | 2020-05-05 | 北京航空航天大学青岛研究院 | 图像的语义分割方法、装置、电子设备及可读存储介质 |
CN110889449A (zh) * | 2019-11-27 | 2020-03-17 | 中国人民解放军国防科技大学 | 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法 |
CN111476170A (zh) * | 2020-04-09 | 2020-07-31 | 首都师范大学 | 一种结合深度学习和随机森林的遥感影像语义分割方法 |
CN111582175A (zh) * | 2020-05-09 | 2020-08-25 | 中南大学 | 一种共享多尺度对抗特征的高分遥感影像语义分割方法 |
CN111767801A (zh) * | 2020-06-03 | 2020-10-13 | 中国地质大学(武汉) | 一种基于深度学习的遥感影像水域自动提取方法及系统 |
CN112101309A (zh) * | 2020-11-12 | 2020-12-18 | 北京道达天际科技有限公司 | 基于深度学习分割网络的地物目标识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
和超;张印辉;何自芬;: "多尺度特征融合工件目标语义分割", 中国图象图形学报, no. 03 * |
瑚敏君;冯德俊;李强;: "基于实例分割模型的建筑物自动提取", 测绘通报, no. 04 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723419A (zh) * | 2021-09-03 | 2021-11-30 | 乐普(北京)医疗器械股份有限公司 | 一种基于语义分割网络对造影图像进行分割的方法和装置 |
CN113723419B (zh) * | 2021-09-03 | 2023-11-21 | 乐普(北京)医疗器械股份有限公司 | 一种基于语义分割网络对造影图像进行分割的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112989919B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136170B (zh) | 一种基于卷积神经网络的遥感影像建筑物变化检测方法 | |
CN109446992B (zh) | 基于深度学习的遥感影像建筑物提取方法及系统、存储介质、电子设备 | |
CN109840556B (zh) | 一种基于孪生网络的图像分类识别方法 | |
CN110992238B (zh) | 一种基于双通道网络的数字图像篡改盲检测方法 | |
CN110889449A (zh) | 一种增强边缘的、多尺度的遥感影像建筑物语义特征提取方法 | |
CN108961180B (zh) | 红外图像增强方法及系统 | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN110992366B (zh) | 一种图像语义分割方法、装置及存储介质 | |
CN110619605B (zh) | 并行气象要素降尺度方法、装置、电子设备及存储介质 | |
CN112233125A (zh) | 图像分割方法、装置、电子设备及计算机可读存储介质 | |
CN112990136B (zh) | 一种目标检测方法及装置 | |
CN110909615A (zh) | 基于多尺度输入混合感知神经网络的目标检测方法 | |
CN111179270A (zh) | 基于注意力机制的图像共分割方法和装置 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 | |
CN117237808A (zh) | 基于odc-yolo网络的遥感图像目标检测方法及系统 | |
CN114663749A (zh) | 滑坡体识别模型的训练方法、装置、电子设备及存储介质 | |
CN112989919A (zh) | 一种从影像中提取目标对象的方法及系统 | |
CN116611725A (zh) | 一种基于绿色生态指标的土地类型识别方法及装置 | |
CN114913433A (zh) | 一种联合均衡特征和可变形卷积的多尺度目标检测方法 | |
CN112528803A (zh) | 道路特征提取方法、装置、设备及存储介质 | |
CN115456957B (zh) | 一种全尺度特征聚合的遥感影像变化检测的方法 | |
CN114882292B (zh) | 基于跨样本关注机制图神经网络的遥感影像海洋目标识别方法 | |
CN116993732B (zh) | 一种缝隙检测方法、系统和存储介质 | |
CN117274608B (zh) | 基于空间细节感知和注意力引导的遥感图像语义分割方法 | |
Bian et al. | Swin transformer UNet for very high resolution image dehazing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |