CN113065412A - 基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法及装置 - Google Patents

基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法及装置 Download PDF

Info

Publication number
CN113065412A
CN113065412A CN202110267834.9A CN202110267834A CN113065412A CN 113065412 A CN113065412 A CN 113065412A CN 202110267834 A CN202110267834 A CN 202110267834A CN 113065412 A CN113065412 A CN 113065412A
Authority
CN
China
Prior art keywords
convolution
unit
layer
image
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110267834.9A
Other languages
English (en)
Inventor
周晨
夏国臻
张富彬
李玉峰
赵正予
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202110267834.9A priority Critical patent/CN113065412A/zh
Publication of CN113065412A publication Critical patent/CN113065412A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法及装置,所述方法包括:利用无人机拍摄待处理区域的光学图像;利用预先训练的、基于转置卷积上采样的deeplabv3+神经网络对光学图像进行电磁介质语义识别。应用本发明实施例,基于光学图像,利用deeplabv3+神经网络对光学图像进行电磁介质语义识别,相对于现有技术中的人工标注的方法,可以更加高效的识别出物体的电磁介质性质。

Description

基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法及 装置
技术领域
本发明涉及电磁介质识别技术领域,更具体涉及基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法及装置。
背景技术
对城市的电磁环境进行管理是现代化巨型城市的一个必备课题。对电磁环境进行管理中常用的手段是基于建立城市中建筑以及各种物体的电磁三维建模,然后根据这些电磁三维模型进行建筑物以及物体对城市电磁环境的影响分析。基于此,建立物体的电磁三维模型是十分必要的,而建立物体的电磁三维模型之前,如何识别出物体的电磁介质性质是亟待解决的技术问题。
通常情况下,可以预先利用激光点云技术建立城市中各种物体的三维模型,然后人工对物体的三维模型中包含的不同电磁介质性质的部分进行标注,得到该部分的电磁介质语义信息。但是该方法标注效率很低,且容易出错,因此,如何高效的识别出物体的电磁介质性质是亟待解决的技术问题。
发明内容
本发明所要解决的技术问题在于如何高效的识别出物体的电磁介质性质。
本发明是通过以下技术方案解决上述技术问题的:
本发明提供了基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法,其特征在于,所述方法包括:
利用无人机拍摄待处理区域的光学图像;
利用预先训练的、基于转置卷积上采样的deeplabv3+神经网络对光学图像进行电磁介质语义识别。
可选的,deeplabv3+神经网络的训练过程包括:
对测区的航空拍摄的光学图像进行预处理与标注,得到训练集;
利用训练集训练预先构建的deeplabv3+神经网络,得到训练后的神经网络模型,其中,所述神经网络模型,包括:依次数据连接的编码模块以及解码模块,其中,所述解码模块包括转置卷积单元。
可选的,
所述编码模块,包括:依次串联的Xception65单元、编码卷积单元以及输出单元,其中,
Xception65单元,包括:前卷积单元、中间卷积单元以及输出卷积单元,前卷积单元包括:依次串联的通道数为32、卷积核尺寸为3*3,卷积步长为2的第一卷积层;通道数为64、卷积核尺寸为3*3,卷积步长为1的第二卷积层;通道数为128、卷积核尺寸为3*3,卷积步长为1的两个第三卷积层;通道数为128、卷积核尺寸为3*3,卷积步长为2的第四卷积层;通道数为256、卷积核尺寸为3*3,卷积步长为1的两个第五卷积层;通道数为256、卷积核尺寸为3*3,卷积步长为2的第六卷积层;通道数为728、卷积核尺寸为3*3,卷积步长为1的两个第七卷积层;通道数为728、卷积核尺寸为3*3,卷积步长为2的第八卷积层;以及,第一旁路卷积层、第二旁路卷积层以及第三旁路卷积层,且,第一旁路卷积层接收第二卷积层卷积结果,并将卷积结果与第四卷积层的输出求和后分别作为第五卷积层以及第二旁路卷积层的输入,其通道数128,卷积核尺寸1*1,卷积步长为2;第二旁路卷积层接收第一旁路卷积层的卷积结果,并将自身卷积结果与第六卷积层的输出求和后分别作为第七卷积层以及第三旁路卷积层的输入,其通道数256,卷积核尺寸1*1,卷积步长为2;第三旁路卷积层接收第二旁路卷积层的卷积结果,并将自身卷积结果与第八卷积层的输出求和后作为中间卷积单元的输入,其通道数728,卷积核尺寸1*1,卷积步长为2;所述中间卷积单元包括:依次串联的16个第九卷积层,且第九卷积层的通道数为728,卷积核为3*3,卷积步长为1;中间卷积单元的输出为前卷积单元的输出与最后一个第九卷积层的输出之和;所述输出卷积单元包括:依次串联的通道数为728、卷积核尺寸为3*3,卷积步长为1的第十卷积层;通道数为1024、卷积核尺寸为3*3,卷积步长为1的第十一卷积层;通道数为1024、卷积核尺寸为3*3,卷积步长为2的第十二卷积层;通道数为1536、卷积核尺寸为3*3,卷积步长为1的两个第十三卷积层;通道数为2048、卷积核尺寸为3*3,卷积步长为1的第十四卷积层;以及,第四旁路卷积层,其通道数为1024、卷积核尺寸为1*1,卷积步长为2;
编码卷积单元,包括:并联的卷积核尺寸为1*1的第十四卷积层;卷积核尺寸为3*3,步长为6的第十五卷积层;卷积核尺寸为3*3,步长为12的第十六卷积层;卷积核尺寸为3*3,步长为18的第十七卷积层;以及图像池化层;
输出单元将第十四卷积层、第十五卷积层、第十六卷积层以及图像池化层的输出数据通道数合并后使用卷积核为1*1的卷积层进行输出处理。
可选的,所述解码模块,依次串联的细节提取单元、Concat单元、卷积单元以及上采样单元,其中,
所述细节提取单元为卷积核尺寸为1*1的卷积层;
转置卷积单元利用倍数为4的转置卷积层对输出单元的数据进行上采样处理;
所述Concat单元,用于利用Concat函数将细节提取单元的输出与转置卷积单元的输出进行通道数合并处理;
卷积单元,为卷积核尺寸为3*3的卷积层;
上采样单元为线性插值上采样层。
可选的,所述对测区的航空拍摄的光学图像进行预处理与标注,得到训练集,包括:
利用公式,
Figure BDA0002972682650000041
对光学图像进行标准化处理,其中,
adjusted-stddev为像素的标准差;σ为像素标准方差;N为图像x的像素数量,image_standardization为图像的标准化处理后的光学图像;μ为光学图像的像素均值,x为光学图像像素值矩阵;
利用公式,
Figure BDA0002972682650000042
对标准化处理后的光学图像进行归一化处理,其中,
norm为归一化处理后的光学图像中的像素值;xi为归一化处理后的光学图像中第i个像素的像素值;min(x)为归一化处理后的光学图像中的像素值最小值;max(x)为归一化处理后的光学图像中的像素值最大值;
使用颜色将不同材质的电磁介质区分标注,并将对应的电磁介质的材质信息作为对应像素的语义信息添加到光学图像中,得到标注后的标签图;
将标注后的标签图的集合作为训练集。
可选的,所述方法还包括:
对电磁介质语义识别后的图像进行超像素分割;
统计每个超像素内各电磁介质语义类别所占像素总数,选择像素总数最多的语义类别并将其赋给该超像素,以实现对无人机探测图像的电磁介质语义分割。
可选的,所述对电磁介质语义识别后的图像进行超像素分割,包括:
根据预先设定的超像素数量在电磁介质语义识别后的图像中均匀分配聚类中心;
针对每一个聚类中心,计算该聚类中心的n*n像素邻域内所有像素点的梯度值,将种子点移到该邻域内梯度最小的位置;
利用公式,
Figure BDA0002972682650000051
在每个聚类中心的2s×2s邻域范围内计算各个像素点到聚类中心的距离,并以像素点所属的聚类中心标识作为类标签,其中,
s为相邻种子点之间的距离;dc为颜色距离,ds为空间距离;(li,ai,bi)为聚类中心对应的像素点在Lab空间中的像素值;(lj,aj,bj)为第j个像素点在Lab空间中的像素值;(xi,yi)为聚类中心对应像素点的坐标;(xj,yj)为第j个像素点的坐标;Nc为搜索距离内像素点与聚类中心对应像素点之间的最大颜色距离值;NS为搜索距离内搜索距离内像素点与聚类中心对应像素点之间的最大空间距离值,且
Figure BDA0002972682650000052
图像的像素总数为N;超像素,即聚类中心的个数为K;D′为像素点到聚类中心的距离;
返回执行所述计算该聚类中心的n*n像素邻域内所有像素点的梯度值的步骤,直至收敛;
按照之型轨迹,从下到上,从左至右将不连续的超像素、尺寸小于设定尺寸的超像素重新分配给邻近的超像素,直到所有超像素都被遍历。
本发明还提供了基于改进的Deeplabv3+的航拍图像电磁介质语义识别装置,所述装置包括:
拍摄模块,用于利用无人机拍摄待处理区域的光学图像;
识别模块,用于利用预先训练的、基于转置卷积上采样的deeplabv3+神经网络对光学图像进行电磁介质语义识别。
可选的,所述识别模块中获得预先训练的deeplabv3+神经网络的过程包括:
对测区的航空拍摄的光学图像进行预处理与标注,得到训练集;
利用训练集训练预先构建的deeplabv3+神经网络,得到训练后的神经网络模型,其中,所述神经网络模型,包括:依次数据连接的编码模块以及解码模块,其中,所述解码模块包括转置卷积单元;
所述编码模块,包括:依次串联的Xception65单元、编码卷积单元以及输出单元;
所述解码模块,包括:依次串联的细节提取单元、Concat单元、卷积单元以及上采样单元,其中,
所述细节提取单元为卷积核尺寸为1*1的卷积层;
转置卷积单元利用倍数为4的转置卷积层对输出单元的数据进行上采样处理;
所述Concat单元,用于利用Concat函数将细节提取单元的输出与转置卷积单元的输出进行通道数合并处理;
卷积单元,为卷积核尺寸为3*3的卷积层;
上采样单元为线性插值上采样层。
本发明相比现有技术具有以下优点:
应用本发明实施例,基于光学图像,利用deeplabv3+神经网络对光学图像进行电磁介质语义识别,相对于现有技术中的人工标注的方法,可以更加高效的识别出物体的电磁介质性质。
附图说明
图1为本发明实施例提供的基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法的流程示意图;
图2为本发明实施例提供的无人机拍摄待处理区域的光学图像;
图3为本发明实施例提供的标签图示意图;
图4为本发明实施例中使用的神经网络模型的结构示意图;
图5为本发明实施例中转置卷积的输出结果示意图;
图6为本发明实施例识别出的结果示意图;
图7为本发明实施例中使用改进的DeepLabv3+的粗糙语义分割结果,以及使用超像素算法优化后的分割结果对比图;
图8为本发明实施例提供的基于改进的Deeplabv3+的航拍图像电磁介质语义识别装置的结构示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
图1为本发明实施例提供的基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法的流程示意图,如图1所示,所述方法包括:
S101:利用无人机拍摄待处理区域的光学图像。
要想建立一个高质量的电磁介质语义分割数据集,数据集采集的重要性不可忽略。使用小型无人飞行器携带云台对测区进行低空光学影像测量。图2为本发明实施例提供的无人机拍摄待处理区域的光学图像,如图2所示,根据所需图像的光学分辨率确定飞行器的航向和旁向重叠率、飞行的航线路径、速度和高度等信息。如果航向重叠率过低,则有可能造成一些重要的区域缺少图片而无法重建。而如果航向重叠率过高,则不仅会增加无人机拍摄的工作时间,并且过多的图片在实际处理中也会耗费额外的时间,本发明实施例中,考虑到建筑物影响采集的特点,将航向重叠率设置在70%~80%的范围内;旁向重叠率设置在60%~80%的范围内;飞行高度过高,则对于高度较低的目标,其所占像素比会过小,从而给语义识别造成困难。飞行高度过低,则无法拍摄到目标的整个轮廓,同样会给语义分割造成额外的误差,同时飞行高度过低也会增加无人机的不安全因素。本发明实施例中,无人机飞行的高度应为拍摄区域内最高物体高度的1.2倍。
然后规划航线并开始进行外业数据采集采集的某一建筑物的两幅影像分别为图2中的左侧的正视影像,以及图2中右侧的建筑物的侧视影像。正视影像的作用在于提供一个目标的整体轮廓,并且可以据此得到目标的深度图。利用这种深度图信息共享的方式将语义信息加载到点云上,最终可以得到按照电磁介质语义所属分类进行切分的点云集合,即对整个区域中的不同地理要素进行分类。而侧视影像的作用在于补充目标的侧面信息。如建筑的窗户分布等正视影像无法提供的信息,从而更加完整地对全局的电磁介质完成语义分割。
S102:利用预先训练的、基于转置卷积上采样的deeplabv3+神经网络对光学图像进行电磁介质语义识别。
S102步骤包括:步骤A:训练出deeplabv3+神经网络,其具体过程为:
A1:所述对测区的航空拍摄的光学图像进行预处理:
利用公式,
Figure BDA0002972682650000091
对光学图像进行标准化处理,其中,
adjusted-stddev为像素的标准差;σ为像素标准方差;N为图像x的像素数量,image_standardization为图像的标准化处理后的光学图像;μ为光学图像的像素均值,x为光学图像像素值矩阵。
图像标准化处理运用凸优化理论和数据概率分部这两部分的理论知识。将图像中的数据进行去均值操作完成中心化处理,数据中心化满足数据分布规律,训练后更容易获得泛化效果。
利用公式,
Figure BDA0002972682650000092
对标准化处理后的光学图像进行归一化处理,其中,
norm为归一化处理后的光学图像中的像素值;xi为归一化处理后的光学图像中第i个像素的像素值;min(x)为归一化处理后的光学图像中的像素值最小值;max(x)为归一化处理后的光学图像中的像素值最大值。
经过归一化处理的图像结果与原图完全一致,归一化不会改变原图像的信息,只是改变了取值范围,将原图像素值的取值范围从255变成0-1之间了,这样做是对后面使用深度学习网络对数据进行训练有所帮助。考虑到任务是基于无人机探测图像的电磁介质语义分割,图像的语义分割需要对图像的整体信息进行处理,因此采用图像的归一化处理方法对数据集进行预处理。
使用颜色将不同材质的电磁介质区分标注,并将对应的电磁介质的材质信息作为对应像素的语义信息添加到光学图像中,得到标注后的标签图。通常情况下,图像语义分割是一个像素级分割任务,所以人工标注数据是一个费时又费力的过程,为了保证数据集标注的统一性,标注信息以.json文件形式储存。然后将这些json文件整理到一起,并生成标注图。图3为本发明实施例提供的标签图示意图,如图3所示,生成的标注图像中各个类别的标注颜色不一致,经过处理将生成统一的标签图。
由于使用的电磁介质语义分割的神经网络最后一层的Softmax分类器会基于概率对模型进行一维数值的分类。因此需要在样本输入网络前,对色彩空间为RGB的标注后的标签图进行数据格式转化,将3通道的RGB灰度化为1通道的灰度值。
A2:将标注后的标签图的集合作为训练集。
B:利用训练集训练预先构建的deeplabv3+神经网络,得到训练后的神经网络模型。
B1:尽管现有技术中的DeepLabV3+语义分割算法在各图像语义分割数据集上均取得了巨大的成功,但仍然存在如下不足:现有的DeepLabV3+及其它基于深度学习的语义分割算法通常在特征提取阶段通过连续地堆叠池化层或降采样层来增大感受野,因此很多的物体边缘等细节信息在卷积过程中被丢失。如果定义输入图像空间分辨率与最终输出的特征图的分辨率的比值为输出步长(Output Stride)的情况下,即使现有的DeepLabV3+算法提出通过采用扩张卷积代替池化层来产生密集的像素预测的策略,其编码输出的特征图相较于输入图像分辨率仍然减小了16倍,即Output Stride=16。为了避免细节丢失,现有的DeepLabV3+首先将编码特征进行因子为4的双线性插值上采样,然后连接低层网络输出的具有相同空间分辨率的特征层,最后采用3*3的卷积核和因子为4的双线性上采样来将输出特征图恢复为输入图像的空间分辨率大小,最终完成语义分割。尽管如此,在此过程中仍然有很多的细节信息被丢失,仅仅依靠连续两次的因子为4的双线性上采样不足以充分恢复图像的细节信息,导致其在物体边缘等细节部分的语义分割效果不够理想,进而导致电磁介质边缘的分割不够精确。这种边缘细节的丢失无论是对于建筑物的电磁介质对应的三维点云分类,进而建立的建筑物三维电磁介质模型,还是为基于三维电磁介质模型进行电磁环境分析来说都存在准确性不足的问题。尤其是在电磁环境分析环节,建筑的边缘对于绕射的分析计算是极为关键的,因此,我们必须在DeepLabV3+模型的基础上对其进行改进,以充分获得电磁介质的边缘信息。
基于此,图4为本发明实施例中使用的神经网络模型的结构示意图,如图4所示,预先搭建神经网络模型,该模型包括:依次串联的Xception65单元、编码卷积单元以及输出单元,其中,
Xception65单元,包括:前卷积单元、中间卷积单元以及输出卷积单元,其中,
前卷积单元包括:依次串联的通道数为32、卷积核尺寸为3*3,卷积步长为2的第一卷积层;
通道数为64、卷积核尺寸为3*3,卷积步长为1的第二卷积层;
通道数为128、卷积核尺寸为3*3,卷积步长为1的两个第三卷积层;
通道数为128、卷积核尺寸为3*3,卷积步长为2的第四卷积层;
通道数为256、卷积核尺寸为3*3,卷积步长为1的两个第五卷积层;
通道数为256、卷积核尺寸为3*3,卷积步长为2的第六卷积层
通道数为728、卷积核尺寸为3*3,卷积步长为1的两个第七卷积层;
通道数为728、卷积核尺寸为3*3,卷积步长为2的第八卷积层;
以及,第一旁路卷积层、第二旁路卷积层以及第三旁路卷积层,且,
第一旁路卷积层接收第二卷积层卷积结果,并将卷积结果与第四卷积层的输出求和后分别作为第五卷积层以及第二旁路卷积层的输入,其通道数128,卷积核尺寸1*1,卷积步长为2;
第二旁路卷积层接收第一旁路卷积层的卷积结果,并将自身卷积结果与第六卷积层的输出求和后分别作为第七卷积层以及第三旁路卷积层的输入,其通道数256,卷积核尺寸1*1,卷积步长为2;
第三旁路卷积层接收第二旁路卷积层的卷积结果,并将自身卷积结果与第八卷积层的输出求和后作为中间卷积单元的输入,其通道数728,卷积核尺寸1*1,卷积步长为2;
所述中间卷积单元包括:依次串联的16个第九卷积层,且第九卷积层的通道数为728,卷积核为3*3,卷积步长为1;中间卷积单元的输出为前卷积单元的输出与最后一个第九卷积层的输出之和;
所述输出卷积单元包括:依次串联的通道数为728、卷积核尺寸为3*3,卷积步长为1的第十卷积层;
通道数为1024、卷积核尺寸为3*3,卷积步长为1的第十一卷积层;
通道数为1024、卷积核尺寸为3*3,卷积步长为2的第十二卷积层;
通道数为1536、卷积核尺寸为3*3,卷积步长为1的两个第十三卷积层;
通道数为2048、卷积核尺寸为3*3,卷积步长为1的第十四卷积层;
以及,第四旁路卷积层,其通道数为1024、卷积核尺寸为1*1,卷积步长为2;
编码卷积单元,包括:并联的卷积核尺寸为1*1的第十四卷积层;卷积核尺寸为3*3,步长为6的第十五卷积层;卷积核尺寸为3*3,步长为12的第十六卷积层;卷积核尺寸为3*3,步长为18的第十七卷积层;以及图像池化层;
输出单元将第十四卷积层、第十五卷积层、第十六卷积层以及图像池化层的输出数据通道数合并后使用卷积核为1*1的卷积层进行输出处理。
需要强调的是,本发明实施例中,除第一卷积层、第二卷积层、第一旁路卷积层、第二旁路卷积层、第三旁路卷积层以及第四旁路卷积层以外的其他卷积层均为可分卷积层。
所述解码模块,依次串联的细节提取单元、Concat单元、卷积单元以及上采样单元,其中,
所述细节提取单元为卷积核尺寸为1*1的卷积层;
转置卷积单元利用倍数为4的转置卷积层对输出单元的数据进行上采样处理;
所述Concat单元,用于利用Concat函数将细节提取单元的输出与转置卷积单元的输出进行通道数合并处理;
卷积单元,为卷积核尺寸为3*3的卷积层;
上采样单元为线性插值上采样层。
传统上进行上采样通常用双线性插值的方法,双线性插值考虑了待测采样点周围四个直接邻点对该采样点对相关性影响,但由于双线性插值仅仅考虑了待测点周围四个直接邻点灰度值的影响,而未考虑到各邻点间灰度值变化率的影响,因此具有低通滤波器的性质,从而导致缩放后的图像的高频分量受到一定程度上的损失,图像边缘变得较为模糊。
为了解决上述技术问题,本发明实施例中通过使用转置卷积代替会造成图像边缘模糊的第一个因子为4的双线性上采样,由于转置卷积可以通过学习来逼近目标值,避免了图像边缘的损失,使分割的结果更加精确。可以更好地重构复杂城市空间DC信息并达到更加充分地恢复无人机探测图像的电磁介质细节信息的目的。
但发明人在实际应用中发现,虽然解决了上述技术问题,使用转置卷积进行上采样通常会导致棋盘效应。图5为本发明实施例中转置卷积的输出结果示意图,如图5所示,501为本发明实施例中使用的转置卷积上采样得到的输出结果,输出图像上的每个像素与其毗邻的像素所接收到的信息量都不相同,导致结果501中存在深浅不一的区域,即图像中某部位的颜色比其他相邻部位深,整体图像呈现不规则深深浅浅的现象。造成这一现象的原因转置卷积映射后的不均匀重叠,这种重叠会使图像中某个部位的颜色比其他部位更深。
发明人出人意料的发现,当卷积步长能够被卷积核尺寸整除时,能够使得卷积核每次滑动能用到的非零像素的个数是一样的,或者中间区域向两边减少,而不是随着滑动反复变化从而产生棋盘形状。图5中结果502中虽然均匀的重叠区域缩小了,但是依旧可以将输出图像的中间部分用作有效的输出,其中每个像素从输入图像中接收到的信息是同样多的。应用本发明上述模型架构,一定程度上消除了棋盘效应的负面影响。
C:使用训练后的神经网络模型识别出待分割图像中的电磁介质语义信息。
图6为本发明实施例识别出的结果示意图,如图6所示,本发明实施例可以识别出草地、砖、混凝土以及玻璃等电磁介质语义信息,同时进行分割。
进一步的,还可以利用以下步骤对电磁介质语义识别后的图像进行超像素分割,以得到精度更高的识别结果:
图像中的超像素为具有相似的颜色、纹理以及空间位置等特征的相邻像素构成的不规则像素块,因此,属于同一超像素内的所有图像像素具有相同或者相似的特征,因而使用超像素作为基本的图像处理单元可以减少图像像素之间的冗余。通过使用超像素代替大量的像素来表达图片特征,可以在很大的程度上降低相关图像处理算法的复杂度。
由于超像素代表着图像中具有相似颜色、纹理等特征的小块区域,即属于同一超像素内的所有像素具有相同或相似的电磁介质特征,因此使用超像素作为基本处理单元有利于对电磁介质特征的提取和定义。而且,基于单像素的DC特征分割算法容易受到图像噪声的影响,而使用图像超像素可以降低图像噪声对电磁介质分割算法的影响。再者,超像素具有保边特性,即,使用超像素可以增加不同的电磁介质语义类别边缘被分割的概率,这对提高电磁介质分割的检测准确性至关重要。最后,相比于使用像素作为基本处理单元,设计基于超像素的电磁介质分割算法可以在很大程度上降低计算复杂度,提高算法的效率,其中,超像素分割算法,包括:基于图论的分割方法和基于梯度下降的方法。
因此,下面以简单线性迭代聚类(Simple Linear Iterative Cluster,SLIC)进行超像素分割为例进行介绍:该算法能够生成结构紧凑并且近似均匀的图像超像素可以根据预先设定的超像素数量在电磁介质语义识别后的图像中均匀分配聚类中心;
针对每一个聚类中心,计算该聚类中心的n*n像素邻域内所有像素点的梯度值,将种子点移到该邻域内梯度最小的位置;
利用公式,
Figure BDA0002972682650000161
在每个聚类中心的2s×2s邻域范围内计算各个像素点到聚类中心的距离,并以像素点所属的聚类中心标识作为类标签,其中,
s为相邻种子点之间的距离;dc为颜色距离,ds为空间距离;(li,ai,bi)为聚类中心对应的像素点在Lab空间中的像素值;(lj,aj,bj)为第j个像素点在Lab空间中的像素值;(xi,yi)为聚类中心对应像素点的坐标;(xj,yj)为第j个像素点的坐标;Nc为搜索距离内像素点与聚类中心对应像素点之间的最大颜色距离值;NS为搜索距离内搜索距离内像素点与聚类中心对应像素点之间的最大空间距离值,且
Figure BDA0002972682650000162
图像的像素总数为N;超像素,即聚类中心的个数为K;D′为像素点到聚类中心的距离;
返回执行所述计算该聚类中心的n*n像素邻域内所有像素点的梯度值的步骤,直至收敛;
按照之型轨迹,从下到上,从左至右将不连续的超像素、尺寸小于设定尺寸的超像素重新分配给邻近的超像素,直到所有超像素都被遍历,以增强超像素之间的连通性。
然后,在得到了图像超像素信息后,在得到了由改进的DeepLabV3+输出的相对粗糙的电磁介质语义分割结果的基础上,通过统计每个超像素内各电磁介质语义类别所占像素总数,选择像素总数最多的语义类别并将其赋给该超像素,以实现对无人机探测图像的电磁介质语义分割。
在对DeepLabV3+语义分割模型进行初步地改进后,通过使用转置卷积代替第一个因子为4的双线性上采样,对无人机探测图像细节信息进行了恢复,利用上述改进的DeepLabV3+模型,可以实现对无人机探测图像的电磁介质语义特征的提取并得到粗糙的电磁介质语义分割结果。在此基础上,为了进一步恢复电磁介质的边缘等无人机探测图像细节信息,解决在电磁介质边缘部分的语义分割效果不够精确的问题,考虑到图像超像素具有可以保护图像边缘的特性,我们的电磁介质语义分割算法选择引入图像超像素信息,提出通过融合图像高层语义特征和超像素图像边缘信息来优化语义分割结果,
图7为本发明实施例中使用改进的DeepLabv3+的粗糙语义分割结果,以及使用超像素算法优化后的分割结果对比图。如图所示,上方部分为仅使用经过改进的DeepLabv3+输出的相对粗糙的语义分割结果图;下方为使用超像素分割算法优化DeepLabv3+的粗糙语义分割结果后的分割结果;由对比结果可以看出,在窗户分割的边缘部分细节更好地被保留了下来,也就是说改进的DeepLabv3+的高层电磁介质语义信息和超像素的图像边缘信息被很好地融合了,在电磁介质边缘处的语义分割结果得到了优化,也就是说,本发明实施例中提出的改进的DeepLabv3+神经网络模型与超像素分割算法二者可以相互促进,实现了一加一大于二的技术效果,进而使整体的电磁介质语义分割性能得到了提升。
另外,计算机视觉领域里深度学习算法的好坏与数据集的规模和质量有很大的关系。质量高、规模大的数据集在使用算法进行训练和验证时有很好的效果。为了在复杂的现实场景中实现对不同电磁介质的准确分割,一个高质量的电磁介质语义分割数据集是必不可少的。而目前国际上开源的图像分割数据集,如COCO、VOC和Cityscapes等都无法用于无人机航拍图像的电磁介质分割。因此,如何得到能够实现电磁介质识别的无人机航拍数据集也是一个非常关键的技术问题,而本发明实施例可以使用训练后的DeepLabV3+语义分割模型进行数据集的建立。
对应于本发明上述实施例,本发明还提供了基于改进的Deeplabv3+的航拍图像电磁介质语义识别装置。
图8为本发明实施例提供的基于改进的Deeplabv3+的航拍图像电磁介质语义识别装置的结构示意图,如图8所示,所述装置包括:
拍摄模块801,用于利用无人机拍摄待处理区域的光学图像;
识别模块802,用于利用预先训练的、基于转置卷积上采样的deeplabv3+神经网络对光学图像进行电磁介质语义识别。
在本发明实施例的一种具体实施方式中,所述识别模块802中获得预先训练的deeplabv3+神经网络的过程包括:
对测区的航空拍摄的光学图像进行预处理与标注,得到训练集;
利用训练集训练预先构建的deeplabv3+神经网络,得到训练后的神经网络模型,其中,所述神经网络模型,包括:依次数据连接的编码模块以及解码模块,其中,所述解码模块包括转置卷积单元。
各模块的具体实现与各步骤相应,本发明不予撰述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法,其特征在于:所述方法,包括:
利用无人机拍摄待处理区域的光学图像;
利用预先训练的、基于转置卷积上采样的deeplabv3+神经网络对光学图像进行电磁介质语义识别。
2.根据权利要求1所述的基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法,其特征在于:获得预先训练的deeplabv3+神经网络的过程,包括;
对测区的航空拍摄的光学图像进行预处理与标注,得到训练集;
利用训练集训练预先构建的deeplabv3+神经网络,得到训练后的神经网络模型,其中,所述神经网络模型,包括:依次数据连接的编码模块以及解码模块,其中,所述解码模块包括转置卷积单元。
3.根据权利要求2所述的基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法,其特征在于:所述编码模块,包括:依次串联的Xception65单元、编码卷积单元以及输出单元,其中,
Xception65单元,包括:前卷积单元、中间卷积单元以及输出卷积单元;
其中前卷积单元包括多个依次串联的卷积层,以及,第一旁路卷积层、第二旁路卷积层以及第三旁路卷积层,且,第一旁路卷积层接收第二卷积层卷积结果,并将卷积结果与第四卷积层的输出求和后分别作为第五卷积层以及第二旁路卷积层的输入,第二旁路卷积层接收第一旁路卷积层的卷积结果,并将自身卷积结果与第六卷积层的输出求和后分别作为第七卷积层以及第三旁路卷积层的输入;
所述中间卷积单元包括依次串联的多个卷积层;中间卷积单元的输出为前卷积单元的输出与中间卷积单元中最后一个卷积层的输出之和;
所述输出卷积单元包括:依次串联的多个卷积层以及第四旁路卷积层;
所述编码卷积单元,包括:并联多个卷积层,以及图像池化层;
输出单元将编码卷积单元的输出数据通道数合并后使用卷积核为1*1的卷积层进行输出处理。
4.根据权利要求3所述的基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法,其特征在于:前卷积单元包括依次串联的通道数为32、卷积核尺寸为3*3,卷积步长为2的第一卷积层;通道数为64、卷积核尺寸为3*3,卷积步长为1的第二卷积层;通道数为128、卷积核尺寸为3*3,卷积步长为1的两个第三卷积层;通道数为128、卷积核尺寸为3*3,卷积步长为2的第四卷积层;通道数为256、卷积核尺寸为3*3,卷积步长为1的两个第五卷积层;通道数为256、卷积核尺寸为3*3,卷积步长为2的第六卷积层;通道数为728、卷积核尺寸为3*3,卷积步长为1的两个第七卷积层;通道数为728、卷积核尺寸为3*3,卷积步长为2的第八卷积层;其中第一旁路卷积层的通道数为128,卷积核尺寸1*1,卷积步长为2;第二旁路卷积层的通道数256,卷积核尺寸1*1,卷积步长为2;第三旁路卷积层的通道数728,卷积核尺寸1*1,卷积步长为2;
所述中间卷积单元包括:依次串联的16个第九卷积层,且第九卷积层的通道数为728,卷积核为3*3,卷积步长为1;
所述输出卷积单元包括:依次串联的通道数为728、卷积核尺寸为3*3,卷积步长为1的第十卷积层;通道数为1024、卷积核尺寸为3*3,卷积步长为1的第十一卷积层;通道数为1024、卷积核尺寸为3*3,卷积步长为2的第十二卷积层;通道数为1536、卷积核尺寸为3*3,卷积步长为1的两个第十三卷积层;通道数为2048、卷积核尺寸为3*3,卷积步长为1的第十四卷积层;以及,第四旁路卷积层,其通道数为1024、卷积核尺寸为1*1,卷积步长为2;
编码卷积单元,包括:并联的卷积核尺寸为1*1的第十四卷积层;卷积核尺寸为3*3,步长为6的第十五卷积层;卷积核尺寸为3*3,步长为12的第十六卷积层;卷积核尺寸为3*3,步长为18的第十七卷积层;以及图像池化层。
5.根据权利要求3所述的基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法,其特征在于:所述解码模块,包括:依次串联的细节提取单元、Concat单元、卷积单元以及上采样单元,其中,
所述细节提取单元为卷积核尺寸为1*1的卷积层;
转置卷积单元利用倍数为4的转置卷积层对输出单元的数据进行上采样处理;
所述Concat单元,用于利用Concat函数将细节提取单元的输出与转置卷积单元的输出进行通道数合并处理;
卷积单元,为卷积核尺寸为3*3的卷积层;
上采样单元为线性插值上采样层。
6.根据权利要求2所述的基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法,其特征在于:所述对测区的航空拍摄的光学图像进行预处理与标注,得到训练集,包括:
利用公式,
Figure FDA0002972682640000031
对光学图像进行标准化处理,其中,
adjusted_stddev为像素的标准差;σ为像素标准方差;N为图像x的像素数量,image_standardization为图像的标准化处理后的光学图像;μ为光学图像的像素均值,x为光学图像像素值矩阵;
利用公式,
Figure FDA0002972682640000041
对标准化处理后的光学图像进行归一化处理,其中,
norm为归一化处理后的光学图像中的像素值;xi为归一化处理后的光学图像中第i个像素的像素值;min(x)为归一化处理后的光学图像中的像素值最小值;max(x)为归一化处理后的光学图像中的像素值最大值;
使用颜色将不同材质的电磁介质区分标注,并将对应的电磁介质的材质信息作为对应像素的语义信息添加到光学图像中,得到标注后的标签图;
将标注后的标签图的集合作为训练集。
7.根据权利要求1所述的基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法,其特征在于:所述方法还包括:
对电磁介质语义识别后的图像进行超像素分割;
统计每个超像素内各电磁介质语义类别所占像素总数,选择像素总数最多的语义类别并将其赋给该超像素,以实现对无人机探测图像的电磁介质语义分割。
8.根据权利要求7所述的基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法,其特征在于:所述对电磁介质语义识别后的图像进行超像素分割,包括:
根据预先设定的超像素数量在电磁介质语义识别后的图像中均匀分配聚类中心;
针对每一个聚类中心,计算该聚类中心的n*n像素邻域内所有像素点的梯度值,将种子点移到该邻域内梯度最小的位置;
利用公式,
Figure FDA0002972682640000051
在每个聚类中心的2s×2s邻域范围内计算各个像素点到聚类中心的距离,并以像素点所属的聚类中心标识作为类标签,其中,
s为相邻种子点之间的距离;dc为颜色距离,ds为空间距离;(li,ai,bi)为聚类中心对应的像素点在Lab空间中的像素值;(lj,aj,bj)为第j个像素点在Lab空间中的像素值;(xi,yi)为聚类中心对应像素点的坐标;(xj,yj)为第j个像素点的坐标;Nc为搜索距离内像素点与聚类中心对应像素点之间的最大颜色距离值;NS为搜索距离内搜索距离内像素点与聚类中心对应像素点之间的最大空间距离值,且
Figure FDA0002972682640000052
图像的像素总数为N;超像素,即聚类中心的个数为K;D′为像素点到聚类中心的距离;
返回执行所述计算该聚类中心的n*n像素邻域内所有像素点的梯度值的步骤,直至收敛;
按照之型轨迹,从下到上,从左至右将不连续的超像素、尺寸小于设定尺寸的超像素重新分配给邻近的超像素,直到所有超像素都被遍历。
9.基于改进的Deeplabv3+的航拍图像电磁介质语义识别装置,其特征在于,所述装置包括:
拍摄模块,用于利用无人机拍摄待处理区域的光学图像;
识别模块,用于利用预先训练的、基于转置卷积上采样的deeplabv3+神经网络对光学图像进行电磁介质语义识别。
10.根据权利要求9所述的基于改进的Deeplabv3+的航拍图像电磁介质语义识别装置,其特征在于:所述识别模块中获得预先训练的deeplabv3+神经网络的过程包括:
对测区的航空拍摄的光学图像进行预处理与标注,得到训练集;
利用训练集训练预先构建的deeplabv3+神经网络,得到训练后的神经网络模型,其中,所述神经网络模型,包括:依次数据连接的编码模块以及解码模块,其中,所述解码模块包括转置卷积单元;
所述编码模块,包括:依次串联的Xception65单元、编码卷积单元以及输出单元;
所述解码模块,包括:依次串联的细节提取单元、Concat单元、卷积单元以及上采样单元,其中,
所述细节提取单元为卷积核尺寸为1*1的卷积层;
转置卷积单元利用倍数为4的转置卷积层对输出单元的数据进行上采样处理;
所述Concat单元,用于利用Concat函数将细节提取单元的输出与转置卷积单元的输出进行通道数合并处理;
卷积单元,为卷积核尺寸为3*3的卷积层;
上采样单元为线性插值上采样层。
CN202110267834.9A 2021-03-12 2021-03-12 基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法及装置 Pending CN113065412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110267834.9A CN113065412A (zh) 2021-03-12 2021-03-12 基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110267834.9A CN113065412A (zh) 2021-03-12 2021-03-12 基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法及装置

Publications (1)

Publication Number Publication Date
CN113065412A true CN113065412A (zh) 2021-07-02

Family

ID=76560097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110267834.9A Pending CN113065412A (zh) 2021-03-12 2021-03-12 基于改进的Deeplabv3+的航拍图像电磁介质语义识别方法及装置

Country Status (1)

Country Link
CN (1) CN113065412A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392925A (zh) * 2017-08-01 2017-11-24 西安电子科技大学 基于超像素编码和卷积神经网络的遥感影像地物分类方法
CN108280397A (zh) * 2017-12-25 2018-07-13 西安电子科技大学 基于深度卷积神经网络的人体图像头发检测方法
CN109389051A (zh) * 2018-09-20 2019-02-26 华南农业大学 一种基于卷积神经网络的建筑物遥感图像识别方法
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法
CN111259898A (zh) * 2020-01-08 2020-06-09 西安电子科技大学 基于无人机航拍图像的农作物分割方法
CN111325751A (zh) * 2020-03-18 2020-06-23 重庆理工大学 基于注意力卷积神经网络的ct图像分割系统
CN112418245A (zh) * 2020-11-04 2021-02-26 武汉大学 基于城市环境物理模型的电磁发射点定位方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392925A (zh) * 2017-08-01 2017-11-24 西安电子科技大学 基于超像素编码和卷积神经网络的遥感影像地物分类方法
CN108280397A (zh) * 2017-12-25 2018-07-13 西安电子科技大学 基于深度卷积神经网络的人体图像头发检测方法
CN110232394A (zh) * 2018-03-06 2019-09-13 华南理工大学 一种多尺度图像语义分割方法
CN109389051A (zh) * 2018-09-20 2019-02-26 华南农业大学 一种基于卷积神经网络的建筑物遥感图像识别方法
CN111259898A (zh) * 2020-01-08 2020-06-09 西安电子科技大学 基于无人机航拍图像的农作物分割方法
CN111325751A (zh) * 2020-03-18 2020-06-23 重庆理工大学 基于注意力卷积神经网络的ct图像分割系统
CN112418245A (zh) * 2020-11-04 2021-02-26 武汉大学 基于城市环境物理模型的电磁发射点定位方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MATTHEWY: "deeplabv3+", Retrieved from the Internet <URL:https://segmentfault.com/a/1190000022466707?sort=newest> *
任凤雷: "基于deeplabV3+与超像素优化的语义分割", 光学精密工程, vol. 27, no. 12 *
宁振伟: "数字城市三维建模技术与实践", 北京:测绘出版社, pages: 1 - 10 *

Similar Documents

Publication Publication Date Title
CN109753885B (zh) 一种目标检测方法、装置以及行人检测方法、系统
CN110210551B (zh) 一种基于自适应主体敏感的视觉目标跟踪方法
CN110443842B (zh) 基于视角融合的深度图预测方法
CN111598030B (zh) 一种航拍图像中车辆检测和分割的方法及系统
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
Zhang et al. Efficient inductive vision transformer for oriented object detection in remote sensing imagery
CN110728200A (zh) 一种基于深度学习的实时行人检测方法及系统
CN109035172B (zh) 一种基于深度学习的非局部均值超声图像去噪方法
CN112529015A (zh) 一种基于几何解缠的三维点云处理方法、装置及设备
CN111462120A (zh) 一种基于语义分割模型缺陷检测方法、装置、介质及设备
CN109285162A (zh) 一种基于局部区域条件随机场模型的图像语义分割方法
Lu et al. A cnn-transformer hybrid model based on cswin transformer for uav image object detection
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN112784736A (zh) 一种多模态特征融合的人物交互行为识别方法
CN113486894B (zh) 一种卫星图像特征部件语义分割方法
CN113657414B (zh) 一种物体识别方法
CN111126127A (zh) 一种多级空间上下文特征指导的高分辨率遥感影像分类方法
CN112200846A (zh) 融合无人机影像与地基雷达点云的林分因子提取方法
CN114463492A (zh) 一种基于深度学习的自适应通道注意力三维重建方法
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN111640116A (zh) 基于深层卷积残差网络的航拍图建筑物分割方法及装置
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
CN110634142B (zh) 一种复杂车路图像边界优化方法
CN114387592A (zh) 一种复杂背景下字符定位和识别方法
CN117689887A (zh) 基于点云分割的工件抓取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination