CN110728682B - 一种基于残差金字塔池化神经网络的语义分割方法 - Google Patents

一种基于残差金字塔池化神经网络的语义分割方法 Download PDF

Info

Publication number
CN110728682B
CN110728682B CN201910864969.6A CN201910864969A CN110728682B CN 110728682 B CN110728682 B CN 110728682B CN 201910864969 A CN201910864969 A CN 201910864969A CN 110728682 B CN110728682 B CN 110728682B
Authority
CN
China
Prior art keywords
block
residual
layer
output
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910864969.6A
Other languages
English (en)
Other versions
CN110728682A (zh
Inventor
周武杰
吕思嘉
雷景生
何成
王海江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201910864969.6A priority Critical patent/CN110728682B/zh
Publication of CN110728682A publication Critical patent/CN110728682A/zh
Application granted granted Critical
Publication of CN110728682B publication Critical patent/CN110728682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于残差金字塔池化神经网络的语义分割方法。首先构建卷积神经网络,其隐层包括10个残差神经网络块、4个Residual ASPP块和5个Basic块;使用原始的室内场景图像输入到卷积神经网络中进行训练,得到对应的语义分割预测图;再通过计算原始的室内场景图像对应的语义分割预测图构成的集合与对应的真实语义分割图像处理成的40幅独热编码图像构成的集合之间的损失函数值,获得卷积神经网络分类训练模型的最优权值矢量和偏置项;在测试阶段,将待语义分割的室内场景图像输入到卷积神经网络分类训练模型中,得到语义分割预测图。本发明提高了室内场景图像的语义分割效率和准确度。

Description

一种基于残差金字塔池化神经网络的语义分割方法
技术领域
本发明是一种基于全卷积神经网络的语义分割方法,特别是对于残差金字塔池化的室内场景语义分割方法。
背景技术
语义分割是许多计算机视觉应用的基本技术,如场景理解、无人驾驶。随着卷积神经网络特别是全卷积神经网络(FCN)的发展,在基准测试中取得了许多有前途的成果。FCN具有典型的编码器-解码器结构——语义信息首先通过编码器嵌入到特征图中,解码器负责生成分割结果。通常,编码器是预先训练的卷积模型来提取图像特征,解码器包含多个上采样组件来恢复分辨率。尽管编码器最重要的特征图可能具有高度的语义性,但由于分辨率不足,它在分割图中重建精确细节的能力有限,这在现代主干模型中非常常见。语义分割既需要丰富的空间信息,又需要相当大的感受野,因此,利用空洞卷积来扩大感受野成为了现代网络的主流思想。现代语义分割框架通常将预先训练的主干卷积模型的低级和高级特征结合起来,以提高性能,通常选择残差块和跳跃连接作为结合方式。除此之外,多尺度信息也为语义分割的精确性提供了有力支撑,金字塔池化通过获取不同尺度的特征图再将其融合这一方法,成为了语义分割最常用的模块之一。今年来,RGB-D的广泛使用为语义分割提供了丰富的辅助信息,将深度图作为第二输入流与原始的RGB输入流相融合,成为了现阶段室内场景分割的主流方法。
发明内容
本发明所要解决的技术问题是提供一种对于深度学习的卷积神经网络做一系列多尺度的对称跳跃式连接融合的室内场景语义分割方法,以提高近年来分割技术领域中的精确度和图像中各类标签的准确度。
本发明解决上述技术问题所采用的技术方案包括以下步骤:
步骤1:选取N幅RGB图像以及RGB图像对应的深度图、独热编码图,将所有RGB图像及其对应的深度图、独热编码图构成训练集;独热编码图是对RGB图像进行真实语义分割处理得到的图像。
步骤2:构建残差金字塔池化神经网络,残差金字塔池化神经网络包括依次设置的输入层、隐藏层和输出层。
步骤3:将训练集中每幅RGB图像以及RGB图像对应的深度图通过输入层输入到隐藏层后再从输出层输出语义分割预测图,计算每幅RGB图像的语义分割预测图和独热编码图之间的损失函数值,损失函数值采用采用Negative Log-liklihood(NLLLoss)获得。
步骤4:重复执行步骤3共V次,并共得到N×V个损失函数值;将N×V个损失函数值中值最小的损失函数值对应的权值矢量和偏置项作为残差金字塔池化神经网络的最优权值矢量和最优偏置项,得到训练好的残差金字塔池化神经网络。
步骤5:采集待语义分割的RGB图像,并将其输入到训练好的残差金字塔池化神经网络中,输出得到待语义分割的RGB图像对应的语义分割预测图。
隐藏层包括五部分,第一部分主要由依次连接的第1个卷积块、第6个残差网络块、第7个残差网络块、第8个残差网络块、第9个残差网络块、第10个残差网络块、第1个残差网络块、第2个反卷积层、第3个反卷积层、第4个反卷积层组成,第二部分主要由依次连接的第1个残差网络块、第2个残差网络块、第3个残差网络块、第4个残差网络块、第5个残差网络块、第5个反卷积层、第6个反卷积层、第7个反卷积层、第8个反卷积层组成,第三部分主要由依次连接的第1个Residual ASPP块、第2个Residual ASPP块、第3个Residual ASPP块、第4个Residual ASPP块、第9个反卷积层、第10个反卷积层、第11个反卷积层组成,第四部分主要由依次连接的第1个Basic块、第2个Basic块、第3个Basic块、第12个反卷积层、第13个反卷积层、第4个Basic块和第5个Basic块组成。
第6个残差网络块、第4个反卷积层、第1个残差网络块和第8个反卷积层的输出均再跳跃连接到第1个Residual ASPP块的输入,第7个残差网络块、第3个反卷积层、第2个残差网络块和第7个反卷积层的输出均再跳跃连接到第2个Residual ASPP块的输入,第8个残差网络块、第2个反卷积层、第3个残差网络块和第6个反卷积层的输出均再跳跃连接到第3个Residual ASPP块的输入,第9个残差网络块、第1个反卷积层、第4个残差网络块和第5反卷积层的输出均再跳跃连接到第4个Residual ASPP块的输入。
第2个Residual ASPP块的输出再跳跃连接到第1个Basic块的输入,第3个Residual ASPP块和第10个反卷积层的输出再连接到第2个Basic块的输入,第4个ResidualASPP块和第9个反卷积层的输出再跳跃连接到第3个Basic块的输入,第2个Basic块的输出再跳跃连接到第4个Basic块的输入,第3个Basic块和第12个反卷积层的输出再跳跃连接到第5个Basic块的输入。
第五部分包括依次连接的第14个反卷积层、第15个反卷积层和第16个反卷积层,第3个Residual ASPP块的输出连接到第14个反卷积层的输入,第1个Residual ASPP块、第4个Basic块和第16个反卷积层的输出融合后作为隐藏层的主要输出,隐藏层还包括三个多尺度输出,第3个Residual ASPP块和第14个反卷积层输出融合后经第2个卷积块输出,第2卷积块的输出作为第一多尺度输出,第2个Residual ASPP块、第5个Basic块和第15个反卷积层输出融合后经第3个卷积块输出,第3卷积块的输出作为第二多尺度输出,第1个Residual ASPP块和第4个Basic块的输出融合后经第4个卷积块输出,第4卷积块的输出作为第三多尺度输出。
每幅RGB图像以及RGB图像对应的深度图经输入层输出到隐藏层,其中,第1个残差网络块接收RGB图像作为输入,第1个卷积块接收深度图作为输入,隐藏层的主要输出和三个多尺度输出经输出层输出,隐藏层输出的均为语义分割预测图,三个多尺度输出用于训练残差金字塔池化神经网络,三个多尺度输出的区别在于语义分割预测图的尺寸大小不同,根据隐藏层的主要输出和三个多尺度输出计算损失函数值。
第1个卷积块、第2卷积块、第3卷积块和第4卷积块的结构均相同,均是由卷积层、批量归一化层、激活层依次连接组成。
所述的各个残差网络块均是由ResNet34中的基本块构成,具体是:第1个残差网络块、第6个残差网络块均由ResNet34网络的第一卷积层、第一批量归一化层和第一激活层组成;第2个残差网络块、第7个残差网络块均由ResNet34网络的第一池化层和layer1结构组成;第3个残差网络块、第8个残差网络块均由ResNet34网络的layer2结构组成;第4个残差网络块、第9个残差网络块均由ResNet34网络的layer3结构组成;第5个残差网络块、第10个残差网络块均由ResNet34网络的layer4结构组成。
所述的各个Residual ASPP块的结构均由并行设置的三个带孔卷积块串行一个卷积块组成,三个带孔卷积块并联的一端作为Residual ASPP块的输入端,并联的另一端经串联的卷积块后的输出作为Residual ASPP块的输出端。
所述的各个Basic块均由三个卷积块依次连接组成,三个卷积块串联一端作为Basic块的输入端,串联的另一端作为Basic块的输出端,每个卷积块均由依次连接的卷积层、批量归一化层、激活层组成。
所述的RGB图像为原始采集的室内场景图像。
与现有技术相比,本发明的优点在于:
1)本发明方法构建了全卷积神经网络,与其他方法相比,本方法的网络结构用步长为2的卷积层取代了现阶段常用的池化层。由于池化层会对图像造成不可逆的特征损失,且语义分割对预测精度的要求很高,因此选择了步长为2的卷积层作为替代方法。该卷积层可以得到与池化层相同的效果,并能保证图片特征不会有过大损失。
2)本发明设置的Residual ASPP块,采用空洞卷积扩大网络感受野。池化层的优点不只是能有效缩减图像尺寸,还可有效扩大感受野以保证提取到更多的全局信息。因此在用步长为2的卷积层替代池化层时,感受野没有得到有效扩充,损失了部分全局信息。因此加入空洞卷积,以保证网络感受野不变甚至增大。空洞卷积与步长为2的卷积层相结合,可以保证网络提取到最多的局部特征与全局特征。
3)本发明方法在搭建卷积网络时采用了跳远连接最为主要的连接方式,以构成全残差网络。残差网络在语义分割方向上一直具有很优秀的表现,因此在本发明中加入跳远连接,可以有效补偿图像在编码过程中的损失,以保证最后的预测精度。
附图说明
图1为残差金字塔池化神经网络的结构框图;
图2a为第1幅原始的室内场景图像;图2b为利用本发明方法对图2a所示的原始的室内场景图像进行预测得到的语义分割预测图;
图3a为第2幅原始的室内场景图像;图3b为利用本发明方法对图3a所示的原始的室内场景图像进行预测得到的语义分割预测图;
图4a为第3幅原始的室内场景图像;图4b为利用本发明方法对图4a所示的原始的室内场景图像进行预测得到的语义分割预测图;
图5a为第4幅原始的室内场景图像;图5b为利用本发明方法对图5a所示的原始的室内场景图像进行预测得到的语义分割预测图。
图6a为第5幅原始的室内场景图像;图6b为利用本发明方法对图6a所示的原始的室内场景图像进行预测得到的语义分割预测图。
具体实施方式
以下结合附图和实施例对本发明作进一步详细描述。
本发明提出的一种基于残差金字塔池化的语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始图像的RGB图和深度图构成训练集,将训练集中的第k幅原始图像的RGB图记为
Figure BDA0002200985400000051
原始图像的深度图记为
Figure BDA0002200985400000052
对应的独热编码标签图像记为{Gk(x,y)};其中,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始图像的宽度,H表示原始图像的高度,如取W=640、H=480,Rk(x,y)表示
Figure BDA0002200985400000053
中坐标位置为(x,y)的像素点的像素值,
Figure BDA0002200985400000054
表示
Figure BDA0002200985400000055
中坐标位置为(x,y)的像素点的像素值,Gk(x,y)表示{Gk(x,y)}中坐标位置为(x,y)的像素点的像素值;本实验中的数据集直接选用的是NYUD V2中的1449幅图像。
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐藏层和输出层;其中隐层包括第1个残差网络块、第2个残差网络块、第3个残差网络块、第4个残差网络块、第5个残差网络块、第6个残差网络块、第7个残差网络块、第8个残差网络块、第9个残差网络块、第10个残差网络块、第1个Residual ASPP块、第2个Residual ASPP块、第3个Residual ASPP块、第4个Residual ASPP块、第1个Basic块、第2个Basic块、第3个Basic块、第4个Basic块、第5个Basic块、第1个反卷积层、第2个反卷积层、第3个反卷积层、第4个反卷积层、第5个反卷积层、第6个反卷积层、第7个反卷积层、第8个反卷积层、第9个反卷积层、第10个反卷积层、第11个反卷积层、第12个反卷积层、第13个反卷积层、第14个反卷积层、第15个反卷积层、第16个反卷积层。其中,所有反卷积层的卷积核大小均为4x4、补零参数均为1、步长均为2。
对于输入层,输入层的输入端接收原始图像的RGB图和深度图,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出量是隐层的输入量;其中,深度图与RGB图一样具有三通道,即经过输入层后也被处理成三个分量,且输入的原始立体图像的宽度为W、高度为H。
对于隐层:其包含的残差网络块都是由ResNet34中的基本块构成;第1个残差网络块由ResNet34网络的第一卷积层、第一批量归一化层和第一激活层组成;第2个残差网络块由ResNet34网络的第一池化层和layer1组成;第3个残差网络块由ResNet34网络的layer2组成;第4个残差网络块由ResNet34网络的layer3组成;第5个残差网络块由ResNet34网络的layer4组成;第6个残差网络块由ResNet34网络的第一卷积层、第一批量归一化层和第一激活层组成;第7个残差网络块由ResNet34网络的第一池化层和layer1组成;第8个残差网络块由ResNet34网络的layer2组成;第9个残差网络块由ResNet34网络的layer3组成;第10个残差网络块由ResNet34网络的layer4组成。
第1个残差网络块的输入是三通道的原始RGB图像,经过第1个残差网络块的处理输出64幅特征图,将64幅特征图构成的集合记为P1,并且P1中的每幅特征图的宽度为
Figure BDA0002200985400000061
高度为
Figure BDA0002200985400000062
第2个残差网络块的输入是第1个残差网络块的输出,经过第2个残差网络块的处理输出64幅特征图,将64幅特征图构成的集合记为P2,并且P2中的每幅特征图的宽度为
Figure BDA0002200985400000063
高度为
Figure BDA0002200985400000064
第3个残差网络块的输入是第2个残差网络块的输出,经过第3个残差网络块的处理输出408幅特征图,将408幅特征图构成的集合记为P3,并且P3中的每幅特征图的宽度为
Figure BDA0002200985400000071
高度为
Figure BDA0002200985400000072
第4个残差网络块的输入是第3个残差网络块的输出,经过第4个残差网络块的处理输出256幅特征图,将256幅特征图构成的集合记为P4,并且P4中的每幅特征图的宽度为
Figure BDA0002200985400000073
高度为
Figure BDA0002200985400000074
第5个残差网络块的输入是第4个残差网络块的输出,经过第5个残差网络块的处理输出540幅特征图,将540幅特征图构成的集合记为P5,并且P5中的每幅特征图的宽度为
Figure BDA0002200985400000075
高度为
Figure BDA0002200985400000076
深度图经第1个卷积块输入到第6个残差网络块中,第1个卷积块由第1个卷积层、第1个批量归一化层、第1个激活层依次连接组成,第1个卷积层的卷积核大小(kernel_size)为1x1、卷积核个数(filters)为3、补零(padding)参数为1、步长(stride)为1;第一激活层的激活方式为“Relu”;第6个残差网络块的输入是第一激活层的输出,经过第6个残差网络块的处理输出64幅特征图,将64幅特征图构成的集合记为P6,并且P6中的每幅特征图的宽度为
Figure BDA0002200985400000077
高度为
Figure BDA0002200985400000078
第7个残差网络块的输入是第6个残差网络块的输出,经过第7个残差网络块的处理输出64幅特征图,将64幅特征图构成的集合记为P7,并且P7中的每幅特征图的宽度为
Figure BDA0002200985400000079
高度为
Figure BDA00022009854000000710
第8个残差网络块的输入是第7个残差网络块的输出,经过第8个残差网络块的处理输出408幅特征图,将408幅特征图构成的集合记为P8,并且P8中的每幅特征图的宽度为
Figure BDA00022009854000000711
高度为
Figure BDA00022009854000000712
第9个残差网络块的输入是第8个残差网络块的输出,经过第9个残差网络块的处理输出256幅特征图,将256幅特征图构成的集合记为P9,并且P9中的每幅特征图的宽度为
Figure BDA0002200985400000081
高度为
Figure BDA0002200985400000082
第10个残差网络块的输入是第9个残差网络块的输出,经过第10个残差网络块的处理输出540幅特征图,将540幅特征图构成的集合记为P10,并且P10中的每幅特征图的宽度为
Figure BDA0002200985400000083
高度为
Figure BDA0002200985400000084
第1个Residual ASPP块由并行设置的三个带孔卷积块并串行一个卷积块组成。三个带孔卷积块依次称为第2、第3、第4带孔卷积块,串行的一个卷积块称为第5串行卷积块,第1、第2、第3带孔卷积块并联后与第4串行卷积块串联连接。第2带孔卷积块包括依次连接的第2卷积层、第2批量归一化层、第2激活层,第3带孔卷积块包括依次连接的第3卷积层、第3批量归一化层、第3激活层,第4带孔卷积块包括依次连接的第4卷积层、第4批量归一化层、第4激活层,第5串行卷积块包括依次连接的第5卷积层、第5批量归一化层、第5激活层,第1个Residual ASPP块的输入端接收第1残差网络块、第6残差网络块、第4反卷积层和第8反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为Q1。其中,第2卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率(dilate rate)为1;第3卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为4;第4卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为8;第5卷积层的卷积核大小为1x1、卷积核个数为64、补零参数为1、步长为1;第2、3、4、5激活层的激活方式为“Relu”;第1、5反卷积层的卷积核个数均为64。Q1中的每幅特征图的宽度为
Figure BDA0002200985400000085
高度为
Figure BDA0002200985400000086
第2个Residual ASPP块由并行设置的三个带孔卷积块串行一个卷积块组成,第2个Residual ASPP块的连接结构与第1个Residual ASPP块相同,具体包括第6卷积层、第6批量归一化层、第6激活层、第7卷积层、第7批量归一化层、第7激活层、第8卷积层、第8批量归一化层、第8激活层、第9卷积层、第9批量归一化层、第9激活层。第2个Residual ASPP块的输入端接收第2残差网络块、第7残差网络块、第1个Residual ASPP块、第3反卷积层和第7反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为Q2。其中,第6卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率(dilate rate)为1;第7卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为4;第8卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为8;第9卷积层的卷积核大小为1x1、卷积核个数为64、补零参数为1、步长为1;第6、7、8、9激活层的激活方式为“Relu”;第2、6反卷积层的卷积核个数均为64。Q2中的每幅特征图的宽度为
Figure BDA0002200985400000091
高度为
Figure BDA0002200985400000092
第3个Residual ASPP块由并行设置的三个带孔卷积块串行一个卷积块组成。第3个Residual ASPP块的连接结构与第1个Residual ASPP块相同,具体包括第10卷积层、第10批量归一化层、第10激活层、第11卷积层、第11批量归一化层、第11激活层、第40卷积层、第40批量归一化层、第40激活层、第13卷积层、第13批量归一化层、第13激活层。第3个Residual ASPP块的输入端接收第3残差网络块、第8残差网络块、第2个Residual ASPP块、第2反卷积层和第6反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出408幅特征图,将408幅特征图构成的集合记为Q3。其中,第10卷积层的卷积核大小为3x3、卷积核个数为408、补零参数为1、步长为1、空洞率(dilate rate)为1;第11卷积层的卷积核大小为3x3、卷积核个数为408、补零参数为1、步长为1、空洞率为4;第40卷积层的卷积核大小为3x3、卷积核个数为408、补零参数为1、步长为1、空洞率为8;第13卷积层的卷积核大小为1x1、卷积核个数为408、补零参数为1、步长为1;第10、11、40、13激活层的激活方式为“Relu”;第3、7反卷积层的卷积核个数均为408。Q3中的每幅特征图的宽度为
Figure BDA0002200985400000093
高度为
Figure BDA0002200985400000094
第4个Residual ASPP块由并行设置的三个带孔卷积块串行一个卷积块组成。第4个Residual ASPP块的连接结构与第1个Residual ASPP块相同,包括第14卷积层、第14批量归一化层、第14激活层、第15卷积层、第15批量归一化层、第15激活层、第16卷积层、第16批量归一化层、第16激活层、第17卷积层、第17批量归一化层、第17激活层。第4个ResidualASPP块的输入端接收第4残差网络块、第9残差网络块、第3个Residual ASPP块、第1反卷积层和第5反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出256幅特征图,将256幅特征图构成的集合记为Q4。其中,第14卷积层的卷积核大小为3x3、卷积核个数为256、补零参数为1、步长为1、空洞率(dilate rate)为1;第15卷积层的卷积核大小为3x3、卷积核个数为256、补零参数为1、步长为1、空洞率为4;第16卷积层的卷积核大小为3x3、卷积核个数为256、补零参数为1、步长为1、空洞率为8;第17卷积层的卷积核大小为1x1、卷积核个数为256、补零参数为1、步长为1;第14、15、16、17激活层的激活方式为“Relu”;第4、8反卷积层的卷积核个数均为256。Q4中的每幅特征图的宽度为
Figure BDA0002200985400000101
高度为
Figure BDA0002200985400000102
第1个Basic块由依次连接的三个卷积块和一个跳跃连接组成。三个卷积块分别命名为第18卷积块、第19卷积块和第20卷积块,每个卷积块均由依次连接的卷积层、批量归一化层和激活层组成,由此有第18卷积层、第18批量归一化层、第18激活层、第19卷积层、第19批量归一化层、第19激活层、第20卷积层、第20批量归一化层、第20激活层。第1个Basic块的输入端接收第2个Residual ASPP块和第11反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为B1。其中,第18、19、20卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1;第18、19、20激活层的激活方式为“Relu”;第9反卷积层的卷积核个数均为64。B1中的每幅特征图的宽度为
Figure BDA0002200985400000111
高度为
Figure BDA0002200985400000112
第2个Basic块由依次设置的三个卷积块和一个跳跃连接组成,包括第21卷积层、第21批量归一化层、第21激活层、第22卷积层、第22批量归一化层、第22激活层、第23卷积层、第23批量归一化层、第23激活层。第2个Basic块的输入端接收第3个Residual ASPP块、第1个Basic块和第10反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为B2。其中,第21、22、23卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1;第21、22、23激活层的激活方式为“Relu”;第10反卷积层的卷积核个数均为64。B2中的每幅特征图的宽度为
Figure BDA0002200985400000113
高度为
Figure BDA0002200985400000114
第3个Basic块由依次设置的三个卷积块和一个跳跃连接组成,包括第24卷积层、第24批量归一化层、第24激活层、第25卷积层、第25批量归一化层、第25激活层、第26卷积层、第26批量归一化层、第26激活层。第3个Basic块的输入端接收第4个Residual ASPP块、第2个Basic块和第9反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出408幅特征图,将408幅特征图构成的集合记为B3。其中,第24、25、26卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1;第24、25、26激活层的激活方式为“Relu”;第11反卷积层的卷积核个数均为408。B3中的每幅特征图的宽度为
Figure BDA0002200985400000115
高度为
Figure BDA0002200985400000116
第4个Basic块由依次设置的三个卷积块和一个跳跃连接组成,包括第27卷积层、第27批量归一化层、第27激活层、第28卷积层、第28批量归一化层、第28激活层、第29卷积层、第29批量归一化层、第29激活层。第4个Basic块的输入端接收第2个Basic块和第13反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为B4。其中,第27、28、29卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1;第27、28、29激活层的激活方式为“Relu”;第40反卷积层的卷积核个数均为64。B4中的每幅特征图的宽度为
Figure BDA0002200985400000121
高度为
Figure BDA0002200985400000122
第5个Basic块由依次设置的三个卷积块和一个跳跃连接组成,包括第30卷积层、第30批量归一化层、第30激活层、第31卷积层、第31批量归一化层、第31激活层、第32卷积层、第32批量归一化层、第32激活层。第5个Basic块的输入端接收第3个Basic块、第4个Basic块和第12反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为B5。其中,第30、31、32卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1;第30、31、32激活层的激活方式为“Relu”;第13反卷积层的卷积核个数为64。B4中的每幅特征图的宽度为
Figure BDA0002200985400000123
高度为
Figure BDA0002200985400000124
第14反卷积层的输入端接收第3个Residual ASPP块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图。第14反卷积层的卷积核个数为408。第15反卷积层的输入端接收第2个Residual ASPP块、第5个Basic块和第14反卷积层输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图。第15反卷积层的卷积核个数为64。第16反卷积层的输入端接收第1个Residual ASPP块、第4个Basic块和第15反卷积层输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出40幅特征图。第16反卷积层的卷积核个数为40且每幅特征图的宽度为W、高度为H。
对于输出层,共包含1个主要输出和3个多尺度输出,包括第33卷积层、第33批量归一化层、第33激活层、第34卷积层、第34批量归一化层、第34激活层、第35卷积层、第35批量归一化层、第35激活层。第1个主要输出的输入端接收第1个Residual ASPP块、第4个Basic块和第16个反卷积层的输出融合后的R通道分量、G通道分量和B通道分量,输出端输出40幅特征图。第1个多尺度输出的输入端接收第3个Residual ASPP块和第14个反卷积层输出融合后经第2个卷积块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出40幅特征图。第2个多尺度输出的输入端接收第2个Residual ASPP块、第5个Basic块和第15个反卷积层输出融合后经第3个卷积块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出40幅特征图。第3个多尺度输出的输入端接收第1个Residual ASPP块和第4个Basic块的输出融合后经第4个卷积块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出40幅特征图。其中,第33、34、35卷积层的卷积核大小均为1x1、卷积核个数均为40、补零参数均为1、步长均为1;第33、34、35激活层的激活方式为“Relu”。
步骤1_3:将训练集中每幅原始的室内场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中每幅原始的室内场景图像对应的40幅语义分割预测图,将{Iq(i,j)}对应的40幅语义分割预测图构成的集合记为
Figure BDA0002200985400000131
步骤1_4:计算训练集中的每幅原始的室内场景图像对应的40幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的40幅独热编码图像构成的集合之间的损失函数值,将
Figure BDA0002200985400000132
Figure BDA0002200985400000133
之间的损失函数值记为
Figure BDA0002200985400000134
采用Negative Log-liklihood(NLLLoss)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到Q×V个损失函数值;然后从Q×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=2000。
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002200985400000135
表示待语义分割的室内场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0002200985400000136
的宽度,H'表示
Figure BDA0002200985400000137
的高度,
Figure BDA0002200985400000138
表示
Figure BDA0002200985400000139
中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将
Figure BDA00022009854000001310
的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00022009854000001311
对应的语义分割预测图,记为
Figure BDA00022009854000001312
其中,
Figure BDA00022009854000001313
表示
Figure BDA00022009854000001314
中坐标位置为(i',j')的像素点的像素值。
对比图2a和图2b,图3a和图3b,图4a和图4b,图5a和图5b,图6a和图6b可以看出,利用本发明方法得到的语义分割预测图的分割精度较高。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习框架Pytorch0.4.1搭建本发明的全残差空洞卷积神经网络架构。采用室内场景图像数据库NYUD v2测试集来分析利用本发明方法预测得到的室内场景图像(取654幅室内场景图像)的分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即类精确度(Class Acurracy)、平均像素准确率(MeanPixel Accuracy,MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection overUnion,MIoU)来评价语义分割预测图的分割性能。上述3个评价指标的值越大,代表语义分割预测图的分割性能越好。
表1利用本发明方法在测试集上的评测结果
MPA 73.2%
CA 56.7%
MIoU 44.1%
利用本发明方法对室内场景图像数据库NYUD v2测试集中的每幅室内场景图像进行预测,得到每幅室内场景图像对应的语义分割预测图,反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知,按本发明方法得到的室内场景图像的分割结果是较好的,表明利用本发明方法来获取室内场景图像对应的语义分割预测图是可行性且有效的。
表2与其他方法的对比结果
Figure BDA0002200985400000141
Figure BDA0002200985400000151
对比表2,与其他现有技术中的语义分割方法的评价指标对比中可以看出,本发明优势明显,达到了非常优秀且具竞争力的技术效果。

Claims (5)

1.一种基于残差金字塔池化神经网络的语义分割方法,其特征在于:
步骤1:选取N幅RGB图像以及RGB图像对应的深度图、独热编码图,将所有RGB图像及其对应的深度图、独热编码图构成训练集;独热编码图是对RGB图像进行真实语义分割处理得到的图像;
步骤2:构建残差金字塔池化神经网络,残差金字塔池化神经网络包括依次设置的输入层、隐藏层和输出层;
步骤3:将训练集中每幅RGB图像以及RGB图像对应的深度图通过输入层输入到隐藏层后再从输出层输出语义分割预测图,计算每幅RGB图像的语义分割预测图和独热编码图之间的损失函数值,损失函数值采用Negative Log-liklihood获得;
步骤4:重复执行步骤3共V次,并共得到N×V个损失函数值;将N×V个损失函数值中值最小的损失函数值对应的权值矢量和偏置项作为残差金字塔池化神经网络的最优权值矢量和最优偏置项,得到训练好的残差金字塔池化神经网络;
步骤5:采集待语义分割的RGB图像,并将其输入到训练好的残差金字塔池化神经网络中,输出得到待语义分割的RGB图像对应的语义分割预测图;
所述隐藏层包括五部分,第一部分由依次连接的第1个卷积块、第6个残差网络块、第7个残差网络块、第8个残差网络块、第9个残差网络块、第10个残差网络块、第1个反卷积层、第2个反卷积层、第3个反卷积层、第4个反卷积层组成,第二部分由依次连接的第1个残差网络块、第2个残差网络块、第3个残差网络块、第4个残差网络块、第5个残差网络块、第5个反卷积层、第6个反卷积层、第7个反卷积层、第8个反卷积层组成,第三部分由依次连接的第1个Residual ASPP块、第2个Residual ASPP块、第3个Residual ASPP块、第4个ResidualASPP块、第9个反卷积层、第10个反卷积层、第11个反卷积层组成,第四部分由依次连接的第1个Basic块、第2个Basic块、第3个Basic块、第12个反卷积层、第13个反卷积层、第4个Basic块和第5个Basic块组成;
第6个残差网络块、第4个反卷积层、第1个残差网络块和第8个反卷积层的输出均再跳跃连接到第1个Residual ASPP块的输入,第7个残差网络块、第3个反卷积层、第2个残差网络块和第7个反卷积层的输出均再跳跃连接到第2个Residual ASPP块的输入,第8个残差网络块、第2个反卷积层、第3个残差网络块和第6个反卷积层的输出均再跳跃连接到第3个Residual ASPP块的输入,第9个残差网络块、第1个反卷积层、第4个残差网络块和第5反卷积层的输出均再跳跃连接到第4个Residual ASPP块的输入,
第2个Residual ASPP块的输出再跳跃连接到第1个Basic块的输入,第3个ResidualASPP块和第10个反卷积层的输出再连接到第2个Basic块的输入,第4个Residual ASPP块和第9个反卷积层的输出再跳跃连接到第3个Basic块的输入,第2个Basic块的输出再跳跃连接到第4个Basic块的输入,第3个Basic块和第12个反卷积层的输出再跳跃连接到第5个Basic块的输入,
第五部分包括依次连接的第14个反卷积层、第15个反卷积层和第16个反卷积层,第3个Residual ASPP块的输出连接到第14个反卷积层的输入,第1个ResidualASPP块、第4个Basic块和第16个反卷积层的输出融合后作为隐藏层的主要输出,隐藏层还包括三个多尺度输出,第3个Residual ASPP块和第14个反卷积层输出融合后经第2个卷积块输出,第2卷积块的输出作为第一多尺度输出,第2个Residual ASPP块、第5个Basic块和第15个反卷积层输出融合后经第3个卷积块输出,第3卷积块的输出作为第二多尺度输出,第1个ResidualASPP块和第4个Basic块的输出融合后经第4个卷积块输出,第4卷积块的输出作为第三多尺度输出;
第1个残差网络块接收RGB图像作为输入,第1个卷积块接收深度图作为输入,隐藏层的主要输出和三个多尺度输出经输出层输出,隐藏层输出的均为语义分割预测图,三个多尺度输出用于训练残差金字塔池化神经网络,三个多尺度输出的区别在于语义分割预测图的尺寸大小不同,根据隐藏层的主要输出和三个多尺度输出计算损失函数值。
2.根据权利要求1所述的一种基于残差金字塔池化神经网络的语义分割方法,其特征在于:各个所述的残差网络块均是由ResNet34中的基本块构成,具体是:第1个残差网络块、第6个残差网络块均由ResNet34网络的第一卷积层、第一批量归一化层和第一激活层组成;第2个残差网络块、第7个残差网络块均由ResNet34网络的第一池化层和layer1结构组成;第3个残差网络块、第8个残差网络块均由ResNet34网络的layer2结构组成;第4个残差网络块、第9个残差网络块均由ResNet34网络的layer3结构组成;第5个残差网络块、第10个残差网络块均由ResNet34网络的layer4结构组成。
3.根据权利要求1所述的一种基于残差金字塔池化神经网络的语义分割方法,其特征在于:各个所述的Residual ASPP块的结构均由并行设置的三个带孔卷积块串行一个卷积块组成,三个带孔卷积块并联的一端作为Residual ASPP块的输入端,并联的另一端经串联的卷积块后的输出作为Residual ASPP块的输出端。
4.根据权利要求1所述的一种基于残差金字塔池化神经网络的语义分割方法,其特征在于:各个所述的Basic块均由三个卷积块依次连接组成,三个卷积块串联一端作为Basic块的输入端,串联的另一端作为Basic块的输出端,每个卷积块均由依次连接的卷积层、批量归一化层、激活层组成。
5.根据权利要求1所述的一种基于残差金字塔池化神经网络的语义分割方法,其特征在于:所述的RGB图像为原始采集的室内场景图像。
CN201910864969.6A 2019-09-09 2019-09-09 一种基于残差金字塔池化神经网络的语义分割方法 Active CN110728682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910864969.6A CN110728682B (zh) 2019-09-09 2019-09-09 一种基于残差金字塔池化神经网络的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910864969.6A CN110728682B (zh) 2019-09-09 2019-09-09 一种基于残差金字塔池化神经网络的语义分割方法

Publications (2)

Publication Number Publication Date
CN110728682A CN110728682A (zh) 2020-01-24
CN110728682B true CN110728682B (zh) 2022-03-29

Family

ID=69218139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910864969.6A Active CN110728682B (zh) 2019-09-09 2019-09-09 一种基于残差金字塔池化神经网络的语义分割方法

Country Status (1)

Country Link
CN (1) CN110728682B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111508263A (zh) * 2020-04-03 2020-08-07 西安电子科技大学 停车场智能引导机器人及智能引导方法
CN111709947B (zh) * 2020-04-24 2024-04-02 浙江科技学院 一种双流沟通和全局信息引导的显著物体图像检测方法
CN111524149B (zh) * 2020-06-19 2023-02-28 安徽工业大学 基于全卷积残差网络的瓦斯灰显微图像分割方法及系统
CN112085017B (zh) * 2020-08-04 2023-11-21 中南民族大学 基于显著性检测和Grabcut算法的茶叶嫩芽图像分割方法
CN112101410B (zh) * 2020-08-05 2021-08-06 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及系统
CN112308000B (zh) * 2020-11-06 2023-03-07 安徽清新互联信息科技有限公司 一种基于时空信息的高空抛物检测方法
CN112465830B (zh) * 2020-11-11 2024-04-26 上海健康医学院 一种磨玻璃样肺结节自动分割方法及计算机设备
CN113033454B (zh) * 2021-04-07 2023-04-25 桂林电子科技大学 一种城市视频摄像中建筑物变化的检测方法
CN113313105B (zh) * 2021-04-12 2022-07-01 厦门大学 一种办公转椅木板喷胶与贴棉区域识别方法
CN113298814A (zh) * 2021-05-21 2021-08-24 浙江科技学院 一种基于渐进指导融合互补网络的室内场景图像处理方法
CN113689372B (zh) * 2021-08-26 2023-09-26 北京字节跳动网络技术有限公司 图像处理方法、设备、存储介质及程序产品
CN113780140B (zh) * 2021-08-31 2023-08-04 河北大学 基于深度学习的手势图像分割与识别方法以及装置
CN114220098A (zh) * 2021-12-21 2022-03-22 一拓通信集团股份有限公司 一种基于改进的多尺度全卷积网络语义分割方法
CN115311338B (zh) * 2022-08-11 2023-04-07 浙江盛发纺织印染有限公司 军用帐篷内衬面料智能化生产系统及其方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945185A (zh) * 2017-11-29 2018-04-20 北京工商大学 基于宽残差金字塔池化网络的图像分割方法及系统
CN109410261A (zh) * 2018-10-08 2019-03-01 浙江科技学院 基于金字塔池化模块的单目图像深度估计方法
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法
CN109635662A (zh) * 2018-11-14 2019-04-16 浙江科技学院 一种基于卷积神经网络的道路场景语义分割方法
CN109829926A (zh) * 2019-01-30 2019-05-31 杭州鸿泉物联网技术股份有限公司 道路场景语义分割方法及装置
CN110210492A (zh) * 2019-04-28 2019-09-06 浙江科技学院 一种基于深度学习的立体图像视觉显著性检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945185A (zh) * 2017-11-29 2018-04-20 北京工商大学 基于宽残差金字塔池化网络的图像分割方法及系统
CN109410261A (zh) * 2018-10-08 2019-03-01 浙江科技学院 基于金字塔池化模块的单目图像深度估计方法
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法
CN109635662A (zh) * 2018-11-14 2019-04-16 浙江科技学院 一种基于卷积神经网络的道路场景语义分割方法
CN109829926A (zh) * 2019-01-30 2019-05-31 杭州鸿泉物联网技术股份有限公司 道路场景语义分割方法及装置
CN110210492A (zh) * 2019-04-28 2019-09-06 浙江科技学院 一种基于深度学习的立体图像视觉显著性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Segmentation of Drivable Road Using Deep Fully Convolutional Residual Network with Pyramid Pooling;Xiaolong Liu et al.;《Cognitive Computation》;20180430;第1-10页 *
SEMANTIC SEGMENTATION WITH MULTI-PATH REFINEMENT AND PYRAMID POOLING DILATED-RESNET;Zhipeng Cui et al.;《ICIP 2017》;20171231;第3100-3104页 *

Also Published As

Publication number Publication date
CN110728682A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
CN110728682B (zh) 一种基于残差金字塔池化神经网络的语义分割方法
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN111626300B (zh) 基于上下文感知的图像语义分割模型的图像分割方法及建模方法
CN111598892B (zh) 一种基于Res2-UNeXt网络结构的细胞图像分割方法
CN110532859B (zh) 基于深度进化剪枝卷积网的遥感图像目标检测方法
CN108062754B (zh) 基于密集网络图像的分割、识别方法和装置
CN109410261B (zh) 基于金字塔池化模块的单目图像深度估计方法
CN111369442B (zh) 基于模糊核分类与注意力机制的遥感图像超分辨重建方法
CN109635662B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN109635642A (zh) 一种基于残差网络和扩张卷积的道路场景分割方法
CN114943963A (zh) 一种基于双分支融合网络的遥感图像云和云影分割方法
CN111179187B (zh) 基于循环生成对抗网络的单幅图像去雨方法
CN109461177B (zh) 一种基于神经网络的单目图像深度预测方法
CN110263813A (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN112699844A (zh) 一种基于多尺度残差层级密连接网络的图像超分辨率方法
CN109446933B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN112381733B (zh) 面向图像恢复的多尺度神经网络结构搜索方法及网络应用
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN113240683A (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN109801323A (zh) 具有自我提升能力的金字塔双目深度估计模型
CN115544613A (zh) 一种多模态数据驱动的城市道路布局设计自动化方法
CN113763364A (zh) 一种基于卷积神经网络的图像缺陷检测方法
CN114299358A (zh) 图像质量评估方法、装置、电子设备及机器可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant