CN110782462B - 一种基于双流特征融合的语义分割方法 - Google Patents

一种基于双流特征融合的语义分割方法 Download PDF

Info

Publication number
CN110782462B
CN110782462B CN201911046078.6A CN201911046078A CN110782462B CN 110782462 B CN110782462 B CN 110782462B CN 201911046078 A CN201911046078 A CN 201911046078A CN 110782462 B CN110782462 B CN 110782462B
Authority
CN
China
Prior art keywords
block
layer
convolution
residual
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911046078.6A
Other languages
English (en)
Other versions
CN110782462A (zh
Inventor
周武杰
吕思嘉
袁建中
黄思远
雷景生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201911046078.6A priority Critical patent/CN110782462B/zh
Publication of CN110782462A publication Critical patent/CN110782462A/zh
Application granted granted Critical
Publication of CN110782462B publication Critical patent/CN110782462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双流特征融合的语义分割方法。在训练阶段,构建包括输入层、隐藏层和输出层的卷积神经网络,其隐藏层包括RGB图处理模块、深度图处理模块、融合模块和第一个反卷积层;使用原始图像输入到卷积神经网络中进行训练,得到对应的语义分割预测图;再通过计算原始图像对应的语义分割预测图构成的集合与对应的真实语义分割图像处理成的独热编码图像构成的集合之间的损失函数值,获得卷积神经网络分类训练模型的最优权值矢量和偏置项;在测试阶段,将待语义分割的室内场景图像输入到卷积神经网络分类训练模型中,得到预测语义分割图像。本发明提高了室内场景图像的语义分割效率和准确度。

Description

一种基于双流特征融合的语义分割方法
技术领域
本发明是一种基于全卷积神经网络的语义分割方法,特别是基于双流特征融合的语义分割方法。
背景技术
语义分割是许多计算机视觉应用的基本技术,如场景理解、无人驾驶。随着卷积神经网络特别是全卷积神经网络(FCN)的发展,在基准测试中取得了许多有前途的成果。FCN具有典型的编码器-解码器结构——语义信息首先通过编码器嵌入到特征图中,解码器负责生成分割结果。通常,编码器是预先训练的卷积模型来提取图像特征,解码器包含多个上采样组件来恢复分辨率。尽管编码器最重要的特征图可能具有高度的语义性,但由于分辨率不足,它在分割图中重建精确细节的能力有限,这在现代主干模型中非常常见。语义分割既需要丰富的空间信息,又需要相当大的感受野,因此,利用空洞卷积来扩大感受野成为了现代网络的主流思想。现代语义分割框架通常将预先训练的主干卷积模型的低级和高级特征结合起来,以提高性能,通常选择残差块和跳跃连接作为结合方式。除此之外,多尺度信息也为语义分割的精确性提供了有力支撑,金字塔池化通过获取不同尺度的特征图再将其融合这一方法,成为了语义分割最常用的模块之一。今年来,RGB-D的广泛使用为语义分割提供了丰富的辅助信息,将深度图作为第二输入流与原始的RGB输入流相融合,成为了现阶段室内场景分割的主流方法。
发明内容
为了解决背景技术中的问题,本发明提供了一种对于深度学习的卷积神经网络做一系列多尺度的对称跳跃式连接融合的室内场景语义分割方法,以提高近年来分割技术领域中的精确度和图像中各类标签的准确度。
本发明采用的技术方案包括以下步骤:
步骤1:选取N幅原始图像的RGB图、深度图以及原始图像对应的真实语义分割图,真实语义分割图为原始图像进行真实语义分割处理得到的图像,所有原始图像的RGB图、深度图以及原始图像对应的真实语义分割图构成训练集;
步骤2:构建卷积神经网络;
步骤3:将训练集中每幅原始图像的RGB图和深度图输入卷积神经网络进行训练输出对应的语义分割预测图,计算语义分割预测图与真实语义分割图之间的损失函数值,损失函数采用负对数似然损失函数Negative Log-liklihood(NLLLoss)获得;
步骤4:重复执行步骤3共V次,共得到N×V个损失函数值;将N×V个损失函数值中值最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络的最优权值矢量和最优偏置项,完成卷积神经网络的训练;
步骤5:将待语义分割图像输入步骤4训练好的卷积神经网络进行预测处理,输出得到待语义分割图像对应的预测语义分割图。
所述步骤2具体为:
卷积神经网络包括依次设置的输入层、隐藏层和输出层,输入层包括RGB图输入层和深度图输入层,隐藏层包括RGB图处理模块、深度图处理模块、融合模块和第一个反卷积层。
深度图处理模块包括依次连接的第一卷积块、第一特征提取块、第二特征提取块、第三特征提取块、第四特征提取块、第五特征提取块、第一反卷积块、第二反卷积块、第三反卷积块和第四反卷积块,第一反卷积块输入端接收第五特征提取块和第四特征提取块的共同输出,第二反卷积块输入端接收第五特征提取块和第三特征提取块的共同输出,第三反卷积块输入端接收第五特征提取块和第二特征提取块的共同输出,第四反卷积块输入端接收第五特征提取块和第一特征提取块的共同输出。
RGB图处理模块包括三个分支,第一个分支主要由依次连接的五个残差块组成,第二个分支主要由依次连接的四个注意力块组成,第三个分支主要由依次连接的四个残差ASPP块组成;第一个注意力块的输入端接收第五个残差块和第一个残差块的共同输出,第二个注意力块的输入端接收第五个残差块和第二个残差块的共同输出,第三个注意力块的输入端接收第五个残差块和第三个残差块的共同输出,第四个注意力块的输入端接收第五个残差块和第四个残差块的共同输出;第一个注意力块、第二个注意力块、第三个注意力块和第四个注意力块的输出分别输入第一个残差ASPP块、第二个残差ASPP块、第三个残差ASPP块和第四个残差ASPP块。
融合模块包括依次连接的四个融合块,第一个反卷积块和第四个残差ASPP块的输出均输入第一个融合块,第二个反卷积块和第三个残差ASPP块的输出均输入第二个融合块,第三个反卷积块和第二个残差ASPP块的输出均输入第三个融合块,第四个反卷积块和第一个残差ASPP块的输出均输入第四个融合块。
第四个融合块的输出经第一个反卷积层从输出层输出。
每个所述的特征提取块均由VGG16网络中的基本块组成,第一特征提取块、第二特征提取块、第三特征提取块、第四特征提取块、第五特征提取块分别由VGG16网络中第一个下采样块、第二个下采样块、第三个下采样块、第四个下采样块、第五个下采样块组成,每个下采样块均包括依次连接的多个卷积层和一个池化层,多个卷积层依次连接;第一个下采样块和第二个下采样块均包括依次连接的两个卷积层和一个池化层,第三个下采样块、第四个下采样块和第五个下采样块均包括依次连接三个卷积层和一个池化层。
每个残差块均由ResNet34网络中的基本块组成,第一个残差块主要由ResNet34网络中依次连接的第一卷积层、第一批量归一化层和第一激活层组成,且第一个残差块中的第一卷积层步长为2;第二个残差块主要由ResNet34网络中依次连接的第一池化层和第一下采样块layer1组成,第三个残差块由ResNet34网络中的第二下采样块layer2组成;第四个残差块由ResNet34网络中的第三下采样块layer3组成;第五个残差块由ResNet34网络中的第四下采样块layer4组成。
每个所述的注意力块将输入的第五个残差块尺寸转置为与对应输入的另一个残差块相匹配的尺寸,然后将输入的两个残差块相乘后的结果作为注意力块的输出。
每个所述的反卷积块均包括依次连接的一个反卷积层和引入跳跃连接操作的三个卷积块,反卷积块中的三个卷积块依次连接,反卷积块中反卷积层的输出与三个卷积块的输出跳跃连接作为反卷积块的输出;且每个所述的反卷积块中的反卷积层步长均为2;
每个融合块均由引入跳跃连接操作的三个依次设置的卷积块组成,融合块中融合块的输入与三个卷积块的输出跳跃连接作为融合块的输出。
每个所述的残差ASPP块均由并行设置的三个空洞卷积块串行一个卷积块组成,三个空洞卷积块并联的一端作为残差ASPP块的输入端,并联的另一端经串联的卷积块后的输出作为残差ASPP块的输出端。
每个卷积块均由依次连接的卷积层、批量归一化层、激活层组成;所述RGB图输入层的输入为RGB图,RGB图输入层输出输入图像的R通道分量、G通道分量和B通道分量;所述深度图输入层的输入为深度图,深度图经过第一卷积块后处理后具有与RGB图一样的三通道。
本发明的有益效果:
1)本发明方法构建了全卷积神经网络,与其他方法相比,本方法用步长为2的卷积层取代了现阶段常用的池化层。由于池化层会对图像造成不可逆的特征损失,且语义分割对预测精度的要求很高,因此选择了步长为2的卷积层作为替代方法。该卷积层可以得到与池化层相同的效果,并能保证图片特征不会有过大损失。
2)本发明方法采用空洞卷积块扩大网络感受野。池化层的优点不只是能有效缩减图像尺寸,还可有效扩大感受野以保证提取到更多的全局信息。因此在用步长为2的卷积层替代池化层时,感受野没有得到有效扩充,损失了部分全局信息。因此加入空洞卷积,以保证网络感受野不变甚至增大。空洞卷积与步长为2的卷积层相结合,可以保证网络提取到最多的局部特征与全局特征。
3)本发明方法在搭建卷积网络时采用了跳跃连接作为主要的连接方式,以构成全残差网络。残差网络在语义分割方向上一直具有很优秀的表现,因此在本发明中加入跳跃连接,可以有效补偿图像在编码过程中的损失,以保证最后的预测精度。
附图说明
图1为本发明方法的总体实现框图;
图2a为同一场景的第1幅原始的室内场景图像;
图2b为利用本发明方法对图2a所示的原始的室内场景图像进行预测,得到的预测语义分割图像;
图3a为同一场景的第2幅原始的室内场景图像;
图3b为利用本发明方法对图3a所示的原始的室内场景图像进行预测,得到的预测语义分割图像;
图4a为同一场景的第3幅原始的室内场景图像;
图4b为利用本发明方法对图4a所示的原始的室内场景图像进行预测,得到的预测语义分割图像;
图5a为同一场景的第4幅原始的室内场景图像;
图5b为利用本发明方法对图5a所示的原始的室内场景图像进行预测,得到的预测语义分割图像;
图6a为同一场景的第4幅原始的室内场景图像;
图6b为利用本发明方法对图6a所示的原始的室内场景图像进行预测,得到的预测语义分割图像。
具体实施方式
以下结合附图和实施例对本发明作进一步详细描述。
本发明提出的一种基于双流特征融合的语义分割方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅原始图像的RGB图和深度图构成训练集,将训练集中的第k幅原始图像的RGB图记为
Figure BDA0002254184480000051
原始图像的深度图记为
Figure BDA0002254184480000052
对应的真实语义分割图像记为{Gk(x,y)};其中,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始图像的宽度,H表示原始图像的高度,如取W=640、H=480,Rk(x,y)表示
Figure BDA0002254184480000053
中坐标位置为(x,y)的像素点的像素值,Dk(x,y)表示{Dk(x,y)}中坐标位置为(x,y)的像素点的像素值,Gk(x,y)表示{Gk(x,y)}中坐标位置为(x,y)的像素点的像素值;本实验中的数据集直接选用的是NYUDV2中的1449幅图像。
步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐藏层和输出层;其中隐层包括依次设置的第1个卷积层、第1个批量归一化层、第1个激活层、第1个特征提取块、第2个特征提取块、第3个特征提取块、第4个特征提取块、第5个特征提取块、第1个反卷积块、第2个反卷积块、第3个反卷积块、第4个反卷积块、第1个残差块、第2个残差块、第3个残差块、第4个残差块、第5个残差块、第1个Attention块、第2个Attention块、第3个Attention块、第4个Attention块、第1个Residual ASPP(残差ASPP)块、第2个Residual ASPP块、第3个Residual ASPP块、第4个Residual ASPP块、第1个融合块、第2个融合块、第3个融合块、第4个融合块、第1个反卷积层。其中,所有反卷积层的卷积核大小均为4x4、补零参数均为1、步长均为2。
对于输入层,输入层的输入端接收原始图像的RGB图和深度图,输入层的输出端输出原始输入图像的R通道分量、G通道分量和B通道分量,输入层的输出量是隐层的输入量;其中,深度图与RGB图一样具有三通道,即经过第一卷积块后也被处理成三个分量,且输入的原始立体图像的宽度为W、高度为H。
对于隐层:其中包含的特征提取块都是由VGG16中的基本下采样块构成,第1个特征提取块由VGG16网络的第一下采样块组成;第2个特征提取块由VGG16网络的第二下采样块组成;第3个特征提取块由VGG16网络的第三下采样块组成;第4个特征提取块由VGG16网络的第四下采样块组成;第5个特征提取块由VGG16网络的第五下采样块组成。残差块都是由ResNet34中的基本块构成,第1个残差块由ResNet34网络的第一卷积层、第一批量归一化层和第一激活层组成;第2个残差块由ResNet34网络的第一池化层和layer1组成;第3个残差块由ResNet34网络的layer2组成;第4个残差块由ResNet34网络的layer3组成;第5个残差块由ResNet34网络的layer4组成。
第1个特征提取块的输入是单通道的深度图像,经过第1个卷积层的处理输出3幅特征图,第1个卷积层的卷积核大小(kernel_size)为1x1、卷积核个数(filters)为3、补零(padding)参数为1、步长(stride)为1,第一激活层的激活方式为“Relu”。第1个特征提取块的输入是第1激活层的输出,经过第1个特征提取块处理输出64幅特征图,将64幅特征图构成的集合记为P1,并且P1中的每幅特征图的宽度为
Figure BDA0002254184480000061
高度为
Figure BDA0002254184480000062
第2个特征提取块的输入是第1个特征提取块的输出,经过第2个特征提取块的处理输出64幅特征图,将64幅特征图构成的集合记为P2,并且P2中的每幅特征图的宽度为
Figure BDA0002254184480000063
高度为
Figure BDA0002254184480000064
第3个特征提取块的输入是第2个特征提取块的输出,经过第3个特征提取块的处理输出408幅特征图,将408幅特征图构成的集合记为P3,并且P3中的每幅特征图的宽度为
Figure BDA0002254184480000065
高度为
Figure BDA0002254184480000066
第4个特征提取块的输入是第3个特征提取块的输出,经过第4个特征提取块的处理输出256幅特征图,将256幅特征图构成的集合记为P4,并且P4中的每幅特征图的宽度为
Figure BDA0002254184480000067
高度为
Figure BDA0002254184480000068
第5个特征提取块的输入是第4个特征提取块的输出,经过第5个特征提取块的处理输出540幅特征图,将540幅特征图构成的集合记为P5,并且P5中的每幅特征图的宽度为
Figure BDA0002254184480000069
高度为
Figure BDA00022541844800000610
第1个残差块的输入是三通道的原始图像,经过第1个残差块的处理输出64幅特征图,将64幅特征图构成的集合记为P1,并且P1中的每幅特征图的宽度为
Figure BDA00022541844800000611
高度为
Figure BDA00022541844800000612
第2个残差块的输入是第1个残差块的输出,经过第2个残差块的处理输出64幅特征图,将64幅特征图构成的集合记为P2,并且P2中的每幅特征图的宽度为
Figure BDA0002254184480000071
高度为
Figure BDA0002254184480000072
第3个残差块的输入是第2个残差块的输出,经过第3个残差块的处理输出408幅特征图,将408幅特征图构成的集合记为P3,并且P3中的每幅特征图的宽度为
Figure BDA0002254184480000073
高度为
Figure BDA0002254184480000074
第4个残差块的输入是第3个残差块的输出,经过第4个残差块的处理输出256幅特征图,将256幅特征图构成的集合记为P4,并且P4中的每幅特征图的宽度为
Figure BDA0002254184480000075
高度为
Figure BDA0002254184480000076
第5个残差块的输入是第4个残差块的输出,经过第5个残差块的处理输出540幅特征图,将540幅特征图构成的集合记为P5,并且P5中的每幅特征图的宽度为
Figure BDA0002254184480000077
高度为
Figure BDA0002254184480000078
第1个Residual ASPP块由并行设置的三个空洞卷积块串行一个卷积块组成。三个空洞卷积块包括第2卷积层、第2批量归一化层、第2激活层、第3卷积层、第3批量归一化层、第3激活层、第4卷积层、第4批量归一化层、第4激活层,串行的卷积块包括第5卷积层、第5批量归一化层、第5激活层。第1个Residual ASPP块的输入端接收第1个Attention块、第5残差块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为Q1。其中,第2卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率(dilate rate)为1;第3卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为4;第4卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为8;第5卷积层的卷积核大小为1x1、卷积核个数为64、补零参数为1、步长为1;第2、3、4、5激活层的激活方式为“Relu”。Q1中的每幅特征图的宽度为
Figure BDA0002254184480000079
高度为
Figure BDA00022541844800000710
第2个Residual ASPP块由并行设置的三个空洞卷积块串行一个卷积块组成。三个空洞卷积块包括第6卷积层、第6批量归一化层、第6激活层、第7卷积层、第7批量归一化层、第7激活层、第8卷积层、第8批量归一化层、第8激活层,串行的卷积块包括第9卷积层、第9批量归一化层、第9激活层。第2个Residual ASPP块的输入端接收第2个Attention块、第5残差块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为Q2。其中,第6卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率(dilate rate)为1;第7卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为4;第8卷积层的卷积核大小为3x3、卷积核个数为64、补零参数为1、步长为1、空洞率为8;第9卷积层的卷积核大小为1x1、卷积核个数为64、补零参数为1、步长为1;第6、7、8、9激活层的激活方式为“Relu”。Q2中的每幅特征图的宽度为
Figure BDA0002254184480000081
高度为
Figure BDA0002254184480000082
第3个Residual ASPP块由并行设置的三个空洞卷积块串行一个卷积块组成。三个空洞卷积块包括第10卷积层、第10批量归一化层、第10激活层、第11卷积层、第11批量归一化层、第11激活层、第12卷积层、第12批量归一化层、第12激活层,串行的卷积块包括第13卷积层、第13批量归一化层、第13激活层。第3个Residual ASPP块的输入端接收第3个Attention块、第5残差块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出128幅特征图,将128幅特征图构成的集合记为Q3。其中,第10卷积层的卷积核大小为3x3、卷积核个数为128、补零参数为1、步长为1、空洞率(dilate rate)为1;第11卷积层的卷积核大小为3x3、卷积核个数为128、补零参数为1、步长为1、空洞率为4;第40卷积层的卷积核大小为3x3、卷积核个数为128、补零参数为1、步长为1、空洞率为8;第13卷积层的卷积核大小为1x1、卷积核个数为128、补零参数为1、步长为1;第10、11、40、13激活层的激活方式为“Relu”。Q3中的每幅特征图的宽度为
Figure BDA0002254184480000083
高度为
Figure BDA0002254184480000084
第4个Residual ASPP块由并行设置的三个空洞卷积块串行一个卷积块组成。三个空洞卷积块包括第14卷积层、第14批量归一化层、第14激活层、第15卷积层、第15批量归一化层、第15激活层、第16卷积层、第16批量归一化层、第16激活层,串行的卷积块包括第17卷积层、第17批量归一化层、第17激活层。第4个Residual ASPP块的输入端接收第4个Attention块、第5残差块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出256幅特征图,将256幅特征图构成的集合记为Q4。其中,第14卷积层的卷积核大小为3x3、卷积核个数为256、补零参数为1、步长为1、空洞率(dilate rate)为1;第15卷积层的卷积核大小为3x3、卷积核个数为256、补零参数为1、步长为1、空洞率为4;第16卷积层的卷积核大小为3x3、卷积核个数为256、补零参数为1、步长为1、空洞率为8;第17卷积层的卷积核大小为1x1、卷积核个数为256、补零参数为1、步长为1;第14、15、16、17激活层的激活方式为“Relu”。Q4中的每幅特征图的宽度为
Figure BDA0002254184480000091
高度为
Figure BDA0002254184480000092
第1个融合块由依次设置的引入跳跃连接操作的三个卷积块组成。包括第18卷积层、第18批量归一化层、第18激活层、第19卷积层、第19批量归一化层、第19激活层、第20卷积层、第20批量归一化层、第20激活层。第1个融合块的输入端接收第4个Residual ASPP块和第1反卷积块的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出256幅特征图,将256幅特征图构成的集合记为B1。其中,第18、19、20卷积层的卷积核大小均为3x3、卷积核个数均为256、补零参数均为1、步长均为1;第18、19、20激活层的激活方式为“Relu”。B1中的每幅特征图的宽度为
Figure BDA0002254184480000093
高度为
Figure BDA0002254184480000094
第2个融合块由依次设置的引入跳跃连接操作的三个卷积块组成。包括第21卷积层、第21批量归一化层、第21激活层、第22卷积层、第22批量归一化层、第22激活层、第23卷积层、第23批量归一化层、第23激活层。第2个融合块的输入端接收第3个Residual ASPP块、第1个融合块和第2个反卷积块的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出128幅特征图,将128幅特征图构成的集合记为B2。其中,第21、22、23卷积层的卷积核大小均为3x3、卷积核个数均为128、补零参数均为1、步长均为1;第21、22、23激活层的激活方式为“Relu”。B2中的每幅特征图的宽度为
Figure BDA0002254184480000095
高度为
Figure BDA0002254184480000096
第3个融合块由依次设置的引入跳跃连接操作的三个卷积块组成。包括第24卷积层、第24批量归一化层、第24激活层、第25卷积层、第25批量归一化层、第25激活层、第26卷积层、第26批量归一化层、第26激活层。第3个融合块的输入端接收第2个Residual ASPP块、第2个融合块和第3反卷积块的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为B3。其中,第24、25、26卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1;第24、25、26激活层的激活方式为“Relu”。B3中的每幅特征图的宽度为
Figure BDA0002254184480000101
高度为
Figure BDA0002254184480000102
第4个融合块由依次设置的引入跳跃连接操作的三个卷积块组成。包括第27卷积层、第27批量归一化层、第27激活层、第28卷积层、第28批量归一化层、第28激活层、第29卷积层、第29批量归一化层、第29激活层。第4个融合块的输入端接收第1个Residual ASPP块、第3个融合块和第4反卷积层的输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为B4。其中,第27、28、29卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1;第27、28、29激活层的激活方式为“Relu”。B4中的每幅特征图的宽度为
Figure BDA0002254184480000103
高度为
Figure BDA0002254184480000104
第1反卷积层的输入端接收第4个融合块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出40幅特征图。
第1反卷积块由依次设置的一个反卷积层和引入跳跃连接操作的三个卷积块组成。包括第2反卷积层、第30卷积层、第30批量归一化层、第30激活层、第31卷积层、第31批量归一化层、第31激活层、第32卷积层、第32批量归一化层、第32激活层。第1反卷积块的输入端接收第4个特征提取块和第5个特征提取块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出256幅特征图,将256幅特征图构成的集合记为U1。其中,第30、31、32卷积层的卷积核大小均为3x3、卷积核个数均为256、补零参数均为1、步长均为1;第30、31、32激活层的激活方式为“Relu”。U1中的每幅特征图的宽度为
Figure BDA0002254184480000105
高度为
Figure BDA0002254184480000106
第2反卷积块由依次设置的一个反卷积层和引入跳跃连接操作的三个卷积块组成。包括第3反卷积层、第33卷积层、第33批量归一化层、第33激活层、第34卷积层、第34批量归一化层、第34激活层、第35卷积层、第35批量归一化层、第35激活层。第2反卷积块的输入端接收第3个特征提取块和第5个特征提取块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出128幅特征图,将128幅特征图构成的集合记为U2。其中,第33、34、35卷积层的卷积核大小均为3x3、卷积核个数均为128、补零参数均为1、步长均为1;第33、34、35激活层的激活方式为“Relu”。U2中的每幅特征图的宽度为
Figure BDA0002254184480000111
高度为
Figure BDA0002254184480000112
第3反卷积块由依次设置的一个反卷积层和引入跳跃连接操作的三个卷积块组成。包括第4反卷积层、第36卷积层、第36批量归一化层、第36激活层、第37卷积层、第37批量归一化层、第37激活层、第38卷积层、第38批量归一化层、第38激活层。第3反卷积块的输入端接收第2个特征提取块、第5个特征提取块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为U3。其中,第36、37、38卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1;第36、37、38激活层的激活方式为“Relu”。U3中的每幅特征图的宽度为
Figure BDA0002254184480000113
高度为
Figure BDA0002254184480000114
第4反卷积块由依次设置的一个反卷积层和引入跳跃连接操作的三个卷积块组成。包括第5反卷积层、第39卷积层、第39批量归一化层、第39激活层、第40卷积层、第40批量归一化层、第40激活层、第41卷积层、第41批量归一化层、第41激活层。第4反卷积块的输入端接收第1个特征提取块、第5个特征提取块输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出64幅特征图,将64幅特征图构成的集合记为U4。其中,第39、40、41卷积层的卷积核大小均为3x3、卷积核个数均为64、补零参数均为1、步长均为1;第39、40、41激活层的激活方式为“Relu”。U4中的每幅特征图的宽度为
Figure BDA0002254184480000115
高度为
Figure BDA0002254184480000116
对于输出层,输入端接收第一反卷积层输出端输出图像的R通道分量、G通道分量和B通道分量,输出端输出40幅特征图。
步骤1_3:将训练集中每幅原始的室内场景图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中每幅原始的室内场景图像对应的40幅语义分割预测图,将{Iq(i,j)}对应的40幅语义分割预测图构成的集合记为
Figure BDA0002254184480000121
步骤1_4:计算训练集中的每幅原始的室内场景图像对应的40幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的40幅独热编码图像构成的集合之间的损失函数值,将
Figure BDA0002254184480000122
Figure BDA0002254184480000123
之间的损失函数值记为
Figure BDA0002254184480000124
Figure BDA0002254184480000125
采用Negative Log-liklihood(NLLLoss)获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络分类训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=2000。
所述的测试阶段过程的具体步骤为:
步骤2_1:令
Figure BDA0002254184480000126
表示待语义分割的室内场景图像;其中,1≤i'≤W',1≤j'≤H',W'表示
Figure BDA0002254184480000127
的宽度,H'表示
Figure BDA0002254184480000128
的高度,
Figure BDA0002254184480000129
表示
Figure BDA00022541844800001210
中坐标位置为(i,j)的像素点的像素值。
步骤2_2:将
Figure BDA00022541844800001211
的R通道分量、G通道分量和B通道分量输入到卷积神经网络分类训练模型中,并利用Wbest和bbest进行预测,得到
Figure BDA00022541844800001212
对应的预测语义分割图像,记为
Figure BDA00022541844800001213
其中,
Figure BDA00022541844800001214
表示
Figure BDA00022541844800001215
中坐标位置为(i',j')的像素点的像素值。
为了进一步验证本发明方法的可行性和有效性,进行实验。
使用基于python的深度学习框架Pytorch0.4.1搭建全残差空洞卷积神经网络的架构。采用室内场景图像数据库NYUD v2测试集来分析利用本发明方法预测得到的室内场景图像(取654幅室内场景图像)的分割效果如何。这里,利用评估语义分割方法的3个常用客观参量作为评价指标,即类精确度(Class Acurracy)、平均像素准确率(Mean PixelAccuracy,MPA)、分割图像与标签图像交集与并集的比值(Mean Intersection overUnion,MIoU)来评价预测语义分割图像的分割性能。
利用本发明方法对室内场景图像数据库NYUD v2测试集中的每幅室内场景图像进行预测,得到每幅室内场景图像对应的预测语义分割图像,反映本发明方法的语义分割效果的类精确度CA、平均像素准确率MPA、分割图像与标签图像交集与并集的比值MIoU如表1所列。从表1所列的数据可知,按本发明方法得到的室内场景图像的分割结果是较好的,表明利用本发明方法来获取室内场景图像对应的预测语义分割图像是可行性且有效的。
表1利用本发明方法在测试集上的评测结果
MPA 74.6%
CA 59.3%
MIoU 46.4%
图2a给出了同一场景的第1幅原始的室内场景图像;图2b给出了利用本发明方法对图2a所示的原始的室内场景图像进行预测,得到的预测语义分割图像;图3a给出了同一场景的第2幅原始的室内场景图像;图3b给出了利用本发明方法对图3a所示的原始的室内场景图像进行预测,得到的预测语义分割图像;图4a给出了同一场景的第3幅原始的室内场景图像;图4b给出了利用本发明方法对图4a所示的原始的室内场景图像进行预测,得到的预测语义分割图像;图5a给出了同一场景的第4幅原始的室内场景图像;图5b给出了利用本发明方法对图5a所示的原始的室内场景图像进行预测,得到的预测语义分割图像;图6a给出了同一场景的第4幅原始的室内场景图像;图6b给出了利用本发明方法对图6a所示的原始的室内场景图像进行预测,得到的预测语义分割图像。对比图2a和图2b,对比图3a和图3b,对比图4a和图4b,对比图5a和图5b,对比图6a和图6b,可以看出利用本发明方法得到的预测语义分割图像的分割精度较高。

Claims (6)

1.一种基于双流特征融合的语义分割方法,其特征在于,包括以下步骤:
步骤1:选取N幅原始图像的RGB图、深度图以及原始图像对应的真实语义分割图,真实语义分割图为原始图像进行真实语义分割处理得到的图像,所有原始图像的RGB图、深度图以及原始图像对应的真实语义分割图构成训练集;
步骤2:构建卷积神经网络;
步骤3:将训练集中每幅原始图像的RGB图和深度图输入卷积神经网络进行训练输出对应的语义分割预测图,计算语义分割预测图与真实语义分割图之间的损失函数值,损失函数采用负对数似然损失函数获得;
步骤4:重复执行步骤3共V次,共得到N×V个损失函数值;将N×V个损失函数值中值最小的损失函数值对应的权值矢量和偏置项作为卷积神经网络的最优权值矢量和最优偏置项,完成卷积神经网络的训练;
步骤5:将待语义分割图像输入步骤4训练好的卷积神经网络进行预测处理,输出得到待语义分割图像对应的预测语义分割图;
所述步骤2具体为:
卷积神经网络包括依次设置的输入层、隐藏层和输出层,输入层包括RGB图输入层和深度图输入层,隐藏层包括RGB图处理模块、深度图处理模块、融合模块和第一个反卷积层;
深度图处理模块包括依次连接的第一卷积块、第一特征提取块、第二特征提取块、第三特征提取块、第四特征提取块、第五特征提取块、第一反卷积块、第二反卷积块、第三反卷积块和第四反卷积块,第一反卷积块输入端接收第五特征提取块和第四特征提取块的共同输出,第二反卷积块输入端接收第五特征提取块和第三特征提取块的共同输出,第三反卷积块输入端接收第五特征提取块和第二特征提取块的共同输出,第四反卷积块输入端接收第五特征提取块和第一特征提取块的共同输出;
RGB图处理模块包括三个分支,第一个分支由依次连接的五个残差块组成,第二个分支由依次连接的四个注意力块组成,第三个分支由依次连接的四个残差ASPP块组成;第一个注意力块的输入端接收第五个残差块和第一个残差块的共同输出,第二个注意力块的输入端接收第五个残差块和第二个残差块的共同输出,第三个注意力块的输入端接收第五个残差块和第三个残差块的共同输出,第四个注意力块的输入端接收第五个残差块和第四个残差块的共同输出;第一个注意力块、第二个注意力块、第三个注意力块和第四个注意力块的输出分别输入第一个残差ASPP块、第二个残差ASPP块、第三个残差ASPP块和第四个残差ASPP块;
融合模块包括依次连接的四个融合块,第一个反卷积块和第四个残差ASPP块的输出均输入第一个融合块,第二个反卷积块和第三个残差ASPP块的输出均输入第二个融合块,第三个反卷积块和第二个残差ASPP块的输出均输入第三个融合块,第四个反卷积块和第一个残差ASPP块的输出均输入第四个融合块;
第四个融合块的输出经第一个反卷积层从输出层输出。
2.根据权利要求1所述的一种基于双流特征融合的语义分割方法,其特征在于,每个所述的特征提取块均由VGG16网络中的基本块组成,第一特征提取块、第二特征提取块、第三特征提取块、第四特征提取块、第五特征提取块分别由VGG16网络中第一个下采样块、第二个下采样块、第三个下采样块、第四个下采样块、第五个下采样块组成,每个下采样块均包括依次连接的多个卷积层和一个池化层,多个卷积层依次连接;
每个残差块均由ResNet34网络中的基本块组成,第一个残差块由ResNet34网络中依次连接的第一卷积层、第一批量归一化层和第一激活层组成,且第一个残差块中的第一卷积层步长为2;第二个残差块由ResNet34网络中依次连接的第一池化层和第一下采样块layer1组成,第三个残差块由ResNet34网络中的第二下采样块layer2组成;第四个残差块由ResNet34网络中的第三下采样块layer3组成;第五个残差块由ResNet34网络中的第四下采样块layer4组成。
3.根据权利要求1所述的一种基于双流特征融合的语义分割方法,其特征在于,每个所述的注意力块将输入的第五个残差块尺寸转置为与对应输入的另一个残差块相匹配的尺寸,然后将输入的两个残差块相乘后的结果作为注意力块的输出。
4.根据权利要求1所述的一种基于双流特征融合的语义分割方法,其特征在于,每个所述的反卷积块均包括依次连接的一个反卷积层和引入跳跃连接操作的三个卷积块,反卷积块中的三个卷积块依次连接,反卷积块中反卷积层的输出与三个卷积块的输出跳跃连接作为反卷积块的输出;且每个所述的反卷积块中的反卷积层步长均为2;
每个融合块均由引入跳跃连接操作的三个依次设置的卷积块组成,融合块中融合块的输入与三个卷积块的输出跳跃连接作为融合块的输出。
5.根据权利要求1所述的一种基于双流特征融合的语义分割方法,其特征在于,每个所述的残差ASPP块均由并行设置的三个空洞卷积块串行一个卷积块组成,三个空洞卷积块并联的一端作为残差ASPP块的输入端,并联的另一端经串联的卷积块后的输出作为残差ASPP块的输出端。
6.根据权利要求1所述的一种基于双流特征融合的语义分割方法,其特征在于,每个卷积块均由依次连接的卷积层、批量归一化层、激活层组成;所述RGB图输入层的输入为RGB图,RGB图输入层输出输入图像的R通道分量、G通道分量和B通道分量;所述深度图输入层的输入为深度图,深度图经过第一卷积块后处理后具有与RGB图一样的三通道。
CN201911046078.6A 2019-10-30 2019-10-30 一种基于双流特征融合的语义分割方法 Active CN110782462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911046078.6A CN110782462B (zh) 2019-10-30 2019-10-30 一种基于双流特征融合的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911046078.6A CN110782462B (zh) 2019-10-30 2019-10-30 一种基于双流特征融合的语义分割方法

Publications (2)

Publication Number Publication Date
CN110782462A CN110782462A (zh) 2020-02-11
CN110782462B true CN110782462B (zh) 2022-08-09

Family

ID=69387747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911046078.6A Active CN110782462B (zh) 2019-10-30 2019-10-30 一种基于双流特征融合的语义分割方法

Country Status (1)

Country Link
CN (1) CN110782462B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340814B (zh) * 2020-03-03 2024-04-09 北京工业大学 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN111401436B (zh) * 2020-03-13 2023-04-18 中国科学院地理科学与资源研究所 一种融合网络和双通道注意力机制的街景图像分割方法
CN111428602B (zh) * 2020-03-18 2024-07-05 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN111429465B (zh) * 2020-03-18 2023-05-23 浙江科技学院 基于视差净化的二型残差双目显着物体图像分割方法
CN111523546B (zh) * 2020-04-16 2023-06-16 湖南大学 图像语义分割方法、系统及计算机存储介质
CN111507990B (zh) * 2020-04-20 2022-02-11 南京航空航天大学 一种基于深度学习的隧道表面缺陷分割方法
CN111563909B (zh) * 2020-05-10 2023-05-05 中国人民解放军91550部队 一种复杂街景图像语义分割方法
CN113724263A (zh) * 2020-05-26 2021-11-30 上海微创卜算子医疗科技有限公司 全卷积神经网络模型、图像分割方法及装置
CN111640116B (zh) * 2020-05-29 2023-04-18 广西大学 基于深层卷积残差网络的航拍图建筑物分割方法及装置
CN111832641B (zh) * 2020-07-06 2021-08-27 广东海洋大学 一种基于级联下采样卷积神经网络的图像识别方法
CN114065014B (zh) * 2020-07-31 2024-08-13 北京达佳互联信息技术有限公司 一种信息匹配方法、装置、设备及存储介质
CN112101410B (zh) * 2020-08-05 2021-08-06 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及系统
CN111985552B (zh) * 2020-08-17 2022-07-29 中国民航大学 复杂背景下机场道面细带状结构病害检测方法
CN112164078B (zh) * 2020-09-25 2024-03-15 上海海事大学 基于编码器-解码器的rgb-d多尺度语义分割方法
CN112184738B (zh) * 2020-10-30 2022-09-13 北京有竹居网络技术有限公司 一种图像分割方法、装置、设备及存储介质
CN112381097A (zh) * 2020-11-16 2021-02-19 西南石油大学 一种基于深度学习的场景语义分割方法
CN112598675A (zh) * 2020-12-25 2021-04-02 浙江科技学院 基于改进全卷积神经网络的室内场景语义分割方法
CN112733934B (zh) * 2021-01-08 2024-07-05 浙江科技学院 复杂环境下的多模态特征融合道路场景语义分割方法
CN113192073A (zh) * 2021-04-06 2021-07-30 浙江科技学院 基于交叉融合网络的服装语义分割方法
CN113033454B (zh) * 2021-04-07 2023-04-25 桂林电子科技大学 一种城市视频摄像中建筑物变化的检测方法
CN113298814A (zh) * 2021-05-21 2021-08-24 浙江科技学院 一种基于渐进指导融合互补网络的室内场景图像处理方法
CN113470033A (zh) * 2021-06-04 2021-10-01 浙江科技学院 一种基于双侧边动态交叉融合的道路场景图像处理方法
CN113298174B (zh) * 2021-06-10 2022-04-29 东南大学 一种基于渐进特征融合的语义分割模型的改进方法
CN113537026B (zh) * 2021-07-09 2023-05-23 上海智臻智能网络科技股份有限公司 建筑平面图中的图元检测方法、装置、设备及介质
CN113807356B (zh) * 2021-07-29 2023-07-25 北京工商大学 一种端到端的低能见度图像语义分割方法
CN113724271B (zh) * 2021-08-30 2023-09-29 上海大学 一种用于复杂环境移动机器人场景理解的语义分割模型训练方法
CN113763384B (zh) * 2021-11-10 2022-03-15 常州微亿智造科技有限公司 工业质检中的缺陷检测方法、缺陷检测装置
CN114581859B (zh) * 2022-05-07 2022-09-13 北京科技大学 一种转炉下渣监测方法及系统
CN114723951B (zh) * 2022-06-08 2022-11-04 成都信息工程大学 一种用于rgb-d图像分割的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508639A (zh) * 2018-10-12 2019-03-22 浙江科技学院 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法
CN109635662A (zh) * 2018-11-14 2019-04-16 浙江科技学院 一种基于卷积神经网络的道路场景语义分割方法
CN110059728A (zh) * 2019-03-26 2019-07-26 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110210492A (zh) * 2019-04-28 2019-09-06 浙江科技学院 一种基于深度学习的立体图像视觉显著性检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508639A (zh) * 2018-10-12 2019-03-22 浙江科技学院 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法
CN109635662A (zh) * 2018-11-14 2019-04-16 浙江科技学院 一种基于卷积神经网络的道路场景语义分割方法
CN110059728A (zh) * 2019-03-26 2019-07-26 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110210492A (zh) * 2019-04-28 2019-09-06 浙江科技学院 一种基于深度学习的立体图像视觉显著性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RFBNet: Deep Multimodal Networks with Residual Fusion Blocks for RGB-D Semantic Segmentation;Liuyuan Deng et al.;《arXiv:1907.00135v2 [cs.CV]》;20190916;第1-7页 *
基于深度卷积神经网络的道路场景深度估计;袁建中 等;《激光与光电子学进展》;20190430;第56卷(第8期);第1-9页 *

Also Published As

Publication number Publication date
CN110782462A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
CN110728682B (zh) 一种基于残差金字塔池化神经网络的语义分割方法
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN111626300B (zh) 基于上下文感知的图像语义分割模型的图像分割方法及建模方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN111598892B (zh) 一种基于Res2-UNeXt网络结构的细胞图像分割方法
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN110084274B (zh) 实时图像语义分割方法及系统、可读存储介质和终端
CN110263813B (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN109635662B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN109635642A (zh) 一种基于残差网络和扩张卷积的道路场景分割方法
CN109461177B (zh) 一种基于神经网络的单目图像深度预测方法
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN112699844A (zh) 一种基于多尺度残差层级密连接网络的图像超分辨率方法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN109446933B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN114463297A (zh) 一种基于fpn与detr融合改进的芯片缺陷检测方法
CN109801323A (zh) 具有自我提升能力的金字塔双目深度估计模型
CN115544613A (zh) 一种多模态数据驱动的城市道路布局设计自动化方法
CN113763364A (zh) 一种基于卷积神经网络的图像缺陷检测方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN113658189A (zh) 一种跨尺度特征融合的实时语义分割方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant