CN110782458B - 一种非对称编码网络的物体图像3d语义预测分割方法 - Google Patents

一种非对称编码网络的物体图像3d语义预测分割方法 Download PDF

Info

Publication number
CN110782458B
CN110782458B CN201911012594.7A CN201911012594A CN110782458B CN 110782458 B CN110782458 B CN 110782458B CN 201911012594 A CN201911012594 A CN 201911012594A CN 110782458 B CN110782458 B CN 110782458B
Authority
CN
China
Prior art keywords
layer
input
network
output
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911012594.7A
Other languages
English (en)
Other versions
CN110782458A (zh
Inventor
周武杰
袁建中
吕思嘉
雷景生
钱亚冠
何成
王海江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lover Health Science and Technology Development Co Ltd
Original Assignee
Zhejiang Lover Health Science and Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lover Health Science and Technology Development Co Ltd filed Critical Zhejiang Lover Health Science and Technology Development Co Ltd
Priority to CN201911012594.7A priority Critical patent/CN110782458B/zh
Publication of CN110782458A publication Critical patent/CN110782458A/zh
Application granted granted Critical
Publication of CN110782458B publication Critical patent/CN110782458B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明公开了一种非对称编码网络的物体图像3D语义预测分割方法。选取RGB图像、深度图和对应的语义标签构成构成训练集,构建非对称编码网络的卷积神经网络,包括两个输入层、隐层和三个输出层,将训练集输入到卷积神经网络中进行训练,得到训练集中的每幅RGB图像对应的预测分割图像,计算训练集中的每幅RGB图像对应的预测分割图像与对应的真实深度图像之间的损失函数值,不断训练取值最小的损失函数值对应的权值矢量和偏置项;待预测的RGB图像和深度图像输入到训练好的深度可分卷积神经网络训练模型中,得到预测分割图像。本发明构建了非对称编码网络的网络结构,实现了物体图像3D语义预测分割,且分割结果精度高。

Description

一种非对称编码网络的物体图像3D语义预测分割方法
技术领域
本发明涉及一种语义分割技术,尤其是涉及一种非对称编码网络的物体图像3D语义预测分割方法。
背景技术
经济的腾飞促使了技术的蓬勃发展,人工智能响应着时代的需求应运而生,并不断改善着人们的生活质量。人工智能的各项技术也得到了越来越多人们的关注,计算机视觉任务作为人工智能的代表之一也日益得到了人们的重视,3D语义分割技术是基本的计算机视觉任务之一,它在视觉场景理解中显得越发的重要。
室内3D语义分割的目的是预测输入图像中每个像素的类别标签。它是计算机视觉的一个基本任务,可以作为许多实际应用的一部分,如自动驾驶、视频监控和虚拟现实。
深度学习和端到端训练框架被提出来之前,语义分割主要依靠传统方法提取的手工特征来生成最终分割结果。但是手工特征的精度很低使得该项技术没有得实质的进展,从而导致传统方法在语义分割的领域一直没有取得令人满意的结果。深度学习和端到端训练框架被提出后,立即在计算机视觉任务中的应用取得了巨大的成功。对于语义分割而言,深度学习给予了很大的帮助,其庞大数据量的训练方式和自主学习能力使得语义分割的分割结果精度不断地得到提升,从而实现其在实际需求中的应用与推广。
发明内容
为了解决背景技术中存在的问题,本发明提出了一种非对称编码网络的物体图像3D语义预测分割方法。
本发明所采用的技术方案是:
步骤1_1:选取I幅原始的RGB图像及其对应的深度图,结合各幅原始的RGB图像对应的语义标签一起构成构成训练集,将训练集中的第i幅原始的RGB图像记为{Li RGB(p,q)},将训练集中与{Li RGB(p,q)}对应的深度图像记为
Figure GDA0003493439790000011
RGB图像对应的语义标签记为
Figure GDA0003493439790000012
其中,I为正整数,I≥700,如取I=795,i为正整数,1≤i≤I,1≤p≤W,1≤q≤H,W表示{Li RGB(p,q)}、
Figure GDA0003493439790000021
Figure GDA0003493439790000022
的宽度,H表示{Li RGB(p,q)}、
Figure GDA0003493439790000023
Figure GDA0003493439790000024
的高度,W和H均能被2整除,Li RGB(p,q)表示{Li RGB(p,q)}中坐标位置为(p,q)的像素点的像素值,
Figure GDA0003493439790000025
表示
Figure GDA0003493439790000026
中坐标位置为(p,q)的像素点的像素值,
Figure GDA0003493439790000027
表示
Figure GDA0003493439790000028
中坐标位置为(p,q)的像素点的像素值;
所述的语义标签为图中物体的检测框和物体类别的标签。所述的物体通常为图像中不同类别的物体,例如可以为室内图像中的床、椅子、桌子等物体,但不限于此。
本发明的3D语义是指引入深度图后的语义分割。
步骤1_2:构建卷积神经网络:
卷积神经网络包括两个输入层、隐层和三个输出层,两个输入层连接到隐层的输入端,隐层的输出端连接三个输出层;
步骤1_3:将训练集中每幅RGB图像及其对应的深度图像,分别作为两个输入层的原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅RGB图像对应的预测分割图像,将RGB图像{Li RGB(p,q)}对应的预测分割图像记为
Figure GDA0003493439790000029
其中,
Figure GDA00034934397900000210
表示
Figure GDA00034934397900000211
中坐标位置为(p,q)的像素点的像素值;
步骤1_4:计算训练集中的每幅RGB图像对应的预测分割图像
Figure GDA00034934397900000212
与对应的语义标签之间的损失函数值,预测分割图像
Figure GDA00034934397900000213
Figure GDA00034934397900000214
之间的损失函数值记为
Figure GDA00034934397900000215
Figure GDA00034934397900000216
采用交叉熵函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为最优权值矢量和最优偏置项并替换训练好的深度可分卷积神经网络训练模型中的权值矢量和偏置项,对应记为最优权值矢量Wbest和最优偏置项bbest;其中V>1,在本实施例中取V=2000;
步骤1_6:针对待预测的RGB图像{LRGB(p',q')}及其对应的深度图像{Ldepth(p',q')},其中,1≤p'≤W',1≤q'≤H',W'表示{LRGB(p',q')}和{Ldepth(p',q')}的宽度,H'表示{LRGB(p',q')}和{Ldepth(p',q')}的高度,LRGB(p',q')和Ldepth(p',q')分别表示{LRGB(p',q')}和{Ldepth(p',q')}中坐标位置为(p',q')的像素点的像素值,将待预测的RGB图像{LRGB(p',q')}及其对应的深度图像{Ldepth(p',q')}输入到训练好的深度可分卷积神经网络训练模型中,并利用最优权值矢量Wbest和最优偏置项bbest进行预测,得到待预测的RGB图像{LRGB(p',q')}对应的预测分割图像{Lpredction(p',q')},其中,Lpredction(p',q')表示{Lpredction(p',q')}中坐标位置为(p',q')的像素点的像素值,从而实现语义预测分割。
所述的隐层包括8个卷积层、1个带孔(膨胀)卷积层、6个规范化层、6个激活层、1个ASPP网络块、2个自注意网络块、4个串联融合层、2个元素求和融合层、去除其中第5个最大池化层及其后面网络结构的VGG16网络和去除最后的平均池化层和全连接层后的ResNet34网络;即VGG16网络中第5个最大池化层及其后面网络删去,不采用;ResNet34网络位于网络最后的平均池化层和全连接层删去,不采用。具体实施的带孔(膨胀)卷积层的膨胀比为2。
VGG16网络内部包括依次连接的第零VGG16特征提取块layerd0、第一VGG16特征提取块layerd1、第二VGG16特征提取块layerd2、第三VGG16特征提取块layerd3、第四VGG16特征提取块layerd4;
ResNet34网络内部包括依次连接的卷积层、规范化层、激活层、最大池化层、第一ResNet34特征提取块layer1、第1个第二ResNet34特征提取块layer2、第1个第三ResNet34特征提取块layer3和第1个第四ResNet34特征提取块layer4。
深度图像
Figure GDA0003493439790000031
和RGB图像{Li RGB(p,q)}分别作为两个输入层分别输入到VGG16网络和ResNet34网络,深度图像
Figure GDA0003493439790000032
输入到VGG16网络的第零VGG16特征提取块layerd0,RGB图像{Li RGB(p,q)}输入到ResNet34网络的卷积层;VGG16网络的第一VGG16特征提取块layerd1和ResNet34网络的第一ResNet34特征提取块layer1的输出共同输入到第1个串联融合层,从第1个串联融合层的输出依次经过第1个卷积层、第1个规范化层、第1个激活层和第2个第二ResNet34特征提取块layer2后连接输入到第2个串联融合层。
VGG16网络的第二VGG16特征提取块layerd2和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出共同输入到第2个串联融合层,从第2个串联融合层的输出依次经过第2个卷积层、第2个规范化层、第2个激活层和第2个第三ResNet34特征提取块layer3后连接输入到第3个串联融合层。
VGG16网络的第三VGG16特征提取块layerd3和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出共同输入到第3个串联融合层,从第3个串联融合层的输出依次经过第3个卷积层、第3个规范化层、第3个激活层和第2个第四ResNet34特征提取块layer4后连接输入到第4个串联融合层;
VGG16网络的第四VGG16特征提取块layerd4和ResNet34网络的第1个第四ResNet34特征提取块layer4的输出共同输入到第4个串联融合层,从第4个串联融合层的输出依次经过第4个卷积层、第4个规范化层、第4个激活层、ASPP网络块和第1个双线性上采样层后连接输入到第1个元素求和融合层。
第2个第二ResNet34特征提取块layer2和ResNet34网络的第二ResNet34特征提取块layer2结构相同,即各个第二ResNet34特征提取块layer2结构相同;同理,各个第三ResNet34特征提取块layer3结构相同,各个第四ResNet34特征提取块layer4结构相同。
VGG16网络的第三VGG16特征提取块layerd3的输出经第1个自注意网络块后和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出一起共同输入到第1个元素求和融合层,从第1个元素求和融合层的输出依次经过第2个双线性上采样层、第5个卷积层、第5个规范化层、第5个激活层后连接输入到第2个元素求和融合层,同时第1个元素求和融合层的输出经第5个卷积层连接到第1个输出层。
VGG16网络的第二VGG16特征提取块layerd2的输出经第2个自注意网络块后和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出一起共同输入到第2个元素求和融合层,从第2个元素求和融合层的输出依次经过第3个双线性上采样层、第1个带孔(膨胀)卷积层、第6个规范化层、第6个激活层、第8个卷积层后连接输入到第3个输出层,同时第2个元素求和融合层的输出经第7个卷积层连接到第2个输出层。
第1个输出层、第2个输出层、第3个输出层分别输出尺寸为RGB图像十六分之一的预测分割图像、尺寸为RGB图像八分之一的预测分割图像和尺寸与RGB图像相同的预测分割图像。
所述的ASPP网络块由3个卷积层、3个带孔(膨胀)卷积层、1个自适应平均池化层、1个双线性上采样层、1个融合层组成;自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接后和3个带孔(膨胀)卷积层并联,并联后的各个输出端连接到融合层,融合层输出连接到第3个卷积层;第4个激活层的输出作为ASPP网络块的输入分别输入到3个带孔(膨胀)卷积层和由自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接构成的局部网络结构中,3个带孔(膨胀)卷积层和由自适应平均池化层、卷积层、双线性上采样层依次连接构成的局部网络结构的输出端均连接到融合层,融合层经第3个卷积层输出作为ASPP网络块的输出,输出到第1个双线性上采样层;
带孔(膨胀)卷积层具体为设置了膨胀比的常规卷积层,是通过设置膨胀比来扩大卷积层感受野的操作,自适应平均池化层是通过全局池化来获得一个权重值的操作,双线性上采样层是使用双线性插值的方法来成倍扩大特征图尺寸。
所述的自注意网络块主要包含1个自适应平均池化层、1个Sigmoid层、1个逐元素求积融合层、1个卷积层、1个规范化层和1个激活层;之前网络结构的输出作为自注意网络块的输入,输入到自适应平均池化层和逐元素求积融合层,自适应平均池化层的输出经Sigmoid层后也输入到逐元素求积融合层,逐元素求积融合层输出依次经卷积层、规范化层、激活层后输出作为自注意网络块的输出。
逐元素求积融合层是每个对应元素求积的处理操作。
将两个或三个连续的卷积层加一个最大池化层的结构作为一个网络块,并作为VGG16网络中的一个VGG16特征提取块,如图1中从layerd0到layerd4的五个网络块。并且VGG16网络中,使用一个卷积核大小为1×1、输入通道为1、输出通道为64的卷积层代替原始VGG16中的第一个卷积层,即替换掉第零VGG16特征提取块layerd0中的第一个卷积层。
对于2个输入层,第1个输入层是RGB图像输入层,其输入端接收一幅原始RGB输入图像;第2个输入层是深度图像输入层,其输入端接收一幅原始RGB图像对应的深度图像,2个输入层的输出端分别输出原始RGB图像和其对应的深度图像给隐层。
本发明在训练阶段,本发明搭建的基于RGB图和深度图的双输入卷积神经网络模型的RGB图像输入流使用ResNet34网络对RGB图像进行特征提取获得语义信息,同时深度图像输入流使用VGG16网络对深度图进行特征提取作为RGB图像输入流的辅助信息,使用交叉模态精馏流来集成和细化ResNet34网络中的语义信息和VGG16网络中的辅助信息,以提取更准确的特征信息。最后将三流输出特征信息融合在一起,并利用卷积层和ASPP网络块对融合特征进行优化。利用三个双向上采样层将优化后的特征图的空间分辨率恢复到原始RGB图像的大小。第二个和第三个双线性上采样层在前面都有一个元素求和融合层,以便分别将来自前一层的特征与来自Resnet 34网络中layer2和layer3的输出特征,以及来自VGG16网络中layerd2和layerd3的输出特征相融合。
VGG16网络较浅,VGG16网络的中间特征中可能存在更多的错误信息,如果特征被直接融合,整个神经网络的结果精度反而会降低。本发明使用了一个简单的自注意模块滤除VGG16网络中间特征中的误差信息,然后使用自注意模块的输出特征进行融合以起到积极的辅助作用。接着通过计算训练集中的RGB图像对应的预测分割图像与对应的语义标签图像之间的损失函数值,得到基于RGB图和深度图的双输入卷积神经网络训练模型及最优权值矢量;再将待测试的RGB图像及其对应的深度图像输入到卷积神经网络训练模型中,并利用最优权值矢量,预测得到对应的预测分割图像。
本发明提出的方法具体实施在NYU Depth V2数据集上实现了最先进的语义分割结果。
与现有技术相比,本发明的优点在于:
本发明提出了一种非对称输入流和跨模态精馏流的图像语义分割方法,本发明采用多监督方法进行网络训练,是利用简单高效的自注意模块来优化特征信息,实现了含有实体物体的图像中的物体预测和分割,对物体图像的分割结果精度高。
附图说明
图1为本发明方法的总体实现框图。
图2为自注意网络块的结构框图。
图3为ASPP网络块的结果框图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于卷积神经网络的语义分割方法,其总体实现框图如图1所示,其包括以下步骤:
步骤1_1:选取I幅原始的RGB图像及其对应的深度图,结合每幅原始的RGB图像对应的语义标签一起构成构成训练集,将训练集中的第i幅原始的RGB图像记为{Li RGB(p,q)},将训练集中与{Li RGB(p,q)}对应的深度图像记为
Figure GDA0003493439790000061
对应的语义标签记为
Figure GDA0003493439790000062
其中,I为正整数,I≥700,如取I=795,i为正整数,1≤i≤I,1≤p≤W,1≤q≤H,W表示{Li RGB(p,q)}、
Figure GDA0003493439790000063
Figure GDA0003493439790000064
的宽度,H表示{Li RGB(p,q)}、
Figure GDA0003493439790000065
Figure GDA0003493439790000066
的高度,W和H均能被2整除,Li RGB(p,q)表示{Li RGB(p,q)}中坐标位置为(p,q)的像素点的像素值,
Figure GDA0003493439790000067
表示
Figure GDA0003493439790000068
中坐标位置为(p,q)的像素点的像素值,
Figure GDA0003493439790000069
表示
Figure GDA00034934397900000610
中坐标位置为(p,q)的像素点的像素值。
步骤1_2:构建卷积神经网络:卷积神经网络包括2个输入层、隐层和3个输出层;隐层包括8个卷积层、1个带孔(膨胀)卷积层、6个规范化层、6个激活层、1个ASPP网络块、2个自注意网络块、4个串联融合层、2个元素求和融合层、排除第5个最大池化层后面结构的VGG16网络、不使用最后的平均池化层和全连接层的ResNet34网络。带孔(膨胀)卷积层的膨胀比为2。ASPP网络块由3个卷积层、3个带孔(膨胀)卷积层、1个自适应平均池化层、1个双线性上采样层、1个串联融合层组成。自注意网络块主要包含1个自适应平均池化层、1个Sigmoid层、1个逐元素求积融合层、1个卷积层、1个规范化层、1个激活层。将VGG16中两个或三个连续卷积层加一个最大池化层的结构作为一个网络块,如图1中从layerd0到layerd4的五个网络块,并且使用一个卷积核大小为1×1,输入通道为1,输出通道为64的卷积层代替原始VGG16中的第一个卷积层,即替换掉layerd0中的第一个卷积层。
对于2个输入层,第1个输入层是RGB图像输入层,其输入端接收一幅原始RGB输入图像;第2个输入层是深度图像输入层,其输入端接收一幅原始RGB图像对应的深度图像,2个输入层的输出端分别输出原始RGB图像和其对应的深度图像给隐层;其中,要求2个输入层的输入端接收的原始图像及其深度图像的宽度为W、高度为H。
对于隐层,除了第5个卷积层和第1个带孔卷积层的卷积核大小为3×3外,其他所有卷积层的卷积核大小都为1×1,并且所有的卷积步长都为1,注意,此处提及的卷积层不包含网络块、ResNet34网络和VGG16网络中的卷积层。第1个卷积层的输入通道为192,输出通道为64;第2个卷积层的输入通道为512,输出通道为128;第3个卷积层的输入通道为1024,输出通道为256;第4个卷积层的输入通道为1536,输出通道为512;第5个卷积层的输入通道为256,输出通道为128;第6个卷积层的输入通道为256,输出通道为40;第7个卷积层的输入通道为128,输出通道为40;第8个卷积层的输入通道为64,输出通道为40;第1个带孔卷积层的输入通道为128,输出通道为64。6个规范化层的参数均采用默认值。6个激活层的激活函数均采用ReLu。2个自注意网络块的卷积层的卷积核大小均为1×1,卷积步长都为1,规范化层的参数均采用默认值,激活层的激活函数均采用ReLu,第1个自注意网络块中卷积层的输入通道为512,输出通道为256,第2个自注意网络块中卷积层的输入通道为256,输出通道为128,自注意网络块的内部结构如图2所示。ASPP网络块中3个卷积层的卷积核大小均为1×1,卷积步长都为1;3个带孔卷积层的卷积核大小均为3×3,卷积步长都为1,膨胀比分别为6,12,18。除了第3个卷积层的输入通道为2569,输出通道为256外,其余2个卷积层和3个带孔卷积层的输入通道均为512,输出通道均为256。3个双线性上采样层的上采样因子分别为:2,2,8,ASPP网络块的内部结构如图3所示。对于ResNet34网络和VGG16网络,除了替换掉VGG16中第1个卷积层外其他结构和参数未做任何改变。
对于隐层,ResNet34网络的输入端接收RGB图像输入层的输出端输出的输入RGB图像,ResNet34网络中卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为G0,其中,G0中的每幅特征图的宽度为
Figure GDA0003493439790000081
高度为
Figure GDA0003493439790000082
ResNet34网络中规范化层的输入端接收G0中的所有特征图,规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P0,其中,P0中的每幅特征图的宽度为
Figure GDA0003493439790000083
高度为
Figure GDA0003493439790000084
ResNet34网络中激活层的输入端接收P0中的所有特征图,激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A0,其中,A0中的每幅特征图的宽度为
Figure GDA0003493439790000085
高度为
Figure GDA0003493439790000086
ResNet34网络中最大池化层的输入端接收A0中的所有特征图,最大池化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为M0,其中,M0中的每幅特征图的宽度为
Figure GDA0003493439790000087
高度为
Figure GDA0003493439790000088
ResNet34网络中layer1的输入端接收M0中的所有特征图,layer1的输出端输出64幅特征图,将输出的所有特征图构成的集合记为G1,其中,G1中的每幅特征图的宽度为
Figure GDA0003493439790000089
高度为
Figure GDA00034934397900000810
ResNet34网络中第1个layer2的输入端接收G1中的所有特征图,第1个layer2的输出端输出128幅特征图,将输出的所有特征图构成的集合记为G2,其中,G2中的每幅特征图的宽度为
Figure GDA00034934397900000811
高度为
Figure GDA00034934397900000812
ResNet34网络中第1个layer3的输入端接收G2中的所有特征图,第1个layer3的输出端输出256幅特征图,将输出的所有特征图构成的集合记为G3,其中,G3中的每幅特征图的宽度为
Figure GDA00034934397900000813
高度为
Figure GDA00034934397900000814
ResNet34网络中第1个layer4的输入端接收G3中的所有特征图,第1个layer4的输出端输出512幅特征图,将输出的所有特征图构成的集合记为G4,其中,G4中的每幅特征图的宽度为
Figure GDA00034934397900000815
高度为
Figure GDA0003493439790000091
VGG16网络的输入端接收深度图像输入层的输出端输出的输入深度图像,VGG16网络中layerd0的输出端输出64幅特征图,将输出的所有特征图构成的集合记为D0,其中,D0中的每幅特征图的宽度为
Figure GDA0003493439790000092
高度为
Figure GDA0003493439790000093
VGG16网络中layerd1的输入端接收D0中的所有特征图,layerd1的输出端输出128幅特征图,将输出的所有特征图构成的集合记为D1,其中,D1中的每幅特征图的宽度为
Figure GDA0003493439790000094
高度为
Figure GDA0003493439790000095
VGG16网络中layerd2的输入端接收D1中的所有特征图,layerd1的输出端输出256幅特征图,将输出的所有特征图构成的集合记为D2,其中,D2中的每幅特征图的宽度为
Figure GDA0003493439790000096
高度为
Figure GDA0003493439790000097
VGG16网络中layerd3的输入端接收D2中的所有特征图,layerd1的输出端输出512幅特征图,将输出的所有特征图构成的集合记为D3,其中,D3中的每幅特征图的宽度为
Figure GDA0003493439790000098
高度为
Figure GDA0003493439790000099
VGG16网络中layerd4的输入端接收D3中的所有特征图,layerd1的输出端输出512幅特征图,将输出的所有特征图构成的集合记为D4,其中,D4中的每幅特征图的宽度为
Figure GDA00034934397900000910
高度为
Figure GDA00034934397900000911
第1个串联融合层的输入端接收G1中的所有特征图和D1中的所有特征图,串联融合层的输出端输出192幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为
Figure GDA00034934397900000912
高度为
Figure GDA00034934397900000913
第1个卷积层的输入端接收C1中的所有特征图,第1个卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y1,其中,Y1中的每幅特征图的宽度为
Figure GDA00034934397900000914
高度为
Figure GDA00034934397900000915
第1个规范化层的输入端接收Y1中的所有特征图,规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为
Figure GDA0003493439790000101
高度为
Figure GDA0003493439790000102
第1个激活层的输入端接收P1中的所有特征图,激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A1,其中,A1中的每幅特征图的宽度为
Figure GDA0003493439790000103
高度为
Figure GDA0003493439790000104
ResNet34网络中第2个layer2的输入端接收A1中的所有特征图,第2个layer2的输出端输出128幅特征图,将输出的所有特征图构成的集合记为G′2,其中,G'2中的每幅特征图的宽度为
Figure GDA0003493439790000105
高度为
Figure GDA0003493439790000106
第2个串联融合层的输入端接收G2中的所有特征图、G'2中的所有特征图和D2中的所有特征图,串联融合层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为C2,其中,C2中的每幅特征图的宽度为
Figure GDA0003493439790000107
高度为
Figure GDA0003493439790000108
第2个卷积层的输入端接收C2中的所有特征图,第2个卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为Y2,其中,Y2中的每幅特征图的宽度为
Figure GDA0003493439790000109
高度为
Figure GDA00034934397900001010
第2个规范化层的输入端接收Y2中的所有特征图,规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P2,其中,P2中的每幅特征图的宽度为
Figure GDA00034934397900001011
高度为
Figure GDA00034934397900001012
第2个激活层的输入端接收P2中的所有特征图,激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A2,其中,A2中的每幅特征图的宽度为
Figure GDA00034934397900001013
高度为
Figure GDA00034934397900001014
ResNet34网络中第2个layer3的输入端接收A2中的所有特征图,第2个layer3的输出端输出256幅特征图,将输出的所有特征图构成的集合记为G'3,其中,G3'中的每幅特征图的宽度为
Figure GDA00034934397900001015
高度为
Figure GDA00034934397900001016
第3个串联融合层的输入端接收G3中的所有特征图、G'3中的所有特征图和D3中的所有特征图,串联融合层的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为C3,其中,C3中的每幅特征图的宽度为
Figure GDA0003493439790000111
高度为
Figure GDA0003493439790000112
第3个卷积层的输入端接收C3中的所有特征图,第3个卷积层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为Y3,其中,Y3中的每幅特征图的宽度为
Figure GDA0003493439790000113
高度为
Figure GDA0003493439790000114
第3个规范化层的输入端接收Y3中的所有特征图,规范化层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为P3,其中,P3中的每幅特征图的宽度为
Figure GDA0003493439790000115
高度为
Figure GDA0003493439790000116
第3个激活层的输入端接收P3中的所有特征图,激活层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为A3,其中,A3中的每幅特征图的宽度为
Figure GDA0003493439790000117
高度为
Figure GDA0003493439790000118
ResNet34网络中第2个layer4的输入端接收A3中的所有特征图,第2个layer4的输出端输出512幅特征图,将输出的所有特征图构成的集合记为G'4,其中,G'4中的每幅特征图的宽度为
Figure GDA0003493439790000119
高度为
Figure GDA00034934397900001110
第4个串联融合层的输入端接收G'4中的所有特征图、G4中的所有特征图和D4中的所有特征图,串联融合层的输出端输出1536幅特征图,将输出的所有特征图构成的集合记为C4,其中,C4中的每幅特征图的宽度为
Figure GDA00034934397900001111
高度为
Figure GDA00034934397900001112
第4个卷积层的输入端接收C4中的所有特征图,第4个卷积层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为Y4,其中,Y4中的每幅特征图的宽度为
Figure GDA00034934397900001113
高度为
Figure GDA00034934397900001114
第4个规范化层的输入端接收Y4中的所有特征图,规范化层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为P4,其中,P4中的每幅特征图的宽度为
Figure GDA00034934397900001115
高度为
Figure GDA00034934397900001116
第4个激活层的输入端接收P4中的所有特征图,激活层的输出端输出512幅特征图,将输出的所有特征图构成的集合记为A4,其中,A4中的每幅特征图的宽度为
Figure GDA0003493439790000121
高度为
Figure GDA0003493439790000122
ASPP的输入端接收A4中的所有特征图,ASPP的输出端输出256幅特征图,将输出的所有特征图构成的集合记为S,其中,S中的每幅特征图的宽度为
Figure GDA0003493439790000123
高度为
Figure GDA0003493439790000124
第1个双线性上采样层的输入端接收S中的所有特征图,第1个双线性上采样层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为U1,其中,U1中的每幅特征图的宽度为
Figure GDA0003493439790000125
高度为
Figure GDA0003493439790000126
第1个自注意网络块的输入端接收D3中的所有特征图,第1个自注意网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为D′3,其中,D′3中的每幅特征图的宽度为
Figure GDA0003493439790000127
高度为
Figure GDA0003493439790000128
第1个元素求和融合层的输入端接收G3中的所有特征图、D′3中的所有特征图和U1中的所有特征图,第1个元素求和融合层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为T1,其中,T1中的每幅特征图的宽度为
Figure GDA0003493439790000129
高度为
Figure GDA00034934397900001210
第2个双线性上采样层的输入端接收T1中的所有特征图,第2个双线性上采样层的输出端输出256幅特征图,将输出的所有特征图构成的集合记为U2,其中,U2中的每幅特征图的宽度为
Figure GDA00034934397900001211
高度为
Figure GDA00034934397900001212
第5个卷积层的输入端接收U2中的所有特征图,第5个卷积层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为Y5,其中,Y5中的每幅特征图的宽度为
Figure GDA00034934397900001213
高度为
Figure GDA00034934397900001214
第5个规范化层的输入端接收Y5中的所有特征图,规范化层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为P5,其中,P5中的每幅特征图的宽度为
Figure GDA00034934397900001215
高度为
Figure GDA0003493439790000131
第5个激活层的输入端接收P5中的所有特征图,激活层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为A5,其中,A5中的每幅特征图的宽度为
Figure GDA0003493439790000132
高度为
Figure GDA0003493439790000133
第2个自注意网络块的输入端接收D2中的所有特征图,第2个自注意网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为D'2,其中,D'2中的每幅特征图的宽度为
Figure GDA0003493439790000134
高度为
Figure GDA0003493439790000135
第2个元素求和融合层的输入端接收G2中的所有特征图、D'2中的所有特征图和A5中的所有特征图,第2个元素求和融合层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为T2,其中,T2中的每幅特征图的宽度为
Figure GDA0003493439790000136
高度为
Figure GDA0003493439790000137
第3个双线性上采样层的输入端接收T2中的所有特征图,第3个双线性上采样层的输出端输出128幅特征图,将输出的所有特征图构成的集合记为U3,其中,U3中的每幅特征图的宽度为W、高度为H;第1个带孔卷积层的输入端接收U3中的所有特征图,第1个带孔卷积层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为Y6,其中,Y6中的每幅特征图的宽度为W、高度为H;第6个规范化层的输入端接收Y6中的所有特征图,规范化层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为P6,其中,P6中的每幅特征图的宽度为W、高度为H;第6个激活层的输入端接收P6中的所有特征图,激活层的输出端输出64幅特征图,将输出的所有特征图构成的集合记为A6,其中,A6中的每幅特征图的宽度为W、高度为H。
对于3个输出层,第6个卷积层的输入端接收T1中的所有特征图,第6个卷积层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为Y6,其中,Y6中的每幅特征图的宽度为
Figure GDA0003493439790000138
高度为
Figure GDA0003493439790000139
第1个输出层的输入端接收Y6中的特征图,输出层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为O1,其中,O1中的每幅特征图的宽度为
Figure GDA0003493439790000141
高度为
Figure GDA0003493439790000142
第7个卷积层的输入端接收T2中的所有特征图,第7个卷积层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为Y7,其中,Y7中的每幅特征图的宽度为
Figure GDA0003493439790000143
高度为
Figure GDA0003493439790000144
第2个输出层的输入端接收Y7中的特征图,输出层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为O2,其中,O2中的每幅特征图的宽度为
Figure GDA0003493439790000145
高度为
Figure GDA0003493439790000146
第8个卷积层的输入端接收A6中的所有特征图,第8个卷积层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为Y8,其中,Y8中的每幅特征图的宽度为W、高度为H;第3个输出层的输入端接收Y8中的特征图,输出层的输出端输出40幅特征图,将输出的所有特征图构成的集合记为O3,其中,O3中的每幅特征图的宽度为W、高度为H。
步骤1_3:将训练集中每幅RGB图像及其对应的深度图像作为两个原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅RGB图像对应的预测分割图像,将{Li RGB(p,q)}对应的预测分割图像记为
Figure GDA0003493439790000147
其中,
Figure GDA0003493439790000148
表示
Figure GDA0003493439790000149
中坐标位置为(p,q)的像素点的像素值。
步骤1_4:计算训练集中的每幅RGB图像对应的预测分割图像与对应的真实深度图像之间的损失函数值,将
Figure GDA00034934397900001410
与{Li RGB(p,q)}之间的损失函数值记为
Figure GDA00034934397900001411
采用交叉熵函数获得。
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度可分卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1,在本实施例中取V=2000。
实施例的测试阶段过程的具体步骤为:
步骤2_1:令{LRGB(p',q')}和{Ldepth(p',q')}表示待预测的RGB图像及其对应的深度图像;其中,1≤p'≤W',1≤q'≤H',W'表示{LRGB(p',q')}和{Ldepth(p',q')}的宽度,H'表示{LRGB(p',q')}和{Ldepth(p',q')}的高度,LRGB(p',q')和Ldepth(p',q')分别表示{LRGB(p',q')}和{Ldepth(p',q')}中坐标位置为(p',q')的像素点的像素值。
步骤2_2:将{LRGB(p',q')}和{Ldepth(p',q')}输入到训练好的深度可分卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{LRGB(p',q')}对应的预测分割图像,记为{Lpredction(p',q')};其中,Lpredction(p',q')表示{Lpredction(p',q')}中坐标位置为(p',q')的像素点的像素值。
为了验证本发明方法的可行性和有效性,对本发明方法进行实验。
在此,本发明方法中构成训练集的RGB图像和其对应的深度图像以及用于测试的RGB图像和其对应的深度图像均来自NYU Depth v2数据集。将测试数据集中的每幅RGB图像和其对应的深度图像输入到训练好的卷积神经网络模型中,再载入训练阶段得到的最优权重Wbest,获得对应的预测分割图像。
在此,主要应用像素精度(pixel-acc)、平均精度(mean-acc)和平均交集(mean-iou)这三个关于像素精度和区域相交的性能指标来做评价。这三个指标的数值越高说明预测分割图像的精度越高。反映本发明方法的评价性能优劣指标的结果如表1所列。
表1利用本发明方法得到的预测分割图像与语义标签图像之间的对比评价指标
pixel-acc mean-acc mean-IoU
73.5 59.6 46.1
从表1所列的数据可知,按本发明方法获得的预测分割图像与语义标签图像之间的差别很小,这说明了本发明方法的预测分割结果的精度很高,体现了本发明方法的可行性和有效性。

Claims (5)

1.一种非对称编码网络的物体图像3D语义预测分割方法,其特征在于包括以下步骤:
步骤1_1:选取I幅原始的RGB图像及其对应的深度图,结合各幅原始的RGB图像对应的语义标签一起构成训练集,将训练集中的第i幅原始的RGB图像记为{Li RGB(p,q)},将训练集中与{Li RGB(p,q)}对应的深度图像记为
Figure FDA0003502106000000011
RGB图像对应的语义标签记为
Figure FDA0003502106000000012
步骤1_2:构建卷积神经网络:卷积神经网络包括两个输入层、隐层和三个输出层,两个输入层连接到隐层的输入端,隐层的输出端连接三个输出层;
步骤1_3:将训练集中每幅RGB图像及其对应的深度图像,分别作为两个输入层的原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每幅RGB图像对应的预测分割图像,将RGB图像{Li RGB(p,q)}对应的预测分割图像记为
Figure FDA0003502106000000013
其中,
Figure FDA0003502106000000014
表示
Figure FDA0003502106000000015
中坐标位置为(p,q)的像素点的像素值;
步骤1_4:计算训练集中的每幅RGB图像对应的预测分割图像
Figure FDA0003502106000000016
与对应的语义标签之间的损失函数值,预测分割图像
Figure FDA0003502106000000017
Figure FDA0003502106000000018
之间的损失函数值记为
Figure FDA0003502106000000019
Figure FDA00035021060000000110
采用交叉熵函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度可分卷积神经网络训练模型,并共得到I×V个损失函数值;然后从I×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为最优权值矢量和最优偏置项并替换训练好的深度可分卷积神经网络训练模型中的权值矢量和偏置项,对应记为最优权值矢量Wbest和最优偏置项bbest
步骤1_6:针对待预测的RGB图像{LRGB(p',q')}及其对应的深度图像{Ldepth(p',q')},将待预测的RGB图像{LRGB(p',q')}及其对应的深度图像{Ldepth(p',q')}输入到训练好的深度可分卷积神经网络训练模型中,并利用最优权值矢量Wbest和最优偏置项bbest进行预测,得到待预测的RGB图像{LRGB(p',q')}对应的预测分割图像{Lpredction(p',q')},从而实现语义预测分割;
所述的隐层包括8个卷积层、1个带孔卷积层、6个规范化层、6个激活层、1个ASPP网络块、2个自注意网络块、4个串联融合层、2个元素求和融合层、去除其中第5个最大池化层及其后面网络结构的VGG16网络和去除最后的平均池化层和全连接层后的ResNet34网络;深度图像
Figure FDA0003502106000000021
和RGB图像
Figure FDA0003502106000000022
分别作为两个输入层分别输入到VGG16网络和ResNet34网络,深度图像
Figure FDA0003502106000000023
输入到VGG16网络的第零VGG16特征提取块layerd0,RGB图像{Li RGB(p,q)}输入到ResNet34网络的卷积层,VGG16网络的第一VGG16特征提取块layerd1和ResNet34网络的第一ResNet34特征提取块layer1的输出共同输入到第1个串联融合层,从第1个串联融合层的输出依次经过第1个卷积层、第1个规范化层、第1个激活层和第2个第二ResNet34特征提取块layer2后连接输入到第2个串联融合层;VGG16网络的第二VGG16特征提取块layerd2和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出共同输入到第2个串联融合层,从第2个串联融合层的输出依次经过第2个卷积层、第2个规范化层、第2个激活层和第2个第三ResNet34特征提取块layer3后连接输入到第3个串联融合层;VGG16网络的第三VGG16特征提取块layerd3和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出共同输入到第3个串联融合层,从第3个串联融合层的输出依次经过第3个卷积层、第3个规范化层、第3个激活层和第2个第四ResNet34特征提取块layer4后连接输入到第4个串联融合层;VGG16网络的第四VGG16特征提取块layerd4和ResNet34网络的第1个第四ResNet34特征提取块layer4的输出共同输入到第4个串联融合层,从第4个串联融合层的输出依次经过第4个卷积层、第4个规范化层、第4个激活层、ASPP网络块和第1个双线性上采样层后连接输入到第1个元素求和融合层;VGG16网络的第三VGG16特征提取块layerd3的输出经第1个自注意网络块后和ResNet34网络的第1个第三ResNet34特征提取块layer3的输出一起共同输入到第1个元素求和融合层,从第1个元素求和融合层的输出依次经过第2个双线性上采样层、第5个卷积层、第5个规范化层、第5个激活层后连接输入到第2个元素求和融合层,同时第1个元素求和融合层的输出经第6个卷积层连接到第1个输出层;VGG16网络的第二VGG16特征提取块layerd2的输出经第2个自注意网络块后和ResNet34网络的第1个第二ResNet34特征提取块layer2的输出一起共同输入到第2个元素求和融合层,从第2个元素求和融合层的输出依次经过第3个双线性上采样层、第1个带孔卷积层、第6个规范化层、第6个激活层、第8个卷积层后连接输入到第3个输出层,同时第2个元素求和融合层的输出经第7个卷积层连接到第2个输出层。
2.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法,其特征在于:所述的ASPP网络块由3个卷积层、3个带孔卷积层、1个自适应平均池化层、1个双线性上采样层、1个融合层组成;自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接后和3个带孔卷积层并联,并联后的各个输出端连接到融合层,融合层输出连接到第3个卷积层;第4个激活层的输出作为ASPP网络块的输入分别输入到3个带孔卷积层和由自适应平均池化层、第1个卷积层、1个双线性上采样层依次连接构成的局部网络结构中,3个带孔卷积层和由自适应平均池化层、卷积层、双线性上采样层依次连接构成的局部网络结构的输出端均连接到融合层,融合层经第3个卷积层输出作为ASPP网络块的输出,输出到第1个双线性上采样层。
3.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法,其特征在于:所述的自注意网络块包含1个自适应平均池化层、1个Sigmoid层、1个逐元素求积融合层、1个卷积层、1个规范化层和1个激活层;之前网络结构的输出作为自注意网络块的输入,输入到自适应平均池化层和逐元素求积融合层,自适应平均池化层的输出经Sigmoid层后也输入到逐元素求积融合层,逐元素求积融合层输出依次经卷积层、规范化层、激活层后输出作为自注意网络块的输出。
4.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法,其特征在于:将两个或三个连续的卷积层加一个最大池化层的结构作为一个网络块,并作为VGG16网络中的一个VGG16特征提取块,并且VGG16网络中,使用一个卷积核大小为1×1、输入通道为1、输出通道为64的卷积层代替原始VGG16中的第一个卷积层,即替换掉第零VGG16特征提取块layerd0中的第一个卷积层。
5.根据权利要求1所述的一种非对称编码网络的物体图像3D语义预测分割方法,其特征在于:对于2个输入层,第1个输入层是RGB图像输入层,其输入端接收一幅原始RGB输入图像;第2个输入层是深度图像输入层,其输入端接收一幅原始RGB图像对应的深度图像,2个输入层的输出端分别输出原始RGB图像和其对应的深度图像给隐层。
CN201911012594.7A 2019-10-23 2019-10-23 一种非对称编码网络的物体图像3d语义预测分割方法 Active CN110782458B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911012594.7A CN110782458B (zh) 2019-10-23 2019-10-23 一种非对称编码网络的物体图像3d语义预测分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911012594.7A CN110782458B (zh) 2019-10-23 2019-10-23 一种非对称编码网络的物体图像3d语义预测分割方法

Publications (2)

Publication Number Publication Date
CN110782458A CN110782458A (zh) 2020-02-11
CN110782458B true CN110782458B (zh) 2022-05-31

Family

ID=69386684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911012594.7A Active CN110782458B (zh) 2019-10-23 2019-10-23 一种非对称编码网络的物体图像3d语义预测分割方法

Country Status (1)

Country Link
CN (1) CN110782458B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428602A (zh) * 2020-03-18 2020-07-17 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN112308000B (zh) * 2020-11-06 2023-03-07 安徽清新互联信息科技有限公司 一种基于时空信息的高空抛物检测方法
CN113033572B (zh) * 2021-04-23 2024-04-05 上海海事大学 一种基于usv的障碍物分割网络及其生成方法
CN114723951B (zh) * 2022-06-08 2022-11-04 成都信息工程大学 一种用于rgb-d图像分割的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508639A (zh) * 2018-10-12 2019-03-22 浙江科技学院 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN109635662A (zh) * 2018-11-14 2019-04-16 浙江科技学院 一种基于卷积神经网络的道路场景语义分割方法
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法
CN109829926A (zh) * 2019-01-30 2019-05-31 杭州鸿泉物联网技术股份有限公司 道路场景语义分割方法及装置
CN110059728A (zh) * 2019-03-26 2019-07-26 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110175986A (zh) * 2019-04-23 2019-08-27 浙江科技学院 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110263813A (zh) * 2019-05-27 2019-09-20 浙江科技学院 一种基于残差网络和深度信息融合的显著性检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107403430B (zh) * 2017-06-15 2020-08-07 中山大学 一种rgbd图像语义分割方法
CN108664974A (zh) * 2018-04-03 2018-10-16 华南理工大学 一种基于rgbd图像与全残差网络的语义分割方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508639A (zh) * 2018-10-12 2019-03-22 浙江科技学院 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN109635642A (zh) * 2018-11-01 2019-04-16 浙江科技学院 一种基于残差网络和扩张卷积的道路场景分割方法
CN109635662A (zh) * 2018-11-14 2019-04-16 浙江科技学院 一种基于卷积神经网络的道路场景语义分割方法
CN109829926A (zh) * 2019-01-30 2019-05-31 杭州鸿泉物联网技术股份有限公司 道路场景语义分割方法及装置
CN110059728A (zh) * 2019-03-26 2019-07-26 浙江科技学院 基于注意力模型的rgb-d图像视觉显著性检测方法
CN110175986A (zh) * 2019-04-23 2019-08-27 浙江科技学院 一种基于卷积神经网络的立体图像视觉显著性检测方法
CN110263813A (zh) * 2019-05-27 2019-09-20 浙江科技学院 一种基于残差网络和深度信息融合的显著性检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Three-Stream Attention-Aware Network for RGB-D Salient Object Detection;Hao Chen et al.;《IEEE TRANSACTIONS ON IMAGE PROCESSING》;20190630;第28卷(第6期);第2825-2835页 *

Also Published As

Publication number Publication date
CN110782458A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110782458B (zh) 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782462B (zh) 一种基于双流特征融合的语义分割方法
CN110728682B (zh) 一种基于残差金字塔池化神经网络的语义分割方法
CN110263813B (zh) 一种基于残差网络和深度信息融合的显著性检测方法
CN111462013B (zh) 一种基于结构化残差学习的单图去雨方法
CN109635662B (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111179167A (zh) 一种基于多阶段注意力增强网络的图像超分辨方法
CN110246148B (zh) 多模态的深度信息融合和注意力学习的显著性检测方法
CN110705566B (zh) 一种基于空间金字塔池的多模态融合显著性检测方法
CN111401436A (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN112070753A (zh) 多尺度信息增强双目卷积神经网络显著性图像检测方法
CN115345866B (zh) 一种遥感影像中建筑物提取方法、电子设备及存储介质
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
Zhao et al. JSNet++: Dynamic filters and pointwise correlation for 3D point cloud instance and semantic segmentation
Wang et al. TF-SOD: a novel transformer framework for salient object detection
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
CN111062275A (zh) 一种多层次监督的人群计数方法、装置、介质及电子设备
CN114821438A (zh) 一种基于多路径激励的视频人体行为识别方法及系统
CN113298814A (zh) 一种基于渐进指导融合互补网络的室内场景图像处理方法
CN115272670A (zh) 一种基于掩膜注意交互的sar图像舰船实例分割方法
CN115147317A (zh) 一种基于卷积神经网络的点云颜色质量增强方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant