CN111340814A - 一种基于多模态自适应卷积的rgb-d图像语义分割方法 - Google Patents

一种基于多模态自适应卷积的rgb-d图像语义分割方法 Download PDF

Info

Publication number
CN111340814A
CN111340814A CN202010139232.0A CN202010139232A CN111340814A CN 111340814 A CN111340814 A CN 111340814A CN 202010139232 A CN202010139232 A CN 202010139232A CN 111340814 A CN111340814 A CN 111340814A
Authority
CN
China
Prior art keywords
rgb
depth
features
convolution
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010139232.0A
Other languages
English (en)
Other versions
CN111340814B (zh
Inventor
段立娟
孙启超
乔元华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010139232.0A priority Critical patent/CN111340814B/zh
Publication of CN111340814A publication Critical patent/CN111340814A/zh
Application granted granted Critical
Publication of CN111340814B publication Critical patent/CN111340814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多模态自适应卷积的RGB‑D图像语义分割方法,包括:编码模块分别提取RGB图像特征和深度图像特征;将RGB特征和深度特征送入融合模块进行融合;其中,首先将多模态特征输入多模态自适应卷积生成模块,计算出两个不同尺度的多模态自适应卷积核;然后,多模态特征融合模块将RGB特征和深度特征分别与自适应卷积核进行深度可分离卷积运算,得到自适应卷积融合特征;将其与RGB特征和深度特征拼接起来得到最终融合特征;解码模块对最终融合特征连续上采样,经过卷积操作得到语义分割结果;本发明使得多模态特征通过自适应卷积协同交互,其卷积核参数根据输入的多模态图像动态调整,相比传统固定参数的卷积核更加灵活。

Description

一种基于多模态自适应卷积的RGB-D图像语义分割方法
技术领域
本发明涉及图像语义分割和深度学习领域,尤其涉及基于卷积神经网络的RGB-D图像语义分割方法。
背景技术
图像语义分割是人工智能和计算机视觉领域的基本任务之一,其目的是根据图像内容识别出图像中每一个像素点的语义类别。作为图像和视频理解的基础,语义分割被广泛应用于自动驾驶,机器人导航等智能领域。
随着深度学习在计算机视觉的广泛应用,深层卷积神经网络已经成为计算机视觉领域最有效的方法。2015年,全卷积神经网络开创性的利用深度学习进行端到端的图像特征提取和像素语义分类,相比传统的语义分割算法在性能和效率上都获得巨大提升。因此,现有的图像语义分割方法均在此算法的基础上进行改进。
然而,图像的语义分割仍然是一个具有挑战性的问题。由于现实场景的复杂性,例如光照的影响和物体间的遮挡,极易导致大量像素点被错误识别。因此,仅靠单一模态RGB图像所提供的外观颜色信息难以对图像进行精确分割。随着深度传感器的普及,人们可以更方便的获得场景的深度图像,它隐含着图像的空间几何信息,而这种空间几何信息很难在RGB特征中获取。因此,很多学者开始展开对RGB-D图像的研究,通过引入图像的深度信息来进一步提升图像语义分割任务的鲁棒性。如何有效地融合多模态RGB特征和深度特征,充分利用多模态特征的互补信息,是提升RGB-D图像语义分割效果的关键因素。
现有基于卷积神经网络的语义分割算法,其卷积核参数在训练之后是固定的,不能根据输入的多模态图像进行自适应调整,并且现有多模态融合方法未能有效挖掘多模态图像的上下文信息,导致RGB-D图像语义分割算法的准确率较低,因此,本发明通过引入多模态自适应卷积操作对多模态特征进行有效融合,更充分地利用多模态图像的上下文信息以提升语义分割精度。
发明内容
本发明的目的在于:为解决现有RGB-D图像语义分割方法准确率较低的问题,提出一种新的基于多模态自适应卷积的RGB-D图像语义分割方法和系统。
为了实现上述目的,本发明实施例采用的技术方案如下:
(1)编码模块分别提取RGB图像的RGB特征Frgb和深度图像的深度特征Fdepth,其中,所述的RGB图和深度图是相同场景的成对图像;
(2)将RGB特征Frgb和深度特征Fdepth送入融合模块进行多模态特征融合,得到融合特征Flast,具体包括:
首先将RGB特征和深度特征输入多模态自适应卷积生成模块生成两个不同尺度的多模态自适应卷积核;
然后,将RGB特征Frgb、深度特征Fdepth、以及两个多模态自适应卷积核输入多模态特征融合模块得到自适应卷积融合特征Ffusion
最后将RGB特征Frgb、深度特征Fdepth与Ffusion在通道维度进行拼接,得到最终融合特征Flast
(3)解码模块用于对自适应卷积融合特征进行上采样恢复图像分辨率,得到语义分割概率图:首先使用卷积对最终的融合特征Flast进行降维,然后使用转置卷积逐步上采样恢复尺寸,最后使用卷积和Softmax操作得到语义分割概率图;
(4)训练阶段使用反向传播训练此算法,得到最终的语义分割网络模型;
(5)测试阶段输入新的图像,在已训练好的模型中前向传播输出语义分割结果。
进一步地,所述编码分支优选改进的ResNet50分类网络,改进具体指,去除ResNet50分类网络最后的池化层和所有全连接层,其余各层使用在ImageNet上预训练的权重进行初始化。一个分支网络用来提取RGB图像的RGB特征,将RGB特征记为Frgb,另一个分支网络用来提取深度图像的深度特征,深度特征记为Fdepth,它们的大小为H×W×C,其中H和W为特征图的高和宽,C为特征的通道数。
进一步地,所述多模态自适应卷积生成模块用于生成两个不同尺度的多模态自适应卷积核,所生成的自适应卷积核富含多模态特征的多尺度上下文信息。具体来说,首先将编码模块提取的RGB特征和深度特征在通道维度进行拼接,得到拼接特征,大小为H×W×2C。然后使用两路分支分别计算两个尺度的多模态自适应卷积。其中,第一路分支具体包括:首先对拼接特征使用自适应平均池化将拼接特征池化到3×3×C尺寸,然后经过1×1卷积操作将它们通道个数压缩为原来的四分之一;第二路分支具体包括:首先对拼接特征使用自适应平均池化将拼接特征池化到5×5×C尺寸,然后经过1×1卷积操作将它们通道个数压缩为原来的四分之一;由此得到两个不同尺度的多模态自适应卷积核,其卷积核尺寸大小分别为3×3×1/4C和5×5×1/4C,用于接下来的多模态特征融合操作。
进一步的,所述多模态特征融合模块用于对多模态特征进行自适应融合,从而获取富含多模态上下文信息的融合特征。其输入为编码模块提取的RGB特征、深度特征,以及两个尺度的多模态自适应卷积核。具体来说,首先分别使用1×1卷积操作将两个原始的RGB特征和深度特征的通道个数压缩为原来的四分之一,尺寸大小均改变为H×W×1/4C。然后分别将RGB特征和深度特征与两个尺度的多模态自适应卷积核进行深度可分离卷积运算,共进行4次运算,分别得到4个自适应卷积特征。将4个自适应卷积特征在通道维度拼接,并使用1×1卷积整合其通道维度的信息,得到自适应卷积融合特征。
具体地,所述本文算法模型的训练过程为:
对训练数据集中的图像通过翻转、缩放和旋转的方式进行数据增强,并将输入图像和标签缩放到相同尺寸,作为本发明网络模型的输入;
使用带有动量的随机梯度下降算法进行误差反向传播,更新模型参数,得到训练好的语义分割模型。
有益效果:
(1)本发明采用编码-多模态特征融合-解码式的网络结构,通过逐步恢复多模态融合特征的分辨率得到更精细的语义分割结果。
(2)本发明提出的多模态自适应卷积操作,解决了现有深度学习算法训练后的卷积核参数固定,不能根据输入的图像进行自适应调整的问题,多模态特征通过自适应卷积协同交互,其卷积核参数根据输入的多模态图像动态调整。并且通过多尺度卷积,使得特征在卷积运算过程中有效利用多个尺度的多模态特征上下文信息,相比传统的多尺度卷积核更加灵活,可以自适应捕获输入的RGB图像和深度图像的内部变化,有效提升了最终的语义分割精度。
附图说明
图1为本发明的流程图;
图2为本发明的RGB-D语义分割网络模型整体框架图;
图3为本发明的多模态自适应卷积生成模块结构图;
图4为本发明的多模态特征融合模块结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施与和附图,对本发明作进一步详细说明。
如图1所示,本发明实施例所提供的一种基于多模态自适应卷积的RGB-D图像语义分割方法,图2为了本发明所提出的基于多模态自适应卷积的RGB-D图像语义分割模型具体结构,主要包括如下步骤:
1)将成对的RGB图像和深度图像送入编码模块,使用两个相同的编码分支分别提取图像的RGB特征和深度特征,具体如下:
使用编码模块提取RGB图像的RGB特征和深度图像的深度特征,所述编码模块为双分支网络,每个分支网络为改进后的ResNet50分类网络,改进具体指,去除ResNet50分类网络最后的池化层和所有全连接层,其余各层的权重使用在ImageNet上预训练的权重进行初始化。一个分支网络用来提取RGB图像的RGB特征,将RGB特征记为Frgb,另一个分支网络用来提取深度图像的深度特征,深度特征记为Fdepth,它们的大小为H×W×C,其中H和W为特征图的高和宽,C为特征的通道数。
以提取RGB图像的RGB特征Frgb为例,将RGB图像输入如表1所示的编码模块的结构。输入RGB图像尺寸为480×640×3,编码模块的第1层首先对输入的RGB图像使用7×7卷积操作,64个卷积核,第2层为残差模块,首先使用3×3最大池化操作,随后经过连续3次相同的1×1和3×3的卷积操作以及1×1批归一化操作,第3层为残差模块,经过连续4次相同1×1和3×3卷积操作以及1×1批归一化操作。第4层为残差模块,经过6次相同的1×1和3×3卷积操作以及1×1批归一化操作,第5层为残差模块,经过3次相同的1×1卷积和膨胀率为2的3×3空洞卷积操作以及1×1批归一化操作,这一层不改变上一层的特征的尺寸,最终得到的RGB特征,其高H和宽W均为原始图像的1/16。每个残差块最后都使用Relu函数激活操作。编码模块得到的最终RGB特征尺寸H×W为30×40,通道数C为2048。另一方面,深度图像经过编码模块提取深度特征Fdepth的具体过程同RGB图像。
表1
Figure BDA0002398466940000041
Figure BDA0002398466940000051
2)将编码模块提取的RGB特征和深度特征送入融合模块进行多模态特征融合,得到融合特征Flast,具体如下:
第一步:将RGB特征和深度特征输入多模态自适应卷积生成模块生成两个不同尺度的多模态自适应卷积核。
多模态自适应卷积生成模块的工作过程如图3所示,具体为:
首先,将编码模块提取的RGB特征Frgb和深度特征Fdepth送入多模态自适应卷积生成模块,在通道维度拼接RGB特征和深度特征,得到拼接特征Fconcat,其尺寸大小为H×W×2C:
Fconcat=Concat(Frgb,Fdepth) (1)
然后,分别使用两个不同的自适应平均池化操作得到两个不同尺寸池化特征P3×3和P5×5,尺寸分别为3×3×2C和5×5×2C:
P3×3=AvgPool(Fconcat) (2)
P5×5=AvgPool(Fconcat) (3)
最后,对上述两个池化特征分别使用1×1卷积操作,将通道个数减少为原来的四分之一,得到两个不同尺度的多模态自适应卷积核K3×3和K5×5
K3×3=Conv1(P3×3) (4)
K5×5=Conv1(P5×5) (5)
其中,K3×3和K5×5尺寸分为3×3×1/4C和5×5×1/4C,多模态自适应卷积核富含多模态特征的上下文信息,将用来进行接下来的多模态特征融合任务,将其和原始的RGB特征和深度特征进行卷积计算。
第二步,通过多模态特征融合模块得到自适应卷积融合特征Ffusion
如图4所示,多模态特征融合模块的步骤包括:
其输入为原始的RGB特征、深度特征,以及两个多模态自适应卷积核,首先分别使用1×1卷积操作,将RGB特征、深度特征的通道个数减少为原来的四分之一,得到降维后的RGB特征
Figure BDA0002398466940000061
和深度特征
Figure BDA0002398466940000062
Figure BDA0002398466940000063
Figure BDA0002398466940000064
然后,分别将RGB特征与两个尺度的多模态自适应卷积核K3×3和K5×5进行深度分离卷积运算,同样,分别将深度特征与两个尺度的多模态自适应卷积核K3×3和K5×5进行深度分离卷积运算,即特征图的每个通道与卷积核的每个通道分别进行卷积,设RGB特征图第i个通道为
Figure BDA0002398466940000065
深度特征的第i个通道为
Figure BDA0002398466940000066
两个不同尺度的多模态自适应卷积核的第i个通道表示为
Figure BDA0002398466940000067
Figure BDA0002398466940000068
则计算过程用公式表示如下:
Figure BDA0002398466940000069
Figure BDA00023984669400000610
Figure BDA00023984669400000611
Figure BDA00023984669400000612
需要注意的是,此过程在卷积之前首先对特征图外侧进行尺度为1的自适应全0填充,不减少特征图的尺寸和通道个数。最终得到4个多模态特征
Figure BDA00023984669400000613
Figure BDA00023984669400000614
最后,将得到的4个多模态特征在通道维度拼接起来,并使用1×1卷积操作整合它们在通道维度的信息,得到自适应卷积融合特征Ffusion
Figure BDA00023984669400000615
第三步,将原始RGB特征、深度特征与Ffusion在通道维度进行拼接,得到最终融合特征Flast
Flast=Concat(Frgb,Fdepth,Ffusion) (13)
3)将Flast送入解码模块,进行连续的上采样逐步恢复图像尺寸,输出语义分割概率图。
解码模块过程包括:
将最终融合特征Flast送入输入如表2所示的解码模块的结构。解码模块的第1层首先对最终的融合特征Flast使用1×1卷积进行通道整合和降维,将特征通道个数减少为2048。第2层首先经过连续2次的3×3的卷积操作,然后使用3×3转置卷积进行上采样,将图像尺寸增大为上一层的的2倍,通道数减少为原来的四分之一。第3层、第4层与第2层操作相同,但特征的通道数减少为上一层的二分之一。需要注意,在第3层时需要使用额外的1×1卷积输出37个通道的特征图,并使用Softmax函数输出中间层的语义分割概率图,用于计算网络的中间层辅助损失。第5层首先经过连续2次的3×3的卷积操作,然后使用3×3转置卷积进行上采样,将图像尺寸继续增大为上一层的2倍,通道数减少为原来的二分之一,最后使用1×1卷积输出37个通道的特征图,并使用Softmax函数输出语义分割概率图,得到最终的语义分割结果。需要注意,每个卷积层后都带有批标准化和ReLU激活操作。
表2
Figure BDA0002398466940000071
4)模型训练
训练模块和测试模块在所述使用编码模块提取RGB特征和深度特征之前,需要对RGB-D语义分割数据集中的数据进行预处理,包括:
本发明以SUN-RGBD数据集作为训练集,SUN-RGBD数据集是目前最大的RGB-D室内场景语义分割数据集,RGB-D图像中的每个像素属于37个语义类别其中的一类,均为室内场景中常见的物体类别,如桌子、椅子、墙壁和地面等。在本实施例的方法中,使用5285张图片作为训练集,5050张图片作为测试集。
对训练数据集中的RGB图像、深度图像通过随机裁剪、缩放和翻转的方式进行扩增;
将数据集中的RGB图像、深度图像归一化为480×640尺寸作为本实施例的输入;
使用反向传播训练所述语义分割模型,得到训练好的语义分割模型,其中,
首先将标签的尺寸分别缩放为480×640和120×160。损失函数为两部分之和:第一部分是解码模块第3层输出的中间层语义分割概率图与尺寸为120×160标签之间的像素级交叉熵损失,第二部分是解码模块第5层输出的语义分割概率图与尺寸为480×640标签之间的像素级交叉熵损失。训练过程使用带有动量的随机梯度下降算法进行误差反向传播,更新模型参数,得到训练好的语义分割模型。
在本实施例的方法中,初始学习率为0.004,并且每50次迭代将学习率乘以0.8,动量为0.09,权重衰减系数为0.0004。
在测试阶段或者实际使用算法时,只需要输入新的RGB图像和深度图像,即可在已训练好的模型中前向传播输出最终的语义分割结果。
为了评估本发明算法模型的语义分割性能,本发明使用SUN-RGBD语义分割测试数据集进行测试,如表3所示,测试结果平均像素准确率(mean accuracy)为60.8%,平均交并比(mean IoU)为49.3%。相比之前的RGB-D语义分割方法,本发明有效提升最终的语义分割精度。
表3
序号 方法 平均像素准确率 平均交并比
1 LSTM-F 48.1 -
2 FuseNet-SF5 48.3 37.3
3 LSD-GF 58.0 -
4 RDFNet 60.1 47.7
5 RedNet 60.3 47.8
6 本发明的方法 60.8 49.3

Claims (5)

1.一种基于多模态自适应卷积的RGB-D图像语义分割方法,其特征在于,包括:
(1)编码模块分别提取RGB图像的RGB特征Frgb和深度图像的深度特征Fdepth,其中,所述的RGB图和深度图是相同场景的成对图像;
(2)将RGB特征Frgb和深度特征Fdepth送入融合模块进行多模态特征融合,得到融合特征Flast,具体包括:
首先将RGB特征和深度特征输入多模态自适应卷积生成模块生成两个不同尺度的多模态自适应卷积核;
然后,将RGB特征Frgb、深度特征Fdepth、以及两个多模态自适应卷积核输入多模态特征融合模块得到自适应卷积融合特征Ffusion
最后将RGB特征Frgb、深度特征Fdepth与Ffusion在通道维度进行拼接,得到最终融合特征Flast
(3)解码模块用于对自适应卷积融合特征进行上采样恢复图像分辨率,得到语义分割概率图:首先使用卷积对最终的融合特征Flast进行降维,然后使用转置卷积逐步上采样恢复尺寸,最后使用卷积和Softmax操作得到语义分割概率图;
(4)训练阶段使用反向传播训练此算法,得到最终的语义分割网络模型;
(5)测试阶段输入新的图像,在已训练好的模型中前向传播输出语义分割结果。
2.根据权利要求1所述的一种基于多模态自适应卷积的RGB-D图像语义分割方法,其特征在于,所述的编码模块由两个结构相同的编码分支构成,一个编码分支提取RGB图的RGB特征,另一个编码分支提取深度图的深度特征;
3.根据权利要求2所述的一种基于多模态自适应卷积的RGB-D图像语义分割方法,其特征在于,所述的编码分支优选改进的ResNet50分类网络,改进具体指,去除ResNet50分类网络最后的池化层和所有全连接层。
4.如权利要求1所述的一种基于多模态自适应卷积的RGB-D图像的语义分割方法,其特征在于,所述的多模态自适应卷积生成模块包括:
首先将编码模块提取的大小为H×W×C的RGB特征Frgb,以及大小为H×W×C的深度特征Fdepth在通道维度进行拼接,得到大小为H×W×2C的拼接特征Fconcat
然后分别使用两个不同尺度的自适应平均池化操作对拼接特征进行池化,得到两个不同尺度的池化特征;
使用1×1卷积操作分别对两个尺度的池化特征进行卷积,将其在通道维度降维,得到两个不同尺度的多模态自适应卷积核。
5.如权利要求1所述的一种基于多模态自适应卷积的RGB-D图像的语义分割方法,其特征在于,
所述的多模态特征融合模块具体如下:
输入为RGB特征Frgb、深度特征Fdepth,和两个尺度的多模态自适应卷积核;
首先分别使用1×1卷积操作将原始的RGB特征Frgb和深度特征Fdepth的通道个数减少为原来的四分之一,得到降维后的RGB特征
Figure FDA0002398466930000021
和深度特征
Figure FDA0002398466930000022
然后,将降维后的RGB特征
Figure FDA0002398466930000023
分别与两个尺度的自适应卷积核进行深度分离卷积运算,将降维后的深度特征
Figure FDA0002398466930000024
分别与两个尺度的自适应卷积核进行深度分离卷积运算,共得到4个自适应卷积特征;
最后,将4个自适应卷积特征在通道维度拼接,并使用1×1卷积整合通道维度的信息,得到自适应卷积融合特征Ffusion
CN202010139232.0A 2020-03-03 2020-03-03 一种基于多模态自适应卷积的rgb-d图像语义分割方法 Active CN111340814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010139232.0A CN111340814B (zh) 2020-03-03 2020-03-03 一种基于多模态自适应卷积的rgb-d图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010139232.0A CN111340814B (zh) 2020-03-03 2020-03-03 一种基于多模态自适应卷积的rgb-d图像语义分割方法

Publications (2)

Publication Number Publication Date
CN111340814A true CN111340814A (zh) 2020-06-26
CN111340814B CN111340814B (zh) 2024-04-09

Family

ID=71184069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010139232.0A Active CN111340814B (zh) 2020-03-03 2020-03-03 一种基于多模态自适应卷积的rgb-d图像语义分割方法

Country Status (1)

Country Link
CN (1) CN111340814B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101410A (zh) * 2020-08-05 2020-12-18 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及系统
CN112258564A (zh) * 2020-10-20 2021-01-22 推想医疗科技股份有限公司 生成融合特征集合的方法及装置
CN113076849A (zh) * 2021-03-29 2021-07-06 宁波方太厨具有限公司 基于动作识别的油烟机控制方法、系统、设备及存储介质
CN113223002A (zh) * 2021-05-07 2021-08-06 西安智诊智能科技有限公司 一种血管图像分割方法
CN113384261A (zh) * 2021-05-28 2021-09-14 华南理工大学 一种基于深度学习的椎体压缩性骨折多模态智能诊断系统
CN113435354A (zh) * 2021-06-30 2021-09-24 深圳市商汤科技有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN113592009A (zh) * 2021-08-05 2021-11-02 杭州逗酷软件科技有限公司 图像语义分割方法、装置、存储介质与电子设备
CN113673531A (zh) * 2021-08-23 2021-11-19 山东大学 基于形状感知卷积的rgb-d图像语义分割方法及系统
CN113850856A (zh) * 2021-08-31 2021-12-28 北京工业大学 一种rgb-d信息互补的语义分割方法
CN113850262A (zh) * 2021-08-23 2021-12-28 北京大学 基于可延展2.5d卷积和双路门融合的rgb-d图像语义分割方法
CN114170174A (zh) * 2021-12-02 2022-03-11 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN114240945A (zh) * 2022-02-28 2022-03-25 科大天工智能装备技术(天津)有限公司 一种基于目标分割的桥梁钢索断裂检测方法及系统
CN114266964A (zh) * 2021-12-10 2022-04-01 国网江苏省电力有限公司盐城供电分公司 一种深度图像引导的电缆管道缺陷检测与定位方法
CN114399519A (zh) * 2021-11-30 2022-04-26 西安交通大学 一种基于多模态融合的mr图像3d语义分割方法及系统
CN114419323A (zh) * 2022-03-31 2022-04-29 华东交通大学 基于跨模态学习与领域自适应rgbd图像语义分割方法
CN114723951A (zh) * 2022-06-08 2022-07-08 成都信息工程大学 一种用于rgb-d图像分割的方法
US12062186B2 (en) * 2020-10-07 2024-08-13 Sri International RGBD video semantic segmentation with temporal and geometric consistency

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970488B1 (ko) * 2017-12-28 2019-04-19 포항공과대학교 산학협력단 실내 의미론적 분할을 위한 컬러-깊이 영상의 단계적 레지듀얼 특성 결합 네트워크 장치
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN110796105A (zh) * 2019-11-04 2020-02-14 中国矿业大学 一种基于多模态数据融合的遥感图像语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970488B1 (ko) * 2017-12-28 2019-04-19 포항공과대학교 산학협력단 실내 의미론적 분할을 위한 컬러-깊이 영상의 단계적 레지듀얼 특성 결합 네트워크 장치
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN110796105A (zh) * 2019-11-04 2020-02-14 中国矿业大学 一种基于多模态数据融合的遥感图像语义分割方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101410A (zh) * 2020-08-05 2020-12-18 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及系统
US12062186B2 (en) * 2020-10-07 2024-08-13 Sri International RGBD video semantic segmentation with temporal and geometric consistency
CN112258564B (zh) * 2020-10-20 2022-02-08 推想医疗科技股份有限公司 生成融合特征集合的方法及装置
CN112258564A (zh) * 2020-10-20 2021-01-22 推想医疗科技股份有限公司 生成融合特征集合的方法及装置
CN113076849A (zh) * 2021-03-29 2021-07-06 宁波方太厨具有限公司 基于动作识别的油烟机控制方法、系统、设备及存储介质
CN113223002A (zh) * 2021-05-07 2021-08-06 西安智诊智能科技有限公司 一种血管图像分割方法
CN113384261A (zh) * 2021-05-28 2021-09-14 华南理工大学 一种基于深度学习的椎体压缩性骨折多模态智能诊断系统
CN113435354A (zh) * 2021-06-30 2021-09-24 深圳市商汤科技有限公司 图像处理方法、装置、电子设备及计算机可读存储介质
CN113592009A (zh) * 2021-08-05 2021-11-02 杭州逗酷软件科技有限公司 图像语义分割方法、装置、存储介质与电子设备
CN113673531A (zh) * 2021-08-23 2021-11-19 山东大学 基于形状感知卷积的rgb-d图像语义分割方法及系统
CN113850262A (zh) * 2021-08-23 2021-12-28 北京大学 基于可延展2.5d卷积和双路门融合的rgb-d图像语义分割方法
CN113673531B (zh) * 2021-08-23 2023-09-22 山东大学 基于形状感知卷积的rgb-d图像语义分割方法及系统
CN113850856A (zh) * 2021-08-31 2021-12-28 北京工业大学 一种rgb-d信息互补的语义分割方法
CN113850856B (zh) * 2021-08-31 2024-07-12 北京工业大学 一种rgb-d信息互补的语义分割方法
CN114399519B (zh) * 2021-11-30 2023-08-22 西安交通大学 一种基于多模态融合的mr图像3d语义分割方法及系统
CN114399519A (zh) * 2021-11-30 2022-04-26 西安交通大学 一种基于多模态融合的mr图像3d语义分割方法及系统
CN114170174A (zh) * 2021-12-02 2022-03-11 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN114170174B (zh) * 2021-12-02 2024-01-23 沈阳工业大学 基于RGB-D图像的CLANet钢轨表面缺陷检测系统及方法
CN114266964A (zh) * 2021-12-10 2022-04-01 国网江苏省电力有限公司盐城供电分公司 一种深度图像引导的电缆管道缺陷检测与定位方法
CN114266964B (zh) * 2021-12-10 2024-07-19 国网江苏省电力有限公司盐城供电分公司 一种深度图像引导的电缆管道缺陷检测与定位方法
CN114240945A (zh) * 2022-02-28 2022-03-25 科大天工智能装备技术(天津)有限公司 一种基于目标分割的桥梁钢索断裂检测方法及系统
CN114240945B (zh) * 2022-02-28 2022-05-10 科大天工智能装备技术(天津)有限公司 一种基于目标分割的桥梁钢索断裂检测方法及系统
CN114419323B (zh) * 2022-03-31 2022-06-24 华东交通大学 基于跨模态学习与领域自适应rgbd图像语义分割方法
CN114419323A (zh) * 2022-03-31 2022-04-29 华东交通大学 基于跨模态学习与领域自适应rgbd图像语义分割方法
CN114723951B (zh) * 2022-06-08 2022-11-04 成都信息工程大学 一种用于rgb-d图像分割的方法
CN114723951A (zh) * 2022-06-08 2022-07-08 成都信息工程大学 一种用于rgb-d图像分割的方法

Also Published As

Publication number Publication date
CN111340814B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN111325751B (zh) 基于注意力卷积神经网络的ct图像分割系统
CN112541503B (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
CN109543502B (zh) 一种基于深度多尺度神经网络的语义分割方法
CN106529447B (zh) 一种小样本人脸识别方法
CN109035251B (zh) 一种基于多尺度特征解码的图像轮廓检测方法
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN110458085B (zh) 基于注意力增强三维时空表征学习的视频行为识别方法
CN111523546A (zh) 图像语义分割方法、系统及计算机存储介质
CN111191583A (zh) 基于卷积神经网络的空间目标识别系统及方法
CN109598732B (zh) 一种基于三维空间加权的医学图像分割方法
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN114821050B (zh) 一种基于transformer的指称图像分割方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN107423747A (zh) 一种基于深度卷积网络的显著性目标检测方法
CN112164077B (zh) 基于自下而上路径增强的细胞实例分割方法
CN113870286B (zh) 一种基于多级特征和掩码融合的前景分割方法
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN112183240A (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN113052775B (zh) 一种图像去阴影方法及装置
CN114742985A (zh) 一种高光谱特征提取方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant