CN114723951A - 一种用于rgb-d图像分割的方法 - Google Patents

一种用于rgb-d图像分割的方法 Download PDF

Info

Publication number
CN114723951A
CN114723951A CN202210637616.4A CN202210637616A CN114723951A CN 114723951 A CN114723951 A CN 114723951A CN 202210637616 A CN202210637616 A CN 202210637616A CN 114723951 A CN114723951 A CN 114723951A
Authority
CN
China
Prior art keywords
feature extraction
module
downsampling
matrix
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210637616.4A
Other languages
English (en)
Other versions
CN114723951B (zh
Inventor
许源平
杨雅丽
许志杰
张朝龙
李婵玉
曹衍龙
盖秋艳
谢攀
李涂鲲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202210637616.4A priority Critical patent/CN114723951B/zh
Publication of CN114723951A publication Critical patent/CN114723951A/zh
Application granted granted Critical
Publication of CN114723951B publication Critical patent/CN114723951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于RGB‑D图像分割的方法,本方法基于RGB‑D彩色深度图像进行语义级别分割,提取深度图像中的前景像素信息并以一个权重矩阵作为输出,用来加权辅助RGB图像中的特征信息提取,使得两个模态下的重要特征信息相互补充响应,充分弥补在采样过程中的特征信息损失,无论是在语义上的特征表现还是空间上的精细度都得到了提升,特别是对物体边缘信息具备更强的灵敏性。

Description

一种用于RGB-D图像分割的方法
技术领域
本发明涉及图像分割领域,具体涉及一种用于RGB-D图像分割的方法。
背景技术
虽然卷积神经网络(CNN)在过去十年中已经成为RGB图像处理的主流技术,并取得了巨大的成功,但是由于其局部特性,CNN很难获得全局和远程的语义信息。在传统的语义分割任务中,RGB图像虽然包含丰富的纹理和颜色信息,但缺乏空间深度信息,很难单独从RGB图像中做到精准的像素级分类,进而精细分割出物体边缘,这在面对镜面反射、反光玻璃、强光下的物体等场景时尤其如此。
发明内容
针对现有技术中的上述不足,本发明提供的一种用于RGB-D图像分割的方法解决了现有图像分割方法在部分场景下难以精细分割物体边缘的问题。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种用于RGB-D图像分割的方法,其包括以下步骤:
S1、获取目标图像的RGB图像和深度图像;分别构建RGB图像特征提取与下采样网络、深度图像特征提取与下采样网络;
其中RGB图像特征提取与下采样网络包括依次连接的第一图像切分模块、第一特征提取与下采样模块、第二特征提取与下采样模块、第三特征提取与下采样模块和第四特征提取与下采样模块;
深度图像特征提取与下采样网络包括依次连接的卷积层、第二图像切分模块、第五特征提取与下采样模块、第六特征提取与下采样模块、第七特征提取与下采样模块和第八特征提取与下采样模块;
S2、将第五特征提取与下采样模块的输出通过第一softmax层后的结果与第一特征提取与下采样模块的输出相乘,得到第一矩阵;
S3、将第六特征提取与下采样模块的输出通过第二softmax层后的结果与第二特征提取与下采样模块的输出相乘,得到第二矩阵;
S4、将第七特征提取与下采样模块的输出通过第三softmax层后的结果与第三特征提取与下采样模块的输出相乘,得到第三矩阵;
S5、将第八特征提取与下采样模块的输出通过第四softmax层后的结果与第四特征提取与下采样模块的输出相乘,得到第四矩阵;
S6、将第四特征提取与下采样模块的输出通过瓶颈层后的结果与第四矩阵相加,得到第五矩阵;
S7、通过第一上采样模块对第五矩阵进行上采样处理,将处理结果与第三矩阵相加,得到第六矩阵;
S8、通过第二上采样模块对第六矩阵进行上采样处理,将处理结果与第二矩阵相加,得到第七矩阵;
S9、通过第三上采样模块对第七矩阵进行上采样处理,将处理结果与第一矩阵相加,得到第八矩阵;
S10、通过第四上采样模块对第八矩阵进行上采样处理,将处理结果进行重构,得到图像分割结果。
进一步地,第一图像切分模块和第二图像切分模块均采用Patch Partition层。
进一步地,第一特征提取与下采样模块和第五特征提取与下采样模块结构相同,均包括依次连接的Linear Embedding层和Swin Transformer Block层。
进一步地,第二特征提取与下采样模块、第三特征提取与下采样模块、第四特征提取与下采样模块、第六特征提取与下采样模块、第七特征提取与下采样模块和第八特征提取与下采样模块的结构相同,均包括依次连接的Patch Merging Block层和SwinTransformer层。
进一步地,每个上采样模块均包括依次连接的多层感知机和上采样层。
本发明的有益效果为:
1、本方法基于RGB-D彩色深度图像进行语义级别分割,提取深度图像中的前景像素信息并以一个权重矩阵作为输出,用来加权辅助RGB图像中的特征信息提取,使得两个模态下的重要特征信息相互补充响应,充分弥补在采样过程中的特征信息损失,无论是在语义上的特征表现还是空间上的精细度都得到了提升,特别是对物体边缘信息具备更强的灵敏性。
2、本方法在固定大小的窗口中进行多头自注意力机制操作,同时串联着带有偏移窗口配置的多头自注意力机制模块,巧妙地解决了前者窗口间的像素相互交流和影响问题;随着下采样操作的进行,感受野逐渐扩大,获得了丰富的上下文信息。
3、本方法隔行隔列选取像素拼成一个新的特征图,通过重复操作依次堆叠成多个通道,该方法最大限度地减少了采样过程中造成的特征损失。每个阶段特征图减小2倍,通道数扩增2倍。而在上采样的过程中,Patch Extending层采用的是下采样的逆操作,采样损失的减少,对于小目标和物体边缘的预测与分割具有良好的效果。
附图说明
图1为本方法的流程示意图;
图2为本方法涉及的网络结构框图;
图3为本方法的层级结构示意图;
图4为本方法Swin Transformer层的结构示意图;
图5为多层感知机(MLP)的结构示意图;
图6为上采样层(Patch Extending)中的上采样方法示意图;
图7为本实施例中的效果对比图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,该用于RGB-D图像分割的方法包括以下步骤:
S1、获取目标图像的RGB图像和深度图像;分别构建RGB图像特征提取与下采样网络、深度图像特征提取与下采样网络;
其中RGB图像特征提取与下采样网络包括依次连接的第一图像切分模块、第一特征提取与下采样模块、第二特征提取与下采样模块、第三特征提取与下采样模块和第四特征提取与下采样模块;
深度图像特征提取与下采样网络包括依次连接的卷积层、第二图像切分模块、第五特征提取与下采样模块、第六特征提取与下采样模块、第七特征提取与下采样模块和第八特征提取与下采样模块;
S2、将第五特征提取与下采样模块的输出通过第一softmax层后的结果与第一特征提取与下采样模块的输出相乘,得到第一矩阵;
S3、将第六特征提取与下采样模块的输出通过第二softmax层后的结果与第二特征提取与下采样模块的输出相乘,得到第二矩阵;
S4、将第七特征提取与下采样模块的输出通过第三softmax层后的结果与第三特征提取与下采样模块的输出相乘,得到第三矩阵;
S5、将第八特征提取与下采样模块的输出通过第四softmax层后的结果与第四特征提取与下采样模块的输出相乘,得到第四矩阵;
S6、将第四特征提取与下采样模块的输出通过瓶颈层后的结果与第四矩阵相加,得到第五矩阵;
S7、通过第一上采样模块对第五矩阵进行上采样处理,将处理结果与第三矩阵相加,得到第六矩阵;
S8、通过第二上采样模块对第六矩阵进行上采样处理,将处理结果与第二矩阵相加,得到第七矩阵;
S9、通过第三上采样模块对第七矩阵进行上采样处理,将处理结果与第一矩阵相加,得到第八矩阵;
S10、通过第四上采样模块对第八矩阵进行上采样处理,将处理结果进行重构,得到图像分割结果。
第一图像切分模块和第二图像切分模块均采用Patch Partition层。
第一特征提取与下采样模块和第五特征提取与下采样模块结构相同,均包括依次连接的Linear Embedding层和Swin Transformer Block层。
第二特征提取与下采样模块、第三特征提取与下采样模块、第四特征提取与下采样模块、第六特征提取与下采样模块、第七特征提取与下采样模块和第八特征提取与下采样模块的结构相同,均包括依次连接的Patch Merging层和Swin Transformer Block层。每个上采样模块均包括依次连接的多层感知机和上采样层。
在具体实施过程中,本方法所采用的网络结构如图2所示(图2中H和W为输入图像的尺寸参数,n为输出通道数,output表示输出;stage表示阶段,具体来说表示图中对应的各个模块),Patch Partition层将输入图片切分成等样大小的图块,然后经过LinearEmbedding层进行系列线性变换。Patch Merging层表示下采样层,下采样且经过系列的通道调整,以2倍减少分辨率,2倍增加通道数。MLP Block为多层感知机。Patch Extending层为上采样层,以2倍还原像素,2倍减少通道数。整个网络的主干方法采用了SwinTransformer Block来进行分割任务的上游处理,通过对其的结合具备了既能充分获取丰富的全局信息又能关注细微的局部信息的优点,因此提取出的特征包含更精确的纹理信息。用RGB图像作为主干网络输入的同时,使用深度图像作为分支网络的输入,目的是为主干网络的特征提取起到辅助提升的效果。在主干网络中,首先将输入的每张图片(
Figure 384264DEST_PATH_IMAGE001
)切分多个成4×4像素大小的图像块,再经过一层线性变换成
Figure 180182DEST_PATH_IMAGE002
,往后的每个阶段,
Figure DEST_PATH_IMAGE003
减半,通道数C则增加一倍,逐渐降低分辨率,扩大感受野,但是自注意力机制中的窗口始终保持在7×7大小。
在输入分支网络的第一步,经过一个1×1×3的卷积层,目的是将单通道的深度图像变成3通道的图像,方便后续和RGB图像保持一致的处理。同样,分支网络也采用SwinTransformer Block进行特征提取,不同的是最后经过一个SoftMax层将其提取出的深度特征转换成一个权重矩阵,以此来对主干网络中的特征图像进行加权。最后在上采样的过程中,将其加入到上采样过后的同尺寸大小的特征图中。
图3展示了本方法的层级结构:从原图的逐渐下采样,缩小像素再到右侧完全对称的上采样过程,整个方法呈现出对称的层级结构特性。
图4中W-MSA和SW-MSA分别表示基于常规窗口和偏移窗口配置的多头自注意力机制。基于偏移窗口配置的注意力机制方法在前一层中的相邻非重叠窗口之间引入了连接,增进了窗口间像素的交流和影响,对于密集预测任务来说具有良好的效果。不同于经典的Vision Transformer,对整张图片进行多头自注意力机制操作,本方法的SwinTransformer Block将这项工作限制在一个非重叠且大小固定的窗口之中,充分考虑当前像素点的邻域因素的影响,屏蔽了较远的像素点的影响,同时,这也节省了计算开销。然而,注意力机制并没有牢牢地固定限制在每个固定的窗口之中,Swin通过引入偏移窗口的翻转机制,让每个窗口之中的像素都能够得以交流和影响。在位置编码中,更是在绝对编码的基础上,引入了每个窗口的相对位置偏移量,对每个窗口位置进行相对位置编码。利用的算法公式如公式(1),(2),(3)。
Figure 933374DEST_PATH_IMAGE004
Figure 204955DEST_PATH_IMAGE005
Figure 967375DEST_PATH_IMAGE006
Figure 883378DEST_PATH_IMAGE007
Figure 807472DEST_PATH_IMAGE008
其中Attention表示自注意力函数,
Figure 566350DEST_PATH_IMAGE009
分别代表 query、key和value矩阵,R表示实数域,SoftMax表示SoftMax函数,
Figure 866881DEST_PATH_IMAGE010
代表窗口的数量,d代表Q和K的维度,QKT表示QK乘积结果的转置,d head 表示特征图的通道维度,B代表偏移矩阵,
Figure 902970DEST_PATH_IMAGE011
,SW表示偏移窗口,MLP表示多层感知机,MSA表示多头自注意力机制,LN为layer normalization,即层归一化(层标准化),
Figure 997965DEST_PATH_IMAGE012
Figure 244139DEST_PATH_IMAGE013
为中间参数,
Figure 348361DEST_PATH_IMAGE014
表示上一层swin transformer blocks的特征输出,
Figure 973377DEST_PATH_IMAGE015
经过常规配置的多头自注意力机制和多层感知机的特征输出,
Figure 504853DEST_PATH_IMAGE016
表示
Figure 972743DEST_PATH_IMAGE015
经过具有偏移配置的多头自注意力机制和多层感知机的特征输出。其中W-MSA代表具有常规配置的多头自注意力机制,SW-MSA代表具有偏移窗口配置的多头自注意力机制。在本发明的一个实施例中,以一张
Figure 880656DEST_PATH_IMAGE001
的彩色图像
Figure 625758DEST_PATH_IMAGE017
为例,模型参数设置为C=96,window=7,layer numbers=[2,2,6,2],其中C表示模型中第一个stage (见图2)中隐藏层的通道数,window表示Swin TransformerBlock模块中的窗口划分大小,layer numbers表示每个stage重复堆叠的次数。具体实施方式为:输入图像经过块切分层(Patch Partition)将图像首先分割成多个4×4的小块,同时通道数转变为48,其中块切分层的具体实施方式为一个channel为48,kernel为4×4,stride为4的卷积操作;经过块切分层后得出的特征矩阵经过一个块嵌入层(PatchEmbedding)将通道数转变为C,其中块嵌入层的具体实施方式为一个channel为C,kernel为1×1,stride为1的卷积操作,最终输出的特征矩阵维度为
Figure 328135DEST_PATH_IMAGE002
;随后特征矩阵传入到Swin Transformer Block模块中,经过窗口划分之后按顺序依次通过线性层、普通窗口自注意力层、线性层、多层感知机、线性层、偏移窗口自注意力层、线性层、多层感知机,根据layer numbers中该层的堆叠次数循环执行,其中计算过程如公式(1)(2)(3)所示,此时的输出尺寸为
Figure 283322DEST_PATH_IMAGE002
;之后的stage中,上个stage的输出将首先通过块融合层(Patch Merging)进行下采样,具体实施方式为隔行采样,并同时将剩余的像素堆叠到通道中,最终得到的结果为
Figure 994926DEST_PATH_IMAGE018
的特征矩阵,此特征矩阵再次通过Swin TransformerBlock模块,按照设定好的layer numbers堆叠循环次数。以上流程为RGB图像与深度图像在本发明中的编码过程,经过编码器得到的最终输出为
Figure 594534DEST_PATH_IMAGE019
的特征矩阵,在解码器中,本发明将融合RGB图像与深度图像中各层的特征信息,得到最终的分割结果,其具体实施方式为:
Figure 467812DEST_PATH_IMAGE019
的特征矩阵通过瓶颈层(bottleneck),得到的输出将通过一个多层感知机进行信息收集,并同时融合RGB图像与深度图像对应层数中的特征信息,此时得到的输出结果尺寸仍然为
Figure 785661DEST_PATH_IMAGE019
;之后的stage中,上个stage的输出将首先通过上采样层(Patch Extending)进行上采样,然后通过一个多层感知机对相应层中RGB图像和深度图像的特征信息进行收集、融合,重复此循环最终将得到原始图像尺寸大小的语义分割结果。
图5为MLP(Multi-Layer Perceptron)结构示意图。MLP由两个交替的全连接层(FC)组成,中间由GELU层连接,将数据向前传递,并更新网络参数。
图6为Patch Extending的原理示意图。原理上它是Patch Merging Block的逆运算。它将每个通道上的像素再重新隔行隔列拼回成原来的一张特征图,最大程度还原了下采样之前的上下文像素特征,大大降低了特征信息的损失。随后通过一个MLP,目的是为了使数据向前传播。
图7为本实施例中的效果对比图(添加了仅使用RGB图像作为输入的SwinTransformer Block的可视化效果作为对比)。为了定性分析,本实施例可视化了NYU DepthV2数据集中一些 RGB-D 图像的分割结果。第一列和第二列显示原始 RGB 图像及其对应的深度图像,第三列表示Swin Transformer Block在该数据集上仅用RGB图像作为输入的结果表现,第四列表示本方法的分割结果,第五列表示原始RGB-D图像的标签。将分割结果与标签进行比较,所提出的算法对边缘和精细细节具有较高的敏感性,即使在更复杂的场景中也能获得令人满意的分割结果。

Claims (5)

1.一种用于RGB-D图像分割的方法,其特征在于,包括以下步骤:
S1、获取目标图像的RGB图像和深度图像;分别构建RGB图像特征提取与下采样网络、深度图像特征提取与下采样网络;
其中RGB图像特征提取与下采样网络包括依次连接的第一图像切分模块、第一特征提取与下采样模块、第二特征提取与下采样模块、第三特征提取与下采样模块和第四特征提取与下采样模块;
深度图像特征提取与下采样网络包括依次连接的卷积层、第二图像切分模块、第五特征提取与下采样模块、第六特征提取与下采样模块、第七特征提取与下采样模块和第八特征提取与下采样模块;
S2、将第五特征提取与下采样模块的输出通过第一softmax层后的结果与第一特征提取与下采样模块的输出相乘,得到第一矩阵;
S3、将第六特征提取与下采样模块的输出通过第二softmax层后的结果与第二特征提取与下采样模块的输出相乘,得到第二矩阵;
S4、将第七特征提取与下采样模块的输出通过第三softmax层后的结果与第三特征提取与下采样模块的输出相乘,得到第三矩阵;
S5、将第八特征提取与下采样模块的输出通过第四softmax层后的结果与第四特征提取与下采样模块的输出相乘,得到第四矩阵;
S6、将第四特征提取与下采样模块的输出通过瓶颈层后的结果与第四矩阵相加,得到第五矩阵;
S7、通过第一上采样模块对第五矩阵进行上采样处理,将处理结果与第三矩阵相加,得到第六矩阵;
S8、通过第二上采样模块对第六矩阵进行上采样处理,将处理结果与第二矩阵相加,得到第七矩阵;
S9、通过第三上采样模块对第七矩阵进行上采样处理,将处理结果与第一矩阵相加,得到第八矩阵;
S10、通过第四上采样模块对第八矩阵进行上采样处理,将处理结果进行重构,得到图像分割结果。
2.根据权利要求1所述的用于RGB-D图像分割的方法,其特征在于,第一图像切分模块和第二图像切分模块均采用Patch Partition层。
3.根据权利要求1所述的用于RGB-D图像分割的方法,其特征在于,第一特征提取与下采样模块和第五特征提取与下采样模块结构相同,均包括依次连接的Linear Embedding层和Swin Transformer Block层。
4.根据权利要求1所述的用于RGB-D图像分割的方法,其特征在于,第二特征提取与下采样模块、第三特征提取与下采样模块、第四特征提取与下采样模块、第六特征提取与下采样模块、第七特征提取与下采样模块和第八特征提取与下采样模块的结构相同,均包括依次连接的Patch Merging层和Swin Transformer Block层。
5.根据权利要求1所述的用于RGB-D图像分割的方法,其特征在于,每个上采样模块均包括依次连接的多层感知机和上采样层。
CN202210637616.4A 2022-06-08 2022-06-08 一种用于rgb-d图像分割的方法 Active CN114723951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210637616.4A CN114723951B (zh) 2022-06-08 2022-06-08 一种用于rgb-d图像分割的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210637616.4A CN114723951B (zh) 2022-06-08 2022-06-08 一种用于rgb-d图像分割的方法

Publications (2)

Publication Number Publication Date
CN114723951A true CN114723951A (zh) 2022-07-08
CN114723951B CN114723951B (zh) 2022-11-04

Family

ID=82232339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210637616.4A Active CN114723951B (zh) 2022-06-08 2022-06-08 一种用于rgb-d图像分割的方法

Country Status (1)

Country Link
CN (1) CN114723951B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935052A (zh) * 2023-07-24 2023-10-24 北京中科睿途科技有限公司 智能座舱环境下的语义分割方法及相关设备

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664974A (zh) * 2018-04-03 2018-10-16 华南理工大学 一种基于rgbd图像与全残差网络的语义分割方法
KR101970488B1 (ko) * 2017-12-28 2019-04-19 포항공과대학교 산학협력단 실내 의미론적 분할을 위한 컬러-깊이 영상의 단계적 레지듀얼 특성 결합 네트워크 장치
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN110782458A (zh) * 2019-10-23 2020-02-11 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110929736A (zh) * 2019-11-12 2020-03-27 浙江科技学院 多特征级联rgb-d显著性目标检测方法
CN111340814A (zh) * 2020-03-03 2020-06-26 北京工业大学 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN111401380A (zh) * 2020-03-24 2020-07-10 北京工业大学 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法
CN111915619A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种双特征提取与融合的全卷积网络语义分割方法
CN112329780A (zh) * 2020-11-04 2021-02-05 杭州师范大学 一种基于深度学习的深度图像语义分割方法
CN112598675A (zh) * 2020-12-25 2021-04-02 浙江科技学院 基于改进全卷积神经网络的室内场景语义分割方法
CN112861722A (zh) * 2021-02-09 2021-05-28 中国科学院地理科学与资源研究所 一种半监督深度图卷积的遥感土地利用语义分割方法
US20210174513A1 (en) * 2019-12-09 2021-06-10 Naver Corporation Method and apparatus for semantic segmentation and depth completion using a convolutional neural network
CN113066089A (zh) * 2021-04-06 2021-07-02 南京邮电大学 一种基于注意力引导机制的实时图像语义分割网络
CN113469094A (zh) * 2021-07-13 2021-10-01 上海中科辰新卫星技术有限公司 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113628334A (zh) * 2021-07-16 2021-11-09 中国科学院深圳先进技术研究院 视觉slam方法、装置、终端设备及存储介质
CN113888744A (zh) * 2021-10-14 2022-01-04 浙江大学 一种基于Transformer视觉上采样模块的图像语义分割方法
CN113888557A (zh) * 2021-09-22 2022-01-04 山东师范大学 一种基于rgb-d特征融合的场景语义分割方法及系统
CN113947680A (zh) * 2021-10-12 2022-01-18 哈尔滨理工大学 一种基于级联多尺度视觉Transformer的图像语义分割方法
CN114549439A (zh) * 2022-02-11 2022-05-27 中北大学 一种基于多模态特征融合的rgb-d图像语义分割方法

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970488B1 (ko) * 2017-12-28 2019-04-19 포항공과대학교 산학협력단 실내 의미론적 분할을 위한 컬러-깊이 영상의 단계적 레지듀얼 특성 결합 네트워크 장치
CN108664974A (zh) * 2018-04-03 2018-10-16 华南理工大学 一种基于rgbd图像与全残差网络的语义分割方法
CN110298361A (zh) * 2019-05-22 2019-10-01 浙江省北大信息技术高等研究院 一种rgb-d图像的语义分割方法和系统
CN110782458A (zh) * 2019-10-23 2020-02-11 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN110929736A (zh) * 2019-11-12 2020-03-27 浙江科技学院 多特征级联rgb-d显著性目标检测方法
US20210174513A1 (en) * 2019-12-09 2021-06-10 Naver Corporation Method and apparatus for semantic segmentation and depth completion using a convolutional neural network
CN111340814A (zh) * 2020-03-03 2020-06-26 北京工业大学 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN111401380A (zh) * 2020-03-24 2020-07-10 北京工业大学 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法
CN111915619A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种双特征提取与融合的全卷积网络语义分割方法
CN112329780A (zh) * 2020-11-04 2021-02-05 杭州师范大学 一种基于深度学习的深度图像语义分割方法
CN112598675A (zh) * 2020-12-25 2021-04-02 浙江科技学院 基于改进全卷积神经网络的室内场景语义分割方法
CN112861722A (zh) * 2021-02-09 2021-05-28 中国科学院地理科学与资源研究所 一种半监督深度图卷积的遥感土地利用语义分割方法
CN113066089A (zh) * 2021-04-06 2021-07-02 南京邮电大学 一种基于注意力引导机制的实时图像语义分割网络
CN113469094A (zh) * 2021-07-13 2021-10-01 上海中科辰新卫星技术有限公司 一种基于多模态遥感数据深度融合的地表覆盖分类方法
CN113628334A (zh) * 2021-07-16 2021-11-09 中国科学院深圳先进技术研究院 视觉slam方法、装置、终端设备及存储介质
CN113888557A (zh) * 2021-09-22 2022-01-04 山东师范大学 一种基于rgb-d特征融合的场景语义分割方法及系统
CN113947680A (zh) * 2021-10-12 2022-01-18 哈尔滨理工大学 一种基于级联多尺度视觉Transformer的图像语义分割方法
CN113888744A (zh) * 2021-10-14 2022-01-04 浙江大学 一种基于Transformer视觉上采样模块的图像语义分割方法
CN114549439A (zh) * 2022-02-11 2022-05-27 中北大学 一种基于多模态特征融合的rgb-d图像语义分割方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
HUAYAO LIU等: "CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers", 《ARXIV:2203.04838V1》 *
JIANZHONG YUAN等: "DMFNet: Deep Multi-Modal Fusion Network for RGB-D Indoor Scene Segmentation", 《IEEE ACCESS》 *
YALI YANG等: "Hierarchical Vision Transformer with Channel Attention for RGB-D Image Segmentation", 《ACM》 *
ZE LIU等: "Swin Transformer: Hierarchical Vision Transformer using ShiftedWindows", 《ICCV》 *
ZHENGYI LIU等: "SwinNet: Swin Transformer Drives Edge-Aware RGB-D and RGB-T Salient Object Detection", 《JOURNAL OF LATEX CLASS FILES》 *
吴维: "基于多模态特征融合的室内图像语义分割方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王子羽等: "基于RGB-D图像的室内场景语义分割网络优化", 《自动化与信息工程》 *
魏兆祥: "面向室内复杂场景的RGB-D图像语义分割研究", 《中国优秀硕士学位论文全文数据库 工程科技II辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935052A (zh) * 2023-07-24 2023-10-24 北京中科睿途科技有限公司 智能座舱环境下的语义分割方法及相关设备
CN116935052B (zh) * 2023-07-24 2024-03-01 北京中科睿途科技有限公司 智能座舱环境下的语义分割方法及相关设备

Also Published As

Publication number Publication date
CN114723951B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN112287940B (zh) 一种基于深度学习的注意力机制的语义分割的方法
Liu et al. A spectral grouping and attention-driven residual dense network for hyperspectral image super-resolution
CN110020989B (zh) 一种基于深度学习的深度图像超分辨率重建方法
CN108986058B (zh) 明度一致性学习的图像融合方法
CN109064396A (zh) 一种基于深度成分学习网络的单幅图像超分辨率重建方法
CN111275618A (zh) 一种基于双支感知的深度图超分辨率重建网络构建方法
CN115082774B (zh) 基于双流自注意力神经网络的图像篡改定位方法及系统
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN114841856A (zh) 基于深度残差通道空间注意力的密集连接网络的图像超像素重建方法
Hu et al. Hyperspectral image super resolution based on multiscale feature fusion and aggregation network with 3-D convolution
CN114723951B (zh) 一种用于rgb-d图像分割的方法
CN116486155A (zh) 基于Transformer和级联特征的目标检测方法
CN117274047A (zh) 双路卷积与自注意力结合的红外图像超分辨率重建方法
CN113436198A (zh) 一种协同图像超分辨率重建的遥感图像语义分割方法
CN115496919A (zh) 基于窗口掩码策略的混合卷积-变压器架构及自监督方法
CN115578262A (zh) 基于afan模型的偏振图像超分辨率重建方法
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
CN115861068A (zh) 基于可变形注意力的时空混合视频超分辨率方法
Liu et al. Hyperspectral image super-resolution employing nonlocal block and hybrid multiscale three-dimensional convolution
CN114998101A (zh) 一种基于深度学习的卫星影像超分辨率方法
Luan et al. Multi-scale spatial-spectral Transformer for spectral reconstruction from RGB images
CN114092327A (zh) 一种利用异构知识蒸馏的高光谱图像超分辨率方法
Hu A Review of Super-Resolution Reconstruction Based on Supervised Learning
CN116452420B (zh) 一种基于Transformer与CNN分组融合的高光谱图像超分辨方法
CN118135364B (zh) 基于深度学习的多源遥感影像的融合方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant