CN112164078B - 基于编码器-解码器的rgb-d多尺度语义分割方法 - Google Patents
基于编码器-解码器的rgb-d多尺度语义分割方法 Download PDFInfo
- Publication number
- CN112164078B CN112164078B CN202011026414.3A CN202011026414A CN112164078B CN 112164078 B CN112164078 B CN 112164078B CN 202011026414 A CN202011026414 A CN 202011026414A CN 112164078 B CN112164078 B CN 112164078B
- Authority
- CN
- China
- Prior art keywords
- rgb
- layer
- encoder
- depth
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000007499 fusion processing Methods 0.000 claims description 4
- 238000007500 overflow downdraw method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims 2
- 238000012549 training Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 abstract description 5
- 238000012217 deletion Methods 0.000 abstract description 2
- 230000037430 deletion Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明披露一种基于编码器‑解码器的RGB‑D多尺度语义分割方法。本发明对基本的编码器‑解码器架构进行改进,将编码器部分进行分支并引入RGB图像和深度图像进行特征融合,在根据对象的颜色及纹理属性识别过程中,利用深度信息降低因具有相似外观而产生不确定性的分割。同时,在编码器的RGB部分采用深度可分离卷积替代传统卷积。在解码器部分,通过将相邻层中前一层的输入上采样添加到后一层输入的方式,保留上层中的空间信息,从而解决多尺度特征缺失问题。本发明提出的基于编码器‑解码器的RGB‑D多尺度语义分割方法,有效地提高了语义分割的准确率,且大大减少了训练时的计算量,进一步提高了性能。
Description
技术领域
本发明属于计算机视觉,图像语义分割领域,具体涉及一种基于编码器-解码器的RGB-D多尺度语义分割方法。
背景技术
计算机视觉是一门研究如何让计算机从图像和视频中获取高级、抽象的信息的科学。图像语义分割问题是其中一项热门且重大的课题,它是一个将图像中每个像素归于类标签的过程,是图像场景理解的重要基础,具有重要的研究价值和广阔的应用场景,例如自动驾驶、人机交互、图像搜索引擎、增强现实、医疗图像诊断等。
对于图像语义分割的研究,早期的传统语义分割是基于非监督学习的,后来逐步发展成基于机器学习,最终,深度学习正式进入图像语义分割领域。目前,主流的图像语义分割方法是使用全卷积神经网络来提取图像中的像素特征用于标签分类的预测。全卷积神经网络可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征图进行上采样,使它恢复到输入图像相同的尺寸。从而可以对每个像素都产生一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。由于上采样生成与原图一样大小的预测结果,导致很难得到精细化的分割结果。
目前,以全卷积神经网络为基础的框架在图像语义分割任务中存在以下几个固有问题:
1.缺乏上下文关系的推断:上下文关系的推断对于复杂场景的语义分割至关重要,例如漂浮在水面上的大概率是一艘船,而不是一辆汽车。由于缺乏准确的上下文关系,会给出错误的判断。
2.模糊的标签关系:许多标签之间是存在关系的,通过学习这种关系,我们可以对缺失的或者难以预测的标签进行弥补和加强,例如摩天大楼的部分会被识别为建筑物的部分,显而易见这两种是互斥的。
3.预测不连续:不同的场景中包含任意大小的物体,尺寸很小但很重要的物体容易被忽略,而比较大的物体又易超出视野域的接收范围,例如床单上的枕头很容易被忽视。
发明内容
为了解决上述问题,本发明提出了一种基于编码器-解码器的RGB-D多尺度语义分割方法。
本发明对基本的编码器-解码器架构进行改进,将编码器部分进行分支并引入RGB图像和深度图像进行特征融合,在根据对象的颜色及纹理属性识别过程中,利用深度信息降低因具有相似外观而产生不确定性的分割。同时,在编码器的RGB部分采用深度可分离卷积替代传统卷积。在解码器部分,通过将相邻层中前一层的输入上采样添加到后一层输入的方式,保留上层中的空间信息,从而解决多尺度特征缺失问题。本发明提出的基于编码器-解码器的RGB-D多尺度语义分割方法,有效地提高了语义分割的准确率,且大大减少了训练时的计算量,进一步提高了性能。
为了达到上述目的,本发明基于编码器-解码器的RGB-D多尺度语义分割方法通过以下技术方案实现:
一种基于编码器-解码器的RGB-D多尺度语义分割方法,包含以下步骤:
步骤1:构建RGB编码器模块,从RGB图像中进行颜色特征提取。
步骤2:构建Depth编码器模块,从depth图像中进行深度特征提取。
步骤3:对RGB特征和depth特征进行多模态信息融合。
步骤4:RGB编码器轻量化,减少网络的参数量及运算量,提高预测的实时性。
步骤5:构建RGB-D解码器模块,融入多尺度特征融合方法,提高语义分割的精确度。
进一步地,所属步骤1中的RGB编码器模块通过CBR块(Conv,BN,Relu)提取RGB图像不同阶段的特征并进行标准化。
进一步地,所属步骤2中的Depth编码器模块通过CBR块(Conv,BN,Relu)提取深度图像不同阶段的特征并进行标准化。
进一步地,所属步骤3中的融合过程中采用稀疏融合的方式,将每一阶段所提取的深度特征插入到RGB编码器对应阶段的池化层之前进行融合。
进一步地,所属步骤4中的RGB编码器轻量化使用深度可分离卷积代替卷积层中的传统卷积,先卷积空间维度,再卷积通道维度。
进一步地,所属步骤5中的RGB-D解码器模块包括:首先,使用CBR块替代反卷积层作为网络上采样的主要方式,每个CBR块的前面都有一个上采样层,将上层CBR块的输出进行2倍上采样。然后,从倒数第三层的CBR块开始,将相邻层中前一层的输入使用双线性插值进行2倍上采样,与后一层输入相加,从而保留上层中的空间信息。
附图说明
图1为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的流程图
图2为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的网络结构图
图3为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的融合RGB特征和depth特征示意图
图4为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的融合多尺度特征的示意图
图5为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的数据集示意图
图6为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的训练过程的loss收敛图
图7为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的训练过程的训练精度图
图8为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的分割效果图
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实例中技术方案进行清楚、完整地描述。本发明包括但不仅限于下述实施例。
如图1所示为本发明的基于编码器-解码器的RGB-D多尺度语义分割方法的整体流程图,具体步骤如下:
步骤1:构建RGB编码器模块,从RGB图像中进行颜色特征提取。
如图2所示,编码器RGB分支采用了除全连接层外的VGG16的网络结构,在此基础上引入BN层,在卷积层和ReLU层之间使用BN层来减少内部协变量偏移,通过归一化激活函数的输入,达到减少可调参数、加快深度学习收敛速度的目的,我们将卷积、BN和ReLU的组合称为CBR块。BN层首先将特征图规格化为零均值和单位方差,然后对其进行缩放和移动,并且在训练期间学习比例和移位参数。这样,RGB特征不但会被深度特征覆盖,而且网络会学习如何以最佳方式将它们组合。本实例中使用224*224的RGB图作为输入,经过5次卷积和池化操作,得到7*7*512的特征图。
步骤2:构建Depth编码器模块,从depth图像中进行深度特征提取。
如图2所示,编码器depth分支采用了除全连接层外的VGG16的网络结构,在此基础上引入BN层,在卷积层和ReLU层之间使用BN层来减少内部协变量偏移,通过归一化激活函数的输入,达到减少可调参数、加快深度学习收敛速度的目的,我们将卷积、BN和ReLU的组合称为CBR块。本实例中使用224*224的深度图作为输入,经过5次卷积和池化操作,得到7*7*512的特征图。
步骤3:对RGB特征和depth特征进行多模态信息融合。
如图3所示,融合层是该网络体系架构的关键结构,该层融合了深度分支和RGB分支的特征图。其中,融合层的具体实现操作为逐元素求和。在本文提出的网络结构中,我们将融合层插入在CBR块之后。通过融合操作,将由深度图像学习得出的特征图不连续的添加到RGB图像分支中,以补充更多的深度信息。本实例中将每一次卷积后depth特征插入到对应卷积后的RGB编码器模块的池化层之前,采用的是稀疏融合的方式。其融合方法如下:
xk (l+1)=gk (l)(x(l);wk (l))=σ(<w(l),x(l)>+bk (l))
如果输入是四通道RGB-D图像,我们则可以将特征图分解为x=[aT bT]T,其中 d1+d2=d∶=dim(x)是学习到的特征,d1和d2分别来自光度通道(RGB)和深度通道。然后我们可以进一步得出:
xk (l+1)=σ(<uk (l),a(l)>+ck (l)+<vk (l),b(l)>+dk (l))
=max(0,<uk (l),a(l)>+ck (l)+<vk (l),b(l)>+dk (l))
≤max(0,<uk (l),a(l)>+ck (l))+max(0,<vk (l),b(l)>+dk (l))
≤max(0,<uk (l),a(l)>+ck (l))+max(0,<vk (l),b(l)>+dk (l))
其中,σ表示激活函数,我们将wk (l)分解为bk (l)分解为bk (l)=ck (l)+dk (l)。
步骤4:RGB编码器轻量化,减少网络的参数量及运算量,提高预测的实时性。
为了减少网络的参数量及运算量,使其轻量化,本发明对原编码器的RGB分支做出改进,将卷积层中的传统卷积用深度可分离卷积进行代替。深度可分离卷积将传统的卷积分解为一个深度卷积和一个1×1的卷积。输入的特征映射F尺寸为(DF,DF,M),采用的标准卷积K为(DK,DK,M,N),输出的特征映射G尺寸为(DG,DG,N)
标准卷积的卷积计算公式为:
对应的计算量公式为:
Gk,l,n=DK·DK·M·N·DF·DF
若将标准卷积拆分为深度卷积和点卷积,深度卷积的卷积公式为:
其中是深度卷积,卷积核为(DK,DK,1,M),则深度可分离卷积的计算量公式为:
因此我们能够得到深度可分离卷积与原标准卷积的计算量之比,计算公式如下所示:
步骤5:构建RGB-D解码器模块,融入多尺度特征融合方法,提高语义分割的精确度。
如图4所示,本实例提出的网络在解码器中使用CBR块(卷积、BN和ReLU的组合)替代反卷积层作为网络上采样的主要手段,每个CBR块的前面都有一层上采样层,将上层CBR块的输出进行2倍上采样。随着卷积层深度的增加,卷积网络提取到的空间信息越来越少,但增加卷积层深度可以有效地提取细节信息;为了同时保留空间和细节信息,本实例引入了双线性插值法作为多尺度融合特征方法。具体地,该方法为将倒数第三层输入通过双线性差值法进行2倍上采样与倒数第二层的输入相加;将倒数第二层的输入通过双线性差值法进行2倍上采样与最后的输入相加。通过将相邻层中前一层的输入上采样后加入后一层输入的方式,保留上层中的空间信息,从而达到多尺度的效果。
假设当前层CBR块的输入为Inputl,输出为mapl;CBR块的上采样算法为maxunpooling,记为mu(x);双线性插值法bilinear interpolation,记为bi(x),则
其中为concat操作。
具体地,上述所采用的双线性插值法,又称为双线性内插法,它是一种有两个变量的插值函数的线性拓展。通常来说我们要对图像插值的原因是为了resize它为我们所需要的尺度。双线性插值法的本质就是在两个方向上做线性插值,即为有两个变量的插值函数的线性插值扩展。其核心是在两个方向上分别做一次线性插值。我们的目标是想得到未知函数在点P=(x,y)的值,假定我们已知函数f在Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)及Q22=(x2,y2)四个点的值。f即为一个像素点的像素值,那么我们首先在x方向进行线性插值,得到:
同样地,我们在y方向上进行线性插值得到:
最后我们可以得到双线性插值的结果:
本实例中的双线性插值法采用的是图像中相邻的4个像素点,要通过双线性插值法算出输出尺寸中的每个像素点的像素值,这个操作是通过输出像素点的坐标对应到源图像中的坐标,然后通过双线性插值法计算出源尺寸中相应坐标的像素值坐标对应关系,然后按比例进行对应。
通过多尺度特征融合后,模型可以学习并且利用不同尺度的信息以及特征。不会过多的加大网络的体量以及负担,但是同时也做到了结合局部信息和全局信息。
训练过程中,我们采用了如图5所示的数据集,该数据集包含1449张由微软Kinect设备捕获的室内的RGB-D图像。其给出密集的像素级别的标注(类别级别和实例级别的均有),训练集795张与测试集654张均有40个室内物体的类,该数据集拥有丰富的刻画室内场景。网络共进行了300轮迭代训练,在训练过程中用pytorch记录神经网络的loss变化,如图5所示。可以由6得出,训练期间达到的最小loss值:seg:0.161 at epoch:287。
表1为本实例中不同网络实验精度比较图
相较于传统的单通道RGB图像模型以及传统的HHA编码的模型,RGB-D图像的模型具有较好的分割性能,全局精度分别提高了14.2%和11.5%;而对于未加入多尺度特征融合处理的RGB-D图像的模型,加入多尺度特征融合处理的模型具有较好的分割效果,全局精度提高了1.1%,平均精度提高了1.2%。
表2为本实例中轻量化后的用时比较图
Model | Time/min |
FuseNet | 2008.05 |
MSCFNet | 1446.63 |
FuseNet(33.46h)明显比本文提出的机遇深度可分离卷积的轻量化RGB-D图像语义分割模型MSCFNet(24.11h)慢,MSCFNet的运行时间较原模型减少了27.9%。
预测得到的语义分割结果如图8所示,图中第一列为输入图像,第二列为groudtruth,第三列为加入多尺度特征融合的结果,最后一列为基于多尺度特征融合加入轻量化模型的M-SCFNet的结果。可以看到在减少了计算量以及参数量的情况下,轻量多尺度的分割效果仍较有竞争性,不仅达到了“轻量”且同时保证了一定的分割性能。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员或一般模型爱好者可以无需创造性劳动或者通过软件编程就可以根据本发明的构思在现有技术的基础上通过逻辑分析,推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (1)
1.一种基于编码器-解码器的RGB-D多尺度语义分割方法,其特征在于包含以下步骤:
步骤1:构建RGB编码器模块,从RGB图像中进行颜色特征提取;
步骤2:构建Depth编码器模块,从depth图像中进行深度特征提取;
步骤3:对RGB特征和depth特征进行多模态信息融合;
步骤4:RGB编码器轻量化,减少网络的参数量及运算量,提高预测的实时性;
步骤5:构建RGB-D解码器模块,融入多尺度特征融合方法,提高语义分割的精确度;
所属步骤1中的RGB编码器模块由CBR块构成,即Conv块、BN块和ReLU块的组合,图片先经过Conv卷积层卷积,然后在BN层中规格化,最后通过ReLU激活函数归一化提取出RGB图像不同阶段的颜色特征;
所属步骤2中的Depth编码器模块统一由CBR块构成:Conv块、BN块和Relu块的组合,图片先经过Conv卷积层卷积,然后在BN层中规格化,最后通过ReLU激活函数归一化提取出RGB图像不同阶段的深度特征;
所属步骤3中的融合过程采用稀疏融合的方式,将每一阶段所提取的深度特征插入到RGB编码器对应阶段的池化层前面进行融合;
所属步骤4中的RGB编码器轻量化使用深度可分离卷积代替卷积层中的传统卷积,先对空间维度进行卷积操作,再对通道维度进行卷积操作;
所属步骤5中的RGB-D解码器模块中首先使用CBR块替代反卷积层作为网络上采样的主要方式,每个CBR块的前面都有一个上采样层,将上层CBR块的输出进行2倍上采样;然后,从倒数第三层的CBR块开始,将相邻层中前一层的输入使用双线性插值进行2倍上采样,与后一层输入相加,从而保留上层中的空间信息,完成多尺度分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011026414.3A CN112164078B (zh) | 2020-09-25 | 2020-09-25 | 基于编码器-解码器的rgb-d多尺度语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011026414.3A CN112164078B (zh) | 2020-09-25 | 2020-09-25 | 基于编码器-解码器的rgb-d多尺度语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112164078A CN112164078A (zh) | 2021-01-01 |
CN112164078B true CN112164078B (zh) | 2024-03-15 |
Family
ID=73864306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011026414.3A Active CN112164078B (zh) | 2020-09-25 | 2020-09-25 | 基于编码器-解码器的rgb-d多尺度语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112164078B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538313B (zh) * | 2021-07-22 | 2022-03-25 | 深圳大学 | 一种息肉分割方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018076212A1 (zh) * | 2016-10-26 | 2018-05-03 | 中国科学院自动化研究所 | 基于反卷积神经网络的场景语义分割方法 |
CN110782462A (zh) * | 2019-10-30 | 2020-02-11 | 浙江科技学院 | 一种基于双流特征融合的语义分割方法 |
CN111292330A (zh) * | 2020-02-07 | 2020-06-16 | 北京工业大学 | 基于编解码器的图像语义分割方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10977530B2 (en) * | 2019-01-03 | 2021-04-13 | Beijing Jingdong Shangke Information Technology Co., Ltd. | ThunderNet: a turbo unified network for real-time semantic segmentation |
-
2020
- 2020-09-25 CN CN202011026414.3A patent/CN112164078B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018076212A1 (zh) * | 2016-10-26 | 2018-05-03 | 中国科学院自动化研究所 | 基于反卷积神经网络的场景语义分割方法 |
CN110782462A (zh) * | 2019-10-30 | 2020-02-11 | 浙江科技学院 | 一种基于双流特征融合的语义分割方法 |
CN111292330A (zh) * | 2020-02-07 | 2020-06-16 | 北京工业大学 | 基于编解码器的图像语义分割方法及装置 |
Non-Patent Citations (1)
Title |
---|
韩慧慧 ; 李帷韬 ; 王建平 ; 焦点 ; 孙百顺 ; .编码―解码结构的语义分割.中国图象图形学报.2020,(第02期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112164078A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
Anwar et al. | Image colorization: A survey and dataset | |
CN109583340B (zh) | 一种基于深度学习的视频目标检测方法 | |
CN111210443A (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN113033570B (zh) | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN113344932B (zh) | 一种半监督的单目标视频分割方法 | |
CN112634296A (zh) | 门机制引导边缘信息蒸馏的rgb-d图像语义分割方法及终端 | |
CN112084859B (zh) | 一种基于稠密边界块和注意力机制的建筑物分割方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN114038006A (zh) | 一种抠图网络训练方法及抠图方法 | |
CN112651423A (zh) | 一种智能视觉系统 | |
CN112802039B (zh) | 一种基于全局边缘注意力的全景分割方法 | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN111160378A (zh) | 基于单张图像的多任务增强的深度估计系统 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN112164078B (zh) | 基于编码器-解码器的rgb-d多尺度语义分割方法 | |
CN114359626A (zh) | 基于条件生成对抗网络的可见光-热红外显著目标检测方法 | |
CN111160354B (zh) | 一种基于联合图像信息的海天背景下船舶图像分割方法 | |
CN115731280A (zh) | 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法 | |
CN115601542A (zh) | 基于全尺度密集连接的图像语义分割方法、系统及设备 | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Liu Jin Inventor after: Xie Yurong Inventor after: Lin Xinyue Inventor before: Liu Jin Inventor before: Xie Yurong |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |