CN108664974A - 一种基于rgbd图像与全残差网络的语义分割方法 - Google Patents

一种基于rgbd图像与全残差网络的语义分割方法 Download PDF

Info

Publication number
CN108664974A
CN108664974A CN201810291496.0A CN201810291496A CN108664974A CN 108664974 A CN108664974 A CN 108664974A CN 201810291496 A CN201810291496 A CN 201810291496A CN 108664974 A CN108664974 A CN 108664974A
Authority
CN
China
Prior art keywords
sampling
residual error
convolution
error module
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810291496.0A
Other languages
English (en)
Inventor
张智军
江锦东
罗飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810291496.0A priority Critical patent/CN108664974A/zh
Publication of CN108664974A publication Critical patent/CN108664974A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding

Abstract

本发明公开了一种基于RGBD图像与全残差网络的语义分割方法,包括步骤:获取场景的RGB图像及深度图像,并传递到工作站中;在工作站对获取信息进行如下运算:在第一阶段中,把深度信息以及RGB颜色信息分别输入卷积神经网络的两个卷积分支中,进行下采样的卷积操作,并分多次把深度分支信息融合进颜色分支中;在第二阶段中,把第一阶段最后一次融合结果作为输入,进行上采样的卷积运算,同时获取第一阶段中各阶段特征层信息,将其融入上采样的各阶段中,直至输出语义分割结果。本发明中,除模型初始卷积与最后的反卷积外,其余卷积结构皆使用残差模块进行卷积运算;模型对于第一阶段与第二阶段的相同空间尺寸的特征层实行跳跃结构进行信息融合。本发明具有语义分析及边缘分割精确的优点。

Description

一种基于RGBD图像与全残差网络的语义分割方法
技术领域
本发明属于机器视觉中语义分割方法领域,特别是一种基于RGBD图像与全残差网络的语义分割方法。
背景技术
随着基于深度学习等机器学习方法在理论及应用中的不断发展,人工智能这一议题近期引起科学界及社会爆发性的广泛关注。人工智能中最为重要的议题之一就是如何实现机器对外界场景理解的能力。也即需要机器识别出所在场景中拥有什么物体,物体处于什么摆放位置。为实现此场景识别的能力,图像语义分割即被顺应提出。图像语义分割的目标是对图像中具有语义的对象,即特定类别的物体,如人、床、椅等对象进行识别,分割出该物体的所属像素区域。当机器人或智能系统获取到环境的语义分割结果后,能获得对周边环境的理解,从而进行物体抓取、行程规划、人机交互等行为。近年以来,随着Kinect等RGBD图像采集设备的普及,场景的深度信息的获取变得低廉,而场景的深度信息中富含物体的几何结构,可以成为RGB图像一个有力的补充。从这个角度出发,利用RGBD图像进行语义分割成为一个极具研究和实用价值的方向。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于RGBD图像与全残差网络的语义分割方法,该方法能够实现精确的语义分割。
本发明的目的通过以下的技术方案实现:一种基于RGBD图像与全残差网络的语义分割方法,包括步骤:
1)获取场景的RGB图像及相应的深度图像;
2)将步骤1)中获得的深度图像与RGB图像信息传递至拥有图形运算单元GPU的工作站中;
3)工作站把深度信息以及RGB信息分别输入两个基于卷积神经网络的深度学习分支中,分别称为深度分支及主分支,两分支具有相同的下采样结构;随着框架中卷积运算的递进,深度分支独立运算,而主分支在卷积运算的同时,在不同的卷积层中分多次融合深度分支的特征信息;进行下采样卷积运算时,除初始卷积与最后的反卷积外,其余卷积结构皆使用残差模块进行卷积运算;
4)将步骤3)中最后一次融合结果作为步骤3)的输出,获取该输出,在该输出上进行上采样的卷积运算,同时获取步骤3)中各阶段特征层信息,将其融入上采样的各阶段中,直至输出语义分割结果;进行上采样卷积运算时,除了最后一个反卷积层,其余层皆使用残差模块进行卷积运算。
优选的,所述步骤1)中RGB图像及深度图像利用微软Kinect套件获取,其中RGB图像保留原始值,即值域为0-255的RGB三通道灰度值;深度图像再经过等比例缩放,具体是把Kinect输出基于0-65535值域范围的值等比例缩放为0-255使其与RGB图片在同一值域范围中。
优选的,所述步骤3)进行卷积运算的神经网络系统基于Pytorch深度学习库搭建,底层利用CUDA图形软件库进行卷积运算。整套系统运行于Ubuntu操作系统之上。
优选的,所述步骤3)中两个基于卷积神经网络的深度学习分支基于同一卷积神经网络框架,并相继使用卷积结构、池化结构,与残差层结构进行运算,其中,除了两个卷积神经网络的第一卷积层均具有7x7的卷积核外,所有其余卷积层与池化层都具3x3的内核。
进一步的,所述步骤3)中主分支中的特征层Layer1,Layer2,Layer3,Layer4以及相应的深度分支的特征层Layer1_d,Layer2_d,Layer3_d,Layer4_d皆由多个残差模块组成,包括带下采样的残差模块与不带下采样的残差模块,其中不带下采样的残差模块由两个结构相同的卷积操作组成,该卷积操作拥有3x3的卷积核,且步幅与通道系数皆为1,两个残差的运算结果在模型的最后会与输入进行元素相加,形成一个完整的残差模块。而带下采样的残差模块由两部分组成,其中第一部分由两个卷积层组成,第一个拥有3x3的卷积核,且步幅与通道倍数皆为2,即对输入的空间尺寸进行下采样,并获得两倍于输入的特征通道的卷积层,另一个卷积层具有相同卷积核大小,但步幅与通道倍数皆为1。第二部分则为一个卷积核为1x1,步幅为2,通道倍数为2的“旁路卷积”,该旁路卷积对图像直接运算。最后,旁路卷积与上述两个卷积的运算结果相加,成为一个完整的带下采样的残差网络。
更进一步的,所述步骤3)中,卷积神经网络框架的结构为:
a1、主分支第一卷积层Conv1以及深度分支中第一个卷积层Conv1_d,对RGB图像及深度图像进行64个卷积核卷积,即Conv1输出拥有64通道;
b1、Pool1与Pool1_d对Conv1与Conv1_d经过步幅为2的最大化池化操作;
c1、Layer1与Layer1_d对Pool1与Pool1_d的运算结果经过3个不带下采样的残差模块运算;
d1、Layer2与Layer2_d对Layer1与Layer1_d的运算结果经过1个带下采样的残差模块与3个不带下采样的残差模块运算;
e1、Layer3与Layer3_d对Layer2与Layer2_d的运算结果经过1个带下采样的残差模块与5个不带下采样的残差模块运算;
f1、Layer4与Layer4_d对Layer3与Layer3_d的运算结果经过1个带下采样的残差模块与2个不带下采样的残差模块运算。
更进一步的,基于上述的卷积神经网络框架结构,所述步骤3)中主分支在卷积运算的同时,在不同的卷积层中分多次融合深度分支的特征信息,步骤是:
(3-1)深度分支中的Pool1_d运算结果与主分支中Pool1运算结果相加,结果作为主分支中Layer1的输入;
(3-2)深度分支中的Layer1_d运算结果与主分支中Layer1运算结果相加,结果作为主分支中Layer2的输入;
(3-3)深度分支中的Layer2_d运算结果与主分支中Layer2运算结果相加,结果作为主分支中Layer3的输入;
(3-4)深度分支中的Layer3_d运算结果与主分支中Layer3运算结果相加,结果作为主分支中Layer4的输入;
(3-5)深度分支中的Layer4_d运算结果与主分支中Layer4运算结果相加,结果作为模型下采样阶段的输出,并作为上采样阶段的输入。
优选的,步骤4)在步骤3)的输出上进行上采样卷积运算,其中除了最后一个反卷积层Final Trans,其余层皆由带上采样或不带上采样的残差层组成。其中不带下采样的残差模块与步骤3)中完全相同。而带上采样的残差模块则由两部分组成,其中第一部分由两个卷积层组成,第一个拥有3x3的卷积核,且步幅与通道倍数皆为1,另一个卷积层具有相同卷积核大小,但拥有步幅与通道倍数皆为0.5,即对输入的空间尺寸进行上采样,并获得输入的特征通道的一半数量的卷积层。第二部分则为一个卷积核为2x2,步幅为0.5,通道倍数为0.5的“旁路卷积”,该旁路卷积对图像直接运算。最后,旁路卷积与上述两个卷积的运算结果相加,成为一个完整的带上采样的残差网络。
进一步的,基于上述的结构,步骤4)中进行上采样卷积运算时,最后一个反卷积层Final Trans,其余层为Trans1、……Trans5,在步骤3)的输出上进行上采样的卷积运算,步骤是:
a2、Trans1对下采样阶段的运算结果,进行5个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
b2、Trans2对Trans1运算结果,进行3个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
c2、Trans3对Trans2运算结果,进行2个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
d2、Trans4对Trans3运算结果,进行2个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
e2、Trans4对Trans3运算结果,进行2个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
f2、Trans5对Trans4运算结果,进行一个不带上采样的残差模块的运算;
g2、Final Trans对Trans5运算结果,进行一个卷积核为2x2,步幅为0.5的反卷积运算。
更进一步的,基于上述的卷积神经网络框架结构,步骤4)中,获取步骤3)中各阶段特征层信息,将其融入上采样的各阶段,步骤是:
所述步骤4)中的上采样过程分阶段融合下采样阶段的信息,具体步骤是:
(4-1)Trans1运算结果与下采样过程中Layer3_d与Layer3结果的相加结果进行元素相加,结果作为Trans2的输入;
(4-2)Trans2运算结果与下采样过程中Layer2_d与Layer2结果的相加结果进行元素相加,结果作为Trans3的输入;
(4-3)Trans3运算结果与下采样过程中Layer1_d与Layer1结果的相加结果进行元素相加,结果作为Trans4的输入。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明使用RGB-D图像获取设备以及具有图形处理单元的计算机平台,同时结合基于深度融合技术以及全残差模块的卷积神经网络,可以快速精确地完成场景的语义分割,为机器人的场景理解与语义交互实现关键的技术基础。
2、本发明除模型初始卷积与最后的反卷积外,其余卷积结构皆使用残差模块进行卷积运算;同时模型对于第一阶段与第二阶段的相同空间尺寸的特征层实行跳跃结构进行信息融合。由于采用上述特征,可以进一步实现精确的语义分割。
附图说明
图1为本发明整体系统框图;
图2为本发明算法模块总体结构细节图;
图3(a)、(b)分别为本发明算法模块中不带下采样与带下采样的残差模块结构图。
图4(a)、(b)分别为本发明算法模块中不带上采样与带上采样的残差模块结构图。
图5为本发明实验结果演示。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1、2所示,本实施例提供了一种基于RGBD图像与全残差网络的语义分割方法,该方法基于深度融合技术以及全残差模块的卷积神经网络,通过建立模型,可精确实现语义分割。下面结合附图对该方法步骤进行具体说明。
1、利用深度(Depth)图像及RGB图像获取装置,获取场景的RGB图像及Depth信息。
本实施例中,RGB图像及Depth信息利用微软Kinect套件获取,其中RGB图像保留原始值,即值域为0-255的RGB三通道灰度值;Depth信息则经过等比例缩放,具体来说,把Kinect输出基于0-65535值域范围的值等比例缩放为0-255使其与RGB图片在同一值域范围中。
2、将步骤1中获得的Depth图像与RGB图像信息传递至拥有图形运算单元GPU的工作站中。工作站中图形运算单元GPU要求为:(1)内存大于2g;(2)支持CUDA运算库。
3、工作站把深度信息以及RGB信息分别输入两个基于卷积神经网络的深度学习分支中,分别称为深度分支及主分支,两分支具有相同的下采样结构;随着框架中卷积运算的递进,深度分支独立运算,而主分支在卷积运算的同时,在不同的卷积层中分多次融合深度分支的特征信息。
本实施例中,进行卷积运算的神经网络系统基于Pytorch深度学习库搭建,底层利用CUDA图形软件库进行卷积运算。整套系统运行于Ubuntu操作系统之上。
参见图2,本实施例中,在获取Kinect中的RGB图像及深度信息后,RGB及深度信息被输入结构相同的两个卷积神经网络框架中。,除了两个卷积神经网络的第一卷积层均具有7x7的卷积核外,所有其余卷积层与池化层都具有3x3的内核。
主分支中的特征层Layer1,Layer2,Layer3,Layer4以及相应的深度分支的特征层Layer1_d,Layer2_d,Layer3_d,Layer4_d皆由多个残差模块组成,包括带下采样的残差模块与不带下采样的残差模块,其中不带下采样的残差模块如图3(a)所示,由两个结构相同的卷积操作组成,该卷积操作拥有3x3的卷积核,且步幅与通道系数皆为1,两个残差的运算结果在模型的最后会与输入进行元素相加,形成一个完整的残差模块。而带下采样的残差模块如图3(b)所示,由两部分组成,其中第一部分由两个卷积层组成,第一个拥有3x3的卷积核,且步幅与通道倍数皆为2,即对输入的空间尺寸进行下采样,并获得两倍于输入的特征通道的卷积层,另一个卷积层具有相同卷积核大小,但步幅与通道倍数皆为1。第二部分则为一个卷积核为1x1,步幅为2,通道倍数为2的“旁路卷积”,该旁路卷积对图像直接运算。最后,旁路卷积与上述两个卷积的运算结果相加,成为一个完整的带下采样的残差网络。
具体的,图3(a)、(b)中,方块表示单个卷积层,文字表示卷积层的配置,中括号中的文字代表卷积操作的参数,小括号中的两个数值表示卷积核的空间尺寸,随后的数值表示卷积操作的步幅,最后一个数值表示通道倍数,即输出的特征通道与输入的特征通道数量的比例,带除号表示缩减倍数。例如,当方块中的文字为Conv[(3,3),2,2]时表示该卷积操作拥有3x 3的卷积核,卷积步幅为2,即输出空间尺寸长与宽将为原来的二分之一,并且,其输出的特征通道数量将为输入特征通道数量的两倍。
卷积神经网络框架的结构为:
a1、主分支第一卷积层Conv1以及深度分支中第一个卷积层Conv1_d,对RGB图像及深度图像进行64个卷积核卷积,即Conv1输出拥有64通道;
b1、Pool1与Pool1_d对Conv1与Conv1_d经过步幅为2的最大化池化操作;
c1、Layer1与Layer1_d对Pool1与Pool1_d的运算结果经过3个不带下采样的残差模块运算;
d1、Layer2与Layer2_d对Layer1与Layer1_d的运算结果经过1个带下采样的残差模块与3个不带下采样的残差模块运算;
e1、Layer3与Layer3_d对Layer2与Layer2_d的运算结果经过1个带下采样的残差模块与5个不带下采样的残差模块运算;
f1、Layer4与Layer4_d对Layer3与Layer3_d的运算结果经过1个带下采样的残差模块与2个不带下采样的残差模块运算。
主分支在卷积运算的同时,在不同的卷积层中分多次融合深度分支的特征信息,步骤是:
(3-1)深度分支中的Pool1_d运算结果与主分支中Pool1运算结果相加,结果作为主分支中Layer1的输入;
(3-2)深度分支中的Layer1_d运算结果与主分支中Layer1运算结果相加,结果作为主分支中Layer2的输入;
(3-3)深度分支中的Layer2_d运算结果与主分支中Layer2运算结果相加,结果作为主分支中Layer3的输入;
(3-4)深度分支中的Layer3_d运算结果与主分支中Layer3运算结果相加,结果作为主分支中Layer4的输入;
(3-5)深度分支中的Layer4_d运算结果与主分支中Layer4运算结果相加,结果作为模型下采样阶段的输出,并作为上采样阶段的输入。
4、获取步骤3中最后一次融合结果,在该输出上进行上采样的卷积运算,同时获取步骤3)中各阶段特征层信息,将其融入上采样的各阶段中,直至输出语义分割结果。
本实施例中,除了最后一个反卷积层Final Trans,其余层皆由带上采样或不带上采样的残差层组成。不带下采样的残差模块与步骤3中完全相同,如图4(a)所示。其各个符号的含义也参见图3。带上采样的残差模块如图4(b)所示,由两部分组成,其中第一部分由两个卷积层组成,第一个拥有3x3的卷积核,且步幅与通道倍数皆为1,另一个卷积层具有相同卷积核大小,但拥有步幅与通道倍数皆为0.5,即对输入的空间尺寸进行上采样,并获得输入的特征通道的一半数量的卷积层。第二部分则为一个卷积核为2x2,步幅为0.5,通道倍数为0.5的“旁路卷积”,该旁路卷积对图像直接运算。最后,旁路卷积与上述两个卷积的运算结果相加,成为一个完整的带上采样的残差网络。
参见图2,获取步骤3中各阶段特征层信息,将其融入上采样的各阶段,步骤是:
a2、Trans1对下采样阶段的运算结果,进行5个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
b2、Trans2对Trans1运算结果,进行3个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
c2、Trans3对Trans2运算结果,进行2个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
d2、Trans4对Trans3运算结果,进行2个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
e2、Trans4对Trans3运算结果,进行2个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
f2、Trans5对Trans4运算结果,进行一个不带上采样的残差模块的运算;
g2、Final Trans对Trans5运算结果,进行一个卷积核为2x2,步幅为0.5的反卷积运算。
本实施例中,对于第一阶段与第二阶段的相同空间尺寸的特征层实行跳跃结构进行信息融合。具体参见图2,:
(4-1)Trans1运算结果与下采样过程中Layer3_d与Layer3结果的相加结果进行元素相加,结果作为Trans2的输入;
(4-2)Trans2运算结果与下采样过程中Layer2_d与Layer2结果的相加结果进行元素相加,结果作为Trans3的输入;
(4-3)Trans3运算结果与下采样过程中Layer1_d与Layer1结果的相加结果进行元素相加,结果作为Trans4的输入。
图5为本实施例方法针对具体实例的实验分析结果图。从上到下依次是RGB图像、深度图像、数据正确分割结果以及模型的最终输出。为便于展示模型的语义分割效果,这里用不同的灰色深度填充,表示不同物体的分割区域。通过对比正确的图像语义以及模型所输出的分割结果,可以明显地看出,模型的语义分割结果提供了较为精确的语义分析结果,对于物体细节例如窗帘边缘,蹬脚等区域都进行了细致的分割。这些精确的语义分割结果,能为机器人分辨图像中所具有的物体以及物体所在方位提供参考的意义,成为机器人与外界的交互的一项关键技术。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于RGBD图像与全残差网络的语义分割方法,其特征在于,包括步骤:
1)获取场景的RGB图像及相应的深度图像;
2)将步骤1)中获得的深度图像与RGB图像信息传递至拥有图形运算单元GPU的工作站中;
3)工作站把深度信息以及RGB信息分别输入两个基于卷积神经网络的深度学习分支中,分别称为深度分支及主分支,两分支具有相同的下采样结构;随着框架中卷积运算的递进,深度分支独立运算,而主分支在卷积运算的同时,在不同的卷积层中分多次融合深度分支的特征信息;两个分支中的特征层皆由残差模块组成,进行下采样卷积运算时,除初始卷积与最后的反卷积外,其余卷积结构皆使用残差模块进行卷积运算;
4)将步骤3)中最后一次融合结果作为步骤3)的输出,获取该输出,在该输出上进行上采样的卷积运算,同时获取步骤3)中各阶段特征层信息,将其融入上采样的各阶段中,直至输出语义分割结果;进行上采样卷积运算时,除了最后一个反卷积层,其余层皆使用残差模块进行卷积运算。
2.根据权利要求1所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,所述步骤1)中RGB图像及深度图像利用微软Kinect套件获取,其中RGB图像保留原始值,即值域为0-255的RGB三通道灰度值;深度图像再经过等比例缩放,具体是把Kinect输出基于0-65535值域范围的值等比例缩放为0-255使其与RGB图片在同一值域范围中。
3.根据权利要求1所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,所述步骤3)进行卷积运算的神经网络系统基于Pytorch深度学习库搭建,底层利用CUDA图形软件库进行卷积运算,整套系统运行于Ubuntu操作系统之上。
4.根据权利要求1所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,所述步骤3)中两个基于卷积神经网络的深度学习分支基于同一卷积神经网络框架,并相继使用卷积结构、池化结构,与残差层结构进行运算,其中,除了两个卷积神经网络的第一卷积层均具有7x7的卷积核外,所有其余卷积层与池化层都具3x3的内核。
5.根据权利要求4所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,所述步骤3)中主分支中的特征层Layer1,Layer2,Layer3,Layer4以及相应的深度分支的特征层Layer1_d,Layer2_d,Layer3_d,Layer4_d皆由多个残差模块组成,包括带下采样的残差模块与不带下采样的残差模块,其中:
不带下采样的残差模块,由两个结构相同的卷积操作组成,该卷积操作拥有3x3的卷积核,且步幅与通道系数皆为1,两个残差的运算结果在模型的最后会与输入进行元素相加,形成一个完整的残差模块;
带下采样的残差模块,由两部分组成,其中第一部分由两个卷积层组成,第一个拥有3x3的卷积核,且步幅与通道倍数皆为2,即对输入的空间尺寸进行下采样,并获得两倍于输入的特征通道的卷积层,另一个卷积层具有相同卷积核大小,但步幅与通道倍数皆为1;第二部分则为一个卷积核为1x1,步幅为2,通道倍数为2的“旁路卷积”,该旁路卷积对图像直接运算;最后,旁路卷积与上述两个卷积的运算结果相加,成为一个完整的带下采样的残差网络。
6.根据权利要求5所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,所述步骤3)中,卷积神经网络框架的结构为:
a1、主分支第一卷积层Conv1以及深度分支中第一个卷积层Conv1_d,对RGB图像及深度图像进行64个卷积核卷积,即Conv1输出拥有64通道;
b1、Pool1与Pool1_d对Conv1与Conv1_d经过步幅为2的最大化池化操作;
c1、Layer1与Layer1_d对Pool1与Pool1_d的运算结果经过3个不带下采样的残差模块运算;
d1、Layer2与Layer2_d对Layer1与Layer1_d的运算结果经过1个带下采样的残差模块与3个不带下采样的残差模块运算;
e1、Layer3与Layer3_d对Layer2与Layer2_d的运算结果经过1个带下采样的残差模块与5个不带下采样的残差模块运算;
f1、Layer4与Layer4_d对Layer3与Layer3_d的运算结果经过1个带下采样的残差模块与2个不带下采样的残差模块运算。
7.根据权利要求6所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,基于上述的卷积神经网络框架结构,所述步骤3)中主分支在卷积运算的同时,在不同的卷积层中分多次融合深度分支的特征信息,步骤是:
(3-1)深度分支中的Pool1_d运算结果与主分支中Pool1运算结果相加,结果作为主分支中Layer1的输入;
(3-2)深度分支中的Layer1_d运算结果与主分支中Layer1运算结果相加,结果作为主分支中Layer2的输入;
(3-3)深度分支中的Layer2_d运算结果与主分支中Layer2运算结果相加,结果作为主分支中Layer3的输入;
(3-4)深度分支中的Layer3_d运算结果与主分支中Layer3运算结果相加,结果作为主分支中Layer4的输入;
(3-5)深度分支中的Layer4_d运算结果与主分支中Layer4运算结果相加,结果作为模型下采样阶段的输出,并作为上采样阶段的输入。
8.根据权利要求1所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,步骤4)在步骤3)的输出上进行上采样卷积运算,其中除了最后一个反卷积层Final Trans,其余层皆由带上采样或不带上采样的残差层组成;其中不带下采样的残差模块与步骤3)中完全相同,而带上采样的残差模块则由两部分组成,其中第一部分由两个卷积层组成,第一个拥有3x3的卷积核,且步幅与通道倍数皆为1,另一个卷积层具有相同卷积核大小,但拥有步幅与通道倍数皆为0.5,即对输入的空间尺寸进行上采样,并获得输入的特征通道的一半数量的卷积层,第二部分则为一个卷积核为2x2,步幅为0.5,通道倍数为0.5的“旁路卷积”,该旁路卷积对图像直接运算;最后,旁路卷积与上述两个卷积的运算结果相加,成为一个完整的带上采样的残差网络。
9.根据权利要求7所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,步骤4)中进行上采样卷积运算时,最后一个反卷积层Final Trans,其余层为Trans1、……Trans5,在步骤3)的输出上进行上采样的卷积运算,步骤是:
a2、Trans1对下采样阶段的运算结果,进行5个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
b2、Trans2对Trans1运算结果,进行3个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
c2、Trans3对Trans2运算结果,进行2个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
d2、Trans4对Trans3运算结果,进行2个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
e2、Trans4对Trans3运算结果,进行2个不带上采样的残差模块,以及一个带上采样的残差模块的运算;
f2、Trans5对Trans4运算结果,进行一个不带上采样的残差模块的运算;
g2、Final Trans对Trans5运算结果,进行一个卷积核为2x2,步幅为0.5的反卷积运算。
10.根据权利要求9所述的基于RGBD图像与全残差网络的语义分割方法,其特征在于,步骤4)中,获取步骤3)中各阶段特征层信息,将其融入上采样的各阶段,步骤是:
(4-1)Trans1运算结果与下采样过程中Layer3_d与Layer3结果的相加结果进行元素相加,结果作为Trans2的输入;
(4-2)Trans2运算结果与下采样过程中Layer2_d与Layer2结果的相加结果进行元素相加,结果作为Trans3的输入;
(4-3)Trans3运算结果与下采样过程中Layer1_d与Layer1结果的相加结果进行元素相加,结果作为Trans4的输入。
CN201810291496.0A 2018-04-03 2018-04-03 一种基于rgbd图像与全残差网络的语义分割方法 Withdrawn CN108664974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810291496.0A CN108664974A (zh) 2018-04-03 2018-04-03 一种基于rgbd图像与全残差网络的语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810291496.0A CN108664974A (zh) 2018-04-03 2018-04-03 一种基于rgbd图像与全残差网络的语义分割方法

Publications (1)

Publication Number Publication Date
CN108664974A true CN108664974A (zh) 2018-10-16

Family

ID=63783013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810291496.0A Withdrawn CN108664974A (zh) 2018-04-03 2018-04-03 一种基于rgbd图像与全残差网络的语义分割方法

Country Status (1)

Country Link
CN (1) CN108664974A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544559A (zh) * 2018-10-19 2019-03-29 深圳大学 图像语义分割方法、装置、计算机设备和存储介质
CN109670506A (zh) * 2018-11-05 2019-04-23 中国科学院计算技术研究所 基于克罗内克卷积的场景分割方法和系统
CN110006435A (zh) * 2019-04-23 2019-07-12 西南科技大学 一种基于残差网络的变电站巡检机器人视觉辅助导航方法
CN110276767A (zh) * 2019-06-28 2019-09-24 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
CN110738200A (zh) * 2019-12-23 2020-01-31 广州赛特智能科技有限公司 车道线3d点云地图构建方法、电子设备及存储介质
CN110782458A (zh) * 2019-10-23 2020-02-11 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782023A (zh) * 2019-11-04 2020-02-11 华南理工大学 约简残差模块多孔卷积架构网络及快速语义分割方法
WO2020077604A1 (zh) * 2018-10-19 2020-04-23 深圳大学 图像语义分割方法、计算机设备和存储介质
WO2020093210A1 (zh) * 2018-11-05 2020-05-14 中国科学院计算技术研究所 基于上下文信息指导的场景分割方法和系统
CN111292340A (zh) * 2020-01-23 2020-06-16 北京市商汤科技开发有限公司 语义分割方法、装置、设备及计算机可读存储介质
WO2020118826A1 (zh) * 2018-12-14 2020-06-18 深圳先进技术研究院 一种左心室图像分割方法、装置、设备及存储介质
CN111738265A (zh) * 2020-05-20 2020-10-02 山东大学 Rgb-d图像的语义分割方法、系统、介质及电子设备
CN112215180A (zh) * 2020-10-20 2021-01-12 腾讯科技(深圳)有限公司 一种活体检测方法及装置
CN112329780A (zh) * 2020-11-04 2021-02-05 杭州师范大学 一种基于深度学习的深度图像语义分割方法
CN112767418A (zh) * 2021-01-21 2021-05-07 大连理工大学 基于深度感知的镜子图像分割方法
CN113111886A (zh) * 2021-04-19 2021-07-13 太原科技大学 一种基于双层残差网络的交通场景图像语义分割方法
CN114723951A (zh) * 2022-06-08 2022-07-08 成都信息工程大学 一种用于rgb-d图像分割的方法
CN112215180B (zh) * 2020-10-20 2024-05-07 腾讯科技(深圳)有限公司 一种活体检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN107066916A (zh) * 2016-10-26 2017-08-18 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
CN107610141A (zh) * 2017-09-05 2018-01-19 华南理工大学 一种基于深度学习的遥感图像语义分割方法
CN107679502A (zh) * 2017-10-12 2018-02-09 南京行者易智能交通科技有限公司 一种基于深度学习图像语义分割的人数估计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066916A (zh) * 2016-10-26 2017-08-18 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
CN106709568A (zh) * 2016-12-16 2017-05-24 北京工业大学 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN107610141A (zh) * 2017-09-05 2018-01-19 华南理工大学 一种基于深度学习的遥感图像语义分割方法
CN107679502A (zh) * 2017-10-12 2018-02-09 南京行者易智能交通科技有限公司 一种基于深度学习图像语义分割的人数估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JINDONG JIANG, LUNAN ZHENG, FEI LUO, AND ZHIJUN ZHANG: ""RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic Segmentation"", 《ARXIV:1806.01054V1》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544559A (zh) * 2018-10-19 2019-03-29 深圳大学 图像语义分割方法、装置、计算机设备和存储介质
WO2020077604A1 (zh) * 2018-10-19 2020-04-23 深圳大学 图像语义分割方法、计算机设备和存储介质
CN109670506A (zh) * 2018-11-05 2019-04-23 中国科学院计算技术研究所 基于克罗内克卷积的场景分割方法和系统
WO2020093210A1 (zh) * 2018-11-05 2020-05-14 中国科学院计算技术研究所 基于上下文信息指导的场景分割方法和系统
WO2020118826A1 (zh) * 2018-12-14 2020-06-18 深圳先进技术研究院 一种左心室图像分割方法、装置、设备及存储介质
CN110006435A (zh) * 2019-04-23 2019-07-12 西南科技大学 一种基于残差网络的变电站巡检机器人视觉辅助导航方法
CN110276767A (zh) * 2019-06-28 2019-09-24 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
US11457138B2 (en) 2019-06-28 2022-09-27 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and device for image processing, method for training object detection model
CN110276767B (zh) * 2019-06-28 2021-08-31 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
CN110782458A (zh) * 2019-10-23 2020-02-11 浙江科技学院 一种非对称编码网络的物体图像3d语义预测分割方法
CN110782023B (zh) * 2019-11-04 2023-04-07 华南理工大学 约简残差模块多孔卷积架构网络及快速语义分割方法
CN110782023A (zh) * 2019-11-04 2020-02-11 华南理工大学 约简残差模块多孔卷积架构网络及快速语义分割方法
CN110738200A (zh) * 2019-12-23 2020-01-31 广州赛特智能科技有限公司 车道线3d点云地图构建方法、电子设备及存储介质
CN111292340A (zh) * 2020-01-23 2020-06-16 北京市商汤科技开发有限公司 语义分割方法、装置、设备及计算机可读存储介质
CN111738265A (zh) * 2020-05-20 2020-10-02 山东大学 Rgb-d图像的语义分割方法、系统、介质及电子设备
CN112215180A (zh) * 2020-10-20 2021-01-12 腾讯科技(深圳)有限公司 一种活体检测方法及装置
CN112215180B (zh) * 2020-10-20 2024-05-07 腾讯科技(深圳)有限公司 一种活体检测方法及装置
CN112329780A (zh) * 2020-11-04 2021-02-05 杭州师范大学 一种基于深度学习的深度图像语义分割方法
CN112329780B (zh) * 2020-11-04 2023-10-27 杭州师范大学 一种基于深度学习的深度图像语义分割方法
CN112767418A (zh) * 2021-01-21 2021-05-07 大连理工大学 基于深度感知的镜子图像分割方法
CN113111886B (zh) * 2021-04-19 2023-03-24 太原科技大学 一种基于双层残差网络的交通场景图像语义分割方法
CN113111886A (zh) * 2021-04-19 2021-07-13 太原科技大学 一种基于双层残差网络的交通场景图像语义分割方法
CN114723951A (zh) * 2022-06-08 2022-07-08 成都信息工程大学 一种用于rgb-d图像分割的方法

Similar Documents

Publication Publication Date Title
CN108664974A (zh) 一种基于rgbd图像与全残差网络的语义分割方法
CN106709532B (zh) 图像处理方法和装置
CN108876792B (zh) 语义分割方法、装置和系统及存储介质
CN111210435A (zh) 一种基于局部和全局特征增强模块的图像语义分割方法
CN111860138B (zh) 基于全融合网络的三维点云语义分割方法及系统
DE102019130889A1 (de) Schätzung der tiefe eines mit einer monokularen rgb-kamera aufgenommenen videodatenstroms
CN109376830A (zh) 二维码生成方法及装置
CN107679462A (zh) 一种基于小波的深度多特征融合分类方法
CN113159143B (zh) 基于跳跃连接卷积层的红外与可见光图像融合方法和装置
DE112019003529T5 (de) Datendarstellung für dynamische Genauigkeit in Kernen neuronaler Netze
CN112329780B (zh) 一种基于深度学习的深度图像语义分割方法
CN111373439B (zh) 使用cnn进行图像分割的方法
CN110162993A (zh) 脱敏处理方法、模型训练方法、装置和计算机设备
Li et al. Deep recursive up-down sampling networks for single image super-resolution
CN112132834A (zh) 一种心室图像分割方法、系统、装置及存储介质
CN113096001A (zh) 图像处理方法、电子设备及可读存储介质
US20230316699A1 (en) Image semantic segmentation algorithm and system based on multi-channel deep weighted aggregation
CN109816659A (zh) 图像分割方法、装置及系统
CN106709898A (zh) 一种图像融合方法及装置
CN110599495B (zh) 一种基于语义信息挖掘的图像分割方法
CN111626296B (zh) 基于深度神经网络的医学图像分割系统及方法、终端
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
CN115082371B (zh) 图像融合方法、装置、移动终端设备及可读存储介质
Hemmati et al. Deblending Galaxies with Generative Adversarial Networks
CN115294337B (zh) 训练语义分割模型的方法、图像语义分割方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20181016