CN111915619A - 一种双特征提取与融合的全卷积网络语义分割方法 - Google Patents
一种双特征提取与融合的全卷积网络语义分割方法 Download PDFInfo
- Publication number
- CN111915619A CN111915619A CN202010503027.8A CN202010503027A CN111915619A CN 111915619 A CN111915619 A CN 111915619A CN 202010503027 A CN202010503027 A CN 202010503027A CN 111915619 A CN111915619 A CN 111915619A
- Authority
- CN
- China
- Prior art keywords
- feature extraction
- feature
- module
- extraction module
- rgb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
Abstract
本发明公开了一种双特征提取与融合的全卷积网络语义分割方法,该全卷积网络采用编码器‑解码器结构,包括编码器部分与解码器部分。在编码器部分中,RGB图像与深度图像无需做任何预处理,分别输入到两个独立的特征提取分支中,并由浅至深地进行特征提取,同时在这一过程中,不同尺度的RGB特征与深度特征不断融合,在解码器部分中则利用编码器部分提供的特征图逐步实现对每个像素的类别标注,输出分割结果。本发明提供的方法实现了RGB‑D特征的多级提取与多尺度融合,达到充分有效结合RGB特征与深度特征,进而提高分割精度的目的。
Description
技术领域
本发明涉及图像分割技术领域,具体涉及一种双特征提取与融合的全卷积网络语义分割方法。
背景技术
随着计算机技术的迅速发展,人工智能已经融入到了人们的生活、工作、学习和娱乐之中,人工智能的交互主要依靠计算机视觉,而图像语义分割是研究计算机视觉的基础,同样也是计算机视觉中热门的研究方向之一。近些年来,随着深度学习的不断发展,在图像语义分割任务中出现了许多优秀的深度神经网络,U-net网络作为其中的一种简单而有效的图像语义分割网络,在面对小数据量时仍然展现出了优异的性能,使其最早被用在了医学图像领域,随后便被学者迁移使用到了其他的图像分割领域。
目前,对图像语义分割的研究主要还是集中在单一的RGB图像或灰度图像上。低成本RGB-D传感器的出现为图像语义分割任务提供了一种全新的视角——深度图像(Depthimage),表现为一幅灰度图像,其中每一点的像素值代表了物体与传感器之间的距离信息,距离传感器所在平面越近的点灰度值越大。深度图像边缘性较强,具有丰富的空间信息,不会受到光照、阴影和颜色等因素的影响,研究表明利用深度信息对具有相似深度、外观和位置的物体进行分割可获得性能上的提升。由于深度特征与RGB特征这种互补的关系,在图像的RGB特征之上结合深度特征输入到图像语义分割网络进行分割可以潜在地提高网络的性能,这样的融合思想可以用在各式各样的计算机视觉应用场景,如人机交互、视觉场景理解和机器人技术,其中如何有效地融合RGB特征和深度特征就显得极为重要。
现今利用深度信息进行图像语义分割的主要手段是将RGB特征与深度特征进行融合来实现的,融合的方式主要是两种:1)将RGB图像与深度图像进行通道维度上的拼接,形成一个四通道的图像数据,再将其直接输入到分割网络中进行分割,这种融合方式虽然简单,但它不能充分利用由深度通道编码的场景空间结构信息,无法有效提升分割性能,甚至还可能因为深度图像中所带入的噪声降低分割性能,要想利用这种融合方式获得较好的分割性能需要搭建更深更广的网络体系结构,但更深更广的网络体系结构需要大量的数据集来进行训练,这样会导致训练时间过长,并且实际中很多应用场景往往无法获得大量的数据集。2)将深度图像编码成一个三通道的图像数据,三个通道分别代表水平视差、高于地面的高度和像素的局部表面与推断重力方向的倾角,此时再将该三通道数据与RGB图像进行拼接形成六通道数据后输入到网络进行分割,可获得较好的分割结果,但这种编码方式强调每个通道数据之间的互补信息而忽略了各个通道的独立成分,并且还引入了额外的计算量。
总之,现有的RGB特征与深度特征的融合方式还存在着一定的局限性。主要问题是无法充分利用深度特征中的信息,分割精度受限,复杂度较高。
发明内容
本发明的目的是为了解决现有技术中RGB特征与深度特征的融合方式的不足,提供一种双特征提取与融合的全卷积网络语义分割方法。
本发明的目的可以通过采取如下技术方案达到:
一种双特征提取与融合的全卷积网络语义分割方法,该全卷积网络采用编码器-解码器结构,包括编码器部分与解码器部分,其中,所述编码器部分包括两个特征提取分支,分别为RGB分支与深度分支,RGB分支与深度分支均包括依次顺序连接的第一特征提取模块、池化层、第二特征提取模块、池化层、第三特征提取模块、池化层、第四特征提取模块、池化层和第五特征提取模块;所述解码器部分包括依次顺序连接的第一上采样模块、第二上采样模块、第三上采样模块与第四上采样模块和Sigmoid预测层;所述图像语义分割方法包括如下步骤:
S1、使用RGB-D传感器采集目标分割物体的RGB图像与深度图像,并对所述目标分割物体的RGB图像与深度图像进行标定与增强;
S2、将目标分割物体的RGB图像与深度图像分别输入到编码器部分的RGB分支与深度分支中进行由浅至深的特征提取,RGB图像与深度图像在各自分支中均依次通过第一特征提取模块、池化层、第二特征提取模块、池化层、第三特征提取模块、池化层、第四特征提取模块、池化层和第五特征提取模块,分别得到由RGB分支中第一、第二、第三、第四、第五特征提取模块提取到的特征图谱FR1、FR2、FR3、FR4、FR5和由深度分支中第一、第二、第三、第四、第五特征提取模块提取到的特征图谱FD1、FD2、FD3、FD4、FD5,在特征提取的过程中,深度分支中每一个特征提取模块提取的不同尺度的特征图谱均传输至RGB分支中对应的特征提取模块进行融合操作,经过四个池化层的下采样进行尺寸缩小,最后提取特征图谱FR5;
S3、将编码器部分中RGB分支的第五特征提取模块提取的特征图谱FR5传输至解码器部分,逐步通过第一、第二、第三与第四上采样模块将特征图谱的尺寸恢复至原图大小,其中,每一个上采样模块中均进行一次特征拼接操作;
S4、将第四上采样模块输出的特征图谱传输至Sigmoid预测层,该Sigmoid预测层在特征图谱上以1为步长对各个像素进行遍历,同时结合Sigmoid函数将每一个像素的输出置信度范围限制在0到1之间,输出初步分割结果;
S5、对输出的初步分割结果进行置信度判断,对于置信度大于0.5的像素点,认为其属于目标分割物体并将其值置为1;对于置信度小于0.5的像素点,认为其属于背景并将其值置为0;
S6、经过步骤S5之后,各个像素点的置信度取值为1或0,此时将置信度乘以255并作为各个点的像素值;经过前述操作,各个像素点的取值变为255或0,其中,0代表背景信息,255则代表目标分割物体;最终输出的分割结果即为一幅只保留目标分割物体和背景的黑白图像。
进一步地,所述步骤S1中在采集到的RGB图像上采用点标注的形式进行数据标定形成标签图像,接着对采集到的RGB图像、深度图像以及对应的标签图像进行包括旋转、平移、改变亮度在内的数据增强方式实现对原始数据集的扩充,增强网络对特定变化的鲁棒性。
进一步地,所述RGB分支与深度分支中第一特征提取模块、第二特征提取模块、第三特征提取模块结构相同,其中,第一特征提取模块、第二特征提取模块、第三特征提取模块均包括两个串联的卷积层Conv,每个卷积层Conv的卷积核尺寸为3*3,采用的非线性激活函数为ReLU;所述RGB分支与深度分支中第四特征提取模块和第五特征提取模块结构相同,其中,第四特征提取模块和第五特征提取模块包括上述的两个串联的卷积层Conv以及连接在两个卷积层Conv之后一层Dropout层。
进一步地,所述池化层均采用步长为2、尺寸为2*2的最大池化层Max pool,每经过一次池化层,特征图谱的尺寸缩小为原来的1/2。
进一步地,所述解码器部分的第一上采样模块、第二上采样模块、第三上采样模块与第四上采样模块结构相同,第一上采样模块、第二上采样模块、第三上采样模块与第四上采样模块均包括一个转置卷积层和两个串联的卷积层,其中,转置卷积层中转置卷积分为两步,第一步先对特征图谱进行一次上采样操作,上采样操作采用最近邻插值的方式将输入特征图谱的尺寸放大两倍,第二步再将上采样的结果输入到一个卷积层中,该卷积层的卷积核尺寸为2*2,采用的非线性激活函数为ReLU;转置卷积后紧跟两个串联的卷积层,每个卷积层的卷积核尺寸为3*3,采用的非线性激活函数为ReLU。
进一步地,所述解码器部分的Sigmoid预测层为一个卷积核尺寸为1*1的卷积层,采用的非线性激活函数为Sigmoid。
进一步地,所述融合操作过程如下:
将RGB分支中的第i特征提取模块中的第二个卷积层输出的特征图谱FRi与深度分支中的第i特征提取模块中的第二个卷积层输出的特征图谱FDi进行融合,融合操作表示为Add(FRi,FDi),其中i=1,2,3,4,5,Add实现为两个特征图谱对应点的像素值相加,得到的新的特征图谱继续在RGB分支中往后传递。
进一步地,所述拼接操作过程如下:
第j上采样模块中的转置卷积输出的特征图谱FUPj与通过跳跃连接传递过来的浅层图像特征谱FR(5-j)进行拼接,拼接操作表示为Concatenate(FUPj,FR(5-j)),其中,j=1,2,3,4,实现两个特征图谱在通道上的拼接操作,上述跳跃连接是直接将浅层特征传递过来,与通过转置卷积层后的结果进行通道上的拼接,形成更厚的特征图谱,继续往后传递。
进一步地,所述步骤S4中使用的Sigmoid函数形式如下:
其中,z为输入,e是一个常数。
进一步地,所述步骤S5中的置信度判断准则为:
其中,Score为置信度,1代表该像素点归类到目标分割物体区域,0代表该像素点归类到背景区域,f(z)为Sigmoid函数计算值。
本发明相对于现有技术具有如下的优点及效果:
1、本发明构建的网络结构能够直接接受原始RGB图与原始深度图作为输入,实现端到端的图像语义分割,从而无需再对原始深度图做额外的编码处理。
2、本发明通过构建两个独立的特征提取分支来实现对原始RGB图与原始深度图的多级特征提取,在特征提取的过程中,由深度分支提取到的不同尺度的特征图谱不断地与RGB分支中提取到的特征图谱进行融合,实现RGB-D特征多尺度的融合,达到充分有效结合RGB特征与深度特征,进而实现高精度的图像语义分割的目的,为融合深度信息进行图像语义分割提供了一种精准的方案。
附图说明
图1是本发明公开的一种双特征提取与融合的全卷积网络语义分割方法的流程图;
图2是本发明公开的一种双特征提取与融合的全卷积网络语义分割方法的网络结构图;
图3是本发明的第一特征提取模块、第二特征提取模块、第三特征提取模块的结构图;
图4是本发明的第四特征提取模块、第五特征提取模块的结构图;
图5是本发明的上采样模块的结构图;
图6是本发明的双特征融合(Fusion)方式的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
手势识别是人机交互领域中热门的研究方向之一,而手势分割是手势识别中最重要也是最基础的一个步骤,其目的是要把人手区域从图像中分割出来。本实施例将采用图1所示的流程图与图2所示的网络结构图,提供一种双特征提取与融合的全卷积网络语义分割方法,实现对手势的分割。
在图像分割领域,由于深度特征与RGB特征存在的互补关系,在图像的RGB特征之上结合深度特征输入到图像语义分割网络进行分割可以潜在地提高网络的性能。为有效地结合RGB特征与深度特征,本发明构建了一种双特征提取与融合结构,即构建两个独立的特征提取分支来分别对原始的RGB图与原始的深度图进行多级特征提取,在特征提取的过程中,由深度分支提取到的不同尺度的特征图谱不断地与RGB分支中提取到的特征图谱进行融合,实现RGB-D特征多尺度的融合。与现有技术的单一特征提取分支相比,所述构建的双特征提取与融合结构不仅引入了额外的深度特征信息实现多模态(RGB-D)的特征融合,以更多的信息量实现更高精度的分割,还进行了多尺度的特征融合以获取更丰富的全局特征信息和提高网络对不同尺度物体分割的性能。本发明构建的网络结构能够直接接受原始RGB图与原始深度图作为输入实现端到端的图像语义分割,从而无需再对原始深度图做额外的编码处理,大大减小了数据预处理的成本。
本实施例提出一种全卷积网络,基于Unet网络进行修改,该全卷积网络采用编码器-解码器结构,如图2所示,包括编码器部分与解码器部分,其中,编码器部分包括两个特征提取分支,分别为RGB分支与深度分支,两个分支中均包括第一特征提取模块、池化层、第二特征提取模块、池化层、第三特征提取模块、池化层、第四特征提取模块、池化层和第五特征提取模块,其结构连接方式为第一特征提取模块依次串联池化层、第二特征提取模块、池化层、第三特征提取模块、池化层、第四特征提取模块、池化层和第五特征提取模块。
其中,解码器部分包括第一上采样模块、第二上采样模块、第三上采样模块与第四上采样模块和Sigmoid预测层,其结构连接方式为第一上采样模块依次串联第二上采样模块、第三上采样模块与第四上采样模块和Sigmoid预测层。
依据上述提出的全卷积网络,图像语义分割方法包括如下步骤:
S1、使用Kinect深度摄像仪采集不同手势的RGB图像与深度图像,采集时要求手势的手心面向摄像头,展开手掌,指尖向上,手势平面与摄像头平面尽量保持平行。采集到的数据每组包括一张RGB图像和一张对应的深度图像,两种图像的原始分辨率均为640*480。接着对采集到的RGB图像与深度图像进行标定与增强。
S2、将人手的RGB图像与深度图像分别输入到编码器部分的RGB分支与深度分支中进行由浅至深的特征提取,RGB图像在RGB分支中依次通过第一特征提取模块、池化层、第二特征提取模块、池化层、第三特征提取模块、池化层、第四特征提取模块、池化层和第五特征提取模块,分别得到由RGB分支中第一、第二、第三、第四、第五特征提取模块提取到的特征图谱FR1、FR2、FR3、FR4、FR5,深度图像在深度分支中依次通过第一特征提取模块、池化层、第二特征提取模块、池化层、第三特征提取模块、池化层、第四特征提取模块、池化层和第五特征提取模块,分别得到由深度分支中第一、第二、第三、第四、第五特征提取模块提取到的特征图谱FD1、FD2、FD3、FD4、FD5,在特征提取的过程中,深度分支中每一个特征提取模块提取的不同尺度的特征图谱均传输至RGB分支中对应的特征提取模块进行融合(Fusion)操作。经过四个池化层的下采样后,最后提取到的特征图谱FR5的尺寸缩小为原图尺寸的1/16;
S3、将编码器部分中RGB分支的第五特征提取模块提取的特征图谱FR5传输至解码器部分,逐步通过第一、第二、第三与第四上采样模块将特征图谱的尺寸恢复至原图大小,在这一过程中,每一个上采样模块中都会进行一次特征拼接(Concatenation)操作;
S4、将第四上采样模块输出的特征图谱传输至Sigmoid预测层,该层在特征图谱上以1为步长对各个像素进行遍历,同时结合Sigmoid函数将每一个像素的输出置信度范围限制在0到1之间,输出初步分割结果;
S5、对输出的初步分割结果进行置信度判断,对于置信度大于0.5的像素点,认为其属于目标分割物体并将其值置为1;对于置信度小于0.5的像素点,认为其属于背景并将其值置为0;
S6、经过步骤S5之后,各个像素点的置信度取值为1或0,此时将置信度乘以255并作为各个点的像素值;经过前述操作,各个像素点的取值变为255或0,其中,0(黑色)代表背景信息,255(白色)则代表目标分割物体;最终输出的分割结果即为一幅只保留目标分割物体和背景的黑白图像。
本实施例的步骤S1中在采集到的RGB图像上采用点标注的形式进行数据标定,更具体地,将人手区域的每一个像素点的像素值置为(255,255,255),其他的区域即背景区域全置为(0,0,0),然后进行处理使得标定的三通道图像变为单通道灰度图像,同时将像素值除以255归一化成0或1,以此作为标签图像,接着对采集到的RGB图像、深度图像以及对应的标签图像进行包括旋转、平移、改变亮度在内的数据增强方式来实现对原始数据集的扩充,增强网络对特定变化的鲁棒性。
本实施例中,RGB分支与深度分支中的第一特征提取模块、第二特征提取模块、第三特征提取模块结构完全相同,图3给出了一个所述特征提取模块的具体结构,第一特征提取模块、第二特征提取模块、第三特征提取模块均包括两个串联的卷积层Conv,每个卷积层Conv的卷积核尺寸为3*3,采用的非线性激活函数为ReLU;RGB分支与深度分支中的第四特征提取模块和第五特征提取模块结构完全相同,除包括有上述类型的两个串联的卷积层Conv外,还包括有一层Dropout层,所述Dropout层连接在两个卷积层之后,图4给出了一个所述特征提取模块的具体结构。
本实施例中,池化层均采用步长为2、尺寸为2*2的最大池化层Max pool,每经过一次池化层,特征图谱的尺寸缩小为原来的1/2。
本实施例中,解码器部分的第一上采样模块、第二上采样模块、第三上采样模块与第四上采样模块结构完全相同,图5给出了一个所述上采样模块的具体结构,均包括一个转置卷积(Up-conv)层和两个串联的卷积层,其中,转置卷积(Up-conv)层中转置卷积分为两步,第一步先对特征图谱进行一次上采样操作,上采样操作采用最近邻插值的方式将输入特征图谱的尺寸放大两倍,第二步再将上采样的结果输入到一个卷积层中,该卷积层的卷积核尺寸为2*2,采用的非线性激活函数为ReLU;转置卷积后紧跟两个串联的卷积层,每个卷积层的卷积核尺寸为3*3,采用的非线性激活函数为ReLU。
本实施例中,解码器部分的Sigmoid预测层为一个卷积核尺寸为1*1的卷积层,采用的非线性激活函数为Sigmoid。
本实施例中,步骤S2中融合(Fusion)操作即,将RGB分支中的第i特征提取模块中的第二个卷积层输出的特征图谱FRi与深度分支中的第i特征提取模块中的第二个卷积层输出的特征图谱FDi进行融合,融合操作表示为Add(FRi,FDi),其中i=1,2,3,4,5,Add实现为两个特征图谱对应点的像素值相加,如图6所示,得到的新的特征图谱继续在RGB分支中往后传递。
本实施例中,步骤S3中的拼接(Concatenation)操作即,第j上采样模块中的转置卷积输出的特征图谱FUPj与通过跳跃连接传递过来的浅层图像特征谱FR(5-j)进行拼接,拼接操作表示为Concatenate(FUPj,FR(5-j)),其中,j=1,2,3,4,拼接(Concatenation)操作实现两个特征图谱在通道上的拼接操作,上述跳跃连接是直接将浅层特征传递过来,与通过转置卷积层后的结果进行通道上的拼接,形成更厚的特征图谱,继续往后传递。
本实施例中,步骤S4中所使用的Sigmoid函数形式如下:
其中,z为输入,e是一个常数。
本实施例中,步骤S5中的置信度判断准则为:
其中,Score为置信度,1代表该像素点归类到目标分割物体区域,0代表该像素点归类到背景区域,f(z)为Sigmoid函数计算值。
在本实施例中,对全卷积网络进行端到端的训练过程中,所使用的优化器为Adam优化器,初始学习率设置为10-4,初始训练迭代轮数设置为15,同时,为了最小化开销并最大限度地利用GPU内存,将单轮训练输入样本数设置为一组图像,并将图像的分辨率调整为256*256,以及将每一个点的像素值归一化到0到1之间。由于本实施例中手势分割只需区分人手区域和背景区域,属于二分类问题,因此损失函数选择二元交叉熵损失函数,对于每一个像素点,函数表达式如下:
loss=-[ylog(p)+(1-y)log(1-p)]
其中,y为样本标签,人手区域标签为1,背景区域标签为0,p为预测为人手区域的概率或置信度。对所有像素计算损失值再做平均即得到整个分割结果的损失值。确定好相关设置后,随机初始化网络权重,开始训练,训练过程中,网络模型先通过前向传播得到每一个像素的预测值,经过损失函数计算真实值与预测值之间的误差,再通过反向传播调整网络权重以降低损失值。在模型训练初期,通过观察模型收敛的速度即损失值的下降速度与趋势来判断学习率的设置是否合理,学习率设置过低会导致模型收敛速度过慢,设置过高又会导致损失值曲线变化起伏。在模型训练的后期,当损失值和准确率均趋于一个稳定值,则可以终止模型的训练,保存此时的模型的权重;反之,若模型已迭代完成设定的轮数但损失值和准确率仍然呈下降趋势,则可以在此次迭代结束生成的权重值基础上增加训练轮数用以继续训练模型,直至损失值和准确率均趋于一个稳定值。
综上所述,本实施例将现有的U-net网络改进成一种RGB-D双特征提取与融合的全卷积网络来实现图像的语义分割。该全卷积网络保留了U-net的编码器-解码器结构,编码器部分通过神经网络学习得到输入图像的特征图谱,解码器部分利用编码器部分提供的特征图逐步实现每个像素的类别标注,输出分割结果。不同的是,在编码器部分,将原来U-net的单特征提取结构改进成双特征提取结构,RGB图像与深度图像无需做任何预处理,直接分别输入到两个独立的特征提取分支中,并由浅至深地进行特征提取,同时在这一过程中,深度分支提取的特征不断地融合到RGB分支中,实现RGB-D特征的多级提取与多尺度融合,达到充分有效结合RGB特征与深度特征,进而提高分割精度的目的。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包括在本发明的保护范围之内。
Claims (10)
1.一种双特征提取与融合的全卷积网络语义分割方法,其特征在于,该全卷积网络采用编码器-解码器结构,包括编码器部分与解码器部分,其中,所述编码器部分包括两个特征提取分支,分别为RGB分支与深度分支,RGB分支与深度分支均包括依次顺序连接的第一特征提取模块、池化层、第二特征提取模块、池化层、第三特征提取模块、池化层、第四特征提取模块、池化层和第五特征提取模块;所述解码器部分包括依次顺序连接的第一上采样模块、第二上采样模块、第三上采样模块与第四上采样模块和Sigmoid预测层;所述图像语义分割方法包括如下步骤:
S1、使用RGB-D传感器采集目标分割物体的RGB图像与深度图像,并对所述目标分割物体的RGB图像与深度图像进行标定与增强;
S2、将目标分割物体的RGB图像与深度图像分别输入到编码器部分的RGB分支与深度分支中进行由浅至深的特征提取,RGB图像与深度图像在各自分支中均依次通过第一特征提取模块、池化层、第二特征提取模块、池化层、第三特征提取模块、池化层、第四特征提取模块、池化层和第五特征提取模块,分别得到由RGB分支中第一、第二、第三、第四、第五特征提取模块提取到的特征图谱FR1、FR2、FR3、FR4、FR5和由深度分支中第一、第二、第三、第四、第五特征提取模块提取到的特征图谱FD1、FD2、FD3、FD4、FD5,在特征提取的过程中,深度分支中每一个特征提取模块提取的不同尺度的特征图谱均传输至RGB分支中对应的特征提取模块进行融合操作,经过四个池化层的下采样进行尺寸缩小,最后提取特征图谱FR5;
S3、将编码器部分中RGB分支的第五特征提取模块提取的特征图谱FR5传输至解码器部分,逐步通过第一、第二、第三与第四上采样模块将特征图谱的尺寸恢复至原图大小,其中,每一个上采样模块中均进行一次特征拼接操作;
S4、将第四上采样模块输出的特征图谱传输至Sigmoid预测层,该Sigmoid预测层在特征图谱上以1为步长对各个像素进行遍历,同时结合Sigmoid函数将每一个像素的输出置信度范围限制在0到1之间,输出初步分割结果;
S5、对输出的初步分割结果进行置信度判断,对于置信度大于0.5的像素点,认为其属于目标分割物体并将其值置为1;对于置信度小于0.5的像素点,认为其属于背景并将其值置为0;
S6、经过步骤S5之后,各个像素点的置信度取值为1或0,此时将置信度乘以255并作为各个点的像素值;经过前述操作,各个像素点的取值变为255或0,其中,0代表背景信息,255则代表目标分割物体;最终输出的分割结果即为一幅只保留目标分割物体和背景的黑白图像。
2.根据权利要求1所述的一种双特征提取与融合的全卷积网络语义分割方法,其特征在于,所述步骤S1中在采集到的RGB图像上采用点标注的形式进行数据标定形成标签图像,接着对采集到的RGB图像、深度图像以及对应的标签图像进行包括旋转、平移、改变亮度在内的数据增强方式实现对原始数据集的扩充,增强网络对特定变化的鲁棒性。
3.根据权利要求1所述的一种双特征提取与融合的全卷积网络语义分割方法,其特征在于,所述RGB分支与深度分支中第一特征提取模块、第二特征提取模块、第三特征提取模块结构相同,其中,第一特征提取模块、第二特征提取模块、第三特征提取模块均包括两个串联的卷积层Conv,每个卷积层Conv的卷积核尺寸为3*3,采用的非线性激活函数为ReLU;所述RGB分支与深度分支中第四特征提取模块和第五特征提取模块结构相同,其中,第四特征提取模块和第五特征提取模块包括上述的两个串联的卷积层Conv以及连接在两个卷积层Conv之后一层Dropout层。
4.根据权利要求1所述的一种双特征提取与融合的全卷积网络语义分割方法,其特征在于,所述池化层均采用步长为2、尺寸为2*2的最大池化层Max pool,每经过一次池化层,特征图谱的尺寸缩小为原来的1/2。
5.根据权利要求1所述的一种双特征提取与融合的全卷积网络语义分割方法,其特征在于,所述解码器部分的第一上采样模块、第二上采样模块、第三上采样模块与第四上采样模块结构相同,第一上采样模块、第二上采样模块、第三上采样模块与第四上采样模块均包括一个转置卷积层和两个串联的卷积层,其中,转置卷积层中转置卷积分为两步,第一步先对特征图谱进行一次上采样操作,上采样操作采用最近邻插值的方式将输入特征图谱的尺寸放大两倍,第二步再将上采样的结果输入到一个卷积层中,该卷积层的卷积核尺寸为2*2,采用的非线性激活函数为ReLU;转置卷积后紧跟两个串联的卷积层,每个卷积层的卷积核尺寸为3*3,采用的非线性激活函数为ReLU。
6.根据权利要求1所述的一种双特征提取与融合的全卷积网络语义分割方法,其特征在于,所述解码器部分的Sigmoid预测层为一个卷积核尺寸为1*1的卷积层,采用的非线性激活函数为Sigmoid。
7.根据权利要求1所述的一种双特征提取与融合的全卷积网络语义分割方法,其特征在于,所述融合操作过程如下:
将RGB分支中的第i特征提取模块中的第二个卷积层输出的特征图谱FRi与深度分支中的第i特征提取模块中的第二个卷积层输出的特征图谱FDi进行融合,融合操作表示为Add(FRi,FDi),其中i=1,2,3,4,5,Add实现为两个特征图谱对应点的像素值相加,得到的新的特征图谱继续在RGB分支中往后传递。
8.根据权利要求1所述的一种双特征提取与融合的全卷积网络语义分割方法,其特征在于,所述拼接操作过程如下:
第j上采样模块中的转置卷积输出的特征图谱FUPj与通过跳跃连接传递过来的浅层图像特征谱FR(5-j)进行拼接,拼接操作表示为Concatenate(FUPj,FR(5-j)),其中,j=1,2,3,4,实现两个特征图谱在通道上的拼接操作,上述跳跃连接是直接将浅层特征传递过来,与通过转置卷积层后的结果进行通道上的拼接,形成更厚的特征图谱,继续往后传递。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010503027.8A CN111915619A (zh) | 2020-06-05 | 2020-06-05 | 一种双特征提取与融合的全卷积网络语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010503027.8A CN111915619A (zh) | 2020-06-05 | 2020-06-05 | 一种双特征提取与融合的全卷积网络语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111915619A true CN111915619A (zh) | 2020-11-10 |
Family
ID=73237921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010503027.8A Pending CN111915619A (zh) | 2020-06-05 | 2020-06-05 | 一种双特征提取与融合的全卷积网络语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111915619A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509052A (zh) * | 2020-12-22 | 2021-03-16 | 苏州超云生命智能产业研究院有限公司 | 黄斑中心凹的检测方法、装置、计算机设备和存储介质 |
CN112767418A (zh) * | 2021-01-21 | 2021-05-07 | 大连理工大学 | 基于深度感知的镜子图像分割方法 |
CN112837360A (zh) * | 2021-01-07 | 2021-05-25 | 北京百度网讯科技有限公司 | 深度信息处理方法、装置、设备、存储介质和程序产品 |
CN112862830A (zh) * | 2021-01-28 | 2021-05-28 | 陕西师范大学 | 一种多模态图像分割方法、系统、终端及可读存储介质 |
CN112881986A (zh) * | 2021-01-15 | 2021-06-01 | 电子科技大学 | 基于优化深度模型的雷达切片存储转发式干扰抑制方法 |
CN112967296A (zh) * | 2021-03-10 | 2021-06-15 | 重庆理工大学 | 一种点云动态区域图卷积方法、分类方法及分割方法 |
CN113065578A (zh) * | 2021-03-10 | 2021-07-02 | 合肥市正茂科技有限公司 | 一种基于双路区域注意力编解码的图像视觉语义分割方法 |
CN113096175A (zh) * | 2021-03-24 | 2021-07-09 | 苏州中科广视文化科技有限公司 | 一种基于卷积神经网络的深度图置信度估计方法 |
CN113658182A (zh) * | 2021-10-21 | 2021-11-16 | 北京矩视智能科技有限公司 | 基于并行多分支特征融合的表面缺陷区域分割方法及装置 |
CN114494185A (zh) * | 2022-01-25 | 2022-05-13 | 国网吉林省电力有限公司电力科学研究院 | 一种基于rgb-t多尺度特征融合的电气设备故障检测方法 |
CN114723951A (zh) * | 2022-06-08 | 2022-07-08 | 成都信息工程大学 | 一种用于rgb-d图像分割的方法 |
CN115409764A (zh) * | 2021-05-28 | 2022-11-29 | 南京博视医疗科技有限公司 | 一种基于域自适应的多模态眼底血管分割方法及装置 |
CN116307267A (zh) * | 2023-05-15 | 2023-06-23 | 成都信息工程大学 | 一种基于卷积的降雨预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403430A (zh) * | 2017-06-15 | 2017-11-28 | 中山大学 | 一种rgbd图像语义分割方法 |
CN109711413A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像语义分割方法 |
CN110298361A (zh) * | 2019-05-22 | 2019-10-01 | 浙江省北大信息技术高等研究院 | 一种rgb-d图像的语义分割方法和系统 |
CN110349087A (zh) * | 2019-07-08 | 2019-10-18 | 华南理工大学 | 基于适应性卷积的rgb-d图像高质量网格生成方法 |
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
-
2020
- 2020-06-05 CN CN202010503027.8A patent/CN111915619A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107403430A (zh) * | 2017-06-15 | 2017-11-28 | 中山大学 | 一种rgbd图像语义分割方法 |
CN109711413A (zh) * | 2018-12-30 | 2019-05-03 | 陕西师范大学 | 基于深度学习的图像语义分割方法 |
CN110298361A (zh) * | 2019-05-22 | 2019-10-01 | 浙江省北大信息技术高等研究院 | 一种rgb-d图像的语义分割方法和系统 |
CN110349087A (zh) * | 2019-07-08 | 2019-10-18 | 华南理工大学 | 基于适应性卷积的rgb-d图像高质量网格生成方法 |
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
Non-Patent Citations (2)
Title |
---|
DI LIN ET AL: "Cascaded Feature Network for Semantic Segmentation of RGB-D Images", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
代具亭 等: "基于彩色_深度图像和深度学习的场景语义分割网络", 《科学技术与工程》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509052A (zh) * | 2020-12-22 | 2021-03-16 | 苏州超云生命智能产业研究院有限公司 | 黄斑中心凹的检测方法、装置、计算机设备和存储介质 |
CN112509052B (zh) * | 2020-12-22 | 2024-04-23 | 苏州超云生命智能产业研究院有限公司 | 黄斑中心凹的检测方法、装置、计算机设备和存储介质 |
CN112837360A (zh) * | 2021-01-07 | 2021-05-25 | 北京百度网讯科技有限公司 | 深度信息处理方法、装置、设备、存储介质和程序产品 |
CN112837360B (zh) * | 2021-01-07 | 2023-08-11 | 北京百度网讯科技有限公司 | 深度信息处理方法、装置、设备、存储介质和程序产品 |
CN112881986A (zh) * | 2021-01-15 | 2021-06-01 | 电子科技大学 | 基于优化深度模型的雷达切片存储转发式干扰抑制方法 |
CN112881986B (zh) * | 2021-01-15 | 2022-08-23 | 电子科技大学 | 基于优化深度模型的雷达切片存储转发式干扰抑制方法 |
CN112767418A (zh) * | 2021-01-21 | 2021-05-07 | 大连理工大学 | 基于深度感知的镜子图像分割方法 |
CN112862830A (zh) * | 2021-01-28 | 2021-05-28 | 陕西师范大学 | 一种多模态图像分割方法、系统、终端及可读存储介质 |
CN112862830B (zh) * | 2021-01-28 | 2023-12-22 | 陕西师范大学 | 一种多模态图像分割方法、系统、终端及可读存储介质 |
CN113065578B (zh) * | 2021-03-10 | 2022-09-23 | 合肥市正茂科技有限公司 | 一种基于双路区域注意力编解码的图像视觉语义分割方法 |
CN113065578A (zh) * | 2021-03-10 | 2021-07-02 | 合肥市正茂科技有限公司 | 一种基于双路区域注意力编解码的图像视觉语义分割方法 |
CN112967296A (zh) * | 2021-03-10 | 2021-06-15 | 重庆理工大学 | 一种点云动态区域图卷积方法、分类方法及分割方法 |
CN113096175A (zh) * | 2021-03-24 | 2021-07-09 | 苏州中科广视文化科技有限公司 | 一种基于卷积神经网络的深度图置信度估计方法 |
CN113096175B (zh) * | 2021-03-24 | 2023-10-24 | 苏州中科广视文化科技有限公司 | 一种基于卷积神经网络的深度图置信度估计方法 |
CN115409764A (zh) * | 2021-05-28 | 2022-11-29 | 南京博视医疗科技有限公司 | 一种基于域自适应的多模态眼底血管分割方法及装置 |
CN115409764B (zh) * | 2021-05-28 | 2024-01-09 | 南京博视医疗科技有限公司 | 一种基于域自适应的多模态眼底血管分割方法及装置 |
CN113658182A (zh) * | 2021-10-21 | 2021-11-16 | 北京矩视智能科技有限公司 | 基于并行多分支特征融合的表面缺陷区域分割方法及装置 |
CN114494185A (zh) * | 2022-01-25 | 2022-05-13 | 国网吉林省电力有限公司电力科学研究院 | 一种基于rgb-t多尺度特征融合的电气设备故障检测方法 |
CN114494185B (zh) * | 2022-01-25 | 2022-09-30 | 国网吉林省电力有限公司电力科学研究院 | 一种基于rgb-t多尺度特征融合的电气设备故障检测方法 |
CN114723951A (zh) * | 2022-06-08 | 2022-07-08 | 成都信息工程大学 | 一种用于rgb-d图像分割的方法 |
CN116307267B (zh) * | 2023-05-15 | 2023-07-25 | 成都信息工程大学 | 一种基于卷积的降雨预测方法 |
CN116307267A (zh) * | 2023-05-15 | 2023-06-23 | 成都信息工程大学 | 一种基于卷积的降雨预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111915619A (zh) | 一种双特征提取与融合的全卷积网络语义分割方法 | |
CN111325751B (zh) | 基于注意力卷积神经网络的ct图像分割系统 | |
CN111340814B (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
WO2020037965A1 (zh) | 一种用于视频预测的多运动流深度卷积网络模型方法 | |
CN112329780B (zh) | 一种基于深度学习的深度图像语义分割方法 | |
CN110689599A (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN114549574A (zh) | 一种基于掩膜传播网络的交互式视频抠图系统 | |
CN111401379A (zh) | 基于编解码结构的DeepLabv3plus-IRCNet图像语义分割算法 | |
CN109344822A (zh) | 一种基于长短期记忆网络的场景文本检测方法 | |
CN111652081A (zh) | 一种基于光流特征融合的视频语义分割方法 | |
CN113077505A (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN111627055B (zh) | 一种联合语义分割的场景深度补全方法 | |
CN116486080A (zh) | 一种基于深度学习的轻量化图像语义分割方法 | |
CN116109920A (zh) | 一种基于Transformer的遥感图像建筑物提取方法 | |
CN113554032A (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN112418235A (zh) | 一种基于膨胀最近邻特征增强的点云语义分割方法 | |
CN116229106A (zh) | 一种基于双u结构的视频显著性预测方法 | |
CN113850324B (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN115222754A (zh) | 一种基于知识蒸馏和对抗学习的镜面图像分割方法 | |
CN113408350B (zh) | 一种基于边缘特征提取的遥感图像显著性检测方法 | |
CN114170304A (zh) | 一种基于多头自注意力和置换注意力的相机定位方法 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN116342877A (zh) | 一种复杂场景下基于改进aspp和融合模块的语义分割方法 | |
CN116485892A (zh) | 一种弱纹理物体的六自由度位姿估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201110 |
|
WD01 | Invention patent application deemed withdrawn after publication |