CN111401380A - 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 - Google Patents
一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 Download PDFInfo
- Publication number
- CN111401380A CN111401380A CN202010215404.8A CN202010215404A CN111401380A CN 111401380 A CN111401380 A CN 111401380A CN 202010215404 A CN202010215404 A CN 202010215404A CN 111401380 A CN111401380 A CN 111401380A
- Authority
- CN
- China
- Prior art keywords
- network
- feature
- image
- feature map
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明针对RGB‑D图像的场景理解问题,提出了一种基于深度特征增强和边缘优化的RGB‑D图像分割方法,属于计算机视觉领域。本发明首先使用以Mask‑RCNN为主干的神经网络提取RGB‑D图像的彩色通道特征;然后设计了一种深度特征增强网络提取深度通道特征并与彩色特征进行融合;最后设计了一种基于随机游走的网络结构来对主干网络输出的分割结果进行边缘优化。本发明具有语义抽象程度高,特征融合充分,分割边缘清晰等优点。
Description
技术领域
本发明针对RGB-D图像的场景理解问题,提出了一种基于深度特征增强和边缘优化的RGB-D图像分割方法。本发明首先设计了一种深度特征增强网络提取深度通道特征,并与ResNet提取的彩色通道特征相融合;然后使用了一种基于目标预检测的方法对图像进行分割;最后设计了一种基于随机游走的网络结构来对网络输出的分割结果进行边缘优化。本发明属于计算机视觉领域,具体涉及深度学习,图像分割等技术。
背景技术
数字图像在人们的交流和生产活动中扮演着越来越重要的角色。随着信息传递效率的增加,每天都会生成海量的图像数据。计算机技术的发展为处理并理解海量的图像数据提供了可能性。图像分割技术能根据图像各部分包含信息的不同,将图像分割为多个语义区域,在医疗、教育、遥感等领域发挥着重要的作用。 RGB-D图像相较于传统的RGB三通道图像,增加了描述场景中物体距离的深度通道,增加了图像的信息量。本发明为了充分利用深度通道以增加图像分割的准确率,设计了一种基于深度特征增强和边缘优化的RGB-D图像分割方法。
传统的图像分割算法通常利用图像的灰度、颜色、纹理等特征来将图像简单地划分,难以对图像信息进行全面的描述,且无法对区域所属类别进行标注。基于深度学习的分割算法弥补了传统分割算法的缺陷,能自动对图像提取特征并标注分割区域所属类别。RGB-D图像包含了额外的深度通道,提供了场景中物体的几何信息,能够在光线、颜色等区分不明显的情况下仍保有较明显的边界。深度通道中相同类别的像素深度值趋于相似。这种特性使得深度通道能够为神经网络的训练提供先验信息。为了能更好地提取这种先验信息,本发明设计了一种深度特征增强网络来提取深度通道的特征,将其与ResNet网络提取彩色通道特征相融合,构建特征金字塔。
传统的神经网络分割算法采用单级的分割架构,缺乏高级信息的指导。MaskRCNN中采用先进行目标预检测,再对目标区域进行分割的双级检测架构,能有效利用场景中物体的高级信息。因此,本发明基于MaskRCNN种的分割逻辑,使用了一种基于目标预检测的分割方法对图像进行分割。
在神经网络提取特征的过程当中,为了得到旋转不变的特征,通常在网络中加入最大池化层(maxpooling)。最大池化层增加了网络的鲁棒性,但是其过程类似于下采样,会造成特征信息的损失。为了弥补最大池化层的信息损失,本发明通过原始图像计算出转移矩阵,将分割的优化视作一种随机游走过程,从而设计了一种随机游走网络来优化分割结果,增强分割边缘的准确性
发明内容
本发明针对RGB-D图像的场景理解问题,设计了一种基于深度学习的RGB- D图像分割框架。首先,为了弥补传统分割算法的局限性,提取更加鲁棒的特征,并充分深度通道提供的先验信息,本发明设计了一种基于ResNet网络和深度特征增强网络的特征提取方法;其次,为了充分利用场景中物体提供的高级信息,本发明使用了一种基于目标预检测的图像分割方法。最后,为了解决最大池化层的信息损失问题,本发明设计了一种随机游走网络对原始的分割结果边缘进行优化。本发明的主要流程可分为以下三个步骤:基于ResNet网络和深度特征增强网络的特征提取;基于目标预检测的图像分割;基于随机游走网络的分割结果优化。
(1)基于ResNet网络和深度特征增强网络的特征提取
图像分割通常面临场景多,数据复杂的问题。传统的分割算法通常基于图像的一些底层特征建模,难以在所有复杂情形下都实现较好的性能。神经网络算法由于其强大的学习能力,在图像处理领域效果优异。在光照不充分的情况下,普通彩色图像颜色纹理容易出现成像效果较差,辨识度低等缺点,不利于特征的提取。RGB-D图像提供了额外的深度通道信息,在光照条件较差的情况下也能保有明显的几何结构。因为深度通道具有同一类别像素的深度值趋于相同,不同类别像素的深度值趋于不同的特性,所以本发明提出可以将深度通道作为一种先验信息使不同类别的区域特征更易区分。为了加强深度通道的这种特性,减少深度通道的类内差异性,增加类间差异性。本发明设计了一种深度增强网络,来对深度通道特征进行增强和提取,并使用ResNet提取彩色通道的特征,将彩色通道特征与深度通道特征相融合构建特征金字塔。
(2)基于目标预检测的图像分割。
在图像分割领域,通常使用全卷积网络(FCN,Fully Convolutional Networks)作为网络的基础分割框架。FCN通过深层的网络结构提取特征并为每一个像素分配其对应的类别,但是全卷积网络学习过程常常缺乏更高层信息的指导,无法学习到像素之间的关联性。Mask-RCNN采用先检测,后分割的双重架构,基于对场景中物体的检测结果进行分割,能有效利用场景中物体的高层信息来指导分割结果。故本发明采用Mask-RCNN网络中双级分割架构,进行基于目标预检测的图像分割。
(3)基于随机游走网络的分割结果优化
神经网络常用的最大池化层选取上一层特征图的最大值作为下一层网络的输入,这种操作具有旋转不变的特性,使网络提取到的特征更鲁棒。但是最大池化层保留最大值的同时舍弃了其他值,和下采样操作类似,会无可避免地造成特征信息地损失,导致分割结果的边缘部分过于粗糙。本发明认为最大池化层损失的特征信息可以从原始输入图像中得到补充,提出使用原始图像信息来对分割结果进行优化。本发明将优化视作一种随机游走(random walk)过程,从原始图像中计算出状态转移矩阵,使分割图像向原始图像的边缘分布进行转移,进而设计出一种基于随机游走的网络结构来对原始的分割结果进行优化。
本发明首先基于Mask-RCNN网络的架构构建网络,设计了深度特征增强网络提取RGB-D图像彩色通道特征,并与ResNet网络提取的彩色通道特征相融合;再使用先检测,后分割的双极结构来对图像进行分割;最后通过随机游走网络对分割结果进行最终的优化。
本发明与现有技术相比,具有以下明显的优势和有益效果:
首先,本发明使用了基于Mask-RCNN神经网络的主干架构,增加了特征的多样性,并能利用目标检测的结果指导分割。其次,深度增强网络能挖掘出深度通道蕴含的先验信息,以此指导网络的训练。最后,随机游走网络能使优化分割结果边缘,使最终的分割结果更加准确。
附图说明
图1网络框架结构图;
具体实施方式
根据上述描述,以下是一个具体的实施流程,但本专利所保护的范围并不限于该实施流程。
步骤1:基于ResNet网络和深度特征增强网络的特征提取。
为了充分提取图像特征,本发明分别提取RGB-D图像的彩色通道特征和深度通道特征。其中,使用Mask-RCNN中的ResNet主干网络提取图像彩色通道特征,使用深度特征增强网络提取深度通道特征,并将两种特征相融合,构建特征金子塔。
步骤1.1:基于ResNet的彩色通道特征提取。
ResNet是一个多层的卷积神经网络结构。根据卷积层的尺寸,可以将ResNet 中的卷积层分为五个卷积组。整个ResNet的详细结构如图1所示,其中,stage1, stage2,stage3,stage4,stage5分别表示五个卷积组,每个卷积组的参数如表一所示。
stage1结构由1个卷积层和一个最大池化层构成,
stage2结构由7个卷积层构成,
stage3结构由10个卷积层构成
stage4结构由16个卷积层构成,
stage5结构由7个卷积层构成
取RGB-D图像的彩色通道Xin作为ResNet的输入。使用ResNet提取彩色通道特征的步骤如下所示:
(1)设输入彩色通道图像Xin尺寸为(height,height,3),将图像输入stage1 提取特征。设stage1输出的特征图为C1。
(2)将特征图C1输入stage2继续提取特征,得到输出的特征图C2。
(3)将特征图C2输入stage3继续提取特征,得到输出的特征图C3。
(4)将特征图C3输入stage4继续提取特征,得到输出的特征图C4。
(5)将特征图C4输入stage5继续提取特征,得到输出的特征图C5。
步骤1.2:基于深度增强网络的深度通道特征提取
深度增强网络结构如图1所示。与ResNet对应,深度增强网络同样包含4 个卷积网络组Dstage1,Dstage2,Dstage3,Dstage4。其中,Dstage1由一个卷积层和一个最大池化层组成,Dstage2,Dstage3,Dstage4结构一样,均由6个前后相接的卷积层组成。每个卷积组参数如表二所示。
(2)将特征图D1送入Dstage2提取特征。设Dstage2输出特征图为D2,按照 (1)中的方法将D2和C2融合,得到H2。
(3)将特征图D2送入Dstage3提取特征。设Dstage2输出特征图为D3,按照 (1)中的方法将D3和C3融合,得到H3。
(4)将特征图D3送入Dstage4提取特征。设Dstage4输出特征图为D4,按照 (1)中的方法将D4和C4融合,得到H4。
(5)将特征图D4送入Dstage5提取特征。设Dstage5输出特征图为D5,按照 (1)中的方法将D5和C5融合,得到H5。
(6)利用特征图D5计算损失函数。设数据集中共有K个类别,则每个类别损失函数计算公式如下:
S表示D5中属于这个类别的像素,D表示D5中不属于这个类别的像素。pi,j表示D5中(i,j)位置像素的值,pS和pD分别表示S中所有像素的平均值和D中所有像素的平均值。上述损失函数减小了类内差异。此外,使用以下损失函数增加不同类别之间的差异性。α,β为常数,分别为1.5和0.8:
lc=exp(-β*(pS-pD)2)
(7)综上所述,将K个类别的损失函数结果相加得到最终的损坏函数:
λ1,λ2,λ3分别表示三个常数,分别为0.6,0.2,0.2.用于控制损失函数的混合比例。使用损失值lall优化深度特征增强网络。
步骤1.3:构建特征金字塔
使用步骤1.2中的特征图H2,H3,H4,H5构建特征金字塔结构。使用1×1的卷积层对H5进行卷积,最终得到特征图P5。对H4进行同样的卷积操作,并将其输出结果与上采样后的P5逐像素相加,得到特征图P4。以此类推,将卷积后的H3与上采样后的P4相加得到P3,将卷积后的H2与上采样后的P3相加得到 P2。P2,P3,P4,P5即为特征金字塔结构,用于之后进一步操作。
步骤2:基于目标预检测的图像分割。
步骤2.1:基于RPN的候选框生成。
RPN即候选框生成网络(RPN,Region Proposal Network),是一种小型的网络结构。RPN为后面的目标检测和分割生成一系列的候选框。后续网络仅对候选框中的物体进行处理,避免了密集的计算。RPN网络结构如图1所示,可以分为两个分支。上方分支用于预测每个位置出现候选框的概率,下方分支用于预测每个位置候选框的偏移量。
准备步骤1.2(8)中的特征图P5作为RPN的输入;准备RGB-D图像的真实目标框用于计算真值标签和真实偏移值。RPN网络训练的具体步骤如下:
(1)根据特征图P5预定义好一组锚框(有可能成为候选框的框),即在P5 每一个像素位置定义ka个不同尺寸的锚框。设P5的长宽均为Na.则锚框数量共有Na×Na×ka个。
(2)计算网络训练的真值标签,用于RPN上方分支的训练。若锚框与真实目标框重合度超过50%,则标记为正标签,反之标记为负标签;计算锚框与真实目标框的真实偏移值,用于RPN下方分支的训练。
(3)对特征图P5进行卷积操作,卷积核尺寸为3×3,步长为1×1,输出通道为512,最终得到特征图Fa.将Fa输入RPN的两个分支。
(4)对特征图Fa进行1×1的卷积,输出通道数为2ka的特征图。对特征图使用softmax,后,该网络分支输出一个Na×Na×2ka的概率值Pclass。每个锚框对应两个概率值,分别表示该锚框为候选框以及不为候选框的概率。使用Pclass和(2)中的真值标签,计算交叉熵损失函数Lclass.
(5)对特征图Fa进行1×1的卷积,输出通道数为Na×Na×4ka的偏移值Preg。每个锚框对应4个偏移值,分别表示锚框在平行,垂直两个方向上的位移偏移值,以及长和宽的缩放偏移值。使用和Preg和(2)中的真实偏移值,计算smooth L1损失函数Lreg.
(6)使用Lclass与Lreg之和作为最终损失值,优化RPN网络参数。
步骤1.3:最终分割
如图1所示,最终分割网络由四个卷积层和一个反卷积层组成。
准备步骤1.2(8)中特征金字塔P2,P3,P4,P5作为输入;准备步骤2.1中RPN 输出的概率值Pclass和偏移值Preg分别用于锚框的筛选和定位;准备图像真实分割结果用于计算损失函数;训练的具体步骤如下:
(1)根据概率值Pclass对锚框进行排名,取排名前n个锚框作为候选框。
(2)根据每个候选框尺寸,从特征金字塔中的四层特征图P2,P3,P4,P5中选择一层提取特征。设选择特征图Pk。k表示特征图的序号,其计算公式为:
其中,Hp,Wp分别代表候选框的高度和宽度。
(3)将每个候选框坐标加上Preg中的位移偏移值,将每个候选框尺寸乘上Preg中的缩放偏移值,得到最终的候选框位置Lbox和尺寸Sbox。
(4)根据每一个Lbox和Sbox,从特征图Pk中裁取特征图Fbox,即在特征图Pk 的位置Lbox处裁取尺寸为Sbox的特征图,表示为Fbox.
(5)将每一个特征图Fbox输入分割分支网络,输出分割结果mt.将每一个候选框的分割结果mt组合成为最终分割结果Mt.使用真实分割结果和分割结果Mt,计算交叉熵函数Lmask.
(6)使用Lmask优化分割网络以及步骤1.1中的ResNet网络。
步骤3:基于随机游走网络的分割结果优化
随机游走是一种数学统计模型,可以用于描述分子的布朗运动。运用在图像领域则是假设图像上每一点都以某一概率向相邻点不断扩散。将分割图像的优化过程视作一种随机游走过程。取步骤1.3中的分割结果Mt.则优化过程可以表示为:
Mt+1=TMt
其中,转移矩阵T表示图像中每个像素点向其他位置转移的概率,矩阵的 (i,j)位置的值表示图像上第i个点转移到第j个点的概率。使用随机游走网络可以使分割结果边缘部分更加细致。
下面详细介绍使用随机游走网络优化分割结果的主要步骤。准备RGB-D的彩色通道Xin和深度通道Din,用于转移矩阵T的计算;准备步骤1.3中输出的分割结果Mt,则具体步骤如下所示:
(1)计算相似矩阵S。设Mt尺寸为N×N.则相似矩阵的尺寸为N2×N2.计算过程可以表示为:
其中,Ii和Ij分别表示彩色通道图像Xin中的第i和第j个像素的值,Di和Dj分别表示深度通道图像Din中的第i和第j个像素的值。θ为一个常数。R(i)表示第i个像素的邻域像素。Sij表示相似矩阵S中(i,j)位置的值。
(2)对相似矩阵进一步进行处理得到矩阵U。首先使用1x1的卷积层对相似矩阵S进行点乘,然后进行指数运算,计算过程可以表示为::
Uij=exp(Wij·Sij)
Wij代表卷积核的参数,Uij表示矩阵U中(i,j)位置的值。
(3)对Uij每一行进行归一化,得到最终的转移矩阵T:
Tij=RowNormalize(Uij)
(4)将尺寸为N×N的分割结果Mt变形为尺寸为N2×1的列向量Vt.将转移矩阵T与Vt进行矩阵乘法,得到优化后的列向量Vt+1,计算过程可以表示为:
Vt+1=TVt
(4)将Vt+1重新变形为尺寸为N×N的矩阵Mt+1.则Mt+1即为最终优化后的分割结果。
训练时使用真实分割结果和分割结果Mt+1,计算交叉熵函数 Lrandom,并使用损失函数优化随机游走网络中的参数。
表一ResNet各网络组参数
表二深度特征增强网络各网络组参数。
Claims (8)
1.一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法,其特征包括以下内容:
步骤1:利用ResNet网络提取RGB-D图像的彩色通道特征,并设计深度特征增强网络提取RGB-D图像的深度通道特征,最后将彩色通道和深度通道特征相融合构建特征金字塔;
步骤2:进行基于目标预检测的图像分割:首先使用RPN网络基于特征金子塔最后一层特征生成目标候选框;再使用分割网络对目标候选框内特征图逐一进行分割;将每个候选框分割结果相组合成为最终分割结果;
步骤3:设计一种随机游走网络对步骤2中的最终分割结果进行边缘优化:网络首先利用原始RGB-D图像计算出转移矩阵;再将分割结果与转移矩阵相运算得到优化后的分割结果。
2.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法,其特征在于步骤1所述RGB-D图像彩色通道特征的提取采用基于ResNet的特征提取层,
其中,ResNet中的卷积层分为五个网络组,即stage1,stage2,stage3,stage4,stage5,
特征提取的步骤如下所示:
(1)数据准备:取RGB-D图像的彩色通道Xin作为ResNet的输入;
(2)设输入图像为Xin尺寸为(height,height,3),将图像输入stage1提取特征,设stage1输出的特征图为C1;
(3)将特征图C1输入stage2继续提取特征,得到输出的特征图C2;
(4)将特征图C2输入stage3继续提取特征,得到输出的特征图C3;
(5)将特征图C3输入stage4继续提取特征,得到输出的特征图C4;
(6)将特征图C4输入stage5继续提取特征,得到输出的特征图C5。
3.根据权利要求2所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法,其特征在于:
stage1结构由1个卷积层和一个最大池化层构成,
stage2结构由7个卷积层构成,
stage3结构由10个卷积层构成
stage4结构由16个卷积层构成,
stage5结构由7个卷积层构成。
4.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法,其特征在于:步骤1中所述深度特征增强网络结构如下:
深度增强网络包含4个卷积网络组Dstage1,Dstage2,Dstage3,Dstage4,其中,Dstage1由一个卷积层和一个最大池化层组成,Dstage2,Dstage3,Dstage4结构一样,均由6个前后相接的卷积层组成;
(1)数据准备:取RGB-D图像的深度通道Din作为深度特征增强网络的输入,取图像的真值分割结果用于计算损失函数;
(3)将特征图D1送入Dstage2提取特征,Dstage2输出特征图为D2,按照本权利要求中第(2)步的方法将D2和C2融合,得到H2;
(4)将特征图D2送入Dstage3提取特征。设Dstage2输出特征图为D3,按照本权利要求中第(2)步中的方法将D3和C3融合,得到H3;
(5)将特征图D3送入Dstage4提取特征。设Dstage4输出特征图为D4,按照本权利要求中第(2)步中的方法将D4和C4融合,得到H4;
(6)将特征图D4送入Dstage5提取特征。设Dstage5输出特征图为D5,按照本权利要求中第(2)步中的方法将D5和C5融合,得到H5;
(7)构建损失函数:
利用特征图D5计算损失函数:数据集中共有K个类别,则每个类别损失函数计算公式如下:
S表示D5中属于这个类别的像素,D表示D5中不属于这个类别的像素,Ns表示S包含的像素总数,Nd表示D包含的像素总数,pi,j表示D5中(i,j)位置像素的值,pS和pD分别表示S中所有像素的平均值和D中所有像素的平均值,上述损失函数减小了类内差异,此外,使用以下损失函数增加不同类别之间的差异性,α,β为常数,:
lc=exp(-β*(pS-pD)2)
综上所述,将K个类别的损失函数结果相加得到最终的损失函数:
λ1,λ2,λ3分别表示三个常数,用于控制损失函数的混合比例,使用损失值lall优化深度特征增强网络。
5.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法,其特征在于所述步骤1中的特征金字塔结构,
其构建方法如下:
数据准备:准备权利要求4中的特征图H2,H3,H4,H5构建特征金字塔结构;
构建步骤:使用1×1的卷积层对H5进行卷积,最终得到特征图P5;对H4进行同样的卷积操作,并将其输出结果与上采样后的P5逐像素相加,得到特征图P4;以此类推,将卷积后的H3与上采样后的P4相加得到P3,将卷积后的H2与上采样后的P3相加得到P2;P2,P3,P4,P5即为特征金字塔结构。
6.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法,其特征在于所述步骤2中的RPN网络用于为后面的目标检测和分割生成一系列的候选框,后续网络仅对候选框中的物体进行处理;RPN分为两个分支:上方分支用于预测每个位置出现候选框的概率,下方分支用于预测每个位置候选框的偏移量;
RPN网络的具体训练步骤如下:
(1)数据准备:准备权利要求5中的特征图P5作为RPN的输入;准备RGB-D图像的真实目标框用于计算真值标签和真实偏移值;
(2)根据特征图P5预定义好一组锚框:所述锚框指有可能成为候选框的框,即在P5每一个像素位置定义ka个不同尺寸的锚框;设P5的长宽均为Na,则锚框数量共有Na×Na×ka个;
(3)计算网络训练的真值标签,用于RPN上方分支的训练;若锚框与真实目标框重合度超过50%,则标记为正标签,反之标记为负标签;计算锚框与真实目标框的真实偏移值,用于RPN下方分支的训练。
(4)对特征图P5进行卷积操作,卷积核尺寸为3×3,步长为1×1,输出通道为512,最终得到特征图Fa.
(5)对于RPN上方分支:对特征图Fa进行1×1的卷积,输出通道数为2ka的特征图,对特征图使用softmax后,RPN上方分支输出一个Na×Na×2ka的概率值Pclass;每个锚框对应两个概率值,分别表示该锚框为候选框以及不为候选框的概率;使用Pclass和本权利要求步骤(3)中的真值标签,计算交叉熵损失函数Lclass;
(6)对于RPN下方分支:对特征图Fa进行1×1的卷积,输出通道数为Na×Na×4ka的偏移值Preg;每个锚框对应4个偏移值,分别表示锚框在平行,垂直两个方向上的位移偏移值,以及长和宽的缩放偏移值;使用和Preg和本权利要求步骤(3)中的真实偏移值,计算smooth L1损失函数Lreg;
使用Lclass与Lreg之和作为最终损失值,优化RPN网络参数。
7.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法,其特征在于步骤2中所述的基于候选框的分割网络由四个卷积层和一个反卷积层组成,训练的步骤如下:
(1)数据准备:准备权利要求5中特征金字塔P2,P3,P4,P5作为输入;准备RPN输出的概率值Pclass和偏移值Preg分别用于锚框的筛选和定位;准备图像真实分割结果用于计算损失函数;
(2)根据概率值Pclass对锚框进行排名,取排名前n个锚框作为候选框;
(3)根据每个候选框尺寸,从特征金字塔中的四层特征图P2,P3,P4,P5中选择一层提取特征,设选择的特征图Pk,k表示特征图的序号,其计算公式为:
其中,Hp,Wp分别代表候选框的高度和宽度;
(4)将每个候选框坐标加上Preg中的位移偏移值,将每个候选框尺寸乘上Preg中的缩放偏移值,得到最终的候选框位置Lbox和尺寸Sbox;
(5)根据每一个Lbox和Sbox,从特征图Pk中裁取特征图Fbox,即在特征图Pk的位置Lbox处裁取尺寸为Sbox的特征图,表示为Fbox;
(6)将每一个特征图Fbox输入分割分支网络,输出分割结果mt,将每一个候选框的分割结果mt组合成为最终分割结果Mt,使用真实分割结果和分割结果Mt,计算交叉熵函数Lmask;
(7)使用Lmask优化分割网络以及ResNet网络。
8.根据权利要求1所述的一种基于深度特征增强和边缘优化的RGB-D图像语义分割方法,其特征在于步骤3中所述的随机游走网络。
随机游走网络优化分割结果的步骤如下所示:
(1)准备数据:准备RGB-D的彩色通道Xin和深度通道Din,用于转移矩阵T的计算;准备权利要求7中的分割结果Mt,
(2)计算相似矩阵S:设Mt尺寸为N×N.则相似矩阵的尺寸为N2×N2.计算过程可以表示为:
其中,Ii和Ij分别表示彩色通道图像Xin中的第i和第j个像素的值,Di和Dj分别表示深度通道图像Din中的第i和第j个像素的值;θ为一个常数,R(i)表示第i个像素的邻域像素,Sij表示相似矩阵S中(i,j)位置的值;
(3)对相似矩阵进一步进行处理得到矩阵U:首先使用1x1的卷积层对相似矩阵S进行点乘,然后进行指数运算,计算过程可以表示为:
Uij=exp(Wij·Sij)
Wij代表卷积核的参数,Uij表示矩阵U中(i,j)位置的值。
(4)对Uij每一行进行归一化,得到最终的转移矩阵T:
Tij=RowNormalize(Uij)
(5)将尺寸为N×N的分割结果Mt变形为尺寸为N2×1的列向量Vt,将转移矩阵T与Vt进行矩阵乘法,得到优化后的列向量Vt+1,计算过程可以表示为:
Vt+1=TVt
(6)将Vt+1重新变形为尺寸为N×N的矩阵Mt+1.则Mt+1即为最终优化后的分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010215404.8A CN111401380B (zh) | 2020-03-24 | 2020-03-24 | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010215404.8A CN111401380B (zh) | 2020-03-24 | 2020-03-24 | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401380A true CN111401380A (zh) | 2020-07-10 |
CN111401380B CN111401380B (zh) | 2023-06-20 |
Family
ID=71429077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010215404.8A Active CN111401380B (zh) | 2020-03-24 | 2020-03-24 | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401380B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222916A (zh) * | 2021-04-28 | 2021-08-06 | 北京百度网讯科技有限公司 | 采用目标检测模型检测图像的方法、装置、设备和介质 |
CN113609951A (zh) * | 2021-07-30 | 2021-11-05 | 北京百度网讯科技有限公司 | 目标检测模型的训练和目标检测方法、装置、设备及介质 |
US20210357683A1 (en) * | 2020-10-22 | 2021-11-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for determining target anchor, device and storage medium |
CN113673562A (zh) * | 2021-07-15 | 2021-11-19 | 浙江大华技术股份有限公司 | 一种特征增强的方法、目标分割方法、装置和存储介质 |
CN114723951A (zh) * | 2022-06-08 | 2022-07-08 | 成都信息工程大学 | 一种用于rgb-d图像分割的方法 |
CN114882091A (zh) * | 2022-04-29 | 2022-08-09 | 中国科学院上海微系统与信息技术研究所 | 一种结合语义边缘的深度估计方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN109409240A (zh) * | 2018-09-28 | 2019-03-01 | 北京航空航天大学 | 一种结合随机游走的SegNet遥感图像语义分割方法 |
-
2020
- 2020-03-24 CN CN202010215404.8A patent/CN111401380B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN109409240A (zh) * | 2018-09-28 | 2019-03-01 | 北京航空航天大学 | 一种结合随机游走的SegNet遥感图像语义分割方法 |
Non-Patent Citations (3)
Title |
---|
GEDAS BERTASIUS 等: "Convolutional Random Walk Networks for Semantic Image Segmentation" * |
代具亭;汤心溢;刘鹏;邵保泰;: "基于彩色-深度图像和深度学习的场景语义分割网络" * |
王富治;秦付军;蒋代君;宋昌林;: "基于视觉注意的随机游走图像分割" * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210357683A1 (en) * | 2020-10-22 | 2021-11-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for determining target anchor, device and storage medium |
US11915466B2 (en) * | 2020-10-22 | 2024-02-27 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for determining target anchor, device and storage medium |
CN113222916A (zh) * | 2021-04-28 | 2021-08-06 | 北京百度网讯科技有限公司 | 采用目标检测模型检测图像的方法、装置、设备和介质 |
CN113222916B (zh) * | 2021-04-28 | 2023-08-18 | 北京百度网讯科技有限公司 | 采用目标检测模型检测图像的方法、装置、设备和介质 |
CN113673562A (zh) * | 2021-07-15 | 2021-11-19 | 浙江大华技术股份有限公司 | 一种特征增强的方法、目标分割方法、装置和存储介质 |
CN113609951A (zh) * | 2021-07-30 | 2021-11-05 | 北京百度网讯科技有限公司 | 目标检测模型的训练和目标检测方法、装置、设备及介质 |
CN113609951B (zh) * | 2021-07-30 | 2023-11-24 | 北京百度网讯科技有限公司 | 目标检测模型的训练和目标检测方法、装置、设备及介质 |
CN114882091A (zh) * | 2022-04-29 | 2022-08-09 | 中国科学院上海微系统与信息技术研究所 | 一种结合语义边缘的深度估计方法 |
CN114882091B (zh) * | 2022-04-29 | 2024-02-13 | 中国科学院上海微系统与信息技术研究所 | 一种结合语义边缘的深度估计方法 |
CN114723951A (zh) * | 2022-06-08 | 2022-07-08 | 成都信息工程大学 | 一种用于rgb-d图像分割的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111401380B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111401380B (zh) | 一种基于深度特征增强和边缘优化的rgb-d图像语义分割方法 | |
CN111310773B (zh) | 一种高效的卷积神经网络的车牌定位方法 | |
CN111640125B (zh) | 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置 | |
CN111259828B (zh) | 基于高分辨率遥感图像多特征的识别方法 | |
CN111753828B (zh) | 一种基于深度卷积神经网络的自然场景水平文字检测方法 | |
CN110738207A (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN103049763B (zh) | 一种基于上下文约束的目标识别方法 | |
Alidoost et al. | A CNN-based approach for automatic building detection and recognition of roof types using a single aerial image | |
CN110321967B (zh) | 基于卷积神经网络的图像分类改进方法 | |
CN111242208A (zh) | 一种点云分类方法、分割方法及相关设备 | |
CN105528575B (zh) | 基于上下文推理的天空检测方法 | |
CN113705641B (zh) | 基于富上下文网络的高光谱图像分类方法 | |
CN105184772A (zh) | 一种基于超像素的自适应彩色图像分割方法 | |
CN110211127B (zh) | 基于双相关性网络的图像分割方法 | |
CN111768415A (zh) | 一种无量化池化的图像实例分割方法 | |
CN111640116B (zh) | 基于深层卷积残差网络的航拍图建筑物分割方法及装置 | |
CN115205672A (zh) | 一种基于多尺度区域注意力的遥感建筑物语义分割方法及系统 | |
CN104835196A (zh) | 一种车载红外图像彩色化三维重建方法 | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 | |
CN114299382A (zh) | 高光谱遥感图像分类方法及系统 | |
CN111832508B (zh) | 基于die_ga的低照度目标检测方法 | |
CN111368848B (zh) | 一种复杂场景下的文字检测方法 | |
CN113011506A (zh) | 一种基于深度重分形频谱网络的纹理图像分类方法 | |
CN110348311B (zh) | 一种基于深度学习的道路交叉口识别系统及方法 | |
CN115719414A (zh) | 基于任意四边形回归的目标检测与精确定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |