CN112101410A - 一种基于多模态特征融合的图像像素语义分割方法及系统 - Google Patents

一种基于多模态特征融合的图像像素语义分割方法及系统 Download PDF

Info

Publication number
CN112101410A
CN112101410A CN202010775626.5A CN202010775626A CN112101410A CN 112101410 A CN112101410 A CN 112101410A CN 202010775626 A CN202010775626 A CN 202010775626A CN 112101410 A CN112101410 A CN 112101410A
Authority
CN
China
Prior art keywords
pixel
image
level
modal
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010775626.5A
Other languages
English (en)
Other versions
CN112101410B (zh
Inventor
孙显
许光銮
张文凯
刘文杰
汪勇
李轩
张政远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202010775626.5A priority Critical patent/CN112101410B/zh
Publication of CN112101410A publication Critical patent/CN112101410A/zh
Application granted granted Critical
Publication of CN112101410B publication Critical patent/CN112101410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于多模态特征融合的图像像素语义分割方法,包括对多模态图像数据分别进行图像增强处理;基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像,并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征;采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合,得到像素级的多模态融合特征;基于像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率,选择像素被正确分类的概率最高值进行图像像素语义分割;本发明更好地进行多模态间互补特征的融合,提高了模型对边界对象的分割性能以及加快网络的收敛。

Description

一种基于多模态特征融合的图像像素语义分割方法及系统
技术领域
本发明涉及一种图像分割技术,具体讲涉及一种基于多模态特征融合的图像像素语义分割方法及系统。
背景技术
随着计算机视觉领域的兴起,图像语义分割备受人们的关注,图像分割技术比较困难,现实生活中人们对于视觉处理的要求又比较苛刻。生活中图像是一种传达信息的方式,其中包含了大量的信息,它是人类感知世界的信息载体。在计算机视觉领域,图像分割一直是数字图像技术中的难点,也是从图像处理到图像分析的关键。对于图像的研究,人们往往更加关注其中有意义的部分,这些部分往往是图像中具有特殊性质的区域,怎么把它从图像中提取出来就是图像分割需要研究的问题了。
传统的图像方法仅利用像素之间的相似性对图进行区域划分,并不能预测出割结果的类别。受限于计算能力,早期的图像分割算法仅使用简单的分类器和单一的特征提取图像割方法,例如FCM(Fuzzy c-means)、分水岭、灰度共生矩阵等。这些方法特征表达能力较差、区分度不高,因而出现了各种复杂的手工设计特征和有监督的机器学习分类器。这类方法通常采用特征提取算子提取图像的局部区域,然后利用分类器进行分类。常用的分类器包括随机森林、条件随机场、支持向量机等等。尽管传统分割方法取得了一定的成效,但是这些方法往往依赖丰富的先验知识进行特征的表达,因此会造成高昂的时间和成本代价。
卷积神经网络凭借其强大的特征表达能力,在自然语言处理和计算机视觉领域取得了极大的成功。全卷积网络(FCN)是将卷积神经网络首次引入语义分割领域的开创性工作,它将传统类神经网络最后全连接层替换为卷积层,实现了端到端的图像素级分类。SegNet同样利用VGGNet提取特征,它在解码器中使用了池化来恢复图像的空间特征。U-net拥有对称的编解码结构,采用了逐层上采样的方式进行解码,此外还使用了跨层连接的方将编器中多个尺度特征与对应特征进行融合,在医学图像分割领域得到了广泛的应用。RefineNet由模块化的多路网络组成,编码器由残差模块逐层提取特征,解码器由多路融合模块逐步融合不同尺度的特征,最终使用链式残差池化结构捕获全局背景上下文信息遥感领域和自然场景下的影像数据通常包含除了光学可见光图像以外多种数据源的信息,多模态图像数据中丰富的特征在大场景应用范围下的语义分割任务中能够带来有价值的信息。现有的语义分割方法存在以下的缺点:一、网络模型通常为单模态深度神经网络,这样导致在相同颜色和纹理的图像像素产生语义歧义,难以适应大场景复杂环境下的图像语义分割。二、现有的网络模型未能充分利用上下文信息,难以设计更好的模块进行多尺度上下文关系聚合。三、现有的双路多特征提取网络主要在早期或者后期进行特征融合,很难对不同模态的特征信息进行有效利用。
发明内容
基于现有技术中存在的如下问题,一、网络模型通常为单模态深度神经网络,这样导致在相同颜色和纹理的图像像素产生语义歧义,难以适应大场景复杂环境下的图像语义分割。二、现有的网络模型未能充分利用上下文信息,难以设计更好的模块进行多尺度上下文关系聚合。三、现有的双路多特征提取网络主要在早期或者后期进行特征融合,很难对不同模态的特征信息进行有效利用。本发明提供了一种基于多模态特征融合的图像像素语义分割方法,包括:
对多模态图像数据分别进行图像增强处理;
基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像,并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征;
采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合,得到像素级的多模态融合特征;
基于所述像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率,选择所述像素被正确分类的概率最高值进行图像像素语义分割;
其中,所述深度神经网络的构建由具有多尺度残差单元和空洞空间金字塔池化模块的编码器,以及带有跳优化结构和多分辨率监控策略的解码器构建而成。
优选的,所述深度神经网络的包括:编码器和解码器;
所述编码器包括:多尺度残差单元和空洞空间金字塔池化模块;
所述解码器包括:跳优化结构和多分辨率监控策略;
所述多尺度残差单元,用于提取像素级的RGB图像和深度图像的特征信息;
所述空洞空间金字塔池化模块,用于增强像素级的RGB图像和深度图像的特征信息;
所述跳优化结构和多分辨率监控策略,用于通过多分辨率监控策略对增强像素级的RGB图像和深度图像的特征信息进行多分辨率监控,并通过跳优化结构的融合机制对同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征。
优选的,所述空洞空间金字塔池化模块用于增强像素级的RGB图像和深度图像的特征信息包括:
将多模态图像的像素级的RGB图像和深度图像的通过1*1卷积层将图像通道数降低为原来的1/4,连续级联两个3*3的卷积层增大感受野,最后通过一个1*1的卷积层恢复多模态图像的通道数,得到增强像素级的RGB图像和深度图像的特征信息。
优选的,所述感受野通过下式计算:
Feff=F1+F2-1
式中,Feff:感受野;F1、F2:为不同模态的空洞卷积的感受野。
优选的,所述对多模态图像数据分别进行图像增强处理,包括:
对RGB图像和深度图像进行翻转变换、随机修建、色彩抖动、平移变换、尺度变换、旋转变换、扭曲缩放以及噪声扰动数据集增强方式;
其中,所述多模态图像数据包括深度图像和RGB图像。
优选的,所述基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像,并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征,包括:
采用所述多尺度残差单元从增强处理后的多模态图像数据中提取像素级的RGB图像和深度图像的特征信息;
并采用空洞空间金字塔池化模块增强所述像素级的RGB图像和深度图像的特征信息;
通过所述解码器中的多分辨率监控策略对增强后的所述像素级的RGB图像和深度图像的特征信息进行多分辨率监控;
并采用解码器中的跳优化结构对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行特征融合,得到融合后的层级特征。
优选的,所述并采用解码器中的跳优化结构对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行特征融合,得到融合后的层级特征,包括:
对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行全局池化操作,得到池化结果;
将所述池化结果通过一个1*1的卷积层进行降维处理,得到降维后的图像特征;
将所述降维后的图像特征作为同一模态图像中降维后的图像特征的融合权重;
基于所述融合权重和局池化结果进行融合,得到融合后的层级特征。
优选的,所述采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合,得到像素级的多模态融合特征,包括:
将任意两模态的像素级特征通过Concat的方式在通道维度上进行连接得到合并模态特征,将所述合并模态特征连续通过两个3*3的卷积层进行特征提取,得到两模态融合后的图像高层特征;
将所述图像高层特征作为所述合并模态特征的权值进行加权,得到加权后的合并模态特征;
将所述加权后的合并模态特征经过3*3的卷积层再次进行特征提取,得到像素级的多模态融合特征。
优选的,所述像素被正确分类的概率按下式计算:
Figure BDA0002618252290000041
式中,pj表示像素ar被分类为标签j的概率,An,Bn分别代表不同的输入模态,θ代表权重和偏置的网络参数;qj(ar,θ):利用qj函数对每个像素ar作分类打分,σ表示经过一个sigmoid函数;qk(ar,θ):利用qk函数对每个像素ar作分类打分。
优选的,所述权重和偏置的网络参数θ通过下式进行迭代收敛得到:
Figure BDA0002618252290000051
式中,
Figure BDA0002618252290000052
表示克罗内克δ函数。
基于同一发明构思,本发明还提供了一种基于多模态特征融合的图像像素语义分割系统,包括:
增强处理模块,对多模态图像数据分别进行图像增强处理;
层级特征融合模块,基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像,并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征;
多模态特征融合模块,用于采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合,得到像素级的多模态融合特征;
语义分割模块,基于所述像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率,选择所述像素被正确分类的概率最高值进行图像像素语义分割;
其中,所述深度神经网络的构建由具有多尺度残差单元和空洞空间金字塔池化模块的编码器,以及带有跳优化结构和多分辨率监控策略的解码器构建而成。
与现有技术相比,本发明的有益效果为:
1、本发明提供了一种基于多模态特征融合的图像像素语义分割方法,包括对多模态图像数据分别进行图像增强处理;基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像,并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征;采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合,得到像素级的多模态融合特征;基于像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率,选择像素被正确分类的概率最高值进行图像像素语义分割。本发明采用多模态自适应机制实现了多模态之间的融合。
2、本发明在残差网络结构的基础上,设计了具有多尺度残差单元和高效的空洞空间金字塔池化模块的编码器来增强图像的特征表达能力、有效互补地融合多个模态的特征信息。
附图说明
图1为本发明的图像像素语义分割方法流程示意图;
图2为传统空洞空间金字塔与本发明的高效空洞空间金字塔对比结构示意图;
图3为本发明的图像像素语义分割算法流程图。
具体实施方式
本发明公开了一种基于多模态特征融合的图像像素语义分割方法,该装置实现了多模态间互补特征的融合,提高模型对边界对象的分割性能以及加快网络的收敛:
实施例1:一种基于多模态特征融合的图像像素语义分割方法,如图1所示:
步骤1:对多模态图像数据分别进行图像增强处理;
步骤2:基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像,并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征;
步骤3:采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合,得到像素级的多模态融合特征;
步骤4:基于所述像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率,选择所述像素被正确分类的概率最高值进行图像像素语义分割;
其中,所述深度神经网络的构建由具有多尺度残差单元和空洞空间金字塔池化模块的编码器,以及带有跳优化结构和多分辨率监控策略的解码器构建而成。
步骤1:对多模态图像数据分别进行图像增强处理,具体如下:
多模态数据集的获取可以通过线上开源公开数据集下载来实施;对多模态数据集进行预处理,常见的图像预处理增强的方法包括:翻转变换、随机修建、色彩抖动、平移变换、尺度变换、旋转变换、扭曲缩放以及噪声扰动等;
步骤2:基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像,并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征,具体如下:
需要设计一种新型的语义分割体系结构,在残差网络结构的基础上针对增强图像特征表达能力、有效互补地融合多个模态的特征信息,需要结合多尺度残差单元和一种高效的空洞空间金字塔池化模块来增强图像的特征表达能力;
所述模型通过以下规则实施:通过级联的方式将金字塔池化模块中间每个3*3的卷积层变成由两个1*1卷积层和两个3*3卷积层级联的方式,详见图2;先利用1*1卷积层将图像通道数降低为原来的1/4,连续级联两个3*3的卷积层,最后通过一个1*1卷积层来恢复通道数,构成瓶颈结构;令空洞卷积的感受野为F,则感受野可以通过以规则计算:
F=(r-1)*(N-1)+N
其中,r表示空洞卷积的扩张率,N表示卷积核尺寸。级联之后的感受野可以通过以下规则计算:
Feff=F1+F2-1
还需要设计自监督模型自适应机制来互补地融合两个模态之间的特征信息。具体包括:
将Xa∈RC*H*W,Xb∈RC*H*W分别代表模态A和模态B的输入,(C表示特征通道数,H*W代表输入图像大小)Xa,Xb经过简单连接得到Xab;将Xab连续通过两个3*3的卷积层:
s=Fssma(Xab;W)=σ(g(Xab;W))=σ(W2δ(W1Xab))
利用上述得到的s对Xab进行加权:
Xab new=Fscale(Xab;s)=soXab
这里,Fscale(Xab;s)表示对Xab和s进行哈达玛积。最后经过一个3*3的卷积层,得到:
f=Ffused(Xab new;W)=g(Xab new;W)=W3Xab new
步骤3:采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合,得到像素级的多模态融合特征,具体如下:
多模态特征融合的步骤可以通过以下规则实施:假设T={(An,Bn,Cn)|n=1,...,N表示多模态语义分割训练集,其中An={ar|r=1,...,p}代表模态A,真值表示为Dn={dr|r=1,...,p},这里dr∈{1,...C}是数据集的种类。假设θ代表权重和偏置的网络参数,通过分类器获得的P=(p1,...,pC)表示为像素被正确分类的概率;
通过分类器获得的分类结果概率可以表示如下:
Figure BDA0002618252290000081
模型通过优化θ最大化P来建立,通过以下方式确定建立模型的所有参数的步骤:利用在大型公开数据集上进行预训练获得θ的初始值,通过规则:
Figure BDA0002618252290000082
通过迭代θ,以使θ收敛到最优值。
建立带有跳优化结构和多分辨率监督策略的解码器;设计跳优化结构的融合机制可以通过以下步骤来实施:
对高层的融合信息进行全局池化操作:
Figure BDA0002618252290000083
将池化结果通过一个1*1的卷积层:
z=Freduce(S;W)=δ(W4s)
最后将z作为中间层融合信息的权重;
fnew=Floc(fc;zc)=(z1f1,...,zcfc)
步骤4:基于所述像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率,选择所述像素被正确分类的概率最高值进行图像像素语义分割。
实施例2:
为了解决这些问题,本发明提出了基于多模态特征融合的图像像素语义分割的多模态学习方法用于语义分割。所述多模态特征融合方法以残差深度神经网络为基础,建立了一种新型语义分割体系结构,如图3所示:
对多源数据集(RGB图像数据集以及相应的深度图像数据集)进行预处理增强;设计一个带有高效空洞空间金字塔池化模块和多尺度残差单元的完全预激活的编码器;设计带有多分辨率监督策略和跳结构优化的解码器;设计双路网络分别提取RGB图像和深度图像的特征信息;依据特征信息设计自监督模型自适应机制,进行不同模态特征信息的融合。
本发明在残差网络结构的基础上,设计了具有多尺度残差单元和高效的空洞空间金字塔池化模块的编码器,同时设计了带有跳优化结构和多分辨率监控策略的解码器。这是一种新型语义分割体系结构。
根据本发明一项实施例。本文设计结合了多尺度残差单元和一种高效的空洞空间金字塔池化模块来增强图像的特征表达能力、有效互补地融合多个模态的特征信息。所述模型通过以下规则实施:
通过级联的方式将金字塔池化模块中间每个3*3的卷积层变成由两个1*1卷积层和两个3*3卷积层级联的方式;先利用1*1卷积层将图像通道数降低为原来的1/4,连续级联两个3*3的卷积层,最后通过一个1*1卷积层来恢复通道数,构成瓶颈结构;
本发明还需要设计自监督模型自适应机制来互补地融合两个模态之间的特征信息。所述模型通过以下规则实施:
将Xa∈RC*H*W,Xb∈RC*H*W分别代表模态A和模态B的输入,(C表示特征通道数,H*W代表输入图像大小),将Xa,Xb经过简单连接得到Xab;将Xab连续通过两个3*3的卷积层,利用上述得到的s对Xab进行加权,最后经过一个3*3的卷积层。
最后设计多尺度融合机制,可以通过以下规则实施:假设T={(An,Bn,Cn)|n=1,...,N表示多模态语义分割训练集,其中An={ar|r=1,...,p}代表模态A,真值表示为Dn={dr|r=1,...,p},这里dr∈{1,...C}是数据集的种类。假设θ代表权重和偏置的网络参数,通过分类器获得的P=(p1,...,pC)表示为像素被正确分类的概率。
实施例3:
基于同一发明构思的本发明还提供了一种基于多模态特征融合的图像像素语义分割系统,包括:
增强处理模块,对多模态图像数据分别进行图像增强处理;
层级特征融合模块,基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像,并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征;
多模态特征融合模块,用于采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合,得到像素级的多模态融合特征;
语义分割模块,基于所述像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率,选择所述像素被正确分类的概率最高值进行图像像素语义分割;
其中,所述深度神经网络的构建由具有多尺度残差单元和空洞空间金字塔池化模块的编码器,以及带有跳优化结构和多分辨率监控策略的解码器构建而成优选的,还包括网络构建模块,用于构建深度神经网络。
所述深度神经网络的包括:编码器和解码器;
所述编码器包括:多尺度残差单元和空洞空间金字塔池化模块;
所述解码器包括:跳优化结构和多分辨率监控策略;
所述多尺度残差单元,用于提取像素级的RGB图像和深度图像的特征信息;
所述空洞空间金字塔池化模块,用于增强像素级的RGB图像和深度图像的特征信息;
所述跳优化结构和多分辨率监控策略,用于通过多分辨率监控策略对增强像素级的RGB图像和深度图像的特征信息进行多分辨率监控,并通过跳优化结构的融合机制对同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征。
所述空洞空间金字塔池化模块包括:两个1*1卷积层、连续级联两个3*3的卷积层;
所述1*1卷积层,用于将多模态图像的像素级的RGB图像和深度图像的图像通道降低为原来的1/4;
连续级联两个3*3的卷积层,用于增大感受野;
最后一个卷积层,用于恢复多模态图像的通道数,得到增强像素级的RGB图像和深度图像的特征信息。
所述感受野通过下式计算:
Feff=F1+F2-1
式中,Feff:感受野;F1、F2:为不同模态的空洞卷积的感受野
所述增强处理模块包括:
转换子模块,用于将深度图像进行HHA编码,转成RGB图像;
处理子模块,用于对RGB图像进行翻转变换、随机修建、色彩抖动、平移变换、尺度变换、旋转变换、扭曲缩放以及噪声扰动数据集增强方式;
其中,所述多模态图像数据包括深度图像和RGB图像。
层级特征融合模块,包括:
提取子模块,用于采用所述多尺度残差单元从增强处理后的多模态图像数据中提取像素级的RGB图像和深度图像的特征信息;
增强子模块,用于并采用空洞空间金字塔池化模块增强所述像素级的RGB图像和深度图像的特征信息;
监控子模块,用于通过所述解码器中的多分辨率监控策略对增强后的所述像素级的RGB图像和深度图像的特征信息进行多分辨率监控;
融合子模块,用于采用解码器中的跳优化结构对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行特征融合,得到融合后的层级特征。
所述融合子模块,包括:
池化单元,用于对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行全局池化操作,得到池化结果;
降维单元,用于将所述池化结果通过一个1*1的卷积层进行降维处理,得到降维后的图像特征;
权重计算单元,用于将所述降维后的图像特征作为同一模态图像中降维后的图像特征的融合权重;
层级融合单元,基于所述融合权重和局池化结果进行融合,得到融合后的层级特征。
所述多模态特征融合模块包括:
提取融合子模块,用于将任意两模态的像素级特征通过Concat的方式在通道维度上进行连接得到合并模态特征,将所述合并模态特征连续通过两个3*3的卷积层进行特征提取,得到两模态融合后的图像高层特征;
加权子模块,用于将所述图像高层特征作为所述合并模态特征的权值进行加权,得到加权后的合并模态特征;
二次提取子模块,用于将所述加权后的合并模态特征经过3*3的卷积层再次进行特征提取,得到像素级的多模态融合特征。
像素被正确分类的概率按下式计算:
Figure BDA0002618252290000121
式中,pj表示像素ar被分类为标签j的概率,An,Bn分别代表不同的输入模态,θ代表权重和偏置的网络参数;qj(ar,θ):利用qj函数对每个像素ar作分类打分,σ表示经过一个sigmoid函数;qk(ar,θ):利用qk函数对每个像素ar作分类打分。
所述权重和偏置的网络参数θ通过下式进行迭代收敛得到:
Figure BDA0002618252290000122
式中,
Figure BDA0002618252290000123
表示克罗内克δ函数。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (10)

1.一种基于多模态特征融合的图像像素语义分割方法,其特征在于,包括:
对多模态图像数据分别进行图像增强处理;
基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像,并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征;
采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合,得到像素级的多模态融合特征;
基于所述像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率,选择所述像素被正确分类的概率最高值进行图像像素语义分割;
其中,所述深度神经网络的构建由具有多尺度残差单元和空洞空间金字塔池化模块的编码器,以及带有跳优化结构和多分辨率监控策略的解码器构建而成。
2.根据权利要求1所述的方法,其特征在于,所述深度神经网络的包括:编码器和解码器;
所述编码器包括:多尺度残差单元和空洞空间金字塔池化模块;
所述解码器包括:跳优化结构和多分辨率监控策略;
所述多尺度残差单元,用于提取像素级的RGB图像和深度图像的特征信息;
所述空洞空间金字塔池化模块,用于增强像素级的RGB图像和深度图像的特征信息;
所述跳优化结构和多分辨率监控策略,用于通过多分辨率监控策略对增强像素级的RGB图像和深度图像的特征信息进行多分辨率监控,并通过跳优化结构的融合机制对同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征。
3.根据权利要求2所述的方法,其特征在于,所述空洞空间金字塔池化模块用于增强像素级的RGB图像和深度图像的特征信息包括:
将多模态图像的像素级的RGB图像和深度图像的通过1*1卷积层将图像通道数降低为原来的1/4,连续级联两个3*3的卷积层增大感受野,最后通过一个1*1的卷积层恢复多模态图像的通道数,得到增强像素级的RGB图像和深度图像的特征信息。
4.根据权利要求3所述的方法,其特征在于,所述感受野通过下式计算:
Feff=F1+F2-1
式中,Feff:感受野;F1、F2:为不同模态的空洞卷积的感受野。
5.根据权利要求1所述的方法,其特征在于,所述对多模态图像数据分别进行图像增强处理,包括:
对RGB图像和深度图像进行翻转变换、随机修建、色彩抖动、平移变换、尺度变换、旋转变换、扭曲缩放以及噪声扰动数据集增强方式;
其中,所述多模态图像数据包括深度图像和RGB图像。
6.根据权利要求2所述的方法,其特征在于,所述基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像,并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征,包括:
采用所述多尺度残差单元从增强处理后的多模态图像数据中提取像素级的RGB图像和深度图像的特征信息;
并采用空洞空间金字塔池化模块增强所述像素级的RGB图像和深度图像的特征信息;
通过所述解码器中的多分辨率监控策略对增强后的所述像素级的RGB图像和深度图像的特征信息进行多分辨率监控;
并采用解码器中的跳优化结构对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行特征融合,得到融合后的层级特征。
7.根据权利要求6所述的方法,其特征在于,所述并采用解码器中的跳优化结构对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行特征融合,得到融合后的层级特征,包括:
对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行全局池化操作,得到池化结果;
将所述池化结果通过一个1*1的卷积层进行降维处理,得到降维后的图像特征;
将所述降维后的图像特征作为同一模态图像中降维后的图像特征的融合权重;
基于所述融合权重和局池化结果进行融合,得到融合后的层级特征。
8.根据权利要求6所述的方法,其特征在于,所述采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合,得到像素级的多模态融合特征,包括:
将任意两模态的像素级特征通过Concat的方式在通道维度上进行连接得到合并模态特征,将所述合并模态特征连续通过两个3*3的卷积层进行特征提取,得到两模态融合后的图像高层特征;
将所述图像高层特征作为所述合并模态特征的权值进行加权,得到加权后的合并模态特征;
将所述加权后的合并模态特征经过3*3的卷积层再次进行特征提取,得到像素级的多模态融合特征。
9.根据权利要求8所述的方法,其特征在于,所述像素被正确分类的概率按下式计算:
Figure FDA0002618252280000031
式中,pj表示像素ar被分类为标签j的概率,An,Bn分别代表不同的输入模态,θ代表权重和偏置的网络参数;qj(ar,θ):利用qj函数对每个像素ar作分类打分,σ表示经过一个sigmoid函数;qk(ar,θ):利用qk函数对每个像素ar作分类打分;
优选的,所述权重和偏置的网络参数θ通过下式进行迭代收敛得到:
Figure FDA0002618252280000032
式中,
Figure FDA0002618252280000033
表示克罗内克δ函数。
10.一种基于多模态特征融合的图像像素语义分割系统,其特征在于,包括:增强处理模块,对多模态图像数据分别进行图像增强处理;
层级特征融合模块,基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像,并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征;
多模态特征融合模块,用于采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合,得到像素级的多模态融合特征;
语义分割模块,基于所述像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率,选择所述像素被正确分类的概率最高值进行图像像素语义分割;
其中,所述深度神经网络的构建由具有多尺度残差单元和空洞空间金字塔池化模块的编码器,以及带有跳优化结构和多分辨率监控策略的解码器构建而成。
CN202010775626.5A 2020-08-05 2020-08-05 一种基于多模态特征融合的图像像素语义分割方法及系统 Active CN112101410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010775626.5A CN112101410B (zh) 2020-08-05 2020-08-05 一种基于多模态特征融合的图像像素语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010775626.5A CN112101410B (zh) 2020-08-05 2020-08-05 一种基于多模态特征融合的图像像素语义分割方法及系统

Publications (2)

Publication Number Publication Date
CN112101410A true CN112101410A (zh) 2020-12-18
CN112101410B CN112101410B (zh) 2021-08-06

Family

ID=73750582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010775626.5A Active CN112101410B (zh) 2020-08-05 2020-08-05 一种基于多模态特征融合的图像像素语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN112101410B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733693A (zh) * 2021-01-04 2021-04-30 武汉大学 一种全局感知高分辨率遥感影像多尺度残差道路提取方法
CN112884007A (zh) * 2021-01-22 2021-06-01 重庆交通大学 一种像素级统计描述学习的sar图像分类方法
CN112991350A (zh) * 2021-02-18 2021-06-18 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN113033645A (zh) * 2021-03-18 2021-06-25 南京大学 Rgb-d图像的多尺度融合深度图像增强方法及装置
CN113449770A (zh) * 2021-05-18 2021-09-28 科大讯飞股份有限公司 图像检测方法以及电子设备、存储装置
CN113449808A (zh) * 2021-07-13 2021-09-28 广州华多网络科技有限公司 多源图文信息分类方法及其相应的装置、设备、介质
CN113705375A (zh) * 2021-08-10 2021-11-26 武汉理工大学 一种船舶航行环境视觉感知设备及方法
CN114332636A (zh) * 2022-03-14 2022-04-12 北京化工大学 极化sar建筑物区域提取方法、设备和介质
CN114547976A (zh) * 2022-02-17 2022-05-27 浙江大学 基于金字塔变分自编码器的多采样率数据软测量建模方法
CN114638994A (zh) * 2022-05-18 2022-06-17 山东建筑大学 基于注意力的多交互网络的多模态图像分类系统及方法
CN115170449A (zh) * 2022-06-30 2022-10-11 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
CN115171030A (zh) * 2022-09-09 2022-10-11 山东省凯麟环保设备股份有限公司 基于多级特征融合的多模态图像分割方法、系统及器件
CN116524195A (zh) * 2023-06-20 2023-08-01 中国科学院深圳先进技术研究院 语义分割方法、装置、电子设备及存储介质
CN116644205A (zh) * 2023-07-27 2023-08-25 北京元图科技发展有限公司 一种地理信息数据处理系统及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060904A1 (en) * 2015-08-28 2017-03-02 Stmicroelectronics S.R.L. Method for visual search, corresponding system, apparatus and computer program product
CN109152079A (zh) * 2018-07-05 2019-01-04 东南大学 一种针对tsch网络的时隙调度和信道分配方法
CN109934200A (zh) * 2019-03-22 2019-06-25 南京信息工程大学 一种基于改进M-Net的RGB彩色遥感图像云检测方法及系统
CN110728682A (zh) * 2019-09-09 2020-01-24 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN110929696A (zh) * 2019-12-16 2020-03-27 中国矿业大学 一种基于多模态注意与自适应融合的遥感图像语义分割方法
CN111243017A (zh) * 2019-12-24 2020-06-05 广州中国科学院先进技术研究所 基于3d视觉的智能机器人抓取方法
CN111242138A (zh) * 2020-01-11 2020-06-05 杭州电子科技大学 一种基于多尺度特征融合的rgbd显著性检测方法
US20200184718A1 (en) * 2018-12-05 2020-06-11 Sri International Multi-modal data fusion for enhanced 3d perception for platforms
CN111340814A (zh) * 2020-03-03 2020-06-26 北京工业大学 一种基于多模态自适应卷积的rgb-d图像语义分割方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060904A1 (en) * 2015-08-28 2017-03-02 Stmicroelectronics S.R.L. Method for visual search, corresponding system, apparatus and computer program product
CN109152079A (zh) * 2018-07-05 2019-01-04 东南大学 一种针对tsch网络的时隙调度和信道分配方法
US20200184718A1 (en) * 2018-12-05 2020-06-11 Sri International Multi-modal data fusion for enhanced 3d perception for platforms
CN109934200A (zh) * 2019-03-22 2019-06-25 南京信息工程大学 一种基于改进M-Net的RGB彩色遥感图像云检测方法及系统
CN110728682A (zh) * 2019-09-09 2020-01-24 浙江科技学院 一种基于残差金字塔池化神经网络的语义分割方法
CN110782462A (zh) * 2019-10-30 2020-02-11 浙江科技学院 一种基于双流特征融合的语义分割方法
CN110929696A (zh) * 2019-12-16 2020-03-27 中国矿业大学 一种基于多模态注意与自适应融合的遥感图像语义分割方法
CN111243017A (zh) * 2019-12-24 2020-06-05 广州中国科学院先进技术研究所 基于3d视觉的智能机器人抓取方法
CN111242138A (zh) * 2020-01-11 2020-06-05 杭州电子科技大学 一种基于多尺度特征融合的rgbd显著性检测方法
CN111340814A (zh) * 2020-03-03 2020-06-26 北京工业大学 一种基于多模态自适应卷积的rgb-d图像语义分割方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JIE LI等: "RGBD Based Dimensional Decomposition Residual Network for 3D Semantic Scene Completion", 《ARXIV:1903.00620V2》 *
LIXIONG LIN等: "Efficient and High-Quality Monocular Depth Estimation via Gated Multi-Scale Network", 《IEEE ACCESS》 *
PEIJIN WANG等: "FMSSD: Feature-Merged Single-Shot Detection for Multiscale Objects in Large-Scale Remote Sensing Imagery", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》 *
SEUNGYONG LEE等: "RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
项前等: "多级上采样融合的强监督RGBD显著性目标检测", 《计算机工程与应用》 *
魏文轩: "基于多模态特征理解的图像语义标注关键技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733693B (zh) * 2021-01-04 2022-08-05 武汉大学 一种全局感知高分辨率遥感影像多尺度残差道路提取方法
CN112733693A (zh) * 2021-01-04 2021-04-30 武汉大学 一种全局感知高分辨率遥感影像多尺度残差道路提取方法
CN112884007A (zh) * 2021-01-22 2021-06-01 重庆交通大学 一种像素级统计描述学习的sar图像分类方法
CN112991350B (zh) * 2021-02-18 2023-06-27 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN112991350A (zh) * 2021-02-18 2021-06-18 西安电子科技大学 一种基于模态差异缩减的rgb-t图像语义分割方法
CN113033645A (zh) * 2021-03-18 2021-06-25 南京大学 Rgb-d图像的多尺度融合深度图像增强方法及装置
CN113449770A (zh) * 2021-05-18 2021-09-28 科大讯飞股份有限公司 图像检测方法以及电子设备、存储装置
CN113449770B (zh) * 2021-05-18 2024-02-13 科大讯飞股份有限公司 图像检测方法以及电子设备、存储装置
CN113449808A (zh) * 2021-07-13 2021-09-28 广州华多网络科技有限公司 多源图文信息分类方法及其相应的装置、设备、介质
CN113705375A (zh) * 2021-08-10 2021-11-26 武汉理工大学 一种船舶航行环境视觉感知设备及方法
CN114547976A (zh) * 2022-02-17 2022-05-27 浙江大学 基于金字塔变分自编码器的多采样率数据软测量建模方法
CN114547976B (zh) * 2022-02-17 2024-04-30 浙江大学 基于金字塔变分自编码器的多采样率数据软测量建模方法
CN114332636A (zh) * 2022-03-14 2022-04-12 北京化工大学 极化sar建筑物区域提取方法、设备和介质
CN114638994A (zh) * 2022-05-18 2022-06-17 山东建筑大学 基于注意力的多交互网络的多模态图像分类系统及方法
CN114638994B (zh) * 2022-05-18 2022-08-19 山东建筑大学 基于注意力的多交互网络的多模态图像分类系统及方法
CN115170449A (zh) * 2022-06-30 2022-10-11 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
CN115170449B (zh) * 2022-06-30 2023-09-22 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质
CN115171030B (zh) * 2022-09-09 2023-01-31 山东省凯麟环保设备股份有限公司 基于多级特征融合的多模态图像分割方法、系统及器件
CN115171030A (zh) * 2022-09-09 2022-10-11 山东省凯麟环保设备股份有限公司 基于多级特征融合的多模态图像分割方法、系统及器件
CN116524195A (zh) * 2023-06-20 2023-08-01 中国科学院深圳先进技术研究院 语义分割方法、装置、电子设备及存储介质
CN116524195B (zh) * 2023-06-20 2023-12-01 中国科学院深圳先进技术研究院 语义分割方法、装置、电子设备及存储介质
CN116644205A (zh) * 2023-07-27 2023-08-25 北京元图科技发展有限公司 一种地理信息数据处理系统及方法
CN116644205B (zh) * 2023-07-27 2023-10-31 北京元图科技发展有限公司 一种地理信息数据处理系统及方法

Also Published As

Publication number Publication date
CN112101410B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN112101410B (zh) 一种基于多模态特征融合的图像像素语义分割方法及系统
Lateef et al. Survey on semantic segmentation using deep learning techniques
Tian et al. Designing and training of a dual CNN for image denoising
Ricci et al. Monocular depth estimation using multi-scale continuous CRFs as sequential deep networks
Das et al. A hybrid approach for Bangla sign language recognition using deep transfer learning model with random forest classifier
CN110458844B (zh) 一种低光照场景的语义分割方法
CN111444889B (zh) 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN112991350B (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN114973049B (zh) 一种统一卷积与自注意力的轻量视频分类方法
CN115082675B (zh) 一种透明物体图像分割方法及系统
CN113052254A (zh) 多重注意力幽灵残差融合分类模型及其分类方法
Song et al. Contextualized CNN for scene-aware depth estimation from single RGB image
Wang et al. TF-SOD: a novel transformer framework for salient object detection
Hongmeng et al. A detection method for deepfake hard compressed videos based on super-resolution reconstruction using CNN
Feng et al. A survey of visual neural networks: current trends, challenges and opportunities
Wang et al. Computation-efficient deep learning for computer vision: A survey
Qin et al. Application of video scene semantic recognition technology in smart video
CN109670506A (zh) 基于克罗内克卷积的场景分割方法和系统
US20210279594A1 (en) Method and apparatus for video coding
CN116778180A (zh) 一种基于多级特征和上下文信息融合的rgb-d显著性目标检测方法
Wang et al. On the contextual aspects of using deep convolutional neural network for semantic image segmentation
Mandal et al. Deep learning model with GA-based visual feature selection and context integration
Vinay et al. Optimal search space strategy for infrared facial image recognition using capsule networks
Norelyaqine et al. Architecture of Deep Convolutional Encoder‐Decoder Networks for Building Footprint Semantic Segmentation
CN111191674A (zh) 基于密集连接带孔卷积网络的初级特征提取器及提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant