CN116664829A - 一种rgb-t语义分割方法、系统、装置及存储介质 - Google Patents
一种rgb-t语义分割方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN116664829A CN116664829A CN202310406514.6A CN202310406514A CN116664829A CN 116664829 A CN116664829 A CN 116664829A CN 202310406514 A CN202310406514 A CN 202310406514A CN 116664829 A CN116664829 A CN 116664829A
- Authority
- CN
- China
- Prior art keywords
- fusion
- rgb
- infrared
- features
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000011218 segmentation Effects 0.000 title claims abstract description 68
- 230000004927 fusion Effects 0.000 claims abstract description 170
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000001994 activation Methods 0.000 claims description 11
- 238000007499 fusion processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000005286 illumination Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种RGB‑T语义分割方法、系统、装置及存储介质,获取待识别场景的RGB图像和红外图像;通过编码器分别对RGB图像和红外图像进行特征提取,得到RGB模态特征和红外模态特征;充分提取利用每一模态的信息;将RGB模态特征和红外模态特征输入概率特征融合模块进行融合特征偏好计算,得到各层次的空间融合因子;基于空间融合因子,对RGB模态特征和红外模态特征进行偏好融合,得到各层次的融合特征;将融合特征的多种不同偏好的结果视为某概率分布的样本;将各层次的融合特征输入解码器进行解码处理,得到分割结果。本发明能够有效融合RGB图像和红外图像的信息实现高精度语义分割,可广泛应用于图像处理技术领域。
Description
技术领域
本发明涉及图像处理技术领域,尤其是一种RGB-T语义分割方法、系统、装置及存储介质。
背景技术
语义分割是计算机视觉中的高级任务之一。语义分割的主要任务是将每一个图像像素赋予一个分类标签。目前,语义分割在许多应用中发挥着重要的作用,包括但不限于医疗图像分析,自动驾驶,室内解析等,特别是在自动驾驶领域,语义分割已成为一项基本任务。然而,语义分割应用大多采用可见摄像机捕获的三通道RGB图像,图像往往是在光线充足的条件下拍摄的,在低光照、多雨、多雾等环境下,由于可见光成像的限制,现有RGB语义分割方法无法在不利的光照条件下提供预期的性能。尤其在昏暗光照条件下,采用RGB语义分割方法,无法获得高准确度的语义分割结果。
近年来,红外芯片国产化使得红外产品的价格大幅降低,红外产品开始进入民用领域,特别是在车辆驾驶领域,由于价格低廉,部署方便等优点,红外相机开始大规模应用,红外相机已然成为新一代车辆的必备硬件之一。为克服RGB语义分割的局限性,一种经济而有效的方法是结合RGB图像和红外热图像(Thermal Image,简称T)进行语义分割,即RGB-T语义分割。与RGB图像相比,红外图像拥有自身的优势和劣势。在优势方面,红外图像有两点:1)理论上温度高于绝对零度的物体都能被红外相机捕捉,因此红外图像能够捕捉到许多RGB图像遗漏的关键信息,比如黑夜中的行人等。2)红外图像的波长处于0.1到100微米之间,图像不受可见光照条件的影响,即使在各种强光影响下,依旧能够准确地接收到准确的信息。而在劣势方面,红外图像的缺陷也非常明显,即由于不同物体间热交叉现象的影响,红外图像中物体间边界信息易被模糊和丢失,但RGB图像恰恰能提供目标物体的细节和边界信息。显然,在理论上,RGB图像和红外图像在信息优势和劣势上能够形成互补关系。迄今为止,基于深度学习的RGB-T语义分割的学术研究发展迅速,各种杰出算法层出不穷。然而,第一,现有算法常采用相加或连接的简单方法直接融合两种模态的特征。第二,目前的算法在探索各种RGB图像与红外图像的融合机制时,都潜在地假设不同模态特征的融合结果是唯一的,这个假设使得模型性能容易受到模态偏好问题的影响,会导致模型对模态的信息提取利用不足,影响融合特征的表征能力,进而影响分割精度。
鉴于此,如何有效融合RGB图像和红外图像的信息实现高精度语义分割是一个亟需解决的问题。
发明内容
有鉴于此,本发明实施例提供一种RGB-T语义分割方法、系统、装置及存储介质,能够高效准确实现RGB-T语义分割。
一方面,本发明的实施例提供了一种RGB-T语义分割方法,包括:
获取待识别场景的RGB图像和红外图像;
通过编码器分别对RGB图像和红外图像进行特征提取,得到RGB模态特征和红外模态特征;其中,RGB模态特征和红外模态特征均包括多层次的模态特征;
将RGB模态特征和红外模态特征输入概率特征融合模块进行融合特征偏好计算,得到各层次的空间融合因子;
基于空间融合因子,对RGB模态特征和红外模态特征进行偏好融合,得到各层次的融合特征;
将各层次的融合特征输入解码器进行解码处理,得到分割结果。
可选地,获取待识别场景的RGB图像和红外图像这一步骤中,还包括:
基于预设分辨率,调整并统一RGB图像和红外图像的分辨率。
可选地,方法还包括:
构建ResNet-50网络,去除ResNet-50网络中的全连接层和池化层,得到特征提取网络。
可选地,编码器包括两个对称的特征提取网络,通过编码器分别对RGB图像和红外图像进行特征提取,得到RGB模态特征和红外模态特征,包括:
通过两个特征提取网络分别对RGB图像和红外图像进行低层次的纹理信息提取和高层次的语义分类信息提取,得到多层次的RGB模态特征和红外模态特征;
其中,特征提取网络为多层次结构,每个层次包括不同规格的瓶颈层。
可选地,将RGB模态特征和红外模态特征输入概率特征融合模块进行融合特征偏好计算,得到各层次的空间融合因子,包括:
将RGB模态特征和红外模态特征按层次对应进行中间融合处理,得到多层次的中间融合特征;中间融合处理包括通道维度连接、第一卷积处理、批归一化和第一激活处理;
基于高斯分布,根据中间融合特征确定各层次的目标样本;
根据目标样本进行偏好计算,得到各层次的空间融合因子;偏好计算包括第二卷积处理和第二激活处理。
可选地,基于空间融合因子,对RGB模态特征和红外模态特征进行偏好融合,得到各层次的融合特征,包括:
基于各层次的空间融合因子,设置对应层次的RGB模态特征和红外模态特征的融合权重值,进行偏重融合,得到各层次的融合特征;
其中,融合特征的表达式为:
其中,表示融合特征,W表示空间融合因子,/>表示RGB模态特征,/>表示红外模态特征,i,j,k均为索引。
可选地,解码器包括多层解码模块,将各层次的融合特征输入解码器进行解码处理,得到分割结果,包括:
将各层次的融合特征分别输入多层解码模块中各层解码模块进行解码处理,得到分割结果;
其中,多层解码模块中每个解码模块的输入数据包括上一解码模块的输出与对应层次的融合特征进行通道维度连接后的结果。
另一方面,本发明的实施例提供了一种RGB-T语义分割系统,包括:
第一模块,用于获取待识别场景的RGB图像和红外图像;
第二模块,用于通过编码器分别对RGB图像和红外图像进行特征提取,得到RGB模态特征和红外模态特征;其中,RGB模态特征和红外模态特征均包括多层次的模态特征;
第三模块,用于将RGB模态特征和红外模态特征输入概率特征融合模块进行融合特征偏好计算,得到各层次的空间融合因子;
第四模块,用于基于空间融合因子,对RGB模态特征和红外模态特征进行偏好融合,得到各层次的融合特征;
第五模块,用于将各层次的融合特征输入解码器进行解码处理,得到分割结果。
另一方面,本发明的实施例提供了一种RGB-T语义分割装置,包括处理器以及存储器;
存储器用于存储程序;
处理器执行程序实现如前面的方法。
另一方面,本发明的实施例提供了一种计算机可读存储介质,存储介质存储有程序,程序被处理器执行实现如前面的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明实施例首先获取待识别场景的RGB图像和红外图像;通过编码器分别对RGB图像和红外图像进行特征提取,得到RGB模态特征和红外模态特征;其中,RGB模态特征和红外模态特征均包括多层次的模态特征;本发明实施例通过多层次的模态特征提取,充分提取利用每一模态的信息以获得更多语义信息;将RGB模态特征和红外模态特征输入概率特征融合模块进行融合特征偏好计算,得到各层次的空间融合因子;基于空间融合因子,对RGB模态特征和红外模态特征进行偏好融合,得到各层次的融合特征;本发明实施例通过引入空间融合因子,打破融合特征唯一性假设,将融合特征的多种不同偏好的结果视为某概率分布的样本,从而将融合特征的学习问题转变为融合特征概率分布的学习问题;最终将各层次的融合特征输入解码器进行解码处理,得到分割结果。本发明实施例能够有效融合RGB图像和红外图像的信息实现高精度语义分割。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有的融合结果受模态偏好影响的效果示意图;
图2为本发明实施例提供的一种RGB-T语义分割方法的流程示意图;
图3为本发明实施例提供的一种RGB-T语义分割方法的流程架构示意图;
图4为本发明实施例提供的特征提取网络的结构参数示意图;
图5为本发明实施例提供的概率特征融合模块的结构示意图;
图6为本发明实施例提供的解码模块的结构示意图;
图7为本发明实施例提供的解码模块的参数设置示意图;
图8为本发明实施例提供的MFNet数据集示例图像示意图;
图9为本发明实施例提供的对MFNet数据集的预测结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
对于现有方法假设不同模态特征的融合结果是唯一的特性,不妨举一个例子来说明,如图1所示,RGB图像中显眼的栏杆物体,在红外图像非常模糊。相反,红外图像中显眼的行人,在RGB图像中几乎看不见。而融合后的特征,栏杆几乎看不见。这是由于融合特征的结果唯一,深度学习模型在经过训练后,会偏好于采用稳定易学的红外图像,导致融合特征对RGB图像的信息提取利用不足,栏杆目标被忽略,分割结果便不准确。
针对现有方法融合方式过于简单导致融合结果不能充分发挥每一模态特征作用的问题,一方面,如图2和图3所示,本发明的实施例提供了一种RGB-T语义分割方法,包括:
S100、获取待识别场景的RGB图像和红外图像;
需要说明的是,这一步骤中还包括:基于预设分辨率,调整并统一RGB图像和红外图像的分辨率。
具体地,通过统一RGB图像和红外图像的分辨率,保证后续数据处理的适配性。
S200、通过编码器分别对RGB图像和红外图像进行特征提取,得到RGB模态特征和红外模态特征;
其中,RGB模态特征和红外模态特征均包括多层次的模态特征;需要说明的是,一些实施例中,还包括:构建ResNet-50网络,去除ResNet-50网络中的全连接层和池化层,得到特征提取网络。
一些实施例中,编码器包括两个对称的特征提取网络,通过编码器分别对RGB图像和红外图像进行特征提取,得到RGB模态特征和红外模态特征,包括:通过两个特征提取网络分别对RGB图像和红外图像进行低层次的纹理信息提取和高层次的语义分类信息提取,得到多层次的RGB模态特征和红外模态特征;其中,特征提取网络为多层次结构,每个层次包括不同规格的瓶颈层。
具体地,一些具体实施例中,如图3所示,输入RGB图像和红外图像至两个编码器(或一个编码器中的两个特征提取网络),通过编码器网络提取对应的模态特征,得到RGB模态特征(包括多层次的/>至/>)与红外模态特征/>(包括多层次的/>至/>)。其中,编码器(特征提取网络)的作用是:①提取图像中用于语义分割的信息。②逐步压缩分辨率,以此得到更大的感受野,模型能获得更全面的语义信息。
对于编码器部分,可以采用传统的ResNet-50作为特征提取网络,但进行了轻微的修改,去除了ResNet-50的全连接层和池化层以保持特征图的分辨率,最终结构如图4所示。它分为5个层次(STAGE,这里翻译为层次与上文对应),每个层次由不同数量的Bottleneck组成(Bottleneck即图4中的BTNK1与BTNK2,重点在于改进删除,对具体参数不再赘述,BN表示批归一化层,CONV表示卷积层,MAXPOOL表示最大池化层,RELU表示激活函数,具体数量与参数设置见图4)。每个层次输出的特征,分辨率是上一层次特征的1/2,但所携带的语义信息相比于上一层次特征会更多。
在语义分割任务中,①不同层次的特征有不同的含义。低层次的特征(分辨率大,层次0,1,2)包含纹理信息,高层次的特征(分辨率小,层次3,4)包含语义分类信息,这些特征都有利于提升语义分割的精度。②RGB图像和红外图像存在模态差异。由于成像原理的差异,采用同一个特征提取网络对RGB图像和红外图像进行处理会造成语义混淆。因此,本发明实施例采用两个独立对称的ResNet-50作为特征提取网络,分别逐步提取来自RGB和红外图像的多层次模态特征,对应层次的模态特征将送入对应的概率特征融合模块进行融合。
S300、将RGB模态特征和红外模态特征输入概率特征融合模块进行融合特征偏好计算,得到各层次的空间融合因子;
需要说明的是,一些实施例中,将RGB模态特征和红外模态特征按层次对应进行中间融合处理,得到多层次的中间融合特征;中间融合处理包括通道维度连接、第一卷积处理、批归一化和第一激活处理;基于高斯分布,根据中间融合特征确定各层次的目标样本;根据目标样本进行偏好计算,得到各层次的空间融合因子;偏好计算包括第二卷积处理和第二激活处理。
S400、基于空间融合因子,对RGB模态特征和红外模态特征进行偏好融合,得到各层次的融合特征;
需要说明的是,一些实施例中,基于各层次的空间融合因子,设置对应层次的RGB模态特征和红外模态特征的融合权重值,进行偏重融合,得到各层次的融合特征;其中,融合特征的表达式为:
其中,表示融合特征,W表示空间融合因子,/>表示RGB模态特征,/>表示红外模态特征,i,j,k均为索引。
具体地,对于步骤S300和S400,一些具体实施例中,首先将模态特征与送入概率特征融合模块(PFFM,Probabilistic Feature Fusion Module),生成空间融合因子W,进一步利用空间融合因子W融合模态特征与/>得到融合特征/>包括以下步骤:
为了实现深度概率特征语义分割模型,把融合特征视为随机变量,设计了概率特征融合模块(PFFM)融合/>与/>并得到/>的一个样本。融合特征表示为:
式中,W为空间融合因子,表示每个空间位置的融合权重值,值的范围为(0,1),i,j,k为索引。当W=0时,表示红外模态特征,当W=1时,表示RGB模态特征,W能够影响融合特征的偏好。为了得到不同的融合特征,把Wij视为随机变量,于是关键问题转换为了如何生成空间融合因子W。生成空间融合因子W的模型PFFM如图5所示,输入是维度大小相同的同层次模态特征与/>维度大小为(c,h,w)。
首先,计算中间融合融合特征
该计算步骤是与/>在通道维度连接(Cat),将连接后的特征依次经过卷积核为的卷积(Convs,实现第一卷积处理),批归一化(BN,Batchnorm),值为0.2的激活函数LeakyReLU(σL,实现第一激活处理),输出一个通道维度为R/r的中间融合融合特征,这里r设置为16。
之后,利用生成服从高斯分布的变量/>对应的均值和对数方差,即:
计算步骤是利用1×1的卷积(Conv1)分别生成均值与对数方差表示均值为/>方差为/>的高斯分布,d表示输出的通道维度,之后再通过采样的方式,得到/>的一个样本(Sample,即目标样本)用于生成空间融合因子。
最后,依次通过的1×1卷积(Conv1,实现第二卷积处理)和Sigmoid激活函数(σS,实现第二激活处理)归一化后,得到维度为空间融合因子W。结合融合特征的公式,即可得到最终的融合特征/>
由于每次采样得到的都不同,因此生成的空间融合因子W也会不同,由此得到的融合特征样本也存在不同的偏好(W决定偏好)。模型在训练过程中,需要将这些由相同输入产生,但偏好不同的融合特征样本都生成最优的语义分割结果,因此模型不能够只偏好某一种模态,而是需要充分利用每一模态的信息,模态偏好的问题得到解决。
S500、将各层次的融合特征输入解码器进行解码处理,得到分割结果;
需要说明的是,解码器包括多层解码模块,一些实施例中,包括:将各层次的融合特征分别输入多层解码模块中各层解码模块进行解码处理,得到分割结果;其中,多层解码模块中每个解码模块的输入数据包括上一解码模块的输出与对应层次的融合特征进行通道维度连接后的结果。
具体地,解码器的作用包括:①根据输入特征,将特征包含的信息逐步转化为每个像素对应的类别信息;②上采样,恢复图像的分辨率。一些具体实施例中,将送入解码器,得到最终的预测结果,包括以下步骤:
对于解码器,可以使用解码模块Upception Block,Upception Block由Transposed Block1与Transposed Block2依次连接组成,Upception Block结构如图6所示,两个子模块Transposed Block1与Transposed Block2参数设置如图7所示,Kerne1Size为卷积核尺寸,Stride为步幅(卷积时的采样间隔),Padding为填充(在输入特征图的每一边添加一定数目的行列,使得输出和输入的特征图的尺寸相同)。输入特征经过Upception Block处理后,即可得到解码特征
编码器的双模态特征经过各个PFFM的处理后,能得到5个不同层次的融合特征最深层的融合特征(图3中的/>)直接输入Upception Block进行解码得到解码特征/>之后,解码特征/>会与对应分辨率的融合特征/>在通道维度连接(Cat)后再输入下一个Upception Block。重复此步骤,得到最终得到输出的分割结果/>
一些具体实施例中,还包括对于分割结果的评价步骤,包括:
本发明实施例的实验数据来源于RGB-T语义分割公开数据集MFNet-Dataset,数据集由9类物体组成(包括背景类),共1569对图像,其中820对拍摄于白天,749对拍摄于黑夜,光照条件复杂且具有挑战性。示例图像如图8所示,从左到右分别表示RGB图像,红外图像,以及理想的输出结果。可以看到,红外图像在不同光照环境下都保持着稳定的性能,因此模型在训练过程中,如果不加以干预,融合特征会偏向于使用稳定易学的红外图像,导致对RGB图像利用不足。
在语义分割任务中,常采用平均准确度(mAcc,mean Accuracy)与平均交并比(mIoU,mean Intersection over Union)来综合评价一个模型的有效性,这两个指标越高表示性能越好。假设模型要计算Acc和IoU,其中预测正确的部分记为TP(True Positive);预测错误的部分记为FP(False Positive);没有预测到的部分记为FN(False Negative)。Acc和IoU计算公式分别为:
mAcc是Acc(Accuracy)的平均值,一个数据集会含有多个类别,而Acc就是某一类别的准确度(比如行人的准确度、汽车的准确度等),分别求每个类Acc,再加起来除以类别数,即可得到mAcc。同理,根据每个类别的IoU(Intersection over Union)可得到mIoU。
在MFNet数据集验证本发明实施例提出的模型,结果表1所示,预测结果如图9所示,其中,(a)原始RGB图像;(b)原始红外图像;(c)标签(理想预测结果);(d)本发明模型(深度概率模型,包括前述提到的编码器、PFFM和解码器)预测结果;(e)原始模型预测结果。
表1
模型 | mAcc | mIoU |
原始模型 | 69.96 | 55.99 |
本发明模型 | 71.08 | 56.78 |
原始模型指将PFFM(在深度概率特征模型原理介绍中提出的特征融合模块)去除,直接用相加的方式融合RGB特征和红外特征。从表1可以看到,本发明实施例提出的深度概率模型能有效提升mAcc和mIoU。而且,从图9的可视化结果看,原始模型由于偏好红外图像,所以明显存在于RGB图像中的警示锥(第一行粉色物体)、路沿(第二行深蓝色物体)和自行车(第二行浅蓝色物体)都不能被准确完整地预测。而本发明实施例提出的深度概率模型能同时利用RGB图像和红外图像,准确预测出结果,这说明本发明方法能够解决模态偏好问题。
综上所述,本发明通过空间自适应权重的融合方式提出一种RGB-T语义分割方法。该方法根据输入图像的特性,自适应地生成融合特征中两种模态在每一像素的融合权重,充分发挥每种模态的优势。针对融合特征唯一的假设导致融合结果易受模态偏好干扰的问题,本发明提出一种RGB-T语义分割方法。该方法打破融合特征唯一性假设,将融合特征的多种不同偏好的结果视为某概率分布的样本,从而将融合特征的学习问题转变为融合特征概率分布的学习问题。由于模型在训练时需要将多种不同偏好的融合特征样本都生成最佳的分割结果,模型需要充分提取利用每一模态的信息,因此该方法能有效缓解融合结果易受模态偏好干扰的问题。本发明包括如下有益效果:提出空间融合的方式,模型能自适应地根据输入图像为特征的每一像素点赋予不同的权重,充分发挥两种模态特征的优势;提出概率融合特征的思想,将融合特征视为随机变量,打破融合特征的唯一性,模型在训练时需要将多种不同偏好的融合特征样本都生成最佳的分割结果,这迫使其充分提取利用结合每一模态的信息,因此该方法能有效缓解融合结果易受模态偏好干扰的问题。
另一方面,本发明的实施例提供了一种RGB-T语义分割系统,包括:第一模块,用于获取待识别场景的RGB图像和红外图像;第二模块,用于通过编码器分别对RGB图像和红外图像进行特征提取,得到RGB模态特征和红外模态特征;其中,RGB模态特征和红外模态特征均包括多层次的模态特征;第三模块,用于将RGB模态特征和红外模态特征输入概率特征融合模块进行融合特征偏好计算,得到各层次的空间融合因子;第四模块,用于基于空间融合因子,对RGB模态特征和红外模态特征进行偏好融合,得到各层次的融合特征;第五模块,用于将各层次的融合特征输入解码器进行解码处理,得到分割结果。
本发明方法实施例的内容均适用于本系统实施例,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例的另一方面还提供了一种RGB-T语义分割装置,包括处理器以及存储器;
存储器用于存储程序;
处理器执行程序实现如前面的方法。
本发明方法实施例的内容均适用于本装置实施例,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例的另一方面还提供了一种计算机可读存储介质,存储介质存储有程序,程序被处理器执行实现如前面的方法。
本发明方法实施例的内容均适用于本计算机可读存储介质实施例,本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用,或结合这些指令执行装置、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
Claims (10)
1.一种RGB-T语义分割方法,其特征在于,包括:
获取待识别场景的RGB图像和红外图像;
通过编码器分别对所述RGB图像和所述红外图像进行特征提取,得到RGB模态特征和红外模态特征;其中,所述RGB模态特征和所述红外模态特征均包括多层次的模态特征;
将所述RGB模态特征和所述红外模态特征输入概率特征融合模块进行融合特征偏好计算,得到各层次的空间融合因子;
基于所述空间融合因子,对所述RGB模态特征和所述红外模态特征进行偏好融合,得到各层次的融合特征;
将各层次的所述融合特征输入解码器进行解码处理,得到分割结果。
2.根据权利要求1所述的一种RGB-T语义分割方法,其特征在于,所述获取待识别场景的RGB图像和红外图像这一步骤中,还包括:
基于预设分辨率,调整并统一所述RGB图像和所述红外图像的分辨率。
3.根据权利要求1所述的一种RGB-T语义分割方法,其特征在于,还包括:
构建ResNet-50网络,去除所述ResNet-50网络中的全连接层和池化层,得到特征提取网络。
4.根据权利要求1或3任一项所述的一种RGB-T语义分割方法,其特征在于,所述编码器包括两个对称的特征提取网络,所述通过编码器分别对所述RGB图像和所述红外图像进行特征提取,得到RGB模态特征和红外模态特征,包括:
通过两个所述特征提取网络分别对所述RGB图像和所述红外图像进行低层次的纹理信息提取和高层次的语义分类信息提取,得到多层次的RGB模态特征和红外模态特征;其中,所述特征提取网络为多层次结构,每个所述层次包括不同规格的瓶颈层。
5.根据权利要求1所述的一种RGB-T语义分割方法,其特征在于,所述将所述RGB模态特征和所述红外模态特征输入概率特征融合模块进行融合特征偏好计算,得到各层次的空间融合因子,包括:
将所述RGB模态特征和所述红外模态特征按层次对应进行中间融合处理,得到多层次的中间融合特征;所述中间融合处理包括通道维度连接、第一卷积处理、批归一化和第一激活处理;
基于高斯分布,根据所述中间融合特征确定各层次的目标样本;
根据所述目标样本进行偏好计算,得到各层次的空间融合因子;所述偏好计算包括第二卷积处理和第二激活处理。
6.根据权利要求1所述的一种RGB-T语义分割方法,其特征在于,所述基于所述空间融合因子,对所述RGB模态特征和所述红外模态特征进行偏好融合,得到各层次的融合特征,包括:
基于各层次的所述空间融合因子,设置对应层次的所述RGB模态特征和所述红外模态特征的融合权重值,进行偏重融合,得到各层次的融合特征;
其中,所述融合特征的表达式为:
其中,表示融合特征,W表示空间融合因子,/>表示RGB模态特征,/>表示红外模态特征,i,j,k均为索引。
7.根据权利要求1所述的一种RGB-T语义分割方法,其特征在于,所述解码器包括多层解码模块,所述将各层次的所述融合特征输入解码器进行解码处理,得到分割结果,包括:
将各层次的所述融合特征分别输入多层所述解码模块中各层解码模块进行解码处理,得到分割结果;
其中,多层所述解码模块中每个解码模块的输入数据包括上一解码模块的输出与对应层次的所述融合特征进行通道维度连接后的结果。
8.一种RGB-T语义分割系统,其特征在于,包括:
第一模块,用于获取待识别场景的RGB图像和红外图像;
第二模块,用于通过编码器分别对所述RGB图像和所述红外图像进行特征提取,得到RGB模态特征和红外模态特征;其中,所述RGB模态特征和所述红外模态特征均包括多层次的模态特征;
第三模块,用于将所述RGB模态特征和所述红外模态特征输入概率特征融合模块进行融合特征偏好计算,得到各层次的空间融合因子;
第四模块,用于基于所述空间融合因子,对所述RGB模态特征和所述红外模态特征进行偏好融合,得到各层次的融合特征;
第五模块,用于将各层次的所述融合特征输入解码器进行解码处理,得到分割结果。
9.一种RGB-T语义分割装置,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406514.6A CN116664829A (zh) | 2023-04-10 | 2023-04-10 | 一种rgb-t语义分割方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310406514.6A CN116664829A (zh) | 2023-04-10 | 2023-04-10 | 一种rgb-t语义分割方法、系统、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116664829A true CN116664829A (zh) | 2023-08-29 |
Family
ID=87717901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310406514.6A Pending CN116664829A (zh) | 2023-04-10 | 2023-04-10 | 一种rgb-t语义分割方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664829A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994338A (zh) * | 2023-09-25 | 2023-11-03 | 四川中交信通网络科技有限公司 | 一种基于行为识别的站点无纸化稽查管理系统 |
-
2023
- 2023-04-10 CN CN202310406514.6A patent/CN116664829A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994338A (zh) * | 2023-09-25 | 2023-11-03 | 四川中交信通网络科技有限公司 | 一种基于行为识别的站点无纸化稽查管理系统 |
CN116994338B (zh) * | 2023-09-25 | 2024-01-12 | 四川中交信通网络科技有限公司 | 一种基于行为识别的站点无纸化稽查管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132156B (zh) | 多深度特征融合的图像显著性目标检测方法及系统 | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN111222395B (zh) | 目标检测方法、装置与电子设备 | |
CN107274445B (zh) | 一种图像深度估计方法和系统 | |
CN113468967B (zh) | 基于注意力机制的车道线检测方法、装置、设备及介质 | |
CN109583345B (zh) | 道路识别方法、装置、计算机装置及计算机可读存储介质 | |
CN113312983B (zh) | 基于多模态数据融合的语义分割方法、系统、装置及介质 | |
CN112419271B (zh) | 一种图像分割方法、装置及计算机可读存储介质 | |
US11113561B2 (en) | Method, artificial neural network, device, computer program and machine-readable memory medium for the semantic segmentation of image data | |
Zhang et al. | Exploring event-driven dynamic context for accident scene segmentation | |
CN116664829A (zh) | 一种rgb-t语义分割方法、系统、装置及存储介质 | |
CN115147598A (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN113168558A (zh) | 用于图像数据的语义分割的方法、人工神经网络、设备、计算机程序和机器可读存储介质 | |
CN115131634A (zh) | 图像识别方法、装置、设备、存储介质及计算机程序产品 | |
CN112926595B (zh) | 深度学习神经网络模型的训练装置、目标检测系统及方法 | |
CN116861262B (zh) | 一种感知模型训练方法、装置及电子设备和存储介质 | |
CN116229406B (zh) | 车道线检测方法、系统、电子设备及存储介质 | |
CN111435457B (zh) | 对传感器获取的采集进行分类的方法 | |
CN113158970A (zh) | 一种基于快慢双流图卷积神经网络的动作识别方法与系统 | |
CN111860623A (zh) | 基于改进ssd神经网络的统计树木数量的方法及系统 | |
CN113591543B (zh) | 交通标志识别方法、装置、电子设备及计算机存储介质 | |
CN115393673A (zh) | 对象识别模型的训练方法、对象识别的方法、电子设备 | |
CN116724315A (zh) | 确定神经网络的编码器架构的方法 | |
CN114413910B (zh) | 视觉目标导航方法及装置 | |
CN111832587B (zh) | 图像语义标注方法、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |