CN112101410A

CN112101410A - 一种基于多模态特征融合的图像像素语义分割方法及系统

Info

Publication number: CN112101410A
Application number: CN202010775626.5A
Authority: CN
Inventors: 孙显; 许光銮; 张文凯; 刘文杰; 汪勇; 李轩; 张政远
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-12-18
Anticipated expiration: 2040-08-05
Also published as: CN112101410B

Abstract

本发明提供了一种基于多模态特征融合的图像像素语义分割方法，包括对多模态图像数据分别进行图像增强处理；基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像，并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征；采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合，得到像素级的多模态融合特征；基于像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率，选择像素被正确分类的概率最高值进行图像像素语义分割；本发明更好地进行多模态间互补特征的融合，提高了模型对边界对象的分割性能以及加快网络的收敛。

Description

一种基于多模态特征融合的图像像素语义分割方法及系统

技术领域

本发明涉及一种图像分割技术，具体讲涉及一种基于多模态特征融合的图像像素语义分割方法及系统。

背景技术

随着计算机视觉领域的兴起，图像语义分割备受人们的关注，图像分割技术比较困难，现实生活中人们对于视觉处理的要求又比较苛刻。生活中图像是一种传达信息的方式，其中包含了大量的信息，它是人类感知世界的信息载体。在计算机视觉领域，图像分割一直是数字图像技术中的难点，也是从图像处理到图像分析的关键。对于图像的研究，人们往往更加关注其中有意义的部分，这些部分往往是图像中具有特殊性质的区域，怎么把它从图像中提取出来就是图像分割需要研究的问题了。

传统的图像方法仅利用像素之间的相似性对图进行区域划分，并不能预测出割结果的类别。受限于计算能力，早期的图像分割算法仅使用简单的分类器和单一的特征提取图像割方法，例如FCM(Fuzzy c-means)、分水岭、灰度共生矩阵等。这些方法特征表达能力较差、区分度不高，因而出现了各种复杂的手工设计特征和有监督的机器学习分类器。这类方法通常采用特征提取算子提取图像的局部区域，然后利用分类器进行分类。常用的分类器包括随机森林、条件随机场、支持向量机等等。尽管传统分割方法取得了一定的成效，但是这些方法往往依赖丰富的先验知识进行特征的表达，因此会造成高昂的时间和成本代价。

卷积神经网络凭借其强大的特征表达能力，在自然语言处理和计算机视觉领域取得了极大的成功。全卷积网络(FCN)是将卷积神经网络首次引入语义分割领域的开创性工作，它将传统类神经网络最后全连接层替换为卷积层，实现了端到端的图像素级分类。SegNet同样利用VGGNet提取特征，它在解码器中使用了池化来恢复图像的空间特征。U-net拥有对称的编解码结构，采用了逐层上采样的方式进行解码，此外还使用了跨层连接的方将编器中多个尺度特征与对应特征进行融合，在医学图像分割领域得到了广泛的应用。RefineNet由模块化的多路网络组成，编码器由残差模块逐层提取特征，解码器由多路融合模块逐步融合不同尺度的特征，最终使用链式残差池化结构捕获全局背景上下文信息遥感领域和自然场景下的影像数据通常包含除了光学可见光图像以外多种数据源的信息，多模态图像数据中丰富的特征在大场景应用范围下的语义分割任务中能够带来有价值的信息。现有的语义分割方法存在以下的缺点：一、网络模型通常为单模态深度神经网络，这样导致在相同颜色和纹理的图像像素产生语义歧义，难以适应大场景复杂环境下的图像语义分割。二、现有的网络模型未能充分利用上下文信息，难以设计更好的模块进行多尺度上下文关系聚合。三、现有的双路多特征提取网络主要在早期或者后期进行特征融合，很难对不同模态的特征信息进行有效利用。

发明内容

基于现有技术中存在的如下问题，一、网络模型通常为单模态深度神经网络，这样导致在相同颜色和纹理的图像像素产生语义歧义，难以适应大场景复杂环境下的图像语义分割。二、现有的网络模型未能充分利用上下文信息，难以设计更好的模块进行多尺度上下文关系聚合。三、现有的双路多特征提取网络主要在早期或者后期进行特征融合，很难对不同模态的特征信息进行有效利用。本发明提供了一种基于多模态特征融合的图像像素语义分割方法，包括：

对多模态图像数据分别进行图像增强处理；

基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像，并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征；

采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合，得到像素级的多模态融合特征；

基于所述像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率，选择所述像素被正确分类的概率最高值进行图像像素语义分割；

其中，所述深度神经网络的构建由具有多尺度残差单元和空洞空间金字塔池化模块的编码器，以及带有跳优化结构和多分辨率监控策略的解码器构建而成。

优选的，所述深度神经网络的包括：编码器和解码器；

所述编码器包括：多尺度残差单元和空洞空间金字塔池化模块；

所述解码器包括：跳优化结构和多分辨率监控策略；

所述多尺度残差单元，用于提取像素级的RGB图像和深度图像的特征信息；

所述空洞空间金字塔池化模块，用于增强像素级的RGB图像和深度图像的特征信息；

所述跳优化结构和多分辨率监控策略，用于通过多分辨率监控策略对增强像素级的RGB图像和深度图像的特征信息进行多分辨率监控，并通过跳优化结构的融合机制对同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征。

优选的，所述空洞空间金字塔池化模块用于增强像素级的RGB图像和深度图像的特征信息包括：

将多模态图像的像素级的RGB图像和深度图像的通过1*1卷积层将图像通道数降低为原来的1/4,连续级联两个3*3的卷积层增大感受野，最后通过一个1*1的卷积层恢复多模态图像的通道数，得到增强像素级的RGB图像和深度图像的特征信息。

优选的，所述感受野通过下式计算：

F_eff＝F₁+F₂-1

式中，F_eff：感受野；F₁、F₂：为不同模态的空洞卷积的感受野。

优选的，所述对多模态图像数据分别进行图像增强处理，包括：

对RGB图像和深度图像进行翻转变换、随机修建、色彩抖动、平移变换、尺度变换、旋转变换、扭曲缩放以及噪声扰动数据集增强方式；

其中，所述多模态图像数据包括深度图像和RGB图像。

优选的，所述基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像，并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征，包括：

采用所述多尺度残差单元从增强处理后的多模态图像数据中提取像素级的RGB图像和深度图像的特征信息；

并采用空洞空间金字塔池化模块增强所述像素级的RGB图像和深度图像的特征信息；

通过所述解码器中的多分辨率监控策略对增强后的所述像素级的RGB图像和深度图像的特征信息进行多分辨率监控；

并采用解码器中的跳优化结构对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行特征融合，得到融合后的层级特征。

优选的，所述并采用解码器中的跳优化结构对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行特征融合，得到融合后的层级特征，包括：

对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行全局池化操作，得到池化结果；

将所述池化结果通过一个1*1的卷积层进行降维处理，得到降维后的图像特征；

将所述降维后的图像特征作为同一模态图像中降维后的图像特征的融合权重；

基于所述融合权重和局池化结果进行融合，得到融合后的层级特征。

优选的，所述采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合，得到像素级的多模态融合特征，包括：

将任意两模态的像素级特征通过Concat的方式在通道维度上进行连接得到合并模态特征，将所述合并模态特征连续通过两个3*3的卷积层进行特征提取，得到两模态融合后的图像高层特征；

将所述图像高层特征作为所述合并模态特征的权值进行加权，得到加权后的合并模态特征；

将所述加权后的合并模态特征经过3*3的卷积层再次进行特征提取，得到像素级的多模态融合特征。

优选的，所述像素被正确分类的概率按下式计算：

式中，p_j表示像素a_r被分类为标签j的概率，A_n，B_n分别代表不同的输入模态，θ代表权重和偏置的网络参数；q_j(a_r,θ)：利用q_j函数对每个像素a_r作分类打分，σ表示经过一个sigmoid函数；q_k(a_r,θ)：利用q_k函数对每个像素a_r作分类打分。

优选的，所述权重和偏置的网络参数θ通过下式进行迭代收敛得到：

式中，

表示克罗内克δ函数。

基于同一发明构思，本发明还提供了一种基于多模态特征融合的图像像素语义分割系统，包括：

增强处理模块，对多模态图像数据分别进行图像增强处理；

层级特征融合模块，基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像，并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征；

多模态特征融合模块，用于采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合，得到像素级的多模态融合特征；

语义分割模块，基于所述像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率，选择所述像素被正确分类的概率最高值进行图像像素语义分割；

与现有技术相比，本发明的有益效果为：

1、本发明提供了一种基于多模态特征融合的图像像素语义分割方法，包括对多模态图像数据分别进行图像增强处理；基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像，并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征；采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合，得到像素级的多模态融合特征；基于像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率，选择像素被正确分类的概率最高值进行图像像素语义分割。本发明采用多模态自适应机制实现了多模态之间的融合。

2、本发明在残差网络结构的基础上，设计了具有多尺度残差单元和高效的空洞空间金字塔池化模块的编码器来增强图像的特征表达能力、有效互补地融合多个模态的特征信息。

附图说明

图1为本发明的图像像素语义分割方法流程示意图；

图2为传统空洞空间金字塔与本发明的高效空洞空间金字塔对比结构示意图；

图3为本发明的图像像素语义分割算法流程图。

具体实施方式

本发明公开了一种基于多模态特征融合的图像像素语义分割方法，该装置实现了多模态间互补特征的融合，提高模型对边界对象的分割性能以及加快网络的收敛：

实施例1：一种基于多模态特征融合的图像像素语义分割方法，如图1所示：

步骤1：对多模态图像数据分别进行图像增强处理；

步骤2：基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像，并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征；

步骤3：采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合，得到像素级的多模态融合特征；

步骤4：基于所述像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率，选择所述像素被正确分类的概率最高值进行图像像素语义分割；

步骤1：对多模态图像数据分别进行图像增强处理，具体如下：

多模态数据集的获取可以通过线上开源公开数据集下载来实施；对多模态数据集进行预处理，常见的图像预处理增强的方法包括：翻转变换、随机修建、色彩抖动、平移变换、尺度变换、旋转变换、扭曲缩放以及噪声扰动等；

步骤2：基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像，并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征，具体如下：

需要设计一种新型的语义分割体系结构，在残差网络结构的基础上针对增强图像特征表达能力、有效互补地融合多个模态的特征信息，需要结合多尺度残差单元和一种高效的空洞空间金字塔池化模块来增强图像的特征表达能力；

所述模型通过以下规则实施：通过级联的方式将金字塔池化模块中间每个3*3的卷积层变成由两个1*1卷积层和两个3*3卷积层级联的方式，详见图2；先利用1*1卷积层将图像通道数降低为原来的1/4，连续级联两个3*3的卷积层，最后通过一个1*1卷积层来恢复通道数，构成瓶颈结构；令空洞卷积的感受野为F，则感受野可以通过以规则计算：

F＝(r-1)*(N-1)+N

其中，r表示空洞卷积的扩张率，N表示卷积核尺寸。级联之后的感受野可以通过以下规则计算：

F_eff＝F₁+F₂-1

还需要设计自监督模型自适应机制来互补地融合两个模态之间的特征信息。具体包括：

将X^a∈R^C*H*W，X^b∈R^C*H*W分别代表模态A和模态B的输入，(C表示特征通道数，H*W代表输入图像大小)X^a，X^b经过简单连接得到X^ab；将X^ab连续通过两个3*3的卷积层：

s＝F_ssma(X^ab；W)＝σ(g(X^ab；W))＝σ(W₂δ(W₁X^ab))

利用上述得到的s对X^ab进行加权：

X^ab _new＝F_scale(X^ab；s)＝s^oX^ab

这里，F_scale(X^ab；s)表示对X^ab和s进行哈达玛积。最后经过一个3*3的卷积层，得到：

f＝F_fused(X^ab _new；W)＝_g(X^ab _new；W)＝W₃X^ab _new

步骤3：采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合，得到像素级的多模态融合特征，具体如下：

多模态特征融合的步骤可以通过以下规则实施：假设T＝{(A_n，B_n，C_n)|n＝1，...，N表示多模态语义分割训练集，其中A_n＝{a_r|r＝1，...，p}代表模态A，真值表示为D_n＝{d_r|r＝1，...，p}，这里d_r∈{1，...C}是数据集的种类。假设θ代表权重和偏置的网络参数，通过分类器获得的P＝(p₁，...，p_C)表示为像素被正确分类的概率；

通过分类器获得的分类结果概率可以表示如下：

模型通过优化θ最大化P来建立，通过以下方式确定建立模型的所有参数的步骤：利用在大型公开数据集上进行预训练获得θ的初始值，通过规则：

通过迭代θ，以使θ收敛到最优值。

建立带有跳优化结构和多分辨率监督策略的解码器；设计跳优化结构的融合机制可以通过以下步骤来实施：

对高层的融合信息进行全局池化操作：

将池化结果通过一个1*1的卷积层：

z＝F_reduce(S；W)＝δ(W₄s)

最后将z作为中间层融合信息的权重；

f_new＝F_loc(f_c；z_c)＝(z₁f₁，...，z_cf_c)

步骤4：基于所述像素级的多模态融合特征采用预先训练好的分类器获得像素被正确分类的概率，选择所述像素被正确分类的概率最高值进行图像像素语义分割。

实施例2：

为了解决这些问题，本发明提出了基于多模态特征融合的图像像素语义分割的多模态学习方法用于语义分割。所述多模态特征融合方法以残差深度神经网络为基础，建立了一种新型语义分割体系结构，如图3所示：

对多源数据集(RGB图像数据集以及相应的深度图像数据集)进行预处理增强；设计一个带有高效空洞空间金字塔池化模块和多尺度残差单元的完全预激活的编码器；设计带有多分辨率监督策略和跳结构优化的解码器；设计双路网络分别提取RGB图像和深度图像的特征信息；依据特征信息设计自监督模型自适应机制，进行不同模态特征信息的融合。

本发明在残差网络结构的基础上，设计了具有多尺度残差单元和高效的空洞空间金字塔池化模块的编码器，同时设计了带有跳优化结构和多分辨率监控策略的解码器。这是一种新型语义分割体系结构。

根据本发明一项实施例。本文设计结合了多尺度残差单元和一种高效的空洞空间金字塔池化模块来增强图像的特征表达能力、有效互补地融合多个模态的特征信息。所述模型通过以下规则实施：

通过级联的方式将金字塔池化模块中间每个3*3的卷积层变成由两个1*1卷积层和两个3*3卷积层级联的方式；先利用1*1卷积层将图像通道数降低为原来的1/4，连续级联两个3*3的卷积层，最后通过一个1*1卷积层来恢复通道数，构成瓶颈结构；

本发明还需要设计自监督模型自适应机制来互补地融合两个模态之间的特征信息。所述模型通过以下规则实施：

将X^a∈R^C*H*W，X^b∈R^C*H*W分别代表模态A和模态B的输入，(C表示特征通道数，H*W代表输入图像大小)，将X^a，X^b经过简单连接得到X^ab；将X^ab连续通过两个3*3的卷积层，利用上述得到的s对X^ab进行加权，最后经过一个3*3的卷积层。

最后设计多尺度融合机制，可以通过以下规则实施：假设T＝{(A_n，B_n，C_n)|n＝1，...，N表示多模态语义分割训练集，其中A_n＝{a_r|r＝1，...，p}代表模态A，真值表示为D_n＝{d_r|r＝1，...，p}，这里d_r∈{1，...C}是数据集的种类。假设θ代表权重和偏置的网络参数，通过分类器获得的P＝(p₁，...，p_C)表示为像素被正确分类的概率。

实施例3：

基于同一发明构思的本发明还提供了一种基于多模态特征融合的图像像素语义分割系统，包括：

增强处理模块，对多模态图像数据分别进行图像增强处理；

其中，所述深度神经网络的构建由具有多尺度残差单元和空洞空间金字塔池化模块的编码器，以及带有跳优化结构和多分辨率监控策略的解码器构建而成优选的，还包括网络构建模块，用于构建深度神经网络。

所述深度神经网络的包括：编码器和解码器；

所述解码器包括：跳优化结构和多分辨率监控策略；

所述空洞空间金字塔池化模块包括：两个1*1卷积层、连续级联两个3*3的卷积层；

所述1*1卷积层，用于将多模态图像的像素级的RGB图像和深度图像的图像通道降低为原来的1/4；

连续级联两个3*3的卷积层，用于增大感受野；

最后一个卷积层，用于恢复多模态图像的通道数，得到增强像素级的RGB图像和深度图像的特征信息。

所述感受野通过下式计算：

F_eff＝F₁+F₂-1

式中，F_eff：感受野；F₁、F₂：为不同模态的空洞卷积的感受野

所述增强处理模块包括：

转换子模块，用于将深度图像进行HHA编码，转成RGB图像；

处理子模块，用于对RGB图像进行翻转变换、随机修建、色彩抖动、平移变换、尺度变换、旋转变换、扭曲缩放以及噪声扰动数据集增强方式；

其中，所述多模态图像数据包括深度图像和RGB图像。

层级特征融合模块，包括：

提取子模块，用于采用所述多尺度残差单元从增强处理后的多模态图像数据中提取像素级的RGB图像和深度图像的特征信息；

增强子模块，用于并采用空洞空间金字塔池化模块增强所述像素级的RGB图像和深度图像的特征信息；

监控子模块，用于通过所述解码器中的多分辨率监控策略对增强后的所述像素级的RGB图像和深度图像的特征信息进行多分辨率监控；

融合子模块，用于采用解码器中的跳优化结构对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行特征融合，得到融合后的层级特征。

所述融合子模块，包括：

池化单元，用于对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行全局池化操作，得到池化结果；

降维单元，用于将所述池化结果通过一个1*1的卷积层进行降维处理，得到降维后的图像特征；

权重计算单元，用于将所述降维后的图像特征作为同一模态图像中降维后的图像特征的融合权重；

层级融合单元，基于所述融合权重和局池化结果进行融合，得到融合后的层级特征。

所述多模态特征融合模块包括：

提取融合子模块，用于将任意两模态的像素级特征通过Concat的方式在通道维度上进行连接得到合并模态特征，将所述合并模态特征连续通过两个3*3的卷积层进行特征提取，得到两模态融合后的图像高层特征；

加权子模块，用于将所述图像高层特征作为所述合并模态特征的权值进行加权，得到加权后的合并模态特征；

二次提取子模块，用于将所述加权后的合并模态特征经过3*3的卷积层再次进行特征提取，得到像素级的多模态融合特征。

像素被正确分类的概率按下式计算：

式中，p_j表示像素a_r被分类为标签j的概率，A_n，B_n分别代表不同的输入模态，θ代表权重和偏置的网络参数；q_j(a_r，θ)：利用q_j函数对每个像素a_r作分类打分，σ表示经过一个sigmoid函数；q_k(a_r，θ)：利用q_k函数对每个像素a_r作分类打分。

所述权重和偏置的网络参数θ通过下式进行迭代收敛得到：

式中，

表示克罗内克δ函数。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种基于多模态特征融合的图像像素语义分割方法，其特征在于，包括：

对多模态图像数据分别进行图像增强处理；

2.根据权利要求1所述的方法，其特征在于，所述深度神经网络的包括：编码器和解码器；

所述解码器包括：跳优化结构和多分辨率监控策略；

3.根据权利要求2所述的方法，其特征在于，所述空洞空间金字塔池化模块用于增强像素级的RGB图像和深度图像的特征信息包括：

4.根据权利要求3所述的方法，其特征在于，所述感受野通过下式计算：

F_eff＝F₁+F₂-1

5.根据权利要求1所述的方法，其特征在于，所述对多模态图像数据分别进行图像增强处理，包括：

其中，所述多模态图像数据包括深度图像和RGB图像。

6.根据权利要求2所述的方法，其特征在于，所述基于增强处理后的多模态图像数据和预先构建的深度神经网络提取出像素级的RGB图像和深度图像，并将同模态图像中的像素级的RGB图像和深度图像进行像素级特征融合得到融合后的层级特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述并采用解码器中的跳优化结构对同一模态图像中进行多分辨率监控的像素级的RGB图像和深度图像进行特征融合，得到融合后的层级特征，包括：

8.根据权利要求6所述的方法，其特征在于，所述采用多模态自适应机制对所述融合后的层级特征进行多模态的像素级特征融合，得到像素级的多模态融合特征，包括：

9.根据权利要求8所述的方法，其特征在于，所述像素被正确分类的概率按下式计算：

式中，p_j表示像素a_r被分类为标签j的概率，A_n，B_n分别代表不同的输入模态，θ代表权重和偏置的网络参数；q_j(a_r,θ)：利用q_j函数对每个像素a_r作分类打分，σ表示经过一个sigmoid函数；q_k(a_r,θ)：利用q_k函数对每个像素a_r作分类打分；

式中，

表示克罗内克δ函数。

10.一种基于多模态特征融合的图像像素语义分割系统，其特征在于，包括：增强处理模块，对多模态图像数据分别进行图像增强处理；