CN115171030A

CN115171030A - 基于多级特征融合的多模态图像分割方法、系统及器件

Info

Publication number: CN115171030A
Application number: CN202211098596.4A
Authority: CN
Inventors: 徐龙生; 庞世玺; 孙振行; 杨纪冲
Original assignee: Shandong Kailin Environmental Protection Equipment Co ltd
Current assignee: Shandong Kailin Environmental Protection Equipment Co ltd
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2022-10-11
Anticipated expiration: 2042-09-09
Also published as: CN115171030B

Abstract

本发明涉及图像处理技术领域，基于多级特征融合的多模态图像分割方法、系统及器件，考虑到图像中物体的时序关系，对于前后图像之间联系进行挖掘，引入多尺度融合模块，将关键帧视觉信息中与前后视觉信息中深度不变的区域进行融合，可以更为有效地获取前后图像之间联系。考虑到深度图像对光照等因素具有一定的鲁棒性，融合深度图像和视觉图像进行信道融合，增强深度信息与视觉信息的互补性，提升特征的表达能力和区分性，进而得到更精准的分割图像。

Description

基于多级特征融合的多模态图像分割方法、系统及器件

技术领域

本发明涉及图像处理相关技术领域，具体的说，是涉及基于多级特征融合的多模态图像分割方法、系统及器件。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，并不必然构成在先技术。

即时定位和地图构建是实现全自主机器人的关键，机器人行进在未知环境过程中实时更新自身定位信息，构建未知环境地图，具有重要的应用价值。即时定位和地图构建收集精准的三维信息来建立模型的代价十分昂贵，因此通过2D图像进行3D重构成为即时定位和地图构建领域的需要。精准的分割图像能够增强重构图像中物体语义的一致性，是保持3D精准重构的重要基础。

发明人发现，单一的视觉图像容易受到光照等复杂条件的影响，因此，只是基于视觉图像进行分割任务很难取得精确的分割结果，进而影响地图构建的准确性。另外，在地图构建领域中，现有的方法只是提取关键帧进行使用，又进一步影响了地图构建的准确性。

发明内容

本发明为了解决上述问题，提出了基于多级特征融合的多模态图像分割方法及系统，考虑到图像中物体的时序关系，对于前后图像之间联系进行挖掘。引入多尺度纹理融合模块，将关键帧视觉信息中与前后视觉信息中深度不变的区域进行融合，可以更为有效地获取前后图像之间联系。考虑到深度图像对光照等因素具有一定的鲁棒性，融合深度图像和视觉图像，增强深度信息与视觉信息的互补性，提升特征的表达能力和区分性，进而得到更精准的分割图像。

为了实现上述目的，本发明采用如下技术方案：

一个或多个实施例提供了基于多级特征融合的多模态图像分割方法，包括如下步骤：

获取待处理的关键帧图像以及关键帧图像的前后帧视觉图像；

将关键帧与其前后帧的视觉图像做视差图，通过视差图对比提取深度不变的区域，在关键帧与其前后帧的相应视觉区域进行多尺度融合，根据相似度进行加权得到处理后的关键帧视觉图像；

对关键帧的深度图像以及多尺度融合后的关键帧视觉图像，分别进行特征提取；

在每一级提取特征后，按照深度图像特征对应信道的影响因子大小，将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合，得到融合后的特征；

将融合后的特征，进行上采样解码后得到分割后的图像。

一个或多个实施例提供了基于多级特征融合的多模态图像分割系统，包括：

图像获取模块：被配置为用于获取待处理的关键帧图像以及关键帧图像的前后帧视觉图像；

多尺度融合模块：被配置为用于将关键帧与其前后帧的视觉图像做视差图，通过视差图对比提取深度不变的区域，在关键帧与其前后帧的相应视觉区域进行多尺度融合，根据相似度进行加权得到处理后的关键帧视觉图像；

特征提取网络：被配置为用于对关键帧的深度图像以及多尺度融合后的关键帧视觉图像，分别进行特征提取；

信道融合模块：被配置为用于在每一级提取特征后，按照深度图像特征对应信道的影响因子大小，将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合，得到融合后的特征；

上采样解码模块：被配置为用于将融合后的特征，进行上采样解码后得到分割后的图像。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法所述的步骤。

与现有技术相比，本发明的有益效果为：

本发明的图像分割方法，一方面通过多尺度融合，将关键帧视觉图像中与前后帧视觉图像中深度不变的区域进行融合，更为有效地获取前后图像之间联系，提取了图像的时序关系，另一方面通过信道融合，挖掘各图像模态各自的区分性信息，通过衡量信道对预测结果的影响，充分融合深度信息和视觉信息，加强深度图像模态与视觉图像模态之间的信息交互，提升特征的表达能力和区分性，能够获得更精准的分割图像。

本发明的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的限定。

图1是本发明实施例1的图像分割方法流程图；

图2是本发明实施例1的图像分割过程示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本发明中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

实施例1

在一个或多个实施方式公开的技术方案中，如图1-图2所示，基于多级特征融合的多模态图像分割方法，包括如下步骤：

步骤1、获取待处理的关键帧图像以及关键帧图像前后帧视觉图像；

步骤2、将关键帧与其前后帧的视觉图像做视差图，通过视差图对比提取深度不变的区域，在关键帧与前后帧的相应视觉区域进行多尺度融合，根据相似度进行加权得到处理后的关键帧视觉图像；

步骤3、对关键帧的深度图像以及多尺度融合后的关键帧视觉图像，分别进行特征提取；

步骤4、在每一级提取特征后，按照深度图像特征对应信道的影响因子大小，将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合，得到融合后的特征；

步骤5、将融合后的特征，进行上采样解码后得到分割后的图像。

本实施例中，一方面通过多尺度融合，将关键帧视觉图像中与前后帧视觉图像中深度不变的区域进行融合，更为有效地获取前后图像之间联系，提取了图像的时序关系，另一方面通过信道融合，挖掘各图像模态各自的区分性信息，通过衡量信道对预测结果的影响，充分融合深度信息和视觉信息，加强深度图像模态与视觉图像模态之间的信息交互，提升特征的表达能力和区分性，能够获得更精准的分割图像。

上述步骤的实现过程在图像分割模型中实现，所述图像分割模型包括依次连接的多尺度融合模块、特征提取网络、信道融合模块和上采样解码模块。多尺度融合和信道融合模块构成多级特征融合。

其中，特征提取网络用于图像的低层特征至高层特征的提取，每一级特征提取网络后连接设置一个信道融合模块。

具体的，特征提取网路为神经网络，可以为卷积神经网络。

步骤1中，还包括预处理的步骤，将获取的图像转换为图像分割模型需要的统一的尺寸大小。对于抽取的图像进行尺度变换，可以利用python中transforms算法对原始数据进行尺度变换，将其变换为设定的大小，本实施例中，变换后的图像尺寸大小可以为224*224。

步骤2中，多尺度融合的方法，包括如下步骤：

步骤21、将视觉图像进行多尺度融合，将关键帧与其前后帧的视觉图像做视差图，通过视差图对比提取深度不变的区域；

本实施例中，多尺度融合增加了时间尺度的处理，利用了时间序列的信息，将前后图像进行联系，提取时序中的有效信息。

步骤22、针对提取的区域，在关键帧与前后帧的相应视觉区域建立联系，根据相似度进行加权融合，得到处理后的关键帧视觉图像。

可选的，任意两个图像x，y的相似度，计算公式如下：

其中，x，y分别代表两张图片，

和

分别是两张图像选定出来的区域的像素均值，C是一个设定的小常数。

其中，z是多尺度融合后的图像，

代表关键帧图像，

，

分别代表前后帧图像。

步骤3中，将多尺度融合后的视觉图像和深度图像成对输入至特征提取网络进行特征信息的提取。

将多尺度融合后的视觉图像和深度图像成对同时加载，并输入到特征提取网络进行浅层特征提取和高层特征提取。

本实施例中，特征提取网络包括浅层特征提取和高层特征提取。经过两部分网络提取出图像的关键特征信息，并在两部分神经网络中分别引入信道融合模块进行信道融合。

步骤4中，在提取特征后，按照深度图像特征对应信道的影响因子大小，将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合，得到融合后的特征。

具体的，当影响因子不高于设定阈值，对影响因子进行仿射变换得到对应的信道值；当影响因子高于设定阈值进行模态间的信道融合，将深度图像模态中的信道与视觉图像模态的相应信道，按照两个模态影响因子的值进行加权融合。

本实施例中，一个模态的图片是由很多信道组成的，就相当于很多方块组成的一个大正方形，每个小方块就是一个信道，每个模态是有一个单独的神经网络，两个网络是同步训练的，训练的时候会有交互。单个模态的所有信道输出的结果拼起来就是这个模态的特征输出。

具体的，本实施例中，在浅层特征提取和高层特征提取后，利用bn层设计影响因子，bn层是在batch维度做正则化，进行平移和缩放处理，引入了

和

两个参数，来训练两个参数。

设定判断的影响因子阈值，本实施例中设置为0.3，用

作为影响因子计算信道对模型的重要程度。

计算深度图像模态中信道的影响因子，若

低于阈值0.3则进行归一化处理，将影响因子进行仿射变换为：

其中，

表示由深度图像模态网络的第l层特征图第c个信道的输出信道值变换后得到的信道值，

表示深度图像模态网络的第l层特征图第c个信道的信道值；

表示深度图像的均值；

表示深度图像的误差，输入的数据减去均值得到的差；ε是一个设定的小常数。

若

高于阈值0.3则进行模态间的信道融合，将深度图像模态中的信道与视觉图像模态的相应信道，按照两个模态影响因子的值进行加权融合，融合公式：

其中，

，

分别是视觉图像模态和深度图像模态信道输出的融合计算后得到的信道值，下标

和

分别是视觉图像模态和深度图像模态的网络，l是模型中的第l层特征图，c是第c个信道，

和

是均值和误差，

衡量信道对模型的影响程度，ε是一个小常数避免零除。

进一步地，还包括对图像分割模型进行训练的步骤，如下：

S1：数据集获取并预处理：按照设定的帧率抽取关键帧，并且提取关键帧的前后帧的视觉图像；将选取的图像转换为图像分割模型需要的统一的尺寸大小。

在一些实施例中，根据获取的图像视频序列和对应深度图像按照设定帧间隔进行关键帧抽取，并抽取关键帧前后一帧的视觉图像。

可以使用RGB-D传感器收集到视频图像序列及其对应的深度图像，图像序列中并不是所有的图像都需要输入，在本实施例中每隔20帧抽取一对视觉图像及深度图像作为关键帧，并且抽取关键帧前后一帧的视觉图像。

可选的，对于抽取的图像进行尺度变换，可以利用python中transforms算法对原始数据进行尺度变换，将其变换为设定的大小，本实施例中，变换后的图像尺寸大小可以为224*224。

S2：将关键帧的视觉图像、深度图像和关键帧前后帧的视觉图像作为输入数据，输入图像分割模型。

将预处理后的图像按照视频帧的前后顺序输入至图像分割模型。

按顺序选取N个批次对图像，输入关键帧的成对视觉图像及深度图像及关键帧前后一张视觉图像，将4*N张图像输入到图像分割模型。

S3：将视觉图像进行多尺度融合，将关键帧与其前后帧的视觉图像做视差图，通过视差图对比提取深度不变的区域；对于提取的区域在关键帧与前后帧的相应视觉区域建立联系，并根据相似性进行加权融合；

可选的，对两个视差图进行对比，提取视差变换不超过设定阈值的区域作为选定区域；其中，设定视差阈值可以为0.08-0.12，优选的，可以为0.1。

对于选定的区域在关键帧与前后帧的对应视觉区域进行相似性计算，按照相似度将前后帧对应区域与关键帧相应区域加权融合。具体的融合算法见前面的步骤。

S4：将多尺度融合后的视觉图像和深度图像成对输入至特征提取网络，进行多级特征信息的提取。

根据图像输入批次的大小，将多尺度融合后的视觉图像和深度图像成对同时加载并输入到特征提取网络。

本实施例中，特征提取网络包括浅层特征提取和高层特征提取。经过两部分网络提取出图像的关键特征信息，并在两部分神经网络中分别引入信道融合模块。

S5：在每一级提取特征后，按照特征对应信道的影响因子进行多信道特征的融合；

在数据特征向量提取模块之后，设计影响因子计算信道对最终预测的影响，当深度图像模态的影响因子高于设定的影响因子阈值，将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合。融合方法同步骤4，此处不再赘述。

S6：将融合后的特征，进行上采样解码后得到分割后的图像；

S7：计算图像分割损失，图像分割损失为损失函数，

，重复进行反向传播训练，直至达到设定的训练轮次，根据损失函数最小或者验证集效果最好对应的模型，为训练好的图像分割模型。

计算分割模型预测结果和真实分割图像之间的差距，具体的，可以采用逐像素交叉熵损失。预测值和真实值越接近，两者的交叉熵损失就越小，计算公式如下：

其中，N是分割图像是输入图像的数量，p是分割图像中有p个像素点，

是第i张图像中第j个像素点的预测结果，

是标记的真实结果。

重复进行反向传播训练，直至达到设定的训练轮次，保存其损失函数最小或者验证集效果最好的结果。

使用训练好的图像分割网络进行图像分割时，用户输入待测试图像数据进入图像分割模型，依次执行多尺度融合、特征向量提取、信道融合和上采样解码得到分割图像五个过程，最后输出分割图像与用户进行交互。

为了说明本实施例方法的效果，将关键帧视觉图像中与前后帧视觉图像中深度不变的区域进行融合，挖掘各图像模态各自的区分性信息，更为有效地获取前后图像之间联系，提升特征的表达能力和区分性，从而获得更精准的分割图像。

实施例2

基于实施例1，本实施例中提供基于多级特征融合的多模态图像分割系统，包括：

图像获取模块：被配置为用于获取待处理的关键帧图像以及关键帧图像前后帧视觉图像；

多尺度融合模块：被配置为用于将关键帧与其前后帧的视觉图像做视差图，通过视差图对比提取深度不变的区域，在关键帧与前后帧的相应视觉区域进行多尺度融合，根据相似度进行加权得到处理后的关键帧视觉图像；

此处需要说明的是，本实施例中的各个模块与实施例1中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例3

本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1的方法所述的步骤。

实施例4

本实施例提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1的方法所述的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于多级特征融合的多模态图像分割方法，其特征在于，包括如下步骤：

获取待处理的关键帧图像以及关键帧图像前后帧视觉图像；

将融合后的特征，进行上采样解码后得到分割后的图像。

2.如权利要求1所述的基于多级特征融合的多模态图像分割方法，其特征在于：还包括预处理的步骤，将获取的图像转换为图像分割模型需要的统一的尺寸大小；

图像分割模型包括依次连接的多尺度融合模块、特征提取网络、信道融合模块和上采样解码模块；

特征提取网络用于图像的低层特征至高层特征的提取，每一级特征提取网络后连接设置一个信道融合模块。

3.如权利要求2所述的基于多级特征融合的多模态图像分割方法，其特征在于：还包括对图像分割模型进行训练的步骤，如下：

数据集获取并预处理，所述数据集按照设定的帧率抽取关键帧，并且提取关键帧的前后帧的视觉图像；

按照图像对将关键帧的视觉图像、深度图像和关键帧前后一帧的视觉图像输入图像分割模型；

将视觉图像进行多尺度融合，将关键帧与其前后帧的视觉图像做视差图，通过视差图对比提取深度不变的区域，对于提取的区域在关键帧与其前后帧的相应视觉区域建立联系，并根据相似性进行融合；

将多尺度融合后的视觉图像和深度图像成对输入至特征提取网络，进行特征信息的提取；

在每一级提取特征后，按照特征对应信道的影响因子进行多信道特征的融合；

将融合后的特征，进行上采样解码后得到分割后的图像；

计算图像分割损失，重复进行反向传播训练，直至达到设定的训练轮次，根据损失函数最小或者验证集效果最好对应的模型，为训练好的图像分割模型。

4.如权利要求3所述的基于多级特征融合的多模态图像分割方法，其特征在于，图像分割损失为：图像分割模型预测结果和真实分割图像之间的差距，采用逐像素交叉熵损失。

5.如权利要求1所述的基于多级特征融合的多模态图像分割方法，其特征在于：多尺度融合的方法，包括如下步骤：

将视觉图像进行多尺度融合，将关键帧与其前后帧的视觉图像做视差图，通过视差图对比提取深度不变的区域；

针对提取的区域，在关键帧与其前后帧的相应视觉区域建立联系，根据相似度进行加权融合，得到处理后的关键帧视觉图像。

6.如权利要求1所述的基于多级特征融合的多模态图像分割方法，其特征在于：通过视差图对比提取深度不变的区域，具体为对两个视差图进行对比，提取视差变换不超过设定阈值的区域作为选定区域。

7.如权利要求1所述的基于多级特征融合的多模态图像分割方法，其特征在于：将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行融合，具体为：当影响因子不高于设定阈值，对影响因子进行仿射变换得到对应的信道值；当影响因子高于设定阈值进行模态间的信道融合，将深度图像模态中的信道与视觉图像模态的相应信道，按照两个模态影响因子的值进行加权融合得到对应的信道值。

8.基于多级特征融合的多模态图像分割系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。