CN115171030A - 基于多级特征融合的多模态图像分割方法、系统及器件 - Google Patents

基于多级特征融合的多模态图像分割方法、系统及器件 Download PDF

Info

Publication number
CN115171030A
CN115171030A CN202211098596.4A CN202211098596A CN115171030A CN 115171030 A CN115171030 A CN 115171030A CN 202211098596 A CN202211098596 A CN 202211098596A CN 115171030 A CN115171030 A CN 115171030A
Authority
CN
China
Prior art keywords
image
key frame
visual
fusion
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211098596.4A
Other languages
English (en)
Other versions
CN115171030B (zh
Inventor
徐龙生
庞世玺
孙振行
杨纪冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Kailin Environmental Protection Equipment Co ltd
Original Assignee
Shandong Kailin Environmental Protection Equipment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Kailin Environmental Protection Equipment Co ltd filed Critical Shandong Kailin Environmental Protection Equipment Co ltd
Priority to CN202211098596.4A priority Critical patent/CN115171030B/zh
Publication of CN115171030A publication Critical patent/CN115171030A/zh
Application granted granted Critical
Publication of CN115171030B publication Critical patent/CN115171030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Abstract

本发明涉及图像处理技术领域,基于多级特征融合的多模态图像分割方法、系统及器件,考虑到图像中物体的时序关系,对于前后图像之间联系进行挖掘,引入多尺度融合模块,将关键帧视觉信息中与前后视觉信息中深度不变的区域进行融合,可以更为有效地获取前后图像之间联系。考虑到深度图像对光照等因素具有一定的鲁棒性,融合深度图像和视觉图像进行信道融合,增强深度信息与视觉信息的互补性,提升特征的表达能力和区分性,进而得到更精准的分割图像。

Description

基于多级特征融合的多模态图像分割方法、系统及器件
技术领域
本发明涉及图像处理相关技术领域,具体的说,是涉及基于多级特征融合的多模态图像分割方法、系统及器件。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,并不必然构成在先技术。
即时定位和地图构建是实现全自主机器人的关键,机器人行进在未知环境过程中实时更新自身定位信息,构建未知环境地图,具有重要的应用价值。即时定位和地图构建收集精准的三维信息来建立模型的代价十分昂贵,因此通过2D图像进行3D重构成为即时定位和地图构建领域的需要。精准的分割图像能够增强重构图像中物体语义的一致性,是保持3D精准重构的重要基础。
发明人发现,单一的视觉图像容易受到光照等复杂条件的影响,因此,只是基于视觉图像进行分割任务很难取得精确的分割结果,进而影响地图构建的准确性。另外,在地图构建领域中,现有的方法只是提取关键帧进行使用,又进一步影响了地图构建的准确性。
发明内容
本发明为了解决上述问题,提出了基于多级特征融合的多模态图像分割方法及系统,考虑到图像中物体的时序关系,对于前后图像之间联系进行挖掘。引入多尺度纹理融合模块,将关键帧视觉信息中与前后视觉信息中深度不变的区域进行融合,可以更为有效地获取前后图像之间联系。考虑到深度图像对光照等因素具有一定的鲁棒性,融合深度图像和视觉图像,增强深度信息与视觉信息的互补性,提升特征的表达能力和区分性,进而得到更精准的分割图像。
为了实现上述目的,本发明采用如下技术方案:
一个或多个实施例提供了基于多级特征融合的多模态图像分割方法,包括如下步骤:
获取待处理的关键帧图像以及关键帧图像的前后帧视觉图像;
将关键帧与其前后帧的视觉图像做视差图,通过视差图对比提取深度不变的区域,在关键帧与其前后帧的相应视觉区域进行多尺度融合,根据相似度进行加权得到处理后的关键帧视觉图像;
对关键帧的深度图像以及多尺度融合后的关键帧视觉图像,分别进行特征提取;
在每一级提取特征后,按照深度图像特征对应信道的影响因子大小,将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合,得到融合后的特征;
将融合后的特征,进行上采样解码后得到分割后的图像。
一个或多个实施例提供了基于多级特征融合的多模态图像分割系统,包括:
图像获取模块:被配置为用于获取待处理的关键帧图像以及关键帧图像的前后帧视觉图像;
多尺度融合模块:被配置为用于将关键帧与其前后帧的视觉图像做视差图,通过视差图对比提取深度不变的区域,在关键帧与其前后帧的相应视觉区域进行多尺度融合,根据相似度进行加权得到处理后的关键帧视觉图像;
特征提取网络:被配置为用于对关键帧的深度图像以及多尺度融合后的关键帧视觉图像,分别进行特征提取;
信道融合模块:被配置为用于在每一级提取特征后,按照深度图像特征对应信道的影响因子大小,将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合,得到融合后的特征;
上采样解码模块:被配置为用于将融合后的特征,进行上采样解码后得到分割后的图像。
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。
与现有技术相比,本发明的有益效果为:
本发明的图像分割方法,一方面通过多尺度融合,将关键帧视觉图像中与前后帧视觉图像中深度不变的区域进行融合,更为有效地获取前后图像之间联系,提取了图像的时序关系,另一方面通过信道融合,挖掘各图像模态各自的区分性信息,通过衡量信道对预测结果的影响,充分融合深度信息和视觉信息,加强深度图像模态与视觉图像模态之间的信息交互,提升特征的表达能力和区分性,能够获得更精准的分割图像。
本发明的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的限定。
图1是本发明实施例1的图像分割方法流程图;
图2是本发明实施例1的图像分割过程示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本发明中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
实施例1
在一个或多个实施方式公开的技术方案中,如图1-图2所示,基于多级特征融合的多模态图像分割方法,包括如下步骤:
步骤1、获取待处理的关键帧图像以及关键帧图像前后帧视觉图像;
步骤2、将关键帧与其前后帧的视觉图像做视差图,通过视差图对比提取深度不变的区域,在关键帧与前后帧的相应视觉区域进行多尺度融合,根据相似度进行加权得到处理后的关键帧视觉图像;
步骤3、对关键帧的深度图像以及多尺度融合后的关键帧视觉图像,分别进行特征提取;
步骤4、在每一级提取特征后,按照深度图像特征对应信道的影响因子大小,将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合,得到融合后的特征;
步骤5、将融合后的特征,进行上采样解码后得到分割后的图像。
本实施例中,一方面通过多尺度融合,将关键帧视觉图像中与前后帧视觉图像中深度不变的区域进行融合,更为有效地获取前后图像之间联系,提取了图像的时序关系,另一方面通过信道融合,挖掘各图像模态各自的区分性信息,通过衡量信道对预测结果的影响,充分融合深度信息和视觉信息,加强深度图像模态与视觉图像模态之间的信息交互,提升特征的表达能力和区分性,能够获得更精准的分割图像。
上述步骤的实现过程在图像分割模型中实现,所述图像分割模型包括依次连接的多尺度融合模块、特征提取网络、信道融合模块和上采样解码模块。多尺度融合和信道融合模块构成多级特征融合。
其中,特征提取网络用于图像的低层特征至高层特征的提取,每一级特征提取网络后连接设置一个信道融合模块。
具体的,特征提取网路为神经网络,可以为卷积神经网络。
步骤1中,还包括预处理的步骤,将获取的图像转换为图像分割模型需要的统一的尺寸大小。对于抽取的图像进行尺度变换,可以利用python中transforms算法对原始数据进行尺度变换,将其变换为设定的大小,本实施例中,变换后的图像尺寸大小可以为224*224。
步骤2中,多尺度融合的方法,包括如下步骤:
步骤21、将视觉图像进行多尺度融合,将关键帧与其前后帧的视觉图像做视差图,通过视差图对比提取深度不变的区域;
本实施例中,多尺度融合增加了时间尺度的处理,利用了时间序列的信息,将前后图像进行联系,提取时序中的有效信息。
步骤22、针对提取的区域,在关键帧与前后帧的相应视觉区域建立联系,根据相似度进行加权融合,得到处理后的关键帧视觉图像。
可选的,任意两个图像x,y的相似度,计算公式如下:
Figure DEST_PATH_IMAGE001
其中,x,y分别代表两张图片,
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE005
分别是两张图像选定出来的区域的像素均值,C是一个设定的小常数。
Figure 506950DEST_PATH_IMAGE006
其中,z是多尺度融合后的图像,
Figure 473638DEST_PATH_IMAGE008
代表关键帧图像,
Figure 868847DEST_PATH_IMAGE010
Figure 620902DEST_PATH_IMAGE012
分别代表前后帧图像。
步骤3中,将多尺度融合后的视觉图像和深度图像成对输入至特征提取网络进行特征信息的提取。
将多尺度融合后的视觉图像和深度图像成对同时加载,并输入到特征提取网络进行浅层特征提取和高层特征提取。
本实施例中,特征提取网络包括浅层特征提取和高层特征提取。经过两部分网络提取出图像的关键特征信息,并在两部分神经网络中分别引入信道融合模块进行信道融合。
步骤4中,在提取特征后,按照深度图像特征对应信道的影响因子大小,将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合,得到融合后的特征。
具体的,当影响因子不高于设定阈值,对影响因子进行仿射变换得到对应的信道值;当影响因子高于设定阈值进行模态间的信道融合,将深度图像模态中的信道与视觉图像模态的相应信道,按照两个模态影响因子的值进行加权融合。
本实施例中,一个模态的图片是由很多信道组成的,就相当于很多方块组成的一个大正方形,每个小方块就是一个信道,每个模态是有一个单独的神经网络,两个网络是同步训练的,训练的时候会有交互。单个模态的所有信道输出的结果拼起来就是这个模态的特征输出。
具体的,本实施例中,在浅层特征提取和高层特征提取后,利用bn层设计影响因子,bn层是在batch维度做正则化,进行平移和缩放处理,引入了
Figure DEST_PATH_IMAGE013
Figure 443365DEST_PATH_IMAGE014
两个参数,来训练两个参数。
设定判断的影响因子阈值,本实施例中设置为0.3,用
Figure 897349DEST_PATH_IMAGE013
作为影响因子计算信道对模型的重要程度。
计算深度图像模态中信道的影响因子,若
Figure DEST_PATH_IMAGE015
低于阈值0.3则进行归一化处理,将影响因子进行仿射变换为:
Figure 33932DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
表示由深度图像模态网络的第l层特征图第c个信道的输出信道值变换后得到的信道值,
Figure 702811DEST_PATH_IMAGE018
表示深度图像模态网络的第l层特征图第c个信道的信道值;
Figure DEST_PATH_IMAGE019
表示深度图像的均值;
Figure 883125DEST_PATH_IMAGE020
表示深度图像的误差,输入的数据减去均值得到的差;ε是一个设定的小常数。
Figure DEST_PATH_IMAGE021
高于阈值0.3则进行模态间的信道融合,将深度图像模态中的信道与视觉图像模态的相应信道,按照两个模态影响因子的值进行加权融合,融合公式:
Figure 575138DEST_PATH_IMAGE022
其中,
Figure 499100DEST_PATH_IMAGE024
Figure 22486DEST_PATH_IMAGE026
分别是视觉图像模态和深度图像模态信道输出的融合计算后得到的信道值,下标
Figure DEST_PATH_IMAGE027
Figure 390013DEST_PATH_IMAGE028
分别是视觉图像模态和深度图像模态的网络,l是模型中的第l层特征图,c是第c个信道,
Figure DEST_PATH_IMAGE029
Figure 818589DEST_PATH_IMAGE030
是均值和误差,
Figure DEST_PATH_IMAGE031
衡量信道对模型的影响程度,ε是一个小常数避免零除。
进一步地,还包括对图像分割模型进行训练的步骤,如下:
S1:数据集获取并预处理:按照设定的帧率抽取关键帧,并且提取关键帧的前后帧的视觉图像;将选取的图像转换为图像分割模型需要的统一的尺寸大小。
在一些实施例中,根据获取的图像视频序列和对应深度图像按照设定帧间隔进行关键帧抽取,并抽取关键帧前后一帧的视觉图像。
可以使用RGB-D传感器收集到视频图像序列及其对应的深度图像,图像序列中并不是所有的图像都需要输入,在本实施例中每隔20帧抽取一对视觉图像及深度图像作为关键帧,并且抽取关键帧前后一帧的视觉图像。
可选的,对于抽取的图像进行尺度变换,可以利用python中transforms算法对原始数据进行尺度变换,将其变换为设定的大小,本实施例中,变换后的图像尺寸大小可以为224*224。
S2:将关键帧的视觉图像、深度图像和关键帧前后帧的视觉图像作为输入数据,输入图像分割模型。
将预处理后的图像按照视频帧的前后顺序输入至图像分割模型。
按顺序选取N个批次对图像,输入关键帧的成对视觉图像及深度图像及关键帧前后一张视觉图像,将4*N张图像输入到图像分割模型。
S3:将视觉图像进行多尺度融合,将关键帧与其前后帧的视觉图像做视差图,通过视差图对比提取深度不变的区域;对于提取的区域在关键帧与前后帧的相应视觉区域建立联系,并根据相似性进行加权融合;
可选的,对两个视差图进行对比,提取视差变换不超过设定阈值的区域作为选定区域;其中,设定视差阈值可以为0.08-0.12,优选的,可以为0.1。
对于选定的区域在关键帧与前后帧的对应视觉区域进行相似性计算,按照相似度将前后帧对应区域与关键帧相应区域加权融合。具体的融合算法见前面的步骤。
S4:将多尺度融合后的视觉图像和深度图像成对输入至特征提取网络,进行多级特征信息的提取。
根据图像输入批次的大小,将多尺度融合后的视觉图像和深度图像成对同时加载并输入到特征提取网络。
本实施例中,特征提取网络包括浅层特征提取和高层特征提取。经过两部分网络提取出图像的关键特征信息,并在两部分神经网络中分别引入信道融合模块。
S5:在每一级提取特征后,按照特征对应信道的影响因子进行多信道特征的融合;
在数据特征向量提取模块之后,设计影响因子计算信道对最终预测的影响,当深度图像模态的影响因子高于设定的影响因子阈值,将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合。融合方法同步骤4,此处不再赘述。
S6:将融合后的特征,进行上采样解码后得到分割后的图像;
S7:计算图像分割损失,图像分割损失为损失函数,
Figure 31396DEST_PATH_IMAGE032
,重复进行反向传播训练,直至达到设定的训练轮次,根据损失函数最小或者验证集效果最好对应的模型,为训练好的图像分割模型。
计算分割模型预测结果和真实分割图像之间的差距,具体的,可以采用逐像素交叉熵损失。预测值和真实值越接近,两者的交叉熵损失就越小,计算公式如下:
Figure DEST_PATH_IMAGE033
其中,N是分割图像是输入图像的数量,p是分割图像中有p个像素点,
Figure 861818DEST_PATH_IMAGE034
是第i张图像中第j个像素点的预测结果,
Figure DEST_PATH_IMAGE035
是标记的真实结果。
重复进行反向传播训练,直至达到设定的训练轮次,保存其损失函数最小或者验证集效果最好的结果。
使用训练好的图像分割网络进行图像分割时,用户输入待测试图像数据进入图像分割模型,依次执行多尺度融合、特征向量提取、信道融合和上采样解码得到分割图像五个过程,最后输出分割图像与用户进行交互。
为了说明本实施例方法的效果,将关键帧视觉图像中与前后帧视觉图像中深度不变的区域进行融合,挖掘各图像模态各自的区分性信息,更为有效地获取前后图像之间联系,提升特征的表达能力和区分性,从而获得更精准的分割图像。
实施例2
基于实施例1,本实施例中提供基于多级特征融合的多模态图像分割系统,包括:
图像获取模块:被配置为用于获取待处理的关键帧图像以及关键帧图像前后帧视觉图像;
多尺度融合模块:被配置为用于将关键帧与其前后帧的视觉图像做视差图,通过视差图对比提取深度不变的区域,在关键帧与前后帧的相应视觉区域进行多尺度融合,根据相似度进行加权得到处理后的关键帧视觉图像;
特征提取网络:被配置为用于对关键帧的深度图像以及多尺度融合后的关键帧视觉图像,分别进行特征提取;
信道融合模块:被配置为用于在每一级提取特征后,按照深度图像特征对应信道的影响因子大小,将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合,得到融合后的特征;
上采样解码模块:被配置为用于将融合后的特征,进行上采样解码后得到分割后的图像。
此处需要说明的是,本实施例中的各个模块与实施例1中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例3
本实施例提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1的方法所述的步骤。
实施例4
本实施例提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1的方法所述的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.基于多级特征融合的多模态图像分割方法,其特征在于,包括如下步骤:
获取待处理的关键帧图像以及关键帧图像前后帧视觉图像;
将关键帧与其前后帧的视觉图像做视差图,通过视差图对比提取深度不变的区域,在关键帧与其前后帧的相应视觉区域进行多尺度融合,根据相似度进行加权得到处理后的关键帧视觉图像;
对关键帧的深度图像以及多尺度融合后的关键帧视觉图像,分别进行特征提取;
在每一级提取特征后,按照深度图像特征对应信道的影响因子大小,将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合,得到融合后的特征;
将融合后的特征,进行上采样解码后得到分割后的图像。
2.如权利要求1所述的基于多级特征融合的多模态图像分割方法,其特征在于:还包括预处理的步骤,将获取的图像转换为图像分割模型需要的统一的尺寸大小;
图像分割模型包括依次连接的多尺度融合模块、特征提取网络、信道融合模块和上采样解码模块;
特征提取网络用于图像的低层特征至高层特征的提取,每一级特征提取网络后连接设置一个信道融合模块。
3.如权利要求2所述的基于多级特征融合的多模态图像分割方法,其特征在于:还包括对图像分割模型进行训练的步骤,如下:
数据集获取并预处理,所述数据集按照设定的帧率抽取关键帧,并且提取关键帧的前后帧的视觉图像;
按照图像对将关键帧的视觉图像、深度图像和关键帧前后一帧的视觉图像输入图像分割模型;
将视觉图像进行多尺度融合,将关键帧与其前后帧的视觉图像做视差图,通过视差图对比提取深度不变的区域,对于提取的区域在关键帧与其前后帧的相应视觉区域建立联系,并根据相似性进行融合;
将多尺度融合后的视觉图像和深度图像成对输入至特征提取网络,进行特征信息的提取;
在每一级提取特征后,按照特征对应信道的影响因子进行多信道特征的融合;
将融合后的特征,进行上采样解码后得到分割后的图像;
计算图像分割损失,重复进行反向传播训练,直至达到设定的训练轮次,根据损失函数最小或者验证集效果最好对应的模型,为训练好的图像分割模型。
4.如权利要求3所述的基于多级特征融合的多模态图像分割方法,其特征在于,图像分割损失为:图像分割模型预测结果和真实分割图像之间的差距,采用逐像素交叉熵损失。
5.如权利要求1所述的基于多级特征融合的多模态图像分割方法,其特征在于:多尺度融合的方法,包括如下步骤:
将视觉图像进行多尺度融合,将关键帧与其前后帧的视觉图像做视差图,通过视差图对比提取深度不变的区域;
针对提取的区域,在关键帧与其前后帧的相应视觉区域建立联系,根据相似度进行加权融合,得到处理后的关键帧视觉图像。
6.如权利要求1所述的基于多级特征融合的多模态图像分割方法,其特征在于:通过视差图对比提取深度不变的区域,具体为对两个视差图进行对比,提取视差变换不超过设定阈值的区域作为选定区域。
7.如权利要求1所述的基于多级特征融合的多模态图像分割方法,其特征在于:将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行融合,具体为:当影响因子不高于设定阈值,对影响因子进行仿射变换得到对应的信道值;当影响因子高于设定阈值进行模态间的信道融合,将深度图像模态中的信道与视觉图像模态的相应信道,按照两个模态影响因子的值进行加权融合得到对应的信道值。
8.基于多级特征融合的多模态图像分割系统,其特征在于,包括:
图像获取模块:被配置为用于获取待处理的关键帧图像以及关键帧图像前后帧视觉图像;
多尺度融合模块:被配置为用于将关键帧与其前后帧的视觉图像做视差图,通过视差图对比提取深度不变的区域,在关键帧与其前后帧的相应视觉区域进行多尺度融合,根据相似度进行加权得到处理后的关键帧视觉图像;
特征提取网络:被配置为用于对关键帧的深度图像以及多尺度融合后的关键帧视觉图像,分别进行特征提取;
信道融合模块:被配置为用于在每一级提取特征后,按照深度图像特征对应信道的影响因子大小,将深度图像模态中相应的信道与其对应视觉图像模态中的信道进行加权融合,得到融合后的特征;
上采样解码模块:被配置为用于将融合后的特征,进行上采样解码后得到分割后的图像。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项方法所述的步骤。
CN202211098596.4A 2022-09-09 2022-09-09 基于多级特征融合的多模态图像分割方法、系统及器件 Active CN115171030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211098596.4A CN115171030B (zh) 2022-09-09 2022-09-09 基于多级特征融合的多模态图像分割方法、系统及器件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211098596.4A CN115171030B (zh) 2022-09-09 2022-09-09 基于多级特征融合的多模态图像分割方法、系统及器件

Publications (2)

Publication Number Publication Date
CN115171030A true CN115171030A (zh) 2022-10-11
CN115171030B CN115171030B (zh) 2023-01-31

Family

ID=83482406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211098596.4A Active CN115171030B (zh) 2022-09-09 2022-09-09 基于多级特征融合的多模态图像分割方法、系统及器件

Country Status (1)

Country Link
CN (1) CN115171030B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111637A (zh) * 2011-03-29 2011-06-29 清华大学 生成立体视频深度图的方法及装置
US8619082B1 (en) * 2012-08-21 2013-12-31 Pelican Imaging Corporation Systems and methods for parallax detection and correction in images captured using array cameras that contain occlusions using subsets of images to perform depth estimation
CN103729860A (zh) * 2013-12-31 2014-04-16 华为软件技术有限公司 一种图像目标跟踪的方法和装置
US8705877B1 (en) * 2011-11-11 2014-04-22 Edge 3 Technologies, Inc. Method and apparatus for fast computational stereo
CN107869989A (zh) * 2017-11-06 2018-04-03 东北大学 一种基于视觉惯导信息融合的定位方法及系统
CN108520535A (zh) * 2018-03-26 2018-09-11 天津大学 基于深度恢复信息的物体分类方法
US20200090359A1 (en) * 2018-09-14 2020-03-19 Toyota Research Institute, Inc. Systems and methods for depth estimation using monocular images
CN112101410A (zh) * 2020-08-05 2020-12-18 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及系统
CN112257664A (zh) * 2020-11-12 2021-01-22 Oppo广东移动通信有限公司 图像融合方法、装置、计算机设备和存储介质
WO2021096629A1 (en) * 2019-11-15 2021-05-20 Argo AI, LLC Geometry-aware instance segmentation in stereo image capture processes
CN112906449A (zh) * 2020-12-02 2021-06-04 北京中科慧眼科技有限公司 基于稠密视差图的路面坑洼检测方法、系统和设备
CN113066191A (zh) * 2021-04-10 2021-07-02 中国人民解放军陆军装甲兵学院 基于深度图的全息体视图视差图像的虚实融合方法及系统
CN114660641A (zh) * 2022-02-28 2022-06-24 华南理工大学 一种自适应gps融合定位系统、方法及介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111637A (zh) * 2011-03-29 2011-06-29 清华大学 生成立体视频深度图的方法及装置
US8705877B1 (en) * 2011-11-11 2014-04-22 Edge 3 Technologies, Inc. Method and apparatus for fast computational stereo
US8619082B1 (en) * 2012-08-21 2013-12-31 Pelican Imaging Corporation Systems and methods for parallax detection and correction in images captured using array cameras that contain occlusions using subsets of images to perform depth estimation
CN103729860A (zh) * 2013-12-31 2014-04-16 华为软件技术有限公司 一种图像目标跟踪的方法和装置
CN107869989A (zh) * 2017-11-06 2018-04-03 东北大学 一种基于视觉惯导信息融合的定位方法及系统
CN108520535A (zh) * 2018-03-26 2018-09-11 天津大学 基于深度恢复信息的物体分类方法
US20200090359A1 (en) * 2018-09-14 2020-03-19 Toyota Research Institute, Inc. Systems and methods for depth estimation using monocular images
WO2021096629A1 (en) * 2019-11-15 2021-05-20 Argo AI, LLC Geometry-aware instance segmentation in stereo image capture processes
CN112101410A (zh) * 2020-08-05 2020-12-18 中国科学院空天信息创新研究院 一种基于多模态特征融合的图像像素语义分割方法及系统
CN112257664A (zh) * 2020-11-12 2021-01-22 Oppo广东移动通信有限公司 图像融合方法、装置、计算机设备和存储介质
CN112906449A (zh) * 2020-12-02 2021-06-04 北京中科慧眼科技有限公司 基于稠密视差图的路面坑洼检测方法、系统和设备
CN113066191A (zh) * 2021-04-10 2021-07-02 中国人民解放军陆军装甲兵学院 基于深度图的全息体视图视差图像的虚实融合方法及系统
CN114660641A (zh) * 2022-02-28 2022-06-24 华南理工大学 一种自适应gps融合定位系统、方法及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HANGKE SONG ET AL: "Depth-Aware Salient Object Detection and Segmentation via Multiscale Discriminative Saliency Fusion and Bootstrap Learning", 《 IEEE TRANSACTIONS ON IMAGE PROCESSING》 *
周伟强等: "融合多尺度特征和语义信息的单目深度估计", 《电光与控制》 *
郑阳: "融合视觉的激光雷达点云分割与检测", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN115171030B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
EP3510561B1 (en) Predicting depth from image data using a statistical model
CN107292912B (zh) 一种基于多尺度对应结构化学习的光流估计方法
CN110910437B (zh) 一种复杂室内场景的深度预测方法
CN110909615B (zh) 基于多尺度输入混合感知神经网络的目标检测方法
CN114022729A (zh) 基于孪生网络和监督训练的异源图像匹配定位方法和系统
CN114863037B (zh) 基于单手机的人体三维建模数据采集与重建方法及系统
CN112614070B (zh) 一种基于DefogNet的单幅图像去雾方法
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN111583313A (zh) 一种基于PSMNet改进的双目立体匹配方法
Li et al. A deep learning-based fine crack segmentation network on full-scale steel bridge images with complicated backgrounds
CN113379707A (zh) 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法
Shit et al. An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection
CN115171030B (zh) 基于多级特征融合的多模态图像分割方法、系统及器件
CN110689510B (zh) 一种引入字典信息基于稀疏表示的图像融合方法
CN112613460A (zh) 人脸生成模型的建立方法和人脸生成方法
CN112184731A (zh) 一种基于对抗性训练的多视图立体深度估计方法
CN110533663B (zh) 一种图像视差确定方法、装置、设备及系统
CN114842066A (zh) 图像深度识别模型训练方法、图像深度识别方法及装置
CN110245553B (zh) 路面测距方法及装置
CN113327304A (zh) 一种基于端到端神经网络的高光谱图像显著图生成方法
CN112529081A (zh) 基于高效注意力校准的实时语义分割方法
KR101289003B1 (ko) 영상의 스테레오 정합 방법 및 장치
Mun et al. Guided image filtering based disparity range control in stereo vision
CN110889894A (zh) 三维人脸重建方法、装置及终端设备
CN112598722B (zh) 一种基于可变形卷积网络的图像立体匹配方法以及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant