CN116051830A - 一种面向跨模态数据融合的对比语义分割方法 - Google Patents

一种面向跨模态数据融合的对比语义分割方法 Download PDF

Info

Publication number
CN116051830A
CN116051830A CN202211643372.7A CN202211643372A CN116051830A CN 116051830 A CN116051830 A CN 116051830A CN 202211643372 A CN202211643372 A CN 202211643372A CN 116051830 A CN116051830 A CN 116051830A
Authority
CN
China
Prior art keywords
rgb
feature
feature points
semantic segmentation
feature point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211643372.7A
Other languages
English (en)
Other versions
CN116051830B (zh
Inventor
闫志远
容雪娥
尹文昕
毛秀华
吴有明
戴威
孙超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202211643372.7A priority Critical patent/CN116051830B/zh
Publication of CN116051830A publication Critical patent/CN116051830A/zh
Application granted granted Critical
Publication of CN116051830B publication Critical patent/CN116051830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及语义分割技术领域,特别是涉及一种面向跨模态数据融合的对比语义分割方法。该方法包括:S100,获取RGB‑D图像对A=(a1,a2,…,aM),am为第m个RGB‑D图像对,am=(am,1,am,2);S200,利用A对神经网络模型进行训练,M的大小为对所述神经网络模型训练时小批量的大小,所述神经网络模型包括编码器和解码器,所述编码器用于对am,1和am,2进行特征提取,获取am,1对应的特征图Fm,1和am,2对应的特征图Fm,2;所述神经网络模型的损失L包括第一损失L1、第二损失L2和第三损失L3。本发明提高了模型对图像的语义分割能力。

Description

一种面向跨模态数据融合的对比语义分割方法
技术领域
本发明涉及语义分割技术领域,特别是涉及一种面向跨模态数据融合的对比语义分割方法。
背景技术
当前,语义分割算法的本质是通过深度神经网络模型将图像像素映射到一个高度非线性的特征空间,且一般只考虑单一模态的数据特性。然而,单一模态的数据提供的信息源有限(例如,RGB图像只有颜色信息而没有空间结构信息),且现有算法大多只关注于局部上下文信息(也即单个图像内的像素之间的位置和语义依赖性),这导致深度神经网络模型并没有充分学习到现有的数据信息,存在对现有的数据信息利用的不充分问题,进而限制了语义分割模型对图像的语义分割能力。
发明内容
本发明目的在于,提供一种面向跨模态数据融合的对比语义分割方法,提高了模型对图像的语义分割能力。
根据本发明,提供了一种面向跨模态数据融合的对比语义分割方法,包括以下步骤:
S100,获取RGB-D图像对A=(a1,a2,…,aM),am为第m个RGB-D图像对,m的取值范围为1到M,M为A包括RGB-D图像对的数量;am=(am,1,am,2),am,1为am中的RGB图像,am,2为am中的深度图像,am,1和am,2为同一场景对应的RGB图像和深度图像。
S200,利用A对神经网络模型进行训练,M的大小为对所述神经网络模型训练时小批量的大小,所述神经网络模型包括编码器和解码器,所述编码器用于对am,1和am,2进行特征提取,获取am,1对应的特征图Fm,1和am,2对应的特征图Fm,2;所述解码器用于对Fm,1和Fm,2进行解码操作和进行语义分割。
所述神经网络模型的损失L包括第一损失L1、第二损失L2和第三损失L3,L1
Figure BDA0004008697930000011
Figure BDA0004008697930000012
正相关,
Figure BDA0004008697930000013
为FRGB中与特征点i属于同一类别的特征点集合,FRGB为A中RGB图像经过编码器进行特征提取获取的特征图,
Figure BDA0004008697930000021
Figure BDA0004008697930000022
中特征点的数量,
Figure BDA0004008697930000023
为FRGB中与特征点i不属于同一类别的特征点的集合,fi为FRGB中特征点i对应的特征,fi∈RC,R为实数集,C为特征的通道维度,fi +和fi -分别为fi对应的正样本和负样本,τ为温度系数;
Figure BDA0004008697930000024
为FD中与特征点j属于同一类别的特征点的集合,FD为A中深度图像经过编码器进行特征提取获取的特征图,
Figure BDA0004008697930000025
Figure BDA0004008697930000026
中特征点的数量,
Figure BDA0004008697930000027
为FD中与特征点j不属于同一类别的特征点的集合,fj为FD中特征点j对应的特征,fj∈RC,fj +和fj -分别为fj对应的正样本和负样本;L2
Figure BDA0004008697930000028
Figure BDA0004008697930000029
正相关,qi
Figure BDA00040086979300000210
中所有特征点的平均,rh,i为FRGB中属于第h个第一异类类别的特征点的平均,所述第一异类类别为不与特征点i属于同一类别的类别,H为FRGB中第一异类类别的数量;qj
Figure BDA00040086979300000211
中所有特征点的平均,rt,j为FD中属于第t个第二异类类别的特征点的平均,所述第二异类类别为不与特征点j属于同一类别的类别,T为FD中第二异类类别的数量;L3
Figure BDA00040086979300000212
Figure BDA00040086979300000213
负相关,||fi||、||fk||、||fj||和||fl||分别为fi、fk、fj和fl的模,fk为特征点i所在特征图上的其他特征点,fl为特征点j所在特征图上的其他特征点。
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明利用RGB-D图像对训练集对神经网络模型进行训练,通过利用训练集中跨图像的特征点-特征点的对应关系(在损失L1中体现)、特征点-特征区域的对应关系(在损失L2中体现)来学习一个结构化的特征空间,使得类内更紧凑,类间更可分,改善了现有算法存在的数据模态单一问题以及对数据信息利用不充分的问题,充分挖局了数据本身存在的价值信息;并通过寻找到RGB图像和深度图像之间的共性,利用损失L3来解决由于RGB图像和深度图像分别表示不同模态的信息导致的模态不匹配的问题。本发明通过对跨模态的数据的融合,实现了多种异质信息的互补,通过损失L1和损失L2拉近了属于同一语义类的像素嵌入,通过损失L3桥接了两模态之间的鸿沟,进而提高了模型对图像的语义分割能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的面向跨模态数据融合的对比语义分割方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明,提供了一种面向跨模态数据融合的对比语义分割方法,如图1所示,包括以下步骤:
S100,获取RGB-D图像对A=(a1,a2,…,aM),am为第m个RGB-D图像对,m的取值范围为1到M,M为A包括RGB-D图像对的数量;am=(am,1,am,2),am,1为am中的RGB图像,am,2为am中的深度图像,am,1和am,2为同一场景对应的RGB图像和深度图像。
应当理解的是,RGB图像只有对应拍摄场景的颜色信息,而没有对应拍摄场景的空间结构信息;深度图像虽然没有对应拍摄场景的颜色信息,但是有对应拍摄场景的空间结构信息。本发明中A中的每一RGB-D图像对对应的是同一场景,每一RGB-D图像对中RGB图像中像素点与深度图像中对应像素点的类别相同,例如,某一RGB-D图像对中RGB图像中的中心像素点对应的是猫类别,那么该RGB-D图像对中深度图像中的中心像素点对应的也是猫类别。
S200,利用A对神经网络模型进行训练,M的大小为对所述神经网络模型训练时小批量的大小,所述神经网络模型包括编码器和解码器,所述编码器用于对am,1和am,2进行特征提取,获取am,1对应的特征图Fm,1和am,2对应的特征图Fm,2;所述解码器用于对Fm,1和Fm,2进行解码操作和进行语义分割。
本发明利用编码器无针对性地实现了对RGB图像和深度图像的特征提取,得到了不同模态(即RGB图像和深度图像)的特征图。可选的,编码器采用主流分割算法常用的ResNet、Inception或DenseNet;解码器采用PSPNet或DeepLab V3。上述类型的编码器和解码器的结构为现有技术,将RGB图像或深度图像输入到编码器之后得到对应的特征图的过程也为现有技术,此处不再赘述。
本发明中神经网络模型的损失L包括第一损失L1、第二损失L2和第三损失L3,可选的,L=L1+L2+L3
根据本发明,第一损失L1
Figure BDA0004008697930000041
Figure BDA0004008697930000042
正相关,
Figure BDA0004008697930000043
为FRGB中与特征点i属于同一类别的特征点集合,FRGB为A中RGB图像经过编码器进行特征提取获取的特征图,
Figure BDA0004008697930000044
Figure BDA0004008697930000045
中特征点的数量,
Figure BDA0004008697930000046
为FRGB中与特征点i不属于同一类别的特征点的集合,fi为FRGB中特征点i对应的特征,fi∈RC,R为实数集,C为特征的通道维度,fi +和fi -分别为fi对应的正样本和负样本,τ为温度系数;
Figure BDA0004008697930000047
为FD中与特征点j属于同一类别的特征点的集合,FD为A中深度图像经过编码器进行特征提取获取的特征图,
Figure BDA0004008697930000048
Figure BDA0004008697930000049
中特征点的数量,
Figure BDA00040086979300000410
为FD中与特征点j不属于同一类别的特征点的集合,fj为FD中特征点j对应的特征,fj∈RC,fj +和fj -分别为fj对应的正样本和负样本。
本发明中第一损失L1为特征点-特征点的对比损失;其中,对于RGB图像对应的特征图上的特征点i,设置fi的正样本fi +为与特征点i属于同一类别的特征点,本发明中设置的正样本并不局限于特征点i所在特征图,而是将A包括的RGB图像对应的特征图中与特征点i属于同一类别的特征点均作为fi的正样本;同样的,本发明设置特征点i的特征fi对应的负样本fi -为不与特征点i属于同一类别的特征点,本发明中设置的负样本并不局限于特征点i所在特征图,而是将A包括的RGB图像对应的特征图中不与特征点i属于同一类别的特征点均作为fi的负样本。对于深度图像对应的特征图上的特征点j,关于fj的正样本和负样本的设置原则相同,此处不再赘述。本发明设置第一损失L1时将正样本和负样本的选择扩展到了小批量(mini batch)的训练过程,有效利用了同模态的小批量的训练集的全局上下文信息(跨图像的像素之间的语义相关性),能够从整体的角度对学习的特征空间进行约束。
优选的,L1符合如下关系:
Figure BDA00040086979300000411
其中,|FRGB|为FRGB含有的特征点的数量,|FD|为FD含有的特征点的数量。
根据本发明,L2
Figure BDA00040086979300000412
Figure BDA00040086979300000413
正相关,qi
Figure BDA0004008697930000051
中所有特征点的平均,rh,i为FRGB中属于第h个第一异类类别的特征点的平均,所述第一异类类别为不与特征点i属于同一类别的类别,H为FRGB中第一异类类别的数量;qj
Figure BDA0004008697930000052
中所有特征点的平均,rt,j为FD中属于第t个第二异类类别的特征点的平均,所述第二异类类别为不与特征点j属于同一类别的类别,T为FD中第二异类类别的数量。
本发明中第二损失L2为特征点-特征区域的对比损失;其中,对于RGB图像对应的特征图上的特征点i,设置fi的正样本为A包括的RGB图像对应的特征图中与特征点i属于同一类别的特征点的均值,设置fi的负样本为A包括的RGB图像对应的特征图中异类类别的特征点的均值;同样的,对于深度图像对应的特征图上的特征点j,设置fj的正样本为A包括的深度图像对应的特征图中与特征点j属于同一类别的特征点的均值,设置fj的负样本为A包括的深度图像对应的特征图中异类类别的特征点的均值;本发明设置第二损失L2时也将正样本和负样本的选择扩展到了小批量的训练过程中,进一步有效利用了同模态的小批量的训练集的全局上下文信息(跨图像的像素之间的语义相关性),进一步从整体的角度对学习的特征空间进行约束。
优选的,L2符合如下关系:
Figure BDA0004008697930000053
其中,|FRGB|为FRGB含有的特征点的数量,|FD|为FD含有的特征点的数量。
根据本发明,L3
Figure BDA0004008697930000054
Figure BDA0004008697930000055
负相关,||fi||、||fk||、||fj||和||fl||分别为fi、fk、fj和fl的模,fk为特征点i所在特征图上的其他特征点,fl为特征点j所在特征图上的其他特征点。
由于RGB图像和深度图像分别表示不同模态的信息,简单的特征拼接会引入模态不匹配的问题;本发明中通过寻找两种模态之间的共性,即无论是RGB图像对应的特征图,还是深度图像对应的特征图,同一特征图中的特征点之间的相似性较大;由此,本发明设置第三损失L3来桥接两模态之间的鸿沟,并采用余弦相似度来保证两种模态对应的损失的值域范围一致。
优选的,L3符合如下关系:
Figure BDA0004008697930000061
其中,|Fm,1|为Fm,1包含的特征点的数量,|Fm,2|为Fm,2包含的特征点的数量。
本领域技术人员知悉,现有技术中任何对神经网络模型进行训练的方法均落入本发明的保护范围。根据本发明,训练完成后的神经网络模型的分割能力较强,且既可以较好地适用于RGB图像的语义分割任务,也可以较好地适用于深度图像的语义分割任务。
本发明利用RGB-D图像对训练集对神经网络模型进行训练,通过利用训练集中跨图像的特征点-特征点的对应关系(在损失L1中体现)、特征点-特征区域的对应关系(在损失L2中体现)来学习一个结构化的特征空间,使得类内更紧凑,类间更可分,改善了现有算法存在的数据模态单一问题以及对数据信息利用不充分的问题,充分挖局了数据本身存在的价值信息;并通过寻找到RGB图像和深度图像之间的共性,利用损失L3来解决由于RGB图像和深度图像分别表示不同模态的信息导致的模态不匹配的问题。本发明通过对跨模态的数据的融合,实现了多种异质信息的互补,通过损失L1和损失L2拉近了属于同一语义类的像素嵌入,通过损失L3桥接了两模态之间的鸿沟,进而提高了模型对图像的语义分割能力。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims (7)

1.一种面向跨模态数据融合的对比语义分割方法,其特征在于,包括以下步骤:
S100,获取RGB-D图像对A=(a1,a2,…,aM),am为第m个RGB-D图像对,m的取值范围为1到M,M为A包括RGB-D图像对的数量;am=(am,1,am,2),am,1为am中的RGB图像,am,2为am中的深度图像,am,1和am,2为同一场景对应的RGB图像和深度图像;
S200,利用A对神经网络模型进行训练,M的大小为对所述神经网络模型训练时小批量的大小,所述神经网络模型包括编码器和解码器,所述编码器用于对am,1和am,2进行特征提取,获取am,1对应的特征图Fm,1和am,2对应的特征图Fm,2;所述解码器用于对Fm,1和Fm,2进行解码操作和进行语义分割;
所述神经网络模型的损失L包括第一损失L1、第二损失L2和第三损失L3,L1
Figure FDA0004008697920000011
Figure FDA0004008697920000012
正相关,
Figure FDA0004008697920000013
为FRGB中与特征点i属于同一类别的特征点集合,FRGB为A中RGB图像经过编码器进行特征提取获取的特征图,
Figure FDA0004008697920000014
Figure FDA0004008697920000015
中特征点的数量,
Figure FDA0004008697920000016
为FRGB中与特征点i不属于同一类别的特征点的集合,fi为FRGB中特征点i对应的特征,fi∈RC,R为实数集,C为特征的通道维度,fi +和fi -分别为fi对应的正样本和负样本,τ为温度系数;
Figure FDA0004008697920000017
为FD中与特征点j属于同一类别的特征点的集合,FD为A中深度图像经过编码器进行特征提取获取的特征图,
Figure FDA0004008697920000018
Figure FDA0004008697920000019
中特征点的数量,
Figure FDA00040086979200000110
为FD中与特征点j不属于同一类别的特征点的集合,fj为FD中特征点j对应的特征,fj∈RC,fj +和fj -分别为fj对应的正样本和负样本;L2
Figure FDA00040086979200000111
Figure FDA00040086979200000112
正相关,qi
Figure FDA00040086979200000113
中所有特征点的平均,rh,i为FRGB中属于第h个第一异类类别的特征点的平均,所述第一异类类别为不与特征点i属于同一类别的类别,H为FRGB中第一异类类别的数量;qj
Figure FDA00040086979200000114
中所有特征点的平均,rt,j为FD中属于第t个第二异类类别的特征点的平均,所述第二异类类别为不与特征点j属于同一类别的类别,T为FD中第二异类类别的数量;L3
Figure FDA00040086979200000115
Figure FDA00040086979200000116
负相关,||fi||、||fk||、||fj||和||fl||分别为fi、fk、fj和fl的模,fk为特征点i所在特征图上的其他特征点,fl为特征点j所在特征图上的其他特征点。
2.根据权利要求1所述的面向跨模态数据融合的对比语义分割方法,其特征在于,L1符合如下关系:
Figure FDA0004008697920000021
其中,|FRGB|为FRGB含有的特征点的数量,|FD|为FD含有的特征点的数量。
3.根据权利要求1所述的面向跨模态数据融合的对比语义分割方法,其特征在于,L2符合如下关系:
Figure FDA0004008697920000022
其中,|FRGB|为FRGB含有的特征点的数量,|FD|为FD含有的特征点的数量。
4.根据权利要求1所述的面向跨模态数据融合的对比语义分割方法,其特征在于,L3符合如下关系:
Figure FDA0004008697920000023
其中,|Fm,1|为Fm,1包含的特征点的数量,|Fm,2|为Fm,2包含的特征点的数量。
5.根据权利要求1所述的面向跨模态数据融合的对比语义分割方法,其特征在于,所述编码器为ResNet、Inception或DenseNet。
6.根据权利要求1所述的面向跨模态数据融合的对比语义分割方法,其特征在于,所述解码器为PSPNet或DeepLab V3。
7.根据权利要求1所述的面向跨模态数据融合的对比语义分割方法,其特征在于,L=L1+L2+L3
CN202211643372.7A 2022-12-20 2022-12-20 一种面向跨模态数据融合的对比语义分割方法 Active CN116051830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211643372.7A CN116051830B (zh) 2022-12-20 2022-12-20 一种面向跨模态数据融合的对比语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211643372.7A CN116051830B (zh) 2022-12-20 2022-12-20 一种面向跨模态数据融合的对比语义分割方法

Publications (2)

Publication Number Publication Date
CN116051830A true CN116051830A (zh) 2023-05-02
CN116051830B CN116051830B (zh) 2023-06-20

Family

ID=86121478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211643372.7A Active CN116051830B (zh) 2022-12-20 2022-12-20 一种面向跨模态数据融合的对比语义分割方法

Country Status (1)

Country Link
CN (1) CN116051830B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018076212A1 (zh) * 2016-10-26 2018-05-03 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
CN112115951A (zh) * 2020-11-19 2020-12-22 之江实验室 一种基于空间关系的rgb-d图像语义分割方法
WO2022068195A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN114419323A (zh) * 2022-03-31 2022-04-29 华东交通大学 基于跨模态学习与领域自适应rgbd图像语义分割方法
CN114612666A (zh) * 2022-03-18 2022-06-10 浙江大学 一种基于多模态对比学习的rgb-d语义分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018076212A1 (zh) * 2016-10-26 2018-05-03 中国科学院自动化研究所 基于反卷积神经网络的场景语义分割方法
WO2022068195A1 (zh) * 2020-09-30 2022-04-07 三维通信股份有限公司 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112115951A (zh) * 2020-11-19 2020-12-22 之江实验室 一种基于空间关系的rgb-d图像语义分割方法
CN114612666A (zh) * 2022-03-18 2022-06-10 浙江大学 一种基于多模态对比学习的rgb-d语义分割方法
CN114419323A (zh) * 2022-03-31 2022-04-29 华东交通大学 基于跨模态学习与领域自适应rgbd图像语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
尚群锋;沈炜;帅世渊;: "基于深度学习高分辨率遥感影像语义分割", 计算机系统应用, no. 07 *
王子羽;张颖敏;陈永彬;王桂棠;: "基于RGB-D图像的室内场景语义分割网络优化", 自动化与信息工程, no. 02 *
赵斐;张文凯;闫志远;于泓峰;刁文辉: "《基于多特征图金字塔融合深度网络的遥感图像语义分割》", 《电子与信息学报》, vol. 41, no. 10, pages 2525 - 2531 *

Also Published As

Publication number Publication date
CN116051830B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN112307958B (zh) 基于时空外观运动注意力网络的微表情识别方法
Kosov et al. Environmental microorganism classification using conditional random fields and deep convolutional neural networks
WO2021164534A1 (zh) 图像处理方法、装置、设备及存储介质
CN111401384B (zh) 一种变电设备缺陷图像匹配方法
CN113704531A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN113379764B (zh) 一种基于域对抗自监督学习的病理图像分割方法
CN111583201B (zh) 一种用于构建超分辨率病理显微镜的迁移学习方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN111724400A (zh) 视频自动抠像方法及系统
Chai et al. A one-to-many conditional generative adversarial network framework for multiple image-to-image translations
CN110321452B (zh) 一种基于方向选择机制的图像检索方法
CN113706562A (zh) 图像分割方法、装置、系统及细胞分割方法
CN112990340B (zh) 一种基于特征共享的自学习迁移方法
CN114299567A (zh) 模型训练、活体检测方法、电子设备及存储介质
CN111881997B (zh) 一种基于显著性的多模态小样本学习方法
CN116051830B (zh) 一种面向跨模态数据融合的对比语义分割方法
CN112348809A (zh) 基于多任务深度学习的无参考屏幕内容图像质量评价方法
CN110020986B (zh) 基于欧氏子空间群两重映射的单帧图像超分辨率重建方法
CN109255794B (zh) 一种标准件深度全卷积特征边缘检测方法
CN114240958B (zh) 一种应用于病理学组织分割的对比学习方法
CN108460406B (zh) 基于最小单纯形融合特征学习的场景图像属性识别方法
CN116188428A (zh) 一种桥接多源域自适应的跨域组织病理学图像识别方法
CN116524207A (zh) 基于边缘检测辅助的弱监督rgbd图像显著性检测方法
CN112598043B (zh) 一种基于弱监督学习的协同显著性检测方法
CN109086774B (zh) 基于朴素贝叶斯的彩色图像二值化方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant