CN113837223B - 一种基于rgb-d的显著目标检测方法及储存介质 - Google Patents

一种基于rgb-d的显著目标检测方法及储存介质 Download PDF

Info

Publication number
CN113837223B
CN113837223B CN202110975347.8A CN202110975347A CN113837223B CN 113837223 B CN113837223 B CN 113837223B CN 202110975347 A CN202110975347 A CN 202110975347A CN 113837223 B CN113837223 B CN 113837223B
Authority
CN
China
Prior art keywords
features
rgb
representing
loss function
global information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110975347.8A
Other languages
English (en)
Other versions
CN113837223A (zh
Inventor
纵冠宇
魏龙生
郭思源
刘玮
陈珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202110975347.8A priority Critical patent/CN113837223B/zh
Publication of CN113837223A publication Critical patent/CN113837223A/zh
Application granted granted Critical
Publication of CN113837223B publication Critical patent/CN113837223B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于RGB‑D的显著目标检测方法及存储介质,该方法通过边缘特征增强和全局信息指导实现,在下采样网络中,通过Resnet50骨干网络进行RGB和深度图的特征提取,采用门控多模态注意模块以整合RGB‑D特征的互补性,并采用边缘特征增强模块提高最终预测结果的边缘质量,在上采样网络中,以由粗到精的方式获取不同神经网络层的全局信息,并作为全局信息指导融合模块的输入,以降低背景噪声,并自动选取和增强边缘增强后的特征中所包含的关于显著目标的主要特征。最后通过自主设计的损失函数进行整个神经网络的优化。该方法运算速度快,最终显著目标预测结果边缘清晰、结构完整。

Description

一种基于RGB-D的显著目标检测方法及储存介质
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于RGB-D的显著目标检测方法及存储介质。
背景技术
显著目标检测是计算机视觉和图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域。通过计算机视觉技术减少对人力资本的消耗,具有重要的现实意义,因此,显著目标检测也就成为了近年来理论和应用的研究热点,它是图像处理和计算机视觉学科的重要分支,也是智能监控系统的核心部分,同时显著目标检测也是许多任务的一个重要的预处理步骤,如图像分割、目标识别、对象定位和跟踪。
近年来,由于深度摄像机拍摄出来的深度图可以提供大量关于显著目标的重要信息,如形状和边界,越来越多的研究人员开始使用RGB图和深度图作为神经网络的输入以解决显著目标检测中具有挑战性的问题,如相似和复杂的背景。至今,基于RGB-D的显著目标检测仍然存在一些问题有待解决。例如:如何提高最终预测结果的边缘质量、如何有效抑制背景噪声并突出显著目标的主要特征、如何有效整合跨模态RGB-D数据的互补信息。
发明内容
本发明解决的主要问题在于:如何提高最终预测结果的边缘质量、如何有效抑制背景噪声并突出显著目标的主要特征、如何有效整合跨模态RGB-D数据的互补信息。
为了实现上述目的,本发明提出了一种新的采用边缘特征增强和全局信息指导的RGB-D显著目标检测网络,分别使用边缘特征增强模块和全局信息指导融合模块来解决边缘质量和背景噪声污染问题,并同时有效整合了跨模态RGB-D数据的互补信息。此外,为了更好地优化整个神经网络,使其收敛到最低点,本发明提出了一种新的损失函数。最终的模型测试结果表明,本发明提出的模型运算速度快,最终显著目标预测结果边缘清晰、结构完整。
根据本发明的一个方面,本发明提供了一种基于RGB-D的显著目标检测方法,包括以下步骤:
下采样网络中,采用两个Resnet50骨干网络分支分别对RGB图像和深度图像进行特征提取,得到RGB特征和Depth特征;
将所述Resnet50骨干网络的最后一层提取到RGB特征和Depth特征通过全局平均池化,得到池化后的特征组合;
将所述的池化后的特征组合,输送到深度置信模块,获得深度图的置信度α及权重
Figure BDA0003227072040000021
将每层提取到的RGB特征和Depth特征均输送到门控多模态注意模块,并结合所述深度图的权重
Figure BDA0003227072040000022
得到基于注意力机制的多模态融合特征;
将浅层门控多模态注意模块提取到的多模态融合特征分别与后续深层网络门控多模态注意模块提取到的多模态融合特征进行整合,得到多个整合后的特征;
将多个所述整合后的特征输送到边缘特征增强模块,获得边缘增强后的特征,并输送至上采样网络;
上采样网络中,获取不同层次的关于显著目标的全局信息,并将所述全局信息输送到全局信息指导融合模块;
在所述全局信息的指导下,所述全局信息指导融合模块自动选取和增强所述边缘增强后的特征中所包含的关于显著目标的主要特征,并抑制背景噪声,得到增强后的主要特征;
将所述增强后的主要特征通过多尺度和多模态特征融合,并结合所述深度图的置信度α,生成结构完整和边缘清晰的显著目标预测结果。
进一步地,在所述将增强后的主要特征通过多尺度和多模态特征融合,并结合所述深度图的置信度,生成结构完整和边缘清晰的显著目标预测结果的步骤之后,还包括:
根据所述显著目标预测结果和真值图,计算得到损失函数;
根据所述损失函数优化所述Resnet50骨干网络的网络参数,最终得到优化后的显著目标预测结果。
进一步地,所述将每层提取到的RGB特征和Depth特征均输送到门控多模态注意模块,并结合所述深度图的权重,得到基于注意力机制的多模态融合特征的步骤的具体表达式为:
Figure BDA0003227072040000023
Figure BDA0003227072040000024
其中,
Figure BDA0003227072040000025
分别表示去除特征冗余后的RGB特征和Depth特征,fdr表示通过深度信息对RGB信息进行精炼后所获取到的特征,frd表示通过RGB特征生成的空间权重去精炼深度特征后所获取到的特征,rf2和df2分别为经过多模态整合后的RGB和深度特征分支,权重/>
Figure BDA0003227072040000031
Figure BDA0003227072040000032
在伪标签g的监督学习得到,表示深度图的权重,g1+g2=1。
进一步地,将多个所述整合后的特征输送到边缘特征增强模块,获得边缘增强后的特征的步骤的具体表达式为:
f1=subsample(conv1(df2))
f2=conv2(rf3)
Figure BDA0003227072040000033
其中,df2和rf3表示边缘特征增强模块的输入,f1,f2表示计算过程中的中间过渡变量,
Figure BDA0003227072040000034
表示边缘特征增强模块的输出,subsample表示通过双线性插值进行的下采样操作,convi(i=1,2,3)表示3×3卷积,[·,·]表示级联,δ为ReLU激活函数。
进一步地,所述全局信息的获取具体为:
sf1=δ(conv1([rs1,ds1])
sf2=δ(conv2([rs2,ds2])
其中,rs1,ds1,rs2和ds2表示全局信息获取模块的输入,convi(i=1,2)表示3×3卷积,δ为ReLU激活函数,sf1和sf2表示多模态融合后的全局信息。
进一步地,所述全局信息指导融合模块具体为:
f1=upsample(conv1(sf1))
Figure BDA0003227072040000035
Figure BDA0003227072040000036
其中,sf1
Figure BDA0003227072040000037
表示全局信息指导融合模块的输入,f1,f2表示计算过程中的中间过渡变量,[·,·]表示级联,upsample表示上采样操作,convi(i=1,2,3)表示3×3卷积,
Figure BDA0003227072040000038
表示矩阵点乘,δ为ReLU激活函数,/>
Figure BDA0003227072040000039
表示通过全局信息指导融合模块增强后的主要特征。
进一步地,所述损失函数由分类损失函数和回归损失函数组成,具体的计算公式为:
Figure BDA0003227072040000041
其中,
Figure BDA0003227072040000042
和/>
Figure BDA0003227072040000043
分别表示分类损失函数、回归损失函数和最终损失函数。λ设置为1以表示回归损失函数所占权重。
进一步地,所述分类损失函数的具体计算公式为:
Figure BDA0003227072040000044
其中,i,j表示上采样过程中不同层次的神经网络,
Figure BDA0003227072040000045
和/>
Figure BDA0003227072040000046
分别表示主要损失函数和辅助损失函数,/>
Figure BDA0003227072040000047
表示侧输出损失函数,λi和αj表示不同损失函数的权重。
进一步地,所述回归损失函数的具体的计算公式为:
Figure BDA0003227072040000048
其中,g表示伪标签,
Figure BDA0003227072040000049
用于控制深度信息的引入比例,并反映深度图的权重。
根据本发明的另一方面,本发明还提供了一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质中存储有如权利要求1-9任一所述的一种基于RGB-D的显著目标检测方法。
本发明提供的一种RGB-D的显著目标检测方法,基于采用边缘特征增强和全局信息指导的RGB-D显著目标检测模型,在下采样中,通过Resnet50骨干网络进行RGB和深度图的特征提取,采用门控多模态注意模块以整合RGB-D特征的互补性,并采用边缘特征增强模块提高最终预测结果的边缘质量,在上采样中,以由粗到精的方式获取不同神经网络层的全局信息,并作为全局信息指导融合模块的输入,以降低背景噪声,并自动选取和增强边缘增强后的特征中所包含的关于显著目标的主要特征。最后通过自主设计的损失函数进行整个神经网络的优化。整个模型运算速度快,最终显著目标预测结果边缘清晰、结构完整。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施例提供的一种基于RGB-D的显著目标检测方法的执行流程图;
图2为本发明实施例提供的一种基于RGB-D的显著目标检测模型结构示意图;
图3为本发明实施例提供的边缘特征增强模块结构示意图;
图4为本发明实施例提供的可视化全局信息示意图;
图5为本发明实施例提供的全局信息指导融合模块结构示意图;
图6为本发明实施例提供的显著目标检测方法测试结果图。
具体实施方式
下面将结合附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
参见图1和图2,本发明实施例提供了一种RGB-D的显著目标检测方法,所述方法通过采用边缘特征增强和全局信息指导的RGB-D显著目标检测模型来实现,包括如下步骤:
S1、采用两个Resnet50骨干网络对RGB图像和深度图像包含的特征进行提取,得到RGB特征和Depth特征。
S2、Resnet50骨干网络的最后一层提取到RGB特征和Depth特征通过全局平均池化,得到池化后的特征组合。
S3、将所述池化后的特征组合输送到深度置信模块,获得深度图的置信度α及权重
Figure BDA0003227072040000051
S4、将每层提取到的RGB特征和Depth特征均输送到门控多模态注意模块,并结合所述深度图的权重,得到基于注意力机制的多模态融合特征。
具体地,参见图2,因RGB图像主要包含显著目标的纹理信息,如颜色,而深度图形则包含显著目标在整个图像中的空间布局,所以考虑到跨模态RGB-D数据的互补性,并防止当深度图置信度较低时,直接集成多模态数据的互补性会对最终的预测结果造成污染,受自我注意力机制的启发,本发明引用了门控多模态注意模块,具体计算过程为:
Figure BDA0003227072040000061
Figure BDA0003227072040000062
其中,rf2和df2分别为经过多模态整合后的RGB和深度特征分支,表示通过深度信息对RGB信息进行精炼后所获取到的特征,表示通过RGB特征生成的空间权重去精炼深度特征后所获取到的特征,权重
Figure BDA0003227072040000063
Figure BDA0003227072040000064
在伪标签g的监督学习得到,代表着深度图的权重,当深度图的权重较低时,g1接近于0,RGB分支会被作为主分支,很少的深度信息被使用。相同原理下,当深度图权重较高时,g1接近于1,更多的深度信息会在多模态融合过程中被采用。
S5、参见图3,将浅层门控多模态注意模块提取到的特征分别与后续深层网络门控多模态注意模块提取到的多模态融合特征进行整合,得到多个整合后的特征,即(df2,rf3),(df2,rf4),(rf2,df3),(rf2,df4);
S6、将所述多个整合后的特征输送到边缘特征增强模块,获得边缘增强后的特征,即(
Figure BDA0003227072040000065
和/>
Figure BDA0003227072040000066
),并输送到上采样网络中;
具体地,因较浅层的卷积神经网络能够有效提取到关于显著目标的边缘特征,而深层的卷积神经网络提取到的更多是语义信息,因而采用多层次特征融合的输出作为上采样网络的输入将促进上采样过程中包含更多的边缘信息。
以往的基于RGB-D显著目标检测工作都集中在显著目标结构的完整性,而非边缘质量,并且大多数模型的最终预测结果的边缘质量比较模糊。本发明提出了一种边缘特征增强模块来提取显著目标的边缘信息,同时有效整合多层次、多尺度的特征的互补性。为更好表述该模块的功能,在此将边缘特征增强模块实例化为df2,rf3。首先,将模块的输入特征的通道数通过3×3卷积转化为256通道;其次,为了保留更加具有判别性的特征及减少噪声,对df2进行下采样;最后,通过级联将预处理后的输入进行融合,并通过3×3卷积将输出通道数恢复至256,具体为:
f1=subsample(conv1(df2))
f2=conv2(rf3)
Figure BDA0003227072040000071
其中,df2和rf3表示边缘特征增强模块的输入,f1,f2表示计算过程中的中间过渡变量,
Figure BDA0003227072040000072
表示边缘特征增强模块的输出,subsample表示通过双线性插值进行的下采样操作,convi(i=1,2,3)表示3×3卷积,[·,·]表示级联,δ为ReLU激活函数。特别的,边缘特征增强模块的输入特征被固定为rf2或者df2,并且在本发明提出的模型中,上采样过程中的最后阶段没有使用边缘特征增强模块,这些操作的目的都是为了提高最终预测图的边缘质量。
S7、上采样网络中,由粗到精的方式获得不同层次的关于显著目标的全局信息,并将所述全局信息输送到全局信息指导融合模块
参见图4,具体地,“粗”代表整合深层卷积神经网络的多模态特征所获取到的全局信息会比较稀少,显著目标预测结果比较模糊(sf1),“精”代表整合浅层卷积神经网络的多模态特征所获取到的全局信息比较丰富,显著目标预测结果相较于深层预测结果更加精细(sf2)。
S8、在所述全局信息的指导下,所述全局信息指导融合模块自动选取和增强边缘增强后的特征中所包含的关于显著目标的主要特征,并抑制背景噪声,得到增强后的主要特征。
因此,本发明提出的模型在上采样网络中,采用由粗到精的方式,进行多层次、多模态特征融合,得到全局特征sf1和sf2,具体为:
sf1=δ(conv1([rs1,ds1])
sf2=δ(conv1([rs2,ds2])
其中,sf1和sf2表示多模态融合特征。特别的,当sfi所处网络越浅,其所包含的关于显著目标的全局信息越多,因此需要让sfi传输到相应层的全局信息指导融合模块,而不是将较深层的sfi传输到较浅层的全局信息指导融合模块,以确保全局信息的时效性。
在上采样过程中获取不同神经网络层的全局特征,并在特征提取过程中添加全局特征指导可以很好地抑制背景噪声,突出显著目标的主要特征。为了更好地展示这项操作的益处,参见图4,图4将不同的神经网络层提取到的全局信息(sf1,sf2)进行了可视化,可以直观得出,sf1和sf2包含了显著目标,并且可以很好地抑制背景噪声,因此,当他们被用于指导选取和增强边缘增强后的特征中所包含的关于显著目标的主要特征,可以更好地选择特征中所包含的关键信息。因此,在上采样分支中,有必要整合边缘增强特征和全局特征的互补信息。为此,参见图5,本发明提出了全局信息指导融合模块,使用自我注意力机制,在全局信息的指导下,自动选择和增强边缘增强后的特征中所包含的关于显著目标的主要特征。为了更好地描述网络,本发明将全局信息指导融合模块地输入实例化为
Figure BDA0003227072040000081
sf1,网络中的其他全局信息指导融合模块具有相同的功能,该计算过程具体可以描述为:
f1=upsample(conv1(sf1))
Figure BDA0003227072040000082
Figure BDA0003227072040000083
其中,sf1
Figure BDA0003227072040000084
表示全局信息指导融合模块的输入,f1,f2表示计算过程中的中间过渡变量,[·,·]表示级联,upsample表示上采样操作,convi(i=1,2,3)表示3×3卷积,
Figure BDA0003227072040000085
表示矩阵点乘,δ为ReLU激活函数,/>
Figure BDA0003227072040000086
表示通过全局信息指导融合模块增强后的主要特征。同样,当sfi所处网络越浅,其所包含的关于显著目标的全局信息越多,因此需要让sfi传输到相应层的全局信息指导融合模块,而不是将较深层的sfi传输到较浅层的全局信息指导融合模块,以确保全局信息的时效性。/>
S9、将所述增强后的主要特征通过多尺度和多模态特征融合,并结合所述深度图的置信度,生成结构完整和边缘清晰的显著目标预测结果,并将预测结果与真值图进行损失函数计算。
为了更好地训练整个网络,本发明定义了一个新的损失函数,最终损失函数由分类损失函数和回归损失函数两类组成,其中分类损失函数用来约束显著检测,回归损失函数用于对深度潜在响应进行建模。
分类损失函数具体包括:
在显著目标检测中,二元交叉熵多用来测量预测结果和真值图之间的关系,数学公式为:
Figure BDA0003227072040000091
其中,H和W分别代表输入图像的高度和宽度,Gij代表真值图,Sij代表最终的预测结果。为了促进分类损失函数对显著预测的约束,本发明对分类损失增加了8个辅助损失和两个侧输出损失(sfi),并对不同层次的损失函数给予不同的权重,以确保不同层次生成的预测图对最终显著目标预测结果产生不同的影响。具体地,每个损失函数计算阶段都需要先通过3×3的卷积来将输出特征图的通道数转化为1,然后通过双线性插值将这些特征图上采样到与真值图相同的大小,并采用Sigmoid函数将预测值归一化为[0,1],具体的分类损失函数可以表示为:
Figure BDA0003227072040000092
其中,i,j表示上采样过程中不同层次的神经网络,ldom
Figure BDA0003227072040000093
分别表示主要损失函数和辅助损失函数,/>
Figure BDA0003227072040000094
表示侧输出损失函数,λi和αj表示不同损失函数的权重。
回归损失函数具体为:
本发明引用Smooth L1 loss作为一个监督信号来模拟深度图的潜力,Smooth L1loss可以定义为:
Figure BDA0003227072040000095
其中g代表伪标签,
Figure BDA0003227072040000096
用于控制深度信息的引入比例,并反映深度图的权重。
最终损失函数由分类损失函数和回归损失函数组成,具体计算过程为:
Figure BDA0003227072040000097
其中,
Figure BDA0003227072040000098
和/>
Figure BDA0003227072040000099
分别代表分类损失函数、回归损失函数和最终损失函数,λ设置为1来表示回归损失所占权重。整个网络以端到端的方式进行训练,训练次数为150epoch,并保存最后30个模型进行测试。参见图6,该图展示了本发明所述一种采用边缘特征增强和全局信息指导的RGB-D显著目标检测方法的测试结果图,从该测试结果图可以直观得出,本发明提出的模型的最终显著目标预测结果边缘清晰、结构完整。
作为可选地实施方式,本实施例还提供了一种存储介质,所述存储介质为计算机可读存储介质,所述计算机可读存储介质中存储有所述的一种基于RGB-D的显著目标检测方法。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

Claims (7)

1.一种基于RGB-D的显著目标检测方法,其特征在于,所述显著目标检测方法包括以下步骤:
下采样网络中,采用两个Resnet50骨干网络分支分别对RGB图像和深度图像进行特征提取,得到RGB特征和Depth特征;
将所述Resnet50骨干网络的最后一层提取到RGB特征和Depth特征通过全局平均池化,得到池化后的特征组合;
将所述的池化后的特征组合,输送到深度置信模块,获得深度图的置信度α及权重
Figure QLYQS_1
将每层提取到的RGB特征和Depth特征均输送到门控多模态注意模块,并结合所述深度图的权重
Figure QLYQS_2
得到基于注意力机制的多模态融合特征;
将浅层门控多模态注意模块提取到的多模态融合特征分别与后续深层网络门控多模态注意模块提取到的多模态融合特征进行整合,得到多个整合后的特征;
将多个所述整合后的特征输送到边缘特征增强模块,获得边缘增强后的特征,并输送至上采样网络,具体表达式为:
f1=subsample(conv1(df2))
f2=conv2(rf3)
Figure QLYQS_3
其中,df2和rf3表示边缘特征增强模块的输入,f1,f2表示计算过程中的中间过渡变量,
Figure QLYQS_4
表示边缘特征增强模块的输出,subsample表示通过双线性插值进行的下采样操作,convi(i=1,2,3)表示3×3卷积,[·,·]表示级联,δ为ReLU激活函数;
上采样网络中,获取不同层次的关于显著目标的全局信息,并将所述全局信息输送到全局信息指导融合模块;所述全局信息的获取具体为:
sf1=δ(conv1([rs1,ds1])
sf2=δ(conv2([rs2,ds2])
其中,rs1,ds1,rs2和ds2表示全局信息获取模块的输入,convi(i=1,2)表示3×3卷积,δ为ReLU激活函数,sf1和sf2表示多模态融合后的全局信息;
所述全局信息指导融合模块具体为:
f1=upsample(conv1(sf1))
Figure QLYQS_5
Figure QLYQS_6
其中,sf1
Figure QLYQS_7
表示全局信息指导融合模块的输入,f1,f2表示计算过程中的中间过渡变量,[·,·]表示级联,upsample表示上采样操作,convi(i=1,2,3)表示3×3卷积,/>
Figure QLYQS_8
表示矩阵点乘,δ为ReLU激活函数,/>
Figure QLYQS_9
表示通过全局信息指导融合模块增强后的主要特征;
在所述全局信息的指导下,所述全局信息指导融合模块自动选取和增强所述边缘增强后的特征中所包含的关于显著目标的主要特征,并抑制背景噪声,得到增强后的主要特征;
将所述增强后的主要特征通过多尺度和多模态特征融合,并结合所述深度图的置信度α,生成结构完整和边缘清晰的显著目标预测结果。
2.根据权利要求1所述的一种基于RGB-D的显著目标检测方法,其特征在于,在所述将增强后的主要特征通过多尺度和多模态特征融合,并结合所述深度图的置信度,生成结构完整和边缘清晰的显著目标预测结果的步骤之后,还包括:
根据所述显著目标预测结果和真值图,计算得到损失函数;
根据所述损失函数优化所述Resnet50骨干网络的网络参数,最终得到优化后的显著目标预测结果。
3.根据权利要求1所述的一种基于RGB-D的显著目标检测方法,其特征在于,所述将每层提取到的RGB特征和Depth特征均输送到门控多模态注意模块,并结合所述深度图的权重,得到基于注意力机制的多模态融合特征的步骤的具体表达式为:
Figure QLYQS_10
Figure QLYQS_11
其中,
Figure QLYQS_12
分别表示去除特征冗余后的RGB特征和Depth特征,fdr表示通过深度信息对RGB信息进行精炼后所获取到的特征,frd表示通过RGB特征生成的空间权重去精炼深度特征后所获取到的特征,rf2和df2分别为经过多模态整合后的RGB和深度特征分支,g1,g2均表示深度图的权重,g1+g2=1。
4.根据权利要求2所述的一种RGB-D的显著目标检测方法,其特征在于,所述损失函数由分类损失函数和回归损失函数组成,具体的计算公式为:
llast=lcls+λlreg
其中,lcls,lreg和llast分别表示分类损失函数、回归损失函数和最终损失函数;λ设置为1以表示回归损失函数所占权重。
5.根据权利要求4所述的一种基于RGB-D的显著目标检测方法,其特征在于,所述分类损失函数的具体计算公式为:
Figure QLYQS_13
其中,i,j表示上采样过程中不同层次的神经网络,ldom
Figure QLYQS_14
分别表示主要损失函数和辅助损失函数,/>
Figure QLYQS_15
表示侧输出损失函数,λi和αj表示不同损失函数的权重。
6.根据权利要求4所述的一种基于RGB-D的显著目标检测方法,其特征在于,所述回归损失函数的具体的计算公式为:
Figure QLYQS_16
其中,g表示伪标签,
Figure QLYQS_17
用于控制深度信息的引入比例,并反映深度图的权重。
7.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述计算机可读存储介质中存储有如权利要求1-6任一所述的一种基于RGB-D的显著目标检测方法。
CN202110975347.8A 2021-08-24 2021-08-24 一种基于rgb-d的显著目标检测方法及储存介质 Active CN113837223B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110975347.8A CN113837223B (zh) 2021-08-24 2021-08-24 一种基于rgb-d的显著目标检测方法及储存介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110975347.8A CN113837223B (zh) 2021-08-24 2021-08-24 一种基于rgb-d的显著目标检测方法及储存介质

Publications (2)

Publication Number Publication Date
CN113837223A CN113837223A (zh) 2021-12-24
CN113837223B true CN113837223B (zh) 2023-06-09

Family

ID=78961103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110975347.8A Active CN113837223B (zh) 2021-08-24 2021-08-24 一种基于rgb-d的显著目标检测方法及储存介质

Country Status (1)

Country Link
CN (1) CN113837223B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116978008B (zh) * 2023-07-12 2024-04-26 睿尔曼智能科技(北京)有限公司 一种融合rgbd的半监督目标检测方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555434A (zh) * 2019-09-03 2019-12-10 浙江科技学院 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN110574049A (zh) * 2017-05-19 2019-12-13 谷歌有限责任公司 多任务多模态机器学习系统
CN111080533A (zh) * 2019-10-21 2020-04-28 南京航空航天大学 一种基于自监督残差感知网络的数码变焦方法
CN111242238A (zh) * 2020-01-21 2020-06-05 北京交通大学 一种rgb-d图像显著性目标获取的方法
CN111428602A (zh) * 2020-03-18 2020-07-17 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN111798436A (zh) * 2020-07-07 2020-10-20 浙江科技学院 基于注意力膨胀卷积特征融合的显著物体检测方法
CN112950477A (zh) * 2021-03-15 2021-06-11 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8824833B2 (en) * 2008-02-01 2014-09-02 Omnivision Technologies, Inc. Image data fusion systems and methods

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110574049A (zh) * 2017-05-19 2019-12-13 谷歌有限责任公司 多任务多模态机器学习系统
CN110555434A (zh) * 2019-09-03 2019-12-10 浙江科技学院 一种局部对比和全局指导的立体图像视觉显著性检测方法
CN111080533A (zh) * 2019-10-21 2020-04-28 南京航空航天大学 一种基于自监督残差感知网络的数码变焦方法
CN111242238A (zh) * 2020-01-21 2020-06-05 北京交通大学 一种rgb-d图像显著性目标获取的方法
CN111428602A (zh) * 2020-03-18 2020-07-17 浙江科技学院 卷积神经网络边缘辅助增强的双目显著性图像检测方法
CN111798436A (zh) * 2020-07-07 2020-10-20 浙江科技学院 基于注意力膨胀卷积特征融合的显著物体检测方法
CN112950477A (zh) * 2021-03-15 2021-06-11 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A biologically inspired spatiotemporal saliency attention model based on entropy value;Wei L, et al;Optik;第6422-6427页 *
DPANet: Depth Potentiality-Aware Gated Attention Network for RGB-D Salient Object Detection;Chen, Z, et al;IEEE Transactions on Image Processing;第7012 - 7024页 *
Modelling saliency attention to predict eye direction by topological structure and earth mover’s distance;Wei L, et al;Plos one;第 1-11页 *
基于视觉注意机制的遥感图像显著性目标检测;魏龙生等;计算机工程与应用;第11-15页 *
融合颜色和深度信息的图像物体分割算法;郑庆庆,等;模式识别与人工智能;第393-399页 *

Also Published As

Publication number Publication date
CN113837223A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN112232149B (zh) 一种文档多模信息和关系提取方法及系统
CN110428428A (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN108509978A (zh) 基于cnn的多级特征融合的多类目标检测方法及模型
CN113807355B (zh) 一种基于编解码结构的图像语义分割方法
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
Rani et al. Object detection and recognition using contour based edge detection and fast R-CNN
CN117173394B (zh) 面向无人机视频数据的弱监督显著性目标检测方法及系统
CN112560831A (zh) 一种基于多尺度空间校正的行人属性识别方法
CN115512103A (zh) 多尺度融合遥感图像语义分割方法及系统
CN109325529B (zh) 一种草图识别方法以及该方法在商品检索中的应用
CN111582576A (zh) 一种基于多尺度特征融合和门控单元的预测系统及方法
CN113837223B (zh) 一种基于rgb-d的显著目标检测方法及储存介质
CN113326735A (zh) 一种基于YOLOv5的多模态小目标检测方法
CN112950780A (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN114463545A (zh) 一种基于多通道深度加权聚合的图像语义分割算法及系统
Yang et al. GID-Net: Detecting human-object interaction with global and instance dependency
Li A deep learning-based text detection and recognition approach for natural scenes
CN117056451A (zh) 一种基于语境增强的新能源汽车投诉文本方面-观点对抽取方法
Lu et al. An object detection algorithm combining self-attention and YOLOv4 in traffic scene
CN115187839B (zh) 图文语义对齐模型训练方法及装置
CN116758558A (zh) 基于跨模态生成对抗网络的图文情感分类方法及系统
CN116757773A (zh) 服装电子商务销售管理系统及其方法
CN115170662A (zh) 基于yolov3和卷积神经网络的多目标定位方法
CN114067101A (zh) 一种基于信息互补的双流解码器的图像显著性检测方法
CN113627245A (zh) Crts目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20211224

Assignee: Hubei kunpengxin Technology Co.,Ltd.

Assignor: CHINA University OF GEOSCIENCES (WUHAN CITY)

Contract record no.: X2023980051910

Denomination of invention: A salient object detection method and storage medium based on RGB-D

Granted publication date: 20230609

License type: Common License

Record date: 20231214

Application publication date: 20211224

Assignee: Hefei Ruiqi Network Technology Co.,Ltd.

Assignor: CHINA University OF GEOSCIENCES (WUHAN CITY)

Contract record no.: X2023980051102

Denomination of invention: A salient object detection method and storage medium based on RGB-D

Granted publication date: 20230609

License type: Common License

Record date: 20231213

Application publication date: 20211224

Assignee: Hefei Zhongqun Photoelectric Technology Co.,Ltd.

Assignor: CHINA University OF GEOSCIENCES (WUHAN CITY)

Contract record no.: X2023980051081

Denomination of invention: A salient object detection method and storage medium based on RGB-D

Granted publication date: 20230609

License type: Common License

Record date: 20231213

Application publication date: 20211224

Assignee: Yuyi (Shenyang) Digital Technology Development Co.,Ltd.

Assignor: CHINA University OF GEOSCIENCES (WUHAN CITY)

Contract record no.: X2023980051068

Denomination of invention: A salient object detection method and storage medium based on RGB-D

Granted publication date: 20230609

License type: Common License

Record date: 20231213

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20211224

Assignee: ANHUI YUNSEN INTERNET OF THINGS TECHNOLOGY Co.,Ltd.

Assignor: CHINA University OF GEOSCIENCES (WUHAN CITY)

Contract record no.: X2023980053514

Denomination of invention: A salient object detection method and storage medium based on RGB-D

Granted publication date: 20230609

License type: Common License

Record date: 20231222

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20211224

Assignee: Siteng Heli (Tianjin) Technology Co.,Ltd.

Assignor: CHINA University OF GEOSCIENCES (WUHAN CITY)

Contract record no.: X2024980001457

Denomination of invention: A salient object detection method and storage medium based on RGB-D

Granted publication date: 20230609

License type: Common License

Record date: 20240130

Application publication date: 20211224

Assignee: TIANJIN YONGXINGTAI TECHNOLOGY CO.,LTD.

Assignor: CHINA University OF GEOSCIENCES (WUHAN CITY)

Contract record no.: X2024980001459

Denomination of invention: A salient object detection method and storage medium based on RGB-D

Granted publication date: 20230609

License type: Common License

Record date: 20240130