CN113538442B - 一种使用自适应特征融合的rgb-d显著目标检测方法 - Google Patents
一种使用自适应特征融合的rgb-d显著目标检测方法 Download PDFInfo
- Publication number
- CN113538442B CN113538442B CN202110624851.3A CN202110624851A CN113538442B CN 113538442 B CN113538442 B CN 113538442B CN 202110624851 A CN202110624851 A CN 202110624851A CN 113538442 B CN113538442 B CN 113538442B
- Authority
- CN
- China
- Prior art keywords
- rgb
- data stream
- features
- feature fusion
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 34
- 238000001514 detection method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000003044 adaptive effect Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000003213 activating effect Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种使用自适应特征融合的RGB‑D显著目标检测方法,首先使用2个结构相同的编码器网络分别对RGB图像和Depth图像这2个数据流编码,编码后对2个数据流分别获得m个层级的特征;然后在RGB和Depth两个数据流的解码过程中分别使用自适应特征融合;在联合数据流中对2个数据流的特征融合;最后使用损失函数对该网络模型优化。本发明所述的方法,可以提高RGB‑D显著目标检测的效果。通过使用自适应特征融合,可以有效融合数据流内不同层级的特征。通过使用数据流间特征融合方法,可以有效融合2个数据流的特征。
Description
技术领域
本发明涉及图像处理技术领域,具体的说涉及一种RGB-D显著目标检测方法。
背景技术
图像显著目标检测是指计算机自动的分割出图像中的显著目标。该技术的应用场景非常广泛,比如用于图片压缩,或者作为目标识别、语义分割、目标跟踪等的预处理任务。
为了获得准确的图像显著目标分割结果,传统的解决方案是手工设计一种特征提取方法,然后根据该特征进行按照像素分类。
已有的RGB-D显著目标检测方法,在解码器阶段不能有效融合RGB和Depth 2个数据流的特征,导致分割准确度不是很高。因此,本文提出能有效融合2个数据流特征和数据流内特征的方法。
发明内容
本发明所要解决的技术问题是:针对一张图像,如何使用计算机自动分割出图像中的显著目标,本发明提出了一种使用自适应特征融合的RGB-D显著目标分割方法。
本发明的方法是在图像的解码过程中,使用数据流内自适应特征融合和数据流间特征融合方法,从而更好的分割图像中的显著目标。
一种使用自适应特征融合的RGB-D显著目标检测方法,包括以下步骤:
步骤(1).使用2个结构相同的编码器网络分别对RGB图像和Depth图像这2个数据流编码,编码后对2个数据流分别获得m个层级的特征;
步骤(2).在RGB和Depth两个数据流的解码过程中分别使用自适应特征融合。
步骤(3).在联合数据流中对2个数据流的特征融合。
步骤(4).使用损失函数对该网络模型优化;
进一步的,所述的步骤(2)的自适应特征融合,具体操作如下:
将高一层级特征升采样后使用conv,并与当前层级特征在通道维连接,然后送入到全局平均池化模块,然后使用conv和softmax求出2个通道的权重值,并分别与2个特征相乘后求和,得到融合后的特征;
进一步的,所述的步骤(3)在联合数据流中对2个数据流的特征融合,具体操作如下:
首先将同层级的RGB解码器和Depth解码器的输出进行融合,再与高一层级联合数据流的输出融合。将同层级RGB解码器和Depth解码器的输出使用conv和sigmoid处理,得到2个权重值,使用这2个权重值分别对RGB解码器和Depth解码器的输出进行加权并求和,然后将高一层级联合解码器的输出升采样并使用conv处理后,与该特征在通道维连接,并使用conv处理,得到当前层级联合解码器的融合特征;
进一步的,所述的步骤(4)的具体方法如下:
该网络的损失函数为
L=Lbce(PR,G)+Lbce(PD,G)+Lbce(PJ,G)
上式中,PR是RGB数据流的显著图预测结果,PD是Depth数据流的显著图预测结果,PJ是联合分支的显著图预测结果,G是显著图的标签。Lbce是二值交叉熵损失,计算方法如下
上式中,i表示图像中第i个像素,n表示图像中共有n个像素,X是显著图的预测结果,G是标签。
使用上述的损失函数作为优化目标,使损失函数最小化,对网络模型优化,得到网络中的参数值。
本发明的有益效果如下:
本发明所述的方法,可以提高RGB-D显著目标检测的效果。通过使用自适应特征融合,可以有效融合数据流内不同层级的特征。通过使用数据流间特征融合方法,可以有效融合2个数据流的特征。
附图说明
图1为本发明的显著目标检测网络;
图2为本发明的单个数据流内自适应特征融合模块;
图3为本发明的数据流间特征融合模块。
具体实施方式
以下结合附图,对本发明进行进一步的详细说明。
本发明提出的一种使用自适应特征融合的RGB-D显著目标检测方法,针对一张图像,使用计算机自动分割出RGB-D中的显著目标。
如图1所示,本发明所述方法包括以下步骤:
步骤(1)具体方法如下:
对于RGB和深度图2个数据流,分别使用在ImageNet上预训练的2个Resnet34网络编码其特征。Resnet34的网络参数如表1所示。对于2个数据流,分别从中取出conv2_x、conv3_x、conv4_x、conv5_x的输出特征作为编码器4个层级的输出。已知RGB图输入特征为(H,W,3)(括号内前2个数表示分辨率,最后一个数表示通道数),Depth图特征为(H,W,1),先将其在通道维复制3份,得到与RGB图大小相同的特征(H,W,3)。接下来2个数据流在相同层级的输出特征大小相同。conv2_x的输出特征为(H/4,W/4,64),conv3_x的输出特征为(H/8,W/8,128),conv4_x的输出特征为(H/16,W/16,256),conv5_x的输出特征为(H/32,W/32,512)。
表1Resnet34网络参数
步骤(2)具体方法如下:
对于2个数据流,分别进行数据流内特征融合。首先分别使用1*1conv将conv2_x、conv3_x、conv4_x、conv5_x的输出特征通道变换为64。对同一数据流内不同层级特征融合使用数据流内自适应特征融合模块。RGB数据流内特征融合使用RGB decoder5、RGBdecoder4、RGB decoder3、RGB decoder2模块。Depth数据流内特征融合使用Depthdecoder5、Depth decoder4、Depth decoder3、Depth decoder2模块。数据流内自适应特征融合模块结构如图2所示。RGB decoder5对特征不做处理,即输出和输入特征相同。对于RGBdecoder4,将RGB decoder5的输出特征使用双线性插值升采样2倍,并使用3*3conv处理,得到特征图为(H/16,W/16,64),然后将其与Conv4_x的特征在通道维连接为(H/16,W/16,128)。然后使用全局平均池化变换为(1,1,128),然后使用1*1conv将通道变换为2,然后使用softmax在通道维归一化。归一化之后第一个通道对应第一个特征的权重值,第二个通道对应第二个特征的权重。然后使用这2个权重对2个特征加权并求和。得到自适应权重融合后的特征。RGB decoder3、RGB decoder2的操作过程与RGB decoder4相同。RGB decoder3输入的特征为RGB decoder4的输出(H/16,W/16,64)和Conv3_x的特征(H/8,W/8,64),输出特征为(H/8,W/8,64)。RGB decoder2输入的特征为RGB decoder3的输出(H/8,W/8,64)和Conv2_x的特征(H/4,W/4,64),输出特征为(H/4,W/4,64)。对RGB decoder2输出的特征使用1*1conv将通道变换为1。然后使用sigmoid函数激活,得到每个像素是否显著的预测概率。然后将预测图使用双线性插值升采样4倍,得到与原图尺寸大小相同的预测图。Depth数据流的解码过程与RGB数据流相同。Depth decoder5对特征不做处理,即输出和输入特征相同。Depth decoder4输入的特征为Depth decoder5的输出(H/32,W/32,64)和Conv4_x的特征(H/16,W/16,64),输出特征为(H/16,W/16,64)。Depth decoder3输入的特征为Depthdecoder4的输出(H/16,W/16,64)和Conv3_x的特征(H/8,W/8,64),输出特征为(H/8,W/8,64)。Depth decoder2输入的特征为Depth decoder3的输出(H/8,W/8,64)和Conv2_x的特征(H/4,W/4,64),输出特征为(H/8,W/8,64)。对Depth decoder2输出的特征使用1*1conv将通道变换为1。然后使用sigmoid函数激活,得到每个像素是否显著的预测概率。然后将预测图使用双线性插值升采样4倍,得到与原图尺寸大小相同的预测图。
步骤(3)的具体方法如下:
使用联合解码器分支,对于2个数据流的特征进行跨数据流间融合。跨数据流间融合采用数据流间特征融合模块Joint decoder5、Joint decoder4、Joint decoder3、Jointdecoder2。对于Joint decoder4其特征融合过程如图3所示。首先将RGB decoder4的输出特征和Depth decoder4的输出特征使用1*1conv分别变换为(H/16,W/16,1),然后使用sigmoid分别对2个特征激活得到权重(H/16,W/16,1),然后使用RGB数据流权重对Depth数据流特征加权,使用Depth数据流权重对RGB数据流特征加权。然后将加权后的2个特征相加为(H/16,W/16,64),然后将Joint decoder5的输出特征使用双线性插值升采样到(H/16,W/16,64),然后使用3*3conv处理,然后将该特征与2个数据流的融合特征在通道维连接成(H/16,W/16,128),再使用1*1conv将特征变换为(H/16,W/16,64)。因为Depth decoder5的输入没有更高一层级的特征,所以它相比于Depth decoder4少一个与高一层级特征融合的环节,其他过程相同。Joint decoder5输入特征为RGB decoder5输出(H/16,W/16,64)和Depthdecoder5输出(H/16,W/16,64),输出为(H/16,W/16,64)。Joint decoder3,Joint decoder2的特征融合过程与Joint decoder4相同。Joint decoder3的输入特征为RGB decoder3输出(H/8,W/8,64)和Depth decoder3输出(H/8,W/8,64)和Joint decoder4的输出(H/16,W/16,64),它的输出为(H/8,W/8,64)。Joint decoder2的输入特征为RGB decoder2输出(H/4,W/4,64)和Depth decoder2输出(H/4,W/4,64)和Joint decoder3的输出(H/8,W/8,64),它的输出为(H/4,W/4,64)。对Joint decoder2输出的特征使用1*1conv将通道变换为1。然后使用sigmoid函数激活,得到每个像素是否显著的预测概率。然后将预测图使用双线性插值升采样4倍,得到与原图尺寸大小相同的预测图。训练时,对3个解码器的输出都计算损失进行监督,测试时,只使用联合解码器的输出作为预测结果。
步骤(4)的具体方法如下:
该网络的损失函数为
L=Lbce(PR,G)+Lbce(PD,G)+Lbce(PJ,G)
上式中,PR是RGB数据流的显著图预测结果,PD是Depth数据流的显著图预测结果,PJ是联合分支的显著图预测结果,G是显著图的标签。Lbce是二值交叉熵损失,计算方法如下
上式中,i表示图像中第i个像素,n表示图像中共有n个像素,X是显著图的预测结果,G是标签。
使用上述的损失函数作为优化目标,使损失函数最小化,对网络模型优化,得到网络中的参数值。
Claims (2)
1.一种使用自适应特征融合的RGB-D显著目标检测方法,其特征在于,包括以下步骤:
步骤(1).使用2个结构相同的编码器网络分别对RGB图像和Depth图像这2个数据流编码,编码后对2个数据流分别获得m个层级的特征;
步骤(2).在RGB和Depth两个数据流的解码过程中分别使用自适应特征融合;
步骤(3).在联合数据流中对2个数据流的特征融合;
步骤(4).使用损失函数对该网络模型优化;
所述的步骤(2)的自适应特征融合,具体操作如下:
将高一层级特征升采样后使用conv,并与当前层级特征在通道维连接,然后送入到全局平均池化模块,然后使用conv和softmax求出2个通道的权重值,并分别与2个特征相乘后求和,得到融合后的特征;
所述的步骤(3)在联合数据流中对2个数据流的特征融合,具体操作如下:
首先将同层级的RGB解码器和Depth解码器的输出进行融合,再与高一层级联合数据流的输出融合;将同层级RGB解码器和Depth解码器的输出使用conv和sigmoid处理,得到2个权重值,使用这2个权重值分别对RGB解码器和Depth解码器的输出进行加权并求和,然后将高一层级联合解码器的输出升采样并使用conv处理后,与该特征在通道维连接,并使用conv处理,得到当前层级联合解码器的融合特征。
2.根据权利要求1所述的一种使用自适应特征融合的RGB-D显著目标检测方法,其特征在于,所述的步骤(4)的具体方法如下:
该网络的损失函数为
L=Lbce(PR,G)+Lbce(PD,G)+Lbce(PJ,G)
上式中,PR是RGB数据流的显著图预测结果,PD是Depth数据流的显著图预测结果,PJ是联合分支的显著图预测结果,G是显著图的标签;Lbce是二值交叉熵损失,计算方法如下
上式中,i表示图像中第i个像素,n表示图像中共有n个像素,X是显著图的预测结果,G是标签;
使用上述的损失函数作为优化目标,使损失函数最小化,对网络模型优化,得到网络中的参数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110624851.3A CN113538442B (zh) | 2021-06-04 | 2021-06-04 | 一种使用自适应特征融合的rgb-d显著目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110624851.3A CN113538442B (zh) | 2021-06-04 | 2021-06-04 | 一种使用自适应特征融合的rgb-d显著目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113538442A CN113538442A (zh) | 2021-10-22 |
CN113538442B true CN113538442B (zh) | 2024-04-09 |
Family
ID=78095186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110624851.3A Active CN113538442B (zh) | 2021-06-04 | 2021-06-04 | 一种使用自适应特征融合的rgb-d显著目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113538442B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298361A (zh) * | 2019-05-22 | 2019-10-01 | 浙江省北大信息技术高等研究院 | 一种rgb-d图像的语义分割方法和系统 |
CN110909594A (zh) * | 2019-10-12 | 2020-03-24 | 杭州电子科技大学 | 一种基于深度融合的视频显著性检测方法 |
CN112529862A (zh) * | 2020-12-07 | 2021-03-19 | 浙江科技学院 | 一种交互循环特征重塑的显著性图像检测方法 |
-
2021
- 2021-06-04 CN CN202110624851.3A patent/CN113538442B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298361A (zh) * | 2019-05-22 | 2019-10-01 | 浙江省北大信息技术高等研究院 | 一种rgb-d图像的语义分割方法和系统 |
CN110909594A (zh) * | 2019-10-12 | 2020-03-24 | 杭州电子科技大学 | 一种基于深度融合的视频显著性检测方法 |
CN112529862A (zh) * | 2020-12-07 | 2021-03-19 | 浙江科技学院 | 一种交互循环特征重塑的显著性图像检测方法 |
Non-Patent Citations (1)
Title |
---|
CNNs-Based RGB-D Saliency Detection via Cross-View Transfer and Multiview Fusion;Junwei Han 等;IEEE TRANSACTIONS ON CYBERNETICS;20181130;第48卷(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113538442A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798400B (zh) | 基于生成对抗网络的无参考低光照图像增强方法及系统 | |
WO2023056889A1 (zh) | 模型训练和场景识别方法、装置、设备及介质 | |
CN109410239B (zh) | 一种基于条件生成对抗网络的文本图像超分辨率重建方法 | |
CN112651438A (zh) | 多类别图像的分类方法、装置、终端设备和存储介质 | |
CN109948721B (zh) | 一种基于视频描述的视频场景分类方法 | |
CN112465727A (zh) | 基于HSV色彩空间和Retinex理论的无正常光照参考的低照度图像增强方法 | |
CN113887349A (zh) | 一种基于图像和点云融合网络的道路区域图像识别方法 | |
CN114037938B (zh) | 一种基于NFL-Net的低照度目标检测方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN110211052A (zh) | 一种基于特征学习的单幅图像去雾方法 | |
CN112614110B (zh) | 评估图像质量的方法、装置及终端设备 | |
CN113901928A (zh) | 一种基于动态超分辨率的目标检测方法、输电线路部件检测方法及系统 | |
CN113034413A (zh) | 一种基于多尺度融合残差编解码器的低照度图像增强方法 | |
CN115410030A (zh) | 目标检测方法、装置、计算机设备及存储介质 | |
CN109871790B (zh) | 一种基于混合神经网络模型的视频去色方法 | |
CN110807369A (zh) | 基于深度学习和注意力机制的高效短视频内容智能分类方法 | |
CN113538442B (zh) | 一种使用自适应特征融合的rgb-d显著目标检测方法 | |
CN111311698A (zh) | 一种用于多尺度目标的图像压缩方法及系统 | |
CN112132207A (zh) | 基于多分支特征映射目标检测神经网络构建方法 | |
CN117115616A (zh) | 一种基于卷积神经网络的实时低照度图像目标检测方法 | |
CN111291663A (zh) | 一种利用时空信息的快速视频目标物体分割方法 | |
CN116468625A (zh) | 基于金字塔高效通道注意力机制的单幅图像去雾方法和系统 | |
CN114663307B (zh) | 基于不确定性网络的集成图像去噪系统 | |
CN112188212B (zh) | 一种高清监控视频智能转码的方法及装置 | |
CN112990336B (zh) | 基于竞争注意力融合的深度三维点云分类网络构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |