CN111539922A - 基于多任务网络的单目深度估计与表面法向量估计方法 - Google Patents
基于多任务网络的单目深度估计与表面法向量估计方法 Download PDFInfo
- Publication number
- CN111539922A CN111539922A CN202010303011.2A CN202010303011A CN111539922A CN 111539922 A CN111539922 A CN 111539922A CN 202010303011 A CN202010303011 A CN 202010303011A CN 111539922 A CN111539922 A CN 111539922A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- correlation
- scale
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000003993 interaction Effects 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims abstract description 8
- 230000009286 beneficial effect Effects 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于多任务网络的单目深度估计与表面法向量估计方法,所述方法包括以下步骤:采用高分辨率网络作为骨干网络收集多尺度信息;通过高分辨率网络输出了不同分辨率的特征,并对特征分别进行独立上采样后获得与原分辨率相同的特征图;将获得的特征图串接得到一个多尺度表面特征,生成多尺度融合特征;将多尺度融合特征分为2个分支特征,并输入至互相关注意力机制交互模块,获得学习相关性的互相关矩阵;把输入到每个分支特征的1x1连续卷积层,再通过softmax操作得到两个互相关注意力图并利用注意力图上有利于交互的部分获得新的融合特征;重复步骤S5获得特定任务的特征信息后,最终得到单目深度估计和表面法向量估计结果。
Description
技术领域
本发明涉及计算机软件领域,具体涉及基于多任务网络的单目深度估计与表面法向量估计方法。
背景技术
场景深度信息在当下许多研究课题中都起着至关重要的作用,比如三维立体重建、障碍物检测、视觉导航等。Zhenyu Zhang等人在2018年提出了一种基于多任务网络的单目深度估计与语义分割方法TRL。其将从RGB图像中提取的深度特征和语义特征进行加权拼接,通过这种交互方式得到新的深度特征和语义特征,并用于后续的语义分割以及单目深度估计。
TRL网络是在译码器部分(decoder)对多任务特征进行交互融合。在这个过程中仅仅只是对深度特征与加权后的语义特征进行拼接,同时也对语义特征与加权后的深度特征进行拼接。这种简单的特征拼接融合缺乏理论的指导,从此得到的特征图这并不能充分地利用特征信息进行交互。
PAPNet也是一种基于多任务网络的单目深度估计,语义分割和表面法向量估计方法,与网络Ldid不同的是它在交互过程中并不是直接对特征进行交互,而是通过特征得到亲和性矩阵,对每个任务的亲和性矩阵进行加权求和。其性能相较于Ldid高许多。
PAPNet也是在译码器部分(decoder)对多任务特征进行交互融合。每个分支在输出对应任务特征的同时,还输出对应的亲和性矩阵。例如对深度估计任务来说,深度特征的亲和性矩阵与加权后的语义特征和表面法向量特征的亲和性矩阵进行逐像素相加,得到新的亲和性矩阵,深度特征与该亲和性矩阵相乘,融合成新的深度特征,并用于后续的单目深度估计。这种方式的缺点是必须先得到亲和性矩阵,并对亲和性矩阵进行交互,这是一种间接的交互,并没有直接对特征进行交互,不能充分地利用特征信息。
发明内容
本发明的目的在于解决TRL与PAPNet的特征交互问题,构建一个直接利用并筛选特征信息进行交互的模块。相比于TRL,采用互相关作为理论指导进行特征融合;相比于PAPNet,能够直接快速地进行特征交互。
为了实现上述目的,本发明采用如下技术方案:
基于多任务网络的单目深度估计与表面法向量估计方法,所述方法包括以下步骤:
S1采用高分辨率网络作为骨干网络收集多尺度信息;
S2通过高分辨率网络输出了不同分辨率的特征,并对特征分别进行独立上采样后获得与原分辨率相同的特征图;
S3将获得的特征图串接得到一个多尺度表面特征,生成多尺度融合特征;
S4将多尺度融合特征分为2个分支特征,并输入至互相关注意力机制交互模块,获得学习相关性的互相关矩阵;
S5把输入到每个分支特征的1x1连续卷积层,再通过softmax操作得到两个互相关注意力图并利用注意力图上有利于交互的部分获得新的融合特征;
S6重复步骤S5获得特定任务的特征信息后,最终得到单目深度估计和表面法向量估计结果。
优选的,所述高分辨率网络输出了不同分辨率的特征为4种,包括:F1、F2、F3、F4。
优选的,所述多尺度表面特征为Fn。
优选的,所述互相关注意力图是权值在0到1之间的概率图。
本发明有益效果在于,构建了一个直接利用并筛选特征信息进行交互的模块。相比于TRL,采用互相关作为理论指导进行特征融合;相比于PAPNet,能够直接快速地进行特征交互。
附图说明
图1为本发明的工作流程示意图;
图2为图1中互相关注意力机制交互模块工作流程示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,以下实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
如图1、图2所示,本发明为基于多任务网络的单目深度估计与表面法向量估计方法,所述方法包括以下步骤:
S1采用高分辨率网络作为骨干网络集多尺度信息;
S2通过高分辨率网络输出了不同分辨率的特征,并对特征分别进行独立上采样后获得与原分辨率相同的特征图;
S3将获得的特征图串接得到一个多尺度表面特征,生成多尺度融合特征;
S4将多尺度融合特征分为2个分支特征,并输入至互相关注意力机制交互模块,获得学习相关性的互相关矩阵;
S5把输入到每个分支特征的1x1连续卷积层,再通过softmax操作得到两个互相关注意力图并利用注意力图上有利于交互的部分获得新的融合特征;
S6重复步骤S5获得特定任务的特征信息后,最终得到单目深度估计和表面法向量估计结果。
优选的,所述高分辨率网络输出了不同分辨率的特征为4种,包括:F1、F2、F3、F4。
优选的,所述多尺度表面特征为:Fn。
优选的,所述互相关注意力图是权值在0到1之间的概率图。
实施例1
为了对本发明的技术方案进行验证,通过NYUv2室内数据集上评估CPNet,该数据集包含12万张RGB图像和深度图。从中计算出表面法向量图,并通过将官方数据集分割为1.2万张图像进行训练和654张图像进行验证来评估本发明的方法。此外,使用统一的评估标准来获得本发明方法的度量。通过使用PyTorch实现了CPNet,并从头开始在RTX2080Ti上进行了训练。
在NYUv2测试集上的深度估计结果如下表:
CPNet在主要评价指标均方误差RMSE为0.431,优于最先进的方法(如PAPNet和TRL)超过0.06。
在NYUv2测试集上的表面法向量估计结果:
CPNet在主要评价指标误差中值RMSE为21.3,与最先进的方法(如PAPNet等)十分接近,仅相差3。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
Claims (4)
1.基于多任务网络的单目深度估计与表面法向量估计方法,其特征在于,所述方法包括以下步骤:
S1采用高分辨率网络作为骨干网络收集多尺度信息;
S2通过高分辨率网络输出了不同分辨率的特征,并对特征分别进行独立上采样后获得与原分辨率相同的特征图;
S3将获得的特征图串接得到一个多尺度表面特征,生成多尺度融合特征;
S4将多尺度融合特征分为2个分支特征,并输入至互相关注意力机制交互模块,获得学习相关性的互相关矩阵;
S5把输入到每个分支特征的连续卷积层,再通过softmax操作得到两个互相关注意力图并利用注意力图上有利于交互的部分获得新的融合特征;
S6重复步骤S5获得特定任务的特征信息后,最终得到单目深度估计和表面法向量估计结果。
2.根据权利要求1所述的基于多任务网络的单目深度估计与表面法向量估计方法,其特征在于,所述高分辨率网络输出了不同分辨率的特征为4种,包括:F1、F2、F3、F4。
3.根据权利要求1所述的基于多任务网络的单目深度估计与表面法向量估计方法,其特征在于,所述多尺度表面特征为:Fn 。
4.根据权利要求1所述的基于多任务网络的单目深度估计与表面法向量估计方法,其特征在于,所述互相关注意力图是权值在0到1之间的概率图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010303011.2A CN111539922B (zh) | 2020-04-17 | 2020-04-17 | 基于多任务网络的单目深度估计与表面法向量估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010303011.2A CN111539922B (zh) | 2020-04-17 | 2020-04-17 | 基于多任务网络的单目深度估计与表面法向量估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111539922A true CN111539922A (zh) | 2020-08-14 |
CN111539922B CN111539922B (zh) | 2023-03-31 |
Family
ID=71974956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010303011.2A Active CN111539922B (zh) | 2020-04-17 | 2020-04-17 | 基于多任务网络的单目深度估计与表面法向量估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111539922B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819876A (zh) * | 2021-02-13 | 2021-05-18 | 西北工业大学 | 一种基于深度学习的单目视觉深度估计方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060286A (zh) * | 2019-04-25 | 2019-07-26 | 东北大学 | 一种单目深度估计方法 |
CN110120049A (zh) * | 2019-04-15 | 2019-08-13 | 天津大学 | 由单张图像联合估计场景深度与语义的方法 |
CN110188685A (zh) * | 2019-05-30 | 2019-08-30 | 燕山大学 | 一种基于双注意力多尺度级联网络的目标计数方法及系统 |
CN110197182A (zh) * | 2019-06-11 | 2019-09-03 | 中国电子科技集团公司第五十四研究所 | 基于上下文信息和注意力机制的遥感影像语义分割方法 |
CN110738697A (zh) * | 2019-10-10 | 2020-01-31 | 福州大学 | 基于深度学习的单目深度估计方法 |
-
2020
- 2020-04-17 CN CN202010303011.2A patent/CN111539922B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110120049A (zh) * | 2019-04-15 | 2019-08-13 | 天津大学 | 由单张图像联合估计场景深度与语义的方法 |
CN110060286A (zh) * | 2019-04-25 | 2019-07-26 | 东北大学 | 一种单目深度估计方法 |
CN110188685A (zh) * | 2019-05-30 | 2019-08-30 | 燕山大学 | 一种基于双注意力多尺度级联网络的目标计数方法及系统 |
CN110197182A (zh) * | 2019-06-11 | 2019-09-03 | 中国电子科技集团公司第五十四研究所 | 基于上下文信息和注意力机制的遥感影像语义分割方法 |
CN110738697A (zh) * | 2019-10-10 | 2020-01-31 | 福州大学 | 基于深度学习的单目深度估计方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112819876A (zh) * | 2021-02-13 | 2021-05-18 | 西北工业大学 | 一种基于深度学习的单目视觉深度估计方法 |
CN112819876B (zh) * | 2021-02-13 | 2024-02-27 | 西北工业大学 | 一种基于深度学习的单目视觉深度估计方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111539922B (zh) | 2023-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325751B (zh) | 基于注意力卷积神经网络的ct图像分割系统 | |
CN112348870B (zh) | 一种基于残差融合的显著性目标检测方法 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
CN110020658B (zh) | 一种基于多任务深度学习的显著目标检测方法 | |
CN115908772A (zh) | 一种基于Transformer和融合注意力机制的目标检测方法及系统 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
GB2579262A (en) | Space-time memory network for locating target object in video content | |
CN117557775B (zh) | 基于红外和可见光融合的变电站电力设备检测方法及系统 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
CN114926734B (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN114693952A (zh) | 一种基于多模态差异性融合网络的rgb-d显著性目标检测方法 | |
CN114898457B (zh) | 一种基于手部关键点和transformer的动态手势识别方法和系统 | |
CN113886615A (zh) | 一种基于多粒度联想学习的手绘图像实时检索方法 | |
CN117975267A (zh) | 一种基于孪生多尺度交叉注意的遥感影像变化检测方法 | |
CN111739037A (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN111539922B (zh) | 基于多任务网络的单目深度估计与表面法向量估计方法 | |
CN113554655A (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN113177546A (zh) | 一种基于稀疏注意力模块的目标检测方法 | |
CN115578260B (zh) | 针对图像超分辨率的方向解耦的注意力方法和系统 | |
CN116681978A (zh) | 一种基于注意力机制和多尺度特征融合的显著性目标检测方法 | |
CN115661482A (zh) | 一种基于联合注意力的rgb-t显著目标检测方法 | |
CN115393868A (zh) | 文本检测方法、装置、电子设备和存储介质 | |
CN114549958A (zh) | 基于上下文信息感知机理的夜间和伪装目标检测方法 | |
CN114693951A (zh) | 一种基于全局上下文信息探索的rgb-d显著性目标检测方法 | |
CN113780305A (zh) | 一种基于两种线索交互的显著性目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240418 Address after: 510000 No. 135 West Xingang Road, Guangdong, Guangzhou Patentee after: SUN YAT-SEN University Country or region after: China Patentee after: National University of Defense Technology Address before: 510275 No. 135 West Xingang Road, Guangdong, Guangzhou Patentee before: SUN YAT-SEN University Country or region before: China |