CN112184555B - 一种基于深度交互学习的立体图像超分辨率重建方法 - Google Patents
一种基于深度交互学习的立体图像超分辨率重建方法 Download PDFInfo
- Publication number
- CN112184555B CN112184555B CN202011132474.3A CN202011132474A CN112184555B CN 112184555 B CN112184555 B CN 112184555B CN 202011132474 A CN202011132474 A CN 202011132474A CN 112184555 B CN112184555 B CN 112184555B
- Authority
- CN
- China
- Prior art keywords
- super
- viewpoint
- interactive
- stereo image
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4053—Super resolution, i.e. output image resolution higher than sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本发明公开了一种基于深度交互学习的立体图像超分辨率重建方法,所述方法包括:将输入的左右视图,分为左右两支路通过空间特征提取到相应的空间特征表达;通过交互部分提取另一视点中的互补信息用于增强左右视图的空间特征表达;使用均方误差损失函数、梯度损失函数和视差损失函数共同构建多损失函数机制,用于提升立体图像的超分辨率重建质量;训练基于深度交互学习的立体图像超分辨率重建网络。本发明利用深度学习的特征表达能力,通过挖掘立体图像中的互补信息来获取左右视图的空间相关性和视点间相关性。
Description
技术领域
本发明涉及深度学习、图像超分辨率重建领域,尤其涉及一种基于深度交互学习的立体图像超分辨率重建方法。
背景技术
超分辨率重建作为一个基本的图像处理技术,已经吸引了越来越多的学者进行广泛地研究。超分辨率重建的目的是预测低分辨率图像中缺失的高频信息,以此来提高低分辨率图像的分辨率。由于超分辨率重建可以恢复图像中的纹理细节,它可以被运用到很多图像处理任务中,比如图像恢复、图像增强和图像压缩等。此外,超分辨率重建也促进了多种计算机视觉任务的发展,比如视频监控、行人检测和遥感图像处理等。根据所处理数据的不同,超分辨率重建任务可以分类为单图超分辨率重建、立体图像超分辨率重建和视频超分辨率重建。
立体图像可以提供场景的深度信息,因此人类视觉系统在观看一对立体图像时,可以获得生动的3D感知。为了重建高分辨率的立体图像,简单的解决方案是使用单图超分辨率重建算法分别处理左右视图,但这样做会破坏左右视图间的立体关系。因此,如何有效探索视点间的互补信息以提高立体图像超分辨率重建的性能具有重要的研究意义。
得益于深度学习在监督学习任务中的成功,近年来基于深度学习的立体图像超分辨率重建方法开始受到关注。Jeon等人提出了StereoSR(立体超分)方法,通过学习视差先验来获得低分辨率图像到高分辨率图像的端到端映射。Wang等人提出PASSRnet(视差注意力立体超分网络)方法,通过使用视差注意力机制获取全局一致性。Song等人提出了SPAM(自视差注意力机制)方法,同时获取自注意力图和视差注意力图。
然而,对于场景中的某一具体位置,低分辨率的左右视图缺失的细节信息可能是不同的。这种差异使得立体图像可以提供更多的互补信息来帮助重建高分辨率图像。现有的方法大多基于视差学习全局一致性关系,忽略了互补信息中包含的空间相关性和视点间相关性。
发明内容
本发明主要研究立体图像超分辨率重建,本发明利用深度学习的特征表达能力,通过挖掘立体图像中的互补信息来获取左右视图的空间相关性和视点间相关性,提出基于深度交互学习的立体图像超分辨率重建方法,详见下文描述:
一种基于深度交互学习的立体图像超分辨率重建方法,所述方法包括:
将输入的左右视图,分为左右两支路通过空间特征提取到相应的空间特征表达;
通过交互部分提取另一视点中的互补信息用于增强左右视图的空间特征表达;
使用均方误差损失函数、梯度损失函数和视差损失函数共同构建多损失函数机制,用于提升立体图像的超分辨率重建质量;
训练基于深度交互学习的立体图像超分辨率重建网络。
优选地,左右两支路的空间特征提取中的卷积层共享参数。
其中,所述交互部分由串联的一系列交互单元组成,每一个交互单元由四个门控组成,分别为滤波门、重置门、筛选门和更新门。
进一步地,所述滤波门用于减弱视点的空间不对齐,即滤波后的视点特征等于视点特征与卷积层的卷积。
其中,所述重置门用于控制当前视点对另一视点产生的影响,由一层卷积层和一层激活层组成;
左视点特征和右视点滤波后的特征级联,通过重置门得到特征r,特征r和右视点滤波后的特征fr'做点积计算得到候选集c。
进一步地,所述筛选门用于对候选集c进行筛选得到特征c'。
其中,所述更新门用于判断当前视点的信息能否送入另一视点,获取权重图自适应地融合左右视点的信息。
进一步地,所述交互部分采用跳连接方式,将空间特征提取部分输出的特征fl和fr与各视点对应的交互特征相加。
本发明提供的技术方案的有益效果是:
1、本发明利用深度学习的特征表达能力,以优秀的单图超分辨率方法为基础,获取视点间的互补信息,从而实现立体图像超分辨率重建;
2、本发明设计了交互部分,通过探索立体图像中的互补信息,获得经互补信息增强后的特征,具有更强的立体图像特征表达能力;
3、本发明通过在多个数据集上进行实验验证,可以获得优于现有立体图像超分辨率重建方法的性能。
附图说明
图1为基于深度交互学习的立体图像超分辨率重建方法的流程图;
图2为交互单元的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
一种基于深度交互学习的立体图像超分辨率重建方法,参见图1,该方法包括以下步骤:
一、构建空间特征提取部分
将输入的左右视图,分为左右两支路分别通过空间特征提取到相应的空间特征表达fl和fr。每个支路都可以看作一个单图超分辨率任务,因此空间特征提取可以使用任一单图超分辨率模型来提取特征,在本发明实施例中使用单图超分辨率方法MDSR(多尺度深度超分辨率)的特征提取部分作为空间特征提取模块。此外,两支路的空间特征提取模块的所有卷积层共享参数。
二、构建交互部分
对于左右视图的空间特征表达fl和fr,两支路分别通过交互部分提取另一视点中的互补信息来增强空间特征表达。
其中,交互部分由串联的一系列交互单元组成,每一个交互单元由四个门控组成,分别是滤波门、重置门、筛选门和更新门,参见图2。
以左视点支路为例,交互单元的输入是左右视图特征,首先使用滤波门减弱右视点由于空间不对齐导致的不利影响,公式如下:fr'=Wf*fr (1)
其中,fr'表示滤波后的右视点特征,Wf表示卷积核为1×1的卷积层,*表示卷积操作。
重置门用于控制右视点对左视点产生的影响,由一层卷积层和一层激活层组成,使交互单元获取右视点中有用的信息。左视点特征fl和右视点滤波后的特征fr'级联,通过重置门得到特征r。之后,特征r和右视点滤波后的特征fr'做点积计算得到候选集c。
为了充分整合左右视点的信息,初始的左视点特征fl也被级联到候选集c。为了从候选集中去除冗余信息,并获取有效信息,使用筛选门对候选集c进行筛选得到特征c'。
同时,更新门用于判断原右视点的信息是否可以直接送入左视点。通过更新门计算出一个权重图u来自适应地融合左右视点的信息,具体公式如下所示:
r=δ(Wr*Concat[fr',fl]) (2)
c'=tanh(Ws*Concat[c,fl]) (4)
u=δ(Wu*Concat[fr',fl]) (5)
其中,Wr代表重置门的卷积层,其卷积核大小为3×3;Ws代表筛选门的卷积层,其卷积核大小为3×3;Wu代表更新门的卷积层,其卷积核大小为3×3;δ代表sigmoid激活函数;fl 1代表左视点支路第一个交互单元输出的交互空间特征;Concat[,]表示级联操作;代表点积计算,u代表权重图。
为了从左右视点间获取更加有力的互补信息,交互部分通过级联多个交互单元来渐进地提取互补特征。左右视点分别通过级联的交互单元获得交互特征的公式如下:
具体实施时级联3个交互单元性能最佳,还可以根据实际应用中的需要级联若干个交互单元,本发明实施例对此不做限制。
除交互特征之外,左右视点自身的特征也十分重要。因此,交互部分采用跳连接方式,将空间特征提取部分输出的特征fl和fr与各视点对应的交互特征相加。交互部分最终输出的左右视点交互特征如下:
Fl N=fl N+fl (9)
Fr N=fr N+fr (10)
其中,Fl N和Fr N分别表示交互部分输出的左右视点交互特征。
三、构建多损失函数机制
为了增强立体图像的纹理细节,并保持视点间的视差一致性,本发明实施例使用均方误差(MSE)损失函数、梯度损失函数和视差损失函数共同构建多损失函数机制,用于提升立体图像的超分辨率重建质量。
为使重建的立体图像包含更精确的纹理细节,本发明实施例使用梯度图计算梯度损失,梯度损失函数的公式表达如下:
P(·)=Concat[▽2f(·1),▽2f(·2),▽2f(·3)] (12)
对于立体图像超分辨率任务,除了要生成精确纹理细节以外,保持立体图像的视差关系也十分重要。因此本发明实施例使用视差损失函数来确保重建的立体图像仍保持正确的视差关系。视差损失函数的公式表达如下:
其中,D代表使用一个视差估计算法(PSMnet)计算的视差图。
此外,本发明实施例使用均方根误差(MSE)损失函数来约束重建的立体图像的整体质量,均方根误差(MSE)损失函数的公式表达如下:
最终训练网络使用的损失函数表达式如下:L=LMSE+αLGradient+βLDisparity (15)
其中,α和β表示梯度损失函数和视差损失函数的权重。
四、训练基于深度交互学习的立体图像超分辨率重建网络。
该训练过程中,基于深度交互学习的立体图像超分辨率重建网络包括:空间特征提取部分、交互部分和多损失函数机制部分。
在该训练阶段,空间特征提取部分可以使用任意一个优秀的单图超分辨率重建方法的神经网络结构。该训练过程中,批次大小、学习率和优化器的设置与选用的单图超分辨率重建方法一致。该训练过程中,首先使用均方根误差(MSE)损失函数训练神经网络,在损失降到16以下时,更改多损失函数机制中的权重{α,β}为{0.1,0.4}继续优化网络。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于深度交互学习的立体图像超分辨率重建方法,其特征在于,所述方法包括:
将输入的左右视图,分为左右两支路通过空间特征提取到相应的空间特征表达;
通过交互部分提取另一视点中的互补信息用于增强左右视图的空间特征表达;
使用均方误差损失函数、梯度损失函数和视差损失函数共同构建多损失函数机制,用于提升立体图像的超分辨率重建质量;
训练基于深度交互学习的立体图像超分辨率重建网络;
其中,所述交互部分由串联的一系列交互单元组成,每一个交互单元由四个门控组成,分别为滤波门、重置门、筛选门和更新门。
2.根据权利要求1所述的一种基于深度交互学习的立体图像超分辨率重建方法,其特征在于,左右两支路的空间特征提取中的卷积层共享参数。
3.根据权利要求1所述的一种基于深度交互学习的立体图像超分辨率重建方法,其特征在于,所述滤波门用于减弱视点的空间不对齐,即滤波后的视点特征等于视点特征与卷积层的卷积。
4.根据权利要求1所述的一种基于深度交互学习的立体图像超分辨率重建方法,其特征在于,所述重置门用于控制当前视点对另一视点产生的影响,由一层卷积层和一层激活层组成;
左视点特征和右视点滤波后的特征级联,通过重置门得到特征r,特征r和右视点滤波后的特征fr'做点积计算得到候选集c。
5.根据权利要求4所述的一种基于深度交互学习的立体图像超分辨率重建方法,其特征在于,所述筛选门用于对候选集c进行筛选得到特征c'。
6.根据权利要求1所述的一种基于深度交互学习的立体图像超分辨率重建方法,其特征在于,所述更新门用于判断当前视点的信息能否送入另一视点,获取权重图自适应地融合左右视点的信息。
7.根据权利要求1所述的一种基于深度交互学习的立体图像超分辨率重建方法,其特征在于,所述交互部分采用跳连接方式,将空间特征提取部分输出的特征fl和fr与各视点对应的交互特征相加。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011132474.3A CN112184555B (zh) | 2020-10-21 | 2020-10-21 | 一种基于深度交互学习的立体图像超分辨率重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011132474.3A CN112184555B (zh) | 2020-10-21 | 2020-10-21 | 一种基于深度交互学习的立体图像超分辨率重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112184555A CN112184555A (zh) | 2021-01-05 |
CN112184555B true CN112184555B (zh) | 2022-07-19 |
Family
ID=73922944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011132474.3A Active CN112184555B (zh) | 2020-10-21 | 2020-10-21 | 一种基于深度交互学习的立体图像超分辨率重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112184555B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096239B (zh) * | 2021-04-07 | 2022-07-19 | 天津大学 | 一种基于深度学习的三维点云重建方法 |
CN113506217B (zh) * | 2021-07-09 | 2022-08-16 | 天津大学 | 一种基于循环交互的立体图像超分辨率重建方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016019484A1 (en) * | 2014-08-08 | 2016-02-11 | Xiaoou Tang | An apparatus and a method for providing super-resolution of a low-resolution image |
CN106204489A (zh) * | 2016-07-12 | 2016-12-07 | 四川大学 | 结合深度学习与梯度转换的单幅图像超分辨率重建方法 |
CN106991695A (zh) * | 2017-03-27 | 2017-07-28 | 苏州希格玛科技有限公司 | 一种图像配准方法及装置 |
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN110910436A (zh) * | 2019-10-30 | 2020-03-24 | 深圳供电局有限公司 | 基于图像信息增强技术的测距方法、装置、设备和介质 |
CN111292237A (zh) * | 2020-01-21 | 2020-06-16 | 扬州大学 | 基于二维多集偏最小二乘的人脸图像超分辨率重建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11449989B2 (en) * | 2019-03-27 | 2022-09-20 | The General Hospital Corporation | Super-resolution anatomical magnetic resonance imaging using deep learning for cerebral cortex segmentation |
-
2020
- 2020-10-21 CN CN202011132474.3A patent/CN112184555B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016019484A1 (en) * | 2014-08-08 | 2016-02-11 | Xiaoou Tang | An apparatus and a method for providing super-resolution of a low-resolution image |
CN106204489A (zh) * | 2016-07-12 | 2016-12-07 | 四川大学 | 结合深度学习与梯度转换的单幅图像超分辨率重建方法 |
CN106991695A (zh) * | 2017-03-27 | 2017-07-28 | 苏州希格玛科技有限公司 | 一种图像配准方法及装置 |
CN110136063A (zh) * | 2019-05-13 | 2019-08-16 | 南京信息工程大学 | 一种基于条件生成对抗网络的单幅图像超分辨率重建方法 |
CN110910436A (zh) * | 2019-10-30 | 2020-03-24 | 深圳供电局有限公司 | 基于图像信息增强技术的测距方法、装置、设备和介质 |
CN111292237A (zh) * | 2020-01-21 | 2020-06-16 | 扬州大学 | 基于二维多集偏最小二乘的人脸图像超分辨率重建方法 |
Non-Patent Citations (2)
Title |
---|
"基于多尺度特征损失函数的图像超分辨率重建";徐亮等;《光电工程》;20191130;第180419-1-9页 * |
"基于细节的超分辨率重建技术研究";王本虹;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20130115;I138-1213 * |
Also Published As
Publication number | Publication date |
---|---|
CN112184555A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | TSNet: Three-stream self-attention network for RGB-D indoor semantic segmentation | |
CN108765296B (zh) | 一种基于递归残差注意力网络的图像超分辨率重建方法 | |
CN110188239B (zh) | 一种基于跨模态注意力机制的双流视频分类方法和装置 | |
CN111652966B (zh) | 一种基于无人机多视角的三维重建方法及装置 | |
WO2021018163A1 (zh) | 神经网络的搜索方法及装置 | |
CN110570522B (zh) | 一种多视图三维重建方法 | |
CN111539884A (zh) | 一种基于多注意力机制融合的神经网络视频去模糊方法 | |
CN112990077B (zh) | 基于联合学习与光流估计的面部动作单元识别方法及装置 | |
CN112184555B (zh) | 一种基于深度交互学习的立体图像超分辨率重建方法 | |
CN112241939B (zh) | 一种基于多尺度和非局部的轻量去雨方法 | |
CN109949217B (zh) | 基于残差学习和隐式运动补偿的视频超分辨率重建方法 | |
CN113077554A (zh) | 一种基于任意视角图片的三维结构化模型重建的方法 | |
CN107123094A (zh) | 一种混合泊松、高斯和脉冲噪声的视频去噪方法 | |
CN116664782B (zh) | 一种基于融合体素的神经辐射场三维重建方法 | |
CN110930500A (zh) | 一种基于单视角视频的动态头发建模方法 | |
CN113920581A (zh) | 一种时空卷积注意力网络用于视频中动作识别的方法 | |
CN117391938B (zh) | 一种红外图像超分辨率重建方法、系统、设备及终端 | |
CN110889868A (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 | |
Nie et al. | Context and detail interaction network for stereo rain streak and raindrop removal | |
Qin et al. | Virtual reality video image classification based on texture features | |
CN116797640A (zh) | 一种面向智能伴行巡视器的深度及3d关键点估计方法 | |
CN115311186B (zh) | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 | |
CN115035173A (zh) | 基于帧间相关性的单目深度估计方法及系统 | |
Zhang et al. | Unsupervised learning of depth estimation based on attention model from monocular images | |
CN115705493A (zh) | 一种基于多特征注意力神经网络的图像去雾建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |