CN113393382A - 一种基于多维度视差先验的双目图片超分辨率重建方法 - Google Patents
一种基于多维度视差先验的双目图片超分辨率重建方法 Download PDFInfo
- Publication number
- CN113393382A CN113393382A CN202110934301.1A CN202110934301A CN113393382A CN 113393382 A CN113393382 A CN 113393382A CN 202110934301 A CN202110934301 A CN 202110934301A CN 113393382 A CN113393382 A CN 113393382A
- Authority
- CN
- China
- Prior art keywords
- view
- attention
- tensor
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005070 sampling Methods 0.000 claims abstract description 9
- 230000004931 aggregating effect Effects 0.000 claims abstract description 7
- 230000002452 interceptive effect Effects 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 78
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000000007 visual effect Effects 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 20
- 239000000126 substance Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000007634 remodeling Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 14
- 230000006870 function Effects 0.000 description 19
- 230000003993 interaction Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012634 optical imaging Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多维度视差先验的双目图片超分辨率重建方法,包括以下步骤:S1:将双目相机采集的第一视图和第二视图输入至级联注意力双目超分网络的两条分支通道中;S2:将3通道的第一视图和第二视图分别转化为64通道的第三视图和第四视图;S3:依次提取和聚合第三视图和第四视图的特征,并提取视图特征的视差先验信息;S4:根据视图特征的视差先验信息得到双目相机采集的第一视图和第二视图的交互关系,并将第三视图和第四视图的特征融合至上采样层,对融合后的第三视图和第四视图的特征进行超分辨率重建。本发明还提出一个轻量级的级联注意力双目超分网络,它在模型参数和重建效果上达到很好的平衡。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于多维度视差先验的双目图片超分辨率重建方法。
背景技术
近年来,随着光学成像技术的发展,双目摄像头在我们的日常生活中越来越普及。比如,几乎所有的智能手机都配备了双目摄像头以获得更好的图像质量,自动驾驶的汽车也使用双目摄像头来捕捉场景图像的深度图。此外,双目摄像机在计算机辅助手术中也受到了重视。因此,随着双目成像器件的发展,对高分辨率立体图像的要求越来越高,发展双目超分辨率技术迫在眉睫。
得益于深度学习的蓬勃发展,基于单张图像的超分辨率算法在最近取得显著的进步,它致力于从一张低分辨率图像中恢复出对应的高分辨率的图像。通过模型训练,基于单张图像的超分辨率算法方法可以从外部训练数据和内部图像特征信息中获取可行信息,来达到恢复高清细节的目的。不同于单张图像的超分技术,双目超分辨率算法的输入是两张不同视角的低分辨率图像,它致力于恢复出某一视角的高分辨率图像。由于两张不同视角的低分辨率图像存在比较大的视差信息,直接运用现成的单张超分辨率算法分别恢复不同视角的图像是不可行的,它忽略了其它视点的亚像素偏移信息所带来的交叉视图信息的优点,最终导致性能下降。
因此,最近的双目超分辨率方法致力于利用视差先验信息,同时利用现有的单张图像的超分辨率算法来挖掘内部图像特定信息。具体来说,Jeon 等人在文献“D. S. Jeon,S. Baek, I. Choi, and M. H. Kim, Enhancing the spatial resolution of stereoimages using a parallax prior, in CVPR 2018, pp. 1721–1730”中提出了 StereoSR网络,它首先论证了视差先验在立体视觉中的重要性,并提出通过联合训练两个级联子网络来学习视差先验。基于StereoSR, Wang等人在文献“L. Wang, Y. Wang, Z. Liang, Z.Lin, J. Yang, W. An, and Y. Guo, Learning parallax attention for stereo imagesuper-resolution, in CVPR 2019, pp. 12 250–12 259”提出了一种新的用于立体图像超分辨网络的视差注意网络PASSRnet,它引入了一种具有全局感受野的视差注意机制来处理立体图像间的视差信息。此外,Ying等人在文献“X. Ying, Y. Wang, L. Wang, W.Sheng, W. An, and Y. Guo, A stereo attention module for stereo image super-resolution, in IEEE Signal Process. Lett. 2020, vol. 27, pp. 496–500”提出了一种通用的立体注意模块(SAM)来利用交叉视角和视角内信息,它可以嵌入到任意单张超分辨网络中进行双目图像超分。然而,StereoSR仅水平地移动右图像64个像素以模拟先前的粗略视差。同时,PASSRnet和SAM只考虑了对两个原始视点的视差关注,而忽略了两个特征之间的多维信息。
因此,最近的双目超分辨率方法致力于利用视差先验信息,同时利用现有的单张图像的超分辨率算法来挖掘内部图像特定信息。
发明内容
本发明的目的是为了解决重建双目图片超分辨率的问题,提出了一种基于多维度视差先验的双目图片超分辨率重建方法。
本发明的技术方案是:一种基于多维度视差先验的双目图片超分辨率重建方法包括以下步骤:
S1:将双目相机采集的第一视图和第二视图分别输入至级联注意力双目超分网络的两条分支通道中;其中,级联注意力双目超分网络包括两条对称的分支通道,其分支通道均包括依次连接的卷积层、级联注意力块和上采样层,还包括插入至级联注意力块的视差多维度注意力模块;
S2:利用卷积层将3通道的第一视图和第二视图分别转化为64通道的第三视图和第四视图;
S3:利用级联注意力块依次提取和聚合第三视图和第四视图的特征,并利用视差多维度注意力模块提取视图特征的视差先验信息;
S4:根据视图特征的视差先验信息得到双目相机采集的第一视图和第二视图的交互关系,并将第三视图和第四视图的特征融合至上采样层,利用上采样层对融合后的第三视图和第四视图的特征进行超分辨率重建,得到超分辨率图片。
进一步地,步骤S1中,级联注意力双目超分网络采用自注意力机制;其中,视觉多维度注意力模块用于输入两个视图,并提取两个视图的视差先验信息;
级联注意力块包括残差网络和视觉多维度自注意力模块;视觉多维度自注意力模块用于输入单一视图,并提取单一视图的视差先验信息。
进一步地,步骤S3包括以下子步骤:
S31:利用级联注意力块依次提取和聚合第三视图的特征和第四视图的特征;
S32:将第三视图的特征和第四视图的特征均依次输入至视差多维度注意力模块中的残差块和卷积层,得到视图特征;
S33:基于视图特征,根据第三视图的特征函数,计算从第四视图到第三视图的第一注意力特征图,并通过第三视图的特征更新函数进行更新,得到第二注意力特征图;
S34:基于视图特征,根据第四视图的特征函数,计算从第三视图到第四视图的第三注意力特征图,并通过第四视图的特征函数更新进行更新,得到第四注意力特征图;
S35:计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息。
进一步地,步骤S32中,视图特征的表达式为,其中,表示自注意力机制中第三视图的值张量,表示自注意力机制中第三视图的键张量,表示自注意力机制中第三视图的查询张量,表示自注意力机制中第四视图的值张量,表示自注意力机制中第四视图的键张量,表示自注意力机制中第四视图的查询张量,表示自注意力机制中的键张量,表示自注意力机制中的键张量,表示自注意力机制中的查询张量,表示第三视图,表示第四视图;
进一步地,步骤S35中,计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息的方法相同,均包括以下子步骤:
S351:在通道维度、高度维度和宽度维度上,分别重塑自注意力机制中的查询张量和键张量,得到第一查询张量、第二查询张量和第三查询张量、第一键张量、第二键张量和第三键张量,其中,表示注意力特征图的通道维度,表示注意力特征图的高度维度,表示注意力特征图的宽度维度,表示矩阵尺度;
S353:在通道维度、高度维度和宽度维度上重塑自注意力机制中的值张量,得到第一值张量、第二值张量和第三值张量,并将第一依赖关系映射、第二依赖关系映射和第三依赖关系映射分别与第一值张量、第二值张量和第三值张量进行对应的矩阵相乘,得到第一注意力机制更新后特征、第二注意力机制更新后特征和第三注意力机制更新后特征;注意力机制更新后的特征具有视差的交互信息。
S354:将第一注意力机制更新后特征、第二注意力机制更新后特征和第三注意力机制更新后特征和视差多维度注意力模块中残差块的残差特征在通道维度上进行拼接,并利用卷积层减少第一注意力机制更新后特征、第二注意力机制更新后特征和第三注意力机制更新后特征的通道数,得到视差先验信息的特征表达。
本发明的有益效果是:
(1)本发明提出一个通用的视差多维度注意力模块,充分挖掘了不同视点产生的双目图像的视差信息,很好地捕捉了双目视差信息在特征空间的多维度表示问题。视差多维度注意力模块可以直接集成到不同的单张图片超分辨率网络中进行多阶段的特征融合,以更好地模拟交叉视图信息交互。
(2)基于视差多维度注意力模块,本发明还提出多维度自注意力模块,它能够自适应地从单张图像中学习更多有用的内部视点先验信息。
(3)基于视差多维度注意力模块和多维度自注意力模块,本发明还提出一个轻量级的级联注意力双目超分网络,它在模型参数和重建效果上达到很好的平衡。
附图说明
图1为双目图片超分辨率重建方法的流程图;
图2为级联注意力双目超分网络的结构图;
图3为视差多维度注意力模块的结构图;
图4为视差多维度自注意力模块的结构图;
图5为级联注意力块的结构图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
如图1所示,本发明提供了一种基于多维度视差先验的双目图片超分辨率重建方法,包括以下步骤:
S1:将双目相机采集的第一视图和第二视图分别输入至级联注意力双目超分网络的两条分支通道中;其中,级联注意力双目超分网络包括两条对称的分支通道,其分支通道均包括依次连接的卷积层、级联注意力块和上采样层,还包括插入至级联注意力块的视差多维度注意力模块;
S2:利用卷积层将3通道的第一视图和第二视图分别转化为64通道的第三视图和第四视图;
S3:利用级联注意力块依次提取和聚合第三视图和第四视图的特征,并利用视差多维度注意力模块提取视图特征的视差先验信息;
S4:根据视图特征的视差先验信息得到双目相机采集的第一视图和第二视图的交互关系,并将第三视图和第四视图的特征融合至上采样层,利用上采样层对融合后的第三视图和第四视图的特征进行超分辨率重建,得到超分辨率图片。
在本发明实施例中,步骤S1中,级联注意力双目超分网络采用自注意力机制;其中,视觉多维度注意力模块用于输入两个视图,并提取两个视图的视差先验信息;
级联注意力块包括残差网络和视觉多维度自注意力模块;视觉多维度自注意力模块用于输入单一视图,并提取单一视图的视差先验信息。
如图2所示,级联注意力双目超分网络模型是一个高度对称的结构,拥有两个完全一样的分支,它们相互共享网络参数。其中,每一个分支对应于一个视角低分辨率图像的输入。左边和右边视角的低分辨率图像分别同时输入上面和下面部分的分支网络。输入网络后,首先使用3×3卷积网络把3通道的输入图像转化为64通道的特征图。随后,一系列的级联注意力块在主干网络中对特征进一步地提取和聚合。因此,通过两个分支网络,可以获得对应于左视角图像和右视角图像的两个粗糙的特征表达。然后,将多个视差多维度注意力模块插入到主干网络的级联注意力块序列中,以在不同阶段捕捉到左右视图特征的视差先验信息。得益于视觉多维度注意力模块和级联注意力块,帧内视图和帧间交叉视图信息能被网络很好地感知到。一个全局的残差连接把最开始的特征图以相加的方式融合到网络的尾部,这样做可以促进全局信息流动,减轻网络的训练难度。最后,把经过融合后的左右视角特征分别利用上采样模块进行高分辨率重建,就可以得到对用的高分辨率图片。
如图3所示,采取自注意力机制来设计视觉多维度注意力模块,这个转化过程可以被认为,给定一个特定的查询(query),基于键(key)来搜索相应的值(value)。由图3可以看出,左右两个视角的特征首先输入到一个残差块,这个残差块参数共享。然后,特征在分别输入到6个1 × 1卷积层得到6个对应于左右视角的特征。对于左边视图,。由此得到从右到左视图的软注意力特征图,通过就可以得到转化后的特征图。同理,对于右边视图,注意力特征图,。
下面主要介绍如何在多维度上计算出视差先验信息的。对于上面的,,(C、H和W分别代表特征图的通道、高度和宽度的维度信息),传统的自注意力机制仅仅只计算一个维度的交互信息,导致图像处理任务中的特征挖掘不足。在PMDA中,为了解决这一问题,不仅仅挖掘通道维度的信息(H×W),空间维度的交互信息也被挖掘(H×C,W×C)。在图3中,每一个大圆角矩形代表在某一个维度进行自注意力机制的计算。具体地说,给定Query、Key 和Value 张量,三个Query张量分别被重塑为三种不同的形状,即、和。为了方便相乘,三个Key张量分别被重塑为三种对应的形状、和。这里,相同的下标表示矩阵乘法在对应的三种形状上执行。执行矩阵乘法,Q 1 K 1,Q 2 K 2,Q 3 K 3。然后,沿批处理列对它们应用softmax操作,以生成一组依赖关系映射A 1、A 2和A 3。这可以表述为:。相应地,即、和。接下来,为了将得到的注意力图映射组合成相应的特征,在Value值和之间执行矩阵乘法,为此,三个Value张量分别被重塑为三种对应的形状和。A和V之间的操作可以表示为。随后,得到的F 1、F 2和 F 3和残差特征Value在通道维度进行拼接得到新的向量。最后,用1× 1卷积来减少这些级联特征的通道数,得到最终的输出。这个过程可以表示为。因此,注意力机制的操作是在三个维度空间中进行的W×C、 H×C和H×W这就是为什么这个模块被称为多维的原因。
如图4所示,视觉多维度自注意力模块是基视觉多维度注意力模块的改进。视觉多维度注意力模块的输入是左右两个视图的特征,而视觉多维度自注意力模块的输入仅仅就是单一视图的特征。因此视觉多维度自注意力模块能够捕捉到单一视角的多维度先验信息。
在本发明实施例中,步骤S3包括以下子步骤:
S31:利用级联注意力块依次提取和聚合第三视图的特征和第四视图的特征;
S32:将第三视图的特征和第四视图的特征均依次输入至视差多维度注意力模块中的残差块和卷积层,得到视图特征;
S33:基于视图特征,根据第三视图的特征函数,计算从第四视图到第三视图的第一注意力特征图,并通过第三视图的特征更新函数进行更新,得到第二注意力特征图;
S34:基于视图特征,根据第四视图的特征函数,计算从第三视图到第四视图的第三注意力特征图,并通过第四视图的特征函数更新进行更新,得到第四注意力特征图;
S35:计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息。
在本发明实施例中,步骤S32中,视图特征的表达式为,其中,表示自注意力机制中第三视图的值张量,表示自注意力机制中第三视图的键张量,表示自注意力机制中第三视图的查询张量,表示自注意力机制中第四视图的值张量,表示自注意力机制中第四视图的键张量,表示自注意力机制中第四视图的查询张量,表示自注意力机制中的键张量,表示自注意力机制中的键张量,表示自注意力机制中的查询张量,表示第三视图,表示第四视图;
在本发明实施例中,步骤S35中,计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息的方法相同,均包括以下子步骤:
S351:在通道维度、高度维度和宽度维度上,分别重塑自注意力机制中的查询张量和键张量,得到第一查询张量、第二查询张量和第三查询张量、第一键张量、第二键张量和第三键张量,其中,表示注意力特征图的通道维度,表示注意力特征图的高度维度,表示注意力特征图的宽度维度,表示矩阵尺度;
S353:在通道维度、高度维度和宽度维度上重塑自注意力机制中的值张量,得到第一值张量、第二值张量和第三值张量,并将第一依赖关系映射、第二依赖关系映射和第三依赖关系映射分别与第一值张量、第二值张量和第三值张量进行对应的矩阵相乘,得到第一注意力机制更新后特征、第二注意力机制更新后特征和第三注意力机制更新后特征;注意力机制更新后的特征具有视差的交互信息。
S354:将第一注意力机制更新后特征、第二注意力机制更新后特征和第三注意力机制更新后特征和视差多维度注意力模块中残差块的残差特征在通道维度上进行拼接,并利用卷积层减少第一注意力机制更新后特征、第二注意力机制更新后特征和第三注意力机制更新后特征的通道数,得到视差先验信息的特征表达。
如图5所示,级联注意力块是残差网络和视觉多维度自注意力模块的结合。具体来说,级联注意力块直接将输入的特征图分解为4个子集,分别为x1、x2、x3和x4,每个子集的通道数为原来的四分之一,并使用多个并行但相连的卷积层来处理这些特征映射。最后,将这些子集聚合在一起,用一个1× 1卷积来聚合这些特征。提出的视觉多维度自注意力模块插在这个1× 1卷积层之后,四个子集对应的输出分别为y1、y2、y3和y4。由于残差网络具有较大的感受野,同时保持较小的通道数量,信息传递给SMDA后就可以用较少的参数获得更详细、更精确的特征表达。
下面采用平均绝对误差Mean Absolute Error (MAE)来训练网络。在级联注意力双目超分网络中包含10个级联注意力块。峰值信噪比(PSNR)和结构相似性(SSIM)被用来测试模型的性能,值越大代表恢复出的图像效果越好。表1为级联注意力双目超分网络中不同维度学习的效果。
表1
由于视差多维度注意力模块包含三个维度的学习策略,因此观察不同维度对最终双目重建效果的影响至关重要。如表1所示,展示了维度的选择如何影响最终结果,其中W×C、 H×C和H×W表示视差多维度注意力模块中在哪个维度上执行注意力特征图的计算。表1的第一行代表的方法没有使用视差多维度注意力模块,可以看出,在三个数据集上的效果都比较差。从表1中可以观察出,就单一维度而言,与H×C和H×W相比,W×C这个维度上的注意力机制能更好地改善重建效果。另一方面,H×C和H×W这两个维度对最终结果的影响很小。这一现象也揭示了以往的方法只关注于构建W×C这个维度的注意模块。此外,完整的模型在三个维度之间都建立了相互依赖关系,重建效果在三个数据集上都取得了显著的改进。这一结果支持本发明的理论,即具有所有三维特征(表示为完整模型)的视差多维度注意力模块优于其他普通的版本。完整的模块表现出极强的健壮性,在这三个基准数据集中几乎实现了所有最佳的重建性能。
表2
为不同的单张超分模型结合所提出的视差多维度注意力模块对比表。
本发明提出的PMDA(视差多维度注意力模块)是一个通用模块,它可以直接集成到现有的单张超分网络中帮助其应用于双目超分任务。在表2中,IMDN方法来自论文“Z. Hui,X. Gao, Y. Yang, and X. Wang, Lightweight image super-resolution withinformation multi-distillation network, in ACM MM, 2019, pp. 2024–2032.”,SRResNet方法来自论文“C. Ledig, L. Theis, F. Huszar, J. Caballero, A.Cunningham, A. Acosta,A. P. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi,Photo-realistic single image super-resolution using a generative adversarialnetwork, in CVPR, 2017, pp. 105–114.”,RCAN方法来自论文“Y. Zhang, K. Li, K.Li, L. Wang, B. Zhong, and Y. Fu, Image super-resolution using very deepresidual channel attention networks, in ECCV, 2018, pp. 294–310”。这三个方法都是专门针对单张超分辨模型的,并且IMDN是非常轻量级的模型,SRResNet的模型大小适中,RCAN是一个参数量巨大的模型,但重建效果也是目前最好的。如果没有这个PMDA模块,仅仅只用原始的单张超分模型。结果展示在表2中,可以很容易地发现,在PMDA模块的帮助下,单张超分辨模型在双目超分任务上取得巨大的进步。并且,对不同参数量大小的模型都有帮助。这是因为单张超分辨模型不能利用来自另一个视图的交叉视图信息,而PMDA可以弥补这一不足。
不同模型的定量对比结果列于表3。结果表明,在视差多维度注意力模块的帮助下,本发明提出的级联注意力双目超分网络在三个数据集上几乎都能获得性能最好的,且参数较少。表3中,Bicubic代表双三次插值法,PASSRnet方法来自“L. Wang, Y. Wang, Z.Liang, Z. Lin, J. Yang, W. An, and Y. Guo, Learning parallax attention forstereo image super-resolution, in IEEE, CVPR 2019, pp. 12 250–12 259”,SAN方法来自“T. Dai, J. Cai, Y. Zhang, S. Xia, and L. Zhang, Second-order attentionnetwork for single image super-resolution, in CVPR 2019, pp. 11 065–11 074”,SAM方法来自“X. Ying, Y. Wang, L. Wang, W. Sheng, W.
表3
An, and Y. Guo, A stereo attention module for stereo image super-resolution, IEEE Signal Process. Letter, vol. 27, pp. 496–500, 2020”。/ 符号的左右两个数值分别代表PSNR和SSIM两个参考指标。PASSRnet方法是专门为双目超分设计的方法,可以看出级联注意力双目超分网络在各个方面都领先与它。此外,与本发明的方法类似,SAM也是一个嵌入单张超分辨率模型中的通用立体注意力模块。对比SRResNet+SAM和SRResNet+PMDA可以发现,PMDA比SAM具有更强的双目视觉交叉信息利用能力,带来更大的重建效果增益。级联注意力双目超分网络在模型大小,运行时间开销上都取得了极好的效果,证明了该模型是一个轻量级的模型。对比实验的结果证明,级联注意力双目超分网络(PASR模型)能在模型参数和性能之间实现了良好的平衡。
在本发明中,介绍了一个视差多维度注意力模块(PMDA),这是个通用的模块,用于探索双目输入图像对之间的内在相关性。具体地说,所提出的PMDA模块可以捕获通道或空间位置之间的多维度依赖关系。得益于此,现有的单张图像超分方法可以通过直接在网络中插入一个PMDA来适应于双目超分任务。通过这样做,单张视图内部和两张视图之间的信息就能被联合挖掘出来,进而提高最终图像超分辨率的性能。实验结果表明,本发明提出的方法在重建效果和模型复杂度上取得了很好的效果,在现有的单张超分方法中加入PMDA后,双目超分重建的性能有了显著的提高,但只增加了有限的复杂度。
本发明的工作原理及过程为:本发明提出一个新颖的视差多维度注意力模块(Parallax Multi-Dimensional Attention module,PMDA),它可以准确地捕捉到两个不同视角图片的多维度视差信息。具体来说,除了常用的沿着通道维度的依赖关系,PMDA还聚合了空间维度(高度和宽度)之间的交互特征。尽管PMDA能捕获立体图像的两个视图之间的交叉视图信息。然而,也应该考虑图像帧内的有用特征。基于PMDA,本发明还提出了视觉多维度自注意力模块(Self Multi -Dimensional Attention,SMDA),它能在单张图像内部捕捉多维度的信息。得益于PMDA和SMDA,内部视图和帧间的视差信息能够被很好地被生成,这些信息被送到网络的后部分来辅助最终高清图像的复原。由于最近的单张图片超分辨率网络大量使用级联模块,PMDA和SMDA可以很容易地插入到这些网络中以挖掘交叉视图信息,帮助单张图片超分辨率网络扩展到双目超分辨率任务来。
本发明的有益效果为:
(1)本发明提出一个通用的视差多维度注意力模块,充分挖掘了不同视点产生的双目图像的视差信息,很好地捕捉了双目视差信息在特征空间的多维度表示问题。视差多维度注意力模块可以直接集成到不同的单张图片超分辨率网络中进行多阶段的特征融合,以更好地模拟交叉视图信息交互。
(2)基于视差多维度注意力模块,本发明还提出视觉多维度自注意力模块,它能够自适应地从单张图像中学习更多有用的内部视点先验信息。
(3)基于视差多维度注意力模块和视觉多维度自注意力模块,本发明还提出一个轻量级的级联注意力双目超分网络,它在模型参数和重建效果上达到很好的平衡。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (6)
1.一种基于多维度视差先验的双目图片超分辨率重建方法,其特征在于,包括以下步骤:
S1:将双目相机采集的第一视图和第二视图分别输入至级联注意力双目超分网络的两条分支通道中;其中,所述级联注意力双目超分网络包括两条对称的分支通道,其分支通道均包括依次连接的卷积层、级联注意力块和上采样层,还包括插入至级联注意力块的视差多维度注意力模块(Parallax Multi-Dimensional Attention module,PMDA);
S2:利用卷积层将3通道的第一视图和第二视图分别转化为64通道的第三视图和第四视图;
S3:利用级联注意力块依次提取和聚合第三视图和第四视图的特征,并利用视差多维度注意力模块提取视图特征的视差先验信息;
S4:根据视图特征的视差先验信息得到双目相机采集的第一视图和第二视图的交互关系,并将第三视图和第四视图的特征融合至上采样层,利用上采样层对融合后的第三视图和第四视图的特征进行超分辨率重建,得到超分辨率图片。
2.根据权利要求1所述的基于多维度视差先验的双目图片超分辨率重建方法,其特征在于,所述步骤S1中,所述级联注意力双目超分网络采用自注意力机制;其中,级联注意力双目超分网络中的视觉多维度注意力模块用于输入两个视图,并提取两个视图的视差先验信息;
所述级联注意力块包括残差网络和视觉多维度自注意力模块;所述视觉多维度自注意力模块用于输入单一视图,并提取单一视图的视差先验信息。
3.根据权利要求1所述的基于多维度视差先验的双目图片超分辨率重建方法,其特征在于,所述步骤S3包括以下子步骤:
S31:利用级联注意力块依次提取和聚合第三视图的特征和第四视图的特征;
S32:将第三视图的特征和第四视图的特征均依次输入至视差多维度注意力模块中的残差块和卷积层,得到视图特征;
S33:基于视图特征,根据第三视图的特征函数,计算从第四视图到第三视图的第一注意力特征图,并通过第三视图的特征更新函数进行更新,得到第二注意力特征图;
S34:基于视图特征,根据第四视图的特征函数,计算从第三视图到第四视图的第三注意力特征图,并通过第四视图的特征函数更新进行更新,得到第四注意力特征图;
S35:计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息。
4.根据权利要求3所述的基于多维度视差先验的双目图片超分辨率重建方法,其特征在于,所述步骤S32中,视图特征的表达式为,其中,表示自注意力机制中第三视图的值张量,表示自注意力机制中第三视图的键张量,表示自注意力机制中第三视图的查询张量,表示自注意力机制中第四视图的值张量,表示自注意力机制中第四视图的键张量,表示自注意力机制中第四视图的查询张量,表示自注意力机制中的键张量,表示自注意力机制中的键张量,表示自注意力机制中的查询张量,表示第三视图,表示第四视图;
5.根据权利要求3所述的基于多维度视差先验的双目图片超分辨率重建方法,其特征在于,所述步骤S35中,计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息的方法相同,均包括以下子步骤:
S351:在通道维度、高度维度和宽度维度上,分别重塑自注意力机制中的查询张量和键张量,得到第一查询张量、第二查询张量和第三查询张量、第一键张量、第二键张量和第三键张量,其中,表示注意力特征图的通道维度,表示注意力特征图的高度维度,表示注意力特征图的宽度维度,表示矩阵尺度;
S353:在通道维度、高度维度和宽度维度上重塑自注意力机制中的值张量,得到第一值张量、第二值张量和第三值张量,并将第一依赖关系映射、第二依赖关系映射和第三依赖关系映射分别与第一值张量、第二值张量和第三值张量进行对应的矩阵相乘,得到第一注意力机制更新后特征、第二注意力机制更新后特征和第三注意力机制更新后特征;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110934301.1A CN113393382B (zh) | 2021-08-16 | 2021-08-16 | 一种基于多维度视差先验的双目图片超分辨率重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110934301.1A CN113393382B (zh) | 2021-08-16 | 2021-08-16 | 一种基于多维度视差先验的双目图片超分辨率重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113393382A true CN113393382A (zh) | 2021-09-14 |
CN113393382B CN113393382B (zh) | 2021-11-09 |
Family
ID=77622570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110934301.1A Active CN113393382B (zh) | 2021-08-16 | 2021-08-16 | 一种基于多维度视差先验的双目图片超分辨率重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113393382B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989096A (zh) * | 2021-12-27 | 2022-01-28 | 山东大学 | 基于深度学习和注意力网络的鲁棒图像水印方法及系统 |
CN117409331A (zh) * | 2023-12-15 | 2024-01-16 | 四川泓宝润业工程技术有限公司 | 一种油气管线周边环境隐患检测方法、装置及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945220A (zh) * | 2017-11-30 | 2018-04-20 | 华中科技大学 | 一种基于双目视觉的重建方法 |
CN109859106A (zh) * | 2019-01-28 | 2019-06-07 | 桂林电子科技大学 | 一种基于自注意力的高阶融合网络的图像超分辨率重建方法 |
CN110070489A (zh) * | 2019-04-30 | 2019-07-30 | 中国人民解放军国防科技大学 | 一种基于视差注意力机制的双目图像超分辨方法 |
CN110930309A (zh) * | 2019-11-20 | 2020-03-27 | 武汉工程大学 | 基于多视图纹理学习的人脸超分辨率方法及装置 |
CN110942441A (zh) * | 2018-09-25 | 2020-03-31 | 英特尔公司 | 具有流估计和图像超分辨率的多相机阵列图像的视图插补 |
AU2020100200A4 (en) * | 2020-02-08 | 2020-06-11 | Huang, Shuying DR | Content-guide Residual Network for Image Super-Resolution |
CN111445390A (zh) * | 2020-02-28 | 2020-07-24 | 天津大学 | 基于宽残差注意力的三维医学图像超分辨率重建方法 |
CN111583107A (zh) * | 2020-04-03 | 2020-08-25 | 长沙理工大学 | 一种基于注意力机制的图像超分辨率重建方法和系统 |
CN111626927A (zh) * | 2020-04-09 | 2020-09-04 | 上海交通大学 | 采用视差约束的双目图像超分辨率方法、系统及装置 |
CN113256496A (zh) * | 2021-06-11 | 2021-08-13 | 四川省人工智能研究院(宜宾) | 一种轻量级渐进式特征融合的图像超分辨率系统及方法 |
-
2021
- 2021-08-16 CN CN202110934301.1A patent/CN113393382B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945220A (zh) * | 2017-11-30 | 2018-04-20 | 华中科技大学 | 一种基于双目视觉的重建方法 |
CN110942441A (zh) * | 2018-09-25 | 2020-03-31 | 英特尔公司 | 具有流估计和图像超分辨率的多相机阵列图像的视图插补 |
CN109859106A (zh) * | 2019-01-28 | 2019-06-07 | 桂林电子科技大学 | 一种基于自注意力的高阶融合网络的图像超分辨率重建方法 |
CN110070489A (zh) * | 2019-04-30 | 2019-07-30 | 中国人民解放军国防科技大学 | 一种基于视差注意力机制的双目图像超分辨方法 |
CN110930309A (zh) * | 2019-11-20 | 2020-03-27 | 武汉工程大学 | 基于多视图纹理学习的人脸超分辨率方法及装置 |
AU2020100200A4 (en) * | 2020-02-08 | 2020-06-11 | Huang, Shuying DR | Content-guide Residual Network for Image Super-Resolution |
CN111445390A (zh) * | 2020-02-28 | 2020-07-24 | 天津大学 | 基于宽残差注意力的三维医学图像超分辨率重建方法 |
CN111583107A (zh) * | 2020-04-03 | 2020-08-25 | 长沙理工大学 | 一种基于注意力机制的图像超分辨率重建方法和系统 |
CN111626927A (zh) * | 2020-04-09 | 2020-09-04 | 上海交通大学 | 采用视差约束的双目图像超分辨率方法、系统及装置 |
CN113256496A (zh) * | 2021-06-11 | 2021-08-13 | 四川省人工智能研究院(宜宾) | 一种轻量级渐进式特征融合的图像超分辨率系统及方法 |
Non-Patent Citations (4)
Title |
---|
DONGYANG ZHANG 等: "Remote Sensing Image Super-Resolution via Mixed High-Order Attention Network", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》 * |
LONGGUANG WANG 等: "Learning Parallax Attention for Stereo Image Super-Resolution", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
YINGQIAN WANG 等: "Symmetric Parallax Attention for Stereo Image Super-Resolution", 《HTTPS://ARXIV.ORG/ABS/2011.03802V2》 * |
雷鹏程 等: "分层特征融合注意力网络图像超分辨率重建", 《中国图象图形学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113989096A (zh) * | 2021-12-27 | 2022-01-28 | 山东大学 | 基于深度学习和注意力网络的鲁棒图像水印方法及系统 |
CN117409331A (zh) * | 2023-12-15 | 2024-01-16 | 四川泓宝润业工程技术有限公司 | 一种油气管线周边环境隐患检测方法、装置及存储介质 |
CN117409331B (zh) * | 2023-12-15 | 2024-03-15 | 四川泓宝润业工程技术有限公司 | 一种油气管线周边环境隐患检测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113393382B (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113393382B (zh) | 一种基于多维度视差先验的双目图片超分辨率重建方法 | |
CN102254348B (zh) | 一种基于自适应视差估计的虚拟视点绘制方法 | |
CN102970529B (zh) | 一种基于对象的多视点视频分形编码压缩与解压缩方法 | |
CN112767253B (zh) | 一种多尺度特征融合的双目图像超分辨率重建方法 | |
CN102291579B (zh) | 一种快速的多目立体视频分形压缩与解压缩方法 | |
CN103179424B (zh) | 立体图像合成方法及装置 | |
US20170064279A1 (en) | Multi-view 3d video method and system | |
CN112019828B (zh) | 一种视频的2d到3d的转换方法 | |
CN113538243B (zh) | 基于多视差注意力模块组合的超分辨图像重建方法 | |
CN110580720A (zh) | 一种基于全景图的相机位姿估计方法 | |
CN113850718A (zh) | 一种基于帧间特征对齐的视频同步时空超分方法 | |
CN116668738A (zh) | 一种视频时空超分辨率重构方法、装置及存储介质 | |
Conde et al. | Real-time 4k super-resolution of compressed AVIF images. AIS 2024 challenge survey | |
Jammal et al. | Multiview video quality enhancement without depth information | |
CN102263953B (zh) | 一种基于对象的快速多目立体视频分形压缩与解压缩方法 | |
CN102263952B (zh) | 一种基于对象的快速双目立体视频分形压缩与解压缩方法 | |
CN114881858A (zh) | 基于多注意力机制融合的轻量级双目图像超分辨率方法 | |
CN104994365B (zh) | 一种获取非关键帧深度图像的方法以及2d视频立体化方法 | |
Jin et al. | Jointly texture enhanced and stereo captured network for stereo image super-resolution | |
Zhang et al. | As-deformable-as-possible single-image-based view synthesis without depth prior | |
Ma et al. | Enhanced back projection network based stereo image super-resolution considering parallax attention | |
Liu et al. | Multi-Scale Visual Perception Based Progressive Feature Interaction Network for Stereo Image Super-Resolution | |
CN107770511A (zh) | 一种多视点视频的编解码方法、装置和相关设备 | |
Qiu et al. | Sc-nafssr: Perceptual-oriented stereo image super-resolution using stereo consistency guided nafssr | |
Liu et al. | Coarse-to-Fine Cross-View Interaction Based Accurate Stereo Image Super-Resolution Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |