CN113393382A - 一种基于多维度视差先验的双目图片超分辨率重建方法 - Google Patents

一种基于多维度视差先验的双目图片超分辨率重建方法 Download PDF

Info

Publication number
CN113393382A
CN113393382A CN202110934301.1A CN202110934301A CN113393382A CN 113393382 A CN113393382 A CN 113393382A CN 202110934301 A CN202110934301 A CN 202110934301A CN 113393382 A CN113393382 A CN 113393382A
Authority
CN
China
Prior art keywords
view
attention
tensor
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110934301.1A
Other languages
English (en)
Other versions
CN113393382B (zh
Inventor
李长宇
张东阳
谢宁
邵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Artificial Intelligence Research Institute Yibin
Original Assignee
Sichuan Artificial Intelligence Research Institute Yibin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Artificial Intelligence Research Institute Yibin filed Critical Sichuan Artificial Intelligence Research Institute Yibin
Priority to CN202110934301.1A priority Critical patent/CN113393382B/zh
Publication of CN113393382A publication Critical patent/CN113393382A/zh
Application granted granted Critical
Publication of CN113393382B publication Critical patent/CN113393382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多维度视差先验的双目图片超分辨率重建方法,包括以下步骤:S1:将双目相机采集的第一视图和第二视图输入至级联注意力双目超分网络的两条分支通道中;S2:将3通道的第一视图和第二视图分别转化为64通道的第三视图和第四视图;S3:依次提取和聚合第三视图和第四视图的特征,并提取视图特征的视差先验信息;S4:根据视图特征的视差先验信息得到双目相机采集的第一视图和第二视图的交互关系,并将第三视图和第四视图的特征融合至上采样层,对融合后的第三视图和第四视图的特征进行超分辨率重建。本发明还提出一个轻量级的级联注意力双目超分网络,它在模型参数和重建效果上达到很好的平衡。

Description

一种基于多维度视差先验的双目图片超分辨率重建方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于多维度视差先验的双目图片超分辨率重建方法。
背景技术
近年来,随着光学成像技术的发展,双目摄像头在我们的日常生活中越来越普及。比如,几乎所有的智能手机都配备了双目摄像头以获得更好的图像质量,自动驾驶的汽车也使用双目摄像头来捕捉场景图像的深度图。此外,双目摄像机在计算机辅助手术中也受到了重视。因此,随着双目成像器件的发展,对高分辨率立体图像的要求越来越高,发展双目超分辨率技术迫在眉睫。
得益于深度学习的蓬勃发展,基于单张图像的超分辨率算法在最近取得显著的进步,它致力于从一张低分辨率图像中恢复出对应的高分辨率的图像。通过模型训练,基于单张图像的超分辨率算法方法可以从外部训练数据和内部图像特征信息中获取可行信息,来达到恢复高清细节的目的。不同于单张图像的超分技术,双目超分辨率算法的输入是两张不同视角的低分辨率图像,它致力于恢复出某一视角的高分辨率图像。由于两张不同视角的低分辨率图像存在比较大的视差信息,直接运用现成的单张超分辨率算法分别恢复不同视角的图像是不可行的,它忽略了其它视点的亚像素偏移信息所带来的交叉视图信息的优点,最终导致性能下降。
因此,最近的双目超分辨率方法致力于利用视差先验信息,同时利用现有的单张图像的超分辨率算法来挖掘内部图像特定信息。具体来说,Jeon 等人在文献“D. S. Jeon,S. Baek, I. Choi, and M. H. Kim, Enhancing the spatial resolution of stereoimages using a parallax prior, in CVPR 2018, pp. 1721–1730”中提出了 StereoSR网络,它首先论证了视差先验在立体视觉中的重要性,并提出通过联合训练两个级联子网络来学习视差先验。基于StereoSR, Wang等人在文献“L. Wang, Y. Wang, Z. Liang, Z.Lin, J. Yang, W. An, and Y. Guo, Learning parallax attention for stereo imagesuper-resolution, in CVPR 2019, pp. 12 250–12 259”提出了一种新的用于立体图像超分辨网络的视差注意网络PASSRnet,它引入了一种具有全局感受野的视差注意机制来处理立体图像间的视差信息。此外,Ying等人在文献“X. Ying, Y. Wang, L. Wang, W.Sheng, W. An, and Y. Guo, A stereo attention module for stereo image super-resolution, in IEEE Signal Process. Lett. 2020, vol. 27, pp. 496–500”提出了一种通用的立体注意模块(SAM)来利用交叉视角和视角内信息,它可以嵌入到任意单张超分辨网络中进行双目图像超分。然而,StereoSR仅水平地移动右图像64个像素以模拟先前的粗略视差。同时,PASSRnet和SAM只考虑了对两个原始视点的视差关注,而忽略了两个特征之间的多维信息。
因此,最近的双目超分辨率方法致力于利用视差先验信息,同时利用现有的单张图像的超分辨率算法来挖掘内部图像特定信息。
发明内容
本发明的目的是为了解决重建双目图片超分辨率的问题,提出了一种基于多维度视差先验的双目图片超分辨率重建方法。
本发明的技术方案是:一种基于多维度视差先验的双目图片超分辨率重建方法包括以下步骤:
S1:将双目相机采集的第一视图和第二视图分别输入至级联注意力双目超分网络的两条分支通道中;其中,级联注意力双目超分网络包括两条对称的分支通道,其分支通道均包括依次连接的卷积层、级联注意力块和上采样层,还包括插入至级联注意力块的视差多维度注意力模块;
S2:利用卷积层将3通道的第一视图和第二视图分别转化为64通道的第三视图和第四视图;
S3:利用级联注意力块依次提取和聚合第三视图和第四视图的特征,并利用视差多维度注意力模块提取视图特征的视差先验信息;
S4:根据视图特征的视差先验信息得到双目相机采集的第一视图和第二视图的交互关系,并将第三视图和第四视图的特征融合至上采样层,利用上采样层对融合后的第三视图和第四视图的特征进行超分辨率重建,得到超分辨率图片。
进一步地,步骤S1中,级联注意力双目超分网络采用自注意力机制;其中,视觉多维度注意力模块用于输入两个视图,并提取两个视图的视差先验信息;
级联注意力块包括残差网络和视觉多维度自注意力模块;视觉多维度自注意力模块用于输入单一视图,并提取单一视图的视差先验信息。
进一步地,步骤S3包括以下子步骤:
S31:利用级联注意力块依次提取和聚合第三视图的特征和第四视图的特征;
S32:将第三视图的特征和第四视图的特征均依次输入至视差多维度注意力模块中的残差块和卷积层,得到视图特征;
S33:基于视图特征,根据第三视图的特征函数,计算从第四视图到第三视图的第一注意力特征图,并通过第三视图的特征更新函数进行更新,得到第二注意力特征图;
S34:基于视图特征,根据第四视图的特征函数,计算从第三视图到第四视图的第三注意力特征图,并通过第四视图的特征函数更新进行更新,得到第四注意力特征图;
S35:计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息。
进一步地,步骤S32中,视图特征的表达式为
Figure 206692DEST_PATH_IMAGE001
,其中,
Figure 264778DEST_PATH_IMAGE002
表示自注意力机制中第三视图的值张量,
Figure 575673DEST_PATH_IMAGE003
表示自注意力机制中第三视图的键张量,
Figure 236462DEST_PATH_IMAGE004
表示自注意力机制中第三视图的查询张量,
Figure 457359DEST_PATH_IMAGE005
表示自注意力机制中第四视图的值张量,
Figure 545401DEST_PATH_IMAGE006
表示自注意力机制中第四视图的键张量,
Figure 78013DEST_PATH_IMAGE007
表示自注意力机制中第四视图的查询张量,
Figure 683438DEST_PATH_IMAGE008
表示自注意力机制中的键张量,
Figure 617896DEST_PATH_IMAGE009
表示自注意力机制中的键张量,
Figure 876839DEST_PATH_IMAGE010
表示自注意力机制中的查询张量,
Figure 772114DEST_PATH_IMAGE011
表示第三视图,
Figure 40284DEST_PATH_IMAGE012
表示第四视图;
步骤S33中,第三视图的特征函数
Figure 829248DEST_PATH_IMAGE013
和第三视图的特征更新函数
Figure 400038DEST_PATH_IMAGE014
的表达式分别为:
Figure 172822DEST_PATH_IMAGE015
Figure 713525DEST_PATH_IMAGE016
其中,
Figure 497941DEST_PATH_IMAGE017
表示归一化指数函数,
Figure 364266DEST_PATH_IMAGE018
表示矩阵乘法,
Figure 358767DEST_PATH_IMAGE019
表示矩阵转置;
步骤S34中,第四视图的特征函数
Figure 578527DEST_PATH_IMAGE020
和第四视图的特征更新函数
Figure 607663DEST_PATH_IMAGE021
的表达式分别为:
Figure 644889DEST_PATH_IMAGE022
Figure 736473DEST_PATH_IMAGE023
进一步地,步骤S35中,计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息的方法相同,均包括以下子步骤:
S351:在通道维度、高度维度和宽度维度上,分别重塑自注意力机制中的查询张量和键张量,得到第一查询张量
Figure 150136DEST_PATH_IMAGE024
、第二查询张量
Figure 768200DEST_PATH_IMAGE025
和第三查询张量
Figure 851693DEST_PATH_IMAGE026
、第一键张量
Figure 555207DEST_PATH_IMAGE027
、第二键张量
Figure 506983DEST_PATH_IMAGE028
和第三键张量
Figure 120498DEST_PATH_IMAGE029
,其中,
Figure 765106DEST_PATH_IMAGE030
表示注意力特征图的通道维度,
Figure 955916DEST_PATH_IMAGE031
表示注意力特征图的高度维度,
Figure 321169DEST_PATH_IMAGE032
表示注意力特征图的宽度维度,
Figure 648245DEST_PATH_IMAGE033
表示矩阵尺度;
S352:对第一查询张量
Figure 463754DEST_PATH_IMAGE024
、第二查询张量
Figure 17227DEST_PATH_IMAGE025
和第三查询张量
Figure 310805DEST_PATH_IMAGE026
与第一键张量
Figure 23546DEST_PATH_IMAGE027
、第二键张量
Figure 354164DEST_PATH_IMAGE028
和第三键张量
Figure 785145DEST_PATH_IMAGE029
依次进行对应的矩阵相乘和归一化操作,得到第一依赖关系映射
Figure 616835DEST_PATH_IMAGE034
、第二依赖关系映射
Figure 59449DEST_PATH_IMAGE035
和第三依赖关系映射
Figure 685602DEST_PATH_IMAGE036
S353:在通道维度、高度维度和宽度维度上重塑自注意力机制中的值张量,得到第一值张量
Figure 603880DEST_PATH_IMAGE037
、第二值张量
Figure 114627DEST_PATH_IMAGE038
和第三值张量
Figure 270801DEST_PATH_IMAGE039
,并将第一依赖关系映射
Figure 599015DEST_PATH_IMAGE034
、第二依赖关系映射
Figure 348796DEST_PATH_IMAGE035
和第三依赖关系映射
Figure 787868DEST_PATH_IMAGE036
分别与第一值张量
Figure 64128DEST_PATH_IMAGE037
、第二值张量
Figure 438609DEST_PATH_IMAGE038
和第三值张量
Figure 800320DEST_PATH_IMAGE039
进行对应的矩阵相乘,得到第一注意力机制更新后特征
Figure 777503DEST_PATH_IMAGE040
、第二注意力机制更新后特征
Figure 49216DEST_PATH_IMAGE041
和第三注意力机制更新后特征
Figure 453652DEST_PATH_IMAGE042
;注意力机制更新后的特征具有视差的交互信息。
S354:将第一注意力机制更新后特征
Figure 302660DEST_PATH_IMAGE040
、第二注意力机制更新后特征
Figure 958900DEST_PATH_IMAGE041
和第三注意力机制更新后特征
Figure 209753DEST_PATH_IMAGE042
和视差多维度注意力模块中残差块的残差特征在通道维度上进行拼接,并利用卷积层减少第一注意力机制更新后特征
Figure 785091DEST_PATH_IMAGE040
、第二注意力机制更新后特征
Figure 262339DEST_PATH_IMAGE041
和第三注意力机制更新后特征
Figure 581325DEST_PATH_IMAGE042
的通道数,得到视差先验信息的特征表达
Figure 686685DEST_PATH_IMAGE043
进一步地,步骤S352中,依赖关系映射
Figure 573869DEST_PATH_IMAGE044
的计算公式为:
Figure 131889DEST_PATH_IMAGE045
其中,
Figure 520145DEST_PATH_IMAGE034
表示第一依赖关系映射,
Figure 355377DEST_PATH_IMAGE035
表示第二依赖关系映射,
Figure 272518DEST_PATH_IMAGE036
表示第三依赖关系映射,
Figure 848993DEST_PATH_IMAGE046
表示第一查询张量,
Figure 385147DEST_PATH_IMAGE047
表示第二查询张量,
Figure 465099DEST_PATH_IMAGE048
表示第三查询张量,
Figure 818720DEST_PATH_IMAGE017
表示归一化指数函数,
Figure 226698DEST_PATH_IMAGE018
表示矩阵乘法;
步骤S353中,注意力机制更新后特征
Figure 691178DEST_PATH_IMAGE049
的计算公式为:
Figure 625636DEST_PATH_IMAGE050
其中,
Figure 25524DEST_PATH_IMAGE051
表示第一值张量,
Figure 45433DEST_PATH_IMAGE052
表示第二值张量,
Figure 313603DEST_PATH_IMAGE053
表示第三值张量,
Figure 302153DEST_PATH_IMAGE040
表示第一注意力机制更新后特征,
Figure 997576DEST_PATH_IMAGE041
表示第二注意力机制更新后特征,
Figure 504781DEST_PATH_IMAGE042
表示第三注意力机制更新后特征;
步骤S354中,视差先验信息的特征表达
Figure 186429DEST_PATH_IMAGE043
的计算公式为:
Figure 95479DEST_PATH_IMAGE054
其中,
Figure 696225DEST_PATH_IMAGE008
表示自注意力机制中的键张量,
Figure 831671DEST_PATH_IMAGE055
表示特征图在通道维度进行拼接,
Figure 176065DEST_PATH_IMAGE056
表示卷积操作。
本发明的有益效果是:
(1)本发明提出一个通用的视差多维度注意力模块,充分挖掘了不同视点产生的双目图像的视差信息,很好地捕捉了双目视差信息在特征空间的多维度表示问题。视差多维度注意力模块可以直接集成到不同的单张图片超分辨率网络中进行多阶段的特征融合,以更好地模拟交叉视图信息交互。
(2)基于视差多维度注意力模块,本发明还提出多维度自注意力模块,它能够自适应地从单张图像中学习更多有用的内部视点先验信息。
(3)基于视差多维度注意力模块和多维度自注意力模块,本发明还提出一个轻量级的级联注意力双目超分网络,它在模型参数和重建效果上达到很好的平衡。
附图说明
图1为双目图片超分辨率重建方法的流程图;
图2为级联注意力双目超分网络的结构图;
图3为视差多维度注意力模块的结构图;
图4为视差多维度自注意力模块的结构图;
图5为级联注意力块的结构图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
如图1所示,本发明提供了一种基于多维度视差先验的双目图片超分辨率重建方法,包括以下步骤:
S1:将双目相机采集的第一视图和第二视图分别输入至级联注意力双目超分网络的两条分支通道中;其中,级联注意力双目超分网络包括两条对称的分支通道,其分支通道均包括依次连接的卷积层、级联注意力块和上采样层,还包括插入至级联注意力块的视差多维度注意力模块;
S2:利用卷积层将3通道的第一视图和第二视图分别转化为64通道的第三视图和第四视图;
S3:利用级联注意力块依次提取和聚合第三视图和第四视图的特征,并利用视差多维度注意力模块提取视图特征的视差先验信息;
S4:根据视图特征的视差先验信息得到双目相机采集的第一视图和第二视图的交互关系,并将第三视图和第四视图的特征融合至上采样层,利用上采样层对融合后的第三视图和第四视图的特征进行超分辨率重建,得到超分辨率图片。
在本发明实施例中,步骤S1中,级联注意力双目超分网络采用自注意力机制;其中,视觉多维度注意力模块用于输入两个视图,并提取两个视图的视差先验信息;
级联注意力块包括残差网络和视觉多维度自注意力模块;视觉多维度自注意力模块用于输入单一视图,并提取单一视图的视差先验信息。
如图2所示,级联注意力双目超分网络模型是一个高度对称的结构,拥有两个完全一样的分支,它们相互共享网络参数。其中,每一个分支对应于一个视角低分辨率图像的输入。左边和右边视角的低分辨率图像分别同时输入上面和下面部分的分支网络。输入网络后,首先使用3×3卷积网络把3通道的输入图像转化为64通道的特征图。随后,一系列的级联注意力块在主干网络中对特征进一步地提取和聚合。因此,通过两个分支网络,可以获得对应于左视角图像和右视角图像的两个粗糙的特征表达。然后,将多个视差多维度注意力模块插入到主干网络的级联注意力块序列中,以在不同阶段捕捉到左右视图特征的视差先验信息。得益于视觉多维度注意力模块和级联注意力块,帧内视图和帧间交叉视图信息能被网络很好地感知到。一个全局的残差连接把最开始的特征图以相加的方式融合到网络的尾部,这样做可以促进全局信息流动,减轻网络的训练难度。最后,把经过融合后的左右视角特征分别利用上采样模块进行高分辨率重建,就可以得到对用的高分辨率图片。
如图3所示,采取自注意力机制来设计视觉多维度注意力模块,这个转化过程可以被认为,给定一个特定的查询(query),基于键(key)来搜索相应的值(value)。由图3可以看出,左右两个视角的特征首先输入到一个残差块,这个残差块参数共享。然后,特征在分别输入到6个1 × 1卷积层得到6个对应于左右视角的特征
Figure 939621DEST_PATH_IMAGE057
。对于左边视图,
Figure 852214DEST_PATH_IMAGE058
。由此得到从右到左视图的软注意力特征图,通过
Figure 334011DEST_PATH_IMAGE059
就可以得到转化后的特征图。同理,对于右边视图,注意力特征图
Figure 482095DEST_PATH_IMAGE060
Figure 241104DEST_PATH_IMAGE023
下面主要介绍如何在多维度上计算出视差先验信息的。对于上面的
Figure 449231DEST_PATH_IMAGE061
Figure 152745DEST_PATH_IMAGE062
Figure 838941DEST_PATH_IMAGE063
(C、H和W分别代表特征图的通道、高度和宽度的维度信息),传统的自注意力机制仅仅只计算一个维度的交互信息,导致图像处理任务中的特征挖掘不足。在PMDA中,为了解决这一问题,不仅仅挖掘通道维度的信息(H×W),空间维度的交互信息也被挖掘(H×C,W×C)。在图3中,每一个大圆角矩形代表在某一个维度进行自注意力机制的计算。具体地说,给定Query、Key 和Value 张量,三个Query张量分别被重塑为三种不同的形状,即
Figure 452456DEST_PATH_IMAGE024
Figure 831485DEST_PATH_IMAGE025
Figure 22295DEST_PATH_IMAGE026
。为了方便相乘,三个Key张量分别被重塑为三种对应的形状
Figure 653128DEST_PATH_IMAGE027
Figure 245783DEST_PATH_IMAGE028
Figure 795713DEST_PATH_IMAGE029
。这里,相同的下标表示矩阵乘法在对应的三种形状上执行。执行矩阵乘法,Q 1 K 1Q 2 K 2Q 3 K 3。然后,沿批处理列对它们应用softmax操作,以生成一组依赖关系映射A 1A 2A 3。这可以表述为:
Figure 349185DEST_PATH_IMAGE064
。相应地,即
Figure 642763DEST_PATH_IMAGE065
Figure 89925DEST_PATH_IMAGE066
Figure 951702DEST_PATH_IMAGE067
。接下来,为了将得到的注意力图映射组合成相应的特征,在Value值和
Figure 117104DEST_PATH_IMAGE068
之间执行矩阵乘法,为此,三个Value张量分别被重塑为三种对应的形状
Figure 89739DEST_PATH_IMAGE069
Figure 391408DEST_PATH_IMAGE039
AV之间的操作可以表示为
Figure 283140DEST_PATH_IMAGE070
。随后,得到的F 1F 2F 3和残差特征Value在通道维度进行拼接得到新的向量。最后,用1× 1卷积来减少这些级联特征的通道数,得到最终的输出。这个过程可以表示为
Figure 935839DEST_PATH_IMAGE071
。因此,注意力机制的操作是在三个维度空间中进行的W×C、 H×C和H×W这就是为什么这个模块被称为多维的原因。
如图4所示,视觉多维度自注意力模块是基视觉多维度注意力模块的改进。视觉多维度注意力模块的输入是左右两个视图的特征,而视觉多维度自注意力模块的输入仅仅就是单一视图的特征。因此视觉多维度自注意力模块能够捕捉到单一视角的多维度先验信息。
在本发明实施例中,步骤S3包括以下子步骤:
S31:利用级联注意力块依次提取和聚合第三视图的特征和第四视图的特征;
S32:将第三视图的特征和第四视图的特征均依次输入至视差多维度注意力模块中的残差块和卷积层,得到视图特征;
S33:基于视图特征,根据第三视图的特征函数,计算从第四视图到第三视图的第一注意力特征图,并通过第三视图的特征更新函数进行更新,得到第二注意力特征图;
S34:基于视图特征,根据第四视图的特征函数,计算从第三视图到第四视图的第三注意力特征图,并通过第四视图的特征函数更新进行更新,得到第四注意力特征图;
S35:计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息。
在本发明实施例中,步骤S32中,视图特征的表达式为
Figure 446585DEST_PATH_IMAGE001
,其中,
Figure 868339DEST_PATH_IMAGE002
表示自注意力机制中第三视图的值张量,
Figure 71919DEST_PATH_IMAGE003
表示自注意力机制中第三视图的键张量,
Figure 946334DEST_PATH_IMAGE004
表示自注意力机制中第三视图的查询张量,
Figure 650985DEST_PATH_IMAGE005
表示自注意力机制中第四视图的值张量,
Figure 802612DEST_PATH_IMAGE006
表示自注意力机制中第四视图的键张量,
Figure 301726DEST_PATH_IMAGE007
表示自注意力机制中第四视图的查询张量,
Figure 663437DEST_PATH_IMAGE008
表示自注意力机制中的键张量,
Figure 250407DEST_PATH_IMAGE009
表示自注意力机制中的键张量,
Figure 912333DEST_PATH_IMAGE010
表示自注意力机制中的查询张量,
Figure 316769DEST_PATH_IMAGE011
表示第三视图,
Figure 41143DEST_PATH_IMAGE012
表示第四视图;
步骤S33中,第三视图的特征函数
Figure 822017DEST_PATH_IMAGE013
和第三视图的特征更新函数
Figure 72870DEST_PATH_IMAGE014
的表达式分别为:
Figure 523574DEST_PATH_IMAGE015
Figure 125457DEST_PATH_IMAGE016
其中,
Figure 444443DEST_PATH_IMAGE017
表示归一化指数函数,
Figure 690747DEST_PATH_IMAGE018
表示矩阵乘法,
Figure 436986DEST_PATH_IMAGE019
表示矩阵转置;
步骤S34中,第四视图的特征函数
Figure 995007DEST_PATH_IMAGE020
和第四视图的特征更新函数
Figure 993050DEST_PATH_IMAGE021
的表达式分别为:
Figure 218495DEST_PATH_IMAGE022
Figure 135635DEST_PATH_IMAGE023
在本发明实施例中,步骤S35中,计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息的方法相同,均包括以下子步骤:
S351:在通道维度、高度维度和宽度维度上,分别重塑自注意力机制中的查询张量和键张量,得到第一查询张量
Figure 321897DEST_PATH_IMAGE024
、第二查询张量
Figure 248265DEST_PATH_IMAGE025
和第三查询张量
Figure 62637DEST_PATH_IMAGE026
、第一键张量
Figure 291624DEST_PATH_IMAGE027
、第二键张量
Figure 89816DEST_PATH_IMAGE028
和第三键张量
Figure 288716DEST_PATH_IMAGE029
,其中,
Figure 98540DEST_PATH_IMAGE030
表示注意力特征图的通道维度,
Figure 888641DEST_PATH_IMAGE031
表示注意力特征图的高度维度,
Figure 642971DEST_PATH_IMAGE032
表示注意力特征图的宽度维度,
Figure 786507DEST_PATH_IMAGE033
表示矩阵尺度;
S352:对第一查询张量
Figure 841051DEST_PATH_IMAGE024
、第二查询张量
Figure 270895DEST_PATH_IMAGE025
和第三查询张量
Figure 653466DEST_PATH_IMAGE026
与第一键张量
Figure 725327DEST_PATH_IMAGE027
、第二键张量
Figure 368798DEST_PATH_IMAGE028
和第三键张量
Figure 110489DEST_PATH_IMAGE029
依次进行对应的矩阵相乘和归一化操作,得到第一依赖关系映射
Figure 104990DEST_PATH_IMAGE034
、第二依赖关系映射
Figure 714963DEST_PATH_IMAGE035
和第三依赖关系映射
Figure 619465DEST_PATH_IMAGE036
S353:在通道维度、高度维度和宽度维度上重塑自注意力机制中的值张量,得到第一值张量
Figure 391112DEST_PATH_IMAGE037
、第二值张量
Figure 872909DEST_PATH_IMAGE038
和第三值张量
Figure 161939DEST_PATH_IMAGE039
,并将第一依赖关系映射
Figure 780002DEST_PATH_IMAGE034
、第二依赖关系映射
Figure 722551DEST_PATH_IMAGE035
和第三依赖关系映射
Figure 567010DEST_PATH_IMAGE036
分别与第一值张量
Figure 518785DEST_PATH_IMAGE037
、第二值张量
Figure 991355DEST_PATH_IMAGE038
和第三值张量
Figure 511329DEST_PATH_IMAGE039
进行对应的矩阵相乘,得到第一注意力机制更新后特征
Figure 702139DEST_PATH_IMAGE040
、第二注意力机制更新后特征
Figure 192026DEST_PATH_IMAGE041
和第三注意力机制更新后特征
Figure 925627DEST_PATH_IMAGE042
;注意力机制更新后的特征具有视差的交互信息。
S354:将第一注意力机制更新后特征
Figure 475557DEST_PATH_IMAGE040
、第二注意力机制更新后特征
Figure 888084DEST_PATH_IMAGE041
和第三注意力机制更新后特征
Figure 322607DEST_PATH_IMAGE042
和视差多维度注意力模块中残差块的残差特征在通道维度上进行拼接,并利用卷积层减少第一注意力机制更新后特征
Figure 769769DEST_PATH_IMAGE040
、第二注意力机制更新后特征
Figure 631546DEST_PATH_IMAGE041
和第三注意力机制更新后特征
Figure 796948DEST_PATH_IMAGE042
的通道数,得到视差先验信息的特征表达
Figure 628638DEST_PATH_IMAGE043
在本发明实施例中,步骤S352中,依赖关系映射
Figure 930306DEST_PATH_IMAGE044
的计算公式为:
Figure 962984DEST_PATH_IMAGE045
其中,
Figure 350103DEST_PATH_IMAGE034
表示第一依赖关系映射,
Figure 985484DEST_PATH_IMAGE035
表示第二依赖关系映射,
Figure 536465DEST_PATH_IMAGE036
表示第三依赖关系映射,
Figure 599099DEST_PATH_IMAGE046
表示第一查询张量,
Figure 614459DEST_PATH_IMAGE047
表示第二查询张量,
Figure 787951DEST_PATH_IMAGE048
表示第三查询张量,
Figure 329791DEST_PATH_IMAGE017
表示归一化指数函数,
Figure 438693DEST_PATH_IMAGE018
表示矩阵乘法;
步骤S353中,注意力机制更新后特征
Figure 800404DEST_PATH_IMAGE049
的计算公式为:
Figure 43166DEST_PATH_IMAGE050
其中,
Figure 314879DEST_PATH_IMAGE051
表示第一值张量,
Figure 719315DEST_PATH_IMAGE052
表示第二值张量,
Figure 568323DEST_PATH_IMAGE053
表示第三值张量,
Figure 224563DEST_PATH_IMAGE040
表示第一注意力机制更新后特征,
Figure 475416DEST_PATH_IMAGE041
表示第二注意力机制更新后特征,
Figure 316333DEST_PATH_IMAGE042
表示第三注意力机制更新后特征;
步骤S354中,视差先验信息的特征表达
Figure 262423DEST_PATH_IMAGE043
的计算公式为:
Figure 846988DEST_PATH_IMAGE054
其中,
Figure 952348DEST_PATH_IMAGE008
表示自注意力机制中的键张量,
Figure 573953DEST_PATH_IMAGE055
表示特征图在通道维度进行拼接,
Figure 663132DEST_PATH_IMAGE056
表示卷积操作。
如图5所示,级联注意力块是残差网络和视觉多维度自注意力模块的结合。具体来说,级联注意力块直接将输入的特征图分解为4个子集,分别为x1、x2、x3和x4,每个子集的通道数为原来的四分之一,并使用多个并行但相连的卷积层来处理这些特征映射。最后,将这些子集聚合在一起,用一个1× 1卷积来聚合这些特征。提出的视觉多维度自注意力模块插在这个1× 1卷积层之后,四个子集对应的输出分别为y1、y2、y3和y4。由于残差网络具有较大的感受野,同时保持较小的通道数量,信息传递给SMDA后就可以用较少的参数获得更详细、更精确的特征表达。
下面采用平均绝对误差Mean Absolute Error (MAE)来训练网络。在级联注意力双目超分网络中包含10个级联注意力块。峰值信噪比(PSNR)和结构相似性(SSIM)被用来测试模型的性能,值越大代表恢复出的图像效果越好。表1为级联注意力双目超分网络中不同维度学习的效果。
表1
Figure 520229DEST_PATH_IMAGE072
由于视差多维度注意力模块包含三个维度的学习策略,因此观察不同维度对最终双目重建效果的影响至关重要。如表1所示,展示了维度的选择如何影响最终结果,其中W×C、 H×C和H×W表示视差多维度注意力模块中在哪个维度上执行注意力特征图的计算。表1的第一行代表的方法没有使用视差多维度注意力模块,可以看出,在三个数据集上的效果都比较差。从表1中可以观察出,就单一维度而言,与H×C和H×W相比,W×C这个维度上的注意力机制能更好地改善重建效果。另一方面,H×C和H×W这两个维度对最终结果的影响很小。这一现象也揭示了以往的方法只关注于构建W×C这个维度的注意模块。此外,完整的模型在三个维度之间都建立了相互依赖关系,重建效果在三个数据集上都取得了显著的改进。这一结果支持本发明的理论,即具有所有三维特征(表示为完整模型)的视差多维度注意力模块优于其他普通的版本。完整的模块表现出极强的健壮性,在这三个基准数据集中几乎实现了所有最佳的重建性能。
表2
Figure 621041DEST_PATH_IMAGE073
为不同的单张超分模型结合所提出的视差多维度注意力模块对比表。
本发明提出的PMDA(视差多维度注意力模块)是一个通用模块,它可以直接集成到现有的单张超分网络中帮助其应用于双目超分任务。在表2中,IMDN方法来自论文“Z. Hui,X. Gao, Y. Yang, and X. Wang, Lightweight image super-resolution withinformation multi-distillation network, in ACM MM, 2019, pp. 2024–2032.”,SRResNet方法来自论文“C. Ledig, L. Theis, F. Huszar, J. Caballero, A.Cunningham, A. Acosta,A. P. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi,Photo-realistic single image super-resolution using a generative adversarialnetwork, in CVPR, 2017, pp. 105–114.”,RCAN方法来自论文“Y. Zhang, K. Li, K.Li, L. Wang, B. Zhong, and Y. Fu, Image super-resolution using very deepresidual channel attention networks, in ECCV, 2018, pp. 294–310”。这三个方法都是专门针对单张超分辨模型的,并且IMDN是非常轻量级的模型,SRResNet的模型大小适中,RCAN是一个参数量巨大的模型,但重建效果也是目前最好的。如果没有这个PMDA模块,仅仅只用原始的单张超分模型。结果展示在表2中,可以很容易地发现,在PMDA模块的帮助下,单张超分辨模型在双目超分任务上取得巨大的进步。并且,对不同参数量大小的模型都有帮助。这是因为单张超分辨模型不能利用来自另一个视图的交叉视图信息,而PMDA可以弥补这一不足。
不同模型的定量对比结果列于表3。结果表明,在视差多维度注意力模块的帮助下,本发明提出的级联注意力双目超分网络在三个数据集上几乎都能获得性能最好的,且参数较少。表3中,Bicubic代表双三次插值法,PASSRnet方法来自“L. Wang, Y. Wang, Z.Liang, Z. Lin, J. Yang, W. An, and Y. Guo, Learning parallax attention forstereo image super-resolution, in IEEE, CVPR 2019, pp. 12 250–12 259”,SAN方法来自“T. Dai, J. Cai, Y. Zhang, S. Xia, and L. Zhang, Second-order attentionnetwork for single image super-resolution, in CVPR 2019, pp. 11 065–11 074”,SAM方法来自“X. Ying, Y. Wang, L. Wang, W. Sheng, W.
表3
Figure 538181DEST_PATH_IMAGE074
An, and Y. Guo, A stereo attention module for stereo image super-resolution, IEEE Signal Process. Letter, vol. 27, pp. 496–500, 2020”。/ 符号的左右两个数值分别代表PSNR和SSIM两个参考指标。PASSRnet方法是专门为双目超分设计的方法,可以看出级联注意力双目超分网络在各个方面都领先与它。此外,与本发明的方法类似,SAM也是一个嵌入单张超分辨率模型中的通用立体注意力模块。对比SRResNet+SAM和SRResNet+PMDA可以发现,PMDA比SAM具有更强的双目视觉交叉信息利用能力,带来更大的重建效果增益。级联注意力双目超分网络在模型大小,运行时间开销上都取得了极好的效果,证明了该模型是一个轻量级的模型。对比实验的结果证明,级联注意力双目超分网络(PASR模型)能在模型参数和性能之间实现了良好的平衡。
在本发明中,介绍了一个视差多维度注意力模块(PMDA),这是个通用的模块,用于探索双目输入图像对之间的内在相关性。具体地说,所提出的PMDA模块可以捕获通道或空间位置之间的多维度依赖关系。得益于此,现有的单张图像超分方法可以通过直接在网络中插入一个PMDA来适应于双目超分任务。通过这样做,单张视图内部和两张视图之间的信息就能被联合挖掘出来,进而提高最终图像超分辨率的性能。实验结果表明,本发明提出的方法在重建效果和模型复杂度上取得了很好的效果,在现有的单张超分方法中加入PMDA后,双目超分重建的性能有了显著的提高,但只增加了有限的复杂度。
本发明的工作原理及过程为:本发明提出一个新颖的视差多维度注意力模块(Parallax Multi-Dimensional Attention module,PMDA),它可以准确地捕捉到两个不同视角图片的多维度视差信息。具体来说,除了常用的沿着通道维度的依赖关系,PMDA还聚合了空间维度(高度和宽度)之间的交互特征。尽管PMDA能捕获立体图像的两个视图之间的交叉视图信息。然而,也应该考虑图像帧内的有用特征。基于PMDA,本发明还提出了视觉多维度自注意力模块(Self Multi -Dimensional Attention,SMDA),它能在单张图像内部捕捉多维度的信息。得益于PMDA和SMDA,内部视图和帧间的视差信息能够被很好地被生成,这些信息被送到网络的后部分来辅助最终高清图像的复原。由于最近的单张图片超分辨率网络大量使用级联模块,PMDA和SMDA可以很容易地插入到这些网络中以挖掘交叉视图信息,帮助单张图片超分辨率网络扩展到双目超分辨率任务来。
本发明的有益效果为:
(1)本发明提出一个通用的视差多维度注意力模块,充分挖掘了不同视点产生的双目图像的视差信息,很好地捕捉了双目视差信息在特征空间的多维度表示问题。视差多维度注意力模块可以直接集成到不同的单张图片超分辨率网络中进行多阶段的特征融合,以更好地模拟交叉视图信息交互。
(2)基于视差多维度注意力模块,本发明还提出视觉多维度自注意力模块,它能够自适应地从单张图像中学习更多有用的内部视点先验信息。
(3)基于视差多维度注意力模块和视觉多维度自注意力模块,本发明还提出一个轻量级的级联注意力双目超分网络,它在模型参数和重建效果上达到很好的平衡。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (6)

1.一种基于多维度视差先验的双目图片超分辨率重建方法,其特征在于,包括以下步骤:
S1:将双目相机采集的第一视图和第二视图分别输入至级联注意力双目超分网络的两条分支通道中;其中,所述级联注意力双目超分网络包括两条对称的分支通道,其分支通道均包括依次连接的卷积层、级联注意力块和上采样层,还包括插入至级联注意力块的视差多维度注意力模块(Parallax Multi-Dimensional Attention module,PMDA);
S2:利用卷积层将3通道的第一视图和第二视图分别转化为64通道的第三视图和第四视图;
S3:利用级联注意力块依次提取和聚合第三视图和第四视图的特征,并利用视差多维度注意力模块提取视图特征的视差先验信息;
S4:根据视图特征的视差先验信息得到双目相机采集的第一视图和第二视图的交互关系,并将第三视图和第四视图的特征融合至上采样层,利用上采样层对融合后的第三视图和第四视图的特征进行超分辨率重建,得到超分辨率图片。
2.根据权利要求1所述的基于多维度视差先验的双目图片超分辨率重建方法,其特征在于,所述步骤S1中,所述级联注意力双目超分网络采用自注意力机制;其中,级联注意力双目超分网络中的视觉多维度注意力模块用于输入两个视图,并提取两个视图的视差先验信息;
所述级联注意力块包括残差网络和视觉多维度自注意力模块;所述视觉多维度自注意力模块用于输入单一视图,并提取单一视图的视差先验信息。
3.根据权利要求1所述的基于多维度视差先验的双目图片超分辨率重建方法,其特征在于,所述步骤S3包括以下子步骤:
S31:利用级联注意力块依次提取和聚合第三视图的特征和第四视图的特征;
S32:将第三视图的特征和第四视图的特征均依次输入至视差多维度注意力模块中的残差块和卷积层,得到视图特征;
S33:基于视图特征,根据第三视图的特征函数,计算从第四视图到第三视图的第一注意力特征图,并通过第三视图的特征更新函数进行更新,得到第二注意力特征图;
S34:基于视图特征,根据第四视图的特征函数,计算从第三视图到第四视图的第三注意力特征图,并通过第四视图的特征函数更新进行更新,得到第四注意力特征图;
S35:计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息。
4.根据权利要求3所述的基于多维度视差先验的双目图片超分辨率重建方法,其特征在于,所述步骤S32中,视图特征的表达式为
Figure 423630DEST_PATH_IMAGE001
,其中,
Figure 606350DEST_PATH_IMAGE002
表示自注意力机制中第三视图的值张量,
Figure 310388DEST_PATH_IMAGE003
表示自注意力机制中第三视图的键张量,
Figure 236756DEST_PATH_IMAGE004
表示自注意力机制中第三视图的查询张量,
Figure 926494DEST_PATH_IMAGE005
表示自注意力机制中第四视图的值张量,
Figure 545694DEST_PATH_IMAGE006
表示自注意力机制中第四视图的键张量,
Figure 468520DEST_PATH_IMAGE007
表示自注意力机制中第四视图的查询张量,
Figure 198578DEST_PATH_IMAGE008
表示自注意力机制中的键张量,
Figure 8403DEST_PATH_IMAGE009
表示自注意力机制中的键张量,
Figure 798504DEST_PATH_IMAGE010
表示自注意力机制中的查询张量,
Figure 818413DEST_PATH_IMAGE011
表示第三视图,
Figure 211217DEST_PATH_IMAGE012
表示第四视图;
所述步骤S33中,第三视图的特征函数
Figure 265760DEST_PATH_IMAGE013
和第三视图的特征更新函数
Figure 102129DEST_PATH_IMAGE014
的表达式分别为:
Figure 609334DEST_PATH_IMAGE015
Figure 540250DEST_PATH_IMAGE016
其中,
Figure 714879DEST_PATH_IMAGE017
表示归一化指数函数,
Figure 456570DEST_PATH_IMAGE018
表示矩阵乘法,
Figure 716650DEST_PATH_IMAGE019
表示矩阵转置;
所述步骤S34中,第四视图的特征函数
Figure 61044DEST_PATH_IMAGE020
和第四视图的特征更新函数
Figure 229462DEST_PATH_IMAGE021
的表达式分别为:
Figure 266688DEST_PATH_IMAGE022
Figure 889431DEST_PATH_IMAGE023
5.根据权利要求3所述的基于多维度视差先验的双目图片超分辨率重建方法,其特征在于,所述步骤S35中,计算第二注意力特征图和第四注意力特征图在通道维度、高度维度和宽度维度上的视差先验信息的方法相同,均包括以下子步骤:
S351:在通道维度、高度维度和宽度维度上,分别重塑自注意力机制中的查询张量和键张量,得到第一查询张量
Figure 37515DEST_PATH_IMAGE024
、第二查询张量
Figure 45791DEST_PATH_IMAGE025
和第三查询张量
Figure 519498DEST_PATH_IMAGE026
、第一键张量
Figure 363957DEST_PATH_IMAGE027
、第二键张量
Figure 315733DEST_PATH_IMAGE028
和第三键张量
Figure 53882DEST_PATH_IMAGE029
,其中,
Figure 557544DEST_PATH_IMAGE030
表示注意力特征图的通道维度,
Figure 13933DEST_PATH_IMAGE031
表示注意力特征图的高度维度,
Figure 644766DEST_PATH_IMAGE032
表示注意力特征图的宽度维度,
Figure 503000DEST_PATH_IMAGE033
表示矩阵尺度;
S352:对第一查询张量
Figure 177564DEST_PATH_IMAGE024
、第二查询张量
Figure 121249DEST_PATH_IMAGE025
和第三查询张量
Figure 290194DEST_PATH_IMAGE026
与第一键张量
Figure 737356DEST_PATH_IMAGE027
、第二键张量
Figure 723766DEST_PATH_IMAGE028
和第三键张量
Figure 282311DEST_PATH_IMAGE029
依次进行对应的矩阵相乘和归一化操作,得到第一依赖关系映射
Figure 379580DEST_PATH_IMAGE034
、第二依赖关系映射
Figure 822194DEST_PATH_IMAGE035
和第三依赖关系映射
Figure 979506DEST_PATH_IMAGE036
S353:在通道维度、高度维度和宽度维度上重塑自注意力机制中的值张量,得到第一值张量
Figure 756838DEST_PATH_IMAGE037
、第二值张量
Figure 392218DEST_PATH_IMAGE038
和第三值张量
Figure 954918DEST_PATH_IMAGE039
,并将第一依赖关系映射
Figure 17552DEST_PATH_IMAGE034
、第二依赖关系映射
Figure 157546DEST_PATH_IMAGE035
和第三依赖关系映射
Figure 986831DEST_PATH_IMAGE036
分别与第一值张量
Figure 528670DEST_PATH_IMAGE037
、第二值张量
Figure 637572DEST_PATH_IMAGE038
和第三值张量
Figure 264862DEST_PATH_IMAGE039
进行对应的矩阵相乘,得到第一注意力机制更新后特征
Figure 366679DEST_PATH_IMAGE040
、第二注意力机制更新后特征
Figure 28605DEST_PATH_IMAGE041
和第三注意力机制更新后特征
Figure 433041DEST_PATH_IMAGE042
S354:将第一注意力机制更新后特征
Figure 422994DEST_PATH_IMAGE040
、第二注意力机制更新后特征
Figure 203868DEST_PATH_IMAGE041
和第三注意力机制更新后特征
Figure 582285DEST_PATH_IMAGE042
和视差多维度注意力模块中残差块的残差特征在通道维度上进行拼接,并利用卷积层减少第一注意力机制更新后特征
Figure 423202DEST_PATH_IMAGE040
、第二注意力机制更新后特征
Figure 900451DEST_PATH_IMAGE041
和第三注意力机制更新后特征
Figure 219436DEST_PATH_IMAGE042
的通道数,得到视差先验信息的特征表达
Figure 590375DEST_PATH_IMAGE043
6.根据权利要求5所述的基于多维度视差先验的双目图片超分辨率重建方法,其特征在于,所述步骤S352中,依赖关系映射
Figure 726827DEST_PATH_IMAGE044
的计算公式为:
Figure 550427DEST_PATH_IMAGE045
其中,
Figure 814049DEST_PATH_IMAGE034
表示第一依赖关系映射,
Figure 773915DEST_PATH_IMAGE035
表示第二依赖关系映射,
Figure 81268DEST_PATH_IMAGE036
表示第三依赖关系映射,
Figure 657743DEST_PATH_IMAGE046
表示第一查询张量,
Figure 459477DEST_PATH_IMAGE047
表示第二查询张量,
Figure 539428DEST_PATH_IMAGE048
表示第三查询张量,
Figure 893049DEST_PATH_IMAGE017
表示归一化指数函数,
Figure 815875DEST_PATH_IMAGE018
表示矩阵乘法;
所述步骤S353中,注意力机制更新后特征
Figure 280354DEST_PATH_IMAGE049
的计算公式为:
Figure 90178DEST_PATH_IMAGE050
其中,
Figure 880280DEST_PATH_IMAGE051
表示第一值张量,
Figure 27752DEST_PATH_IMAGE052
表示第二值张量,
Figure 561501DEST_PATH_IMAGE053
表示第三值张量,
Figure 491411DEST_PATH_IMAGE040
表示第一注意力机制更新后特征,
Figure 921255DEST_PATH_IMAGE041
表示第二注意力机制更新后特征,
Figure 694039DEST_PATH_IMAGE042
表示第三注意力机制更新后特征;
所述步骤S354中,视差先验信息的特征表达
Figure 890534DEST_PATH_IMAGE043
的计算公式为:
Figure 799585DEST_PATH_IMAGE054
其中,
Figure 806855DEST_PATH_IMAGE008
表示自注意力机制中的键张量,
Figure 535776DEST_PATH_IMAGE055
表示特征图在通道维度进行拼接,
Figure 535962DEST_PATH_IMAGE056
表示卷积操作。
CN202110934301.1A 2021-08-16 2021-08-16 一种基于多维度视差先验的双目图片超分辨率重建方法 Active CN113393382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110934301.1A CN113393382B (zh) 2021-08-16 2021-08-16 一种基于多维度视差先验的双目图片超分辨率重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110934301.1A CN113393382B (zh) 2021-08-16 2021-08-16 一种基于多维度视差先验的双目图片超分辨率重建方法

Publications (2)

Publication Number Publication Date
CN113393382A true CN113393382A (zh) 2021-09-14
CN113393382B CN113393382B (zh) 2021-11-09

Family

ID=77622570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110934301.1A Active CN113393382B (zh) 2021-08-16 2021-08-16 一种基于多维度视差先验的双目图片超分辨率重建方法

Country Status (1)

Country Link
CN (1) CN113393382B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989096A (zh) * 2021-12-27 2022-01-28 山东大学 基于深度学习和注意力网络的鲁棒图像水印方法及系统
CN117409331A (zh) * 2023-12-15 2024-01-16 四川泓宝润业工程技术有限公司 一种油气管线周边环境隐患检测方法、装置及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945220A (zh) * 2017-11-30 2018-04-20 华中科技大学 一种基于双目视觉的重建方法
CN109859106A (zh) * 2019-01-28 2019-06-07 桂林电子科技大学 一种基于自注意力的高阶融合网络的图像超分辨率重建方法
CN110070489A (zh) * 2019-04-30 2019-07-30 中国人民解放军国防科技大学 一种基于视差注意力机制的双目图像超分辨方法
CN110930309A (zh) * 2019-11-20 2020-03-27 武汉工程大学 基于多视图纹理学习的人脸超分辨率方法及装置
CN110942441A (zh) * 2018-09-25 2020-03-31 英特尔公司 具有流估计和图像超分辨率的多相机阵列图像的视图插补
AU2020100200A4 (en) * 2020-02-08 2020-06-11 Huang, Shuying DR Content-guide Residual Network for Image Super-Resolution
CN111445390A (zh) * 2020-02-28 2020-07-24 天津大学 基于宽残差注意力的三维医学图像超分辨率重建方法
CN111583107A (zh) * 2020-04-03 2020-08-25 长沙理工大学 一种基于注意力机制的图像超分辨率重建方法和系统
CN111626927A (zh) * 2020-04-09 2020-09-04 上海交通大学 采用视差约束的双目图像超分辨率方法、系统及装置
CN113256496A (zh) * 2021-06-11 2021-08-13 四川省人工智能研究院(宜宾) 一种轻量级渐进式特征融合的图像超分辨率系统及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945220A (zh) * 2017-11-30 2018-04-20 华中科技大学 一种基于双目视觉的重建方法
CN110942441A (zh) * 2018-09-25 2020-03-31 英特尔公司 具有流估计和图像超分辨率的多相机阵列图像的视图插补
CN109859106A (zh) * 2019-01-28 2019-06-07 桂林电子科技大学 一种基于自注意力的高阶融合网络的图像超分辨率重建方法
CN110070489A (zh) * 2019-04-30 2019-07-30 中国人民解放军国防科技大学 一种基于视差注意力机制的双目图像超分辨方法
CN110930309A (zh) * 2019-11-20 2020-03-27 武汉工程大学 基于多视图纹理学习的人脸超分辨率方法及装置
AU2020100200A4 (en) * 2020-02-08 2020-06-11 Huang, Shuying DR Content-guide Residual Network for Image Super-Resolution
CN111445390A (zh) * 2020-02-28 2020-07-24 天津大学 基于宽残差注意力的三维医学图像超分辨率重建方法
CN111583107A (zh) * 2020-04-03 2020-08-25 长沙理工大学 一种基于注意力机制的图像超分辨率重建方法和系统
CN111626927A (zh) * 2020-04-09 2020-09-04 上海交通大学 采用视差约束的双目图像超分辨率方法、系统及装置
CN113256496A (zh) * 2021-06-11 2021-08-13 四川省人工智能研究院(宜宾) 一种轻量级渐进式特征融合的图像超分辨率系统及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DONGYANG ZHANG 等: "Remote Sensing Image Super-Resolution via Mixed High-Order Attention Network", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》 *
LONGGUANG WANG 等: "Learning Parallax Attention for Stereo Image Super-Resolution", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
YINGQIAN WANG 等: "Symmetric Parallax Attention for Stereo Image Super-Resolution", 《HTTPS://ARXIV.ORG/ABS/2011.03802V2》 *
雷鹏程 等: "分层特征融合注意力网络图像超分辨率重建", 《中国图象图形学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989096A (zh) * 2021-12-27 2022-01-28 山东大学 基于深度学习和注意力网络的鲁棒图像水印方法及系统
CN117409331A (zh) * 2023-12-15 2024-01-16 四川泓宝润业工程技术有限公司 一种油气管线周边环境隐患检测方法、装置及存储介质
CN117409331B (zh) * 2023-12-15 2024-03-15 四川泓宝润业工程技术有限公司 一种油气管线周边环境隐患检测方法、装置及存储介质

Also Published As

Publication number Publication date
CN113393382B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN113393382B (zh) 一种基于多维度视差先验的双目图片超分辨率重建方法
CN102254348B (zh) 一种基于自适应视差估计的虚拟视点绘制方法
CN102970529B (zh) 一种基于对象的多视点视频分形编码压缩与解压缩方法
CN112767253B (zh) 一种多尺度特征融合的双目图像超分辨率重建方法
CN102291579B (zh) 一种快速的多目立体视频分形压缩与解压缩方法
CN103179424B (zh) 立体图像合成方法及装置
US20170064279A1 (en) Multi-view 3d video method and system
CN112019828B (zh) 一种视频的2d到3d的转换方法
CN113538243B (zh) 基于多视差注意力模块组合的超分辨图像重建方法
CN110580720A (zh) 一种基于全景图的相机位姿估计方法
CN113850718A (zh) 一种基于帧间特征对齐的视频同步时空超分方法
CN116668738A (zh) 一种视频时空超分辨率重构方法、装置及存储介质
Conde et al. Real-time 4k super-resolution of compressed AVIF images. AIS 2024 challenge survey
Jammal et al. Multiview video quality enhancement without depth information
CN102263953B (zh) 一种基于对象的快速多目立体视频分形压缩与解压缩方法
CN102263952B (zh) 一种基于对象的快速双目立体视频分形压缩与解压缩方法
CN114881858A (zh) 基于多注意力机制融合的轻量级双目图像超分辨率方法
CN104994365B (zh) 一种获取非关键帧深度图像的方法以及2d视频立体化方法
Jin et al. Jointly texture enhanced and stereo captured network for stereo image super-resolution
Zhang et al. As-deformable-as-possible single-image-based view synthesis without depth prior
Ma et al. Enhanced back projection network based stereo image super-resolution considering parallax attention
Liu et al. Multi-Scale Visual Perception Based Progressive Feature Interaction Network for Stereo Image Super-Resolution
CN107770511A (zh) 一种多视点视频的编解码方法、装置和相关设备
Qiu et al. Sc-nafssr: Perceptual-oriented stereo image super-resolution using stereo consistency guided nafssr
Liu et al. Coarse-to-Fine Cross-View Interaction Based Accurate Stereo Image Super-Resolution Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant