CN116402692B - 基于非对称交叉注意力的深度图超分辨率重建方法与系统 - Google Patents
基于非对称交叉注意力的深度图超分辨率重建方法与系统 Download PDFInfo
- Publication number
- CN116402692B CN116402692B CN202310666520.5A CN202310666520A CN116402692B CN 116402692 B CN116402692 B CN 116402692B CN 202310666520 A CN202310666520 A CN 202310666520A CN 116402692 B CN116402692 B CN 116402692B
- Authority
- CN
- China
- Prior art keywords
- depth
- image
- resolution
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000005070 sampling Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000007175 bidirectional communication Effects 0.000 claims description 6
- 238000007670 refining Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000003491 array Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于非对称交叉注意力的深度图超分辨率重建方法与系统,包括:给定输入数据,提取引导图像和深度图像的浅层特征,并进行深度细化得到引导特征和深度特征;利用非对称交叉注意力域将引导特征的像素块和深度特征的像素块进行迭代融合的方式对引导特征和深度特征进行更新,经过上采样,得到第一最终特征和第二最终特征,并进行拼接融合特征,采用卷积,得到第三深度残差图;将低分辨率深度图进行双三次插值,再与将第三深度残差图相加,得到最终的深度超分辨率图像。本发明采用非对称交叉注意力融合引导特征与深度特征,将引导单目估计解与引导深度超分辨率解相结合,与现有技术相比,均达到了主观评价和客观评价的最好效果。
Description
技术领域
本发明涉及计算机图像处理技术领域,特别涉及一种基于非对称交叉注意力的深度图超分辨率重建方法与系统。
背景技术
深度图是对已配准的纹理图像的补充,用于记录真实场景的几何形状,与纹理图像的经典单幅图像超分辨率相比,单幅深度图超分辨率表现出两个不同之处。一是所需的上采样规模总是大于8倍。相比之下,纹理图像超分辨率的范围主要在2倍到4倍之间。另一个是深度图不用于直接观看,而是被用于恢复那些不适合生成模型的场景几何,例如生成对抗网络。充分的研究表明,在细粒度细节和微小结构失真或消失的大比例尺情况下,单深度图超分辨率不能表现出鲁棒性。为了提高大尺度下的性能,引导深度图超分辨率中显式地引入了配准的高分辨率纹理图像作为引导。而传统模型多采用手工边缘共现和浅学习的方法进行引导,如稀疏编码。目前来说,最先进的方法是基于卷积神经网络(CNN)。通过分层特征学习,基于CNN的深度模型在性能上与传统模型有明显的差距。
然而,CNN结构存在两个缺陷,限制了模型的泛化。首先,卷积层作为核心单元,专注于局部特征提取。为了提高训练效率,CNN模型总是通过堆叠3 × 3的卷积层来增加感受野。然而,最近有研究表明感受野的有效增长率低于预期。其次,卷积层的参数是与输入无关的,在测试阶段是固定的。针对这一问题,提出了信道注意、空间注意、动态卷积等方法。但是由于额外的复杂性负担,这些“后处理”层很少引入来辅助卷积层。
此外,当前最先进的神经网络通常由引导选择和深度重建两个分支组成。这些分支通过单向融合或双向融合进行交流。但是,只对深度图重构分支提供了监督,而没有引导选择。因此,这种设计不能保证减轻传统模型中广泛研究的域偏差产生的伪影,如纹理复制、边缘模糊。此外SOTA方法的另一个缺陷是对具有相同空间分辨率和通道数的深度图特征和引导特征进行了对称融合。而由于引导特征是高分辨率的,强行约束分辨率和通道数对引导特征的提取和选择是次优的。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种基于非对称交叉注意力的深度图超分辨率重建方法与系统,以解决上述技术问题。
本发明提供了一种基于非对称交叉注意力的深度图超分辨率重建方法,所述方法包括如下步骤:
步骤1、给定输入数据,输入数据包括低分辨率深度图以及与所述低分辨率深度图相对应的高分辨率彩色图像,以所述高分辨率彩色图像为引导图像,以所述低分辨率深度图为深度图像;
步骤2、提取引导图像和深度图像的浅层特征,并进行深度细化以得到引导特征和深度特征;
步骤3、利用非对称交叉注意力域,将引导特征的像素块和深度特征的像素块进行双向交流,以交替迭代融合的方式对引导特征和深度特征进行更新,再经过上采样操作以逐步提高引导特征和深度特征的分辨率,并对应得到第一最终特征与第二最终特征;
步骤4、将第一最终特征与第二最终特征进行特征的拼接融合,在融合完成后进行卷积操作以得到第三深度残差图;
步骤5、将低分辨率深度图进行双三次插值以得到上采样深度图,将所述第三深度残差图与所述上采样深度图进行叠加以得到最终的深度超分辨率图像。
一种基于非对称交叉注意力的深度图超分辨率重建系统,其特征在于,所述系统包括:
引导特征提取模块,用于提取引导图像的浅层特征;
引导细化模块,用于深度细化浅层特征以得到引导特征;
深度估计模块,用于上采样操作以提高引导特征的分辨率,得到第一最终特征;
深度特征提取模块,用于提取深度图像的浅层特征;
深度细化模块,用于深度细化浅层特征以得到深度特征;
图像重建模块,用于上采样操作以逐步提高深度特征的分辨率,得到第二最终特征;
非对称交叉注意力模块,利用非对称交叉注意力域,用于引导特征的像素块和深度特征的像素块进行双向交流,以交替迭代融合的方式对引导特征和深度特征进行更新;
注意力融合模块,用于将第一最终特征与第二最终特征进行特征的拼接融合,在融合完成后进行卷积操作以得到第三深度残差图,将低分辨率深度图进行双三次插值以得到上采样深度图,将所述第三深度残差图与所述上采样深度图进行叠加以得到最终的深度超分辨率图像。
附图说明
图1为本发明提出的基于非对称交叉注意力的深度图超分辨率重建方法的流程图。
图2为本发明剔除基于非对称交叉注意力的深度图超分辨率重建系统框架图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。
请参阅图1,本发明实施例提供了一种基于非对称交叉注意力的深度图超分辨率重建方法,所述方法包括如下步骤:
步骤1、给定输入数据,输入数据包括低分辨率深度图以及与所述低分辨率深度图相对应的高分辨率彩色图像,以所述高分辨率彩色图像为引导图像,以所述低分辨率深度图为深度图像;
步骤2、提取引导图像和深度图像的浅层特征,并进行深度细化以得到引导特征和深度特征;
进一步的,在所述步骤2中,提取引导图像的浅层特征的方法具体包括:
先将引导图像通过三个卷积层进行卷积提取,以得到通道数为64的引导图像的浅层特征;其中,三个卷积层的核大小分别、/>和/>;
再将浅层特征利用下采样块进行2倍空间下采样,并进行2倍通道维数扩展,以得到通道数为128的引导图像的浅层特征;其中,下采样块包括Swin Transformer对、PixelUnshuffle、层归一化和无偏置的/>卷积。
在所述步骤2中,深度图像的浅层特征的提取的方法具体包括:
将深度图像通过三个卷积层进行卷积提取,以得到通道数为64的深度图像的浅层特征,三个卷积层的分别为/>、/>、/>。
进一步的,在所述步骤2中,浅层特征进行深度细化时,基于/>对SwinTransformer进行深度细化以输出引导特征/>;
浅层特征进行深度细化时,基于/>对Swin Transformer进行深度细化以输出深度特征/>。
步骤3、利用非对称交叉注意力域,将引导特征的像素块和深度特征的像素块进行双向交流,以交替迭代融合的方式对引导特征和深度特征进行更新,再经过上采样操作以逐步提高引导特征和深度特征的分辨率,并对应得到第一最终特征与第二最终特征;其中,上采样采用上采样块,上采样块包括卷积层和Pixel Shuffle。
进一步的,在所述步骤3中,以交替迭代融合的方式对引导特征和深度特征进行更新得到第一最终特征和第二最终特征的方法具体包括如下步骤:
步骤3.1、以全局注意力作为注意力域;
步骤3.2、设交叉注意力的归一化特征对为;
步骤3.3、从第一个元素获得查询,从第二个元素推导键和值,以分别得到查询、键/>和值/>;
步骤3.4、将查询、键和值嵌入导多头自注意力的每个头中,再进行上采样以逐步提高引导特征和深度特征的分辨率,从而得到第一最终特征和第二最终特征/>。
嵌入导多头自注意力的每个头中的表达式为:
;
其中,、/>和/>表示深度卷积层和点卷积层依照顺序组合形成卷积层的参数;
交叉注意力是由/>,/>和/>形状的转置/>,/>,/>计算所得,具体表达式为:
;
其中,是/>卷积层,/>是一个可学习的缩放参数,用于控制点积的大小。由于引导特征与深度特征之间的通道不一致,将注意力内积在空间维度/>上计算,而不是通道维度/>上。由于注意力图/>的形状为/>,远小于标准的全局注意力的/>,因此不需要进行窗口划分,增加了感受野。
步骤4、将第一最终特征与第二最终特征进行特征的拼接融合,在融合完成后进行卷积操作以得到第三深度残差图;
步骤5、将低分辨率深度图进行双三次插值以得到上采样深度图,将所述第三深度残差图与所述上采样深度图进行叠加以得到最终的深度超分辨率图像。
进一步的,在执行上述步骤1至步骤5中,对应的训练方法包括如下训练步骤:
以训练数据作为输入数据重复步骤1至步骤5,以得到第一最终特征、第二最终特征和最终的深度超分辨率图像,将第一最终特征和第二最终特征分别进行卷积操作以得到第一深度残差图和第二深度残差图;
将第一深度残差图与第二深度残差图均分别与上采样深度图进行叠加,以分别得到第一深度超分图和第二深度超分图;
分别计算第一深度超分图、第二深度超分图以及最终的深度超分辨率图像与深度高分辨率原始图像之间的残差,根据残差设计得到对应的损失函数,通过不断迭代优化模型的可学习参数计算得到最小损失,损失函数表达式为:
;
其中,表示第/>个损失函数,/>表示第/>个残差,/>表示第一深度超分图、第二深度超分图或最终的深度超分辨率图像中的其中一个,/>表示深度高分辨率原始图像;
根据不同的损失函数得到总损失函数,总损失函数表达式为:
;
其中,表示总损失函数,/>和/>均为超参数,/>设置为/> ,/>设置为/>,/> 为训练图像的数量;
可学习参数之间存在如下关系式:
;
其中,表示为可学习参数,/>表示高分辨率图像,/>表示可学习参数与图像之间构建的模型关系。
进一步的,训练数据的构建方法具体包括如下步骤:
步骤6.1.1、获取高分辨率图像数据集,高分辨率图像数据集包括高分辨率深度真实图像与高分辨率彩色真实引导图像,将高分辨率图像数据集划分成训练集、验证集和测试集;
步骤6.1.2、将高分辨率图像数据集重叠裁剪为成对像素重叠的图像块,生成成对的高分辨率引导图像和高分辨率深度真实图像,并通过随机翻转和旋转进行数据增强;
步骤6.1.3、将高分辨率深度真实图像通过双三次插值和高斯噪声生成对应的低分辨率图像。
请参阅图2,本发明实施例还提供了一种基于非对称交叉注意力的深度图超分辨率重建系统,其中,所述系统包括:
引导特征提取模块,用于提取引导图像的浅层特征;
引导细化模块,用于深度细化浅层特征以得到引导特征;
深度估计模块,用于上采样操作以提高引导特征的分辨率,得到第一最终特征;
深度特征提取模块,用于提取深度图像的浅层特征;
深度细化模块,用于深度细化浅层特征以得到深度特征;
图像重建模块,用于上采样操作以逐步提高深度特征的分辨率,得到第二最终特征;
非对称交叉注意力模块,利用非对称交叉注意力域,用于引导特征的像素块和深度特征的像素块进行双向交流,以交替迭代融合的方式对引导特征和深度特征进行更新;
注意力融合模块,用于将第一最终特征与第二最终特征进行特征的拼接融合,在融合完成后进行卷积操作以得到第三深度残差图,将低分辨率深度图进行双三次插值以得到上采样深度图,将所述第三深度残差图与所述上采样深度图进行叠加以得到最终的深度超分辨率图像。
需要说明的是,本发明两个分支之间通过双向非对称交叉注意力进行双向交流,最后通过注意力融合模块细化深度特征,生成高分辨率深度图像。相较于现有技术本发明的有益效果为:
其一,所提出的同时解决了不同分支中的两个子问题,即引导单目深度估计和引导深度图超分辨率。对单目深度估计的显式监督提高了引导选择的效率。采用双向交叉注意力的方法实现分支间的特征融合。
其二,受到视觉注意力机制启发,本发明是第一个基于Transfomer的引导深度图超分辨网络。本发明采用非对称交叉注意力融合引导特征与深度特征,将引导单目估计解与引导深度超分辨率解相结合。由于引导选择分支的输入为高分辨率图像,且为了保持引导的信息,本发明使用Pixel Unshuffle对通道数与深度特征不一致的引导特征进行重构,而不是普通的池化方法。本发明所提模型与系统在主流数据集上,与目前最先进的方法比较,均达到了主观评价和客观评价的最好效果。
其三,本发明采用双三次插值的方式生成第一深度超分图、第二深度超分图和最终的深度超分辨率图像,可以在不影响清晰度的情况下有效降低算法难度,提升算法速率。
其四,本发明引导特征与深度特征之间的通道不一致,将注意力内积在空间维度上计算,而不是通道维度/>上,由于注意力图/>的形状为/>,远小于标准的全局注意力的/>,因此不需要进行窗口划分,增加了感受野。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种基于非对称交叉注意力的深度图超分辨率重建方法,其特征在于,所述方法包括如下步骤:
步骤1、给定输入数据,输入数据包括低分辨率深度图以及与所述低分辨率深度图相对应的高分辨率彩色图像,以所述高分辨率彩色图像为引导图像,以所述低分辨率深度图为深度图像;
步骤2、提取引导图像和深度图像的浅层特征,并进行深度细化以得到引导特征和深度特征;
步骤3、利用非对称交叉注意力域,将引导特征的像素块和深度特征的像素块进行双向交流,以交替迭代融合的方式对引导特征和深度特征进行更新,再经过上采样操作以逐步提高引导特征和深度特征的分辨率,并对应得到第一最终特征与第二最终特征;
步骤4、将第一最终特征与第二最终特征进行特征的拼接融合,在融合完成后进行卷积操作以得到第三深度残差图;
步骤5、将低分辨率深度图进行双三次插值以得到上采样深度图,将所述第三深度残差图与所述上采样深度图进行叠加以得到最终的深度超分辨率图像;
其中,在所述步骤3中,上采样采用上采样块,上采样块包括3×3卷积层和PixelShuffle;
以交替迭代融合的方式对引导特征和深度特征进行更新得到第一最终特征和第二最终特征的方法具体包括如下步骤:
步骤3.1、以全局注意力作为注意力域;
步骤3.2、设交叉注意力的归一化特征对为;
步骤3.3、从第一个元素获得查询,从第二个元素推导键和值,以分别得到查询、键/>和值/>;
步骤3.4、将查询、键和值嵌入导多头自注意力的每个头中,再进行上采样以逐步提高引导特征和深度特征的分辨率,从而得到第一最终特征和第二最终特征/>;
嵌入导多头自注意力的每个头中的表达式为:
;
其中,、/>和/>表示深度卷积层和点卷积层依照顺序组合形成卷积层的参数;
交叉注意力是由/>,/>和/>形状的转置/>,/>,/>计算所得,具体表达式为:
;
其中,是1×1卷积层,/>是一个可学习的缩放参数,用于控制点积的大小;由于引导特征与深度特征之间的通道不一致,将注意力内积在空间维度/>上计算,而不是通道维度/>上;由于注意力图/>的形状为/>,远小于标准的全局注意力的/>,因此不需要进行窗口划分,增加了感受野。
2.根据权利要求1所述的基于非对称交叉注意力的深度图超分辨率重建方法,其特征在于,在执行上述步骤1至步骤5中,对应的训练方法包括如下训练步骤:
以训练数据作为输入数据重复步骤1至步骤5,以得到第一最终特征、第二最终特征和最终的深度超分辨率图像,将第一最终特征和第二最终特征分别进行卷积操作以得到第一深度残差图和第二深度残差图;
将第一深度残差图与第二深度残差图均分别与上采样深度图进行叠加,以分别得到第一深度超分图和第二深度超分图;
分别计算第一深度超分图、第二深度超分图以及最终的深度超分辨率图像与深度高分辨率原始图像之间的残差,根据残差设计得到对应的损失函数,通过不断迭代优化模型的可学习参数计算得到最小损失,损失函数表达式为:
;
其中,表示第/>个损失函数,/>表示第/>个残差,/>表示第一深度超分图、第二深度超分图或最终的深度超分辨率图像中的其中一个,/>表示深度高分辨率原始图像;
根据不同的损失函数得到总损失函数,总损失函数表达式为:
;
其中,表示总损失函数,/>和/>均为超参数,/>设置为/> ,/>设置为/>,/>为训练图像的数量。
3.根据权利要求2所述的基于非对称交叉注意力的深度图超分辨率重建方法,其特征在于,可学习参数之间存在如下关系式:
;
其中,表示为可学习参数,/>表示高分辨率图像,/>表示可学习参数与图像之间构建的模型关系。
4.根据权利要求3所述的基于非对称交叉注意力的深度图超分辨率重建方法,其特征在于,在所述步骤2中,提取引导图像的浅层特征的方法具体包括:
先将引导图像通过三个卷积层进行卷积提取,以得到通道数为64的引导图像的浅层特征;
再将浅层特征利用下采样块进行2倍空间下采样,并进行2倍通道维数扩展,以得到通道数为128的引导图像的浅层特征。
5.根据权利要求4所述的基于非对称交叉注意力的深度图超分辨率重建方法,其特征在于,在所述步骤2中,深度图像的浅层特征的提取的方法具体包括:
将深度图像通过三个卷积层进行卷积提取,以得到通道数为64的深度图像的浅层特征。
6.根据权利要求5所述的基于非对称交叉注意力的深度图超分辨率重建方法,其特征在于,在所述步骤2中,浅层特征进行深度细化时,基于/>对Swin Transformer进行深度细化以输出引导特征/>;
浅层特征进行深度细化时,基于/>对Swin Transformer进行深度细化以输出深度特征。
7.根据权利要求1所述的基于非对称交叉注意力的深度图超分辨率重建方法,其特征在于,训练数据的构建方法具体包括如下步骤:
步骤6.1.1、获取高分辨率图像数据集,高分辨率图像数据集包括高分辨率深度真实图像与高分辨率彩色真实引导图像,将高分辨率图像数据集划分成训练集、验证集和测试集;
步骤6.1.2、将高分辨率图像数据集重叠裁剪为成对像素重叠的图像块,生成成对的高分辨率引导图像和高分辨率深度真实图像,并通过随机翻转和旋转进行数据增强;
步骤6.1.3、将高分辨率深度真实图像通过双三次插值和高斯噪声生成对应的低分辨率图像。
8.一种基于非对称交叉注意力的深度图超分辨率重建系统,其特征在于,应用如上述权利要求1至7任一项所述的基于非对称交叉注意力的深度图超分辨率重建方法,所述系统包括:
引导特征提取模块,用于提取引导图像的浅层特征;
引导细化模块,用于深度细化浅层特征以得到引导特征;
深度估计模块,用于上采样操作以提高引导特征的分辨率,得到第一最终特征;
深度特征提取模块,用于提取深度图像的浅层特征;
深度细化模块,用于深度细化浅层特征以得到深度特征;
图像重建模块,用于上采样操作以逐步提高深度特征的分辨率,得到第二最终特征;
非对称交叉注意力模块,利用非对称交叉注意力域,用于引导特征的像素块和深度特征的像素块进行双向交流,以交替迭代融合的方式对引导特征和深度特征进行更新;
注意力融合模块,用于将第一最终特征与第二最终特征进行特征的拼接融合,在融合完成后进行卷积操作以得到第三深度残差图,将低分辨率深度图进行双三次插值以得到上采样深度图,将所述第三深度残差图与所述上采样深度图进行叠加以得到最终的深度超分辨率图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310666520.5A CN116402692B (zh) | 2023-06-07 | 2023-06-07 | 基于非对称交叉注意力的深度图超分辨率重建方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310666520.5A CN116402692B (zh) | 2023-06-07 | 2023-06-07 | 基于非对称交叉注意力的深度图超分辨率重建方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116402692A CN116402692A (zh) | 2023-07-07 |
CN116402692B true CN116402692B (zh) | 2023-08-18 |
Family
ID=87016498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310666520.5A Active CN116402692B (zh) | 2023-06-07 | 2023-06-07 | 基于非对称交叉注意力的深度图超分辨率重建方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402692B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118365527B (zh) * | 2024-06-20 | 2024-10-01 | 北京铸正机器人有限公司 | 基于重叠窗口注意力机制的图像超分辨率重建系统及方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930342A (zh) * | 2019-10-28 | 2020-03-27 | 杭州电子科技大学 | 一种基于彩色图引导的深度图超分辨率重建网络构建方法 |
CN111275618A (zh) * | 2020-01-12 | 2020-06-12 | 杭州电子科技大学 | 一种基于双支感知的深度图超分辨率重建网络构建方法 |
CN112330542A (zh) * | 2020-11-18 | 2021-02-05 | 重庆邮电大学 | 基于crcsan网络的图像重建系统及方法 |
CN114418853A (zh) * | 2022-01-21 | 2022-04-29 | 杭州碧游信息技术有限公司 | 基于相似图像检索的图像超分辨率优化方法、介质及设备 |
CN114972043A (zh) * | 2022-08-03 | 2022-08-30 | 江西财经大学 | 基于联合三边特征滤波的图像超分辨率重建方法与系统 |
CN114998099A (zh) * | 2022-04-29 | 2022-09-02 | 中国科学院深圳先进技术研究院 | 一种基于图像预训练策略的图像超分辨率方法 |
CN115222601A (zh) * | 2022-08-06 | 2022-10-21 | 福州大学 | 基于残差混合注意力网络的图像超分辨率重建模型及方法 |
CN115358929A (zh) * | 2022-10-19 | 2022-11-18 | 中科方寸知微(南京)科技有限公司 | 压缩图像超分方法、图像压缩方法及系统 |
WO2022242029A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉分辨率增强的生成方法、系统、装置及存储介质 |
WO2022251718A1 (en) * | 2021-05-28 | 2022-12-01 | Google Llc | Generating high-resolution images using self-attention |
CN115511708A (zh) * | 2022-09-19 | 2022-12-23 | 武汉大学 | 基于不确定性感知特征传输的深度图超分辨率方法及系统 |
CN116152060A (zh) * | 2022-12-19 | 2023-05-23 | 长春理工大学 | 一种双特征融合引导的深度图像超分辨率重建方法 |
-
2023
- 2023-06-07 CN CN202310666520.5A patent/CN116402692B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930342A (zh) * | 2019-10-28 | 2020-03-27 | 杭州电子科技大学 | 一种基于彩色图引导的深度图超分辨率重建网络构建方法 |
CN111275618A (zh) * | 2020-01-12 | 2020-06-12 | 杭州电子科技大学 | 一种基于双支感知的深度图超分辨率重建网络构建方法 |
CN112330542A (zh) * | 2020-11-18 | 2021-02-05 | 重庆邮电大学 | 基于crcsan网络的图像重建系统及方法 |
WO2022242029A1 (zh) * | 2021-05-18 | 2022-11-24 | 广东奥普特科技股份有限公司 | 视觉分辨率增强的生成方法、系统、装置及存储介质 |
WO2022251718A1 (en) * | 2021-05-28 | 2022-12-01 | Google Llc | Generating high-resolution images using self-attention |
CN114418853A (zh) * | 2022-01-21 | 2022-04-29 | 杭州碧游信息技术有限公司 | 基于相似图像检索的图像超分辨率优化方法、介质及设备 |
CN114998099A (zh) * | 2022-04-29 | 2022-09-02 | 中国科学院深圳先进技术研究院 | 一种基于图像预训练策略的图像超分辨率方法 |
CN114972043A (zh) * | 2022-08-03 | 2022-08-30 | 江西财经大学 | 基于联合三边特征滤波的图像超分辨率重建方法与系统 |
CN115222601A (zh) * | 2022-08-06 | 2022-10-21 | 福州大学 | 基于残差混合注意力网络的图像超分辨率重建模型及方法 |
CN115511708A (zh) * | 2022-09-19 | 2022-12-23 | 武汉大学 | 基于不确定性感知特征传输的深度图超分辨率方法及系统 |
CN115358929A (zh) * | 2022-10-19 | 2022-11-18 | 中科方寸知微(南京)科技有限公司 | 压缩图像超分方法、图像压缩方法及系统 |
CN116152060A (zh) * | 2022-12-19 | 2023-05-23 | 长春理工大学 | 一种双特征融合引导的深度图像超分辨率重建方法 |
Non-Patent Citations (1)
Title |
---|
分层特征融合注意力网络图像超分辨率重建;雷鹏程;刘丛;唐坚刚;彭敦陆;;中国图象图形学报(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116402692A (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zuo et al. | Multi-scale frequency reconstruction for guided depth map super-resolution via deep residual network | |
CN113362223A (zh) | 基于注意力机制和双通道网络的图像超分辨率重建方法 | |
CN113888744A (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN110349087B (zh) | 基于适应性卷积的rgb-d图像高质量网格生成方法 | |
CN109035146B (zh) | 一种基于深度学习的低质量图像超分方法 | |
Li et al. | A two-channel convolutional neural network for image super-resolution | |
CN113989129A (zh) | 基于门控和上下文注意力机制的图像修复方法 | |
CN116402692B (zh) | 基于非对称交叉注意力的深度图超分辨率重建方法与系统 | |
CN113837946B (zh) | 一种基于递进蒸馏网络的轻量化图像超分辨率重建方法 | |
CN116343052B (zh) | 一种基于注意力和多尺度的双时相遥感图像变化检测网络 | |
CN112669248A (zh) | 基于cnn与拉普拉斯金字塔的高光谱与全色图像融合方法 | |
Tang et al. | Deep residual networks with a fully connected reconstruction layer for single image super-resolution | |
Yu et al. | Semantic-driven face hallucination based on residual network | |
CN117173229A (zh) | 融合对比学习的单目图像深度估计方法及系统 | |
CN116797541A (zh) | 一种基于Transformer的肺部CT图像超分辨率重建方法 | |
CN115205527A (zh) | 一种基于域适应和超分辨率的遥感图像双向语义分割方法 | |
Zhou et al. | Deep dynamic memory augmented attentional dictionary learning for image denoising | |
CN113421188A (zh) | 一种图像均衡增强的方法、系统、装置及存储介质 | |
CN117593187A (zh) | 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法 | |
CN116385265B (zh) | 一种图像超分辨率网络的训练方法及装置 | |
CN111681168A (zh) | 一种基于并行残差网络的低分辨率细胞超分辨率重建方法 | |
CN110211059A (zh) | 一种基于深度学习的图像重建方法 | |
CN116188273A (zh) | 一种基于不确定性导向的双模态可分离图像超分辨率方法 | |
CN109447900A (zh) | 一种图像超分辨率重建方法及装置 | |
CN115512325A (zh) | 一种端到端的基于实例分割的车道检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |