CN113538243A - 基于多视差注意力模块组合的超分辨图像重建方法 - Google Patents
基于多视差注意力模块组合的超分辨图像重建方法 Download PDFInfo
- Publication number
- CN113538243A CN113538243A CN202110832953.4A CN202110832953A CN113538243A CN 113538243 A CN113538243 A CN 113538243A CN 202110832953 A CN202110832953 A CN 202110832953A CN 113538243 A CN113538243 A CN 113538243A
- Authority
- CN
- China
- Prior art keywords
- layer
- parallax
- setting
- resolution
- super
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 16
- 230000004927 fusion Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 230000015556 catabolic process Effects 0.000 claims description 6
- 238000006731 degradation reaction Methods 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 239000011800 void material Substances 0.000 claims description 3
- 239000000654 additive Substances 0.000 claims description 2
- 230000000996 additive effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 2
- 230000017105 transposition Effects 0.000 claims 1
- 238000003384 imaging method Methods 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 4
- 230000001953 sensory effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10012—Stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于多视差注意力模块组合的超分辨图像重建方法,实现步骤为:1)构建训练样本集;2)构建多视差注意力模块网络;3)对多视差注意力模块网络进行训练;4)得到训练好的多视差注意力模块网络模型;5)获的超分辨重建图像结果。本发明通过构建基于多视差模块组合结构和图像平滑损失函数的立体图像超分辨网络模型,以更加合理和灵活的方式改善了现有的图像超分辨网络模型,不仅有效地提升了超分辨成像质量,相较于现有超分辨重建图像的技术有更好的抗干扰能力和更高的超分辨性能,可以为超分辨重建图像的进一步处理提供更加丰富的细节信息。
Description
技术领域
本发明属于图像处理技术领域,更进一步涉及超分辨图像处理技术领域中的一种基于多视差注意力模块组合的超分辨图像重建方法。本发明可利用多张有视差的低分辨率图像生成对应的高分辨图像,以便为图像后续的处理提供更加全面、准确的信息。
背景技术
超分辨率图像重建是指结合图像中有限的先验知识,利用数字图像处理技术,从单幅或多幅低分辨率的图像中重新构建出一幅细节丰富的高分辨率图像的过程。超分辨图像重建的目的是为了得到高分辨图像,增强和丰富了景物的细节内容,以便为后续的图像解译、目标检测、目标跟踪提供更准确、全面的信息。随着单张图像超分辨和视频超分辨算法技术日渐成熟,基于立体像对的超分辨算法逐渐流行起来。立体像对是从两个不同位置对同一地区所摄取的一对相片。用立体观测法和专用的工具可以在像对重叠影像部分内看出所摄目标的立体视模型。立体像对中包含的子像素偏移可用于改善超分辨性能,但是,由于输入为具有立体视差的图像,使得输入图像之间存在特征、景深和分辨率等差异。解决这些差异性问题,并充分利用双目图像间有效细节信息优势可以提高模型的超分辨性能。
Daniel S.Jeon,Seung-Hwan Baek,Inchang Choi,Min H.Kim等人在其发表的论文“Enhancing the Spatial Resolution of Stereo Imaged using a Parallax Prior.”(Proceedings of the IEEE Conference on Computer Vision and PatternRecognition(CVPR),2018,pp.1721-1730)中提出了一种超分辨图像重建方法。该方法的实现步骤是,1、对采集到的低分辨率图像进行多维度特征提取;2、两台采样相机通过提取到的不同维度下的右图像,经过不同间隔移动与对应维度的左图像级联而获得图像堆栈;3、将生成的图像堆栈融合获得超分辨左图像。该方法存在的不足之处是,由于该方法中图像移动的距离是固定的,相机允许的最大视差也是固定的,因此对于不同的传感器和场景,使用该方法时必须重新训练模型数据。
西南科技大学在其申请的专利文献“一种多尺度特征融合的双目图像超分辨率重建方法”(专利申请专利号:CN202110158551.0,申请公布号:CN 112767253A)中提出了一种多尺度特征融合的双目图像超分辨率图像重建方法。该方法实现的步骤是,1、对采集到的低分辨率图像进行多维度特征提取;2、利用视差注意力模块沿极线方向搜索左右图像的互补信息,得到左右图之间的极线方向融合互补信息;3、将左右特征图与互补信息融合并获得超分辨图像。该方法存在的不足之处是,由于该方法沿极线方向搜索左右图像的互补信息,当两台采样相机的相对位置发生偏移时,该方法训练出来的模型超分辨性能会下降,鲁棒性较差。
发明内容
本发明的目的是针对上述现有技术存在的不足,提出一种基于多视差注意力模块组合结构的多目立体图像超分辨成像方法。用于解决现有技术抗干扰能力差和超分辨性能较低的问题。
实现本发明目的的技术思路是:本发明针对现有技术抗干扰能力差的问题,在构建多视差模块网络结构时,根据采样相机的布放位置融合了左右图像视差和上下图像视差的多维度特征,即使某些视差下的采样相机相对位置发生了偏移,也可以从其余视差下的图像获取更多的图像特征信息,从而提高了模型的抗干扰能力。本发明针对现有技术超分辨性能较低的问题,在总损失函数中添加了对角线像素平滑度损失函数,用于改善超分辨图像的像素平滑度,从而提高了模型的超分辨性能。
本发明具体步骤如下:
步骤1,构建训练集:
(1a)对长和宽均为Lr×Wr的至少100对高分辨率立体图像进行降质处理,得到长和宽均为lr×wr的低分辨率立体像对;
(1b)将所有高分辨率立体像对与低分辨率立体像对组成训练集;
步骤2,构建多视差注意力模块网络:
(2a)构建特征提取子网络,其结构依次为:输入层,卷积层,第一残差层,第一空洞卷积层,第二残差层,第二空洞卷积层,融合层,第三残差层;所述融合层的输入为第一空洞卷积层的输出特征图与第二空洞卷积层的输出特征图在通道方向的拼接特征图;
设置特征提取子网络各层参数:
将输入层的输入特征图通道大小设置为64;
将卷积层的卷积核大小设置为3×3,步长设置为1,输出特征图通道大小设置为64;
将第一、二、三残差层的卷积核大小均设置为3×3,步长均设置为1,输出特征张量通道大小均设置为64;
将第一、二空洞卷积层卷积核大小均设置为3×3,步长均设置为1,输出特征图通道大小均设置为64;
(2b)构建多视差注意力组合子网络,其结构依次为:输入层,残差层,第一卷积层,第二卷积层,第三卷积层,左右视差注意力索引图变换层,上下视差注意力索引图变换层,多视差特征图融合层,第四卷积层;
设置多视差注意力组合子网络各层参数:
将输入层的输入特征图通道大小设置为64;
将残差层的卷积核大小设置为3×3,步长设置为1,输出特征图通道大小设置为64;
将第一、二、三、四卷积层的卷积核大小均设置为3×3,步长均设置为1,输出特征图通道大小均设置为64;
(2c)构建图像重建子网络,其结构依次为:输入层,第一残差层,第二残差层,第三残差层,第四残差层,像素重组层,全局残差层,卷积层;
设置图像重建子网络各层参数:
将输入层的输入特征图通道大小设置为64;
将第一、二、三、四残差层的卷积核大小均设置为3×3,步长均设置为1,输出特征图通道大小均设置为64;
将像素重组层的放大因子设置为s,输出特征图通道大小设置为64,其中,s为超分辨图像重建的倍数,s=2n,n为大于或等于1的整数;
将全局残差层的卷积核大小设置为3×3,步长设置为1/s,输出特征图通道大小设置为64;
将卷积层的卷积核大小设置为3×3,步长设置为1,输出特征图通道大小设置为3;
(2d)将特征提取子网络、多视差组合子网络、图像重建子网络级联组成多视差注意力模块网络;
步骤3,训练多视差模块网络:
将训练集中的高分辨立体像对和低分辨立体像对输入到多视差注意力模块网络中,利用梯度下降法,对网络参数进行迭代更新,直至含有对角线像素平滑度损失函数的总损失函数收敛为止,得到训练好的多视差模块网络模型;
步骤4,对低分辨立体像对进行超分辨图像重建:
将采样相机拍摄的立体像对输入到训练好的多视差模块网络模型中,经过处理得到重建后的超分辨图像。
本发明与现有技术相比,具有以下优点:
第一,本发明构建了多视差模块网络,该网络根据采样相机的布放位置融合了左右图像视差和上下图像视差的多维度特征,即使某些视差下的采样相机相对位置发生了偏移,也可以从其余视差下的图像获取更多的图像特征信息。且采样相机可以按照“L”形、“十”字形或“田”字形任意组合且数量不加限制。模型的超分辨效果和抗干扰能力可以根据采样相机的数量的增加而提高。有效地解决了现有技术抗干扰能力差的问题,使得本发明提高了超分辨图像重建效果,提升了人的视觉感官体验。
第二,本发明在总损失函数中添加了对角线像素平滑度损失函数,该损失函数可以缩小注意力视差索引图对角线方向元素的数值差距。从而使得重建的超分辨图像中物体的边缘更加平滑,降低像素颗粒感。本发明中添加的对角线像素平滑度损失函数克服了现有技术超分辨性能低的问题,使得本发明进一步提升了人的视觉感官体验。
附图说明
图1为本发明的流程图;
图2为本发明构建的多视差模块网络结构的示意图;
图3为本发明仿真图。
具体实施方式
以下结合附图和具体实施例,对本发明进行进一步详细描述。
参照图1,对本发明的实现步骤进行进一步详细描述。
步骤1,构建训练集。
对长和宽均为Lr×Wr的至少100对高分辨率立体图像进行降质处理,得到长和宽均为lr×wr的低分辨率立体像对。
所述的降质处理指的是,利用y=DBFx+n,对每对高分辨率立体像进行降质处理,得到长和宽均为lr×wr的低分辨率立体像对,其中,Lr≥512,Wr≥512,lr=Lr/4,Mr≥100,wr=Wr/4,D表示亚采样矩阵,B表示模糊矩阵,F表示几何运动矩阵,n表示附加噪声,Mr表示样本集数量。
将所有高分辨率立体像对与低分辨率立体像对组成训练集。
步骤2,构建多视差注意力模块网络。
构建特征提取子网络,其结构依次为:输入层,卷积层,第一残差层,第一空洞卷积层,第二残差层,第二空洞卷积层,融合层,第三残差层;所述融合层的输入为第一空洞卷积层的输出特征图与第二空洞卷积层的输出特征图在通道方向的拼接特征图。
设置特征提取子网络各层参数如下:
将输入层的输入特征图通道大小设置为64。
将卷积层的卷积核大小设置为3×3,步长设置为1,输出特征图通道大小设置为64。
将第一、二、三残差层的卷积核大小均设置为3×3,步长均设置为1,输出特征张量通道大小均设置为64。
将第一、二空洞卷积层卷积核大小均设置为3×3,步长均设置为1,输出特征图通道大小均设置为64。
构建多视差注意力组合子网络,其结构依次为:输入层,残差层,第一卷积层,第二卷积层,第三卷积层,左右视差注意力索引图变换层,上下视差注意力索引图变换层,多视差特征图融合层,第四卷积层。
所述的左右视差注意力索引图变换层包括第一次矩阵乘法,逻辑回归,第二次矩阵乘法;将特征提取子网络输出的左特征图与右特征图依次经过第一次矩阵乘法、逻辑回归处理得到形状为H×W×W的左右视差注意力索引图,再分别将左、右特征图与左右视差注意力索引图进行变换层内的第二次矩阵乘法处理,得到左、右特征融合图;其中,H表示特征提取子网络输出的左特征图的高度,W表示特征提取子网络输出的左特征图的宽度。
所述的上下视差注意力索引图变换层包括第一次矩阵乘法,逻辑回归,第二次矩阵乘法;将特征提取子网络输出的上特征图与下特征图依次经过第一次矩阵乘法、逻辑回归处理得到形状为W×H×H的上下视差注意力索引图,再分别将上、下特征图与上下视差注意力索引图进行变换层内的第二次矩阵乘法处理,得到上、下特征融合图;其中,H表示特征提取子网络输出的上特征图的高度,W表示特征提取子网络输出的上特征图的宽度。
所述的多视差特征图融合层指的是,将左、右特征融合图与上、下特征融合图在通道方向进行拼接,输出多方向视差融合后的特征图。
设置多视差注意力组合子网络各层参数如下:
将输入层的输入特征图通道大小设置为64。
将残差层的卷积核大小设置为3×3,步长设置为1,输出特征图通道大小设置为64。
将第一、二、三、四卷积层的卷积核大小均设置为3×3,步长均设置为1,输出特征图通道大小均设置为64。
构建图像重建子网络,其结构依次为:输入层,第一残差层,第二残差层,第三残差层,第四残差层,像素重组层,全局残差层,卷积层。
所述的全局残差层指的是,将低分辨率左图像经过转置卷积得到与目标高分辨图像大小一样的特征图,与像素重组层输出的特征图在通道方向进行拼接。
设置图像重建子网络各层参数如下:
将输入层的输入特征图通道大小设置为64。
将第一、二、三、四残差层的卷积核大小均设置为3×3,步长均设置为1,输出特征图通道大小均设置为64。
将像素重组层的放大因子设置为s,输出特征图通道大小设置为64,其中,s为超分辨图像重建的倍数,s=2n,n为大于或等于1的整数。
将全局残差层的卷积核大小设置为3×3,步长设置为1/s,输出特征图通道大小设置为64。
将卷积层的卷积核大小设置为3×3,步长设置为1,输出特征图通道大小设置为3。
将特征提取子网络、多视差组合子网络、图像重建子网络级联组成多视差注意力模块网络。
步骤3,训练多视差模块网络。
将训练集中的高分辨立体像对和低分辨立体像对输入到多视差注意力模块网络中,利用梯度下降法,对网络参数进行迭代更新,直至含有对角线像素平滑度损失函数的总损失函数收敛为止,得到训练好的多视差模块网络模型。
所述总损失函数如下:
||M(i,j+1,k)-M(i+1,j,k+1)||1+||M(i+1,j+1,k)-M(i,j,k+1)||1)
其中,L表示总损失函数,表示均方误差操作,ISR表示由训练好的多视差模块网络模型输出的超分辨重建图像,IHR表示训练集和测试集中的高分辨图像,L1表示水平与竖直像素平滑度损失函数,M表示包括左右视差与上下视差的视差注意力索引图,∑表示求和操作,||·||1表示1范数操作,M(i,j,k)表示视差注意力索引图中第i行第j列高度为k的元素,i+1,j+1,k+1分别表示对应坐标加1后的第i+1行第j+1列高度为k+1,L2表示对角线像素平滑度损失函数。
步骤4,对低分辨立体像对进行超分辨图像重建。
将采样相机拍摄的立体像对输入到训练好的多视差模块网络模型中,经过处理得到重建后的超分辨图像。
本发明的效果可以通过以下仿真实验做进一步的描述。
1.实验条件:
本发明的仿真实验的硬件测试平台为:CPU:i7-9700K3.60GHz,32G内存,GPU:TITAN Xp;
本发明的软件仿真平台为:Windows10 64位操作系统,Pycharm开发平台;
本发明使用的软件仿真语言及深度学习框架为:Python、Pytorch。
本发明仿真实验所使用的输入图像为自行制作的红外图像数据集。两组实验数据用来拍摄数据集的采样相机分别以“L”形和“田”字形摆设,使主低分辨图像与分支低分辨图像具有水平视差以及竖直视差。该红外图像数据集中包含400组训练集和100组测试集。每组训练集和测试集中包含1张像素为624×624的高分辨率红外图像,3张包含左右视差和上下视差的像素为156×156的低分辨率红外图像,图像格式为png。
2.实验内容及结果分析:
本发明仿真实验是采用本发明和一个现有技术(平行视差注意力超分辨方法PASSRnet)分别对红外图像数据集中的图片进行处理,得到超分辨重建图像。
在本发明仿真实验中,采用的一个现有技术平行视差注意力立体图像超分辨方法PASSRnet是指:
L.Wang等人在其发表的论文“Learning parallax attention for stereo imagesuper-resolution.”(Proceedings of the IEEE Conference on Computer Vision andPattern Recognition(CVPR),2019,pp.12250-12259)中提出的超分辨图像重建方法,简称平行视差注意力超分辨方法PASSRnet。
在本发明仿真实验中,采用的超分辨图像重建性能指标为峰值信噪比PSNR,计算公式如下:
其中,
在上式中,MAXI表示图像点颜色的最大数值,本仿真实验样本集图像每个像素点采用8位表示,所以MAXI=255,ISR表示由训练好的多视差模块网络模型输出的超分辨重建图像,IHR表示训练集和测试集中的高分辨图像,表示均方误差操作。
下面结合图3的仿真图对本发明的效果做进一步的描述。
图3(a)是本发明仿真实验所用的红外图像数据集中的一幅高分辨图像。
图3(b)是对图3(a)中高分辨图像经过图像降质后得到的低分辨图像。
图3(c)是采用现有技术平行视差注意力超分辨方法PASSRnet重建后的超分辨重建图像,PSNR=28.09。
图3(d)是本发明使用三台以“L”形摆放的摄像机拍摄得到的图像重建后的超分辨重建图像,PSNR=29.33。
图3(e)是本发明使用四台以“田”字形摆放的摄像机拍摄得到的图像重建后的超分辨重建图像,PSNR=29.56。
通过图3(d)和图3(e)与图3(c)的对比可以看出,在增加更多分支低分辨图像后,超分辨重建图像的细节更接近高分辨图像,说明本发明相较于现有技术有更好的图像超分辨效果,有效地提升了人的视觉感官体验。
以上描述仅是本发明的一个具体实例,并不构成对本发明的任何限制。显然对于本领域的专业人员来说,在了解了本发明的内容和原理后,都可以在不背离发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (7)
1.一种基于多视差注意力模块组合的超分辨图像重建方法,其特征在于,构建训练样本集和测试样本集,构建多维度视差注意力模块;该重建方法的具体步骤包括如下:
步骤1,构建训练集:
(1a)对长和宽均为Lr×Wr的至少100对高分辨率立体图像进行降质处理,得到长和宽均为lr×wr的低分辨率立体像对;
(1b)将所有高分辨率立体像对与低分辨率立体像对组成训练集;
步骤2,构建多视差注意力模块网络:
(2a)构建特征提取子网络,其结构依次为:输入层,卷积层,第一残差层,第一空洞卷积层,第二残差层,第二空洞卷积层,融合层,第三残差层;所述融合层的输入为第一空洞卷积层的输出特征图与第二空洞卷积层的输出特征图在通道方向的拼接特征图;
设置特征提取子网络各层参数:
将输入层的输入特征图通道大小设置为64;
将卷积层的卷积核大小设置为3×3,步长设置为1,输出特征图通道大小设置为64;
将第一、二、三残差层的卷积核大小均设置为3×3,步长均设置为1,输出特征张量通道大小均设置为64;
将第一、二空洞卷积层卷积核大小均设置为3×3,步长均设置为1,输出特征图通道大小均设置为64;
(2b)构建多视差注意力组合子网络,其结构依次为:输入层,残差层,第一卷积层,第二卷积层,第三卷积层,左右视差注意力索引图变换层,上下视差注意力索引图变换层,多视差特征图融合层,第四卷积层;
设置多视差注意力组合子网络各层参数:
将输入层的输入特征图通道大小设置为64;
将残差层的卷积核大小设置为3×3,步长设置为1,输出特征图通道大小设置为64;
将第一、二、三、四卷积层的卷积核大小均设置为3×3,步长均设置为1,输出特征图通道大小均设置为64;
(2c)构建图像重建子网络,其结构依次为:输入层,第一残差层,第二残差层,第三残差层,第四残差层,像素重组层,全局残差层,卷积层;
设置图像重建子网络各层参数:
将输入层的输入特征图通道大小设置为64;
将第一、二、三、四残差层的卷积核大小均设置为3×3,步长均设置为1,输出特征图通道大小均设置为64;
将像素重组层的放大因子设置为s,输出特征图通道大小设置为64,其中,s为超分辨图像重建的倍数,s=2n,n为大于或等于1的整数;
将全局残差层的卷积核大小设置为3×3,步长设置为1/s,输出特征图通道大小设置为64;
将卷积层的卷积核大小设置为3×3,步长设置为1,输出特征图通道大小设置为3;
(2d)将特征提取子网络、多视差组合子网络、图像重建子网络级联组成多视差注意力模块网络;
步骤3,训练多视差模块网络:
将训练集中的高分辨立体像对和低分辨立体像对输入到多视差注意力模块网络中,利用梯度下降法,对网络参数进行迭代更新,直至含有对角线像素平滑度损失函数的总损失函数收敛为止,得到训练好的多视差模块网络模型;
步骤4,对低分辨立体像对进行超分辨图像重建:
将采样相机拍摄的立体像对输入到训练好的多视差模块网络模型中,经过处理得到重建后的超分辨图像。
2.根据权利要求1所述的基于多视差注意力模块组合的超分辨图像重建方法,其特征在于,步骤(1a)中所述的降质处理指的是,利用y=DBFx+n,对每对高分辨率立体像进行降质处理,得到长和宽均为lr×wr的低分辨率立体像对,其中,Lr≥512,Wr≥512,lr=Lr/4,Mr≥100,wr=Wr/4,D表示亚采样矩阵,B表示模糊矩阵,F表示几何运动矩阵,n表示附加噪声,Mr表示样本集数量。
3.根据权利要求1所述的基于多视差注意力模块组合的超分辨图像重建方法,其特征在于,步骤(2b)中所述的左右视差注意力索引图变换层包括第一次矩阵乘法,逻辑回归,第二次矩阵乘法;将特征提取子网络输出的左特征图与右特征图依次经过第一次矩阵乘法、逻辑回归处理得到形状为H×W×W的左右视差注意力索引图,再分别将左、右特征图与左右视差注意力索引图进行变换层内的第二次矩阵乘法处理,得到左、右特征融合图;其中,H表示特征提取子网络输出的左特征图的高度,W表示特征提取子网络输出的左特征图的宽度。
4.根据权利要求1所述的基于多视差注意力模块组合的超分辨图像重建方法,其特征在于,步骤(2b)中所述的上下视差注意力索引图变换层包括第一次矩阵乘法,逻辑回归,第二次矩阵乘法;将特征提取子网络输出的上特征图与下特征图依次经过第一次矩阵乘法、逻辑回归处理得到形状为W×H×H的上下视差注意力索引图,再分别将上、下特征图与上下视差注意力索引图进行变换层内的第二次矩阵乘法处理,得到上、下特征融合图;其中,H表示特征提取子网络输出的上特征图的高度,W表示特征提取子网络输出的上特征图的宽度。
5.根据权利要求1所述的基于多视差注意力模块组合的超分辨图像重建方法,其特征在于,步骤(2b)中所述的多视差特征图融合层指的是,将左、右特征融合图与上、下特征融合图在通道方向进行拼接,输出多方向视差融合后的特征图。
6.根据权利要求1所述的基于多视差注意力模块组合的超分辨图像重建方法,其特征在于,步骤(2c)中所述的全局残差层指的是,将低分辨率左图像经过转置卷积得到与目标高分辨图像大小一样的特征图,与像素重组层输出的特征图在通道方向进行拼接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110832953.4A CN113538243B (zh) | 2021-07-22 | 2021-07-22 | 基于多视差注意力模块组合的超分辨图像重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110832953.4A CN113538243B (zh) | 2021-07-22 | 2021-07-22 | 基于多视差注意力模块组合的超分辨图像重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113538243A true CN113538243A (zh) | 2021-10-22 |
CN113538243B CN113538243B (zh) | 2023-04-07 |
Family
ID=78120547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110832953.4A Active CN113538243B (zh) | 2021-07-22 | 2021-07-22 | 基于多视差注意力模块组合的超分辨图像重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113538243B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114881858A (zh) * | 2022-05-17 | 2022-08-09 | 东南大学 | 基于多注意力机制融合的轻量级双目图像超分辨率方法 |
CN114926333A (zh) * | 2022-04-22 | 2022-08-19 | 武汉工程大学 | 一种图像超分辨率重建方法及装置 |
CN114995782A (zh) * | 2022-08-03 | 2022-09-02 | 上海登临科技有限公司 | 数据处理方法、装置、设备和可读存储介质 |
CN116823602A (zh) * | 2023-05-26 | 2023-09-29 | 天津大学 | 一种视差引导的光场图像的空间超分辨率重建方法 |
CN117475498A (zh) * | 2023-12-28 | 2024-01-30 | 苏州元脑智能科技有限公司 | 自适应目标检测方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110081046A1 (en) * | 2008-01-18 | 2011-04-07 | Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno | Method of improving the resolution of a moving object in a digital image sequence |
US20180300855A1 (en) * | 2015-12-21 | 2018-10-18 | Sensetime Group Limited | Method and a system for image processing |
CN110033410A (zh) * | 2019-03-28 | 2019-07-19 | 华中科技大学 | 图像重建模型训练方法、图像超分辨率重建方法及装置 |
CN110070489A (zh) * | 2019-04-30 | 2019-07-30 | 中国人民解放军国防科技大学 | 一种基于视差注意力机制的双目图像超分辨方法 |
CN110335222A (zh) * | 2019-06-18 | 2019-10-15 | 清华大学 | 基于神经网络的自修正弱监督双目视差提取方法及装置 |
CN110533591A (zh) * | 2019-08-20 | 2019-12-03 | 西安电子科技大学 | 基于编解码器结构的超分辨图像重建方法 |
CN110880162A (zh) * | 2019-11-22 | 2020-03-13 | 中国科学技术大学 | 基于深度学习的快照光谱深度联合成像方法及系统 |
-
2021
- 2021-07-22 CN CN202110832953.4A patent/CN113538243B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110081046A1 (en) * | 2008-01-18 | 2011-04-07 | Nederlandse Organisatie Voor Toegepast-Natuurwetenschappelijk Onderzoek Tno | Method of improving the resolution of a moving object in a digital image sequence |
US20180300855A1 (en) * | 2015-12-21 | 2018-10-18 | Sensetime Group Limited | Method and a system for image processing |
CN110033410A (zh) * | 2019-03-28 | 2019-07-19 | 华中科技大学 | 图像重建模型训练方法、图像超分辨率重建方法及装置 |
CN110070489A (zh) * | 2019-04-30 | 2019-07-30 | 中国人民解放军国防科技大学 | 一种基于视差注意力机制的双目图像超分辨方法 |
CN110335222A (zh) * | 2019-06-18 | 2019-10-15 | 清华大学 | 基于神经网络的自修正弱监督双目视差提取方法及装置 |
CN110533591A (zh) * | 2019-08-20 | 2019-12-03 | 西安电子科技大学 | 基于编解码器结构的超分辨图像重建方法 |
CN110880162A (zh) * | 2019-11-22 | 2020-03-13 | 中国科学技术大学 | 基于深度学习的快照光谱深度联合成像方法及系统 |
Non-Patent Citations (5)
Title |
---|
C DUAN 等: "Parallax-Based Spatial and Channel Attention for Stereo Image Super-Resolution", 《IEEE ACCESS》 * |
李现国 等: "基于中间层监督卷积神经网络的图像超分辨率重建", 《中国图象图形学报》 * |
王世平等: "一种多映射卷积神经网络的超分辨率重建算法", 《西安电子科技大学学报》 * |
邓武 等: "融合全局与局部视角的光场超分辨率重建", 《计算机应用研究》 * |
高大化: "基于编码感知的高分辨率计算成像方法研究", 《中国博士学位论文全文数据库 信息科技辑(月刊)》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114926333A (zh) * | 2022-04-22 | 2022-08-19 | 武汉工程大学 | 一种图像超分辨率重建方法及装置 |
CN114881858A (zh) * | 2022-05-17 | 2022-08-09 | 东南大学 | 基于多注意力机制融合的轻量级双目图像超分辨率方法 |
CN114995782A (zh) * | 2022-08-03 | 2022-09-02 | 上海登临科技有限公司 | 数据处理方法、装置、设备和可读存储介质 |
CN114995782B (zh) * | 2022-08-03 | 2022-10-25 | 上海登临科技有限公司 | 数据处理方法、装置、设备和可读存储介质 |
CN116823602A (zh) * | 2023-05-26 | 2023-09-29 | 天津大学 | 一种视差引导的光场图像的空间超分辨率重建方法 |
CN116823602B (zh) * | 2023-05-26 | 2023-12-15 | 天津大学 | 一种视差引导的光场图像的空间超分辨率重建方法 |
CN117475498A (zh) * | 2023-12-28 | 2024-01-30 | 苏州元脑智能科技有限公司 | 自适应目标检测方法及装置 |
CN117475498B (zh) * | 2023-12-28 | 2024-03-15 | 苏州元脑智能科技有限公司 | 自适应目标检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113538243B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113538243B (zh) | 基于多视差注意力模块组合的超分辨图像重建方法 | |
CN111652966B (zh) | 一种基于无人机多视角的三维重建方法及装置 | |
Chen et al. | Real-world single image super-resolution: A brief review | |
CN113362223B (zh) | 基于注意力机制和双通道网络的图像超分辨率重建方法 | |
Liu et al. | A spectral grouping and attention-driven residual dense network for hyperspectral image super-resolution | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
CN112308200B (zh) | 神经网络的搜索方法及装置 | |
Farrugia et al. | Super resolution of light field images using linear subspace projection of patch-volumes | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
US11348270B2 (en) | Method for stereo matching using end-to-end convolutional neural network | |
CN110443842A (zh) | 基于视角融合的深度图预测方法 | |
CN111709895A (zh) | 基于注意力机制的图像盲去模糊方法及系统 | |
Hua et al. | Holopix50k: A large-scale in-the-wild stereo image dataset | |
CN112767466B (zh) | 一种基于多模态信息的光场深度估计方法 | |
CN112288627B (zh) | 一种面向识别的低分辨率人脸图像超分辨率方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
KR102658359B1 (ko) | 라이트 필드의 중간 뷰 합성 방법, 라이트 필드의 중간 뷰 합성 시스템과 라이트 필드 압축 방법 | |
CN111951368B (zh) | 一种点云、体素和多视图融合的深度学习方法 | |
CN111626927B (zh) | 采用视差约束的双目图像超分辨率方法、系统及装置 | |
CN111028273B (zh) | 一种基于多流卷积神经网络的光场深度估计方法及其实现系统 | |
Li et al. | MANET: Multi-scale aggregated network for light field depth estimation | |
CN114119694A (zh) | 一种基于改进U-Net的自监督单目深度估计算法 | |
CN116703725A (zh) | 感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法 | |
CN114757862B (zh) | 用于红外光场设备的图像增强渐进式融合方法 | |
CN104796624A (zh) | 一种光场编辑传播方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20241015 Address after: Room 1502, 15th Floor, Building A, New Chang'an Plaza, No. 34 Fenghui South Road, High tech Zone, Xi'an City, Shaanxi Province, 710065 Patentee after: Xi'an Yangu Technology Co.,Ltd. Country or region after: China Address before: 710071 No. 2 Taibai South Road, Shaanxi, Xi'an Patentee before: XIDIAN University Country or region before: China |