CN116957931A - 一种基于神经辐射场的相机图像画质提升方法 - Google Patents
一种基于神经辐射场的相机图像画质提升方法 Download PDFInfo
- Publication number
- CN116957931A CN116957931A CN202310661756.XA CN202310661756A CN116957931A CN 116957931 A CN116957931 A CN 116957931A CN 202310661756 A CN202310661756 A CN 202310661756A CN 116957931 A CN116957931 A CN 116957931A
- Authority
- CN
- China
- Prior art keywords
- image
- resolution
- low
- definition
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000005855 radiation Effects 0.000 title claims abstract description 36
- 210000005036 nerve Anatomy 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000009877 rendering Methods 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 11
- 238000013139 quantization Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 claims description 6
- 238000003384 imaging method Methods 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 6
- FEPMHVLSLDOMQC-UHFFFAOYSA-N virginiamycin-S1 Natural products CC1OC(=O)C(C=2C=CC=CC=2)NC(=O)C2CC(=O)CCN2C(=O)C(CC=2C=CC=CC=2)N(C)C(=O)C2CCCN2C(=O)C(CC)NC(=O)C1NC(=O)C1=NC=CC=C1O FEPMHVLSLDOMQC-UHFFFAOYSA-N 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 239000000463 material Substances 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000005286 illumination Methods 0.000 claims description 3
- 230000006698 induction Effects 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000002834 transmittance Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000006731 degradation reaction Methods 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 abstract description 5
- 230000015556 catabolic process Effects 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001795 light effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/08—Volume rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/95—Computational photography systems, e.g. light-field imaging systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于神经辐射场的相机图像画质提升方法,具体提升方法包括如下步骤:首先通过高清高分辨率和低清低分辨率的相机分别拍摄某个物体或封闭空间场景视频,通过抽帧的方式分别获取高清图像100张和低清图像200张,然后利用COLMAP进行稀疏重建,获取拍摄物体时每张图像的位姿,基于Transformer神经辐射场来获取低分辨率图像方法更真实,且通过此方法获得的图像数据,经过训练画质提升模型,相比使用单张图像退化算法后重建获得的高分辨率图像更加真实自然,可以有效提升低清相机的画质,通过使用神经辐射场重建功能,利用高清图像的位姿信息重新渲染得到的低清图像,能够在很大程度上还原相同视角下普通相机成像效果。
Description
技术领域
本发明涉及数字图像处理与计算机视觉技术领域,具体为一种基于神经辐射场的相机图像画质提升方法。
背景技术
在图像应用领域,人们经常期望得到更好的画质以及更高分辨率的图像,高分辨率的图像能够提供更多细节,而这些细节能够大大提高计算机视觉中模式识别的性能,而大多数的图像由于受到环境噪声,硬件性能以及传输和存储方式的影响,会经历一个退化过程导致图像质量降低,比如数字成像过程中的散焦,衍射等造成的光学模糊,快门速度有限造成的运动模糊,传感器单元尺寸和密度对混叠效应的影响,图像感光器或图像传输过程中的随机噪声等,这些因素都会影响图像的生成质量,因此,能够增强普通相机图像质量水平的方法是十分有必要的,近年来随着深度学习技术的快速发展,其在图像重建方面的效果表现出色;
但是基于图像退化模型生成的低质量图像与真实的低分辨率图像存在一定的差距,这导致重建出来的图像与真正的高分辨率图像相比缺乏真实性,因此如何获取与高分辨率图像视角内容完全相同的低分辨率图像,将在很大程度上还原普通相机画质提升效果的真实性。
发明内容
本发明提供一种基于神经辐射场的相机图像画质提升方法,可以有效解决上述背景技术中提出基于图像退化模型生成的低质量图像与真实的低分辨率图像存在一定的差距,这导致重建出来的图像与真正的高分辨率图像相比缺乏真实性的问题。
为实现上述目的,本发明提供如下技术方案:一种基于神经辐射场的相机图像画质提升方法,该方法主要使用神经辐射场重建功能,利用高清图像的位姿信息重新渲染得到的低清图像,能够还原相同视角下普通相机成像效果;
具体提升方法包括如下步骤:
步骤S1,首先通过高清高分辨率和低清低分辨率的相机分别拍摄某个物体或封闭空间场景视频,通过抽帧的方式分别获取高清图像100张和低清图像200张,然后利用COLMAP进行稀疏重建,获取拍摄物体时每张图像的位姿;
步骤S2,将低清图像序列输入到特殊的Transformer神经辐射场进行物体或空间场景重建,然后根据每张高清图像以指定的视角重新渲染特征场,合成新的低清图像,得到图像内容和视角完全相同的高、低分辨率的图像序列对,重复以上两步,可以获得足够多的图像序列对;
步骤S3,利用高清图像先验数据进行超分重建网络预训练,预训练所需的高清图像不仅仅局限于好相机所拍摄的图像,也可以从其他地方获取,输入和输出均为高分辨率图像,通过Transformer编码器进行特征提取和编码,获得稀疏特征codebook,将codebook再经过Transformer解码器重构出高清图像;
步骤S4,基于步骤S3预训练获得的稀疏特征和解码器部分的网络权重将被冻结,该部分需训练Transformer的编码器结构,步骤S4所需的训练数据来源于步骤S1和步骤S2,输入为低清图像,输出为与之对应高清图像,使通过低清图像获得的稀疏编码本,与通过高清图像获得的稀疏编码本误差最小,实现低清图像到高清图像的画质提升。
根据上述技术方案,所述S2中,首先给定N张低分辨率图像,采用视图Transformer和光线Transformer,将多张图像转换成3D模型,场景表示公式如下:
F(x,θ)=v(x,θ;{I1,…,IN});
其中I1,…,IN为不同视角对应的低分辨率图像,x和θ分别代表每张图像拍摄时的空间位置以及角度信息,v(·)将输入目标视图按顺序映射到坐标对齐的特征场中,并提取特定位置的特征,并使用对极几何作为归纳偏差,限制每个像素只关注位于相邻图像的相应极线上的像素,通过下式将每个图像编码成一个特征图;
ImageEncoder是基于Transformer的图像编码器,Ii为输入图像,HWd分别是特征图的高度宽度以及深度。
根据上述技术方案,所述S2中,图像编码器不仅能提取阴影信息,还可以通过其多尺度架构提取材质、语义信息,局部以及全局复杂的光线传输信息,为了获得位置x处的特征表示,将x投影到每个原图像,并在图像平面上内插特征向量,然后采用一个特殊的视图Transformer编码器,即View-Transformer来组合所有的特征向量,该过程如下式所示:
F(x,θ)=View-Transformer(F1(П1(x),θ),…,FN(ΠN(x),θ));
Пi(x)将空间真实坐标x投影到每张原图上,表示通过特征网格上采用双线性插值的方式计算在/>位置上的特征向量,x和θ分别表示空间位置以及角度信息,View-Transformer(·)应用相机外参矩阵将/>投影到对应的图像平面,利用多视图几何作为基于Transformer场景表示的归纳偏差,并通过聚合相邻视图上的极线信息来预测坐标对齐的特征。
根据上述技术方案,所述S2中体渲染模拟了体积场反射光的强度,是神经辐射场成功的关键,NeRF通过整合沿着从像素投射的光线颜色和密度信息来渲染像素的颜色,将体渲染视为所有逐点输出的加权集合,遮挡部分的建模依赖于全局权重其他未被遮挡的点,这种信息的整合可以通过Transformer进行学习,使得逐点颜色可以被映射到token特征,并且注意力分数对应于透射率,即混合权重,这就是另一个特殊的光线Transformer,即为称作Ray-Transformer建模;
为了能够渲染出光线γ=(o,d)的颜色,首先计算出基于光线γ的每个采样点xi的特征表达式,具体如下:
F为特征提取编码器,输出fi特征包含了图像空间位置x以及角度信息θ,在Ray-Transformer结构中通过传入{f1,…,fM}特征序列来获得渲染的颜色,所有预测的token特征经过平均池化处理,并通过MLP将汇集的特征向量映射到RGB,具体公式如下:
其中t1,…,tM是近平面与远平面之间的平均采样,Ray-Transformer(·)是标准的Transformer编码器结构,特征空间上的渲染利用了丰富的几何、光学和语义信息,Ray-Transformer自动调整注意力分布来控制重建表面的清晰度,根据照明和材质特征烘焙出想要的灯光效果,通过图像编码器的能力,Ray-Transformer还可以克服光线投射和极线几何的限制,以模拟复杂的光线传输。
根据上述技术方案,所述S2中,构建成对的高分辨率图像序列与低分辨率图像序列,高分辨率图像序列即源视图,低分辨率图像序列即目标视图,在源视图中随机选取N张,以及每一张源视图对应的K张最接近的目标视图,然后基于目标视图训练渲染模型,这种采样策略在训练期间模拟各种视图密度,有助于网络更容易收敛,训练时K和N的取值范围分别为(1,3)和(8,12),采用Adam优化器,通过最小化预测图像与真实图像之间RGB像素值的均方误差,来训练端到端的特征提取网络和神经辐射场模型;
通过上述神经辐射场和特征对齐的方式,可以获得与源视图内容一致的低分辨率图像序列,重复步骤S1和S2以获得足够多内容一致的高分辨率与低分辨率图像序列对。
根据上述技术方案,所述S3中,为减少低分辨率图像到高分辨率图像重建时细节的不确定性,需要将高分辨率图像先验数据进行超分重建网络预训练;
具体地,先将高分辨率图像做镜像填充预处理使其长宽相等,然后把图像分割成M个N*N大小相同的图像块,每个图像块经过线性变换后展开成一维序列,M个一维序列经过Transformer编码器模块后输出M个图像块的特征图Zh,特征图Zh通过近邻聚类的方式量化得到新的稀疏编码特征Zc,特征量化公式如下:
根据上述技术方案,所述S3中可学习的稀疏编码本Transformer解码器与编码器过程相反,量化后的特征/>经过Transformer解码器后可重建出高分辨率图像,具体如下:
y′=D(zc)≈y;
y和y′分别表示真实和重构的高分辨率图像,Zc是量化后的特征,D为解码器,由于量化操作是不可微分的,因此采用下面的目标函数进行端到端的训练模型,目标函数如下:
上式中sg[·]表示去除该数据的梯度信息,z和分别表示量化前后的图像特征,β取值为0.25,预训练所采用的高分辨率图像数据可以是任意场景,与步骤2所获得的高分辨率图像可以不同,其主要作用是获得稀疏编码和Transformer解码器部分权重。
根据上述技术方案,所述S4中,利用低分辨率与高分辨率图像序列对,训练超分辨率重建模型的编码部分;
具体地,通过步骤S3训练好了稀疏特征Z和解码器D,超分辨率重建任务转化为了低分辨率图像与Z之间的特征匹配问题,公式原理如下:
L代表损失函数,q[·]表示特征量化匹配,El为低分辨率图像编码器,其中El由特征提取和残差模块两个部分组成。
根据上述技术方案,所述S4中,特征提取模块的设计与SwinIR类似,它由浅层特征提取头和深层特征提取块组成,深层特征提取由多个RSTB构成,每个RSTB由多个SwinTransformer层与残差连接构成;
相比CNN方案,Swin Transformer基于内容交互的图像内容与注意力权值可以视作空域可变卷积,RSTB中的移位窗口机制可以进行长距离依赖建模,更优的性能、更少的参数;
由于预训练采用的是高分辨率图像,在输入低分辨率图像重建时需要对图像进行上采样以满足输入尺寸需求,上采样因子Sup是由浅层特征提取网络的下采样因子Sdown决定的,公式如下:
Sup=Sdown×8;
特征提取表达式如下:
HF为特征提取模块,其中用于特征匹配。
根据上述技术方案,所述S4中为了更好的利用高分辨率图像预训练的先验信息,在稀疏特征解码时引入了多尺度残差模块,通过几个上采样模块Hup来放大低分辨率图像的稀疏特征/>并将它们作为残差添加到解码器中;
和/>分别为解码模块与上采样模块,fi-1和/>分别是它们的输入特征。
与现有技术相比,本发明的有益效果:
1、基于Transformer神经辐射场来获取低分辨率图像方法更真实,且通过此方法获得的图像数据,经过训练画质提升模型,相比使用单张图像退化算法后重建获得的高分辨率图像更加真实自然,可以有效提升低清相机的画质,解决当前差相机成像模糊画质差的问题,从而实现低清图像到高清图像的画质提升;
且通过使用神经辐射场重建功能,利用高清图像的位姿信息重新渲染得到的低清图像,能够在很大程度上还原相同视角下普通相机成像效果,根据此方法获得的图像序列对不仅能够用于画质提升,同时也可以应用在去雨去雾等其他场景。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明多相机图像数据获取流程示意图;
图2是本发明两个特殊Transformer的结构示意图;
图3是本发明高清图像先验预训练的示意图;
图4是本发明图像超分辨率重建的示意图;
图5是本发明相机图像画质提升方法的步骤流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1-5所示,本发明提供一种技术方案,一种基于神经辐射场的相机图像画质提升方法,该方法主要使用神经辐射场重建功能,利用高清图像的位姿信息重新渲染得到的低清图像,能够还原相同视角下普通相机成像效果;
具体提升方法包括如下步骤:
步骤S1,首先通过高清高分辨率和低清低分辨率的相机分别拍摄某个物体或封闭空间场景视频,通过抽帧的方式分别获取高清图像100张和低清图像200张,然后利用COLMAP进行稀疏重建,获取拍摄物体时每张图像的位姿;
步骤S2,将低清图像序列输入到特殊的Transformer神经辐射场进行物体或空间场景重建,然后根据每张高清图像以指定的视角重新渲染特征场,合成新的低清图像,得到图像内容和视角完全相同的高、低分辨率的图像序列对,重复以上两步,可以获得足够多的图像序列对;
步骤S3,利用高清图像先验数据进行超分重建网络预训练,预训练所需的高清图像不仅仅局限于好相机所拍摄的图像,也可以从其他地方获取,输入和输出均为高分辨率图像,通过Transformer编码器进行特征提取和编码,获得稀疏特征codebook,将codebook再经过Transformer解码器重构出高清图像;
步骤S4,基于步骤S3预训练获得的稀疏特征和解码器部分的网络权重将被冻结,该部分需训练Transformer的编码器结构,步骤S4所需的训练数据来源于步骤S1和步骤S2,输入为低清图像,输出为与之对应高清图像,使通过低清图像获得的稀疏编码本,与通过高清图像获得的稀疏编码本误差最小,实现低清图像到高清图像的画质提升。
基于上述技术方案,S2中,首先给定N张低分辨率图像,采用如图2所示的视图Transformer和光线Transformer,将多张图像转换成3D模型,场景表示公式如下:
F(x,θ)=v(x,θ;{I1,…,IN});
其中,v(·)将输入目标视图按顺序映射到坐标对齐的特征场中,并提取特定位置的特征,并使用对极几何作为归纳偏差,限制每个像素只关注位于相邻图像的相应极线上的像素,通过下式将每个图像编码成一个特征图;
基于上述技术方案,S2中,图像编码器不仅能提取阴影信息,还可以通过其多尺度架构提取材质、语义信息,局部以及全局复杂的光线传输信息,为了获得位置x处的特征表示,将x投影到每个原图像,并在图像平面上内插特征向量,然后采用一个特殊的视图Transformer编码器,即View-Transformer来组合所有的特征向量,如图2(a)所示,该过程如下式所示:
F(x,θ)=View-Transformer(F1(П1(x),θ),…,FN(ΠN(x),θ));
View-Transformer(·)应用相机外参矩阵将投影到对应的图像平面,在特征网格上采用双线性插值的方式来计算在/>位置上的特征向量,利用多视图几何作为基于Transformer场景表示的归纳偏差,并通过聚合相邻视图上的极线信息来预测坐标对齐的特征。
基于上述技术方案,S2中体渲染模拟了体积场反射光的强度,是神经辐射场成功的关键,NeRF通过整合沿着从像素投射的光线颜色和密度信息来渲染像素的颜色,将体渲染视为所有逐点输出的加权集合,遮挡部分的建模依赖于全局权重其他未被遮挡的点,这种信息的整合可以通过Transformer进行学习,使得逐点颜色可以被映射到token特征,并且注意力分数对应于透射率,即混合权重,这就是图2(b)所示的另一个特殊的光线Transformer,即为称作Ray-Transformer建模,如图2(b)所示;
为了能够渲染出光线γ=(o,d)的颜色,首先计算出基于光线γ的每个采样点xi的特征表达式,具体如下:
除此之外,还需要增加空间位置编码和fi的视图方向,在Ray-Transformer结构中通过传入{f1,…,fM}特征序列来获得渲染的颜色,所有预测的token特征经过平均池化处理,并通过MLP将汇集的特征向量映射到RGB,具体公式如下:
其中t1,…,tM是近平面与远平面之间的平均采样,Ray-Transformer(·)是标准的Transformer编码器结构,特征空间上的渲染利用了丰富的几何、光学和语义信息,Ray-Transformer自动调整注意力分布来控制重建表面的清晰度,根据照明和材质特征烘焙出想要的灯光效果,通过图像编码器的能力,Ray-Transformer还可以克服光线投射和极线几何的限制,以模拟复杂的光线传输。
基于上述技术方案,S2中,构建成对的高分辨率图像序列与低分辨率图像序列,高分辨率图像序列即源视图,低分辨率图像序列即目标视图,在源视图中随机选取N张,以及每一张源视图对应的K张最接近的目标视图,然后基于目标视图训练渲染模型,这种采样策略在训练期间模拟各种视图密度,有助于网络更容易收敛,训练时K和N的取值范围分别为(1,3)和(8,12),采用Adam优化器,通过最小化预测图像与真实图像之间RGB像素值的均方误差,来训练端到端的特征提取网络和神经辐射场模型;
通过上述神经辐射场和特征对齐的方式,可以获得与源视图内容一致的低分辨率图像序列,重复步骤S1和S2以获得足够多内容一致的高分辨率与低分辨率图像序列对。
基于上述技术方案,S3中,为减少低分辨率图像到高分辨率图像重建时细节的不确定性,需要将高分辨率图像先验数据进行超分重建网络预训练,如图2所示;
具体地,先将高分辨率图像做镜像填充预处理使其长宽相等,然后把图像分割成M个N*N大小相同的图像块,每个图像块经过线性变换后展开成一维序列,M个一维序列经过Transformer编码器模块后输出M个图像块的特征图Zh,特征图Zh通过近邻聚类的方式量化得到新的稀疏编码特征Zc,特征量化公式如下:
基于上述技术方案,S3中可学习的稀疏编码本Transformer解码器与编码器过程相反,量化后的特征/>经过Transformer解码器后可重建出高分辨率图像,具体如下:
y′=D(zc)≈y;
y和y′分别表示真实和重构的高分辨率图像,由于量化操作是不可微分的,因此采用下面的目标函数进行端到端的训练模型,目标函数如下:
上式中sg[·]表示去除该数据的梯度信息,β取值为0.25,预训练所采用的高分辨率图像数据可以是任意场景,与步骤2所获得的高分辨率图像可以不同,其主要作用是获得稀疏编码和Transformer解码器部分权重。
基于上述技术方案,S4中,利用低分辨率与高分辨率图像序列对,训练超分辨率重建模型的编码部分;
具体地,通过步骤S3训练好了稀疏特征Z和解码器D,超分辨率重建任务转化为了低分辨率图像与Z之间的特征匹配问题,公式原理如下:
L代表损失函数,D为图像解码器,q[·]表示特征量化匹配,El为低分辨率图像编码器,Z表示稀疏特征,y表示高清输入图像,其中El由特征提取和残差模块两个部分组成。
基于上述技术方案,S4中,特征提取如图4所示,特征提取模块的设计与SwinIR类似,它由浅层特征提取头和深层特征提取块组成,深层特征提取由多个RSTB,RSTB为Residual Swin Transformer Blocks构成,每个RSTB由多个Swin Transformer层与残差连接构成;
相比CNN方案,Swin Transformer具有以下几个优势:基于内容交互的图像内容与注意力权值可以视作空域可变卷积,RSTB中的移位窗口机制可以进行长距离依赖建模,更优的性能、更少的参数;
由于预训练采用的是高分辨率图像,在输入低分辨率图像重建时需要对图像进行上采样以满足输入尺寸需求,上采样因子Sup是由浅层特征提取网络的下采样因子Sdown决定的,公式如下:
Sup=Sdown×8;
特征提取表达式如下:
HF为特征提取模块,其中用于特征匹配。
基于上述技术方案,S4中为了更好的利用高分辨率图像预训练的先验信息,在稀疏特征解码时引入了多尺度残差模块,通过几个上采样模块Hup来放大低分辨率图像的稀疏特征/>并将它们作为残差添加到解码器中;
和Z分别表示低清图像编码特征与上采样后编码得到的稀疏特征,/>和/>分别为解码模块与上采样模块。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于神经辐射场的相机图像画质提升方法,其特征在于:该方法使用神经辐射场重建功能,利用高清图像的位姿信息重新渲染得到的低清图像,能够还原相同视角下普通相机成像效果;
具体提升方法包括如下步骤:
步骤S1,首先通过高清高分辨率和低清低分辨率的相机分别拍摄某个物体或封闭空间场景视频,通过抽帧的方式分别获取高清图像100张和低清图像200张,然后利用COLMAP进行稀疏重建,获取拍摄物体时每张图像的位姿;
步骤S2,将低清图像序列输入到特殊的Transformer神经辐射场进行物体或空间场景重建,然后根据每张高清图像以指定的视角重新渲染特征场,合成新的低清图像,得到图像内容和视角完全相同的高、低分辨率的图像序列对,重复以上两步,可以获得足够多的图像序列对;
步骤S3,利用高清图像先验数据进行超分重建网络预训练,预训练所需的高清图像不仅仅局限于好相机所拍摄的图像,也可以从其他地方获取,输入和输出均为高分辨率图像,通过Transformer编码器进行特征提取和编码,获得稀疏特征codebook,将codebook再经过Transformer解码器重构出高清图像;
步骤S4,基于步骤S3预训练获得的稀疏特征和解码器部分的网络权重将被冻结,该部分需训练Transformer的编码器结构,步骤S4所需的训练数据来源于步骤S1和步骤S2,输入为低清图像,输出为与之对应高清图像,使通过低清图像获得的稀疏编码本,与通过高清图像获得的稀疏编码本误差最小,实现低清图像到高清图像的画质提升。
2.根据权利要求1所述的一种基于神经辐射场的相机图像画质提升方法,其特征在于:所述S2中,首先给定N张低分辨率图像,采用视图Transformer和光线Transformer,将多张图像转换成3D模型,场景表示公式如下:
F(x,θ)=v(x,θ;{I1,…,IN});
其中I1,...,IN为不同视角对应的低分辨率图像;
x和θ分别代表每张图像拍摄时的空间位置以及角度信息;
v(·)将输入目标视图按顺序映射到坐标对齐的特征场中,并提取特定位置的特征,并使用对极几何作为归纳偏差,限制每个像素只关注位于相邻图像的相应极线上的像素,通过下式将每个图像编码成一个特征图;
ImageEncoder是基于Transformer的图像编码器;
Ii为输入图像,HWd分别是特征图的高度宽度以及深度。
3.根据权利要求2所述的一种基于神经辐射场的相机图像画质提升方法,其特征在于:所述S2中,图像编码器不仅能提取阴影信息,还可以通过其多尺度架构提取材质、语义信息,局部以及全局复杂的光线传输信息,为了获得位置x处的特征表示,将x投影到每个原图像,并在图像平面上内插特征向量,然后采用一个特殊的视图Transformer编码器,即View-Transformer来组合所有的特征向量,该过程如下式所示:
F(x,θ)=View-Transformer(F1(П1(x),θ),…,FN(∏N(x),θ));
Пi(x)将空间真实坐标x投影到每张原图上,表示通过特征网格上采用双线性插值的方式计算在/>位置上的特征向量,x和θ分别表示空间位置以及角度信息,View-Transformer(·)应用相机外参矩阵将真实坐标/>投影到对应的图像平面,利用多视图几何作为基于Transformer场景表示的归纳偏差,并通过聚合相邻视图上的极线信息来预测坐标对齐的特征。
4.根据权利要求3所述的一种基于神经辐射场的相机图像画质提升方法,其特征在于:所述S2中体渲染模拟了体积场反射光的强度,是神经辐射场成功的关键,NeRF通过整合沿着从像素投射的光线颜色和密度信息来渲染像素的颜色,将体渲染视为所有逐点输出的加权集合,遮挡部分的建模依赖于全局权重其他未被遮挡的点,这种信息的整合可以通过Transformer进行学习,使得逐点颜色可以被映射到token特征,并且注意力分数对应于透射率,即混合权重,这就是另一个特殊的光线Transformer,即为称作Ray-Transformer建模;
为了能够渲染出光线的颜色γ=(o,d),首先计算出基于光线γ的每个采样点xi的特征表达式,具体如下:
F为特征提取编码器,输出fi特征包含了图像空间位置x以及角度信息θ,在Ray-Transformer结构中通过传入{f1,…,fM}特征序列来获得渲染的颜色,所有预测的token特征经过平均池化处理,并通过MLP将汇集的特征向量映射到RGB,具体公式如下:
其中t1,…,tM是近平面与远平面之间的平均采样,Ray-Transformer(·)是标准的Transformer编码器结构,特征空间上的渲染利用了丰富的几何、光学和语义信息,Ray-Transformer自动调整注意力分布来控制重建表面的清晰度,根据照明和材质特征烘焙出想要的灯光效果,通过图像编码器的能力,Ray-Transformer还可以克服光线投射和极线几何的限制,以模拟复杂的光线传输。
5.根据权利要求4所述的一种基于神经辐射场的相机图像画质提升方法,其特征在于:所述S2中,构建成对的高分辨率图像序列与低分辨率图像序列,高分辨率图像序列即源视图,低分辨率图像序列即目标视图,在源视图中随机选取N张,以及每一张源视图对应的K张最接近的目标视图,然后基于目标视图训练渲染模型,这种采样策略在训练期间模拟各种视图密度,有助于网络更容易收敛,训练时K和N的取值范围分别为(1,3)和(8,12),采用Adam优化器,通过最小化预测图像与真实图像之间RGB像素值的均方误差,来训练端到端的特征提取网络和神经辐射场模型;
通过上述神经辐射场和特征对齐的方式,可以获得与源视图内容一致的低分辨率图像序列,重复步骤S1和S2以获得足够多内容一致的高分辨率与低分辨率图像序列对。
6.根据权利要求1所述的一种基于神经辐射场的相机图像画质提升方法,其特征在于:所述S3中,为减少低分辨率图像到高分辨率图像重建时细节的不确定性,需要将高分辨率图像先验数据进行超分重建网络预训练;
具体地,先将高分辨率图像做镜像填充预处理使其长宽相等,然后把图像分割成M个N*N大小相同的图像块,每个图像块经过线性变换后展开成一维序列,M个一维序列经过Transformer编码器模块后输出M个图像块的特征图Zh,特征图Zh通过近邻聚类的方式量化得到新的稀疏编码特征Zc,特征量化公式如下:
7.根据权利要求6所述的一种基于神经辐射场的相机图像画质提升方法,其特征在于:所述S3中可学习的稀疏编码本Transformer解码器与编码器过程相反,量化后的特征/>经过Transformer解码器后可重建出高分辨率图像,具体如下:
y′=D(zc)≈y;
y和y′分别表示真实和重构的高分辨率图像,Zc是量化后的特征,D为解码器,由于量化操作是不可微分的,因此采用下面的目标函数进行端到端的训练模型,目标函数如下:
上式中sg[·]表示去除该数据的梯度信息,z和分别表示量化前后的图像特征,β取值为0.25,预训练所采用的高分辨率图像数据可以是任意场景,与步骤2所获得的高分辨率图像可以不同,其主要作用是获得稀疏编码和Transformer解码器部分权重。
8.根据权利要求6所述的一种基于神经辐射场的相机图像画质提升方法,其特征在于:所述S4中,利用低分辨率与高分辨率图像序列对,训练超分辨率重建模型的编码部分;
具体地,通过步骤S3训练好了稀疏特征Z和解码器D,超分辨率重建任务转化为了低分辨率图像与稀疏特征Z之间的特征匹配问题,公式原理如下:
L代表损失函数,D为图像解码器,q[·]表示特征量化匹配,El为低分辨率图像编码器,Z表示稀疏特征,y表示高清输入图像,其中El由特征提取和残差模块两个部分组成。
9.根据权利要求8所述的一种基于神经辐射场的相机图像画质提升方法,其特征在于:所述S4中,特征提取模块的设计与SwinIR类似,它由浅层特征提取头和深层特征提取块组成,深层特征提取由多个RSTB构成,每个RSTB由多个Swin Transformer层与残差连接构成;
相比CNN方案,Swin Transformer具有基于内容交互的图像内容与注意力权值可以视作空域可变卷积,RSTB中的移位窗口机制可以进行长距离依赖建模,更优的性能、更少的参数;
由于预训练采用的是高分辨率图像,在输入低分辨率图像重建时需要对图像进行上采样以满足输入尺寸需求,上采样因子Sup是由浅层特征提取网络的下采样因子Sdown决定的,公式如下:
Sup=Sdown×8;
特征提取表达式如下:
HF为特征提取模块,其中用于特征匹配。
10.根据权利要求9所述的一种基于神经辐射场的相机图像画质提升方法,其特征在于:所述S4中为了更好的利用高分辨率图像预训练的先验信息,在稀疏特征解码时引入了多尺度残差模块,通过几个上采样模块Hup来放大低分辨率图像的稀疏特征/>并将它们作为残差添加到解码器中;
和Z分别表示低清图像编码特征与上采样后编码得到的稀疏特征,/>和/>分别为解码模块与上采样模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310661756.XA CN116957931A (zh) | 2023-06-05 | 2023-06-05 | 一种基于神经辐射场的相机图像画质提升方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310661756.XA CN116957931A (zh) | 2023-06-05 | 2023-06-05 | 一种基于神经辐射场的相机图像画质提升方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116957931A true CN116957931A (zh) | 2023-10-27 |
Family
ID=88450149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310661756.XA Pending CN116957931A (zh) | 2023-06-05 | 2023-06-05 | 一种基于神经辐射场的相机图像画质提升方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116957931A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292040A (zh) * | 2023-11-27 | 2023-12-26 | 北京渲光科技有限公司 | 基于神经渲染的新视图合成的方法、设备和存储介质 |
CN117787143A (zh) * | 2024-02-23 | 2024-03-29 | 国网天津市电力公司城东供电分公司 | 变电站毒害气体的气流分布场重构方法及系统、电子设备 |
-
2023
- 2023-06-05 CN CN202310661756.XA patent/CN116957931A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292040A (zh) * | 2023-11-27 | 2023-12-26 | 北京渲光科技有限公司 | 基于神经渲染的新视图合成的方法、设备和存储介质 |
CN117292040B (zh) * | 2023-11-27 | 2024-03-08 | 北京渲光科技有限公司 | 基于神经渲染的新视图合成的方法、设备和存储介质 |
CN117787143A (zh) * | 2024-02-23 | 2024-03-29 | 国网天津市电力公司城东供电分公司 | 变电站毒害气体的气流分布场重构方法及系统、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dong et al. | Multi-scale boosted dehazing network with dense feature fusion | |
Alsaiari et al. | Image denoising using a generative adversarial network | |
CN112465955B (zh) | 一种动态人体三维重建和视角合成方法 | |
CN116957931A (zh) | 一种基于神经辐射场的相机图像画质提升方法 | |
CN111986084A (zh) | 一种基于多任务融合的多相机低光照图像质量增强方法 | |
Guan et al. | Srdgan: learning the noise prior for super resolution with dual generative adversarial networks | |
CN115953321A (zh) | 一种基于零次学习的低照度图像增强方法 | |
CN113724134A (zh) | 一种基于残差蒸馏网络的航拍图像盲超分辨率重建方法 | |
Yang et al. | A survey of super-resolution based on deep learning | |
CN115272438A (zh) | 一种面向三维场景重建的高精度单目深度估计系统及方法 | |
CN112991167A (zh) | 一种基于分层特征融合网络的航拍图像超分辨率重建方法 | |
CN116863053A (zh) | 一种基于知识蒸馏的点云渲染增强方法 | |
CN116703719A (zh) | 一种基于人脸3d先验信息的人脸超分辨率重建装置及方法 | |
CN114998405A (zh) | 基于图像驱动的数字化人体模型构建方法 | |
CN114119428A (zh) | 一种图像去模糊方法和装置 | |
CN114511487A (zh) | 图像融合方法及装置、计算机可读存储介质、终端 | |
CN114022356A (zh) | 基于小波域的河道流量水位遥感图像超分辨率方法与系统 | |
Barua et al. | Arthdr-net: Perceptually realistic and accurate hdr content creation | |
CN112435200A (zh) | 一种应用于目标检测的红外图像数据增强方法 | |
Li et al. | Hybrid Feature based Pyramid Network for Nighttime Semantic Segmentation. | |
Fkih et al. | Super-Resolution of UAVs Thermal Images Guided by Visible Images | |
Li et al. | Multi-modal Datasets for Super-resolution | |
Zhang et al. | Improvement of super resolution reconstruction method for real text images | |
Fang et al. | Methods and strategies for improving the novel view synthesis quality of neural radiation field | |
Du et al. | Panchromatic Image Super-Resolution via Self Attention-augmented WGAN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |