CN116957931A

CN116957931A - 一种基于神经辐射场的相机图像画质提升方法

Info

Publication number: CN116957931A
Application number: CN202310661756.XA
Authority: CN
Inventors: 王家奎; 吴聪
Original assignee: Wuhan Veilytech Co ltd
Current assignee: Wuhan Veilytech Co ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-10-27

Abstract

本发明公开了一种基于神经辐射场的相机图像画质提升方法，具体提升方法包括如下步骤：首先通过高清高分辨率和低清低分辨率的相机分别拍摄某个物体或封闭空间场景视频，通过抽帧的方式分别获取高清图像100张和低清图像200张，然后利用COLMAP进行稀疏重建，获取拍摄物体时每张图像的位姿，基于Transformer神经辐射场来获取低分辨率图像方法更真实，且通过此方法获得的图像数据，经过训练画质提升模型，相比使用单张图像退化算法后重建获得的高分辨率图像更加真实自然，可以有效提升低清相机的画质，通过使用神经辐射场重建功能，利用高清图像的位姿信息重新渲染得到的低清图像，能够在很大程度上还原相同视角下普通相机成像效果。

Description

一种基于神经辐射场的相机图像画质提升方法

技术领域

本发明涉及数字图像处理与计算机视觉技术领域，具体为一种基于神经辐射场的相机图像画质提升方法。

背景技术

在图像应用领域，人们经常期望得到更好的画质以及更高分辨率的图像，高分辨率的图像能够提供更多细节，而这些细节能够大大提高计算机视觉中模式识别的性能，而大多数的图像由于受到环境噪声，硬件性能以及传输和存储方式的影响，会经历一个退化过程导致图像质量降低，比如数字成像过程中的散焦，衍射等造成的光学模糊，快门速度有限造成的运动模糊，传感器单元尺寸和密度对混叠效应的影响，图像感光器或图像传输过程中的随机噪声等，这些因素都会影响图像的生成质量，因此，能够增强普通相机图像质量水平的方法是十分有必要的，近年来随着深度学习技术的快速发展，其在图像重建方面的效果表现出色；

但是基于图像退化模型生成的低质量图像与真实的低分辨率图像存在一定的差距，这导致重建出来的图像与真正的高分辨率图像相比缺乏真实性，因此如何获取与高分辨率图像视角内容完全相同的低分辨率图像，将在很大程度上还原普通相机画质提升效果的真实性。

发明内容

本发明提供一种基于神经辐射场的相机图像画质提升方法，可以有效解决上述背景技术中提出基于图像退化模型生成的低质量图像与真实的低分辨率图像存在一定的差距，这导致重建出来的图像与真正的高分辨率图像相比缺乏真实性的问题。

为实现上述目的，本发明提供如下技术方案：一种基于神经辐射场的相机图像画质提升方法，该方法主要使用神经辐射场重建功能，利用高清图像的位姿信息重新渲染得到的低清图像，能够还原相同视角下普通相机成像效果；

具体提升方法包括如下步骤：

步骤S1，首先通过高清高分辨率和低清低分辨率的相机分别拍摄某个物体或封闭空间场景视频，通过抽帧的方式分别获取高清图像100张和低清图像200张，然后利用COLMAP进行稀疏重建，获取拍摄物体时每张图像的位姿；

步骤S2，将低清图像序列输入到特殊的Transformer神经辐射场进行物体或空间场景重建，然后根据每张高清图像以指定的视角重新渲染特征场，合成新的低清图像，得到图像内容和视角完全相同的高、低分辨率的图像序列对，重复以上两步，可以获得足够多的图像序列对；

步骤S3，利用高清图像先验数据进行超分重建网络预训练，预训练所需的高清图像不仅仅局限于好相机所拍摄的图像，也可以从其他地方获取，输入和输出均为高分辨率图像，通过Transformer编码器进行特征提取和编码，获得稀疏特征codebook，将codebook再经过Transformer解码器重构出高清图像；

步骤S4，基于步骤S3预训练获得的稀疏特征和解码器部分的网络权重将被冻结，该部分需训练Transformer的编码器结构，步骤S4所需的训练数据来源于步骤S1和步骤S2，输入为低清图像，输出为与之对应高清图像，使通过低清图像获得的稀疏编码本，与通过高清图像获得的稀疏编码本误差最小，实现低清图像到高清图像的画质提升。

根据上述技术方案，所述S2中，首先给定N张低分辨率图像，采用视图Transformer和光线Transformer，将多张图像转换成3D模型，场景表示公式如下：

F(x，θ)＝v(x，θ；{I₁，…，I_N})；

其中I₁，…，I_N为不同视角对应的低分辨率图像，x和θ分别代表每张图像拍摄时的空间位置以及角度信息，v(·)将输入目标视图按顺序映射到坐标对齐的特征场中，并提取特定位置的特征，并使用对极几何作为归纳偏差，限制每个像素只关注位于相邻图像的相应极线上的像素，通过下式将每个图像编码成一个特征图；

ImageEncoder是基于Transformer的图像编码器，I_i为输入图像，HWd分别是特征图的高度宽度以及深度。

根据上述技术方案，所述S2中，图像编码器不仅能提取阴影信息，还可以通过其多尺度架构提取材质、语义信息，局部以及全局复杂的光线传输信息，为了获得位置x处的特征表示，将x投影到每个原图像，并在图像平面上内插特征向量，然后采用一个特殊的视图Transformer编码器，即View-Transformer来组合所有的特征向量，该过程如下式所示：

F(x，θ)＝View-Transformer(F₁(П₁(x)，θ)，…，F_N(Π_N(x)，θ))；

П_i(x)将空间真实坐标x投影到每张原图上，表示通过特征网格上采用双线性插值的方式计算在/>位置上的特征向量，x和θ分别表示空间位置以及角度信息，View-Transformer(·)应用相机外参矩阵将/>投影到对应的图像平面，利用多视图几何作为基于Transformer场景表示的归纳偏差，并通过聚合相邻视图上的极线信息来预测坐标对齐的特征。

根据上述技术方案，所述S2中体渲染模拟了体积场反射光的强度，是神经辐射场成功的关键，NeRF通过整合沿着从像素投射的光线颜色和密度信息来渲染像素的颜色，将体渲染视为所有逐点输出的加权集合，遮挡部分的建模依赖于全局权重其他未被遮挡的点，这种信息的整合可以通过Transformer进行学习，使得逐点颜色可以被映射到token特征，并且注意力分数对应于透射率，即混合权重，这就是另一个特殊的光线Transformer，即为称作Ray-Transformer建模；

为了能够渲染出光线γ＝(o，d)的颜色，首先计算出基于光线γ的每个采样点x_i的特征表达式，具体如下：

F为特征提取编码器，输出f_i特征包含了图像空间位置x以及角度信息θ，在Ray-Transformer结构中通过传入{f₁，…，f_M}特征序列来获得渲染的颜色，所有预测的token特征经过平均池化处理，并通过MLP将汇集的特征向量映射到RGB，具体公式如下：

其中t₁，…，t_M是近平面与远平面之间的平均采样，Ray-Transformer(·)是标准的Transformer编码器结构，特征空间上的渲染利用了丰富的几何、光学和语义信息，Ray-Transformer自动调整注意力分布来控制重建表面的清晰度，根据照明和材质特征烘焙出想要的灯光效果，通过图像编码器的能力，Ray-Transformer还可以克服光线投射和极线几何的限制，以模拟复杂的光线传输。

根据上述技术方案，所述S2中，构建成对的高分辨率图像序列与低分辨率图像序列，高分辨率图像序列即源视图，低分辨率图像序列即目标视图，在源视图中随机选取N张，以及每一张源视图对应的K张最接近的目标视图，然后基于目标视图训练渲染模型，这种采样策略在训练期间模拟各种视图密度，有助于网络更容易收敛，训练时K和N的取值范围分别为(1，3)和(8，12)，采用Adam优化器，通过最小化预测图像与真实图像之间RGB像素值的均方误差，来训练端到端的特征提取网络和神经辐射场模型；

通过上述神经辐射场和特征对齐的方式，可以获得与源视图内容一致的低分辨率图像序列，重复步骤S1和S2以获得足够多内容一致的高分辨率与低分辨率图像序列对。

根据上述技术方案，所述S3中，为减少低分辨率图像到高分辨率图像重建时细节的不确定性，需要将高分辨率图像先验数据进行超分重建网络预训练；

具体地，先将高分辨率图像做镜像填充预处理使其长宽相等，然后把图像分割成M个N*N大小相同的图像块，每个图像块经过线性变换后展开成一维序列，M个一维序列经过Transformer编码器模块后输出M个图像块的特征图Z_h，特征图Z_h通过近邻聚类的方式量化得到新的稀疏编码特征Z_c，特征量化公式如下：

根据上述技术方案，所述S3中可学习的稀疏编码本Transformer解码器与编码器过程相反，量化后的特征/>经过Transformer解码器后可重建出高分辨率图像，具体如下：

y′＝D(z_c)≈y；

y和y′分别表示真实和重构的高分辨率图像，Z_c是量化后的特征，D为解码器，由于量化操作是不可微分的，因此采用下面的目标函数进行端到端的训练模型，目标函数如下：

上式中sg[·]表示去除该数据的梯度信息，z和分别表示量化前后的图像特征，β取值为0.25，预训练所采用的高分辨率图像数据可以是任意场景，与步骤2所获得的高分辨率图像可以不同，其主要作用是获得稀疏编码和Transformer解码器部分权重。

根据上述技术方案，所述S4中，利用低分辨率与高分辨率图像序列对，训练超分辨率重建模型的编码部分；

具体地，通过步骤S3训练好了稀疏特征Z和解码器D，超分辨率重建任务转化为了低分辨率图像与Z之间的特征匹配问题，公式原理如下：

L代表损失函数，q[·]表示特征量化匹配，E_l为低分辨率图像编码器，其中E_l由特征提取和残差模块两个部分组成。

根据上述技术方案，所述S4中，特征提取模块的设计与SwinIR类似，它由浅层特征提取头和深层特征提取块组成，深层特征提取由多个RSTB构成，每个RSTB由多个SwinTransformer层与残差连接构成；

相比CNN方案，Swin Transformer基于内容交互的图像内容与注意力权值可以视作空域可变卷积，RSTB中的移位窗口机制可以进行长距离依赖建模，更优的性能、更少的参数；

由于预训练采用的是高分辨率图像，在输入低分辨率图像重建时需要对图像进行上采样以满足输入尺寸需求，上采样因子S_up是由浅层特征提取网络的下采样因子S_down决定的，公式如下：

S_up＝S_down×8；

特征提取表达式如下：

H_F为特征提取模块，其中用于特征匹配。

根据上述技术方案，所述S4中为了更好的利用高分辨率图像预训练的先验信息，在稀疏特征解码时引入了多尺度残差模块，通过几个上采样模块H_up来放大低分辨率图像的稀疏特征/>并将它们作为残差添加到解码器中；

和/>分别为解码模块与上采样模块，f_i-1和/>分别是它们的输入特征。

与现有技术相比，本发明的有益效果：

1、基于Transformer神经辐射场来获取低分辨率图像方法更真实，且通过此方法获得的图像数据，经过训练画质提升模型，相比使用单张图像退化算法后重建获得的高分辨率图像更加真实自然，可以有效提升低清相机的画质，解决当前差相机成像模糊画质差的问题，从而实现低清图像到高清图像的画质提升；

且通过使用神经辐射场重建功能，利用高清图像的位姿信息重新渲染得到的低清图像，能够在很大程度上还原相同视角下普通相机成像效果，根据此方法获得的图像序列对不仅能够用于画质提升，同时也可以应用在去雨去雾等其他场景。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明多相机图像数据获取流程示意图；

图2是本发明两个特殊Transformer的结构示意图；

图3是本发明高清图像先验预训练的示意图；

图4是本发明图像超分辨率重建的示意图；

图5是本发明相机图像画质提升方法的步骤流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1-5所示，本发明提供一种技术方案，一种基于神经辐射场的相机图像画质提升方法，该方法主要使用神经辐射场重建功能，利用高清图像的位姿信息重新渲染得到的低清图像，能够还原相同视角下普通相机成像效果；

具体提升方法包括如下步骤：

基于上述技术方案，S2中，首先给定N张低分辨率图像，采用如图2所示的视图Transformer和光线Transformer，将多张图像转换成3D模型，场景表示公式如下：

F(x，θ)＝v(x，θ；{I₁，…，I_N})；

其中，v(·)将输入目标视图按顺序映射到坐标对齐的特征场中，并提取特定位置的特征，并使用对极几何作为归纳偏差，限制每个像素只关注位于相邻图像的相应极线上的像素，通过下式将每个图像编码成一个特征图；

基于上述技术方案，S2中，图像编码器不仅能提取阴影信息，还可以通过其多尺度架构提取材质、语义信息，局部以及全局复杂的光线传输信息，为了获得位置x处的特征表示，将x投影到每个原图像，并在图像平面上内插特征向量，然后采用一个特殊的视图Transformer编码器，即View-Transformer来组合所有的特征向量，如图2(a)所示，该过程如下式所示：

F(x，θ)＝View-Transformer(F₁(П₁(x)，θ)，…，F_N(Π_N(x)，θ))；

View-Transformer(·)应用相机外参矩阵将投影到对应的图像平面，在特征网格上采用双线性插值的方式来计算在/>位置上的特征向量，利用多视图几何作为基于Transformer场景表示的归纳偏差，并通过聚合相邻视图上的极线信息来预测坐标对齐的特征。

基于上述技术方案，S2中体渲染模拟了体积场反射光的强度，是神经辐射场成功的关键，NeRF通过整合沿着从像素投射的光线颜色和密度信息来渲染像素的颜色，将体渲染视为所有逐点输出的加权集合，遮挡部分的建模依赖于全局权重其他未被遮挡的点，这种信息的整合可以通过Transformer进行学习，使得逐点颜色可以被映射到token特征，并且注意力分数对应于透射率，即混合权重，这就是图2(b)所示的另一个特殊的光线Transformer，即为称作Ray-Transformer建模，如图2(b)所示；

除此之外，还需要增加空间位置编码和f_i的视图方向，在Ray-Transformer结构中通过传入{f₁，…，f_M}特征序列来获得渲染的颜色，所有预测的token特征经过平均池化处理，并通过MLP将汇集的特征向量映射到RGB，具体公式如下：

基于上述技术方案，S2中，构建成对的高分辨率图像序列与低分辨率图像序列，高分辨率图像序列即源视图，低分辨率图像序列即目标视图，在源视图中随机选取N张，以及每一张源视图对应的K张最接近的目标视图，然后基于目标视图训练渲染模型，这种采样策略在训练期间模拟各种视图密度，有助于网络更容易收敛，训练时K和N的取值范围分别为(1，3)和(8，12)，采用Adam优化器，通过最小化预测图像与真实图像之间RGB像素值的均方误差，来训练端到端的特征提取网络和神经辐射场模型；

基于上述技术方案，S3中，为减少低分辨率图像到高分辨率图像重建时细节的不确定性，需要将高分辨率图像先验数据进行超分重建网络预训练，如图2所示；

基于上述技术方案，S3中可学习的稀疏编码本Transformer解码器与编码器过程相反，量化后的特征/>经过Transformer解码器后可重建出高分辨率图像，具体如下：

y′＝D(z_c)≈y；

y和y′分别表示真实和重构的高分辨率图像，由于量化操作是不可微分的，因此采用下面的目标函数进行端到端的训练模型，目标函数如下：

上式中sg[·]表示去除该数据的梯度信息，β取值为0.25，预训练所采用的高分辨率图像数据可以是任意场景，与步骤2所获得的高分辨率图像可以不同，其主要作用是获得稀疏编码和Transformer解码器部分权重。

基于上述技术方案，S4中，利用低分辨率与高分辨率图像序列对，训练超分辨率重建模型的编码部分；

L代表损失函数，D为图像解码器，q[·]表示特征量化匹配，E_l为低分辨率图像编码器，Z表示稀疏特征，y表示高清输入图像，其中E_l由特征提取和残差模块两个部分组成。

基于上述技术方案，S4中，特征提取如图4所示，特征提取模块的设计与SwinIR类似，它由浅层特征提取头和深层特征提取块组成，深层特征提取由多个RSTB，RSTB为Residual Swin Transformer Blocks构成，每个RSTB由多个Swin Transformer层与残差连接构成；

相比CNN方案，Swin Transformer具有以下几个优势：基于内容交互的图像内容与注意力权值可以视作空域可变卷积，RSTB中的移位窗口机制可以进行长距离依赖建模，更优的性能、更少的参数；

S_up＝S_down×8；

特征提取表达式如下：

H_F为特征提取模块，其中用于特征匹配。

基于上述技术方案，S4中为了更好的利用高分辨率图像预训练的先验信息，在稀疏特征解码时引入了多尺度残差模块，通过几个上采样模块H_up来放大低分辨率图像的稀疏特征/>并将它们作为残差添加到解码器中；

和Z分别表示低清图像编码特征与上采样后编码得到的稀疏特征，/>和/>分别为解码模块与上采样模块。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经辐射场的相机图像画质提升方法，其特征在于：该方法使用神经辐射场重建功能，利用高清图像的位姿信息重新渲染得到的低清图像，能够还原相同视角下普通相机成像效果；

具体提升方法包括如下步骤：

2.根据权利要求1所述的一种基于神经辐射场的相机图像画质提升方法，其特征在于：所述S2中，首先给定N张低分辨率图像，采用视图Transformer和光线Transformer，将多张图像转换成3D模型，场景表示公式如下：

F(x，θ)＝v(x，θ；{I₁，…，I_N})；

其中I₁，...，I_N为不同视角对应的低分辨率图像；

x和θ分别代表每张图像拍摄时的空间位置以及角度信息；

v(·)将输入目标视图按顺序映射到坐标对齐的特征场中，并提取特定位置的特征，并使用对极几何作为归纳偏差，限制每个像素只关注位于相邻图像的相应极线上的像素，通过下式将每个图像编码成一个特征图；

ImageEncoder是基于Transformer的图像编码器；

I_i为输入图像，HWd分别是特征图的高度宽度以及深度。

3.根据权利要求2所述的一种基于神经辐射场的相机图像画质提升方法，其特征在于：所述S2中，图像编码器不仅能提取阴影信息，还可以通过其多尺度架构提取材质、语义信息，局部以及全局复杂的光线传输信息，为了获得位置x处的特征表示，将x投影到每个原图像，并在图像平面上内插特征向量，然后采用一个特殊的视图Transformer编码器，即View-Transformer来组合所有的特征向量，该过程如下式所示：

F(x，θ)＝View-Transformer(F₁(П₁(x)，θ)，…，F_N(∏_N(x)，θ))；

П_i(x)将空间真实坐标x投影到每张原图上，表示通过特征网格上采用双线性插值的方式计算在/>位置上的特征向量，x和θ分别表示空间位置以及角度信息，View-Transformer(·)应用相机外参矩阵将真实坐标/>投影到对应的图像平面，利用多视图几何作为基于Transformer场景表示的归纳偏差，并通过聚合相邻视图上的极线信息来预测坐标对齐的特征。

4.根据权利要求3所述的一种基于神经辐射场的相机图像画质提升方法，其特征在于：所述S2中体渲染模拟了体积场反射光的强度，是神经辐射场成功的关键，NeRF通过整合沿着从像素投射的光线颜色和密度信息来渲染像素的颜色，将体渲染视为所有逐点输出的加权集合，遮挡部分的建模依赖于全局权重其他未被遮挡的点，这种信息的整合可以通过Transformer进行学习，使得逐点颜色可以被映射到token特征，并且注意力分数对应于透射率，即混合权重，这就是另一个特殊的光线Transformer，即为称作Ray-Transformer建模；

为了能够渲染出光线的颜色γ＝(o，d)，首先计算出基于光线γ的每个采样点x_i的特征表达式，具体如下：

5.根据权利要求4所述的一种基于神经辐射场的相机图像画质提升方法，其特征在于：所述S2中，构建成对的高分辨率图像序列与低分辨率图像序列，高分辨率图像序列即源视图，低分辨率图像序列即目标视图，在源视图中随机选取N张，以及每一张源视图对应的K张最接近的目标视图，然后基于目标视图训练渲染模型，这种采样策略在训练期间模拟各种视图密度，有助于网络更容易收敛，训练时K和N的取值范围分别为(1，3)和(8，12)，采用Adam优化器，通过最小化预测图像与真实图像之间RGB像素值的均方误差，来训练端到端的特征提取网络和神经辐射场模型；

6.根据权利要求1所述的一种基于神经辐射场的相机图像画质提升方法，其特征在于：所述S3中，为减少低分辨率图像到高分辨率图像重建时细节的不确定性，需要将高分辨率图像先验数据进行超分重建网络预训练；

7.根据权利要求6所述的一种基于神经辐射场的相机图像画质提升方法，其特征在于：所述S3中可学习的稀疏编码本Transformer解码器与编码器过程相反，量化后的特征/>经过Transformer解码器后可重建出高分辨率图像，具体如下：

y′＝D(z_c)≈y；

8.根据权利要求6所述的一种基于神经辐射场的相机图像画质提升方法，其特征在于：所述S4中，利用低分辨率与高分辨率图像序列对，训练超分辨率重建模型的编码部分；

具体地，通过步骤S3训练好了稀疏特征Z和解码器D，超分辨率重建任务转化为了低分辨率图像与稀疏特征Z之间的特征匹配问题，公式原理如下：

9.根据权利要求8所述的一种基于神经辐射场的相机图像画质提升方法，其特征在于：所述S4中，特征提取模块的设计与SwinIR类似，它由浅层特征提取头和深层特征提取块组成，深层特征提取由多个RSTB构成，每个RSTB由多个Swin Transformer层与残差连接构成；

相比CNN方案，Swin Transformer具有基于内容交互的图像内容与注意力权值可以视作空域可变卷积，RSTB中的移位窗口机制可以进行长距离依赖建模，更优的性能、更少的参数；

S_up＝S_down×8；

特征提取表达式如下：

H_F为特征提取模块，其中用于特征匹配。

10.根据权利要求9所述的一种基于神经辐射场的相机图像画质提升方法，其特征在于：所述S4中为了更好的利用高分辨率图像预训练的先验信息，在稀疏特征解码时引入了多尺度残差模块，通过几个上采样模块H_up来放大低分辨率图像的稀疏特征/>并将它们作为残差添加到解码器中；