CN117876591A

CN117876591A - 多个神经网络联合训练的真实模糊三维全息图重建方法

Info

Publication number: CN117876591A
Application number: CN202410030517.9A
Authority: CN
Inventors: 乐孜纯; 费澳鑫
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-04-12

Abstract

一种多个神经网络联合训练的真实模糊三维全息图重建方法，对于每个训练步骤，将训练集载入的RGB‑D图像根据深度图分为三层，随机选取一层作为聚焦面，另外两层为非聚焦面，将三层分别输入到多个作为复振幅生成器的神经网络中合成复振幅场，编码为仅相位全息图后传播到近场进行图像重建，使用二值掩模板掩模后对聚焦面和非聚焦面与对应的经过高斯模糊的目标图像求取损失函数，对梯度反向传播以优化神经网络的权重。本发明重建得到的全息图，具有图像质量高，深度区分明显，图像模糊真实等优点，更类似于人眼观察的自然图像，有望在全息显示、VA/AR等场景中获得实际应用。

Description

多个神经网络联合训练的真实模糊三维全息图重建方法

技术领域

本发明涉及一种计算全息(CGH)技术领域，具体涉及一种多个神经网络联合训练的真实模糊三维全息图重建方法。

背景技术

全息技术是一种记录并再现光波干涉模式的技术，它可以生成具有深度感和立体效果的图像。与摄影或电视图像不同，全息图像记录了光波的相位和振幅信息，这使得全息图像能够更准确地捕捉物体的三维结构和形状。而计算全息技术是一种利用计算机处理和生成全息图像的方法，它结合了计算机科学和光学技术，省去了传统全息技术中复杂的光学记录过程，只使用计算机计算生成的全息图像和空间光调制器(SLM)即可实现全息显示，提高了全息图像的质量、灵活性和应用范围。这项技术的发展有助于推动全息技术在游戏、医疗、教育、交通等各个领域的进一步应用和研究。

神经网络是一种由神经元和层次结构组成的模拟生物神经系统的计算机网络模型。深度学习技术通过多层次的神经网络学习数据的抽象表示，以实现对复杂模式和特征的学习。目前，深度学习已经在计算机视觉、自然语言处理等多个领域取得显著成就。基于深度学习的方法已经成为生成计算全息图十分有前景的一项研究，它克服了传统计算全息技术基于模拟/优化的方法中对图像质量与运行时间权衡，可以端到端高质量实时实现全息显示。目前，深度学习主要用于基于层的计算全息算法中。基于层的方法将物体的体积分为不同的层，对每个层分别记录全息图，最后合成包含所有层信息的全息图。对三维全息图传播不同距离进行重建，得到聚焦于不同层的重建图像。然而，由于重建图像后仅对聚焦面设置目标图像进行约束，对于非聚焦的层，会产生不自然的伪影，得到不同于真实场景的模糊效果。

发明内容

为了克服现有技术的不足，本发明提出了一种多个神经网络联合训练的真实模糊三维全息图重建方法，对于每个训练步骤，将训练集载入的RGB-D图像根据深度图分为三层，随机选取一层作为聚焦面，另外两层为非聚焦面，将三层分别输入到多个作为复振幅生成器的神经网络中合成复振幅场，编码为仅相位全息图后传播到近场进行图像重建，使用二值掩模板掩模后对聚焦面和非聚焦面与对应的经过高斯模糊的目标图像求取损失函数，对梯度反向传播以优化神经网络的权重。相比于原有的方法，本发明重建得到的全息图，具有图像质量高，深度区分明显，图像模糊真实等优点，更类似于人眼观察的自然图像，有望在全息显示、VA/AR等场景中获得实际应用。

本发明的技术方案如下：

一种多个神经网络联合训练的真实模糊三维全息图重建方法，包括以下步骤：

步骤一：对于每一个训练步骤，载入RGB-D图像，根据深度图生成三个二值掩模板，将图像分为三层；随机选择一层作为聚焦面，输入到第一个复振幅生成器，另外两层根据与聚焦面间隔的距离，分别输入到第二和第三个复振幅生成器；将输出的三个层的复振幅场合成为一个复振幅场；

步骤二：用角谱法将复振幅场传播到SLM平面，将复振幅全息图进行仅相位编码得到仅相位全息图；

步骤三：根据三个层中聚焦面与SLM平面的距离，将仅相位全息图用角谱法反向传播该距离得到重建后的图像；

步骤四：对输入图像使用不同大小的高斯卷积核进行模糊处理，再分别乘以三个二值掩模板得到三个目标图像，对应聚焦面和两个非聚焦面；将重建的图像乘以相同的掩模板，并对每个部分与对应的目标图像代入损失函数求损失值；

步骤五：将总损失值回传到网络模型通过反向传播更新网络权重，不断优化全息图，当达到设定的训练轮数时，训练结束；

步骤六：对训练完成的模型输入RGB-D图像，将生成的计算全息图加载到空间光调制器上，从而获得立体图像的重建。

进一步，所述的步骤一中，RGB-D图像是两幅图像：一个是普通的RGB三通道彩色图像，另一个是Depth图像，Depth图像类似于灰度图像，它的每个像素值是传感器距离物体的实际距离。

优选的，所用的RGB-D数据集是MIT-CGH-4K。

再优选的，第一、第二和第三个复振幅生成器是指三个结构相同的神经网络，分别用于训练生成聚焦面和非聚焦面的复振幅场。

再进一步，所述的步骤四中，二值掩模板是通过对归一化深度图按像素值等间隔划分区间生成的与输入图像张量尺寸一致的二值四维张量。

更进一步，所述的步骤一中，将三个复振幅场合成方式是将三个复振幅场的振幅和相位沿通道维度拼接后输入一个仅包含一个下采样和一个上采样的小型神经网络，最后将该网络输出的振幅和相位沿通道维度拼接得到包含三层信息的复振幅场。

进一步，所述的步骤二中，仅相位编码是因为现有的商业化空间光调制器只能单独调制振幅或相位，调制相位型的空间光调制器衍射效率更高；所述的仅相位编码方式是将复振幅全息图输入到作为全息编码器的神经网络中。

进一步，所述的步骤三中，重建的图像是指重建的复振幅光场的振幅。

所述的步骤四中，对输入图像使用不同大小的高斯卷积核进行模糊处理，再分别乘以三个二值掩模板得到三个目标图像，是为了同时对重建图像的聚焦面和非聚焦面添加约束。

所述步骤四中，所述的损失函数是指感知损失(perceptual loss)与均方损失(MSE loss)结合的损失函数。

所述步骤六中，所述训练完成的模型是指训练达到指定次数，此时训练集损失函数收敛，并且在测试集上重建图像质量达到结构相似性指标要求，继续训练对结果无明显提升。

所述步骤六中，所述的获得立体图像的重建是指在对应的衍射距离处接收重建的全息图像。

本发明的有益效果在于：

(1)获得高质量高速度的图像重建：本发明以基于深度学习的方法代替迭代方法，相比于迭代方法，可以更加快速地生成全息图并获得与之相当的重建质量。

(2)不同深度区分明显：本发明通过将目标对象分为不同深度的三层，并在每次训练迭代中随机重建一层，因此可以高质量重建3D对象聚焦于不同深度的图像，不同深度有明显区别。

(3)获得真实的模糊效果：本发明通过为非聚焦的面添加对应的模糊后的目标图像，并且使用多个神经网络联合训练不同层的模糊状态，因此相比于现有的基于深度学习的方法，非聚焦的面不会产生不自然伪影，而是更加真实的模糊效果，并且聚焦面的图像质量不会下降。

附图说明

图1是本发明流程图；

图2是本发明步骤一和步骤四中采用的二值掩模板对图像掩模和采用高斯核对图像模糊处理的演示图；

图3是本发明采用的作为复振幅生成器和全息编码器的神经网络的框架，其中，Netdown为下采样块，Netup为上采样块，GN为分组标准化，ReLU为ReLU激活函数，Conv2d为二维卷积，Delated Conv2d为二维膨胀卷积，ConvTranspose2d为二维转置卷积；

图4是本发明实施例中采用的光路图，其中，1为激光光源，2为滤波片，3为偏振片，4为扩束器，5为准直透镜，6为分束器，7为空间光调制器，8为4f系统，9为孔径光阑，10为相机；

图5是本发明与其他方法对不同深度的仿真重建结果；

图6是本发明与其他方法重建结果的细节对比。

具体实施方式

下面结合附图和实施例对本发明作进一步描述，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等同变换均落于本申请所附权利要求所限定的范围。

参照图1～图6，一种多个神经网络联合训练的真实模糊三维全息图重建方法，包括以下步骤：

步骤一：对于每个训练步骤，从MIT-CGH-4K训练数据集的3800张RGB-D图像中随机载入一张图像并将像素值归一化作为神经网络模型的输入a_target，根据深度图统一量化为三个二进制掩模将目标图像划分为三层，方法如图2所示，二进制掩模的公式为：

其中，D(x,y)是深度图的像素值，interval^{j}是量化间隔；

随机选取三层中的一层作为聚焦面输入第一个神经网络Gomplex_Generator1，ikk＝0，1，2，其余两层/>作为非聚焦面，ikkk＝0，1，2∩ikkk≠ikk，根据非聚焦面与聚焦面相聚的间隔Δd或者2*Δd，输入第二或三个神经网络Gomplex_Generator2、Gomplex_Generator3，所用的三个神经网络结构如图3所示，神经网络包含四个下采样块和四个上采样块，下采样块由两组分组标准化、激活函数和卷积核与一个跳跃连接组成，上采样块由两组分组标准化、激活函数和转置卷积与一个跳跃连接组成；将三层输出的振幅和相位分布分别合成复振幅场并叠加为一个复振幅场/>

步骤二：将复振幅场用角谱法传播到空间光调制器平面得到SLM平面的复振幅场，角谱法的公式是：

f_ASM(Φ(x,y),z)＝IFFT{FFT{e^iΦ(x,y)u_src(x,y)}·H(f_x,f_y,z)}

其中Φ(x,y)是仅相位全息图，H(f_x,f_y,z)是传递函数，λ是波长，z是目标平面和SLM平面的距离，f_x,f_y是空间频率，IFFT、FFT分别是快速傅里叶变换和快速傅里叶逆变换；

将SLM平面的复振幅场输入到第四个神经网络Holo_Encoder中，全息编码器Holo_Encoder的结构如图3所示，输出仅相位全息图H_o；

步骤三：根据目标平面处聚焦面与SLM平面的距离(d+ikk*Δd)，将仅相位全息图反向传播到目标平面，得到重建的振幅和相位分布；

步骤四：对输入图像模糊处理以生成非聚焦面的目标图像，流程如图2所示：对输入的图像a_target用不同高斯半径σ的高斯核进行模糊处理，分别对应聚焦面、与聚焦面间隔Δd的非聚焦面和与聚焦面间隔2*Δd的非聚焦面，高斯模糊的公式是：

其中，X、Y是输入和输出图像，u、v是高斯核的行列，i、j是图像的行列，S是归一化常数，

将模糊处理后的图像分别加载二进制掩模得到新的三个层的目标图像将重建后的振幅加载三个二进制掩模后得到的重建图像/>分别与目标图像/>带入混合损失函数计算，混合损失函数表示为：

此处j表示3D物体第j层，表示j层作为标签的目标振幅，/>表示重建振幅，P(·)表示到感知特征空间的变换，/>表示SLM平面复振幅场的平均振幅，H表示SLM平面复振幅场的振幅，s是设置的比例因子，τ、γ是设置的损失函数相对权重；

步骤五：将得到的总损失值loss_val回传到网络模型通过反向传播更新网络权重，完成一个训练步骤，不断重复训练过程，当训练集的数据完成一次遍历后，一个训练轮次结束，当训练轮次达到指定的训练轮次超参数epoch时，损失函数收敛，重建图像的结构相似性指标SSIM不再有明显提升，训练结束，保存网络模型权重；

步骤六：全息图的重建光路如图4所示，将训练完成的模型计算的全息图加载到空间光调制器上，通过4f系统，在对应的衍射距离处接收全息图的重建像。

在本发明的实施例中，利用图1所示的方法，目标图像分辨率设定为1072x1072，空间光调制器的分辨率为1920x1080，波长设定为520nm。将RGB图像根据深度图分为三层，三层的间隔Δd设定为5mm，目标平面与SLM平面的距离设定为150mm。三个层的重建距离分别是150mm、155mm、160mm。仿真的结果如图5所示，第一行(ori)是未对非聚焦面进行约束的重建结果，第二行(V1)是用一个神经网络作为复振幅生成器并对非聚焦面进行约束的重建结果，第三行(V2)是本发明所述方法的重建结果，图像右下方是聚焦面的结构相似性SSIM指标。可以看到本发明提出的方法可以高质量地重建不同深度聚焦面的图像。图6是对图5中深度160mm处重建结果的放大细节展示结果。可以看到对于非聚焦面，本发明与其他方法相比没有不自然伪影，具有更真实的模糊效果，且没有降低聚焦面的成像质量。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims

1.一种多个神经网络联合训练的真实模糊三维全息图重建方法，其特征在于，包括以下步骤：

2.如权利要求1所述的多个神经网络联合训练的真实模糊三维全息图重建方法，其特征在于，所述的步骤一中，RGB-D图像是两幅图像：一个是普通的RGB三通道彩色图像，另一个是Depth图像，Depth的每个像素值是传感器距离物体的实际距离。

3.如权利要求2所述的多个神经网络联合训练的真实模糊三维全息图重建方法，其特征在于，所用的RGB-D数据集是MIT-CGH-4K。

4.如权利要求1～3之一所述的多个神经网络联合训练的真实模糊三维全息图重建方法，其特征在于，第一、第二和第三个复振幅生成器是指三个结构相同的神经网络，分别用于训练生成聚焦面和非聚焦面的复振幅场。

5.如权利要求1～3之一所述的多个神经网络联合训练的真实模糊三维全息图重建方法，其特征在于，所述的步骤四中，二值掩模板是通过对归一化深度图按像素值等间隔划分区间生成的与输入图像张量尺寸一致的二值四维张量。

6.如权利要求1～3之一所述的多个神经网络联合训练的真实模糊三维全息图重建方法，其特征在于，所述的步骤一中，将三个复振幅场合成方式是将三个复振幅场的振幅和相位沿通道维度拼接后输入一个仅包含一个下采样和一个上采样的小型神经网络，最后将该网络输出的振幅和相位沿通道维度拼接得到包含三层信息的复振幅场。

7.如权利要求1～3之一所述的多个神经网络联合训练的真实模糊三维全息图重建方法，其特征在于，所述的步骤二中，所述的仅相位编码方式是将复振幅全息图输入到作为全息编码器的神经网络中。

8.如权利要求1～3之一所述的多个神经网络联合训练的真实模糊三维全息图重建方法，其特征在于，所述的步骤三中，重建的图像是指重建的复振幅光场的振幅。

9.如权利要求1～3之一所述的多个神经网络联合训练的真实模糊三维全息图重建方法，其特征在于，所述步骤四中，所述的损失函数是指感知损失与均方损失结合的损失函数。

10.如权利要求1～3之一所述的多个神经网络联合训练的真实模糊三维全息图重建方法，其特征在于，所述步骤六中，所述训练完成的模型是指训练达到指定次数，此时训练集损失函数收敛，并且在测试集上重建图像质量达到结构相似性指标要求，继续训练对结果无明显提升；所述的获得立体图像的重建是指在对应的衍射距离处接收重建的全息图像。