CN115633243A

CN115633243A - 基于传输矩阵理论的透过散射介质泛化成像方法

Info

Publication number: CN115633243A
Application number: CN202211527434.8A
Authority: CN
Inventors: 韩静; 柏凯旋; 郭恩来; 柏连发; 张毅; 赵壮; 朱硕; 师瑛杰
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-01-20
Anticipated expiration: 2042-12-01
Also published as: CN115633243B

Abstract

本发明涉及一种基于传输矩阵理论的透过散射介质泛化成像方法，包括如下步骤：采集散斑图案，使用包括数字字符目标、字母和汉字目标的实验数据。采用因子化卷积方法，损失函数为均方误差和负皮尔逊相关系数的结合。测量阶段使用字符目标制作的标定图像进行TM的测量，成像阶段将DL数据挖掘能力与测量的TM相结合，通过基于TM原理的物理自闭环约束的骨干网络进行训练而重建成像。成像阶段借助相位检索算法恢复的TM进行成像，相位检索算法结合进行测量阶段恢复的TM进行成像。网络结构大大减少了TM测量阶段所需的数据量，成像阶段的自闭环约束也使成像网络减少了对训练集完整性的过分依赖。

Description

基于传输矩阵理论的透过散射介质泛化成像方法

技术领域

本发明涉及一种基于传输矩阵理论的透过散射介质泛化成像方法，属于精度图像处理技术领域。

背景技术

当光束在散射介质中传播时，散射介质对入射光的振幅和相位进行了随机调制，使得探测器上捕捉到一团近似杂乱无章的散斑。散射现象的存在，给我们的实际生活和工作带来了很多困扰，用看不见目标信息的散斑图案进行成像是一个具有挑战性的问题。目前抗散射成像技术得到了快速的发展，例如，基于光学记忆效应（OME）的散斑相关成像方法、波前整形方法、时间选通方法、以及基于反馈控制调节的方法。然而，这些成像技术存在光学视场角（FOV）受限、迭代次数多等局限。传输矩阵（TM）描述了散射介质的入射光场和出射光场之间的变换关系，如果测量得到TM，散射介质可以等同于传统成像系统中的透镜，进而可以还原出隐藏目标的二维空间结构。

目前TM的测量方法包括：全息干涉法，时间调制相位法，以及双相位检索法。全息干涉法首先测量校准信号的输出场，然后利用矩阵反转来计算TM，并进一步根据测量的TM进行成像。然而，全息干涉测量法需要额外的参考臂，这需要光学系统有足够高的稳定性。时间调制相位法在时间上延迟了空间光调制器（SLM）的一半像素相位，然后由SLM产生的两束信号光在成像面上进行干涉。这种方法在没有参考臂的情况下完成了TM测量，而参考现有技术只是通过透过散射介质聚焦来验证其测量的TM的准确性，并没有进行成像。全息干涉测量法和时间调制相位法都需要对入射波前的相位信息进行调制并测量输出光场，受到SLM的调制速度和光学系统稳定性的限制。使用相位检索算法来估计TM中的复数元素，有效降低了光学系统的复杂性和物理稳定性要求。双相位检索方法进行了两次相位检索：一次用于TM测量，一次用于成像。当对一个像素数为N的目标进行成像时，TM恢复至少需要4N次校准信号测量，比较耗时。传统的相位检索算法对噪声敏感，导致重建图像的背景中普遍存在噪声干扰。虽然上述方法可以完成TM测量，但需要控制相位信息以及测量输出光场。此外，重建的结果有背景噪声，需要进一步加强。

深度学习（DL）通过学习样本数据的内在规律和表示层次，具有解决复杂成像难题的能力，在去噪、超分辨率成像、图像重建等复杂问题上，都表现出比传统方法更好的求解能力。现有的DL方法一般采用端到端的网络结构来恢复散射介质后的隐藏目标，这在很大程度上依赖于数据拟合过程，没有充分结合散射介质的散射特性。网络的训练过程倾向于收敛到局部最优解，不能对不同特征的目标进行泛化成像。这也使得现有的DL方法大多依赖于训练集的数据完备性，需要足够大的数据量，同时尽可能地覆盖所有要重建的目标类别。因此将物理原理和网络结构结合起来，可以在一定程度上提高图像重建的鲁棒性。TM理论的引入有望使网络摆脱对训练集完备性的过度依赖，提高网络对目标类型和成像场景的泛化能力。

在借助DL方法解决TM相关问题方面，在《Optics Communications》2021年第16期作者为Zhang W等人的《Single image detecting enhancement through scatteringmedia based on transmission matrix with a deep learning network》中提出了一个深度卷积神经网络（D-CNN）来实现基于TM重建的图像去噪和超分辨率。但该网络与TM理论没有直接联系，其中所使用的TM是由传统的四步相移干涉法得到的。在《Opt Express》2020年9月28日刊登的作者为Chen H等人的《Binary amplitude-only image reconstructionthrough a MMF based on an AE-SNN combined deep learning model》中采用深度学习的方法，通过用目标-散斑图案数据对训练网络模型，将训练后的网络的权重和偏置参数等同于矩阵反演计算，在没有实际测量TM的情况下，实现目标恢复。且在2020年发表的《Deeplearning enabled design of complex transmission matrices for universaloptical components》一文中，Dinsdale N J等人提出了一种DL方法，利用多模干扰设备内的弱散射扰动模式设计任意的TM，其中TM只有三个输出通道。然而，对于256×256像素的散斑图案，相应的TM包含65536个输出通道，所以这种方法只适用于多模干扰设备的应用场景，不能迁移到透过散射介质成像的任务。目前与TM相关的DL方法没有充分利用物理方法的泛化能力和网络的优化能力，也没有将TM的物理原理与网络设计相结合。将DL应用于TM测量和用测量的TM成像仍然是一个具有挑战性的问题。

发明内容

发明目的：针对上述现有存在的问题和不足，本发明的目的是提供一种基于传输矩阵理论的透过散射介质泛化成像方法，适当的网络结构大大减少了TM测量阶段所需的数据量，成像阶段的自闭环约束也使成像网络减少了对训练集完整性的过分依赖，仅用10对训练数据就实现了SSIM为0.84的图像重建。此外，测量阶段和成像阶段互不依赖，都可以作为独立的方法与传统的相位检索方法一起完成TM测量和基于TM的成像过程。本发明提出的方法可以推动基于TM的成像技术发展，为光学成像场景中的实际应用提供启发性的参考。

技术方案：为实现上述发明目的，本发明采用以下技术方案：

一种基于传输矩阵理论的透过散射介质泛化成像方法，包括如下步骤：

步骤1：采用工业相机来采集散斑图案，激光器发出的入射光被准直透镜扩束，DMD用于显示振幅图像信息，全内反射棱镜转动光路进行数据采集，使用的实验数据包括数字字符目标、字母和汉字目标；

步骤2：将具有编码器-解码器结构的Erf-net作为骨干网络，采用1*n和n*1的因子化卷积方法，损失函数为均方误差和负皮尔逊相关系数的结合；

步骤3：测量阶段使用字符目标制作的标定图像进行TM的恢复；

步骤4：成像阶段将DL数据挖掘能力与测量的TM相结合，通过基于TM原理的物理自闭环约束的骨干网络进行训练而重建成像，平均SSIM在0.84以上，平均PSNR能够达到22dB以上，对数据集组合的泛化重建结果进行定量评价分析，分别计算三种类型数据的总体评价指标和单一评价指标；

步骤5：成像阶段借助相位检索算法恢复的TM进行成像，相位检索算法结合进行测量阶段恢复的TM进行成像。

进一步的，步骤1中所述数字字符目标是从MINIST数据库中随机选取的，制作成任意位置的字符目标，将TM测量的数字字符数据集命名为Part A，将用于图像重建的数字字符数据集命名为Part B，将字母和汉字组成的自制数据集被命名为Part C，使用非正交的校准信号。

进一步的，步骤1中工业相机的像素数为相机像素数≥32*32。

进一步的，步骤1中工业相机的像素数为1920×1200，像素尺寸为5.86μm。

进一步的，步骤2中损失函数公式如下：

，

，

其中，

和

分别是计算出的散斑图案和相应的真实图像，w和h是散斑图案的宽度和高度，

和

是平均值，

是标准化输出。

进一步的，步骤2模型运行在Ubuntu18.04环境的Pytorch1.7.0框架下，使用的硬件运算设备为一张NVIDIA GeForce RTX 3090图像处理单元，每个CNN的Adam优化器迭代训练300个epoch，前200个 epoch学习率设为1E-4,接下来100个epoch学习率调整为1E-5。

有益效果：与现有技术相比，本发明具有以下优点：基于TM原理的约束作用，提出了一种基于深度学习的方法，实现了对隐藏在散射介质后面的未知类别的目标成像。该网络包含两个阶段，测量阶段完成了TM的测量，成像阶段通过测量好的TM实现散斑图案的重建。TM理论描述的成像物理过程被引入作为网络优化方向的约束条件，这有效地提高了所提出方法对未知类别目标的泛化能力。测量阶段和成像阶段互不依赖，本发明提出的网络可以替代双相位检索方法的相应阶段，实现完整的TM测量和基于TM的图像重建，也证明了本方法测量得到的TM的准确性。由于网络的结构适当，测量阶段所需的校准数据量大大减少。测量阶段可以用少于4N张校准图像完成TM测量，其中N表示要恢复的目标的总像素数。成像阶段的输入和输出之间形成了一个自闭环约束，因此，对应输入散斑的原始目标不需要参与网络的优化。成像阶段进一步摆脱了对训练集完整性的依赖，仅使用10对训练数据便实现了SSIM为0.84的重建。无论TM是使用传统的相位检索算法还是本发明提出的测量阶段进行测量，所提出的成像阶段都能获得比Gechberg-Saxton（GS）算法更好的重建结果。深度学习框架的成像能力通过结合物理原理得到了增强，这为通过散射介质成像提供了更多的潜在应用。

附图说明

图1是本发明的神经网络架构和TM的测量结果示意图，

图中：(a)为TM标定模块和图像重建模块，①—网络输入的初始TM，②—TM的标定结果，③—原始目标，④—出射光场，⑤—计算得到的散斑图案，⑥—采集的散斑图案，⑦—重建结果，⑧—测量的TM，(b)为(a)中的测量阶段的TM标定结果；

图2是本发明的实验系统装置和实验过程示意图，

图中：(a)为基于TM成像的实验装置，Cl—准直透镜，TIR—全内反射棱镜，DMD—数字微镜装置，(b)为TM测量的顶部的校准信号和相机采集的底部相应散斑图案；

图3是本发明的实施例的成像阶段的数字字符数据重建结果示意图，

图中：(a)为重建结果相对应的真实图像，(b)为用于重建的散斑图案，(c)为重建结果；

图4是本发明的实施例的成像阶段的跨域泛化重建结果示意图；

图5是本发明的实施例的两种网络结构不同数量的训练数据所对应的重建结果示意图；

图6是本发明的实施例的骨干网络和重建结果示意图，

图中：(a)修改后的成像阶段的网络结构，(b)基于TM(M=N=1024)的不同方法的重建结果和相应的PSNR指标，右侧的TM来自测量阶段，(c)基于TM(M=1024, N=256)的不同方法的重建结果和相应的PSNR指标，右侧的TM来自测量阶段；

图7是本发明的实施例的骨干网络结构及重建结果，

图中：(a)为修改后的成像阶段的骨干网络结构，(b)为不同方法的重建结果和相应的PSNR指标，右边的TM部分来自相位检索算法；

图8是本发明的实施例与未利用TM先验的DL重建方法的重建结果比较示意图，

图中：(a)为小写字母的重建结果，(b)大写字母的重建结果，(c)汉字的重建结果；

图9是本发明的实施例在非相干光源照明下的实验结果，

图中：(a)在非相干光源照明下捕获的散斑重建结果，(b)校准的TM的振幅和相位。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于TM理论的成像原理

在载有目标信息的入射光通过散射介质向前传播的过程中，探测器采集的散斑图案包含了出射光场的相位信息。TM可以从散斑图像和相应的校准信号中测出，并与矩阵反演、OPC或相位检索等重建方法相结合，实现图像重建。本发明提出的方法包括两个阶段，分别实现TM测量和图像重建。

测量阶段必须对散射介质的随机分布特性进行充分的描述，这也是使用该网络与TM理论进行关联的根本原因。经过同一散射介质后，入射光场的振幅和相位都发生线性的变化，而TM是描述这种线性关系的数字表示。TM的实部和虚部分别代表散射介质的振幅和相位的调制。这个过程可以表示为如下：

（1）

式中，

表示散射介质入射面上第n个子单元的入射光场，

表示成像面上第m个子单元的出射光场，

表示TM中的传输复系数。

然而，探测器接收到的散斑图案

是出射光场

的强度响应，可以通过以下方式计算：

（2）

由公式（2）知，

包含出射光场的振幅和相位信息。但相位信息不能直接获得，需要多次测量校准信号的出射光场。

为了对TM更加方便、高效的测量，本发明使用数字微镜装置（DMD）来加载振幅目标。为了更加直观的表达，公式（2）可以改写为如下：

（3）

式中，P为校准信号的数量，

表示与第α次采集相关的输入校准信号对应的列向量，N为校准信号中的像素数。

对应于相机采集的散斑图案的列向量，M是相机上使用的像素数，T是未知的复数TM。等号表示每组校准信号和散斑图像都满足固定的传输关系，这可以利用CNN的数学解算能力得到。根据公式（3），当T和

已知时，原始目标

不能通过直接的矩阵逆运算来重建，但是

可以利用相位检索算法进行恢复。从

成像是一个典型的具有优化解的反问题，DL方法也可以在TM的约束下重建

。该方法作为首次应用，可以作为基于TM成像的启发和参考。

基于TM学习的网络架构

为了用DL方法来解决基于TM的成像问题，需要利用散射介质的散射特性。本发明提出的成像网络架构如图1（a）所示，该网络由两个阶段组成，即测量阶段和成像阶段。测量阶段试图学习TM，而成像阶段则进行图像重建。图1（a）中两个阶段的TM分别用②和⑧表示，这也表明两个阶段间不相互依赖，测量阶段使用的TM可以通过其他算法恢复。

测量阶段是使用DL方法对TM进行校准的过程。DL的本质是学习网络的输入和输出之间的特征表达，并利用学到的参数模型对输入数据进行预测。在通过不透明层成像时，现有的网络的输入-输出是散斑图像和重建结果。但是对于TM测量，网络要输出一个用来表示所有校准图像（即散斑图案和原始目标）之间的映射关系。因此，本发明方法将随机生成的矩阵作为网络的输入，期望网络学习初始矩阵和期望矩阵之间的特征表达，将初始矩阵优化为期望的TM。在这种训练方法下，网络每次迭代中的输出受嵌于公式（3）中的计算过程约束。网络训练中，每一组标定图像都会进一步提高重建TM的准确性，这有助于引导网络走向最优解。此外，网络训练是一个不断优化这个初始矩阵的过程，所以这个初始矩阵在训练过程中是固定不变的。

成像阶段结合测量好的TM进行图像重建，网络试图学习入射光传播的逆过程来实现通过散射介质成像。如图1(a)中网络输出⑦和TM⑧可以计算得到散斑图像⑤，通过约束其与原始散斑（即网络的输入）的一致性来约束网络的输出，进而可以重建出相应的目标。这形成了一种自闭环约束，当计算出的散斑和网络的输入一致时，网络就可以重建出最好的结果。这种成像方法不需要散斑对应的原始目标来参与优化训练，减少网络对训练数据集完备性的过度依赖，也是用少量样本训练数据获得高保真成像结果的前提条件。

本发明使用具有编码器-解码器结构的Erf-net作为骨干网络，并将Erf-net结构修改为更适合网络两个阶段的训练任务。因为PyTorch框架中的张量只能支持实数运算，并且TM的精确测量需要测量阶段的复数操作。如图1(a)测量阶段所示，所提出的方法将通道的数量增加了一倍，来实现复数运算，这样TM的实部和虚部就被两个实矩阵所取代。由公式（3）可知，TM每一行的元素都需要与校准信号进行矩阵乘法运算，因此TM的行和列是不相关的，相应的特征是相互独立的。该网络采用1*n和n*1的因子化卷积方法，便于对TM的行和列维度进行特征学习，提高了TM测量的准确性。此外，因子化卷积法在保持参数数量的前提下降低了计算的复杂性。在成像阶段，所提出的方法在网络结构中增加了一个激活函数层，这有利于通过结合其他网络层来提升去噪能力。

一个合适的损失函数有利于优化网络的权重，所提出的方法设计了一个结合了均方误差（MSE）和负皮尔逊相关系数（NPCC）的损失函数。损失函数可计算如下：

（4）

（5）

（6）

式中，

和

是平均值，

是标准化输出。模型运行在Ubuntu18.04环境的Pytorch1.7.0框架下，使用的硬件运算设备为一张NVIDIA GeForce RTX 3090图像处理单元。每个CNN的Adam优化器迭代训练300个epoch，前200个 epoch学习率设为1E-4,接下来100个epoch学习率调整为 1E-5。

实验和结果

3.1试验系统和数据采集

用于数据采集的光学成像系统如图2（a）所示，660nm波段的激光器发出的入射光被准直透镜扩束，与准直透镜结合的第一个光阑的直径为8 mm，散射介质后面的第二个光阑的直径为10 mm。DMD（像素数：1024×768，像素大小：13.68μm）用于显示振幅图像信息，全内反射（TIR）棱镜可以转动光路方便数据采集。散射介质为Thorlabs公司生产的220grit毛玻璃，位于CMOS和DMD之间，采用工业相机（像素数：1920×1200，像素尺寸：5.86μm）来采集散斑图案。DMD和散射介质之间的距离是35cm，散射介质与相机之间的距离是8cm。网络训练时截取相机采集的散斑中心的32×32像素，对应于一个具有1024个输出通道的TM。

为了验证所提出的方法对不同类别隐藏目标的泛化能力，本发明中使用的实验数据包括数字字符目标、字母和汉字目标。数字字符目标是从MINIST数据库中随机选取的，制作成任意位置的字符目标。为了证明成像阶段的泛化性，将3000个数字字符中的前2700个作为测量阶段使用的训练数据，将后300个作为成像阶段的训练数据。在数据的处理中，将TM测量的数字字符数据集命名为Part A，将用于图像重建的数字字符数据集命名为PartB，将字母和汉字组成的自制数据集被命名为Part C，包含100个小写数据（Part D）、150个大写数据（(Part E）和50个汉字数据（Part F），共300组，用于验证成像阶段的泛化能力。实验中所有的隐藏目标和斑点图案都是灰度的。

在本发明的实验中，测量阶段的网络训练均采用Part A来测量TM。虽然使用非正交的校准信号，本发明的每个实验仍然可以实现对TM的成功测量，这证明了所提方法的适用性，图2(b)展示了部分校准图像。

3.2基于TM 的成像结果

3.2.1 基于DL方法的TM测量和图像重建

提出的方法首先用Part A测量TM，图1（b）为网络对TM的振幅和相位矩阵的测量结果。有了测量好的TM，成像阶段可以从散斑中重建相应的隐藏目标。本发明选取结构相似性（SSIM）和峰值信噪比（PSNR）两个评价指标的统计平均作为客观指标来评价重建结果。图3展示了Part B的重建结果，重建的目标具有精确的细节特征和较少的背景噪声。如下表1第二行显示了Part B对应的评估结果，平均SSIM在0.84以上，平均PSNR能够达到22dB以上。

表1 不同类别的重建目标的定量评价结果

为了进一步验证成像阶段的泛化能力，所提出的方法选择了与TM测量不同类型的字母和汉字目标（Part C）。如图4所示，测量阶段通过数字字符目标测量TM。该网络的泛化能力通过重建不同于最初用于TM测量的校准图像的类别的目标进行成像来证明。大写字母和小写字母目标可以通过散射介质准确还原，而且重建的结果具有较高的信噪比。尽管汉字目标（Part F）比数字和字母目标（Part D和Part E）有更复杂的结构信息，但仍然可以得到可靠的泛化成像结果。对数据集组合的泛化重建结果进行定量评价分析，分别计算了三种类型数据的总体评价指标和单一评价指标。从表1知，汉字目标的SSIM指标略低，但字母和汉字（Part C）的平均SSIM仍在0.80以上，平均PSNR可以达到20dB。成像阶段将DL数据挖掘能力与测量的TM相结合，提高了网络对未知类别目标的泛化能力。

实验结果表明，作为一种新的TM测量的全新DL方法，TM可以在没有出射光场测量的情况下被恢复。数字字符目标的成像结果表明，从字符数据集的重建结果上可以看出，对于标定TM中使用的同类数据集，该网络可以实现包含位置信息的精准重建。当对未知类别的字母和汉字目标成像时，所提出的方法仍能完成高还原度的重建，这也反映了方法中引入的TM原理的有效性。此外，重建的目标图像具有相对较高的信噪比。

3.2.2 用较少的数据量进行成像

成像阶段引入了基于TM原理的物理自闭环约束，降低了对样本数据量的要求，只需要少量的训练数据就可以实现高保真成像。如图5所示，展示了训练数据量从300个递减至10个时的重建结果，随着重建数据量的减少，以Erf-Net为骨干网络的重建能力逐渐降低，当数据量减少到150个时，重建出了模糊的结果。最终，当训练数据量为10时，重建不出目标。提出的方法的重建能力可以通过用U-Net代替骨干网来提高。在训练数据量从300个减少到10个的过程中，以U-Net为骨干网络的重建质量没有明显下降。当训练数据量减少到10时，以U-Net为骨干网络仍能获得可靠的重建结果。从表2的客观指标结果来看，与主观评价一致，以Erf-Net为骨干网络的重建指标在训练数据量为150和10时分别出现了明显的下降。然而，对于U-Net作为骨干网络，训练集数据量为10时，其平均SSIM和PSNR仍在0.84和22dB以上。该框架中的骨干网络可以被替换，以适应不同场景下的成像需求，满足成像速度要求或适应更复杂的重建任务。

表2 基于Erf-Net和U-net网络在不同训练数据量下重建的数字字符目标的定量评估结果

3.2.3 网络结构中两个阶段的各自独立性

测量阶段和成像阶段是互不依赖的，成像阶段可以通过相位检索算法测量的TM恢复隐藏目标。同时，由测量阶段校准的TM也适用于相位检索算法来重建目标。本节分别验证了测量阶段和成像阶段的独立性。

为了证明由测量阶段测量的TM的准确性，将该TM用于GS相位检索算法成像。对于基于测量的TM的隐藏目标重建过程，输入通道的数量是校准信号的总像素数N，输出通道的数量是截取散斑的总像素数M，M相对于N越大，越有助于获得更准确的重建结果。在满足M≥4N-4的情况下，传统方法可以获得可靠的重建结果。测量阶段首先获得一个M=1024和N=1024的TM，此时M等于N，远小于4N-4。如图6(b)所示，当M等于N时，传统的GS算法不能恢复隐藏的目标结构，这与基本的TM理论是一致的。受益于数据驱动方法和TM理论的有机结合，所提出的成像阶段即使在M远小于4N的情况下，也能恢复具有锐利边缘的隐藏目标结构，并获得PSNR优于20dB的重建结果。

将截取的散斑的大小仍设为32×32，以保证输出通道与之前的实验相比没有变化。为了满足M>4N-4的条件，将输入通道的数量减少为N=256。为了使网络的输入和输出满足M和N的比例关系，减少网络的上采样数量来改变网络的输出大小，将图1(a)所示的成像阶段的网络结构改为图6(a)中的网络结构。如图6（c）所示，成像阶段和GS算法都可以通过结合测量阶段校准的M=1024和N=256的TM来重建目标，这也表明测量阶段校准的TM是准确的。然而，与成像阶段相比，GS算法的重建结果有更多的背景噪声，目标'0'和'1'的图像对比度较低，目标结构大多被淹没在噪声中，相应的PSNR指标也低于成像阶段。当使用测量阶段校准的TM成像时，GS算法在M=4N的TM上比M=N的重建能力更好，而成像阶段对两者的重建效果更好，相应目标'1'的PSNR都可以达到20dB。所提出的基于TM原理的DL方法具有优越的数据挖掘能力，获得了更可靠的重建结果。

在验证测量阶段校准的TM的准确性后，本发明在基于Ref. 15提供的M=256N=65536的TM上，进一步验证了成像阶段对相位检索算法校准的TM的重建任务的适用性。为了适应数据集中的数据大小，图1(a)所示的成像阶段的网络结构通过增加下采样层的数量和将上采样的卷积步长设置为1而改变为图7(a)所示的网络结构。如图7(b)所示，结合Ref.15所提供的TM，成像阶段可以恢复具有鲜明边缘结构的目标，这表明成像阶段作为基于TM的图像重建的DL方法是有效的。尽管成像阶段重建的结构信息与原始目标之间存在差异，但重建结果的PSNR已经高于17dB，实现了隐藏目标的高质量重建。此外，成像阶段获得的背景噪声较小，相应的PSNR指标也比GS算法高。

对比本节所示的两个实验，传统的GS算法在M=N的TM情况下不能获得可靠的结果。即使TM的输入和输出通道数的关系提高到M=4N，GS算法得到的重建结果也有不清晰的边缘结构和大量的背景噪声。当TM的通道数进一步提高到M=256N时，GS算法可以得到边缘相对清晰的重建结果。虽然图6(c)呈现的结果有明显改善，但仍有一些背景噪声，PSNR指标和视觉效果都弱于本发明方法。与GS算法相比，无论TM是通过传统方法还是本发明方法的测量阶段进行测量，本发明方法都能获得清晰的边缘结构、背景噪声抑制较好的重建结果。即使在传统方法无法处理的M=N的TM中，本发明方法也能取得良好的结构恢复效果。所有上述实验都证明了所提出的成像阶段的良好重建优化能力。实验还证明，测量阶段和成像阶段都可以与传统方法结合起来，实现完整的TM校准和成像过程。这也验证了这两个阶段之间的独立性，可以灵活地应用于不同的TM重建任务。

分析

A.与端到端的DL方法的重建结果对比

通过TM表征的物理信息，不同类别目标之间通过散射介质的线性关系可以被有效地提取出来，这为CNN获得有用信息和重建不同类别的目标提供了参考。为了证明成像阶段使用测量的TM作为物理约束的优越性，将所提出的方法与没有TM先验信息的端到端DL方法进行比较。3.2.1节中的实验数据集被用于端到端DL方法的成像实验，数字字符数据（PartA）作为训练数据集，字母（Part C）和汉字（Part F）作为测试鲁棒性的成像目标。成像结果的对比如图8所示，客观评价结果的统计平均值如表3所示，没有TM物理信息的DL方法重建出的结果很差。字母和汉字目标的类别与训练数据集的类别不同，给不包含物理先验的端到端网络模型增加了泛化困难，大多数目标如 "g"、"E "和 "己 "的重建结果都不正确。虽然少数目标可以被区分出来，如字母 "S "和 "J"，但与真实图像仍有很大差异，SSIM的客观指标也低于0.6。成像阶段可以高保真地还原字母和汉字目标，平均SSIM可以达到0.80。与没有TM先验信息的端到端DL模型相比，所提出的方法对未知类别目标具有更好的泛化能力，验证了在网络设计过程中结合TM原理的有效性。

表3 本方法与未利用TM先验的客观指标的比较结果

B.非相干光照明下的成像

上述实验和分析是在相干光照明条件下进行的。由于所提出的方法结合了DL方法的强大优化能力和TM原理，本小节对TM是否能在非相干光照明下被恢复进行了实验验证。

本发明的方法使用Part A进行TM测量，Part B&C进行成像，这可以验证成像阶段对类似和未知类别目标的泛化能力。测量阶段首先对TM进行校准，图9（b）显示了TM的振幅和相位矩阵的相应校准结果。成像阶段估计一个初始振幅目标，通过TM理论的自闭环约束进行更新，相应的重建结果如图9（a）所示。数字字符目标的重建结果具有高精度的结构信息。即使是与数字字符类别不同的字母和汉字目标，也可以得到可靠的重建结果。与数字和大写、小写字符目标相比，汉字目标的结构更复杂，训练样本更少。相应的重建质量有轻微的下降，但仍有较高的辨识度，如表4的客观定量评价所示。例如，较简单的汉字 "八 "有更多的细节信息，而结构复杂的汉字 "禾 "则缺乏一些细节，但它很容易被区分出来。对于在非相干光源照明下采集的不同类别的散斑，所提出的基于TM原理的DL方法也具有良好的泛化能力。

考虑到由入射波前不规则引起的噪声，由公式2表示的物理过程可以表示为：

，（7）

式中，

表示输入光场，

表示输出光场，T是表征散射介质特性的TM，

表示非理想波前带来的噪声。由于照明光是相干的，

可以被忽略。与相干光相比，非相干光的波前相位变化不规则，此时的

不能再被TM校准过程所忽略。如果测量入射光的波前，传统方法也可以在非相干光源的照射下进行TM校准。现有的TM校准方法并不测量入射光的波前，而是将入射光的波前相位设定为规则的，在相干光源的照射下进行TM校准。因此，对于传统的TM 校准方法，在这种条件下不可能求出T。所提出的方法引入的神经网络对优化问题有很好的求解能力，在入射波前相位变化不规则的干扰下，也能成功地测得TM。

本发明介绍了一种基于TM的学习方法，用于通过散射介质成像。具体来说，通过结合TM的物理原理，构建了一个高效的DL框架来完成TM测量和图像重建。这是一种新的泛化成像方法，网络引入测量好的TM可以作为自闭环约束，来实现不同类别目标的重建。而且通过结合DL方法的优化，重建结果具有较高的信噪比。在未来，可以考虑更大尺寸的TM测量和更复杂的目标，并应用于多模光纤以及彩色广谱成像。

根据第3和第4节的实验结果，将本方法得到关键点和前景总结如下：

(i) 本发明提出了一个基于TM物理原理的DL框架，用于通过散射介质成像。借助DL的数据挖掘和优化约束能力，成像阶段可以用测量阶段用少于4N的校准图像来恢复的TM来获得可靠的重建结果，并且恢复的数字字符数据集的平均PSNR和SSIM分别高于22dB和0.84。受益于TM原理的引入，成像阶段可以用少量的训练数据获得目标的高保真重建结果，并将泛化能力扩展到没有TM先验的端到端网络无法可靠重建的未知类别目标。

(ii) DL框架中的测量阶段和成像阶段分别实现TM校准和图像重建。在测量阶段校准的TM不仅可用于成像阶段，还可用于GS算法的图像重建。成像阶段也可以使用由相位检索算法校准的TM来进行图像重建。

(iii)受益于合理的自闭环约束，成像阶段在测量阶段校准的M=N的TM上可以获得可靠的成像结果。当TM经过高精度校准时，更大的M对应于更好的成像结果。增加TM的大小也增加了网络中的参数数量，这又增加了网络的学习难度。此外，DL模型中使用的骨干网络会影响成像阶段的输出结果，可以根据实际成像场景更换骨干网络来提高重建质量。在牺牲重建速度和用更复杂的U型网络替换骨干网络后，成像阶段的重建可以通过10组数据训练实现。

Claims

1.一种基于传输矩阵理论的透过散射介质泛化成像方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于传输矩阵理论的透过散射介质泛化成像方法，其特征在于：步骤1中所述数字字符目标是从MINIST数据库中随机选取的，制作成任意位置的字符目标，将TM测量的数字字符数据集命名为Part A，将用于图像重建的数字字符数据集命名为Part B，将字母和汉字组成的自制数据集被命名为Part C，使用非正交的校准信号。

3.根据权利要求1所述的基于传输矩阵理论的透过散射介质泛化成像方法，其特征在于：步骤1中工业相机的像素数为相机像素数≥32*32。

4.根据权利要求1所述的基于传输矩阵理论的透过散射介质泛化成像方法，其特征在于：步骤1中工业相机的像素数为1920×1200，像素尺寸为5.86μm。

5.根据权利要求1所述的基于传输矩阵理论的透过散射介质泛化成像方法，其特征在于：步骤2中损失函数公式如下：

，

，

，

其中，

和

分别是网络训练过程中由TM和原始目标计算得到的散斑和采集的真实散斑，分别表示图1（a）中的⑤和⑥，

和

是散斑图案的宽度和高度，

和

是对图像进行求平均值运算，

表示对图像做归一化处理。

6.根据权利要求1所述的基于传输矩阵理论的透过散射介质泛化成像方法，其特征在于：步骤2模型运行在Ubuntu18.04环境的Pytorch1.7.0框架下，使用的硬件运算设备为一张NVIDIA GeForce RTX 3090图像处理单元，每个CNN的Adam优化器迭代训练300个epoch，前200个 epoch学习率设为1E-4,接下来100个epoch学习率调整为1E-5。