CN113901963A

CN113901963A - 具有多场景适应性的透过散射介质模块化成像方法

Info

Publication number: CN113901963A
Application number: CN202111472000.8A
Authority: CN
Inventors: 张毅; 左苇; 郭恩来; 韩静; 柏连发; 赵壮; 朱硕; 冮顺奎; 张明星; 施继玲; 王晓颖
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-01-07
Anticipated expiration: 2041-12-06
Also published as: CN113901963B

Abstract

本发明涉及一种具有多场景适应性的透过散射介质模块化成像方法，包括构建散射介质成像卷积神经网络；改进基础结构；采用即插即用模块与基础结构结合组成新的网络结构；采集数据对卷积神经网络进行训练优化；利用优化后的卷积神经网络进行成像。本发明通过在UNet神经网络结构的基础上增加语义嵌入分支模块SEB，将更多的语义信息引入低级特征，更好地实现低级特征与高级特征之间的融合；结合感受野模块，扩大卷积神经网络的感受野，提升特征层的全局性，优化了成像质量；将特征融合模块、密集连接模块和感受野模块与基础结构结合作为即插即用的系列进行应用，提高了神经网络结构的灵活性。

Description

具有多场景适应性的透过散射介质模块化成像方法

技术领域

本发明涉及一种具有多场景适应性的透过散射介质模块化成像方法，属于机器学习与图像重建技术领域。

背景技术

从记录到的散斑恢复出原物体图像是一个欠定的逆问题，尤其在被厚散射体散射的情况下，弹道光的信号极弱而散射很强，导致经典的解逆问题的最优化算法都无能为力，随着计算机运算能力和数据量的飞速提升，各成像领域开始结合深度学习方法且都取得了不错的成效，光的散射问题亦然。很多的散射成像研究工作引入深度学习方法实现了成像效果提升，突破了经典成像局限。

光在复杂散射介质中的传播过程可等效为输入场经过随机传输矩阵的计算过程，则采集到的散斑图像与原始目标间存在着一定的映射关系，而从散斑到目标就是这个传输过程的逆变换求解。应用深度学习方法去学习模拟目标到散斑的这种光学映射的逆变换过程，从而实现在已知散斑时求解出未知目标。而对于散斑图像这种无结构特征，信息全局分布的图像来说，在别的领域运作很好的网络结构在散斑重建任务中就不一定很有效了。

目前深度学习方法在简单如字符、线条状结构的目标上的重建效果较好，但是在复杂如人脸、自然场景等高频信息丰富的目标上，则很难获得良好的重建结果。

散斑成像领域常见的CNN网络结构和插入模块，我们发现就其功能性它们基本可以被分为两类：感受野提升和多尺度特征融合。如何保证参与“决策”的特征层仍然具有全局性是提升构建CNN网络质量的一个重要依据，而提升全局性的常用手段就是扩大感受野和多尺度特征融合，二者通常合作提升决策层的全局性。

融合不同尺度的特征是提高分割性能的一个重要手段。低层特征分辨率更高，包含更多位置、细节信息，但是由于经过的卷积更少，其语义性更低，噪声更多。因此将更多的语义信息引入低级特征，在高级特征中嵌入更多的空间信息能够弥补低级特征与高级特征之间的差距，提升特征融合的质量。

因此，需要一种更适用于散斑重建任务的深度学习方法。

发明内容

为了解决上述技术问题，本发明提供一种具有多场景适应性的透过散射介质模块化成像方法，其具体技术方案如下：

一种具有多场景适应性的透过散射介质模块化成像方法，包括以下步骤：

步骤1：构建散射介质成像卷积神经网络，所述卷积神经网络选用UNet作为基础结构，所述UNet整体结构呈U形编码-解码对称结构，其中编码部分是多个由3x3的卷积操作和池化操作组成下采样模块提取目标特征，解码部分是与编码部分同样多个由3x3反卷积操作和上采样函数组成的上采样模块恢复信息和图像尺寸；

步骤2：对基础结构进行改进，调整基础网络深度和宽度，设置合适的网络参数量，所述宽度通过改变每层通道数调整；

步骤3：采用即插即用模块与基础结构结合组成新的网络结构，所述即插即用模块为密集连接模块、特征融合模块或感受野模块中的一种，所述特征融合模块为语义嵌入分支模块SEB；

步骤4：采集数据对卷积神经网络进行训练优化，所述训练优化选用简单字符数据和复杂人脸数据两种不同复杂程度的数据，所述简单字符数据和复杂人脸数据均包括训练集、验证集和测试集；

步骤5：利用优化后的卷积神经网络进行成像。

进一步的，所述卷积操作的Padding值均为1，保证卷积前后特征图像尺寸不变，省去特征融合前的crop操作。

进一步的，所述SEB特征融合模块中的相乘操作设计成concat的方法。

进一步的，所述感受野模块为ASPP、RFB或PPM中的一种，所述感受野模块统一设置在编码部分与解码部分中间。

进一步的，所述语义嵌入分支模块SEB的插入方式为：将下采样中所有特征层级大于等于当前上采样特征层级的特征层送入上采样部分进行融合。

进一步的，当选择插入密集连接模块时，每个卷积块后均插入一个密集连接模块，得到新的网络结构DEN-UNet。

本发明的有益效果是：本发明通过在UNet神经网络结构的基础上增加语义嵌入分支模块SEB，进行多尺度特征融合，将更多的语义信息引入低级特征，弥补了网络提取的低级特征与高级特征之间的差距；结合感受野模块，扩大卷积神经网络的感受野，提升CNN特征层的全局性，从而降低散斑重建任务的平均绝对误差，提高结构相似性和峰值信噪比，优化了成像质量；结合密集连接模块增强了特征之间的传递；将特征融合模块、密集连接模块和感受野模块与基础结构结合作为即插即用的系列进行应用，提高了神经网络结构的灵活性。

附图说明

图1是本发明的UNet结构示意图，

图2是本发明的SEB-UNet结构示意图，

图3是本发明的UNet结合感受野模块结构示意图，

图4是本发明的DEN-UNet结构示意图，

图5是本发明的以DMD为双字符目标的采集装置图。

具体实施方式

现在结合附图对本发明作进一步详细的说明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明的具有多场景适应性的透过散射介质模块化成像方法，包括以下步骤：

步骤1：构建散射介质成像卷积神经网络，卷积神经网络选用UNet作为基础结构，UNet整体结构呈U形编码-解码对称结构，其中编码部分是多个由3x3的卷积操作和池化操作组成下采样模块提取目标特征，解码部分是与编码部分同样多个由3x3反卷积和上采样函数组成的上采样模块恢复信息和图像尺寸，与经典的UNet不同，本结构中的卷积操作的Padding值均为1，而不是0，保证了卷积操作前后特征图像的尺寸不变，省去特征融合前的crop操作；

步骤2：对基础结构进行改进，调整基础网络深度和宽度，设置合适的网络参数量，宽度通过改变每层通道数调整；

步骤3：采用即插即用模块与基础结构结合组成新的网络结构，即插即用模块为密集连接模块、特征融合模块或感受野模块中的一种，特征融合模块为语义嵌入分支模块SEB；

当选择插入特征融合模块时，将下采样中所有特征层级大于等于当前上采样特征层级的特征层送入上采样部分进行融合，语义嵌入分支模块SEB在特征融合中的相乘操作设计成concat的方法，得到如图2所示的SEB-UNet结构，当选择插入感受野模块时，感受野模块为ASPP、RFB或PPM中的一种，得到如图3所示的网络结构，在每个卷积块后均插入一个密集连接模块得到DEN-UNet网络结构。

步骤4：采集数据对卷积神经网络进行训练优化，训练优化选用简单字符数据和复杂人脸数据两种不同复杂程度的数据，简单字符数据和复杂人脸数据均包括训练集、验证集和测试集；

步骤5：利用优化后的卷积神经网络进行成像。

对优化后的卷积神经网络进行实验测试，采用简单字符数据和复杂人脸数据两种不同复杂程度的目标散斑，对神经网络散斑重建效果进行了实验测试，实验中以数字微镜阵列DMD为双字符目标，采集装置如图1所示，由LED结合滤光片组成窄带非相干光源，其中LED为Thorlabs M625L4，滤光片为Thorlabs FL632.8-1，其中心波长为632.8±0.2 nm；

用毛玻璃作为散射介质，毛玻璃为Thorlabs DG100X100-220，将毛玻璃放置在物体和相机平面内，物体为数字微镜阵列DMD，其分辨率为1024×768pixel，镜面元件尺寸13.68μm/像素；

利用工业摄像机采集带有物体信息的半点图像，工业摄像机为Balser acA1920-155um，物体表面与散射介质之间的距离为25厘米，散射介质与相机之间的距离为8厘米；

实验测试平台的配置环境为PyTorch 1.2.0，CUDA 10.1和Ubuntu 16.04，搭载NVIDIA GeForce Titan RTX显卡和i9-9940X核心处理器。

其中采集的简单字符数据的训练集数据量为3500张，验证集数据量为500张，测试集数据量为100张；人脸数据采用理想仿真环境获得人脸实验数据，其数据量分别为训练集10000张，验证集234张，测试集3000张；

如表1所示，为UNet与不同模块结合后在字符目标和人脸目标场景下的MAE、SSIM和PSNR：

表1 UNet与不同模块结合后在字符目标和人脸目标场景下的MAE、SSIM和PSNR

字符	平均绝对误差	结构相似性	峰值信噪比(dB)	参数量(MB)
					DEN-UNet	0.0139	0.9228	25.43	295.19 ①
RFB-UNet	0.0132	0.9316	25.90	299.31 ③
					ASPP-UNet	0.0121	0.9316	26.33	302.60 ⑤
UNet	0.0113	0.9377	26.92	297.01 ②
					PPM-UNet	0.0110	0.9355	27.10	301.91 ④
SEB-UNet	0.0109	0.9371	27.10	306.27 ⑥
					人脸	平均绝对误差	结构相似性	峰值信噪比(dB)	参数量(GB)
DEN-UNet	0.1059	0.6118	17.28	1.165 ④
					RFB-UNet	0.0839	0.6237	18.57	1.170 ⑤
PPM-UNet	0.0824	0.6273	18.79	1.161 ③
					UNet	0.0819	0.6364	18.96	1.160 ②
ASPP-UNet	0.0794	0.6452	19.19	1.182 ⑥
					SEB-UNet	0.0781	0.6653	19.27	1.140 ①

对比表中数据可知，无论是通过经典结构与感受野模块ASPP、RFB或PPM结合来提升感受野，还是在经典结构中插入SEB语义嵌入分支模块进行多尺度特征融合，相对于经典的UNet结构，均有提升，其中加入SEB语义嵌入分支模块的成像性能最为优异，以最少的参数量实现了最高的评价指标，散斑图像具有全局分布且无结构特征信息的特点，导致网络提取到的低级特征中包含的细节信息极少，不足以真正达到高低特征融合的目的，调整神经网络的深度后，随着持续下采样，特征图中语义信息渐渐丰富，此时与上采样部分做特征融合能更好地提供语义信息，因此相较于常见的融合高分辨率低级特征信息的特征融合方式，SEB-UNet中融合高级特征语义信息的方式更为有效。

同时，本发明还将SEB特征融合模块中的相乘操作设计成传统的concat操作，在简单字符目标场景下相比修改之前有少量提升，分别以相乘和传统的concat操作作为融合方式在字符目标场景下的结果对比如表2所示：

表2 相乘和传统的concat操作下字符目标场景结果对比

字符	平均绝对误差	结构相似性	峰值信噪比(dB)	参数量(MB)
					UNet+SEB (mul)	0.0109	0.9371	27.10	306.27
UNet+SEB (cat)	0.0109	0.9398	27.35	288.21

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种具有多场景适应性的透过散射介质模块化成像方法，其特征在于：包括以下步骤：

步骤5：利用优化后的卷积神经网络进行成像。

2.根据权利要求1所述的具有多场景适应性的透过散射介质模块化成像方法，其特征在于：所述卷积操作的Padding值均为1，保证卷积前后特征图像尺寸不变，省去特征融合前的crop操作。

3.根据权利要求1所述的具有多场景适应性的透过散射介质模块化成像方法，其特征在于：所述SEB特征融合模块中的相乘操作设计成concat的方法。

4.根据权利要求3所述的具有多场景适应性的透过散射介质模块化成像方法，其特征在于：所述感受野模块为ASPP、RFB或PPM中的一种，所述感受野模块统一设置在编码部分与解码部分中间。

5.根据权利要求1所述的具有多场景适应性的透过散射介质模块化成像方法，其特征在于：所述语义嵌入分支模块SEB的插入方式为：将下采样中所有特征层级大于等于当前上采样特征层级的特征层送入上采样部分进行融合。

6.根据权利要求1所述的具有多场景适应性的透过散射介质模块化成像方法，其特征在于：当选择插入密集连接模块时，每个卷积块后均插入一个密集连接模块。