CN115775350A

CN115775350A - 一种图像增强方法和装置、计算设备

Info

Publication number: CN115775350A
Application number: CN202211386549.XA
Authority: CN
Inventors: 王杨云逗; 顾敏; 孟祥军; 王磊
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-03-10

Abstract

本发明公开一种图像增强方法和装置、计算设备，包括：获取历史图像信息；根据所述历史图像信息训练具有全局特征提取能力的U型监督神经网络；将待处理的图像信息输入到训练好的U型监督神经网络进行特征提取，实现图像增强。采用本发明的技术方案，可以有效提取复杂特征。

Description

一种图像增强方法和装置、计算设备

技术领域

本发明属于图像处理技术领域，尤其涉及一种图像增强方法和装置、计算设备。

背景技术

深度学习的计算成像技术是利用大数据结合神经网络算法的一类成像技术，利用物理测量结果，对目标对象或成像场景提供估计与模型优化。

目前基于深度学习的计算成像技术已经被广泛应用于语音识别、视觉目标识别与检测等领域。自2000年以来，卷积神经网络作为深度学习算法的主要分支，已应用于物体和目标区域的检测、分割和图片识别。作为卷积操作的特征提取单元-卷积核，其限制了神经网络对输入图像的局部感受野尺寸，因而无法有效提取输入复杂图像的全局特征，进而限制了神经网络对与图像增强相关的计算成像逆问题的优化求解。

发明内容

本发明要解决的技术问题是，提供一种针对复杂图像增强方法和装置、计算设备，可以有效提取复杂特征。

为实现上述目的，本发明采用如下的技术方案：

一种图像增强方法，其特征在于，包括以下步骤：

步骤S1、获取历史图像信息；

步骤S2、根据所述历史图像信息训练具有全局特征提取能力的U型监督神经网络；

步骤S3、将待处理的图像信息输入到训练好的U型监督神经网络进行特征提取实现图像增强。

作为优选，步骤S2中基于全局注意力Transformer机制训练所述U型监督神经网络。

作为优选，所述U型监督神经网络包括编码器(EncoderBlock)、解码器(Decoderblock)和跳层连接(skipconnection)，编码器包括多个Transformer编码模块和下采样器(DownSampling)，解码器包括多个Transformer解码模块和上采样器(UpSampling)；首先通过Transformer编码模块对历史图像信息进行注意力计算并逐层下采样以提取特征；与此同时，跳层连接将编码器中Transformer编码模块输出的特征图像融合到解码器中对应层级的Transformer解码模块中，即在特征图尺寸相同的Transformer编码模块与Transformer解码模块之间直接传输不同层级的信息；最后Transformer解码模块对获取的特征图像进行相应的注意力计算并逐层上采样以实现图像增强，以完成训练U型监督神经网络。

作为优选，所述Transformer编码模块采用保留更多的特征信息的懒惰下采样；所述Transformer解码模块采用提取更多的特征信息的贪婪上采样。

本发明还提供一种图像增强装置，包括：

获取模块，用于获取历史图像信息；

训练模块，用于根据所述历史图像信息训练U型监督神经网络；

增强模块，用于将待处理的图像信息输入到训练好的U型监督神经网络进行特征提取，实现图像增强。

作为优选，所述训练模块基于全局注意力Transformer机制训练所述U型监督神经网络。

本发明还提供一种计算设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行图像增强方法的步骤。

作为优选，所述存储器和处理器集成在为光子芯片或电子芯片上。

本发明采用全局注意力Transformer机制，充分提取待处理的复杂图像特征。相比于卷积神经网络所依托的卷积模块，Transformer不受限于卷积核的感受野大小和网络层数，有效提高网络对复杂特征提取能力，降低网络设计与训练复杂度；Transformer解决了长距离依赖问题，具有可扩展性和高通量并行复杂图像处理能力。本发明具有高精度，强泛化，高吞吐量、低能耗的特点。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例图像增强方法的流程图；

图2为本发明实施例Transformer编码模块的示意图；

图3为本发明实施例注意力机制模块的示意图；

图4为本发明实施例Transformer编码模块的懒惰下采样的示意图；

图5为本发明实施例Transformer解码模块示意图；

图6为本发明实施例Transformer解码模块的贪婪上采样示意图；

图7为本发明实施例应用于人脸散斑图像重建U型监督神经网络的结构示意图；

图8为本发明U型监督神经网络的预测结果示意图；

图9为基于密集块(DenseBlock)的卷积神经网络的预测结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

如图1所示，本发明提供一种图像增强方法，包括以下步骤：

步骤S1、获取历史图像信息，其中，所述历史图像信息包含验证数据集和验证数据集；

步骤S2、根据所述历史图像信息训练U型监督神经网络；

步骤S3、将待处理的图像信息输入到训练好的U型监督神经网络进行特征提取，实现图像增强。

进一步，U型监督神经网络网络训练具体如下：

首先，使用大量的数据对网络进行预训练，使其具备图片特征提取的能力；

其次，针对复杂图像任务，制作训练数据集，对网络进行训练；

再次，制作与训练数据集相互独立的，验证数据集A，对已经训练好的网络进行测试；如果验证结果性能未达到指标，重复对网络进行训练，直到验证结果指标达到预期；

最后，制作验证数据集B，对上述训练及验证后的网络实现图像的重建、探测、分类及分割。

其中，训练网络参数设置包括：学习率(learning rate)，优化器(optimizer)，损失函数(loss function)，批量尺寸(batch size)以及训练周期(epoch)。对验证结果的指标验证，如皮尔逊相干系数(PCC)，杰卡德指数(Jaccard Index)，相似性指数(SSIM)和信噪比(PSNR)。

作为本发明实施例的一种实施方式，步骤S2中基于全局注意力Transformer机制训练U型监督神经网络。本发明实施例首先通过Transformer编码模块对历史图像信息进行注意力计算并逐层下采样以提取特征；然后通过跳跃连接将编码器中Transformer编码模块输出的特征图像融合到解码器中对应层级的Transformer解码模块中；最后Transformer解码模块进行相应的注意力计算并逐层上采样以实现图像增强，以完成训练U型监督神经网络。

自注意力机制的工作原理是先将输入的多通道信息进行三次线性变换得到查询向量组(Query)，关键字向量组(Key)和特征值向量组(Value)；再将查询向量组中的每个向量与关键字向量组中的所有向量依次进行内积运算获取分数向量组；接着将分数向量组与特征向量组进行内积运算并在其通道维度计算加权概率值作为注意力向量组，用所得到的注意力向量组依次更新输入的多通道信息，获得输出特征图。

作为本发明实施例的一种实施方式，编码器的Transformer编码模块如图2所示，所述历史图像信息首先经过批归一化层(BatchNorm)，然后经过由自注意力机制组成的多头注意力机制(MHA)模块对特征图进行注意力更新；特征图连接后再经过线性层变换输出，接着经过丢弃层(Dropout)，与输入信息进行特征累加得到中间特征图；接下来经过批归一化层，然后经过全连接层(Position-wisefeed-forwardnetworks)对特征图进行非线性变换，再经过丢弃层，最后与中间特征图进行特征累加操作再经过批归一化层输出。

进一步，编码器的下采样器采用懒惰下采样设计以提取更多的特征信息，如图4所示。该懒惰下采样首先经过双卷积层(DoubleConv)和批归一整流层(BN+Relu)将特征通道数增加四倍，再经过双卷积层和批归一整流层进行特征信息的调整，接着进行最大池化层(Max Pooling)下采样实现特征尺寸减半，然后经过双卷积层和批归一整流层进行特征信息的调整，最后经过双卷积层和批归一整流层将特征通道数的减半以实现特征提取，每个双卷积层都包含两个二维卷积层和两个批归一整流层。

作为本发明实施例的一种实施方式，Transformer解码模块如图5所示，首先Transformer编码模块输出的特征图像经过批归一化层(BN，BatchNormalization),再经过多头注意力机制层(MHA)，此处查询字(query)为上一个层级编码器的输出，然后经过丢弃层(Dropout)，然后输出特征图累加输入信息完成注意力更新。接着特征信息经过批归一化层，并通过多头交叉注意力机制层(MHCA)，此处查询字为上一个跳层连接的输出，即特征嵌入(feature embedding)，接着执行丢弃层并累加输入信息进行跨层级的注意力更新，然后经过批归一化层后，通过全连接层(Position-wise feed-forwardnetworks)和丢弃层实现非线性变换，最后通过累加操作和批归一化层实现特征提取。

进一步，解码器的上采样器采用贪婪上采样设计以保留更多的特征信息，如图6所示。该贪婪上采样首先经过双卷积层(DoubleConv)和批归一整流层(BN+Relu)将特征通道数压缩为四分之一，再经过双卷积层和批归一整流层进行特征信息的调整，接着进行双线性插值层(BilinearInterpolation)上采样实现特征尺寸倍增，然后经过双卷积层和批归一整流层进行特征信息的调整，最后经过双卷积层和批归一整流层将特征通道数的倍增以实现特征提取，每个双卷积层都包含两个二维卷积层和两个批归一整流层。

如图3所示，Transformer编码和解码模块的网络骨干以多头注意力机制(MHA)以及多头交叉注意力机制(MHCA)为核心，图像位置编码模块(PositionEmbedding)部分为模型的归纳偏差。位置编码的目的是为了稳定和高效的特征提取。具体来说，本发明实施例设计一个用于特征图的正弦位置编码。对于特征图中的索引t，定义了一个向量对P_t(P_x,t；P_y,t)。P_x,t和P_y,t是正弦函数f(t,k)，即f(t,k)在x轴和y轴与预定义的频率相协调，如下所示：

其中，k为索引矢量。

应用上述图像增强方法实现人脸散斑图像重建，具体为：

1、根据人脸散斑图像重建任务设计U型监督神经网络

U型监督神经网络首先对输入图像进行逐层的下采样，提取特征，而后进行相应的上采样操作，最后输出预测图像。这两个部分各包括3个基于Transformer的编码模块和解码模块，如图7所示。U型监督神经网络具有跳跃连接结构，编码器中的各模块的输出，将会输入特征图像融合到解码器中对应层级的解码模块中。此外，该轻量级的U型监督神经网络的参数仅为757万。

2、网络实现与训练

首先，使用10组ImageNet数据集对U型监督神经网络进行预训练，实现分类任务，使得U型监督神经网络具有一定的图像处理能力。

其次，使用相应散斑数据，利用具有高计算能力的服务器对U型监督神经网络模型进行训练和验证，通过降低网络损失来优化网络权重，直至网络收敛，并且性能达到最优。

最后，利用获得的网络权重，使用已经训练好的U型监督神经网络，对相应散斑图形实现重建，并利用相应的指标对重建图像进行评估。

散斑图像在0和1之间进行归一化，通用人脸图像的标签为二值标签。为了减少网络的参数以及对计算性能的需求，输入散斑模式首先使用双线性插值方法从800×800像素下采样到200×200像素。

U型监督神经网络使用Python3.8.5版和PyTorch框架1.7.1版(FacebookInc.)，显卡使用NVIDIAGeForceRTX3090。网络一共训练200个epoch，前100个epoch的学习率为10^- ⁴epoch，接下来的50个epoch为10^-5，最后50个epoch为10^-6。网络配置Adam优化器、L2范数正则化器和CE/NPCC作为损失函数。

每次预测都会在44毫秒内完成。指标验证如下：PCC是协方差的标准化测量，1表示完全相关，0代表完全不相关。SSIM评估重建图像和标签之间的相似性。它是一个介于0和1之间的十进制值，值1表示完美的结构相似性，0表示没有结构相似性。与SSIM类似，JI衡量重建图像与其标签之间的相似性。PSNR越高，重建的图像的信噪比越高。对于经过四种不同目数毛玻璃(120目，220目，600目和1500目)的散斑图像，PCC、JI和SSIM的值分别在0.989、0.976和0.950以上。

如图8和9以及表1(表1为本发明U型监督神经网络的验证指标)和表2(卷积神经网络的验证指标)，卷积神经网络为基于密集块(DenseBlock)的卷积神经网络模型，并且加入了单层注意力机制。

表1

表2

实施例2：

本发明实施例还提供一种图像增强装置，包括：

获取模块，用于获取历史图像信息；

作为本发明实施例的一种实施方式，所述训练模块基于全局注意力Transformer机制训练所述U型监督神经网络。

作为本发明实施例的一种实施方式，所述U型监督神经网络包括编码器、解码器和跳层连接结构，编码器包括多个Transformer编码模块，解码器包括多个Transformer解码模块；跳层连接结构用于在特征图大小相同的Transformer编码模块与Transformer解码模块之间直接传输不同层级的信息。

作为本发明实施例的一种实施方式，所述Transformer编码模块采用懒惰下采样；所述Transformer解码模块采用贪婪上采样。

实施例3：

作为本发明实施例的一种实施方式，所述存储器和处理器集成在为光子芯片或电子芯片上；所述光子芯片或电子芯片应用于生物医学成像以及目标识别与探测如人脸识别，水下目标探测和自主驾驶等领域，但不限于以上领域，可适用于任何图像增强需求方面。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种图像增强方法，其特征在于，包括以下步骤：

步骤S1、获取历史图像信息；

2.如权利要求1所述的图像增强方法，其特征在于，步骤S2中基于全局注意力Transformer机制训练所述U型监督神经网络。

3.如权利要求2所述的图像增强方法，其特征在于，所述U型监督神经网络包括编码器、解码器和跳层连接结构，编码器包括多个Transformer编码模块，解码器包括多个Transformer解码模块；首先通过Transformer编码模块对历史图像信息进行逐层下采样以提取特征；然后通过跳跃连接结构将编码器中Transformer编码模块输出的特征图像融合到解码器中对应层级的Transformer解码模块中；最后Transformer解码模块进行相应的上采样操作实现图像增强，以完成训练U型监督神经网络。

4.如权利要求3所述的图像增强方法，其特征在于，所述Transformer编码模块采用保留更多的特征信息的懒惰下采样；所述Transformer解码模块采用提取更多的特征信息的贪婪上采样。

5.一种图像增强装置，其特征在于，包括：

获取模块，用于获取历史图像信息；

6.如权利要求5所述的图像增强装置，其特征在于，所述训练模块基于全局注意力Transformer机制训练所述U型监督神经网络。

7.如权利要求6所述的图像增强装置，其特征在于，所述U型监督神经网络包括编码器、解码器和跳层连接结构，编码器包括多个Transformer编码模块，解码器包括多个Transformer解码模块；跳层连接结构用于在特征图大小相同的Transformer编码模块与Transformer解码模块之间直接传输不同层级的信息。

8.如权利要求7所述的图像增强装置，其特征在于，所述Transformer编码模块采用懒惰下采样；所述Transformer解码模块采用贪婪上采样。

9.一种计算设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至4中任一项权利要求所述图像增强方法的步骤。

10.如权利要求9所述的计算设备，其特征在于，所述存储器和处理器集成在为光子芯片或电子芯片上。