CN115953592A

CN115953592A - 一种基于变分自编码器vae的太赫兹安检图像识别方法

Info

Publication number: CN115953592A
Application number: CN202310008133.2A
Authority: CN
Inventors: 柏业超; 查新宇; 王琼; 唐岚; 张兴敢
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-04-11

Abstract

本发明公开了一种基于变分自编码器VAE的太赫兹安检图像识别方法，包括将采集的太赫兹安检图像数据输入至变分自编码器中，进行数据的重构；采用DenseNet‑201作为骨干网络，后接双注意力模块(Dual‑Attention)和度量学习模块(Center Loss)，双注意力模块负责引导骨干识别网络关注有用信息和减少不重要信息的权重，以达到改善网络识别性能的作用，度量学习模块通过增加类间距离和减少类内距离解决图像数据之间的特征相似度较高问题，从而提高聚类和泛化、识别性能，并且优化了骨干网络的损失函数；实现太赫兹安检图像数据的增强，降低过度拟合的风险，增强网络的泛化能力，进一步提高网络的识别精度和可靠性。

Description

一种基于变分自编码器VAE的太赫兹安检图像识别方法

技术领域

本发明涉及计算机视觉中的目标识别技术领域，具体为一种基于变分自编码器VAE的太赫兹安检图像识别方法。

背景技术

太赫兹技术突破了常见可见光和红外光属性的限制，拓展了人类的可视范围，这也让我们越来越关注太赫兹成像技术，并将其应用于安检、快递等领域。在使用太赫兹图像时，目标识别是最重要的步骤。

目前，有各种图像异常识别算法。Girs-hick提出了R-CNN算法，该算法详尽地选择了可能出现标记项目的所有区域，并提取了区域的特征进行识别。何凯明等人提出了SPP-NET网络结构，该结构使用空间金字塔池层，通过使用空间关系来提取特征图像中每个区域的特征。Ross的团队提出了快速R-CNN网络，该网络在R-CNN模型的基础上简化了算法，并加快了算法训练和测试的速度。在特征图的操作过程中可以获得独立的特征候选框。许多其他主流识别方法是通过改进卷积神经网络实现的。在实际应用方面，这些现有算法在自己训练的数据集上的性能非常好，但应用到其他数据集时，性能会降低。此外，他们不能很好地识别未经训练的数据，泛化能力较差。

基于对太赫兹安检图像的进一步分析发现，如果是直接对已有图像进行训练的话，既要依赖于大量的训练数据，而且即使我们的数据集很大，考虑到太赫兹图像分辨率低的特点，训练出来的模型的识别效果可能也不会很理想；另一方面，因为训练样本图像不可能覆盖所有种类的危险品样式，日常生活中危险品的样式不可预知，如果是直接用传统图像分类或者图像检测的方法去训练网络模型，由于神经网络的强泛化能力，导致异常位置能够被重建，从而无法识别出危险品，这样训练的结果不是很好，因此亟需一种基于变分自编码器VAE的太赫兹安检图像识别方法来解决上述问题。

发明内容

本发明提供一种基于变分自编码器VAE的太赫兹安检图像识别方法，能更好地识别和检测出安检图像，提高检测的有效性。

为实现上述目的，本发明提供如下技术方案：一种基于变分自编码器VAE的太赫兹安检图像识别方法，包括如下步骤：

S1、将采集的太赫兹安检图像数据输入至变分自编码器中，进行数据的重构；

S2、采用DenseNet-201作为骨干网络，并向该骨干网络中添加双注意力模块和度量学习模块，优化了骨干网络的损失函数；

S3、通过优化后的骨干网络提取数据中图像特征并进行图像的分类识别。

优选的，在步骤S1中，变分自编码器包含编码器和解码器，图像数据输入至编码器中编码为隐空间的概率分布，解码器将该隐变量还原，从而完成数据的重构，其中：

编码公式为：

解码公式为：

其中，x为原始信号，z为经编码器编码后的隐变量信号，x¹为解码器重构的信号。

优选的，隐变量的条件分布服从多元正态分布，通过编码器生成正态分布参数方差向量σ²和均值向量μ，在隐空间中运用重参数采样得到z，z＝μ+σ·ε,ε～N(0,1)。

优选的，在步骤S2中，双注意力模块包括通道注意力模块和空间注意力模块，将卷积层输出的结果作为输入特征图，其中：

在通道注意力模块中，通过全局平均池化层GAP对图像特征图进行压缩，而后进行三个3×3的卷积运算，通道大小也随之减小至1，生成Q_C、K_C、V_C三个向量，在通道中的权重向量α计算公式为：

通过通道权重向量公式：

获得特征SO_1-2，然后对X正则化和掩码；

在空间注意力模块中，将通道注意力模块的输出经过三个3×3的卷积运算，通道的大小减少至1，得到三个向量：Q_C、K_C、V_C，经过解码处理的特征图为：

优选的，在步骤S2中，通过度量学习模块对数据设置了三个类别，并对每个类都设定一个类中心，而后计算每个输入的安检图像和对应的类中心的欧氏距离，度量学习模块损失函数的计算公式为：

其中，N为训练批次；x_i是此批次中第i个样本的特征向量，属于第k类，k＝1,2,3；c_k为第k类的中心特征向量；其中，每次迭代都会对批次中样本对应的类别中心c_k进行更新。

优选的，在步骤S3中，优化了骨干网络的损失函数，具体为：

其中，M为训练数据的类别数目，W是最后一个全连接层的权重集合，b为对应的偏置值，λ为Center Loss的权重值。

与现有技术相比，本发明的有益效果：本发明中采用变分自编码器(VAE)模型实现数据的增强与重构，而后，采用DenseNet-201作为骨干网络，并往网络中添加双注意力模块(Dual-Attention)和度量学习模块(Center Loss)，其中，双注意力模块引导骨干识别网络关注有用信息和减少不重要信息的权重，以达到改善网络识别性能的作用，度量学习模块通过增加类间距离和减少类内距离解决图像数据之间的特征相似度较高问题，从而提高聚类和泛化、识别性能，并且优化了骨干网络的损失函数，实现太赫兹安检图像数据的增强，降低过度拟合的风险，增强网络的泛化能力，进一步提高网络的识别精度和可靠性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明基于变分自编码器VAE的太赫兹安检图像识别的流程图；

图2是本发明VAE模型的原理简图；

图3是本发明双注意力模块Dual-Attention结构图；

图4是本发明嵌入Center Loss度量学习模块后的损失函数示意图；

图5是本发明嵌入双注意力模块Dual-Attention前后的训练损失曲线对比图；

图6是本发明嵌入Center Loss度量学习模块前后的聚类对比图；

图7是本发明与现有算法识别准确度的对比图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1所示，一种基于变分自编码器VAE的太赫兹安检图像识别方法，包括变分自编码器(VAE)、DenseNet-201骨干网络、双注意力模块(Dual-Attention)、度量学习模块(Center Loss)；采用平衡损失函数；其中，数据集使用实际采集的太赫兹安检图像数据集，进行模型的训练、测试和评估，在一具体实施例中，数据集是实际采集的尺寸为400×800的太赫兹安检图像。考虑到数据量大，为了实验方便，随机选择5380张图像作为实验数据集，包括安全、正常和危险三类。数据集通过算法被随机分为训练集和测试集，分别占70％和30％，训练集和测试集中都包含以上这三类；

具体步骤如下：

将采集的太赫兹安检图像数据输入至变分自编码器中，进行数据的重构；

其中，变分自编码器包含编码器和解码器，图像数据输入至编码器中编码为隐空间的概率分布，解码器将该隐变量还原，从而完成数据的重构，其中：

编码公式为：

解码公式为：

参考图2所示，隐变量的条件分布服从多元正态分布，通过编码器生成正态分布参数方差向量σ²和均值向量μ，在隐空间中运用重参数采样得到z，z＝μ+σ·ε,ε～N(0,1)；

而后通过优化损失函数

可以得到最优的编码器和解码器网络参数，进而利用变分参数采样并重构信号；

在具体实施例中，将原始的太赫兹安检图像数据作为变分自编码器VAE模型的输入，训练次数设置为10，重构的图像尺寸设置为同原图像保持一致；

选择DenseNet-201网络作为图像识别的骨干网络，后接双注意力模块(Dual-Attention)、度量学习模块(Center Loss)；DenseNet-201骨干网络负责提取图像特征并进行图像的分类识别，形成最终的图像识别准确率。

在具体实施例中，网络的训练参数设如下：初始学习率设置为0.001，权重衰减值设置为0.001，训练批量大小设置为64，训练轮数设置为110；

对骨干网络进行改进优化处理：

将双注意力模块Dual-Attention嵌入DenseNet-201骨干网络，双注意力模块(Dual-Attention)负责引导骨干识别网络关注有用信息和减少不重要信息的权重，以达到改善网络识别性能的作用；其包含了通道注意力模块与空间注意力模块两部分，参考图3所示，将卷积层输出的结果作为输入特征图，其中：

通过通道权重向量公式：

获得特征SO_1-2，然后对X正则化和掩码；

其中，将经过双注意力模块Dual-Attention处理的特征和经过DenseNet-201骨干网络提取特征进行融合。

将Center Loss度量学习模块嵌入DenseNet-201骨干网络中，度量学习模块(Center Loss)通过增加类间距离和减少类内距离解决图像数据之间的特征相似度较高问题，从而提高聚类和泛化、识别性能，并且优化了骨干网络的损失函数，其中：

对数据集设置了三个类别，并对每个类都设定一个类中心，而后计算每个输入的安检图像和对应的类中心的欧氏距离，度量学习模块损失函数的计算公式为：

参考图4所示，优化了骨干网络的损失函数将这两个损失函数进行加权计算，具体为：

在具体实施例中，将λ设置为0.001，将网络中的偏置b初始化为常量0，用标准初始化方法初始化权值W和每个类对应的特征中心。

参考图5-图7所示，在DenseNet-201网络骨干网络的基础上进行了对比实验，分别选取了太赫兹安检图像、VAE重构后的图像进行实验对比，并将嵌入双注意力模块Dual-Attention和Center Loss度量学习模块前后也进行了实验对比。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于变分自编码器VAE的太赫兹安检图像识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种基于变分自编码器VAE的太赫兹安检图像识别方法，其特征在于：在步骤S1中，变分自编码器包含编码器和解码器，图像数据输入至编码器中编码为隐空间的概率分布，解码器将该隐变量还原，从而完成数据的重构，其中：

编码公式为：

解码公式为：

3.根据权利要求2所述的一种基于变分自编码器VAE的太赫兹安检图像识别方法，其特征在于：隐变量的条件分布服从多元正态分布，通过编码器生成正态分布参数方差向量σ²和均值向量μ，在隐空间中运用重参数采样得到z，z＝μ+σ·ε,ε～N(0,1)。

4.根据权利要求1所述的一种基于变分自编码器VAE的太赫兹安检图像识别方法，其特征在于：在步骤S2中，双注意力模块包括通道注意力模块和空间注意力模块，将卷积层输出的结果作为输入特征图，其中：

通过通道权重向量公式：

获得特征SO_1-2，然后对X正则化和掩码；

5.根据权利要求4所述的一种基于变分自编码器VAE的太赫兹安检图像识别方法，其特征在于：在步骤S2中，通过度量学习模块对数据设置了三个类别，并对每个类都设定一个类中心，而后计算每个输入的安检图像和对应的类中心的欧氏距离，度量学习模块损失函数的计算公式为：

6.根据权利要求5所述的一种基于变分自编码器VAE的太赫兹安检图像识别方法，其特征在于：在步骤S3中，优化了骨干网络的损失函数，具体为：