CN116597203A

CN116597203A - 一种基于知识蒸馏的非对称自编码器的异常检测方法

Info

Publication number: CN116597203A
Application number: CN202310528926.7A
Authority: CN
Inventors: 于力; 吴不为; 刘鉴钦; 彭超; 邹见效
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-15

Abstract

本发明提供一种基于知识蒸馏的非对称自编码器的异常检测方法，为了减少重构误差失灵，自编码器的解码网络相对于编码器卷积核个数更少，形成非对称的结构形式。非对称结构设计能够大幅减少自编码网络的参数量，一定程度上避免了因模型泛化性过强导致的重构误差失灵问题。将自编码器与知识蒸馏算法进行结合，采用知识蒸馏方法进行网络训练，在减少网络参数的同时，利用教师网络强大的特征提取能力，指导学生网络，提升其特征重构能力。为了让知识蒸馏过程中作为教师网络的编码器能将知识完整的蒸馏到作为学生网路的解码网络，提出了分层多级损失函数，并且设计两类损失函数，保证了像素级相似性的同时通过引入全局的方向损失增大网络感受野。

Description

一种基于知识蒸馏的非对称自编码器的异常检测方法

技术领域

本发明属于计算机视觉与机器学习技术，特别涉及基于深度学习和自编码器的异常检测技术。

背景技术

异常检测技术结合了模式识别、机器学习、等多个学科，数据中偏离大部分观察数据区域的数据即为异常数据，而异常检测任务的目标是在不使用真实异常样本的情况下，利用现有的正常样本构建模型以检测可能出现的各种异常数据。早期的异常检测算法大多应用于数据挖掘领域，而近些年随着计算机视觉和深度学习等相关技术的发展，许多相关工作将异常检测引入到图像处理领域来解决样本匮乏情况下的目标检测问题。在工业外观缺陷检测、医学图像分析、高光谱图像处理等领域具有重要的研究意义和应用价值。

随着深度学习的发展，图像异常检测中主要的深度学习方法可以分为两类，分别是基于重构的异常检测方法和基于特征嵌入异常检测方法。基于重构的异常检测方法的核心思想是构建模型学习正常样本分布特点以及表达方式，模型将输入图像进行特征提取后再进行重构还原，最后根据输入与输出图像之间的重构误差进行异常检测。现在主流的方案是基于自编码器来实现这一方法，首先训练阶段仅使用正常样本训练自编码网络，编码器在这个过程中将学习到正常样本在潜层的特征以及分布，而解码网络需要根据潜层特征完成图像的重构输出。之后在测试阶段，由于整个自编码网络未曾见过异常样本，重构过程中无法重构异常，生成的重构图将会一定程度的忽略异常信息，呈现出一种修复异常部位的效果。最终通过计算原图与重构图之间的重构误差进行异常判别，重构误差可以通过计算原图与重构图之间的均方误差得到。除此之外，生成对抗网络GAN也常被应用于基于重构方法的异常检测中，GANomaly是由Samet Akcay等提出的一种基于对抗生成网络和自编码网络的异常检测网络，与朴素的自编码网络不同，GANomaly引入对抗生成网络的方法，利用生成器和判别器对抗过程，保证生成器能够学习到正常样本的分布特征。

深度学习在异常检测领域中另一主要方法即是基于特征嵌入的异常检测，将输入送入模型中，提取特征，在特征空间中进行样本的判别。与重构方法的主要区别在于它不检测原始空间中的异常，而是在高维特征空间中检测异常，主要考虑的是特征空间的差异。目前该方法的主流实现方式是基于知识蒸馏，将知识蒸馏应用于异常检测的主要思想是：训练阶段将正常样本同时输入到经过大型数据集预训练的教师网络和未经训练随机初始化的学生网络中，通过最小化教师网络与学生网络在特征空间的损失函数实现将教师网络的知识蒸馏到学生网络，在测试阶段输入异常样本，由于学生网络未见过异常样本，而教师网络经过大型数据集的训练具有强大的特征提取能力，两者最终在高维特征空间的表达将不同，所以根据教师网络和学生网络在高维特征空间之间的差异即可判断样本的类别。

目前两类主流异常检测方法能够完成一些异常检测任务，但是我们认为它们仍然存在以下问题：

1)重构误差失灵:基于重构方法并不是总有效，实际过程中可能存在重构误差失灵的现象。由于模型的泛化能力，在训练过程中解码网络可能对于特征具有良好的重建能力，进而导致解码网络不仅能够重构正常样本，同时对于异常样本也能很好的重构，导致输入输出的重构误差变小，最后模型也无法准确的分辨正常和异常样本。

2)缺失RGB空间信息：与基于重构的异常检测方法相比，基于特征嵌入的方法能够避免重构误差失灵的问题，一定程度上提高异常检测准确率，但是该方法需要在高维空间进行异常检测，无法得到RGB空间的生成图。该方法无法用以辅助需要RGB空间信息的检测任务，只能独立使用。

发明内容

本发明所要解决的技术问题是，提供一种通过提升其特征重构能力的来增强异常检测性能的方法。

本发明所解决上述技术问题所采用的技术方案是，一种基于知识蒸馏的非对称自编码器的异常检测方法，它能够改善基于重构方法的重构误差失灵问题，同时结合知识蒸馏方法提高网络的异常检测精度。

包括如下步骤：

1)训练阶段，仅将正常样本输入非对称自编码器，编码网络输出正常样本的特征至解码网络，解码网络输出重建的正常样本；

所述非对称自编码器由结构不对称的编码网络和解码网络组成，使用损失函数约束训练过程，使得解码网络输出的重建的正常样本最大程度还原输入非对称自编码器的正常样本；训练时，将编码网络作为教师网络，将解码网络作为学生网络，使用知识蒸馏算法将教师网络知识迁移到学生网络；

编码网络包括L个的特征提取阶段，每个特征提取阶段由3×3卷积核堆叠而成，每个特征提取阶段的输出与池化模块连接；解码网络包括L个的数据重构阶段，每个数据重构阶段采用比同序号的特征提取阶段少的3×3卷积核堆叠而成，形成了非对称的结构，每个数据重构阶段的输出与上采样模块连接；

2)检测阶段，将待检测图像输入完成训练的非对称自编码器，编码网络输出待检测图像的特征至解码网络，解码网络输出重建的待检测图像，比较待检测图像与重建的待检测图像之间的差异，如差异大于阈值则判断待检测图像异常，否则判断待检测图像正常。

因为训练过程中仅使用正常样本进行训练。而在测试阶段，由于网络没有见过异常数据，在解码网络重构过程必然会出现异常部位的缺失，导致异常样本的重建效果差，从而可以通过比较原图与重构生成图进行异常判断。

损失函数L_total通过像素级的误差损失L_val以及全局性的方向损失L_dir组成：L_total＝L_val+αL_dir，α是调整L_val与L_dir权重的超参数。

像素级的误差损失L_val：

其中，l为第l阶段，N_l表示第l阶段的像素总数，f_T ^l(·)代表教师网络第l阶段的映射函数，代表学生网络第l阶段的映射函数，/>表示教师网络第l阶段的逐像素的输入，学生网络第l阶段的逐像素的输出。

全局性的方向损失L_dir：

其中，vec(·)是将任意维的矩阵转换为一维向量的向量化函数，||·||代表的是向量的取模函数，x^l为教师网络第l阶段的输入，y^l为学生网络第l阶段的输出。

区别于常见的对称自编码器，我们为了减少重构误差失灵的现象，设计了更佳轻量化的解码网络，该解码网络相对于编码器而言结构类似，但是卷积核个数更少，形成非对称的结构形式。非对称结构设计能够大幅减少自编码网络的参数量，一定程度上避免了因模型泛化性过强导致的重构误差失灵问题。同时我们结合知识蒸馏方法进行网络训练，不同于目前的常见知识蒸馏算法在网络下采样的高维空间进行特征嵌入的方式，我们将自编码器与知识蒸馏算法进行结合，在减少网络参数的同时，利用教师网络强大的特征提取能力，指导学生网络，提升其特征重构能力。基于该方法能够快速训练网络，并且获得生成效果更好的网络。除此之外，为了让知识蒸馏过程中作为教师网络的编码器能将知识完整的蒸馏到作为学生网路的解码网络，我们提出了分层多级损失函数，并且设计两类损失函数，分别是像素级的距离损失以及全局的方向损失，保证了像素级相似性的同时通过引入全局的方向损失增大网络感受野。

本发明的有益效果是，结合知识蒸馏与自编码器，提出一种基于知识蒸馏的非对称自编码器的异常检测方法，通过非对称结的设计减少重构误差失灵的情况，同时利用知识蒸馏的特点，提高编码网络的特征提取能力，并结合我们提出的损失函数保证解码网络能够顺利学习到编码网络的知识，提高其重构能力。

附图说明

图1为非对称自编码网络结构示意图；

图2为基于知识蒸馏的非对称自编码网络结构示意图；

图3为基于知识蒸馏的非对称自编码网络训练与测试过程示意图。

具体实施方式

实施例步骤如下：

(1)设计构建非对称自编码网络

非对称自编码网络结构如图1所示。该网络的编码网络Encoder Architecture以VGG16作为主干网络，VGG16网络具有非常好的特征提取能力。本发明去除其网络中的全连接层，仅保留特征提取部分，整体分为5个阶段，每个阶段由3×3卷积堆叠并且通过最大池化操作pooling进行连接，事实上3×3卷积的堆叠能够在增大感受野的同时减少网络的参数量，这也是VGG16网络具有良好的特征提取能力的原因之一。5个阶段具体的卷积分别为第一阶段3×3×64、3×3×64，第二阶段3×3×128、3×3×128，第三阶段3×3×256、3×3×256、3×3×256，第四阶段3×3×512、3×3×512、3×3×512，第五阶段3×3×512、3×3×512、3×3×512。

网络的右半部分则是解码网络Decoder Architecture，如图1所示解码网络同样采用了卷积堆叠的方式，形式上同样分为了5个阶段，每个阶段由3×3卷积堆叠并且通过行上采样操作upsampling进行连接，但是解码网络“更薄”，即在对应的阶段解码网络设置的卷积核个数更少，形成了一种非对称的结构。5个阶段具体的卷积分别为第五阶段3×3×16、3×3×16、3×3×512，第四阶段3×3×16、3×3×16、3×3×512，第三阶段3×3×16、3×3×16、3×3×256，第二阶段3×3×16、3×3×128，第一阶段3×3×16、3×3×16。

从理论上分析，神经网络具有很强的非线性拟合能力，但是因为其强大的拟合能力使得解码网络对异常也能够进行重构。在异常检测任务中这无疑是过拟合的表现，所以为了避免解码网络在重构过程中的过拟合，本发明通过减少解码网络中卷积核个数来保证网络在拥有良好的重构特性同时避免过拟合，减少卷积核个数前后网络中可训练参数量分别是19710019，5836387，可见非对称结构的解码网络参数量接近为对称结构的1/4。除此之外，实施例减少了每个阶段中的卷积个数，所以为了保证提高重建的能力，选用了反卷积网络进行上采样，相比于线性插值的方式，反卷积是可学习结构，具有更好的特征提取能力。

(1)设计构建基于知识蒸馏的非对称自编码网络

借鉴基于知识蒸馏的异常检测方法，提出了一种基于知识蒸馏的重构方法，整体网络的结构如图2所示。由于知识蒸馏算法能够将具有丰富特征提取能力的教师网络知识迁移到学生网络，并且在高维空间具有准确的异常检测能力，本发明将编码器设置为教师网络而将解码网络作为学生网络，不同于其他异常检测中的知识蒸馏策略使用相同结构的网络作为教师和学生网络，而是将教师和学生网络设置为两个相反的结构，这样做的目的不仅能够巧妙的将教师网络强大的特征提取能力迁移到学生网络中，同时也让网络具有了重构特征的能力。

为了结合知识蒸馏的特点，并且能够完整的将教师网络的知识迁移到学生网络中，图2中本发明不仅度量最终原始输入input以及标记ground truth与生成输出output以及热力图heatmap的距离，同时也在加入高维特征空间的多尺度距离损失，以达到更好的知识蒸馏和特征重构的效果。具体可以归纳为下式：

式中上标l代表不同的阶段，代表教师网络第l阶段的映射函数，x表示表教师网络第l阶段的输入，f_S ^l代表学生网络中第l阶段的映射函数，y表示学生网络中第l阶段的输出，L为网络中的最高阶段序号，图2的实施例阶段总数为5，l＝{0,1,2,3,4}，L＝4。相对于传统自编码网络仅度量原始输入与最终生成输出差异的方式，本发明通过多尺度的距离度量计算差异，能够保证学生网络在重构过程中具有多尺度的参考信息提高异常判断的准确率，同时可以使得知识蒸馏过程中，教师网络的知识更完整准确的迁移到学生网络中。

异常检测的实现分为训练和测试两个阶段，如图3所示，训练过程中仅使用正常样本进行训练。由于训练过程仅传入正常样本，作为教师网络Teacher Network的编码网络能够有效的捕捉正常样本的特征以及高维分布，同时作为学生网络Student Network的解码网络能够准确的完成正常样本的重建。而在测试阶段，由于网络没有见过异常数据，在解码网络重构过程必然会出现异常部位的缺失，导致异常样本的重建效果差，从而可以通过比较原图与重构生成图之间的差异与预设阈值的比较进行异常判断，当差异大于阈值，则判断为异常，否则为正常。

(2)分层多级损失函数的设计

一般的自编码网络仅计算原始输入图像与输出重构图像之间的距离作为损失函数，这类损失函仅计算输入输出结果的差异，其忽略了特征图之间的差异，无法保证重构过程中特征图的质量。所以为了提高重构特征能力，以及充分利用编码器的特征提取能力，本发明设计了分层多级的损失函数，并从细节和全局两方面，分别设计像素级损失函数和全局方向损失函数。像素级损失函数在编码网络下采样与解码网络上采样对应阶段计算不同尺寸大小的特征图之间的均方误差，具体如下式：

式中l代表了当前计算第l阶段的损失函数，N_l表示第l阶段的像素总数，代表教师网络第l阶段的映射函数，/>代表学生网络第l阶段的映射函数，/>表示教师网络第l阶段的逐像素的输入，/>学生网络第l阶段的逐像素的输出。本网络结构中，编码网络分为5个阶段进行了5次下采样，顺次得到了5个阶段的编码输入T0、T1、T2、T3、T4，得到了5个阶段的解码输出S4、S3、S2、S1、S0。而解码网络同样分为5个阶段进行了5次上采样，取l＝{0,1,2,3,4}，其中l＝0时对应编码器的输入以及解码网络的输出，其余4个特征图依次为原始输入图像大小的/>

通过上式，实施例充分利用了编码网络各个尺度特征信息，不仅保证了解码网络在每一阶段上采样时有更准确的参考，也保证了重构特征的质量。在知识蒸馏方面，网络中的编码网络作为教师网络，在每个阶段为输入生成了不同尺度的特征图，其中高分辨特征图中含有如颜色、纹理以及边缘等低级细节信息，而低分辨特征图中含有更多的语义信息，不同尺度的信息共同表达了完整的特征信息。可见仅使用一层特征图之间的损失误差是无法完整表达教师网络的知识，所以利用多尺度的损失误差，教师网络才能够通过不同特征图信息指导学生网络进行学习，从而更完整的将知识迁移到学生网络中。

尽管上述通过构建多尺度的像素级误差损失函数能够利用多层次的信息辅助知识蒸馏同时提高特征重构质量，但是像素级误差的计算仅依赖于像素之间一一对应的关系。而异常检测作为密集型预测任务，除了考虑像素点本身特征信息以外，还需要考虑像素点周围相似特征信息，如果图像某个像素点被识别为异常的情况下，其周围像素点是异常的可能性更大。因此结合这一特点，在考虑多尺度像素级误差损失函数的同时本发明增加了多尺度的全局方向损失函数，具体表达式如下式

式中vec(·)是将任意维的矩阵转换为一维向量的向量化函数，||·||代表的是向量的取模函数，与/>分别代表教师网络与学生网络在第l阶段的映射函数，x^l为教师网络第l阶段的输入，y^l为学生网络第l阶段的输出。

因为向量夹角计算考虑了整个特征图的所有信息，从而扩大误差考虑范围，在计算了像素级的局部误差同时考虑特征图之间的全局信息，一定程度上扩大了网络的感受野。通过上述操作提高全局与局部信息的利用率，保证了知识蒸馏过程中学生网络能够学习到更完整的知识，也提高了重构特征图的质量。

根据上述像素级的误差损失函数以及全局性的方向损失函数，总损失误差函数如下式(4)，式中α是调整L_val与L_dir权重的超参数。由于像素级损失函数以及全局方向损失函数都是相似性损失函数，所以为了平衡两个损失函数之间的作用，本发明使用了该超参数进行控制调整。实验发现，α不同会影响网络的性能，针对不同物体的异常检测α应该选择不同的值。

L_total＝L_val+αL_dir (4)

为了证明实施例中所提出的基于知识蒸馏的非对称自编码器的异常检测算法的有效性，我们在公开的异常检测数据集MVTec AD上测试了我们的模型，我们以ROC曲线下面积AUC作为模型评价指标。该数据集共计15类不同物品，我们分别针对15类不同数据训练模型，并计算平均AUC，我们的方法的测试结果超过了目前一些前沿方法的检测结果。表1为在MVTec AD数据集上本发明与其他前沿方法的比较，实验比较评价指标为ROC曲线下面积AUC。

表1

表1中前三列均是基于自编码网络异常检测方法，第4列与第5列为基于GAN的异常检测方法，它们都是基于重构的异常检测方法。第6、7列是基于知识蒸馏的特征嵌入方法，最后一列则是本发明提出的方法。从表中可以看到，无论是基于自编码还是基于GAN生成对抗网络的重构方法最终在异常检测任务上各类异常的结果均没有取得比较高的准确率，这主要是因为基于重构的方法在输出生成图的时候对异常也进行了重构，导致原图与生成图之间重构误差较小，无法准确的根据重构误差对样本进行异常判别。基于知识蒸馏的特征嵌入方法，其主要思想是通过将网络结构更为复杂的教师网络知识迁移到轻量化结构的学生网络中，而两者因为结构差异在隐层高维空间对于异常特征的表达不同，以此进行异常判断。上表中基于知识蒸馏的特征嵌入方法最终平均AUC都达到85％以上，远远高于基于重构的方法。而本发明综合了重构方法以及知识蒸馏的方法，提出的基于知识蒸馏的非对称网络，本发明提出方法无论是在各类别还是平均AUC上均明显高于上表中其他同样基于重构的异常检测方法。而与基于知识蒸馏的特征嵌入异常检测方法相比，本发明方法在部分类别上AUC值更高，并且平均AUC比最高的MKD网络高出2个点左右，可见将知识蒸馏的策略应用到重构方法中的可行性，同时也证明了本发明提出的非对称结构以及多尺度损失函数也能在性能上带来不少的提升。

Claims

1.一种基于知识蒸馏的非对称自编码器的异常检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述方法，其特征在于，L为5，按照数据处理顺序，编码网络中5个特征提取阶段依次：第一阶段的卷积核为3×3×64、3×3×64，第二阶段的卷积核3×3×128、3×3×128，第三阶段的卷积核3×3×256、3×3×256、3×3×256，第四阶段的卷积核3×3×512、3×3×512、3×3×512，第五阶段的卷积核3×3×512、3×3×512、3×3×512；解码网络中5个数据重构阶段依次：第五阶段的卷积核3×3×16、3×3×16、3×3×512，第四阶段的卷积核3×3×16、3×3×16、3×3×512，第三阶段的卷积核3×3×16、3×3×16、3×3×256，第二阶段的卷积核3×3×16、3×3×128，第一阶段的卷积核3×3×16、3×3×16。

3.如权利要求1或2所述方法，其特征在于，所述上采样模块采用反卷积网络实现。

4.如权利要求1所述方法，其特征在于，损失函数L_total通过像素级的误差损失L_val以及全局性的方向损失L_dir组成：L_total＝L_val+αL_dir，α是调整L_val与L_dir权重的超参数。

5.如权利要求4所述方法，其特征在于，像素级的误差损失L_val：

其中，l为第l阶段，N_l表示第l阶段的像素总数，代表教师网络第l阶段的映射函数，代表学生网络第l阶段的映射函数，/>表示教师网络第l阶段的逐像素的输入，/>学生网络第l阶段的逐像素的输出。

6.如权利要求4所述方法，其特征在于，全局性的方向损失L_dir：

其中，l为第l阶段，vec(·)是将任意维的矩阵转换为一维向量的向量化函数，||·||代表的是向量的取模函数，与/>分别代表教师网络与学生网络在第l阶段的映射函数，x^l为教师网络第l阶段的输入，y^l为学生网络第l阶段的输出。