CN116645369B

CN116645369B - 基于孪生自编码器和双向信息深度监督的异常检测方法

Info

Publication number: CN116645369B
Application number: CN202310926449.XA
Authority: CN
Inventors: 刘玉峰; 孙启玉; 孙平; 杨公平
Original assignee: Shandong Fengshi Information Technology Co ltd
Current assignee: Shandong Fengshi Information Technology Co ltd
Priority date: 2023-07-27
Filing date: 2023-07-27
Publication date: 2023-11-07
Anticipated expiration: 2043-07-27
Also published as: CN116645369A

Abstract

本发明涉及基于孪生自编码器和双向信息深度监督的异常检测方法，属于计算机视觉、表面异常检测技术领域。将正常图像异常模拟处理，得到对应的模拟异常图像，训练阶段将正常图像和模拟异常图像分别输入孪生修复自编码器的重建分支和修复分支提取特征，分别获得重构图像和修复图像，将获得的重构图像和修复图像分别进行特征提取与双向信息流特征融合，对所得的两组融合特征执行深度监督策略，计算总损失并通过总损失来更新网络完成训练，测试阶段计算测试样本异常分数，取最大的作异常检测的预测结果。本发明可以克服基于图像重建的表面异常检测方法中，由于AE泛化能力太强而导致异常区域被精确重建的问题。

Description

基于孪生自编码器和双向信息深度监督的异常检测方法

技术领域

本发明涉及一种基于孪生自编码器和双向信息深度监督的异常检测方法，准确的说是一种以自编码器修复异常为核心、基于双向信息流的深度监督策略为辅助的表面异常检测方法，属于计算机视觉、表面异常检测技术领域。

背景技术

异常检测作为一项关键任务，在公共安全和智能制造等许多领域都有广泛的应用。其中,产品表面异常检测是质量控制的关键环节，对推动工业智能化的发展具有极其重要的意义。表面异常检测是一个检测图像中异常区域的问题，例如划痕和污迹，但在实际场景中，由于异常样本不可预测且相对稀少，收集它们非常困难，训练过程中往往只有大量的正常样本可供使用。因此，如何在不使用异常样本进行训练的前提下，将实际场景中出现的异常识别出来成为了表面异常检测任务的一大挑战。

目前用于表面异常检测的方法大多是基于图像重建的方法，主要使用自动编码器（AE）作为架构。自动编码器（AE）是一种以重构方式对高维数据进行建模的有效方法。它由一个编码器和一个解码器组成，前者用于从输入中获得编码表示，后者用于从表示中重构输入。这些方法被训练成只能准确地重建正常的训练图像，当输入异常图像时，预计会输出一个差的重建图像，然后根据重建误差来表示异常定位的结果。

然而，一些研究表明，自动编码器（AE）使用瓶颈层来重建数据，因此难以控制其泛化能力。当AE的泛化能力很强时，它无法区分异常特征和正常特征，导致异常输入也会被精确重建。因此，如何有效地抑制AE对异常区域的重建是基于图像重建方法中的一大核心问题，因为这极大地影响了异常定位的结果。对此，有学者提出了一种基于修复的自编码器架构，它通过引入人工合成的异常样本（如像素擦除），迫使自编码器对其进行修复，以抑制AE对异常区域的良好重建。然而由于缺乏对正常样本的处理，AE无法良好地建模正常特征的流形结构。

发明内容

本发明的目的是克服上述不足而提供一种基于孪生自编码器和双向信息深度监督的异常检测方法。

本发明采取的技术方案为：

基于孪生自编码器和双向信息深度监督的异常检测方法，包括步骤如下：

S1. 将正常图像异常模拟处理，得到对应的模拟异常图像：

模拟异常图像I_a被定义为：

，

其中M_a为将正常图像生成噪声图像P捕捉各种异常形状，并通过阈值将其二值化而成的遮罩图，是遮罩图M_a的倒置，I_n为对应位置的正常图像，⊙是像素级乘法运算，β是混合中的不透明度参数，A为纹理图像，是从与输入图像分布无关的DTD纹理数据集中随机采样异常纹理源图像并对其进行锐度变化、亮度变化、颜色变化的随机增强变换而得；

S2.训练阶段将正常图像和模拟异常图像分别输入孪生修复自编码器的重建分支和修复分支提取特征，分别获得重构图像和修复图像：

正常图像输入重建分支，先由编码器来提取潜在特征，潜在特征的形状在空间维度上被展平，然后被视为一个查询，将记忆库复制两份分别作为键和值，根据查询和键之间的相似性来计算权重矩阵，将权重矩阵与值相乘后，查询中的每个特征都由记忆库中的相关特征重新表示了，由记忆库重新表示的特征被送入解码器以获得重构图像，并使用重建损失L_rec来完成图像重建的训练；模拟异常图像输入修复分支，先由编码器来提取潜在特征，然后潜在特征被送入解码器进行上采样以获得修复图像，并用基础修复损失L_inp和异常修复损失L_{inp_m} 来完成图像修复的训练；

S3.将获得的重构图像和修复图像分别进行特征提取与双向信息流特征融合：

分别将重构图像和修复图像与它们所在分支的输入图像在通道维度进行拼接，以获得拼接图像1和拼接图像2，对两个拼接图像分别进行相同的特征提取和双向信息流特征融合处理得到两组融合特征，具体为将拼接图像输入特征提取器，提取前n层网络特征，将这n层特征经由深层至浅层的路径融合、由浅层至深层的路径融合及两路径最后的融合得到融合特征；

S4.对所得的两组融合特征执行深度监督策略：

每组融合特征中的每一个特征首先由11卷积层处理，通道数降低至1，以获得每个尺寸的异常预测图，之后将每个尺寸的异常预测图的分辨率上采样，对上采样后n个预测图在通道维度进行拼接，并使用一个额外的11卷积层处理，以获得一个总体的异常预测图，使用二分类交叉熵损失来最小化每组融合特征对应这n+1个异常预测图和真实标签之间的差异，分别计算拼接图像1和拼接图像2的分割损失L¹ _concat和L² _concat；

S5. 计算总损失并通过总损失来更新网络完成训练：

；

S6. 测试阶段计算测试样本异常分数，取最大的作异常检测的预测结果。

上述方法中，步骤S2中所述的孪生修复自编码器是有重建分支和修复分支两条分支的自编码器，两条分支使用相同的编码器及解码器架构，进行不同类别的图像处理。

步骤S2中潜在特征，潜在特征f_n的形状在空间维度上被展平，然后被视为一个查询/>，其中n=h×w，h为潜在特征的高度，w为潜在特征的宽度（也就是空间维度被展平变为查询Q之前的潜在特征的高度和宽度），记忆库M它包含维数为d的s个特征，将记忆库M复制两份分别作为键/>和值/>，首先重新规范化Q和K：

，

其中，/>，Q_i表示Q的第i行向量，K_j表示K的第j行向量，该公式旨在利用向量除以自身模长等于单位向量的特性，重新规范化Q和K，经过上述规范化，Q和K每一行的特征向量都转变为单位向量，然后根据以下方程得到权重矩阵/>和重新表示后的特征/>：

，

其中，对的每一行应用/>，以得到权值矩阵W。

步骤S2中重建损失L_rec计算公式为：

，

其中，I_n表示重建分支输入的正常图像，I_r表示获得的重构图像，表示均方误差损失，即计算的是两张图像中所有像素之间的差值的平方的均值。

修复损失的计算公式为：

，

其中M_a是遮罩图，α是缩放系数，/>是求和算子，W×H表示图像中的像素总数，缩放系数α确保两个损失处在相似的值范围，/>表示如上所述的均方误差损失，⊙表示像素级乘法。

步骤S3中，优选ResNet18作为特征提取器，依次提取拼接图像的前四层网络特征，，/>，/>，/>；所述的由深层至浅层（自上而下）的路径融合路径被定义为：

，

其中，由33卷积层、BatchNorm、ReLU激活函数组成，用于将特征调整至相同的分辨率和通道数；

随后，由浅层至深层（自下而上）的路径融合路径被定义为：

，

两路径最后的融合过程被定义为：

，

其中，。

步骤S4中，二分类交叉熵损失函数描述为：

，

其中，H和W分别是异常预测图的高度和宽度，p_i,j是异常预测图中坐标为（i，j）的像素的预测概率，y_i,j是异常预测图中坐标为（i，j）的像素对应的真实标签。

步骤S4中，拼接图像1和拼接图像2的分割损失分别定义如下：

，

其中，表示第i个拼接图像对应的第j个分割预测图的损失。

步骤S6中，测试阶段只保留自编码器的重建分支，同时学习的记忆库被固定，直接用于测试图像的端对端推理，输入测试图像，编码器首先用于提取测试图像的潜在特征，之后潜在特征被视为一个查询，并使用记忆库中积累的正常模式信息重新表示，随后重新表示的特征被送入解码器以获得正常重构图像，接着重构图像和测试图像在通道维度进行拼接，并进行后续的特征提取与双向信息流特征融合，最终输出一个总体的异常预测图，它代表像素级异常定位的结果；最后，我们取异常预测图中的异常分数（包括像素级定位异常得分和图像级检测异常得分）最大的作为异常检测的结果。

本发明的另一个目的是提供一种存储设备，其为计算机可读存储设备，所述的计算机可读存储设备上存储有计算机程序用于实现如上所述的基于孪生自编码器和双向信息深度监督的异常检测方法中的步骤。

本发明还提供一种基于孪生自编码器和双向信息深度监督的异常检测设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的基于孪生自编码器和双向信息深度监督的异常检测方法。

本发明的有益效果为：

（1）本发明使用一种孪生AE架构，与仅使用正常样本或模拟异常样本的单个分支不同，该架构同时构建重建和修复两个分支，以分别捕获正常和异常信息。重建分支通过建模正常特征的流形结构来学习正常模式信息，并将积累的模式信息用于异常特征替换。而修复分支则通过显式地修复异常来抑制缺陷的良好重建。两条分支有效地抑制了AE的泛化能力，扩大了异常区域的重建误差。

（2）本发明使用一种基于双向信息流的深度监督策略，该策略使得网络不需要繁琐的后处理步骤，直接以端对端的方式实现表面异常检测的目的。

本发明可以克服基于图像重建的表面异常检测方法中，由于AE泛化能力太强而导致异常区域被精确重建的问题。

附图说明

图1为本发明方法训练阶段流程图；

图2为本发明方法异常模拟处理过程示意图；

图3为本发明方法训练阶段用孪生修复自编码器获得重构图像和修复图像的过程示意图；

图4为本发明方法训练阶段进行特征提取与双向信息流特征融合及执行深度监督策略的过程示意图；

图5为本发明方法测试阶段流程图；

图6为本发明方法测试阶段获得重构图像过程示意图；

图7为本发明方法测试阶段进行特征提取与双向信息流特征融合及执行深度监督策略的过程示意图。

具体实施方式

下面结合具体实施例进一步说明本发明。

实施例1：基于孪生自编码器和双向信息深度监督的异常检测方法，包括步骤如下：

S1. 将正常图像异常模拟处理，得到对应的模拟异常图像：

将正常图像用Perlin噪声发生器生成噪声图像P，以捕捉各种异常形状，并通过阈值0.5将其二值化为遮罩图M_a，接着从与输入图像分布无关的DTD纹理数据集中随机采样异常纹理源图像并对其进行锐度变化、亮度变化、颜色变化的随机增强变换。然后，随机增强的纹理图像A与遮罩图M_a执行像素级乘法，并与对应位置的正常图像I_n混合，以创建刚刚脱离分布的异常，从而有助于收紧训练网络中的决策边界。最后，模拟异常图像I_a被定义为：

，

其中是遮罩图M_a的倒置即1-M_a，⊙是像素级乘法运算，β是混合中的不透明度参数，从[0.2, 1.0]中均匀采样。所有图像的大小均为256*256。

因此，给定一个正常图像I_n，通过上述异常模拟策略即可得到对应的模拟异常图像I_a。

所述的孪生修复自编码器由重建分支和修复分支组成，接收由正常图像和模拟异常图像/>组成的样本对作为输入，I_n作为重建分支的输入而I_a作为修复分支的输入。

重建分支赋予自编码器基本的重建正常样本的能力，同时在记忆库中积累有利于正常样本重构的模式信息。记忆库M是一个大小为s×d的可学习矩阵，它包含维数为d的s个特征，这些特征在重建分支反向传播的过程中被更新。给定一个正常图像I_n作为重建分支的输入，首先由编码器来提取I_n的潜在特征，随后，潜在特征f_n的形状在空间维度上被展平，然后被视为一个查询/>，其中n=h×w（也就是空间维度被展平变为查询Q之前的潜在特征的高度和宽度）。之后，将记忆库M复制两份分别作为键/>和值。随后，我们旨在使用记忆库中的特征重新表示查询Q。在进行处理之前，首先重新规范化Q和K：

，

其中，/>，Q_i表示Q的第i行向量，K_j表示K的第j行向量，该公式旨在利用向量除以自身模长等于单位向量的特性，重新规范化Q和K。经过上述规范化，Q和K每一行的特征向量都转变为单位向量，从而避免了向量长度对相似性计算的影响。然后，根据以下方程得到权重矩阵/>和重新表示后的特征/>：

，

其中，对的每一行应用/>，以得到权值矩阵W。这种策略可以被认为是根据查询Q和键K（记忆库）之间的相似性来计算权重矩阵W。在将权重矩阵W与值V（记忆库）相乘后，查询Q中的每个特征都由记忆库中的相关特征重新表示了。最后，由记忆库M重新表示的特征f_r的形状变回/>，接着被送入解码器以获得重构图像。

在重建分支中，我们使用重建损失L_rec来完成图像重建的训练：

，

自编码器的修复分支类似于重建分支，其旨在赋予自编码器修复异常样本的能力。给定一个模拟异常图像作为修复分支的输入，首先由编码器来提取I_a的潜在特征/>，随后，潜在特征f_a被送入解码器进行上采样以获得修复图像。

在修复分支中，我们使用如下损失来完成图像修复的训练：

，

其中M_a是上述异常模拟处理中提到的遮罩图，α是缩放系数，/>是求和算子，W×H表示图像中的像素总数，缩放系数α确保两个损失处在相似的值范围。/>表示如上所述的均方误差损失，⊙表示像素级乘法。L_inp赋予自编码器基础的修复异常样本的能力，它最小化了修复图像和正常图像之间的差异。而L_{inp_m}则只关注异常区域的修复，因此L_{inp_m}的使用进一步增强了自编码器对异常区域的修复能力。

值得注意的是，所提出的孪生自编码器的两条分支均使用相同的编码器及解码器架构，同时，它们所使用的结构并没有被限制，因此可以针对不同的应用场合进行特殊制定。例如：编码器的结构可以设计为 [ (33卷积+批归一化+ReLU激活) 2+最大池化 ] 4 +(33卷积+批归一化+ReLU激活) 2 ，解码器的结构可以对应设计为 [ 上采样 + (33卷积+批归一化+ReLU激活) 2 ] 4。

经过重建分支和修复分支的训练，自编码器分别输出了重构图像I_r与修复图像I_i。接着，我们分别将两张输出图像与它们所在分支的输入图像在通道维度进行拼接，以获得拼接图像1和拼接图像2。随后，依次对两个拼接图像进行如下处理，这里以单个拼接图像为例。

首先，ResNet18作为特征提取器，依次提取拼接图像的前四层网络特征，，/>，/>，/>。之后，一种双向信息流特征融合策略被提出，用于更好地集成浅层与深层之间的双向多尺度特征，充分利用浅层纹理信息与深层语义信息，使得网络对于细小缺陷和大型缺陷的检测都具有鲁棒性。

对此，自上而下（深层至浅层）的融合路径被定义为：

，

其中，由3*3卷积层、BatchNorm、ReLU激活函数组成，/>用于将特征调整至相同的分辨率和通道数。

随后，自下而上（浅层至深层）的融合路径被定义为：

，

。

两路径最后的融合过程被定义为：

，

其中，。

依次对拼接图像1、拼接图像2执行上述处理，我们最终获得了两组融合特征，即特征集合，特征集合/>。两个拼接图像的特征融合操作是彼此独立，互不影响的。

S4. 对所得的两组融合特征执行深度监督策略：

为了使模型具备分割异常的能力，同时加快参数的优化，我们在双向信息流特征融合之后设计了一个深度监督策略。经上述融合策略后获得的特征集合中的每一层特征都集成了丰富的语义信息，它们当中的每一个都可以单独执行异常分割预测。

因此，我们依次对所获得的两个特征集合执行深度监督策略，这里以单个特征集合为例。特征集合中的每一个特征首先由11卷积层处理，通道数降低至1，以获得每个尺寸的异常预测图，之后将每个尺寸的异常预测图的分辨率上采样至与遮罩图M_a相同，具体过程如下：

。

此外，我们还对上采样后4个分支生成的预测图进行融合（通道维度进行拼接），并使用一个额外的11卷积层处理，以获得一个总体的异常预测图。在测试阶段，总体的异常预测图表示异常定位的结果。

最后，我们使用二分类交叉熵（BCE）损失来最小化上述五个异常预测图和真实标签之间的差异。值得注意的是拼接图像1的真实标签为遮罩图M_a，而拼接图像2的真实标签为值全为0且大小和M_a相同的遮罩图（可以通过Pytorch框架中的zeros_like()方法实现）。BCE损失函数描述为：

，

其中，H和W分别是异常预测图的高度和宽度，在这里均为256。p_i,j是异常预测图中坐标为（i，j）的像素的预测概率，y_i,j是异常预测图中坐标为（i，j）的像素对应的真实标签。

最后，拼接图像1和拼接图像2的分割损失分别定义如下：

，

其中，表示第i个拼接图像对应的第j个分割预测图的损失。

S5. 计算总损失并通过总损失来更新网络完成训练：

。

S6. 测试阶段计算测试样本异常分数，取最大的作异常检测的预测结果：

测试阶段只保留自编码器的重建分支，同时学习的记忆库被固定，直接用于测试图像的端对端推理。输入一张大小为2562563的测试图像，编码器首先用于提取测试图像的潜在特征，之后潜在特征被视为一个查询，并使用记忆库中积累的正常模式信息重新表示，随后重新表示的特征被送入解码器以获得正常重构图像。接着，重构图像和测试图像在通道维度进行拼接，并进行后续的特征提取与双向信息流特征融合，最终输出一个大小为256256的总体的异常预测图，它代表像素级异常定位的结果。最后，我们取异常预测图中的最大值当作图像级异常检测分数以量化图像级异常检测的结果。

实施例2：一种存储设备，其为计算机可读存储设备，所述的计算机可读存储设备上存储有计算机程序用于实现如上实施例1所述的基于孪生自编码器和双向信息深度监督的异常检测方法中的步骤。

一种基于孪生自编码器和双向信息深度监督的异常检测设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上实施例1所述的基于孪生自编码器和双向信息深度监督的异常检测方法。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。

Claims

1.基于孪生自编码器和双向信息深度监督的异常检测方法，其特征是，包括步骤如下：

S1. 将正常图像异常模拟处理，得到对应的模拟异常图像；

正常图像输入重建分支，先由编码器来提取潜在特征，潜在特征的形状在空间维度上被展平，然后被视为一个查询，将记忆库复制两份分别作为键和值，根据查询和键之间的相似性来计算权重矩阵，将权重矩阵与值相乘后，查询中的每个特征都由记忆库中的相关特征重新表示了，由记忆库重新表示的特征被送入解码器以获得重构图像，并使用重建损失L_rec来完成图像重建的训练；模拟异常图像输入修复分支，先由编码器来提取潜在特征，然后潜在特征被送入解码器进行上采样以获得修复图像，并用基础修复损失L_inp和异常修复损失L_{inp_m}来完成图像修复的训练；

S4.对所得的两组融合特征执行深度监督策略：

S5. 计算总损失并通过总损失来更新网络完成训练：

；

2.根据权利要求1所述的基于孪生自编码器和双向信息深度监督的异常检测方法，其特征是，步骤S1中模拟异常图像I_a被定义为：

，

其中M_a为将正常图像生成噪声图像P捕捉各种异常形状，并通过阈值将其二值化而成的遮罩图，是遮罩图M_a的倒置，I_n为对应位置的正常图像，⊙是像素级乘法运算，β是混合中的不透明度参数，A为纹理图像，是从与输入图像分布无关的DTD纹理数据集中随机采样异常纹理源图像并对其进行锐度变化、亮度变化、颜色变化的随机增强变换而得。

3.根据权利要求1所述的基于孪生自编码器和双向信息深度监督的异常检测方法，其特征是，步骤S2中所述的孪生修复自编码器是有重建分支和修复分支两条分支的自编码器，两条分支使用相同的编码器及解码器架构，进行不同类别的图像处理。

4.根据权利要求1所述的基于孪生自编码器和双向信息深度监督的异常检测方法，其特征是，步骤S2中潜在特征，潜在特征f_n的形状在空间维度上被展平，然后被视为一个查询/>，其中n=h×w，h为潜在特征的高度，w为潜在特征的宽度，记忆库M它包含维数为d的s个特征，将记忆库M复制两份分别作为键/>和值/>，首先重新规范化Q和K：

，

其中，，/>，Q_i表示Q的第i行向量，K_j表示K的第j行向量，该公式旨在利用向量除以自身模长等于单位向量的特性，重新规范化Q和K，经过上述规范化，Q和K每一行的特征向量都转变为单位向量，然后根据以下方程得到权重矩阵/>和重新表示后的特征/>：

，

其中，对的每一行应用/>，以得到权值矩阵W。

5.根据权利要求2所述的基于孪生自编码器和双向信息深度监督的异常检测方法，其特征是，步骤S2中重建损失L_rec计算公式为：

，

其中，I_n表示重建分支输入的正常图像，I_r表示获得的重构图像，表示均方误差损失，即计算的是两张图像中所有像素之间的差值的平方的均值；

修复损失的计算公式为：

，

其中M_a是遮罩图，α是缩放系数，/>是求和算子，W×H表示图像中的像素总数，缩放系数α确保两个损失处在相似的值范围，/>表示均方误差损失，⊙表示像素级乘法。

6.根据权利要求1所述的基于孪生自编码器和双向信息深度监督的异常检测方法，其特征是，步骤S3中选ResNet18作为特征提取器，依次提取拼接图像的前四层网络特征，，/>，/>，/>；所述的由深层至浅层的路径融合路径被定义为：

，

由浅层至深层的路径融合路径被定义为：

，

；

两路径最后的融合过程被定义为：

，

其中，。

7.根据权利要求1所述的基于孪生自编码器和双向信息深度监督的异常检测方法，其特征是，步骤S4中，二分类交叉熵损失函数描述为：

，

其中，H和W分别是异常预测图的高度和宽度，p_i,j是异常预测图中坐标为（i，j）的像素的预测概率，y_i,j是异常预测图中坐标为（i，j）的像素对应的真实标签；

拼接图像1和拼接图像2的分割损失分别定义如下：

，

其中，表示第i个拼接图像对应的第j个分割预测图的损失。

8.根据权利要求1所述的基于孪生自编码器和双向信息深度监督的异常检测方法，其特征是，步骤S6中，测试阶段只保留自编码器的重建分支，同时学习的记忆库被固定，直接用于测试图像的端对端推理，输入测试图像，编码器首先用于提取测试图像的潜在特征，之后潜在特征被视为一个查询，并使用记忆库中积累的正常模式信息重新表示，随后重新表示的特征被送入解码器以获得正常重构图像，接着重构图像和测试图像在通道维度进行拼接，并进行后续的特征提取与双向信息流特征融合，最终输出一个总体的异常预测图，它代表像素级异常定位的结果，计算异常检测分数，以最大的为检测结果。

9.一种存储设备，其为计算机可读存储设备，其特征是，所述的计算机可读存储设备上存储有计算机程序用于实现如权利要求1-8任一项所述的基于孪生自编码器和双向信息深度监督的异常检测方法中的步骤。

10.一种基于孪生自编码器和双向信息深度监督的异常检测设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-8任一项所述的基于孪生自编码器和双向信息深度监督的异常检测方法。