CN116843614A

CN116843614A - 一种基于先验引导多语义融合的图像异常检测和定位方法

Info

Publication number: CN116843614A
Application number: CN202310524403.5A
Authority: CN
Inventors: 徐睦浩; 周雪莹; 史欣妤; 张凤航; 张梦娇
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-10-03

Abstract

本发明涉及计算机视觉处理技术领域，特别涉及一种基于先验引导多语义融合的图像异常检测和定位方法，所述方法的实现包括内容如下：通过预先训练好的视觉‑语言网络提取正常图像的抽象全局语义，然后构建可学习的语义编码库，通过向量离散化来存储正常样本的代表性特征向量。最后，将上述多语义特征进行融合后，作为解码器的输入，引导异常图像重建为正常，以此来检测和定位异常。本发明通过能够在没有任何异常先验的情况下，准确检测并定位到图像中存在的异常。极大的提高了检测效率和准确性。

Description

一种基于先验引导多语义融合的图像异常检测和定位方法

技术领域

本发明涉及计算机视觉处理技术领域，具体提供一种基于先验引导多语义融合的图像异常检测和定位方法。

背景技术

无监督异常检测是指在没有任何异常先验的情况下检测并定位异常，近几年无监督异常检测受到越来越多的关注，并被广泛应用于许多领域的计算机视觉，如医学疾病诊断，工业缺陷检测，道路安全监测。由于工业产品表面缺陷对产品安全性和使用性带来不良影响，因此在工业领域特别需要异常检测技术。此外，在医学领域，异常检测可以帮助医生更好地诊断医学影像中存在的异常。

无监督异常检测方法通常能够通过检测异常的外观和行为偏差来成功发现异常。这些偏差主要分为两类：结构异常和逻辑异常。结构异常是指全新的局部结构与正常情况的差异，而逻辑异常则是违反正常样本的基本逻辑或几何约束的内容。预训练模型嵌入到异常检测模型中，并将网络提取的特征进行分类的方法被广泛采用，可以取得良好的效果。然而，对于逻辑异常而言，这种方法并不十分有效。

编码器-解码器架构具有很大的潜力，可以通过将输入图像压缩为低维瓶颈来捕获全局上下文信息，从而捕获逻辑异常。但是，仍有一些重要的问题尚未解决。虽然网络是在无异常数据集上进行训练的，但由于其泛化能力，它们具有天生的捕获测试样本异常的能力，尤其是在具有复杂语义的数据集上进行训练时。因此，在输入解码器的瓶颈中可能仍存在异常语义，从而减少了编码器和解码器在异常上的表示差异。其次，解码器试图从低维瓶颈中重建高维表示。然而，由于在低维瓶颈中缺乏不同的层次特征，重构总是模糊和不准确的。

发明内容

本发明的技术任务是针对上述存在的问题，提供了一种基于先验引导多语义融合的图像异常检测和定位方法。

本发明提供了如下技术方案：

一种基于先验引导多语义融合的图像异常检测和定位方法，所述方法的实现包括内容如下：

通过预训练的视觉-语言网络提取正常图像的抽象全局语义特征；

通过外部数据集训练的教师编码器网络提取正常图像的特征；

将教师网络每层提取的特征通过向量离散化并构建可学习的语义编码库对提取特征进行替换；

将上述多语义特征进行融合后，作为学生解码器网络的输入，引导异常图像重建为正常，以此来检测和定位异常。

所述方法实现步骤如下：

步骤1、获取待检测图像数据，并对图像进行预处理操作；

步骤2、将预处理后的图像输入到经过预训练的教师编码器网络中来获得全局的图像特征；

步骤3、将图像的文本标签输入到预训练的视觉-语言网络提取正常图像的抽象全局语义特征；

步骤4、将教师编码器网络中每一层的特征进行离散化，并构建可学习的语义编码库对提取的特征进行替换；

步骤5、将上述特征进行融合送入学生解码器中，进行蒸馏训练；

步骤6、将测试数据输入所述预训练网络和到预训练的视觉-语言网络进行测试；

步骤7、计算所述测试数据得到的重建误差，进而对异常进行检测和定位。

所述步骤1包括以下步骤：

步骤11，采集图像数据，定义原始图像为X∈R^C×H×W；其中C代表图像维度，H表示图像的高，W表示图像的宽；

步骤12，对图像数据进行尺寸缩放处理，公式如下：

其中，S(x,y)表示缩放后的图像中对应的像素点，(x,y)为像素点坐标，X表示原始图像，X_w和X_h表示原始图像的宽和高，S_w和S_h表示缩放后图像的宽和高；

步骤13，对图像数据进行归一化，公式如下：

其中，S_max，S_min分别表示图像中全部像素具体数值的最大值和最小值；

步骤14，对图像数据进行标准化，公式如下：

其中mean(·)代表各个通道的均值，std(·)代表各个通道的标准差。

所述步骤2包括以下步骤：

步骤21，获得图像的全局特征，具体表示为：

其中，x_i代表数据集中的数据，代表预训练的教师编码器网络。

步骤22，对全局特征f_ig进一步下采样获得全局特征F_ig∈R^C×H×W。

所述步骤3包括以下步骤：

步骤31，获得图像的全局语义特征，具体表示为：

其中，t_i代表数据集中的图像的标签类别，代表预训练的视觉-语言网络，t_i∈R^1×512。

步骤32，对全局语义特征进行温度扩充并上采样，使得其尺寸与图像全局特征大小一致，获得特征T_i∈R^C×H×W。

所述步骤4包括以下步骤：

步骤41，获得教师编码器网络中每一层的特征进，具体表示为：

其中，x_i代表数据集中的数据，代表预训练网络，l代表不同层的特征，l选择1、2、3、4。

步骤42，将每一层的特征离散化，并构建可学习的语义编码库，具体表示为：

其中，V_l∈R^k×c，表示k个维度为c的f_i,l(p,q)表示不同层(p,q)位置的图像特征，/>表示/>中的特征。通过重复上述操作，最终的通过聚合这些特征向量f_i,l(p,q)'得到输出特性/>，所述重参数模块的优化目标为：

其中，sg[ ]表示停止梯度算符。

所述步骤5包括以下步骤：

步骤51，将全局语义特征T_i和图像全局特征F_ig进行融合:

d_i＝T_i⊕F_ig

其中，⊕表示为拼接。

步骤52，将融合后的特征D_i送入到LeWinBlocks注意力机制模块，并进行上采用操作得到特征D_i。

步骤53，将全局语义特征T_i进行上采样和特征和对应层的特征f_i,l(p,q)'进行融合:

重复步骤53，直到获得与输入大小相同的图像x'。

步骤54，采用蒸馏损失指导学生解码器网络进行学习，所述重参数模块的优化目标为：

L_mse＝MSE(x,x'),

L_total＝L_mse+L_cos+L_vg′,

所述步骤6包括以下步骤：

步骤61，将测试图像和对应文本标签分别送入预训练的教师编码器网络和预训练的视觉-语言网络。

步骤62，获得测试图像的全局语义特征和全局图像特征。

步骤63，利用训练阶段获得的语义编码库对测试图像的每一层的特征进行替换，得到替换后的特征。

步骤64，将三个特征按照训练阶段步骤送入学生解码器网络进行融合，并获得重建后的测试图像。

所述步骤7包括以下步骤：

步骤71：计算重建误差并根图像像素重建的差异检测和定位异常；

步骤72，通过双线性插值将特征图的大小调整为原始图像的分辨率，并用高斯核σ＝4对其进行平滑处理。

与现有技术相比，本发明以下突出的有益效果：

本发明通过提出了一种新的正态先验引导多语义融合网络用于无监督异常检测。本发明通过提高异常输入与其重构之间的差异，显著提高了对异常的识别能力。通过融合抽象的全局上下文信息和不同层次的语义来构建正常图像的多语义特征，这有助于降低异常特征的再现。有效的提高了异常检测和定位的性能，本发明提出的无监督异常检测方法具有广泛的应用前景，可应用于医学疾病诊断、工业缺陷检测、道路安全监测等领域。

具体实施方式

下面将结合实施例，对本发明作进一步详细说明。

实施例1

一种基于先验引导多语义融合的图像异常检测和定位方法，所述方法实现步骤如下：

步骤1、获取待检测图像数据，并对图像进行预处理操作；

步骤12，对图像数据进行尺寸缩放处理，公式如下：

步骤13，对图像数据进行归一化，公式如下：

步骤14，对图像数据进行标准化，公式如下：

步骤21，获得图像的全局特征，具体表示为：

步骤31，获得图像的全局语义特征，具体表示为：

其中，sg[ ]表示停止梯度算符。

步骤51，将全局语义特征T_i和图像全局特征F_ig进行融合:

d_i＝T_i⊕F_ig

其中，⊕表示为拼接。

重复步骤53，直到获得与输入大小相同的图像x'。

L_mse＝MSE(x,x'),

L_total＝L_mse+L_cos+L_vg′,

步骤62，获得测试图像的全局语义特征和全局图像特征。

以上所述的实施例，只是本发明较优选的具体实施方式，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种基于先验引导多语义融合的图像异常检测和定位方法，其特征在于，所述方法的实现包括内容如下：

2.根据权利要求1所述的一种基于先验引导多语义融合的图像异常检测和定位方法，其特征在于，所述方法实现步骤如下：

步骤1、获取待检测图像数据，并对图像进行预处理操作；

3.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法，其特征在于，所述步骤1包括以下步骤：

步骤12，对图像数据进行尺寸缩放处理，公式如下：

步骤13，对图像数据进行归一化，公式如下：

步骤14，对图像数据进行标准化，公式如下：

4.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法，其特征在于，所述步骤2包括以下步骤：

步骤21，获得图像的全局特征，具体表示为：

5.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法，其特征在于，所述步骤3包括以下步骤：

步骤31，获得图像的全局语义特征，具体表示为：

其中，t_i代表数据集中的图像的标签类别，代表预训练的视觉-语言网络，t_i∈R¹ ^×512。

6.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法，其特征在于，所述步骤4包括以下步骤：

其中，V_l∈R^k×c，表示k个维度为c的f_i,l(p,q)表示不同层(p,q)位置的图像特征，/>表示/>中的特征。通过重复上述操作，最终的通过聚合这些特征向量f_i,l(p,q)'得到输出特性/>所述重参数模块的优化目标为：

其中，sg[ ]表示停止梯度算符。

7.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法，其特征在于，所述步骤5包括以下步骤：

步骤51，将全局语义特征T_i和图像全局特征F_ig进行融合:

其中，表示为拼接。

重复步骤53，直到获得与输入大小相同的图像x'。

L_mse＝MSE(x，x′)，

L_total＝L_mse+L_cos+L_vg′。

8.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法，其特征在于，所述步骤6包括以下步骤：

步骤62，获得测试图像的全局语义特征和全局图像特征。

9.根据权利要求2所述的一种基于先验引导多语义融合的图像异常检测和定位方法，其特征在于，所述步骤7包括以下步骤：