CN116935128A

CN116935128A - 一种基于可学习提示的零样本异常图像检测方法

Info

Publication number: CN116935128A
Application number: CN202310920221.XA
Authority: CN
Inventors: 宋亚楠; 沈卫明
Original assignee: Institute Of Computer Innovation Technology Zhejiang University
Current assignee: Institute Of Computer Innovation Technology Zhejiang University
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-24

Abstract

本发明公开了一种基于可学习提示的零样本异常图像检测方法。设计了基于上下文优化的可学习提示生成模块，包含了参数可优化的可学习提示和图像异常状态提示；利用视觉语言大模型的图像编码网络获得多层级的待检图像视觉编码特征，同时利用文本编码网络获得可学习提示嵌入的文本特征。通过计算视觉编码特征和文本特征之间的多层级余弦相似度，构建图像异常区域计算模块，获得待检图像的异常区域。本发明提出的可学习提示避免了人工设计提示的复杂性和不稳定性，同时改善了图像异常检测的准确性，保证了零样本学习的有效性和高效性，极大降低了预训练视觉语言大模型迁移到下游任务的成本。

Description

一种基于可学习提示的零样本异常图像检测方法

技术领域

本发明涉及计算机视觉和异常图像检测领域的一种图像异常检测方法，特别涉及一种基于可学习提示的零样本异常图像检测方法。

背景技术

异常检测的主要任务是识别与常规模式不同的情形，广泛应用于视频监控、产品质量控制、医学诊断等领域。当前比较流行的异常检测方法大多利用无异常图像训练异常检测模型，进而定位图像的异常区域。然而这些方法为每一个特定物体类别构建相对应的异常检测模型，同时依赖大量的对应类别正常图像，无法满足包含大量物体类别的真实世界异常检测需求。基于提示工程的零样本学习为异常检测在真实世界中的应用打开了新的局面。

然而，提示工程的设计严重依赖领域专家经验，并且需要花费大量的时间来手工优化提示。

另外，手工设计提示中的个别文本改动都可能给检测性能带来巨大影响，具有较强的不稳定性。

发明内容

本发明的目的是为了解决背景技术而提出的一种基于可学习提示的零样本异常图像检测方法，通过构建可学习提示增强提示工程的泛化能力，缓解人工设计提示对特定领域知识的依赖程度。另外，通过可学习提示与状态提示的有机组合，提升零样本异常检测的准确性，同时保证提示工程的稳定性和可靠性。

为了实现上述目的，本发明采用的技术方案为：

1)建立零样本的异常图像检测网络；

2)利用异常图像检测网络；

3)将待测图像输入到训练后的异常图像检测网络获得异常区域热图，根据异常区域热图获得异常区域。

所述的异常图像检测网络包括视觉编码网络、文本编码网络、多层感知机mlp、可学习提示生成模块和异常区域计算模块；视觉编码网络的输出经多个多层感知机mlp后输入到异常区域计算模块，同时通过可学习提示生成模块获得可学习提示嵌入，将可学习提示嵌入经文本编码网络处理后输入到异常区域计算模块，异常区域计算模块的输出依次经改变特征维度操作和元素相乘操作后获得异常区域热图的结果。

所述的视觉编码网络包括依次进行的四个阶段，每个阶段均包含多层残差注意模块，每个阶段均输出视觉特征，四个阶段分别输出第一视觉特征T1、第二视觉特征T2、第三视觉特征T3和第四视觉特征T4作为视觉编码网络的输出，第一阶段接收原始输入的图像，除了第一阶段的其余每个阶段均接收前一阶段输出的视觉特征。

所述的视觉编码网络输出的四个视觉特征均经各自的多层感知机mlp处理后获得四个视觉编码特征，四个视觉编码特征共同输入到异常区域计算模块中。

所述的可学习提示生成模块包括可学习提示和状态提示[state]；

根据可学习提示和状态提示[state]按照以下公式获得可学习提示嵌入t，作为可学习提示生成模块的输出：

t＝[V]₁[V]₂…[V]_N[state]

所述的可学习提示中包含多个向量V_N，每个向量的维度与状态提示[state]的维度相同，是通过随机初始化的方式获得，且在训练时随网络梯度不断更新优化；

所述的状态提示[state]是对状态state经由视觉语言对比模型(CLIP模型)编码获得，状态state为表示状态是否正常的字符串，由领域知识较弱的通用文本表示，分为属于正常状态的字符串和属于异常状态的字符串。

属于正常状态的字符串state通常可以为：'normal class','flawless class','perfect class','class without defect'，分别代表正常类别，无缺陷类别，完美类别，没有缺陷的类别，‘class’表示待检测图像中的物体类别。

属于异常状态的字符串state通常可以为：'abnormal class','damagedclass','broken class','class with defect'，分别代表非正常类别，损伤类别，损坏类别，有缺陷的类别。

所述的可学习提示生成模块输出可学习提示嵌入再输入到文本编码网络中获得文本特征。所述的文本编码网络采用视觉语言对比模型(CLIP模型)。

所述的异常区域计算模块中，是根据输入的视觉编码特征与文本特征按照以下方式的余弦相似度计算获得：

G_m＝softmax(F_m@W^T),m＝1,2,3,4

其中，符号@表示矩阵相乘，softmax表示激活函数，W^T表示文本特征的转置，F_m表示视觉编码网络中第m阶段对应获得的视觉编码特征，G_m表示视觉编码特征F_m对应获得的初步异常区域图。

将异常区域计算模块输出的四个初步异常区域图经改变特征维度操作reshape后获得了四个异常区域图M_m，再将四个异常区域图M_m按对应元素相乘，获得最终的异常区域热图。

异常区域热图中大于设定异常阈值的像素区域即为最终的异常区域。

所述步骤2)训练时采用零样本迁移学习方法，对异常图像检测网络中的视觉编码网络、文本编码网络的网络参数不做更新，仅对可学习提示生成模块的参数以及多层感知机mlp的参数进行优化训练。训练过程使用Adam优化器，固定学习率0.001，训练批次为大小为8，迭代次数为1个epoch。

所述步骤3)中具体是在异常区域热图中以像素值大于预设的异常阈值的图像区域作为异常区域。

本发明设计了基于上下文优化的可学习提示生成模块，包含了参数可优化的可学习提示和图像异常状态提示。利用视觉语言大模型的图像编码网络获得多层级的待检图像视觉编码特征，同时利用文本编码网络获得可学习提示嵌入的文本特征。通过计算视觉编码特征和文本特征之间的多层级余弦相似度，构建图像异常区域计算模块，获得待检图像的异常区域。

本发明的有益效果是：

本发明方法能够利用弱领域知识的通用文本表达构建提示工程，极大缓解了对专家知识的依赖。

本发明提出的可学习提示避免了人工设计提示工程的复杂性和不稳定性，同时改善了图像异常检测的准确性。另外，所设计的可学习提示能够随网络梯度不断优化，实现了端到端的学习训练，保证了零样本学习的有效性和高效性，极大降低了预训练视觉语言大模型迁移到下游任务的成本；也能够对不同检测类别保持一致性，提高了可学习提示的泛化性能和稳定性。

附图说明

图1是基于可学习提示的异常图像检测网络；

图2是一种基于可学习提示的零样本异常图像检测方法示意图。

具体实施方式

下面结合附图和具体实施对本发明作进一步说明。

需要理解的是，本发明所描述的实施例是示例性的，实施例描述中所使用的具体参数仅是为了便于描述本发明，并不用于限定本发明。

如图2所示，本发明基于可学习提示的零样本异常图像检测的实施例如下：

步骤1：构建可学习提示生成模块。

构建的可学习提示生成模块用来构建可学习提示嵌入t，其包含两个部分：可学习提示和状态提示。其中，可学习提示通过随机初始化的策略获得，状态提示通过通用的领域知识构建。可学习提示嵌入的表达如下：

t＝[V]₁[V]₂…[V]_N[state]

其中，[state]表示状态提示的嵌入，其编码方式与CLIP模型保持一致。[V]_N是随机初始化的向量，其维度与[state]的维度相同。N表示可学习提示中包含的向量个数。

状态提示state采用领域知识较弱的通用文本表示，其中：

正常状态的状态提示state包含4个类别：'normal class','flawless class','perfect class','class without defect'。结合提示向量，为每个状态提示构建可学习提示嵌入，共构建4个可学习提示嵌入；

同理，异常状态的状态提示state包含4个类别：'abnormal class','damagedclass','broken class','class with defect'，共构建4个可学习提示嵌入；

每一个状态提示state经过CLIP模型编码后获得状态提示嵌入[state]。状态提示嵌入[state]与提示向量[V]_N拼接后获得完整的可学习提示嵌入t。其中，状态提示嵌入与提示向量的维度保持一致。

对于正常样本和异常样本的不同状态提示，如'normal class'、'abnormalclass'，均使用同一个提示向量[V]_N。

本实施例中，提示向量[V]_N的数量设置为16，即N＝16。每个向量采用随机初始化的方式获得。提示向量的维度为16×768。

步骤2：构建异常区域计算模块。

根据视觉编码特征和文本特征之间的余弦相似度判断某一位置为异常区域的概率，通过计算视觉编码特征和文本特征之间的余弦相似度获得异常区域。本发明提取了四个阶段的视觉编码特征F_m，m＝1,2,3,4，并提取了基于可学习提示嵌入的文本特征W。视觉编码特征F_m与文本特征W之间计算的初步异常图G_m表达如下：

G_m＝softmax(F_m@W^T)m＝1,2,3,4

其中，符号@表示矩阵相乘，softmax表示激活函数，W^T表示文本特征的转置。

根据上述公式构建异常区域计算模块，公式的计算结果表示该区域为异常区域的概率值。

步骤3：构建异常检测网络。

构建的基于可学习提示的异常图像检测网络如图1所示。该网络使用的视觉编码网络和文本编码网络均使用CLIP方法提供的预训练模型，其中视觉编码网络包含24层残差注意模块。本发明利用不同层级的视觉特征，是将CLIP视觉编码网络分成4个阶段，分别标记为第一阶段、第二阶段、第三阶段和第四阶段，每个阶段包含6层残差注意模块。残差注意模块的具体结构可参考CLIP模型，本发明不再赘述。

网络中的符号表示如下：B表示一个批次中输入到网络的图像数量；H和W表示图像的高和宽；L、C、d均表示某一特征的维度；T1、T2、T3、T4分别表示第一阶段、第二阶段、第三阶段和第四阶段的视觉特征，特征维度均为B×L×C；mlp表示多层感知机，括号中的数字表示多层感知机的节点数量；reshape操作表示改变特征的维度形状。

异常检测网络以二维待检图像I和可学习提示嵌入t为输入，用来预测图像中的异常区域。待检图像经过第一阶段、第二阶段、第三阶段和第四阶段视觉处理后分别获得视觉特征T1、T2、T3、T4。四个视觉特征分别经由mlp(768)操作后获得视觉编码特征F1、F2、F3和F4。同时，由可学习提示生成模块构建的可学习提示嵌入经过文本编码网络后获得文本编码特征W。

文本特征W分别与视觉编码特征F1、F2、F3和F4配合使用，经由异常区域计算模块，并经过reshape操作后获得四个异常区域图M1、M2、M3和M4。四个异常区域图的维度均为B×H×W，与输入图像空间尺寸保持一致。四个异常区域图按对应元素相乘，获得最终的待检图像异常区域热图。

本实施例中，输入图像大小H×W＝518×518，批次大小B为8。维度L为1370，维度C为1024，维度d为768。视觉编码网络与文本编码网络均使用CLIP开源的预训练模型。

文本编码网络需要同时处理4个正常样本可学习提示嵌入，获得4个对应的文本编码特征。将这4个文本编码特征取均值，其结果作为正常样本的文本编码特征，其维度为B×1×d；同理，对于4个异常样本可学习提示嵌入，获得的异常样本文本编码特征维度为B×1×d；将正常样本编码特征和异常样本编码特征拼接后获得文本编码特征W，其维度为B×2×d。

步骤4：训练构建的异常检测网络。本发明采用的是零样本异常检测方法，不能使用待评价数据集的相关数据。为了验证所提方法的效果，本发明仅使用MVTec AD数据集的测试集部分训练构建的异常检测网络，在VisA数据集的测试集部分评价网络。在网络训练过程中，仅优化更新多层感知机的mlp(768)网络部分和可学习提示向量部分，网络的其他参数不做更新(网络中的视觉编码网络和文本编码网络均使用CLIP模型提供的参数，不做更新优化)。训练过程使用Adam优化器，固定学习率0.001，训练批次为大小为8，迭代次数为1个epoch。

步骤5：训练完成后的异常检测网络直接预测输入物体图像的异常区域热图。在实际应用中，可设定异常阈值，网络预测的异常区域热图中大于设定阈值的区域即为最终的异常区域。

与现有技术相比，本发明构建了可学习提示生成模块，将提示工程的设计融入到网络参数的优化过程，提高了提示工程构建的效率，克服了人工设计提示工程的复杂性和不稳定性。同时，可学习提示与状态提示的有机结合确保了文本特征的泛化性能，并显著降低了视觉语言大模型迁移到下游异常检测任务的成本，具有很强的工程应用价值。

经测试，在VisA数据集上，本发明获得了95.2％的像素级异常检测精度。异常检测性能显著超越了经典的零样本检测方法WinCLIP。

以上所述，仅为本发明较佳的具体实施方案，但本发明的保护范围并不局限于上述实施方案，任何本技术领域的技术人员在本发明描述的技术范围内，根据本发明的技术方案及其发明构思所做的等同替换或改变，都应包含在本发明的保护范围之内。

Claims

1.一种基于可学习提示的零样本异常图像检测方法，其特征在于：

1)建立异常图像检测网络；

2)利用异常图像检测网络；

2.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法，其特征在于：所述的异常图像检测网络包括视觉编码网络、文本编码网络、多层感知机mlp、可学习提示生成模块和异常区域计算模块；视觉编码网络的输出经多个多层感知机mlp后输入到异常区域计算模块，同时通过可学习提示生成模块获得可学习提示嵌入，将可学习提示嵌入经文本编码网络处理后输入到异常区域计算模块，异常区域计算模块的输出依次经改变特征维度操作和元素相乘操作后获得异常区域热图的结果。

3.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法，其特征在于：所述的视觉编码网络包括依次进行的四个阶段，每个阶段均包含多层残差注意模块，每个阶段均输出视觉特征，四个阶段分别输出第一视觉特征T1、第二视觉特征T2、第三视觉特征T3和第四视觉特征T4作为视觉编码网络的输出。

4.根据权利要求3所述的一种基于可学习提示的零样本异常图像检测方法，其特征在于：所述的视觉编码网络输出的四个视觉特征均经各自的多层感知机mlp处理后获得四个视觉编码特征，四个视觉编码特征共同输入到异常区域计算模块中。

5.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法，其特征在于：所述的可学习提示生成模块包括可学习提示和状态提示[state]；

t＝[V]₁[V]₂…[V]_N[state]

所述的可学习提示中包含多个向量V_N，每个向量的维度与状态提示[state]的维度相同，是通过随机初始化的方式获得；

所述的状态提示[state]是对状态state经由视觉语言对比模型编码获得，状态state为表示状态是否正常的字符串，分为属于正常状态的字符串和属于异常状态的字符串。

6.根据权利要求2或5所述的一种基于可学习提示的零样本异常图像检测方法，其特征在于：所述的可学习提示生成模块输出可学习提示嵌入再输入到文本编码网络中获得文本特征。

7.根据权利要求1或6所述的一种基于可学习提示的零样本异常图像检测方法，其特征在于：所述的异常区域计算模块中，是根据输入的视觉编码特征与文本特征按照以下方式的余弦相似度计算获得：

G_m＝softmax(F_m@W^T),m＝1,2,3,4

8.根据权利要求7所述的一种基于可学习提示的零样本异常图像检测方法，其特征在于：将异常区域计算模块输出的四个初步异常区域图经改变特征维度操作reshape后获得了四个异常区域图M_m，再将四个异常区域图M_m按对应元素相乘，获得最终的异常区域热图。

9.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法，其特征在于：所述步骤2)训练时采用零样本迁移学习方法，对异常图像检测网络中的视觉编码网络、文本编码网络的网络参数不做更新，仅对可学习提示生成模块的参数以及多层感知机mlp的参数进行优化训练。

10.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法，其特征在于：所述步骤3)中具体是在异常区域热图中以像素值大于预设的异常阈值的图像区域作为异常区域。