CN112767331A

CN112767331A - 基于零样本学习的图像异常检测方法

Info

Publication number: CN112767331A
Application number: CN202110026414.1A
Authority: CN
Inventors: 陆峰; 刘云飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-05-07
Anticipated expiration: 2041-01-08
Also published as: US20220222794A1; CN112767331B

Abstract

本公开的实施例公开了图像异常检测方法。该方法的一具体实施方式包括：获取测试图像；将测试图像输入至自编码器，得到第一重构图像；将第一重构图像输入至专家网络，得到第二重构图像；基于测试图像、第一重构图像、第二重构图像和知觉测量方法，生成异常分数矩阵；基于异常分数矩阵，生成异常区域信息。该实施方式实现了零样本训练网络，提高了定位异常区域的精准度。

Description

基于零样本学习的图像异常检测方法

技术领域

本发明涉及计算机视觉和图像处理领域，具体涉及图像异常检测方法。

背景技术

异常检测任务则是从中检测出稀少的类别、事件或是与大量图像明显不同的区域。对异常物体或区域的检测有着多种的计算机视觉的应用，例如检测工业产品缺陷、在视网膜图像中分割病变区域、检测监控视频内容中的异常行为、在救援中确定生还者位置等等。近年来，随着深度学习与计算机视觉在业界的广泛应用，图像异常检测的价值逐渐凸显；另一方面，异常检测在计算机视觉领域仍是一个极富挑战性的问题。目前的解决方案大多基于深度学习，因此需要大量的、样本均衡的正负样本来训练模型。

为了减少对异常图像数量的需求，Andrews通过假设异常发生在整张图像的类别上，通过判断数据特征是否离群来确定图像是否异常。近年来，Baur等人利用自编码器在大量正常数据上进行重构，自编码器是一个输入和学习目标相同的神经网络，基于自编码器不能重构出未见过的异常区域的假设，以此在测试阶段计算输入图像与重构图像的差异，将差异大的地方划分为异常区域。Berg等人也在自编码器中加入跳层连接的结构来增强重构图像的质量。重构是指从非图像形式构造或恢复图像的操作。异常图像指带有异常区域的图像。

然而，当采用上述方式对图像进行异常检测时，经常会存在如下技术问题：

第一，基于深度学习的方法，需要大量的、样本均衡的正负样本来训练模型。然而由于异常发生的情况少，并且种类多，导致异常图像的数量十分匮乏。

第二，基于自编码器的方法，要么由于清晰度低的重构结果带来额外的图像差异，从而将非异常区域的部分误划分为异常区域的部分，要么由于清晰度高的重构结果而将异常区域一并重构，导致重构图像与输入图像的差异丢失了异常区域的像素信息。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了图像异常检测方法，来解决以上背景技术部分提到的技术问题中的一项或多项。

本公开的一些实施例提供了一种图像异常检测方法，该方法包括：提出一种两阶段的异常检测方法进行零异常样本的学习，进而有效定位图像中的异常区域；发明一种基于互信息的自编码器结构，通过输入图像，有效重构出对应的清晰度低的无异常图像；进一步设计一种专家网络，通过在第一阶段输出的无异常图像的基础上，准确重构出对应的清晰度高的无异常图像；基于第一、二阶段的输出结果，结合输入图像，发明一种新型的异常测量方法，用于准确高效计算图像中每个位置的异常数值，进一步该异常数值，划分图像中的正常区域和异常区域。

本公开的上述各个实施例具有如下有益效果：发明了一种两阶段的异常检测框架，通过先根据输入图像生成清晰度低的无异常区域的图像，再进一步重构出清晰度高的无异常区域的图像，解决了之前自编器存在的问题，有利于稳定计算异常区域；针对自编码器在重构输入图像时会重构部分异常区域，发明了一个新型的自编码结构，通过最大化自重构中的特征与输入图像的互信息，同时将满足互信息的特征进行初步的重构得到清晰度低的无异常区域的图像，从而有效地降低了异常区域被重构的可能性；发明了一个专家网络来对清晰度低的无异常区域的图像进行处理，得到清晰度高的无异常区域的图像；在得到清晰度低的无异常区域的图像与清晰度高的无异常区域的图像的情况下，本发明提出了一种知觉测量方法，能够提高定位异常区域的精准度。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是根据本公开的图像异常检测方法的一些实施例的流程图；

图2是根据本公开的训练自编码器的一些实施例的流程图；

图3是根据本公开的一些实施例的图像异常检测方法的一个应用场景的示意图；

图4是根据本公开的一些实施例的图像异常检测方法的另一个应用场景的示意图；

图5是根据本公开的一些实施例的图像异常检测方法的再一个应用场景的示意图；

图6是根据本公开的一些实施例的图像异常检测方法的再一个应用场景的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

下面将参考附图并结合实施例来详细说明本公开。

图1是根据本公开的图像异常检测方法的一些实施例的流程图。该图像异常检测方法，包括以下步骤：

步骤101，获取测试图像。

在一些实施例中，图像异常检测方法的执行主体可以通过有线连接方式或者无线连接方式获取测试图像。其中，测试图像是包括一个待检测物体的图像。

作为示例，待检测物体是胶囊，测试图像可以是有破损的或完整的胶囊，如图3，带异常区域的图像是一张有破损的胶囊图像，图像上显示的破损区域是异常区域。无异常区域的图像是一张完整的胶囊图像。

步骤102，将测试图像输入至自编码器，得到第一重构图像。

在一些实施例中，上述执行主体可以通过自编码器，利用各种方式，对测试图像进行处理，得到第一重构图像。异常区域指检测过程中关注的目标区域。其中，异常区域具有尺度不变性，即异常区域随着测试图像的放大或缩小，依然为异常区域。

作为示例，如图4得到的第一重构图像，可以看出，相比图3，此第一重构图像的表现形式为清晰度较低的无异常区域的图像。

上述自编码器可通过以下过程得到：

该自编码器主要包括三个部分：编码器，判别器和解码器。训练过程中，训练样本为包括一个待检测物体但没有异常区域的图像，作为示例，待检测物体是胶囊，异常区域是胶囊上破损处的区域，训练样本可以是形状相同的完整的胶囊图像。

编码器直接接收样本集x，输出中间特征集z，而后中间特征集输入解码器，得到重构图像集m，此处的集合x表示每次输入网络的是一个批量的样本。

具体而言，该编码器可以由若干个卷积模块连接组成，其中卷积模块可以是一个Inception模块，或者一个卷积层后接一个激活层，或者一个残差模块。inception结构是一种深度学习结构，整个inception结构是由多个inception模块串联起来的。inception结构的主要贡献包括：一是可以使用1×1的卷积来进行升降维；二是可以在多个尺寸上同时进行卷积再聚合。每个卷积模块最后一层为一个2×2的池化层。中间特征集z的生成方式为：z＝E_M(x)。其中，E_M表示编码器。E_M(x)表示将样本集x输入至编码器得到的输出。

相对熵是用来衡量两个取值为正的函数或概率分布之间的差异。在训练过程中，需要约束中间特征集z满足正态分布，假设样本q服从标准正态分布，可以采用相对熵来对中间特征集z进行约束，公式如下：

其中，KL(z，q)表示中间特征集z和样本q的相对熵。B表示一个批量的样本数。C表示一个样本对应的中间特征的特征图数目。b表示一个批量的样本中样本的序号。c表示一个样本对应的中间特征中特征图的序号。μ_b，c表示序号为b的样本对应的中间特征中序号为c的特征图中所有元素的均值。σ_b，c表示序号为b的样本对应的中间特征中序号为c的特征图中所有元素的方差。

互信息是两个随机变量之间相互依赖程度的度量。如图2，给出了训练自编码器的流程图。通过最大化样本集x与中间特征集z的互信息，可以使中间特征集z学习到的样本集x的信息量达到最大。通过引入一个判别器来区分正样本和负样本。将样本集x与其生成的中间特征集z配对，得到的样本(x,z)定义为正样本。从去除样本集x的总样本集中，随机采样一个批量的样本集记为

将中间特征集z中每一个特征图对应的上述均值和方差对(μ_b，c，σ_b，c)。作为正态分布的参数，进行随机采样，生成该特征图大小的矩阵。其中该矩阵中的所有元素均服从参数为(μ_b，c，σ_b，c)的正态分布。最终得到特征集

为减少计算量，

可以由对样本集x内的样本随机打乱生成。样本

定义为负样本。

判别器T可以由一个二维卷积神经网络后接多个全连接层构成。其中全连接层的层数不限制，最后一个全连接层的神经元个数为1。以(x,z)作为输入样本为例。首先将中间特征集z经过双线性插值，使得中间特征集z中的所有特征图与样本集x中的图像有相同的宽度和高度。然后将插值之后的结果在通道维度上逐样本拼接在x的后面，这样便得到一个可以直接输入判别器的正样本。样本

的处理方式与(x,z)类似，可得到一个可以直接输入判别器的负样本，将上述两个样本作为一个批量的样本训练判别器，判别器的目标函数为：

其中，L₁表示判别器的目标函数。T()表示判别器的输出。T(x，z)表示正样本(x,z)经过上述拼接处理后输入判别器得到的结果。

表示负样本

经过上述拼接处理后输入判别器得到的结果。

进一步，根据提取的中间特征集z，设计一个解码器D_M，将中间特征集z映射成图像集m。解码器可以由若干个卷积模块连接，其中卷积模块的实现可以是一个Inception模块，或者一个卷积层后接一个激活层，或者是一个残差模块。卷积模块的个数与编码器E_M保持一致，每个卷积模块最后一层为一个2×2的上采样层。解码器的最后一个卷积模块为一个1×1的卷积层，后接一个激活函数(例如，Sigmoid函数)。以此，解码器重构出无异常区域的图像集m。这一步的目标函数为：

其中，L₂表示解码器的目标函数。i表示一个批量样本集中样本的序号。j表示图像通道的序号。m_i，j表示序号为i的样本输入自编码器得到的输出图像的序号为j的通道矩阵。x_i，j表示序号为i的样本的序号为j的通道矩阵。

表示l₁范数。通道矩阵是像素在对应通道上的值构成的矩阵。

综上，基于互信息的自编码器的训练流程为：

第一步，在无异常数据集上训练编码器、判别器和解码器，自编码器的目标函数为：

L₃＝KL(z，q)+λ₁×L₁+λ₂×L₂。

其中，L₃表示总目标函数。KL(z，q)表示相对熵。L₁表示判别的目标函数。L₂表示解码器的目标函数。λ₁表示判别器的目标函数的权重。λ₂表示解码器的目标函数的权重。λ₁可以设置为1.0，λ₂可以设置为0.1。

第二步，判别器T通过目标函数

来区分正样本和负样本。

第三步，重复执行第一步和第二步达200次以上，以确保网络收敛。

在这一过程中用到的超参数只是一种示例，所有训练过程中的超参数上的更改，都属本专利的保护范围。

在一些实施例的一些可选的实现方式中，上述执行主体可以通过以下步骤得到第一重构图像：

第一步，将测试图像缩放到预定尺寸，得到目标图像。预定尺寸可以是上述自编码器可直接接收的图像尺寸。

第二步，将目标图像输入至自编码器，得到第一重构图像。将目标图像输入至训练好的自编码器，得到的输出结果即为第一重构图像。

步骤103，将第一重构图像输入至专家网络，得到第二重构图像。

在一些实施例中，上述执行主体可以将第一重构图像输入至专家网络，得到的输出结果即为第二重构图像。作为示例，如图5得到的第二重构图像，可以看出，相对图4，此第二重构图像的表现形式为清晰度较高的无异常区域的图像，具备与测试图像类似的局部信息，比如可以看到数字500。

上述专家网络可以通过以下过程得到：

在训练自编码器的过程中，对于每一个训练样本x，生成对应的无异常区域的图像m。专家网络以(m，x)这些数据对为训练样本集进行监督学习，学习从M到X的映射，其中m∈M，M是m的集合。专家网络可以由一个编码器E_X和一个解码器D_X构成。其中，E_X可以由一个卷积神经网络后接若干个残差模块，最后通过一个自适应池化层组成，D_X可以由若干个残差模块后接一个卷积神经网络，然后跟一个1×1的卷积层，后接一个Sigmoid激活函数组成。E_X和D_X一起学习一个从M到X的映射，专家网络的目标函数为：

其中，L₄表示专家网络的目标函数。i表示图像通道的序号。x_i表示训练样本(m，x)中的第二个元素x的序号为i的通道矩阵。

表示将训练样本(m，x)中第一个元素m输入专家网络得到的输出图像。

表示图像

的序号为i的通道矩阵。|| ||₂表示矩阵的l₂范数。重复训练，直至网络收敛。需要说明的是，输入专家网络的无异常区域的图像m可以以一个批量图像的形式代替，来提高训练速度。

步骤104，基于测试图像、第一重构图像、第二重构图像和知觉测量方法，生成异常分数矩阵。

在一些实施例中，上述执行主体可以将测试图像、第一重构图像和第二重构图像输入至知觉测试方法，通过各种手段，得到异常分数矩阵。

在一些实施例的一些可选的实现方式中，上述执行主体可以根据以下公式生成异常分数矩阵：

其中，e表示异常分数矩阵。l表示预设网络模型中隐藏层的序号。λ表示预设网络模型中的预设权重。λ_l表示预设网络模型中第l个隐藏层的预设权重。c表示预设网络模型中特征图的数目。c_l表示预设网络模型中第l个隐藏层中特征图的数目。x表示目标图像。m表示第一重构图像。

表示第二重构图像。

表示预设网络模型中特征空间上的距离矩阵。

表示预设网络模型中第l个隐藏层的特征空间上的距离矩阵。

表示将x和m分别输入预设网络模型时，在第l个隐藏层上生成的两个特征图集之间的距离。

表示将x和

分别输入预设网络模型时，在第l个隐藏层上生成的两个特征图集之间的距离。rescale( )表示上采样。

表示将距离矩阵

与

之和上采样至目标图像的尺寸。i^(l)表示预设网络模型中第l个隐藏层中特征图的序号。f( )表示特征图对应的矩阵。

表示第l个隐藏层第i个特征图对应的矩阵。| |表示逐元素取绝对值。

表示对矩阵

中的每一个元素取绝对值。

表示对矩阵

中的每一个元素取绝对值。目标图像可以由测试图像缩放到自编码器可直接接收的图像尺寸而得到。

步骤105，基于异常分数矩阵，生成异常区域信息。

在一些实施例中，上述执行主体可以对异常分数矩阵进行各种变换，进而生成异常区域信息。根据矩阵与图像的对应关系，一个异常分数矩阵，可以对应到一个异常分数图。作为示例，如图6的左图所示，异常区域被高亮显示。

在一些实施例的一些可选的实现方式中，上述执行主体可以通过以下以下步骤生成异常区域信息：

第一步，基于异常分数矩阵，通过以下公式，生成异常区域矩阵：

其中，i表示异常分数矩阵和异常区域矩阵的行号。j表示异常分数矩阵和异常区域矩阵的列号。y表示异常区域矩阵。y_i，j表示异常区域矩阵中第i行第j列的元素值。e表示异常分数矩阵。e_i，j表示异常分数矩阵中第i行第j列的元素值。α表示预设阈值。预设阈值可以是0.5。

第二步，基于异常区域矩阵，生成异常区域信息。可以将异常区域矩阵作为异常区域信息。一个异常区域矩阵对应一个二值图像，将该二值图像称为异常分割图像。该图像将异常区域和非异常区域以两种不同颜色进行显示。若异常分割图像只有一种颜色，则表示测试图像无异常区域。作为示例，一个异常区域矩阵，对应一个异常分割图，如图6的右图所示，异常区域被高亮显示，且被精准定位。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。