CN113792609A

CN113792609A - 自动驾驶中通过对齐多频谱跨域特征检测图像异常的方法

Info

Publication number: CN113792609A
Application number: CN202110955581.4A
Authority: CN
Inventors: 李叔罡; 李爽; 刘驰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-12-14

Abstract

本发明涉及自动驾驶中通过对齐多频谱跨域特征检测图像异常的方法，所述检测图像异常的方法主要包括以下步骤：步骤1，在始化特征提取器G、多频谱特征融合模块M、分类器C和域判别器D的基础上构建神经网络；步骤2，计算源域中心点μ^s和目标域的中心点μ^t；步骤3，获取源域样本与目标域样本的输出；步骤4，计算源域样本模型预测和目标域样本模型预测输出与真实标签的类别损失

步骤5，计算对于本批次源域样本模型和目标域样本模型预测输出与真实标签的域对抗损失

等；本发明所述检测图像异常的方法通过在跨域的基准测试集上进行了广泛的实验，最终的结果显示所提出的MsRA方法与现有其它先进的AUROC方法相比，在模型的迁移性能上有着显著的提升。

Description

自动驾驶中通过对齐多频谱跨域特征检测图像异常的方法

技术领域

本发明属于自动驾驶技术领域，具体涉及自动驾驶中通过对齐多频谱跨域特征检测图像异常的方法。

背景技术

目前，在自动驾驶车辆中，一般配有视觉图像采集系统，视觉图像采集系统利用相机将被检测的目标转换成图像信号，传送给专用的图像处理系统，根据像素分布和亮度、颜色等信息，转变成数字化信号，然后图像处理系统对这些信号进行各种运算来抽取目标的特征，进而对相应目标的检测。然而，目标检测的准确程度依赖于高质量的图像采集，当采集到的图像出现过曝、烟雾遮挡、雨水遮挡等情况时，会对目标检测的准确性产生很大的影响，这直接影响自动驾驶的安全性。

跨域的图像异常检测迁移学习是机器学习的一个热门研究方向，较多的跨域图像异常检测研究主要是在已有的数据充足的训练集下进行，而在自动驾驶的场景下，跨域的图像异常检测研究中一大问题是很难获取到大量的现实场景的目标域的数据。因为车辆在日常行驶的过程中采集到的图像大多都是正常的，而真实车辆在路面上很难连续获取到异常的图像数据。同时，因为自动驾驶车辆在实际的行驶当中要面对众多的道路环境，要想获得全部道路环境下的训练数据是极其困难的。

在现有技术中，中国发明专利申请号CN201910251114.6公开了一种视网膜的异常检测方法、装置、设备和存储介质，所述方法包括：获取一视网膜的原视网膜图像；确定原视网膜图像的图像质量；在图像质量符合预设的质量条件时，对原视网膜图像进行图像风格迁移预处理，得到目标视网膜图像；根据目标视网膜图像确定视网膜的异常信息。实现了在视网膜的异常检测前，确定视网膜图像的图像质量图和对视网膜图像进行风格迁移预处理，使得用于确定视网膜异常的视网膜图像为高质量和风格一致的图像，解决了视网膜图像质量差和风格差异，造成视网膜的异常检测不准确的问题，能够从高质量和风格一致的目标视网膜图像中提取足够的准确图像特征用于视网膜的异常检测，提高了视网膜异常检测的准确性。但是没有提出一种自动驾驶中通过对齐多频谱跨域特征检测图像异常的方法。

又如,中国发明专利申请号CN201710749768.2公开了一种结合CNN迁移学习和SVDD的图像异常检测方法，根据视频数据手工截取待检测图像对象周围的图像，制作待检测的支柱编号数据集，利用卷积神经网络表达图像数据深度特征，采用已经通过预训练好的权重和参数的网络模型，通过训练的网络模型充分提取支柱编号样本的特征，解决非平衡数据中少数类数据的问题；构造出需要在分类器中参与训练的正样本特征集，最后利用支持向量数据描述算法和网格搜索等进行参数优化，形成正样本特征训练的正常域，通过此边界实现对接触网编号状态的识别。该发明自动化处理水平较高，可以极大的降低操作人员工作量，及早发现接触网支柱编号异常问题，提高巡检效率。但是同样没有提出一种自动驾驶中通过对齐多频谱跨域特征检测图像异常的方法。

基于在实际的自动驾驶当中，需要对采集到的图像数据进行异常检测，以对出现异常的图像及时采取相应的处理，避免其对自动驾驶的安全性产生影响。而且也需要借助迁移学习的域适应方法(Domain adaption，DA)来帮助利用部分少量的目标域的数据来实现其与数据量较大的源域数据的特征对齐，以满足在目标域下的异常检测需求。

发明内容

本发明针对自动驾驶中现实存在的困难场景下的跨域异常检测问题，提出一种自动驾驶中通过对齐多频谱跨域特征检测图像异常的方法。

本发明所述检测图像异常的方法包括以下步骤：

步骤1，在初始化特征提取器G、多频谱特征融合模块M、分类器C和域判别器D的基础上构建神经网络；

对神经网络模型的多频谱特征融合模块、特征提取器、类别判别器、域判别器进行参数初始化；

步骤2，计算源域中心点μ^s和目标域的中心点μ^t；

步骤3，采样源域和目标域样本，输入特征生成器G并获得相应的特征表示输出；

步骤4，计算源域样本模型预测和目标域样本模型预测输出与真实标签的类别损失

步骤6，计算对于本批次源域样本模型和目标域样本模型预测输出与真实标签的样本间的距离损失

步骤7，计算整个模型的总体损失

步骤8，利用随机梯度下降SGD进行模型更新，实现源域样本和目标域样本的特征对齐；

步骤9，重复步骤2至步骤8，直至迭代次数(Iteration)达到最大；

步骤10，在测试阶段，计算出所有正常实例的特征中心μ；

步骤11，计算测试样本

的异常分数

进一步地，步骤1所述构建神经网络，包括以下步骤：

步骤1.1，使用在ImageNet上预训练的ResNet-50网络模型作为特征提取器G，删除ResNet-50的全局平均池化层除；

步骤1.2，采用全连接层将特征提取器G尺寸减小至256维；

步骤1.3，设计多频谱特征融合模块M集成来自不同频谱分量的信息，并在特征提取器G后面分别接入类别判别器、域判别器D、中心聚类模块。

进一步地，步骤2所述计算源域中心点μ^s和目标域的中心点μ^t,包括以下步骤：

步骤2.1、基于训练数据集，将经过多频谱特征融合模块M后的源域正常样本特征数据输入源域正常样本特征中心点计算模型，获取源域正常样本特征中心点μ^s，源域正常样本特征中心点计算模型如下式(1)：

上式(1)中：μ^s为源域的特征中心点，n_s为源域的参与训练的正常样本的数量，

表示源域的第i个训练样本，

为特征提取器G计算得到的当前源域的第i个实例的特征，

表示经过多频谱特征融合模块后结合了来自不同频谱分量信息的源域正常样本的输出特征；

步骤2.2、将目标域正常样本数据输入目标域特征中心点计算模型,获取目标域正常样本特征中心点μ^t，目标域正常样本中心点计算模型如下式(2)：

上式(2)中：μ^t为目标域的特征中心点，n_t为目标域的参与训练的正常样本的数量，

表示目标域的第j个训练样本，

为特征提取器G计算得到的目标域的第j个实例的特征，

表示经过多频谱特征融合模块后结合了来自不同频谱分量信息的目标域正常样本的输出特征。

进一步地，步骤3所述获取源域样本与目标域样本的特征表示输出,包括以下步骤：

步骤3.1，随机采样小批次的数量为B(Batch size)的源域样本

与目标域样本

步骤3.2，并将源域样本

和目标域样本

输入至特征生成器G中获得相应的特征表示；

步骤3.3，再将生成的特征表示分别输入类别判别器C、域判别器D及中心聚类模块，而后得到相应的输出，其中，目标域样本数量远小于源域样本的数量。

进一步地，步骤4所述计算源域样本模型预测和目标域样本模型预测输出与真实标签的类别损失

在步骤2的源域样本

和目标域样本

的标注信息的监督下，利用双域联合交叉熵损失函数，计算对于本批次源域样本模型预测和目标域样本模型预测输出与真实标签的类别损失

如下式(3)所示：

上式(3)中：n_s为源域的参与训练的正常样本的数量，n_t为目标域的参与训练的正常样本的数量，

表示经过多频谱特征融合模块后结合了来自不同频谱分量信息的源域正常样本的输出特征，

表示经过多频谱特征融合模块后结合了来自不同频谱分量信息的目标域正常样本的输出特征，C是类别分类器。

进一步地，步骤5中，所述在步骤4的源域样本和目标域样本的标注信息的监督下，利用多频谱域对抗损失函数，计算对于本批次源域样本模型和目标域样本模型预测输出与真实标签的域对抗损失

如下式(4)：

上式(4)中：

表示判别器对当前批次输入的源域数据的输出计算出的损失求期望值。

进一步地，步骤6中，所述计算源域样本模型和目标域样本模型预测输出与真实标签的样本间的距离损失

如下式(5)：

上式(5)中：||·||₂代表L2正则化，μ^s和μ^t分别是源域和目标域的中心点。

进一步地，步骤7所述计算整个模型的总体损失

如下式(6)，

上式(6)中，α，β是两个用于平衡损失的参数。

进一步地，步骤8所述利用随机梯度下降SGD进行模型更新，实现源域样本和目标域样本的对齐：

按照步骤7所得到的整个模型的总体损失

利用随机梯度下降算法(Stochastic Gradient Descent，SGD)进行反向传播，以更新特征生成器G、类别判别器C和代入的参数，使得损失函数最小化，以使特征生成器G生成更有效的特征表示，实现源域样本和目标域样本的对齐：

进一步地，步骤10所述计算出所有正常实例的特征中心μ，如下式(7)：

上式(7)中，n_s是源域的参与训练的实例的数量，

为特征提取器G计算得到的当前batch中源域的第i个实例的特征，

表示经过多频谱特征融合模块后集成了来自不同频谱分量信息的输出特征。

进一步地，步骤11所述计算测试样本

的异常分数

如下式(8)：

上式(8)中，

为特征提取器G计算得到的当前batch中测试集第m个实例的特征，

表示经过多频谱特征融合模块后集成了来自不同频谱分量信息的输出特征，μ表示正常实例的特征中心。

本发明所述检测图像异常的方法与现有同类方法相比较，具有以下的优越效果：

1.现有的自动驾驶迁移学习异常检测方法大多需要充足的标注样本来进行训练，这在自动驾驶实际情况中是很难做到的，本发明研究了一种更困难和实际的异常检测场景，在此场景中的模型训练阶段，是没有异常数据参与的，且目标域正常数据在训练阶段是有限的，这样的场景下的假设更加贴近于实际状况。

2.本发明提出的多频谱跨域表示对准(Multi-spectral Cross-domainRepresentation Alignment，MsRA)的方法，MsRA首先将深度特征映射推广到频谱，然后通过不同频谱分量的加权组合构造多频谱特征表示，弥补了有限的目标训练数据造成的信息不足的问题，这使得本发明方法能够在样本少的条件下实现较好的异常检测迁移学习效果。

3.现有的自动驾驶迁移学习异常检测方法基本上仍然依靠传统的异常检测方法来进行异常样本的检测，这使得整体模型明显包括特征提取和异常检测这样单独的两阶段步骤，而本发明所述检测图像异常的方法将模型分别通过对抗损失和中心匹配损失来学习域不变特征和类紧凑特征，通过使用样本实例到特征中心点的距离作为异常分数，而不训练额外的异常检测模型，本发明所述检测图像异常的方法在训练和测试阶段均使用端到端的方式来进行，不需要先进行特征提取，再依靠训练其它现有异常检测方法来进行异常样本的检测。

4.本发明所述检测图像异常的方法具有很强的普适性，能够适应多种迁移学习异常检测任务，并不局限于某一特定的任务，而现有技术中的种种迁移学习自动驾驶异常检测方法基本上是针对某一特定的任务，具有很大的局限性。

5本发明所述检测图像异常的方法通过在跨域的基准测试集上进行了广泛的实验，最终的结果显示所提出的MsRA方法的有效性，与现有其它先进的AUROC方法相比，在模型的迁移性能上有着显著的提升。

附图说明

图1为对本发明所述检测图像异常的方法的研究动机的总体概述图；

图2为本发明所述对齐多频谱跨域特征检测图像异常的方法的总体算法框架图；

图3为当单独使用每个频谱组件时，对OfficeHome数据集的Calculator类(ClipArt→Product)任务进行异常检测的AUROC(％)值。

图4为在OfficeHome数据集上MsRA算法的超参数敏感性分析图。

图5为本发明所述检测图像异常的方法的对齐多频谱跨域特征图像异常检测方法的流程图。

具体实施方式

下面结合说明书附图1-5对本发明所述检测图像异常的方法的具体实施例作进一步的详细描述。

为更好地理解本发明所述检测图像异常的方法，下面对与本发明所述检测图像异常的方法相关联的结构，例如，特征提取器G、多频谱特征融合模块M、分类器C和域鉴别器D的原理及其应用作一简要介绍。

针对自动驾驶图像异常检测这一领域，在训练阶段只有源域正常数据和有限数量的目标域正常数据参与的这一场景设定下的异常检测问题，其目标是建立一个有效的异常评数函数，以区分目标区域的正常和异常实例。由于域漂移和目标训练数据短缺问题，仅基于源域数据或目标数据构建异常分数函数通常表现较差。为了解决这一问题，本发明所述检测图像异常的方法包含了特征提取器G、多频谱特征融合模块M、

分类器C和域鉴别器D，以对齐源域和目标域，同时，本发明所述检测图像异常的方法构建了一个基于两个域特征对齐特征表示的异常分数函数，即首先将特征提取器提取的深度特征推广到频谱中，然后通过融合不同的频谱分量来构造多频谱特征表示，从而引入了更多关于输入的信息。在多频谱特征空间中，通过强制特征提取器通过对抗性损失和中心聚类损失来学习域不变特征，如图2所示。当源域和目标域被对齐，就能够结合源域和目标域的数据来计算正常类的中心点，并将实例到中心点的距离定义为异常分数。在训练阶段，采用n_s表示从源域X_s×Y_s抽样的独立同分布正常实例，即

用n_t表示从目标域X_t×Y_t抽样的独立同分布正常实例，即

并设定n_t＜＜n_s。目标域的测试数据集包含正常实例和异常实例，记为

其中n_test是测试样本数，

分别是源训练数据

目标训练数据

和目标测试数据

的对应标签，标签0表示正常，1表示异常样本，目标域数据与Y_s共享相同的标签空间，并且是从不同的数据分布中采样的，在源域和目标域之间存在域漂移，其目的是为目标域建立性能良好的异常得分函数

其中，s是异常得分。

本发明所述检测图像异常的方法中，深度卷积神经网络具有优异的特征提取能力，以用于特征提取器G来提取特征，获得深度特征图后，现有技术中基于深度CNN的方法均使用全局平均池化(global average pooling,GAP)来处理提取的深度特征图以用于下游任务，而GAP实际上仅利用了平均值信息，不足以捕获丰富的输入模式信息。通过GAP频谱分析，证明了GAP实际上仅利用了最低频谱分量中的信息。

首先，将离散余弦变换(Discrete Cosine Transform，DCT)定义为下式：

s·t·i∈{0，1，…，L-1}

上式中：

是长度为L的输入向量，

是通过x的DCT获得的频谱。F_i是频谱F中i位置的频谱分量。基于DCT的二维DCT如下式所示：

s·t.u∈{O，1，…，H-1}，v∈{0，1，…，W-1}

上式中：

是高度为H，宽度为W的输入矩阵，而

是二维DCT对应的x^2d频谱，

是频谱F^2d中(u，v)位置的频谱分量，频谱F^2d的逆二维DCT表示为：

s.t.h∈{0，1，…，H-1}，w∈{0，1，…，W-1}

为方便计算起见，忽略了上式中不影响分析结果的恒定归一化系数；

特别地，考虑u＝0和v＝0的情况，将输入x2d的最低频谱分量

表示为：

上式中，GAP(·)是全局平均池化，可以看出全局平均池化实际上是二维DCT的一种特殊情况，它与输入的最低频谱分量成比例，囿于目标训练数据非常有限，仅使用全局平均池来处理提取的特征将无法提供足够的信息。

此外，为简单起见，将二维DCT的DCT权重

表示为

将式(11)转换为下式：

s.t.h∈{0，1，…，H-1}，w∈{0，1，…，W-1}

在此，能够观察到图像或特征实际上是不同频谱分量的组合。这种观察结果有助于考虑结合来自输入的不同频谱成分的更多信息，以弥补由于目标训练数据有限而造成的信息短缺。为此，本发明设计了如图2所示的多频谱特征融合模块M，在多频谱特征融合模块中：

令

是特征提取器G提取的特征图，其中C，H和W分别是特征图的通道数、高度、宽度，将频谱中(u，v)位置的f的频谱分量表示为下式：

s.t.c∈{O，1，…，C-1}

上式中：f_{c，：，：}是f的第c个通道的特征图，f_c，h，w是f中(c，h，w)位置的元素，DCT_u，v表示提取频谱中(u，v)位置的频谱分量，将二维DCT基本函数DCT_u，v应用于f时，

是对应的频谱分量，将多个二维DCT基函数应用于f，则获得f的多个频谱分量。假设从DCT基础池中选择了大小为H×W的K个二维DCT基函数(表示为

)，以构造多频谱特征

如下：

为简单起见，以一维格式表示二维DCT基函数的索引，考虑到不同频谱分量的重要性不同，为每个频谱分量Freq_(k)添加了可学习的重要性权重ω_k，并合并来自不同频谱分量的更多信息，以缓解了实际场景中的信息短缺问题。

在构建多频谱特征后，需要解决域漂移，基于多频谱特征表示，在两个方向上进行探索：域不变特征学习和类紧凑特征学习，将分别说明如下:

与生成对抗网络(GAN)有着相同的构想，许多基于对抗的方法在域适应中的多类别分类问题上取得了显著的成功,同样，需要强制执行特征提取器G以及多频谱特征融合模块M和域判别器D进行对抗性训练，其中域判别器用于正确区分源数据和目标数据，而G和M则尝试生成尽可能会混淆域识别结果的特征。具体来说，对抗过程是通过说明书记载的公式(4)实现的。

为简便起见，采用梯度反转层(GRL)，在每次迭代中通过一次反向传播进行更新，当对抗达到平衡点时，源数据和目标数据将在多频谱特征空间中实现对齐，从而使域区分器无法区分源数据和目标数据，因此，通过这种对抗训练来学习域不变特征，而仅确保域不变性不足以进行异常检测，即使源域和目标域完全对齐，在某些情况下，正常实例的特征仍会稀疏分布在深层特征空间中，在这种情况下，经常会发生分类错误，因为在正常类别和异常类别之间不存在明显的边缘界定，为此，通过最小化中心聚类损失来使正常样本的特征分布尽可能密集，如说明书记载的公式(5)。

通过最小化中心匹配损失，能够获得正常分类的紧凑分类特征。此外，由于正常数据的特征非常紧凑，自然能够将距正常类中心的距离定义为异常得分，异常得分函数的定义,如说明书记载的公式(8)。

下面结合说明书附图1-5详细介绍本发明所述检测图像异常的方法的具体实施例。如图5所示，本发明所述检测图像异常的方法步骤如下：

步骤1，对神经网络模型的多频谱特征融合模块、特征提取器、类别判别器、域判别器进行参数初始化；

步骤2，计算源域中心点μ^s和目标域的中心点μ^t；

步骤7，计算整个模型的总体损失

步骤10，在测试阶段，计算出所有正常实例的特征中心μ；

步骤11，计算测试样本

的异常分数

进一步地，步骤1所述构建神经网络，包括以下步骤：

步骤1.2，采用全连接层将特征提取器G尺寸减小至256维；

表示源域的第i个训练样本，

为特征提取器G计算得到的当前源域的第i个实例的特征，

表示目标域的第j个训练样本，

为特征提取器G计算得到的目标域的第j个实例的特征，

步骤3.1，随机采样小批次的数量为B(Batch size)的源域样本

与目标域样本

步骤3.2，并将源域样本

和目标域样本

输入至特征生成器G中获得相应的特征表示；

在步骤2的源域样本

和目标域样本

如下式(3)所示：

如下式(4)：

上式(4)中：

如下式(5)：

进一步地，步骤7所述计算整个模型的总体损失

如下式(6)，

上式(6)中，α，β是两个用于平衡损失的参数。

按照步骤7所得到的整个模型的总体损失

上式(7)中，n_s是源域的参与训练的实例的数量，

进一步地，步骤11所述计算测试样本

的异常分数

如下式(8)：

上式(8)中，

在本发明所述检测图像异常的方法的实验阶段中，为了和其它方法进行比较，使用在ImageNet上经过预训练的ResNet-50作为所有基于CNN的方法的特征提取器，其中删除了最后一层ResNet-50，并应用了全连接层将特征尺寸减小到256维。对于本发明的方法，通过进一步删除了ResNet-50的全局平均池。分类器是具有3个全连接层的多层感知器网络。最终预测输出是一维向量，且是通过使用sigmoid函数处理分类器输出获得的。域分类器是具有2个全连接层的网络，其输出是二维向量。使用log-softmax函数处理域分类器输出，以获取样本的域分类预测结果。首先将输入图像的大小调整为256×256×3，然后裁剪为224×224×3。此外，由于可访问的目标样本有限，因此本发明使用数据增强技术来增强目标数据，例如翻转和旋转。对于网络优化，采用学习速率为1×10^-5，权重衰减为5×10^-5和动量momentum为0.9的随机梯度下降(SGD)优化器。每次输入的batch大小设置为10。所有实验的超参数设置为α＝1.0，β＝0.1。训练模型10次，每次包括100个epoch，随后计算每项任务的AUROC值的均值和标准差。

本发明所述检测图像异常的方法，实验使用的数据集如下：

Office-Home：Office-Home数据集是用于域自适应的具有挑战性的目标识别数据集。它包含来自4个不同域的图像：Artistic，Clip Art，Product和Real-World。每个域均包含65个类别，且所有4个域包含的是相同的类别。另外，图像的平均分辨率为300×300。在此，选择“Clip Art”和“Product”域来构建两个迁移学习方案：Clip Art→Product和Product→Clip Art。此外，对于每个迁移方案，只从中选择了10个类别，这些类别具有足够的数据来创建分类任务，这些任务在表1的第一列中列出。具体地，将“Bike”类作为正常类时，则其他9个类别被视为异常，选择所有源域正常样本和有限数量的目标域正常样本来建立训练集，用目标域正常类别的剩余样本与目标域其他9个类别的样本来构造测试数据集，目标域中正常目标训练样本的数量设置为10。

Office-31：Office-31数据集包含来自三个域的31个对象类别：Amazon，DSLR和Webcam。数据集中的31个类别由办公环境中常见的目标组成，例如keyboards，pens和bookcases。对于Office-Home数据集，选择Amazon和Webcam域来构建Amazon→Webcam和Webcam→Amazon这两个迁移方案。还选择了十个具有丰富数据的类别，以构建十个单分类任务，如以下列出的表2的第一列所示。数据集构建的方式与Office-Home相同。正常目标训练样本的数量为10。

数字集：在计算机视觉中，通常使用数字数据集来评估模型性能。在这里，使用两个数据集：MINIST和SVHN，MINIST是一个大型手写数字数据库，总共包含70,000个尺寸为28×28的灰度手写数字图像，其中图像是大小为32×32的彩色图像，这两个数据集都提供了从0到9的数字图像，构造了两种迁移方案：MNIST→SVHN和SVHN→MNIST。在实验中，使用原始数据集的训练集/测试集的分配，具体地，将MNIST作为源域，将数字“0“用作正常类，则训练集将包含MNIST的训练集分中所有类别标签为0的样本，以及SVHN的训练集中有限数量的类别标签为0的样本，而测试数据集则由SVHN的测试集中所有样本组成，对于数字数据集，目标域训练图像的数量设置为50。

本发明的实验使用AUROC结果作为评估标准：AUROC即接受者操作特征曲线下面积(Area Under the Receiver Operating Characteristic curve)，表示均匀抽取的随机阳性样本排名在均匀抽取的随机阴性样本之前的期望。

下面详细评估一下本发明所述检测图像异常的方法的算法在各个迁移方案上的性能：

A.Office-Home

Clip Art→Product的异常检测结果，如以下列出的表1上半部分所示，DSVDD，OCSVM以及其他标准异常检测方法在可迁移异常检测任务上的性能均较差，这表明ClipArt和Product之间的域漂移阻碍了标准异常检测方法推广到新域，OCSVM(T，表示只用源域数据进行训练)和IF(T)的结果也均不如MsRA，这表明有限数量的目标域实例不足以训练性能良好的异常检测器，相比之下，IRAD通过其提出的生成对抗机制获得了性能提升，从而证明了充分利用源域数据价值的有效性；在MsRA中，通过融合不同的频谱分量进一步构建多频谱特征表示，MsRA捕获了更丰富的输入模式，从而减轻了由于目标域中的样本数量有限而导致的信息短缺。通过实验结果也能够看出MsRA借助额外的信息获得了更为精确的域对齐。，在大多数任务上，MsRA均超过了IRAD，从而验证了MsRA的有效性。以下所示的表1的下半部分展示了Product→Clip Art的实验结果。常规的异常检测方法出现了一定程度的域漂移。此外，观察到IRAD算法在“Calculator“类上的表现不如标准异常检测方法(即IF(T))，这表明复杂的对齐方案在某些情况下可能会失败。与IRAD相比，MsRA利用简单的网络模块来对齐两个域，从而实现跨不同任务的稳定对齐。此外，MsRA在“Calculator“和“Scissors”任务上的表现分别提高了10.4％和12.3％。

表1

B.Office-31

表2上半部分展示了Amazon→Webcam的结果，从中看出，与以往的不可迁移的异常检测方法相比，BiOST和MsRA取得了较好的结果。这些结果表明，在实际的迁移学习方案中，应缩小域间间隙以增强检测能力。此外，与其他类似方

法相比，MsRA始终能够获得显着的性能提升。特别是，MsRA在“back pack”

表2

类上的AUROC值达到了97.5％。这些有显著提升的结果表明，MsRA能够稳定地促进各种传输方案下目标域的模型性能。表2的下半部分展示了Webcam→Amazon的结果。我们仍然可以得出这样的结论，即MsRA在每个任务上都能表现出最佳的性能。

C.Digits

表3上半部分展示了MNIST→SVHN的结果。由于是从灰度图像到彩色图像的迁移，模型要面对更复杂的输入模式，但只能访问有限数量的目标样本。因此，所有方法都无法达到较高的AUROC值。在这种困难的传输情况下，MsRA在与其相比较方法中仍显示出较为出色的结果，证明了多频谱特征融合策略的有效性，多频谱特征融合策略能够通过融合不同的频谱成分来丰富输入模式。

表3下半部分展示了SVHN→MNIST的结果。模型更容易将知识从具有复杂输入模式的域转移到具有简单输入模式的域。与其它方法相比较，MsRA获得了较高的性能提升。这表明，当有更多具有复杂输入模式的训练数据可用时，多频谱特征融合模块可以为整体性能带来更多提升。

表3

表4展示了消融实验的结果。为了建立跨域的异常检测模型，MsRA统一了以下三个关键部分：1)对正常数据进行聚类；2)多频谱特征融合模块M以弥补由于目标样本数量有限而导致的信息稀缺；3)域判别对抗损失，来共同对齐来自两个域的正常数据特征。除去所有重要部分，获得了性能较差的基本特征提取模型“ResNet-50”。首先，通过对抗训练对齐跨域标准样本可提高基本模型的性能，因为源域的知识适用于目标域。其次，添加多频谱分量融合模块M后，可以将更多信息集成到域对齐中，从而使得大多数任务的性能提高。再次，通过中心损失对正常数据进行聚类可以实现进一步的改进，这证明紧凑的特征表示有利于将正常实例与异常实例区分开，同时

和“MsRA(w/oM)”这三个变体均不如MsRA，这说明了统一这些组件的必要性。

表4

表5展示了频谱分量数目对模型的影响。基于每个频谱分量的性能，我们选择具有Top-K最高性能的频谱分量来构建多频谱特征，其中K∈{1，2，4，8，16，32}。当K＝1时，等效于使用全局平均池来处理要素。可以明显看出，多频谱特征的性能比仅使用最低频谱分量的性能要高，这证明了多频谱特征融合模块的有效性。可以将性能提高的原因解释为由多个频谱分量引入的更丰富的信息。此外，根据整体表现，发现K＝8时效果最佳，所有实验中都使用Top-8的最高性能的频谱组件。

表5

在本发明所述检测图像异常的方法中，图1假设在训练中仅可访问到源域的正常数据和有限数量的目标域正常数据，并希望实现异常数据评分功能从而检测异常目标。在本发明中，异常分数定义为实例到正常实例中心点的距离。图1a直接应用在源域正态数据上训练的模型会导致目标数据有许多错误分类，因为两个域之间可能存在较大的域漂移。图1b仅在有限的目标域正常数据上训练的模型容易过拟合，因此效果不理想。相比之下，图1c通过从源域迁移丰富的知识来实现更好的发明结果。

图2示出本发明提出的多频谱跨域表示对齐方法(MsRA)，特征提取器G是一个深度卷积神经网络，用于为每个输入图像生成深度特征图。C是一个基于多层感知器(MLP)的分类器，它使用正常数据的交叉熵损失进行训练，并对模型进行微调。D是域判别器，实际上是一个第二分类器，用于区分源域数据和目标域数据。GRL是一个梯度反转层。本发明设计了一个多频谱特征融合模块M来整合来自不同频谱分量的信息，从而能够弥补有限的目标训练数据造成的信息不足的问题，并能够通过将K个频谱分量进行加权线性组合来实现多频谱特征表示。在多频谱特征空间中，通过对抗性损失函数

对抗性地训练域鉴别器D和特征提取器G以及M。除了通过

学习域不变特征外，本发明还最小化了损失

以使正常数据的特征更紧凑，从而使它们和异常特征间有较大的间隔。这里，橙色和绿色的点分别代表源域数据和目标域数据的特征，他们分别以μ^s和μ^t为各自的中心。

图3展示了各个频谱分量对模型性能的影响。为了验证设计的融合多个频谱分量，评估了每个单独频谱分量的效果。具体而言，一次仅采用一个频谱分量来测试性能。由于特征提取器的特征图大小为7×7，因此将二维DCT频谱划分为7×7的部分。从图4中能够清楚地观察到：1)较低的频谱成分比较高的频谱成分产生的结果更好，以及2)一些频谱分量的性能较差。这里，不需要融合所有频谱分量，因为大多数高频分量会产生负面影响。一种策略是根据其性能选择频谱分量。通过通过融合多个频谱分量的策略，在任务“Scissors”上获得了85.5％的AUROC，这比最佳的单个频谱分量高了4.95％。

图4展示了Office-Home数据集上MsRA的超参数敏感性分析的结果。通过分别改变了用于平衡损失的参数α∈{0.3，0.5，0.7，1.0，1.1，1.3，1.5}和β∈{0.1，0.3，0.5、0.7、0.9}的值来实现测试MsRA的参数敏感性。图5显示MsRA对两个参数的波动具有鲁棒性，并且在较大的数值范围内都能获得有竞争力的AUROC。

本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明构思和保护范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书界定。