CN112668657B

CN112668657B - 基于分类器预测不确定性的注意力增强分布外图像检测法

Info

Publication number: CN112668657B
Application number: CN202011631260.0A
Authority: CN
Inventors: 苏勤亮; 高月
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-08-29
Anticipated expiration: 2040-12-30
Also published as: CN112668657A

Abstract

本发明提供一种基于分类器预测不确定性的注意力增强分布外图像检测法，该方法考虑了分类器的不确定性，使得分类结果更加可靠，并且利用不确定性对特征进行加权，使分类器更加关注样本对于分类有利的区域，忽略掉分布内样本固有噪声带来的影响，极大地提升了softmax最大分类概率值在分布外样本检测任务中的有效性，以及其在两类数据中的区分性。对于分布外样本，利用不确定性计算出的特征注意力图会让分类器关注更加错误的区域，导致更低的自信分数，进而提升检测效果；本方法不会过度局限于训练数据，对于边缘样本不容易产生误判，可以得到更好的检测效果。

Description

基于分类器预测不确定性的注意力增强分布外图像检测法

技术领域

本发明涉及分布外样本检测领域，更具体地，涉及一种基于分类器预测不确定性的注意力增强分布外图像检测法。

背景技术

分布外图像是远离训练所用的数据分布的数据，通常与分布内数据有着明显的不同。将分布外数据从大量分布内数据中检测出来的方法叫做分布外样本检测或者离群点检测方法。与异常检测任务相比，分布外检测通常应用于有标签数据，即考虑数据集的分布内样本的可识别分类特征。与无监督异常检测方法相比，该任务中的分布外数据覆盖范围大，无法将其视作同一类别。

目前，深度学习成为了解决问题的重要手段，但存在的问题是，许多模型只有在测试数据和训练数据相似的情况下才能成功应用，在遇到一些远离训练数据分布的样本时，往往不能给出可靠的结果，甚至会给出一个十分自信但是错误的预测。在一些现实应用中，这样的特性可能会导致一些严重的不良后果。所以现实生活中的一些包含大型数据集的应用领域需要对分布外检测给予更多的研究关注。比如自动驾驶中的汽车控制问题，在遇到一个没见过的障碍物时需要汽车能够做出安全的反应而不是盲目地做出错误判断；医疗领域中检测CT照片中的质量结构和其他诊断问题；法律领域中识别出合同的漏洞以避免严重损失；大型建筑的结构检测以及潜在的危险判断；复杂工业系统中的故障和故障检测；电子安全系统中的入侵，如信用卡或手机欺诈检测。现代人类社会中的复杂应用场景导致存在大量异常的并非分布内的数据，所以需要模型能够在推理过程中遇到新的异于分布内样本的数据，能够检测分布外的样本并及时地进行人为处理。

分布外检测对该问题提供了解决方案，通过构建具有表示分布内数据能力的模型(即指示分布内系统行为的数据)来学习分布内数据的分布或特征，然后将测试数据放入到该模型中，可以得到某种形式的自信分数。通常将数据的自信分数与设定的阈值进行比较，某个数据的得分超过阈值则将该数据视为正常数据，反之则视为分布外数据。

目前已有的研究分布外检测的方法主要包括基于softmax最大概率值的方法、基于生成模型方法、基于不确定性的方法，基于分类器的方法以及将深度学习技术、对抗训练思想应用于该领域的方法。目前主流的研究方法一般使用只包含分布内数据的数据集来训练模型，希望模型可以学习到分布内数据的一些特征，然后将该模型应用在新出现的数据上，可以在一定程度上将分布内数据和分布外数据区分开来，进而达到检测分布外样本的目的。

基于softmax最大概率值的方法，利用预训练的模型进行分类时输出的最大softmax概率值进行分析是否为分布外数据。训练时和传统的分类任务相似，模型选取softmax概率值中的最大值作为判断的自信分数，同时将其对应的类别作为数据分类的结果。在测试阶段，对于模型没见到过的分布外数据，得到的自信分数通常也会比较小，这样就可以将分布外数据检测出来。基于生成模型的方法，一般利用变分自编码器的重构误差或者其他度量方式来判断一个样本是否属于分布内数据或者分布外数据。主要的假设是，自编码器的隐含空间能够学习出数据的明显特征。也就是使用分布内数据来训练生成模型，使得生成模型可以学习到分布内样本的分布可以重构，而对于分布外样本的特征则无法学习从而不能很好地重构，以此为判断标准达到检测分布外样本的目的。这类方法只关注分布外样本检测性能，而不关注分类任务。基于不确定性的方法，一般模型的输出并不能直接表示模型的置信度，因此这类方法让模型学习一个对输入样本的不确定性属性。面对测试数据，如果模型输入为分布内样本，则不确定性低，相反，如果模型为分布外样本，则不确定高。这类方法需要修改模型的网络结构来学习不确定性属性。基于分类器的方法，这类方法比较直接，使用分类器对提取的特征进行分类来判断是否是分布外样本。修改网络结构为一个N+1分类器，N为原本分类任务的类别数，第N+1类则为分布外样本。这类方法较为简单直接，但效果相对其他方法不是很出色。

发明内容

本发明提供一种基于分类器预测不确定性的注意力增强分布外图像检测法，该方法不会过度局限于训练数据，对于边缘样本不容易产生误判。

为了达到上述技术效果，本发明的技术方案如下：

一种基于分类器预测不确定性的注意力增强分布外图像检测法，包括以下步骤：

S1：图像重构特征提取以及降维处理；

S2：利用S1得到的低维数据进行多分类概率计算，提取有效的类别概率特征；

S3：将S1和S2得到的数据作为一分类器的输入得到数据异常的概率值。

进一步地，所述步骤S1的具体过程是：

获取图像数据，首先将其输入至特征提取器提取出特征，如公式(1)，提取出的特征输入至分类器获取分类结果，如公式(2)，同时将特征输入至分类器的不确定性估计器获取分类结果的不确定性，如公式(3)：

h＝F(x) (1)

y＝Softmax(C(h)) (2)

σ²＝log(1+exp(U(h))) (3)

其中x表示输入的图像数据，σ表示分类结果的偶然不确定性，F表示特征提取器，C表示分类器，U表示不确定性估计器；式(2)中所获得的是样本的分类分布，但该分布并非最终需要的分类结果，而是用以训练不确定性估计器；式(3)中的不确定性作为输出结果的方差，必须为正，所以并没有直接使用不确定性估计器的输出。

进一步地，所述步骤S2的具体过程是：

将S2中获得的不确定性对特征进行求导并进行梯度反转，如公式(4)此时数值为正的区域表示对不确定性贡献小，也就是相对比较确定的区域；进一步保留确定的区域，这也是需要关注的区域，忽略不确定的区域，也就是令数值为负的的区域为0，如公式(5)，再进行softmax，即可获取特征的注意力图，如公式(6)：

用获取的注意力图对特征进行加权，则帮助更加关注确定的特征，获取新的特征如公式(7)：

进一步地，所述步骤S3的具体过程是：

将S2中获得的加权后的特征作为分类器的输入特征来获取分类的概率分布，使用softmax最大概率值作为样本的自信分数，以此和阈值相比较来判断是不是分布内样本；分类器是只有一层的全连接神经网络，特征提取器是卷积神经网络，利用分类器的不确定性加权后的样本来训练模型，使特征提取器和分类器都更加关注分布内样本容易分类的区域，从而拉开两种数据的自信分数，检测出分布外样本。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法相较于简单的softmax多分类方法，考虑了分类器的不确定性，使得分类结果更加可靠，并且利用不确定性对特征进行加权，使分类器更加关注样本对于分类有利的区域，忽略掉分布内样本固有噪声带来的影响，极大地提升了softmax最大分类概率值在分布外样本检测任务中的有效性，以及其在两类数据中的区分性。对于分布外样本，利用不确定性计算出的特征注意力图会让分类器关注更加错误的区域，导致更低的自信分数，进而提升检测效果；相较于直接使用生成模型进行分布外样本检测任务，本方法不需要引入额外的超参，并且模型相对简单，可以节省训练时间；相较于使用生成对抗的方法做分布外样本检测任务，本方法不会过度局限于训练数据，对于边缘样本不容易产生误判，可以得到更好的检测效果。

附图说明

图1为获取分类器的不确定性估计示意图；

图2为使用注意力图进行分类示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1-2所示，一种基于分类器预测不确定性的注意力增强分布外图像检测法，包括以下步骤：

S1：图像重构特征提取以及降维处理；

步骤S1的具体过程是：

h＝F(x) (1)

y＝Softmax(C(h)) (2)

σ²＝log(1+exp(U(h))) (3)

步骤S2的具体过程是：

步骤S3的具体过程是：

采用的正常数据数据集分别是MNIST和CIFAR数据集，均包含10个类别，50000条训练数据和10000条测试数据；异常数据使用生成高斯和标准噪声图像。即训练数据集包含50000条数据(均为正常数据)，测试数据集包含20000条数据(10000条正常数据，10000条异常数据)

本发明方法具体步骤为：

第一步，搭建模型，包含特征提取器，分类器，以及分类器的不确定性估计器。将图像数据输入至特征提取器获得相应的特征，再将提取出的特征输入至分类器以及不确定性估计器，获得样本数据对应的不确定性。

第二步，使用不确定性对特征求梯度，并进行梯度反转，此时数值为正的区域意味着是相对比较确定的区域，也是需要重点关注的区域。忽略掉不确定的区域，令其注意力值为0，然后对所有正值进行softmax，所得结果全部加1来获得注意力图。以这种方式计算出特征的注意力图重点标注了对于分类正确有贡献的区域。

第三步，将加权后的特征输入至分类器，再对分类器的输出结果进行softmax操作来获取数据的分类结果，以获取的分类分布的最大概率值作为样本的自信分数，并与阈值作比较，小于阈值即可判断为分布外样本，反之则为分布内样本。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于分类器预测不确定性的注意力增强分布外图像检测法，其特征在于，包括以下步骤：

S1：图像重构特征提取以及降维处理；

S3：将S1和S2得到的数据作为一分类器的输入得到数据异常的概率值；

所述步骤S1的具体过程是：

h＝F(x) (1)

y＝Softmax(C(h)) (2)

σ²＝log(1+exp(U(h))) (3)

其中x表示输入的图像数据，σ表示分类结果的偶然不确定性，F表示特征提取器，C表示分类器，U表示不确定性估计器；

所述步骤S2的具体过程是：

将S2中获得的不确定性对特征进行求导并进行梯度反转，如公式(4)此时数值为正的区域表示对不确定性贡献小，也就是相对比较确定的区域；进一步保留确定的区域，这也是需要关注的区域，忽略不确定的区域，也就是令数值为负的区域为0，如公式(5)，再进行softmax，即可获取特征的注意力图，如公式(6)：

2.根据权利要求1所述的基于分类器预测不确定性的注意力增强分布外图像检测法，其特征在于，式(2)中所获得的是样本的分类分布，但该分布并非最终需要的分类结果，而是用以训练不确定性估计器。

3.根据权利要求2所述的基于分类器预测不确定性的注意力增强分布外图像检测法，其特征在于，式(3)中的不确定性作为输出结果的方差，必须为正，所以并没有直接使用不确定性估计器的输出。

4.根据权利要求1所述的基于分类器预测不确定性的注意力增强分布外图像检测法，其特征在于，用获取的注意力图对特征进行加权，则帮助更加关注确定的特征，获取新的特征如公式(7)：

5.根据权利要求4所述的基于分类器预测不确定性的注意力增强分布外图像检测法，其特征在于，所述步骤S3的具体过程是：

将S2中获得的加权后的特征作为分类器的输入特征来获取分类的概率分布，使用softmax最大概率值作为样本的自信分数，以此和阈值相比较来判断是不是分布内样本。

6.根据权利要求5所述的基于分类器预测不确定性的注意力增强分布外图像检测法，其特征在于，分类器是只有一层的全连接神经网络，特征提取器是卷积神经网络，利用分类器的不确定性加权后的样本来训练模型，使特征提取器和分类器都更加关注分布内样本容易分类的区域，从而拉开两种数据的自信分数，检测出分布外样本。