CN110909760A

CN110909760A - 一种基于卷积神经网络的图像开放集识别方法

Info

Publication number: CN110909760A
Application number: CN201910968936.6A
Authority: CN
Inventors: 孙祥远; 宋君强; 任开军; 李小勇; 冷洪泽; 邓科峰; 汪祥; 张卫华; 任小丽
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2020-03-24
Anticipated expiration: 2039-10-12
Also published as: CN110909760B

Abstract

本发明公开了一种基于卷积神经网络的图像开放集识别方法，包括利用CNN模型对图像训练集进行处理，使用SoftMax层生成的深度特征作为激活向量；计算每个类的平均激活向量，并将平均激活向量作为每个类的中心；计算出类内点与每个类中心的距离，并通过每个类的距离分布设置阈值；确定目标样本是否为未知类别。本发明方法利用SoftMax变换对logits层所在的空间进行空间变换。经过变换后，这些方向指向的空间将收缩到变换后的特征空间中某些点附近，从而可以被CAP模型生成的边界所覆盖，因此能够改善卷积神经网络模型的开放集图像识别性能，本发明方法具有更强的性能和更好的适用度。

Description

一种基于卷积神经网络的图像开放集识别方法

技术领域

本发明属于图像处理与识别领域，具体涉及基于卷积神经网络的图像开放集识别方法。

背景技术

目前，深度神经网络在各种视觉识别应用中取得了很大的成就，并已应用于人脸识别、自动驾驶、医学图像识别等多种商业场景。在建模过程中，这些识别任务大多采用封闭集假设，在这种情况下，所有可能的测试样本都属于训练集中已知的类别。然而，当模型应用到现实世界时，由于它无法识别不断出现的未知图像，它的性能将大幅下降。例如，当你站在一张合照前，你想从中辨认出一个你熟悉的人，但是合照中还有更多的你不认识的人和其他物体，如动物、建筑物、汽车，它们的存在会极大地影响你的识别。

现实世界中的识别任务可以分成三类：1)对已知类别的识别。即在训练集中打出明确标签的类别。2)对已知的未知类别的识别。即在训练集中常用的其他类别。3)对未知的未知类别的识别。即在训练集中没有出现过的类别。

传统的分类通常用于对已知类别分类以及拒绝已知未知类别，一般不考虑未知的未知类别。开放集识别(OSR)则主要关注对未知类别的拒绝。在接下来的描述中，统一将已知类别及已知的未知类别归纳于已知类别，未知的未知类别归纳于未知类别。

OSR是一个非常具有挑战性的问题，因为它要求模型在正确分类所有已知类别的条件下拒绝未知类别，找到已知空间和未知空间之间的精确平衡。对于未知类别，许多标准的概率和统计学习工具不能直接应用。为了在不对未知类别显式建模的条件下，衡量开放空间风险，有关学者提出紧致消减概率(CAP)模型，该模型假定属于该类成员的概率随着点从已知数向开放空间的激动而降低。CAP模型提供了解决OSR的新思路，一系列基于机器学习的方法也采用了这一模型。在此之后发展的基于卷积神经网络(CNN)的OSR方法也采用CAP模型作为基础，OpenMax方法作为第一个将CNN引入OSR领域的方法，在OSR领域中享有很高的声誉。它创新性地提出将CNN的倒数第二层逻辑层(logits层)用于生成OSR任务中需要的特征。这个想法极大地影响了后续的基于CNN的工作。

然而在实验和应用中发现，以逻辑层的空间为特征空间的方法中应用CAP模型是有风险的。因为logits层是CNN的输出层，所以这个空间中的值可以用来确定样本属于哪个已知类别。也就是说，在逻辑层的空间中存在一组方向，样本沿着这个方向移动得越远，属于已知类别的概率就越大，这是一个与CAP模型完全相反的结论，使得现有方法在利用基于卷积神经网络进行未知类型图像识别时可能得出错误的分类结论。

发明内容

有鉴于此，本发明的目的在于提供一种基于卷积神经网络的图像开放集识别方法，用于解决现有技术难以适用于卷积神经网络的开放集图像识别问题，从而导致现有技术可能带来的识别准确率和识别效率较低的缺陷。

基于上述目的，提供了一种基于卷积神经网络的图像开放集识别方法，包括以下步骤：

步骤1，利用CNN模型对图像训练集进行处理，使用SoftMax层生成的深度特征作为激活向量；

步骤2，计算每个类的平均激活向量，并将平均激活向量作为每个类的中心；

步骤3，计算出类内点与每个类中心的距离，并通过每个类的距离分布设置阈值；

步骤4，确定目标样本是否为未知类别。

具体地，在步骤1中，对所述的CNN模型中logits层提取的特征进行归一化指数变换，变换公式为：

其中，σ(z)_j表示SoftMax层的第j个分量，z_j，z_k表示logits层第j个分量和第k个分量，经过CNN模型的处理，得到每个训练样本点的激活向量。

具体地，在步骤2中，对于每一个已知类，计算了真实标签和预测标签都等于类标签的样本之间的平均激活向量，将平均激活向量作为类的中心。

具体地，在步骤3中，包括以下步骤：

步骤301，对于训练集中已知样本，计算类中心与样本之间的欧氏距离；

步骤302,把每个样本计算出来的距离按各自类别集合起来，这样就可以得到距离的统计分布；

步骤302,设置距离分布的阈值τ；

设

为距离分布均值，σ为标准差，在实验阶段，通过穷举得到阈值τ。在测试阶段，根据测试集中开放数据所占百分比将阈值设置在

内。

具体地，在步骤4中，对于空间中任意样本x∈S，以及每一个类别中心mAV_i，i＝1,2,…,M，如果

则可以得到x∈O。

优选地，所述的CNN模型为GoogleNet_v3模型；

具体地，所述的GoogleNetv3的可训练层为Logits层和AuxLogits层，参数更新方法为RMSProp方法，步长为0.0001，批尺寸为32，最大迭代步为6000。

为了弥补现有技术识别准确率和识别效率较低缺陷，本发明提出了一种新的方法，该方法利用SoftMax变换对logits层所在的空间进行空间变换。在logits层所在的空间中，存在某些方向，样本沿此方向移动得越远，样本被判别为已知的概率越高，但是原有方法生成的边界不能将这些空间涵盖起来。经过变换后，这些方向指向的空间将收缩到变换后的特征空间中某些点附近，从而可以被CAP模型生成的边界所覆盖，因此能够改善卷积神经网络模型的开放集图像识别性能，本发明方法具有更强的性能和更好的适用度。

附图说明

图1为本发明实施例的图像开放集识别方法的示意图；

图2为不同方法下，各指标与开放数据占比之间的关系示意图；

图3为不同方法下，三种比例的开放集中不同阈值与各指标下的关系示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Bendale等人提出了第一个基于CNN的OSR方法OpenMax，使用CNN模型的倒数第二层(logits层)生成特征。结合CAP模型、EVT理论、Weibull

累积分布函数(CDF)，OpenMax比传统的基于ML的OSR方法取得了更好的性能。为了扩大已知类别占据的空间和开放空间之间的距离，Hassen等人提出了一个II-损失函数，损失函数设置的目的是最小化内部扩散、最大化外部间距和最小化交叉熵损失。

首先，简要介绍CAP模型和OpenMax模型方法，设S为全特征空间，K为移植类所占据的空间，O为开放空间，K∪O＝S，假设有M个已知类C＝[C₁,C₂,…,C_M]，N个已知样本x_i∈K，i＝1,2,…,N。

CAP模型的主要思路是构造一个函数f(x)，函数值随着与已知点距离的增加而减小。通过对函数值设置阈值τ，将已知空间K和开放空间O分开。CAP模型定如下：对于任何已知的正样本，x_i∈K，i＝1,2,…,N以及特征空间S中的任意点x，如果

则可以得到x∈O。

OpenMax模型的主要思想可以概括如下：

(1)使用由CNN的倒数第二层(logits层)来生成模型所需要的特征。并把生成的特征的值作为激活向量；

(2)对于每一个类别C＝[c₁,c₂,...,c_M]，使用类平均激活向量MAV＝[μ₁,μ₂,…,μ_M]来表示每一个类别的中心；

(3)基于EVT理论和CAP模型，利用类内点与类中心的距离分别对每个类别拟合Weibull分布；

(4)用拟合好的Weibull分布估计任意测试样本x∈S与已知类别的MAV之间的Weibull累积分布函数(CDF)概率；

(5)通过对WeibullCDF概率设置阈值τ_p，确定测试样本是否属于开放空间O。

在概率阈值τ_p设置好后，每个类别的距离阈值τ_d也随之确定。

OpenMax是第一个将CNN引入OSR的模型。该模型采用CAP模型的思想，应用了EVT理论，取得了与同期项目相比较好的性能。然而模型在测试集上的最高F1-score仅约为0.596，无法应用于现实世界。

究其原因，由于logits层所在的空间具有这样一种性质：存在某一分量明显大于其他分量的样本应划分为已知类，因此CAP及其派生模型不适用于那些将logits层空间视为它们的特征空间的方法，如OpenMax。

要解决以上问题，可以采取的方法是：对logits层所在的空间做空间变换，使CAP模型生成的边界可以包含最大分量远大于其他分量的样本。基于这种思想，如图1所示，本发明实施例的一种基于卷积神经网络的图像开放集识别方法，包括以下步骤：

步骤1，利用CNN模型对图像集进行处理，使用SoftMax层生成的深度特征作为激活向量；

步骤4，确定目标样本是否为未知类别。

AlexNet是OpenMax使用的CNN模型，在本实施例中，因AlexNet相对落后难以训练，故使用性能更好的GoogleNet_v3模型进行特征提取。表1显示了本实施中GoogleNet的结构。利用卷积和池化的过程提取图像特征，并利用全连接层对这些特征进行线性变换，使用倒数第二层即线性层(通常称为logits层)来生成特征。

表1 GoogleNet网络结构

层名	输出尺寸	参数
			卷积层1	149×149×32	3×3,步长2
卷积层2	147×147×32	3×3,步长1
			卷积层(padded)3	147×147×64	3×3,步长1
池化层1	73×73×64	3×3,步长2
			卷积层4	71×71×80	3×3,步长1
卷积层5	35×35×192	3×3,384,步长1
			卷积层6	35×35×288	3×3,256,步长1
3×Inception	17×17×768
			5×Inception	8×8×1280
2×Inception	8×8×2480
			池化层2	1×1×2048	8×8
线性层	1×1×1000	Logits
			SoftMax	1×1×1000	分类器

本实施例方法以SoftMax层所在空间为特征空间，通过下列公式对logits层提取的特征进行归一化指数变换

其中，σ(z)_j表示SoftMax层的第j个分量，z_j，z_k表示logits层第j个分量和第k个分量。

经过CNN模型的处理，可以得到每个训练样本点的激活向量。

在步骤2中，计算每个类的平均激活向量，并将其作为每个类的中心。更具体地说，对于每一个已知类，计算了真实标签和预测标签都等于类标签的样本之间的平均激活向量，将平均激活向量作为类的中心。

在步骤3中，包括步骤301，对于训练集中已知样本，计算类中心与样本之间的欧氏距离；

步骤302,设置距离分布的阈值τ；

设

内。

在步骤4中，对于空间中任意样本x∈S，以及每一个类别中心mAV_i，i＝1,2,…,M，如果

则可以得到x∈O。

AV_x为x的激活向量，mAV_i为第i个类别的平均激活向量，即第i个类别中心的激活向量。

为了验证方法的可行性及性能效率，本实施例进行了实验。

本实验的数据评估主要基于有着257个类别的Caltech256数据集。数据集包含30607个图像，每个类别至少有80个图像。由于少数图像只有一个通道，因此我们使用了30815个图像。为了进行开放集测试，随机选择一部分类别作为未知数据，其余的数据设置为已知。具体划分见表2。

表2 CALTECH256的划分细节

已知类别数量	已知图片数量	未知类别数量	未知图片数量	开放数据占比
					237	28153	20	2032	6.73％
217	26031	40	4154	13.76％
					197	23739	60	6446	21.35％
177	21345	80	8840	29.29％
					157	18443	100	11742	38.90％
137	16027	120	14158	46.90％
					117	13712	140	16473	54.57％
97	11661	160	18524	61.37％
					77	8031	180	22154	73.39％
57	5933	200	24252	80.34％
					37	3786	220	26399	87.46％

模型评估的度量标准包括准确率，F1分数和错误率。

准确率：准确度是正确预测的样本数量除以样本总量，它代表了模型的整体性能，同时考虑了开放集识别和封闭集分类。

F1分数：F1分数综合考虑二分类器的查准率与查全率，衡量二分类器的综合性能。对于OSR模型，查准率表示正确预测为未知的开放数据与所有被预测为未知的数据之比，召回表示正确预测为未知的开放数据与所有开放数据之比。F1分数的计算方式为：

其中P为计算查准率，R为计算查全率。

错误率：错误率是错误预测的已知样本数除以已知样本总数，测试时，如果测试集中存在过多的开放样本，模型倾向于将所有样本识别为开放样本，错误率有助于发现这种情况。

实施例中采用迁移学习的方法来训练模型。已知类别的样本作为训练数据。用于预训练好的神经网络是GoogleNet_v3。AlexNet是OpenMax方法中采用的CNN模型。然而，AlexNet与后来发展起来的模型如GoogleNet_v3相比，Alexnet难以训练且分类精度相对较低。因此，实验中用GoogleNet_v3替代它。迁移学习中使用的训练参数如表3所示。一旦训练精度达到90％，即停止。

表3训练参数列表

名称	GoogleNetv3
		可训练层	Logits,AuxLogits
参数更新方法	RMSProp
		步长	0.0001
批尺寸	32
		最大迭代步	6000

对比实验中，对本发明方法、OpenMax和基准CNN模型(不加入开放样本识别功能的封闭模型)在表2中划分得到的数据集上进行了十次测试，并通过设定一系列的阈值得到了对应的准确率、F1得分、错误率，以及在各中数据划分方式上的最优准确率、最优F1-score和相应的错误率。首先，我们将通过最优准确率、最优F1-score和相应的错误率来分析整体性能。然后，以开放数据占比为6.73％、46.90％、80.34％的开放数据集为例，对性能进行了详细分析。OpenSoftMax表示本发明方法。

图2展示了不同数据划分下的最优准确率、最大F1-score、相应的错误率与开放数据占比之间的关系。图2(a)显示了最优准确率与开放数据占比的关系，图2(b)显示了相应的错误率。图2(c)显示了最优F1-score与开放数据占比的关系，图2(d)显示了相应的错误率。OpenSoftMax在可接受的错误率范围内，在最优精确度和最优F1-score评测指标上显示了更好的性能。

总的来说，当开放数据占比太低时，OpenSoftMax和OpenMax都表现出了较差的性能。当开放数据占比适中(从约20％到约80％)时，OpenSoftMax对比OpenMax的显示出了显著优势。当开放数据占比太高时，OpenMax是一个更好的选择。

由发明内容和实施例可知，本发明一种基于卷积神经网络的图像开放集识别方法，提出了一种解决开放集识别模型OSR问题的方法，对OpenMax使用的激活向量进行SoftMax变换，并且在caltech256图像数据集上进行实验，本发明方法，它显示出比OpenMax更好的性能。在开放数据占比适中的测试数据集中，本发明方法比OpenMax方法提高了24％的最优准确率和16％的最优F1分数。由此本发明方法更加适合于图像数据的开放集识别，具有更强的性能和更好的适用度。

Claims

1.一种基于卷积神经网络的图像开放集识别方法，其特征在于，包括以下步骤：

步骤4，确定目标样本是否为未知类别。

2.根据权利要求1所述的图像开放集识别方法，其特征在于，在步骤1中，使用由所述的CNN模型的logits层来生成模型所需要的特征，形成SoftMax层，对所述的CNN模型中提取的特征进行归一化指数变换，变换公式为：

其中，σ(z)_j表示SoftMax层的第j个分量，z_j，z_k分别表示logits层第j个分量和第k个分量，经过CNN模型的处理，得到每个训练样本点的激活向量。

3.根据权利要求2所述的图像开放集识别方法，其特征在于，在步骤2中，对于每一个已知类，计算了真实标签和预测标签都等于类标签的样本之间的平均激活向量，将平均激活向量作为类的中心。

4.根据权利要求2或3所述的图像开放集识别方法，其特征在于，步骤3包括以下步骤：

步骤302，把每个样本计算出来的距离按各自类别集合起来，得到距离的统计分布；

步骤302,设置距离分布的阈值τ；

设

为距离分布均值，σ为标准差，在实验阶段，通过穷举得到阈值τ，在测试阶段，根据测试集中开放数据所占百分比将阈值设置在

内。

5.根据权利要求4所述的图像开放集识别方法，其特征在于，在步骤4中，对于空间中任意样本x∈S，以及每一个类别中心mAV_i，i＝1,2,…,M，如果

则可以得到x∈O，其中，O表示开放空间，AV_x为x的激活向量，mAV_i为第i个类别中心的激活向量。

6.根据权利要求1或4所述的图像开放集识别方法，其特征在于，所述的CNN模型为GoogleNet_v3模型。

7.根据权利要求6所述的图像开放集识别方法，所述的GoogleNetv3的可训练层为Logits层和AuxLogits层，参数更新方法为RMSProp方法，步长为0.0001，批尺寸为32，最大迭代步为6000。