CN112818893A

CN112818893A - 一种面向移动终端的轻量化开集地标识别方法

Info

Publication number: CN112818893A
Application number: CN202110184512.8A
Authority: CN
Inventors: 胡永利; 贾林涛; 张勇; 苗壮壮; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-02-10
Filing date: 2021-02-10
Publication date: 2021-05-18

Abstract

一种面向移动终端的轻量化开集地标识别方法，属于计算机视觉领域。本发明首先基于MobileNet‑V2轻量化网络进行改进，使其适用于地标识别任务，然后利用辅助训练集并构建新损失函数，从而提高网络的外分布异常检测能力，最后使用多项指标评估网络性能。本发明基于轻量化神经网络模型并结合外分布检测方法，使部署在移动端的模型既能排除异常图像干扰，又能高效识别任务内地标建筑，同时具备低延迟和轻量的优势。

Description

一种面向移动终端的轻量化开集地标识别方法

技术领域

本发明属于计算机视觉领域，具体涉及神经网络、地标识别、外分布检测等知识。

背景技术

地标建筑作为人类日常活动区域中的重要特征，如果能在真实环境下针对特定场景的建筑方位实现精准检测与识别，可以为自主导航、旅游服务业等第三方产业提供重要支持。当前随着以深度学习为特征的人工智能和物联网技术的快速发展，为在移动终端上识别高分辨率的自然场景图像奠定了重要基础。

传统识别方法包括支持向量机、K近邻、最大相关系数、自适应高斯分类器、卷积神经网络等，以卷积神经网络为例，假设输入样本属于已知分布某类，经特征提取通过Softmax层输出概率来预测结果。由于实际应用中面临开集环境，网络往往会遇到大量未知图像，若继续使用传统的闭集识别方法，将会把所有输入错误地判断为已知类别。使用开集识别方法的网络模型在真实环境中不仅能拒绝外分布异常图像还能正确识别任务内地标建筑。从异常检测的角度看，传统学习方法通常假设模型训练和测试的数据独立同分布，而实际在网络部署后，测试图像往往不受控制。目前基于深度学习的地标识别方法很容易将任意图像识别为任务内类别并给出高置信度，这显然不合理。因此，使深度神经网络能排除外分布异常并实现精准识别，将赋予人工智能产业更高的应用价值。

另一方面，随着移动物联网技术的发展，诸如手机等智能移动设备已成为人类日常生活中的重要组成部分。基于移动终端完成地标识别，需要神经网络模型满足尺寸、延迟及准确率等严苛要求。当前深度卷积神经网络虽已普遍用于计算机视觉领域并取得了优异性能，但因过度追求识别精度，模型越来越大，复杂度也越来越高。例如ResNet的层数最大可达152层，VGG-16虽有16层，但其参数量却高达到138M，这在移动终端是难以应用的。首先是模型过大面临内存不足的问题，其次不满足快速响应的要求，如在自动驾驶系统中，识别太慢会使发生危险的可能性显著增加。因此针对移动终端，合理设计轻量高效的神经网络至关重要。

综上所述，针对移动终端的开集地标识别问题，本发明基于轻量化神经网络并结合外分布检测方法，使移动终端能在开集环境下轻量且高效地完成地标识别任务。

发明内容

本发明针对移动终端资源有限和地标识别时存在异常图像干扰的问题，基于轻量化神经网络模型并结合外分布检测方法，使部署在移动端的模型既能排除异常图像干扰，又能高效识别地标建筑，同时具备低延迟和轻量优势。

首先基于MobileNet-V2轻量化网络进行改进，使其适用于地标识别任务；然后利用辅助训练集并构建新损失函数，从而提高外分布异常检测能力，最后使用多项指标评估网络性能。此外还包括数据集处理、模型训练测试等细节，具体步骤如下。

1基于MobileNet-V2的轻量化网络

MobileNet-V2是针对手机和资源有限的设备专门设计的神经网络结构。它在保证准确率的同时，通过减少参数运算量和所需内存，使网络高效运行。基于MobileNet-V2改进后的网络结构如图1所示。

网络第一层为包含32个标准卷积核的二维卷积层(Conv2D)，步长为2，然后连接17个倒残差线性瓶颈块(Bottleneck)，当倒残差线性瓶颈块的输入与输出通道数相同且步幅为1时，使用快捷连接；接着连接维度为1280的1x1二维卷积核、7x7平均池化层，同时在最后增加两个全连接层，最后对K个地标建筑方位进行预测，K可针对不同地标识别数据集进行设置，例如，若某旅游景点有50个需要识别的地标，就设置K为50；若所有地标建筑共有118个不同方位需要识别(每个建筑的东西南北方位)，就设置K为118。网络输入输出结构的变化见表1。

表1网络结构表

输入	卷积结构	t	c	n	s
						224x224x3	Conv2d	-	32	1	2
112x112x32	Bottleneck	1	16	1	1
						112x112x16	Bottleneck	6	24	2	2
56x56x24	Bottleneck	6	32	3	2
						28x28x32	Bottleneck	6	64	4	2
14x14x64	Bottleneck	6	96	3	1
						14x14x96	Bottleneck	6	160	3	2
7x7x160	Bottleneck	6	320	1	1
						7x7x320	Conv2d 1x1	-	1280	1	1
7x7x1280	Avgpool 7x7	-	1280	1	-
						1x1x1280	FC-512	-	512	1	-
1x1x512	FC-K	-	K	1	-

其中，c表示网络的输出通道数；n表示线性倒残差瓶颈块的重复次数；t表示对线性倒残差瓶颈块中输入通道数扩张的倍数，因此除线性倒残差瓶颈块外的其他层无需该参数；s表示每个序列中第一个卷积核的步幅，由于池化层和全连接层非卷积操作，所以无需该参数。表格的每行代表一个序列，当n为1时，该序列包含1层，对应图1中1个线性倒残差瓶颈块(Bottleneck)；当n＝4时，该序列包含4层，对应图1中4个线性倒残差瓶颈块。同一个序列中各线性倒残差瓶颈块的输出通道数c相同。在n≠1且s≠1的序列中，s≠1只对第一个线性倒残差瓶颈块有效，其他线性倒残差瓶颈块的步幅s仍为1，此时其输入和输出通道数相同，因此使用快捷连接。t表示对每个序列第一个线性倒残差瓶颈块的输入通道数进行t倍升维，例如当线性倒残差瓶颈块的输入通道数为16且t＝6时，在1x1逐点卷积扩张后的中间通道数为96，在3x3逐深度卷积和1x1逐点卷积后，输出通道数c为24。经7x7平均池化层计算后的输出特征大小为1x1x1280。最后再连接两个全连接层得到最终地标类别。

MobileNet-V2使用深度可分离卷积代替标准卷积，它可分解为逐深度卷积和逐点卷积，二者结构如图2所示。逐深度卷积在每个输入通道使用一个卷积核，故不改变输入通道数；逐点卷积使用1x1标准卷积核在所有通道上卷积，来融合逐深度卷积核的输出。

深度可分离卷积在性能接近标准卷积的同时能显著降低模型尺寸和计算量，当卷积核尺寸为3x3时，其计算量约为标准卷积的

倍，计算如公式1所示，其中D_F为输入特征图的高和宽，M为输入特征图通道数。D_K为卷积核尺寸，N为输出特征图的数量。

线性倒残差瓶颈块(Bottleneck)采用先升维再进行逐深度卷积最后压缩的结构。升维操作利用1x1逐点卷积以t＝6的扩张因子对输入通道数进行升维，故其输出为输入通道数的6倍，然后连接批规范化和ReLU6非线性激活函数；逐深度卷积如图2所示，使用3x3卷积核在特征图的每个通道上进行卷积操作，其后跟随批规范化和ReLU6非线性激活函数，其输入和输出通道数相同；压缩使用图2所示的1x1逐点卷积核，后跟随批规范化和线性激活函数。在此过程中，升维的目的是为了丰富特征数量，提高精度；深度卷积之后再压缩通道数，从而自动选择有用特征来减少参数数量。由于ReLU6在压缩后会破坏特征，因此用于压缩的1x1逐点卷积核后连线性激活函数。结构如图3所示。

2外分布检测损失函数

针对地标识别问题，需要在识别准确的同时也满足外分布检测要求，即先判断输入图像是否为任务内地标建筑，若是则预测对应类别，否则拒绝进一步识别。

通过构建新的损失函数，让模型同时在异常辅助训练集

和地标识别训练集

上学习，来泛化模型的外分布检测能力。给定网络模型f、异常辅助训练集

和地标识别训练集

使用最大Softmax概率(MSP)，通过训练学习待测试样本是内分布还是外分布的启发。构建的损失函数如公式2：

其中x∈X为地标输入图像，y∈Y＝{1,2,3,...,k}为地标对应类别，函数f(x)表示网络模型，对任意x，1^T·f(x)＝1且f(x)≥0。

表示当地标图像服从任务内分布时，对前项损失求数学期望；

表示当输入为异常图像时，对后项损失求数学期望；L表示原始分类损失函数，U表示在K类上的均匀分布，H表示f(x)的输出到均匀分布的交叉熵损失函数，λ为超参数，设置为0.5。在训练阶段，由于任务内的地标图像包含类别信息y，而异常辅助训练集中的图像无需提供该信息，因此当输入图像属于任务内分布时将网络模型记为f_y(x)。通过多轮训练和微调网络模型，使对正确预测的地标建筑类别对应的MSP趋于1，而异常图像对应的MSP接近均匀分布。MSP的计算如公式3:

其中，z_i表示全连接层FC-K第i个神经元的输出，K表示地标建筑类别。公式3将包含K个实数的向量z规范到包含K个正比于输入指数的概率分布，并输出最大Softmax概率MSP，即P_msp。

3数据预处理

为使模型具备外分布检测能力，通过引入异常辅助训练集

进行训练，因此数据集包含三部分且相互无关。第一部分是地标识别内分布训练集D_in，第二部分是外分布辅助训练集

第三部分是用于模型评估的测试集，包括内分布和外分布测试集

和

数据预处理包括以下步骤：

1)针对不同场所的的地标识别任务，按地标建筑或各建筑的详细方位作为类别，进行数据集采集，然后针对每个类别按8:1:1分割为训练集

验证集

和测试集

以自建的地标建筑数据集BJUT-118为例，共采集30000多张地标建筑图像，包含校内所有建筑东西南北方向共计118个方位，所以共有118个类别，然后按8:1:1分为训练集

验证集

和测试集

2)异常辅助训练集

使用公共数据集Places365；

3)测试集包括内分布测试集

和外分布测试集

其中

使用公共数据集ImageNet的地标类，其与

不存在交集；

4)网络训练阶段对地标图像进行数据增强，包括对原始图像的尺寸做随机裁剪与水平翻转、归一化。归一化使用均值u为(0.485,0.456,0.406)和标准差σ为(0.229,0.224,0.225)对输入图像的RGB通道进行归一化操作。计算如公式4所示：

其中，x为地标图像的输入张量数据，x′为归一化后的数据。

4训练与测试

为评估网络的开集地标识别性能，本发明先将改进的网络作为基网络，再修改损失函数，对网络进行微调。训练与测试步骤如图4。

1)训练地标识别基网络

基于改进后的基网络，在地标识别训练和验证集上训练200轮，损失函数使用交叉熵，使用带Nesterov动量的SGD优化器，其中初始学习率为0.1，动量设为0.9，权重衰减为0.0005，并结合LambdaLR学习率调整策略，训练并保存模型参数。

2)修改外分布检测损失函数

基于步骤1训练的地标识别基网络，使用公式2的损失函数，通过引入辅助训练集

微调网络，使其学会判别图像是任务内地标还是异常图像。网络共训练20轮。优化器使用带Nesterov动量的SGD优化器，其中初始学习率为0.001，动量为0.9，权重衰减为0.0005，并结合LambdaLR学习率调整策略，训练并保存模型参数。

3)模型测试

基于步骤1和步骤2训练的网络模型，测试网络的开集地标识别性能。包括以下步骤：

1.加载网络模型，读取任务内地标测试集

和外分布测试集

2.当待测地标图像服从任务内分布时，可获取其地标信息y，此时使用MSP(最大Softmax概率)的相反数作为OOD分数Sⁱⁿ，因此OOD分数值小于0。其中正确预测的OOD分数记为

错误预测的OOD分数记为

通过正确分类样本数比测试样本总数，可得到识别准确率。

3.当待测图像非任务内地标类别时，网络会使其对应MSP接近均匀分布。将外分布图像作为正类，任务内地标样本作为负类，使用MSP的相反数作为OOD分数S^out。使用AUROC、AUPR、FPR95指标评估网络的外分布检测能力。其中AUROC和AUPR可跨不同阈值反映网络整体性能，AUROC可视作外分布样本获得比内分布样本更大OOD分数的概率，该值越接近1表明模型越好；AUPR考虑异常样本的频率，即外分布样本与正常样本的比例，设置

比例为1:5，该值越接近1性能越好；FPR95表示当真正例率达95％时的假正例率,该值越接近0越好。

4.基于步骤2、3统计的OOD分数，将FPR95对应的OOD分数设为阈值δ，基于δ判断待测图像是否服从任务内分布，若是则预测其地标类别，否则拒绝预测。针对BJUT-118数据集实现的地标识别任务，阈值δ设置为-0.98，可针对各种地标识别任务进行设置。

本发明针对移动终端资源有限和在识别过程中存在外分布异常干扰的问题，通过设计轻量化网络并结合外分布检测方法，使移动终端能在开集环境下正确识别地标建筑，具备低延迟、计算量小和轻量的优势。

以自建的校园地标数据集BJUT-118为例，基网络的地标识别准确率为91.39％，在引入外分布损失函数并微调后，标识别准确率为91.52％，本发明使网络在保证高准确率的同时具备了开集地标识别能力。本发明的模型大小为9.3M，与网络模型为43M的ResNet-18相比，具有轻量和计算量小的优势。为检验网络的开集地标识别能力，通过添加高斯噪声、Radmacher噪声、Blob噪声的合成异常和ImageNet真实异常，本发明能将网络的开集地标识别能力泛化到更大未知范围，具有很好的开集地标识别能力。性能对比如表2所示。

表2网络性能对比

Claims

1.一种面向移动终端的轻量化开集地标识别方法，其特征在于：

1)改进基于MobileNet-V2的轻量化网络

网络第一层为包含32个标准卷积核的二维卷积层，步长为2，然后连接17个倒残差线性瓶颈块Bottleneck，接着连接维度为1280的1x1二维卷积核、7x7平均池化层，同时在最后增加两个全连接层，最后对K个地标建筑方位进行预测，K为需要识别的地标个数；网络结构如下：

其中，c表示网络的输出通道数；n表示线性倒残差瓶颈块的重复次数；t表示对线性倒残差瓶颈块中输入通道数扩张的倍数，s表示每个序列中第一个卷积核的步幅；

表格的每行代表一个序列，同一个序列中各线性倒残差瓶颈块的输出通道数c相同；在n≠1且s≠1的序列中，s≠1只对第一个线性倒残差瓶颈块有效，其他线性倒残差瓶颈块的步幅s仍为1，此时其输入和输出通道数相同；t表示对每个序列第一个线性倒残差瓶颈块的输入通道数进行t倍升维，经7x7平均池化层计算后的输出特征大小为1x1x1280,最后连接两个全连接层得到最终地标类别；

改进后的网络在地标识别训练集和验证集上训练200轮，损失函数使用交叉熵，使用带Nesterov动量的SGD优化器，其中初始学习率为0.1，动量设为0.9，权重衰减为0.0005；

2)构建外分布检测损失函数

构建新的损失函数，让模型同时在异常辅助训练集

和地标识别训练集

上学习，来泛化模型的外分布检测能力；给定网络模型f、异常辅助训练集

和地标识别训练集

使用MSP(最大Softmax概率)，通过训练来学习输入的图像是内分布地标图像还是外分布异常的启发；构建的损失函数如公式2：

其中x∈X为地标输入图像，y∈Y＝{1,2,3,...,k}为地标对应的类别，函数f(x)表示网络模型，对任意x，1^T·f(x)＝1且f(x)≥0；

表示当输入为异常图像时，对后项损失求数学期望；L表示原始分类损失函数，U表示在K类上的均匀分布，H表示f(x)的输出到均匀分布的交叉熵损失函数，λ为超参数，设置为0.5；在训练阶段，由于任务内的地标图像包含类别信息y，而异常辅助训练集中的图像无需提供该信息，因此当输入图像属于任务内分布时将网络模型记为f_y(x)；

在修改损失函数后，网络微调20轮，优化器使用带Nesterov动量的SGD优化器，初始学习率为0.001，动量为0.9，权重衰减为0.0005，最终使网络对正确预测的地标建筑类别对应的MSP趋于1，而异常图像对应的MSP接近均匀分布；MSP计算如公式3: