CN113269224A

CN113269224A - 一种场景图像分类方法、系统及存储介质

Info

Publication number: CN113269224A
Application number: CN202110311736.0A
Authority: CN
Inventors: 许勇; 黎枫; 全宇晖
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-08-17
Anticipated expiration: 2041-03-24
Also published as: CN113269224B

Abstract

本发明公开了一种场景图像分类方法、系统及存储介质，包括获取训练和测试的场景图像，并对其进行类别划分，获得相应类别标签数据库；将场景图像数据库划分为训练集和测试集，进行预处理后作为网络模型的输入；训练局部分形统计描述网络模型，保存训练完成的网络参数，所述局部分形统计描述网络模型包括基于ResNet预训练模型的特征提取器和局部分形密度图估计分支、全局池化分支、全连接层分类器；将保存好的网络模型加载，进行验证和测试。本发明相对于其他深度学习方法，引入局部密度估计模块，能够更好的处理多种光照变化，在真实场景下分类准确率更高。

Description

一种场景图像分类方法、系统及存储介质

技术领域

本发明涉及数字图像分类，具体涉及一种场景图像分类方法、系统及存储介质。

背景技术

场景图像分类是图像分类任务中一种常见的经典任务，旨在教会算法模型能够通过局部特征描述以及构成分析等基础特征描述手段达到认知和理解图像中高层语义的目的。场景图像数据的典型特征：(1)类内差距大。场景图像，如街景等，往往在不同环境条件下以不同方式从不同视角拍摄同一个对象，因此会造成同一个街景具备多种不同的视觉呈现。(2)场景类间相似性，如街景中的路口景象与公园中的步行街路口场景具备较高的相似性。(3)富含场景纹理。不难想象到，场景图像往往具备较高相似度的场景元素，如街景中的路口场景，相同路口往往对应相同的路面纹理、建筑纹理及其他以固定形式出现在路口的物体等。

与大多数图像分类任务一致，场景图像分类模型往往通过有监督学习的方式在给定一组训练图像数据集及其相应的语义标签的基础下，通过反向传播训练得到，并最终在模型部署后只需进行前向推理，即可快速预测输入图像的所属类别。场景图像分类是图像检索、目标识别等任务的基础。在深度学习进入白热化的时代，场景图像分类驱动下诞生了大量奠基性工作，如VGGNet、GoogleNet、 ResNet及其变种等。近年以来，随着深度学习的不断深入影响，亦催生了大量基于传统模式识别任务中有效的局部特征描述子或全局空间分布统计描述方法的深度学习场景分类方法，如基于局部聚合描述子向量(Vector ofLocally Aggregated Descriptors,VLAD)的NetVLAD等。但在已有的方法中，自然场景图像中富含大量局部纹理这一特性并没有被很充分的挖掘。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种场景图像分类方法、系统及存储介质，本发明是一种利用场景图像富含局部纹理及局部统计自相似这一特性的场景图像分类方法——深度局部密度统计描述网络，实现其基于数据集可以端到端完成模型训练并有效提高模型的分类准确率及鲁棒性。

本发明采用如下技术方案：

一种场景图像分类方法，包括：

获取训练和测试的场景图像，并对其进行类别划分，获得相应类别标签数据库；

将场景图像数据库划分为训练集和测试集，进行预处理后作为网络模型的输入；

训练局部分形统计描述网络模型，保存训练完成的网络参数，所述局部分形统计描述网络模型包括基于ResNet预训练模型的特征提取器和局部分形密度图估计分支、全局池化分支、全连接层分类器；

将保存好的网络模型加载，进行验证和测试。

进一步，所述训练局部分形统计描述网络模型，保存训练完成的网络参数，具体包括如下：

基于ResNet预训练模型的特征提取器提取输入图像的特征图；

局部分形密度图估计分支将特征图压缩成三通道并上采样为原图的2倍，然后对三通道逐一进行局部分形密度图估计模块与直方图统计描述，得到48维的局部密度统计描述向量；

全局池化分支将特征图进行全局平均池化，并通过全连接层将输出向量维度压缩到48；

采用双线性池化对局部分形密度图估计分支及全局池化分支得到的向量进行耦合得到预测向量的类别概率；

将预测向量真实类别所对应的独热编码向量进行对比，计算交叉熵损失函数，通过多次迭代，得到训练后的局部分形统计描述网络模型。

进一步，所述局部分形密度图估计模块的实现过程，具体为：

在通过多尺度卷积层及最小二乘拟合估计每个特征图像像素点密度的过程。

进一步，所述直方图统计描述具体为：将场景图像的不同构成结构通过直方图分片的方式划分至不同的特征图中，并求和计算各分片的统计值。

进一步，数据预处理包括，对每组图像进行大小调整，裁剪为224*224的尺寸，并以50％的概率随机水平翻转并进行归一化处理。

进一步，

具体是选定一组核大小为r_z的最大池化层，其中r_z∈ {r₁，r₂，r₃，...，r_z，...，r_Z|r₁＜r₂＜…＜r_Z，r_Z＜min{W，H}}，取r_z∈{1，2，3，4，5}，核大小为r_z×r_z的卷积核记为

对于每一张输入特征图X，分别经过一组不同尺度大小的卷积运算，同时通过padding的方式使得每组卷积运算输出的结果都与输入特征图尺寸相等，具体计算如下式：

得到

对输出的特征图相同位置的像素值取对数，即为

对

进行最小二乘拟合：

求得其斜率即为所估计出的该像素点的局部分形密度估计值，最终得到输入该特征图对应的局部分形密度估计图D。

进一步，所述交叉熵损失函数为：

其中

一种场景图像分类系统，包括：

数据采集模块，获取训练和测试的场景图像，并对其进行类别划分，获得相应类别标签数据库；

预处理模块，用于对场景图像数据库进行划分，并预处理后作为网络模型的输入；

构建训练网络模型模块，训练局部分形统计描述网络模型，保存训练完成的网络参数，所述局部部分分形统计描述网络模型包括基于ResNet预训练模型的特征提取器和局部分形密度图估计分支、全局池化分支、全连接层分类器；

验证测试模块，用于对训练好的网络模型进行验证测试。

一种存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时，实现所述的检场景图像分类方法。

本发明的有益效果；

(1)本发明针对真实场景图像分类，提出一种利用场景图像局部纹理统计自相似性的深度局部密度统计描述网络，该方法能够预测诸如医学影像的病灶区域、场景图像、地质材料图像、遥感图像等富含纹理的场景图像，适用于实际场景。

(2)本发明提出的深度局部密度统计描述网络能够有效描述场景图像的局部统计自相似性，并将其与常见的分类网络的分支进行耦合，实现端到端的嵌入网络进行训练学习。该发明可以充分运用数据集的知识来自动学习确定局部密度估计过程以及直方图统计描述过程中所需要的超参数，该方法可以即插即学的嵌入其他未考虑局部统计自相似性的图像识别网络中，提升其效果。

(3)本发明相对于其他深度学习方法，引入局部密度估计模块，能够更好的处理多种光照变化，在真实场景下分类准确率更高。

附图说明

图1为本发明的整体流程图。

图2为深度局部密度统计描述网络结构图。

图3为本发明设计的局部密度统计描述分支结构图。

图4为本发明局部密度统计描述分支的局部密度估计模块结构图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1

如图1所示，一种基于深度局部密度统计描述网络的场景图像分类方法，包括如下步骤：

S1数据准备，获得用于训练和测试的场景图像及类别标签数据库；

进一步，选择下载在真实场景下采集的场景图像数据集并标注好类别，该数据集由数码相机拍摄采集。

S2训练数据划分及预处理，将场景图像数据库划分为训练集和测试集，并对其进行必要地预处理，作为网络输入。

进一步，将场景图像划分为训练集和测试集，取图像及其对应的类别标签为一组；对每组图像进行大小调整，裁剪为224*224的尺寸，并以50％的概率随机水平翻转并进行归一化处理，最后将图像像素值归一化到[0，1]，才输入网络进行计算。

S3构建网络结构及训练，具体为：

如图2所示，搭建网络结构图，该网络模型由四部分组成，分别为基于ResNet 预训练模型的特征提取器和局部密度图估计分支、全局池化分支、全连接层分类器。其中，局部密度统计描述分支将ResNet预训练模型的特征提取器部分的输出特征图压缩成三通道并上采样为原图的2倍，而后对三通道逐一进行局部密度图估计模块与直方图统计描述。全局池化分支将特征图进行全局平均池化，并通过全连接层将输出向量维度压缩到48。

进一步，基于ResNet预训练模型的特征提取器(以ResNet18为例)包括：

卷积层1，其卷积核大小为7*7，卷积核个数为64，步长stride＝2，padding＝3；批规范化(Batch Normalization)1；ReLU激活函数；最大池化Max Pooling：核大小为3*3，步长stride＝2，padding＝1，dilation＝1；残差模块(Residual Block， RB)1；残差模块RB2；残差模块RB3及残差模块RB4。

特征提取器也可以是其他能实现特征提取的卷积神经网络。

如图3所示，局部密度统计描述分支：包括逆卷积层1：卷积核大小为3*3，卷积核个数为512，步长stride＝2；卷积层2：卷积核大小为1*1，卷积核个数为 3。

对于每个通道i，局部密度图估计模块对每个通道进行估计得到每个密度估计特征图i。

直方图统计描述模块i：Histogram Count Vector{HCV_i∈R^1×16})

连接层：HCV₁||HCV₂||HCV₃。(记||为张量串连符号，下同。)

所述全局平均池化分支包括全局平均池化层及全连接层1，所述全局平均池化层的核大小为：7*7，步长为7；所述全连接层1的输入特征数512及输出特征数48。

全连接分类器，包括双线性池化(Bilinear Pooling，BP)、全连接层2、全连接层3及SoftMax层。所述全连接层2的输入特征数2304，输出特征数128；所述全连接层3的输入特征数128，输出特征为图像类别数。

训练网络模型的过程为：

S3.1激活函数ReLu函数，ReLu函数表达式为：f(x)＝max(0，x)，非线性激活函数能够增加模型的非线性，加快模型收敛。

S3.2局部分形密度图估计分支将特征图压缩成三通道并上采样为原图的2 倍，然后对三通道逐一进行局部分形密度图估计模块与直方图统计描述，得到48 维的局部密度统计描述向量。

局部密度图估计模块的实现计算过程

局部密度图估计模块如图4所示，旨在通过多尺度卷积层及最小二乘拟合估计每个特征图像素点密度的过程。经过该模块可以完成X∈R^W×H→D∈ R^W×H的局部密度计算过程。

具体是选定一组核大小为r_z的最大池化层，其中r_z∈ {r₁，r₂，r₃，...，r_z，...，r_Z|r₁＜r₂＜…＜r_Z，r_Z＜min{W，H}}。在本书明说中，为阐述方便我们取r_z∈{1，2，3，4，5}。为阐述方便，本说明书将核大小为r_z×r_z的卷积核记为

得到

进一步，我们对输出的特征图相同位置的像素值取对数，即为

我们对

进行最小二乘拟合：

求得其斜率即为所估计出的该像素点的局部密度估计值，最终得到输入该特征图对应的局部密度估计图D。

直方图统计描述模块的实现计算过程：

直方图统计描述模块旨在模拟直方图统计过程，将场景图像的不同组成结构通过直方图分片的方式划分至不同的特征图中，并求和计算各分片的统计值。在本发明中，我们将局部密度估计图像素点的值域范围划分为K个区间，每个区间设置一个区间中心c_k，即{c_k∈R，k＝1，...，K}。为阐述方便本说明书前述内容以K＝16为例，而实际应用中K可根据实际需求具体选定。

因此，对于每一个输入局部密度估计图D，我们计算其对应区间的直方图统计描述向量，对于每一个区间k：

即经过直方图统计描述模块完成了局部密度估计图D∈R^W×H→H∈R^1×K的计算。本发明使用卷积运算实现软化后的直方图统计描述模块。其中

卷积核大小为1×1，bias₁可学习；记P：＝ D-c_k；则

W₂卷积核可学习，大小为1×1，bias₂＝0。

S3.3全局池化分支将特征图进行全局平均池化，并通过全连接层将输出向量维度压缩到48。

S3.4对于全局平均池化分支得到的特征向量g与局部统计描述分支得到的特征向量β，我们通过双线性池化进行耦合：

B＝g^Tβ

S3.5构造损失函数

为了完成网络模型的端到端学习，让网络能够有效地学习到场景图像有效的特征描述，并完成到类别标签的分类映射，本发明使用交叉熵损失函数作为学习的目标函数。给定输入图像及其标签：{(I_j，l_j)}_j，其中l_j为对应类别的独热编码向量，记局部密度统计描述网络为f(·；Θ)，则交叉熵损失函数为：

其中

通过多次迭代，模型能够学习到分类结果越来越准确的模型参数。

该模型以三通道RGB场景图像作为输入，以深度残差网络(ResNet)的特征提取器部分为模型特征提取部分的基本结构并使用其在imagenet公开数据集上预训练的模型参数初始化，分别经过本发明设计的两个旁支计算过程，再经过双线性池化层对两个旁支计算得到的特征进行耦合，最后通过全连接层与 Softmax函数映射成训练数据集所对应的类别数相等的类别预测概率向量，其中概率大的向量元素所对应的索引即为预测类别。

模型测试：

在数据集中测试集读取测试图像数据，按照训练集的预处理方法进行预处理；

将测试图像输入加载的训练好的深度局部密度统计描述网络中，得到预测的类别概率向量，并计算其概率值最大位置所对应的类别。

将得到的预测类别与真实类别标签进行对比，计算预测准确率。

实施例2

一种场景图像分类系统，包括：

验证测试模块，用于对训练好的网络模型进行验证测试。

实施例3

一种存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时，实现所述的场景图像分类方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。