CN111062441A

CN111062441A - 基于自监督机制和区域建议网络的场景分类方法及装置

Info

Publication number: CN111062441A
Application number: CN201911311035.6A
Authority: CN
Inventors: 王嘉乐; 邹炼; 范赐恩; 陈丽琼; 程谟凡; 胡诗咏
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-24

Abstract

本发明公开了一种基于自监督机制和区域建议网络的场景分类方法及装置，属于图像处理领域，该方法包括：获取场景分类的标准数据集，遵循不同标准数据集的划分规则，将数据集按照标签文件划分为训练集和测试集；构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络；采用自监督机制对网络的损失函数进行优化设计；使用训练集图片对基网络、区域建议网络以及联合网络的参数进行交替训练；将测试图像输入已经训练好的网络中，获得图像的场景类别。本发明无需任何额外的局部区域标注信息，只需要图像的场景类别层级标签即可，使得网络能够针对不同的数据集进行端到端的学习。

Description

基于自监督机制和区域建议网络的场景分类方法及装置

技术领域

本发明属于图像处理领域，更具体地，涉及一种基于自监督机制和区域建议网络的场景分类方法及装置。

背景技术

近二十年来，信息及互联网技术的飞速发展使得各种类型数据呈现爆炸式增长，图像数据作为多媒体的重要组成部分也随着各类社交网站及软件的推广而激增。场景分类近年来也受到了越来越多的关注，在自动驾驶、图像检索、无人机飞行等领域有着广泛的应用，而如何对场景进行准确分类也就成为了一项具有挑战性的问题。

传统的场景分类方法主要是利用手工设计的特征对图像进行描述，再利用各种监督分类算法对特征进行分类。这类特征往往是从符合人类视觉的特点出发进行设计，关注颜色、结构、纹理、形状等视觉特征，常见的特征有SIFT、HOG、GIST特征等。

随着卷积神经网络的出现，深度学习渐渐取代了这一过程，卷积神经网络更有利于提取图片更深层次的特征，因此越来越多的学者将卷积神经网络用于不同的领域，都取得了巨大的进展，随着SUN、Places等大规模数据集的出现，卷积神经网络也在场景分类领域不断取得突破。

场景分类由于其任务和数据的特殊性，通用的神经网络结构可能无法充分利用场景图像中的语义信息，场景图像一般内容较为复杂，类内差异性也较大，为了充分利用场景内的语义信息，往往需要将全局特征和多尺度的局部区域特征进行融合，共同对场景图像进行描述，而提取局部区域方法的不同也会造成最终分类准确率的不同。

现有场景提取局部区域的方法往往需要对图像进行额外的边框标注，局部边框标注信息作为监督标签指导网络的训练过程，但人工标注的边框信息往往存在两方面的问题：一是标注成本高，对于场景分类这类需要大量图片用于训练的任务来说耗费成本过高；二是人工标注的区域对于场景分类任务来说可能并非最佳的区域，不同于目标检测等任务，在场景分类任务中，决定场景类别的不光是场景中的物体，还与场景中的背景、布局等紧密相关，因此标注的区域往往与最具判别性信息的区域有所偏差。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提出了一种基于自监督机制和区域建议网络的场景分类方法及装置，由此解决现有场景图像提取局部特征需要额外边框标注信息，导致操作困难的技术问题。利用图像自监督信息对局部区域的提取进行指导，提取出更具有判别性的局部区域，提高场景分类的准确率。

为实现上述目的，按照本发明的一个方面，提供了一种基于自监督机制和区域建议网络的场景分类方法，包括：

(1)获取目标场景分类图像数据集，根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集；

(2)构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络；

(3)采用自监督机制对网络的损失函数进行优化设计，其中，所述损失函数包括三个部分，共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新；

(4)使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练；

(5)将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中，得到最终的场景分类概率。

优选地，在步骤(2)中，构建用于提取特征的基网络，包括：

构建用于提取图片深层特征的基网络，其中，对于任一张原始图片，通过所述基网络得到关于所述原始图片的两个中间特征：最后一层卷积层输出的特征图F_p，全局池化层输出的全局特征F_g，并且得到使用所述全局特征进行分类的场景类别概率R_g，R_g为C×1的向量，C表示所述目标场景分类图像数据集中的场景类别的数量。

优选地，在步骤(2)中，构建用于提取局部具有可判别信息区域的区域建议网络，包括：

所述区域建议网络共享所述基网络的特征图F_p，经过一个卷积层使所述特征图F_p变换坐标空间，再经过一个卷积层，输出以所述特征图F_p中每个像素点为中心、尺寸为h×w的局部区域的得分S，其中，h表示该局部区域高度，w表示该局部区域宽度；

根据所述区域建议网络中各局部区域的得分S，使用非极大值抑制得到所述原始图片中最具有判别性信息的M个目标局部区域，将各所述目标局部区域裁剪并调整分辨率后，输入所述基网络中得到全局池化层输出的M个局部特征F_r，并且得到M个局部区域的场景类别概率R_r,R_r为C×1的向量。

优选地，构建用于合并不同尺度特征的联合网络，包括：

所述联合网络由全连接层和softmax组成，将所述全局特征F_g和所述M个局部特征F_r进行联合，得到最终的预测场景类别结果R，R为C×1的向量。

优选地，步骤(3)包括：

(3.1)使用类别分类损失对所述基网络的参数进行修正，其中，所述类别分类损失描述了分别利用全局特征和局部特征进行分类时预测结果与真实类别之间的偏差；

(3.2)使用排序损失对所述区域建议网络的参数进行修正，以反映所述区域建议网络提取的局部区域得分与局部区域判别性之间的一致性关系；

(3.3)对于所述联合网络，设计联合损失表示全局特征和局部特征进行联合之后预测结果与真实类别之间的偏差。

优选地，所述类别分类损失为：

其中，Y为真实场景类别，C()为交叉熵损失函数，R_g为由所述基网络得到的场景类别概率，R_r表示由所述区域建议网络得到的场景类别概率，M表示由所述区域建议网络得到的目标局部区域的个数。

优选地，所述排序损失为：

其中，M表示由所述区域建议网络得到的目标局部区域的个数，其中，所述区域建议网络输出的M个局部区域得分次序为I＝[i₁,i₂,...,i_M]，所述基网络预测对应类别概率的次序为J＝[j₁,j₂,...,j_M]，

表示所述区域建议网络输出的第i_k个目标局部区域的得分，

表示所述区域建议网络输出的第j_k个目标局部区域的得分。

优选地，所述联合损失为：L_j＝-logC(R,Y)，其中，Y为真实场景类别，C()为交叉熵损失函数，R表示所述联合网络得到的最终的预测场景类别结果。

按照本发明的另一个方面，提供了一种基于自监督机制和区域建议网络的场景分类装置，包括：

图片集获取模块，用于获取目标场景分类图像数据集，根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集；

网络构建模块，用于构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络；

网络参数修正模块，用于采用自监督机制对网络的损失函数进行优化设计，其中，所述损失函数包括三个部分，共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新；

网络训练模块，用于使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练；

场景分类模块，用于将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中，得到最终的场景分类概率。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明设计了一种基于自监督机制的场景区域建议网络训练方法，不需要额外的区域边框标注信息即可提取场景图片中具有判别性的局部区域，各部分网络的参数均可进行端到端的学习。

(2)本发明将场景内的物体、背景等信息综合为局部语义信息进行考虑，能自适应地发现图像中最具有判别性信息的区域，对这些局部区域提取特征之后再与全局特征进行组合能够更好地对图像进行表达，有助于挖掘场景更深层次的语义联系。

附图说明

图1是本发明实施例提供的一种基于自监督机制和区域建议网络的场景分类方法的流程示意图；

图2是本发明实施例提供的一种测试阶段的网络框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明利用自监督机制对区域建议网络进行训练，而无需任何额外的局部区域标注信息，只需要图像的场景类别层级标签即可，使得网络能够针对不同的数据集进行端到端的学习，更适合用于图像内容复杂、难以进行额外精细标注的大型场景图像数据集，同时全局特征和局部区域特征的结合能够进一步挖掘图片中的特征，从而提高场景图像的分类准确率。

如图1所示是本发明实施例公开的一种基于自监督机制和区域建议网络的场景分类方法的流程示意图，具体包括以下步骤：

步骤1：收集或下载网络上公开的数据集，常见的场景分类标准数据集有MIT67、SUN397、Places365等，按照给出的标签文件说明分别将数据集按不同的要求划分为训练集图片和测试集图片，再进行预处理操作。

具体地，以MIT67数据集为例，该数据集一共包含15620张室内场景图片，分为C种类别(C＝67)。每种类别下至少包含100张图片，按照标签文件说明，将每类选择80张划分为训练集，每类选择20张划分为测试集，将图片调整为600×600的分辨率，再随机裁剪出448×448分辨率的区域作为网络输入的原始图片。

步骤2：构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络，测试阶段的网络框图如图2所示。

在本发明实施例中，步骤2的具体步骤如下：

步骤2.1：对于步骤1中下载的具有C类场景类别的数据集，为了得到图片的特征表达，构建用于提取图片深层特征的基网络。

作为一种可选的实施方式，可以选用ResNet-152作为基网络提取图片深层特征，对于一张分辨率为448×448的原始图片，通过基网络得到关于图片的两个中间特征：最后一层卷积层输出的尺寸为2048×14×14的特征图F_p，全局池化层输出的尺寸为2048×1×1的全局特征F_g，并且得到使用全局特征进行分类的场景类别概率R_g＝[r₁,...,r_i,...,r_c],R_g为C×1的向量。

在本发明实施例中，还可以选用除ResNet-152外的其它网络作为基网络，图像尺寸可以根据实际需要确定，可以选用其它尺寸，具体采用何种网络及何种尺寸的特征图，本发明实施例不做唯一性限定。

步骤2.2：区域建议网络共享基网络的特征图F_p，经过一个卷积核大小为3×3的卷积层使其变换坐标空间，再经过一个卷积核大小为1×1的卷积层，输出以特征图F_p中每个点为中心、尺寸为h×w的局部区域的得分S(本发明实例中设h＝128，w＝128)；

在本发明实施例中，卷积核大小还可以为其它合适的大小，本发明实施例不做唯一性限定。

步骤2.3：根据区域建议网络中各区域的分数，使用非极大值抑制得到原始图片中最具有判别性信息的M个局部区域(本发明实例中设M＝3)，将局部区域裁剪并调整分辨率至224×224输入基网络中得到全局池化层输出的M个尺寸为2048×1×1的局部特征F_r，并且得到M个局部区域的场景类别概率R_r＝[r₁,...,r_i,...,r_c],R_r为C×1的向量；

在本发明实施例中，图像尺寸及分辨率可以根据实际需要确定，本发明实施例不做唯一性限定。

步骤2.4：联合网络由全连接层和softmax组成，将尺寸为2048×1×1的全局特征F_g和M个尺寸为2048×1×1的局部特征F_r进行联合，得到最终的预测结果R＝[r₁,...,r_i,...,r_c],R为C×1的向量。

步骤3：采用自监督机制对网络的损失函数进行优化设计，损失函数用于网络的训练过程，利用梯度下降完成对网络参数的更新，损失函数主要包括三个部分，共同作用于三个网络的参数更新。

在本发明实施例中，步骤3的具体步骤如下：

步骤3.1：对于基网络ResNet-152，为了使网络更好的收敛，使用在ImageNet或Places365等数据集上预训练好的ResNet-152模型对基网络进行参数初始化，设计类别分类损失L_c，该损失描述了分别利用全局特征和局部特征进行分类时预测结果与真实类别之间的偏差，其计算公式如下：

其中，Y为真实场景类别，C为交叉熵损失函数。

步骤3.2：对于区域建议网络，原始的区域建议网络使用额外的边框标注信息修正区域得分，由于场景图像自身的特殊性，对于一张图片，即使将图片进行局部区域的裁剪，局部区域也应当反应出一定的场景类别信息，在本发明实例中不使用额外的边框标注信息，而是改用排序损失来对区域建议网络的参数进行修正，反映了区域建议网络提取的局部区域得分与局部区域判别性之间的一致性关系；

具体地，若图像的真实类别标签为q，使得区域建议网络输出的M个局部区域的得分S₁,S₂,...S_M与局部区域通过基网络得到的预测概率R_q1,R_q2,...,R_qM两者的次序保持一致性。

具体地，若区域建议网络输出的M个局部区域得分次序为I＝[i₁,i₂,...,i_M]，基网络预测对应类别概率的次序为J＝[j₁,j₂,...,j_M]，排序损失函数L_s的具体计算公式如下：

步骤3.3：对于联合网络，通过全连接层和softmax，将尺寸为2048×1×1的全局特征F_g和M个尺寸为2048×1×1的局部特征F_r输出最终的预测场景类别结果R＝[r₁,...,r_i,...,r_c]，设计联合损失L_j表示全局特征和局部特征进行联合之后预测结果与真实类别之间的偏差，其计算公式如下：

L_j＝-logC(R,Y)

其中，Y为真实场景类别，C为交叉熵损失函数。

步骤3.4：网络最终的总损失函数L为类别损失函数L_c、排序损失函数L_s及联合损失函数L_j三者的加权和(本发明实例中三者权重相同)。

步骤4：使用训练集图片进行训练操作，利用总损失函数根据链式法则及梯度下降法对基网络、区域建议网络以及联合网络的参数进行更新，本质上可以看作是各个网络参数的交替训练。

步骤5：将测试图像输入已经训练好的网络中，得到最终的场景分类概率R＝[r₁,...,r_i,...,r_c]，该网络使用自监督机制提取了最具有判别性的M个局部区域，结合了测试图像的全局和局部特征共同描述一张图像的场景类别。

在本发明的另一实施例中，还提供了一种基于自监督机制和区域建议网络的场景分类装置，包括：

图片集获取模块，用于获取目标场景分类图像数据集，根据目标场景分类图像数据集的标签文件分别将目标场景分类图像数据集分为训练图片集和测试图片集；

网络参数修正模块，用于采用自监督机制对网络的损失函数进行优化设计，其中，损失函数包括三个部分，共同作用于基网络、区域建议网络及联合网络的参数更新；

网络训练模块，用于使用训练图片集对基网络、区域建议网络以及联合网络的参数进行交替训练；

场景分类模块，用于将测试图片集输入已经训练好的基网络、区域建议网络以及联合网络中，得到最终的场景分类概率。

其中，各模块的具体实施方式可以参考方法实施例的描述，本发明实施例将不再复述。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自监督机制和区域建议网络的场景分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在步骤(2)中，构建用于提取特征的基网络，包括：

3.根据权利要求2所述的方法，其特征在于，在步骤(2)中，构建用于提取局部具有可判别信息区域的区域建议网络，包括：

4.根据权利要求3所述的方法，其特征在于，构建用于合并不同尺度特征的联合网络，包括：

5.根据权利要求4所述的方法，其特征在于，步骤(3)包括：

6.根据权利要求5所述的方法，其特征在于，所述类别分类损失为：

7.根据权利要求5所述的方法，其特征在于，所述排序损失为：

表示所述区域建议网络输出的第i_k个目标局部区域的得分，

表示所述区域建议网络输出的第j_k个目标局部区域的得分。

8.根据权利要求5所述的方法，其特征在于，所述联合损失为：L_j＝-log C(R,Y)，其中，Y为真实场景类别，C()为交叉熵损失函数，R表示所述联合网络得到的最终的预测场景类别结果。

9.一种基于自监督机制和区域建议网络的场景分类装置，其特征在于，包括：