CN113128527A

CN113128527A - 基于变换器模型和卷积神经网络的图像场景分类方法

Info

Publication number: CN113128527A
Application number: CN202110683770.0A
Authority: CN
Inventors: 谢毓湘; 张家辉; 宫铨志; 闫洁; 栾悉道; 魏迎梅; 康来; 蒋杰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-07-16
Anticipated expiration: 2041-06-21
Also published as: CN113128527B

Abstract

本申请涉及一种基于变换器模型和卷积神经网络的图像场景分类方法。所述方法包括：在对图像进行场景分类的过程中，用到了两种卷积神经网络以及变换器模型，其中变换器模型用以在场景图像底层建立全局要素之间的相互联系，有效地弥补了卷积神经网络在场景图像特征提取上的不足，使得网络可以从一开始就关注场景中的重点区域，从而提升了场景分类的效果。将卷积神经网络提取的特征作为变换器模型的额外输入，旨在引导编码单元将关注重点放在可以与深度特征形成良好补充的区域，并且从另一方面建立了网络底层和高层之间的联系，从而使得模型表达更加全面充分。

Description

基于变换器模型和卷积神经网络的图像场景分类方法

技术领域

本申请涉及图像场景分类技术领域，特别是涉及一种基于变换器模型和卷积神经网络的图像场景分类方法。

背景技术

随着互联网多媒体技术的发展和视觉数据的增长，如何处理这些海量的数据成为了新时代的难题。场景分类技术，作为解决图像检索、图像识别问题的关键技术，已成为计算机视觉领域中一个非常重要且极具挑战的研究课题。同时，场景分类在遥感图像分析、视频监控、机器人感知等领域都具有广泛的应用。因此，对于场景分类技术进行相应的研究和提高计算机场景识别能力具有十分重要的意义。

所谓图像场景分类，是指对于已经给定的图像，通过判断识别它所包含的信息和内容来判断其所属的场景，从而达到分类的目的。近年来，深度学习技术迅速发展，逐渐取代了传统手工设计图像特征的方法，在场景分类领域取得了全新的进展。尤其是迁移学习的出现，很好地解决了深度学习需要大量的训练样本，这对于一些小规模的场景数据集而言并不能满足的问题。在基于深度学习的场景分类方法中，往往会用到两类预训练模型，一种在Places365数据集上进行预训练，提取的特征称为场景特征。一种在ImageNet数据集上进行预训练，提取的特征称为场景特征。在早期的基于深度学习的场景分类方法中，往往是针对这两类特征进行的优化，例如去除冗余、添加细节，以及使用更多的场景特征进行补充，然而，无论是哪个方面的优化，都是建立在卷积神经网络的基础上进行的，这也给该类算法带来了局限性。卷积核是卷积神经网络的核心，它具有局部连接、参数共享的优势，但是，它也存在无法在图像底层对全局进行建模的不足，受限于卷积核的大小，对于图像特征的提取往往是通过多层卷积的堆叠一步步完成对整幅图像的全局特征提取，会导致相距过远又相互联系的两个区域在较深的层才能进行关联，这并不是一种高效的方式，且无法充分利用全局信息完成特征的提取。而场景图像的内容较之单个对象图像更加丰富，把握要素之间的相互关系便显得尤为重要，如果仅仅只是依靠卷积神经网络在深层对要素进行关联，则容易导致一些信息的丢失，从而造成分类性能的下降。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高场景分类性能的基于变换器模型和卷积神经网络的图像场景分类方法。

一种基于变换器模型和卷积神经网络的图像场景分类方法，所述方法包括：

获取图像样本；

将所述图像样本输入场景分类模型，所述场景分类模型包括场景卷积神经网络、对象卷积神经网络以及变换器模型；

对所述图像样本进行预处理得到标准化图像样本，分别通过所述场景卷积神经网络以及对象卷积神经网络对所述标准化图像样本进行特征提取，相应得到场景特征以及对象特征；

对所述图像样本进行嵌入操作，得到与所述图像样本相关的嵌入图像；

对所述场景特征、对象特征以及嵌入图像分别进行图词转换，相应得到场景图词、对象图词以及图像图词；

将所述场景图词、对象图词以及图像图词输入所述变换器模型得到分类图词，将所述分类图词通过线性全连接分类层得到预测场景分类；

根据所述场景特征、对象特征以及预测场景分类构建全局混合损失函数，根据所述全局混合损失函数对所述场景分类模型进行反向传播和梯度更新，以得到完成训练的场景分类模型；

获取待进行场景分类的图像输入所述完成训练的场景分类模型，得到场景分类结果。

在其中一个实施例中，所述对所述图像样本进行预处理得到标准化图像样本包括：

对所述图像样本采用双线性插值调整至预设尺寸；

对调整至预设尺寸的图像样本减去图像网络数据集的图像均值，再除以标准差得到所述标准化图像样本。

在其中一个实施例中，所述场景卷积神经网络以及对象卷积神经网络均以紧密网络116为基础进行构建。

在其中一个实施例中，在对所述嵌入图像进行图词转换后，还采用位置编码的方式对初步生成的图像图词进行空间信息补充，得到所述图像图词。

在其中一个实施例中，将所述场景图词、对象图词以及图像图词输入所述变换器模型得到分类图词之前，还包括：

将所述场景图词、对象图词、图像图词分别与历史时刻计算得到的分类图词进行融合，得到融合场景图词、融合对象图词以及融合图像图词；

所述将所述场景图词、对象图词以及图像图词输入所述变换器模型得到分类图词，包括：

将所述融合场景图词、融合对象图词以及融合图像图词输入所述变换器模型得到分类图词。

在其中一个实施例中，所述变换器模型包括12层依次连接的编码单元以及12层依次连接的解码单元，其中最后一层编码单元的输出与各层解码单元连接；

所述编码单元包括两个层归一化层、多头自注意力层以及多层感知机层；

所述解码单元包括两个层归一化层、多头自注意力层、多层感知机层以及多头注意力层。

在其中一个实施例中，所述将所述场景图词、对象图词以及图像图词输入所述变换器模型得到分类图词包括：

在编码单元中：

将所述图像图词或上一层编码单元的输出通过第一个层归一化层、多头自注意力层的处理得到输出，将所述输出与图像图词或上一层编码单元的输出进行残差连接后得到第一中间结果；

将所述第一中间结果通过第二个层归一化层、多层感知机层的处理得到输出，将所述输出结果与第一中间结果进行残差连接得到该层编码单元的输出；

将该层编码单元的输出输入下一层编码单元中，或作为编码单元的结果输入各层解码单元；

在解码单元中：

将所述对象图词和场景图词，或上一层解码单元的输出通过第一个层归一化层、多头自注意力层的处理得到输出，将所述输出与所述编码结果和场景图词、或上一层解码单元的输出进行残差连接后得到第二中间结果；

将所述第二中间结果与编码单元的结果通过所述多头注意力层的处理后得到输出，将所述输出与第二中间结果进行残差连接后得到第三中间结果；

将所述第三中间结果通过第二个层归一化层、多层感知机层的处理得到输出，将所述输出与所述第三中间结果进行残差连接得到该层解码单元的输出；

将该层解码单元的输出输入下一层解码单元中，或该输出为所述分类图词作为所述变换器模型的输出。

在其中一个实施例中，在输入所述解码单元之前，还对所述场景图词以及对象图词在第一个维度上进行拼接，得到组合图词，将所述组合图词输入所述解码单元。

在其中一个实施例中，所述根据所述场景特征、对象特征以及预测场景分类构建全局混合损失函数包括：

根据所述场景特征和对象特征进行处理得到卷积神经网络输出的预测分类；

根据所述预测场景分类以及预测分类进行结合，构建所述全局混合损失函数。

一种基于变换器模型和卷积神经网络的图像场景分类装置，所述装置包括：

图像样本获取模块，用于获取图像样本；

特征提取模块，用于对所述图像样本进行预处理得到标准化图像样本，分别通过所述场景卷积神经网络以及对象卷积神经网络对所述标准化图像样本进行特征提取，相应得到场景特征以及对象特征；

嵌入操作模块，用于对所述图像样本进行嵌入操作，得到与所述图像样本相关的嵌入图像；

图词转换模块，用于对所述场景特征、对象特征以及嵌入图像分别进行图词转换，相应得到场景图词、对象图词以及图像图词；

预测分类模块，用于将所述场景图词、对象图词以及图像图词输入所述变换器模型得到分类图词，将所述分类图词通过线性全连接分类层得到预测场景分类；

场景分类模型得到模块，用于根据所述场景特征、对象特征以及预测场景分类构建全局混合损失函数，根据所述全局混合损失函数对所述场景分类模型进行反向传播和梯度更新，以得到完成训练的场景分类模型；

图像场景分类模块，用于获取待进行场景分类的图像输入所述完成训练的场景分类模型，得到场景分类结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取图像样本；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取图像样本；

上述基于变换器模型和卷积神经网络的图像场景分类，在对图像进行分类的过程中，用到了两种卷积神经网络以及变换器模型，其中变换器模型用以在场景图像底层建立全局要素之间的相互联系，有效地弥补了卷积神经网络在场景图像特征提取上的不足，使得网络可以从一开始就关注场景中的重点区域，从而提升了场景分类的效果。将卷积神经网络提取的特征作为变换器模型的额外输入，旨在引导编码单元将关注重点放在可以与深度特征形成良好补充的区域，并且从另一方面建立了网络底层和高层之间的联系，从而使得模型表达更加全面充分。

附图说明

图1为一个实施例中图像场景分类方法的流程示意图；

图2为一个实施例中场景分类模型中数据处理流程示意图；

图3为一个实施例中场景图像中的场景要素（a）和对象要素（b）示意图；

图4为一个实施例中DenseNet网络结构的示意图；

图5为一个实施例中Transformer模型的网络结构示意图；

图6为一个实施例中图像场景分类装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1-2所示，提供了一种基于变换器模型和卷积神经网络的图像场景分类方法，包括以下步骤：

步骤S100，获取图像样本；

将图像样本输入场景分类模型，场景分类模型包括场景卷积神经网络、对象卷积神经网络以及变换器模型；

步骤S110，对图像样本进行预处理得到标准化图像样本，分别通过场景卷积神经网络以及对象卷积神经网络对标准化图像样本进行特征提取，相应得到场景特征以及对象特征；

步骤S120，对图像样本进行嵌入操作，得到与图像样本相关的嵌入图像；

步骤S130，对场景特征、对象特征以及嵌入图像分别进行图词转换，相应得到场景图词、对象图词以及图像图词；

步骤S140，将场景图词、对象图词以及图像图词输入变换器模型得到分类图词，将分类图词通过线性全连接分类层得到预测场景分类；

步骤S150，根据场景特征、对象特征以及预测场景分类构建全局混合损失函数，根据全局混合损失函数对场景分类模型进行反向传播和梯度更新，以得到完成训练的场景分类模型；

步骤S160，获取待进行场景分类的图像输入所述完成训练的场景分类模型，得到场景分类结果。

在步骤S100中，获取的图像样本为对场景分类模型进行训练的图像，其中图像样本的内容包括有场景信息，例如：公园、游乐园、花园，海边等各类场景。而在对模型进行训练时，将无数张内容不同的图像样本不断输入模型中对其进行训练。在下面对场景分类模型进行说明时，是一张图像对模型进行训练的过程。

场景分类模型包括两个卷积神经网络以及变换器模型，图像样本先通过两个卷积神经网络进行特征提取后，再将特征输入变换器模型内，具体步骤如下：

在步骤S110中，获取的图像样本的尺寸为224×224，在将其输入到卷积神经网络进行提取时，先对其进行预处理得到标准化图像样本，其过程包括：对图像样本采用双线性插值调整至预设尺寸，对调整至预设尺寸的图像样本减去图像网络（ImageNet）数据集的图像均值，再除以标准差得到标准化图像样本。

具体的，首先利用双线性插值将图像样本的尺寸调整为336×336，以获取高分辨率的图像以突出图像的局部特征，然后减去ImageNet数据集的图像均值，再除以标准差进行图像的标准化。通过标准化后，使得数据符合分布规律，增加模型的泛化能力。

在本实施例中，场景卷积神经网络以及对象卷积神经网络分别指的是ImageNet-CNN和Places-CNN，这两个卷积神经网络是最先构建的网络模型，以紧密网络116也就是DenseNet161为基础网络。在pytorch深度学习框架中搭建好网络，其预训练选择在ImageNet和Places365数据集上进行，得到两类不同参数结构的卷积神经网络，分别称作ImageNet-CNN和Places-CNN。

如图3所示，Place-CNN和ImageNet-CNN所关注的场景图像的不同要素。在场景图像中，Places-CNN和ImageNet-CNN关注的重点有所区别。场景图像的内容较为丰富，要素较多，Places-CNN在提取的图像特征往往会带有更多的整体性、空间性特点，而ImageNet-CNN提取的特征会更注重单个对象的特征。

如图4所示，在DenseNet中，任何两层之间都有直接的连接，即任意一层网络的输入都是前面所有层的输出的并集。DenseNet网络将有重复性的特征反复利用，无需进行额外的特征生成，使得网络结构得到充分地利用。

进一步的，将标准化图像样本作为输入分别通过ImageNet-CNN和Places-CNN，此时将作为基础网络的DenseNet161调整为测试模式，用于正则化的Dropout将以概率值的形式与神经元的输出相乘。最终的特征图是DenseNet的最后一层卷积层输出，且未经过全局平均池化操作，特征图的大小均为（2208，10，10）。

其中，由Places-CNN提取的特征称作场景特征，由ImageNet-CNN提取的特征称作对象特征。

在步骤S120中，在将图像样本输入卷积神经网络进行特征提取的同时，还将224×224尺寸的图像样本及进行嵌入操作也就是embedding操作。

具体的，将224×224尺寸的图像分成14×14个小的Patch，每个Patch的尺寸为16×16，这个过程由Pytorch中的Conv2d()层完成，其中卷积核大小为16，输入通道为3，输出通道为768，步长为16。通过embedding后的嵌入图像输出尺寸为（768，14，14）。

在步骤S130中，对场景特征、对象特征以及嵌入图像分别进行图词转换，也就是将场景特征、对象特征以及嵌入图像转换为可输入变换器模型的图词模式，其中图词指Token。

具体的，在对场景特征和对象特征进行转换时，将特征图通过使用768个1×1的卷积核进行通道的降维，得到（768，10，10）的特征图，而后将该特征图延空间上的维度进行拉平操作，并且交换空间和通道的维度，得到（n，d）形式的Token表示，其中n表示Token的数量，d表示Token的维度，此时n为100，d为768，并且分为两类，一类为Scene Tokens（场景图词），一类为Object Tokens（对象图词）。两类Token分别代表了两类不同性质的深度卷积特征，包含了场景图像丰富的语义信息，其中Object Tokens用

表示，Scene Tokens用

表示。

具体的，在对嵌入图像及进行转换时，将尺寸为（768，14，14）的嵌入图像，在输出延空间维度进行拉平操作，并且交换空间和通道的维度，得到（196，768）的Image Tokens(图像图词)。

另外，由于embedding操作丢失了场景图像中的空间信息，在对嵌入图像进行图词转换后，还采用位置编码的方式对初步生成的图像图词进行空间信息补充。具体做法是选择初始化（196，768）尺寸的参数，与Image Tokens进行加法运算，由网络自行将位置编码进行训练得到。

在实施步骤S140之前还包括：将场景图词、对象图词、图像图词分别与历史时刻计算得到的分类图词进行融合，得到融合场景图词、融合对象图词以及融合图像图词。

具体的，可知在进行模型训练的时候，是会将多张图像样本对其训练，那么各图像样本均会在经过变换器模型处理后得到对应的一分类图词，则该分类图词在下一张图像样本进行处理时用于与各图词进行融合。则当前对各图词进行融合采用的分类图词为上一时刻获取的历史分类图词。

其中，在第一张图像样本对模型进行训练时，此时还没有生成分类图词。则另外初始化一列（1，768）的参数，作为场景图像所包含的类别信息，也就是分类图词（classToken），将这个class Token分别与Image Tokens、Object Tokens、Scene Tokens进行concatenate操作。

在这里需要说明的是，图像样本在进行embedding操作后输出的图像大小为（196，768），在将尺寸大小为（1，768）的class Token对其进行融合后，得到尺寸为（197，768）大小的Image Tokens，且用

进行表示。

故将场景图词、对象图词以及图像图词输入变换器模型得到分类图词，包括：

将融合场景图词、融合对象图词以及融合图像图词输入变换器模型得到分类图词。

在本实施例中，变换器模型包括12层依次连接的编码单元（Encoder）以及12层依次连接的解码单元（Decoder），其中最后一层编码单元的输出与各层解码单元连接。其中，变换器模型是指Transformer模型。

其中，编码单元包括两个层归一化层、多头自注意力层以及多层感知机层。

其中，解码单元包括两个层归一化层、多头自注意力层、多层感知机层以及多头注意力层。

将场景图词、对象图词以及图像图词输入变换器模型得到分类图词包括：

在编码单元中：

将图像图词或上一层编码单元的输出通过第一个层归一化层、多头自注意力层的处理得到输出，将输出与图像图词或上一层编码单元的输出进行残差连接后得到第一中间结果。将第一中间结果通过第二个层归一化层、多层感知机层的处理得到输出，将输出结果与第一中间结果进行残差连接得到该层编码单元的输出，将该层编码单元的输出输入下一层编码单元中，或作为编码单元的结果输入各层解码单元。

12层编码单元通过各自的输入和输出相互连接，将图像图词输入第一层编码单元中，在进行连续多层编码单元的处理后，将最后一层编码单元输出的结果输入到各层解码单元中做为额外输入。

具体的，在各编码单元中，首先是对输入进行LayerNorm层（层归一化层）旨在统一数据分布，加速模型训练矩阵，在该层进行处理后对应得到Key (键值),Value（值），Query（查询）三个矩阵，再将这三个矩阵输如Multiheaded self-attention层（多头自注意力层，MSA层），注意力头数量设置为12，且在多头自注意力层后面添加dropout层，dropout比率为0.3，用以防止过拟合。与该层输入进行残差连接后，再次通过层归一化层（LayerNorm），进入多层感知机（MLP）层，其中包括两层全连接（Fc），隐藏层的神经元数量为3072，最后和MSA层的输出做残差得到单个Encoder的输出。整个Encoder的运算过程可用式（1）（2）表示。

在公式（1）和公式（2）中，

表示中间计算量，

表示第

层Encoder的输出，LN表示层归一化层。

，也就是指第一层Encoder的输入为Image Tokens。

在解码单元中：

将对象图词和场景图词，或上一层解码单元的输出通过第一个层归一化层、多头自注意力层的处理得到输出，将输出与所述编码结果和场景图词、或上一层解码单元的输出进行残差连接后得到第二中间结果，将第二中间结果与编码单元的结果通过多头注意力层的处理后得到输出，将输出与第二中间结果进行残差连接后得到第三中间结果，将第三中间结果通过第二个层归一化层、多层感知机层的处理得到输出，将输出与所述第三中间结果进行残差连接得到该层解码单元的输出，将该层解码单元的输出输入下一层解码单元中，或该输出为分类图词作为所述变换器模型的输出。

具体的，Decoder的输入由两部分组成，其中一部分为Scene Tokens和ObjectTokens，另一部分为Encoder的输出

。单个Decoder组成与Encoder相似，不同的是与Encoder相比多了一层多头注意力层，且不是常规的自注意力层。

在本实施例中，在输入解码单元之前，还对场景图词以及对象图词在第一个维度上进行拼接，得到组合图词，将组合图词输入解码单元。

具体的，对于输入

（场景图词）和

（对象图词），首先将这两个Token在第一个维度上进行拼接，得到（200，768）尺寸的组合Token，记为

。接下来进行层归一化层操作，而后与Encoder一样，通过常规的多头自注意力层，经过Dropout操作后进行残差连接。这一步的过程可以用公式（3）表示：

在公式（3），

，也就是指第一层Decoder的输入为Image Tokens。

接下来则是通过另一种多头注意力层（Multiheaded Attention，MA层），与多头自注意力层不同的是，该层在计算注意力权重时，key和value的来源不是Decoder的中间输出

，而是Encoder的输出

，query的来源则是

。这一步的过程可以用公式（4）表示：

在公式（4），

，

，

，

是

的维度，

为矩阵。

得到

后，再通过层归一化层，进入多层感知机层（MLP），其中包括两层全连接（Fc），隐藏层的神经元数量为3072，最后和MSA层的输出做残差得到单个Decoder的输出，其过程可用公式（5）表示：

在步骤S140中，在通过变换器模型最后一层Decoder的输出尺寸为（197,768）的分类图词，并对分类图词的第一列进行提取，再通过一个线性全连接分类层，得到最终的变换器模型的场景分类输出

。

如图5所示，在基于Encoder-Decoder的场景Transformer模型中，包括N层Encoder和N层Decoder，本次算法采用的N为12。Encoder主要包括对输入Image Tokens进行位置编码，层归一化，多头自注意层，残差连接，MLP几部分。Encoder不改变输入的维度，通过多层Encoder的堆叠，逐步从图像底层提取重点关注区域的特征，并作为部分输入至Decoder中。Decoder的输入包括两部分，一部分是深度卷积特征转变而来的Scene Tokens和ObjectTokens，另一部分是Encoder的输出。其中Scene Tokens和Object Tokens作为多头注意力层的query来源，而Encoder的输出则是作为多头注意力层的Key、Value来源，这样的结构设计有效地将深度卷积特征和图像底层特征相结合，并且一定程度上使得卷积特征引导Encoder去关注全局图像底层的重点，使其作为传统CNN深度特征的有力补充，提高了场景分类的精度。

在步骤S150中，根据场景特征、对象特征以及预测场景分类构建全局混合损失函数包括：根据场景特征和对象特征进行处理得到卷积神经网络输出的预测分类，根据预测场景分类以及预测分类进行结合，构建全局混合损失函数。

具体的，利用场景特征和对象特征，其维度大小为（2208，10，10）通过一层池化核尺寸为10×10的全局平均池化层，并且延第一个维度上进行拉平处理，得到两个维度为2208的场景特征和对象特征。将这两个特征进行拼接后再通过线性全连接分类层，得到最终的卷积神经网络分类输出

。将变换器模型分类输出和CNN分类输出相结合，采用了加权两者的损失函数的方式，其表达如下所示：

在公式（6）中，

表示交叉熵损失函数，

为超参数，选择的值为0.5。

上述基于变换器模型和卷积神经网络的图像场景分类方法中，使用了Transformer结构用以在场景图像底层建立全局要素之间的相互联系，有效地弥补了卷积神经网络在场景图像特征提取上的不足，使得网络可以从一开始就关注场景中的重点区域，从而提升了场景分类的效果。将深度卷积特征作为Transformer的额外输入，旨在引导Encoder将关注重点放在可以与深度特征形成良好补充的区域，并且从另一方面建立了网络底层和高层之间的联系，从而使得模型表达更加全面充分。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种基于变换器模型和卷积神经网络的图像场景分类装置，包括：图像样本获取模块200、特征提取模块210、嵌入操作模块220、图词转换模块230、预测分类模块240、场景分类模型得到模块250和图像场景分类模块260，其中：

图像样本获取模块200，用于获取图像样本；

特征提取模块210，用于对所述图像样本进行预处理得到标准化图像样本，分别通过所述场景卷积神经网络以及对象卷积神经网络对所述标准化图像样本进行特征提取，相应得到场景特征以及对象特征；

嵌入操作模块220，用于对所述图像样本进行嵌入操作，得到与所述图像样本相关的嵌入图像；

图词转换模块230，用于对所述场景特征、对象特征以及嵌入图像分别进行图词转换，相应得到场景图词、对象图词以及图像图词；

预测分类模块240，用于将所述场景图词、对象图词以及图像图词输入所述变换器模型得到分类图词，将所述分类图词通过线性全连接分类层得到预测场景分类；

场景分类模型得到模块250，用于根据所述场景特征、对象特征以及预测场景分类构建全局混合损失函数，根据所述全局混合损失函数对所述场景分类模型进行反向传播和梯度更新，以得到完成训练的场景分类模型；

图像场景分类模块260，用于获取待进行场景分类的图像输入所述完成训练的场景分类模型，得到场景分类结果。

关于基于变换器模型和卷积神经网络的图像场景分类装置的具体限定可以参见上文中对于基于变换器模型和卷积神经网络的图像场景分类方法的限定，在此不再赘述。上述基于变换器模型和卷积神经网络的图像场景分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于变换器模型和卷积神经网络的图像场景分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取图像样本；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取图像样本；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.基于变换器模型和卷积神经网络的图像场景分类方法，其特征在于，所述方法包括：

获取图像样本；

2.根据权利要求1所述的图像场景分类方法，其特征在于，所述对所述图像样本进行预处理得到标准化图像样本包括：

对所述图像样本采用双线性插值调整至预设尺寸；

3.根据权利要求1所述的图像场景分类方法，其特征在于，所述场景卷积神经网络以及对象卷积神经网络均以紧密网络116为基础进行构建。

4.根据权利要求1所述的图像场景分类方法，其特征在于，在对所述嵌入图像进行图词转换后，还采用位置编码的方式对初步生成的图像图词进行空间信息补充，得到所述图像图词。

5.根据权利要求4所述的图像场景分类方法，其特征在于，将所述场景图词、对象图词以及图像图词输入所述变换器模型得到分类图词之前，还包括：

6.根据权利要求1-5任一项所述的图像场景分类方法，其特征在于，所述变换器模型包括12层依次连接的编码单元以及12层依次连接的解码单元，其中最后一层编码单元的输出与各层解码单元连接；

7.根据权利要求6所述的图像场景分类方法，其特征在于，所述将所述场景图词、对象图词以及图像图词输入所述变换器模型得到分类图词包括：

在编码单元中：

在解码单元中：

8.根据权利要求7所述的图像场景分类方法，其特征在于，在输入所述解码单元之前，还对所述场景图词以及对象图词在第一个维度上进行拼接，得到组合图词，将所述组合图词输入所述解码单元。

9.根据权利要求1所述的图像场景分类方法，其特征在于，所述根据所述场景特征、对象特征以及预测场景分类构建全局混合损失函数包括：