CN113822232B

CN113822232B - 一种基于金字塔注意力的场景识别方法、训练方法及装置

Info

Publication number: CN113822232B
Application number: CN202111372903.9A
Authority: CN
Inventors: 杨铀; 熊若非; 刘琼
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-08
Anticipated expiration: 2041-11-19
Also published as: US11514660B1; CN113822232A

Abstract

本发明公开了一种基于金字塔注意力的场景识别方法、训练方法及装置，属于计算机视觉领域。方法包括：对彩色特征图和深度特征图分别进行金字塔分层，并基于注意力机制计算得到各层对应的注意力图以及注意力的输出；将最后一层的注意力的输出作为最后一层的最终特征图，其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图；对各层中每一层对应的注意力图和最终特征图分别进行尺度变换，以两个新注意力图的平均值作为最终注意力图，并映射最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征；融合全局特征以及各层局部特征后，能够提高场景识别的准确度。

Description

一种基于金字塔注意力的场景识别方法、训练方法及装置

技术领域

本发明属于计算机视觉领域，更具体地，涉及一种基于金字塔注意力的场景识别方法、训练方法及装置。

背景技术

室内场景通常包含众多的物体，空间布局多样化，所以获取鲁棒的室内场景表达是一件困难的事情。另外，Depth图可以提供空间布局以及几何位置方面的信息，RGBD场景识别在近几年快速发展。然而，全局特征不足以表示复杂的室内场景。另外，使用基于局部物体的特征来表示场景避免了某些场景中的噪声信息，并且单独使用局部或全局特征会导致识别性能欠佳。同时，并非所有物体都有助于场景识别，这就要求我们设计的模型能够自适应地选择对场景识别关键的特征。此外，两种模态之间的语义鸿沟也是一个不容忽视的方面，如何有效实现多模态融合仍需我们努力探索。

在中国专利CN113408590A中公开了一种基于图卷积网络的场景识别方法、训练方法、装置、电子设备及程序产品。这种方法在提取两种模态图像全局特征的基础上，首先利用空间注意力机制提取彩色图和深度图中重要的局部特征，并利用图卷积网络对两种模态图像的局部特征进行聚合和更新，以减小两种模态之间的语义差距，进而提高场景识别的准确度。

但该方法只考虑了单一尺度的局部特征，不适用于物体种类繁多以及布局多样化的室内场景。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于金字塔注意力的场景识别方法、训练方法、装置、电子设备及计算机可读存储介质，旨在解决现有技术中单一尺度的局部特征不足以表达复杂的室内场景的技术问题。

为实现上述目的，第一方面，本发明提供了一种基于金字塔注意力的场景识别方法，包括：

获取待识别场景的彩色图像与深度图像，并分别进行特征提取，获得对应的彩色特征图与深度特征图；对所述彩色特征图和深度特征图分别进行特征变换，获得对应的彩色全局特征与深度全局特征；对所述彩色特征图和深度特征图分别进行金字塔分层，并基于注意力机制计算得到各层对应的注意力图以及注意力的输出；将最后一层的注意力的输出作为所述最后一层的最终特征图，其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图；对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换，得到两个新注意力图；以所述两个新注意力图的平均值作为最终注意力图，并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征；对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合，得到待识别场景的多模态特征，并基于所述多模态特征进行场景识别。

进一步地，所述对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换，得到两个新注意力图，包括：对所述各层中每一层对应的注意力图，进行沿列方向求和以及reshape操作，得到一个新的注意力图；对所述各层中每一层对应的最终特征图，进行二维卷积操作，得到另一个新的注意力图。

进一步地，所述对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合，得到待识别场景的多模态特征，包括：利用GCN算法对各层的局部特征进行基于语义的特征融合，得到最终局部特征；对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合，得到待识别场景的多模态特征。

进一步地，所述利用GCN算法对各层的局部特征进行基于语义的特征融合，得到最终局部特征，包括：基于彩色特征图各层的局部特征与深度特征图各层的局部特征，分别构建彩色图结构与深度图结构，其中，所述彩色图结构用于表示彩色图像中各物体节点之间的位置关联关系，深度图结构用于表示深度图像中各物体节点之间的位置关联关系；根据彩色图结构中的节点的特征，采用稀疏连接对彩色图结构中各层的节点进行连接，通过GCN算法的聚合和更新操作得到第一局部特征；根据深度图结构中的节点的特征，采用稀疏连接对深度图结构中各层的节点进行连接，通过GCN算法的聚合和更新操作得到第二局部特征；根据彩色图结构中的节点的特征以及深度图结构中的节点的特征，采用稀疏连接对彩色图结构中各层的节点与深度图结构中对应层的节点进行连接，通过GCN算法的聚合和更新操作得到第三局部特征；将所述第一局部特征、第二局部特征与第三局部特征进行级联处理以及特征变换，得到最终局部特征。

第二方面，本发明提供了一种场景识别模型的训练方法，包括：

获取训练数据集，所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签；利用所述训练数据集对预设的场景识别模型进行训练，得到训练后的场景识别模型，所述训练后的场景识别模型用于根据第一方面任一项所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。

进一步地，所述利用所述训练数据集对预设的场景识别模型进行训练，包括：将所述彩色训练图像、深度训练图像输入至预设的场景识别模型，以使所述预设的场景识别模型对所述彩色训练图像、深度训练图像分别进行特征提取，获得彩色训练图像对应的彩色全局训练特征、深度训练图像对应的深度全局训练特征以及各层的局部训练特征；以及，对所述彩色全局训练特征、深度全局训练特征以及各层的局部训练特征进行融合，得到训练场景的多模态训练特征；基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理，直至完成训练。

第三方面，本发明提供了一种基于金字塔注意力的场景识别装置，包括：

第一图像获取模块，用于获取待识别场景的彩色图像与深度图像，并分别进行特征提取，获得对应的彩色特征图与深度特征图；全局特征获取模块，用于对所述彩色特征图和深度特征图分别进行特征变换，获得对应的彩色全局特征与深度全局特征；局部特征获取模块，用于对所述彩色特征图和深度特征图分别进行金字塔分层，并基于注意力机制计算得到各层对应的注意力图以及注意力的输出；将最后一层的注意力的输出作为所述最后一层的最终特征图，其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图；对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换，得到两个新注意力图；以所述两个新注意力图的平均值作为最终注意力图，并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征；融合与识别模块，用于对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合，得到待识别场景的多模态特征，并基于所述多模态特征进行场景识别。

第四方面，本发明提供了一种场景识别模型的训练装置，包括：

第二图像获取模块，用于获取训练数据集，所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签；训练模块，用于利用所述训练数据集对预设的场景识别模型进行训练，得到训练后的场景识别模型，所述训练后的场景识别模型用于根据第一方面任一项所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。

第五方面，本发明提供一种电子设备，包括：存储器和至少一个处理器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的场景识别方法，或，执行如第二方面任一项所述的场景识别模型的训练方法。

第六方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的场景识别方法，或，执行如第二方面任一项所述的场景识别模型的训练方法。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

本发明在提取待识别场景的彩色图像与深度图像的特征后，通过对彩色特征图和深度特征图分别进行金字塔分层，并基于注意力机制计算得到各层对应的注意力图以及注意力的输出；将最后一层的注意力的输出作为最后一层的最终特征图，其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图；接着，对各层中每一层对应的注意力图和最终特征图分别进行尺度变换，得到两个新注意力图；以两个新注意力图的平均值作为最终注意力图，并映射最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征；进一步融合各层的局部特征得到最终局部特征。相较于现有获取局部特征的方法，本发明能够提取具有长期依赖的局部特征，更能表达复杂的室内场景，因而在融合全局特征以及局部特征后，能够提高场景识别的准确度。

附图说明

图1为本发明实施例提供的一种基于金字塔注意力的场景识别方法的流程示意图。

图2为本发明实施例提供的计算各层的最终特征图的流程示意图。

图3为本发明实施例提供的融合各层的局部特征的流程示意图。

图4为本发明实施例提供的一种场景识别模型的训练方法的流程示意图。

图5为本发明实施例提供的一种基于金字塔注意力的场景识别装置的结构框图。

图6为本发明实施例提供的一种场景识别模型的训练装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例一

参阅图1，本发明实施例提供了一种基于金字塔注意力的场景识别方法，包括：

S101，获取待识别场景的彩色图像与深度图像，并分别进行特征提取，获得对应的彩色特征图与深度特征图。

本实施例中，特征提取算法可以为ResNet101算法、VGG算法或AlexNet算法等。通过上述特征提取算法，可获得对应的彩色特征图与深度特征图。

S102，对所述彩色特征图和深度特征图分别进行特征变换，获得对应的彩色全局特征与深度全局特征。

本实施例中，利用预设的特征提取网络的两层全连接层分别对彩色特征图和深度特征图进行特征变换，可以获得对应的彩色全局特征与深度全局特征。

S103，对所述彩色特征图和深度特征图分别进行金字塔分层，并基于注意力机制计算得到各层对应的注意力图以及注意力的输出；将最后一层的注意力的输出作为所述最后一层的最终特征图，其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图。

需要说明的是，金字塔的层数可以按照实际的实验效果来选择，选择层数太少，则不足以表达多层次的特征，选择层次太多又会带来更多的计算量，在本实施例中，选择通用的金字塔层数为3层。另外，在本发明中，以Transformer作为一种捕获非局部依赖的注意力机制，也可以替换为其他注意力机制。

以

和

分别表示RGB和depth两种模态最后一层特征图，其尺寸大小为(B,C,H,W)，B表示训练时批次的大小，C表示通道的数量，H和W分别表示特征的高度和宽度。以RGB图为例，如图2所示，我们以

和

作为金字塔

尺度和

尺度的特征，使用二维卷积去计算Transformer结构中的Q,K,V，可以获得注意力图：

其中，T表示转置操作，softmax激活函数用于正则化计算出的注意力图。

最终的自注意的输出

可以通过下面公式计算：

由于低分辨率的特征图中通常包含更多的语义信息，而高分辨率的特征图中空间信息比较丰富，二者可以互补。因此融合不同尺度的特征更有助于后续关键特征的选择。

在获得各层对应的注意力图以及注意力的输出后，将最后一层的注意力的输出作为最后一层的最终特征图，其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图。如图2所示，将上一层的最终特征图

上采样之后的结果与本层的注意力的输出

相加后作为本层的最终特征图

：

其中，

表示上采样操作。

S104，对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换，得到两个新注意力图；以所述两个新注意力图的平均值作为最终注意力图，并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征。

本实施例中，由于场景中没有准确的关键特征的标签信息，所以很难直接训练网络模型以找到关键的特征。即使利用注意力机制，在没有相关约束的情况下也很难在复杂的室内场景中获取有效的特征。为了确保节点选择的有效性，对各层中每一层对应的注意力图和最终特征图分别进行尺度变换，得到两个新注意力图

和

：

其中，Re和Sum分别表示reshape操作和沿着列方向求和，

表示二维卷积操作，m表示金字塔的层数，在训练过程中强制两个注意力图相似的空间位置，我们在金字塔尺度i上可以得到有效的关键特征表示。

最后，以两个新注意力图

和

的平均值作为最终注意力图，并映射最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征。

S105，对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合，得到待识别场景的多模态特征，并基于所述多模态特征进行场景识别。

进一步地，先利用GCN算法对各层的局部特征进行基于语义的特征融合，得到最终局部特征；再对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合，得到待识别场景的多模态特征。

更进一步地，基于彩色特征图各层的局部特征与深度特征图各层的局部特征，分别构建彩色图结构与深度图结构，其中，所述彩色图结构用于表示彩色图像中各物体节点之间的位置关联关系，深度图结构用于表示深度图像中各物体节点之间的位置关联关系；根据彩色图结构中的节点的特征，采用稀疏连接对彩色图结构中各层的节点进行连接，通过GCN算法的聚合和更新操作得到第一局部特征；根据深度图结构中的节点的特征，采用稀疏连接对深度图结构中各层的节点进行连接，通过GCN算法的聚合和更新操作得到第二局部特征；根据彩色图结构中的节点的特征以及深度图结构中的节点的特征，采用稀疏连接对彩色图结构中各层的节点与深度图结构中对应层的节点进行连接，通过GCN算法的聚合和更新操作得到第三局部特征；将所述第一局部特征、第二局部特征与第三局部特征进行级联处理以及特征变换，得到最终局部特征。

示例性的，为了在选择特征的基础上有效融合两个模态的互补信息，一个分层图模型G=(V,E)被构建用来表示室内场景。其中，V表示上述选择的局部特征，E表示节点之间的连接。V可以分为两类：2D彩色图节点V _r和3D的深度图节点V _d。另外E包含三部分：单模态单尺度之间的连接，多模态单尺度之间的连接以及单模态多尺度之间的连接。

单模态单尺度图连接：首先考虑单模态单尺度图模型的构建。每个节点对场景识别任务的贡献不相同，应在图建模中进行区分处理。在我们的图模型中，每个节点的重要性由其在注意力图中的值表示，其中较大的值意味着对场景识别的贡献越大。此外，图中的节点表示为通道方向的高维特征图向量，有助于表示场景中的关键特征。具体来说，我们通过上一步的节点选择得到形状为(B,k,C)的张量，记为

，其中m表示第m个尺度。以m=1为例，我们设置k=16，包括1个主中心节点，3个次主中心节点和12个叶子节点。为了构建模态内连接，3个次主中心节点连接到主中心节点，其余的叶子节点通过欧氏距离连接到次主中心节点。

多模态单尺度图连接：即使在同一场景中，两种模态的局部特征也不同。换句话说，两种模态之间存在语义鸿沟。因此，两种模态之间的所选特征之间的稀疏连接比全连接更合适。在考虑RGB和深度模态的连接时，我们只连接相应的主中心节点

和

，次主中心

和

分别相连。其中

和

分别表示第i层的彩色图和深度图的第j个节点。

单模态多尺度图连接：为了利用多尺度的特点，我们还需要考虑图中不同尺度的联系。此外，考虑到节点在整个图上的特征的传播可以通过几次迭代完成，因此也使用稀疏连接来构建单模态多尺度图。以m=1和m=2为例，尺度1的节点只与尺度2对应的主中心和次主中心节点分别相连，即主中心节点

和

，子中心节点

和

分别相连，对于深度图像也是如此。

有效地结合多模态单尺度图和单模态多尺度图，我们得到最终的层次图。对于每个节点

和

，我们通过聚合其邻居的特征来学习其更新的表示。最后，将更新后的特征融合在一起以生成用于RGB-D场景识别的最终局部表示。以金字塔层数为3为例，分层图模型的构建如图3所示。

在获得最终局部特征后，将对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合，得到待识别场景的多模态特征；对所述待识别场景的多模态特征进行场景识别，得到所述待识别场景的识别结果。

实施例二

参阅图4，本发明实施例提供的一种场景识别模型的训练方法的流程示意图，包括：

S401，获取训练数据集，所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签；

S402，利用所述训练数据集对预设的场景识别模型进行训练，得到训练后的场景识别模型，所述训练后的场景识别模型用于根据实施例一所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。

本实施例中，训练数据集可以为SUN RGBD数据集或NYU Depth v2数据集等。训练数据集中包括若干组训练场景，每组训练场景中包括若干个训练场景，每个训练场景有其对应的彩色训练图像、深度训练图像以及场景类别标签。

进一步地，利用所述训练数据集对预设的场景识别模型进行训练，包括：将所述彩色训练图像、深度训练图像输入至预设的场景识别模型，以使所述预设的场景识别模型对所述彩色训练图像、深度训练图像分别进行特征提取，获得彩色训练图像对应的彩色全局训练特征、深度训练图像对应的深度全局训练特征以及各层的局部训练特征；以及，对所述彩色全局训练特征、深度全局训练特征以及各层的局部训练特征进行融合，得到训练场景的多模态训练特征；基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理，直至完成训练。

具体的，不仅仅两种模态的特征是互补的，全局特征和局部特征对于场景识别也是互补的。如上述所述，

和

分别表示RGB和depth两种模态最后一层特征图。全局特征

和

是通过将

和

通过一个全连接层分别获得，同时两个交叉熵损失函数分别用于全局特征的学习。另外，通过分层图模型学习到的局部特征可以表示为

。进一步，局部特征

与全局特征

和

级联为

共同用于最终的场景识别：

其中，Cat表示级联操作。

最后，最终场景识别的结果可以通过一个额外的交叉熵损失函数来预测，总体的损失包含三部分：1）全局特征的损失

和

；2）最终的分类损失

；3）相似性损失

，总体的损失

可以通过下方公式来计算：

其中，

，

，

的计算方式与

相同。

需要注意的是，在测试阶段，我们仅使用

进行最终的场景识别任务。

实施例三

参阅图5，本发明提供了本发明实施例提供的一种基于金字塔注意力的场景识别装置500，所述装置500包括：

第一图像获取模块510，用于获取待识别场景的彩色图像与深度图像，并分别进行特征提取，获得对应的彩色特征图与深度特征图；

全局特征获取模块520，用于对所述彩色特征图和深度特征图分别进行特征变换，获得对应的彩色全局特征与深度全局特征；

局部特征获取模块530，用于对所述彩色特征图和深度特征图分别进行金字塔分层，并基于注意力机制计算得到各层对应的注意力图以及注意力的输出；将最后一层的注意力的输出作为所述最后一层的最终特征图，其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图；对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换，得到两个新注意力图；以所述两个新注意力图的平均值作为最终注意力图，并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征；

融合与识别模块540，用于对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合，得到待识别场景的多模态特征，并基于所述多模态特征进行场景识别。

本实施例中，各模块的具体实施方式，请参考实施例一中的描述，在此将不作复述。

实施例四

参阅图6，本发明实施例提供的一种场景识别模型的训练装置600，所述装置600包括：

第二图像获取模块610，用于获取训练数据集，所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签；

训练模块620，用于利用所述训练数据集对预设的场景识别模型进行训练，得到训练后的场景识别模型，所述训练后的场景识别模型用于根据实施例一所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。

本实施例中，各模块的具体实施方式，请参考实施例二中的描述，在此将不作复述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于金字塔注意力的场景识别方法，其特征在于，包括：

获取待识别场景的彩色图像与深度图像，并分别进行特征提取，获得对应的彩色特征图与深度特征图；

对所述彩色特征图和深度特征图分别进行特征变换，获得对应的彩色全局特征与深度全局特征；

对所述彩色特征图和深度特征图分别进行金字塔分层，并基于注意力机制计算得到各层对应的注意力图以及注意力的输出；将最后一层的注意力的输出作为所述最后一层的最终特征图，其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图；

对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换，得到两个新注意力图；以所述两个新注意力图的平均值作为最终注意力图，并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征；

对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合，得到待识别场景的多模态特征，并基于所述多模态特征进行场景识别。

2.根据权利要求1所述的方法，其特征在于，所述对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换，得到两个新注意力图，包括：

对所述各层中每一层对应的注意力图，进行沿列方向求和以及reshape操作，得到一个新的注意力图；

对所述各层中每一层对应的最终特征图，进行二维卷积操作，得到另一个新的注意力图。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合，得到待识别场景的多模态特征，包括：

利用GCN算法对各层的局部特征进行基于语义的特征融合，得到最终局部特征；

对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合，得到待识别场景的多模态特征。

4.根据权利要求3所述的方法，其特征在于，所述利用GCN算法对各层的局部特征进行基于语义的特征融合，得到最终局部特征，包括：

基于彩色特征图各层的局部特征与深度特征图各层的局部特征，分别构建彩色图结构与深度图结构，其中，所述彩色图结构用于表示彩色图像中各物体节点之间的位置关联关系，深度图结构用于表示深度图像中各物体节点之间的位置关联关系；

根据彩色图结构中的节点的特征，采用稀疏连接对彩色图结构中各层的节点进行连接，通过GCN算法的聚合和更新操作得到第一局部特征；

根据深度图结构中的节点的特征，采用稀疏连接对深度图结构中各层的节点进行连接，通过GCN算法的聚合和更新操作得到第二局部特征；

根据彩色图结构中的节点的特征以及深度图结构中的节点的特征，采用稀疏连接对彩色图结构中各层的节点与深度图结构中对应层的节点进行连接，通过GCN算法的聚合和更新操作得到第三局部特征；

将所述第一局部特征、第二局部特征与第三局部特征进行级联处理以及特征变换，得到最终局部特征。

5.一种基于金字塔注意力的场景识别装置，其特征在于，包括：

第一图像获取模块，用于获取待识别场景的彩色图像与深度图像，并分别进行特征提取，获得对应的彩色特征图与深度特征图；

全局特征获取模块，用于对所述彩色特征图和深度特征图分别进行特征变换，获得对应的彩色全局特征与深度全局特征；

局部特征获取模块，用于对所述彩色特征图和深度特征图分别进行金字塔分层，并基于注意力机制计算得到各层对应的注意力图以及注意力的输出；将最后一层的注意力的输出作为所述最后一层的最终特征图，其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图；对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换，得到两个新注意力图；以所述两个新注意力图的平均值作为最终注意力图，并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征；

融合与识别模块，用于对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合，得到待识别场景的多模态特征，并基于所述多模态特征进行场景识别。

6.一种电子设备，其特征在于，包括：存储器和至少一个处理器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1-4任一项所述的方法。