CN113822232B - 一种基于金字塔注意力的场景识别方法、训练方法及装置 - Google Patents

一种基于金字塔注意力的场景识别方法、训练方法及装置 Download PDF

Info

Publication number
CN113822232B
CN113822232B CN202111372903.9A CN202111372903A CN113822232B CN 113822232 B CN113822232 B CN 113822232B CN 202111372903 A CN202111372903 A CN 202111372903A CN 113822232 B CN113822232 B CN 113822232B
Authority
CN
China
Prior art keywords
attention
layer
final
depth
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111372903.9A
Other languages
English (en)
Other versions
CN113822232A (zh
Inventor
杨铀
熊若非
刘琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202111372903.9A priority Critical patent/CN113822232B/zh
Publication of CN113822232A publication Critical patent/CN113822232A/zh
Application granted granted Critical
Publication of CN113822232B publication Critical patent/CN113822232B/zh
Priority to US17/835,361 priority patent/US11514660B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于金字塔注意力的场景识别方法、训练方法及装置,属于计算机视觉领域。方法包括:对彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;对各层中每一层对应的注意力图和最终特征图分别进行尺度变换,以两个新注意力图的平均值作为最终注意力图,并映射最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;融合全局特征以及各层局部特征后,能够提高场景识别的准确度。

Description

一种基于金字塔注意力的场景识别方法、训练方法及装置
技术领域
本发明属于计算机视觉领域,更具体地,涉及一种基于金字塔注意力的场景识别方法、训练方法及装置。
背景技术
室内场景通常包含众多的物体,空间布局多样化,所以获取鲁棒的室内场景表达是一件困难的事情。另外,Depth图可以提供空间布局以及几何位置方面的信息,RGBD场景识别在近几年快速发展。然而,全局特征不足以表示复杂的室内场景。另外,使用基于局部物体的特征来表示场景避免了某些场景中的噪声信息,并且单独使用局部或全局特征会导致识别性能欠佳。同时,并非所有物体都有助于场景识别,这就要求我们设计的模型能够自适应地选择对场景识别关键的特征。此外,两种模态之间的语义鸿沟也是一个不容忽视的方面,如何有效实现多模态融合仍需我们努力探索。
在中国专利CN113408590A中公开了一种基于图卷积网络的场景识别方法、训练方法、装置、电子设备及程序产品。这种方法在提取两种模态图像全局特征的基础上,首先利用空间注意力机制提取彩色图和深度图中重要的局部特征,并利用图卷积网络对两种模态图像的局部特征进行聚合和更新,以减小两种模态之间的语义差距,进而提高场景识别的准确度。
但该方法只考虑了单一尺度的局部特征,不适用于物体种类繁多以及布局多样化的室内场景。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于金字塔注意力的场景识别方法、训练方法、装置、电子设备及计算机可读存储介质,旨在解决现有技术中单一尺度的局部特征不足以表达复杂的室内场景的技术问题。
为实现上述目的,第一方面,本发明提供了一种基于金字塔注意力的场景识别方法,包括:
获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图;对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征;对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
进一步地,所述对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图,包括:对所述各层中每一层对应的注意力图,进行沿列方向求和以及reshape操作,得到一个新的注意力图;对所述各层中每一层对应的最终特征图,进行二维卷积操作,得到另一个新的注意力图。
进一步地,所述对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,包括:利用GCN算法对各层的局部特征进行基于语义的特征融合,得到最终局部特征;对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合,得到待识别场景的多模态特征。
进一步地,所述利用GCN算法对各层的局部特征进行基于语义的特征融合,得到最终局部特征,包括:基于彩色特征图各层的局部特征与深度特征图各层的局部特征,分别构建彩色图结构与深度图结构,其中,所述彩色图结构用于表示彩色图像中各物体节点之间的位置关联关系,深度图结构用于表示深度图像中各物体节点之间的位置关联关系;根据彩色图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第一局部特征;根据深度图结构中的节点的特征,采用稀疏连接对深度图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第二局部特征;根据彩色图结构中的节点的特征以及深度图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点与深度图结构中对应层的节点进行连接,通过GCN算法的聚合和更新操作得到第三局部特征;将所述第一局部特征、第二局部特征与第三局部特征进行级联处理以及特征变换,得到最终局部特征。
第二方面,本发明提供了一种场景识别模型的训练方法,包括:
获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签;利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型,所述训练后的场景识别模型用于根据第一方面任一项所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。
进一步地,所述利用所述训练数据集对预设的场景识别模型进行训练,包括:将所述彩色训练图像、深度训练图像输入至预设的场景识别模型,以使所述预设的场景识别模型对所述彩色训练图像、深度训练图像分别进行特征提取,获得彩色训练图像对应的彩色全局训练特征、深度训练图像对应的深度全局训练特征以及各层的局部训练特征;以及,对所述彩色全局训练特征、深度全局训练特征以及各层的局部训练特征进行融合,得到训练场景的多模态训练特征;基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理,直至完成训练。
第三方面,本发明提供了一种基于金字塔注意力的场景识别装置,包括:
第一图像获取模块,用于获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图;全局特征获取模块,用于对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征;局部特征获取模块,用于对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;融合与识别模块,用于对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
第四方面,本发明提供了一种场景识别模型的训练装置,包括:
第二图像获取模块,用于获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签;训练模块,用于利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型,所述训练后的场景识别模型用于根据第一方面任一项所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。
第五方面,本发明提供一种电子设备,包括:存储器和至少一个处理器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的场景识别方法,或,执行如第二方面任一项所述的场景识别模型的训练方法。
第六方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的场景识别方法,或,执行如第二方面任一项所述的场景识别模型的训练方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
本发明在提取待识别场景的彩色图像与深度图像的特征后,通过对彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;接着,对各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以两个新注意力图的平均值作为最终注意力图,并映射最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;进一步融合各层的局部特征得到最终局部特征。相较于现有获取局部特征的方法,本发明能够提取具有长期依赖的局部特征,更能表达复杂的室内场景,因而在融合全局特征以及局部特征后,能够提高场景识别的准确度。
附图说明
图1为本发明实施例提供的一种基于金字塔注意力的场景识别方法的流程示意图。
图2为本发明实施例提供的计算各层的最终特征图的流程示意图。
图3为本发明实施例提供的融合各层的局部特征的流程示意图。
图4为本发明实施例提供的一种场景识别模型的训练方法的流程示意图。
图5为本发明实施例提供的一种基于金字塔注意力的场景识别装置的结构框图。
图6为本发明实施例提供的一种场景识别模型的训练装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例一
参阅图1,本发明实施例提供了一种基于金字塔注意力的场景识别方法,包括:
S101,获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图。
本实施例中,特征提取算法可以为ResNet101算法、VGG算法或AlexNet算法等。通过上述特征提取算法,可获得对应的彩色特征图与深度特征图。
S102,对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征。
本实施例中,利用预设的特征提取网络的两层全连接层分别对彩色特征图和深度特征图进行特征变换,可以获得对应的彩色全局特征与深度全局特征。
S103,对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图。
需要说明的是,金字塔的层数可以按照实际的实验效果来选择,选择层数太少,则不足以表达多层次的特征,选择层次太多又会带来更多的计算量,在本实施例中,选择通用的金字塔层数为3层。另外,在本发明中,以Transformer作为一种捕获非局部依赖的注意力机制,也可以替换为其他注意力机制。
Figure 208325DEST_PATH_IMAGE001
Figure 420738DEST_PATH_IMAGE002
分别表示RGB和depth两种模态最后一层特征图,其尺寸大小为(B,C,H,W),B表示训练时批次的大小,C表示通道的数量,HW分别表示特征的高度和宽度。以RGB图为例,如图2所示,我们以
Figure 528371DEST_PATH_IMAGE003
Figure 985897DEST_PATH_IMAGE004
作为金字塔
Figure 862586DEST_PATH_IMAGE005
尺度和
Figure 514410DEST_PATH_IMAGE006
尺度的特征,使用二维卷积去计算Transformer结构中的Q,K,V,可以获得注意力图:
Figure 984706DEST_PATH_IMAGE007
其中,T表示转置操作,softmax激活函数用于正则化计算出的注意力图。
最终的自注意的输出
Figure 245923DEST_PATH_IMAGE008
可以通过下面公式计算:
Figure 836173DEST_PATH_IMAGE009
由于低分辨率的特征图中通常包含更多的语义信息,而高分辨率的特征图中空间信息比较丰富,二者可以互补。因此融合不同尺度的特征更有助于后续关键特征的选择。
在获得各层对应的注意力图以及注意力的输出后,将最后一层的注意力的输出作为最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图。如图2所示,将上一层的最终特征图
Figure 32799DEST_PATH_IMAGE010
上采样之后的结果与本层的注意力的输出
Figure 613560DEST_PATH_IMAGE011
相加后作为本层的最终特征图
Figure 412888DEST_PATH_IMAGE012
Figure 998590DEST_PATH_IMAGE013
其中,
Figure 490752DEST_PATH_IMAGE014
表示上采样操作。
S104,对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征。
本实施例中,由于场景中没有准确的关键特征的标签信息,所以很难直接训练网络模型以找到关键的特征。即使利用注意力机制,在没有相关约束的情况下也很难在复杂的室内场景中获取有效的特征。为了确保节点选择的有效性,对各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图
Figure 561738DEST_PATH_IMAGE015
Figure 899179DEST_PATH_IMAGE016
Figure 604966DEST_PATH_IMAGE017
Figure 2450DEST_PATH_IMAGE018
其中,ReSum分别表示reshape操作和沿着列方向求和,
Figure 557802DEST_PATH_IMAGE019
表示二维卷积操作,m表示金字塔的层数,在训练过程中强制两个注意力图相似的空间位置,我们在金字塔尺度i上可以得到有效的关键特征表示。
最后,以两个新注意力图
Figure 698934DEST_PATH_IMAGE020
Figure 400174DEST_PATH_IMAGE021
的平均值作为最终注意力图,并映射最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征。
S105,对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
进一步地,先利用GCN算法对各层的局部特征进行基于语义的特征融合,得到最终局部特征;再对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合,得到待识别场景的多模态特征。
更进一步地,基于彩色特征图各层的局部特征与深度特征图各层的局部特征,分别构建彩色图结构与深度图结构,其中,所述彩色图结构用于表示彩色图像中各物体节点之间的位置关联关系,深度图结构用于表示深度图像中各物体节点之间的位置关联关系;根据彩色图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第一局部特征;根据深度图结构中的节点的特征,采用稀疏连接对深度图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第二局部特征;根据彩色图结构中的节点的特征以及深度图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点与深度图结构中对应层的节点进行连接,通过GCN算法的聚合和更新操作得到第三局部特征;将所述第一局部特征、第二局部特征与第三局部特征进行级联处理以及特征变换,得到最终局部特征。
示例性的,为了在选择特征的基础上有效融合两个模态的互补信息,一个分层图模型G=(V,E)被构建用来表示室内场景。其中,V表示上述选择的局部特征,E表示节点之间的连接。V可以分为两类:2D彩色图节点V r 和3D的深度图节点V d 。另外E包含三部分:单模态单尺度之间的连接,多模态单尺度之间的连接以及单模态多尺度之间的连接。
单模态单尺度图连接:首先考虑单模态单尺度图模型的构建。每个节点对场景识别任务的贡献不相同,应在图建模中进行区分处理。在我们的图模型中,每个节点的重要性由其在注意力图中的值表示,其中较大的值意味着对场景识别的贡献越大。此外,图中的节点表示为通道方向的高维特征图向量,有助于表示场景中的关键特征。具体来说,我们通过上一步的节点选择得到形状为(B,k,C)的张量,记为
Figure 499717DEST_PATH_IMAGE022
,其中m表示第m个尺度。以m=1为例,我们设置k=16,包括1个主中心节点,3个次主中心节点和12个叶子节点。为了构建模态内连接,3个次主中心节点连接到主中心节点,其余的叶子节点通过欧氏距离连接到次主中心节点。
多模态单尺度图连接:即使在同一场景中,两种模态的局部特征也不同。换句话说,两种模态之间存在语义鸿沟。因此,两种模态之间的所选特征之间的稀疏连接比全连接更合适。在考虑RGB和深度模态的连接时,我们只连接相应的主中心节点
Figure 778251DEST_PATH_IMAGE023
Figure 129598DEST_PATH_IMAGE024
,次主中心
Figure 45864DEST_PATH_IMAGE025
Figure 316308DEST_PATH_IMAGE026
分别相连。其中
Figure 347718DEST_PATH_IMAGE027
Figure 237177DEST_PATH_IMAGE028
分别表示第i层的彩色图和深度图的第j个节点。
单模态多尺度图连接:为了利用多尺度的特点,我们还需要考虑图中不同尺度的联系。此外,考虑到节点在整个图上的特征的传播可以通过几次迭代完成,因此也使用稀疏连接来构建单模态多尺度图。以m=1和m=2为例,尺度1的节点只与尺度2对应的主中心和次主中心节点分别相连,即主中心节点
Figure 37642DEST_PATH_IMAGE029
Figure 619933DEST_PATH_IMAGE030
,子中心节点
Figure 371595DEST_PATH_IMAGE031
Figure 923800DEST_PATH_IMAGE032
分别相连,对于深度图像也是如此。
有效地结合多模态单尺度图和单模态多尺度图,我们得到最终的层次图。对于每个节点
Figure 454138DEST_PATH_IMAGE033
Figure 331964DEST_PATH_IMAGE034
,我们通过聚合其邻居的特征来学习其更新的表示。最后,将更新后的特征融合在一起以生成用于RGB-D场景识别的最终局部表示。以金字塔层数为3为例,分层图模型的构建如图3所示。
在获得最终局部特征后,将对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合,得到待识别场景的多模态特征;对所述待识别场景的多模态特征进行场景识别,得到所述待识别场景的识别结果。
实施例二
参阅图4,本发明实施例提供的一种场景识别模型的训练方法的流程示意图,包括:
S401,获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签;
S402,利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型,所述训练后的场景识别模型用于根据实施例一所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。
本实施例中,训练数据集可以为SUN RGBD数据集或NYU Depth v2数据集等。训练数据集中包括若干组训练场景,每组训练场景中包括若干个训练场景,每个训练场景有其对应的彩色训练图像、深度训练图像以及场景类别标签。
进一步地,利用所述训练数据集对预设的场景识别模型进行训练,包括:将所述彩色训练图像、深度训练图像输入至预设的场景识别模型,以使所述预设的场景识别模型对所述彩色训练图像、深度训练图像分别进行特征提取,获得彩色训练图像对应的彩色全局训练特征、深度训练图像对应的深度全局训练特征以及各层的局部训练特征;以及,对所述彩色全局训练特征、深度全局训练特征以及各层的局部训练特征进行融合,得到训练场景的多模态训练特征;基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理,直至完成训练。
具体的,不仅仅两种模态的特征是互补的,全局特征和局部特征对于场景识别也是互补的。如上述所述,
Figure 72387DEST_PATH_IMAGE035
Figure 303648DEST_PATH_IMAGE036
分别表示RGB和depth两种模态最后一层特征图。全局特征
Figure 580171DEST_PATH_IMAGE037
Figure 238685DEST_PATH_IMAGE038
是通过将
Figure 466404DEST_PATH_IMAGE039
Figure 360411DEST_PATH_IMAGE040
通过一个全连接层分别获得,同时两个交叉熵损失函数分别用于全局特征的学习。另外,通过分层图模型学习到的局部特征可以表示为
Figure 130921DEST_PATH_IMAGE041
。进一步,局部特征
Figure 84971DEST_PATH_IMAGE042
与全局特征
Figure 321958DEST_PATH_IMAGE043
Figure 160601DEST_PATH_IMAGE044
级联为
Figure 379093DEST_PATH_IMAGE045
共同用于最终的场景识别:
Figure 644989DEST_PATH_IMAGE046
其中,Cat表示级联操作。
最后,最终场景识别的结果可以通过一个额外的交叉熵损失函数来预测,总体的损失包含三部分:1)全局特征的损失
Figure 581721DEST_PATH_IMAGE047
Figure 83110DEST_PATH_IMAGE048
;2)最终的分类损失
Figure 562633DEST_PATH_IMAGE049
;3)相似性损失
Figure 625529DEST_PATH_IMAGE050
,总体的损失
Figure 49557DEST_PATH_IMAGE051
可以通过下方公式来计算:
Figure 230003DEST_PATH_IMAGE052
其中,
Figure 423087DEST_PATH_IMAGE053
Figure 889840DEST_PATH_IMAGE054
Figure 942110DEST_PATH_IMAGE055
的计算方式与
Figure 18257DEST_PATH_IMAGE056
相同。
需要注意的是,在测试阶段,我们仅使用
Figure 331426DEST_PATH_IMAGE057
进行最终的场景识别任务。
实施例三
参阅图5,本发明提供了本发明实施例提供的一种基于金字塔注意力的场景识别装置500,所述装置500包括:
第一图像获取模块510,用于获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图;
全局特征获取模块520,用于对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征;
局部特征获取模块530,用于对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;
融合与识别模块540,用于对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
本实施例中,各模块的具体实施方式,请参考实施例一中的描述,在此将不作复述。
实施例四
参阅图6,本发明实施例提供的一种场景识别模型的训练装置600,所述装置600包括:
第二图像获取模块610,用于获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签;
训练模块620,用于利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型,所述训练后的场景识别模型用于根据实施例一所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。
本实施例中,各模块的具体实施方式,请参考实施例二中的描述,在此将不作复述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于金字塔注意力的场景识别方法,其特征在于,包括:
获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图;
对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征;
对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;
对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;
对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
2.根据权利要求1所述的方法,其特征在于,所述对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图,包括:
对所述各层中每一层对应的注意力图,进行沿列方向求和以及reshape操作,得到一个新的注意力图;
对所述各层中每一层对应的最终特征图,进行二维卷积操作,得到另一个新的注意力图。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,包括:
利用GCN算法对各层的局部特征进行基于语义的特征融合,得到最终局部特征;
对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合,得到待识别场景的多模态特征。
4.根据权利要求3所述的方法,其特征在于,所述利用GCN算法对各层的局部特征进行基于语义的特征融合,得到最终局部特征,包括:
基于彩色特征图各层的局部特征与深度特征图各层的局部特征,分别构建彩色图结构与深度图结构,其中,所述彩色图结构用于表示彩色图像中各物体节点之间的位置关联关系,深度图结构用于表示深度图像中各物体节点之间的位置关联关系;
根据彩色图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第一局部特征;
根据深度图结构中的节点的特征,采用稀疏连接对深度图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第二局部特征;
根据彩色图结构中的节点的特征以及深度图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点与深度图结构中对应层的节点进行连接,通过GCN算法的聚合和更新操作得到第三局部特征;
将所述第一局部特征、第二局部特征与第三局部特征进行级联处理以及特征变换,得到最终局部特征。
5.一种基于金字塔注意力的场景识别装置,其特征在于,包括:
第一图像获取模块,用于获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图;
全局特征获取模块,用于对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征;
局部特征获取模块,用于对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;
融合与识别模块,用于对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
6.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-4任一项所述的方法。
CN202111372903.9A 2021-11-19 2021-11-19 一种基于金字塔注意力的场景识别方法、训练方法及装置 Active CN113822232B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111372903.9A CN113822232B (zh) 2021-11-19 2021-11-19 一种基于金字塔注意力的场景识别方法、训练方法及装置
US17/835,361 US11514660B1 (en) 2021-11-19 2022-06-08 Scene recognition method, training method and device based on pyramid attention

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111372903.9A CN113822232B (zh) 2021-11-19 2021-11-19 一种基于金字塔注意力的场景识别方法、训练方法及装置

Publications (2)

Publication Number Publication Date
CN113822232A CN113822232A (zh) 2021-12-21
CN113822232B true CN113822232B (zh) 2022-02-08

Family

ID=78919297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111372903.9A Active CN113822232B (zh) 2021-11-19 2021-11-19 一种基于金字塔注意力的场景识别方法、训练方法及装置

Country Status (2)

Country Link
US (1) US11514660B1 (zh)
CN (1) CN113822232B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494276A (zh) * 2022-04-18 2022-05-13 成都理工大学 一种两阶段多模态三维实例分割方法
US11915474B2 (en) 2022-05-31 2024-02-27 International Business Machines Corporation Regional-to-local attention for vision transformers

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165407B1 (en) * 2006-10-06 2012-04-24 Hrl Laboratories, Llc Visual attention and object recognition system
CN103679718A (zh) * 2013-12-06 2014-03-26 河海大学 一种基于显著性的快速场景分析方法
CN110110578B (zh) * 2019-02-21 2023-09-29 北京工业大学 一种室内场景语义标注方法
CN111062386B (zh) * 2019-11-28 2023-12-29 大连交通大学 基于深度金字塔注意力和特征融合的自然场景文本检测方法
CN111680678B (zh) * 2020-05-25 2022-09-16 腾讯科技(深圳)有限公司 目标区域识别方法、装置、设备及可读存储介质
CN112784779A (zh) * 2021-01-28 2021-05-11 武汉大学 一种基于特征金字塔多级特征融合的遥感影像场景分类方法
CN113408590B (zh) * 2021-05-27 2022-07-15 华中科技大学 场景识别方法、训练方法、装置、电子设备及程序产品

Also Published As

Publication number Publication date
US11514660B1 (en) 2022-11-29
CN113822232A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
Wang et al. Attribute2font: Creating fonts you want from attributes
Wu et al. Automatic road extraction from high-resolution remote sensing images using a method based on densely connected spatial feature-enhanced pyramid
CN113822232B (zh) 一种基于金字塔注意力的场景识别方法、训练方法及装置
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN109492666A (zh) 图像识别模型训练方法、装置及存储介质
CN110853057B (zh) 基于全局和多尺度全卷积网络的航拍图像分割方法
CN111627065A (zh) 一种视觉定位方法及装置、存储介质
CN110728192A (zh) 一种基于新型特征金字塔深度网络的高分遥感图像分类方法
CN101477529B (zh) 一种三维对象的检索方法和装置
CN105930382A (zh) 一种用2d图片搜索3d模型的方法
Li et al. Joint semantic-geometric learning for polygonal building segmentation
CN114419304A (zh) 一种基于图神经网络的多模态文档信息抽取方法
CN114758337B (zh) 一种语义实例重建方法、装置、设备及介质
Luo et al. FloorplanGAN: Vector residential floorplan adversarial generation
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN114529757B (zh) 一种跨模态单样本三维点云分割方法
CN103049340A (zh) 基于纹理上下文约束的视觉词汇的图像超分辨率重建方法
CN112418235A (zh) 一种基于膨胀最近邻特征增强的点云语义分割方法
CN116912708A (zh) 一种基于深度学习的遥感影像建筑物提取方法
CN115690245A (zh) 一种基于属性驱动gan的文本生成图像的方法
CN115240079A (zh) 一种多源遥感影像深度特征融合匹配方法
KR102083786B1 (ko) 문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant