CN113822232B - 一种基于金字塔注意力的场景识别方法、训练方法及装置 - Google Patents
一种基于金字塔注意力的场景识别方法、训练方法及装置 Download PDFInfo
- Publication number
- CN113822232B CN113822232B CN202111372903.9A CN202111372903A CN113822232B CN 113822232 B CN113822232 B CN 113822232B CN 202111372903 A CN202111372903 A CN 202111372903A CN 113822232 B CN113822232 B CN 113822232B
- Authority
- CN
- China
- Prior art keywords
- attention
- layer
- final
- depth
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 title abstract description 98
- 238000010586 diagram Methods 0.000 claims abstract description 75
- 230000009466 transformation Effects 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 101150004141 Vcan gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于金字塔注意力的场景识别方法、训练方法及装置,属于计算机视觉领域。方法包括:对彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;对各层中每一层对应的注意力图和最终特征图分别进行尺度变换,以两个新注意力图的平均值作为最终注意力图,并映射最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;融合全局特征以及各层局部特征后,能够提高场景识别的准确度。
Description
技术领域
本发明属于计算机视觉领域,更具体地,涉及一种基于金字塔注意力的场景识别方法、训练方法及装置。
背景技术
室内场景通常包含众多的物体,空间布局多样化,所以获取鲁棒的室内场景表达是一件困难的事情。另外,Depth图可以提供空间布局以及几何位置方面的信息,RGBD场景识别在近几年快速发展。然而,全局特征不足以表示复杂的室内场景。另外,使用基于局部物体的特征来表示场景避免了某些场景中的噪声信息,并且单独使用局部或全局特征会导致识别性能欠佳。同时,并非所有物体都有助于场景识别,这就要求我们设计的模型能够自适应地选择对场景识别关键的特征。此外,两种模态之间的语义鸿沟也是一个不容忽视的方面,如何有效实现多模态融合仍需我们努力探索。
在中国专利CN113408590A中公开了一种基于图卷积网络的场景识别方法、训练方法、装置、电子设备及程序产品。这种方法在提取两种模态图像全局特征的基础上,首先利用空间注意力机制提取彩色图和深度图中重要的局部特征,并利用图卷积网络对两种模态图像的局部特征进行聚合和更新,以减小两种模态之间的语义差距,进而提高场景识别的准确度。
但该方法只考虑了单一尺度的局部特征,不适用于物体种类繁多以及布局多样化的室内场景。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于金字塔注意力的场景识别方法、训练方法、装置、电子设备及计算机可读存储介质,旨在解决现有技术中单一尺度的局部特征不足以表达复杂的室内场景的技术问题。
为实现上述目的,第一方面,本发明提供了一种基于金字塔注意力的场景识别方法,包括:
获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图;对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征;对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
进一步地,所述对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图,包括:对所述各层中每一层对应的注意力图,进行沿列方向求和以及reshape操作,得到一个新的注意力图;对所述各层中每一层对应的最终特征图,进行二维卷积操作,得到另一个新的注意力图。
进一步地,所述对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,包括:利用GCN算法对各层的局部特征进行基于语义的特征融合,得到最终局部特征;对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合,得到待识别场景的多模态特征。
进一步地,所述利用GCN算法对各层的局部特征进行基于语义的特征融合,得到最终局部特征,包括:基于彩色特征图各层的局部特征与深度特征图各层的局部特征,分别构建彩色图结构与深度图结构,其中,所述彩色图结构用于表示彩色图像中各物体节点之间的位置关联关系,深度图结构用于表示深度图像中各物体节点之间的位置关联关系;根据彩色图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第一局部特征;根据深度图结构中的节点的特征,采用稀疏连接对深度图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第二局部特征;根据彩色图结构中的节点的特征以及深度图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点与深度图结构中对应层的节点进行连接,通过GCN算法的聚合和更新操作得到第三局部特征;将所述第一局部特征、第二局部特征与第三局部特征进行级联处理以及特征变换,得到最终局部特征。
第二方面,本发明提供了一种场景识别模型的训练方法,包括:
获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签;利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型,所述训练后的场景识别模型用于根据第一方面任一项所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。
进一步地,所述利用所述训练数据集对预设的场景识别模型进行训练,包括:将所述彩色训练图像、深度训练图像输入至预设的场景识别模型,以使所述预设的场景识别模型对所述彩色训练图像、深度训练图像分别进行特征提取,获得彩色训练图像对应的彩色全局训练特征、深度训练图像对应的深度全局训练特征以及各层的局部训练特征;以及,对所述彩色全局训练特征、深度全局训练特征以及各层的局部训练特征进行融合,得到训练场景的多模态训练特征;基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理,直至完成训练。
第三方面,本发明提供了一种基于金字塔注意力的场景识别装置,包括:
第一图像获取模块,用于获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图;全局特征获取模块,用于对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征;局部特征获取模块,用于对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;融合与识别模块,用于对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
第四方面,本发明提供了一种场景识别模型的训练装置,包括:
第二图像获取模块,用于获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签;训练模块,用于利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型,所述训练后的场景识别模型用于根据第一方面任一项所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。
第五方面,本发明提供一种电子设备,包括:存储器和至少一个处理器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的场景识别方法,或,执行如第二方面任一项所述的场景识别模型的训练方法。
第六方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的场景识别方法,或,执行如第二方面任一项所述的场景识别模型的训练方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
本发明在提取待识别场景的彩色图像与深度图像的特征后,通过对彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;接着,对各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以两个新注意力图的平均值作为最终注意力图,并映射最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;进一步融合各层的局部特征得到最终局部特征。相较于现有获取局部特征的方法,本发明能够提取具有长期依赖的局部特征,更能表达复杂的室内场景,因而在融合全局特征以及局部特征后,能够提高场景识别的准确度。
附图说明
图1为本发明实施例提供的一种基于金字塔注意力的场景识别方法的流程示意图。
图2为本发明实施例提供的计算各层的最终特征图的流程示意图。
图3为本发明实施例提供的融合各层的局部特征的流程示意图。
图4为本发明实施例提供的一种场景识别模型的训练方法的流程示意图。
图5为本发明实施例提供的一种基于金字塔注意力的场景识别装置的结构框图。
图6为本发明实施例提供的一种场景识别模型的训练装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例一
参阅图1,本发明实施例提供了一种基于金字塔注意力的场景识别方法,包括:
S101,获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图。
本实施例中,特征提取算法可以为ResNet101算法、VGG算法或AlexNet算法等。通过上述特征提取算法,可获得对应的彩色特征图与深度特征图。
S102,对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征。
本实施例中,利用预设的特征提取网络的两层全连接层分别对彩色特征图和深度特征图进行特征变换,可以获得对应的彩色全局特征与深度全局特征。
S103,对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图。
需要说明的是,金字塔的层数可以按照实际的实验效果来选择,选择层数太少,则不足以表达多层次的特征,选择层次太多又会带来更多的计算量,在本实施例中,选择通用的金字塔层数为3层。另外,在本发明中,以Transformer作为一种捕获非局部依赖的注意力机制,也可以替换为其他注意力机制。
以和分别表示RGB和depth两种模态最后一层特征图,其尺寸大小为(B,C,H,W),B表示训练时批次的大小,C表示通道的数量,H和W分别表示特征的高度和宽度。以RGB图为例,如图2所示,我们以和作为金字塔尺度和尺度的特征,使用二维卷积去计算Transformer结构中的Q,K,V,可以获得注意力图:
其中,T表示转置操作,softmax激活函数用于正则化计算出的注意力图。
由于低分辨率的特征图中通常包含更多的语义信息,而高分辨率的特征图中空间信息比较丰富,二者可以互补。因此融合不同尺度的特征更有助于后续关键特征的选择。
在获得各层对应的注意力图以及注意力的输出后,将最后一层的注意力的输出作为最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图。如图2所示,将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图:
S104,对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征。
本实施例中,由于场景中没有准确的关键特征的标签信息,所以很难直接训练网络模型以找到关键的特征。即使利用注意力机制,在没有相关约束的情况下也很难在复杂的室内场景中获取有效的特征。为了确保节点选择的有效性,对各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图和:
S105,对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
进一步地,先利用GCN算法对各层的局部特征进行基于语义的特征融合,得到最终局部特征;再对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合,得到待识别场景的多模态特征。
更进一步地,基于彩色特征图各层的局部特征与深度特征图各层的局部特征,分别构建彩色图结构与深度图结构,其中,所述彩色图结构用于表示彩色图像中各物体节点之间的位置关联关系,深度图结构用于表示深度图像中各物体节点之间的位置关联关系;根据彩色图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第一局部特征;根据深度图结构中的节点的特征,采用稀疏连接对深度图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第二局部特征;根据彩色图结构中的节点的特征以及深度图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点与深度图结构中对应层的节点进行连接,通过GCN算法的聚合和更新操作得到第三局部特征;将所述第一局部特征、第二局部特征与第三局部特征进行级联处理以及特征变换,得到最终局部特征。
示例性的,为了在选择特征的基础上有效融合两个模态的互补信息,一个分层图模型G=(V,E)被构建用来表示室内场景。其中,V表示上述选择的局部特征,E表示节点之间的连接。V可以分为两类:2D彩色图节点V r 和3D的深度图节点V d 。另外E包含三部分:单模态单尺度之间的连接,多模态单尺度之间的连接以及单模态多尺度之间的连接。
单模态单尺度图连接:首先考虑单模态单尺度图模型的构建。每个节点对场景识别任务的贡献不相同,应在图建模中进行区分处理。在我们的图模型中,每个节点的重要性由其在注意力图中的值表示,其中较大的值意味着对场景识别的贡献越大。此外,图中的节点表示为通道方向的高维特征图向量,有助于表示场景中的关键特征。具体来说,我们通过上一步的节点选择得到形状为(B,k,C)的张量,记为,其中m表示第m个尺度。以m=1为例,我们设置k=16,包括1个主中心节点,3个次主中心节点和12个叶子节点。为了构建模态内连接,3个次主中心节点连接到主中心节点,其余的叶子节点通过欧氏距离连接到次主中心节点。
多模态单尺度图连接:即使在同一场景中,两种模态的局部特征也不同。换句话说,两种模态之间存在语义鸿沟。因此,两种模态之间的所选特征之间的稀疏连接比全连接更合适。在考虑RGB和深度模态的连接时,我们只连接相应的主中心节点和,次主中心和分别相连。其中和分别表示第i层的彩色图和深度图的第j个节点。
单模态多尺度图连接:为了利用多尺度的特点,我们还需要考虑图中不同尺度的联系。此外,考虑到节点在整个图上的特征的传播可以通过几次迭代完成,因此也使用稀疏连接来构建单模态多尺度图。以m=1和m=2为例,尺度1的节点只与尺度2对应的主中心和次主中心节点分别相连,即主中心节点和,子中心节点和分别相连,对于深度图像也是如此。
有效地结合多模态单尺度图和单模态多尺度图,我们得到最终的层次图。对于每个节点和,我们通过聚合其邻居的特征来学习其更新的表示。最后,将更新后的特征融合在一起以生成用于RGB-D场景识别的最终局部表示。以金字塔层数为3为例,分层图模型的构建如图3所示。
在获得最终局部特征后,将对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合,得到待识别场景的多模态特征;对所述待识别场景的多模态特征进行场景识别,得到所述待识别场景的识别结果。
实施例二
参阅图4,本发明实施例提供的一种场景识别模型的训练方法的流程示意图,包括:
S401,获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签;
S402,利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型,所述训练后的场景识别模型用于根据实施例一所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。
本实施例中,训练数据集可以为SUN RGBD数据集或NYU Depth v2数据集等。训练数据集中包括若干组训练场景,每组训练场景中包括若干个训练场景,每个训练场景有其对应的彩色训练图像、深度训练图像以及场景类别标签。
进一步地,利用所述训练数据集对预设的场景识别模型进行训练,包括:将所述彩色训练图像、深度训练图像输入至预设的场景识别模型,以使所述预设的场景识别模型对所述彩色训练图像、深度训练图像分别进行特征提取,获得彩色训练图像对应的彩色全局训练特征、深度训练图像对应的深度全局训练特征以及各层的局部训练特征;以及,对所述彩色全局训练特征、深度全局训练特征以及各层的局部训练特征进行融合,得到训练场景的多模态训练特征;基于所述多模态训练特征与场景类别标签的交叉熵损失函数对所述预设的场景识别模型进行调参处理,直至完成训练。
具体的,不仅仅两种模态的特征是互补的,全局特征和局部特征对于场景识别也是互补的。如上述所述,和分别表示RGB和depth两种模态最后一层特征图。全局特征和是通过将和通过一个全连接层分别获得,同时两个交叉熵损失函数分别用于全局特征的学习。另外,通过分层图模型学习到的局部特征可以表示为。进一步,局部特征与全局特征和级联为共同用于最终的场景识别:
其中,Cat表示级联操作。
实施例三
参阅图5,本发明提供了本发明实施例提供的一种基于金字塔注意力的场景识别装置500,所述装置500包括:
第一图像获取模块510,用于获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图;
全局特征获取模块520,用于对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征;
局部特征获取模块530,用于对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;
融合与识别模块540,用于对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
本实施例中,各模块的具体实施方式,请参考实施例一中的描述,在此将不作复述。
实施例四
参阅图6,本发明实施例提供的一种场景识别模型的训练装置600,所述装置600包括:
第二图像获取模块610,用于获取训练数据集,所述训练数据集中包括训练场景的至少一组彩色训练图像、深度训练图像以及场景类别标签;
训练模块620,用于利用所述训练数据集对预设的场景识别模型进行训练,得到训练后的场景识别模型,所述训练后的场景识别模型用于根据实施例一所述的场景识别方法对所述彩色训练图像与深度训练图像进行处理。
本实施例中,各模块的具体实施方式,请参考实施例二中的描述,在此将不作复述。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于金字塔注意力的场景识别方法,其特征在于,包括:
获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图;
对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征;
对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;
对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;
对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
2.根据权利要求1所述的方法,其特征在于,所述对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图,包括:
对所述各层中每一层对应的注意力图,进行沿列方向求和以及reshape操作,得到一个新的注意力图;
对所述各层中每一层对应的最终特征图,进行二维卷积操作,得到另一个新的注意力图。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,包括:
利用GCN算法对各层的局部特征进行基于语义的特征融合,得到最终局部特征;
对所述彩色全局特征、深度全局特征以及所述最终局部特征进行融合,得到待识别场景的多模态特征。
4.根据权利要求3所述的方法,其特征在于,所述利用GCN算法对各层的局部特征进行基于语义的特征融合,得到最终局部特征,包括:
基于彩色特征图各层的局部特征与深度特征图各层的局部特征,分别构建彩色图结构与深度图结构,其中,所述彩色图结构用于表示彩色图像中各物体节点之间的位置关联关系,深度图结构用于表示深度图像中各物体节点之间的位置关联关系;
根据彩色图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第一局部特征;
根据深度图结构中的节点的特征,采用稀疏连接对深度图结构中各层的节点进行连接,通过GCN算法的聚合和更新操作得到第二局部特征;
根据彩色图结构中的节点的特征以及深度图结构中的节点的特征,采用稀疏连接对彩色图结构中各层的节点与深度图结构中对应层的节点进行连接,通过GCN算法的聚合和更新操作得到第三局部特征;
将所述第一局部特征、第二局部特征与第三局部特征进行级联处理以及特征变换,得到最终局部特征。
5.一种基于金字塔注意力的场景识别装置,其特征在于,包括:
第一图像获取模块,用于获取待识别场景的彩色图像与深度图像,并分别进行特征提取,获得对应的彩色特征图与深度特征图;
全局特征获取模块,用于对所述彩色特征图和深度特征图分别进行特征变换,获得对应的彩色全局特征与深度全局特征;
局部特征获取模块,用于对所述彩色特征图和深度特征图分别进行金字塔分层,并基于注意力机制计算得到各层对应的注意力图以及注意力的输出;将最后一层的注意力的输出作为所述最后一层的最终特征图,其余层将上一层的最终特征图上采样之后的结果与本层的注意力的输出相加后作为本层的最终特征图;对所述各层中每一层对应的注意力图和最终特征图分别进行尺度变换,得到两个新注意力图;以所述两个新注意力图的平均值作为最终注意力图,并映射所述最终注意力图中最大的k个位置到本层的最终特征图以得到本层的局部特征;
融合与识别模块,用于对所述彩色全局特征、深度全局特征以及各层的局部特征进行融合,得到待识别场景的多模态特征,并基于所述多模态特征进行场景识别。
6.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-4任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111372903.9A CN113822232B (zh) | 2021-11-19 | 2021-11-19 | 一种基于金字塔注意力的场景识别方法、训练方法及装置 |
US17/835,361 US11514660B1 (en) | 2021-11-19 | 2022-06-08 | Scene recognition method, training method and device based on pyramid attention |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111372903.9A CN113822232B (zh) | 2021-11-19 | 2021-11-19 | 一种基于金字塔注意力的场景识别方法、训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113822232A CN113822232A (zh) | 2021-12-21 |
CN113822232B true CN113822232B (zh) | 2022-02-08 |
Family
ID=78919297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111372903.9A Active CN113822232B (zh) | 2021-11-19 | 2021-11-19 | 一种基于金字塔注意力的场景识别方法、训练方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11514660B1 (zh) |
CN (1) | CN113822232B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114494276A (zh) * | 2022-04-18 | 2022-05-13 | 成都理工大学 | 一种两阶段多模态三维实例分割方法 |
US11915474B2 (en) | 2022-05-31 | 2024-02-27 | International Business Machines Corporation | Regional-to-local attention for vision transformers |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8165407B1 (en) * | 2006-10-06 | 2012-04-24 | Hrl Laboratories, Llc | Visual attention and object recognition system |
CN103679718A (zh) * | 2013-12-06 | 2014-03-26 | 河海大学 | 一种基于显著性的快速场景分析方法 |
CN110110578B (zh) * | 2019-02-21 | 2023-09-29 | 北京工业大学 | 一种室内场景语义标注方法 |
CN111062386B (zh) * | 2019-11-28 | 2023-12-29 | 大连交通大学 | 基于深度金字塔注意力和特征融合的自然场景文本检测方法 |
CN111680678B (zh) * | 2020-05-25 | 2022-09-16 | 腾讯科技(深圳)有限公司 | 目标区域识别方法、装置、设备及可读存储介质 |
CN112784779A (zh) * | 2021-01-28 | 2021-05-11 | 武汉大学 | 一种基于特征金字塔多级特征融合的遥感影像场景分类方法 |
CN113408590B (zh) * | 2021-05-27 | 2022-07-15 | 华中科技大学 | 场景识别方法、训练方法、装置、电子设备及程序产品 |
-
2021
- 2021-11-19 CN CN202111372903.9A patent/CN113822232B/zh active Active
-
2022
- 2022-06-08 US US17/835,361 patent/US11514660B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11514660B1 (en) | 2022-11-29 |
CN113822232A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
Wang et al. | Attribute2font: Creating fonts you want from attributes | |
Wu et al. | Automatic road extraction from high-resolution remote sensing images using a method based on densely connected spatial feature-enhanced pyramid | |
CN113822232B (zh) | 一种基于金字塔注意力的场景识别方法、训练方法及装置 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN109492666A (zh) | 图像识别模型训练方法、装置及存储介质 | |
CN110853057B (zh) | 基于全局和多尺度全卷积网络的航拍图像分割方法 | |
CN111627065A (zh) | 一种视觉定位方法及装置、存储介质 | |
CN110728192A (zh) | 一种基于新型特征金字塔深度网络的高分遥感图像分类方法 | |
CN101477529B (zh) | 一种三维对象的检索方法和装置 | |
CN105930382A (zh) | 一种用2d图片搜索3d模型的方法 | |
Li et al. | Joint semantic-geometric learning for polygonal building segmentation | |
CN114419304A (zh) | 一种基于图神经网络的多模态文档信息抽取方法 | |
CN114758337B (zh) | 一种语义实例重建方法、装置、设备及介质 | |
Luo et al. | FloorplanGAN: Vector residential floorplan adversarial generation | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN114529757B (zh) | 一种跨模态单样本三维点云分割方法 | |
CN103049340A (zh) | 基于纹理上下文约束的视觉词汇的图像超分辨率重建方法 | |
CN112418235A (zh) | 一种基于膨胀最近邻特征增强的点云语义分割方法 | |
CN116912708A (zh) | 一种基于深度学习的遥感影像建筑物提取方法 | |
CN115690245A (zh) | 一种基于属性驱动gan的文本生成图像的方法 | |
CN115240079A (zh) | 一种多源遥感影像深度特征融合匹配方法 | |
KR102083786B1 (ko) | 문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |