CN110110578B - 一种室内场景语义标注方法 - Google Patents

一种室内场景语义标注方法 Download PDF

Info

Publication number
CN110110578B
CN110110578B CN201910129531.3A CN201910129531A CN110110578B CN 110110578 B CN110110578 B CN 110110578B CN 201910129531 A CN201910129531 A CN 201910129531A CN 110110578 B CN110110578 B CN 110110578B
Authority
CN
China
Prior art keywords
arf
module
entering
layer
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910129531.3A
Other languages
English (en)
Other versions
CN110110578A (zh
Inventor
王立春
李玉洁
王少帆
孔德慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910129531.3A priority Critical patent/CN110110578B/zh
Publication of CN110110578A publication Critical patent/CN110110578A/zh
Application granted granted Critical
Publication of CN110110578B publication Critical patent/CN110110578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

公开一种室内场景语义标注方法,包括:输入彩色图片和深度图片;进入神经网络之中,彩色图片和深度图片分别通过conv1和conv2_x;进入第一注意力机制模块ARF_1之中,通过ARF_1的计算,得到特征图;进入conv3_x之中进行卷积计算;进入第二注意力机制模块ARF_2之中,通过ARF_2的计算,得到特征图;进入conv4_x之中进行空洞卷积计算;进入第三注意力机制模块ARF_3之中,通过ARF_3的计算,得到特征图;进入conv5_x之中进行空洞卷积计算;进入注意力机制混合模块ARMF进行计算;进入空间金字塔模块SPP实现多层次上下文信息融合;得到语义标注结果图。

Description

一种室内场景语义标注方法
技术领域
本发明涉及多媒体技术与计算机图形学的技术领域,尤其涉及一种室内场景语义标注方法。
背景技术
场景语义标注(scene labeling),或者称为场景语义分析(scene parsing),即对图像中每一个像素用其所属的物体类别标签进行标注。由于场景语义标注是在单一过程中将检测、分割和多标签识别等传统问题结合到了一起,因此场景语义标注是一项具有挑战性的工作。高质量的场景标注有利于机器人任务规划、姿态估计、平面分割、基于上下文的图像检索、自动照片调整等智能任务。
以往的场景标识工作可以根据目标场景分为室内场景和室外场景两大类。与室外场景标注相比,室内场景标注更具挑战性,因为室内场景语义标注的集合更大,物体遮挡更严重,物体外观更加多样化。室内对象如被不同的床单覆盖的床和窗帘等,比室外如道路、建筑和天空等更难以描述。随着商用RGB-D传感器(如Microsoft Kinect)的推出,我们不仅可以得到彩色图像(RGB图像),还可以得到室内场景的深度图像(Depth图像),增加的深度信息不依赖于光照,可以显著缓解语义分割的挑战。大量研究表明,利用从深度信息中提取的特征有助于减少物体识别问题的不确定性,提高各类物品的识别率。深度通道可以补充彩色通道缺失的结构化信息。尽管如此,已有的RGB-D场景标注仍然存在两个关键问题。
(一)如何有效地表示和融合深度与RGB信息
关于特征表示,在以前的方法中开发了一些复杂的手工特性,例如梯度、颜色、表面法线等多通道传统特征表示RGB和深度信息。与使用卷积神经网络学习到的RGB-D特征相比,这种手工特征在某种程度上是特设的,没有很强的区分性。也有部分工作致力于研究如何增强深度通道的信息表示例如HHA图像,利用三个通道分别编码水平差异,距地面高度和重力角度。
自2012年以来,卷积神经网络(CNN)在图像分类和图像检测等方面取得了巨大的成就和广泛的应用。CNN的强大之处在于它的多层结构能自动学习多个层次的特征:较浅的卷积层感受野较小,学习局部区域的结构信息特征;较深的卷积层具有较大的感受野,学习更加抽象一些的语义特征,可以很好地判断出一幅图像中包含什么类别的物体,但是这些抽象语义特征对物体的大小、位置和方向等特征敏感性低,丢失了一些细节信息,不能很好地给出物体的具体轮廓、指出每个像素具体属于哪个物体,因此不能做到精确分割。
卷积神经网络中,深度与彩色数据的融合往往被过度简化。大部分融合方法是利用两个独立的CNNs分别从深度数据和彩色数据中提取特征,这些特征在用于最终分类之前只是简单地串联起来。忽视了深度与彩色通道之间的强相关性。
(二)如何在特征学习中捕捉全局场景上下文
目前基于卷积神经网络的场景标注方法只能捕获局部上下文,由于每个像素的感受野受到限制,导致标注结果不佳。值得注意的是,长范围的上下文信息在区分外观相似的不同物体时能起到关键作用。为了克服这个问题,图模型,例如条件随机场或平均场近似等方法,作为后处理步骤被应用于改善预测结果。然而,这些方法将上下文建模与卷积特征学习分离开来,这可能会带来由于特征表示的差别较小而导致求得次优解的问题。另一类方法采用具有门结构的级联递归神经网络,如长短时记忆(LSTM)网络,加强上下文建模,但是基于递归神经网络建立上下文模型的方法,也只是在网络特定层次上融合上下文信息,没有增大特征学习过程中的感受野,也没有改进特征学习过程中的特征表达。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种室内场景语义标注方法,其能够实现特征选择融合,使网络拥有利用全局上下文信息的能力。
本发明的技术方案是:这种室内场景语义标注方法,包括以下步骤:
(1)输入彩色图片和深度图片;
(2)进入神经网络之中,彩色图片和深度图片分别通过conv1和conv2_x;
(3)进入第一注意力机制模块ARF_1之中,通过ARF_1的计算,得到特征图;
(4)进入conv3_x之中进行卷积计算;
(5)进入第二注意力机制模块ARF_2之中,通过ARF_2的计算,得到特征图;
(6)进入conv4_x之中进行空洞卷积计算;
(7)进入第三注意力机制模块ARF_3之中,通过ARF_3的计算,得到特征图;
(8)进入conv5_x之中进行空洞卷积计算;
(9)进入注意力机制混合模块ARMF进行计算;
(10)进入空间金字塔模块SPP实现多层次上下文信息融合;
(11)得到语义标注结果图;
其中,conv1、conv2_x、conv3_x、conv4_x、conv5_x是卷积计算神经网络层的名字:conv1层的输出尺寸为213*213,参数为7*7,64,stride2;conv2_x层的输出尺寸为106*106,参数为3*3max pool,stride2,
conv3_x层的输出尺寸为53*53,参数为
conv4_x层的输出尺寸为53*53,参数为
conv5_x层的输出尺寸为53*53,参数为
本发明通过注意力机制模块融合RGB信息与深度信息,实现信息挑选,以增强信息的表示;通过空间金字塔模块增强基于不同区域的多尺度上下文信息的聚合,使网络拥有利用全局上下文信息的能力;因此能够实现特征选择融合,使网络拥有利用全局上下文信息的能力。
附图说明
图1是根据本发明的室内场景语义标注方法的网络整体结构图。
图2是根据本发明的室内场景语义标注方法的流程图。
图3是注意力机制模块ARF结构图。
图4是注意力机制混合模块ARMF结构图。
图5是空间金字塔模块SPP结构图。
具体实施方式
如图1、2所示,这种室内场景语义标注方法,包括以下步骤:
(1)输入彩色图片和深度图片;
(2)进入神经网络之中,彩色图片和深度图片分别通过conv1和conv2_x;
(3)进入第一注意力机制模块ARF_1之中,通过ARF_1的计算,得到特征图;
(4)进入conv3_x之中进行卷积计算;
(5)进入第二注意力机制模块ARF_2之中,通过ARF_2的计算,得到特征图;
(6)进入conv4_x之中进行空洞卷积计算;
(7)进入第三注意力机制模块ARF_3之中,通过ARF_3的计算,得到特征图;
(8)进入conv5_x之中进行空洞卷积计算;
(9)进入注意力机制混合模块ARMF进行计算;
(10)进入空间金字塔模块SPP实现多层次上下文信息融合;
(11)得到语义标注结果图;
其中,conv1、conv2_x、conv3_x、conv4_x、conv5_x是卷积计算神经网络层的名字:conv1层的输出尺寸为213*213,参数为7*7,64,stride2;conv2_x层的输出尺寸为106*106,参数为3*3max pool,stride2,
conv3_x层的输出尺寸为53*53,参数为
conv4_x层的输出尺寸为53*53,参数为
conv5_x层的输出尺寸为53*53,参数为
本发明通过注意力机制模块融合RGB信息与深度信息,实现信息挑选,以增强信息的表示;通过空间金字塔模块增强基于不同区域的多尺度上下文信息的聚合,使网络拥有利用全局上下文信息的能力;因此能够实现特征选择融合,使网络拥有利用全局上下文信息的能力。
优选地,该方法以空洞全卷积残差50层神经网络为基础,空洞卷积应用在conv4_x层和conv5_x层,空洞系数分别为2,4。
优选地,所述注意力机制模块以网络某层彩色特征图fRGB和深度特征图fD为输入,深度通道和彩色通道的输出分别记为fRGB_OUT,fD_OUT;ARF的彩色通道和深度通道的计算公式为公式(2)、(3)
fRGB_OUT=CNN(CNN((sigmoid(fD)-sigmoid(fRGB))×fRGB)+fRGB) (2)
fD_OUT=CNN(CNN((sigmoid(fRGB)-sigmoid(fD))×fD)+fD) (3)
Sigmoid(*)函数将特征图响应归一化到0至1之间,CNN(*)代表卷积核大小为1*1,步长为1的卷积层运算;以RGB通道来解释ARF模块的功能,假设某一特征在深度通道获得很高的响应值,在RGB通道响应较小,通过ARF模块会增大RGB模态特征图的相应权重值,后续网络会加强对这部分信息的学习,实现对网络中间特征的多模态信息选择。
优选地,所述注意力机制混合模块ARMF用于生成混合特征,其结构为在ARF模块之后,使用一个残差结构。
优选地,所述空间金字塔模块SPP,以高层混合特征(ffuse_feat)和ARMF模块中的深度特征(fhha_diff)作为输入,用于提取混合特征和深度特征的多尺度上下文信息。
优选地,所述空间金字塔模块在1*1,2*2,3*3,6*6四种尺度下进行信息融合;最高级别(1*1)是全局信息池化,剩余的金字塔层级(2*2,3*3,6*6)将feature map分成不同的子区域,为不同尺度的子区域形成特征表示,作为多尺度上下文信息。
优选地,所述空间金字塔模块将同一尺度不同模态间的特征级联在一起,以此实现多尺度多模态信息间的融合,并将1×1的卷积层应用于级联特征之后,以此降低上下文表示维度,之后通过双线性插值操作,直接上采样不同大小的特征图得到与原始特征大小相同的特征图,最终将不同尺度的信息级联在一起,作为混合特征的多尺度信息补充。
优选地,同一尺度不同模态间的特征为:Res5c_pool1_fuse和Res5c_pool1_hha。
以下详细说明本发明。
本发明在NYU-Depth v2数据集上进行测试,实现37类物品的语义标注。NYU-Depthv2数据集由1449幅室内场景RGB-D图像组成,本发明使用标准的数据集划分,795幅图像训练,654幅图像测试。
本发明的网络输入图像大小为480x640,使用HHA编码图像作为深度通道输入,本发明使用公共的Caffe工具和Nvidia GTX Titan X GPU实现网络,采用了一般的数据扩充方案如随机缩放、随机裁剪和随机翻转。将动量和权值分别设置为0.9和0.0005。使用的初始学习速率为10-3并将基础ResNet层的学习率乘以0.1。除ResNet网络里面的参数,其余全部网络参数均使用均值为0,方差为10-2的正态分布初始化。整体结构如附图一所示。
输入彩色图片和深度图片,进入神经网络之中,分别先通过conv1和conv2_x,之后进入注意力机制模块(ARF_1)之中,通过ARF_1的计算,得到的特征图再进入conv3_x之中运算,之后再进入注意力机制模块之后,如此交替进行卷积运算和ARF模块运算,最终在conv5_x运算之后,进入注意力机制混合模块(ARMF),实现深度信息与彩色信息的混合,进入最终的空间金字塔模块(SPP)实现多层次上下文信息融合,最终得到语义标注结果图。整体流程图如附图2所示。
本发明提出的多策略融合的室内场景RGB-D语义标注网络结构可分为以下几个部分。
1.基础网络结构及参数设计
本发明提出的多策略融合的室内场景RGB-D语义标注神经网络以空洞全卷积残差50层神经网络为基础。各层网络参数如表1所示。
表1
空洞卷积应用在conv4_x层和conv5_x层,空洞系数分别为2,4,其目的在于保持特征图尺度不缩小的同时,增大感受野。空洞卷积的主要思想是在卷积核的值之间插入“空洞”(zeros)来提高图像的分辨率,从而在神经网络中实现密集的特征提取。
2.注意力机制模块的结构与设计
注意力机制通过在feature map上增加权重,增强一些语义信息,同时去除其他不需要的语义信息。本发明提出注意力机制模块(ARF)混合RGB和HHA信息中共有的有效信息,实现逐层信息挑选。
注意力机制模块(ARF)的网络结构如附图3所示。ARF模块以网络某层彩色特征图(fRGB)和深度特征图(fD)为输入,深度通道和彩色通道的输出分别记为fRGB_OUT,fD_OUT。ARF模块的彩色通道和深度通道的计算公式如式(2)式(3)所示。
fRGB_OUT=CNN(CNN((sigmoid(fD)-sigmoid(fRGB))×fRGB)+fRGB) (2)
fD_OUT=CNN(CNN((sigmoid(fRGB)-sigmoid(fD))×fD)+fD) (3)
Sigmoid(*)函数将特征图响应归一化到0至1之间,CNN(*)代表卷积核大小为1*1,步长为1的卷积层运算。以RGB通道来解释ARF模块的功能,假设某一特征在深度通道获得很高的响应值,在RGB通道响应较小,通过ARF模块会增大RGB模态特征图的相应权重值,后续网络会加强对这部分信息的学习,实现对网络中间特征的多模态信息选择。
ARF模块中卷积层参数及设置如表2所示。
表2
层名称 输出尺寸 参数
conv1_A 53*53 1*1,512,stride1
conv2_A 53*53 1*1,512,stride1
conv3_A 53*53 1*1,512,stride1
conv4_A 53*53 1*1,512,stride1
注意力机制混合模块(ARMF)用于生成混合特征,其结构与注意力机制模块(ARF)结构类似。如附图4所示。相当于在ARF模块之后,使用了一个残差结构,其结构和参数如表3所示。
表3
层名称 输出尺寸 参数
conv1_M 53*53 1*1,512,stride1
conv2_M 53*53 1*1,512,stride1
conv3_M 53*53 1*1,512,stride1
conv4_M 53*53 1*1,512,stride1
conv5_M 53*53 1*1,512,stride1
3.空间金字塔模块的结构与设计
在神经网络中,感受野的大小可以大致表明上下文信息,室内场景中的对象不是随机散落的,其尺寸、位置,以及附近会出现什么对象都遵循一些基本规律,这些规律被称为上下文。上下文信息可以有效地去除场景中不大可能存在的物体或者物体组合方式,约束相似场景使其在语义描述上具有较高的一致性。本发明借鉴PSPNet的空间金字塔将其扩展并应用于RGB-D信息融合,多尺度逐层提取融合的特征,增强不同区域的上下文信息的聚合,使网络拥有利用全局上下文信息的能力,更加充分地利用深度信息。其结构如附图5所示。本发明提出的用于信息融合的空间金字塔结构及参数如表4所示。
表4
层名称 输出尺寸 参数
Res5c_pool1_fuse 1*1 Ave pooling 53*53,stride 53
Res5c_pool2_fuse 2*2 Ave pooling 27*27,stride 27
Res5c_pool3_fuse 3*3 Ave pooling 18*18,stride 18
Res5c_pool4_fuse 6*6 Ave pooling 9*9,stride 9
Res5c_pool1_hha 1*1 Ave pooling 53*53,stride 53
Res5c_pool2_hha 2*2 Ave pooling 27*27,stride 27
Res5c_pool3_hha 3*3 Ave pooling 18*18,stride 18
Res5c_pool4_hha 6*6 Ave pooling 9*9,stride 9
conv1_P 1*1 1*1,512,stride1
conv2_P 2*2 1*1,512,stride1
conv3_P 3*3 1*1,512,stride1
conv4_P 6*6 1*1,512,stride1
如图5所示,空间金字塔模块,以高层混合特征(ffuse_feat)和ARMF模块中的深度特征(fhha_diff)作为输入,用于提取混合特征和深度特征的多尺度上下文信息。
空间金字塔模块在1*1,2*2,3*3,6*6四种尺度下进行信息融合。最高级别(1*1)是全局信息池化,剩余的金字塔层级(2*2,3*3,6*6)将feature map分成不同的子区域,为不同尺度的子区域形成特征表示,即多尺度上下文信息。
在这里,本发明将同一尺度不同模态间的特征级联在一起,例如Res5c_pool1_fuse和Res5c_pool1_hha,以此实现多尺度多模态信息间的融合,并将1×1的卷积层应用于级联特征之后,以此降低上下文表示维度,之后通过双线性插值操作,直接上采样(upsample)不同大小的特征图得到与原始特征大小相同的特征图,最终将不同尺度的信息级联在一起,作为混合特征的多尺度信息补充。
表1是本发明与其他方法在NYU v2数据集上的比较结果,由此可见,本发明大大由于其它方法。
表5
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (4)

1.一种室内场景语义标注方法,其特征在于:该方法包括以下步骤:
(1)输入彩色图片和深度图片;
(2)进入神经网络之中,彩色图片和深度图片分别通过conv1和
conv2_x;
(3)进入第一注意力机制模块ARF_1之中,通过ARF_1的计算,得到特征图;
(4)进入conv3_x之中进行卷积计算;
(5)进入第二注意力机制模块ARF_2之中,通过ARF_2的计算,得到特征图;
(6)进入conv4_x之中进行空洞卷积计算;
(7)进入第三注意力机制模块ARF_3之中,通过ARF_3的计算,得到特征图;
(8)进入conv5_x之中进行空洞卷积计算;
(9)进入注意力机制混合模块ARMF进行计算;
(10)进入空间金字塔模块SPP实现多层次上下文信息融合;
(11)得到语义标注结果图;
其中,conv1、conv2_x、conv3_x、conv4_x、conv5_x是卷积计算神经网络层的名字:conv1层的输出尺寸为213*213,参数为7*7,64,stride2;
conv2_x层的输出尺寸为106*106,参数为3*3max pool,stride2,
conv3_x层的输出尺寸为53*53,参数为
conv4_x层的输出尺寸为53*53,参数为
conv5_x层的输出尺寸为53*53,参数为
该方法以空洞全卷积残差50层神经网络为基础,空洞卷积应用在conv4_x层和conv5_x层,空洞系数分别为2,4;
所述注意力机制模块以网络某层彩色特征图fRGB和深度特征图fD为输入,深度通道和彩色通道的输出分别记为fRGB_OUT,fD_OUT;ARF的彩色通道和深度通道的计算公式为公式(2)、(3)
fRGB_OUT=CNN(CNN((sigmoid(fD)-sigmoid(fRGB))×fRGB)+fRGB) (2)
fD_OUT=CNN(CNN((sigmoid(fRGB)-sigmoid(fD))×fD)+fD) (3)
Sigmoid(*)函数将特征图响应归一化到0至1之间,CNN(*)代表卷积核大小为1*1,步长为1的卷积层运算;以RGB通道来解释ARF模块的功能,假设某一特征在深度通道获得很高的响应值,在RGB通道响应较小,通过ARF模块会增大RGB模态特征图的相应权重值,
后续网络会加强对这部分信息的学习,实现对网络中间特征的多模态信息选择;
所述注意力机制混合模块ARMF用于生成混合特征,其结构为在ARF模块之后,使用一个残差结构;
所述空间金字塔模块SPP,以高层混合特征(ffuse_feat)和ARMF模块中的深度特征(fhha_diff)作为输入,用于提取混合特征和深度特征的多尺度上下文信息。
2.根据权利要求1所述的室内场景语义标注方法,其特征在于:所述空间金字塔模块在1*1,2*2,3*3,6*6四种尺度下进行信息融合;最高级别(1*1)是全局信息池化,剩余的金字塔层级(2*2,3*3,6*6)将feature map分成不同的子区域,为不同尺度的子区域形成特征表示,作为多尺度上下文信息。
3.根据权利要求2所述的室内场景语义标注方法,其特征在于:所述空间金字塔模块将同一尺度不同模态间的特征级联在一起,以此实现多尺度多模态信息间的融合,并将1×1的卷积层应用于级联特征之后,以此降低上下文表示维度,之后通过双线性插值操作,直接上采样不同大小的特征图得到与原始特征大小相同的特征图,最终将不同尺度的信息级联在一起,作为混合特征的多尺度信息补充。
4.根据权利要求3所述的室内场景语义标注方法,其特征在于:同一尺度不同模态间的特征为:Res5c_pool1_fuse和Res5c_pool1_hha。
CN201910129531.3A 2019-02-21 2019-02-21 一种室内场景语义标注方法 Active CN110110578B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910129531.3A CN110110578B (zh) 2019-02-21 2019-02-21 一种室内场景语义标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910129531.3A CN110110578B (zh) 2019-02-21 2019-02-21 一种室内场景语义标注方法

Publications (2)

Publication Number Publication Date
CN110110578A CN110110578A (zh) 2019-08-09
CN110110578B true CN110110578B (zh) 2023-09-29

Family

ID=67484171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910129531.3A Active CN110110578B (zh) 2019-02-21 2019-02-21 一种室内场景语义标注方法

Country Status (1)

Country Link
CN (1) CN110110578B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598714B (zh) * 2019-08-19 2022-05-17 中国科学院深圳先进技术研究院 一种软骨图像分割方法、装置、可读存储介质及终端设备
CN111985552B (zh) * 2020-08-17 2022-07-29 中国民航大学 复杂背景下机场道面细带状结构病害检测方法
CN112101366A (zh) * 2020-09-11 2020-12-18 湖南大学 基于混合扩张网络的实时分割系统与方法
CN112801015B (zh) * 2021-02-08 2023-03-24 华南理工大学 一种基于注意力机制的多模态人脸识别方法
CN113269279B (zh) * 2021-07-16 2021-10-15 腾讯科技(深圳)有限公司 一种多媒体内容分类方法和相关装置
CN113822232B (zh) * 2021-11-19 2022-02-08 华中科技大学 一种基于金字塔注意力的场景识别方法、训练方法及装置
CN114511452B (zh) * 2021-12-06 2024-03-19 中南大学 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651772A (zh) * 2009-09-11 2010-02-17 宁波大学 一种基于视觉注意的视频感兴趣区域的提取方法
CN102054178A (zh) * 2011-01-20 2011-05-11 北京联合大学 一种基于局部语义概念的国画图像识别方法
CN102088597A (zh) * 2009-12-04 2011-06-08 成都信息工程学院 动静结合估计视频视觉显著度的方法
CN102750385A (zh) * 2012-06-29 2012-10-24 南京邮电大学 基于标签检索的相关性—质量排序图像检索方法
CN103996185A (zh) * 2014-04-29 2014-08-20 重庆大学 一种基于注意力td-bu机制的图像分割方法
CN107480726A (zh) * 2017-08-25 2017-12-15 电子科技大学 一种基于全卷积和长短期记忆单元的场景语义分割方法
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN108520226A (zh) * 2018-04-03 2018-09-11 东北大学 一种基于躯体分解和显著性检测的行人重识别方法
CN108596102A (zh) * 2018-04-26 2018-09-28 北京航空航天大学青岛研究院 基于rgb-d的室内场景物体分割分类器构造方法
CN108630303A (zh) * 2018-04-28 2018-10-09 江苏医像信息技术有限公司 云标注系统
CN108681712A (zh) * 2018-05-17 2018-10-19 北京工业大学 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
CN108805087A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
CN109341580A (zh) * 2018-10-30 2019-02-15 中国铁道科学研究院集团有限公司基础设施检测研究所 钢轨廓形的追踪方法、系统及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651772A (zh) * 2009-09-11 2010-02-17 宁波大学 一种基于视觉注意的视频感兴趣区域的提取方法
CN102088597A (zh) * 2009-12-04 2011-06-08 成都信息工程学院 动静结合估计视频视觉显著度的方法
CN102054178A (zh) * 2011-01-20 2011-05-11 北京联合大学 一种基于局部语义概念的国画图像识别方法
CN102750385A (zh) * 2012-06-29 2012-10-24 南京邮电大学 基于标签检索的相关性—质量排序图像检索方法
CN103996185A (zh) * 2014-04-29 2014-08-20 重庆大学 一种基于注意力td-bu机制的图像分割方法
CN107480726A (zh) * 2017-08-25 2017-12-15 电子科技大学 一种基于全卷积和长短期记忆单元的场景语义分割方法
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN108520226A (zh) * 2018-04-03 2018-09-11 东北大学 一种基于躯体分解和显著性检测的行人重识别方法
CN108596102A (zh) * 2018-04-26 2018-09-28 北京航空航天大学青岛研究院 基于rgb-d的室内场景物体分割分类器构造方法
CN108630303A (zh) * 2018-04-28 2018-10-09 江苏医像信息技术有限公司 云标注系统
CN108681712A (zh) * 2018-05-17 2018-10-19 北京工业大学 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
CN108805087A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN109325534A (zh) * 2018-09-22 2019-02-12 天津大学 一种基于双向多尺度金字塔的语义分割方法
CN109341580A (zh) * 2018-10-30 2019-02-15 中国铁道科学研究院集团有限公司基础设施检测研究所 钢轨廓形的追踪方法、系统及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RDFNet: RGB-D Multi-level Residual Feature Fusion for Indoor Semantic Segmentation;Seong-Jin Park et al.;《2017 IEEE International Conference on Computer Vision》;20171225;第4990-4999页 *
RedNet: Residual Encoder-Decoder Network for indoor RGB-D Semantic Segmentation;Jindong Jiang et al.;《arXiv:1806.01054v2 [cs.CV] 6 Aug 2018》;20180806;第1-14页 *

Also Published As

Publication number Publication date
CN110110578A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN110110578B (zh) 一种室内场景语义标注方法
Ogawa et al. Object detection for comics using manga109 annotations
Li et al. Building-a-nets: Robust building extraction from high-resolution remote sensing images with adversarial networks
Li et al. Lstm-cf: Unifying context modeling and fusion with lstms for rgb-d scene labeling
Huang et al. Indoor depth completion with boundary consistency and self-attention
Farinella et al. Representing scenes for real-time context classification on mobile devices
Nedović et al. Stages as models of scene geometry
CN106096542B (zh) 基于距离预测信息的图像视频场景识别方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN107808129A (zh) 一种基于单个卷积神经网络的面部多特征点定位方法
CN103745201B (zh) 一种节目识别方法及装置
CN110517270B (zh) 一种基于超像素深度网络的室内场景语义分割方法
CN105868706A (zh) 一种基于稀疏自编码的三维模型识别方法
Le et al. DeepSafeDrive: A grammar-aware driver parsing approach to Driver Behavioral Situational Awareness (DB-SAW)
Cao et al. Visual attentional-driven deep learning method for flower recognition
Hoiem Seeing the world behind the image
CN111062275A (zh) 一种多层次监督的人群计数方法、装置、介质及电子设备
CN116485860A (zh) 一种基于多尺度渐进交互和聚合交叉注意力特征的单目深度预测算法
Konstantinidis et al. A center-surround histogram for content-based image retrieval
Liu et al. Sample space dimensionality refinement for symmetrical object detection
Fan et al. Attention-modulated triplet network for face sketch recognition
Zuo et al. Saliency-Informed Spatio-Temporal Vector of Locally Aggregated Descriptors and Fisher Vector for Visual Action Recognition
Wang et al. Saliency detection by multilevel deep pyramid model
Park et al. Improving Instance Segmentation using Synthetic Data with Artificial Distractors
Chen et al. Learning to detect salient curves of cartoon images based on composition rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant