CN111860116B - 一种基于深度学习和特权信息的场景识别方法 - Google Patents

一种基于深度学习和特权信息的场景识别方法 Download PDF

Info

Publication number
CN111860116B
CN111860116B CN202010493237.3A CN202010493237A CN111860116B CN 111860116 B CN111860116 B CN 111860116B CN 202010493237 A CN202010493237 A CN 202010493237A CN 111860116 B CN111860116 B CN 111860116B
Authority
CN
China
Prior art keywords
image
network
privilege information
depth
rgb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010493237.3A
Other languages
English (en)
Other versions
CN111860116A (zh
Inventor
孙宁
王龙玉
李晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010493237.3A priority Critical patent/CN111860116B/zh
Publication of CN111860116A publication Critical patent/CN111860116A/zh
Application granted granted Critical
Publication of CN111860116B publication Critical patent/CN111860116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于深度学习和特权信息的场景识别方法,属于图像处理技术领域。其具体步骤包括(1.1):从场景识别库中选取多个主要场景的RGB图像和深度图像,并将其与RGB图像进行配对;(1.2):构建结合特权信息和注意力机制的端到端可训练的深度神经网络模型;(1.3):对深度神经网络模型进行训练,训练时使用权重重分配的方式避免数据不均衡;(1.4):得到该图像的场景分类结果。本发明以图像编码到特征解码再到图像编码为架构,建立了由RGB图像到深度图像再到深度图像高层语义特征的映射关系。有效解决了深度模态缺失的现状,在只使用RGB图像的情况下,达到了多模态图像融合的效果。

Description

一种基于深度学习和特权信息的场景识别方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于深度学习和特权信息的场景识别方法。
背景技术
现有技术中,场景识别作为计算机视觉领域的重要分支之一,已广泛应用于人机交互、智能机器人、智能视频监控、自动驾驶等领域;它也被认为是其他高级计算机视觉任务如图像检索和目标检测的前提或先验知识。
近年来,随着大型数据集的提出,基于深度学习的场景识别方法得到了飞速发展,取得比传统算法更好的识别效果;与此同时,深度图像信息可以为场景识别提供有价值的全局布局信息;将RGB图像与深度图像相结合,将进一步提高场景识别的效果;然而,其缺点是:深度图像存在着获取难度高,数据量小的现状。
发明内容
针对上述问题,本发明提供了一种基于深度学习和特权信息的场景识别方法,通过将深度图像作为特权信息的方式,解决了深度图像难以获取,数据量少的现状,利用深度学习与特权信息相结合的方法实现了场景识别。
本发明的技术方案是:一种基于深度学习和特权信息的场景识别方法,所述场景识别方法包括以下步骤:
步骤(1.1):从场景识别库中选取若干场景的RGB图像和深度图像,对深度图像的水平视差、地面高度和重力角度进行编码,将编码后的深度图像与RGB图像进行配对,将配对成功的图像按比例划分为训练集和测试集;
步骤(1.2):构建结合特权信息和注意力机制的深度神经网络,该深度神经网络通过端到端(从头到尾直接进行训练,无需关心中间过程)的方式进行训练;
所述的深度神经网络包括编码器网络、解码器网络、语义一致性网络、特权信息提取网络、分类器网络及注意力模块;
步骤(1.3):利用步骤(1.1)中划分好的训练集,对深度神经网络进行训练,在训练过程中,采用权重重分配的方式,从而提高少数目类别的权重,降低多数目的类别权重;
步骤(1.4):步骤(1.2)中所述的语义一致性网络是用于保证生成图像的质量、指导编码器网络和解码器网络的学习特权信息;只需在训练阶段使用;而在进行测试阶段时,则需将深度神经网络中的语义一致性网络去除,以RGB图像作为输入,得到该图像的场景分类结果。
进一步的,在步骤(1.2)中,将深度神经网络构建中的编码器网络、解码器网络及语义一致性网络构成图像生成模型;
其中,所述编码器网络与解码器网络通过编解码结构生成伪深度图像,
所述语义一致性网络在训练时通过语义一致性损失拉近伪深度图像与水平视差、地面高度和重力角度编码的真实深度图像的语义,从而确定生成图像的语义质量;
所述编码器网络在充当编码器的同时提取RGB图像的高维特征。
进一步的,步骤(1.2)中所述构建的特权信息提取网络,用于提取伪深度图像的高维特征。
进一步的,所述步骤(1.2)中的注意力模块,是使用伪深度图像的高维特征对RGB图像的高维特征进行引导,关注有用特征,抑制无用特征。
进一步的,所述的步骤(1.3)中,将RGB图像和水平视差、地面高度和重力角度编码的深度图像输入深度神经网络中,使用权重重分配交叉熵损失避免类别不均衡,即提高小数目类别权重,降低多数目类别权重;以避免数据不均衡。
进一步的,在步骤(1.3)及步骤(1.4)中,在训练阶段中,利用配对的RGB与水平视差、地面高度和重力角度编码的深度图像,学习特权信息;
在测试阶段,只需输入RGB单模态信息,利用已训练好的图像生成模型,获得缺失模态图像,并利用特权信息网络提取特权信息高维特征,结合RGB图像特征通过注意力模块加强之后,进行识别分类,获得接近多模态融合的分类结果。
本发明的有益效果是:本发明以图像编码到特征解码再到图像编码为架构,建立了由RGB图像到深度图像再到深度图像高层语义特征的映射关系;通过注意力机制,将RGB图像高层语义特征与对应的伪深度图像高层语义特征进行融合,输入分类网络,最终得到预测结果;在测试时,只需要输入RGB图像,便可在本发明模型获取的深度图像特权信息的帮助下,提升场景识别的性能;有效解决了深度模态缺失的现状,在只使用RGB图像的情况下,达到了多模态图像融合的效果。
附图说明
图1是本发明的结构流程图。
具体实施方式
为了更清楚地说明本发明的技术方案,下面将对本发明中进行进一步的叙述;显而易见地,下面描述中的仅仅是一部分的实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些将本发明所述的技术方案应用于其它类似情景;为了更清楚地说明本发明的技术方案,下面结合附图对本发明的技术方案做进一步的详细说明:
如图所述;一种基于深度学习和特权信息的场景识别方法,所述场景识别方法包括以下步骤:
步骤(1.1):从场景识别库中选取若干场景的RGB图像和深度图像,对深度图像的水平视差、地面高度和重力角度进行编码,将编码后的深度图像与RGB图像进行配对,所述编码后的深度图像是水平视差、地面高度和重力角度编码的真实深度图像(HHA图像),将配对成功的图像按比例划分为训练集和测试集;
步骤(1.2):构建结合特权信息和注意力机制的深度神经网络(PIA-SRN),该深度神经网络(PIA-SRN)通过端到端(从头到尾直接进行训练,无需关心中间过程)的方式进行训练;
所述的深度神经网络(PIA-SRN)包括编码器网络(E-Net)、解码器网络(D-Net)、语义一致性网络(S-Net)、特权信息提取网络(PI-Net)、分类器网络(C-Net)及注意力模块(A-Mod));
步骤(1.3):利用步骤(1.1)中划分好的训练集,对深度神经网络进行训练,在训练过程中,采用权重重分配的方式,从而提高少数目类别的权重,降低多数目的类别权重;
步骤(1.4):步骤(1.2)中所述的语义一致性网络是用于保证生成图像的质量、指导编码器网络和解码器网络的学习特权信息;只需在训练阶段使用;而在进行测试阶段时,则需将深度神经网络中的语义一致性网络去除,以RGB图像作为输入,得到该图像的场景分类结果。
进一步的,在步骤(1.2)中,将深度神经网络构建中的编码器网络、解码器网络及语义一致性网络构成图像生成模型;
其中,所述编码器网络与解码器网络通过编解码结构生成伪深度图像(Phha),
所述语义一致性网络在训练时通过语义一致性损失拉近伪深度图像与真实HHA图像的语义,从而确定生成图像的语义质量;
所述编码器网络在充当编码器的同时提取RGB图像的高维特征(Fr)。
进一步的,步骤(1.2)中所述构建的特权信息提取网络,用于提取伪深度图像的高维特征(Fh)。
进一步的,所述步骤(1.2)中的注意力模块,是使用伪深度图像的高维特征对RGB图像的高维特征进行引导,关注有用特征,抑制无用特征。
进一步的,所述的步骤(1.3)中,将RGB图像和HHA图像输入深度神经网络中,使用权重重分配交叉熵损失避免类别不均衡,即提高小数目类别权重,降低多数目类别权重;以避免数据不均衡。
进一步的,在步骤(1.3)及步骤(1.4)中,在训练阶段中,利用配对的RGB与HHA图像,学习特权信息;
在测试阶段,只需输入RGB单模态信息,利用已训练好的图像生成模型,获得缺失模态图像,并利用特权信息网络提取特权信息高维特征,结合RGB图像特征通过注意力模块加强之后,进行识别分类,获得接近多模态融合的分类结果。
具体的,从信息流程上看,RGB图像经过E-Net和D-Net后可以生成相对应的伪深度图像Phha和由RGB图像学习得到的高层场景语义特征Fr;Phha与HHA输入S-Net中,通过语义一致性损失约束生成图像的语义质量;PI-Net提取Phha中的高层场景语义特征Fh。Fr和Fh经过A-Mod的处理后得到注意力加权后的高层场景语义特征Fa,输入C-Net后,便可以得到场景图像的识别结果。
编码器网络与特权信息提取网络结构一致,包括1个卷积层和4个残差层,卷积层尺寸为7×7,步长为2;残差层有基础残差块构成,步长分别为1,2,2,2;编码器网络与特权信息网络的目的是提取RGB图像与生成HHA图像的高维特征。
解码器网络由4个残差上采样层和1个卷积层构成,与编码器成对称结构,目的是将压缩后的向量恢复为224×224×3的伪深度场景图像;残差上采样层由系数为2的双线性插值和基础残差块构成,卷积层尺寸为1×1,步长为1;为了加强图像生成效果,编码器与解码器网络对称残差块间通过1×1卷积进行跳线连接。
语义一致性网络由Resnet18构成,Resnet18加载Place预训练模型作为特征提取器,接受HHA和Phha作为输入,对二者每层基础残差块的输出结果求取L1损失并求和后作为语义一致性损失。
注意力模块以Fr和Fh作为输入,二者分别经过3×3卷积得到Fr1与Fh1,Fr1通过Sigmoid激活后与Fh1进行点乘,抑制Fr1中的不相关信息,强调有用信息,点乘结果再通过一次3×3,步长为2的卷积得到Fa
分类器网络由一个全局平均池化层和两个全连接层构成;全局平均池化大小为7×7,全连接层维度分别为512和场景类别数,再通过softmax输出分类。
最后,应当理解的是,本发明中所述实施例仅用以说明本发明实施例的原则;其他的变形也可能属于本发明的范围;因此,作为示例而非限制,本发明实施例的替代配置可视为与本发明的教导一致;相应地,本发明的实施例不限于本发明明确介绍和描述的实施例。

Claims (6)

1.一种基于深度学习和特权信息的场景识别方法,其特征在于,所述场景识别方法包括以下步骤:
步骤(1.1):从场景识别库中选取若干场景的RGB图像和深度图像,对深度图像的水平视差、地面高度和重力角度进行编码,将编码后的深度图像与RGB图像进行配对,将配对成功的图像按比例划分为训练集和测试集;
步骤(1.2):构建结合特权信息和注意力机制的深度神经网络,该深度神经网络通过端到端的方式进行训练;
所述的深度神经网络包括编码器网络、解码器网络、语义一致性网络、特权信息提取网络、分类器网络及注意力模块;
步骤(1.3):利用步骤(1.1)中划分好的训练集,对深度神经网络进行训练,在训练过程中,采用权重重分配的方式,从而提高少数目类别的权重,降低多数目的类别权重;
步骤(1.4):步骤(1.2)中所述的语义一致性网络是用于保证生成图像的质量、指导编码器网络和解码器网络的学习特权信息;只需在训练阶段使用;而在进行测试阶段时,则需将深度神经网络中的语义一致性网络去除,以RGB图像作为输入,得到该图像的场景分类结果。
2.根据权利要求1所述的一种基于深度学习和特权信息的场景识别方法,其特征在于:在步骤(1.2)中,将深度神经网络构建中的编码器网络、解码器网络及语义一致性网络构成图像生成模型;
其中,所述编码器网络与解码器网络通过编解码结构生成伪深度图像,
所述语义一致性网络在训练时通过语义一致性损失拉近伪深度图像与水平视差、地面高度和重力角度编码的真实深度图像的语义,从而确定生成图像的语义质量;
所述编码器网络在充当编码器的同时提取RGB图像的高维特征。
3.根据权利要求1所述的一种基于深度学习和特权信息的场景识别方法,其特征在于:步骤(1.2)中所述构建的特权信息提取网络,用于提取伪深度图像的高维特征。
4.根据权利要求1所述的一种基于深度学习和特权信息的场景识别方法,其特征在于:所述步骤(1.2)中的注意力模块,是使用伪深度图像的高维特征对RGB图像的高维特征进行引导,关注有用特征,抑制无用特征。
5.根据权利要求1所述的一种基于深度学习和特权信息的场景识别方法,其特征在于:所述的步骤(1.3)中,将RGB图像和水平视差、地面高度和重力角度编码的深度图像输入深度神经网络中,使用权重重分配交叉熵损失避免类别不均衡,即提高小数目类别权重,降低多数目类别权重。
6.根据权利要求2所述的一种基于深度学习和特权信息的场景识别方法,其特征在于:在步骤(1.3)及步骤(1.4)中,在训练阶段中,利用配对的RGB与水平视差、地面高度和重力角度编码的深度图像,学习特权信息;
在测试阶段,只需输入RGB单模态信息,利用已训练好的图像生成模型,获得缺失模态图像,并利用特权信息网络提取特权信息高维特征,结合RGB图像特征通过注意力模块加强之后,进行识别分类,获得接近多模态融合的分类结果。
CN202010493237.3A 2020-06-03 2020-06-03 一种基于深度学习和特权信息的场景识别方法 Active CN111860116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010493237.3A CN111860116B (zh) 2020-06-03 2020-06-03 一种基于深度学习和特权信息的场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010493237.3A CN111860116B (zh) 2020-06-03 2020-06-03 一种基于深度学习和特权信息的场景识别方法

Publications (2)

Publication Number Publication Date
CN111860116A CN111860116A (zh) 2020-10-30
CN111860116B true CN111860116B (zh) 2022-08-26

Family

ID=72985419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010493237.3A Active CN111860116B (zh) 2020-06-03 2020-06-03 一种基于深度学习和特权信息的场景识别方法

Country Status (1)

Country Link
CN (1) CN111860116B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348082B (zh) * 2020-11-06 2021-11-09 上海依智医疗技术有限公司 深度学习模型构建方法、影像处理方法及可读存储介质
CN112650873A (zh) * 2020-12-18 2021-04-13 新疆爱华盈通信息技术有限公司 一种智能相册的实现方法及系统、电子装置及存储介质
CN112685565B (zh) * 2020-12-29 2023-07-21 平安科技(深圳)有限公司 基于多模态信息融合的文本分类方法、及其相关设备
CN113902933A (zh) * 2021-09-27 2022-01-07 浙江大华技术股份有限公司 一种地面分割网络模型的训练方法、装置、设备和介质
CN114266938A (zh) * 2021-12-23 2022-04-01 南京邮电大学 一种基于多模态信息和全局注意力机制的场景识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110717336A (zh) * 2019-09-23 2020-01-21 华南理工大学 基于语义相关度预测和注意力解码的场景文本识别方法
CN111126282B (zh) * 2019-12-25 2023-05-12 中国矿业大学 一种基于变分自注意力强化学习的遥感图像内容描述方法

Also Published As

Publication number Publication date
CN111860116A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111860116B (zh) 一种基于深度学习和特权信息的场景识别方法
CN109543745B (zh) 基于条件对抗自编码网络的特征学习方法及图像识别方法
Zhou et al. Salient object detection in stereoscopic 3D images using a deep convolutional residual autoencoder
CN108388900A (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN110517329A (zh) 一种基于语义分析的深度学习图像压缩方法
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN115619743A (zh) Oled新型显示器件表面缺陷检测模型的构建方法及其应用
CN113076957A (zh) 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法
CN113870286B (zh) 一种基于多级特征和掩码融合的前景分割方法
CN112784756B (zh) 人体识别跟踪方法
CN109635662A (zh) 一种基于卷积神经网络的道路场景语义分割方法
CN113192073A (zh) 基于交叉融合网络的服装语义分割方法
CN111179187A (zh) 基于循环生成对抗网络的单幅图像去雨方法
CN113392711A (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN111488884A (zh) 低计算量及高度特征融合的实时语义分割方法
WO2022166840A1 (zh) 人脸属性编辑模型的训练方法、人脸属性编辑方法及设备
CN115631513B (zh) 基于Transformer的多尺度行人重识别方法
Yan et al. Video-text pre-training with learned regions
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN114373023A (zh) 一种基于点的点云几何有损压缩重建装置与方法
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
Yan et al. Video-text pre-training with learned regions for retrieval
CN112927236A (zh) 一种基于通道注意力和自监督约束的服装解析方法及系统
CN116168418A (zh) 一种图像的多模态目标感知与重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant