CN108334830B - 一种基于目标语义和深度外观特征融合的场景识别方法 - Google Patents

一种基于目标语义和深度外观特征融合的场景识别方法 Download PDF

Info

Publication number
CN108334830B
CN108334830B CN201810071440.4A CN201810071440A CN108334830B CN 108334830 B CN108334830 B CN 108334830B CN 201810071440 A CN201810071440 A CN 201810071440A CN 108334830 B CN108334830 B CN 108334830B
Authority
CN
China
Prior art keywords
appearance
scene image
layer
target semantic
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810071440.4A
Other languages
English (en)
Other versions
CN108334830A (zh
Inventor
孙宁
李文丽
李晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201810071440.4A priority Critical patent/CN108334830B/zh
Publication of CN108334830A publication Critical patent/CN108334830A/zh
Application granted granted Critical
Publication of CN108334830B publication Critical patent/CN108334830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/424Syntactic representation, e.g. by using alphabets or grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于目标语义和深度外观特征融合的场景识别方法,具体步骤为:获取待识别的场景图像;提取场景图像的目标语义信息,生成保持空间布局信息的目标语义特征;提取场景图像的外观上下文信息,生成外观上下文特征;提取场景图像的外观全局信息,生成外观全局特征;根据目标语义特征、外观上下文特征和外观全局特征,获取场景图像的识别结果。本发明采用多类目标检测器算法,精准地获取关键目标、类别及其布局信息;通过SFV模型获取室内场景图像的目标语义特征;卷积层和LSTM层组成端到端可训练的混合DNN网络结构可以有效提取场景图像的上下文相信息。该方法融合了目标语义信息、全局外观信息和外观的上下文特征,提高了识别算方法的识别率和鲁棒性。

Description

一种基于目标语义和深度外观特征融合的场景识别方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于目标语义和深度外观特征融合的场景识别方法。
背景技术
场景识别是计算机视觉的重要课题之一,并广泛应用于许多领域,主要包括大型数据库的图像信息检索、机器人的移动定位与环境交互、安防监控领域的事件检测等。
自2006年以来,深度学习理论开始成为机器学习和人工智能领域的研究热点,深度学习建立深层网络结构模拟人脑的认知机制,通过深度多层次网络对输入数据进行逐层非线性提取,形成从底层信号到高层语义的映射关系。深度学习架构在面向大数据的自然语言处理和图像分析处理等人工智能领域取得了巨大的成功。深度网络架构具备更深的网络层次,将特征提取和分类判别过程统一在一个学习模型下,通过多层深度结构从图像中提取目标属性的内在非线性特征,使得其在处理图像和视频等高维数据时具有显著的优势。
据申请人了解,Guo-Sen Xie等人提出了一种基于字典的混合CNN场景识别模型,其对卷积层和全连接层的数据做进一步处理,比单纯利用CNN进行分类的效果好。ShengGuo和Weilin Huang 等人注意到,卷积特征捕捉局部对象和场景图像细微结构,而这些特征在高压缩FC(full connection)表示中被显著消除,所以提出了一个新的局部监督深度混合模型(LS-DHM)有效地提高了卷积特征在场景识别中的应用。以上均是对CNN网络中某层的数据做进一步处理,或者改变网络的框架结构,取得了不错的效果,但是并没有考虑目标及其位置的重要信息,图片信息没有得到充分挖掘利用。为了考虑图像的不同区域之间的依赖,Zhen Zuo 和Bing Shuai 等人从上下文语义联系的角度出发提出了层次型(hrnns)编码在图像表示的语境依赖性。例如,在“海滩”标签的图像中,如果“沙”区域以“海”区域为参照,则将“沙”和“沙漠”就可以区分开来。
然而,当把上述方法应用在室内场景识别时,识别效果下降,究其原因是室内场景主要存在类内差异大类间差异小等。
本申请中的多类别目标检测器YOLOv2算法详见(Redmon J, Farhadi A.YOLO9000: better, faster, stronger[J]. arXiv preprint arXiv:1612.08242,2016.),准确识别出每张室内场景图片中物体的类别、大小、位置和分值信息,将这些信息通过空间Fisher向量(Spatial Fisher Vector,SFV)编码,详见(Krapac J, Verbeek J,Jurie F. Modeling spatial layout with fisher vectors for image categorization[C]// International Conference on Computer Vision. IEEE Computer Society,2011:1487-1494.);提取全局外观特征的VGG16模型详见(Simonyan, Karen, and A.Zisserman. "Very Deep Convolutional Networks for Large-Scale ImageRecognition." Computer Science(2014).),其倒数第二层为全连接层的输出;SVM分类方法通过一个非线性映射p,把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题.简单地说,就是升维和线性化。
发明内容
本发明的目的在于:提供一种基于目标语义和深度外观特征融合的场景识别方法,融合目标语义信息、全局外观信息和外观的上下文特征,有效提高室内场景识别方法的识别率和鲁棒性。
为了达到以上目的,一种基于目标语义和深度外观特征融合的场景识别方法,具体步骤为:
获取待识别的场景图像;
提取场景图像的目标语义信息,生成保持空间布局信息的目标语义特征;
提取场景图像的外观上下文信息,生成外观上下文特征;
提取场景图像的外观全局信息,生成外观全局特征;
根据目标语义特征、外观上下文特征和外观全局特征,获取场景图像的识别结果。
本发明的优选方案是:生成保持空间布局信息的目标语义特征的具体方法为:
从数据库中收集类目标图像,训练相对应的多类目标检测器;
输入场景图像,输出对应的矩阵;
根据类别得分,对矩阵中网格单元的锚点的数据进行最大池化,获取底层特征;
根据SFV模型将底层特征转化为目标语义特征。
优选地,数据库为ImageNet数据库,类目标图像的数量为177;场景图像像素为608×608,矩阵的维度为19×19×(5+177)×5=328,510,其中,19×19为输出的网格单元的宽和高,括号内的5为目标的位置坐标,大小和置信度,括号外的5为5个锚点,177为类别得分的维度;根据类别得分,最大池化每个网格单元中的5个锚点的数据,获取维度为65702的底层特征;SFV模型提取的初始维度为92928,在SFV模型中,利用128维高斯核生成外观模型和一个混合高斯核生成每个视觉词汇的空间模型,再通过主成分分析降维至4096维,获取目标语义特征。
优选地,生成外观上下文特征具体方法为:构建混合DNN网络模型,将场景图像输入混合DNN网络模型提取出场景外观上下文特征。
更优选地,混合DNN网络模型包括1个输入、13个卷积层、4个最大池化层、2个四方向长短期记忆网络LSTM层和1个输出层,输入为256×256的RGB图像,池化层的卷积核为2×2,步长为2,卷积层的卷积核为3×3,卷积的步长为1,卷积层的输入为空间填充。
更优选地,混合DNN网络模型的前17层依次为:2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层;其中,第13层和第17层的卷积层后分别拼接四方向长短期记忆网络LSTM层,四方向长短期记忆网络LSTM层包含水平方向从左到右、水平方向从右至左、垂直方向从上至下、垂直方向从下至上四种方向,具有四个输出;2个四方向长短期记忆网络LSTM层的8个LSTM输出串接作为混合DNN网络模型的输出,生成外观上下文特征;输出的维度为4096维。
更优选地,四方向长短期记忆网络LSTM层内有一个隐含层,隐含层的输入为512维,输出为512维。
优选地,生成外观全局特征具体方法为:将场景图像输入卷积神经网络VGG16模型中,提取倒数第二层的全连接层输出作为外观全局特征。
优选地,获取场景图像的识别结果具体方法为:将目标语义特征、外观上下文特征和外观全局特征得分融合,训练SVM分类器,获取场景图像的识别结果。
本发明有益效果为:采用多类目标检测器算法,可以精准地得到关键目标、类别及其布局信息;通过SFV模型,将室内场景图像中的空间位置信息考虑在内,较好的得到了室内场景图像的目标语义特征,解决了“语义鸿沟”问题,提高了室内场景的识别正确率;卷积层和LSTM组成端到端可训练的混合DNN网络结构可以有效提取场景图像的上下文相信息。该方法融合了目标语义信息、全局外观信息和外观的上下文特征,提高了室内场景识别方法的识别率和鲁棒性。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明的识别方法流程图;
图2为本发明的四方向长短期记忆网络LSTM层输入顺序。
具体实施方式
实施例一
请参阅图1,本实施例提供的一种基于目标语义和深度外观特征融合的场景识别方法,具体步骤为:
获取待识别的场景图像;
提取场景图像的目标语义信息,生成保持空间布局信息的目标语义特征;
提取场景图像的外观上下文信息,生成外观上下文特征;
提取场景图像的外观全局信息,生成外观全局特征;
根据目标语义特征、外观上下文特征和外观全局特征,获取场景图像的识别结果。
以下将对上述步骤的操作规则、方式等进行详细说明。
生成保持空间布局信息的目标语义特征的具体方法为:
基于多目标检测器YOLOv2算法,从目前世界上图像识别最大的数据库ImageNet数据集中收集177类目标图像,训练相对应177类的多类目标检测器,构建场景图像字典;
输入608x608场景图像,输出矩阵的维度为19×19×(5+177)×5=328,510。其中19×19表示输出的网格单元的宽和高,括号内5表示目标的位置坐标,大小和置信度,括号外5表示5个锚点,177表示类别得分的维度;
根据类别得分,对每个网格单元中的5个锚点的数据进行最大池化,获取维度为65,702的底层特征;
SFV模型提取的初始维度为92928,在SFV模型中,利用128维高斯核生成外观模型和一个混合高斯核生成每个视觉词汇的空间模型,再通过主成分分析降维至4096维,获取目标语义特征。
生成外观上下文特征具体方法为:构建混合DNN网络模型,将场景图像输入混合DNN网络模型提取出场景外观上下文特征。
混合DNN网络模型包括1个输入、13个卷积层、4个最大池化层、2个四方向长短期记忆网络LSTM层(Long Short-Term Memory)和1个输出层,输入为256×256的RGB图像,池化层的卷积核为2×2,步长为2,卷积层的卷积核为3×3,卷积的步长为1,卷积层的输入为空间填充,使得卷积之后分辨率保持不变。
混合DNN网络模型的前17层依次为:2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层;其中,第13层和第17层的卷积层后分别拼接四方向长短期记忆网络LSTM层,四方向长短期记忆网络LSTM层内有一个隐含层,隐含层的输入为512维,输出为512维。四方向长短期记忆网络LSTM层如图2所示,包含水平方向从左到右、水平方向从右至左、垂直方向从上至下、垂直方向从下至上四种方向,具有四个输出;2个四方向长短期记忆网络LSTM层的8个LSTM输出串接作为混合DNN网络模型的输出,生成外观上下文特征;混合DNN网络模型输出的维度为4096维,不同卷积层的输出可以在不同尺度下提供具有不同特征的场景图像特征图。四方向的LSTM层被连接到不同卷积层的输出,更好地表示场景图像的多方向上下文信息。
将国际公开的MIT-67室内场景库和SUN397场景库分别输入到混合DNN模型,得到场景图像的外观上下文特征。
生成外观全局特征具体方法为:将国际公开的MIT-67室内场景库和SUN397场景库分别输入卷积神经网络VGG16模型中,提取倒数第二层的全连接层输出作为外观全局特征。
获取场景图像的识别结果具体方法为:将目标语义特征、外观上下文特征和外观全局特征进行得分融合,训练SVM分类器,获取场景图像的识别结果。
本实施例采用YOLOv2多类目标检测器算法,可以精准地得到关键目标、类别及其布局信息;通过SFV模型,将室内场景图像中的空间位置信息考虑在内,较好的得到了室内场景图像的目标语义特征,解决了“语义鸿沟”问题,提高了室内场景的识别正确率;卷积层和LSTM层组成端到端可训练的混合DNN网络结构可以有效提取场景图像的上下文相信息。该方法融合了目标语义信息、全局外观信息和外观的上下文特征,提高了室内场景识别算法的识别率和鲁棒性。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (7)

1.一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,具体步骤为:
获取待识别的场景图像;
提取场景图像的目标语义信息,生成保持空间布局信息的目标语义特征;
提取场景图像的外观上下文信息,生成外观上下文特征;
提取场景图像的外观全局信息,生成外观全局特征;
根据所述目标语义特征、所述外观上下文特征和所述外观全局特征,获取所述场景图像的识别结果;
所述生成保持空间布局信息的目标语义特征的具体方法为:
从数据库中收集类目标图像,训练相对应的多类目标检测器;
输入场景图像,输出对应的矩阵;
根据类别得分,对矩阵中网格单元的锚点的数据进行最大池化,获取底层特征;根据SFV模型将底层特征转化为目标语义特征。
所述数据库为ImageNet数据库,所述类目标图像的数量为177;
所述场景图像像素为608×608,所述矩阵的维度为19×19×(5+177)×5=328510,其中,19×19为输出的网格单元的宽和高,括号内的5为目标的位置坐标,大小和置信度,括号外的5为5个锚点,177为类别得分的维度;根据类别得分,最大池化每个网格单元中的5个锚点的数据,获取维度为65702的底层特征;所述SFV模型提取的初始维度为92928,在SFV模型中,利用128维高斯核生成外观模型和一个混合高斯核生成每个视觉词汇的空间模型,再通过主成分分析降维至4096维,获取目标语义特征。
2.根据权利要求1所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述生成外观上下文特征具体方法为:构建混合DNN网络模型,将场景图像输入混合DNN网络模型提取出场景外观上下文特征。
3.根据权利要求2所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述混合DNN网络模型包括1个输入、13个卷积层、4个最大池化层、2个四方向长短期记忆网络LSTM层和1个输出层,所述输入为256×256 的RGB图像,所述池化层的卷积核为2×2,步长为2,所述卷积层的卷积核为3×3,卷积的步长为1,所述卷积层的输入为空间填充。
4.根据权利要求3所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述混合DNN网络模型的前17层依次为:2层卷积层、1层池化层、2层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层、1层池化层、3层卷积层;其中,第13层和第17层的卷积层后分别拼接四方向长短期记忆网络LSTM层,所述四方向长短期记忆网络LSTM层包含水平方向从左到右、水平方向从右至左、垂直方向从上至下、垂直方向从下至上四种方向,具有四个输出;2个所述四方向长短期记忆网络LSTM层的8个LSTM输出串接作为所述混合DNN网络模型的输出,生成外观上下文特征;所述输出的维度为4096维。
5.根据权利要求4所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述四方向长短期记忆网络LSTM层内有一个隐含层,所述隐含层的输入为512维,输出为512维。
6.根据权利要求1所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述生成外观全局特征具体方法为:将场景图像输入卷积神经网络VGG16模型中,提取倒数第二层的全连接层输出作为外观全局特征。
7.根据权利要求1所述的一种基于目标语义和深度外观特征融合的场景识别方法,其特征在于,所述获取所述场景图像的识别结果具体方法为:将所述目标语义特征、所述外观上下文特征和所述外观全局特征进行得分融合,训练SVM分类器,获取所述场景图像的识别结果。
CN201810071440.4A 2018-01-25 2018-01-25 一种基于目标语义和深度外观特征融合的场景识别方法 Active CN108334830B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810071440.4A CN108334830B (zh) 2018-01-25 2018-01-25 一种基于目标语义和深度外观特征融合的场景识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810071440.4A CN108334830B (zh) 2018-01-25 2018-01-25 一种基于目标语义和深度外观特征融合的场景识别方法

Publications (2)

Publication Number Publication Date
CN108334830A CN108334830A (zh) 2018-07-27
CN108334830B true CN108334830B (zh) 2022-10-04

Family

ID=62925817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810071440.4A Active CN108334830B (zh) 2018-01-25 2018-01-25 一种基于目标语义和深度外观特征融合的场景识别方法

Country Status (1)

Country Link
CN (1) CN108334830B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165682B (zh) * 2018-08-10 2020-06-16 中国地质大学(武汉) 一种融合深度特征和显著性特征的遥感图像场景分类方法
CN109344822B (zh) * 2018-09-03 2022-06-03 电子科技大学 一种基于长短期记忆网络的场景文本检测方法
CN109446897B (zh) * 2018-09-19 2020-10-27 清华大学 基于图像上下文信息的场景识别方法及装置
CN109376667B (zh) * 2018-10-29 2021-10-01 北京旷视科技有限公司 目标检测方法、装置及电子设备
CN110136049B (zh) * 2018-10-30 2023-07-11 北京魔门塔科技有限公司 一种基于环视图像与轮速计融合的定位方法及车载终端
CN109948557B (zh) * 2019-03-22 2022-04-22 中国人民解放军国防科技大学 多网络模型融合的烟雾检测方法
CN110084165B (zh) * 2019-04-19 2020-02-07 山东大学 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法
CN110555461A (zh) * 2019-07-31 2019-12-10 中国地质大学(武汉) 基于多结构卷积神经网络特征融合的场景分类方法及系统
CN110443789B (zh) * 2019-08-01 2021-11-26 四川大学华西医院 一种免疫固定电泳图自动识别模型的建立及使用方法
CN110473185B (zh) * 2019-08-07 2022-03-15 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
CN110503643B (zh) * 2019-08-23 2021-10-01 闽江学院 一种基于多尺度快速场景检索的目标检测方法和装置
CN111772628B (zh) * 2020-07-16 2021-10-08 华中科技大学 一种基于深度学习的心电信号房颤自动检测系统
CN115082930B (zh) * 2021-03-11 2024-05-28 腾讯科技(深圳)有限公司 图像分类方法、装置、电子设备和存储介质
CN113239891A (zh) * 2021-06-09 2021-08-10 上海海事大学 基于深度学习的场景分类系统及方法
CN113469224A (zh) * 2021-06-16 2021-10-01 浙江大学 一种基于卷积神经网络与特征描述算子相融合的大米分类方法
CN113537145B (zh) * 2021-06-28 2024-02-09 青鸟消防股份有限公司 目标检测中误、漏检快速解决的方法、装置及存储介质
CN113326926B (zh) * 2021-06-30 2023-05-09 上海理工大学 一种面向遥感图像检索的全连接哈希神经网络
CN114241290A (zh) * 2021-12-20 2022-03-25 嘉兴市第一医院 用于边缘计算的室内场景理解方法、设备、介质及机器人
CN115170449B (zh) * 2022-06-30 2023-09-22 陕西科技大学 一种多模态融合场景图生成方法、系统、设备和介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528575B (zh) * 2015-11-18 2019-03-19 首都师范大学 基于上下文推理的天空检测方法
CN106778768A (zh) * 2016-11-22 2017-05-31 广西师范大学 基于多特征融合的图像场景分类方法
CN107341505B (zh) * 2017-06-07 2020-07-28 同济大学 一种基于图像显著性与Object Bank的场景分类方法

Also Published As

Publication number Publication date
CN108334830A (zh) 2018-07-27

Similar Documents

Publication Publication Date Title
CN108334830B (zh) 一种基于目标语义和深度外观特征融合的场景识别方法
Liu et al. 3DCNN-DQN-RNN: A deep reinforcement learning framework for semantic parsing of large-scale 3D point clouds
Ji et al. Salient object detection via multi-scale attention CNN
CN108108751B (zh) 一种基于卷积多特征和深度随机森林的场景识别方法
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
CN110914836A (zh) 在跨联网计算边缘连续运行应用程序的人工智能和深度学习中实现连续的存储器有界学习的系统和方法
US20170220864A1 (en) Method for Implementing a High-Level Image Representation for Image Analysis
CN113256640B (zh) 基于PointNet网络点云分割及虚拟环境生成方法和装置
CN116152267B (zh) 基于对比性语言图像预训练技术的点云实例分割方法
Shen A survey of object classification and detection based on 2d/3d data
CN112132197A (zh) 模型训练、图像处理方法、装置、计算机设备和存储介质
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
Sekma et al. Human action recognition based on multi-layer fisher vector encoding method
Hu et al. RGB-D semantic segmentation: a review
Chen et al. TriViews: A general framework to use 3D depth data effectively for action recognition
Alidoost et al. Knowledge based 3D building model recognition using convolutional neural networks from LiDAR and aerial imageries
Ghaderi et al. Selective unsupervised feature learning with convolutional neural network (S-CNN)
Guo et al. Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
Verma et al. Intelligence Embedded Image Caption Generator using LSTM based RNN Model
CN111368775A (zh) 一种基于局部上下文感知的复杂场景密集目标检测方法
Gu 3D densely connected convolutional network for the recognition of human shopping actions
CN114780775A (zh) 一种基于内容选择和引导机制的图像描述文本生成方法
Patel et al. A study on video semantics; overview, challenges, and applications
Cai et al. Learning pose dictionary for human action recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant