CN109446897B - 基于图像上下文信息的场景识别方法及装置 - Google Patents

基于图像上下文信息的场景识别方法及装置 Download PDF

Info

Publication number
CN109446897B
CN109446897B CN201811091826.8A CN201811091826A CN109446897B CN 109446897 B CN109446897 B CN 109446897B CN 201811091826 A CN201811091826 A CN 201811091826A CN 109446897 B CN109446897 B CN 109446897B
Authority
CN
China
Prior art keywords
image
image block
feature
context information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811091826.8A
Other languages
English (en)
Other versions
CN109446897A (zh
Inventor
鲁继文
周杰
袁博
程晓娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811091826.8A priority Critical patent/CN109446897B/zh
Publication of CN109446897A publication Critical patent/CN109446897A/zh
Application granted granted Critical
Publication of CN109446897B publication Critical patent/CN109446897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于图像上下文信息的场景识别方法及系统,其中,该方法包括以下步骤:将预设图像划分为多个图像块,以提取每个图像块的图像块特征;根据每个图像块的图像块特征通过显著性模块生成序列信息,以得到图像块在语义上的相关关系;根据图像块在语义上的相关关系对每个图像块及其上下文信息进行编码,以得到上下文信息特征;以及获取全局表观信息,并根据全局表观信息和上下文信息特征得到特征表达信息,以得到场景识别结果。该方法能够充分利用图像上下文信息,将场景中物体特征与其上下文的特征进行场景识别,从而提高图像的特征表达能力。

Description

基于图像上下文信息的场景识别方法及装置
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于图像上下文信息的场景识别方法及装置。
背景技术
近年来,场景识别在计算机视觉领域得到了广泛关注,并且在机器人视觉,无人驾驶等应用中起着重要的作用。通常,场景是由特定物体按照某种布局组合而成,因此场景包含了多种信息,包括整体布局信息,所组成的物体信息以及物体之间的相关关系。尽管在场景识别领域有很多研究工作,但是开发出同时捕获场景中包含的多种信息的算法仍然是非常具有挑战性的任务。
场景识别的核心部分在于对场景的特征表达,现有的大部分工作可以分为主要的两大类:基于人工的特征表达和基于深度学习的特征表达。基于人工特征的方法主要是针对于图像特点以及任务,设计合理的特征描述子对图像进行表征。然而,这种方法只能捕捉场景图像低水平的表观特征,不足以充分表达复杂的场景,而且设计描述子需要大量的先验知识,计算量较大,实际应用价值较低。
相比之下,很多研究者都着手于深度特征学习的方法,通过网络自身学习图像特征。这种基于学习的方法不仅取代了手工设计的特征而且可以提取更高层水平以及多元信息的图像表达。在相关技术中存在以下几种情况:第一种,依赖于深度神经网络挖掘图像的全局特征,利用网络高层特征作为整张图像的表观信息;第二种,考虑到充分利用深度网络的多层特征,利用网络多个低层卷积层的特征和高层全连接层的特征聚合在一起,提高网络对特征的表达能力。针对于上述整张图像的操作,这些特征都不具有局部鲁棒性。为了实现图像局部特征的不变性,有些相关技术将图像分割成多个图像块,对每个图像块利用已经训练好的网络模型提取特征,最后聚合在一起。另外,场景中所包含物体的尺度大小不一,为了实现物体特征尺度不变性,相关技术还引入了多个网络,每个网络对应于不同尺度图像进行训练,最后将多个不同尺度图像特征结合在一起,提高特征判别性能。此外,有些研究者针对于场景中所组成物体的分布特性实现分类,有发明提出一种OOM网络统计场景中所出现物体的概率分布,以此作为特征区分不同场景。虽然表观特征和物体分布特征对实现分类起着重要作用,但是这些信息不充分表达一些相似场景的特征。从图1可以发现,若仅考虑图像整体的布局信息或者场景图像所组成的物体,很难将一些相似场景正确分类。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于图像上下文信息的场景识别方法。该方法可以提高图像的特征表达能力,并大大提高场景识别的准确性。
本发明的另一个目的在于提出一种基于图像上下文信息的场景识别装置。
为达到上述目的,本发明一方面提出了基于图像上下文信息的场景识别方法,包括以下步骤:将预设图像划分为多个图像块,以提取每个图像块的图像块特征;根据所述每个图像块的图像块特征通过显著性模块生成序列信息,以得到图像块在语义上的相关关系;根据所述图像块在语义上的相关关系对所述每个图像块及其上下文信息进行编码,以得到上下文信息特征;以及获取全局表观信息,并根据所述全局表观信息和所述上下文信息特征得到特征表达信息,以得到场景识别结果。
本发明实施例的基于图像上下文信息的场景识别方法,通过融合图像全局表观信息以及局部上下文信息,充分利用图像上下文信息,联合场景中物体特征与其上下文的特征,有效利用多方面特征提高网络对场景的表达能力提高特征的判别能力,很大程度上提高了性能。
另外,根据本发明上述实施例的基于图像上下文信息的场景识别方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述将预设图像分化为多个图像块,进一步包括:将训练集和测试集中所有预设图像归一化到相同尺寸大小;将归一化处理后的所述预设图像通过滑动窗口分割成所述多个图像块;利用卷积神经网络提取所述每个图像块的图像块特征。
进一步地,在本发明的一个实施例中,所述相关关系的计算公式为:
f=relu(WvV+Whht-1+Weet-1)
Figure GDA0002571473850000021
Figure GDA0002571473850000022
其中,f是通过感知器融合了图像块特征V,长短时记忆网络隐层特征h以及图像语义特征e,W是对应感知器的参数,t为当前时刻,ht-1为前一时刻隐层特征,et-1为前一时刻上下文特征,Wv为图像块特征的对应感知器参数,Wh为长短时记忆网络隐层特征的对应感知器参数,We为图像语义特征的对应感知器参数是对softmax函数的具体表示,f是感知器的融合特征,Wi为关注第i个图像块时的权重参数,Wj表示关注第j个图像块时的权重参数,L代表图像块的个数,νi为第i个区域块对应的区域特征,α代表下一时刻模块所关注的图像块的概率,αi代表下一时刻关注第i个图像块的概率,L是所有图像块的数量,z被视为下一时刻图像块的概率特征,通过设置T次的迭代,模块会输出序列特征{z1,z2...zT},zt分别与zt-1和zt+1在语义层面有很强的相关关系。
进一步地,在本发明的一个实施例中,所述根据所述图像块在语义上的相关关系对所述每个图像块及其上下文信息进行编码,进一步包括:利用长短时记忆网络获取具有处理时序信息的特性;加入门模块,利用所述长短时记忆网络过滤掉所述图像块中不具有判别性能的特性;借助所述长短时记忆网络存储对所述图像块及所述上下文信息进行编码。
进一步地,在本发明的一个实施例中,所述全局表观信息利用卷积神经网络对整张图像进行特征提取,所述上下文信息特征基于所述图像块进行获取。
为达到上述目的,本发明另一方面提出了一种基于图像上下文信息的场景识别装置,包括:提取模块,用于将预设图像划分为多个图像块,以提取每个图像块的图像块特征;生成模块,用于根据所述每个图像块的图像块特征通过显著性模块生成序列信息,以得到图像块在语义上的相关关系;编码模块,用于根据所述图像块在语义上的相关关系对所述每个图像块及其上下文信息进行编码,以得到上下文信息特征;获取模块,用于获取全局表观信息,并根据所述全局表观信息和所述上下文信息特征得到特征表达信息,以得到场景识别结果。
本发明实施例的基于图像上下文信息的场景识别装置,通过融合图像全局表观信息以及局部上下文信息,充分利用图像上下文信息,联合场景中物体特征与其上下文的特征,有效利用多方面特征提高网络对场景的表达能力提高特征的判别能力,很大程度上提高了性能。
另外,根据本发明上述实施例的基于图像上下文信息的场景识别装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述提取模块进一步包括:归一化单元,用于将训练集和测试集中所有预设图像归一化到相同尺寸大小;分割单元,用于将归一化处理后的所述预设图像通过滑动窗口分割成所述多个图像块;提取单元,用于利用卷积神经网络提取所述每个图像块的图像块特征。
进一步地,在本发明的一个实施例中,所述相关关系的计算公式为:
f=relu(WvV+Whht-1+Weet-1)
Figure GDA0002571473850000041
Figure GDA0002571473850000042
其中,f是通过感知器融合了图像块特征V,长短时记忆网络隐层特征h以及图像语义特征e,W是对应感知器的参数,t为当前时刻,ht-1为前一时刻隐层特征,et-1为前一时刻上下文特征,Wv为图像块特征的对应感知器参数,Wh为长短时记忆网络隐层特征的对应感知器参数,We为图像语义特征的对应感知器参数是对softmax函数的具体表示,f是感知器的融合特征,Wi为关注第i个图像块时的权重参数,Wj表示关注第j个图像块时的权重参数,L代表图像块的个数,νi为第i个区域块对应的区域特征,α代表下一时刻模块所关注的图像块的概率,αi代表下一时刻关注第i个图像块的概率,L是所有图像块的数量,z被视为下一时刻图像块的概率特征,通过设置T次的迭代,模块会输出序列特征{z1,z2...zT},zt分别与zt-1和zt+1在语义层面有很强的相关关系。
进一步地,在本发明的一个实施例中,所述编码模块进一步包括:获取单元,用于利用长短时记忆网络获取具有处理时序信息的特性;过滤单元,用于加入门模块,利用所述长短时记忆网络过滤掉所述图像块中不具有判别性能的特性;编码单元,用于借助所述长短时记忆网络存储对所述图像块及所述上下文信息进行编码。
进一步地,在本发明的一个实施例中,所述全局表观信息利用卷积神经网络对整张图像进行特征提取,所述上下文信息特征基于所述图像块进行获取。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的多元化信息对场景分类的效果图;
图2为根据本发明实施例的基于图像上下文信息的场景识别方法的流程图;
图3为根据本发明的具体实施例中提取图像块特征的流程图;
图4为根据本发明的具体实施例中构造显著性模块的结构示意图;
图5为根据本发明的具体实施例中编码上下文信息特征的流程图;
图6为根据本发明实施例的基于图像上下文信息的场景识别方法的整体框架图;
图7为根据本发明实施例的基于图像上下文信息的场景识别装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于图像上下文信息的场景识别方法及装置进行描述,首先将参照附图描述根据本发明实施例提出的基于图像上下文信息的场景识别方法。
图2是本发明一个实施例的基于图像上下文信息的场景识别方法流程图。
如图2所示,该基于图像上下文信息的场景识别方法包括以下步骤:
在步骤S101中,将预设图像划分为多个图像块,以提取每个图像块的图像块特征。
进一步地,在本发明的一个实施例中,将预设图像分化为多个图像块,还可以包括:将训练集和测试集中所有预设图像归一化到相同尺寸大小;将归一化处理后的预设图像通过滑动窗口分割成多个图像块;利用卷积神经网络提取每个图像块的图像块特征。
举例而言,如图3所示,首先对给定的训练集和测试集中所有图像归一化到相同尺寸大小,然后将图像通过滑动窗口分割成多个图像块,利用卷积神经网络提取每个图像块的特征。
在步骤S102中,根据每个图像块的图像块特征通过显著性模块生成序列信息,以得到图像块在语义上的相关关系。
进一步地,在本发明的一个实施例中,相关关系的计算公式为:
f=relu(WvV+Whht-1+Weet-1)
Figure GDA0002571473850000051
Figure GDA0002571473850000052
其中,f是通过感知器融合了图像块特征V,长短时记忆网络隐层特征h以及图像语义特征e,W是对应感知器的参数,t为当前时刻,ht-1为前一时刻隐层特征,et-1为前一时刻上下文特征,Wv为图像块特征的对应感知器参数,Wh为长短时记忆网络隐层特征的对应感知器参数,We为图像语义特征的对应感知器参数是对softmax函数的具体表示,f是感知器的融合特征,Wi为关注第i个图像块时的权重参数,Wj表示关注第j个图像块时的权重参数,L代表图像块的个数,νi为第i个区域块对应的区域特征,α代表下一时刻模块所关注的图像块的概率,αi代表下一时刻关注第i个图像块的概率,L是所有图像块的数量,z被视为下一时刻图像块的概率特征,通过设置T次的迭代,模块会输出序列特征{z1,z2...zT},zt分别与zt-1和zt+1在语义层面有很强的相关关系。
具体而言,如图4所示,通过S0输出一系列的图像块特征V,这些图像块特征在几何位置上相关,但在语义概念上可能不存在相关性。设计显著性模块,生成序列信息,序列中的每个特征与其相邻元素在语义上有很强的相关关系。该模块基于多层感知机结构以图像块特征V,S2中隐层特征ht-1以及上下文特征et-1为输入,找到与当前图像块特征最相关的特征e,比如周围环境信息或在某些场景中会成对出现。如下所示:
f=relu(WvV+Whht-1+Weet-1)
Figure GDA0002571473850000061
Figure GDA0002571473850000062
其中,f是通过感知器融合了图像块特征V,长短时记忆网络隐层特征h以及图像语义特征e,W是对应感知器的参数,t为当前时刻,ht-1为前一时刻隐层特征,et-1为前一时刻上下文特征,Wv为图像块特征的对应感知器参数,Wh为长短时记忆网络隐层特征的对应感知器参数,We为图像语义特征的对应感知器参数是对softmax函数的具体表示,f是感知器的融合特征,Wi为关注第i个图像块时的权重参数,Wj表示关注第j个图像块时的权重参数,L代表图像块的个数,νi为第i个区域块对应的区域特征,α代表下一时刻模块所关注的图像块的概率,αi代表下一时刻关注第i个图像块的概率,L是所有图像块的数量,z被视为下一时刻图像块的概率特征,通过设置T次的迭代,模块会输出序列特征{z1,z2...zT},zt分别与zt-1和zt+1在语义层面有很强的相关关系。
在步骤S103中,根据图像块在语义上的相关关系对每个图像块及其上下文信息进行编码,以得到上下文信息特征。
进一步地,在本发明的一个实施例中,根据图像块在语义上的相关关系对每个图像块及其上下文信息进行编码,还可以包括:利用长短时记忆网络获取具有处理时序信息的特性;加入门模块,利用长短时记忆网络过滤掉图像块中不具有判别性能的特性;借助长短时记忆网络存储对图像块及上下文信息进行编码。
可以理解的是,如图5所示,根据步骤S102中的S1找到图像块在语义上的相关关系,为了联合图像块与上下文信息,利用长短时记忆网络具有处理时序信息的特性,通过加入门模块,使得改进的长短时记忆网络一方面过滤掉图像块中不具有判别性能的特征,同时借助于长短时记忆网络存储信息的能力,对图像块及其上下文信息进行编码。例如,如下所示:
it=σ(Eiet-1+Hhht-1+Zizt+bi)
ft=σ(Efet-1+Hfht-1+Zfzt+bi)
gt=σ(Ecet-1+Hcht-1+Zczt+bi)
w=g(Wyy,Weet-1)
ct=witgt+(1-w)ftct-1
ot=σ(Eoet-1+Hoht-1+Zozt+bi)
ht=ottanh(ct)
et=Weht
其中,it,f,ot分别代表长短时记忆模块中的输入门,遗忘门和输出门。ct代表记忆单元,ht代表隐层特征,gt代表输入信号特征,et代表上下文特征,w是通过门模块g生成的控制信号,用于处理当前时刻上下文特征与当前输入信号以及上一时刻记忆信息的关系。门模块是由图像标签y以及前一时刻上下文特征et-1通过多层感知机来控制,门模块的输出控制输入信息与上一时刻的存储信息对当前特征的影响。
在步骤S104中,获取全局表观信息,并根据全局表观信息和上下文信息特征得到特征表达信息,以得到场景识别结果。
进一步地,在本发明的一个实施例中,全局表观信息利用卷积神经网络对整张图像进行特征提取,上下文信息特征基于图像块进行获取。
可以理解的是,如图6所示,根据步骤S101、步骤S102和步骤S103对上下文信息特征基于图像块特征进行获取,融合图像全局表观信息和局部上下文信息,生成最后特征表达。
下面为本发明实施例的基于图像上下文信息的场景识别方法的优点进行详细赘述,具体如下:
1、本发明实施例将场景图像的全局表观信息与局部上下文信息结合在一起,可以利用场景中多方面的信息,提高网络对场景的特征表示。
2、本发明实施例在捕捉图像上下文信息时,利用显著性模块找到与图像块联系密切的特征,生成序列信息,序列中每个元素(图像块特征)与其相邻元素具有很强相关关系,可以反映图像块特征在语义上的相关性,便于增强图像表征能力。
3、本发明实施例通过加入门模块改进长短时记忆网络,一方面清除掉不具有判别性能的图像块特征,同时对具有判别能力的图像块特征与其上下文信息进行编码,可以提高图像特征的判别能力并捕捉图像的上下文信息。
根据本发明实施例提出的基于图像上下文信息的场景识别方法,通过融合图像全局表观信息以及局部上下文信息,充分利用图像上下文信息,联合场景中物体特征与其上下文的特征,有效利用多方面特征提高网络对场景的表达能力提高特征的判别能力,很大程度上提高了性能。
其次参照附图描述根据本发明实施例提出的基于图像上下文信息的场景识别装置。
图7是本发明一个实施例的基于图像上下文信息的场景识别装置的结构示意图。
如图7所示,该基于图像上下文信息的场景识别装置10包括:提取模块100、生成模块200、编码模块300和获取模块400。
其中,提取模块100用于将预设图像划分为多个图像块,以提取每个图像块的图像块特征。生成模块200用于根据每个图像块的图像块特征通过显著性模块生成序列信息,以得到图像块在语义上的相关关系。编码模块300用于根据图像块在语义上的相关关系对每个图像块及其上下文信息进行编码,以得到上下文信息特征。获取模块400用于获取全局表观信息,并根据全局表观信息和上下文信息特征得到特征表达信息,以得到场景识别结果。本发明实施例的场景识别装置10能够充分利用图像上下文信息,联合场景中物体特征与其上下文的特征,从而提高图像的特征表达能力。
进一步地,在本发明的一个实施例中,提取模块100还可以包括:归一化单元,用于将训练集和测试集中所有预设图像归一化到相同尺寸大小;分割单元,用于将归一化处理后的预设图像通过滑动窗口分割成多个图像块;提取单元,用于利用卷积神经网络提取每个图像块的图像块特征。
进一步地,在本发明的一个实施例中,相关关系的计算公式为:
f=relu(WvV+Whht-1+Weet-1)
Figure GDA0002571473850000081
Figure GDA0002571473850000082
其中,f是通过感知器融合了图像块特征V,长短时记忆网络隐层特征h以及图像语义特征e,W是对应感知器的参数,t为当前时刻,ht-1为前一时刻隐层特征,et-1为前一时刻上下文特征,Wv为图像块特征的对应感知器参数,Wh为长短时记忆网络隐层特征的对应感知器参数,We为图像语义特征的对应感知器参数,是对softmax函数的具体表示,f是感知器的融合特征,Wi为关注第i个图像块时的权重参数,Wj表示关注第j个图像块时的权重参数,L代表图像块的个数,νi为第i个区域块对应的区域特征,α代表下一时刻模块所关注的图像块的概率,αi代表下一时刻关注第i个图像块的概率,L是所有图像块的数量,z被视为下一时刻图像块的概率特征,通过设置T次的迭代,模块会输出序列特征{z1,z2...zT},zt分别与zt-1和zt+1在语义层面有很强的相关关系。
进一步地,在本发明的一个实施例中,编码模块300还可以包括:获取单元,用于利用长短时记忆网络获取具有处理时序信息的特性;过滤单元,用于加入门模块,利用长短时记忆网络过滤掉图像块中不具有判别性能的特性;编码单元,用于借助长短时记忆网络存储对图像块及上下文信息进行编码。
进一步地,在本发明的一个实施例中,全局表观信息利用卷积神经网络对整张图像进行特征提取,上下文信息特征基于图像块进行获取。
需要说明的是,前述对基于图像上下文信息的场景识别方法实施例的解释说明也适用于该装置,此处不再赘述。
根据本发明实施例提出的基于图像上下文信息的场景识别装置,通过融合图像全局表观信息以及局部上下文信息,充分利用图像上下文信息,联合场景中物体特征与其上下文的特征,有效利用多方面特征提高网络对场景的表达能力提高特征的判别能力,很大程度上提高了性能。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (8)

1.一种基于图像上下文信息的场景识别方法,其特征在于,包括以下步骤:
将预设图像划分为多个图像块,以提取每个图像块的图像块特征;
根据所述每个图像块的图像块特征通过显著性模块生成序列信息,以得到图像块在语义上的相关关系;
根据所述图像块在语义上的相关关系对所述每个图像块及其上下文信息进行编码,以得到上下文信息特征,进一步包括:利用长短时记忆网络获取具有处理时序信息的特性;加入门模块,利用所述长短时记忆网络过滤掉所述图像块中不具有判别性能的特性;借助所述长短时记忆网络存储对所述图像块及所述上下文信息进行编码;以及
获取全局表观信息,并根据所述全局表观信息和所述上下文信息特征得到特征表达信息,以得到场景识别结果。
2.根据权利要求1所述的基于图像上下文信息的场景识别方法,其特征在于,所述将预设图像分化为多个图像块,进一步包括:
将训练集和测试集中所有预设图像归一化到相同尺寸大小;
将归一化处理后的所述预设图像通过滑动窗口分割成所述多个图像块;
利用卷积神经网络提取所述每个图像块的图像块特征。
3.根据权利要求1所述的基于图像上下文信息的场景识别方法,其特征在于,所述相关关系的计算公式为:
f=relu(WvV+Whht-1+Weet-1)
Figure FDA0002571473840000011
Figure FDA0002571473840000012
其中,f是通过感知器融合了图像块特征V,长短时记忆网络隐层特征h以及图像语义特征e,W是对应感知器的参数,t为当前时刻,ht-1为前一时刻隐层特征,et-1为前一时刻上下文特征,Wv为图像块特征的对应感知器参数,Wh为长短时记忆网络隐层特征的对应感知器参数,We为图像语义特征的对应感知器参数是对softmax函数的具体表示,f是感知器的融合特征,Wi为关注第i个图像块时的权重参数,Wj表示关注第j个图像块时的权重参数,L代表图像块的个数,νi为第i个区域块对应的区域特征,α代表下一时刻模块所关注的图像块的概率,αi代表下一时刻关注第i个图像块的概率,L是所有图像块的数量,z被视为下一时刻图像块的概率特征,通过设置T次的迭代,模块会输出序列特征{z1,z2...zT},zt分别与zt-1和zt+1在语义层面存在相关关系。
4.根据权利要求1所述的基于图像上下文信息的场景识别方法,其特征在于,所述全局表观信息利用卷积神经网络对整张图像进行特征提取,所述上下文信息特征基于所述图像块进行获取。
5.一种基于图像上下文信息的场景识别装置,其特征在于,包括:
提取模块,用于将预设图像划分为多个图像块,以提取每个图像块的图像块特征;
生成模块,用于根据所述每个图像块的图像块特征通过显著性模块生成序列信息,以得到图像块在语义上的相关关系;
编码模块,用于根据所述图像块在语义上的相关关系对所述每个图像块及其上下文信息进行编码,以得到上下文信息特征,所述编码模块进一步包括:
获取单元,用于利用长短时记忆网络获取具有处理时序信息的特性;
过滤单元,用于加入门模块,利用所述长短时记忆网络过滤掉所述图像块中不具有判别性能的特性;
编码单元,用于借助所述长短时记忆网络存储对所述图像块及所述上下文信息进行编码;
获取模块,用于获取全局表观信息,并根据所述全局表观信息和所述上下文信息特征得到特征表达信息,以得到场景识别结果。
6.根据权利要求5所述的基于图像上下文信息的场景识别装置,其特征在于,所述提取模块进一步包括:
归一化单元,用于将训练集和测试集中所有预设图像归一化到相同尺寸大小;
分割单元,用于将归一化处理后的所述预设图像通过滑动窗口分割成所述多个图像块;
提取单元,用于利用卷积神经网络提取所述每个图像块的图像块特征。
7.根据权利要求5所述的基于图像上下文信息的场景识别装置,其特征在于,所述相关关系的计算公式为:
f=relu(WvV+Whht-1+Weet-1)
Figure FDA0002571473840000021
Figure FDA0002571473840000022
其中,f是通过感知器融合了图像块特征V,长短时记忆网络隐层特征h以及图像语义特征e,W是对应感知器的参数,t为当前时刻,ht-1为前一时刻隐层特征,et-1为前一时刻上下文特征,Wv为图像块特征的对应感知器参数,Wh为长短时记忆网络隐层特征的对应感知器参数,We为图像语义特征的对应感知器参数,是对softmax函数的具体表示,f是感知器的融合特征,Wi为关注第i个图像块时的权重参数,Wj表示关注第j个图像块时的权重参数,L代表图像块的个数,νi为第i个区域块对应的区域特征,α代表下一时刻模块所关注的图像块的概率,αi代表下一时刻关注第i个图像块的概率,L是所有图像块的数量,z被视为下一时刻图像块的概率特征,通过设置T次的迭代,模块会输出序列特征{z1,z2...zT},zt分别与zt-1和zt+1在语义层面存在相关关系。
8.根据权利要求5所述的基于图像上下文信息的场景识别装置,其特征在于,所述全局表观信息利用卷积神经网络对整张图像进行特征提取,所述上下文信息特征基于所述图像块进行获取。
CN201811091826.8A 2018-09-19 2018-09-19 基于图像上下文信息的场景识别方法及装置 Active CN109446897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811091826.8A CN109446897B (zh) 2018-09-19 2018-09-19 基于图像上下文信息的场景识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811091826.8A CN109446897B (zh) 2018-09-19 2018-09-19 基于图像上下文信息的场景识别方法及装置

Publications (2)

Publication Number Publication Date
CN109446897A CN109446897A (zh) 2019-03-08
CN109446897B true CN109446897B (zh) 2020-10-27

Family

ID=65532668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811091826.8A Active CN109446897B (zh) 2018-09-19 2018-09-19 基于图像上下文信息的场景识别方法及装置

Country Status (1)

Country Link
CN (1) CN109446897B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781939A (zh) * 2019-10-17 2020-02-11 中国铁塔股份有限公司 一种相似图片的检测方法、装置及项目管理系统
CN110850711A (zh) * 2019-12-06 2020-02-28 中国科学院自动化研究所 基于云端的辅助驾驶控制系统及方法
CN111428593A (zh) * 2020-03-12 2020-07-17 北京三快在线科技有限公司 一种文字识别方法、装置、电子设备及存储介质
CN112633064B (zh) * 2020-11-19 2023-12-15 深圳银星智能集团股份有限公司 一种场景识别方法和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077352A (zh) * 2014-05-27 2014-10-01 浙江大学 基于能量模型的图像语义标注方法
CN108334830A (zh) * 2018-01-25 2018-07-27 南京邮电大学 一种基于目标语义和深度外观特征融合的场景识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077352A (zh) * 2014-05-27 2014-10-01 浙江大学 基于能量模型的图像语义标注方法
CN108334830A (zh) * 2018-01-25 2018-07-27 南京邮电大学 一种基于目标语义和深度外观特征融合的场景识别方法

Also Published As

Publication number Publication date
CN109446897A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN109740419B (zh) 一种基于Attention-LSTM网络的视频行为识别方法
Cao et al. An attention enhanced bidirectional LSTM for early forest fire smoke recognition
CN107506740B (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN109446897B (zh) 基于图像上下文信息的场景识别方法及装置
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
Wang et al. Unsupervised learning of visual representations using videos
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN111339849A (zh) 一种融合行人属性的行人重识别的方法
CN112801063B (zh) 神经网络系统和基于神经网络系统的图像人群计数方法
Oluwasammi et al. Features to text: a comprehensive survey of deep learning on semantic segmentation and image captioning
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
Cho et al. A temporal sequence learning for action recognition and prediction
CN112861840A (zh) 基于多特征融合卷积网络的复杂场景字符识别方法及系统
CN110633689B (zh) 基于半监督注意力网络的人脸识别模型
El‐Henawy et al. Action recognition using fast HOG3D of integral videos and Smith–Waterman partial matching
CN115147890A (zh) 用于创建将用于图像识别的图像数据嵌入的系统、方法和存储介质
Zhang [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks
CN116229580A (zh) 一种基于多粒度金字塔交叉网络的行人重识别方法
CN113298037B (zh) 一种基于胶囊网络的车辆重识别方法
CN115393802A (zh) 一种基于小样本学习的铁路场景不常见入侵目标识别方法
Li et al. Evaluation of Global Descriptor Methods for Appearance‐Based Visual Place Recognition
Peng et al. Pedestrian motion recognition via Conv‐VLAD integrated spatial‐temporal‐relational network
CN112270228A (zh) 一种基于dcca融合特征的行人重识别方法
Zhang et al. Surveillance videos classification based on multilayer long short-term memory networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant