CN109446897A

CN109446897A - 基于图像上下文信息的场景识别方法及装置

Info

Publication number: CN109446897A
Application number: CN201811091826.8A
Authority: CN
Inventors: 鲁继文; 周杰; 袁博; 程晓娟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-03-08
Anticipated expiration: 2038-09-19
Also published as: CN109446897B

Abstract

本发明提出了一种基于图像上下文信息的场景识别方法及系统，其中，该方法包括以下步骤：将预设图像划分为多个图像块，以提取每个图像块的图像块特征；根据每个图像块的图像块特征通过显著性模块生成序列信息，以得到图像块在语义上的相关关系；根据图像块在语义上的相关关系对每个图像块及其上下文信息进行编码，以得到上下文信息特征；以及获取全局表观信息，并根据全局表观信息和上下文信息特征得到特征表达信息，以得到场景识别结果。该方法能够充分利用图像上下文信息，将场景中物体特征与其上下文的特征进行场景识别，从而提高图像的特征表达能力。

Description

基于图像上下文信息的场景识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于图像上下文信息的场景识别方法及装置。

背景技术

近年来，场景识别在计算机视觉领域得到了广泛关注，并且在机器人视觉，无人驾驶等应用中起着重要的作用。通常，场景是由特定物体按照某种布局组合而成，因此场景包含了多种信息，包括整体布局信息，所组成的物体信息以及物体之间的相关关系。尽管在场景识别领域有很多研究工作，但是开发出同时捕获场景中包含的多种信息的算法仍然是非常具有挑战性的任务。

场景识别的核心部分在于对场景的特征表达，现有的大部分工作可以分为主要的两大类：基于人工的特征表达和基于深度学习的特征表达。基于人工特征的方法主要是针对于图像特点以及任务，设计合理的特征描述子对图像进行表征。然而，这种方法只能捕捉场景图像低水平的表观特征，不足以充分表达复杂的场景，而且设计描述子需要大量的先验知识，计算量较大，实际应用价值较低。

相比之下，很多研究者都着手于深度特征学习的方法，通过网络自身学习图像特征。这种基于学习的方法不仅取代了手工设计的特征而且可以提取更高层水平以及多元信息的图像表达。在相关技术中存在以下几种情况：第一种，依赖于深度神经网络挖掘图像的全局特征，利用网络高层特征作为整张图像的表观信息；第二种，考虑到充分利用深度网络的多层特征，利用网络多个低层卷积层的特征和高层全连接层的特征聚合在一起，提高网络对特征的表达能力。针对于上述整张图像的操作，这些特征都不具有局部鲁棒性。为了实现图像局部特征的不变性，有些相关技术将图像分割成多个图像块，对每个图像块利用已经训练好的网络模型提取特征，最后聚合在一起。另外，场景中所包含物体的尺度大小不一，为了实现物体特征尺度不变性，相关技术还引入了多个网络，每个网络对应于不同尺度图像进行训练，最后将多个不同尺度图像特征结合在一起，提高特征判别性能。此外，有些研究者针对于场景中所组成物体的分布特性实现分类，有发明提出一种OOM网络统计场景中所出现物体的概率分布，以此作为特征区分不同场景。虽然表观特征和物体分布特征对实现分类起着重要作用，但是这些信息不充分表达一些相似场景的特征。从图1可以发现，若仅考虑图像整体的布局信息或者场景图像所组成的物体，很难将一些相似场景正确分类。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于图像上下文信息的场景识别方法。该方法可以提高图像的特征表达能力，并大大提高场景识别的准确性。

本发明的另一个目的在于提出一种基于图像上下文信息的场景识别装置。

为达到上述目的，本发明一方面提出了基于图像上下文信息的场景识别方法，包括以下步骤：将预设图像划分为多个图像块，以提取每个图像块的图像块特征；根据所述每个图像块的图像块特征通过显著性模块生成序列信息，以得到图像块在语义上的相关关系；根据所述图像块在语义上的相关关系对所述每个图像块及其上下文信息进行编码，以得到上下文信息特征；以及获取全局表观信息，并根据所述全局表观信息和所述上下文信息特征得到特征表达信息，以得到场景识别结果。

本发明实施例的基于图像上下文信息的场景识别方法，通过融合图像全局表观信息以及局部上下文信息，充分利用图像上下文信息，联合场景中物体特征与其上下文的特征，有效利用多方面特征提高网络对场景的表达能力提高特征的判别能力，很大程度上提高了性能。

另外，根据本发明上述实施例的基于图像上下文信息的场景识别方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述将预设图像分化为多个图像块，进一步包括：将训练集和测试集中所有预设图像归一化到相同尺寸大小；将归一化处理后的所述预设图像通过滑动窗口分割成所述多个图像块；利用卷积神经网络提取所述每个图像块的图像块特征。

进一步地，在本发明的一个实施例中，所述相关关系的计算公式为：

f＝relu(W_vV+W_hh_t-1+W_ee_t-1)

其中，f是通过感知器融合了图像块特征V，长短时记忆网络隐层特征h以及图像语义特征e，W·是对应感知器的参数，α代表下一时刻模块所关注的图像块的概率，α_i代表下一时刻关注第i个图像块的概率，L是所有图像块的数量，z被视为下一时刻图像块的概率特征，通过设置T次的迭代，模块会输出序列特征{z₁,z₂...z_T}，z_t分别与z_t-1和z_t+1在语义层面有很强的相关关系。

进一步地，在本发明的一个实施例中，所述根据所述图像块在语义上的相关关系对所述每个图像块及其上下文信息进行编码，进一步包括：利用长短时记忆网络获取具有处理时序信息的特性；加入门模块，利用所述长短时记忆网络过滤掉所述图像块中不具有判别性能的特性；借助所述长短时记忆网络存储对所述图像块及所述上下文信息进行编码。

进一步地，在本发明的一个实施例中，所述全局表观信息利用卷积神经网络对整张图像进行特征提取，所述上下文信息特征基于所述图像块进行获取。

为达到上述目的，本发明另一方面提出了一种基于图像上下文信息的场景识别装置，包括：提取模块，用于将预设图像划分为多个图像块，以提取每个图像块的图像块特征；生成模块，用于根据所述每个图像块的图像块特征通过显著性模块生成序列信息，以得到图像块在语义上的相关关系；编码模块，用于根据所述图像块在语义上的相关关系对所述每个图像块及其上下文信息进行编码，以得到上下文信息特征；获取模块，用于获取全局表观信息，并根据所述全局表观信息和所述上下文信息特征得到特征表达信息，以得到场景识别结果。

本发明实施例的基于图像上下文信息的场景识别装置，通过融合图像全局表观信息以及局部上下文信息，充分利用图像上下文信息，联合场景中物体特征与其上下文的特征，有效利用多方面特征提高网络对场景的表达能力提高特征的判别能力，很大程度上提高了性能。

另外，根据本发明上述实施例的基于图像上下文信息的场景识别装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述提取模块进一步包括：归一化单元，用于将训练集和测试集中所有预设图像归一化到相同尺寸大小；分割单元，用于将归一化处理后的所述预设图像通过滑动窗口分割成所述多个图像块；提取单元，用于利用卷积神经网络提取所述每个图像块的图像块特征。

f＝relu(W_vV+W_hh_t-1+W_ee_t-1)

进一步地，在本发明的一个实施例中，所述编码模块进一步包括：获取单元，用于利用长短时记忆网络获取具有处理时序信息的特性；过滤单元，用于加入门模块，利用所述长短时记忆网络过滤掉所述图像块中不具有判别性能的特性；编码单元，用于借助所述长短时记忆网络存储对所述图像块及所述上下文信息进行编码。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的多元化信息对场景分类的效果图；

图2为根据本发明实施例的基于图像上下文信息的场景识别方法的流程图；

图3为根据本发明的具体实施例中提取图像块特征的流程图；

图4为根据本发明的具体实施例中构造显著性模块的结构示意图；

图5为根据本发明的具体实施例中编码上下文信息特征的流程图；

图6为根据本发明实施例的基于图像上下文信息的场景识别方法的整体框架图；

图7为根据本发明实施例的基于图像上下文信息的场景识别装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于图像上下文信息的场景识别方法及装置进行描述，首先将参照附图描述根据本发明实施例提出的基于图像上下文信息的场景识别方法。

图2是本发明一个实施例的基于图像上下文信息的场景识别方法流程图。

如图2所示，该基于图像上下文信息的场景识别方法包括以下步骤：

在步骤S101中，将预设图像划分为多个图像块，以提取每个图像块的图像块特征。

进一步地，在本发明的一个实施例中，将预设图像分化为多个图像块，还可以包括：将训练集和测试集中所有预设图像归一化到相同尺寸大小；将归一化处理后的预设图像通过滑动窗口分割成多个图像块；利用卷积神经网络提取每个图像块的图像块特征。

举例而言，如图3所示，首先对给定的训练集和测试集中所有图像归一化到相同尺寸大小，然后将图像通过滑动窗口分割成多个图像块，利用卷积神经网络提取每个图像块的特征。

在步骤S102中，根据每个图像块的图像块特征通过显著性模块生成序列信息，以得到图像块在语义上的相关关系。

进一步地，在本发明的一个实施例中，相关关系的计算公式为：

f＝relu(W_vV+W_hh_t-1+W_ee_t-1)

具体而言，如图4所示，通过S0输出一系列的图像块特征V，这些图像块特征在几何位置上相关，但在语义概念上可能不存在相关性。设计显著性模块，生成序列信息，序列中的每个特征与其相邻元素在语义上有很强的相关关系。该模块基于多层感知机结构以图像块特征V，S2中隐层特征h_t-1以及上下文特征e_t-1为输入，找到与当前图像块特征最相关的特征e，比如周围环境信息或在某些场景中会成对出现。如下所示：

f＝relu(W_vV+W_hh_t-1+W_ee_t-1)

在步骤S103中，根据图像块在语义上的相关关系对每个图像块及其上下文信息进行编码，以得到上下文信息特征。

进一步地，在本发明的一个实施例中，根据图像块在语义上的相关关系对每个图像块及其上下文信息进行编码，还可以包括：利用长短时记忆网络获取具有处理时序信息的特性；加入门模块，利用长短时记忆网络过滤掉图像块中不具有判别性能的特性；借助长短时记忆网络存储对图像块及上下文信息进行编码。

可以理解的是，如图5所示，根据步骤S102中的S1找到图像块在语义上的相关关系，为了联合图像块与上下文信息，利用长短时记忆网络具有处理时序信息的特性，通过加入门模块，使得改进的长短时记忆网络一方面过滤掉图像块中不具有判别性能的特征，同时借助于长短时记忆网络存储信息的能力，对图像块及其上下文信息进行编码。例如，如下所示：

i_t＝σ(E_ie_t-1+H_hh_t-1+Z_iz_t+b_i)

f_t＝σ(E_fe_t-1+H_fh_t-1+Z_fz_t+b_i)

g_t＝σ(E_ce_t-1+H_ch_t-1+Z_cz_t+b_i)

w＝g(W_yy,W_ee_t-1)

c_t＝wi_tg_t+(1-w)f_tc_t-1

o_t＝σ(E_oe_t-1+H_oh_t-1+Z_oz_t+b_i)

h_t＝o_t tanh(c_t)

e_t＝W_eh_t

其中，i_t，f，o_t分别代表长短时记忆模块中的输入门，遗忘门和输出门。c_t代表记忆单元，h_t代表隐层特征，g_t代表输入信号特征，e_t代表上下文特征，w是通过门模块g生成的控制信号，用于处理当前时刻上下文特征与当前输入信号以及上一时刻记忆信息的关系。门模块是由图像标签y以及前一时刻上下文特征e_t-1通过多层感知机来控制，门模块的输出控制输入信息与上一时刻的存储信息对当前特征的影响。

在步骤S104中，获取全局表观信息，并根据全局表观信息和上下文信息特征得到特征表达信息，以得到场景识别结果。

进一步地，在本发明的一个实施例中，全局表观信息利用卷积神经网络对整张图像进行特征提取，上下文信息特征基于图像块进行获取。

可以理解的是，如图6所示，根据步骤S101、步骤S102和步骤S103对上下文信息特征基于图像块特征进行获取，融合图像全局表观信息和局部上下文信息，生成最后特征表达。

下面为本发明实施例的基于图像上下文信息的场景识别方法的优点进行详细赘述，具体如下：

1、本发明实施例将场景图像的全局表观信息与局部上下文信息结合在一起，可以利用场景中多方面的信息，提高网络对场景的特征表示。

2、本发明实施例在捕捉图像上下文信息时，利用显著性模块找到与图像块联系密切的特征，生成序列信息，序列中每个元素(图像块特征)与其相邻元素具有很强相关关系，可以反映图像块特征在语义上的相关性，便于增强图像表征能力。

3、本发明实施例通过加入门模块改进长短时记忆网络，一方面清除掉不具有判别性能的图像块特征，同时对具有判别能力的图像块特征与其上下文信息进行编码，可以提高图像特征的判别能力并捕捉图像的上下文信息。

根据本发明实施例提出的基于图像上下文信息的场景识别方法，通过融合图像全局表观信息以及局部上下文信息，充分利用图像上下文信息，联合场景中物体特征与其上下文的特征，有效利用多方面特征提高网络对场景的表达能力提高特征的判别能力，很大程度上提高了性能。

其次参照附图描述根据本发明实施例提出的基于图像上下文信息的场景识别装置。

图7是本发明一个实施例的基于图像上下文信息的场景识别装置的结构示意图。

如图7所示，该基于图像上下文信息的场景识别装置10包括：提取模块100、生成模块200、编码模块300和获取模块400。

其中，提取模块100用于将预设图像划分为多个图像块，以提取每个图像块的图像块特征。生成模块200用于根据每个图像块的图像块特征通过显著性模块生成序列信息，以得到图像块在语义上的相关关系。编码模块300用于根据图像块在语义上的相关关系对每个图像块及其上下文信息进行编码，以得到上下文信息特征。获取模块400用于获取全局表观信息，并根据全局表观信息和上下文信息特征得到特征表达信息，以得到场景识别结果。本发明实施例的场景识别装置10能够充分利用图像上下文信息，联合场景中物体特征与其上下文的特征，从而提高图像的特征表达能力。

进一步地，在本发明的一个实施例中，提取模块100还可以包括：归一化单元，用于将训练集和测试集中所有预设图像归一化到相同尺寸大小；分割单元，用于将归一化处理后的预设图像通过滑动窗口分割成多个图像块；提取单元，用于利用卷积神经网络提取每个图像块的图像块特征。

f＝relu(W_vV+W_hh_t-1+W_ee_t-1)

进一步地，在本发明的一个实施例中，编码模块300还可以包括：获取单元，用于利用长短时记忆网络获取具有处理时序信息的特性；过滤单元，用于加入门模块，利用长短时记忆网络过滤掉图像块中不具有判别性能的特性；编码单元，用于借助长短时记忆网络存储对图像块及上下文信息进行编码。

需要说明的是，前述对基于图像上下文信息的场景识别方法实施例的解释说明也适用于该装置，此处不再赘述。

根据本发明实施例提出的基于图像上下文信息的场景识别装置，通过融合图像全局表观信息以及局部上下文信息，充分利用图像上下文信息，联合场景中物体特征与其上下文的特征，有效利用多方面特征提高网络对场景的表达能力提高特征的判别能力，很大程度上提高了性能。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于图像上下文信息的场景识别方法，其特征在于，包括以下步骤：

将预设图像划分为多个图像块，以提取每个图像块的图像块特征；

根据所述每个图像块的图像块特征通过显著性模块生成序列信息，以得到图像块在语义上的相关关系；

根据所述图像块在语义上的相关关系对所述每个图像块及其上下文信息进行编码，以得到上下文信息特征；以及

获取全局表观信息，并根据所述全局表观信息和所述上下文信息特征得到特征表达信息，以得到场景识别结果。

2.根据权利要求1所述的基于图像上下文信息的场景识别方法，其特征在于，所述将预设图像分化为多个图像块，进一步包括：

将训练集和测试集中所有预设图像归一化到相同尺寸大小；

将归一化处理后的所述预设图像通过滑动窗口分割成所述多个图像块；

利用卷积神经网络提取所述每个图像块的图像块特征。

3.根据权利要求1所述的基于图像上下文信息的场景识别方法，其特征在于，所述相关关系的计算公式为：

f＝relu(W_vV+W_hh_t-1+W_ee_t-1)

4.根据权利要求1所述的基于图像上下文信息的场景识别方法，其特征在于，所述根据所述图像块在语义上的相关关系对所述每个图像块及其上下文信息进行编码，进一步包括：

利用长短时记忆网络获取具有处理时序信息的特性；

加入门模块，利用所述长短时记忆网络过滤掉所述图像块中不具有判别性能的特性；

借助所述长短时记忆网络存储对所述图像块及所述上下文信息进行编码。

5.根据权利要求1所述的基于图像上下文信息的场景识别方法，其特征在于，所述全局表观信息利用卷积神经网络对整张图像进行特征提取，所述上下文信息特征基于所述图像块进行获取。

6.一种基于图像上下文信息的场景识别装置，其特征在于，包括：

提取模块，用于将预设图像划分为多个图像块，以提取每个图像块的图像块特征；

生成模块，用于根据所述每个图像块的图像块特征通过显著性模块生成序列信息，以得到图像块在语义上的相关关系；

编码模块，用于根据所述图像块在语义上的相关关系对所述每个图像块及其上下文信息进行编码，以得到上下文信息特征；

获取模块，用于获取全局表观信息，并根据所述全局表观信息和所述上下文信息特征得到特征表达信息，以得到场景识别结果。

7.根据权利要求6所述的基于图像上下文信息的场景识别装置，其特征在于，所述提取模块进一步包括：

归一化单元，用于将训练集和测试集中所有预设图像归一化到相同尺寸大小；

分割单元，用于将归一化处理后的所述预设图像通过滑动窗口分割成所述多个图像块；

提取单元，用于利用卷积神经网络提取所述每个图像块的图像块特征。

8.根据权利要求6所述的基于图像上下文信息的场景识别装置，其特征在于，所述相关关系的计算公式为：

f＝relu(W_vV+W_hh_t-1+W_ee_t-1)

9.根据权利要求1所述的基于图像上下文信息的场景识别装置，其特征在于，所述编码模块进一步包括：

获取单元，用于利用长短时记忆网络获取具有处理时序信息的特性；

过滤单元，用于加入门模块，利用所述长短时记忆网络过滤掉所述图像块中不具有判别性能的特性；

编码单元，用于借助所述长短时记忆网络存储对所述图像块及所述上下文信息进行编码。

10.根据权利要求6所述的基于图像上下文信息的场景识别装置，其特征在于，所述全局表观信息利用卷积神经网络对整张图像进行特征提取，所述上下文信息特征基于所述图像块进行获取。