CN104933420B

CN104933420B - 一种场景图像识别方法和场景图像识别设备

Info

Publication number: CN104933420B
Application number: CN201510389185.4A
Authority: CN
Inventors: 姜宇宁; 李百恩
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Yuanli Jinzhi Chongqing Technology Co ltd
Priority date: 2015-07-03
Filing date: 2015-07-03
Publication date: 2018-11-27
Anticipated expiration: 2035-07-03
Also published as: CN104933420A

Abstract

本发明提供了一种场景图像识别方法及其设备，涉及图像处理技术领域。该方法包括：步骤S101：提取图像的特征，以形成特征图；步骤S102：利用多个随机模板将所述特征图切分成多个独立的通道；以及步骤S103：将所述多个独立的通道进行池化，以形成新的特征图。该方法可以更加精确地识别场景，以提供最优的场景识别性能。该场景图像识别设备同样具有上述优点。

Description

一种场景图像识别方法和场景图像识别设备

技术领域

本发明涉及图像处理技术领域，具体而言涉及一种场景图像识别方法及其设备。

背景技术

场景识别(scene recognition)是广义上的图像识别(image recognition)问题中的一个特定的子问题，其目标即为给定一张图像或照片，由计算机自动判断该图像或照片是属于何种具体的场景(包括但不限于室外场景如海滩、森林、城市等，室内场景如客厅、卧室、健身房等，以及事件场景如足球比赛、游行、演唱会等)。如今，场景识别技术在视频监控、社交网络用户行为挖掘等方面发挥着非常重要的作用，也因此受到了广泛的关注和研究。

在当前学界及业界中现有的场景识别方法几乎都是直接移植了广义图像识别方法，其主要可归为两个步骤：第一步，提取图像的外表特征(appearance feature)，如颜色直方图、HOG(histogram of gradient,梯度直方图)、SIFT(scale-invariant featuretransform，尺度不变特征变换)、深度神经网络的特征层等；第二步，是利用大量的训练图像数据，在第一步提取的图像外表特征上训练分类器，如SVM(support vector machine，支持向量机)、DF(decision forest，决策森林)、神经网络等，根据图像的外表特征对图像所属的场景进行分类预测。

然而，场景图像与广义图像对比有着一项很特殊的性质：空间布局(spatiallayout)。如图1所示，在场景为“海滩”的图像中，具有天空、建筑、海、沙滩等空间布局信息；而在场景为“航帆”的图像中，具有帆、天空，船和海等空间布局信息。场景通常可分类为但不限于，室内、室外、操场、建筑物、城里、乡下、高速公路、沙滩、森林。对场景进行分类并不关心图像中具体有什么物体，而是关注图片在什么场景下被拍摄的。

空间布局信息对于描述场景图像有非常积极的意义：同一类别的场景往往具有相似的空间布局，而不同类别的场景的空间布局往往有较大差异，而妥善利用这些空间布局信息将会使场景识别更加精确。但在现有的场景识别方法中，无论是提取图像特征还是训练分类器，俱没有考虑到不同类别的场景图像的空间布局信息并加以利用，因此现有方法无法提供最优的场景识别性能。

由此可见，现有技术中的上述场景图像识别方法由于没有考虑到空间布局信息，导致场景图像识别不够精确，没有达到最优的场景识别性能。因此，为解决上述技术问题，有必要提出一种新的场景图像识别方法及其设备。

发明内容

针对现有技术的不足，本发明提出一种场景图像识别方法和场景图像识别设备，可以显著提高场景识别的精确度和性能。

本发明的一个实施例提供一种场景图像识别方法，所述方法包括：步骤S101：提取图像的特征，以形成特征图；步骤S102：利用多个随机模板将所述特征图切分成多个独立的通道；以及步骤S103：将所述多个独立的通道进行池化，以形成新的特征图。

示例性地，所述多个随机模板是预先定义的。

示例性地，该方法还包括步骤S104：将所述新的特征图通过全连接层以进行分类。

示例性地，所述全连接层中的每个节点是基于所述新的特征图中的所有特征值的，或者是基于所述新的特征图中的某部分的特征值的。

示例性地，该方法还包括步骤S105：将分类结果通过最优胜出策略做出判断。

本发明的另一实施例提供一种场景图像识别设备，所述设备包括：特征提取模块，用于提取图像的特征，以形成特征图；随机空间切分模块，用于利用多个随机模板将所述图像切分成多个独立的通道；以及空间池化模块，用于将所述多个独立的通道进行池化，以形成新的特征图。

示例性地，所述多个随机模板是预先定义的。

示例性地，该场景图像识别设备还包括全连接分类模块，用于将所述新的特征图通过全连接层以进行分类。

示例性地，该场景图像识别设备还包括最优胜出策略模块，用于将分类结果通过最优胜出策略做出判断。

本发明的场景图像识别方法，由于充分利用了空间布局信息，因而可以保证更高的场景识别精确度和最优的场景识别性能。本发明的场景图像识别设备，同样具有上述优点。

附图说明

本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述，用来解释本发明的原理。

附图中：

图1为场景分类中的空间布局信息的示图；

图2为本发明实施例的场景图像识别方法的流程图；

图3为本发明实施例的场景图像识别方法的示意图；

图4为本发明实施例的全连接层的示意图；

图5为本发明实施例的局部全连接层的示意图；以及

图6为本发明实施例的最优胜出策略的示意图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

应当理解的是，本发明能够以不同形式实施，而不应当解释为局限于这里提出的实施例。相反地，提供这些实施例将使公开彻底和完全，并且将本发明的范围完全地传递给本领域技术人员。在附图中，为了清楚，层和区的尺寸以及相对尺寸可能被夸大。自始至终相同附图标记表示相同的元件。

在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时，单数形式的“一”、“一个”和“所述/该”也意图包括复数形式，除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”，当在该说明书中使用时，确定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时，术语“和/或”包括相关所列项目的任何及所有组合。

为了彻底理解本发明，将在下列的描述中提出详细的步骤以及详细的结构，以便阐释本发明的技术方案。本发明的较佳实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

本发明的一个实施例提供一种场景图像识别方法，用于通过利用空间布局信息来对场景进行分类。该方法可以显著提高场景识别的精确度以及场景识别性能。

下面，参照图2和图3来具体描述本发明的一个实施例的一种场景图像识别方法。其中，图2为本发明实施例的场景图像识别方法的流程图。图3为本发明实施例的场景图像识别方法的示意图；

本发明实施例的场景图像识别方法，包括如下步骤：

步骤S101：提取图像的特征，以形成特征图。示例性地，本步骤包括：输入原始图像，提取原始图像的外表特征，如颜色直方图、HOG、SIFT、深度神经网络的卷积层等，并在维持原始图像的二维空间布局的条件下，将提取出的外表特征以一组特征图的形式表达。

步骤S102：利用多个随机模板将所述特征图切分成多个独立的通道。示例性地，本步骤包括：将步骤S101中生成的特征图，按照多个随机切分模板独立地切分成若干子图。每个随机切分模板将独立地产生等数量的、但形状大小不一的子图。随机切分模板例如但不限于，将特征图进行非等分，或将特征图旋转某个角度然后再进行非等分。除特别声明外，每个随机切分模板所产生的数据(包括此步骤中产生的子图及以后步骤中衍变出的内容)相互独立并不会交叉影响，故称之为一个通道。其中，通过多次的随机空间切分的方式捕获多通道的、相互独立地图像空间布局信息。

示例性地，该多个随机切分模板是预先定义好的。

步骤S103：将所述多个独立的通道进行空间池化(spatial pooling)，以形成新的特征图。示例性地，本步骤包括：对于每个通道中的子图，进一步地将其切分为等形状大小的网格，接着对每个网格进行空间池化。通过此种方式，每个通道将会产生一组新的特征图。在此步骤中的池化策略包括但不限于平均池化(average pooling)、最大值池化(maxpooling)等等。

步骤S104：将所述新的特征图通过全连接层(fully-connected layer)以进行分类。示例性地，本步骤包括：将每个通道产生的新的特征图，通过一层或多层全连接层，做出对于每一类场景类的置信度预测。例如在某系统中一共有N个场景类别，则在此步骤后每一个通道将独立地生成一个N维的置信度向量，其中的每一维代表对当前图片属于对应类别的置信度。在本步骤中，全连接层指神经网络模型的全连接层；将新的特征图生成置信度向量的过程即为分类过程。

步骤S105：将分类结果通过最优胜出策略(max-out strategy)做出判断。示例性地，对不同通道生成的置信度向量，将其逐维取最大值，通过此方式将其合并为一个唯一的置信度向量。

步骤S106，对最终生成的置信度向量做归一化后，得到最后的场景识别结果。

参照图3，该图示出了根据本发明的方法流程的具体实施例，详细地表述了在步骤S101获得了特征图后，通过步骤S102、S103将单通道的特征图变为多通道的、且经过了随机空间池化的新特征图的过程。由此图可以看出，经过步骤S102、S103后，多通道的新特征图捕获且携带了多种空间布局信息，从而使得后面的步骤可以利用这些多样的空间布局信息做出更准确的场景识别分类。通过空间池化的方式，将图像空间布局信息嵌入而形成新的特征图，最终接入神经网络的全连接层做分类识别。

下面，将通过图4和图5详细描述步骤S104中的全连接分类方法。其中，图4为本发明实施例的全连接层的示意图，图5为本发明实施例的局部全连接层的示意图。

示例性地，参照图4，该图示出了根据本发明中全连接层(对应步骤S104)的一种实施例。在该实施例中，全连接层中的每一个节点(图中灰色节点)的值，是经过新的特征图中的所有特征值的加权线性组合和非线性变换得到的。

示例性地，图5所示的实施例为图4所示实施例的一个变种。在该实施例中，全连接层的每一个节点的值，仅仅是经过某一个特征子图(由步骤S102、S103产生的)中的所有特征值的加权线性组合和非线性变换得到的。这意味着，全连接层中的某一个节点，其描述对象并不是完整的原始图像，而是对应着原始图像的某一部分。通过这样的方法，全连接层的节点能克服噪音的影响，更加专注地描述图像的局部特征，从而获得更好的识别效果。此种实施例称之为局部全连接层。可结合生成的特征子图，使用局部全连接层做分类识别，从而获得更优的场景识别效果。

下面，将参照图6详细描述最优胜出策略。图6为本发明实施例的最优胜出策略的示意图。

参照图6，该图示出了根据本发明中最优胜出策略(对应步骤S105)和归一化(对应步骤S106)的示范例。在该示范例中，一共有A、B、C、D四类场景和3个通道：在步骤S105中，按照场景类别的维度，对所有通道的置信度取最大值。通过这种策略，对于某一个场景类最优的通道(携带着某种特定空间布局信息)被取出，而不同场景类别可以选择不同的通道。在步骤106中，置信度被归一化，成为该图像属于各类场景的概率。多通道产生的分类识别置信度通过逐维的最优胜出策略，为每个场景类挑选出最优的通道(即与此场景类最匹配的空间布局特征)，整合成最终的识别结果。

本发明的又一实施例提供了一种场景图像识别设备，包括特征提取模块，用于提取图像的特征；随机空间切分模块，用于利用多个随机模板将所述图像切分成多个独立的通道；以及空间池化模块，用于将所述多个独立的通道进行池化，以形成新的特征图。

示例性地，所述多个随机模板是预先定义的。

其中，全连接层中的每个节点是基于所述新的特征图中的所有特征值的，或者是基于所述新的特征图中的某部分的特征值的。

示例性地，该场景图像识别设备还包括最优胜出策略模块，用于将分类结果通过最优胜出策略做出判断。本发明实施例的场景图像识别设备，由于充分利用了空间布局信息，因而同样具有高精确性、高场景识别性能的优点。

本发明实施例的各个模块可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的场景图像识别设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在存储载体上提供，或者以任何其他形式提供。

下面，将详细描述本场景图像识别方法和设备的试验布置及试验结果。

在测试中，选取了15-场景(15-Scene)和67-MIT-室内(67-MIT-Indoor)两个被世界范围内的研究者广泛使用的场景识别评测集。在15-场景中，每个类别具有200至400个图像，并且平均图像大小为300×250像素。数据集中的图片的主要来源是COREL收集、个人图片，以及谷歌图像搜索。试验中，利用每个类别100个图像用作训练，而剩余的用作测试。在67-MIT-室内中，该数据库包括67个室内类别，以及总共15620个图像。每个类别中的图像的数量可能是不同的，但是每个类别中至少具有100个图像。所有图片都是JPG格式的。

即使当彩色图像可用时，也采用灰度图像来执行处理。所有试验均用不同的随机选择的训练和测试图像重复执行了十次，并且针对每次运行，记录了针对每个类别的识别率。最终结果以单个运行结果的均值和标准方差来报告。多类别分类是用支持向量机来完成的，利用如下一对多的规则来训练支持向量机：分类器被学习以将每个类别从剩余类别中区别开来，并且测试图像被指派以具有最高相应的分类器的标签。

本发明的算法在两个评测集中均获得了优异的成绩，其中15-Scene的准确率从传统方法的81.4％提升到89.4％，而67-MIT-Indoor的准确率从传统方法的51.4％提升至62％。

贯穿上述实施例，为了解决现有场景识别方法的缺陷，本发明提供了一种基于随机局部池化的场景图像识别方法，包括特征图生成、随机空间切分、空间池化、最优胜出策略等步骤，旨在充分利用场景图像的空间布局信息，从而提高场景识别的精确度。其中在特征图生成的步骤中，输入的原始图像经过预处理和提取特征等步骤后，输出若干具有更强分辨能力的特征图；在随机空间切分的步骤中，特征图被按照多个随机模板切分，形成多通道的大小形状不一的子图；在空间池化的步骤中，每个子图被进一步切分成同等数量的网格，每个网格中分别进行池化，形成多通道的新特征图；在最优胜出策略的步骤中，多通道的新的特征图分别经过全连接层后，对图像所属的场景做出分类置信度，而后对获得的分类置信度按通道取最大值，经过归一化后，得到最终的分类预测结果。

本发明的基于随机空间池化的场景图像识别方法提供了一套更精准且高效的场景图像识别的解决方案。由于随机空间切分和空间池化步骤的应用，图像被切分成包含多种空间布局的通道，从而该方法能够尽可能地捕获变化的图像空间布局信息，并且将此信息嵌入在了神经网络的模型中；同时，通过最优胜出策略，在多种通道中最能表述当前图像的空间布局信息的若干通道(产生最大置信度的通道)被挑选了出来，当前图像的空间布局信息被充分地利用来帮助识别该图像的场景。

本发明已经通过上述实施例进行了说明，但应当理解的是，上述实施例只是用于举例和说明的目的，而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是，本发明并不局限于上述实施例，根据本发明的教导还可以做出更多种的变型和修改，这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims

1.一种场景图像识别方法，其特征在于，所述方法包括：

步骤S101：提取图像的特征，以形成特征图；

步骤S102：利用多个随机模板将所述特征图切分成多个独立的通道，所述多个独立的通道包括等数量的子图，且所述多个独立的通道中的每个通道包括形状大小不同的子图；以及

步骤S103：将所述多个独立的通道进行池化，以形成新的特征图。

2.如权利要求1所述的场景图像识别方法，其特征在于，所述多个随机模板是预先定义的。

3.如权利要求1或2所述的场景图像识别方法，其特征在于，在所述步骤S103之后还包括步骤S104：将所述新的特征图通过全连接层以进行分类。

4.如权利要求3所述的场景图像识别方法，其特征在于，所述全连接层中的每个节点是基于所述新的特征图中的所有特征值的，或者是基于所述新的特征图中的某部分的特征值的。

5.如权利要求3所述的场景图像识别方法，其特征在于，在所述步骤S104之后还包括步骤S105：将分类结果通过最优胜出策略做出判断。

6.一种场景图像识别设备，其特征在于，所述设备包括：

特征提取模块，用于提取图像的特征，以形成特征图；

随机空间切分模块，用于利用多个随机模板将所述图像切分成多个独立的通道，所述多个独立的通道包括等数量的子图，且所述多个独立的通道中的每个通道包括形状大小不同的子图；以及

空间池化模块，用于将所述多个独立的通道进行池化，以形成新的特征图。

7.如权利要求6所述的场景图像识别设备，其特征在于，所述多个随机模板是预先定义的。

8.如权利要求6或7所述的场景图像识别设备，其特征在于，还包括全连接分类模块，用于将所述新的特征图通过全连接层以进行分类。

9.如权利要求8所述的场景图像识别设备，其特征在于，所述全连接层中的每个节点是基于所述新的特征图中的所有特征值的，或者是基于所述新的特征图中的某部分的特征值的。

10.如权利要求8所述的场景图像识别设备，其特征在于，还包括最优胜出策略模块，用于将分类结果通过最优胜出策略做出判断。