CN105809146B

CN105809146B - 一种图像场景识别方法和装置

Info

Publication number: CN105809146B
Application number: CN201610183402.9A
Authority: CN
Inventors: 刘玉明
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-03-28
Filing date: 2016-03-28
Publication date: 2019-08-30
Anticipated expiration: 2036-03-28
Also published as: CN105809146A

Abstract

本发明公开了一种图像场景识别方法和装置，涉及图像处理技术领域。所述方法包括：获取原始图像；利用第一分类模型计算所述原始图像的各场景类别对应的第一置信度和激活图；所述激活图中包括每个像素点的激活参数；对各第一置信度进行排序，并提取排序靠前的至少一个第一置信度所属的场景类别所对应的激活图；根据所提取的激活图计算所述原始图像的第二显著区域；基于所述原始图像的第二显著区域，利用第二分类模型计算所述原始图像的场景标签。本发明解决了先前技术的场景识别方法的准确度以及适用性低的问题，取得了可以通过提取图像的显著区域的特征进行场景识别，提高了场景识别的准确度，进而提高了场景识别的适用性。

Description

一种图像场景识别方法和装置

技术领域

本发明涉及图像处理技术领域，具体涉及一种图像场景识别方法和一种图像场景识别装置。

背景技术

场景识别是广义上的图像识别问题中的一个特定的子问题，其目标即为给定一张图像或照片，由计算机自动判断该图像或照片是属于何种具体的场景(包括但不限于室外场景如海滩、森林、城市等，室内场景如客厅、卧室、健身房等，以及事件场景如足球比赛、游行、演唱会等)。如今，场景识别技术在视频监控、社交网络用户行为挖掘等方面发挥着非常重要的作用，也因此受到了广泛的关注和研究。

在先技术中，是通过分析图像的全局特征进行场景识别，但是该方法仅适用于类别数量较少的场景识别，如识别夜间场景与非夜间场景。一旦遇到多场景识别、或者复杂背景下的场景识别，这种方案的识别准确率就会大幅下降。例如，若图像的背景比较复杂，则其中的部分区域不会增加该图像对应的各场景类别中某一场景类别可作为该图像的场景标签的显著性，反而会容易使该场景类别与其他场景类别相混淆，从而降低场景识别的准确度。

而且在实际应用中，越来越多的可能会涉及夜间、逆光、风景、人物等多种多样的图像或照片的场景识别，这就进一步导致上述的现有场景识别方法的适用性越来越低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种图像场景识别装置和相应的一种图像场景识别方法。

依据本发明的一个方面，提供了一种图像场景识别方法，包括：

获取原始图像；

利用第一分类模型计算所述原始图像的各场景类别对应的第一置信度和激活图；所述激活图中包括每个像素点的激活参数；

对各第一置信度进行排序，并提取排序靠前的至少一个第一置信度所属的场景类别所对应的激活图；

根据所提取的激活图计算所述原始图像的第二显著区域；

基于所述原始图像的第二显著区域，利用第二分类模型计算所述原始图像的场景标签。

可选地，所述根据所提取的激活图计算所述原始图像的第二显著区域，包括：

根据预置的阈值以及所提取的每个激活图中每个像素点的激活参数，计算所述原始图像对应于不同场景类别的第一显著区域；

将所述对应于不同场景类别的第一显著区域进行合并，得到所述原始图像的第二显著区域。

可选地，所述根据预置的阈值以及所提取的每个激活图中每个像素点的激活参数，计算所述原始图像对应于不同场景类别的第一显著区域，包括：

将所提取的每个激活图中每个像素点的激活参数与预置的阈值进行比较；

若激活参数大于预置的阈值，则确认所述激活参数相应的像素点在所述原始图像上的空间位置属于当前激活图对应的场景类别的第一显著区域。

可选地，在所述将所提取的每个激活图中每个像素点的激活参数与预置的阈值进行比较的步骤之前，还包括：

对所述所提取的每个激活图中每个像素点的激活参数进行归一化处理。

可选地，所述基于所述原始图像的第二显著区域，利用第二分类模型计算所述图像的场景标签，包括：

从所述第二显著区域内提取特征向量；

根据所述特征向量，利用所述第二分类模型，计算所述第二显著区域的各场景类别的第二置信度；

选择所述第二置信度的值排序靠前的至少一个场景类别作为所述原始图像的场景标签。

可选地，在所述利用第一分类模型计算原始图像的各场景类别对应的第一置信度和激活图的步骤之前，还包括：

利用训练集训练所述第一分类模型；所述训练集中包括至少一个已知场景标签的场景图像。

可选地，在所述根据所述特征向量，利用第二分类模型，计算所述显著区域的各场景类别的第二置信度的步骤之前，还包括：

利用所述第一分类模型计算所述训练集中各场景图像对应的各场景类别的激活图；

根据预置的阈值以及所述训练集中每个场景图像对应的各场景类别的激活图，计算所述训练集中各场景图像的第二显著区域；

提取所述训练集中各场景图像的第二显著区域的特征向量，训练第二分类模型。

根据本发明的另一方面，提供了一种图像场景识别装置，包括：

图像获取模块，用于获取原始图像；

第一分类模块，用于利用第一分类模型计算所述原始图像的各场景类别对应的第一置信度和激活图；所述激活图中包括每个像素点的激活参数；

激活图提取模块，用于对各第一置信度进行排序，并提取排序靠前的至少一个第一置信度所属的场景类别所对应的激活图；

第二显著区域计算模块，用于根据所提取的激活图计算所述原始图像的第二显著区域；

第二分类模块，用于基于所述原始图像的第二显著区域，利用第二分类模型计算所述原始图像的场景标签。

可选地，所述第二显著区域计算模块，包括：

第一显著区域计算子模块，用于根据预置的阈值以及所提取的每个激活图中每个像素点的激活参数，计算所述原始图像对应于不同场景类别的第一显著区域；

第二显著区域获取子模块，用于将所述对应于不同场景类别的第一显著区域进行合并，得到所述原始图像的显著区域。

可选地，所述第一显著区域计算子模块，包括：

第一显著区域判断单元，用于将所提取的每个激活图中每个像素点的激活参数与预置的阈值进行比较，若激活参数大于预置的阈值，则确认所述激活参数相应的像素点在所述原始图像上的空间位置属于当前激活图对应的场景类别的第一显著区域。

可选地，所述第一显著区域计算子模块，还包括：

归一化单元，用于对所述所提取的每个激活图中每个像素点的激活参数进行归一化处理。

可选地，所述第二分类模块，包括：

特征向量提取子模块，用于从所述第二显著区域内提取特征向量；

第二置信度计算子模块，用于根据所述特征向量，利用所述第二分类模型，计算所述第二显著区域的各场景类别的第二置信度；

场景标签确定子模块，用于选择所述第二置信度的值排序靠前的至少一个场景类别作为所述原始图像的场景标签。

可选地，还包括：

第一分类模型训练模块，用于利用训练集训练所述第一分类模型；所述训练集中包括至少一个已知场景标签的场景图像；所述第一分类模型用以计算所述原始图像的各场景类别对应的第一置信度和激活图。

可选地，所述第二分类模块，还包括：

激活图计算子模块，用于利用所述第一分类模型计算所述训练集中各场景图像对应的各场景类别的激活图；

场景图像显著区域提取子模块，用于根据预置的阈值以及所述训练集中每个场景图像对应的各场景类别的激活图，计算所述训练集中各场景图像的第二显著区域；

第二分类模型训练子模块，用于提取所述训练集中各场景图像的第二显著区域的特征向量，训练第二分类模型。

根据本发明的一种图像场景识别方法，可以利用第一分类模型计算所获取的原始图像的各场景类别对应的第一置信度和激活图，其中激活图中包括每个像素点的激活参数，然后提取所述第一置信度排序靠前的至少一个场景类别对应的激活图，根据预置的阈值以及所提取的每个激活图中每个像素点的激活参数，计算所述原始图像的显著区域，进一步从所述显著区域提取特征向量，利用第二分类模型计算所述原始图像的场景标签。由此解决了先前技术的图像场景识别方法需要分析图像的全局特征进行场景识别，对于背景比较复杂或多场景等图像或照片的场景识别的准确度较低，而且适用性也较低等问题，取得了可以通过提取图像的显著区域的特征进行场景识别，提高了对于背景复杂或者多场景等图像的场景识别的准确度，进而提高了场景识别的适用性的有益效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种图像场景识别方法实施例的步骤流程图；

图2示出了根据本发明一个实施例的一个数字图像示意图；

图3A示出了根据本发明一个实施例的全连接层的结构示意图；

图3B示出了根据本发明一个实施例的GAP层的结构示意图；

图4示出了根据本发明一个实施例的CNN-GAP模型的结构和激活图的计算过程；

图5示出了根据本发明一个实施例的以图2为给定的原始图像的一个激活图示例；

图6示出了根据本发明一个实施例的一种图像场景识别方法实施例的步骤流程图；

图7示出了根据本发明一个实施例的一种图像场景识别装置实施例的结构框图；

图8示出了根据本发明一个实施例的一种图像场景识别装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

参照图1，示出了根据本发明一个实施例的一种图像场景识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤110，获取原始图像。

在实际应用中，图片搜索引擎通过给图片加标签，可以方便用户快速地搜索到自己所需的图片。例如，用户可以通过输入关键字进行图片搜索，若在图片搜索引擎中某些图片的标签和用户的搜索关键字相同或接近，则可以将对应图片推荐给用户。其中，给图片加标签是一个非常重要的过程。本申请所公开的即是一种图像场景识别方法，所以首先需要获取进行场景识别的原始图像。

图像是人对视觉感知的物质再现，图像是由一系列排列有序的像素点组成的。随着数字采集技术和信号处理理论的发展，越来越多的图像以数字形式存储，称为数字图像，如图2所示为一个数字图像示意图。数字图像常用的存储格式有：BMP(Bitmap，标准图像文件格式)、TIFF(Tagged Image File Format，位图图像格式)、JPEG(Joint PhotographicExperts Group，联合图像专家小组)、GIF(Graphics Interchange Format，图像互换格式)、PSD(Photoshop专用格式)、PDF(Portable Document Format，可移植文件格式)等格式。具体的数字图像的存储格式，本发明实施例不对其加以限制。

在本发明实施例中，所获取的原始图像是数字图像，若需要进行场景识别的原始图像并不是数字图像，则需要先将其转换为数字图像。对于具体如何转换，属于本领域公知技术，对此本发明不加以赘述。

步骤120，利用第一分类模型计算所述原始图像的各场景类别对应的第一置信度和激活图；所述激活图中包括每个像素点的激活参数。

第一分类模型用于以原始图像为输入，输出该原始图像的各场景类别对应的第一置信度和激活图。其中该激活图中包括每个像素点的激活参数。

在本发明实施例中，第一分类模型可以为CNN-GAP(Convolutional NeuralNetworks-Global Average Pooling，卷积神经网络-全局平均池化)模型。

CNN-GAP模型是一种利用GAP(Global Average Pooling，全局平均池化)层代替全连接层的卷积神经网络(Convolutional Neural Network，CNN)模型，利用CNN-GAP模型主要是为了使得最后一个多层感知卷积层获得的每一个特征图能够对应于一个输出类别。全连接层的结构和GAP层的结构分别如图3A和图3B所示。

GAP层的执行过程是：对于原始图像的每一个特征图求出其平均数，然后将这些平均数组成一个特征向量，输入到softmax层中。可以将GAP层看成是一个结构惩罚项，用于显性强迫特征图成为场景类别的置信度图。

使用GAP层的优点有两个：首先，使用GAP层能够强化特征图与场景类别的关系；其次，GAP层没有参数需要进行优化，因此，可以避免在这一层出现过度拟合的情况。

CNN-GAP模型的结构和激活图的计算过程如图4所示。对于一个给定的图像，用f_k(x,y)代表最后一个卷积层的第k个卷积核输出的特征图，(x,y)代表在该特征图上的位置，也相当于在给定的原始图像上的位置。对于每个特征图，计算其平均值，该过程可以用表示，即为图4中GAP层的输出。CNN-GAP的最后一层是softmax层，其输入为S＝{S₁,S₂,...S_c}，其中c为全部的场景类别数，为第k个卷积核对应第c个场景类别的权值，其输出为P＝{P₁,P₂,...P_c}，P即为本申请所述的每个场景类别对应的第一置信度，第一置信度的值越大，则说明该第一置信度对应的场景类别为给定的原始图像的场景标签的可能性越大。

下面介绍计算图像的各场景类别对应的激活图(Class Activation Map)的过程：

将F_k代入S_c得到：

令得到：

其中，M_c(x,y)即为场景类别c对应的激活图在(x,y)位置处的值。因为图像是由一系列排列有序的像素点组成的，图像上的位置(x,y)与像素点对应，所以从上式可以得出激活图在(x,y)位置处的值代表了(x,y)位置对应的像素点对场景类别c的贡献度，即为图像中对应(x,y)位置的像素点对场景类别c的激活参数。激活参数越大，则说明对应(x,y)位置的像素点对场景类别c的贡献度越高。如图5所示的即为以图2为给定的原始图像的一个激活图示例。

另外，根据上述分析可知，(x,y)可以指给定的原始图像中的任意位置，所以所获取的针对某场景类别的激活图包括给定的原始图像上任意位置(x,y)对应的激活参数，而且同样的位置对于不同场景类别的激活参数也不一定相同。所以，激活图是一个三维图，同一原始图像的每个场景类别分别对应一个激活图，且每个场景类别的激活图不同，但是同一原始图像的各激活图与该原始图像所包含的像素点在空间上的位置是一致的，即同一原始图像的各激活图在(x，y)构成的二维平面上的尺寸与该图像的尺寸是一致的。在本发明实施例中，激活图上每个点的值可以用(x,y,z)表示，(x,y)为空间位置，即为前述的给定的原始图像任意像素点的空间位置，z表示激活参数，z越大表明位置(x,y)对区分相应场景类别的贡献越大。

步骤130，对各第一置信度进行排序，并提取排序靠前的至少一个第一置信度所属的场景类别所对应的激活图。

如步骤120所述，在本发明实施例中，第一置信度的值越大，则说明该第一置信度对应的场景类别为给定的原始图像的场景标签的可能性越大，而第一置信度的值越小，则该第一置信度对应的场景类别为给定的原始图像的场景标签的可能性则越小。所以，在本发明实施例中，可以对各场景类别的第一置信度按照从高到低的顺序进行排序，然后提取排序靠前的至少一个第一置信度所属的场景类别对应的激活图，具体提取的激活图的数量可以根据实际情况设置，对此本发明不加以限定。

步骤140，根据所提取的激活图计算所述原始图像的第二显著区域。

一个原始图像的第二显著区域，是由该原始图像中的对所提取的各场景类别中至少一个场景类别的激活参数超过预置的阈值的像素点构成的区域。

在实际应用中，预置的阈值可以根据多次试验的经验获得，预置的阈值可以在本步骤之前设定，或者在本步骤之前的任一步骤之前设定，对此本发明实施例不加以限定。

在本发明实施例中，可以先分别计算各激活图的第一显著区域，然后合并得到所述原始图像的第二显著区域。激活图的第一显著区域，是指图像对应某场景类别的激活图中激活参数超过预置的阈值的像素点构成的区域。一个激活图对应一个第一显著区域。

例如，针对所提取的其中某一个激活图，可以将该激活图中每个像素点的激活参数与预置的阈值进行比较，若某像素点的激活参数大于预置的阈值，则表明该像素点在原始图像中的空间位置属于该激活图的第一显著区域，进而可以获取该激活图的第一显著区域。按照上述方法，分别获取所提取的每个激活图的第一显著区域，然后对每个激活图的第一显著区域进行合并，即可以得到原始图像的第二显著区域。

步骤150，基于所述原始图像的第二显著区域，利用第二分类模型计算所述原始图像的场景标签。

本发明实施例中的第二分类模型可以为现有的任何一种分类模型，例如，Softmax分类器、SVM(Support Vector Machine，支持向量机)分类器、CNN分类器等，对此本发明实施例不加以限定。

在实际应用中，第二分类模型的输入一般为一个图像的特征向量，而在本发明实施例中的原始图像的第二显著区域本质上仍然是一个图像，所以第二分类模型的输入可以为原始图像的第二显著区域的特征向量。

所以，在本发明实施例中，首先需要提取第二显著区域的特征向量。

提取图像的特征向量，相当于将图像的RGB像素值经过数学算法的变换，生成特征向量来描述该图像。其中的R(Red)代表红色，G(Green)代表绿色，B(Blue)代表蓝色。

在本发明实施例中，优选地，所述特征向量包括：尺度不变特征变换(Scale-invariant feature transform，Sift)特征向量、卷积层(CNN-conv)特征向量。其中，Sift是一种提取特征向量的算法，是一种电脑视觉的算法，用来侦测与描述影像中的局部性特征，Sift在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量。利用Sift提取出来的特征向量就叫Sift特征向量。CNN-conv特征向量是利用CNN(Convolutional NeuralNetworks，卷积神经网络)分类器提取的特征向量。当然，也可以利用其他类型的特征向量，对此本发明不加以限定。

需要说明的是，根据提取的特征向量以及所用的第二分类模型的种类不同，第二显著区域的特征向量也可直接由第二分类模型提取，则此时第二分类模型的输入为一个图像，例如本发明实施例中的原始图像的第二显著区域。例如，前述的CNN分类器可以看作一个特征提取器和分类器的组合，因此其可以用来提取特征向量，即为CNN-conv特征向量。当然，也可以只利用CNN分类器提取特征向量，然后利用其他的分类器作为第二分类模型计算图像的场景标签。在实际应用中，可以根据需求灵活调整，对此本发明实施例不加以限定。

在本发明实施例中，利用第一分类模型计算所获取的原始图像的各场景类别对应的第一置信度和激活图，其中激活图中包括每个像素点的激活参数。然后对各第一置信度进行排序，并提取排序靠前的至少一个第一置信度所属的场景类别所对应的激活图。根据所提取的激活图计算所述原始图像的第二显著区域。进一步从所述第二显著区域提取特征向量，利用第二分类模型计算所述原始图像的场景标签。进而通过提取图像的显著区域的特征向量进行场景识别，提高了对于背景复杂或者多场景等图像的场景识的准确度，进而提高了场景识别的适用性。

实施例二

参照图6，示出了根据本发明一个实施例的一种图像场景识别方法实施例的步骤流程图，具体可以包括如下步骤：

步骤210，获取原始图像。

步骤220，利用第一分类模型计算所述原始图像的各场景类别对应的第一置信度和激活图；所述激活图中包括每个像素点的激活参数。

步骤230，对各第一置信度进行排序，并提取排序靠前的至少一个第一置信度所属的场景类别所对应的激活图。

步骤240，根据预置的阈值以及所提取的每个激活图中每个像素点的激活参数，计算所述原始图像对应于不同场景类别的第一显著区域。

如实施例一所述，每个场景类别都对应一个激活图，且激活图中包括给定图像上各像素点所在的空间位置对于相应场景类别的激活参数。激活图上每个点的值可以用(x,y,z)表示，(x,y)为空间位置，即为前述的给定图像任意像素点的空间位置，z表示激活值，z越大表明位置(x,y)对区分相应场景类别的贡献越大。对于对应某场景类别的某个激活图，其中不同像素点对应的激活参数是不完全相同的。所以，可以预置一个阈值，根据其激活图中每个像素点的激活参数与预置的阈值的关系，筛选出对该场景类别贡献超过阈值的像素点，则筛选出的像素点在空间位置构成了给定图像对应该场景类别的一个第一显著区域。分别基于所述图像对应于不同场景类别的激活图可以分别计算所述图像对应于不同场景类别的第一显著区域。

例如，预置一个阈值T，提取某场景类别对应激活图上z>T的区域作为该场景类别的显著区域r。则对应于步骤230所提取的N(N大于或等于1)个场景类别对应的激活图，可计算得到对应各场景类别的第一显著区域分别为r1，r2，…rN。

优选地，步骤240包括：

子步骤242，将所提取的每个激活图中每个像素点的激活参数与预置的阈值进行比较；若激活参数大于预置的阈值，则进入子步骤243。若所述激活参数不大于预置的阈值，则相应像素点在原始图像上的空间位置不属于当前激活图对应的场景类别的第一显著区域。

子步骤243，确认所述激活参数相应的像素点在所述原始图像上的空间位置属于当前激活图对应的场景类别的第一显著区域。

在实际应用中，对于对应某场景类别的激活图，比较其中每个像素点的激活参数与预置的阈值的大小，若某像素点的激活参数大于预置的阈值，则表明该像素点对当前场景类别的贡献度比较大，那么该像素点对应在图像上的空间位置即属于当前场景类别的第一显著区域。

例如，若预置的阈值T为0.8，对于图像的场景类别为“吃饭”对应的激活图，其中某一像素点a的激活参数为0.9，另一像素点b的激活参数为0.6，且像素点a和b在图像上的空间位置分别为(x1，y1)、(x2，y2)。经过比较，可以得知，像素点a的激活参数大于预置的阈值，像素点b的激活参数小于预置的阈值，所以，像素点a在图像上的空间位置(x1，y1)属于场景类别为“吃饭”的第一显著区域，而像素点b在图像上的空间位置(x2，y2)不属于场景类别为“吃饭”的第一显著区域。

优选地，在子步骤242之前，还包括：

子步骤241，对所述所提取的每个激活图中每个像素点的激活参数进行归一化处理。

在本发明实施例中，可以对所提取的每个激活图中每个像素点的激活参数进行归一化处理。

可以将每张激活图中每个像素点对应的激活参数归一化为0-1之间的值，那么预置的阈值的范围也相应地在0-1之间。从而可以在计算每个激活图的第一显著区域的过程中，降低各激活参数之间的数值差距，方便进行比较。

例如，具体的归一化处理过程可以为：假设每个激活图中每个像素点的激活参数分别为Z₁,Z₂,....Z_M，选择出其中数值最大的一个激活参数Z_X，然后分别用Z₁,Z₂,....Z_M除以最大值Z_X，即可得到归一化处理后的每个激活图中每个像素点的激活参数。

当然，也可以采用其他可用的归一化方法对所提取的每个激活图中每个像素点的激活参数进行归一化处理，对此本申请不加以限定。

步骤250，将所述对应于不同场景类别的第一显著区域进行合并，得到所述原始图像的第二显著区域。

在本发明实施例，对各场景类别的第一显著区域进行合并，即为求各第一显著区域的并集。

例如，分别提取步骤240中的N个场景类别的显著区域r1,r2,…,rN，然后可以将各显著区域进行合并得到，R＝r1∪r2∪…∪rN作为最终的第二显著区域。

对各场景类别的第一显著区域进行合并后得到的结果即为原始图像的第二显著区域。

步骤260，从所述第二显著区域内提取特征向量。

具体的提取过程与实施例一中步骤150类似，在此不再赘述。

步骤270，根据所述特征向量，利用所述第二分类模型，计算所述第二显著区域的各场景类别的第二置信度。

在实际应用中，首先可以根据特征向量，利用第二分类模型，计算显著区域的各场景类别的第二置信度，与第一置信度的性质类似，第二置信度的值越大，也同样说明该第二置信度对应的场景类别为给定图像的场景标签的可能性越大。

步骤280，选择所述第二置信度的值排序靠前的至少一个场景类别作为所述原始图像的场景标签。

如步骤270所述，第二置信度的值越大，说明该第二置信度对应的场景类别为原始图像的场景标签的可能性越大。所以，在本发明实施例中，可以选择第二置信度的值排序靠前的至少一个的场景类别，即可作为原始图像的场景标签，此时的场景标签为至少一个场景类别的组合。优选地，也可以直接选择第二置信度的值最大的场景类别作为原始图像的场景标签。

优选地，在本发明实施例中，在步骤220之前，还包括：

步骤290，利用训练集训练所述第一分类模型；所述训练集中包括至少一个已知场景标签的场景图像；所述第一分类模型用以计算所述原始图像的各场景类别对应的第一置信度和激活图。

在本发明实施例中，第一分类模型的各参数可能是未知的，此时在利用第一分类模型执行后续的步骤之前，需要先训练第一分类模型，获取其中各参数的值。具体而言，可以预先收集至少一个场景图像，人工标注每个图像所属的场景标签，并预先计算每个图像对应所述场景标签的激活图，构成训练集。并利用该训练集训练第一分类模型。

在实际应用中，训练集中包含的已知场景标签的场景图像越多，训练的次数越多，训练得到的第一分类模型的效果越准确。

在本发明实施例中，可以根据需求调整训练集中包含的已知场景标签的场景图像的数量，对此本发明实施例不加以限定。

对第一分类模型进行训练的过程可以为：设置所述第一分类模型的输入为所述训练集中各场景图像，输出为对应各场景图像的场景标签，训练第一分类模型中的参数，具体包括前述计算公式中的以及图4中所示的卷积(CONV)层的参数等。

例如，若训练集中包含的场景图像为A和B，A的场景标签为C_A，B的场景标签为C_B。则在具体训练过程中，可以设置第一分类模型的输入为A，输出为C_A；和输入为B，输出为C_B。

优选地，在本发明实施例中，在步骤270之前，还包括：

步骤2110，利用所述第一分类模型计算所述训练集中各场景图像对应的各场景类别的激活图。该步骤与实施例一中步骤110的步骤类似，此时输入为训练集中各场景图像，计算每个场景图像对应的各场景类别的激活图，在此不再赘述。

步骤2120，根据预置的阈值以及所述训练集中每个场景图像对应的各场景类别的激活图，计算所述训练集中各场景图像的第二显著区域。该步骤与前述实施例一中步骤140的过程类似，优选地，也可以按照实施例二中步骤240-250的方式计算场景图像的第二显著区域，在此也不再赘述。

步骤2130，提取所述训练集中各场景图像的第二显著区域的特征向量，训练第二分类模型。

在本发明实施例中，第二分类模型的各参数同样可能是未知的，此时在利用第二分类模型执行后续的步骤之前，同样需要先训练第二分类模型，获取其中各参数的值。

训练第二分类模型的过程可以为：设置所述第二分类模型的输入为所述训练集中各场景图像的显著区域的特征向量，输出为对应各场景图像的场景标签，训练第二分类模型中的参数。

例如，若训练集中包含的场景图像为A和B，A的场景标签和显著区域的特征向量分别为C_A和E_A，B的场景标签和显著区域的特征向量分别为C_B和E_B。则在具体训练过程中，可以设置第一分类模型的输入为E_A，输出为C_A；和输入为E_B，输出为C_B。

在本发明实施例中，同样利用第一分类模型计算所获取的原始图像的各场景类别对应的第一置信度和激活图，其中激活图中包括每个像素点的激活参数。然后对各第一置信度进行排序，并提取排序靠前的至少一个第一置信度所属的场景类别所对应的激活图。根据所提取的激活图计算所述原始图像的第二显著区域。进一步从所述第二显著区域提取特征向量，利用第二分类模型计算所述原始图像的场景标签。因而通过提取图像的显著区域的特征向量进行场景识别，提高了对于背景复杂或者多场景等图像的场景识的准确度，进而提高了场景识别的适用性。

另外，本发明实施例在计算原始图像的第二显著区域的过程中，会先分别计算原始图像对应于所提取的不同场景类别的激活图的第一显著区域，然后将各第一显著区域进行合并，进而得到原始图像的第二显著区域。提高了获取的第二显著区域的准确性，进一步地提高了本申请所述图像场景识别方法的准确性。

而且，第二分类模型会针对获取的原始图像的第二显著区域，计算第二显著区域的各场景类别的第二置信度，然后选择第二置信度的值最大的场景类别即为原始图像的场景标签，可以快速准确地选择出原始图像的场景标签。进一步地提高了场景识别的准确性、快速性以及适用性。

实施例三

参照图7，示出了根据本发明一个实施例的一种图像场景识别装置实施例的结构框图，具体可以包括如下模块：

图像获取模块310，用于获取原始图像。

第一分类模块320，用于利用第一分类模型计算所述原始图像的各场景类别对应的第一置信度和激活图；所述激活图中包括每个像素点的激活参数。

激活图提取模块330，用于对各第一置信度进行排序，并提取排序靠前的至少一个第一置信度所属的场景类别所对应的激活图。

显著区域计算模块340，用于根据所提取的激活图计算所述原始图像的第二显著区域。

第二分类模块350，用于基于所述原始图像的第二显著区域，利用第二分类模型计算所述原始图像的场景标签。

在本发明实施例中，利用第一分类模型计算所获取的原始图像的各场景类别对应的第一置信度和激活图，其中激活图中包括每个像素点的激活参数。然后对各第一置信度进行排序，并提取排序靠前的至少一个第一置信度所属的场景类别所对应的激活图。根据所提取的激活图计算所述原始图像的第二显著区域。进一步从所述第二显著区域提取特征向量，利用第二分类模型计算所述原始图像的场景标签。因而通过提取图像的显著区域的特征向量进行场景识别，提高了对于背景复杂或者多场景等图像的场景识的准确度，进而提高了场景识别的适用性。

实施例四

参照图8，示出了根据本发明一个实施例的一种图像场景识别装置实施例的结构框图，具体可以包括如下模块：

图像获取模块410，用于获取原始图像。

第一分类模块420，用于利用第一分类模型计算所述原始图像的各场景类别对应的第一置信度和激活图；所述激活图中包括每个像素点的激活参数。

激活图提取模块430，用于对各第一置信度进行排序，并提取排序靠前的至少一个第一置信度所属的场景类别所对应的激活图。

第二显著区域计算模块440，用于根据所提取的激活图计算所述原始图像的第二显著区域。具体包括：

第一显著区域计算子模块441，用于根据预置的阈值以及所提取的每个激活图中每个像素点的激活参数，计算所述原始图像对应于不同场景类别的第一显著区域。

第二显著区域获取子模块442，用于将所述对应于不同场景类别的第一显著区域进行合并，得到所述图像的显著区域。

优选地，在本发明实施例中，所述第一显著区域计算子模块441，包括：

优选地，在本发明实施例中，所述第一显著区域计算子模块，还包括：

归一化子单元，用于对所述所提取的每个激活图中每个像素点的激活参数进行归一化处理。

在本发明实施例中，归一化子单元可以在第一显著区域判断单元之前执行，也即归一化子单元可以存在于第一显著区域判断单元之前，或者是存在于第一显著区域判断单元之前的任一模块之前，对此本发明实施例不加以限定。

第二分类模块450，用于基于所述原始图像的第二显著区域，利用第二分类模型计算所述原始图像的场景标签。具体包括：

特征向量提取子模块451，用于从所述第二显著区域内提取特征向量。

第二置信度计算子模块452，用于根据所述特征向量，利用第二分类模型，计算所述第二显著区域的各场景类别的第二置信度。

场景标签确定子模块453，用于选择所述第二置信度的值排序靠前的至少一个场景类别作为所述原始图像的场景标签。

优选地，在本发明实施例中，还包括：

第一分类模型训练模块，用于利用训练集训练所述第一分类模型；所述训练集中包括至少一个已知场景标签的场景图像。

在本发明实施例中，第一分类模型训练模块可以在第一分类模块420执行之前的任意时刻执行，也即第一分类模型训练模块可以存在于第一分类模块420之前，或者是存在于第一分类模块420之前的任一模块之前，对此本发明实施例不加以限定。

优选地，在本发明实施例中，所述第二分类模块450，还包括：

激活图计算子模块，用于利用所述第一分类模型计算所述训练集中各场景图像对应的各场景类别的激活图。

场景图像显著区域提取子模块，用于根据预置的阈值以及所述训练集中每个场景图像对应的各场景类别的激活图，计算所述训练集中各场景图像的第二显著区域。

其中，激活图计算子模块、场景图像显著区域提取子模块和第二分类模型训练子模块都可以在第二置信度计算子模块执行之前的任意时刻执行，也即激活图计算子模块、场景图像显著区域提取子模块和第二分类模型训练子模块都可以存在于第二置信度计算子模块之前，或者是存在于第二置信度计算子模块之前的任一模块之前，对此本发明实施例不加以限定。需要说明的是，需要保证三个子模块执行的先后顺序为激活图计算子模块、场景图像显著区域提取子模块、第二分类模型训练子模块的顺序。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的图像场景识别设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种图像场景识别方法，包括：

获取原始图像；

利用第一分类模型计算所述原始图像的各场景类别对应的第一置信度和激活图；所述激活图中包括每个像素点的激活参数；所述激活图是一个三维图，同一原始图像的每个场景类别分别对应一个激活图，所述同一原始图像的各激活图与所述同一原始图像包含的像素点在空间位置一致；所述激活参数越大表明所述空间位置对区分相应场景类别的贡献越大；

根据所提取的激活图计算所述原始图像的第二显著区域；

2.根据权利要求1所述的方法，其特征在于，所述根据所提取的激活图计算所述原始图像的第二显著区域，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预置的阈值以及所提取的每个激活图中每个像素点的激活参数，计算所述原始图像对应于不同场景类别的第一显著区域，包括：

4.根据权利要求3所述的方法，其特征在于，在所述将所提取的每个激活图中每个像素点的激活参数与预置的阈值进行比较的步骤之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述原始图像的第二显著区域，利用第二分类模型计算所述图像的场景标签，包括：

从所述第二显著区域内提取特征向量；

6.根据权利要求5所述的方法，其特征在于，在所述利用第一分类模型计算原始图像的各场景类别对应的第一置信度和激活图的步骤之前，还包括：

7.根据权利要求6所述的方法，其特征在于，在所述根据所述特征向量，利用第二分类模型，计算所述显著区域的各场景类别的第二置信度的步骤之前，还包括：

8.一种图像场景识别装置，包括：

图像获取模块，用于获取原始图像；

第一分类模块，用于利用第一分类模型计算所述原始图像的各场景类别对应的第一置信度和激活图；所述激活图中包括每个像素点的激活参数；所述激活图是一个三维图，同一原始图像的每个场景类别分别对应一个激活图，所述同一原始图像的各激活图与所述同一原始图像包含的像素点在空间位置一致；所述激活参数越大表明所述空间位置对区分相应场景类别的贡献越大；激活图提取模块，用于对各第一置信度进行排序，并提取排序靠前的至少一个第一置信度所属的场景类别所对应的激活图；

9.根据权利要求8所述的装置，其特征在于，所述第二显著区域计算模块，包括：

第二显著区域获取子模块，用于将所述对应于不同场景类别的第一显著区域进行合并，得到所述原始图像的第二显著区域。

10.根据权利要求9所述的装置，其特征在于，所述第一显著区域计算子模块，包括：

11.根据权利要求10所述的装置，其特征在于，所述第一显著区域计算子模块，还包括：

12.根据权利要求8所述的装置，其特征在于，所述第二分类模块，包括：

13.根据权利要求12所述的装置，其特征在于，还包括：

14.根据权利要求13所述的装置，其特征在于，所述第二分类模块，还包括：