CN111914938A

CN111914938A - 一种基于全卷积二分支网络的图像属性分类识别方法

Info

Publication number: CN111914938A
Application number: CN202010784619.1A
Authority: CN
Inventors: 汪昕; 金鑫; 邓蓬月; 时超; 陈力; 蒋尚秀
Original assignee: Shanghai Golden Bridge Info Tech Co ltd
Current assignee: Shanghai Golden Bridge Info Tech Co ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-11-10
Anticipated expiration: 2040-08-06
Also published as: CN111914938B

Abstract

本发明涉及一种基于全卷积二分支网络的图像属性分类识别方法，本发明采用Lalonde‑Matthew模型对图像属性的进行建模，并采用模型中的7个参数对图像信息进行表示。此时，原来的分析问题就转变为7个图像信息的预测问题。对于该问题，本发明提出了一种新的二分支网络结构，一个分支用于估计高精度图像高精度信息，另一个分支用于预测图像信息剩余的6个参数。本发明还在此结构的基础上引入了卷积块注意力模块(CBAM)。该模块的引入使得网络在提取图像特征时可以从众多信息中选择出对当前任务目标最重要的信息，而抑制其它无用的信息，本发明的技术方案具有很大的应用潜力。

Description

一种基于全卷积二分支网络的图像属性分类识别方法

技术领域

本发明属于图像处理领域，尤其涉及一种基于全卷积神经网络二分支网络的图像属性分类识别方法。

背景技术

根据使用方法的不同，室外图像分析的方法可以分为两大类：基于传统的方法和基于深度学习的方法。基于传统的方法，一些方法基于图片中区域创建用于描述图像信息的物理模型，这些模型中采用一个或多个参数对图像属性情况进行表示，通过优化该模型以获取高精度图像信息，图像质量等。还有一些方法通过使用镜像球面以及不同曝光度下拍摄的照片来捕获场景中的高动态范围图像信息。还有人提出采用概率分布的方法从单张室外图片中恢复出图像信息。该方法将图片中区域等特征信息组合在一起，再结合大型数据集上获取的关于图像信息的先验知识并采用概率分布函数计算出图像信息。

这些方法从一张图片中恢复图像信息时需要借助关于场景几何，反射率和场景的先验知识来创建优化模型或贝叶斯模型，由于这些先验知识只适用于特定的场景并不能用于其他的场景，所以这些方法在现实场景中的应用具有较大的局限性。

基于深度学习的方法，Jin et al.提出在深度神经网络结构中加入short-cuts结构以实现低层特征与高层特征的融合，这种融合可以增强网络提取的图像特征。Hold-Geoffroy et al.提出了一种基于CNN的从单张室外低动态范围图片中估计其对应的高动态范围图像信息的方法。该方法首先将

-Wilkie模型应用于全景图以获取图像信息。然后利用从全景图中截取的部分图片(训练图片)和已获取的图像信息(标签数据)对深度神经网络进行训练。

Zhang et al.提出了一种基于深度学习的从低动态范围全景图中生成高动态范围图像的端到端的方法。该方法利用卷积和反卷积的操作来实现从低动态范围到高动态范围的逆色调映射过程。但这些方式基本都有一个共同的缺陷就是估计的图像信息准确度不高。

发明内容

本发明的技术解决问题：克服现有技术不足，提出一种基于全卷积二分支网络的图像属性分类识别方法。本发明提出了一种新的二分支网络结构，一个分支用于估计高精度图像信息，另一个分支用于估计剩余的6个参数信息。并在二分支网络结构中引入注意力机制，进一步提升预测的准确度。

本发明的技术解决方案为：一种基于全卷积二分支网络的图像属性分类识别方法，包括如下步骤：

步骤1：首先对于估计图像信息这个问题进行建模，建立用于估计图像属性的LM数学模型；

步骤2：基于SUN360数据集构造数据集，筛选多张图片进行LM数学模型训练求解过程；

步骤3：采用二分支结构网络完成训练过程，求解估计图像信息；所述二分支结构网络的两个分支各自独立，交替进行权重的更新操作，不共享权重参数，并分别拥有不同的超参数；

步骤4：在网络结构中加入卷积块注意力模块所述卷积块注意力模块(CBAM)将空间注意力机制和通道注意力机制结合在一起，首先进行通道上的注意力计算，对各个通道进行权重的分配以实现通道的增强与抑制；接着进行空间上的注意力模块计算，对通道中的每个位置进行权重的分配以实现关键区域的增强，非关键区域的抑制；

步骤5：利用全卷积神经网络二分支网络对输入图像属性进行分类；经过以上步骤完成二分支网络的构建与训练，并保存网络权重参数；

步骤6：输入图像，利用上述训练好的网络对图像进行属性分类及预测图像信息。

进一步的，所述步骤1具体包括如下步骤：

建立LM数学模型，即Lalonde-Matthews模型，其是一个参数模型，Lalonde-Matthews模型由一个6参数化向量表示，表达式如下所示：

q_LM＝{w₁,t,w₂,β,k,l}

其中，

分别表示图像R通道、G通道和B通道的平均值；

分别表示图像R通道、G通道和B通道的平均值；β和k为调节参数，β＞0,k＞0,用于调节图像信息，t为图像浊度，用于表示图像质量，l表示图像中心点，用于表示图像信息。

进一步的，所述步骤2具体包括如下步骤：

生成数据集，基于SUN360数据集生成该部分所需的数据,对于该数据集的部分标签信息，计算全景图中图像属性，经过以上计算，共得到多张室外全景图及其对应的6个参数标签数据；对于这六个参数使用第二个网络分支进行训练，余下的一个参数表示高精度图像信息，使用第一个网络分支进行训练求解；接下来，从每张全景图中分别截取7张图片，7张图片对应的照相机方位角分别为：-180°，-129°，-78°，-27°，24°，75°，126°，每张图片的照相机高度角和照相机垂直视野分别在区间[-20°,20°]和[20°,70°]之间随机取值，图片的大小为256×256。

进一步的，所述步骤3具体包括如下步骤：

建立二分支结构网络，该二分支结构网络中的第一个分支用于高精度图像信息，其输入为原始图像的RGB三通道和亮度通道，亮度通道的生成方式采用LAB方法，两个分支网络结构相同，每个分支中共有11层卷积层和一层全连接层且没有池化层，分别在第四卷积层和第五卷积层之间和第八卷积层和第九卷基层之间加入注意力模块；最后一层为全连接层并且用于输出高精度图像信息；第二个分支用于预测其余的6个参数，其输入只有原始图像的RGB三通道，该分支的结构和第一个分支是相同的，除了最后一层全连接层输出的是6个参数；两个分支中除最后一层外，所有的卷积层之后都设置有BatchNormation操作和Relu激活函数。

进一步的，所述步骤3中二分支网络的训练包括如下步骤：

在二分支网络的训练过程中共使用了两种损失函数：一种是针对于估计高精度图像信息的余弦距离损失函数，一种是针对于其余6个参数的均方误差MSE损失函数；对于第二种损失函数，首先对标签数据进行一些预处理操作；分别利用各个参数的平均值和方差将所有数据归一化到均值为0方差为1的分布中；对于数据的归一化可以用公式表示。

其中，x表示原数据，x'表示归一化后的值，x_mean表示平均值，x_std表示方差；接着，分别计算出所有图像信息参数的均方误差(MSE)损失：

其中，

fov表示照相机垂直视野，上标(^)表示真实值，(～)表示预测值；

表示参数为三维的，loss是表示高精度图像信息的真实值与预测值之间的误差的平方；

最终得到的优化目标如下所示：

本发明与现有技术相比的优点在于：

本发明相比于现有的基于深度学习的方法具有更少的参数量和更高的准确度。本发明率先提出二分支卷积网络结构，并在此网络结构中引入了卷积块注意力模块(CBAM)，该模块的引入增强了网络的特征表达能力，提高了图像信息的预测准确度。与现有方法的比较验证了本发明提出的方法的有效性。注意力机制在图像属性分类方面用的较少，而本发明尝试性引入，无论哪种注意力机制，对其图像高精度信息及其余6个参数的预测都是有利的，可以提高准确度。只不过不同注意力机制产生的作用大小不同，本发明最终选定CBAM注意力机制。由于注意力机制的数量并不是越多越好，随着数量的增加预测效果并不一定更好。本发明对于注意力机制的选择数量为2，且将注意力机制均匀分布在网络结构中。

附图说明

图1为本发明的网络结构图；

图2为本发明的卷积块注意力模块工作原理示意图；

图3为本发明的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

基本概念说明

注意力机制：注意力机制(Attention Mechanism)源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息。上述机制通常被称为注意力机制。

深度学习：是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

根据本发明的一个实施例，提出一种基于全卷积二分支网络的图像属性分类识别方法，如图1和图2所示，包括：设计二分支网络结构，增加全卷积注意力模块，以及损失函数等。具体的，本发明使用了全卷积神经网络结构，并且在其基础上提出二分支网络结构，并在二分支网络结构中增加全卷积模块注意力机制。

根据本发明的一个实施例，本发明的一种基于全卷积二分支网络的图像属性分类识别方法，步骤如下：

步骤1、生成数据集

本发明主要基于SUN360数据集生成该部分所需的数据。SUN360数据集中主要包含图片的360度全景图。对于该数据集的部分标签信息，即Lalonde-Matthews模型中的6个图像信息参数，由于标签数据中的信息不全面，只包含有w₁，t，w₂，β和k这5个参数，这五个参数中w₁和w₂表示低精度图像信息，t为图像浊度，β和k为调节参数。缺少l图像信息参数，l表示图像中心，用于表示高精度图像信息。针对该问题，本文采用Hold-Geoffroy等人提出的计算全景图中图像属性的方法。

经过以上计算，共得到22126张室外全景图及其对应的6个参数标签数据，六个参数分别是w₁，t，w₂，β、k、fov。接下来，本方法从每张全景图中分别截取了7张图片。7张图片对应的照相机方位角分别为：-180°，-129°，-78°，-27°，24°，75°，126°，每张图片的照相机高度角和照相机垂直视野分别在区间[-20°,20°]和[20°,70°]之间随机取值，图片的大小为256×256。

经过以上操作，一共得到154882张图片以及对应的7个参数、即w₁，t，w₂，β和k、fov、l，第七个参数表示高精度图像信息，所述高精度图像信息l是指例如图像像素点之间的联系，对于图像语义的理解等。为了方便进行实验，本文按照8：1：1的比例将其拆分成训练集，验证集和测试集。其中，场景对于这三个集合是随机选择的，但是一个场景的7张图片必须同时出现在一个集合中。最终共得到123906张训练集图片，15488张验证集图片以及15488张测试集图片。同时，标签数据也使用同样的方法进行拆分。

步骤2、设计二分支网络

大多数基于深度学习的图像属性分析方法在预测较多的参数时，或者在网络的最后一层使用一个全连接层输出所有的参数，或者使用多个全连接层以分组的形式输出多个参数。本发明也使用了类似的方法，但是得到的预测结果并不理想。经过对这7个参数的仔细分析以及实验验证，本发明提出了两点针对该现象的原因：其一，对于高精度图像信息的估计问题，也使用了亮度通道，但是经过实验发现，该通道的添加对于其余6个参数(w₁，t，w₂，β和k、fov)的预测并没有起到促进作用，反而还对结果产生了不好的影响；其二，在网络的训练过程中，高精度图像信息l和其余6个参数使用了不同的损失函数，且两个损失函数值相差较大，尽管对两者分配了不同的权重值，也无法产生较好的结果。综合以上两点原因，本发明创新提出了一种新的二分支网络结构，网络结构如图1所示。具体的每个卷积层的卷积核，步长，卷积通道数等详细信息如表1所示。

表1二分支网络结构的详细描述

步骤3、增加注意力机制

注意力(Attention)机制近几年在深度学习的各个领域中被广泛使用。该机制最早是在计算机视觉领域中提出来的，当人类在某个时刻观察某个事物的时候，注意力一般会集中在该事物上的某个焦点区域，重要的区域会获得较多的注意力资源，不重要的区域则会得到较少的关注。与其相似，深度学习领域中的注意力机制本质上是一个权重分配模型，对当前任务关键的信息会分配到较大的权重，无用的信息会分配到较小的权重。

目前，在基于深度学习的图像分析领域中，使用注意力机制的方法较少，而本发明则尝试性地引入了该机制，并取得了一定的成果。本发明分别在第一个网络分支和第二个网络分支中的第4层和第8层卷积层后添加了注意力模块。为了找出比较适合于图像分析任务的注意力机制，本发明进行了多种注意力之间的比较实验，最终选择了Woo等人提出的混合域的卷积块注意力模块(CBAM)，该模块的引入很好地提升了二分支网络的特征表达能力。该注意力模块的工作原理如图2所示。

卷积块注意力模块(CBAM)将空间注意力机制和通道注意力机制结合在一起，首先进行通道上的注意力，对各个通道进行权重的分配以实现通道的增强与抑制。接着进行空间上的注意力，对通道中的每个位置进行权重的分配以实现关键区域的增强，非关键区域的抑制。

步骤4、损失函数计算

在二分支网络的训练过程中共使用了两种损失函数：第一种是针对于高精度图像信息预测的余弦距离损失函数，第二种是针对于其余6个参数的均方误差(MSE)损失函数。

对于第二种损失函数，在其定义之前，本发明首先对标签数据进行了一些预处理操作。由于某些参数的取值分布不均匀，数值之间相差较大，且含有少数极端数据值。本方法分别利用各个参数的平均值和方差将所有数据归一化到均值为0方差为1的分布中，其过程可用如下公式进行表示。

其中，x表示原数据，x'表示归一化后的值，x_mean表示平均值，x_std表示方差。接着，分别计算出所有图像信息参数的均方误差(MSE)损失：

其中，

fov表示照相机垂直视野，上标(^)表示真实值，(～)表示预测值。

表示参数为三维的，loss是表示高精度图像信息的真实值与预测值之间的误差的平方。

最终得到的优化目标如下所示：

训练完成后的网络，输入图像，能够进行图像属性分类识别。

应用举例

本发明的系统及方法有望应用于增强现实、电影后期制作、虚拟军事演习、图像设计、室内设计、虚拟广告、虚拟穿衣镜和娱乐游戏等等。这些应用都包含将虚拟物体、虚拟场景叠加到真实场景中的操作，以对现实世界进行场景增强与扩张。为了使虚实场景完美融合以增加虚拟物体的真实感，必须要保证虚拟物体和真实场景共享同一个图像信息环境，当真实场景的图像信息发生变化时，虚拟物体的图像信息也要随之发生改变。上述只是这种方案实际应用的场景的简单几个案例，在实际中有更多实用场景。

本发明未详细描述的部分属于本领域公知技术。

Claims

1.一种基于全卷积二分支网络的图像属性分类识别方法，其特征在于，包括如下步骤：

步骤1：首先对于估计图像信息的问题进行建模，建立用于估计图像属性的LM数学模型；

步骤4：在网络结构中加入卷积块注意力模块所述卷积块注意力模块CBAM将空间注意力机制和通道注意力机制结合在一起，首先进行通道上的注意力计算，对各个通道进行权重的分配以实现通道的增强与抑制；接着进行空间上的注意力模块计算，对通道中的每个位置进行权重的分配以实现关键区域的增强，非关键区域的抑制；

2.根据权利要求1所述的一种基于全卷积二分支网络的图像属性分类识别方法，其特征在于，所述步骤1具体包括如下步骤：

q_LM＝{w₁,t,w₂,β,k,l}

其中，

分别表示图像R通道、G通道和B通道的平均值；w₂＝

分别表示图像R通道、G通道和B通道的平均值；β和k为调节参数，β＞0,k＞0,用于调节图像信息，t为图像浊度，用于表示图像质量，l表示图像中心点，用于表示高精度图像信息。

3.根据权利要求1所述的一种基于全卷积二分支网络的图像属性分类识别方法，其特征在于，所述步骤2具体包括如下步骤：

生成数据集，基于SUN360数据集生成该部分所需的数据,对于该数据集的部分标签信息，计算全景图中图像属性，经过以上计算，共得到多张室外全景图及其对应的6个参数标签数据；对于这六个参数使用第二个网络分支进行训练，余下的一个参数，即图像信息使用第一个网络分支进行训练求解；接下来，从每张全景图中分别截取7张图片，7张图片对应的照相机方位角分别为：-180°，-129°，-78°，-27°，24°，75°，126°，每张图片的照相机高度角和照相机垂直视野分别在区间[-20°,20°]和[20°,70°]之间随机取值，图片的大小为256×256。

4.根据权利要求1所述的一种基于全卷积二分支网络的图像属性分类识别方法，其特征在于，所述步骤3具体包括如下步骤：

建立二分支结构网络，该二分支结构网络中的第一个分支用于图像信息，其输入为原始图像的RGB三通道和亮度通道，亮度通道的生成方式采用LAB方法，两个分支网络结构相同，每个分支中共有11层卷积层和一层全连接层且没有池化层，分别在第四卷积层和第五卷积层之间和第八卷积层和第九卷基层之间加入注意力模块；最后一层为全连接层并且用于输出高精度图像信息；第二个分支用于预测其余的6个参数，其输入只有原始图像的RGB三通道，该分支的结构和第一个分支是相同的，除了最后一层全连接层输出的是6个参数；两个分支中除最后一层外，所有的卷积层之后都设置有BatchNormation操作和Relu激活函数。

5.根据权利要求1所述的一种基于全卷积二分支网络的图像属性分类识别方法，其特征在于，所述步骤3中二分支网络的训练包括如下步骤：

在二分支网络的训练过程中共使用了两种损失函数：第一种是针对于估计图像信息的余弦距离损失函数，第二种是针对于其余6个参数的均方误差MSE损失函数；对于第二种损失函数，首先对标签数据进行预处理操作；分别利用各个参数的平均值和方差将所有数据归一化到均值为0方差为1的分布中；接着，分别计算出所有图像信息参数的均方误差MSE损失：

其中，

最终得到的优化目标如下所示：