CN111402327A

CN111402327A - 一种基于全卷积神经网络的室外照片太阳位置估计方法

Info

Publication number: CN111402327A
Application number: CN202010187488.9A
Authority: CN
Inventors: 金鑫; 李欣欣; 邓蓬月; 肖超恩
Original assignee: Shaoding Artificial Intelligence Technology Co ltd
Current assignee: Shaoding Artificial Intelligence Technology Co ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-10
Anticipated expiration: 2040-03-17
Also published as: CN111402327B

Abstract

本发明提出一种基于全卷积神经网络的室外照片太阳位置估计方法，包括如下步骤：步骤1：Webcam数据集准备及预处理；步骤2：设计全卷积神经网络和损失函数；步骤3：采用准备的数据集训练神经网络；步骤4：对神经网络进行优化，包括进行压缩网络、剪枝和量化；步骤5：利用优化后的神经网络根据输入的图像估计太阳位置。本发明使用带有标签数据的Webcam数据集对该模型进行训练，实验证明结果比其他基于深度学习的方法具有更少的参数量和更高的准确度。为解决参数冗余、占存储空间大和运算耗时等问题。本发明采用剪枝‑量化方式对网络结构进行压缩，在保证准确度不下降的情况下，将网络压缩到原模型的1/11，同时降低时间成本。所以本发明具有很大的应用潜能。

Description

一种基于全卷积神经网络的室外照片太阳位置估计方法

技术领域

本发明是一种基于全卷积神经网络的室外照片太阳位置估计方法，属于图像处理领域。

背景技术

根据使用方法的不同，室外图像光照分析的方法可以分为两大类：基于传统的方法和基于深度学习的方法。一些方法基于图片中的天空区域创建用于描述天空亮度分布情况的物理模型，这些模型中采用一个或多个参数对天空的亮度分布情况进行表示，通过优化该模型以获取太阳方位，大气浑浊度等光照参数。还有一些方法通过使用镜像球面以及不同曝光度下拍摄的照片来捕获场景中的高动态范围光照信息。还有采用概率分布的方法从单张室外图片中恢复出光照信息的方法。该方法将图片中的天空区域，地面上的阴影区域以及垂直物体表面上的阴影区域等特征信息组合在一起，再结合大型数据集上获取的关于光照参数的先验知识并采用概率分布函数计算出太阳方位和太阳可见度等光照参数。这些方法从一张图片中恢复光照参数时需要借助关于场景几何，反射率和场景光照的先验知识来创建优化模型或贝叶斯模型，由于这些先验知识只适用于特定的场景并不能用于其他的场景，所以这些方法在现实场景中的应用具有较大的局限性。Jin et al.提出在深度神经网络结构中加入short-cuts结构以实现低层特征与高层特征的融合，这种融合可以增强网络提取的图像特征。Hold-Geoffroy et al.提出了一种基于CNN的从单张室外低动态范围图片中估计其对应的高动态范围光照信息的方法。该方法首先将

模型应用于全景图中的天空区域以获取太阳方位，大气浑浊度，照相机参数等光照参数。然后利用从全景图中截取的部分图片(训练图片)和已获取的光照参数(标签数据)对深度神经网络进行训练。Zhang et al.提出了一种基于深度学习的从低动态范围全景图中生成高动态范围图像的端到端的方法。该方法利用卷积和反卷积的操作来实现从低动态范围到高动态范围的逆色调映射过程。但这些方式基本都有一个共同的缺陷就是估计的太阳位置准确度不高。

发明内容

为了解决以上技术问题，本发明提出了一种新的端到端的全卷积神经网络的室外照片太阳位置估计方法。在一张室外场景图片中插入虚拟物体时，为了使得虚拟物体与真实场景很好的融合，我们使用该网络可以预测出其对应的太阳方位。根据预测后的太阳方位，该发明可以自动生成插入后虚拟物体所对应的影子。这样就可以跟好的实现虚拟物体与原来场景的融合。由于采用剪枝-量化方式，此发明较其他方法有较其他方法在不损失准确度的情况下，缩小了卷积神经网络的规模。解决了深度神经网络普遍存在着参数空间冗余，占用存储空间大和运算耗时的问题。同时也降低了时间成本。所以我们的方法在基于移动的应用程序上或嵌入式系统中具有很大的应用潜能。

本发明的技术解决方案为：一种基于全卷积神经网络的室外照片太阳位置估计方法，包括如下步骤：

步骤1：Webcam数据集准备及预处理；

步骤2：设计全卷积神经网络和损失函数；

步骤3：采用准备的数据集训练神经网络；

步骤4：对神经网络进行优化，包括进行压缩网络、剪枝和量化；

步骤5：利用优化后的神经网络根据输入的图像估计太阳位置。

进一步的，步骤1数据集准备及预处理过程包括如下步骤：

步骤(1.1)数据集的准备及建立

采用Webcam数据集，所述Webcam数据集是包含多种室外场景的延时序列数据集，每个室外场景的图片由固定位置和方向的照相机间隔一定时间并持续拍摄长达数年组成；

步骤(1.2)数据集预处理：

该数据集的标签信息包括太阳和照相机的绝对高度角和绝对方位角，将太阳的高度角和绝对方位角分别减去照相机的高度角和方位角，并将结果作为新的标签信息；

根据清晰度和有效区域对图片进行筛选，统一缩放到预定的尺寸用于作为神经网络的输入；用于神经网络训练和测试。

进一步的，所述步骤2设计全卷积网络和损失函数，具体包括如下步骤：

步骤(2.1)设计全卷积神经网络：

所述全卷积神经网络结构中只包含9层卷积层和1层全连接层，不包含池化层并且由卷积层代替池化层完成下采样的操作，最后一层全连接层有两个输出，分别为太阳高度角和太阳方位角；除了最后一层全连接层，所有的卷积层之后都有BatchNormation操作和Relu激活函数，该网络结构用于充分提取图像特征；

步骤(2.2)设计损失函数：

使用余弦距离作为损失函数对该全卷积神经网络进行训练，太阳方位角和高度角使用的是球面坐标系，首先需要将其转化到笛卡尔坐标系，转换公式如下所示：

X＝sin(zenith)sin(azimuth)；

Y＝cos(zenith)；

Z＝-sin(zenith)cos(azimuth)；

然后利用转化的笛卡尔坐标计算余弦距离，计算公式如下所示：

其中，N是模型训练时每个批量batch中的图片数量，zenith表示天顶，azimuth表示方位角，(x_ti,y_ti,z_ti)是真正的太阳方位，(x_pi,y_pi,z_pi)是预测的太阳方位；i为图片序号；

得到最终使用的优化目标如下所示：

Loss＝1-cos_distance；其中，Loss表示损失值。

进一步的，步骤3采用准备的数据集训练神经网络包括如下设置：

动量优化器用于最小化损失，设置初始学习率为0.08，最小批量大小为56，动量参数为0.9，权重参数为0.0005；周期为100进行训练模型。

进一步的，所述步骤4对于全卷积神经网络的优化具体为，压缩网络、剪枝、量化，具体步骤如下：

步骤(4.1)剪枝：设置一个阈值，去掉网络中对输出结果贡献小于阈值的权值，只保留对结果影响大于阈值的权值参数，即绝对值大于该阈值的权值会得到保留，绝对值小于或等于该阈值的权值会被设置为0，公式如下所示：

经过剪枝，网络中的权值矩阵由稠密矩阵变成稀疏矩阵，稀疏矩阵中含有多个零值，所以在存储剪枝过的网络时采用稀疏行(CSR)或者稀疏列(CSC)的方法以降低模型存储量；为了对模型的准确度进行恢复，采用微调的方法对剪枝后的网络权值进行调整；

步骤(4.2)量化：采用k_means聚类方法对网络中每一层的权值进行聚类，同属于一类的权值使用聚类中心点的值作为其代替值，减少权值存储所占用的存储空间；对共享权值进行微调，对准确度进行恢复，得到调整过后的模型。

本发明与现有技术相比的优点在于：

相比与现有的基于深度学习的方法具有更少的参数量和更高的准确度。本发明采用剪枝-量化的方法对本发明提出的网络结构进行压缩，在保证准确度不下降的情况下将网络压缩到原模型的1/11，同时也降低了时间成本，提高了太阳位置识别的准确性。

附图说明

图1为本发明太阳相对于照相机的方位，其中z_s是太阳相对于照相机的高度角，a_s是太阳相对于照相机的方位角；

图2为本发明全卷积神经网络结构图；

图3为本发明的三个模型的定量比较结果，其中使用的评价指标是累计太阳方位预测误差；

图4为本发明的剪枝后模型预测准确度曲线；

图5为本发明的剪枝后且微调后模型预测准确度曲线；

图6为本发明的可视化效果图；

图7为本发明的方法流程图。

具体实施

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

根据本发明的一个具体实施方式，一种基于全卷积神经网络的室外照片太阳位置估计方法，包括如下步骤：

步骤1：Webcam数据集准备及预处理过程，具体过程如下：

(1.1)数据集的准备及建立

本方法主要采用Webcam数据集，它是一种包含多种室外场景的延时序列数据集，每个室外场景的图片由固定位置和方向的照相机间隔一定时间并持续拍摄长达数年组成。

(1.2)数据集预处理：

该数据集的标签信息主要包括太阳和照相机的绝对高度角和绝对方位角，为了获取相对于照相机的太阳方位，如图1所示，本发明将太阳的高度角和方位角分别减去照相机的高度角和方位角，并将结果作为新的标签信息。

由于图片质量会对特征的提取效果产生较大的影响，所以本发明人工删除该数据集中画质不清晰，logo占用面积较大的图片。

该数据集中图片的分辨率不统一且较大，不适合直接用于模型的训练，所以本发明将图片统一缩放到227x227x3的大小以作为本发明网络结构的输入。

经过以上几种预处理，得到包含52个室外场景的626722张图片。本发明将每个场景的图片按照8：1：1的比例随机拆分成训练集，验证集和测试集，最终得到501368张训练集图片，62664张验证集图片以及62690张测试集图片。同时，标签数据也使用同样的方法进行拆分。

步骤2：设计全卷积网络和损失函数，具体过程如下：

(2.1)设计全卷积神经网络：

如图2所示，该全卷积神经网络结构中只包含9层卷积层和1层全连接层，不包含池化层并且由卷积层代替池化层完成下采样的操作，最后一层全连接层有两个输出，分别为太阳高度角和太阳方位角。除了最后一层全连接层，所有的卷积层之后都有BatchNormation操作和Relu激活函数，该网络结构可以充分提取图像特征。网络的详细信息如表1所示。

表1

(2.2)设计损失函数：

为了对该模型进行训练，本发明使用余弦距离作为损失函数。由于太阳方位角和高度角使用的是球面坐标系，所以本发明首先需要将其转化到笛卡尔坐标系，转换公式如下所示：

X＝sin(zenith)sin(azimuth)

Y＝cos(zenith)

Z＝-sin(zenith)cos(azimuth)

然后本发明利用转化的笛卡尔坐标计算余弦距离，计算公式如下所示：

其中，N是模型训练时每个batch(batch在深度学习中表示单位，表示一批的意思，对这一批数据作为小整体进行训练)中的图片数量，zenith表示天顶，azimuth表示方位角，(x_ti,y_ti,z_ti)是真正的太阳方位。(x_pi,y_pi,z_pi)是预测的太阳方位。

本发明最终使用的优化目标如下所示：

Loss＝1-cos_distance。

其中，Loss表示损失量。

步骤3，利用数据集对神经网络进行训练，具体过程如下：

动量优化器用于最小化损失，初始学习率为0.08，最小批量大小为56，动量参数为0.9，权重参数为0.0005。周期为100来训练模型，在Nvidia GeForce 1080GPU上大约需要2天时间。本方法训练结果如图3所示。图中显示了三种方法的ED误差和cosine误差，图片曲线详细展示了三种方法的误差情况。具体比较情况如下：

为了与现有的基于深度学习的方法进行比较，本发明对Jin et al.和Ma et al.的方法进行了复现。本发明使用62690张测试集图片对模型进行测试。由于Jin et al.的方法使用欧氏距离作为损失函数，所以本发明分别以欧氏距离和余弦距离为损失函数对Jinet al.，Ma et al.以及本发明的模型进行了实验，实验比较结果如图3所示。同时，本发明对三个模型的参数量也进行了比较，如表2所示。由表2和图3可知，Jin et al.和Ma et al.的模型参数量分别是本发明模型参数量的2.86倍和20.12倍；无论使用欧氏距离还是余弦距离，本发明模型的预测结果比Jin et al.和Ma et al.的模型具有更高的准确度；采用余弦距离训练的模型比采用欧氏距离训练的模型具有更高的准确度。

表2

步骤4，优化神经网络，进行压缩网络、剪枝、量化，具体过程如下：

由于深度神经网络普遍存在着参数空间冗余，占用存储空间大和运算耗时的现象，所以为了解决这一问题，本发明采用剪枝-量化的方法对本发明的模型进行压缩，如图4所示。压缩后，模型的精确度几乎没有下降，但是模型的参数量和占用的存储空间大大减少，模型运算速度也得到提高，所以本发明的方法在基于移动的应用程序上或嵌入式系统中具有很大的应用潜能。优化过程主要包括剪枝和量化。

(4.1)剪枝：剪枝的原理是去掉网络中对输出结果贡献不大的权值，只保留对结果影响较大的权值参数。其实现方法比较简单方便，设置一个阈值，绝对值大于该阈值的权值会得到保留，绝对值小于或等于该阈值的权值会被设置为0，公式如下所示。

经过剪枝，网络中的权值矩阵由稠密矩阵变成稀疏矩阵，稀疏矩阵中含有多个零值，所以在存储剪枝过的网络时可以采用稀疏行(CSR)或者稀疏列(CSC)的方法以达到降低模型存储量的目的。

本发明采用0.011的阈值对本发明已训练好的网络进行剪枝，剪枝过后的网络中每层的参数量如下表3所示。

表3

剪枝后，网络中的参数量减少到原来的1/7，但同时模型的预测准确度也有所下降，如图4所示。为了对模型的准确度进行恢复，本发明采用微调的方法对剪枝后的网络权值进行调整，调整后的结果如图5所示。

(4.2)量化：剪枝过后，网络中只保留了一些重要的权值参数，为了实现对这些权值的进一步压缩，本发明采用量化的方法。量化是通过减少模型中权值所占用的比特数大小来达到模型压缩的目的。其原理是采用k_means聚类方法对网络中每一层的权值进行聚类，同属于一类的权值使用聚类中心点的值作为其代替值。采用该方法可以大大减少权值存储所占用的存储空间。

经过量化之后，模型被压缩到原来的1/11，同时，量化过后模型的预测准确度也会降低，为了对准确度进行恢复，本发明对共享权值进行了微调，调整过后的模型准确度如图5所示。

经过以上两种操作，本发明的模型被压缩到原来的1/11，极大地减少了模型占用的存储空间，模型运算速度也得到提高，同时模型的准确度几乎没有降低。

步骤5，利用优化后的神经网络根据输入的图像估计太阳位置。

根据本发明的一个实施例，首先，本发明将单张户外图片输入本发明已训练好的模型，其可以直接预测出该图片中的太阳高度角和太阳方位角。之后本发明利用一个c++程序将虚拟物体插入到该图片中并利用已生成的太阳方位对其进行渲染，最终生成的效果如图6所示。从这些图片中可以看出，插入的虚拟物体在地面上投射的影子具有正确的方向，大小和形状。因此，给定一张室外图片，本发明的方法可以预测出较准确的太阳方位。

综上，室外场景图片中插入虚拟物体时，太阳方位的恢复对于虚拟物体与真实场景的融合有重要的作用。为了能从图片中恢复太阳方位，本发明提出了一种新的全卷积神经网络结构，该网络可以预测出虚拟物体对应的太阳方位。该全卷积神经网络中最后一层为输出层，其余层为卷积层。本发明使用带有标签数据的Webcam数据集对该模型进行训练，实验证明结果比其他基于深度学习的方法具有更少的参数量和更高的准确度。为解决参数冗余、占存储空间大和运算耗时等问题。本发明采用剪枝-量化方式对网络结构进行压缩，在保证准确度不下降的情况下，将网络压缩到原模型的1/11，同时降低时间成本。所以本发明具有很大的应用潜能。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，且应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于全卷积神经网络的室外照片太阳位置估计方法，其特征在于，包括如下步骤：

步骤1：Webcam数据集准备及预处理；

步骤2：设计全卷积神经网络和损失函数；

步骤3：采用准备的数据集训练神经网络；

2.根据权利要求1所述的一种基于全卷积神经网络的室外照片太阳位置估计方法，其特征在于，步骤1数据集准备及预处理过程包括如下步骤：

步骤(1.1)数据集的准备及建立：

步骤(1.2)数据集预处理：

3.根据权利要求1所述的一种基于全卷积神经网络的室外照片太阳位置估计方法，其特征在于，所述步骤2设计全卷积网络和损失函数，具体包括如下步骤：

步骤(2.1)设计全卷积神经网络：

步骤(2.2)设计损失函数：

X＝sin(zenith)sin(azimuth)；

Y＝cos(zenith)；

Z＝-sin(zenith)cos(azimuth)；

得到最终使用的优化目标如下所示：

Loss＝1-cos_distance；其中，Loss表示损失值。

4.根据权利要求1所述的一种基于全卷积神经网络的室外照片太阳位置估计方法，其特征在于，步骤3采用准备的数据集训练神经网络包括如下设置：

5.根据权利要求1所述的一种基于全卷积神经网络的室外照片太阳位置估计方法，其特征在于，所述步骤4对于全卷积神经网络的优化具体为，压缩网络、剪枝、量化，具体步骤如下：

步骤(4.1)，剪枝：设置一个阈值，去掉网络中对输出结果贡献小于阈值的权值，只保留对结果影响大于阈值的权值参数，即绝对值大于该阈值的权值会得到保留，绝对值小于或等于该阈值的权值会被设置为0，公式如下所示：

步骤(4.2)，量化：采用k_means聚类方法对网络中每一层的权值进行聚类，同属于一类的权值使用聚类中心点的值作为其代替值，减少权值存储所占用的存储空间；对共享权值进行微调，对准确度进行恢复，得到调整过后的模型。