CN111340123A

CN111340123A - 一种基于深度卷积神经网络的图像分数标签预测方法

Info

Publication number: CN111340123A
Application number: CN202010132930.8A
Authority: CN
Inventors: 金鑫; 李熹桥; 肖超恩
Original assignee: Shaoding Artificial Intelligence Technology Co ltd
Current assignee: Shaoding Artificial Intelligence Technology Co ltd
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2020-06-26

Abstract

本发明提出了一种基于深度卷积神经网络的图像分数标签预测方法，包括：步骤(1)，随机将数据集中80％数量的图片作为训练集，剩余的20％作为测试集；进行数据集预处理，到图像像素大小一致，包括图像分数标签的训练集和测试集；步骤(2)，进行深度卷积神经网络模型训练，首先根据图像的特征和图像分数标签预测的标准，设计一个深度卷积神经网络模型，然后利用训练集中的样本图像进行学习训练，通过深度学习方法训练深度卷积神经网络模型，作为图像标签预测模型；步骤(3)进行深度卷积神经网络模型评估与测试。该方法很容易通过软件实现，本发明可广泛应用推广到计算机视觉、图像质量预测等中。

Description

一种基于深度卷积神经网络的图像分数标签预测方法

技术领域

本发明属于图像分析、计算机视觉领域，特别是图像分数标签预测，具体地说是基于深度卷积神经网络的图像分数标签预测方法。

背景技术

计算机视觉与人工智能的飞速发展、数字设备的大量衍生、人民生活水平的逐步提高，催生出大量的数字图像，可视内容感知理解已经成为可视计算、计算机视觉、计算摄像学等科学研究领域及其交叉方向国际前沿的研究方向。其中图像分数标签回归是近期可视内容感知理解方向中的研究热点。图像分数标签可以为图像的任意数据，比如图像的画面质量。

传统的图像分数标签预测都是基于原始的图像数据来设计特征，并将提取的特征输入分类器训练模型。现如今随着各个大型数据集的公开，深度学习在图像分数标签预测方向的优势也越来越凸显，且深度学习的方法也在各项任务中取得了不错的效果。但是各个大型数据集都具有自身数据分布的问题，比如数据类别之间不均衡，数据标签质量不一致等问题，这些问题也是当前图像分数标签预测面临的主要困难之一。

发明内容

本发明的技术解决问题：如今的图像分数标签预测受限于数据集标签的分布情况，图像数据集的分数标签大多数是不均衡的数据集，导致深度神经网络在拟合的时候分数预测会集中在数据集标签的最多的区段。

本发明采用的技术方案为：一种基于深度卷积神经网络的图像分数标签预测方法，包括如下步骤：

步骤(1)，随机将数据集中80％数量的图片作为训练集，剩余的20％作为测试集；进行数据集预处理，首先将具有图像分数标签的数据集中的图像进行预处理，预处理包括图像大小变换、图像随机旋转和图像归一化；由此得到图像像素大小一致，包括图像分数标签的训练集和测试集；

步骤(2)，进行深度卷积神经网络模型训练，首先根据图像的特征和图像分数标签预测的标准，设计一个深度卷积神经网络模型，然后利用训练集中的样本图像进行学习训练，通过深度学习方法训练深度卷积神经网络模型，作为图像标签预测模型；

步骤(3)进行深度卷积神经网络模型评估与测试，首先对测试集中的样本图像调用步骤(1)预处理后的图像，然后调用步骤(2)中得到的图像分数标签预测模型，从而预测出图像的质量分数。

进一步的，步骤(1)所述图像预处理方法采取以下步骤：

步骤(11)将训练集中原图像进行图像裁剪、图像缩放，将原始图像的像素大小变换到一个固定尺寸，这个尺寸和步骤(2)所设计的深度卷积神经网络所要求的输入尺寸保持一致；

步骤(12)将训练集中原始图像根据通道归一化，首先统计出训练集中的样本图像的不同通道的均值，然后对每一个样本图像对应通道做去均值操作。

进一步的，步骤(2)所述深度卷积神经网络模型训练过程如下：

步骤(21)使用Resnet网络作为基础网络，由残差块堆叠50层而得到Resnet50网络，网络的残差块是通过在两个卷积层之间增加短连接来拟合残差；

步骤(22)模型在Resent50网络的特征提取部分后面增加了注意力机制部分；注意力机制包括两个部分，位置注意力和通道注意力；位置注意力是在最后一层特征图上进行1*1的卷积操作，经过训练即可得到特征图上每一个位置的权重，通道注意力是对特征提取最后一层的每个通道上计算权重，得到对最终结果影响最大的几个通道；

步骤(23)将上过程依次完成，在步骤(22)注意力机制后面增加两组全连接层，其中一组全连接层的最后输出为图像分数分类数目，另一组全连接B层的最后输出为图像分数回归标签；

步骤(24)整个模型训练过程包括：首先训练步骤(21)、(22)中的特征提取部分和步骤(23)图像分数分类部分全连接层，分类误差采用Softmax误差公式进行计算，梯度回传只考虑分类的结果；然后固定神经网络模型参数，只训练步骤(23)图像分数回归部分全连接层，回归误差采用欧式误差公式进行计算，在梯度回传的时候损失函数需要将图像分数分类的结果与图像分数回归的结果结合，公式如下：

LOSS＝loss1+λloss2

其中，loss1为图像分数回归损失，公式如下：

其中，e^j为神经网络模型最后一个神经元的输出；eⁱ为第i个神经元的输出，n为神经元个数；

loss2为图像分数分类损失，其公式如下：

其中，

为模型预测值，y_i为真实值，λ为权重系数；

步骤(25)整个训练过程采用随机梯度下降法(SGD)寻找最优参数，训练神经网络模型，随机梯度下降法中的学习率变化是采用正弦函数的规律来设置，最终得到神经网络模型。

进一步的，步骤(3)所述模型的测试和预测采取以下步骤：

步骤(31)将测试集中的样本图像经过预处理得到一个新的图像A；

步骤(32)将新的图像A经过训练好的神经网络模型，模型通过正向计算得到图像分数预测结果；用模型输出测试集的结果和测试集的真实分数作对比，从而测试模型的欧式距离和相关性系数。

使用者提供目标图像，系统自动的调用图像分数标签预测神经网络模型，给出预测值。

本发明与现有的技术相比，其优势在于：

(1)本发明的方法提出了一种图像标签预测的具体可行的方法；

(2)本发明的方法首次提出用标签类别信息来指导标签回归预测任务；

(3)本发明的方法提出的注意力卷积网络模型，利用卷积特性和注意力机制，此模型使图像的特征提取不需要人工干预，网络可以自动学习出图像的特征，避免了特征提取和回归过程中数据重建的复杂度。

附图说明

图1是本发明的方法流程图；

图2是本发明网络模型详细结构图；

图3是本发明注意力机制结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本发明具体实现包括如下步骤：

图1为本发明方法的流程图。首先将数据集按照80％、20％的比重分割原始数据集形成训练集和测试集；接着将训练集中图片进行预处理操作，其中包括图像缩放、图像裁剪、图像旋转等，而测试集中的图片预处理操作只进行图像缩放。卷积神经网络能够很好的提取出图像的特征，但直接堆积卷积层会导致梯度消失的情况。

图像预处理过程主要包括图像的大小归一化和图像通道去均值。

由于深度卷积神经网络对输入图像的大小有一定的限制，因此根据设计的卷积神经网络对输入的大小要求，对初始图像做大小归一化处理。大小归一化可以直接通过图像缩放操作或者通过随机裁剪然后通过图像缩放操作。

利用机器学习的方法训练模型，需要对图像通道做去均值操作，这样可以保证训练集中的图像数据都分布在均值附近。

进一步的，步骤(1)所述图像预处理方法采取以下步骤：

如图2将Resnet50作为基础模型，在神经网络模型学习中，一般而言模型的参数越多则模型的表达能力越强，模型所存储的信息量也越大，但这会带来信息过载的问题。因此在基础模型特征提取后面增加注意力模块，那么通过引入注意力机制，在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，就可以解决信息过载问题，并提高任务处理的效率和准确性。

图3为注意力机制的结构图，位置注意力是通过训练特征图每个位置的权重，得到位置关系矩阵X，使得模型对特征中重要区域的感知更集中，然后通过将位置关系矩阵X与初始特征A进行矩阵乘法得到最终特征图E1。通道注意力是同理是训练特征图每个维度的权重，得到通道关系矩阵Y，使得模型可以集中感知重要通道，然后通过将通道关系矩阵Y与初始特征A进行矩阵乘法得到最终特征图E2。在注意力机制后面接入两组全连接层，一组全连接层最后的输出是图像分数标签类别数，一组全连接层最后的输出是图像分数标签。类别数目由数据集标签分布来确定，尽可能使得各个类别的数目相同。整个训练包括两个部分，首先训练图像特征提取部分、自注意力部分和图像分类部分，然后固定当前模型参数，只训练图像分数标签回归部分。整个训练采用SGD随机梯度下降法寻找最优参数，SGD的学习率设置是通过正弦函数的规律设置。由此设置来训练模型。

LOSS＝loss1+λloss2

其中，loss1为图像分数回归损失，公式如下：

loss2为图像分数分类损失，其公式如下：

其中，

为模型预测值，y_i为真实值，λ为权重系数；

进一步的，步骤(3)所述模型的测试和预测采取以下步骤：

本发明通过增加注意力机制，模型对特征图的感知更加集中，过滤掉贡献小的特征，再通过图像分数标签分类指导粒度更加细致的分数标签回归，图像分数标签回归任务的好坏是通过计算相关系数和均分误差的大小来评估，通过真实实验测试都可以取得更好的结果。。

总之，本发明中提出的基于深度卷积神经网络的图像分数标签预测方法能够自动对图像分数标签做出预测。通过实验显示出本发明提出的方法能优于一般的图像分数标签预测方法。

应用举例：本发明的系统及方法已经成功应用于图像质量评价的应用之中，其在工业设计、服装设计、产品设计、影像视觉、城市规划、环境保护等多个方面有重要的应用前景。比如自动识别拍摄，把摄像机再搭配上模型，就可以捕捉出非常好的照片，不用摄影师一直等待时机去捕捉场景，而可以自动采集高质量的照片；比如在产品设计，城市规划中可以对海选作品进行辅助判断。

Claims

1.一种基于深度卷积神经网络的图像分数标签预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于深度卷积神经网络的图像分数标签预测方法，其特征在于：步骤(1)所述图像预处理方法采取以下步骤：

3.根据权利要求1所述的一种基于深度卷积神经网络的图像分数标签预测方法，其特征在于：步骤(2)所述深度卷积神经网络模型训练过程如下：

LOSS＝loss1+λloss2

其中，loss1为图像分数回归损失，公式如下：

loss2为图像分数分类损失，其公式如下：

其中，

为模型预测值，y_i为真实值，λ为权重系数；

4.根据权利要求1所述的一种基于深度卷积神经网络的图像分数标签预测方法，其特征在于：步骤(3)所述模型的测试和预测采取以下步骤：