CN109544524A

CN109544524A - 一种基于注意力机制的多属性图像美学评价系统

Info

Publication number: CN109544524A
Application number: CN201811356677.3A
Authority: CN
Inventors: 金鑫; 吴乐; 章乐; 赵耿; 李晓东; 周兴晖; 孙红波
Original assignee: General Office Of Cpc Central Committee Institute Of Electronic Science And Technology
Current assignee: General Office Of Cpc Central Committee Institute Of Electronic Science And Technology
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2019-03-29
Anticipated expiration: 2038-11-15
Also published as: CN109544524B

Abstract

本发明提出了一种基于注意力机制的多属性图像美学评价系统。利用机器学习的方法，使用大规模照片数据集和对应评论信息训练出一个复合神经网络模型，此模型能够利用卷积操作有效的提取出图像的多属性美学特征，在模型的多属性特征提取网络中对图像特征进行提取，在通道和空间注意力网络中对特征进行进一步处理，最后在语言生成网络中把这些不同属性的特征通过长短记忆网络单元生成最后的评论，此模型能够自动的根据图像特征模拟输出图像不同属性的评论。当输入一个图像的时候，此生成模型从不同属性考虑图像的特征，对图像的美学质量做出自然语言评价结果。该方法很容易通过软件实现，本发明可广泛应用推广到计算机视觉、图像评价等中。

Description

一种基于注意力机制的多属性图像美学评价系统

技术领域

本发明属于图像分析、计算机视觉领域，特别是图像美学质量评价，具体地说是基于注意力机制的多属性图像美学评价系统。

背景技术

随着图像数据、视频数据等多媒体数据在大数据时代的普遍流行和日益频繁的处理传输，如何处理多媒体数据成为了学术与应用研究的热点和重点。图像美学质量评价就是计算机视觉，图像处理，图像美学等学科交叉形成的领域。

图像美学质量评价(Image Aesthetic Quality Assessment)旨在利用计算机模拟人类对美的感知与理解，自动评价图像的“美感”，即图像美学质量的客观化评价，主要针对拍摄或绘画的图像在构图、颜色、光影、景深、虚实等美学因素方面的效果形成的美感刺激。图像美学质量评价是一个最近十几年才开始引起研究人员关注的一个方向，从一开始就没有走基于规则的路线，而是直接遵循了据驱动的路线，因此图像美学质量评价基准数据集构建就成为了该方向研究的关键前提条件。在图像美学质量人工主观评价得分获取方面，目前主要分为实验室内的人工打分实验、在线图像分享、打分网站下载收、众包(crowdsourcing)评价方法。

目前在图像、图形、视频3种主要的可视媒体中，图像美学评价的研究较多，可以将上述研究现状总结为几个任务：美感分类是指给定一幅图像，输出“好”和“不好”或者美学质量“高”或“低”2个类别；美感评分是给出图像的美学质量评分，表现为一个连续数值；美感分布是给出图像的美学质量分数分布直方图；美学因素是给出图像的光影、配色、构图、模糊、运动、趣味等多个方面的评价；美学描述给出图像美学方面的语言评论。

传统的图像质量评价旨在利用计算机模拟人类视觉系统自动评价图像的失真程度，主要是针对图像在采集、压缩、处理、传输及显示等过程中产生图像质量下降情况，通常包括成像条件差而引起的失真、有损压缩引起的失真、噪声、图像传输过程中受信道衰减影响引起的失真等。虽然目的都是获得与主观评价结果相一致的客观评价值，但图像美学质量评价旨在利用计算机模拟人类对美的感知与理解，让这种美感思维体现在计算机中，使计算机能够分别出高质量图像或者低质量图像。

2017年，台湾信息科学研究所发布了一个新的图像美学数据集照片语言评论数据集(photo critique captioning dataset，PCCD)，首次在图像美学数据集中加入了多美学因素的语言评论信息，并结合卷积神经网络(convolutional neural networks，CNN)与长短记忆单元(long-short term memory，LSTM)进行了图像美学语言评论的预测。该数据集的标注较为全面，包含了1个总体和6个美学因素的评价分数、分布以及多人语言评论。然而其方法具有如下缺点和不足：其数据量太少(4307幅)，难以满足大型深度神经网络对于训练样本的规模需求；只能输出一种类型的评价信息，不能实现多属性评价，内容不够全面客观；没有使用注意力机制强化任务目标，产生评价的针对性不强。

发明内容

本发明的技术解决问题：克服现有技术中大部分只关注单纯的好坏分类以及简单分数，很少预测图片的语言评价，提供一种基于注意力机制的多属性图像美学评价系统，利用语言信息描述美学评价，采用卷积神经网络以其局部权值共享的特殊结构在图像特征提取方面有着独特的优越性，加之注意力网络对美学关注的不同影响，其框架更接近于人的评价认知过程，从而能够有效的模拟出人类对美学的语言感知。

本发明采用的技术方案为：一种基于注意力机制的多属性图像美学评价系统，构建符合人类对美学的感知表示模型，利用机器学习的方法自动完成对图像的美学语言质量评价，其特征在于，包括：数据集采集和图像预处理模块、评论分类模块、多属性特征神经网络模块、通道和空间注意力模块、语言生成模块；

数据集采集模块：从摄影网站获取图像数据、图像打分和评论文本信息数据，并对获取的文本评论信息进行分类，构建出带属性信息的数据集；

图像预处理模块：对于采集数据按9：1的比例划分训练集和测试集，对训练集中的样本图像进行预处理，所述预处理包括图像大小变换和图像归一化，得到一个图像像素大小一致的输入数据，送入多属性特征提取网络模块提取多属性特征；

多属性特征神经网络模块：通过多任务分支结构对图像打分进行回归计算，得到图像的多属性特征向量，此模块得到的特征向量是对输入的特征提取，是对下一模块的初始处理；

通道和空间注意力模块：对图像的多属性特征中不同的属性特征分别在通道和空间维度上，进行注意力权重动态分配操作，得到最后的多属性注意力特征；

语言生成模块：将分类好的文本评论信息按类别送入长短时记忆单元LSTM中生成最后的对应文本评论分类属性的评价，长短时记忆单元LSTM同时调用多属性注意力特征，将这些特征和对应文本处理的向量进行编码，送入长短时记忆单元LSTM中产生最后的不同属性的评论结果。

所述数据采集模块具体实现如下：

(11)从www.dpchallenge.com网站获取到编号靠前的33万张图像，此部分图像质量较高，并且保存每个图像评论者的评论信息；

(12)搜集专业的美学数据集，参考其中的分类标准，将评论分类为5个属性，分别为用色和用光评价，构图评价，景深和聚焦评价，印象和主题评价，相机技巧评价；

(13)通过对专业数据集的词频排序，取前5的名词对文本评论进行筛选，如果评论中包含排名前5名词中的任意一个，就将该评论归为该类别，从而构建出带属性信息的数据集。

所述图像预处理模块具体实现如下：

(21)将整理后的训练集中的图像按照不同的属性根据预训练网络的结果制作标签数据；

(22)标签对应图像也需要进行处理，将训练集中原始图像进行大小变换，将原始图像的像素大小变换到一个固定尺寸，这个尺寸和设计的深度卷积神经网络所要求的输入大小一致；

(23)接下来将训练集中原始图像归一化，首先统计出训练集中的样本图像的均值，然后对每一个样本图像做去均值操作，得到处理好准备训练的数据。

所述多属性特征神经网络模块具体实现如下：

(31)预处理操作后，将处理好准备训练的图像送入多属性特征神经网络中进行预测，预测网络权重参数来自于预训练网络，预训练网络与多属性回归网络结构相同；

(32)多属性特征提取网络共包含全局分数回归和5种部分属性的分数回归，5种部分属性分别对应图像的用色和用光分数，构图分数，景深和聚焦分数，印象和主题分数，相机使用技巧分数，代表图像的用色和用光评价，构图评价，景深和聚焦评价，印象和主题评价，相机技巧评价；

(33)网络训练采用随机梯度下降法(SGD)进行参数优化，损失函数公式如下所示。下式中attribute代表属性，global代表全局，N代表网络训练一个批次的图片数，代表预测出的分数，yⁱ代表真实分数，m代表属性的数量，这里设置N为32，m为5。

所述通道和空间注意力模块具体实现如下：

(41)通道和空间注意力模块分为两个部分，前一部分接受不同属性的特征图，计算通道注意力向量，计算方法是对每个通道设置权重系数，通过反向传播进行学习，得到通道上权重向量，通过这个权重向量调整网络通道对网络的影响；

(42)第二部分处理空间上权重矩阵，通过反向传播进行学习，得到空间上的权重矩阵，通过这个矩阵与每通道的权重点乘，最终影响网络在空间上的输出；

(43)网络经过多次通道和空间注意力神经网络模块，将最后的输出张量输入后面的部分进行处理。

所述语言生成模块具体实现如下：

(51)对于一张输入图像A，首先经过前面所述步骤得到五个属性特征图，对每个属性的特征图与评论的Word2Vec向量共同输入LSTM(长短时记忆单元)中；

(52)经过反复训练，长短时记忆单元就可以同时产生不同的属性评价。

本发明与现有的技术相比，其优势在于：

(1)本发明可以最终生成多属性的美学语言评价信息，数据集包含大量(15万张图片，240万条评论信息)，可同时输出多个属性的语言评价，生成评价客观全面。

(2)本发明提出的网络模型，使用多任务卷积网络提取多属性特征，通过注意力机制处理不同属性的特征，最终可以根据不同属性的特征向量生成不同属性语言评价，并且输出结果符合语法和美学认知；可实现多属性语言评价生成，使用了注意力机制强化学习效果，生成的结果从不同角度描述美学特性。

(3)本发明简单有效，采用深度卷积神经网络，使图像的特征提取不需要人工干预，网络可以自动学习出图像的特征，避免了特征提取和回归过程中数据重建的复杂度。

附图说明

图1为本发明系统组成框程图；

图2为本发明中网络子模块详细结构图；

图3为本发明中网络模型整体结构图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本系统使用Intel Xeon E5 v4处理器开发，训练和测试过程通过NVIDIA TITANXp显卡进行。

如图1所示，本发明具体实现如下：

数据集采集模块实现过程：

本方法图像美学质量评价是从www.dpchallenge.com网站获取到编号靠前的33万张照片，其中每张照片都有一个得分结果，范围在1分到10分之间，每个属性随机抽取2000张照片当做验证集，2000张做测试集，其余图像作为训练集，共154384张图片，每个属性可以重复使用图像。

图像预处理模块实现过程：

图像预处理过程主要包括图像的大小归一化和图像去均值。

首先训练集和测试集中的样本图像按照用色和用光评价，构图评价，景深和聚焦评价，印象和主题评价，相机技巧评价，5个属性提取关键词，按照关键词进行排序，取出排名前十的词作为候选。根据候选词在评论中进行命中，如果评论中包含此候选词，则该评论分为此类。

由于深度卷积神经网络对输入图像的大小有一定的限制，因此根据设计的卷积神经网络对输入的大小要求，对初始图像做大小归一化处理(resize)。

利用机器学习的方法训练模型，需要对数据做去均值操作，这样可以保证训练集中的图像数据都分布在均值附近。

模型设计和训练实现过程：

多属性特征提取网络能够很好的提取出图像的特征，因此基于Densnet的网络思想，提出了一种新的卷积神经网络结构，此模型能够利用卷积操作有效的提取出图像的美学特征，在网络模型的前几个层次对图像的基本特征进行提取，在后几个层次提取图像的深层次特征，最后网络通过多任务把这些特征分为两个部分，一个是总分数回归，一个是这5种特征的回归结构，这样模型就能够很好的提取出图像总体特征和属性特征，神经网络的最后一层激活函数采用sigmoid，对结果通过欧式误差计算公式进行误差计算，整个训练采用SGD随机梯度下降法寻找最优参数，训练回归模型。接下来对特征进行通道和空间的注意力权重处理，最后经过长短时记忆单元输出每个属性的评论结果。

图2是多属性特征提取网络详细结构图。其中右边的图像全局特征(图中GeneralFeature部分)回归部分分为以下几个步骤实现。

(1)输入图像(对应图3中图像部分)经过步骤(22)的归一化处理之后，图像大小变为了224*224*3。其中224*224表示图像的分辨率大小，3表示图像有3个色彩通道，即RGB三通道。将固定大小的图像输入到161个卷积层中，该层主要负责数据初始化，经过161个大小为3*3、1*1的不同卷积核，对应图2中密集特征图层，处理图像得到了4096维的图像特征。

(2)密集特征图通过不同的卷积操作得到两个不同特征图，一个是属性特征图(对应图2属性特征图部分)，一个是全局特征图部分(对应图2全局特征图部分)，对于全局特征图得到特征进行全连接操作(图2中全连接部分)得到全局分数(对应图2中Global Score部分)，最后进行欧式距离计算损失。

图2的左边部分是一个属性特征提取模块结构(图2中左侧属性分数部分)。其设计思想如下：

(1)前面过程和全局特征提取相同，得到密集特征图复制5份进入5个不同属性的特征提取卷积之中(对应图2中属性特征图)。

(2)网络通过两次全连接操作(对应图2中FC1、FC2)，得到各个属性的分数(对应图2中属性分数)，然后通过欧式距离计算损失(对应图2MSE部分)。

(3)对于属性计算结果可以作为评价的辅助指标，提取的属性特征向量，可以作为下一步的输入。

网络通过迭代一定次数最终将所有数据经过此属性特征提取网络，得到最后的DPChallenge评论密集特征图(对应图2中DPChallenge评论密集特征图)。

图3是网络模型整体结构图，实现步骤如下：

(1)多属性特征提取模块(图3中多属性特征网络部分)的过程如上所述，由于需要属性分数作为真实值的标签，因此需要使用PCCD数据集进行预训练过程(对应图中在PCCD上进行预训练)，再使用相同结构的网络对于本方法提出数据集(图3中在DPC-Captions上进行微调训练)进行一次前向运算计算出5个属性特征向量。具体微调方法为固定所有卷积层参数，学习后面所有全连接的权重。预训练网络和多属性特征网络均使用densenet161网络结构。

(2)通道和空间注意力模块(图3中通道和空间注意力网络部分)，对本系统的生成任务来说，它是一种典型的图文结合的深度学习应用，输入一张图片，人工智能系统输出一句描述句子，语义等价地描述图片所示内容。这种应用场景需要使用编码-解码框架来解决任务目标，此时编码部分输入部分是一张图片，使用卷积神经网络来对图片进行特征抽取，解码部分使用长短时记忆单元来输出自然语言句子。此时如果加入注意力机制能够明显改善系统输出效果，注意力模型在这里起到了类似人类视觉选择性注意的机制，在输出某个实体单词的时候会将注意力焦点聚焦在图片中相应的区域上。具体来说，网络前一部分接受不同属性的特征图(对应图3中上一层部分)，计算通道注意力向量，计算方法是对每个通道设置权重系数，通过反向传播进行学习，得到通道上权重向量，通过这个向量调整网络通道对网络的影响，处理完成后得到中间层(对应图3中中间层部分)。网络第二部分处理空间上权重矩阵，也通过反向传播进行学习，得到空间上的权重矩阵，通过这个矩阵与每通道的权重点乘，最终影响网络在空间上的输出。网络经过多次通道和空间注意力神经网络模块，将最后的输出张量输入后面的部分进行处理(对应图3中下一层部分)。

(3)将步骤(2)得到的局部特征送入最后的语言生成模块中(对应图3中语言生成网络部分)，再经过5个长短时记忆单元(LSTM)组，进行语言输出，具体来说，就是将DPC-Captions中的每一类评论(对应图3中DPC-Captions部分)生成不同属性的Word2Vec向量(对应图3中Word2Vec部分)，首先进行分词提取和词形还原。处理数据为英文虽然不需要分词，但是要处理各种各样的时态，所以要进行词干提取和词形还原。接下来构造词典，统计词频。这一步需要遍历一遍所有文本，找出所有出现过的词，并统计各词的出现频率。下面构造树形结构。依照出现概率构造Huffman树。生成节点所在的二进制码。二进制码反映了节点在树中的位置，根据这个编码，能按照编码从根节点找到对应的叶节点。下一步是初始化各非叶节点的中间向量和叶节点中的词向量。树中的各个节点，都存储着一个长为m的向量，但叶节点和非叶结点中的向量的含义不同。叶节点中存储的是各词的词向量，是作为神经网络的输入的。而非叶结点中存储的是中间向量，对应于神经网络中隐含层的参数，与输入一起决定分类结果。最后训练中间向量和词向量。处理完毕后将这个向量和之前得到的通道和空间注意力模块得到的矩阵进行线性融合，同时作为输入进入LSTM单元(对应图3中LSTM部分)之中，5个LSTM单元组通过多个LSTM单元就可以生成用光和用色评价，构图评价，景深和聚焦评价，印象和主题评价，相机技巧评价(分别对应图3中用光和用色评价部分，构图评价部分，景深和聚焦评价部分，印象和主题评价部分，相机技巧评价部分)，5个属性评价了。具体来说，每个LSTM工作过程有四个步骤，第一步是根据前次工作记忆与当前输入的注意力特征分别乘以权重矩阵，加上偏置项，然后使用Sigmoid激活函数，得到一个元素的输出。第一层决定忘记哪些、忘记多少信息。第二步是确定应当将哪些新信息存放进细胞状态中。Sigmoid层称为“输入门层”决定我们将要更新哪些值，然后，一个tanh层创建一个新的候选值向量，tanh层的目的是计算可以从中学习的信息，也就是将长期记忆的候选添加记忆。在忘记我们认为不再需要的记忆并保存输入信息的有用部分后，我们就会得到更新后的长期记忆。第三步是用忘记门与前一次隐藏层的值相乘得到需要忘记的前次信息，再加上长期记忆的候选添加项乘需要更新的值得到新的候选值，更新细胞状态。最后，更新工作记忆(隐藏层)，也就是如何将长期记忆聚焦到能立刻发挥作用的信息上，确定输出是什么。对应于上面的第三个状态：将长期记忆聚焦为工作记忆。通过迭代上面LSTM单元的过程，就根据词向量输出相应的评价了。

整个网络的训练过程采用随机梯度下降法(SGD)寻找最优参数，调整网络每一层的参数，训练回归和语言生成模型。

总之，本发明中提出的基于注意力机制的多属性图像美学评论方法能够很好的模拟人类对美学的认知，自动对图像美学质量做出5种属性的自然语言评价。本发明首次将图像的语言评价作为评价标准，对图像美学质量进行全方位评价。通过实验显示出本发明提出的方法能够很好的对图像美学质量做出评价，本发明可广泛应用计算机视觉和图像美学分析等中。

以上所述仅为本发明的一些基本说明，依据本发明的技术方案所做的任何等效变换，均应属于本发明的保护范围。

Claims

1.一种基于注意力机制的多属性图像美学评价系统，其特征在于，包括：数据集采集和图像预处理模块、多属性特征神经网络模块、通道和空间注意力模块、语言生成模块；

2.根据权利要求1所述的一种基于注意力机制的多属性图像美学评价系统，其特征在于：所述数据采集模块具体实现如下：

(11)从网站获取到编号靠前的33万张图像，并且保存每个图像评论者的评论信息；

(13)通过对专业数据集的词频排序，取前5的名词对文本评论进行筛选，如果评论中包含排名前5名词中的任意一个，则将该评论归为该类别，构建出带属性信息的数据集。

3.根据权利要求1所述的一种基于注意力机制的多属性图像美学评价系统，其特征在于：所述图像预处理模块具体实现如下：

(22)标签对应图像也需要进行处理，将训练集中原始图像进行大小变换，将原始图像的像素大小变换到一个固定尺寸，这个固定尺寸和设计的深度卷积神经网络所要求的输入大小一致；

(23)将训练集中原始图像归一化，首先统计出训练集中的样本图像的均值，然后对每一个样本图像做去均值操作，得到处理好准备训练的数据。

4.根据权利要求1所述的一种基于注意力机制的多属性图像美学评价系统，其特征在于：所述多属性特征神经网络模块具体实现如下：

(33)网络训练采用随机梯度下降法SGD进行参数优化，损失函数公式如下所示，

attribute代表属性，global代表全局，N代表网络训练一个批次的图片数，代表预测出的分数，yⁱ代表真实分数，m代表属性的数量。

5.根据权利要求4所述的一种基于注意力机制的多属性图像美学评价系统，其特征在于：所述N为32，m为5。

6.根据权利要求1所述的一种基于注意力机制的多属性图像美学评价系统，其特征在于：所述通道和空间注意力模块具体实现如下：

(42)第二部分处理空间上权重矩阵，通过反向传播进行学习，得到空间上的权重矩阵，通过这个权重矩阵与每通道的权重点乘，最终影响网络在空间上的输出；

7.根据权利要求1所述的一种基于注意力机制的多属性图像美学评价系统，其特征在于：所述语言生成模块具体实现如下：

(51)对于一张输入图像，首先经过前面所述步骤得到5个属性特征图，对每个属性的特征图与评论的Word2Vec向量共同输入长短时记忆单元LSTM中；

(52)经过反复训练，长短时记忆单元LSTM同时产生不同的属性评价。