CN110473164B - 一种基于注意力机制的图像美学质量评价方法 - Google Patents

一种基于注意力机制的图像美学质量评价方法 Download PDF

Info

Publication number
CN110473164B
CN110473164B CN201910553271.2A CN201910553271A CN110473164B CN 110473164 B CN110473164 B CN 110473164B CN 201910553271 A CN201910553271 A CN 201910553271A CN 110473164 B CN110473164 B CN 110473164B
Authority
CN
China
Prior art keywords
score
picture
network
characteristic diagram
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910553271.2A
Other languages
English (en)
Other versions
CN110473164A (zh
Inventor
宋丹丹
杨知水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN110473164A publication Critical patent/CN110473164A/zh
Application granted granted Critical
Publication of CN110473164B publication Critical patent/CN110473164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于注意力机制的图像美学质量评价方法,属于计算机视觉技术领域;首先处理训练数据,然后设计网络结构模型,采用轻量级深度网络作为主干网络,融入注意力机制模块;之后,基于数据均衡思想,设计用于训练网络的损失函数;最后用处理好的训练数据训练网络结构模型,得到一个具有自动评价图像美学质量的网络模型;并基于该模型对输入图片进行美学评分以及将该模型应用于拍摄以辅助用户实时拍出更加美观的图片。对比现有技术,本发明采用的网络结构模型能更加有效的提取图像的特征,采用的损失函数,极大增强了模型对数据的学习能力,相比于其他方法既提高了准确率,又减少了模型的参数量。

Description

一种基于注意力机制的图像美学质量评价方法
技术领域
本发明涉及一种基于注意力机制的图像美学质量评价方法,尤其涉及一种基于轻量级的卷积神经网络、融入注意力机制模块,利用基于数据均衡的损失函数来训练,自动得到图片美学质量得分的方法,属于计算机视觉技术领域。
背景技术
图像美学质量评价(Image Aesthetic Quality Assessment)是利用计算机模拟人的视觉对于美的理解与感受,根据图像的美学质量将其分为高质量/低质量图片,或做出一个客观的评价得分。由于图像美学的抽象性、主观性以及受众的差异性,对于计算机来说,客观的对图片进行美学范围上的评价,是一个极具有挑战性的任务。
图像美学质量评价通常分为两步,首先提取图像特征,再根据特征进行决策。传统的人工设计的特征,提取图像清晰度、亮度、颜色、对比度、景深等摄影学上的特征,或用通用的人工特征。近年来,以卷积神经网络为主的深度学习也被应用到图像美学质量评价领域中来。但是如何同时保留图像的全局信息和局部信息,如何有效提取图像美学特征,仍是该任务的最大难点。
发明内容
本发明的目的是为了克服现有技术的不足,提出一种轻量级深度网络和注意力机制的图像美学质量评价方法,能在提高模型效果的基础上,减少模型参数量,并将该模型移植移动端进行应用。
一方面,本发明提供一种基于注意力机制的图像美学质量评价方法,包括以下步骤:
步骤1:设计网络结构模型;
网络结构模型为:主干网络用n层深度可分离卷积层(Depthwise Separableconvolutions),主干网络中任意位置插入注意力模块,主干网络后接全局均值池化层(Global Average Pooling)、全连接层以及softmax层;注意力模块用于模拟人的视觉机制,对于图像中的重点区域赋予较大的权重。
作为优选,所述主干网络采用8层深度可分离卷积层,第6层后插入注意力模块。
作为优选,所述注意力模块为双路注意力模块:面向特征图位置和面向特征图通道的注意力模块;面向特征图位置的注意力模块用于捕捉位置上的长语义关联信息;面向特征图通道的注意力模块用于捕捉通道上的长语义关联信息。
作为优选,所述面向特征图位置的注意力模块操作如下:
Step1:输入特征图
Figure BDA0002106122300000021
C表示通道数,H和W分别表示特征图的高和宽,将A分别经过三个1×1的包含BN和ReLU的卷积层,得到三个新的特征图B、C、D,该卷积操作不改变特征图大小,因此
Figure BDA0002106122300000022
Step2:将B、C、D重整型(reshape)成
Figure BDA0002106122300000023
其中N=H×W;
Step3:将B转置成
Figure BDA0002106122300000024
与C做矩阵乘法,得到特征图
Figure BDA0002106122300000025
并对其做softmax得到空间上的注意力映射图
Figure BDA0002106122300000026
Step4:将S转置成
Figure BDA0002106122300000027
将D和S的转置做矩阵乘法,得到特征图
Figure BDA0002106122300000028
再重整型为
Figure BDA0002106122300000029
Step5:将Step4得到的特征图乘以比例因子α,与原特征图A做元素加和运算,得到最终的输出特征图
Figure BDA00021061223000000210
作为优选,所述面向特征图通道的注意力模块操作如下:
Step1:输入特征图
Figure BDA00021061223000000211
将其重整型为
Figure BDA00021061223000000212
其中N=H×W;
Step2:将A转置成
Figure BDA00021061223000000213
A与转置后的A做矩阵乘法,得到特征图
Figure BDA00021061223000000214
并对其做softmax得到通道上的注意力映射图
Figure BDA00021061223000000215
Step4:将X转置成
Figure BDA00021061223000000216
将X的转置和A做矩阵乘法,得到特征图
Figure BDA00021061223000000217
再重整型为
Figure BDA00021061223000000218
Step5:将Step4得到的特征图乘以比例因子β,与原特征图A做元素加和运算,得到最终的输出特征图
Figure BDA0002106122300000031
步骤2:设计用于训练网络的损失函数;
采用如下基于数据均衡的bEMD(balanced Earth Mover’s Distance)损失作为损失函数,该损失函数根据图片的置信度给图片加上权值,即给EMD损失函数加上一个比例系数,给定真实值的概率密度函数p和预测值的概率密度
Figure BDA0002106122300000032
损失函数定义如下公式:
Figure BDA0002106122300000033
其中,p为真实值得分的概率分布,
Figure BDA0002106122300000034
为预测值得分的概率分布;Si为第i张图片的评分人数,
Figure BDA0002106122300000035
为整个数据集中图片的平均评分人数,
Figure BDA0002106122300000036
N为数据集中图片的总数;CDFp(k)是真实得分累积分布函数
Figure BDA0002106122300000037
表示图片第j个真实分值的概率,k表示分值的总数;
Figure BDA0002106122300000038
是预测得分累积分布函数
Figure BDA0002106122300000039
表示图片第j个预测分值的概率;除去
Figure BDA00021061223000000310
权重部分,该公式为CDFp(k)和
Figure BDA00021061223000000311
的闵可夫斯基距离(Minkowski Distance)定义,r=1为曼哈顿距离、r=2为欧氏距离、r→∞时为切比雪夫距离;
步骤3:处理训练数据;
将训练数据处理成满足网络结构模型要求的大小;
作为优选,所述处理训练数据还包括获取图片和相应标签内容,所述将训练数据处理成满足所述网络结构模型要求的大小为先将图片缩放至略大于所述网络结构模型要求的大小,然后再随机裁剪成所述网络结构模型要求的大小,接下来再随机翻转以增强数据;标签为图片每一个分值的得分数,通过以下公式归一化作为图片的真实得分分布:
Figure BDA00021061223000000312
其中pi为第i个分值的概率,Ri为第i个分值的评分人数,K为分值的数量。
步骤4:用步骤3中处理好的训练数据、步骤2的损失函数,训练步骤1的网络结构模型得到图像美学质量评价网络;
步骤5:输入图片进行美学评分;
将待评价的图片缩放至所述网络结构模型要求的大小,输入所述图像美学质量评价网络中,得到该图片的每一个评分的概率分布,通过下述公式计算该分布的均值得到图片的美学得分μ:
Figure BDA0002106122300000041
其中,bi为第i个分值,
Figure BDA0002106122300000042
表示第i个分值的概率,K表示分值的数量。
另一方面,本发明提供一种基于图像美学质量评价网络辅助拍摄的方法,包括以下步骤:
(1)、获取摄像头取景的画面A;
(2)、将A采用权利要求1所述步骤5进行美学评分;
(3)、将美学评分显示在取景框中以实时对取景画面进行评分,所述评分用于使用户实时根据评分数值的大小进行拍摄选景及构图,帮助用户拍摄出更加美观的图片。
作为优选,将所述一种基于图像美学质量评价网络辅助拍摄的方法应用于手机时,还包括获取手机摄像头权限。
有益效果
本发明方法,与现有技术相比,具有以下有益效果:
本发明设计的神经网络模型较好的关注图像全局布局特征,能够在融合注意力机制的轻量级网络中更好的完成图像美学质量评价任务。
本发明采用数据增强的方式增加图片个数,以便充分利用图片资源,解决因图片资源不够带来的模型训练效果不好的问题。
本发明提出了并验证了在图像美学质量评价任务中,对于基础CNN网络加入注意力机制的有效性。注意力机制能模拟人的视觉机制,对于图像中的重点区域赋予较大的权重。本文提出的注意力机制模块分为位置注意力模块和通道注意力模块,分别捕捉位置和通道上的长语义关联信息,并有效融合这两部分的信息,提高了网络的特征提取能力。同时采用深度可分离卷积作为主干网络,加入双路注意力机制,用更少的网络层数达到与更多层数接近的大感受野的效果,更好的提取图像特征,在性能提升的同时减少网络参数。
本发明考虑到数据集中的图片的标注评分人数不一而带来的可信度不一致的问题,基于EMD损失函数提出bEMD损失函数,根据每一张图片打分人数,给图片赋予一个相应的权重,加入损失函数中,使得评分人数多的图片对于模型的影响更大,评分人数少的图片给予更少的关注,大大减轻了数据的噪声问题,更加充分的利用数据集,提高数据集中质量较高的图片对于模型的影响,对比实验证明该方法极大提升了模型的准确率。
本发明将深度学习模型应用于生活,对提出的模型进行移动端移植,并简单开发一个安卓APP使人们能对自己的图片进行美学评分,且利用美学质量评分指导自己拍摄时拍出更加美观的照片。
附图说明
图1为本发明方法的流程及创新点示意图;
图2为本发明方法的整体网络结构图;
图3为本发明方法的深度可分离卷积结构图;
图4为本发明方法的基于位置的注意力模块图;
图5为本发明方法的基于通道的注意力模块图;
图6为本发明方法的移动端功能示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
本实施例为在8层深度可分离卷积层的第6层后加入双路注意力机制的网络结构,数据集使用AVA数据集。
一种基于注意力机制的图像美学质量评价方法,如图1所示,包括以下几个步骤:
步骤1:预处理训练数据:
在公共数据集上获取图片和相应标签,作为训练数据集。首先将图片进行缩放至256×256大小,再随机裁剪成224×224的图片,再将该图片进行随机翻转,包括水平翻转和垂直翻转。这个随机裁剪和翻转的操作能有效的避免过拟合的问题,相当于增加了训练样本数,尤其对于小数据量的数据集来说更为有效。并将图片标签按公式1归一化得到图片的真实得分概率分布,本实施例使用的AVA数据集中图片评分范围为1至10分,因此得到图片1至10分每一个得分的概率。
步骤2:设计网络结构,主干网络用8层深度可分离卷积层,第6层后插入注意力模块,主干网络后接全局均值池化层、全连接层以及softmax层。网络结构如图2所示,表1详细介绍了该网络各层的具体情况,dw表示深度可分离卷积。当然,本领域技术人员知道,网络结构不限于此,主干网络可以采用任意层数,注意力模块可插入任何位置。本实施例所述仅为较优的实施方案。
Figure BDA0002106122300000061
Figure BDA0002106122300000071
输入为224×224×3的原图,经过6个如图3的深度可分离卷积层的特征提取,得到28×28×256的特征图,该特征图分别经过位置注意力模块和通道注意力模块,如图4和图5,得到两个28×28×256的特征图。
其中,位置注意力模块操作如下:
Step1:输入为注意力模块前的主干网络的输出特征图
Figure BDA0002106122300000072
C表示通道数,此处为256,H和W分别表示特征图的高和宽,此处均为28,将A分别经过三个1×1的包含BN和ReLU的卷积层,得到三个新的特征图B、C、D,该卷积操作不改变特征图大小,因此
Figure BDA0002106122300000081
Step2:将B、C、D重整型(reshape)成
Figure BDA0002106122300000082
其中N=H×W,此处N=28×28=784;
Step3:将B转置成
Figure BDA0002106122300000083
与C做矩阵乘法,得到特征图
Figure BDA0002106122300000084
并对其做softmax得到空间上的注意力映射图
Figure BDA0002106122300000085
Step4:将S转置成
Figure BDA0002106122300000086
将D和S的转置做矩阵乘法,得到特征图
Figure BDA0002106122300000087
再重整型为
Figure BDA0002106122300000088
Step5:将上一步得到的特征图乘以比例因子α,与原特征图A做元素加和运算,得到最终的输出特征图
Figure BDA0002106122300000089
α来控制该注意力模块对于模型的影响其中α初始化为0,并通过学习逐渐增大来给位置注意力部分赋予更大的权重。面向位置的注意力模块提取空间维度上的局部特征的关联信息。
面向特征图通道的注意力模块操作如下:
Step1:输入与位置注意力模块的输入相同,为
Figure BDA00021061223000000810
将其重整型为
Figure BDA00021061223000000811
其中N=H×W,此处C=256,H和W均为28,N=784;
Step2:将A转置成
Figure BDA00021061223000000812
A与转置后的A做矩阵乘法,得到特征图
Figure BDA00021061223000000813
并对其做softmax得到通道上的注意力映射图
Figure BDA00021061223000000814
Step4:将X转置成
Figure BDA00021061223000000815
将A和X的转置做矩阵乘法,得到特征图
Figure BDA00021061223000000816
再重整型为
Figure BDA00021061223000000817
Step5:将上一步得到的特征图乘以比例因子β,与原特征图A做元素加和运算,得到最终的输出特征图
Figure BDA00021061223000000818
β来控制该注意力模块对于模型的影响其中β初始化为0,并通过学习逐渐增大来给通道注意力部分赋予更大的权重。面向通道的注意力模块提通道维度上各通道之间的关联信息。
上述位置注意力模块和通道注意力模块不限于此结构,为了分别捕捉位置和通道的长语义关联信息,也可设计其他类似结构。
将双路注意力模块进行聚合操作为:将双路注意力模块输出的两个特征图分别先过一个1×1的卷积层,将通道降至64维,并接BN、ReLU和保留率为0.9的Dropout层,再通过1×1的卷积层升回256,再将这两个特征图元素相加,最后通过保留率为0.9的Dropout层和一个通道数不变的1×1的卷积层,得到融合了空间和通道注意力信息的28×28×256的特征图。
注意力模块能有效提高网络的特征提取能力,在引入少量参数量的情况下,用更少的层数达到与更多的层数接近的大感受野的效果,层数越少参数量越少。本实施例与标准MobileNet结构相比,参数量减少了近三倍。
聚合操作后再接两层步长为2的深度可分离卷积得到7×7×1024的特征图,经过全局均值池化(Global Average Pooling)层得到1024维向量,最后连接输出为10类的全连接层和softmax得到该图片的得分分布。
步骤3:设计用于训练网络的损失函数。损失函数为bEMD损失函数,即:
Figure BDA0002106122300000091
该损失函数度量图片真实得分分布和预测得分分布之间的距离,并考虑训练数据中图片标签置信度不一致的问题,增大评分人数多,即置信度高的图片的权重,降低评分人数少的图片的权重。能有效减轻训练数据的噪声问题,更加充分利用数据集,达到更好的训练效果。
上述1、2、3步骤没有严格的顺序,使用本方法时可以根据需要调整先后。
步骤4:用步骤1中处理好的训练数据、步骤3的损失函数,训练步骤2的网络模型得到图像美学质量评价网络。具体步骤如下:
Step1:初始化模型参数,作为基础的主干网络初始化参数为在ImageNet上预训练好的参数,位置注意力部分的卷积层使用Glorot均匀分布初始化方法,bias初始化为0。最后的全连接层随机初始化,保留率为0.75的Dropout层加在最后一层全连接层之前。
Step2:分批次读取训练数据,数据为步骤1中预处理好的图片以及图片真实得分分布。将图片输入到步骤2的网络中,得到图片的1至10分分值的预测分布。
Step3:计算图片真实得分分布和预测得分分布的bEMD损失,然后使用Adam优化方法反向传播计算梯度,更新步骤2中的网络的参数值,所有的网络层都进行参数更新,使得网络预测值越来越接近真实值。Adam学习率为0.001,β1=0.9,β2=0.999,一共20个迭代(epoch)大约需要13个小时。所有的实验都在AVA数据集上进行,以标准划分方式划分训练集和测试集。随机选取图片的90%,约23万张图作为大规模训练集,剩下2万张图片作为测试集。
Step4:重复Step2-Step3,直到损失函数值趋于稳定。
经过上述端到端的训练后,得到一个图像美学质量评价模型。
步骤5:输入图片进行美学预测;
将用户待评价的图片resize为224×224×3,输入步骤4得到的图像美学质量评价模型中,得到该图片的每一个评分的概率分布,用公式3计算该分布的均值得到图片的美学得分。
模型移植移动端应用,如图6移动端有两个功能,基础功能为对用户上传的图片打美学分数,使用户能了解图片的美观程度;另外开创性的将美学质量评分用于辅助用户拍摄:获取用户的手机摄像头权限,对于用户拍摄的画面进行实时评分,用户可根据评分数值大小,在拍摄选景以及构图上轻松进行更优选择,帮助用户拍摄出更加美观的图片。
为了说明本发明的内容及实施方法,本说明书给出了上述具体实施例。但是,本领域技术人员应理解,本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。

Claims (5)

1.一种基于注意力机制的图像美学质量评价方法,其特征在于,包括以下步骤:
步骤1:设计网络结构模型;
网络结构模型为:主干网络用深度可分离卷积层,主干网络中插入注意力模块,主干网络后接全局均值池化层、全连接层以及softmax层;注意力模块用于模拟人的视觉机制,对于图像中的重点区域赋予较大的权重;
所述注意力模块为双路注意力模块:面向特征图位置和面向特征图通道的注意力模块;面向特征图位置的注意力模块用于捕捉位置上的长语义关联信息;面向特征图通道的注意力模块用于捕捉通道上的长语义关联信息;
所述面向特征图位置的注意力模块操作如下:
Step1-1:输入特征图
Figure FDA0003213642130000011
C表示通道数,H和W分别表示特征图的高和宽,将A分别经过三个1×1的包含BN和ReLU的卷积层,得到三个新的特征图B、E、D,该卷积操作不改变特征图大小,因此
Figure FDA0003213642130000012
Step1-2:将B、E、D重整型成
Figure FDA0003213642130000013
其中N=H×W;
Step1-3:将B转置成
Figure FDA0003213642130000014
与E做矩阵乘法,得到特征图
Figure FDA0003213642130000015
并对其做softmax得到空间上的注意力映射图
Figure FDA0003213642130000016
Step1-4:将S转置成
Figure FDA0003213642130000017
将D和S的转置做矩阵乘法,得到特征图
Figure FDA0003213642130000018
再重整型为
Figure FDA0003213642130000019
Step1-5:将Step1-4得到的特征图乘以比例因子α,与原特征图A做元素加和运算,得到最终的输出特征图
Figure FDA00032136421300000110
所述面向特征图通道的注意力模块操作如下:
Step2-1:输入特征图
Figure FDA00032136421300000111
将其重整型为
Figure FDA00032136421300000112
其中N=H×W;
Step2-2:将A转置成
Figure FDA00032136421300000113
A与转置后的A做矩阵乘法,得到特征图
Figure FDA00032136421300000114
并对其做softmax得到通道上的注意力映射图
Figure FDA00032136421300000115
Step2-3:将X转置成
Figure FDA00032136421300000116
将X的转置和A做矩阵乘法,得到特征图
Figure FDA00032136421300000117
再重整型为
Figure FDA0003213642130000021
Step2-4:将Step2-3得到的特征图乘以比例因子β,与原特征图A做元素加和运算,得到最终的输出特征图
Figure FDA0003213642130000022
步骤2:设计用于训练网络的损失函数;
采用下述基于数据均衡的bEMD损失作为损失函数:
Figure FDA0003213642130000023
其中,p为真实值得分的概率分布,
Figure FDA0003213642130000024
为预测值得分的概率分布;Se为第e张图片的评分人数,
Figure FDA0003213642130000025
为整个数据集中图片的平均评分人数,
Figure FDA0003213642130000026
N为数据集中图片的总数;CDFp(k)是真实得分累积分布函数
Figure FDA0003213642130000027
Figure FDA0003213642130000028
表示图片第j个真实分值的概率,k表示分值的总数;
Figure FDA0003213642130000029
是预测得分累积分布函数
Figure FDA00032136421300000210
Figure FDA00032136421300000211
表示图片第j个预测分值的概率;除去
Figure FDA00032136421300000212
权重部分,该公式为CDFp(k)和
Figure FDA00032136421300000213
的闵可夫斯基距离定义,r=1为曼哈顿距离、r=2为欧氏距离、r→∞时为切比雪夫距离;
步骤3:处理训练数据;
将训练数据处理成满足网络结构模型要求的大小;
步骤4:用步骤3中处理好的训练数据、步骤2的损失函数,训练步骤1的网络结构模型得到图像美学质量评价网络;
步骤5:输入图片进行美学评分;
将待评价的图片缩放至所述网络结构模型要求的大小,输入所述图像美学质量评价网络中,得到该图片的每一个评分的概率分布,通过下述公式计算该分布的均值得到图片的美学得分μ:
Figure FDA00032136421300000214
其中,bi为第i个分值,
Figure FDA00032136421300000215
表示第i个分值的概率,k表示分值的总数。
2.根据权利要求1所述的方法,其特征在于,所述主干网络采用8层深度可分离卷积层,第6层后插入注意力模块。
3.根据权利要求1-2任一所述的方法,其特征在于,所述处理训练数据还包括获取图片和相应标签内容,所述将训练数据处理成满足所述网络结构模型要求的大小为先将图片缩放至略大于所述网络结构模型要求的大小,然后再随机裁剪成所述网络结构模型要求的大小,接下来再随机翻转以增强数据;标签为图片每一个分值的得分数,通过以下公式归一化作为图片的真实得分分布:
Figure FDA0003213642130000031
其中,pi为第i个分值的概率,Ri为第i个分值的评分人数,Rj为第j个分值的评分人数,k为分值的数量。
4.一种基于图像美学质量评价网络辅助拍摄的方法,其特征在于,包括以下步骤:
(1)、获取摄像头取景的画面;
(2)、将所述画面采用权利要求1所述方法进行美学评分;
(3)、显示美学评分以实时对取景画面进行评分,所述评分用于使用户实时根据评分数值的大小进行拍摄选景及构图,帮助用户拍摄出更加美观的图片。
5.根据权利要求4所述的方法,其特征在于,该方法应用于手机时,还包括获取手机摄像头权限。
CN201910553271.2A 2019-05-31 2019-06-25 一种基于注意力机制的图像美学质量评价方法 Active CN110473164B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910470020 2019-05-31
CN2019104700208 2019-05-31

Publications (2)

Publication Number Publication Date
CN110473164A CN110473164A (zh) 2019-11-19
CN110473164B true CN110473164B (zh) 2021-10-15

Family

ID=68506969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910553271.2A Active CN110473164B (zh) 2019-05-31 2019-06-25 一种基于注意力机制的图像美学质量评价方法

Country Status (1)

Country Link
CN (1) CN110473164B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028282A (zh) * 2019-11-29 2020-04-17 浙江省北大信息技术高等研究院 一种无监督位姿与深度计算方法及系统
CN113065571A (zh) * 2019-12-16 2021-07-02 北京沃东天骏信息技术有限公司 一种构造训练数据集的方法和装置
CN111160197A (zh) * 2019-12-23 2020-05-15 爱驰汽车有限公司 人脸检测方法、装置、电子设备、存储介质
CN111199540A (zh) * 2019-12-27 2020-05-26 Oppo广东移动通信有限公司 图像质量评价方法、装置、电子设备及存储介质
CN111144497B (zh) * 2019-12-28 2023-04-28 天津大学 基于美学分析的多任务深度网络下的图像显著性预测方法
CN111369124A (zh) * 2020-02-27 2020-07-03 西安交通大学 一种基于自生成全局特征和注意力的图像美学预测方法
CN111340123A (zh) * 2020-02-29 2020-06-26 韶鼎人工智能科技有限公司 一种基于深度卷积神经网络的图像分数标签预测方法
CN111798457B (zh) * 2020-06-10 2021-04-06 上海众言网络科技有限公司 图像视觉重量确定方法、装置和图像评价方法
CN111815606B (zh) * 2020-07-09 2023-09-01 浙江大华技术股份有限公司 图像质量评估方法、存储介质及计算装置
CN111950655B (zh) * 2020-08-25 2022-06-14 福州大学 一种基于多领域知识驱动的图像美学质量评价方法
CN112232343B (zh) * 2020-09-03 2023-11-21 国家粮食和物资储备局科学研究院 一种粮食霉变粒识别神经网络和识别方法
CN112287965A (zh) * 2020-09-21 2021-01-29 卓尔智联(武汉)研究院有限公司 图像质量检测模型训练方法、装置和计算机设备
CN112183645B (zh) * 2020-09-30 2022-09-09 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法
CN112465792A (zh) * 2020-12-04 2021-03-09 北京华捷艾米科技有限公司 一种人脸质量的评估方法及相关装置
CN112651778B (zh) * 2020-12-25 2022-08-23 平安科技(深圳)有限公司 用户行为预测方法、装置、设备及介质
CN112580636B (zh) * 2020-12-30 2024-08-06 杭州电子科技大学 一种基于跨模态协同推理的图像美学质量评价方法
CN112613303B (zh) * 2021-01-07 2023-02-21 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN112967358A (zh) * 2021-03-08 2021-06-15 上海微电机研究所(中国电子科技集团公司第二十一研究所) 基于美学质量的数字相册筛选方法、装置和电子设备
CN113032606B (zh) * 2021-04-08 2022-05-10 广东粤财金融云科技股份有限公司 一种基于大数据的下载管理系统及方法
CN113284100B (zh) * 2021-05-12 2023-01-24 西安理工大学 基于恢复图像对混合域注意力机制的图像质量评价方法
CN113592812B (zh) * 2021-07-29 2024-06-28 华南师范大学 一种素描图片评价方法及装置
CN113554327A (zh) * 2021-07-29 2021-10-26 上海千内云教育软件科技有限公司 一种基于深度学习的素描作品智能分档以及量化评分方法
CN114494130B (zh) * 2021-12-24 2024-09-20 吉林建筑大学 一种基于最优模型评价准则的产品美学评价体系
CN114898424B (zh) * 2022-04-01 2024-04-26 中南大学 一种基于双重标签分布的轻量化人脸美学预测方法
CN116452904B (zh) * 2023-02-10 2023-09-15 北京航空航天大学 图像美学质量确定方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481218A (zh) * 2017-07-12 2017-12-15 中国科学院自动化研究所 图像美感评估方法及装置
CN107610123A (zh) * 2017-10-11 2018-01-19 中共中央办公厅电子科技学院 一种基于深度卷积神经网络的图像美学质量评价方法
CN108520213A (zh) * 2018-03-28 2018-09-11 五邑大学 一种基于多尺度深度的人脸美丽预测方法
CN109255374A (zh) * 2018-08-27 2019-01-22 中共中央办公厅电子科技学院 一种基于密集卷积网络和多任务网络的美学属性评价方法
CN109544524A (zh) * 2018-11-15 2019-03-29 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价系统
CN109801256A (zh) * 2018-12-15 2019-05-24 华南理工大学 一种基于感兴趣区域和全局特征的图像美学质量评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11030722B2 (en) * 2017-10-04 2021-06-08 Fotonation Limited System and method for estimating optimal parameters

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481218A (zh) * 2017-07-12 2017-12-15 中国科学院自动化研究所 图像美感评估方法及装置
CN107610123A (zh) * 2017-10-11 2018-01-19 中共中央办公厅电子科技学院 一种基于深度卷积神经网络的图像美学质量评价方法
CN108520213A (zh) * 2018-03-28 2018-09-11 五邑大学 一种基于多尺度深度的人脸美丽预测方法
CN109255374A (zh) * 2018-08-27 2019-01-22 中共中央办公厅电子科技学院 一种基于密集卷积网络和多任务网络的美学属性评价方法
CN109544524A (zh) * 2018-11-15 2019-03-29 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价系统
CN109801256A (zh) * 2018-12-15 2019-05-24 华南理工大学 一种基于感兴趣区域和全局特征的图像美学质量评估方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Atterntion-based Multi-Patch Aggregation for Image Aesthetic Assessment;Kekai Sheng et al.;《2018 ACM Multimedia Conference on Multimedia Conference-MM"18》;20181026;第879-886页 *
Deep Cropping via Attention Box Prediction and Aesthetics Assessment;Wenguan Wang et al.;《2017 IEEE International Conference on Computer Vision (ICCV)》;20171231;第2205-2213页 *
基于深度卷积神经网络的图像美感评估研究;王励;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215;第I138-3984页 *
基于深度学习的图像美学质量评价;池经营;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415;第I138-3272页 *

Also Published As

Publication number Publication date
CN110473164A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110473164B (zh) 一种基于注意力机制的图像美学质量评价方法
CN109544524B (zh) 一种基于注意力机制的多属性图像美学评价系统
CN106778928B (zh) 图像处理方法及装置
CN108596024B (zh) 一种基于人脸结构信息的肖像生成方法
US8692830B2 (en) Automatic avatar creation
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN110334589B (zh) 一种基于空洞卷积的高时序3d神经网络的动作识别方法
CN113255813B (zh) 一种基于特征融合的多风格图像生成方法
CN109902912B (zh) 一种基于性格特征的个性化图像美学评价方法
CN113011504B (zh) 基于视角权重和特征融合的虚拟现实场景情感识别方法
CN113554599B (zh) 一种基于人类视觉效应的视频质量评价方法
CN108550173A (zh) 基于语音生成口型视频的方法
CN110363770A (zh) 一种边缘引导式红外语义分割模型的训练方法及装置
CN111652307A (zh) 基于卷积神经网络的红木家具智能无损鉴定方法及装置
CN112507904B (zh) 一种基于多尺度特征的教室人体姿态实时检测方法
CN116993975A (zh) 基于深度学习无监督领域适应的全景相机语义分割方法
CN115731597A (zh) 一种人脸口罩掩膜图像自动分割与修复管理平台及方法
CN115471718A (zh) 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法
CN114663769A (zh) 一种基于YOLO v5的水果识别方法
CN111582202B (zh) 一种智能网课系统
CN110555379B (zh) 一种根据性别动态调整特征的人脸愉悦度估计方法
CN112132922A (zh) 一种将在线课堂中的图像和视频卡通化的方法
CN114155255B (zh) 一种基于特定人物时空轨迹的视频横屏转竖屏方法
CN110443788B (zh) 一种图像美学质量评价方法
CN115393491A (zh) 一种基于实例分割和参考帧的水墨视频生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant