CN111950655A - 一种基于多领域知识驱动的图像美学质量评价方法 - Google Patents

一种基于多领域知识驱动的图像美学质量评价方法 Download PDF

Info

Publication number
CN111950655A
CN111950655A CN202010861877.5A CN202010861877A CN111950655A CN 111950655 A CN111950655 A CN 111950655A CN 202010861877 A CN202010861877 A CN 202010861877A CN 111950655 A CN111950655 A CN 111950655A
Authority
CN
China
Prior art keywords
classification
aesthetic
image
network
dense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010861877.5A
Other languages
English (en)
Other versions
CN111950655B (zh
Inventor
牛玉贞
陈志贤
刘文犀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010861877.5A priority Critical patent/CN111950655B/zh
Publication of CN111950655A publication Critical patent/CN111950655A/zh
Application granted granted Critical
Publication of CN111950655B publication Critical patent/CN111950655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多领域知识驱动的图像美学质量评价方法,步骤S1:设计一个密集连接网络作为主干网络,提取图像的美学特征;S2:设计一个半监督学习算法,同时从有标签和无标签图像学习风格特征,提取图像的风格特征;S3:使用场景语义分类数据集和情感分类数据集训练场景语义分类模型和情感分类模型,提取图像的语义特征和情感特征;S4:使用梯度提升算法XGBoost,对提取到的特征进行特征筛选与融合,分别训练SVM分类模型和SVR回归模型来预测图像的美学质量。本发明能显著提高美学质量预测精度。

Description

一种基于多领域知识驱动的图像美学质量评价方法
技术领域
本发明涉及图像处理以及计算机视觉领域,特别是一种基于多领域知识驱动的图像美学质量评价方法。
背景技术
由于视觉美学是一个主观的属性,往往会涉及情感和个人品味,受到摄影规则、图像内容和图像风格等影响,这使得自动评估图像美学质量是一项非常主观的任务。在美学质量评价引入深度学习模型后,可以学习到更有效的美学特征,为了能进一步提高性能,学者们开始借助各种与美学息息相关的领域的专业知识来辅助评价美感,Mai等引入了语义分类信息作为网络分支辅佐美学评价,总结出7种对图像美感影响最大的场景;Lu等人认识到图像中的不同的主体类别对人们吸引力不同,进而显著影响到图像的吸引力;Kucer等人考虑到图像传递出的喜怒哀乐等情感因素也会影响到图像美感。但是,绝大多数工作都忽略了图像风格对图像美学的影响。实际上不论是照片或者是艺术品,HSV(human visualsystem,人眼视觉系统)可以通过图像内容与风格之间复杂的相互作用,创造出独特的视觉体验。对于相同的图像内容,不同的图像风格会造成截然不同的视觉美感体验和判断。由于训练深度网络需要大的数据集,仅仅提取美学数据集里有提供风格标签的图像的风格特征是不够的,因此需要设计算法来克服美学评估的需要和图像风格标签不足之间的矛盾。为了获得更多美学相关知识领域的特征,接着抽取此前工作已经证明有效的语义特征和情感特征。对于多领域特征的融合,传统的方法是使用点积、合并、自定义全连接层等方式,但是,由于获取到的多领域特征对美感的贡献不是均等的,根据特征重要性对特征进行进一步处理是需要考虑的。
发明内容
有鉴于此,本发明的目的是提供一种基于多领域知识驱动的图像美学质量评价方法,能显著提高美学质量预测精度。
本发明采用以下方案实现:一种基于多领域知识驱动的图像美学质量评价方法,包括以下步骤:
步骤S1:设计一个密集连接网络作为主干网络,提取图像的美学特征;所述密集连接网络包括单卷积层、密集连接模块和分类模块;
步骤S2:设计一个半监督学习算法,同时从有标签和无标签图像学习风格特征,提取图像的风格特征;
步骤S3:使用场景语义分类数据集和情感分类数据集训练场景语义分类模型和情感分类模型,提取图像的语义特征和情感特征;
步骤S4:使用梯度提升算法XGBoost,对提取到的特征进行特征筛选与融合,分别训练SVM分类模型和SVR回归模型来预测图像的美学质量。
进一步地,所述步骤S1具体包括以下步骤:
步骤S11:对图像进行预处理,先缩放到256*256,然后随机裁剪成224*224;设计一个单卷积层,单卷积层由7×7卷积、BN批归一化、Relu修正线性单元和3×3最大池化层组成;将裁减后的图像输入到单卷积层,将单卷积层的输出作为密集连接模块的输入;
步骤S12:设计一个分类模块作用于密集连接模块产生的特征;分类模块的输入是密集连接模块的输出,经过一个7*7平均池化层进行特征压缩,得到2208维的特征向量;将池化后的输出通过一个线性变换层和softmax层输出分类结果,其中,分类数与美学质量评价数据集AVA给定的美学评分取值的个数一致,分类结果表示的是密集连接网络预测的评分分布,该预测评分分布为向量,向量中第i个数值代表美学评分第i个取值对应的概率;
步骤S13:设计一个美学评分分布损失,在美学质量评价数据集AVA上学习密集连接网络的最优参数;训练使用的优化算法是SGD,动量momentum设置为0.9,每次迭代的批量设置为32,初始学习率设置为0.01,每15轮降低到原来的10%;美学评分分布损失使用基于累计分布函数的损失函数LJs,公式如下:
Figure BDA0002648221810000031
其中,Mp(i)和ML(i)分别是密集连接网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率,i对应美学评分取值1,2,…10,Z是评分取值的个数,即10;
使用上述主干网络和美学评分分布损失训练完成后,提取分类模块中的平均池化层得到的2208维特征作为图像的美学特征。
进一步地,步骤S11中所述密集连接模块的具体内容为:
密集连接模块网络包含3个密集模块和3个压缩层,每个密集模块的输出作为压缩层的输入,压缩层的输出传给下一个密集模块;每个密集模块都有3组密集卷积层,每组密集卷积层之间,利用密集跳跃结构将各组连接在一起,对于第i组,前面第i-1组,...,第1组输出的特征图Hi-1,...,H1,都被作为输入,同时第i组输出的特征图Hi也都被后面的网络层作为输入,这也就强化了特征的传播和特征重用,最大化信息流动,缓解了梯度消失的问题;密集模块中的第i组特征图Hi公式如下:
Figure BDA0002648221810000041
F0代表密集模块接受的输入,对于第一个密集模块,F0是单卷积层的输出,对于第二/第三个密集模块,F0分别是第一个和第二个压缩层的输出,下标i代表密集模块网络中的第i组密集卷积层,
Figure BDA0002648221810000042
代表按照通道拼接特征操作,wi,bi分别为第i组密集卷积层中卷积核的权重和偏置;每组密集卷积层由1×1卷积、BN批归一化、Relu修正线性单元和3×3卷积组成;然后,密集模块的输出作为压缩层的输入,压缩层由1×1卷积和2×2平均池化层组成,用来压缩通道数并且降低特征图的尺寸。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:将风格学习任务建立为1个K路分类问题;首先,初始化1个基本网络Fbase,该网络采用主干网络,将步骤S12中的分类数设为K,并且复制一个具有相同结构和参数的目标网络Ftarget,训练时向基本网络和目标网络输入有标签的图像和无标签的图像;在每步训练中,让基本网络和目标网络共同评估1个批量样本;基本网络使用交叉熵分类损失Lclass和一致性损失Lcons来优化,学习基本网络的的最优参数;交叉熵分类损失Lclass用于计算基本网络中的有标签图像的损失,一致性损失Lcons衡量基本网络和目标网络对所有图像的预测结果的差异;网络对图像H的损失计算公式如下:
Loss=CH*Lclass(Fbase(H;θb),yH)+β
*Lcons(Fbase(H;θb),Ftarget(H;θt))
其中,H是训练批量样本中的图像,能够选择是有标签的或者无标签的;θb和θt分别是基本网络Fbase和目标网络Ftarget的参数,β是权重,实际设为10;Fbase(H;θb)是基本网络的输出,yH是风格标签,Ftarget(H;θt)是目标网络的输出;CH用于判定图像H是否有风格标签,如果图像H有风格标签,CH为1,否则为CH为0,即只有带有风格标签yH的图像H才会计算交叉熵损失Lclass;Lclass(Fbase(H;θb),yH)是基本网络的输出Fbase(H;θb)和风格标签yH之间的交叉熵分类损失;对于图像H,交叉熵损失Lclass的公式如下:
Lclass=∑yH log(Fbase(H;θb))
Lcons(Fbase(H;θb),Ftarget(H;θt))是基本网络输出Fbase(H;θb)和目标网络输出Ftarget(H;θt)之间的一致性损失,用均方误差计算;对于图像H,均方误差损失的公式如下:
Lcons=(Fbase(H;θb)-Ftarget(H;θt))2
使用美学质量评价数据集AVA进行训练,基本网络Fbase使用SGD算法优化参数;基本网络Fbase的参数作为目标网络Ftarget的预训练参数,目标网络Ftarget的参数θt按照平均移动策略更新,更新公式如下:
Figure BDA0002648221810000061
Figure BDA0002648221810000062
是基本网络Fbase第k步训练更新后的参数,
Figure BDA0002648221810000063
是目标网络Ftarget当前的参数,α用于改变权重,α依据公式如下:
Figure BDA0002648221810000064
其中,ema_decay=0.999,global_step指的是全局迭代次数,α变化趋势为从0到0.999;
步骤S22:目标网络Ftarget训练完成后,使用目标网络Ftarget中的分类模块中的平均池化层得到2208维特征,提取该特征作为图像的风格特征。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:先在包含365种场景的场景语义分类数据集Places365上,使用主干网络,将步骤S12中的分类数设为365,预测365种语义的概率,训练得到场景语义分类预训练模型;然后在美学数据集CHUKQ上微调场景语义分类预训练模型,美学数据集CHUKQ提供了7个和图像美感相关的场景语义标签:人像、植物、建筑、风景、静景,动物和夜景,将场景语义分类预训练模型中的分类模块的分类数设为7,预测7种语义的概率,训练得到场景语义分类模型;然后在美学数据集AVA上使用训练好的场景语义分类模型,通过分类模块中的平均池化层得到2208维特征,提取该特征作为图像的语义特征;
步骤S32:情感分类数据集里包含23308张图像,涵盖了8种情感包括愤怒、愉悦、严肃、满意、厌恶、兴奋、害怕和悲伤;使用主干网络,将步骤S12中的分类数设为8,预测8种情感的概率,训练得到情感分类模型;然后在美学数据集AVA上使用训练好的情感分类模型,通过分类模块中的平均池化层得到2208维特征,提取该特征作为图像的情感特征。
进一步地,所述步骤S4具体包括以下步骤:
步骤S41:对美学、风格、语义、情感特征分别使用梯度提升算法XGBoost,得到各个特征的特征重要性,依据这个特征重要性进行特征筛选,分别对各个特征进行降维;对4个降维后的特征向量进行拼接,对拼接后的向量再次使用梯度提升算法,依据特征重要性筛选特征,得到最终的维度为425的融合特征;
步骤S42:使用步骤S41得到的融合特征,采用SVR模型完成美学回归预测任务的训练和测试,采用SVM模型完成美学分类预测任务的训练和测试。
进一步地,所述步骤S42的具体内容为:
数据集AVA中的每张图像的美学标签是一个10维的向量,分别代表该图像美学评分取值为1-10分的人数分布;将数据集提供的对应i分的人数分布Mi,i∈{1,2,...,10},计算成概率分布pi,公式如下:
Figure BDA0002648221810000071
然后再加权求和,得到了每张图像的美学评分S,这个评分作为回归任务的标签,使用SVR作为回归预测模型;加权求和得到美学评分的公式如下:
Figure BDA0002648221810000081
其中,pi是样本取值为i分的概率,i是取值;
美学分类是一个二分类任务,以5分作为临界点,低于5分的图像标注为不具备美感,大于等于5分的标注为具备美感,使用SVM分类模型作为分类预测模型,美学分类标签T公式如下:
Figure BDA0002648221810000082
对于新输入的待预测图像,首先使用步骤S1至S3提取美学、风格、语义、情感特征,然后使用步骤S41得到融合特征,最后使用步骤S42训练好的SVM分类模型和SVR回归模型分别预测该图像的美学分类和美学评分。
与现有技术相比,本发明具有以下有益效果:
本发明的目标在于解决单一网络模型对图像美学信息特征抽象能力较差的问题。由于影响图像美感的因素众多,单一网络学习到的特征表示难以充分表示美感特征,因此需要针对图像美感特点来设计学习多领域特征的网络结构,进而提升模型对图像美感更全面的特征提取能力。考虑到以前的图像美学质量评价算法总忽略图像风格等因素对图像美学质量评价的影响,本发明综合考虑图像美学质量与风格、语义和情感等多领域特征的显著联系,对图像的美学特征信息有更强的表示能力,结合适当的特征筛选与融合,能显著提高图像美学质量评估性能。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的密集连接主干网络结构图,其中,图2(a)为密集连接网络,图2(b)为压缩层,图2(c)为单卷积层,图2(d)为密集卷积层。
图3为本发明实施例的半监督风格特征学习框架。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于多领域知识驱动的图像美学质量评价方法,包括以下步骤:
步骤S1:设计一个密集连接网络作为主干网络,提取图像的美学特征;所述密集连接网络包括单卷积层、密集连接模块和分类模块;
步骤S2:设计一个半监督学习算法,同时从有标签和无标签图像学习风格特征,提取图像的风格特征;
步骤S3:使用场景语义分类数据集和情感分类数据集训练场景语义分类模型和情感分类模型,提取图像的语义特征和情感特征;
步骤S4:使用梯度提升算法XGBoost,对提取到的特征进行特征筛选与融合,分别训练SVM分类模型和SVR回归模型来预测图像的美学质量。
如图2所示,在本实施例中,所述步骤S1具体包括以下步骤:
步骤S11:对图像进行预处理,先缩放到256*256,然后随机裁剪成224*224。设计一个单卷积层,单卷积层由7×7卷积、BN批归一化、Relu修正线性单元和3×3最大池化层组成;将裁减后的图像输入到单卷积层,将单卷积层的输出作为密集连接模块的输入;
步骤S12:设计一个分类模块作用于密集连接模块产生的特征;分类模块的输入是密集连接模块的输出,经过一个7*7平均池化层进行特征压缩,得到2208维的特征向量;将池化后的输出通过一个线性变换层和softmax层输出分类结果,其中,分类数与美学质量评价数据集AVA给定的美学评分取值的个数一致,分类结果表示的是密集连接网络预测的评分分布,该预测评分分布为向量,向量中第i个数值代表美学评分第i个取值对应的概率;
步骤S13:设计一个美学评分分布损失,在美学质量评价数据集AVA上学习密集连接网络的最优参数;训练使用的优化算法是SGD,动量momentum设置为0.9,每次迭代的批量设置为32,初始学习率设置为0.01,每15轮降低到原来的10%;美学评分分布损失使用基于累计分布函数的损失函数LJs,公式如下:
Figure BDA0002648221810000111
其中,Mp(i)和ML(i)分别是密集连接网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率,i对应美学评分取值1,2,…10,Z是评分取值的个数,即10;
使用上述主干网络和美学评分分布损失训练完成后,提取分类模块中的平均池化层得到的2208维特征作为图像的美学特征。
在本实施例中,步骤S11中所述密集连接模块的具体内容为:
密集连接模块网络包含3个密集模块和3个压缩层,每个密集模块的输出作为压缩层的输入,压缩层的输出传给下一个密集模块;每个密集模块都有3组密集卷积层,每组密集卷积层之间,利用密集跳跃结构将各组连接在一起,对于第i组,前面第i-1组,...,第1组输出的特征图Hi-1,...,H1,都被作为输入,同时第i组输出的特征图Hi也都被后面的网络层作为输入,这也就强化了特征的传播和特征重用,最大化信息流动,缓解了梯度消失的问题;密集模块中的第i组特征图Hi公式如下:
Figure BDA0002648221810000112
F0代表密集模块接受的输入,对于第一个密集模块,F0是单卷积层的输出,对于第二/第三个密集模块,F0分别是第一个和第二个压缩层的输出,下标i代表密集模块网络中的第i组密集卷积层,
Figure BDA0002648221810000113
代表按照通道拼接特征操作,wi,bi分别为第i组密集卷积层中卷积核的权重和偏置;每组密集卷积层由1×1卷积、BN批归一化、Relu修正线性单元和3×3卷积组成;然后,密集模块的输出作为压缩层的输入,压缩层由1×1卷积和2×2平均池化层组成,用来压缩通道数并且降低特征图的尺寸。
如图3所示,在本实施例中,所述步骤S2具体包括以下步骤:
步骤S21:将风格学习任务建立为1个K路分类问题;首先,初始化1个基本网络Fbase,该网络采用主干网络,将步骤S12中的分类数设为K,并且复制一个具有相同结构和参数的目标网络Ftarget,训练时向基本网络和目标网络输入有标签的图像和无标签的图像;在每步训练中,让基本网络和目标网络共同评估1个批量样本;基本网络使用交叉熵分类损失Lclass和一致性损失Lcons来优化,学习基本网络的最优参数;交叉熵分类损失Lclass用于计算基本网络中的有标签图像的损失,一致性损失Lcons衡量基本网络和目标网络对所有图像的预测结果的差异;网络对图像H的损失计算公式如下:
Loss=CH*Lclass(Fbase(H;θb),yH)+β
*Lcons(Fbase(H;θb),Ftarget(H;θt))
其中,H是训练批量样本中的图像,能够选择是有标签的或者无标签的;θb和θt分别是基本网络Fbase和目标网络Ftarget的参数,β是权重,实际设为10;Fbase(H;θb)是基本网络的输出,yH是风格标签,Ftarget(H;θt)是目标网络的输出;CH用于判定图像H是否有风格标签,如果图像H有风格标签,CH为1,否则为CH为0,即只有带有风格标签yH的图像H才会计算交叉熵损失Lclass;Lclass(Fbase(H;θb),yH)是基本网络的输出Fbase(H;θb)和风格标签yH之间的交叉熵分类损失;对于图像H,交叉熵损失Lclass的公式如下:
Lclass=∑yH log(Fbase(H;θb))
Lcons(Fbase(H;θb),Ftarget(H;θt))是基本网络输出Fbase(H;θb)和目标网络输出Ftarget(H;θt)之间的一致性损失,用均方误差计算;对于图像H,均方误差损失的公式如下:
Lcons=(Fbase(H;θb)-Ftarget(H;θt))2
使用美学质量评价数据集AVA进行训练,基本网络Fbase使用SGD算法优化参数;基本网络Fbase的参数作为目标网络Ftarget的预训练参数,目标网络Ftarget的参数θt按照平均移动策略更新,更新公式如下:
Figure BDA0002648221810000131
Figure BDA0002648221810000132
是基本网络Fbase第k步训练更新后的参数,
Figure BDA0002648221810000133
是目标网络Ftarget当前的参数,α用于改变权重,α依据公式如下:
Figure BDA0002648221810000134
其中,ema_decay=0.999,global_step指的是全局迭代次数,α变化趋势为从0到0.999;
步骤S22:目标网络Ftarget训练完成后,使用目标网络Ftarget中的分类模块中的平均池化层得到2208维特征,提取该特征作为图像的风格特征。
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31:先在包含365种场景的场景语义分类数据集Places365上,使用主干网络,将步骤S12中的分类数设为365,预测365种语义的概率,训练得到场景语义分类预训练模型;然后在美学数据集CHUKQ上微调场景语义分类预训练模型,美学数据集CHUKQ提供了7个和图像美感相关的场景语义标签:人像、植物、建筑、风景、静景,动物和夜景,将场景语义分类预训练模型中的分类模块的分类数设为7,预测7种语义的概率,训练得到场景语义分类模型;然后在美学数据集AVA上使用训练好的场景语义分类模型,通过分类模块中的平均池化层得到2208维特征,提取该特征作为图像的语义特征;
步骤S32:情感分类数据集里包含23308张图像,涵盖了8种情感包括愤怒、愉悦、严肃、满意、厌恶、兴奋、害怕和悲伤;使用主干网络,将步骤S12中的分类数设为8,预测8种情感的概率,训练得到情感分类模型;然后在美学数据集AVA上使用训练好的情感分类模型,通过分类模块中的平均池化层得到2208维特征,提取该特征作为图像的情感特征。
在本实施例中,所述步骤S4具体包括以下步骤:
步骤S41:对美学、风格、语义、情感特征分别使用梯度提升算法XGBoost,得到各个特征的特征重要性,依据这个特征重要性进行特征筛选,分别对各个特征进行降维;对4个降维后的特征向量进行拼接,对拼接后的向量再次使用梯度提升算法,依据特征重要性筛选特征,得到最终的维度为425的融合特征;
步骤S42:使用步骤S41得到的融合特征,采用SVR模型完成美学回归预测任务的训练和测试,采用SVM模型完成美学分类预测任务的训练和测试。
在本实施例中,所述步骤S42的具体内容为:
数据集AVA中的每张图像的美学标签是一个10维的向量,分别代表该图像美学评分取值为1-10分的人数分布;将数据集提供的对应i分的人数分布Mi,i∈{1,2,...,10},计算成概率分布pi,公式如下:
Figure BDA0002648221810000151
然后再加权求和,得到了每张图像的美学评分S,这个评分作为回归任务的标签,使用SVR作为回归预测模型;加权求和得到美学评分的公式如下:
Figure BDA0002648221810000152
其中,pi是样本取值为i分的概率,i是取值;
美学分类是一个二分类任务,以5分作为临界点,低于5分的图像标注为不具备美感,大于等于5分的标注为具备美感,使用SVM分类模型作为分类预测模型,美学分类标签T公式如下:
Figure BDA0002648221810000153
对于新输入的待预测图像,首先使用步骤S1至S3提取美学、风格、语义、情感特征,然后使用步骤S41得到融合特征,最后使用步骤S42训练好的SVM分类模型和SVR回归模型分别预测该图像的美学分类和美学评分。
较佳的,本实施例遵循着提取多领域知识并进行融合的思路,提出了一种基于多领域知识驱动的图像美学质量评价方法。设计密集连接网络提取图像的美学特征,使用半监督算法提取图像的风格特征,使用场景语义分类模型和情感分类模型分别提取图像的情感特征和语义特征,同时还考虑了不同领域的特征对图像美学质量评估的贡献不同,使用梯度提升算法XGBoost来筛选和融合特征,分别训练SVM分类模型和SVR回归模型来预测图像的美学质量。综上所述,本实施例设计的一种基于多领域知识驱动的图像美学质量评价方法能显著提高美学质量预测精度。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (7)

1.一种基于多领域知识驱动的图像美学质量评价方法,其特征在于:包括以下步骤:
步骤S1:设计一个密集连接网络作为主干网络,提取图像的美学特征;所述密集连接网络包括单卷积层、密集连接模块和分类模块;
步骤S2:设计一个半监督学习算法,同时从有标签和无标签图像学习风格特征,提取图像的风格特征;
步骤S3:使用场景语义分类数据集和情感分类数据集训练场景语义分类模型和情感分类模型,提取图像的语义特征和情感特征;
步骤S4:使用梯度提升算法XGBoost,对提取到的特征进行特征筛选与融合,分别训练SVM分类模型和SVR回归模型来预测图像的美学质量。
2.根据权利要求1所述的一种基于多领域知识驱动的图像美学质量评价方法,其特征在于:所述步骤S1具体包括以下步骤:
步骤S11:对图像进行预处理,先缩放到256*256,然后随机裁剪成224*224;设计一个单卷积层,单卷积层由7×7卷积、BN批归一化、Relu修正线性单元和3×3最大池化层组成;将裁减后的图像输入到单卷积层,将单卷积层的输出作为密集连接模块的输入;
步骤S12:设计一个分类模块作用于密集连接模块产生的特征;分类模块的输入是密集连接模块的输出,经过一个7*7平均池化层进行特征压缩,得到2208维的特征向量;将池化后的输出通过一个线性变换层和softmax层输出分类结果,其中,分类数与美学质量评价数据集AVA给定的美学评分取值的个数一致,分类结果表示的是密集连接网络预测的评分分布,该预测评分分布为向量,向量中第i个数值代表美学评分第i个取值对应的概率;
步骤S13:设计一个美学评分分布损失,在美学质量评价数据集AVA上学习密集连接网络的最优参数;训练使用的优化算法是SGD,动量momentum设置为0.9,每次迭代的批量设置为32,初始学习率设置为0.01,每15轮降低到原来的10%;美学评分分布损失使用基于累计分布函数的损失函数LJs,公式如下:
Figure FDA0002648221800000021
其中,Mp(i)和ML(i)分别是密集连接网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率,i对应美学评分取值1,2,…10,Z是评分取值的个数,即10;
使用上述主干网络和美学评分分布损失训练完成后,提取分类模块中的平均池化层得到的2208维特征作为图像的美学特征。
3.根据权利要求1所述的一种基于多领域知识驱动的图像美学质量评价方法,其特征在于:步骤S11中所述密集连接模块的具体内容为:
密集连接模块包含3个密集模块和3个压缩层,每个密集模块的输出作为压缩层的输入,压缩层的输出传给下一个密集模块;每个密集模块都有3组密集卷积层,每组密集卷积层之间,利用密集跳跃结构将各组连接在一起,对于第i组,前面第i-1组,...,第1组输出的特征图Hi-1,...,H1,都被作为输入,同时第i组输出的特征图Hi也都被后面的网络层作为输入,这也就强化了特征的传播和特征重用,最大化信息流动,缓解了梯度消失的问题;密集模块中的第i组特征图Hi公式如下:
Figure FDA0002648221800000031
F0代表密集模块接受的输入,对于第一个密集模块,F0是单卷积层的输出,对于第二/第三个密集模块,F0分别是第一个和第二个压缩层的输出,下标i代表密集模块中的第i组密集卷积层,
Figure FDA0002648221800000032
代表按照通道拼接特征操作,wi,bi分别为第i组密集卷积层中卷积核的权重和偏置;每组密集卷积层由1×1卷积、BN批归一化、Relu修正线性单元和3×3卷积组成;然后,密集模块的输出作为压缩层的输入,压缩层由1×1卷积和2×2平均池化层组成,用来压缩通道数并且降低特征图的尺寸。
4.根据权利要求2所述的一种基于多领域知识驱动的图像美学质量评价方法,其特征在于:所述步骤S2具体包括以下步骤:
步骤S21:将风格学习任务建立为1个K路分类问题;首先,初始化1个基本网络Fbase,该网络采用主干网络,将步骤S12中的分类数设为K,并且复制一个具有相同结构和参数的目标网络Ftarget,训练时向基本网络和目标网络输入有标签的图像和无标签的图像;在每步训练中,让基本网络和目标网络共同评估1个批量样本;基本网络使用交叉熵分类损失Lclass和一致性损失Lcons来优化,学习基本网络的最优参数;交叉熵分类损失Lclass用于计算基本网络中的有标签图像的损失,一致性损失Lcons衡量基本网络和目标网络对所有图像的预测结果的差异;网络对图像H的损失计算公式如下:
Loss=CH*Lclass(Fbase(H;θb),yH)+β*Lcons(Fbase(H;θb),Ftarget(H;θt))
其中,H是训练批量样本中的图像,能够选择是有标签的或者无标签的;θb和θt分别是基本网络Fbase和目标网络Ftarget的参数,β是权重,实际设为10;Fbase(H;θb)是基本网络的输出,yH是风格标签,Ftarget(H;θt)是目标网络的输出;CH用于判定图像H是否有风格标签,如果图像H有风格标签,CH为1,否则为CH为0,即只有带有风格标签yH的图像H才会计算交叉熵损失Lclass;Lclass(Fbase(H;θb),yH)是基本网络的输出Fbase(H;θb)和风格标签yH之间的交叉熵分类损失;对于图像H,交叉熵损失Lclass的公式如下:
Lclass=∑yHlog(Fbase(H;θb))
Lcons(Fbase(H;θb),Ftarget(H;θt))是基本网络输出Fbase(H;θb)和目标网络输出Ftarget(H;θt)之间的一致性损失,用均方误差计算;对于图像H,均方误差损失的公式如下:
Lcons=(Fbase(H;θb)-Ftarget(H;θt))2
使用美学质量评价数据集AVA进行训练,基本网络Fbase使用SGD算法优化参数;基本网络Fbase的参数作为目标网络Ftarget的预训练参数,目标网络Ftarget的参数θt按照平均移动策略更新,更新公式如下:
Figure FDA0002648221800000041
Figure FDA0002648221800000042
是基本网络Fbase第k步训练更新后的参数,
Figure FDA0002648221800000043
是目标网络Ftarget当前的参数,α用于改变权重,α依据公式如下:
Figure FDA0002648221800000051
其中,ema_decay=0.999,global_step指的是全局迭代次数,α变化趋势为从0到0.999;
步骤S22:目标网络Ftarget训练完成后,使用目标网络Ftarget中的分类模块中的平均池化层得到2208维特征,提取该特征作为图像的风格特征。
5.根据权利要求2所述的一种基于多领域知识驱动的图像美学质量评价方法,其特征在于:所述步骤S3具体包括以下步骤:
步骤S31:先在包含365种场景的场景语义分类数据集Places365上,使用主干网络,将步骤S12中的分类数设为365,预测365种语义的概率,训练得到场景语义分类预训练模型;然后在美学数据集CHUKQ上微调场景语义分类预训练模型,美学数据集CHUKQ提供了7个和图像美感相关的场景语义标签:人像、植物、建筑、风景、静景,动物和夜景,将场景语义分类预训练模型中的分类模块的分类数设为7,预测7种语义的概率,训练得到场景语义分类模型;然后在美学数据集AVA上使用训练好的场景语义分类模型,通过分类模块中的平均池化层得到2208维特征,提取该特征作为图像的语义特征;
步骤S32:情感分类数据集里包含23308张图像,涵盖了8种情感包括愤怒、愉悦、严肃、满意、厌恶、兴奋、害怕和悲伤;使用主干网络,将步骤S12中的分类数设为8,预测8种情感的概率,训练得到情感分类模型;然后在美学数据集AVA上使用训练好的情感分类模型,通过分类模块中的平均池化层得到2208维特征,提取该特征作为图像的情感特征。
6.根据权利要求2所述的一种基于多领域知识驱动的图像美学质量评价方法,其特征在于:所述步骤S4具体包括以下步骤:
步骤S41:对美学、风格、语义、情感特征分别使用梯度提升算法XGBoost,得到各个特征的特征重要性,依据这个特征重要性进行特征筛选,分别对各个特征进行降维;对4个降维后的特征向量进行拼接,对拼接后的向量再次使用梯度提升算法,依据特征重要性筛选特征,得到最终的维度为425的融合特征;
步骤S42:使用步骤S41得到的融合特征,采用SVR模型完成美学回归预测任务的训练和测试,采用SVM模型完成美学分类预测任务的训练和测试。
7.根据权利要求6所述的一种基于多领域知识驱动的图像美学质量评价方法,其特征在于:所述步骤S42的具体内容为:
数据集AVA中的每张图像的美学标签是一个10维的向量,分别代表该图像美学评分取值为1-10分的人数分布;将数据集提供的对应i分的人数分布Mi,i∈{1,2,...,10},计算成概率分布pi,公式如下:
Figure FDA0002648221800000061
然后再加权求和,得到了每张图像的美学评分S,这个评分作为回归任务的标签,使用SVR作为回归预测模型;加权求和得到美学评分的公式如下:
Figure FDA0002648221800000071
其中,pi是样本取值为i分的概率,i是取值;
美学分类是一个二分类任务,以5分作为临界点,低于5分的图像标注为不具备美感,大于等于5分的标注为具备美感,使用SVM分类模型作为分类预测模型,美学分类标签T公式如下:
Figure FDA0002648221800000072
对于新输入的待预测图像,首先使用步骤S1至S3提取美学、风格、语义、情感特征,然后使用步骤S41得到融合特征,最后使用步骤S42训练好的SVM分类模型和SVR回归模型分别预测该图像的美学分类和美学评分。
CN202010861877.5A 2020-08-25 2020-08-25 一种基于多领域知识驱动的图像美学质量评价方法 Active CN111950655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010861877.5A CN111950655B (zh) 2020-08-25 2020-08-25 一种基于多领域知识驱动的图像美学质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010861877.5A CN111950655B (zh) 2020-08-25 2020-08-25 一种基于多领域知识驱动的图像美学质量评价方法

Publications (2)

Publication Number Publication Date
CN111950655A true CN111950655A (zh) 2020-11-17
CN111950655B CN111950655B (zh) 2022-06-14

Family

ID=73359915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010861877.5A Active CN111950655B (zh) 2020-08-25 2020-08-25 一种基于多领域知识驱动的图像美学质量评价方法

Country Status (1)

Country Link
CN (1) CN111950655B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112613303A (zh) * 2021-01-07 2021-04-06 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN112668638A (zh) * 2020-12-25 2021-04-16 山东大学 一种图像美学质量评估和语义识别联合分类方法及系统
CN112767386A (zh) * 2021-02-01 2021-05-07 福州大学 基于主题特征和评分分布的图像美学质量评价方法及系统
CN112862569A (zh) * 2021-03-04 2021-05-28 上海交通大学 基于图像和文本多模态数据的产品外观风格评价方法和系统
CN113408576A (zh) * 2021-05-12 2021-09-17 上海师范大学 基于融合标签和堆叠机器学习模型的学习风格识别方法
CN113781408A (zh) * 2021-08-24 2021-12-10 北京美照算算智能科技有限公司 一种图像拍摄智能指导系统及方法
CN114140645A (zh) * 2021-11-23 2022-03-04 杭州电子科技大学 基于改进自监督特征学习的摄影图像美学风格分类方法
CN114283083A (zh) * 2021-12-22 2022-04-05 杭州电子科技大学 一种基于解耦表示的场景生成模型的美学增强方法
CN115098449A (zh) * 2022-08-26 2022-09-23 荣耀终端有限公司 一种文件清理方法及电子设备
CN115641253A (zh) * 2022-09-27 2023-01-24 南京栢拓视觉科技有限公司 一种面向内容美学质量提升的材料神经风格迁移方法
CN116824305A (zh) * 2023-08-09 2023-09-29 中国气象服务协会 应用于云计算的生态环境监测数据处理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255374A (zh) * 2018-08-27 2019-01-22 中共中央办公厅电子科技学院 一种基于密集卷积网络和多任务网络的美学属性评价方法
CN109801256A (zh) * 2018-12-15 2019-05-24 华南理工大学 一种基于感兴趣区域和全局特征的图像美学质量评估方法
CN110351548A (zh) * 2019-06-27 2019-10-18 天津大学 基于深度学习及视差图加权指导的立体图像质量评价方法
CN110473164A (zh) * 2019-05-31 2019-11-19 北京理工大学 一种基于注意力机制的图像美学质量评价方法
US20200104720A1 (en) * 2018-09-30 2020-04-02 Shanghai United Imaging Healthcare Co., Ltd. Systems and methods for generating a neural network model for image processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255374A (zh) * 2018-08-27 2019-01-22 中共中央办公厅电子科技学院 一种基于密集卷积网络和多任务网络的美学属性评价方法
US20200104720A1 (en) * 2018-09-30 2020-04-02 Shanghai United Imaging Healthcare Co., Ltd. Systems and methods for generating a neural network model for image processing
CN109801256A (zh) * 2018-12-15 2019-05-24 华南理工大学 一种基于感兴趣区域和全局特征的图像美学质量评估方法
CN110473164A (zh) * 2019-05-31 2019-11-19 北京理工大学 一种基于注意力机制的图像美学质量评价方法
CN110351548A (zh) * 2019-06-27 2019-10-18 天津大学 基于深度学习及视差图加权指导的立体图像质量评价方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KE GU ET AL.: "Saliency-Guided Quality Assessment of Screen Content Images", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
吴志山 等: "基于多尺度失真感知特征的重定向图像质量评估", 《北京航空航天大学学报》 *
熊东平: "基于边缘增强和深度学习的图像超分辨率重建方法研究", 《中国优秀博硕士学位论文全文数据库(博士)》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668638A (zh) * 2020-12-25 2021-04-16 山东大学 一种图像美学质量评估和语义识别联合分类方法及系统
CN112613303A (zh) * 2021-01-07 2021-04-06 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN112613303B (zh) * 2021-01-07 2023-02-21 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN112767386B (zh) * 2021-02-01 2022-09-06 福州大学 基于主题特征和评分分布的图像美学质量评价方法及系统
CN112767386A (zh) * 2021-02-01 2021-05-07 福州大学 基于主题特征和评分分布的图像美学质量评价方法及系统
CN112862569A (zh) * 2021-03-04 2021-05-28 上海交通大学 基于图像和文本多模态数据的产品外观风格评价方法和系统
CN113408576A (zh) * 2021-05-12 2021-09-17 上海师范大学 基于融合标签和堆叠机器学习模型的学习风格识别方法
CN113781408A (zh) * 2021-08-24 2021-12-10 北京美照算算智能科技有限公司 一种图像拍摄智能指导系统及方法
CN113781408B (zh) * 2021-08-24 2024-05-28 北京美照算算智能科技有限公司 一种图像拍摄智能指导系统及方法
CN114140645A (zh) * 2021-11-23 2022-03-04 杭州电子科技大学 基于改进自监督特征学习的摄影图像美学风格分类方法
CN114140645B (zh) * 2021-11-23 2024-04-05 杭州电子科技大学 基于改进自监督特征学习的摄影图像美学风格分类方法
CN114283083A (zh) * 2021-12-22 2022-04-05 杭州电子科技大学 一种基于解耦表示的场景生成模型的美学增强方法
CN114283083B (zh) * 2021-12-22 2024-05-10 杭州电子科技大学 一种基于解耦表示的场景生成模型的美学增强方法
CN115098449A (zh) * 2022-08-26 2022-09-23 荣耀终端有限公司 一种文件清理方法及电子设备
CN115098449B (zh) * 2022-08-26 2023-07-07 荣耀终端有限公司 一种文件清理方法及电子设备
CN115641253A (zh) * 2022-09-27 2023-01-24 南京栢拓视觉科技有限公司 一种面向内容美学质量提升的材料神经风格迁移方法
CN115641253B (zh) * 2022-09-27 2024-02-20 南京栢拓视觉科技有限公司 一种面向内容美学质量提升的材料神经风格迁移方法
CN116824305A (zh) * 2023-08-09 2023-09-29 中国气象服务协会 应用于云计算的生态环境监测数据处理方法及系统
CN116824305B (zh) * 2023-08-09 2024-06-04 中国气象服务协会 应用于云计算的生态环境监测数据处理方法及系统

Also Published As

Publication number Publication date
CN111950655B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN111950655B (zh) 一种基于多领域知识驱动的图像美学质量评价方法
CN111428088A (zh) 视频分类方法、装置及服务器
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN109543502A (zh) 一种基于深度多尺度神经网络的语义分割方法
CN112348191B (zh) 一种基于多模态表示学习的知识库补全方法
CN108073876A (zh) 面部解析设备和面部解析方法
CN112906500B (zh) 基于深度特权网络的人脸表情识别方法及系统
CN113782190B (zh) 基于多级时空特征和混合注意力网络的图像处理方法
CN110263215A (zh) 一种视频情感定位方法及系统
CN115223082A (zh) 一种基于时空多尺度Transformer的航拍视频分类方法
CN115601772B (zh) 一种基于多模态学习的美学质量评价模型和方法
CN110532421A (zh) 一种基于人的性别、心情和年龄的音乐推荐方法及系统
CN112767386B (zh) 基于主题特征和评分分布的图像美学质量评价方法及系统
CN110751212A (zh) 一种移动设备上高效的细粒度图像识别方法
CN114913327A (zh) 一种基于改进U-Net的下肢骨骼CT图像分割算法
CN113657380B (zh) 融合多模态注意力机制的图像美学质量评价方法
CN116701706B (zh) 一种基于人工智能的数据处理方法、装置、设备及介质
CN117216202A (zh) 多模态模型的生成方法、多模态处理方法及设备
CN112052795A (zh) 一种基于多尺度时空特征聚合的视频行为识别方法
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法
CN116467416A (zh) 一种基于图神经网络的多模态对话情感识别方法及系统
KR20210057996A (ko) 멀티 태스크 러닝 분류기 학습장치 및 방법
CN116167015A (zh) 一种基于联合交叉注意力机制的维度情感分析方法
CN111539420B (zh) 基于注意力感知特征的全景图像显著性预测方法及系统
Rajab et al. An automatic lip reading for short sentences using deep learning nets.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant