CN112767386B - 基于主题特征和评分分布的图像美学质量评价方法及系统 - Google Patents

基于主题特征和评分分布的图像美学质量评价方法及系统 Download PDF

Info

Publication number
CN112767386B
CN112767386B CN202110134073.XA CN202110134073A CN112767386B CN 112767386 B CN112767386 B CN 112767386B CN 202110134073 A CN202110134073 A CN 202110134073A CN 112767386 B CN112767386 B CN 112767386B
Authority
CN
China
Prior art keywords
image
network
aesthetic
layer
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110134073.XA
Other languages
English (en)
Other versions
CN112767386A (zh
Inventor
牛玉贞
宋冰蕊
陈俊豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110134073.XA priority Critical patent/CN112767386B/zh
Publication of CN112767386A publication Critical patent/CN112767386A/zh
Application granted granted Critical
Publication of CN112767386B publication Critical patent/CN112767386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于主题特征和评分分布的图像美学质量评价方法及系统。该方法包括:将美学图像数据集中的数据进行预处理,划分为训练集与测试集,并为训练集中的每个图像创建对应的主题;设计图像主题特征分类网络、图像美学评分分布预测网络,并训练图像主题分类模型、美学评分分布预测模型;设计图像主题特征分类与美学评分分布预测的多任务网络,将图像主题分类模型与美学评分分布预测模型通过层特征融合连接起来,并训练多任务模型;将图像输入到多任务模型,输出对应的美学评分分布与主题特征,最后计算美学评分分布的平均值作为图像美学质量分数。本发明能同时进行图像的主题特征预测与美学评分分布预测,并提高图像美学质量评估算法性能。

Description

基于主题特征和评分分布的图像美学质量评价方法及系统
技术领域
本发明涉及图像处理以及计算机视觉领域,特别涉及一种基于主题特征和评分分布的图像美学质量评价方法及系统。
背景技术
在多媒体技术迅速发展的今天,人们接受信息的方式变得多元化,其中图像信息以其直观、包含信息量大受到了人们的欢迎。但图像数量的急剧上升以及图像质量的参差不齐,使得图像的优劣也成为了人们关注的重点。审美价值的产生是人们对视觉和精神上美学感受的追求,从美学角度来评价图像,是将其向精神方向发展的一种重要体现。图像美学质量衡量了在人类眼中一幅图像的视觉吸引力,人们都希望自己获得的图像是具有较高的视觉美学质量。人们利用计算机来模仿人类的审美过程,从而用计算方法自动预测图像的美学质量,使得计算机能够发现图像的美并且能理解图像的美。由于视觉美学是一个主观的属性,往往涉及情感、个人品味等主观因素,这使得自动评估图像美学质量成为一项非常具有挑战性的任务。目前图像美学质量评价已经应用在美学辅助图像搜索、自动照片增强、照片筛选以及相册管理等应用中。
图像美学质量评价方法分为手工提取特征方法与深度学习方法。手工提取特征方法需要手工设计和美学质量相关的多种图像特征。他们首先在图像数据集上提取这些手工设计的特征,然后利用,如支撑向量机、随机森林等机器学习方法进行分类与回归。但是手工设计的特征往往是受摄影或心理学启发,有其局限性。首先手工设计的特征范围有限,无法全面的代表美学特征;其次,这些手工设计的特征仅仅是这些规则的近似值,不能保证这些特征的有效性。
目前先进方法都是利用深度学习来自动提取图像的美学特征,深度学习强大的自动特征学习能力,不需要人们有丰富的图像美学知识和心理学知识就可以自动提取图像美学特征。近年来,研究人员对用于图像识别的多种卷积神经网络进行改造,这些深度卷积神经网络在图像美学评价方面展现出了良好的性能,深度卷积神经网络成为了解决图像美学质量评价问题的主流方法。但是过去绝大多数基于深度学习的图像美学质量评价方法只局限于学习视觉特征,虽然也有少量研究工作借助各种领域的专业知识,通过多任务等方法将这些专业知识与图像视觉特征进行融合,但是大部分基于多任务的图像美学质量评估方法只局限于最后输出特征的融合,无法充分利用深度学习中所提取的特征。我们发现美学数据集中的图像大都有相对应的用户评论,这些评论解释了他们给图像美学质量打分的理由,包含了与图像有关的重要的语义信息,所以我们可以充分利用和挖掘这些文本特征。我们提出基于主题特征和评分分布的图像美学质量评价方法,可以有效的融合图像和与图像相关重要的语义信息,提高图像美学质量评估方法的性能。
发明内容
本发明的目的在于提供一种基于主题特征和评分分布的图像美学质量评价方法及系统,该方法有利于融合语义,提高图像美学质量评估方法的性能。
为实现上述目的,本发明的技术方案是:一种基于主题特征和评分分布的图像美学质量评价方法,包括如下步骤:
步骤S1、将美学图像数据集中的数据进行数据预处理,将数据集划分为训练集与测试集,并为训练集中的每个图像创建对应的主题;
步骤S2、设计图像主题特征分类网络,使用所设计的网络训练可对美学图像进行主题特征分类的图像主题分类模型;
步骤S3、设计图像美学评分分布预测网络,使用所设计的网络训练可对美学图像进行美学评分分布预测的美学评分分布预测模型;
步骤S4、设计图像主题特征分类与美学评分分布预测的多任务网络,将图像主题分类模型与美学评分分布预测模型通过层特征融合连接起来,使用所设计的网络训练可同时进行主题特征分类与美学评分分布预测的多任务模型;
步骤S5、将图像输入到训练好的图像特征分类与美学评分分布预测的多任务模型,输出对应的美学评分分布与主题特征,最后计算美学评分分布的平均值作为图像美学质量分数。
在本发明一实施例中,所述步骤S1具体实现步骤如下:
步骤S11、将数据集按预定比例划分为训练集与测试集,并将训练集与测试集中的图像缩放到固定尺寸H×W;
步骤S12、将训练集中图像对应的所有评论文本中的数字与标点符号剔除,将其转化为空格,并将全部的单词转为小写;将经过以上处理的评论根据其对应的图像进行组合,共得到对应训练集中s幅图像的s个文档,即训练集文档D[d1,d2,…,ds];
步骤S13、使用隐含狄利克雷分布方法,根据训练集文档D建立主题模型,并计算每一个文档的主题作为与该文档对应的图像的主题,即对于第i个文档di,首先根据建立的主题模型得到其主题分布θi,取θi中数值最高的主题作为文档di的主题,假设该主题是第t个主题,则文档di和其对应的图像di对应的主题是主题t。
在本发明一实施例中,所述步骤S2具体实现步骤如下:
步骤S21、以图像分类网络为基准网络,将基准网络的最后一层替换成全连接层,全连接层输出的分类数为K,K为主题类数;
步骤S22、将经过步骤S12的训练集输入到步骤S21中的网络模型,预测得到图像主题特征分布
Figure BDA0002926213920000036
步骤S23、根据图像主题分类网络的损失函数,利用反向传播方法计算图像主题分类的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;
图像主题分类网络的损失函数如下:
Figure BDA0002926213920000031
其中,K表示预测得到的向量长度,即主题类数;yi为步骤S13通过对应的文档计算得到的图像属于第i类主题特征的概率;
Figure BDA0002926213920000032
为图像经主题特征分类深度网络预测获得的图像属于第i类主题特征的概率;log(·)表示对数函数log;σ(·)表示sigmod激活函数;
步骤S24、以批次为单位重复步骤S22至步骤S23,直至步骤S23中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像主题分类模型的训练。
在本发明一实施例中,所述步骤S3具体实现步骤如下:
步骤S31、选取与步骤S21中相同的图像分类网络作为基准网络,将基准网络的最后一层替换成全连接层和激活层,全连接层输出的分类数为A,A为美学评分分数集合中分数的个数;
步骤S32、将经过步骤S12的训练集输入到步骤S31中的网络模型,预测得到图像美学评分分布
Figure BDA0002926213920000035
步骤S33、根据图像美学评分分布预测网络的损失函数,利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;
图像美学评分分布预测网络的损失函数如下:
Figure BDA0002926213920000033
其中,DKL(·||·)为KL散度,
Figure BDA0002926213920000034
表示图像经过图像美学评分分布预测网络得到的美学评分分布,x表示图像真实的美学评分分布;
步骤S34、以批次为单位重复步骤S32至步骤S33,直至步骤S33中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像美学评分分布预测网络的训练。
在本发明一实施例中,所述步骤S4具体实现步骤如下:
步骤S41、将步骤S2与步骤S3分别训练完成的两个网络的若干对应层利用层特征融合模块将两个基准网络连接起来;对于第i个对应层,层特征融合模块的输入是两个网络的第i个对应层的输出特征的拼接;每个层特征融合模块包括两支1×1卷积层与归一化层,其中1×1卷积层将维度为H×W×2C的拼接特征降维为维度为H×W×C的特征,层特征融合模块的表达式为:
Figure BDA0002926213920000041
Figure BDA0002926213920000042
Figure BDA0002926213920000043
其中,
Figure BDA0002926213920000044
是第一个网络第i层的输出特征,其维度为H×W×C;
Figure BDA0002926213920000045
是第二个网络第i层的输出特征,其维度为H×W×C;Concat(·)表示特征按通道进行拼接;Fi
Figure BDA0002926213920000046
Figure BDA0002926213920000047
拼接后的输出特征,其维度为H×W×2C;w1,b1是对应第一个网络的1×1卷积层的权重和偏置;w2,b2是对应第二个网络的1×1卷积层的权重和偏置,BN(·)表示批归一化操作;
接着,将经过层特征融合模块的输出特征
Figure BDA0002926213920000048
Figure BDA0002926213920000049
分别输入到两个网络中第i个对应层的下一层;即用
Figure BDA00029262139200000410
Figure BDA00029262139200000411
分别代替
Figure BDA00029262139200000412
Figure BDA00029262139200000413
作为第一个和第二个网络中第i个对应层的下一层的输入;
步骤S42、对于两个网络分别做如下操作,将其中一个网络中除最后一个层特征融合模块外的每个层特征融合模块的输出通过自适应池化匹配到最后一个层特征融合模块的输出的高度和宽度,然后与两个网络最后一个对应层的层特征融合模块的输出进行拼接,再经过通道注意力模块,最后输入到两个网络最后一个对应层的后续网络中;对于第一个网络,共有K个层特征融合模块,对层特征融合模块的输出进行自适应池化和拼接的具体的表达式为:
Figure BDA00029262139200000414
其中,Concat(·)表示特征按照通道进行拼接,AP([H,W],F)代表自适应池化模块,第一个参数为目标池化尺寸,[H,W]代表特征图的高度和宽度,第二个参数为输入的特征;[HK,WK]表示第K个特征融合模块输出特征的高度和宽度,
Figure BDA00029262139200000415
表示输出给第一个网络的第i个特征融合模块的输出特征;
对于第一个网络,通道注意力模块的具体表达式为:
Figure BDA00029262139200000416
Figure BDA00029262139200000417
其中,
Figure BDA00029262139200000418
表示第一个网络中K个层特征融合模块的输出特征进行拼接后的特征,FC(·)表示全连接层,GP(·)表示全局池化操作,ReLU(·)表示线性整流函数,σ(·)表示sigmod激活函数;FScale为各通道权重值,大小为1×1×C,其通道数C与
Figure BDA0002926213920000051
保持一致;
Figure BDA0002926213920000052
表示各通道权重值分别与原特征图对应通道的二维矩阵相乘;
Figure BDA0002926213920000053
为经过通道注意力模块后的特征,该特征作为第一个网络最后一个对应层的后续网络的输入特征;
步骤S43、将经过步骤S12的训练集输入到步骤S41至步骤S42中设计的图像主题特征分类与美学评分分布预测的多任务网络,该多任务网络中两个基准网络分别使用步骤S24和步骤S34中相对应部分的参数作为初始参数,多任务网络中其它部分的参数随机初始化;使用该多任务网络预测得到美学评分分布
Figure BDA0002926213920000055
与主题特征分布
Figure BDA0002926213920000056
步骤S44、根据图像主题特征分类与美学评分分布预测的多任务网络的损失函数,利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;
图像主题特征分类与美学评分分布预测的多任务网络的损失函数如下:
L=wsLs+wTLT
其中,wS与wT是各损失的权重,LT是步骤S23中的图像主题分类网络的损失函数,LS是步骤S33中的图像美学评分分布预测网络的损失函数;
步骤S45、以批次为单位重复步骤S43至步骤S44,直至步骤S44中计算得到的损失值收敛并趋于稳定,保存网络参数,完成主题特征分类与美学评分分布预测的多任务网络的训练。
在本发明一实施例中,所述步骤S5具体实现步骤如下:
步骤S51、将测试集中的图像输入到训练好的图像特征分类与美学评分分布预测的多任务模型,输出对应的美学评分分布p与主题特征k;
步骤S52、计算美学评分分布p的平均值,得到图像美学质量分数μ;计算公式如下:
Figure BDA0002926213920000054
其中,psi表示评分为si的概率,si表示第i个得分,A表示分数个数。
本发明还一种基于主题特征和评分分布的图像美学质量评价系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。
相较于现有技术,本发明具有以下有益效果:本发明能有效的融合图像与图像有关的重要的语义信息,提高图像美学质量评估方法的性能。现有的大多数图像美学质量评估方法忽略了美学数据集中的图像的出处中相对应的用户评论,这些评论解释了他们给图像打分的理由,包含了与图像有关的重要的语义信息,或者只局限于最终输出特征的融合,无法充分利用深度学习中所提取出的特征。本发明提出了一种基于主题特征和评分分布预测的图像美学评价模型,能有效的融合图像与图像有关的重要的语义信息,并提高图像美学质量评估方法的性能。
附图说明
图1是本发明方法的实现流程图。
图2是本发明实施例中网络模型结构图。
图3是本发明实施例中层特征融合模块结构图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明提供一种基于主题特征和评分分布的图像美学质量评价方法,如图1-3所示,包括以下步骤:
步骤S1、将美学图像数据集中的数据进行数据预处理,将数据集划分为训练集与测试集,并为训练集中的每个图像创建对应的主题;
步骤S2、设计图像主题特征分类网络,使用所设计的网络训练可对美学图像进行主题特征分类的图像主题分类模型;
步骤S3、设计图像美学评分分布预测网络,使用所设计的网络训练美学质量评分分布预测模型;
步骤S4、设计图像主题特征分类与美学评分分布预测的多任务网络,将图像主题分类模型与美学质量评分分布预测模型通过层特征融合连接起来,使用所设计的网络训练可同时进行主题特征分类与美学评分分布预测的多任务模型;
步骤S5、将图像输入到训练好的图像特征分类与美学评分分布预测的多任务模型,输出对应的图像美学评分分布与主题特征,最后计算美学评分分布的平均值作为图像美学质量分数。
进一步地,步骤S1具体包括以下步骤:
步骤S11、将数据集按一定比例划分为训练集与测试集,并将训练集与测试集中的图像缩放到固定尺寸H×W。
步骤S12、将训练图像对应的所有评论文本中的数字与标点符号剔除,将其转化为空格,并将全部的单词转为小写。将经过以上处理的评论根据其对应的图像进行组合,共得到对应s幅训练图像的s个文档,即训练集文档D[d11d2,…,ds]。
步骤S13、使用隐含狄利克雷分布(Latent Dirichlet allocation,LDA)方法,根据训练集文档D建立主题模型,并计算每一个文档的主题作为与该文档对应的图像的主题。对于第i个文档di,首先根据建立的主题模型得到其主题分布θi,取θi中数值最高的主题作为文档di的主题,假设该主题是第t个主题,则文档di和对应的图像di对应的主题是主题t。
进一步地,步骤S2具体包括以下步骤:
步骤S21、以ResNet50图像分类网络为基础,我们称之为基准网络,将基准网络的最后一层替换成全连接层,全连接层输出的分类数为K,K为主题类数。
步骤S22、将经过S12步骤的训练集输入到S21步骤中的模型,预测得到图像主题特征分布
Figure BDA0002926213920000074
步骤S23、根据图像主题分类网络的损失函数,利用反向传播方法计算图像主题分类的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;
图像主题分类网络的损失函数如下:
Figure BDA0002926213920000071
其中,K表示预测得到的向量长度,即主题类数;yi为步骤S13通过对应的文档计算得到的图像属于第i类主题特征的概率;
Figure BDA0002926213920000072
为图像经主题特征分类深度网络预测获得的属于第i类主题特征的概率;log(·)表示对数函数log;σ(·)表示sigmod激活函数。
步骤S24、以批次为单位重复上述步骤S22至步骤S23,直至步骤S23中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像主题分类模型的训练过程。
进一步地,步骤S3具体包括以下步骤:
步骤S31、将基准网络的最后一层替换成全连接层和激活层,全连接层输出的分类数为A,A为美学评分分数集合中分数的个数。如评分分数集合为{1,2,…,10}时,A为10。
步骤S32、将经过S12步骤的训练集输入到S31步骤中的模型,预测得到图像美学评分分布
Figure BDA0002926213920000073
步骤S33、根据图像美学评分分布预测网络的损失函数,利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;
图像美学评分分布预测网络的损失函数如下:
Figure BDA0002926213920000081
其中,DKL(·‖‖·)为KL散度,
Figure BDA0002926213920000082
表示图像经过图像美学评分分布预测网络得到的美学评分分布,x表示图像真实的美学评分分布。
步骤S34、以批次为单位重复上述步骤S32至步骤S33,直至步骤S33中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像美学评分分布预测网络的训练过程。
进一步地,步骤S4具体包括以下步骤:
步骤S41、将S2步骤与S3步骤分别训练完成的两个基准网络的若干对应层利用层特征融合模块将两个基准网络连接起来。对于第i个对应层,层特征融合模块的输入是两个基准网络的第i个对应层的输出特征的拼接。每个层特征融合模块包括两支1×1卷积层与归一化层,其中1×1卷积层将维度为H×W×2C的拼接特征降维为维度为H×W×C的特征,层特征融合模块的表达式为:
Figure BDA0002926213920000083
Figure BDA0002926213920000084
Figure BDA0002926213920000085
其中,
Figure BDA0002926213920000086
是第一个基准网络第i层的输出特征,其维度为H×W×C。
Figure BDA0002926213920000087
是第二个基准网络第i层的输出特征,其维度为H×W×C。Concat(·)表示特征按通道进行拼接。Fi
Figure BDA0002926213920000088
Figure BDA0002926213920000089
拼接后的输出特征,其维度为H×W×2C。w1,b1是对应第一个基准网络的1×1卷积层的权重和偏置。w2,b2是对应第二个基准网络的1×1卷积层的权重和偏置,BN(·)表示批归一化操作。
接着,将经过层特征融合模块的输出特征
Figure BDA00029262139200000810
Figure BDA00029262139200000811
分别输入到两个基准网络中第i个对应层的下一层。即用
Figure BDA00029262139200000812
Figure BDA00029262139200000813
分别代替
Figure BDA00029262139200000814
Figure BDA00029262139200000815
作为第一个和第二个基准网络中第i个对应层的下一层的输入。
步骤S42、对于两个基准网络分别做如下操作,将某个基准网络中除最后一个层特征融合模块外的每个层特征融合模块的输出通过自适应池化匹配到最后一个层特征融合模块的输出的高度和宽度,然后与两个基准网络最后一个对应层的层特征融合模块的输出进行拼接,再经过通道注意力模块,最后输入到两个基准网络最后一个对应层的后续网络中。以第一个基准网络为例,共有K个层特征融合模块,对层特征融合模块的输出进行自适应池化和拼接的具体的表达式为:
Figure BDA0002926213920000091
其中,Concat(·)表示特征按照通道进行拼接,AP([H,W],F)代表自适应池化模块,第一个参数为目标池化尺寸,[H,W]代表特征图的高度和宽度,第二个参数为输入的特征。[HK,WK]表示第K个特征融合模块输出特征的高度和宽度,
Figure BDA0002926213920000092
表示输出给第一个基准网络的第i个特征融合模块的输出特征。
以第一个基准网络为例,通道注意力模块的具体表达式为:
Figure BDA0002926213920000093
Figure BDA0002926213920000094
其中,
Figure BDA0002926213920000095
表示第一个基准网络中K个层特征融合模块的输出特征进行拼接后的特征,FC(·)表示全连接层,GP(·)表示全局池化操作,ReLU(·)表示线性整流函数,σ(·)表示sigmod激活函数。特别的,FScale为各通道权重值,大小为1×1×C,其通道数C与
Figure BDA0002926213920000096
保持一致。
Figure BDA0002926213920000097
表示各通道权重值分别与原特征图对应通道的二维矩阵相乘。
Figure BDA0002926213920000098
为经过通道注意力模块后的特征,该特征作为第一个基准网络最后一个对应层的后续网络的输入特征。
步骤S43、将经过S12步骤的训练集输入到步骤S41至步骤S42中设计的图像主题特征分类与美学评分分布预测多任务网络,该网络中两个基准网络分别使用步骤S24和步骤S34中相对应部分的参数作为初始参数,网络中其它部分的参数随机初始化。使用该网络预测得到图像美学评分分布
Figure BDA0002926213920000099
与图像主题特征分布
Figure BDA00029262139200000910
步骤S44、根据图像主题特征分类与美学评分分布预测的多任务网络的损失函数,利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;
图像主题特征分类与美学评分分布预测的多任务网络的损失函数如下:
L=wsLs+wTLT
其中,wS与wT是各损失的权重,LT是步骤S23中的图像主题分类网络的损失函数,LS是步骤S33中的图像美学评分分布预测网络的损失函数。
步骤S45、以批次为单位重复上述步骤S43至步骤S44,直至步骤S44中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像主题特征分类与美学评分分布预测的多任务网络的训练过程。
进一步地,步骤S5具体包括以下步骤:
步骤S51、将测试集中的图像输入到训练好的图像特征分类与美学评分分布预测的多任务模型,输出对应的图像美学评分分布p与主题特征k。
步骤S52、计算美学评分分布p的平均值,得到图像美学质量分数μ。计算公式如下:
Figure BDA0002926213920000101
其中,psi表示评分为si的概率,si表示第i个得分,A表示分数个数。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (6)

1.一种基于主题特征和评分分布的图像美学质量评价方法,其特征在于,包括如下步骤:
步骤S1、将美学图像数据集中的数据进行数据预处理,将数据集划分为训练集与测试集,并为训练集中的每个图像创建对应的主题;
步骤S2、设计图像主题特征分类网络,使用所设计的网络训练可对美学图像进行主题特征分类的图像主题分类模型;
步骤S3、设计图像美学评分分布预测网络,使用所设计的网络训练可对美学图像进行美学评分分布预测的美学评分分布预测模型;
步骤S4、设计图像主题特征分类与美学评分分布预测的多任务网络,将图像主题分类模型与美学评分分布预测模型通过层特征融合模块连接起来,使用所设计的网络训练同时进行图像主题特征分类与美学评分分布预测的多任务模型;
步骤S5、将图像输入到训练好的图像主题特征分类与美学评分分布预测的多任务模型,输出对应的美学评分分布与主题特征,最后计算美学评分分布的平均值作为图像美学质量分数;
所述步骤S4具体实现步骤如下:
步骤S41、将步骤S2与步骤S3分别训练完成的两个网络的若干对应层利用层特征融合模块将两个基准网络连接起来;对于第i个对应层,层特征融合模块的输入是两个网络的第i个对应层的输出特征的拼接;每个层特征融合模块包括两支1×1卷积层与归一化层,其中1×1卷积层将维度为H×W×2C的拼接特征降维为维度为H×W×C的特征,层特征融合模块的表达式为:
Figure FDA0003726204850000011
Figure FDA0003726204850000012
Figure FDA0003726204850000013
其中,
Figure FDA0003726204850000014
是第一个网络第i层的输出特征,其维度为H×W×C;
Figure FDA0003726204850000015
是第二个网络第i层的输出特征,其维度为H×W×C;Concat(·)表示特征按通道进行拼接;Fi
Figure FDA0003726204850000016
Figure FDA0003726204850000017
拼接后的输出特征,其维度为H×W×2C;w1,b1是对应第一个网络的1×1卷积层的权重和偏置;w2,b2是对应第二个网络的1×1卷积层的权重和偏置,BN(·)表示批归一化操作;
接着,将经过层特征融合模块的输出特征
Figure FDA0003726204850000018
Figure FDA0003726204850000019
分别输入到两个网络中第i个对应层的下一层;即用
Figure FDA00037262048500000110
Figure FDA00037262048500000111
分别代替
Figure FDA00037262048500000112
Figure FDA00037262048500000113
作为第一个和第二个网络中第i个对应层的下一层的输入;
步骤S42、对于两个网络分别做如下操作,将其中一个网络中除最后一个层特征融合模块外的每个层特征融合模块的输出通过自适应池化匹配到最后一个层特征融合模块的输出的高度和宽度,然后与两个网络最后一个对应层的层特征融合模块的输出进行拼接,再经过通道注意力模块,最后输入到两个网络最后一个对应层的后续网络中;对于第一个网络,共有K个层特征融合模块,对层特征融合模块的输出进行自适应池化和拼接的具体的表达式为:
Figure FDA0003726204850000021
其中,Concat(·)表示特征按照通道进行拼接,AP([H,W],F)代表自适应池化模块,第一个参数为目标池化尺寸,[H,W]代表特征图的高度和宽度,第二个参数为输入的特征;[HK,WK]表示第K个层特征融合模块输出特征的高度和宽度,
Figure FDA0003726204850000022
表示输出给第一个网络的第i个层特征融合模块的输出特征;
对于第一个网络,通道注意力模块的具体表达式为:
Figure FDA0003726204850000023
Figure FDA0003726204850000024
其中,
Figure FDA0003726204850000025
表示第一个网络中K个层特征融合模块的输出特征进行拼接后的特征,FC(·)表示全连接层,GP(·)表示全局池化操作,ReLU(·)表示线性整流函数,σ(·)表示sigmod激活函数;FScale为各通道权重值,大小为1×1×C,其通道数C与
Figure FDA0003726204850000026
保持一致;
Figure FDA0003726204850000027
表示各通道权重值分别与原特征图对应通道的二维矩阵相乘;
Figure FDA0003726204850000028
为经过通道注意力模块后的特征,该特征作为第一个网络最后一个对应层的后续网络的输入特征;
步骤S43、将训练集输入到步骤S41至步骤S42中设计的图像主题特征分类与美学评分分布预测的多任务网络,该多任务网络中两个基准网络分别使用步骤S2和步骤S3中训练的网络参数作为初始参数,多任务网络中其它部分的参数随机初始化;使用该多任务网络预测得到美学评分分布
Figure FDA0003726204850000029
与主题特征分布
Figure FDA00037262048500000210
步骤S44、根据图像主题特征分类与美学评分分布预测的多任务网络的损失函数,利用反向传播方法计算图像主题特征分类与美学评分分布预测的多任务网络中各参数的梯度,并利用随机梯度下降方法更新参数;
图像主题特征分类与美学评分分布预测的多任务网络的损失函数如下:
L=wsLs+wTLT
其中,wS与wT是各损失的权重,LT是图像主题分类网络的损失函数,LS是图像美学评分分布预测网络的损失函数;
步骤S45、以批次为单位重复步骤S43至步骤S44,直至步骤S44中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像主题特征分类与美学评分分布预测的多任务网络的训练。
2.根据权利要求1所述的基于主题特征和评分分布的图像美学质量评价方法,其特征在于,所述步骤S1具体实现步骤如下:
步骤S11、将数据集按预定比例划分为训练集与测试集,并将训练集与测试集中的图像缩放到固定尺寸H×W;
步骤S12、将训练集中图像对应的所有评论文本中的数字与标点符号剔除,将其转化为空格,并将全部的单词转为小写;将经过以上处理的评论根据其对应的图像进行组合,共得到对应训练集中s幅图像的s个文档,即训练集文档D[d1,d2,…,ds];
步骤S13、使用隐含狄利克雷分布方法,根据训练集文档D建立主题模型,并计算每一个文档的主题作为与该文档对应的图像的主题,即对于第i个文档di,首先根据建立的主题模型得到其主题分布θi,取θi中数值最高的主题作为文档di的主题,假设该主题是第t个主题,则文档di和其对应的图像对应的主题是主题t。
3.根据权利要求2所述的基于主题特征和评分分布的图像美学质量评价方法,其特征在于,所述步骤S2具体实现步骤如下:
步骤S21、以ResNet50图像分类网络为基准网络,将基准网络的最后一层替换成全连接层,全连接层输出的分类数为K,K为主题类数;
步骤S22、将经过步骤S12的训练集输入到步骤S21中的网络模型,预测得到图像主题特征分布
Figure FDA0003726204850000033
步骤S23、根据图像主题特征分类网络的损失函数,利用反向传播方法计算图像主题特征分类网络中各参数的梯度,并利用随机梯度下降方法更新参数;
图像主题特征分类网络的损失函数如下:
Figure FDA0003726204850000031
其中,K表示预测得到的向量长度,即主题类数;yi为步骤S13通过对应的文档计算得到的图像属于第i类主题特征的概率;
Figure FDA0003726204850000032
为图像经图像主题特征分类网络预测获得的图像属于第i类主题特征的概率;log(·)表示对数函数log;σ(·)表示sigmod激活函数;
步骤S24、以批次为单位重复步骤S22至步骤S23,直至步骤S23中计算得到的损失值收敛并趋于稳定,保存网络参数,完成图像主题分类模型的训练。
4.根据权利要求3所述的基于主题特征和评分分布的图像美学质量评价方法,其特征在于,所述步骤S3具体实现步骤如下:
步骤S31、选取与步骤S21中相同的ResNet50图像分类网络作为基准网络,将基准网络的最后一层替换成全连接层和激活层,全连接层输出的分类数为A,A为美学评分分数集合中分数的个数;
步骤S32、将经过步骤S12的训练集输入到步骤S31中的网络模型,预测得到图像美学评分分布
Figure FDA0003726204850000045
步骤S33、根据图像美学评分分布预测网络的损失函数,利用反向传播方法计算图像美学评分分布预测网络中各参数的梯度,并利用随机梯度下降方法更新参数;
图像美学评分分布预测网络的损失函数如下:
Figure FDA0003726204850000041
其中,DKL(·||·)为KL散度,
Figure FDA0003726204850000042
表示图像经过图像美学评分分布预测网络得到的美学评分分布,x表示图像真实的美学评分分布;
步骤S34、以批次为单位重复步骤S32至步骤S33,直至步骤S33中计算得到的损失值收敛并趋于稳定,保存网络参数,完成美学评分分布预测模型的训练。
5.根据权利要求1所述的基于主题特征和评分分布的图像美学质量评价方法,其特征在于,所述步骤S5具体实现步骤如下:
步骤S51、将测试集中的图像输入到训练好的图像特征分类与美学评分分布预测的多任务模型,输出对应的美学评分分布p与主题特征k;
步骤S52、计算美学评分分布p的平均值,得到图像美学质量分数μ;计算公式如下:
Figure FDA0003726204850000043
其中,
Figure FDA0003726204850000044
表示评分为si的概率,si表示第i个得分,A表示分数个数。
6.一种基于主题特征和评分分布的图像美学质量评价系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-5任一项所述的方法步骤。
CN202110134073.XA 2021-02-01 2021-02-01 基于主题特征和评分分布的图像美学质量评价方法及系统 Active CN112767386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110134073.XA CN112767386B (zh) 2021-02-01 2021-02-01 基于主题特征和评分分布的图像美学质量评价方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110134073.XA CN112767386B (zh) 2021-02-01 2021-02-01 基于主题特征和评分分布的图像美学质量评价方法及系统

Publications (2)

Publication Number Publication Date
CN112767386A CN112767386A (zh) 2021-05-07
CN112767386B true CN112767386B (zh) 2022-09-06

Family

ID=75704410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110134073.XA Active CN112767386B (zh) 2021-02-01 2021-02-01 基于主题特征和评分分布的图像美学质量评价方法及系统

Country Status (1)

Country Link
CN (1) CN112767386B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554327A (zh) * 2021-07-29 2021-10-26 上海千内云教育软件科技有限公司 一种基于深度学习的素描作品智能分档以及量化评分方法
CN113657380B (zh) * 2021-08-17 2023-08-18 福州大学 融合多模态注意力机制的图像美学质量评价方法
CN116051482B (zh) * 2022-12-29 2024-04-09 青海大学 一种基于多任务渐进学习的无参考图像质量评价方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255374A (zh) * 2018-08-27 2019-01-22 中共中央办公厅电子科技学院 一种基于密集卷积网络和多任务网络的美学属性评价方法
CN109544524A (zh) * 2018-11-15 2019-03-29 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价系统
KR20190045515A (ko) * 2017-10-24 2019-05-03 주식회사 인피니트헬스케어 인공지능에 기반한 이미지 화질 분석 및 권장 촬영 조건 제안을 위한 시스템 및 방법
CN110853032A (zh) * 2019-11-21 2020-02-28 北京航空航天大学 基于多模态深度学习的无人机视频美学质量评价方法
CN111179227A (zh) * 2019-12-16 2020-05-19 西北工业大学 基于辅助诊断和主观美学的乳腺超声图像质量评价方法
CN111950655A (zh) * 2020-08-25 2020-11-17 福州大学 一种基于多领域知识驱动的图像美学质量评价方法
CN112183645A (zh) * 2020-09-30 2021-01-05 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10002415B2 (en) * 2016-04-12 2018-06-19 Adobe Systems Incorporated Utilizing deep learning for rating aesthetics of digital images

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190045515A (ko) * 2017-10-24 2019-05-03 주식회사 인피니트헬스케어 인공지능에 기반한 이미지 화질 분석 및 권장 촬영 조건 제안을 위한 시스템 및 방법
CN109255374A (zh) * 2018-08-27 2019-01-22 中共中央办公厅电子科技学院 一种基于密集卷积网络和多任务网络的美学属性评价方法
CN109544524A (zh) * 2018-11-15 2019-03-29 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价系统
CN110853032A (zh) * 2019-11-21 2020-02-28 北京航空航天大学 基于多模态深度学习的无人机视频美学质量评价方法
CN111179227A (zh) * 2019-12-16 2020-05-19 西北工业大学 基于辅助诊断和主观美学的乳腺超声图像质量评价方法
CN111950655A (zh) * 2020-08-25 2020-11-17 福州大学 一种基于多领域知识驱动的图像美学质量评价方法
CN112183645A (zh) * 2020-09-30 2021-01-05 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Distribution-Oriented Aesthetics Assessment With Semantic-Aware Hybrid Network;Chaoran Cui et al.;《IEEE Transactions on Multimedia》;20190505;第21卷(第5期);全文 *
基于卷积神经网络的无参考图像质量评价方法研究;沙丰;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215(第02期);全文 *
基于底层特征和高级语义的真实失真图像质量评价;王晓红等;《包装工程》;20200131;第41卷(第1期);全文 *

Also Published As

Publication number Publication date
CN112767386A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
US11562145B2 (en) Text classification method, computer device, and storage medium
CN112767386B (zh) 基于主题特征和评分分布的图像美学质量评价方法及系统
Severyn et al. Unitn: Training deep convolutional neural network for twitter sentiment classification
Severyn et al. Twitter sentiment analysis with deep convolutional neural networks
CN109992779B (zh) 一种基于cnn的情感分析方法、装置、设备及存储介质
Perez-Martin et al. Improving video captioning with temporal composition of a visual-syntactic embedding
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN109408823B (zh) 一种基于多通道模型的特定目标情感分析方法
CN109933664A (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
Asada et al. Extracting drug-drug interactions with attention CNNs
CN112560830A (zh) 多模态维度情感识别方法
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
US11803731B2 (en) Neural architecture search with weight sharing
CN107871103B (zh) 一种人脸认证方法和装置
CN113657380B (zh) 融合多模态注意力机制的图像美学质量评价方法
CN114417097A (zh) 一种基于时间卷积与自注意力的情感预测方法及系统
CN111985243A (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN116467443A (zh) 基于主题识别的网络舆情文本分类方法
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN111563373A (zh) 聚焦属性相关文本的属性级情感分类方法
CN114265937A (zh) 科技情报的智能分类分析方法、系统、存储介质及服务器
CN113221680A (zh) 基于文本动态引导视觉特征提炼的文本行人检索方法
Halkias et al. Sparse penalty in deep belief networks: using the mixed norm constraint
Pathuri et al. Feature based sentimental analysis for prediction of mobile reviews using hybrid bag-boost algorithm
CN116257616A (zh) 面向音乐领域的实体关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant