CN113657380A - 融合多模态注意力机制的图像美学质量评价方法 - Google Patents

融合多模态注意力机制的图像美学质量评价方法 Download PDF

Info

Publication number
CN113657380A
CN113657380A CN202110944392.7A CN202110944392A CN113657380A CN 113657380 A CN113657380 A CN 113657380A CN 202110944392 A CN202110944392 A CN 202110944392A CN 113657380 A CN113657380 A CN 113657380A
Authority
CN
China
Prior art keywords
image
aesthetic
attention mechanism
text
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110944392.7A
Other languages
English (en)
Other versions
CN113657380B (zh
Inventor
牛玉贞
宋冰蕊
陈珊珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110944392.7A priority Critical patent/CN113657380B/zh
Publication of CN113657380A publication Critical patent/CN113657380A/zh
Application granted granted Critical
Publication of CN113657380B publication Critical patent/CN113657380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明提出融合多模态注意力机制的图像美学质量评价方法,包括以下步骤;步骤S1:对美学图像数据集中的数据进行数据预处理,提取美学图像所对应文本的文本特征,并将数据集划分为训练集与测试集;步骤S2:设计融合文本特征和图像特征的多模态注意力机制模块;步骤S3:设计融合多模态注意力机制的图像美学评分分布预测网络,使用该网络训练融合多模态注意力机制的图像美学评分分布预测网络模型;步骤S4:将图像输入到融合多模态注意力机制的图像美学评分分布预测网络模型中,输出对应的图像美学评分分布,最后计算美学评分分布的平均值作为图像美学质量分数;本发明能实现视觉特征与美学文本特征相互指导与融合,提高图像美学质量评估方法的性能。

Description

融合多模态注意力机制的图像美学质量评价方法
技术领域
本发明涉及图像处理以及计算机视觉技术领域,尤其是融合多模态注意力机制的图像美学质量评价方法。
背景技术
随着多媒体技术的迅速发展,可视内容数据与日俱增,人们接受信息的方式逐渐多元化。其中图像以其直观、包含信息量大等优点受到人们的欢迎。人们往往会达成一种共识,即一些图像在视觉上比其他图像更有吸引力,而图像美学质量衡量了在人类眼中一幅图像的视觉吸引力。人们都希望自己获得的图像是具有较高的视觉美学质量,因此人们探索如何用可计算技术来预测人类对视觉刺激产生的情绪反应,使计算机模仿人类的审美过程,用可计算方法来自动预测图像的美学质量,使得计算机能够发现图像的美并且能理解图像的美。我们利用计算机自动评价图像的美感,从大量的图片中筛选出符合人类审美的图像,减少因为图像质量的参差不齐带来的影响。但是美学的主观性决定了图像美学质量评价是一个非常具有挑战性的任务。视觉美学往往涉及情感、个人品味等主观因素,需要计算美学与计算机视觉、心理学等领域交叉研究,这使得如何提取和构造有效的图像美学特征成为最大难点。
图像美学质量评价方法目前分为基于人工设计美学特征的方法与基于美学特征深度学习的方法。基于人工设计美学特征的方法通过手工设计和美学质量相关的多种图像特征去拟合人类对图像美学质量的评价结果,然后结合有效的机器学习算法将特征和美感进行映射。他们首先在图像数据集上提取这些手工设计的特征,然后利用,如K算法近邻分类、回归分析等机器学习方法进行分类与回归。但是手工设计的特征有其局限性,因为不同类型的图像内容具有不同的美学特征,对评分效果产生了很大的影响。
目前图像美学质量评价的研究工作进入了深度学习时代,我们利用深度学习自动提取图像的美学特征。借助深度学习强大的自动特征学习能力,人们不需要丰富的图像美学知识和心理学知识就可以自动提取图像美学特征。近年来,研究人员对用于图像识别的多种卷积神经网络进行改造,并将图像内容、图像风格等额外信息应用于改造后的卷积神经网络中。这些深度卷积神经网络在图像美学评价方面展现出了良好的性能。但是过去绝大多数基于深度学习的图像美学质量评价方法只局限于学习视觉特征。我们发现美学数据集中图像对应的用户评论解释了他们给图像打分的理由,包含了与图像有关的重要信息,可以用来辅佐美学图像质量评价。所以我们可以充分利用和挖掘这些文本特征,设计出一个能够获得利用和挖掘文本特征的图像美学质量评估模型。我们提出融合注意力机制的多模态图像美学质量评价方法,可以有效的利用与图像有关的文本特征,实现视觉特征与美学文本特征相互指导与融合,提高图像美学质量评估方法的性能。
发明内容
本发明提出融合多模态注意力机制的图像美学质量评价方法,能实现视觉特征与美学文本特征相互指导与融合,提高图像美学质量评估方法的性能。
本发明采用以下技术方案。
融合多模态注意力机制的图像美学质量评价方法,包括以下步骤;
步骤S1:对美学图像数据集中的数据进行数据预处理,提取得到美学图像所对应文本的文本特征,并将数据集划分为训练集与测试集;
步骤S2:设计融合文本特征和图像特征的多模态注意力机制模块;
步骤S3:设计融合多模态注意力机制的图像美学评分分布预测网络,使用所设计的网络训练融合多模态注意力机制的图像美学评分分布预测网络模型;
步骤S4:将图像输入到训练好的融合多模态注意力机制的图像美学评分分布预测网络模型中,输出对应的图像美学评分分布,最后计算美学评分分布的平均值作为图像美学质量分数。
所述步骤S1包括以下步骤;
步骤S11:将美学图像数据集中的评论文本的全部单词转为小写,剔除停用词和数字。然后使用Glove预训练词向量为所有单词以及标点符号编码,得到所有评论文本的编码;
步骤S12:将所有评论文本编码按照对应的图像进行组织,属于同一幅图像的评论文本,将其评论文本编码按行排列,得到对应该幅图像的评论文本编码矩阵;
步骤S13:将S12步骤中得到的每一个评论文本编码矩阵的尺寸调整为固定值S×W。具体做法是对于每一个评论文本编码矩阵,将评论文本编码矩阵中长度超过S的部分删除,反之,则用特定字符补齐;将评论文本编码矩阵中宽度超过W的部分删除,反之,则用特定字符补齐;
步骤S14:将S13步骤中得到的评论文本编码矩阵输入到门控制循环单元(GateRecurrent Unit,GRU)网络中,得到每幅图像的文本特征,尺寸为C×S;
步骤S15:将数据集中的每幅图像缩放到固定尺寸H×W;
步骤S16:将数据集中的图像与其对应的文本特征按预设比例划分为训练集与测试集。
所述步骤S12中的特定字符为0。
所述步骤S2依次包括步骤S21、S22、S23和S24;
所述步骤S21具体为:将来自于多模态注意力机制模块前序模块的特征作为多模态注意力机制模块的输入,即将维度为C×hx×wx的图像特征FX分别输入到两个1×1的卷积层中,提取关键点特征和图像投影特征,提取关键点特征k和图像投影特征v的表达式为:
k=w1(FX)+b1
v=w2(FX)+b2
其中,FX为输入的图像特征;w1,b1是对应提取关键点特征的1×1卷积层的权重和偏置;w2,b2是对应提取图像投影特征的1×1卷积层的权重和偏置;
然后调整关键点特征k和图像投影特征v的维度;k与v的原维度都为C×hx×wx,维度调整后为heads×c×hx×wx,其中C=heads×c。
所述步骤S22具体为:调整S14步骤中得到的维度为C×S的文本特征,得到维度为C×hx×wx文本特征Q,其中,S=hx×wx
然后将Q分别输入到heads个1×1卷积层中,得到heads个文本输出特征,分别为q1,q2,…,qheads。其中,1×1卷积层将维度为C×hx×wx的文本特征降维为维度为c×hx×wx的特征,且C=heads×c。然后将heads个文本输出特征拼接在一起,拼接后的文本特征q的维度为heads×c×hx×wx。文本特征q的计算公式为:
q1=w1(Q)+b1
q2=w2(Q)+b2
……
qheads=wheads(Q)+bheads
q=Contact(q1,q2,…,qheads)
其中,qi表示经过第i个1×1卷积层的输出特征,wi,bi是对应第i个1×1卷积层的权重和偏置,Concat(·)表示特征在新的维度上进行拼接。
所述步骤S23具体为:随机初始化高度位置特征Rh和宽度位置特征Rw;其中,Rh维度为heads×c×hx×1,Rw维度为heads×c×1×wx;将Rh和Rw按矩阵加法的方式相加,计算出位置特征r,其维度为heads×c×hx×wx
所述步骤S24具体为:将S21步骤得出的关键点特征和图像投影特征,S22步骤得出的文本特征以及S23步骤得出的位置特征通过激活函数与多个矩阵计算,得到融合文本特征的图像特征,计算公式为:
Figure BDA0003216267810000041
Figure BDA0003216267810000042
其中,q表示文本特征矩阵,rT表示位置特征矩阵r的转置,kT表示关键点特征矩阵k的转置,v表示图像投影特征矩阵,
Figure BDA0003216267810000051
表示矩阵乘法,
Figure BDA0003216267810000052
表示矩阵加法,Softmax(·)表示Softmax激活函数;
最后,将维度为heads×c×hx×wx的图像特征z的大小调整为C×hx×wx,其中C=heads×c。
所述步骤S3具体包括以下步骤;
步骤S31:从图像分类网络中选取一种为基础即作为基准网络使用,将S2步骤中设计的注意力模块插入到基准网络平均池化模块之前,并将基准网络的最后一层替换成全连接层和激活层;全连接层输出的分类数为A,A为美学评分分数集合中分数的个数;
步骤S32:将经过步骤S1的训练集中的一个批次的图像和对应文本特征输入到S31步骤中的模型,预测得到图像美学评分分布
Figure BDA0003216267810000055
步骤S33:根据融合多模态注意力机制的图像美学质量评价网络的损失函数,利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;
融合注意力机制的多模态图像美学质量评价网络的损失函数如下:
Figure BDA0003216267810000053
其中,DKL(·||·)为KL散度,
Figure BDA0003216267810000054
表示图像经过融合注意力机制的多模态图像美学质量评价网络得到的美学评分分布,x表示图像真实的美学评分分布;
步骤S34:以批次为单位重复上述步骤S32至步骤S33,直至步骤S33中计算得到的损失值收敛并趋于稳定,保存网络参数,完成融合注意力机制的多模态图像美学质量评价网络的训练过程。
所述步骤S31中的图像分类网络包括ResNet50或VGG16;当评分分数集合为{1,2,…,10}时,A为10。
所述步骤S4中包括以下步骤;
步骤S41:将测试集中的图像和对应文本特征输入到训练好的融合多模态注意力机制的图像美学质量评价网络模型,输出对应的图像美学评分分布p;
步骤S42:计算美学评分分布p的平均值,得到图像美学质量分数μ。计算公式如下:
Figure BDA0003216267810000061
其中,
Figure BDA0003216267810000062
表示评分为si的概率,si表示第i个得分,A表示分数个数。
本发明通过有效的利用与图像有关的文本特征,能实现视觉特征与美学文本特征相互指导与融合,提高图像美学质量评估方法的性能。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
附图1是本发明方法的实现流程示意图;
附图2是本发明实施例中网络模型结构示意图;
附图3是本发明实施例中的多模态注意力机制模块结构示意图。
具体实施方式
如图所示,融合多模态注意力机制的图像美学质量评价方法,包括以下步骤;
步骤S1:对美学图像数据集中的数据进行数据预处理,提取得到美学图像所对应文本的文本特征,并将数据集划分为训练集与测试集;
步骤S2:设计融合文本特征和图像特征的多模态注意力机制模块;
步骤S3:设计融合多模态注意力机制的图像美学评分分布预测网络,使用所设计的网络训练融合多模态注意力机制的图像美学评分分布预测网络模型;
步骤S4:将图像输入到训练好的融合多模态注意力机制的图像美学评分分布预测网络模型中,输出对应的图像美学评分分布,最后计算美学评分分布的平均值作为图像美学质量分数。
所述步骤S1包括以下步骤;
步骤S11:将美学图像数据集中的评论文本的全部单词转为小写,剔除停用词和数字。然后使用Glove预训练词向量为所有单词以及标点符号编码,得到所有评论文本的编码;
步骤S12:将所有评论文本编码按照对应的图像进行组织,属于同一幅图像的评论文本,将其评论文本编码按行排列,得到对应该幅图像的评论文本编码矩阵;
步骤S13:将S12步骤中得到的每一个评论文本编码矩阵的尺寸调整为固定值S×W。具体做法是对于每一个评论文本编码矩阵,将评论文本编码矩阵中长度超过S的部分删除,反之,则用特定字符补齐;将评论文本编码矩阵中宽度超过W的部分删除,反之,则用特定字符补齐;
步骤S14:将S13步骤中得到的评论文本编码矩阵输入到门控制循环单元(GateRecurrent Unit,GRU)网络中,得到每幅图像的文本特征,尺寸为C×S;
步骤S15:将数据集中的每幅图像缩放到固定尺寸H×W;
步骤S16:将数据集中的图像与其对应的文本特征按预设比例划分为训练集与测试集。
所述步骤S12中的特定字符为0。
所述步骤S2依次包括步骤S21、S22、S23和S24;
所述步骤S21具体为:将来自于多模态注意力机制模块前序模块的特征作为多模态注意力机制模块的输入,即将维度为C×hx×wx的图像特征FX分别输入到两个1×1的卷积层中,提取关键点特征和图像投影特征,提取关键点特征k和图像投影特征v的表达式为:
k=w1(FX)+b1
v=w2(FX)+b2
其中,FX为输入的图像特征;w1,bi是对应提取关键点特征的1×1卷积层的权重和偏置;w2,b2是对应提取图像投影特征的1×1卷积层的权重和偏置;
然后调整关键点特征k和图像投影特征v的维度;k与v的原维度都为C×hx×wx,维度调整后为heads×c×hx×wx,其中C=heads×c。
所述步骤S22具体为:调整S14步骤中得到的维度为C×S的文本特征,得到维度为C×hx×wx文本特征Q,其中,S=hx×wx
然后将Q分别输入到heads个1×1卷积层中,得到heads个文本输出特征,分别为q1,q2,…,qheads。其中,1×1卷积层将维度为C×hx×wx的文本特征降维为维度为c×hx×wx的特征,且C=heads×c。然后将heads个文本输出特征拼接在一起,拼接后的文本特征q的维度为heads×c×hx×wx。文本特征q的计算公式为:
q1=w1(Q)+b1
q2=w2(Q)+b2
……
qheads=wheads(Q)+bheads
q=Contact(q1,q2,…,qheads)
其中,qi表示经过第i个1×1卷积层的输出特征,wi,bi是对应第i个1×1卷积层的权重和偏置,Concat(·)表示特征在新的维度上进行拼接。
所述步骤S23具体为:随机初始化高度位置特征Rh和宽度位置特征Rw;其中,Rh维度为heads×c×hx×1,Rw维度为heads×c×1×wx;将Rh和Rw按矩阵加法的方式相加,计算出位置特征r,其维度为heads×c×hx×wx
所述步骤S24具体为:将S21步骤得出的关键点特征和图像投影特征,S22步骤得出的文本特征以及S23步骤得出的位置特征通过激活函数与多个矩阵计算,得到融合文本特征的图像特征,计算公式为:
Figure BDA0003216267810000081
Figure BDA0003216267810000091
其中,q表示文本特征矩阵,rT表示位置特征矩阵r的转置,kT表示关键点特征矩阵k的转置,v表示图像投影特征矩阵,
Figure BDA0003216267810000092
表示矩阵乘法,
Figure BDA0003216267810000093
表示矩阵加法,Softmax(·)表示Softmax激活函数;
最后,将维度为heads×c×hx×wx的图像特征z的大小调整为C×hx×wx,其中C=heads×c。
所述步骤S3具体包括以下步骤;
步骤S31:从图像分类网络中选取一种为基础即作为基准网络使用,将S2步骤中设计的注意力模块插入到基准网络平均池化模块之前,并将基准网络的最后一层替换成全连接层和激活层;全连接层输出的分类数为A,A为美学评分分数集合中分数的个数;
步骤S32:将经过步骤S1的训练集中的一个批次的图像和对应文本特征输入到S31步骤中的模型,预测得到图像美学评分分布
Figure BDA0003216267810000094
步骤S33:根据融合多模态注意力机制的图像美学质量评价网络的损失函数,利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;
融合注意力机制的多模态图像美学质量评价网络的损失函数如下:
Figure BDA0003216267810000095
其中,DKL(·||·)为KL散度,
Figure BDA0003216267810000096
表示图像经过融合注意力机制的多模态图像美学质量评价网络得到的美学评分分布,x表示图像真实的美学评分分布;
步骤S34:以批次为单位重复上述步骤S32至步骤S33,直至步骤S33中计算得到的损失值收敛并趋于稳定,保存网络参数,完成融合注意力机制的多模态图像美学质量评价网络的训练过程。
所述步骤S31中的图像分类网络包括ResNet50或VGG16;当评分分数集合为{1,2,…,10}时,A为10。
所述步骤S4中包括以下步骤;
步骤S41:将测试集中的图像和对应文本特征输入到训练好的融合多模态注意力机制的图像美学质量评价网络模型,输出对应的图像美学评分分布p;
步骤S42:计算美学评分分布p的平均值,得到图像美学质量分数μ。计算公式如下:
Figure BDA0003216267810000101
其中,
Figure BDA0003216267810000102
表示评分为si的概率,si表示第i个得分,A表示分数个数。

Claims (10)

1.融合多模态注意力机制的图像美学质量评价方法,其特征在于:包括以下步骤;
步骤S1:对美学图像数据集中的数据进行数据预处理,提取得到美学图像所对应文本的文本特征,并将数据集划分为训练集与测试集;
步骤S2:设计融合文本特征和图像特征的多模态注意力机制模块;
步骤S3:设计融合多模态注意力机制的图像美学评分分布预测网络,使用所设计的网络训练融合多模态注意力机制的图像美学评分分布预测网络模型;
步骤S4:将图像输入到训练好的融合多模态注意力机制的图像美学评分分布预测网络模型中,输出对应的图像美学评分分布,最后计算美学评分分布的平均值作为图像美学质量分数。
2.根据权利要求1所述的融合多模态注意力机制的图像美学质量评价方法,其特征在于:所述步骤S1包括以下步骤;
步骤S11:将美学图像数据集中的评论文本的全部单词转为小写,剔除停用词和数字。然后使用Glove预训练词向量为所有单词以及标点符号编码,得到所有评论文本的编码;
步骤S12:将所有评论文本编码按照对应的图像进行组织,属于同一幅图像的评论文本,将其评论文本编码按行排列,得到对应该幅图像的评论文本编码矩阵;
步骤S13:将S12步骤中得到的每一个评论文本编码矩阵的尺寸调整为固定值S×W。具体做法是对于每一个评论文本编码矩阵,将评论文本编码矩阵中长度超过S的部分删除,反之,则用特定字符补齐;将评论文本编码矩阵中宽度超过W的部分删除,反之,则用特定字符补齐;
步骤S14:将S13步骤中得到的评论文本编码矩阵输入到门控制循环单元网络中,得到每幅图像的文本特征,尺寸为C×S;
步骤S15:将数据集中的每幅图像缩放到固定尺寸H×W;
步骤S16:将数据集中的图像与其对应的文本特征按预设比例划分为训练集与测试集。
3.根据权利要求2所述的融合多模态注意力机制的图像美学质量评价方法,其特征在于:所述步骤S12中的特定字符为0。
4.根据权利要求2所述的融合多模态注意力机制的图像美学质量评价方法,其特征在于:所述步骤S2依次包括步骤S21、S22、S23和S24;
所述步骤S21具体为:将来自于多模态注意力机制模块前序模块的特征作为多模态注意力机制模块的输入,即将维度为C×hx×wx的图像特征FX分别输入到两个1×1的卷积层中,提取关键点特征和图像投影特征,提取关键点特征k和图像投影特征v的表达式为:
k=w1(FX)+b1
v=w2(FX)+b2
其中,FX为输入的图像特征;w1,b1是对应提取关键点特征的1×1卷积层的权重和偏置;w2,b2是对应提取图像投影特征的1×1卷积层的权重和偏置;
然后调整关键点特征k和图像投影特征v的维度;k与v的原维度都为C×hx×wx,维度调整后为heads×c×hx×wx,其中C=heads×c。
5.根据权利要求4所述的融合多模态注意力机制的图像美学质量评价方法,其特征在于:所述步骤S22具体为:调整S14步骤中得到的维度为C×S的文本特征,得到维度为C×hx×wx文本特征Q,其中,S=hx×wx
然后将Q分别输入到heads个1×1卷积层中,得到heads个文本输出特征,分别为q1,q2,…,qheads。其中,1×1卷积层将维度为C×hx×wx的文本特征降维为维度为c×hx×wx的特征,且C=heads×c。然后将heads个文本输出特征拼接在一起,拼接后的文本特征q的维度为heads×c×hx×wx。文本特征q的计算公式为:
q1=w1(Q)+b1
q2=w2(Q)+b2
……
qbeads=wheads(Q)+bheads
q=Contact(q1,q2,…,qheads)
其中,qi表示经过第i个1×1卷积层的输出特征,wi,bi是对应第i个1×1卷积层的权重和偏置,Concat(·)表示特征在新的维度上进行拼接。
6.根据权利要求5所述的融合多模态注意力机制的图像美学质量评价方法,其特征在于:所述步骤S23具体为:随机初始化高度位置特征Rh和宽度位置特征Rw;其中,Rh维度为heads×c×hx×1,Rw维度为heads×c×1×wx;将Rh和Rw按矩阵加法的方式相加,计算出位置特征r,其维度为heads×c×hx×wx
7.根据权利要求6所述的融合多模态注意力机制的图像美学质量评价方法,其特征在于:所述步骤S24具体为:将S21步骤得出的关键点特征和图像投影特征,S22步骤得出的文本特征以及S23步骤得出的位置特征通过激活函数与多个矩阵计算,得到融合文本特征的图像特征,计算公式为:
Figure FDA0003216267800000031
Figure FDA0003216267800000032
其中,q表示文本特征矩阵,rT表示位置特征矩阵r的转置,kT表示关键点特征矩阵k的转置,v表示图像投影特征矩阵,
Figure FDA0003216267800000033
表示矩阵乘法,
Figure FDA0003216267800000034
表示矩阵加法,Softmax(·)表示Softmax激活函数;
最后,将维度为heads×c×hx×wx的图像特征z的大小调整为C×hx×wx,其中C=heads×c。
8.根据权利要求1所述的融合多模态注意力机制的图像美学质量评价方法,其特征在于:所述步骤S3具体包括以下步骤;
步骤S31:从图像分类网络中选取一种为基础即作为基准网络使用,将S2步骤中设计的注意力模块插入到基准网络平均池化模块之前,并将基准网络的最后一层替换成全连接层和激活层;全连接层输出的分类数为A,A为美学评分分数集合中分数的个数;
步骤S32:将经过步骤S1的训练集中的一个批次的图像和对应文本特征输入到S31步骤中的模型,预测得到图像美学评分分布
Figure FDA0003216267800000041
步骤S33:根据融合多模态注意力机制的图像美学质量评价网络的损失函数,利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度,并利用随机梯度下降方法更新参数;
融合注意力机制的多模态图像美学质量评价网络的损失函数如下:
Figure FDA0003216267800000042
其中,DKL(·||·)为KL散度,
Figure FDA0003216267800000043
表示图像经过融合注意力机制的多模态图像美学质量评价网络得到的美学评分分布,x表示图像真实的美学评分分布;
步骤S34:以批次为单位重复上述步骤S32至步骤S33,直至步骤S33中计算得到的损失值收敛并趋于稳定,保存网络参数,完成融合注意力机制的多模态图像美学质量评价网络的训练过程。
9.根据权利要求8所述的融合多模态注意力机制的图像美学质量评价方法,其特征在于:所述步骤S31中的图像分类网络包括ResNet50或VGG16;当评分分数集合为{1,2,…,10}时,A为10。
10.根据权利要求1所述的融合多模态注意力机制的图像美学质量评价方法,其特征在于:所述步骤S4中包括以下步骤;
步骤S41:将测试集中的图像和对应文本特征输入到训练好的融合多模态注意力机制的图像美学质量评价网络模型,输出对应的图像美学评分分布p;
步骤S42:计算美学评分分布p的平均值,得到图像美学质量分数μ。计算公式如下:
Figure FDA0003216267800000044
其中,
Figure FDA0003216267800000051
表示评分为si的概率,si表示第i个得分,A表示分数个数。
CN202110944392.7A 2021-08-17 2021-08-17 融合多模态注意力机制的图像美学质量评价方法 Active CN113657380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110944392.7A CN113657380B (zh) 2021-08-17 2021-08-17 融合多模态注意力机制的图像美学质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110944392.7A CN113657380B (zh) 2021-08-17 2021-08-17 融合多模态注意力机制的图像美学质量评价方法

Publications (2)

Publication Number Publication Date
CN113657380A true CN113657380A (zh) 2021-11-16
CN113657380B CN113657380B (zh) 2023-08-18

Family

ID=78491743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110944392.7A Active CN113657380B (zh) 2021-08-17 2021-08-17 融合多模态注意力机制的图像美学质量评价方法

Country Status (1)

Country Link
CN (1) CN113657380B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549850A (zh) * 2022-01-24 2022-05-27 西北大学 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114724012A (zh) * 2022-06-10 2022-07-08 天津大学 基于时空跨尺度注意力融合热带不稳定波预警方法及装置
CN117437211A (zh) * 2023-11-20 2024-01-23 电子科技大学 一种基于双偏置校准学习的低成本图像质量评价方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889430A (zh) * 2019-10-24 2020-03-17 中国科学院计算技术研究所 基于多域视觉特征的新闻图像检测方法及系统、装置
US20210012150A1 (en) * 2019-07-11 2021-01-14 Xidian University Bidirectional attention-based image-text cross-modal retrieval method
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112580636A (zh) * 2020-12-30 2021-03-30 杭州电子科技大学 一种基于跨模态协同推理的图像美学质量评价方法
CN112613303A (zh) * 2021-01-07 2021-04-06 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN112767386A (zh) * 2021-02-01 2021-05-07 福州大学 基于主题特征和评分分布的图像美学质量评价方法及系统
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210012150A1 (en) * 2019-07-11 2021-01-14 Xidian University Bidirectional attention-based image-text cross-modal retrieval method
CN110889430A (zh) * 2019-10-24 2020-03-17 中国科学院计算技术研究所 基于多域视觉特征的新闻图像检测方法及系统、装置
CN112348075A (zh) * 2020-11-02 2021-02-09 大连理工大学 一种基于情景注意力神经网络的多模态情感识别方法
CN112580636A (zh) * 2020-12-30 2021-03-30 杭州电子科技大学 一种基于跨模态协同推理的图像美学质量评价方法
CN112613303A (zh) * 2021-01-07 2021-04-06 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN112767386A (zh) * 2021-02-01 2021-05-07 福州大学 基于主题特征和评分分布的图像美学质量评价方法及系统
CN113095415A (zh) * 2021-04-15 2021-07-09 齐鲁工业大学 一种基于多模态注意力机制的跨模态哈希方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
牛斌等: "《一种基于注意力机制与多模态的图像描述方法》", 《辽宁大学学报(自然科学版)》, vol. 46, no. 1, pages 38 - 45 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549850A (zh) * 2022-01-24 2022-05-27 西北大学 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114549850B (zh) * 2022-01-24 2023-08-08 西北大学 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114724012A (zh) * 2022-06-10 2022-07-08 天津大学 基于时空跨尺度注意力融合热带不稳定波预警方法及装置
CN114724012B (zh) * 2022-06-10 2022-08-23 天津大学 基于时空跨尺度注意力融合热带不稳定波预警方法及装置
CN117437211A (zh) * 2023-11-20 2024-01-23 电子科技大学 一种基于双偏置校准学习的低成本图像质量评价方法

Also Published As

Publication number Publication date
CN113657380B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108664967B (zh) 一种多媒体页面视觉显著性预测方法及系统
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN109544524A (zh) 一种基于注意力机制的多属性图像美学评价系统
CN109992779B (zh) 一种基于cnn的情感分析方法、装置、设备及存储介质
CN113657380A (zh) 融合多模态注意力机制的图像美学质量评价方法
CN110781680A (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成系统及方法
Wen et al. Dynamic interactive multiview memory network for emotion recognition in conversation
CN112348191B (zh) 一种基于多模态表示学习的知识库补全方法
Zhang et al. Deep Learning+ Student Modeling+ Clustering: A Recipe for Effective Automatic Short Answer Grading.
CN115601772B (zh) 一种基于多模态学习的美学质量评价模型和方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN112767386B (zh) 基于主题特征和评分分布的图像美学质量评价方法及系统
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN116844179A (zh) 基于多模态交叉注意力机制图文融合的情感分析方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN114154839A (zh) 一种基于在线教育平台数据的课程推荐方法
CN113033693A (zh) 一种融合用户主观属性的个性化图像美学评价方法及装置
CN117237479A (zh) 基于扩散模型的产品风格自动生成方法、装置及设备
US11756244B1 (en) System and method for handwriting generation
CN113157889A (zh) 一种基于主题损失的视觉问答模型构建方法
Wu et al. Question-driven multiple attention (dqma) model for visual question answer
CN113158872A (zh) 一种在线学习者情绪识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant