CN113657380A

CN113657380A - 融合多模态注意力机制的图像美学质量评价方法

Info

Publication number: CN113657380A
Application number: CN202110944392.7A
Authority: CN
Inventors: 牛玉贞; 宋冰蕊; 陈珊珊
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-08-17
Filing date: 2021-08-17
Publication date: 2021-11-16
Anticipated expiration: 2041-08-17
Also published as: CN113657380B

Abstract

本发明提出融合多模态注意力机制的图像美学质量评价方法，包括以下步骤；步骤S1：对美学图像数据集中的数据进行数据预处理，提取美学图像所对应文本的文本特征，并将数据集划分为训练集与测试集；步骤S2：设计融合文本特征和图像特征的多模态注意力机制模块；步骤S3：设计融合多模态注意力机制的图像美学评分分布预测网络，使用该网络训练融合多模态注意力机制的图像美学评分分布预测网络模型；步骤S4：将图像输入到融合多模态注意力机制的图像美学评分分布预测网络模型中，输出对应的图像美学评分分布，最后计算美学评分分布的平均值作为图像美学质量分数；本发明能实现视觉特征与美学文本特征相互指导与融合，提高图像美学质量评估方法的性能。

Description

融合多模态注意力机制的图像美学质量评价方法

技术领域

本发明涉及图像处理以及计算机视觉技术领域，尤其是融合多模态注意力机制的图像美学质量评价方法。

背景技术

随着多媒体技术的迅速发展，可视内容数据与日俱增，人们接受信息的方式逐渐多元化。其中图像以其直观、包含信息量大等优点受到人们的欢迎。人们往往会达成一种共识，即一些图像在视觉上比其他图像更有吸引力，而图像美学质量衡量了在人类眼中一幅图像的视觉吸引力。人们都希望自己获得的图像是具有较高的视觉美学质量，因此人们探索如何用可计算技术来预测人类对视觉刺激产生的情绪反应，使计算机模仿人类的审美过程，用可计算方法来自动预测图像的美学质量，使得计算机能够发现图像的美并且能理解图像的美。我们利用计算机自动评价图像的美感，从大量的图片中筛选出符合人类审美的图像，减少因为图像质量的参差不齐带来的影响。但是美学的主观性决定了图像美学质量评价是一个非常具有挑战性的任务。视觉美学往往涉及情感、个人品味等主观因素，需要计算美学与计算机视觉、心理学等领域交叉研究，这使得如何提取和构造有效的图像美学特征成为最大难点。

图像美学质量评价方法目前分为基于人工设计美学特征的方法与基于美学特征深度学习的方法。基于人工设计美学特征的方法通过手工设计和美学质量相关的多种图像特征去拟合人类对图像美学质量的评价结果，然后结合有效的机器学习算法将特征和美感进行映射。他们首先在图像数据集上提取这些手工设计的特征，然后利用，如K算法近邻分类、回归分析等机器学习方法进行分类与回归。但是手工设计的特征有其局限性，因为不同类型的图像内容具有不同的美学特征，对评分效果产生了很大的影响。

目前图像美学质量评价的研究工作进入了深度学习时代，我们利用深度学习自动提取图像的美学特征。借助深度学习强大的自动特征学习能力，人们不需要丰富的图像美学知识和心理学知识就可以自动提取图像美学特征。近年来，研究人员对用于图像识别的多种卷积神经网络进行改造，并将图像内容、图像风格等额外信息应用于改造后的卷积神经网络中。这些深度卷积神经网络在图像美学评价方面展现出了良好的性能。但是过去绝大多数基于深度学习的图像美学质量评价方法只局限于学习视觉特征。我们发现美学数据集中图像对应的用户评论解释了他们给图像打分的理由，包含了与图像有关的重要信息，可以用来辅佐美学图像质量评价。所以我们可以充分利用和挖掘这些文本特征，设计出一个能够获得利用和挖掘文本特征的图像美学质量评估模型。我们提出融合注意力机制的多模态图像美学质量评价方法，可以有效的利用与图像有关的文本特征，实现视觉特征与美学文本特征相互指导与融合，提高图像美学质量评估方法的性能。

发明内容

本发明提出融合多模态注意力机制的图像美学质量评价方法，能实现视觉特征与美学文本特征相互指导与融合，提高图像美学质量评估方法的性能。

本发明采用以下技术方案。

融合多模态注意力机制的图像美学质量评价方法，包括以下步骤；

步骤S1：对美学图像数据集中的数据进行数据预处理，提取得到美学图像所对应文本的文本特征，并将数据集划分为训练集与测试集；

步骤S2：设计融合文本特征和图像特征的多模态注意力机制模块；

步骤S3：设计融合多模态注意力机制的图像美学评分分布预测网络，使用所设计的网络训练融合多模态注意力机制的图像美学评分分布预测网络模型；

步骤S4：将图像输入到训练好的融合多模态注意力机制的图像美学评分分布预测网络模型中，输出对应的图像美学评分分布，最后计算美学评分分布的平均值作为图像美学质量分数。

所述步骤S1包括以下步骤；

步骤S11：将美学图像数据集中的评论文本的全部单词转为小写，剔除停用词和数字。然后使用Glove预训练词向量为所有单词以及标点符号编码，得到所有评论文本的编码；

步骤S12：将所有评论文本编码按照对应的图像进行组织，属于同一幅图像的评论文本，将其评论文本编码按行排列，得到对应该幅图像的评论文本编码矩阵；

步骤S13：将S12步骤中得到的每一个评论文本编码矩阵的尺寸调整为固定值S×W。具体做法是对于每一个评论文本编码矩阵，将评论文本编码矩阵中长度超过S的部分删除，反之，则用特定字符补齐；将评论文本编码矩阵中宽度超过W的部分删除，反之，则用特定字符补齐；

步骤S14：将S13步骤中得到的评论文本编码矩阵输入到门控制循环单元(GateRecurrent Unit，GRU)网络中，得到每幅图像的文本特征，尺寸为C×S；

步骤S15：将数据集中的每幅图像缩放到固定尺寸H×W；

步骤S16：将数据集中的图像与其对应的文本特征按预设比例划分为训练集与测试集。

所述步骤S12中的特定字符为0。

所述步骤S2依次包括步骤S21、S22、S23和S24；

所述步骤S21具体为：将来自于多模态注意力机制模块前序模块的特征作为多模态注意力机制模块的输入，即将维度为C×h_x×w_x的图像特征F_X分别输入到两个1×1的卷积层中，提取关键点特征和图像投影特征，提取关键点特征k和图像投影特征v的表达式为：

k＝w₁(F_X)+b₁

v＝w₂(F_X)+b₂

其中，F_X为输入的图像特征；w₁，b₁是对应提取关键点特征的1×1卷积层的权重和偏置；w₂，b₂是对应提取图像投影特征的1×1卷积层的权重和偏置；

然后调整关键点特征k和图像投影特征v的维度；k与v的原维度都为C×h_x×w_x，维度调整后为heads×c×h_x×w_x，其中C＝heads×c。

所述步骤S22具体为：调整S14步骤中得到的维度为C×S的文本特征，得到维度为C×h_x×w_x文本特征Q，其中，S＝h_x×w_x；

然后将Q分别输入到heads个1×1卷积层中，得到heads个文本输出特征，分别为q¹，q²，…，q^heads。其中，1×1卷积层将维度为C×h_x×w_x的文本特征降维为维度为c×h_x×w_x的特征，且C＝heads×c。然后将heads个文本输出特征拼接在一起，拼接后的文本特征q的维度为heads×c×h_x×w_x。文本特征q的计算公式为：

q¹＝w₁(Q)+b₁

q²＝w₂(Q)+b₂

……

q^heads＝w_heads(Q)+b_heads

q＝Contact(q¹，q²，…，q^heads)

其中，qⁱ表示经过第i个1×1卷积层的输出特征，w_i，b_i是对应第i个1×1卷积层的权重和偏置，Concat(·)表示特征在新的维度上进行拼接。

所述步骤S23具体为：随机初始化高度位置特征R_h和宽度位置特征R_w；其中，R_h维度为heads×c×h_x×1，R_w维度为heads×c×1×w_x；将R_h和R_w按矩阵加法的方式相加，计算出位置特征r，其维度为heads×c×h_x×w_x。

所述步骤S24具体为：将S21步骤得出的关键点特征和图像投影特征，S22步骤得出的文本特征以及S23步骤得出的位置特征通过激活函数与多个矩阵计算，得到融合文本特征的图像特征，计算公式为：

其中，q表示文本特征矩阵，r^T表示位置特征矩阵r的转置，k^T表示关键点特征矩阵k的转置，v表示图像投影特征矩阵，

表示矩阵乘法，

表示矩阵加法，Softmax(·)表示Softmax激活函数；

最后，将维度为heads×c×h_x×w_x的图像特征z的大小调整为C×h_x×w_x，其中C＝heads×c。

所述步骤S3具体包括以下步骤；

步骤S31：从图像分类网络中选取一种为基础即作为基准网络使用，将S2步骤中设计的注意力模块插入到基准网络平均池化模块之前，并将基准网络的最后一层替换成全连接层和激活层；全连接层输出的分类数为A，A为美学评分分数集合中分数的个数；

步骤S32：将经过步骤S1的训练集中的一个批次的图像和对应文本特征输入到S31步骤中的模型，预测得到图像美学评分分布

；

步骤S33：根据融合多模态注意力机制的图像美学质量评价网络的损失函数，利用反向传播方法计算图像美学评分分布预测的深度网络中各参数的梯度，并利用随机梯度下降方法更新参数；

融合注意力机制的多模态图像美学质量评价网络的损失函数如下：

其中，D_KL(·||·)为KL散度，

表示图像经过融合注意力机制的多模态图像美学质量评价网络得到的美学评分分布，x表示图像真实的美学评分分布；

步骤S34：以批次为单位重复上述步骤S32至步骤S33，直至步骤S33中计算得到的损失值收敛并趋于稳定，保存网络参数，完成融合注意力机制的多模态图像美学质量评价网络的训练过程。

所述步骤S31中的图像分类网络包括ResNet50或VGG16；当评分分数集合为{1，2，…，10}时，A为10。

所述步骤S4中包括以下步骤；

步骤S41：将测试集中的图像和对应文本特征输入到训练好的融合多模态注意力机制的图像美学质量评价网络模型，输出对应的图像美学评分分布p；

步骤S42：计算美学评分分布p的平均值，得到图像美学质量分数μ。计算公式如下：

其中，

表示评分为s_i的概率，s_i表示第i个得分，A表示分数个数。

本发明通过有效的利用与图像有关的文本特征，能实现视觉特征与美学文本特征相互指导与融合，提高图像美学质量评估方法的性能。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

附图1是本发明方法的实现流程示意图；

附图2是本发明实施例中网络模型结构示意图；

附图3是本发明实施例中的多模态注意力机制模块结构示意图。

具体实施方式

如图所示，融合多模态注意力机制的图像美学质量评价方法，包括以下步骤；

所述步骤S1包括以下步骤；

步骤S15：将数据集中的每幅图像缩放到固定尺寸H×W；

所述步骤S12中的特定字符为0。

所述步骤S2依次包括步骤S21、S22、S23和S24；

k＝w₁(F_X)+b₁

v＝w₂(F_X)+b₂

其中，F_X为输入的图像特征；w₁，b_i是对应提取关键点特征的1×1卷积层的权重和偏置；w₂，b₂是对应提取图像投影特征的1×1卷积层的权重和偏置；

q¹＝w₁(Q)+b₁

q²＝w₂(Q)+b₂

……

q^heads＝w_heads(Q)+b_heads

q＝Contact(q¹，q²，…，q^heads)

表示矩阵乘法，

表示矩阵加法，Softmax(·)表示Softmax激活函数；

所述步骤S3具体包括以下步骤；

其中，D_KL(·||·)为KL散度，

所述步骤S4中包括以下步骤；

其中，

表示评分为s_i的概率，s_i表示第i个得分，A表示分数个数。

Claims

1.融合多模态注意力机制的图像美学质量评价方法，其特征在于：包括以下步骤；

2.根据权利要求1所述的融合多模态注意力机制的图像美学质量评价方法，其特征在于：所述步骤S1包括以下步骤；

步骤S14：将S13步骤中得到的评论文本编码矩阵输入到门控制循环单元网络中，得到每幅图像的文本特征，尺寸为C×S；

步骤S15：将数据集中的每幅图像缩放到固定尺寸H×W；

3.根据权利要求2所述的融合多模态注意力机制的图像美学质量评价方法，其特征在于：所述步骤S12中的特定字符为0。

4.根据权利要求2所述的融合多模态注意力机制的图像美学质量评价方法，其特征在于：所述步骤S2依次包括步骤S21、S22、S23和S24；

k＝w₁(F_X)+b₁

v＝w₂(F_X)+b₂

5.根据权利要求4所述的融合多模态注意力机制的图像美学质量评价方法，其特征在于：所述步骤S22具体为：调整S14步骤中得到的维度为C×S的文本特征，得到维度为C×h_x×w_x文本特征Q，其中，S＝h_x×w_x；

q¹＝w₁(Q)+b₁

q²＝w₂(Q)+b₂

……

q^beads＝w_heads(Q)+b_heads

q＝Contact(q¹，q²，…，q^heads)

6.根据权利要求5所述的融合多模态注意力机制的图像美学质量评价方法，其特征在于：所述步骤S23具体为：随机初始化高度位置特征R_h和宽度位置特征R_w；其中，R_h维度为heads×c×h_x×1，R_w维度为heads×c×1×w_x；将R_h和R_w按矩阵加法的方式相加，计算出位置特征r，其维度为heads×c×h_x×w_x。

7.根据权利要求6所述的融合多模态注意力机制的图像美学质量评价方法，其特征在于：所述步骤S24具体为：将S21步骤得出的关键点特征和图像投影特征，S22步骤得出的文本特征以及S23步骤得出的位置特征通过激活函数与多个矩阵计算，得到融合文本特征的图像特征，计算公式为：

表示矩阵乘法，

表示矩阵加法，Softmax(·)表示Softmax激活函数；

8.根据权利要求1所述的融合多模态注意力机制的图像美学质量评价方法，其特征在于：所述步骤S3具体包括以下步骤；

其中，D_KL(·||·)为KL散度，

9.根据权利要求8所述的融合多模态注意力机制的图像美学质量评价方法，其特征在于：所述步骤S31中的图像分类网络包括ResNet50或VGG16；当评分分数集合为{1，2，…，10}时，A为10。

10.根据权利要求1所述的融合多模态注意力机制的图像美学质量评价方法，其特征在于：所述步骤S4中包括以下步骤；

其中，

表示评分为s_i的概率，s_i表示第i个得分，A表示分数个数。