CN112613303B

CN112613303B - 一种基于知识蒸馏的跨模态图像美学质量评价方法

Info

Publication number: CN112613303B
Application number: CN202110020656.XA
Authority: CN
Inventors: 牛玉贞; 甘伟泽; 陈志贤; 刘文犀
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-01-07
Filing date: 2021-01-07
Publication date: 2023-02-21
Anticipated expiration: 2041-01-07
Also published as: CN112613303A

Abstract

本发明涉及一种基于知识蒸馏的跨模态图像美学质量评价方法。包括以下步骤：S1：设计图文多模态美学质量评价的教师网络；S2：设计用于图像美学质量评价的学生网络；S3：设计用于进行对抗训练的判别器网络；S4：设计用于训练教师网络和学生网络的损失函数；S5：使用损失函数对步骤S1、S2及S3所设计网络进行训练；S6：将用于测试的图像输入训练好的学生网络预测其美学质量。本发明方法能显著提高美学质量预测精度。

Description

一种基于知识蒸馏的跨模态图像美学质量评价方法

技术领域

本发明涉及图像处理以及计算机视觉领域，特别是一种基于知识蒸馏的跨模态图像美学质量评价方法。

背景技术

在美学视觉分析数据集(Aesthetic Visual Analysis,AVA)中，里面的图像来自于各种大型图像分享网站，允许用户对图像进行评论，有些评论会体现用户打分的理由，这些评论解释了图像评分的依据以及描述了造成图像高美感或者低美感的关键因素，包含着更准确的美学信息。因此，学者们开始研究跨模态的学习机制，Zhou等人创建了文本数据集AVA-COMMENTS,建立多模态玻尔兹曼机来实现视觉特征和文本特征的联合特征表示学习；Hii等人使用inception模块来学习视觉特征，同时从简单的2层GRU中学习来自关联用户评论的文本特征，然后将其与视觉网络的输出拼接起来，训练和预测图像的美学分类结果；Zhang等人先用卷积网络抽取图像特征，再使用长短期记忆网络迭代的抽取重要的视觉特征，去除不相关的信息，使用网络抽取文本特征，最后融合图像和文本特征进行美学预测。考虑到真实场景下往往仅能提供图像，无法获取成对的图像和文本，因此还需要设计一个算法使得多模态知识能够迁移到单一图像模态网络中。本发明的目标便是从多模态图文教师网络中提炼出丰富而强大的美学知识，以此来学习高效的学生网络。由于文本和图像的数据分布不同，处理图像的卷积网络与处理文本的BiGRU网络的结构存在差异，得到的图像特征和文本特征之间存在明显的语义鸿沟，语义空间存在不同。如果直接让学生网络使用传统的蒸馏方式去模仿教师网络的输出，会难以学习到高效的特征表示。将教师网络丰富的美学知识进行重构，使得学生网络通过知识蒸馏的模式可以更好的学习教师的隐藏特征。另一方面，学生网络根据重构模块得到的中间隐藏特征通过知识蒸馏进行学习，有助于学生网络学习到高效的、逼近教师特征的特征表达。特别地，本发明还结合了生成对抗思想使模型提取的特征尽可能与模态无关。

发明内容

本发明的目的在于提供一种基于知识蒸馏的跨模态图像美学质量评价方法，该方法能显著提高美学质量预测精度。

为实现上述目的，本发明的技术方案是：一种基于知识蒸馏的跨模态图像美学质量评价方法，包括以下步骤：

步骤S1、设计图文多模态美学质量评价的教师网络；

步骤S2、设计用于图像美学质量评价的学生网络；

步骤S3、设计用于进行对抗训练的判别器网络；

步骤S4、设计用于训练教师网络和学生网络的损失函数；

步骤S5、使用损失函数对步骤S1、S2及S3所设计网络进行训练；

步骤S6、将用于测试的图像输入训练好的学生网络预测其美学质量。

在本发明一实施例中，所述步骤S1具体包括以下步骤：

步骤S11、使用图像美学质量评价数据集AVA，对图像进行预处理，对于每一幅图像，先缩放到256×256，然后随机裁剪成224×224；预处理后的图像输入到特征提取模块，特征提取模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层，提取conv5_x层的特征，记为ψ_s；

步骤S12、美学文本数据集AVA-COMMENTS中包含用户对数据集AVA中图像的评论，使用美学文本数据集AVA-COMMENTS，对美学文本数据进行预处理：首先，使用标准的自然语言处理技术清洗文本噪声；然后，将每个文本样本先分句，再分词，具体即将每幅图像对应的评论文本中的句子数量统一为S，每个句子包含的单词数量统一为T；

步骤S13、设计一个提取文本特征的双向门控循环单元网络BiGRU；

首先，对于由单词序列w_it组成的句子，w_it表示第i个句子中的第t个单词，利用GloVe字典的映射关系W_e，把单词转化为词向量x_it，公式如下所示：

x_it＝W_ew_it，t∈[1，T],i∈[1，S]

其中，S是每幅图像对应的句子数量，T是句子中的单词数量；

然后，使用BiGRU网络对文本中的各个词向量x_it进行编码，BiGRU网络从词向量的两个方向汇总信息来获取单词的表示，因此能够将上下文信息合并到单词的表示中，获得隐藏层输出，公式如下所示：

式中，

表示对于第i个句子，BiGRU网络从x_i1到x_iT的方向进行处理，

表示对于第i个句子，BiGRU网络从x_iT到x_i1的方向进行处理；

对于第i个句子中的一个给定的单词向量x_it，经过BiGRU网络编码后，获得了一种新的表示

h_it包含了x_it上下文两个方向的信息；然后对第i个句子中的所有单词的表示h_it直接求和以形成句子向量s_i，如下所示：

s_i＝∑_th_it，t∈[1，T]

再将句子向量拼接在一起得到文本的全局特征ψ_t，维度为(S，D_t)，也就是每个文本样本有S句评论，每句评论是D_t维；

步骤S14、设计一个自注意力模块；对于第i个图像文本对，图像I_i来自于AVA，文本C_i是AVA-COMMENTS中与图像I_i对应的评论文本；通过上述步骤获得相应图像文本对所对应的图像特征ψ_s和文本特征ψ_t，分别记为

和

文本特征

经过1个全连接层完成线性变换，相当于经过1个嵌入权重变换W_t，得到矩阵维度为(S，D′_t)，公式如下所示：

其中，

表示文本特征

经过线性变换后的特征矩阵；

图像特征

的维度是(H，W，D_m)，经过1个全连接层完成线性变换，相当于经过一个嵌入权重变换W_m，转换成维度为(H×W，D′_m)的矩阵，公式如下所示：

其中，

表示图像特征

经过线性变换后的特征矩阵；

对

和

两个矩阵做矩阵乘法，也就是内积，内积结果体现向量之间的相似度，内积结果大说明句子和图像区域响应程度高，得到维度为(H×W，S)的相似度矩阵

公式如下所示：

其中，上标T表示转置；

对于维度为(H×W，，S)相似度矩阵

首先，按照行进行softmax归一化，表示当前文本与所有图像区域的归一化相关性，用转置后的维度为(D′_m，H×W)的图像特征

与归一化后的相似度矩阵做矩阵乘法，也就是将相似度矩阵作用到特征图的所有对应区域的D′_m向量上，将矩阵乘法的结果转置后得到维度为(S，D′_m)的特征，代表的是每句文本和所有图像特征的加权平均值，最后与输入的文本特征

相加，得到增强的文本特征

同时，对于维度为(H×W，S)相似度矩阵

按照列归一化，表示当前图像区域对所有文本的归一化相关性，再与维度为(S，D′_t)的文本特征

做矩阵乘法，也就是将相似度矩阵作用到了所有文本的D′_t向量上；得到维度为(H×W，D′_t)的特征，代表的是每个图像区域和所有文本特征的加权平均值，最后与输入的图像特征

相加，得到增强的图像特征

步骤S15、使用双线性池化MFB来高效地融合多模态的特征：首先，使用全连接层将视觉特征

和文本特征

映射成高维向量，然后两个高维向量逐元素相乘，并使用池化层降维，得到融合后的特征Q，最后经过1个全连接层得到美学评分分布预测。

在本发明一实施例中，所述步骤S2具体包括以下步骤：

步骤S21、设计一个编码器-解码器结构；编码器的输入特征为教师网络得到的增强的文本特征

编码器可以将输入特征编码成具有全局美学语义信息的潜在编码隐向量

解码器则是要将

重建输入特征；在编码器部分，使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活进行特征提取；在解码器部分，使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活来重建特征；

步骤S22、设计一个学生网络；学生网络包含一个Resnet50网络、转换器网络和1个用于美学评分分布预测的全连接层；对于一个输入图像，首先经过步骤S11进行图像预处理，然后输入到特征提取模块，特征提取模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层和平均池化层，提取平均池化层的特征，记为α_stu，再经由转换器网络得到特征

再输入给全连接层用于预测美学分布；其中，转换器网络是2层全连接层网络，每层由线性变换层和带泄漏修正线性单元LeakRelu激活组成，转换器网络的作用是将学生特征

投影到和编码隐向量

同一个语义空间。

在本发明一实施例中，所述步骤S3具体实现如下：

设计一个模态分类器D作为判别器，判别器参数为θ_D，判别器用来判断输入的特征属于教师特征模态还是学生特征模态，做一个二分类任务；判别器由3层全连接层网络组成，每层包含一个线性变换层和Relu激活函数。

在本发明一实施例中，所述步骤S4具体包括以下步骤：

步骤S41、设计一个美学评分分布损失，使用基于累积分布函数的损失函数L_Js，公式如下：

其中，M_p(i)和M_L(i)分别是学生网络或教师网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率，i对应美学评分取值1，2，…Z，Z是数据集中评分取值的个数；

步骤S42、设计用于知识蒸馏的损失函数；具体有3个部分组成：重建损失，蒸馏损失，对抗损失；

对于重建损失，文本增强特征

经过编码器得到一个编码隐向量，再经过解码器重建特征，重建损失采用的是L2均方误差，公式如下所示：

其中，E(·)代表编码器，G(·)代表解码器，编码器的输出特征也是解码器的输入特征，同为

解码器的输出特征为

维度与

相同；

对于蒸馏损失，学生网络经由转换器得到的特征

利用知识蒸馏与教师特征

进行语义的对齐；蒸馏损失采用的是L2均方误差，公式如下所示：

对于对抗损失，由于使用蒸馏损失不能完全解决模态特征的异构问题，教师特征与学生特征之间的语义鸿沟使得蒸馏效果受到限制，因此利用一个模态分类器来消除教师特征与学生特征中与模态相关的信息；判别器D的二分类交叉熵损失作为判别损失，公式如下所示：

L_D＝-(y_ilogD(v_i；θ_D)+(1-y_i)logD(t_i；θ_D))

式中，对于第i个待判断模态类型的特征，y_i表示该特征的模态标签，若特征的模态标签是学生模态则y_i为1，若特征的模态标签是教师模态则y_i为0，θ_D是判别器的参数，v_i是学生模态的特征，t_i是教师模态的特征，D(v_i；θ_D)表示判别器所预测的特征属于学生模态的概率，D(t_i；θ_D)表示判别器所预测的样本i属于教师模态的概率。

步骤S43、根据预测的评分分布计算美学分类任务和回归任务的结果；

对于得到的学生网络的预测的评分分布M_P(i)，加权求和得到美学评分As的公式如下：

其中，M_P(i)是评分取值为i分的概率，i是取值，i∈[1，Z]；

美学分类是一个二分类任务，以Z/2分作为临界点，低于Z/2分的图像标注为不具备美感，大于等于Z/2分的标注为具备美感，美学分类标签Ac公式如下：

在本发明一实施例中，所述步骤S5具体实现如下：

设计训练过程；先使用美学分布损失L_js对图文多模态美学质量评价的教师网络进行预训练，训练完毕后，参数冻结；然后，用于知识蒸馏的对抗训练分成生成阶段与判别阶段，2个阶段交替训练；生成阶段要优化编码器-解码器以及学生网络的参数，判别阶段仅优化判别器的参数；对于生成阶段，学生网络受到3个损失的监督，分别是美学分布损失L_js、蒸馏损失L_dis和判别损失L_D，编码器-解码器受到3个损失的监督，分别是重建损失L_rec、蒸馏损失L_dis和判别损失L_D；对于判别阶段，使用判别损失L_D优化判别器；在生成阶段，学生网络生成特征

编码器生成特征

训练目标是使得判别器无法判断出特征属于学生模态特征还是教师模态特征；在判别阶段，判别器要尽可能正确判断出特征的模态类别，最终在对抗中达到平衡，消除特征的模态信息；

判别阶段损失函数就是L_D；生成阶段损失函数如下所示：

L_G＝λ_jsL_js+λ_disL_dis+λ_recL_rec-λ_DL_D

其中，λ_js，λ_dis，λ_rec，和λ_D分别是美学评分分布损失、蒸馏损失、重建损失和对抗损失的权重参数。

在本发明一实施例中，该方法对于输入的任意图像及其对应的美学评论进行美学质量评价的过程为：首先对于输入的任意图像及其对应的美学评论，使用步骤S1预训练一个图文多模态美学质量评价的教师网络；然后使用步骤S21中的编码器-解码器重建特征，同时图像单独输入步骤S22中的学生网络，然后使用步骤S31判别器以及步骤S4的损失函数，通过步骤S5训练出学生网络；对于新输入的待预测图像，输入学生网络，便可得到网络所预测的美学评分分布以及图像的分类和评分预测结果。

相较于现有技术，本发明具有以下有益效果：本发明的目标在于解决图文多模态网络只能接受成对的图像文本输入的问题。基于多模态的方法存在一个局限，只能输入成对的图像与文本，与真实场景下往往仅存在图像的情况违背；另外，视觉特征和文本特征之间存在明显的语义鸿沟，语义空间存在不同，如果直接让学生网络使用传统的知识蒸馏方式去模仿教师网络的输出，难以得到理想的性能。本发明利用特征重构从高效的教师网络中提炼出美学语义信息丰富并且利于学生网络学习的特征，并利用生成对抗策略来学习出高效的学生网络。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的图文多模态美学质量评价网络。

图3为本发明实施例的学生网络。

图4为本发明实施例的知识蒸馏学习框架。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供一种基于知识蒸馏的跨模态图像美学质量评价方法，包括以下步骤：

步骤S1：设计图文多模态美学质量评价的教师网络；

步骤S2：设计用于图像美学质量评价的学生网络；

步骤S3：设计用于进行对抗训练的判别器网络；

步骤S4：设计用于训练教师网络和学生网络的损失函数；

步骤S5：使用损失函数对步骤S1、S2及S3所设计网络进行训练；

步骤S6：将用于测试的图像输入训练好的学生网络预测其美学质量。

如图2所示，在本实施例中，所述步骤S1具体包括以下步骤：

步骤S11、使用图像美学质量评价数据集AVA，对图像进行预处理，对于每一幅图像，先缩放到256×256，然后随机裁剪成224×224；预处理后的图像输入到特征提取模块，该模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层，提取conv5_x层的特征，记为ψ_s；

步骤S12、美学文本数据集AVA-COMMENTS中包含了用户对数据集AVA中图像的评论，使用美学文本数据集AVA-COMMENTS，对美学文本数据进行预处理；首先，使用标准的自然语言处理技术清洗文本噪声，在文本数据集AVA-COMMENTS所包含的用户评论中携带了一些明显的噪声，这些噪声包括书写错误、感叹词(比如"woooow")、额外的标点符号(比如"！！")等等；然后，将每个文本样本先分句，再分词，具体来说，每幅图像对应的评论文本中的句子数量统一为S，每个句子包含的单词数量统一为T，消除句子长度不同带来的不便，其中S＝26，T＝16；

步骤S13、设计一个提取文本特征的双向门控循环单元网络(Bi-directionalGated Recurrent Unit,BiGRU)；首先，对于由单词序列w_it(第i个句子中的第t个单词)组成的句子，利用通用的GloVe字典的映射关系W_e，把单词转化为词向量x_it，公式如下所示：

x_it＝W_ew_it，t∈[1，T],i∈[1，S]

其中，S是每幅图像对应的句子数量，T是句子中的单词数量。

然后，使用BiGRU网络对文本中的各个词向量x_it进行编码，网络从词向量的两个方向汇总信息来获取单词的表示，因此能够将上下文信息合并到单词的表示中，获得隐藏层输出，公式如下所示：

式中，

表示对于第i个句子，GRU从x_i1到x_iT的方向进行处理，

表示对于第i个句子，GRU从x_iT到x_i1的方向进行处理；

s_i＝∑_th_it，t∈[1，T]

再将句子向量拼接在一起得到文本的全局特征ψ_t，维度为(S，D_t),也就是每个文本样本有S句评论，每句评论是D_t维，D_t设置为2048；

步骤S14、设计一个自注意力模块；对于第i个图像文本对，图像I_i来自于AVA数据集，文本C_i是AVA-COMMENTS数据集中与图像I_i对应的评论文本。通过上述步骤获得该图像文本对所对应的图像特征ψ_s和文本特征ψ_t，分别记为

和

文本特征

经过1个全连接层完成线性变换，相当于经过1个嵌入权重变换W_t，得到矩阵维度为(S，D′_t)，D′_t设置为2048，公式如下所示：

其中，

表示文本特征

经过线性变换后的特征矩阵。

图像特征

的维度是(H，W，D_m)，经过1个全连接层完成线性变换，相当于经过一个嵌入权重变换W_m，转换成维度为(H×W，D′_m)的矩阵，H＝7，W＝7，D_m＝2048，D′_m＝2048，公式如下所示：

其中，

表示图像特征

经过线性变换后的特征矩阵。

对

和

两个矩阵做矩阵乘法，也就是内积，内积结果体现了向量之间的相似度，内积结果大说明句子和图像区域响应程度高，得到维度为(H×W，S)的相似度矩阵

公式如下所示：

其中，上标T表示转置。

对于维度为(H×W，S)相似度矩阵

与归一化后的相似度矩阵做矩阵乘法，也就是将相似度矩阵作用到了特征图的所有对应区域的D′_m向量上，将矩阵乘法的结果转置后得到维度为(S，D′_m)的特征，代表的是每句文本和所有图像特征的加权平均值，最后与输入的文本特征

相加，得到增强的文本特征

同时，对于维度为(H×W，S)相似度矩阵

做矩阵乘法，也就是将相似度矩阵作用到了所有文本的D′_t向量上。得到维度为(H×W，D′_t)的特征，代表的是每个图像区域和所有文本特征的加权平均值，最后与输入的图像特征

相加，得到增强的图像特征

步骤S15、使用双线性池化(Multi-modal Factorized Bilinear pooling，MFB)来高效地融合多模态的特征。首先，使用全连接层将视觉特征

和文本特征

如图3所示，在本实施例中，所述步骤S2具体包括以下步骤：

解码器则是要将

步骤S22、设计一个学生网络；学生网络包含一个Resnet50网络、转换器网络和1个用于美学评分分布预测的全连接层；对于一个输入图像，首先经过步骤S11进行图像预处理，然后输入到特征提取模块，该模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层和平均池化层，提取平均池化层的特征，记为α_stu，再经由转换器网络得到特征

再输入给全连接层用于预测美学分布；其中，转换器网络是2层全连接层网络，每层由线性变换层和带泄漏修正线性单元Leak Relu激活组成，转换器网络的作用是将学生特征

投影到和编码隐向量

同一个语义空间，

和

的维度都为256。

在本实施例中，所述步骤S3具体包括以下步骤：

步骤S31、设计一个模态分类器D作为判别器，判别器参数为θ_D，判别器用来判断输入的特征属于教师特征模态还是学生特征模态，做一个二分类任务；判别器由3层全连接层网络组成，每层包含一个线性变换层和Relu激活函数。

如图4所示，在本实施例中，所述步骤S4具体包括以下步骤：

其中，M_p(i)和M_L(i)分别是学生网络或教师网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率，i对应美学评分取值1，2，…Z，Z是数据集中评分取值的个数,Z＝10；

对于重建损失，文本增强特征

解码器的输出特征为

维度与

相同；

对于蒸馏损失，学生网络经由转换器得到的特征

利用知识蒸馏与教师特征

进行语义的对齐。蒸馏损失采用的是L2均方误差，公式如下所示：

L_D＝-(y_ilogD(v_i；θ_D)+(1-y_i)logD(t_i；θ_D))

步骤S43、根据预测的评分分布计算美学分类任务和回归任务的结果。

其中，M_P(i)是评分取值为i分的概率，i是取值，i∈[1，Z]；

在本实施例中，所述步骤S5具体实现如下：

设计训练过程；先使用美学分布损失L_js对图文多模态网络进行预训练，训练完毕后，参数冻结。然后，用于知识蒸馏的对抗训练分成生成阶段与判别阶段，2个阶段交替训练；生成阶段要优化编码器-解码器以及学生网络的参数，判别阶段仅优化判别器的参数；对于生成阶段，学生网络受到3个损失的监督，分别是美学分布损失L_js、蒸馏损失L_dis和判别损失L_D，编码器-解码器受到3个损失的监督，分别是重建损失L_rec、蒸馏损失L_dis和判别损失L_D；对于判别阶段，使用判别损失L_D优化判别器。在生成阶段，学生网络生成特征

编码器生成特征

训练目标是使得判别器无法判断出特征属于学生模态特征还是教师模态特征。在判别阶段，判别器要尽可能正确判断出特征的模态类别，最终在对抗中达到平衡，消除特征的模态信息；

判别阶段损失函数就是L_D。生成阶段损失函数如下所示：

L_G＝λ_jsL_js+λ_disL_dis+λ_recL_rec-λ_DL_D

其中，λ_js，λ_dis，λ_rec和λ_D分别是美学评分分布损失、蒸馏损失、重建损失和对抗损失的权重参数，λ_js设置为1，λ_dis设置为5，λ_rec设置为1，λ_D设置为0.1。

综上所述，首先对于输入的任意图像及其对应的美学评论，使用步骤S1预训练一个图文多模态网络；然后使用步骤S21中的编码器-解码器重建特征，同时图像单独输入步骤S22中的学生网络，然后使用步骤S31判别器以及步骤S4的损失函数，通过步骤S5训练出学生网络。对于新输入的待预测图像，输入学生网络，便可得到网络所预测的美学评分分布以及图像的分类和评分预测结果。

较佳的，由于多模态网络存在成对输入的限制，本实施例提出了一种基于知识蒸馏的跨模态图像美学质量评价方法，将多模态教师网络学习到的特征知识迁移到仅有图像作为输入的学生网络中。由于文本特征和图像特征之间的特征空间与数据分布存在鸿沟，在训练阶段利用一种编码器-解码器模块来重建模态信息，并使用生成对抗策略，将教师网络与学生网络的特征转化为与模态无关的特征信息，使得学生网络能更好的学习多模态教师网络的知识。在测试阶段中模型只需要输入图像便可进行预测。综上所述，本实施例设计的一种基于知识蒸馏的跨模态图像美学质量评价方法能显著提高美学质量预测精度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于知识蒸馏的跨模态图像美学质量评价方法，其特征在于，包括以下步骤：

步骤S1、设计图文多模态美学质量评价的教师网络；

步骤S2、设计用于图像美学质量评价的学生网络；

步骤S3、设计用于进行对抗训练的判别器网络；

步骤S4、设计用于训练教师网络和学生网络的损失函数；

步骤S6、将用于测试的图像输入训练好的学生网络预测其美学质量；

所述步骤S1具体包括以下步骤：

步骤S11、使用图像美学质量评价数据集AVA，对图像进行预处理，对于每一幅图像，先缩放到256×256，然后随机裁剪成224×224；预处理后的图像输入到特征提取模块，特征提取模块使用Resnet50网络中的conv1_x,conv2_x,…,conv5_x层，提取conv5_x层的特征，记为ψ_s；

x_it＝W_ew_it,t∈[1,T],i∈[1,S]

式中，

表示对于第i个句子，BiGRU网络从x_i1到x_iT的方向进行处理，

表示对于第i个句子，BiGRU网络从x_iT到x_i1的方向进行处理；

s_i＝∑_th_it，t∈[1,T]

再将句子向量拼接在一起得到文本特征ψ_t，维度为(S,D_t)，也就是每个文本样本有S句评论，每句评论是D_t维；

和

文本特征

经过1个全连接层完成线性变换，相当于经过1个嵌入权重变换W_t，得到矩阵维度为(S,D'_t)，公式如下所示：

其中，

表示文本特征

经过线性变换后的特征矩阵；

图像特征

的维度是(H,W,D_m)，经过1个全连接层完成线性变换，相当于经过一个嵌入权重变换W_m，转换成维度为(H×W,D'_m)的矩阵，公式如下所示：

其中，

表示图像特征

经过线性变换后的特征矩阵；

对

和

两个矩阵做矩阵乘法，也就是内积，内积结果体现向量之间的相似度，内积结果大说明句子和图像区域响应程度高，得到维度为(H×W,S)的相似度矩阵

公式如下所示：

其中，上标T表示转置；

对于维度为(H×W,S)相似度矩阵

首先，按照行进行softmax归一化，表示当前文本与所有图像区域的归一化相关性，用转置后的维度为(D'_m,H×W)的

与归一化后的相似度矩阵做矩阵乘法，也就是将相似度矩阵作用到图像的所有对应区域的D'_m向量上，将矩阵乘法的结果转置后得到维度为(S,D'_m)的特征，代表的是每句文本和所有图像特征的加权平均值，最后与输入的文本特征

相加，得到增强的文本特征

同时，对于维度为(H×W,S)相似度矩阵

按照列归一化，表示当前图像区域对所有文本的归一化相关性，再与维度为(S,D'_t)的

做矩阵乘法，也就是将相似度矩阵作用到了所有文本的D'_t向量上；得到维度为(H×W,D'_t)的特征，代表的是每个图像区域和所有文本特征的加权平均值，最后与输入的图像特征

相加，得到增强的图像特征

步骤S15、使用双线性池化MFB来高效地融合多模态的特征：首先，使用全连接层将增强的图像特征

和增强的文本特征

映射成高维向量，然后两个高维向量逐元素相乘，并使用池化层降维，得到融合后的特征Q，最后经过1个全连接层得到美学评分分布预测；

所述步骤S2具体包括以下步骤：

编码器将输入特征编码成具有全局美学语义信息的潜在编码隐向量

解码器则是要将

步骤S22、设计一个学生网络；学生网络包含一个Resnet50网络、转换器网络和1个用于美学评分分布预测的全连接层；对于一个输入图像，首先经过步骤S11进行图像预处理，然后输入到特征提取模块，特征提取模块使用Resnet50网络中的conv1_x,conv2_x,…,conv5_x层和平均池化层，提取平均池化层的特征，记为α_stu，再经由转换器网络得到学生特征

再输入给全连接层用于预测美学分布；其中，转换器网络是2层全连接层网络，每层由线性变换层和带泄漏修正线性单元Leaky Relu激活组成，转换器网络的作用是将学生特征

投影到和编码隐向量

同一个语义空间；

所述步骤S3具体实现如下：

2.根据权利要求1所述的一种基于知识蒸馏的跨模态图像美学质量评价方法，其特征在于，所述步骤S4具体包括以下步骤：

对于重建损失，增强的文本特征

解码器的输出特征为

维度与

相同；

对于蒸馏损失，学生网络经由转换器得到的学生特征

利用知识蒸馏与编码隐向量

L_D＝-(y_ilogD(v_i；θ_D)+(1-y_i)logD(t_i；θ_D))

式中，对于第i个待判断模态类型的特征，y_i表示该特征的模态标签，若特征的模态标签是学生模态则y_i为1，若特征的模态标签是教师模态则y_i为0，θ_D是判别器的参数，v_i是学生模态的特征，t_i是教师模态的特征，D(v_i；θ_D)表示判别器所预测的特征属于学生模态的概率，D(t_i；θ_D)表示判别器所预测的样本i属于教师模态的概率；

其中，M_P(i)是评分取值为i分的概率，i是取值，i∈[1,Z]；

3.根据权利要求2所述的一种基于知识蒸馏的跨模态图像美学质量评价方法，其特征在于，所述步骤S5具体实现如下：

设计训练过程；先使用美学分布损失L_JS对图文多模态美学质量评价的教师网络进行预训练，训练完毕后，参数冻结；然后，用于知识蒸馏的对抗训练分成生成阶段与判别阶段，2个阶段交替训练；生成阶段要优化编码器-解码器以及学生网络的参数，判别阶段仅优化判别器的参数；对于生成阶段，学生网络受到3个损失的监督，分别是美学分布损失L_JS、蒸馏损失L_dis和判别损失L_D，编码器-解码器受到3个损失的监督，分别是重建损失L_rec、蒸馏损失L_dis和判别损失L_D；对于判别阶段，使用判别损失L_D优化判别器；在生成阶段，学生特征

编码隐向量

判别阶段损失函数就是L_D；生成阶段损失函数如下所示：

L_G＝λ_jsL_JS+λ_disL_dis+λ_recL_rec-λ_DL_D

其中，λ_js，λ_dis，λ_rec和λ_D分别是美学评分分布损失、蒸馏损失、重建损失和对抗损失的权重参数。

4.根据权利要求3所述的一种基于知识蒸馏的跨模态图像美学质量评价方法，其特征在于，该方法对于输入的任意图像及其对应的美学评论进行美学质量评价的过程为：首先对于输入的任意图像及其对应的美学评论，使用步骤S1预训练一个图文多模态美学质量评价的教师网络；然后使用步骤S21中的编码器-解码器重建特征，同时图像单独输入步骤S22中的学生网络，然后使用步骤S31判别器以及步骤S4的损失函数，通过步骤S5训练出学生网络；对于新输入的待预测图像，输入学生网络，便可得到网络所预测的美学评分分布以及图像的分类和评分预测结果。