CN115601772A

CN115601772A - 一种基于多模态学习的美学质量评价模型和方法

Info

Publication number: CN115601772A
Application number: CN202211611537.2A
Authority: CN
Inventors: 亓晋; 苏灿; 胡筱旋; 孙莹; 孙雁飞; 董振江; 许斌
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-01-13
Anticipated expiration: 2042-12-15
Also published as: CN115601772B

Abstract

本发明属于图像处理技术领域，公开了一种基于多模态学习的美学质量评价模型和方法，其根据文本信息和图像信息，在图像特征和文本特征提取后，基于跨越注意力机制，动态融合图像与文本之间的信息；在多模态学习的基础上使用Transformer作为骨干网络，不考虑传统的CNN方法，通过视觉和文本Transformer分别提取图像特征和高级语义，从而实现基于多模态学习的纯Transformer美学质量评价模型和方法。本发明有效提高了美学质量评价的准确率和其他评价指标；有利于促进美学应用，加快深度学习在未来美学领域的发展。

Description

一种基于多模态学习的美学质量评价模型和方法

技术领域

本发明属于图像处理技术领域，具体是涉及一种基于多模态学习的美学质量评价模型和方法。

背景技术

美学是研究人与世界审美关系、人类审美意识等审美范畴的一门重要学科。视觉美学质量是视觉感知美的一种度量。图像的视觉美学质量衡量了在人类眼中一幅图像的视觉吸引力。由于视觉美学是一个主观的属性，往往涉及到情感和思想等抽象物质，这使得自动评估图像美学质量是一项非常主观的任务。然而，人们往往会达成一种共识，即一些图像在视觉上比其他图像更有吸引力，这是新兴研究领域——可计算美学的原理之一。

在信息爆炸的时代，纯Transformer美学研究如何用可计算技术来预测人类对视觉刺激产生的情绪反应，使计算机模仿人类的审美过程，从而用可计算方法来自动预测图像的美学质量。审美是人们与生俱来的能力，研究利用人工智能技术让计算机感知“美”、发现“美”并且生成“美”的技术可以让计算机了解并学习专业摄影师的思维过程，为人们拍摄照片提供专业的美学建议，这是一个非常具有挑战性的任务。以人工智能为核心的图像美学质量评价和美学质量提升技术为人们获得高美学质量的照片提供了经济可行的解决方案，同时推进了人工智能技术模拟人审美和思维过程的发展。

基于美学的图像质量评价方法的研究除了有上述的科学价值，还有广泛的应用价值。比如美学辅助搜索引擎，搜索引擎根据用户的查询检索大量的相关结果，然而，排在检索结果最前面的搜索结果通常不具有视觉吸引力。在这种情况下，用户需要浏览更多结果以找到既与查询相关又令人感到视觉满意的结果。此时，图像美学质量评价方法可以作为后续处理步骤，根据美学质量重新排列检索到的图像。这样使位于检索结果顶部的检索图像都是高美学质量的图像。未来，基于美学的排名还可以与其他标准相结合，以便在图像搜索引擎中提供更好的用户体验。再比如，自动图像增强，照片编辑工具通常用来根据用户的意图修改照片的某些特性。像Adobe Photoshop这样的商业软件就提供了这样的工具，但这通常需要用户对设计概念和摄影理论有很好的了解。对普通用户来说，他们不清楚图像的哪些元素需要编辑，以及如何编辑它们以使图像更具吸引力。在这种情况下，自动增强图像美学质量的自动照片编辑工具是非常有用的。这些尝试证明了美学评估技术的巨大潜力，它使计算机不仅可以告诉用户照片是否美观，还可以帮助用户自动增强照片的视觉吸引力。

传统的美学质量评价方法，一方面采用基于图像的评价方式，即在特征提取步骤中只使用了美学图像作为原始数据，通过神经网络从原始图像中学习到美学特征，根据损失函数训练出美学模型中，并选择合适的评价指标，预测出美学质量分数。然而，基于图像的评价方法忽略了美学评论的高级语义，只使用图像作为原始数据不能很好地体现人类主观视觉的想法，从而让纯Transformer美学的原理更偏向于一个黑盒，不容易被理解，而这些主观情绪往往隐藏于评论的信息之中。另一方面传统的方法大多采用基于CNN的评价方法，即以卷积神经网络为骨干网络，完成特征提取的操作；而基于CNN的评价方法在全局建模和长距离建模能力上具有局限性，并且在多模态领域上不适合进行模态信息之间的交互。如专利申请CN111507941A公开了一种用于美学质量评价的构图表征学习方法，其通过双线性CNN提取了两种特征并融合，但未考虑到多模态信息的融合，缺少美学评论的高级语义，忽略了文本给美学质量评价带来的有效信息；再如专利申请CN113657380A公开了一种融合多模态注意力机制的图像美学质量评价方法，同样使用CNN作为骨干网络，并使用注意力机制融合模态信息。然而该方法使用CNN作为骨干网络在长距离建模和多模态融合中具有局限性，造成全局信息缺失等问题，不利于美学质量评价模型的建模。并且该方法的融合方式属于前期融合，不能很好地体现多模态之间的复杂关系，而注意力机制是Transformer的内在优势，通过注意力机制中期融合的方式更具有多模态融合和建模能力。因此，美学质量评价方法还有待提升。

发明内容

为解决上述技术问题，本发明提供了一种基于多模态学习的美学质量评价模型和方法，其通过数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块构建评价模型；根据文本信息和图像信息，在图像特征和文本特征提取后，基于跨越注意力机制，动态融合图像与文本之间的信息；考虑到传统的CNN方法在多模态领域具有局限性，所以在多模态学习的基础上使用多模态融合能力强的Transformer作为骨干网络，不考虑传统的CNN方法，通过视觉和文本Transformer分别提取图像特征和高级语义，并使用更能体现多模态复杂关系的中期融合方式融合特征，从而实现基于多模态学习的纯Transformer美学质量评价方法。

本发明所述的一种基于多模态学习的美学质量评价模型，其采用的技术方案是，包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块；

所述数据处理模块用于处理模型训练所需要的数据，并构建输入集分别传送给视觉Transformer模块和文本Transformer模块；

所述视觉Transformer模块作为视觉特征提取器，用于提取视觉特征；

所述文本Transformer模块作为文本特征提取器，用于提取高级语义；

所述多模态融合模块用于融合视觉特征和文本特征，交互两者之间的信息以产生最终输出送入统一美学预测任务模块；

所述统一美学预测任务模块多模态融合模块融合的特征，用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。

进一步的，在数据处理模块中，所有图像数据通过深度学习的函数进行数据增强，并附加划分后的文本数据，形成一个输入集；将输入集进行划分训练集、验证集和测试集，作为后续模块的前置条件。

进一步的，所述视觉Transformer模块基于输入集，提取出图像特征；如果是视觉单模态流，将图像特征映射成美学预测分布；如果作为多模态融合模块的前置部分，则仅提取特征。

进一步的，所述文本Transformer模块基于输入集，使用BERT和RoBERTa预训练模型，针对每句评论，通过分词器将其拆分并标记，增加[CLS]用来标记头部，增加[SEP]用来标记尾部；如果是文本单模态流，最后将CLS Token经过的分类器输出预测美学分数分布；如果作为多模态融合模块的前置部分，则仅提取特征。

进一步的，多模态融合模块包含M层多模态融合层，每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络；得到视觉特征和文本特征之后，送入自注意力层后再经过交叉注意力层；最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。

进一步的，统一美学预测任务模块将多模态融合模块提取的多模态融合特征，经过映射分类后得到1到10分的预测分数分布

；然后通过numpy函数生成从1到10的等差数列分布

将两个分布分别相乘求和得到美学回归分数；根据真实得分占比得到真实分数分布

；将预测分数分布和真实分数分布比较，计算其斯皮尔曼等级相关系数SRCC和皮尔逊线性相关系数PLCC；将预测分数大于5且实际分数也大于5或者预测分数小于5且实际分数也小于5视为分类正确，并计算分类准确率。

一种基于多模态学习的美学质量评价方法，基于所述的美学质量评价模型，所述方法的步骤为：

步骤1、根据AVA数据集及其评论数据集，按照标准数据集的划分方法，随机选取90%图像作为训练集，其余10%作为测试集；

步骤2、利用数据处理模块，对图像数据进行预处理，得到数据增强后的图像；

步骤3、利用数据处理模块，对评论数据进行预处理，将图像和对应的评论构建成一个输入集；

步骤4、利用视觉Transformer模块提取美学图像特征F _vision；如果是视觉单模态流，则将此特征直接用于后续的美学预测任务中；如果作为多模态融合模块的前置部分，则仅提取图像特征作为多模态融合层的输入；

步骤5、利用文本Transformer模块提取美学高级语义F _text；如果是文本单模态流，则将此特征直接用于后续的美学预测任务中；如果作为多模态融合模块的前置部分，则仅提取文本特征作为多模态融合层的输入；

步骤6、利用多模态融合模块，将以上模块提取到的视觉特征和文本特征输入到该模块中，得到融合文本信息的图像特征

、融合图像信息的文本特征

以及拼接后的融合特征

；

步骤7、使用EMDLoss作为损失函数，计算出模型损失以完成训练；其中，

代表美学实际分数分布，分别对应1-10主观评分数，

代表预测分数分布，

是累积分布分数，

代表分数桶总数，由于美学特征空间中都是二维矩阵，将

设置为2，表示在

之间惩罚欧氏距离；

。

步骤8、利用统一美学预测任务模块，将提取后的特征通过分类层映射为预测美学分布

并生成从1到10的等差数列分布，将预测美学分布和等差数列分布分别相乘求和得到美学回归分数；按照5分为阈值，美学回归分数高于阈值的图像被划分为高质量图像，美学回归分数低于阈值的图像被划分为低质量图像；

步骤9、将预测的美学分布

与实际美学分布

相比较，计算出两者的皮尔逊相关系数PLCC和斯皮尔曼相关系数SRCC，其绝对值越接近于1表示更具有相关性，即模型预测美学分数与实际人类主观评价分数一致性越高；

步骤10、将步骤8的回归分数作为预测分数，如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5，则表示分类正确。

进一步的，步骤2中，图像数据是AVA数据集的美学图像，每一张的分辨率大小不等；对于训练集，对所有图像进行数据增强，即每一张图像会进行重塑，再进行随机水平翻转和随机裁剪。

进一步的，步骤3中，文本数据是在根据每张美学图像爬取的评论集，按照#划分出每句评论，最后将图像数据和对应的文本数据建立成一个输入集。

进一步的，步骤6中，多模态融合模块包含M层多模态融合层，每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络；得到视觉特征和文本特征之后，送入自注意力层后再经过交叉注意力层；最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征；

在交叉注意力层中，图像部分使用自身的查询向量，使用文本的键向量和值向量；同样地，文本部分使用自身的查询向量，使用图像的键向量和值向量，其计算交叉注意力计算如下：

；

其中，A代表计算注意力，

是键向量Key的维度，

和

代表所有标记Token的键向量值向量Value，

代表图像或文本的查询向量；

经过交叉注意力层后，最后会经过前馈神经网络层，其中对于视觉特征会先经过一维自适应平均池化层，再通过head pooler映射成batchsize×768，而文本特征直接经过 head pooler后也映射成batchsize×768；其中，head pooler中选取第一个token的tensor 作为最重要信息；最后将得到融合文本信息的图像特征

、融合图像信息的文本特征

以及拼接后的融合特征

；

，

。

本发明所述的有益效果为：1）本发明提出基于多模态学习的纯Transformer美学质量评价模型和方法，利用数据处理模块有效提取处理美学图像和美学评论，并展现出信息的高度互补性，有效提高了美学质量评价的准确率和其他评价指标；

2）该发明利用多模态学习中的交叉注意力机制，在视觉特征和文本特征提取之后，送入多模态融合层，通过注意力机制中特有的查询向量、键向量、值向量，交互图像与文本两者的信息，相比传统前期融合等方式，有效加强了模态之间的联系，拓宽了多模态学习在实际美学应用场景的范围；

3）采用端到端纯Transformer模型，不使用传统的CNN模型，不考虑CNN带来的图像先验；利用Swin Transformer和BERT在计算机视觉领域和自然语言处理领域下游任务的优异表现，再融合交叉注意力机制，实现一个完全基于Transformer的模型方法，弥补了单模态信息以及传统CNN的局限性，在美学领域为Transformer带来了一条全新的路径；

4）通过多模态学习获得的准确性高的美学质量评价模型有利于提升现实美学质量评价的意义，有利于促进美学应用，比如图像增强、辅助检索等发展，有利于加快深度学习在未来美学领域的发展。

附图说明

图1是基于多模态学习的纯Transformer美学质量评价模型结构示意图；

图2是基于多模态学习的纯Transformer美学质量评价方法流程图；

图3是多模态美学模型消融实验示意图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

本发明所述的基于多模态学习的美学质量评价模型如图1所示，包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块、统一美学预测任务模块。本发明对目前规模最大的公开美学质量评估数据库AVA(Aesthetic Visual AnalysisDataste)数据集进行了实验，该数据集包含255530张图像，每张图像大概有210人评分，分数范围为1到10分，并且每张图像都有包含用户主观想法的评论。我们在此数据集上进行了有效性验证。

模块具体内容如下：

（1）数据处理模块：

用于处理模型训练所需要的数据，包括图像数据和文本数据。其中图像数据是AVA数据集的美学图像，每一张的分辨率大小不等。在训练集中，为了防止过拟合，对所有图像进行数据增强，即每一张图像会进行重塑，再进行随机水平翻转和随机裁剪。在验证集中，每一张图像将会进行直接重塑。文本数据是在根据每张美学图像爬取的评论集，按照#划分出每句评论，最后将图像数据和对应的文本数据建立成一个输入集。利用PytorchLightning框架中DataModule模块将数据处理模块中的输入集进行划分训练集、测试集，作为后续模块的前置条件。其中批次大小设置为16。

（2）视觉Transformer模块：

用于提取视觉特征的Transformer模块。不采用传统的CNN模型，不考虑CNN带来的先验知识，直接使用建模能力强的视觉Transformer作为视觉特征提取器。基于在多数下游任务表现优异的Swin Transformer模型作为基线，使用三种不同参数量大小的预训练权重。

美学图像在数据处理后，会经过斑块划分模块，变换后再进入四层基础层，最后提取得出图像特征。如果是视觉单模态流，最后的输出将送入提出来的分类层模块之中，将图像特征映射成美学预测分布。如果作为多模态融合模块的前置部分，则仅提取特征。

（3）文本Transformer模块：

用于提取高级语义的Transformer模块。不采用传统的CNN模型，不考虑CNN带来的先验知识，直接使用建模能力强的文本Transformer作为文本特征提取器；基于在自然语言处理领域表现优异的BERT模型作为基线，使其满足预测美学分数的各种任务。在模型中，对应图像的美学评论进入嵌入层，得到对应的标记嵌入和句子嵌入，并随同位置编码一起送入模型中。

训练过程中，我们使用两种预训练模型。针对每句评论，通过分词器（Tokenizer）将其拆分并标记，增加[CLS]用来标记头部，增加[SEP]用来标记尾部。如果是文本单模态流，最后将CLS Token经过的分类器输出预测美学分数分布；如果作为多模态融合模块的前置部分，则仅提取特征。根据美学图像对应评论的多重性，即美学图像对应评论数目不一，我们对每句评论分别进行预测，并将所有预测结果求和平均得到最终预测分布；最后得到的文本特征将会送入多模态融合模块。

（4）多模态融合模块：

用于融合视觉特征和文本特征，交互两者之间的信息。在研究了视觉Transformer和文本Transformer的基础上，将交叉注意力运用到模态的融合之中，通过交叉注意力来分享文本与视觉之间的信息。不同于文本和视觉特征被简单地串联在一起，然后被送入一个单一的转换块。在交叉注意力方法中，文本和视觉特征被独立地送入不同的转换块，通过视觉编码器和文本编码器提取文本特征和视觉特征，然后送入多模态融合模块以产生最终输出。

具体来说，图像和文本需要分别经过带有预训练权重的视觉编码器和文本编码器。数据经过编码器后会经过M层多模态融合层，每一层都包括一个自注意力块、一个交叉注意力块和一个前馈神经网络。得到视觉特征和文本特征之后，送入自注意力层后再经过交叉注意力层。最后我们将得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。

多模态融合模块中，在视觉流中，我们删除了映射分类部分，图像在经过模块2后得到大小为batchsize×49×768的图像特征，将此作为嵌入送入多模态融合层。在文本流中，同样也删除了映射分类部分，文本在经过模块3后得到大小为batchsize×length×768，其中length表示当前评论集中最长评论的长度，将此作为嵌入送入多模态融合层。得到视觉特征和文本特征之后，送入自注意力层后再经过Cross Attention层。其中Cross层以BertCrossLayer为基础，输入为文本视觉特征和对应的mask，输出为融合另一模态信息的图像特征和文本特征；最后再经过前馈神经网络层（FFN），其中对于视觉特征会先经过一维自适应平均池化层，再通过head pooler映射成batchsize×768。而文本特征直接经过head pooler后也映射成batchsize×768。其中，head pooler中我们选取了第一个token的tensor作为最重要信息。最后我们将得到融合文本信息的图像特征、融合图像信息的文本特征以及concat后的融合特征。融合特征将会送入统一美学预测任务模块。

（5）统一美学预测任务模块

用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。每一张图像在经过以上的模块之后，经过映射分类得到1到10分的预测分数分布

，得到预测分布后，生成从1到10的等差数列分布

，将两个分布分别相乘求和得到美学回归分数。根据真实得分占比得到真实分数分布

；将预测分数分布和真实图像评分分布做对比，计算其SRCC和PLCC，以完成美学评分分布预测任务。将预测分数大于5且实际分数也大于5或者预测分数小于5且实际分数也小于5视为分类正确，并完成美学评分分类任务。对于美学评分回归任务，我们使用两个广泛的指标，即皮尔逊线性相关系数（PLCC）和斯皮尔曼等级相关系数（SRCC），前者用于评价美学预测的准确性，后者用于评价美学预测的单调性，两者都可以验证客观评价结果和主观评价结果之间的紧密程度。对于美学评分分类任务，使用最常见的评价指标：分类准确率；

以一组训练集中图像及对应评论为例，图像实际分辨率为R1×R2，经过重塑后得到256×256大小的图像，再经过随机水平翻转和随机裁剪后得到224×224大小的输入图像。对应图像的美学评论进入嵌入层，得到对应的标记嵌入，并附加位置编码作为输入评论。在进入对应的Transformer之前，图像和评论都转化为tensor。

在视觉Transformer模块，图像将会得到大小为49×768的图像特征，将此作为嵌入送入多模态融合层。同样地，在文本Transformer模块，文本将会得到大小为length×768的文本特征，其中length表示当前评论集中最长评论的长度，将此作为嵌入送入多模态融合层。

经过多模态融合层交互信息后，其中对于视觉特征会先经过一维自适应平均池化层，再通过head pooler映射成batchsize×768。而文本特征直接经过head pooler后也映射成batchsize×768。其中，head pooler中选取了第一个token的tensor作为最重要信息。最后将得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。

得到特征以后，输入到自定义分类层，输出美学预测分布

，与实际美学分布相比较，计算出两者的PLCC和SRCC。

在得到预测分布后，生成从1到10的等差数列分布，将两个分布分别相乘求和得到美学回归分数；如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5，则表示分类正确。模型在训练过程中使用EMDloss作为损失函数。

一种基于多模态学习的美学质量评价方法如图2所示，基于所述的美学质量评价模型，所述方法的步骤为：

步骤2、利用数据处理模块，对图像进行预处理；对于训练集，先将图像缩放到256×256大小，再进行随机裁剪成224×224大小；对于测试集，直接将图像缩放到224×224大小；为了增强模型鲁棒性，对训练集图像进行随机水平翻转；

步骤3、利用数据处理模块，对评论进行预处理；根据每张图像ID获取其对应的评论组，并按照#划分出不同的评论，并将图像和对应的评论形成样例作为输入；

步骤4、利用视觉Transformer模块，对三种预训练的Swin Transformer模型进行微调以提取到美学图像特征F _vision；如果是视觉单模态流，则将此特征直接用于后续的美学预测任务中；如果是视觉单模态流，则将此特征直接用于后续的美学预测任务中；如果作为多模态融合模块的前置部分，则仅提取图像特征作为多模态融合层的输入；

步骤5、利用文本Transformer模块，对两种预训练的BERT模型进行微调以提取到美学高级语义F _text；如果是文本单模态流，则将此特征直接用于后续的美学预测任务中；如果作为多模态融合模块的前置部分，则仅提取文本特征作为多模态融合层的输入；

、融合图像信息的文本特征

以及拼接后的融合特征

；其中

，

，Length表示当前评论集中最长评论的长度；

所述多模态融合模块包含M层多模态融合层，每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络；得到视觉特征和文本特征之后，送入自注意力层后再经过交叉注意力层；最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征；

；

其中，A代表计算注意力，

是键向量Key的维度，

和

代表所有标记Token的键向量值向量Value，

代表图像或文本的查询向量；

、融合图像信息的文本特征

以及拼接后的融合特征

；

，

；

代表美学实际分数分布，分别对应1-10主观评分数，

代表预测分数分布，

是累积分布分数，

代表分数桶总数，由于美学特征空间中都是二维矩阵，将

设置为2，表示在

之间惩罚欧氏距离；

；

，并生成从1到10的等差数列分布，将预测美学分布和等差数列分布分别相乘求和得到美学回归分数；按照5分为阈值，美学回归分数高于阈值的图像被划分为高质量图像，美学回归分数低于阈值的图像被划分为低质量图像；

步骤9、将预测的美学分布

与实际美学分布

如图3所示，我们为评价所提出框架中各个组件的贡献，构建了七个不同的变体进行消融实验：1）视觉流：一个只基于原始Swin transformer的视觉网络和一个带有我们Classifier层的swintransformer网络；2）文本流：一个完全基于BERT的文本网络和一个基于RoBERTa的文本网络；3）多模态流：一个仅使用图像特征的AesMER，一个仅使用文本特征的AesMER和我们提出的AesMER。所有的消融实验使用的数据集数目和大小都是统一的，而且训练参数也设置一样。为了验证我们所提出框架的有效性，我们将其与其他的变体进行比较。

首先对于视觉流而言，我们在没有对Swin Transformer做任何调整的情况下，就能达到81.02%的准确率，并在LCC和SRCC上分别获得0.7169和0.7081的成绩，超越了大部分以CNN为基础架构的模型，这表明ViT在美学领域具有很强的潜力。另外，在使用我们提出的Classifier layer之后，Swin transformer的美学预测能力也有了不少的提升，这是由于相比单线性层分类，我们的Classifier更能体现美学特征与真实分布之间的关系。

其次，在文本流中，Transformer的性能更优于视觉流的ViT，BERT和RoBERTa分别取得了81.75%和82.05%的准确率，说明文本的语义信息相比图像特征更能表达美学的含义，这也解释了为什么Transformer在NLP能占据主导地位。其中可以看到，在SRCC和LCC两个指标上，文本流大幅超过视觉流。这是由于部分用户会将给出的评分直接展现在评论之中，使得预测的主观质量分数与真实主观质量分数更接近。

最后，在多模态流中，可以看出我们提出的方法在性能上大幅提高。经过多模态层提取的图像特征和文本特征在各项数值上要优于单模态提取的特征。而将两种特征concat后，其准确率更是达到了84.13%，相比单模态的ViT，提高了3.10%。而对于LCC和SRCC两项指标，更是提高了9.59%和9.08%，这是相当明显的提升。这说明，美学图像和评论信息是高度互补的，也显示了交叉注意力在多模态融合过程中起到的重要作用。

本发明针对现有美学质量评价方法的准确率和质量评价指标低、建模能力差等问题，利用Transformer的长距离特征提取能力和强建模能力，以及多模态学习的信息融合能力，设计一个能够根据多模态信息有效构建美学质量评价模型的方案，从而实现一个适用于统一美学预测任务的美学质量评价评价方法，从上述可知，本发明所述的方法利用美学图像和美学评论的高度信息互补性，有效提高了美学质量评价的准确率和其他评价指标；有利于促进美学应用，加快深度学习在未来美学领域的发展。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种基于多模态学习的美学质量评价模型，其特征在于，包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块；

2.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，在数据处理模块中，所有图像数据通过深度学习的函数进行数据增强，并附加划分后的文本数据，形成一个输入集；将输入集进行划分训练集、验证集和测试集，作为后续模块的前置条件。

3.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，所述视觉Transformer模块基于输入集，提取出图像特征；如果是视觉单模态流，将图像特征映射成美学预测分布；如果作为多模态融合模块的前置部分，则仅提取特征。

4.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，所述文本Transformer模块基于输入集，使用BERT和RoBERTa预训练模型，针对每句评论，通过分词器将其拆分并标记，增加[CLS]用来标记头部，增加[SEP]用来标记尾部；如果是文本单模态流，最后将CLS Token经过的分类器输出预测美学分数分布；如果作为多模态融合模块的前置部分，则仅提取特征。

5.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，多模态融合模块包含M层多模态融合层，每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络；得到视觉特征和文本特征之后，送入自注意力层后再经过交叉注意力层；最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。

6.根据权利要求1所述的一种基于多模态学习的美学质量评价模型，其特征在于，统一美学预测任务模块将多模态融合模块提取的多模态融合特征，经过映射分类后得到1到10 分的预测分数分布

；然后通过numpy函数生成从1到10的等差数列分布

7.一种基于多模态学习的美学质量评价方法，其特征在于，基于权利要求1-6任一项所述的模型，所述方法的步骤为：

、融合图像信息的文本特征

以及拼接后的融合特征

；

代表美学实际分数分布，分别对应1-10主观评分数，

代表预测分数分布，

是累积分布分数，

代表分数桶总数，由于美学特征空间中都是二维矩阵，将

设置为2，表示在

之间惩罚欧氏距离；

；

步骤9、将预测的美学分布

与实际美学分布

8.根据权利要求7所述的一种基于多模态学习的美学质量评价方法，其特征在于，步骤2中，图像数据是AVA数据集的美学图像，每一张的分辨率大小不等；对于训练集，对所有图像进行数据增强，即每一张图像会进行重塑，再进行随机水平翻转和随机裁剪。

9.根据权利要求7所述的一种基于多模态学习的美学质量评价方法，其特征在于，步骤3中，文本数据是在根据每张美学图像爬取的评论集，按照#划分出每句评论，最后将图像数据和对应的文本数据建立成一个输入集。

10.根据权利要求7所述的一种基于多模态学习的美学质量评价方法，其特征在于，步骤6中，多模态融合模块包含M层多模态融合层，每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络；得到视觉特征和文本特征之后，送入自注意力层后再经过交叉注意力层；最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征；

；

其中，A代表计算注意力，

是键向量Key的维度，

和

代表所有标记Token的键向量值向量Value，

代表图像或文本的查询向量；

经过交叉注意力层后，最后会经过前馈神经网络层，其中对于视觉特征会先经过一维自适应平均池化层，再通过head pooler映射成batchsize×768，而文本特征直接经过head pooler后也映射成batchsize×768；其中，head pooler中选取第一个token的tensor作为最重要信息；最后将得到融合文本信息的图像特征

、融合图像信息的文本特征

以及拼接后的融合特征

；

，

。