CN115601772B - 一种基于多模态学习的美学质量评价模型和方法 - Google Patents

一种基于多模态学习的美学质量评价模型和方法 Download PDF

Info

Publication number
CN115601772B
CN115601772B CN202211611537.2A CN202211611537A CN115601772B CN 115601772 B CN115601772 B CN 115601772B CN 202211611537 A CN202211611537 A CN 202211611537A CN 115601772 B CN115601772 B CN 115601772B
Authority
CN
China
Prior art keywords
aesthetic
text
image
score
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211611537.2A
Other languages
English (en)
Other versions
CN115601772A (zh
Inventor
亓晋
苏灿
胡筱旋
孙莹
孙雁飞
董振江
许斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211611537.2A priority Critical patent/CN115601772B/zh
Publication of CN115601772A publication Critical patent/CN115601772A/zh
Application granted granted Critical
Publication of CN115601772B publication Critical patent/CN115601772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,公开了一种基于多模态学习的美学质量评价模型和方法,其根据文本信息和图像信息,在图像特征和文本特征提取后,基于跨越注意力机制,动态融合图像与文本之间的信息;在多模态学习的基础上使用Transformer作为骨干网络,不考虑传统的CNN方法,通过视觉和文本Transformer分别提取图像特征和高级语义,从而实现基于多模态学习的纯Transformer美学质量评价模型和方法。本发明有效提高了美学质量评价的准确率和其他评价指标;有利于促进美学应用,加快深度学习在未来美学领域的发展。

Description

一种基于多模态学习的美学质量评价模型和方法
技术领域
本发明属于图像处理技术领域,具体是涉及一种基于多模态学习的美学质量评价模型和方法。
背景技术
美学是研究人与世界审美关系、人类审美意识等审美范畴的一门重要学科。视觉美学质量是视觉感知美的一种度量。图像的视觉美学质量衡量了在人类眼中一幅图像的视觉吸引力。由于视觉美学是一个主观的属性,往往涉及到情感和思想等抽象物质,这使得自动评估图像美学质量是一项非常主观的任务。然而,人们往往会达成一种共识,即一些图像在视觉上比其他图像更有吸引力,这是新兴研究领域——可计算美学的原理之一。
在信息爆炸的时代,纯Transformer美学研究如何用可计算技术来预测人类对视觉刺激产生的情绪反应,使计算机模仿人类的审美过程,从而用可计算方法来自动预测图像的美学质量。审美是人们与生俱来的能力,研究利用人工智能技术让计算机感知“美”、发现“美”并且生成“美”的技术可以让计算机了解并学习专业摄影师的思维过程,为人们拍摄照片提供专业的美学建议,这是一个非常具有挑战性的任务。以人工智能为核心的图像美学质量评价和美学质量提升技术为人们获得高美学质量的照片提供了经济可行的解决方案,同时推进了人工智能技术模拟人审美和思维过程的发展。
基于美学的图像质量评价方法的研究除了有上述的科学价值,还有广泛的应用价值。比如美学辅助搜索引擎,搜索引擎根据用户的查询检索大量的相关结果,然而,排在检索结果最前面的搜索结果通常不具有视觉吸引力。在这种情况下,用户需要浏览更多结果以找到既与查询相关又令人感到视觉满意的结果。此时,图像美学质量评价方法可以作为后续处理步骤,根据美学质量重新排列检索到的图像。这样使位于检索结果顶部的检索图像都是高美学质量的图像。未来,基于美学的排名还可以与其他标准相结合,以便在图像搜索引擎中提供更好的用户体验。再比如,自动图像增强,照片编辑工具通常用来根据用户的意图修改照片的某些特性。像Adobe Photoshop这样的商业软件就提供了这样的工具,但这通常需要用户对设计概念和摄影理论有很好的了解。对普通用户来说,他们不清楚图像的哪些元素需要编辑,以及如何编辑它们以使图像更具吸引力。在这种情况下,自动增强图像美学质量的自动照片编辑工具是非常有用的。这些尝试证明了美学评估技术的巨大潜力,它使计算机不仅可以告诉用户照片是否美观,还可以帮助用户自动增强照片的视觉吸引力。
传统的美学质量评价方法,一方面采用基于图像的评价方式,即在特征提取步骤中只使用了美学图像作为原始数据,通过神经网络从原始图像中学习到美学特征,根据损失函数训练出美学模型中,并选择合适的评价指标,预测出美学质量分数。然而,基于图像的评价方法忽略了美学评论的高级语义,只使用图像作为原始数据不能很好地体现人类主观视觉的想法,从而让纯Transformer美学的原理更偏向于一个黑盒,不容易被理解,而这些主观情绪往往隐藏于评论的信息之中。另一方面传统的方法大多采用基于CNN的评价方法,即以卷积神经网络为骨干网络,完成特征提取的操作;而基于CNN的评价方法在全局建模和长距离建模能力上具有局限性,并且在多模态领域上不适合进行模态信息之间的交互。如专利申请CN111507941A公开了一种用于美学质量评价的构图表征学习方法,其通过双线性CNN提取了两种特征并融合,但未考虑到多模态信息的融合,缺少美学评论的高级语义,忽略了文本给美学质量评价带来的有效信息;再如专利申请CN113657380A公开了一种融合多模态注意力机制的图像美学质量评价方法,同样使用CNN作为骨干网络,并使用注意力机制融合模态信息。然而该方法使用CNN作为骨干网络在长距离建模和多模态融合中具有局限性,造成全局信息缺失等问题,不利于美学质量评价模型的建模。并且该方法的融合方式属于前期融合,不能很好地体现多模态之间的复杂关系,而注意力机制是Transformer的内在优势,通过注意力机制中期融合的方式更具有多模态融合和建模能力。因此,美学质量评价方法还有待提升。
发明内容
为解决上述技术问题,本发明提供了一种基于多模态学习的美学质量评价模型和方法,其通过数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块构建评价模型;根据文本信息和图像信息,在图像特征和文本特征提取后,基于跨越注意力机制,动态融合图像与文本之间的信息;考虑到传统的CNN方法在多模态领域具有局限性,所以在多模态学习的基础上使用多模态融合能力强的Transformer作为骨干网络,不考虑传统的CNN方法,通过视觉和文本Transformer分别提取图像特征和高级语义,并使用更能体现多模态复杂关系的中期融合方式融合特征,从而实现基于多模态学习的纯Transformer美学质量评价方法。
本发明所述的一种基于多模态学习的美学质量评价模型,其采用的技术方案是,包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块;
所述数据处理模块用于处理模型训练所需要的数据,并构建输入集分别传送给视觉Transformer模块和文本Transformer模块;
所述视觉Transformer模块作为视觉特征提取器,用于提取视觉特征;
所述文本Transformer模块作为文本特征提取器,用于提取高级语义;
所述多模态融合模块用于融合视觉特征和文本特征,交互两者之间的信息以产生最终输出送入统一美学预测任务模块;
所述统一美学预测任务模块多模态融合模块融合的特征,用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。
进一步的,在数据处理模块中,所有图像数据通过深度学习的函数进行数据增强,并附加划分后的文本数据,形成一个输入集;将输入集进行划分训练集、验证集和测试集,作为后续模块的前置条件。
进一步的,所述视觉Transformer模块基于输入集,提取出图像特征;如果是视觉单模态流,将图像特征映射成美学预测分布;如果作为多模态融合模块的前置部分,则仅提取特征。
进一步的,所述文本Transformer模块基于输入集,使用BERT和RoBERTa预训练模型,针对每句评论,通过分词器将其拆分并标记,增加[CLS]用来标记头部,增加[SEP]用来标记尾部;如果是文本单模态流,最后将CLS Token经过的分类器输出预测美学分数分布;如果作为多模态融合模块的前置部分,则仅提取特征。
进一步的,多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。
进一步的,统一美学预测任务模块将多模态融合模块提取的多模态融合特征,经 过映射分类后得到1到10分的预测分数分布
Figure DEST_PATH_IMAGE001
;然后通过numpy函数 生成从1到10的等差数列分布
Figure 383790DEST_PATH_IMAGE002
将两个分布分别相乘求和得到美学回归 分数;根据真实得分占比得到真实分数分布
Figure DEST_PATH_IMAGE003
;将预测分数分布和真实 分数分布比较,计算其斯皮尔曼等级相关系数SRCC和皮尔逊线性相关系数PLCC;将预测分 数大于5且实际分数也大于5或者预测分数小于5且实际分数也小于5视为分类正确,并计算 分类准确率。
一种基于多模态学习的美学质量评价方法,基于所述的美学质量评价模型,所述方法的步骤为:
步骤1、根据AVA数据集及其评论数据集,按照标准数据集的划分方法,随机选取90%图像作为训练集,其余10%作为测试集;
步骤2、利用数据处理模块,对图像数据进行预处理,得到数据增强后的图像;
步骤3、利用数据处理模块,对评论数据进行预处理,将图像和对应的评论构建成一个输入集;
步骤4、利用视觉Transformer模块提取美学图像特征F vision ;如果是视觉单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取图像特征作为多模态融合层的输入;
步骤5、利用文本Transformer模块提取美学高级语义F text ;如果是文本单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取文本特征作为多模态融合层的输入;
步骤6、利用多模态融合模块,将以上模块提取到的视觉特征和文本特征输入到该 模块中,得到融合文本信息的图像特征
Figure 53674DEST_PATH_IMAGE004
、融合图像信息的文本特征
Figure DEST_PATH_IMAGE005
以及拼接后的融合 特征
Figure 775512DEST_PATH_IMAGE006
步骤7、使用EMDLoss作为损失函数,计算出模型损失以完成训练;其中,
Figure DEST_PATH_IMAGE007
代表 美学实际分数分布,分别对应1-10主观评分数,
Figure 138229DEST_PATH_IMAGE008
代表预测分数分布,
Figure DEST_PATH_IMAGE009
是累积 分布分数,
Figure 719252DEST_PATH_IMAGE010
代表分数桶总数,由于美学特征空间中都是二维矩阵,将
Figure DEST_PATH_IMAGE011
设置为2,表示在
Figure 216265DEST_PATH_IMAGE012
之间惩罚欧氏距离;
Figure DEST_PATH_IMAGE013
步骤8、利用统一美学预测任务模块,将提取后的特征通过分类层映射为预测美学 分布
Figure 527029DEST_PATH_IMAGE001
并生成从1到10的等差数列分布,将预测美学分布和等差数 列分布分别相乘求和得到美学回归分数;按照5分为阈值,美学回归分数高于阈值的图像被 划分为高质量图像,美学回归分数低于阈值的图像被划分为低质量图像;
步骤9、将预测的美学分布
Figure 185281DEST_PATH_IMAGE014
与实际美学分布
Figure DEST_PATH_IMAGE015
相比较,计 算出两者的皮尔逊相关系数PLCC和斯皮尔曼相关系数SRCC,其绝对值越接近于1表示更具 有相关性,即模型预测美学分数与实际人类主观评价分数一致性越高;
步骤10、将步骤8的回归分数作为预测分数,如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5,则表示分类正确。
进一步的,步骤2中,图像数据是AVA数据集的美学图像,每一张的分辨率大小不等;对于训练集,对所有图像进行数据增强,即每一张图像会进行重塑,再进行随机水平翻转和随机裁剪。
进一步的,步骤3中,文本数据是在根据每张美学图像爬取的评论集,按照#划分出每句评论,最后将图像数据和对应的文本数据建立成一个输入集。
进一步的,步骤6中,多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征;
在交叉注意力层中,图像部分使用自身的查询向量,使用文本的键向量和值向量;同样地,文本部分使用自身的查询向量,使用图像的键向量和值向量,其计算交叉注意力计算如下:
Figure 847076DEST_PATH_IMAGE016
其中,A代表计算注意力,
Figure DEST_PATH_IMAGE017
是键向量Key的维度,
Figure 124342DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
代表所有标记Token的 键向量值向量Value,
Figure 148668DEST_PATH_IMAGE020
代表图像或文本的查询向量;
经过交叉注意力层后,最后会经过前馈神经网络层,其中对于视觉特征会先经过 一维自适应平均池化层,再通过head pooler映射成batchsize×768,而文本特征直接经过 head pooler后也映射成batchsize×768;其中,head pooler中选取第一个token的tensor 作为最重要信息;最后将得到融合文本信息的图像特征
Figure DEST_PATH_IMAGE021
、融合图像信息的文本特征
Figure 790871DEST_PATH_IMAGE022
以及拼接后的融合特征
Figure DEST_PATH_IMAGE023
Figure 205540DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
本发明所述的有益效果为:1)本发明提出基于多模态学习的纯Transformer美学质量评价模型和方法,利用数据处理模块有效提取处理美学图像和美学评论,并展现出信息的高度互补性,有效提高了美学质量评价的准确率和其他评价指标;
2)该发明利用多模态学习中的交叉注意力机制,在视觉特征和文本特征提取之后,送入多模态融合层,通过注意力机制中特有的查询向量、键向量、值向量,交互图像与文本两者的信息,相比传统前期融合等方式,有效加强了模态之间的联系,拓宽了多模态学习在实际美学应用场景的范围;
3)采用端到端纯Transformer模型,不使用传统的CNN模型,不考虑CNN带来的图像先验;利用Swin Transformer和BERT在计算机视觉领域和自然语言处理领域下游任务的优异表现,再融合交叉注意力机制,实现一个完全基于Transformer的模型方法,弥补了单模态信息以及传统CNN的局限性,在美学领域为Transformer带来了一条全新的路径;
4)通过多模态学习获得的准确性高的美学质量评价模型有利于提升现实美学质量评价的意义,有利于促进美学应用,比如图像增强、辅助检索等发展,有利于加快深度学习在未来美学领域的发展。
附图说明
图1是基于多模态学习的纯Transformer美学质量评价模型结构示意图;
图2是基于多模态学习的纯Transformer美学质量评价方法流程图;
图3是多模态美学模型消融实验示意图。
具体实施方式
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
本发明所述的基于多模态学习的美学质量评价模型如图1所示,包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块、统一美学预测任务模块。本发明对目前规模最大的公开美学质量评估数据库AVA(Aesthetic Visual AnalysisDataste)数据集进行了实验,该数据集包含255530张图像,每张图像大概有210人评分,分数范围为1到10分,并且每张图像都有包含用户主观想法的评论。我们在此数据集上进行了有效性验证。
模块具体内容如下:
(1)数据处理模块:
用于处理模型训练所需要的数据,包括图像数据和文本数据。其中图像数据是AVA数据集的美学图像,每一张的分辨率大小不等。在训练集中,为了防止过拟合,对所有图像进行数据增强,即每一张图像会进行重塑,再进行随机水平翻转和随机裁剪。在验证集中,每一张图像将会进行直接重塑。文本数据是在根据每张美学图像爬取的评论集,按照#划分出每句评论,最后将图像数据和对应的文本数据建立成一个输入集。利用PytorchLightning框架中DataModule模块将数据处理模块中的输入集进行划分训练集、测试集,作为后续模块的前置条件。其中批次大小设置为16。
(2)视觉Transformer模块:
用于提取视觉特征的Transformer模块。不采用传统的CNN模型,不考虑CNN带来的先验知识,直接使用建模能力强的视觉Transformer作为视觉特征提取器。基于在多数下游任务表现优异的Swin Transformer模型作为基线,使用三种不同参数量大小的预训练权重。
美学图像在数据处理后,会经过斑块划分模块,变换后再进入四层基础层,最后提取得出图像特征。如果是视觉单模态流,最后的输出将送入提出来的分类层模块之中,将图像特征映射成美学预测分布。如果作为多模态融合模块的前置部分,则仅提取特征。
(3)文本Transformer模块:
用于提取高级语义的Transformer模块。不采用传统的CNN模型,不考虑CNN带来的先验知识,直接使用建模能力强的文本Transformer作为文本特征提取器;基于在自然语言处理领域表现优异的BERT模型作为基线,使其满足预测美学分数的各种任务。在模型中,对应图像的美学评论进入嵌入层,得到对应的标记嵌入和句子嵌入,并随同位置编码一起送入模型中。
训练过程中,我们使用两种预训练模型。针对每句评论,通过分词器(Tokenizer)将其拆分并标记,增加[CLS]用来标记头部,增加[SEP]用来标记尾部。如果是文本单模态流,最后将CLS Token经过的分类器输出预测美学分数分布;如果作为多模态融合模块的前置部分,则仅提取特征。根据美学图像对应评论的多重性,即美学图像对应评论数目不一,我们对每句评论分别进行预测,并将所有预测结果求和平均得到最终预测分布;最后得到的文本特征将会送入多模态融合模块。
(4)多模态融合模块:
用于融合视觉特征和文本特征,交互两者之间的信息。在研究了视觉Transformer和文本Transformer的基础上,将交叉注意力运用到模态的融合之中,通过交叉注意力来分享文本与视觉之间的信息。不同于文本和视觉特征被简单地串联在一起,然后被送入一个单一的转换块。在交叉注意力方法中,文本和视觉特征被独立地送入不同的转换块,通过视觉编码器和文本编码器提取文本特征和视觉特征,然后送入多模态融合模块以产生最终输出。
具体来说,图像和文本需要分别经过带有预训练权重的视觉编码器和文本编码器。数据经过编码器后会经过M层多模态融合层,每一层都包括一个自注意力块、一个交叉注意力块和一个前馈神经网络。得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层。最后我们将得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。
多模态融合模块中,在视觉流中,我们删除了映射分类部分,图像在经过模块2后得到大小为batchsize×49×768的图像特征,将此作为嵌入送入多模态融合层。在文本流中,同样也删除了映射分类部分,文本在经过模块3后得到大小为batchsize×length×768,其中length表示当前评论集中最长评论的长度,将此作为嵌入送入多模态融合层。得到视觉特征和文本特征之后,送入自注意力层后再经过Cross Attention层。其中Cross层以BertCrossLayer为基础,输入为文本视觉特征和对应的mask,输出为融合另一模态信息的图像特征和文本特征;最后再经过前馈神经网络层(FFN),其中对于视觉特征会先经过一维自适应平均池化层,再通过head pooler映射成batchsize×768。而文本特征直接经过head pooler后也映射成batchsize×768。其中,head pooler中我们选取了第一个token的tensor作为最重要信息。最后我们将得到融合文本信息的图像特征、融合图像信息的文本特征以及concat后的融合特征。融合特征将会送入统一美学预测任务模块。
(5)统一美学预测任务模块
用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。每一 张图像在经过以上的模块之后,经过映射分类得到1到10分的预测分数分布
Figure 850279DEST_PATH_IMAGE026
,得到预测分布后,生成从1到10的等差数列分布
Figure DEST_PATH_IMAGE027
,将两个分布分别相乘求和得到美学回归分数。根据真实得分占比得到 真实分数分布
Figure 401215DEST_PATH_IMAGE028
;将预测分数分布和真实图像评分分布做对比,计算其 SRCC和PLCC,以完成美学评分分布预测任务。将预测分数大于5且实际分数也大于5或者预 测分数小于5且实际分数也小于5视为分类正确,并完成美学评分分类任务。对于美学评分 回归任务,我们使用两个广泛的指标,即皮尔逊线性相关系数(PLCC)和斯皮尔曼等级相关 系数(SRCC),前者用于评价美学预测的准确性,后者用于评价美学预测的单调性,两者都可 以验证客观评价结果和主观评价结果之间的紧密程度。对于美学评分分类任务,使用最常 见的评价指标:分类准确率;
以一组训练集中图像及对应评论为例,图像实际分辨率为R1×R2,经过重塑后得到256×256大小的图像,再经过随机水平翻转和随机裁剪后得到224×224大小的输入图像。对应图像的美学评论进入嵌入层,得到对应的标记嵌入,并附加位置编码作为输入评论。在进入对应的Transformer之前,图像和评论都转化为tensor。
在视觉Transformer模块,图像将会得到大小为49×768的图像特征,将此作为嵌入送入多模态融合层。同样地,在文本Transformer模块,文本将会得到大小为length×768的文本特征,其中length表示当前评论集中最长评论的长度,将此作为嵌入送入多模态融合层。
经过多模态融合层交互信息后,其中对于视觉特征会先经过一维自适应平均池化层,再通过head pooler映射成batchsize×768。而文本特征直接经过head pooler后也映射成batchsize×768。其中,head pooler中选取了第一个token的tensor作为最重要信息。最后将得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。
得到特征以后,输入到自定义分类层,输出美学预测分布
Figure 135691DEST_PATH_IMAGE026
,与实际美学分布相比较,计算出两者的PLCC和SRCC。
在得到预测分布后,生成从1到10的等差数列分布,将两个分布分别相乘求和得到美学回归分数;如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5,则表示分类正确。模型在训练过程中使用EMDloss作为损失函数。
一种基于多模态学习的美学质量评价方法如图2所示,基于所述的美学质量评价模型,所述方法的步骤为:
步骤1、根据AVA数据集及其评论数据集,按照标准数据集的划分方法,随机选取90%图像作为训练集,其余10%作为测试集;
步骤2、利用数据处理模块,对图像进行预处理;对于训练集,先将图像缩放到256×256大小,再进行随机裁剪成224×224大小;对于测试集,直接将图像缩放到224×224大小;为了增强模型鲁棒性,对训练集图像进行随机水平翻转;
步骤3、利用数据处理模块,对评论进行预处理;根据每张图像ID获取其对应的评论组,并按照#划分出不同的评论,并将图像和对应的评论形成样例作为输入;
步骤4、利用视觉Transformer模块,对三种预训练的Swin Transformer模型进行微调以提取到美学图像特征F vision ;如果是视觉单模态流,则将此特征直接用于后续的美学预测任务中;如果是视觉单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取图像特征作为多模态融合层的输入;
步骤5、利用文本Transformer模块,对两种预训练的BERT模型进行微调以提取到美学高级语义F text ;如果是文本单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取文本特征作为多模态融合层的输入;
步骤6、利用多模态融合模块,将以上模块提取到的视觉特征和文本特征输入到该 模块中,得到融合文本信息的图像特征
Figure 663755DEST_PATH_IMAGE004
、融合图像信息的文本特征
Figure 407458DEST_PATH_IMAGE005
以及拼接后的融合 特征
Figure 907841DEST_PATH_IMAGE006
;其中
Figure DEST_PATH_IMAGE029
Figure 423005DEST_PATH_IMAGE030
,Length表示当前评论集 中最长评论的长度;
所述多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征;
在交叉注意力层中,图像部分使用自身的查询向量,使用文本的键向量和值向量;同样地,文本部分使用自身的查询向量,使用图像的键向量和值向量,其计算交叉注意力计算如下:
Figure DEST_PATH_IMAGE031
其中,A代表计算注意力,
Figure 281108DEST_PATH_IMAGE017
是键向量Key的维度,
Figure 828502DEST_PATH_IMAGE018
Figure 714549DEST_PATH_IMAGE019
代表所有标记Token的 键向量值向量Value,
Figure 321986DEST_PATH_IMAGE020
代表图像或文本的查询向量;
经过交叉注意力层后,最后会经过前馈神经网络层,其中对于视觉特征会先经过 一维自适应平均池化层,再通过head pooler映射成batchsize×768,而文本特征直接经过 head pooler后也映射成batchsize×768;其中,head pooler中选取第一个token的tensor 作为最重要信息;最后将得到融合文本信息的图像特征
Figure 293484DEST_PATH_IMAGE021
、融合图像信息的文本特征
Figure 378989DEST_PATH_IMAGE022
以及拼接后的融合特征
Figure 119543DEST_PATH_IMAGE023
Figure 655740DEST_PATH_IMAGE024
Figure 442430DEST_PATH_IMAGE025
步骤7、使用EMDLoss作为损失函数,计算出模型损失以完成训练;其中,
Figure 331626DEST_PATH_IMAGE007
代表 美学实际分数分布,分别对应1-10主观评分数,
Figure 192266DEST_PATH_IMAGE008
代表预测分数分布,
Figure 875926DEST_PATH_IMAGE009
是累积 分布分数,
Figure 556437DEST_PATH_IMAGE010
代表分数桶总数,由于美学特征空间中都是二维矩阵,将
Figure 390270DEST_PATH_IMAGE011
设置为2,表示在
Figure 370995DEST_PATH_IMAGE012
之间惩罚欧氏距离;
Figure 225557DEST_PATH_IMAGE013
步骤8、利用统一美学预测任务模块,将提取后的特征通过分类层映射为预测美学 分布
Figure 127785DEST_PATH_IMAGE001
,并生成从1到10的等差数列分布,将预测美学分布和等差数 列分布分别相乘求和得到美学回归分数;按照5分为阈值,美学回归分数高于阈值的图像被 划分为高质量图像,美学回归分数低于阈值的图像被划分为低质量图像;
步骤9、将预测的美学分布
Figure 624363DEST_PATH_IMAGE014
与实际美学分布
Figure 521912DEST_PATH_IMAGE015
相比较,计 算出两者的皮尔逊相关系数PLCC和斯皮尔曼相关系数SRCC,其绝对值越接近于1表示更具 有相关性,即模型预测美学分数与实际人类主观评价分数一致性越高;
步骤10、将步骤8的回归分数作为预测分数,如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5,则表示分类正确。
如图3所示,我们为评价所提出框架中各个组件的贡献,构建了七个不同的变体进行消融实验:1)视觉流:一个只基于原始Swin transformer的视觉网络和一个带有我们Classifier层的swintransformer网络;2)文本流:一个完全基于BERT的文本网络和一个基于RoBERTa的文本网络;3)多模态流:一个仅使用图像特征的AesMER,一个仅使用文本特征的AesMER和我们提出的AesMER。所有的消融实验使用的数据集数目和大小都是统一的,而且训练参数也设置一样。为了验证我们所提出框架的有效性,我们将其与其他的变体进行比较。
首先对于视觉流而言,我们在没有对Swin Transformer做任何调整的情况下,就能达到81.02%的准确率,并在LCC和SRCC上分别获得0.7169和0.7081的成绩,超越了大部分以CNN为基础架构的模型,这表明ViT在美学领域具有很强的潜力。另外,在使用我们提出的Classifier layer之后,Swin transformer的美学预测能力也有了不少的提升,这是由于相比单线性层分类,我们的Classifier更能体现美学特征与真实分布之间的关系。
其次,在文本流中,Transformer的性能更优于视觉流的ViT,BERT和RoBERTa分别取得了81.75%和82.05%的准确率,说明文本的语义信息相比图像特征更能表达美学的含义,这也解释了为什么Transformer在NLP能占据主导地位。其中可以看到,在SRCC和LCC两个指标上,文本流大幅超过视觉流。这是由于部分用户会将给出的评分直接展现在评论之中,使得预测的主观质量分数与真实主观质量分数更接近。
最后,在多模态流中,可以看出我们提出的方法在性能上大幅提高。经过多模态层提取的图像特征和文本特征在各项数值上要优于单模态提取的特征。而将两种特征concat后,其准确率更是达到了84.13%,相比单模态的ViT,提高了3.10%。而对于LCC和SRCC两项指标,更是提高了9.59%和9.08%,这是相当明显的提升。这说明,美学图像和评论信息是高度互补的,也显示了交叉注意力在多模态融合过程中起到的重要作用。
本发明针对现有美学质量评价方法的准确率和质量评价指标低、建模能力差等问题,利用Transformer的长距离特征提取能力和强建模能力,以及多模态学习的信息融合能力,设计一个能够根据多模态信息有效构建美学质量评价模型的方案,从而实现一个适用于统一美学预测任务的美学质量评价评价方法,从上述可知,本发明所述的方法利用美学图像和美学评论的高度信息互补性,有效提高了美学质量评价的准确率和其他评价指标;有利于促进美学应用,加快深度学习在未来美学领域的发展。
以上所述仅为本发明的优选方案,并非作为对本发明的进一步限定,凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims (9)

1.一种基于多模态学习的美学质量评价方法,其特征在于,所述方法基于美学质量评价模型,所述美学质量评价模型包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块;
所述数据处理模块用于处理模型训练所需要的数据,并构建输入集分别传送给视觉Transformer模块和文本Transformer模块;
所述视觉Transformer模块作为视觉特征提取器,用于提取视觉特征;
所述文本Transformer模块作为文本特征提取器,用于提取高级语义;
所述多模态融合模块用于融合视觉特征和文本特征,交互两者之间的信息以产生最终输出送入统一美学预测任务模块;
所述统一美学预测任务模块多模态融合模块融合的特征,用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务;
所述方法的步骤为:
步骤1、根据AVA数据集及其评论数据集,按照标准数据集的划分方法,随机选取90%图像作为训练集,其余10%作为测试集;
步骤2、利用数据处理模块,对图像数据进行预处理,得到数据增强后的图像;
步骤3、利用数据处理模块,对评论数据进行预处理,将图像和对应的评论构建成一个输入集;
步骤4、利用视觉Transformer模块提取美学图像特征Fvision;如果是视觉单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取图像特征作为多模态融合层的输入;
步骤5、利用文本Transformer模块提取美学高级语义Ftext;如果是文本单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取文本特征作为多模态融合层的输入;
步骤6、利用多模态融合模块,将以上模块提取到的视觉特征和文本特征输入到该模块中,得到融合文本信息的图像特征
Figure QLYQS_1
、融合图像信息的文本特征
Figure QLYQS_2
以及拼接后的融合特征
Figure QLYQS_3
步骤7、使用EMDLoss作为损失函数,计算出模型损失以完成训练;其中,
Figure QLYQS_4
代表美学实际分数分布,分别对应1-10主观评分数,
Figure QLYQS_5
代表预测分数分布,
Figure QLYQS_6
是累积分布分数,
Figure QLYQS_7
代表分数桶总数,由于美学特征空间中都是二维矩阵,将
Figure QLYQS_8
设置为2,表示在
Figure QLYQS_9
之间惩罚欧氏距离;
Figure QLYQS_10
步骤8、利用统一美学预测任务模块,将提取后的特征通过分类层映射为预测美学分布
Figure QLYQS_11
并生成从1到10的等差数列分布,将预测美学分布和等差数列分布分别相乘求和得到美学回归分数;按照5分为阈值,美学回归分数高于阈值的图像被划分为高质量图像,美学回归分数低于阈值的图像被划分为低质量图像;
步骤9、将预测的美学分布
Figure QLYQS_12
与实际美学分布
Figure QLYQS_13
相比较,计算出两者的皮尔逊相关系数PLCC和斯皮尔曼相关系数SRCC,其绝对值越接近于1表示更具有相关性,即模型预测美学分数与实际人类主观评价分数一致性越高;
步骤10、将步骤8的回归分数作为预测分数,如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5,则表示分类正确。
2.根据权利要求1所述的一种基于多模态学习的美学质量评价方法,其特征在于,步骤2中,图像数据是AVA数据集的美学图像,每一张的分辨率大小不等;对于训练集,对所有图像进行数据增强,即每一张图像会进行重塑,再进行随机水平翻转和随机裁剪。
3.根据权利要求1所述的一种基于多模态学习的美学质量评价方法,其特征在于,步骤3中,文本数据是在根据每张美学图像爬取的评论集,按照#划分出每句评论,最后将图像数据和对应的文本数据建立成一个输入集。
4.根据权利要求1所述的一种基于多模态学习的美学质量评价方法,其特征在于,步骤6中,多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征;
在交叉注意力层中,图像部分使用自身的查询向量,使用文本的键向量和值向量;同样地,文本部分使用自身的查询向量,使用图像的键向量和值向量,其计算交叉注意力计算如下:
Figure QLYQS_14
其中,A代表计算注意力,
Figure QLYQS_15
是键向量Key的维度,
Figure QLYQS_16
Figure QLYQS_17
代表所有标记Token的键向量值向量Value,
Figure QLYQS_18
代表图像或文本的查询向量;
经过交叉注意力层后,最后会经过前馈神经网络层,其中对于视觉特征会先经过一维自适应平均池化层,再通过head pooler映射成batchsize×768,而文本特征直接经过headpooler后也映射成batchsize×768;其中,head pooler中选取第一个token的tensor作为最重要信息;最后将得到融合文本信息的图像特征
Figure QLYQS_19
、融合图像信息的文本特征
Figure QLYQS_20
以及拼接后的融合特征
Figure QLYQS_21
Figure QLYQS_22
Figure QLYQS_23
5.根据权利要求1所述的一种基于多模态学习的美学质量评价方法,其特征在于,在数据处理模块中,所有图像数据通过深度学习的函数进行数据增强,并附加划分后的文本数据,形成一个输入集;将输入集进行划分训练集、验证集和测试集,作为后续模块的前置条件。
6.根据权利要求1所述的一种基于多模态学习的美学质量评价方法,其特征在于,所述视觉Transformer模块基于输入集,提取出图像特征;如果是视觉单模态流,将图像特征映射成美学预测分布;如果作为多模态融合模块的前置部分,则仅提取特征。
7.根据权利要求1所述的一种基于多模态学习的美学质量评价方法,其特征在于,所述文本Transformer模块基于输入集,使用BERT和RoBERTa预训练模型,针对每句评论,通过分词器将其拆分并标记,增加[CLS]用来标记头部,增加[SEP]用来标记尾部;如果是文本单模态流,最后将CLS Token经过的分类器输出预测美学分数分布;如果作为多模态融合模块的前置部分,则仅提取特征。
8.根据权利要求1所述的一种基于多模态学习的美学质量评价方法,其特征在于,多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。
9.根据权利要求1所述的一种基于多模态学习的美学质量评价方法,其特征在于,统一美学预测任务模块将多模态融合模块提取的多模态融合特征,经过映射分类后得到1到10分的预测分数分布
Figure QLYQS_24
;然后通过numpy函数生成从1到10的等差数列分布
Figure QLYQS_25
将两个分布分别相乘求和得到美学回归分数;根据真实得分占比得到真实分数分布
Figure QLYQS_26
;将预测分数分布和真实分数分布比较,计算其斯皮尔曼等级相关系数SRCC和皮尔逊线性相关系数PLCC;将预测分数大于5且实际分数也大于5或者预测分数小于5且实际分数也小于5视为分类正确,并计算分类准确率。
CN202211611537.2A 2022-12-15 2022-12-15 一种基于多模态学习的美学质量评价模型和方法 Active CN115601772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211611537.2A CN115601772B (zh) 2022-12-15 2022-12-15 一种基于多模态学习的美学质量评价模型和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211611537.2A CN115601772B (zh) 2022-12-15 2022-12-15 一种基于多模态学习的美学质量评价模型和方法

Publications (2)

Publication Number Publication Date
CN115601772A CN115601772A (zh) 2023-01-13
CN115601772B true CN115601772B (zh) 2023-05-02

Family

ID=84854124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211611537.2A Active CN115601772B (zh) 2022-12-15 2022-12-15 一种基于多模态学习的美学质量评价模型和方法

Country Status (1)

Country Link
CN (1) CN115601772B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984842A (zh) * 2023-02-13 2023-04-18 广州数说故事信息科技有限公司 一种基于多模态的视频开放标签提取方法
CN116533529B (zh) * 2023-05-12 2023-09-29 湖州东尼新能源有限公司 超声波焊接pc片的智能化控制方法及系统
CN117217710B (zh) * 2023-10-19 2024-07-02 深圳市金文网络科技有限公司 一种虚拟商品与快捷服务的智能化管理方法及系统
CN117173163A (zh) * 2023-11-01 2023-12-05 浙江同花顺智能科技有限公司 一种人像质量评估方法、系统、装置和可读存储介质
CN118154571A (zh) * 2024-04-01 2024-06-07 深圳大学 一种ai图像的图像质量评价方法、系统、设备及介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5168147A (en) * 1990-07-31 1992-12-01 Xerox Corporation Binary image processing for decoding self-clocking glyph shape codes
US8311364B2 (en) * 2009-09-25 2012-11-13 Eastman Kodak Company Estimating aesthetic quality of digital images
CN106383984A (zh) * 2016-08-30 2017-02-08 南京邮电大学 基于mmtd的大数据数据质量有效性评价方法
CN108764209A (zh) * 2018-06-11 2018-11-06 南京邮电大学 一种基于监控视频的人物异常行为自动检测方法
CN109801256B (zh) * 2018-12-15 2023-05-26 华南理工大学 一种基于感兴趣区域和全局特征的图像美学质量评估方法
CN110853032B (zh) * 2019-11-21 2022-11-01 北京航空航天大学 基于多模态深度学习的无人机视频标签获取方法
CN112749608B (zh) * 2020-06-08 2023-10-17 腾讯科技(深圳)有限公司 视频审核方法、装置、计算机设备和存储介质
CN112580636B (zh) * 2020-12-30 2024-08-06 杭州电子科技大学 一种基于跨模态协同推理的图像美学质量评价方法
CN113095421B (zh) * 2021-04-20 2024-03-05 北京百度网讯科技有限公司 生成字体数据库的方法、神经网络模型的训练方法和装置
CN113486173B (zh) * 2021-06-11 2023-09-12 南京邮电大学 文本标注神经网络模型及其标注方法
CN114549850B (zh) * 2022-01-24 2023-08-08 西北大学 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114842488A (zh) * 2022-04-29 2022-08-02 北京三快在线科技有限公司 图像标题文本确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115601772A (zh) 2023-01-13

Similar Documents

Publication Publication Date Title
CN115601772B (zh) 一种基于多模态学习的美学质量评价模型和方法
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN109544524B (zh) 一种基于注意力机制的多属性图像美学评价系统
Zhang et al. A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction
CN107133211B (zh) 一种基于注意力机制的作文评分方法
CN107480206B (zh) 一种基于多模态低秩双线性池化的图像内容问答方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN109902912B (zh) 一种基于性格特征的个性化图像美学评价方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN112949622B (zh) 融合文本与图像的双模态性格分类方法及装置
CN115186110B (zh) 基于关系增强负采样的多模态知识图谱补全方法与系统
CN113657380B (zh) 融合多模态注意力机制的图像美学质量评价方法
CN114360005B (zh) 一种基于AU区域和多层级Transformer融合模块的微表情分类方法
CN113837229B (zh) 一种知识驱动型的文本到图像生成方法
Yang et al. A comprehensive survey on image aesthetic quality assessment
CN116844179A (zh) 基于多模态交叉注意力机制图文融合的情感分析方法
CN112767386B (zh) 基于主题特征和评分分布的图像美学质量评价方法及系统
Liao et al. Hierarchical coherence modeling for document quality assessment
CN111683294B (zh) 一种信息抽取的弹幕评论推荐方法
CN116758402B (zh) 图像人物关系识别方法、系统、设备及存储介质
CN114329025A (zh) 基于对抗生成网络的跨模态文本到图像生成方法
CN117076608A (zh) 一种基于文本动态跨度的整合外部事件知识的脚本事件预测方法及装置
CN114416914B (zh) 一种基于图片问答的处理方法
CN114818739A (zh) 一种利用位置信息优化的视觉问答方法
CN113610128B (zh) 基于美学属性检索的图片美学描述建模、描述方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant