CN115601772A - 一种基于多模态学习的美学质量评价模型和方法 - Google Patents

一种基于多模态学习的美学质量评价模型和方法 Download PDF

Info

Publication number
CN115601772A
CN115601772A CN202211611537.2A CN202211611537A CN115601772A CN 115601772 A CN115601772 A CN 115601772A CN 202211611537 A CN202211611537 A CN 202211611537A CN 115601772 A CN115601772 A CN 115601772A
Authority
CN
China
Prior art keywords
aesthetic
text
image
score
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211611537.2A
Other languages
English (en)
Other versions
CN115601772B (zh
Inventor
亓晋
苏灿
胡筱旋
孙莹
孙雁飞
董振江
许斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202211611537.2A priority Critical patent/CN115601772B/zh
Publication of CN115601772A publication Critical patent/CN115601772A/zh
Application granted granted Critical
Publication of CN115601772B publication Critical patent/CN115601772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像处理技术领域,公开了一种基于多模态学习的美学质量评价模型和方法,其根据文本信息和图像信息,在图像特征和文本特征提取后,基于跨越注意力机制,动态融合图像与文本之间的信息;在多模态学习的基础上使用Transformer作为骨干网络,不考虑传统的CNN方法,通过视觉和文本Transformer分别提取图像特征和高级语义,从而实现基于多模态学习的纯Transformer美学质量评价模型和方法。本发明有效提高了美学质量评价的准确率和其他评价指标;有利于促进美学应用,加快深度学习在未来美学领域的发展。

Description

一种基于多模态学习的美学质量评价模型和方法
技术领域
本发明属于图像处理技术领域,具体是涉及一种基于多模态学习的美学质量评价模型和方法。
背景技术
美学是研究人与世界审美关系、人类审美意识等审美范畴的一门重要学科。视觉美学质量是视觉感知美的一种度量。图像的视觉美学质量衡量了在人类眼中一幅图像的视觉吸引力。由于视觉美学是一个主观的属性,往往涉及到情感和思想等抽象物质,这使得自动评估图像美学质量是一项非常主观的任务。然而,人们往往会达成一种共识,即一些图像在视觉上比其他图像更有吸引力,这是新兴研究领域——可计算美学的原理之一。
在信息爆炸的时代,纯Transformer美学研究如何用可计算技术来预测人类对视觉刺激产生的情绪反应,使计算机模仿人类的审美过程,从而用可计算方法来自动预测图像的美学质量。审美是人们与生俱来的能力,研究利用人工智能技术让计算机感知“美”、发现“美”并且生成“美”的技术可以让计算机了解并学习专业摄影师的思维过程,为人们拍摄照片提供专业的美学建议,这是一个非常具有挑战性的任务。以人工智能为核心的图像美学质量评价和美学质量提升技术为人们获得高美学质量的照片提供了经济可行的解决方案,同时推进了人工智能技术模拟人审美和思维过程的发展。
基于美学的图像质量评价方法的研究除了有上述的科学价值,还有广泛的应用价值。比如美学辅助搜索引擎,搜索引擎根据用户的查询检索大量的相关结果,然而,排在检索结果最前面的搜索结果通常不具有视觉吸引力。在这种情况下,用户需要浏览更多结果以找到既与查询相关又令人感到视觉满意的结果。此时,图像美学质量评价方法可以作为后续处理步骤,根据美学质量重新排列检索到的图像。这样使位于检索结果顶部的检索图像都是高美学质量的图像。未来,基于美学的排名还可以与其他标准相结合,以便在图像搜索引擎中提供更好的用户体验。再比如,自动图像增强,照片编辑工具通常用来根据用户的意图修改照片的某些特性。像Adobe Photoshop这样的商业软件就提供了这样的工具,但这通常需要用户对设计概念和摄影理论有很好的了解。对普通用户来说,他们不清楚图像的哪些元素需要编辑,以及如何编辑它们以使图像更具吸引力。在这种情况下,自动增强图像美学质量的自动照片编辑工具是非常有用的。这些尝试证明了美学评估技术的巨大潜力,它使计算机不仅可以告诉用户照片是否美观,还可以帮助用户自动增强照片的视觉吸引力。
传统的美学质量评价方法,一方面采用基于图像的评价方式,即在特征提取步骤中只使用了美学图像作为原始数据,通过神经网络从原始图像中学习到美学特征,根据损失函数训练出美学模型中,并选择合适的评价指标,预测出美学质量分数。然而,基于图像的评价方法忽略了美学评论的高级语义,只使用图像作为原始数据不能很好地体现人类主观视觉的想法,从而让纯Transformer美学的原理更偏向于一个黑盒,不容易被理解,而这些主观情绪往往隐藏于评论的信息之中。另一方面传统的方法大多采用基于CNN的评价方法,即以卷积神经网络为骨干网络,完成特征提取的操作;而基于CNN的评价方法在全局建模和长距离建模能力上具有局限性,并且在多模态领域上不适合进行模态信息之间的交互。如专利申请CN111507941A公开了一种用于美学质量评价的构图表征学习方法,其通过双线性CNN提取了两种特征并融合,但未考虑到多模态信息的融合,缺少美学评论的高级语义,忽略了文本给美学质量评价带来的有效信息;再如专利申请CN113657380A公开了一种融合多模态注意力机制的图像美学质量评价方法,同样使用CNN作为骨干网络,并使用注意力机制融合模态信息。然而该方法使用CNN作为骨干网络在长距离建模和多模态融合中具有局限性,造成全局信息缺失等问题,不利于美学质量评价模型的建模。并且该方法的融合方式属于前期融合,不能很好地体现多模态之间的复杂关系,而注意力机制是Transformer的内在优势,通过注意力机制中期融合的方式更具有多模态融合和建模能力。因此,美学质量评价方法还有待提升。
发明内容
为解决上述技术问题,本发明提供了一种基于多模态学习的美学质量评价模型和方法,其通过数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块构建评价模型;根据文本信息和图像信息,在图像特征和文本特征提取后,基于跨越注意力机制,动态融合图像与文本之间的信息;考虑到传统的CNN方法在多模态领域具有局限性,所以在多模态学习的基础上使用多模态融合能力强的Transformer作为骨干网络,不考虑传统的CNN方法,通过视觉和文本Transformer分别提取图像特征和高级语义,并使用更能体现多模态复杂关系的中期融合方式融合特征,从而实现基于多模态学习的纯Transformer美学质量评价方法。
本发明所述的一种基于多模态学习的美学质量评价模型,其采用的技术方案是,包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块;
所述数据处理模块用于处理模型训练所需要的数据,并构建输入集分别传送给视觉Transformer模块和文本Transformer模块;
所述视觉Transformer模块作为视觉特征提取器,用于提取视觉特征;
所述文本Transformer模块作为文本特征提取器,用于提取高级语义;
所述多模态融合模块用于融合视觉特征和文本特征,交互两者之间的信息以产生最终输出送入统一美学预测任务模块;
所述统一美学预测任务模块多模态融合模块融合的特征,用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。
进一步的,在数据处理模块中,所有图像数据通过深度学习的函数进行数据增强,并附加划分后的文本数据,形成一个输入集;将输入集进行划分训练集、验证集和测试集,作为后续模块的前置条件。
进一步的,所述视觉Transformer模块基于输入集,提取出图像特征;如果是视觉单模态流,将图像特征映射成美学预测分布;如果作为多模态融合模块的前置部分,则仅提取特征。
进一步的,所述文本Transformer模块基于输入集,使用BERT和RoBERTa预训练模型,针对每句评论,通过分词器将其拆分并标记,增加[CLS]用来标记头部,增加[SEP]用来标记尾部;如果是文本单模态流,最后将CLS Token经过的分类器输出预测美学分数分布;如果作为多模态融合模块的前置部分,则仅提取特征。
进一步的,多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。
进一步的,统一美学预测任务模块将多模态融合模块提取的多模态融合特征,经 过映射分类后得到1到10分的预测分数分布
Figure DEST_PATH_IMAGE001
;然后通过numpy函数生成 从1到10的等差数列分布
Figure 383790DEST_PATH_IMAGE002
将两个分布分别相乘求和得到美学回归分数;根 据真实得分占比得到真实分数分布
Figure DEST_PATH_IMAGE003
;将预测分数分布和真实分数分布比 较,计算其斯皮尔曼等级相关系数SRCC和皮尔逊线性相关系数PLCC;将预测分数大于5且实 际分数也大于5或者预测分数小于5且实际分数也小于5视为分类正确,并计算分类准确率。
一种基于多模态学习的美学质量评价方法,基于所述的美学质量评价模型,所述方法的步骤为:
步骤1、根据AVA数据集及其评论数据集,按照标准数据集的划分方法,随机选取90%图像作为训练集,其余10%作为测试集;
步骤2、利用数据处理模块,对图像数据进行预处理,得到数据增强后的图像;
步骤3、利用数据处理模块,对评论数据进行预处理,将图像和对应的评论构建成一个输入集;
步骤4、利用视觉Transformer模块提取美学图像特征F vision ;如果是视觉单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取图像特征作为多模态融合层的输入;
步骤5、利用文本Transformer模块提取美学高级语义F text ;如果是文本单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取文本特征作为多模态融合层的输入;
步骤6、利用多模态融合模块,将以上模块提取到的视觉特征和文本特征输入到该 模块中,得到融合文本信息的图像特征
Figure 53674DEST_PATH_IMAGE004
、融合图像信息的文本特征
Figure DEST_PATH_IMAGE005
以及拼接后的融合 特征
Figure 775512DEST_PATH_IMAGE006
步骤7、使用EMDLoss作为损失函数,计算出模型损失以完成训练;其中,
Figure DEST_PATH_IMAGE007
代表 美学实际分数分布,分别对应1-10主观评分数,
Figure 138229DEST_PATH_IMAGE008
代表预测分数分布,
Figure DEST_PATH_IMAGE009
是累积分 布分数,
Figure 719252DEST_PATH_IMAGE010
代表分数桶总数,由于美学特征空间中都是二维矩阵,将
Figure DEST_PATH_IMAGE011
设置为2,表示在
Figure 216265DEST_PATH_IMAGE012
之间惩罚欧氏距离;
Figure DEST_PATH_IMAGE013
步骤8、利用统一美学预测任务模块,将提取后的特征通过分类层映射为预测美学 分布
Figure 527029DEST_PATH_IMAGE001
并生成从1到10的等差数列分布,将预测美学分布和等差数列分 布分别相乘求和得到美学回归分数;按照5分为阈值,美学回归分数高于阈值的图像被划分 为高质量图像,美学回归分数低于阈值的图像被划分为低质量图像;
步骤9、将预测的美学分布
Figure 185281DEST_PATH_IMAGE014
与实际美学分布
Figure DEST_PATH_IMAGE015
相比较,计算出 两者的皮尔逊相关系数PLCC和斯皮尔曼相关系数SRCC,其绝对值越接近于1表示更具有相 关性,即模型预测美学分数与实际人类主观评价分数一致性越高;
步骤10、将步骤8的回归分数作为预测分数,如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5,则表示分类正确。
进一步的,步骤2中,图像数据是AVA数据集的美学图像,每一张的分辨率大小不等;对于训练集,对所有图像进行数据增强,即每一张图像会进行重塑,再进行随机水平翻转和随机裁剪。
进一步的,步骤3中,文本数据是在根据每张美学图像爬取的评论集,按照#划分出每句评论,最后将图像数据和对应的文本数据建立成一个输入集。
进一步的,步骤6中,多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征;
在交叉注意力层中,图像部分使用自身的查询向量,使用文本的键向量和值向量;同样地,文本部分使用自身的查询向量,使用图像的键向量和值向量,其计算交叉注意力计算如下:
Figure 847076DEST_PATH_IMAGE016
其中,A代表计算注意力,
Figure DEST_PATH_IMAGE017
是键向量Key的维度,
Figure 124342DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
代表所有标记Token的键 向量值向量Value,
Figure 148668DEST_PATH_IMAGE020
代表图像或文本的查询向量;
经过交叉注意力层后,最后会经过前馈神经网络层,其中对于视觉特征会先经过 一维自适应平均池化层,再通过head pooler映射成batchsize×768,而文本特征直接经过 head pooler后也映射成batchsize×768;其中,head pooler中选取第一个token的tensor 作为最重要信息;最后将得到融合文本信息的图像特征
Figure DEST_PATH_IMAGE021
、融合图像信息的文本特征
Figure 790871DEST_PATH_IMAGE022
以 及拼接后的融合特征
Figure DEST_PATH_IMAGE023
Figure 205540DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
本发明所述的有益效果为:1)本发明提出基于多模态学习的纯Transformer美学质量评价模型和方法,利用数据处理模块有效提取处理美学图像和美学评论,并展现出信息的高度互补性,有效提高了美学质量评价的准确率和其他评价指标;
2)该发明利用多模态学习中的交叉注意力机制,在视觉特征和文本特征提取之后,送入多模态融合层,通过注意力机制中特有的查询向量、键向量、值向量,交互图像与文本两者的信息,相比传统前期融合等方式,有效加强了模态之间的联系,拓宽了多模态学习在实际美学应用场景的范围;
3)采用端到端纯Transformer模型,不使用传统的CNN模型,不考虑CNN带来的图像先验;利用Swin Transformer和BERT在计算机视觉领域和自然语言处理领域下游任务的优异表现,再融合交叉注意力机制,实现一个完全基于Transformer的模型方法,弥补了单模态信息以及传统CNN的局限性,在美学领域为Transformer带来了一条全新的路径;
4)通过多模态学习获得的准确性高的美学质量评价模型有利于提升现实美学质量评价的意义,有利于促进美学应用,比如图像增强、辅助检索等发展,有利于加快深度学习在未来美学领域的发展。
附图说明
图1是基于多模态学习的纯Transformer美学质量评价模型结构示意图;
图2是基于多模态学习的纯Transformer美学质量评价方法流程图;
图3是多模态美学模型消融实验示意图。
具体实施方式
为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。
本发明所述的基于多模态学习的美学质量评价模型如图1所示,包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块、统一美学预测任务模块。本发明对目前规模最大的公开美学质量评估数据库AVA(Aesthetic Visual AnalysisDataste)数据集进行了实验,该数据集包含255530张图像,每张图像大概有210人评分,分数范围为1到10分,并且每张图像都有包含用户主观想法的评论。我们在此数据集上进行了有效性验证。
模块具体内容如下:
(1)数据处理模块:
用于处理模型训练所需要的数据,包括图像数据和文本数据。其中图像数据是AVA数据集的美学图像,每一张的分辨率大小不等。在训练集中,为了防止过拟合,对所有图像进行数据增强,即每一张图像会进行重塑,再进行随机水平翻转和随机裁剪。在验证集中,每一张图像将会进行直接重塑。文本数据是在根据每张美学图像爬取的评论集,按照#划分出每句评论,最后将图像数据和对应的文本数据建立成一个输入集。利用PytorchLightning框架中DataModule模块将数据处理模块中的输入集进行划分训练集、测试集,作为后续模块的前置条件。其中批次大小设置为16。
(2)视觉Transformer模块:
用于提取视觉特征的Transformer模块。不采用传统的CNN模型,不考虑CNN带来的先验知识,直接使用建模能力强的视觉Transformer作为视觉特征提取器。基于在多数下游任务表现优异的Swin Transformer模型作为基线,使用三种不同参数量大小的预训练权重。
美学图像在数据处理后,会经过斑块划分模块,变换后再进入四层基础层,最后提取得出图像特征。如果是视觉单模态流,最后的输出将送入提出来的分类层模块之中,将图像特征映射成美学预测分布。如果作为多模态融合模块的前置部分,则仅提取特征。
(3)文本Transformer模块:
用于提取高级语义的Transformer模块。不采用传统的CNN模型,不考虑CNN带来的先验知识,直接使用建模能力强的文本Transformer作为文本特征提取器;基于在自然语言处理领域表现优异的BERT模型作为基线,使其满足预测美学分数的各种任务。在模型中,对应图像的美学评论进入嵌入层,得到对应的标记嵌入和句子嵌入,并随同位置编码一起送入模型中。
训练过程中,我们使用两种预训练模型。针对每句评论,通过分词器(Tokenizer)将其拆分并标记,增加[CLS]用来标记头部,增加[SEP]用来标记尾部。如果是文本单模态流,最后将CLS Token经过的分类器输出预测美学分数分布;如果作为多模态融合模块的前置部分,则仅提取特征。根据美学图像对应评论的多重性,即美学图像对应评论数目不一,我们对每句评论分别进行预测,并将所有预测结果求和平均得到最终预测分布;最后得到的文本特征将会送入多模态融合模块。
(4)多模态融合模块:
用于融合视觉特征和文本特征,交互两者之间的信息。在研究了视觉Transformer和文本Transformer的基础上,将交叉注意力运用到模态的融合之中,通过交叉注意力来分享文本与视觉之间的信息。不同于文本和视觉特征被简单地串联在一起,然后被送入一个单一的转换块。在交叉注意力方法中,文本和视觉特征被独立地送入不同的转换块,通过视觉编码器和文本编码器提取文本特征和视觉特征,然后送入多模态融合模块以产生最终输出。
具体来说,图像和文本需要分别经过带有预训练权重的视觉编码器和文本编码器。数据经过编码器后会经过M层多模态融合层,每一层都包括一个自注意力块、一个交叉注意力块和一个前馈神经网络。得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层。最后我们将得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。
多模态融合模块中,在视觉流中,我们删除了映射分类部分,图像在经过模块2后得到大小为batchsize×49×768的图像特征,将此作为嵌入送入多模态融合层。在文本流中,同样也删除了映射分类部分,文本在经过模块3后得到大小为batchsize×length×768,其中length表示当前评论集中最长评论的长度,将此作为嵌入送入多模态融合层。得到视觉特征和文本特征之后,送入自注意力层后再经过Cross Attention层。其中Cross层以BertCrossLayer为基础,输入为文本视觉特征和对应的mask,输出为融合另一模态信息的图像特征和文本特征;最后再经过前馈神经网络层(FFN),其中对于视觉特征会先经过一维自适应平均池化层,再通过head pooler映射成batchsize×768。而文本特征直接经过head pooler后也映射成batchsize×768。其中,head pooler中我们选取了第一个token的tensor作为最重要信息。最后我们将得到融合文本信息的图像特征、融合图像信息的文本特征以及concat后的融合特征。融合特征将会送入统一美学预测任务模块。
(5)统一美学预测任务模块
用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。每一 张图像在经过以上的模块之后,经过映射分类得到1到10分的预测分数分布
Figure 850279DEST_PATH_IMAGE026
,得到预测分布后,生成从1到10的等差数列分布
Figure DEST_PATH_IMAGE027
,将两 个分布分别相乘求和得到美学回归分数。根据真实得分占比得到真实分数分布
Figure 401215DEST_PATH_IMAGE028
;将预测分数分布和真实图像评分分布做对比,计算其SRCC和PLCC,以完 成美学评分分布预测任务。将预测分数大于5且实际分数也大于5或者预测分数小于5且实 际分数也小于5视为分类正确,并完成美学评分分类任务。对于美学评分回归任务,我们使 用两个广泛的指标,即皮尔逊线性相关系数(PLCC)和斯皮尔曼等级相关系数(SRCC),前者 用于评价美学预测的准确性,后者用于评价美学预测的单调性,两者都可以验证客观评价 结果和主观评价结果之间的紧密程度。对于美学评分分类任务,使用最常见的评价指标:分 类准确率;
以一组训练集中图像及对应评论为例,图像实际分辨率为R1×R2,经过重塑后得到256×256大小的图像,再经过随机水平翻转和随机裁剪后得到224×224大小的输入图像。对应图像的美学评论进入嵌入层,得到对应的标记嵌入,并附加位置编码作为输入评论。在进入对应的Transformer之前,图像和评论都转化为tensor。
在视觉Transformer模块,图像将会得到大小为49×768的图像特征,将此作为嵌入送入多模态融合层。同样地,在文本Transformer模块,文本将会得到大小为length×768的文本特征,其中length表示当前评论集中最长评论的长度,将此作为嵌入送入多模态融合层。
经过多模态融合层交互信息后,其中对于视觉特征会先经过一维自适应平均池化层,再通过head pooler映射成batchsize×768。而文本特征直接经过head pooler后也映射成batchsize×768。其中,head pooler中选取了第一个token的tensor作为最重要信息。最后将得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。
得到特征以后,输入到自定义分类层,输出美学预测分布
Figure 135691DEST_PATH_IMAGE026
,与 实际美学分布相比较,计算出两者的PLCC和SRCC。
在得到预测分布后,生成从1到10的等差数列分布,将两个分布分别相乘求和得到美学回归分数;如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5,则表示分类正确。模型在训练过程中使用EMDloss作为损失函数。
一种基于多模态学习的美学质量评价方法如图2所示,基于所述的美学质量评价模型,所述方法的步骤为:
步骤1、根据AVA数据集及其评论数据集,按照标准数据集的划分方法,随机选取90%图像作为训练集,其余10%作为测试集;
步骤2、利用数据处理模块,对图像进行预处理;对于训练集,先将图像缩放到256×256大小,再进行随机裁剪成224×224大小;对于测试集,直接将图像缩放到224×224大小;为了增强模型鲁棒性,对训练集图像进行随机水平翻转;
步骤3、利用数据处理模块,对评论进行预处理;根据每张图像ID获取其对应的评论组,并按照#划分出不同的评论,并将图像和对应的评论形成样例作为输入;
步骤4、利用视觉Transformer模块,对三种预训练的Swin Transformer模型进行微调以提取到美学图像特征F vision ;如果是视觉单模态流,则将此特征直接用于后续的美学预测任务中;如果是视觉单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取图像特征作为多模态融合层的输入;
步骤5、利用文本Transformer模块,对两种预训练的BERT模型进行微调以提取到美学高级语义F text ;如果是文本单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取文本特征作为多模态融合层的输入;
步骤6、利用多模态融合模块,将以上模块提取到的视觉特征和文本特征输入到该 模块中,得到融合文本信息的图像特征
Figure 663755DEST_PATH_IMAGE004
、融合图像信息的文本特征
Figure 407458DEST_PATH_IMAGE005
以及拼接后的融合 特征
Figure 907841DEST_PATH_IMAGE006
;其中
Figure DEST_PATH_IMAGE029
Figure 423005DEST_PATH_IMAGE030
,Length表示当前评论集中最长评论 的长度;
所述多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征;
在交叉注意力层中,图像部分使用自身的查询向量,使用文本的键向量和值向量;同样地,文本部分使用自身的查询向量,使用图像的键向量和值向量,其计算交叉注意力计算如下:
Figure DEST_PATH_IMAGE031
其中,A代表计算注意力,
Figure 281108DEST_PATH_IMAGE017
是键向量Key的维度,
Figure 828502DEST_PATH_IMAGE018
Figure 714549DEST_PATH_IMAGE019
代表所有标记Token的键 向量值向量Value,
Figure 321986DEST_PATH_IMAGE020
代表图像或文本的查询向量;
经过交叉注意力层后,最后会经过前馈神经网络层,其中对于视觉特征会先经过 一维自适应平均池化层,再通过head pooler映射成batchsize×768,而文本特征直接经过 head pooler后也映射成batchsize×768;其中,head pooler中选取第一个token的tensor 作为最重要信息;最后将得到融合文本信息的图像特征
Figure 293484DEST_PATH_IMAGE021
、融合图像信息的文本特征
Figure 378989DEST_PATH_IMAGE022
以 及拼接后的融合特征
Figure 119543DEST_PATH_IMAGE023
Figure 655740DEST_PATH_IMAGE024
Figure 442430DEST_PATH_IMAGE025
步骤7、使用EMDLoss作为损失函数,计算出模型损失以完成训练;其中,
Figure 331626DEST_PATH_IMAGE007
代表 美学实际分数分布,分别对应1-10主观评分数,
Figure 192266DEST_PATH_IMAGE008
代表预测分数分布,
Figure 875926DEST_PATH_IMAGE009
是累积分 布分数,
Figure 556437DEST_PATH_IMAGE010
代表分数桶总数,由于美学特征空间中都是二维矩阵,将
Figure 390270DEST_PATH_IMAGE011
设置为2,表示在
Figure 370995DEST_PATH_IMAGE012
之间惩罚欧氏距离;
Figure 225557DEST_PATH_IMAGE013
步骤8、利用统一美学预测任务模块,将提取后的特征通过分类层映射为预测美学 分布
Figure 127785DEST_PATH_IMAGE001
,并生成从1到10的等差数列分布,将预测美学分布和等差数列分 布分别相乘求和得到美学回归分数;按照5分为阈值,美学回归分数高于阈值的图像被划分 为高质量图像,美学回归分数低于阈值的图像被划分为低质量图像;
步骤9、将预测的美学分布
Figure 624363DEST_PATH_IMAGE014
与实际美学分布
Figure 521912DEST_PATH_IMAGE015
相比较,计算出 两者的皮尔逊相关系数PLCC和斯皮尔曼相关系数SRCC,其绝对值越接近于1表示更具有相 关性,即模型预测美学分数与实际人类主观评价分数一致性越高;
步骤10、将步骤8的回归分数作为预测分数,如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5,则表示分类正确。
如图3所示,我们为评价所提出框架中各个组件的贡献,构建了七个不同的变体进行消融实验:1)视觉流:一个只基于原始Swin transformer的视觉网络和一个带有我们Classifier层的swintransformer网络;2)文本流:一个完全基于BERT的文本网络和一个基于RoBERTa的文本网络;3)多模态流:一个仅使用图像特征的AesMER,一个仅使用文本特征的AesMER和我们提出的AesMER。所有的消融实验使用的数据集数目和大小都是统一的,而且训练参数也设置一样。为了验证我们所提出框架的有效性,我们将其与其他的变体进行比较。
首先对于视觉流而言,我们在没有对Swin Transformer做任何调整的情况下,就能达到81.02%的准确率,并在LCC和SRCC上分别获得0.7169和0.7081的成绩,超越了大部分以CNN为基础架构的模型,这表明ViT在美学领域具有很强的潜力。另外,在使用我们提出的Classifier layer之后,Swin transformer的美学预测能力也有了不少的提升,这是由于相比单线性层分类,我们的Classifier更能体现美学特征与真实分布之间的关系。
其次,在文本流中,Transformer的性能更优于视觉流的ViT,BERT和RoBERTa分别取得了81.75%和82.05%的准确率,说明文本的语义信息相比图像特征更能表达美学的含义,这也解释了为什么Transformer在NLP能占据主导地位。其中可以看到,在SRCC和LCC两个指标上,文本流大幅超过视觉流。这是由于部分用户会将给出的评分直接展现在评论之中,使得预测的主观质量分数与真实主观质量分数更接近。
最后,在多模态流中,可以看出我们提出的方法在性能上大幅提高。经过多模态层提取的图像特征和文本特征在各项数值上要优于单模态提取的特征。而将两种特征concat后,其准确率更是达到了84.13%,相比单模态的ViT,提高了3.10%。而对于LCC和SRCC两项指标,更是提高了9.59%和9.08%,这是相当明显的提升。这说明,美学图像和评论信息是高度互补的,也显示了交叉注意力在多模态融合过程中起到的重要作用。
本发明针对现有美学质量评价方法的准确率和质量评价指标低、建模能力差等问题,利用Transformer的长距离特征提取能力和强建模能力,以及多模态学习的信息融合能力,设计一个能够根据多模态信息有效构建美学质量评价模型的方案,从而实现一个适用于统一美学预测任务的美学质量评价评价方法,从上述可知,本发明所述的方法利用美学图像和美学评论的高度信息互补性,有效提高了美学质量评价的准确率和其他评价指标;有利于促进美学应用,加快深度学习在未来美学领域的发展。
以上所述仅为本发明的优选方案,并非作为对本发明的进一步限定,凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims (10)

1.一种基于多模态学习的美学质量评价模型,其特征在于,包括数据处理模块、视觉Transformer模块、文本Transformer模块、多模态融合模块和统一美学预测任务模块;
所述数据处理模块用于处理模型训练所需要的数据,并构建输入集分别传送给视觉Transformer模块和文本Transformer模块;
所述视觉Transformer模块作为视觉特征提取器,用于提取视觉特征;
所述文本Transformer模块作为文本特征提取器,用于提取高级语义;
所述多模态融合模块用于融合视觉特征和文本特征,交互两者之间的信息以产生最终输出送入统一美学预测任务模块;
所述统一美学预测任务模块多模态融合模块融合的特征,用于完成美学评分分布预测、美学评分回归和美学评分分类三项美学任务。
2.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,在数据处理模块中,所有图像数据通过深度学习的函数进行数据增强,并附加划分后的文本数据,形成一个输入集;将输入集进行划分训练集、验证集和测试集,作为后续模块的前置条件。
3.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,所述视觉Transformer模块基于输入集,提取出图像特征;如果是视觉单模态流,将图像特征映射成美学预测分布;如果作为多模态融合模块的前置部分,则仅提取特征。
4.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,所述文本Transformer模块基于输入集,使用BERT和RoBERTa预训练模型,针对每句评论,通过分词器将其拆分并标记,增加[CLS]用来标记头部,增加[SEP]用来标记尾部;如果是文本单模态流,最后将CLS Token经过的分类器输出预测美学分数分布;如果作为多模态融合模块的前置部分,则仅提取特征。
5.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征。
6.根据权利要求1所述的一种基于多模态学习的美学质量评价模型,其特征在于,统一 美学预测任务模块将多模态融合模块提取的多模态融合特征,经过映射分类后得到1到10 分的预测分数分布
Figure 924603DEST_PATH_IMAGE001
;然后通过numpy函数生成从1到10的等差数列分布
Figure 294273DEST_PATH_IMAGE002
将两个分布分别相乘求和得到美学回归分数;根据真实得分占比得到真实 分数分布
Figure 120015DEST_PATH_IMAGE003
;将预测分数分布和真实分数分布比较,计算其斯皮尔曼等级 相关系数SRCC和皮尔逊线性相关系数PLCC;将预测分数大于5且实际分数也大于5或者预测 分数小于5且实际分数也小于5视为分类正确,并计算分类准确率。
7.一种基于多模态学习的美学质量评价方法,其特征在于,基于权利要求1-6任一项所述的模型,所述方法的步骤为:
步骤1、根据AVA数据集及其评论数据集,按照标准数据集的划分方法,随机选取90%图像作为训练集,其余10%作为测试集;
步骤2、利用数据处理模块,对图像数据进行预处理,得到数据增强后的图像;
步骤3、利用数据处理模块,对评论数据进行预处理,将图像和对应的评论构建成一个输入集;
步骤4、利用视觉Transformer模块提取美学图像特征F vision ;如果是视觉单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取图像特征作为多模态融合层的输入;
步骤5、利用文本Transformer模块提取美学高级语义F text ;如果是文本单模态流,则将此特征直接用于后续的美学预测任务中;如果作为多模态融合模块的前置部分,则仅提取文本特征作为多模态融合层的输入;
步骤6、利用多模态融合模块,将以上模块提取到的视觉特征和文本特征输入到该模块 中,得到融合文本信息的图像特征
Figure 92388DEST_PATH_IMAGE004
、融合图像信息的文本特征
Figure 313285DEST_PATH_IMAGE005
以及拼接后的融合特征
Figure 244070DEST_PATH_IMAGE006
步骤7、使用EMDLoss作为损失函数,计算出模型损失以完成训练;其中,
Figure 88267DEST_PATH_IMAGE007
代表美学 实际分数分布,分别对应1-10主观评分数,
Figure 896954DEST_PATH_IMAGE008
代表预测分数分布,
Figure 635276DEST_PATH_IMAGE009
是累积分布分 数,
Figure 35164DEST_PATH_IMAGE010
代表分数桶总数,由于美学特征空间中都是二维矩阵,将
Figure 569919DEST_PATH_IMAGE011
设置为2,表示在
Figure 946412DEST_PATH_IMAGE012
之间 惩罚欧氏距离;
Figure 453485DEST_PATH_IMAGE013
步骤8、利用统一美学预测任务模块,将提取后的特征通过分类层映射为预测美学分布
Figure 335860DEST_PATH_IMAGE001
并生成从1到10的等差数列分布,将预测美学分布和等差数列分布分 别相乘求和得到美学回归分数;按照5分为阈值,美学回归分数高于阈值的图像被划分为高 质量图像,美学回归分数低于阈值的图像被划分为低质量图像;
步骤9、将预测的美学分布
Figure 561173DEST_PATH_IMAGE014
与实际美学分布
Figure 616723DEST_PATH_IMAGE015
相比较,计算出两者的 皮尔逊相关系数PLCC和斯皮尔曼相关系数SRCC,其绝对值越接近于1表示更具有相关性,即 模型预测美学分数与实际人类主观评价分数一致性越高;
步骤10、将步骤8的回归分数作为预测分数,如果实际分数大于5且预测分数也大于5或者实际分数小于5且预测分数也小于5,则表示分类正确。
8.根据权利要求7所述的一种基于多模态学习的美学质量评价方法,其特征在于,步骤2中,图像数据是AVA数据集的美学图像,每一张的分辨率大小不等;对于训练集,对所有图像进行数据增强,即每一张图像会进行重塑,再进行随机水平翻转和随机裁剪。
9.根据权利要求7所述的一种基于多模态学习的美学质量评价方法,其特征在于,步骤3中,文本数据是在根据每张美学图像爬取的评论集,按照#划分出每句评论,最后将图像数据和对应的文本数据建立成一个输入集。
10.根据权利要求7所述的一种基于多模态学习的美学质量评价方法,其特征在于,步骤6中,多模态融合模块包含M层多模态融合层,每一层都包括一个自注意力层、一个交叉注意力层和一个前馈神经网络;得到视觉特征和文本特征之后,送入自注意力层后再经过交叉注意力层;最后得到融合文本信息的图像特征、融合图像信息的文本特征以及拼接后的融合特征;
在交叉注意力层中,图像部分使用自身的查询向量,使用文本的键向量和值向量;同样地,文本部分使用自身的查询向量,使用图像的键向量和值向量,其计算交叉注意力计算如下:
Figure 869981DEST_PATH_IMAGE016
其中,A代表计算注意力,
Figure 579049DEST_PATH_IMAGE017
是键向量Key的维度,
Figure 183337DEST_PATH_IMAGE018
Figure 636052DEST_PATH_IMAGE019
代表所有标记Token的键向量 值向量Value,
Figure 9396DEST_PATH_IMAGE020
代表图像或文本的查询向量;
经过交叉注意力层后,最后会经过前馈神经网络层,其中对于视觉特征会先经过一维 自适应平均池化层,再通过head pooler映射成batchsize×768,而文本特征直接经过head pooler后也映射成batchsize×768;其中,head pooler中选取第一个token的tensor作为 最重要信息;最后将得到融合文本信息的图像特征
Figure 420524DEST_PATH_IMAGE021
、融合图像信息的文本特征
Figure 449791DEST_PATH_IMAGE022
以及拼 接后的融合特征
Figure 706197DEST_PATH_IMAGE023
Figure 730785DEST_PATH_IMAGE024
Figure 516076DEST_PATH_IMAGE025
CN202211611537.2A 2022-12-15 2022-12-15 一种基于多模态学习的美学质量评价模型和方法 Active CN115601772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211611537.2A CN115601772B (zh) 2022-12-15 2022-12-15 一种基于多模态学习的美学质量评价模型和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211611537.2A CN115601772B (zh) 2022-12-15 2022-12-15 一种基于多模态学习的美学质量评价模型和方法

Publications (2)

Publication Number Publication Date
CN115601772A true CN115601772A (zh) 2023-01-13
CN115601772B CN115601772B (zh) 2023-05-02

Family

ID=84854124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211611537.2A Active CN115601772B (zh) 2022-12-15 2022-12-15 一种基于多模态学习的美学质量评价模型和方法

Country Status (1)

Country Link
CN (1) CN115601772B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984842A (zh) * 2023-02-13 2023-04-18 广州数说故事信息科技有限公司 一种基于多模态的视频开放标签提取方法
CN116533529A (zh) * 2023-05-12 2023-08-04 湖州东尼新能源有限公司 超声波焊接pc片的智能化控制方法及系统
CN117173163A (zh) * 2023-11-01 2023-12-05 浙江同花顺智能科技有限公司 一种人像质量评估方法、系统、装置和可读存储介质
CN117217710A (zh) * 2023-10-19 2023-12-12 深圳市金文网络科技有限公司 一种虚拟商品与快捷服务的智能化管理方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5168147A (en) * 1990-07-31 1992-12-01 Xerox Corporation Binary image processing for decoding self-clocking glyph shape codes
US20110075917A1 (en) * 2009-09-25 2011-03-31 Cerosaletti Cathleen D Estimating aesthetic quality of digital images
CN106383984A (zh) * 2016-08-30 2017-02-08 南京邮电大学 基于mmtd的大数据数据质量有效性评价方法
CN108764209A (zh) * 2018-06-11 2018-11-06 南京邮电大学 一种基于监控视频的人物异常行为自动检测方法
CN109801256A (zh) * 2018-12-15 2019-05-24 华南理工大学 一种基于感兴趣区域和全局特征的图像美学质量评估方法
CN110853032A (zh) * 2019-11-21 2020-02-28 北京航空航天大学 基于多模态深度学习的无人机视频美学质量评价方法
CN112580636A (zh) * 2020-12-30 2021-03-30 杭州电子科技大学 一种基于跨模态协同推理的图像美学质量评价方法
CN112749608A (zh) * 2020-06-08 2021-05-04 腾讯科技(深圳)有限公司 视频审核方法、装置、计算机设备和存储介质
CN113486173A (zh) * 2021-06-11 2021-10-08 南京邮电大学 文本标注神经网络模型及其标注方法
CN114549850A (zh) * 2022-01-24 2022-05-27 西北大学 一种解决模态缺失问题的多模态图像美学质量评价方法
US20220180650A1 (en) * 2021-04-20 2022-06-09 Beijing Baidu Netcom Science Technology Co., Ltd. Method of generating font database, and method of training neural network model
CN114842488A (zh) * 2022-04-29 2022-08-02 北京三快在线科技有限公司 图像标题文本确定方法、装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5168147A (en) * 1990-07-31 1992-12-01 Xerox Corporation Binary image processing for decoding self-clocking glyph shape codes
US20110075917A1 (en) * 2009-09-25 2011-03-31 Cerosaletti Cathleen D Estimating aesthetic quality of digital images
CN106383984A (zh) * 2016-08-30 2017-02-08 南京邮电大学 基于mmtd的大数据数据质量有效性评价方法
CN108764209A (zh) * 2018-06-11 2018-11-06 南京邮电大学 一种基于监控视频的人物异常行为自动检测方法
CN109801256A (zh) * 2018-12-15 2019-05-24 华南理工大学 一种基于感兴趣区域和全局特征的图像美学质量评估方法
CN110853032A (zh) * 2019-11-21 2020-02-28 北京航空航天大学 基于多模态深度学习的无人机视频美学质量评价方法
CN112749608A (zh) * 2020-06-08 2021-05-04 腾讯科技(深圳)有限公司 视频审核方法、装置、计算机设备和存储介质
CN112580636A (zh) * 2020-12-30 2021-03-30 杭州电子科技大学 一种基于跨模态协同推理的图像美学质量评价方法
US20220180650A1 (en) * 2021-04-20 2022-06-09 Beijing Baidu Netcom Science Technology Co., Ltd. Method of generating font database, and method of training neural network model
CN113486173A (zh) * 2021-06-11 2021-10-08 南京邮电大学 文本标注神经网络模型及其标注方法
CN114549850A (zh) * 2022-01-24 2022-05-27 西北大学 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114842488A (zh) * 2022-04-29 2022-08-02 北京三快在线科技有限公司 图像标题文本确定方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘君芳等: "多模态融合的家庭音乐相册自动生成", 《南京信息工程大学学报(自然科学版)》 *
吴菲等: "基于卷积神经网络的人脸图像美感分类", 《西安工程大学学报》 *
姜远等: "一种基于半监督学习的多模态Web查询精化方法", 《计算机学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984842A (zh) * 2023-02-13 2023-04-18 广州数说故事信息科技有限公司 一种基于多模态的视频开放标签提取方法
CN116533529A (zh) * 2023-05-12 2023-08-04 湖州东尼新能源有限公司 超声波焊接pc片的智能化控制方法及系统
CN116533529B (zh) * 2023-05-12 2023-09-29 湖州东尼新能源有限公司 超声波焊接pc片的智能化控制方法及系统
CN117217710A (zh) * 2023-10-19 2023-12-12 深圳市金文网络科技有限公司 一种虚拟商品与快捷服务的智能化管理方法及系统
CN117173163A (zh) * 2023-11-01 2023-12-05 浙江同花顺智能科技有限公司 一种人像质量评估方法、系统、装置和可读存储介质

Also Published As

Publication number Publication date
CN115601772B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN115601772B (zh) 一种基于多模态学习的美学质量评价模型和方法
Zhang et al. A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN115186110B (zh) 基于关系增强负采样的多模态知识图谱补全方法与系统
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN111598183A (zh) 一种多特征融合图像描述方法
Liao et al. Hierarchical coherence modeling for document quality assessment
CN113837229B (zh) 一种知识驱动型的文本到图像生成方法
CN114329025A (zh) 基于对抗生成网络的跨模态文本到图像生成方法
CN117076608A (zh) 一种基于文本动态跨度的整合外部事件知识的脚本事件预测方法及装置
CN117237479A (zh) 基于扩散模型的产品风格自动生成方法、装置及设备
CN116758558A (zh) 基于跨模态生成对抗网络的图文情感分类方法及系统
CN117033804A (zh) 一种主客观视角引导下的点击诱导检测方法
CN114416914B (zh) 一种基于图片问答的处理方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN111566665B (zh) 在自然语言处理中应用图像编码识别的装置和方法
Blandfort et al. Introducing concept and syntax transition networks for image captioning
Jain et al. Semantic Image Captioning using Cosine Similarity Ranking with Semantic Search
CN117807995B (zh) 一种情绪引导的摘要生成方法、系统、装置及介质
CN113610128B (zh) 基于美学属性检索的图片美学描述建模、描述方法及系统
CN116758402B (zh) 图像人物关系识别方法、系统、设备及存储介质
Tian Aesthetic Evaluation of Images Based on Deep and Shallow Feature Fusion Network Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant