CN112613303B - 一种基于知识蒸馏的跨模态图像美学质量评价方法 - Google Patents

一种基于知识蒸馏的跨模态图像美学质量评价方法 Download PDF

Info

Publication number
CN112613303B
CN112613303B CN202110020656.XA CN202110020656A CN112613303B CN 112613303 B CN112613303 B CN 112613303B CN 202110020656 A CN202110020656 A CN 202110020656A CN 112613303 B CN112613303 B CN 112613303B
Authority
CN
China
Prior art keywords
network
image
text
aesthetic
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110020656.XA
Other languages
English (en)
Other versions
CN112613303A (zh
Inventor
牛玉贞
甘伟泽
陈志贤
刘文犀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110020656.XA priority Critical patent/CN112613303B/zh
Publication of CN112613303A publication Critical patent/CN112613303A/zh
Application granted granted Critical
Publication of CN112613303B publication Critical patent/CN112613303B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于知识蒸馏的跨模态图像美学质量评价方法。包括以下步骤:S1:设计图文多模态美学质量评价的教师网络;S2:设计用于图像美学质量评价的学生网络;S3:设计用于进行对抗训练的判别器网络;S4:设计用于训练教师网络和学生网络的损失函数;S5:使用损失函数对步骤S1、S2及S3所设计网络进行训练;S6:将用于测试的图像输入训练好的学生网络预测其美学质量。本发明方法能显著提高美学质量预测精度。

Description

一种基于知识蒸馏的跨模态图像美学质量评价方法
技术领域
本发明涉及图像处理以及计算机视觉领域,特别是一种基于知识蒸馏的跨模态图像美学质量评价方法。
背景技术
在美学视觉分析数据集(Aesthetic Visual Analysis,AVA)中,里面的图像来自于各种大型图像分享网站,允许用户对图像进行评论,有些评论会体现用户打分的理由,这些评论解释了图像评分的依据以及描述了造成图像高美感或者低美感的关键因素,包含着更准确的美学信息。因此,学者们开始研究跨模态的学习机制,Zhou等人创建了文本数据集AVA-COMMENTS,建立多模态玻尔兹曼机来实现视觉特征和文本特征的联合特征表示学习;Hii等人使用inception模块来学习视觉特征,同时从简单的2层GRU中学习来自关联用户评论的文本特征,然后将其与视觉网络的输出拼接起来,训练和预测图像的美学分类结果;Zhang等人先用卷积网络抽取图像特征,再使用长短期记忆网络迭代的抽取重要的视觉特征,去除不相关的信息,使用网络抽取文本特征,最后融合图像和文本特征进行美学预测。考虑到真实场景下往往仅能提供图像,无法获取成对的图像和文本,因此还需要设计一个算法使得多模态知识能够迁移到单一图像模态网络中。本发明的目标便是从多模态图文教师网络中提炼出丰富而强大的美学知识,以此来学习高效的学生网络。由于文本和图像的数据分布不同,处理图像的卷积网络与处理文本的BiGRU网络的结构存在差异,得到的图像特征和文本特征之间存在明显的语义鸿沟,语义空间存在不同。如果直接让学生网络使用传统的蒸馏方式去模仿教师网络的输出,会难以学习到高效的特征表示。将教师网络丰富的美学知识进行重构,使得学生网络通过知识蒸馏的模式可以更好的学习教师的隐藏特征。另一方面,学生网络根据重构模块得到的中间隐藏特征通过知识蒸馏进行学习,有助于学生网络学习到高效的、逼近教师特征的特征表达。特别地,本发明还结合了生成对抗思想使模型提取的特征尽可能与模态无关。
发明内容
本发明的目的在于提供一种基于知识蒸馏的跨模态图像美学质量评价方法,该方法能显著提高美学质量预测精度。
为实现上述目的,本发明的技术方案是:一种基于知识蒸馏的跨模态图像美学质量评价方法,包括以下步骤:
步骤S1、设计图文多模态美学质量评价的教师网络;
步骤S2、设计用于图像美学质量评价的学生网络;
步骤S3、设计用于进行对抗训练的判别器网络;
步骤S4、设计用于训练教师网络和学生网络的损失函数;
步骤S5、使用损失函数对步骤S1、S2及S3所设计网络进行训练;
步骤S6、将用于测试的图像输入训练好的学生网络预测其美学质量。
在本发明一实施例中,所述步骤S1具体包括以下步骤:
步骤S11、使用图像美学质量评价数据集AVA,对图像进行预处理,对于每一幅图像,先缩放到256×256,然后随机裁剪成224×224;预处理后的图像输入到特征提取模块,特征提取模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层,提取conv5_x层的特征,记为ψs
步骤S12、美学文本数据集AVA-COMMENTS中包含用户对数据集AVA中图像的评论,使用美学文本数据集AVA-COMMENTS,对美学文本数据进行预处理:首先,使用标准的自然语言处理技术清洗文本噪声;然后,将每个文本样本先分句,再分词,具体即将每幅图像对应的评论文本中的句子数量统一为S,每个句子包含的单词数量统一为T;
步骤S13、设计一个提取文本特征的双向门控循环单元网络BiGRU;
首先,对于由单词序列wit组成的句子,wit表示第i个句子中的第t个单词,利用GloVe字典的映射关系We,把单词转化为词向量xit,公式如下所示:
xit=Wewit,t∈[1,T],i∈[1,S]
其中,S是每幅图像对应的句子数量,T是句子中的单词数量;
然后,使用BiGRU网络对文本中的各个词向量xit进行编码,BiGRU网络从词向量的两个方向汇总信息来获取单词的表示,因此能够将上下文信息合并到单词的表示中,获得隐藏层输出,公式如下所示:
Figure BDA0002887704310000021
Figure BDA0002887704310000022
式中,
Figure BDA0002887704310000023
表示对于第i个句子,BiGRU网络从xi1到xiT的方向进行处理,
Figure BDA0002887704310000024
表示对于第i个句子,BiGRU网络从xiT到xi1的方向进行处理;
对于第i个句子中的一个给定的单词向量xit,经过BiGRU网络编码后,获得了一种新的表示
Figure BDA0002887704310000025
hit包含了xit上下文两个方向的信息;然后对第i个句子中的所有单词的表示hit直接求和以形成句子向量si,如下所示:
si=∑thit,t∈[1,T]
再将句子向量拼接在一起得到文本的全局特征ψt,维度为(S,Dt),也就是每个文本样本有S句评论,每句评论是Dt维;
步骤S14、设计一个自注意力模块;对于第i个图像文本对,图像Ii来自于AVA,文本Ci是AVA-COMMENTS中与图像Ii对应的评论文本;通过上述步骤获得相应图像文本对所对应的图像特征ψs和文本特征ψt,分别记为
Figure BDA0002887704310000031
Figure BDA0002887704310000032
文本特征
Figure BDA0002887704310000033
经过1个全连接层完成线性变换,相当于经过1个嵌入权重变换Wt,得到矩阵维度为(S,D′t),公式如下所示:
Figure BDA0002887704310000034
其中,
Figure BDA0002887704310000035
表示文本特征
Figure BDA0002887704310000036
经过线性变换后的特征矩阵;
图像特征
Figure BDA0002887704310000037
的维度是(H,W,Dm),经过1个全连接层完成线性变换,相当于经过一个嵌入权重变换Wm,转换成维度为(H×W,D′m)的矩阵,公式如下所示:
Figure BDA0002887704310000038
其中,
Figure BDA0002887704310000039
表示图像特征
Figure BDA00028877043100000310
经过线性变换后的特征矩阵;
Figure BDA00028877043100000311
Figure BDA00028877043100000312
两个矩阵做矩阵乘法,也就是内积,内积结果体现向量之间的相似度,内积结果大说明句子和图像区域响应程度高,得到维度为(H×W,S)的相似度矩阵
Figure BDA00028877043100000313
公式如下所示:
Figure BDA00028877043100000314
其中,上标T表示转置;
对于维度为(H×W,,S)相似度矩阵
Figure BDA00028877043100000315
首先,按照行进行softmax归一化,表示当前文本与所有图像区域的归一化相关性,用转置后的维度为(D′m,H×W)的图像特征
Figure BDA00028877043100000316
与归一化后的相似度矩阵做矩阵乘法,也就是将相似度矩阵作用到特征图的所有对应区域的D′m向量上,将矩阵乘法的结果转置后得到维度为(S,D′m)的特征,代表的是每句文本和所有图像特征的加权平均值,最后与输入的文本特征
Figure BDA00028877043100000317
相加,得到增强的文本特征
Figure BDA00028877043100000318
Figure BDA00028877043100000319
Figure BDA0002887704310000041
同时,对于维度为(H×W,S)相似度矩阵
Figure BDA0002887704310000042
按照列归一化,表示当前图像区域对所有文本的归一化相关性,再与维度为(S,D′t)的文本特征
Figure BDA0002887704310000043
做矩阵乘法,也就是将相似度矩阵作用到了所有文本的D′t向量上;得到维度为(H×W,D′t)的特征,代表的是每个图像区域和所有文本特征的加权平均值,最后与输入的图像特征
Figure BDA0002887704310000044
相加,得到增强的图像特征
Figure BDA0002887704310000045
Figure BDA0002887704310000046
Figure BDA0002887704310000047
步骤S15、使用双线性池化MFB来高效地融合多模态的特征:首先,使用全连接层将视觉特征
Figure BDA0002887704310000048
和文本特征
Figure BDA0002887704310000049
映射成高维向量,然后两个高维向量逐元素相乘,并使用池化层降维,得到融合后的特征Q,最后经过1个全连接层得到美学评分分布预测。
在本发明一实施例中,所述步骤S2具体包括以下步骤:
步骤S21、设计一个编码器-解码器结构;编码器的输入特征为教师网络得到的增强的文本特征
Figure BDA00028877043100000410
编码器可以将输入特征编码成具有全局美学语义信息的潜在编码隐向量
Figure BDA00028877043100000411
解码器则是要将
Figure BDA00028877043100000412
重建输入特征;在编码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活进行特征提取;在解码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活来重建特征;
步骤S22、设计一个学生网络;学生网络包含一个Resnet50网络、转换器网络和1个用于美学评分分布预测的全连接层;对于一个输入图像,首先经过步骤S11进行图像预处理,然后输入到特征提取模块,特征提取模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层和平均池化层,提取平均池化层的特征,记为αstu,再经由转换器网络得到特征
Figure BDA00028877043100000413
再输入给全连接层用于预测美学分布;其中,转换器网络是2层全连接层网络,每层由线性变换层和带泄漏修正线性单元LeakRelu激活组成,转换器网络的作用是将学生特征
Figure BDA00028877043100000414
投影到和编码隐向量
Figure BDA00028877043100000415
同一个语义空间。
在本发明一实施例中,所述步骤S3具体实现如下:
设计一个模态分类器D作为判别器,判别器参数为θD,判别器用来判断输入的特征属于教师特征模态还是学生特征模态,做一个二分类任务;判别器由3层全连接层网络组成,每层包含一个线性变换层和Relu激活函数。
在本发明一实施例中,所述步骤S4具体包括以下步骤:
步骤S41、设计一个美学评分分布损失,使用基于累积分布函数的损失函数LJs,公式如下:
Figure BDA0002887704310000051
其中,Mp(i)和ML(i)分别是学生网络或教师网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率,i对应美学评分取值1,2,…Z,Z是数据集中评分取值的个数;
步骤S42、设计用于知识蒸馏的损失函数;具体有3个部分组成:重建损失,蒸馏损失,对抗损失;
对于重建损失,文本增强特征
Figure BDA0002887704310000052
经过编码器得到一个编码隐向量,再经过解码器重建特征,重建损失采用的是L2均方误差,公式如下所示:
Figure BDA0002887704310000053
其中,E(·)代表编码器,G(·)代表解码器,编码器的输出特征也是解码器的输入特征,同为
Figure BDA0002887704310000054
解码器的输出特征为
Figure BDA0002887704310000055
维度与
Figure BDA0002887704310000056
相同;
对于蒸馏损失,学生网络经由转换器得到的特征
Figure BDA0002887704310000057
利用知识蒸馏与教师特征
Figure BDA0002887704310000058
进行语义的对齐;蒸馏损失采用的是L2均方误差,公式如下所示:
Figure BDA0002887704310000059
对于对抗损失,由于使用蒸馏损失不能完全解决模态特征的异构问题,教师特征与学生特征之间的语义鸿沟使得蒸馏效果受到限制,因此利用一个模态分类器来消除教师特征与学生特征中与模态相关的信息;判别器D的二分类交叉熵损失作为判别损失,公式如下所示:
LD=-(yilogD(vi;θD)+(1-yi)logD(ti;θD))
式中,对于第i个待判断模态类型的特征,yi表示该特征的模态标签,若特征的模态标签是学生模态则yi为1,若特征的模态标签是教师模态则yi为0,θD是判别器的参数,vi是学生模态的特征,ti是教师模态的特征,D(vi;θD)表示判别器所预测的特征属于学生模态的概率,D(ti;θD)表示判别器所预测的样本i属于教师模态的概率。
步骤S43、根据预测的评分分布计算美学分类任务和回归任务的结果;
对于得到的学生网络的预测的评分分布MP(i),加权求和得到美学评分As的公式如下:
Figure BDA00028877043100000510
其中,MP(i)是评分取值为i分的概率,i是取值,i∈[1,Z];
美学分类是一个二分类任务,以Z/2分作为临界点,低于Z/2分的图像标注为不具备美感,大于等于Z/2分的标注为具备美感,美学分类标签Ac公式如下:
Figure BDA0002887704310000061
在本发明一实施例中,所述步骤S5具体实现如下:
设计训练过程;先使用美学分布损失Ljs对图文多模态美学质量评价的教师网络进行预训练,训练完毕后,参数冻结;然后,用于知识蒸馏的对抗训练分成生成阶段与判别阶段,2个阶段交替训练;生成阶段要优化编码器-解码器以及学生网络的参数,判别阶段仅优化判别器的参数;对于生成阶段,学生网络受到3个损失的监督,分别是美学分布损失Ljs、蒸馏损失Ldis和判别损失LD,编码器-解码器受到3个损失的监督,分别是重建损失Lrec、蒸馏损失Ldis和判别损失LD;对于判别阶段,使用判别损失LD优化判别器;在生成阶段,学生网络生成特征
Figure BDA0002887704310000062
编码器生成特征
Figure BDA0002887704310000063
训练目标是使得判别器无法判断出特征属于学生模态特征还是教师模态特征;在判别阶段,判别器要尽可能正确判断出特征的模态类别,最终在对抗中达到平衡,消除特征的模态信息;
判别阶段损失函数就是LD;生成阶段损失函数如下所示:
LG=λjsLjsdisLdisrecLrecDLD
其中,λjs,λdis,λrec,和λD分别是美学评分分布损失、蒸馏损失、重建损失和对抗损失的权重参数。
在本发明一实施例中,该方法对于输入的任意图像及其对应的美学评论进行美学质量评价的过程为:首先对于输入的任意图像及其对应的美学评论,使用步骤S1预训练一个图文多模态美学质量评价的教师网络;然后使用步骤S21中的编码器-解码器重建特征,同时图像单独输入步骤S22中的学生网络,然后使用步骤S31判别器以及步骤S4的损失函数,通过步骤S5训练出学生网络;对于新输入的待预测图像,输入学生网络,便可得到网络所预测的美学评分分布以及图像的分类和评分预测结果。
相较于现有技术,本发明具有以下有益效果:本发明的目标在于解决图文多模态网络只能接受成对的图像文本输入的问题。基于多模态的方法存在一个局限,只能输入成对的图像与文本,与真实场景下往往仅存在图像的情况违背;另外,视觉特征和文本特征之间存在明显的语义鸿沟,语义空间存在不同,如果直接让学生网络使用传统的知识蒸馏方式去模仿教师网络的输出,难以得到理想的性能。本发明利用特征重构从高效的教师网络中提炼出美学语义信息丰富并且利于学生网络学习的特征,并利用生成对抗策略来学习出高效的学生网络。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的图文多模态美学质量评价网络。
图3为本发明实施例的学生网络。
图4为本发明实施例的知识蒸馏学习框架。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于知识蒸馏的跨模态图像美学质量评价方法,包括以下步骤:
步骤S1:设计图文多模态美学质量评价的教师网络;
步骤S2:设计用于图像美学质量评价的学生网络;
步骤S3:设计用于进行对抗训练的判别器网络;
步骤S4:设计用于训练教师网络和学生网络的损失函数;
步骤S5:使用损失函数对步骤S1、S2及S3所设计网络进行训练;
步骤S6:将用于测试的图像输入训练好的学生网络预测其美学质量。
如图2所示,在本实施例中,所述步骤S1具体包括以下步骤:
步骤S11、使用图像美学质量评价数据集AVA,对图像进行预处理,对于每一幅图像,先缩放到256×256,然后随机裁剪成224×224;预处理后的图像输入到特征提取模块,该模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层,提取conv5_x层的特征,记为ψs
步骤S12、美学文本数据集AVA-COMMENTS中包含了用户对数据集AVA中图像的评论,使用美学文本数据集AVA-COMMENTS,对美学文本数据进行预处理;首先,使用标准的自然语言处理技术清洗文本噪声,在文本数据集AVA-COMMENTS所包含的用户评论中携带了一些明显的噪声,这些噪声包括书写错误、感叹词(比如"woooow")、额外的标点符号(比如"!!")等等;然后,将每个文本样本先分句,再分词,具体来说,每幅图像对应的评论文本中的句子数量统一为S,每个句子包含的单词数量统一为T,消除句子长度不同带来的不便,其中S=26,T=16;
步骤S13、设计一个提取文本特征的双向门控循环单元网络(Bi-directionalGated Recurrent Unit,BiGRU);首先,对于由单词序列wit(第i个句子中的第t个单词)组成的句子,利用通用的GloVe字典的映射关系We,把单词转化为词向量xit,公式如下所示:
xit=Wewit,t∈[1,T],i∈[1,S]
其中,S是每幅图像对应的句子数量,T是句子中的单词数量。
然后,使用BiGRU网络对文本中的各个词向量xit进行编码,网络从词向量的两个方向汇总信息来获取单词的表示,因此能够将上下文信息合并到单词的表示中,获得隐藏层输出,公式如下所示:
Figure BDA0002887704310000081
Figure BDA0002887704310000082
式中,
Figure BDA0002887704310000083
表示对于第i个句子,GRU从xi1到xiT的方向进行处理,
Figure BDA0002887704310000084
表示对于第i个句子,GRU从xiT到xi1的方向进行处理;
对于第i个句子中的一个给定的单词向量xit,经过BiGRU网络编码后,获得了一种新的表示
Figure BDA0002887704310000085
hit包含了xit上下文两个方向的信息;然后对第i个句子中的所有单词的表示hit直接求和以形成句子向量si,如下所示:
si=∑thit,t∈[1,T]
再将句子向量拼接在一起得到文本的全局特征ψt,维度为(S,Dt),也就是每个文本样本有S句评论,每句评论是Dt维,Dt设置为2048;
步骤S14、设计一个自注意力模块;对于第i个图像文本对,图像Ii来自于AVA数据集,文本Ci是AVA-COMMENTS数据集中与图像Ii对应的评论文本。通过上述步骤获得该图像文本对所对应的图像特征ψs和文本特征ψt,分别记为
Figure BDA0002887704310000086
Figure BDA0002887704310000087
文本特征
Figure BDA0002887704310000088
经过1个全连接层完成线性变换,相当于经过1个嵌入权重变换Wt,得到矩阵维度为(S,D′t),D′t设置为2048,公式如下所示:
Figure BDA0002887704310000089
其中,
Figure BDA0002887704310000091
表示文本特征
Figure BDA0002887704310000092
经过线性变换后的特征矩阵。
图像特征
Figure BDA0002887704310000093
的维度是(H,W,Dm),经过1个全连接层完成线性变换,相当于经过一个嵌入权重变换Wm,转换成维度为(H×W,D′m)的矩阵,H=7,W=7,Dm=2048,D′m=2048,公式如下所示:
Figure BDA0002887704310000094
其中,
Figure BDA0002887704310000095
表示图像特征
Figure BDA0002887704310000096
经过线性变换后的特征矩阵。
Figure BDA0002887704310000097
Figure BDA0002887704310000098
两个矩阵做矩阵乘法,也就是内积,内积结果体现了向量之间的相似度,内积结果大说明句子和图像区域响应程度高,得到维度为(H×W,S)的相似度矩阵
Figure BDA0002887704310000099
公式如下所示:
Figure BDA00028877043100000910
其中,上标T表示转置。
对于维度为(H×W,S)相似度矩阵
Figure BDA00028877043100000911
首先,按照行进行softmax归一化,表示当前文本与所有图像区域的归一化相关性,用转置后的维度为(D′m,H×W)的图像特征
Figure BDA00028877043100000912
与归一化后的相似度矩阵做矩阵乘法,也就是将相似度矩阵作用到了特征图的所有对应区域的D′m向量上,将矩阵乘法的结果转置后得到维度为(S,D′m)的特征,代表的是每句文本和所有图像特征的加权平均值,最后与输入的文本特征
Figure BDA00028877043100000913
相加,得到增强的文本特征
Figure BDA00028877043100000914
Figure BDA00028877043100000915
Figure BDA00028877043100000916
同时,对于维度为(H×W,S)相似度矩阵
Figure BDA00028877043100000917
按照列归一化,表示当前图像区域对所有文本的归一化相关性,再与维度为(S,D′t)的文本特征
Figure BDA00028877043100000918
做矩阵乘法,也就是将相似度矩阵作用到了所有文本的D′t向量上。得到维度为(H×W,D′t)的特征,代表的是每个图像区域和所有文本特征的加权平均值,最后与输入的图像特征
Figure BDA00028877043100000919
相加,得到增强的图像特征
Figure BDA00028877043100000920
Figure BDA00028877043100000921
Figure BDA0002887704310000101
步骤S15、使用双线性池化(Multi-modal Factorized Bilinear pooling,MFB)来高效地融合多模态的特征。首先,使用全连接层将视觉特征
Figure BDA0002887704310000102
和文本特征
Figure BDA0002887704310000103
映射成高维向量,然后两个高维向量逐元素相乘,并使用池化层降维,得到融合后的特征Q,最后经过1个全连接层得到美学评分分布预测。
如图3所示,在本实施例中,所述步骤S2具体包括以下步骤:
步骤S21、设计一个编码器-解码器结构;编码器的输入特征为教师网络得到的增强的文本特征
Figure BDA0002887704310000104
编码器可以将输入特征编码成具有全局美学语义信息的潜在编码隐向量
Figure BDA0002887704310000105
解码器则是要将
Figure BDA0002887704310000106
重建输入特征;在编码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活进行特征提取;在解码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活来重建特征;
步骤S22、设计一个学生网络;学生网络包含一个Resnet50网络、转换器网络和1个用于美学评分分布预测的全连接层;对于一个输入图像,首先经过步骤S11进行图像预处理,然后输入到特征提取模块,该模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层和平均池化层,提取平均池化层的特征,记为αstu,再经由转换器网络得到特征
Figure BDA0002887704310000107
再输入给全连接层用于预测美学分布;其中,转换器网络是2层全连接层网络,每层由线性变换层和带泄漏修正线性单元Leak Relu激活组成,转换器网络的作用是将学生特征
Figure BDA0002887704310000108
投影到和编码隐向量
Figure BDA0002887704310000109
同一个语义空间,
Figure BDA00028877043100001010
Figure BDA00028877043100001011
的维度都为256。
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31、设计一个模态分类器D作为判别器,判别器参数为θD,判别器用来判断输入的特征属于教师特征模态还是学生特征模态,做一个二分类任务;判别器由3层全连接层网络组成,每层包含一个线性变换层和Relu激活函数。
如图4所示,在本实施例中,所述步骤S4具体包括以下步骤:
步骤S41、设计一个美学评分分布损失,使用基于累积分布函数的损失函数LJs,公式如下:
Figure BDA00028877043100001012
其中,Mp(i)和ML(i)分别是学生网络或教师网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率,i对应美学评分取值1,2,…Z,Z是数据集中评分取值的个数,Z=10;
步骤S42、设计用于知识蒸馏的损失函数;具体有3个部分组成:重建损失,蒸馏损失,对抗损失;
对于重建损失,文本增强特征
Figure BDA0002887704310000111
经过编码器得到一个编码隐向量,再经过解码器重建特征,重建损失采用的是L2均方误差,公式如下所示:
Figure BDA0002887704310000112
其中,E(·)代表编码器,G(·)代表解码器,编码器的输出特征也是解码器的输入特征,同为
Figure BDA0002887704310000113
解码器的输出特征为
Figure BDA0002887704310000114
维度与
Figure BDA0002887704310000115
相同;
对于蒸馏损失,学生网络经由转换器得到的特征
Figure BDA0002887704310000116
利用知识蒸馏与教师特征
Figure BDA0002887704310000117
进行语义的对齐。蒸馏损失采用的是L2均方误差,公式如下所示:
Figure BDA0002887704310000118
对于对抗损失,由于使用蒸馏损失不能完全解决模态特征的异构问题,教师特征与学生特征之间的语义鸿沟使得蒸馏效果受到限制,因此利用一个模态分类器来消除教师特征与学生特征中与模态相关的信息;判别器D的二分类交叉熵损失作为判别损失,公式如下所示:
LD=-(yilogD(vi;θD)+(1-yi)logD(ti;θD))
式中,对于第i个待判断模态类型的特征,yi表示该特征的模态标签,若特征的模态标签是学生模态则yi为1,若特征的模态标签是教师模态则yi为0,θD是判别器的参数,vi是学生模态的特征,ti是教师模态的特征,D(vi;θD)表示判别器所预测的特征属于学生模态的概率,D(ti;θD)表示判别器所预测的样本i属于教师模态的概率。
步骤S43、根据预测的评分分布计算美学分类任务和回归任务的结果。
对于得到的学生网络的预测的评分分布MP(i),加权求和得到美学评分As的公式如下:
Figure BDA0002887704310000119
其中,MP(i)是评分取值为i分的概率,i是取值,i∈[1,Z];
美学分类是一个二分类任务,以Z/2分作为临界点,低于Z/2分的图像标注为不具备美感,大于等于Z/2分的标注为具备美感,美学分类标签Ac公式如下:
Figure BDA00028877043100001110
在本实施例中,所述步骤S5具体实现如下:
设计训练过程;先使用美学分布损失Ljs对图文多模态网络进行预训练,训练完毕后,参数冻结。然后,用于知识蒸馏的对抗训练分成生成阶段与判别阶段,2个阶段交替训练;生成阶段要优化编码器-解码器以及学生网络的参数,判别阶段仅优化判别器的参数;对于生成阶段,学生网络受到3个损失的监督,分别是美学分布损失Ljs、蒸馏损失Ldis和判别损失LD,编码器-解码器受到3个损失的监督,分别是重建损失Lrec、蒸馏损失Ldis和判别损失LD;对于判别阶段,使用判别损失LD优化判别器。在生成阶段,学生网络生成特征
Figure BDA0002887704310000121
编码器生成特征
Figure BDA0002887704310000122
训练目标是使得判别器无法判断出特征属于学生模态特征还是教师模态特征。在判别阶段,判别器要尽可能正确判断出特征的模态类别,最终在对抗中达到平衡,消除特征的模态信息;
判别阶段损失函数就是LD。生成阶段损失函数如下所示:
LG=λjsLjsdisLdisrecLrecDLD
其中,λjs,λdis,λrec和λD分别是美学评分分布损失、蒸馏损失、重建损失和对抗损失的权重参数,λjs设置为1,λdis设置为5,λrec设置为1,λD设置为0.1。
综上所述,首先对于输入的任意图像及其对应的美学评论,使用步骤S1预训练一个图文多模态网络;然后使用步骤S21中的编码器-解码器重建特征,同时图像单独输入步骤S22中的学生网络,然后使用步骤S31判别器以及步骤S4的损失函数,通过步骤S5训练出学生网络。对于新输入的待预测图像,输入学生网络,便可得到网络所预测的美学评分分布以及图像的分类和评分预测结果。
较佳的,由于多模态网络存在成对输入的限制,本实施例提出了一种基于知识蒸馏的跨模态图像美学质量评价方法,将多模态教师网络学习到的特征知识迁移到仅有图像作为输入的学生网络中。由于文本特征和图像特征之间的特征空间与数据分布存在鸿沟,在训练阶段利用一种编码器-解码器模块来重建模态信息,并使用生成对抗策略,将教师网络与学生网络的特征转化为与模态无关的特征信息,使得学生网络能更好的学习多模态教师网络的知识。在测试阶段中模型只需要输入图像便可进行预测。综上所述,本实施例设计的一种基于知识蒸馏的跨模态图像美学质量评价方法能显著提高美学质量预测精度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (4)

1.一种基于知识蒸馏的跨模态图像美学质量评价方法,其特征在于,包括以下步骤:
步骤S1、设计图文多模态美学质量评价的教师网络;
步骤S2、设计用于图像美学质量评价的学生网络;
步骤S3、设计用于进行对抗训练的判别器网络;
步骤S4、设计用于训练教师网络和学生网络的损失函数;
步骤S5、使用损失函数对步骤S1、S2及S3所设计网络进行训练;
步骤S6、将用于测试的图像输入训练好的学生网络预测其美学质量;
所述步骤S1具体包括以下步骤:
步骤S11、使用图像美学质量评价数据集AVA,对图像进行预处理,对于每一幅图像,先缩放到256×256,然后随机裁剪成224×224;预处理后的图像输入到特征提取模块,特征提取模块使用Resnet50网络中的conv1_x,conv2_x,…,conv5_x层,提取conv5_x层的特征,记为ψs
步骤S12、美学文本数据集AVA-COMMENTS中包含用户对数据集AVA中图像的评论,使用美学文本数据集AVA-COMMENTS,对美学文本数据进行预处理:首先,使用标准的自然语言处理技术清洗文本噪声;然后,将每个文本样本先分句,再分词,具体即将每幅图像对应的评论文本中的句子数量统一为S,每个句子包含的单词数量统一为T;
步骤S13、设计一个提取文本特征的双向门控循环单元网络BiGRU;
首先,对于由单词序列wit组成的句子,wit表示第i个句子中的第t个单词,利用GloVe字典的映射关系We,把单词转化为词向量xit,公式如下所示:
xit=Wewit,t∈[1,T],i∈[1,S]
其中,S是每幅图像对应的句子数量,T是句子中的单词数量;
然后,使用BiGRU网络对文本中的各个词向量xit进行编码,BiGRU网络从词向量的两个方向汇总信息来获取单词的表示,因此能够将上下文信息合并到单词的表示中,获得隐藏层输出,公式如下所示:
Figure FDA0004014194880000011
Figure FDA0004014194880000012
式中,
Figure FDA0004014194880000013
表示对于第i个句子,BiGRU网络从xi1到xiT的方向进行处理,
Figure FDA0004014194880000014
表示对于第i个句子,BiGRU网络从xiT到xi1的方向进行处理;
对于第i个句子中的一个给定的单词向量xit,经过BiGRU网络编码后,获得了一种新的表示
Figure FDA0004014194880000015
hit包含了xit上下文两个方向的信息;然后对第i个句子中的所有单词的表示hit直接求和以形成句子向量si,如下所示:
si=∑thit,t∈[1,T]
再将句子向量拼接在一起得到文本特征ψt,维度为(S,Dt),也就是每个文本样本有S句评论,每句评论是Dt维;
步骤S14、设计一个自注意力模块;对于第i个图像文本对,图像Ii来自于AVA,文本Ci是AVA-COMMENTS中与图像Ii对应的评论文本;通过上述步骤获得相应图像文本对所对应的图像特征ψs和文本特征ψt,分别记为
Figure FDA0004014194880000021
Figure FDA0004014194880000022
文本特征
Figure FDA0004014194880000023
经过1个全连接层完成线性变换,相当于经过1个嵌入权重变换Wt,得到矩阵维度为(S,D't),公式如下所示:
Figure FDA0004014194880000024
其中,
Figure FDA0004014194880000025
表示文本特征
Figure FDA0004014194880000026
经过线性变换后的特征矩阵;
图像特征
Figure FDA0004014194880000027
的维度是(H,W,Dm),经过1个全连接层完成线性变换,相当于经过一个嵌入权重变换Wm,转换成维度为(H×W,D'm)的矩阵,公式如下所示:
Figure FDA0004014194880000028
其中,
Figure FDA0004014194880000029
表示图像特征
Figure FDA00040141948800000210
经过线性变换后的特征矩阵;
Figure FDA00040141948800000211
Figure FDA00040141948800000212
两个矩阵做矩阵乘法,也就是内积,内积结果体现向量之间的相似度,内积结果大说明句子和图像区域响应程度高,得到维度为(H×W,S)的相似度矩阵
Figure FDA00040141948800000213
公式如下所示:
Figure FDA00040141948800000214
其中,上标T表示转置;
对于维度为(H×W,S)相似度矩阵
Figure FDA00040141948800000215
首先,按照行进行softmax归一化,表示当前文本与所有图像区域的归一化相关性,用转置后的维度为(D'm,H×W)的
Figure FDA00040141948800000216
与归一化后的相似度矩阵做矩阵乘法,也就是将相似度矩阵作用到图像的所有对应区域的D'm向量上,将矩阵乘法的结果转置后得到维度为(S,D'm)的特征,代表的是每句文本和所有图像特征的加权平均值,最后与输入的文本特征
Figure FDA00040141948800000217
相加,得到增强的文本特征
Figure FDA00040141948800000218
Figure FDA00040141948800000219
Figure FDA00040141948800000220
同时,对于维度为(H×W,S)相似度矩阵
Figure FDA00040141948800000221
按照列归一化,表示当前图像区域对所有文本的归一化相关性,再与维度为(S,D't)的
Figure FDA0004014194880000031
做矩阵乘法,也就是将相似度矩阵作用到了所有文本的D't向量上;得到维度为(H×W,D't)的特征,代表的是每个图像区域和所有文本特征的加权平均值,最后与输入的图像特征
Figure FDA0004014194880000032
相加,得到增强的图像特征
Figure FDA0004014194880000033
Figure FDA0004014194880000034
Figure FDA0004014194880000035
步骤S15、使用双线性池化MFB来高效地融合多模态的特征:首先,使用全连接层将增强的图像特征
Figure FDA0004014194880000036
和增强的文本特征
Figure FDA0004014194880000037
映射成高维向量,然后两个高维向量逐元素相乘,并使用池化层降维,得到融合后的特征Q,最后经过1个全连接层得到美学评分分布预测;
所述步骤S2具体包括以下步骤:
步骤S21、设计一个编码器-解码器结构;编码器的输入特征为教师网络得到的增强的文本特征
Figure FDA0004014194880000038
编码器将输入特征编码成具有全局美学语义信息的潜在编码隐向量
Figure FDA0004014194880000039
解码器则是要将
Figure FDA00040141948800000310
重建输入特征;在编码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活进行特征提取;在解码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活来重建特征;
步骤S22、设计一个学生网络;学生网络包含一个Resnet50网络、转换器网络和1个用于美学评分分布预测的全连接层;对于一个输入图像,首先经过步骤S11进行图像预处理,然后输入到特征提取模块,特征提取模块使用Resnet50网络中的conv1_x,conv2_x,…,conv5_x层和平均池化层,提取平均池化层的特征,记为αstu,再经由转换器网络得到学生特征
Figure FDA00040141948800000311
再输入给全连接层用于预测美学分布;其中,转换器网络是2层全连接层网络,每层由线性变换层和带泄漏修正线性单元Leaky Relu激活组成,转换器网络的作用是将学生特征
Figure FDA00040141948800000312
投影到和编码隐向量
Figure FDA00040141948800000313
同一个语义空间;
所述步骤S3具体实现如下:
设计一个模态分类器D作为判别器,判别器参数为θD,判别器用来判断输入的特征属于教师特征模态还是学生特征模态,做一个二分类任务;判别器由3层全连接层网络组成,每层包含一个线性变换层和Relu激活函数。
2.根据权利要求1所述的一种基于知识蒸馏的跨模态图像美学质量评价方法,其特征在于,所述步骤S4具体包括以下步骤:
步骤S41、设计一个美学评分分布损失,使用基于累积分布函数的损失函数LJS,公式如下:
Figure FDA0004014194880000041
其中,Mp(i)和ML(i)分别是学生网络或教师网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率,i对应美学评分取值1,2,…Z,Z是数据集中评分取值的个数;
步骤S42、设计用于知识蒸馏的损失函数;具体有3个部分组成:重建损失,蒸馏损失,对抗损失;
对于重建损失,增强的文本特征
Figure FDA0004014194880000042
经过编码器得到一个编码隐向量,再经过解码器重建特征,重建损失采用的是L2均方误差,公式如下所示:
Figure FDA0004014194880000043
其中,E(·)代表编码器,G(·)代表解码器,编码器的输出特征也是解码器的输入特征,同为
Figure FDA0004014194880000044
解码器的输出特征为
Figure FDA0004014194880000045
维度与
Figure FDA0004014194880000046
相同;
对于蒸馏损失,学生网络经由转换器得到的学生特征
Figure FDA0004014194880000047
利用知识蒸馏与编码隐向量
Figure FDA0004014194880000048
进行语义的对齐;蒸馏损失采用的是L2均方误差,公式如下所示:
Figure FDA0004014194880000049
对于对抗损失,由于使用蒸馏损失不能完全解决模态特征的异构问题,教师特征与学生特征之间的语义鸿沟使得蒸馏效果受到限制,因此利用一个模态分类器来消除教师特征与学生特征中与模态相关的信息;判别器D的二分类交叉熵损失作为判别损失,公式如下所示:
LD=-(yilogD(vi;θD)+(1-yi)logD(ti;θD))
式中,对于第i个待判断模态类型的特征,yi表示该特征的模态标签,若特征的模态标签是学生模态则yi为1,若特征的模态标签是教师模态则yi为0,θD是判别器的参数,vi是学生模态的特征,ti是教师模态的特征,D(vi;θD)表示判别器所预测的特征属于学生模态的概率,D(ti;θD)表示判别器所预测的样本i属于教师模态的概率;
步骤S43、根据预测的评分分布计算美学分类任务和回归任务的结果;
对于得到的学生网络的预测的评分分布MP(i),加权求和得到美学评分As的公式如下:
Figure FDA00040141948800000410
其中,MP(i)是评分取值为i分的概率,i是取值,i∈[1,Z];
美学分类是一个二分类任务,以Z/2分作为临界点,低于Z/2分的图像标注为不具备美感,大于等于Z/2分的标注为具备美感,美学分类标签Ac公式如下:
Figure FDA0004014194880000051
3.根据权利要求2所述的一种基于知识蒸馏的跨模态图像美学质量评价方法,其特征在于,所述步骤S5具体实现如下:
设计训练过程;先使用美学分布损失LJS对图文多模态美学质量评价的教师网络进行预训练,训练完毕后,参数冻结;然后,用于知识蒸馏的对抗训练分成生成阶段与判别阶段,2个阶段交替训练;生成阶段要优化编码器-解码器以及学生网络的参数,判别阶段仅优化判别器的参数;对于生成阶段,学生网络受到3个损失的监督,分别是美学分布损失LJS、蒸馏损失Ldis和判别损失LD,编码器-解码器受到3个损失的监督,分别是重建损失Lrec、蒸馏损失Ldis和判别损失LD;对于判别阶段,使用判别损失LD优化判别器;在生成阶段,学生特征
Figure FDA0004014194880000052
编码隐向量
Figure FDA0004014194880000053
训练目标是使得判别器无法判断出特征属于学生模态特征还是教师模态特征;在判别阶段,判别器要尽可能正确判断出特征的模态类别,最终在对抗中达到平衡,消除特征的模态信息;
判别阶段损失函数就是LD;生成阶段损失函数如下所示:
LG=λjsLJSdisLdisrecLrecDLD
其中,λjs,λdis,λrec和λD分别是美学评分分布损失、蒸馏损失、重建损失和对抗损失的权重参数。
4.根据权利要求3所述的一种基于知识蒸馏的跨模态图像美学质量评价方法,其特征在于,该方法对于输入的任意图像及其对应的美学评论进行美学质量评价的过程为:首先对于输入的任意图像及其对应的美学评论,使用步骤S1预训练一个图文多模态美学质量评价的教师网络;然后使用步骤S21中的编码器-解码器重建特征,同时图像单独输入步骤S22中的学生网络,然后使用步骤S31判别器以及步骤S4的损失函数,通过步骤S5训练出学生网络;对于新输入的待预测图像,输入学生网络,便可得到网络所预测的美学评分分布以及图像的分类和评分预测结果。
CN202110020656.XA 2021-01-07 2021-01-07 一种基于知识蒸馏的跨模态图像美学质量评价方法 Active CN112613303B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110020656.XA CN112613303B (zh) 2021-01-07 2021-01-07 一种基于知识蒸馏的跨模态图像美学质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110020656.XA CN112613303B (zh) 2021-01-07 2021-01-07 一种基于知识蒸馏的跨模态图像美学质量评价方法

Publications (2)

Publication Number Publication Date
CN112613303A CN112613303A (zh) 2021-04-06
CN112613303B true CN112613303B (zh) 2023-02-21

Family

ID=75253506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110020656.XA Active CN112613303B (zh) 2021-01-07 2021-01-07 一种基于知识蒸馏的跨模态图像美学质量评价方法

Country Status (1)

Country Link
CN (1) CN112613303B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926700B (zh) * 2021-04-27 2022-04-12 支付宝(杭州)信息技术有限公司 针对目标图像的类别识别方法和装置
CN112927172B (zh) * 2021-05-10 2021-08-24 北京市商汤科技开发有限公司 图像处理网络的训练方法和装置、电子设备和存储介质
CN113222032B (zh) * 2021-05-19 2023-03-10 西安电子科技大学 基于自注意图像编码的无参考图像质量评价方法
CN113378981B (zh) * 2021-07-02 2022-05-13 湖南大学 基于域适应的噪音场景图像分类方法及系统
CN113610128B (zh) * 2021-07-28 2024-02-13 西北大学 基于美学属性检索的图片美学描述建模、描述方法及系统
CN113609965B (zh) * 2021-08-03 2024-02-13 同盾科技有限公司 文字识别模型的训练方法及装置、存储介质、电子设备
CN113360701B (zh) * 2021-08-09 2021-11-02 成都考拉悠然科技有限公司 一种基于知识蒸馏的素描图处理方法及其系统
CN113657380B (zh) * 2021-08-17 2023-08-18 福州大学 融合多模态注意力机制的图像美学质量评价方法
CN113807214B (zh) * 2021-08-31 2024-01-05 中国科学院上海微系统与信息技术研究所 基于deit附属网络知识蒸馏的小目标人脸识别方法
CN113920574B (zh) * 2021-12-15 2022-03-18 深圳市视美泰技术股份有限公司 图片质量评价模型的训练方法、装置、计算机设备和介质
CN114283083B (zh) * 2021-12-22 2024-05-10 杭州电子科技大学 一种基于解耦表示的场景生成模型的美学增强方法
CN114549850B (zh) * 2022-01-24 2023-08-08 西北大学 一种解决模态缺失问题的多模态图像美学质量评价方法
CN114785978A (zh) * 2022-02-10 2022-07-22 东莞市毅豪电子科技有限公司 一种面向视频会议的视频图像质量确定方法
CN114742799B (zh) * 2022-04-18 2024-04-26 华中科技大学 基于自监督异构网络的工业场景未知类型缺陷分割方法
CN114863353B (zh) * 2022-04-19 2024-08-02 华南理工大学 一种人与物体关系检测方法、装置及存储介质
CN115115914B (zh) * 2022-06-07 2024-02-27 腾讯科技(深圳)有限公司 信息识别方法、装置以及计算机可读存储介质
CN115035611B (zh) * 2022-06-22 2024-08-13 齐鲁工业大学 基于动态权重降维的多模态医学图像分类方法及系统
CN114926461A (zh) * 2022-07-19 2022-08-19 湖南工商大学 一种全盲屏幕内容图像质量评价方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136216A (zh) * 2018-02-09 2019-08-16 北京三星通信技术研究有限公司 图像生成的方法及终端设备
CN110473164A (zh) * 2019-05-31 2019-11-19 北京理工大学 一种基于注意力机制的图像美学质量评价方法
CN111079639A (zh) * 2019-12-13 2020-04-28 中国平安财产保险股份有限公司 垃圾图像分类模型构建的方法、装置、设备及存储介质
CN111950655A (zh) * 2020-08-25 2020-11-17 福州大学 一种基于多领域知识驱动的图像美学质量评价方法
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10002415B2 (en) * 2016-04-12 2018-06-19 Adobe Systems Incorporated Utilizing deep learning for rating aesthetics of digital images
CN111611377B (zh) * 2020-04-22 2021-10-29 淮阴工学院 基于知识蒸馏的多层神经网络语言模型训练方法与装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136216A (zh) * 2018-02-09 2019-08-16 北京三星通信技术研究有限公司 图像生成的方法及终端设备
CN110473164A (zh) * 2019-05-31 2019-11-19 北京理工大学 一种基于注意力机制的图像美学质量评价方法
CN111079639A (zh) * 2019-12-13 2020-04-28 中国平安财产保险股份有限公司 垃圾图像分类模型构建的方法、装置、设备及存储介质
CN111950655A (zh) * 2020-08-25 2020-11-17 福州大学 一种基于多领域知识驱动的图像美学质量评价方法
CN112116030A (zh) * 2020-10-13 2020-12-22 浙江大学 一种基于向量标准化和知识蒸馏的图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于美学评判的文本生成图像优化;徐天宇等;《万方数据期刊库》;20200116;第1-11页 *

Also Published As

Publication number Publication date
CN112613303A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN111985245B (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
CN112633010B (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN109947912A (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
CN111652357B (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN111930906A (zh) 基于语义块的知识图谱问答方法及装置
CN111985205A (zh) 一种方面级情感分类模型
CN111831789A (zh) 一种基于多层语义特征提取结构的问答文本匹配方法
CN116204674B (zh) 一种基于视觉概念词关联结构化建模的图像描述方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN116109978A (zh) 基于自约束动态文本特征的无监督视频描述方法
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
CN114328943A (zh) 基于知识图谱的问题回答方法、装置、设备及存储介质
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法
CN117633674A (zh) 一种基于因果门控注意力机制的多模态情感分析方法
CN116737897A (zh) 一种基于多模态的智慧楼宇知识抽取模型和方法
CN114661874B (zh) 基于多角度语义理解与自适应双通道的视觉问答方法
CN115422945A (zh) 一种融合情感挖掘的谣言检测方法及系统
CN115169285A (zh) 一种基于图解析的事件抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant