CN112613303B - 一种基于知识蒸馏的跨模态图像美学质量评价方法 - Google Patents
一种基于知识蒸馏的跨模态图像美学质量评价方法 Download PDFInfo
- Publication number
- CN112613303B CN112613303B CN202110020656.XA CN202110020656A CN112613303B CN 112613303 B CN112613303 B CN 112613303B CN 202110020656 A CN202110020656 A CN 202110020656A CN 112613303 B CN112613303 B CN 112613303B
- Authority
- CN
- China
- Prior art keywords
- network
- image
- text
- aesthetic
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 44
- 239000011159 matrix material Substances 0.000 claims description 40
- 238000009826 distribution Methods 0.000 claims description 38
- 238000004821 distillation Methods 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 28
- 230000009466 transformation Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 claims description 2
- 238000006386 neutralization reaction Methods 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229930003316 Vitamin D Natural products 0.000 description 1
- QYSXJUFSXHHAJI-XFEUOLMDSA-N Vitamin D3 Natural products C1(/[C@@H]2CC[C@@H]([C@]2(CCC1)C)[C@H](C)CCCC(C)C)=C/C=C1\C[C@@H](O)CCC1=C QYSXJUFSXHHAJI-XFEUOLMDSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 235000019166 vitamin D Nutrition 0.000 description 1
- 239000011710 vitamin D Substances 0.000 description 1
- 150000003710 vitamin D derivatives Chemical class 0.000 description 1
- 229940046008 vitamin d Drugs 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于知识蒸馏的跨模态图像美学质量评价方法。包括以下步骤:S1:设计图文多模态美学质量评价的教师网络;S2:设计用于图像美学质量评价的学生网络;S3:设计用于进行对抗训练的判别器网络;S4:设计用于训练教师网络和学生网络的损失函数;S5:使用损失函数对步骤S1、S2及S3所设计网络进行训练;S6:将用于测试的图像输入训练好的学生网络预测其美学质量。本发明方法能显著提高美学质量预测精度。
Description
技术领域
本发明涉及图像处理以及计算机视觉领域,特别是一种基于知识蒸馏的跨模态图像美学质量评价方法。
背景技术
在美学视觉分析数据集(Aesthetic Visual Analysis,AVA)中,里面的图像来自于各种大型图像分享网站,允许用户对图像进行评论,有些评论会体现用户打分的理由,这些评论解释了图像评分的依据以及描述了造成图像高美感或者低美感的关键因素,包含着更准确的美学信息。因此,学者们开始研究跨模态的学习机制,Zhou等人创建了文本数据集AVA-COMMENTS,建立多模态玻尔兹曼机来实现视觉特征和文本特征的联合特征表示学习;Hii等人使用inception模块来学习视觉特征,同时从简单的2层GRU中学习来自关联用户评论的文本特征,然后将其与视觉网络的输出拼接起来,训练和预测图像的美学分类结果;Zhang等人先用卷积网络抽取图像特征,再使用长短期记忆网络迭代的抽取重要的视觉特征,去除不相关的信息,使用网络抽取文本特征,最后融合图像和文本特征进行美学预测。考虑到真实场景下往往仅能提供图像,无法获取成对的图像和文本,因此还需要设计一个算法使得多模态知识能够迁移到单一图像模态网络中。本发明的目标便是从多模态图文教师网络中提炼出丰富而强大的美学知识,以此来学习高效的学生网络。由于文本和图像的数据分布不同,处理图像的卷积网络与处理文本的BiGRU网络的结构存在差异,得到的图像特征和文本特征之间存在明显的语义鸿沟,语义空间存在不同。如果直接让学生网络使用传统的蒸馏方式去模仿教师网络的输出,会难以学习到高效的特征表示。将教师网络丰富的美学知识进行重构,使得学生网络通过知识蒸馏的模式可以更好的学习教师的隐藏特征。另一方面,学生网络根据重构模块得到的中间隐藏特征通过知识蒸馏进行学习,有助于学生网络学习到高效的、逼近教师特征的特征表达。特别地,本发明还结合了生成对抗思想使模型提取的特征尽可能与模态无关。
发明内容
本发明的目的在于提供一种基于知识蒸馏的跨模态图像美学质量评价方法,该方法能显著提高美学质量预测精度。
为实现上述目的,本发明的技术方案是:一种基于知识蒸馏的跨模态图像美学质量评价方法,包括以下步骤:
步骤S1、设计图文多模态美学质量评价的教师网络;
步骤S2、设计用于图像美学质量评价的学生网络;
步骤S3、设计用于进行对抗训练的判别器网络;
步骤S4、设计用于训练教师网络和学生网络的损失函数;
步骤S5、使用损失函数对步骤S1、S2及S3所设计网络进行训练;
步骤S6、将用于测试的图像输入训练好的学生网络预测其美学质量。
在本发明一实施例中,所述步骤S1具体包括以下步骤:
步骤S11、使用图像美学质量评价数据集AVA,对图像进行预处理,对于每一幅图像,先缩放到256×256,然后随机裁剪成224×224;预处理后的图像输入到特征提取模块,特征提取模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层,提取conv5_x层的特征,记为ψs;
步骤S12、美学文本数据集AVA-COMMENTS中包含用户对数据集AVA中图像的评论,使用美学文本数据集AVA-COMMENTS,对美学文本数据进行预处理:首先,使用标准的自然语言处理技术清洗文本噪声;然后,将每个文本样本先分句,再分词,具体即将每幅图像对应的评论文本中的句子数量统一为S,每个句子包含的单词数量统一为T;
步骤S13、设计一个提取文本特征的双向门控循环单元网络BiGRU;
首先,对于由单词序列wit组成的句子,wit表示第i个句子中的第t个单词,利用GloVe字典的映射关系We,把单词转化为词向量xit,公式如下所示:
xit=Wewit,t∈[1,T],i∈[1,S]
其中,S是每幅图像对应的句子数量,T是句子中的单词数量;
然后,使用BiGRU网络对文本中的各个词向量xit进行编码,BiGRU网络从词向量的两个方向汇总信息来获取单词的表示,因此能够将上下文信息合并到单词的表示中,获得隐藏层输出,公式如下所示:
对于第i个句子中的一个给定的单词向量xit,经过BiGRU网络编码后,获得了一种新的表示hit包含了xit上下文两个方向的信息;然后对第i个句子中的所有单词的表示hit直接求和以形成句子向量si,如下所示:
si=∑thit,t∈[1,T]
再将句子向量拼接在一起得到文本的全局特征ψt,维度为(S,Dt),也就是每个文本样本有S句评论,每句评论是Dt维;
步骤S14、设计一个自注意力模块;对于第i个图像文本对,图像Ii来自于AVA,文本Ci是AVA-COMMENTS中与图像Ii对应的评论文本;通过上述步骤获得相应图像文本对所对应的图像特征ψs和文本特征ψt,分别记为和
其中,上标T表示转置;
对于维度为(H×W,,S)相似度矩阵首先,按照行进行softmax归一化,表示当前文本与所有图像区域的归一化相关性,用转置后的维度为(D′m,H×W)的图像特征与归一化后的相似度矩阵做矩阵乘法,也就是将相似度矩阵作用到特征图的所有对应区域的D′m向量上,将矩阵乘法的结果转置后得到维度为(S,D′m)的特征,代表的是每句文本和所有图像特征的加权平均值,最后与输入的文本特征相加,得到增强的文本特征
同时,对于维度为(H×W,S)相似度矩阵按照列归一化,表示当前图像区域对所有文本的归一化相关性,再与维度为(S,D′t)的文本特征做矩阵乘法,也就是将相似度矩阵作用到了所有文本的D′t向量上;得到维度为(H×W,D′t)的特征,代表的是每个图像区域和所有文本特征的加权平均值,最后与输入的图像特征相加,得到增强的图像特征
步骤S15、使用双线性池化MFB来高效地融合多模态的特征:首先,使用全连接层将视觉特征和文本特征映射成高维向量,然后两个高维向量逐元素相乘,并使用池化层降维,得到融合后的特征Q,最后经过1个全连接层得到美学评分分布预测。
在本发明一实施例中,所述步骤S2具体包括以下步骤:
步骤S21、设计一个编码器-解码器结构;编码器的输入特征为教师网络得到的增强的文本特征编码器可以将输入特征编码成具有全局美学语义信息的潜在编码隐向量解码器则是要将重建输入特征;在编码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活进行特征提取;在解码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活来重建特征;
步骤S22、设计一个学生网络;学生网络包含一个Resnet50网络、转换器网络和1个用于美学评分分布预测的全连接层;对于一个输入图像,首先经过步骤S11进行图像预处理,然后输入到特征提取模块,特征提取模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层和平均池化层,提取平均池化层的特征,记为αstu,再经由转换器网络得到特征再输入给全连接层用于预测美学分布;其中,转换器网络是2层全连接层网络,每层由线性变换层和带泄漏修正线性单元LeakRelu激活组成,转换器网络的作用是将学生特征投影到和编码隐向量同一个语义空间。
在本发明一实施例中,所述步骤S3具体实现如下:
设计一个模态分类器D作为判别器,判别器参数为θD,判别器用来判断输入的特征属于教师特征模态还是学生特征模态,做一个二分类任务;判别器由3层全连接层网络组成,每层包含一个线性变换层和Relu激活函数。
在本发明一实施例中,所述步骤S4具体包括以下步骤:
步骤S41、设计一个美学评分分布损失,使用基于累积分布函数的损失函数LJs,公式如下:
其中,Mp(i)和ML(i)分别是学生网络或教师网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率,i对应美学评分取值1,2,…Z,Z是数据集中评分取值的个数;
步骤S42、设计用于知识蒸馏的损失函数;具体有3个部分组成:重建损失,蒸馏损失,对抗损失;
对于对抗损失,由于使用蒸馏损失不能完全解决模态特征的异构问题,教师特征与学生特征之间的语义鸿沟使得蒸馏效果受到限制,因此利用一个模态分类器来消除教师特征与学生特征中与模态相关的信息;判别器D的二分类交叉熵损失作为判别损失,公式如下所示:
LD=-(yilogD(vi;θD)+(1-yi)logD(ti;θD))
式中,对于第i个待判断模态类型的特征,yi表示该特征的模态标签,若特征的模态标签是学生模态则yi为1,若特征的模态标签是教师模态则yi为0,θD是判别器的参数,vi是学生模态的特征,ti是教师模态的特征,D(vi;θD)表示判别器所预测的特征属于学生模态的概率,D(ti;θD)表示判别器所预测的样本i属于教师模态的概率。
步骤S43、根据预测的评分分布计算美学分类任务和回归任务的结果;
对于得到的学生网络的预测的评分分布MP(i),加权求和得到美学评分As的公式如下:
其中,MP(i)是评分取值为i分的概率,i是取值,i∈[1,Z];
美学分类是一个二分类任务,以Z/2分作为临界点,低于Z/2分的图像标注为不具备美感,大于等于Z/2分的标注为具备美感,美学分类标签Ac公式如下:
在本发明一实施例中,所述步骤S5具体实现如下:
设计训练过程;先使用美学分布损失Ljs对图文多模态美学质量评价的教师网络进行预训练,训练完毕后,参数冻结;然后,用于知识蒸馏的对抗训练分成生成阶段与判别阶段,2个阶段交替训练;生成阶段要优化编码器-解码器以及学生网络的参数,判别阶段仅优化判别器的参数;对于生成阶段,学生网络受到3个损失的监督,分别是美学分布损失Ljs、蒸馏损失Ldis和判别损失LD,编码器-解码器受到3个损失的监督,分别是重建损失Lrec、蒸馏损失Ldis和判别损失LD;对于判别阶段,使用判别损失LD优化判别器;在生成阶段,学生网络生成特征编码器生成特征训练目标是使得判别器无法判断出特征属于学生模态特征还是教师模态特征;在判别阶段,判别器要尽可能正确判断出特征的模态类别,最终在对抗中达到平衡,消除特征的模态信息;
判别阶段损失函数就是LD;生成阶段损失函数如下所示:
LG=λjsLjs+λdisLdis+λrecLrec-λDLD
其中,λjs,λdis,λrec,和λD分别是美学评分分布损失、蒸馏损失、重建损失和对抗损失的权重参数。
在本发明一实施例中,该方法对于输入的任意图像及其对应的美学评论进行美学质量评价的过程为:首先对于输入的任意图像及其对应的美学评论,使用步骤S1预训练一个图文多模态美学质量评价的教师网络;然后使用步骤S21中的编码器-解码器重建特征,同时图像单独输入步骤S22中的学生网络,然后使用步骤S31判别器以及步骤S4的损失函数,通过步骤S5训练出学生网络;对于新输入的待预测图像,输入学生网络,便可得到网络所预测的美学评分分布以及图像的分类和评分预测结果。
相较于现有技术,本发明具有以下有益效果:本发明的目标在于解决图文多模态网络只能接受成对的图像文本输入的问题。基于多模态的方法存在一个局限,只能输入成对的图像与文本,与真实场景下往往仅存在图像的情况违背;另外,视觉特征和文本特征之间存在明显的语义鸿沟,语义空间存在不同,如果直接让学生网络使用传统的知识蒸馏方式去模仿教师网络的输出,难以得到理想的性能。本发明利用特征重构从高效的教师网络中提炼出美学语义信息丰富并且利于学生网络学习的特征,并利用生成对抗策略来学习出高效的学生网络。
附图说明
图1为本发明实施例的方法流程图。
图2为本发明实施例的图文多模态美学质量评价网络。
图3为本发明实施例的学生网络。
图4为本发明实施例的知识蒸馏学习框架。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供一种基于知识蒸馏的跨模态图像美学质量评价方法,包括以下步骤:
步骤S1:设计图文多模态美学质量评价的教师网络;
步骤S2:设计用于图像美学质量评价的学生网络;
步骤S3:设计用于进行对抗训练的判别器网络;
步骤S4:设计用于训练教师网络和学生网络的损失函数;
步骤S5:使用损失函数对步骤S1、S2及S3所设计网络进行训练;
步骤S6:将用于测试的图像输入训练好的学生网络预测其美学质量。
如图2所示,在本实施例中,所述步骤S1具体包括以下步骤:
步骤S11、使用图像美学质量评价数据集AVA,对图像进行预处理,对于每一幅图像,先缩放到256×256,然后随机裁剪成224×224;预处理后的图像输入到特征提取模块,该模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层,提取conv5_x层的特征,记为ψs;
步骤S12、美学文本数据集AVA-COMMENTS中包含了用户对数据集AVA中图像的评论,使用美学文本数据集AVA-COMMENTS,对美学文本数据进行预处理;首先,使用标准的自然语言处理技术清洗文本噪声,在文本数据集AVA-COMMENTS所包含的用户评论中携带了一些明显的噪声,这些噪声包括书写错误、感叹词(比如"woooow")、额外的标点符号(比如"!!")等等;然后,将每个文本样本先分句,再分词,具体来说,每幅图像对应的评论文本中的句子数量统一为S,每个句子包含的单词数量统一为T,消除句子长度不同带来的不便,其中S=26,T=16;
步骤S13、设计一个提取文本特征的双向门控循环单元网络(Bi-directionalGated Recurrent Unit,BiGRU);首先,对于由单词序列wit(第i个句子中的第t个单词)组成的句子,利用通用的GloVe字典的映射关系We,把单词转化为词向量xit,公式如下所示:
xit=Wewit,t∈[1,T],i∈[1,S]
其中,S是每幅图像对应的句子数量,T是句子中的单词数量。
然后,使用BiGRU网络对文本中的各个词向量xit进行编码,网络从词向量的两个方向汇总信息来获取单词的表示,因此能够将上下文信息合并到单词的表示中,获得隐藏层输出,公式如下所示:
对于第i个句子中的一个给定的单词向量xit,经过BiGRU网络编码后,获得了一种新的表示hit包含了xit上下文两个方向的信息;然后对第i个句子中的所有单词的表示hit直接求和以形成句子向量si,如下所示:
si=∑thit,t∈[1,T]
再将句子向量拼接在一起得到文本的全局特征ψt,维度为(S,Dt),也就是每个文本样本有S句评论,每句评论是Dt维,Dt设置为2048;
步骤S14、设计一个自注意力模块;对于第i个图像文本对,图像Ii来自于AVA数据集,文本Ci是AVA-COMMENTS数据集中与图像Ii对应的评论文本。通过上述步骤获得该图像文本对所对应的图像特征ψs和文本特征ψt,分别记为和文本特征经过1个全连接层完成线性变换,相当于经过1个嵌入权重变换Wt,得到矩阵维度为(S,D′t),D′t设置为2048,公式如下所示:
其中,上标T表示转置。
对于维度为(H×W,S)相似度矩阵首先,按照行进行softmax归一化,表示当前文本与所有图像区域的归一化相关性,用转置后的维度为(D′m,H×W)的图像特征与归一化后的相似度矩阵做矩阵乘法,也就是将相似度矩阵作用到了特征图的所有对应区域的D′m向量上,将矩阵乘法的结果转置后得到维度为(S,D′m)的特征,代表的是每句文本和所有图像特征的加权平均值,最后与输入的文本特征相加,得到增强的文本特征
同时,对于维度为(H×W,S)相似度矩阵按照列归一化,表示当前图像区域对所有文本的归一化相关性,再与维度为(S,D′t)的文本特征做矩阵乘法,也就是将相似度矩阵作用到了所有文本的D′t向量上。得到维度为(H×W,D′t)的特征,代表的是每个图像区域和所有文本特征的加权平均值,最后与输入的图像特征相加,得到增强的图像特征
步骤S15、使用双线性池化(Multi-modal Factorized Bilinear pooling,MFB)来高效地融合多模态的特征。首先,使用全连接层将视觉特征和文本特征映射成高维向量,然后两个高维向量逐元素相乘,并使用池化层降维,得到融合后的特征Q,最后经过1个全连接层得到美学评分分布预测。
如图3所示,在本实施例中,所述步骤S2具体包括以下步骤:
步骤S21、设计一个编码器-解码器结构;编码器的输入特征为教师网络得到的增强的文本特征编码器可以将输入特征编码成具有全局美学语义信息的潜在编码隐向量解码器则是要将重建输入特征;在编码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活进行特征提取;在解码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活来重建特征;
步骤S22、设计一个学生网络;学生网络包含一个Resnet50网络、转换器网络和1个用于美学评分分布预测的全连接层;对于一个输入图像,首先经过步骤S11进行图像预处理,然后输入到特征提取模块,该模块使用Resnet50网络中的conv1,conv2_x,…,conv5_x层和平均池化层,提取平均池化层的特征,记为αstu,再经由转换器网络得到特征再输入给全连接层用于预测美学分布;其中,转换器网络是2层全连接层网络,每层由线性变换层和带泄漏修正线性单元Leak Relu激活组成,转换器网络的作用是将学生特征投影到和编码隐向量同一个语义空间,和的维度都为256。
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31、设计一个模态分类器D作为判别器,判别器参数为θD,判别器用来判断输入的特征属于教师特征模态还是学生特征模态,做一个二分类任务;判别器由3层全连接层网络组成,每层包含一个线性变换层和Relu激活函数。
如图4所示,在本实施例中,所述步骤S4具体包括以下步骤:
步骤S41、设计一个美学评分分布损失,使用基于累积分布函数的损失函数LJs,公式如下:
其中,Mp(i)和ML(i)分别是学生网络或教师网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率,i对应美学评分取值1,2,…Z,Z是数据集中评分取值的个数,Z=10;
步骤S42、设计用于知识蒸馏的损失函数;具体有3个部分组成:重建损失,蒸馏损失,对抗损失;
对于对抗损失,由于使用蒸馏损失不能完全解决模态特征的异构问题,教师特征与学生特征之间的语义鸿沟使得蒸馏效果受到限制,因此利用一个模态分类器来消除教师特征与学生特征中与模态相关的信息;判别器D的二分类交叉熵损失作为判别损失,公式如下所示:
LD=-(yilogD(vi;θD)+(1-yi)logD(ti;θD))
式中,对于第i个待判断模态类型的特征,yi表示该特征的模态标签,若特征的模态标签是学生模态则yi为1,若特征的模态标签是教师模态则yi为0,θD是判别器的参数,vi是学生模态的特征,ti是教师模态的特征,D(vi;θD)表示判别器所预测的特征属于学生模态的概率,D(ti;θD)表示判别器所预测的样本i属于教师模态的概率。
步骤S43、根据预测的评分分布计算美学分类任务和回归任务的结果。
对于得到的学生网络的预测的评分分布MP(i),加权求和得到美学评分As的公式如下:
其中,MP(i)是评分取值为i分的概率,i是取值,i∈[1,Z];
美学分类是一个二分类任务,以Z/2分作为临界点,低于Z/2分的图像标注为不具备美感,大于等于Z/2分的标注为具备美感,美学分类标签Ac公式如下:
在本实施例中,所述步骤S5具体实现如下:
设计训练过程;先使用美学分布损失Ljs对图文多模态网络进行预训练,训练完毕后,参数冻结。然后,用于知识蒸馏的对抗训练分成生成阶段与判别阶段,2个阶段交替训练;生成阶段要优化编码器-解码器以及学生网络的参数,判别阶段仅优化判别器的参数;对于生成阶段,学生网络受到3个损失的监督,分别是美学分布损失Ljs、蒸馏损失Ldis和判别损失LD,编码器-解码器受到3个损失的监督,分别是重建损失Lrec、蒸馏损失Ldis和判别损失LD;对于判别阶段,使用判别损失LD优化判别器。在生成阶段,学生网络生成特征编码器生成特征训练目标是使得判别器无法判断出特征属于学生模态特征还是教师模态特征。在判别阶段,判别器要尽可能正确判断出特征的模态类别,最终在对抗中达到平衡,消除特征的模态信息;
判别阶段损失函数就是LD。生成阶段损失函数如下所示:
LG=λjsLjs+λdisLdis+λrecLrec-λDLD
其中,λjs,λdis,λrec和λD分别是美学评分分布损失、蒸馏损失、重建损失和对抗损失的权重参数,λjs设置为1,λdis设置为5,λrec设置为1,λD设置为0.1。
综上所述,首先对于输入的任意图像及其对应的美学评论,使用步骤S1预训练一个图文多模态网络;然后使用步骤S21中的编码器-解码器重建特征,同时图像单独输入步骤S22中的学生网络,然后使用步骤S31判别器以及步骤S4的损失函数,通过步骤S5训练出学生网络。对于新输入的待预测图像,输入学生网络,便可得到网络所预测的美学评分分布以及图像的分类和评分预测结果。
较佳的,由于多模态网络存在成对输入的限制,本实施例提出了一种基于知识蒸馏的跨模态图像美学质量评价方法,将多模态教师网络学习到的特征知识迁移到仅有图像作为输入的学生网络中。由于文本特征和图像特征之间的特征空间与数据分布存在鸿沟,在训练阶段利用一种编码器-解码器模块来重建模态信息,并使用生成对抗策略,将教师网络与学生网络的特征转化为与模态无关的特征信息,使得学生网络能更好的学习多模态教师网络的知识。在测试阶段中模型只需要输入图像便可进行预测。综上所述,本实施例设计的一种基于知识蒸馏的跨模态图像美学质量评价方法能显著提高美学质量预测精度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (4)
1.一种基于知识蒸馏的跨模态图像美学质量评价方法,其特征在于,包括以下步骤:
步骤S1、设计图文多模态美学质量评价的教师网络;
步骤S2、设计用于图像美学质量评价的学生网络;
步骤S3、设计用于进行对抗训练的判别器网络;
步骤S4、设计用于训练教师网络和学生网络的损失函数;
步骤S5、使用损失函数对步骤S1、S2及S3所设计网络进行训练;
步骤S6、将用于测试的图像输入训练好的学生网络预测其美学质量;
所述步骤S1具体包括以下步骤:
步骤S11、使用图像美学质量评价数据集AVA,对图像进行预处理,对于每一幅图像,先缩放到256×256,然后随机裁剪成224×224;预处理后的图像输入到特征提取模块,特征提取模块使用Resnet50网络中的conv1_x,conv2_x,…,conv5_x层,提取conv5_x层的特征,记为ψs;
步骤S12、美学文本数据集AVA-COMMENTS中包含用户对数据集AVA中图像的评论,使用美学文本数据集AVA-COMMENTS,对美学文本数据进行预处理:首先,使用标准的自然语言处理技术清洗文本噪声;然后,将每个文本样本先分句,再分词,具体即将每幅图像对应的评论文本中的句子数量统一为S,每个句子包含的单词数量统一为T;
步骤S13、设计一个提取文本特征的双向门控循环单元网络BiGRU;
首先,对于由单词序列wit组成的句子,wit表示第i个句子中的第t个单词,利用GloVe字典的映射关系We,把单词转化为词向量xit,公式如下所示:
xit=Wewit,t∈[1,T],i∈[1,S]
其中,S是每幅图像对应的句子数量,T是句子中的单词数量;
然后,使用BiGRU网络对文本中的各个词向量xit进行编码,BiGRU网络从词向量的两个方向汇总信息来获取单词的表示,因此能够将上下文信息合并到单词的表示中,获得隐藏层输出,公式如下所示:
对于第i个句子中的一个给定的单词向量xit,经过BiGRU网络编码后,获得了一种新的表示hit包含了xit上下文两个方向的信息;然后对第i个句子中的所有单词的表示hit直接求和以形成句子向量si,如下所示:
si=∑thit,t∈[1,T]
再将句子向量拼接在一起得到文本特征ψt,维度为(S,Dt),也就是每个文本样本有S句评论,每句评论是Dt维;
步骤S14、设计一个自注意力模块;对于第i个图像文本对,图像Ii来自于AVA,文本Ci是AVA-COMMENTS中与图像Ii对应的评论文本;通过上述步骤获得相应图像文本对所对应的图像特征ψs和文本特征ψt,分别记为和
其中,上标T表示转置;
对于维度为(H×W,S)相似度矩阵首先,按照行进行softmax归一化,表示当前文本与所有图像区域的归一化相关性,用转置后的维度为(D'm,H×W)的与归一化后的相似度矩阵做矩阵乘法,也就是将相似度矩阵作用到图像的所有对应区域的D'm向量上,将矩阵乘法的结果转置后得到维度为(S,D'm)的特征,代表的是每句文本和所有图像特征的加权平均值,最后与输入的文本特征相加,得到增强的文本特征
同时,对于维度为(H×W,S)相似度矩阵按照列归一化,表示当前图像区域对所有文本的归一化相关性,再与维度为(S,D't)的做矩阵乘法,也就是将相似度矩阵作用到了所有文本的D't向量上;得到维度为(H×W,D't)的特征,代表的是每个图像区域和所有文本特征的加权平均值,最后与输入的图像特征相加,得到增强的图像特征
步骤S15、使用双线性池化MFB来高效地融合多模态的特征:首先,使用全连接层将增强的图像特征和增强的文本特征映射成高维向量,然后两个高维向量逐元素相乘,并使用池化层降维,得到融合后的特征Q,最后经过1个全连接层得到美学评分分布预测;
所述步骤S2具体包括以下步骤:
步骤S21、设计一个编码器-解码器结构;编码器的输入特征为教师网络得到的增强的文本特征编码器将输入特征编码成具有全局美学语义信息的潜在编码隐向量解码器则是要将重建输入特征;在编码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活进行特征提取;在解码器部分,使用4层全连接层网络和带泄漏修正线性单元Leaky ReLU激活来重建特征;
步骤S22、设计一个学生网络;学生网络包含一个Resnet50网络、转换器网络和1个用于美学评分分布预测的全连接层;对于一个输入图像,首先经过步骤S11进行图像预处理,然后输入到特征提取模块,特征提取模块使用Resnet50网络中的conv1_x,conv2_x,…,conv5_x层和平均池化层,提取平均池化层的特征,记为αstu,再经由转换器网络得到学生特征再输入给全连接层用于预测美学分布;其中,转换器网络是2层全连接层网络,每层由线性变换层和带泄漏修正线性单元Leaky Relu激活组成,转换器网络的作用是将学生特征投影到和编码隐向量同一个语义空间;
所述步骤S3具体实现如下:
设计一个模态分类器D作为判别器,判别器参数为θD,判别器用来判断输入的特征属于教师特征模态还是学生特征模态,做一个二分类任务;判别器由3层全连接层网络组成,每层包含一个线性变换层和Relu激活函数。
2.根据权利要求1所述的一种基于知识蒸馏的跨模态图像美学质量评价方法,其特征在于,所述步骤S4具体包括以下步骤:
步骤S41、设计一个美学评分分布损失,使用基于累积分布函数的损失函数LJS,公式如下:
其中,Mp(i)和ML(i)分别是学生网络或教师网络预测的评分分布和标签的真实分布中美学评分第i个取值对应的概率,i对应美学评分取值1,2,…Z,Z是数据集中评分取值的个数;
步骤S42、设计用于知识蒸馏的损失函数;具体有3个部分组成:重建损失,蒸馏损失,对抗损失;
对于对抗损失,由于使用蒸馏损失不能完全解决模态特征的异构问题,教师特征与学生特征之间的语义鸿沟使得蒸馏效果受到限制,因此利用一个模态分类器来消除教师特征与学生特征中与模态相关的信息;判别器D的二分类交叉熵损失作为判别损失,公式如下所示:
LD=-(yilogD(vi;θD)+(1-yi)logD(ti;θD))
式中,对于第i个待判断模态类型的特征,yi表示该特征的模态标签,若特征的模态标签是学生模态则yi为1,若特征的模态标签是教师模态则yi为0,θD是判别器的参数,vi是学生模态的特征,ti是教师模态的特征,D(vi;θD)表示判别器所预测的特征属于学生模态的概率,D(ti;θD)表示判别器所预测的样本i属于教师模态的概率;
步骤S43、根据预测的评分分布计算美学分类任务和回归任务的结果;
对于得到的学生网络的预测的评分分布MP(i),加权求和得到美学评分As的公式如下:
其中,MP(i)是评分取值为i分的概率,i是取值,i∈[1,Z];
美学分类是一个二分类任务,以Z/2分作为临界点,低于Z/2分的图像标注为不具备美感,大于等于Z/2分的标注为具备美感,美学分类标签Ac公式如下:
3.根据权利要求2所述的一种基于知识蒸馏的跨模态图像美学质量评价方法,其特征在于,所述步骤S5具体实现如下:
设计训练过程;先使用美学分布损失LJS对图文多模态美学质量评价的教师网络进行预训练,训练完毕后,参数冻结;然后,用于知识蒸馏的对抗训练分成生成阶段与判别阶段,2个阶段交替训练;生成阶段要优化编码器-解码器以及学生网络的参数,判别阶段仅优化判别器的参数;对于生成阶段,学生网络受到3个损失的监督,分别是美学分布损失LJS、蒸馏损失Ldis和判别损失LD,编码器-解码器受到3个损失的监督,分别是重建损失Lrec、蒸馏损失Ldis和判别损失LD;对于判别阶段,使用判别损失LD优化判别器;在生成阶段,学生特征编码隐向量训练目标是使得判别器无法判断出特征属于学生模态特征还是教师模态特征;在判别阶段,判别器要尽可能正确判断出特征的模态类别,最终在对抗中达到平衡,消除特征的模态信息;
判别阶段损失函数就是LD;生成阶段损失函数如下所示:
LG=λjsLJS+λdisLdis+λrecLrec-λDLD
其中,λjs,λdis,λrec和λD分别是美学评分分布损失、蒸馏损失、重建损失和对抗损失的权重参数。
4.根据权利要求3所述的一种基于知识蒸馏的跨模态图像美学质量评价方法,其特征在于,该方法对于输入的任意图像及其对应的美学评论进行美学质量评价的过程为:首先对于输入的任意图像及其对应的美学评论,使用步骤S1预训练一个图文多模态美学质量评价的教师网络;然后使用步骤S21中的编码器-解码器重建特征,同时图像单独输入步骤S22中的学生网络,然后使用步骤S31判别器以及步骤S4的损失函数,通过步骤S5训练出学生网络;对于新输入的待预测图像,输入学生网络,便可得到网络所预测的美学评分分布以及图像的分类和评分预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110020656.XA CN112613303B (zh) | 2021-01-07 | 2021-01-07 | 一种基于知识蒸馏的跨模态图像美学质量评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110020656.XA CN112613303B (zh) | 2021-01-07 | 2021-01-07 | 一种基于知识蒸馏的跨模态图像美学质量评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112613303A CN112613303A (zh) | 2021-04-06 |
CN112613303B true CN112613303B (zh) | 2023-02-21 |
Family
ID=75253506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110020656.XA Active CN112613303B (zh) | 2021-01-07 | 2021-01-07 | 一种基于知识蒸馏的跨模态图像美学质量评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613303B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926700B (zh) * | 2021-04-27 | 2022-04-12 | 支付宝(杭州)信息技术有限公司 | 针对目标图像的类别识别方法和装置 |
CN112927172B (zh) * | 2021-05-10 | 2021-08-24 | 北京市商汤科技开发有限公司 | 图像处理网络的训练方法和装置、电子设备和存储介质 |
CN113222032B (zh) * | 2021-05-19 | 2023-03-10 | 西安电子科技大学 | 基于自注意图像编码的无参考图像质量评价方法 |
CN113378981B (zh) * | 2021-07-02 | 2022-05-13 | 湖南大学 | 基于域适应的噪音场景图像分类方法及系统 |
CN113610128B (zh) * | 2021-07-28 | 2024-02-13 | 西北大学 | 基于美学属性检索的图片美学描述建模、描述方法及系统 |
CN113609965B (zh) * | 2021-08-03 | 2024-02-13 | 同盾科技有限公司 | 文字识别模型的训练方法及装置、存储介质、电子设备 |
CN113360701B (zh) * | 2021-08-09 | 2021-11-02 | 成都考拉悠然科技有限公司 | 一种基于知识蒸馏的素描图处理方法及其系统 |
CN113657380B (zh) * | 2021-08-17 | 2023-08-18 | 福州大学 | 融合多模态注意力机制的图像美学质量评价方法 |
CN113807214B (zh) * | 2021-08-31 | 2024-01-05 | 中国科学院上海微系统与信息技术研究所 | 基于deit附属网络知识蒸馏的小目标人脸识别方法 |
CN113920574B (zh) * | 2021-12-15 | 2022-03-18 | 深圳市视美泰技术股份有限公司 | 图片质量评价模型的训练方法、装置、计算机设备和介质 |
CN114283083B (zh) * | 2021-12-22 | 2024-05-10 | 杭州电子科技大学 | 一种基于解耦表示的场景生成模型的美学增强方法 |
CN114549850B (zh) * | 2022-01-24 | 2023-08-08 | 西北大学 | 一种解决模态缺失问题的多模态图像美学质量评价方法 |
CN114785978A (zh) * | 2022-02-10 | 2022-07-22 | 东莞市毅豪电子科技有限公司 | 一种面向视频会议的视频图像质量确定方法 |
CN114742799B (zh) * | 2022-04-18 | 2024-04-26 | 华中科技大学 | 基于自监督异构网络的工业场景未知类型缺陷分割方法 |
CN114863353B (zh) * | 2022-04-19 | 2024-08-02 | 华南理工大学 | 一种人与物体关系检测方法、装置及存储介质 |
CN115115914B (zh) * | 2022-06-07 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 信息识别方法、装置以及计算机可读存储介质 |
CN115035611B (zh) * | 2022-06-22 | 2024-08-13 | 齐鲁工业大学 | 基于动态权重降维的多模态医学图像分类方法及系统 |
CN114926461A (zh) * | 2022-07-19 | 2022-08-19 | 湖南工商大学 | 一种全盲屏幕内容图像质量评价方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136216A (zh) * | 2018-02-09 | 2019-08-16 | 北京三星通信技术研究有限公司 | 图像生成的方法及终端设备 |
CN110473164A (zh) * | 2019-05-31 | 2019-11-19 | 北京理工大学 | 一种基于注意力机制的图像美学质量评价方法 |
CN111079639A (zh) * | 2019-12-13 | 2020-04-28 | 中国平安财产保险股份有限公司 | 垃圾图像分类模型构建的方法、装置、设备及存储介质 |
CN111950655A (zh) * | 2020-08-25 | 2020-11-17 | 福州大学 | 一种基于多领域知识驱动的图像美学质量评价方法 |
CN112116030A (zh) * | 2020-10-13 | 2020-12-22 | 浙江大学 | 一种基于向量标准化和知识蒸馏的图像分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10002415B2 (en) * | 2016-04-12 | 2018-06-19 | Adobe Systems Incorporated | Utilizing deep learning for rating aesthetics of digital images |
CN111611377B (zh) * | 2020-04-22 | 2021-10-29 | 淮阴工学院 | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 |
-
2021
- 2021-01-07 CN CN202110020656.XA patent/CN112613303B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136216A (zh) * | 2018-02-09 | 2019-08-16 | 北京三星通信技术研究有限公司 | 图像生成的方法及终端设备 |
CN110473164A (zh) * | 2019-05-31 | 2019-11-19 | 北京理工大学 | 一种基于注意力机制的图像美学质量评价方法 |
CN111079639A (zh) * | 2019-12-13 | 2020-04-28 | 中国平安财产保险股份有限公司 | 垃圾图像分类模型构建的方法、装置、设备及存储介质 |
CN111950655A (zh) * | 2020-08-25 | 2020-11-17 | 福州大学 | 一种基于多领域知识驱动的图像美学质量评价方法 |
CN112116030A (zh) * | 2020-10-13 | 2020-12-22 | 浙江大学 | 一种基于向量标准化和知识蒸馏的图像分类方法 |
Non-Patent Citations (1)
Title |
---|
基于美学评判的文本生成图像优化;徐天宇等;《万方数据期刊库》;20200116;第1-11页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112613303A (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112613303B (zh) | 一种基于知识蒸馏的跨模态图像美学质量评价方法 | |
CN111985245B (zh) | 基于注意力循环门控图卷积网络的关系提取方法及系统 | |
CN112633010B (zh) | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN113792113A (zh) | 视觉语言模型获得及任务处理方法、装置、设备及介质 | |
CN111652357B (zh) | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 | |
CN111930906A (zh) | 基于语义块的知识图谱问答方法及装置 | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
CN111831789A (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN116204674B (zh) | 一种基于视觉概念词关联结构化建模的图像描述方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN116975776A (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN116109978A (zh) | 基于自约束动态文本特征的无监督视频描述方法 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN114328943A (zh) | 基于知识图谱的问题回答方法、装置、设备及存储介质 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
CN117633674A (zh) | 一种基于因果门控注意力机制的多模态情感分析方法 | |
CN116737897A (zh) | 一种基于多模态的智慧楼宇知识抽取模型和方法 | |
CN114661874B (zh) | 基于多角度语义理解与自适应双通道的视觉问答方法 | |
CN115422945A (zh) | 一种融合情感挖掘的谣言检测方法及系统 | |
CN115169285A (zh) | 一种基于图解析的事件抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |