CN114549850A - 一种解决模态缺失问题的多模态图像美学质量评价方法 - Google Patents

一种解决模态缺失问题的多模态图像美学质量评价方法 Download PDF

Info

Publication number
CN114549850A
CN114549850A CN202210080054.8A CN202210080054A CN114549850A CN 114549850 A CN114549850 A CN 114549850A CN 202210080054 A CN202210080054 A CN 202210080054A CN 114549850 A CN114549850 A CN 114549850A
Authority
CN
China
Prior art keywords
image
representing
aesthetic
text
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210080054.8A
Other languages
English (en)
Other versions
CN114549850B (zh
Inventor
范建平
宋乔
张晓丹
彭先霖
王珺
赵万青
李斌
彭进业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN202210080054.8A priority Critical patent/CN114549850B/zh
Publication of CN114549850A publication Critical patent/CN114549850A/zh
Application granted granted Critical
Publication of CN114549850B publication Critical patent/CN114549850B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种解决模态缺失问题的多模态图像美学质量评价方法,步骤1,获取美学数据集,对数据集进行数据清洗和预处理,获得每张图像的图像ID、文本评论信息和标签;步骤2,使用DPC数据集预训练缺失模态重建网络,利用图像的视觉特征重建缺失的文本模态信息;步骤3,建立多模态美学预测网络,所述的多模态美学预测网络包括图像编码器、embedding模型、多模态编码器和美学评分单元;步骤4,将美学数据集中每张图像的图像ID、文本评论信息和真实标签作为训练集,对多模态美学预测网络进行训练,训练好的多模态美学预测网络作为美学评分分布预测模型,实现多模态图像美学质量评价。使图像信息和文本信息不同模态的信息在多个不同的层次上相互作用。

Description

一种解决模态缺失问题的多模态图像美学质量评价方法
技术领域
本发明属于图像技术领域,涉及图像美学质量,具体涉及一种解决模态缺失问题的多模态图像美学质量评价方法。
背景技术
随着智能手机的普及和互联网的发展,人们在获得大量图片的同时对图像的内容和美感也有了更高的要求。因此,图像美学质量评价吸引了越来越多的研究兴趣,此任务旨在利用计算机模拟人类对美的感知,自动评价图像的美感,是计算美学与计算机视觉、心理学、虚拟现实等交叉研究方向的新挑战。其在照片排名,图像推荐和图像的检索和编辑等方面都有广泛的应用。
如何区分专业摄影师拍摄的照片和普通用户拍摄的照片,是研究人员在图像美学质量评价领域的最早尝试。摄影规则给了人们一些启发,人们据此设计了一些手工特征用于对图像进行美学决策。这些方法虽然在当时取得了一些成果,但是无法准确捕捉复杂的审美因素,有一定的局限性。之后,随着卷积神经网络的提出与发展,研究者们发现将其应用于图像美学质量评价任务中,这些深度模型会提取大量的与美学相关的特征,从而显著提高图像美学质量评价任务的性能。但是,这些方法大多数是从经典的图像分类网络改编而来,不特定于图像美学质量评价任务并且往往只关注图像特征而没有考虑其他相关的数据源,因此取得的成功有局限性。
随着互联网的普及,我们生活的现实数字世界本质上是多模态的:网络上的图像通常伴随着文本信息而出现。例如,在photo.net,Instagram等图片分享网站上,都允许用户对图片进行主观评论。文本信息描述了图像的内容及其给带给人们的感受感受,从而有助于图像审美评价任务。多模态学习利用同一任务来自不同模态的互补信息来提高各种计算机视觉任务的性能。并且随着自然语言处理领域各种表现优异的模型的发布,图像美学质量评价领域图像的文本评论信息也引起了研究人员的注意并进行了一些研究。在多模态学习中,各个模态的信息如何进行有效融合是一个关键点。多模态图像美学评估的最新进展,例如Hii等人直接连接multigap提取的视觉特征和RNN提取的文本特征进行美学预测,Zhang等人提出一个称为MSCAN的模型使用co-attention机制捕获多模态特征之间的内在相关性。虽然上述方法取得了一些有效的结果,但是它们使用后期融合方法来融合多模态输入。此方法通常需要多模态数据在训练阶段同时存在。但是,与图像信息相比,文本信息较难获取,因为需要更多的人力和时间,并且文本评论中可能会包含一些与美学内容无关的无效评论。这些因素会导致数据集中缺少文本评论信息。
针对模态数据缺失的问题,以往多模态学习方法中常用的方法有:(A)丢弃模态数据缺失的样本或直接用零或平均值填充缺失值。(B)构造隐空间中的多模态联合表示对多模态信息进行编码。然而,这些方法要么会导致样本数量减少和一些重要信息的丢失,要么需要同时更新所有样本,这对于图像美学质量评估任务的大规模数据集是不适用的。所以,如何处理模态缺失的问题是利用多模态信息进行图像美学质量评价的关键。
发明内容
针对现有技术存在的不足,本发明的目的在于,提供一种解决模态缺失问题的多模态图像美学质量评价方法,以解决现有技术中的多模态方法对多模态信息仅进行单一层次融合忽略它们在不同层次上的相互作用和文本模态缺失的问题。
为了解决上述技术问题,本发明采用如下技术方案予以实现:
一种解决模态缺失问题的多模态图像美学质量评价方法,该方法包括以下步骤:
步骤1,获取美学数据集,对数据集进行数据清洗和预处理,获得每张图像的图像ID、文本评论信息和标签;
步骤2,使用DPC数据集预训练缺失模态重建网络,利用图像的视觉特征重建缺失的文本模态信息;
步骤3,建立多模态美学预测网络,所述的多模态美学预测网络包括图像编码器、embedding模型、多模态编码器和美学评分单元;
所述的图像编码器用于提取美学数据集中的图像的特征;
所述的embedding模型用于计算多模态编码器的输入;
所述的多模态编码器用于多模态特征融合,将视觉特征和文本特征进行融合,得到多模态的联合表示向量;
所述的美学评分单元,用于基于多模态的联合表示向量计算美学预测概率分布;
步骤4,将美学数据集中每张图像的图像ID、文本评论信息和真实标签作为训练集,对多模态美学预测网络进行训练,训练好的多模态美学预测网络作为美学评分分布预测模型,实现多模态图像美学质量评价。
本发明还具有如下技术特征:
具体的,步骤2包括以下步骤:
步骤2.1,统计DPC数据集中出现的不同的单词的数量,做成词汇表;
步骤2.2,对于缺少文本模态数据的美学数据集中的样本,基于可用的图像模态重建缺少的文本模态;给定可观测的图像模态,采用卷积神经网络提取视觉特征集x={x1,x2...,xL|xi∈RD};
式中:
i表示图像特征的顺序,i=1,2,..,L,L表示总共L个位置;
xi表示第i个位置的图像特征;
L表示总共L个位置;
RD表示视觉特征的维度为D维向量;
步骤2.3,计算第i个位置的注意力权重αt,i,注意力权重就是衡量在t时刻生成第t个单词时,第i个位置的图像特征所占的权重;
eti=fatt(xi,ht-1) 式1;
Figure BDA0003485755520000041
式中:
fatt表示计算位置i和时间t的耦合信息的函数;
ht-1表示上一时刻的隐藏状态;
eti表示在t时刻i位置上的耦合信息;
etk表示计算t时刻和共L个位置上第k个位置的耦合信息,是一个中间变量;
k表示第k个位置;
步骤2.4,得到注意力权重之后,进而计算上下文向量,计算方式如下所示:
Figure BDA0003485755520000042
Figure BDA0003485755520000043
式中:
Figure BDA0003485755520000044
表示上下文向量;
ψ表示一个函数,在给定一组标注向量及其相应权值的情况下,返回单个向量;
步骤2.5,使用LSTM模型作为解码器,将步骤2.4得到的上下文向量和先前生成的单词还有上一时刻的隐藏状态ht-1输入LSTM网络中,LSTM网络通过在每个时刻生成一个单词来生成文本注释,以重建缺失的文本模态信息y;
y={y1,y2,...,yM|yj∈RA};
式中:
j表示生成文本模态信息中单词的顺序,j=1,2,...,M,M表示生成单词的数量;
yj表示生成的第j个单词;
M表示生成单词的数量;
A表示词汇表的大小;
RA表示生成的单词的维度;
所述的LSTM网络中:
Figure BDA0003485755520000051
Figure BDA0003485755520000052
Figure BDA0003485755520000053
式中:
it表示LSTM网络的输入状态;
ft表示LSTM网络的遗忘状态;
ot表示LSTM网络的输出状态;
ct表示LSTM网络的记忆状态;
ht表示LSTM网络的隐藏状态;
gt表示LSTM网络的输入调制器;
σ表示sigmoid激活函数;
tanh表示tanh激活函数;
T表示维度转换操作;
D表示视觉特征的维度;
m表示字嵌入的维度;
n表示LSTM的维度,
E表示一个嵌入矩阵,E∈Rm×A
A表示词汇表的大小;
Rm×A表示嵌入矩阵的维度;
yt-1表示上一时刻生成的单词;
ht-1表示上一时刻的隐藏状态;
Figure BDA0003485755520000061
为上下文向量是LSTM网络的实际输入,表示每次捕获的相应相关图像位置;
Figure BDA0003485755520000063
表示点乘操作;
步骤2.6,使用一个深层输出层,计算生成词汇表中每个单词的概率,计算方法如下所示:
Figure BDA0003485755520000062
式中:
p表示生成单词的概率;
yt表示t时刻生成的单词;
x表示图像的视觉特征;
yt-1表示t-1时刻生成的单词;
ht表示t时刻的隐藏状态;
L0、Lh、Lz和E都是随机初始化的矩阵;
Lo∈RM×m,RM×m表示L0的维度;
Lh=Rm×n,Rm×n表示Lh的维度;
Lz∈Rm×D,Rm×D表示Lz的维度;
E∈Rm×A,Rm×A表示E的维度;
最后,将概率最高的单词作为当前生成的单词,并作为下一次的输入。
具体的,步骤3包括以下步骤:
步骤3.1,所述的图像编码器中,使用美学数据集中的图像作为输入;使用去掉全连接层和池化层的Resnet50模型作为图像编码器,并加入一层自适应池化层,使自适应池化层的输出尺寸为P×Q,最终得到N=P×Q个独立的图像嵌入作为图像的初始视觉特征向量;
f(image,c)={rc|rc∈RI,c=1,2,...,N} 式9;
式中:
f(image,c)表示图像编码器的最后一层自适应池操作的N个输出中的第c个输出;
c表示经过自适应池化层得到的初始视觉特征向量的顺序,c=1,2,...N,N表示初始视觉特征向量的个数;
image表示美学数据集中的图像;
rc表示第c个初始视觉特征向量;
RI表示初始视觉特征向量的维度;
步骤3.2,所述的embedding模型中,当输入为美学数据集中的文本评论信息时包括segment embedding,position embedding和text embedding,最终的多模态输入为三者的和;
或当输入为美学数据集中的图像时包括segment embedding,positionembedding和image embedding,最终的多模态输入为三者的和;
所述的segment embedding用于区分不同的模态,为图像模态和文本模态分别分配一个segment ID,把图像模态的segment ID即sv置为0,文本模态的segment ID即st置为1;
所述的position embedding代表每个嵌入在segment中的相对位置信息,对每个segment从0开始计数;
所述的text embedding中,对于不存在文本模态缺失的样本,输入的是美学数据集中的文本评论信息,对于存在文本模态缺失的样本,输入的是经过步骤2中的缺失模态重建网络重建的文本模态信息;采用与Bert相同的编码方法来处理输入的文本模态信息,首先将一句文本评论划分为一个单词序列,然后使用WordPiece方法对每个单词进行token化,然后将token嵌入转化为d维的特征向量表示;使用t={t1,t2,...,tG}∈Rd表示输入文本序列,G表示文本评论信息中单词的个数,d表示768维的嵌入维度;然后,与segmentembedding和position embedding求和;最终一句输入的文本评论可以表示为
Figure BDA0003485755520000081
第i个单词的最终文本特征向量表示通过以下公式计算:
Figure BDA0003485755520000082
式中:
LayerNorm表示一个归一化函数;
i表示文本评论信息中单词的顺序,i=1,2,...,G,G表示文本评论信息中单词的个数;
ti表示第i个单词的文本嵌入;
Figure BDA0003485755520000091
表示第i个单词最终的特征向量;
pi表示position embedding;
st表示segment embedding中的segment ID,将其设置为1;
所述的image embedding中,由步骤3.1得到的N个独立的初始视觉特征向量对应于文本模态中的N个token;首先,学习一个随机初始化的权重矩阵Wm∈RI×d将N个初始视觉特征向量中的每一个I维的初始视觉特征向量经过特征映射得到与文本嵌入相同的d维度,如下所示:
Si=Wmf(image,i) 式11;
式中:
i表示视觉特征向量的顺序,i=1,2,...,N,N表示视觉特征向量的个数;
Si表示N个独立的初始视觉特征向量经过特征映射后的第i个视觉特征向量;
Wm表示随机初始化的权重矩阵;
f(image,i)表示图像编码器的最后一层自适应池操作的N个输出中的第i个输出;
然后,将视觉特征表示为v={v1,v2,...,vN}∈Rd
式中:
N表示经过特征映射后视觉特征向量的个数为N个;
Rd表示视觉特征向量的维度;
同样,加上position embedding和segment embedding得到最终的视觉特征表示
Figure BDA0003485755520000101
对于第i个最终的视觉特征向量的计算如下所示:
Figure BDA0003485755520000102
式中:
LayerNorm表示一个归一化函数;
i表示视觉特征向量的顺序,i=1,2,...N,N表示最终视觉特征向量的个数;
vi表示第i个视觉特征向量;
Figure BDA0003485755520000103
表示第i个最终视觉特征表示;
pi表示position embedding;
st表示segment embedding中的segment ID,将其设置为0;
获得最终文本特征向量和最终视觉特征向量后,添加两个特殊标记[CLS]和[SEP]构建多模态输入序列,[CLS]用于学习联合分类特征,[SEP]用于分隔不同模态的特征向量;多模态编码器的最终输入多模态特征向量表示为:
Figure BDA0003485755520000104
式中:
MF表示多模态特征向量;
[CLS]表示用于学习联合分类特征的特殊标记;
[SEP]表示用于分隔不同模态特征向量的特殊标记;
Figure BDA0003485755520000105
表示最终的视觉特征向量;
Figure BDA0003485755520000106
表示最终的文本特征向量;
步骤3.3,所述的多模态编码器中,将步骤3.2得到的多模态特征向量MF送入到以transformer为基础架构的多模态编码器中,用于自动建模文本和视觉两种模态信息之间的丰富交互;
步骤3.3.1,首先,多模态输入MF经过12层多头self-attention机制注意不同子空间的信息,捕捉更加丰富的特征信息;具体来说,对于第j层多头self-attention机制,j表示多模态编码器层数的顺序,j=1,2,...,12。多模态输入MF使用点积注意机制如下所示:
Figure BDA0003485755520000111
式中:
softmax表示归一化函数;
i表示多头self-attention机制中的头的顺序,i=1,2,....,m,m表示self-attention多头个数;
m表示self-attention多头个数,m=12;
T表示矩阵转置操作;
Qi=Wi Q·MF,表示第i个self-attention中的Query;
Ki=Wi K·MF,表示第i个self-attention中的Key;
Vi=Wi V·MF,表示第i个self-attention中的Value;
MF表示多模态输入;
Wi Q、Wi K和Wi V是三个随机初始化的权重矩阵;
Figure BDA0003485755520000112
dQ表示Query的维度,dK表示Key的维度,dV表示Value的维度,d表示多模态输入的维度;
Figure BDA0003485755520000113
是为了把注意力矩阵变成标准正态分布;
Attentioni(Qi,Ki,Vi)表示多模态输入在第j层的第i个头self-attention计算得到的注意力;
步骤3.3.2,将步骤3.3.1计算得到的注意力Attentioni(Qi,Ki,Vi)连接,再乘以一个权重矩阵
Figure BDA0003485755520000121
得到第j层self-attention的输出,如下所示:MultiHead(Q,K,V)=concat[Attention1(Q1,K1,V1),Attention2(Q2,K2,V2),....,Attentionm(Qm,Km,Vm)]·WO 式15;
式中:
MultiHead(Q,K,V)表示多模态输入MF在多模态编码器第j层计算得到的注意力。
m表示多头self-attention机制的头数,m=12;
WO表示权重矩阵,
Figure BDA0003485755520000122
Figure BDA0003485755520000123
表示权重矩阵的维度;
d表示多模态输入MF的特征维度;
dV表示Value的维度;
concat表示连接操作;
步骤3.3.3,将第j层多头self-attention的输出进行残差连接和Layernorm操作,Layernorm操作的作用是把神经网络中隐藏层归一化为标准正态分布,加速收敛,具体操作如下:
MFattention=LayerNorm(MF+MultiHead(Q,K,V)) 式16;
式中:
LayerNorm表示一个归一化函数;
MF表示多模态输入;
MultiHead(Q,K,V)表示步骤3.3.2的输出;
MFattention表示经过残差连接和归一化操作后的注意力;
步骤3.3.4,再经过带有GeLU激活函数的两层线性映射feed forward层和式16的操作,得到第j层多模态编码器的输出如下:
MFout=LayerNorm[MF+Gelu(Linear(Linear(MFattention)))] 式17;
式中:
LayerNorm表示一个归一化函数;
MF表示多模态输入;
MFattention表示步骤3.3.3的输出;
Gelu表示激活函数;
Linear表示线性函数;
MFout表示第j层输出的多模态特征;
此时得到的第j层的输出MFout作为多模态编码器模型的j+1层编码器的输入MF继续重复上述操作,整个多模态编码器堆叠12层这样的编码器。最后,得到的最后一层即第12层的隐藏层的第一个特殊标记[CLS]被送到美学预测模块,用于评估图像的美学价值;
步骤3.4,所述的美学评分单元中,输入为多模态编码器的输出向量MFout的第一个特殊标记[CLS],使用一层全连接层输出图像的美学标签分布
Figure BDA0003485755520000131
之后,再经过softmax层将进行归一化操作;在美学数据集中发现图像的真实标签是具有类间顺序的分布,所以使用可以计算两个顺序分布的最小距离的EMD损失函数对网络进行优化;损失函数的定义如下:
Figure BDA0003485755520000132
式中:
p表示图像的真实的美学分数分布;
Figure BDA0003485755520000133
表示预测的美学分数分布;
CDFp(k)代表计算真实的美学分数分布的累积分布函数;
Figure BDA0003485755520000141
表示计算预测的美学分数分布的累计分布函数;
k表示美学得分分值的顺序,k=1,2,...,N;
N表示分值的数量,N=10;
r表示一个惩罚因子,r=2。
本发明与现有技术相比,具有如下技术效果:
(Ⅰ)本发明可以使图像信息和文本信息不同模态的信息在多个不同的层次上相互作用,进行更早和更细粒度的融合,而不仅仅是只在最后一层进行融合。从而得到更有效的多模态表示。
(Ⅱ)本发明可以在存在文本模态缺失的情况下,使用一个预训练的模态重建网络根据可用的视觉模态重建缺失的模态信息,减少模态缺失对于美学预测性能的影响。
(Ⅲ)本发明可以处理训练集,测试集或训练集和测试集都发生模态缺失的情况,具有一定的灵活性。本发明在两个美学数据集上都能有效的处理模态缺失的问题,具有通用性。
附图说明
图1(a)为解决模态缺失问题的应用场景中的训练集和测试集都是全模态的示意图。
图1(b)为解决模态缺失问题的应用场景中的训练集全模态,测试集文本模态缺失的示意图。
图1(c)为解决模态缺失问题的应用场景中的训练集和测试集都存在文本模态缺失的示意图。
图2为本发明的方法的缺失模态重建网络的网络模型结构示意图。
图3为缺失模态重建模块的模型结构示意图。
图4为Bert模型的结构示意图。
以下结合实施例对本发明的具体内容作进一步详细解释说明。
具体实施方式
随着互联网的发展,人们在获得大量图片的同时对图像的内容和美感也有了更高的要求,所以,图像美学质量评价任务吸引了越来越多的注意。我们生活的数字世界本质上是多模态的,图像信息通常伴随着文本评论信息而存在,文本评论信息包含图像的内容描述以及带给人们的感受。因此文本评论信息有助于美学预测。但是文本信息相较于图像信息来说较难获得,在多模态学习中往往会出现模态缺失的现象。
本发明的方法突破了以往的方法中仅在单一层次上进行特征融合的局限性,并且解决了多模态方法中存在文本模态缺失的问题。本发明将视觉特征投影到文本的token空间,使用基于transformer多模态编码器使视觉和文本两种模态信息在不同的层次上相互作用从而进行更早和更细粒度的融合,而不仅仅只在最后一层。为了处理任意阶段的文本模态缺失,通过一个基于视觉注意力的预训练模型以可用的视觉模态信息为条件重构缺失模态用以补全多模态输入。实验结果表明,本发明不仅能提高多模态图像美学质量评价的性能,而且能有效解决模态缺失问题。
需要说明的是,本发明中的所有的模型,如无特殊说明,全部均采用现有技术中已知的模型。
需要说明的是,本发明中:
美学数据集指的是AVA数据集和Photo.net数据集。
DPC数据集指的是DPC-Caption数据集。
LSTM网络指的是长短时记忆网络,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题,其英文全称为Long Short-Term Memory。
transformer模型指的是一种使用注意力机制的模型。
Bert模型指的是一个预训练的语言表征模型,其英文全称为BidirectionalEncoder Representation from Transformers。
token化指的是就是将一句话分成一个一个的单词。
WordPiece指的是一种token化的方法。
softmax指的是归一化函数。
self-attention指的是自注意力机制,是attention机制的一种。
query,key和value是attention机制中的三个权重矩阵。
EMD指的是一种计算具有类间顺序的损失函数,其英文全称为Earth Mover’sDistance。
MFB指的是多模态分解双线性池,其英文全称为multimodal factorizedbilinear pooling。
深层输出层采用已知的深层输出层,其英文全称为deep output layer。
遵从上述技术方案,以下给出本发明的具体实施例,需要说明的是本发明并不局限于以下具体实施例,凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。
实施例1:
本实施例给出一种解决模态缺失问题的多模态图像美学质量评价方法,如图1(a)至图4所示,该方法包括以下步骤:
步骤1,获取美学数据集,对数据集进行数据清洗和预处理,获得每张图像的图像ID、文本评论信息和标签;
步骤2,使用DPC数据集预训练缺失模态重建网络,利用图像的视觉特征重建缺失的文本模态信息;
遵从上述发明内容中给出的步骤2.1至2.6的具体技术方案,本实施例中具体的步骤2包括以下步骤:
步骤2.1,统计DPC数据集中出现的不同的单词的数量,做成词汇表用于生成文本评论,词汇表使用json文件存储。经过统计,DPC数据集中共有39208个不同的词汇。
步骤2.2,输入的图像归一化到大小为224×224,特征提取器直接使用VGG16网络中conv5_3层的输出,特征图为14×14×512维特征。表示区域数量L=14×14=196,维度D=512。具体来说,每个区域是14×14大小的特征向量,共512个。
步骤2.3,计算每个位置i的注意力权重αt,i,有了这些位置的特征,我们再让Decoder在解码时拥有在这196个位置特征中选择的能力,这就是Attention机制。
步骤2.4,设在第t阶段,就是生成第t个单词时,传入LSTM的上下文向量是图像特征向量x的加权平均。
步骤2.5,使用LSTM模型作为解码器。将步骤2.3得到的上下文向量和先前生成的单词还有上一时刻的隐藏状态ht-1输入LSTM网络中,该网络通过在每个时刻生成一个单词来生成文本注释,以重建缺失的文本模态信息y。
步骤2.6,使用一个深层输出层,计算词汇表中每个单词的概率。
最后,将概率最高的单词作为当前生成的单词,并作为下一次的输入。
本实施例中,为了降低实验过程的内存消耗和复杂性,在实验中首先在DPC数据集上对模型进行了预训练。当美学数据集中的输入样本缺少文本模态信息时,可以直接使用可用的图像模态信息x调用预训练模型来重建缺少的文本模态信息y。
步骤3,建立多模态美学预测网络,所述的多模态美学预测网络包括图像编码器、embedding模型、多模态编码器和美学评分单元;
所述的图像编码器用于提取美学数据集中的图像的特征;
所述的embedding模型用于计算多模态编码器的输入;
所述的多模态编码器用于多模态特征融合,将视觉特征和文本特征进行融合,得到多模态的联合表示向量;
所述的美学评分单元,用于基于多模态的联合表示向量计算美学预测概率分布;
遵从上述发明内容中给出的步骤3.1至3.4的具体技术方案,本实施例中具体的步骤3包括以下步骤:
步骤3.1,所述的图像编码器用于提取图像的特征。
步,3.1.1,先获取输入的图像的ID,将ID找到对应的成路径后用PIL库读取图片ID对应的图片;
步,3.1.2,用torchvision库对步骤1得到的图像进行预处理,得到预处理后图像,预处理后图像的尺寸为[b,3,224,224],b为batch size,批处理的batch大小,一般取128或64;
步,3.1.3,将输入的图像送入去掉全连接层和池化层的在ImageNet数据集上预训练Resnet50网络,然后加上一层自适应池化层。自适应池化层的output_size设置为(P,Q),最终输出N个2048维的特征向量作为视觉特征[b,N,2048]。
步骤3.2,所述的embedding模型,它的作用是计算多模态编码器的输入。
步,3.2.1,获取文本评论信息,对于不存在文本模态缺失的美学数据集中的样本,输入的是数据集中的文本评论信息,对于文本模态缺失的样本,输入的是经过步骤2中缺失模态重建网络根据可用的图像模态信息重建的文本模态信息。对文本评论信息利用WordPiece方法对每个单词进行token化,获得预处理后的文本评论信息;
步,3.2.2,将预处理后的文本信息嵌入转化为768维的特征向量表示,得到文本特征,所述的文本特征为尺寸为[c,768]的向量。
步,3.2.3,将步骤步,3.2.2,得到的特征向量与segment embedding和positionembedding求和,得到最终的文本评论特征向量。
步,3.2.4,学习一个随机初始化的权重矩阵Wm∈RI×D,将由步骤3.1得到的N个独立的图像嵌入中的每一个2048维的图像特征投影到与文本嵌入相同的d维度,如下所示:
Si=Wmf(image,i)
最后得到图像的特征向量尺寸为[b,N,768]。
步,3.2.5,将步,3.2.4,得到的特征向量与segment embedding和positionembedding求和,得到图像最终的视觉特征向量。
步,3.2.6,将步骤步,3.2.3,和步,3.2.5,得到的特征向量再和两个特殊标记[CLS]和[SEP]相加构建多模态输入序列。多模态编码器的最终输入的尺寸大小为[b,N+2+G,768]
Figure BDA0003485755520000191
步骤3.3,所述的多模态编码器用于多模态特征融合,将视觉特征和文本特征进行融合,得到多模态的联合表示向量;
步,3.3.1,将步骤3.2得到的多模态输入对于第j层的第i个头self-attention使用点积注意机制:
步,3.3.2,将第j层所有头self-attention层连接,再乘以一个权重矩阵
Figure BDA0003485755520000201
得到第j层多头self-attention的输出;
步,3.3.3,将第j层多头self-attention的输出进行残差连接和LayerNorm操作;
步,3.3.4,再经过带有GeLU激活函数的两层线性映射feed forward层和步,3.3.3的操作,得到12层多模态编码器中一层编码器的输出如下:
MFout=LayerNorm[MF+Gelu(Linear(Linear(MFattention)))]
此时的MFout的大小为[b,768]作为多模态编码器模型的下一个编码器的输入继续重复上述操作,b表示batchsize的大小。整个多模态编码器堆叠12层这样的编码器。最后,得到的第12层隐藏层的第一个特殊标记[CLS]被送到美学预测模块,用于评估图像的美学价值。
步骤3.4,所述的美学评分单元使用多模态编码器的输出向量MFout的第一个特殊标记[CLS]计算美学预测概率分布。美学评分单元包括线性层和softmax层。用于将多模态编码器的输出MFout[b,768]送入美学评分网络的线性层,得到10维向量,再将其通过softmax得到美学评分分布概率。
步骤4,将美学数据集中每张图像的图像ID、文本评论信息和真实标签作为训练集,对多模态美学预测网络进行训练,训练好的多模态美学预测网络作为美学评分分布预测模型,实现多模态图像美学质量评价。
本实施例中,真实标签分布是公开的数据集中自带的评分分布,在本实施例中是指AVA数据集里的文件AVA.txt里的和Photo.net数据集中的dataset.txt,里面记录着人们对每张图片的评分分布。
实施例所用的美学数据集为AVA数据集和Photo.net数据集。
AVA Dataset And AVA comment dataset图像信息和标签值来自公开AVA数据集,它是图像美学质量评价领域规模最大,使用最广泛的数据集,包含超过25万张照片,每张照片平均有200位用户为其打分。打分的分值在1-10之间,分值越高代表图像的美学质量越高。将这些分值的分布作为我们实验的标签值。文本评论信息来自Zhang等构建的AVA文本评论数据集,包含了用户对于图像的评论,此外对评论数据集做了进一步处理,删除了过长评论,过短评论和空评论。经过处理后,使用243279张图像进行实验,训练集和测试集按照标准方法,此外,又将训练集中10%的数据充当验证集。最后,训练集,验证集,测试集分别包含201812,22431,19036张图像。
Photo.net Dataset And Photo.net comment dataset图像信息和标签值来自公开的Photo.net数据集,它的规模较小只成功下载了17232张照片,也采用人工为其打分,分值在1-7之间。分值的分布为实验的真实标签值。文本信息来自Zhang等构建的Photo.net文本评论数据集,他们从网站上抓取了用户对于图像的评论,同样对其进一步处理,删除了过长评论,过短评论和空评论。。最后,将处理过后剩余的15608照片用于实验。划分训练集,验证集,测试集分别为12486,1562和1560张。
将图像ID,文本评论的句子,真实标签值和图像存放位置的目录制成jsonl文件,作为实验中使用的数据集文件。
本实施例所用的评价标准如下所示:
第一,美学质量二元分类任务:
Binary Classification Accuracy:规定一张图片的美学得分大于5分就将其视为高质量图片,低于5分就将其视为低质量图片。
第二,美学分数回归任务:
Spearman rank-order correlation coefficient(SRCC),Pearson linearcorrelation coefficient(PLCC):反应真实标签和预测值之间的相关性,它们越接近于1代表预测的分数越接近于真实标签值。
root mean square error(RMSE),mean absolute error(MAE):衡量真实标签与预测值之间误差的大小,它们越小代表预测的分数越准确。
第三,美学分布预测任务:
EMD:使用EMD损失函数来判断预测的美学分布与真实标签的美学分布的一致程度。
文本模态缺失率:在两种数据集上进行实验时,设置三种不同的模态缺失比率,分别为10%,20%和30%,即在两个评论数据集上随机移除10%,20%和30%图像的文本评论信息。对文本模态缺失率的定义如下。
Figure BDA0003485755520000221
式中:
λ表示文本模态缺失率;
N表示没有文本模态信息只有图像模态信息的样本数量;
M表示美学数据集中总的样本数量。
Baseline方法:设计了其他两种同样使用美学数据集中图像信息和文本信息的多模态baseline方法,这两种方法对于本发明具有很大的竞争力,因为他们都包含计算机视觉领域和自然语言处理领域最先进的编码器。
ConcatBert:使用移除最后两层的resnet50提取图像特征,使用Bert提取文本特征,最后将两个编码器的输出直接连接起来送入到一层全连接层。
MFB:为了公平的进行比较,此方法也使用移除最后两层的resnet50提取图像特征,使用Bert提取文本特征,不同的是,在特征融合方面使用MFB方法进行特征融合后送入一层全连接层。
性能测试:
第一,在AVA数据集和Photo.net数据集上不同模态缺失率的影响
为了对本发明提出的一种解决模态缺失问题的方法进行评测,分别在AVA数据集和Photo.net数据集在不同文本模态缺失率的情况下进行实验。用其他两种baseline方法进行比较,实验结果如表1和表2所示。在两个不同的数据集上和所有不同的文本情态缺失比率中,我们的方法优于所有基线,这表明了我们的方法在文本情态缺失问题上的有效性和通用性。
表1 AVA数据集上三种文本模态缺失率(10%、20%和30%)下的各项评估指标。
Figure BDA0003485755520000231
表2 Photo.net数据集上三种文本模态缺失率(10%、20%和30%)下的各项评估指标
Figure BDA0003485755520000232
Figure BDA0003485755520000241
第二,本发明与其他算法在AVA数据集上的性能比较
实验结果如表3所示,可以发现本发明在二元分类和回归任务上都优于所列举的其他方法,并且在回归任务上具有更明显的优势,在分布预测任务上的性能仅次于GBF-CNN。与较早的单模态方法RAPID,MTCNN相比,所提的模型具有明显的优势,准确率分别提高10.12%和5.86%。对于同样使用EMD loss的方法Full model,NIMA,ARDP,GBF-CNN,本发明因为同时使用了两种模态的信息,所以在各项评估指标上都高于他们。最近提出的SAGAN方法与我们相似,不过这种方法同时利用的是图像信息和属性信息,其中属性信息有一定比率的缺失,在不同缺失率的情况下,我们的方法都优于此方法。Joint DBM,MultiGap和我们的方法输入一致,也是多模态方法,他们完成的都是美学二元分类任务,所以我们在分类准确率上与它们进行比较分别提升了5.44%和2.05%。其中Joint DBM也存在模态缺失的情况,但是它仅在测试集会发生模态缺失,而我们的方法在训练集和测试集上都有一定程度的缺失,更有挑战性与灵活性。
表3本发明与其他算法在AVA数据集上的各项评估指标
Figure BDA0003485755520000242
Figure BDA0003485755520000251
第三,本发明与其他算法在Photo.net数据集上的性能比较:
在photo.net数据集上做了与AVA数据集相同的实验,评估本发明的通用性。分别在不存在模态缺失和存在三种不同比率模态缺失的情况下,进行实验。实验结果如表4所示。由表4发现,本发明在photo.net数据集上的表现与AVA数据集一致,不仅在不存在模态缺失时具有更好的性能,并且对模态数据缺失具有一定的鲁棒性。
表4本发明与其他算法在Photo.net数据集上的各项评估指标
Figure BDA0003485755520000252

Claims (3)

1.一种解决模态缺失问题的多模态图像美学质量评价方法,其特征在于,该方法包括以下步骤:
步骤1,获取美学数据集,对数据集进行数据清洗和预处理,获得每张图像的图像ID、文本评论信息和标签;
步骤2,使用DPC数据集预训练缺失模态重建网络,利用图像的视觉特征重建缺失的文本模态信息;
步骤3,建立多模态美学预测网络,所述的多模态美学预测网络包括图像编码器、embedding模型、多模态编码器和美学评分单元;
所述的图像编码器用于提取美学数据集中的图像的特征;
所述的embedding模型用于计算多模态编码器的输入;
所述的多模态编码器用于多模态特征融合,将视觉特征和文本特征进行融合,得到多模态的联合表示向量;
所述的美学评分单元,用于基于多模态的联合表示向量计算美学预测概率分布;
步骤4,将美学数据集中每张图像的图像ID、文本评论信息和真实标签作为训练集,对多模态美学预测网络进行训练,训练好的多模态美学预测网络作为美学评分分布预测模型,实现多模态图像美学质量评价。
2.如权利要求1所述的解决模态缺失问题的多模态图像美学质量评价方法,其特征在于,步骤2包括以下步骤:
步骤2.1,统计DPC数据集中出现的不同的单词的数量,做成词汇表;
步骤2.2,对于缺少文本模态数据的美学数据集中的样本,基于可用的图像模态重建缺少的文本模态;给定可观测的图像模态,采用卷积神经网络提取视觉特征集x={x1,x2...,xL|xi∈RD};
式中:
i表示图像特征的顺序,i=1,2,..,L,L表示总共L个位置;
xi表示第i个位置的图像特征;
L表示总共L个位置;
RD表示视觉特征的维度为D维向量;
步骤2.3,计算第i个位置的注意力权重αt,i,注意力权重就是衡量在t时刻生成第t个单词时,第i个位置的图像特征所占的权重;
eti=fatt(xi,ht-1) 式1;
Figure FDA0003485755510000021
式中:
fatt表示计算位置i和时间t的耦合信息的函数;
ht-1表示上一时刻的隐藏状态;
eti表示在t时刻i位置上的耦合信息;
etk表示计算t时刻和共L个位置上第k个位置的耦合信息,是一个中间变量;
k表示第k个位置;
步骤2.4,得到注意力权重之后,进而计算上下文向量,计算方式如下所示:
Figure FDA0003485755510000022
Figure FDA0003485755510000023
式中:
Figure FDA0003485755510000024
表示上下文向量;
ψ表示一个函数,在给定一组标注向量及其相应权值的情况下,返回单个向量;
步骤2.5,使用LSTM模型作为解码器,将步骤2.4得到的上下文向量和先前生成的单词还有上一时刻的隐藏状态ht-1输入LSTM网络中,LSTM网络通过在每个时刻生成一个单词来生成文本注释,以重建缺失的文本模态信息y;
y={y1,y2,...,yM|yj∈RA};
式中:
j表示生成文本模态信息中单词的顺序,j=1,2,...,M,M表示生成单词的数量;
yj表示生成的第j个单词;
M表示生成单词的数量;
A表示词汇表的大小;
RA表示生成的单词的维度;
所述的LSTM网络中:
Figure FDA0003485755510000031
Figure FDA0003485755510000032
Figure FDA0003485755510000033
式中:
it表示LSTM网络的输入状态;
ft表示LSTM网络的遗忘状态;
ot表示LSTM网络的输出状态;
ct表示LSTM网络的记忆状态;
ht表示LSTM网络的隐藏状态;
gt表示LSTM网络的输入调制器;
σ表示sigmoid激活函数;
tanh表示tanh激活函数;
T表示维度转换操作;
D表示视觉特征的维度;
m表示字嵌入的维度;
n表示LSTM的维度,
E表示一个嵌入矩阵,E∈Rm×A
A表示词汇表的大小;
Rm×A表示嵌入矩阵的维度;
yt-1表示上一时刻生成的单词;
ht-1表示上一时刻的隐藏状态;
Figure FDA0003485755510000041
为上下文向量是LSTM网络的实际输入,表示每次捕获的相应相关图像位置;
Figure FDA0003485755510000042
表示点乘操作;
步骤2.6,使用一个深层输出层,计算生成词汇表中每个单词的概率,计算方法如下所示:
Figure FDA0003485755510000043
式中:
p表示生成单词的概率;
yt表示t时刻生成的单词;
x表示图像的视觉特征;
yt-1表示t-1时刻生成的单词;
ht表示t时刻的隐藏状态;
L0、Lh、Lz和E都是随机初始化的矩阵;
Lo∈RM×m,RM×m表示L0的维度;
Lh=Rm×n,Rm×n表示Lh的维度;
Lz∈Rm×D,Rm×D表示Lz的维度;
E∈Rm×A,Rm×A表示E的维度;
最后,将概率最高的单词作为当前生成的单词,并作为下一次的输入。
3.如权利要求1所述的解决模态缺失问题的多模态图像美学质量评价方法,其特征在于,步骤3包括以下步骤:
步骤3.1,所述的图像编码器中,使用美学数据集中的图像作为输入;使用去掉全连接层和池化层的Resnet50模型作为图像编码器,并加入一层自适应池化层,使自适应池化层的输出尺寸为P×Q,最终得到N=P×Q个独立的图像嵌入作为图像的初始视觉特征向量;
f(image,c)={rc|rc∈RI,c=1,2,...,N} 式9;
式中:
f(image,c)表示图像编码器的最后一层自适应池操作的N个输出中的第c个输出;
c表示经过自适应池化层得到的初始视觉特征向量的顺序,c=1,2,...N,N表示初始视觉特征向量的个数;
image表示美学数据集中的图像;
rc表示第c个初始视觉特征向量;
RI表示初始视觉特征向量的维度;
步骤3.2,所述的embedding模型中,当输入为美学数据集中的文本评论信息时包括segment embedding,position embedding和text embedding,最终的多模态输入为三者的和;
或当输入为美学数据集中的图像时包括segment embedding,position embedding和image embedding,最终的多模态输入为三者的和;
所述的segment embedding用于区分不同的模态,为图像模态和文本模态分别分配一个segment ID,把图像模态的segment ID即sv置为0,文本模态的segment ID即st置为1;
所述的position embedding代表每个嵌入在segment中的相对位置信息,对每个segment从0开始计数;
所述的text embedding中,对于不存在文本模态缺失的样本,输入的是美学数据集中的文本评论信息,对于存在文本模态缺失的样本,输入的是经过步骤2中的缺失模态重建网络重建的文本模态信息;采用与Bert相同的编码方法来处理输入的文本模态信息,首先将一句文本评论划分为一个单词序列,然后使用WordPiece方法对每个单词进行token化,然后将token嵌入转化为d维的特征向量表示;使用t={t1,t2,...,tG}∈Rd表示输入文本序列,G表示文本评论信息中单词的个数,d表示768维的嵌入维度;然后,与segmentembedding和position embedding求和;最终一句输入的文本评论可以表示为
Figure FDA0003485755510000061
第i个单词的最终文本特征向量表示通过以下公式计算:
Figure FDA0003485755510000062
式中:
LayerNorm表示一个归一化函数;
i表示文本评论信息中单词的顺序,i=1,2,...,G,G表示文本评论信息中单词的个数;
ti表示第i个单词的文本嵌入;
Figure FDA0003485755510000071
表示第i个单词最终的特征向量;
pi表示position embedding;
st表示segment embedding中的segment ID,将其设置为1;
所述的image embedding中,由步骤3.1得到的N个独立的初始视觉特征向量对应于文本模态中的N个token;首先,学习一个随机初始化的权重矩阵Wm∈RI×d将N个初始视觉特征向量中的每一个I维的初始视觉特征向量经过特征映射得到与文本嵌入相同的d维度,如下所示:
Si=Wmf(image,i) 式11;
式中:
i表示视觉特征向量的顺序,i=1,2,...,N,N表示视觉特征向量的个数;
Si表示N个独立的初始视觉特征向量经过特征映射后的第i个视觉特征向量;
Wm表示随机初始化的权重矩阵;
f(image,i)表示图像编码器的最后一层自适应池操作的N个输出中的第i个输出;
然后,将视觉特征表示为v={v1,v2,...,vN}∈Rd
式中:
N表示经过特征映射后视觉特征向量的个数为N个;
Rd表示视觉特征向量的维度;
同样,加上position embedding和segment embedding得到最终的视觉特征表示
Figure FDA0003485755510000081
对于第i个最终的视觉特征向量的计算如下所示:
Figure FDA0003485755510000082
式中:
LayerNorm表示一个归一化函数;
i表示视觉特征向量的顺序,i=1,2,...N,N表示最终视觉特征向量的个数;
vi表示第i个视觉特征向量;
Figure FDA0003485755510000083
表示第i个最终视觉特征表示;
pi表示position embedding;
st表示segment embedding中的segmentID,将其设置为0;
获得最终文本特征向量和最终视觉特征向量后,添加两个特殊标记[CLS]和[SEP]构建多模态输入序列,[CLS]用于学习联合分类特征,[SEP]用于分隔不同模态的特征向量;多模态编码器的最终输入多模态特征向量表示为:
Figure FDA0003485755510000084
式中:
MF表示多模态特征向量;
[CLS]表示用于学习联合分类特征的特殊标记;
[SEP]表示用于分隔不同模态特征向量的特殊标记;
Figure FDA0003485755510000085
表示最终的视觉特征向量;
Figure FDA0003485755510000086
表示最终的文本特征向量;
步骤3.3,所述的多模态编码器中,将步骤3.2得到的多模态特征向量MF送入到以transformer为基础架构的多模态编码器中,用于自动建模文本和视觉两种模态信息之间的丰富交互;
步骤3.3.1,首先,多模态输入MF经过12层多头self-attention机制注意不同子空间的信息,捕捉更加丰富的特征信息;具体来说,对于第j层多头self-attention机制,j表示多模态编码器层数的顺序,j=1,2,...,12,多模态输入MF使用点积注意机制如下所示:
Figure FDA0003485755510000091
式中:
softmax表示归一化函数;
i表示多头self-attention机制中的头的顺序,i=1,2,....,m,m表示self-attention多头个数;
m表示self-attention多头个数,m=12;
T表示矩阵转置操作;
Qi=Wi Q·MF,表示第i个self-attention中的Query;
Ki=Wi K·MF,表示第i个self-attention中的Key;
Vi=Wi V·MF,表示第i个self-attention中的Value;
MF表示多模态输入;
Wi Q、Wi K和Wi V是三个随机初始化的权重矩阵;
Figure FDA0003485755510000092
dQ表示Query的维度,dK表示Key的维度,dV表示Value的维度,d表示多模态输入的维度;
Figure FDA0003485755510000093
是为了把注意力矩阵变成标准正态分布;
Attentioni(Qi,Ki,Vi)表示多模态输入在第j层的第i个头self-attention计算得到的注意力;
步骤3.3.2,将步骤3.3.1计算得到的注意力Attentioni(Qi,Ki,Vi)连接,再乘以一个权重矩阵
Figure FDA0003485755510000101
得到第j层self-attention的输出,如下所示:
MultiHead(Q,K,V)=concat[Attention1(Q1,K1,V1),Attention2(Q2,K2,V2),....,Attentionm(Qm,Km,Vm)]·WO 式15;
式中:
MultiHead(Q,K,V)表示多模态输入MF在多模态编码器第j层计算得到的注意力;
m表示多头self-attention机制的头数,m=12;
WO表示权重矩阵,
Figure FDA0003485755510000102
Figure FDA0003485755510000103
表示权重矩阵的维度;
d表示多模态输入MF的特征维度;
dV表示Value的维度;
concat表示连接操作;
步骤3.3.3,将第j层多头self-attention的输出进行残差连接和Layernorm操作,Layernorm操作的作用是把神经网络中隐藏层归一化为标准正态分布,加速收敛,具体操作如下:
MFattention=LayerNorm(MF+MultiHead(Q,K,V)) 式16;
式中:
LayerNorm表示一个归一化函数;
MF表示多模态输入;
MultiHead(Q,K,V)表示步骤3.3.2的输出;
MFattention表示经过残差连接和归一化操作后的注意力;
步骤3.3.4,再经过带有GeLU激活函数的两层线性映射feed forward层和式16的操作,得到第j层多模态编码器的输出如下:
MFout=LayerNorm[MF+Gelu(Linear(Linear(MFattention)))] 式17;
式中:
LayerNorm表示一个归一化函数;
MF表示多模态输入;
MFattention表示步骤3.3.3的输出;
Gelu表示激活函数;
Linear表示线性函数;
MFout表示第j层输出的多模态特征;
此时得到的第j层的输出MFout作为多模态编码器模型的j+1层编码器的输入MF继续重复上述操作,整个多模态编码器堆叠12层这样的编码器;最后,得到的最后一层即第12层的隐藏层的第一个特殊标记[CLS]被送到美学预测模块,用于评估图像的美学价值;
步骤3.4,所述的美学评分单元中,输入为多模态编码器的输出向量MFout的第一个特殊标记[CLS],使用一层全连接层输出图像的美学标签分布
Figure FDA0003485755510000111
之后,再经过softmax层将进行归一化操作;在美学数据集中发现图像的真实标签是具有类间顺序的分布,所以使用可以计算两个顺序分布的最小距离的EMD损失函数对网络进行优化;损失函数的定义如下:
Figure FDA0003485755510000112
式中:
p表示图像的真实的美学分数分布;
Figure FDA0003485755510000113
表示预测的美学分数分布;
CDFp(k)代表计算真实的美学分数分布的累积分布函数;
Figure FDA0003485755510000121
表示计算预测的美学分数分布的累计分布函数;
k表示美学得分分值的顺序,k=1,2,...,N;
N表示分值的数量,N=10;
r表示一个惩罚因子,r=2。
CN202210080054.8A 2022-01-24 2022-01-24 一种解决模态缺失问题的多模态图像美学质量评价方法 Active CN114549850B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210080054.8A CN114549850B (zh) 2022-01-24 2022-01-24 一种解决模态缺失问题的多模态图像美学质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210080054.8A CN114549850B (zh) 2022-01-24 2022-01-24 一种解决模态缺失问题的多模态图像美学质量评价方法

Publications (2)

Publication Number Publication Date
CN114549850A true CN114549850A (zh) 2022-05-27
CN114549850B CN114549850B (zh) 2023-08-08

Family

ID=81672102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210080054.8A Active CN114549850B (zh) 2022-01-24 2022-01-24 一种解决模态缺失问题的多模态图像美学质量评价方法

Country Status (1)

Country Link
CN (1) CN114549850B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130462A (zh) * 2022-06-23 2022-09-30 成都信息工程大学 一种基于深度神经网络的信息抽取方法
CN115601772A (zh) * 2022-12-15 2023-01-13 南京邮电大学(Cn) 一种基于多模态学习的美学质量评价模型和方法
CN116933046A (zh) * 2023-09-19 2023-10-24 山东大学 基于深度学习的多模态健康管理方案生成方法和系统
CN117829098A (zh) * 2024-03-06 2024-04-05 天津创意星球网络科技股份有限公司 多模态作品评审方法、装置、介质和设备
CN118332508A (zh) * 2024-06-14 2024-07-12 之江实验室 面向模态缺失的多模态融合处理方法、电子设备、介质
CN118396475A (zh) * 2024-05-27 2024-07-26 西南交通大学 基于子标签增强的多视角评论质量排序方法
CN118521590A (zh) * 2024-07-25 2024-08-20 安徽力宇电脑设备制造有限责任公司 一种基于机器学习的喷绘机印刷质量评估方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544524A (zh) * 2018-11-15 2019-03-29 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价系统
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN112559683A (zh) * 2020-12-11 2021-03-26 苏州元启创人工智能科技有限公司 基于多模态数据及多交互记忆网络的方面级情感分析方法
CN112613303A (zh) * 2021-01-07 2021-04-06 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
US20210216862A1 (en) * 2020-01-15 2021-07-15 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for semantic analysis of multimedia data using attention-based fusion network
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN113657380A (zh) * 2021-08-17 2021-11-16 福州大学 融合多模态注意力机制的图像美学质量评价方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544524A (zh) * 2018-11-15 2019-03-29 中共中央办公厅电子科技学院 一种基于注意力机制的多属性图像美学评价系统
US20210216862A1 (en) * 2020-01-15 2021-07-15 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for semantic analysis of multimedia data using attention-based fusion network
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN112257445A (zh) * 2020-10-19 2021-01-22 浙大城市学院 一种基于文本-图片关系预训练的多模态推文命名实体识别的方法
CN112559683A (zh) * 2020-12-11 2021-03-26 苏州元启创人工智能科技有限公司 基于多模态数据及多交互记忆网络的方面级情感分析方法
CN112613303A (zh) * 2021-01-07 2021-04-06 福州大学 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN113657380A (zh) * 2021-08-17 2021-11-16 福州大学 融合多模态注意力机制的图像美学质量评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
罗会兰;岳亮亮;: "跨层多模型特征融合与因果卷积解码的图像描述", 中国图象图形学报, no. 08 *
马龙龙;韩先培;孙乐;: "图像的文本描述方法研究综述", 中文信息学报, no. 04 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130462A (zh) * 2022-06-23 2022-09-30 成都信息工程大学 一种基于深度神经网络的信息抽取方法
CN115130462B (zh) * 2022-06-23 2023-09-01 成都信息工程大学 一种基于深度神经网络的信息抽取方法
CN115601772A (zh) * 2022-12-15 2023-01-13 南京邮电大学(Cn) 一种基于多模态学习的美学质量评价模型和方法
CN116933046A (zh) * 2023-09-19 2023-10-24 山东大学 基于深度学习的多模态健康管理方案生成方法和系统
CN116933046B (zh) * 2023-09-19 2023-11-24 山东大学 基于深度学习的多模态健康管理方案生成方法和系统
CN117829098A (zh) * 2024-03-06 2024-04-05 天津创意星球网络科技股份有限公司 多模态作品评审方法、装置、介质和设备
CN117829098B (zh) * 2024-03-06 2024-05-28 天津创意星球网络科技股份有限公司 多模态作品评审方法、装置、介质和设备
CN118396475A (zh) * 2024-05-27 2024-07-26 西南交通大学 基于子标签增强的多视角评论质量排序方法
CN118332508A (zh) * 2024-06-14 2024-07-12 之江实验室 面向模态缺失的多模态融合处理方法、电子设备、介质
CN118332508B (zh) * 2024-06-14 2024-08-23 之江实验室 面向模态缺失的多模态融合处理方法、电子设备、介质
CN118521590A (zh) * 2024-07-25 2024-08-20 安徽力宇电脑设备制造有限责任公司 一种基于机器学习的喷绘机印刷质量评估方法及系统
CN118521590B (zh) * 2024-07-25 2024-09-17 安徽力宇电脑设备制造有限责任公司 一种基于机器学习的喷绘机印刷质量评估方法及系统

Also Published As

Publication number Publication date
CN114549850B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN111581405B (zh) 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法
Biten et al. Good news, everyone! context driven entity-aware captioning for news images
CN108804530B (zh) 对图像的区域加字幕
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
CN109992686A (zh) 基于多角度自注意力机制的图像-文本检索系统及方法
CN110458282A (zh) 一种融合多角度多模态的图像描述生成方法及系统
CN112734881B (zh) 基于显著性场景图分析的文本合成图像方法及系统
CN108986186A (zh) 文字转化视频的方法和系统
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN114491258B (zh) 基于多模态内容的关键词推荐系统及方法
CN109918652A (zh) 一种语句相似度判断方法及判断系统
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN118114188B (zh) 基于多视角和分层融合的虚假新闻检测方法
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
Li et al. Combining local and global features into a Siamese network for sentence similarity
CN117036833B (zh) 一种视频分类方法、装置、设备和计算机可读存储介质
CN116758402A (zh) 图像人物关系识别方法、系统、设备及存储介质
CN117033804A (zh) 一种主客观视角引导下的点击诱导检测方法
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法
Huang et al. Modeling multiple aesthetic views for series photo selection
CN111553371B (zh) 一种基于多特征提取的图像语义描述方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant