CN112580636A

CN112580636A - 一种基于跨模态协同推理的图像美学质量评价方法

Info

Publication number: CN112580636A
Application number: CN202011609604.8A
Authority: CN
Inventors: 阮杰; 高飞
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-03-30

Abstract

本发明公开了一种基于跨模态协同推理的图像美学质量评价的方法。本发明包括如下步骤：步骤(1)提取多尺度视觉特征；步骤(2)基于图网络提取视觉结构特征；步骤(3)提取视觉聚合特征与文本聚合特征；利用Transformer模型提取多尺度文本特征后，利用协同注意力模块对多尺度视觉特征和多尺度文本特征进行重构，挖掘两者之间的关联关系，提取视觉聚合特征与文本聚合特征；步骤(4)多模态低秩双线性特征融合以及多任务美学质量评价，将视觉结构特征与视觉聚合特征、文本聚合特征进行低秩双线性特征融合，并利用多任务学习思想，提升图像美学质量评价性能。本发明为探索人类的美学认知机制，提升美学评价模型的可解释性，提供了一种有效的技术路线。

Description

一种基于跨模态协同推理的图像美学质量评价方法

技术领域

本发明提到了一种基于跨模态协同推理的图像美学质量评价方法(Imageaesthetics quality evaluation method based on cross-modal collaborativereasoning)的新方法，主要涉及一种利用卷积神经网络进行训练，对得到的深层特征即构图信息和全局信息进行特征融合并且多任务学习的方式，以构建一个与人工评价结果更加一致的更符合图像美学评价准则的准确率较高的图像美学质量评价模型。

背景技术

图像美学质量评价(Photo Quality Assessment)是基于对图像的艺术理解通过计算方式准确的评估图片的美学质量。PQA应用空间广泛，例如最优图像筛选和自动搜索相机设置。此外，研究人员已在探索利用PQA从美学角度重构和增强图片。

图像美学质量具备高度抽象的特点，现有的图像美学质量评价方法通常只利用图像内容信息，基于专家知识构建启发式美学评价准则，限制了模型的可靠性和可解释性。为了探索图像美学的评价机制，一方面需要建立可学习的美学因素(如构图、光影等)描述模型，令算法在学习过程中自动拟合相关的美学因素，从而在一定程度上克服专家知识的局限性；另外一方面，则需要利用多模态的信息，例如用户对于图像的美学相关评论等，挖掘多模态信息之间的关联关系，特别是文本评论与图像内容之间的关联关系，从而在一定程度上解释美学评价的机理。

在图像美学质量评价模型的设计中，有两方面技术难点。其一为如何设计可以描述美学评价准则的深度网络结构：美学准则涉及目标物个体、目标物之间的关联关系以及图像区域多个层次。在图像美学质量评价的过程中，能够描述多层次、多尺度信息以及相互之间的关联关系是挖掘美学准则的前提与基础；其二为如何充分学习美学评价准则：能否充分学习多尺度、多层次视觉信息与图像美学评价之间的映射关系，决定着模型推理和更新方式，是图像美学评价模型中最为核心的步骤，是有待解决的关键科学问题之一

发明内容

本发明的目的是针对现有技术的不足，提供一种基于跨模态协同推理的图像美学质量评价的方法。同时利用图像内容和文本评论进行图像美学质量评价。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)提取多尺度视觉特征

利用目标检测基准网络检测图像中的目标区域，基于ROI池化提取区域特征、关联特征、目标特征组成多尺度视觉特征；

步骤(2)基于图网络提取视觉结构特征

利用图模型建模图像结构，进而提取视觉结构特征；

步骤(3)提取视觉聚合特征与文本聚合特征

利用Transformer模型提取多尺度文本特征后，利用协同注意力模块，对多尺度视觉特征和多尺度文本特征进行重构，用于挖掘两者之间的关联关系，提取视觉聚合特征与文本聚合特征；

步骤(4)多模态低秩双线性特征融合以及多任务美学质量评价

将视觉结构特征与聚合后的视觉特征、文本特征进行低秩双线性特征融合，并利用多任务学习思想，提升图像美学质量评价性能。

进一步的，步骤(1)所述的提取多尺度视觉特征：

1-1采用目标检测基准网络，检测图像中的目标区域，然后对目标区域按照非极大抑制准则进行合并，保留主目标物的同时，减少目标物区域个数。之后对于各个目标物区域，进行ROI池化，得到各个目标物区域对应的目标特征。对于两两目标物之间，选取能够包含两两目标物的最小局部区域，然后按照非极大抑制准则进行整合，获得目标物关联区域。对于目标物关联区域，进行ROI池化，获得目标物之间关联关系的关联特征表达；

1-2选择包含多个主目标物的区域，基于ROI池化，获得区域特征表达，由区域特征、关联特征、目标特征组合成为多尺度视觉特征。

所述的主目标物是指输入图像中的主要目标物。

进一步的，步骤(2)所述的基于图网络提取视觉结构特征：

2-1将目标特征、关联特征、区域特征对应的图像块作为节点，图像块对应的深度特征、重心位置、面积等作为节点属性特征；

对所有节点构建全连接无向图，将各个图像块之间的IoU、归一化空间距离、特征表达之间的余弦距离等作为边属性特征。将整幅输入图像全局池化得到的特征作为全局属性特征。

2-2采用DIFFPOOL池化方法将该全连接无向图及其属性特征矩阵进行聚合，得到结构特征向量。所述的属性特征矩阵包括节点属性特征、边属性特征和全局属性特征；

DIFFPOOL基于输入全连接无向图表示的邻接矩阵A及获取的属性特征矩阵X，利用池化型图网络(Graph Neural Network,GNN)GNN_POOL预测特征汇聚权重S，进行特征嵌入；邻接矩阵A与属性特征矩阵X在第l+1层的计算表达为：

(A^(l+1),X^(l+1))＝DiffPool(A^(l),X^(l))， (1)

计算过程为：

S^(l)＝softmax(GNN_l,pool(A^(l),X^(l))),(2)

其中，S^(l)为在第l层的特征汇聚权重，

分别为第l+1层的邻接矩阵和属性特征矩阵；

经过L层图网络之后，得到最终的视觉结构特征的表达向量X^(L)，用于图像美学质量的预测。

进一步的，步骤(3)所述的提取视觉聚合特征与文本聚合特征：

3-1鉴于Transformer模型在多种自然语言处理任务中的优异表现，采用在英文文档分类任务中预训练得到的Transformer模型作为基准，用于从文本评论中提取词语、短语、句子等多层次特征表达，构成多尺度文本特征，用于描述图像美学相关的因素(如“构图/composition”、“构图极好/excellent composition”、“包含全部五种构图元素/fivefactors happening all at once”)，从而从不同层次对图像美学进行表达。

3-2利用协同注意力模块挖掘多尺度视觉特征和多尺度文本特征之间的关联关系。设多尺度视觉特征为X，文本注意力引导矩阵为g，协同注意力模块的计算公式表示为

则这里用的计算流程为：

其中，v和t分别为输出的视觉聚合特征和文本聚合特征。

进一步的，步骤(4)所述的多模态低秩双线性特征融合以及多任务美学质量评价：

4-1基于双线性池化方法将不同分支得到的特征进行融合

采用低秩双线性特征融合方法，假设视觉结构特征X^(L)为s∈R^m，视觉聚合特征为υ∈Rⁿ，文本聚合特征为t∈R^k，采用三个低秩映射将其映射到同一空间中：

其中，U∈R^m×c,V∈R^n×c,W∈R^k×c是低秩映射矩阵，c是输出特征维度，

为Hadamard积，即两个向量之间元素之间的点乘。融合后的特征可以用于后续的美学质量预测。

4-2采用多任务学习思想对融合后的特征，同时预测美学二分类标签、平均分数、分数分布、内容和风格。分别对应采用交叉熵损失、L2损失、推土机距离(Earth Mover’sDistance,EMD)损失、多标签交叉熵损失和单标记交叉熵损失。在训练阶段，将所有损失进行加权求和用于指导整个模型的训练；模型完成训练后，在测试阶段，给定输入图像及其对应的文本评论，模型输出图像对应的美学二分类标签、平均分数、分数分布、内容和风格。

本发明有益效果如下：

针对图像美学评价准则难以建模和学习的问题，本发明基于图像中的目标物个体、目标物之间的关联关系以及区域三个尺度的深度特征，以图的形式建模跨尺度的连接关系，进而利用图网络型池化方法得到图像结构表征；此外，针对文本评论数据，提取词汇、短语和句子等多尺度深度特征，然后利用协同注意力机制自动学习视觉特征与文本特征之间的关联关系，挖掘视觉内容与语义解析之间的映射，从而探索人类的美学评价准则。本发明为探索人类的美学认知机制，提升美学评价模型的可解释性，提供了一种有效的技术路线。

附图说明

图1是基于跨模态协同推理的图像美学质量评价框架示意图；

具体实施细节

下面结合附图对本发明做进一步说明。

如图1所示，一种基于跨模态协同推理的图像美学质量评价方法，具体包括如下步骤：

步骤(1)多尺度视觉特征提取

步骤(2)基于图网络提取视觉结构特征

利用图模型建模图像结构，进而提取视觉结构特征；

步骤(3)提取视觉聚合特征与文本聚合特征

步骤(4)多模态低秩双线性特征融合以及多任务美学质量评价

进一步的，步骤(1)所述的提取多尺度视觉特征：

所述的主目标物是指输入图像中的主要目标物。

进一步的，步骤(2)所述的基于图网络提取视觉结构特征：

(A^(l+1),X^(l+1))＝DiffPool(A^(l),X^(l))， (1)

计算过程为：

S^(l)＝softmax(GNN_l,pool(A^(l),X^(l))), (2)

其中，S^(l)为在第l层的特征汇聚权重，

分别为第l+1层的邻接矩阵和属性特征矩阵；

则这里用的计算流程为：

其中，v和t分别为输出的视觉聚合特征和文本聚合特征。

4-1基于双线性池化方法将不同分支得到的特征进行融合

为了保证模型训练的稳定性，拟首先固定目标检测和Transformer基准网络，只优化图网络模块和协同注意力模块的参数；待损失曲线趋于稳定后，再开始端到端全部训练，进一步提升基准网络对于图像美学的特征提取能力。在测试阶段，给定输入图像及其对应的文本评论，模型将输出其对应的美学分类、分数、分布、内容和风格。

Claims

1.一种基于跨模态协同推理的图像美学质量评价的方法，其特征在于能够同时利用图像内容和文本评论进行图像美学质量评价，具体包括如下步骤：

步骤(1)提取多尺度视觉特征：利用目标检测基准网络检测图像中的目标区域，基于ROI池化提取区域特征、关联特征、目标特征组成多尺度视觉特征；

步骤(2)基于图网络提取视觉结构特征：利用图模型建模图像结构，进而提取视觉结构特征；

步骤(3)提取视觉聚合特征与文本聚合特征：利用Transformer模型提取多尺度文本特征后，利用协同注意力模块对多尺度视觉特征和多尺度文本特征进行重构，挖掘两者之间的关联关系，提取视觉聚合特征与文本聚合特征；

步骤(4)多模态低秩双线性特征融合以及多任务美学质量评价：将视觉结构特征与视觉聚合特征、文本聚合特征进行低秩双线性特征融合，并利用多任务学习思想，提升图像美学质量评价性能。

2.根据权利要求1所述的一种基于跨模态协同推理的图像美学质量评价的方法，其特征在于步骤(1)所述的提取多尺度视觉特征，具体实现如下：

1-1采用目标检测基准网络，检测图像中的目标区域，然后对目标区域按照非极大抑制准则进行合并，保留主目标物的同时减少目标物区域个数；之后对于各个目标物区域，进行ROI池化，得到各个目标物区域对应的目标特征；对于两两目标物之间，选取能够包含两两目标物的最小局部区域，然后按照非极大抑制准则进行整合，获得目标物关联区域；对于目标物关联区域，进行ROI池化，获得目标物之间关联关系的关联特征；

1-2选择包含多个主目标物的区域，基于ROI池化，获得区域特征表达；由区域特征、关联特征、目标特征组成多尺度视觉特征。

3.根据权利要求2所述的一种基于跨模态协同推理的图像美学质量评价的方法，其特征在于步骤(2)所述的基于图网络提取视觉结构特征，具体实现如下：

2-1将目标特征、关联特征、区域特征对应的图像块作为节点，图像块对应的深度特征、重心位置、面积作为节点属性特征；

对所有节点构建全连接无向图，将各个图像块之间的IoU、归一化空间距离、特征表达之间的余弦距离作为边属性特征；将整幅输入图像全局池化得到的特征作为全局属性特征；

2-2采用DIFFPOOL池化方法将该全连接无向图及其属性特征矩阵进行聚合，得到视觉结构特征量；所述的属性特征矩阵包括节点属性特征、边属性特征和全局属性特征；

DIFFPOOL基于输入全连接无向图表示的邻接矩阵A及获取的属性特征矩阵X，利用池化型图网络GNN_POOL预测特征汇聚权重S，进行特征嵌入；邻接矩阵A与属性特征矩阵X在第l+1层的计算表达为：

(A^(l+1),X^(l+1))＝DiffPool(A^(l),X^(l))， (1)

计算过程为：

S^(l)＝softmax(GNN_l,pool(A^(l),X^(l))), (2)

其中，S^(l)为在第l层的特征汇聚权重，

分别为第l+1层的邻接矩阵和属性特征矩阵；

经过L层图网络之后，得到最终的视觉结构特征的表达向量X⁽ⁱ⁾，用于图像美学质量的预测。

4.根据权利要求3所述的一种基于跨模态协同推理的图像美学质量评价的方法，其特征在于步骤(3)所述的提取视觉聚合特征与文本聚合特征，具体实现如下：

3-1采用在英文文档分类任务中预训练得到的Transformer模型，从文本评论中提取词语、短语、句子的多层次特征表达，构成多尺度文本特征，用于描述图像美学相关的因素，从而从不同层次对图像美学进行表达；

3-2利用协同注意力模块挖掘多尺度视觉特征和多尺度文本特征之间的关联关系；设多尺度视觉特征为X，文本注意力引导矩阵为g，协同注意力模块的计算公式表示为

则这里用的计算流程为：

其中，v和t分别为输出的视觉聚合特征和文本聚合特征。

5.根据权利要求4所述的一种基于跨模态协同推理的图像美学质量评价的方法，其特征在于步骤(4)所述的多模态低秩双线性特征融合以及多任务美学质量评价，具体实现如下：

4-1基于双线性池化方法将不同分支得到的特征进行融合

为Hadamard积，即两个向量之间元素之间的点乘；融合后的特征可以用于后续的美学质量预测；

4-2采用多任务学习思想对融合后的特征，同时预测美学二分类标签、平均分数、分数分布、内容和风格；分别对应采用交叉熵损失、L2损失、推土机距离损失、多标签交叉熵损失和单标记交叉熵损失；在训练阶段，将所有损失进行加权求和用于指导整个模型的训练；模型完成训练后，在测试阶段，对于给定输入图像及其对应的文本评论，模型输出图像对应的美学二分类标签、平均分数、分数分布、内容和风格。