CN115457015A

CN115457015A - 一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置

Info

Publication number: CN115457015A
Application number: CN202211189584.2A
Authority: CN
Inventors: 熊健; 王小奇; 罗旺; 高�浩
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2022-12-09

Abstract

本发明公开了一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置，通过考虑人眼视觉系统的视觉掩蔽效应提出了三个模块：内容感知模块，失真感知模块和视觉交互模块。其中，内容感知模块采用基于ImageNet预训练的ResNet50网络用以提取语义特征作为图像内容表示；失真感知模块该模块通过在大规模合成失真数据集上训练BoTNet以提取图像失真的表征特征；视觉交互模块通过基于自注意力机制的特征融合模块来建模图像内容和失真的视觉交互关系。本发明提出的视觉感知交互网络基于人眼视觉系统的视觉掩蔽效应，对图像内容和图像失真的视觉交互作用进行建模，能够有效提高图像感知质量评估性能。

Description

一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置

技术领域

本发明涉及一种基于视觉交互感知双流网络的图像无参考质量评估方法及装置，属于图像质量评估技术领域。

背景技术

在社交平台和视觉媒体应用中，每天都有大量的图像被上传和下载。然而，在图像处理的各个阶段，包括采集、压缩、传输和存储，图像的感知质量都会受损。因此，在处理系统中稳定地控制图像质量是至关重要的。根据可用的参考信息量，图像质量评估(imagequality assessment,IQA)算法通常分为三种类型：全参考评估方法、半参考评估方法和无参考评估方法(盲参考评估方法,Blind IQA,BIQA)。由于在许多应用场景中无法获得参考信息，近年来，直接对图像进行操作的无参考图像质量评估因需求更广泛而得到了更深入的研究。

客观图像质量评估的目标是自动评估与人类主观判断一致的图像的感知质量。为了构建IQA数据集，许多观察者被邀请对失真图像的视觉质量进行评价。然后，每张图像的感知质量通过平均意见分数(MOS或DMOS)进行标注。传统的BIQA模型通常是在精心设计的手工特征上设计的，这些特征通过非线性回归模型映射到MOS值。然而，由于失真和图像内容的复杂性，手工制作的特征的质量感知能力仍然有限。

近年来，由于深度神经网络提取特征的强大表示能力，越来越多的基于深度学习的BIQA模型被提出。主流模型包括两类：基于失真强度排名的模型和基于深度语义特征的模型。在失真强度排名模型的训练过程中，通过使用一定范围的失真强度来合成失真图像库，失真图像的质量按照相应的失真强度进行排序以用于模型训练。然而，对于相同的原始图像，失真图像的质量排名与失真强度高度相关，而对于不同内容的图像，图像质量的排名通常与失真强度的相关性较弱。基于深度语义特征模型往往利用图像分类数据集(如ImageNet等)的预训练权重作为特征提取骨干网络的初始化，这类工作试图将语义特征的破坏程度映射为图像质量。然而，语义特征的破坏并不一定反映图像质量的下降。原因是，图像分类任务需要对噪声具有鲁棒性。特别地，在分类任务的训练过程中，一般都会采用添加噪声的方式进行数据增强。在这种情况下，基于深度语义特征的模型对一些仍然会导致图像质量下降的失真往往不敏感。

视觉掩蔽效应的原理表明，在观察图像时，人类视觉系统(human visualsystems，HVS)对于具有同一失真但不同内容的图像有不同的失真可见性。HVS对图像失真的感知受到图像内容和失真之间的相互作用的影响。然而，基于失真强度排名的模型和基于深度语义特征的模型都没有考虑到这种互动。具体来说，基于失真强度排名的模型主要使用失真强度对图像质量进行排序，而基于语义的方法只关注深度语义特征的破坏程度作为图像内容质量的表示。

发明内容

本发明的目的在于提出一种基于视觉交互感知双流网络(visual interactionperception network,VIPNet)的无参考图像质量评估方法及装置，从图像失真可见性的角度评估图像质量，这种图像失真可见性被建模为图像内容和相应失真的视觉交互。

为达到上述目的，本发明采用的技术方案如下：

本发明提供一种基于视觉交互感知双流网络的图像无参考质量评估方法，包括：

对图像进行预处理；

采用预先训练的内容感知模块对预处理的图像进行语义特征提取；

采用预先训练的失真感知模块对预处理的图像进行失真感知特征提取；

将提取的图像的语义特征和失真感知特征采用预先训练的视觉交互感知模块进行特征融合，得到融合特征；

基于融合特征进行图像质量评估，得到图像质量分数。

进一步的，所述对图像进行预处理，包括：

将图像裁剪为统一尺寸。

进一步的，预先训练内容感知模块包括：

采用Imagenet作为训练集，输入去除最后的全局平均池化层和全连接层的图像分类网络ResNet50中，得到ResNet50的第t个模块的输出特征图

t∈1,2,3,4；

将得到的特征图

各自输入具有1×1核、1×1步长和输出通道大小为c_t的卷积层；

将各卷积层的操作结果采用自适应池化层下采样到相同大小；

将自适应池化层的输出特征进行连接，作为多尺度的图像语义特征；

采用Imagenet训练图像分类网络ResNet50的网络权重，训练完成后，将ResNet50去除最后的全局平均池化层和全连接层的模块，以及所述具有1×1核、1×1步长和输出通道大小为c_t的卷积层和自适应池化层组成的结构作为内容感知模块。

进一步的，所述输出通道大小c_t的取值为：c₁＝128，c₂＝256，c₃＝512，c₄＝1152。

进一步的，预先训练失真感知模块包括：

构建失真图像训练样本集；

将每个失真图像训练样本转换为YCbCr颜色空间作为BoTNet的输入进行训练；

训练完成后，去除最后的全局平均池化层和线性层，得到失真感知模块。

进一步的，所述构建失真图像训练样本集，包括：

从KADIS-700K数据库中选取N张原始图像；

对每张原始图像生成具有30种失真类型、每种失真类型具有5种失真强度的失真图像样本；

将150×N个失真图像样本构成失真图像训练样本集；所述30种失真类型包括：粉红噪声、有损压缩、对比度变化、曝光不足、曝光过度、以及与KADID-10K数据库相同25种失真类型。

进一步的，预先训练视觉交互感知模块包括：

采用训练好的内容感知模块提取训练样本的语义特征，以及采用训练好的失真感知模块提取训练样本的失真感知特征，将训练样本的语义特征和失真感知特征连接起来，得到F，其中

c_d表示失真感知特征输出通道大小，w和h分别表示输出特征的宽度和高度；

将F扁平化，并通过卷积操作映射到特征序列

其中

l＝w×h为特征序列的长度，d为特征序列的尺寸；

将一个可学习的标记

添加到

中，并添加位置嵌入PE，得到训练样本的特征

将训练样本的特征依次输入多头自注意力机制的特征融合模块和多层感知器块进行训练，最终得到训练好的视觉交互感知模块。

进一步的，所述基于融合特征进行图像质量评估，得到图像质量分数，包括：

对最终得到的融合特征通过一个全连接层输出质量预测分数。

本发明还提供一种基于视觉交互感知双流网络的图像无参考质量评估装置，包括：

内容感知模块，用于提取图像的语义特征；

失真感知模块，用于提取图像的失真感知特征；

视觉交互模块，用于对图像的语义特征和失真感知特征进行特征融合；

评估模块，用于基于融合特征对图像质量进行评估，得到图像质量分数；

所述内容感知模块采用前述的基于视觉交互感知双流网络的图像无参考质量评估方法进行预先训练；

所述失真感知模块采用前述的基于视觉交互感知双流网络的图像无参考质量评估方法进行预先训练；

所述视觉交互模块采用前述的基于视觉交互感知双流网络的图像无参考质量评估方法进行预先训练。

进一步的，所述评估模块采用全连接层。

本发明的有益效果为：

本发明所提出的基于视觉交互感知双流网络的无参考图像质量评估方法，基于视觉掩蔽效应原理，对图像内容和图像失真的交互作用进行建模，能够有效提高图像质量评估的性能。本发明在模块训练过程中，采用一种分阶段(two-stage)的训练方式，这种训练方式使得模型能够显示地提取图像内容和图像失真的特征表示。

附图说明

图1为本发明实施例提供的基于视觉交互感知双流网络的图像无参考质量评估装置架构。

具体实施方式

下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本实施例提供一种基于视觉交互感知双流网络的图像无参考质量评估装置，参见图1，包括内容感知模块(content perception module,CPM)、失真感知模块(distortionperception module,DPM)和视觉交互模块(visual interaction module,VIM)。

内容感知模块用于，提取图像的语义特征作为对图像内容的感知。

失真感知模块用于，提取图像的失真感知特征。

视觉交互模块用于，对图像的语义特征和图像的失真感知特征进行特征融合；

评估模块用于，基于融合特征对图像质量进行评估，得到图像质量分数。

本实施例中，内容感知模块采用去除最后的全局平均池化层(average pooling)和全连接层的图像分类网络(如ResNet50)训练生成。

本领域技术人员应该知道，ResNet50主要包括四个模块，每个模块通过堆叠不同数目的残差块构成，最后通过全局平均池化层和全连接层对图像进行分类。

本实施例中，采用Imagenet训练ResNet50，训练过程如下：

将训练集的图像输入ResNet50，得到第t个模块的输出特征图

其中t∈1,2,3,4；

将得到的特征图

送入具有1×1核、1×1步长和输出通道大小为c_t的卷积层；

将每个模块的卷积结果采用自适应池化层下采样到相同大小；

将每个模块的自适应池化层的输出特征连接起来，作为多尺度的图像语义特征，表示为：

其中，

c_s＝Σ_tc_t、w和h分别为输出图像语义特征的通道大小、宽度和高度。操作Concat{·}、Pooling(·)和Conv(·)分别表示连接、自适应池化和卷积。

本实施例中，输出通道的取值分别为128，256，512，1152。

需要说明的是，输出特征图的尺寸为输入图像尺寸的1/32，其中32是由ResNet50结构决定的。

对ResNet50网络权重进行训练，训练完成后，

将ResNet50网络去除最后的全局平均池化层和全连接层的四个模块，以及上述的具有1×1核、1×1步长和输出通道大小为c_t的卷积层和自适应池化层组成的结构作为内容感知模块。

本实施例中，失真感知模块采用去除最后的全局平均池化层和线性层的BoTNet训练生成。

本实施例中，失真感知模块训练过程如下：

首先生成一个大规模的合成失真数据集。具体地，从KADIS-700K数据库中选取40,000张原始图像，对每张原始图像生成具有30种失真类型、每种失真类型具有5种失真强度的失真图像样本，其中25种失真类型与KADID-10K数据库相同，其他5种类型包括：粉红噪声(pink noise)、有损压缩(lossy compression)、对比度变化(contrast change)、曝光不足(under exposure)和曝光过度(over exposure)。因此，每张原始图像有150个失真图像样本(即30失真类型x 5种失真强度)，共40000×150个失真图像样本构成训练集。

本领域技术人员应该知道，KADIS-700K和KADID-10K均为现有的合成失真IQA数据库。

采用基于空间卷积和多头自注意力(Multi-head self-attention,MHSA)的混合设计的BoTNet为骨干网络，用于失真分类任务训练。BoTNet用MHSA取代了ResNet最后三个瓶颈块中的卷积层。

将每个失真图像样本转换为YCbCr颜色空间作为输入，表示为：

其中Y代表亮度信息，C_b和C_r代表色度信息，R、G、B分别为失真图像样本的颜色信息。

对于输入图像x及其对应的分类标签y，其中y∈{c|0≤c≤C-1,c∈N⁺}，c为失真图像的失真类别，C是生成的失真图像数据集中的失真类别数量，本实施例中，C为150。

基于BoTNet的失真分类模型的输出表示为：

其中

表示第c类的预测概率，

定义如下：

其中φ_θ表示网络参数为θ的失真分类网络，[·]_c是指概率向量中的第c个元素。Softmax()表示将输出的向量归一化0到1之间。

为了训练失真分类模型，本实施例将交叉熵损失函数

最小化，即：

其中1[y＝c]表示为标签的one-hot编码。

采用生成的大规模合成失真数据集训练BoTNet，把去除最后的average pooling层和线性层的BoTNet作为失真感知模块(DPM)。

对于输入图像，失真感知模块DPM的最终特征谱被提取为失真感知表征，表示为F_DPM，其中

c_d、w和h分别表示输出特征的通道大小、宽度和高度。

本实施例中，视觉交互感知模块用于，基于自注意力机制对图像的语义特征和失真感知特征进行特征融合。

视觉交互感知模块具体用于，

将图像的语义特征F_CPM和失真感知特征F_DPM的特征连接起来，得到F，其中

将F扁平化，并通过卷积操作映射到特征序列

其中

l＝w×h和d分别是序列的长度和尺寸。

将一个可学习的标记

添加到

中，并添加位置嵌入PE(Position Embedding)，这样模型就能更好地感知图像不同区域对质量预测的贡献，其中

在基于自注意力机制的特征融合模块(self-attention based feature fusionblock,SAFFB)中，通过定义三个可学习的权重矩阵，将

转化为三个不同的序列向量(查询Q、关键字K和值V)，表示为：

其中

而d_q＝d_k＝d_v＝d′是相应序列向量的维度。

通过Softmax

计算特征交互的权重，表示为：

为了提取输入序列中不同元素之间的多种复杂关系，多头自注意力由多个自注意力块组成，它们将加入标记

和位置嵌入PE后的特征线性地投射到多个特征子空间，并由相互独立的注意力块并行处理。多个SAFFB的结果向量被串联并映射到最终输出，表述为：

其中H是SAFFB的数量，

是输出线性投影矩阵。

本发明在Multi-SAFFB之后增加了一个多层感知器(MLP)块，在每个块之前利用Layer Normalization(LN)进行层归一化，并在它们之间增加残余连接。

VIM的过程可以简单表述为：

其中m＝1,2,…M，M是模型的深度，m＝1时，z_m-1＝z₀。

MLP包含两层GELU激活函数。

本实施例中，评估模块具体用于，对融合特征z_m通过一个全连接层来输出质量预测分数。

本实施例基于CPM和DPM提供语义特征和失真特征，VIM的目标是对两者之间的交互作用进行建模。然而，由于主观质量分数无法显式的引导模型提取内容和失真的特征表示。在训练VIM同时更新模块CPM和DPM的参数会对图像内容和失真特征造成破坏。因此，为了更好地建立互动模型，本实施例采用基于分阶段的训练方式：在第一阶段，我们生成一个大规模的合成失真数据库，通过构建一个失真分类任务来获取失真感知模块；其次，利用预训练的图像分类网络Resnet50作为内容感知模块；在第二阶段，视觉交互模块通过基于自注意力机制的特征融合模块来建模图像内容和失真的视觉交互关系。在优化模型过程中，内容感知模块和失真感知模块的预训练权重被冻结，仅通过反向传播更新视觉交互模型的参数。

需要说明的是，本实施例在pytorch实验平台上进行实现。

实施例2

本实施例提供一种基于视觉交互感知双流网络的图像无参考质量评估方法，包括：

S1、对图像进行预处理；

S2、采用预先训练的内容感知模块提取图像的语义特征；

S3、采用预先训练的失真感知模块提取图像的失真感知特征；

S4、采用预先训练的视觉交互模块将提取图像的语义特征和失真感知特征进行特征融合，得到融合特征；

S5、基于融合特征进行图像质量评估，得到图像质量分数。

本实施例中，对图像进行预处理包括：

将图像裁剪为统一尺寸，如288×384。

本实施例中，内容感知模块基于实施例1中的方式进行训练。

本实施例中，失真感知模块基于实施例1中的方式进行训练。

本实施例中，视觉交互模块基于实施例1中的方式进行训练。

本实施例中，通过一个全连接层输出质量预测分数。

值得指出的是，该装置实施例是与上述方法实施例对应的，上述方法实施例的实现方式均适用于该装置实施例中，并能达到相同或相似的技术效果，故不在此赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。