CN117152092B

CN117152092B - 全参考图像评价方法、装置、电子设备和计算机存储介质

Info

Publication number: CN117152092B
Application number: CN202311126433.7A
Authority: CN
Inventors: 王惠明; 宁金辉; 许帅; 张乾; 刘汉源; 徐杰; 崔俊生
Original assignee: Beijing Tidycast Co ltd; Planning Institute Of Radio And Television Of State Administration Of Radio And Television
Current assignee: Beijing Tidycast Co ltd; Planning Institute Of Radio And Television Of State Administration Of Radio And Television
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2024-05-28
Anticipated expiration: 2043-09-01
Also published as: CN117152092A

Abstract

本发明实施例公开了一种全参考图像评价方法、装置、电子设备和计算机存储介质，所述方法包括：对目标文件和对应的源文件进行预处理确定对应的第一图像块和第二图像块，根据第一图像块和对应图像位置上的第二图像块确定残差图像，分别基于预先训练得到的图像质量评价模型中的特征提取网络和质量回归网络，采用通道注意力机制和/或区域注意力机制对残差图像进行特征提取以确定目标特征图，并对目标特征图进行回归处理，确定对应的第一图像块的质量评价分数，根据各第一图像块的质量评价分数确定目标文件的质量评价分数。由此，通过上述处理过程能够提高图像质量评价的准确性和效率。

Description

全参考图像评价方法、装置、电子设备和计算机存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种全参考图像评价方法、装置、电子设备和计算机存储介质。

背景技术

视频是我们获取外界信息的主要媒介，也是我们交流和沟通的工具。视频的处理过程包括获取、处理、压缩、传输和重构等等，由于设备条件和处理工艺的限制，处理过程中不可避免的会对视频质量造成损伤，因此建立有效的质量评估体系显得尤为重要。在现在流行的评价体系中，主要将评价方法包括主观评价和客观评价。其中基于人眼观察的主观评价最为准确但是需要大量的时间和精力，不能做到批量化处理。客观评价根据是否利用原始视频信息可以划分为三种不同的类型：全参考、半参考和无参考。由于全参考方法可以充分利用参考视频(即原始视频)的所有信息，评价性能要优于其它两类方法，在某些应用场合可以代替主观评价方法来完成视频质量评价任务。

然而，现有的全参考视频质量评价方法中，一般的特征提取网络提取到的可利用信息有限，不能捕捉到图像局部区域之间的相关性，导致质量评价的准确性有待提高。同时，若采用复杂的大模型来进行特征提取，会大幅度增加模型参数量和计算复杂度，影响图像质量评价效率。

发明内容

有鉴于此，本发明实施例的目的在于提供一种全参考图像评价方法、装置、电子设备和计算机存储介质，以提高图像质量评价的准确性和效率。

第一方面，本发明实施例旨在提供一种全参考图像评价方法，所述方法包括：

获取目标文件和对应的源文件，所述目标文件根据所述源文件确定，所述目标文件为图像或视频；

分别对所述目标文件和源文件进行预处理，确定所述目标文件对应的至少一个第一图像块和所述源文件对应的至少一个第二图像块；

根据所述第一图像块和对应图像位置上的第二图像块确定对应的残差图像；

基于预先训练得到的图像质量评价模型中的特征提取网络采用通道注意力机制和/或区域注意力机制对所述残差图像进行特征提取，以确定目标特征图；

基于预先训练得到的图像质量评价模型中的质量回归网络对所述目标特征图进行回归处理，确定对应的所述第一图像块的质量评价分数；

根据各所述第一图像块的质量评价分数确定所述目标文件的质量评价分数。

进一步地，所述基于预先训练得到的图像质量评价模型中的特征提取网络采用通道注意力机制和/或区域注意力机制对所述残差图像进行特征提取，以确定目标特征图包括：

基于所述特征提取网络对所述残差图像进行特征提取，确定初始特征图；

基于通道注意力机制和/或区域注意力机制对所述初始特征图进行加权计算，确定所述目标特征图。

进一步地，所述基于通道注意力机制和/或区域注意力机制对所述初始特征图进行加权计算，确定目标特征图包括：

确定所述初始特征图中各通道对应的通道注意力权重和/或各区域位置对应的区域注意力权重，所述区域注意力权重根据区域位置上各通道的通道注意力权重确定；

根据各所述通道注意力权重和/或区域注意力权重对所述初始特征图进行加权计算，确定目标特征图。

进一步地，所述质量回归网络包括平均池化层和全连接层，所述回归处理包括：

基于所述平均池化层对所述目标特征图进行特征映射，以确定目标维数的特征图；

基于所述全连接层对所述目标维数的特征图进行回归操作，以确定对应的所述第一图像块的质量评价分数。

进一步地，所述根据所述第一图像块和对应图像位置上的第二图像块确定对应的残差图像包括：

对所述第一图像块和对应图像位置上的第二图像块进行求差计算，确定对应第一图像块的残差图像。

进一步地，在所述目标文件为视频时，所述目标文件包括至少一个帧图像，所述根据各所述第一图像块的质量评价分数确定所述目标文件的质量评价分数包括：

对所述帧图像对应的各所述第一图像块的质量评价分数进行统计计算，确定对应的帧图像的质量评价分数，所述统计计算包括取平均值、取最大值、取最小值、取中位数或取众数；

对各所述帧图像的质量评价分数进行统计计算，确定所述目标文件的质量评价分数。

进一步地，在所述目标文件为视频时，所述预处理包括：

对所述目标文件进行抽帧，确定所述目标文件对应的帧图像；

对各所述帧图像分别进行裁剪，确定对应的第一图像块。

进一步地，所述方法还包括：

获取预训练数据集和精调数据集，所述预训练数据集包括源视频、失真视频以及失真视频相对于源视频的客观标签，所述精调数据集包括源视频、失真视频以及失真视频相对于源视频的主观标签；

根据所述预训练数据集对预设的图像质量评价模型进行训练，以确定预训练模型；

根据所述精调训练集对所述预训练模型进行优化，以确定所述预先训练得到的图像质量评价模型。

第二方面，本发明实施例旨在提供一种全参考图像评价装置，所述装置包括：

文件获取单元，用于获取目标文件和对应的源文件，所述目标文件根据所述源文件确定，所述目标文件为图像或视频；

文件处理单元，用于分别对所述目标文件和源文件进行预处理，确定所述目标文件对应的至少一个第一图像块和所述源文件对应的至少一个第二图像块；

图像处理单元，用于根据所述第一图像块和对应图像位置上的第二图像块确定对应的残差图像；

特征处理单元，用于基于预先训练得到的图像质量评价模型中的特征提取网络采用通道注意力机制和/或区域注意力机制对所述残差图像进行特征提取，以确定目标特征图；以及基于预先训练得到的图像质量评价模型中的质量回归网络对所述目标特征图进行回归处理，确定对应的所述第一图像块的质量评价分数；

质量评价单元，用于根据各所述第一图像块的质量评价分数确定所述目标文件的质量评价分数。

第三方面，本发明实施例旨在提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如上任一项所述的方法。

第四方面，本发明实施例旨在提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的方法步骤。

本发明实施例的技术方案通过基于预先训练得到的图像质量评价模型中的特征提取网络采用通道注意力机制和/或区域注意力机制对失真的目标文件和对应源文件形成的残差图像进行特征提取以确定目标特征图，以及基于预先训练得到的图像质量评价模型中的质量回归网络对所述目标特征图进行回归处理，确定对应的所述第一图像块的质量评价分数，进而根据各第一图像块的质量评价分数确定目标文件的质量评价分数，使得图像质量评价模型能够关注有判别力信息的通道和/或区域，能够提升图像质量评价模型性能，进而提高图像质量评价的准确性。同时，由于仅仅在图像质量评价模型增加通道注意力机制和/或区域注意力机制，引入的模型参数数量少且有限，能够保证图像质量评价的准确性和网络复杂度之间的平衡。再者，由于图像质量评价模型处理的是失真的目标文件和对应源文件形成的残差图像，能够使得图像质量评价过程能够重点关注图像中的细节纹理信息，并减少图像质量评价模型特征提取时涉及的参数数量，降低模型网络的计算复杂度，进而提高图像质量评价效率。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的图像评价方法的流程图；

图2是本发明实施例的目标文件处理过程的流程图；

图3是本发明实施例的确定目标特征方法的流程图；

图4是本发明实施例的图像质量评价模型整体处理过程的示意图；

图5是本发明实施例的图像质量评价模型训练方法的流程图；

图6是本发明实施例的图像评价装置的示意图；

图7是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本说明书及实施例中所述方案，如涉及个人信息处理，则均会在具备合法性基础(例如征得个人信息主体同意，或者为履行合同所必需等)的前提下进行处理，且仅会在规定或者约定的范围内进行处理。用户拒绝处理基本功能所需必要信息以外的个人信息，不会影响用户使用基本功能。

现有的全参考图像质量评价方法常通过特征提取网络分别提取源图像和有损图像的特征，然后分析特征的差异。但是基于目前的编解码技术水平，在不同的应用场合下，编解码损伤程度不同，对于浅压缩编码，已经不存在明显的易察觉的损伤，这导致网络提取的两者特征接近，不利于后续的回归分析。如果直接将源和有损图像的RGB通道差值输入网络，图像大部分区域的输入数值为0，网络可利用的信息有限。网络结构方面，全连接层只能做特征的线性映射，不能捕捉图像局部区域之间的相关性，会影响质量评价的水平，深度自注意力变换神经网络(Transformer)结构涉及到模型参数量和计算复杂度的陡增，所以目前的主流方法在实际生产生活中的应用依然存在技术难点。在算法落地应用过程中，质量评价任务对于时效性要求较高，算法保证效果的同时还要尽可能地降低参数量和计算复杂度。因此设计一个可以提升特征学习能力并且增加参数有限的模型显得尤为重要。有鉴于此，本发明实施例旨在提供一种图像评价方法，以提高图像质量评价的准确性和效率。

图1是本发明实施例的图像评价方法的流程图。如图1所示，本实施例中的图像评价方法包括以下步骤。

在步骤S100，获取目标文件和对应的源文件。

本实施例中，目标文件根据源文件确定，可以是源文件经传输或转换等处理后形成的文件，文件形式可以是图像或视频。在将目标文件作为待测试图像或视频进行质量评价时，使用源文件作为参考信息对目标文件进行评估。

应理解，由于本实施例中的目标文件可以为图像或视频，且所有的视频均是通过图像构成的，视频形式目标文件的处理过程涵盖了完整的图像形式目标文件的处理过程。因此，下面在对目标文件的处理过程进行介绍时，将以视频形式的目标文件为例进行说明，并同时为图像形式的目标文件的处理过程提供参考。

在步骤S200，分别对目标文件和源文件进行预处理，确定目标文件对应的至少一个第一图像块和源文件对应的至少一个第二图像块。

本实施例中，第一图像块与目标文件对应图像中的局部图像相对应，第二图像块与源文件对应图像中的局部图像相对应，且由于目标文件和源文件格式相同，可根据第一图像块在目标文件图像中的图像位置和第二图像块在源文件图像中的图像位置建立对应关系，各第一图像块具有对应图像位置上的第二图像块。

可选地，本实施例中在获取目标文件和对应的源文件后，通过对目标文件和源文件进行预处理来确定目标文件对应的第一图像块和源文件对应的第二图像块。可选地，为提高处理效率，本实施例中的源文件和目标文件采用相同的预处理方法进行处理。

图2是本发明实施例的目标文件处理过程的流程图。如图2所示，本实施例在获取到目标文件A后，会对目标文件A进行抽帧，确定目标文件对应的帧图像A1、A2、…、An；再对各帧图像An(n＝1，2…)分别进行裁剪，确定对应的第一图像块Pn1、Pn2、…、Pni。可选地，本实施例中对视频进行抽帧操作时，为提高图像处理效率，根据预设的帧数间隔对目标文件进行抽帧，例如，帧数间隔可以设置为20帧或50帧，也即每隔20帧或50帧抽一次帧。另一可选地，本实施例中在对视频形式的目标文件中的帧图像进行裁剪时，从帧图像的左上角开始，以预设滑动窗口对各帧图像分别进行裁剪，预设窗口的格式可设置为H×W大小，由此，通过上述方法分别对目标文件和帧图像进行处理，能够得到至少一个H×W大小的图像块，并将图像块作为对应帧图像的输入图像。

应理解，本实施例中在获取目标文件A对应的源文件B后，可采用前述相同的方法对源文件B进行处理，包括每隔预设的帧数间隔对源文件B进行抽帧(源文件和目标文件抽帧操作的起始帧和帧数间隔是相同的)，确定源文件B对应的帧图像B1、B2、…、Bn，以及对各帧图像Bn(n＝1，2…)分别进行裁剪，确定对应的第二图像块Qn1、Qn2、…、Qni。其中，帧图像An与帧图像Bn相对应，具有相同的帧数编号n；第一图像块Pni和第二图像块Qni相对应，第一图像块Pni在帧图像An中的图像位置与第二图像块Qni在帧图像Bn中的图像位置相同，且与具有相同的图像位置编号i。

可选地，本实施例中帧图像编号按照抽帧操作的先后顺序从1到n计数。第一图像块和第二图像块的图像位置编号按照从左到右再从上到下的位置顺序从1到i进行编号，位于帧图像中左上角位置的第一图像块第二图像块的图像位置编号记为1，右下角位置的第一图像块第二图像块的图像位置编号记为i。

在步骤S300，根据第一图像块和对应图像位置上的第二图像块确定对应的残差图像。

本实施例中，如图2所示，在确定目标文件对应的第一图像块Pn1、Pn2、…、Pni以及目标文件对应的第二图像块Qn1、Qn2、…、Qni之后，根据第一图像块Pni(i＝1，2，…)和对应图像位置上的第二图像块Qni(i＝1，2，…)来确定对应第一图像块的残差图像Cni(i＝1，2，…)。具体地，本实施例中通过对第一图像块Pni和第二图像块Qni进行求差计算，确定对应的残差图像Cni。其中，求差计算是对于两个相同图像格式和大小的图像中的每个像素，从第一个图像中的像素值减去第二个图像中的像素值，生成一个新的图像，新生成的图像中每个像素的值表示两个原始图像中相应像素的差异。本实施例中可通过将第一图像块中的像素值减去第二图像块中的像素值，或者第二图像块中的像素值减去第一图像块中的像素值，来生成新的残差图像。可选地，本实施例中可以通过使用求差计算代码，如OpenCV库中的代码来计算第一图像块和第二图像块的残差图像，以提高残差图像的确定效率，有利于进一步提高图像质量评价过程的整体效率。

可选地，为使得后续图像质量评价过程更加关注图像中的细节纹理特征和减少处理参数量，本实施例中的残差图像优先采用YUV格式。同时，由于残差图像的格式与第一图像块和第二图像块是一致的，第一图像块、第二图像块也采用YUV格式。进一步地，第一图像块和第二图像块对应的目标文件可以是YUV格式，也可以是其它格式转换后形成的YUV格式图像。

进一步地，本实施例中在确定第一图像块和第二图像块的残差图像后，将残差图像输入至预先训练得到的图像质量评价模型中进行特征提取和回归处理，进而确定各第一图像块的质量评价分数。其中，图像质量评价模型包括特征提取网络和质量回归网络，各部分网络的具体功能处理过程通过以下步骤内容进行介绍。

在步骤S400，基于预先训练得到的图像质量评价模型中的特征提取网络采用通道注意力机制和/或区域注意力机制对残差图像进行特征提取，以确定目标特征图。

本实施例中，在传统的特征提取网络中加入通道注意力机制和/或区域注意力机制对残差图像进行特征提取，确定残差图像对应的目标特征图。也就是说，本实施例中可以在特征提取网络中加入通道注意力机制或区域注意力机制对残差图像进行特征提取，使得特征提取网络能够关注通道特征信息或区域特征信息，进而使得目标特征图中能够包括通道特征信息或区域特征信息，能够使得基于目标特征图确定的图像质量评价结果准确性更高；另一可选地，本实施例中也可以在特征提取网络中同时加入通道注意力机制和区域注意力机制对残差图像进行特征提取，使得特征提取网络能够同时关注通道特征信息和区域特征信息，进而使得目标特征图中能够包括通道特征信息和区域特征信息，能够进一步提高基于目标特征图确定的图像质量评价结果的准确性。

图3是本发明实施例的确定目标特征方法的流程图。可选地，如图3所示，本实施例中通过以下步骤来确定目标特征图。

在步骤S210，基于特征提取网络对残差图像进行特征提取，确定初始特征图。

可选地，本实施例中的特征提取网络采用ResNet50其中，ResNet-50是ResNet系列中的一种深度残差网络，通常由50个卷积层组成，包括一个7×7的卷积层和一个全局平均池化层。ResNet-50的核心是残差模块，它是由两个卷积层和一个快捷连接组成的。快捷连接允许信息在网络中跳跃传递，从而避免了梯度消失和梯度爆炸问题，使得网络可以更深更容易地训练。ResNet-50的训练过程通常使用随机梯度下降(SGD)优化器和交叉熵损失函数，还会使用数据增强和批量归一化等技术来提高模型的性能和鲁棒性，在识别图像、物体检测和图像分割等任务中能够表现出很好的性能。由此，本实施例中通过向ResNet50网络输入YUV格式的残差图像，获取ResNet50最后一个卷积层输出的初始特征图。

在步骤S220，基于通道注意力机制和/或区域注意力机制对初始特征图进行加权计算，确定目标特征图。

本实施例中，在确定初始特征图后，首先确定初始特征图中各通道对应的通道注意力权重和/或各区域位置对应的区域注意力权重，再根据各通道注意力权重和/或区域注意力权重对初始特征图进行加权计算，确定目标特征图。其中，区域注意力权重根据区域位置上各通道的通道注意力权重确定。

可选地，本实施例中通过在ResNet50网络基础上增加通道注意力机制和区域注意力机制相关的网络层级(如，卷积层、池化层、全连接层等)，以使得特征提取网络能够模拟人类注意力机制，通过计算对残差图像中的各元素与其它元素的关联程度，根据关联程度分配不同的权重，基于权重大小决定对应元素得到的注意力，进而更好地识别和定位图像中的通道特征和区域特征，确定残差对象对应的目标特征图，能够提高图像质量评价的准确性。

在步骤S500，基于预先训练得到的图像质量评价模型中的质量回归网络对目标特征图进行回归处理，确定对应的第一图像块的质量评价分数。

本实施例中，在确定第一图像块对应的残差图像的目标特征图后，根据预选训练得到的图像质量评价模型中的质量回归网络对目标特征进行回归处理，确定对应第一图像块的质量评价分数。

可选地，本实施例中的质量回归网络包括平均池化层和两个级联连接的全连接层。将目标特征图输入至质量回归网络后，通过质量回归网络中的平均池化层和全连接层对目标特征图中的特征进行回归处理，其中，平均池化层能够用于减少特征映射的尺寸，全连接层能够用于将特征合并为一个向量，进行分类或回归。由此，本实施例中基于质量回归网络中的平均池化层对目标特征图进行特征映射，以确定目标维数的特征图；并基于全连接层对目标维数的特征图进行回归操作，以确定对应的第一图像块的质量评价分数。

图4是本发明实施例的图像质量评价模型整体处理过程的示意图。如图4所示，本实施例中将目标文件中第一图像块对应的残差图像C输入至特征提取网络，通过特征提取网络对残差图像C进行特征提取后，确定初始特征图A(即经ResNet50网络一系列的卷积和池化得到最后一个卷积层输出的初始特征图A)。在通过全局池化层对特征图A进行下采样，经两个全连接层和sofrmax激活函数来计算每个通道的注意力权重，通过对通道注意力权重和原始特征图相乘得到通道加权后的特征图B。然后计算特征图B中每个位置上的各个通道的参数和，通过2维sofrmax函数激活确定各位置上通道和区域共同作用的权重，并将该权重和初始特征图A相乘得到通道和区域注意力加权后的目标特征图D。最后，将目标特征图D输入质量回归网络，通过质量回归网络中的自适应平均池化和两个全连接层回归质量分数，确定对应第一图像块的质量评价分数，进而确定目标文件中各第一图像块的质量评价分数。

可选地，本实施例中基于图5所示的方法对图像质量评价模型进行训练。

在步骤S310，获取预训练数据集和精调数据集。

本实施例中，图像质量评价模型的训练数据由预训练数据集和精调数据集构成其中，预训练数据集包括源视频、失真视频以及失真视频相对于源视频的客观标签。精调数据集包括源视频、失真视频以及失真视频相对于源视频的主观标签。

可选地，本实施例中在获取训练数据时，首先获取源视频和失真视频，并分别对源视频和失真视频进行预处理。预处理包括抽帧和裁剪操作，通过对源视频和失真视频进行抽帧处理，分别获取源视频和失真视频对应的帧图像序列。再对源视频对应的帧图像序列中的帧图像按照预设的裁剪方式(例如，通过中心裁剪的方式裁剪得到H×W大小的图片)分别进行裁剪以得到对应的第一图像块，并对失真视频对应的帧图像序列中的帧图像分别进行裁剪以得到与第一图像块相对应的第二图像块。进一步地，预处理完成后，将失真视频的客观标签和主观标签分别赋予由该视频预处理后得到的第一图像块中。之后，根据带有客观标签的第一图像块和与该第一图像块对应的第二图像块确定对应第一图像块的残差图像，将该残差图像确定为预训练数据集中的数据；同时，根据带有主观标签的第一图像块和与该第一图像块对应的第二图像块确定对应第一图像块的残差图像作为精调数据集中的数据。由此，本实施例中通过上述方法确定训练数据集中的预训练数据集和精调数据集，处理过程简洁方便且结果可靠，有利于提高图像质量评价模型的训练效率和输出结果的准确性，以及进一步提高目标文件的图像质量评价效率和图像质量评价结果的准确性。

可选地，本实施例中的客观指标标签根据客观指标值确定，客观指标为全参考质量客观指标，包括但不限于PSNR、SSIM、VMAF等。其中，PSNR(Peak Signal-to-Noise Ratio)是一种衡量视频质量的传统指标，通过计算源视频和失真视频之间的均方误差，并将其转换为分贝(dB)单位来评估失真视频的视频质量。PSNR越高，表示失真视频和源视频之间的差异越小，视频质量越好。SSIM(Structural Similarity Index)是一种基于结构相似性的指标，能够比较源视频和失真视频之间的结构相似性，包括亮度、对比度和结构等因素来评价失真视频。SSIM的取值范围在0到1之间，值越接近1，表示失真视频和源视频之间的相似度越高，视频质量越好。VMAF(Video Multimethod Assessment Fusion)是一种综合性的视频质量评价指标，结合了多种客观评价指标和人类主观评价，通过机器学习算法将它们融合在一起，得出一个综合的视频质量分数。VMAF的取值范围在0到100之间，值越高，表示视频质量越好。进一步地，本实施例中的客观标签可以是客观指标和客观指标的数值形成的标签，例如：SSIM＝0.8；也可以是根据客观指标值所属取值范围表征的属性标签来确定，例如，将SSIM值超过0.7的失真视频的客观标签设置为“图像质量良好”，将SSIM值小于0.7的失真视频的客观标签设置为“图像质量差”。

同时，本实施例中的主观指标标签根据主观指标值确定，主观指标值可以是MOS或其它指标。主观指标MOS(Mean Opinion Score，平均意见分数)是一种用于主观图像和音频质量评估的标签，通过人类评审者的主观评估来确定图像或音频质量的标准。在MOS评估中，一组评审者被要求评估一个或多个图像或音频文件，并给出一个0到100的分数，表示它们对质量的整体印象。这些分数被平均计算得出一个MOS得分，这个得分通常被视为对该文件质量的一个主观评估。进一步地，本实施例中的主观标签可以是主观指标和主观指标的数值形成的标签，例如MOS＝5；也可以根据主观指标的值所属取值范围表征的标签属性来确定，例如，在主观指标MOS大于4.5时，将对应图像的主观标签设置为“图像质量好”。由此，通过上述方法实现客观标签和主观标签的设置，使得主观标签的设置更加灵活和方便。

可选地，为进一步提升图像质量评价模型的准确性，本实施例中的训练数据集对应的输入图像的数量以及输入图像内容覆盖的典型场景要尽可能多，例如，训练数据集覆盖至少覆盖10种以上典型场景，包括室内、室外、建筑物、人物、自然景物等。同时，本实施例中预训练数据集中的输入图像的数量至少为10000个。精调数据集对应的输入图像的数量至少为300个。但需要说明的是，以上数值仅为示例，在保证图像质量评价准确性的处理效率的基础上，可以根据实际应用场景进行调整，这里并不对此进行限制。

在步骤S320，根据预训练数据集对预设的图像质量评价模型进行训练，以确定预训练模型。

本实施例中，在确定预训练数据集和图像质量评价模型结构后(图像质量评价模型结构在前面已经介绍，这里不再赘述)，将预训练数据集中的第一图像块对应的残差图像输入至预设的图像质量评价模型中进行训练，并将训练得到的具有一定模型参数的图像质量评价模型确定为预训练模型。

可选地，本实施例中使用Adam更新策略和L1损失函数(用于衡量模型预测分数与目标分数的差异)对预设的图像质量评价模型进行训练，学习率采用梯度衰减的方式，图像质量评价模型中的特征提取网络的初始学习率设置为0.1，质量回归网络的初始学习率设置为0.01。由此，本实施例中通过上述方法对预设的图像质量评价模型进行训练，确定预训练模型，使得图像质量评价模型能够提取和使用更多的图像特征进行图像质量评价，有利于提高图像质量评价的鲁棒性。

在步骤S330，根据精调训练集对预训练模型进行优化，以确定预先训练得到的图像质量评价模型。

本实施例中，在确定精调数据集和预训练模型后，首先加载预训练的模型参数，再将精调数据集中的第一图像块对应的残差图像输入至预训练模型中进行训练，以对预训练模型中的模型参数进行优化调整，并将优化调整后的预训练模型确定为预先训练得到的图像质量评价模型，应用于图像质量评价处理过程中。

可选地，本实施例中使用Adam更新策略和L1损失函数对预设的图像质量评价模型进行训练，学习率采用梯度衰减的方式，图像质量评价模型中的特征提取网络的初始学习率设置为0.01，质量回归网络的初始学习率设置为0.001。由此，本实施例中通过上述方法对已经训练好的预训练模型进行优化训练，进而确定出能够用于图像质量评价过程的图像质量评价模型，能够提高图像质量评价模型的泛化性能和可靠性。

可选地，本实施例中，在确定出预先训练得到的图像质量评价模型后，还会对该模型进行验证。验证过程采用测试视频完成，测试视频包括50个无失真的4K超高清源视频以及与源视频对应的300个不同失真等级的4K超高清失真视频。在对图像质量评价模型进行效果测试时，可将失真视频随机分为5组，编号为组1、组2、组3、组4、组5，每组60个视频，分别以组5、组4、组3、组2和组1为测试集，以此进行5轮测试。

在第一轮测试中，可将组1、组2、组3、组4合成为训练集，包括240个视频；以组5为测试集。用训练集对本实施例中的全参考图像质量评价模型进行训练，训练中使用Adam更新策略，初始学习率为0.01，损失函数为预测分数和实际分数的L1距离，迭代次数为200次。模型训练完成后，用测试集中的60个被测视频对本模型进行了测试。同时，采用PSNR、SSIM、VMAF三种全参考算法对相同的被测视频进行测试，并对客观测试结果和主观标签的相关性进行分析。之后，沿用第一轮测试中的方法，分别以组4-1中的某一组为测试集，对应的其它组为训练集开展其它轮次的模型测试，并分别对各轮次的客观测试结果和主观标签的相关性进行分析。最后，对全部轮次的客观测试结果和主观标签的相关性系数取平均值，并使用该平均值来评估图像质量评价模型的整体效果。测试结果表明，采用本实施例中的图像质量评价模型能够提高失真视频的图像质量评价准确性。同时，在特征提取网络部分加入通道注意力机制的操作与加入区域注意力机制的操作之间不存在相互制约影响，且相比于图像质量评价模型中未加入通道注意力机制和区域注意力机制情形，单独加入通道注意力机制或区域注意力机制情形均可以提升图像质量评价模型性能，且仅加入区域注意力机制情形下的模型性能提升效果更明显，同时加入通道注意力机制和区域注意力机制时的模型性能表现最优。

在步骤S600，根据各第一图像块的质量评价分数确定目标文件的质量评价分数。

本实施例中，在通过预先训练得到的图像质量评价模型确定目标文件中各第一图像块的质量评价分数后，根据各第一图像块的质量评价分数确定对应目标文件的质量评价分数。在一种可选的实现方式中，在目标文件为视频时，由于目标文件包括多个帧图像，在确定目标文件的质量评价分数时，本实施例中先根据各帧图像对应的各第一图像块的质量评价分数确定对应的帧图像的质量评价分数，再根据各帧图像的质量评价分数确定目标文件对应的质量评价分数。

可选地，本实施例中，首先会对帧图像对应的各输入图像的质量评价分数进行统计计算，确定对应的帧图像的质量评价分数；再对各帧图像的质量评价分数进行统计计算，确定目标文件的质量评价分数。其中，本实施例中的统计计算包括取平均值、取最大值、取最小值、取中位数或取众数。具体地，本实施例中的统计计算采用的是取平均值方法。假设目标文件A包括帧图像A1、A2、…、An，目标文件的质量评价分数为S，各帧图像对应的质量评价分数分别为S1、S2、…、Sn，各帧图像An对应的图像块包括Pn1、Pn2、…、Pni，各图像块对应的质量评价分数为Sn1、Sn2、…、Sni；由此可确定各帧图像的质量评价分数Sn为(Sn1+Sn2+…+Sni)/i，目标文件对应质量评价分数S为(S1+S2+…+Sn)/n。

在另一种可选的实现方式中，在目标文件为图像时，由于目标文件被裁剪为多个输入图像，可以对目标文件中各输入图像的质量评价分数进行均值计算，并将均值计算结果确定为目标文件的质量评价分数。

本发明实施例的技术方案通过在图像质量评价模型中加入通道注意力机制和区域注意力机制，使得图像质量评价模型能够关注有判别力信息的通道和区域，能够提升图像质量评价模型性能，进而提高图像质量评价的准确性。同时，由于仅仅在图像质量评价模型增加通道注意力机制和/或区域注意力机制，引入的模型参数数量少且有限，能够保证图像质量评价的准确性和网络复杂度之间的平衡，提高图像质量评价效率。再者，由于图像质量评价模型处理的是失真的目标文件和对应源文件形成的残差图像，能够使得图像质量评价过程能够重点关注图像中的细节纹理信息，并减少图像质量评价模型特征提取时涉及的参数数量，能够进一步降低模型网络的计算复杂度，提高图像质量评价效率。

图6是本发明实施例的图像评价装置的示意图。如图6所示，本实施例的图像评价装置包括文件获取单元1、文件处理单元2、图像处理单元3、特征处理单元4和质量评价单元5。其中，文件获取单元1用于获取目标文件和对应的源文件，目标文件根据源文件确定，目标文件为图像或视频。文件处理单元2用于分别对目标文件和源文件进行预处理，确定目标文件对应的至少一个第一图像块和源文件对应的至少一个第二图像块。图像处理单元3用于根据第一图像块和对应图像位置上的第二图像块确定对应的残差图像。特征处理单元4用于基于预先训练得到的图像质量评价模型中的特征提取网络采用通道注意力机制和/或区域注意力机制对残差图像进行特征提取，以确定目标特征图；以及基于预先训练得到的图像质量评价模型中的质量回归网络对目标特征图进行回归处理，确定对应的第一图像块的质量评价分数。质量评价单元5用于根据各第一图像块的质量评价分数确定目标文件的质量评价分数。

可选地，本实施例中的目标文件和源文件的预处理包括抽帧和裁剪操作。文件处理单元2具体用于分别对目标文件和源文件进行抽帧，确定目标文件和源文件对应的帧图像；以及对各帧图像分别进行裁剪，确定对应的第一图像块和第二图像块。

可选地，本实施例中的图像处理单元3在根据第一图像块和对应图像位置上的第二图像块确定对应的残差图像是，具体用于对第一图像块和对应图像位置上的第二图像块进行求差计算，确定对应第一图像块的残差图像。

可选地，本实施例中的特征处理单元4在确定第一图像块对应残差图像的目标特征图时，还用于基于特征提取网络对残差图像进行特征提取，确定初始特征图；以及基于通道注意力机制和/或区域注意力机制对所述初始特征图进行加权计算，确定目标特征图。在对初始特征图进行加权计算时，具体用于确定初始特征图中各通道对应的通道注意力权重和/或各区域位置对应的区域注意力权重，根据各通道注意力权重和/或区域注意力权重对初始特征图进行加权计算，确定目标特征图。其中，区域注意力权重根据区域位置上各通道的通道注意力权重确定。

进一步地，本实施例中的质量回归网络包括平均池化层和全连接层。在通过质量回归网进行回归处理时，特征处理单元4还用于基于平均池化层对目标特征图进行特征映射，以确定目标维数的特征图；并基于全连接层对目标维数的特征图进行回归操作，以确定对应的第一图像块的质量评价分数。

可选地，本实施例中在目标文件为视频，目标文件包括至少一个帧图像时，质量评价单元5还用于对帧图像对应的各第一图像块的质量评价分数进行统计计算，确定对应的帧图像的质量评价分数；对各帧图像的质量评价分数进行统计计算，确定目标文件的质量评价分数。

可选地，如图6所示，本实施例中的图像评价装置还包括训练单元6。训练单元6用于获取预训练数据集和精调数据集，根据预训练数据对预设的图像质量评价模型进行训练，以确定预训练模型；根据精调训练集对预训练模型进行优化，以确定预先训练得到的图像质量评价模型。其中，训练数据集包括源视频、失真视频以及失真视频相对于源视频的客观标签，精调数据集包括源视频、失真视频以及失真视频相对于源视频的主观标签。

图7是本发明实施例的电子设备的示意图。如图7所示，图7所示的电子设备为通用地址查询装置，其包括通用的计算机硬件结构，其至少包括处理器71和存储器72。处理器71和存储器72通过总线73连接。存储器72适于存储处理器71可执行的指令或程序。处理器71可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器71通过执行存储器72所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线73将上述多个组件连接在一起，同时将上述组件连接到显示控制器74和显示装置以及输入/输出(I/O)装置75。输入/输出(I/O)装置75可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置75通过输入/输出(I/O)控制器76与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域技术人员而言，本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种全参考图像评价方法，其特征在于，所述方法包括：

分别对所述目标文件和源文件进行预处理，确定所述目标文件对应的至少一个YUV格式的第一图像块和所述源文件对应的至少一个YUV格式的第二图像块；

根据所述第一图像块和对应图像位置上的第二图像块确定对应的YUV格式的残差图像，所述残差图像中每个像素的值表示对应的第一图像块和第二图像块中相应像素的差异；

基于预先训练得到的图像质量评价模型中的特征提取网络采用通道注意力机制和/或区域注意力机制对所述YUV格式的残差图像进行特征提取，以确定目标特征图；

2.根据权利要求1所述的方法，其特征在于，所述基于预先训练得到的图像质量评价模型中的特征提取网络采用通道注意力机制和/或区域注意力机制对所述残差图像进行特征提取，以确定目标特征图包括：

3.根据权利要求1所述的方法，其特征在于，所述质量回归网络包括平均池化层和全连接层，所述回归处理包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一图像块和对应图像位置上的第二图像块确定对应的YUV格式的残差图像包括：

对所述第一图像块和对应图像位置上的第二图像块进行求差计算，确定对应第一图像块的YUV格式的残差图像。

5.根据权利要求1所述的方法，其特征在于，在所述目标文件为视频时，所述目标文件包括至少一个帧图像，所述根据各所述第一图像块的质量评价分数确定所述目标文件的质量评价分数包括：

6.根据权利要求1所述的方法，其特征在于，在所述目标文件为视频时，所述预处理包括：

对各所述帧图像分别进行裁剪，确定对应的第一图像块。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种全参考图像评价装置，其特征在于，所述装置包括：

文件处理单元，用于分别对所述目标文件和源文件进行预处理，确定所述目标文件对应的至少一个YUV格式的第一图像块和所述源文件对应的至少一个YUV格式的第二图像块；

图像处理单元，用于根据所述第一图像块和对应图像位置上的第二图像块确定对应的YUV格式的残差图像，所述残差图像中每个像素的值表示对应的第一图像块和第二图像块中相应像素的差异；

特征处理单元，用于基于预先训练得到的图像质量评价模型中的特征提取网络采用通道注意力机制和/或区域注意力机制对所述YUV格式的残差图像进行特征提取，以确定目标特征图；以及基于预先训练得到的图像质量评价模型中的质量回归网络对所述目标特征图进行回归处理，确定对应的所述第一图像块的质量评价分数；

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法步骤。