CN117274170A

CN117274170A - 无参考图像评价方法、装置、电子设备和计算机存储介质

Info

Publication number: CN117274170A
Application number: CN202311126419.7A
Authority: CN
Inventors: 王惠明; 宁金辉; 许帅; 张乾; 刘汉源; 徐杰; 崔俊生
Original assignee: Beijing Tidycast Co ltd; Planning Institute Of Radio And Television Of State Administration Of Radio And Television
Current assignee: Beijing Tidycast Co ltd; Planning Institute Of Radio And Television Of State Administration Of Radio And Television
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-12-22

Abstract

本申请公开了一种无参考图像评价方法、装置、电子设备和计算机存储介质，所述方法包括：对目标文件进行预处理，确定至少一个与所述目标文件中的图像块相对应的输入图像；基于预先训练得到的图像评价模型中的特征提取网络和深度自注意力变换神经网络分别对输入图像进行特征提取确定输入图像对应的特征图，并对特征图中的特征点位置和特征向量进行计算分析，确定输入图像的质量评价分数；根据各所述输入图像的质量评价分数确定所述目标文件的质量评价分数。由此，通过特征提取网络和深度自注意力变换神经网络对输入图像进行处理，使得图像质量评价过程能够涉及的输入图像信息更加完整，能够提高图像质量评价的准确性。

Description

无参考图像评价方法、装置、电子设备和计算机存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种无参考图像评价方法、装置、电子设备和计算机存储介质。

背景技术

视频是我们获取外界信息的主要媒介，也是我们交流和沟通的工具。视频的处理过程包括获取、处理、压缩、传输和重构等等，由于设备条件和处理工艺的限制，处理过程中不可避免的会对视频质量造成损伤，因此建立有效的质量评估体系显得尤为重要。在现在流行的评价体系中，主要评价方法包括主观评价和客观评价。其中基于人眼观察的主观评价最为准确但是需要大量的时间和精力，不能做到批量化处理。客观评价根据是否利用原始视频信息可以划分为三种不同的类型：全参考、半参考和无参考。很多时候原始视频的具体信息是无法获取的，这就限制了全参考和半参考评价方法在实际生产生活中的应用。因此研究无参考的视频质量评价方法具有重要的现实意义。

然而，现有的无参考质量评价方法中，大尺寸图片无法直接输入到网络中进行处理，缩放造成的质量变化、裁剪造成的语义丢失、以及图像细节纹理信息处理上的不足使得准确度仍有待提高。

发明内容

有鉴于此，本发明实施例的目的在于提供一种无参考图像评价方法、装置、电子设备和计算机存储介质，以提高图像质量评价的准确性。

第一方面，本发明实施例旨在提供一种无参考图像评价方法，所述方法包括：

获取目标文件，所述目标文件为图像或视频；

对所述目标文件进行预处理，确定对应的至少一个输入图像，所述输入图像与所述目标文件中的图像块相对应，所述图像块与所述目标文件中的局部图像相对应；

基于预先训练得到的图像评价模型中的特征提取网络对所述输入图像进行特征提取，以确定所述输入图像对应的特征图；

基于预先训练得到的图像评价模型中的深度自注意力变换神经网络对所述特征图中的特征点位置和特征向量进行计算分析，确定所述输入图像的质量评价分数；

根据各所述输入图像的质量评价分数确定所述目标文件的质量评价分数。

进一步地，所述方法还包括：

获取训练数据集，所述训练数据集包括预训练数据集和精调数据集，所述预训练数据集包括多个具有客观标签的输入图像，所述精调数据集包括多个具有主观标签的输入图像；

将所述预训练数据集中的输入图像输入至预设的图像评价模型中进行训练，确定预训练模型；

将所述精调数据集中的输入图像输入至所述预训练模型中进行训练，以确定所述预先训练得到的图像评价模型。

进一步地，所述对所述目标文件进行预处理，确定对应的至少一个输入图像包括：

对所述目标文件进行预处理，确定所述目标文件对应的至少一个图像块；

对各所述图像块进行电光转换计算，确定对应的输入图像。

进一步地，所述对所述图像块进行电光转换计算，确定对应的输入图像包括：

基于所述目标文件的图像格式确定对应的色域及动态范围规范下的电光转换公式；

基于所述电光转换公式对所述图像块进行转换，确定对应的输入图像。

进一步地，在所述目标文件为视频时，所述预处理包括：

对所述目标文件进行抽帧，确定所述目标文件对应的帧图像；

对各所述帧图像分别进行裁剪，确定对应的图像块。

进一步地，在所述目标文件为视频时，所述目标文件包括至少一个帧图像，所述根据各所述输入图像的质量评价分数确定所述目标文件的质量评价分数包括：

对所述帧图像对应的各所述输入图像的质量评价分数进行统计计算，确定对应的帧图像的质量评价分数，所述统计计算包括取平均值、取最大值、取最小值、取中位数或取众数；

对各所述帧图像的质量评价分数进行统计计算，确定所述目标文件的质量评价分数。

进一步地，所述基于预先训练得到的图像评价模型中的特征提取网络对所述输入图像进行特征提取，以确定所述输入图像对应的特征图包括：

基于预先训练得到的图像评价模型中的特征提取网络对所述输入图像进行特征提取，确定预设通道数下的特征图；

对所述预设通道数下的特征图进行特征映射，确定目标通道数下的特征图。

第二方面，本发明实施例旨在提供一种无参考图像处理装置，所述装置包括：

文件获取单元，用于获取目标文件，所述目标文件为图像或视频；

图像处理单元，用于对所述目标文件进行预处理，确定对应的至少一个输入图像，所述输入图像与所述目标文件中的图像块相对应，所述图像块与所述目标文件中的局部图像相对应；

特征处理单元，用于基于预先训练得到的图像评价模型中的特征提取网络对所述输入图像进行特征提取，以确定所述输入图像对应的特征图；以及基于预先训练得到的图像评价模型中的深度自注意力变换神经网络对所述特征图中的特征点位置和特征向量进行计算分析，确定所述输入图像的质量评价分数；

质量评价单元，用于根据各所述输入图像的质量评价分数确定所述目标文件的质量评价分数。

第三方面，本发明实施例旨在提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如上任一项所述的方法。

第四方面，本发明实施例旨在提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的方法步骤。

本实施例的技术方案通过对获取到的目标文件进行预处理，确定至少一个与目标文件中的图像块相对应的输入图像，基于预先训练得到的图像评价模型中的特征提取网络和深度自注意力变换神经网络分别对输入图像进行特征提取确定输入图像对应的特征图，并对特征图中的特征点位置和特征向量进行计算分析，确定输入图像的评价分数，再根据各输入图像的质量评价分数确定目标文件的质量评价分数。由此，通过特征提取网络和深度自注意力变换神经网络对输入图像进行处理，使得图像质量评价过程能够涉及的输入图像信息更加完整，能够提高图像质量评价的准确性。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是本发明实施例的图像评价方法的流程图；

图2是本发明实施例的目标文件预处理过程的示意图；

图3是本发明实施例的确定输入图像的流程图；

图4是本发明实施例的图像质量评价网络的处理过程的示意图；

图5是本发明实施例的图像评价网络训练方法的流程图；

图6是本发明实施例的图像评价装置的示意图；

图7是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本申请进行描述，但是本申请并不仅仅限于这些实施例。在下文对本申请的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。为了避免混淆本申请的实质，公知的方法、过程、流程、元件和电路并没有详细叙述。

此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本说明书及实施例中所述方案，如涉及个人信息处理，则均会在具备合法性基础(例如征得个人信息主体同意，或者为履行合同所必需等)的前提下进行处理，且仅会在规定或者约定的范围内进行处理。用户拒绝处理基本功能所需必要信息以外的个人信息，不会影响用户使用基本功能。

在无参考图像质量评价任务中，相比于其他计算机视觉任务主要表现有以下处理难点，包括：1、大尺寸图片无法直接输入到网络中，常通过缩放或裁剪对图像进行处理。两种方式中，裁剪会丢失语义信息，缩放不会丢失语义信息但会影响图片质量。因此，在调整图片尺寸时一般选择裁剪操作。但如果基于RGB通道进行裁剪，则会丢失较多的语音信息；2、图像质量评价需要关注语义信息，还需要网络学习细节纹理信息。针对目前的编解码水平，图像质量的优劣主要体现在编码系统对于图像边缘细节的处理上，尤其是亮度信息的差异。而RGB图像主要表现的就是语义特征，不能很好地反映人眼的感知特征；3、无参考图像质量评价任务没有原视频序列作为参考比较，无法精确地定位有损伤的区域和损伤程度，并且损伤程度和语义特征联系较少，这增加了网络的学习难度，经常造成网络不收敛的后果。

同时，随着硬件水平的提升，已经允许更大尺寸的图片输入到深度学习网络中，但是高清、超高清视频依然需要缩放尺寸。当前的常用方法是将RGB图像输入到网络，利用深层次的网络提取语义特征并且进行深层次特征和浅层次特征的融合，但这依然没有摆脱网络主要依赖语义信息的弊端，并且不同尺度的特征可以理解为图像的不同缩放尺寸经过网络的结果，缩放尺寸后的图像和原始图像的质量会存在差异，这会严重影响质量评价的效果。有鉴于此，本发明实施例旨在提供一种图像评价方法，以在图像质量评价时使用更多地图像信息，进而提高图像质量评价的准确性。

图1是本发明实施例的图像评价方法的流程图。如图1所示，本实施例中的图像评价方法包括以下步骤。

在步骤S100，获取目标文件。

本实施例中，目标文件为待进行质量评价的质量有损伤或失真的文件，目标文件的形式可以为图像或者视频。

在步骤S200，对目标文件进行预处理，确定对应的至少一个输入图像。其中，输入图像与目标文件中的图像块相对应，图像块与目标文件中的局部图像相对应。

本实施例中，在一种可选的实现方式中，在目标文件为图像时，直接对目标文件进行裁剪，将目标文件裁剪成多个图像块，也即目标文件对应的图像块。

可选地，本实施例中在对图像形式的目标文件进行裁剪时，以预设滑动窗口对目标文件进行裁剪，预设窗口的格式可设置为H×W大小。进一步地，本实施例中可以从目标文件的左上角开始，以预设窗口的方式对目标文件进行裁剪得到至少一个H×W大小的图像块作为对应于目标文件的输入图像。

在另一种可选的实现方式中，在目标文件为视频图像时，则通过如图2所示的预处理过程对视频形式的目标文件进行处理，包括对目标文件A进行抽帧，确定目标文件对应的帧图像A1、A2、…、An，再对各帧图像分别进行裁剪，确定对应的图像块Pn1、Pn2、…、Pni。

可选地，本实施例中对视频进行抽帧操作时，为提高图像处理效率，根据预设的帧数间隔对目标文件进行抽帧，例如，帧数间隔可以设置为20帧或50帧，也即每隔20帧或50帧抽一次帧。另一可选地，本实施例中在对视频形式的目标文件中的帧图像进行裁剪时，从帧图像的左上角开始，以预设滑动窗口对各帧图像分别进行裁剪，预设窗口的格式可设置为H×W大小，由此，通过上述方法分别对目标文件和帧图像进行处理，能够得到至少一个H×W大小的图像块，并将图像块作为对应帧图像的输入图像。

进一步地，由于所有的视频均是由不同帧的帧图像组成的，视频形式目标文件的处理过程会涵盖图像形式目标文件的处理过程，因此，本实施例中后面内容中主要以目标文件为视频为例进行说明。

可选地，为更好地适应视频图像质量评价任务，重点关注细节纹理信息特点，同时充分考虑人眼观看视频的感知特性，本实施例中还会对目标文件中的原视频信号进行电光转换计算，通过CIE Yxy颜色模型(也即色度图)对图像中的色彩进行可视化，能够使得目标文件中的图像信息更加情况地表现，并用于后续的质量评价分析，进一步提高图像评价的准确性。对应地，本实施例中基于如图3所示的处理过程来确定目标文件对应的输入图像。

在步骤S210，对目标文件进行预处理，确定目标文件对应的至少一个图像块。

本实施例中，目标文件的预处理过程包括抽帧和裁剪，抽帧用于从目标文件中抽取特定视频帧下的帧图像，裁剪用于从帧图像中分离出图像块。可选地，本实施例中采用前述的抽帧方法和裁剪方法对目标文件进行处理，这里不再赘述。

在步骤S220，对各图像块进行电光转换计算，确定对应的输入图像。

本实施例中，根据目标文件对应的视频格式对各图像块进行电光转换计算，不同视频格式对应有不同的电光转换公式。进一步地，本实施例在确定图像块对应的输入图像时，基于目标文件的图像格式确定对应色域及动态范围规范下的电光转换公式，再基于电光转换公式对图像块进行转换，确定对应的输入图像。例如，对于SDR/BT.709格式的视频，采用ITU-R BT.709规定的EOTF公式进行转换；对于HDR/BT.2020格式的视频，则采用ITU-RBT.2100规定的EOTF公式进行转换。需要说明的是，不同电光转换公式的转换结果对测试方法的精度产生的影响是不同的。

在步骤S300，基于预先训练得到的图像评价模型对输入图像进行处理，确定对应输入图像的质量评价分数。

本实施例中，图像评价模型包括特征提取网络和深度自注意力变换神经网络。在确定输入图像的质量评价分数时，首先基于预先训练得到的图像评价模型中的特征提取网络对输入图像进行特征提取，以确定输入图像对应的特征图，再基于预先训练得到的图像评价模型中的深度自注意力变换神经网络对特征图中的特征点位置和特征向量进行计算分析，确定输入图像的质量评价分数。

可选地，由于特征提取网络输出的特征图对应的通道数量与深度自注意力变换神经网络中处理的通道数量可能存在差异，为保证输入图像中相关特征的顺利提取和处理，本实施例中在基于预先训练得到的图像评价模型中的特征提取网络对输入图像进行特征提取，以确定输入图像对应的特征图时，会基于预先训练得到的图像评价模型中的特征提取网络对输入图像进行特征提取，确定预设通道数下的特征图；对预设通道数下的特征图进行特征映射，确定目标通道数下的特征图。进一步地，特征映射可以通过二维卷积操作来实现。

进一步地，本实施例中的特征提取网络采用ResNet-50，深度自注意力变换神经网络采用Transformer网络。其中，ResNet-50是ResNet系列中的一种深度残差网络，通常由50个卷积层组成，包括一个7×7的卷积层和一个全局平均池化层。ResNet-50的核心是残差模块，它是由两个卷积层和一个快捷连接组成的。快捷连接允许信息在网络中跳跃传递，从而避免了梯度消失和梯度爆炸问题，使得网络可以更深更容易地训练。ResNet-50的训练过程通常使用随机梯度下降(SGD)优化器和交叉熵损失函数，还会使用数据增强和批量归一化等技术来提高模型的性能和鲁棒性，在识别图像、物体检测和图像分割等任务中能够表现出很好的性能。Transformer是一种基于自注意力机制(Self-Attention)的神经网络模型，主要由编码器和解码器两部分组成，它们都是由多个层级堆叠而成，每个层级包含了一个多头自注意力机制和全连接前馈网络。在编码器中，输入的序列经过多个层级的处理后，被转化为一组高级特征，这些特征可被用于各种自然语言处理任务。在解码器中，这些高级特征被用于生成目标语言的序列。自注意力机制是Transformer的核心，它通过计算输入序列中不同位置之间的关联性来构建特征表示，而不是像传统RNN或CNN一样依赖于固定的窗口大小或者序列顺序。这种注意力机制能够更灵活地捕捉序列中不同位置之间的依赖关系，并且可以并行计算，因此Transformer在处理长序列时有着较好的性能。Transformer被证明是一种高效、灵活、可扩展的模型，已经在自然语言处理领域取得了广泛应用，并且在其他领域如计算机视觉中也已经得到了探索和应用。由此，本实施例中采用两种优秀的神经网络模型ResNet-50和深度自注意力变换神经网络来对目标文件图像块中的特征信息进行提取，能够对图像评价模型进行优化，使得图像评价模型具有远超于卷积神经网络的特征提取能力，提取更多地图像信息进行特征点位置和特征向量的计算分析以及质量评价，同时减少信息丢失和信息不全面对图像质量评价的影响，进而提高图像评价的准确性。

图4是本发明实施例的图像质量评价网络的处理过程的示意图。如图4所示，本实施例中将目标文件对应的图像块P经电光转换后得到的图像块P'输入到特征提取网络。其中，图像块P的图像格式为YUV或RGB，图像尺寸为H×W，对应图像像素通道数目为3。经电光转换后生成更能描述人视觉感应的图像块P'，且图像尺寸和通道数量相比于图像块P保持不变。特征提取网络对图像块P'进行多层特征提取后得到特征图B，特征图B的图像尺寸变成图像块P'的1/32，通道数也从原有的3通道丰富为2048个通道。之后，通过二维的卷积层对特征图B进行特征映射，卷积的输出通道为32，卷积核尺寸为1×1，便得到尺寸不变、通道数为32的特征图B'。最后，将特征图B'输入至转换器网络，也即将特征图B'上的每个像素点的位置信息和所有通道信息输入至转换器网络结构的编码器中，学习每个像素位置的相互关系，并基于多头注意力机制输出回归得到的对应图像块的质量评价分数。

可选地，本实施例中基于图5所示的步骤对图像评价模型进行训练，以对图像评价模型作进一步优化，提高图像评价模型的整体性能。

在步骤S310，获取训练数据集。

本实施例中，训练数据集包括预训练数据集和精调数据集。其中，预训练数据集包括多个具有客观标签的输入图像，精调数据集包括多个具有主观标签的输入图像。

可选地，本实施例中在获取训练数据集时，首先获取失真视频，对失真视频进行抽帧处理，得到抽帧图像序列，再将抽帧图像序列中的每一个帧图像按照预设的裁剪方式(例如，通过中心裁剪的方式裁剪得到H×W大小的图片)进行图像块裁剪，得到对应的图像块。之后，根据视频格式对裁剪得到的图像块进行相应的电光转换，并将电光转换后的图像块作为训练数据集中的输入图像。进一步地，图像预处理完成后，将每个视频的客观标签和主观标签分别赋予由该视频经抽帧和裁剪后得到的图像块中，并生成训练数据集中的预训练数据集和精调数据集。具体地，每个输入图像的客观标签为该输入图像对应图像块所属视频的客观标签，且每个输入图像与对应的客观标签一起构成预训练数据集中的数据。每个输入图像的主观标签为该输入图像对应图像块所属视频的主观标签，且每个输入图像与对应的主观标签一起构成精调数据集中的数据。

可选地，本实施例中的客观标签根据客观指标的值确定。客观指标为无参考质量客观指标，用来评估数字图像的视觉质量，包括但不限于NIQE、BRISQUE等。同时，本实施例中的主观标签根据主观指标的值确定。主观指标为无参考质量主观指标，用来评估数字图像的视觉质量，可以是MOS或者其它指标。进一步地，本实施例中的客观标签可以是客观指标和客观指标的数值形成的标签，例如，NIQE＝6；也可以根据客观指标的值所属取值范围表征的标签属性来确定，例如，由于一般情况下NIQE值位于0-10时表征图像质量较好，因此，在NIQE值为0-10之间的取值时，将对应图像的客观标签设置为“图像质量良好”，当NIQE值超过10时，则将对应图像的客观标签设置为“图像质量差”。同时，主观标签可以是主观指标和主观指标的数值形成的标签，例如MOS＝5；也可以根据主观指标的值所属取值范围表征的标签属性来确定，例如，在主观指标值MOS大于4.5时，将对应图像的主观标签设置为“图像质量好”。由此，通过上述方法实现客观标签和主观标签的设置，使得客观标签和主观标签的设置更加灵活和方便。

进一步地，本实施例中的客观指标的值可以根据对应的评估器来确定。例如，客观指标NIQE和BRISQUE可通过对应的NIQE评估器和BRISQUE评估器来确定。其中，NIQE评估器(Natural Image Quality Evaluator，自然图像质量评估器)是一种基于图像统计特征来评估图像质量的评估器，通过计算图像的局部统计特征，包括对比度、锐度和色彩饱和度等来量化图像的质量，NIQE分值越低，表明图像的视觉质量越高。一般认为NIQE得分在0-10之间的图像质量良好，得分超过10则表示图像质量较差。BRISQUE评估器(Blind/Referenceless Image Spatial Quality Evaluator，基于区域的图像质量评估器)也是一种基于图像统计特征的评估器，使用图像的空间信息来提取特征，然后使用这些特征来计算图像的质量评分。同时，主观指标MOS(Mean Opinion Score，平均意见分数)是一种用于主观图像和音频质量评估的标签，通过人类评审者的主观评估来确定图像或音频质量的标准。在MOS评估中，一组评审者被要求评估一个或多个图像或音频文件，并给出一个0到100的分数，表示它们对质量的整体印象。这些分数被平均计算得出一个MOS得分，这个得分通常被视为对该文件质量的一个客观评估。由此，本实施例中通过上述方法确定训练数据集中各图像的客观标签或主观标签，进而确定训练数据集中的预训练数据集和精调数据集，处理过程简洁方便且结果可靠有利于提高图像评价模型的训练效率和输出结果的准确性，进而能够提高目标文件的图像评价效率和图像评价结果的准确性。

可选地，为进一步提升图像评价模型的准确性，本实施例中的训练数据集对应的输入图像的数量以及输入图像内容覆盖的典型场景要尽可能多，例如，训练数据集覆盖至少覆盖10种以上典型场景，包括室内、室外、建筑物、人物、自然景物等。同时，本实施例中预训练数据集中的输入图像的数量至少为10000个。精调数据集对应的输入图像的数量至少为300个。但需要说明的是，以上数值仅为示例，在保证图像评价准确性的处理效率的基础上，可以根据实际应用场景进行调整，这里并不对此进行限制。

在步骤S320，将预训练数据集中的输入图像输入至预设的图像评价模型中进行训练，确定预训练模型。

本实施例中，在确定预训练数据集和图像评价模型结构后(图像评价模型结构在前面已经介绍，这里不再赘述)，将预训练数据集中的输入图像输入至预设的图像评价模型中进行训练，并将训练得到的具有一定模型参数的图像评价模型确定为预训练模型。

可选地，本实施例中使用Adam更新策略和L1损失函数(用于衡量模型预测分数与目标分数的差异)对预设的图像评价模型进行训练，学习率采用梯度衰减的方式，图像评价模型中的特征提取网络的初始学习率设置为0.01，转换器网络的初始学习率设置为0.0001。由此，本实施例中通过上述方法对预设的图像评价模型进行训练，确定预训练模型，使得图像评价模型能够提取和使用更多的图像特征进行图像评价，有利于提高图像评价的鲁棒性。

在步骤S330，将精调数据集中的输入图像输入至预训练模型中进行训练，以确定预先训练得到的图像评价模型。

本实施例中，在确定精调数据集和预训练模型后，首先加载预训练的模型参数，再将精调数据集中的输入图像输入至预训练模型中进行训练，以对预训练模型中的模型参数进行优化调整，并将优化调整后的预训练模型确定为预先训练得到的图像评价模型，应用于图像评价处理过程中。由此，本实施例中采用预训练和精调相结合的方式训练和优化得到图像评价模型，能够进一步提升图像评价模型的整体性能。

可选地，本实施例中使用Adam更新策略和L1损失函数对预设的图像评价模型进行训练，学习率采用梯度衰减的方式，图像评价模型中的特征提取网络的初始学习率设置为0.01，转换器网络的初始学习率设置为0.00001。由此，本实施例中通过上述方法对已经训练好的预训练模型进行优化训练，进而确定出能够用于图像评价过程的图像评价模型，能够提高图像评价模型的泛化性能和可靠性。

可选地，本实施例中，在确定出预先训练得到的图像评价模型后，还会对该模型进行验证。验证过程采用测试视频完成，测试视频包括300个不同失真等级的4K超高清视频。在对图像评价模型进行效果测试时，可将测试视频随机分为5组，编号为组1、组2、组3、组4、组5，每组60个视频，指定其中一组作为测试集，其余4组为精调训练集，以此进行5轮测试，得到每轮测试后的图像评价模型输出结果(也即客观评价结果)，并在确定每轮测试后的客观评价结果(图像评价模型输出结果)与实际主观评价结果的相关性系数(如，PLCC、SRCC等)后，对各相关性系数取平均值，将平均值确定为当前训练好的图像评价模型的模型效果。

进一步地，为提高图像评价模型在不同形式输入图像下的模型效果的测量准确性，本实施例中在对预先训练得到的图像评价模型进行测试时，也可以先根据测试视频中的测试集之外的其他组视频对模型进行精调训练，训练完成后再基于测试集进行测试。例如，在以组5为测试集时，先将组1、组2、组3、组4合成为训练集，包括240个视频。用训练集中的图像对预先训练得到的图像评价模型再次进行精调训练，训练策略可采用与前述相同的方法。图像评价模型训练完成后，用组5中的视频对图像评价模型进行测试。由此，完成图像评价模型的一轮测试，还可以调整训练集和测试机的构成完成多轮次测试，进而根据每轮测试的模型输出结果确定图像评价模型的整体效果。

相比于现有技术中使用的NIQE模型，本实施例中通过训练得到的图像评价模型输入图像进行质量评价得到的质量评价分数与实际主观评价结果的相关性系数更高，也即通过本实施例中的图像评价模型得到的图像评价结果准确性更高。并且，相比于YUV输入形式和RGB输入形式的图像块作为输入图像时的模型输出结果，将图像块经电光转换后生成的图像作为输入图像时对应的图像评价结果准确性更高，也即采用电光转换后的输入图像形式有利于进一步提升图像评价的准确性。

在步骤S400，根据各输入图像的质量评价分数确定目标文件的质量评价分数。

本实施例中，在通过预先训练得到的图像评价模型确定目标文件中各输入图像的质量评价分数后，根据各输入图像的质量评价分数确定对应目标文件的质量评价分数。在一种可选的实现方式中，在目标文件为视频时，目标文件包括多个帧图像。在确定目标文件的质量评价分数时，本实施例中先根据各帧图像对应的各图像块的质量评价分数确定对应的帧图像的质量评价分数，再根据各帧图像的质量评价分数确定目标文件对应的质量评价分数。

可选地，本实施例中，首先会对帧图像对应的各输入图像的质量评价分数进行统计计算，确定对应的帧图像的质量评价分数；再对各帧图像的质量评价分数进行统计计算，确定目标文件的质量评价分数。其中，统计计算包括取平均值、取最大值、取最小值、取中位数或取众数。具体地，本实施例中的统计计算采用取平均值的方法。假设目标文件A包括帧图像A1、A2、…、An，目标文件的质量评价分数为S，各帧图像对应的质量评价分数分别为S1、S2、…、Sn，各帧图像An对应的图像块包括Pn1、Pn2、…、Pni，各图像块对应的质量评价分数为Sn1、Sn2、…、Sni；由此可确定各帧图像的质量评价分数Sn为(Sn1+Sn2+…+Sni)/i，目标文件对应质量评价分数S为(S1+S2+…+Sn)/n。

在另一种可选的实现方式中，在目标文件为图像时，由于目标文件被裁剪为多个输入图像，可以对目标文件中各输入图像的质量评价分数进行统计计算，并将统计计算结果确定为目标文件的质量评价分数。其中，本实施例中的统计计算采用前述相同的方法，这里不再赘述。

本实施例的技术方案通过对获取到的目标文件进行预处理，确定至少一个与目标文件中的图像块相对应的输入图像，基于预先训练得到的图像评价模型中的特征提取网络和深度自注意力变换神经网络分别对输入图像进行特征提取确定输入图像对应的特征图，并对特征图中的特征点位置和特征向量进行计算分析，确定输入图像的评价分数，再根据各输入图像的质量评价分数确定目标文件的质量评价分数。由此，通过特征提取网络和深度自注意力变换神经网络对输入图像进行处理，使得图像质量评价过程能够涉及的输入图像信息更加完整，能够提高图像质量评价的准确性。同时，通过采用预训练和精调相结合的训练方法对图像评价模型进行训练，在保证图像评价模型输出结果准确性的同时，能够使得图像评价模型具有更强的泛化性能，提高图像评价模型和对应图像评价方法的适用性能。并且，本实施例中通过对目标文件的图像块进行电光转换计算，使得图像评价模型处理的输入图像能够包含目标文件中更多的纹理信息，有利于进一步提高图像评价结果的准确性。

图6是本发明实施例的图像处理装置的示意图。如图6所示，本实施例中的图像处理装置包括文件获取单元1、图像处理单元2、特征处理单元3和质量评价单元4。其中，文件获取单元1用于获取目标文件，所述目标文件为图像或视频。图像处理单元2用于对所述目标文件进行预处理，确定对应的至少一个输入图像，所述输入图像与所述目标文件中的图像块相对应。特征处理单元3用于基于预先训练得到的图像评价模型中的特征提取网络对所述输入图像进行特征提取，以确定所述输入图像对应的特征图；以及基于预先训练得到的图像评价模型中的深度自注意力变换神经网络对所述特征图中的特征点位置和特征向量进行计算分析，确定所述输入图像的质量评价分数。质量评价单元4用于根据各所述输入图像的质量评价分数确定所述目标文件的质量评价分数。

可选地，如图6所示，本实施例中的图像处理装置还包括训练单元5。其中，训练单元5用于获取训练数据集，将预训练数据集中的输入图像输入至预设的图像评价模型中进行训练，确定预训练模型；将精调数据集中的输入图像输入至预训练模型中进行训练，以确定预先训练得到的图像评价模型。其中，训练数据集包括预训练数据集和精调数据集，预训练数据集包括多个具有客观标签的输入图像，精调数据集包括多个具有主观标签的输入图像。

可选地，本实施例中的图像处理单元2还用于对目标文件进行预处理，确定目标文件对应的至少一个图像块，对各图像块进行电光转换计算，确定对应的输入图像。其中，在目标文件为视频时，预处理包括对目标文件进行抽帧，确定目标文件对应的帧图像；以及对各帧图像分别进行裁剪，确定对应的图像块。进一步地，在对各图像块进行电光转换计算，确定对应的输入图像时，具体用于基于目标文件的图像格式确定对应的色域及动态范围规范下的电光转换公式，基于电光转换公式对图像块进行转换，确定对应的输入图像。

可选地，本实施例中的特征处理单元3还用于基于预先训练得到的图像评价模型中的特征提取网络对输入图像进行特征提取，确定预设通道数下的特征图；以及对预设通道数下的特征图进行特征映射，确定目标通道数下的特征图。

可选地，本实施例中的质量评价单元4具体用于对帧图像对应的各输入图像的质量评价分数进行统计计算，确定对应的帧图像的质量评价分数；对各帧图像的质量评价分数进行统计计算，确定目标文件的质量评价分数。

图7是本发明实施例的电子设备的示意图。如图7所示，图7所示的电子设备为通用地址查询装置，其包括通用的计算机硬件结构，其至少包括处理器71和存储器72。处理器71和存储器72通过总线73连接。存储器72适于存储处理器71可执行的指令或程序。处理器71可以是独立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器71通过执行存储器72所存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线73将上述多个组件连接在一起，同时将上述组件连接到显示控制器74和显示装置以及输入/输出(I/O)装置75。输入/输出(I/O)装置75可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地，输入/输出装置75通过输入/输出(I/O)控制器76与系统相连。

本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例，并不用于限制本申请，对于本领域技术人员而言，本申请可以有各种改动和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种无参考图像评价方法，其特征在于，所述方法包括：

获取目标文件，所述目标文件为图像或视频；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标文件进行预处理，确定对应的至少一个输入图像包括：

对各所述图像块进行电光转换计算，确定对应的输入图像。

4.根据权利要求1所述的方法，其特征在于，所述对所述图像块进行电光转换计算，确定对应的输入图像包括：

5.根据权利要求1所述的方法，其特征在于，在所述目标文件为视频时，所述预处理包括：

对各所述帧图像分别进行裁剪，确定对应的图像块。

6.根据权利要求1所述的方法，其特征在于，在所述目标文件为视频时，所述目标文件包括至少一个帧图像，所述根据各所述输入图像的质量评价分数确定所述目标文件的质量评价分数包括：

7.根据权利要求1所述的方法，其特征在于，所述基于预先训练得到的图像评价模型中的特征提取网络对所述输入图像进行特征提取，以确定所述输入图像对应的特征图包括：

8.一种无参考图像评价装置，其特征在于，所述装置包括：

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法步骤。