CN117115600A

CN117115600A - 无参考图像质量评价的方法、装置及电子设备

Info

Publication number: CN117115600A
Application number: CN202311141259.3A
Authority: CN
Inventors: 宗孝鹏; 于忠杰; 韩晓明; 夏洪军; 钟昊
Original assignee: Jiaxun Feihong Beijing Intelligent Technology Research Institute Co ltd
Current assignee: Jiaxun Feihong Beijing Intelligent Technology Research Institute Co ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-11-24

Abstract

本发明提供了一种无参考图像质量评价的方法、装置及电子设备，方法包括：将待评价的无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，以输出无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数；多个维度的质量评分分数包括：亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数；按预设权重系数，将每个维度的质量评分分数分别与整体质量评分分数进行加权计算，得到无参考图像数据对应多个维度的质量终极评分分数。该方式中，通过多模态质量评价模型，可以输出无参考图像数据对应多个维度的质量终极评分分数，对无参考图像进行细颗粒度评价，从而提高无参考图像质量评价准确性。

Description

无参考图像质量评价的方法、装置及电子设备

技术领域

本发明涉及图像处理和计算机视觉技术领域，尤其是涉及一种无参考图像质量评价的方法、装置及电子设备。

背景技术

在深度学习图像算法领域中，输入图像质量的好坏直接影响到图像算法的准确率，虽然现在存在很多图像质量评价方法，但是，要么需要原始图像与改善图像间的对比，得出评价结果，要么仅仅是针对图像的整体质量或者美学上进行单一评价，而没有对图像进行细颗粒度评价，因此不能涵盖全方位的图像质量评价，导致图像质量评价缺乏准确性，对CV(Computer Vision，计算机视觉)领域的希望通过图像质量改善来提供模型准确率并无太大实质性帮助。

发明内容

有鉴于此，本发明的目的在于提供一种无参考图像质量评价的方法、装置及电子设备，以提高无参考图像质量评价准确性。

第一方面，本发明实施例提供了一种无参考图像质量评价的方法，方法包括：

获取待评价的无参考图像数据；

将无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，以通过多模态质量评价模型输出无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数；其中，多个维度的质量评分分数包括：亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数；

按预设权重系数，将每个维度的质量评分分数分别与整体质量评分分数进行加权计算，得到无参考图像数据对应多个维度的质量终极评分分数；其中，多个维度的质量终极评分分数包括：亮度终极评分分数、对比度终极评分分数、清晰度终极评分分数、色彩终极评分分数、噪声终极评分分数。

进一步的，多模态质量评价模型至少包括：语言模型和视觉自注意力模型；

语言模型用于对参数文本进行文本编码，得到编码文本；其中，编码文本包括多个参数对；

视觉自注意力模型用于提取输入的无参考图像数据的特征信息，并基于特征信息、多个参数对和SoftMax函数，输出无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数。

进一步的，视觉自注意力模型包括：划分模块、特征提取模块和多维度评分计算模块；

划分模块用于对输入的无参考图像数据进行图像补丁划分、线性变换和维度压缩处理，得到多个预设大小的补丁块；

特征提取模块用于采用多头注意力机制提取多个补丁块的特征信息；

多维度评分计算模块用于将特征信息与多个参数对分别进行余弦相似度计算，得到每个参数对对应的第一评分结果，并基于第一评分结果和SoftMax函数计算得到每个维度对应的质量评分分数；其中，维度与参数对相对应。

进一步的，视觉自注意力模型还包括：整体评分计算模块；

整体评分计算模块包括依次连接的层归一化层、第一层全连接层、深度卷积层和第二层全连接层；

层归一化层用于对特征提取模块提取的特征信息进行归一化处理，得到标准特征信息；

第一层全连接层用于对标准特征信息进行特征映射处理，得到第一整合特征信息；

深度卷积层用于增加归纳偏置，以从第一整合特征信息中提取第二整合特征信息；

第二层全连接层用于对第二整合特征信息进行特征映射处理，得到第三整合特征信息。

进一步的，整体评分计算模块还包括：与第二层全连接层相连接的第三全连接层；其中，第三全连接层包括多层全连接层；

第三全连接层用于基于预设分数范围和第三整合特征信息，输出预设分数范围中的每个预设分数对应的概率，并基于概率和每个预设分数计算无参考图像数据的整体质量评分分数。

进一步的，多模态质量评价模型通过下述方式训练得到：

基于预设的训练样本集确定样本图像；其中，样本图像携带有多维度标签和整体标签；其中，多维度标签包括：亮度标签、对比度标签、清晰度标签、色彩标签、噪声标签；

将样本图像输入至初始模型中，以通过初始模型输出预测结果；

基于预测结果、多维度标签和整体标签，更新初始模型的权重参数；继续执行基于预设的训练样本集确定样本图像的步骤，直到初始模型收敛，得到多模态质量评价模型。

进一步的，预测结果包括：整体质量评分预测分数、多维度质量评分预测分数；

基于预测结果、多维度标签和整体标签，更新初始模型的权重参数的步骤包括：

基于整体质量评分预测分数和整体标签，确定第一损失值；

基于多维度质量评分预测分数和多维度标签，确定第二损失值；

基于第一损失值和第二损失值更新初始模型的权重参数。

第二方面，本发明实施例提供了一种无参考图像质量评价的装置，装置包括：

获取模块，用于获取待评价的无参考图像数据；

输出模块，用于将无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，以通过多模态质量评价模型输出无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数；其中，多个维度的质量评分分数包括：亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数；

加权模块，用于按预设权重系数，将每个维度的质量评分分数分别与整体质量评分分数进行加权计算，得到无参考图像数据对应多个维度的质量终极评分分数；其中，多个维度的质量终极评分分数包括：亮度终极评分分数、对比度终极评分分数、清晰度终极评分分数、色彩终极评分分数、噪声终极评分分数。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述任一项的无参考图像质量评价的方法。

第四方面，本发明实施例提供了一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述任一项的无参考图像质量评价的方法。

本发明提供的无参考图像质量评价的方法、装置及电子设备，方法包括：将待评价的无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，以输出无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数；多个维度的质量评分分数包括：亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数；按预设权重系数，将每个维度的质量评分分数分别与整体质量评分分数进行加权计算，得到无参考图像数据对应多个维度的质量终极评分分数。该方式中，通过多模态质量评价模型，可以输出无参考图像数据对应多个维度的质量终极评分分数，对无参考图像进行细颗粒度评价，从而提高无参考图像质量评价准确性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种无参考图像质量评价的方法的流程图；

图2为本发明实施例提供的另一种无参考图像质量评价的方法的流程图；

图3为本发明实施例提供的一种训练样本集示意图；

图4为本发明实施例提供的一种多模态质量评价模型的网络结构示意图；

图5为本发明实施例提供的一种无参考图像质量评价的结构示意图；

图6为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在深度学习图像算法领域中，输入图像质量的好坏直接影响到图像算法的准确率，目前图像质量评价方法主要分为三种；无参考图像质量评价(NR-IQA)是指在没有任何参考图像的情况下对图像质量进行评价的方法；半参考图像质量评价(RR-IQA)是指在有一些参考信息的情况下对图像质量进行评价的方法；全参考图像质量评价(FR-IQA)是指在有完整参考图像的情况下对图像质量进行评价的方法。FR-IQA方法无法直接应用在图像质量改善前，只能用于评估改善图像与原始图像的差异效果，而RR-IQA也需要图像信息辅助，在CV领域应用中，基本无法提前获取信息，所以主要应用NR-IQA方法，但目前NR-IQA方法基本上只关注图像整体特征评价，而没有对图像进行细颗粒度评价，导致图像质量评价缺乏准确性，对CV领域的希望通过图像质量改善来提供准确率也并无太大实质性帮助。

基于此，本发明实施例提供了一种无参考图像质量评价的方法、装置及电子设备，该技术可以应用于需要评价图像质量的应用中，尤其可以应用于对无参考图像质量评价的应用中。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种无参考图像质量评价的方法进行详细介绍，如图1所示，该方法包括如下步骤：

步骤S102，获取待评价的无参考图像数据。

上述待评价的无参考图像数据可以是照片，也可以是图片等不同形式；在实际实现时，当需要对无参考图像数据的质量进行评价时，通常需要先获取到待评价的无参考图像数据。

步骤S104，将无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，以通过多模态质量评价模型输出无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数；其中，多个维度的质量评分分数包括：亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数。

上述多模态质量评价模型中通常包含语言模型和视觉自注意力模型等；上述整体质量评分分数可以理解为，采用计算机视觉等技术，根据输入的无参考图像数据自动估计出的该无参考图像数据的整体质量评分；上述多个维度的质量评分分数可以理解为，采用计算机视觉、文本编码等技术，根据输入的无参考图像数据和预先设置的参数文本自动估计出的该无参考图像数据的多个维度的质量评分。

上述多个维度一般可以包括亮度、对比度、清晰度、噪声、色彩这五个方面，因此，多个维度的质量评分分数一般可以包括亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数。

在实际实现时，当获取到待评价的无参考图像数据后，将该无参考图像数据和参数文本输入至预先训练完成的多模态质量评价模型中，该多模态质量评价模型根据语言模型和视觉自注意力模型对参数文本和无参考图像数据进行处理，输出该无参考图像数据的整体质量评分分数和多个维度的质量评分分数。

步骤S106，按预设权重系数，将每个维度的质量评分分数分别与整体质量评分分数进行加权计算，得到无参考图像数据对应多个维度的质量终极评分分数；其中，多个维度的质量终极评分分数包括：亮度终极评分分数、对比度终极评分分数、清晰度终极评分分数、色彩终极评分分数、噪声终极评分分数。

在实际实现时，当获取到待评价的无参考图像数据的整体质量评分分数和多个维度的质量评分分数后，需要对图像质量增强时，如果单纯从细粒度评价(包括亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数)获得参考，并根据每个维度得分单独调整该维度，可能会导致其他方面的问题，达不到理想效果，例如，在根据亮度评分分数调整夜间图像亮度时，可能导致噪声的提高，因此在图像质量评价时，通常也需考虑图像整体质量，并根据整体质量来适应性的调整图像细粒度方面的评分值，比如图像整体得分低的情况下，在单纯的噪声评分基础上，进一步下调该得分，通过这种方式可以使得图像质量在后续增强过程中，能够更加精确。

具体的，当获取到待评价的无参考图像数据的整体质量评分分数和多个维度的质量评分分数后，可以将两部分的得分进行加权平均，分别得到各个维度的最终得分。

本发明实施例提供的一种无参考图像质量评价的方法，将待评价的无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，以输出无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数；多个维度的质量评分分数包括：亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数；按预设权重系数，将每个维度的质量评分分数分别与整体质量评分分数进行加权计算，得到无参考图像数据对应多个维度的质量终极评分分数。该方式中，通过多模态质量评价模型，可以输出无参考图像数据对应多个维度的质量终极评分分数，对无参考图像进行细颗粒度评价，从而提高无参考图像质量评价准确性。

本发明实施例提供了另一种无参考图像质量评价的方法，该方法在上述实施例方法的基础上实现；该方法重点描述了多模态质量评价模型的相关特征，以及多模态质量评价模型的训练过程，如图2所示，该方法包括如下步骤：

步骤S202，基于预设的训练样本集确定样本图像；其中，样本图像携带有多维度标签和整体标签；其中，多维度标签包括：亮度标签、对比度标签、清晰度标签、色彩标签、噪声标签。

上述训练样本集中通常包括大量样本图像，该样本图像用于对多模态质量评价模型的初始模型进行训练；上述多维度标签可以理解为，对样本图像的每个维度的真实质量评分进行标注的结果，如亮度标签可以是5或6等；上述整体标签可以理解为，对样本图像的全局特征(图像整体)的真实质量评分进行标注的结果；上述多维度标签和整体标签可以根据实际需求选择适合的标注方式；在实际实现时，当需要对初始模型进行训练时，通常需要收集大量的无参考图像数据，并对该人无参考图像数据进行人工标注(例如采集各种质量的图像，寻找若干人，分别对每一张图像从亮度、对比度、清晰度、色彩、噪声五个维度进行打分，同时对图像整体质量打一个分，然后分别求取平均分，其中，工作人员可以根据自己对图像的感知打分，分数值从1-10，以亮度为例，1为最暗，10为最亮)，得到数据集Data，按照预设比例，从该数据集Data中划分出训练样本集Data1，并基于该训练样本集，确定样本图像。

比如，将所收集的大量无参考图像数据中，每张无参考图像用X表示，X∈R^H×W×3，其中H表示高度，W表示宽度，3表示RGB(R表示Red，红色；G表示Green，绿色；B表示Blue，蓝色)三个通道，R表示训练样本集；针对每一张无参考图像X，由n个人分别对该无参考图像的整体质量评分，以及每个维度的质量评分进行标注，得到6n个标注结果每一个标注结果可以是1到10之间的数，分别代表1到10分。取/>的平均a作为该无参考图像X最终的整体质量评分标注结果、/>的平均b作为该无参考图像X最终的亮度质量评分标注结果、/>的平均c作为该无参考图像X最终的对比度质量评分标注结果、/>的平均d作为该无参考图像X最终的清晰度质量评分标注结果、/>的平均e作为该无参考图像X最终的色彩质量评分标注结果、的平均f作为该无参考图像X最终的噪声质量评分标注结果。

在对上述大量的无参考图像数据完成整体质量评分标注和每个维度的质量评分标注之后，得到数据集Data，将该数据集Data按照8:2的比例划分为训练样本集Data1和测试样本集Data2，具体划分比例也可以根据实际需求进行设置，在此不作限定。

具体的，可以参见如图3所示的一种训练样本集示意图，该训练样本集可以理解为是excel表格形式的数据文件，包括已完成标注的多个无参考图像。

步骤S204，将样本图像输入至初始模型中，以通过初始模型输出预测结果。

上述初始模型可以是改进的VIT(Vision Transformer)模型网络架构；当完成初始模型的网络架构设计后，随机初始化该初始模型中的所有参数W，如初始模型中的卷积核参数等；在基于预设的训练样本集确定样本图像后，将该样本图像和预先设置的参数文本输入至初始模型中，通过该初始模型提取出该样本图像的细节特征，根据所提取出的细节特征，得到输出预测结果；其中，该参数文本包括多个参数对，每个参数对对应一个维度(比如，如果想要从5个维度上评价无参照图像，则可以对应设置5个参数对)。

步骤S206，基于预测结果、多维度标签和整体标签，更新初始模型的权重参数；继续执行基于预设的训练样本集确定样本图像的步骤，直到初始模型收敛，得到多模态质量评价模型。

上述权重参数可以包括初始模型中的所有参数，如卷积核参数等；在对初始模型进行训练时，通常需要基于上述输出预测结果、多维度标签和整体标签，更新初始模型中的所有参数，以对该初始模型进行训练。然后继续执行基于预设的训练样本集确定样本图像的步骤，直到初始模型收敛，最终得到训练完成的多模态质量评价模型。

实际实现时，上述基于预测结果、多维度标签和整体标签，更新初始模型的权重参数的步骤可以通过以下步骤一至步骤三实现：

步骤一：基于整体质量评分预测分数和整体标签，确定第一损失值。

上述输出预测结果可以包括整体质量评分预测分数、多维度质量评分预测分数。

上述初始模型包括划分模块、特征提取模块、整体评分计算模块和多维度评分计算模块；划分模块用于对输入的样本图像进行图像补丁划分、线性变换和维度压缩处理，得到多个预设大小的补丁块；特征提取模快用于采用多头注意力机制提取多个补丁块的特征信息；多维度评分计算模块用于将特征信息与多个参数对分别进行余弦相似度计算，得到每个参数对对应的第一评分结果，并基于第一评分结果和SoftMax函数计算得到每个维度对应的质量评分分数(相当于多维度质量评分预测分数)；整体评分计算模块用于基于样本图像的多个补丁块的特征信息输出预设分数范围中的每个预设分数对应的概率(相当于得到整体质量评分分数预测的概率分布)，并基于概率和每个预设分数计算样本图像的整体质量评分分数(相当于整体质量评分预测分数)。

步骤二：基于多维度质量评分预测分数和多维度标签，确定第二损失值。

步骤三：基于第一损失值和第二损失值更新初始模型的权重参数。

具体的，上述第一损失值可以用于表示样本图像的整体质量评分预测分数与相应的整体标签之间的差异；上述第二损失值可以用于表示样本图像的多维度质量评分预测分数与相应的多维度标签之间的差异；在实际实现时，当将训练样本集中的一张样本图像输入至初始模型后，可以得到两个预测结果，分别为整体质量评分预测分数和多维度质量评分预测分数；其中，多维度质量评分预测分数通常包括5个维度的质量评分预测分数，因此第二损失值可以理解为是每个维度的质量评分预测分数参数与对应维度的标签之间的差值绝对值相加之后的结果。

上述预设分数范围一般可以设置为[1,10]，计算[1,10]中的每个预设分数对应的概率与对应的预设分数的乘积之和，得到求和结果，该求和结果为样本图像的整体质量评分预测分数)。

实际实现时，计算上述第一损失值时，采用的损失函数，可以为平方EMD(EarthMover's Distance)损失函数，该损失函数在有序类别的分类效果较好，公式如下：

其中p为预测概率，是真实概率，N为有序类别的个数(一般与预设分数范围中的整数数量相对应)，本申请实施例可以为10，r是一个惩罚项。CDF_p(k)为预测分数的概率的累加值，/>为真实评分的概率的累加值。

计算上述第二损失值时，采用的损失函数，可以为交叉熵损失函数，假设基于样本图像输出的多维度质量评分预测分数包括亮度质量评分预测分数b1、对比度质量评分预测分数c1、清晰度质量评分预测分数d1、色彩质量评分预测分数e1、噪声质量评分预测分数f1，则上述第二损失值(用L表示)公式如下：

L1＝|b1-b|+|c1-c|+|d1-d|+|e1-e|+|f1-f|

在实际实现时，当确定第一损失值和第二损失值L1之后，基于该第一损失值和第二损失值，更新初始模型的权重参数；比如，如果得到/>和L1之后，可以确定初始模型的整体损失函数，该初始模型的整体损失函数为/>和L1之和，即/>首先通过反向传播算法求解整体损失函数L对初始模型中所有参数W的导数/>然后通过随机梯度下降算法更新初始模型中的所有参数，如下：

其中，α可以是人工预先设定的超参数，比如，常见的取值为0.01，0.001等。不断迭代地对初始模型的所有参数进行更新，直到收敛，得到训练完成的多模态质量评价模型。

当得到上述训练完成的多模态质量评价模型后，可以通过测试样本集Data2对训练好的多模态质量评价模型的效果进行测试，比如，可以从测试样本集Data2中选择一个测试样本图像，将该测试样本图像输入至训练好的多模态质量评价模型中，得到输出预测结果；将该输出预测结果分别与该测试样本图像的整体标签和多维度标签进行对比，以确认多模态质量评价模型的效果。

步骤S208，获取待评价的无参考图像数据。

步骤S210，将无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，以通过多模态质量评价模型输出无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数；其中，多个维度的质量评分分数包括：亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数。

上述多模态质量评价模型包括：语言模型和视觉自注意力模型；语言模型用于对参数文本进行文本编码，得到编码文本；其中，编码文本包括多个参数对；视觉自注意力模型用于提取输入的无参考图像数据的特征信息，并基于特征信息、多个参数对和SoftMax函数，输出无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数。

上述语言模型可以采用Bert(Bidirectional Encoder Representation fromTransformer，基于Transformer的双向编码器表示)模型，该语言模型可以将文本中各个字或词的一维向量作为模型输入，经过一系列复杂的转换后，输出融合全文语义信息后的一维向量作为文本的语义表示。上述视觉自注意力模型可以采用改进后的VIT模型，该模型可以进行输入图片的特征提取，获取图像整体质量评分和图像在多个维度方面的质量评分。

进一步的，图像特征提取时，上述改进的VIT模型也可以更改为CNN网络(Convolutional Neural Networks，卷积神经网络)，如vgg Visual Geometry Group，视觉几何组)，mobilenet，resnet系列。

实际实现时，上述预先设置的参数文本中可以设置有多个prompt pair(关键词对，相当于参数对)，具体的关键词对可以基于评分的维度进行设置，每个维度对应一个参数对，而本实施例中一般包括亮度、对比度、清晰度、色彩、噪声这5个维度，因此可以设置5个参数对，分别为[亮色图像，暗色图像]，[高对比度图像，低对比度图像]，[清晰图像，模糊图像]，[彩色图像，干枯图像]，[噪声图像，干净图像]，然后基于上述Bert模型对参数文本中的5个参数对进行编码操作得到编码文本，可以简单理解为将文本中这些参数对，通过Bert模型翻译成机器语言(向量形式)因此，编码文本中的每个参数对实际上以一维向量的形式表示。

需要说明的是，针对不同的需求，可以修改关键词对设置，比如，如果需要图像美感得分，可以将关键词对修改为beautiful等相关词。

当利用Bert模型实现文本编码后，可以利用改进后的VIT模型对图像进行编码，其中改进后的VIT模型可以包括：划分模块、特征提取模块和多维度评分计算模块。

上述划分模快可以用于对输入的无参考图像数据进行图像补丁划分、线性变换和维度压缩处理，得到多个预设大小的补丁块。

具体的，可以对图像进行patch embedding(补丁划分)，分为固定大小的patch(补丁块)，例如输入图片大小为224x224x3，可以将图片分为预设固定大小(比如16x16x3)的patch，则每张图像会生成224x224/16x16＝196个patch，即输入序列长度为196，然后进行线性变换，进行维度压缩，相当于将原来大小为224x224x3的二维图像展平成196个大小为(16x16 x3)的一维向量，相对于原始VIT模型，取消了class Token，减少了计算复杂度，并且，原始VIT模型中加入了位置编码，但经过测试作用非常小，因此本申请中取消了位置编码。

上述特征提取模快用于采用多头注意力机制提取多个补丁块的特征信息。

具体的，可以采用VIT模型中的多头注意力机制进行特征提取，使网络能够综合利用多方面角度提取更加准确的表示，从而可以捕捉更加丰富的特征。假设输入的无参考图像为一张猫的全身图片，利用多头注意力机制可以提取出多个相关特征信息，比如猫的轮廓、纹理等。需要注意的是，上述特征信息的表现形式实际上也是向量。

上述多维度评分计算模块用于将特征信息与多个参数对分别进行余弦相似度计算，得到每个参数对对应的第一评分结果，并基于第一评分结果和SoftMax函数计算得到每个维度对应的质量评分分数；其中，维度与参数对相对应。

具体的，可以将上述特征提取模快提取的特征信息与文本编码得到的多个参数对分别进行余弦相似度计算，得到每个参数对对应的第一评分结果(相当于余弦相似度)再经过一个SoftMax函数计算最终得分，用来表示对应维度的质量评分，其中，每个参数对对应的第一评分结果的计算公式如下：

其中，x为特征信息，t为参数对，s_i为余弦相似度，t_i为参数对中的第i个词。

比如，某个参数对(相当于上述t)为[[亮色图像，暗色图像]，t₁可以对应亮色图像，t₂可以对应亮色图像，由于特征信息和参数对均为向量形式，因此，通过上述公式可以计算得到该参数对对应的第一评分结果(每个第一评分结果均包括s₁和s₂)。基于相同计算原理，其他参数对也可以通过上述公式计算得到对应的第一评分结果，在此不再赘述。

上述SoftMax函数可以通过以下数学公式表示：

其中，为最终分数(相当于每个参数对对应的质量评分分数，也即每个维度的质量评分分数)，e为常数，n∈{1，5}代表有5个维度。

进一步的，上述改进后的VIT模型还可以包括整体评分计算模块；其中，该整体评分计算模块可以包括依次连接的层归一化层、第一层全连接层、深度卷积层和第二层全连接层。

上述层归一化层用于对特征提取模块提取的特征信息进行归一化处理，得到标准特征信息。上述第一层全连接层用于对标准特征信息进行特征映射处理，得到第一整合特征信息。上述深度卷积层用于增加归纳偏置，以从第一整合特征信息中提取第二整合特征信息。上述第二层全连接层用于对第二整合特征信息进行特征映射处理，得到第三整合特征信息。

实际实现时，考虑到评分对后续图像增强的实用性，基于改进的VIT模型，还可以获取图像整体质量评分，然后将图像整体质量评分与五个维度的质量评分进行加权平均，最终分别得到五个维度的得分。

具体的，为了得到图像整体质量得分，原始VIT模型的多层感知机模块对图像特征进行分类处理时，多层感知机模块由LayerNorm(层归一化层)和两层全连接层(相当于上述第一层全连接层和第二层全连接层)组成，并采用GELU激活函数。由于多层感知机模块没有归纳偏置，导致从邻域中提取细粒度特征弱，因此本申请实施例可以在两层全连接层中间加入深度卷积层，增加归纳偏置，从而提高对邻域中提取细粒度特征的能力。

上述LayerNorm实际上为一种常用的归一化函数，可以将每个图像的特征向量进行归一化，使得每个特征的均值为0，方差为1，也即，将图像特征信息尽量映射到均值为0，方差为1的标准正态分布上。这样做的好处是可以减少特征之间的相关性，从而提高模型的泛化能力和鲁棒性。

具体的，仍以输入的无参考图像为一张猫的全身图片为例，利用多头注意力机制可以提取出多个相关特征信息(比如猫轮廓、纹理等)后，利用LayerNorm函数可以对多个相关特征信息进行归一化，得到标准特征信息；然后利用上述第一层全连接层对标准特征信息进行特征映射处理，得到第一整合特征信息(比如猫头、猫尾巴等)，接着利用上述深度卷积层增加归纳偏置，以从第一层全连接层中提取更丰富的特征信息，也即从第一整合特征信息中提取第二整合特征信息(相当于对第一特征信息进行丰富后，得到第二整合特征信息，比如对猫头进行丰富后得到猫眼睛、耳朵等)，接着利用第二层全连接层对第而整合特征信息进行特征映射处理，得到第二整合特征信息(猫全身)。

进一步的，整体评分计算模块还包括：与第二层全连接层相连接的第三全连接层；其中，第三全连接层包括多层全连接层；第三全连接层用于基于预设分数范围和第三整合特征信息，输出预设分数范围中的每个预设分数对应的概率，并基于概率和每个预设分数计算无参考图像数据的整体质量评分分数。

具体的，上述预设分数范围可以为[1-10]，为了获得无参考图像数据的整体质量评分分数，可以在多层感知机模块的第二层全连接层后面直接增加一个10层的全连接层(相当于上述三全连接层)用于输出第二整合特征信息对应的整图质量评分分别为1-10分的概率(也即概率分步)，然后求取每个预设分数和对应概率的乘积之和(相当于求取分数的平均值)即为无参考图像数据的整体质量评分分数，比如有5个预设分数分别为1、3、5、7、9，对应概率分别为0.2，0.1，0.4，0.2，0.1；那么4.8(1*0.2+3*0.1+5*0.4+7*0.2+9*0.1＝4.8)即为无参考图像数据的整体质量评分分数；采用该方式可以将图像整体评分看成是有序类别，这种情况下采用预测图片得分分布的概率要比对图片质量高低进行分类和回归平均得分更加准确。

步骤S212，按预设权重系数，将每个维度的质量评分分数分别与整体质量评分分数进行加权计算，得到无参考图像数据对应多个维度的质量终极评分分数；其中，多个维度的质量终极评分分数包括：亮度终极评分分数、对比度终极评分分数、清晰度终极评分分数、色彩终极评分分数、噪声终极评分分数。

上述无参考图像质量评价的方法，通过从多维度(亮度、对比度、清晰度、色彩、噪声)方面去评价图像的质量，可以方便后续针对性的对图像进行增强，同时考虑到评分对后续图像增强的实用性，可以基于改进的VIT模型，获取图像整体质量评分，然后根据预设权重系数分，在五个维度方便将每个维度的得分分别与整体质量得分做加权平均，得出最终五个维度的得分，为后续图像增强提供准确度更高的评分。

具体的，加权计算公式如下：

其中u_n为每个维度对应的超参数(相当于上述预设权重系数)，G_n为每个维度的质量终极评分分数，为每个维度对应的质量评分分数，s_img为整体质量评分分数。

为了更好的理解上述实施例，可以参见如图4所示的一种多模态质量评价模型的网络结构示意图；图4中通过多模态质量评价模型的语言模型对包含多个关键词对的参数文本进行文本编码，得到多个参数对其中，n表示不同的维度，t₁为对应维度的参数对中的其中一个参数，t₂为对应维度的参数对中的另外一个参数，另外通过多模态质量评价模型的视觉自注意力模型对输入的无参考图像进行图像编码，得到该无参考图像的特征信息(相当于图中x)，将特征信息x和多个参数对/>分别进行余弦相似度计算，再经过一个Softmax计算每个维度的质量得分/>再通过改进的分类层(也即多层感知机模块，相当于整体评分计算模块)获得整体质量得分s_img；最后按预设权重系数将s_img与/>进行加权计算，得到该无参考图像数据对应多个维度的质量终极评分分数G_n。

本实施例提供的无参考图像质量评价的方法、将待评价的无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，该多模态质量评价模型的语言模型对参数文本进行文本编码，得到编码文本；视觉自注意力模型的划分模块对输入的无参考图像数据进行图像补丁划分、线性变换和维度压缩处理，得到多个预设大小的补丁块；特征提取模块采用多头注意力机制提取多个补丁块的特征信息；多维度评分计算模块将特征信息与多个参数对分别进行余弦相似度计算，得到每个参数对对应的第一评分结果，并基于第一评分结果和SoftMax函数计算得到每个维度对应的质量评分分数；整体评分计算模块的层归一化层对特征提取模块提取的特征信息进行归一化处理，得到标准特征信息；第一层全连接层对标准特征信息进行特征映射处理，得到第一整合特征信息；深度卷积层增加归纳偏置，以从第一整合特征信息中提取第二整合特征信息；第二层全连接层对第二整合特征信息进行特征映射处理，得到第三整合特征信息，与第二层全连接层相连接的第三全连接层基于预设分数范围和第三整合特征信息，输出预设分数范围中的每个预设分数对应的概率，并基于概率和每个预设分数计算无参考图像数据的整体质量评分分数，按预设权重系数，将每个维度的质量评分分数分别与整体质量评分分数进行加权计算，得到无参考图像数据对应多个维度的质量终极评分分数。该方式中，通过多模态质量评价模型，可以输出无参考图像数据对应多个维度的质量终极评分分数，对无参考图像进行细颗粒度评价，从而提高无参考图像质量评价准确性。

进一步的，结合多模态质量评价模型的同时，利用改进的VIT模型对图像进行补丁划分，去除class token，降低了计算复杂度，并改进分类层，在两层全连接层中间加入了深度卷积层，增加归纳偏置，从而提高对邻域中提取细粒度特征的能力。

进一步的，在对图像整体评分方法中，将图像质量得分看成一个有序类别，估计质量得分概率分布，得到平均分，而不是对图片质量高低进行多分类，也不是回归平均得分，相对多模态方法，从另一个维度去解读图像，最终将整体图像得分与每个维度的得分进行加权平均，准确度更高。

本发明实施例提供了一种无参考图像质量评价的装置的结构示意图，如图5所示，该装置包括：获取模块50，用于获取待评价的无参考图像数据；输出模块51，用于将无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，以通过多模态质量评价模型输出无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数；其中，多个维度的质量评分分数包括：亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数；加权模块52，用于按预设权重系数，将每个维度的质量评分分数分别与整体质量评分分数进行加权计算，得到无参考图像数据对应多个维度的质量终极评分分数；其中，多个维度的质量终极评分分数包括：亮度终极评分分数、对比度终极评分分数、清晰度终极评分分数、色彩终极评分分数、噪声终极评分分数。

本发明实施例提供的一种无参考图像质量评价的装置，将待评价的无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，以输出无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数；多个维度的质量评分分数包括：亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数；按预设权重系数，将每个维度的质量评分分数分别与整体质量评分分数进行加权计算，得到无参考图像数据对应多个维度的质量终极评分分数。该装置通过多模态质量评价模型，可以输出无参考图像数据对应多个维度的质量终极评分分数，对无参考图像进行细颗粒度评价，从而提高无参考图像质量评价准确性。

进一步的，视觉自注意力模型还包括：整体评分计算模块；

进一步的，所述装置还包括：

确定模块，用于基于预设的训练样本集确定样本图像；其中，样本图像携带有多维度标签和整体标签；其中，多维度标签包括：亮度标签、对比度标签、清晰度标签、色彩标签、噪声标签；

输入模块，用于将样本图像输入至初始模型中，以通过初始模型输出预测结果；

更新模块，用于基于预测结果、多维度标签和整体标签，更新初始模型的权重参数；继续执行基于预设的训练样本集确定样本图像的步骤，直到初始模型收敛，得到多模态质量评价模型。

进一步的，预测结果包括：整体质量评分预测分数、多维度质量评分预测分数；更新模块，还用于：基于整体质量评分预测分数和整体标签，确定第一损失值；基于多维度质量评分预测分数和多维度标签，确定第二损失值；基于第一损失值和第二损失值更新初始模型的权重参数。

本发明实施例所提供的无参考图像质量评价的装置，其实现原理及产生的技术效果和前述无参考图像质量评价的方法实施例相同，无参考图像质量评价的装置实施例部分，可参考前述无参考图像质量评价的方法实施例中相应内容。

本发明实施例还提供了一种电子设备，参见图6所示，该电子设备包括处理器130和存储器131，该存储器131存储有能够被处理器130执行的机器可执行指令，该处理器130执行机器可执行指令以实现上述无参考图像质量评价的方法。

进一步地，图6所示的电子设备还包括总线132和通信接口133，处理器130、通信接口133和存储器131通过总线132连接。

其中，存储器131可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线132可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器130可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131，处理器130读取存储器131中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，该计算机可执行指令促使处理器实现上述无参考图像质量评价的方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的无参考图像质量评价的方法、装置及电子设备，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种无参考图像质量评价的方法，其特征在于，所述方法包括：

获取待评价的无参考图像数据；

将所述无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，以通过所述多模态质量评价模型输出所述无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数；其中，多个维度的所述质量评分分数包括：亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数；

按预设权重系数，将每个维度的所述质量评分分数分别与所述整体质量评分分数进行加权计算，得到所述无参考图像数据对应多个维度的质量终极评分分数；其中，多个维度的质量终极评分分数包括：亮度终极评分分数、对比度终极评分分数、清晰度终极评分分数、色彩终极评分分数、噪声终极评分分数。

2.根据权利要求1所述的方法，其特征在于，所述多模态质量评价模型至少包括：语言模型和视觉自注意力模型；

所述语言模型用于对所述参数文本进行文本编码，得到编码文本；其中，所述编码文本包括多个参数对；

所述视觉自注意力模型用于提取输入的所述无参考图像数据的特征信息，并基于所述特征信息、所述多个参数对和SoftMax函数，输出所述无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数。

3.根据权利要求2所述的方法，其特征在于，所述视觉自注意力模型包括：划分模块、特征提取模块和多维度评分计算模块；

所述划分模块用于对输入的所述无参考图像数据进行图像补丁划分、线性变换和维度压缩处理，得到多个预设大小的补丁块；

所述特征提取模块用于采用多头注意力机制提取多个所述补丁块的特征信息；

所述多维度评分计算模块用于将所述特征信息与多个所述参数对分别进行余弦相似度计算，得到每个所述参数对对应的第一评分结果，并基于所述第一评分结果和SoftMax函数计算得到每个维度对应的质量评分分数；其中，所述维度与所述参数对相对应。

4.根据权利要求3所述的方法，其特征在于，所述视觉自注意力模型还包括：整体评分计算模块；

所述整体评分计算模块包括依次连接的层归一化层、第一层全连接层、深度卷积层和第二层全连接层；

所述层归一化层用于对所述特征提取模块提取的所述特征信息进行归一化处理，得到标准特征信息；

所述第一层全连接层用于对所述标准特征信息进行特征映射处理，得到第一整合特征信息；

所述深度卷积层用于增加归纳偏置，以从所述第一整合特征信息中提取第二整合特征信息；

所述第二层全连接层用于对所述第二整合特征信息进行特征映射处理，得到第三整合特征信息。

5.根据权利要求4所述的方法，其特征在于，所述整体评分计算模块还包括：与所述第二层全连接层相连接的第三全连接层；其中，所述第三全连接层包括多层全连接层；

所述第三全连接层用于基于预设分数范围和所述第三整合特征信息，输出所述预设分数范围中的每个预设分数对应的概率，并基于所述概率和每个预设分数计算所述无参考图像数据的整体质量评分分数。

6.根据权利要求1所述的方法，其特征在于，所述多模态质量评价模型通过下述方式训练得到：

基于预设的训练样本集确定样本图像；其中，所述样本图像携带有多维度标签和整体标签；其中，所述多维度标签包括：亮度标签、对比度标签、清晰度标签、色彩标签、噪声标签；

将所述样本图像输入至初始模型中，以通过所述初始模型输出预测结果；

基于所述预测结果、所述多维度标签和所述整体标签，更新所述初始模型的权重参数；继续执行基于预设的训练样本集确定样本图像的步骤，直到所述初始模型收敛，得到所述多模态质量评价模型。

7.根据权利要求6所述的方法，其特征在于，所述预测结果包括：整体质量评分预测分数、多维度质量评分预测分数；

基于所述预测结果、所述多维度标签和所述整体标签，更新所述初始模型的权重参数的步骤包括：

基于所述整体质量评分预测分数和所述整体标签，确定第一损失值；

基于所述多维度质量评分预测分数和所述多维度标签，确定第二损失值；

基于所述第一损失值和第二损失值更新所述初始模型的权重参数。

8.一种无参考图像质量评价的装置，其特征在于，所述装置包括：

获取模块，用于获取待评价的无参考图像数据；

输出模块，用于将所述无参考图像数据和预先设置的参数文本输入至预先训练好的多模态质量评价模型中，以通过所述多模态质量评价模型输出所述无参考图像数据对应的整体质量评分分数和多个维度的质量评分分数；其中，多个维度的所述质量评分分数包括：亮度评分分数、对比度评分分数、清晰度评分分数、色彩评分分数、噪声评分分数；

加权模块，用于按预设权重系数，将每个维度的所述质量评分分数分别与所述整体质量评分分数进行加权计算，得到所述无参考图像数据对应多个维度的质量终极评分分数；其中，多个维度的质量终极评分分数包括：亮度终极评分分数、对比度终极评分分数、清晰度终极评分分数、色彩终极评分分数、噪声终极评分分数。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-7任一项所述的无参考图像质量评价的方法。

10.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-7任一项所述的无参考图像质量评价的方法。