CN109741315A

CN109741315A - 一种基于深度强化学习的无参考图像质量客观评价方法

Info

Publication number: CN109741315A
Application number: CN201811641631.6A
Authority: CN
Inventors: 潘达; 应泽峰; 史萍
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-10
Anticipated expiration: 2038-12-29
Also published as: CN109741315B

Abstract

本发明公开了一种基于深度强化学习的无参考图像质量客观评价方法，该方法利用全参考方法对添加失真后的图像质量进行评估并反馈给决策模型，该决策模型的目标是为当前图像选出能造成质量下降最小的失真操作。由于图像质量所能下降的幅度与图像本身的质量密切相关，为了更好地进行决策选择，模型中存在的状态值会学习到有关图像质量的特征，因此将状态值作为图像质量的映射。在训练过程中只需要高质量图像作为输入，而不需要失真图像以及主观分数，在测试过程中将状态值直接作为质量分数输出。实验结果表明，与其他不使用主观分数的无参考图像质量评价方法相比，本方法性能更加优异。

Description

一种基于深度强化学习的无参考图像质量客观评价方法

技术领域

本发明属于数字图像处理技术领域，图像质量是比较各种数字图像处理算法性能优劣的重要指标，准确且高效的图像质量评价对多媒体服务的监测和控制具有重要意义。对此在不使用失真图像以及主观评价分数的条件下，利用深度强化学习网络从图像失真退化过程中准确地感知图像质量。

背景技术

图像质量评价在图像处理系统中，对于算法分析比较、系统性能评估等方面有着重要的作用。近年来，随着对数字图像领域的广泛研究，研究者对于图像质量评价的研究也越来越关注，并提出了许多图像质量评价的指标和方法。

图像质量评价从有没有人参与的角度区分，可以分为主观评价方法和客观评价方法。主观评价以人作为观测者，对图像进行主观评价，力求能够真实地反映人的视觉感知；客观评价方法借助于某种数学模型，反映人眼的主观感知，给出基于数字计算的结果。其中客观评价方法根据评价时是否需要参考图像又可以分为全参考、半参考和无参考评价方法。无参考方法不需要原始图像的任何信息，直接对失真图像进行质量评价，极大减少了信息传输量，更适合实际应用。

根据是否使用主观评分分数，客观无参考评价方法可以分为两类：引入主观评价意识(opinion-aware OA)和无主观评价意识(opinion-unaware OU)。目前大多数无参考方法都是属于OA方法，OA方法主要是利用神经网络等途径学习回归函数，将失真图像映射到主观质量分数。OA方法的优点在于使用主观评价分数可以很好地拟合人眼质量感受分布，从而提高模型预测性能，但其缺点在于非常耗时费力，因为该类方法需要建立具有主观评分的质量评价数据库，每张失真图像需要由数百人评分，以确保主观评分的真实准确性。OU方法主要对自然图像的统计规律进行建模分析，再利用该模型的参数变化来估计感知质量，其优点在于不需要提供任何强有力的标签，可适用性强，但同时由于所能利用的信息太少，其性能往往低于OA方法。

发明内容

针对现有大部分无参考图像质量评价方法需要主观评价分数且该评分过程太过费时费力的问题。

本发明采用的技术方案为提出了一种不需要主观评价分数的无参考图像质量评价方法，考虑到图像质量所能下降的幅度与图像本身的质量密切相关，利用深度强化学习网络从图像失真退化过程中准确地感知图像质量。包括以下步骤：

步骤1，生成高质量图像数据库。

对DIV2K高分辨率数据库中的图像进行人工筛选，去除存在明显失真情况的图像，获得高质量图像数据库。

步骤2，建立失真操作集。

选择高斯模糊GB，JPEG压缩失真JPEG，高斯白噪声WN作为基础失真操作，在此基础失真操作基础上进行两两组合构成6种失真操作：GB+JPEG、JPEG+GB、JPEG+WN、WN+JPEG、GB+WN、WN+GB。利用高质量图像数据库调节这些失真的具体参数，使所有失真操作的失真强度保持一致。

建立失真操作集的步骤如下：

步骤2.1，随机初始化三种基础失真的关键参数，分别为GB中高斯核的标准差，JPEG的质量因子，WN的标准差；

步骤2.2，对高质量图像数据库分别进行三种基础失真类型处理，然后获得三个相应的失真图像集；

步骤2.3，利用全参考方法MSSIM对失真集中的图像进行质量评估，参考图为与失真图对应的高质量图像，对失真集中所有图像求MSSIM平均值，将该值作为该失真动作的失真强度，获得三种失真的失真强度；

步骤2.4，若三者的失真强度不同，则根据强度大小调整三种失真的参数，并继续步骤2.2直到失真强度全部相同。

步骤3，训练强化学习决策选择网络。

该网络的策略目标是为图像选出能造成质量下降最小的失真操作。以高质量图像块作为序列的初始图像，即作为决策选择网络的初始输入，每次决策从失真操作动作集中选择一种失真动作，将选择的动作添加到图像中生成失真图像，将失真图像的质量与上一步图像质量作差，所得值作为决策反馈，其中质量用全参考方法MSSIM的输出值表示。决策选择网络利用反馈值进行训练，并将当前失真图像作为下一步的决策选择的输入。训练强化学习决策选择网络的步骤如下：

步骤3.1，搭建决策选择网络

步骤3.2，将高质量图像数据库每张高质量图像按行列每隔120像素剪裁成144×144大小的图像块；

步骤3.3，将高质量图像块作为序列的初始图像，根据决策选择网络选择动作，输出为6个值，分别对应6种失真动作的期望价值Q，选择其中价值最大的失真动作，即认为该失真会给当前图像带来最小的失真下降；

步骤3.4，将所选择的失真动作添加到当前图像中，得到对应的失真图像，利用全参考方法MSSIM以及初始高质量图像，获得该失真图像的MSSIM值，并将该值与当前图像的MSSIM值相减，即表示该选择的失真动作所带来的失真下降程度，将该值作为反馈值回传给决策选择网络进行训练；

步骤3.5，将获得的失真图像作为下一步的输入图像继续添加失真，直到图像质量已经低于设定好的阈值，即认为图像质量无法再下降，该序列结束，并使用下一张高质量图像块作为输入继续开始步骤3.3。

步骤4，对待预测失真图像进行无参考质量评价。

由于图像质量所能下降的幅度与图像本身的质量密切相关，网络在学习最佳决策的过程中，网络中存在的状态值会学习到有关图像质量的特征，在预测时将待预测的失真图像进行切块，输入到强化学习决策选择网络中，得到最终的图像质量分数。

步骤4.1，将待预测失真图像按行列每隔120像素剪裁为一组144×144大小的小块；

步骤4.2，将图像块输入训练完成的决策选择网络，将网络的状态值的输出作为图像块的质量分数；

步骤4.3，将图像块的预测质量分数进行平均，得到最终失真图质量分数。

与现有技术相比，本发明具有以下优点：

(1)本方法利用深度强化学习方法，通过图像失真退化的过程学习到图像质量的信息，从而不需要准备失真图像以及对应的主观评价分数，相比OA类无参考质量评价方法更加节省人力物力。

(2)本方法相比其他传统OU方法，使用深度网络提取图像质量特征，使本方法可以充分利用大数据优势，并且通过动态添加失真，使其感知的失真特征更加丰富，可应用性更广泛。

(3)本方法通过强化学习决策选择网络将失真程度反映在状态值输出中，通过实验证明，本发明的性能优于传统的不使用主观评价分数的无参考质量评价方法。

附图说明

图1为本发明具体实施方式的流程图；

图2为本发明决策选择网络结构图；

具体实施方式

实施方式。

实施方式的流程图如图1所示，包括以下步骤：

步骤S10，生成高质量图像数据库；

步骤S20，建立失真操作动作集；

步骤S30，训练强化学习决策选择网络；

步骤S40，对失真图像进行无参考质量评价。

实施方式的建立失真操作动作集调整步骤S20还包括以下步骤：

步骤S200，随机初始化三种基础失真的关键参数，分别为GB中高斯核的标准差，JPEG的质量因子，WN的标准差。

步骤S210，对高质量图像数据库分别进行三种基础失真类型处理，然后获得三个相应的失真图像集；。

步骤S220，利用全参考方法MSSIM对失真集中的图像进行质量评估，参考图为与失真图对应的高质量图像，对失真集中所有图像求MSSIM平均值，将该值作为该失真动作的失真强度，获得三种失真的失真强度。

步骤S230，若三者的失真强度不同，则根据强度大小调整三种失真的参数，并继续步骤S210直到失真强度全部相同。

实施方式的训练强化学习决策选择网络调整步骤S30还包括以下步骤：

步骤S300，搭建决策选择网络。

步骤S310，将高质量图像数据库每张高质量图像按行列每隔120像素剪裁成144×144大小的图像块。

步骤S320，将高质量图像块作为序列的初始图像，根据决策选择网络选择动作，输出为6个值，分别对应6种失真动作的期望价值Q，选择其中价值最大的失真动作，即认为该失真会给当前图像带来最小的失真下降。

步骤S330，将所选择的失真动作添加到当前图像中，得到对应的失真图像，利用全参考方法MSSIM以及初始高质量图像，获得该失真图像的MSSIM值，并将该值与当前图像的MSSIM值相减，即表示该选择的失真动作所带来的失真下降程度，将该值作为反馈值回传给决策选择网络进行训练。

步骤S340，将获得的失真图像作为下一步的输入图像继续添加失真，直到图像质量已经低于设定好的阈值，即认为图像质量无法再下降，该序列结束，并使用下一张高质量图像块作为输入继续开始步骤S320。

实施方式的对失真图像进行无参考质量评价调整步骤S40还包括以下步骤：

步骤S400，将待预测失真图像按行列每隔120像素剪裁为一组144×144大小的小块。

步骤S410，将图像块输入训练完成的决策选择网络，将网络的状态值的输出作为图像块的质量分数。

步骤S420，将图像块的预测质量分数进行平均，得到最终失真图质量分数。

下面给出应用本发明的实验结果。

表1给出了本发明方法在LIVE IQA、TID2013两个失真图像数据集下的测试结果。实验将每个数据库90％的失真图像作为测试集进行测试，测试评价方式由SRCC和PLCC指数组成。由表可知，本发明方法在三个数据集上的结果均高于最先进的不使用主观评价分数的无参考质量评价方法IL-NIQE，说明利用本发明方法相比于大多数不使用主观评价分数的无参考质量评价方法效果更好。

表1本发明方法在不同数据库下的性能比较

Claims

1.一种基于深度强化学习的无参考图像质量客观评价方法，其特征在于：包括搭建决策选择网络的步骤，建立高质量图像数据库的步骤，用高质量图像数据库对决策选择网络进行训练的步骤，使用决策选择网络中包含的状态值预测失真图像的质量分数的步骤，方法如下，

(1)建立高质量图像数据库；

对DIV2K高分辨率数据库中的图像进行人工筛选，去除存在明显失真情况的图像，获得高质量图像数据库；

(2)建立失真操作动作集；

选择高斯模糊GB，JPEG压缩失真JPEG，高斯白噪声WN作为基础失真操作，在此基础上进行两两组合构成6种失真操作：GB+JPEG、JPEG+GB、JPEG+WN、WN+JPEG、GB+WN、WN+GB；利用高质量图像数据库调节失真的具体参数，使所有失真操作的失真强度保持一致；

(3)训练决策选择网络；

以高质量图像块作为序列的起始图像，即作为决策选择网络的初始输入，每次决策从失真操作集中选择一种失真动作，将选择的动作添加到图像中生成失真图像，将失真图像的质量与步骤(2)的图像质量作差，所得值作为决策反馈值用于决策选择网络的训练，质量用全参考方法MSSIM的输出值表示；将当前失真图像作为下一步的决策选择的输入，依次循环；

(4)预测得到图像质量分数；

将待评价的失真图像进行切块，输入决策选择网络中，将状态值作为图像块的质量分数，对所有块的质量分数进行平均得到最终图像质量分数。

2.根据权利要求1所述的一种基于深度强化学习的无参考图像质量客观评价方法，其特征在于：失真操作集由3种基础失真两两组合而成，并且通过调节失真参数保持所有操作的失真强度相同，具体调节方法如下：

步骤1随机初始化三种基础失真的参数，分别为GB中高斯核的标准差，JPEG的质量因子，WN的标准差；

步骤2对高质量图像数据库分别进行三种基础失真类型处理，然后获得三个相应的失真集；

步骤3计算每个失真集中所有失真图像的平均MSSIM值；

步骤4根据平均值调整三种失真类型的参数，并继续执行步骤2，直到平均值全部相同。

3.根据权利要求1所述的一种基于深度强化学习的无参考图像质量客观评价方法，其特征在于：决策选择网络由Dueling-DQN网络组成，其输入为一张3通道的彩色图像，经过4层卷积层后，连接一层全连接层，将该层的输出分流到两个支路上，分别为状态值函数，该支路输出维度为1的值，表示图像本身质量对质量下降所存在的影响，以及动作优势函数，该支路输出维度为6，其中每个值表示选择某种失真操作后对图像质量带来的额外影响，最后两个支路聚合在一起输出每个动作的期望价值Q；Q是维度为6的输出，分别对应6种失真动作添加到输入图像后对图像质量带来的影响，数值越大，说明对应的动作更适合被选择。

4.根据权利要求3所述的一种基于深度强化学习的无参考图像质量客观评价方法，其特征在于，需要对决策选择网络进行训练，训练方法如下：

(1)将高质量图像数据库每张高质量图像按行列每隔120像素剪裁成144×144大小的图像块；

(2)将高质量图像块作为序列的初始图像，动作的选择有两种方案：完全随机选择动作以及根据决策选择网络选择动作；依据epsilon-贪婪算法按照一定探索概率确定具体方案；

(3)在根据决策选择网络选择动作时，输入为上一步添加失真后的图像，输出为6种失真动作对应的期望价值Q，选择其中价值最大的失真作为下一步的动作，即该失真会给当前图像带来最小的失真下降；

(4)将所选择的失真动作添加到当前图像中，得到对应的失真图像，利用全参考方法MSSIM以及初始高质量图像，获得该失真图像的MSSIM值，并将该MSSIM值与当前图像的MSSIM值相减，即表示该选择的失真动作所带来的失真下降程度，将该值作为反馈值回传给决策选择网络进行训练；

(5)将获得的失真图像作为下一步的输入图像继续添加失真，直到图像质量已经低于设定好的阈值，即认为图像质量无法再下降，该序列结束，并使用下一张高质量图像块作为输入继续开始序列选择。

5.根据权利要求1所述的一种基于深度强化学习的无参考图像质量客观评价方法，其特征在于，用训练好的网络预测质量分数的步骤，将待评价的失真图像输入决策选择网络后，不需要输出最终选择哪一个动作，也不需要重复添加失真的步骤，而是直接将状态值函数的输出作为图像质量分数。