CN114915777A

CN114915777A - 一种基于深度强化学习的无参考超高清视频质量客观评价方法

Info

Publication number: CN114915777A
Application number: CN202210239819.8A
Authority: CN
Inventors: 史萍; 应泽峰; 潘达
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2022-03-12
Filing date: 2022-03-12
Publication date: 2022-08-16

Abstract

本发明公开了一种基于深度强化学习的无参考超高清视频质量客观评价方法，被测超高清视频经过抽帧和下采样处理后，得到低分辨率的帧图像序列。将该帧图像序列逐帧送入基于深度学习的空域失真特征提取网络，得到与每一帧对应的空域失真特征。将上述特征逐帧送入基于深度强化学习的超高清视频质量评价网络，该网络根据输入的每帧空域失真特征对视频质量分数进行动态调整。当图像帧序列的最后一帧输入模型后，可得到整个视频的质量评价分数。本发明利用深度学习网络全面感知并提取超高清视频的空域失真特征，对超高清视频的失真信息进行全局融合并模拟人类视觉感知过程对视频质量进行评分。本发明性能优于传统的无参考视频质量客观评价方法。

Description

一种基于深度强化学习的无参考超高清视频质量客观评价方法

技术领域

本发明属于数字图像及数字视频处理技术领域，尤其涉及一种基于深度强化学习的无参考超高清视频质量客观评价方法。

背景技术

超高清视频经过采集、压缩、存储、传输、显示等处理环节后会引入不同类型和不同程度的失真，从而导致视频质量的下降。因此，研究高效且准确的视频质量评价方法对于超高清视频业务的质量监控以及对于相关系统或设备的研发都具有重要意义。

视频质量评价方法分为主观评价和客观评价两大类。主观评价方法以人作为观测者，对视频质量进行评价，可以真实地反映人的视觉感知；客观评价方法借助于某种数学模型模拟人眼的主观感知特性，给出基于数字计算的结果。其中客观评价方法根据评价时是否要借助无失真参考视频又可以分为全参考、半参考和无参考评价方法。其中无参考方法不需要借助无失真参考视频的任何信息，可以直接对失真视频进行质量评价，更符合实际应用场景的需求。

当前已有的无参考视频质量客观评价方法中，基于深度学习的方法对于一般视频的质量评价显示出较好的性能，但如果用这些方法对超高清视频进行质量评价，则难以取得良好效果。主要原因是这些方法采用的失真提取方式并不适用于高分辨率的超高清视频，因而无法完整地提取空域失真信息；另外这些方法也难以对高帧率的超高清视频序列进行长程时域特征的整体融合；最后，超高清视频的超大数据量也会导致质量评价模型的计算效率大幅下降。因此面向超高清视频的质量评价方法需要全面考虑超高清视频特点，从而满足高效和准确的实际需求。

发明内容

针对现有无参考视频质量评价算法无法很好适用于高分辨率、高帧率的超高清视频的问题，本发明提出了一种基于深度强化学习的无参考超高清视频质量客观评价方法，利用深度强化学习模型模拟人眼视觉感知过程对超高清视频进行质量评价，包括以下步骤：

步骤1，建立超高清视频质量评价数据集。

选取无失真的超高清视频作为参考视频，由参考视频经过压缩、加噪等处理得到失真视频。对失真视频进行抽帧，并采用全参考方法计算抽帧后每帧的图像质量分数以及与每帧对应的视频质量分数。对每个失真视频进行下采样，得到低分辨率的帧图像序列。所有失真视频的低分辨率帧图像序列、每帧的图像质量分数、与每帧对应的视频质量分数一起构成超高清视频质量评价数据集。具体步骤如下：

步骤1.1，选取无失真的超高清视频作为参考视频，参考视频不少于20段，每段时长不少于10秒，视频内容应尽可能包括室内、室外、建筑物、人物、自然景物、体育比赛、文艺表演、大型群众活动等典型场景。对每个参考视频进行压缩、加噪等处理，得到对应的失真视频；

步骤1.2，对每个失真视频进行抽帧处理，抽帧率不低于1:10，得到帧图像序列I_n，n代表帧序号；

步骤1.3，利用全参考方法(如VMAF、VIF或其他性能相当的方法)计算失真视频帧图像序列I_n中每一帧的图像质量分数S_I(n)，以及每一帧对应的视频质量分数S_V(n)。其中S_V(n)是指该帧及该帧之前所有帧的图像质量分数的平均值，如公式(1)所示；

步骤1.4，对帧图像序列I_n中的每一帧进行插值下采样处理(也可使用其他等效的下采样方法)，水平和垂直方向的采样率均为1:4，得到低分辨率的帧图像序列

步骤1.5，所有失真视频的低分辨率帧图像序列

和每帧的客观质量分数S_I(n)、每帧对应的视频质量分数S_V(n)一起构成超高清视频质量评价数据集。

步骤2，训练基于深度学习的空域失真特征提取网络。

用超高清视频质量评价数据集中的低分辨率帧图像序列和每帧的客观质量分数作为训练数据，对基于深度学习的空域失真特征提取网络进行训练，训练步骤如下：

步骤2.1，搭建基于MobileNet的空域失真特征提取网络，该网络由特征提取模块和质量回归模块构成。特征提取模块的输入为一个R、G、B三通道的彩色帧图像，输出为帧图像的空域失真特征。质量回归模块输入为帧图像的空域失真特征，输出为网络预测的帧图像的质量分数；

步骤2.2，将超高清视频质量评价数据集中的低分辨率帧图像序列

逐帧输入到空域失真特征提取网络的特征提取模块，得到每帧图像的空域失真特征F_n，如公式(2)所示，式中M_SF表示空域失真特征提取网络；

步骤2.3，将每帧图像的空域失真特征F_n输入到空域失真特征提取网络的质量回归模块，得到预测的质量分数。同时将超高清视频质量评价数据集中每帧图像的质量分数S_I(n)作为标签，对整个网络进行训练。

步骤3，训练基于深度强化学习的超高清视频质量评价网络。

用超高清视频质量评价数据集中的低分辨率帧图像序列以及对应于每帧的视频质量分数作为训练数据，对基于深度强化学习的超高清视频质量评价网络进行训练。该网络基于深度强化学习算法构成，算法的策略目标是根据逐帧输入的图像空域失真特征对网络预测的视频质量分数进行动态调整，使最终的视频质量分数能够准确表达超高清视频的实际质量。训练步骤如下：

步骤3.1，搭建基于DDPG(Deep Deterministic Policy Gradient)的超高清视频质量评价网络，该网络包括动作网络和估值网络，均由三个全连接层组成。动作网络负责输出最佳动作策略，估值网络负责输出策略价值，该策略价值用于评估并优化动作网络的策略，奖赏函数用于评估并优化估值网络的准确性。网络的状态空间即网络的输入是空域失真特征提取网络的特征提取模块输出的空域失真特征；动作空间是对应于每帧的视频质量分数的调整值范围，设定为[-1.5,1.5]。每输入一帧空域失真特征，网络就从动作空间中选择一个特定值作为视频质量分数的调整值，用于对当前质量分数进行调整。调整后的质量分数与超高清视频质量评价数据集中的视频质量分数的差值作为奖赏函数，用于对网络进行训练，使其对质量分数的调整与估计更精确；

步骤3.2，将超高清视频质量评价数据集中的低分辨率帧图像序列

逐帧输入到已训练好的空域失真特征提取网络M_SF，由其中的特征提取模块输出每帧图像的空域失真特征F_n；

步骤3.3，将所述每帧图像的空域失真特征F_n以及与之对应的历史帧特征H_n-1、历史质量分数S_n-1逐帧输入到超高清视频质量评价网络。历史帧特征是指由当前帧之前的所有帧累积的空域失真特征，历史质量分数是指网络预测的截止到前一帧的视频质量分数。第一帧输入时，可将历史帧特征设置为与第一帧特征相同，将历史质量分数(即初始质量分数)设置为1。超高清视频质量评价网络对当前帧的空域失真特征F_n和历史帧特征H_n-1进行融合，输出新的历史帧特征H_n用于下一时刻的输入。同时还输出质量分数调整值ΔS_n，如公式(3)所示，该值表示当前帧的失真情况对视频质量分数造成的变化幅度，其中，M_{DRL_VQA}代表超高清视频质量评价网络。将质量分数调整值ΔS_n累加到历史质量分数S_n-1上，得到当前质量分数S_n，如公式(4)所示；

ΔS_n,H_n＝M_{DRL_VQA}(F_n,H_n-1,S_n-1) (3)

S_n＝S_n-1+ΔS_n (4)

步骤3.4，计算当前质量分数S_n与超高清视频质量评价数据集中与当前帧对应的视频质量分数S_V(n)的差值，并将该差值作为奖赏函数回传给深度强化学习网络进行训练。同时，当前质量分数S_n还将作为下一时刻的历史质量分数，与下一帧的空域失真特征F_n+1及历史帧特征H_n一起对网络进行训练。网络训练完成后，可对被测超高清视频进行无参考视频质量评价。当被测视频的最后一帧输入到网络后，网络计算的当前质量分数即为被测视频的质量分数；

步骤3.5，将所有失真视频的低分辨率帧图像序列都按照步骤3.2、3.3、3.4、3.5输入到网络，对网络进行训练。

步骤4，对被测超高清视频进行无参考视频质量评价。

将被测超高清视频按照步骤1的方法进行抽帧和下采样处理，得到低分辨率的帧图像序列

将

逐帧输入到训练好的空域失真特征提取网络M_SF，得到每一帧的空域失真特征F_n。将F_n输入到训练好的超高清视频质量评价网络M_{DRL_VQA}，当最后一帧输入后得到的当前质量分数即为被测视频的质量分数(可根据实际应用需要换算成百分制)。具体步骤如下：

步骤4.1，按照步骤1.2对被测超高清视频进行抽帧，得到帧图像序列I_n；

步骤4.2，按照步骤1.4对帧图像序列的每一帧进行下采样，得到低分辨率的帧图像序列

步骤4.3，将低分辨率的帧图像序列

逐帧输入到训练好的空域失真特征提取网络，得到每一帧的空域失真特征F_n；

步骤4.4，将低分辨率的帧图像序列的各帧空域失真特征F_n逐帧输入到训练好的超高清视频质量评价网络M_{DRL_VQA}，当最后一帧输入后得到的当前质量分数即为被测视频的质量分数。

与现有技术相比，本发明具有以下优点：

(1)本方法在网络训练过程中不依赖视频的主观评价MOS值。主观评价MOS值需要大量观察者在特定环境中使用特定设备进行多次重复实验才能获得，耗时耗力，所以目前已公开的带有主观评价MOS值的超高清视频质量评价数据库极少，且规模不大，视频场景类型也不够丰富。本方法在网络训练阶段只需借助无失真的参考视频，而无须借助主观评价MOS值，这为网络的训练带来了极大便利。

(2)相比其他传统的无参考视频质量评价方法，本方法使用深度学习网络可全面感知超高清图像的空间区域并提取空域失真特征，使感知的失真特征更加丰富，可应用性更广泛。

(3)本方法利用深度强化学习方法，在保证视频时间轴完整的条件下对高帧率的超高清视频中的整体失真信息进行连续的全局融合，相比以往的无参考质量评价方法更能保证对时域信息的整体提取，更适用于超高清视频的质量评价。

(4)本方法通过深度强化学习网络模拟人眼视觉感知过程进行超高清视频质量评价，经过实验证明，本方法的性能优于传统的无参考视频质量评价方法。

附图说明

图1为本发明具体实施方式的流程图；

图2为本发明基于深度强化学习的超高清视频质量评价网络原理示意图。

具体实施方式

实施方式。

实施方式的流程图如图1所示，包括以下步骤：

步骤S10，建立超高清视频质量评价数据集；

步骤S20，训练基于深度学习的空域失真特征提取网络；

步骤S30，训练基于深度强化学习的超高清视频质量评价网络；

步骤S40，对被测超高清视频进行无参考视频质量评价。

实施方式的建立超高清视频质量评价数据集步骤S10还包括以下步骤：

步骤S100，选取无失真的超高清视频作为参考视频，参考视频不少于20段，每段时长不少于10秒，视频内容应尽可能包括室外、室内、建筑物、人物、自然景物、体育比赛、文艺表演、大型群众活动等典型场景。对每个参考视频进行压缩、加噪等处理，得到对应的失真视频；

步骤S110，对每个失真视频进行抽帧处理，抽帧率不低于1:10，得到帧图像序列I_n，n代表帧序号；

步骤S120，利用全参考方法(如VMAF、VIF或其他性能相当的方法)计算失真视频帧图像序列I_n中每一帧的图像质量分数S_I(n)，以及每一帧对应的视频质量分数S_V(n)。其中S_V(n)是指该帧及该帧之前所有帧的图像质量分数的平均值，如公式(1)所示；

步骤S130，对帧图像序列I_n中的每一帧进行插值下采样处理(也可使用其他等效的下采样方法)，水平和垂直方向的采样率均为1:4，得到低分辨率的帧图像序列

步骤S140，所有失真视频的低分辨率帧图像序列

实施方式的训练基于深度学习的空域失真特征提取网络步骤S20还包括以下步骤：

步骤S200，搭建基于MobileNet的空域失真特征提取网络，该网络由特征提取模块和质量回归模块构成。特征提取模块的输入为一个R、G、B三通道的彩色帧图像，输出为帧图像的空域失真特征。质量回归模块输入为帧图像的空域失真特征，输出为帧图像的质量分数；

步骤S210，将超高清视频质量评价数据集中的低分辨率帧图像序列

逐帧输入到空域失真特征提取网络的特征提取模块，得到每帧图像的空域失真特征F_n，如公式(2)所示；

步骤S220，将每帧图像的空域失真特征F_n输入到空域失真特征提取网络的质量回归模块，得到预测的质量分数。同时将超高清视频质量评价数据集中每帧图像的质量分数S_I(n)作为标签，对整个网络进行训练。

实施方式的训练基于深度强化学习的超高清视频质量评价网络步骤S30还包括以下步骤：

步骤S300，搭建基于DDPG(Deep Deterministic Policy Gradient)的超高清视频质量评价网络，该网络包括动作网络和估值网络，均由三个全连接层组成。动作网络负责输出最佳动作策略，估值网络负责输出策略价值，该策略价值用于评估并优化动作网络的策略，奖赏函数用于评估并优化估值网络的准确性。网络的状态空间即网络的输入是空域失真特征提取网络的特征提取模块输出的空域失真特征；动作空间是对应于每帧的视频质量分数的调整值范围，设定为[-1.5,1.5]。每输入一帧空域失真特征，网络就从动作空间中选择一个特定值作为视频质量分数的调整值，用于对当前质量分数进行调整。调整后的质量分数与超高清视频质量评价数据集中的视频质量分数的差值作为奖赏函数，用于对网络进行训练，使其对质量分数的调整与估计更精确；

步骤S310，将超高清视频质量评价数据集中的低分辨率帧图像序列

步骤S320，将所述每帧图像的空域失真特征F_n以及与之对应的历史帧特征H_n-1、历史质量分数S_n-1逐帧输入到超高清视频质量评价网络。历史帧特征是指由当前帧之前的所有帧累积的空域失真特征，历史质量分数是指网络预测的截止到前一帧的视频质量分数。第一帧输入时，可将历史帧特征设置为与第一帧特征相同，将历史质量分数(即初始质量分数)设置为1。超高清视频质量评价网络对当前帧的空域失真特征F_n和历史帧特征H_n-1进行融合，输出新的历史帧特征H_n用于下一时刻的输入。同时还输出质量分数调整值ΔS_n，如公式(3)所示，该值表示当前帧的失真情况对视频质量分数造成的变化幅度。将质量分数调整值ΔS_n累加到历史质量分数S_n-1上，得到当前质量分数S_n，如公式(4)所示

步骤S330，计算当前质量分数S_n与超高清视频质量评价数据集中与当前帧对应的视频质量分数S_V(n)的差值，并将该差值作为奖赏函数回传给深度强化学习网络进行训练。同时，当前质量分数S_n还将作为下一时刻的历史质量分数，与下一帧的空域失真特征F_n+1及历史帧特征H_n一起对网络进行训练。网络训练完成后，可对被测超高清视频进行无参考视频质量评价。当被测视频的最后一帧输入到网络后，网络计算的当前质量分数即为被测视频的质量分数；

步骤S340，将所有失真视频的低分辨率帧图像序列都按照步骤3.2、3.3、3.4、3.5输入到网络，对网络进行训练。

实施方式的对被测超高清视频进行无参考视频质量评价步骤S40还包括以下步骤：

步骤S400，按照步骤S110对被测超高清视频进行抽帧，得到帧图像序列I_n；

步骤S410，按照步骤S130对帧图像序列的每一帧进行下采样，得到低分辨率的帧图像序列

步骤S420，将低分辨的帧图像序列

步骤S430，将低分辨率帧图像序列的各帧空域失真特征F_n逐帧输入到训练好的超高清视频质量评价网络，当最后一帧输入后得到的当前质量分数即为被测视频的质量分数。

下面给出应用本方法的实验结果。

本实验使用的被测视频由250个带有主观评价MOS值的4K超高清失真视频组成，每个视频时长10秒，帧率50帧/秒。这250个失真视频由50个无失真的4K超高清源视频经过不同程度的H.264或HEVC压缩编解码而得(每个源视频经过5种不同程度的H.264或HEVC压缩编解码，得到5个失真视频)。视频场景内容涵盖了室内、室外、建筑物、人物、自然景物、体育比赛、文艺表演、大型群众活动等场景。

本实验按照8:2比例将250个被测视频分为训练集和测试集，训练集包含200个被测视频(对应40个源视频)，测试集包含50个被测视频(对应10个源视频)。用训练集对本方法的网络模型进行训练，用测试集对训练好的网络模型进行测试。使用斯皮尔曼等级相关系数(SRCC)、皮尔逊线性相关系数(PLCC)以及均方根误差(RMSE)这三个通用评价指标来衡量本方法的性能。表1给出了实验结果。作为对比，表1也同时给出了其他几种常用的无参考图像质量评价的测试结果。

由表1可知，本方法的客观评价结果与主观评价结果的相关性系数为SRCC＝0.828，PLCC＝0.832，RMSE＝1.561，均优于表中所列的其他几种常用方法，这表明本方法对于超高清视频质量客观评价的有效性。

表1本方法与其他方法的性能比较

模型	SRCC	PLCC	RMSE
				本发明方法	0.828	0.832	1.561
NIQE	0.749	0.745	1.940
				HOSA	0.751	0.754	2.086
LPSI	0.552	0.656	2.251
				BRISQUE	0.435	0.481	2.509
BLIINDS2	0.375	0.416	2.760

Claims

1.一种基于深度强化学习的无参考超高清视频质量客观评价方法，其特征在于：该方法包括以下步骤：

步骤1，建立超高清视频质量评价数据集；

选取无失真的超高清视频作为参考视频，由参考视频经过压缩、加噪处理得到失真视频；对失真视频进行抽帧，并采用全参考方法计算抽帧后每帧的图像质量分数以及与每帧对应的视频质量分数；对每个失真视频进行下采样，得到低分辨率的帧图像序列；所有失真视频的低分辨率帧图像序列、每帧的图像质量分数、与每帧对应的视频质量分数一起构成超高清视频质量评价数据集；

步骤2，训练基于深度学习的空域失真特征提取网络；

用超高清视频质量评价数据集中的低分辨率帧图像序列和每帧的客观质量分数作为训练数据，对基于深度学习的空域失真特征提取网络进行训练；

步骤3，训练基于深度强化学习的超高清视频质量评价网络；

用超高清视频质量评价数据集中的低分辨率帧图像序列以及对应于每帧的视频质量分数作为训练数据，对基于深度强化学习的超高清视频质量评价网络进行训练；该超高清视频质量评价网络基于深度强化学习算法实现，深度强化学习算法的策略目标是根据逐帧输入的图像空域失真特征对网络预测的视频质量分数进行动态调整，使最终的视频质量分数能够准确表达超高清视频的实际质量；

步骤4，对被测超高清视频进行无参考视频质量评价；

将被测超高清视频进行抽帧和下采样处理，得到低分辨率的帧图像序列；将低分辨率的帧图像序列逐帧输入到训练好的空域失真特征提取网络，得到每一帧的空域失真特征；将空域失真特征输入到训练好的超高清视频质量评价网络，当最后一帧输入后得到的当前质量分数即为被测视频的质量分数。

2.根据权利要求1所述的一种基于深度强化学习的无参考超高清视频质量客观评价方法，其特征在于：该方法采用基于深度学习的空域失真特征提取网络与基于深度强化学习的超高清视频质量评价网络相结合的方式，实现对超高清视质量进行客观评价；具体包括以下内容：

(1)基于深度学习的空域失真特征提取网络；

所述基于深度学习的空域失真特征提取网络是基于MobileNet的深度神经网络，由特征提取模块与质量回归模块构成；特征提取模块的输入为一个R、G、B三通道的彩色帧图像，输出为帧图像的空域失真特征；质量回归模块输入为帧图像的空域失真特征，输出为网络预测的帧图像的质量分数；

(2)基于深度强化学习的超高清视频质量评价网络；

所述基于深度强化学习的超高清视频质量评价网络是一种基于DDPG的深度强化学习网络，包括动作网络和估值网络，均由三个全连接层组成；动作网络负责输出最佳动作策略，估值网络负责输出策略价值，该策略价值用于评估并优化动作网络的策略，奖赏函数用于评估并优化估值网络的准确性；网络的状态空间即网络的输入是空域失真特征提取网络的特征提取模块输出的空域失真特征；动作空间是对应于每帧的视频质量分数的调整值范围，设定为[-1.5,1.5]；每输入一帧空域失真特征，网络就从动作空间中选择一个特定值作为视频质量分数的调整值，用于对当前质量分数进行调整；调整后的质量分数与超高清视频质量评价数据集中的视频质量分数的差值作为奖赏函数，用于对基于深度强化学习的超高清视频质量评价网络进行训练，使其对质量分数的调整与估计更精确。

3.根据权利要求1所述的一种基于深度强化学习的无参考超高清视频质量客观评价方法，其特征在于：建立超高清视频质量评价数据集，步骤如下：

步骤1.1，选取无失真的超高清视频作为参考视频，参考视频不少于20段，每段时长不少于10秒，视频内容包括室内、室外、建筑物、人物、自然景物、体育比赛、文艺表演、大型群众活动典型场景；对每个参考视频进行压缩、加噪等处理，得到对应的失真视频；

步骤1.2，对每个失真视频进行抽帧处理，抽帧率不低于1:10，得到帧图像序列；

步骤1.3，利用全参考视频质量评价方法计算帧图像序列中每一帧的客观质量分数，并计算每一帧对应的视频质量分数，即该帧及该帧之前所有帧的客观质量分数的平均值；

步骤1.4，对帧图像序列中的每一帧进行插值下采样处理，水平和垂直方向的采样率均为1:4，得到低分辨率的帧图像序列；

步骤1.5，所有失真视频的低分辨率帧图像序列和每帧的客观质量分数、每帧对应的视频质量分数一起构成超高清视频质量评价数据集。

4.根据权利要求1所述的一种基于深度强化学习的无参考超高清视频质量客观评价方法，其特征在于：训练基于深度学习的空域失真特征提取网络，训练步骤如下：

步骤2.1，搭建基于MobileNet的空域失真特征提取网络；

步骤2.2，将超高清视频质量评价数据集中的低分辨率帧图像序列逐帧输入到空域失真特征提取网络的特征提取模块，得到每帧图像的空域失真特征；

步骤2.3，将每帧图像的空域失真特征输入到空域失真特征提取网络的质量回归模块，得到预测的质量分数；同时将超高清视频质量评价数据集中每帧图像的客观质量分数作为标签，对整个基于深度学习的空域失真特征提取网络进行训练。

5.根据权利要求1所述的一种基于深度强化学习的无参考超高清视频质量客观评价方法，其特征在于，训练基于深度强化学习的超高清视频质量评价网络，训练步骤如下：

步骤3.1，搭建基于DDPG的超高清视频质量评价网络；

步骤3.2，将超高清视频质量评价数据集中的低分辨率帧图像序列逐帧输入到已训练好的空域失真特征提取网络，由其中的特征提取模块输出每帧图像的空域失真特征；

步骤3.3，将所述每帧图像的空域失真特征以及与之对应的历史帧特征、历史质量分数逐帧输入到超高清视频质量评价网络；历史帧特征是指由当前帧之前的所有帧累积的空域失真特征，历史质量分数是指网络预测的截止到前一帧的视频质量分数；第一帧输入时，将历史帧特征设置为与第一帧特征相同，将历史质量分数即初始质量分数设置为1；超高清视频质量评价网络对当前帧的空域失真特征和历史帧特征进行融合，输出新的历史帧特征用于下一时刻的输入；同时还输出质量分数调整值，该质量分数调整值表示当前帧的失真情况对视频质量分数造成的变化幅度；

步骤3.4，将输出的质量分数调整值累加到历史质量分数上，得到当前质量分数；计算当前质量分数与超高清视频质量评价数据集中与当前帧对应的视频质量分数的差值，并将该差值作为奖赏函数回传给深度强化学习网络进行训练；所述当前质量分数还将作为下一时刻的历史质量分数，与下一帧的空域失真特征及历史帧特征一起对基于DDPG的超高清视频质量评价网络进行训练；

步骤3.6，将所有失真视频的低分辨率帧图像序列都按照步骤3.2、3.3、3.4、3.5输入到网络，对基于DDPG的超高清视频质量评价网络进行训练。

6.根据权利要求1所述的一种基于深度强化学习的无参考超高清视频质量客观评价方法，其特征在于，对被测超高清视频进行无参考视频质量评价，步骤如下：

步骤4.1，按照步骤1.2对被测超高清视频进行抽帧，得到帧图像序列；

步骤4.2，按照步骤1.4对帧图像序列中的每一帧进行下采样，得到低分辨率的帧图像序列；

步骤4.3，将低分辨率帧图像序列逐帧输入到训练好的空域失真特征提取网络，得到每一帧的空域失真特征；

步骤4.4，将低分辨率帧图像序列的各帧空域失真特征逐帧输入到训练好的超高清视频质量评价网络，当最后一帧输入后得到的当前质量分数即为整个视频的质量分数。