CN114359784A

CN114359784A - 一种面向视频压缩的人眼恰可察觉失真的预测方法及系统

Info

Publication number: CN114359784A
Application number: CN202111470338.XA
Authority: CN
Inventors: 王伟; 刘焕华; 刘胜宗
Original assignee: Hunan University Of Finance And Economics
Current assignee: Hunan University Of Finance And Economics
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-04-15

Abstract

本发明提供一种面向视频压缩的人眼恰可察觉失真的预测方法及系统，其中，方法包括：获取原视频及所述原视频对应的压缩视频；通过预设基于二分类模型的压缩视频感知失真判别器对所述原视频的时空域融合信息及所述压缩视频的时空域融合信息提取，并对压缩视频进行感知失真判别，得到压缩视频感知失真判别结果集合；其中，所述压缩视频感知失真判别结果集合包括真值和假值；在搜索空间域中，根据搜索策略对所述压缩视频感知失真判别结果集合进行处理，以预测所述原视频在压缩过程中的恰可察觉失真阈值。本发明预测的是整段视频在压缩过程中的恰可察觉感知失真阈值，能更准确反应人眼视觉系统对整段压缩视频质量的感知情况，大大提高了预测准确率。

Description

一种面向视频压缩的人眼恰可察觉失真的预测方法及系统

技术领域

本发明涉及视频处理技术领域，特别是涉及一种面向视频压缩的人眼恰可察觉失真的预测方法及系统。

背景技术

图像/视频压缩是缓解流媒体服务中数据存储与传输压力的重要手段，能有效降低运营商与消费者的成本，促进流媒体服务行业的快速发展。已有的图像/视频编码方法从视觉内容的统计特性出发，主要消除了图像/视频在信号上的冗余以及部分视觉冗余，已达到了相当高的压缩率，难以进一步提升压缩率。视觉心里研究表明，人类视觉系统(HumanVisual System，HVS)对图像和视频质量的感知受到图像和视频的亮度、对比度、纹理、颜色以及运动等多种因素的影响，并且存在空间、时间以及彩色等的掩蔽效应现象，不同的图像产生不同的掩蔽效应，当不同图像发生同等程度的失真时，人眼对其失真的可察觉度不同，恰可察觉失真(Just Noticeable Distortion，JND)为HVS对图像/视频失真的可见性进行度量，JND阈值即为失真可见的最小值。因此若能对HVS的JND感知特性进行研究分析，实现对不同图像/视频内容JND阈值的准确预测并将其合理集成到现有编码方法中，则可在图像/视频压缩中进一步消除视觉冗余，进一步提高压缩率。

已有的JND模型大致可以分为像素域模型、离散余弦变换(Discrete CosineTransform，DCT)域模型和图像/视频级JND模型。像素域模型直接估算每个像素的JND阈值；DCT域模型首先将图像转换到DCT域，然后估计每个子频率系数的JND阈值；图像/视频级JND模型直接预测整幅图像或整个视频的JND阈值。

已有的JND模型主要存在以下不足：1)像素域/DCT域模型估计图像中每一像素/子频率的JND阈值，不能准确反应整个视频的JND阈值，而人眼视觉系统以整个视频为基本感知单元；另外这两类模型主要用来估计原始图像的JND阈值，未考虑失真图像JND阈值的估计，在实际的应用中有受限；2)图像级JND模型未考虑视频时域失真因素，直接预测视频的JND阈值准确率较低；3)已有视频级JND模型依赖手工特征的提取，然而手工特征存在视频表征能力弱的问题，难以适应多样化视频的表征。

发明内容

为解决以上现有技术中的问题，本发明提供一种面向视频压缩的人眼恰可察觉失真的预测方法及系统，预测视频在压缩失真中的JND阈值，提高了JND阈值预测的准确性。

本发明第一方面提供一种面向视频压缩的人眼恰可察觉失真的预测方法，包括：

获取原视频及所述原视频对应的压缩视频；

通过预设基于二分类模型的压缩视频感知失真判别器对所述原视频的时空域融合信息及所述压缩视频的时空域融合信息进行提取，并对所述压缩视频进行感知失真判别，得到压缩视频感知失真判别结果集合；其中，所述压缩视频感知失真判别结果集合包括真值和假值；

在搜索空间域中，根据搜索策略对所述压缩视频感知失真判别结果集合进行处理，以预测所述原视频在压缩过程中的恰可察觉失真阈值。

本发明第二方面提供一种面向视频压缩的人眼恰可察觉失真的预测系统，包括：

视频获取模块，用于获取原视频及所述原视频对应的压缩视频；

压缩视频感知失真判别模块，用于通过预设基于二分类模型压缩视频的感知失真判别器对所述原视频的时空域融合信息及所述压缩视频的时空域融合信息进行提取，并对所述压缩视频进行感知失真判别，得到压缩视频感知失真判别结果集合；其中，所述压缩视频感知失真判别结果集合包括真值和假值；

处理模块，用于在搜索空间域中，根据搜索策略对所述压缩视频感知失真判别结果集合进行处理，以预测所述原视频在压缩过程中的恰可察觉失真阈值。

本发明第三方面提供一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面中任意一项所述的面向视频压缩的人眼恰可察觉失真的预测方法。

本发明第四方面提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述第一方面中任意一项所述的面向视频压缩的人眼恰可察觉失真的预测方法。

与现有技术相比，本发明实施例的有益效果在于：

本发明预测的是整段视频在压缩过程中的恰可察觉感知失真阈值，能更准确反应人眼视觉系统对整段压缩视频质量的感知情况，通过将视频的JND阈值估计问题转换成二分类问题，降低了对视频的JND估计的难度，并从时域以及空域两个维度提取视频失真敏感性特征，最终确定视频级JND阈值，大大提高了预测准确率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明某一实施例提供的一种面向视频压缩的人眼恰可察觉失真的预测方法的应用环境的示意图；

图2是本发明某一实施例提供的一种面向视频压缩的人眼恰可察觉失真的预测方法的流程图；

图3是本发明另一实施例提供的一种面向视频压缩的人眼恰可察觉失真的预测方法的流程图；

图4是本发明某一实施例提供的全参考二分类判别器的框架图；

图5是本发明某一实施例提供的基于时空域特征融合的失真判别网络的框架图；

图6是本发明又一实施例提供的一种面向视频压缩的人眼恰可察觉失真的预测方法的流程图；

图7是本发明某一实施例提供的一种面向视频压缩的人眼恰可察觉失真的预测方法的实验结果图；

图8是本发明另一实施例提供的一种面向视频压缩的人眼恰可察觉失真的预测方法的实验结果图；

图9是本发明某一实施例提供的一种面向视频压缩的人眼恰可察觉失真的预测系统的装置图；

图10是本发明某一实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

第一方面。

请参阅图1，图1为本申请实施例提供的一种应用环境的示意图，如图1所示，该应用环境可以包括业务服务器01、面向视频压缩的人眼恰可察觉失真预测组件02和客户端03。

本发明实施例中，所述业务服务器01可以用于生成面向视频压缩的人眼恰可察觉失真的预测方法，所述预测方法包括：

获取原视频及所述原视频对应的压缩视频。

通过预设基于二分类模型的压缩视频感知失真判别器对所述原视频的时空域融合信息及所述压缩视频的时空域融合信息进行提取，并对所述压缩视频进行感知失真判别，得到压缩视频感知失真判别结果集合。其中，所述压缩视频感知失真判别结果集合包括真值和假值。

本申请涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器和终端设备的数量也不做限制。

本发明实施例中，所述面向视频压缩的人眼恰可察觉失真预测组件02可以用于执行所述数据处理方法，所述面向视频压缩的人眼恰可察觉失真预测组件02可以位于所述业务服务器01，也可以位于其他业务服务器，当所述面向视频压缩的人眼恰可察觉失真预测组件02位于其他业务服务器时，所述业务服务器01可以通过网络等方式访问该其他业务服务器，以获取该其他业务服务器中所述面向视频压缩的人眼恰可察觉失真预测组件02生成的与字段相对应的索引数据。

以下具体介绍面向视频压缩的人眼恰可察觉失真的预测方法的实施例1，请参阅图2，图2是本发明实施例1提供的一种面向视频压缩的人眼恰可察觉失真的预测方法的流程图，包括：

S100、获取原视频及所述原视频对应的压缩视频。

需要说明的是，所述压缩视频为所述原视频的经过压缩处理的视频。

S200、通过预设基于二分类模型的压缩视频感知失真判别器对所述原视频的时空域融合信息及所述压缩视频的时空域融合信息进行提取，并对所述压缩视频进行感知失真判别，得到压缩视频感知失真判别结果集合。其中，所述压缩视频感知失真判别结果集合包括真值和假值。

需要说明的是，所述预设基于二分类模型的压缩视频感知失真判别器为预先进行构建及训练的深度学习神经网络模型。所述时空域融合信息的获取方法为：首先，对视频分别在空域网络及时域网络的特征提取，分别得到空域特征信息及时域特征信息；然后，将所述空域特征信息及所述时域特征信息进行融合处理，从而得到视频的时空域融合信息。

可以理解的是，将所述原视频的时空域融合信息及所述原视频对应的压缩视频的时空域融合信息作为输入信号，输入至所述预设基于二分类模型的压缩视频感知失真判别器中，所述压缩视频感知失真判别器实现对所述压缩视频的失真能否被人眼感知进行二分类判别，所得到的判别结果构成所述压缩视频感知失真判别结果集合，若所述压缩视频的失真能被人眼感知，则判别结果为真值，若所述压缩视频的失真不能被人眼感知，则判别结果为假值。

S300、在搜索空间域中，根据搜索策略对所述压缩视频感知失真判别结果集合进行处理，以预测所述原视频在压缩过程中的恰可察觉失真阈值。

需要说明的是，采用搜索策略，在搜索空间域中预测原视频在视频编码器的压缩过程中的JND阈值，所述视频编码器包括但不限于：H.26X/MPEG、AVS等，所述JND阈值包括但不限于：编码参数(比如QP)、图像的质量指标(比如PSNR，SSIM)等。所述搜索空间域为预设的搜索范围。

本发明实施例1提供的方法，预测的是整段视频在压缩过程中的恰可察觉感知失真阈值，能更准确反应人眼视觉系统对整段压缩视频质量的感知情况，通过将视频的JND阈值估计问题转换成二分类问题，降低了对视频的JND估计的难度，并从时域以及空域两个维度提取视频失真敏感性特征，最终确定视频级JND阈值，大大提高了预测准确率。

本发明实施例2提供一种面向视频压缩的人眼恰可察觉失真的预测方法，其中，步骤S100-S300均与实施例1中的步骤S100-S300相同，优选地，所述预设压缩视频感知失真判别器包括：全参考二分类压缩视频感知失真判别器、半参考二分类压缩视频感知失真判别器及无参考二分类压缩视频感知失真判别器。采用的视频感知失真策略可以是基于整段视频或者基于关键帧的策略。下面以基于关键帧的策略的全参考二分类压缩视频感知失真判别器进行说明。

请参阅图3-4，图3是本发明实施例2提供的一种面向视频压缩的人眼恰可察觉失真的预测方法的流程图，图4是本发明实施例2提供的全参考二分类压缩视频感知失真判别器的框架图。所述步骤S200包括：

S210、通过固定采样步长方法分别对所述原视频及所述压缩视频进行关键帧选择处理，分别得到参考帧候选集及失真帧候选集。

S220、分别在所述参考帧候选集及所述失真帧候选集选取质量低于阈值的帧，得到若干参考帧及若干失真帧。

需要说明的是，所述固定采样步长方法是一种对视频进行关键帧选择的方法，即每间隔n帧选取一帧作为视频的关键帧。

可以理解的是，通过固定采样步长方法对所述原视频进行关键帧选择处理，得到参考帧；示例性的，每间隔5帧选取的关键帧作为原视频的参考帧。通过固定采样步长方法对所述压缩视频进行关键帧选择处理，得到失真帧；示例性的，每间隔5帧选取的关键帧作为压缩视频的失真帧。

S230、根据每一参考帧生成对应的参考帧的时域信息，并根据每一失真帧生成对应的失真帧的时域信息。

需要说明的是，所述时域信息包括但不限于光流图。

S240、将所述参考帧、所述参考帧的时域信息、所述失真帧及所述失真帧的时域信息输入至基于时空域特征融合的失真判别网络，进行帧级感知失真判别，得到基于时空域特征融合的失真判别结果集合。其中，所述基于时空域特征融合的失真判别结果集合包括真值和假值。

具体地，所述步骤S240还包括：

将所述参考帧与所述失真帧进行对比，判断所述失真帧相对于所述参考帧是否能被人眼感知。若所述失真帧相对于所述参考帧能被人眼感知时，则帧级感知失真判别结果为真值。若所述失真帧相对于所述参考帧不能被人眼感知时，则帧级感知失真判别结果为假值。

需要说明的是，所述基于时空域特征融合的失真判别网络为预先进行构建及训练的深度学习神经网络模型。

可以理解的是，将原视频及压缩视频分别挑选出来的关键帧及关键帧对应的时域信息作为输入信号，即将所有的参考帧、所述参考帧的时域信息、失真帧及所述失真帧的时域信息输入至基于时空域特征融合的失真判别网络中，所述基于时空域特征融合的失真判别网络实现对所述失真帧相对于参考帧的失真能否被人眼感知进行判别，所得到的所有的判别结果构成所述基于时空域特征融合的失真判别结果集合，若所述失真帧相对于参考帧的失真能被人眼感知，则判别结果为真值，若所述失真帧相对于参考帧的失真不能被人眼感知，则判别结果为假值。

S250、通过感知失真融合策略，根据所述基于时空域特征融合的失真判别结果集合，对所述视频及所述压缩视频进行视频感知失真判别，得到压缩视频感知失真判别结果集合。其中，所述感知失真融合策略包括：投票机制。

具体地，所述步骤S250包括：

判断基于时空域特征融合的失真判别结果为真值的失真帧相对于所述参考帧的占比与感知失真阈值的大小关系。若所述失真帧相对于所述参考帧的占比大于等于所述感知失真阈值，则所述视频感知失真判别结果为真值。若所述失真帧相对于所述参考帧的占比小于所述感知失真阈值，则所述视频感知失真判别结果为假值。

需要说明的是，所述投票机制是针对分类问题的一种结合策略。

可以理解的是，采用投票机制对帧级失真能否被人眼感知进行判别，当基于时空域特征融合的失真判别结果集合中的真值数量超过感知失真阈值时，即帧级失真能被人眼感知，则视频感知失真判别结果为真值，当基于时空域特征融合的失真判别结果集合中的真值数量未超过阈值时，即帧级失真不能被人眼感知，则视频感知失真判别结果为假值。示例性的，采用投票机制对视频失真能否被人眼感知进行判别，当大于或等于60％的关键帧为失真能被感知时，该视频则为失真能被人眼感知，否则，视频失真为不能被人眼感知。

本发明实施例2提供的方法，采用深度学习的方法来构建基于时空域特征融合的失真判别网络，确定视频的JND阈值，提升了视频的JND阈值预测的准确性。

在本发明实施例2提供的一种面向视频压缩的人眼恰可察觉失真的预测方法的某一具体实施方式中，所述步骤S100-S300及步骤S210-S240均与实施例2相同，优选地，所述步骤S230之前，还包括：建立基于时空域特征融合的失真判别网络。

所述建立基于时空域特征融合的失真判别网络，包括：

步骤一：根据预设分块规则，分别对所述参考帧及所述失真帧进行分块处理，得到对应的参考帧分块集合及失真帧分块集合。

需要说明的是，所述预设分块规则为对关键帧分块，采用无重叠、分块间隔为预设数量个像素的分块方式，并设置分块大小。示例性的：对关键帧分块，采用无重叠、分块间隔为10个像素的分块方式，块大小设置为32×32，其中，32表示像素值为32。

步骤二：根据质量最差优先选择原则，分别在所述参考帧分块集合和所述失真帧分块集合中选取预设数量个参考帧分块和预设数量个失真帧分块，并分别根据选出的参考帧分块及失真帧分块，生成参考帧分块时域信息及失真帧分块时域信息。

可以理解的是，质量最差优先选择原则可以是PSNR值最小优先选择原则。示例性的，采用PSNR值最小优先选择原则，选取PSNR最小的64块以及其相对应的光流块作为网络的输入。

步骤三：通过低层语义空域特征提取卷积神经网络分别对所述参考帧分块和所述失真帧分块进行特征提取，得到对应的参考帧低层空域特征集合和失真帧低层空域特征集合。

可以理解的是，所述低层语义空域特征提取卷积神经网络包括四个卷积层提取块的低层空域特征，每两个卷积层后跟一个最大池化层，卷积核的大小设置为2×2，步长为2×2。第一、二个卷积层中卷积核数量设置为32，第三、四个卷积层卷积核数量设置为64，从参考帧和失真帧中提取的低层空域特征分别表示

和

步骤四：通过低层语义时域特征提取卷积神经网络分别对所述参考帧分块时域信息和所述失真帧分块时域信息进行特征提取，得到对应的参考帧低层时域信息特征集合和失真帧低层时域信息特征集合。

可以理解的是，所述低层语义时域特征提取卷积神经网络包括四个卷积层提取块的低层空域特征，每两个卷积层后跟一个最大池化层，卷积核的大小设置为2×2，步长为2×2。第一、二个卷积层中卷积核数量设置为32，第三、四个卷积层卷积核数量设置为64，从参考帧分块时域信息和失真帧分块时域信息中提取的时域特征分别记为

和

步骤五：根据特征融合方法，对所述参考帧低层空域特征集合、所述失真帧低层空域特征集合、所述参考帧低层时域信息特征集合及所述失真帧低层时域信息特征集合进行特征融合，得到低层时空域特征集合。

可以理解的是，将低层空域特征(

和

)与低层时域特征(

和

)组合在一起形成低层时空域特征集合。

步骤六：通过高层语义时空域特征提取网络对所述低层时空域特征集合进行特征提取，得到高层时空域特征集合。

可以理解的是，采用高层语义时空域特征提取网络以步骤五的输出作为输入提取高层时空域特征，包括六个卷积层，内核大小设置3×3，步长为1×1，填充设置为“SAME”类型，激活函数设置为Relu函数，每经过两个卷积层，卷积核数量增加一倍，提取参考以及失真高级时空特征分别记为

和

高层时空域特征集合为

步骤七：通过块权重评估网络和块质量预测网络，分别对所述高层时空域特征集合进行权重估计和质量预测，对应得到权重值及质量分数。

可以理解的是，所述块权重评估网络，即包括512个神经元的全连接网络，以步骤六中得到的F_ST为输入，估计每一个块的权重λ_i,其中i∈[1,2,……,32]是块的索引，λ_i是正则化的，即∑λ_i＝1。所述块质量预测网络以步骤六中得到的F_ST为输入，估计每一个块的质量分数。

步骤八：通过加权算法，对所述权重值及质量分数进行计算，并将计算结果输入至Sigmod函数，得到帧级感知失真判别网络。

可以理解的是，通过加权方式得到关键帧的质量，记为

并将得到的结果输入Sigmod函数完成二分类。

请参阅图5，图5是本发明实施例2提供的基于时空域特征融合的失真判别网络的框架图，可以理解的是，所述基于时空域特征融合的失真判别网络，还可以通过以下步骤a)-i)进行建立：

a)对关键帧分块，采用无重叠、分块间隔为10个像素的分块方式，块大小设置为32×32，采用PSNR值最小优先选择原则，选取PSNR最小的64块以及其相对应的光流块作为网络的输入。

b)采用空域网络包括四个卷积层提取块的低层空域特征，每两个卷积层后跟一个最大池化层，卷积核核大小设置为2×2，步长为2×2。第一、二个卷积层中卷积核数量设置为32，第三、四个卷积层卷积核数量设置为64，从参考帧和失真帧中提取的低层空域特征分别表示

和

c)采用时域网络提取块的低层空域特征，采用步骤b)中的配置，从参考光流图和失真光流图中提取的时域特征分别记为

和

d)将低层空域特征(

和

)与低层时域特征(

和

)组合在一起形成低层时空域低层特征。

e)采用时空域特征提取网络以步骤d)的输出作为输入提取高层时空域特征，包括六个卷积层，内核大小设置3×3，步长为1×1，填充设置为“SAME”类型，激活函数设置为Relu函数，每经过两个卷积层，卷积核数量增加一倍，提取参考以及失真高级时空特征分别记为

和

组合为

f)块权重评估网络，即包括512个神经元的全连接网络，以步骤e)中得到的F_ST为输入，估计每一个块的权重λ_i,其中i∈[1,2,……,32]是块的索引，λ_i是正则化的，即∑λ_i＝1。

g)块质量预测网络步骤e)中得到的F_ST为输入，预测每一个块的质量分数。

h)通过加权方式得到关键帧的质量，记为

i)将步骤h)得到的结果输入Sigmod函数完成二分类。

所述基于时空域特征融合的失真判别网络，还可以通过以下步骤进行模型训练：

(一)损失函数设计。将判别器F(I_ref,I_d)的端到端映射表示为

其中

表示参考关键帧，压缩帧，参考光流和压缩光流图，β是要优化的参数集，训练样本记为

其中L_t表示参考数据标签选择交叉熵损失设计为最小化目标，表达为

其中I＝frtr,frtd,optr,optd。

(二)训练样本生成。

样本数据集的划分。将视频JND数据集VideoSet源视频及其相应的压缩视频以随机方式平均分为五个部分(D₁,D₂,D₃,D₄,D₅)，其中四个子集用于训练，剩下一个子集用于测试。

正负样本生成。生成感知失真有损样本

和感知无损样本

其中V^ref，

和

分别表示参考视频、感知有损视频和感知无损视频。参考视频V^ref可以分别选取初始源视频V_orig,VW-JND的第一个参考阈值处的视频V_1st，及第二个参考阈值处的视频是V_2nd。以源视频作为V^ref为例进行说明，QP_i∈[1,…,QP_1st-1]时得到压缩无损视频

QP_i∈[QP_1st+1,…,51]时得到压缩有损视频

(三)学习参数选择。选择Adam算法作为梯度下降方法，学习效率初始化为1×10^-4，mini-batch设定为4，处里完一个mini-batch所有参数更新一次。

在本发明实施例2的优选实施方式提供的方法，采用深度学习的方法来构建基于双流的感知失真预测网络，从时域以及空域两个维度提取视频失真敏感性特征，最终确定视频级JND阈值，提升了视频级JND阈值预测的准确性。

本发明实施例3提供一种面向视频压缩的人眼恰可察觉失真的预测方法，其中，步骤S100-S300均与实施例1中的步骤S100-S300相同，优选地，所述搜索策略包括：顺序搜索策略及二分法搜索策略。下面以二分法搜索策略对所述感知失真判别结果集合进行处理，以预测所述视频在压缩过程中的恰可察觉失真阈值进行说明。

请参阅图6，JND阈值为视频压缩中压缩质量控制参数QP，QP值的变化范围是[QP_ref+1,QP_ref+2,…,51]，其中QP_ref表示参考视频的QP值，QP_ref+1表示搜索起始位置，QP_low和QP_high表示搜索空间的上下界，QP_mid表示搜索空间的中点。所述步骤S300包括：

S310、设置视频压缩中的压缩质量控制参数的上限值及下限值。

需要说明的是，所述压缩质量控制参数的上限值为所述搜索空间的上界QP_high，所述压缩质量控制参数的下限值为所述搜索空间的下界QP_low；即，设置QP_low＝QP_ref+1，QP_high＝51。

S320、判断所述下限值是否小于等于上限值。

S330、若所述下限值小于等于上限值，则设置压缩质量控制参数的滑动值为所述上限值和下限值的平均值。

需要说明的是，所述压缩质量控制参数的滑动值为所述搜索空间的中点QP_mid。即，判断QP_low≤QP_high是否成立，如果成立，则QP_mid＝(QP_low+QP_high)/2。否则跳出搜索过程。

S340、根据所述压缩视频感知失真判别结果进行判断。

S350、若所述压缩视频感知失真判别结果为真值，则更新所述下限值及所述上限值，并重新判断所述下限值是否小于等于上限值，当所述下限值大于上限值时，停止搜索，并将下限值大于上限值时的压缩质量控制参数的滑动值作为恰可察觉失真阈值。

S360、若所述压缩视频感知失真判别结果为假值，则将压缩质量控制参数的滑动值作为恰可察觉失真阈值。

需要说明的是，感知失真判别器判别失真视频V_mid相对于参考视频V_ref的失真能否被人眼感知，若失真能被人眼感知，即

时，当

更新QP_high＝QP_mid-1；若失真不能被人眼感知，即

更新QP_low＝QP_mid+1；当

停止搜索，恰可察觉失真JND阈值预测值为QP_JND＝QP_mid，并且返回QP_JND。

S370、若所述下限值大于上限值，则设置压缩质量控制参数的滑动值为所述上限值和下限值的平均值，并将压缩质量控制参数的滑动值作为恰可察觉失真阈值。

本发明实施例3提供方法，通过二分法搜索策略的算法降低了搜索的复杂度，提高了搜索效率，减少了搜索时间。

本方法已经完成了实验，实验的软件环境为windows 10、python3.5.2以及tensorflow1.2，硬件环境为装有NVIDIA GTX1080Ti GPU、64G内存的PC机。为了训练本发明提出的感知失真判别器(TS-PLLPN)，我们将将源视频及其相应的压缩视频以随机方式平均分为五子集(D₁,D₂,D₃,D₄，D₅)，任选其中四个子集用于训练，剩下一个子集用于测试。然后生成感知有损样本

和感知无损样本

其中V^ref，

和

分别表示参考视频、感知有损样本和感知无损样本。参考视频V^ref可以是源视频V_orig,第一个视频级JND阈值V_1st以及第二个视频级JND阈值V_2nd。以源视频作为V^ref为例进行说明，QP_i∈[1,…,QP_1st-1]时得到无损视频

QP_i∈[QP_1st+1,…,51]时得到压缩有损视频

在源参考视频上生成的样本训练得到的二分类器记为P_orig，用来预测第一个视频级JND阈值。

表1显示了测试视频集D₁上的第一个VW-JND预测结果，其中包括绝对预测误差的均值和方差，我们用|ΔQP|，|ΔPSNR|，|ΔSSIM|表示QP，PSNR和SSIM的预测误差。从均值部分可以看出，EJNDM的平均预测误差为(4.58、2.30、4.85×10^-3)，PW-SUR-Net方法的预测误差为(3.07、1.47、4.06×10^-3)，PW-JND方法的预测误差为(2.14、1.05、1.96×10^-3)，本发明提出的模型预测误差为(1.79、0.86、1.56×10^-3)，因此可以得出本发明提出的预测方法最优。

表1

图7-8显示了测试数据集D₁中不同方法的预测偏差，其中图7为在QP上的预测偏差，图8是在PSNR上的预测误差，其中条形线(ΔQP＝0)，圆线，上三角线，下三角线和菱形线表示理想情况，EJNDM，SUR-Net，PW-JND和本发明提出的方法。从图5可以看出，EJNDM模型有较多的预测点远离理想情况，SUR-Net模型比ENDM模型的表现好，PW-JND模型比SUR-Net模型表现好，本发明提出的模型预测最准确，且|ΔQP|值大部分为是1或2，准确率非常高，可以用于实际应用。

第二方面。

请参阅图9，图9是本发明实施例4提供的一种面向视频压缩的人眼恰可察觉失真的预测系统的装置图，包括：

视频获取模块100，用于获取原视频及所述原视频对应的压缩视频。

压缩视频感知失真判别模块200，用于通过预设基于二分类模型的压缩视频感知失真判别器对所述原视频的时空域融合信息及所述压缩视频的时空域融合信息进行提取，并对所述压缩视频进行感知失真判别，得到压缩视频感知失真判别结果集合。其中，所述压缩视频感知失真判别结果集合包括真值和假值。

可以理解的是，将所述原视频及所述原视频对应的压缩视频作为输入信号，输入至所述预设基于二分类模型的压缩视频感知失真判别器中，所述压缩视频感知失真判别器实现对所述压缩视频的失真能否被人眼感知进行二分类判别，所得到的判别结果构成所述压缩视频感知失真判别结果集合，若所述压缩视频的失真能被人眼感知，则判别结果为真值，若所述压缩视频的失真不能被人眼感知，则判别结果为假值。

处理模块300，用于在搜索空间域中，根据搜索策略对所述压缩视频感知失真判别结果集合进行处理，以预测所述原视频在压缩过程中的恰可察觉失真阈值。

需要说明的是，采用搜索策略，在在搜索空间域中预测原视频在视频编码器的压缩过程中的JND阈值，所述视频编码器包括但不限于：H.26X/MPEG、AVS等，所述JND阈值包括但不限于：编码参数(比如QP)、图像的质量指标(比如PSNR，SSIM)等。所述搜索空间域为预设的搜索范围。

本发明实施例4提供的系统，预测的是整段视频在压缩过程中的恰可察觉感知失真阈值，能更准确反应人眼视觉系统对整段压缩视频质量的感知情况，通过将视频的JND阈值估计问题转换成二分类问题，降低了对视频的JND估计的难度，并从时域以及空域两个维度提取视频失真敏感性特征，最终确定视频级JND阈值，大大提高了预测准确率。

本发明实施例5提供一种面向视频压缩的人眼恰可察觉失真的预测系统，其中，模块100-300均与实施例4中的模块100-300相同，优选地，所述预设压缩视频感知失真判别器包括：全参考二分类压缩视频感知失真判别器、半参考二分类压缩视频感知失真判别器及无参考二分类压缩视频感知失真判别器。采用的视频感知失真策略可以是基于整段视频或者基于关键帧的策略。下面以基于关键帧的策略的全参考二分类压缩视频感知失真判别器进行说明。

所述感知失真判别模块200，还用于执行步骤S210-S250：

优选地，所述步骤S240还包括：

优选地，所述步骤S250包括：

本发明实施例5提供的系统，采用深度学习的方法来构建基于时空域特征融合的失真判别网络，确定视频级JND阈值，提升了视频级JND阈值预测的准确性。

在本发明实施例5提供的一种面向视频压缩的人眼恰可察觉失真的预测系统的某一具体实施方式中，所述模块100-300与实施例5相同，优选地，所述感知失真判别模块200，还用于：建立基于时空域特征融合的失真判别网络。具体地：

(一)损失函数设计。将判别器F(I_ref,I_d)的端到端映射表示为

其中

其中I＝frtr,frtd,optr,optd。

(二)训练样本生成。

正负样本生成。生成感知失真有损样本

和感知无损样本

其中V^ref，

和

QP_i∈[QP_1st+1,…,51]时得到压缩有损视频

在本发明实施例5的优选实施方式提供的系统，采用深度学习的方法来构建基于双流的感知失真预测网络，从时域以及空域两个维度提取视频失真敏感性特征，最终确定视频级JND阈值，提升了视频级JND阈值预测的准确性。

本发明实施例6提供一种面向视频压缩的人眼恰可察觉失真的预测系统，其中，模块100-300均与实施例4中的模块100-300相同，优选地，所述搜索策略包括：顺序搜索策略及二分法搜索策略。下面以二分法搜索策略对所述感知失真判别结果集合进行处理，以预测所述视频在压缩过程中的恰可察觉失真阈值进行说明。

JND阈值为视频压缩中压缩质量控制参数QP，QP值的变化范围是[QP_ref+1,QP_ref+2,…,51]，其中QP_ref表示参考视频的QP值，QP_ref+1表示搜索起始位置，QP_low和QP_high表示搜索空间的上下界，QP_mid表示搜索空间的中点。处理模块300，还用于执行步骤S310-S370：

S320、判断所述下限值是否小于等于上限值。

S340、根据所述压缩视频感知失真判别结果进行判断。

本发明实施例6提供系统，通过二分法搜索策略的算法降低了搜索的复杂度，提高了搜索效率，减少了搜索时间。

第三方面。

本发明提供了一种电子设备，该电子设备包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，可执行指令使处理器执行如本申请的第一方面所示的一种面向视频压缩的人眼恰可察觉失真的预测方法对应的操作。

在一个可选实施例中提供了一种电子设备，如图10所示，图10所示的电子设备5000包括：处理器5001和存储器5003。其中，处理器5001和存储器5003相连，如通过总线5002相连。可选地，电子设备5000还可以包括收发器5004。需要说明的是，实际应用中收发器5004不限于一个，该电子设备5000的结构并不构成对本申请实施例的限定。

第四方面。

本发明提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的一种面向视频压缩的人眼恰可察觉失真的预测方法。

Claims

1.一种面向视频压缩的人眼恰可察觉失真的预测方法，其特征在于，包括：

获取原视频及所述原视频对应的压缩视频；

2.如权利要求1所述的一种面向视频压缩的人眼恰可察觉失真的预测方法，其特征在于，所述通过预设基于二分类模型的压缩视频感知失真判别器对所述原视频的时空域融合信息及所述压缩视频的时空域融合信息进行提取，并对所述压缩视频进行感知失真判别，得到压缩视频感知失真判别结果集合，包括：

通过固定采样步长方法分别对所述原视频及所述压缩视频进行关键帧选择处理，分别得到参考帧候选集及失真帧候选集；

分别在所述参考帧候选集及所述失真帧候选集选取质量低于阈值的帧，得到若干参考帧及若干失真帧；

根据每一参考帧生成对应的参考帧的时域信息，并根据每一失真帧生成对应的失真帧的时域信息；

将所述参考帧、所述参考帧的时域信息、所述失真帧及所述失真帧的时域信息输入至基于时空域特征融合的失真判别网络，进行帧级感知失真判别，得到基于时空域特征融合的失真判别结果集合；其中，所述基于时空域特征融合的失真判别结果集合包括真值和假值；

通过感知失真融合策略，根据所述基于时空域特征融合的失真判别结果集合，对所述压缩视频进行感知失真判别，得到压缩视频感知失真判别结果集合；其中，所述感知失真融合策略包括：投票机制。

3.如权利要求2所述的一种面向视频压缩的人眼恰可察觉失真的预测方法，其特征在于，所述将所述参考帧、所述参考帧的时域信息、所述失真帧及所述失真帧的时域信息输入至基于时空域特征融合的失真判别网络，进行帧级感知失真判别，包括：

将所述参考帧与所述失真帧进行对比，判断所述失真帧相对于所述参考帧是否能被感知；

若所述失真帧相对于所述参考帧能被感知时，则帧级感知失真判别结果为真值；

若所述失真帧相对于所述参考帧不能被感知时，则帧级感知失真判别结果为假值。

4.如权利要求2所述的一种面向视频压缩的人眼恰可察觉失真的预测方法，其特征在于，所述通过感知失真融合策略，根据所述基于时空域特征融合的失真判别结果集合，对所述原视频及所述压缩视频进行视频感知失真判别，得到压缩视频感知失真判别结果集合，包括：

判断基于时空域特征融合的失真判别结果为真值的失真帧相对于所述参考帧的占比与感知失真阈值的大小关系；

若所述失真帧相对于所述参考帧的占比大于等于所述感知失真阈值，则所述视频感知失真判别结果为真值；

若所述失真帧相对于所述参考帧的占比小于所述感知失真阈值，则所述视频感知失真判别结果为假值。

5.如权利要求2所述的一种面向视频压缩的人眼恰可察觉失真的预测方法，其特征在于，所述将所述参考帧、所述参考帧的时域信息、所述失真帧及所述失真帧的时域信息输入至基于时空域特征融合的失真判别网络之前，还包括：

建立基于时空域特征融合的失真判别网络；具体地：

根据预设分块规则，分别对所述参考帧及所述失真帧进行分块处理，得到对应的参考帧分块集合及失真帧分块集合；

根据质量最差优先选择原则，分别在所述参考帧分块集合和所述失真帧分块集合中选取预设数量个参考帧分块和预设数量个失真帧分块，并分别根据选出的参考帧分块及失真帧分块，生成参考帧分块时域信息及失真帧分块时域信息；

通过低层语义空域特征提取卷积神经网络分别对所述参考帧分块和所述失真帧分块进行特征提取，得到对应的参考帧低层空域特征集合和失真帧低层空域特征集合；

通过低层语义时域特征提取卷积神经网络分别对所述参考帧分块时域信息和所述失真帧分块时域信息进行特征提取，得到对应的参考帧低层时域信息特征集合和失真帧低层时域信息特征集合；

根据特征融合方法，对所述参考帧低层空域特征集合、所述失真帧低层空域特征集合、所述参考帧低层时域信息特征集合及所述失真帧低层时域信息特征集合进行特征融合，得到低层时空域特征集合；

通过高层语义时空域特征提取网络对所述低层时空域特征集合进行特征提取，得到高层时空域特征集合；

通过块权重评估网络和块质量预测网络，分别对所述高层时空域特征集合进行权重估计和质量预测，对应得到权重值及质量分数；

通过加权算法，对所述权重值及质量分数进行计算，并将计算结果输入至Sigmod函数，得到帧级感知失真判别网络。

6.如权利要求1所述的一种面向视频压缩的人眼恰可察觉失真的预测方法，其特征在于，所述搜索策略为顺序搜索策略或二分法搜索策略。

7.如权利要求1所述的一种面向视频压缩的人眼恰可察觉失真的预测方法，其特征在于，所述根据搜索策略对所述压缩视频感知失真判别结果集合进行处理，以预测所述原视频在压缩过程中的恰可察觉失真阈值，包括：

设置视频压缩中的压缩质量控制参数的上限值及下限值；

判断所述下限值是否小于等于上限值；

若所述下限值小于等于上限值，则设置压缩质量控制参数的滑动值为所述上限值和下限值的平均值；

根据所述压缩视频感知失真判别结果进行判断；

若所述压缩视频感知失真判别结果为真值，则更新所述下限值及所述上限值，并重新判断所述下限值是否小于等于上限值，当所述下限值大于上限值时，停止搜索，并将下限值大于上限值时的压缩质量控制参数的滑动值作为恰可察觉失真阈值；

若所述压缩视频感知失真判别结果为假值，则将压缩质量控制参数的滑动值作为恰可察觉失真阈值；

若所述下限值大于上限值，则设置压缩质量控制参数的滑动值为所述上限值和下限值的平均值，并将压缩质量控制参数的滑动值作为恰可察觉失真阈值。

8.一种面向视频压缩的人眼恰可察觉失真的预测系统，其特征在于，包括：

压缩视频感知失真判别模块，用于通过预设基于二分类模型的压缩视频感知失真判别器对所述原视频的时空域融合信息及所述压缩视频的时空域融合信息进行提取，并对所述压缩视频进行感知失真判别，得到压缩视频感知失真判别结果集合；其中，所述压缩视频感知失真判别结果集合包括真值和假值；

9.一种电子设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的面向视频压缩的人眼恰可察觉失真的预测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的面向视频压缩的人眼恰可察觉失真的预测方法。