CN112233075A

CN112233075A - 视频清晰度评估方法、装置、存储介质及电子设备

Info

Publication number: CN112233075A
Application number: CN202011062075.4A
Authority: CN
Inventors: 秦天柱; 罗家润; 刘楚蓉; 邬继阳; 郭锐; 谢宗兴
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-15
Anticipated expiration: 2040-09-30
Also published as: CN112233075B

Abstract

本申请实施例公开了一种视频清晰度评估方法、装置、存储介质及电子设备，其中视频清晰度评估方法包括：对待评估视频的视频帧序列进行划分，得到多个子视频帧序列；对各子视频帧序列对应的画面进行清晰度评估；获取各子视频帧序列之间的关联关系；根据各子视频帧序列的清晰度评估结果、及各子视频帧序列之间的关联关系，确定所述待评估视频的整体清晰度评估结果。本方案可预先将视频划分为多个子视频帧序列，既能对各个子视频帧序列进行清晰度的评估又能对视频整体清晰度进行评估，有效评估视频文件的清晰度变化情况，提升了视频质量描述的准确性。

Description

视频清晰度评估方法、装置、存储介质及电子设备

技术领域

本申请涉及信息处理技术领域，具体涉及一种视频清晰度评估方法、装置、存储介质及电子设备。

背景技术

随着互联网的兴起和移动通信网络的发展，网络平台中各种形式的视频内容越来越丰富，如各种短视频、长视频等。而对于视频各项质量指标(如清晰度、画面内容等)的评估也是越来越严格。

相关技术中，在进行视频清晰度评估时通常针对的是整个视频的清晰度，只给出一个整体的评估结果。事实上，在视频播放过程中，随着画面切换其视频清晰度也会产生变化。例如，某视频大部分时间段清晰度很高，而某段时间中由于场景切换过快或人物动作幅度过大对画面清晰度造成影响，但视频整体清晰度评估没有问题。可知，现有技术中无法对视频清晰度进行精确描述。

发明内容

本申请实施例提供一种视频清晰度评估方法、装置、存储介质及电子设备，可评估视频的清晰度变化情况，提升视频质量描述的准确性。

本申请实施例提供了一种视频清晰度评估方法，包括：

从待评估视频的视频帧序列进行划分，得到多个子视频帧序列；

对各子视频帧序列对应的画面进行清晰度评估，得到各子视频帧序列的清晰度评估结果；

获取各子视频帧序列之间的关联关系；

根据各子视频帧序列的清晰度评估结果、及各子视频帧序列之间的关联关系，确定所述待评估视频的整体清晰度评估结果。

相应的，本申请实施例还提供了一种视频清晰度评估方法装置，包括：

划分单元，用于从待评估视频的视频帧序列进行划分，得到多个子视频帧序列；

评估单元，用于对各子视频帧序列对应的画面进行清晰度评估，得到各子视频帧序列的清晰度评估结果；

第一获取单元，用于获取各子视频帧序列之间的关联关系；

确定单元，用于根据各子视频帧序列的清晰度评估结果、及各子视频帧序列之间的关联关系，确定所述待评估视频的整体清晰度评估结果。

在一实施例中，所述划分单元用于：

确定所述待评估视频的播放总时长和播放帧率；

根据所述播放总时长和所述播放帧率，确定需要得到的子视频帧序列的目标数量和每一子视频帧序列的长度；

按照所述长度对所述视频帧序列进行划分，得到所述目标数量的子视频帧序列。

在一实施例中，在根据所述播放总时长和所述播放帧率，确定需要得到的子视频帧序列的目标数量和每一子视频帧序列的长度时，所述划分单元进一步用于：

根据所述播放总时长和指定时间间隔，确定需要得到的子视频序列的目标数量；

根据所述指定时间间隔和所述播放帧率，确定每一子视频帧序列的长度。

在一实施例中，所述划分单元用于：

对所述视频帧序列中的每一视频帧进行场景识别；

根据场景识别结果对所述视频帧序列进行划分，得到多个子视频帧序列

在一实施例中，在根据场景识别结果对所述视频帧序列进行划分，得到多个子视频帧序列时，所述划分单元进一步用于：

根据视频帧序列中视频帧的播放时序，至少将场景识别结果相同且播放时序连续的视频帧划分至同一子视频帧序列内，得到多个子视频帧序列。

在一实施例中，所述划分单元用于：

对所述视频帧序列中的每一视频帧进行人脸识别；

根据人脸识别结果对所述视频帧序列进行划分，得到多个子视频帧序列。

在一实施例中，在根据人脸识别结果对所述视频帧序列进行划分，得到多个子视频帧序列时，所述划分单元进一步用于：

根据视频帧序列中视频帧的播放时序，至少将人脸识别结果相同且播放时序连续的视频帧划分至同一子视频帧序列内，得到多个子视频帧序列。

在一些实施例中，所述评估单元用于：

对所述子视频帧序列对应的画面进行特征提取，得到画面特征；

获取预设视频清晰度评估模型以及所述视频序列中各视频帧之间的关联关系；

根据所述画面特征和各视频帧之间的关联关系，采用预设视频清晰度评估模型对所述画面进行清晰度评估，得到所述子视频帧序列的清晰度评估结果。

在一些实施例中，所述装置还包括：

采集单元，用于采集样本视频的样本视频帧序列，并对采集的样本视频帧序列进行划分，得到多个子样本视频帧序列；

标注单元，用于对各子样本视频帧序列的视频清晰度进行标注；

第二获取单元，用于获取基础评估模型，所述基础评估模型包括级联的深度学习模块和直接增强学习模块；

预估单元，用于基于所述深度学习模块预估各子样本视频帧序列的视频清晰度，得到所述子样本视频帧序列的清晰度预估值；

计算单元，用于计算所述样本视频帧序列的清晰度预估值与其对应的真实值之间的差值，并将计算结果作为状态值输入至所述直接增强学习模块中，以便所述直接增强学习模块生成所述基础评估模型的损失函数；

训练单元，用于通过所述损失函数对所述基础评估模型训练的，得到视频清晰度评估模型。

在一些实施例中，各子视频帧序列之间的关联关系包括：播放时序的先后关系；所述确定单元用于：

根据各子视频帧序列播放时序的先后关系，确定各子视频帧序列对应的权重信息；

根据所述权重信息和各子视频帧序列的清晰度评估结果，确定所述待评估视频的整体清晰度评估结果。

在一些实施例中，播放时序相邻的两个子视频帧序列包含有共同的视频帧，且所述共同的视频帧的数量少于所述两个子视频帧序各自包含的视频帧数量。

相应的，本申请实施例还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如上所述视频清晰度评估方法中的步骤。

相应的，本申请实施例还提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述视频清晰度评估方法的步骤。

本申请方案，通过对待评估视频的视频帧序列进行划分，得到多个子视频帧序列；对各子视频帧序列对应的画面进行清晰度评估；获取各子视频帧序列之间的关联关系；根据各子视频帧序列的清晰度评估结果、及各子视频帧序列之间的关联关系，确定所述待评估视频的整体清晰度评估结果。本方案可预先将视频划分为多个子视频帧序列，既能对各个子视频帧序列进行清晰度的评估又能对视频整体清晰度进行评估，有效评估视频文件的清晰度变化情况，提升了视频质量描述的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频清晰度评估方法的一流程示意图。

图2是本申请实施例提供的视频清晰度评估方法的另一流程示意图。

图3为本申请实施例提供的视频清晰度评估方法的系统架构示意图。

图4是本申请实施例提供的视频清晰度评估方法装置的结构示意图。

图5是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。使机器具有感知、推理与决策的功能。机器学习(Machine Learning,ML)是人工智能的核心，其专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。在本方案中，则是通过机器学习的方式使电子设备可对视频在各个时间点的画面进行清晰度打分，使其具备智能分析视频这清晰度质量的能力。

在本方案机器学习的过程中，可首先依据人工经验对样本视频文件的整体清晰度、以及各个时间点的清晰度进行评估，并构建多输入的机器学习模型。然后，将获取的视频文件作为训练样本，并将其划分为多个子视频帧序列对构建的机器学习模型进行训练，在模型中的每个DRL(Deep Reinforcement Learning，深度强化学习)节点，通过调节模型参数使输出的视频文件的清晰度评估结果满足用户需求(即输出的清晰度评估结果贴近人工经验的评估结果)，从而得到训练好的模型。具体实施时，可将待处理的视频文件作为输入，然后对视频文件进行拆分得到多个子视频帧序列，分别输入到模型的各个输入节点，最终输出该视频文件在不同时间点的清晰度、以及视频整体清晰度，从而捕捉到视频随着播放清晰度的变化，实现自动化的挖掘视频清晰度。

例如，在对视频的清晰度进行评估时，可对待评估视频的视频帧序列进行划分，得到多个子视频帧序列。随后，将得到的多个子视频帧序列输入到训练好的模型中各个数据输入节点，通过模型中集成的DNN(Deep Neural Networks，深度学习神经网络)对各子视频帧序列对应的画面进行清晰度评估，得到各子视频帧序列的清晰度评估结果。接着，获取各子视频帧序列之间的关联关系，最后，根据各子视频帧序列的清晰度评估结果、及各子视频帧序列之间的关联关系，确定待评估视频的整体清晰度评估结果。

基于上述问题，本申请实施例提供一种视频清晰度评估方法、装置、存储介质及电子设备，可基于DDRN(Deep Direct Reinforcement Network)深度增强学习的无参考单视频清晰度算法，可同时为视频的清晰度整体打分、及逐秒智能打分，可自动化获取并剖析视频的清晰度，提升整体视频质量。以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。

在一实施例中，将以该第一视频清晰度评估方法装置集成在电子设备中的角度进行描述。请参阅图1，图1为本申请实施例提供的视频清晰度评估方法的一种流程示意图。该视频清晰度评估方法的具体流程可以如下：

101、对待评估视频的视频帧序列进行划分，得到多个子视频帧序列。

具体的，视频是互联网多媒体重要内容之一，其主要指包含了实时的音频、视频信息的多媒体文件。在本实施例中，视频中包括一定数量的静态视频图像，通过视频清晰度评估技术可将该一定数量的静态视频图像以视频的形式呈现。当连续的视频图像变化每秒超过一定帧数(通常为24帧)画面以上时，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果，这样连续的画面叫做视频。

在本实施例中，该视频可以按照指定帧率(如30帧/秒、50帧/秒等)进行播放，以供用户观看视频画面。实际应用中，若该视频为源视频(如RVW格式)，则该视频的视频帧序列可以由于源视频的所有图像帧构成；若该视频为将源视频文件(如RVW格式)转码为指定格式(如MP4格式)后的视频，则该视频的视频帧序列可以由该指定格式视频的所有图像帧构成。

本实施例中，在对待评估视频的视频帧序列进行划分的方式可以包括多种。例如，可以按照指定时间间隔进行划分；又例如，可以根据视频画面所展示的具体内容进行划分。

在一些实施例中，步骤“对待评估视频的视频帧序列进行划分，得到多个子视频帧序列”，可以包括以下流程：

(11)确定待评估视频的播放总时长和播放帧率；

(12)根据播放总时长和播放帧率，确定需要得到的子视频帧序列的目标数量和每一子视频帧序列的长度；

(13)按照该长度对所述视频帧序列进行划分，得到目标数量的子视频帧序列。

具体的，可以获取该待评估视频的属性参数，并从获取的属性参数中提取该待评估视频的播放总时长和播放帧率。子视频帧序列的长度即该子视频帧序列中的视频帧数量。

实际应用中，对于需要得到的子视频帧序列的目标数量，具体可以根据所述播放总时长和指定时间间隔而确定。例如，播放总时长为30秒，指定时间间隔为1秒，则可以确定需要得到的子视频帧序列的目标数量为30；播放总时长为30秒，指定时间间隔为3秒，则可以确定需要得到的子视频帧序列的目标数量为10。对于每一子视频帧序列的长度，可以根据该指定时间间隔和播放帧率而确定。例如，播放总时长为30秒、指定时间间隔为1秒、播放帧率为30帧/秒，则可以确定需要得到的每一子视频帧序列的长度为30帧；播放总时长为30秒、指定时间间隔为3秒、播放帧率为30帧/秒，则可以确定需要得到的每一子视频帧序列的长度为90帧。

在一些实施例中，为了解决因视频某段时间中由于场景切换过快而导致视频清晰度较差的问题，步骤“对待评估视频的视频帧序列进行划分，得到多个子视频帧序列”，可以包括以下流程：

(21)对视频帧序列中的每一视频帧进行场景识别；

(22)根据场景识别结果对视频帧序列进行划分，得到多个子视频帧序列。

其中，该场景可为当前视频帧中显示的内容所构成的场景。本实施例中，在场景分类时可以人物为重心作为场景分类的划分基准。当识别到人物为视频图像的画面主体时，可将该视频图像划分到人像场景，当识别到人物不为视频画面的画面主体时，可将该视频画面归类以其他主体为主的场景。

例如，可以对多帧视频图像进行人脸检测，当检测到人脸时确定人脸区域与所在视频图像的尺寸比例，至少基于该尺寸比例确定该人脸区域所在视频图像的图像场景。其中，该尺寸比例可以是人脸宽度与该视频图像的图像宽度的比值。当该比值大于指定值时，可以认为该视频图像所处的场景为人像场景。当该比值小于指定值时，可以认为该视频图像所处的场景为其他类型的场景。

在一些实施方式中，在还可以对人脸区域所在视频图像进行内容识别，随后，根据内容识别结果和该尺寸比例确定该人脸区域所在视频图像的图像场景。其中，该内容识别结果可以包含该视频图像中识别到的实体信息，如人像、物体、风光、食物等的具体分类标签。基于识别得到分类标签，结合获得的人脸区域比例，可对图像场景的类别进一步划分。

实际应用中，在根据场景识别结果对视频帧序列进行划分，得到多个子视频帧序列时，具体可以根据视频帧序列中视频帧的播放时序，至少将场景识别结果相同且播放时序连续的视频帧划分至同一子视频帧序列内，得到多个子视频帧序列。

在一些实施例中，为了解决因人物动作幅度过大而导致视频清晰度较差的问题，步骤“对待评估视频的视频帧序列进行划分，得到多个子视频帧序列”，可以包括以下流程：

(31)对视频帧序列中的每一视频帧进行人脸识别；

(32)根据人脸识别结果对视频帧序列进行划分，得到多个子视频帧序列。

具体的，对视频帧序列中的每一视频帧进行人脸识别时，首先可对视频图像序列中的人脸进行提取，然后利用人脸识别算法提取各人脸的人脸特征，并将相邻视频帧中提取出的人脸进行特征对比，以识别是否属于同一张人脸。

实际应用中，在根据人脸识别结果对视频帧序列进行划分，得到多个子视频帧序列时，具体可以根据视频帧序列中视频帧的播放时序，至少将人脸识别结果相同且播放时序连续的视频帧划分至同一子视频帧序列内，得到多个子视频帧序列。

可以理解，步骤“对待评估视频的视频帧序列进行划分，得到多个子视频帧序列”中，也可以根据特定目标对象，如猫、狗、地标等，对视频帧序列中的每一视频帧进行目标对象识别，并根据目标对象识别结果对视频帧序列进行划分。

在本实施例中，播放时序相邻的两个子视频帧序列包含有共同的视频帧，且共同的视频帧的数量少于两个子视频帧序各自包含的视频帧数量。也即，相邻的两个子视频帧序列之间存在交叉，以便后续可以将场景切换、画面内容(如人物)变更等因素考虑到清晰度评估之中，提升单个子视频帧序列清晰度评估的准确性。

102、对各子视频帧序列对应的画面进行清晰度评估，得到各子视频帧序列的清晰度评估结果。

请参阅图2，图2是本申请实施例提供的视频清晰度评估方法的另一流程示意图。具体的，在对各子视频帧序列对应的画面进行清晰度评估，得到各子视频帧序列的清晰度评估结果时，可以包括以下步骤：

1021、对子视频帧序列对应的画面进行特征提取，得到画面特征；

1022、获取预设视频清晰度评估模型以及视频序列中各视频帧之间的关联关系；

1023、根据画面特征和各视频帧之间的关联关系，采用预设视频清晰度评估模型对画面进行清晰度评估，得到子视频帧序列的清晰度评估结果。

其中，各视频帧之间的关联关系为各视频帧之间播放时序的先后关系。

在对子视频帧序列对应的画面进行特征提取时，可根据实际需求(指具体需要图像的哪些特征)采用相应的提取算法进行图像特征的提取。例如，可根据实际需求，对一视频帧提取图像哈希值(也称哈希指纹)、局部特征，以及生成视频帧对应的灰度图特征。

实际应用中，在提取图像哈希指纹时，可采用phash算法进行特征提取。另外，还可以采用avhash算法、dhash算法等方法进行特征提取。此外，为加特征快提取速度，还可以同时采用时多个哈希指纹提取算法提取多个哈希指纹。

在提取图像局部特征时，可采用orb算子从视频序列中的每一视频图像中提取多个局部特征。另外，还可以采用surf算子、sift算子等方法进行图像局部特征的提取。此外，还可以同时采用上述多个局部特征提取算法提取多种局部特征。在本实施例中，对于单色图等局部特征数目较少的视频图像，可对其进行标记。

在生成视频帧对应的灰度图特征时，可将视频图像转换为大小为N*M的压缩灰度图。其中，M、N的取值一般在1-256之间。转换后灰度图的长宽比例可保持与原视频图像的长宽比例相同。例如，480*270的原视频图像，可将其压缩调整为240*135的灰度图。当然，也可以选择M＝N，其值大小受后续计算灰度差特征时的速度影响，值越小则计算速度越快。

在一些实施例中，对画面进行清晰度评估时，可以按照子视频帧序列中各视频帧的排列顺序，确定相邻的视频图像对。然后，获取每一视频图像对之间的差异特征，并基于获取的差异特征，对应按照上述排列顺序进行排序，以得到差异特征序列。最后，采用预先训练好的DNN网络对得到的差异特征序列进行评估，以确定子视频帧序列的清晰度。

例如，该子视频帧序列为：{视频帧a，视频帧b，视频帧c，视频帧d，视频帧e}，则可以包括四对相邻视频帧对，分别为：视频帧a与视频帧b，视频帧b与视频帧c，视频帧c与视频帧d，视频帧d与视频帧e。然后，可获取视频帧a与视频帧b之间的差异特征x1、视频帧b与视频帧c之间的差异特征x2、视频帧c与视频帧d之间的差异特征x3、视频帧d与视频帧e之间的差异特征x4。最后，基于差异特征x1、差异特征x2、差异特征x3、差异特征x4，生成特征序列为：{差异特征x1，差异特征x2，差异特征x3，差异特征x4}。

另外，在一些实施例中，还可以将各自视频帧序列中的视频帧压缩成RGB图，后续计算相邻RGB图之间的色差值作为差异特征。

在本实施例中，需要预先训练好用于清晰度评估的视频清晰度评估模型。具体的，可以采集样本视频的样本视频帧序列，并对采集的样本视频帧序列进行划分，得到多个子样本视频帧序列，然后对各子样本视频帧序列的视频清晰度进行标注，再获取基础评估模型，其中，基础评估模型包括级联的深度学习模块和直接增强学习模块。基于深度学习模块预估各子样本视频帧序列的视频清晰度，得到子样本视频帧序列的清晰度预估值，并计算样本视频帧序列的清晰度预估值与其对应的真实值之间的差值，并将计算结果作为状态值输入至所述直接增强学习模块中，以便直接增强学习模块生成基础评估模型的损失函数。最后，通过损失函数对所述基础评估模型训练的，得到视频清晰度评估模型。

103、获取各子视频帧序列之间的关联关系。

在本实施例中，各子视频帧序列之间的关联关系可以包括播放时序的先后关系。具体实施时，可从各子视频帧序列在整个视频序列中的位置所在，来确定各子视频帧序列之间播放时序的先后关系。

具体实施时，可采用LSTM(Long Short-Term Memory，长短期记忆网络)作为主干，自适应的通过遗忘门、输入们和输出们的组合保留视频数据中有价值的高维度特征并向下迭代，充分把握多次节点(即每秒钟多帧数之间的关联)，以解决随着递归和权重指数爆炸出现的梯度小的问题。

104、根据各子视频帧序列的清晰度评估结果、及各子视频帧序列之间的关联关系，确定待评估视频的整体清晰度评估结果。

在一些实施例中，各子视频帧序列之间的关联关系包括：播放时序的先后关系。在根据各子视频帧序列的清晰度评估结果、及各子视频帧序列之间的关联关系，确定待评估视频的整体清晰度评估结果时，可以包括以下步骤：

1041、根据各子视频帧序列播放时序的先后关系，确定各子视频帧序列对应的权重信息；

1042、根据权重信息和各子视频帧序列的清晰度评估结果，确定待评估视频的整体清晰度评估结果。

具体的，本方案中将每个视频的视频帧序列依据播放时长或场景内容进行拆分，分别输入到对应的深度学习网络中，其打分结果分别与真实值做差分计算，并将查分计算结果与上一时间节点(即位于当前子视频帧序列的前一个子视频帧序列)对应的状态(包括打分和查分计算结果)聚合，反向传播迭代深度学习网络，同时将聚合后的状态数据继续向下迭代成为下一个时间节点(即位于当前子视频帧序列下一个子视频帧序列)的状态。最终，使得每个时间点上都有一套完整学习好的策略(policy)给视频清晰度打分，并最终输出一个视频的总的清晰度得分。

本实施例提供的视频清晰度评估方法，通过对待评估视频的视频帧序列进行划分，得到多个子视频帧序列；对各子视频帧序列对应的画面进行清晰度评估；获取各子视频帧序列之间的关联关系；根据各子视频帧序列的清晰度评估结果、及各子视频帧序列之间的关联关系，确定所述待评估视频的整体清晰度评估结果。本方案可预先将视频划分为多个子视频帧序列，既能对各个子视频帧序列进行清晰度的评估又能对视频整体清晰度进行评估，有效评估视频文件的清晰度变化情况，提升了视频质量描述的准确性。

本方案可弥补目前没有专门为视频的各时间点都有清晰度评判的算法的不足，除了可获取整体视频的清晰度水平外，还可以得知视频随着播放清晰度的变化。一方面，可自动化的挖掘视频清晰度，能够捕捉视频从因场景、人物或是内容发生了变化而导致清晰度水平发现变化的问题，也能捕捉视频中由于场景切换过快或人物动作幅度过大带来的不适感。另一方面，可节省人力资源，无需浪费人力去把视频播放完成来判断视频的问题并给出建议，可自动统筹整个视频开发的流程，加快并把控视频生态建设，保证视频清晰度在用户侧反映出来的效果。

参考图3，图3为本申请实施例提供的视频清晰度评估方法的系统架构示意图。下面，将基于该系统架构示意图对本申请中的视频清晰度评估方法进行详细描述。

如图3所示，本申请输入是视频每秒的各帧序列图像。例如，对于一个时长20秒帧率为30帧每秒的待评估视频，可将其拆分成20个部分、每部分一秒钟30帧。在每个DRL节点上通过DNN深度神经网络(包括CNN卷积神经网络和RNN时序神经网络等)学习出对应的打分(Action))，并和该部分的真实结果做差分计算回报(Reward)反向传播给DNN进行迭代训练。每个节点的计算结果和差值作为状态(State)传播给下一个DRL节点。直到最后输出的清晰度得分和对应的真实值(人工评估得到)计算损失函数并反向传播给整个网络进行下一轮的迭代训练。

对于图3提供的视频清晰度评估方法的系统架构，将氛围以下四个部分对其进行详细描述：

(一)视频序列

本申请输入视频每秒的各帧序列图像，例如一个时长20秒帧率为30帧每秒的视频，将其拆分成20个部分每部分一秒钟30帧，即30张序列图片，并将他们全部缩放至相同大小。即每个节点上输入一组序列帧：

I_t∈R^N*C*H*W

其中N为视频每秒帧数、C为图片的通道数(一般RGB视频为3)、H为图片高度，W为图片宽度。

(二)深度学习神经网络–DNN

本申请实施例中的深度学习神经网络将由卷积神经网络(CNN)和时序神经网络(RNN)构成。

其中，卷积神经网络一般由卷积层、池化层和全连接层共同构成，分别起到滑动卷积核做覆盖运算，降采样非线性池化以及输出高维空间特征的作用。其中卷积核池化通常会加上线形整流作为它的激励函数，增强网络的非线性特征。本申请中预计使用ResNet网络作为主干进行对应的全连接层和批标准化修改，作为DNN网络中的重要的学习网络智能学习Policy完成增强学习。

对于时序神经网络，其利用连通图将前一状态的结果保留到下一状态中，和下一次的输入共同向下迭代，充分将前部分的信息逐步迭代，使得每个状态上的信息都被保留，为最后的结果输出保留足够的信息。

本申请预计使用LSTM网络作为主干，可以自适应的通过遗忘门、输入们和输出们的组合保留视频数据中有价值的高维度特征并向下迭代，能够解决随着递归和权重指数爆炸出现的提督小时问题，充分把握多次节点(即每秒钟多帧数之间的关联)。

具体实施时，不同的深度学习神经网络可以通过端到端的方式，合并不同结构的神经网络到一张深度神经网络中。本申请预计先通过卷积神经网络提炼高维视频特征，再用序列视频的在该维度上的特征序列，逐次输入到时序神经网络中充分保留多帧图片之间的联系。

(三)直接增强学习–DRL

增强学习利用马尔科夫决策过程，动态规划和贪婪算法等方式，利用环境的奖励和惩罚，训练一套完整自适应的策略用来最大化过程在环境中的利益。在本申请中，Policy(策略)是通过深度神经网络学习出来，Action(打分)即是通过该策略进行的打分结果，Reward(回报)即是该节点的打分和真实值之间的差别，一般使用交叉熵等损失函数代表。

(四)递归增强学习过程–DDRN

以上所有流程共同构建了递归增强学习过程，每个视频依据秒拆分，分别输入到对应的深度学习网络中，其打分结果分别在DRL节点中计算损失，和前一次DRL节点的状态聚合，并反向传播迭代深度学习网络，每个DRL节点的损失结果继续向下迭代成为下一个DRL节点的状态。最终使得每个时间点上，视频都有一套完整学习好的策略给视频清晰度打分，并最终输出一个视频的总的清晰度得分。

实际应用中，利用以上方案进行视频清晰度评估，其应用场景可以包括多种。例如，本方案可应用于不同场合下的视频推荐。具体的，可通过算法给视频清晰度智能打分，如视频清晰度水平较高可以加大推荐力度，如视频清晰度水平过低可以考虑减少推荐，同时视频清晰度水平数值本身可以作为客观的视频性质作为推荐、分发和其他场合下的参考指标。

又例如，本方案还可应用于定位视频清晰度问题的来源。具体的，可通常源视频体积过大，需要经过转码等处理将视频压缩后才能在网络上给用户观赏，视频从源头拍摄出来到最后呈现给用户时中间有多个处理步骤，为了保证用户看到视频时对视频质量的要求，时常需要定位到视频清晰度在哪个环节降的最严重。通过算法给各个环节的清晰度智能打分，整体把控视频清晰度质量。

再例如，本方案还可应用于监控播放视频时清晰度的变化。具体的，可通过算法给视频清晰度在每一秒上都智能打分，可以更好的监控视频播放中可能会出现的清晰度问题，比如在某一时刻是否发生清晰度骤降，更好的定位到原因。

由上可知，本方案可弥补目前没有专门为视频的各时间点都有清晰度评判的算法的不足，除了可获取整体视频的清晰度水平外，还可以得知视频随着播放清晰度的变化。一方面，可自动化的挖掘视频清晰度，能够捕捉视频从因场景、人物或是内容发生了变化而导致清晰度水平发现变化的问题，也能捕捉视频中由于场景切换过快或人物动作幅度过大带来的不适感。另一方面，可节省人力资源，无需浪费人力去把视频播放完成来判断视频的问题并给出建议，可自动统筹整个视频开发的流程，加快并把控视频生态建设，保证视频清晰度在用户侧反映出来的效果。

为便于更好的实施本申请实施例提供的视频清晰度评估方法，本申请实施例还提供一种基于上述视频清晰度评估方法的装置。其中名词的含义与上述视频清晰度评估方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图4，图4为本申请实施例提供的一种视频清晰度评估方法装置的结构示意图。其中，该视频清晰度评估方法装置400可以集成在电子设备中。该视频清晰度评估方法装置400可以包括划分单元401、评估单元402、第一获取单元403及确定单元404，具体可以如下：

划分单元401，用于从待评估视频的视频帧序列进行划分，得到多个子视频帧序列；

评估单元402，用于对各子视频帧序列对应的画面进行清晰度评估，得到各子视频帧序列的清晰度评估结果；

第一获取单元403，用于获取各子视频帧序列之间的关联关系；

确定单元404，用于根据各子视频帧序列的清晰度评估结果、及各子视频帧序列之间的关联关系，确定所述待评估视频的整体清晰度评估结果。

在一实施例中，所述划分单元401用于：

确定所述待评估视频的播放总时长和播放帧率；

在一实施例中，在根据所述播放总时长和所述播放帧率，确定需要得到的子视频帧序列的目标数量和每一子视频帧序列的长度时，所述划分单元401进一步用于：

在一实施例中，所述划分单元401用于：

对所述视频帧序列中的每一视频帧进行场景识别；

在一实施例中，在根据场景识别结果对所述视频帧序列进行划分，得到多个子视频帧序列时，所述划分单元401进一步用于：

在一实施例中，所述划分单元401用于：

对所述视频帧序列中的每一视频帧进行人脸识别；

在一实施例中，在根据人脸识别结果对所述视频帧序列进行划分，得到多个子视频帧序列时，所述划分单元401进一步用于：

在一些实施例中，所述评估单元402具体可以用于：

在一些实施例中，所述装置还包括：

在一些实施例中，各子视频帧序列之间的关联关系包括：播放时序的先后关系。确定单元404具体可以用于：

本申请实施例提供的视频清晰度评估方法装置，可通过划分单元401对待评估视频的视频帧序列进行划分，得到多个子视频帧序列；评估单元402对各子视频帧序列对应的画面进行清晰度评估；第一获取单元403获取各子视频帧序列之间的关联关系；确定单元404根据各子视频帧序列的清晰度评估结果、及各子视频帧序列之间的关联关系，确定所述待评估视频的整体清晰度评估结果。本方案可预先将视频划分为多个子视频帧序列，既能对各个子视频帧序列进行清晰度的评估又能对视频整体清晰度进行评估，有效评估视频文件的清晰度变化情况，提升了视频质量描述的准确性。

本申请实施例还提供一种电子设备。如图5所示，该电子设备可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，LowNoise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid CrystalDisplay)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图5中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

电子设备还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板和或或背光。

音频电路606、扬声器，传声器可提供用户与电子设备之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如电子设备，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块607，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是电子设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和或或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

电子设备还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

具体在本实施例中，电子设备中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

对待评估视频的视频帧序列进行划分，得到多个子视频帧序列；

获取各子视频帧序列之间的关联关系；

本申请方案提供的电子设备，可预先将视频划分为多个子视频帧序列，既能对各个子视频帧序列进行清晰度的评估又能对视频整体清晰度进行评估，有效评估视频文件的清晰度变化情况，提升了视频质量描述的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频清晰度评估方法中的步骤。例如，该指令可以执行如下步骤：

获取各子视频帧序列之间的关联关系；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频清晰度评估方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频清晰度评估方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的视频清晰度评估方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频清晰度评估方法，其特征在于，包括：

获取各子视频帧序列之间的关联关系；

2.根据权利要求1所述的视频清晰度评估方法，其特征在于，所述对待评估视频的视频帧序列进行划分，得到多个子视频帧序列，包括：

确定所述待评估视频的播放总时长和播放帧率；

3.根据权利要求2所述的视频清晰度评估方法，其特征在于，所述根据所述播放总时长和所述播放帧率，确定需要得到的子视频帧序列的目标数量和每一子视频帧序列的长度，包括：

4.根据权利要求1所述的视频清晰度评估方法，其特征在于，所述对待评估视频的视频帧序列进行划分，得到多个子视频帧序列，包括：

对所述视频帧序列中的每一视频帧进行场景识别；

根据场景识别结果对所述视频帧序列进行划分，得到多个子视频帧序列。

5.根据权利要求4所述的视频清晰度评估方法，其特征在于，所述根据场景识别结果对所述视频帧序列进行划分，得到多个子视频帧序列，包括：

6.根据权利要求1所述的视频清晰度评估方法，其特征在于，所述对待评估视频的视频帧序列进行划分，得到多个子视频帧序列，包括：

对所述视频帧序列中的每一视频帧进行人脸识别；

7.根据权利要求6所述的视频清晰度评估方法，其特征在于，所述根据人脸识别结果对所述视频帧序列进行划分，得到多个子视频帧序列，包括：

8.根据权利要求1所述的视频清晰度评估方法，其特征在于，所述对各子视频帧序列对应的画面进行清晰度评估，得到各子视频帧序列的清晰度评估结果，包括：

9.根据权利要求8所述的视频清晰度评估方法，其特征在于，还包括：

采集样本视频的样本视频帧序列，并对采集的样本视频帧序列进行划分，得到多个子样本视频帧序列；

对各子样本视频帧序列的视频清晰度进行标注；

获取基础评估模型，所述基础评估模型包括级联的深度学习模块和直接增强学习模块；

基于所述深度学习模块预估各子样本视频帧序列的视频清晰度，得到所述子样本视频帧序列的清晰度预估值；

计算所述样本视频帧序列的清晰度预估值与其对应的真实值之间的差值，并将计算结果作为状态值输入至所述直接增强学习模块中，以便所述直接增强学习模块生成所述基础评估模型的损失函数；

通过所述损失函数对所述基础评估模型训练的，得到视频清晰度评估模型。

10.根据权利要求1所述的视频清晰度评估方法，其特征在于，各子视频帧序列之间的关联关系包括：播放时序的先后关系；

所述根据各子视频帧序列的清晰度评估结果、及各子视频帧序列之间的关联关系，确定所述待评估视频的整体清晰度评估结果，包括：

11.根据权利要求1-10任一项所述的视频清晰度评估方法，其特征在于，播放时序相邻的两个子视频帧序列包含有共同的视频帧，且所述共同的视频帧的数量少于所述两个子视频帧序各自包含的视频帧数量。

12.一种视频清晰度评估方法装置，其特征在于，包括：

划分单元，用于对待评估视频的视频帧序列进行划分，得到多个子视频帧序列；

第一获取单元，用于获取各子视频帧序列之间的关联关系；

13.根据权利要求12所述的视频清晰度评估方法装置，其特征在于，所述划分单元用于：

确定所述待评估视频的播放总时长和播放帧率；

14.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1-12任一项所述视频清晰度评估方法的步骤。

15.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-12任一项所述视频清晰度评估方法的步骤。