CN110430425B

CN110430425B - 一种视频流畅度确定方法、装置、电子设备及介质

Info

Publication number: CN110430425B
Application number: CN201910702323.8A
Authority: CN
Inventors: 闫文; 王聪聪
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2021-02-05
Anticipated expiration: 2039-07-31
Also published as: CN110430425A

Abstract

本发明实施例提供了一种视频流畅度确定方法、装置、电子设备及介质，涉及视频检测技术领域，可以更准确地分析视频的流畅度。本发明的实施例包括：按照预设的抽取频率，从待分析视频中抽取样本视频帧。然后计算抽取的样本视频帧中，每两个相邻的样本视频帧的画面相似度。再根据每两个相邻的样本视频帧的画面相似度和所述待分析视频的音频文件，确定待分析视频中的卡顿片段。然后根据对待分析视频的分析结果，确定待分析视频的整体流畅度，其中，分析结果至少包括卡顿片段的卡顿时长。

Description

一种视频流畅度确定方法、装置、电子设备及介质

技术领域

本发明涉及视频检测技术领域，特别是涉及一种视频流畅度确定方法、装置、电子设备及介质。

背景技术

视频播放过程中的流畅度是评价视频质量的一项重要指标，目前在检测视频流畅度时，常用的方法是根据因播放端缺少视频数据造成的卡顿时长，衡量视频的流畅度。但是，引起视频卡顿的原因除了播放端缺少视频数据之外还有一些其他因素。例如：播放端对视频数据解码异常、视频片源异常、以及用户对视频的播放进度调整，清晰度切换操作等。

由于现有技术中从播放端缺少视频数据方面检测视频流畅度，只能检测到由于缺少视频数据导致的视频不流畅，无法检测到由于其他原因导致的视频不流畅，导致确定的视频流畅度不够准确。

发明内容

本发明实施例的目的在于提供一种视频流畅度确定方法、装置、电子设备及介质，以实现更准确地分析视频的流畅度。具体技术方案如下：

第一方面，提供了一种视频流畅度确定方法，所述方法包括：

按照预设的抽取频率，从待分析视频中抽取样本视频帧；

计算抽取的样本视频帧中，每两个相邻的样本视频帧的画面相似度；

根据所述每两个相邻的样本视频帧的画面相似度和所述待分析视频的音频文件，确定所述待分析视频中的卡顿片段；

根据对所述待分析视频的分析结果，确定所述待分析视频的整体流畅度，所述分析结果至少包括所述卡顿片段的卡顿时长。

可选的，在所述按照预设的抽取频率，从待分析视频中抽取样本视频帧之前，所述方法还包括：

根据录制视频中各音频帧的音量，从所述录制视频中确定待分析视频的起始帧和结尾帧，所述录制视频为对所述待分析视频的原始视频的播放过程进行录制得到的视频；

确定所述待分析视频为所述起始帧和所述结尾帧之间的片段。

可选的，所述根据所述每两个相邻的样本视频帧的画面相似度和所述待分析视频的音频文件，确定所述待分析视频中的卡顿片段，包括：

若两个相邻的样本视频帧的画面相似度小于等于第一预设画面相似度阈值且大于第二预设画面相似度阈值，则确定相邻的样本视频帧画面相似；

若画面相似的样本视频帧组成的视频片段对应的音频片段的音量为零，则将画面相似且连续的样本视频帧组成的视频片段中，时长大于预设时长的视频片段，确定为卡顿片段；

或者，若画面相似样本视频帧组成的视频片段对应的音频片段的音量不为零，则从画面相似且连续的样本视频帧组成的视频片段中，筛选出片段流畅度小于预设片段流畅度阈值的视频片段；

将筛选出的视频片段中，时长大于所述预设时长的视频片段，确定为卡顿片段。

可选的，所述从画面相似且连续的样本视频帧组成的视频片段中，筛选出片段流畅度小于预设片段流畅度阈值的视频片段，包括：

识别所述画面相似的样本视频帧中的人脸图像；

计算所述画面相似的样本视频帧中，每两个相邻的样本视频帧中同一个人的人脸图像的人脸相似度；

将人脸相似度大于预设人脸相似度阈值且连续的样本视频帧组成的视频片段，确定为片段流畅度小于所述预设片段流畅度阈值的视频片段。

将所述画面相似的样本视频帧画面划分为各个指定区域；

计算所述画面相似的样本视频帧中，每两个相邻的样本视频帧对应的各个指定区域的区域相似度的加权和；

将加权和大于预设加权和阈值且连续的样本视频帧组成的视频片段，确定为片段流畅度小于所述预设片段流畅度的视频片段。

可选的，所述分析结果还包括：所述待分析视频包括的各卡顿片段对应的音频片段的音量，或者所述待分析视频包括的卡顿片段的数量，所述根据对所述待分析视频的分析结果，确定所述待分析视频的整体流畅度，包括：

根据所述待分析视频包括的各卡顿片段的卡顿时长所处的时长范围，和所述待分析视频包括的各卡顿片段对应的音频片段的音量与预设音量的比较结果，确定所述待分析视频的整体流畅度；

或者，根据所述待分析视频包括的各卡顿片段的卡顿时长所处的时长范围，和所述待分析视频包括的卡顿片段的数量与预设数量的比较结果，确定所述待分析视频的整体流畅度。

第二方面，提供了一种视频流畅度确定装置，所述装置包括：

抽取模块，用于按照预设的抽取频率，从待分析视频中抽取样本视频帧；

计算模块，用于计算所述抽取模块抽取的样本视频帧中，每两个相邻的样本视频帧的画面相似度；

确定模块，用于根据所述每两个相邻的样本视频帧的画面相似度和所述待分析视频的音频文件，确定所述待分析视频中的卡顿片段；

所述确定模块，还用于根据对所述待分析视频的分析结果，确定所述待分析视频的整体流畅度，所述分析结果至少包括所述卡顿片段的卡顿时长。

可选的，所述确定模块，还用于：

在所述按照预设的抽取频率，从待分析视频中抽取样本视频帧之前，根据录制视频中各音频帧的音量，从所述录制视频中确定待分析视频的起始帧和结尾帧，所述录制视频为对所述待分析视频的原始视频的播放过程进行录制得到的视频；

可选的，所述确定模块，具体用于：

识别所述画面相似的样本视频帧中的人脸图像；

可选的，所述确定模块，具体用于：

将所述画面相似的样本视频帧画面划分为各个指定区域；

可选的，所述分析结果还包括：所述待分析视频包括的各卡顿片段对应的音频片段的音量，或者所述待分析视频包括的卡顿片段的数量，所述确定模块，具体用于：

第三方面，提供了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的视频流畅度确定方法步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的视频流畅度确定方法步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的视频流畅度确定方法步骤。

本发明实施例提供的视频流畅度确定方法、装置、电子设备及介质，由于本发明实施例根据每两个相邻的样本视频帧的画面相似度和待分析视频的音频文件，确定待分析视频的卡顿片段，所以待分析视频中由于各种原因形成的卡顿片段都可以被确定，并用于评价待分析视频的整体流畅度，所以本发明实施例可以利用各种原因形成的待分析视频的卡顿片段确定待分析视频整体流畅度。与仅根据一种原因引起的卡顿片段分析视频流畅度相比，本发明实施例可以更准确地确定视频的流畅度。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种视频流畅度确定方法流程图；

图2为本发明实施例提供的一种视频帧画面的示例性示意图；

图3为本发明实施例提供的另一种视频流畅度确定方法流程图；

图4为本发明实施例提供的一种视频流畅度确定装置结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

参见图1，本发明实施例提供的一种视频流畅度确定方法，可以应用于终端，本发明实施例的终端可以为：手机、计算机或平板电脑等电子设备，该方法包括如下步骤：

步骤101，按照预设的抽取频率，从待分析视频中抽取样本视频帧。

在本发明实施例中，在从待分析视频中抽取样本视频帧之前，还需要确定待分析视频。

可选的，可以在待分析视频的原始视频播放前，终端启动录屏操作。预设时间段后关闭录屏操作，或者接收到用户输入的关闭指令时关闭录屏操作。关闭录屏操作后，获得录制视频。

可选的，录屏时可以设置画面每秒传输帧数(Frames Per Second，FPS)＝60。

可以理解的是，录制视频中还包括除待分析视频的原始视频的播放过程以外的视频片段。例如：录制视频中还包括：待分析视频的原始视频播放前，终端自动查找并点击播放待分析视频的过程产生的视频片段；或者终端接收到用户的查找指令时查找待分析视频，以及当检测到用户点击待分析视频的播放按钮时，播放待分析视频的过程产生的视频片段。或者，录制视频中还可以包括：待分析视频的原始视频播放结束后录制的视频片段。

为了更准确地确定待分析视频中包括的卡顿片段，分析待分析视频的流畅度，需要去除录制视频中除待分析视频的原始视频的播放过程以外的视频片段，对待分析视频的流畅度造成的影响。所以需要从录制视频中确定待分析视频。

确定待分析视频的方法为：根据录制视频中各音频帧的音量，从录制视频中确定待分析视频的起始帧和结尾帧，其中，录制视频为对待分析视频的原始视频的播放过程进行录制得到的视频。然后确定待分析视频为起始帧和结尾帧之间的片段。

可选的，可以利用计算机程序(ffmpeg)提取录制视频的音频文件，提取的音频文件格式可以为：中文称脉冲编码调制(Pulse Code Modulation，PCM)格式或者声音文件格式(WAV)。

确定提取的音频文件包括的各音频帧的音量，将第一个音量不为零的音频帧确定为待分析视频的起始帧，将最后一个音量不为零的音频帧确定为待分析视频的结尾帧。

示例性的，可以将一个音频帧包括的各声波振幅的绝对值的和，确定为该音频帧的音量。

一种实施方式中，利用ffmpeg按照预设的抽取频率，从待分析视频中抽取样本视频帧。示例性的，若本发明实施例的终端的操作系统是安卓(andriod)操作系统，则预设的抽帧频率(即FPS)可以为：25。若本发明实施例的终端的操作系统是苹果公司的移动操作系统(IOS)，则预设的抽帧频率(即FPS)可以为：44。

步骤102，计算抽取的样本视频帧中，每两个相邻的样本视频帧的画面相似度。

在本发明实施例中，在确定每两个相邻的样本视频帧的画面相似度之前，还需要对各样本视频帧进行去干扰处理。

可以理解的，待分析视频包括的各样本视频帧画面中除了原始视频图像以外，还包括其他用户界面(User Interface，UI)图像，例如：播放进度条、弹幕开启/关闭按钮、截屏按钮等。

所以为了避免其他UI图像对计算样本视频帧画面相似度的影响，需要对各样本视频帧进行去干扰处理。

对样本视频帧去干扰处理的方法可以为：裁剪样本视频帧的周围预设范围的画面，保留样本视频帧的中心区域。

一种实施方式中，可以使用感知哈希(pHash)算法，计算抽取的样本视频帧中，两个相邻的样本视频帧的画面相似度。

例如：抽取的样本视频帧为：样本视频帧0、样本视频帧1、样本视频帧2、样本视频帧3。计算样本视频帧0和样本视频帧1的画面相似度，计算样本视频帧1和样本视频帧2的画面相似度，计算样本视频帧2和样本视频帧3的画面相似度。

在本发明实施例中，还可以使用其他计算画面相似度的方法(例如：差异哈希算法或者平均哈希算法)，计算每两个相邻的样本视频帧的画面相似度，本发明实施例不对计算画面相似度的方法作具体限定。

步骤103，根据每两个相邻的样本视频帧的画面相似度和待分析视频的音频文件，确定待分析视频中的卡顿片段。

一种实施方式中，终端可根据步骤102确定的每两个相邻的样本视频帧的画面相似度，确定每两个相邻的样本视频帧相同、或者相似、或者不同。

进而，将画面相似且连续的样本视频帧组成的音量为零，且时长大于预设时长的视频片段，确定为卡顿片段。

或者，将画面相似且连续的样本视频帧组成的音量不为零、片段流畅度小于预设片段流畅度阈值、且时长大于预设时长的视频片段，确定为卡顿片段。

步骤104，根据对待分析视频的分析结果，确定待分析视频的整体流畅度。

其中，分析结果至少包括所述卡顿片段的卡顿时长。

例如，预先设置各个时长范围对应的待扣分数，确定待分析视频包括的各个卡顿片段的卡顿时长所处的时长范围对应的待扣分数，计算预设分数减去确定的各个待扣分数和，将计算结果确定为待分析视频整体流畅度。

本发明实施例提供的视频流畅度确定方法，由于本发明实施例根据每两个相邻的样本视频帧的画面相似度和待分析视频的音频文件，确定待分析视频的卡顿片段，所以待分析视频中由于各种原因形成的卡顿片段都可以被确定，并用于评价待分析视频的整体流畅度，所以本发明实施例可以利用各种原因形成的待分析视频的卡顿片段确定待分析视频整体流畅度。与仅根据一种原因引起的卡顿片段分析视频流畅度相比，本发明实施例可以更准确地确定视频的流畅度。

可选的，上述步骤103中，确定待分析视频中的卡顿片段的方法，包括以下两种方式：

确定待分析视频中的卡顿片段的方式一包括以下两个步骤：

步骤一、若两个相邻的样本视频帧的画面相似度小于等于第一预设画面相似度阈值且大于第二预设画面相似度阈值，则确定相邻的样本视频帧画面相似。

例如，利用感知哈希算法，计算两个相邻的样本视频帧的画面相似度。若通过感知哈希算法计算的两个相邻的样本视频帧的汉明距离(Hamming distance)小于3且大于零，则确定这两个样本视频帧的画面相似度小于等于第一预设画面相似度阈值且大于第二预设画面相似度阈值，并确定这两个样本视频帧画面相似。

或者，若这两个样本视频帧的汉明距离等于零，且利用直方图匹配算法，计算两个样本视频帧的直方图的归一化相关系数小于1.0，则确定这两个样本视频帧的画面相似度小于等于第一预设画面相似度阈值且大于第二预设画面相似度阈值，并确定这两个样本视频帧画面相似。

上述感知哈希算法和直方图匹配算法为本发明实施例提供的两种计算视频帧的画面相似度的示例，其他计算画面相似度的方法也可以实现本发明，本发明不对计算画面相似度的方法作具体限定。

步骤二、若画面相似的样本视频帧组成的视频片段对应的音频片段的音量为零，则将画面相似且连续的样本视频帧组成的视频片段中，时长大于预设时长的视频片段，确定为卡顿片段。

可以理解的，将一个视频片段对应的时间段内的音频片段，确定为该视频片段对应的音频片段。

可选的，若音频片段中包括的各音频帧的音量均为零，则确定该音频片段的音量为零。

例如：抽取的样本视频帧包括：帧1、帧2、帧3、帧4和帧5。其中，帧1和帧2画面相似，帧2和帧3画面相似，帧3和帧4画面不同，帧4和帧5画面相似。画面相似且连续的样本视频帧组成的视频片段为：包括帧1、帧2和帧3的视频片段1，以及包括帧4和帧5的视频片段2。

假设这两个视频片段对应的音频片段的音量为零，预设时长为100毫秒，视频片段1的时长为120毫秒，视频片段2的时长为80毫秒，则将视频片段1确定为卡顿片段。

确定待分析视频中的卡顿片段的方式二包括以下三个步骤：

确定待分析视频中的卡顿片段的方式二的步骤一确定相邻的样本视频帧画面相似的方法，与确定待分析视频中的卡顿片段的方式一的步骤一方法相同，可参见上述确定待分析视频中的卡顿片段的方式一的步骤一中的相关描述，在此不再赘述。

步骤二、若画面相似样本视频帧组成的视频片段对应的音频片段的音量不为零，则从画面相似且连续的样本视频帧组成的视频片段中，筛选出片段流畅度小于预设片段流畅度阈值的视频片段。

在本发明实施例中，计算视频片段的片段流畅度的方法包括以下两种：

第一种计算视频片段的片段流畅度的方法包括以下三个步骤：

步骤一、识别画面相似的样本视频帧中的人脸图像。

可选的，可以利用开源计算机视觉库(OpenCV)的人脸识别技术，识别样本视频帧的人脸图像所在的区域。

步骤二、计算画面相似的样本视频帧中，每两个相邻的样本视频帧中同一个人的人脸图像的人脸相似度。

可选的，可以利用直方图匹配算法，计算每两个相邻的样本视频帧中同一个人的人脸图像的人脸相似度，当然也可以使用其他相似度算法，本申请对此不作具体限定。

可以理解的，一些相对静态的视频片段中各视频帧的画面相似度较高，但这些视频片段不属于卡顿片段。例如：包括人正在思考的视频片段，该视频片段中各画面没有明显变化。

为了提高确定卡顿片段的准确性，可以识别每两个相邻的样本视频帧中同一个人的人脸图像的人脸相似度，判断两个相邻的样本视频帧组成的视频片段中的人物是否存在微表情。若人物存在微表情，则该视频片段不是卡顿片段；若人物不存在微表情，则该视频片段是卡顿片段。

步骤三、将人脸相似度大于预设人脸相似度阈值且连续的样本视频帧组成的视频片段，确定为片段流畅度小于预设片段流畅度阈值的视频片段。

例如，使用直方图匹配算法，计算一个视频片段包括的每两个相邻的样本视频帧中同一个人的人脸图像的直方图归一化相关系数，若归一化相关系数均大于0.9，则确定该视频片段中的人物不存在微表情变化，并确定该视频片段的片段流畅度小于预设片段流畅度阈值。

若一个视频片段包括的每两个相邻的样本视频帧中同一个人的人脸图像的直方图归一化相关系数中，存在任一归一化相关系数小于等于0.9，则确定该视频片段中的人物存在微表情变化，并确定该视频片段的片段流畅度大于等于预设片段流畅度阈值。

第二种计算视频片段的片段流畅度的方法包括以下四个步骤：

步骤一、将画面相似样本视频帧画面划分为各个指定区域。

例如，可以将画面相似的样本视频帧画面划分为3×3(单位：像素)大小的区域。

步骤二、计算画面相似的样本视频帧中，每两个相邻的样本视频帧对应的各个指定区域的区域相似度的加权和。

可以理解的，在视频加载时，视频画面中央会显示加载动画，此时视频中央的画面仍存在变化，但视频加载的过程属于视频卡顿，为了避免加载动画对确定卡顿片段的影响，可以在计算区域相似度的加权和时，降低视频画面的中央包括的各区域的权值。

例如：如图2所示，样本视频帧A包括：区域a₁、区域a₂、区域a₃、区域a₄、区域a₅、区域a₆、区域a₇、区域a₈和区域a₉，样本视频帧B包括：区域b₁、区域b₂、区域b₃、区域b₄、区域b₅、区域b₆、区域b₇、区域b₈和区域b₉。则样本视频帧A和样本视频帧B的区域相似度加权和为：sim(a₁，b₁)×α₁+sim(a₂，b₂)×α₂+sim(a₃，b₃)×α₃+sim(a₄，b₄)×α₄+sim(a₅，b₅)×α₅+sim(a₆，b₆)×α₆+sim(a₇，b₇)×α₇+sim(a₈，b₈)×α₈+sim(a₉，b₉)×α₉。其中，sim(·，·)表示两个区域的相似度，α₁、α₂、α₃、α₄、α₅、α₆、α₇、α₈和α₉分别为各个区域对应的区域相似度的权重，例如：α₁为区域a₁和区域b₁的区域相似度的权重。

步骤三、将加权和大于预设加权和阈值且连续的样本视频帧组成的视频片段，确定为片段流畅度小于预设片段流畅度的视频片段。

例如，若抽取的样本视频帧为：帧1、帧2、帧3和帧4。若帧1和帧2的区域相似度加权和为5，帧2和帧3的区域相似度加权和为10，帧3和帧4的区域相似度加权和为3。若预设加权和为8，则由帧2和帧3组成的视频片段的加权和10大于预设加权和8，由帧2和帧3组成的视频片段为片段流畅度小于预设片段流畅度的视频片段。

步骤四、将筛选出的视频片段中，时长大于预设时长的视频片段，确定为卡顿片段。

除了上述两种确定卡顿片段的方式外，还可以通过以下方式三包括的步骤确定卡顿片段：

步骤一、若两个相邻的样本视频帧的画面相似度大于第一预设画面相似度阈值，则确定两个相邻的样本视频帧画面相同。

例如，利用感知哈希算法，计算两个相邻的样本视频帧的画面相似度。若通过感知哈希算法计算的两个相邻的样本视频帧的汉明距离等于0，则进一步利用直方图匹配算法，计算两个相邻的样本视频帧的直方图归一化相关系数。若归一化相关系数为1.0，则确定这两个相邻的样本视频帧的画面相似度大于第一预设画面相似度阈值。并确定这两个相邻的样本视频帧画面相同。

步骤二、将画面相同且连续的样本视频帧组成的视频片段中，时长大于预设时长的视频片段，确定为卡顿片段。

可以理解的，可以将人眼能够感知到的最短卡顿时长，作为预设时长。

可选的，计算画面相同且连续的样本视频帧组成的视频片段的时长的方法有两种：

第一种：计算各样本视频帧的时间戳，计算画面相同且连续的样本视频帧组成的视频片段中的最后一帧和第一帧的时间戳差值。

例如，样本视频帧的时间戳(current_time)＝(显示时间戳(presentation timestamp，pts)*时间基准(time_base))*1000，其中，显示时间戳为视频帧播放时显示的时间点，time_base可以为：1/90000，时间戳的单位为：毫秒。

若画面相同且连续的样本视频帧组成的视频片段中第一帧的时间戳为：50毫秒，最后一帧的时间戳为：100毫秒，则该视频片段的时长为：100-50＝50毫秒。

第二种：计算各相邻的样本视频帧之间的时间间隔，计算画面相同且连续的样本视频帧组成的视频片段中包括的时间间隔的总和。

例如：预设的抽取频率FPS＝25，表示一秒钟抽取25个样本视频帧，由于抽取样本视频帧时的抽取频率可能存在不稳定的情况，各相邻的样本视频帧之间的时间间隔可能不完全相同，但各时间间隔相差较小，所以各相邻的样本视频帧之间的时间间隔约为：1000/25＝40毫秒。若画面相同且连续的样本视频帧组成的视频片段包括3个时间间隔，则该视频片段的时长约为120毫秒。

结合上述三种确定卡顿片段的情况，对方式一和方式二确定的画面相似的卡顿片段的形成原因进行分析：

若卡顿片段为静音片段，则造成该卡顿片段卡顿的原因为数据加载较慢。

若卡顿片段为非静音片段，则造成该卡顿片段卡顿的原因为漏洞(bug)。

结合上述三种确定卡顿片段的情况，对方式三确定的画面相同的卡顿片段的形成原因进行分析：

若一个卡顿片段的卡顿时长与100毫秒的差小于预设差值，且待分析视频单位时间内卡顿片段的数量小于等于预设数量，则造成该卡顿片段卡顿的原因为画面异常。

若一个卡顿片段的卡顿时长与100毫秒的差小于预设差值，且待分析视频单位时间内卡顿片段的数量大于预设数量，则造成该卡顿片段卡顿的原因为解码异常或者片源异常。

若一个卡顿片段的卡顿时长与200毫秒的差小于预设差值，说明卡顿片段的卡顿时长较长，而且没有任何卡顿提示，则造成该卡顿片段卡顿的原因为异常卡顿(例如，UI主线程阻塞)。

可选的，上述步骤104确定待分析视频的整体流畅度，包括以下两种方式：

若待分析视频的包括的卡顿片段均为画面相似的卡顿片段，则利用以下方式一确定待分析视频的整体流畅度。

方式一：根据待分析视频包括的各卡顿片段的卡顿时长所处的时长范围，和待分析视频包括的各卡顿片段对应的音频片段的音量与预设音量的比较结果，确定待分析视频的整体流畅度。

其中，分析结果中还包括待分析视频包括的各卡顿片段对应的音频片段的音量。

可选的，可以确定待分析视频包括的各卡顿片段对应的待扣分数，然后将预设总分与各待扣分数总和的差，确定为待分析视频的整体流畅度。

例如：预设总分为100分，若待分析视频中不包括卡顿片段，则待分析视频的整体流畅度分数为100分。

卡顿片段的扣分标准如表一所示：

表一

时长范围(单位：毫秒)	待扣分数
		[80,200)	a
[200,1000)	b
		[1000,3000)	c
[3000,5000)	d
		[5000,∞)	e
是否静音	待扣分数
		静音	0
非静音	x

其中，a<b<c<d<e。

需要说明的是，卡顿时长越长，卡顿越明显，视频流畅度越低，所以扣分越大。若卡顿片段非静音，说明该卡顿片段的形成原因为异常原因，所以需要扣分。

假设待分析视频包括3个卡顿片段，分别为：片段1(卡顿时长800毫秒，静音)、片段2(卡顿时长800毫秒，静音)和片段3(卡顿时长2000毫秒，非静音)。根据表一，计算待分析视频的流畅度分数为：100-2×b-(c+x)。

若待分析视频的包括的卡顿片段均为画面相同的卡顿片段，则利用以下方式二确定待分析视频的整体流畅度。

方式二、根据待分析视频包括的各卡顿片段的卡顿时长所处的时长范围，和待分析视频包括的卡顿片段的数量与预设数量的比较结果，确定待分析视频的整体流畅度。

其中，分析结果中还包括待分析视频包括的卡顿片段的数量。

卡顿片段的扣分标准如表二所示：

表二

时长范围(单位：毫秒)	待扣分数
		[80,200)	i
[200,1000)	j
		[1000,3000)	k
[3000,5000)	m
		[5000,∞)	n
是否周期性复现	待扣分数
		周期性复现	y
没有周期性复现	0

其中，i<j<k<m<n。可以理解的，画面相似的卡顿片段的画面存在UI提示，UI提示用于提醒用户卡顿原因，例如，弹出提醒用户当前网络较差的提示框。画面相同的卡顿片段与存在UI提示的卡顿片段相比，卡顿片段的形成原因为异常原因的可能性更大，所以在卡顿时长相同的情况下，画面相同的卡顿片段比画面相似的卡顿片段的扣分大。例如：i>a，j>b。满足周期性复现的条件为单位时间内卡顿片段的数量大于预设数量。

例如：待分析视频包括5个卡顿片段，每个卡顿片段的卡顿时长都在120-150毫秒内，该待分析视频的流畅度分数为：100-5×i。

又例如：待分析视频总时长为60秒，共包括20个卡顿片段，周期性复现标准为单位时间内卡顿片段数量大于15。待分析视频的单位时间内卡顿片段数量为20，所以，该待分析视频卡顿片段为周期性复现，该待分析视频的流畅度分数为：100-y。

可以理解的是，周期性复现说明单位时间内卡顿片段数量较大，说明视频片源或者播放视频的终端性能出现严重问题，导致待分析视频的流畅度较差，可以设置y为一个较大的分数。若待分析视频的卡顿片段为周期性复现，可以不考虑卡顿片段的卡顿时长(因为卡顿时长的扣分较小)。当然也可以同时根据卡顿时长扣分。

可以理解的，若待分析视频同时包括画面相同的卡顿片段，以及画面相似的卡顿片段，则分别利用上述确定待分析视频的整体流畅度方式一，计算画面相似的卡顿片段的待扣分数；利用上述确定待分析视频的整体流畅度方式二，计算画面相同的卡顿片段的待扣分数。然后用预设总分减待扣分数的总和，将计算结果确定为待分析视频的流畅度分数。

需要说明的是，上述计算待分析视频的流畅度分数的方法仅为本发明实施例提供的一种示例，其他根据卡顿片段的卡顿时长和卡顿片段对应的音频片段音量，或者根据卡顿片段的卡顿时长和待分析视频包括的卡顿片段数量，确定待分析视频的整体流畅度的方法同样可以实现本发明，本发明实施例对此不作具体限定。

为了更清楚的说明本发明实施例确定待分析视频整体流畅度的过程，如图3所示，本发明实施例还提供了一种视频流畅度确定方法流程图，包括如下步骤：

步骤301，对待分析视频的原始视频的播放过程进行录制，得到录制视频。

步骤302，提取录制视频的音频文件，根据音频文件，确定待分析视频。

步骤303，按照预设的抽取频率，从待分析视频中抽取样本视频帧。

步骤304，通过感知哈希算法，计算抽取的样本视频帧中每两个相邻的样本视频帧的汉明距离。

步骤305，判断汉明距离是否小于3。若是，则执行步骤306；若否，则确定两个相邻的样本视频帧画面不同，画面不同的样本视频帧组成的视频片段为流畅片段。

步骤306，判断汉明距离是否等于0。若是，则执行步骤307；若否，则确定各汉明距离小于3且大于0的两个样本视频帧画面相似，并执行步骤309。

步骤307，判断各相邻的两个样本视频帧的直方图的归一化相关系数是否等于1。若是，则确定相邻的两个样本视频帧画面相同，并执行步骤308；若否，则确定相邻的两个样本视频帧画面相似，并执行步骤309。

步骤308，将时长大于预设时长且连续的样本视频帧组成的视频片段确定为卡顿片段。

步骤309，判断连续的样本视频帧组成的视频片段对应的音频片段是否静音。若是，则执行步骤308；若否，则执行步骤310。

步骤310，判断连续的样本视频帧中是否识别到人脸图像。若是，则执行步骤311；若否，则执行步骤312。

步骤311，计算各相邻的样本视频帧中同一个人的人脸图像的人脸相似度，并将人脸相似度大于预设人脸相似度阈值、时长大于预设时长且连续的样本视频帧组成的视频片段，确定为卡顿片段。

步骤312，计算各相邻的样本视频帧的区域相似度加权和，并将加权和大于预设加权和值、时长大于预设时长且连续的样本视频帧组成的视频片段，确定为卡顿片段。

可见，本发明实施例可以识别出各种原因造成的卡顿片段，而且还可以识别出卡顿时长较短的卡顿片段，并根据分析结果中包括的卡顿片段的卡顿时长，确定待分析视频的整体流畅度，使得确定的整体流畅度更准确。

另外，现有技术在确定视频流畅度时，通过在视频播放软件的开发代码中植入检测代码，利用检测代码确定出待分析视频由于缺少数据形成的卡顿片段。而有些视频只能在指定的视频软件中播放，那么如果无法获取到指定的视频软件的开发代码，则无法确定这些视频的流畅度。

而在本发明实施例中，可以录制各种播放软件播放的视频，进而确定卡顿片段，并分析整体流畅度。所以本发明实施例可以分析各视频的整体流畅度，适用范围更广。

而且，本发明实施例还可以在各种测试环境下，确定待分析视频的流畅度。例如：在录制待分析视频的播放过程中，拖动待分析视频的进度条，然后从待分析视频中确定拖动进度条导致的卡段片段的卡顿时长，并根据卡顿时长分析待分析视频的整体流畅度。

又例如，在录制待分析视频的播放过程中，切换视频码流，然后从待分析视频中确定切换视频码流导致的卡段片段的卡顿时长，并根据卡顿时长分析待分析视频的整体流畅度。

对应于上述方法实施例，如图4所示，本发明实施例提供了一种视频流畅度确定装置，应用于终端，该装置包括：抽取模块401、计算模块402和确定模块403。

抽取模块401，用于按照预设的抽取频率，从待分析视频中抽取样本视频帧；

计算模块402，用于计算抽取模块401抽取的样本视频帧中，每两个相邻的样本视频帧的画面相似度；

确定模块403，用于根据每两个相邻的样本视频帧的画面相似度和待分析视频的音频文件，确定待分析视频中的卡顿片段；

确定模块403，还用于根据对待分析视频的分析结果，确定待分析视频的整体流畅度，分析结果至少包括所述卡顿片段的卡顿时长。

可选的，确定模块403，还可以用于：

在按照预设的抽取频率，从待分析视频中抽取样本视频帧之前，根据录制视频中各音频帧的音量，从录制视频中确定待分析视频的起始帧和结尾帧，录制视频为对待分析视频的原始视频的播放过程进行录制得到的视频；

确定待分析视频为起始帧和结尾帧之间的片段。

可选的，确定模块403，可以具体用于：

将筛选出的视频片段中，时长大于预设时长的视频片段，确定为卡顿片段。

可选的，确定模块403，可以具体用于：

识别画面相似的样本视频帧中的人脸图像；

计算画面相似的样本视频帧中，每两个相邻的样本视频帧中同一个人的人脸图像的人脸相似度；

将人脸相似度大于预设人脸相似度阈值且连续的样本视频帧组成的视频片段，确定为片段流畅度小于预设片段流畅度阈值的视频片段。

可选的，确定模块403，可以具体用于：

将画面相似的样本视频帧画面划分为各个指定区域；

计算画面相似的样本视频帧中，每两个相邻的样本视频帧对应的各个指定区域的区域相似度的加权和；

将加权和大于预设加权和阈值且连续的样本视频帧组成的视频片段，确定为片段流畅度小于预设片段流畅度的视频片段。

可选的，分析结果还可以包括：待分析视频包括的各卡顿片段对应的音频片段的音量，或者待分析视频包括的卡顿片段的数量，确定模块403，可以具体用于：

根据待分析视频包括的各卡顿片段的卡顿时长所处的时长范围，和所述待分析视频包括的各卡顿片段对应的音频片段的音量与预设音量的比较结果，确定待分析视频的整体流畅度；

或者，根据待分析视频包括的各卡顿片段的卡顿时长所处的时长范围，和待分析视频包括的卡顿片段的数量与预设数量的比较结果，确定待分析视频的整体流畅度。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现上述方法实施例中由终端执行的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一视频流畅度确定方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一视频流畅度确定方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频流畅度确定方法，其特征在于，所述方法包括：

按照预设的抽取频率，从待分析视频中抽取样本视频帧；

根据对所述待分析视频的分析结果，确定所述待分析视频的整体流畅度，所述分析结果至少包括所述卡顿片段的卡顿时长；

所述根据所述每两个相邻的样本视频帧的画面相似度和所述待分析视频的音频文件，确定所述待分析视频中的卡顿片段，包括：

2.根据权利要求1所述的方法，其特征在于，在所述按照预设的抽取频率，从待分析视频中抽取样本视频帧之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述从画面相似且连续的样本视频帧组成的视频片段中，筛选出片段流畅度小于预设片段流畅度阈值的视频片段，包括：

识别所述画面相似的样本视频帧中的人脸图像；

4.根据权利要求1所述的方法，其特征在于，所述从画面相似且连续的样本视频帧组成的视频片段中，筛选出片段流畅度小于预设片段流畅度阈值的视频片段，包括：

将所述画面相似的样本视频帧画面划分为各个指定区域；

5.根据权利要求1所述的方法，其特征在于，所述分析结果还包括：所述待分析视频包括的各卡顿片段对应的音频片段的音量，或者所述待分析视频包括的卡顿片段的数量，所述根据对所述待分析视频的分析结果，确定所述待分析视频的整体流畅度，包括：

6.一种视频流畅度确定装置，其特征在于，所述装置包括：

所述确定模块，还用于根据对所述待分析视频的分析结果，确定所述待分析视频的整体流畅度，所述分析结果至少包括所述卡顿片段的卡顿时长；

所述确定模块，具体用于：

7.根据权利要求6所述的装置，其特征在于，所述确定模块，还用于：

8.根据权利要求6所述的装置，其特征在于，所述确定模块，具体用于：

识别所述画面相似的样本视频帧中的人脸图像；

9.根据权利要求6所述的装置，其特征在于，所述确定模块，具体用于：

将所述画面相似的样本视频帧画面划分为各个指定区域；

10.根据权利要求6所述的装置，其特征在于，所述分析结果还包括：所述待分析视频包括的各卡顿片段对应的音频片段的音量，或者所述待分析视频包括的卡顿片段的数量，所述确定模块，具体用于：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。