CN111401100B

CN111401100B - 视频质量评估方法、装置、设备及存储介质

Info

Publication number: CN111401100B
Application number: CN201811627024.4A
Authority: CN
Inventors: 刘运; 刘汇川; 梁柱锦
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2021-02-09
Anticipated expiration: 2038-12-28
Also published as: CN111401100A; US11762905B2; EP3889804A4; RU2764125C1; WO2020134926A1; US20220101629A1; SG11202107043TA; EP3889804A1

Abstract

本发明公开了一种视频质量评估方法、装置、设备及存储介质，首先通过对视频进行解码，得到图像序列和音频信息，然后提取图像序列中的动作特征向量和人脸特征向量，以及提取音频信息中的音频特征向量，再根据动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量；最后根据视频特征向量确定待评估视频的质量评分。可见，本实施例可以根据待评估视频中提取的动作特征向量、人脸特征向量和音频特征向量中的至少一个或多个向量，确定待评估视频的质量评分，可以视频实现了视频质量评估的实时性，提升了优质视频评估的准确度。

Description

视频质量评估方法、装置、设备及存储介质

技术领域

本发明实施例涉及视频检测技术领域，尤其涉及一种视频质量评估方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，短视频类应用程序(Application，APP)的使用越来越广泛。短视频类APP每天由用户制作并上传大量短视频，这些短视频在剔除了违规视频以后，需要从剩下的视频中挑选出优质视频，向观众推送。优质视频是指潜在的可能会受观众喜欢的视频。能否准确且全面的挑选出剩下的视频中的优质视频来展现给观众，决定了短视频类APP的观众观看时长、保存量、下载量等关键指标。

现有技术中，常用的优质视频评估方法主要有两类。一类是根据视频的外部信息来评估视频是否优质，也就是在视频发布出来后，根据观众的反馈数据来评估视频的优质程度。这种方法的缺点在于需要等视频发布并收集到观众反馈后才能对视频的优质程度进行评估，缺乏时效性。另一类是根据视频内部的一些简单的图像参数来评估视频内容是否优质。例如用视频的封面或关键帧进行图片的分类或聚类，形成对视频内容的一些简单的描述信息，根据描述信息判断视频内容是否优质。此方法的缺点在于使用的视频内容太简单，无法准确和全面的描述视频的内容，进而无法对视频优质程度进行准确评估。

发明内容

有鉴于此，本发明提供一种视频质量评估方法、装置、设备及存储介质，提高了视频质量评估的时效性，提升了优质视频评估的准确度。

第一方面，本发明实施例提供了一种视频质量评估方法，包括：

对视频进行解码，得到图像序列和音频信息；

提取所述图像序列中的动作特征向量和人脸特征向量，以及提取所述音频信息中的音频特征向量；

根据所述动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量；

根据所述视频特征向量确定所述待评估视频的质量评分。

第二方面，本发明实施例还提供了一种视频质量评估装置，包括：

视频解码模块，用于对视频进行解码，得到图像序列和音频信息；

向量提取模块，用于提取所述图像序列中的动作特征向量和人脸特征向量，以及提取所述音频信息中的音频特征向量；

向量构建模块，用于根据所述动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量；

质量评分模块，用于根据所述视频特征向量确定所述待评估视频的质量评分。

第三方面，本发明实施例还提供了一种设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任一所述的视频质量评估方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理装置执行时实现如第一方面中任一所述的视频质量评估方法。

上述实施例提供的视频质量评估方法、装置、设备及存储介质，首先通过对视频进行解码，得到图像序列和音频信息，然后提取图像序列中的动作特征向量和人脸特征向量，以及提取音频信息中的音频特征向量，再根据动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量；最后根据视频特征向量确定待评估视频的质量评分。可见，本实施例可以根据待评估视频中提取的动作特征向量、人脸特征向量和音频特征向量中的至少一个或多个向量，确定待评估视频的质量评分，提高了视频质量评估的时效性，提升了优质视频评估的准确度。

附图说明

图1是本发明实施例一中的视频质量评估方法的流程图；

图2是本发明实施例一中的视屏质量评估方法应用场景的示意图；

图3是本发明实施例二中的视频质量评估方法的流程图；

图4是本发明实施例三中的视频质量评估方法的流程图；

图5是本发明实施例四中的视频质量评估装置的结构示意图；

图6为本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的视频质量评估方法的流程图，本实施例可适用于评价视频质量的情况，该方法可以由视频质量评估来执行，该视频质量评估装置可以由硬件和/或软件实现。该视频质量评估装置可以是两个或多个物理实体构成，也可以是一个物理实体构成，并一般集成在计算机设备中。

具体的，如图1所示，本实施例提供的视频质量评估方法，主要包括如下步骤：

S110、对待评估视频进行解码，得到图像序列和音频信息。

需要说明的是，视频类服务器每天会接收到大量由用户制作并上传的视频。服务器需要从用户上传的所有视频中剔除掉违规视频，并筛选出观众可能喜欢的视频。因此，需要将用户上传的视频进行检测、筛选，并根据筛选结果推荐给观众。

需要说明的是，该方法可以由视频质量评估来执行。图2是本发明实施例一中的视屏质量评估方法应用场景的示意图。如图2所示，用户通过用户端210录制视频并上传至服务器220之后，服务器220中的后台221或者推荐系统222调用视频质量评估装置223，视频质量评估装置223对用户上传的视频进行评估并输出一个评估结果，将评估结果返回至后台221或者推荐系统222，后台221或者推荐系统222根据评估结果对该视频进行处理。进一步的，若评估结果是优质视频，则将推荐系统222将该视频推荐给观众端230。需要说明的是，用户端210和观众端230可以是同一个终端设备，也可以是两个不同的终端设备。

待评估视频就是指用户上传至视频类服务器，视频质量还未知的视频。用户在上传视频时，为了数据传输的需求，需要将视频进行编码。编码是指通过特定的压缩技术，将某个格式的视频文件转换成另一种格式的视频文件。进一步的，待评估视频至少包括视频、音频和/或脚本。待评估视频可以认为是由多个图像组成的集合。相应的，在待评估视频进行评估之前，需要对已经编码的视频进行解码，视频可以认为是一张一张快速播放的图片，由于肉眼的视觉暂留现象，才使人感觉画面是连续的。因此，将视频进行解码，可以分别得到任一帧视频数据，一个视频帧包括一张图片。将视频解码之后，可以得到有多个图像组成按一定顺序排列的图像序列。

相应的，对待评估视频进行解码后，可以得到待评估视频的音频信息。音频信息包括待评估视频中的背景音乐和人物的语言信息。

S120、提取图像序列中的动作特征向量和人脸特征向量，以及提取音频信息中的音频特征向量。

在本实施例中，动作特征向量是指以向量的形式表示的动作特征的向量，动作特征至少包括视频内的人物动作和周围环境。示例性的，人物动作是指人物的舞蹈动作、运动动作等。周围环境是指建筑物、高山、灌木丛等。动作特征很大程度决定了视频的受欢迎程度。

在本实施例中，将图像序列中的每一帧图片的姿势向量提取出来，一帧图像对应一个矩阵信息，通过将该矩阵信息进行合并处理，可以得到对应的姿势向量。姿势向量反映的是帧图像所对应的图像信息，一个图像序列可以包含多个帧图像，每个帧图像对应一个姿势向量。将得到的多个姿势向量进行聚类处理，将姿势向量转换成动作特征向量。需要说明的是，本实施例中仅对动作特征向量的提取方法进行说明，而非限定。可以根据需要采用任意的动作特征向量的提取方法。

进一步的，可以预先建立动作特征提取网络，利用动作特征提取网络对每一帧图像进行特征提取，得到动作特征向量。进一步的，对动作识别网络进行微调，得到动作特征提取网络，将图像序列输入动作特征提取网络，利用动作特征提取网络对每一帧图像进行特征提取，得到动作特征向量。动作识别网络可以由动作分类数据集中取得较好效果的各类网络来组成，包括但不限于基于三维(three dimensions，3D)卷积网络的C3D，交互式三维(Interactive three dimensions，I3D)卷积网络等、基于光流和空间的双流(Two-Stream，2-Stream)方法的时域分段网络(Temporal Segment Networks，TSN)，以及基于循环神经网络(Recurrent Neural Network，RNN)的各种动作识别网络。

人脸特征向量是指用于描述人脸面部特征的向量。人脸特征向量的提取是指在人脸检测的基础上，在人脸所在的区域获取人脸面部特征向量的过程。

在本实施例中，人脸特征向量提取主要有两个步骤，首先对图像序列中的人脸进行检测，然后对检测到的人脸信息进行特征提取。进一步的，首先，利用多任务卷积神经网络(Multi-task convoiutional neural networks，MTCNN)方法对获取的图像序列进行人脸检测，得到人脸检测数据。然后，利用FaceNet方法对检测得到的人脸据进行特征提取，得到人脸特征向量。其中，卷积神经网络是深度学习的一项主要技术，MTCNN方法是用于人脸检测的一种方法，人脸检测是指判断一幅图像中是否出现人脸。FaceNet是一种方法的名称，这个方法使用卷积神经网络，对人脸进行把人脸映射到欧几里得特征空间，得到人脸特征向量。

视频中的背景音乐或者人物语音也是视频的重要内容之一，需要提取出其音频信息的特征，根据音频信息的特征对视频的优质程度作一个预估。从视频中提取出音频信号后，需要先用一些传统的音频信号处理方法对音频进行预处理，提取出音频的频谱或倒谱特征，然后送入音频特征提取网络，提取出可用于音乐识别或者任务语音识别的音频特征向量。

音频特征向量是指描述视频中声音信息的向量。具体的，提取音频信息中的音频特征向量，是指提取音频信息中反应音频信息本质特征的成分，如：音频的中心频率，某些频率段内音频的能量特征或多个时间内音频的能量分布特征，并将这样特征组合起来，得到相应的音频特征向量。

S130、根据动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量。

在本实施例中，所述视频特征向量是指用于表征视频质量的向量。视频特征向量至少包括根据动作特征向量、人脸特征向量和音频特征向量中的至少一种。

将上述S120中提取的动作特征向量、人脸特征向量和音频特征向量进行合并，得到一个视频特征向量。进一步的，若在待评估视频中仅仅提取到一种特征向量，那么则将未提取到的特征向量全部置0，构成视频特征向量。示例性的，若在待评估视频中仅仅提取到动作特征向量，那么则人脸特征向量和音频特征向量全部置0，构成视频特征向量。若在待评估视频中仅仅提取到两种特征向量，那么则将未提取到的特征向量全部置0，构成视频特征向量。示例性的，若在待评估视频中仅仅提取到动作特征向量和人脸特征向量，那么则将音频特征向量全部置0，构成视频特征向量。

S140、根据视频特征向量确定待评估视频的质量评分。

在本实施例中，预先搭建和训练视频评估网络，将视频特征向量输入视频评估网络，视频评估网络输出一个评分作为待评估视频的质量评分。进一步的，视频评估网络可以是一个简单的多层感知器(Multilayer Perceptron，MLP)也可以是较为复杂的RNN网络。进一步的，建立优质视频训练数据集，根据上述S120中的方式对优质视频训练数据集提取相应的特征，并存储作为视频评估网络的训练师数据。

进一步的，在视频评估网络训练时，需要考虑到某些视频中没有人脸的情况，因此在训练时需要在优质视频集合中随机的将人脸特征向量替换为全0，作为一种数据增强手段，使训练出来的网络能更好的适应实际的数据。

本实施例提供的视频质量评估方法，首先通过对视频进行解码，得到图像序列和音频信息，然后提取图像序列中的动作特征向量和人脸特征向量，以及提取音频信息中的音频特征向量，再根据动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量；最后根据视频特征向量确定待评估视频的质量评分。可见，本实施例可以根据待评估视频中提取的动作特征向量、人脸特征向量和音频特征向量中的至少一个或多个向量，确定待评估视频的质量评分，提高了视频质量评估的时效性，提升了优质视频评估的准确度。

实施例二

图3是本发明实施例二中的视频质量评估方法的流程图；本实施例可适用于评价视频质量的情况，本实施例进一步优化了视频质量评估方法，如图3所示，优化后的视频质量评估方法，主要包括如下步骤：

S310、对待评估视频进行解码，得到图像序列和音频信息。

S320、利用动作特征提取网络对每一帧图像进行特征提取，得到动作特征向量。

在本实施例中，在利用动作特征提取网络对每一帧图像进行特征提取之前要，对动作特征提取网络进行搭建和训练。进一步的，搭建和训练动作特征提取网络主要包括如下步骤：获取训练视频集合，并获取各个训练视频的图像序列；在视频数据库中训练出动作分类网络；使用所述各个训练视频中的图像序列对所述动作分类网络进行训练，并删除所述动作分类网络中的分类层，得到动作特征提取网络。

进一步的，训练视频集合是指通过人工筛选的方法选出的优质视频集合。优质视频的种类和数量越多，动作特征提取网络的准确度越高，视频评估结果更加有效。首先，获取优质视频集合，将优质视频集合中的每个优质视频进行解码，得到各个视频对应的图像序列。

根据神经网络在视频数据库中训练出动作分类网络。所述神经包括但不限于基于三维(three dimensions，3D)卷积网络的C3D，交互式三维(Interactive threedimensions，I3D)卷积网络等、基于光流和空间的双流(Two-Stream，2-Stream)方法的时域分段网络(Temporal Segment Networks，TSN)，以及基于循环神经网络(Recurrent NeuralNetwork，RNN)的各种动作识别网络。所述视频数据库中但不限于Kinetics，Youtube-8M数据集。Kinetics是一种大型公开数据集的名称，是一个具有精确标注动作的数据集。Youtube-8M也是一种大型公开数据集的名称，是一个大型视频数据集。可以用Kinetics数据集或Youtube-8M数据集中视频进行训练，得到动作分类网络。在本实施例中，不对动作分类网络的训练方法进项限定，可以采用现有技术中任意的模型训练方法，训练得到动作分类网络。

得到动作分类网络之后，使用各个优质视频中提取的图像序列对动作分类网络进行微调，并删除动作分类网络中的分类层，得到动作特征提取网络。

S330、利用人脸特征提取网络提取图像序列中的人脸特征向量。

在本实施例中，人脸特征提取网络包括人脸检测子网络和特征提取子网络。进一步的，利用人脸特征提取网络提取所述图像序列中的人脸特征向量包括：利用人脸检测子网络检测出图像序列中每一帧图像中的人脸图像；利用特征提取子网络对每一帧图像中的人脸图像进行特征提取，得到人脸特征向量。

在本实施例中，人脸检测子网络可以由常见的人脸检测网络来构建，例如：多任务级联卷积网络((Multi-task Cascaded Convolutional Networks,MTCNN)。进一步的，利用人脸检测子网络检测出图像序列中每一帧图像中的人脸图像包括：先利用MTCNN网络中的建议网络P-Net筛选出候选人脸区域及对应的候选人脸区域边框，再利用极大值抑制算法对高度重叠的候选人脸区域边框进行合并；然后利用MTCNN算法中的完善网络R-Net对候选人脸区域进行细化，得到候选人脸图像，同时利用边界框回归算法和和非极大值抑制算法删除错误的候选人脸区域边框；利用MTCNN算法中的输出网络0-Net过滤余下的候选人脸区域边框，将人脸从候选人脸图像中检测出来。进一步的，当视频中存在多个人脸时，取较大且靠近图像正面的人脸。

优选的，人脸检测子网络可以直接使用公开的预训练好的人脸检测网络，也可以在优质视频集合上重新训练一个人脸检测网络，使之在优质视频识别任务上具有更高的准备度。

特征提取子网络可以由公开的预训练好的人脸识别网络构成，包括但不限于facenet，insightface等，也可以参考其原理自行设计网络，然后在优质视频数据集合上面训练出专用的人脸识别模型。特征提取子网络训练过程中需要的同一个人的多张脸部图像可以从同一用户上传的自拍视频中获得。训练好后的特征提取子网络对同一个人的不同脸部图像会输出高度相似的特征向量，这个特征向量里包含了人的脸部相貌信息，可以用来识别出不同的人，也可以作为对长相的受欢迎程度进行预测的依据。

进一步的，本实施例提供一种特征提取子网络训练方法。具体如下：获取训练视频集合，并提取各个训练视频中的人脸图像；在人脸数据库中训练出人脸识别网络；使用各个训练视频中的人脸图像对所述人脸识别网络进行训练，得到特征提取子网络。训练视频集合是指通过人工筛选的方法选出的优质视频集合。

S340、提取音频信息的倒谱系数和/或频域，利用音频特征提取网络对倒谱系数和/或频域进行特征提取，得到音频特征向量。

视频中的音乐或者人物语音也是视频的重要内容之一，需要使用音频特征提取网络来提取出其声音的特征向量，能够根据声音的特征向量对视频的优质程度作一个预估。

在本实施例中，倒谱系数优选为梅尔频率倒谱系数(melfrequency cepstrum，MFCC)。梅尔频率是基于人耳听觉特性提出来的，梅尔频率与赫兹(Hz)频率成非线性对应关系。MFCC系数则是利用梅尔频率与赫兹(Hz)频率的这种关系计算得到频率特征。本实施例中，不对提取音频信息的倒谱系数的方法进行限定，可以选用任意的方法提取音频信息的倒谱系数。

进一步的，频谱是指在音频信息进行分析时，分析音频信息中和频率有关部份，而不是和时间有关的部分。提取音频信息的频谱是指提取音频信息和中频率有关的部分。本实施例中，不对提取音频信息的频域的方法进行限定，可以选用任意的方法提取音频信息的频域。需要说明的是，本实施例中可以提取音频信息的倒谱系数或频域中的任意一种，或者同时提取音频信息的倒谱系数和频域。

进一步的，提取音频信息的倒谱系数和/或频域之前还包括：从视频中提取出音频信号后，需要先用一些传统的音频信号处理方法对音频进行预处理。其中，预处理至少包括降噪、增益和数据归一化等处理。对音频信息进行预处理可以提高音频识别的正确率。音频的预处理使用的算法需要根据预训练的数据集的要求来决定，在训练和预测时保持一致。

进一步的，提取音频信息的倒谱系数和/或频谱之后，利用音频特征提取网络对倒谱系数和/或频谱进行特征提取，得到音频特征向量。

本实施例中，提供一种音频特征提取网络的训练方法，获取训练视频集合，并提取各个训练视频中的音频信息；在音频数据库中训练出音频识别网络；使用各个训练视频中的音频信息对音频识别网络进行训练，得到音频特征提取网络。进一步的，音频特征向量提取网络可以是任何基于CNN或者RNN的网络，预先在公开的用于音乐识别或人物语音识别的数据集上训练音频识别网络，再在优质视频训练集合上细调音频识别网络，得到音频特征提取网络。

需要说明的是，S320、S330和S340三个步骤的执行顺序可以任意互换，本实施例中不对这三个步骤的执行顺序进行限定。

S350、根据动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量。

S360、将视频特征向量输入到视频评估网络中进行评估；得到待评估视频的质量评分。

在本实施例中，视频评估网络是可以是一个简单的多层感知器也可以是较为复杂的RNN网络。视频评估网络的输入是视频特征向量，输出是一个对视频优质程度的评分。进一步的，若输出评分为大于0分，则按实际输出评分作为待评估视频的质量评分。若输出评分为小于0分，则将0分作为待评估视频的质量评分。

优选的，所述视频评估网络包括第一层评估网络、第二层评估网络和输出层。

相应的，将所述视频特征向量输入到视频评估网络中进行评估；得到所述待评估视频的质量评分包括：将所述视频特征向量输入第一层评估网络，第一层评估网络通过递归和非线性运算获得初级特征向量；将所述初级特征向量输入第二层评估网络，第二层评估网络通过递归和非线性运算获得高级特征向量；输出层利用初级特征向量和高级特征向量进行运算，得到所述待评估视频的质量评分。进一步的，训练视频评估网络的时候，需要考虑到某些视频中没有人脸的情况，因此在训练时需要在优质视频集合中随机的将人脸特征替换为全0，作为一种数据增强手段，使训练出来的模型能更好的适应实际的数据。

在上述实施例的基础上，可以将S320替换为提取每一帧图像的光流数据；利用动作特征提取网络对每一帧图像的光流数据进行特征提取，得到动作特征向量。

本实施例提供的视频质量评估方法，首先通过对视频进行解码，得到图像序列和音频信息，然后利用动作特征提取网络对每一帧图像进行特征提取，得到动作特征向量，利用人脸特征提取网络提取所述图像序列中的人脸特征向量，利用音频特征提取网络对倒谱系数和/或频域进行特征提取，得到音频特征向量再根据动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量；最后根据视频特征向量确定待评估视频的质量评分。可见，本实施例可以根据待评估视频中提取的动作特征向量、人脸特征向量和音频特征向量中的至少一个或多个向量，确定待评估视频的质量评分，提高了视频质量评估的时效性，提升了优质视频评估的准确度。

实施例三

在上述实施例的基础上，本实施例提供一种优选实例。图4是本发明实施例三中的视频质量评估方法的流程图；如图4所示，上述视频质量评估方法的主要包括如下步骤：

S401、获取待评估视频。待评估视频可以是用户刚刚录制并上传至服务器的视频，也可以是服务器中存储的未进行质量评估的视频。优选的，本实施例中的待评估视频优选为用户录制的短视频。

S402、将待评估视频进行解码，可以得到有多个图像组成按一定顺序排列的图像序列。

S403、对待评估视频进行解码后，可以得到待评估视频的音频信息。音频信息包括待评估视频中的背景音乐和人物的语言信息。

需要说明的是，S402和S403的执行顺序可以互换，可以先执行S402后执行S403，也可以先执行S403后执行S402。进一步的，还可以将S402和S403同时执行。本实施例中不对S402和S403的执行顺序进行限定。

S404、提取每一帧图像的光流数据，得到光流序列。

S405、将S402中解码得到的图像序列和/或S403中得到的光流序列输入至动作特征提取网络。

S406、动作特征提取网络输出一个动作特征向量。动作特征向量是指以向量的形式表示的动作特征的向量，动作特征至少包括视频内的人物动作和周围环境。示例性的，人物动作是指人物的舞蹈动作、运动动作等。周围环境是指建筑物、高山、灌木丛等。动作特征很大程度决定了视频的受欢迎程度。

S407、将S402中提取得到的图像序列，利用人脸检测子网络进行人脸检测，得到人脸图像。人脸检测网络可以直接使用公开的预训练好的人脸检测网络，也可以在优质视频集合上重新训练一个人脸检测网络，使之在优质视频识别任务上具有更高的准备度。

S408、将S407中得到的人脸图像输入至人脸特征提取网络。人脸特征提取网络可以由公开的预训练好的人脸识别网络构成，包括但不限于facenet，insightface等，也可以参考其原理自行设计网络，然后在优质视频数据集合上面训练出专用的人脸识别模型。

S409、人脸特征提取网络输出一个人脸特征向量。训练好后的特征提取子网络对同一个人的不同脸部图像会输出高度相似的特征向量，这个特征向量里包含了人的脸部相貌信息，可以用来识别出不同的人，也可以作为对长相的受欢迎程度进行预测的依据。

S410、将S402中解码得到的音频信息进行预处理之后，提取音频信息中的频谱信息。

S411、将S402中解码得到的音频信息进行预处理之后，提取音频信息中的梅尔倒谱系数。

视频中的背景音乐或者人物语音也是视频的重要内容之一，需要提取出其音频信息的特征，根据音频信息的特征对视频的优质程度作一个预估。

S412、将S410和S411中得到的音频信息和梅尔倒谱系数输入至音频特征提取网络。音频特征向量提取网络可以是任何基于CNN或者RNN的网络，预先在公开的用于音乐识别或人物语音识别的数据集上训练音频识别网络，再在优质视频训练集合上细调音频识别网络，得到音频特征提取网络。

S413、音频特征提取网络输出一个音频特征向量。音频特征向量是指描述视频中声音信息的向量。

S414、根据动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量。

S415、将视频特征向量输入至视频评分网络。视频评估网络是可以是一个简单的多层感知器也可以是较为复杂的RNN网络。视频评估网络的输入是视频特征向量，输出是一个对视频优质程度的评分。

S416、视频评分网络输出一个视频评分。所述视频评分用于衡量视频优质程度，评分越高，视频优质程度越高。

在上述实施例的基础上，本实施例提供有个优选实例。用户通过短视频类应用程序上传一个1分钟的短视频，进一步的，短视频是任务A跳舞的视频，背景音乐为音乐B。假设短视频中1秒中包含24帧。那么将1分钟的短视频进行解码，可以得到1440帧的数据和1分钟的音频信息。其中，每一帧中包含一张图像，即可以得到连续的1440张图像构成的图像序列。进一步的，将由1440张图像构成的图像序列分别输入至动作特征提取网络和人脸特征提取网络，动作特征网络输出一个动作特征向量，上述一维向量用于表征视频中人物A的舞蹈动作。人脸特征提取网络输出一个人脸特征向量，上述一维用于表征视频中人物A的脸部相貌信息。将音频信息输入至音频特征提取网络，音频特征提取网络输出一个音频特征向量。示例性的，动作特征向量是3行5列的向量，人脸特征向量是5行8列的向量，音频特征向量4行9列的向量，根据所述动作特征向量、人脸特征向量和音频特征向量构建视频特征向量；可以得到一个5行22列的视频特征向量，将频特征向量输入至视频评估网络，视频评估网络输出一个评分，示例性的评分可以是95分。

本实施例提供的视频质量评估方法，首先通过对待评估视频进行解码，得到图像序列和音频信息，然后提取图像序列中的动作特征向量和人脸特征向量，以及提取音频信息中的音频特征向量，再根据动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量；最后根据视频特征向量确定待评估视频的质量评分。可见，本实施例可以根据待评估视频中提取的动作特征向量、人脸特征向量和音频特征向量中的至少一个或多个向量，确定待评估视频的质量评分，提高了视频质量评估的时效性，提升了优质视频评估的准确度。

实施例四

图5是本发明实施例四中的视频质量评估装置的结构示意图，本实施例可适用于评价视频质量的情况，该视频质量评估装置可以通过软件和/或硬件的方式实现。设定视频质量评估的装置集成在终端设备中，该视频质量评估装置的具体结构如下：

视频解码模块510，用于对视频进行解码，得到图像序列和音频信息；

向量提取模块520，用于提取所述图像序列中的动作特征向量和人脸特征向量，以及提取所述音频信息中的音频特征向量；

向量构建模块530，用于根据所述动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量；

质量评分模块540，用于根据所述视频特征向量确定所述待评估视频的质量评分。

本实施例提供的视频质量评估装置，首先通过对视频进行解码，得到图像序列和音频信息，然后提取图像序列中的动作特征向量和人脸特征向量，以及提取音频信息中的音频特征向量，再根据动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量；最后根据视频特征向量确定待评估视频的质量评分。可见，本实施例可以根据待评估视频中提取的动作特征向量、人脸特征向量和音频特征向量中的至少一个或多个向量，确定待评估视频的质量评分，提高了视频质量评估的时效性，提升了优质视频评估的准确度。

进一步的，向量提取模块520包括动作特征向量单元、人脸特征向量单元以及音频特征向量单元。

进一步的，动作特征向量单元，用于利用动作特征提取网络对每一帧图像进行特征提取，得到动作特征向量；

和/或；

用于提取每一帧图像的光流数据，利用动作特征提取网络对每一帧图像的光流数据进行特征提取，得到动作特征向量。

进一步的，还包括：动作特征提取网络训练单元，具体用于获取训练视频集合，并获取各个训练视频的图像序列；在视频数据库中训练出动作分类网络使用所述各个训练视频中的图像序列对所述动作分类网络进行训练，并删除所述动作分类网络中的分类层，得到动作特征提取网络。

进一步的，人脸特征向量单元，用于利用人脸特征提取网络提取所述图像序列中的人脸特征向量。

进一步的，所述人脸特征提取网络包括人脸检测子网络和特征提取子网络。

具体的，人脸特征向量单元，具体用于利用所述人脸检测子网络检测出所述图像序列中每一帧图像中的人脸图像；利用所述特征提取子网络对每一帧图像中的人脸图像进行特征提取，得到人脸特征向量。

进一步的，还包括：特征提取子网络训练单元，用于获取训练视频集合，并提取各个训练视频中的人脸图像；在人脸数据库中训练出人脸识别网络使用各个训练视频中的人脸图像对所述人脸识别网络进行训练，得到特征提取子网络。

进一步的，音频特征向量单元，用于提取所述音频信息的倒谱系数和/或频域；利用音频特征提取网络对倒谱系数和/或频域进行特征提取并分析，得到音频特征向量。

进一步的，还包括：音频特征提取网络训练单元，用于获取训练视频集合，并提取各个训练视频中的音频信息；在音频数据库中训练出音频识别网络；使用各个训练视频中的音频信息对所述音频识别网络进行训练，得到音频特征提取网络。

进一步的，质量评分模块540，具体用于将所述视频特征向量输入到视频评估网络中进行评估；得到所述待评估视频的质量评分。

进一步的，所述视频评估网络包括第一层评估网络、第二层评估网络和输出层。

具体的，质量评分模块540，具体用于将所述视频特征向量输入第一层评估网络，第一层评估网络通过递归和非线性运算获得初级特征向量；将所述初级特征向量输入第二层评估网络，第二层评估网络通过递归和非线性运算获得高级特征向量；输出层利用初级特征向量和高级特征向量进行运算，得到所述待评估视频的质量评分。

本发明实施例所提供的视频质量评估装置可执行本发明任意实施例所提供的视频质量评估方法，具备执行方法相应的功能模块和有益效果。

实施例五

图6为本发明实施例五提供的一种设备的结构示意图，如图6所示，该设备包括处理器610和存储器620；设备中处理器610的数量可以是一个或多个，图6中以一个处理器610为例；设备的处理器610和存储器620可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器620作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的视频质量评估方法对应的程序指令/模块(例如，主题更新装置中的视频解码模块510、向量提取模块520、向量构建模块530和质量评分模块540)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的视频质量评估方法。

存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器620可进一步包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例六

本发明实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种视频质量评估方法，该方法包括：

对待评估视频进行解码，得到图像序列和音频信息；

根据所述视频特征向量确定所述待评估视频的质量评分。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的视频质量评估方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述视频质量评估装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频质量评估方法，其特征在于，包括：

对待评估视频进行解码，得到图像序列和音频信息，所述待评估视频为非违规视频；

将所述视频特征向量输入第一层评估网络，第一层评估网络通过递归和非线性运算获得初级特征向量；

将所述初级特征向量输入第二层评估网络，第二层评估网络通过递归和非线性运算获得高级特征向量；

输出层利用初级特征向量和高级特征向量进行运算，得到所述待评估视频的质量评分；

其中，所述根据所述动作特征向量、人脸特征向量和音频特征向量中的至少一种构建视频特征向量，具体包括：

将所述动作特征向量、人脸特征向量和音频特征向量中特征提取为空的特征向量设置为零；

合并所述动作特征向量、人脸特征向量和音频特征向量，以构建所述视频特征向量。

2.根据权利要求1所述的视频质量评估方法，其特征在于，所述提取所述图像序列中的动作特征向量包括：

利用动作特征提取网络对每一帧图像进行特征提取，得到动作特征向量；

和/或；

提取每一帧图像的光流数据；

利用动作特征提取网络对每一帧图像的光流数据进行特征提取，得到动作特征向量。

3.根据权利要求2所述的视频质量评估方法，其特征在于，还包括：

获取训练视频集合，并提取各个训练视频的图像序列；

在视频数据库中训练出动作分类网络；

使用所述各个训练视频中的图像序列对所述动作分类网络进行训练，并删除所述动作分类网络中的分类层，得到动作特征提取网络。

4.根据权利要求1所述的视频质量评估方法，其特征在于，所述提取所述图像序列中的人脸特征向量包括：

利用人脸特征提取网络提取所述图像序列中的人脸特征向量。

5.根据权利要求4所述的视频质量评估方法，其特征在于，所述人脸特征提取网络包括人脸检测子网络和特征提取子网络。

6.根据权利要求5所述的视频质量评估方法，其特征在于，所述利用人脸特征提取网络提取所述图像序列中的人脸特征向量包括：

利用所述人脸检测子网络检测出所述图像序列中每一帧图像中的人脸图像；

利用所述特征提取子网络对每一帧图像中的人脸图像进行特征提取，得到人脸特征向量。

7.根据权利要求6所述的视频质量评估方法，其特征在于，还包括：

获取训练视频集合，并提取各个训练视频中的人脸图像；

在人脸数据库中训练出人脸识别网络；

使用各个训练视频中的人脸图像对所述人脸识别网络进行训练，得到特征提取子网络。

8.根据权利要求1所述的视频质量评估方法，其特征在于，所述提取所述音频信息中的音频特征向量包括：

提取所述音频信息的倒谱系数和/或频谱；

利用音频特征提取网络对倒谱系数和/或频谱进行特征提取，得到音频特征向量。

9.根据权利要求8所述的视频质量评估方法，其特征在于，

获取训练视频集合，并提取各个训练视频中的音频信息；

在音频数据库中训练出音频识别网络；

使用各个训练视频中的音频信息对所述音频识别网络进行训练，得到音频特征提取网络。

10.一种视频质量评估装置，其特征在于，包括：

视频解码模块，用于对待评估视频进行解码，得到图像序列和音频信息，所述待评估视频为非违规视频；

质量评分模块，用于将所述视频特征向量输入第一层评估网络，第一层评估网络通过递归和非线性运算获得初级特征向量；将所述初级特征向量输入第二层评估网络，第二层评估网络通过递归和非线性运算获得高级特征向量；输出层利用初级特征向量和高级特征向量进行运算，得到所述待评估视频的质量评分；

其中，所述向量构建模块，具体用于：

11.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的视频质量评估方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现如权利要求1-9中任一所述的视频质量评估方法。