CN114915779A

CN114915779A - 视频质量评估方法、装置、设备和存储介质

Info

Publication number: CN114915779A
Application number: CN202210370015.1A
Authority: CN
Inventors: 卢宇; 王鑫
Original assignee: Alibaba China Co Ltd
Current assignee: Hangzhou Alibaba Overseas Internet Industry Co ltd
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-08-16

Abstract

本申请提供一种视频质量评估方法、装置、设备和存储介质，该方法包括：获取视频中的多个视频帧和多个音频片段；提取多个视频帧各自对应的第一视频特征和多个音频片段各自对应的第一音频特征；将多个视频帧各自对应的第一视频特征依次输入循环神经网络模型中以得到循环神经网络模型依次输出的多个视频帧各自对应的第二视频特征；将多个音频片段各自对应的第一音频特征依次输入循环神经网络模型中以得到循环神经网络模型依次输出的多个音频片段各自对应的第二音频特征；融合多个视频帧各自对应的第二视频特征和多个音频片段各自对应的第二音频特征以得到融合后特征；根据融合后特征确定视频的质量评估结果。以提升对视频进行质量评估的准确性。

Description

视频质量评估方法、装置、设备和存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频质量评估方法、装置、设备和存储介质。

背景技术

随着互联网带宽的提升、WIFI的普及、5G时代的来临，视频已经成为互联网时代重要的信息载体。比如在电商平台，相较于传统的商品静态图像，商品视频可以将商品卖点进行动态可视化表达，可以具像化的展示商品的各种特点，提升商品点击率、商品成交率。

但是，如果商家上传至电商平台的商品视频的质量欠佳，则会极大的影响消费者的视频观看体验，因此，有必要预先对商品视频进行视频质量评估，帮助商家优化其商品视频。

发明内容

本发明实施例提供一种视频质量评估方法、装置、设备和存储介质，以提升对视频进行质量评估的准确性。

第一方面，本发明实施例提供一种视频质量评估方法，所述方法包括：

获取视频中的多个视频帧和多个音频片段；

提取所述多个视频帧各自对应的第一视频特征，以及所述多个音频片段各自对应的第一音频特征；

将所述多个视频帧各自对应的第一视频特征依次输入循环神经网络模型中，以得到所述循环神经网络模型依次输出的所述多个视频帧各自对应的第二视频特征；

将所述多个音频片段各自对应的第一音频特征依次输入循环神经网络模型中，以得到所述循环神经网络模型依次输出的所述多个音频片段各自对应的第二音频特征；

融合所述多个视频帧各自对应的第二视频特征和所述多个音频片段各自对应的第二音频特征，以得到融合后特征；

根据所述融合后特征确定所述视频的质量评估结果。

第二方面，本发明实施例提供一种视频质量评估装置，所述装置包括：

获取模块，用于获取视频中的多个视频帧和多个音频片段；

第一提取模块，用于提取所述多个视频帧各自对应的第一视频特征，以及所述多个音频片段各自对应的第一音频特征；

第二提取模块，用于将所述多个视频帧各自对应的第一视频特征依次输入循环神经网络模型中，以得到所述循环神经网络模型依次输出的所述多个视频帧各自对应的第二视频特征；将所述多个音频片段各自对应的第一音频特征依次输入循环神经网络模型中，以得到所述循环神经网络模型依次输出的所述多个音频片段各自对应的第二音频特征；

确定模块，用于融合所述多个视频帧各自对应的第二视频特征和所述多个音频片段各自对应的第二音频特征，以得到融合后特征；根据所述融合后特征确定所述视频的质量评估结果。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第一方面所述的视频质量评估方法。

第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的视频质量评估方法。

本发明实施例中，在获取视频中的多个视频帧和多个音频片段之后，提取多个视频帧各自对应的第一视频特征，以及多个音频片段各自对应的第一音频特征，进而，依次将多个视频帧各自对应的第一视频特征依次输入循环神经网络模型中，以得到循环神经网络模型依次输出的多个视频帧各自对应的第二视频特征；以及将多个音频片段各自对应的第一音频特征依次输入循环神经网络模型中，以得到循环神经网络模型依次输出的多个音频片段各自对应的第二音频特征。之后可以融合多个视频帧各自对应的第二视频特征和多个音频片段各自对应的第二音频特征，得到融合后特征，进而，便可以基于融合后特征确定视频的质量评估结果。

在上述方案中，将视频分离为多个视频帧和多个音频片段，并分别进行特征提取，可以关注到视频在空间域上的第一视频特征和第一音频特征，然后通过采用循环神经网络模型分别基于视频在空间域上的第一视频特征和第一音频特征，得到视频在时间域上的第二视频特征和第二音频特征，在进行融合处理第二视频特征和第二音频特征时，关注到了视频在空间域的视频特征和时间域的视频特征，最终根据融合后特征确定视频的质量评估结果，可以提升视频质量评估的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频质量评估方法的示意流程图；

图2为本发明实施例提供的一种可选的一维的卷积神经网络模型的示意图；

图3为本发明实施例提供的可选的一种视频质量评估的处理流程示意图；

图4为本发明实施例提供的一种可选的卷积神经网络模型的示意图；

图5为本发明实施例提供的另一种视频质量评估方法的示意流程图；

图6为本发明实施例提供的一种视频质量评估装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明的一些实施方式作详细说明。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

先对本发明实施例中涉及到的术语或概念进行解释说明：

数据融合：是指将视频、音频、文案等各种模态数据，利用基本或者复杂的数学运算进行结合。

神经网络模型：是指一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。

全连接层(fully connected layers，简称FC)：在整个卷积神经网络模型中起到“分类器”的作用。在实际使用中，全连接层可由卷积操作实现：对前层是全连接的全连接层可以转化为卷积核为1x1的卷积；而前层是卷积层的全连接层可以转化为卷积核为hxw的全局卷积，h和w分别为前层卷积结果的高和宽。

随机失活层(Dropout)：是指在深度学习训练过程中，对于神经网络训练单元，按照一定的概率将其从网络中移除，注意是暂时，对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。

目前，商品视频已经成为电商平台中常见的营销物料。相关研究表明，在电商平台下，在其他条件相同情况下，相较于商品静态图像，将商品卖点动态可视化的表达为动态的商品视频，对商品点击率、店铺访客数等都会带来很大的正面影响。

在电商平台中，视听信号会共同影响用户的观看商品营销视频时的体验。电商平台流媒体传输流程大致包括音频和视频的上传、处理、传输和显示等阶段，每一阶段都可能导致音频或视频信号出现失真现象，从而降低用户的视频观看体验。其中，特别是在商品视频的上传阶段，若商家上传的原始视频质量欠佳，则会极大的影响消费者的视频观看体验，进而降低消费者的购买欲望，不仅不利于提升商品成交率，还会降低消费者对电商平台的印象和评价。因此，有必要在商家上传商品视频至电商平台之前，预先对商品视频进行视频质量评估，例如，对商品视频进行检查、打分等。

面对上述应用需求，本发明实施例提供了一种视频质量评估方法。

本发明实施例提供的视频质量评估方法具体可以由一电子设备来执行，实际应用中，该电子设备可以是服务器，该服务器可以是云端的物理服务器或虚拟服务器(虚拟机)。

图1为本发明实施例提供的一种视频质量评估方法的流程图，如图1所示，该方法包括如下步骤：

101、获取视频中的多个视频帧和多个音频片段。

102、提取多个视频帧各自对应的第一视频特征，以及多个音频片段各自对应的第一音频特征。

103、将多个视频帧各自对应的第一视频特征依次输入循环神经网络模型中，以得到循环神经网络模型依次输出的多个视频帧各自对应的第二视频特征，将多个音频片段各自对应的第一音频特征依次输入循环神经网络模型中，以得到循环神经网络模型依次输出的多个音频片段各自对应的第二音频特征。

104、融合多个视频帧各自对应的第二视频特征和多个音频片段各自对应的第二音频特征，以得到融合后特征。

105、根据融合后特征确定视频的质量评估结果。

可选地，本发明实施例中的视频质量评估的应用场景可以但不限于为：对任意应用领域中任意一种类型的视频进行质量评估，例如，对传媒领域中的影视视频、广告视频、自媒体视频(短视频)进行视频质量评估，对电商领域的商品视频进行视频质量评估，对游戏领域中的游戏视频进行视频质量评估，等等。

对于一段视频而言，从信号类型角度说，视频由音频信号和视频信号两部分构成。为了实现视频质量的评估，本发明实施例中，首先对这段视频进行音视频信号的分离，得到这段视频对应的音频信号和视频信号。其中，音频信号是一个时间连续信号，为便于分析，可以以设定时间片长度，对该音频信号进行切分，从而得到上述多个音频片段。类似地，视频信号是由一帧帧图片组成的，可以是预设的采样率对视频信号进行采样，以得到上述多个视频帧。

需要说明的是，实际上，这多个视频帧与多个音频片段在时间维度上具有对应关系。比如，每个音频片段的长度为10毫秒，在与其对应的10毫秒内，可以采样至少一个视频帧。

在将视频进行分离得到多个音频片段和多个视频帧之后，再对多个音频片段和多个视频帧分别进行空间域上的特征提取，分别得到多个音频片段各自对应的第一音频特征和多个视频帧各自对应的第一视频特征。

例如，对于多个音频片段，本发明实施例中，可以采用一个如图2所示的一维的卷积神经网络模型作为音频特征提取器，以提取多个音频片段各自对应的第一音频特征。不同于现有的技术方案：例如，通过对音频片段进行短时傅里叶变换来得到音频片段对应的二维频谱图。在本发明实施例中，采用一维的卷积神经网络模型提取多个音频片段各自对应的第一音频特征，即在对音频片段的处理方式上无需将其转化为二维图像信号，通过采用此种处理方式，可以降低对音频片段的处理复杂度，进而，显著提升对视频进行质量评估的处理效率。

再例如，对于多个视频帧，在具体实施本发明实施例的过程中，可以采用卷积神经网络模型作为视频特征提取器分别提取多个视频帧各自对应的第一视频特征。可选地，上述卷积神经网络模型可以为预训练的Resnet-18卷积神经网络模型、Resnet-50卷积神经网络模型、MobileNet卷积神经网络模型等，需要说明的是，该卷积神经网络模型的选用以可以实现对多个视频帧的视频特征提取为准，具体采用何种卷积神经网络模型，本发明实施例不作具体限定。

需要说明的是，在本发明实施例中，对于多个音频片段各自对应的第一音频特征和多个视频帧各自对应的第一视频特征，均需要单独的进行特征提取得到的，即不同的音频片段对应的第一音频特征之间是相互独立的，同样不同的视频帧对应的第一视频特征之间也是相互独立的。

本发明方案在将多个视频帧各自对应的第一视频特征以及多个音频片段各自对应的第一音频特征依次输入循环神经网络模型之前，可以先将多个视频帧各自对应的第一视频特征以及多个音频片段各自对应的第一音频特征输入至全连接层FC，采用全连接层FC对第一视频特征和第一音频特征进行线性变换处理，再将线性变换处理结果依次输入循环神经网络模型中。

可选的，在本发明实施例中，为了计算多个音频片段各自对应的第一音频特征，以及多个视频帧各自对应的第一视频特征在时间域的变化，循环神经网络模型可以为由简单循环单元(simple recurrent units，简称SRU)构成的网络模型。SRU可以有效地学习序列数据的长程依赖性。概括来说，SRU当前时刻的输出是由当前时刻的输入以及前一时刻的输出决定的。在本实施例中，SRU当前时刻t的输入为：当前时刻t对应的视频帧i的第一视频特征；SRU当前时刻t的输出为：视频帧i的第二视频特征；SRU前一时刻t-1的输出为：视频帧i-1的第二视频特征。其中，视频帧i是多个视频帧中的任一帧。即采用上述循环神经网络模型获取多个视频帧各自对应的第二视频特征，同样地，采用上述循环神经网络模型获取多个音频片段各自对应的第二音频特征，可以关注到多个音频片段和多个视频帧各自在时序上的关联性。

因此，本发明实施例中，在视频进行质量评估时，考虑到了多个音频片段各自对应的第一音频特征和多个视频帧各自对应的第一视频特征在时间域上的变化对整体质量评估结果的影响，可以提升最终对视频进行质量评估的准确性。

在本发明实施例中，在得到多个视频帧各自对应的第二视频特征和多个音频片段各自对应的第二音频特征之后，可以融合多个视频帧各自对应的第二视频特征和多个音频片段各自对应的第二音频特征，以得到融合后特征。实际应用中，该融合实际上可以理解为是串联拼接操作。

在得到融合后特征之后，将融合后特征输入预设神经网络模型，以通过预设神经网络模型得到视频的质量评估结果，可选地，该预设神经网络模型为一个多层的神经网络模型，比如，该预设神经网络模型依次包括第一全连接层、激励层、随机失活层、第二全连接层。在采用预设神经网络模型对质量评估结果进行处理之后，即可输出针对视频的质量评估结果，例如，质量评分(如：从差到优依次为0-100分)，质量评级(如：0-50分为下等、51-80为中等、81-100分为上等)等。

在本发明实施例中，通过在对视频进行质量评估时，采用预设神经网络模型进行评估计算，提升了对视频进行质量评估的准确率和效率。

在本发明上述实施例中，通过将视频分离为多个视频帧和多个音频片段，并分别进行特征提取，可以关注到视频在空间域上的第一视频特征和第一音频特征，然后通过采用循环神经网络模型分别基于视频在空间域上的第一视频特征和第一音频特征，得到视频在时间域上的第二视频特征和第二音频特征，再对第二视频特征和第二音频特征进行融合处理，最终根据融合后特征确定视频的质量评估结果，可以提升视频质量评估的准确性。

为便于理解本发明方案中提出的视频质量评估方法，示意性给出一种如图3所示的视频质量评估的处理流程示意图，首先将视频进行音视频信号的分离，得到这段视频对应的音频信号和视频信号，再对该音频信号进行切分，从而得到多个音频片段，并采用预设的采样率对视频信号进行采样，以得到多个视频帧。

在将视频进行分离得到多个音频片段和多个视频帧之后，再对多个音频片段和多个视频帧分别进行空间域上的特征提取，如图3所示，分别将多个音频片段输入至音频特征提取器，以得到音频特征提取器输出的多个音频片段各自对应的第一音频特征，以及将多个视频帧输入至视频特征提取器，以得到视频特征提取器输出的多个视频帧各自对应的第一视频特征。

仍如图3所示，在得到第一音频特征和第一视频特征之后，先将多个视频帧各自对应的第一视频特征以及多个音频片段各自对应的第一音频特征输入进全连接层FC，采用全连接层FC对第一视频特征和第一音频特征进行线性变换处理，再将线性变换处理结果依次输入循环神经网络模型中。再采用上述循环神经网络模型处理上述线性变换处理结果，可以获取多个音频片段各自对应的第二音频特征，以及多个视频帧各自对应的第二视频特征，可以关注到多个音频片段和多个视频帧在时序上的关联性。

在得到多个视频帧各自对应的第二视频特征和多个音频片段各自对应的第二音频特征之后，可以融合多个视频帧各自对应的第二视频特征和多个音频片段各自对应的第二音频特征，以得到融合后特征，并将融合后特征输入预设神经网络模型，以通过预设神经网络模型得到视频的质量评估结果。

下面结合图4对本发明实施例中的多个视频帧各自对应的第一视频特征的一种可选的提取方式进行具体阐述：

首先，提取多个视频帧各自对应的第一视频特征，可以实现为：

对于多个视频帧中的任一目标视频帧，将目标视频帧裁剪为多个图像块，提取多个图像块对应的多个特征图，分别对该多个特征图进行池化处理，得到池化后的多个特征图，之后，将池化后的多个特征图合并为作为目标视频帧对应的第一视频特征的目标特征图。

其中，可选地，在进行池化处理中，可以采用某一种或某几种池化方式，比如可以采用平均池化处理、最大池化处理等。

如图4所示，具体地，首先，对于多个视频帧中的任一目标视频帧，可以将目标视频帧裁剪为多个图像块，如：图像块1，……图像块N。例如，按照设定尺寸将目标视频帧裁剪为多个相同尺寸的图像块，该设定尺寸比如为224x224、448x448、520x520等，该设定尺寸的确定与用于进行第一视频特征提取的视频特征提取器对输入图像的尺寸需求相匹配。之后，通过将多个图像块1-N分别输入至视频特征提取器，以得到视频特征提取器提取得到的多个图像块1-N对应的多个特征图1-N。

在本发明实施例中，可选地，分别对所述多个特征图进行池化处理，得到池化后的多个特征图，可以实现为：分别对多个图像块对应的多个特征图进行全局平均池化处理和全局标准差池化处理，得到平均池化后的多个特征图和标准差池化后的多个特征图，如图4中示意的平均池化后的特征图1-N，以及标准差池化后的特征图1-N。之后，将平均池化后的多个特征图合并为目标平均池化特征图，将标准差池化后的多个特征图合并为目标标准差池化特征图。实际应用中，可选地，该合并，可以通过计算平均池化后的多个特征图的均值，以及计算标准差池化后的多个特征图的均值的方式实现。

之后，如图4中所示，拼接目标平均池化特征图和目标标准差池化特征图，将拼接结果作为目标视频帧对应的第一视频特征的目标特征图。

在本发明实施例中，采用上述全局平均池化处理和全局标准差池化处理作为池化处理方式，可以反映目标视频帧的失真信息和失真变化信息。

另外，作为一种可选的实施例，在预先训练上述预设神经网络模型时，可以获取正向样本和负向样本，例如，将不存在缺陷的样本视频、质量评分满分或者质量评分大于评分阈值的样本视频作为正向样本，将存在不同缺陷类型的样本视频、质量评分小于或等于评分阈值的样本视频作为负向样本，并且，对正向样本和负向样本分别采用对应的标签，例如，采用不同的标注信息标注不同缺陷类型的样本视频。之后，采用该正向样本和负向样本对预设神经网络模型进行监督学习训练，进而训练后的预设神经网络模型可以来评估视频的质量，例如，视频对应不同缺陷类型的预测概率，进而可以确定该视频在多大概率上存在何种类型的缺陷。

可选地，上述缺陷类型可以包括但不限于：视频中没有音频，例如，没有背景音乐等；图像质量差，分辨率低，例如，图像中有黑线、图像抖动、图像比例异常等、画质模糊等；没有字幕介绍；图像中包含站外联系方式，等等，需要说明的是，具体的缺陷类型可以根据具体应用场景进行选择或者自定义，本发明实施例不作具体限定。

可以理解的是，不同的缺陷类型，均会不同程度的影响到视频的质量评估结果，本发明实施例中，具体影响质量评估结果的程度仍不具体限定，例如，可以在对视频进行质量评估之前，对每种不同的缺陷类型预先设置不同的权重，进而计算得到最后的质量评分。

为便于理解，如下结合一个实际应用场景为例，来对如何基于不同的缺陷类型计算得到最后的质量评分进行示意说明。

例如，以本发明实施例中的视频为商品视频，针对商品视频中的每种缺陷类型的总评分均为10分为例。如果评估到商品视频中有背景音乐，但该背景音乐的音质很差几乎无法识别，则可以将背景音乐的总评分减掉8分(如果评估到商品视频中没有背景音乐，则可以将背景音乐的总评分减掉10分)；如果评估到商品视频中图像中有黑线，则可以将图像质量的总评分减掉2分；如果评估到商品视频中图像比例异常，再从将图像质量的总评分减掉2分。而且如果评估到商品视频中没有其他缺陷，则最后得到的该商品视频的质量评分为88分，相应地得到的质量评级为上等。

还存在另一种可选的实施例，在得到视频的质量评估结果之后，可以向用户展示视频的质量评估结果。例如，以上述视频为商品视频为例，在得到商品视频的质量评估结果之后，可以将商品视频的质量评估结果反馈给商家及电商平台。

相应地，在向用户展示视频的质量评估结果之后，为便于用户对上传的低质量的视频进行针对性的优化，具体可以基于上述质量评估确定的缺陷类型来向用户输出优化提示信息，以提示用户对视频进行对应的优化或者改进，例如，如果质量评估结果所确定的该视频的缺陷类型为视频缺少字幕，则可以提示用户对视频添加字幕；再例如，如果质量评估结果所确定的该视频的缺陷类型为视频缺少背景音乐，则可以提示用户对该视频添加背景音乐，等等。

此外，对于存在任何一种类型缺陷的视频，除上述针对性建议之外，还可以均提示商家重新制作一条新的商品视频，具体由用户根据根据个体需求进行选择性处理。

由此，采用本发明实施例所提供的视频质量评估方法，不仅有利于优化后续针对商品视频的搜索推荐结果，还可以帮助商家针对性的优化其商品视频。

另一种可选的实施例中，为促进用户对低质量的视频进行优化，以提升上传至平台的视频质量，如果检测到用户没有根据视频质量评估结果或者相应的提示信息对视频进行优化或者改进，仍选择继续上传该初始的视频，则可以降低对该视频的曝光概率，例如，对视频进行推荐时的排序可以与视频的质量相关，如果视频的质量好则相应地该视频的曝光概率就高。

不难看出，这样可以更好的督促用户对评估质量较低的视频进行优化，进而基于优化后的视频可以提升用户的视频观看体验，还可以提升用户对平台的印象和评价。

面对上述应用需求，本发明实施例还提供了另外一种视频质量评估方法。

图5为本发明实施例提供的另一种视频质量评估方法的流程图，如图5所示，该方法包括如下步骤：

501、获取视频中的多个视频帧和多个音频片段。

502、提取多个视频帧各自对应的第一视频特征和第一文字特征，以及多个音频片段各自对应的第一音频特征。

503、将多个视频帧各自对应的第一视频特征依次输入循环神经网络模型中，以得到循环神经网络模型依次输出的多个视频帧各自对应的第二视频特征，将多个视频帧各自对应的第一文字特征依次输入循环神经网络模型中，以得到循环神经网络模型依次输出的多个视频帧各自对应的第二文字特征，将多个音频片段各自对应的第一音频特征依次输入循环神经网络模型中，以得到循环神经网络模型依次输出的多个音频片段各自对应的第二音频特征。

504、融合多个视频帧各自对应的第二视频特征和第二文字特征，以及多个音频片段各自对应的第二音频特征，以得到融合后特征。

505、根据融合后特征确定视频的质量评估结果。

对于一段视频而言，在将视频进行分离得到多个音频片段和多个视频帧之后，本发明实施例中，在对多个音频片段和多个视频帧分别进行空间域上的特征提取时，除提取多个音频片段各自对应的第一音频特征和多个视频帧各自对应的第一视频特征之外，还提取多个视频帧各自对应的第一文字特征，以提升对视频中显示的字幕或者文字内容进行评估的准确性和评估效率。

如上文所述，视频信号是由一帧帧图片组成的，可以是预设的采样率对视频信号进行采样，以得到上述多个视频帧。在本发明实施例中，在得到多个视频帧之后，可以采用文字识别网络模型提取每个视频帧中的文字特征，得到多个视频帧各自对应的第一文字特征。

在提取多个视频帧各自对应的第一文字特征之后，后续还可以将多个视频帧各自对应的第一文字特征依次输入循环神经网络模型中，以得到循环神经网络模型依次输出的多个视频帧各自对应的第二文字特征。具体特征提取方式和循环神经网络模型的类型可以参照上述示例所述，但具体采用何种特征提取方式和网络模型，以可以实现本发明方案为准，对此，本发明实施例不作具体限定。

此外，在后续进行特征融合时，除对多个视频帧各自对应的第二视频特征和多个音频片段各自对应的第二音频特征进行融合之外，还可以融合多个视频帧各自对应的第二视频特征和第二文字特征，以及多个音频片段各自对应的第二音频特征，以得到融合后特征。

在本发明上述实施例中，通过将视频分离为多个视频帧和多个音频片段，并分别进行特征提取，可以关注到视频在空间域上的第一视频特征、第一文字特征和第一音频特征，然后通过采用循环神经网络模型分别基于视频在空间域上的第一视频特征、第一文字特征和第一音频特征，获取得到视频在时间域上的第二视频特征、第二文字特征和第二音频特征，再对第二视频特征、第二文字特征和第二音频特征进行融合处理，最终根据融合后特征确定视频的质量评估结果，可以提升视频质量评估的准确性。

本实施例中未详细展开介绍的内容可以参考前述其他实施例中的相关说明，在此不赘述。

容易理解的是，在实际应用中，在诸多应用领域中可能都涉及到视频质量评估的问题，都可以使用本发明实施例的技术方案。

以下将详细描述本发明的一个或多个实施例的视频质量评估装置。本领域技术人员可以理解，这些装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图6为本发明实施例提供的一种视频质量评估装置的结构示意图，如图6所示，该装置包括：获取模块11，第一提取模块12，第二提取模块13，确定模块14。

获取模块11，用于获取视频中的多个视频帧和多个音频片段。

第一提取模块12，用于提取所述多个视频帧各自对应的第一视频特征，以及所述多个音频片段各自对应的第一音频特征。

第二提取模块13，用于将所述多个视频帧各自对应的第一视频特征依次输入循环神经网络模型中，以得到所述循环神经网络模型依次输出的所述多个视频帧各自对应的第二视频特征；将所述多个音频片段各自对应的第一音频特征依次输入循环神经网络模型中，以得到所述循环神经网络模型依次输出的所述多个音频片段各自对应的第二音频特征。

确定模块14，用于融合所述多个视频帧各自对应的第二视频特征和所述多个音频片段各自对应的第二音频特征，以得到融合后特征；根据所述融合后特征确定所述视频的质量评估结果。

可选地，所述第一提取模块12，具体用于：采用一维的卷积神经网络模型提取所述多个音频片段各自对应的第一音频特征。

可选地，所述第一提取模块12，具体用于：对于所述多个视频帧中的任一目标视频帧，将所述目标视频帧裁剪为多个图像块；提取所述多个图像块对应的多个特征图；分别对所述多个特征图进行池化处理，得到池化后的多个特征图；将所述池化后的多个特征图合并为作为所述目标视频帧对应的第一视频特征的目标特征图。

可选地，所述第一提取模块12具体用于：分别对所述多个特征图进行全局平均池化处理和全局标准差池化处理，得到平均池化后的多个特征图和标准差池化后的多个特征图；将所述平均池化后的多个特征图合并为目标平均池化特征图，将所述标准差池化后的多个特征图合并为目标标准差池化特征图；将所述目标平均池化特征图和所述目标标准差池化特征图的拼接结果，作为所述目标视频帧对应的第一视频特征的目标特征图。

可选地，所述确定模块14具体用于：将所述融合后特征输入预设神经网络模型，以通过所述预设神经网络模型得到所述视频的质量评估结果，所述预设神经网络模型依次包括第一全连接层、激励层、随机失活层、第二全连接层。

可选地，所述装置还包括：第三提取模块，用于提取所述多个视频帧各自对应的第一文字特征；将所述多个视频帧各自对应的第一文字特征依次输入循环神经网络模型中，以得到所述循环神经网络模型依次输出的所述多个视频帧各自对应的第二文字特征。基于此，所述确定模块14具体用于：融合所述多个视频帧各自对应的第二视频特征和第二文字特征，以及所述多个音频片段各自对应的第二音频特征，以得到融合后特征。

在一个可能的设计中，上述图6所示视频质量评估装置的结构可实现为一电子设备。如图7所示，该电子设备可以包括：处理器21、存储器22、通信接口23。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，使处理器21至少可以实现如前述实施例中提供的视频质量评估方法。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述实施例中提供的视频质量评估方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的网元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频质量评估方法，其特征在于，包括：

获取视频中的多个视频帧和多个音频片段；

根据所述融合后特征确定所述视频的质量评估结果。

2.根据权利要求1所述的方法，其特征在于，所述提取所述多个音频片段各自对应的第一音频特征，包括：

采用一维的卷积神经网络模型提取所述多个音频片段各自对应的第一音频特征。

3.根据权利要求1所述的方法，其特征在于，所述提取所述多个视频帧各自对应的第一视频特征，包括：

对于所述多个视频帧中的任一目标视频帧，将所述目标视频帧裁剪为多个图像块；

提取所述多个图像块对应的多个特征图；

分别对所述多个特征图进行池化处理，得到池化后的多个特征图；

将所述池化后的多个特征图合并为作为所述目标视频帧对应的第一视频特征的目标特征图。

4.根据权利要求3所述的方法，其特征在于，所述分别对所述多个特征图进行池化处理，得到池化后的多个特征图，包括：

分别对所述多个特征图进行全局平均池化处理和全局标准差池化处理，得到平均池化后的多个特征图和标准差池化后的多个特征图；

将所述平均池化后的多个特征图合并为目标平均池化特征图，将所述标准差池化后的多个特征图合并为目标标准差池化特征图；

所述将所述池化后的多个特征图合并为作为所述目标视频帧对应的第一视频特征的目标特征图，包括：

将所述目标平均池化特征图和所述目标标准差池化特征图的拼接结果，作为所述目标视频帧对应的第一视频特征的目标特征图。

5.根据权利要求1所述的方法，其特征在于，所述根据所述融合后特征确定所述视频的质量评估结果，包括：

将所述融合后特征输入预设神经网络模型，以通过所述预设神经网络模型得到所述视频的质量评估结果，所述预设神经网络模型依次包括第一全连接层、激励层、随机失活层、第二全连接层。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述多个视频帧各自对应的第一文字特征；

将所述多个视频帧各自对应的第一文字特征依次输入循环神经网络模型中，以得到所述循环神经网络模型依次输出的所述多个视频帧各自对应的第二文字特征；

所述融合所述多个视频帧各自对应的第二视频特征和所述多个音频片段各自对应的第二音频特征，以得到融合后特征，包括：

融合所述多个视频帧各自对应的第二视频特征和第二文字特征，以及所述多个音频片段各自对应的第二音频特征，以得到融合后特征。

7.一种视频质量评估装置，其特征在于，包括：

获取模块，用于获取视频中的多个视频帧和多个音频片段；

8.根据权利要求7所述的装置，其特征在于，所述第一提取模块，还用于：

提取所述多个图像块对应的多个特征图；

9.一种电子设备，其特征在于，包括：存储器、处理器、通信接口；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至6中任一项所述的视频质量评估方法。

10.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至6中任一项所述的视频质量评估方法。