CN110837842A

CN110837842A - 一种视频质量评估的方法、模型训练的方法及装置

Info

Publication number: CN110837842A
Application number: CN201910865571.4A
Authority: CN
Inventors: 张亚彬; 檀丰锋; 李雷达; 陈鹏飞
Original assignee: China University of Mining and Technology CUMT; Tencent Cyber Tianjin Co Ltd
Current assignee: China University of Mining and Technology CUMT; Tencent Technology Shenzhen Co Ltd; Tencent Cyber Tianjin Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-02-25

Abstract

本申请公开了一种视频质量评估的方法，该方法应用于人工智能领域，方法包括：获取待评估视频，其中，待评估视频包括多帧图像；通过视频质量评估模型获取待评估视频的特征向量集合，特征向量集合包括多个特征向量，特征向量与图像具有对应关系；通过视频质量评估模型获取特征向量集合所对应的空域特征向量以及时域特征向量；根据空域特征向量以及时域特征向量，通过视频质量评估模型生成目标评估分值，目标评估分值包括空域预测分值以及时域预测分值，空域预测分值为根据空域特征向量生成的，时域预测分值为根据时域特征向量生成的。本申请还公开一种模型训练的方法及装置。本申请降低了预测的复杂度，由此提升视频质量预测的效率。

Description

一种视频质量评估的方法、模型训练的方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种视频质量评估的方法、模型训练的方法及装置。

背景技术

随着网络视频业务飞速发展，各式各样的视频服务如视频点播、视频直播、视频电话以及等业务已成为人们生活中的重要组成部分，而用户对视频质量的要求也与日俱增，视频业务的成功与否很大程度上依赖于是否能够满足用户的质量需求。因此，准确有效评价视频质量对服务提供商和网络运营商优化服务性能提供了合理的测度。

然而，目前采用的视频质量评估方法仅训练了骨干网络，借助网络模型学习特征，并利用机器学习方法得到预测结果，还需要对网络模型输出的预测结果做进一步地处理和评价，由此导致实现复杂度较大。

发明内容

本申请实施例提供了一种视频质量评估的方法、模型训练的方法及装置，仅使用一个视频质量评估模型就可以实现预测，在整个预测的过程中，无需对模型输出的结果进行二次处理，从而降低了预测的复杂度，由此提升视频质量预测的效率。

有鉴于此，本申请第一方面提供一种视频质量评估的方法，包括：

获取待评估视频，其中，所述待评估视频包括多帧图像；

通过视频质量评估模型获取所述待评估视频的特征向量集合，其中，特征向量集合包括多个特征向量，所述特征向量与所述图像具有对应关系；

通过所述视频质量评估模型获取所述特征向量集合所对应的空域特征向量以及时域特征向量；

根据所述空域特征向量以及所述时域特征向量，通过所述视频质量评估模型生成目标评估分值，其中，所述目标评估分值包括空域预测分值以及时域预测分值，所述空域预测分值为根据所述空域特征向量生成的，所述时域预测分值为根据所述时域特征向量生成的。

本申请第二方面提供一种模型训练的方法，包括：

获取待训练视频所对应的特征图序列，其中，所述待训练视频包括M帧图像，所述特征图序列包括M个特征图，所述特征图与所述图像具有对应关系，所述M为大于1的整数；

对所述特征图序列进行处理，得到第一特征向量集合以及第二特征向量集合，其中，所述第一特征向量集合包括M个第一特征向量，所述第二特征向量集合包括M个第二特征向量；

根据所述第一特征向量集合获取空域特征向量以及时域特征向量，其中，所述空域特征向量用于确定空域预测分值，所述时域特征向量用于确定时域预测分值，所述时域特征向量与所述时域预测分值用于确定第一损失值；

根据所述第二特征向量集合获取辅助特征向量，其中，所述辅助特征向量用于确定辅助预测分值，所述辅助预测分值用于确定第二损失值；

若目标损失值达到收敛，则训练得到视频质量评估模型，其中，所述目标损失值为根据所述第一损失值以及所述第二损失值确定的。

本申请第三方面提供一种视频质量评估装置，包括：

获取模块，用于获取待评估视频，其中，所述待评估视频包括多帧图像；

所述获取模块，还用于通过视频质量评估模型获取所述待评估视频的特征向量集合，其中，特征向量集合包括多个特征向量，所述特征向量与所述图像具有对应关系；

所述获取模块，还用于通过所述视频质量评估模型获取所述特征向量集合所对应的空域特征向量以及时域特征向量；

生成模块，用于根据所述空域特征向量以及所述时域特征向量，通过所述视频质量评估模型生成目标评估分值，其中，所述目标评估分值包括空域预测分值以及时域预测分值，所述空域预测分值为根据所述空域特征向量生成的，所述时域预测分值为根据所述时域特征向量生成的。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

所述获取模块，具体用于获取原始视频，其中，所述原始视频中包括Q帧图像，其中，所述Q为大于1的整数；

按照预设采样率从所述原始视频中提取待处理视频，其中，所述待处理视频包括P帧待处理图像，所述P为大于1，且小于或等于所述Q的整数；

对所述待处理视频中的每帧待处理图像进行归一化处理，得到所述待评估视频，其中，所述待评估视频包括P帧图像。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，

所述获取模块，具体用于通过卷积神经网络获取所述待评估视频的特征图序列，所述特征图序列包括多个特征图，所述特征图与所述图像具有对应关系，所述卷积神经网络属于所述视频质量评估模型；

通过全局平均池化GAP层获取所述特征图序列所对应的所述特征向量集合，其中，所述特征向量与所述特征图具有对应关系，所述GAP层属于所述视频质量评估模型。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

所述获取模块，具体用于通过所述视频质量评估模型获取所述特征向量集合所对应的所述空域特征向量；

通过所述视频质量评估模型获取所述特征向量集合所对应的第一尺度特征向量以及第二尺度特征向量，其中，所述第一尺度特征向量对应于U帧图像，所述第二尺度特征向量对应于V帧图像，所述U为大于或等于1的整数，所述V为大于或等于1，且不同于所述V的整数；

根据所述第一尺度特征向量以及所述第二尺度特征向量确定所述时域特征向量。

在一种可能的设计中，在本申请实施例的第三方面的第四种实现方式中，

所述获取模块，具体用于通过第一全连接层获取所述特征向量集合所对应的第一待处理特征向量集合，其中，所述第一待处理特征向量集合包括多个第一待处理特征向量，所述第一待处理特征向量与所述特征向量具有对应关系，所述第一全连接层属于所述视频质量评估模型；

通过第二全连接层获取所述第一待处理特征向量集合所对应的第二待处理特征向量集合，其中，所述第二待处理特征向量集合包括多个第二待处理特征向量，所述第二待处理特征向量与所述第一待处理特征向量具有对应关系，所述第二全连接层属于所述视频质量评估模型；

根据所述第二待处理特征向量集合，确定所述空域特征向量。

在一种可能的设计中，在本申请实施例的第三方面的第五种实现方式中，所述视频质量评估装置还包括计算模块；

所述计算模块，用于所述获取模块根据所述第二待处理特征向量集合，确定所述空域特征向量之后，获取所述空域特征向量中每个元素所对应的权重参数；

根据所述每个元素所对应的权重参数，对所述每个元素进行加权求和处理，得到所述空域预测分值；

具体采用如下方式计算所述空域预测分值：

Sspa＝W1×A1+W2×B1；

其中，所述Sspa表示所述空域预测分值，所述W1表示第一权重参数，所述W2表示第一权重参数，所述A1表示所述空域特征向量中的第一元素，所述B1表示所述空域特征向量中的第二元素。

在一种可能的设计中，在本申请实施例的第三方面的第六种实现方式中，

所述获取模块，具体用于采用第一函数生成所述第一尺度特征向量所对应的第一尺度待处理特征向量；

采用第二函数生成所述第一尺度待处理特征向量所对应的第二尺度待处理特征向量；

采用所述第一函数生成第二尺度特征向量所对应的第三尺度待处理特征向量；

采用所述第二函数生成所述第三尺度待处理特征向量所对应的第四尺度待处理特征向量；

根据所述第二尺度待处理特征向量以及所述第四尺度待处理特征向量，确定所述时域特征向量。

在一种可能的设计中，在本申请实施例的第三方面的第七种实现方式中，所述视频质量评估装置还包括计算模块；

所述计算模块，还用于所述获取模块根据所述第二尺度待处理特征向量以及所述第四尺度待处理特征向量，确定所述时域特征向量之后，获取所述时域特征向量中每个元素所对应的权重参数；

根据所述每个元素所对应的权重参数，对所述每个元素进行加权求和处理，得到所述时域预测分值；

具体采用如下方式计算所述时域预测分值：

Stem＝K1×A2+K2×B2；

其中，所述Stem表示所述时域预测分值，所述K1表示第三权重参数，所述K2表示第四权重参数，所述A2表示所述时域特征向量中的第一元素，所述B2表示所述时域特征向量中的第二元素。

本申请第四方面提供一种模型训练装置，包括：

获取模块，用于获取待训练视频所对应的特征图序列，其中，所述待训练视频包括M帧图像，所述特征图序列包括M个特征图，所述特征图与所述图像具有对应关系，所述M为大于1的整数；

处理模块，用于对所述获取模块获取的所述特征图序列进行处理，得到第一特征向量集合以及第二特征向量集合，其中，所述第一特征向量集合包括M个第一特征向量，所述第二特征向量集合包括M个第二特征向量；

所述获取模块，还用于根据所述处理模块处理得到的所述第一特征向量集合获取空域特征向量以及时域特征向量，其中，所述空域特征向量用于确定空域预测分值，所述时域特征向量用于确定时域预测分值，所述时域特征向量与所述时域预测分值用于确定第一损失值；

所述获取模块，还用于根据所述处理模块处理得到的所述第二特征向量集合获取辅助特征向量，其中，所述辅助特征向量用于确定辅助预测分值，所述辅助预测分值用于确定第二损失值；

训练模块，用于若目标损失值达到收敛，则训练得到视频质量评估模型，其中，所述目标损失值为根据所述第一损失值以及所述第二损失值确定的。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，所述模型训练装置还包括确定模块；

所述确定模块，用于所述获取模块根据所述第一特征向量集合获取空域特征向量以及时域特征向量之后，根据所述空域特征向量确定所述空域预测分值；

所述确定模块，还用于根据所述时域特征向量确定所述时域预测分值；

所述确定模块，还用于根据所述空域预测分值以及空域真实分值确定第一子损失值；

所述确定模块，还用于根据所述时域预测分值以及时域真实分值确定第二子损失值；

所述确定模块，还用于根据所述第一子损失值以及所述第二子损失值，确定所述第一损失值。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，

所述确定模块，还用于所述获取模块根据所述第二特征向量集合获取辅助特征向量之后，根据所述辅助特征向量确定所述辅助预测分值；

所述确定模块，还用于根据所述辅助预测分值以及辅助真实分值确定所述第二损失值。

在一种可能的设计中，在本申请实施例的第四方面的第三种实现方式中，所述模型训练装置还包括计算模块；

所述计算模块，用于所述训练模块训练得到视频质量评估模型之前，获取所述第一损失值所对应的第一权重值；

获取所述第二损失值所对应的第二权重值；

根据所述第一权重值以及所述第二权重值，对所述第一损失值以及所述第二损失值进行加权求和处理，得到所述目标损失值；

采用如下方式计算所述目标损失值：

Ltotal＝a×L1+b×L2；

其中，所述Ltotal表示所述目标损失值，所述a表示第一权重值，所述b表示第二权重值，所述L1表示所述第一损失值，所述L2表示所述第二损失值。

本申请第五方面提供一种电子设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待评估视频，其中，所述待评估视频包括多帧图像；

根据所述空域特征向量以及所述时域特征向量，通过所述视频质量评估模型生成目标评估分值，其中，所述目标评估分值包括空域预测分值以及时域预测分值，所述空域预测分值为根据所述空域特征向量生成的，所述时域预测分值为根据所述时域特征向量生成的；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第六方面提供一种电子设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

若目标损失值达到收敛，则训练得到视频质量评估模型，其中，所述目标损失值为根据所述第一损失值以及所述第二损失值确定的；

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种视频质量评估的方法，首先获取待评估视频，待评估视频包括多帧图像，然后通过视频质量评估模型获取待评估视频的特征向量集合，特征向量集合包括多个特征向量，特征向量与图像具有对应关系，再通过视频质量评估模型获取特征向量集合所对应的空域特征向量以及时域特征向量，最后通过视频质量评估模型生成目标评估分值，目标评估分值包括空域预测分值以及时域预测分值，空域预测分值为根据空域特征向量生成的，时域预测分值为根据时域特征向量生成的。通过上述方式，由于整个视频质量评估模型里的全部参数都是通过端到端的方式学习得到的，因此仅使用一个视频质量评估模型就可以实现预测，即输入一个待评估视频就能得到评估分值，在整个预测的过程中，无需对模型输出的结果进行二次处理，从而降低了预测的复杂度，由此提升视频质量预测的效率。

附图说明

图1为本申请实施例中视频质量评估系统的一个架构示意图；

图2为本申请实施例中视频质量评估模型的一个结构示意图；

图3为本申请实施例中视频质量评估的方法一个实施例示意图；

图4为本申请实施例中采样待处理视频的一个实施例示意图；

图5为本申请实施例中骨架网络的一个结构示意图；

图6为本申请实施例中基于骨架网络生成特征向量集合的一个实施例示意图；

图7为本申请实施例中深度可分离卷积的一个结构示意图；

图8为本申请实施例中全连接层的一个结构示意图；

图9为本申请实施例中生成空域特征向量的一个实施例示意图；

图10为本申请实施例中时序关系推理模块的一个结构示意图；

图11为本申请实施例中生成时域特征向量的一个实施例示意图；

图12为本申请实施例中模型训练的方法一个实施例示意图；

图13为本申请实施例中深度监督模块的一个结构示意图；

图14为本申请实施例中生成辅助特征向量的一个实施例示意图；

图15为本申请实施例中视频质量评估装置的一个实施例示意图；

图16为本申请实施例中视频质量评估装置的另一个实施例示意图；

图17为本申请实施例中模型训练装置的一个实施例示意图；

图18为本申请实施例中模型训练装置的另一个实施例示意图；

图19为本申请实施例中模型训练装置的另一个实施例示意图；

图20为本申请实施例中电子设备的一个实施例示意图；

图21为本申请实施例中电子设备的另一个实施例示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着人工智能(Artificial Intelligence，AI)技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

应理解，本申请提供的技术方案可以应用于基于人工智能的视频处理场景，具体可以应用于对视频通话质量进行评估的场景。对实时视频通话的质量进行有效且实时的评价，能够帮助视频服务供应提供更优质的服务。近年来，随着各种第四代移动通信技术(the4th Generation mobile communication technology，4G)终端的大量上市，以及第五代移动通信技术(5th-Generation)的不断突破，无线网络速度迅速提升。各类视频通话以及视频会议的应用程序(例如即时通讯类应用以及在线会议类应用等)在现实生活中得到愈发广泛地应用。然而，在视频的获取、编码、传输以及解码过程中会引入各种各样的失真，严重影响视频的质量以及用户观看视频的体验。作为视频服务的供应商，为了给用户提供更为优质的视频观看体验，需要为用户获取的视频质量建立一个评价标准，也就是对这些视频通话的用户体验质量进行检测并量化。因此，本申请所提出的对于实时视频通话的质量评估的需求是十分迫切的。

目前市面上的一些技术虽然也可以对视频质量进行评价，但是由于实时视频通话的失真特性以及对于时间复杂度的要求，这些方法大多数都是传统的机器学习方法，而且对于实时视频通话的质量评价往往效果不能令人满意。因此，本申请借助于深层卷积网络的特征学习能力，通过空域和时域的联合建模对视频的质量进行实时地、高效地且便捷地评估。

为了便于理解，本申请提出了一种视频质量评估的方法，该方法应用于图1所示的视频质量评估系统，请参阅图1，图1为本申请实施例中视频质量评估系统的一个架构示意图，如图所示，用户甲与用户乙需要进行远程会议，用户甲使用终端设备A，用户乙使用终端设备B，当终端设备A与应用服务器建立通信连接，且终端设备B也与该应用服务器建立通信连接时，用户甲和用户乙即可展开视频会议。在视频会议的过程中，应用服务器能够实时检测视频通话质量，即应用服务器中部署有视频质量评估模型，通过该视频质量评估模型对实时获取到的视频进行质量评估，使得后台运维人员能够根据视频的评估结果对服务状态进行分析和改进。可以理解的是，视频质量评估模型也可以部署在终端设备侧，由终端设备对视频进行质量分析，并将分析结果上报给后台运维人员。

需要说明的是，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

下面将对视频质量评估模型进行介绍，为了便于说明，请参阅图2，图2为本申请实施例中视频质量评估模型的一个结构示意图，如图所示，在预测的过程中，视频通过视频质量评估模型后输出一个目标评估分值，具体地，用于预测的视频质量评估模型包括骨架网络(Backbone Network)、时序推理模块(Temporal Relation Reasoning Module)以及融合(Fusion)单元。在训练的过程中，还需增加一个深度监督模块(Deep Supervised Module)，具体地，用于训练的视频质量评估模型包括骨架网络、时序推理模块、深度监督模块以及融合单元。

本申请借助于深层卷积网络强大的特征学习能力，通过时序推理模块有效提取能够描述帧卡顿、亮度骤变以及剧烈抖动带来的运动模糊等实时视频通话常见的时域失真特征，再结合由网络提取到的空域特征对通话的质量进行无参考地，且实时地评估，解决了实时视频通话的用户体验质量评价问题。其中，无参考评价方法因其无需源视频信息提供参考，所以它的灵活性很强，相较于全参考和半参考评价的方法，更具有研究和实用的价值。

结合上述介绍，本申请实施例提供的方案涉及人工智能的计算机视觉等技术，计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

下面将对本申请中视频质量评估的方法进行介绍，请参阅图3，本申请实施例中视频质量评估的方法一个实施例包括：

101、获取待评估视频，其中，待评估视频包括多帧图像；

本实施例中，视频质量评估装置获取待评估视频，可以理解的是，视频质量评估装置可以部署于服务器侧，也可以部署于终端设备侧，本申请以部署在服务器侧为例进行介绍，然而这不应理解为对本申请的限定。

其中，待评估视频包括多帧图像，通常情况下，该图像是红绿蓝(red green blue，RGB)格式图像。视频是由连续多帧静止图像经过组合构成，而这些静止的连续图像之间存在着序列相关性，基于数字图像处理技术和计算机视觉处理技术，可以按照一定的频率从视频流中截取视频帧图像，从而得到待评估视频。

102、通过视频质量评估模型获取待评估视频的特征向量集合，其中，特征向量集合包括多个特征向量，特征向量与图像具有对应关系；

本实施例中，服务器将待评估视频输入至视频质量评估模型，由视频质量评估模型中的骨架网络提取该待评估视频所对应的特征向量集合，可以理解的是，特征向量集合包括多个特征向量，且特征向量与图像具有对应关系。具体地，假设待评估视频具有10帧图像，那么每帧图像对应一个特征向量，即特征向量集合包括10个特征向量。

103、通过视频质量评估模型获取特征向量集合所对应的空域特征向量以及时域特征向量；

本实施例中，服务器将特征向量集合输入至视频质量评估模型的至少一个全连接层以及时序推理模块，由至少一个全连接层输出特征向量集合所对应的空域特征向量，并且由时序推理模块输出特征向量集合所对应的时域特征向量。其中，空域又称为空间(spatial)域，即所说的像素域，在空域的处理就是在像素级的处理，如在像素级的图像叠加。通过傅立叶变换后，得到的是图像的频谱，表示图像的能量梯度。时域又称为时间(temporal)域，自变量是时间，即横轴是时间，纵轴是图像的变化。

104、根据空域特征向量以及时域特征向量，通过视频质量评估模型生成目标评估分值，其中，目标评估分值包括空域预测分值以及时域预测分值，空域预测分值为根据空域特征向量生成的，时域预测分值为根据时域特征向量生成的。

本实施例中，基于空域特征向量可以计算得到空域预测分值，并且基于时域特征向量可以计算得到时域预测分值，将空域预测分值以及时域预测分值输入至视频质量评估模型中的融合单元，由融合单元输出目标评估分值。其中，目标评估分值可以表示为主观质量评分(mean opinion score，MOS)，为了便于说明，请参阅表1，表1为目标评估分值的一个评价测度示意。

表1

主观质量评分(MOS分)	评价	质量情况
			5	优	几乎无法察觉
4	良	刚能察觉但是不影响通话
			3	中	有些影响通话，但还能继续通话
2	次	通话效果非常差
			1	劣	无法通话

由表1可知，在评价视频质量的时候可以设置5个维度，目标评估分值可以表示为MOS分，基于MOS分即可了解当前视频的质量，分数越高，表示视频质量越好，反之，分数越低，表示视频质量越差。可以理解的是，表1所示的评价维度和评价情况仅为一个示意，不应理解为对本申请的限定。

可以理解的是，目标评估分值是由两部分分值融合而成，分别是空域预测分值以及时域预测分值，最终的目标评估分值可以采用如下方式进行计算：

S＝α×Sspa+(1-α)×Stem；

其中，S表示目标评估分值，α表示权重系数，可以是由网络自动学习得到的，比如可以是0.32，Sspa表示空域预测分值，Stem表示时域预测分值。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频质量评估的方法第一个可选实施例中，获取待评估视频，可以包括：

获取原始视频，其中，原始视频中包括Q帧图像，其中，Q为大于1的整数；

按照预设采样率从原始视频中提取待处理视频，其中，待处理视频包括P帧待处理图像，P为大于1，且小于或等于Q的整数；

对待处理视频中的每帧待处理图像进行归一化处理，得到待评估视频，其中，待评估视频包括P帧图像。

本实施例中，介绍了一种获取待评估视频的方法，即提供了一种对原始视频进行预处理，从而得到待评估视频的方法。

具体地，原始视频是未经处理的视频，原始视频包括Q帧图像，然后按照预设采样率从原始视频中提取多帧图像，这些图像构成待处理视频，待处理视频包括P帧待处理图像。为了便于介绍，请参阅图4，图4为本申请实施例中采样待处理视频的一个实施例示意图，如图所示，假设原始视频为1秒，1秒内有8帧图像，即Q＝8，预设采样率为2帧每秒，于是可以从这8帧图像中取2帧图像，比如取出第1帧图像和第2帧图像，于是P＝2。

本申请可以利用蟒蛇(Python)的开源计算机视觉库(Open Source ComputerVision Library，CV)2对每一段输入的原始视频进行等间隔的，且均匀的抽帧采样，可以设置采样率为4帧每秒，这样每一段长度为10秒的原始视频将会得到40帧的图像，这40帧图像即为待处理视频，随后需要对采用得到的每帧待处理图像进行标准化的处理。图像标准化是将数据通过去均值实现中心化的处理，根据凸优化理论与数据概率分布相关知识，数据中心化符合数据分布规律，更容易取得训练之后的泛化效果。

待处理图像可以是RGB图像，以一个待处理图像为例进行介绍，假设待处理图像表示为I，设置均值向量为[0.485,0.456,0.406]，设置标准差向量为[0.229,0.224,0.225]，可以理解的是，数据的设置依据经验值，经试验，上述设置的两组数据，归一化效果较好。其中，每组数据中包括的三个参数分别对应红、绿和蓝三个通道。

采用如下标准化处理公式计算得到待评估视频中的图像：

其中，表示待评估视频中的图像，I表示待处理图像，μ表示均值向量，σ表示标准差向量。最后，将归一化后的图像帧将进行堆叠，得到待评估视频。待评估视频可以表示为4维数组，比如(40,3,960,540)，40代表每批次的数量，3代表通道数，即RGB三通道，960表示图像的长度，540表示图像的宽度。可以将数组作为训练阶段的网络输入。

基于上述介绍，对原始视频进行预处理后能够有效地提升视频处理效率，请参阅表2，表2为测试效果的一个示意。

表1

模型效率	处理10帧的测试速度	准确率
			慢	2.87秒	0.8795
快	0.56秒	0.6248

由此可见，本申请提供的技术方案由于需要处理的图像帧数较少，因此，具有更好的实时性，此外，本申请是在中央处理器(central processing unit，CPU)上完成对视频质量的评估，而不是在图形处理器(Graphics Processing Unit，GPU)上进行的，从而进一步提升了处理效率，在单核CPU上的测试速度已经达到4倍的实时。

其次，本申请实施例中，提供了一种获取待评估视频的方法，即获取原始视频，然后按照预设采样率从原始视频中提取待处理视频，对待处理视频中的每帧待处理图像进行归一化处理，得到待评估视频。通过上述方式，从原始视频中抽取部分帧图像作为待评估视频，从而减少了视频处理的帧数量，提升了视频处理的效率。此外，待评估视频中的每帧图像经过归一化处理，由此使得不同图像之间的特征能够相差较小，提升处理的效率。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频质量评估的方法第二个可选实施例中，通过视频质量评估模型获取待评估视频的特征向量集合，可以包括：

通过卷积神经网络获取待评估视频的特征图序列，特征图序列包括多个特征图，特征图与图像具有对应关系，卷积神经网络属于视频质量评估模型；

通过全局平均池化GAP层获取特征图序列所对应的特征向量集合，其中，特征向量与特征图具有对应关系，GAP层属于视频质量评估模型。

本实施例中，介绍了一种获取特征向量集合的方法，服务器可以采用视频质量评估模型中的卷积神经网络提取特征向量集合，该卷积神经网络即为骨架网络。为了便于介绍，请参阅图5，图5为本申请实施例中骨架网络的一个结构示意图，如图所示，该骨架网络为空域特征和时域特征共用的卷积神经网络，用于将待评估视频中的RGB图像进行编码，获得较为高层的语义信息，并将得到的特征图作为后续提取空域特征和时域特征的网络输入。骨架网络可以包括多个处理模块，每个处理模块包括两个卷积层和一个池化层，其中，池化层用于进行下采样。最后一个处理模块还包括全局平均池化(Global AveragePooling，GAP)层。可以理解的是，图5所示的骨架网络结构仅为一个示意，在实际应用中，骨架网络还可以包括其他数量的处理模块，且每个处理模块也不仅限于两个卷积层。

具体地，为了便于理解，请参阅图6，图6为本申请实施例中基于骨架网络生成特征向量集合的一个实施例示意图，如图所示，假设输入的待评估视频包括10帧RGB图像，且每帧图像的长为224，宽为224，即待评估视频表示为10*3*224*224。将待评估视频输入至视频质量评估模型中的卷积神经网络，从而得到特征图序列10*7*7*256，10表示10帧，即待评估视频中的每个图像对应一个特征图。GAP层采用[7,7]对特征图序列进行求平均的处理，从而得到特征向量集合10*1*256，10表示10帧，即待评估视频中的每个图像对应一个特征向量，每个特征向量表示为1*256。

可以理解的是，视频质量评估模型中的骨架网络可以是视觉几何组(VisualGeometry Group，VGG)16、残差网络(Residual Network，ResNet)、密集卷积网络(DenseNetwork，DenseNet)或者移动网络(MobileNet)等，此处不做限定。但考虑到处理效率和精确度，本申请可以采用轻量化的MobileNet-v2作为骨架网络。

MobileNet的核心思想是将传统卷积分解为深度可分离卷积与1*1的卷积，深度可分离卷积是指输入特征图的每个通道(channel)都对应一个卷积核，这样输出的特征的每个通道只与输入特征图对应的通道相关。这种卷积操作能够显著降低模型大小和计算量。为了便于理解，请参阅图7，图7为本申请实施例中深度可分离卷积的一个结构示意图，如图所示，MobileNet-v2在网络结构上运用了深度可分离卷积(Depth-wise SeparableConvolution，DSC)代替了普通的卷积，深度可分离卷积的计算量一般可缩减为传统卷积的1/9左右。这种卷积方式背后的假设是跨通道相关性和跨空间(spatial)相关性的解耦，应用深度可分离卷积的另一个优势即是参数量的节省，这一点其实也是解耦的结果，参数描述上享受了正交性的乘法增益。

其次，本申请实施例中，提供了一种获取特征向量集合的方法，即先通过卷积神经网络获取待评估视频的特征图序列，特征图序列包括多个特征图，然后通过GAP层获取特征图序列所对应的特征向量集合。通过上述方式，基于视频质量评估模型可以直接获取到特征向量集合，并且使用轻量化的骨架网络提取特征向量，轻量化的骨架网络优势在于参数数量较少，从而提升特征提取的效率。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频质量评估的方法第三个可选实施例中，通过视频质量评估模型获取特征向量集合所对应的空域特征向量以及时域特征向量，可以包括：

通过视频质量评估模型获取特征向量集合所对应的空域特征向量；

通过视频质量评估模型获取特征向量集合所对应的第一尺度特征向量以及第二尺度特征向量，其中，第一尺度特征向量对应于U帧图像，第二尺度特征向量对应于V帧图像，U为大于或等于1的整数，V为大于或等于1，且不同于V的整数；

根据第一尺度特征向量以及第二尺度特征向量确定时域特征向量。

本实施例中，介绍了一种确定空域特征向量以及时域特征向量的方案。即服务器可以将特征向量集合输入至视频质量评估模型的至少一个全连接层以及时序推理模块，由至少一个全连接层输出特征向量集合所对应的空域特征向量，并且由时序推理模块输出特征向量集合所对应的时域特征向量。

具体地，将特征向量集合输入至视频质量评估模型中的时序推理模块，由时序推理模块输出多个不同尺度的特征向量，所谓不同尺度是指尺度特征向量所对应的图像帧数不同，比如第一尺度特征向量包括U帧图像，而第二尺度特征向量包括V帧图像，U和V是两个不同的整数。最后基于第一尺度特征向量以及第二尺度特征向量生成时域特征向量。

视频与图像最大的不同之处在于，视频的帧图像序列之间存在时序上的联系，因此，本申请在对视频的质量进行评价时，利用时序推理模块获取时间维度的失真带来的损耗。从而能够有效地描述帧卡顿、亮度骤变以及剧烈抖动带来的运动模糊等实时视频通话常见的时域失真特征。传统光流法比较慢，新的网络光流虽然大大提高了速度，但是对于实时的应用场景需求还有差距，而三维卷积训练起来很慢，参数量太大，而且难以收敛，实际应用中缺陷很明显。因此，本申请构建了时序推理模块。

其次，本申请实施例中，提供了一种确定空域特征向量以及时域特征向量的方案，在提取空域特征向量的过程中，通过视频质量评估模型即可得到空域特征向量，在提取时域特征向量的过程中，通过视频质量评估模型获取多个尺度的特征向量以及第二尺度特征向量，根据不同尺度的特征向量确定时域特征向量。通过上述方式，能够利用视频质量评估模型同时提取不同维度下的特征，结合空域的特征和时域的特征进行更加全面的预测，从而可以得到更准确的预测效果。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频质量评估的方法第四个可选实施例中，通过视频质量评估模型获取特征向量集合所对应的空域特征向量，可以包括：

通过第一全连接层获取特征向量集合所对应的第一待处理特征向量集合，其中，第一待处理特征向量集合包括多个第一待处理特征向量，第一待处理特征向量与特征向量具有对应关系，第一全连接层属于视频质量评估模型；

通过第二全连接层获取第一待处理特征向量集合所对应的第二待处理特征向量集合，其中，第二待处理特征向量集合包括多个第二待处理特征向量，第二待处理特征向量与第一待处理特征向量具有对应关系，第二全连接层属于视频质量评估模型；

根据第二待处理特征向量集合，确定空域特征向量。

本实施例中，介绍了一种确定空域特征向量的方法。请参阅图8，图8为本申请实施例中全连接层的一个结构示意图，如图所示，图中仅以两个全连接层为例进行介绍，可以理解的是，在实际应用中，还可以是其他数量的全连接层，此处不做限定。首先，服务器在通过视频质量评估模型中的骨架网络获取特征向量集合之后，将该特征向量集合输入至第一全连接层，通过第一全连接层输出第一待处理特征向量，第一待处理特征向量集合包括多个第一待处理特征向量，每个第一待处理特征向量对应一个特征向量。将第一待处理特征向量集合输入至第二全连接层，通过第二全连接层输出第二待处理特征向量集合，第二待处理特征向量集合包括多个第二待处理特征向量，每个第二待处理特征向量对应一个特征向量。对第二待处理特征向量集合求平均，即可得到空域特征向量。

具体地，请参阅图9，图9为本申请实施例中生成空域特征向量的一个实施例示意图，如图所示，假设输入的待评估视频包括10帧RGB图像，且每帧图像的长为224，宽为224，即待评估视频表示为10*3*224*224。将待评估视频输入至视频质量评估模型中的卷积神经网络，从而得到特征图序列10*7*7*256，10表示10帧，即待评估视频中的每个图像对应一个特征图。GAP层采用[7,7]对特征图序列进行求平均的处理，从而得到特征向量集合10*1*256，10表示10帧，即待评估视频中的每个图像对应一个特征向量，每个特征向量表示为1*256。以第1帧图像为例进行介绍，假设第i帧图像对应的特征向量为1*256，将特征向量1*256输入至第一全连接层，第一全连接层采用[256,128]对特征向量1*256进行处理，得到第一待处理特征向量1*128。将第一待处理特征向量1*128输入至第二全连接层，第二全连接层采用[128,5]对特征向量1*128进行处理，得到第二待处理特征向量1*5，即得到5维的质量分布向量，比如(0.1，0.2，0.3，0.4，0)，也就是说该待评估视频中的第i帧图像属于“优”分类的概率为0.1，属于“良”分类的概率为0.2，属于“中”分类的概率为0.3，属于“次”分类的概率为0.4，属于“劣”分类的概率为0。

在对待评估视频中的每帧图像都经过上述处理后，即可得到10个第二待处理特征向量，于是对这10个第二待处理特征向量在每个元素上求平均，从而得到空域特征向量。以待评估视频中的3帧图像为例进行介绍，假设第一帧图像的第二待处理特征向量(0.1，0.2，0.3，0.4，0)，第二帧图像的第二待处理特征向量(0.2，0.5，0.1，0.1，0.1)，第三帧图像的第二待处理特征向量(0.3，0.2，0.1，0.3，0.1)，由此，对每个元素求平均即可得到空域特征向量(0.2，0.3，0.17，0.27，0.06)。

再次，本申请实施例中，提供了一种确定空域特征向量的方法，即通过第一全连接层获取特征向量集合所对应的第一待处理特征向量集合，然后通过第二全连接层获取第一待处理特征向量集合所对应的第二待处理特征向量集合，最后根据第二待处理特征向量集合，确定空域特征向量。通过上述方式，利用多个全连接层可以得到空域特征向量，从而提升方案的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频质量评估的方法第五个可选实施例中，根据第二待处理特征向量集合，确定空域特征向量之后，还可以包括：

获取空域特征向量中每个元素所对应的权重参数；

根据每个元素所对应的权重参数，对每个元素进行加权求和处理，得到空域预测分值；

具体采用如下方式计算空域预测分值：

Sspa＝W1×A1+W2×B1；

其中，Sspa表示空域预测分值，W1表示第一权重参数，W2表示第一权重参数，A1表示空域特征向量中的第一元素，B1表示空域特征向量中的第二元素。

本实施例中，介绍了一种计算空域预测分值的方法，为了便于理解，请参阅表3，表3是空域特征向量的一个示意。

表3

	“优”分类	“良”分类	“中”分类	“次”分类	“劣”分类
						第1帧图像	0.1	0.2	0.3	0.4	0
第2帧图像	0.2	0.5	0.1	0.1	0.1
						第3帧图像	0.3	0.2	0.1	0.3	0.1
空域特征向量	0.2	0.3	0.17	0.27	0.06

由表3可见，每帧图像所对应的第二待处理特征向量中所有元素之和为1，因此，空域特征向量中各个元素之和也为1。在得到空域特征向量之后，可以采用如下方式计算空域预测分值：

Sspa＝W1×A1+W2×B1；

可以理解的是，上述公式是以空域特征向量包括2个维度的元素为例进行设计的，在实际应用中，可根据维度的数量对上述公式进行改进，假设空域特征向量为(0.2，0.3，0.17，0.27，0.06)，于是可以采用如下公式计算空域预测分值：

Sspa＝W1×A1+W2×B1+W3×C1+W4×D1+W5×E1；

假设W1为1，W2为2，W3为3，W4为4，W5为5，于是得到：

Sspa＝1×0.2+2×0.3+3×0.17+4×0.27+5×0.06＝0.2+0.6+0.51+1.08+0.3＝2.69

即Sspa表示为MOS分值可以是2.69。

进一步地，本申请实施例中，提供一种计算空域预测分值的方法，通过上述方式，结合经验得到的权重值以及模型输出的空域特征向量，可以得到一个最终分值，为方案的实现提供了可行的依据，从而提升了方案的可行性和可操作性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频质量评估的方法第六个可选实施例中，根据第一尺度特征向量以及第二尺度特征向量确定时域特征向量，可以包括：

采用第一函数生成第一尺度特征向量所对应的第一尺度待处理特征向量；

采用第二函数生成第一尺度待处理特征向量所对应的第二尺度待处理特征向量；

采用第一函数生成第二尺度特征向量所对应的第三尺度待处理特征向量；

采用第二函数生成第三尺度待处理特征向量所对应的第四尺度待处理特征向量；

根据第二尺度待处理特征向量以及第四尺度待处理特征向量，确定时域特征向量。

本实施例中，介绍了一种确定时域特征向量的方法，从考虑帧间的时序逻辑出发，通过对多尺度的视频帧间时序逻辑关系进行模型的建立，从而提取到时域失真的信息。

具体地，对于从骨干网络提取得到的通道数为40(输入的通道是3，经过骨干网络通道会增加)的特征图序列，通过在时序上进行不同尺度的随机采样，获取不同长度的时序序列，并通过以下公式提取不同尺度的时序联系：

MT₄₀(X)＝T₄₀(X)+T₂₀(X)+T₁₀(X)+T₅(X)+T₃(X)；

其中，T_N(X)表示N个有序视频帧之间的时序联系，可以采用如下方式进行计算：

其中，g_θ()表示第一函数，第一函数的主要功能是对每一个序列的特征进行融合，h_φ()表示第二函数，第二函数的主要功能是对一个或多个通过g_θ()以后的特征再进行融合。本申请使用多次感知机(multilayer perceptrons，MLP)来实现第一函数和第二函数的功能。输入的X可以表示为由至少一个元素组成的有序序列，有序序列可以为尺度特征向量。X＝(f_i,f_j,...f_k)，f_i表示第i帧图像的特征表示，可以是经典卷积网络模型或者循环神经网络输出的特征图。

考虑到模型训练的便捷性，本申请无需计算全部图像之间的时序联系，而是有目的性地进行了采样，具体方法为，先将每个视频均匀采样得到的40个帧图像按照时间顺序进行排列，构成X的子集

并用该子集

去计算T₄₀(X)。对

进行步长(即每两帧取一帧图像)为2的均匀下采样(即类似于从10帧里取5帧是第1帧、第3帧、第5帧、第7帧和第9帧，而不是第1帧、第2帧、第3帧、第7帧和第8帧这样间隔)，由于起始的帧数不同，可以获取到两个不同的视频帧子集

以及

再分别对上述获得的子集进行相同的均匀下采样，依次获得

和

类似地，继续进行均匀下采样，依次获得

和

由于只剩下5帧图像，因此，进行下采样依次获得

和

如此，40帧就剩24帧了。

分别对获得的子集提取时序联系，对于有多个子集的时间尺度，先通过第一函数g_θ()融合帧图像之间的特征，再求和后通过第二函数h_φ()融合不同子集的结果求得该时间尺度得时序联系T_N(X)。将不同时间尺度的时序联系进行求和，获取最终的关于视频的时序联系MT₄₀(X)。

可以理解的是，对于时序推理模块中计算帧间关系的方法而言，还可以采用其他更为有效且更为边界的方法替代MLP，对于最后预测分数的融合方式，可以设计更为合理的动态权重分配方式，此次不做限定。

为了便于理解，请参阅图10，图10为本申请实施例中时序关系推理模块的一个结构示意图，如图所示，以长度为10帧图像的待评估视频为例进行介绍，将第1帧至第10帧图像输入至骨架网络，由骨架网络输出第1帧至第10帧所对应的特征向量集合。将第1帧至第10帧所对应的特征向量集合进行拼接，得到第一尺度特征向量，其中，第一尺度特征向量对应于10帧图像，即U＝10。将第一尺度特征向量作为第一函数的输入，得到第一尺度待处理特征向量，将第一尺度待处理特征向量作为第二函数的输入，得到第二尺度待处理特征向量。

对

进行均匀下采样得到

为第1帧、第3帧、第5帧、第7帧和第9帧图像，将这五帧图像进行拼接，得到第二尺度特征向量，其中，第二尺度特征向量对应于5帧图像，即V＝5。类似地，为第2帧、第4帧、第6帧、第8帧和第10帧图像，将第1帧至第10帧所对应的特征向量集合进行拼接，得到第二尺度特征向量，其中，第二尺度特征向量对应于5帧图像，即V＝5。将一个第二尺度特征向量作为第一函数的输入，得到一个第三尺度待处理特征向量，将另一个第二尺度特征向量也作为第一函数的输入，得到另一个第三尺度待处理特征向量，将这两个第三尺度待处理特征向量都作为第二函数的输入，得到第四尺度待处理特征向量。

对

进行均匀下采样得到

为第1帧、第5帧和第9帧图像，将这三帧图像进行拼接，并且对进行均匀下采样得到

为第2帧、第6帧和第10帧图像，也将这三帧图像进行拼接。类似地，基于

和

通过第一函数和第二函数之后可以得到第五尺度待处理特征向量，此次不做赘述。根据到第二尺度待处理特征向量、第四尺度待处理特征向量以及第五尺度待处理特征向量，求平均后得到时域特征向量。

为了便于理解具体的过程，请参阅图11，图11为本申请实施例中生成时域特征向量的一个实施例示意图，如图所示，仍然以长度为10帧图像的待评估视频为例进行介绍，T10表示10帧图像，假设这10帧的特征向量集合表示为10*1*256，将这10帧图像的特征向量进行拼接得到1*2560的特征向量，将特征向量1*2560输入至第一函数，经过第一函数后得到第一尺度待处理特征向量1*256，再将第一尺度待处理特征向量1*256输入至第二函数，经过第二函数后得到第二尺度待处理特征向量1*5。

T5表示5帧图像，这里包括2组T5，第一组T5所对应的特征向量集合表示为5*1*256，将这5帧图像的特征向量进行拼接得到1*1280的特征向量，将特征向量1*1280输入至第一函数，经过第一函数后得到第二尺度待处理特征向量1*256，再将第二尺度待处理特征向量1*256输入至第二函数，得到第二尺度待处理特征向量1*5。类似地，对第二组T5所对应的特征向量集合也进行上述处理，得到另一个第三尺度待处理特征向量1*256，然后对第一组T5对应的第三尺度待处理特征向量和第二组T5对应的第三尺度待处理特征向量进行求平均计算，得到平均待处理特征向量1*256，将平均待处理特征向量1*256输入至第二函数，得到第四尺度待处理特征向量1*5。最后，对第四尺度待处理特征向量1*5和第二尺度待处理特征向量1*5求平均，得到时域特征向量1*5，其中，5表示5个维度。

再次，本申请实施例中，提供了一种确定时域特征向量的方法，即采用第一函数生成第一尺度特征向量所对应的第一尺度待处理特征向量，采用第二函数生成第一尺度待处理特征向量所对应的第二尺度待处理特征向量，并且采用第一函数生成第二尺度特征向量所对应的第三尺度待处理特征向量，采用第二函数生成第三尺度待处理特征向量所对应的第四尺度待处理特征向量，最后根据第二尺度待处理特征向量以及第四尺度待处理特征向量，确定时域特征向量。通过上述方式，为了能够有效提取能够描述帧卡顿、亮度骤变以及剧烈抖动带来的运动模糊等实时视频通话常见的时域失真特征，在对视频的质量进行评价时，必须要将时间维度的失真带来的损伤考虑进去，综合考虑效率与准确性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的视频质量评估的方法第七个可选实施例中，根据第二尺度待处理特征向量以及第四尺度待处理特征向量，确定时域特征向量之后，还可以包括：

获取时域特征向量中每个元素所对应的权重参数；

根据每个元素所对应的权重参数，对每个元素进行加权求和处理，得到时域预测分值；

采用如下方式计算时域预测分值：

Stem＝K1×A2+K2×B2；

其中，Stem表示时域预测分值，K1表示第三权重参数，K2表示第四权重参数，A2表示时域特征向量中的第一元素，B2表示时域特征向量中的第二元素。

本实施例中，介绍了一种计算时域预测分值的方法，为了便于理解，请参阅表4，表4是时域特征向量的一个示意。

表4

由表4可见，每帧图像所对应的质量分数分布之和为1，因此，时域特征向量中各个元素之和也为1。在得到时域特征向量之后，可以采用如下方式计算时域预测分值：

Stem＝K1×A2+K2×B2；

可以理解的是，上述公式是以时域特征向量包括2个维度的元素为例进行设计的，在实际应用中，可根据维度的数量对上述公式进行改进，假设时域特征向量为(0.3，0.1，0.2，0.2，0.2)，于是可以采用如下公式计算时域预测分值：

Stem＝K1×A2+K2×B2+K3×C2+K4×D2+K5×E2；

假设K1为1，K2为2，K3为3，K4为4，K5为5，于是得到：

Stem＝1×0.3+2×0.1+3×0.2+4×0.2+5×0.2＝0.3+0.2+0.6+0.8+1＝2.9

即Stem表示为MOS分值可以是2.9。

进一步地，本申请实施例中，提供一种计算时域预测分值的方法，通过上述方式，结合经验得到的权重值以及模型输出的时域特征向量，可以得到一个最终分值，为方案的实现提供了可行的依据，从而提升了方案的可行性和可操作性。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图12，本申请实施例中模型训练的方法一个实施例包括：

201、获取待训练视频所对应的特征图序列，其中，待训练视频包括M帧图像，特征图序列包括M个特征图，特征图与图像具有对应关系，M为大于1的整数；

本实施例中，模型训练装置获取待训练视频，可以理解的是，模型训练装置可以部署于服务器侧，也可以部署于终端设备侧，本申请以部署在服务器侧为例进行介绍，然而这不应理解为对本申请的限定。其中，待训练视频包括M帧图像，通常情况下，该图像是RGB格式图像。视频是由连续多帧静止图像经过组合构成，而这些静止的连续图像之间存在着序列相关性，基于数字图像处理技术和计算机视觉处理技术，可以按照一定的频率从视频流中截取视频帧图像，从而得到待训练视频。

服务器将待训练视频输入至待训练视频质量评估模型，由待训练视频质量评估模型提取特征图序列，其中，待训练视频包括M帧图像，特征图序列包括M个特征图，且特征图与图像具有对应关系。具体地，假设待训练视频具有10帧图像，那么每帧图像对应一个特征图，即特征图序列包括10个特征图。

202、对特征图序列进行处理，得到第一特征向量集合以及第二特征向量集合，其中，第一特征向量集合包括M个第一特征向量，第二特征向量集合包括M个第二特征向量；

本实施例中，服务器通过待训练视频质量评估模型中的GAP层对特征图序列进行处理，得到第一特征向量集合以及第二特征向量集合。具体地，第一特征向量集合以包括M个第一特征向量，每个第一特征向量对应一个特征图，第二特征向量集合以包括M个第二特征向量，每个第二特征向量对应一个特征图。

可以理解的是，第二特征向量集合是由深度监督模块提取得到的，若存在多个深度监督模块，则可以提取到多个第二特征向量集合，以图2所示的网络架构为例，存在四个深度监督模块，每个深度监督模块可以提取一个第二特征向量集合，一共提取到四个第二特征向量集合。

203、根据第一特征向量集合获取空域特征向量以及时域特征向量，其中，空域特征向量用于确定空域预测分值，时域特征向量用于确定时域预测分值，时域特征向量与时域预测分值用于确定第一损失值；

本实施例中，服务器将第一特征向量集合输入至待训练视频质量评估模型的至少一个全连接层以及时序推理模块，由至少一个全连接层输出第一特征向量集合所对应的空域特征向量，并且由时序推理模块输出第一特征向量集合所对应的时域特征向量。其中，空域又称为空间域，即所说的像素域，在空域的处理就是在像素级的处理，如在像素级的图像叠加。通过傅立叶变换后，得到的是图像的频谱，表示图像的能量梯度。时域又称为时间域，自变量是时间，即横轴是时间，纵轴是图像的变化。服务器通过待训练视频质量评估模型确定空域特征向量所对应的空域预测分值，并且确定时域特征向量所对应的时域预测分值。

204、根据第二特征向量集合获取辅助特征向量，其中，辅助特征向量用于确定辅助预测分值，辅助预测分值用于确定第二损失值；

本实施例中，服务器根据至少一个第二特征向量集合生成辅助特征向量，类似地，基于辅助特征向量计算得到辅助预测分值，利用预测得到的辅助预测分值和实际的辅助真实分值，确定第二损失值。

205、若目标损失值达到收敛，则训练得到视频质量评估模型，其中，目标损失值为根据第一损失值以及第二损失值确定的。

本实施例中，将输入的待训练视频按照批次(batch)的形式传入网络中进行计算，从而预测得到第一损失值和第二损失值，根据第一损失值和第二损失值确定目标损失值，目标损失值用于表示预测值与真实值之间的差距。服务器可以将得到目标损失值进行回传，并通过优化器(optimizer)对网络的模型参数进行优化。重复执行步骤201至步骤204，直至目标损失值不再下降，或者迭代的次数已经达到预设门限，则表示待训练视频质量评估模型已接近收敛，于是可以将模型参数确定为视频质量评估模型的模型参数，从而训练得到视频质量评估模型。

本申请实施例中，提供了一种模型训练的方法，首先获取待训练视频所对应的特征图序列，然后对特征图序列进行处理，得到第一特征向量集合以及第二特征向量集合，再根据第一特征向量集合获取空域特征向量以及时域特征向量，并根据第二特征向量集合获取辅助特征向量，结合空域特征向量以及时域特征向量得到第一损失值，结合辅助特征向量得到第二损失值，若第一损失值和第二损失值达到收敛，则训练得到视频质量评估模型。通过上述方式，能够训练得到一个端到端的视频质量评估模型，仅使用一个视频质量评估模型就可以实现预测，在整个预测的过程中，无需对模型输出的结果进行二次处理，从而降低了预测的复杂度，由此提升视频质量预测的效率。

可选地，在上述图12对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第一个可选实施例中，根据第一特征向量集合获取空域特征向量以及时域特征向量之后，还可以包括：

根据空域特征向量确定空域预测分值；

根据时域特征向量确定时域预测分值；

根据空域预测分值以及空域真实分值确定第一子损失值；

根据时域预测分值以及时域真实分值确定第二子损失值；

根据第一子损失值以及第二子损失值，确定第一损失值。

本实施例中，介绍了一种确定第一损失值的方法，结合图3对应的实施例可知根据空域特征向量计算得到空域预测分值的方法，以及根据时域特征向量计算得到时域预测分值的方法。具体地，假设空域特征向量为(0.2，0.3，0.17，0.27，0.06)，于是可以采用如下公式计算空域预测分值：

Sspa＝W1×A1+W2×B1+W3×C1+W4×D1+W5×E1；

假设W1为1，W2为2，W3为3，W4为4，W5为5，于是得到：

Sspa＝1×0.2+2×0.3+3×0.17+4×0.27+5×0.06＝0.2+0.6+0.51+1.08+0.3＝2.69

即Sspa表示为MOS分值可以是2.69。

假设时域特征向量为(0.3，0.1，0.2，0.2，0.2)，于是可以采用如下公式计算时域预测分值：

Stem＝K1×A2+K2×B2+K3×C2+K4×D2+K5×E2；

假设K1为1，K2为2，K3为3，K4为4，K5为5，于是得到：

Stem＝1×0.3+2×0.1+3×0.2+4×0.2+5×0.2＝0.3+0.2+0.6+0.8+1＝2.9

即Stem表示为MOS分值可以是2.9。

基于上述假设，得到空域预测分值为2.69，得到时域预测分值为2.9。根据预先对训练集数据标注后得到的空域真实分值和时域真实分值，分别计算第一子损失值以及第二子损失值，假设空域预测分值为2.4，时域真实分值为3.0，那么可以得到第一子损失值为0.29，第二子损失值为0.1，第一损失值为0.39。

其次，本申请实施例中，提供了一种确定第一损失值的方法，即根据空域预测分值以及空域真实分值确定第一子损失值，并且根据时域预测分值以及时域真实分值确定第二子损失值，最后结合第一子损失值以及第二子损失值，确定第一损失值。通过上述方式，为第一损失值的确定提供了一种可行的方式，结合预测得到的空域分值和真实的空域分值，以及预测得到的时域分值和真实的时域分值，能够更加全面地训练视频质量评估模型在空域和时域上的预测情况，从而提升训练的可靠性。

可选地，在上述图12对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第二个可选实施例中，根据第二特征向量集合获取辅助特征向量之后，还可以包括：

根据辅助特征向量确定辅助预测分值；

根据辅助预测分值以及辅助真实分值确定第二损失值。

本实施例中，介绍了一种确定第二损失值的方法，为了防止深层网络中间部分梯度消失的问题，以及为了更好地促进模型的收敛，本申请在训练模型的过程中加入辅助分类器作为深度监督模块。为了便于介绍，请参阅图13，图13为本申请实施例中深度监督模块的一个结构示意图，如图所示，将提取得到的各个视频帧的特征图作为输入，分别经过两层全连接层后，可以理解的是，全连接层的数量仅为一个示意，不应理解为对本申请的限定。通过Softmax激活函数得到质量分数的分布，比如可以得到5维的向量。并取平均值后根据损失函数计算第二损失值。其中，Softmax激活函数的计算方法为，假设有一个数组R，Ri表示R中的第i个元素，那么这个元素的softmax值表示为：

其中，i＝1，2，…，j，j为数组R中元素数量的总数。

为了便于理解，请参阅图2和图14，图14为本申请实施例中生成辅助特征向量的一个实施例示意图，如图所示，以图2中所示的4个深度监督模块为例，在实际应用中，深度监督模块的数量不做限定。每个深度监督模块用于计算一个损失结果。假设输入至第一个深度监督模块的特征图序列为10*112*112*16，经过GAP后得到特征向量为10*1*16，经过全连接层后得到10*1*5的辅助特征向量，10表示10帧图像，5表示5维元素，基于辅助特征向量计算得到1*1*1的辅助预测分值，比如可以是0.2。类似地，假设输入至第二个深度监督模块的特征图序列为10*56*56*24，经过GAP后得到特征向量为10*1*24，经过全连接层后得到10*1*5的辅助特征向量，基于辅助特征向量计算得到1*1*1的辅助预测分值，比如可以是0.3。假设输入至第三个深度监督模块的特征图序列为10*28*28*32，经过GAP后得到特征向量为10*1*32，经过全连接层后得到10*1*5的辅助特征向量，基于辅助特征向量计算得到1*1*1的辅助预测分值，比如可以是0.4。假设输入至第四个深度监督模块的特征图序列为10*14*14*96，经过GAP后得到特征向量为10*1*96，经过全连接层后得到10*1*5的辅助特征向量，基于辅助特征向量计算得到1*1*1的辅助预测分值，比如可以是0.1。

于是分别得到辅助预测分值为0.2,0.3,0.4和0.1，假设辅助真实分值分别为0.2,0.2,0.3,0.3，那么第二损失值可以为(0.2-0.2)+(0.3-0.2)+(0.4-0.3)+(0.3-0.1)＝0.4。

其次，本申请实施例中，提供了一种确定第二损失值的方法，即根据辅助特征向量确定辅助预测分值，然后根据辅助预测分值以及辅助真实分值确定第二损失值。通过上述方式，为第二损失值的确定提供了一种可行的方式，结合预测得到的辅助分值和真是的辅助分值，能够更加全面地训练视频质量评估模型，从而提升训练的可靠性。

可选地，在上述图12对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第三个可选实施例中，若目标损失值达到收敛，则训练得到视频质量评估模型之前，还可以包括：

获取第一损失值所对应的第一权重值；

获取第二损失值所对应的第二权重值；

根据第一权重值以及第二权重值，对第一损失值以及第二损失值进行加权求和处理，得到目标损失值；

具体可以采用如下方式计算目标损失值：

Ltotal＝a×L1+b×L2；

其中，Ltotal表示目标损失值，a表示第一权重值，b表示第二权重值，L1表示第一损失值，L2表示第二损失值。

本实施例中，介绍了一种计算目标损失值的方法，具体可以采用如下方式计算目标损失值：

Ltotal＝a×L1+b×L2；

其中，Ltotal表示目标损失值，a表示第一权重值，可以设置为0.7，b表示第二权重值，可以设置为0.3，L1表示第一损失值，L2表示第二损失值，比如，L1为0.39，L2为0.3，a为0.7，b为0.3，则目标损失值为0.363。

再次，本申请实施例中，提供了一种计算目标损失值的方法，通过上述方式，为方案的实现提供了可行的依据，并且能够结合不同的损失函数进行训练，有利于提升训练的可靠性和准确度。

基于本申请提供的视频质量评估模型，在1000个视频样本构成的数据集上进行相关试验，为了便于介绍，请参阅表5，表5为采用本申请提供的方法与现有技术提供的方法在预测准确度上的一个对比示意。

表5

由此可见，在1000个视频样本构成的数据集上的预测值的皮尔逊线性相关系数(Pearson linear correlation coefficient，PLCC)可以达到0.8790，表5列出了一些其他常用方法包括图像质量评价方法(Image quality assessment，IQA)和视频质量评价方法(Video quality assessment)的预测值的PLCC作为对比。

下面对本申请中的视频质量评估装置进行详细描述，请参阅图15，图15为本申请实施例中视频质量评估装置一个实施例示意图，视频质量评估装置30包括：

获取模块301，用于获取待评估视频，其中，所述待评估视频包括多帧图像；

所述获取模块301，还用于通过视频质量评估模型获取所述待评估视频的特征向量集合，其中，特征向量集合包括多个特征向量，所述特征向量与所述图像具有对应关系；

所述获取模块301，还用于通过所述视频质量评估模型获取所述特征向量集合所对应的空域特征向量以及时域特征向量；

生成模块302，用于根据所述空域特征向量以及所述时域特征向量，通过所述视频质量评估模型生成目标评估分值，其中，所述目标评估分值包括空域预测分值以及时域预测分值，所述空域预测分值为根据所述空域特征向量生成的，所述时域预测分值为根据所述时域特征向量生成的。

本申请实施例中，提供了一种视频质量评估装置，由于整个视频质量评估模型里的全部参数都是通过端到端的方式学习得到的，因此仅使用一个视频质量评估模型就可以实现预测，即输入一个待评估视频就能得到评估分值，在整个预测的过程中，无需对模型输出的结果进行二次处理，从而降低了预测的复杂度，由此提升视频质量预测的效率。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的视频质量评估装置30的另一实施例中，

所述获取模块301，具体用于获取原始视频，其中，所述原始视频中包括Q帧图像，其中，所述Q为大于1的整数；

其次，本申请实施例中，从原始视频中抽取部分帧图像作为待评估视频，从而减少了视频处理的帧数量，提升了视频处理的效率。此外，待评估视频中的每帧图像经过归一化处理，由此使得不同图像之间的特征能够相差较小，提升处理的效率。

所述获取模块301，具体用于通过卷积神经网络获取所述待评估视频的特征图序列，所述特征图序列包括多个特征图，所述特征图与所述图像具有对应关系，所述卷积神经网络属于所述视频质量评估模型；

所述获取模块301，具体用于通过所述视频质量评估模型获取所述特征向量集合所对应的所述空域特征向量；

所述获取模块301，具体用于通过第一全连接层获取所述特征向量集合所对应的第一待处理特征向量集合，其中，所述第一待处理特征向量集合包括多个第一待处理特征向量，所述第一待处理特征向量与所述特征向量具有对应关系，所述第一全连接层属于所述视频质量评估模型；

可选地，在上述图15所对应的实施例的基础上，请参阅图16，本申请实施例提供的视频质量评估装置30的另一实施例中，所述视频质量评估装置30还包括计算模块303

所述计算模块303，用于所述获取模块301根据所述第二待处理特征向量集合，确定所述空域特征向量之后，采用如下方式计算所述空域预测分值：

Sspa＝W1×A1+W2×B1；

可选地，在上述图15或图16所对应的实施例的基础上，本申请实施例提供的视频质量评估装置30的另一实施例中，

所述获取模块301，具体用于采用第一函数生成所述第一尺度特征向量所对应的第一尺度待处理特征向量；

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的视频质量评估装置30的另一实施例中，所述视频质量评估装置30还包括计算模块303；

所述计算模块303，还用于所述获取模块根据所述第二尺度待处理特征向量以及所述第四尺度待处理特征向量，确定所述时域特征向量之后，采用如下方式计算所述时域预测分值：

Stem＝K1×A2+K2×B2；

下面对本申请中的模型训练装置进行详细描述，请参阅图17，图17为本申请实施例中模型训练装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取待训练视频所对应的特征图序列，其中，所述待训练视频包括M帧图像，所述特征图序列包括M个特征图，所述特征图与所述图像具有对应关系，所述M为大于1的整数；

处理模块402，用于对所述获取模块401获取的所述特征图序列进行处理，得到第一特征向量集合以及第二特征向量集合，其中，所述第一特征向量集合包括M个第一特征向量，所述第二特征向量集合包括M个第二特征向量；

所述获取模块401，还用于根据所述处理模块402处理得到的所述第一特征向量集合获取空域特征向量以及时域特征向量，其中，所述空域特征向量用于确定空域预测分值，所述时域特征向量用于确定时域预测分值，所述时域特征向量与所述时域预测分值用于确定第一损失值；

所述获取模块401，还用于根据所述处理模块402处理得到的所述第二特征向量集合获取辅助特征向量，其中，所述辅助特征向量用于确定辅助预测分值，所述辅助预测分值用于确定第二损失值；

训练模块403，用于若目标损失值达到收敛，则训练得到视频质量评估模型，其中，所述目标损失值为根据所述第一损失值以及所述第二损失值确定的。

可选地，在上述图17所对应的实施例的基础上，请参阅图18，本申请实施例提供的模型训练装置40的另一实施例中，所述模型训练装置40还包括确定模块404；

所述确定模块404，用于所述获取模块401根据所述第一特征向量集合获取空域特征向量以及时域特征向量之后，根据所述空域特征向量确定所述空域预测分值；

所述确定模块404，还用于根据所述时域特征向量确定所述时域预测分值；

所述确定模块404，还用于根据所述空域预测分值以及空域真实分值确定第一子损失值；

所述确定模块404，还用于根据所述时域预测分值以及时域真实分值确定第二子损失值；

所述确定模块404，还用于根据所述第一子损失值以及所述第二子损失值，确定所述第一损失值。

可选地，在上述图18所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

所述确定模块404，还用于所述获取模块根据所述第二特征向量集合获取辅助特征向量之后，根据所述辅助特征向量确定所述辅助预测分值；

所述确定模块404，还用于根据所述辅助预测分值以及辅助真实分值确定所述第二损失值。

可选地，在上述图17或图18所对应的实施例的基础上，请参阅图19，本申请实施例提供的模型训练装置40的另一实施例中，所述模型训练装置40还包括计算模块405；

所述计算模块405，用于所述训练模块403训练得到视频质量评估模型之前，采用如下方式计算所述目标损失值：

Ltotal＝a×L1+b×L2；

本申请实施例还提供了另一种视频质量评估装置，如图20所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该电子设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售电子设备(Point of Sales，POS)、车载电脑等任意电子设备，以电子设备为手机为例：

图20示出的是与本申请实施例提供的电子设备相关的手机的部分结构的框图。参考图20，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图20中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图20对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图20中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图20示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该电子设备所包括的处理器580还具有以下功能：

获取待评估视频，其中，所述待评估视频包括多帧图像；

图21是本发明实施例提供的一种电子设备结构示意图，该电子设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对电子设备中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在电子设备600上执行存储介质630中的一系列指令操作。

电子设备600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由电子设备所执行的步骤可以基于该图21所示的电子设备结构。

在本申请实施例中，该电子设备所包括的CPU 622还具有以下功能：

获取待评估视频，其中，所述待评估视频包括多帧图像；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者电子设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频质量评估的方法，其特征在于，包括：

获取待评估视频，其中，所述待评估视频包括多帧图像；

通过视频质量评估模型获取所述待评估视频的特征向量集合，其中，特征向量集合包括多个特征向量；

2.根据权利要求1所述的方法，其特征在于，所述获取待评估视频，包括：

获取原始视频，其中，所述原始视频中包括Q帧图像，其中，所述Q为大于1的整数；

3.根据权利要求1所述的方法，其特征在于，所述通过视频质量评估模型获取所述待评估视频的特征向量集合，包括：

通过卷积神经网络获取所述待评估视频的特征图序列，所述特征图序列包括多个特征图，所述特征图与所述图像具有对应关系，所述卷积神经网络属于所述视频质量评估模型；

4.根据权利要求1所述的方法，其特征在于，所述通过所述视频质量评估模型获取所述特征向量集合所对应的空域特征向量以及时域特征向量，包括：

通过所述视频质量评估模型获取所述特征向量集合所对应的所述空域特征向量；

5.根据权利要求4所述的方法，其特征在于，所述通过所述视频质量评估模型获取所述特征向量集合所对应的所述空域特征向量，包括：

通过第一全连接层获取所述特征向量集合所对应的第一待处理特征向量集合，其中，所述第一待处理特征向量集合包括多个第一待处理特征向量，所述第一待处理特征向量与所述待评估视频的特征向量具有对应关系，所述第一全连接层属于所述视频质量评估模型；

6.根据权利要求5所述的方法，其特征在于，所述根据所述第二待处理特征向量集合，确定所述空域特征向量之后，所述方法还包括：

获取所述空域特征向量中每个元素所对应的权重参数；

根据所述每个元素所对应的权重参数，对所述每个元素进行加权求和处理，得到所述空域预测分值。

7.根据权利要求4所述的方法，其特征在于，所述根据所述第一尺度特征向量以及所述第二尺度特征向量确定所述时域特征向量，包括：

采用第一函数生成所述第一尺度特征向量所对应的第一尺度待处理特征向量；

8.根据权利要求7所述的方法，其特征在于，所述根据所述第二尺度待处理特征向量以及所述第四尺度待处理特征向量，确定所述时域特征向量之后，所述方法还包括：

获取所述时域特征向量中每个元素所对应的权重参数；

根据所述每个元素所对应的权重参数，对所述每个元素进行加权求和处理，得到所述时域预测分值。

9.一种模型训练的方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一特征向量集合获取空域特征向量以及时域特征向量之后，所述方法还包括：

根据所述空域特征向量确定所述空域预测分值；

根据所述时域特征向量确定所述时域预测分值；

根据所述空域预测分值以及空域真实分值确定第一子损失值；

根据所述时域预测分值以及时域真实分值确定第二子损失值；

根据所述第一子损失值以及所述第二子损失值，确定所述第一损失值。

11.根据权利要求9所述的方法，其特征在于，所述根据所述第二特征向量集合获取辅助特征向量之后，所述方法还包括：

根据所述辅助特征向量确定所述辅助预测分值；

根据所述辅助预测分值以及辅助真实分值确定所述第二损失值。

12.根据权利要求9至11中任一项所述的方法，其特征在于，所述若目标损失值达到收敛，则训练得到视频质量评估模型之前，所述方法还包括：

获取所述第一损失值所对应的第一权重值；

获取所述第二损失值所对应的第二权重值；

根据所述第一权重值以及所述第二权重值，对所述第一损失值以及所述第二损失值进行加权求和处理，得到所述目标损失值。

13.一种视频质量评估装置，其特征在于，包括：

14.一种模型训练装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如权利要求1至8中任一项所述的方法，或，执行如权利要求9至12中任一项所述的方法。