CN114973068A

CN114973068A - 视频质量评估模型生产方法及其装置、设备、介质

Info

Publication number: CN114973068A
Application number: CN202210494255.2A
Authority: CN
Inventors: 冯进亨; 戴长军
Original assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Current assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2022-08-30

Abstract

本申请涉及图像识别技术领域中一种视频质量评估模型生产方法及其装置、设备、介质，所述方法包括：获取经训练至收敛状态的视频质量评估模型的初始化的实例；获取所述视频质量评估模型的训练配置列表；将已收敛的实例作为教师网络，按序调用所述训练配置列表中的单个实例作为学生网络，复用教师网络的权重将其训练至收敛状态后，替换所述教师网络以继续对其他实例实施迭代知识蒸馏训练，直至最后一个实例被训练至收敛；重复多次训练所述的最后一个实例至收敛状态，将该实例多次训练获得的权重参数取均值，配置为最后一个实例的实际权重，以该实例作为视频质量评估模型的产出。本申请可实现轻量级精准评估视频质量的模型。

Description

视频质量评估模型生产方法及其装置、设备、介质

技术领域

本申请涉及图像识别技术领域，尤其涉及一种视频质量评估模型生产方法及其相应的装置、计算机设备、计算机可读存储介质。

背景技术

视频质量评估是自从视频出现之后就在学术界与工业界一直研究的方法，主要分为有参考评估与无参考评估。有参考评估根据给出的参考视频，逐帧对比效果差异，从而可以较容易得到一个相对准确的评估分数。视频无参考评估是一种对当前视频质量给出用户主观体验优劣分数的方法，根据无参考评估的分数可以动态调整网络传输的码率、帧率、分辨率等质量指标以达到控制成本的目的。通过调整，用户主观视频观感体验基本无影响，如此实现既满足用户需求，又能变相节省网络传输资源，可见能够带来相当可观的经济效益。

无参考评估方法的难度是非常大的，传统算法在无参考视频评估中只能发挥很有限的能力，直到近年来人工智能的高速发展，以CNN(Convolutional Neural Network)作为基础的无参考视频评估方法得到重视与高速发展，成为主要研究与应用方向。随着AI的快速发展，各式各样的基于CNN的视频无参考评估技术与模型压缩技术不断出现，业界通过使用不同的AI算法手段，在视频质量无参考评估中得到很好的准确度与鲁棒性，但仍有部分缺点，主要体现在模型产出效率和成本等方面，未能取得良好的总体收益。

发明内容

本申请的目的在于解决上述问题至少之一而提供一种视频质量评估模型生产方法及其相应的装置、计算机设备、计算机可读存储介质。

适应本申请的各个目的，采用如下技术方案：

获取经训练至收敛状态的视频质量评估模型的初始化的实例，所述模型包括用于对同一视频的多个图像帧的样本数据逐级降采样以提取特征的多级主干模块，和用于预测末端主干模块所输出的图像特征信息的质量评分的预测模块，每级主干模块均包含一个或多个卷积层；

获取所述视频质量评估模型的训练配置列表，该训练配置列表顺序包含所述模型的其他多个实例相对应的各级主干模块的卷积层规模的配置信息，其中在后的实例的卷积层总体规模小于在先的实例且不超过所述初始化的实例；

将已收敛的实例作为教师网络，按序调用所述训练配置列表中的单个实例作为学生网络，复用教师网络的权重将其训练至收敛状态后，替换所述教师网络以继续对其他实例实施迭代知识蒸馏训练，直至最后一个实例被训练至收敛；

重复多次训练所述的最后一个实例至收敛状态，将该实例多次训练获得的权重参数取均值，配置为最后一个实例的实际权重，以该实例作为视频质量评估模型的产出。

进一步的实施例中，所述视频质量评估模型的初始化的实例的训练过程，包括如下步骤：

获取单个训练样本中的视频的多个图像帧，将所述多个图像帧进行数据增强处理后获得样本数据，输入至实例中；

由该实例的各级主干模块逐级对所述样本数据提取图像特征信息后，经预测模块输出该视频的质量评分；

根据所述训练样本预标注的监督评分计算所述质量评分的模型损失值，所述监督评分为主观质量评分，在该模型损失值未达到预设阈值时对该实例实施权重更新，并继续调用其他训练样本实施迭代训练。

进一步的实施例中，根据所述训练配置列表所配置的所述视频质量评估模型的实例的训练过程，包括如下步骤：

获取单个训练样本中的视频的多个图像帧，将所述多个图像帧进行数据增强处理后获得样本数据，同步输入至教师网络和学生网络；

分别经所述教师网络和所述学生网络中的各级主干模块逐级对所述样本数据提取图像特征信息后，经其各自的预测模块输出该视频的质量评分；

计算学生网络的模型损失值，所述损失值包括所述训练样本预标注的监督评分与学生网络预测的质量评分之间的损失值，所述监督评分为主观质量评分，以及教师网络与学生网络之间各级主干模块所获得的图像特征信息之间的特征损失值；

判断该模型损失值是否达到预设阈值，当未达到预设阈值时对该实例实施权重更新，并继续调用其他训练样本实施迭代训练。

进一步的实施例中，所述训练配置列表中，各级主干模块相对应的卷积层规模以数量表示，其中，排序在后的实例的部分主干模块的卷积层数量大于在先的实例的相应主干模块的卷积层数量，而其余主干模块的卷积层数量维持相一致。

进一步的实施例中，所述视频质量评估模型中，在前的主干模块的输出经最大池化层采用后输入在后的主干模块处理，最后一级主干模块的输出经平均池化层进行均值池化后输入所述预测模块。

进一步的实施例中，所述视频质量评估模型中，在后的主干模块的卷积层规模不小于其在先的主干模块的卷积层规模，且至少存在一个在后的主干模块的卷积层规模大于其在先的主干模块的卷积层规模。

进一步的实施例中，将所有被训练的实例的权重的均值权重配置为最后一个被训练的实例的相应权重，使该实例成为产出的视频质量评估模型之后，包括如下步骤：

将网络直播的视频流中的多个连续图像帧输入产出的视频质量评估模型中，预测出其相应的质量评分；

根据所述质量评分调节所述视频流的编码器的编码帧率。

另一方面，适应本申请的目的之一而提供的一种视频质量评估模型生产装置，包括初始化模块、实例配置模块、迭代蒸馏模块，以及模型产出模块，其中：初始化模块，用于获取经训练至收敛状态的视频质量评估模型的初始化的实例，所述模型包括用于对同一视频的多个图像帧的样本数据逐级降采样以提取特征的多级主干模块，和用于预测末端主干模块所输出的图像特征信息的质量评分的预测模块，每级主干模块均包含一个或多个卷积层；实例配置模块，获取所述视频质量评估模型的训练配置列表，该训练配置列表顺序包含所述模型的其他多个实例相对应的各级主干模块的卷积层规模的配置信息，其中在后的实例的卷积层总体规模小于在先的实例且不超过所述初始化的实例；迭代蒸馏模块，用于将已收敛的实例作为教师网络，按序调用所述训练配置列表中的单个实例作为学生网络，复用教师网络的权重将其训练至收敛状态后，替换所述教师网络以继续对其他实例实施迭代知识蒸馏训练，直至最后一个实例被训练至收敛；

进一步的实施例中，所述初始化模块的所述视频质量评估模型的初始化的实例的训练过程，包括：第一样本输入子模块，用于获取单个训练样本中的视频的多个图像帧，将所述多个图像帧进行数据增强处理后获得样本数据，输入至实例中；第一特征提取子模块，用于由该实例的各级主干模块逐级对所述样本数据提取图像特征信息后，经预测模块输出该视频的质量评分；第一迭代训练子模块，用于根据所述训练样本预标注的监督评分计算所述质量评分的模型损失值，所述监督评分为主观质量评分，在该模型损失值未达到预设阈值时对该实例实施权重更新，并继续调用其他训练样本实施迭代训练。

进一步的实施例中，所述实例配置模块的根据所述训练配置列表所配置的所述视频质量评估模型的实例的训练过程，包括：第二样本输入子模块，用于获取单个训练样本中的视频的多个图像帧，将所述多个图像帧进行数据增强处理后获得样本数据，同步输入至教师网络和学生网络；第二特征提取子模块，用于分别经所述教师网络和所述学生网络中的各级主干模块逐级对所述样本数据提取图像特征信息后，经其各自的预测模块输出该视频的质量评分；损失计算子模块，用于计算学生网络的模型损失值，所述损失值包括所述训练样本预标注的监督评分与学生网络预测的质量评分之间的损失值，所述监督评分为主观质量评分，以及教师网络与学生网络之间各级主干模块所获得的图像特征信息之间的特征损失值；第二迭代训练子模块，用于判断该模型损失值是否达到预设阈值，当未达到预设阈值时对该实例实施权重更新，并继续调用其他训练样本实施迭代训练。

进一步的实施例中，所述实例配置模块的所述训练配置列表中，各级主干模块相对应的卷积层规模以数量表示，其中，排序在后的实例的部分主干模块的卷积层数量大于在先的实例的相应主干模块的卷积层数量，而其余主干模块的卷积层数量维持相一致。

进一步的实施例中，所述实例配置模块的所述视频质量评估模型中，在前的主干模块的输出经最大池化层采用后输入在后的主干模块处理，最后一级主干模块的输出经平均池化层进行均值池化后输入所述预测模块。

进一步的实施例中，所述实例配置模块的所述视频质量评估模型中，在后的主干模块的卷积层规模不小于其在先的主干模块的卷积层规模，且至少存在一个在后的主干模块的卷积层规模大于其在先的主干模块的卷积层规模。

进一步的实施例中，所述模型产出模块，包括：模型预测子模块，用于将网络直播的视频流中的多个连续图像帧输入产出的视频质量评估模型中，预测出其相应的质量评分；帧率调节子模块，用于根据所述质量评分调节所述视频流的编码器的编码帧率。

又一方面，适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的视频质量评估模型生产方法的步骤。

又一方面，适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的视频质量评估模型生产方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

相对于现有技术，本申请获取经训练至收敛状态的视频质量评估模型的初始化的实例，通过对该模型中部分或全量的主干模块压缩，即减轻主干模块对应的卷积层规模，从而相应的衍生多个实例，以该多个实例的各级主干模块对应的卷积层规模构建训练配置列表，进一步，将已收敛的实例作为教师网络，按序调用所述训练配置列表中的单个实例作为学生网络，复用教师网络的权重将其训练至收敛状态后，替换所述教师网络以继续对其他实例实施迭代知识蒸馏训练，直至最后一个实例被训练至收敛，重复多次训练所述的最后一个实例至收敛状态，将该实例多次训练获得的权重参数取均值，配置为最后一个实例的实际权重，以该实例作为视频质量评估模型的产出。可以理解，本申请可以获得多方面优势，包括但不限于：

首先，通过迭代式蒸馏训练学生网络，最终产出的视频质量评估模型具备与教师网络相同的能力，同样能够精准预测视频对应的视频质量，除此之外，所产出的视频质量评估模型轻量化，能够线上部署，实时运行对视频的质量的评估，预测出相应的质量评分。

其次，在迭代式蒸馏训练过程中，每次迭代的学生网络复用教师网络的部分权重，既能保持学生网络预测的精准度，又能加速学生网络的训练，提升其收敛的速度。

此外，本申请以重复多次训练所述的最后一个实例至收敛状态获得的权重参数取均值，配置为最后一个实例的实际权重，能够增加该模型的泛化能力和鲁棒性。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的视频质量评估模型生产方法的典型实施例的流程示意图；

图2为本申请的实施例中示范性举例视频质量评估模型的结构示意图；

图3为本申请的实施例中示范性举例视频质量评估模型中主干模块的结构示意图；

图4为本申请的实施例中所述视频质量评估模型的初始化的实例的训练过程的流程示意图；

图5为本申请的实施例中根据所述训练配置列表所配置的所述视频质量评估模型的实例的训练过程的流程示意图；

图6为本申请的实施例中针对教师网络和学生网络相对应的各级主干模块的知识蒸馏示意图；

图7为本申请的实施例中根据产出的视频质量评估模型预测视频流相对应的质量评分调整视频流的编码帧率的流程示意图；

图8为本申请的视频质量评估模型生产装置的原理框图；

图9为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种视频质量评估模型生产方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，例如，本申请的示例性应用场景中，可以在电商平台的服务器中部署实现，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。

请参阅图1，本申请的视频质量评估模型生产方法，在其典型实施例中，包括如下步骤：

步骤S1100、获取经训练至收敛状态的视频质量评估模型的初始化的实例，所述模型包括用于对同一视频的多个图像帧的样本数据逐级降采样以提取特征的多级主干模块，和用于预测末端主干模块所输出的图像特征信息的质量评分的预测模块，每级主干模块均包含一个或多个卷积层；

本申请的视频质量评估模型将用于对视频流预测无参考评分，据此，一种实施例中，可将本申请的视频质量评估模型部署于电商平台中的网络直播相对应的媒体服务器，以提供相应的服务，所述服务可为对电商平台中的网络直播产生的视频流预测无参考评分。所述视频流是由一张张在时间上连续的图像帧组成的，可通过对视频流进行解码而获得其对应的多个图像帧的数据作为所述样本数据，将其输入至所述模型中以提取特征，用于对所述模型实施训练。

所述视频质量评估模型的初始化的实例示范性举例如图2所示，其中包含多级主干模块200、平均池化层202、预测模块203，多级主干模块200与平均池化层202相连接，平均池化层202与预测模块203相连接，相邻的两级主干模块之间经过一层最大池化层201相连接以实现对前一级主干模块所提取的特征降采样，而且每级主干模块均包含一个或多个卷积层，在前的主干模块的输出经最大池化层采样后输入在后的主干模块处理，最后一级主干模块即所述末端主干模块的输出即所述图像特征信息经平均池化层202进行均值池化后输入所述预测模块，进而由该预测模块预测该图像特征信息相对应的质量评分，所述预测模块203包含全连接层204。

一种实施例中，在多级主干模块内，在后的主干模块的卷积层规模不小于其在先的主干模块的卷积层规模，且至少存在一个在后的主干模块的卷积层规模大于其在先的主干模块的卷积层规模，例如：在后的主干模块的卷积层规模为16个卷积层，那么相应的其在先的主干模块的卷积层规模对应的卷积层个数可为任意比16个小的个数，可为8、6、4个等。通过在各级主干模块中逐渐增大卷积层数，由浅到深地对图像帧的深层语义信息进行提取，使末端主干模块可以有效表示图像帧在各个尺度上的深层语义信息。

一种实施例中，所述主干模块的组成结构示范性举例如图3所示，其中包含一或多组卷积层300和BN(Batch Normalization，批处理层)层301的组合，各个组合之间相连接，所述BN层是通过一定的规范化手段，将与其连接的卷积层中的神经元相对应的输入值的分布强行拉回到均值为0方差为1的标准正态分布，即把越来越偏的分布强制拉回比较标准的分布，使得激活输入值落在非线性函数对输入比较敏感的区域，网络的输出就不会很大，可以得到比较大的梯度，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。据此处揭示的原理，另一实施例中，本领域技术人员可按照业务所需灵活变通而对所述主干模块中的卷积层和BN层组合中的BN层进行取舍，可放弃采用BN层而单独使用卷积层。

所述逐级降采样以提取特征的多级主干模块是指，对应的浅层级的主干模块提取样本数据中的细节、边缘等基础特征，对应的深层级的主干模块提取样本数据的深层语义特征以及高级逻辑特征。

步骤S1200、获取所述视频质量评估模型的训练配置列表，该训练配置列表顺序包含所述模型的其他多个实例相对应的各级主干模块的卷积层规模的配置信息，其中在后的实例的卷积层总体规模小于在先的实例且不超过所述初始化的实例；

进一步，为了实现对所述视频质量评估模型的模型压缩，而采取减小该模型中的全量或部分级主干模块中的卷积层规模，即减少该卷积层规模对应的卷积层个数，例如模型中的末端主干模块的卷积层规模对应的卷积层个数为16个，那么可将其减少为8个或者4个等等低于16个的个数。由于CNN的特殊性，即模型的多级主干模块中，对应的浅层级的主干模块提取样本数据中的细节、边缘等基础特征，对应的深层级的主干模块提取样本数据的深层语义特征以及高级逻辑特征，其中，对于浅层级的主干模块提取的基础特征存在更多的冗余，对模型压缩有更好的效果，据此，一种实施例中，可先对该先对浅层级的主干模块的卷积层规模进行减少，而相对保留深层级的主干模块的卷积层规模不变，使得配置出所述模型的多种实例相对应的各级主干模块的卷积层规模的配置信息，进而再对深层级的主干模块的卷积层规模进行减少，使得再配置出所述模型的另外的多种实例相对应的各级主干模块的卷积层规模的配置信息，其中在后的实例的卷积层总体规模小于在先的实例且不超过所述初始化的实例，示范性举例，当前视频质量评估模型的实例的各级主干模块对应的卷积层规模的卷积层个数为[2，4，6，8，16],对该视频质量评估模型进行模型压缩时，配置其他多个实例相对应配置信息，其中针对每个实例所采用的各级主干模块的卷积层规模可按如下方式，以列表式由先后对各个实例进行配置：

[1，2，6，8，16]

[1，2，4，8，16]

[1，2，4，4，16]

[1，2，4，4，8]

[1，2，4，4，4]

根据此处的揭示，本领域技术人员可灵活变通根据业务所需，递降式配置出所述视频质量评估模型的训练配置列表，使得训练配置列表中压缩最大即对应综合整体各个主干模块的卷积层规模最小的实例在后续进行知识蒸馏后，既能够满足业务所需，又可适用于部署，可以实时运行对视频的质量的评估，预测出相应的质量评分，进而将该训练配置列表存储，以备在本步骤中能够从存储中获取该训练配置列表。

步骤S1300、将已收敛的实例作为教师网络，按序调用所述训练配置列表中的单个实例作为学生网络，复用教师网络的权重将其训练至收敛状态后，替换所述教师网络以继续对其他实例实施迭代知识蒸馏训练，直至最后一个实例被训练至收敛；

将所述经训练至收敛状态的视频质量评估模型的初始化的实例作为教师网络，调用所述训练配置列表中首位的单个实例作为学生网络，复用教师网络的权重将其训练至收敛状态后，将其替换为教师网络，按序调用所述训练配置列表中下一位的单个实例作为学生网络，据此，实施迭代知识蒸馏训练，直至该训练配置列表中最后一个实例被训练至收敛，可以理解，经过所述迭代知识蒸馏训练，能够将教师网络学习到的提取的图像帧对应的特征，迁移到轻量级的学生网络上，使得学生网络被训练至收敛后，其至少具备与教师网络相同的能力，从而实现模型压缩，获得网络体积更小的模型实例，可更轻量化方便于线上部署。

由于表征所述视频流的图像帧的质量差异的特征，除了与存在于图像帧中的内容特征高度相关，同时也与存在于图像帧中的编码特征相关，但是编码特征相对于内容特征并不是很显著，据此，复用教师网络的各级主干模块相对应的卷积层的权重和预测模块相对应的全连接层的权重，相应的作为学生网络的各级主干模块相对应的卷积层的权重和预测模块相对应的全连接层的权重，可以理解，学生网络和教师网络相对应的主干模块数量相同，但其部分或全量相对应的前者的卷积层规模小于后者的卷积层规模，因此，此处学生网络复用教师网络相对应的部分卷积层的权重，示范性举例，学生网络的多级主干模块相对应的卷积层规模为[1，2，6，8，16]，教师网络的多级主干模块[2，4，6，8，16]，学生网络的第一主干模块复用教师网络第一主干模块中的第一个卷积层的权重，学生网络的第二主干模块复用教师网络第二主干模块中的第一、二个卷积层的权重，学生网络的第三、四、五主干模块相应的与教师网络的主干模块的卷积层规模相同，因此可以直接相应的复用权重，并且，学生网络和教师网络相对应的预测模块中的全连接层相同，因而也可以直接相应的复用权重。

步骤S1400、重复多次训练所述的最后一个实例至收敛状态，将该实例多次训练获得的权重参数取均值，配置为最后一个实例的实际权重，以该实例作为视频质量评估模型的产出。

一般而言，所述最后一个实例的多级主干模块相对应的卷积层规模小，容易过拟合以及鲁棒性较差，据此，为了弥补知识蒸馏后的所述最后一个实例的泛化能力，一种实施例中，可以对所述最后一个实例增添一个固定学习率，对其重复多次训练至收敛状态，期间保存多个模型实例相对应的权重，将该多个模型的权重参数取均值，配置为最后一个实例的实际权重，以该实例作为视频质量评估模型的产出。所述学习率以及所述保存多个模型实例个数，可由本领域技术人员根据先验知识或实验经验灵活变通设置，推荐的，所述学习率可为1e-6，所述保存多个模型个数为10个。

请参阅图4，进一步的实施例中，步骤S1100、所述视频质量评估模型的初始化的实例的训练过程，包括如下步骤：

步骤S1000、获取单个训练样本中的视频的多个图像帧，将所述多个图像帧进行数据增强处理后获得样本数据，输入至实例中；

一种实施例中，可根据码率、帧率、分辨率等视频质量的硬性指标，以人工采集的方式，相应的归集整理出足量的视频作为训练集，其中每个视频作为单个训练样本，并且对应各个单个训练样本都有为其而标注的对应的主观质量评分，将其作为监督评分，该主观质量评分可通过多个人相应的人为对训练样本对应的视频的视频质量进行主观评分，计算该些主观评分的平均值而获得。

从训练集中获取单个训练样本的视频，通过对视频进行解码获得相应的多个图像帧，示例而言，所述图像帧对应的图像数据类型为unit8，将其转换到float数据类型，再除以255以归一化到对应值域为[0，1]。将所述多个图像帧进行数据增强处理后获得样本数据，所述数据增强处理可以为镜像、旋转、缩放、调整亮度、对比度、高斯噪声、Mosaic、Mixup、Cutout、CutMix等，本领域技术人员可按实际业务所需灵活变通选取实现，进而将该样本数据输入至所述视频质量评估模型的初始化的实例中。

一般而言，所述视频质量评估模型的初始化的实例是网络规模相对较大的模型，具备高强的学习能力和泛化能力，使用时需要大量的运算资源，以便从非常大、高度冗余视频的各个图像帧中精准提取出信息，例如，是使用过参数化的深度CNN神经网络模型，且其中加入了正则化策略(如dropout)，或者是集成模型，即许多弱的CNN模型集成起来，本领域技术人员可据此处揭示灵活变通选取实现。

一种实施例中，所述视频质量评估模型的初始化的实例示范性举例如图2所示，其中包含多级主干模块200、平均池化层202、预测模块203，多级主干模块200与平均池化层202相连接，平均池化层202与预测模块203相连接，每级主干模块之间经过一层最大池化层201相连接，其中，最大池化层的步长为2，核大小为2x2，第一主干模块的卷积层个数为2个，第二主干模块的卷积层个数为4个、第三主干模块的卷积层个数为6个、第四主干模块的卷积层个数为8个、第五主干模块的卷积层个数为16个，相应的卷积核皆为3x3，步长为1，第一、二主干模块相对应的通道数为64、第三主干模块相对应的通道数为128、第四主干模块相对应的通道数为256、第五主干模块相对应的通道数为512，预测模块203中包含两成全连接层，相对应的参数为1280和512。

步骤S1010、由该实例的各级主干模块逐级对所述样本数据提取图像特征信息后，经预测模块输出该视频的质量评分；

由该实例的各级主干模块对所述样本数据提取相应的图像特征，其中，对应的浅层级的主干模块提取样本数据中的细节、边缘等基础特征，对应的深层级的主干模块提取样本数据的深层语义特征以及高级逻辑特征，一种实施例中，实例的每级主干模块之间经过一层最大池化层相连接，由此，下级主干模块提取的特征经最大池化层处理后输入至上级主干模块，继而各级主干模块逐级对所述样本数据提取图像特征后，由末端主干模块向与其相连接的平均池化层输入该图像特征，平均池化层对该图像特征进行空间平均，按通道方向展开为一维向量即所述图像特征信息，然后，将其输入至与平均池化层相连接的预测模块，由该预测模块中的全连接层映射至相应的分类空间，计算输出该样本数据对应的视频的质量评分作为预测结果。

步骤S1020、根据所述训练样本预标注的监督评分计算所述质量评分的模型损失值，所述监督评分为主观质量评分，在该模型损失值未达到预设阈值时对该实例实施权重更新，并继续调用其他训练样本实施迭代训练。

参考步骤S1000，所述监督评分为主观质量评分，调用预设的回归损失函数，根据所述训练样本预标注的监督评分计算所述质量评分的模型损失值，示范性举例，所述预设的回归损失函数为：

其中，Loss_mos为根据所述训练样本预标注的监督评分计算质量评分的模型损失值，n为所述样本数据对应的视频解码后的图像帧的总数，y_out为所述质量评分的模型预测所述样本数据对应的视频的质量评分，y_gt为所述训练样本预标注的监督评分。

根据所述模型损失值判断是否继续实施迭代训练，若该模型损失值未达到预设阈值时，对该实例实施权重更新，相应更新主干模块和/或全连接层的权重，并继续调用所述训练集中的其他训练样本实施迭代训练，所述预设阈值可由本领域技术人员根据先验知识或实验经验灵活变通设置；若该模型损失值达到预设阈值时，表征该实例已被训练至收敛，完成对该模型的初始化，可将其投入后续使用。

本实施例中，揭示了所述视频质量评估模型的初始化的实例的训练过程，可以看出，在所述监督评分训练下，所述实例具备能够对视频相对应的各个图像帧进行质量评分的能力，使得采用该模型能够精准预测视频对应的质量评分。

请参阅图5，进一步的实施例中，步骤S1200、根据所述训练配置列表所配置的所述视频质量评估模型的实例的训练过程，包括如下步骤：

步骤S1210、获取单个训练样本中的视频的多个图像帧，将所述多个图像帧进行数据增强处理后获得样本数据，同步输入至教师网络和学生网络；

从训练集中获取单个训练样本的视频，通过对视频进行解码获得相应的多个图像帧，将所述多个图像帧进行数据增强处理后获得样本数据，所述数据增强处理可以为镜像、旋转、缩放、调整亮度、对比度、高斯噪声、Mosaic、Mixup、Cutout、CutMix等，本领域技术人员可按实际业务所需灵活变通选取实现，进而将该样本数据同步输入至教师网络和学生网络。

可参考步骤S1200对所述教师网络和所述学生网络的揭示，本步骤不作赘述。

步骤S1220、分别经所述教师网络和所述学生网络中的各级主干模块逐级对所述样本数据提取图像特征信息后，经其各自的预测模块输出该视频的质量评分；

一种实施例中，所述教师网络和所述学生网络对应的知识蒸馏示意图如图6示，可以理解，教师网络和学生网络中相对应的各级主干模块结构相同，以及其对应的通道数相同，只有该部分或全量的主干模块中的卷积层规模上的不同，可见教师网络和学生网络相对应的模型结构相同，并且可参考步骤S1300所述学生网络复用教师网络的相应的权重的揭示，可知学生网络中部分或全量主干模块相应的卷积层复用相应的教师网络的部分或全量主干模块相对应的卷积层的权重，进一步，可参考步骤S1010实例预测视频对应的质量评分的揭示，知晓本步骤的所述教师网络和所述学生网络预测视频对应的质量评分，本步骤不作赘述。

步骤S1230、计算学生网络的模型损失值，所述损失值包括所述训练样本预标注的监督评分与学生网络预测的质量评分之间的损失值，所述监督评分为主观质量评分，以及教师网络与学生网络之间各级主干模块所获得的图像特征信息之间的特征损失值；

可参考步骤S1020、调用所述预设的回归损失函数，可计算出所述训练样本预标注的监督评分与学生网络预测的质量评分之间的损失值对应的Loss_mos，本步骤不作赘述，此外，调用预设的损失函数，计算出教师网络与学生网络之间各级主干模块所获得的图像特征信息之间的特征损失值，示范性举例，所述预设的损失函数为：

其中，Loss_distill为教师网络与学生网络之间各级主干模块所获得的图像特征信息之间的特征损失值，n为学生网络中主干模块的总数,st为当前对应的主干模块(如st＝1，表示学生网络中第一个主干模块)，c为st对应的主干模块的通道数，w与h相对应的为st对应的主干模块提取的特征图的宽、高，

为教师网络在i通道的特征图第k行第j列上的特征值，

为学生网络在i通道的特征图第k行第j列上的特征值。

综本步骤中上述，将所述Loss_mos和Loss_distill相加作为所述学生网络的模型损失值。

步骤S1240、判断该模型损失值是否达到预设阈值，当未达到预设阈值时对该实例实施权重更新，并继续调用其他训练样本实施迭代训练。

进一步，根据所述学生网络的模型损失值，判断该模型损失值是否达到预设阈值，当未达到预设阈值时对该实例实施权重更新，更新学生网络的主干模块和/或全连接层相应的权重，使得学生网络能够拟合教师网络映射至各个分类空间的概率，并继续调用所述训练集中的其他训练样本实施迭代训练，当达到预设阈值时，表征该学生网络已被训练至收敛。

本实施例中，揭示了所述训练配置列表所配置的所述视频质量评估模型的实例的训练过程，可以看出，在所述监督评分训练以及知识蒸馏下，所述学生网络具备教师网络相同的能力，即能够对视频相对应的各个图像帧进行质量评分的能力，使得采用该学生网络能够精准预测视频对应的质量评分，进一步，由于学生网络是对教师网络压缩而得，变得更为轻量化可线上部署，能够实时运行预测视频相应的质量评分。其次，所述教师网络与学生网络之间的知识蒸馏不仅是对其两者的预测模块进行蒸馏，而且是连同其两者中间的各级主干模块一并蒸馏，使得学生网络能够更全面地提取教师网络提取的特征，从而与教师网络具备相同的泛化能力和鲁棒性。

请参阅图7，进一步的实施例中，步骤S1400、将所有被训练的实例的权重的均值权重配置为最后一个被训练的实例的相应权重，使该实例成为产出的视频质量评估模型之后，包括如下步骤：

步骤S1500、将网络直播的视频流中的多个连续图像帧输入产出的视频质量评估模型中，预测出其相应的质量评分；

一种实施例中，在电商平台的网络直播场景中，直播用户向电商平台的服务器提交视频流，对其进行解码后，获得其中的YUV或RGB格式的图像帧，此时可实时运行在该服务器上部署的本申请产出的视频质量评估模型，预测各个时间上连续的图像帧相对应的评分，从而获得视频流对应的质量评分。

另一种实施例中，在终端设备的网络直播场景中，摄像单元采集了图像帧对应的数据帧，一路是绘制数据帧纹理以渲染显示到直播用户的图像用户界面，另一路是通过相应的解码操作，将数据帧转换为YUV或RGB格式的图像帧，此时可实时运行在该终端设备上部署的本申请产出的视频质量评估模型，预测出各个时间上连续的图像帧相对应的质量评分。

步骤S1600、根据所述质量评分调节所述视频流的编码器的编码帧率。

进一步，根据所述质量评分调节所述视频流的编码器的编码帧率，使得相应的降低视频流的码率和/或分辨率，将调节后的视频流输出到网络直播的媒体服务器，以便推送到直播间的观众用户的设备中。

本实施例中，揭示了将产出的视频质量评估模型线上部署应用于网络直播的视频流，使得能够根据该模型预测的视频流的质量评分，调整视频流的编码器的编码帧率，使得调节后的视频流既能满足业务所需的视频质量，又能节省传输该视频流的带宽。

请参阅图8，适应本申请的目的之一而提供的一种视频质量评估模型生产装置，是对本申请的视频质量评估模型生产方法的功能化体现，该装置包括初始化模块1100、实例配置模块1200、迭代蒸馏模块1300，以及模型产出模块1400，其中：初始化模块1100，用于获取经训练至收敛状态的视频质量评估模型的初始化的实例，所述模型包括用于对同一视频的多个图像帧的样本数据逐级降采样以提取特征的多级主干模块，和用于预测末端主干模块所输出的图像特征信息的质量评分的预测模块，每级主干模块均包含一个或多个卷积层；实例配置模块1200，获取所述视频质量评估模型的训练配置列表，该训练配置列表顺序包含所述模型的其他多个实例相对应的各级主干模块的卷积层规模的配置信息，其中在后的实例的卷积层总体规模小于在先的实例且不超过所述初始化的实例；迭代蒸馏模块1300，用于将已收敛的实例作为教师网络，按序调用所述训练配置列表中的单个实例作为学生网络，复用教师网络的权重将其训练至收敛状态后，替换所述教师网络以继续对其他实例实施迭代知识蒸馏训练，直至最后一个实例被训练至收敛；

进一步的实施例中，所述实例配置模块1200的所述视频质量评估模型的初始化的实例的训练过程，包括：第一样本输入子模块，用于获取单个训练样本中的视频的多个图像帧，将所述多个图像帧进行数据增强处理后获得样本数据，输入至实例中；第一特征提取子模块，用于由该实例的各级主干模块逐级对所述样本数据提取图像特征信息后，经预测模块输出该视频的质量评分；第一迭代训练子模块，用于根据所述训练样本预标注的监督评分计算所述质量评分的模型损失值，所述监督评分为主观质量评分，在该模型损失值未达到预设阈值时，对该实例实施权重更新，并继续调用其他训练样本实施迭代训练。

进一步的实施例中，所述实例配置模块1200的根据所述训练配置列表所配置的所述视频质量评估模型的实例的训练过程，包括：第二样本输入子模块，用于获取单个训练样本中的视频的多个图像帧，将所述多个图像帧进行数据增强处理后获得样本数据，同步输入至教师网络和学生网络；第二特征提取子模块，用于分别经所述教师网络和所述学生网络中的各级主干模块逐级对所述样本数据提取图像特征信息后，经其各自的预测模块输出该视频的质量评分；损失计算子模块，用于计算学生网络的模型损失值，所述损失值包括所述训练样本预标注的监督评分与学生网络预测的质量评分之间的损失值，所述监督评分为主观质量评分，以及教师网络与学生网络之间各级主干模块所获得的图像特征信息之间的特征损失值；第二迭代训练子模块，用于判断该模型损失值是否达到预设阈值，当未达到预设阈值时对该实例实施权重更新，并继续调用其他训练样本实施迭代训练。

进一步的实施例中，所述初始化模块1100的所述训练配置列表中，各级主干模块相对应的卷积层规模以数量表示，其中，排序在后的实例的部分主干模块的卷积层数量大于在先的实例的相应主干模块的卷积层数量，而其余主干模块的卷积层数量维持相一致。

进一步的实施例中，所述实例配置模块1200的所述视频质量评估模型中，在前的主干模块的输出经最大池化层采用后输入在后的主干模块处理，最后一级主干模块的输出经平均池化层进行均值池化后输入所述预测模块。

进一步的实施例中，所述实例配置模块1200的所述视频质量评估模型中，在后的主干模块的卷积层规模不小于其在先的主干模块的卷积层规模，且至少存在一个在后的主干模块的卷积层规模大于其在先的主干模块的卷积层规模。

进一步的实施例中，所述模型产出模块1400，包括：模型预测子模块，用于将网络直播的视频流中的多个连续图像帧输入产出的视频质量评估模型中，预测出其相应的质量评分；帧率调节子模块，用于根据所述质量评分调节所述视频流的编码器的编码帧率。

为解决上述技术问题，本申请实施例还提供计算机设备。如图9所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种视频质量评估模型生产方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的视频质量评估模型生产方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的视频质量评估模型生产装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的视频质量评估模型生产方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请首先，通过迭代式蒸馏训练学生网络，最终产出的视频质量评估模型具备与教师网络相同的能力，同样能够精准预测视频对应的视频质量，除此之外，所产出的视频质量评估模型轻量化，能够线上部署，实时运行对视频的质量的评估，预测出相应的质量评分。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频质量评估模型生产方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的视频质量评估模型生产方法，其特征在于，所述视频质量评估模型的初始化的实例的训练过程，包括如下步骤：

3.根据权利要求1所述的视频质量评估模型生产方法，其特征在于，根据所述训练配置列表所配置的所述视频质量评估模型的实例的训练过程，包括如下步骤：

4.根据权利要求1至3中任意一项所述的视频质量评估模型生产方法，其特征在于：所述训练配置列表中，各级主干模块相对应的卷积层规模以数量表示，其中，排序在后的实例的部分主干模块的卷积层数量大于在先的实例的相应主干模块的卷积层数量，而其余主干模块的卷积层数量维持相一致。

5.根据权利要求1至3中任意一项所述的视频质量评估模型生产方法，其特征在于：所述视频质量评估模型中，在前的主干模块的输出经最大池化层采用后输入在后的主干模块处理，最后一级主干模块的输出经平均池化层进行均值池化后输入所述预测模块。

6.根据权利要求1至3中任意一项所述的视频质量评估模型生产方法，其特征在于：所述视频质量评估模型中，在后的主干模块的卷积层规模不小于其在先的主干模块的卷积层规模，且至少存在一个在后的主干模块的卷积层规模大于其在先的主干模块的卷积层规模。

7.根据权利要求1至3中任意一项所述的视频质量评估模型生产方法，其特征在于，将所有被训练的实例的权重的均值权重配置为最后一个被训练的实例的相应权重，使该实例成为产出的视频质量评估模型之后，包括如下步骤：

根据所述质量评分调节所述视频流的编码器的编码帧率。

8.一种视频质量评估模型生产装置，其特征在于，包括：

初始化模块，用于获取经训练至收敛状态的视频质量评估模型的初始化的实例，所述模型包括用于对同一视频的多个图像帧的样本数据逐级降采样以提取特征的多级主干模块，和用于预测末端主干模块所输出的图像特征信息的质量评分的预测模块，每级主干模块均包含一个或多个卷积层；

实例配置模块，获取所述视频质量评估模型的训练配置列表，该训练配置列表顺序包含所述模型的其他多个实例相对应的各级主干模块的卷积层规模的配置信息，其中在后的实例的卷积层总体规模小于在先的实例且不超过所述初始化的实例；

迭代蒸馏模块，用于将已收敛的实例作为教师网络，按序调用所述训练配置列表中的单个实例作为学生网络，复用教师网络的权重将其训练至收敛状态后，替换所述教师网络以继续对其他实例实施迭代知识蒸馏训练，直至最后一个实例被训练至收敛；

模型产出模块，用于将所有被训练的实例的权重的均值权重配置为最后一个被训练的实例的相应权重，使该实例成为产出的视频质量评估模型。

9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。