CN115905613A

CN115905613A - 音视频多任务学习、评估方法、计算机设备及介质

Info

Publication number: CN115905613A
Application number: CN202211453411.7A
Authority: CN
Inventors: 聂鑫; 洪国伟; 董治; 姜涛
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-04-04

Abstract

本申请实施例公开了一种音视频多任务学习、评估方法、计算机设备及存储介质，该方法包括：获取音视频训练数据集，音视频训练数据集包括视频训练数据、音频训练数据和标注数据；对视频训练数据进行特征提取处理，得到目标视频特征向量，以及对音频训练数据进行特征提取处理，得到目标音频特征向量；利用目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到第一任务损失函数值、第二任务损失函数值和第三任务损失函数值；根据第一任务损失函数值、第二任务损失函数值和第三损失函数值调整模型参数并进行重新训练，得到音视频多任务评估模型。通过这种方式可以提高音视频多任务评估的效率和准确性。

Description

音视频多任务学习、评估方法、计算机设备及介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种音视频多任务学习、评估方法、计算机设备及存储介质。

背景技术

目前大多数机器学习任务是单任务学习，单独采用两个模型来分别进行任务学习，单任务学习在学习过程中没有在多个任务中共享它们所学到的信息，这导致单任务学习的模型通常泛化性能较差。

在音视频多任务评估中，如果使用单任务模型进行音视频多任务评估，由于单任务模型使用单个模型参数，占用内存增加了，需要消耗更多的计算资源，模型的推理时间也是双倍的增加，音视频质量的评估效率较低。在一段视频中，音频质量和视频画面质量这两个是有相互关联的，如果将音视频完全切割开的，所以导致视频质量评估的准确性不高。因此，如何提高音视频多任务评估的效率和准确性非常重要。

发明内容

本申请实施例提供了一种音视频多任务学习、评估方法、计算机设备及存储介质，可以提高音视频多任务评估的效率和准确性。

第一方面，本申请实施例提供了一种音视频多任务学习方法，包括：

获取音视频训练数据集，所述音视频训练数据集包括视频训练数据、音频训练数据和标注数据，所述标注数据包括音视频质量标签；

对所述视频训练数据进行特征提取处理，得到目标视频特征向量，以及对所述音频训练数据进行特征提取处理，得到目标音频特征向量；

利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值，所述目标损失函数值包括同方差参数，所述同方差参数与多任务权重相关联；

根据所述同方差参数调整所述目标损失函数值，根据所述目标损失函数值调整模型参数，并利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对调整模型参数后的第一深度学习神经网络模型进行重新训练，得到音视频多任务评估模型。

第二方面，本申请实施例提供了一种音视频多任务评估方法，包括：

获取待评估音视频数据，所述待评估音视频数据包括待评估音频数据和待评估视频数据；

对所述待评估视频数据进行特征提取处理，得到待评估视频特征向量，并对所述待评估音频数据进行特征提取处理，得到待评估音频特征向量；

将所述待评估音频特征向量和待评估视频特征向量拼接为一个序列，对所述序列进行多模态融合处理得到待评估特征向量；

将所述待评估特征向量输入预训练的音视频多任务评估模型，得到所述待评估音视频数据的评估数据，所述评估数据包括音视频质量等级综合数据、视频质量数据和音频质量数据。

第三方面，本申请实施例提供了一音视频多任务学习装置，包括：

第一获取单元，用于获取音视频训练数据集，所述音视频训练数据集包括视频训练数据、音频训练数据和标注数据，所述标注数据包括音视频质量标签；

第一提取单元，用于对所述视频训练数据进行特征提取处理，得到目标视频特征向量，以及对所述音频训练数据进行特征提取处理，得到目标音频特征向量；

第一训练单元，用于利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值，所述目标损失函数值包括同方差参数，所述同方差参数与多任务权重相关联；

第二训练单元，用于根据所述同方差参数调整所述目标损失函数值，根据所述目标损失函数值调整模型参数，并利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对调整模型参数后的第一深度学习神经网络模型进行重新训练，得到音视频多任务评估模型。

第四方面，本申请实施例提供了一音视频多任务评估装置，包括：

第二获取单元，用于获取待评估音视频数据，所述待评估音视频数据包括待评估音频数据和待评估视频数据；

第二提取单元，用于对所述待评估视频数据进行特征提取处理，得到待评估视频特征向量，并对所述待评估音频数据进行特征提取处理，得到待评估音频特征向量；

融合单元，用于将所述待评估音频特征向量和待评估视频特征向量拼接为一个序列，对所述序列进行多模态融合处理得到待评估特征向量；

评估单元，用于将所述待评估特征向量输入预训练的音视频多任务评估模型，得到所述待评估音视频数据的评估数据，所述评估数据包括音视频质量等级综合数据、视频质量数据和音频质量数据。

第五方面，本申请实施例提供了一种计算机设备，所述终端包括：处理器和存储器，所述处理器用于执行：

第六方面，本申请实施例提供了另一种计算机设备，所述终端包括：处理器和存储器，所述处理器用于执行：

第七方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序指令，该程序指令被执行时，用于实现上述第一方面或第二方面所述的方法。

本申请实施例可以获取音视频训练数据集，音视频训练数据集包括视频训练数据、音频训练数据和标注数据，标注数据包括音视频质量标签；对视频训练数据进行特征提取处理，得到目标视频特征向量，以及对音频训练数据进行特征提取处理，得到目标音频特征向量；利用目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值，目标损失函数值包括同方差参数，同方差参数与多任务权重相关联；根据同方差参数调整目标损失函数值，根据目标损失函数值调整模型参数，并利用目标音频特征向量、目标视频特征向量以及音视频质量标签对调整模型参数后的第一深度学习神经网络模型进行重新训练，得到音视频多任务评估模型。通过这种方式可以提高音视频多任务学习的效率和准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音视频多任务学习方法的流程示意图；

图2是一种视频图像帧的示意图；

图3是本申请实施例提供的另一种音视频多任务学习方法的流程示意图；

图4是一种ResNet-B的卷积示意图；

图5是一种ResNet-C的卷积示意图；

图6是一种ResNet-D的卷积示意图；

图7是一种音视频多任务评估模型的示意图；

图8是本申请实施例提供的又一种音视频多任务学习方法的流程示意图；

图9是本申请实施例提供的一种音视频多任务评估方法的流程示意图；

图10是本申请实施例提供的一种音视频多任务学习装置的结构示意图；

图11是本申请实施例提供的一种音视频多任务评估装置的结构示意图；

图12是本申请实施例提供的一种计算机设备的结构示意图；

图13是本申请实施例提供的另一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大图像处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

基于上述人工智能技术中所提及的机器学习等技术，本申请提出了一种音视频多任务评估方案，通过引入音视频质量等级综合数据、音频质量等级数据、音频质量原因数据、视频质量等级数据和视频质量原因数据这些多任务学习，训练得到音视频多任务评估模型，以增加模型的多样性，通过多任务学习的音视频多任务评估模型对音视频质量进行评估，有助于提高音视频多任务评估的准确率和效率。在某些实施例中，该音视频数据包括音频数据和视频数据，其中，该音频数据为该视频数据的音频数据。

本申请实施例提供的音视频多任务评估方法可以应用于一种音视频多任务评估装置，该音视频多任务评估装置可设置于计算机设备中，在某些实施例中，该计算机设备可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备。在某些实施例中，所述计算机设备中包括一个或多个数据库，所述数据库可以用于存储视频数据。

在某些实施例中，本申请实施例提供的音视频多任务评估方法可以应用于用户生成内容，即用户原创内容(User Generated Content，UGC)、视频筛选等场景：例如根据视频质量评估得到的评估数据筛选优质质量视频的场景等。当然，以上应用场景仅仅是示例说明，在其他实施例中，本申请实施例的视频质量评估可以应用到任意与视频质量评估相关联的场景中。在UGC场景中，本申请提出的音视频多任务评估方法可应用在用户UGC视频作品的分发中，通过模型对用户的UGC视频作品进行质量评估有助于筛选出高质量的UGC视频，这对于后续作品分发中的点击率，播放时长和完播率等业务指标有关键的影响作用。

下面结合附图对本申请实施例提供的音视频多任务评估方法进行示意性说明。

具体请参见图1，图1是本申请实施例提供的一种音视频多任务学习方法的流程示意图，本申请实施例的音视频多任务学习方法可以由音视频多任务学习装置执行，其中，音视频多任务评估装置设置于终端或计算机设备中，其中，终端或计算机设备的具体解释如前。具体地，本申请实施例的方法是对音视频多任务评估模型的训练过程的说明，具体包括如下步骤。

S101：获取音视频训练数据集，该音视频训练数据集包括视频训练数据、音频训练数据和标注数据，该标注数据包括音视频质量标签。

本申请实施例中，计算机设备可以获取音视频训练数据集，该音视频训练数据集包括视频训练数据、音频训练数据和标注数据，该标注数据包括音视频质量标签。在某些实施例中，所述音视频质量标签包括音频质量标签、视频质量标签和音视频质量等级综合标签；所述音频质量标签包括音频质量等级标签和音频质量原因标签；所述视频质量标签包括视频质量等级标签和视频质量原因标签。

S102：对视频训练数据进行特征提取处理，得到目标视频特征向量，以及对音频训练数据进行特征提取处理，得到目标音频特征向量。

本申请实施例中，计算机设备可以对视频训练数据进行特征提取处理，得到目标视频特征向量，以及对音频训练数据进行特征提取处理，得到目标音频特征向量。

在一个实施例中，计算机设备在对音频训练数据进行特征提取处理，得到目标音频特征向量时，可以将音频训练数据转换为梅尔频谱特征向量；对梅尔频谱特征向量进行分割处理，得到多个音频特征向量；对多个音频特征向量进行融合处理，得到目标音频特征向量。

在一个实施例中，计算机设备在对多个音频特征向量进行融合处理，得到目标音频特征向量时，可以将多个音频特征向量输入第二深度学习神经网络模型的嵌入模块，得到多个嵌入特征向量；将多个嵌入特征向量输入第二深度学习神经网络模型的全连接模块，得到目标音频特征向量。

在一个实施例中，计算机设备在对视频训练数据进行特征提取处理，得到目标视频特征向量时，可以获取视频训练数据的至少一个图像帧；并对至少一个图像帧进行特征提取，得到至少一个特征向量；以及对至少一个特征向量进行融合处理，得到目标视频特征向量。在某些实施例中，至少一个图像帧可包括视频训练数据中的部分图像帧或所有图像帧，其中，部分图像帧可包括一个或多个图像帧。

在一个实施例中，计算机设备在获取视频训练数据的至少一个图像帧时，可以获取视频训练数据包括的至少一个视频片段；对至少一个视频片段进行抽帧处理，得到至少一个图像帧。在某些实施例中，至少一个视频片段可包括视频训练数据中的多个视频片段，至少一个图像帧可包括从每个视频片段中抽取一个图像帧组成的多个图像帧。

进一步地，计算机设备可以将视频训练数据拆分为多个视频片段，并从每个视频片段中抽取一个图像帧，得到多个图像帧。例如，计算机设备可以将视频训练数据拆分为N个视频片段，N为正整数，并从N个视频片段的每个视频片段中抽取一个图像帧，得到N个图像帧。

在某些实施例中，计算机设备在从每个视频片段中抽取一个图像帧时，可以从每个视频片段中随机抽取一个图像帧，也可以从每个视频片段中选取指定的中间图像帧作为该一个图像帧。具体如图2所示，图2是一种视频图像帧的示意图。

本申请实施例，通过对每个视频频段进行抽帧处理，有助于避免信息冗余，同时可以更多的利用视频信息。

在一个实施例中，计算机设备在对至少一个图像帧进行特征提取，得到至少一个视频特征向量时，可以将至少一个图像帧输入改进的卷积神经网络模型的卷积模块，得到卷积结果；将卷积结果进行最大池化处理，得到至少一个视频特征向量。

在一个实施例中，计算机设备在对至少一个特征向量进行融合处理，得到目标视频特征向量时，可以将至少一个视频特征向量输入改进的卷积神经网络模型的平均池化模块，得到至少一个视频特征向量均值；将至少一个视频特征向量均值输入改进的卷积神经网络模型的全连接模块，得到目标视频特征向量。

S103：利用目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值。

本申请实施例中，计算机设备可以利用目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值。

在一个实施例中，计算机设备在利用目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值时，可以对目标音频特征向量和目标视频特征向量进行融合处理，得到目标特征向量；将目标音频特征向量和音频质量标签、目标视频特征向量和视频质量标签以及目标特征向量和音视频质量等级综合标签输入第一深度学习神经网络模型进行训练，得到目标损失函数值。

在一个实施例中，计算机设备在将目标音频特征向量和音频质量标签、目标视频特征向量和视频质量标签以及目标特征向量和音视频质量等级综合标签输入第一深度学习神经网络模型进行训练，得到目标损失函数值时，可以利用目标音频特征向量和音频质量标签对第一深度学习神经网络模型进行训练，得到第一任务损失函数值；利用目标视频特征向量和视频质量标签对第一深度学习神经网络模型进行训练，得到第二任务损失函数值；利用目标特征向量和音视频质量等级综合标签对第一深度学习神经网络模型进行训练，得到第三任务损失函数值；根据第一任务损失函数值、第二任务损失函数值、第三任务损失函数值确定目标损失函数值。

在一个实施例中，音频质量标签包括音频质量等级标签和音频质量原因标签；计算机设备在利用目标音频特征向量和音频质量标签对所述第一深度学习神经网络模型进行训练，得到第一任务损失函数值时，可以将目标音频特征向量、音频质量等级标签以及音频质量原因标签输入第一深度学习神经网络模型进行训练，得到第一损失函数值和第二损失函数值；并按照第一预设权重对第一损失函数值和第二损失函数值进行加权求和处理，得到第一任务损失函数值。

在一个实施例中，视频质量标签包括视频质量等级标签和视频质量原因标签；计算机设备在利用目标视频特征向量和视频质量标签对所述第一深度学习神经网络模型进行训练，得到第二任务损失函数值时，可以将目标视频特征向量、视频质量等级标签以及视频质量原因标签输入第一深度学习神经网络模型进行训练，得到第三损失函数值和第四损失函数值；并按照第二预设权重对第三损失函数值和第四损失函数值进行加权求和处理，得到第二任务损失函数值。

S104：根据所述同方差参数调整所述目标损失函数值，根据所述目标损失函数值调整模型参数，并利用目标音频特征向量、目标视频特征向量以及音视频质量标签对调整模型参数后的第一深度学习神经网络模型进行重新训练，得到音视频多任务评估模型。

本申请实施例中，计算机设备可以根据所述同方差参数调整所述目标损失函数值，根据所述目标损失函数值调整模型参数，并利用目标音频特征向量、目标视频特征向量以及音视频质量标签对调整模型参数后的第一深度学习神经网络模型进行重新训练，得到音视频多任务评估模型。

在一个实施例中，计算机设备在根据第一任务损失函数值、第二任务损失函数值和第三损失函数值调整模型参数时，可以按照第三预设权重对第一任务损失函数值、第二任务损失函数值和第三损失函数值进行加权求和处理，得到目标损失函数值；当目标损失函数值大于函数阈值时，根据目标损失函数值调整模型参数。

在一个实施例中，计算机设备可以将目标音频特征向量、目标视频特征向量以及音视频质量标签对调整模型参数后的第一深度学习神经网络模型进行重新训练；当重新训练得到的目标损失函数值小于函数阈值时，确定得到音视频多任务评估模型。

本申请实施例中包括音频质量等级数据和音频质量原因数据、视频质量等级数据和视频质量原因数据这两个多任务，通过两个多任务模型来学习，即音频质量原因和音频质量等级，以及视频质量原因和视频质量等级这两个多任务模型来学习。因为音视频质量等级和音视频质量原因是有相关性的，这两个任务放在一起学习可以起到相互促进的作用，共享信息，相互补充来提升彼此的性能，将音视频质量原因和音视频质量等级这两个任务共享一个模型参数，这样做能减少内存的占用，并且这两个任务在实际使用时只需要做一次前向计算，减少了计算资源的消耗，增加了推理的速度。并且通过学习自适应的参数，音视频质量原因和音视频质量等级着两个任务的损失融合能在学习中不断的调整，这种方式使得两个任务学习的性能更好了，并且也节省了人工调节融合参数的繁杂过程。

本申请实施例利用音视频训练数据和标注数据训练得到音视频多任务评估模型，增加了模型的性能和多样性，减少了内存的占用和资源的消耗，通过该音视频多任务评估模型有助于提高音视频多任务评估的效率和准确性。

请参见图3，图3是本申请实施例提供的另一种音视频多任务学习方法的流程示意图，本申请实施例的音视频多任务学习方法可以由音视频多任务学习装置执行，其中，音视频多任务学习装置设置于终端或计算机设备中，其中，终端或计算机设备的具体解释如前。具体地，本申请实施例主要是对音视频的特征提取过程的说明，具体包括如下步骤。

S301：获取音视频训练数据集，音视频训练数据集包括视频训练数据、音频训练数据和标注数据，标注数据包括音视频质量标签。

本申请实施例中，计算机设备可以获取音视频训练数据集，音视频训练数据集包括视频训练数据、音频训练数据和标注数据，标注数据包括音视频质量标签。

S302：对视频训练数据进行特征提取处理，得到目标视频特征向量，以及将音频训练数据转换为梅尔频谱特征向量，对梅尔频谱特征向量进行分割处理，得到多个音频特征向量。

本申请实施例中，计算机设备可以对视频训练数据进行特征提取处理，得到目标视频特征向量，以及将音频训练数据转换为梅尔频谱特征向量，对梅尔频谱特征向量进行分割处理，得到多个音频特征向量。

在一个实施例中，计算机设备在将音频训练数据转换为梅尔频谱特征向量，对梅尔频谱特征向量进行分割处理，得到多个音频特征向量时，可以将音频训练数据转换为128维梅尔滤波器特征序列即梅尔频谱特征向量，并将梅尔谱图分割成N个16维×16维音频特征向量。

在一个实施例中，计算机设备在对视频训练数据进行特征提取处理，得到目标视频特征向量时，可以获取视频训练数据的至少一个图像帧，并对至少一个图像帧进行特征提取，得到至少一个特征向量，对至少一个特征向量进行融合处理，得到目标视频特征向量。

在一个实施例中，计算机设备在对至少一个图像帧进行特征提取，得到至少一个特征向量时，可以将至少一个图像帧输入改进的卷积神经网络模型的卷积模块，得到卷积结果；并将卷积结果进行最大池化处理，得到至少一个视频特征向量。

在某些实施例中，该改进的卷积神经网络模型可为ResNet50_vd模型，其中，ResNet50_vd可指50个卷积层的ResNet-D网络，ResNet-D网络是ResNet系列网络在被提出后经过了ResNet-B、ResNet-C、ResNet-D三个版本的改进得到的。如图4所示，图4是一种ResNet-B的卷积示意图，ResNet-B将Path A中1*1卷积的stride由2改为1，通过这种改进方式，有助于避免信息丢失。如图5所示，图5是一种ResNet-C的卷积示意图，ResNet-C将第一个7*7的卷积核调整为3个3*3卷积核，通过这种改进方式，有助于减少计算量，同时增加了网络非线性性。如图6所示，图6是一种ResNet-D的卷积示意图，ResNet-D进一步将Path B中1*1卷积的stride由2改为1，并添加了平均池化层(即平均池化模块)，通过这种改进方式，有助于保留更多的信息，提升了模型的性能。

在一个实施例中，计算机设备在对至少一个视频特征向量进行融合处理，得到目标视频特征向量时，可以将至少一个视频特征向量输入改进的卷积神经网络模型的平均池化模块，得到至少一个视频特征向量均值；将至少一个视频特征向量均值输入改进的卷积神经网络模型的全连接模块，得到目标视频特征向量。

在一个实施例中，计算机设备在对至少一个视频特征向量进行融合处理，得到目标特征向量时，还可以将至少一个视频特征向量输入改进的卷积神经网络模型的全连接模块，得到多个权重，并将该多个权重和至少一个视频特征向量输入改进的卷积神经网络模型的平均池化模块，得到目标特征向量。

本申请通过对至少一个视频特征向量进行融合处理，有助于减少视频干扰信息，获取到更高精度的视频特征向量。

S303：对多个音频特征向量进行融合处理，得到目标音频特征向量。

本申请实施例中，计算机设备可以对多个音频特征向量进行融合处理，得到目标音频特征向量。

计算机设备可以使用线性投影层将每个16维×16维的音频特征向量压平成尺寸为768维的一维嵌入特征向量，把这个线性投影层称为嵌入层，并在每个嵌入特征向量中添加了一个可训练的位置嵌入(大小也为768维)，以允许模型捕获二维音频谱图的空间结构。然后将得到的多个嵌入特征向量输入到第二深度学习神经网络模型的全连接模块，得到目标音频特征向量。

本申请通过对多个音频特征向量进行融合处理，有助于减少音频干扰信息，获取到更高精度的音频特征向量。

S304：利用目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值，该目标损失函数值包括同方差参数，该同方差参数与多任务权重相关联。

本申请实施例中，计算机设备可以利用目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值，该目标损失函数值包括同方差参数，该同方差参数与多任务权重相关联。

S305：根据同方差参数调整目标损失函数值，根据目标损失函数值调整模型参数，并利用目标音频特征向量、目标视频特征向量以及音视频质量标签对调整模型参数后的第一深度学习神经网络模型进行重新训练，得到音视频多任务评估模型。

本申请实施例中，计算机设备可以根据同方差参数调整目标损失函数值，根据目标损失函数值调整模型参数，并利用目标音频特征向量、目标视频特征向量以及音视频质量标签对调整模型参数后的第一深度学习神经网络模型进行重新训练，得到音视频多任务评估模型。

在一个实施例中，该音视频多任务评估模型的训练具体如图7所示，图7是一种音视频多任务评估模型的示意图，如图7所示，首先对视频训练数据71进行抽帧处理72，得到多个图像帧，将多个图像帧输入改进的卷积神经网络模型的卷积模块73，得到卷积结果，并将卷积结果进行最大池化处理74，得到至少一个特征向量。将至少一个特征向量通过改进的卷积神经网络模型的卷积层1、卷积层2、卷积层3输入卷积层4，该卷积层4包括平均池化模块和全连接模块75，通过平均池化模块可得到至少一个视频特征向量均值，将至少一个视频特征向量均值输入改进的卷积神经网络模型的全连接模块，得到目标视频特征向量。将目标视频特征向量和标注数据中的视频质量等级标签和视频质量原因标签输入第三深度学习神经网络模型76，输出视频质量等级数据和视频质量原因数据77。其次，将音频训练数据78转换为梅尔频谱特征向量79，对梅尔频谱特征向量79进行分割处理，得到多个音频特征向量，并对多个音频特征向量进行融合处理，得到目标音频特征向量710，将目标音频特征向量、音频质量等级标签和音频质量原因标签输入第二深度学习神经网络模型711，得到音频质量等级数据和音频质量原因数据712。进一步地，将目标视频特征向量、目标音频特征向量和音视频质量等级综合标签输入第一深度学习神经网络模型713，得到音视频质量等级综合数据714。进一步可以根据视频质量等级数据和视频质量原因数据、音频质量等级数据和音频质量原因数据、音视频质量等级综合数据确定出目标损失函数值，并根据目标损失函数值调整模型参数并重新训练模型，得到音视频多任务评估模型。

本申请实施例通过获取音视频训练数据，并对视频训练数据进行特征提取处理，得到目标视频特征向量，以及将音频训练数据转换为梅尔频谱特征向量，对梅尔频谱特征向量进行分割处理，得到多个音频特征向量，对多个音频特征向量进行融合处理，得到目标音频特征向量，有助于减少视频干扰信息和音频干扰信息，获取到更高精度的目标视频特征向量和目标音频特征向量。进一步利用目标视频特征向量、目标音频特征向量和标注数据训练得到音视频多任务评估模型，增加了模型的性能和多样性，减少了内存的占用和资源的消耗，提高音视频多任务评估的效率和准确性。

请参见图8，图8是本申请实施例提供的又一种音视频多任务学习方法的流程示意图，本申请实施例的音视频多任务学习方法可以由音视频多任务学习装置执行，其中，音视频多任务学习装置设置于终端或计算机设备中，其中，终端或计算机设备的具体解释如前。具体地，本申请实施例主要是对音视频多任务评估模型的训练过程的说明，具体包括如下步骤。

S801：获取音视频训练数据集，音视频训练数据集包括视频训练数据、音频训练数据和标注数据，标注数据包括音视频质量标签。

S802：对视频训练数据进行特征提取处理，得到目标视频特征向量，以及对音频训练数据进行特征提取处理，得到目标音频特征向量。

S803：对目标视频特征向量、目标音频特征向量进行融合处理，得到目标特征向量。

本申请实施例中，计算机设备可以对目标视频特征向量、目标音频特征向量进行融合处理，得到目标特征向量。

在一个实施例中，计算机设备在经过视频内容多任务模型学习输出了视频内容对应的目标视频特征向量和音频多任务学习输出的音频内容对应的目标音频特征向量之后，可以将目标视频特征向量和目标音频特征向量这两个特征输入到第一深度学习神经网络模型的多模态transformer模块进行融合，融合以后能利用音频内容和视频内容来联合对音视频质量等级进行评估。

S804：将目标特征向量、目标音频特征向量、目标视频特征向量以及音视频质量标签输入第一深度学习神经网络模型进行训练，得到音视频多任务评估模型。

本申请实施例中，计算机设备可以将目标特征向量、目标音频特征向量、目标视频特征向量以及音视频质量标签输入第一深度学习神经网络模型进行训练，得到音视频多任务评估模型。

在一个实施例中，计算机设备可以将目标特征向量、目标音频特征向量、目标视频特征向量以及音视频质量标签输入第一深度学习神经网络模型进行训练，得到目标损失函数值；根据目标损失函数值调整模型参数，并将目标特征向量、目标音频特征向量、目标视频特征向量以及音视频质量标签输入调整模型参数后的深度学习神经网络模型进行训练；当重新训练得到的目标损失函数值小于函数阈值时，确定得到音视频多任务评估模型。

在一个实施例中，计算机设备在将目标特征向量、目标音频特征向量、目标视频特征向量以及音视频质量标签输入第一深度学习神经网络模型进行训练，得到目标损失函数值时，可以将目标音频特征向量、音频质量等级标签、音频质量原因标签输入第一深度学习神经网络模型进行训练，得到第一损失函数值和第二损失函数值；并将目标视频特征向量、视频质量等级标签、视频质量原因标签输入第一深度学习神经网络模型进行训练，得到第三损失函数值和第四损失函数值；以及将目标特征向量和音视频质量等级综合标签输入第一深度学习神经网络模型进行训练，得到第三任务损失函数值；进一步根据第一损失函数值、第二损失函数值、第三损失函数值、第四损失函数值和第三任务损失函数值确定目标损失函数值。

在一个实施例中，计算机设备在将目标音频特征向量、音频质量等级标签、音频质量原因标签输入第一深度学习神经网络模型进行训练，得到第一损失函数值和第二损失函数值时，可以将目标音频特征向量、音频质量等级标签和音频质量原因标签输入第一深度学习神经网络模型，评估得到音频质量等级数据和音频质量原因数据；根据音频质量等级数据和音频质量等级标签确定第一损失函数值，以及根据音频质量原因数据和音频质量原因标签确定第二损失函数值。

在一个实施例中，计算机设备在将目标视频特征向量、视频质量等级标签、视频质量原因标签输入第一深度学习神经网络模型进行训练，得到第三损失函数值和第四损失函数值时，可以将目标视频特征向量、视频质量等级标签和视频质量原因标签输入第一深度学习神经网络模型，评估得到视频质量等级数据和视频质量原因数据；根据视频质量等级数据和视频质量等级标签确定第三损失函数值，以及根据视频质量原因数据和视频质量原因标签确定第四损失函数值。

在一个实施例中，计算机设备在将目标特征向量和音视频质量等级综合标签输入第一深度学习神经网络模型进行训练，得到第三任务损失函数值时，可以将目标特征向量和音视频质量等级综合标签输入第一深度学习神经网络模型，评估得到音视频质量等级综合数据，并根据音视频质量等级综合数据和音视频质量等级综合标签确定第三任务损失函数值。

在一个实施例中，计算机设备在根据第一损失函数值、第二损失函数值、第三损失函数值、第四损失函数值和第三任务损失函数值确定目标损失函数值时，可以对第一损失函数值、第二损失函数值、第三损失函数值、第四损失函数值和第三任务损失函数值进行加权相加处理，得到总损失函数。具体地加权相加的公式如下公式(1)所示。

其中，L为目标损失函数，L_i用于指示损失函数，ω_i为权重，i为系数，包括1、2、3、4、5。

进一步地，计算机设备可以根据不同任务学习的阶段，学习的难易程度，甚至是学习的效果对公式(1)进行调整，得到如下公式(2)所示的引入时间的动态确定损失函数的方法来确定目标损失函数。

其中，L为目标损失函数，L_i用于指示损失函数，ω_i为权重，i为系数，包括1、2、3、4、5，t为时间。

进一步地，由于在模型的学习中通常任务存在两种不确定性，认知不确定性和偶然不确定性。认知不确定性可以通过增加更多的data来缓解，偶然不确定性则需要对数据进行统一标准的处理。偶然不确定性又存在两种不确定性类别：1、数据依赖性(异方差不确定性)依赖于输入数据，模型预测结果的残差的方差即随着数据的输入发生变化；2、任务依赖性(同方差不确定性)是不依赖于输入数据的任意不确定性，它与模型输出无关，是一个在所有输入数据保持不变的情况下，在不同任务之间变化的量，因此，它可以被描述为与任务相关的不确定性，同方差不确定性可由于任务相关的权重引起的。这里假设模型符合同方差不确定性的假设。

因此对于回归型任务定义如下公式(3)所示的不确定性：

对于分类任务定义如下公式(4)所示的不确定性：

p(y|f^W(x))＝Softmax(f^W(x)) (4)

在基于同方差不确定性的假设下，得出如下公式(5)所示的多输出模型的最小化目标函数L(W、σ1、σ2)：

其中，y用于指示输出数据，x用于指示输入数据，w用于指示模型的参数矩阵，σ用于指示方差，

用于指示第一损失函数，

用于指示第二损失函数。

用σ来衡量同方差不确定性，同方差不确定性和任务有关，同方差不确定性越高的任务则意味着模任务相关的输出的噪声越多，任务越难以学习，因此在多任务模型训练的过程中，其对应的σ会增大，削弱这类任务的权重使得整体的多任务模型的训练更加顺畅和有效。

在音视频质量级别和音视频质量原因这两个多任务中主要提升的任务可以是音视频质量级别标签，并且其同方差不确定性小于音视频质量原因标签预测这个任务，因此该方法正好适合于音视频多任务评估这个场景，这样将两个多任务结合在一起训练的时候就可以音视频质量级别标签的预测结果将得到更多的提升。并且通过利用自动化的动态损失函数权重也省去了人工参数调节，节省了大量寻找最优参数的时间和模型训练资源。

本申请实施例对目标视频特征向量、目标音频特征向量进行融合处理，得到目标特征向量，将目标音频特征向量、音频质量等级标签、音频质量原因标签、目标视频特征向量、视频质量等级标签、视频频质量原因标签、音视频质量等级综合标签输入第一深度学习神经网络模型进行训练，得到音视频多任务评估模型，通过将音视频质量级别、音视频质量原因以及音视频质量等级综合数据这几个多任务结合在一起训练模型，有助于提升模型的性能和多样性，提高了音视频多任务评估的效率和准确性。

请参见图9，图9是本申请实施例提供的一种音视频多任务评估方法的流程示意图，本申请实施例的音视频多任务评估方法可以由音视频多任务评估装置执行，其中，音视频多任务评估装置设置于终端或计算机设备中，其中，终端或计算机设备的具体解释如前。具体地，本申请实施例主要是对音视频多任务评估模型的评估过程的说明，具体包括如下步骤。

S901：获取待评估音视频数据，待评估音视频数据包括待评估音频数据和待评估视频数据。

本申请实施例中，计算机设备可以获取待评估音视频数据，待评估音视频数据包括待评估音频数据和待评估视频数据。

S902：对待评估视频数据进行特征提取处理，得到待评估视频特征向量，并对待评估音频数据进行特征提取处理，得到待评估音频特征向量。

本申请实施例中，计算机设备可以对待评估视频数据进行特征提取处理，得到待评估视频特征向量，并对待评估音频数据进行特征提取处理，得到待评估音频特征向量。

S903：将待评估音频特征向量和待评估视频特征向量拼接为一个序列，对序列进行多模态融合处理得到待评估特征向量。

本申请实施例中，计算机设备可以将待评估音频特征向量和待评估视频特征向量拼接为一个序列，对序列进行多模态融合处理得到待评估特征向量。

在一个实施例中，计算机设备可以对待评估音频数据和待评估视频数据进行拼接处理，得到多模态数据；对多模态数据进行特征提取，得到待评估特征向量。

S904：将待评估特征向量输入预训练的音视频多任务评估模型，得到待评估音视频数据的评估数据，评估数据包括音视频质量等级综合数据、视频质量数据和音频质量数据。

本申请实施例中，计算机设备可以将待评估特征向量输入预训练的音视频多任务评估模型，得到待评估音视频数据的评估数据，评估数据包括音视频质量等级综合数据、视频质量数据和音频质量数据。

在一个实施例中，计算机设备可以将待评估特征向量输入预训练的音视频多任务评估模型，得到音视频质量等级综合数据。

在一个实施例中，计算机设备可以将待评估视频特征向量输入预训练的音视频多任务评估模型，得到待评估视频数据的视频质量数据，视频质量数据包括视频质量等级数据和视频质量原因数据。

在一个实施例中，计算机设备可以将待评估音频特征向量输入预训练的音视频多任务评估模型，得到待评估音频数据的音频质量数据，音频质量数据包括音频质量等级数据和音频质量原因数据。

本申请实施例可以对待评估视频数据进行特征提取处理，得到待评估视频特征向量，对待评估视频数据进行特征提取处理，得到待评估视频特征向量，并对待评估音频数据进行特征提取处理，得到待评估音频特征向量；将待评估音频特征向量和待评估视频特征向量拼接为一个序列，对序列进行多模态融合处理得到待评估特征向量；将待评估特征向量输入预训练的音视频多任务评估模型，得到待评估音视频数据的音视频质量等级综合数据、视频质量数据和音频质量数据。通过利用音视频多任务评估模型完成了对音视频的多任务评估，提高了音视频多任务评估的效率和准确性。

请参见图10，图10是本申请实施例提供的一种音视频多任务学习装置的结构示意图。具体的，音视频多任务学习装置设置于计算机设备中，装置包括：第一获取单元1001、第一提取单元1002、第一训练单元1003、第二训练单元1004；

第一获取单元1001，用于获取音视频训练数据集，所述音视频训练数据集包括视频训练数据、音频训练数据和标注数据，所述标注数据包括音视频质量标签；

第一提取单元1002，用于对所述视频训练数据进行特征提取处理，得到目标视频特征向量，以及对所述音频训练数据进行特征提取处理，得到目标音频特征向量；

第一训练单元1003，用于利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值，所述目标损失函数值包括同方差参数，所述同方差参数与多任务权重相关联；

第二训练单元1004，用于根据所述同方差参数调整所述目标损失函数值，根据所述目标损失函数值调整模型参数，并利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对调整模型参数后的第一深度学习神经网络模型进行重新训练，得到音视频多任务评估模型。

进一步地，所述音视频质量标签包括音频质量标签、视频质量标签和音视频质量等级综合标签；第一训练单元1003利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值时，具体用于：

对所述目标音频特征向量和所述目标视频特征向量进行融合处理，得到目标特征向量；

将所述目标音频特征向量和音频质量标签、所述目标视频特征向量和视频质量标签以及所述目标特征向量和音视频质量等级综合标签输入所述第一深度学习神经网络模型进行训练，得到所述目标损失函数值。

进一步地，第一训练单元1003将所述目标音频特征向量和音频质量标签、所述目标视频特征向量和视频质量标签以及所述目标特征向量和音视频质量等级综合标签输入所述第一深度学习神经网络模型进行训练，得到所述目标损失函数值时，具体用于：

利用所述目标音频特征向量和音频质量标签对所述第一深度学习神经网络模型进行训练，得到第一任务损失函数值；

利用所述目标视频特征向量和视频质量标签对所述第一深度学习神经网络模型进行训练，得到第二任务损失函数值；

利用所述目标特征向量和音视频质量等级综合标签对所述第一深度学习神经网络模型进行训练，得到第三任务损失函数值；

根据所述第一任务损失函数值、所述第二任务损失函数值、所述第三任务损失函数值确定所述目标损失函数值。

进一步地，所述音频质量标签包括音频质量等级标签和音频质量原因标签；第一训练单元1003利用所述目标音频特征向量和音频质量标签对所述第一深度学习神经网络模型进行训练，得到第一任务损失函数值时，具体用于：

将所述目标音频特征向量、音频质量等级标签以及音频质量原因标签输入所述第一深度学习神经网络模型进行训练，得到第一损失函数值和第二损失函数值；

按照第一预设权重对所述第一损失函数值和第二损失函数值进行加权求和处理，得到所述第一任务损失函数值。

进一步地，所述视频质量标签包括视频质量等级标签和视频质量原因标签；第一训练单元1003利用所述目标视频特征向量和视频质量标签对所述第一深度学习神经网络模型进行训练，得到第二任务损失函数值时，具体用于：

将所述目标视频特征向量、视频质量等级标签以及视频质量原因标签输入所述第一深度学习神经网络模型进行训练，得到第三损失函数值和第四损失函数值；

按照第二预设权重对所述第三损失函数值和第四损失函数值进行加权求和处理，得到所述第二任务损失函数值。

进一步地，第二训练单元1004根据所述第一任务损失函数值、第二任务损失函数值和第三任务损失函数值确定所述目标损失函数值时，具体用于：

按照第三预设权重对所述第一任务损失函数值、第二任务损失函数值和第三任务损失函数值进行加权求和处理，得到所述目标损失函数值。

请参见图11，图11是本申请实施例提供的一种音视频多任务评估装置的结构示意图。具体的，音视频多任务评估装置设置于计算机设备中，装置包括：第二获取单元1101、第二提取单元1102、融合单元1103、评估单元1104；

第二获取单元1101，用于获取待评估音视频数据，所述待评估音视频数据包括待评估音频数据和待评估视频数据；

第二提取单元1102，用于对所述待评估视频数据进行特征提取处理，得到待评估视频特征向量，并对所述待评估音频数据进行特征提取处理，得到待评估音频特征向量；

融合单元1103，用于将所述待评估音频特征向量和待评估视频特征向量拼接为一个序列，对所述序列进行多模态融合处理得到待评估特征向量；

评估单元1104，用于将所述待评估特征向量、待评估视频特征向量和待评估音频特征向量输入预训练的音视频多任务评估模型，得到所述待评估音视频数据的评估数据，所述评估数据包括音视频质量等级综合数据、视频质量数据和音频质量数据。

本申请实施例通过对待评估音频数据和待评估视频数据进行多模态融合处理，得到待评估特征向量，利用音视频多任务评估模型、待评估特征向量对待评估音视频数据进行评估，提高了音视频多任务评估的效率和准确性。

请参见图12，图12是本申请实施例提供的一种计算机设备的结构示意图。具体的，所述计算机设备包括：存储器1201、处理器1202。

在一种实施例中，所述计算机设备还包括数据接口1203，所述数据接口1203，用于传递计算机设备和其他设备之间的数据信息。

所述存储器1201可以包括易失性存储器(volatile memory)；存储器1201也可以包括非易失性存储器(non-volatile memory)；存储器1201还可以包括上述种类的存储器的组合。所述处理器1202可以是中央处理器(central processing unit，CPU)。所述处理器1202还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logicdevice，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)或其任意组合。

所述存储器1201用于存储程序，所述处理器1202可以调用存储1201中存储的程序，用于执行如下步骤：

进一步地，所述音视频质量标签包括音频质量标签、视频质量标签和音视频质量等级综合标签；处理器1002利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值时，具体用于：

进一步地，处理器1002将所述目标音频特征向量和音频质量标签、所述目标视频特征向量和视频质量标签以及所述目标特征向量和音视频质量等级综合标签输入所述第一深度学习神经网络模型进行训练，得到所述目标损失函数值时，具体用于：

进一步地，所述音频质量标签包括音频质量等级标签和音频质量原因标签；处理器1002利用所述目标音频特征向量和音频质量标签对所述第一深度学习神经网络模型进行训练，得到第一任务损失函数值时，具体用于：

进一步地，所述视频质量标签包括视频质量等级标签和视频质量原因标签；处理器1002利用所述目标视频特征向量和视频质量标签对所述第一深度学习神经网络模型进行训练，得到第二任务损失函数值时，具体用于：

进一步地，处理器1002根据所述第一任务损失函数值、第二任务损失函数值和第三任务损失函数值确定所述目标损失函数值时，具体用于：

请参见图13，图13是本申请实施例提供的另一种计算机设备的结构示意图。具体的，所述计算机设备包括：存储器1301、处理器1302。

在一种实施例中，所述计算机设备还包括数据接口1303，所述数据接口1303，用于传递计算机设备和其他设备之间的数据信息。

所述存储器1301可以包括易失性存储器(volatile memory)；存储器1301也可以包括非易失性存储器(non-volatile memory)；存储器1301还可以包括上述种类的存储器的组合。所述处理器1302可以是中央处理器(central processing unit，CPU)。所述处理器1302还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logicdevice，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)或其任意组合。

所述存储器1301用于存储程序，所述处理器1302可以调用存储1301中存储的程序，用于执行如下步骤：

本申请实施例通过对待评估音频数据和待评估视频数据进行多模态融合处理，得到待评估特征向量，利用音视频多任务评估模型、待评估特征向量、待评估视频特征向量以及待评估音频特征向量对待评估音视频数据进行评估，提高了音视频多任务评估的效率和准确性。

本申请的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请图1、图3或图8所对应实施例中描述的方法，也可实现图9所述本申请所对应实施例的设备，在此不再赘述。

所述计算机可读存储介质可以是前述任一实施例所述的设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请的部分实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种音视频多任务学习方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述音视频质量标签包括音频质量标签、视频质量标签和音视频质量等级综合标签；所述利用所述目标音频特征向量、目标视频特征向量以及音视频质量标签对第一深度学习神经网络模型进行训练，得到目标损失函数值，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述目标音频特征向量和音频质量标签、所述目标视频特征向量和视频质量标签以及所述目标特征向量和音视频质量等级综合标签输入所述第一深度学习神经网络模型进行训练，得到所述目标损失函数值，包括：

4.根据权利要求3所述的方法，其特征在于，所述音频质量标签包括音频质量等级标签和音频质量原因标签；所述利用所述目标音频特征向量和音频质量标签对所述第一深度学习神经网络模型进行训练，得到第一任务损失函数值，包括：

5.根据权利要求3所述的方法，其特征在于，所述视频质量标签包括视频质量等级标签和视频质量原因标签；所述利用所述目标视频特征向量和视频质量标签对所述第一深度学习神经网络模型进行训练，得到第二任务损失函数值，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所述第一任务损失函数值、第二任务损失函数值和第三任务损失函数值确定所述目标损失函数值，包括：

7.一种音视频多任务评估方法，其特征在于，包括：

8.一种计算机设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序，所述处理器被配置用于调用所述程序，执行如权利要求1-7任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质中存储有程序指令，该程序指令被执行时，用于实现如权利要求1-7任一项所述的方法。