CN115937625A - 视频多任务学习、评估方法、计算机设备及存储介质 - Google Patents

视频多任务学习、评估方法、计算机设备及存储介质 Download PDF

Info

Publication number
CN115937625A
CN115937625A CN202211437999.7A CN202211437999A CN115937625A CN 115937625 A CN115937625 A CN 115937625A CN 202211437999 A CN202211437999 A CN 202211437999A CN 115937625 A CN115937625 A CN 115937625A
Authority
CN
China
Prior art keywords
video
feature
video data
feature vector
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211437999.7A
Other languages
English (en)
Inventor
聂鑫
徐梦迪
董治
姜涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202211437999.7A priority Critical patent/CN115937625A/zh
Publication of CN115937625A publication Critical patent/CN115937625A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种视频多任务学习、评估方法、计算机设备及存储介质,该方法包括:获取视频训练数据集,视频训练数据集包括第一标签的视频数据和有第二标签的视频数据,第一标签用于指示质量等级,第二标签用于指示质量原因;对第一标签的视频数据和第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量;对第一特征向量和第二特征向量进行特征分类,得到目标特征向量;将目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对深度学习神经网络模型进行调整,得到视频多任务评估模型,损失函数值包括同方差参数,同方差参数与多任务权重相关联。通过这种方式可以提高视频多任务评估的效率和准确性。

Description

视频多任务学习、评估方法、计算机设备及存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种视频多任务学习、评估方法、计算机设备及存储介质。
背景技术
目前大多数机器学习任务是单任务学习,单任务学习在学习过程中没有在多个任务中共享它们所学到的信息,这导致单任务学习的模型通常泛化性能较差。
在视频多任务评估中,如果使用单任务模型进行视频多任务评估,由于单任务模型使用单个模型参数,占用内存增加了,需要消耗更多的计算资源,模型的推理时间也是双倍的增加,视频质量的评估效率较低。因此,如何提高视频多任务评估的效率非常重要。
发明内容
本申请实施例提供了一种视频多任务学习、评估方法、计算机设备及存储介质,可以提高视频多任务评估的效率和准确性。
第一方面,本申请实施例提供了一种视频多任务学习方法,包括:
获取视频训练数据集,所述视频训练数据集包括第一标签的视频数据和有第二标签的视频数据,所述第一标签用于指示质量等级,所述第二标签用于指示质量原因;
对所述第一标签的视频数据和所述第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量;
对所述第一特征向量和所述第二特征向量进行特征分类,得到目标特征向量;
将所述目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型,所述损失函数值包括同方差参数,所述同方差参数与多任务权重相关联。
第二方面,本申请实施例提供了一种视频多任务评估方法,包括:
获取待评估视频数据;
对所述待评估视频数据进行特征提取处理得到待评估特征向量,对所述待评估特征向量进行特征分类,得到待评估目标特征向量;
将所述待评估目标特征向量输入所述视频多任务评估模型,得到所述待评估视频数据的评估数据,所述评估数据包括质量等级数据和质量原因数据。
第三方面,本申请实施例提供了一种视频多任务学习装置,包括:
获取单元,用于获取视频训练数据集,所述视频训练数据集包括第一标签的视频数据和有第二标签的视频数据,所述第一标签用于指示质量等级,所述第二标签用于指示质量原因;
提取单元,用于对所述第一标签的视频数据和所述第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量;
分类单元,用于对所述第一特征向量和所述第二特征向量进行特征分类,得到目标特征向量;
训练单元,用于将所述目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型,所述损失函数值包括同方差参数,所述同方差参数与多任务权重相关联。
第四方面,本申请实施例提供了一种视频多任务评估装置,包括:
获取单元,用于获取待评估视频数据;
提取单元,用于对所述待评估视频数据进行特征提取处理得到待评估特征向量,对所述待评估特征向量进行特征分类,得到待评估目标特征向量;
评估单元,用于将所述待评估目标特征向量输入所述视频多任务评估模型,得到所述待评估视频数据的评估数据,所述评估数据包括质量等级数据和质量原因数据。
第五方面,本申请实施例提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述处理器用于执行:
获取视频训练数据集,所述视频训练数据集包括第一标签的视频数据和有第二标签的视频数据,所述第一标签用于指示质量等级,所述第二标签用于指示质量原因;
对所述第一标签的视频数据和所述第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量;
对所述第一特征向量和所述第二特征向量进行特征分类,得到目标特征向量;
将所述目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型,所述损失函数值包括同方差参数,所述同方差参数与多任务权重相关联。
第六方面,本申请实施例提供了另一种计算机设备,所述计算机设备包括:处理器和存储器,所述处理器用于执行:
获取待评估视频数据;
对所述待评估视频数据进行特征提取处理得到待评估特征向量,对所述待评估特征向量进行特征分类,得到待评估目标特征向量;
将所述待评估目标特征向量输入所述视频多任务评估模型,得到所述待评估视频数据的评估数据,所述评估数据包括质量等级数据和质量原因数据。
第七方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序指令,该程序指令被执行时,用于实现上述第一方面或第二方面所述的方法。
本申请实施例可以获取视频训练数据集,视频训练数据集包括第一标签的视频数据和有第二标签的视频数据,第一标签用于指示质量等级,第二标签用于指示质量原因;对第一标签的视频数据和第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量;对第一特征向量和所二特征向量进行特征分类,得到目标特征向量;将目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对深度学习神经网络模型进行调整,最终得到视频多任务评估模型,损失函数值包括同方差参数,同方差参数与多任务权重相关联。通过这种方式可以提高视频多任务评估的效率和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种视频多任务学习方法的流程示意图;
图2是一种视频图像帧的示意图;
图3是本申请实施例提供的另一种视频多任务学习方法的流程示意图;
图4是一种ResNet-B的卷积示意图;
图5是一种ResNet-C的卷积示意图;
图6是一种ResNet-D的卷积示意图;
图7是一种视频多任务评估模型的示意图;
图8是本申请实施例提供的又一种视频多任务学习方法的流程示意图;
图9是本申请实施例提供的一种视频多任务评估方法的流程示意图;
图10是本申请实施例提供的一种视频多任务学习装置的结构示意图;
图11是本申请实施例提供的一种视频多任务评估装置的结构示意图;
图12是本申请实施例提供的一种计算机设备的结构示意图;
图13是本申请实施例提供的另一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大图像处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习/深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
基于上述人工智能技术中所提及的机器学习等技术,本申请提出了一种视频多任务学习、评估方案,以实现通过引入多任务学习训练视频多任务评估模型,以增加模型的多样性,通过多任务学习的视频多任务评估模型对视频质量进行评估,有助于提高视频多任务评估的准确率和效率。
本申请实施例提供的视频多任务评估方法可以应用于一种视频多任务评估装置,该视频多任务评估装置可设置于计算机设备中,在某些实施例中,该计算机设备可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备。在某些实施例中,所述计算机设备中包括一个或多个数据库,所述数据库可以用于存储视频数据。
在某些实施例中,本申请实施例提供的视频多任务评估方法可以应用于用户生成内容,即用户原创内容(User Generated Content,UGC)、视频筛选等场景:例如根据视频多任务评估得到的评估数据筛选优质质量视频的场景等。当然,以上应用场景仅仅是示例说明,在其他实施例中,本申请实施例的视频多任务评估可以应用到任意与视频多任务评估相关联的场景中。在UGC场景中,本申请提出的视频多任务评估方法可应用在用户UGC视频作品的分发中,通过模型对用户的UGC视频作品进行多任务评估可以帮助筛选出高质量的UGC视频,这对于后续作品分发中的点击率,播放时长和完播率等业务指标有关键的影响作用。
下面结合附图对本申请实施例提供的视频多任务学习、评估方法进行示意性说明。
具体请参见图1,图1是本申请实施例提供的一种视频多任务学习方法的流程示意图,本申请实施例的视频多任务学习方法可以由视频多任务学习装置执行,其中,视频多任务学习装置设置于终端或计算机设备中,其中,终端或计算机设备的具体解释如前。具体地,本申请实施例的方法包括如下步骤。
S101:获取视频训练数据集,视频训练数据集包括第一标签的视频数据和有第二标签的视频数据,第一标签用于指示质量等级,第二标签用于指示质量原因。
本申请实施例中,计算机设备可以获取视频训练数据集,视频训练数据集包括第一标签的视频数据和有第二标签的视频数据,第一标签用于指示质量等级,第二标签用于指示质量原因。
S102:对第一标签的视频数据和第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量。
本申请实施例中,计算机设备可以对第一标签的视频数据和第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量。
在一个实施例中,计算机设备在对第一标签的视频数据和第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量时,可以获取第一标签的视频数据的多个第一图像帧以及第二标签的视频数据的多个第二图像帧;对多个第一图像帧进行特征提取得到多个第一特征向量,以及对多个第二图像帧进行特征提取得到多个第二特征向量。在某些实施例中,多个图像帧可包括视频训练数据中的部分图像帧或所有图像帧,其中,部分图像帧可包括一个或多个图像帧。
在一个实施例中,计算机设备在获取视频训练数据的多个图像帧时,可以获取第一标签的视频数据包括的至少一个视频片段以及获取第二标签的视频数据包括的至少一个视频片段;对第一标签的视频数据包括的至少一个视频片段进行抽帧处理,得到第一标签的视频数据的多个第一图像帧,以及对第二标签的视频数据包括的至少一个视频片段进行抽帧处理,得到第二标签的视频数据的多个第二图像帧。在某些实施例中,至少一个视频片段可包括视频训练数据(即第一标签的视频数据和第二标签得到视频数据)中的多个视频片段,至少一个图像帧可包括从每个视频片段中抽取一个图像帧组成的多个图像帧。
进一步地,计算机设备可以将视频训练数据拆分为多个视频片段,并从每个视频片段中抽取一个图像帧,得到多个图像帧。例如,计算机设备可以将视频训练数据拆分为N个视频片段,N为正整数,并从N个视频片段的每个视频片段中抽取一个图像帧,得到N个图像帧。
在某些实施例中,计算机设备在从每个视频片段中抽取一个图像帧时,可以从每个视频片段中随机抽取一个图像帧,也可以从每个视频片段中选取指定的中间图像帧作为该一个图像帧。具体如图2所示,图2是一种视频图像帧的示意图。
本申请实施例,通过对每个视频片段进行抽帧处理,有助于避免信息冗余,同时可以更多的利用视频信息。
在一个实施例中,计算机设备在对多个第一图像帧进行特征提取得到多个第一特征向量,以及对多个第二图像帧进行特征提取得到多个第二特征向量时,可以将多个第一图像帧和多个第二图像帧输入改进的卷积神经网络模型的卷积模块,得到卷积结果;将卷积结果进行最大池化处理,得到多个第一特征向量和多个第二特征向量。
S103:对第一特征向量和第二特征向量进行特征分类,得到目标特征向量。
本申请实施例中,计算机设备可以对第一特征向量和第二特征向量进行特征分类,得到目标特征向量。
在一个实施例中,计算机设备在对第一特征向量和第二特征向量进行特征分类,得到目标特征向量时,可以对多个第一特征向量和多个第二特征向量进行平均处理,得到特征均值向量;对特征均值向量进行特征分类得到目标特征向量。
在一个实施例中,计算机设备在对多个第一特征向量和多个第二特征向量进行平均处理,得到特征均值向量时,可以将多个第一特征向量和多个第二特征向量输入改进的卷积神经网络模型的平均池化模块,得到特征均值向量。
在一个实施例中,计算机设备在对特征均值向量进行特征分类得到目标特征向量时,可以将特征均值向量输入改进的卷积神经网络模型的全连接模块,得到目标特征向量。
S104:将目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对深度学习神经网络模型进行调整,得到视频多任务评估模型,损失函数值包括同方差参数,同方差参数与多任务权重相关联。
本申请实施例中,计算机设备可以将目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对深度学习神经网络模型进行调整,得到视频多任务评估模型,损失函数值包括同方差参数,同方差参数与多任务权重相关联。
在一个实施例中,计算机设备在将所述目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型时,可以将目标特征向量输入深度学习神经网络模型进行训练,得到第一损失函数值和第二损失函数值;根据第一损失函数值和第二损失函数值对深度学习神经网络模型进行调整,最终得到视频多任务评估模型。
在一个实施例中,计算机设备在将所述目标特征向量输入深度学习神经网络模型进行训练,得到第一损失函数值和第二损失函数值时,可以将目标特征向量输入深度学习神经网络模型进行训练,得到质量等级评估数据和质量原因评估数据;根据质量等级评估数据和质量等级标签确定第一损失函数值,以及根据质量原因评估数据和质量原因标签确定第二损失函数值。
本申请实施例中,利用用于指示质量等级的第一标签的视频数据和用于指示质量原因的第二标签的视频数据训练得到视频多任务评估模型,使得该视频多任务评估模型为包括视频质量等级和视频质量原因这两个任务的多任务学习模型。由于视频质量等级和视频质量原因是有相关性的,这两个任务放在一起学习可以起到相互促进的作用,共享信息,相互补充来提升彼此的性能,将视频质量原因和视频质量等级这两个任务共享一个模型参数,这样做能减少内存的占用,并且这两个任务在实际使用时只需要做一次前向计算,减少了计算资源的消耗,增加了推理的速度。并且通过学习自适应的参数,视频质量原因和视频质量等级着两个任务的损失融合能在学习中不断的调整,这种方式使得两个任务学习的性能更好了,并且也节省了人工调节融合参数的繁杂过程。
本申请实施例利用用于指示质量等级的第一标签的视频数据和用于指示质量原因的第二标签的视频数据训练得到多任务学习的视频多任务评估模型,增加了模型的性能和多样性,减少了内存的占用和资源的消耗,通过该视频多任务评估模型有助于获取到更准确的包括质量等级数据和质量原因数据的视频的评估数据。
请参见图3,图3是本申请实施例提供的另一种视频多任务学习方法的流程示意图,本申请实施例的视频多任务学习方法可以由视频多任务学习装置执行,其中,视频多任务学习装置设置于终端或计算机设备中,其中,终端或计算机设备的具体解释如前。具体地,本申请实施例主要是对视频的特征提取过程的说明,具体包括如下步骤。
S301:获取视频训练数据集,视频训练数据集包括第一标签的视频数据和有第二标签的视频数据,第一标签用于指示质量等级,第二标签用于指示质量原因。
本申请实施例中,计算机设备可以获取视频训练数据集,视频训练数据集包括第一标签的视频数据和有第二标签的视频数据,第一标签用于指示质量等级,第二标签用于指示质量原因。
S302:获取第一标签的视频数据的多个第一图像帧以及第二标签的视频数据的多个第二图像帧,对多个第一图像帧进行特征提取得到多个第一特征向量,以及对多个第二图像帧进行特征提取得到多个第二特征向量。
本申请实施例中,计算机设备可以获取第一标签的视频数据的多个第一图像帧以及第二标签的视频数据的多个第二图像帧,对多个第一图像帧进行特征提取得到多个第一特征向量,以及对多个第二图像帧进行特征提取得到多个第二特征向量。
在一个实施例中,计算机设备在获取第一标签的视频数据的多个第一图像帧以及第二标签的视频数据的多个第二图像帧时,可以获取第一标签的视频数据包括的至少一个视频片段以及获取第二标签的视频数据包括的至少一个视频片段;对第一标签的视频数据包括的至少一个视频片段进行抽帧处理,得到第一标签的视频数据的多个第一图像帧,以及对第二标签的视频数据包括的至少一个视频片段进行抽帧处理,得到第二标签的视频数据的多个第二图像帧。
在一个实施例中,计算机设备在对多个第一图像帧进行特征提取得到多个第一特征向量,以及对多个第二图像帧进行特征提取得到多个第二特征向量时,可以将多个第一图像帧和多个第二图像帧输入改进的卷积神经网络模型的卷积模块,得到卷积结果;将卷积结果进行最大池化处理,得到多个第一特征向量和多个第二特征向量。
在某些实施例中,该改进的卷积神经网络模型可为ResNet50_vd模型,其中,ResNet50_vd可指50个卷积层的ResNet-D网络,ResNet-D网络是ResNet系列网络在被提出后经过了ResNet-B、ResNet-C、ResNet-D三个版本的改进得到的。如图4所示,图4是一种ResNet-B的卷积示意图,ResNet-B将Path A中1*1卷积的stride由2改为1,通过这种改进方式,有助于避免信息丢失。如图5所示,图5是一种ResNet-C的卷积示意图,ResNet-C将第一个7*7的卷积核调整为3个3*3卷积核,通过这种改进方式,有助于减少计算量,同时增加了网络非线性性。如图6所示,图6是一种ResNet-D的卷积示意图,ResNet-D进一步将Path B中1*1卷积的stride由2改为1,并添加了平均池化层(即平均池化模块),通过这种改进方式,有助于保留更多的信息,提升了模型的性能。
S303:对第一特征向量和第二特征向量进行特征分类,得到目标特征向量。
本申请实施例中,计算机设备可以对第一特征向量和第二特征向量进行特征分类,得到目标特征向量。
在一个实施例中,计算机设备在对第一特征向量和第二特征向量进行特征分类,得到目标特征向量时,可以对多个第一特征向量和多个第二特征向量进行平均处理,得到特征均值向量;对特征均值向量进行特征分类得到目标特征向量。
在一个实施例中,计算机设备在对多个第一特征向量和多个第二特征向量进行平均处理,得到特征均值向量时,可以将多个第一特征向量和多个第二特征向量输入改进的卷积神经网络模型的平均池化模块,得到特征均值向量。
在一个实施例中,计算机设备在对特征均值向量进行特征分类得到目标特征向量时,可以将特征均值向量输入改进的卷积神经网络模型的全连接模块,得到目标特征向量。
本申请通过对第一特征向量和第二特征向量进行特征分类,有助于减少干扰信息,获取到更高精度的特征向量。
S304:将目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对深度学习神经网络模型进行调整,得到视频多任务评估模型,损失函数值包括同方差参数,同方差参数与多任务权重相关联。
本申请实施例中,计算机设备可以将目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对深度学习神经网络模型进行调整,得到视频多任务评估模型,损失函数值包括同方差参数,同方差参数与多任务权重相关联。
在一个实施例中,该视频多任务评估模型的训练具体如图7所示,图7是一种视频多任务评估模型的示意图,如图7所示,首先对视频训练数据71(即输入数据)进行抽帧处理72,得到多个图像帧,将多个图像帧输入改进的卷积神经网络模型的卷积模块73,得到卷积结果,并将卷积结果进行最大池化处理74,其中,最大池化处理74的卷积核的结构如741所示,得到至少一个特征向量。将至少一个特征向量通过改进的卷积神经网络模型的卷积层1、卷积层2、卷积层3输入卷积层4,该卷积层4包括平均池化模块和全连接模块75,通过平均池化模块可得到至少一个特征均值向量,将至少一个特征均值向量输入改进的卷积神经网络模型的全连接模块,得到目标特征向量。将目标特征向量和标注数据输入深度学习神经网络模型76,得到质量等级数据和质量原因数据77(即输出数据),进一步根据质量等级数据、质量原因数据质量等级标签和质量原因标签确定目标损失函数,以及根据目标损失函数重新训练深度学习神经网络模型,得到视频多任务评估模型。
本申请实施例通过获取视频训练数据的多个图像帧,并对多个图像帧进行特征提取,得到多个特征向量,以及对多个特征向量进行分类处理,有助于减少干扰信息,获取到更高精度的目标特征向量。进一步利用目标特征向量和标注数据训练得到多任务学习的视频多任务评估模型,增加了模型的性能和多样性,减少了内存的占用和资源的消耗,提高视频多任务评估的效率和准确性。
请参见图8,图8是本申请实施例提供的又一种视频多任务学习方法的流程示意图,本申请实施例的视频多任务学习方法可以由视频多任务学习装置执行,其中,视频多任务学习装置设置于终端或计算机设备中,其中,终端或计算机设备的具体解释如前。具体地,本申请实施例主要是对视频多任务学习模型的训练过程的说明,具体包括如下步骤。
S801:获取视频训练数据集,视频训练数据集包括第一标签的视频数据和第二标签的视频数据,第一标签用于指示质量等级,第二标签用于指示质量原因。
本申请实施例中,计算机设备可以获取视频训练数据集,视频训练数据集包括第一标签的视频数据和第二标签的视频数据,第一标签用于指示质量等级,第二标签用于指示质量原因。
S802:对第一标签的视频数据和第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量。
本申请实施例中,计算机设备可以对第一标签的视频数据和第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量。
S803:对第一特征向量和第二特征向量进行特征分类,得到目标特征向量。
本申请实施例中,计算机设备可以对第一特征向量和第二特征向量进行特征分类,得到目标特征向量。
S804:将目标特征向量和标注数据输入深度学习神经网络模型进行训练,得到第一损失函数值和第二损失函数值。
本申请实施例中,计算机设备可以将目标特征向量和标注数据包括的质量等级标签和质量原因标签输入深度学习神经网络模型进行训练,得到第一损失函数值和第二损失函数值。
在一个实施例中,计算机设备可以将目标特征向量输入深度学习神经网络模型进行训练,得到质量等级评估数据和质量原因评估数据;并根据质量等级评估数据和质量等级标签确定第一损失函数值,以及根据质量原因评估数据和质量原因标签确定第二损失函数值。
S805:根据第一损失函数值和第二损失函数值对深度学习神经网络模型进行调整,得到视频多任务评估模型。
本申请实施例中,计算机设备可以根据第一损失函数值和第二损失函数值对深度学习神经网络模型进行调整,得到视频多任务评估模型。
在一个实施例中,计算机设备在根据第一损失函数值和第二损失函数值对深度学习神经网络模型进行调整,得到视频多任务评估模型时,可以根据第一损失函数值和第二损失函数值确定目标损失函数值,并根据目标损失函数值重新训练深度学习神经网络模型,得到视频多任务评估模型。
在一个实施例中,计算机设备在根据第一损失函数值和第二损失函数值确定目标损失函数值时,可以对第一损失函数值和第二损失函数值进行加权相加处理,得到目标损失函数。具体地加权相加的公式如下公式(1)所示。
Figure BDA0003946732720000121
其中,L为目标损失函数,Li用于指示损失函数,ωi为权重,i为系数,包括1、2......。
进一步地,计算机设备可以根据不同任务学习的阶段,学习的难易程度,甚至是学习的效果对公式(1)进行调整,得到如下公式(2)所示的引入时间的动态确定损失函数的方法来确定目标损失函数。
Figure BDA0003946732720000122
其中,L为目标损失函数,Li用于指示损失函数,ωi为权重,i为系数,包括1、2......,t为时间。
进一步地,由于在模型的学习中通常任务存在两种不确定性,认知不确定性和偶然不确定性。认知不确定性可以通过增加更多的data来缓解,偶然不确定性则需要对数据进行统一标准的处理。偶然不确定性又存在两种不确定性类别:1、数据依赖性(异方差不确定性)依赖于输入数据,模型预测结果的残差的方差即随着数据的输入发生变化;2、任务依赖性(同方差不确定性)是不依赖于输入数据的任意不确定性,它与模型输出无关,是一个在所有输入数据保持不变的情况下,在不同任务之间变化的量,因此,它可以被描述为与任务相关的不确定性,同方差不确定性可由于任务相关的权重引起的。这里假设模型符合同方差不确定性的假设。
因此对于回归型任务定义如下公式(3)所示的不确定性:
Figure BDA0003946732720000131
对于分类任务定义如下公式(4)所示的不确定性:
p(y|fw(x))=Softmax(fw(x))  (4)
在基于同方差不确定性的假设下,得出如下公式(5)所示的多输出模型的最小化目标函数
Figure BDA0003946732720000132
其中,y用于指示输出数据,x用于指示输入数据,w用于指示模型的参数矩阵,σ用于指示方差,
Figure BDA0003946732720000133
用于指示第一损失函数,
Figure BDA0003946732720000134
用于指示第二损失函数。
用σ来衡量同方差不确定性,同方差不确定性和任务有关,同方差不确定性越高的任务则意味着模任务相关的输出的噪声越多,任务越难以学习,因此在多任务评估模型训练的过程中,其对应的σ会增大,削弱这类任务的权重使得整体的多任务评估模型的训练更加顺畅和有效。
在视频质量级别和视频质量原因这两个任务中主要提升的任务可以是视频质量级别标签,并且其同方差不确定性小于视频质量原因标签预测这个任务,因此该方法正好适合于视频多任务评估这个场景,这样将两个任务结合在一起训练的时候就可以视频质量级别标签的预测结果将得到更多的提升。并且通过利用自动化的动态损失函数权重也省去了人工参数调节,节省了大量寻找最优参数的时间和模型训练资源。
本申请实施例将目标特征向量输入深度学习神经网络模型进行训练,得到第一损失函数值和第二损失函数值,并根据第一损失函数值和第二损失函数值确定目标损失函数值,进一步根据目标损失函数值确定得到多任务学习的视频多任务评估模型,通过将视频质量级别和视频质量原因这两个任务结合在一起训练模型,有助于提升模型的性能和多样性,提高了视频多任务评估的效率和准确性。
请参见图9,图9是本申请实施例提供的一种视频多任务评估方法的流程示意图,本申请实施例的视频多任务评估方法可以由视频多任务评估装置执行,其中,视频多任务评估装置设置于终端或计算机设备中,其中,终端或计算机设备的具体解释如前。具体地,本申请实施例主要是对视频多任务学习模型的训练过程的说明,具体包括如下步骤。
S901:获取待评估视频数据。
S902:对待评估视频数据进行特征提取处理得到待评估特征向量,对待评估特征向量进行特征分类,得到待评估目标特征向量。
本申请实施例中,计算机设备可以对待评估视频数据进行特征提取处理得到待评估特征向量,对待评估特征向量进行特征分类,得到待评估目标特征向量。
在一个实施例中,计算机设备在对待评估特征向量进行特征分类,得到待评估目标特征向量时,可以对待评估特征向量进行平均处理,得到待评估特征均值向量,并对待评估特征均值向量进行特征分类,得到待评估目标特征向量。
S903:将待评估目标特征向量输入视频多任务评估模型,得到待评估视频数据的评估数据,评估数据包括质量等级数据和质量原因数据。
请参见图10,图10是本申请实施例提供的一种视频多任务学习装置的结构示意图。具体的,视频多任务学习装置设置于计算机设备中,装置包括:获取单元1001、提取单元1002、分类单元1003、训练单元1004;
获取单元1001,用于获取视频训练数据集,所述视频训练数据集包括第一标签的视频数据和有第二标签的视频数据,所述第一标签用于指示质量等级,所述第二标签用于指示质量原因;
提取单元1002,用于对所述第一标签的视频数据和所述第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量;
分类单元1003,用于对所述第一特征向量和所述第二特征向量进行特征分类,得到目标特征向量;
训练单元1004,用于将所述目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型,所述损失函数值包括同方差参数,所述同方差参数与多任务权重相关联。
进一步地,提取单元1002对所述第一标签的视频数据和所述第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量时,具体用于:
获取所述第一标签的视频数据的多个第一图像帧以及所述第二标签的视频数据的多个第二图像帧;
对所述多个第一图像帧进行特征提取得到多个第一特征向量,以及对所述多个第二图像帧进行特征提取得到多个第二特征向量;
所述分类单元1003对所述第一特征向量和所述第二特征向量进行特征分类,得到目标特征向量时,具体用于:
对所述多个第一特征向量和所述多个第二特征向量进行平均处理,得到特征均值向量;
对所述特征均值向量进行特征分类得到所述目标特征向量。
进一步地,提取单元1002获取所述第一标签的视频数据的多个第一图像帧以及所述第二标签的视频数据的多个第二图像帧时,具体用于:
获取所述第一标签的视频数据包括的至少一个视频片段以及获取所述第二标签的视频数据包括的至少一个视频片段;
对所述第一标签的视频数据包括的至少一个视频片段进行抽帧处理,得到所述第一标签的视频数据的多个第一图像帧,以及对所述第二标签的视频数据包括的至少一个视频片段进行抽帧处理,得到所述第二标签的视频数据的多个第二图像帧。
进一步地,提取单元1002对所述多个第一图像帧进行特征提取得到多个第一特征向量,以及对所述多个第二图像帧进行特征提取得到多个第二特征向量时,具体用于:
将所述多个第一图像帧和所述多个第二图像帧输入改进的卷积神经网络模型的卷积模块,得到卷积结果;
将所述卷积结果进行最大池化处理,得到所述多个第一特征向量和所述多个第二特征向量。
进一步地,分类单元1003对所述多个第一特征向量和所述多个第二特征向量进行平均处理,得到特征均值向量时,具体用于:
将所述多个第一特征向量和所述多个第二特征向量输入所述改进的卷积神经网络模型的平均池化模块,得到所述特征均值向量;
所述分类单元1003对所述特征均值向量进行特征分类得到所述目标特征向量时,具体用于:
将所述特征均值向量输入所述改进的卷积神经网络模型的全连接模块,得到所述目标特征向量。
进一步地,训练单元1004将所述目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型时,用于:
将所述目标特征向量输入深度学习神经网络模型进行训练,得到第一损失函数值和第二损失函数值;
根据所述第一损失函数值和第二损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型。
进一步地,训练单元1004将所述目标特征向量输入深度学习神经网络模型进行训练,得到第一损失函数值和第二损失函数值时,具体用于:
将所述目标特征向量输入深度学习神经网络模型进行训练,得到质量等级评估数据和质量原因评估数据;
根据所述质量等级评估数据和所述质量等级标签确定所述第一损失函数值,以及根据所述质量原因评估数据和所述质量原因标签确定所述第二损失函数值。
本申请实施例利用用于指示质量等级的第一标签的视频数据和用于指示质量原因的第二标签的视频数据训练得到多任务学习的视频多任务评估模型,该标注数据包括质量等级标签和质量原因标签,增加了模型的性能和多样性,减少了内存的占用和资源的消耗,通过该视频多任务评估模型有助于获取到更准确的包括质量等级数据和质量原因数据的视频的评估数据。
请参见图11,图11是本申请实施例提供的一种视频多任务评估装置的结构示意图。具体的,视频多任务评估装置设置于计算机设备中,装置包括:获取单元1101、提取单元1102、评估单元1103;
获取单元1101,用于获取待评估视频数据;
提取单元1102,用于对所述待评估视频数据进行特征提取处理得到待评估特征向量,对所述待评估特征向量进行特征分类,得到待评估目标特征向量;
评估单元1103,用于将所述待评估目标特征向量输入所述视频多任务评估模型,得到所述待评估视频数据的评估数据,所述评估数据包括质量等级数据和质量原因数据。
请参见图12,图12是本申请实施例提供的一种计算机设备的结构示意图。具体的,所述计算机设备包括:存储器1201、处理器1202。
在一种实施例中,所述计算机设备还包括数据接口1203,所述数据接口1203,用于传递计算机设备和其他设备之间的数据信息。
所述存储器1201可以包括易失性存储器(volatile memory);存储器1201也可以包括非易失性存储器(non-volatile memory);存储器1201还可以包括上述种类的存储器的组合。所述处理器1202可以是中央处理器(central processing unit,CPU)。所述处理器1202还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logicdevice,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA)或其任意组合。
所述存储器1201用于存储程序,所述处理器1202可以调用存储1201中存储的程序,用于执行如下步骤:
获取视频训练数据集,所述视频训练数据集包括第一标签的视频数据和第二标签的视频数据,所述第一标签用于指示质量等级,所述第二标签用于指示质量原因;
对所述第一标签的视频数据和所述第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量;
对所述第一特征向量和所述第二特征向量进行特征分类,得到目标特征向量;
将所述目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型,所述损失函数值包括同方差参数,所述同方差参数与多任务权重相关联。
进一步地,处理器1202对所述第一标签的视频数据和所述第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量时,具体用于:
获取所述第一标签的视频数据的多个第一图像帧以及所述第二标签的视频数据的多个第二图像帧;
对所述多个第一图像帧进行特征提取得到多个第一特征向量,以及对所述多个第二图像帧进行特征提取得到多个第二特征向量;
所述处理器1202对所述第一特征向量和所述第二特征向量进行特征分类,得到目标特征向量时,具体用于:
对所述多个第一特征向量和所述多个第二特征向量进行平均处理,得到特征均值向量;
对所述特征均值向量进行特征分类得到所述目标特征向量。
进一步地,处理器1202获取所述第一标签的视频数据的多个第一图像帧以及所述第二标签的视频数据的多个第二图像帧时,具体用于:
获取所述第一标签的视频数据包括的至少一个视频片段以及获取所述第二标签的视频数据包括的至少一个视频片段;
对所述第一标签的视频数据包括的至少一个视频片段进行抽帧处理,得到所述第一标签的视频数据的多个第一图像帧,以及对所述第二标签的视频数据包括的至少一个视频片段进行抽帧处理,得到所述第二标签的视频数据的多个第二图像帧。
进一步地,处理器1202对所述多个第一图像帧进行特征提取得到多个第一特征向量,以及对所述多个第二图像帧进行特征提取得到多个第二特征向量时,具体用于:
将所述多个第一图像帧和所述多个第二图像帧输入改进的卷积神经网络模型的卷积模块,得到卷积结果;
将所述卷积结果进行最大池化处理,得到所述多个第一特征向量和所述多个第二特征向量。
进一步地,处理器1202对所述多个第一特征向量和所述多个第二特征向量进行平均处理,得到特征均值向量时,具体用于:
将所述多个第一特征向量和所述多个第二特征向量输入所述改进的卷积神经网络模型的平均池化模块,得到所述特征均值向量;
所述处理器1202对所述特征均值向量进行特征分类得到所述目标特征向量时,具体用于:
将所述特征均值向量输入所述改进的卷积神经网络模型的全连接模块,得到所述目标特征向量。
进一步地,处理器1202将所述目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型时,用于:
将所述目标特征向量输入深度学习神经网络模型进行训练,得到第一损失函数值和第二损失函数值;
根据所述第一损失函数值和第二损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型。
进一步地,处理器1202将所述目标特征向量输入深度学习神经网络模型进行训练,得到第一损失函数值和第二损失函数值时,具体用于:
将所述目标特征向量输入深度学习神经网络模型进行训练,得到质量等级评估数据和质量原因评估数据;
根据所述质量等级评估数据和所述质量等级标签确定所述第一损失函数值,以及根据所述质量原因评估数据和所述质量原因标签确定所述第二损失函数值。
请参见图13,图13是本申请实施例提供的另一种计算机设备的结构示意图。具体的,所述计算机设备包括:存储器1301、处理器1302。
在一种实施例中,所述计算机设备还包括数据接口1303,所述数据接口1303,用于传递计算机设备和其他设备之间的数据信息。
所述存储器1301可以包括易失性存储器(volatile memory);存储器1301也可以包括非易失性存储器(non-volatile memory);存储器1301还可以包括上述种类的存储器的组合。所述处理器1302可以是中央处理器(central processing unit,CPU)。所述处理器1302还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logicdevice,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA)或其任意组合。
所述存储器1301用于存储程序,所述处理器1302可以调用存储1301中存储的程序,用于执行如下步骤:
获取待评估视频数据;
对所述待评估视频数据进行特征提取处理得到待评估特征向量,对所述待评估特征向量进行特征分类,得到待评估目标特征向量;
将所述待评估目标特征向量输入视频多任务评估模型,得到所述待评估视频数据的评估数据,所述评估数据包括质量等级数据和质量原因数据。
本申请的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本申请所对应实施例中描述的方法,也可实现本申请所对应实施例的设备,在此不再赘述。
所述计算机可读存储介质可以是前述任一实施例所述的设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (10)

1.一种视频多任务学习方法,其特征在于,包括:
获取视频训练数据集,所述视频训练数据集包括第一标签的视频数据和第二标签的视频数据,所述第一标签用于指示质量等级,所述第二标签用于指示质量原因;
对所述第一标签的视频数据和所述第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量;
对所述第一特征向量和所述第二特征向量进行特征分类,得到目标特征向量;
将所述目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型,所述损失函数值包括同方差参数,所述同方差参数与多任务权重相关联。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一标签的视频数据和所述第二标签的视频数据进行特征提取处理,得到第一特征向量和第二特征向量,包括:
获取所述第一标签的视频数据的多个第一图像帧以及所述第二标签的视频数据的多个第二图像帧;
对所述多个第一图像帧进行特征提取得到多个第一特征向量,以及对所述多个第二图像帧进行特征提取得到多个第二特征向量;
所述对所述第一特征向量和所述第二特征向量进行特征分类,得到目标特征向量,包括:
对所述多个第一特征向量和所述多个第二特征向量进行平均处理,得到特征均值向量;
对所述特征均值向量进行特征分类得到所述目标特征向量。
3.根据权利要求2所述的方法,其特征在于,所述获取所述第一标签的视频数据的多个第一图像帧以及所述第二标签的视频数据的多个第二图像帧,包括:
获取所述第一标签的视频数据包括的至少一个视频片段以及获取所述第二标签的视频数据包括的至少一个视频片段;
对所述第一标签的视频数据包括的至少一个视频片段进行抽帧处理,得到所述第一标签的视频数据的多个第一图像帧,以及对所述第二标签的视频数据包括的至少一个视频片段进行抽帧处理,得到所述第二标签的视频数据的多个第二图像帧。
4.根据权利要求2所述的方法,其特征在于,所述对所述多个第一图像帧进行特征提取得到多个第一特征向量,以及对所述多个第二图像帧进行特征提取得到多个第二特征向量,包括:
将所述多个第一图像帧和所述多个第二图像帧输入改进的卷积神经网络模型的卷积模块,得到卷积结果;
将所述卷积结果进行最大池化处理,得到所述多个第一特征向量和所述多个第二特征向量。
5.根据权利要求2所述的方法,其特征在于,所述对所述多个第一特征向量和所述多个第二特征向量进行平均处理,得到特征均值向量,包括:
将所述多个第一特征向量和所述多个第二特征向量输入所述改进的卷积神经网络模型的平均池化模块,得到所述特征均值向量;
所述对所述特征均值向量进行特征分类得到所述目标特征向量,包括:
将所述特征均值向量输入所述改进的卷积神经网络模型的全连接模块,得到所述目标特征向量。
6.根据权利要求1所述的方法,其特征在于,所述将所述目标特征向量输入深度学习神经网络模型进行训练,根据损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型,包括:
将所述目标特征向量输入深度学习神经网络模型进行训练,得到第一损失函数值和第二损失函数值;
根据所述第一损失函数值和第二损失函数值对所述深度学习神经网络模型进行调整,最终得到视频多任务评估模型。
7.根据权利要求6所述的方法,其特征在于,所述将所述目标特征向量输入深度学习神经网络模型进行训练,得到第一损失函数值和第二损失函数值,包括:
将所述目标特征向量输入深度学习神经网络模型进行训练,得到质量等级评估数据和质量原因评估数据;
根据所述质量等级评估数据和所述质量等级标签确定所述第一损失函数值,以及根据所述质量原因评估数据和所述质量原因标签确定所述第二损失函数值。
8.一种视频多任务评估方法,其特征在于,包括:
获取待评估视频数据;
对所述待评估视频数据进行特征提取处理得到待评估特征向量,对所述待评估特征向量进行特征分类,得到待评估目标特征向量;
将所述待评估目标特征向量输入视频多任务评估模型,得到所述待评估视频数据的评估数据,所述评估数据包括质量等级数据和质量原因数据。
9.一种计算机设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述程序,执行如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质中存储有程序指令,该程序指令被执行时,用于实现如权利要求1-8任一项所述的方法。
CN202211437999.7A 2022-11-16 2022-11-16 视频多任务学习、评估方法、计算机设备及存储介质 Pending CN115937625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211437999.7A CN115937625A (zh) 2022-11-16 2022-11-16 视频多任务学习、评估方法、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211437999.7A CN115937625A (zh) 2022-11-16 2022-11-16 视频多任务学习、评估方法、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN115937625A true CN115937625A (zh) 2023-04-07

Family

ID=86699923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211437999.7A Pending CN115937625A (zh) 2022-11-16 2022-11-16 视频多任务学习、评估方法、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN115937625A (zh)

Similar Documents

Publication Publication Date Title
US11640518B2 (en) Method and apparatus for training a neural network using modality signals of different domains
CN112734775B (zh) 图像标注、图像语义分割、模型训练方法及装置
CN111741330B (zh) 一种视频内容评估方法、装置、存储介质及计算机设备
CN108334910B (zh) 一种事件检测模型训练方法以及事件检测方法
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN114283350B (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN115905613A (zh) 音视频多任务学习、评估方法、计算机设备及介质
CN111428448A (zh) 文本生成方法、装置、计算机设备及可读存储介质
CN113256335B (zh) 数据筛选方法、多媒体数据的投放效果预测方法及装置
CN113128478A (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN114170484B (zh) 图片属性预测方法、装置、电子设备和存储介质
CN117726884B (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
CN113870863A (zh) 声纹识别方法及装置、存储介质及电子设备
CN113591892A (zh) 一种训练数据的处理方法及装置
CN108665455B (zh) 图像显著性预测结果的评价方法和装置
KR102413588B1 (ko) 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램
CN115359296A (zh) 图像识别方法、装置、电子设备及存储介质
CN115937625A (zh) 视频多任务学习、评估方法、计算机设备及存储介质
CN114764593A (zh) 一种模型训练方法、模型训练装置及电子设备
CN114328904A (zh) 内容处理方法、装置、计算机设备和存储介质
CN113822293A (zh) 用于图数据的模型处理方法、装置、设备及存储介质
CN111091198A (zh) 一种数据处理方法及装置
CN117575894B (zh) 图像生成方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination