CN116939287A - 视频理解方法、装置、电子设备及存储介质 - Google Patents
视频理解方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116939287A CN116939287A CN202210367746.0A CN202210367746A CN116939287A CN 116939287 A CN116939287 A CN 116939287A CN 202210367746 A CN202210367746 A CN 202210367746A CN 116939287 A CN116939287 A CN 116939287A
- Authority
- CN
- China
- Prior art keywords
- video
- domain
- video frame
- target
- media
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 68
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000004590 computer program Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 description 27
- 238000005516 engineering process Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 12
- 230000006978 adaptation Effects 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013508 migration Methods 0.000 description 6
- 230000005012 migration Effects 0.000 description 6
- 238000013526 transfer learning Methods 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 235000014653 Carica parviflora Nutrition 0.000 description 2
- 241000243321 Cnidaria Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 238000005054 agglomeration Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及计算机技术领域,公开了一种视频理解方法、装置、电子设备及存储介质,由于模型训练使用的训练样本集合包含由无标签视频帧构成的目标域视频子集,可以充分利用各视频媒体平台上的无监督视频数据,减少了标注训练样本所需的人力物力。训练过程中,通过对源域视频帧和目标域视频帧的至少一个媒体特征进行组合,获得减小源域视频帧和目标域视频帧之间差异的中间域视频帧特征,使源域学习到的知识能够准确地迁移到目标域,从而提高视频理解的准确性;并且,通过引入中间域视频帧特征,使得源域和目标域在特征空间维度不在区分彼此,得到更多过渡形态的中间域视频帧,丰富了样本空间,从而解决目标任务关联的标签样本不足的问题。
Description
技术领域
本申请涉及计算机技术领域,公开了一种视频理解方法、装置、电子设备及存储介质。
背景技术
近年来,随着海量视频发布在各视频媒体平台,视频理解变得尤为重要。视频理解实现了众多视频处理的基本功能,如视频分割、视频分类、视频信息提取、视频总结等;并且,视频理解的准确性,直接决定了下游任务(如:视频自动打标签、视频搜索、视频推荐等)的准确性。
随着深度学习在计算机视觉(Computer View,CV)和自然语言处理(NaturalLanguage Processing,NLP)领域的快速发展,目前,视频理解的常用算法大多是基于多模态的有监督学习方法,相对于单个模态,基于多模态的视频理解算法更加依赖于带标签的数据。然而,对于某个特定领域的视频,带标签的数据比较匮乏。
为了解决标签数据匮乏的问题,可基于多模态的无监督学习方法进行视频理解,无监督学习方法通常依赖于源域和目标域两个数据集,其中,源域数据集包含有标签的训练样本,目标域数据集包含无标签的训练样本,这样,通过将源域学习到的知识迁移到目标域,实现源域和目标域的权重共享,进而解决标签数据缺失的问题。然而,由于源域数据集和目标域数据集中的训练样本间的差异较大,导致源域学习到的知识并不能准确的适用于目标域,从而降低了视频理解的准确性。
发明内容
本申请实施例提供了一种视频理解方法、装置、电子设备及存储介质,用于提高视频理解的准确性。
一方面,本申请实施例提供了一种视频理解方法,包括:
获取训练样本集合,所述训练样本集合包括:包含有标签视频帧的源域视频子集,以及包含无标签视频帧的目标域视频子集;
基于所述训练样本集合,对待训练的视频理解模型进行至少一次迭代训练,获得目标视频理解模型,其中,每次迭代过程执行以下操作:
基于所述训练样本集合获得多个视频帧对,每个视频帧对包含一个源域视频帧和一个目标域视频帧;
对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合,获得相应的中间域视频帧特征,其中,每个媒体特征表征相应视频帧的一种内容属性;
基于各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,确定视频理解损失值,并基于所述视频理解损失值,进行参数调整。
另一方面,本申请实施例提供了一种视频理解装置,包括:
样本获取模块,用于获取训练样本集合,所述训练样本集合包括:包含有标签视频帧的源域视频子集,以及包含无标签视频帧的目标域视频子集;
训练模块,用于基于所述训练样本集合,对待训练的视频理解模型进行至少一次迭代训练,获得目标视频理解模型,其中,所述训练模块包括:
样本对生成单元,用于基于所述训练样本集合获得多个视频帧对,每个视频帧对包含一个源域视频帧和一个目标域视频帧;
特征组合单元,用于对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合,获得相应的中间域视频帧特征,其中,每个媒体特征表征相应视频帧的一种内容属性;
损失值确定单元,用于基于各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,确定视频理解损失值,并基于所述视频理解损失值,进行参数调整。
可选的,所述特征组合单元具体用于:
分别提取所述源域视频帧和所述目标域视频帧的多个媒体特征;
从所述源域视频帧的多个媒体特征中,选择至少一个媒体特征;
针对选择的每个媒体特征,执行以下操作:按照相应视频帧的内容属性,将所述源域视频帧的媒体特征,和所述目标域视频帧的媒体特征进行组合,得到初始组合特征;
将所述初始组合特征与所述源域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征,以及将所述初始组合特征与所述目标域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征。
可选的,对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合后,获得的中间域视频帧特征的数量最多为2N-2,其中,N为每个视频帧对中源域视频帧和目标域视频帧各自的媒体特征的总数量。
可选的,所述待训练的视频理解模型至少包括处理视频理解任务的目标任务分支网络、拉近源域视频帧和目标域视频帧之间特征差异的领域差异分支网络,以及混淆源域视频帧和目标域视频帧之间内容属性的领域判别分支网络。
可选的,所述损失值确定单元具体用于:
将所述各个视频帧对中源域视频帧的多个媒体特征,输入至所述目标任务分支网络,确定目标任务子损失值;
将所述各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,输入至所述领域差异分支网络,确定领域差异子损失值;
将所述各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,输入至所述领域判别分支网络,确定领域判别子损失值;
基于所述目标任务子损失值、所述领域判别子损失值和所述领域差异子损失值,确定视频理解损失值。
可选的,所述领域判别分支网络的领域类别数量为2+M,其中,M为中间域视频帧特征的数量。
可选的,所述多个媒体特征包括文本特征、图像特征和语音特征中的至少两种。
可选的,所述视频理解装置还包括:
视频获取模块,用于获取目标域关联的待处理视频;
特征提取模块,用于基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,确定所述待处理视频的视频类别;
视频处理模块,用于基于所述视频类别,对所述待处理视频在所述目标域中进行归档。
可选的,所述视频理解装置还包括:
视频获取模块,用于获取目标域关联的待处理视频;
特征提取模块,用于基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,确定所述待处理视频的视频标题;
视频处理模块,用于基于所述视频标题推荐所述目标域中的视频。
可选的,所述视频理解装置还包括:
视频获取模块,用于获取目标域关联的待处理视频;
特征提取模块,用于基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,对所述待处理视频进行分段;
视频处理模块,用于基于分段后的视频段,生成所述目标域的短视频。
另一方面,本申请实施例提供了一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述视频理解方法的步骤。
另一方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令被计算机设备执行时实现上述视频理解方法的步骤。
另一方面,本申请实施例提供一种计算机程序产品,包含计算机程序,所述计算机程序被计算机设备执行时实现上述视频理解方法的步骤。
本申请实施例的有益效果如下:
本申请实施例提供一种视频理解方法、装置、电子设备及存储介质,由于获取的训练样本集合除了包含由有标签视频帧构成的源域视频子集外,还包含由无标签视频帧构成的目标域视频子集,这样,可以充分利用各视频媒体平台上的无监督视频数据,减少了标注训练样本所需的人力物力;在使用获得的训练样本集合对待训练的视频理解模型每次迭代训练时,基于训练样本集合获得多个视频帧对,并提取每个视频帧对包含的一个源域视频帧和一个目标域视频帧各自关联的多个媒体特征,其中,每个媒体特征表征相应视频帧的一种内容属性,这样,当对每个视频帧对中源域视频帧和目标域视频帧的至少一个媒体特征进行组合后,可以获得减小源域视频帧和目标域视频帧之间差异的中间域视频帧特征,通过获得的多个中间域视频帧特征,丰富了训练样本空间,解决了有标注视频数据不足的问题,并且使源域学习到的知识能够准确地迁移到目标域,从而提高视频理解的准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的应用场景示意图;
图2为本申请实施例提供的对抗学习的领域自适应框架图;
图3为本申请实施例提供的视频理解模型的框架图;
图4为本申请实施例提供的视频理解模型的训练方法流程图;
图5为本申请实施例提供的视频帧对的生成示意图;
图6为本申请实施例提供的源域视频帧和目标域视频帧的至少一个媒体特征组合方法流程图;
图7为本申请实施例提供的源域视频帧和目标域视频帧的1个媒体特征组合方法示意图;
图8为本申请实施例提供的源域视频帧和目标域视频帧的多个媒体特征组合方法示意图;
图9为本申请实施例提供的至少一个媒体特征组合效果示意图;
图10为本申请实施例提供的损失值确定方法流程图;
图11为本申请实施例提供的视频理解模型的应用架构图;
图12为本申请实施例提供的应用视频理解模型完成视频分类任务的方法流程图;
图13为本申请实施例提供的应用视频理解模型完成视频摘要任务的方法流程图;
图14为本申请实施例提供的应用视频理解模型完成视频分段任务的方法流程图;
图15为本申请实施例提供的视频理解装置的结构图;
图16为本申请实施例提供的电子设备的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
为了方便理解,下面对本发明实施例中涉及的名词进行解释。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列视频资源统一起来,实现视频数据的计算、储存、处理和共享的一种托管技术。
云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站。伴随着互联网行业的高度发展和应用,将来每个视频都有可能存在自己的标签,都需要传输到后台系统进行逻辑处理,不同标签的视频将会分开处理,各领域皆需要强大的系统后盾支撑,可通过云计算来实现。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。比如,本申请实施例中采用领域迁移学习技术,训练视频理解模型,然后采用训练的目标视频理解模型,对目标域的待处理视频进行视频理解。
领域迁移学习是一种学习方式。训练样本集合包括源域视频子集以及目标域视频子集,其中,源域视频子集包含有标签视频帧,目标域样本子集包含无标签视频帧。采用上述训练样本集合,训练神经网络使其在目标域上得到良好的泛化能力,即准确地预测目标域中待处理视频的标签。
对抗学习也是一种学习方式。在领域迁移中,给定两个领域的视频帧、一个解决具体问题(分类或分割)的主网络和一个领域判别器,将主网络输出的特征输入判别器中,以一种对抗学习的方式使主网络关注领域之间共享的信息,抑制每个领域特有的信息。学习方式为:优化判别器使其能够正确判断其输入属于哪个领域,同时,优化主网络使其产生的输出混淆判别器。当领域判别器无法成功判断其输入(也就是主网络的输出)来自于哪个领域时,则认为主网络的输出中不含有领域独有的信息,即消除了每个领域独有的视频帧内容属性,保留了领域共有的视频帧内容属性。
下面对本申请实施例的设计思想进行介绍。
目前,常用的视频理解算法大多采用基于多模态的有监督学习方法,如双流充气三维网络(Two-Stream Inflated 3D ConvNets,I3D)、时间敏感型网络(Time SensitiveNetwork,TSN)等,基于多模态的有监督学习方法更加依赖于有标注的视频。然而,在处理特定领域的视频理解任务时,有标注的视频非常匮乏,导致视频理解算法性能有限,严重制约了视频理解的发展。
例如,处理视频分类任务时,已有的最大视频数据集是youtube-8M,包含800多万的视频数据,而CV领域的图像分类任务使用的imagenet数据集,包含1500万图像数据,因此,视频分类任务使用的数据集相对匮乏。
随着媒体技术的发展,各视频媒体平台及各类APP上存在着海量没有标注的视频数据,如果能够有效的利用这些没有标签的视频数据,将丰富处理视频理解任务时所用的数据集,这对视频理解领域至关重要。
为了解决标签视频数据匮乏的问题,目前主要的解决方案是采用无监督或半监督的学习方法,包括但不限于迁移学习,小样本学习(Few-shot learning)以及领域自适应(Domain Adaptation)。
领域自适应作为一种解决标签数据少的经典无监督学习方法,通常依赖于两个数据集:源域和目标域。源域包含有标注的数据,一般来自于大型公开数据集,目标域包含无标注的数据,来自于目标任务所在领域。领域自适应的思想在于:拉近源域和目标域之间的距离。领域自适应的目标在于:通过联合源域中有标签的数据和目标域中无标签的数据,将源域学习到的知识迁移到目标域,实现源域和目标域的权重共享,进而解决标签数据不足的问题。常用的领域自适应方法包含基于统计的方法,如最大平均差异(Maximum MeanDiscrepancy,MMD)法、相关对比(Correlation Alignment,CORAL)法,以及对抗学习法,如对抗性领域自适应(Adversarial Discriminative Domain Adaptation,ADDA)。
然而,已有的领域自适应方法在实际应用中存在的一个关键问题:源域和目标域中数据差异往往较大,如果直接简单粗暴的拉近源域和目标域之间的距离,会导致源域学习到的知识并不能适用于目标域,降低了迁移算法的性能。
例如,视频理解的目标任务是对A平台上的短视频进行视频分类,而A平台上有标注的短视频数据很少,需要会借助大型已公开的视频分类数据集,如Kinect等。然而,已公开的视频分类数据集往往都是综合类的视频题材,如体育、生活、娱乐等众多题材,与A平台上的短视频的差异较大,直接使用对抗学习法会降低视频分类的准确性。
鉴于此,本申请实施例提供一种视频理解方法、装置、电子设备及存储介质,采用基于多模态的无监督学习方法,对源域视频子集中的源域视频帧和目标域视频子集中的目标域视频帧进行训练,得到目标视频理解模型。训练过程中,通过利用源域视频子集中的源域视频帧和目标域视频子集中的目标域视频帧,生成介于源域和目标域之间中间域视频帧,从而解决了源域视频帧和目标域视频帧之间的数据不平衡问题;并且,由于中间域视频帧融合了源域视频帧和目标域视频帧的特征,拉近了源域和目标域之间的差异,以便能够更好的训练视频理解模型,提高视频理解的准确性。
同时,训练好的目标视频理解模型可用于处理视频理解中的任何任务,包括但不限于视频分割任务、视频分类任务、视频信息提取任务、视频总结任务等,通用性、灵活性、易用性较强。
参考图1,其为本申请实施例提供的应用场景示意图。该场景至少包括终端设备100以及服务器200。
终端设备100中安装有视频理解应用,其中,视频理解应用可以是客户端应用、网页版应用、小程序应用等。终端设备100可以包括一个或多个处理器101、存储器102、与服务器200交互的I/O接口103以及显示面板104等。终端设备100可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表,智能家电、车载终端、飞行器等,但并不局限于此。
服务器200可以是视频理解应用的后台服务器,为视频理解应用提供相应的服务,服务器200可以包括一个或多个处理器201、存储器202以及与终端设备100交互的I/O接口203等。此外,服务器200还可以配置数据库204。服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
终端设备100以及服务器200可以通过有线或无线通信方式进行直接或间接地连接,并通过网络进行通信及数据传输。
本申请实施例提供的视频理解模型,可以部署在终端设备100上,由终端设备100执行视频理解方法;也可以部署在服务器200上,由服务器执行视频理解方法;还可以由终端设备100和服务器200联合执行视频理解方法。
本申请实施例提供的视频理解模型,可基于对抗学习的领域自适应框架进行构建。参见图2,为本申请实施例提供的基于对抗学习的领域自适应框架图,其中,用于提取源域视频帧的特征提取器与用于提取目标域视频帧的特征提取器共享权重,分类器基于源域视频帧中提取的特征预测源域视频帧的标签,结合源域视频帧的真实标签,确定任务损失值;同时,将源域视频帧中提取的特征和目标域视频帧中提取的特征输入至领域判别器,使领域判别器无法预测当前视频帧来自于源域还是目标域,从而达到源域和目标域同一个特征空间的目的,并输出领域判别的平均损失值。
然而,上述领域判别器在预测当前视频帧所属领域时,会简单粗暴的直接拉近源域视频帧和目标域视频帧在特征空间的距离,当源域和目标域之间的差异较大时,算法性能较差。
本申请实施例对图2所示的框架进行了改进,提出了用于处理视频理解任务的对抗学习自适应模型,简称为视频理解模型。参见图3,为本申请实施例提供的视频理解模型的整体架构图,主要包括特征提取模块、中间域生成模块以及领域自适应模块,通过中间域生成模块,获得包含源域特征和目标域特征的中间域视频帧,从而拉近源域和目标域之间的差异,并解决标签数据不足的问题。
特征提取模块,视频理解模型使用的训练样本集合包括源域视频子集和目标域视频子集,而源域视频子集中的每个源域视频帧为有标签视频帧,目标域视频子集中的每个目标域视频帧为无标签视频帧。通常的,视频帧包含多种内容属性,如文本、图像和语音,因此,通过特征提取模块,可以提取表征视频帧内容属性的多个媒体特征,即文本特征、图像特征和语音特征,每个媒体特征作为一个单模态特征。其中,特征提取模块中,用于提取源域特征的特征提取器与用于提取目标域特征的特征提取器共享权重。
中间域生成模块,通过对源域视频帧中提取的多个媒体特征(即源域特征),和目标域视频帧中提取的多个媒体特征(即目标域特征)中的至少一个媒体特征进行混合,获得中间域视频帧特征。其中,中间域视频帧特征表征了包含源域特征和目标域特征的中间域视频帧。
领域自适应模块,包括目标任务分支网络、领域差异分支网络和领域判别分支网络,其中,目标任务分支网络用于处理视频理解任务,领域差异分支网络用于拉近源域视频帧和目标域视频帧之间特征差异,领域判别分支网络用于混淆源域视频帧和目标域视频帧之间内容属性。
基于图3所示的架构图,本申请实施例提供了一种视频理解模型的训练方法,如图4所示,该方法的流程可以由图1所示的终端设备100或服务器200执行,主要包括以下步骤:
S401:获取训练样本集合。
其中,训练样本集合包括源域视频子集和目标域视频子集,源域视频子集包含的源域视频帧为有标签的视频帧,目标域视频子集包含的目标域视频帧为无标签的视频帧。
可选的,源域视频子集中的源域视频帧可来自于已公开的视频数据集,如Kinect等,也可以来自于网络或各视频媒体平台上分布的标签视频,还可以来自于完成其他任务时使用的标签视频。目标域视频子集中的目标域视频帧来自于目标任务所需的无标签视频。
S402:基于训练样本集合,对待训练的视频理解模型进行至少一次迭代训练,获得目标视频理解模型。
迭代训练过程可理解为领域迁移的学习过程,每一次迭代,执行以下操作:
S4021:基于训练样本集合获得多个视频帧对,每个视频帧对包含一个源域视频帧和一个目标域视频帧。
具体实施时,将源域视频子集中的每个源域视频帧,与目标域视频子集中的每个目标域视频帧进行两两组合,获得多个视频帧对,如图5所示,每个视频帧对包含一个源域视频帧和一个目标域视频帧。其中,本申请实施例对源域视频帧的数量和目标域视频帧的数量不做限制性要求,可根据实际需求进行设定。
S4022:对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合,获得相应的中间域视频帧特征。
由于源域视频帧为有标签视频帧,目标域视频帧为无标签视频帧,通常的,视频帧包含文本、图像、语音等多个内容属性,因此,可将视频帧的每个内容属性对应的媒体特征作为一个单模态特征提取出来,并对源域视频帧和目标域视频帧各自的至少一个媒体特征进行组合,获得能够拉近源域视频帧和目标域视频帧之间差异的中间域视频帧特征,从而在领域判别时进行混淆,达到源域和目标域同一个特征空间的目的,提高领域迁移学习的准确性,进而提高视频理解的准确性。
下面以一个训练样本对为例,源域视频帧和目标域视频帧的至少一个媒体特征的组合过程参见图6,主要包括以下几步:
S4022_1:分别提取源域视频帧和目标域视频帧的多个媒体特征。
随着Transformer网络在各个领域的发展,各个单模态特征都可以采用Transformer网络进行提取。在一种可选的实施方式中,可基于多个媒体特征分别表征相应视频帧的内容属性,并采用与内容属性相匹配的Transformer网络提取相应的媒体特征。
以多个媒体特征包括文本特征、图像特征,以及语音特征中的至少两种为例,具体实施时,采用BERT网络提取表征文本属性的文本特征,采用VisionTransformer网络提取表征图像属性的图像特征,采用AudioTransformer网络提取表征语音属性的语音特征。
S4022_2:从源域视频帧的多个媒体特征中,选择至少一个媒体特征。
在一种可选的实施方式中,根据源域视频帧的媒体特征的数量,从多个媒体特征中选择至少一个媒体特征。由于与源域视频帧组成的视频帧对中的目标域视频帧,存在与该源域视频帧相同的多个媒体特征,因此,可以基于源域视频帧的多个媒体特征中选择的媒体特征,从相应的目标域视频帧的多个媒体特征中,也选择相应的媒体特征进行后续的特征组合。
例如,假设源域视频帧包含N个媒体特征,则从N个媒体特征中选择K个媒体特征,其中,1≤K<N,同时,从目标域视频帧包含N个媒体特征中,也选择K个相同的媒体特征。
S4022_3:针对选择的每个媒体特征,执行以下操作:按照相应视频帧的内容属性,将源域视频帧的媒体特征,和目标域视频帧的媒体特征进行组合,得到初始组合特征。
例如,以选择的媒体特征为表征图像属性的图像特征为例,将源域视频帧的图像特征,与构成一个视频帧对的目标域视频帧的图像特征进行特征组合,得到初始组合特征,在图7中用虚线表示。
S4022_4:将初始组合特征与源域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征,以及将初始组合特征与目标域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征。
例如,仍以图7为例,获得源域视频帧的图像特征和目标域视频帧的图像特征组合后的初始组合特征后,将初始组合特征与源域视频帧的文本特征和语音特征进行二次组合,得到一个中间域视频帧的中间域视频帧特征,以及,将初始组合特征与目标域视频帧的文本特征和语音特征进行二次组合,得到另一个中间域视频帧的中间域视频特征。
在本申请的实施例中,对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合后,获得的中间域视频帧特征的数量最多为2N-2,也就是说,最多可以获得2N-2个中间域视频帧,其中,N为每个视频帧对中源域视频帧和目标域视频帧各自的媒体特征的总数量。
例如,参见图8,以N等于3为例,选择图像特征和语音特征中的至少一个进行组合,可以获得6个中间域视频帧特征,相当于得到6个中间域视频帧。
在本申请的实施例中,由于中间域视频特征是基于源域视频帧的至少一个媒体特征,和相应的目标域视频帧的媒体特征组合得到的,因此,中间域视频帧特征可以表征处于源域和目标域之间的中间域视频帧。
如图9所示,源域视频子集中包含马、汽车和鲜花的多张源域视频帧,目标域视频子集包含公交、飞机和女人的多张目标视频帧,源域和目标域之间的差异较大,传统的领域自适应算法很难学习到源域和目标域之间的共性特征。而通过本申请实施例提供的视频理解模型,通过对源域视频帧和目标域视频帧中的至少一个媒体特征进行组合,可以创造出一些马和飞机、马和公交、汽车和美女、鲜花和飞机等一些中间域视频帧,使模型更容易学习到源域和目标域之间的共性特征,从而将源域学习到的知识准确的迁移至目标域。
值得说明的是,本申请实施例在对源域视频帧的至少一个媒体特征和相应的目标域视频帧的媒体特征进行混合时,可以为源域视频帧和目标域视频帧的媒体特征设置混合系数,以获得不同形态的中间域视频帧,进一步丰富模型训练的样本空间。
仍以图9为例,假设源域视频帧中的媒体特征的混合系数为λ,目标域视频帧中的媒体特征的混合系数为1-λ,令λ分别取0.4、0.5和0.6,可以得到多种形态的中间域视频帧。
本申请的实施例中,通过组合后的中间域视频帧特征,可以获得多个中间域视频帧,中间域视频帧会包含源域视频帧和目标域视频帧的内容属性,能够丰富训练样本集合,从而解决标签视频不足导致的源域和目标域中样本不平衡问题;并且,组合后的中间域视频帧特征够拉近源域视频帧和目标域视频帧之间的差异,达到源域和目标域共用同一特征空间的目的,从而在领域判别时进行混淆,提高领域迁移学习的准确性,进而提高视频理解的准确性。
S4023:基于各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,确定视频理解损失值,并基于视频理解损失值,进行参数调整。
在本申请的实施例中,视频理解模型的领域自适应模块包括处理视频理解任务的目标任务分支网络、拉近源域视频帧和目标域视频帧之间特征差异的领域差异分支网络,以及混淆源域视频帧和目标域视频帧之间内容属性的领域判别分支网络,将各个视频帧对关联的多个媒体特征以及获得的各个中间域视频帧特征,输入到相应的网络分值后,可以得到视频理解损失值,从而对待训练的视频理解模型的参数进行调整,得到收敛的目标视频理解模型。
其中,视频理解损失值的确定过程参见图10,主要包括以下几步:
S4023_1:将各个视频帧对中源域视频帧的多个媒体特征,输入至目标任务分支网络,确定目标任务子损失值。
具体实施时,将每个视频帧对中源域视频帧的多个媒体特征输入至目标任务分支网络后,基于目标任务分支网络,确定每个源域视频帧的预测标签,结合源域视频帧预先标注的真实标签,确定各个源域视频帧的目标任务子损失值。
其中,目标任务可以是视频理解中的任一项,如视频分类、视频分割、视频增强等。
S4023_2:将各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,输入至领域差异分支网络,确定领域差异子损失值。
具体实施时,将每个视频帧对中源域视频帧和目标域视频帧的多个媒体特征,以及获得的各个中间域视频帧特征,均输入至目标任务分支网络后,基于目标任务分支网络,分别确定源域与中间域、目标域与中间域之间的特征差异,并根据源域与中间域、目标域与中间域之间的特征差异,确定领域差异子损失值。通过引入中间域视频帧特征,拉近了源域和目标域之间的特征差异,便于源域中学习到的知识,能够准确的迁移到目标域。
其中,本申请实施例对领域差异分支网络的算法不做限制性要求,例如,可以采用MMD算法,还可以采用CORAL算法。
S4023_3:将各个视频帧对关联的多个单模态特征,以及获得的各个中间域视频帧特征,输入至领域判别分支网络,确定领域判别子损失值。
具体实施时,将每个视频帧对中源域视频帧和目标域视频帧的多个媒体特征,以及获得的各个中间域视频帧特征,均输入至领域判别分支网络,通过输入的各个中间域视频帧特征,将领域判别分支网络的领域类别从原来的2个,扩大为2+M个,其中,M为中间域视频帧特征的数量。进一步地,基于领域判别分支网络,确定当前视频帧所属的预测领域,结合当前视频帧的真实领域,确定领域判别子损失值。由于输入了各个中间域视频帧特征,使领域判别分支网络无法确定当前视频帧来自于源域视频子集还是来自于目标域视频子集,使得源域和目标域在特征空间维度不在区分彼此,从而解决目标任务关联的标签样本不足的问题。
S4023_4:基于目标任务子损失值、领域判别子损失值和领域差异子损失值,确定视频理解损失值。
在一种可选的实施方式中,按照各个预设的子损失值权重,对目标任务子损失值、领域判别子损失值和领域差异子损失值进行加权,得到用于调整待训练的视频理解模型参数的视频理解损失值。
本申请实施例提供的视频理解模型的训练方法中,在训练样本获取方面,由于获取的训练样本集合除了包含由有标签视频帧构成的源域视频子集外,还包含由无标签视频帧构成的目标域视频子集,这样,可以充分利用各视频媒体平台上的无监督视频数据,减少了标注训练样本所需的人力物力。在模型训练方面,通过对源域视频帧和目标域视频帧的至少一个媒体特征进行组合,获得能够减小源域视频帧和目标域视频帧之间差异的中间域视频帧特征,通过获得的多个中间域视频帧特征,使源域学习到的知识能够准确地迁移到目标域,从而提高视频理解的准确性;并且,通过引入中间域视频帧特征,使得源域和目标域在特征空间维度不在区分彼此,得到更多过渡形态的中间域视频帧,丰富了样本空间,从而解决目标任务关联的标签样本不足的问题。
获得训练好的目标视频理解模型后,可将该目标视频理解模型部署到终端或服务器中,由终端或服务器完成视频理解的各类目标任务,包括但不限于视频拆分、视频摘要和视频分类等任务。应用本申请实施例提供的目标视频理解模型后,可以提升视频理解的效果,进而提升产品体验。
目标视频理解模型的应用架构如图11所示,将待处理视频输入至目标视频理解模型,通过提取视频帧的文本特征、图像特征和语音特征,获得待处理视频的视频特征,将视频特征输入至目标任务分支网络后,获得待处理视频的处理结果。
以目标任务为视频分类为例,视频理解方法的实现过程参见图12,主要包括以下几步:
S1201:获取目标域关联的待处理视频。
在一种可选的实施方式中,目标对象使用移动设备进行拍摄,生成待处理视频,并通过视频理解应用,将待处理视频发布到目标域对应的媒体平台。
值得说明的是,本申请实施例对待处理视频的生成方式不做限制性约定,除可以是新拍摄的外,还可以是对原有视频资源进行裁剪后生成的。
S1202:基于目标视频理解模型,提取待处理视频的多个媒体特征,并基于多个媒体特征,确定待处理视频的视频类别。
通过迁移学习,目标视频理解模型将源域学习到的分类知识迁移到目标域,从而根据待处理视频中提取的多个媒体特征,确定待处理视频的视频类别。
S1203:基于视频类别,对待处理视频在目标域中进行归档。
例如,当确定待处理视频的视频类别为新闻类时,将待处理视频归档到目标域的新闻类视频中。
以目标任务为视频摘要为例,视频理解方法的实现过程参见图13,主要包括以下几步:
S1301:获取目标域关联的待处理视频。
待处理视频的获取方式参见S1201。
S1302:基于目标视频理解模型,提取待处理视频的多个媒体特征,并基于多个媒体特征,确定待处理视频的视频标题。
通过迁移学习,目标视频理解模型将源域学习到的提炼摘要的知识迁移到目标域,从而根据待处理视频中提取的多个媒体特征,确定待处理视频的视频标题。
S1303:基于视频标题,推荐目标域中的视频。
例如,当目标视频理解模型提取到的待处理视频的视频标题为“假期自驾游规划路线”时,会从目标域中推荐出去往不同景点的自驾游路线视频。
以目标任务为视频拆分为例,目标任务实现过程参见图14,主要包括以下几步:
S1401:获取目标域关联的待处理视频。
例如,以目标域为影视剧为例,获取的待处理视频可以是电视剧的一集。
S1402:基于目标视频理解模型,提取待处理视频的多个媒体特征,并基于多个媒体特征,对待处理视频进行分段。
通过迁移学习,目标视频理解模型将源域学习到的视频分段的知识迁移到目标域,从而根据待处理视频中提取的多个媒体特征,将待处理视频分割成具有独立主题的子片段,从而为短视频生成和视频编辑提供素材。
S1403:基于分段后的视频段,生成目标域的短视频。
例如,该剧集包括领导走访、产业转型和亲友团聚三个场景,每个场景具有一个独立主题,通过场景切分,获得该剧集的三个子片段,通过对每个子片段进行二次编辑,生成相应场景的短视频。
本申请实施例提供的目标视频理解模型,能够无缝衔接到所有的领域自适应方法中完成视频理解的各类任务,是一个可拔插的组件,无需改变领域自适应方法的主干网络,在不增加运行时间的前提下,能够大幅度提升视频理解的性能,具有较强的通用性、灵活性和易用性。
基于相同的技术构思,本申请实施例提供了一种视频理解装置,可以实现上述实施例中视频理解模型的训练方法和视频理解方法的步骤,并等达到同样的技术效果。参见图15,该视频理解装置包括:
样本获取模块1501,用于获取训练样本集合,所述训练样本集合包括:包含有标签视频帧的源域视频子集,以及包含无标签视频帧的目标域视频子集;
训练模块1502,用于基于所述训练样本集合,对待训练的视频理解模型进行至少一次迭代训练,获得目标视频理解模型,其中,所述训练模块包括:
样本对生成单元15021,用于基于所述训练样本集合获得多个视频帧对,每个视频帧对包含一个源域视频帧和一个目标域视频帧;
特征组合单元15022,用于对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合,获得相应的中间域视频帧特征,其中,每个媒体特征表征相应视频帧的一种内容属性;
损失值确定单元15023,用于基于各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,确定视频理解损失值,并基于所述视频理解损失值,进行参数调整。
可选的,所述特征组合单元15022具体用于:
分别提取所述源域视频帧和所述目标域视频帧的多个媒体特征;
从所述源域视频帧的多个媒体特征中,选择至少一个媒体特征;
针对选择的每个媒体特征,执行以下操作:按照相应视频帧的内容属性,将所述源域视频帧的媒体特征,和所述目标域视频帧的媒体特征进行组合,得到初始组合特征;
将所述初始组合特征与所述源域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征,以及将所述初始组合特征与所述目标域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征。
可选的,对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合后,获得的中间域视频帧特征的数量最多为2N-2,其中,N为每个视频帧对中源域视频帧和目标域视频帧各自的媒体特征的总数量。
可选的,所述待训练的视频理解模型至少包括处理视频理解任务的目标任务分支网络、拉近源域视频帧和目标域视频帧之间特征差异的领域差异分支网络,以及混淆源域视频帧和目标域视频帧之间内容属性的领域判别分支网络。
可选的,所述损失值确定单元15023具体用于:
将所述各个视频帧对中源域视频帧的多个媒体特征,输入至所述目标任务分支网络,确定目标任务子损失值;
将所述各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,输入至所述领域差异分支网络,确定领域差异子损失值;
将所述各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,输入至所述领域判别分支网络,确定领域判别子损失值;
基于所述目标任务子损失值、所述领域判别子损失值和所述领域差异子损失值,确定视频理解损失值。
可选的,所述领域判别分支网络的领域类别数量为2+M,其中,M为中间域视频帧特征的数量。
可选的,所述多个媒体特征包括文本特征、图像特征和语音特征中的至少两种。
可选的,所述视频理解装置还包括:
视频获取模块1503,用于获取目标域关联的待处理视频;
特征提取模块1504,用于基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,确定所述待处理视频的视频类别;
视频处理模块1505,用于基于所述视频类别,对所述待处理视频在所述目标域中进行归档。
可选的,所述视频理解装置还包括:
视频获取模块1503,用于获取目标域关联的待处理视频;
特征提取模块1504,用于基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,确定所述待处理视频的视频标题;
视频处理模块1505,用于基于所述视频标题推荐所述目标域中的视频。
可选的,所述视频理解装置还包括:
视频获取模块1503,用于获取目标域关联的待处理视频;
特征提取模块1504,用于基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,对所述待处理视频进行分段;
视频处理模块1505,用于基于分段后的视频段,生成所述目标域的短视频。
上述视频理解装置作为硬件实体的一个实例,如图16所示的电子设备,该电子设备包括处理器1601和存储器1602;上述处理器1601和存储器1602通过总线1603连接。
存储器1602存储有处理器1601执行的计算机程序,存储器1602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及运行视频理解应用所需的程序等;存储数据区可存储训练样本集合和待处理视频。
存储器1602可以是易失性存储器(Volatile Memory),例如随机存取存储器(Random-access Memory,RAM);存储器1602也可以是非易失性存储器(Non-volatileMemory),例如只读存储器,快闪存储器(Flash Mmemory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Ssolid-state Drive,SSD);或者存储器1602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1602可以是上述存储器的组合。
处理器1601,可以包括一个或多个中央处理单元(Central Processing Unit,CPU)或者为数字处理单元等等。处理器1601响应触发的操作时,调用存储器1602中存储的计算机程序并执行,以实现上述视频理解模型的训练方法和视频理解方法。
可选的,存储器1602中存储有计算机可读存储介质,计算机可读存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的视频理解模型的训练方法和视频理解方法。
在一些可能的实施方式中,本申请提供的视频理解模型的训练方法和视频理解方法的各个方面,还可以实现一种计算机程序产品,其包括计算机程序,当计算机程序在计算机设备上运行时,使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的视频理解模型的训练方法和视频理解方法中的步骤,例如,计算机设备可以执行如图4、图11-图13中所示的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种视频理解方法,其特征在于,包括:
获取训练样本集合,所述训练样本集合包括:包含有标签视频帧的源域视频子集,以及包含无标签视频帧的目标域视频子集;
基于所述训练样本集合,对待训练的视频理解模型进行至少一次迭代训练,获得目标视频理解模型,其中,每次迭代过程执行以下操作:
基于所述训练样本集合获得多个视频帧对,每个视频帧对包含一个源域视频帧和一个目标域视频帧;
对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合,获得相应的中间域视频帧特征,其中,每个媒体特征表征相应视频帧的一种内容属性;
基于各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,确定视频理解损失值,并基于所述视频理解损失值,进行参数调整。
2.如权利要求1所述的方法,其特征在于,所述对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合,获得相应的中间域视频帧特征,包括:
分别提取所述源域视频帧和所述目标域视频帧的多个媒体特征;
从所述源域视频帧的多个媒体特征中,选择至少一个媒体特征;
针对选择的每个媒体特征,执行以下操作:按照相应视频帧的内容属性,将所述源域视频帧的媒体特征,和所述目标域视频帧的媒体特征进行组合,得到初始组合特征;
将所述初始组合特征与所述源域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征,以及将所述初始组合特征与所述目标域视频帧的其余媒体特征进行二次组合,得到相应的中间域视频帧特征。
3.如权利要求2所述的方法,其特征在于,对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合后,获得的中间域视频帧特征的数量最多为2N-2,其中,N为每个视频帧对中源域视频帧和目标域视频帧各自的媒体特征的总数量。
4.如权利要求1所述的方法,其特征在于,所述待训练的视频理解模型至少包括处理视频理解任务的目标任务分支网络、拉近源域视频帧和目标域视频帧之间特征差异的领域差异分支网络,以及混淆源域视频帧和目标域视频帧之间内容属性的领域判别分支网络。
5.如权利要求4所述的方法,其特征在于,所述基于各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,确定视频理解损失值,包括:
将所述各个视频帧对中源域视频帧的多个媒体特征,输入至所述目标任务分支网络,确定目标任务子损失值;
将所述各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,输入至所述领域差异分支网络,确定领域差异子损失值;
将所述各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,输入至所述领域判别分支网络,确定领域判别子损失值;
基于所述目标任务子损失值、所述领域判别子损失值和所述领域差异子损失值,确定视频理解损失值。
6.如权利要求5所述的方法,其特征在于,所述领域判别分支网络的领域类别数量为2+M,其中,M为中间域视频帧特征的数量。
7.如权利要求1-6中任一项所述的方法,其特征在于,所述多个媒体特征包括文本特征、图像特征和语音特征中的至少两种。
8.如权利要求1-6中任一项所述的方法,其特征在于,获得所述目标视频理解模型后,所述方法还包括:
获取目标域关联的待处理视频;
基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,确定所述待处理视频的视频类别;
基于所述视频类别,对所述待处理视频在所述目标域中进行归档。
9.如权利要求1-6中任一项所述的方法,其特征在于,获得所述目标视频理解模型后,所述方法还包括:
获取目标域关联的待处理视频;
基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,确定所述待处理视频的视频标题;
基于所述视频标题推荐所述目标域中的视频。
10.如权利要求1-6中任一项所述的方法,其特征在于,获得所述目标视频理解模型后,所述方法还包括:
获取目标域关联的待处理视频;
基于所述目标视频理解模型,提取所述待处理视频的多个媒体特征,并基于所述多个媒体特征,对所述待处理视频进行分段;
基于分段后的视频段,生成所述目标域的短视频。
11.一种视频理解装置,其特征在于,包括:
获取模块,用于获取训练样本集合,所述训练样本集合包括:包含有标签视频帧的源域视频子集,以及包含无标签视频帧的目标域视频子集;
训练模块,用于基于所述训练样本集合,对待训练的视频理解模型进行至少一次迭代训练,获得目标视频理解模型,其中,所述训练模块包括:
样本对生成单元,用于基于所述训练样本集合获得多个视频帧对,每个视频帧对包含一个源域视频帧和一个目标域视频帧;
特征组合单元,用于对每个视频帧对包含的源域视频帧和目标域视频帧各自关联的至少一个媒体特征进行组合,获得相应的中间域视频帧特征,其中,每个媒体特征表征相应视频帧的一种内容属性;
损失值确定单元,用于基于各个视频帧对关联的多个媒体特征,以及获得的各个中间域视频帧特征,确定视频理解损失值,并基于所述视频理解损失值,进行参数调整。
12.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-10中任一项所述方法。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机可执行指令,所述计算机可执行指令被计算机设备执行时,实现权利要求1-10任一项所述的方法。
14.一种计算机程序产品,包含计算机程序,其特征在于,所述计算机程序被计算机设备执行时实现权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210367746.0A CN116939287A (zh) | 2022-04-08 | 2022-04-08 | 视频理解方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210367746.0A CN116939287A (zh) | 2022-04-08 | 2022-04-08 | 视频理解方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116939287A true CN116939287A (zh) | 2023-10-24 |
Family
ID=88377921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210367746.0A Pending CN116939287A (zh) | 2022-04-08 | 2022-04-08 | 视频理解方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116939287A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237857A (zh) * | 2023-11-13 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 视频理解任务的执行方法、装置和存储介质及电子设备 |
CN118070235A (zh) * | 2024-04-22 | 2024-05-24 | 腾讯科技(深圳)有限公司 | 多任务目标模型的训练方法、装置、设备、介质及产品 |
-
2022
- 2022-04-08 CN CN202210367746.0A patent/CN116939287A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237857A (zh) * | 2023-11-13 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 视频理解任务的执行方法、装置和存储介质及电子设备 |
CN117237857B (zh) * | 2023-11-13 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 视频理解任务的执行方法、装置和存储介质及电子设备 |
CN118070235A (zh) * | 2024-04-22 | 2024-05-24 | 腾讯科技(深圳)有限公司 | 多任务目标模型的训练方法、装置、设备、介质及产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259215B (zh) | 基于多模态的主题分类方法、装置、设备、以及存储介质 | |
WO2022116888A1 (zh) | 一种视频数据处理方法、装置、设备以及介质 | |
CN112163122B (zh) | 确定目标视频的标签的方法、装置、计算设备及存储介质 | |
CN104735468B (zh) | 一种基于语义分析将图像合成新视频的方法及系统 | |
WO2021139191A1 (zh) | 数据标注的方法以及数据标注的装置 | |
WO2015192655A1 (zh) | 社交网络中用户推荐模型的建立及应用方法和装置 | |
CN112131430B (zh) | 视频聚类方法、装置、存储介质和电子设备 | |
WO2023040506A1 (zh) | 一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品 | |
CN116939287A (zh) | 视频理解方法、装置、电子设备及存储介质 | |
CN112883731B (zh) | 内容分类方法和装置 | |
CN111611436A (zh) | 一种标签数据处理方法、装置以及计算机可读存储介质 | |
CN112231563B (zh) | 一种内容推荐方法、装置及存储介质 | |
CN113766299B (zh) | 一种视频数据播放方法、装置、设备以及介质 | |
CN113705299A (zh) | 一种视频识别的方法、装置及存储介质 | |
US20200175332A1 (en) | Out-of-sample generating few-shot classification networks | |
CN112015928A (zh) | 多媒体资源的信息提取方法、装置、电子设备及存储介质 | |
CN113360660B (zh) | 文本类别识别方法、装置、电子设备和存储介质 | |
JP2022518645A (ja) | 映像配信時効の決定方法及び装置 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN115238126A (zh) | 搜索结果重排序方法、装置、设备及计算机存储介质 | |
CN113204691A (zh) | 一种信息展示方法、装置、设备及介质 | |
CN117711001B (zh) | 图像处理方法、装置、设备和介质 | |
CN114676705B (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN114187486A (zh) | 模型训练方法及相关设备 | |
CN116956117A (zh) | 一种标签识别的方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |