CN116935261A

CN116935261A - 数据处理方法及相关装置

Info

Publication number: CN116935261A
Application number: CN202210366649.XA
Authority: CN
Inventors: 刘烨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2023-10-24

Abstract

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种数据处理方法及相关装置，该方法包括：基于包含有标签视频的源域视频子集，以及包含无标签视频的目标域样本子集，对初始模型进行训练，具体的，获取源域视频和各自的多模态特征后，采用预测分支网络，获得源域视频的视频理解预测结果，并基于提取的各多模态特征，获得相应的特征差异信息，以及获得源域视频和目标域样本各自的领域预测结果，进而基于视频理解预测结果、特征差异信息和获得的各领域预测结果，对初始模型的进行参数调整。这样，可以拉近源域和目标域之间的距离，使得基于源域视频训练得到的模型，可以应用于目标域。

Description

数据处理方法及相关装置

技术领域

本申请涉及计算机技术领域，提供一种数据处理方法及相关装置。

背景技术

近年来，随着海量视频发布在各视频媒体平台，视频理解变得尤为重要。视频理解实现了众多视频处理的基本功能，如视频分割、视频分类、视频信息提取、视频总结等；并且，视频理解的准确性，直接决定了下游任务(如：视频自动打标签、视频搜索、视频推荐等)的准确性。

在人工智能技术领域中，随着深度学习在计算机视觉(Computer View，CV)和自然语言处理(Natural Language Processing，NLP)的快速发展，目前，视频理解的常用算法大多是基于多模态的有监督学习方法，相对于单模态，基于多模态的视频理解算法更加依赖于带标签的数据。然而，对于某个特定领域的视频，带标签的数据比较匮乏，带标签的数据的匮乏会导致模型性能差，影响视频理解的准确性。

发明内容

本申请实施例提供一种数据处理方法及相关装置，用以提升视频理解模型性能，提高视频理解的准确性。

第一方面，本申请实施例提供一种数据处理方法，包括：

获取训练样本集合，所述训练样本集合包括：包含有标签视频的源域视频子集，以及包含无标签视频的目标域视频子集；

基于所述训练样本集合，对至少包含特征提取网络和预测分支网络的初始视频理解模型进行迭代训练，获得目标视频理解模型，其中，一次迭代过程中，执行以下操作：

采用所述特征提取网络，分别提取源域视频和目标域视频各自的多模态特征，并采用所述预测分支网络，获得所源域视频的多模态特征对应的视频理解预测结果，其中，每个多模态特征表征多种视频内容属性；

基于提取的各多模态特征，获得相应的特征差异信息，以及获得所述源域视频和所述目标域视频各自的领域预测结果；

基于所述视频理解预测结果、所述特征差异信息和获得的各领域预测结果，对所述初始视频理解模型进行参数调整。

第二方面，本申请实施例提供一种数据处理装置，包括：

样本获取单元，用于获取训练样本集合，所述训练样本集合包括：包含有标签视频的源域视频子集，以及包含无标签视频的目标域视频子集；

模型训练单元，用于基于所述训练样本集合，对至少包含特征提取网络和预测分支网络的初始视频理解模型进行迭代训练，获得目标视频理解模型，其中，一次迭代过程中，执行以下操作：

采用所述特征提取网络，分别提取源域视频和目标域视频各自的多模态特征，并采用所述预测分支网络，获得所述源域视频的多模态特征对应的视频理解预测结果，其中，每个多模态特征表征多种视频内容属性；

可选的，所述初始视频理解模型中还包括领域差异分支网络；则所述基于提取的各多模态特征，获得相应的特征差异信息时，模型训练单元具体用于：

将提取的各多模态特征，输入至所述领域差异分支网络中，获得所述各多模态特征之间的特征差异信息。

可选的，所述初始视频理解模型中还包括领域判别分支网络；则所述基于提取的各多模态特征，获得所述源域视频和所述目标域视频各自的领域预测结果时，模型训练单元具体用于：

将提取的各多模态特征，分别输入至所述领域判别分支网络中，获得所述源域视频和所述目标域视频各自的领域预测结果。

可选的，所述特征提取网络包括特征提取子网络和特征融合子网络；则所述采用所述特征提取网络，提取源域视频的多模态特征时，模型训练单元具体用于：

将所述源域视频，输入至所述特征提取子网络中，获得所述源域视频的多个单模态特征，每个单模态特征用于表征一种视频内容属性；

将所述源域视频的多个单模态特征，输入至所述特征融合子网络中，获得所述源域视频的多模态特征。

可选的，所述将所述源域视频，输入至所述特征提取子网络中，获得所述源域视频的多个单模态特征时，模型训练单元1102用于执行以下操作中的至少两种：

将所源域视频，输入至所述特征提取子网络中的图像特征提取网络，获得所述源域视频的图像特征；

将所述源域视频，输入至所述特征提取子网络中的音频特征提取网络，获得所述源域视频的音频特征；

将所述源域视频，输入至所述特征提取子网络中的文本特征提取网络，获得所述源域视频的文本特征。

可选的，所述基于所述视频理解预测结果、所述特征差异信息和获得的各领域预测结果，对所述初始视频理解模型进行参数调整时，模型训练单元具体用于：

基于所述视频理解预测结果、所述特征差异信息和获得的各领域预测结果，确定目标损失值；

基于所述目标损失值，对所述初始视频理解模型进行参数调整。

可选的，所述基于所述视频理解预测结果、所述特征差异信息和获得的各领域预测结果，确定目标损失值时，模型训练单元具体用于：

基于所述视频理解预测结果，确定视频理解子损失，并基于所述特征差异信息，确定特征差异子损失，以及基于获得的各领域预测结果，确定领域预测子损失；

基于所述视频理解子损失、所述特征差异子损失和所述领域预测子损失，确定目标损失值。

可选的，所述数据处理装置还包括模型应用单元，所述模型应用单元用于：

获取目标域关联的各待处理视频；

基于所述目标视频理解模型中的特征提取网络和预测分支网络，获得所述各待处理视频各自对应的视频理解预测结果。

可选的，所述所述基于所述目标视频理解模型中的特征提取网络和预测分支网络，获得所述各待处理视频各自对应的视频理解预测结果时，模型应用单元用于执行以下操作中的至少一种：

基于所述目标视频理解模型中的特征提取网络和预测分支网络，确定所述待处理视频的视频类别，并基于确定的视频类别，分别对所述各待处理视频在所述目标域中进行归档；

基于所述目标视频理解模型中的特征提取网络和预测分支网络，分别确定所述各待处理视频的视频标题，并基于确定的视频标题推荐所述目标域中的视频；

基于所述目标视频理解模型中的特征提取网络和预测分支网络，分别对所述各待处理视频进行分段，并基于分段后得到的视频段，生成所述目标域的短视频。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述数据处理方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述数据处理方法的步骤。

第五方面，本申请实施例提供一种计算机程序产品，包含计算机程序，所述计算机程序被计算机设备执行时实现上述数据处理方法。

本申请实施例中，基于包含有标签视频的源域视频子集，以及包含无标签视频的目标域视频子集，采用无监督学习方法，对初始视频理解模型进行训练，得到目标视频理解模型。具体的，在模型训练过程中，采用特征提取网络，分别提取源域视频和各自的多模态特征，然后，采用预测分支网络，获得源域视频的视频理解预测结果，并基于提取的各多模态特征，获得相应的特征差异信息，以及获得源域视频和目标域视频各自的领域预测结果，进而基于视频理解预测结果、特征差异信息和获得的各领域预测结果，对初始视频理解模型的进行参数调整。

这样，通过源域视频与目标域视频之间的特征差异，以及各领域预测结果，可以拉近源域和目标域之间的距离，使得基于源域视频训练得到的预测分支网络，可以应用于目标域。同时，基于有标签的源域视频，对预测分支网络的训练，可以提升视频理解的精度和准确性。

此外，训练得到的目标视频理解模型可用于处理视频理解中的任何任务，包括但不限于视频分割任务、视频分类任务、视频信息提取任务、视频总结任务等，通用性、灵活性、易用性较强。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的应用场景示意图；

图2为本申请实施例提供的一种初始视频理解模型的结构示意图；

图3为本申请实施例提供的数据处理方法的流程示意图；

图4为本申请实施例提供的特征提取网络的结构示意图；

图5为本申请实施例提供的获取特征差异信息的逻辑示意图；

图6为本申请实施例提供的获取领域预测结果的逻辑示意图；

图7为本申请实施例提供的目标视频理解模型的结构示意图；

图8为本申请实施例提供的应用目标视频理解模型完成视频分类任务的方法流程图；

图9为本申请实施例提供的应用目标视频理解模型完成视频摘要任务的方法流程图；

图10为本申请实施例提供的应用目标视频理解模型完成视频分段任务的方法流程图；

图11为本申请实施例提供的数据处理装置的结构示意图；

图12为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

为了方便理解，下面对本申请实施例中涉及的名词进行解释。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列视频资源统一起来，实现视频数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站。伴随着互联网行业的高度发展和应用，将来每个视频都有可能存在自己的标签，都需要传输到后台系统进行逻辑处理，不同标签的视频将会分开处理，各领域皆需要强大的系统后盾支撑，可通过云计算来实现。

所谓人工智能云服务，一般也被称作是AI即服务(AI as a Service，AIaaS)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的迁移学习技术。在本申请实施例中，源域视频子集包含有标签视频，目标域视频子集包含无标签视频，采用上述训练样本集合，对模型进行训练，使其在目标域上得到良好的泛化能力，即准确地预测目标域中待处理视频的标签。详细的数据处理过程参见下文，在此不再赘述。

目前，常用的视频理解算法大多采用基于多模态的有监督学习方法，如双流充气三维网络(Two-Stream Inflated 3D ConvNets，I3D)、时间敏感型网络(Time SensitiveNetwork，TSN)等，基于多模态的有监督学习方法更加依赖于有标注的视频。然而，在处理特定领域的视频理解任务时，有标注的视频非常匮乏，导致视频理解算法性能有限，严重制约了视频理解的发展。

例如，处理视频分类任务时，已有的最大视频数据集是youtube-8M，包含800多万的视频数据，而CV领域的图像分类任务使用的imagenet数据集，包含1500万图像数据，因此，视频分类任务使用的数据集相对匮乏。

随着媒体技术的发展，各视频媒体平台及各类应用程序(APP)中存在着海量没有标注的视频数据，如果能够有效的利用这些没有标签的视频数据，将丰富处理视频理解任务时所用的数据集，这对视频理解领域至关重要。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请实施例及实施例中的特征可以相互组合。

参考图1所示，其为本申请实施例提供的一种可能的应用场景示意图，该应用场景中至少包括终端设备110以及服务器120。终端设备110的数量可以是一个或多个，服务器120的数量也可以是一个或多个，本申请对终端设备110和服务器120的数量不做具体限定。

终端设备110中安装有视频理解应用，其中，视频理解应用可以是客户端应用、网页版应用、小程序应用等。终端设备110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表，智能家电、车载终端、飞行器等，但并不局限于此。

服务器120可以是视频理解应用的后台服务器，为视频理解应用提供相应的服务。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端设备110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接，并通过网络进行通信及数据传输，本申请对此不做限制。

本申请实施例中的数据处理过程可以分为两个阶段：模型训练阶段和模型应用阶段，其中，模型训练阶段用于基于训练样本集合，对至少包含特征提取网络和预测分支网络的初始视频理解模型进行迭代训练，获得目标视频理解模型，模型应用阶段用于基于目标视频理解模型，获得待处理视频对应的视频理解预测结果。

需要说明的是，本申请实施例中的数据处理方法可以由服务器或者终端设备单独执行，也可以由服务器和终端设备共同执行。

例如，终端设备获取训练样本集合后，基于训练样本集合，对至少包含特征提取网络和预测分支网络的初始视频理解模型进行迭代训练，获得目标视频理解模型，并基于目标视频理解模型，获得待处理视频对应的视频理解预测结果。又例如，服务器获取训练样本集合后，基于训练样本集合，对至少包含特征提取网络和预测分支网络的初始视频理解模型进行迭代训练，获得目标视频理解模型，并基于目标视频理解模型，获得待处理视频对应的视频理解预测结果。

参阅图2所示，其为本申请实施例中提供的一种初始视频理解模型的结构示意图，该初始视频理解模型是一种用于处理视频理解任务的对抗学习自适应模型，也可以称为视频理解模型。初始视频理解模型中包括特征提取网络和领域自适应模块。

其中，特征提取网络用于针对源域视频或目标域视频进行特征提取，获得源域视频和目标域视频各自的多模态特征，多模态特征可以包括文本特征、图像特征和语音特征等中的任意两项。其中，用于提取源域特征的特征提取网络与用于提取目标域特征的特征提取网络共享权重。

领域自适应模块中包括预测分支网络、领域差异分支网络和领域判别分支网络，其中，预测分支网络也可以称为目标任务分支网络，目标任务分支网络用于处理视频理解任务，领域差异分支网络用于拉近源域视频和目标域视频之间特征差异，领域判别分支网络用于混淆源域视频和目标域视频之间内容属性。

下面，结合图2所示的初始视频理解模型，对本申请实施例中提出的数据处理方法进行说明。

参阅图3所示，其为本申请实施例中提供的一种数据处理方法的流程示意图，该方法应用于电子设备，该电子设备可以是终端设备或服务器，该方法的具体流程如下：

S301、获取训练样本集合，训练样本集合包括：包含有标签视频的源域视频子集，以及包含无标签视频的目标域视频子集。

本申请实施例中，领域(Domain)由数据和生成这些数据的概率分布组成，一般用D来表示域，P表示一个概率分布。特别地，有两个基本领域：源域(Source Domain)和目标域(Target Domain)。其中，源域是要迁移的对象，源域的数据通常来自于有标签的样本，目标域是最终期望得到的对象，目标域的数据通常来自于视频理解任务，视频理解任务中可能包含无标签的样本。

源域视频子集中的源域视频来自源域，目标域视频子集中的目标域视频来自目标域。一般地，源域的数据量充足，可以训练源域的模型，而目标域视频数据中有标签的目标域视频的数据量较少，难以直接进行模型训练，得到目标域的模型，本申请实施例中，通过联合有标签的源域视频和无标签的目标域视频，将源域学习到的知识迁移到目标域，得到所需的模型。

需要说明的是，本申请实施例中，对源域视频的数量和目标域视频的数量不做限制性要求，可根据实际需求进行设定。源域视频子集与目标域视频子集的类别相同，以视频理解任务为视频分类为例，视频类别包括跑步、跳远、跳高，那么，源域视频子集中的各源域视频的视频类别包括跑步、跳远、跳高，目标域视频子集中的各目标域视频的视频类别包括跑步、跳远、跳高，即两者的分类类别是一致的。

本申请实施例中，一个视频可以对应一个或多个视频类别，当一个视频对应一个视频类别时，视频理解任务可以视为单分类任务，当一个视频对应多个视频类别时，视频理解任务可以视为多分类任务。

源域视频可以是一个视频，也可以是一个视频中的视频片段，对此不作限制。

S302、基于训练样本集合，对至少包含特征提取网络和预测分支网络的初始视频理解模型进行迭代训练，获得目标视频理解模型。

以一次迭代过程为例，对S302进行说明。具体的，一次迭代过程中，执行以下操作：

S3021、采用特征提取网络，分别提取源域视频x和目标域视频y各自的多模态特征，并采用预测分支网络，获得源域视频x的多模态特征对应的视频理解预测结果，其中，每个多模态特征表征多种视频内容属性。

具体实施时，可以将源域视频子集中的源域视频，与目标域视频子集中的目标域视频进行两两组合，获得多组训练样本对，进而针对各组训练数据对，进行模型训练。

需要说明的是，本申请实施例中，一次迭代过程中，可以对一对源域视频和目标域视频进行处理，也可以对多对源域视频和目标域视频进行处理，对此不作限制。本文中，仅以一对源域视频和目标域视频：源域视频x和目标域视频y为例进行说明。

其中，源域视频x可以是源域视频子集中的一个源域视频，目标域视频y可以是目标域视频子集中的一个目标域视频。

每个多模态信息用于表征多种视频内容属性，视频内容属性包括图像、音频、文本，但不局限于此。多模态特征可以是指具有固定维度的稠密向量，视频间的相关度可以通过多模态特征之间的距离来度量。例如，每个多模态特征用于表征图像、音频和文本，又例如，每个多模态特征用于表征图像和音频。

需要说明的是，本申请实施例中，可以采用单模态分析方法，即基于单模态特征进行数据处理，也可以采用多模态分析方法，即基于多模态特征进行数据处理，对此不做限制。但是，考虑到视频是一种包含图像、音频、文本的综合性媒体信息，单一的特征很难得到较好的视频理解预测结果，因此，实际应用过程中，本申请实施例中，仅以多模态分析方法为例进行说明。

参阅图2所示，初始视频理解模型中可以包含特征提取网络、预测分支网络，预测分支网络用于执行视频理解任务，预测分支网络也可以称为目标任务分支网络。初始视频理解模型中还可以包含领域差异分支网络、领域判别分支网络，领域差异分支网络用于拉近源域视频和目标域视频之间特征差异，领域判别分支网络用于混淆源域视频和目标域视频之间的内容属性，领域差异分支网络和领域判别分支网络的详细介绍参见下文。

在一些实施例中，参阅图4所示，特征提取网络中包括：特征提取子网络和特征融合子网络。由于源域视频x的多模态特征的提取过程，与目标域视频y的多模态特征的提取过程相同，本文中，仅以源域视频x的多模态特征的提取过程为例进行说明。

具体的，采用特征提取网络，提取源域视频x的多模态特征，包括：

将源域视频x，输入至特征提取子网络中，获得源域视频x的多个单模态特征，每个单模态特征用于表征一种视频内容属性；将源域视频x的多个单模态特征，输入至特征融合子网络中，获得源域视频x的多模态特征。

本申请实施例中，图像特征包括但不限于颜色、纹理、形状等，音频特征包括但不限于过零率、短时能量、短时自相关系数。

以源域视频为例，参阅图4所示，特征提取网络中包括特征提取子网络和特征融合子网络，将源域视频输入至特征提取子网络中，获得源域视频的图像特征、音频特征和文本特征，源域视频的图像表征目标对象正在打羽毛球，文本表征“发球踩线”，然后，将源域视频的图像特征、音频特征和文本特征，输入至特征融合子网络中，获得源域视频的多模态特征。

通过上述实现方式，提取的特征中包含有各模态的视频内容属性，因此，可以从图像、音频、文本等各维度，有效、准确地描述每个视频的内容，这样，可以获得较为准确的特征差异信息、领域判别结果以及视频理解预测结果，提高领域迁移学习的准确性，进而提高视频理解的准确性。

作为一种可能的实现方式，可以将源域视频x，输入至特征提取子网络，直接获取源域视频x的多个单模态特征。

作为另一种可能的实现方式，为了提高单模态特征的提取精度，在一些实施例中，将源域视频x，输入至特征提取子网络中，获得源域视频x的多个单模态特征，包括以下操作中的至少两种：

操作1、获取源域视频x输入至特征提取子网络中的图像特征提取网络，获得源域视频x的图像特征。

需要说明的是，本申请实施例中，一个视频中包含多个视频帧，每个视频帧对应一个图像。

随着变换器(Transformer)网络在各个领域的发展，为了提高单模态特征的提取精度，可以采用与内容属性对应的Transformer网络提取相应的单模态特征，本申请实施例中，图像特征提取网络可以采用图像变换器(Vision Transformer)，但不局限于此。

例如，参阅图4所示，获取源域视频后，将源域视频输入至特征提取子网络中的图像特征提取网络，获得源域视频的图像特征，源域视频的图像特征表征源域视频对应的图像中目标对象在打羽毛球。

操作2、获取源域视频x输入至特征提取子网络中的音频特征提取网络，获得源域视频x的音频特征。

音频特征提取网络可以采用但不限于音频变换器(AudioTransformer)，但不局限于此。

例如，参阅图4所示，获取源域视频输入至特征提取子网络中的文本特征提取网络，获得源域视频的文本特征，源域视频的文本特征表征源域视频1对应的文本为“发球踩线”。

操作3、将源域视频x输入至特征提取子网络中的文本特征提取网络，获得源域视频x的文本特征。

文本特征提取网络可以采用但不限于双向变换器的编码器表示(BidirectionalEncoder Representation from Transformers，BERT)。

例如，参阅图4所示，获取源域视频输入至特征提取子网络中的文本特征提取网络，获得源域视频的音频特征，源域视频的音频特征表征源域视频对应的音频为某背景音乐。

通过上述实现方式，基于各内容属性对应的特征提取网络进行单模态特征提取，可以提高单模态特征的表示精度。此外，由于Transformer网络能够显著提高模型性能，因此，基于Transformer网络获取单模态特征提取，可以显著提升模型训练效率，同时提高模型准确率。

获取单模态特征后，通过特征融合子网络，获得多模态特征时，可以采用的但不限于以下方式得到：

第一种方式：直接将各单模态特征进行融合。例如，将音频特征、图像特征、文本特征进行融合，得到相应的多模态特征。

第二种方式：分别对各单模态特征进行加权，将加权求和后得到的联合特征，作为多模态特征，例如，分别对图像特征、音频特征、文本特征进行加权，并将加权求和后得到的联合特征，作为多模态特征。其中，各单模态特征的权重系数可以预先设定，也可以通过模型训练得到。

为了提升模型准确性，本申请实施例中，各单模态特征的权重系数可以通过模型训练得到，具体的，可以对各单模态特征分别赋予一个初始权重，在模型训练阶段，可以将每个单模态特征的初始权重与对应的单模态特征进行加权融合，得到多模态特征，然后通过训练学习，可以得到每个单模态特征的目标权重，这样，在模型应用阶段，可以将每个单模态特征的目标权重与对应的单模态特征进行加权融合，得到多模态特征。

其中，模型训练时可以基于注意力机制进行特征融合，基于注意力机制进行特征融合方法包括基于自注意力(self-attention)的Transformer方法、基于软注意力(soft-attention)的特征融合方法，但不局限于此。

由于不同模态特征其重要性是不同的，因此，将不同模态特征的加权融合后的联合特征，作为多模态特征，可以提高视频理解的准确性，同时，也可以提高领域差异、领域判别的准确性，从而进一步缩小目标域与源域之间的特征空间差异，提高视频理解的准确率。

S3022、基于提取的各多模态特征，获得相应的特征差异信息，以及获得源域视频x和目标域视频y各自的领域预测结果。

在一些实施例中，参阅图2所示，初始视频理解模型中还包括用于拉近源域视频和目标域视频之间特征差异的领域差异分支网络，具体的，基于提取的各多模态特征，获得相应的特征差异信息，包括：

将提取的各多模态特征，输入至领域差异分支网络中，获得各多模态特征之间的特征差异信息。

作为第一种可能的实现方式，特征差异信息可以采用最大平均差异(MaximumMean Discrepancy，MMD)。具体的，通过MMD算法，确定各多模态特征之间的最大平均差异，将最大平均差异作为特征差异信息，最大平均差异用于表征两个不同但相关的分布之间的距离。

其中，最大平均差异可以采用但不限于以下公式(1)计算得到：

其中，MMD表示最大平均差异，表示最大平均差异由/>将数据映射到再生核希尔伯特空间(reproducing kernel Hilbert space)中进行度量，/>用于表征将多模态特征，从源域视频、目标域视频所在的原空间映射到再生核希尔伯特空间的特征映射，源域视频的多模态特征的分布为S分布，目标域视频的多模态特征的分布为T分布，E表示期望，其值可以为各元素的平均值。

通过最大均值差异匹配源域和目标域的分布，使源域视频与目标域视频的特征空间距离不断靠近，从而提高目标域的视频理解模型的性能。

作为第二种可能的实现方式，为方便计算，从而提高模型训练的效率，特征差异信息可以采用定义为再生核希尔伯特空间的内积的形式表示，即最大平均差异的平方表示，最大平均差异的平方计算方式不再赘述。

作为第三种可能的实现方式，特征差异信息也可以采用相关对齐(CORrelationALignment，CORAL)。具体的，通过CORAL算法，确定各多模态特征之间的协方差距离，将协方差距离作为特征差异信息。

具体的，协方差距离可以采用但不限于以下公式(2)计算得到：

其中，CORAL表示协方差距离，d表示多模态特征的特征维度，‖·‖_F表示Frobenius函数，C_S表示源域视频的多模态特征的协方差，C_T表示目标域视频的多模态特征的协方差。

通过协方差距离衡量源域特征与目标域特征之间的差异性，使源域视频与目标域视频的特征空间距离不断靠近，从而提高目标域的视频理解模型的性能。

需要说明的是，本申请实施例中，仅以MMD、CORAL为例进行说明，但不局限于此。

例如，参阅图5所示，源域视频的视频类型为篮球，目标域视频的视频类型为足球，将源域视频的多模态特征，以及目标域视频的多模态特征，分别输入至领域差异分支网络中，获得源域视频和目标域视频各自的多模态特征之间的特征差异信息，该特征差异信息用于衡量源域视频的多模态特征与目标域视频的多模态特征之间的差异。

通过上述实现方式，由于领域判别分支网络可以拉近源域视频和目标域视频之间特征差异，因此，使得源域特征和目标域特征变得非常类似，减小目标域与源域之间的特征空间差异，进而在采用训练后的模型针对目标域视频进行视频理解时，可以提高视频理解的准确率。

在一些实施例中，初始视频理解模型中还包括用于混淆源域视频和目标域视频之间的内容属性的领域判别分支网络；则基于提取的各多模态特征，获得源域视频和目标域视频各自的领域预测结果，包括：

将提取的各多模态特征，分别输入至领域判别分支网络中，获得源域视频x和目标域视频y各自的领域预测结果。

本申请实施例中，针对领域判别分支，可以采用对抗学习的方式使特征提取网络关注领域之间共享的信息，抑制每个领域特有的信息。对抗学习的学习方式为：优化领域判别分支网络，使其能够正确判断其输入属于哪个领域，同时，优化特征提取网络使其产生的输出混淆领域判别分支网络。当领域判别分支网络无法成功判断其输入(即多模态特征)来自于哪个领域时，则认为特征提取网络的输出中不含有领域独有的信息，即消除了每个领域独有的视频内容属性，保留了领域共有的视频内容属性。

例如，参阅图6所示，源域视频的视频类型为篮球，目标域视频的视频类型为足球，将源域视频的多模态特征输入至领域判别分支网络中，获得源域视频的领域预测结果，源域视频的领域预测结果表征源域视频属于目标域，以及将目标域视频的多模态特征输入至领域判别分支网络中，获得目标域视频的领域预测结果，目标域视频的领域预测结果表征目标域视频属于目标域，进而基于领域预测结果1和领域预测结果2，可以得到领域判别子损失，随着不断训练，领域判别子损失不断变大，领域判别分支网络将无法判断其输入属于目标域还是源域。

通过上述实现方式，由于领域判别分支网络可以混淆源域视频和目标域视频之间的内容属性，因此，使得模型无法判断数据是来自源域还是目标域，进而在采用训练后的模型针对目标域视频进行视频理解时，可以使特征提取网络关注领域之间共享的信息，抑制每个领域特有的信息，从而针对目标域视频进行视频理解时，可以提高视频理解的准确率。

S3023、基于视频理解预测结果、特征差异信息和获得的各领域预测结果，对初始视频理解模型进行参数调整。

具体的，基于视频理解预测结果、特征差异信息和获得的各领域预测结果，对初始视频理解模型的进行参数调整，包括：

基于视频理解预测结果、特征差异信息和获得的各领域预测结果，确定目标损失值；基于目标损失值，对初始视频理解模型进行参数调整。

通过上述实现方式，基于视频理解预测结果、特征差异信息和获得的各领域预测结果，可以得到目标损失值，从而对待训练的视频理解模型的参数进行调整，得到收敛的目标视频理解模型。

在一些实施例中，目标损失值可以采用但不限于以下方式确定：

基于视频理解预测结果，确定视频理解子损失，并基于特征差异信息，确定特征差异子损失，以及基于获得的各领域预测结果，确定领域预测子损失；

基于视频理解子损失、特征差异子损失和领域预测子损失，确定目标损失值。

其中，视频理解子损失可以是基于源域视频x的视频理解预测结果，以及基于源域视频x的预先标注的真实标签确定。特征差异子损失可以直接采用特征差异信息。领域预测子损失可以是基于获得的各领域预测结果，以及基于源域视频与目标域视频各自对应的真实领域确定的。

作为一种可能的实现方式，可以按照各个预设的子损失值权重，对目标任务子损失值、领域判别子损失值和领域差异子损失值进行加权，得到目标损失值。

采用Loss表示目标损失值，Loss_分类表示目标任务子损失值，Loss_领域差异表示领域判别子损失值，Loss_判别器表示领域差异子损失值，则目标损失值可以采用以下公式表示：

Loss＝a1*Loss_分类+a2*Loss_领域差异+a3*Loss_判别器

其中，a1、a2、a3分别为目标任务子损失值、领域判别子损失值和领域差异子损失值各自对应的子损失值权重。

例如，假设，a1、a2、a3分别为0.4、0.3、0.3，目标任务子损失值、领域判别子损失值和领域差异子损失值分别为1、2、2，则目标损失值为1.6。

作为另一种可能的实现方式，可以直接将目标任务子损失值、领域判别子损失值和领域差异子损失值之和作为目标损失值。

需要说明的是，该实现方式也可以理解为a1、a2、a3的取值为1时的情况。

例如，假设，目标任务子损失值、领域判别子损失值和领域差异子损失值分别为1、2、2，则目标损失值为5。

通过上述实现方式，通过目标损失值对模型参数进行调整时，可以减小源域视频和目标域视频之间差异，使源域学习到的知识能够准确地迁移到目标域，从而提高视频理解的准确性。

获得训练好的目标视频理解模型后，可以基于目标视频理解模型，获取用于处理目标域关联的各待处理视频的目标视频理解模型，目标视频理解模型可以部署到终端或服务器中，用于实现视频拆分、视频摘要和视频分类等任务。

具体的，获得目标视频理解模型之后，还包括：获取目标域关联的各待处理视频，并基于目标视频理解模型中的特征提取网络和预测分支网络，获得各待处理视频各自对应的视频理解预测结果。

例如，参阅图7所示，目标视频理解模型中包含特征提取网络和预测分支网络，将待处理视频输入至目标视频理解模型，通过提取视频的文本特征、图像特征和音频特征，获得待处理视频的多模态特征，然后，将多模态特征输入至预测分支网络，获得待处理视频的视频理解预测结果，视频理解预测结果表征待处理视频的视频分类为篮球。

通过上述实现方式，应用本申请实施例提供的目标视频理解模型后，可以提升视频理解的效果，进而提升产品体验。

以视频理解任务为视频分类为例，参阅图8所示，视频理解方法的实现过程主要包括以下几步：

S801：获取目标域关联的各待处理视频。

目标对象使用移动设备进行拍摄，生成待处理视频，并通过视频应用，将待处理视频发布到目标域对应的媒体平台。

需要说明的是，本申请实施例中，对待处理视频的获取数目、生成方式均不做限制性约定，待处理视频可以是新拍摄的，还可以是对原有视频资源进行裁剪后生成的。

S802：基于目标视频理解模型中的特征提取网络和预测分支网络，分别确定各待处理视频的视频类别。

通过迁移学习，目标视频理解模型将源域学习到的分类知识迁移到目标域，从而可以根据待处理视频中提取的多模态特征，确定待处理视频的视频类别。

S803：基于确定的视频类别，分别对各待处理视频在目标域中进行归档。

例如，当确定待处理视频的视频类别为新闻类时，将待处理视频归档到目标域的新闻类视频中。

以目标任务为视频摘要为例，参阅图9所示，视频理解方法的实现过程主要包括以下几步：

S901：获取目标域关联的各待处理视频。具体参见S801。

S902：基于目标视频理解模型中的特征提取网络和预测分支网络，分别确定各待处理视频的视频标题。

通过迁移学习，目标视频理解模型将源域学习到的提炼摘要的知识迁移到目标域，从而可以根据各待处理视频中提取的多模态特征，确定各待处理视频的视频标题。

S903：基于确定的视频标题，推荐目标域中的视频。

例如，当目标视频理解模型提取到的待处理视频的视频标题为“假期自驾游规划路线”时，从目标域中推荐出去往不同景点的自驾游路线视频。

以目标任务为视频拆分为例，参阅图10所示，视频理解方法的实现过程主要包括以下几步：

S1001：获取目标域关联的各待处理视频。

例如，以目标域为影视剧为例，获取的待处理视频可以是电视剧的一集。

S1002：基于目标视频理解模型中的特征提取网络和预测分支网络，分别对各待处理视频进行分段。

通过迁移学习，目标视频理解模型将源域学习到的视频分段的知识迁移到目标域，从而根据待处理视频中提取的多模态特征，将待处理视频分割成具有独立主题的子片段，从而为短视频生成和视频编辑提供素材。

S1003：基于分段后得到的视频段，生成目标域的短视频。

例如，该剧集包括领导走访、产业转型和亲友团聚三个场景，每个场景具有一个独立主题，通过场景切分，获得该剧集的三个子片段，通过对每个子片段进行二次编辑，生成相应场景的短视频。

本申请实施例提供的目标视频理解模型，能够无缝衔接到所有的领域自适应方法中完成视频理解的各类任务，是一个可拔插的组件，无需改变领域自适应方法的主干网络，在不增加运行时间的前提下，能够大幅度提升视频理解的性能，具有较强的通用性、灵活性和易用性。

本申请实施例中，提出了一种通用的有效多模态领域自适应框架，通过该框架，仅需组建源域和目标域，便可以完成特定的目标任务，而不需要任何的标注数据，同时可以应用于多种视频理解任务，具有较强的通用性、灵活性、易用性。

具体的，获取源域视频和目标域视频后，通过共享权重的网络结构获取各个模态的特征，然后，对各个模态的特征进行多模态特征融合，获得多模态特征，最后，执行视频理解任务的同时，完成拉近源域和目标域特征空间的目标，从而将源域的知识迁移到目标域，解决目标任务标注数据匮乏的问题。

本申请实施例提供的目标视频理解模型，能够无缝衔接到所有的领域自适应方法中，完成各类视频理解任务，由于目标视频理解模型是一个可拔插的组件，完成各类视频理解任务时，无需改变目标视频理解模型的主干网络，从而在不增加运行时间的前提下，能够大幅度提升视频理解的性能，具有较强的通用性、灵活性和易用性。

基于相同的发明构思，本申请实施例提供一种数据处理装置。如图11所示，其为数据处理装置1100的结构示意图，可以包括：

样本获取单元1101，用于获取训练样本集合，所述训练样本集合包括：包含有标签视频的源域视频子集，以及包含无标签视频的目标域视频子集；

模型训练单元1102，用于基于所述训练样本集合，对至少包含特征提取网络和预测分支网络的初始视频理解模型进行迭代训练，获得目标视频理解模型，其中，一次迭代过程中，执行以下操作：

基于所述视频理解预测结果、所述特征差异信息和获得的各领域预测结果，对所述初始视频理解模型的进行参数调整。

可选的，所述初始视频理解模型中还包括领域差异分支网络；则所述基于提取的各多模态特征，获得相应的特征差异信息时，模型训练单元1102具体用于：

可选的，所述初始视频理解模型中还包括领域判别分支网络；则所述基于提取的各多模态特征，获得所述源域视频和所述目标域视频各自的领域预测结果时，模型训练单元1102具体用于：

可选的，所述特征提取网络包括特征提取子网络和特征融合子网络；则所述采用所述特征提取网络，提取源域视频的多模态特征时，模型训练单元1102具体用于：

将所述源域视频，输入至所述特征提取子网络中的图像特征提取网络，获得所述源域视频的图像特征；

可选的，所述基于所述视频理解预测结果、所述特征差异信息和获得的各领域预测结果，对所述初始视频理解模型进行参数调整时，模型训练单元1102具体用于：

可选的，所述基于所述视频理解预测结果、所述特征差异信息和获得的各领域预测结果，确定目标损失值时，模型训练单元1102具体用于：

可选的，所述数据处理装置还包括模型应用单元1103，所述模型应用单元1103用于：

获取目标域关联的各待处理视频；基于所述目标视频理解模型中的特征提取网络和预测分支网络，获得所述各待处理视频各自对应的视频理解预测结果。

可选的，所述采用所述目标视频理解模型，获得所述各待处理视频各自对应的视频理解预测结果时，模型应用单元1103用于执行以下操作中的至少一种：

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

关于上述实施例中的装置，其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在介绍了本申请示例性实施方式的数据处理方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

图12是根据一示例性实施例示出的一种电子设备1200的框图，该装置包括：处理器1210；用于存储处理器1210可执行指令的存储器1220；处理器1210和处理器1210通过总线连接。

其中，处理器1210被配置为执行指令，以实现本申请实施例中的数据处理方法，例如图2、图8、图9或图10中所示的步骤。

存储器1220可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1220也可以是非易失性存储器(non-volatilememory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器1220是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1220也可以是上述存储器的组合。

处理器1210可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器1210，用于执行存储器1220中存储的计算机程序时实现上述数据处理方法。在一些实施例中，处理器1210和存储器1220可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

本申请实施例中不限定上述处理器1210和存储器1220之间的具体连接介质。本申请实施例中以处理器1210和存储器1220之间通过总线连接为例，总线在图12中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线可以分为地址总线、数据总线、控制总线等。为便于描述，图12中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

基于同一发明构思，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序，当计算机程序在计算机设备上运行时，使得该计算机设备执行本申请各种示例性实施方式中提供的数据处理方法。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用CD-ROM并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来，而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述初始视频理解模型中还包括领域差异分支网络；

则所述基于提取的各多模态特征，获得相应的特征差异信息，包括：

3.如权利要求1所述的方法，其特征在于，所述初始视频理解模型中还包括领域判别分支网络；

则所述基于提取的各多模态特征，获得所述源域视频和所述目标域视频各自的领域预测结果，包括：

4.如权利要求1所述的方法，其特征在于，所述特征提取网络包括特征提取子网络和特征融合子网络；

则所述采用所述特征提取网络，提取源域视频的多模态特征，包括：

5.如权利要求4所述的方法，其特征在于，所述将所述源域视频，输入至所述特征提取子网络中，获得所述源域视频的多个单模态特征，包括以下操作中的至少两种：

6.如权利要求1-5中任一项所述的方法，其特征在于，所述基于所述视频理解预测结果、所述特征差异信息和获得的各领域预测结果，对所述初始视频理解模型的进行参数调整，包括：

基于所述目标损失值，对所述初始视频理解模型的进行参数调整。

7.如权利要求6所述的方法，其特征在于，所述基于所述视频理解预测结果、所述特征差异信息和获得的各领域预测结果，确定目标损失值，包括：

8.如权利要求1-5中任一项所述的方法，其特征在于，获得目标视频理解模型之后，还包括：

获取目标域关联的各待处理视频；

9.如权利要求8所述的方法，其特征在于，所述基于所述目标视频理解模型中的特征提取网络和预测分支网络，获得所述各待处理视频各自对应的视频理解预测结果，包括以下操作中的至少一种：

10.一种数据处理装置，其特征在于，包括：

11.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～9中任一所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行权利要求1～9中任一所述方法的步骤。

13.一种计算机程序产品，包含计算机程序，其特征在于，所述计算机程序被计算机设备执行时实现权利要求1-9中任一项所述的方法。