CN117237857B

CN117237857B - 视频理解任务的执行方法、装置和存储介质及电子设备

Info

Publication number: CN117237857B
Application number: CN202311503257.4A
Authority: CN
Inventors: 刘烨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-02-09
Anticipated expiration: 2043-11-13
Also published as: CN117237857A

Abstract

本申请公开了一种视频理解任务的执行方法、装置和存储介质及电子设备。其中，该方法包括：获取N个模态的第一投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第一目标投影矩阵；获取N个模态的第二投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第二目标投影矩阵；将至少一个源域数据输入N个模态的第一目标投影矩阵，得到至少一个第一数据；将至少一个目标域数据输入N个模态的第二目标投影矩阵，得到至少一个第二数据，可应用在人工智能场景。本申请解决了视频理解任务的执行准确性较低的技术问题。

Description

视频理解任务的执行方法、装置和存储介质及电子设备

技术领域

本申请涉及计算机领域，具体而言，涉及一种视频理解任务的执行方法、装置和存储介质及电子设备。

背景技术

近年来，随着海量视频的生产，视频理解任务变得尤为重要。视频理解包含众多基础能力，包括视频分割、视频分类、视频信息提取、视频总结等，因此，视频理解任务的有效性，直接决定了下游任务，包括视频自动打标签、视频搜索、视频推荐，起到至关重要的作用。

而相关的视频理解任务方法，依赖于大量有标签的数据，但和传统的计算机视觉领域以及自然语言理解领域相比，某个特定的视频理解任务，有标签的数据非常稀缺，导致视频理解算法性能有限，影响视频理解任务的执行，进而导致视频理解任务的执行准确性较低的问题出现。因此，存在视频理解任务的执行准确性较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种视频理解任务的执行方法、装置和存储介质及电子设备，以至少解决视频理解任务的执行准确性较低的技术问题。

根据本申请实施例的一个方面，提供了一种视频理解任务的执行方法，包括：获取至少一个源域数据和至少一个目标域数据，其中，上述源域数据为携带有标签、具有N个模态的视频数据，上述目标域数据为来自待执行的视频理解任务的、具有N个模态的视频数据，N为大于1的整数，上述源域数据和上述目标域数据属于不同领域；为上述至少一个源域数据获取上述N个模态的第一投影矩阵，和为上述至少一个目标域数据获取上述N个模态的第二投影矩阵；获取上述N个模态的第一投影矩阵在上述N个模态的第一投影矩阵和上述N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到上述N个模态的第一目标投影矩阵；获取上述N个模态的第二投影矩阵在上述N个模态的第一投影矩阵和上述N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到上述N个模态的第二目标投影矩阵，其中，上述距离的统计量与数据差异度成负相关关系，上述数据差异度用于表示上述源域数据和上述目标域数据之间的数据差异；将上述至少一个源域数据输入上述N个模态的第一目标投影矩阵，得到至少一个第一数据；将上述至少一个目标域数据输入上述N个模态的第二目标投影矩阵，得到至少一个第二数据；利用上述至少一个第一数据和上述至少一个第二数据，执行上述视频理解任务。

根据本申请实施例的另一方面，还提供了一种视频理解任务的执行装置，包括：第一获取单元，用于获取至少一个源域数据和至少一个目标域数据，其中，上述源域数据为携带有标签、具有N个模态的视频数据，上述目标域数据为来自待执行的视频理解任务的、具有N个模态的视频数据，N为大于1的整数，上述源域数据和上述目标域数据属于不同领域；第二获取单元，用于为上述至少一个源域数据获取上述N个模态的第一投影矩阵，和为上述至少一个目标域数据获取上述N个模态的第二投影矩阵；第三获取单元，用于获取上述N个模态的第一投影矩阵在上述N个模态的第一投影矩阵和上述N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到上述N个模态的第一目标投影矩阵；获取上述N个模态的第二投影矩阵在上述N个模态的第一投影矩阵和上述N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到上述N个模态的第二目标投影矩阵，其中，上述距离的统计量与数据差异度成负相关关系，上述数据差异度用于表示上述源域数据和上述目标域数据之间的数据差异；输入单元，用于将上述至少一个源域数据输入上述N个模态的第一目标投影矩阵，得到至少一个第一数据；将上述至少一个目标域数据输入上述N个模态的第二目标投影矩阵，得到至少一个第二数据；执行单元，用于利用上述至少一个第一数据和上述至少一个第二数据，执行上述视频理解任务。

作为一种可选的方案，上述第二获取单元，包括：第一张量模块，用于将上述源域数据表示为上述N个模态的第一多维张量；第一分解模块，用于对上述第一多维张量进行分解，得到上述N个模态的第一投影矩阵；和，第二张量模块，用于将上述目标域数据表示为上述N个模态的第二多维张量；第二分解模块，用于对上述第二多维张量进行分解，得到上述N个模态的第二投影矩阵。

作为一种可选的方案，上述第三获取单元，包括：计算模块，用于利用目标函数计算上述N个模态的第一投影矩阵和上述N个模态的第二投影矩阵之间张量乘积的最大值，并获取上述N个模态的第一投影矩阵在上述张量乘积为最大值时的矩阵参数，得到上述N个模态的第一目标投影矩阵，其中，上述目标函数包含转换得到的多个子函数，通过对每个上述子函数进行的优化，使得上述张量乘积达到最大值。

作为一种可选的方案，上述执行单元，包括：第一训练模块，用于将上述至少一个第一数据和上述至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型，其中，上述第一视频理解模型为用于执行上述视频理解任务的神经网络模型；第一输出模块，用于将上述至少一个第二数据输入上述训练好的第一视频理解模型，得到第一输出结果，并将上述第一输出结果作为上述视频理解任务的第一执行结果。

作为一种可选的方案，上述装置还包括以下至少之一：第一输入模块，用于在上述将上述至少一个第一数据和上述至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型之前或过程中，将上述至少一个第一数据和上述至少一个第二数据输入特征对齐结构，直至上述至少一个第一数据和上述至少一个第二数据在特征空间的差异度小于或等于预设阈值，其中，上述特征对齐结构用于拉近上述至少一个第一数据和上述至少一个第二数据在特征空间的差异；第二输入模块，用于在上述将上述至少一个第一数据和上述至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型之前或过程中，将上述至少一个第一数据和上述至少一个第二数据输入领域判别结构，直至上述领域判别结构判别上述输入数据所属领域的错误率大于或等于第二预设阈值，其中，上述领域判别结构用于判别输入数据所属的领域。

作为一种可选的方案，上述装置还包括：第一获取模块，用于在上述将上述至少一个第一数据和上述至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型的过程中，获取当前第一视频理解模型对应的第一损失函数、上述特征对齐结构对应的第二损失函数，和上述领域判别结构对应的第三损失函数，其中，上述第一损失函数用于衡量执行上述视频理解任务的准确率，上述第二损失函数用于衡量上述至少一个第一数据和上述至少一个第二数据在特征空间的差异，上述第三损失函数用于衡量判别上述输入数据所属领域的错误率；第二训练模块，用于在上述将上述至少一个第一数据和上述至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型的过程中，求和上述第一损失函数、第一加权后的上述第二损失函数，和第二加权后的上述第三损失函数，得到目标损失函数；确定模块，用于在上述将上述至少一个第一数据和上述至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型的过程中，在上述目标损失函数满足收敛条件的情况下，将上述当前第一视频理解模型确定为上述训练好的第一视频理解模型。

作为一种可选的方案，上述执行单元，包括：第三训练模块，用于将上述至少一个第一数据作为训练样本，对初始的第二视频理解模型进行训练，直至得到训练好的第二视频理解模型，其中，上述第二视频理解模型为用于执行上述视频理解任务的神经网络模型；第二输出模块，用于将上述至少一个第二数据输入上述训练好的第二视频理解模型，得到第二输出结果，并将上述第二输出结果作为上述视频理解任务的第二执行结果。

作为一种可选的方案，上述装置还包括：第四获取单元，用于在上述获取至少一个源域数据和至少一个目标域数据之前，获取上述视频理解任务所属的目标领域，其中，上述至少一个目标域数据属于上述目标领域；确定单元，用于在上述获取至少一个源域数据和至少一个目标域数据之前，在上述目标领域下携带有标签的样本数据量小于或等于第三预设阈值的情况下，确定与上述目标领域相似程度大于或等于第四预设阈值的源领域，其中，上述源领域下携带有标签的样本数据量大于上述第三预设阈值，上述至少一个源域数据属于上述源领域；上述第一获取单元，包括：第二获取模块，用于获取上述源领域下的至少一个第一目标数据，和上述目标领域下的至少一个第二目标数据，其中，上述至少一个源域数据包括上述至少一个第一目标数据，上述至少一个目标域数据包括上述至少一个第二目标数据。

根据本申请实施例的又一个方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如以上视频理解任务的执行方法。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的视频理解任务的执行方法。

在本申请实施例中，获取至少一个源域数据和至少一个目标域数据，其中，上述源域数据为携带有标签、具有N个模态的视频数据，上述目标域数据为来自待执行的视频理解任务的、具有N个模态的视频数据，N为大于1的整数，上述源域数据和上述目标域数据属于不同领域；为上述至少一个源域数据获取上述N个模态的第一投影矩阵，和为上述至少一个目标域数据获取上述N个模态的第二投影矩阵；获取上述N个模态的第一投影矩阵在上述N个模态的第一投影矩阵和上述N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到上述N个模态的第一目标投影矩阵；获取上述N个模态的第二投影矩阵在上述N个模态的第一投影矩阵和上述N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到上述N个模态的第二目标投影矩阵，其中，上述距离的统计量与数据差异度成负相关关系，上述数据差异度用于表示上述源域数据和上述目标域数据之间的数据差异；将上述至少一个源域数据输入上述N个模态的第一目标投影矩阵，得到至少一个第一数据；将上述至少一个目标域数据输入上述N个模态的第二目标投影矩阵，得到至少一个第二数据；利用上述至少一个第一数据和上述至少一个第二数据，执行上述视频理解任务。

通过将携带有标签的源域数据，与来自待执行的视频理解任务的目标域数据，进行多模态融合和领域对齐，拉近源域数据和目标域数据之间的差异，使得视频理解任务的执行不再局限于目标域数据，而是可以同时适用源域数据和目标域数据。同时，本实施例考虑到多模态融合和领域对齐本身是学习模态空间和领域空间，而模态空间和领域空间之间又存在紧密关系，进而本实施例通过找到源域数据和目标域数据之间差异最小时所对应的矩阵参数，并利用上述矩阵参数所对应的投影矩阵，同步完成上述源域数据和目标域数据之间的多模态融合和领域对齐，避免因忽视模态空间和领域空间之间关系，而导致难以有效表征出完整领域信息的问题出现，进而达到了有效拉近源域数据和目标域数据之间的差异的目的，从而实现了提高视频理解任务的执行准确性较低的技术效果，进而解决了视频理解任务的执行准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的视频理解任务的执行方法的应用环境的示意图；

图2是根据本申请实施例的一种可选的视频理解任务的执行方法的流程的示意图；

图3是根据本申请实施例的一种可选的视频理解任务的执行方法的示意图；

图4是根据本申请实施例的另一种可选的视频理解任务的执行方法的示意图；

图5是根据本申请实施例的另一种可选的视频理解任务的执行方法的示意图；

图6是根据本申请实施例的另一种可选的视频理解任务的执行方法的示意图；

图7是根据本申请实施例的一种可选的视频理解任务的执行装置的示意图；

图8是根据本申请实施例的一种可选的电子设备的结构示意图。

实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为方便理解，对下述名词进行解释：

人工智能(Artificial Intelligence，简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，简称ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容（AIGC）、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明：

根据本申请实施例的一个方面，提供了一种视频理解任务的执行方法，可选地，作为一种可选的实施方式，上述视频理解任务的执行方法可以但不限于应用于如图1所示的环境中。其中，可以但不限于包括用户设备102以及服务器112，该用户设备102上可以但不限于包括显示器104、处理器106及存储器108，该服务器112包括数据库114以及处理引擎116。

具体过程可如下步骤：

步骤S102，用户设备102获取至少一个源域数据和至少一个目标域数据；

步骤S104，通过网络110将至少一个源域数据和至少一个目标域数据发送至服务器112；

步骤S106-S110，服务器112通过处理引擎116为至少一个源域数据获取N个模态的第一投影矩阵，和为至少一个目标域数据获取N个模态的第二投影矩阵；获取N个模态的第一投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第一目标投影矩阵；获取N个模态的第二投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第二目标投影矩阵，其中，距离的统计量与数据差异度成负相关关系，数据差异度用于表示源域数据和目标域数据之间的数据差异；将至少一个源域数据输入N个模态的第一目标投影矩阵，得到至少一个第一数据；将至少一个目标域数据输入N个模态的第二目标投影矩阵，得到至少一个第二数据；

步骤S112，通过网络110将至少一个第一数据和至少一个第二数据发送至用户设备102，用户设备102通过处理器106利用至少一个第一数据和至少一个第二数据，执行视频理解任务，以及将视频理解任务的执行结果显示在显示器104，并将上述执行结果存储在存储器108。

除图1示出的示例之外，上述步骤可以由用户设备或服务器独立完成，或由用户设备和服务器共同协作完成，如由用户设备102执行上述步骤S108等步骤，从而减轻服务器112的处理压力。该用户设备102包括但不限于手持设备（如手机）、笔记本电脑、平板电脑、台式电脑、车载设备、智能电视等，本申请并不限制用户设备102的具体实现方式。服务器112可以是单个的服务器或者是多个服务器组成的服务器集群，也可以是云服务器。

可选地，作为一种可选的实施方式，如图2所示，视频理解任务的执行方法可以由电子设备执行，如图1所示的用户设备或服务器，具体步骤包括：

S202，获取至少一个源域数据和至少一个目标域数据，其中，源域数据为携带有标签、具有N个模态的视频数据，目标域数据为来自待执行的视频理解任务的、具有N个模态的视频数据，N为大于1的整数，源域数据和目标域数据属于不同领域；

S204，为至少一个源域数据获取N个模态的第一投影矩阵，和为至少一个目标域数据获取N个模态的第二投影矩阵；

S206，获取N个模态的第一投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第一目标投影矩阵；获取N个模态的第二投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第二目标投影矩阵，其中，距离的统计量与数据差异度成负相关关系，数据差异度用于表示源域数据和目标域数据之间的数据差异；

S208，将至少一个源域数据输入N个模态的第一目标投影矩阵，得到至少一个第一数据；将至少一个目标域数据输入N个模态的第二目标投影矩阵，得到至少一个第二数据；

S210，利用至少一个第一数据和至少一个第二数据，执行视频理解任务。

可选地，在本实施例中，上述视频理解任务的执行方法可以但不限于应用在特定领域的视频场景中，如特定领域中带有标签的样本数据量较小，进而无法有效地训练出高质量的模型，也就无法精准地执行该特定领域下的视频理解任务。而本实施例通过拉近非特定领域（源域）和特定领域（目标域）之间的数据差异，将非特定领域下学到的知识迁移到特定领域下使用，使得特定领域下的视频理解任务能够顺利执行，进而提高特定领域下的视频理解任务的执行准确性。

可选地，在本实施例中，视频理解任务可以但不限是指通过计算机视觉和自然语言处理技术，对视频内容进行分析和理解的任务。视频理解任务包括视频分类、目标检测、动作识别、视频摘要、视频问答等多个方面。在视频分类中，计算机可以根据视频内容的特征将其归类为不同的类别，如电影、新闻、体育等；在目标检测中，计算机可以识别视频中的物体和人物，以及它们的位置和运动轨迹；在动作识别中，计算机可以识别视频中的动作，如行走、跑步、跳跃等；在视频摘要中，计算机可以将长时间的视频进行压缩和概括，提取出视频的关键内容；在视频问答中，计算机可以回答与视频内容相关的问题，如“视频中的主人公是谁？”等。

可选地，视频理解任务还可分为多个领域，如视频拆分（例如需要某领导人的采访视频，通过场景切分能力，能够获取对应的场景片段）、视频摘要/视频总结（例如为视频进行总结，能够自动为视频打标题，方便检索和推荐），和视频分类（例如提供标签类别，能够自动对视频进行归档）等领域。

可选地，在本实施例中，源域数据为携带有标签、具有N个模态的视频数据，其中，标签可以用来训练机器学习模型，从而使模型能够对新的未标记视频数据进行视频理解任务。而多模态的视频数据则提供了更加丰富的信息，可以帮助机器学习模型更好地理解视频内容。例如，一个视频可能包含了图像、音频和文字等多个模态，这些模态可以相互印证、互相补充，从而提高模型的分类精度和鲁棒性。

可选地，对于源域数据中的每个模态，可以进行特征提取和预处理，以便于后续的模型训练和分类。特征提取可以采用深度学习模型，例如卷积神经网络（ConvolutionalNeural Network，简称CNN）、循环神经网络（Recurrent Neural Network，简称RNN）等，对每个模态进行特征提取和编码。预处理包括数据清洗、数据增强、数据标准化等，以提高数据的质量和可用性。

可选地，在本实施例中，目标域数据为来自待执行的视频理解任务的、具有N个模态的视频数据，其中，目标域数据还可以但不限理解为视频理解任务所在领域下的、未携带标签的视频数据。而在执行视频理解任务时，可以但不限将目标域数据和源域数据进行对比和匹配，以便于选择和优化机器学习模型。目标域数据的特点和源域数据可能存在差异，如源域数据和目标域数据属于不同领域，因此需要进行可拉近数据差异的处理，以适应具体的任务需求。

可选地，在本实施例中，为至少一个源域数据获取N个模态的第一投影矩阵，和为至少一个目标域数据获取N个模态的第二投影矩阵，可以但不限理解为将原始数据（源域数据/目标域数据）降到更低维度的相同空间中，得到新的特征表示。

进一步举例说明，可选地例如使用主成分分析（Principal Component Analysis，简称PCA）对源域数据进行降维处理，具体步骤如下：对于每个模态，将其数据矩阵进行中心化，即将每个特征减去其均值，得到新的数据矩阵。对于每个模态的数据矩阵，使用PCA方法进行降维，得到对应的投影矩阵，用于将原始数据投影到新的低维空间中。将N个模态的投影矩阵合并，得到源域数据的第一投影矩阵，用于后续的模型训练和分类。本实施例仅用于举例说明，也可使用PCA对目标域数据进行降维处理，在此不做限定。

再举例说明，可选地例如使用迁移学习（Transfer Learning）方法进行处理，从已有的源域数据中学习到的特征表示，对目标域数据进行特征提取和编码，具体步骤如下：使用源域数据的第一投影矩阵，训练一个深度学习模型，例如CNN、RNN等，得到源域数据的特征表示模型。将目标域数据输入到源域数据的特征表示模型中，得到目标域数据的特征表示。对于每个模态，使用PCA等降维方法对目标域数据的特征表示进行降维，得到对应的投影矩阵，用于将目标域数据投影到新的低维空间中。将N个模态的投影矩阵合并，得到目标域数据的第二投影矩阵，用于后续的模型训练和分类。本实施例仅用于举例说明，也可使用其他方式对目标域数据进行降维处理，在此不做限定。

可选地，在本实施例中，投影矩阵之间距离的统计量与数据差异度成负相关关系，数据差异度用于表示源域数据和目标域数据之间的数据差异，其中，投影矩阵之间距离的统计量可以但不限用于衡量两个（投影）矩阵之间相似度的一种量化指标。在视频理解任务中，通常需要将源域数据和目标域数据进行特征对齐，使得它们在特征空间中的分布相似，从而提高模型的泛化能力和分类精度。投影矩阵之间距离的统计量可以用于衡量源域数据和目标域数据在特征空间中的相似度，以表示源域数据和目标域数据之间的数据差异，从而选择合适的投影矩阵进行特征变换和对齐。

其中，投影矩阵之间距离的统计量可以但不限包括以下至少之一：最大均值差异（Maximum Mean Discrepancy，简称MMD）：衡量两个分布之间的距离，通过计算两个矩阵之间的核函数的期望差异来度量距离；基于核的协方差矩阵（Kernel-based CovarianceMatrix，简称KCM）：通过计算两个矩阵之间的核函数的协方差矩阵，来度量两个矩阵之间的距离；海斯特因值（Hilbert-Schmidt Independence Criterion，简称HSIC）：通过计算两个矩阵之间的核函数的希尔伯特-施密特内积，来度量两个矩阵之间的相似度。

可选地，在本实施例中，获取N个模态的第一投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第一目标投影矩阵。

进一步举例说明，可选地例如对于每个模态的矩阵集合，计算它们之间的距离矩阵，例如使用欧几里得距离、余弦距离等。使用最大均值差异（Maximum Mean Discrepancy，简称MMD）等统计量，计算源域数据和目标域数据的N个模态之间的距离，从而得到距离的统计量。使用优化方法，例如梯度下降、牛顿法等，调整源域数据的第一投影矩阵/第二投影矩阵，使得距离的统计量最大，并记录距离的统计量最大时第一投影矩阵/第二投影矩阵的矩阵参数，得到第一目标投影矩阵/第二目标投影矩阵。

可选地，在本实施例中，将至少一个源域数据输入N个模态的第一目标投影矩阵进行特征变换或对齐等操作，得到至少一个第一数据；同理，将至少一个目标域数据输入N个模态的第二目标投影矩阵进行特征变换或对齐等操作，得到至少一个第二数据。

可选地，在本实施例中，利用至少一个第一数据和至少一个第二数据，执行视频理解任务，如利用带有标签的至少一个第一数据训练出成熟的模型，再利用该模型对至少一个第二数据进行处理，得到视频理解任务的执行结果。或，利用至少一个第一数据和至少一个第二数据，协同训练出成熟的模型，再利用该模型对视频理解任务所在领域下的任务数据进行处理，得到视频理解任务的执行结果。

需要说明的是，考虑到多模态融合和领域对齐本身是学习模态空间和领域空间，而模态空间和领域空间之间又存在紧密关系，进而本实施例通过找到源域数据和目标域数据之间差异最小时所对应的矩阵参数，并利用上述矩阵参数所对应的投影矩阵，同步完成上述源域数据和目标域数据之间的多模态融合和领域对齐，避免因忽视模态空间和领域空间之间关系，而导致难以有效表征出完整领域信息的问题出现。

进一步举例说明，可选的例如图3所示，获取至少一个源域数据302和至少一个目标域数据304；为至少一个源域数据302获取N个模态（假设3个模态）的第一投影矩阵306，和为至少一个目标域数据304获取3个模态的第二投影矩阵308；获取3个模态的第一投影矩阵306在3个模态的第一投影矩阵306和3个模态的第二投影矩阵308之间距离的统计量最大时的矩阵参数，得到3个模态的第一目标投影矩阵310；获取3个模态的第二投影矩阵308在3个模态的第一投影矩阵306和3个模态的第二投影矩阵308之间距离的统计量最大时的矩阵参数，得到3个模态的第二目标投影矩阵312；将至少一个源域数据302输入3个模态的第一目标投影矩阵310，得到至少一个第一数据314；将至少一个目标域数据304输入3个模态的第二目标投影矩阵312，得到至少一个第二数据314；利用至少一个第一数据314和至少一个第二数据316，执行视频理解任务。

通过本申请提供的实施例，将携带有标签的源域数据，与来自待执行的视频理解任务的目标域数据，进行多模态融合和领域对齐，拉近源域数据和目标域数据之间的差异，使得视频理解任务的执行不再局限于目标域数据，而是可以同时适用源域数据和目标域数据。同时，本实施例考虑到多模态融合和领域对齐本身是学习模态空间和领域空间，而模态空间和领域空间之间又存在紧密关系，进而本实施例通过找到源域数据和目标域数据之间差异最小时所对应的矩阵参数，并利用上述矩阵参数所对应的投影矩阵，同步完成上述源域数据和目标域数据之间的多模态融合和领域对齐，避免因忽视模态空间和领域空间之间关系，而导致难以有效表征出完整领域信息的问题出现，进而达到了有效拉近源域数据和目标域数据之间的差异的目的，从而实现了提高视频理解任务的执行准确性较低的技术效果。

作为一种可选的方案，为至少一个源域数据获取N个模态的第一投影矩阵，和为至少一个目标域数据获取N个模态的第二投影矩阵，包括：

S1-1，将源域数据表示为N个模态的第一多维张量；

S1-2，对第一多维张量进行分解，得到N个模态的第一投影矩阵；和，

S2-1，将目标域数据表示为N个模态的第二多维张量；

S2-2，对第二多维张量进行分解，得到N个模态的第二投影矩阵。

需要说明的是，考虑到多模态融合和领域对齐本身是学习模态空间和领域空间，而模态空间和领域空间之间又存在紧密关系，进而本实施例基于张量分解的方法同时进行多模态融合和领域对齐，避免因忽视模态空间和领域空间之间关系，而导致难以有效表征出完整领域信息的问题出现，进而有效拉近源域数据和目标域数据之间的差异。

进一步举例说明，可选的以将源域数据表示为N个模态的第一多维张量为例说明，将源域数据按照N个模态的方式进行表示，形成一个第一多维张量。例如，对于一组图像数据，可以将它们按照像素点的位置和颜色通道进行表示，形成一个三维张量；将源域数据按照N个模态的方式进行表示，形成一个第一多维张量。例如，对于一组图像数据，可以将它们按照像素点的位置和颜色通道进行表示，形成一个三维张量；对第一投影矩阵进行优化和调整，以提高分解的准确性和可解释性。

通过本申请提供的实施例，将源域数据表示为N个模态的第一多维张量；对第一多维张量进行分解，得到N个模态的第一投影矩阵；和，将目标域数据表示为N个模态的第二多维张量；对第二多维张量进行分解，得到N个模态的第二投影矩阵，进而达到了避免因忽视模态空间和领域空间之间关系，而导致难以有效表征出完整领域信息的问题出现的目的，从而实现了有效拉近源域数据和目标域数据之间的差异的技术效果。

作为一种可选的方案，获取N个模态的第一投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第一目标投影矩阵，包括：

利用目标函数计算N个模态的第一投影矩阵和N个模态的第二投影矩阵之间张量乘积的最大值，并获取N个模态的第一投影矩阵在张量乘积为最大值时的矩阵参数，得到N个模态的第一目标投影矩阵，其中，目标函数包含转换得到的多个子函数，通过对每个子函数进行的优化，使得张量乘积达到最大值。

需要说明的是，本实施例得到第一目标投影矩阵的方式，也可以但不限同理在得到第二目标投影矩阵的方式，此处仅为举例说明，并不做限定。

可选地，在本实施例中，根据目标函数，将张量乘积表示为矩阵形式，并将其转化为一个优化问题，而目标函数通常不存在闭合的全局解，进而为顺利兼顾多模态融合和领域对齐，还需要将目标函数转换为多个子函数，再通过对每个子函数进行的优化，直至张量乘积达到最大值，以拉近源域数据和目标域数据之间的差异。

进一步举例说明，可选的例如确定N个模态的第二投影矩阵和目标函数。根据目标函数，将张量乘积表示为矩阵形式，并将其转化为一个优化问题。对每个子函数进行优化，例如使用梯度下降等方法。在优化过程中，不断更新N个模态的第一投影矩阵的矩阵参数，直到达到最优解。在达到最优解时，得到N个模态的第一目标投影矩阵。

通过本申请提供的实施例，利用目标函数计算N个模态的第一投影矩阵和N个模态的第二投影矩阵之间张量乘积的最大值，并获取N个模态的第一投影矩阵在张量乘积为最大值时的矩阵参数，得到N个模态的第一目标投影矩阵，其中，目标函数包含转换得到的多个子函数，通过对每个子函数进行的优化，使得张量乘积达到最大值，进而达到了兼顾多模态融合和领域对齐的目的，从而实现了有效拉近源域数据和目标域数据之间的差异的技术效果。

作为一种可选的方案，利用至少一个第一数据和至少一个第二数据，执行视频理解任务，包括：

S3-1，将至少一个第一数据和至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型，其中，第一视频理解模型为用于执行视频理解任务的神经网络模型；

S3-2，将至少一个第二数据输入训练好的第一视频理解模型，得到第一输出结果，并将第一输出结果作为视频理解任务的第一执行结果。

可选地，在本实施例中，协同训练的方式可以但不限适用于有标签的样本数据（第一数据）和无标签的样本数据（第二数据），如将有标签的样本和无标签的样本分别划分为训练集和测试集。再使用有标签的样本训练一个监督学习模型，比如支持向量机(SVM)、决策树、神经网络等。使用有标签的样本训练一个监督学习模型，比如支持向量机(SVM)、决策树、神经网络等。使用伪标签和无标签的样本训练一个半监督学习模型，比如自编码器、图卷积网络(GCN)等。重复执行上述步骤，使用训练好的半监督学习模型对无标签数据进行分类，生成新的伪标签，再次训练模型，直到收敛或达到最大迭代次数。此外，还可使用测试集对训练好的半监督学习模型进行测试，评估模型的性能。

需要说明的是，第一数据和第二数据虽属于不同领域，但已通过投影矩阵的方式拉近数据之间的差异，进而直接使用第一数据和第二数据可协同训练出适用于视频理解任务的神经网络模型，且由于第一数据和第二数据保证了模型训练时所需的样本量，进而训练得到质量较高的模型，而使用质量较高的模型执行视频理解任务，自然可以提高视频理解任务的执行准确性。

进一步举例说明，可选的例如确定至少一个第一数据和至少一个第二数据，并对它们进行预处理和特征提取，例如使用卷积神经网络(CNN)提取图像特征，使用循环神经网络(RNN)提取文本特征等。将第一数据和第二数据输入到初始的第一视频理解模型中，得到模型的输出。根据模型输出和真实标签，计算损失函数并进行反向传播，更新模型参数。将第一数据和第二数据分别输入到初始的第二视频理解模型中，得到模型的输出。根据模型输出和真实标签，计算损失函数并进行反向传播，更新模型参数。重复上述步骤，直至模型收敛或达到最大迭代次数。在训练集上评估训练好的第一视频理解模型的性能，可以使用准确率、召回率等指标进行评估。

通过本申请提供的实施例，将至少一个第一数据和至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型，其中，第一视频理解模型为用于执行视频理解任务的神经网络模型；将至少一个第二数据输入训练好的第一视频理解模型，得到第一输出结果，并将第一输出结果作为视频理解任务的第一执行结果，进而达到了保证模型训练时所需的样本量，训练得到质量较高的模型的目的，从而实现了提高视频理解任务的执行准确性的技术效果。

作为一种可选的方案，在将至少一个第一数据和至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型之前或过程中，方法还包括以下至少之一：

S4-1，将至少一个第一数据和至少一个第二数据输入特征对齐结构，直至至少一个第一数据和至少一个第二数据在特征空间的差异度小于或等于预设阈值，其中，特征对齐结构用于拉近至少一个第一数据和至少一个第二数据在特征空间的差异；

S4-2，将至少一个第一数据和至少一个第二数据输入领域判别结构，直至领域判别结构判别输入数据所属领域的错误率大于或等于第二预设阈值，其中，领域判别结构用于判别输入数据所属的领域。

可选地，在本实施例中，特征对齐结构用于拉近至少一个第一数据和至少一个第二数据在特征空间的差异，通过使用特征对齐结构，可以拉近至少一个第一数据和至少一个第二数据在特征空间的差异，从而更好地利用多模态数据的信息，提高视频理解任务的准确性和鲁棒性。特征对齐可以帮助本实施例发现多模态数据中的潜在关系和规律，从而更好地进行数据分析和处理。

可选地，在本实施例中，领域判别结构用于判别输入数据所属的领域，但使用领域判别结构的目的并不是要判别出输入数据所属的正确领域，而是让领域判别结构判别出输入数据所属的错误领域，以混淆第一数据和第二数据，通过欺骗领域判别器，使其无法判断数据是来自源域还是目标域，进而达到源域和目标域同一个特征空间的目的。

通过本申请提供的实施例，将至少一个第一数据和至少一个第二数据输入特征对齐结构，直至至少一个第一数据和至少一个第二数据在特征空间的差异度小于或等于预设阈值，其中，特征对齐结构用于拉近至少一个第一数据和至少一个第二数据在特征空间的差异；将至少一个第一数据和至少一个第二数据输入领域判别结构，直至领域判别结构判别输入数据所属领域的错误率大于或等于第二预设阈值，其中，领域判别结构用于判别输入数据所属的领域，进而达到了源域和目标域同一个特征空间，更好地进行数据分析和处理的目的，从而实现了提高对不同领域的数据进行管理的稳定性的技术效果。

作为一种可选的方案，在将至少一个第一数据和至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型的过程中，方法还包括：

S5-1，获取当前第一视频理解模型对应的第一损失函数、特征对齐结构对应的第二损失函数，和领域判别结构对应的第三损失函数，其中，第一损失函数用于衡量执行视频理解任务的准确率，第二损失函数用于衡量至少一个第一数据和至少一个第二数据在特征空间的差异，第三损失函数用于衡量判别输入数据所属领域的错误率；

S5-2，求和第一损失函数、第一加权后的第二损失函数，和第二加权后的第三损失函数，得到目标损失函数；

S5-3，在目标损失函数满足收敛条件的情况下，将当前第一视频理解模型确定为训练好的第一视频理解模型。

可选地，在本实施例中，第一损失函数可以但不限用于优化模型在分类问题上的性能。如在视频理解中，第一损失函数为交叉熵损失函数，用于衡量模型预测标签与真实标签之间的差异，而模型预测标签与真实标签表示的就可以但不限理解为执行所述视频理解任务的准确率。其中，交叉熵损失函数通过对每个类别的概率分布进行约束，使得模型能够更好地学习到数据的分布特征，从而提高分类准确率。

可选地，在本实施例中，特征对齐结构的主要目的是将不同来源的特征进行对齐，以便更好地利用它们之间的信息，而第二损失函数可以但不限为对比损失函数或三元组损失函数，用于优化特征之间的相似性和差异性，通过对特征之间的距离进行约束，使得模型能够更好地学习到特征之间的关联和差异，从而提高对齐效果。

可选地，领域判别结构的主要目的是提高模型的泛化能力，使其能够更好地适应不同的数据集和任务，而在本实施例中，使用领域判别结构的目的是为了混淆数据所属的领域，进而第三损失函数可以但不限为对抗性损失函数，用于优化模型在生成数据上的性能，通过对生成数据的分布进行约束，使得模型能够更好地混淆数据的分布特征，进而反向提高判别所属领域的错误率，从而混淆源域和目标域领域属性的判别分支。

可选地，在本实施例中，求和第一损失函数、第一加权后的第二损失函数，和第二加权后的第三损失函数，得到目标损失函数，如通过求和loss1（第一损失函数）、α（第一加权）loss2（第二损失函数），和β（第二加权）loss3（第三损失函数）。

需要说明的是，第一加权和第二加权可平衡各个损失函数之间的权重，以避免训练好的第一视频理解模型因结构太过复杂而导致泛化。

通过本申请提供的实施例，获取当前第一视频理解模型对应的第一损失函数、特征对齐结构对应的第二损失函数，和领域判别结构对应的第三损失函数，其中，第一损失函数用于衡量执行视频理解任务的准确率，第二损失函数用于衡量至少一个第一数据和至少一个第二数据在特征空间的差异，第三损失函数用于衡量判别输入数据所属领域的错误率；求和第一损失函数、第一加权后的第二损失函数，和第二加权后的第三损失函数，得到目标损失函数；在目标损失函数满足收敛条件的情况下，将当前第一视频理解模型确定为训练好的第一视频理解模型，进而达到了平衡各个损失函数之间的权重，以避免训练好的第一视频理解模型因结构太过复杂而导致泛化的目的，从而实现了提高视频理解模型的训练质量的技术效果。

S6-1，将至少一个第一数据作为训练样本，对初始的第二视频理解模型进行训练，直至得到训练好的第二视频理解模型，其中，第二视频理解模型为用于执行视频理解任务的神经网络模型；

S6-2，将至少一个第二数据输入训练好的第二视频理解模型，得到第二输出结果，并将第二输出结果作为视频理解任务的第二执行结果。

需要说明的是，由于第一数据和第二数据之间差异已被拉近，进而带有标签的第一数据所训练得到的第二视频理解模型，自然也适用于来自视频理解任务的第二数据，进而使用训练好的第二视频理解模型，高效完成视频理解任务的执行。

进一步举例说明，可选的例如图4、所示，将至少一个第一数据402作为训练样本，对初始的第二视频理解模型406进行训练，直至得到训练好的第二视频理解模型406；将至少一个第二数据404输入训练好的第二视频理解模型406，以完成对视频理解任务的执行。

通过本申请提供的实施例，将至少一个第一数据作为训练样本，对初始的第二视频理解模型进行训练，直至得到训练好的第二视频理解模型，其中，第二视频理解模型为用于执行视频理解任务的神经网络模型；将至少一个第二数据输入训练好的第二视频理解模型，得到第二输出结果，并将第二输出结果作为视频理解任务的第二执行结果，进而达到了使用训练好的第二视频理解模型，高效完成视频理解任务的执行的目的，从而实现了提高视频理解任务的执行效率的技术效果。

作为一种可选的方案，在获取至少一个源域数据和至少一个目标域数据之前，方法还包括：

S7-1，获取视频理解任务所属的目标领域，其中，至少一个目标域数据属于目标领域；

S7-2，在目标领域下携带有标签的样本数据量小于或等于第三预设阈值的情况下，确定与目标领域相似程度大于或等于第四预设阈值的源领域，其中，源领域下携带有标签的样本数据量大于第三预设阈值，至少一个源域数据属于源领域；

获取至少一个源域数据和至少一个目标域数据，包括：获取源领域下的至少一个第一目标数据，和目标领域下的至少一个第二目标数据，其中，至少一个源域数据包括至少一个第一目标数据，至少一个目标域数据包括至少一个第二目标数据。

可选地，在本实施例中，目标领域中带有标签的样本数据量可能较小，进而无法有效地训练出高质量的模型，也就无法精准地执行该特定领域下的视频理解任务，进而本实施例通过拉与目标领域相似、且样本数据量较多的源域和目标领域下数据之间的差异，将源域下学到的知识迁移到目标领域下使用，使得目标领域下的视频理解任务能够顺利执行，进而提高目标领域下的视频理解任务的执行准确性。

通过本申请提供的实施例，获取视频理解任务所属的目标领域，其中，至少一个目标域数据属于目标领域；在目标领域下携带有标签的样本数据量小于或等于第三预设阈值的情况下，确定与目标领域相似程度大于或等于第四预设阈值的源领域，其中，源领域下携带有标签的样本数据量大于第三预设阈值，至少一个源域数据属于源领域；获取源领域下的至少一个第一目标数据，和目标领域下的至少一个第二目标数据，其中，至少一个源域数据包括至少一个第一目标数据，至少一个目标域数据包括至少一个第二目标数据，进而达到了将源域下学到的知识迁移到目标领域下使用，使得目标领域下的视频理解任务能够顺利执行的目的，从而实现了提高目标领域下的视频理解任务的执行准确性的技术效果。

作为一种可选的方案，为方便理解，将上述视频理解任务的执行方法应用在视频理解算法领域，现有的视频理解方法依赖于大量有标签的数据，然而和传统的计算机视觉领域以及自然语言理解领域相比，某个特定的视频理解任务，有标签的数据非常稀缺，导致视频理解算法性能有限。本实施例为了解决视频理解算法领域数据缺失的问题，提出了一种多模态领域自适应的方法，能够利用大量网上能够随机获取的没有标签的视频数据，从而提升特定视频理解任务的精度。该方法可以推广到任何视频理解任务当中，具有非常强的通用性。

需要说明的是，近年来，随着海量视频的生产，视频理解任务变得尤为重要。视频理解包含众多基础能力，包括视频分割、视频分类、视频信息提取、视频总结等，因此，视频理解任务的有效性，直接决定了下游任务，包括视频自动打标签、视频搜索、视频推荐，起到至关重要的作用。

目前，业界主流的视频理解算法都是基于多模态的有监督方法。然后相比依赖于单个模态的方法，基于多模态的视频理解算法更加依赖于有标注的样本。然而，对于某个特定的视频理解任务来说，有标注的样本非常匮乏。例如，视频分类任务当中，数据集的匮乏，严重制约着视频理解领域的发展。而如何能够有效的利用没有标签的数据，对于视频理解任务至关重要。

针对标签数据少的问题，可以但不限基于无监督的方法和半监督的方法执行领域自适应，其中，领域自适应可以但不限是基于无监督方法的一种经典解决数据标签少的方法，通常依赖于两个数据集：源域和目标域。源域的数据通常来自于有标注的样本，目标域的数据通常来自于待完成的目标任务（视频理解任务），通常只包含没有标签的样本。领域自适应的目标在于，通过联合有标签的源域和没有标签的目标域数据，在源域学习到的知识迁移到目标领域，达到源域和目标域的算权重共享。

而本实施例目标在于将领域自适应方法从单模态领域推广到视频理解的多模态领域，解决视频理解数据匮乏的问题。多模态领域自适应通常会分为两个阶段，多模态对齐和领域自适应，但都存在执行顺序，如先执行多模态对齐，再执行领域自适应，或先执行领域自适应，再执行多模态对齐，而这种执行方式会存在一定缺陷，如模态空间和领域空间没有进行信息交互，且分成两个阶段分开会存在误差累积问题。

可选地，为解决上述问题，本实施例首先寻找源域和目标域数据，其中，目标域数据来自需要完成的特定视频理解任务，源域要求和目标域数据的类别要求保持一致。其次，如图5所示，建立一个共享参数的多模态特征提取模块（编码器502）用于提取源域和目标域的多模态特征。多模态特征通常包括视觉特征、听觉特征和文本特征。再次，建立一阶段的多模态领域自适应模块504，在进行多模态融合的基础上同时进行领域自适应。最后，建立源域和目标域的协同训练分支506，如基本源域的分类分支、拉近源域和目标域特征空间距离的差异，和混淆源域和目标域领域属性的判别分支。

需要说明的是，本实施例能应用到多个视频任务当中，包括视频拆分、视频摘要、视频总结和视频分类等领域，提升算法的效果，进而提升产品的体验。应用到视频拆分，提供独立主题单元的视频片段，为视频生产和视频编目提供素材。例如需要某领导人的采访视频，通过场景切分能力，能够获取对应的场景片段。应用到视频摘要，为视频进行总结，能够自动为视频打标题，方便检索和推荐。应用到视频分类，提供标签类别，能够自动对视频进行归档。

进一步举例说明，对于多模态特征提取模块502，视频通常包含多种模态信息，主流的多模态信息包含文本、语音、图像信息。因此，本实施例首先需要获取视频中每个模态的信息。对于一阶段多模态信息融合与对齐模块，具体如下，获取单个模态的信息后，需要将所有单模态信息融合成多模态信息，通过多模态特征融合模块，获得多模态特征。多模态特征融合的方法包含多种，如使用简单拼接进行融合，或者基于注意力机制的融合方法。领域自适应阶段，可以利用统计的方式拉近源域和目标域特征空间的差异，使得原本差异很大的源域和目标域变得很类似，因此在源域上学到的知识才可以进行迁移；

但上述方法存在缺陷，如多模态融合和领域对齐，本身是学习两个空间，模态空间与领域空间，两个空间本身是存在紧密的关系，两阶段的方法没有考虑二者之间的关系；以及，模型之间没有信息对齐后，直接进行融合，很难有效表征当前的领域信息，因此导致领域之间很难进行对齐；为解决上述缺陷，本实施例提出一种基于张量分解的方法同时进行模型信息的融合对齐与领域的对齐两个任务。具体如下。

假如已经存在源域样本和目标领域样本/>，其中，N代表模态的个数，可以是3种模态，分别是语音，文本和视觉，M代表样本的数量。本实施例利用张量分解的方法进行模态信息的融合和对齐，具体来说，需要为X寻找N个模态的投影矩阵/>和Y寻找N个模态投影矩阵/>，同时使得二者之间的统计量最大，如本实施例选择相关系数作为衡量二者距离的统计量，因此本实施例可以得到目标函数如下：

其中，代表张量乘积。目标函数不存在闭合的全局解，因此本实施例需要将其转换成多个子函数的优化问题，如：

/>

其中，在求解第n个投影矩阵的时候，需要固定其他N-1个投影矩阵，且第n个投影矩阵的优化方法可以通过拉格朗日乘子法进行求解，如下：

因此通过求解N个投影矩阵，对原始的张量样本X和Y进行投影降维之后，拉成一个向量作为最后的多模态特征向量，最终投入到最后的任务当中。在这个过程中，因为本实施例同时兼顾极大化了源域和目标域的相关系数，因此也同时做到了源域和目标域的对齐问题。

而对于领域自适应模块，通过多模态信息融合模块得到融合之后的多模态特征，送入到3个和领域自适应任务相关的分支，包括：

和目标任务相关的分支：和目标任务相关的分支即完成当前任务的分支，如视频分类，视频分割，视频增强等。

拉近源域和目标域特征空间差异的分支：拉近源域和目标域特征空间差异的分支即通过一些统计的方法，使得原本差异很大的源域和目标域变得很类似，因此在源域上学到的知识才可以进行迁移。

混淆源域和目标域领域属性的分支：如图6所示，混淆源域和目标域领域属性的分支即建立一个领域判别器602，通过欺骗领域判别器602，使其无法判断数据是来自源域还是目标域，输出的判别结果错误率较大，进而达到源域和目标域同一个特征空间的目的。

进一步可选地，三个任务得到最终损失函数Loss如下：

其中，α和β是为了平衡三个损失函数之间平衡的权重。

通过本申请提供的实施例，提出一种有效的一阶段多模态视频理解领域自适应的方法，能够使得初始差异很大的源域和目标域，经过3个领域自适应任务的学习，最终特征空间差异很小，进而能够借用一个/多个带有标签的源域去解决目标任务。例如视频分类任务，本实施例的目标任务是对A领域视频进行分类，但是并没有A领域的标注数据，然而本实施例拥有一定量的B领域数据，或者拥有类别类似的公开数据集，将A领域视频作为目标域，将B领域视频或者公开数据集作为源域，利用多模态领域自适应的框架，没有任何标注数据的前提下完成预期任务。

本实施例一个显著的有益效果是本实施例通用性强，能够无缝衔接到多个视频理解任务当中，其中包括视频分类、视频摘要、视频拆条等。因此本实施例不仅仅是一种算法提升思想，而是一种框架结构。

而需要说明的是，提出一种通用的一阶段多模态领域自适应框架，通过该框架，仅需组建源域和目标域，便可以通过本实施例的框架，完成特定的目标任务，而不需要任何的标注数据。应用多种视频理解任务当中，具有很高的通用性、灵活性、易用性。

具体地，首先寻找到源域和目标域的数据集，其次通过共享权重的网络结构获取各个模态的特征，通过一阶段方法进行多模态特征融合和领域对齐两个任务，最后通过3个和领域自适应相关的分支，完成拉近源域和目标域特征空间的目标，最终能够成功的将源域的知识迁移到目标域，从而解决目标任务标注数据匮乏的问题。

本实施例能够应用在多种视频理解任务当中，而不需改变主干网的网络结构，在不增加运行时间的前提下，大幅度提升模型的性能，具有灵活性、通用性和易用性。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了一种用于实施上述视频理解任务的执行方法的视频理解任务的执行装置。如图7所示，该装置包括：

第一获取单元702，用于获取至少一个源域数据和至少一个目标域数据，其中，源域数据为携带有标签、具有N个模态的视频数据，目标域数据为来自待执行的视频理解任务的、具有N个模态的视频数据，N为大于1的整数，源域数据和目标域数据属于不同领域；

第二获取单元704，用于为至少一个源域数据获取N个模态的第一投影矩阵，和为至少一个目标域数据获取N个模态的第二投影矩阵；

第三获取单元706，用于获取N个模态的第一投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第一目标投影矩阵；获取N个模态的第二投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第二目标投影矩阵，其中，距离的统计量与数据差异度成负相关关系，数据差异度用于表示源域数据和目标域数据之间的数据差异；

输入单元708，用于将至少一个源域数据输入N个模态的第一目标投影矩阵，得到至少一个第一数据；将至少一个目标域数据输入N个模态的第二目标投影矩阵，得到至少一个第二数据；

执行单元710，用于利用至少一个第一数据和至少一个第二数据，执行视频理解任务。

具体实施例可以参考上述视频理解任务的执行装置中所示示例，本示例中在此不再赘述。

作为一种可选的方案，第二获取单元704，包括：

第一张量模块，用于将源域数据表示为N个模态的第一多维张量；

第一分解模块，用于对第一多维张量进行分解，得到N个模态的第一投影矩阵；和，

第二张量模块，用于将目标域数据表示为N个模态的第二多维张量；

第二分解模块，用于对第二多维张量进行分解，得到N个模态的第二投影矩阵。

具体实施例可以参考上述视频理解任务的执行方法中所示示例，本示例中在此不再赘述。

作为一种可选的方案，第三获取单元706，包括：

计算模块，用于利用目标函数计算N个模态的第一投影矩阵和N个模态的第二投影矩阵之间张量乘积的最大值，并获取N个模态的第一投影矩阵在张量乘积为最大值时的矩阵参数，得到N个模态的第一目标投影矩阵，其中，目标函数包含转换得到的多个子函数，通过对每个子函数进行的优化，使得张量乘积达到最大值。

作为一种可选的方案，执行单元710，包括：

第一训练模块，用于将至少一个第一数据和至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型，其中，第一视频理解模型为用于执行视频理解任务的神经网络模型；

第一输出模块，用于将至少一个第二数据输入训练好的第一视频理解模型，得到第一输出结果，并将第一输出结果作为视频理解任务的第一执行结果。

作为一种可选的方案，装置还包括以下至少之一：

第一输入模块，用于在将至少一个第一数据和至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型之前或过程中，将至少一个第一数据和至少一个第二数据输入特征对齐结构，直至至少一个第一数据和至少一个第二数据在特征空间的差异度小于或等于预设阈值，其中，特征对齐结构用于拉近至少一个第一数据和至少一个第二数据在特征空间的差异；

第二输入模块，用于在将至少一个第一数据和至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型之前或过程中，将至少一个第一数据和至少一个第二数据输入领域判别结构，直至领域判别结构判别输入数据所属领域的错误率大于或等于第二预设阈值，其中，领域判别结构用于判别输入数据所属的领域。

作为一种可选的方案，装置还包括：

第一获取模块，用于在将至少一个第一数据和至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型的过程中，获取当前第一视频理解模型对应的第一损失函数、特征对齐结构对应的第二损失函数，和领域判别结构对应的第三损失函数，其中，第一损失函数用于衡量执行视频理解任务的准确率，第二损失函数用于衡量至少一个第一数据和至少一个第二数据在特征空间的差异，第三损失函数用于衡量判别输入数据所属领域的错误率；

第二训练模块，用于在将至少一个第一数据和至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型的过程中，求和第一损失函数、第一加权后的第二损失函数，和第二加权后的第三损失函数，得到目标损失函数；

确定模块，用于在将至少一个第一数据和至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型的过程中，在目标损失函数满足收敛条件的情况下，将当前第一视频理解模型确定为训练好的第一视频理解模型。

作为一种可选的方案，执行单元710，包括：

第三训练模块，用于将至少一个第一数据作为训练样本，对初始的第二视频理解模型进行训练，直至得到训练好的第二视频理解模型，其中，第二视频理解模型为用于执行视频理解任务的神经网络模型；

第二输出模块，用于将至少一个第二数据输入训练好的第二视频理解模型，得到第二输出结果，并将第二输出结果作为视频理解任务的第二执行结果。

作为一种可选的方案，装置还包括：

第四获取单元，用于在获取至少一个源域数据和至少一个目标域数据之前，获取视频理解任务所属的目标领域，其中，至少一个目标域数据属于目标领域；

确定单元，用于在获取至少一个源域数据和至少一个目标域数据之前，在目标领域下携带有标签的样本数据量小于或等于第三预设阈值的情况下，确定与目标领域相似程度大于或等于第四预设阈值的源领域，其中，源领域下携带有标签的样本数据量大于第三预设阈值，至少一个源域数据属于源领域；

第一获取单元702，包括：第二获取模块，用于获取源领域下的至少一个第一目标数据，和目标领域下的至少一个第二目标数据，其中，至少一个源域数据包括至少一个第一目标数据，至少一个目标域数据包括至少一个第二目标数据。

根据本申请实施例的又一个方面，还提供了一种用于实施上述视频理解任务的执行方法的电子设备，该电子设备可以但不限于为图1中所示的用户设备102或服务器112，本实施例以电子设备为用户设备102为例说明，进一步如图8所示，该电子设备包括存储器802和处理器804，该存储器802中存储有计算机程序，该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取至少一个源域数据和至少一个目标域数据，其中，源域数据为携带有标签、具有N个模态的视频数据，目标域数据为来自待执行的视频理解任务的、具有N个模态的视频数据，N为大于1的整数，源域数据和目标域数据属于不同领域；

S2，为至少一个源域数据获取N个模态的第一投影矩阵，和为至少一个目标域数据获取N个模态的第二投影矩阵；

S3，获取N个模态的第一投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第一目标投影矩阵；获取N个模态的第二投影矩阵在N个模态的第一投影矩阵和N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到N个模态的第二目标投影矩阵，其中，距离的统计量与数据差异度成负相关关系，数据差异度用于表示源域数据和目标域数据之间的数据差异；

S4，将至少一个源域数据输入N个模态的第一目标投影矩阵，得到至少一个第一数据；将至少一个目标域数据输入N个模态的第二目标投影矩阵，得到至少一个第二数据；

S5，利用至少一个第一数据和至少一个第二数据，执行视频理解任务。

可选地，本领域普通技术人员可以理解，图8所示的结构仅为示意，图8其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图8中所示更多或者更少的组件（如网络接口等），或者具有与图8所示不同的配置。

其中，存储器802可用于存储软件程序以及模块，如本申请实施例中的视频理解任务的执行方法和装置对应的程序指令/模块，处理器804通过运行存储在存储器802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频理解任务的执行方法。存储器802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器802可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器802具体可以但不限于用于存储源域数据、目标域数据、第一数据以及第二数据等信息。作为一种示例，如图8所示，上述存储器802中可以但不限于包括上述视频理解任务的执行装置中的第一获取单元702、第二获取单元704、第三获取单元706、输入单元708及执行单元710。此外，还可以包括但不限于上述视频理解任务的执行装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置806包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置806为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器808，用于显示上述源域数据、目标域数据、第一数据以及第二数据等信息；和连接总线810，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述用户设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点网络，任意形式的计算设备，比如服务器、用户设备等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序/指令，该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请实施例提供的各种功能。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，电子设备的计算机系统仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

计算机系统包括中央处理器（Central Processing Unit，CPU），其可以根据存储在只读存储器（Read-Only Memory，ROM）中的程序或者从存储部分加载到随机访问存储器（Random Access Memory，RAM）中的程序而执行各种适当的动作和处理。在随机访问存储器中，还存储有系统操作所需的各种程序和数据。中央处理器、在只读存储器以及随机访问存储器通过总线彼此相连。输入/输出接口（Input /Output接口，即I/O接口）也连接至总线。

以下部件连接至输入/输出接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至输入/输出接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时，执行本申请的系统中限定的各种功能。

根据本申请的一个方面，提供了一种计算机可读存储介质，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令电子设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的用户设备，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频理解任务的执行方法，其特征在于，包括：

获取至少一个源域数据和至少一个目标域数据，其中，所述源域数据为携带有标签、具有N个模态的视频数据，所述目标域数据为来自待执行的视频理解任务的、具有N个模态的视频数据，N为大于1的整数，所述源域数据和所述目标域数据属于不同领域；

为所述至少一个源域数据获取所述N个模态的第一投影矩阵，和为所述至少一个目标域数据获取所述N个模态的第二投影矩阵；

获取所述N个模态的第一投影矩阵在所述N个模态的第一投影矩阵和所述N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到所述N个模态的第一目标投影矩阵；获取所述N个模态的第二投影矩阵在所述N个模态的第一投影矩阵和所述N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到所述N个模态的第二目标投影矩阵，其中，所述距离的统计量与数据差异度成负相关关系，所述数据差异度用于表示所述源域数据和所述目标域数据之间的数据差异；

将所述至少一个源域数据输入所述N个模态的第一目标投影矩阵，得到至少一个第一数据；将所述至少一个目标域数据输入所述N个模态的第二目标投影矩阵，得到至少一个第二数据；

利用所述至少一个第一数据和所述至少一个第二数据，执行所述视频理解任务。

2.根据权利要求1所述的方法，其特征在于，所述为所述至少一个源域数据获取所述N个模态的第一投影矩阵，和为所述至少一个目标域数据获取所述N个模态的第二投影矩阵，包括：

将所述源域数据表示为所述N个模态的第一多维张量；

对所述第一多维张量进行分解，得到所述N个模态的第一投影矩阵；和，

将所述目标域数据表示为所述N个模态的第二多维张量；

对所述第二多维张量进行分解，得到所述N个模态的第二投影矩阵。

3.根据权利要求2所述的方法，其特征在于，所述获取所述N个模态的第一投影矩阵在所述N个模态的第一投影矩阵和所述N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到所述N个模态的第一目标投影矩阵，包括：

利用目标函数计算所述N个模态的第一投影矩阵和所述N个模态的第二投影矩阵之间张量乘积的最大值，并获取所述N个模态的第一投影矩阵在所述张量乘积为最大值时的矩阵参数，得到所述N个模态的第一目标投影矩阵，其中，所述目标函数包含转换得到的多个子函数，通过对每个所述子函数进行的优化，使得所述张量乘积达到最大值。

4.根据权利要求1所述的方法，其特征在于，所述利用所述至少一个第一数据和所述至少一个第二数据，执行所述视频理解任务，包括：

将所述至少一个第一数据和所述至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型，其中，所述第一视频理解模型为用于执行所述视频理解任务的神经网络模型；

将所述至少一个第二数据输入所述训练好的第一视频理解模型，得到第一输出结果，并将所述第一输出结果作为所述视频理解任务的第一执行结果。

5.根据权利要求4所述的方法，其特征在于，在所述将所述至少一个第一数据和所述至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型之前或过程中，所述方法还包括以下至少之一：

将所述至少一个第一数据和所述至少一个第二数据输入特征对齐结构，直至所述至少一个第一数据和所述至少一个第二数据在特征空间的差异度小于或等于预设阈值，其中，所述特征对齐结构用于拉近所述至少一个第一数据和所述至少一个第二数据在特征空间的差异；

将所述至少一个第一数据和所述至少一个第二数据输入领域判别结构，直至所述领域判别结构判别所述输入数据所属领域的错误率大于或等于第二预设阈值，其中，所述领域判别结构用于判别输入数据所属的领域。

6.根据权利要求5所述的方法，其特征在于，在所述将所述至少一个第一数据和所述至少一个第二数据作为训练样本，对初始的第一视频理解模型进行协同训练，直至得到训练好的第一视频理解模型的过程中，所述方法还包括：

获取当前第一视频理解模型对应的第一损失函数、所述特征对齐结构对应的第二损失函数，和所述领域判别结构对应的第三损失函数，其中，所述第一损失函数用于衡量执行所述视频理解任务的准确率，所述第二损失函数用于衡量所述至少一个第一数据和所述至少一个第二数据在特征空间的差异，所述第三损失函数用于衡量判别所述输入数据所属领域的错误率；

求和所述第一损失函数、第一加权后的所述第二损失函数，和第二加权后的所述第三损失函数，得到目标损失函数；

在所述目标损失函数满足收敛条件的情况下，将所述当前第一视频理解模型确定为所述训练好的第一视频理解模型。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述利用所述至少一个第一数据和所述至少一个第二数据，执行所述视频理解任务，包括：

将所述至少一个第一数据作为训练样本，对初始的第二视频理解模型进行训练，直至得到训练好的第二视频理解模型，其中，所述第二视频理解模型为用于执行所述视频理解任务的神经网络模型；

将所述至少一个第二数据输入所述训练好的第二视频理解模型，得到第二输出结果，并将所述第二输出结果作为所述视频理解任务的第二执行结果。

8.根据权利要求1至6中任一项所述的方法，其特征在于，

在所述获取至少一个源域数据和至少一个目标域数据之前，所述方法还包括：

获取所述视频理解任务所属的目标领域，其中，所述至少一个目标域数据属于所述目标领域；

在所述目标领域下携带有标签的样本数据量小于或等于第三预设阈值的情况下，确定与所述目标领域相似程度大于或等于第四预设阈值的源领域，其中，所述源领域下携带有标签的样本数据量大于所述第三预设阈值，所述至少一个源域数据属于所述源领域；

所述获取至少一个源域数据和至少一个目标域数据，包括：获取所述源领域下的至少一个第一目标数据，和所述目标领域下的至少一个第二目标数据，其中，所述至少一个源域数据包括所述至少一个第一目标数据，所述至少一个目标域数据包括所述至少一个第二目标数据。

9.一种视频理解任务的执行装置，其特征在于，包括：

第一获取单元，用于获取至少一个源域数据和至少一个目标域数据，其中，所述源域数据为携带有标签、具有N个模态的视频数据，所述目标域数据为来自待执行的视频理解任务的、具有N个模态的视频数据，N为大于1的整数，所述源域数据和所述目标域数据属于不同领域；

第二获取单元，用于为所述至少一个源域数据获取所述N个模态的第一投影矩阵，和为所述至少一个目标域数据获取所述N个模态的第二投影矩阵；

第三获取单元，用于获取所述N个模态的第一投影矩阵在所述N个模态的第一投影矩阵和所述N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到所述N个模态的第一目标投影矩阵；获取所述N个模态的第二投影矩阵在所述N个模态的第一投影矩阵和所述N个模态的第二投影矩阵之间距离的统计量最大时的矩阵参数，得到所述N个模态的第二目标投影矩阵，其中，所述距离的统计量与数据差异度成负相关关系，所述数据差异度用于表示所述源域数据和所述目标域数据之间的数据差异；

输入单元，用于将所述至少一个源域数据输入所述N个模态的第一目标投影矩阵，得到至少一个第一数据；将所述至少一个目标域数据输入所述N个模态的第二目标投影矩阵，得到至少一个第二数据；

执行单元，用于利用所述至少一个第一数据和所述至少一个第二数据，执行所述视频理解任务。

10.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序被电子设备运行时执行所述权利要求1至8任一项中所述的方法。

11.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。