CN116977885A

CN116977885A - 视频文本任务处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN116977885A
Application number: CN202211408281.5A
Authority: CN
Inventors: 刘玉琪; 徐鲁辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-10-31

Abstract

本申请提供了一种视频文本任务处理方法、装置、电子设备及可读存储介质，涉及人工智能领域。该方法包括：获取待处理视频文本任务中视频对应的视频帧序列，并获取每一视频帧对应的图像块序列；将视频对应的各图像块输入训练好的预设视频文本模型，通过训练好的预设视频文本模型中的视频编码器，获取混合键集合和混合值集合，并利用自注意力机制，基于混合键集合和混合值集合获取各图像块对应的视频特征；通过训练好的预设视频文本模型，基于各图像块对应的视频特征，输出待处理视频文本任务对应的处理结果。该方案仅对自主力机制中的键集合和值集合进行了修改，没有增加额外的自注意力机制，大大降低了资源计算代价。

Description

视频文本任务处理方法、装置、电子设备及可读存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及一种视频文本任务处理方法、装置、电子设备及可读存储介质。

背景技术

大多数情况下，能够用于训练模型的算力和数据都很有限，要完成一个大型神经网络的训练非常困难，因此希望能够尽量重复利用已经训练好的神经网络以节约训练和数据资源。如果在执行预测任务时，能够找到一个曾经执行过相似任务、并被训练得很好的大型架构，那就可以使用这个大型架构中位置较浅的那些层来帮助构筑自己的网络。借用已经训练好的预训练(pre-train)模型来构筑新架构的技术就叫做“迁移学习”(transferlearning)。迁移学习是训练大型模型时、用于降低数据需求以及加快训练速度的关键技术之一。

目前，为了人工智能的方式处理视频文本任务(例如，视频描述文本生成、视频搜索等任务)，可以对图片文本预训练模型迁移学习进而得到能够处理视频文本任务的视频文本模型。

但是，现有技术中，在将图片文本预训练模型迁移至视频文本任务处理领域时，会带来较大的参数量，造成视频文本任务处理过程中资源计算代价高。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，本申请实施例所提供的技术方案如下：

第一方面，本申请实施例提供了一种视频文本任务处理方法，包括：

获取待处理视频文本任务中视频对应的视频帧序列，并获取每一视频帧对应的图像块序列；

将视频对应的各图像块输入训练好的预设视频文本模型，通过训练好的预设视频文本模型中的视频编码器，获取混合键集合和混合值集合，并利用自注意力机制，基于混合键集合和混合值集合获取各图像块对应的视频特征，预设视频文本模型是经图像文本预训练模型迁移学习得到，混合键集合包含有视频对应的各视频帧中的图像块对应的键，混合值集合包含有视频对应的各视频帧中的图像块对应的值；

通过训练好的预设视频文本模型，基于各图像块对应的视频特征，输出待处理视频文本任务对应的处理结果。

在本申请的一种可选实施例中，该方法还包括：

在将视频对应的各图像块输入训练好的预设视频文本模型之后，对各图像块进行第一线性映射，得到各图像块对应的嵌入向量；

获取混合键集合和混合值集合，包括：

对各图像块对应的嵌入向量进行第二线性映射，得到各图像块对应的键，对各图像块对应的嵌入向量进行第三线性映射，得到各图像块对应的值；

从每一视频帧对应的各图像块的键中选取至少一个键作为混合键集合中的元素，从每一视频帧对应的各图像块的值中选取至少一个值作为混合值集合中的元素，得到混合键集合和混合值集合。

在本申请的一种可选实施例中，从每一视频帧对应的各图像块的键中选取至少一个键作为混合键集合中的元素，从每一视频帧对应的各图像块的值中选取至少一个值作为混合值集合中的元素，得到混合键集合和混合值集合，包括：

按照各视频帧的时序，依次从每一视频帧对应的图像块中选取一个图像块对应的键作为混合键集合中的元素，重复按时序依次选取键的步骤直至得到混合键集合；

按照各视频帧的时序，依次从每一视频帧对应的图像块中选取一个图像块对应的值作为混合值集合中的元素，重复按时序依次选取值的步骤直至得到混合值集合。

在本申请的一种可选实施例中，混合键集合对应的键矩阵和混合值集合对应的值矩阵，与每一视频帧对应的图像块矩阵的尺寸相同；

依次从每一视频帧对应的图像块中选取一个图像块对应的键作为混合键集合中的元素，包括：

对于键矩阵中的任一元素位置，将相应的视频帧所对应的图像矩阵中的任一元素位置的图像块的键，作为键矩阵中任一元素位置的元素；

依次从每一视频帧对应的图像块中选取一个图像块对应的值作为混合值集合中的元素，包括：

对于值矩阵中的任一元素位置，将相应的视频帧所对应的图像矩阵中的任一元素位置的图像块的值，作为值矩阵中任一元素位置的元素。

在本申请的一种可选实施例中，利用自注意力机制，基于混合键集合和混合值集合获取各图像块对应的视频特征，包括：

对于每一图像块，对图像块对应的嵌入向量进行第四线性映射，得到图像块对应的查询；

利用自注意力机制，基于查询、混合键集合和混合值集合，获取图像块对应的视频特征。

在本申请的一种可选实施例中，待处理视频文本任务为视频描述生成任务；

基于各图像块对应的视频特征，输出待处理视频文本任务对应的处理结果，包括：

通过训练好的预设视频文本模型中的文本解码器，基于各图像块对应的视频特征，输出视频的描述文本。

在本申请的一种可选实施例中，训练好的预设视频文本模型通过以下方式训练得到：

获取至少一个第一视频文本对，每一第一视频文本对包含一个视频样本和视频样本的描述文本样本；

利用各第一视频文本对依次对预设视频文本模型进行训练，直至得到的第一损失值满足第一预设值，得到训练好的预设视频文本模型；

其中，每次训练时，将第一视频文本对中的视频样本输入视频文本模型，并基于视频文本样本输出的预测描述文本和第一视频文本对中的描述文本样本获取对应的第一损失值，再基于第一损失值调整预设视频文本模型的第一预设参数进行调整；

其中，第一预设参数包括：预设视频文本模型中第一线性映射的参数、视频编码器的最后一个自注意力机制层的参数以及文本解码器中的文本映射任务头的参数。

在本申请的一种可选实施例中，待处理视频文本任务为视频搜索任务；

将搜索文本输入训练好的预设视频文本模型，通过训练好的预设视频文本模型中的文本编码器，获取搜索文本中各标识符对应的文本特征；

通过训练好的预设视频文本模型中的特征匹配任务头，基于各视频特征和各文本特征，输出搜索文本与视频的匹配结果。

在本申请的一种可选实施例中，基于各视频特征和各文本特征，输出搜索文本与视频的匹配结果，包括：

基于各视频特征获取整体视频特征，基于各文本特征获取整体文本特征，并基于整体视频特征和整体文本特征获取匹配值；

若匹配值不小于预设阈值，则输出的匹配结果指示视频为搜索文本的搜索结果；

若匹配值小于预设阈值，则输出的匹配结果指示视频不为搜索文本的搜索结果。

获取至少一个第二视频文本对，每一第二视频文本对包含一个视频样本和视频样本对应的搜索文本样本；

利用各第二视频文本对依次对预设视频文本模型进行训练，直至得到的第二损失值满足第二预设条件，得到训练好的预设视频文本模型；

其中，每次训练时，将第二视频文本对中的视频样本分别与各第二视频文本对中的搜索文本样本一起输入预设视频文本模型，并基于特征匹配任务头输出的各匹配值，获取对应的第一子损失值，将第二视频文本对中的搜索文本样本分别与各第二视频文本对中视频样本一起输入预设视频文本模型，并基于特征匹配任务头输出的各匹配值，获取对应的第二子损失值，并基于第一子损失值和第二子损失值获取第二视频文本对对应的第二损失值，并基于第二损失值对预设视频文本模型的第二预设参数进行调整；

其中，第二预设参数包括：预设视频文本模型中第一线性映射的参数、视频编码器的最后一个自注意力机制层的参数以及特征匹配任务头的参数。

第二方面，本申请实施例提供了一种视频文本任务处理装置，包括：

图像块获取模块，用于图像块获取待处理视频文本任务中视频对应的视频帧序列，并获取每一视频帧对应的图像块序列；

视频特征获取模块，用于将视频对应的各图像块输入训练好的预设视频文本模型，通过训练好的预设视频文本模型中的视频编码器，获取混合键集合和混合值集合，并利用自注意力机制，基于混合键集合和混合值集合获取各图像块对应的视频特征，预设视频文本模型是经图像文本预训练模型迁移学习得到，混合键集合包含有视频对应的各视频帧中的图像块对应的键，混合值集合包含有视频对应的各视频帧中的图像块对应的值；

处理结果获取模块，用于通过训练好的预设视频文本模型，基于各图像块对应的视频特征，输出待处理视频文本任务对应的处理结果。

在本申请的一种可选实施例中，该装置还包括第一映射模块，用于：

视频特征获取模块具体用于：

在本申请的一种可选实施例中，视频特征获取模块进一步用于：

视频特征获取模块进一步用于：

在本申请的一种可选实施例中，视频特征获取模块具体用于：

处理结果获取模块具体用于：

在本申请的一种可选实施例中，该装置还包括第一训练模块，用于：

处理结果获取模块具体用于：

在本申请的一种可选实施例中，处理结果获取模块进一步用于：

在本申请的一种可选实施例中，该装置还包括第二训练模块，用于：：

第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器；

存储器中存储有计算机程序；

处理器，用于执行计算机程序以实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现第一方面实施例或第一方面任一可选实施例中所提供的方法。

本申请实施例提供的技术方案带来的有益效果是：

将待处理视频任务中视频划分为对应的视频帧序列，并将每一视频帧划分为对应的图像块序列。再将视频对应的所有图像块输入由图像文本预训练模型迁移学习得到的预设视频文本模型中，通过该预设视频文本模型中的视频编码模块获取包含有各视频帧中图像块对应的键的混合键集合，以及包含有个视频帧中各图像块对应的值的混合值集合，然后利用自注意力机制，基于混合键集合和混合值集合获取各图像块对应的视频特征。最后，基于各图像块的视频特征获取待处理视频文本任务的处理结果。该方案在利用自注意力机制获取各图像块的视频特征时，由于采用的混合键集合和混合值集合中分别包含了所有视频帧中的图像块的键和值，进而使得获取的视频特征能够包含各视频帧之间的交互信息，即仅对自主力机制中的键集合和值集合进行了修改，没有增加额外的自注意力机制，在实现了对视频文本任务的处理的基础上，大大降低了资源计算代价。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种视频文本任务处理方法的流程示意图；

图2为本申请实施例的一个示例中视频对应的视频帧序列和图像块序列的示意图；

图3为本申请实施例的一个示例中混合键集合和混合值集合获取的示意图；

图4为本申请实施例的一个示例中视频编码器中利用自注意力机制获取视频特征的示意图；

图5为本申请实施例的一个示例中预设视频文本模型的结构示意图；

图6为本申请实施例的一个示例中视频描述文本生成任务的处理过程示意图；

图7为本申请实施例的一个示例中用于视频描述文本生成任务的预设视频文本模型的训练过程示意图；

图8为本申请实施例的一个示例中视频搜索任务的处理过程示意图；

图9为本申请实施例的一个示例中用于视频搜索任务的预设视频文本模型的训练过程示意图；

图10为本申请实施例提供的一种视频文本任务处理装置的结构示意图；

图11为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

将图像文本预训练模型迁移到视频文本领域下，主要需要解决如何设计有效的时序建模模块的问题，其中时序建模模块用于获取不同视频帧之间的交互信息。目前，比较常见的两种将图像文本预训练模型迁移到视频文本领域下方法包括CogVideo方法(Hong etal.2022)和ST-Adapter方法(Pan et al.2022)，CogVideo在原始图像文本预训练模型中插入时序注意力机制，用于解决时序建模问题，ST-Adapter(Pan et al.2022)在原始图像文本预训练模型中插入时空适配器，用于解决时序建模问题。上述两种方法，虽然能够实现视频文本任务的处理，但是确引入了大量的新参数，导致资源计算代价大。

针对上述问题，本申请实施例提供了一种视频文本任务处理方法、装置、电子设备及可读存储介质，下面将进行详细说明。

图1为本申请实施例提供的一种视频文本任务处理方法的流程示意图，如图1所示，该方法可以包括：

步骤S101，获取待处理视频文本任务中视频对应的视频帧序列，并获取每一视频帧对应的图像块序列。

其中，基于图像文本预训练模型可以处理的图像文本任务包括图像的描述文本生成任务、基于文本搜索图片的任务等。相应地，视频文本任务可以包括视频描述文本生成任务、基于文本搜索视频的任务(即视频搜索任务)等。

具体地，在确定待处理视频文本任务后，可以确定待处理的视频。需要说明的是，对于一次视频描述文本生成任务，其对应的视频一般仅有一个，而对于一次视频检索任务，其对应的视频一般有多个，即需要基于搜索文本，从这多个视频中检索出一个或多个与搜索文本匹配的视频作为检索结果。后文在描述时，仅描述了视频文本任务处理过程中对一个视频的处理过程，当有多个视频需要处理时，每一视频的处理过程相同。

首先，按一定的时间间隔将该视频划分为多个视频帧，得到对应的视频帧序列。然后，将每一视频帧划分为多个图像块，得到对应的图像块序列。最后，即获取到了该视频对应的多个图像块。举例来说，如图2所示，将某一视频划分为3个图像帧，每个图像帧再划分为9个图像块。那么，按时序顺序，该视频对应的视频帧可以记为x₁，x₂，x₃，对于视频帧x₁，按照从左至右，从上之下的顺序，其对应的图像块可以记为x_1,1，x_1,2，x_1,3，x_1,4，x_1,5，x_1,6，x_1,7，x_1,8，x_1,9。

需要说明的是，对于每一视频，可以控制划分的时间间隔，来对该视频对应的视频帧序列中所包含的视频帧的数量进行控制。对于每一视频帧，可以通过控制图像块的面积大小，来对该视频帧对应的图像块序列中所包含的图像块的数量进行控制。

步骤S102，将视频对应的各图像块输入训练好的预设视频文本模型，通过训练好的预设视频文本模型中的视频编码器，获取混合键集合和混合值集合，并利用自注意力机制，基于混合键集合和混合值集合获取各图像块对应的视频特征，预设视频文本模型是经图像文本预训练模型迁移学习得到，混合键集合包含有视频对应的各视频帧中的图像块对应的键，混合值集合包含有视频对应的各视频帧中的图像块对应的值。

其中，预设视频文本模型是经图像文本预训练模型迁移学习得到，由前文描述可知，在基于图像文本预训练模型迁移学习得到预设视频文本模型过程中，主要需要解决不同视频帧之间的交互信息获取的问题。因此，本申请实施例中，在基于图像文本预训练模型迁移学习得到预设视频文本模型时，通过修改图像文本预训练模型中原有的图像编码器的自注意力机制得到对应的视频编码器，用于获取视频帧之间的交互信息。然后对包含该视频编码器的预设视频文本模型进行训练得到训练好的预训练视频文本模型，用于视频文本任务的处理。

其中，图像文本预训练模型中，只需要利用自注意力机制获取图像内部的空间信息，而本申请的训练好的预设视频文本模型的视频编码器，需要利用自注意力机制获取每一视频帧内的空间信息，还要获取每一视频帧与其他视频帧之间的交互信息(或称时序信息)。基于上述考虑，本申请实施例中预设视频文本模型的视频编码模块需要获取混合键集合和混合值集合，用于利用自注意力机制获取每个图像块的视频特征。

具体地，将待处理视频文本任务对应的视频对应的所有图像块输入训练好的预设视频文本模型。在训练好的预设视频文本模型中，通过视频编码模块获取各图像块对应的键(Key)和值(Value)，然后再从各图像块对应的键和值中，选取部分图像块对应的键构成混合键集合，选取部分图像块的值构成混合值集合。需要注意的是，为了获取每一图像帧与各其他图像帧之间的交互信息，即获取每一图像帧中每一图像块与各其他图像帧之间的交互信息，根据自注意力机制的计算原理，则需要混合键集合中包含有所有视频帧中图像块对应的键，需要混合值集合中包含有所有视频帧中图像块对应的值。换言之，混合键集合和混合值集合需要覆盖所有视频帧。然后，利用自注意力机制，基于获取到的混合键集合和混合值集合，分别获取各图像块对应的视频特征。

举例来说，再次参考图2，将该视频对应的27个图像块输入到一起输入训练好的预设视频文本模型后，训练好的预设视频文本模型中的视频编码模块从各图像块对应的键和值中，获取混合键集合和混合值集合。需要主要的是，获取到的混合键集合中需要分别包含x₁中至少一个图像块的键，x₂中至少一个图像块的键以及x₃中至少一个图像块的键，混合值集合中需要分别包含x₁中至少一个图像块的值，x₂中至少一个图像块的值以及x₃中至少一个图像块的值。然后，利用自注意力机制，基于获取到的混合键集合和混合值集合，分别获取x₁、x₂以及x₃各图像块对应的视频特征。

可以理解的是，为了保证前述混合键集合和混合值集合覆盖视频的所有视频帧，就需要混合键集合中的元素(即键)的数量不小于视频帧序列中视频帧的数量，混合值集合中的元素(即值)的数量不小于视频帧序列中视频帧的数量。

步骤S103，通过训练好的预设视频文本模型，基于各图像块对应的视频特征，输出待处理视频文本任务对应的处理结果。

具体地，在获取了视频对应的各图像块的视频特征后，即可以基于各图像块的特征获取待处理视频文本任务的处理结果。可以理解的是，根据待处理任务的不同，后续获取对应的处理结果的过程也不相同，但获取处理结果的过程都需要用到各图像块的视频特征。

本申请实施例提供的方案，将待处理视频任务中视频划分为对应的视频帧序列，并将每一视频帧划分为对应的图像块序列。再将视频对应的所有图像块输入由图像文本预训练模型迁移学习得到的预设视频文本模型中，通过该预设视频文本模型中的视频编码模块获取包含有各视频帧中图像块对应的键的混合键集合，以及包含有个视频帧中各图像块对应的值的混合值集合，然后利用自注意力机制，基于混合键集合和混合值集合获取各图像块对应的视频特征。最后，基于各图像块的视频特征获取待处理视频文本任务的处理结果。该方案在利用自注意力机制获取各图像块的视频特征时，由于采用的混合键集合和混合值集合中分别包含了所有视频帧中的图像块的键和值，进而使得获取的视频特征能够包含各视频帧之间的交互信息，即仅对自主力机制中的键集合和值集合进行了修改，没有增加额外的自注意力机制，在实现了对视频文本任务的处理的基础上，大大降低了资源计算代价。

在本申请的一种可选实施例中，该方法还可以包括：

获取混合键集合和混合值集合，包括：

具体地，将待处理视频文本任务的视频划分得到多个图像块后，将图像块一起输入训练好的预设视频文本模型中，在视频编码器之前设置有一个线性映射模块。通过该模块，对各图像块进行第一线性映射，得到各图像块对应的嵌入向量(Embedding Vector)。各图像块的嵌入向量将被输入视频编码器中进行视频特征提取。

进一步地，在利用自注意力机制获取各图像块对应的视频特征之前，需要通过视频编码器分别对各图像块的嵌入向量进行不同的线性映射，以获取各图像块对应的键和值。具体来说，对各图像块的嵌入向量进行第二线性映射得到对应的键，对各图像块的嵌入向量进行第三线性映射得到对应的值。然后，从各图像块的键中选取键以得到混合键集合，由前文描述可知，为了使得混合键集合覆盖所有视频帧，则需要从每一视频帧对应的各图像块中选取至少一个图像块的键，对于混合值集合的获取也是同样的选取方式。

需要说明的是，第一线性映射、第二线性映射和第三线性映射的具体映射形式都是在对预设视频文本模型训练过程中确定的。

具体地，为了保证混合键集合和混合值集合中的元素分别覆盖所有视频帧，混合键集合和混合值集合各自的元素数量都会大于视频帧序列中的视频帧的数量。那么，要从各图像块对应的键中选取键用来构成混合键集合，从各图像块对应的值中选取值用来构成混合值集合。为了降低选取复杂度，降低资源计算代价，本申请实施例中可以按照各视频帧的时序(在视频中的时间先后顺序)，依次从每一视频帧选取一个图像块对应的键，作为混合键集合的元素，重复循环上述选取过程，直至选取的键的数量等于混合键集合中元素的数量。同理，混合值集合也可以按上述方式进行值的选取。

具体地，为了进一步降低混合键集合和混合值集合中元素的选取复杂度，进而进一步降低资源计算代价，可以将混合键集合中的元素数量和混合值集合中的元素数量，设置为与每一视频帧中包含的图像块的数量相同。换言之，若将每一视频帧作为一个图像块矩阵，该图像块矩阵中每个元素位置的元素为对应的图像块的嵌入向量，将混合键集合作为一个键矩阵，该键矩阵中每个元素位置的元素为对应的键，将混合值集合作为一个值矩阵，该值矩阵中每个元素位置的元素为对应的值，那么，将混合键集合中的元素数量和混合值集合中的元素数量，设置为与每一视频帧中包含的图像块的数量相同，即将图像块矩阵、键矩阵以及值矩阵三者设置为相同尺寸。

进一步地，对于混合键集合中的键的选取过程，需要考虑所要选取的键在键矩阵和在图像块矩阵中对应的元素位置。具体来说，对于键矩阵中任一所要选取的键，首先，按视频帧的时序确定所要选取的键对应的目标视频帧，然后，根据所要选取的键在键矩阵中的目标元素位置，并将目标视频帧对应的图像块矩阵中目标元素位置的图像块对应的键确定为所要选取的键。同理，混合值集合中值也可以采用上述选取方式。

举例来说，如图3所示，假设待处理视频文本任务对应的视频按时间顺序依次被划分为3个视频帧x₁，x₂，x₃，每个视频帧又被划分为9个图像块。那么，可以将混合键集合中的元素数量和混合值集合中的元素数量都设置为9，即x₁，x₂，x₃对应的图像块矩阵的尺寸、键矩阵以及值矩阵的尺寸都一样为3×3。按照前述选取方式，依次从x₁，x₂，x₃各自对应的图像块矩阵中选取一个图像块对应的键作为键矩阵的元素，且每次选取对应的元素位置的图像块的键，例如，对于键矩阵第一行第一列的元素位置，选取的键是x₁的第一行第一列的图像块对应的键，对于键矩阵第一行第二列的元素位置，选取的键是x₂的第一行第二列的图像块对应的键，依次类推，最终得到的键矩阵如图所示。

具体地，在将各图像块的嵌入向量输入视频编码器后，视频编码器会对各图像块的嵌入向量进行第四线性映射，以得到各图像块对应的查询(Query)。可以理解的是，第四线性映射的具体映射形式，也是在对预设视频文本模型进行训练的过程中确定的。在得到了各图像块的查询后，即可利用自注意力机制，基于查询、混合键集合和混合值集合，获取图像块对应的视频特征。

在实际应用中，每一视频帧中的各图像块对应的查询构成查询矩阵，该查询矩阵中每一元素位置的查询即为对应的图像块矩阵中该元素位置对应的图像块的查询。在进行图像块的视频特征提取时，每一视频帧对应的各图像块并行进行视频特征提取。如图4所示，首先获取混合键集合(即键矩阵)、混合值集合(即值矩阵)以及待处理图像帧中各图像块对应的查询(即查询矩阵)，然后利用查询矩阵和键矩阵进行第一次矩阵乘运算，并对第一次矩阵乘运算的结果进行缩放和归一化处理(即SoftMax)，然后在于值矩阵进行第二次矩阵乘运算，得到各图像块对应的视频特征。该过程可以用一下公式表示：

其中，为第s个视频帧中第t个图像块的视频特征，K为键矩阵，V为值矩阵，k_s′,t′为键矩阵中元素位置(s′,t′)的键，v_s′,t′值矩阵中元素位置(s′,t′)的值，q_s,t第s个视频帧中第t个图像块对应的查询，/>为缩放系数。

在一个示例中，经图像文本预训练模型(可以为BLIP(Bootstrapping Language-Image Pre-training，引导语言图像预训练)模型)迁移学习得到的预设视频文本模型的结构可以如图5所示。该预设视频文本模型包括视线性映射模块、视频编码器、文本编码器/解码器(即分为文本编码器和文本解码器，可以为BERT(Bidirectional EncoderRepresentation from Transformers，变换器的双向编码器形式)模型)以及特征匹配任务头。其中，线性映射模块用于对输入的各图像块进行第一线性映射，得到各图像块的嵌入向量，然后将各图像块的嵌入向量输入视频编码器。视频编码器部署有修改后的自注意力机制，可以基于输入的各嵌入向量得到各图像块对应的视频特征，并根据不同视频文本任务将各特征向量输入文本解码器或特征匹配任务头。文本解码器用基于接收到的各图像块的视频特征，输出对应的描述文本。文本编码器用于获取输入的文本的各标识符(英文单词、中文汉字等)的文本特征，并将各文本特征输入特征匹配任务头。特征匹配任务头用于根据各文本特征和各视频特征确定对应的文本与视频的匹配度，即输出对应的匹配值。

需要说明的是，视频编码器和文本编码器/解码器都是由连续的transformer结构组成的，进而可以认为视频编码器包含有多个自注意力机制层。

上述模型中利用了人工智能单元或模块，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。其中，自然语言处理(Nature Languageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

该预设视频文本模型可以用于视频描述文本生成任务，也可以用于视频搜索任务。两个任务中模型的训练和处理过程都不相同，下文进行详细说明。

其中，对很多新的视频创作者来说，可能不能够很好地对自己的视频进行一个简洁的描述，没有办法言简意赅的介绍自己的视频，通过执行本申请实施例提供的视频描述文本生成方法，可以帮助视频创作者对自己创作的视频进行总结描述。

具体地，如图6所示，利用训练好的预设视频文本模型处理视频描述文本生成任务的过程可以包括：

(1)获取待处理视频的视频帧序列，并获取每个视频帧的图像块序列；

(2)将各图像块输入训练好的预设视频文本模型，在模型中，通过线性映射模块获取各图像块的嵌入向量，并将各嵌入向量输入视频编码器。

(3)视频编码器按照前述方法获取各图像块对应的视频特征，并将各视频特征输入文本解码器。

(4)文本解码器中包含有文本映射任务头，文本解码器对各视频特征进行融合，并通过文本映射任务头，基于融合后的视频特征输出视频的描述文本。

具体地，如图7所示，在对用于视频描述文本生成任务的预设视频文本模型进行训练时，首先，获取一定数量的训练样本，每一训练样本为一个视频文本对，其包含一个视频样本和该视频样本对应的描述文本样本。然后，利用训练样本进行多次训练。每次训练将一个视频样本输入模型，输出预测描述文本，然后基于预测描述文本、对应的描述文本样本以及损失函数获取对应的第一损失值。其中，第一损失函数可以为现有的语言模型损失函数。每次训练时，若得到的第一损失函数不满足第一预设条件，则基于第一损失值对模型的参数进行调整，若得到的第一损失函数满足第一预设条件，则可以停止训练，得到用于视频描述文本生成任务的训练好的预设视频文本模型。其中，第一损失值满足第一预设条件可以是指输出的预测描述文本与描述文本的差异小于预设值。

进一步地，为了降低训练代价，在基于第一损失函数对模型参数进行调整时，可以至调整模型的部分参数，即第一预设参数。

进一步地，基于各视频特征和各文本特征，输出搜索文本与视频的匹配结果，包括：

其中，对于用户来说，仅仅通过关键词检索，有时候很难搜到满意的视频，通过执行本申请实施例提供的视频搜索方法，可以使搜索出的视频更好的满足用户的需求。

具体地，如图8所示，利用训练好的预设视频文本模型处理视频搜索任务的过程可以包括：

(1)将搜索文本输入训练好的预设视频文本模型，通过文本编码器获取搜索文本中各标识符对应的文本特征，并将各文本特征输入特征匹配任务头；

(2)获取预设视频库中的各视频，这些视频都是待匹配视频，将各待匹配视频输入训练好的预设视频文本模型，通过视频编码模块获取各待处理视频对应的视频特征，并将各视频特征输入特征匹配任务头；

(3)通过特征任务匹配头，基于各文本特征和每一待处理视频对应的各视频特征，获取搜索文本与各待处理视频的匹配值。这里在进行特征匹配时可以根据需求采用不同粒度的匹配机制，如为了提高搜索速度，可以采用相对较粗粒度的匹配机制，如为了提高搜索准确度，可以采用相对较细粒度的匹配机制；

(4)将各待处理视频中对应的匹配值不小于预设阈值的待处理视频作为搜索结果。

具体地，如图9所示，在对用于视频搜索任务的预设视频文本模型进行训练时，首先，获取一定数量的训练样本，每一训练样本为一个视频文本对，其包含一个视频样本和该视频样本对应的描述文本(即搜索文本样本)。然后，利用训练样本进行多次训练。每次训练时，将一个视频文本对中的视频样本(称为目标视频样本)和各视频文本对中的搜索文本分别一起输入预设视频文本模型，得到目标视频样本与各搜索文本样本的匹配值，基于这些匹配可以获取第一子损失值；并将目标视频样本对应的搜索文本样本(称为目标搜索文本样本)和各视频文本对中的视频文本样本分别一起输入预设视频文本模型，得到目标搜索文本样本与各视频样本的匹配值，基于这些匹配值可以获取第二资损失值。然后基于第一子损失值和第二资损失值获取总得第二损失值。每次训练时，若得到的第二损失函数不满足第二预设条件，则基于第二损失值对模型的参数进行调整，若得到的第二损失函数满足第二预设条件，则可以停止训练，得到用于视频搜索任务的训练好的预设视频文本模型。其中，第二损失值满足第二预设条件可以是指输出的目标视频样本和目标搜索样本之间的匹配值，相对于其他匹配值在所有匹配值之和中占比最大。

进一步地，为了降低训练代价，在基于第二损失函数对模型参数进行调整时，可以至调整模型的部分参数，即第二预设参数。

对本申请实施例提供的视频文本任务处理方法与其他视频文本处理方法的进了对比。视频描述生成选取MSVD(Chen et al.,2011)数据集，测评指标使用CIDEr，CIDEr是用于反映视频描述生成质量的指标。视频检索选取MSRVTT(Xu et al.,2016)数据集，测评指标使用R@1，R@1是评估检索系统有效性的指标。统计了视频编码器端需要更新的参数量。对比结果如表1(视频描述文本生成任务)和表2(视频搜索任务)所示。

表1

方法	更新的参数量(百万)	CIDEr
			Dual-channel Attention	84.93	144.7
ST-Adapter	54.83	141.7
			本申请实施例的方法	7.07	147.1

表2

方法	更新的参数量(百万)	CIDEr
			Temporal Finetune	28.31	45.5
本申请实施例的方法	7.07	47.1

由以上表格可知，本申请实施例提供的方案，在进行视频文本任务处理时，所需更新的参数里更少，进而资源计算代价更低，且达到的效果更好。

图10为本申请实施例提供的一种视频文本任务处理装置的结构示意图，如图10所示，该装置1000可以包括：图像块获取模块1001、视频特征获取模块1002以及处理结果获取模块1003，其中：

图像块获取模块1001用于图像块获取待处理视频文本任务中视频对应的视频帧序列，并获取每一视频帧对应的图像块序列；

视频特征获取模块1002用于将视频对应的各图像块输入训练好的预设视频文本模型，通过训练好的预设视频文本模型中的视频编码器，获取混合键集合和混合值集合，并利用自注意力机制，基于混合键集合和混合值集合获取各图像块对应的视频特征，预设视频文本模型是经图像文本预训练模型迁移学习得到，混合键集合包含有视频对应的各视频帧中的图像块对应的键，混合值集合包含有视频对应的各视频帧中的图像块对应的值；

处理结果获取模块1003用于通过训练好的预设视频文本模型，基于各图像块对应的视频特征，输出待处理视频文本任务对应的处理结果。

视频特征获取模块具体用于：

视频特征获取模块进一步用于：

处理结果获取模块具体用于：

下面参考图11，其示出了适于用来实现本申请实施例的电子设备(例如执行图1所示方法的终端设备或服务器)1100的结构示意图。本申请实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴设备等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

电子设备包括：存储器以及处理器，存储器用于存储执行上述各个方法实施例所述方法的程序；处理器被配置为执行存储器中存储的程序。其中，这里的处理器可以称为下文所述的处理装置1101，存储器可以包括下文中的只读存储器(ROM)1102、随机访问存储器(RAM)1103以及存储装置1108中的至少一项，具体如下所示：

如图11所示，电子设备1100可以包括处理装置(例如中央处理器、图形处理器等)1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储装置1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM1103中，还存储有电子设备1100操作所需的各种程序和数据。处理装置1101、ROM 1102以及RAM1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

通常，以下装置可以连接至I/O接口1105：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1106；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置1107；包括例如磁带、硬盘等的存储装置1108；以及通信装置1109。通信装置1109可以允许电子设备1100与其他设备进行无线或有线通信以交换数据。虽然图11示出了具有各种装置的电子设备，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1109从网络上被下载和安装，或者从存储装置1108被安装，或者从ROM 1102被安装。在该计算机程序被处理装置1101执行时，执行本申请实施例的方法中限定的上述功能。

需要说明的是，本申请上述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

获取待处理视频文本任务中视频对应的视频帧序列，并获取每一视频帧对应的图像块序列；将视频对应的各图像块输入训练好的预设视频文本模型，通过训练好的预设视频文本模型中的视频编码器，获取混合键集合和混合值集合，并利用自注意力机制，基于混合键集合和混合值集合获取各图像块对应的视频特征，预设视频文本模型是经图像文本预训练模型迁移学习得到，混合键集合包含有视频对应的各视频帧中的图像块对应的键，混合值集合包含有视频对应的各视频帧中的图像块对应的值；通过训练好的预设视频文本模型，基于各图像块对应的视频特征，输出待处理视频文本任务对应的处理结果。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块或单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一约束获取模块还可以被描述为“获取第一约束的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现如下情况：

本申请实施例中所提供的装置，可以通过AI模型来实现多个模块中的至少一个模块。可以通过非易失性存储器、易失性存储器和处理器来执行与AI相关联的功能。

该处理器可以包括一个或多个处理器。此时，该一个或多个处理器可以是通用处理器，例如中央处理单元(CPU)、应用处理器(AP)等、或者是纯图形处理单元，例如，图形处理单元(GPU)、视觉处理单元(VPU)、和/或AI专用处理器，例如神经处理单元(NPU)。

该一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义的操作规则或人工智能(AI)模型来控制对输入数据的处理。通过训练或学习来提供预定义的操作规则或人工智能模型。

这里，通过学习来提供指的是通过将学习算法应用于多个学习数据来得到预定义的操作规则或具有期望特性的AI模型。该学习可以在其中执行根据实施例的AI的装置本身中执行，和/或可以通过单独的服务器/系统来实现。

该AI模型可以包含多个神经网络层。每一层具有多个权重值，一个层的计算是通过前一层的计算结果和当前层的多个权重来执行的。神经网络的示例包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、生成对抗网络(GAN)、以及深度Q网络。

学习算法是一种使用多个学习数据训练预定目标装置(例如，机器人)以使得、允许或控制目标装置进行确定或预测的方法。该学习算法的示例包括但不限于监督学习、无监督学习、半监督学习、或强化学习。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频文本任务处理方法，其特征在于，包括：

将所述视频对应的各图像块输入训练好的预设视频文本模型，通过所述训练好的预设视频文本模型中的视频编码器，获取混合键集合和混合值集合，并利用自注意力机制，基于所述混合键集合和所述混合值集合获取各图像块对应的视频特征，所述预设视频文本模型是经图像文本预训练模型迁移学习得到，所述混合键集合包含有所述视频对应的各视频帧中的图像块对应的键，所述混合值集合包含有所述视频对应的各视频帧中的图像块对应的值；

通过所述训练好的预设视频文本模型，基于各图像块对应的视频特征，输出所述待处理视频文本任务对应的处理结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在将所述视频对应的各图像块输入所述训练好的预设视频文本模型之后，对各图像块进行第一线性映射，得到各图像块对应的嵌入向量；

所述获取混合键集合和混合值集合，包括：

从每一视频帧对应的各图像块的键中选取至少一个键作为所述混合键集合中的元素，从每一视频帧对应的各图像块的值中选取至少一个值作为所述混合值集合中的元素，得到所述混合键集合和所述混合值集合。

3.根据权利要求2所述的方法，其特征在于，所述从每一视频帧对应的各图像块的键中选取至少一个键作为所述混合键集合中的元素，从每一视频帧对应的各图像块的值中选取至少一个值作为所述混合值集合中的元素，得到所述混合键集合和所述混合值集合，包括：

按照各视频帧的时序，依次从每一视频帧对应的图像块中选取一个图像块对应的键作为所述混合键集合中的元素，重复按时序依次选取键的步骤直至得到所述混合键集合；

按照各视频帧的时序，依次从每一视频帧对应的图像块中选取一个图像块对应的值作为所述混合值集合中的元素，重复按时序依次选取值的步骤直至得到所述混合值集合。

4.根据权利要求3所述的方法，其特征在于，所述混合键集合对应的键矩阵和所述混合值集合对应的值矩阵，与每一视频帧对应的图像块矩阵的尺寸相同；

所述依次从每一视频帧对应的图像块中选取一个图像块对应的键作为所述混合键集合中的元素，包括：

对于所述键矩阵中的任一元素位置，将相应的视频帧所对应的图像矩阵中的所述任一元素位置的图像块的键，作为所述键矩阵中所述任一元素位置的元素；

所述依次从每一视频帧对应的图像块中选取一个图像块对应的值作为所述混合值集合中的元素，包括：

对于所述值矩阵中的任一元素位置，将相应的视频帧所对应的图像矩阵中的所述任一元素位置的图像块的值，作为所述值矩阵中所述任一元素位置的元素。

5.根据权利要求2所述的方法，其特征在于，所述利用自注意力机制，基于所述混合键集合和所述混合值集合获取各图像块对应的视频特征，包括：

对于每一图像块，对所述图像块对应的嵌入向量进行第四线性映射，得到所述图像块对应的查询；

利用自注意力机制，基于所述查询、所述混合键集合和所述混合值集合，获取所述图像块对应的视频特征。

6.根据权利要求1所述的方法，其特征在于，所述待处理视频文本任务为视频描述生成任务；

所述基于各图像块对应的视频特征，输出所述待处理视频文本任务对应的处理结果，包括：

通过所述训练好的预设视频文本模型中的文本解码器，基于各图像块对应的视频特征，输出所述视频的描述文本。

7.根据权利要求6所述的方法，其特征在于，所述训练好的预设视频文本模型通过以下方式训练得到：

获取至少一个第一视频文本对，每一第一视频文本对包含一个视频样本和所述视频样本的描述文本样本；

利用各第一视频文本对依次对所述预设视频文本模型进行训练，直至得到的第一损失值满足第一预设值，得到所述训练好的预设视频文本模型；

其中，每次训练时，将所述第一视频文本对中的视频样本输入所述视频文本模型，并基于所述视频文本样本输出的预测描述文本和所述第一视频文本对中的描述文本样本获取对应的第一损失值，再基于所述第一损失值调整所述预设视频文本模型的第一预设参数进行调整；

其中，所述第一预设参数包括：所述预设视频文本模型中第一线性映射的参数、所述视频编码器的最后一个自注意力机制层的参数以及所述文本解码器中的文本映射任务头的参数。

8.根据权利要求1所述的方法，其特征在于，所述待处理视频文本任务为视频搜索任务；

将所述搜索文本输入所述训练好的预设视频文本模型，通过所述训练好的预设视频文本模型中的文本编码器，获取所述搜索文本中各标识符对应的文本特征；

通过所述训练好的预设视频文本模型中的特征匹配任务头，基于各视频特征和各文本特征，输出所述搜索文本与所述视频的匹配结果。

9.根据权利要求8所述的方法，其特征在于，所述基于各视频特征和各文本特征，输出所述搜索文本与所述视频的匹配结果，包括：

基于各视频特征获取整体视频特征，基于各文本特征获取整体文本特征，并基于所述整体视频特征和所述整体文本特征获取所述匹配值；

若所述匹配值不小于预设阈值，则输出的匹配结果指示所述视频为所述搜索文本的搜索结果；

若所述匹配值小于预设阈值，则输出的匹配结果指示所述视频不为所述搜索文本的搜索结果。

10.根据权利要求8所述的方法，其特征在于，其特征在于，所述训练好的预设视频文本模型通过以下方式训练得到：

获取至少一个第二视频文本对，每一第二视频文本对包含一个视频样本和所述视频样本对应的搜索文本样本；

利用各第二视频文本对依次对所述预设视频文本模型进行训练，直至得到的第二损失值满足第二预设条件，得到所述训练好的预设视频文本模型；

其中，每次训练时，将所述第二视频文本对中的视频样本分别与各第二视频文本对中的搜索文本样本一起输入所述预设视频文本模型，并基于所述特征匹配任务头输出的各匹配值，获取对应的第一子损失值，将所述第二视频文本对中的搜索文本样本分别与各第二视频文本对中视频样本一起输入所述预设视频文本模型，并基于所述特征匹配任务头输出的各匹配值，获取对应的第二子损失值，并基于所述第一子损失值和所述第二子损失值获取所述第二视频文本对对应的第二损失值，并基于所述第二损失值对所述预设视频文本模型的第二预设参数进行调整；

其中，所述第二预设参数包括：所述预设视频文本模型中第一线性映射的参数、所述视频编码器的最后一个自注意力机制层的参数以及所述特征匹配任务头的参数。

11.一种视频文本任务处理装置，其特征在于，包括：

视频特征获取模块，用于将所述视频对应的各图像块输入训练好的预设视频文本模型，通过所述训练好的预设视频文本模型中的视频编码器，获取混合键集合和混合值集合，并利用自注意力机制，基于所述混合键集合和所述混合值集合获取各图像块对应的视频特征，所述预设视频文本模型是经图像文本预训练模型迁移学习得到，所述混合键集合包含有所述视频对应的各视频帧中的图像块对应的键，所述混合值集合包含有所述视频对应的各视频帧中的图像块对应的值；

处理结果获取模块，用于通过所述训练好的预设视频文本模型，基于各图像块对应的视频特征，输出所述待处理视频文本任务对应的处理结果。

12.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器中存储有计算机程序；

所述处理器，用于执行所述计算机程序以实现权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法。