CN115204366A

CN115204366A - 模型生成方法、装置、计算机设备和存储介质

Info

Publication number: CN115204366A
Application number: CN202210772572.6A
Authority: CN
Inventors: 胡郡郡; 唐大闰
Original assignee: Beijing Minglue Zhaohui Technology Co Ltd
Current assignee: Beijing Minglue Zhaohui Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-18

Abstract

本申请涉及一种模型生成方法、装置、计算机设备和存储介质。所述方法包括：将获取到的样本特征集合作为输入参数输入至待训练模型中，输出参数为各个待训练特征对应的语义向量，即待训练模型用于基于各个待训练特征之间的关联度确定各个待训练特征对应的语义向量；由于每个语义向量都融合了其他模态的特征信息，因此利用各个语义向量之间的比对结果对待训练模型进行学习训练，用于收敛待训练模型，生成可理解多种模态数据的多模态预训练模型。

Description

模型生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种模型生成方法、装置、计算机设备和存储介质。

背景技术

数据信息有多种模态，例如图像、文本、视频、音频等；由于不同类型的算法和领域、原理、适用范围等存在很大的差别，传统模型大部分是单独的处理其中一种模态的数据。但是现实中很多数据是同时以两种以上模态的方式存在，利用传统模型将会导致模态数据的丢失，丢失任何一种模态数据，都可能会导致对两种以及多种模态的数据理解出现偏差。

发明内容

为了解决上述技术问题，本申请提供了一种模型生成方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种模型生成方法，包括：

获取样本特征集合，其中，所述样本特征集合包括多个不同模态对应的待训练特征，所述模态包括视频模态、音频模态和文本模态；

将各个所述待训练特征作为输入参数输入至待训练模型中，输出各个所述待训练特征对应的语义向量，其中，所述待训练模型用于基于各个所述待训练特征之间的关联度，确定各个所述待训练特征对应的语义向量；

基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练，生成多模态预训练模型。

第二方面，本申请提供了一种模型生成装置，包括：

获取模块，用于获取样本特征集合，其中，所述样本特征集合包括多个不同模态对应的待训练特征，所述模态包括视频模态、音频模态和文本模态；

确定模块，用于将各个所述待训练特征作为输入参数输入至待训练模型中，输出各个所述待训练特征对应的语义向量，其中，所述待训练模型用于基于各个所述待训练特征之间的关联度，确定各个所述待训练特征对应的语义向量；

训练模块，用于基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练，生成多模态预训练模型。

第三方面，本申请提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述模型生成方法应用于深度学习技术领域用于优化计算机视觉技术，基于上述模型生成方法将获取到的样本特征集合作为输入参数输入至待训练模型中，输出参数为各个待训练特征对应的语义向量，即待训练模型用于基于各个待训练特征之间的关联度确定各个待训练特征对应的语义向量；由于每个语义向量都融合了其他模态的特征信息，因此利用各个语义向量之间的比对结果对待训练模型进行学习训练，用于收敛待训练模型，生成可理解多种模态数据的多模态预训练模型。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中模型生成方法的流程示意图；

图2为一个实施例中模型生成方法的流程示意图；

图3为一个实施例中模型生成装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

在一个实施例中，图1为一个实施例中一种模型生成方法的流程示意图，参照图1，提供了一种模型生成方法。本实施例主要以该方法应用于服务器来举例说明，该模型生成方法具体包括如下步骤：

步骤S210，获取样本特征集合。

其中，所述样本特征集合包括多个不同模态对应的待训练特征，所述模态包括视频模态、音频模态和文本模态。

具体的，模态用于指示不同来源和形式的信息，正如我们有视觉、听觉、嗅觉和触觉等，那么我们接触的信息就有视频、图像、文字、语音、味道、软硬度等，这每一种信息的形式就可以称作一种模态。待训练特征指示从不同形式信息中提取出的特征，可以为视频特征、音频特征、文本特征等等。

步骤S220，将各个所述待训练特征作为输入参数输入至待训练模型中，输出各个所述待训练特征对应的语义向量。

其中，所述待训练模型用于基于各个所述待训练特征之间的关联度，确定各个所述待训练特征对应的语义向量。

具体的，待训练模型为未经过深度学习的神经网络模型，具体可以为Cross-Stream类模型和Single-Stream类模型，Cross-Stream类模型是指将不同模态的输入特征分别处理之后再进行交叉融合，而Single-Stream类模型将不同模态的输入特征一视同仁，在同一个模型进行融合。在本实施例中采用Cross-Stream类模型中的Cross-Attention模型作为待训练模型，即各个待训练特征在输入待训练模型之前均经过提前处理的。

待训练模型对各个待训练特征进行交叉融合进行信息交互，以确定各个待训练特征之间的关联度，各个待训练特征相互学习之后输出相应的语义向量，语义向量包含了待训练特征与其他待训练特征之间的关系，即语义向量不但包括待训练特征的语义表示还包括了其他待训练特征的相关信息。

步骤S230，基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练，生成多模态预训练模型。

具体的，任意两个语义向量之间的比对结果用于指示这两个语义向量所形成的数据对为正样本对还是负样本对，根据正样本对或负样本对的数据对对待训练模型进行迭代训练学习，由于每个语义向量都融合了其他模态的特征信息，因此利用各个语义向量之间的比对结果对待训练模型进行学习训练，用于收敛待训练模型，生成可理解多种模态数据的多模态预训练模型，多模态预训练模型可用于执行任意需要进行多模态信息分析的任务，例如视频分类、跨模态识别、以图生音、以音生图等任务。

在一个实施例中，所述待训练特征包括视频特征、音频特征和文本特征，所述获取样本特征集合，包括：获取多个视频数据流；对各个所述视频序列进行特征提取处理，得到相应视频模态对应的所述视频特征；对各个所述音频序列进行特征提取处理，得到相应音频模态对应的所述音频特征；基于各个所述音频序列确定相应文本模态对应的所述文本特征。

其中，每个所述视频数据流包括视频序列和音频序列

具体的，不同的视频数据流对应不同的视频内容，在进行模型训练时需要用到较多不同视频内容对应的视频数据流，视频数据流中的视频序列由多帧图像组成的，因此对视频序列进行特征提取得到的视频特征为图像特征，具体可通过卷积神经网络、深度残差网络或深度残差收缩网络对视频序列进行特征提取。

对音频序列进行特征提取具体可利用Audio工具、Essentia工具、Librosa工具、Madmom工具等等，在本实施例中利用Audio工具对音频序列进行特征提取，得到相应的音频特征。基于音频序列进行文本提取，以得到相应文本模态的文本特征。

即每个视频数据流都将提取出视频模态、音频模态以及文本模态对应的特征。

在一个实施例中，所述对各个所述视频序列进行特征提取处理，得到相应视频模态对应的所述视频特征，包括：对所述视频序列进行抽帧处理，得到相应的抽帧序列；对所述抽帧序列进行特征提取处理，得到相应的第一特征序列；对所述第一特征序列进行维度转换处理，得到预设维度的所述视频特征。

具体的，对各个视频序列进行等帧数均匀抽帧处理，所有视频抽取的帧数都为N，可以通过抽帧处理控制视频特征的长度，从视频序列中抽取的帧数据形成抽帧序列，即抽帧序列包括多个抽取出的帧数据相应帧向量，每个帧数据用于指示一帧图像，帧向量的维度为C*H*W，其中C为视频序列中每帧图像的通道数，W为每帧图像的长度，H为每帧图像的宽度，因此抽帧序列的维度为N*C*H*W。

将抽帧序列输入Encoder模型进行特征提取，得到相应的第一特征序列，Encoder模型为经过大规模图像数据预训练的卷积神经网络，具体可以为经过COCO数据集训练后的FasterRCNN卷积网络模型，第一特征序列包括从抽帧序列中各帧图像所提取出的第一特征对应的特征向量，即第一特征序列用于指示从抽帧序列中每帧图像中提取出的特征向量集合，第一特征序列的维度为N*H*W*D。

对第一特征序列进行维度转换处理，即先对第一特征序列中多个特征对应的特征向量按照时序方向求平均，得到维度为H*W*D的第一候选特征，由于特征向量的顺序将会影响视频序列对应的动作信息，所以特征向量之间的先后顺序非常重要，对第一候选特征相应特征向量加入相同空间维度的位置向量(positional embedding)，例如第一候选特征相应特征向量为2D的空间维度，则加入的位置向量也同样为2D的空间维度，得到第二候选特征，以确定第一候选特征在后续训练学习过程中的位置，再将第二候选特征经过矩阵维度转换，得到维度为(H*W)*D的视频特征，即预设维度用于指示视频特征的长度，上述每个特征均用向量来表示。

在一个实施例中，所述对各个所述音频序列进行特征提取处理，得到相应音频模态对应的所述音频特征，包括：对所述音频序列进行特征提取处理，得到相应的第二特征；对所述第二特征进行维度转换处理，得到预设维度的所述音频特征。

具体的，将音频序列作为输入参数输入至Audio Encoder模型中，得到维度为H*W*D的第二特征，在第二特征对应的特征向量中插入位置向量，得到第三候选特征，由于特征向量的顺序将会影响音频序列对应的语义信息，所以特征向量之间的先后顺序非常重要，在第二特征中加入相同空间维度的位置向量，用于确定第二特征在后续参与训练学习过程中的位置，再将第三候选特征经过矩阵维度转换得到维度为(H*W)*D的音频特征，通过维度转换令视频特征与音频特征保持相同的维度，以确保视频特征的长度与音频特征的长度相等。

音频模态的加入能够弥补没有语音识别的场景，通常视频数据流中的音频序列对视频数据流的分类有较大影响。

在一个实施例中，所述基于各个所述音频序列确定相应文本模态对应的所述文本特征，包括：对所述音频序列进行语音识别处理，得到相应的文本序列；对所述文本序列进行维度转换处理，得到预设维度的所述文本特征。

具体的，对音频序列进行ASR语音识别，以得到文本模态的文本序列，将文本序列中前M个字符转换成相应的向量，在文本序列中的字符数量小于M时用0来凑，对M个字符进行字符转换具体可以通过编辑代码或预训练的Bert模型来实现，在本实施例中采用Bert模型将M个字符转换成向量表达的第四候选特征，M用于指示Bert模型对于待转换字符的长度要求，第四候选特征的维度为M*D，D用于指示每个字符的长度，D通常为512，将第四候选特征作为输入参数输入至Transformer模型中进行特征提取，输出维度为M*D的第五候选特征，对第五候选特征进行下采样，以实现降维处理，用于控制文本特征的长度，下采样具体可通过Pooling模块来实现，得到维度为K*D的第六候选特征，由于特征向量的顺序将会影响文本序列对应的语义信息，所以特征向量之间的先后顺序非常重要，在第六候选特征中加入相同空间维度的位置向量，得到维度为K*D的文本特征，用于确定文本特征在后续参与训练学习过程中的位置。

即视频特征和音频特征的维度均为(H*W)*D，文本特征的维度为K*D，K＝H*W，即通过维度转换以确保输入至待训练模型中的各个待训练特征保持统一维度，令视频特征、音频特征、文本特征保持统一向量长度。由于视频特征、音频特征和文本特征都是经过降维处理后才输入至待训练模型中，相较于直接将高维度的待训练特征输入至待训练模型中进行深度学习训练，可提高待训练模型的运算速度，并减少了对于GPU和显卡的资源消耗。

音频特征和文本特征都是相应时序中的全局特征，具有较高的语义信息，在视频特征的基础上结合音频特征和文本特征进行深度学习，能够让视频特征具有较高的语义信息，并且音频特征还可以在语音识别数据不足的情况作为补充信息，例如无人说话的场景下，通过音频特征反映背景音乐或者物体发出的敲击声等，以作为补充信息。

在一个实施例中，所述将各个所述待训练特征作为输入参数输入至待训练模型中，输出各个所述待训练特征对应的语义向量，包括：在各个所述待训练特征相应特征向量中插入嵌入向量，得到各个所述待训练特征对应的特征嵌入向量；将各个所述特征嵌入向量作为输入参数输入至所述待训练模型中，输出各个所述特征嵌入向量对应的语义向量。

其中，所述待训练特征包括视频特征、音频特征和文本特征，所述待训练模型用于基于各个所述特征嵌入向量之间的关联度确定各个所述特征嵌入向量对应的语义向量。

具体的，嵌入向量记为CLS Token，嵌入向量为随机生成的初始向量，嵌入向量就只是一个向量，不同于视频特征、音频特征或文本特征所对应的特征向量，视频特征对应的特征向量用于表示一个图片对应的语义信息，音频特征对应的特征向量用于表示语音对应的语义信息，文本特征对应的特征向量用于表示文本字符对应的语义信息，而嵌入向量不表示任何语义信息，因此在待训练模型对嵌入向量和各个待训练特征相应特征向量进行编码时，无语义信息的嵌入向量可以公平地融合不同待训练特征的语义信息。

在各个待训练特征中插入嵌入向量，得到相应的特征嵌入向量，将特征嵌入向量作为输入参数输入至待训练模型中，待训练模型对各个特征嵌入向量进行融合学习，增强不同模态之间的信息交互，学习了不同模态的待训练特征相应语义信息，输出各个待训练特征对应的语义向量，各个待训练特征对应的语义向量包含了其他模态的待训练特征的语义信息，相较于单一模态相应特征对应的语义信息更丰富。

在一个实施例中，所述基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练，生成多模态预训练模型，包括：基于各个所述语义向量之间的比对结果，确定相应的损失函数值；根据多个所述损失函数值迭代调节所述待训练模型的训练参数，得到相应的训练模型；在所述损失函数值达到预设数值时，将所述损失函数值对应的所述训练模型作为所述多模态预训练模型。

具体的，参照图2，视频特征相应的语义向量记为P_v，音频特征相应的语义向量记为P_a，文本特征相应的语义向量记为P_t，每个语义向量携带有相应视频数据流的视频标签，将任意两个语义向量形成数据对进行比对，得到比对结果，根据语义向量携带的视频标签判断数据对中的两个语义向量是否对应同一视频数据流，即任意两个语义向量之间的比对结果包括相匹配和不匹配，将视频标签相匹配的两个语义向量判定为正样本对，即正样本对的两个语义向量对应同一视频数据流；将视频标签不匹配的两个语义向量判定为负样本对，即负样本对的两个语义向量对应不同的视频数据流。

基于正样本对中的两个语义向量计算损失函数值，公式如下：

其中，z₁和z₂分别指示一个语义向量，通过该损失函数值调节待训练模型中的训练参数，用于继续拉进这两个语义向量之间的距离。

基于负样本对中的两个语义向量计算损失函数值，公式如下：

其中，z₃和z₄分别指示一个语义向量，通过该损失函数值调节待训练模型中的训练参数，用于继续拉远这两个语义向量之间的距离。

通过多个视频数据流不同模态的待训练特征对待训练模型进行迭代训练学习，直至得到的损失函数值达到预设数值，则停止训练学习，预设数值用于指示待训练模型进行迭代训练的收敛程度，将此时损失函数值所对应的待训练模型作为多模态预训练模型。

图1为一个实施例中模型生成方法的流程示意图。应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种模型生成装置，包括：

获取模块310，用于获取样本特征集合，其中，所述样本特征集合包括多个不同模态对应的待训练特征，所述模态包括视频模态、音频模态和文本模态；

确定模块320，用于将各个所述待训练特征作为输入参数输入至待训练模型中，输出各个所述待训练特征对应的语义向量，其中，所述待训练模型用于基于各个所述待训练特征之间的关联度，确定各个所述待训练特征对应的语义向量；

训练模块330，用于基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练，生成多模态预训练模型。

在一个实施例中，所述获取模块310具体用于：

获取多个视频数据流，其中，每个所述视频数据流包括视频序列和音频序列；

对各个所述视频序列进行特征提取处理，得到相应视频模态对应的所述视频特征；

对各个所述音频序列进行特征提取处理，得到相应音频模态对应的所述音频特征；

基于各个所述音频序列确定相应文本模态对应的所述文本特征。

在一个实施例中，所述获取模块310具体用于：

对所述视频序列进行抽帧处理，得到相应的抽帧序列；

对所述抽帧序列进行特征提取处理，得到相应的第一特征序列；

对所述第一特征序列进行维度转换处理，得到预设维度的所述视频特征。

在一个实施例中，所述获取模块310具体用于：

对所述音频序列进行特征提取处理，得到相应的第二特征；

对所述第二特征进行维度转换处理，得到预设维度的所述音频特征。

在一个实施例中，所述获取模块310具体用于：

对所述音频序列进行语音识别处理，得到相应的文本序列；

对所述文本序列进行维度转换处理，得到预设维度的所述文本特征。

在一个实施例中，所述确定模块320具体用于：

在各个所述待训练特征相应特征向量中插入嵌入向量，得到各个所述待训练特征对应的特征嵌入向量，其中，所述待训练特征包括视频特征、音频特征和文本特征；

将各个所述特征嵌入向量作为输入参数输入至所述待训练模型中，输出各个所述特征嵌入向量对应的语义向量，其中，所述待训练模型用于基于各个所述特征嵌入向量之间的关联度确定各个所述特征嵌入向量对应的语义向量。

在一个实施例中，所述训练模块330具体用于：

基于各个所述语义向量之间的比对结果，确定相应的损失函数值；

根据多个所述损失函数值迭代调节所述待训练模型的训练参数，得到相应的训练模型；

在所述损失函数值达到预设数值时，将所述损失函数值对应的所述训练模型作为所述多模态预训练模型。

图4示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器。如图4所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现模型生成方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行模型生成方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的模型生成装置可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。计算机设备的存储器中可存储组成该模型生成装置的各个程序模块，比如，图3所示的获取模块310、确定模块320和训练模块330。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的模型生成方法中的步骤。

图4所示的计算机设备可以通过如图3所示的模型生成装置中的获取模块310执行获取样本特征集合，其中，所述样本特征集合包括多个不同模态对应的待训练特征，所述模态包括视频模态、音频模态和文本模态。计算机设备可通过确定模块320执行将各个所述待训练特征作为输入参数输入至待训练模型中，输出各个所述待训练特征对应的语义向量，其中，所述待训练模型用于基于各个所述待训练特征之间的关联度，确定各个所述待训练特征对应的语义向量。计算机设备可通过训练模块330执行基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练，生成多模态预训练模型。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一项实施例所述的方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一项实施例所述的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指示相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种模型生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述待训练特征包括视频特征、音频特征和文本特征，所述获取样本特征集合，包括：

3.根据权利要求2所述的方法，其特征在于，所述对各个所述视频序列进行特征提取处理，得到相应视频模态对应的所述视频特征，包括：

对所述视频序列进行抽帧处理，得到相应的抽帧序列；

4.根据权利要求2所述的方法，其特征在于，所述对各个所述音频序列进行特征提取处理，得到相应音频模态对应的所述音频特征，包括：

对所述音频序列进行特征提取处理，得到相应的第二特征；

5.根据权利要求2所述的方法，其特征在于，所述基于各个所述音频序列确定相应文本模态对应的所述文本特征，包括：

对所述音频序列进行语音识别处理，得到相应的文本序列；

6.根据权利要求1所述的方法，其特征在于，所述将各个所述待训练特征作为输入参数输入至待训练模型中，输出各个所述待训练特征对应的语义向量，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于各个所述语义向量之间的比对结果对所述待训练模型进行学习训练，生成多模态预训练模型，包括：

8.一种模型生成装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。