CN113486833B

CN113486833B - 多模态特征提取模型训练方法、装置、电子设备

Info

Publication number: CN113486833B
Application number: CN202110800982.2A
Authority: CN
Inventors: 杨海涛
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2022-10-04
Anticipated expiration: 2041-07-15
Also published as: CN113486833A

Abstract

本申请公开了一种多模态特征提取模型训练方法、装置、电子设备和存储介质。用于解决模型对视频的表达能力不够全面的问题。本申请实施例中，针对每个视频，对视频进行抽帧处理得到视频帧，并获取该视频帧的文本；提取该视频帧的文本特征和视觉特征；并采用同一视频的视频帧构建正样本对，采用不同视频的视频帧构建负样本对；根据正负样本对对模型进行训练，直至训练收敛。

Description

多模态特征提取模型训练方法、装置、电子设备

技术领域

本申请涉及多媒体技术领域，特别涉及一种多模态特征提取模型训练方法、装置、电子设备和存储介质。

背景技术

随着信息技术的飞速发展，包含图像、文本、声音等多个信息来源的短视频成为数据资源的主要形式。作为最接近人类日常感知的多媒体，短视频能够高效地传递信息，吸引用户注意力，有着广阔的用户粘性。对用户上传的视频进行有效的向量化描述可以为用户提供更为精准的搜索、推荐结果，有助于提升用户体验。

使用向量较为准确地描述视频的内容对大规模的推荐、搜索等业务场景而言具有十分重要的作用，而融合利用各个模态的数据成为向量表示的关键。相关技术中的视频表示学习方法，大多采用单一的特征来对模型进行训练，导致模型对视频的表达能力不够全面。

发明内容

本申请的目的是提供一种多模态特征提取模型训练方法、装置、电子设备和存储介质，用于解决模型对视频的表达能力不够全面的问题。

第一方面，本申请实施例提供了一种多模态特征提取模型训练方法，包括：

针对视频集合中每个视频，对所述视频进行抽帧处理，得到视频帧集合；

对所述视频帧集合进行采样得到样本帧，并对所述视频的文本信息进行采样得到样本文本；

提取样本帧的视觉特征并提取所述样本文本的文本特征，由所述视觉特征和所述文本特征构建所述视频的样本；

采用同一视频的两个样本构建正样本对，并采用不同视频的样本构建负样本对；

采用所述正样本对、所述负样本对和预设目标函数训练待训练的所述多模态特征提取模型，得到所述预设目标函数的损失信息，基于所述损失信息更新所述多模态特征提取模型，得到所述多模态特征提取模型；

其中，所述预设目标函数用于使所述正样本对中两样本的特征相似度高于所述负样本对中两样本的特征相似度。

在一个实施例中，所述对所述视频进行抽帧处理，得到视频帧集合，包括：

获取所述视频的关键帧；

确定所述视频中各帧图像与所述关键帧的相似度；

从所述视频中过滤掉所述相似度高于第一预设阈值的视频帧，并过滤掉所述相似度低于第二预设阈值的视频帧，得到剩余视频帧；

由所述剩余视频帧和所述关键帧得到所述视频帧集合。

在一个实施例中，所述对所述视频的文本信息进行采样得到样本文本之前，所述方法还包括：

采用以下方法中的任一种或组合获取所述文本信息：

采用文本识别技术OCR从所述第一视频中提取文本信息；

获取用户接口输入的文本信息；

对所述第一视频的音频信号转换成文本信息；

从所述第一视频的标题中获取文本信息。

在一个实施例中，所述对所述视频的文本信息进行采样得到样本文本，包括：

若所述视频的文本信息的文本来源包括多个，则随机从至少一个文本来源中提取所述视频的文本信息，得到所述样本文本。

在一个实施例中，所述随机从至少一个文本来源中提取所述视频的文本信息，得到所述样本文本，包括：

生成随机数；所述随机数小于所述视频的文本来源总数量；

从所述视频的多个文本来源中随机选择所述随机数个文本来源；

从选择的各文本来源中获取所述视频的文本信息，得到所述样本文本。

在一个实施例中，所述得到所述多模态特征提取模型之后，所述方法还包括：

将同一样本的视觉特征和文本特征进行处理，得到所述视觉特征和所述文本特征的外积；

将所述外积、所述视觉特征和所述文本特征通过至少一个全连接层进行特征提取，得到所述同一样本的多模特征。

在一个实施例中，所述方法还包括：

将所述多模态特征提取模型输出的多模特征存储到负样本队列中；所述负样本队列为指定长度，且采用先入先出的方式存储所述多模特征；

所述采用不同视频的样本构建负样本对，包括：

获取第一视频的视觉特征和文本特征构建的第一样本；并，

获取位于所述负样本队列中的第二视频的多模特征对应的样本作为第二样本，由所述第一样本和所述第二样本构建所述负样本对。

在一个实施例中，采用所述负样本对和预设目标函数训练所述多模态特征提取模型，包括：

将所述第一样本输入所述多模态特征提取模型得到所述第一样本的多模态特征；

将所述第一样本的所述多模特征和所述第二样本的多模特征作为所述预设目标函数的输入参数，得到损失信息；

基于所述损失信息，更新所述多模态特征提取模型。

在一个实施例中，所述预测目标函数为对比学习损失函数。

第二方面本申请还提供了一种多模态特征提取模型训练装置，所述装置包括：

抽帧模块，被配置为针对视频集合中每个视频，对所述视频进行抽帧处理，得到视频帧集合；

采样模块，被配置为对所述视频帧集合进行采样得到样本帧，并对所述视频的文本信息进行采样得到样本文本；

样本构建模块，被配置为提取样本帧的视觉特征并提取所述样本文本的文本特征，由所述视觉特征和所述文本特征构建所述视频的样本；

样本对构建模块，被配置为采用同一视频的两个样本构建正样本对，并采用不同视频的样本构建负样本对；

训练模块，被配置为采用所述正样本对、所述负样本对和预设目标函数训练待训练的所述多模态特征提取模型，得到所述预设目标函数的损失信息，基于所述损失信息更新所述多模态特征提取模型，得到所述多模态特征提取模型；

在一个实施例中，所述抽帧模块，包括：

关键帧获取单元，被配置为获取所述视频的关键帧；

相似度确定单元，被配置为确定所述视频中各帧图像与所述关键帧的相似度；

过滤单元，被配置为从所述视频中过滤掉所述相似度高于第一预设阈值的视频帧，并过滤掉所述相似度低于第二预设阈值的视频帧，得到剩余视频帧；

视频帧集合获取单元，被配置为由所述剩余视频帧和所述关键帧得到所述视频帧集合。

在一个实施例中，所述采样模块执行对所述视频的文本信息进行采样得到样本文本之前，所述装置还包括：

文本信息获取模块，被配置为采用以下方法中的任一种或组合获取所述文本信息：

采用文本识别技术OCR从所述第一视频中提取文本信息；

获取用户接口输入的文本信息；

对所述第一视频的音频信号转换成文本信息；

从所述第一视频的标题中获取文本信息。

在一个实施例中，所述采样模块执行对所述视频的文本信息进行采样得到样本文本时，被配置为：

在一个实施例中，所述采样模块执行所述随机从至少一个文本来源中提取所述视频的文本信息，得到所述样本文本时，被配置为：

生成随机数；所述随机数小于所述视频的文本来源总数量；

在一个实施例中，所述训练模块得到所述多模态特征提取模型之后，所述装置还包括：

外积获取模块，被配置为将同一样本的视觉特征和文本特征进行处理，得到所述视觉特征和所述文本特征的外积；

特征提取模块，被配置为将所述外积、所述视觉特征和所述文本特征通过至少一个全连接层进行特征提取，得到所述同一样本的多模特征。

在一个实施例中，所述装置还包括：

存储模块，被配置为将所述多模态特征提取模型输出的多模特征存储到负样本队列中；所述负样本队列为指定长度，且采用先入先出的方式存储所述多模特征；

所述样本对构建模块执行所述采用不同视频的样本构建负样本对时，被配置为：

获取第一视频的视觉特征和文本特征构建的第一样本；并，

在一个实施例中，所述训练模块执行采用所述负样本对和预设目标函数训练所述多模态特征提取模型时，被配置为：

基于所述损失信息，更新所述多模态特征提取模型。

在一个实施例中，所述预测目标函数为对比学习损失函数。

第三方面，本申请另一实施例还提供了一种电子设备，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请第一方面实施例提供的任一方法。

第四方面，本申请另一实施例还提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于使计算机执行本申请第一方面实施例提供的任一方法。

本申请实施例提供的模型训练方法，针对每个视频，对视频进行抽帧处理得到视频帧，并获取该视频帧的文本；提取该视频帧的文本特征和视觉特征；并采用同一视频的视频帧构建正样本对，采用不同视频的视频帧构建负样本对；根据正负样本对对模型进行训练，直至训练收敛；本申请中通过抽帧的方式采集视频帧，简化了采样方式，避免了使用冗余的原视频数据，提升了数据预处理的速率；本申请同时采用文本特征和视觉特征来训练模型，提升了模型的表达能力。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的模型训练方法的应用场景示意图；

图2为本申请实施例提供的模型训练方法的整体流程图；

图3为本申请实施例提供的模型训练方法的对视频集合中的视频进行处理的流程图；

图4为本申请实施例提供的模型训练方法的得到样本文本的流程图；

图5为本申请实施例提供的模型训练方法的构造负样本的流程图；

图6为本申请实施例提供的模型训练方法的训练多模态特征提取模型的流程图；

图7为本申请实施例提供的模型训练方法的多模态特征提取模型的内部构造示意图；

图8为本申请实施例提供的模型训练方法的多模态特征提取装置示意图；

图9为本申请实施例提供的模型训练方法的电子设备示意图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

发明人研究发现，在信息技术飞速发展的今天，包含图像、文本、声音等多个信息来源的短视频成为数据资源的主要形式。作为最接近人类日常感知的多媒体，短视频能够高效地传递信息，吸引用户注意力，有着广阔的用户粘性。对用户上传的视频进行有效的向量化描述可以为用户提供更为精准的搜索、推荐结果，有助于提升用户体验。使用向量较为准确地描述视频的内容对大规模的推荐、搜索等业务场景而言具有十分重要的作用，而融合利用各个模态的数据成为向量表示的关键。

发明人研究发现，多模态融合是指对多源数据进行综合有效地筛选和利用，常见的信息融合方式有物理层融合、特征层融合、决策层融合等几个类型。其中，特征层融合指在特征抽取和表达的层级对信息进行融合，在深度学习领域中应用较为广泛。同时，对比学习作为CV领域中较为主流的表示学习方法，并不一定要关注到样本的每一个细节，重点在于学到能够使其和其他样本区别开来的特征。并且现有的视频表示学习方法大多需要对海量的数据进行标注，需要制定较为细致的规则，需要投入大量的人力并且数据有限。故此，根据视频本身的结构、内容等来构造监督信息的自监督学习方式更加适用于视频理解任务，基于大规模的无标注数据，可以学习到对下游任务更有价值的内容表征。

有鉴于此，本申请提出了一种模型训练方法、装置、电子设备和存储介质，用于解决上述问题。本申请的发明构思可概括为：针对每个视频，对视频进行抽帧处理得到视频帧，并获取该视频帧的文本；提取该视频帧的文本特征和视觉特征；并采用同一视频的视频帧构建正样本对，采用不同视频的视频帧构建负样本对；根据正负样本对对模型进行训练，直至训练收敛。

如图1所示，为本申请实施例中的模型训练方法的应用场景图。图中包括：网络10、服务器20、存储器30、终端设备40；

其中，存储器30中存储有视频集合，针对视频集合中的每个视频，服务器对视频进行抽帧处理，得到视频帧集合；对视频帧集合进行采样得到样本帧，并对视频的文本信息进行采样得到样本文本；提取样本帧的视觉特征并提取样本文本的文本特征，由视觉特征和文本特征构建视频的样本；采用同一视频的两个样本构建正样本对，并采用不同视频的样本构建负样本对；采用正样本对、负样本对和预设目标函数训练多模态特征提取模型。训练好的多模态特征提取模型可以安装在终端设备40上，也可安装在服务器中。

本申请中的描述中仅就单个服务器或终端设备加以详述，但是本领域技术人员应当理解的是，示出的终端设备40、服务器20和存储器30旨在表示本申请的技术方案涉及的终端设备、服务器以及存储器的操作。对单个服务器和存储器加以详述至少为了说明方便，而非暗示对终端设备和服务器的数量、类型或是位置等具有限制。应当注意，如果向图示环境中添加附加模块或从其中去除个别模块，不会改变本申请的示例实施例的底层概念。另外，虽然为了方便说明而在图1中示出了从存储器30到服务器20的双向箭头，但本领域技术人员可以理解的是，上述数据的收发也是需要通过网络10实现的。

需要说明的是，本公开实施例中的存储器例如可以是缓存系统、也可以是硬盘存储、内存存储等等。此外，本申请提出的多模态特征提取模型训练方法不仅适用于图1所示的应用场景，还适用于任何有多模态特征提取需求的装置。

为了便于理解本申请实施例提供的多模态特征提取模型训练方法，下面结合附图对本申请实施例提供的多模态特征提取模型训练方法进行详细说明。

如图2所示，为本申请提供的多模态特征提取模型训练方法的整体流程图：

在步骤201中：针对视频集合中每个视频，对视频进行抽帧处理，得到视频帧集合；

采用视频集合中的每个视频帧对多模态特征提取模型进行训练，会导致数据冗余、数据预处理效率低，因此，在本申请实施例中，采用如图3所示的步骤对视频集合中的视频进行处理：

在步骤301中：获取视频的关键帧；

在一个实施例中，由于针对单个视频而言，封面帧往往涵盖了整个视频的关键信息，所以关键帧可以是视频的封面帧；若用户未对视频设定封面，则可以通过内容检测获取关键帧。在内容检测时可以提取文本中的关键语义，根据该语义在视频中匹配视频帧，并将匹配到的视频帧做为关键帧。

在步骤302中：确定视频中各帧图像与关键帧的相似度；

在本申请实施例中，为了避免选取的视频帧与视频想要表达的意思关系不大，从而导致选取的该视频帧为无用视频帧所以本申请实施例中设置了第二预设阈值；为了避免选取的视频帧为重复帧，所以进一步设置了第一预设阈值，所以，在步骤303中：从视频中过滤掉相似度高于第一预设阈值的视频帧，并过滤掉相似度低于第二预设阈值的视频帧，得到剩余视频帧；

在一个实施例中，根据本领域技术人员的经验，第一预设值可以为设置为0.9，第二预设值可以设置为0.7。由此可以基于关键帧得到内容上有差异的其他关键帧。由此，在短视频内容推荐场景中，由于用户首先关注到的是封面，基于封面帧以及与封面帧相似地、且内容还稍有差异的其他帧来训练，能够提高模型的准确性和泛化能力。

在步骤304中：由剩余视频帧和关键帧得到视频帧集合。

在本申请实施例中，通过提取视频的关键帧和与关键帧在预设相似度范围内的视频帧来对模型进行训练避免了使用冗余的视频数据对模型进行训练，提升了数据的预处理能力，从而加速了多模态特征提取模型的迭代周期，同时还提高模型的准确性和泛化能力。

在本申请实施例中，为了提高多模态特征提取模型对视频的区分能力，所以采用视频特征和文本特征来对视频进行训练；在采集视频帧的文本特征之前，要对提取视频的文本信息，在本申请实施例中，采用以下方法中的任一种或组合获取文本信息：采用文本识别技术OCR从第一视频中提取文本信息；获取用户接口输入的文本信息；对第一视频的音频信号转换成文本信息；从第一视频的标题中获取文本信息。本申请实施例通过上述方法获取视频帧的文本信息，可以使得多模态特征提取模型学习到多模态的信息，进而可以全面的表达视频内容。

在步骤202中：对视频帧集合进行采样得到样本帧，并对视频的文本信息进行采样得到样本文本；

若视频的文本信息的文本来源包括多个，则随机从至少一个文本来源中提取视频的文本信息，得到样本文本。

在一个实施例中，分别将采用文本识别技术OCR从第一视频中提取文本信息、获取用户接口输入的文本信息、对第一视频的音频信号转换成文本信息、从第一视频的标题中获取文本信息，构成文本域；若视频的文本信息的文本来源来自上述四个文本域中的多个，则随机从至少一个文本来源中提取视频的文本信息并得到样本文本。本申请实施例中采用上述方法获取视频的文本信息，可以准确的提取到视频的关键文本信息，提高了后续的采用文本特征训练多模态特征提取模型的准确性。

在本申请实施例中，随机从至少一个文本来源中提取视频的文本信息，得到样本文本可实施为如图4所示的步骤：

在步骤401中：生成随机数；随机数小于视频的文本来源总数量；

在步骤402中：从视频的多个文本来源中随机选择随机数个文本来源；

在步骤403中：从选择的各文本来源中获取视频的文本信息，得到样本文本。

在一个实施例中，例如：分别将采用文本识别技术OCR从第一视频中提取文本信息、获取用户接口输入的文本信息、对第一视频的音频信号转换成文本信息、从第一视频的标题中获取文本信息，构成文本域；随机产生随机数3，则从上述4个文本域中随机选取3个文本域，然后从选择的3个文本域中获取视频的文本信息，进而得到样本文本。

本申请实施例通过产生随机数的方法来选择文本域进而选取样本文本，避免了采用单一的方式选取文本信息导致的文本信息对视频内容覆盖不全面的问题，大大提升了文本信息的准确性。

在步骤203中：提取样本帧的视觉特征并提取样本文本的文本特征，由视觉特征和文本特征构建视频的样本；

在步骤204中：采用同一视频的两个样本构建正样本对，并采用不同视频的样本构建负样本对；

下面分别对构建正样本对和负样本对进行说明：例如：对视频1进行抽帧处理得到的视频帧为A，B，C，D；对视频2进行抽帧处理得到的视频帧E，F，G，H；视频帧A，B，C，D，E，F，G，H共同构成了视频帧集合，对视频帧集合进行采样得到样本帧A，B，E，F；提取样本帧A，B，E，F的视觉特征A1，B1，E1，F1和文本特征A2，B2，E2，F2；则(A1，A2)和(B1，B2)构成正样本对。

在本申请实施例中构建负样本对之前，预先构造负样本队列，即将多模态特征提取模型输出的多模特征存储到负样本队列中；负样本队列为指定长度，且采用先入先出的方式存储多模特征，例如：

继续以上述例子为例进行说明，将上述样本帧A，B，E，F的视觉特征和文本特征输入多模态特征提取模型，输出多模特征A3，B3，E3，F3；将多模特征存储到负样本队列中；假设负样本队列的长度为4，即可存储4个样本帧的多模特征，A3，B3，E3，F3依序存储到负样本队列中，则在采用负样本队列时，依序从负样本队列中提取多模特征。

在本申请实施例中，构造负样本队列之后，构造负样本时可实施为如图5所示的步骤：

在步骤501中：获取第一视频的视觉特征和文本特征构建的第一样本；

在步骤502中：获取位于负样本队列中的第二视频的多模特征对应的样本作为第二样本，由第一样本和第二样本构建负样本对。

在一个实施例中，继续以上述例子为例：获取视频1的视觉特征A1，B1和文本特征A2，B2构建第一样本；获取负样本队列中的视频2的多模特征E3，F3构建第二样本，则(A1，B1)和E3构成负样本对。

在本申请实施例中，采用多模特征构建负样本队列，且采用先入先出的方式，这种利用特定数据结构的构造训练样本的方式避免了监督方法需要的大量人工标注以及数据量的限制，且节省了大量的内存空间；而且随着参数的迭代，负样本队列中存储的数据的准确性也会越来越高，进而再训练多模态特征提取模型时会更加的准确。

在步骤205中：采用正样本对、负样本对和预设目标函数训练多模态特征提取模型；

在本申请实施例中，采用负样本对和预设目标函数训练多模态特征提取模型，具体可实施如图6所示的步骤：

在步骤601中：将第一样本输入多模态特征提取模型得到第一样本的多模态特征；例如：将视频1的视觉特征A1，B1和文本特征A2，B2输入多模特征提取模型得到视频1的多模特征A3，B3。

在步骤602中：将第一样本的多模特征和负样本队列中第二样本的多模特征作为预设目标函数的输入参数，得到损失信息；即将A3，B3，和E3，F3做为预设目标函数的输入参数，得到损失信息。

在步骤603中：基于损失信息，更新多模态特征提取模型。

在一个实施例中，预测目标函数可以为对比学习损失函数。得到损失信息后，根据损失信息更新多模态特征提取模型，即在步骤206中：预设目标函数用于使正样本对中两样本的特征相似度高于负样本对中两样本的特征相似度。

在本申请实施例中，采用多模特征训练多模态特征提取模型，且基于正样本于负样本之间的相似度分数调整多模态特征提取模型，大大提高了多模态特征提取模型对视频的区分能力。

本申请实施例提供的多模态特征提取模型用于：

如图7所示，将同一样本的视觉特征和文本特征进行处理，得到视觉特征和文本特征的外积；将外积、视觉特征和文本特征通过至少一个全连接层进行特征提取，得到同一样本的多模特征。

本申请实施例中使用Deep&Wide结构来融合多模态的特征即其本身的特征，极大的提升了模型的表达能力。

如图8所示，基于相同的发明构思，提出一种多模态特征提取装置800，包括：

抽帧模块8001，被配置为针对视频集合中每个视频，对所述视频进行抽帧处理，得到视频帧集合；

采样模块8002，被配置为对所述视频帧集合进行采样得到样本帧，并对所述视频的文本信息进行采样得到样本文本；

样本构建模块8003，被配置为提取样本帧的视觉特征并提取所述样本文本的文本特征，由所述视觉特征和所述文本特征构建所述视频的样本；

样本对构建模块8004，被配置为采用同一视频的两个样本构建正样本对，并采用不同视频的样本构建负样本对；

训练模块8005，被配置为采用所述正样本对、所述负样本对和预设目标函数训练所述多模态特征提取模型；

在一个实施例中，所述抽帧模块，包括：

关键帧获取单元，被配置为获取所述视频的关键帧；

采用文本识别技术OCR从所述第一视频中提取文本信息；

获取用户接口输入的文本信息；

对所述第一视频的音频信号转换成文本信息；

从所述第一视频的标题中获取文本信息。

生成随机数；所述随机数小于所述视频的文本来源总数量；

在一个实施例中，所述多模态特征提取模型用于：

在一个实施例中，所述装置还包括：

获取第一视频的视觉特征和文本特征构建的第一样本；并，

将所述第一样本的所述多模特征和所述负样本队列中所述第二样本的多模特征作为所述预设目标函数的输入参数，得到损失信息；

基于所述损失信息，更新所述多模态特征提取模型。

在一个实施例中，所述预测目标函数为对比学习损失函数。

在介绍了本申请示例性实施方式的多模态特征提取模型训练方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的多模态特征提取模型训练方法中的步骤。

下面参照图9来描述根据本申请的这种实施方式的电子设备130。图9显示的电子设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的一种多模态特征提取模型训练方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种多模态特征提取模型训练方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的用于多模态特征提取模型训练的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种多模态特征提取模型训练方法，其特征在于，所述方法包括：

将所述外积、所述视觉特征和所述文本特征通过至少一个全连接层进行特征提取，得到所述同一样本的多模特征；

所述采用不同视频的样本构建负样本对，包括：

获取第一视频的视觉特征和文本特征构建的第一样本；并，

获取位于所述负样本队列中的第二视频的多模特征对应的样本作为第二样本，由所述第一样本和所述第二样本构建所述负样本对；

2.根据权利要求1所述的方法，其特征在于，所述对所述视频进行抽帧处理，得到视频帧集合，包括：

获取所述视频的关键帧；

确定所述视频中各帧图像与所述关键帧的相似度；

由所述剩余视频帧和所述关键帧得到所述视频帧集合。

3.根据权利要求1所述的方法，其特征在于，所述对所述视频的文本信息进行采样得到样本文本之前，所述方法还包括：

采用以下方法中的任一种或组合获取所述文本信息：

采用文本识别技术OCR从所述第一视频中提取文本信息；

获取用户接口输入的文本信息；

对所述第一视频的音频信号转换成文本信息；

从所述第一视频的标题中获取文本信息。

4.根据权利要求1所述的方法，其特征在于，所述对所述视频的文本信息进行采样得到样本文本，包括：

5.根据权利要求4所述的方法，其特征在于，所述随机从至少一个文本来源中提取所述视频的文本信息，得到所述样本文本，包括：

生成随机数；所述随机数小于所述视频的文本来源总数量；

6.根据权利要求1所述的方法，其特征在于，采用所述负样本对和预设目标函数训练所述多模态特征提取模型，包括：

将所述第一样本的所述多模特征和所述第二样本作为所述预设目标函数的输入参数，得到损失信息；

基于所述损失信息，更新所述多模态特征提取模型。

7.根据权利要求1-6中任一所述的方法，其特征在于，预测目标函数为对比学习损失函数。

8.一种多模态特征提取模型训练装置，其特征在于，所述装置包括：

特征提取模块，被配置为将所述外积、所述视觉特征和所述文本特征通过至少一个全连接层进行特征提取，得到所述同一样本的多模特征；

获取第一视频的视觉特征和文本特征构建的第一样本；并，

9.根据权利要求8所述的装置，其特征在于，所述抽帧模块，包括：

关键帧获取单元，被配置为获取所述视频的关键帧；

10.根据权利要求8所述的装置，其特征在于，所述采样模块执行对所述视频的文本信息进行采样得到样本文本之前，所述装置还包括：

采用文本识别技术OCR从所述第一视频中提取文本信息；

获取用户接口输入的文本信息；

对所述第一视频的音频信号转换成文本信息；

从所述第一视频的标题中获取文本信息。

11.根据权利要求8所述的装置，其特征在于，所述采样模块执行对所述视频的文本信息进行采样得到样本文本时，被配置为：

12.根据权利要求11所述的装置，其特征在于，所述采样模块执行所述随机从至少一个文本来源中提取所述视频的文本信息，得到所述样本文本时，被配置为：

生成随机数；所述随机数小于所述视频的文本来源总数量；

13.根据权利要求8所述的装置，其特征在于，所述训练模块执行采用所述负样本对和预设目标函数训练所述多模态特征提取模型时，被配置为：

基于所述损失信息，更新所述多模态特征提取模型。

14.根据权利要求8-13中任一所述的装置，其特征在于，预测目标函数为对比学习损失函数。

15.一种电子设备，其特征在于，包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任何一项所述的方法。

16.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行权利要求1-7任何一项所述的方法。