CN115205969A

CN115205969A - 视频多模态分类方法、装置、存储介质以及电子设备

Info

Publication number: CN115205969A
Application number: CN202210770925.9A
Authority: CN
Inventors: 胡郡郡; 唐大闰
Original assignee: Beijing Minglue Zhaohui Technology Co Ltd
Current assignee: Beijing Minglue Zhaohui Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-18

Abstract

本发明公开了一种视频多模态分类方法、装置、存储介质以及电子设备。该方法包括：从测试视频中抽取视频帧，得到第一数量的目标图片；识别目标图片中的文本内容，得到目标文本；将目标图片和目标文本发送至已训练的网络结构模型；通过已训练的网络结构模型对测试视频进行类别预测，确定测试视频的目标类别。本发明解决了无法对视频特征进行多模态融合并完成分类任务的技术问题。

Description

视频多模态分类方法、装置、存储介质以及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频多模态分类方法、装置、存储介质以及电子设备。

背景技术

随着互联网以及大数据存储等技术的发展，视频数据已经成为随处可见的媒体存储形式。如何对视频数据中包含的行为进行分类已经成为一个热点问题。相比静态图片，动态的视频数据具有数据变化性大、帧间冗余性高等特点，视频中包含的行为具有类间差异模糊、类内变化大等特点；上述特点都增加了对视频中的行为进行分类的难度。现有技术中，视频的行为类别获取方法主要分为两类，一类是基于手工设计特征的视频的行为类别获取方法，另一类是基于深度学习的视频的行为类别获取方法，但准确率低，处理过程需要消耗较较长的时间。

发明内容

本发明实施例提供了一种视频多模态分类方法、装置、存储介质以及电子设备，以至少解决无法对视频特征进行多模态融合并完成分类任务的技术问题。

根据本发明实施例的一个方面，提供了一种视频多模态分类方法，包括：从测试视频中抽取视频帧，得到第一数量的目标图片；识别上述目标图片中的文本内容，得到目标文本；将上述目标图片和上述目标文本发送至已训练的网络结构模型；通过上述已训练的网络结构模型对上述测试视频进行类别预测，确定上述测试视频的目标类别。

根据本发明实施例的另一方面，提供了一种视频多模态分类装置，包括：抽取模块，用于从测试视频中抽取视频帧，得到第一数量的目标图片；识别模块，用于识别上述目标图片中的文本内容，得到目标文本；发送模块，用于将上述目标图片和上述目标文本发送至已训练的网络结构模型；预测模块，用于通过上述已训练的网络结构模型对上述测试视频进行类别预测，确定上述测试视频的目标类别。

作为一种可选的示例，上述抽取模块包括：确定单元，用于确定从上述测试视频中抽取上述目标图片的上述第一数量；第一处理单元，用于将上述测试视频的帧数比上上述第一数量，得到参考值；第一抽取单元，用于从上述测试视频中每上述参考值帧视频帧中抽取一帧视频帧作为一张上述目标图片。

作为一种可选的示例，上述发送模块包括：获取单元，用于获取样本视频；第二抽取单元，用于抽取上述样本视频中的视频帧，得到第二数量的样本图片；识别单元，用于识别上述样本图片中的文本内容，得到样本文本；第二处理单元，用于将上述样本图片和上述样本文本输入至编码器模块，得到融合特征；训练单元，用于使用上述融合特征训练上述网络结构模型，得到上述已训练的网络结构模型。

作为一种可选的示例，上述第二处理单元包括：第一发送子单元，用于将上述样本图片发送至图像编码器中，得到上述样本图片的图像特征；第二发送子单元，用于将上述样本文本发送至文本编码器中，得到上述样本文本的文本特征；拼接子单元，用于对上述图像特征和上述文本特征进行拼接，得到上述融合特征。

作为一种可选的示例，上述训练单元包括：测试子单元，用于将上述融合特征输入到上述网络结构模型中，由上述网络结构模型对上述融合特征进行类别测试，得到上述样本视频的测试结果；计算子单元，用于根据上述测试结果计算目标损失；传播子单元，用于将上述目标损失反向传播至上述网络结构模型中，得到上述已训练的网络结构模型。

作为一种可选的示例，上述测试子单元还用于：调整上述融合特征的时序，得到第一特征；对上述第一特征执行降维操作，得到降维后的第二特征；对上述第二特征进行平均池化操作，得到目标特征；由上述网络结构模型的分类器对上述目标特征进行分类，得到上述样本视频的上述测试结果。

作为一种可选的示例，上述装置还包括：计算模块，用于计算上述样本视频中的每一个视频与标准视频的视频距离；确定模块，用于根据上述视频距离，确定上述样本视频中的正样本视频和负样本视频。

作为一种可选的示例，上述确定模块包括：确定单元，用于从上述样本视频中随机选择多个视频作为上述正样本视频，并确定上述负样本视频，其中，上述负样本视频的上述视频距离大于上述正样本的上述视频距离，且小于上述正样本的上述视频距离与调节参数的和；或者从上述样本视频中随机选择多个视频作为上述负样本视频，并确定上述正样本视频，其中，上述正样本视频的上述视频距离大于上述负样本的上述视频距离与调节参数的差，且小于上述负样本的上述视频距离。

根据本发明实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被处理器运行时执行上述视频多模态分类方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过上述计算机程序执行上述的视频多模态分类方法。

在本申请的上述视频多模态分类方法可用于深度学习技术的计算机视觉的过程中，在本发明实施例中，采用了从测试视频中抽取视频帧，得到第一数量的目标图片；识别上述目标图片中的文本内容，得到目标文本；将上述目标图片和上述目标文本发送至已训练的网络结构模型；通过上述已训练的网络结构模型对上述测试视频进行类别预测，确定上述测试视频的目标类别的方法，由于在上述方法中，通过将测试视频的目标图片和目标文本发送至已训练的网络结构模型，确定测试视频的目标类别，从而实现了对视频特征进行多模态融合并完成分类任务的目的，进而解决了无法对视频特征进行多模态融合并完成分类任务的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频多模态分类方法的流程图；

图2是根据本发明实施例的一种可选的视频多模态分类方法的模型图；

图3是根据本发明实施例的一种可选的视频多模态分类装置的结构示意图；

图4是根据本发明实施例的一种可选的电子设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的第一方面，提供了一种视频多模态分类方法，可选地，如图1所示，上述方法包括：

S102，从测试视频中抽取视频帧，得到第一数量的目标图片；

S104，识别目标图片中的文本内容，得到目标文本；

S106，将目标图片和目标文本发送至已训练的网络结构模型；

S108，通过已训练的网络结构模型对测试视频进行类别预测，确定测试视频的目标类别。

可选地，本实施例中，第一数量可以随着测试视频的长度变化，或者不同长度的测试视频对应同一个第一数量。网络结构模型可以为Inception模块，核心思想就是将不同的卷积层通过并联的方式结合在一起，经过不同卷积层处理的结果矩阵在深度这个维度拼接起来，形成一个更深的矩阵。可以对尺寸较大的矩阵先进行降维处理的同时，在不同尺寸上对视觉信息进行聚合，方便从不同尺度对特征进行提取。

可选地，本实施例中，获取测试视频段，对测试视频进行抽样，等帧数均匀抽取视频帧，得到第一数量的目标图片，例如测试视频抽取的帧数为N，获取测试视频的帧数据为N*C*H*W，其中N为帧数，为超参数，可以调节，C为输入图片的通道数，W，H为输入图片的长宽。对目标图片执行光学字符识别技术，每一个目标图片对应一个目标文本，得到第一数量的目标文本，将所有目标图片和目标图片输入至已训练的网络结构模型中，根据目标图片和目标文本对测试视频进行类别测试，确定测试视频的目标类别。

可选地，本实施例中，通过将测试视频的目标图片和目标文本发送至已训练的网络结构模型，确定测试视频的目标类别，从而实现了对视频特征进行多模态融合并完成分类任务的目的，进而解决了无法对视频特征进行多模态融合并完成分类任务的技术问题。

作为一种可选的示例，从测试视频中抽取视频帧，得到第一数量的目标图片包括：

确定从测试视频中抽取目标图片的第一数量；

将测试视频的帧数比上第一数量，得到参考值；

从测试视频中每参考值帧视频帧中抽取一帧视频帧作为一张目标图片。

可选地，本实施例中，确定从测试视频中抽取目标图片的第一数量，将测试视频的帧数比上第一数量，取得的商即为参考值，每参考值帧视频帧抽取一帧视频帧，可以抽取相同位置的，例如都抽取第一帧，则结果是均匀抽取，也可以不均匀抽取，即每参考值帧视频帧中随机抽取一帧作为一张目标图片，得到第一数量的目标图片。例如，确定第一数量为5，测试视频的帧数为10，即得到参考值为2，从测试视频中每2帧视频帧中抽取一帧视频帧作为一张目标图片，最后得到5张目标图片。

作为一种可选的示例，将目标图片和目标文本发送至已训练的网络结构模型包括：

获取样本视频；

抽取样本视频中的视频帧，得到第二数量的样本图片；

识别样本图片中的文本内容，得到样本文本；

将样本图片和样本文本输入至编码器模块，得到融合特征；

使用融合特征训练网络结构模型，得到已训练的网络结构模型。

可选地，本实施例中，获取抽样视频，从样本视频中等帧数均匀抽取视频帧，得到第二数量的样本图片，通过光学字符识别技术识别样本图片，得到第二数量的样本图片，将样本图片和样本文本输入至编码器，得到样本视频的融合特征。使用融合特征训练网络结构模型，得到已训练的网络结构模型。

作为一种可选的示例，将样本图片和样本文本输入至编码器模块，得到融合特征包括：

将样本图片发送至图像编码器中，得到样本图片的图像特征；

将样本文本发送至文本编码器中，得到样本文本的文本特征；

对图像特征和文本特征进行拼接，得到融合特征。

可选地，本实施例中，将样本图片输入至图像编码器中，通过编码得到图像特征，将样本文本输入至文本编码器，通过编码，得到文本特征，对图像特征和文本特征在时序维度上进行拼接，得到融合特征，例如图像特征为N*D维，文本特征为M*D维，通过拼接得到(M+N)D维的融合特征。

作为一种可选的示例，使用融合特征训练网络结构模型，得到已训练的网络结构模型包括：

将融合特征输入到网络结构模型中，由网络结构模型对融合特征进行类别测试，得到样本视频的测试结果；

根据测试结果计算目标损失；

将目标损失反向传播至网络结构模型中，得到已训练的网络结构模型。

可选地，本实施例中，将融合特征输入至网络结构模型中，网络结构模型的分类器个那句融合特征对样本视频进行类别测试，得到样本视频的测试结果，根据测试结果计算目标损失，损失，也为损失函数，时机器学习中用来估量模型的预测值与真实值的不一致程度，损失函数越小，表示模型性能越好。将目标损失反向传播至网络结构模型中，得到已训练的网络结构模型。

作为一种可选的示例，将融合特征输入到网络结构模型中，由网络结构模型对融合特征进行类别测试，得到样本视频的测试结果包括：

调整融合特征的时序，得到第一特征；

对第一特征执行降维操作，得到降维后的第二特征；

对第二特征进行平均池化操作，得到目标特征；

由网络结构模型的分类器对目标特征进行分类，得到样本视频的测试结果。

可选地，本实施例中，将M+N)D维的融合特征输入至网络结构模型，对融合特征进行调整时序，得到M+N)D维的第一特征，将第一特征输入至下采样模型中，通过降维操作，得到降维后的K*D的第二特征，最后对第二特征进行平均池化操作，得到1*D的目标特征，通过网络结构模型对目标特征进行分类测试，得到样本视频的测试结果。

作为一种可选的示例，上述方法还包括：

计算样本视频中的每一个视频与标准视频的视频距离；

根据视频距离，确定样本视频中的正样本视频和负样本视频。

可选地，本实施例中，使用半难样本挖掘方法挖掘正负样本视频，获取标准视频，计算样本视频中的每个视频与标准视频的视频距离，根据得到的视频距离确定正样本视频和负样本视频。

作为一种可选的示例，根据视频距离，确定样本视频中的正样本视频和负样本视频包括：

从样本视频中随机选择多个视频作为正样本视频，并确定负样本视频，其中，负样本视频的视频距离大于正样本的视频距离，且小于正样本的视频距离与调节参数的和；或者

从样本视频中随机选择多个视频作为负样本视频，并确定正样本视频，其中，正样本视频的视频距离大于负样本的视频距离与调节参数的差，且小于负样本的视频距离。

可选地，本实施例中，确定调节参数，根据调节参数和样本视频中的每一个视频与标准视频的视频距离确定正样本视频和负样本视频，其中，正样本视频距离小于负样本视频距离，且大于负样本视频距离与调节参数的差，负样本视频距离小于正样本视频距离与调节参数的和，且大于正样本视频距离。

可选地，结合一种示例进行说明，本申请涉及一种视频多模态分类方法，通过使用Inception网络解落模型加强时序尺度不变性，使用Semi-hard半难样本挖掘技术提高对难样本的分类准确率。模型的实现流程如图2所示。

A.训练阶段：

步骤1:对样本视频进行随机抽样，所有样本视频抽取的帧数都为N，获取每个视频的帧数据N*C*H*W，其中N为帧数，为超参数，可以调节，C为样本图片的通道数，W，H为样本图片的长和宽；

步骤2:将样本图片发送至Image Encoder图片编码器中获取特征，Image Encoder可以选取经过大规模图片数据预训练的模型，比如Vit视觉变压器，生成N*D维的图像特征；

步骤3:对样本图片执行OCR光学字符识别技术，识别出样本文本，然后发送至TextEncoder文本编码器中获取文本特征，维度为M*D；

步骤4:将图像特征和文本特征在时序维度上进行concatenate拼接，得到(M+N)*D维的融合特征；

步骤5:将融合特征发送至Inception网络结构模块，使得融合特征在时序上能够适应不同的尺度，增强时序尺度不变性，继续得到(M+N)*D维的第一特征。然后发送至DownSampling下采样模块，进行降维操作，得到K*D维的第二特征；

步骤6:对第二特征进行Average Pooling平均池化操作得到1*D的目标特征。后由网络结构模型的分类器进行类别预测，并计算损失，反向传播更新模型参数；

步骤7:使用Semi-hard mining半难样本挖掘方法挖掘正负难样本，并重新送入网络结构模型中训练。对于semi-hard negative mining负样本视频,挖掘出来的负样本视频与标准视频之间的距离比正样本视频和与标准视频之间的距离要大，但是距离不足够大，公式表示为：d(a,p)<d(a,n)<d(a,p)+margin(调节参数)。对于semi-hard positivemining正半难样本，挖掘出来的正样本与标准视频之间的距离比负样本和与标准视频之间的距离要小，但是距离不足够小，公式表示为：d(a,n)-margin<d(a,p)<d(a,n)。其中d(a,p)为正样本视频与标准视频之间的距离，d(a,n)为负样本视频与标准视频之间的距离。

B.测试阶段：

步骤1：将测试视频按照训练阶段中的步骤1的方法进行抽帧，得到目标图片；

步骤2：对目标图片进行OCR文本识别得到目标文本，将目标图片和目标文本同时送入到已训练的网络结构模型中，最终预测出测试视频的目标类别。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本申请实施例的另一方面，还提供了一种视频多模态分类装置，如图3所示，包括：

抽取模块302，用于从测试视频中抽取视频帧，得到第一数量的目标图片；

识别模块304，用于识别目标图片中的文本内容，得到目标文本；

发送模块306，用于将目标图片和目标文本发送至已训练的网络结构模型；

预测模块308，用于通过已训练的网络结构模型对测试视频进行类别预测，确定测试视频的目标类别。

作为一种可选的示例，抽取模块包括：

确定单元，用于确定从测试视频中抽取目标图片的第一数量；

第一处理单元，用于将测试视频的帧数比上第一数量，得到参考值；

第一抽取单元，用于从测试视频中每参考值帧视频帧中抽取一帧视频帧作为一张目标图片。

作为一种可选的示例，发送模块包括：

获取单元，用于获取样本视频；

第二抽取单元，用于抽取样本视频中的视频帧，得到第二数量的样本图片；

识别单元，用于识别样本图片中的文本内容，得到样本文本；

第二处理单元，用于将样本图片和样本文本输入至编码器模块，得到融合特征；

训练单元，用于使用融合特征训练网络结构模型，得到已训练的网络结构模型。

作为一种可选的示例，第二处理单元包括：

第一发送子单元，用于将样本图片发送至图像编码器中，得到样本图片的图像特征；

第二发送子单元，用于将样本文本发送至文本编码器中，得到样本文本的文本特征；

拼接子单元，用于对图像特征和文本特征进行拼接，得到融合特征。

作为一种可选的示例，训练单元包括：

测试子单元，用于将融合特征输入到网络结构模型中，由网络结构模型对融合特征进行类别测试，得到样本视频的测试结果；

计算子单元，用于根据测试结果计算目标损失；

传播子单元，用于将目标损失反向传播至网络结构模型中，得到已训练的网络结构模型。

作为一种可选的示例，测试子单元还用于：

调整融合特征的时序，得到第一特征；

对第一特征执行降维操作，得到降维后的第二特征；

对第二特征进行平均池化操作，得到目标特征；

作为一种可选的示例，上述装置还包括：

计算模块，用于计算样本视频中的每一个视频与标准视频的视频距离；

确定模块，用于根据视频距离，确定样本视频中的正样本视频和负样本视频。

作为一种可选的示例，确定模块包括：

确定单元，用于从样本视频中随机选择多个视频作为正样本视频，并确定负样本视频，其中，负样本视频的视频距离大于正样本的视频距离，且小于正样本的视频距离与调节参数的和；或者

本实施例的其他示例请参见上述示例，在此不在赘述。

图4是根据本申请实施例的一种可选的电子设备的结构框图，如图4所示，包括处理器402、通信接口404、存储器406和通信总线408，其中，处理器402、通信接口404和存储器406通过通信总线408完成相互间的通信，其中，

存储器406，用于存储计算机程序；

处理器402，用于执行存储器406上所存放的计算机程序时，实现如下步骤：

从测试视频中抽取视频帧，得到第一数量的目标图片；

识别目标图片中的文本内容，得到目标文本；

将目标图片和目标文本发送至已训练的网络结构模型；

通过已训练的网络结构模型对测试视频进行类别预测，确定测试视频的目标类别。

可选地，在本实施例中，上述的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，上述存储器406中可以但不限于包括上述视频多模态分类装置中的抽取模块302、识别模块304、发送模块306以及预测模块308。此外，还可以包括但不限于上述请求的处理装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU(Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图4所示的结构仅为示意，实施上述视频多模态分类方法的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图4其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图4所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被处理器运行时执行上述视频多模态分类方法中的步骤。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频多模态分类方法，其特征在于，包括：

从测试视频中抽取视频帧，得到第一数量的目标图片；

识别所述目标图片中的文本内容，得到目标文本；

将所述目标图片和所述目标文本发送至已训练的网络结构模型；

通过所述已训练的网络结构模型对所述测试视频进行类别预测，确定所述测试视频的目标类别。

2.根据权利要求1所述的方法，其特征在于，所述从测试视频中抽取视频帧，得到第一数量的目标图片包括：

确定从所述测试视频中抽取所述目标图片的所述第一数量；

将所述测试视频的帧数比上所述第一数量，得到参考值；

从所述测试视频中每所述参考值帧视频帧中抽取一帧视频帧作为一张所述目标图片。

3.根据权利要求1所述的方法，其特征在于，所述将所述目标图片和所述目标文本发送至已训练的网络结构模型包括：

获取样本视频；

抽取所述样本视频中的视频帧，得到第二数量的样本图片；

识别所述样本图片中的文本内容，得到样本文本；

将所述样本图片和所述样本文本输入至编码器模块，得到融合特征；

使用所述融合特征训练所述网络结构模型，得到所述已训练的网络结构模型。

4.根据权利要求3所述的方法，其特征在于，所述将所述样本图片和所述样本文本输入至编码器模块，得到融合特征包括：

将所述样本图片发送至图像编码器中，得到所述样本图片的图像特征；

将所述样本文本发送至文本编码器中，得到所述样本文本的文本特征；

对所述图像特征和所述文本特征进行拼接，得到所述融合特征。

5.根据根据权利要求3所述的方法，其特征在于，所述使用所述融合特征训练所述网络结构模型，得到所述已训练的网络结构模型包括：

将所述融合特征输入到所述网络结构模型中，由所述网络结构模型对所述融合特征进行类别测试，得到所述样本视频的测试结果；

根据所述测试结果计算目标损失；

将所述目标损失反向传播至所述网络结构模型中，得到所述已训练的网络结构模型。

6.根据根据权利要求5所述的方法，其特征在于，所述将所述融合特征输入到所述网络结构模型中，由所述网络结构模型对所述融合特征进行类别测试，得到所述样本视频的测试结果包括：

调整所述融合特征的时序，得到第一特征；

对所述第一特征执行降维操作，得到降维后的第二特征；

对所述第二特征进行平均池化操作，得到目标特征；

由所述网络结构模型的分类器对所述目标特征进行分类，得到所述样本视频的所述测试结果。

7.根据根据权利要求3至6任意一项所述的方法，其特征在于，所述方法还包括：

计算所述样本视频中的每一个视频与标准视频的视频距离；

根据所述视频距离，确定所述样本视频中的正样本视频和负样本视频。

8.根据根据权利要求7所述的方法，其特征在于，所述根据所述视频距离，确定所述样本视频中的正样本视频和负样本视频包括：

从所述样本视频中随机选择多个视频作为所述正样本视频，并确定所述负样本视频，其中，所述负样本视频的所述视频距离大于所述正样本的所述视频距离，且小于所述正样本的所述视频距离与调节参数的和；或者

从所述样本视频中随机选择多个视频作为所述负样本视频，并确定所述正样本视频，其中，所述正样本视频的所述视频距离大于所述负样本的所述视频距离与调节参数的差，且小于所述负样本的所述视频距离。

9.一种视频多模态分类方法，其特征在于，包括：

抽取模块，用于从测试视频中抽取视频帧，得到第一数量的目标图片；

识别模块，用于识别所述目标图片中的文本内容，得到目标文本；

发送模块，用于将所述目标图片和所述目标文本发送至已训练的网络结构模型；

预测模块，用于通过所述已训练的网络结构模型对所述测试视频进行类别预测，确定所述测试视频的目标类别。

10.一种计算机可读的存储介质，所述计算机可读的存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行所述权利要求1至8任一项中所述的方法。

11.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。