CN117789099A

CN117789099A - 视频特征提取方法及装置、存储介质及电子设备

Info

Publication number: CN117789099A
Application number: CN202410205925.3A
Authority: CN
Inventors: 高鹏; 舒蕾
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-03-29
Anticipated expiration: 2044-02-26
Also published as: CN117789099B

Abstract

本发明提供一种视频特征提取方法及装置、存储介质及电子设备，包括：基于特征提取信号确定至少一个视频，获取视频的音频数据和各个视频帧；调用多模态视频特征提取模型对音频数据和各个视频帧进行处理，输出视频的视频特征数据；视频特征数据包括视频内容特征和自然语言特征处理结果，视频内容特征包含视频的各个视频帧的特征权重以及时序位置编码。本发明使用结合多个应用任务进行训练得到的多模态视频特征提取模型提取特征，提取的视频特征数据适用于使用应用任务构建的各种应用场景，提取的视频特征数据的应用更加广泛，且视频特征数据包括视频帧的特征权重以及时序位置编码，提高视频特征数据的准确性。

Description

视频特征提取方法及装置、存储介质及电子设备

技术领域

本发明涉及视频特征处理技术领域，特别涉及一种视频特征提取方法及装置、存储介质及电子设备。

背景技术

随着计算机技术的发展，视频处理技术的应用越来越广泛，通过视频处理技术，提取视频中的特征，然后使用提取到的特征满足用户的各种需求。例如实现视频分类、查找视频以及视频推荐等各种任务。

应用传统的特征提取方式提取视频中的特征时，通常是对视频的视频帧的特征进行提取，然后将各帧的特征融合成视频的特征。使用传统的特征提取方式忽略了视频帧间的时序特征以及特征权重，导致提取出的视频特征难以准确的表征视频，难以满足相应任务的需求。

发明内容

有鉴于此，本发明提供一种视频特征提取方法及装置、存储介质及电子设备，应用本发明提供的方案提取的视频特征中包含视频帧的特征权重以及时序位置编码，提高视频特征提取的准确性，使得提取的视频特征更加准确的表征视频。

为实现上述目的，本发明实施例提供如下技术方案：

本发明第一方面公开一种视频特征提取方法，包括：

基于特征提取信号确定待提取特征的至少一个视频；

获取所述视频的音频数据和各个视频帧；

调用预先训练完成的多模态视频特征提取模型对所述音频数据和各个所述视频帧进行处理，输出所述视频的视频特征数据；所述多模态视频特征提取模型为结合多个应用任务进行训练得到的模型；所述视频特征数据包括视频内容特征和自然语言特征处理结果，所述视频内容特征包含所述视频的各个视频帧的特征权重以及时序位置编码。

本发明第二方面公开一种视频特征提取装置，包括：

确定单元，用于基于特征提取信号确定待提取特征的至少一个视频；

获取单元，用于获取所述视频的音频数据和各个视频帧；

输出单元，用于调用预先训练完成的多模态视频特征提取模型对所述音频数据和各个所述视频帧进行处理，输出所述视频的视频特征数据；所述多模态视频特征提取模型为结合多个应用任务进行训练得到的模型；所述视频特征数据包括视频内容特征和自然语言特征处理结果，所述视频内容特征包含所述视频的各个视频帧的特征权重以及时序位置编码。

本发明第三方面公开一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上所述的视频特征提取方法。

本发明第四方面公开一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上所述的视频特征提取方法。

与现有技术相比，本发明具有以下优点：

本发明提供一种视频特征提取方法及装置、存储介质及电子设备，该方案包括：基于特征提取信号确定待提取特征的至少一个视频，获取视频的音频数据和各个视频帧；调用预先训练完成的多模态视频特征提取模型对音频数据和各个视频帧进行处理，输出视频的视频特征数据；多模态视频特征提取模型为结合多个应用任务进行训练得到的模型；视频特征数据包括视频内容特征和自然语言特征处理结果，视频内容特征包含视频的各个视频帧的特征权重以及时序位置编码。本发明提供的方案提取特征所使用的多模态视频特征提取模型为结合多个应用任务进行训练得到的模型，由此，多模态视频特征提取模型所提取的视频特征数据可以适用于使用应用任务构建的各种应用场景中，使得提取的视频特征数据的应用更加广泛，提取的视频特征数据包括视频帧的特征权重以及时序位置编码，提高视频特征数据的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种视频特征提取方法的流程图；

图2为本发明实施例提供的多模态视频特征提取模型提取视频特征数据的流程图；

图3为本发明实施例提供的基于预设的权重聚类信息，对每个视频帧的升维特征数据进行处理，得到每个视频帧的帧级特征数据的方法流程图；

图4为本发明实施例提供的对多模态视频特征提取模型训练的流程图；

图5为本发明实施例提供的训练多模态视频特征提取模型的网络结构示意图；

图6为本发明实施例提供的可分离式VLAD模块的结构示意图；

图7为本发明实施例提供的视频检索的场景示例图；

图8为本发明实施例提供的视频检索AI问答的场景示例图；

图9为本发明实施例提供的新闻内容推荐重排序阶段打散的场景示例图；

图10为本发明实施例提供的一种视频特征提取装置的结构示意图；

图11为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

术语解释：

可分离式VLAD模块：VLAD（Vector of Locally Aggregated Descriptors）是其中一种将若干局部特征压缩为一个特定大小全局特征的方法，通过聚类，实现了将特征降维。本发明的可分离式VLAD模块，是基于原始的VLAD结构的模块；该模块在本发明中是提供帧间权重的主要结构，本发明提供的可分离式VLAD结构中的局部特征压缩中累加方式与原始的VLAD结构不同。

VIT模型：即vision transformer，其想法是将在NLP领域的基于自注意力机制transformer模型用于图像任务中，相比于图像任务中的传统的基于卷积神经网络模型，VIT模型在大数据集上有着比卷积网络更强的效果和更节约的成本。

CLIP模型：OpenAI提出的图文多模态对齐训练任务的预训练模型。

ASR模型：即自动语音识别，采用该模块可以将与视频匹配的语音内容转换成文字，用于后续的自然语言内容向量的提取。

VTC任务：Video-Text-Contrastive，视频-文本对比学习任务，可用于训练多模态视频特征提取模型。

VTM任务：Video-Text-Matching，视频-文本配对任务，可用于训练多模态视频特征提取模型。

VC任务：Video-Caption，视频-文本生成任务，可以用于训练多模态视频特征提取模型。

常见的视频检索、视频推荐、视频问答任务均依赖于准确的视频表征向量。互联网上有海量非结构化的视频数据，只有对其有效表征，才能实现更高精度的视频检索。视频推荐的召回、排序、内容打散阶段均需要视频表征向量参与运算，只有视频表征准确，才能实现符合用户兴趣的视频个性化推荐。视频问答任务中涉及多模态特征的融合，只有在预训练任务中采用合理的策略实现视频表征向量和文本表征向量的对齐，才能提高问答任务中语句生成的准确性和合理性。

目前提取视频特征的方式通常是对视频的各静态帧的图片进行特征提取，再使用池化等特征融合方法聚合成视频特征，传统的特征提取方式由于仅采用简单视频帧特征融合的方式无法在获取视频表征向量过程中引入各帧间的语义特征权重，因此会造成视频特征提取的结果准确性降低，并且由于仅采用简单视频帧特征融合的方式会忽略视频帧间的时序特征，因此会导致视频特征无法包含实际的事物运动信息。在下游运动检测、视频问答等场景下，使用传统方式获取的视频特征无法实现相应的任务需求。

为了解决上述的问题，本发明提供一种视频特征提取方案，使用本发明提供的方案提取的视频特征数据中包含视频的各个视频帧的特征权重以及时序位置编码，提取的视频特征数据可以完整的表征视频，提高视频特征数据的准确性，使得提取的视频特征数据满足于各种任务的需求。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。本发明可以应用于处理器或服务器。

参照图1，为本发明实施例提供的一种视频特征提取方法的流程图，具体说明如下所述。

S101、基于特征提取信号确定待提取特征的视频。

待提取特征的视频可以为视频库中的视频，此处的视频可以为多个视频，每个视频提取的特征的过程是相同的。

可以是收到应用系统发送的视频特征提取信号后，在与应用系统对应的视频库中确定待提取特征的视频。

S102、获取视频的音频数据和各个视频帧。

将视频的音频内容和图像内容分离，并将音频内容作为视频的音频数据；对视频的图像内容进行抽帧处理，得到视频的各个视频帧。

在对视频的图像内容进行抽帧处理时，可以按照固定间隔进行抽帧，示例性的，按照固定的时间间隔抽帧，具体的，以1秒作为固定的时间间隔进行抽帧。

在将视频的音频内容和图像内容分离后，采用ASR将音频数据转换为自然语言数据，经由与应用任务相符的自然语言模型获取自然语言特征处理结果。

S103、调用预先训练完成的多模态视频特征提取模型对音频数据和各个视频帧进行处理，输出视频的视频特征数据；多模态视频特征提取模型为结合多个应用任务进行训练得到的模型；视频特征数据包括视频内容特征和自然语言特征处理结果，视频内容特征包含视频的各个视频帧的特征权重以及时序位置编码。

将音频数据和各个视频帧输入多模态视频特征提取模型中，使得多模态视频特征提取模型对音频数据和各个视频帧进行处理，输出视频的视频特征数据。

多模态视频特征提取模型中包含用于提取视频内容特征的第一提取模型以及用于获取自然语言特征处理结果的第二提取模型，第二提取模型中包含与每个应用任务对应的语言特征提取架构；需要说明的是，不同的应用任务获取的自然语言特征处理结果的内容可能有所不同。

多模态视频特征提取模型在训练的过程中结合多个应用任务进行训练，因此，多模态视频特征提取模型所提取的视频特征数据满足使用各个应用任务构建的应用系统。进一步的，多个应用任务可以为VTC任务、VTM任务以及VC任务等，不同的应用任务可以实现不同的功能，通过使用各个应用任务构建应用系统，可以满足用户不同的需求。

进一步的，VTC任务也可以称为VTC模块，该任务将多模态视频特征提取模型提取的连续视频内容向量（即视频内容特征）和文本内容向量（即自然语言特征）做进一步的对比学习，最大化相匹配的文字-视频对之间的相似度分数，使得视频特征与文字特征在高度相似度区间进行对齐，该任务能更好的满足关于视频搜索、排序等应用场景的需求。

VTM任务也可以称为VTM模块，该模块基于视频和字幕样本构建“正例对”和“负例对”，采用端到端的形式进行模型二分类以判断文字-视频对是否匹配，端到端的模型结构能更好的采用非线性结构衡量语义相似度，让模型在整体的高低相似度语义空间进一步对齐文本和视频的语义空间，该任务能更好的服务推荐场景的内容打散需求。

VC任务也可以成为VC模块，该模块结合视频内容向量特征和文本内容特征，构建语言模型并采用自回归生成模型结构生成与视频相符的内容描述；该任务能更好的服务视频问答场景的需求。

例如，在问答场景下，可以使用VC任务构建应用系统，VC任务可以结合视频内容向量特征（即视频内容特征）和文本内容特征（即自然语言特征），构建语言模型并采用自回归生成模型结构生成与视频相符的内容描述，从而满足视频问答场景的需求。

又如，用户在使用语句搜索视频的场景下，可以使用VTC任务和VTM任务构建应用系统，然后通过输入关于视频的搜索语句，搜索与该语句对应的视频。

需要说明的是，多模态视频特征提取模型输出的视频特征数据包括视频内容特征和自然语言特征处理结果，视频内容特征包含视频的各个视频帧的特征权重以及时序位置编码；由此，视频特征数据中包含运动流光特征和图像空间特征，结合多个应用任务训练多模态视频特征提取模型，使得多模态视频特征提取模型输出的视频特征数据更能泛化对齐使用各个应用任务实现的应用场景，提高视频特征数据的准确性。

参照图2，为本发明实施例提供的多模态视频特征提取模型提取视频特征数据的流程图，具体说明如下所述。

S201、提取每个视频帧的图片特征数据。

优选的，使用多模态视频特征提取模型中的CLIP模型提取每个视频帧的图片特征数据，图片特征数据为视频帧的静态特征数据。

多模态视频特征提取模型还可以使用其他可提取图片特征的模型提取视频帧的图片特征数据，进一步的，CLIP模型中的参数不需要更新。

S202、对每个视频帧的图片特征数据进行升维处理，得到每个视频帧的升维特征数据。

进一步的，使用可分离式VLAD模块对各个视频帧的图片特征数据进行处理，具体的处理流程为步骤S202至步骤S203。

使用可分离式VLAD模块中的第一全连接层对每个视频帧的图片特征数据进行升维处理，从而得到每个视频帧的升维特征数据。

示例性的，使用CLIP模型提取出的图片特征数据的特征维度为N，对视频而言，视频的特征数据的特征维度为；将视频帧的图片特征数据进行升维处理后，升维特征数据的特征维度变为/>，因此，视频的特征数据在升维后特征维度变为/>，其中，L为视频帧的帧数，N为CLIP模型的特征维度，/>为升维后的维度倍率。

S203、基于预设的权重聚类信息，对每个视频帧的升维特征数据进行处理，得到每个视频帧的帧级特征数据，权重聚类信息包含特征分组信息和聚类中心信息。

特征分组信息中包含分组时的组数，聚类中心信息中包含各个聚类中心以及聚类中心的个数。权重聚类信息为在训练多模态视频特征提取模型时设置的信息。

参照图3，为本发明实施例提供的基于预设的权重聚类信息，对每个视频帧的升维特征数据进行处理，得到每个视频帧的帧级特征数据的方法流程图，具体说明如下所述。

S301、对于每个视频帧，基于预设的权重聚类信息中的特征分组信息，对视频帧的升维特征数据进行分组，得到视频帧的各个特征组。

对于每个视频帧，使用可分离式VLAD模块中的Reshape模块对视频帧的升维特征数据进行分组，得到该视频帧的各个特征组，需要说明的是，对视频帧的升维特征数据进行分组时得到的特征组的组数等于特征分组信息中的组数。其中，Reshape模块输出的特征可以称为第一支路特征。

进一步的，在对视频帧的升维特征数据进行分组后，视频帧的特征维度从变为，进一步的，视频的特征数据的特征维度从/>变为/>，G为将升维特征进行分组时的组数，L、N以及/>代表的含义具体可参照S202中的相关说明。

S302、基于权重聚类信息中的聚类中心信息，确定各个聚类中心。

从聚类中心信息中获取各个聚类中心，优选的，聚类中心的个数可以使用K表示。

S303、确定视频帧的每个特征组与每个聚类中心的差值。

对于视频帧的每个特征组，将该特征组与每个聚类中心进行做差，从而得到该特征组与每个聚类中心的差值，需要说明的是，差值表示特征组与聚类中心的差异性。

假设有聚类中心A、B以及C，视频帧有多个特征组，对于特征组a，需要确定特征组a与聚类中心A的差值，特征组a与聚类中心B的差值以及特征组a与聚类中心C的差值。

S304、确定视频帧的每个特征组在每个聚类中心的第一特征权重。

使用可分离式VLAD模块中的第二全连接层确定视频帧的每个特征组在每个聚类中心的第一特征权重，进一步的，第二全连接层输出的特征可以称为第二支路特征。

需要说明的是，使用第二全连接层对升维特征数据的特征维度进行升维，使得视频的特征数据的特征维度从变为/>，其中，K为聚类中心的个数。

使用第二全连接层对升维特征数据的特征维度进行升维后，可得到视频帧的每个特征组在每个聚类中心的第一特征权重，示例性的，可以表示为第i视频帧的第g特征组在第k个聚类中心的第一特征权重，其中，，K为聚类中心的个数；L、G以及/>代表的含义具体可参照S202和S301中的相关说明。

优选的，将视频帧的每个特征组在每个聚类中心的第一特征权重输入至softmax。

S305、确定视频帧在每个特征组的第二特征权重。

使用可分离式VLAD模块中的第三全连接层对升维特征数据的特征维度进行升维，使得视频的特征数据的特征维度从变为/>；进一步的，第三全连接层输出的特征可以称为第三支路特征。

在第三全连接层对升维特征数据的特征维度进行升维后，可以得到视频帧在每个特征组的第二特征权重；进一步的，在将视频的特征数据的特征维度从变为/>后，输入至sigmoid表示第i视频帧在第g特征组的第二特征权重；L、K、G以及/>代表的含义具体可参照S202、S301以及S304中的相关说明。

S306、基于视频帧的各个第一特征权重、各个第二特征权重以及各个差值，得到视频帧的各个混合特征向量。

确定视频帧的各个混合特征向量的过程如：

对于视频帧的每个特征组，获取该特征组在每个聚类中心的特征参数集合，特征参数集合包括该特征组的第二特征权重、该特征组在聚类中心的第一特征权重，以及该特征组与聚类中心的差值；

对于每个特征参数集合，将特征参数集合中的第二特征权重、第一特征权重以及差值进行运算，得到与特征参数集合对应的混合特征向量。

需要说明的是，视频帧的混合特征向量的个数为个，G和K的具体含义可参照上文的相关说明。

进一步的，混合特征向量可表示为：

；

其中，表示第i个视频帧的第g个特征组在第k个聚类中心的混合特征向量；表示第i个视频帧的第g个特征组与第k个聚类中心的差值；/>表示第i个视频帧在第g个特征组的第二特征权重；/>表示第i个视频帧的第g个特征组在第k个聚类中心的第一特征权重；/>表示第i个视频帧的第g个特征组；/>表示第k个聚类中心。K和G的取值分别为多模态视频特征提取模型训练中涉及的聚类中心数量和视频帧特征分组数量。/>代表第i个视频帧的第g个特征组的权重矩阵，/>代表第i个视频帧的第g个特征组的偏置，/>代表sigmoid激活函数。/>代表第i个视频帧的第g个特征组在第k个聚类中心的权重矩阵，/>代表第i个视频帧的第g个特征组在第k个聚类中心的偏置，/>代表softmax激活函数。

S307、将视频帧的各个混合特征向量进行加和运算，得到视频帧的帧级特征数据。

需要说明的是，根据3支路特征进行相乘即可获取单帧单组单聚类中心的混合特征（即混合特征向量），最后针对单组单聚类中心进行加和即可获取单帧的表征向量（即帧级特征数据），且该内容向量已经可以表征每帧在全局视频帧特征空间中的重要程度。

示例性的，视频帧的帧级特征数据可以表示为：

；

其中，表示第i个视频帧的帧级特征数据。

至此，可分离式VLAD模块输出每个视频帧的帧级特征数据。

S204、对于任意视频帧，将视频帧的时序位置编码和帧级特征数据拼接，得到视频帧的特征表征向量。

将视频帧的时序位置编码与该视频帧的帧级特征数据拼接，即可获取视频帧的特征表征向量。

S205、基于所有的视频帧的特征表征向量，得到视频的视频内容特征。

将所有的视频帧的特征表征向量输入多模态视频特征提取模型中的VIT模型，即可得到VIT模型输出的视频内容特征。

S206、基于音频数据获取自然语言特征处理结果。

需要说明的是，对于使用不同的处理逻辑的自然语言模型输出的自然语言特征处理结果的内容是不同，自然语言特征处理结果可以为自然语言特征，也可以为自然语言特征和视频内容特征进行匹配后的逻辑值，不同的应用任务会使用不同的处理逻辑。

示例性的，在基于音频数据获取自然语言特征处理结果时，使用可以从音频数据中提取特征的模型对音频数据进行处理，从而输出自然语言特征处理结果。优选的，该模型中有多种用于获取自然语言特征处理结构的处理逻辑，不同的处理逻辑对应不同的应用任务，在获取自然语言特征处理结果时，可以基于特征提取信号确定与该特征提取信号对应的应用系统在构建时所使用的应用任务，然后调用该模型中与构建应用系统所使用的应用任务对应的提取逻辑进行自然语言特征的提取，然后基于提取到的自然语言特征得到自然语言特征处理结果。示例性的，可以直接将提取到的自然语言特征作为自然语言特征处理结果；还可以将提取到的自然语言特征和视频内容特征进行匹配，得到两者是否匹配的逻辑值，并将该逻辑值作为自然语言特征处理结果。

S207、将自然语言特征处理结果和视频内容特征作为视频的视频特征数据。

由此，得到的视频特征数据中包含了视频的各个视频帧的特征权重以及时序位置编码，通过增加特征权重提高了视频特征数据提取的准确性，并且增加时序位置编码可以表示事物运动信息，使得该视频特征数据应用于运动检测、视频问答等场景，扩大视频特征数据的应用范围，使得视频特征数据更加泛化，可应用于多种场景。

优选的，在得到各个视频的特征数据后，将各个视频的视频特征数据向与特征提取信号对应的应用系统反馈，使得应用系统基于各个视频特征数据对各个视频进行处理，获取应用系统的用户所需的视频信息，并将视频信息向用户反馈，应用系统为使用至少一个应用任务构建的系统。

参照图4，为本发明实施例提供的对多模态视频特征提取模型训练的流程图，参照图5，为本发明实施例提供的训练多模态视频特征提取模型的网络结构示意图，结合图4和图5对多模态视频特征提取模型的训练的过程进行说明。

S401、确定各个样本视频。

样本视频用于训练多模态视频特征提取模型。

S402、获取每个样本视频的样本音频数据以及各个样本视频帧。

对于每个样本视频，将样本视频的图像内容和语音内容分离，然后结合ASR模型将语音内容转换为自然语言数据样本，自然语言数据样本即为样本音频数据；根据固定的时间间隔从图像内容中抽帧，并将抽到的帧作为样本视频帧。

S403、将每个样本视频的样本音频数据和各个样本视频帧输入多模态视频特征提取模型，使得多模态视频特征提取模型输出每个样本视频的样本视频特征数据。

对于每个样本视频，提取该样本视频的每个样本视频帧的图像静态特征；

对于每个样本视频帧，对该样本视频帧的图片静态特征进行分组，得到多个特征组，然后确定样本视频帧的每个特征组与每个聚类中心的差值，确定样本视频帧的每个特征组在每个聚类中心的第一权重，以及确定样本视频帧在每个特征组的第二权重；

对于每个样本视频帧的每个特征组，确定该特征组与每个聚类中心对应的参数集合，该参数集合中包含该特征组的第二权重、该特征组在聚类中心的第一权重以及该特征组与聚类中心的差值；将参数集合中的各个参数相乘，得到与该参数集合对应的混合特征；

每个样本视频帧的每个特征组在每个聚类中心均存在对应的混合特征；对于每个样本视频帧，将该样本视频帧的各个混合特征进行加和运算，即可得到该样本视频帧的帧级向量；

将各个样本视频帧的帧级向量拼接时序位置编码，并输入VIT模型即可获得样本视频的内容表征向量。需要说明的是，每个样本视频帧需要将其帧级向量和其在样本视频中的时序位置编码拼接，然后再将拼接了时序位置编码的帧级向量输入VIT模型，以便VIT模型输出样本视频的内容表征向量。

参照图5，该图中的网络结构包含多模态视频特征提取模型和多任务模块，如图所示，应用任务为VTC任务和VTM任务，其中，多模态视频特征提取模型包含CLIP模型、可分离式VLAD模块、VIT模型、ASR模型以及自然语言编码器模型；其中，CLIP模型和ASR模型在训练的过程中不需要调整参数，CLIP模型用于提取样本视频帧的静态特征（可以理解为样本视频帧的图像静态特征），ASR模型用于提取样本音频数据的样本语言特征。

需要说明的是，自然语言编码器模型在不同的应用任务有不同的网络结构，但对应的视频内容特征提取网络结构一致，主要包含Self attention、Cross attention以及Feed Forward模块。

在得到图像静态特征和样本语言特征后，需要针对VTC任务和VTM任务分别对图像静态特征和样本语言特征做进一步非线性变换。

将CLIP模型提取出的每个样本视频帧的图像静态特征输入可分离式VLAD模块中，使得可分离式VLAD模块对各个图像静态特征进行处理，参照图6，为本发明实施例提供的可分离式VLAD模块的结构示意图。

将各个样本视频帧的图像静态特征逐个输入可分离式VLAD模块中，各样本视频帧的图像静态特征会经过全连接层（图中的F1，可以理解为上文中的第一全连接层）进行特征升维（即特征维度从变为/>，其中L为样本视频帧的帧数，N为CLIP模型的特征维度，为升维后的维度倍率），此时可以得到每个样本视频帧的升维静态特征；而后FC1分为3个支路，其一经过Reshape模块将各个升维静态特征进行分组，得到每个样本视频帧的各个特征组，使得特征维度从/>变为/>，同时将每个样本视频帧的各特征组分别与K个聚类中心向量进行做差，以获取每个样本视频帧的每个特征组与每个聚类中心的差异性，即获取每个样本视频帧的每个特征组与每个聚类中心的差异值；其二经过全连接层（图中的FC2，可以理解为上文的第二全连接层）将特征从维度/>变为/>，并输入至softmax代表第i个样本视频帧的第g个特征组在第k个聚类中心的第一权重；其三经过全连接层（图中的FC3，可以理解为上文的第三全连接层）将特征从维度/>变为/>，并输入至sigmoid表示第i个样本视频帧在第g个特征组的第二权重；根据3个支路输出的数值进行相乘即可获取单帧单组单聚类中心的混合特征，最后针对单组单聚类中心进行加和即可获取单帧的表征向量，且该内容向量已经可以表征每帧在全局视频帧特征空间中的重要程度。

单帧单组单聚类中心的混合特征的表示如下所示：

；

其中，为第i个样本视频帧的第g个特征组在第k个聚类中心的混合特征；其中表示第i个样本视频帧的第g个特征组与第k个聚类中心的差异值；/>表示第i个样本视频帧在第g个特征组的第二权重；/>表示第i个样本视频帧的第g个特征组在第k个聚类中心的第一权重；/>表示第i个样本视频帧的第g个特征组；/>表示第k个聚类中心。

最后按照特征组和聚类中心维度进行加和即可获取帧级的特征向量，具体如下所示：

；

此时的为第i个样本视频帧的特征向量。

进一步的，在多模态视频特征提取模型投入应用后，训练时的第一权重理解为上文的第一特征权重，训练时的第二权重理解为上文第二特征权重，差异值理解为上文的差异。

最后，根据可分离式VLAD模块输出的每个样本视频帧的特征向量，分别拼接每个样本视频帧在样本视频中的时序位置编码，然后再输入至VIT模型中获取视频的最终的内容表征向量；该内容表征向量既包含视频帧的语义空间重要程度，也包含视频帧的时序特征和运动光流信息，可为后续视频特征和自然语言特征对齐做铺垫。

至此，得到样本视频的内容表征向量。

对于样本视频的语言特征处理结果，不同的应用任务需要使用不同的语言特征提取逻辑。

如图5所示，应用任务包括VTC任务和VTM任务，不同的应用任务需要使用不同的语言特征提取逻辑。

在提取与VTC任务对应的语言表征向量时，基于ASR识别的字幕内容获取相应的token向量嵌入，并结合位置编码输入Self attention结构中，而后经过Feed Forward获取自然语言的整句内容向量表征，此时即可获取与VTC任务对应的语言表征向量，该语言表征向量即为与VTC任务对应的语言特征处理结果。

在提取与VTM任务对应的语言表征向量时，在与VTM任务对应的自然语言网络结构需要加入Cross attention模块，用于融合视频内容特征和自然语言内容特征，而后经过Feed Forward输出是否匹配的逻辑值。需要说明的是，对于VTM任务，自然语言模型在提取到自然语言特征向量（即语言表征向量）后，会在内部将自然语言特征向量和视频特征向量（即视频内容特征）进行匹配，然后输出两者是否匹配的逻辑值，该逻辑值即为与VTM任务对应的语言特征处理结果。

优选的，若在多任务模块中增加VC任务时，在提取与VC任务对应的语言表征向量时，可将自然语言编码器模型中的Self attention结构替换为Causal Self attention，来进一步满足提取VC任务所对应的语言表征向量的需求。

至此，即可得到样本视频的样本特征数据，该样本特征数据中包含内容表征向量以及与每个应用任务对应的语言特征处理结果。

S404、将各个样本视频特征数据输入预设的多任务模块，使得多任务模块基于各个样本视频特征数据确定训练损失函数的收敛结果；多任务模块中包含多个应用任务，训练损失函数由各个应用任务的损失函数组成。

参照图5，多任务模块中包含VTM任务和VTC任务。

进一步的，VTM任务的损失函数的表达式如下所示：

；

其中，此处的i，，N为样本视频的个数总量，V是样本视频的内容表征向量，T是样本视频的语言表征向量。本损失为单条样本视频的数据损失，使用过程需按数据实际量进行累积加和。

进一步的，由于VTM任务是判断是否匹配的需求，因此是输出的是否匹配概率，综合考虑正样本对和负样本对构建如下损失函数：

，其中/>，N为样本视频的个数总量，yes和no为VTM任务下模型输出的预测逻辑值，paired和unpaired为实际样本的label结果，整体损失为是否匹配的交叉熵损失，本损失与VTC任务并行，且单条数据训练一致。

进一步的，训练损失函数可以看做是总损失函数，具体如：

，其中/>，N为样本视频的个数总量。基于总损失函数可以更新全部网络结构的参数，获取最佳收敛结果。

对于每个样本视频帧，将该样本视频帧的内容表征向量输入每个应用任务，以及将该样本视频帧的每个语言表征向量输入与语言表征向量对应的应用任务，进而可以得到训练损失函数的收敛结果。

S405、判断收敛结果是否满足预设的收敛条件；当训练损失函数的收敛结果未满足收敛条件时，执行S406；当训练损失函数的收敛结果满足收敛条件时，执行S407。

示例性的，从收敛结果中获取训练损失函数输出的收敛数值，在该收敛数值满足预设收敛数值时，如小于或等于预设收敛数值，则确定收敛结果满足收敛条件；否则确定收敛结果不满足收敛条件。

S406、基于收敛结果调整多模态视频特征提取模型以及各个应用任务的参数，并返回执行步骤S403。

优选的，可以基于收敛结果调整多模态视频特征提取模型中的可分离式VLAD模块、VIT模型以及自然语言编码器模型。

S407、完成对多模态视频特征提取模型的训练。

此时得到训练完成的多模态视频特征提取模型。

本发明提供的多模态视频特征提取模型中的可分离式VLAD模型在特征聚合阶段仅聚合单帧的组间特征，从而获取带有不同特征权重的帧表征向量；同时在初步特征提取阶段，同时提取组和聚类中心的权重特征可以增加视频帧不同组间的特征区分度；基于transformer的VIT模型：由于仅提供视频帧的语义空间特征仍不能表征视频中的时序信息，因此结合VIT的位置信息编码可以进一步提取视频中的光流信息，提升对视频内容更全面的表征。

训练完成的多模态视频特征提取模型，结合具体使用场景提取视频内容向量和自然语言内容向量可用于下游的视频检索、视频主题提取等任务，同时也可以采用匹配网络结构实现内容推荐阶段的重排序等任务。

本发明引用图像特征表征效果得到业内认可的预训练模型(CLIP)作为视频帧的静态特征提取器。同时提出可分离式VLAD模型结构，采用包含帧间权重特征的可训练层作为视频特征提取网络的中间结构。最后采用位置编码器为视频帧提供时序特征，并结合transformer编码器结构(VIT)输出视频的表征向量。在NLP（自然语言处理）特征向量提取方面，为配合多任务训练，本发明采用多组不同的NLP网络结构（即应用任务）与视频网络同时进行训练拟合。本发明提出2种视频特征提取的特征对齐预训练任务，可让视频提取的表征向量在下游任务中能力更加泛化。

传统的视频特征提取方式通常对各静态帧的图片进行特征提取，再使用池化等特征融合方法聚合成视频特征，或是采用构建单一的分类、检测识别、分割等任务提取视频特征，又或是采用单一任务的多模态对齐训练获取视频特征向量。

对各静态帧的图片进行特征提取，然后将特征融合的传统视频特征提取方式中，由于仅采用简单视频帧特征融合的方式无法在获取视频表征向量过程中引入各帧间的语义特征权重，因此会造成视频特征提取的结果准确性降低，并且由于仅采用简单视频帧特征融合的方式会忽略视频帧间的时序特征，因此会导致视频特征无法包含实际的事物运动信息。在下游运动检测、视频问答场景下，基于该方案获取的视频特征无法实现相应的任务需求。

采用构建单一的分类、检测识别、分割等任务提取视频特征的传统特征提取方式中，由于结合单一模态下视频相关训练任务提取的内容向量未与其他模态特征在特征语义空间对齐，因此会在跨模态应用场景下应用受限，无法兼具文本-视频多模态检索匹配功能。

采用单一任务的多模态对齐训练获取视频特征向量的传统特征提取方式中，由于单一任务的视频特征预训练存在应用场景倾向性，且单一的对齐任务仅能满单一粒度的特征对齐，因此采用该方案会导致下游应用场景效果变差，泛化到不同任务的特征能力有所欠缺，类似于识别任务是比较注重事物的外观特征，而检测任务更侧重事物在图片中的位置信息。

相对于传统的视频特征提取方式，本发明的多模态视频特征提取模型在训练时引入VTC和VTM等多任务训练策略，可让视频提取的表征向量在下游任务中能力更加泛化，通过引入多模态的对齐任务，可让视频内容特征向量在跨模态任务中体现出优势，并且通过修改后的可分离式VLAD模块，让视频内容特征向量包含除时序特征（VIT）外的帧间语义特征重要程度。

本发明相比于基于图片静态帧融合特征的方法，本发明能在提取视频特征时引入帧间的语义特征权重和帧间的时序特征，使得视频特征向量中包含运动光流特征和图像空间特征；本发明相比于单一模态、单一任务视频特征提取训练策略，本发明使用多任务跨模态的特征对齐任务训练策略，结合了视频中的自然语言信息以及视频的图像空间特征和时序特征，使得采用该策略提取的视频特征能更泛化对齐下游任务，提升视频表征向量的准确性。

需要说明的是，不同的应用场景对应不同的应用系统，不同的应用场景有不同的视频处理逻辑，例如在检索视频的场景下，基于各个视频特征数据对各个视频进行筛选，得到的视频信息中包含检索到用户需要的视频的信息；又如在视频检索问答的场景下，基于各个视频特征数据对各个视频进行筛选，得到的视频信息中包含与用户输入的问题对应的视频的信息；又如在视频推荐的场景下，基于各个视频特征数据将各个视频进行排序，得到的视频信息中包含排序后的各个视频的信息。

下面结合具体应用场景的实施例对本发明作进一步说明，具体说明如下所述：

(1)视频检索功能实施例

参照图7，为本发明实施例提供的视频检索的场景示例图，结合本发明提出的多任务多模态的视频特征提取算法，可以实现如图7的视频检索任务。首先，结合视频数据库和视频特征提取模型，将视频数据库中的视频内容转化为表征向量。其次，将用户搜索语句实时转化为自然语言内容表征向量。最后，采用faiss等向量检索工具即可快速实现视频检索服务。

(2)视频检索AI问答实施例

参照图8，为本发明实施例提供的视频检索AI问答的场景示例图，结合本发明提出的多任务多模态的视频特征提取算法，可以实现如图8的视频检索AI问答任务。首先，结合实施例1中的视频检索任务获取和用户问题语句相匹配的视频内容。其次，对视频内容进行切片处理（可采用ffmpeg等工具）并经过视频特征提取编码器转化为切片内容的表征向量。最后，进一步通过向量检索工具进行用户问题语句内容向量和切片内容向量的匹配，并将相匹配的内容向量进行拼接并输入至VQA模型中，基于用户输入内容和视频切片内容进一步生成细致的问答回复。

(3)新闻内容推荐重排序阶段打散实施例

参照图9，为本发明实施例提供的新闻内容推荐重排序阶段打散的场景示例图，结合本发明提出的多任务多模态的视频特征提取算法，可以实现如图9的新闻内容推荐重排序阶段打散任务。首先，图文新闻和视频新闻内容经过召回、粗排、精排获取到准备推送出去的新闻内容。其次，为进一步提升用户阅读新闻的体验，需对相关度较高或内容重复的新闻内容进行打散，这里对图文新闻和视频新闻分别提取相应的内容表征向量。最后，基于不同模态内容表征向量可在重排序阶段进行打散操作，获取最终的新闻内容排序结果。

与图1所示的方法相对应的，本发明提供一种视频特征提取装置，该装置用于支持图1所示的方法的具体实现，该装置可以设置于处理器或服务器。

参照图10，为本发明实施例提供的一种视频特征提取装置的结构示意图，具体说明如下所述。

确定单元501，用于基于特征提取信号确定待提取特征的至少一个视频；

获取单元502，用于获取所述视频的音频数据和各个视频帧；

输出单元503，用于调用预先训练完成的多模态视频特征提取模型对所述音频数据和各个所述视频帧进行处理，输出所述视频的视频特征数据；所述多模态视频特征提取模型为结合多个应用任务进行训练得到的模型；所述视频特征数据包括视频内容特征和自然语言特征处理结果，所述视频内容特征包含所述视频的各个视频帧的特征权重以及时序位置编码。

本发明提供的装置中，基于特征提取信号确定待提取特征的至少一个视频，获取视频的音频数据和各个视频帧；调用预先训练完成的多模态视频特征提取模型对音频数据和各个视频帧进行处理，输出视频的视频特征数据；多模态视频特征提取模型为结合多个应用任务进行训练得到的模型；视频特征数据包括视频内容特征和自然语言特征处理结果，视频内容特征包含视频的各个视频帧的特征权重以及时序位置编码。本发明提供的方案提取特征所使用的多模态视频特征提取模型为结合多个应用任务进行训练得到，由此，多模态视频特征提取模型所提取的视频特征数据可以适用于使用应用任务构建的各种应用场景中，使得提取的视频特征数据的应用更加广泛，提取的视频特征数据包括视频帧的特征权重以及时序位置编码，提高视频特征数据的准确性。

在本发明提供的另一实施例中，该装置的输出单元503可以配置为：

提取子单元，用于提取每个所述视频帧的图片特征数据；

第一处理子单元，用于对每个所述视频帧的图片特征数据进行升维处理，得到每个所述视频帧的升维特征数据；

第二处理子单元，用于基于预设的权重聚类信息，对每个所述视频帧的升维特征数据进行处理，得到每个所述视频帧的帧级特征数据，所述权重聚类信息包含特征分组信息和聚类中心信息；

拼接子单元，用于对于任意所述视频帧，将所述视频帧的时序位置编码和所述帧级特征数据拼接，得到所述视频帧的特征表征向量；

第一获取子单元，用于基于所有的视频帧的特征表征向量，得到所述视频的视频内容特征；

第二获取子单元，用于基于所述音频数据获取自然语言特征处理结果；

确定子单元，用于将所述自然语言特征处理结果和所述视频内容特征作为所述视频的视频特征数据。

在本发明提供的另一实施例中，该装置的第二处理子单元可以配置为：

分组模块，用于对于每个所述视频帧，基于预设的权重聚类信息中的特征分组信息，对所述视频帧的升维特征数据进行分组，得到所述视频帧的各个特征组；

第一确定模块，用于基于所述权重聚类信息中的聚类中心信息，确定各个聚类中心；

第二确定模块，用于确定所述视频帧的每个所述特征组与每个所述聚类中心的差值；

第三确定模块，用于确定所述视频帧的每个所述特征组在每个所述聚类中心的第一特征权重；

第四确定模块，用于确定所述视频帧在每个所述特征组的第二特征权重；

第一获取模块，用于基于所述视频帧的各个所述第一特征权重、各个所述第二特征权重以及各个所述差值，得到所述视频帧的各个混合特征向量；

第二获取模块，用于将所述视频帧的各个混合特征向量进行加和运算，得到所述视频帧的帧级特征数据。

在本发明提供的另一实施例中，该装置的第一获取模块可以配置为：

获取子模块，用于对于所述视频帧的每个所述特征组，获取所述特征组在每个所述聚类中心的特征参数集合，所述特征参数集合包括所述特征组的第二特征权重、所述特征组在所述聚类中心的第一特征权重，以及所述特征组与所述聚类中心的差值；

运算子模块，用于对于每个所述特征参数集合，将所述特征参数集合中的第二特征权重、第一特征权重以及差值进行运算，得到与所述特征参数集合对应的混合特征向量。

在本发明提供的另一实施例中，该装置还可以配置为：

反馈单元，用于将各个所述视频的视频特征数据向与所述特征提取信号对应的应用系统反馈，使得所述应用系统基于各个视频特征数据对各个视频进行处理，获取所述应用系统的用户所需的视频信息，并将所述视频信息向所述用户反馈，所述应用系统为使用至少一个应用任务构建的系统。

在本发明提供的另一实施例中，该装置还包括训练模块；训练模块用于训练多模态视频特征提取模型；

所述训练模型训练多模态视频特征提取模型的过程，包括：

确定各个样本视频；

获取每个所述样本视频的样本音频数据以及各个样本视频帧；

将每个所述样本视频的样本音频数据和各个样本视频帧输入多模态视频特征提取模型，使得所述多模态视频特征提取模型输出每个所述样本视频的样本视频特征数据；

将各个所述样本视频特征数据输入预设的多任务模块，使得所述多任务模块基于各个所述样本视频特征数据确定训练损失函数的收敛结果；所述多任务模块中包含多个应用任务，所述训练损失函数由各个所述应用任务的损失函数组成；

当所述训练损失函数的收敛结果未满足预设的收敛条件时，基于所述收敛结果调整所述多模态视频特征提取模型以及各个应用任务的参数，并返回执行将每个所述样本视频的样本音频数据和各个样本视频帧输入多模态视频特征提取模型的步骤，直至所述训练损失函数的收敛结果满足收敛条件时，完成对多模态视频特征提取模型的训练。

在本发明提供的另一实施例中，该装置的获取单元502，包括：

分离子单元，用于将所述视频的音频内容和图像内容分离，并将音频内容作为所述视频的音频数据；

抽帧子单元，用于对所述视频的图像内容进行抽帧处理，得到所述视频的各个视频帧。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述视频特征提取方法。

本发明实施例还提供了一种电子设备，其结构示意图如图11所示，具体包括存储器601，以及一个或者一个以上的指令602，其中一个或者一个以上指令602存储于存储器601中，且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602执行上述的视频特征提取方法。

需要说明的是，本申请所涉及的信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

上述各个实施例的具体实施过程及其衍生方式，均在本发明的保护范围之内。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频特征提取方法，其特征在于，包括：

基于特征提取信号确定待提取特征的至少一个视频；

获取所述视频的音频数据和各个视频帧；

2.根据权利要求1所述的方法，其特征在于，所述调用预先训练完成的多模态视频特征提取模型对所述音频数据和各个所述视频帧进行处理，输出所述视频的视频特征数据，包括：

提取每个所述视频帧的图片特征数据；

对每个所述视频帧的图片特征数据进行升维处理，得到每个所述视频帧的升维特征数据；

基于预设的权重聚类信息，对每个所述视频帧的升维特征数据进行处理，得到每个所述视频帧的帧级特征数据，所述权重聚类信息包含特征分组信息和聚类中心信息；

对于任意所述视频帧，将所述视频帧的时序位置编码和所述帧级特征数据拼接，得到所述视频帧的特征表征向量；

基于所有的视频帧的特征表征向量，得到所述视频的视频内容特征；

基于所述音频数据获取自然语言特征处理结果；

将所述自然语言特征处理结果和所述视频内容特征作为所述视频的视频特征数据。

3.根据权利要求2所述的方法，其特征在于，所述基于预设的权重聚类信息，对每个所述视频帧的升维特征数据进行处理，得到每个所述视频帧的帧级特征数据，包括：

对于每个所述视频帧，基于预设的权重聚类信息中的特征分组信息，对所述视频帧的升维特征数据进行分组，得到所述视频帧的各个特征组；

基于所述权重聚类信息中的聚类中心信息，确定各个聚类中心；

确定所述视频帧的每个所述特征组与每个所述聚类中心的差值；

确定所述视频帧的每个所述特征组在每个所述聚类中心的第一特征权重；

确定所述视频帧在每个所述特征组的第二特征权重；

基于所述视频帧的各个所述第一特征权重、各个所述第二特征权重以及各个所述差值，得到所述视频帧的各个混合特征向量；

将所述视频帧的各个混合特征向量进行加和运算，得到所述视频帧的帧级特征数据。

4.根据权利要求3所述的方法，其特征在于，所述基于所述视频帧的各个所述第一特征权重、各个所述第二特征权重以及各个所述差值，得到所述视频帧的各个混合特征向量，包括：

对于所述视频帧的每个所述特征组，获取所述特征组在每个所述聚类中心的特征参数集合，所述特征参数集合包括所述特征组的第二特征权重、所述特征组在所述聚类中心的第一特征权重，以及所述特征组与所述聚类中心的差值；

对于每个所述特征参数集合，将所述特征参数集合中的第二特征权重、第一特征权重以及差值进行运算，得到与所述特征参数集合对应的混合特征向量。

5.根据权利要求1所述的方法，其特征在于，还包括：

将各个所述视频的视频特征数据向与所述特征提取信号对应的应用系统反馈，使得所述应用系统基于各个视频特征数据对各个视频进行处理，获取所述应用系统的用户所需的视频信息，并将所述视频信息向所述用户反馈，所述应用系统为使用至少一个应用任务构建的系统。

6.根据权利要求1所述的方法，其特征在于，训练多模态视频特征提取模型的过程，包括：

确定各个样本视频；

7.根据权利要求1所述的方法，其特征在于，所述获取所述视频的音频数据和各个视频帧，包括：

将所述视频的音频内容和图像内容分离，并将音频内容作为所述视频的音频数据；

对所述视频的图像内容进行抽帧处理，得到所述视频的各个视频帧。

8.一种视频特征提取装置，其特征在于，包括：

获取单元，用于获取所述视频的音频数据和各个视频帧；

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1-7任意一项所述的视频特征提取方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1-7任意一项所述的视频特征提取方法。