CN115481283A

CN115481283A - 音视频特征提取方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN115481283A
Application number: CN202110584493.8A
Authority: CN
Inventors: 毛永波; 刘俊宏; 韦晓全
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-12-16

Abstract

本公开实施例公开了一种音视频特征提取方法、装置、电子设备和计算机可读存储介质。其中所述音视频特征提取方法，包括：对视频进行视频数据预处理和音频数据预处理；提取视频特征和音频特征；对提取的视频特征和音频特征进行自监督学习；对提取的视频特征向量和音频特征向量进行融合，得到多模态特征向量；对所述多模态特征向量进行自监督学习。通过上述方法，通过视频特征和音频特征并行训练学习的方式，能够提高训练准确度，使用CNN或Transformer模型能够加深网络深度且提高训练速度，且通过多模态自监督学习能够获取更多全局信息，进而提升模型准确率。

Description

音视频特征提取方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及视频处理领域，尤其涉及一种音视频特征提取方法、装置、电子设备及计算机可读存储介质。

背景技术

在现实生活中，我们能根据听到的声音、看到的图像和闻到的味道来综合建模，对未知事情进行分类。譬如城市功能区的划分，集体活动的分类等等。为了使机器也具备人类这种同事处理多模态信息的功能，人类设计了各种不同的传感器来充当机器的眼睛、耳朵和鼻子。这个时候还需要多模态特征融合相关的算法。

目前，视频是最受欢迎的信息媒介，随着计算机智能算法的高度发展，视频的智能推介也不同的受众人群带来了方便方便快捷的针对性的推介，视频变得更有针对性。其中视频中通常包括声音和图像，但是，往往现有技术中仅对视频中的图像进行特征提取分类，或仅对视频中的音频进行特征提取分类，或者即使同时对视频中的视频特征和音频特征进行提取分类，其采用的时序建模方法，该建模方式所构建的网络结构不深，无法捕获长距离特征，且池化方法需要经过卷积层，会损失掉很多位置信息，因此需要找到更好的特征提取方法。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

为了解决上述技术问题，提高音视频特征提取的准确性与全局性，本公开实施例提出如下技术方案。

第一方面，本公开实施例提供一种音视频特征提取方法，包括：

对视频进行视频数据预处理和音频数据预处理；

提取视频特征和音频特征；对提取的视频特征和音频特征进行自监督学习；

对提取的视频特征向量和音频特征向量进行融合，得到多模态特征向量；

对所述多模态特征向量进行自监督学习。

进一步的，所述对视频进行视频数据预处理和音频数据预处理包括：对视频数据和音频数据进行数据增强；对视频数据和音频数据进行数据混洗；以及对视频数据和音频数据进行批处理。

进一步的，所述对视频进行视频数据预处理，包括：对所述视频进行抽帧得到视频帧序列，设置一视频帧序列长度阈值；如果所述序列长度大于所述长度阈值，则进行等间隔抽取所述长度阈值对应的帧数；如果所述序列长度小于所述长度阈值，则通过插值的方法补齐至所述长度阈值对应的帧数。

进一步的，提取所述视频特征，包括：采用3D残差神经网络结构(3D ResNet50)模型，以所述视频帧序列做为模型输入，通过所述模型输出得到多维的视频特征向量。

进一步的，所述对视频进行音频数据预处理，包括：提取所述视频中的音频信息，设置一音频时间阈值；如果所述音频信息的时间长度大于所述时间阈值，按照所述时间阈值对所述音频进行随机裁剪，得到音频信号。

进一步的，提取所述音频特征，包括：采用数据训练模型，以所述音频信号作为模型输入，通过所述模型输出得到多维音频特征向量。

进一步的，所述数据训练模型为wav2vec2.0算法中的卷积神经网络 (CNN)模型或神经机器翻译(Transformer)模型。

进一步的，对提取的视频特征进行自监督学习，包括：对所述视频帧序列是否有序的二分类任务作为监督进行学习，正样本为有序视频帧序列，负样本为无序视频帧序列。

进一步的，对提取的视频特征进行自监督学习，还包括：对所述视频帧是正向和反向的二分类任务作为监督进行学习，正样本为正向的视频帧序列，负样本为反向的视频帧序列。

进一步的，对提取的音频特征进行自监督学习，包括：通过wav2vec2.0 算法对音频信号进行遮挡，训练一个对比任务将真正的量化的隐藏变量表示与其他负例分辨出来。

进一步的，所述对提取的视频特征向量和音频特征向量进行融合，得到多模态特征向量，包括：根据从原始的视频中提取的视频特征向量和音频特征向量进行特征分析；从视频的底层特征中提取最优的视频和音频模态向量信息，并对这些模态向量信息进行定义；对这些多模态特征向量进行最优化融合得到多维多模态特征向量。

进一步的，对所述多模态特征向量进行自监督学习，包括：对从所述视频中抽帧得到的所述视频帧序列和从视频中提取的所述音频信息进行是否来自于同一视频的二分类监督学习，以及同时对所述视频中抽帧得到的所述视频帧序列和从视频中提取的所述音频信息进行是否对齐的二分类监督学习。

第二方面，本公开实施例提供一种音视频特征提取装置，包括：

预处理模块，用于对视频进行视频数据预处理和音频数据预处理；

提取模块，用于提取视频特征和音频特征；

第一自监督模块，用于对提取的视频特征和音频特征进行自监督学习；

融合模块，用于对提取的视频特征向量和音频特征向量进行融合，得到多模态特征向量；

第二自监督模块，用于对所述多模态特征向量进行自监督学习。

第三方面，本公开实施例提供一种电子设备，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述电子设备实现根据上述第一方面任意一项所述的方法。

第四方面，本公开实施例提供一种非暂态计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机实现上述第一方面中任意一项所述的方法。

上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例提供的音视频特征提取方法的流程示意图；

图2为本公开一实施例提供的监督学习和自监督学习的数据分布示意图；

图3为本公开一实施例提供的多模态音视频特征融合流程示意图示意图。

图4为本公开另一实施例提供的音视频特征提取装置示意图；

图5为根据本公开另一实施例提供的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

图1为本公开实施例提供的音视频特征提取方法实施例的流程图，本实施例提供的该音视频特征提取方法可以由一音视频特征提取装置来执行，该音视频特征提取装置可以实现为软件，或者实现为软件和硬件的组合，该音视频特征提取装置可以集成设置在音视频特征提取系统中的某设备中，比如终端设备中。如图1所示，该方法包括如下步骤：

步骤S101：对视频进行视频数据预处理和音频数据预处理。

在步骤S101中，所述对视频进行视频数据预处理和音频数据预处理包括：对视频数据和音频数据进行数据增强；对视频数据和音频数据进行数据混洗；以及对视频数据和音频数据进行批处理。其中，视频数据预处理和音频数据预处理包括：数据增强、数据混洗和批处理。数据增强主要是对数据进行归一化和丰富数据样本数量。常见的数据增强方式包括裁剪、翻转、色彩变化等等。数据混洗和批处理，具体通过数据混洗(shuffle)随机打乱数据的顺序，并按批处理(batch)读取数据，进行模型训练。

所述对视频进行视频数据预处理，包括：对所述视频进行抽帧得到视频帧序列，设置一视频帧序列长度阈值；如果所述序列长度大于所述长度阈值，则进行等间隔抽取所述长度阈值对应的帧数；如果所述序列长度小于所述长度阈值，则通过插值的方法补齐至所述长度阈值对应的帧数。示例性的，对短视频进行抽帧得到视频帧序列，如果序列长度大于32，则等间隔抽取32 帧，如果序列长度小于32，则通过插值的方法补齐32帧，最终得到视频序列。

所述对视频进行音频数据预处理，包括：如果音频长度大于所述时间阈值，对所述音频进行随机裁剪，得到音频信号。示例性的，提取视频中的音频信息，如果音频长度大于30秒，对音频进行随机裁剪，得到音频信号A。

步骤S102：提取视频特征和音频特征。

在步骤S102中，对视频的特征提取包括两部分，分别是视频特征提取和音频特征提取。

对于视频特征提取，本发明实施例采用3D残差神经网络结构(3D ResNet50)模型，模型输入为步骤S101中得到的视频序列，通过所述模型输出得到多维的视频特征向量，示例性的，模型输出得到512维的视频特征向量。

本发明实施例之所以采用3D残差神经网络结构(3D ResNet50)进行视频特征的提取，主要基于卷积神经网络的结构考虑，卷积神经网络采用分层的结构对图片进行特征提取，由一系列的网络层堆叠而成，比如卷积层、池化层、激活层等等。本发明实施例采用3DResNet50，具体理由如下：首先，它足够深，常见的有34层，50层，101层。通常层次越深，表征能力越强，分类准确率越高。其次，可学习，采用了残差结构，通过快捷方式连接把低层直接跟高层相连，解决了反向传播过程中因为网络太深造成的梯度消失问题。此外，3DResNet50网络的性能很好，既表现为识别的准确率，也包括它本身模型的大小和参数量。在图像识别问题中，是将训练好的模型通过简单调整来解决新的问题。从图像中提取特征，不一定需要算力强大的GPU，训练上百层的神经网络。卷积神经网络中卷积层和池化层可以抽取图片的几何特征，比如浅层的卷积用于抽取出一些直线，角点等简单的抽象信息，深层的卷积层用于抽取人脸等复杂的抽象信息，最后的全连接层是对图片分类的处理。因此，我们可以使用网络的前N-1层提取特征，其中N为自然数。

例如，利用在ImageNet数据集上训练好的3D ResNet50模型来解决一个自定义的图像分类问题：保留训练好的3D ResNet50模型中卷积层的参数，只去掉最后一个全连接层，将新图像输入训练好的神经网络，利用前N-1 层的输出作为图片的特征，将3DResNet50模型作为图片特征提取器，提取得到的特征向量作为输入训练新的单层全连接网络来处理新的分类问题，或者将这些特征代入SVM，LR等其它机器学习模型进行训练和预测。在数据量足够的情况下，迁移学习的效果往往不如完全重新训练，但是迁移学习所需要的训练时间和训练样本要远远小于训练完整的模型。

调用方法如下：

network＝3D resnet50(class_num＝1,2,3,4,5,6,7,8,9,10……)。

示例性的，对于视频特征提取，通过3D ResNet50模型，模型输入为步骤S101中得到的视频序列，模型输出的特征向量维度可以为256维、512维、 1024维等。

对于音频特征提取，包括：采用数据训练模型，以所述音频信号作为模型输入，通过所述模型输出得到多维音频特征向量。具体的，本发明实施例采用wav2vec2.0算法中的卷积神经网络(CNN)模型或神经机器翻译 (Transformer)模型，模型输入为步骤S101中得到的音频信号A，通过所述模型输出得到多维音频特征向量。wav2vec2.0算法中的CNN(卷积神经网络) 模型和Transformer(神经机器翻译)模型不仅在计算机视觉领域应用广泛，在计算机音频领域也能得到加深应用。

示例性的，对于音频特征提取，采用wav2vec2.0中的CNN模型和 Transformer模型，模型输入为步骤S101中得到的音频信号A，模型输出的特征向量维度可以为64维、128维、256、512或1024维等。

步骤S103：对提取的视频特征和音频特征进行自监督学习。

在步骤S103中，对提取的视频特征和音频特征进行自监督学习分别同时进行，其中：

对提取的视频特征进行自监督学习，本发明实施例中一共包含两个任务。一个任务是对视频帧是否有序的二分类任务作为监督，正样本为有序视频帧序列，负样本为无序视频帧序列。一个任务是对视频帧是正向和反向的二分类任务作为监督，正样本为正向的视频帧序列，负样本为反向的视频帧序列。两个任务同时进行监督，优化视频特征提取模型的参数。具体地，基于帧的相似性，对于视频中的每一帧，其实存在着特征相似的概念，简单来说我们可以认为视频中的相邻帧特征是相似的，而相隔较远的视频帧是不相似的，通过构建这种相似(position)和不相似(negative)的样本来进行自监督约束。另外，对于同一个物体的拍摄是可能存在多个视角 (multi-view)，对于多个视角中的同一帧，可以认为特征是相似的，对于不同帧可以认为是不相似的。除了基于特征相似性外，视频的先后顺序也是一种自监督信息。基于顺序约束的方法，可以从视频中采样出正确的视频序列和不正确的视频序列，构造成正负样本对然后进行训练。简而言之，就是设计一个模型，来判断当前的视频序列是否是正确的顺序。

对提取的音频特征进行自监督学习，本发明实施例中，音频无监督学习通过wav2vec2.0中的方法对音频信号进行遮挡，训练一个对比任务将真正的量化的隐藏变量表示与其他负例分辨出来，从而优化音频特征提取模型的参数。wav2vec模型是一种AR(AutoRegression)机制的模型，在预训练阶段的wav2vec的模型更像是以原始音频为输入的语言模型，自监督学习提供了一种利用未标注的数据来构建更好的系统，其他用于语音的自监督方法尝试重建音频信号，这需要模型捕获语音的多个方面，包括录音环境，噪声和说话人特征。wav2vec 2.0通过拟合一组比音素短的ASR建模单元来表征语音音频序列。由于此集合是有限的，因此该模型无法表示所有的差异，例如背景噪声。取而代之的是，这些建模单元将鼓励模型将注意力集中在代表语音音频的最重要因素上。wav2vec 2.0模型首先使用多层卷积神经网络处理语音音频的原始波形，以获得每个25ms的潜在音频表示。这些表征向量被喂到量化器(quantizer)和transformer中。量化器从学习的单元清单(inventory of learned units)中选择一个语音单元作为潜在音频表征向量。大约一半的音频表示在被馈送到transformer之前被隐蔽掉(masked)。 transformer从整个音频序列中添加信息，输出用于计算loss function。模型需要通过掩盖位置(masked positions)识别正确的量化语音单位。

步骤S104：对提取的视频特征向量和音频特征向量进行融合，得到多模态特征向量；

在步骤S104中，融合阶段如图所示，首先512+512维的视频特征先融合到512维度，然后再和128维的音频进行融合，具体维度是通过反复实验确定的。

融合过程包括：首先，根据从原始的视频中提取的视频特征向量和音频特征向量进行特征分析，该视频是指流畅的视频流，因为该视频流蕴含有丰富的视觉、听觉和字母信息，所以这些视频特征和音频特征可以是颜色、纹理、形状、音调和文本等，然后采用多模态分析方法，即同时使用两种或是两种以上的模态信息进行处理。基于这些提取的视频和音频特征，我们可以将视频片段索引到相关的语义概念上，例如汽车、足球、海滩、采访等场景。经过实验结果表明，多模态视频、音频特征融合能够产生有效的视频索引，方便视频的分类。其次，从视频的底层特征中提取最优的视频和音频模态向量信息，并对这些模态向量信息进行定义。一旦这些最优的模态向量信息被定义以后，接下来就是如何选择一种最优的方法来融合这些模态向量信息，以便使视频特征和音频模态向量信息进行融合。假设我们得到的是真正的多模态融合特征，并且每个模态特征都能为类别的预测提供准确的后验概率，那么我们只要简单地使用产品合成规则就可以计算特征信息与预测类别之间的相关概率。

本实施例采用支持向量聚类的方法来完成多模态特征向量的选取，并通过基于统计的最大信息嫡方法来最优化地融合所提取的视频和音频多模态向量信息，我们使用等值线图(isoMAP)和支持向量机聚类(SVC)相结合的方法对多模态特征向量进行分析，得到多模态特征向量，然后使用最大嫡 (MaxmiumEniorpy)模型对这些多模态特征向量进行最优化融合得到多维多模态特征向量。优选的，该多维多模态特征向量可以为480维、640维、1280 维等。

本发明另一实施例，可以使用权重加和规则的融合方法，这种方法将多模态特征线性地融合在一起，这种融合简单有效，这种融合方式具有线性的约束条件，在高维复杂模态信息中使用会受制于该线性约束条件。

本发明另一实施例，还可以使用超核融合方法，将那些多模态的特征非线性地融合在一起，其中线性融合将作为上述方法中的一种特殊情况。

步骤S105：对所述多模态特征向量进行自监督学习。

在步骤S105中，对融合后的所述多模态特征向量进行自监督学习，包括：对从所述视频中抽帧得到的所述视频帧序列和从视频中提取的所述音频信息进行是否来自于同一视频的二分类监督学习，以及同时对所述视频中抽帧得到的所述视频帧序列和从视频中提取的所述音频信息进行是否对齐的二分类监督学习。该多模态监督学习一共包含两个任务。一个任务是视频片段和音频片段是否来自于一个视频里的二分类任务作为监督，确保从所述视频中抽帧得到的所述视频帧序列和从视频中提取的所述音频信息是来自于同一视频，另一个任务是视频片段和音频片段在是否是对齐的二分类任务作为监督，监督确保从所述视频中抽帧得到的所述视频帧序列和从视频中提取的所述音频信息在时序上是对齐的，不要出现时序上视频和音频不对应的情况。两个任务同时进行监督，优化视频和音频特征提取模型的参数，以得到更好的多模态视频特征表示。

如图2所示，示出了监督学习和自监督学习的数据分布示意图，如图所示，一种是监督学习，一种是无监督学习。监督学习利用大量的标注数据来训练模型，模型的预测和数据的真实标签产生损失后进行反向传播，通过不断的学习，最终可以获得识别新样本的能力。而自监督学习不依赖任何标签值，通过对数据内在特征的挖掘，找到样本间的关系，比如聚类相关的任务。有监督和自监督最主要的区别在于模型在训练时是否需要人工标注的标签信息。编码器将输入的样本映射到隐层向量，解码器将这个隐层向量映射回样本空间。我们期待网络的输入和输出可以保持一致(理想情况，无损重构)，同时隐层向量的维度大大小于输入样本的维度，以此达到了降维的目的，利用学习到的隐层向量再进行聚类等任务时将更加的简单高效。本发明实施例采用的自监督学习最主要的目的就是学习到更丰富的语义表征，自监督学习主要是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。

对于自监督学习到的表征，如何来评测它的有效性？评测自监督学习的能力，主要是通过芬顿训练模式。该模式的芬顿训练流程：我们首先从大量的有标签数据上进行训练，得到预训练的模型，然后对于新的下游任务 (Downstream task)，我们将学习到的参数进行迁移，在新的有标签任务上进行“微调”，从而得到一个能适应新任务的网络。而自监督的芬顿训练流程：首先从大量的无标签数据中通过pretext来训练网络，得到预训练的模型，然后对于新的下游任务，和监督学习一样，迁移学习到的参数后微调即可。所以自监督学习的能力主要由下游任务的性能来体现。

本发明实施例具体融合流程可参见图3所示，图3示出了多模态音视频特征融合流程示意图，譬如通过卷积神经网络对城市遥感视频进行视频特征和音频特征抽取，然后综合每个功能区访问人数的进行文本特征抽取，最后综合这两方面的特征进行模型训练，输出功能区的分类。由于模态之间的数据的相关性较高，还有就是多模态数据源同步难的问题，本实施例将前期各模态视频数据和音频数据单独训练得到预测结果，后期采用决策或者集成的方式多多模型的输出结果进行规则融合(譬如最大值融合，平均值融合等)。针对数据同步，相关性不强的的模态进行早期融合，对相关性强、数据和更新不同的模态进行晚期融合。

图4为本公开另一实施例提供的音视频特征提取装置实施例的结构示意图。如图4所示，该装置400包括：预处理模块401、提取模块402、第一自监督模块403、融合模块404和第二自监督模块405。其中：

所述预处理模块401，用于对视频进行视频数据预处理和音频数据预处理。进一步的，所述预处理模块401包括视频数据预处理模块和音频数据预处理模块。所述视频数据预处理模块，用于对所述视频进行抽帧得到视频帧序列，设置一视频帧序列长度阈值；如果所述序列长度大于所述长度阈值，则进行等间隔抽取所述长度阈值对应的帧数；如果所述序列长度小于所述长度阈值，则通过插值的方法补齐至所述长度阈值对应的帧数。所述音频数据预处理模块，用于提取视频中的音频信息，如果音频长度大于一定时间阈值，对音频进行随机裁剪，得到音频信号A。

进一步的，所述预处理模块401包括数据增强模块、数据混洗模块和批处理模块。其中所述数据增强模块，用于对视频数据和音频数据进行数据增强。所述数据混洗模块，用于对视频数据和音频数据进行数据混洗。以及批处理模块，用于对视频数据和音频数据进行批处理。其中，所述数据增强模块，主要用于对数据进行归一化和丰富数据样本数量，常见的数据增强方式包括裁剪、翻转、色彩变化等等。所述数据混洗模块和批处理模块，具体通过数据混洗(shuffle)随机打乱数据的顺序，并按批处理(batch)读取数据，进行模型训练。

所述提取模块402，用于提取视频特征和音频特征。进一步的，所述提取模块402包括视频特征提取模块和音频特征提取模块。其中，所述视频特征提取模块，本发明实施例采用3D残差神经网络结构(3D ResNet50)模型模块，模型输入为步骤S101中得到的视频序列，通过所述模型输出得到多维的视频特征向量。所述音频特征提取模块，本发明实施例采用wav2vec2.0 算法中的卷积神经网络(CNN)模型或神经机器翻译(Transformer)模型模块，模型输入为步骤S101中得到的音频信号A，通过所述模型输出得到多维音频特征向量。

所述第一自监督模块403，用于对提取的视频特征和音频特征进行自监督学习。进一步的，所述第一自监督模块403包括视频特征自监督模块和音频特征自监督模块。其中，所述视频特征自监督模块，用于对提取的视频特征进行自监督学习，本发明实施例中一共包含两个任务。一个任务是对视频帧是否有序的二分类任务作为监督，正样本为有序视频帧序列，负样本为无序视频帧序列。一个任务是对视频帧是正向和反向的二分类任务作为监督，正样本为正向的视频帧序列，负样本为反向的视频帧序列。两个任务同时进行监督，优化视频特征提取模型的参数。所述音频特征自监督模块，用于对提取的音频特征进行自监督学习，本发明实施例中，音频无监督学习通过 wav2vec2.0中的方法对音频信号进行遮挡，训练一个对比任务将真正的量化的隐藏变量表示与其他负例分辨出来，从而优化音频特征提取模型的参数。

所述融合模块404，用于对提取的视频特征向量和音频特征向量进行融合，得到多模态特征向量。进一步的，所述融合模块404包括特征分析模块、模态向量信息定义模块和多模态融合模块。其中所述特征分析模块，用于根据从原始的视频中提取的视频特征向量和音频特征向量进行特征分析，该视频是指流畅的视频流，因为该视频流蕴含有丰富的视觉、听觉和字母信息，所以这些视频特征和音频特征可以是颜色、纹理、形状、音调和文本等，然后采用多模态分析方法，即同时使用两种或是两种以上的模态信息进行处理。所述模态向量信息定义模块，用于从视频的底层特征中提取最优的视频和音频模态向量信息，并对这些模态向量信息进行定义。所述多模态融合模块，用于选择一种最优的方法来融合提取和定义的多模态视频特征和音频模态向量信息。

进一步的，所述融合模块还用于采用支持向量聚类的方法来完成多模态特征向量的选取，并通过基于统计的最大信息嫡方法来最优化地融合所提取的视频和音频多模态向量信息，我们使用等值线图(isoMAP)和支持向量机聚类(SVC)相结合的方法对多模态特征向量进行分析，得到多模态特征向量，然后使用最大嫡(MaxmiumEniorpy)模型对这些多模态特征向量进行最优化融合得到多维多模态特征向量。优选的，该多维多模态特征向量可以为 480维、640维、1280维等。

所述第二自监督模块405，用于对所述多模态特征向量进行自监督学习。进一步的，第二自监督模块405用于对所述多模态特征向量进行自监督学习，包括：对从所述视频中抽帧得到的所述视频帧序列和从视频中提取的所述音频信息进行是否来自于同一视频的二分类监督学习，以及同时对所述视频中抽帧得到的所述视频帧序列和从视频中提取的所述音频信息进行是否对齐的二分类监督学习。具体的，第二自监督模块405用于多模态监督学习的任务一共包含两个。一个任务是视频片段和音频片段是否来自于一个视频里的二分类任务作为监督，另一个任务是视频片段和音频片段在是否是对齐的二分类任务作为监督。两个任务同时进行监督，优化视频和音频特征提取模型的参数，以得到更好的多模态视频特征表示。

图4所示装置可以执行图1所示实施例的方法，本实施例未详细描述的部分，可参考对图1所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1所示实施例中的描述，在此不再赘述。

下面参考图5，其示出了适于用来实现本公开另一实施例的电子设备500 的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、 PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过通信线路504彼此相连。输入/输出(I/O)接口505也连接至通信线路504。

通常，以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如磁带、硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM 502被安装。在该计算机程序被处理装置501执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：执行上述实施例中的交互方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，提供了一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有能被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面中的任一所述交互方法。

根据本公开的一个或多个实施例，提供了一种非暂态计算机可读存储介质，其特征在于，该非暂态计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行前述第一方面中的任一所述交互方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种音视频特征提取方法，其特征在于，包括：

对视频进行视频数据预处理和音频数据预处理；

提取视频特征和音频特征；

对提取的视频特征和音频特征进行自监督学习；

对所述多模态特征向量进行自监督学习。

2.根据权利要求1所述的音视频特征提取方法，其特征在于，所述对视频进行视频数据预处理和音频数据预处理包括：

对视频数据和音频数据进行数据增强；

对视频数据和音频数据进行数据混洗；以及

对视频数据和音频数据进行批处理。

3.根据权利要求2所述的音视频特征提取方法，其特征在于，所述对视频进行视频数据预处理，包括：

对所述视频进行抽帧得到视频帧序列，设置一视频帧序列长度阈值；

如果所述序列长度大于所述长度阈值，则进行等间隔抽取所述长度阈值对应的帧数；

如果所述序列长度小于所述长度阈值，则通过插值的方法补齐至所述长度阈值对应的帧数。

4.根据权利要求3所述的音视频特征提取方法，其特征在于，提取所述视频特征，包括：采用3D残差神经网络结构(3D ResNet50)模型，以所述视频帧序列做为模型输入，通过所述模型输出得到多维的视频特征向量。

5.根据权利要求2所述的音视频特征提取方法，其特征在于，所述对视频进行音频数据预处理，包括：

提取所述视频中的音频信息，设置一音频时间阈值；

如果所述音频信息的时间长度大于所述时间阈值，按照所述时间阈值对所述音频进行随机裁剪，得到音频信号。

6.根据权利要求5所述的音视频特征提取方法，其特征在于，提取所述音频特征，包括：采用数据训练模型，以所述音频信号作为模型输入，通过所述模型输出得到多维音频特征向量。

7.根据权利要求6所述的音视频特征提取方法，其特征在于，所述数据训练模型为wav2vec2.0算法中的卷积神经网络(CNN)模型或神经机器翻译(Transformer)模型。

8.根据权利要求3或4所述的音视频特征提取方法，其特征在于，对提取的视频特征进行自监督学习，包括：对所述视频帧序列是否有序的二分类任务作为监督进行学习，正样本为有序视频帧序列，负样本为无序视频帧序列。

9.根据权利要求8所述的音视频特征提取方法，其特征在于，对提取的视频特征进行自监督学习，还包括：对所述视频帧是正向和反向的二分类任务作为监督进行学习，正样本为正向的视频帧序列，负样本为反向的视频帧序列。

10.根据权利要求5至7任一项所述的音视频特征提取方法，其特征在于，对提取的音频特征进行自监督学习，包括：通过wav2vec2.0算法对音频信号进行遮挡，训练一个对比任务将真正的量化的隐藏变量表示与其他负例分辨出来。

11.根据权利要求1所述的音视频特征提取方法，其特征在于，所述对提取的视频特征向量和音频特征向量进行融合，得到多模态特征向量，包括：

根据从原始的视频中提取的视频特征向量和音频特征向量进行特征分析；

从视频的底层特征中提取最优的视频和音频模态向量信息，并对这些模态向量信息进行定义；

对这些多模态特征向量进行最优化融合得到多维多模态特征向量。

12.根据权利要求1所述的音视频特征提取方法，其特征在于，对所述多模态特征向量进行自监督学习，包括：对从所述视频中抽帧得到的所述视频帧序列和从视频中提取的所述音频信息进行是否来自于同一视频的二分类监督学习，以及同时对所述视频中抽帧得到的所述视频帧序列和从视频中提取的所述音频信息进行是否对齐的二分类监督学习。

13.一种音视频特征提取装置，其特征在于，包括：

提取模块，用于提取视频特征和音频特征；

14.一种电子设备，包括：

存储器，用于存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，使得所述电子设备实现根据权利要求1-12中任意一项所述的方法。

15.一种计算机可读存储介质，用于存储计算机可读指令，当所述计算机可读指令由计算机执行时，使得所述计算机实现权利要求1-12中任意一项所述的方法。