CN117649622A

CN117649622A - 一种特征提取方法、装置、电子设备及存储介质

Info

Publication number: CN117649622A
Application number: CN202311369658.5A
Authority: CN
Inventors: 王发发
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2023-10-20
Filing date: 2023-10-20
Publication date: 2024-03-05

Abstract

本发明实施例提供的一种特征提取方法、装置、电子设备及存储介质，应用于信息技术领域，通过获取目标视频片段；对目标视频片段进行图像数据的提取和音频数据的提取，得到目标图像数据和目标音频数据；对目标图像数据进行空间维度特征和时间维度特征的提取，得到目标图像数据的空间维度特征、目标图像数据的时间维度特征；对目标音频数据进行梅尔频谱特征和时间维度特征的提取，得到目标音频数据的梅尔频谱特征和目标音频数据的时间维度特征；将提取到的特征进行融合，得到目标视频片段的适配特征，通过本申请的方案可以分别进行图像数据的提取和音频数据的特征的提取，减小特征提取过程中的计算量，提高提取的效率。

Description

一种特征提取方法、装置、电子设备及存储介质

技术领域

本发明涉及信息技术领域，特别是涉及一种特征提取方法、装置、电子设备及存储介质。

背景技术

目前，随着人工智能的高速发展，通过对图像进行特征提取，从而基于提取到的特征进行识别和分类的方案已经越来越多。然而，在通过终端设备进行特征提取时，由于卷积层维度高等原因，往往会导致计算效率低，从而导致提取效率低。

发明内容

本发明实施例的目的在于提供一种特征提取方法、装置、电子设备及存储介质，以实现提高图像的特征提取效率。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种特征提取方法，所述方法包括：

获取目标视频片段，其中，所述目标视频片段中包括至少两个人物和至少一句台词；

对所述目标视频片段进行图像数据的提取和音频数据的提取，得到目标图像数据和目标音频数据；

对所述目标图像数据进行空间维度特征和时间维度特征的提取，得到所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征；

对所述目标音频数据进行梅尔频谱特征和时间维度特征的提取，得到所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征；

将所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征、所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征进行融合，得到所述目标视频片段的适配特征。

在一种可能的实施方式中，所述对所述目标图像数据进行空间维度特征和时间维度特征的提取，得到所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征，包括：

将所述目标图像数据输入第一预设卷积层，通过所述第一预设卷积层对所述目标视频片段进行空间维度的特征的提取，得到所述目标图像数据的空间维度特征；

将所述空间维度特征输入第二预设卷积层，通过所述第二预设卷积层对所述空间维度特征进行时间维度特征的提取，得到所述目标图像数据的时间维度特征。

在一种可能的实施方式中，所述对所述目标音频数据进行梅尔频谱特征和时间维度特征的提取，得到所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征，包括：

将所述目标音频数据输入第三预设卷积层，通过所述第三预设卷积层对所述目标音频数据进行梅尔频谱特征的提取，得到所述目标音频数据的梅尔频谱特征；

将所述梅尔频谱特征输入第四预设卷积层，通过所述第四预设卷积层对所述梅尔频谱特征进行时间维度特征的提取，得到所述目标音频数据的时间维度特征。

在一种可能的实施方式中，所述将所述目标音频数据输入第三预设卷积层，通过所述第三预设卷积层对所述目标音频数据进行梅尔频谱特征的提取，得到所述目标音频数据的梅尔频谱特征，包括：

对所述目标音频数据进行频谱识别，得到所述目标音频数据对应的梅尔频谱；

将所述梅尔频谱输入第三预设卷积层，通过所述第三预设卷积层特征提取，得到所述目标音频的梅尔频谱特征。

在一种可能的实施方式中，在所述将所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征、所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征进行融合，得到所述目标视频片段的适配特征之后，所述方法还包括：

对所述目标视频片段的适配特征输入预先训练好的卷积神经网络，识别得到所述目标视频片段对应的说话人物。

在本发明实施的第二方面，还提供了一种特征提取装置，所述装置包括：

视频获取模块，用于获取目标视频片段，其中，所述目标视频片段中包括至少两个人物和至少一句台词；

数据提取模块，用于对所述目标视频片段进行图像数据的提取和音频数据的提取，得到目标图像数据和目标音频数据；

图像特征提取模块，用于对所述目标图像数据进行空间维度特征和时间维度特征的提取，得到所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征；

音频特征提取模块，用于对所述目标音频数据进行梅尔频谱特征和时间维度特征的提取，得到所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征；

特征融合模块，用于将所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征、所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征进行融合，得到所述目标视频片段的适配特征。

在一种可能的实施方式中，所述图像特征提取模块，包括：将所述目标图像数据输入第一预设卷积层，通过所述第一预设卷积层对所述目标视频片段进行空间维度的特征的提取，得到所述目标图像数据的空间维度特征；将所述空间维度特征输入第二预设卷积层，通过所述第二预设卷积层对所述空间维度特征进行时间维度特征的提取，得到所述目标图像数据的时间维度特征。

在一种可能的实施方式中，

所述音频特征提取模块，具体用于将所述目标音频数据输入第三预设卷积层，通过所述第三预设卷积层对所述目标音频数据进行梅尔频谱特征的提取，得到所述目标音频数据的梅尔频谱特征；将所述梅尔频谱特征输入第四预设卷积层，通过所述第四预设卷积层对所述梅尔频谱特征进行时间维度特征的提取，得到所述目标音频数据的时间维度特征。

在一种可能的实施方式中，

所述音频特征提取模块，具体用于对所述目标音频数据进行频谱识别，得到所述目标音频数据对应的梅尔频谱；将所述梅尔频谱输入第三预设卷积层，通过所述第三预设卷积层特征提取，得到所述目标音频的梅尔频谱特征。

在一种可能的实施方式中，所述装置还包括：

人物识别模块，用于对所述目标视频片段的适配特征输入预先训练好的卷积神经网络，识别得到所述目标视频片段对应的说话人物。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的特征提取方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的特征提取方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的特征提取方法。

本发明实施例提供的一种特征提取方法、装置、电子设备及存储介质，通过获取目标视频片段，其中，所述目标视频片段中包括至少两个人物和至少一句台词；对所述目标视频片段进行图像数据的提取和音频数据的提取，得到目标图像数据和目标音频数据；对所述目标图像数据进行空间维度特征和时间维度特征的提取，得到所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征；对所述目标音频数据进行梅尔频谱特征和时间维度特征的提取，得到所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征；将所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征、所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征进行融合，得到所述目标视频片段的适配特征，通过本申请的方案可以分别进行图像数据的提取和音频数据的特征的提取，减小特征提取过程中的计算量，提高提取的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中特征提取方法的一种流程示意图；

图2为本发明实施例中图像特征提取方法的一种流程示意图；

图3为本发明实施例中音频特征提取方法的一种流程示意图；

图4为本发明实施例中特征提取方法的又一种流程示意图；

图5为本发明实施例中特征提取装置的一种结构示意图；

图6为本发明实施例中电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

在本发明实施的第一方面，首先提供了一种特征提取方法，参见图1，所述方法包括：

步骤S11，获取目标视频片段，其中，所述目标视频片段中包括至少两个人物和至少一句台词。

本申请实施例中的目标图像可以为多种类型图像，具体的，可以是从而视频中进行图像的抽帧得到的图像，也可以是直接采集到的图像。在实际使用过程中，该目标图像还可以时多种格式的图像，本申请对此不进行限定。本申请实施例中的目标视频片段包括至少两个人物和至少一句台词，该台词可以是其中一个人的台词，也可以是两个均有台词。在实际使用过程中，本申请实施例提取到的特征可以应用于说话人物的识别，具体的可以识别台词对应的人物，即台词为视频片段中那一个人说的。

本申请实施例的方法应用于智能终端，可以通过智能终端来实施，具体的，该智能终端可以是电脑、手机或服务器等。

步骤S12，对所述目标视频片段进行图像数据的提取和音频数据的提取，得到目标图像数据和目标音频数据。

本申请实施例中，对所述目标视频片段进行图像数据的提取和音频数据的提取可以分别对该目标视频片段进行声音和图像的提取，提取的目标图像数据可以为该目标视频数据中的多个视频帧。对所述目标视频片段进行音频数据的提取，由于该视频片段中包括至少一句台词，因此，该音频可以包括该至少一句台词对应的音频。

步骤S13，对所述目标图像数据进行空间维度特征和时间维度特征的提取，得到所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征。

其中，对所述目标图像数据进行空间维度特征和时间维度特征的提取，得到所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征，可以通过预先创建的特征提取模型首先提取目标图像数据的空间维度特征，然后根据该目标图像数据的空间维度特征在进一步提取目标图像数据的时间维度特征。

步骤S14，对所述目标音频数据进行梅尔频谱特征和时间维度特征的提取，得到所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征。

其中，对所述目标音频数据进行梅尔频谱特征和时间维度特征的提取，得到所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征，可以通过预先创建的特征提取模型首先提取目标音频数据的梅尔频谱特征，然后根据该目标音频数据的梅尔频谱特征提取目标音频数据的时间维度特征。

步骤S15，将所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征、所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征进行融合，得到所述目标视频片段的适配特征。

将所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征、所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征进行融合可以通过多种方法进行融合，例如，特征拼接、求和、叠加等。一个例子中，可以利用concat进行融合。

可见，本申请实施例的方法，通过本申请的方案可以对所述目标视频片段进行图像数据的提取和音频数据的提取，得到目标图像数据和目标音频数据，然后分别进行图像数据的提取和音频数据的特征的提取，最后将所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征、所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征进行融合，得到所述目标视频片段的适配特征，通过拆分后进行特征提取减小特征提取过程中的计算量，提高提取的效率。

在一种可能的实施方式中，步骤S13对所述目标图像数据进行空间维度特征和时间维度特征的提取，得到所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征，参见图2，包括：

步骤S131，将所述目标图像数据输入第一预设卷积层，通过所述第一预设卷积层对所述目标视频片段进行空间维度的特征的提取，得到所述目标图像数据的空间维度特征；

步骤S132，将所述空间维度特征输入第二预设卷积层，通过所述第二预设卷积层对所述空间维度特征进行时间维度特征的提取，得到所述目标图像数据的时间维度特征。

本申请实施例中的第一预设卷积层的维度可以低于直接进行图像特征提取的卷积层的维度。由于在实际使用过程中，进行图像的特征的提取时，需要同时进行空间维度和时间维度的特征的提取，而本申请的方案则是先后分别进行空间维度和时间维度的特征的提取，因此，在通过所述第一预设卷积层对所述目标图像进行空间维度的特征的提取时，第一预设卷积层的维度可以低于同时进行空间维度和时间维度的特征提取的卷积层的维度。同时，由于此时仅在空间维度进行特征提取，时间维度不进行计算，因此降低了模型的计算量。

本申请实施例中的第二预设卷积层的维度可以低于直接进行图像特征提取的卷积层的维度。例如，在进行图像特征提取时，一般需要通过3维卷积层进行图像的特征的提取，而本申请实施例的方案则可以通过2维卷积层首先进行空间维度的特征的提取，得到所述目标图像数据的空间维度特征，然后通过1维卷积层进行时间维度特征的提取，得到所述目标图像数据的时间维度特征。同时，由于此时仅在时间维度进行特征提取，空间维度不进行计算，因此降低了模型的计算量。

在实际使用过程中，通过最终得到所述目标图像数据的时间维度特征，可以进行目标图像的识别、分类、目标检测等。由于步骤S131和步骤132先后分别进行，可以通过低维的第一预设卷积层和第二预设卷积层分别合作，实现通过高维卷积层才能提取到的图像特征，不但可以实现图像特征的提取，而且，由于第一预设卷积层和第二预设卷积层的维度低，可以提高计算速度和特征的提取效率。

在一种可能的实施方式中，步骤S14对所述目标音频数据进行梅尔频谱特征和时间维度特征的提取，得到所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征，参见图3，包括：

步骤S141，将所述目标音频数据输入第三预设卷积层，通过所述第三预设卷积层对所述目标音频数据进行梅尔频谱特征的提取，得到所述目标音频数据的梅尔频谱特征；

步骤S142，将所述梅尔频谱特征输入第四预设卷积层，通过所述第四预设卷积层对所述梅尔频谱特征进行时间维度特征的提取，得到所述目标音频数据的时间维度特征。

在一种可能的实施方式中，所述将所述目标音频数据输入第三预设卷积层，通过所述第三预设卷积层对所述目标音频数据进行梅尔频谱特征的提取，得到所述目标音频数据的梅尔频谱特征，包括：对所述目标音频数据进行频谱识别，得到所述目标音频数据对应的梅尔频谱；将所述梅尔频谱输入第三预设卷积层，通过所述第三预设卷积层特征提取，得到所述目标音频的梅尔频谱特征。

一个例子中，第一预设卷积层和第二预设卷积层分别为2维卷积层和1维卷积层，通过2维卷积层对目标图像进行空间维度特征提取，得到特征a*b*m，其中a，b为提取的特征图的宽和高，m为通道数与抽帧图像序列长度的乘积。由于该特征仅在空间维度有计算量，时间维度不参与计算，从而降低了模型的计算量。然后通过1维卷积层对特征a*b*m进行时间维度特征提取，得到a*b*n，这时特征图的大小不变，仅在时间维度进行卷积计算，类似于对通道维度做池化处理，所以也降低了模型的计算量。

例如，输入的音频首先得到其对应的梅尔频谱，维度为c*d，然后将2维卷积拆分成两个1维顺序叠加的形式，首先使用1维的卷积对梅尔频谱进行特征提取，提取后的特征表示为f*d，然后将的到的特征通过另一个1维卷积，对时间维度的特征进行卷积，得到f*g，这样便能够达到2维卷积的效果，同时降低了模型的计算量。

在一种可能的实施方式中，在所述将所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征、所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征进行融合，得到所述目标视频片段的适配特征之后，，所述方法还包括：对所述目标视频片段的适配特征输入预先训练好的卷积神经网络，识别得到所述目标视频片段对应的说话人物。

其中，预先训练好的卷积神经网络可以为训练得到的用于进行人声定位的网络模型，通过该模型可以根据目标视频的音视频特征识别，音频中的声音对应的视频中的说话的人物。具体的，当用于说话人定位时，对应的目标图像中包括人物图像，目标音频包括人物说话的音频。

通过本申请的方案，在视频特征提取和音频特征提取阶段，分别对3维卷积和2维卷积进行拆分处理，通过降维叠加的方式，降低原高维卷积的计算量，达到提升模型推理速度的目的，同时大幅降低了模型的推理耗时，由于推理速度大大提高，模型可以处理更加清晰的原图，这样便进一步提升了模型的识别精度。

为了说明本申请实施例的方法，以下结合具体实施例进行说明，参见图4，包括：

输入视频对应的图像序列和音频；然后分别将图像序列输入视频特征提取模型，然后通过2D卷积完成空间维度特征提取，再将提取的特征输入1D卷积完成时间维度特征提取；针对音频基于音频特征提取梅尔频谱，然后将提取的频谱输入音频特征提取模型，通过1D卷积完成梅尔频谱维度特征提取，再将提取的特征通过1D卷积完成时间维度特征提取；然后将提取的特征进行音视频特征融合，在通过循环神经网络输出说话人定位识别结果。

具体的步骤可以包括：

1、分别输入待识别段落对应的视频抽帧图像和音频；

2、将抽帧序列通过2D卷积，提取空间维度特征，得到特征a*b*m，其中a，b为提取的特征图的宽和高，m为通道数与抽帧图像序列长度的乘积，这一步卷积仅在空间维度有计算量，时间维度不参与计算，从而降低了模型的计算量；

3、将特征a*b*m通过1D的卷积，得到a*b*n，这时特征图的大小不变，仅在时间维度进行卷积计算，类似于对通道维度做池化处理，所以也降低了模型的计算量；

4、将步骤2与步骤3叠加在一起，顺序使用，可以达到3D卷积的效果，同时降低了模型的计算量；

5、输入的音频首先得到其对应的梅尔频谱，维度为c*d，然后将2D卷积拆分成两个1D顺序叠加的形式，首先使用1D的卷积对梅尔频谱进行特征提取，提取后的特征表示为f*d，然后将的到的特征通过另一个1D卷积，对时间维度的特征进行卷积，得到f*g，这样便能够达到2D卷积的效果，同时降低了模型的计算量；

6、将提取到的音频和视频特征利用concat进行融合，通过卷积神经网络预测输出结果，完成说话人定位。

可见，本申请实施例的方法，可以通过第一预设卷积层和第二预设卷积层分别进行不同维度特征的提取，得到目标图像的特征，相比较与现有技术中同时进行空间维度和时间维度特征的提取，通过本申请的方案可以先后通过第一卷积层和第二卷积层分别进行不同维度特征的提取，减小特征提取过程中的计算量，提高提取的效率。

在本发明实施的第二方面，还提供了一种特征提取装置，参见图5，所述装置包括：

视频获取模块501，用于获取目标视频片段，其中，所述目标视频片段中包括至少两个人物和至少一句台词；

数据提取模块502，用于对所述目标视频片段进行图像数据的提取和音频数据的提取，得到目标图像数据和目标音频数据；

图像特征提取模块503，用于对所述目标图像数据进行空间维度特征和时间维度特征的提取，得到所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征；

音频特征提取模块504，用于对所述目标音频数据进行梅尔频谱特征和时间维度特征的提取，得到所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征；

特征融合模块505，用于将所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征、所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征进行融合，得到所述目标视频片段的适配特征。

在一种可能的实施方式中，

在一种可能的实施方式中，所述装置还包括：

可见，本申请实施例的装置，通过本申请的方案可以对所述目标视频片段进行图像数据的提取和音频数据的提取，得到目标图像数据和目标音频数据，然后分别进行图像数据的提取和音频数据的特征的提取，最后将所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征、所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征进行融合，得到所述目标视频片段的适配特征，通过拆分后进行特征提取减小特征提取过程中的计算量，提高提取的效率。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的特征提取方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的特征提取方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、存储介质及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种特征提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像数据进行空间维度特征和时间维度特征的提取，得到所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标音频数据进行梅尔频谱特征和时间维度特征的提取，得到所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征，包括：

4.根据权利要求2所述的方法，其特征在于，所述将所述目标音频数据输入第三预设卷积层，通过所述第三预设卷积层对所述目标音频数据进行梅尔频谱特征的提取，得到所述目标音频数据的梅尔频谱特征，包括：

5.根据权利要求1所述的方法，其特征在于，在所述将所述目标图像数据的空间维度特征、所述目标图像数据的时间维度特征、所述目标音频数据的梅尔频谱特征和所述目标音频数据的时间维度特征进行融合，得到所述目标视频片段的适配特征之后，所述方法还包括：

6.一种特征提取装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，

所述图像特征提取模块，包括：将所述目标图像数据输入第一预设卷积层，通过所述第一预设卷积层对所述目标视频片段进行空间维度的特征的提取，得到所述目标图像数据的空间维度特征；将所述空间维度特征输入第二预设卷积层，通过所述第二预设卷积层对所述空间维度特征进行时间维度特征的提取，得到所述目标图像数据的时间维度特征。

8.根据权利要求6所述的装置，其特征在于，

所述音频特征提取模块，具体用于将所述目标音频数据输入第三预设卷积层，通过所述第三预设卷积层对所述目标音频数据进行梅尔频谱特征的提取，得到所述目标音频数据的梅尔频谱特征；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。