CN114067241A

CN114067241A - 视频的情感预测方法、装置、设备及可读存储介质

Info

Publication number: CN114067241A
Application number: CN202111294845.2A
Authority: CN
Inventors: 张宸; 陈忱; 陶训强; 何苗; 郭彦东
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-18

Abstract

本申请公开一种视频的情感预测方法、装置、设备及可读存储介质。包括：获取待处理的视频数据；视频数据包括图像帧序列和音频数据；利用第一编码网络从图像帧序列提取第一动作特征向量，利用第一循环神经网络从第一动作特征向量提取第二动作特征向量，第一动作特征向量对应的视频时长短于第二动作特征向的视频时长；利用第二编码网络从音频数据提取第一声音特征向量，并利用第二循环神经网络从第一声音特征向量提取第二声音特征向量，第一声音特征向量对应的视频时长短于第二声音特征向量对应的视频时长；融合第二动作特征向量和第二声音特征向量，得到融合特征；基于融合特征进行情感预测。通过上述方式，本申请能够提高对视频情感预测的准确度。

Description

视频的情感预测方法、装置、设备及可读存储介质

技术领域

本申请涉及视频处理领域，特别是涉及视频的情感预测方法、装置、设备及可读存储介质。

背景技术

经过长期研究发现，一般对视频的情感进行预测都是预测整个视频的情感分类，这使得现有技术大多局限于对短视频的处理。

对于长视频的情况，观看者的情绪会随着观看时间进行变化，此时对整个视频的情感进行分类显然是不合理的。

发明内容

本申请主要提供一种视频的情感预测方法、装置、设备及可读存储介质。

本申请第一方面提供了一种视频的情感预测方法，包括：获取待处理的视频数据；其中，视频数据包括图像帧序列和相应的音频数据；利用第一编码网络从图像帧序列提取第一动作特征向量，并利用第一循环神经网络从第一动作特征向量提取第二动作特征向量；利用第二编码网络从音频数据提取第一声音特征向量，并利用第二循环神经网络从第一声音特征向量提取第二声音特征向量；将第二动作特征向量和第二声音特征向量进行融合，得到融合特征；基于融合特征对视频数据进行情感预测。

本申请第二方面提供了一种视频情感预测装置，包括：获取模块，用于获取待处理的视频数据；其中，所述视频数据包括图像帧序列和相应的音频数据；动作特征提取模块，用于利用第一编码网络对所述图像帧序列进行特征提取，得到第一动作特征向量，并利用第一循环神经网络对所述第一动作特征向量进行特征提取，得到第二动作特征向量，其中，所述第一动作特征向量所对应的视频时长短于所述第二动作特征向量所对应的视频时长；声音特征提取模块，用于利用第二编码网络对所述音频数据进行特征提取，得到第一声音特征向量，并利用第二循环神经网络对所述第一声音特征向量进行特征提取，得到第二声音特征向量，其中，所述第一声音特征向量所对应的视频时长短于所述第二声音特征向量所对应的视频时长；特征融合模块，用于将所述第二动作特征向量和所述第二声音特征向量进行融合，得到融合特征；情感预测模块，用于基于所述融合特征对所述视频数据进行情感预测。

本申请第三方面提供了一种电子设备，包括相互耦接的处理器和存储器，所述存储器中存储有能够在处理器上运行的计算机程序，其中，所述处理器用于运行所述计算机程序时，实现如上述第一方面提供的视频的情感预测方法。

本申请第四方面提供了一种计算机可读存储介质，计算机可读存储介质存储有程序数据，所述程序数据被处理器执行时，实现上述第一方面提供的视频的情感预测方法。

本申请的有益效果是：区别于现有技术的情况，本申请利用第一编码网络提取图像帧序列的第一动作特征向量，再利用第一循环神经网络从第一动作特征向量提取第二动作特征向量，利用第二编码网络从音频数据提取第一声音特征向量，并利用第二循环神经网络从第一声音特征向量提取第二声音特征向量；将第二动作特征向量和第二声音特征向量进行融合，得到融合特征；基于融合特征对视频数据进行情感预测。上述方法获取的第二动作特征向量和第二声音特征向量都是长时特征，保留更多的有用信息，作用到情感预测层面上，能够有效提高情感预测结果的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请电子设备一实施例的结构示意框图；

图2是本申请视频的情感预测方法一实施例的流程示意框图；

图3是本申请步骤S12一实施例的流程示意框图；

图4是本申请步骤S13一实施例的流程示意框图；

图5是本申请步骤S14一实施例的流程示意框图；

图6是本申请对第一编码网络、第一循环神经网络进行训练一实施例的流程示意框图；

图7是本申请对第二编码网络、第二循环神经网络进行训练一实施例的流程示意框图；

图8为本申请视频情感预测网络一实施例的结构示意框图；

图9是本申请对回归层进行训练一实施例的流程示意框图；

图10是本申请视频的情感预测装置一实施例的结构示意框图；

图11是本申请计算机可读存储介质一实施例的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解是，本文所描述的实施例可以与其他实施例结合。

请参阅图1，图1是本申请电子设备一实施例的结构示意框图。该电子设备100包括相互耦接的处理器101和存储器102，存储器102中存储有能够在处理器101上运行的计算机程序，其中，处理器101用于执行计算机程序时，实现下述各实施例所述的视频的情感预测方法。

存储器102可用于存储程序数据以及模块，处理器101通过运行存储在存储器102的程序数据以及模块，从而执行各种功能应用以及数据处理。存储器102可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备100的使用所创建的数据(比如视频数据、图像帧序列、音频数据等)等。此外，存储器102可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器102还可以包括存储器控制器，以提供处理器101对存储器102的访问。

在一些具体实施例中，电子设备100不限于包括电视机、桌面型计算机、膝上型计算机、手持计算机、可穿戴设备、笔记本电脑。

关于处理执行的各步骤的描述请参照下述本申请视频的情感预测方法实施例的各步骤的描述，在此不再赘述。

请参阅图2，图2是本申请视频的情感预测方法一实施例的流程示意框图。本实施例包括以下步骤：

步骤S11：获取待处理的视频数据；其中，视频数据包括图像帧序列和相应的音频数据。

待处理视频例如可以是通过网络从服务器获取的，也可以是通过物理连接模块从U盘、硬盘等存储设备获取的，还可以是发出处理操作的设备主体通过自身摄像功能拍摄得到的。

待处理视频，包括图像帧序列以及音频数据，音频数据与图像帧序列相对应，均为同一视频数据的内容。

其中，待处理视频的时长、分辨率等信息可根据实际网络的处理性能按需要设置，待处理视频的可为wmv、rmvb、mkv、mp4等格式，此处均不做限定。

步骤S12：利用第一编码网络从图像帧序列提取第一动作特征向量，并利用第一循环神经网络从第一动作特征向量提取第二动作特征向量。

其中，第一动作特征向量所对应的视频时长短于第二动作特征向量所对应的视频时长。即，第一动作特征向量为短时动作特征，包含较少帧的信息，第二动作特征向量为长时动作特征，保留图像帧中较多的时间信息。

其中，第一编码网络为三维卷积神经网络或三维残差神经网络，能够提取除图像像素信息之外的动作信息，保留图像帧之间的关联信息。

第一循环神经网络例如为RNN(循环神经网络,Recurrent Neural Network)或LSTM(长短期记忆网络,long short-term memory)。

请参阅图3，图3是本申请步骤S12一实施例的流程示意框图。本实施例包括以下步骤：

步骤S121：对图像帧序列进行分割，得到多个帧片段，其中每个帧片段包括至少两个图像帧。

其中，分割方式可以是将图像帧序列分割为等长的多个帧片段。每个帧片段所包含的图像帧数量大于或等于2，具体可综合考虑网络的性能以及图像帧序列的总长度而设置。

步骤S122：将帧片段输入第一编码网络，以获取与帧片段对应的第一动作特征向量。

本步骤可将多个在时间上连续的帧片段输入第一编码网络，以输出每个帧片段对应的第一动作特征向量。

步骤S123：将多个第一动作特征向量输入第一循环神经网络，以获得第二动作特征向量。

其中，多个第一动作特征向量，具体可包括至少2个第一动作特征向量。

可选的是，多个第一动作特征向量对应多个在时间上连续的帧片段。具体而言，步骤S122每次进行特征提取操作前，利用滑窗选取预设数量个连续的帧片段，将选中的帧片段分别输入第一编码网络，以分别提取第一动作特征向量。

其中，帧片段的选取数量则可通过设置滑窗参数而确定。

本实施例的第二动作特征向量是通过对多个第一动作特征向量进行处理得到的，其包含有连续多个帧片段的动作特征信息，后续预测的准确度更高。

步骤S13：利用第二编码网络从音频数据提取第一声音特征向量，并利用第二循环神经网络从第一声音特征向量提取第二声音特征向量。

其中，第一声音特征向量所对应的视频时长短于第二声音特征向量所对应的视频时长。也就是说，第一声音征向量为短时声音特征，包含音频数据中较短的时间信息，第二声音特征向量为长时声音特征，保留音频数据中较多的时间信息。

请参阅图4，图4是本申请步骤S13一实施例的流程示意框图。本实施例具体包括以下步骤：

步骤S131：对应于图像帧序列的分割方式，对音频进行分割，得到多个音频片段。

请参见上一实施例中步骤S121对于图像帧序列的分割方式，本步骤对音频数据的分割方式对应于图像帧序列的分割方式，将音频数据分割为多个音频片段，使得每个音频片段均有一个帧片段与之对应，对每个音频片段进行声音特征提取后，均有一个动作特征与之对应。

步骤S132：将音频片段输入第二编码网络，以获得音频片段对应的第一声音特征向量。

本步骤可将多个在时间上连续的音频片段输入第一编码网络，以输出每个音频片段对应的第一声音特征向量。

可选地，本步骤对音频片段提取第一声音特征向量之前，可预先对提取音频片段的梅尔频谱，以将梅尔频谱作为音频片段的表征，输入第二编码网络进行第一声音特征向量提取。

具体而言，声音信号本是一维的时域信号，直观上很难看出频率变化规律。把一段长信号分帧、加窗，再对每一帧做傅里叶变换(FFT)，最后把每一帧的结果沿另一个维度堆叠起来，得到类似于一幅图的二维信号形式，即声谱图。梅尔频谱，是将声谱图通过梅尔标度滤波器组(mel-scale filter banks)，变换为梅尔频谱，以得到合适大小的声音特征。

步骤S133：将多个第一声音特征向量输入第二循环神经网络，以获得第二声音特征向量。

其中，多个第一声音特征向量，具体可包括至少2个第一声音特征向量。

可选的是，多个第一声音特征向量对应多个在时间上连续的音频片段。具体而言，步骤S132每次进行特征提取操作前，利用滑窗选取预设数量个连续的音频片段，将选中的音频片段分别输入第一编码网络，以分别提取第一声音特征向量。

其中，音频片段的选取数量则可通过设置滑窗参数而确定。

本实施例的第二声音特征向量是通过对多个第一声音特征向量进行处理得到的，其包含有连续多个音频片段的声音特征信息，后续预测的准确度更高。

步骤S14：将第二动作特征向量和第二声音特征向量进行融合，得到融合特征。

融合特征中包含了图像和音频两方面的特征，可以更全面准确地表现出视频的特性，进而提高视频情感预测的准确性。

请参阅图5，图5是本申请步骤S14一实施例的流程示意框图。本实施例将第二动作特征向量和第二声音特征向量进行融合具体可包括以下步骤：

步骤S141：对第二动作特征向量以及第二声音特征向量分别进行池化处理，以使得第二动作特征向量以及第二声音特征向量为同一维度。

步骤S142：将进行池化处理后的第二动作特征向量、第二声音特征向量进行拼接，得到融合特征。

上述方式将第二动作特征向量、第二声音特征向量拼接得到融合特征，在另外的实施方式中，还可以利用attention的方法，对第二动作特征向量、第二声音特征向量进行加权融合，以得到融合特征。

步骤S15：基于融合特征对视频数据进行情感预测。

本步骤将融合特征输入情感预测网络，以获得相应视频片段的情感预测结果。

上述实施例可对利用第二动作特征向量和第二声音特征向量对视频数据进行分段情感预测，一方面，长时特征有利于提高预测结果的准确度，另一方面，对视频进行分段预测，相较于对视频数据进行总体情感预测的方式，准确度更高，多个情感值对于整体视频的情感走向表示更加明确，有利于对视频的进一步处理。

请参阅图6，图6是本申请对第一编码网络、第一循环神经网络进行训练一实施例的流程示意框图。本实施例可包括以下步骤：

步骤S21：将第一编码网络连接至第三循环神经网络，并利用无标签的图像帧数据集对第一编码网络和第三循环神经网络进行自监督训练，其中第三循环神经网络基于第一编码网络的当前第一动作特征向量的输出结果用于预测第一编码网络的下一第一动作特征向量。

上述预测下一第一动作特征向量，即得到下一个帧片段对应的第一动作特征向量预测值，同时，第一编码网络可提取下一个帧片段的第一动作特征向量，利用该预测值与第一编码网络提取的第一动作特征向量进行比对，求得损失，再根据损失调整优化第一编码网络的参数。

本步骤使用无标注的图像帧数据集对第一编码网络进行自监督训练，可极大的降低数据标注的成本，并使得可用的数据集的数量得到了大规模的扩充。

步骤S22：移除第三循环神经网络，并将第一编码网络连接至第一循环神经网络。

步骤S21：调整好第一编码网络的参数，即完成对第一编码网络的自监督训练，得到性能良好的第一编码网络。将第一编码网络连接至第一循环神经网络，便于对第一循环神经网络进行训练。

步骤S23：在第一编码网络的参数固定的情况下，利用带有标签的图像帧数据集对第一编码网络和第一循环神经网络进行训练，以调整第一循环神经网络的参数。

其中，第一循环神经网络基于第一编码网络输出的第一动作特征向量进行情感预测。图像帧数据集中的标签则是根据观看者的情感添加的。

在一种实施方式中，第一循环神经网络包括情感预测回归层，用于进行情感预测，情感预测结果为对应于若干情感类别的置信度评分，置信度评分在0到1之间，其数值越大，表示对应类别的情感越强烈。

具体而言，本步骤在将带有标签的图像帧输入第一编码网络，得到多个第一动作特征向量，第一循环神经网络根据第一动作特征向量得到第二动作特征向量，并根据第二动作特征向量预测下一第一动作特征向量，根据预测结果和标签计算损失，根据损失不断调整第一循环神经网络的参数。

步骤S24：移除第一循环神经网络的情感预测回归层，以将所保留的第一循环神经网络的最后一层的输出结果作为第二动作特征向量。

具体而言，情感预测回归层用于根据长时特征进行情感预测，进而利用预测结果对网络参数进行调整，以完成对第一循环神经网络的训练，如此得到的第一编码网络与第一循环神经网络的联合网络结构具有较好的第二动作特征向量提取性能。在第一循环神经网络训练完成之后，其作用为输出第二动作特征向量，情感预测回归层不再使用，将其移除。

其中，第一编码网络为ResNet-3D网络，第一循环神经网络为LSTM网络，第一编码网络和第一循环神经网络组成E3D-LSTM网络(即Eidetic 3D LSTM)，其具有优异的长时记忆性能，对于长距离信息具有更好的感知力，因此，对于视频的情感预测也更加准确。

请参阅图7，图7是本申请对第二编码网络、第二循环神经网络进行训练一实施例的流程示意框图。本实施例可包括以下步骤：

步骤S31：将第二编码网络连接至第四循环神经网络，并利用无标签的音频数据集对第二编码网络和第四循环神经网络进行自监督训练，其中第四循环神经网络基于第二编码网络的当前第一声音特征向量的输出结果用于预测第二编码网络的下一第一声音特征向量。

上述预测下一第一声音特征向量，即得到下一个音频片段对应的第一声音特征向量预测值，同时，第二编码网络可提取下一个声音片段的第一声音特征向量，利用该预测值与第二编码网络提取的第一声音特征向量进行比对，求得损失，再根据损失调整优化第二编码网络的参数。

本步骤使用无标注的图像帧数据集对第二编码网络进行自监督训练，可极大的降低数据标注的成本，并使得可用的数据集的数量得到了大规模的扩充。

步骤S32：移除第四循环神经网络，并将第二编码网络连接至第二循环神经网络。

上述方式中，步骤S31调整好第二编码网络的参数，即完成对第二编码网络的自监督训练，得到性能良好的第二编码网络。将第二编码网络连接至第二循环神经网络，便于对第二循环神经网络进行训练。

步骤S33：在第二编码网络的参数固定的情况下，利用带有标签的音频数据集对第二编码网络和第二循环神经网络进行训练，以调整第二循环神经网络的参数。

其中，第二循环神经网络基于第二编码网络输出的第一声音特征向量进行情感预测。音频数据集中的标签则是根据观看者的情感添加的。

可选地，第二循环神经网络也包括情感预测回归层，用于进行情感预测，情感预测结果为对应于若干情感类别的置信度评分，置信度评分在0到1之间，其数值越大，表示对应类别的情感越强烈。

具体而言，本步骤在将带有标签的图像帧输入第二编码网络，得到多个第一声音特征向量，第二循环神经网络根据第一声音特征向量得到第二声音特征向量，并根据第二声音特征向量预测下一第一声音特征向量，根据预测结果和标签计算损失，根据损失不断调整第二循环神经网络的参数。

步骤S34：移除第二循环神经网络的情感预测回归层，以将所保留的第二循环神经网络的最后一层的输出结果作为第二声音特征向量。

具体而言，第二循环神经网络的情感预测回归层用于根据第二声音特征向量进行情感预测，进而利用预测结果对网络参数进行调整，以完成对第二循环神经网络的训练，如此得到的第二编码网络与第二循环神经网络的联合网络结构具有较好的第二声音特征向量提取性能。在第二循环神经网络训练完成之后，其作用为输出第二声音特征向量，情感预测回归层不再使用，将其移除。

其中，第二编码网络可以是3D残差网络，第二循环神经网络可以是LSTM网络，如此，第二编码网络和第二循环神经网络组成E3D-LSTM网络(即Eidetic 3D LSTM)，其具有优异的长时记忆性能，对于长距离信具有更好的感知力，对于第二声音特征向量的提取具有优势，因此，对于视频的情感预测也更加准确。

请结合参阅图8，图8为本申请视频情感预测网络一实施例的结构示意框图。本实施例基于图8所示的视频的情感预测网络对回归层进行训练。图8所示的情感预测网络包括第一编码网络10、第二编码网络20、第一循环神经网络30、第二循环神经网络40、特征融合层50以及情感预测回归网络60，第一编码网络10、第二编码网络20、第一循环神经网络30、第二循环神经网络40均训练完毕并固定网络参数。其中，第一编码网络10连接第一循环神经网络30，第二编码网络20连接第二循环神经网络40，第一循环神经网络30和第二循环神经网络40的输出层均连接到特征融合层50，特征融合层的输出端连接情感预测回归网络60。

请参阅图9，图9是本申请对回归层进行训练一实施例的流程示意框图。本实施例可包括以下步骤：

步骤S41：在第一编码网络10、第二编码网络20、第一循环神经网络30、第二循环神经网络40的参数固定后，连接第一编码网络10和第一循环神经网络30，以及连接第二编码网络20和第二循环神经网络40。

步骤S42：利用带有标签的视频数据的图像帧序列和音频数据分别输入第一编码网络10和第二编码网络20，第一编码网络10输出的第一短时特征作为第一循环神经网络30的输入，第一循环神经网络30根据第一短时特征输出第一长时特征，第二编码网络20输出的第二短时特征作为第二循环神经网络40的输入，第二循环神经网络40根据第二短时特征输出第二长时特征。

其中，第一长时特征、第一短时特征均为动作特征，第二长时特征、第二短时特征均为声音特征。

步骤S43：将第一长时特征和第二长时特征的进行融合，得到融合视频特征。

此步骤请参考前述实施例中步骤S14的特征融合方式，利用特征融合层50将第一长时特征和第二长时特征进行融合，得到融合视频特征，此处不再进行赘述。

步骤S44：将融合视频特征输入情感预测回归网络60，以得到情感预测结果，根据情感预测结果和标签，调整情感预测回归网络60的参数。

根据情感预测结果和标签的差异不断调整情感预测回归网络60中的相应参数，以逐渐提高情感预测回归网络60对视频进行的情感预测结果与视频数据的情感标签相匹配的准确率，并给出对应于若干情感类别的置信度评分，置信度评分在0到1之间，其数值越大，表示对应类别的情感越强烈。

对情感预测回归网络60进行参数调整后，即可应用图4所示的情感预测网络对视频进行情感预测，该网络对长视频的情感预测效果好，准确度高。

有益效果：

1、本方案使用自监督学习的技术对第一编码器和第二编码器进行训练，极大的降低了数据标注的成本，并使得可用的数据集的数量得到了大规模的扩充。

2、本方案将视频情感预测任务定义为密集地同时回归多个情感类别的置信度，相比对视频的情感类别进行分类，本方案中的任务更加适用于处理长视频。预测多个情感类别的置信度，相比对视频进行单一的分类更加符合人类情感的客观规律。

3、本方案使用3D残差网络提取视频段的短时特征，使用由第一编码网络和第一循环网络组成的E3D-LSTM网络结构获取视频的长时动作特征向量，以及使用由第二编码网络和第二循环网络组成的长时特征提取网络获取视频的长时声音特征向量，相对于使用2D卷积提取图像的像素特征的方式，本方案使用的方法能够获取更多的有用信息，性能更加具有优势。

4、本方案适用于目前所有类别的视频，不受视频内容的限制。除此之外，本方案也可以方便地进行部署和应用，不需要额外的任何可穿戴设备。

请参阅图10，图10是本申请视频的情感预测装置一实施例的结构示意框图。该视频情感预测装置300包括：获取模块310、动作特征提取模块320、声音特征提取模块330、特征融合模块340以及情感预测模块350。

其中，获取模块310用于获取待处理的视频数据；其中，视频数据包括图像帧序列和相应的音频数据。

其中，动作特征提取模块320用于利用第一编码网络对图像帧序列进行特征提取，得到第一动作特征向量，并利用第一循环神经网络对第一动作特征向量进行特征提取，得到第二动作特征向量，其中，第一动作特征向量所对应的视频时长短于第二动作特征向量所对应的视频时长。

声音特征提取模块330用于利用第二编码网络对音频数据进行特征提取，得到第一声音特征向量，并利用第二循环神经网络对第一声音特征向量进行特征提取，得到第二声音特征向量，其中，第一声音特征向量所对应的视频时长短于第二声音特征向量所对应的视频时长。

特征融合模块340用于将第二动作特征向量和第二声音特征向量进行融合，得到融合特征。

情感预测模块350用于基于融合特征对视频数据进行情感预测。

其中，动作特征提取模块320还可用于对图像帧序列进行分割，得到多个帧片段，其中每个帧片段包括至少两个图像帧；将帧片段输入第一编码网络，以获取与帧片段对应的第一动作特征向量；最后将多个第一动作特征向量输入第一循环神经网络，以获得第二动作特征向量。

其中，声音特征提取模块330还可用于对音频数据进行分割，得到多个音频片段；将音频片段输入第二编码网络，以获得音频片段对应的第一声音特征向量；然后将多个第一声音特征向量输入第二循环神经网络，以获得第二声音特征向量。

其中，视频情感预测装置300还可包括训练模块(图未示出)，训练模块用于在第一编码网络的参数固定的情况下，利用带有标签的图像帧数据集对第一编码网络和第一循环神经网络进行训练，以调整第一循环神经网络的参数，其中第一循环神经网络基于第一编码网络输出的第一动作特征向量进行情感预测；移除第一循环神经网络的情感预测回归层，以将所保留的第一循环神经网络的最后一层的输出结果作为第二动作特征向量。

其中，训练模块还可用于将第一编码网络连接至第三循环神经网络，并利用无标签的图像帧数据集对第一编码网络和第三循环神经网络进行自监督训练，其中第三循环神经网络基于第一编码网络的当前第一动作特征向量的输出结果用于预测第一编码网络的下一第一动作特征向量；移除第三循环神经网络，并将第一编码网络连接至第一循环神经网络。

其中，训练模块还可用于在第二编码网络的参数固定的情况下，利用带有标签的音频数据集对第二编码网络和第二循环神经网络进行训练，以调整第二循环神经网络的参数，其中第二循环神经网络基于第二编码网络输出的第一声音特征向量进行情感预测；移除第二循环神经网络的情感预测回归层，以将所保留的第二循环神经网络的最后一层的输出结果作为第二声音特征向量。

其中，训练模块还可用于将第二编码网络连接至第四循环神经网络，并利用无标签的音频数据集对第二编码网络和第四循环神经网络进行自监督训练，其中第四循环神经网络基于第二编码网络的当前第一声音特征向量的输出结果用于预测第二编码网络的下一第一声音特征向量；移除第四循环神经网络，并将第二编码网络连接至第二循环神经网络。

其中，训练模块还可用于利用第一循环神经网络和第二循环神经网络输出对应于若干情感类别的置信度评分。

其中，特征融合模块340还可用于对第二动作特征向量以及第二声音特征向量分别进行池化处理，以使得第二动作特征向量以及第二声音特征向量为同一维度；将进行池化处理后的第二动作特征向量、第二声音特征向量进行拼接，得到融合特征。

关于各模块处理执行的各步骤的具体执行方式请参照上述本申请视频的情感预测方法实施例的各步骤的描述，在此不再赘述。

在一些具体实施例中，视频情感预测装置300不限于包括电视机、桌面型计算机、膝上型计算机、手持计算机、可穿戴设备、笔记本电脑。

在本申请的各实施例中，所揭露的视频的情感预测方法、电子装置，可以通过其它的方式实现。例如，以上所描述的运输设备和电子装置的各实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中。

参阅图11，图11为本申请计算机可读存储介质一实施例的结构示意框图，计算机可读存储介质200存储有程序数据210，程序数据210被执行时实现如上述视频的情感预测方法各实施例的步骤。

关于处理执行的各步骤的描述请参照上述本申请视频的情感预测方法实施例的各步骤的描述，在此不再赘述。

计算机可读存储介质200可以是U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种视频的情感预测方法，其特征在于，所述方法包括：

获取待处理的视频数据；其中，所述视频数据包括图像帧序列和相应的音频数据；

利用第一编码网络对所述图像帧序列进行特征提取，得到第一动作特征向量，并利用第一循环神经网络对所述第一动作特征向量进行特征提取，得到第二动作特征向量，其中，所述第一动作特征向量所对应的视频时长短于所述第二动作特征向量所对应的视频时长；

利用第二编码网络对所述音频数据进行特征提取，得到第一声音特征向量，并利用第二循环神经网络对所述第一声音特征向量进行特征提取，得到第二声音特征向量，其中，所述第一声音特征向量所对应的视频时长短于所述第二声音特征向量所对应的视频时长；

将所述第二动作特征向量和所述第二声音特征向量进行融合，得到融合特征；

基于所述融合特征对所述视频数据进行情感预测。

2.根据权利要求1所述的方法，其特征在于，所述利用第一编码网络对所述图像帧序列进行特征提取，得到第一动作特征向量，并利用第一循环神经网络对所述第一动作特征向量进行特征提取，得到第二动作特征向量，包括：

对所述图像帧序列进行分割，得到多个帧片段，其中每个所述帧片段包括至少两个图像帧；

将所述帧片段输入所述第一编码网络，以获取与所述帧片段对应的第一动作特征向量；

将多个所述第一动作特征向量输入所述第一循环神经网络，以获得所述第二动作特征向量。

3.根据权利要求1所述的方法，其特征在于，所述利用第二编码网络对所述音频数据进行特征提取，得到第一声音特征向量，并利用第二循环神经网络对所述第一声音特征向量进行特征提取，得到第二声音特征向量，包括：

对所述音频数据进行分割，得到多个音频片段；

将所述音频片段输入所述第二编码网络，以获得所述音频片段对应的第一声音特征向量；

将多个所述第一声音特征向量输入第二循环神经网络，以获得所述第二声音特征向量。

4.根据权利要求1所述的方法，其特征在于，所述利用第一编码网络对所述图像帧序列进行特征提取，得到第一动作特征向量，并利用第一循环神经网络对所述第一动作特征向量进行特征提取，得到第二动作特征向量之前，所述方法还包括：

在所述第一编码网络的参数固定的情况下，利用带有标签的图像帧数据集对所述第一编码网络和所述第一循环神经网络进行训练，以调整所述第一循环神经网络的参数，其中所述第一循环神经网络基于所述第一编码网络输出的第一动作特征向量进行情感预测；

移除所述第一循环神经网络的情感预测回归层，以将所保留的所述第一循环神经网络的最后一层的输出结果作为所述第二动作特征向量。

5.根据权利要求4所述的方法，其特征在于，所述利用带有标签的图像帧数据集对所述第一编码网络和所述第一循环神经网络进行训练之前，所述方法还包括：

将所述第一编码网络连接至第三循环神经网络，并利用无标签的图像帧数据集对所述第一编码网络和所述第三循环神经网络进行自监督训练，其中所述第三循环神经网络基于所述第一编码网络的当前第一动作特征向量的输出结果用于预测所述第一编码网络的下一第一动作特征向量；

移除所述第三循环神经网络，并将所述第一编码网络连接至所述第一循环神经网络。

6.根据权利要求1所述的方法，其特征在于，所述利用第二编码网络对所述音频数据进行特征提取，得到第一声音特征向量，并利用第二循环神经网络对所述第一声音特征向量进行特征提取，得到第二声音特征向量之前，进一步包括：

在所述第二编码网络的参数固定的情况下，利用带有标签的音频数据集对所述第二编码网络和所述第二循环神经网络进行训练，以调整所述第二循环神经网络的参数，其中所述第二循环神经网络基于所述第二编码网络输出的第一声音特征向量进行情感预测；

移除所述第二循环神经网络的情感预测回归层，以将所保留的所述第二循环神经网络的最后一层的输出结果作为所述第二声音特征向量。

7.根据权利要求6所述的方法，其特征在于，所述利用带有标签的音频数据集对所述第二编码网络和所述第二循环神经网络进行训练之前，所述方法还包括：

将所述第二编码网络连接至第四循环神经网络，并利用无标签的音频数据集对所述第二编码网络和所述第四循环神经网络进行自监督训练，其中所述第四循环神经网络基于所述第二编码网络的当前第一声音特征向量的输出结果用于预测所述第二编码网络的下一第一声音特征向量；

移除所述第四循环神经网络，并将所述第二编码网络连接至所述第二循环神经网络。

8.根据权利要求4或6所述的方法，其特征在于，所述第一循环神经网络和所述第二循环神经网络的情感预测结果为对应于若干情感类别的置信度评分。

9.根据权利要求1-7任一项所述的方法，其特征在于，所述第一编码网络为ResNet-3D网络，所述第一循环神经网络为LSTM网络。

10.根据权利要求1所述的方法，其特征在于，所述将所述第二动作特征向量和所述第二声音特征向量进行融合，得到融合特征，包括：

对所述第二动作特征向量以及所述第二声音特征向量分别进行池化处理，以使得所述第二动作特征向量以及所述第二声音特征向量为同一维度；

将进行所述池化处理后的所述第二动作特征向量、所述第二声音特征向量进行拼接，得到所述融合特征。

11.一种视频情感预测装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的视频数据；其中，所述视频数据包括图像帧序列和相应的音频数据；

动作特征提取模块，用于利用第一编码网络对所述图像帧序列进行特征提取，得到第一动作特征向量，并利用第一循环神经网络对所述第一动作特征向量进行特征提取，得到第二动作特征向量，其中，所述第一动作特征向量所对应的视频时长短于所述第二动作特征向量所对应的视频时长；

声音特征提取模块，用于利用第二编码网络对所述音频数据进行特征提取，得到第一声音特征向量，并利用第二循环神经网络对所述第一声音特征向量进行特征提取，得到第二声音特征向量，其中，所述第一声音特征向量所对应的视频时长短于所述第二声音特征向量所对应的视频时长；

特征融合模块，用于将所述第二动作特征向量和所述第二声音特征向量进行融合，得到融合特征；

情感预测模块，用于基于所述融合特征对所述视频数据进行情感预测。

12.一种电子设备，其特征在于，所述电子设备包括相互耦接的处理器和存储器，所述存储器中存储有能够在处理器上运行的计算机程序，其中，所述处理器用于运行所述计算机程序时，执行权利要求1-10中任一项所述的视频情感预测方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序数据，所述程序数据被处理器执行时实现如权利要求1-10中任一项所述方法的步骤。