CN113496156B

CN113496156B - 一种情感预测方法及其设备

Info

Publication number: CN113496156B
Application number: CN202010202746.6A
Authority: CN
Inventors: 赵寅; 蔡龙军
Original assignee: Alibaba Group Holding Ltd
Current assignee: Youku Culture Technology Beijing Co ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2023-12-19
Anticipated expiration: 2040-03-20
Also published as: CN113496156A

Abstract

本申请公开了一种情感预测方法及其设备，所述方法包括：将视频内容按照预定时间间隔划分为视频段；针对每个视频段，获取该视频段帧级别的音频特征和/或图像特征；将所述视频段帧级别的音频特征和/或图像特征分别按时序进行融合，得到该视频段的短时视频特征；将短时视频特征输入到经过训练的情感预测模型进行长时特征融合，以预测出所述视频内容的情感信息。采用本申请可在预测情感期间考虑到时序信息，提高了情感预测的准确度。

Description

一种情感预测方法及其设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种情感预测方法及其设备。

背景技术

在人工智能领域，情感预测是指赋予机器预测特定对象情感的能力，并在此基础上让机器做出相应的回应，即赋予机器“思考”能力。情感预测技术对于教育、商业营销、交通等领域发挥着重要作用。特别在视频领域，如果能够准确预测出用户关于视频内容的情感变化，可以帮助视频内容的制作、宣传、推广、运营等更精细化、更满足观众的需求。

在相关技术中，针对视频内容的情感预测方法通常采用如下步骤：提取出视频中每一帧的图像数据和音频数据，并分别针对图像数据与音频数据利用现有的机器学习模型(例如，卷积神经网络模型)预测出用户在观看每一帧时的情感。

发明内容

本申请实施例提供一种情感预测方法及其设备，用以至少解决以上存在的技术问题。

本申请实施例还提供一种情感预测方法，所述方法包括：将视频内容按照预定时间间隔划分为视频段；针对每个视频段，获取该视频段帧级别的音频特征和/或图像特征；将所述视频段帧级别的音频特征和/或图像特征分别按时序进行融合，得到该视频段的短时视频特征；将短时视频特征输入到经过训练的情感预测模型进行长时特征融合，以预测出所述视频内容的情感信息。

本申请实施例还提供一种情感预测设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行以上方法。

本申请实施例还提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行以上方法。

本申请实施例还提供一种用于信息推荐的情感预测方法，所述方法包括：执行上述的情感预测方法获取视频内容的情感信息；获得所述情感信息相关的数据信息；将所述数据信息推送至终端设备显示。

本申请实施例还提供一种用于展示推荐信息的方法，所述方法包括：接收待展示的数据信息，所述数据信息指示上述方法中用于信息推荐的情感预测方法中获取的所述数据信息；将所述数据信息与所述视频内容关联显示。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

根据本申请的示例性实施例的情感预测方法为了预测视频内容的情感信息，可将所述视频内容进行分段后确定每个视频段帧级别的视频数据分别在图像模态以及音频模态上的特征，根据这些特征获取短时视频特征，并将各个视频段的短时视频特征利用训练的情感预测模型进行长时特征融合，从而实现了长短时段两个层面上的时序融合，既能捕捉动态特性，有减少了短时的噪声，提高了情感预测的准确度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是示出根据本申请的示例性实施例的情感预测的场景图；

图2是示出根据本申请的示例性实施例的情感预测方法的流程图；

图3是示出根据本申请的示例性实施例的获取视频段对应的短时视频特征的示图；

图4是示出根据本申请的示例性实施例的获取视频内容的情感信息的示图；

图5是示出对本申请的示例性实施例的至少一个短时特征提取模型进行训练的示图；

图6是示出根据本申请的示例性实施例的情感预测设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

在针对视频的情感预测方面，现有技术通常会将构成视频的每帧图像作为处理对象输入到利用训练图像集训练后的机器学习模型，确定该视频的情感信息，但是这种方法仅利用了图像的某一特征确定视频的情感，并不能充分地考虑图像中包含的各种特征信息，例如，人物表情、动作、场景等信息。并且也并未考虑到视频中的人物的情感与前后视频段的关系，也就是说，没有考虑到视频段之间的时序信息与情感预测之间的关联。

基于此，根据本申请的示例性实施例的情感预测方法可将所述视频内容进行分段后确定每个视频段帧级别的视频数据分别在图像模态以及音频模态上的特征，根据这些特征获取短时视频特征，并将各个视频段的短时视频特征利用训练的情感预测模型进行长时特征融合，从而实现了长短时段两个层面上的时序融合，既能捕捉动态特性，有减少了短时的噪声。

在本申请中，为了更好地识别视频内容中的情感变化，可利用视频内容在多模态下的特征信息对视频内容进行分析，其中，多模态是指视频内容本身呈现出多种模态，此处提及的模态可以是指信息的来源或者形式，例如，人的触觉、听觉、视频，或者是指信息的媒介，例如，语音、图像或者文本，在本申请中，视频内容的多模态可包括且不限于图像模态、音频模态以及文本模态，在不同模态下，可提取出视频内容的不同特性，例如，在图像模态下，可从人脸、场景等各方面表征视频内容。

此外，由于人的情感是感性的，因此在本申请中可在不同维度上的数值来表征情感，实现情感的量化。具体来说，可利用效价(valence)值表示情感，valence具有正负向，取值为-1、0和1，正向valence指示正向情感，例如，高兴、开心，而负向valence指示负向情感，例如，悲伤、难过等。此外，还可利用唤醒(arousal)值表示情感，arousal指示强烈程度，取值为-1、0和1，-1表示情感最不激烈，例如，困乏平静，1则表示情感激烈，例如，激动兴奋。

在本申请中，可利用valence和/或arousal代表情感，这取决于技术人员的选择。在以下描述中提及的情绪值可以是valence和/或arousal。

以下将结合图1描述本申请的示例性实施例的情感预测方法应用的场景。图1是示出根据本申请的示例性实施例的情感预测的应用场景图。出于描述的目的，所绘的体系结构仅为合适环境的一个示例，并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。

如图1所示，用户可利用各种具有显示单元的电子终端观看视频内容，电子终端可以是手机、笔记本电脑、PC、平板设备、笔记本电脑、掌上电脑(PDAs，Personal DigitalAssistants)、可穿戴设备(如智能眼镜、智能手表等)等。

在本申请中，计算机系统100可基于与电子终端之间的网络连接向电子终端传输视频数据，其中，网络连接可包括多种类型的有线网络连接或无线网络连接。在一实施例中，网络连接可以包括蓝牙、WIFI、ZigBee等近场通讯网络。在另一实施例中，网络连接可以包括公共交换电话网络(Public Switched Telephone Network，PSTN)和因特网等远程通讯网络。当然，网络连接还可以同时包含近场通讯网络和远程通讯网络。

应注意，图1中给出的计算机系统100仅为示意性的，本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于，个人计算机、服务器，多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。

此外，由于根据本申请的示例性实施例的情感预测方法的计算量是巨大的，因此优选采用相较于数据提供源而言独立的计算机系统执行情感预测方法。在这种情况下，计算机系统100和电子终端可分别接收到视频内容，其后，计算机系统100可对接收到的视频内容执行情感预测方法，而电子终端可接收并显示视频内容。

随后，计算机系统100可对获取的视频内容执行情感预测处理，在处理过程中，可通过对在不同模态上获取的特征信息在时序上进行融合后获取的时序特征信息输入到情感预测模型，确定视频内容对应的情感，其中，所述情感预测模型可预先利用训练数据训练完成，也就是说，利用训练时序特征信息与训练用户情感的对应关系完成对所述情感预测模型的训练。

以下将结合图2对计算机系统100执行的情感预测方法进行详细描述。图2示出了根据本申请的示例性实施例的情感预测方法的流程图。

在步骤S210，将视频内容按照预定时间间隔划分为视频段。

如图1所示，计算机系统100在预测用户观看视频内容的情感时，可首先确定预测情感的视频段，这是由于用户在观看视频时会随着视频的内容(例如，情节反转)存在情感上的变化，如果不预先确定将要预测的视频段，则无法执行下一步处理，此外，用于划分视频内容的时间段不同，预测出的情感是不同的。

举例来说，假设每十秒对视频段执行情感预测，由于这十秒内的视频段主要在于介绍环境，所以预测出的情感是平静的，但是如果按照二十秒对视频段进行情感预测，由于这段视频前十秒在于介绍环境后十秒在于介绍动物如何被猎杀，则会预测出用户的情感是十分悲伤。

因此，在对视频内容执行情感预测时，需要预先确定对视频内容进行划分的时间间隔，所述时间间隔可以是技术人员根据经验确定的，例如，4秒，优选地，为了更好地预测出用户情感的变化，所述时间间隔可以是每帧，也就是说，确定用户对于每帧视频图像的情感。

随后，在步骤S220，针对每个视频段，获取该视频段帧级别的音频特征和/或图像特征。具体来说，针对已经划分好的单个视频段，可分别提取出与所述视频段分别对应的音频数据与图像数据。在实施中，可利用各种解码器对所述视频段进行解码，从而获取与所述视频段对应的音频数据以及图像数据。

随后，可分别针对音频数据和图像数据，提取在音频模态上的音频特征以及在图像模态上的图像特征。以下将对这两方面进行详细描述。

为了提取音频特征，可对获取的音频数据执行梅尔倒谱处理(Mel-FrequencyCepstral Coefficients，MFCC)，获取倒谱向量作为音频数据的频率特征。由于MFCC是用于提取音频特征常见的方法，在此将不再进行详述，应注意，任何可用于提取出所述音频数据的频率特征的方法均可应用于此。

随后，可将频率特征输入到已训练好的音频特征提取模型，获取音频数据的音频特征。以该音频特征提取模型为VGGish模型为例，可在利用音频集合对VGGish模型进行训练后，利用训练完成后的VGGish模型对频率信息进行特征提取，获取到音频数据的音频特征。

VGGish(Visual Geometry Group，视觉几何组，VGG)模型是提取音频特征向量的音频特征提取模型。实施中的VGGish模型可采用已有的网络结构，本申请实施例并不对VGGish模型的具体结构进行限定。示意性的，音频可以是5秒的音频，且采样频率为128Hz时，经过VGGish模型可以提取到128×5维的特征。

针对获取的图像数据，可从图像数据中提取出用于表征图像数据的图像特征，在实施中，图像特征的数量可以是一个或者多个，作为示例，图像特征可包括且不限于人脸表情特征、行为特征以及场景特征，以下将具体描述如何从图像数据中提取出这三种图像特征。

针对人脸表情特征，将获取的图像数据输入到经过训练的人脸表情预测模型，获取与该图像数据对应的人脸表情特征。作为示例，可利用Adaboost模型或者MTCNN模型对所述图像数据逐帧进行检测后按照时间顺序获取人脸表情特征。

Adaboost(Adaptive Boosting，自适应增强)模型是一种迭代提升模型，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

MTCNN(Multi-task convolutional neural network，多任务卷积神经网络)模型可将人脸检测与人脸特征点检测并行，总体框架可分为P-Net、R-Net、和O-Net三层网络结构。

以MTCNN模型为例，该MTCNN模型可包括：输入层、卷积层、池化层、全连接层，将图像数据输入到已经经过训练的人脸表情预测模型(即，MTCN N模型)后并将所述人脸预测模型中的全连接层的输出的人脸特征向量作为所述图像数据的人脸表情特征。

针对行为特征，还可利用动作预测模型对该图像数据进行处理，获取与所述图像数据对应的行为特征。作为示例，动作预测模型可以是基于Openpose(姿态估计)的模型，在实施中，可将图像数据输入到基于openpose的模型，提取人体行为关节坐标信息作为行为特征向量。为了保证图像特征的维度相同，可将生成的行为特征向量经由全连接网络生成特定维度(例如，128维)的行为特征。

在对图像数据提取图像特征过程中，还可提取场景特征作为图像特征。作为示例，可将所述图像数据输入到已经经过训练的VGG(Visual Geometry Group，视觉几何组)16中，并将获取的特征向量作为所述图像数据的图像特征。VGG 16包括13个卷积层和3个全连接层构成的16层权重层，可通过训练提取图像特征。

在步骤S230，将所述视频段帧级别的音频特征和/或图像特征分别按时序进行融合，得到该视频段的短时视频特征。

具体来说，可将所述视频段帧级别的音频特征和/或图像特征分别输入到经过训练的至少一个短时特征提取模型，获取与所述视频段对应的短时音频特征和/或短时图像特征，其中，所述短时视频特征是由至少一个模态下的视频特征在时序融合后生成的特征。按照以上描述可知，所述模态是指视频的来源或者形式。

在本申请中，在各个模态上获取的特征信息为了能够在反应各自在时序上的信息，将在获取到瞬时特征后将其输入到各自对应的已经经过训练的短时特征提取模型，从而获取包括时序信息的短时特征。

作为示例，为了获取到短时音频特征/短时图像特征，可将获取到的音频特征/图像特征输入到经过训练的短时特征提取模型，从所述短时特征提取模型中的全连接层输出短时音频特征/短时图像特征。

应注意，每种模态对应的特征可分别输入与其对应的短时特征提取模型，而这些短时特征提取模型将各自按照预先获取的训练集进行训练。例如，为了能够利用短时音频特征预测情感，在训练过程中将已确定的情感值对与其对应的短时特征提取模型进行训练。以音频模态为例，可利用训练音频特征与训练情感之间的对应关系对所述短时特征提取模型进行训练，调整短时特征提取模型中的参数，直到达到预设要求。

在实施中，可采用能够提取出时序信息的模型作为短时特征提取模型，并在训练过程中，利用每帧确定的情感值对该模型进行训练。作为示例，所述短时特征提取模型可包括长短期记忆递归神经网络(long short-term memory，LSTM)、双向长短期记忆递归神经网络(bidirectional long short-term memory，BLSTM)。

优选地，可采用BLSTM作为短时特征提取模型为例进行详细说明。在实施例中，每个BLSTM包括输入层、隐藏层和输出层，该隐藏层中包括至少一个记忆单元，每个记忆单元对应于输入层中的音频特征。在BLSTM的隐藏层与输出层之间还可以设置一个归一化层，该归一化层用于通过归一化函数对隐藏层的处理结果(也即是一个特征向量)进行归一化处理，将该处理结果等比例压缩到[0,1]之间，使得每一个BLSTM的输出层具有类似的分布，从而改善了分类模型的梯度弥散问题。

对于每个记忆单元，当接收到该音频特征和上一个记忆单元的处理结果时，对该音频特征和该上一个记忆单元的处理结果进行加权变换，得到该记忆单元的处理结果，将该记忆单元的处理结果输出给下一个记忆单元；对于每个记忆单元，当接收到该音频特征和下一个记忆单元的处理结果时，对该语音帧的频率特征和该下一个记忆单元的处理结果进行加权变换，得到该记忆单元的处理结果，将该记忆单元的处理结果输出给上一个记忆单元。

在本申请中，可将所述音频特征输入到已训练好的音频特征提取模型后，将全连接层的输出作为所述音频数据的短时音频特征。

随后，如上所述，将所述图像特征输入到已经经过训练的短时特征提取模型，获取到短时场景特征，其中，所述短时场景模型已经按照以上描述的训练场景数据与训练情感之间的对应关系对所述短时特征提取模型进行了训练。随后，可将从全连接层的输出作为短时图像特征。

在实施中，还可利用如图3所示的其它模型从图像数据中提取对应的图像特征，这些图像特征可输入到各自的已经经过训练的短时特征提取模型中。

随后，可将在不同模态上的音频特征和图像特征执行融合处理，获取每帧视频的短时视频特征。在实施过程中，由于获取到的各个特征(例如，图像特征)均需要输入到短时特征提取模型中，因此，可以预先设置短时特征提取模型的输出参数，这样可使从短时特征提取模型中输出的各个短时特征的向量的维度是相同的，基于此，可通过特征向量对应维度上的数值相加作为该维度上的数值的方式进行融合处理，获取每帧视频的短时视频特征。

更进一步地，可利用所述时间段内最后一帧对应的短时视频特征作为该时间段对应的短时视频特征。

可以看出，可针对每个视频段，提取出音频模态和视频模态的短时音频特征和短时图像特征，在此基础上对这些特征执行融合，从而能够更准确地描述视频段。更进一步地，针对随时序变化的情感的特殊性，可将利用对应模型提取的特征输入到对应的短时特征提取模型，从而提取出各自对应的短时特征。

此外，可在训练过程中调整每个短时特征提取模型的参数，使得短时视频特征能够更准确地描述视频段。具体来说，以上已经描述了在对不同模态的短时特征提取模型进行训练，在训练完成后，确定各个短时特征提取模型的预测精度，比如，针对音频特征的短时特征提取模型的预测精度为65％，而针对人脸特征的短时特征提取模型的预测精度为70％。

随后，可将短时特征提取模型按照预测精度大小依次加入并进行协同训练，调整训练参数，从而实现递进式训练。具体来说，可按照预测精度大小对各个短时特征提取模型进行排序，选择预测精度最高的短时特征提取模型作为第一模型，随后将预测精度排序第二的短时特征提取模型(以下简称第二模型)输出的第二特征向量与第一模型输出的第一特征向量进行相加作为短时视频特征，基于此，利用训练数据对第一模型与第二模型进行协同训练，在训练完成后，可将预测精度排序第三的短时特征提取模型(以下简称第三模型)输出的第三特征向量与输出的短时视频特征进行相加作为新的短时视频特征，随后利用训练数据对以上三个模型进行协同训练。

排序靠后的短时特征提取模型可按照以上方式顺序执行协同训练，调整参数，从而能够确定在执行特征融合时每个特征所占的权值。

综上可述，在利用多种短时特征融合表征短时视频特征的过程中，可利用残差递进的方式对所有的短时特征提取模型进行协同训练，这种训练方式可确定每个短时特征在最后融合后的权重，从而能够更准确地表征视频段。此外，在训练过程中可采用多个阶段对其中的模型进行训练，避免了端对端训练存在的过拟合问题。

最后，在步骤S240，将短时视频特征分别输入到经过训练的情感预测模型，预测出与所述视频内容对应的情感，其中，所述情感预测模型是指利用视频段生成的训练数据进行训练的模型。

具体来说，可将训练视频内容划分为不同的训练视频段，在按照以上方法确定每个训练视频段的训练短时视频特征，随后，将训练视频内容的各个训练短时视频特征以及每个训练视频段对应的训练情感值对应输入到情感预测模型中，对所述情感预测模型进行训练，调整训练参数，直至所述情感预测模型达到预设要求。优选地，所述情感预测模型可以是双向长短期记忆递归神经网络。

在此过程中，可将每个时间段预测的情感作为该时间段内的每秒对应的情感，或者可利用滑动处理获取每帧视频对应的情感，例如，可将时间段1到10秒确定的情感作为第5秒的情感，随后，将时间段2到11秒确定的情感作为第6秒的情感，这样，可向用户实时提供预测的情感。

综上可述，根据本申请的示例性实施例的情感预测方法为了预测视频内容的情感信息，可将所述视频内容进行分段后确定每个视频段帧级别的视频数据分别在图像模态以及音频模态上的特征，根据这些特征获取短时视频特征，并将各个视频段的短时视频特征利用训练的情感预测模型进行长时特征融合，从而实现了长短时段两个层面上的时序融合，既能捕捉动态特性，有减少了短时的噪声，提高了情感预测的准确度。

以下将参照图3详细描述获取短时视频特征的过程。图3示出了根据本申请的示例性实施例的获取短时视频特征的示意图。

如图3所示，针对已经划分好的单个视频段，可分别提取出与所述视频段分别对应的音频数据与图像数据。在实施中，可利用各种解码器对所述视频段进行解码，从而获取与所述视频段对应的音频数据以及图像数据。

随后，可分别针对音频数据和图像数据，提取在音频模态上的音频特征以及在图像模态上的图像特征。应注意，图3作为示例，针对音频数据，仅提取出数量为1的音频特征，实际上根据采取的音频特征提取模型的数量不同，可提取出不同数量的音频特征。相似地，针对图像数据，可提取出如图3所示的图像特征1、图像特征2直至图像特征N，包括且不限于人脸表情特征、行为特征以及场景特征。

然后，将获取的音频特征和图像特征分别输入到各自的短时特征提取模型，从所述短时特征提取模型中的全连接层输出短时音频特征。在本申请中，在各个模态上获取的特征信息为了能够在反应各自在时序上的信息，将在获取到瞬时特征(例如，音频特征)后将其输入到各自对应的已经经过训练的短时特征提取模型，从而获取包括时序信息的短时特征。

随后，如图3所示，可将在不同模态上的短时音频特征和短时图像特征执行融合处理，获取每帧视频的短时视频特征。更进一步地，可利用所述时间段内最后一帧对应的短时视频特征作为该时间段对应的短时视频特征。

在实施过程中，由于获取到的各个特征(例如，图像特征)均需要输入到短时特征提取模型中，因此，可以预先设置短时特征提取模型的输出参数，这样可使从短时特征提取模型中输出的各个短时特征的向量尺寸是相同的，基于此，可通过特征向量相加的方式获取每帧视频的短时视频特征。

以下将结合图4详细描述本申请的优选实施例。图4是示出根据本申请的示例性实施例的获取视频内容的情感信息的示图。

如图4所示，将待预测情感的视频内容可将10秒(s)作为时间间隔进行划分，针对每个10秒的视频段均可执行以下处理。

提取出第一个10秒视频段的音频数据和图像数据。针对音频数据可如上所述利用MFCC，获取到该音频数据的频率特征后，将该频率特征输入到经过训练的VGGish模型，获取到该音频数据的音频特征，随后，将LSTM模型作为短时特征提取模型，将音频特征输入到利用训练数据已训练的LSTM模型后，获取到短时音频特征。

同时，针对图像数据，可采用不同的模型获取到不同的图像特征，例如，可利用人脸表情预测模型获取到人脸表情特征，利用动作预测模型，获取到行为特征，并且利用场景预测模型获取到场景特征。此外，在利用人脸表情预测模型执行操作之前，可利用人脸识别算法从图像数据中识别出人脸，随后，将识别出的人脸输入到人脸表情预测模型，从而提高准确度。随后，将LSTM模型作为短时特征提取模型，将这些图像特征分别输入到各自利用训练数据训练的LSTM模型后，获取到各个短时图像特征。

由于可通过预先设置的方式，将短时音频特征以及各个短时图像特征的维度设置为相同，因此，在获取到这些特征后，可通过将这些特征的对应维度上的值执行运算后的结果替换该维度上的值的方式来对这些短时音频特征/短时视频特征进行融合，获取到最终的短时视频特征。

如图4所示，可按照相同的方式对每个10秒的视频段执行处理，获取到每个视频段的短时视频特征，然后将这些短时视频特征输入到已训练好的LSTM模型进行长时特征融合，从而对该视频内容执行情感预测。

从图4中可以看出，提取出的每个音频特征/图像特征，为了提取出时序信息，均采用对应的LSTM模型对这些特征进行处理，其中，这些LSTM模型均是训练好的模型。作为示例，可采用递进式的训练方式对这些LSTM进行训练。以下将参照图5对此进行具体描述。

图5是示出对本申请的示例性实施例的至少一个短时特征提取模型进行训练的示图。

如图5所示，可采用对应的训练数据集分别对这些LSTM进行训练，训练后的LSTM达到的预测精度是不同的，例如，针对音频特征的短时特征提取模型的预测精度为65％，而针对人脸特征的短时特征提取模型的预测精度为70％。

随后，可将这些LSTM模型按照精度大小进行排序，选择精度最高的LSTM模型作为第一模型，随后，将预测精度排序第二的短时特征提取模型(以下简称第二模型)输出的第二特征向量与第一模型输出的第一特征向量的各个对应值乘以各自的权重后相加获取短时视频特征，然后利用训练数据对第一LSTM模型和第二LSTM同时进行训练(也就是说，协同训练)，训练完成后，再将第三LSTM模型输出的第三特征向量与短时视频特征的各个对应值相加获取新的短时视频特征，然后，利用训练数据对以上三个模型进行协同训练。

排序靠后的LSTM模型可按照以上方式顺序执行协同训练，调整参数，从而能够确定在执行特征融合时每个特征所占的权重。这种训练方式可确定每个短时特征在最后融合后的权重，从而能够更准确地表征视频段。此外，在训练过程中可采用多个阶段对其中的模型进行训练，避免了端对端训练存在的过拟合问题。

以上已经针对用户在观看视频的情感识别场景进行了详细的描述，但本申请的应用场景并不限于此，任何利用视频数据对用户的情感进行预测的场景均可适用。

作为示例，本申请的情感预测方法可用于教育领域，例如，当用户在进行线上教育时，可利用本申请的情感预测方法来预测用户的情感，便于收集用户的反馈，调整教学内容。

作为示例，本申请的情感预测方法还可用于商业领域，例如，当主播利用直播的形式对商品做推广之前可利用本申请的情感预测方法对视频内容进行情感预测，并可根据预测结果对视频内容进行调整。

作为示例，本申请的情感预测方法还可应用于交通领域，例如，在自动驾驶领域，可利用本申请的情感预测方法预测驾驶者的情感，然后根据预测的情感为驾驶者提供更适合的广播节目。

也就是说，在利用本申请的情感预测方法获取到用户针对各种视频内容的情感信息后，可利用该情感信息，向用户推荐适合于该情感信息的数据信息(即，推荐信息)并将该数据信息在电子终端上显示。

例如，在教育领域，当预测出进行线上教育的学生的情感信息是悲伤时，主播(例如，老师)可选择一些欢乐的音效或者短视频发送给该学生，例如，向该学生发送小动物踩到西瓜片摔倒的短视频。

在游戏领域，可根据本申请的情感预测方法预测出游戏玩家在观看游戏广告时的情感，然后根据游戏玩家的情感向其提供合适的商品广告或者推荐相关视频，例如，当预测出该游戏玩家观看当前游戏广告时的情感是正向激烈的(也就是非常高兴)，可向游戏玩家提供与该游戏广告同类型的游戏广告，并可向游戏玩家提供与该游戏广告同类型的游戏视频。显而易见地，广告领域上同样适应，可根据预测出的用户情感，向用户推荐同类型的广告或者推荐不同类型的广告。

此外，还可根据预测出的用户情感，在显示单元上显示与该情感对应的图像，诸如，动态图像。例如，当预测出用户观看该时段的视频时的情绪是悲伤的，在该时段上显示单元可显示一个动态破碎的爱心，而当预测出用户观看下一时段的视频时的情绪是高兴的，在该时段上显示单元可显示一个阳光灿烂的太阳。

此外，在本申请中，还可将与所述情感信息相关的数据信息与视频内容相关联地显示。也就是说，在根据本申请的情感预测方法确定用户情感后，确定与该情感相关的数据信息，然后将该数据信息与视频内容相关联地显示。作为示例，已确定用户针对该视频内容的情感是高兴的情况下，确定将向用户推荐的是数据信息是开心的表情包，可将该表情包与视频内容共同显示。

为了更清楚地明白本申请的示例性实施例的发明构思，以下将参照图4描述本申请的示例性实施例的情感预测设备的框图。本领域普通技术人员将理解：图6中的设备仅示出了与本示例性实施例相关的组件，所述设备中还包括除了图6中示出的组件之外的通用组件。

图6示出本申请的示例性实施例的情感预测设备的框图。所述情感预测设备是指可执行根据本申请的示例性实施例的情感预测方法的设备。参考图6，在硬件层面，该设备包括处理器、内部总线和计算机可读存储介质，其中，所述计算机可读存储介质包括易失性存储器和非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序然后运行。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

具体来说，所述处理器执行以下操作：将视频内容按照预定时间间隔划分为视频段；针对每个视频段，获取该视频段帧级别的音频特征和/或图像特征；将所述视频段帧级别的音频特征和/或图像特征分别按时序进行融合，得到该视频段的短时视频特征；将短时视频特征输入到经过训练的情感预测模型进行长时特征融合，以预测出所述视频内容的情感信息。

可选地，所述处理器在实现步骤针对每个视频段获取该视频段帧级别的音频特征和/或图像特征包括：针对每个视频段，以帧为单位获取与该视频段帧级别对应的音频数据和/或图像数据；获取与所述音频数据和/或所述图像数据分别对应的音频特征和/或图像特征。

可选地，所述处理器在实现步骤获取与所述音频数据对应的音频特征包括：将所述音频数据执行梅尔倒谱变换，获取倒谱向量作为所述音频数据的频率特征；将所述频率特征输入到经过训练的音频特征提取模型，获取与所述音频数据对应的音频特征。

可选地，所述图像特征包括以下特征中的一项或者两项以上的特征：人脸表情特征、行为特征以及场景特征。

可选地，所述处理器在实现步骤在所述图像特征包括人脸表情特征的情况下获取与所述图像数据对应的图像特征包括：将所述图像数据输入到经过训练的人脸表情预测模型，获取与所述图像数据对应的人脸表情特征。

可选地，所述处理器在实现步骤在所述图像特征包括行为特征的情况下获取与所述图像数据对应的图像特征包括：将所述图像数据输入到经过训练的动作预测模型，获取与所述图像数据对应的行为特征。

可选地，所述处理器在实现步骤在所述图像特征包括场景特征的情况下，获取与所述图像数据对应的图像特征包括：将所述图像数据输入到经过训练的场景预测模型，获取与所述图像数据对应的场景特征。

可选地，所述处理器在实现步骤将所述视频段帧级别的音频特征和/或图像特征分别按时序进行融合得到该视频段的短时视频特征包括：将所述视频段帧级别的音频特征和/或图像特征分别输入到经过训练的至少一个短时特征提取模型，获取与所述视频段对应的短时音频特征和/或短时图像特征；通过对短时音频特征和/或短时图像特征按时序执行融合处理，获取所述视频段的短时视频特征。

可选地，所述至少一个短时特征提取模型中的每个短时特征提取模型按照以下方式进行训练：针对每个短时特征提取模型，获取与该短时特征提取模型对应的训练特征数据以及训练情感信息；构建该短时特征提取模型，设置有训练参数；利用训练特征数据与训练情感信息之间的对应关系对该短时特征提取模型进行训练，调整所述训练参数，直至该短时特征提取模型达到预设要求。

可选地，针对每个短时特征提取模型在利用训练特征数据与训练情感信息之间的对应关系对所述短时特征提取模型进行训练调整所述训练参数直至所述短时特征提取模型达到预设要求后包括：将所述至少一个短时特征提取模型按照预测准确度高低进行排序；在预测准确度最高的短时特征提取模型的基础上，按照准确度高低逐渐增加排序靠后的短时特征提取模型，并且每增加一个短时特征提取模型，则对当前的短时特征提取模型进行协同训练，直至完成对全部短时特征提取模型的协同训练。

可选地，所述情感预测模型按照以下步骤训练完成：获取训练视频内容的每个训练视频段的训练短时视频特征；构建所述情感预测模型，设置有训练参数；利用每个训练短时视频特征与训练情感信息之间的对应关系对所述情感预测模型进行训练，调整所述训练参数，直至所述情感预测模型达到预设要求。

根据本申请的示例性实施例，处理器还可执行以下步骤：获取按照以上步骤获取的视频内容的情感信息；获得所述情感信息相关的数据信息；将所述数据信息推送至终端设备显示。

根据本申请的示例性实施例，处理器还可执行以下步骤：接收待展示的数据信息，所述数据信息指示上述步骤中获取的所述数据信息；将所述数据信息与所述视频内容关联显示。

综上可述，根据本申请的示例性实施例的情感预测设备可在对视频进行情感预测的过程中，从视频段中提取出能够表征各个模态且包含时序信息的短时视频特征，提高了情感预测的准确度。更进一步地，可针对每个视频段，提取出音频模态和视频模态的短时音频特征和短时图像特征，在此基础上对这些特征执行融合，从而能够更准确地描述视频段。更进一步地，针对随时序变化的情感的特殊性，可将利用对应模型提取的特征输入到对应的短时特征提取模型，从而提取出各自对应的短时特征。更进一步地，在利用多种短时特征融合表征短时视频特征的过程中，可利用残差递进的方式对所有的短时特征提取模型进行协同训练，这种训练方式可确定每个短时特征在最后融合后的权重，从而能够更准确地表征视频段。更进一步地，分别利用时段长短不同的模型对视频段进行处理，既能够捕捉到视频段的动态特性，又能够减少短时噪声，提高了预测的准确度。更近一地，在训练过程中可采用多个阶段对其中的模型进行训练，避免了端对端训练存在的过拟合问题。

需要说明的是，实施例1所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤21和步骤22的执行主体可以为设备1，步骤23的执行主体可以为设备2；又比如，步骤21的执行主体可以为设备1，步骤22和步骤23的执行主体可以为设备2；等等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种情感预测方法，所述方法包括：

将视频内容按照预定时间间隔划分为视频段；

针对每个视频段，获取该视频段帧级别的音频特征和/或图像特征；

将至少一个短时特征提取模型从所述视频段帧级别的音频特征和/或图像特征提取出的视频段对应的短时音频特征和/或短时图像特征分别按时序进行融合，得到该视频段的短时视频特征；

将短时视频特征输入到经过训练的情感预测模型进行长时特征融合，以预测出所述视频内容的情感信息；

其中，所述至少一个短时特征提取模型的训练过程包括；

在每个短时特征提取模型达到预设要求后，将所述至少一个短时特征提取模型按照预测准确度高低进行排序；

在预测准确度最高的短时特征提取模型的基础上，按照准确度高低逐渐增加排序靠后的短时特征提取模型，并且每增加一个短时特征提取模型，则对当前的短时特征提取模型进行协同训练，直至完成对全部短时特征提取模型的协同训练。

2.如权利要求1所述的方法，其中，针对每个视频段获取该视频段帧级别的音频特征和/或图像特征包括：

针对每个视频段，以帧为单位获取与该视频段帧级别对应的音频数据和/或图像数据；

获取与所述音频数据和/或所述图像数据分别对应的音频特征和/或图像特征。

3.如权利要求2所述的方法，其中，获取与所述音频数据对应的音频特征包括：

将所述音频数据执行梅尔倒谱变换，获取倒谱向量作为所述音频数据的频率特征；

将所述频率特征输入到经过训练的音频特征提取模型，获取与所述音频数据对应的音频特征。

4.如权利要求2所述的方法，其中，所述图像特征包括以下特征中的一项或者两项以上的特征：人脸表情特征、行为特征以及场景特征。

5.如权利要求4所述的方法，其中，在所述图像特征包括人脸表情特征的情况下获取与所述图像数据对应的图像特征包括：

将所述图像数据输入到经过训练的人脸表情预测模型，获取与所述图像数据对应的人脸表情特征。

6.如权利要求4所述的方法，其中，在所述图像特征包括行为特征的情况下获取与所述图像数据对应的图像特征包括：

将所述图像数据输入到经过训练的动作预测模型，获取与所述图像数据对应的行为特征。

7.如权利要求4所述的方法，其中，在所述图像特征包括场景特征的情况下，获取与所述图像数据对应的图像特征包括：

将所述图像数据输入到经过训练的场景预测模型，获取与所述图像数据对应的场景特征。

8.如权利要求1所述的方法，其中，将至少一个短时特征提取模型从所述视频段帧级别的音频特征和/或图像特征提取出的视频段对应的短时音频特征和/或短时图像特征分别按时序进行融合得到该视频段的短时视频特征包括：

将所述视频段帧级别的音频特征和/或图像特征分别输入到经过训练的至少一个短时特征提取模型，获取与所述视频段对应的短时音频特征和/或短时图像特征；

通过对短时音频特征和/或短时图像特征按时序执行融合处理，获取所述视频段的短时视频特征。

9.如权利要求8所述的方法，其中，所述至少一个短时特征提取模型中的每个短时特征提取模型按照以下方式进行训练：

针对每个短时特征提取模型，获取与该短时特征提取模型对应的训练特征数据以及训练情感信息；

构建该短时特征提取模型，设置有训练参数；

利用训练特征数据与训练情感信息之间的对应关系对该短时特征提取模型进行训练，调整所述训练参数，直至该短时特征提取模型达到预设要求。

10.如权利要求1-9中任意一项所述的方法，其中，所述情感预测模型按照以下步骤训练完成：

获取训练视频内容的每个训练视频段的训练短时视频特征；

构建所述情感预测模型，设置有训练参数；

利用每个训练短时视频特征与训练情感信息之间的对应关系对所述情感预测模型进行训练，调整所述训练参数，直至所述情感预测模型达到预设要求。

11.一种情感预测设备，其中，包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-10所述的方法中的任一方法的指令。

12.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-10所述的方法中的任一方法。

13.一种用于信息推荐的情感预测方法，所述方法包括：

执行权利要求1-10中任意一项所述的情感预测方法，获取视频内容的情感信息；

获得所述情感信息相关的数据信息；

将所述数据信息推送至终端设备显示。

14.一种用于展示推荐信息的方法，所述方法包括：

接收待展示的数据信息，所述数据信息指示权利要求13中所述的用于信息推荐的情感预测方法中获取的所述数据信息；

将所述数据信息与所述视频内容关联显示。