CN109766476A

CN109766476A - 视频内容情感分析方法、装置、计算机设备及存储介质

Info

Publication number: CN109766476A
Application number: CN201811616524.8A
Authority: CN
Inventors: 宋彬; 罗文雯; 郭洁; 马梦迪
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2019-05-17
Anticipated expiration: 2038-12-27
Also published as: CN109766476B

Abstract

本发明适用于计算机领域，提供了一种视频内容情感分析方法。所述方法包括：获取视频信息；提取所述视频信息的图像以及声音特征向量；根据所述图像特征向量以及预设的基于注意力机制建立的多个滤波器确定重要图像特征向量；根据所述重要图像特征向量、声音特征向量以及预设的基于深度神经网络建立的情感分析模型确定所述视频的情感分析结果。本发明实施例提供的视频内容情感分析方法，利用了基于注意力机制建立的多个滤波器处理所述图像特征向量以获取对情感分析结果影响较大的重要图像特征向量，有效地提高了最终情感分析结果的准确率，同时在确定重要图像特征向量的过程中，能够充分利用计算资源，有效地提高了情感分析的效率。

Description

视频内容情感分析方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机领域，特别是涉及一种视频内容情感分析方法、装置、计算机设备及存储介质。

背景技术

随着信息时代大数据的发展，数据的多样性和丰富性也越来越引起人们的重视。近年来移动通信技术的快速发展，视频的传播已经不再受设备技术的限制，且视频数据相比图片和文本数据更可以给用户带来更立体的用户体验，因此，人们对视频质量的要求也越来越高，其中，视频内容情感分析将有助于提高用户体验，可以应用在视频内容推荐，视频内容分类等多个场景中。

现有的视频内容情感分析方法主要有利用支持向量模型、迭代算法模型以及长短期记忆网络模型进行情感分析。然而，支持向量模型对维度较高且对非线性特征不能很好的提取，且大规模训练将耗费大量的机器内存和运算时间，迭代算法模型的建立需要利用所有的样本进行训练，也需要耗费大量的时间，而长短期记忆网络由于需要将输入的特征序列化，在训练过程中无法并行处理，同样的需要耗费较多时间，且上述情感分析方法确定的情感分析结果的准确率不够理想。

可见现有技术中的视频内容情感分析方法均存在着处理过程复杂、占用时间、计算资源多且分析结果准确率不够理想的技术问题。

发明内容

本发明实施例提供一种视频内容情感分析方法，以解决现有的视频内容情感分析方法存在的处理过程复杂、占用时间、计算资源多且分析结果准确率不够理想的技术问题。

本发明实施例提供一种视频内容情感分析方法，所述方法包括以下步骤：

获取待情感分析的视频信息；

提取所述视频信息的图像特征向量和声音特征向量；

根据所述图像特征向量以及预设的基于注意力机制建立的多个滤波器确定重要图像特征向量；

根据所述重要图像特征向量、声音特征向量以及预设的基于深度神经网络建立的情感分析模型确定所述视频的情感分析结果，所述情感分析结果包括愉悦度、唤醒度以及恐惧。

本发明实施例还提供一种视频内容情感分析装置，所述装置包括：

视频信息获取单元，用于获取待情感分析的视频信息；

图像及声音特征向量提取单元，用于提取所述视频信息的图像特征向量和声音特征向量；

重要图像特征向量确定单元，用于根据所述图像特征向量以及预设的基于注意力机制建立的多个滤波器确定重要图像特征向量；

情感分析单元，用于根据所述重要图像特征向量、声音特征向量以及预设的基于深度神经网络建立的情感分析模型确定所述视频的情感分析结果，所述情感分析结果包括愉悦度、唤醒度以及恐惧。

本发明实施例还提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上述所述视频内容情感分析方法的步骤

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上述所述视频内容情感分析方法的步骤。

本发明实施例提供的视频内容情感分析方法，在获取待情感分析的视频信息并提取所述视频信息的图像特征向量和声音特征向量后，将所述图像特征向量输入到预设的基于注意力机制建立的多个滤波器中，从而确定对最终情感分析结果影响较大的重要图像特征向量，并根据获取的重要图像特征向量、声音特征向量以及预设的基于深度神经网络建立的情感分析模型确定最终的情感分析结果。本发明实施例提供的视频内容情感分析方法，通过将所述图像特征向量输入到预设的基于注意力机制建立的多个滤波器中，能够确定对最终情感分析结果影响较大的重要图像特征向量，从而有效地提高了最终情感分析结果的准确率，此外由于能够充分利用GPU进行并行计算确定重要图像特征向量，使得情感分析的耗时大大降低，有效地提高了情感分析的效率。

附图说明

图1为本发明实施例提供的一种产品推荐方法的步骤流程图；

图2为本发明实施例中提取图像及声音特征向量的步骤流程图；

图3为本发明实施例中确定重要图像特征向量的步骤流程图；

图4为本发明实施例中确定情感分析结果的步骤流程图；

图5为本发明实施例中训练生成情感分析模型的步骤流程图；

图6为本发明实施例中提供的视频内容情感分析装置的结构示意图；

图7为本发明实施例中图像及声音特征向量提取单元的结构示意图；

图8为本发明实施例提供的重要图像特征向量确定单元的结构示意图；

图9为本发明实施例中情感分析单元的结构示意图；

图10为本发明实施例中情感分析模型训练单元的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为本发明实施例提供的一种视频内容情感分析方法的步骤流程图，详述如下。

步骤S101，获取待情感分析的视频信息。

步骤S102，提取所述视频信息的图像特征向量和声音特征向量。

在本发明实施例中，由于视频信息包括图像信息以及声音信息，对所述图像信息进行处理即可提取图像特征，对所述声音信息进行处理即可提取图像信息。提取所述视频信息的图像特征和声音特征的具体步骤请参考图2及其解释说明。

步骤S103，根据所述图像特征向量以及预设的基于注意力机制建立的多个滤波器确定重要图像特征向量。

在本发明实施例中，基于注意力机制建立的滤波器中包括多个滤波核，所述多个滤波核以一定的序列以及长度排列在所述滤波器中。

在本发明实施例中，已预先通过训练生成了每个滤波器的权重。

在本发明实施例中，根据所述图像特征向量以及预设的基于注意力机制建立的多个滤波器确定重要图像特征向量的具体步骤请参考图3及其解释说明。

步骤S104，根据所述重要图像特征向量、声音特征向量以及预设的基于深度神经网络建立的情感分析模型确定所述视频的情感分析结果。

在本发明实施例中，将所述重要图像特征向量以及声音特征向量输入到预设的基于深度神经网络建立的情感分析模型中即可直接输出情感分析结果。

在本发明实施例中，所述情感分析结果包括愉悦度、唤醒度以及恐惧，即本发明是通过愉悦度、唤醒度以及恐惧三个评价指标确定视频内容的情感。

在本发明实施例中，进一步的，输出的愉悦度和唤醒度的输出值区间为[-1，1]，而恐惧的输出值为0或1，其中，对于愉悦度以及唤醒度的输出值而言，值为正，则相应的表示正情感状态；值为负，则表示负情感状态，值的绝对值越接近1，则程度越深，对于恐惧的输出值而言，值为0，表示无恐惧情感，值为1，则表示有恐惧情感。

在本发明实施例中，根据所述图像特征向量以及预设的基于注意力机制建立的多个滤波器确定重要图像特征向量的具体步骤请参考图4及其解释说明。

图2为本发明实施例中提取图像及声音特征向量的步骤流程图，详述如下。

步骤S201，处理所述视频信息并获取相应的图像数据和声音数据。

在本发明实施例中，将所述视频信息进行处理以分开获取图像数据以及声音数据。

步骤S202，根据预设的频率以及时长提取多个图像帧以及声音片段。

在本发明实施例中，根据预设的频率对所述图像数据进行处理以获取多个图像帧，进一步的，作为一个较优实施例，以1s为间隔提取多个图像帧。

在本发明实施例中，根据预设的时长对所述声音数据进行处理以获取多个声音片段，进一步的，作为一个较优实施例，提取多个时长为10s的声音片段。

步骤S203，将所述多个图像帧输入到预设的图像处理工具中，获取相应的图像特征向量。

作为本发明的一个较优实施例，所述预设的图像处理工具选用图片分类网络VGG-19。将图像帧输入到图片分类网络VGG-19中，通过卷积神经网络VGG-19提取高层的图像特征，将网络最后一层全连接层的输出作为该帧图像的特征，从而最终获得4096维的图像特征向量。

步骤S204，将所述多个声音片段输入到预设的声音处理工具中，获取相应的声音特征向量。

作为本发明的一个较优实施例，所述预设的声音处理工具选用openSmile(一款音频处理软件)，将声音片段输入到openSmile中，能够最终获得1582维的声音特征向量。

本发明实施例公开了从视频信息中提取图像特征向量以及声音特征向量的具体步骤，通过将视频信息处理为图像数据以及声音数据，获取多个图像帧以及声音片段，并最终利用图像处理工具以及声音处理工具分别对所述图像数据以及声音数据进行处理从而获取相应的高维图像特征向量以及声音图像特征向量。

图3为本发明实施例中确定重要图像特征向量的步骤流程图，详述如下。

在本发明实施例中，基于注意力机制建立的滤波器一共有M个，滤波器的时间宽度为T，预先通过训练生成的每个滤波器的权重为a_m，其中每个滤波器中包括N个滤波核，对于每个滤波核，x_n表示该滤波核在滤波器中的时间序列，y_n表示该滤波核在滤波器中的时间宽度。

步骤S301，获取第一滤波器中多个时间序列滤波核的信息。

在本发明实施例中，时间序列滤波核即为滤波核，所述时间序列滤波核的信息所述时间序列滤波核在所述滤波器中的时间序列x_n以及宽度y_n。

步骤S302，将所述多个时间序列滤波核的信息进行归一化处理。

在本发明实施例中，所述归一化处理的公式为：

在本发明实施例中，所述即为归一化处理后的时间序列，即为归一化处理后的宽度。

步骤S303，根据归一化处理后的时间序列滤波核的信息计算在时间序列上的第一滤波器函数。

在本发明实施例中，所述第一滤波器函数F[t，n]的计算公式为：

步骤S304，将所述第一滤波器函数与图像特征向量进行点积生成第一滤波器处理图像特征向量。

在本发明实施例中，所述第一滤波器处理图像特征向量s_c[n]的计算公式为：

在本发明实施例中，所述v_t即为输入到滤波器中的图像特征向量，维度为D，则输出的第一滤波器处理图像特征向量s_c[n]的维度为N×D，而M个滤波器可以获得M×N×D的特征向量。

步骤S305，根据滤波器处理图像特征向量以及预设的多个滤波器的权重确定重要图像特征向量。

在本发明实施例中，所述预设的滤波器的权重a_m的公式为：

在本发明实施例中，所述重要图像特征向量S_c的计算公式如下：

在本发明实施例中，所述最终输出的重要图像特征向量即为S_c。

本发明实施例公开了利用基于注意力机制建立的多个滤波器处理图像特征向量以获取重要特征向量的具体步骤，通过确定对最终情感分析结果影响较大的重要图像特征向量，从而有效地提高了最终情感分析结果的准确率，通过利用多个滤波器处理图像特征向量，能够充分利用GPU进行并行计算，使得情感分析的耗时大大降低，有效地提高了情感分析的效率。

图4为本发明实施例中确定情感分析结果的步骤流程图，详述如下。

步骤S401，将所述重要图像特征向量以及声音特征向量分别映射为相同维度的图像特征向量以及声音特征向量。

在本发明实施例中，由于重要图像特征向量v与声音特征向量a的维度不同，需要通过前馈神经网络映射到相同维度，其中映射后的图像特征向量c_v与声音特征向量c_a的计算公式为：

c_v＝f(W_v·v+b_v)，c_a＝f(W_a·a+b_a)

其中，W_v和W_a为前馈神经网络权重，b_v和b_a为偏置向量，f为神经网络的激活函数ReLU，W_v、W_a、b_v以及b_a已预先通过训练确定，所述预先通过训练确定W_v、W_a、b_v以及b_a的步骤请参阅图5示出的训练生成情感分析模型的步骤流程图中步骤S503-步骤S507。

步骤S402，计算所述相同维度的图像特征向量与声音特征向量在情感分析模型下的情感分析结果。

在本发明实施例中，所述输出的情感分析结果y_prodict的计算公式为：

y_prodict＝f_l(W_l·f_c(W_c·c_a，v+b_c)+b_l)

在本发明实施例中，所述W_l和W_c为全连接神经网络权重，b_l和b_c为偏置向量，W_l、W_c、b_l以及b_c已预先通过训练确定，f_c为全连接神经网络激活函数ReLU，f_l为网络输出激活函数，c_a，v为图像特征向量c_v与声音特征向量c_a进行级联后的综合特征向量。

在本发明实施例中，愉悦度和唤醒度的输出值区间为[-1，1]，此时选用的网络输出激活函数f_l为tanh函数，恐惧度的输出值为0或1，此时选用的网络输出激活函数f_l为sigmoid函数。

本发明实施例公开了确定情感分析结果的具体步骤流程，通过将不同维度下的图像特征向量v以及声音特征向量a分别映射到相同维度下的图像特征向量c_v以及声音特征向量c_a，同时考虑到图像特征向量c_v以及声音特征向量c_a的相关性，将图像特征向量c_v以及声音特征向量c_a进行级联，从而有效的提高了最终预测的准确率。

图5为本发明实施例中训练生成情感分析模型的步骤流程图，详述如下。

步骤S501，获取多个视频信息训练样本，并确定所述多个视频信息训练样本对应的目标情感分析结果。

在本发明实施例中，通过实验统计用户在观看所述视频信息训练样本时的情感状态，确定所述视频信息训练样本对应的目标情感分析结果。

步骤S502，提取所述多个视频信息训练样本的图像特征向量和声音特征向量。

在本发明实施例中，步骤S502与前述步骤S102相似，具体请参考图2及其解释说明。

步骤S503，建立基于深度神经网络的情感分析样本模型并初始化所述情感分析样本模型中的可变参数。

在本发明实施例中，所述情感分析样本模型具体请参考图4及其解释说明，所述情感分析样本模型包括前馈神经网络以及全连接神经网络，所述情感分析样本模型中的可变参数包括W_v、W_a、b_v以及b_a，W_l、W_c、b_l以及b_c，其中W_v、W_a、W_l以及W_l采用正态化分布初始化，b_v、b_a、b_l以及b_c初始化为0。

步骤S504，根据第一视频信息训练样本的图像特征向量和声音特征向量以及情感分析样本模型确定与所述第一视频信息对应的训练情感分析结果。

在本发明实施例中，所述步骤S505与步骤S104相似，具体请参考图4及其解释说明。

步骤S505，根据所述多个视频信息训练样本的训练情感分析结果以及目标情感分析结果计算所述情感分析样本模型的性能指标。

在本发明实施例中，所述情感分析样本模型的性能指标包括情感分析样本模型的最小均方误差、皮尔森相关系数、准确率以及精确率。

在本发明实施例中，所述最小均方误差MSE以及皮尔森相关系数r用于判断愉悦度以及唤醒度预测结果的性能指标，准确率Accuracy以及精确率Precision用于判断恐惧预测结果的性能指标。

在本发明实施例中，所述最小均方误差MSE、皮尔森相关系数r、准确率Accuracy以及精确率Precision的计算公式如下：

在本发明实施例中，最小均方误差MSE中的y_i和分别为样本i的模型预测结果和目标结果；皮尔森相关系数r中X_i和分别为样本i的预测结果和样本预测结果的平均，Y_i和分别为样本i的目标结果和样本目标结果的平均；准确率中，T为模型将输入样本预测为正例的阈值，即当网络输出值大于T时，样本被预测为正例，TP为样本数据中正情感状态样本被预测为正例的个数，FN为样本数据中正情感状态样本预测为负例的个数，FP为样本数据中负情感状态样本被预测为正例的个数，TN为样本数据中负情感状态样本被预测为负例的个数。

作为本发明进一步的实施例，所述情感分析样本模型性能指标还包括召回率Recall，所述召回率Recall的计算公式如下：

步骤S506，判断所述情感分析样本模型的性能指标是否满足预设的条件。

在本发明实施例中，根据情感分析样本模型的性能指标判断所述情感分析样本模型是否训练完成，当所述情感分析样本模型训练未完成时，执行步骤S507，；当所述情感分析样本模型训练完成时，执行步骤S508。

作为本发明的一种实施例，所述预设的条件为判断本次情感分析样本模型的性能指标相比于上次情感分析样本模型的性能指标的提升，当所述提升量大于一定值时，表明所述情感分析样本模型尚未训练完成，执行步骤S507，当所述提升量小于一定值时，表明所述情感分析样本模型已训练完成，执行步骤S508，进一步的，可以与前多次情感分析样本模型的性能指标进行对比，以提高训练的稳定性。

步骤S507，计算所述多个视频信息训练样本的目标情感分析结果与训练情感分析结果之间的损失值；并根据所述损失值利用反向传播算法调整所述情感分析样本模型中的可变参数，返回至步骤S504。

在本发明实施例中，当根据所述情感分析样本模型的性能指标判断出所述情感分析样本模型尚未训练完成时，通过计算所述多个视频信息训练样本的目标情感分析结果与训练情感分析结果之间的损失值，并根据所述损失值利用反向传播算法调整所述情感分析样本模型中的可变参数。

在本发明实施例中，所述损失值计算分为愉悦度与唤醒度的损失值Loss_regression以及恐惧的损失值Loss_binary，所述Loss_regression以及Loss_binary的计算公式如下：

在本发明实施例中，所述σ为多模态距离约束权重，λ为二阶正则项的权重，W为网络中所有权重的集合，MSE为愉悦度与唤醒度的损失函数，Log_loss为恐惧的损失函数；为了建立多模态共享空间的距离关系，本发明额外引入多模态距离约束L_common作为损失函数；为了防止过拟合，本发明额外引入权重二阶正则项||W||作为损失函数。

在本发明实施例中，MSE，Log_loss以及L_common的计算公式如下：

步骤S508，将当前情感分析样本模型确定为预设的基于深度神经网络建立的情感分析模型。

在本发明实施例中，当根据所述情感分析样本模型的性能指标判断出所述情感分析样本模型已训练完成时，将当前情感分析样本模型确定为预设的基于深度神经网络建立的情感分析模型。

本发明实施例公开了训练生成情感分析模型的具体步骤，将多个已知情感状态的视频样本输入到待训练的情感分析样本模型中，通过判断所述情感分析样本模型的性能指标确定情感分析样本模型是否训练完成，当判断情感分析样本模型训练尚未完成时，通过计算预测值与目标值的损失值，并根据所述损失值利用反向传播算法调整情感分析样本模型中的可变参数，从而进一步提高情感分析样本模型的训练完成度，直到判断出情感分析样本模型训练完成时，将当前情感分析样本模型确定为预设的基于深度神经网络建立的情感分析模型。

图6为本发明实施例中提供的视频内容情感分析装置的结构示意图，为了便于说明，仅示出于本发明实施例相关的部分。

在本发明实施例中，所述视频内容情感分析装置包括视频信息获取单元601、图像及声音特征向量提取单元602、重要图像特征向量确定单元603以及情感分析单元604。

所述视频信息获取单元601，用于获取待情感分析的视频信息。

所述图像及声音特征向量提取单元602，用于提取所述视频信息的图像特征向量和声音特征向量。

在本发明实施例中，由于视频信息包括图像信息以及声音信息，对所述图像信息进行处理即可提取图像特征，对所述声音信息进行处理即可提取图像信息。所述图像及声音特征向量提取单元602的具体结构示意图请参考图7及其解释说明。

所述重要图像特征向量确定单元603，用于根据所述图像特征向量以及预设的基于注意力机制建立的多个滤波器确定重要图像特征向量。

在本发明实施例中，所述重要图像特征向量确定单元603的具体结构示意图请参考图8及其解释说明。

所述情感分析单元604，用于根据所述重要图像特征向量、声音特征向量以及预设的基于深度神经网络建立的情感分析模型确定所述视频的情感分析结果。

在本发明实施例中，所述情感分析单元604的具体结构示意图请参考图9及其解释说明。

本发明实施例提供的视频内容情感分析装置，在获取待情感分析的视频信息并提取所述视频信息的图像特征向量和声音特征向量后，将所述图像特征向量输入到预设的基于注意力机制建立的多个滤波器中，从而确定对最终情感分析结果影响较大的重要图像特征向量，并根据获取的重要图像特征向量、声音特征向量以及预设的基于深度神经网络建立的情感分析模型确定最终的情感分析结果。本发明实施例提供的视频内容情感分析方法，通过将所述图像特征向量输入到预设的基于注意力机制建立的多个滤波器中，能够确定对最终情感分析结果影响较大的重要图像特征向量，从而有效地提高了最终情感分析结果的准确率，此外由于能够充分利用GPU进行并行计算确定重要图像特征向量，使得情感分析的耗时大大降低，有效地提高了情感分析的效率。

图7为本发明实施例中图像及声音特征向量提取单元的结构示意图，为了便于说明，仅示出与本发明实施例相关的部分。

在本发明实施例中，所述图像及声音特征向量提取单元包括图像及声音数据获取模块701、图像及声音数据片段提取模块702、图像特征向量提取模块703以及声音特征向量提取模块704。

所述图像及声音数据获取模块701，用于处理所述视频信息并获取相应的图像数据和声音数据。

所述图像及声音数据片段提取模块702，用于根据预设的频率以及时长提取多个图像帧以及声音片段。

所述图像特征向量提取模块703，用于将所述多个图像帧输入到预设的图像处理工具中，获取相应的图像特征向量。

所述声音特征向量提取模块704，用于将所述多个声音片段输入到预设的声音处理工具，获取相应的声音特征向量。

本发明实施例公开了图像及声音特征向量提取单元的具体结构示意图，通过将视频信息处理为图像数据以及声音数据，获取多个图像帧以及声音片段，并最终利用图像处理工具以及声音处理工具分别对所述图像数据以及声音数据进行处理从而获取相应的高维图像特征向量以及声音图像特征向量。

图8为本发明实施例提供的重要图像特征向量确定单元的结构示意图，为了便于说明，仅示出与本发明实施例相关的部分。

在本发明实施例中，所述重要图像特征向量确定单元包括时间序列滤波核信息获取模块801、归一化处理模块802、滤波器函数确定模块803、滤波器处理图像特征确定模块804以及重要图像特征向量确定模块805。

所述时间序列滤波核信息获取模块801，用于获取第一滤波器中多个时间序列滤波核的信息。

在本发明实施例中，时间序列滤波核即为滤波核，所述时间序列滤波核的信息所述时间序列滤波核在所述滤波器中的时间序列x_n以及宽度y_n

所述归一化处理模块802，用于将所述多个时间序列滤波核的信息进行归一化处理。

在本发明实施例中，所述归一化处理的公式为：

所述滤波器函数确定模块803，用于根据归一化处理后的时间序列滤波核的信息计算在时间序列上的第一滤波器函数。

所述滤波器处理图像特征确定模块804，用于将所述第一滤波器函数与图像特征向量进行点积生成第一滤波器处理图像特征向量。

所述重要图像特征向量确定模块805，用于根据滤波器处理图像特征向量以及预设的多个滤波器的权重确定重要图像特征向量。

在本发明实施例中，所述预设的滤波器的权重a_m的公式为：

本发明实施例公开了重要图像特征向量确定单元的具体结构示意图，通过确定对最终情感分析结果影响较大的重要图像特征向量，从而有效地提高了最终情感分析结果的准确率，通过利用多个滤波器处理图像特征向量，能够充分利用GPU进行并行计算，使得情感分析的耗时大大降低，有效地提高了情感分析的效率。

图9为本发明实施例中情感分析单元的结构示意图，为了便于说明，仅示出与本发明实施例相关的部分。

在本发明实施例中，所述情感分析单元包括维度归一模块901以及情感分析模块902。

所述维度归一模块901，用于将所述重要图像特征向量以及声音特征向量分别映射为相同维度的图像特征向量以及声音特征向量。

在本发明实施例中，由于重要图像特征向量v与声音特征向量a的维度不同，需要通过前馈神经网络映射到相同维度，其中映射后的图像特征向量c_v，与声音特征向量c_a的计算公式为：

c_v＝f(W_v·v+b_v)，c_a＝f(W_a·a+b_a)

其中，W_v和W_a为前馈神经网络权重，b_v和b_a为偏置向量，f为神经网络的激活函数ReLU，W_v、W_a、b_v以及b_a已预先通过训练确定，所述预先训练确定W_v、W_a、b_v以及b_a的过程请具体参阅下述图10示出的情感分析模型训练单元。

所述情感分析模块902，用于计算所述相同维度的图像特征向量与声音特征向量在情感分析模型下的情感分析结果。

y_prodict＝f_l(W_l·f_c(W_c·c_a，v+b_c)+b_l)

本发明实施例公开了情感分析单元的具体结构示意图，通过将不同维度下的图像特征向量v以及声音特征向量a分别映射到相同维度下的图像特征向量c_v以及声音特征向量c_a，同时考虑到图像特征向量c_v以及声音特征向量c_a的相关性，将图像特征向量c_v以及声音特征向量c_a进行级联，从而有效的提高了最终预测的准确率。

图10为本发明实施例中情感分析模型训练单元的结构示意图，为了便于说明，仅示出与本发明实施例相关部分。

在本发明实施例中，所述视频内容情感分析装置还包括情感分析模型训练单元，用于训练生成情感分析模型，所述情感分析模型训练单元包括：

训练样本获取模块1001，用于获取多个视频信息训练样本，并确定所述多个视频信息训练样本对应的目标情感分析结果。

训练样本特征向量提取模块1002，用于提取所述多个视频信息训练样本的图像特征向量和声音特征向量。

在本发明实施例中，所述训练样本特征向量提取模块1002与前述图像及声音特征向量提取单元602相似，具体请参考图7及其解释说明。

情感分析样本模型初始化模块1003，用于建立基于深度神经网络的情感分析样本模型并初始化所述情感分析样本模型中的可变参数。

样本情感分析结果确定模块1004，用于根据第一视频信息训练样本的图像特征向量和声音特征向量以及情感分析样本模型确定与所述第一视频信息对应的训练情感分析结果。

在本发明实施例中，所述样本情感分析结果确定模块1004与前述情感分析单元604相似，具体请参考图9及其解释说明。

性能指标计算模块1005，用于根据所述多个视频信息训练样本的训练情感分析结果以及目标情感分析结果计算所述情感分析样本模型的性能指标。

在本发明实施例中，所述所述最小均方误差MSE以及皮尔森相关系数r用于判断愉悦度以及唤醒度预测结果的性能指标，准确率Accuracy以及精确率Precision用于判断恐惧预测结果的性能指标。

性能指标判断模块1006，用于判断所述情感分析样本模型的性能指标是否满足预设的条件。

在本发明实施例中，根据情感分析样本模型的性能指标判断所述情感分析样本模型是否训练完成。

作为本发明的一种实施例，所述预设的条件为判断本次情感分析样本模型的性能指标相比于上次情感分析样本模型的性能指标的提升，当所述提升量大于一定值时，表明所述情感分析样本模型尚未训练完成，当所述提升量小于一定值时，表明所述情感分析样本模型已训练完成，进一步的，可以与前多次情感分析样本模型的性能指标进行对比，以提高训练的稳定性。

情感分析样本模型调整模块1007，用于计算所述多个视频信息训练样本的目标情感分析结果与训练情感分析结果之间的损失值，并根据所述损失值利用反向传播算法调整所述情感分析样本模型中的可变参数。

在本发明实施例中，MSE，Log_loss以及L_common的计算公式如下：

情感分析模型确定模块1008，用于将当前情感分析样本模型确定为预设的基于深度神经网络建立的情感分析模型。

本发明实施例公开了情感分析模型训练单元的具体步骤，将多个已知情感状态的视频样本输入到待训练的情感分析样本模型中，通过判断所述情感分析样本模型的性能指标确定情感分析样本模型是否训练完成，当判断情感分析样本模型训练尚未完成时，通过计算预测值与目标值的损失值，并根据所述损失值利用反向传播算法调整情感分析样本模型中的可变参数，从而进一步提高情感分析样本模型的训练完成度，直到判断出情感分析样本模型训练完成时，将当前情感分析样本模型确定为预设的基于深度神经网络建立的情感分析模型。

本发明实施例提供一种计算机设备，该计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现上述图1至图5所示出的实施例所提供的视频内容情感分析方法的步骤。

示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。例如，计算机程序可以被分割成上述各个方法实施例提供的视频内容情感分析方法的步骤。

本领域技术人员可以理解，上述计算机装置的描述仅仅是示例，并不构成对计算机装置的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmab le Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如声音数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信号以及软件分发介质等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频内容情感分析方法，其特征在于，所述方法包括以下步骤：

获取待情感分析的视频信息；

提取所述视频信息的图像特征向量和声音特征向量；

2.根据权利要求1所述的方法，其特征在于，所述提取所述视频信息的图像特征向量和声音特征向量的步骤，具体包括：

处理所述视频信息并获取相应的图像数据和声音数据；

根据预设的频率以及时长提取多个图像帧以及声音片段；

将所述多个图像帧输入到预设的图像处理工具中，获取相应的图像特征向量。

3.根据权利要求1所述的方法，其特征在于，所述根据所述图像特征向量以及预设的基于注意力机制建立的多个滤波器确定重要图像特征向量的步骤，具体包括：

获取第一滤波器中多个时间序列滤波核的信息，所述时间序列滤波核的信息包括所述时间序列滤波核在所述滤波器中的时间序列以及宽度；

将所述多个时间序列滤波核的信息进行归一化处理；

根据归一化处理后的时间序列滤波核的信息计算在时间序列上的第一滤波器函数；

将所述第一滤波器函数与图像特征向量进行点积生成第一滤波器处理图像特征向量；

根据滤波器处理图像特征向量以及预设的多个滤波器的权重确定重要图像特征向量。

4.根据权利要求1所述的方法，其特征在于，所述根据所述重要图像特征向量、声音特征向量以及预设的基于深度神经网络建立的情感分析模型确定所述视频的情感分析结果的步骤，具体包括：

将所述重要图像特征向量以及声音特征向量分别映射为相同维度的图像特征向量以及声音特征向量；

计算所述相同维度的图像特征向量与声音特征向量在情感分析模型下的情感分析结果。

5.根据权利要求1所述的方法，其特征在于，训练生成预设的基于深度神经网络建立的情感分析模型的步骤，具体包括：

获取多个视频信息训练样本，并确定所述多个视频信息训练样本对应的目标情感分析结果；

提取所述多个视频信息训练样本的图像特征向量和声音特征向量；

建立基于深度神经网络的情感分析样本模型并初始化所述情感分析样本模型中的可变参数；

根据第一视频信息训练样本的图像特征向量和声音特征向量以及情感分析样本模型确定与所述第一视频信息对应的训练情感分析结果；

根据所述多个视频信息训练样本的训练情感分析结果以及目标情感分析结果计算所述情感分析样本模型的性能指标，所述情感分析样本模型的性能指标包括所述情感分析样本模型的最小均方误差、皮尔森相关系数、准确率以及精确率；

判断所述情感分析样本模型的性能指标是否满足预设的条件；

当判断所述情感分析样本模型的性能指标不满足预设的条件时，计算所述多个视频信息训练样本的目标情感分析结果与训练情感分析结果之间的损失值；并根据所述损失值利用反向传播算法调整所述情感分析样本模型中的可变参数，返回至所述根据第一视频信息训练样本的图像特征向量和声音特征向量以及情感分析样本模型确定与所述第一视频信息对应的训练情感分析结果的步骤；

当判断所述情感分析样本模型的性能指标满足预设的条件时，将当前情感分析样本模型确定为预设的基于深度神经网络建立的情感分析模型。

6.一种视频内容情感分析装置，其特征在于，所述装置包括：

视频信息获取单元，用于获取待情感分析的视频信息；

7.根据权利要求6所述的装置，其特征在于，所述图像及声音特征向量提取单元具体包括：

图像及声音数据获取模块，用于处理所述视频信息并获取相应的图像数据和声音数据；

图像及声音数据片段提取模块，用于根据预设的频率以及时长提取多个图像帧以及声音片段；

图像特征向量提取模块，用于将所述多个图像帧输入到预设的图像处理工具中，获取相应的图像特征向量；

声音特征向量提取模块，用于将所述多个声音片段输入到预设的声音处理工具，获取相应的声音特征向量。

8.根据权利要求6所述的方法，其特征在于，所述重要图像特征向量确定单元包括：

时间序列滤波核信息获取模块，用于获取第一滤波器中多个时间序列滤波核的信息，所述时间序列滤波核的信息包括所述时间序列滤波核在所述滤波器中的位置以及宽度；

归一化处理模块，用于将所述多个时间序列滤波核的信息进行归一化处理；

滤波器函数确定模块，用于根据归一化处理后的时间序列滤波核的信息计算在时间序列上的第一滤波器函数；

滤波器处理图像特征确定模块，用于将所述第一滤波器函数与图像特征向量进行点积生成第一滤波器处理图像特征向量；

重要图像特征向量确定模块，用于根据滤波器处理图像特征向量以及预设的多个滤波器的权重确定重要图像特征向量。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至5中任一项权利要求所述视频内容情感分析方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至5中任一项权利要求所述视频内容情感分析方法的步骤。