CN110991427A

CN110991427A - 用于视频的情绪识别方法、装置和计算机设备

Info

Publication number: CN110991427A
Application number: CN201911357288.7A
Authority: CN
Inventors: 何伯磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-04-10
Anticipated expiration: 2039-12-25
Also published as: CN110991427B

Abstract

本申请提出一种用于视频的情绪识别方法、装置和计算机设备，涉及视频识别技术领域，其中，方法包括：对视频的图像提取图像特征向量，以及对视频的音频提取音频特征向量，对图像特征向量和音频特征向量融合，得到融合特征向量，对视频涉及的文本提取语义特征，得到语义特征向量，根据融合特征向量和语义特征向量，识别视频的情绪类别，通过对视频的图像、音频和文本分别进行特征提取，通过对视频的图像提取到的特征和音频提取到的特征进行融合，进而再和文本对应的语义特征进行融合，以更好的理解视频的情绪内容，提高视频情绪识别的全面性和准确性，解决了现有技术中情绪识别基于的语音特征较少，导致无法准确理解视频的情绪内容的技术问题。

Description

用于视频的情绪识别方法、装置和计算机设备

技术领域

本申请涉及人工智能技术领域，尤其涉及视频分析技术领域，具体涉及一种用于视频的情绪识别方法、装置和计算机设备。

背景技术

近年来，随着人工智能、计算机视觉和人脸相关技术的快速发展,人们希望计算机拥有人一样的情感，理解人类意图的渴望越来越强烈。人脸表情作为人类最重要的生物信号和情感信号，在人机交互、医疗诊断、机器人制造、侦查审讯等领域有重要的应用价值。如何精准理解人脸表情,自然引起人工智能研究者的广泛关注。

同时，随着短视频以及个人直播的应用程序的发展，精准的分析视频内容的情绪，对于视频的分发十分重要，同时对于视频内容的审核和监控也具有重要的作用。

相关技术中，视频情绪识别的方法主要是基于音频层次的特征，这种方式使用的特征较少，导致无法准确理解视频的情绪内容，从而识别到的视频情绪的准确度较低。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的第一个目的在于提出一种用于视频的情绪识别方法，通过对视频的图像提取到的特征和音频提取到的特征进行融合，进而再和文本对应的语义特征进行融合，通过将多种特征融合进行情绪分析，以更好的理解视频的情绪内容，提高视频情绪识别的全面性和准确性。

本申请的第二个目的在于提出一种用于视频的情绪识别装置。

本申请的第三个目的在于提出一种计算机设备。

本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本申请第一方面实施例提出了一种用于视频的情绪识别方法，包括：

对视频的图像提取图像特征向量，以及对所述视频的音频提取音频特征向量；

对所述图像特征向量和所述音频特征向量融合，得到融合特征向量；

对所述视频涉及的文本提取语义特征，得到语义特征向量；

根据所述融合特征向量和所述语义特征向量，识别所述视频的情绪类别。

为达上述目的，本申请第二方面实施例提出了一种用于视频的情绪识别装置，包括：

第一提取模块，用于对视频的图像提取图像特征向量，以及对所述视频的音频提取音频特征向量；

融合模块，用于对所述图像特征向量和所述音频特征向量融合，得到融合特征向量；

第二提取模块，用于对所述视频涉及的文本提取语义特征，得到语义特征向量；

识别模块，用于根据所述融合特征向量和所述语义特征向量，识别所述视频的情绪类别。

为达上述目的，本申请第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如第一方面所述的用于视频的情绪识别方法。

为了实现上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如第一方面所述的用于视频的情绪识别方法。

本申请实施例所提供的技术方案可以实现如下的有益效果：

对视频的图像提取图像特征向量，以及对视频的音频提取音频特征向量，对图像特征向量和音频特征向量融合，得到融合特征向量，对视频涉及的文本提取语义特征，得到语义特征向量，根据融合特征向量和语义特征向量，识别视频的情绪类别，通过对视频的图像提取到的特征和音频提取到的特征进行融合，进而再和文本对应的语义特征进行融合，通过将多种特征融合进行情绪分析，以更好的理解视频的情绪内容，提高视频情绪识别的全面性和准确性。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种用于视频的情绪识别方法的流程示意图；

图2为本申请实施例提供的另一种用于视频的情绪识别方法的流程示意图

图3为本申请实施例提供的一种用于视频的情绪识别装置的结构示意图；以及

图4为本申请实施例的用于视频的情绪识别方法的电子设备的框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的用于视频的情绪识别方法、装置和计算机设备。

图1为本申请实施例所提供的一种用于视频的情绪识别方法的流程示意图。

如图1所示，该方法包括以下步骤：

步骤101，对视频的图像提取图像特征向量，以及对视频的音频提取音频特征向量。

具体地，对视频的关键帧，确定背景部分和前景部分，其中，背景部分的颜色可用于表达一种情绪氛围，例如，视频的背景部分的颜色多为暗色，则说明视频表达的是一种负面的情绪，例如，难过的情绪，阴郁的情绪等，根据背景部分的颜色生成用于指示色调的第一元素，其中，根据前景部分的人物表情，生成用于指示表情的第二元素，例如，无面部表情或者是难过的表情较多，则说明视频表达的是一种负面的情绪，而笑脸表情较多，则说明视频表达的是一种积极的情绪，将第一元素和第二元素拼接，得到图像特征向量。通过充分利用视频图像的周边的附加信息，例如，背景和布景等，可以更加客观的描述视频情绪。

以及，对视频的音频进行语调识别，得到用于指示语调的音频特征向量，通过视频中用户的语调来描述视频的情绪，例如，悲伤的语调反应视频是悲伤的情绪，欢快的语调反应视频是开心的情绪。

步骤102，对图像特征向量和音频特征向量融合，得到融合特征向量。

具体地，将图像特征向量和音频特征向量输入模态融合模型，得到模态融合模型输出的融合特征向量，其中，模态融合模型，已学习得到图像特征向量的权重和音频特征向量的权重，用于根据学习到的权重，对图像特征向量和音频特征向量加权，以得到融合特征向量。

步骤103，对视频涉及的文本提取语义特征，得到语义特征向量。

本实施例中，视频包含的文本，不仅包含传统的字幕中的文字，还可以包含视频的标题、弹幕、评论中的一个或多个组合，另外，还可以包含视频中的图像中包含的文本，以及音频中对应的文本信息等。

作为一种可能的实现方式，对视频的标题、弹幕和评论中的一个或多个组合，提取语义特征，得到语义特征向量，由于弹幕和评论均是用户根据视频的内容发出的和视频的情绪相关的评价信息，也一定程度上反应了视频内容的情绪，通过对这部分文字的分析可以从侧面反映视频的情绪。

作为另一种可能的实现方式，对视频的图像，进行文本识别，得到图像中展现的文本，对图像中展现的文本，提取语义特征，得到语义特征向量。

作为第三种可能的实现方式，对视频的音频进行语音识别，得到音频中语音对应的文本，对语音对应的文本，提取语义特征，得到语义特征向量。

作为第四种可能的实现方式，还可以对视频的标题、弹幕、评论对应的文本，对视频的图像，进行文本识别，得到图像中展现的文本，以及对视频的音频进行语音识别，得到音频中语音对应的文本，对上述的所有的文本分别提取语义特征，得到对应的语义特征向量，将多种文本信息提取到的语义特征向量，均作为视频的文本对应的语义特征向量，其中，视频的图像处理得到的文本和音频识别得到的文本是相互补充的作用，而对不同的文本内容进行分析，得到的情绪分析的结果经常时不同的，从而对视频情绪分析提供了更多的信息的支持，提高了视频情绪分析的准确性。

本实施例中，对视频涉及的文本提取语义特征，得到语义特征向量，作为一种可能的实现方式，可以采用主题识别模型将文本的主题对应的向量作为语义特征向量；或者，是提取文本的关键词，将关键词对应的向量作为语义特征向量；又或者，是将全部文本的语义对应的向量作为语义特征向量。

步骤104，根据融合特征向量和语义特征向量，识别视频的情绪类别。

其中，情绪类别可以划分为正面的情绪类别和负面的情绪类别，也可以进一步划分为愉快的情绪类别，伤心的情绪类别、阴郁的情绪类别等，本实施例中不进行限定。

具体地，将融合特征向量和语义特征向量，输入分类模型，得到视频的情绪类别，其中，分类模型，已学习得到输入的各特征向量与情绪类别之间的映射关系，通过将视频的图像和音频对应的特征向量融合得到的融合特征向量，与对文本识别得到的语义特征向量，通过分类模型融合后一起进行情绪分析，通过这样的融合分析能更全面的理解视频的情绪内容，提高了视频情绪识别的准确度。

本实施例的用于视频的情绪识别方法中，对视频的图像提取图像特征向量，以及对视频的音频提取音频特征向量，对图像特征向量和音频特征向量融合，得到融合特征向量，对视频涉及的文本提取语义特征，得到语义特征向量，根据融合特征向量和语义特征向量，识别视频的情绪类别，通过对视频的图像提取到的特征和音频提取到的特征进行融合，进而再和文本对应的语义特征进行融合，通过将多种特征融合进行情绪分析，以更好的理解视频的情绪内容，提高视频情绪识别的全面性和准确性。

基于上一实施例，本实施例提供了另一种用于视频的情绪识别方法的可能的实现方式，图2为本申请实施例提供的另一种用于视频的情绪识别方法的流程示意图。

如图2所示，该方法可以包括以下步骤：

步骤201，对视频的图像提取图像特征向量，以及对视频的音频提取音频特征向量。

本实施例中，在对视频进行特征向量提取之前，可以先对视频的内容进行预处理，包括对视频的图像进行解帧处理，以得到视频的各帧图像，并对视频的音频进行解析处理，并对视频中包含的文本进行处理，例如进行分词处理、分句处理和词性标注等。进而，根据预处理得到的视频的图像和音频信息进行对应的特征向量的提取，具体可以参照上一实施例中的步骤101，原理相同，此处不再赘述。

步骤202，采用经过标注的训练视频，对模态融合模型和分类模型进行训练，以使分类模型输出的情绪类别与训练视频所标注的情绪类别差异最小化。

具体地，采用大量经用户标注的训练视频，对模态融合模型和分类模型进行训练，通过不断的调整模态融合模型和分类模型的参数，使得模态融合模型，已学习得到图像特征向量的权重和音频特征向量的权重的关系，从而，根据学习到的权重，对图像特征向量和音频特征向量加权，得到的融合特征向量与训练视频的文本对应的语义特征向量输入分类模型后，分类模型输出的训练样本的情绪类别与训练视频所标注的情绪类别差异最小化，实现了模态融合模型和分类模型的训练。

步骤203，确定图像特征向量和音频特征向量的向量维数相同。

具体地，传统的视频情绪识别的方案中，都是单独对视频的图像和音频的内容进行情绪分析的处理，然后再将对视频图像和音频内容分析的结果进行融合，然而，视频的图像和音频是密不可分的，相互之间存在关联关系，分开单独处理会损失较多的信息，因此，本实施例中将图像特征向量和音频特征向量通过模态融合模型进行融合，以更好的利用二者信息进行多模的情绪理解，同时，设定图像特征向量和音频特征向量的向量维数相同，也就是说使得视频和音频的特征有着共同的信号特征，以获取更好的融合效果。

步骤204，将图像特征向量和音频特征向量输入模态融合模型，得到模态融合模型输出的融合特征向量。

具体地，可以参照上一实施例中的步骤102，原理相同，此处不再赘述。

步骤205，对视频涉及的文本提取语义特征，得到语义特征向量。

步骤206，根据融合特征向量和语义特征向量，识别视频的情绪类别。

具体的，步骤205和步骤206，具体可以参照上一实施例中的步骤103和步骤104，原理相同，此处不再赘述。

本实施例的用于视频的情绪识别方法中，对视频的图像提取图像特征向量，以及对视频的音频提取音频特征向量，对图像特征向量和音频特征向量融合，得到融合特征向量，对视频涉及的文本提取语义特征，得到语义特征向量，根据融合特征向量和语义特征向量，识别视频的情绪类别，通过对视频的图像、音频和文本分别进行特征提取，通过对视频的图像提取到的特征和音频提取到的特征进行融合，进而再和文本对应的语义特征进行融合，通过将多种特征融合进行情绪分析，以更好的理解视频的情绪内容，提高视频情绪识别的全面性和准确性。

为了实现上述实施例，本申请还提出一种用于视频的情绪识别装置。

图3为本申请实施例提供的一种用于视频的情绪识别装置的结构示意图。

如图3所示，该装置包括：第一提取模块31、融合模块32、第二提取模块33和识别模块34。

第一提取模块31，用于对视频的图像提取图像特征向量，以及对视频的音频提取音频特征向量。

融合模块32，用于对图像特征向量和音频特征向量融合，得到融合特征向量。

第二提取模块33，用于对视频涉及的文本提取语义特征，得到语义特征向量。

识别模块34，用于根据融合特征向量和语义特征向量，识别视频的情绪类别。

进一步地，在本申请实施例的一种可能的实现方式中，该装置还包括：训练模块和确定模块。

训练模块，用于采用经过标注的训练视频，对所述模态融合模型和所述分类模型进行训练，以使所述分类模型输出的情绪类别与所述训练视频所标注的情绪类别差异最小化。

确定模块，用于确定所述图像特征向量和所述音频特征向量的向量维数相同。

作为一种可能的实现方式，上述融合模块32，具体用于：

将所述图像特征向量和所述音频特征向量输入模态融合模型，得到所述模态融合模型输出的融合特征向量；其中，所述模态融合模型，已学习得到所述图像特征向量的权重和所述音频特征向量的权重，用于根据学习到的权重，对所述图像特征向量和所述音频特征向量加权，以得到所述融合特征向量。

作为一种可能的实现方式，上述识别模块34，具体用于：

将所述融合特征向量和所述语义特征向量，输入分类模型，得到所述视频的情绪类别；其中，所述分类模型，已学习得到输入的各特征向量与情绪类别之间的映射关系。

作为一种可能的实现方式，上述第二提取模块33，具体用于：

对所述视频的标题、弹幕和评论中的一个或多个组合，提取语义特征，得到所述语义特征向量。

作为另一种可能的实现方式，上述第二提取模块33，具体还用于：

对所述视频的图像，进行文本识别，得到所述图像中展现的文本；对所述图像中展现的文本，提取语义特征，得到所述语义特征向量；

和/或，对所述视频的音频进行语音识别，得到所述音频中语音对应的文本；对所述语音对应的文本，提取语义特征，得到所述语义特征向量。

需要说明的是，前述对用于视频的情绪识别方法实施例的解释说明也适用于该实施例的用于视频的情绪识别装置，此处不再赘述。

本实施例的用于视频的情绪识别装置中，对视频的图像提取图像特征向量，以及对视频的音频提取音频特征向量，对图像特征向量和音频特征向量融合，得到融合特征向量，对视频涉及的文本提取语义特征，得到语义特征向量，根据融合特征向量和语义特征向量，识别视频的情绪类别，通过对视频的图像、音频和文本分别进行特征提取，先对视频的图像提取到的特征和音频提取到的特征进行融合，进而再和文本对应的语义特征进行融合，通过将多种特征融合进行情绪分析，以更好的理解视频的情绪内容，提高视频情绪识别的全面性和准确性。

为了实现上述实施例，本申请实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述方法实施例所述的用于视频的情绪识别方法。

为了实现上述实施例，本申请实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如前述方法实施例所述的用于视频的情绪识别方法。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是根据本申请实施例的用于视频的情绪识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的用于视频的情绪识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于视频的情绪识别方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频标签的确定方法对应的程序指令/模块(例如，附图3所示的第一提取模块31、融合模块32、第二提取模块33、和识别模块34)。处理器601通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于视频的情绪识别方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据对视频标签确定电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至用于视频的情绪识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于视频的情绪识别方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与用于视频的情绪识别方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，对视频的图像提取图像特征向量，以及对视频的音频提取音频特征向量，对图像特征向量和音频特征向量融合，得到融合特征向量，对视频涉及的文本提取语义特征，得到语义特征向量，根据融合特征向量和语义特征向量，识别视频的情绪类别，通过对视频的图像、音频和文本分别进行特征提取，通过多种特征融合进行情绪分析，以更好的理解视频的情绪内容，提高视频情绪识别的全面性和准确性。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于视频的情绪识别方法，其特征在于，所述方法包括：

对所述视频涉及的文本提取语义特征，得到语义特征向量；

2.根据权利要求1所述的情绪识别方法，其特征在于，所述对所述图像特征向量和所述音频特征向量融合，得到融合特征向量，包括：

将所述图像特征向量和所述音频特征向量输入模态融合模型，得到所述模态融合模型输出的融合特征向量；

其中，所述模态融合模型，已学习得到所述图像特征向量的权重和所述音频特征向量的权重，用于根据学习到的权重，对所述图像特征向量和所述音频特征向量加权，以得到所述融合特征向量。

3.根据权利要求2所述的情绪识别方法，其特征在于，所述根据所述融合特征向量和所述语义特征向量，识别所述视频的情绪类别，包括：

将所述融合特征向量和所述语义特征向量，输入分类模型，得到所述视频的情绪类别；

其中，所述分类模型，已学习得到输入的各特征向量与情绪类别之间的映射关系。

4.根据权利要求3所述的情绪识别方法，其特征在于，所述对所述图像特征向量和所述音频特征向量融合，得到融合特征向量之前，还包括：

采用经过标注的训练视频，对所述模态融合模型和所述分类模型进行训练，以使所述分类模型输出的情绪类别与所述训练视频所标注的情绪类别差异最小化。

5.根据权利要求2所述的情绪识别方法，其特征在于，所述将所述图像特征向量和所述音频特征向量输入模态融合模型之前，还包括：

确定所述图像特征向量和所述音频特征向量的向量维数相同。

6.根据权利要求1-5任一项所述的情绪识别方法，其特征在于，所述对所述视频涉及的文本提取语义特征，得到语义特征向量，包括：

7.根据权利要求1-5任一项所述的情绪识别方法，其特征在于，所述对所述视频涉及的文本提取语义特征，得到语义特征向量，包括：

8.根据权利要求1-5任一项所述的情绪识别方法，其特征在于，所述对视频的图像提取图像特征向量，包括；

对所述视频的关键帧，确定背景部分和前景部分；

根据所述背景部分的颜色生成用于指示所述色调的第一元素；

根据所述前景部分的人物表情，生成用于指示所述表情的第二元素；

将所述第一元素和所述第二元素拼接，得到所述图像特征向量。

9.根据权利要求1-5任一项所述的情绪识别方法，其特征在于，所述对所述视频的音频提取音频特征向量，包括：

对所述视频的音频进行语调识别，得到用于指示语调的所述音频特征向量。

10.一种用于视频的情绪识别装置，其特征在于，所述装置包括：

11.根据权利要求10所述的情绪识别装置，其特征在于，所述融合模块，具体用于：

12.根据权利要求11所述的情绪识别装置，其特征在于，所述识别模块，具体用于：

13.根据权利要求12所述的情绪识别装置，其特征在于，所述装置，还包括：

14.根据权利要求11所述的情绪识别装置，其特征在于，所述装置，还包括：

15.根据权利要求10-14任一项所述的情绪识别装置，其特征在于，所述第二提取模块，具体用于：

16.根据权利要求10-14任一项所述的情绪识别装置，其特征在于，所述第二提取模块，具体还用于：

17.根据权利要求10-14任一项所述的情绪识别装置，其特征在于，所述第一提取模块，具体用于；

对所述视频的关键帧，确定背景部分和前景部分；

18.根据权利要求10-14任一项所述的情绪识别装置，其特征在于，所述第一提取模块，具体还用于：

19.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-9中任一所述的用于视频的情绪识别方法。

20.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的用于视频的情绪识别方法。