CN111832651A

CN111832651A - 视频多模态情感推理方法和装置

Info

Publication number: CN111832651A
Application number: CN202010673944.0A
Authority: CN
Inventors: 朱文武; 王鑫; 沈光耀
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-27
Anticipated expiration: 2040-07-14
Also published as: CN111832651B

Abstract

本申请提出一种视频多模态情感推理方法和装置，其中，方法包括：获取待处理视频的多个目标视频片段；提取每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征，以及获取每一目标人物的知识表征；通过注意力机制将每一个目标视频片段中每一目标人物的文字特征、声音特征、视觉特征和知识表征进行情感增强处理后进行特征融合，生成每一个目标视频片段中每一目标人物的融合特征；将每一个目标视频片段中每一目标人物的融合特征输入预设分类器得到每一个目标视频片段中每一目标人物的情感类型。由此，能够在模态缺失的情况下通过上下文和外部知识对人类情感进行推理，实现更加鲁棒的情感识别与推理。

Description

视频多模态情感推理方法和装置

技术领域

本申请涉及情感识别技术领域，尤其涉及一种视频多模态情感推理方法和装置。

背景技术

相关技术主要在文字、声音和视觉模态齐全的数据上进行情感识别。依据其所利用时序与角色中上下文信息的多寡，可以分为三类：

一、基于多模态特征融合的方法。这类方法主要是对目标时刻附近一段时间内目标人物的文字、声音和视觉信号分别提取单模态特征，然后将三个单模态特征联结在一起，再通过深度神经网络得到融合后的多模态特征，经过分类器进行情感识别。这类方法简单直接，能够增加多模态特征的鲁棒性，但是忽略了视频中的上下文信息，因此难以取得良好的效果。

二、基于循环神经网络的方法。这类方法将视频中的上下文通过循环神经网络进行建模，从而对目标时刻的人物的多模态融合特征进行增强。由于考虑了上下文关系，这类方法能够捕捉到一定的情感传播，但是对于人物间的交互较少建模，因此效果也受到限制。

三、基于图神经网络的方法。这类方法将视频中出现的一对<时刻，人物>视为一个节点，将所有的点进行连边，构建一个人物、时间的全连接图。对于每个点，分别提取它融合后的多模态特征，运用图神经网络技术得到加强后的特征，最后进行最终的分类。

这三种技术都利用了多模态特征的融合，结合不同层次的上下文信息，达到情感识别的目的。

但是，相关的技术方法主要在较为规范和完整的数据上进行使用，具体表现为：目标人物往往为说话人，文字、声音和图像模态齐全，面部清晰可辨认。但是，在现实生活中，视频往往是复杂的，并常常出现模态缺失的情况，比如目标人物没有说话(缺少声音和文字模态)或者面部表情难以分辨(缺少视觉模态)，这就要求算法拥有推理能力。现实生活中，人们可以通过情感之间的传播来推测彼此的情感状态。此外，现实生活中存在着很多知识，包括人类的常识以及场景特有的知识(如人物的个性及人物间的关系)，但现有的方法鲜有对此进行建模。因此，现有方法主要聚焦于在模范完备的数据中直接进行多模态特征的提取和情感识别，因此难以处理复杂环境的情况，没有利用情感传播与外部知识进行情感推理的能力。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种视频多模态情感推理方法，对人物自身随着时间的情感传播，人际之间的情感传播以及聚合外部知识进行建模，对本来不显著的人物特征进行增强和补全，从而实现复杂视频中目标人物的多模态情感推理。

本申请的另一个目的在于提出一种视频多模态情感推理装置。

本申请一方面实施例提出了一种视频多模态情感推理方法，包括以下步骤：

获取待处理视频的多个目标视频片段；

提取每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征，以及获取每一目标人物的知识表征；

通过注意力机制将每一个目标视频片段中每一目标人物的文字特征、声音特征、视觉特征和知识表征进行情感增强处理后进行特征融合，生成每一个目标视频片段中每一目标人物的融合特征；

将每一个目标视频片段中每一目标人物的融合特征输入预设分类器得到每一个目标视频片段中每一目标人物的情感类型。

本申请另一方面实施例提出了一种视频多模态情感推理装置，包括：

第一获取模块，用于获取待处理视频的多个目标视频片段；

提取模块，用于提取每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征；

第二获取模块，用于获取每一目标人物的知识表征；

生成模块，用于通过注意力机制将每一个目标视频片段中每一目标人物的文字特征、声音特征、视觉特征和知识表征进行情感增强处理后进行特征融合，生成每一个目标视频片段中每一目标人物的融合特征；

处理模块，用于将每一个目标视频片段中每一目标人物的融合特征输入预设分类器得到每一个目标视频片段中每一目标人物的情感类型。

本申请实施例所提供的技术方案可以包含如下的有益效果：

通过获取待处理视频的多个目标视频片段；提取每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征，以及获取每一目标人物的知识表征；通过注意力机制将每一个目标视频片段中每一目标人物的文字特征、声音特征、视觉特征和知识表征进行情感增强处理后进行特征融合，对人物自身随着时间的情感传播，人际之间的情感传播以及聚合外部知识进行建模，解决可能存在的模态缺失问题，生成每一个目标视频片段中每一目标人物的融合特征；将每一个目标视频片段中每一目标人物的融合特征输入预设分类器得到每一个目标视频片段中每一目标人物的情感类型。由此，能够在模态缺失的情况下通过上下文和外部知识对人类情感进行推理，实现更加鲁棒的情感识别与推理。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例所提供的一种视频多模态情感推理方法的流程示意图；

图2为本申请实施例所提供的一种视频多模态情感推理方法的流程示例图；

图3为本申请实施例所提供的一种视频多模态情感推理装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参照附图描述本申请实施例的视频多模态情感推理装置方法和装置。

图1为本申请实施例所提供的一种视频多模态情感推理方法的流程示意图。

如图1所示，该方法包括以下步骤：

步骤101，获取待处理视频的多个目标视频片段。

在本申请实施例中，获取待处理视频的对话信息，按照对话信息对待处理视频进行切分得到多个语音片段，若两个相邻时刻对应的语音片段的时间间隔大于预设阈值，则确定时间间隔对应的视频片段为视觉片段，若两个相邻时刻对应的语音片段的时间间隔小于等于预设阈值，则将时间间隔对应的视频片段与两个相邻时刻对应的语音片段进行合并为目标视频片段。

步骤102，提取每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征，以及获取每一目标人物的知识表征。

在本申请实施例中，提取每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征，包括：

通过特征提取工具提取每一个目标视频片段中每一目标人物的句子向量；通过特征提取工具提取每一个目标视频片段中每一目标人物的声音情感向量；通过特征提取工具提取每一个目标视频片段中每一目标人物的面部向量、物体向量和环境向量，组成每一个目标视频片段中每一目标人物的视觉向量；通过预设编码器对句子向量、声音情感向量、视觉向量进行降维处理得到每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征。

在本申请实施例中，获取每一目标人物的知识表征，包括：

获取每一目标人物的人物性格、人物关系和人物喜好，并对人物性格、人物关系和人物喜好进行编码得到每一目标人物的知识表征。

进一步地，在本申请实施例中，若提取不到每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征中的任一特征，则使用零向量替换任一特征。

步骤103，通过注意力机制将每一个目标视频片段中每一目标人物的文字特征、声音特征、视觉特征和知识表征进行情感增强处理后进行特征融合生成每一个目标视频片段中每一目标人物的融合特征。

步骤104，将每一个目标视频片段中每一目标人物的融合特征输入预设分类器得到每一个目标视频片段中每一目标人物的情感类型。

在本申请实施例中，对每一目标人物自身随着时间的情感传播，人际之间的情感传播以及聚合外部知识进行建模处理，解决可能存在的模态缺失问题。

需要说明的是，在获取样本视频，其中，样本视频包括标准情感类型；将样本视频输入至分类器以生成预测情感类型；以及根据标准情感类型和预测情感类型对分类器进行训练。

本申请实施例的视频多模态情感推理方法，通过获取待处理视频的多个目标视频片段；提取每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征，以及获取每一目标人物的知识表征；通过注意力机制将每一个目标视频片段中每一目标人物的文字特征、声音特征、视觉特征和知识表征进行情感增强处理后进行特征融合，对人物自身随着时间的情感传播，人际之间的情感传播以及聚合外部知识进行建模，解决可能存在的模态缺失问题，生成每一个目标视频片段中每一目标人物的融合特征；将每一个目标视频片段中每一目标人物的融合特征输入预设分类器得到每一个目标视频片段中每一目标人物的情感类型。由此，能够在模态缺失的情况下通过上下文和外部知识对人类情感进行推理，实现更加鲁棒的情感识别与推理。

图2为本申请实施例所提供的一种视频多模态情感推理方法的流程示例图。

如图2所示，给定一段视频、目标时刻以及目标人物，本方法通过以下步骤对该人物该时间的情感进行推理：

(1)视频分段

对于每个视频，首先按照视频中的对话，对视频进行切分。这样就得到了一系列的语音段。如果两个语音段中间的间隔较大，将这个间隔段作为只有视觉的新片段(简称视觉段)；如果间隔较小，那么将这个间隔与最近的语音段进行合并。这样，一个视频就由多个片段(语音段和视觉段)完全且不重复地覆盖。由于情感在短时内具有一定的稳定性，因此关于目标时刻的情感判断可以近似为目标片段的情感判断。对视频进行切分的好处是，在保持情感粒度的前提下，获得有语义的情感片段，更好地提取有意义的特征。

(2)多模态特征提取

对于视频中每个片段中的每个人，使用多种最前沿的特征提取工具，分别对其文字、声音和视觉模态进行特征提取。文字方面主要使用BERT(BidirectionalEncoderRepresentations from Transformers，来自变换器的双向编码器表征量)模型提取句子表征，共1024维；声音方面主要使用openSMILE(一个能进行语音识别的软件源码)提取声音情感表征，共6373维；视觉方面主要提取面部表征、物体表征和环境表征，共4302维。对于缺失的模态，统一使用零向量进行代替其表征。此外，对于文字、声音和视觉模态，分别构建一个编码器，对该模态的特征进行降维。编码器由一个三层的前馈神经网络组成，将每个模态的特征维度统一降至256维。此步骤主要使用最前沿的工具提取情感特征，是本方法的基础部分。

(3)知识聚合

本方法将对知识进行聚合，包括人物性格、人物关系、人物喜好等等。以人物性格为例，首先根据多种心理测试工具获得视频中人物的性格，并编码成人物的性格向量。将这个向量与每个模态的表征进行拼接，就形成了聚合了人物性格知识的模态特征。由此，能够利用上外部知识来加强表征。对于文字特征，还能够通过常识库，来对文字中提到的概念进行加强。

(4)模态层次上的情感传播

在每个模态上，本方法使用注意力机制对情感传播进行建模。具体地，首先，对每个片段、每个模态中，不同的人物的表征使用自注意力操作，来获得通过人物情感传播增强后的情感表征。其次，对每个人物、每个模态中，不同片段的表征使用自注意力操作，来获得时间情感传播增强后的情感表征。这样，通过时间及模态上的情感传播，即使在目标片段目标人物的模态缺失的情况下，本方法能够通过其他人物和上下时间的情感传播来补全该模态，从而大大增强其情感表征。此外，在这一过程中，本方法还隐式地考虑了人物之间的关系这一外部知识，因为(4)得到的特征与人物有关，那么就会在注意力机制的运行下将同时考虑不同角色之间的关系。

(5)多模态特征融合

经过在模态层次上的情感传播，单模态上的表征已经得到了大幅加强，因此进行多模态的特征融合，来得到目标片段所有人物的融合特征，即人物层次上的多模态融合特征。

(6)人物层次上的情感传播

得到人物层次的多模态融合特征后，本方法在人物层次上进行情感传播。具体地，对目标片段，不同的人物进行自注意力操作，从而增强目标片段中目标人物的情感表征。

最后，将经过知识聚合与情感传播增强后的情感表征放入分类器中，从而推理得到目标片段中目标人物的情感。通过外部知识与情感传播，对本来不显著的人物特征进行增强和补全，从而能够运用于复杂视频的人物情感识别。

为了实现上述实施例，本申请还提出一种视频多模态情感推理装置的结构示意图。

如图3所示，该装置包括：第一获取模块301、提取模块302、第二获取模块303、生成模块304和处理模块305。

第一获取模块301，用于获取待处理视频的多个目标视频片段。

提取模块302，用于提取每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征。

第二获取模块303，用于获取每一目标人物的知识表征。

生成模块304，用于通过注意力机制将每一个目标视频片段中每一目标人物的文字特征、声音特征、视觉特征和知识表征进行情感增强处理后进行特征融合，生成每一个目标视频片段中每一目标人物的融合特征；

处理模块305，用于将每一个目标视频片段中每一目标人物的融合特征输入预设分类器得到每一个目标视频片段中每一目标人物的情感类型。

进一步地，在本申请实施例的一种可能的实现方式中，还包括：

替换模块，用于若提取不到每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征中的任一特征，则使用零向量替换任一特征。

进一步地，在本申请实施例的一种可能的实现方式中，第一获取模块301，具体用于：

获取待处理视频的对话信息，按照对话信息对待处理视频进行切分得到多个语音片段；

若两个相邻时刻对应的语音片段的时间间隔大于预设阈值，则确定时间间隔对应的视频片段为视觉片段；

若两个相邻时刻对应的语音片段的时间间隔小于等于预设阈值，则将时间间隔对应的视频片段与两个相邻时刻对应的语音片段进行合并为目标视频片段。

进一步地，在本申请实施例的一种可能的实现方式中，提取模块302，具体用于：

提取每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征，包括：通过特征提取工具提取每一个目标视频片段中每一目标人物的句子向量，通过特征提取工具提取每一个目标视频片段中每一目标人物的声音情感向量，通过特征提取工具提取每一个目标视频片段中每一目标人物的面部向量、物体向量和环境向量，组成每一个目标视频片段中每一目标人物的视觉向量；

通过预设编码器对句子向量、声音情感向量、视觉向量进行降维处理得到每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征。

进一步地，在本申请实施例的一种可能的实现方式中，第二获取模块303，具体用于：

获取每一目标人物的知识表征，包括：

进一步地，在本申请实施例的一种可能的实现方式中，对人物自身随着时间的情感传播，人际之间的情感传播以及聚合外部知识进行建模，解决可能存在的模态缺失问题。

需要说明的是，前述对方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

本申请实施例的视频多模态情感推理装置，通过获取待处理视频的多个目标视频片段；提取每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征，以及获取每一目标人物的知识表征；通过注意力机制将每一个目标视频片段中每一目标人物的文字特征、声音特征、视觉特征和知识表征进行情感增强处理后进行特征融合，对人物自身随着时间的情感传播，人际之间的情感传播以及聚合外部知识进行建模，解决可能存在的模态缺失问题，生成每一个目标视频片段中每一目标人物的融合特征；将每一个目标视频片段中每一目标人物的融合特征输入预设分类器得到每一个目标视频片段中每一目标人物的情感类型。由此，能够在模态缺失的情况下通过上下文和外部知识对人类情感进行推理，实现更加鲁棒的情感识别与推理。

为了实现上述实施例，本申请实施例提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如前述终端设备执行方法实施例所述的视频多模态情感推理方法。

为了实现上述实施例，本申请实施例提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现前述方法实施例所述的视频多模态情感推理方法。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种视频多模态情感推理方法，其特征在于，包括以下步骤：

获取待处理视频的多个目标视频片段；

通过注意力机制将所述每一个目标视频片段中每一目标人物的所述文字特征、所述声音特征、所述视觉特征和所述知识表征进行情感增强处理后进行特征融合，生成所述每一个目标视频片段中每一目标人物的融合特征；

将所述每一个目标视频片段中每一目标人物的融合特征输入预设分类器得到所述每一个目标视频片段中每一目标人物的情感类型。

2.如权利要求1所述的视频多模态情感推理方法，其特征在于，所述获取待处理视频的多个目标视频片段，包括：

获取所述待处理视频的对话信息，按照所述对话信息对所述待处理视频进行切分得到多个语音片段；

若两个相邻时刻对应的语音片段的时间间隔大于预设阈值，则确定所述时间间隔对应的视频片段为视觉片段；

若所述两个相邻时刻对应的语音片段的时间间隔小于等于所述预设阈值，则将所述时间间隔对应的视频片段与所述两个相邻时刻对应的语音片段进行合并为目标视频片段。

3.如权利要求1所述的视频多模态情感推理方法，其特征在于，所述提取每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征，包括：

通过特征提取工具提取所述每一个目标视频片段中每一目标人物的句子向量；

通过特征提取工具提取所述每一个目标视频片段中每一目标人物的声音情感向量；

通过特征提取工具提取所述每一个目标视频片段中每一目标人物的面部向量、物体向量和环境向量，组成每一个目标视频片段中每一目标人物的视觉向量；

通过预设编码器对所述句子向量、所述声音情感向量、所述视觉向量进行降维处理得到所述每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征。

4.如权利要求1所述的视频多模态情感推理方法，其特征在于，通过注意力机制将所述每一个目标视频片段中每一目标人物的所述文字特征、所述声音特征、所述视觉特征和所述知识表征进行情感增强处理，包括：

对所述每一目标人物自身随着时间的情感传播，人际之间的情感传播以及聚合外部知识进行建模处理。

5.如权利要求1所述的视频多模态情感推理方法，其特征在于，所述获取每一目标人物的知识表征，包括：

获取每一目标人物的人物性格、人物关系和人物喜好，并对所述人物性格、所述人物关系和所述人物喜好进行编码得到每一目标人物的知识表征。

6.如权利要求3所述的视频多模态情感推理方法，其特征在于，还包括：

若提取不到所述每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征中的任一特征，则使用零向量替换所述任一特征。

7.如权利要求1所述的视频多模态情感推理方法，其特征在于，在

获取样本视频，其中，所述样本视频包括标准情感类型；

将所述样本视频输入至所述分类器以生成预测情感类型；以及

根据所述标准情感类型和所述预测情感类型对所述分类器进行训练。

8.一种视频多模态情感推理装置，其特征在于，包括：

第一获取模块，用于获取待处理视频的多个目标视频片段；

第二获取模块，用于获取每一目标人物的知识表征；

生成模块，用于通过注意力机制将所述每一个目标视频片段中每一目标人物的所述文字特征、所述声音特征、所述视觉特征和所述知识表征进行情感增强处理后进行特征融合，生成所述每一个目标视频片段中每一目标人物的融合特征；

处理模块，用于将所述每一个目标视频片段中每一目标人物的融合特征输入预设分类器得到所述每一个目标视频片段中每一目标人物的情感类型。

9.如权利要求8所述的装置，其特征在于，还包括：

替换模块，用于若提取不到所述每一个目标视频片段中每一目标人物的文字特征、声音特征和视觉特征中的任一特征，则使用零向量替换所述任一特征。

10.如权利要求8所述的装置，其特征在于，所述第一获取模块，具体用于：