CN112380395A

CN112380395A - 基于双流架构的图卷积网络的情感获取方法、系统及存储介质

Info

Publication number: CN112380395A
Application number: CN202011193601.0A
Authority: CN
Inventors: 青春美; 黄茂春; 徐向民
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-02-19
Anticipated expiration: 2040-10-30
Also published as: CN112380395B

Abstract

本发明公开了基于双流架构的图卷积网络的情感获取方法、系统及存储介质,包括对需要进行情感获取的视频进行数据切分，得到关键帧，将关键帧的人脸图像及相位差图像分别输入双流架构的空间流阶段及时间流阶段，得到空间流输出特征图及时间流输出特征图；将上述输出特征图进行混合得到人脸时空特征；以每个个体作为节点，创建情感图完成情感交互操作，捕捉不同个体的情感相互影响的关系，最终输出个体的交互情感特征；将交互情感特征分别与经过计算得到的场景特征进行拼接，得到视频中所有个体的最终情感特征，最后完成情感获取。本方法有效地解决视频中多个个体情感的计算，以及多个个体情感之间出现矛盾冲突时对整体情感计算准确度降低等问题。

Description

基于双流架构的图卷积网络的情感获取方法、系统及存储介质

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于双流架构的图卷积网络的情感获取方法、系统及存储介质。

背景技术

随着信息技术的发展，互联网已经成为涉及广泛主题的意见和情绪资源库，包括每个人分享的朋友圈、上传的短视频等等。而对这些信息的分析称之为情感计算或者情感分析，对人类感知、推理、厥词、计划和社交等诸多活动中有着极其重要的意义。虽然基于文本内容的情感分析已经有一定的进展，但基于视频内容的研究缺相对有所滞后。其研究重点主要在于时空特征的提取以及视频当中多模态数据的融合。

有学者提出了MIMAMO-Net,这个模型能够捕捉全局和局部的信息。其具体做法是在于以人脸初始帧为空间特征；按照设定好的数据来选择前后固定帧数的人脸数据，对这些数据求解相位差来反映时间信息。再经过类似于VGG的网络结构提取出时间特征；对空间特征和时间特征进行拼接从而实现了该帧的情感特征提取。对每一帧都如此操作，将得到的所有帧的情感特征输入到循环神经网络即可完成基于唤醒度(Arousal)和评价值(Valence)的情感评估。

也有学者提出了HFusion方法。该方法主要特点在于解决了视频中文本、情感、声音等模态的融合。其主要思想在于再提取出这三种模态的特征后，压缩到相同维度；然后在对对不同模态的特征先进行两两融合，最后再把所有模态特征融合。

除此之外，有学者不以视频中的每一帧作为最小处理单元，而是以每一句话作为最小处理单元。对每一句话提取出声音、人脸以及场景等特征进行拼接后，使用多层LSTM完成最终的二分类情感预测。

然而上述方法都没有很好考虑到视频中多个人之间的情感互动性与差异性，一段视频中当出现多个人时，每个人的情绪是会相互影响的。而已有的方法却往往仅通过个体一个人的表情来计算情感，忽略了不同个体之间的情感互动。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种基于双流架构的图卷积网络的情感获取方法、系统及存储介质。

本发明提取出各个个体脸部的基本表情、微表情以及场景等特征，利用图卷积网络捕捉不同个体之间情感的交互性，并使用循环神经网络完成视频前后文理解。最终实现高效且准确的不同个体在视频中的情感计算工作。

本发明采用如下技术方案：

一种基于双流架构的图卷积网络的情感获取方法，包括如下步骤：

对需要进行情感获取的视频进行数据切分，得到关键帧，对关键帧进行人脸图像提取，及相应的相位差图像，将人脸图像及相位差图像分别输入双流架构的空间流阶段及时间流阶段，得到空间流输出特征图及时间流输出特征图；

将空间流输出特征图及时间流输出特征图进行混合得到人脸时空特征；

以每个个体作为节点，创建情感图并使用基于注意力的图卷积网络完成情感交互操作，捕捉不同个体的情感相互影响的关系，最终输出个体的交互情感特征；

将视频中所有个体的交互情感特征分别与经过计算得到的场景特征进行拼接，得到视频中所有个体的最终情感特征；

把最终情感特征输入到GRU网络当中，捕捉视频前后文关系，完成视频中所有个体的情感获取。

进一步，所述对需要进行情感获取的双流进行数据切分，得到关键帧，对关键帧进行人脸图像提取，及相应的相位差图像，分别输入双流架构的空间流阶段及时间流阶段，具体为：

首先将视频下采样至合适比例，然后每隔m帧使用一次OpenFace toolkit对当前帧完成单个人脸提取，并获得相应相位差，将提取出来的单个人脸裁剪到224×224大小，输入双流架构；

空间流阶段以当前帧以及后面n个帧作为输入，而时间流阶段则以当前帧以及后面连续n个帧的相位差作为输入。

进一步，空间流阶段及时间流阶段均通过两次卷积得到空间流输出特征图及时间流输出特征图。

进一步，将空间流输出特征图及时间流输出特征图进行混合得到表情时空流特征，具体是采用视频通过注意力模块，过程为：

首先对空间流特征和时间流特征使用卷积网络提取特征后，对得到的两个特征图层进行点对点对应元素相加，得到新的特征图；

对新的特征图使用全局平均池化，得到特征图通道注意力权重，将通道注意力权重输入到单层前馈神经网络，通过训练捕捉视频通道之间的注意力大小。

进一步，所述场景特征具体是以当前帧的整张图片为输入，使用经过预训练的ResNet网络和全连接层，输出即为场景特征。

进一步，以每个个体作为节点，创建情感图并使用基于注意力的图卷积网络完成情感交互操作，捕捉不同个体的情感相互影响的关系，最终输出个体的交互情感特征；

具体为：

完成情感图卷积：首先创建情感图，其节点为视频当前帧中出现的每个个体，其对应节点特征为不同个体的人脸时空流特征，同时基于一个单层前馈神经网络，计算出情感之间的相关性，得到不同节点与其他节点情感互动关系的比重，经过图卷积网络后，得到单个节点与其他节点经过交互后的情感图，最终输出个体的交互情感特征。

进一步，所述最终情感特征包括基本表情特征、表情变化特征及场景特征。

将同一个节点所对应的个体时空人脸特征，以及场景特征进行拼接，即完成了单个个体与其他个体产生情感交互后的基本表情、表情变化以及场景等特征融合提取工作。

进一步，GRU网络为双向且具有128个隐藏单元。

一种存储介质，存储有程序，程序被处理器执行时，实现所述的情感获取方法。

一种基于双流架构的图卷积网络的情感获取系统，包括：

数据获取模块：对需要进行情感获取的视频进行数据切分，得到关键帧，对关键帧进行人脸图像提取，及相应的相位差图像；

人脸时空特征获取模块：人脸图像提及相应的相位差图像分别输入双流架构的空间流阶段及时间流阶段，得到空间流输出特征图及时间流输出特征图，将空间留输出特征图及时间流输出特征图进行混合得到人脸时空特征；

图卷积网络模块：以每个个体作为节点，创建情感图并使用基于注意力的图卷积网络完成情感交互操作，捕捉不同个体的情感相互影响的关系，最终输出个体的交互情感特征；

个体情感特征获取模块：将视频中所有个体的交互情感特征分别与经过计算得到的场景特征进行拼接，得到视频中所有个体的最终情感特征；

个体情感获取模块：把最终情感特征输入到GRU网络当中，捕捉视频前后文关系，完成视频中所有个体的情感获取。

本发明的有益效果：

本发明的技术方案主要分为三部分,分别是视频数据切分、多个体时空特征提取以及基于图卷积网络的情感交互融合方法,运用合适的视频数据切分能够降低数据处理量，提高实时性。而多个体时空特征提取则能够准确提取出视频中单个个体的人脸宏观表情以及围观表情变化。而情感交互融合方法则可模拟不同个体之间的情感交互，从而提升情感特征的准确性，有效地解决视频中多个个体情感的计算，以及多个个体情感之间出现矛盾冲突时对整体情感计算准确度降低等问题。

附图说明

图1是本发明实施例提供的视频数据切分示意图；

图2是本发明实施例提供的多人脸时空特征示意图；

图3是本发明实施例提供的视频通道注意力模块示意图；

图4是本发明实施例提供的一种基于图卷积网络的情感交互融合方法的示意图；

图5是本发明实施例的完整流程图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1

如图1-图5所示，一种基于双流架构的图卷积网络的情感获取方法，用于视频中多个个体的情感计算工作，并能够理解不同个体之间的情感交互性，包括争执、交谈、拥抱等情感交互性行为。本发明主要包括多个体时空特征提取、基于图卷积网络的情感交互融合方法，具体包括如下步骤：

S1如图1所示，将视频采样至每秒十二帧后，每隔六帧使用OpenFace toolkit完成视频中多个个体的人脸图像及相应的相位差，将提取出来的单个人脸重新裁剪到224×224。

S2在空间流阶段以当前帧以及后面连续12个帧作为输入，而时间流阶段则以当前帧以及后面连续12个帧的相位差作为输入，分别经过两次卷积得到空间流输出特征图及时间流输出特征图。

S3使用视频通道注意力模块将空间流输出特征图及时间流输出特征图进行混合得到人脸时空特征，具体为：

首先对空间流特征和时间流特征进行点对点对应元素相加，得到新的特征图；

对新的特征图使用全局平均池化，得到一个向量，对这个向量进行计算^1，即可得到新的通道注意力权重；

具体为：

然后这个注意力权重跟原来的特征图相乘，就可以得到新的特征图，具体是将通道注意力权重输入到单层前馈神经网络，通过训练捕捉视频通道之间的注意力大小。

具体计算公式如下：

s＝σ(W₂ReLU(W₁z))

其中

即通过一层全连接层后实现降维，使用ReLU激活后，再使用全连接层恢复原始维度。

本实施例中，平均池化操作后得到2048维的向量，并使用两层全连接层最终压缩至256维，得到人脸时空特征。

同理输入其他人脸后，最终可以得到多个个体人脸时空特征。

S4以每个个体作为节点，创建情感图并使用基于注意力的图卷积网络完成情感交互操作，捕捉不同个体的情感相互影响的关系，最终输出个体的交互情感特征；

包括：完成情感图卷积。首先创建情感图，其节点为视频当前帧中出现的每个个体，其对应节点特征即为经过方法提取到的不同个体人脸时空流特征。同时基于一个单层前馈神经网络，计算出情感之间的相关性，并使用softmax归一化，从而计算出出不同节点与其他节点情感互动关系的比重。经过图卷积网络后，网络输出为单个节点与其他节点经过交互后的情感图。

本实例的具体操作为：

S4.1如图3所示，首先创建情感图，将当前帧提取出来的不同个体作为节点。其节点属性为对应个体的人脸时空流特征。所有节点相连接，构成全连接图。从而完成空间流情感图创建。

S4.2：在情感图中，设单个节点特征为H,训练权重为W。首先计算节点之间的注意力关系如下：

其中

表示为注意力权重向量，||表示拼接操作，α_(i,j)表示第i个节点和第j个节点之间的情感互动权重。求得情感互动权重之后，使用图卷积公式如下：

for i＝1,2,...，N

其中σ()为激活函数，这里使用ReLU函数。W⁽²⁾是个可训练的权重矩阵。公式体现了在全连接图中，所有其余节点情感特征与当前节点情感特征进行交互的过程。经过一层图卷积网络，一般情况就能较好实现情感交互。输出为新的人脸空间流特征。

S5将视频中所有个体的交互情感特征分别与经过计算得到的场景特征进行拼接，得到视频中所有个体的最终情感特征；

所述场景特征提取。以当前帧的整张图片为输入，使用经过预训练的ResNet网络完成特征提取，对最后一层卷积层输出使用平均池化操作，得到2048维向量，并使用两层全连接层最终压缩至256维，完成场景特征提取操作。

然后将同一个节点所对应的个体时空人脸特征，以及场景特征进行拼接，在经过一层全连接层，得到256维的个体情感特征。即完成了单个个体与其他个体产生情感交互后的基本表情、表情变化以及场景等特征融合提取工作。

S6把最终情感特征输入到双向且具有128个隐藏单元的GRU网络(循环神经网络)当中，这个网络结合了整个视频序列的片段信息，生成一个128维的特征向量f_i，t，将f_i，t输入到一个全连接层，输出即为t时刻，i对应个体的情感。同理可得到其他个体情感。

本发明实施例上述方案，使用双流架构捕捉人脸表情基本信息以及表情变化信息，表征能力强。同时为了克服传统双流架构中时间流和空间流信息没有混合，各自单独训练导致情感计算结果较低的问题，引入视频通道注意力模块。其好处在于在保留自身特征图分布的同时，还能够进行时空信息混合。最终使用图卷积网络充分捕捉不同个体之间情感之间的交互性，能够识别和处理不同个体出现冲突情感时情感计算出现消融的问题。而情感本身是具有互动性的，即情感是可以相互影响的。也进一步贴合人类实际感受，提升了情感计算的准确性。

实施例2

一种基于双流架构的图卷积网络的视频情感获取系统，包括：

实施例3

一种存储介质，存储有程序，程序被处理器执行时，实现所述的双流情感获取方法，所述方法包括：

包括如下步骤：

将视频中所有个体的交互情感特征分别与经过计算得到的场景特征进行拼接，得到视频中所有个体的最终情感特征；把最终情感特征输入到GRU网络当中，捕捉视频前后文关系，完成视频中所有个体的情感获取。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于双流架构的图卷积网络的情感获取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的情感获取方法，其特征在于，所述对需要进行情感获取的双流进行数据切分，得到关键帧，对关键帧进行人脸图像提取，及相应的相位差图像，分别输入双流架构的空间流阶段及时间流阶段，具体为：

首先将视频下采样至合适比例，然后每隔m帧使用一次OpenFace toolkit对当前帧完成单个人脸提取，并获得相应相位差，将提取出来的单个人脸重新裁剪到224×224大小，输入双流架构；

3.根据权利要求2所述的情感获取方法，其特征在于，空间流阶段及时间流阶段均通过两次卷积得到空间流输出特征图及时间流输出特征图。

4.根据权利要求1所述的情感获取方法，其特征在于，将空间流输出特征图及时间流输出特征图进行混合得到表情时空流特征，具体是采用视频通过注意力模块，过程为：

5.根据权利要求1所述的情感获取方法，其特征在于，所述场景特征具体是以当前帧的整张图片为输入，使用经过预训练的ResNet网络和全连接层，输出即为场景特征。

6.根据权利要求1所述的情感获取方法，其特征在于，以每个个体作为节点，创建情感图并使用基于注意力的图卷积网络完成情感交互操作，捕捉不同个体的情感相互影响的关系，最终输出个体的交互情感特征；

具体为：

7.根据权利要求1所述的情感获取方法，其特征在于，所述最终情感特征包括基本表情特征、表情变化特征及场景特征；

8.根据权利要求1所述的情感获取方法，其特征在于，GRU网络为双向且具有128个隐藏单元。

9.一种存储介质，存储有程序，其特征在于，程序被处理器执行时，实现权利要求1-8任一项所述的情感获取方法。

10.一种基于双流架构的图卷积网络的情感获取系统，其特征在于，包括：