CN110147548B

CN110147548B - 基于双向门控循环单元网络和新型网络初始化的情感识别方法

Info

Publication number: CN110147548B
Application number: CN201910298018.7A
Authority: CN
Inventors: 宦若虹; 鲍晟霖; 葛罗棋; 谢超杰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2023-01-31
Anticipated expiration: 2039-04-15
Also published as: CN110147548A

Abstract

一种基于双向门控循环单元网络和新型网络初始化的情感识别方法，提取文本、视觉和音频三个模态的高维特征并按字级对齐，进行归一化处理，输入至双向门控循环单元网络进行训练，采用网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化，采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取，将两个池化后的特征向量进行拼接作为全连接网络的输入特征，将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络，得到各个模态的情感强度输出。本发明能克服长期依赖问题，提高双向门控循环单元网络在训练中的鲁棒性，提高基于情感时间上下文信息的情感识别准确率。

Description

基于双向门控循环单元网络和新型网络初始化的情感识别方法

技术领域

本发明涉及文本处理、音频处理、视觉处理、特征提取、深度学习、循环神经网络、情感识别等领域，尤其涉及一种情感识别方法。

背景技术

情感识别是自然语言处理领域的一个研究热点，情感识别的主要挑战是能够对发言者的情感进行连续的、实时的分析。从语言角度对情感进行建模的方法有很多，包括关注有意见的固定单词、N-gram语言模型、情感构成与基于依赖的分析，以及情绪的分布表征。基于音频和视觉情感识别与多模态情感分析密切相关。音频和视觉特征都被证明在情感识别中是有用的，并且联合使用面部表情和音频信息是近年来许多研究的焦点。

视频中发言者说的每句话都是在不同的时间，以特定的顺序说出来的。因此，视频可以被看作是一系列的话语。这就与任何其他序列分类问题一样，视频中的序列话语可能在很大程度上与上下文情境相关，从而影响发言者的情绪分布。人类对情感的识别很大程度上受到上下文情境信息的影响。在记录人的内心情感状态时，人的内心情感会随着时间的推移发生细微或强烈的变化，这些内心情感可以通过人的外在表现流露出来。具体可以表现为人在当前时刻的内心情感和过去时刻的内心情感以及未来时刻的内心情感具有相关性。面部表情是表达情感的重要渠道，通常被认为是一个人心理状态的投射。人们普遍认为面部表情的情感识别能力会随着上下文情境的联系而提高。综上所述，在研究情感识别时，需要充分考虑到上下文信息以提高情感识别的正确性和鲁棒性。

随着深度体系结构模型设计和学习算法的快速发展，深度学习方法已经广泛用于情感识别。循环神经网络在许多顺序数据处理任务中显示出相当大的成功，因而被应用在基于情感时间上下文信息的情感识别方法中。

发明内容

为了克服现有的基于情感时间上下文信息的情感识别方法训练过程中出现的长期依赖，容易在反向传播过程中出现梯度消散或梯度爆炸的问题，以及默认的网络模型参数不能在训练过程中学习到最佳的有用信息的问题，本发明提出基于双向门控循环单元(Bi-GRU)网络和新型网络初始化的情感识别方法，该方法能克服长期依赖问题，并调优深度ReLU网络模型的初始化参数，提高双向门控循环单元网络在训练中的鲁棒性，提高基于情感时间上下文信息的情感识别准确率。

本发明解决其技术问题所采用的技术方案是：

一种基于双向门控循环单元网络和新型网络初始化的情感识别方法，所述方法包括以下步骤：

步骤1，提取文本、视觉和音频三个模态的高维特征；

步骤2，将视觉和音频模态的高维特征与文本模态的高维特征按字级对齐，并对文本、视觉和音频三个模态的高维特征进行归一化处理；

步骤3，将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别输入至双向门控循环单元网络进行训练，采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化，采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取，将两个池化后的特征向量进行拼接作为全连接网络的输入特征；

步骤4，将待识别的文本、视觉和音频输入训练后的各个模态的双向门控循环单元网络，得到各个模态的情感强度输出。

进一步，所述步骤1中，提取文本、视觉和音频三个模态的高维特征，过程为：提取文本特征为

其中T_l是意见发言视频中的单词数，l_t表示300维Glove单词嵌入向量特征；使用FACET面部表情分析框架提取FACET视觉特征为

其中，T_v是视频的总帧数，在第j帧提取的p个视觉特征为

使用COVAREP声学分析框架提取COVAREP音频特征为

其中，T_a是音频的分段帧数，在第j帧提取的q个声学特征为

更进一步，所述步骤2中，将视觉和音频模态的高维特征与文本模态的高维特征进行按字级对齐，并对文本、视觉和音频三个模态的高维特征进行归一化处理，过程为：文本模态提取的Glove特征的维度是(T_l,300)，视频模态提取的FACET特征的维度是(T_v,p)，音频模态提取的COVAREP特征的维度是(T_a,q)，其中，T_l是意见发言视频中的单词数，T_v是视频的总帧数，p为视觉特征个数，T_a是音频的分段帧数，q为声学特征个数，将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段T_l个单词进行对齐，记录第i个单词发言的开始时间和结束时间，分别从视觉和音频模态中提取该段时间中所有帧的高维特征，根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征；此时文本、视觉和音频三个模态的高维特征已对齐，定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数T_l，即文本高维特征维度为(T_l,300)，视觉高维特征维度为(T_l,p)，音频高维特征的维度是(T_l,q)；对文本、视觉和音频三个模态的高维特征进行归一化处理，归一化处理为分别找到三个模态高维特征的最大值，三个模态的高维特征分别除以该模态下特征的最大值，将特征数据映射到0到1范围之内的小数。

更进一步，所述步骤3中，采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化，过程为：对全连接网络的权重参数W初始化，使其符合正态分布，并将偏置项b设置为常数0，见式(1)所示：

b＝0 (1)

其中，

是期望为0，标准差为

的正态分布，n_in是输入的神经元个数；对双向门控循环单元网络中输入层至隐藏层的权重参数W_ih初始化，使其符合正态分布，对隐藏层至隐藏层的权重参数W_hh正交初始化，将输入层至隐藏层的偏差b_ih和隐藏层至隐藏层的偏差b_hh设置为常数0，见式(2)所示：

W_hh～Q

b_ih＝0

b_hh＝0 (2)

其中，hiddensize是双向门控循环单元网络的隐藏状态的特征数，

是期望为0，标准差为

的正态分布，Q是单位正交矩阵，其特征值绝对值等于1。

更进一步，所述步骤3中，采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取，将两个池化后的特征向量进行拼接作为全连接网络的输入特征，过程为：经过双向门控循环单元网络对高维特征的上下文信息充分地学习后得到网络输出的状态信息为

其中，

和

分别为双向门控循环单元网络在i(1≤i≤T_l)时刻的前向状态输出和后向状态输出，T_l为字级对齐后三个模态的高维特征个数，采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取，分别提取高维表征向量max(H)和avg(H)，按以下公式计算：

将两个池化后的特征向量进行拼接，可以得到表征向量h⁺，按以下公式计算：

h⁺＝[max(H),avg(H)] (4)

h⁺作为全连接网络的输入特征，全连接层执行特征加权操作，将学到的高维特征映射到样本标记空间，具体计算公式如下所示：

y＝W_yh⁺+b_y (5)

其中W_y是与h⁺相关的权重参数，b_y是与h⁺相关的偏差，y是单模态网络的情感强度输出。

本发明的有益效果为：克服长期依赖问题，并调优深度ReLU网络模型的初始化参数，提高双向门控循环单元网络在训练中的鲁棒性，提高基于情感时间上下文信息的情感识别准确率。

附图说明

图1为本发明的一种基于双向门控循环单元网络和新型网络初始化的情感识别方法流程图。

图2为文本特征输入双向门控循环单元网络的网络结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

参照图1和图2，一种基于双向门控循环单元网络和新型网络初始化的情感识别方法，包括以下步骤：

步骤1，提取文本、视觉和音频三个模态的高维特征；

提取文本特征为

其中T_l是意见发言视频中的单词数，本实施例中，T_l＝20，l_t表示300维Glove单词嵌入向量特征；使用FACET面部表情分析框架提取FACET视觉特征为v＝{v₁,v₂,v₃,...,v_Tv}，其中，T_v是视频的总帧数，在第j帧提取的p个视觉特征为

本实施例中，p＝46；使用COVAREP声学分析框架提取COVAREP音频特征为

其中，T_a是音频的分段帧数，在第j帧提取的q个声学特征为

本实施例中，q＝74。

步骤2，对三个模态高维特征字级对齐并归一化处理；

文本模态提取的Glove特征的维度是(20,300)，视频模态提取的FACET特征的维度是(T_v,46)，音频模态提取的COVAREP特征的维度是(T_a,74)，其中，20是意见发言视频中的单词数，T_v是视频的总帧数，46为视觉特征个数，T_a是音频的分段帧数，74为声学特征个数，将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段20个单词进行对齐，记录第i个单词发言的开始时间和结束时间，分别从视觉和音频模态中提取该段时间中所有帧的高维特征，根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征；此时文本、视觉和音频三个模态的高维特征已对齐，定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数20，即文本高维特征维度为(20,300)，视觉高维特征维度为(20,46)，音频高维特征的维度是(20,74)；对文本、视觉和音频三个模态的高维特征进行归一化处理，归一化处理为分别找到三个模态高维特征的最大值，三个模态的高维特征分别除以该模态下特征的最大值，将特征数据映射到0到1范围之内的小数。

步骤3，双向门控循环单元网络学习；

将字级对齐和归一化处理后的文本、视觉和音频三个模态的高维特征分别作为双向门控循环单元网络的输入，以文本模态网络为例，文本特征

输入到双向门控循环单元网络中，l_t表示300维Glove单词嵌入向量特征，定义

为双向门控循环单元网络前向计算时的计算公式，

为双向门控循环单元网络后向计算时的计算公式，可得文本模态网络的计算公式如下所示：

其中

和

分别作为双向门控循环单元网络在t时刻的前向状态输出和后向状态输出，

为t-1时刻的前向状态输出，

为t+1时刻的后向状态输出，网络结构图如附图2所示。

采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化，对全连接网络的权重参数W初始化，使其符合正态分布，并将偏置项b设置为常数0，见式(7)所示：

b＝0 (7)

其中，

是期望为0，标准差为

的正态分布，n_in是输入的神经元个数，本实施例中n_in＝300；对双向门控循环单元网络中输入层至隐藏层的权重参数W_ih初始化，使其符合正态分布，对隐藏层至隐藏层的权重参数W_hh正交初始化，将输入层至隐藏层的偏差b_ih和隐藏层至隐藏层的偏差b_hh设置为常数0，见式(8)所示：

W_hh～Q

b_ih＝0

b_hh＝0 (8)

是期望为0，标准差为

的正态分布，Q是单位正交矩阵，其特征值绝对值等于1。

经过双向门控循环单元网络对高维特征的上下文信息充分地学习后得到网络输出的状态信息

T_l＝20，采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取。池化层使用重叠汇聚技术，通过池化来降低双向门控循环单元网络输出的状态信息特征向量维度，分别提取高维表征向量max(H)和avg(H)，按以下公式计算：

其中，T_l＝20，将两个池化后的特征向量进行拼接，可以得到表征向量h⁺，按以下公式计算：

h⁺＝[max(H),avg(H)] (10)

h⁺作为全连接网络的输入特征。全连接层执行特征加权操作，将学到的高维特征映射到样本标记空间，具体计算公式如下所示：

y＝W_yh⁺+b_y (11)

表1是采用CMU-MOSI数据集对文本、视觉和音频三个模态数据进行情感识别的结果，包括了二元情感分类、七元情感分类和情感强度回归。二元情感分类采用准确率和F1分数来衡量识别性能，七元情感分类采用准确率来衡量识别性能，情感强度回归采用平均绝对误差MAE和皮尔逊积矩相关系数γ来衡量识别性能。

表1

显而易见，在不偏离本发明的真实精神和范围的前提下，在此描述的本发明可以有许多变化。因此，所有对于本领域技术人员来说显而易见的改变，都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。

Claims

1.一种基于双向门控循环单元网络和新型网络初始化的情感识别方法，其特征在于：所述方法包括以下步骤：

步骤1，提取文本、视觉和音频三个模态的高维特征；

所述步骤3中，采用一种新型的网络初始化方法对各个模态网络训练初期的双向门控循环单元网络和全连接网络的权重进行初始化，过程为：对全连接网络的权重参数W初始化，使其符合正态分布，并将偏置项b设置为常数0，见式(1)所示：

b＝0 (1)

其中，

是期望为0，标准差为

W_hh～Q

b_ih＝0

b_hh＝0 (2)

是期望为0，标准差为

的正态分布，Q是单位正交矩阵，其特征值绝对值等于1；

2.如权利要求1所述的一种基于双向门控循环单元网络和新型网络初始化的情感识别方法，其特征在于：所述步骤1中，提取文本、视觉和音频三个模态的高维特征，过程为：提取文本特征为

其中，T_v是视频的总帧数，在第j帧提取的p个视觉特征为

使用COVAREP声学分析框架提取COVAREP音频特征为

其中，T_a是音频的分段帧数，在第j帧提取的q个声学特征为

3.如权利要求1或2所述的一种基于双向门控循环单元网络和新型网络初始化的情感识别方法，其特征在于：所述步骤2中，将视觉和音频模态的高维特征与文本模态的高维特征进行按字级对齐，并对文本、视觉和音频三个模态的高维特征进行归一化处理，过程为：文本模态提取的Glove特征的维度是(T_l,300)，视频模态提取的FACET特征的维度是(T_v,p)，音频模态提取的COVAREP特征的维度是(T_a,q)，其中，T_l是意见发言视频中的单词数，T_v是视频的总帧数，p为视觉特征个数，T_a是音频的分段帧数，q为声学特征个数，将视频和音频模态的高维特征分别与文本模态的Glove特征按照每个意见发言分段T_l个单词进行对齐，记录第i个单词发言的开始时间和结束时间，分别从视觉和音频模态中提取该段时间中所有帧的高维特征，根据这段时间里每个模态的采样总数得到每个模态的平均特征作为对应模态的高维特征；此时文本、视觉和音频三个模态的高维特征已对齐，定义三个模态高维特征的个数都为对齐前文本模态的高维特征个数T_l，即文本高维特征维度为(T_l,300)，视觉高维特征维度为(T_l,p)，音频高维特征的维度是(T_l,q)；对文本、视觉和音频三个模态的高维特征进行归一化处理，归一化处理为分别找到三个模态高维特征的最大值，三个模态的高维特征分别除以该模态下特征的最大值，将特征数据映射到0到1范围之内的小数。

4.如权利要求1或2所述的一种基于双向门控循环单元网络和新型网络初始化的情感识别方法，其特征在于：所述步骤3中，采用最大池化层和平均池化层对双向门控循环单元网络输出的状态信息进行特征提取，将两个池化后的特征向量进行拼接作为全连接网络的输入特征，过程为：经过双向门控循环单元网络对高维特征的上下文信息充分地学习后得到网络输出的状态信息为

其中，

和

h⁺＝[max(H),avg(H)] (4)

y＝W_yh⁺+b_y (5)