CN113112994A

CN113112994A - 基于图卷积神经网络的跨语料库情感识别方法

Info

Publication number: CN113112994A
Application number: CN202110427721.0A
Authority: CN
Inventors: 金赟; 杨子秀; 俞佳佳; 戴妍妍; 马勇; 李世党
Original assignee: Jiangsu Normal University
Current assignee: Jiangsu Normal University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-13
Anticipated expiration: 2041-04-21
Also published as: CN113112994B

Abstract

本发明公开了一种基于图卷积神经网络的跨语料库情感识别方法，适用于语音情感识别领域使用。获取两个具有情感标签的音频数据库，两选取部分样本删除情感标签，对两个音频数据库的音频进行特征提取，得到多个情感特征组，建立图卷积神经网络模型，然后将GCN中每个节点与与之距离最近节点之间构成边，最终将节点和边连接构成一张新的图，音频定义为GCN的节点输入两层的图卷积神经网络，将有情感标签和无情感标签的音频放入图卷积神经网络进行训练，最终通过语音情感标签概率完成情感识别。其步骤简单，实现了跨多个数据库训练，有效提高训练后图卷积神经网络的准确率。

Description

基于图卷积神经网络的跨语料库情感识别方法

技术领域

本发明涉及一种跨语料库情感识别方法，尤其适用于语音情感识别领域使用的一种基于图卷积神经网络的跨语料库情感识别方法。

背景技术

语音情感识别技术已经成为人机和谐交互的目标，随着科学技术的发展，对语音情感识别技术提出了更高的要求。在诸多领域都有了广泛的应用，在教学领域，具有情感识别能力的计算机远程教学系统，识别学生情绪，提高教学质量；在临床医学领域，拥有语音情感识别能力的计算机帮助孤僻症患者反复练习情感交流，逐渐康复。

传统的语音情感识别技术都是基于单个语料库，在两种不同的情感语料库中识别效果很差。往往在实践中，训练和测试的语料库是不相同的。因此跨语料库情感识别面临着很大的挑战。如何在多个不相同的语料库之间进行准确的情感识别，是目前需要解决的一个重要问题。

发明内容

发明目的：针对上述技术问题，本发明提出了一种基于图卷积神经网络的跨语料库情感识别的方法，对不同语料库都具有良好的适用性，且识别结果更准确。

技术方案：为实现上述技术目的，本发明所述的一种基于图卷积神经网络的跨语料库情感识别方法，其特征在于步骤如下：

S1获取两个音频数据库，两个音频数据库中的每条音频都具有一个情感标签，一个音频数据库作为训练数据集，另一个作为测试数据集，其中测试数据集分成多份，取一份作为测试样本，删除该份测试样本中语音的情感标签形成无标签的测试样本，；

S2利用若干声学低维描述子对两个音频数据库中的音频进行特征提取，得到多个情感特征组，并将多个情感特征组成向量作为对应语音的特征向量；

S3建立图卷积神经网络模型GCN，将每条音频定义为GCN的节点，其中包括无标签的的音频，将GCN中每个节点与与之距离最近节点之间构成边，最终将节点和边连接构成一张新的图，这张新的图把有标签数据、无标签数据和测试数据连接了起来，将新图输入两层的图卷积神经网络，；

S4将已知情感标签的训练数据集中的样本和无标签的测试样本一起放入S3中获得的卷积神经网络模型继续训练，测试测试数据集中未删除情感标签的样本，采用softmax分类器进行分类，得到未删除情感标签的测试样本的标签分类；

S5无标签的测试样本悬链后得到语音情感标签概率，softmax输出最大概率的情感标签，结合预测出语音的情感分类，输出情感分类即为从语音中识别出来的情感。

步骤S2具体包括：

S2.1对于Berlin库和eNTERFACE库中的音频，计算其34个声学低维描述子值和对应增量参数；所述34个声学低维描述子分别为：响度、梅尔频率倒谱系数0-14、梅尔频带对数功率0-7、8个线谱对频率、平滑的基频轮廓线和最终基频候选的发声概率；4个基于音高的低级描述子和对应增量参数、最后附加音高的数量和总输入的持续时间；所述4个基于音高的低级描述子分别为：基频频率、2个抖动和闪烁；描述子来源于INTERDPEECH2010Emotion Challenge提供的功能集；

S2.2对于每个音频，利用openSMILE软件分别对其34个声学低维描述子进行21种统计函数处理，所述21种统计函数分别为为求最大值和最小值的绝对位置、平均值、斜率、偏移量、误差、标准偏差、偏度、峰度、3个第一四分位数、3个四分位数间距、最大值、最小值和两个时间百分比；对其4个基于音高的低级描述子进行19种统计函数处理，所述的19种统计函数不包括上述21个函数中的最小值和范围；

S2.3将S2.2中计算得到的每个值作为一个情感特征，并将35*2*21+4*2*19+2＝1582个情感特征组成向量作为对应音频的特征向量，并将每个特征值归一化到0-1之间，四舍五入取整。

步骤S3具体包括：

S3.1由于两个音频数据库空间分布不同，所以运用LDA(线性判别分析)，将有标签的样本按照标签信息投影到一起，形成4维数据，运用PCA(主成分分析)，将没有标签的样本降维投影到低维子空间，形成50维数据；

S3.2在投影后的平面上计算每个节点与其他节点之间的欧式距离，得到每个节点与与之距离最近点的id，点与点之间距离的关系构成图的边，LDA(线性判别分析)的投影构成一张图，PCA(主成分分析)的投影构成一张图，在两个图中选择5个不同情感的点一一连接，将两张图构成一张完整的图；

S3.3将节点和边构成的图输入到两层的图卷积神经网络中，图卷积将未知标签的特征通过邻接矩阵传到已知标签的特征节点上，利用已知标签节点的分类器进行分类测试；

进一步的，图卷积神经网络模型中的传播方式为：

式中，

是加上自连接的邻接矩阵，在和特征矩阵X相乘时就不会忽略该节点自己的特征，I_N是单位矩阵。

是

的度矩阵，

W^(l)是权值矩阵，σ是激活函数，类似于ReLU；

S3.4在投影构成的图上的卷积为频域卷积，利用图的傅里叶变换实现卷积；利用图的拉普拉斯矩阵计算出频域上的拉普拉斯算子，再类比频域上欧式空间的卷积，从而得到图卷积的公式，利用拉普拉斯矩阵L(L＝D-A)替代拉普拉斯算子和特征向量x，形成图的傅里叶变换，具体为：

L＝UΛU^T

U＝(u₁,u₂,…,u_n)

U是归一化图拉普拉斯矩阵L的特征向量矩阵，根据以上卷积和傅里叶变换相结合，在投影构成的图的频域卷积可以写成：

在整个投影构成的图的N个节点上做卷积，那么得到的图的卷积为：

将欧式空间上的卷积和图上的卷积进行对比，两者非常相似，f是特征函数，g是卷积核：

(f*g)＝f^-1[F[f]⊙F[g]]

(f*Gg)＝U(U^Tf⊙U^Tg)＝u(U^Tg⊙U^Tf)

我们将U^Tg看成是用于频域卷积神经网络的卷积核，写成g_θ，那么图上卷积的最终公式为：

(f*Gg)_θ＝Ug_θU^Tf

最后，一般的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量，计算量很大，所以提出用切比雪夫多项式来加快特征矩阵的求解；

假设切比雪夫多项式的第k项是T_k，频域卷积核为：

其中：T_k(x)＝2xT_k-1(x)-T_k-2(x)，T₀(x)＝1和T₁(x)＝x，

可以归一化特征向量矩阵。所以投影构成的图的卷积公式变为：

其中

可以发现(UΛU^T)^k＝UΛ^kU^T，它是一个拉普拉斯式的k阶多项式，它只依赖于中心节点k阶邻域内的节点。

步骤S3.3具体包括：

使用一个对称邻接矩阵A，两层GCN，在投影构成的图进行半监督节点分类：

首先将

进行预处理，采用了简单模型：

其中，W⁽⁰⁾是输入层到隐藏层的权重，W⁽¹⁾是隐藏层到输出层的权重，采用两种不同的激活函数ReLU和softmax，在半监督分类中，评估所有标签样本的交叉熵误差：

式中，y_L是有标签的样本集.。.

有益效果：本方法的跨语料库情感识别的方法用一个有标签的数据库训练去测试另一个没有标签的数据库，使用部分测试数据库中的数据和训练数据集一起训练去测试测试数据库中剩下的数据，实现在两个数据库中跨库学习，因此本方法对于不同环境有拥有良好的适用性，识别结果更准确，也能更好地比较不同语言之间的情感的相似性和差异性。

附图说明

图1是本发明提供的基于图卷积神经网络的跨语料库情感识别方法的流程示意图。

图2是本发明提供的图卷积神经网络的模型示意图。

具体实施方式

下面结合附图对本发明的实施例做进一步说明：

如图1所示，本法民的一种基于图卷积神经网络的跨语料库情感识别的方法，包括以下步骤：

(1)获取两个音频数据库，分别作为训练数据集和测试数据集，将测试数据集平均划分成10份，选取其中的9份作为无标签样本和训练数据集一起训练，剩下的1份作为测试样本。在本实施例中，我们使用情感语音识别中常见的两类语音情感数据库：Berlin和eNTERFACE。Berlin库有7种情感：中性、害怕、生气、高兴、悲伤、厌恶和无聊，一共有535句语句。eNTERFACE库有6种情感：害怕、生气、高兴、悲伤、厌恶和惊喜，一共有1166个视频。我们选取Berlin库和eNTERFACE库具有的5种相同情绪：害怕、生气、高兴和悲伤，一共1395条语句，进行训练和测试。

(2)利用若干声学低维描述子对Berlin库和eNTERFACE库中的音频进行特征提取，得到1582维特征，并将多个情感特征组成向量作为对应语音的特征向量。

该步骤具体包括：

(2-1)对于Berlin库和eNTERFACE库中的音频，计算其34个声学低维描述子值和对应增量参数；所述34个声学低维描述子分别为：响度、梅尔频率倒谱系数0-14、梅尔频带对数功率0-7、8个线谱对频率、平滑的基频轮廓线和最终基频候选的发声概率；4个基于音高的低级描述子和对应增量参数、最后附加音高的数量和总输入的持续时间；所述4个基于音高的低级描述子分别为：基频频率、2个抖动和闪烁；描述子来源于INTERDPEECH2010Emotion Challenge提供的功能集；

(2-2)对于每个音频，利用openSMILE软件分别对其34个声学低维描述子进行21种统计函数处理，所述21种统计函数分别为为求最大值和最小值的绝对位置、平均值、斜率、偏移量、误差、标准偏差、偏度、峰度、3个第一四分位数、3个四分位数间距、最大值、最小值和两个时间百分比；对其4个基于音高的低级描述子进行19种统计函数处理，所述的19种统计函数不包括上述21个函数中的最小值和范围；

(2-3)将统计得到的每个信息(2-2中计算得到的每个值)作为一个情感特征，并将35*2*21+4*2*19+2＝1582个情感特征组成向量作为对应音频的特征向量，并将每个特征值归一化到0-1之间，四舍五入取整。

(3)建立图卷积神经网络模型，将每条音频看成节点，每个节点与与之距离最近节点之间构成边，将节点和边构成的图输入到两层的图卷积神经网络中，图卷积将未知标签的特征传到已知标签的特征节点上，利用已知标签节点的分类器进行分类测试。

(3-1)其中，要求出每个节点与与之距离最近点的id，需要用到LDA(线性判别分析)和PCA(主成分分析)，进行半监督判别分析，LDA计算过程：

数据集D＝{(x₁,y₁),(x₂,y₂),…,(x_m,y_m)}，其中x_i为n维向量，y_i∈{C₁,C₂,…,C_k}，定义N_j(j＝1,2,…,k)为第j类样本的个数，X_j(j＝1,2,…,k)为第j类样本的集合，μ_j(j＝1,2,…,k)为第j类样本的均值，∑_j(j＝1,2,…,k)为第j类样本的协方差矩阵。

(3-1-1)利用下式计算类内散度S_w：

(3-1-2)利用下式计算类间散度S_b：

(3-1-3)计算矩阵

求出其最大的d个特征值和对应的d个特征向量(w₁,w₂,…,w_d)得到投影矩阵W，LDA目标函数定义为：

其中W为n*d的矩阵，目标函数J(W)的优化过程可以转化为：

最大值是矩阵

的最大值特征值，最大的d个值得乘积就是矩阵

的最大的d个特征值的乘积，此时W矩阵为这最大的d个特征值对应的特征向量张成的矩阵。

(3-1-4)对样本集中的每一样本特征x_i，转化为新的样本z_i＝W^Tx_i

(3-1-5)得到输出样本集D'＝{(z₁,y₁),(z₂,y₂),…,(z_m,y_m)}

(3-2)PCA的计算过程：

首先输入数据集X＝{x₁,x₂,x₃,…,x_n}

(3-2-1)去平均值，即每一个特征值减去各自的平均；

(3-2-2)计算协方差矩阵

(3-2-3)用特征值分解方法求协方差矩阵

的特征值和特征向量；

(3-2-3)对特征值从大到小排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为行向量组成特征矩阵p；

(3-2-4)将数据转换到k个特征向量构建的新空间中，即Y＝PX；

其中，图卷积神经网络模型中的传播方式为：

式中，

是加上自连接的邻接矩阵，在和特征矩阵X相乘时就不会忽略该节点自己的特征，I_N是单位矩阵，

是

的度矩阵，

W^(l)是权值矩阵，σ是激活函数，类似于ReLU等；

(3-3)在图步骤(3)中构成的新图上的卷积我们考虑到的是频域卷积，利用图的傅里叶变换实现卷积。简单来讲，就是用图的拉普拉斯矩阵计算出频域上的拉普拉斯算子，再类比频域上欧式空间的卷积，就得到图卷积的公式。使用拉普拉斯矩阵L(L＝D-A)替代拉普拉斯算子和特征向量x，形成图的傅里叶变换。图是无向图，L是对称矩阵，分解为:

L＝UΛXU^T

U＝(u₁,u₂,…,u_n)

U是归一化图拉普拉斯矩阵L的特征向量矩阵，根据以上卷积和傅里叶变换相结合，在步骤(3)中构成的图上的频域卷积可以写成：

在整个新图的N个节点上做卷积，那么得到的图的卷积为：

(f*g)＝F^-1[F[f]⊙F[g]]

(f*Gg)＝U(U^Tf⊙U^Tg)＝u(U^Tg⊙U^Tf)

我们将U^Tg看成是用于频域卷积神经网络的卷积核，写成g_θ，那么新图上卷积的最终公式为：

(f*Gg)_θ＝Ug_θU^Tf

最后，一般的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量，计算量很大，所以提出用切比雪夫多项式来加快特征矩阵的求解。假设切比雪夫多项式的第k项是T_k，频域卷积核就变成：

其中：T_k(x)＝2xT_k-1(x)-T_k-2(x)，T₀(x)＝1和T₁(x)＝x，

可以归一化特征向量矩阵，所以新图上的卷积公式又变为：

其中

其中，两层的卷积神经网络，使用一个对称邻接矩阵A，两层GCN(图卷积神经网络)，在新图上进行半监督节点分类。首先将

进行预处理，采用了简单模型：

其中，W⁽⁰⁾是输入层到隐藏层的权重，W⁽¹⁾是隐藏层到输出层的权重。第一层采用激活函数ReLU，第二层采用激活函数softmax。在半监督分类中，我们评估所有标签样本的交叉熵误差：

式中，y_L是有标签的样本集.

本实施例还提供了一种基于图卷积神经网络的跨语料库情感识别装置，包括处理器及存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

为验证本发明的有效性，在语音情感数据库Berlin和eNTERFACE数据库上我们分别进行了实验。在实验中，我们将两个数据库分别作为源域和目标域，其中源域是作为训练集提供训练数据和部分标签，目标域是作为测试集，提供测试数据和标签。在我们的实验中，要通过两种方案进行分析。源语料库可以包含目标语料库没有标签的样本信息。如方案1：用eNTERFACE库训练去测试Berlin库，在eNTERFACE库训练的过程中加上Berlin库一部分没有标签的样本。方案2：用Berlin库训练去测试eNTERFACE库，在Berlin库训练过程中加上eNTERFACE库一部分没有标签的样本。我们对训练过程中含有无标签样本的个数对实验影响进行了多次试验，评价标准为Accuracy。

实验预期，基于本发明提出的基于图卷积神经网络的跨语料库情感识别方法，取得了比较好的跨数据库情感识别率。

Claims

1.一种基于图卷积神经网络的跨语料库情感识别方法，其特征在于步骤如下：

S3建立图卷积神经网络模型GCN，将每条音频定义为GCN的节点，其中包括无标签的音频，将GCN中每个节点与与之距离最近节点之间构成边，最终将节点和边连接构成一张新的图，这张新的图把有标签数据、无标签数据和测试数据连接了起来，将新图输入两层的图卷积神经网络，；

2.根据权利要求1所述的基于图卷积神经网络的跨语料库情感识别方法，其特征在于：步骤S2具体包括：

S2.1对于Berlin库和eNTERFACE库中的音频，计算其34个声学低维描述子值和对应增量参数；所述34个声学低维描述子分别为：响度、梅尔频率倒谱系数0-14、梅尔频带对数功率0-7、8个线谱对频率、平滑的基频轮廓线和最终基频候选的发声概率；4个基于音高的低级描述子和对应增量参数、最后附加音高的数量和总输入的持续时间；所述4个基于音高的低级描述子分别为：基频频率、2个抖动和闪烁；描述子来源于INTERDPEECH 2010EmotionChallenge提供的功能集；

3.根据权利要求1所述的基于图卷积神经网络的跨语料库情感识别方法，其特征在于：步骤S3具体包括：

进一步的，图卷积神经网络模型中的传播方式为：