CN116230019A

CN116230019A - 一种基于半监督语音情感识别框架的深度情感聚类方法

Info

Publication number: CN116230019A
Application number: CN202211472628.2A
Authority: CN
Inventors: 赵欢; 李俐璇; 查徐鹏; 王禹江
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-06-06

Abstract

本发明涉及一种基于半监督语音情感识别框架的深度情感聚类方法，属于语音情感识别技术领域，对输入的语料库中的音频进行预处理；使用Attn‑Convolution网络对预处理后的语音数据在空间上进行特征提取；使用BiGRU网络对预处理后的语音数据在时间上进行特征提取；将提取出的语音特征使用ADD函数进行特征融合；在聚类分类器模块中对未标记的数据集进行伪标签分配；在情感回归器中对每个句子i的语音片段s_ij进行回归预测；使用新的CCC‑CE联合损失作为回归器与分类器模型的损失函数。有益效果在于，使用较少未标记数据的模型框架比现有的半监督框架实现了更好的语音表示，并且在下游任务中优于最先进的方法。

Description

一种基于半监督语音情感识别框架的深度情感聚类方法

技术领域

本发明涉及一种基于半监督语音情感识别框架的深度情感聚类方法，属于语音情感识别技术领域。

背景技术

语音情感识别(SER)是根据说话者的语音信号判断其情绪状态的传统的分类任务。图像和文本的分类方法特别关注数据特征上的空间相关信息和时间上下文信息。由于语音数据的空间和时间特性，这些方法不适合提取情感特征。半监督方法试图通过揭示大量未标记数据的潜在模式来学习特定类型数据的背景知识，从而为标记模型训练提供有用的先验知识。在工作中研究了半监督学习框架上空间和时间语音数据提取的挑战，该框架有效地应用于语音情感的分类。SER任务有两个基本处理步骤：语音特征提取和情感属性分类。语音特征提取受计算机视觉(CV)和自然语言处理(NLP)领域以及语音数据特征的影响，涉及在各自空间中学习语音帧的全局特征和语音上下文特征和时间。例如，Chen,M.等人使用对数梅尔谱作为三维卷积的输入来捕获空间信息。在中，双向长短期记忆网络(BiLSTM)用于获取时间特征。在此之后的技术建立了一个同时包含卷积神经网络(CNN)和BiLSTM网络的模型，以在时间和空间上捕获信息。一种端到端的模式。对于时间信息，采用轻量级且长期可靠的网络双向门控循环单元(BiGRU)以双向方式学习语音上下文特征。情感属性分类进一步将提取的语音特征与任务目标相匹配。SER旨在分别在空间和时间维度上学习语音数据的情感特征。前者主要是从CV中的图像分类方法迁移而来，后者主要是借鉴了NLP中的自动编码器方法。对于提取语音空间特征的任务，现有技术使用预训练的AlexNet模型来学习SER的深度频谱特征。AAPB论文中直接设计了一个注意力池，为语音嵌入一个深度CNN，以增强学习空间特征的泛化能力。为了减少卷积计算和减轻内存需求，现有技术提出了一种新的扩张卷积并针对标准1D和2D过滤和卷积操作进行了调整。然而，这些卷积操作需要满足特定网络深度或池化层的要求才能访问全局信息。

半监督学习由学习特定领域背景知识的无监督学习过程和基于获得的背景知识初始化主干参数的监督学习过程组成。在CSSL相关论文中，提出了一种新的对比半监督学习方法，该方法通过对比损失来提高学习语音表示的稳定性。MTSSA的作者以无监督的方式重建语音数据，以增强模型的泛化能力，提高语音情感特征的表达能力。与这种丢失一些声学特征的重建方法相比，DeepEmoCluster由DeepCluster贡献，以使用k-means算法改进无监督学习特征。

语音情感识别(SER)根据说话者的语音信号确定说话者的情绪状态，是一项基本的分类任务。图像和文本的分类方法特别关注空间相关信息和时间相关信息，数据特征的上下文信息。考虑到语音数据的时空特征，这些方法不能用于完全提取情感特征。这是因为语音数据比图像具有更高的信息饱和度，比文本具有更高的时间连贯性。更具体地说，图像有两层(前景和背景)信息，其中背景信息通常是模型的噪声源，而语音数据(例如，频谱图)具有全景信息。随着语音的声学特性(例如强度和速度)，在任何两个相邻元素之间的强相关性，而文本缺少此属性。

发明内容

本发明的目的在于提出一种基于半监督语音情感识别框架的深度情感聚类方法，从而克服现有技术中的不足。

本发明的特征提取器将注意力机制结合到卷积处理中，以引入语音帧的全局空间特征，可以将其扩展到具有卷积操作的任意神经网络，并可以选择调整Attn-Convolution块的数量以应用数据规模。本发明提出了一个新的Attn-Convolution块，它在卷积操作中引入全局特征，而不施加网络深度限制。对于学习语音时间特征，大多数语音情感工作都受到NLP贡献的启发。例如，利用BiLSTM来学习语音帧的前向和后向上下文相关性。或者引入了一个门控循环单元(GRU)网络，该网络将语音嵌入总结为语音表示并减少学习参数。为了防止模型过度拟合并减少无监督学习所需的样本数量，使用BiGRU从前向和后向两个方向提取语音帧的上下文相关性。

本发明的技术内容在于，基于深度情感聚类方法的时空共同捕获的半监督语音情感识别框架，简称ACG-EmoCluster，包括以下方法：

步骤1，对输入的语料库中的音频进行预处理；

步骤2，使用由注意力机制与卷积操作搭建而成的深度学习网络，

简称Attn-Convolution网络，对预处理后的语音数据在空间上进行特征提取；

步骤3，使用由双向门控单元构建的深度学习网络，简称BiGRU网络，对预处理后的语音数据在时间上进行特征提取；

步骤4，将提取出的语音特征使用集成于pytorch框架的矩阵加和函数，简称ADD函数，进行特征融合；

步骤5，在聚类分类器模块中对未标记的数据集进行伪标签分配；

步骤6，在情感回归器中对每个句子i的语音片段s_ij进行回归预测，并将n个语音片段{s_i1，……，s_in}进行归一化后的结果作为句子i的预测结果；

步骤7，使用新的CCC-CE联合损失作为回归器与分类器模型的损失函数；CCC为相关一致性系数损失，用于情感回归器中；CE为交叉熵损失，用于聚类分类器中。

所述的步骤1还包括以下方法：

步骤1.1，使用第三方库librosa工具包从原始语音数据中提取128维的梅尔谱图的声学嵌入作为ACG-EmoCluster的输入，librosa是一个非常强大，可在pytorch环境中直接被调用于语音信号处理的第三方库；

步骤1.2，使用32毫秒窗口计算波形信号的幅度谱图，将融合32毫秒声学信息的频谱图作为128维的梅尔尺度滤波器的输入；

步骤1.3，计算滤波器组所有输出的均值和标准差；

步骤1.4，使用输出的均值和标准差对嵌入进行归一化；

步骤1.5，降低模型的输入维度，使用提出的块分割方法将归一化的频谱图均匀地划分为更小的子图，通过自适应地调整频谱块之间的重叠，将任意时长的语音序列分割成一组相同数量和维度的语音块；

步骤1.5.1，将D_max作为语音样本在数据集上的最大持续时间，t_c作为每个语音样本的可配置块长度，其C是每个样本的嵌入块数通过作用于D_max和t_c的上限函数：

步骤1.5.2，计算持续时间为D_i的语音i的分段块之间的步长Δc_i

所述的步骤2还包括以下方法：

步骤2.1，以句子i中切割好的n个语音片段{S_i1，……，S_in}作为ACG-EmoCluster模型框架的输入；

步骤2.2，将原始数据{S_i1，……，S_in}输入由注意力机制与卷积操作搭建而成的深度学习网络，简称Attn-Convolution网络中，其中网络使用的由注意力机制与卷积操作搭建而成的深度学习网络块，简称Attn-Convolution Block，的数量为4，组成Attn-Convolution网络，Block中的具体网络结构与处理步骤如下：

步骤2.2.1，以{S_i1，……，S_in}作为原始输入，同时输入一个卷积核大小为3*3的Convolution层与一个单头的自注意力机制；

步骤2.2.2，注意力机制中

其中Query_S为语音块s的查询矩阵，Key_S为语音块s的键矩阵，Value_S为语音块s的值矩阵；在自注意力机制中，Query_S,Key_S,Value_S均被赋值为同一矩阵；

中，S表示截取的语音块，i表示句子的索引，即该处为第i个句子的语音块，L_S表示该句子被切割后的语音片段数量，取值范围为[1,11]；

步骤2.2.3，计算Query_s,Key_s间的Cosine相似性：

其中Query_S为语音块s的查询矩阵，Key_S为语音块s的键矩阵，Value_S为语音块s的值矩阵；在自注意力机制中，Query_S,Key_S,Value_S均被赋值为同一矩阵；Similarity(Query_s,Key_s)表示使用Query_s,Key_s通过公式计算相关性，该公式名设定为Similarity；

步骤2.2.4，通过得到的相似性Similarity_qk，计算Softmax相关性得分

其中Query_S为语音块s的查询矩阵，Key_S为语音块s的键矩阵，Value_S为语音块s的值矩阵；在自注意力机制中，Query_S,Key_S,Value_S均被赋值为同一矩阵；Softmax(Query_s·Key_s)使用Query_s,Key_s通过公式计算一种不同于Similarity的相关性，该公式名设定为Softmax；Sim_qk为Similarity_qk的简称，L_S表示该句子被切割后的语音片段数量，取值范围为[1,11]；

步骤2.2.5，计算该片段S_ij的注意力值Attention：

步骤2.2.6，将从Convolution层中得到的空间局部特征MapF_Conv与从Attention得到的空间全局特征MapF_Attn，进行映射加和：

MapF_A-C＝Linear(512,MapF_Attn)+Linear(512,MapF_Conv)；

步骤2.2.7，将融合的空间特征MapF_A-C输入到一个Convolution层中进行特征提取强化，得到MapF_ACC；

其中Query_S为语音块s的查询矩阵，Key_S为语音块s的键矩阵，Value_S为语音块s的值矩阵；在本发明使用的自注意力机制中，Query_S,Key_S,Value_S均被赋值为同一矩阵；Convolution层为卷积操作层，MapF_Conv为经过卷积操作后获得的卷积特征映射图，MapF_Attn为经过注意力机制后获得的自注意力特征映射图，MapF_A-C表示将MapF_Attn与MapF_Conv进行加和操作之后获得的卷积-注意力特征映射图；Linear(512,MapF_Attn)表示使用线性层将MapF_Attn映射为512维度大小，Linear(512,MapF_Conv)表示使用线性层将MapF_Conv映射为512维度大小；MapF_ACC表示经过一个自注意力机制与两个卷积操作层所获得的特征映射图。

所述的步骤4还包括以下方法：

步骤4.1，将从Attn-Convolution网络中得到的MapF_ACClast与从BiGRU中得到的MapF_Temp，使用线性加和方法进行特征融合操作，得到提取器的最终特征向量输出：

MapF_ACG＝Linear(512,MapF_ACClast)+Linear(512,MapF_Temp)；

MapF_ACClast表示经过使用了若干个使用如图二所示的搭建方法构建的Attn-Convolution网络块而构成的网络，所获得的特征映射图；MapF_Temp表示经过了双向门控单元网络而获得的特征映射图；Linear(512,MapF_ACClast)表示使用线性层将MapF_ACClast映射为512维度大小，Linear(512,MapF_Temp)表示使用线性层将MapF_Temp映射为512维度大小。

所述的步骤7还包括以下方法：

步骤7.1，情感聚类分类器中将交叉熵损失CE用于分类任务，情感回归器将一致性相关系数CCC作为损失应用于回归任务；

步骤7.2，完成一种在语音情感识别上的多任务深度学习，因此将联合Loss＝(1-CCC)+λ×CE作为整体模型框架中的损失函数；

其中λ为控制情感聚类分类器在多任务学习时的重要程度，是一个可控的参数，本发明中设置为1；CCC为相关一致性系数损失，用于情感回归器中，CE为交叉熵损失，用于聚类分类器中，Loss指本发明中使用的损失函数。

本发明的有益效果在于，受DeepCluster框架的启发，该框架使用k-means迭代地对提取的语音特征进行聚类，然后使用学习的先验知识初始化模型的权重以用于下游任务。本发明提出了一种新的半监督框架，简称ACG-EmoCluster，用于学习语音数据的空间和时间特征。特别是，采用了一个语音特征提取器，它结合了Attn-Convolution神经网络和BiGRU，其中前者通过卷积运算与注意力机制获得语音帧的空间特征，而后者获得语音上下文特征。此外，为了学习语音数据的先验知识，聚类分类器使用k-means算法通过对提取的语音特征进行分组来分配伪标签。对于推断，通过学习的先验知识初始化的方法在语音情感识别的唤醒、支配和效价方面优于MSP-Podcast语料库上的全监督和半监督基线测试。在半监督学习的背景下，对获得的语音特征进行伪标记，为下游任务提供一些背景信息。使用较少未标记数据的模型框架比现有的半监督框架实现了更好的语音表示，并且在下游任务中优于最先进的方法。此外，所提出的Attn-Convolution块可以扩展到任何CNN架构。

附图说明

图1为本发明的框架结构示意图。

图2为由注意力机制与卷积操作搭建而成的深度学习网络块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念；此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。以下将参照附图更详细地描述本发明。图1展示了提出的引入全局信息与语义关联信息的深度情感聚类方法，它使用的是半监督学习框架。图2Attn-Convolution块中说明了ACG-EmoCluster的细节。在预训练期间，未标记的语音数据(例如15K)用于学习特定语音的先验知识。在推断中，由学习的先验知识初始化的主干是识别语音情感。

步骤1，对输入的语料库中的音频进行预处理；

所述的步骤1还包括以下方法：

步骤1.3，计算滤波器组所有输出的均值和标准差；

步骤1.4，使用输出的均值和标准差对嵌入进行归一化；

所述的步骤2还包括以下方法：

步骤2.2.2，注意力机制中

其中Query_S为语音块s的查询矩阵，Key_S为语音块s的键矩阵，Value_S为语音块s的值矩阵；在自注意力机制中，Query_S,Key_S,Value_S均被赋值为同一矩阵；/>

步骤2.2.3，计算Query_s,Key_s间的Cosine相似性：

步骤2.2.5，计算该片段S_ij的注意力值Attention：

MapF_A-C＝Linear(512,MapF_Attn)+Linear(512,MapF_Conv)；

所述的步骤4还包括以下方法：

MapF_ACG＝Linear(512,MapF_ACClast)+Linear(512,MapF_Temp)；

所述的步骤7还包括以下方法：

实施例包括以下步骤：

步骤一：预处理

1.使用librosa工具包从原始语音数据中提取128D梅尔谱图的声学嵌入作为ACG-EmoCluster的输入；

1.1使用32ms(毫秒)窗口计算波形信号的幅度谱图，将融合32ms(毫秒)声学信息的频谱图作为128D(维)梅尔尺度滤波器的输入；

1.2计算滤波器组所有输出的均值和标准差；

1.3使用输出的均值和标准差对嵌入进行归一化；

2.为了降低模型的输入维度，使用提出的块分割方法将归一化的频谱图均匀地划分为更小的子图。该方法可以自适应地调整频谱块之间的重叠，将任意时长的语音序列分割成一组相同数量和维度的语音块；

2.1等式1将D_max作为语音样本在数据集上的最大持续时间，t_c作为每个语音样本的可配置块长度，其C是每个样本的嵌入块数通过作用于D_max和t_c的上限函数；

2.2等式2中的程序计算持续时间为D_i的语音i的分段块之间的步长Δc_i；

2.3ACG-EmoCluster接受与输入大小相同的分段频谱图子图。在模型训练期间，所有子图都被分配与原始图匹配的相同样本级情感标签；

2.4模型直接使用经过平均运算后的输出特征作为语音的最终特征。对于最终的语音预测，将模型中所有子图的输出组合并平均。

步骤二：特征提取阶段

语音特征提取器由空间特征提取网络和时间提取网络组成。如图1所示，前者是由VGG-16网络的卷积块修改而来的网络，由Attn-Convolution块堆叠而成，后者是一个BiGRU；

图2展示了Attn-Convolution块具有两个卷积层和一个注意层。卷积层享有大小为3*3的标准卷积核，attention层受Transformer的影响，通过结合self-attention特征图和卷积特征将特征图的全局信息带入图点特征；

与常见的卷积块相比，Attn-Convolution块中每个图点的感受野是整个特征图，而不是大小为3*3的感受野。此外，将Attn-Convolution块推广到任何具有卷积层的神经网络，并考虑网络深度和数据规模将卷积块修改为Attn-Convolution块。对于时间提取网络，使用BiGRU来学习语音频谱图的上下文信息和情感表示的连贯性；

自然，在训练模型时，将Attn-Convolution网络和BiGRU网络特征作为语音特征。

步骤三：模型训练阶段

本发明训练有一个分类任务和一个回归任务。无监督语音特征学习的分类任务使用k-means算法为语音特征分配伪标签，以捕获特定语音的先验知识。这种学习策略有助于识别样本特征之间的差异，并专注于语音的局部细节。

使用为SER学习的先验知识初始化模型主干(即语音特征提取器)，然后对回归任务使用一致性相关系数损失函数来拟合情感标签。模型的损失函数由公式(3)Loss＝(1-CCC)+λ×CE

表示，其中CCC为一致性相关系数损失，CE为无监督聚类分类计算的交叉熵损失，参数λ表示显着性的无监督任务。在这项工作中，将它们视为平等的，即λ＝1。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种基于半监督语音情感识别框架的深度情感聚类方法，其特征在于，

基于深度情感聚类方法的时空共同捕获的半监督语音情感识别框架，简称ACG-EmoCluster，包括以下方法：

步骤1，对输入的语料库中的音频进行预处理；

步骤2，使用由注意力机制与卷积操作搭建而成的深度学习网络，简称Attn-Convolution网络，对预处理后的语音数据在空间上进行特征提取；

2.根据权利要求1所述的一种基于半监督语音情感识别框架的深度情感聚类方法，其特征在于，所述的步骤1还包括以下方法：

步骤1.1，使用第三方库librosa工具包从原始语音数据中提取128维的梅尔谱图的声学嵌入作为ACG-EmoCluster的输入；

步骤1.3，计算滤波器组所有输出的均值和标准差；

步骤1.4，使用输出的均值和标准差对嵌入进行归一化；

3.根据权利要求1所述的一种基于半监督语音情感识别框架的深度情感聚类方法，其特征在于，所述的步骤2还包括以下方法：

步骤2.2.2，注意力机制中

其中Query_S为语音块s的查询矩阵，Key_S为语音块s的键矩阵，Value_S为语音块s的值矩阵；在自注意力机制中，Query_S,Key_S,Value_S均被赋值为同一矩阵；s_iLS中，S表示截取的语音块，i表示句子的索引，即该处为第i个句子的语音块，L_S表示该句子被切割后的语音片段数量，取值范围为[1,11]；

步骤2.2.3，计算Query_s,Key_s间的Cosine相似性：

步骤2.2.5，计算该片段S_ij的注意力值Attention：

MapF_A-C＝Linear(512,MapF_Attn)+Linear(512,MapF_Conv)；

4.根据权利要求1所述的一种基于半监督语音情感识别框架的深度情感聚类方法，其特征在于，所述的步骤4还包括以下方法：

MapF_ACG＝Linear(512,MapF_ACClast)+Linear(512,MapF_Temp)；

5.根据权利要求1所述的一种基于半监督语音情感识别框架的深度情感聚类方法，其特征在于，所述的步骤7还包括以下方法：