CN117953915A

CN117953915A - 一种基于CTC-Conformer的语音情绪识别方法

Info

Publication number: CN117953915A
Application number: CN202410089324.0A
Authority: CN
Inventors: 王翔; 武晓光
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2024-01-22
Filing date: 2024-01-22
Publication date: 2024-04-30

Abstract

本发明属于自然语言处理领域，具体是一种基于CTC‑Conformer的语音情绪识别方法。通过结合CTC的硬对齐特性以及Conformer软对齐特性来提高语音情绪的识别准确率。并且在特征提取环节加入语音特征融合技术增强了识别特征的全面性。该方法包含语音数据的预处理，其中包含预加重、分帧、快速傅里叶变换的操作，再者将提取的MFCC以及Fbank特征进行融合。搭建模型将Conformer Encnder作为Shared Enconder，CTC以及Conformer Deconder分别解码进行训练，最后识别阶段将两通道CTC结果以及Conformer Deconder结果进行投票处理得出最终的识别结果。

Description

一种基于CTC-Conformer的语音情绪识别方法

技术领域

本发明自然语言处理领域，具体是一种基于CTC-Conformer的语音情绪识别方法。

背景技术

语音是人类之间最快速、最高效的一种交流手段，也是最悠久的一种交流方式，最早可以追溯到原始社会时期，随着人工智能的发展，语音交流已经不再是人类独有的专利，自从苹果公司在2011年10月份发布iphone 4s时宣布语音助手Siri的诞生，人类便开始真正迈进通过语音与人机进行交互的时代。

语音信号是人类之间最快，最自然的通信方式，这促使研究人员将语音视为一种快速有效的人机交互方式。语音情绪识别从说话者的语音中提取说话人的情绪状态，它是交互式智能系统的重要组成部分。语音情感识别一般是由三部分组成，包括语音信号采集、情感特征提取以及情感识别。

语音信号中包含了多方面的信息，对这些信息进行进一步加工处理可以用于许多研究，包括自动语音识别、说话人识别等。现有的语音情绪识别研究能够做到从同一段语音中提取多种声学特征，但却没有考虑到不同的声学特征侧重点不尽相同，单一的使用某种特征作为研究对象无法做到充分利用音频信号中的信息，这样也会使得情绪识别准确率不能明显提升。

发明内容

针对现有技术的缺点，本发明提供了一种基于CTC-Conformer的语音情绪识别方法，将CTC硬对齐特性以及Conformer中多头注意力机制的软对齐特性相结合，以提高育婴包含情绪的识别准确率，同时在提取语音特征的过程中将MFCC与Fbank相融合，增强语音特征的全面性。该方法使用Conformer Enconder作为Shared Enconder，Confomer模型包含前馈神经、卷积以及多头注意力机制多重网络，使得特征更容易被学习，更容易被优化。在通过使用预处理的数据集训练模型后，在识别时，通过CTC得到结果A，通过Conformer得到结果B，两者进行投票处理得到最终结果。该方法包含以下步骤：

步骤1)对语音情绪数据集进行预处理。

步骤2)提取语音特征Fbank以及MFCC并进行融合。

步骤3)构建模型，结合CTC硬对齐特性以及Conformer软对齐特性，传入融合特征进行模型的训练。

步骤4)识别阶段，传入音频通过提取特征并进行融合后，传入模型，经CTC得到结果A，经Conformer得到结果B，进行投票处理后得到最终结果。

进一步地，步骤1)具体为：

步骤101)选择交互式情感二元运动捕捉数据库(IEMOCAP)作为实验所用数据集，该数据集包含6类情绪：Neutral，Happiness，Sadness，Anger，Frustrated，Excited。

步骤102)划分数据集，分别将80％的数据用于训练，20％的数据用于验证。

步骤103)当将IEMOCAP的语音统一到相同长度，这里统一到2秒，即把一条语音切分成2秒一段，重叠1.6秒；不足2秒的语音用0补充。

进一步地，步骤2)语音特征融合方法具体为：

步骤201)对统一长度的语音数据，进行语音的特征提取，包括预加重、分帧、加窗、傅里叶变换等操作。

步骤202)语音数据在进行加窗之后进行傅里叶变换，通过Mel滤波器组(取12维)得到Fbank特征。

步骤203)在Fabnk的特征上增加一个离散余弦变换得到Mfcc特征(取40维)，最后将Mfcc嵌入到Fbank中进行融合。

进一步地，步骤3)具体为：

步骤301)采用PyTorch作为深度学习框架进行模型的搭建和训练。

步骤302)将Conformer Enconer作为Shared Eneonder，包含前馈，多头注意力、卷积等多层网络。

步骤303)Conformer中的多头注意力机制，多头注意力中头的数量为8个，计算公式如下：

head_i＝Attention(Q_i，K_i，V_i)，i＝1，...，h

Multi(Q，K，V)＝Concat(head₁，...，head_h)W^o

其中h代表的是head的数量，Q、K和V则是MFCCs特征经过位置编码和投影后得到参数，以及/>是第i个head对应于Q、K和V的训练参数，之后得到了每个head对应的Q_i、K_i以及V_i，head_i为第i个head经过自注意力计算后的值，W^o为参数矩阵，Multi(Q，K，V）代表h个head对应的多头注意力的值。

步骤304)一边使用CTC进行解码，使语音特征与标签一一对应，可以理解为硬对齐，其CTC loss计算公式如下：

其中Alian(L|x)表示表示所有将长度为S的序列对齐到长度为T的输入序列的方式，P(π|x)表示经网络输出语音数据每种情绪的概率。

步骤305)一边使用Conformer Deconder进行解码，通过Conformer的多头注意力机制分配权重，实现软对齐，使用PyTorch中的交叉熵损失函数来计算Conformer的损失。其公式如下所示：

步骤306)在每个epoch中，将训练好的权重文件及其对应的损失值保存下来。在训练过程中及时发现模型训练的效果，并选择损失值最低的权重文件作为最佳模型。这个步骤可以有效地提高模型的准确率和泛化能力。

步骤307)使用20％的数据验证集准确率来评估分类器的性能。准确率是指模型预测正确的样本数(真阳性和真阴性)占样本总数的比例。准确率越高，表示模型的分类性能越好。其公式如下所示：

其中，TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性。

进一步地，所述步骤4)具体为：

步骤401)待识别语音数据经过步骤1进行预处理获得若干条较短的语音片段，并将这些语音片段作为待识别的音频数据样本。

步骤402)按照步骤3从上述的音频数据样本中提取2种特征，并将两种特征进行融合

步骤403)融合后的语音特征传入网络，经过CTC解码器得到结果A，经过Conformer解码器得到结果B，其中结果A与B为两通道分别预测的各语音情绪的概率，最后将结果A与结果B进行投票处理得到最终识别结果。

有益效果

(1)本发明是一种基于CTC-Conformer的语音情绪识别方法，首先在特征提取环节，我们提取40维的Fbnak特征，并在Fbank的基础上进行离散余弦变换提取12维的MFCC特征，最后将两种融合拓宽特征的全面性。

(2)本发明利用CTC算法的硬对齐特性以及Conformer中多头注意力机制的软对齐特性进行结合，互补以提高模型的性能。

附图说明

图1为本发明的识别流程示意图；

图2为本发明对CTC-Conformer的模型框架图；

具体实施方式

本发明公开了一种基于CTC-Conformer的语音情绪识别方法，用于解决日益发展的语音识别领域中说话人包含的情绪未识别或者识别准确率低等问题。此外，该方法通过对MFCC以及Fbank语音特征的融合拓宽语音特征的全面性，通过利用CTC的硬对齐特性以及注意力机制的软对齐特性提高模型识别准确率。

为了使本技术领域的人员更好地理解本发明方案，本文结合附图和具体实施方式对本发明进行了进一步详细的说明。需要指出的是，所描述的实施例仅是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域的普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

具体而言，参照图1所示，该语音情绪识别方法包括以下步骤：

步骤1)对语音情绪数据集进行预处理。对数据集进行处理，包括以下步骤：

步骤103)当将IEMOCAP的语音统一到相同长度，这里统一到2秒，即把一条语音切分成2秒一段，重叠1.6秒：不足2秒的语音用0补充。

步骤2)提取语音特征Fbank以及MFCC并进行融合，包括以下步骤：

步骤3)建模型，结合CTC硬对齐特性以及Conformer软对齐特性，传入融合特征进行模型的训练。包括以下步骤：

步骤302)将Conformer Enconer作为Shared Enconder，包含前馈，多头注意力、卷积等多层网络。

head_i＝Attention(Q_i，K_i，V_i)，i＝1，...，h

Multi(Q，K，V）＝Concat(head₁，...，head_h)W^o

其中h代表的是head的数量，Q、K和V则是MFCCs特征经过位置编码和投影后得到参数，以及/>是第i个head对应于Q、K和V的训练参数，之后得到了每个head对应的Q_i、K_i以及V_i，head_i为第i个head经过自注意力计算后的值，W^o为参数矩阵，Multi(Q，K，V)代表h个head对应的多头注意力的值。

本方法通过结合CTC的硬对齐特性以及Conformer软对齐特性来提高语音情绪的识别准确率。并且在特征提取环节加入语音特征融合技术增强了识别特征的全面性。该方法包含语音数据的预处理，其中包含预加重、分帧、快速傅里叶变换的操作，再者将提取的MFCC以及Fbank特征进行融合。搭建模型将Conformer Encnder作为Shared Enconder，CTC以及Conformer Deconder分别解码进行训练，最后识别阶段将两通道CTC结果以及ConformerDeconder结果进行投票处理得出最终的识别结果。该方法具有技术先进性。

需要注意的是，以上的实施例仅用于说明本发明的技术方案，而非对其做出限制。虽然参照了前述实施例对本发明进行了详细的说明，但本领域的普通技术人员应当理解，他们仍然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于CTC-Conformer的语音情绪识别方法，融合语音特征并将CTC软对齐以及Conformer软对齐特征结合，其特征是包括以下步骤：

步骤1)对语音情绪数据集进行预处理。

步骤2)提取语音特征Fbank以及MFCC并进行融合。

2.根据权利要求1所述的一种基于CTC-Conformer的语音情绪识别方法，其特征在于，所述步骤1中语音情绪数据集的处理步骤具体如下：

201)选择交互式情感二元运动捕捉数据库(IEMOCAP)作为实验所用数据集，该数据集包含6类情绪：Neutral，Happiness，Sadness，Anger，Frustrated，Excited。

202)划分数据集，分别将80％的数据用于训练，20％的数据用于验证。

203)将IEMOCAP的语音统一到相同长度，这里统一到2秒，即把一条语音切分成2秒一段，重叠1.6秒；不足2秒的语音用0补充。

3.根据权利要求1所述的一种基于CTC-Conformer的语音情绪识别方法，其特征在于，所述步骤2中语音特征融合方法具体如下：

301)对统一长度的语音数据，进行语音的特征提取，包括预加重、分帧、加窗、傅里叶变换等操作。

302)语音数据在进行加窗之后进行傅里叶变换，通过Mel滤波器组(取12维)得到Fbank特征。

303)在Fabnk的特征上增加一个离散余弦变换得到Mfcc特征(取40维)，最后将Mfcc嵌入到Fbank中进行融合。

4.根据权利要求1所述的一种基于CTC-Conformer的语音情绪识别方法，其特征在于，所述步骤3模型的构建、训练参数及分类性能评估指标如下：

401)采用PyTorch作为深度学习框架进行模型的搭建和训练。

402)将Conformer Enconer作为Shared Enconder，包含前馈，多头注意力、卷积等多层网络。

403)Conformer中的多头注意力机制，多头注意力中头的数量为8个，计算公式如下：

head_i＝Attention(Q_i，K_i，V_i)，i＝1，…，h

Multi(Q，K，V)＝Concat(head₁，…，head_h)W^o

404)一边使用CTC进行解码，使语音特征与标签一一对应，可以理解为硬对齐，其CTCloss计算公式如下：

405)一边使用Conformer Deconder进行解码，通过Conformer的多头注意力机制分配权重，实现软对齐，使用PyTorch中的交叉熵损失函数来计算Conformer的损失。其公式如下所示：

406)在每个epoch中，将训练好的权重文件及其对应的损失值保存下来。在训练过程中及时发现模型训练的效果，并选择损失值最低的权重文件作为最佳模型。这个步骤可以有效地提高模型的准确率和泛化能力。

407)使用20％的数据验证集准确率来评估分类器的性能。准确率是指模型预测正确的样本数(真阳性和真阴性)占样本总数的比例。准确率越高，表示模型的分类性能越好。其公式如下所示：

5.根据权利要求1所述的一种基于CTC-Conformer的语音情绪识别方法，其特征在于，所述步骤4识别阶段，具体步骤如下：

501)待识别语音数据经过步骤1进行预处理获得若干条较短的语音片段，并将这些语音片段作为待识别的音频数据样本。

502)按照步骤3从上述的音频数据样本中提取2种特征，并将两种特征进行融合

503)融合后的语音特征传入网络，经过CTC解码器得到结果A，经过Conformer解码器得到结果B，其中结果A与B为两通道分别预测的各语音情绪的概率，最后将结果A与结果B进行投票处理得到最终识别结果。