CN114566189B

CN114566189B - 基于三维深度特征融合的语音情感识别方法及系统

Info

Publication number: CN114566189B
Application number: CN202210454745.XA
Authority: CN
Inventors: 李太豪; 郑书凯; 刘逸颖; 阮玉平; 岳鹏程
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-10-04
Anticipated expiration: 2042-04-28
Also published as: CN114566189A

Abstract

本发明属于人工智能领域，涉及基于三维深度特征融合的语音情感识别方法及系统，该方法包括：步骤一，采集开源数据集得到预训练的识别网络模型和经过去噪处理的干净情感语音音频；步骤二，对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络，得到深度声谱图特征；步骤三，将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型，分别得到深度音素特征和深度声纹特征，后与深度声谱图特征融合；步骤四，将步骤三融合后的特征输入自注意力卷积块，生成深度复合特征，再进行注意力权重叠加后通过两层全连接层输出，经分类网络层分类识别出语音情感。本发明有效解决低资源训练模型导致的语音情感识别准确率低的问题。

Description

基于三维深度特征融合的语音情感识别方法及系统

技术领域

本发明属于人工智能领域，涉及一种基于三维深度特征融合的语音情感识别方法及系统。

背景技术

基于语音交互的口语对话系统成为当下一种普遍使用的人机交互技术，这种人机交互方式的目标在于构建一个具备类似人类思考能力的机器人，以便能够以类人的方式与人交互，并在交互过程中完成各种任务。而通过语音进行说话人的情感识别是拟人机器人的一项重要功能。

当前主流的语音情感识别方法基本都是基于深度神经网络的方法，其主要优点是能够利用深度神经网络的自学习能力，从语音数据中直接学习并提取语音情感识别相关的特征，并进行分类，不但避免了人工设计特征的繁杂工作，也通过这种数据驱动的方式，大大提升了情感识别的精度。

但是对于深度神经网络语音情感识别技术而言，标注数据对模型性能直接起到了关键作用，人工标注语音情感数据是非常困难的，往往需要进行复杂的培训才能进行，所以导致了语音情感识别数据缺乏的问题。而少量数据训练的网络模型通常泛化性比较差，导致其在实际使用中，情感识别准确率低下，难以真正落地。

发明内容

为了解决现有技术中存在的上述技术问题，本发明基于语音情感与说话人本身的嗓音特征以及说话的发音内容强相关的特点，提出了一种基于三维深度特征融合的语音情感识别方法及系统，通过在大数据集上预训练的声纹模型和语音识别模型，提取先验的和说话人相关的声纹特征以及和说话内容相关的音素特征进行融合，并结合使用复数网络提取的声谱图特征，最后通过多层卷积网络和注意力网络进行语音情感识别，通过这种引入先验知识的方法，提供网络模型的泛化性，有效解决低资源训练模型导致的语音情感识别准确率低的问题。其具体技术方案如下：

基于三维深度特征融合的语音情感识别方法，包括以下步骤：

步骤一，采集开源语音识别数据集和声纹识别数据集并训练分别得到预训练的语音识别网络模型和声纹识别网络模型，再采集开源情感语音数据集后进行去噪处理得到干净情感语音音频；

步骤二，对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络，得到深度声谱图特征；

步骤三，将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型，分别得到深度音素特征和深度声纹特征，后与深度声谱图特征融合；

步骤四，将步骤三融合后的特征输入自注意力卷积块，生成深度复合特征，再进行注意力权重叠加后通过两层全连接层输出，经分类网络层分类识别出语音情感。

进一步的，所述步骤一具体包括以下子步骤：

步骤S1，通过网络搜索开源的语音识别数据集，并使用该数据集训练DeepSpeech3语音识别网络模型，得到预训练的语音识别网络模型

；

步骤S2，通过网络搜索开源的声纹识别数据集，表示为声纹识别数据

；

步骤S3，构建声纹识别网络模型，并用步骤S2得到的数据

进行声纹识别网络模型训练，得到预训练的声纹识别网络模型

；

步骤S4，从网络收集开源的情感语音数据集，通过维纳滤波器进行去噪后，得到干净情感语音音频

。

进一步的，所述声纹识别网络模型由3层，维度为256的双向长短期记忆网络堆叠，加上两层维度分别为256和7的全连接层构成。

进一步的，所述步骤二具体包括以下子步骤：

步骤S5，将干净情感语音音频

进行短时傅里叶变换，得到短时傅里叶变换的复数声谱图特征

；

步骤S6，将步骤S5得到的

输入到复数特征提取子网络，得到深度声谱图特征

，所述复数特征提取子网络是由复数网络结构构成的声谱图特征提取卷积网络。

进一步的，所述复数特征提取子网络由两层复数卷积网络构成，复数卷积网络的卷积核为5，通道数为256，每层卷积层后根着一个复数ReLU激活函数。

进一步的，所述步骤三具体包括以下子步骤：

步骤S7，将干净情感语音音频

输入到预训练的语音识别网络模型

，提出该模型最后一层网络层的前一层的特征，即深度音素特征

；

步骤S8，将干净情感语音音频

输入到预训练的声纹识别网络模型

，提出该模型最后一层网络层的前一层的特征，即深度声纹特征

；

步骤S9，将深度声谱图特征

、深度音素特征

以及深度声纹特征

进行叠加，得到预分类特征

，具体的：

。

进一步的，所述步骤四具体包括以下子步骤：

步骤S10，将预分类特征

输入到自注意力卷积块中，生成深度复合特征

；

步骤S11，将深度复合特征

进行注意力权重叠加，即时间维度权重累加，得到最终的输出特征

，具体表达式为：

其中，

表示时间维度的权重矩阵，SUM表示求和操作；

步骤S12，将深度复合特征

输入到两个全连接网络层中，输出经过Softmax网络层进行语音情感分类。

进一步的，所述自注意力卷积块是3层带自注意力机制网络的Transformer卷积块，每层自注意力机制网络的计算公式如下：

其中，

为网络维度，这里设置为256，另外，

其中，

、

、

分别表示每层自注意力机制网络的三个全连接层的网络权重参数，

表示每层自注意力机制网络的输入特征，当该层为第一层时，

就是

。

基于三维深度特征融合的语音情感识别系统，包括：

语音信号采集模块，采用高保真单麦克风或者麦克风阵列采集用户语音信号；

语音信号预处理模块，用于将采集到的语音信号进行预处理，对语音进行人声检测，去除非人声部分，生成用于神经网络处理的数据；

用户信息预测模块，将预处理后的数据通过预训练的语音识别网络模型、声纹识别网络模型得到深度音素特征、深度声纹特征，即用于识别语音文本内容及发音人身份信息；

多元融合情感识别模块，将深度音素特征、深度声纹特征和由复数网络结构构成的声谱图特征提取卷积网络得到深度声谱图特征融合，后输入自注意力卷积块，生成深度复合特征，再进行注意力权重叠加后通过两层全连接层输出，经分类网络层分类识别出语音情感，即用于综合预测用户的情感类型；

分析存储模块，用于利用MySQL等数据库，存储用户的语音数据、发音文本数据和情感标签数据，并根据实际业务进行统计分析。

进一步的，所述预处理，包括：预加重、分帧、加窗、短时傅里叶变换、静音去除，人声检测操作，将语音信号从时域信号转换到频域信号，即从音频采样转换成声谱图特征；其中采用谱减法对语音进行静音去噪，采用Z变换方法对语音进行预加重，采用短时傅里叶变换方法对语音进行声谱图特征提取，采用基于短时能量和过零率的方法进行人声检测。

有益效果：

1、本发明通过大规模数据预训练模型提取语音中和发音情感强相关的声纹信息和发音音素信息，充分利用了跨任务大数据预训练模型的优势，有效提高语音情感识别模型的泛化性及准确率；

2、本发明利用复数网络与常规卷积网络结合的混合架构，能够从利用复数网络提取更优的语音特征，利用通用卷积网络降低全复数网络的计算复杂度，有效提高了语音情感识别的准确率及推理速度；

3、本发明集成了多元语音情感识别模型，能够实现语音情感识别实际应用的可用性，适用于基于语音的口语对话系统，例如：口语对话机器人，智能客服、智能音箱等场景。

附图说明

图1为本发明的基于三维深度特征融合的语音情感识别系统的结构示意图；

图2为本发明的基于三维深度特征融合的语音情感识别方法流程示意图；

图3为本发明的基于三维深度特征融合的语音情感识别方法的子步骤流程示意图；

图4为本发明的基于三维深度特征融合的语音情感识别方法的网络结构示意图；

图5为本发明的基于三维深度特征融合的语音情感识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，本发明的基于声纹、音素、声谱图的三维深度特征融合的语音情感识别的语音情感识别系统，包括：

语音信号采集模块，用于采集用户语音信号，一般采用高保真单麦克风或者麦克风阵列，以降低语音信号采集的失真度；

语音信号预处理模块，用于将采集到的语音信号进行预处理，对语音进行端点检测，去除语音前后静音段，生成可用于神经网络处理的数据，具体为：该模块通过对语音进行预加重、分帧、加窗、短时傅里叶变换、静音去除等操作，将语音信号从时域信号转换到频域信号，即从音频采样转换成包含相位信息的声谱图特征，用于后续处理；其中采用谱减法对语音进行去噪，采用Z变换方法对语音进行预加重，采用短时傅里叶变换方法对语音进行声谱图提取，采用基于短时能量和过零率的方法进行人声检测；

用户信息预测模块，用于通过上述语音情感识别方法中的语音识别模块及声纹识别模型，分别识别语音文本内容及发音人身份信息。

多元融合情感识别模块，用于通过设计的基于声纹、音素、声谱图三维深度特征融合的语音情感识别模型及开源的基于Bert模型的文本情感识别方法，综合预测用户的情感类型；

如图2至图4所示，一种基于声纹、音素、声谱图的三维深度特征融合的语音情感识别方法，包括如下步骤：

步骤一，采集开源语音识别数据集和声纹识别数据集并训练分别得到预训练的语音识别网络模型和声纹识别网络模型，再采集开源情感语音数据集后进行去噪处理得到干净情感语音音频；具体包括以下子步骤：

步骤S1，采集开源语音识别数据集，训练DeepSpeech3模型：

通过网络搜索开源的语音识别数据集，例如：THCHS-30、AI-SHELL3、aidatatang_200zh等数据集，训练DeepSpeech3语音识别网络模型，得到预训练的语音识别网络模型

；

步骤S2，采集开源声纹识别数据集：

通过网络搜索开源的声纹识别数据集，例如：Free ST Chinese Mandarin Corpus等数据集，表示为声纹识别数据

；

步骤S3，构建声纹识别网络模型，并用声纹数据训练声纹识别网络模型：

构造由3层，维度为256的双向长短期记忆网络堆叠，加上两层维度分别为256和7的全连接层构成的声纹识别网络，并用步骤S2得到的数据

。

步骤S4，收集情感语音数据，并进行去噪：

从网络收集开源的情感语音数据集，通过维纳滤波器进行去噪后，得到干净情感语音音频

。

步骤二，对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络，得到深度声谱图特征；具体包括以下子步骤：

步骤S5，预处理情感音频数据，得到复数声谱图特征：

从步骤S4得到的干净情感语音音频

；

步骤S6，将声谱图特征输入复数特征提取子网络，得到深度声谱图特征：

将步骤S5得到的

输入到复数特征提取子网络，得到深度声谱图特征

，所述复数特征提取子网络是由复数网络结构构成的声谱图特征提取卷积网络，所述复数网络结构是近年信号处理领域用到的神经网络结构，同领域人员应当知晓，具体的：复数特征提取子网络由两层复数卷积网络构成，复数卷积网络的卷积核为5，通道数为256，每层卷积层后根着一个复数ReLU激活函数。

步骤三，将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型，分别得到深度音素特征和深度声纹特征，后与深度声谱图特征融合；具体包括以下子步骤：

步骤S7，将情感语音输入训练好的语音识别网络模型，得到深度音素特征：

将步骤S4得到干净情感语音音频

输入到步骤S1的预训练的语音识别网络模型，提出模型最后一层网络层的前一层的特征，即深度音素特征

；

步骤S8，将情感语音输入训练好的声纹识别网络模型，得到深度声纹特征：

将步骤S4得到干净情感语音音频

输入到步骤S3的预训练的声纹识别网络模型，提出模型最后一层网络层的前一层的特征，即深度声纹特征

；

步骤S9，融合深度声谱图特征、深度音素特征、深度声纹特征：

将步骤S6得到的深度声谱图特征

、步骤S7得到的深度音素特征

以及步骤S8得到的深度声纹特征

进行叠加，得到预分类特征

，具体的：

。

步骤四，将步骤三融合后的特征输入自注意力卷积块，生成深度复合特征，再进行注意力权重叠加后通过两层全连接层输出，经分类网络层分类识别出语音情感；具体包括以下子步骤：

步骤S10，用自注意力卷积块处理融合特征，获取深度复合特征：

将步骤S9得到的预分类特征输入到自注意力卷积块中，生成深度复合特征

，所述自注意力卷积块是3层带自注意力机制网络的Transformer卷积块，具体的：

每层自注意力机制网络的计算公式如下：

其中，

为网络维度，这里设置为256，另外，

其中，

、

、

就是

；

步骤S11，将深度复合特征通过注意力权重叠加：

将步骤S10得到的深度复合特征

，具体表达式为：

其中，

表示时间维度的权重矩阵，SUM表示求和操作；

步骤S12，通过两层全连接层，语音情感分类：

将步骤S11输出的深度复合特征

输入到维度分别为256和7的全连接网络层中，输出经过Softmax网络层进行语音情感分类，Softmax网络层是一种通用的网络结构。

与前述基于三维深度特征融合的语音情感识别的语音情感识别方法的实施例相对应，本发明还提供了基于三维深度特征融合的语音情感识别的语音情感识别装置的实施例。

参见图5，本发明实施例提供的一种基于三维深度特征融合的语音情感识别的语音情感识别装置，包括一个或多个处理器，用于实现上述实施例中的基于三维深度特征融合的语音情感识别的语音情感识别方法。

本发明的基于三维深度特征融合的语音情感识别的语音情感识别装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明的基于三维深度特征融合的语音情感识别的语音情感识别装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于三维深度特征融合的语音情感识别的语音情感识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于三维深度特征融合的语音情感识别方法，其特征在于，包括以下步骤：

；

；

步骤S3，构建声纹识别网络模型，并用步骤S2得到的数据

；所述声纹识别网络模型由3层，维度为256的双向长短期记忆网络堆叠，加上两层维度分别为256和7的全连接层构成；

；

步骤三，将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型，分别得到深度音素特征和深度声纹特征，后与深度声谱图特征融合；所述复数特征提取子网络由两层复数卷积网络构成，复数卷积网络的卷积核为5，通道数为256，每层卷积层后根着一个复数ReLU激活函数；

2.如权利要求1所述的基于三维深度特征融合的语音情感识别方法，其特征在于，所述步骤二具体包括以下子步骤：

步骤S5，将干净情感语音音频

；

步骤S6，将步骤S5得到的

输入到复数特征提取子网络，得到深度声谱图特征

3.如权利要求1所述的基于三维深度特征融合的语音情感识别方法，其特征在于，所述步骤三具体包括以下子步骤：

步骤S7，将干净情感语音音频

输入到预训练的语音识别网络模型

；

步骤S8，将干净情感语音音频

输入到预训练的声纹识别网络模型

；

步骤S9，将深度声谱图特征

、深度音素特征

以及深度声纹特征

进行叠加，得到预分类特征

，具体的：

。

4.如权利要求3所述的基于三维深度特征融合的语音情感识别方法，其特征在于，所述步骤四具体包括以下子步骤：

步骤S10，将预分类特征

输入到自注意力卷积块中，生成深度复合特征

；

步骤S11，将深度复合特征

，具体表达式为：

其中，

表示时间维度的权重矩阵，SUM表示求和操作；

步骤S12，将深度复合特征

5.如权利要求4所述的基于三维深度特征融合的语音情感识别方法，其特征在于，所述自注意力卷积块是3层带自注意力机制网络的Transformer卷积块，每层自注意力机制网络的计算公式如下：

其中，

为网络维度，这里设置为256，另外，

其中，

、

、

就是

。

6.一种基于三维深度特征融合的语音情感识别系统，其特征在于，包括：

分析存储模块，用于利用MySQL数据库，存储用户的语音数据、发音文本数据和情感标签数据，并根据实际业务进行统计分析。

7.如权利要求6所述的基于三维深度特征融合的语音情感识别系统，其特征在于，所述预处理，包括：预加重、分帧、加窗、短时傅里叶变换、静音去除，人声检测操作，将语音信号从时域信号转换到频域信号，即从音频采样转换成声谱图特征；其中采用谱减法对语音进行静音去噪，采用Z变换方法对语音进行预加重，采用短时傅里叶变换方法对语音进行声谱图特征提取，采用基于短时能量和过零率的方法进行人声检测。