CN108364662B

CN108364662B - 基于成对鉴别任务的语音情感识别方法与系统

Info

Publication number: CN108364662B
Application number: CN201711481953.4A
Authority: CN
Inventors: 陶建华; 连政; 李雅
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2021-01-05
Anticipated expiration: 2037-12-29
Also published as: CN108364662A

Abstract

本发明涉及语音情感识别领域，具体涉及一种基于成对鉴别任务的语音情感识别方法与系统。目的在于解决情感标签的模糊性问题。本发明的语音情感识别系统，在训练过程中，将语音数据随机配对；然后提取语谱图特征并利用第一音向量提取模型生成成对音向量；再利用判别网络模型计算成对音频训练数据属于同一情感类别的概率；计算损失函数时，同时考虑成对音向量之间的余弦相似性损失，以及判别网络模型的输出值和预设标签之间的交叉熵。对于待识别语音，先提取语谱图特征，再用训练好的第一音向量提取模型生成音向量，最后用训练好的支持向量机进行情感分类。本发明通过成对鉴别任务训练语音情感模型，提升了基于语音的情感识别系统的性能。

Description

基于成对鉴别任务的语音情感识别方法与系统

技术领域

本发明涉及语音情感识别领域，具体涉及一种基于成对鉴别任务的语音情感识别方法与系统。

背景技术

情感在人类交流过程中传递着重要信息。语音情感识别主要是让计算机能够通过声音信号，识别人类的情感。语音情感识别是人机交互技术中的重要一环，有助于使用户获得更加自然的人机交互体验。在语音情感识别技术的发展过程中，早期的研究主要是基于手工特征进行情感分类。近年来，随着计算机技术的发展，基于端到端的语音情感识别方法得到了广泛的关注。

基于端到端的语音情感识别方法，通过训练深度神经网络，直接建立原始音频(或者语谱图)与情感标签之间的映射关系。基于端到端的方法与基于手工特征的方法相比较，具有很多优点，比如识别准确率高，不需要考虑特征选取方式等，但是也存在一些不足，主要体现在以下几点：

1、在训练过程中，深度神经网络需要大量标注的数据，才能缓解网络陷入局部极小值，而大规模数据的标注会耗费人力物力；

2、情感标签存在模糊性，标注结果容易产生分歧，进而影响语音情感识别模型的识别性能。

发明内容

为了解决现有技术中的上述问题，本发明提出了一种基于成对鉴别任务的语音情感识别方法与系统，降低了数据标注的难度，提高了语音情感识别的准确率。

本发明的一方面，提出一种基于成对鉴别任务的语音情感识别方法，包括：

步骤A1，抽取待识别音频数据的语谱图特征；并根据该语谱图特征，利用训练好的第一音向量提取模型生成所述待识别音频数据的音向量；

步骤A2，通过统计分类方法，对所述待识别音频数据的音向量进行分类，得到情感识别结果；

其中，

所述第一音向量提取模型的训练方法为：

步骤B1，从语音情感数据库的训练集中，随机选取两个完整的音频数据，得到成对音频训练数据；

步骤B2，针对所述成对音频训练数据中的每一个训练数据，分别抽取该训练数据的语谱图特征，并利用第一音向量提取模型生成该训练数据的音向量；进而得到成对音向量；

步骤B3，根据所述成对音向量，利用判别网络模型计算所述成对音频训练数据属于同一情感类别的概率；

步骤B4，计算损失函数，若所述损失函数没有达到预设的收敛条件，则调整所述第一音向量提取模型和所述判别网络模型的参数，转至步骤B1；

其中，

所述预设的收敛条件为所述损失函数的值不再降低。

优选地，所述损失函数为：

L＝λL_cos+(1-λ)L_cro

其中，

L_cro(y_pred,y_true)＝-[y_truelny_pred+(1-y_true)ln(1-y_pred)]

L_cos代表所述成对音向量之间的余弦相似性损失；L_cro代表所述判别网络模型的输出值y_pred和预设标签y_true之间的交叉熵；λ代表权重；

x₁和x₂分别表示输入的两个音向量特征；y为预设值，表示两个音向量是否表达出同一类情感，1表示两个音向量属于同一情感状态，-1表示两个音向量属于不同情感状态；m是一个超参数，代表系统的容错能力，m越大，容错能力越强，m越小，容错能力越弱；cos(x₁,x₂)代表所述成对音向量归一化后的余弦距离；

y_pred代表所述判别网络模型计算出的所述成对音频训练数据属于同一情感类别的概率；所述预设标签y_true，为所述成对音频训练数据附带的标签，用于标记所述成对音频训练数据属于同一情感类别的概率；y与y_true均是在选取所述成对音频训练数据时设定的，代表该对训练数据情感类别的真实情况，且当y＝1时，对应y_true＝1；当y＝-1时，对应y_true＝0。

优选地，抽取所述语谱图特征的方法为：

将原始音频用预设大小的汉明窗分帧；

将每一帧补足预设的点数，进行FFT变换，得到频域的特征向量；

根据FFT变换的周期性和对称性，只抽取每帧半个周期的特征，作为每帧音频的特征；根据所述原始音频中分出的所有音频帧的特征，组成一个矩阵向量；

对矩阵向量中的每个元素进行以10为底的对数变换，得到原始音频的语谱图特征；

其中，

所述原始音频，为所述待识别音频数据或所述成对音频训练数据中的一个数据。

优选地，所述第一音向量提取模型，采用神经网络构建，包含五层卷积神经网络和一层全连接层；不同卷积层之间采用最大值池化层和非线性激活函数相连。

优选地，所述判别网络模型，由两层全连接层组成，该两层全连接层之间有非线性激活函数相连，构成一个非线性映射函数。

优选地，步骤A2中所述统计分类，采用经过训练的支持向量机进行分类。

本发明一方面，提出一种基于成对鉴别任务的语音情感识别系统，基于上面所述的基于成对鉴别任务的语音情感识别方法，包括：音频对生成模块、音向量训练模块、判别网络模型、参数调整模块、音向量生成模块和分类模块；

所述音频对生成模块，用于从语音情感数据库的训练集中，随机选取完整的音频数据，并两两组合，得到成对音频训练数据；

所述音向量训练模块，配置为：针对所述成对音频训练数据中的每一个训练数据，分别抽取该训练数据的语谱图特征，并利用第一音向量提取模型生成该训练数据的音向量，进而得到成对音向量；

所述判别网络模型，用于根据所述成对音向量，计算所述成对音频训练数据属于同一情感类别的概率；

所述参数调整模块，用于计算损失函数，并调整所述第一音向量提取模型和所述判别网络模型的参数；

所述音向量生成模块，用于抽取待识别音频数据的语谱图特征；并根据所述语谱图特征，利用训练好的第一音向量提取模型生成所述待识别音频数据的音向量；

所述分类模块，用于采用训练好的支持向量机，通过统计分类方法，对所述待识别音频数据的音向量进行分类，得到情感识别结果。

优选地，所述音向量训练模块，包括：第一语谱图提取单元，第一音向量提取模型；

所述第一语谱图提取单元，用于抽取训练数据的语谱图特征；

所述第一音向量提取模型，用于根据抽取的语谱图特征生成对应的成对音向量。

优选地，所述音向量生成模块，包括：第二语谱图提取单元，第二音向量提取模型；

所述第二语谱图提取单元，与所述第一语谱图提取单元相同，用于抽取待识别音频数据的语谱图特征；

所述第二音向量提取模型，其结构与参数与训练好的所述第一音向量提取模型相同，用于根据所述待识别音频数据的语谱图特征生成所述待识别音频数据的音向量。

本发明的第三方面，提出一种存储设备，其中存储有程序，所述程序适于由处理器加载并执行，以实现上面所述的基于成对鉴别任务的语音情感识别方法。

本发明的第四方面，提出一种处理设备，包括：处理器和存储设备；

所述处理器，适于执行程序；所述存储设备，存储有程序；

所述程序适于由处理器加载并执行以实现上面所述的基于成对鉴别任务的语音情感识别方法。

本发明的有益效果：

本发明随机从语音情感训练数据库中选择成对的音频训练数据，假设原始的训练数据规模是N，配对后训练数据的规模是N×(N-1)/2，从而大幅度增加了训练数据的规模，适用于原始训练数据量较少的分类问题。现有技术中进行训练数据标注时，需要把音频数据分配到固定的情感类别，由于情感标签具有模糊性，标注结果容易产生分歧，进而影响语音情感识别模型的识别性能。但是采用本发明的训练方法，我们只需要将成对音频训练数据标注上该音频对是否属于同一类情感，通过这种比较的方式标注数据，更加符合人对于模糊问题的标注习惯，从而缓解了情感标签的模糊性问题。

附图说明

图1是本发明基于成对鉴别任务的语音情感识别方法的实施例流程示意图；

图2是本发明基于成对鉴别任务的语音情感识别系统实施例的构成示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明采用神经网络搭建语音情感识别系统，系统搭建包含两个过程：系统训练过程和系统性能测试过程。在系统训练过程中，需要基于成对鉴别任务，优化第一音向量提取模型和判别模型中的参数，使得系统能区分两个音频数据是否属于同一情感类别。在系统性能测试过程中，不需要人工介入，音向量生成模块沿用音向量训练模块中的方法、模型以及训练好的参数，对任何输入音频提取音向量特征，然后通过分类模块分类，得到测试音频的情感识别结果。测试结束的系统，就可以用来进行语音情感识别了。

图1是本发明基于成对鉴别任务的语音情感识别方法的实施例流程示意图。如图1所示，本实施例的语音情感识别方法包括：

其中，

所述第一音向量提取模型的训练方法为：

步骤B1，从语音情感数据库的训练集中，随机选取两个完整的音频数据，得到成对音频训练数据；每个音频数据由很多帧组成，在实验过程中，每个音频数据通常是一句完整的话；

步骤B2，针对所述成对音频训练数据中的每一个训练数据，分别抽取该训练数据的语谱图特征，并利用第一音向量提取模型生成该训练数据的音向量；进而得到成对音向量；所述成对音频训练数据，在送入音向训练模块后，先抽取一个训练数据的语谱图特征并生成对应的音向量，再抽取另一个训练数据的语谱图特征并生成对应的音向量；然后配成一对送入到下个环节；

步骤B4，计算损失函数，若所述损失函数没有达到预设的收敛条件，则调整所述第一音向量提取模型和所述判别网络模型的参数，转至步骤B1；所述预设的收敛条件为所述损失函数的值不再降低。

本实施例中，在实际训练过程中，需要考虑两部分损失来优化系统的性能：成对音向量之间的余弦相似性损失，以及判别模型的输出和预设标签之间的交叉熵，如公式(1)所示：

L＝λL_cos+(1-λ)L_cro (1)

每次从步骤B1执行到步骤B4都会计算一次损失函数值L，训练过程中L值会逐渐降低，当L值不再降低时，我们认为满足了预设的收敛条件，停止训练。

其中：

L_cos的计算方法如公式(2)、(3)所示：

x₁和x₂分别表示输入的两个音向量特征；y为预设值，表示两个音向量是否表达出同一类情感，因为我在产生成对音频训练数据的时候，就已经清楚这两个音频是不是从同一情感类别中采集的，1表示两个音向量属于同一情感状态，-1表示两个音向量属于不同情感状态；m是一个超参数，代表系统的容错能力，m越大，容错能力越强，m越小，容错能力越弱；cos(x₁,x₂)代表所述成对音向量归一化后的余弦距离。

L_cro的计算方法如公式(4)所示：

L_cro(y_pred,y_true)＝-[y_trueln y_pred+(1-y_true)ln(1-y_pred)] (4)

本实施例中，抽取所述语谱图特征的方法为：

先用窗长为20毫秒、帧移为10毫秒的汉明窗对原始音频进行分帧；再将每一帧补足512个点，经过FFT变换，将原始时域波形映射到频域，得到频域的512维特征向量；由于FFT变换具有周期性和对称性，512维FFT的周期是512，因此只抽取半个周期频域特征作为每帧音频的特征。假设512维度FFT特征从0开始编号，256对应对称轴位置的特征，512处的特征值和0处的特征值相同，根据FFT的对称性以及周期性，只保留标号从0到256的特征，共计257维特征向量。对于1秒的语音信号，能够得到100×257的矩阵向量。为了控制特征的变化范围，对得到的矩阵向量中的每个元素经过以10为底的log变换，得到原始音频的语谱图特征；

其中，所述原始音频，为所述待识别音频数据或所述成对音频训练数据中的一个数据。

本实施例中，所述第一音向量提取模型，采用神经网络构建，包含五层卷积神经网络和一层全连接层；不同卷积层之间采用最大值池化层和非线性激活函数相连，获得更加复杂的映射关系；所述判别网络模型，由两层全连接层组成，该两层全连接层之间有非线性激活函数相连，构成一个非线性映射函数。

本实施例中，步骤A2中所述统计分类，采用的分类器为经过训练的支持向量机。

测试音频分为训练集、验证集和测试集。训练集和验证集用于支持向量机训练，主要调节支持向量机中的惩罚系数；测试集用于测试训练得到的分类器的泛化性能，通过查看测试集音频在训练后的分类器上的分类准确率，反映系统的情感识别性能。

图2是本发明基于成对鉴别任务的语音情感识别系统实施例的构成示意图，基于上面所述的基于成对鉴别任务的语音情感识别方法，包括：音频对生成模块10、音向量训练模块20、判别网络模型30、参数调整模块40、音向量生成模块50和分类模块60。

音频对生成模块10用于从语音情感数据库的训练集中，随机选取完整的音频数据，并两两组合，得到成对音频训练数据；音向量训练模块20配置为：针对所述成对音频训练数据中的每一个训练数据，分别抽取该训练数据的语谱图特征，并利用第一音向量提取模型生成该训练数据的音向量，进而得到成对音向量；判别网络模型30用于根据所述成对音向量，计算所述成对音频训练数据属于同一情感类别的概率；参数调整模块40用于计算损失函数，并调整所述第一音向量提取模型和所述判别网络模型的参数；音向量生成模块50用于抽取待识别音频数据的语谱图特征；并根据所述语谱图特征，利用训练好的第一音向量提取模型生成所述待识别音频数据的音向量；分类模块60用于采用训练好的支持向量机，通过统计分类方法，对所述待识别音频数据的音向量进行分类，得到情感识别结果。

本实施例中，音向量训练模块20，包括：第一语谱图提取单元21和第一音向量提取模型22。

所述成对音频训练数据，在送入音向训练模块后，先抽取一个训练数据的语谱图特征并生成对应的音向量，再抽取另一个训练数据的语谱图特征并生成对应的音向量；然后配成一对送入到判别网络模型30。

所述第一语谱图提取单元21，用于抽取训练数据的语谱图特征；所述第一音向量提取模型22，用于根据抽取的语谱图特征生成对应的音向量。

相应地，本实施例中的音向量生成模块50，包括：第二语谱图提取单元51和第二音向量提取模型52。

所述第二语谱图提取单元51，与所述第一语谱图提取单元21相同，用于抽取待识别音频数据的语谱图特征；所述第二音向量提取模型52，其结构与参数与训练好的所述第一音向量提取模型22相同，用于根据所述待识别音频数据的语谱图特征生成所述待识别音频数据的音向量。

本发明基于成对鉴别任务的语音情感识别系统以Python语言编写，在windows平台下和在linux平台下均可使用Python程序编程运行，当然也可以采用其他的编程语言编写，在其他平台上运行。此外，本发明可以应用于电脑终端、手持式移动设备或其它形式的移动设备。

本发明的存储设备的实施例，其中存储有程序，所述程序适于由处理器加载并执行，以实现上面所述的基于成对鉴别任务的语音情感识别方法。

本发明的处理设备的实施例，包括：处理器和存储设备；

所述处理器，适于执行程序；所述存储设备，存储有程序；

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于成对鉴别任务的语音情感识别方法，其特征在于，包括：

其中，

所述第一音向量提取模型的训练方法为：

步骤B2，针对所述成对音频训练数据中的每一个训练数据，分别抽取该训练数据的语谱图特征，并利用第一音向量提取模型生成该训练数据的音向量，进而得到成对音向量；

其中，

所述预设的收敛条件为所述损失函数的值不再降低；

其中，所述损失函数为：

L＝λL_cos+(1-λ)L_cro

其中，

L_cro(y_pred,y_true)＝-[y_truelny_pred+(1-y_true)ln(1-y_pred)]

y_pred代表由所述判别网络模型计算出的所述成对音频训练数据属于同一情感类别的概率；所述预设标签y_true，为所述成对音频训练数据附带的标签，用于标记所述成对音频训练数据属于同一情感类别的概率；y与y_true均是在选取所述成对音频训练数据时设定的，代表该对训练数据情感类别的真实情况，且当y＝1时，对应y_true＝1；当y＝-1时，对应y_true＝0。

2.根据权利要求1所述的语音情感识别方法，其特征在于，抽取所述语谱图特征的方法为：

将原始音频用预设大小的汉明窗分帧；

其中，

3.根据权利要求1所述的语音情感识别方法，其特征在于，所述第一音向量提取模型，采用神经网络构建，包含五层卷积神经网络和一层全连接层；不同卷积层之间采用最大值池化层和非线性激活函数相连。

4.根据权利要求1所述的语音情感识别方法，其特征在于，所述判别网络模型，由两层全连接层组成，该两层全连接层之间有非线性激活函数相连，构成一个非线性映射函数。

5.根据权利要求1所述的语音情感识别方法，其特征在于，步骤A2中所述统计分类，采用经过训练的支持向量机进行分类。

6.一种基于成对鉴别任务的语音情感识别系统，其特征在于，基于权利要求1-5中任一项所述的基于成对鉴别任务的语音情感识别方法，包括：音频对生成模块、音向量训练模块、判别网络模型、参数调整模块、音向量生成模块和分类模块；

所述分类模块，用于采用训练好的支持向量机，通过统计分类方法，对所述待识别音频数据的音向量进行分类，得到情感识别结果；

其中，所述损失函数为：

L＝λL_cos+(1-λ)L_cro

其中，

L_cro(y_pred,y_true)＝-[y_truelny_pred+(1-y_true)ln(1-y_pred)]

7.根据权利要求6所述的语音情感识别系统，其特征在于，所述音向量训练模块，包括：第一语谱图提取单元和第一音向量提取模型；

所述第一音向量提取模型，用于根据抽取的语谱图特征生成对应的音向量。

8.根据权利要求7所述的语音情感识别系统，其特征在于，所述音向量生成模块，包括：第二语谱图提取单元，第二音向量提取模型；

9.一种存储设备，其中存储有程序，其特征在于，所述程序适于由处理器加载并执行，以实现权利要求1-5中任一项所述的基于成对鉴别任务的语音情感识别方法。

10.一种处理设备，包括：

处理器，适于执行程序；以及

存储设备，适于存储该程序；

其特征在于，所述程序适于由处理器加载并执行以实现：

权利要求1-5中任一项所述的基于成对鉴别任务的语音情感识别方法。