CN113436649A

CN113436649A - 一种语音情感标定辅助方法及系统

Info

Publication number: CN113436649A
Application number: CN202110710910.9A
Authority: CN
Inventors: 周靖轩; 付宇; 张华军; 王征华; 邓小涛
Original assignee: Wuhan Dashengji Technology Co ltd
Current assignee: Wuhan Dashengji Technology Co ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-24
Anticipated expiration: 2041-06-25
Also published as: CN113436649B

Abstract

本发明提供一种语音情感标定辅助方法及系统，该方法包括以下步骤：利用语音情感识别算法对语音信号进行情感识别；基于已标注的语音数据，学习不同情感的韵律规律，即不同情感对应的各个情感特征的变化范围和趋势，进而建立韵律规则；接着借助韵律规则对语音信号进行情感识别；最后，综合这两种情感识别的结果，给出最终的标注结果。本发明一方面使用了语音情感识别算法结果进行智能标定，能大大减少标注人员工作量，提高工作效率；另一方面，结合情感分类任务中不同情感对应不同特征变化的规律，为不同的情感统一了标定标准和规则，提高了人工标定时情感标定的准确性，为标注人员提供专业的情感标注辅助。

Description

一种语音情感标定辅助方法及系统

技术领域

本发明属于情感标定领域，具体涉及一种语音情感标定辅助方法及系统。

背景技术

语音情感分类近年来受到广泛关注，其应用范围十分广泛，有很高的应用价值。如可以结合驾驶员的语音、面部表情和行为信息进行多模态融合分析，检测其驾驶状态，在驾驶员情感异常的时候发起提醒，提高驾驶的安全性，减少由于“路怒症”引发的交通事故；也可以依据治疗病人时，根据穿戴设备采集到病人的语音信号，进一步实时监测病人的实时精神状态，提高治疗效率；结合语音情感监测分析客服人员服务态度优劣等。

语音情感数据库不断丰富，情感描述能力不断提升的同时，对数据标注的新需求也不断扩充，语音情感研究首先最基本的就是情感数据库的标注，由于任务的特殊性，情感标注要求标注者有一定的经验，同时标注过程中需要精神高度集中。多数数据库采用对多标注者标注的数据进行插值、标准化等处理，以降低标注者自身因素对标注结果的干扰。而且人工标注情感数据库工作量很大，情感标注的标准和规则不统一，不同专业人员的主观标定差异性也会影响标注工作的准确性和效率。

发明内容

本发明的目的在于，提供一种语音情感标定辅助方法及系统，为情感标注提供辅助。

本发明所采用的技术方案如下：

一种语音情感标定辅助方法，包括以下步骤：

利用语音情感识别算法对语音信号进行情感识别，得到第一情感结果；

基于已标注的语音数据，学习不同情感的韵律规律，即不同情感对应的各个情感特征的变化范围和趋势，进而建立韵律规则；利用韵律规则对语音信号进行情感识别，得到第二情感结果；

判断第一情感结果和第二情感结果是否一致；若是，则以一致的情感结果作为该语音信号的最终情感结果；若否，则人工辨听，确定该语音信号的最终情感结果。

优选地，若第二情感结果和最终情感结果不一致，则对韵律规则进行调整。

优选地，各个情感特征包括韵律特征和声音质量特征。

优选地，韵律特征包括声响、基音频率、语速和短时过零率；其中：

声响通过计算短时能量得到，短时能量是指语音信号在较短时间内的能量值

：

式中，

表示经过采样处理后的语音信号，

为窗函数，N为窗长；

气流通过声门使得声带产生张弛震荡式振动，声带振动的频率为基音频率；

语速

的计算公式为：

式中，

表示语音信号的时长，n表示音节数；

短时过零率

的计算公式如下：

式中，

为语音信号，N表示语音在分帧时的长度，

是符号函数。

优选地，采用短时自相关法或短时平均幅度法检测基音频率。

优选地，采用短时自相关法检测基音频率具体为：基于浊音的自相关函数在基音周期的整数倍处出现峰值，根据峰值的位置求出基音周期，进而求得基音频率。

优选地，声音质量特征包括频扰和幅扰；其中：

频扰μ的计算公式如下：

式中，N为每句话的帧数，T为每一帧基频的周期；

幅扰σ的计算公式如下：

式中，N为每句话的帧数，F为每一帧的幅值。

一种语音情感标定辅助系统，包括：

语音情感识别算法模块，用于利用语音情感识别算法对语音信号进行情感识别，得到第一情感结果；

语音情感分析模块，用于基于已标注的语音数据，学习不同情感的韵律规律，即不同情感对应的各个情感特征的变化范围和趋势，进而建立韵律规则；利用韵律规则对语音信号进行情感识别，得到第二情感结果；

情感最终判定模块，用于判断第一情感结果和第二情感结果是否一致；若是，则以一致的情感结果作为该语音信号的最终情感结果；若否，则人工辨听，确定该语音信号的最终情感结果。

优选地，情感最终判定模块，还用于在第二情感结果和最终情感结果不一致时，则对韵律规则进行调整。

优选地，语音情感分析模块中各个情感特征包括韵律特征和声音质量特征，韵律特征包括声响、基音频率、语速和短时过零率，声音质量特征包括频扰和幅扰。

本发明的有益效果为：本发明一方面使用了语音情感识别算法结果进行智能标定，能大大减少标注人员工作量，提高工作效率；另一方面，提出语音情感分析的构想，结合情感分类任务中不同情感对应不同特征变化的规律，为不同的情感统一了标定标准和规则，提高了人工标定时情感标定的准确性，为标注人员提供专业的情感标注辅助；最后，综合这两个结果，给出最终的标注结果。

进一步地，标注人员可以根据标定的结果反过来对韵律规则进行细微的调整，从而增强韵律规则的适用性，具有很好的数据迁移性和适用性。

进一步地，各个情感特征包括韵律特征和声音质量特征，韵律特征包括声响、基音频率、语速和短时过零率，声音质量特征包括频扰和幅扰，六个特征的变化曲线能直观的观测到这些特征随着情绪的波动而变化的范围和趋势，直观的观察到情感的变化。

附图说明

图1是本发明的语音情感识别流程图。

图2是本发明的语音情感标定辅助方法示意图。

具体实施方式

下面将结合附图对本发明作进一步的说明：

目前语音情感标注是情感识别研究的热点问题，存在着标注规则难以制定、标准难以统一的困难，比如同样的一条语音，由于个人感官的不同，可能被不同的两个标注员标注成不同的情感类别，这样就给情感标注工作带来很多的困难，而且人工逐条辨听也会带来巨大的工作量。如何为情感标定建立直接可视化的标准和规则是一个非常有研究价值的方向，这一方面能辅助标注人员进行语音情感数据标定，减少人工情感标注的工作量；同时另一方面在标注员标定情绪类别的时候设定了清晰可见的情感标定规则，统一了情感标定的规则，提高了人工标定时情感标定的准确性。

本发明实施例的语音情感标定辅助方法，如图2所示，包括以下步骤：

S1、利用语音情感识别算法对语音信号进行情感识别，得到第一情感结果。

进行语音情感识别研究时，首先需要定义情感。情感描述模型将情感表征为一组互斥的离散情感类别或数字维度组合(空间坐标值)。根据表征方式不同，分为离散情感模型和维度情感模型。维度情感模型表征情感能力强(情感类别多、精确性高)，可连续表征情感变化，可以在一维或多维空间中构造，用以描述连续情感。一维维度情感模型是在一维上的数字打分模型，根据分值高低设置阈值将情感分为积极情绪和消极情绪。同样的思路，可以将这种方法从一维迁移到多维。

如图1所示，完整的语音情感识别包括采集语音片段、预处理、语音特征提取与降维、情感分类与回归等流程，具体步骤如下：

1、预处理

为消除人体语音器官和声音采集设备的差异、混叠、高次谐波失真等影响，在特征提取前需进行预处理。预处理包括：提取语音信号的起始点和终止点的端点检测、将语音信号转化为短时平稳分析帧的加窗分帧、对高频部分进行加重，增强分辨率的预加重等。

2、特征提取

语音情感识别中的特征提取是一个极其重要的环节，特征的提取的好坏决定着最后分类器准确率的高低。现有语音情感识别系统的情感特征按其特性可划分为三大类：韵律特征、音质特征及谱特征。其中韵律特征在语音情感识别中较早应用，对某些情感的辨别效果良好；常用的韵律特征有：基音频率、能量、时长等。音质特征在近几年的研究中也开始使用，常用的音质特征有：共振峰和声门参数等。语音频谱特征具有各种派生类别，并且是最广泛使用的情感特征类型，常用类别有：线性预测系数(LPC)、线性预测倒谱系数(LPCC)和梅尔频率倒谱系数(MFCC)等。

此外，近年来随着深度学习的迅速发展，基于深度神经网络的深度情感特征的应用也越来越多。因低级特征数量有限、提取耗资且不能完整描述语音信号，所以尝试从低级特征中进一步提取高级特征或直接批量处理原始音频，自动提取高级特征，即为深度特征。

3、特征降维

从而利用这些特征子集构造出更好的分类模型，上述特征提取方法得到的语音情感特征一般维数较高，直接处理易导致维度灾难。为保障识别准确率和效率，采用特征选择（Feature Selection）算法，在提取出来的全部特征中选择出一定的特征子集进行特征降维。常用的特征选择算法包括主成分分析(principle component analysis, PCA)、Fisher准则、线性判别分析(linear discriminate analysis, LDA)和FCBF(fast correlation-based filter solution)等方法。此外，可选择BP神经网络可进行特征选择，检测冗余的同时，通过节点信号变化的敏感度挑选对网络贡献度大的特征得到组合特征。

4、情感算法模型训练

语音情感识别分为两步，第一是训练，第二是识别。语音情感识别的分类算法跟机器学习中常用的分类算法并没有太大的区别，将上一步进行特征降维后的特征集合输入到分类算法模型进行训练即得到情感算法模型。适合于语音情感识别的建模方法很多，例如在机器学习中，常用的并且公认效果比较好的分类算法：高斯混合模型法(GMM)、隐马尔科夫模型（HMM）以及支持向量机模型（SVM）等算法。同时也可以借助神经网络技术来进行情感分类模型算法的训练。

以上算法均针对语音信号来提升情感分类准确性。此外，也可以融合其他模态的特征，如面部表情、姿态和生理信号，可提升情感分类的鲁棒性和可信度。根据以上步骤最终会得到一个情感分类算法的模型，这里以一维维度情感模型为例，所以将情感分为积极情绪和消极情绪，算法输出包括两种结果：积极和消极。

根据图1所示的算法设计流程得到语音情感识别算法，这相当于是基于情感分类算法的情感统计结果。一般而言，这些情感识别算法有比较高的准确性，但是任何算法都会存在错误识别的情况，如果只以这种情感识别算法作为标定工具去替代人工辨听标定，情感识别算法的准确度则是决定标定系统准确度的唯一因素，而且总会存在算法识别错误从而导致错误标定的情况。但是，随着当今学术界情感识别算法研究的深入，识别的准确性也得到一定的提升，所以可以辅助标定人员，来减少标定的人工工作量。

这个语音情感识别算法可以使用任何一套情感分类算法，输出结果可以是一维维度上的情感结果，也可以是离散情感转换成一维维度情感之后的结果，这样能够具有较好的灵活性和适配性。

S2、基于已标注的语音数据，学习不同情感的韵律规律，即不同情感对应的各个情感特征的变化范围和趋势，进而建立韵律规则；利用韵律规则对语音信号进行情感识别，得到第二情感结果。

本发明设定一些语音情感任务分析常用的特征，包括韵律特征（声响、基音频率、语速和短时过零率）和声音质量特征（频扰和幅扰），作为情感分类和标注工具的衡量指标。

1、韵律学特征

韵律学特征是语音情感特征中最为重要的一个特征，也是对语音情感特征研究最早的一个特征，它是语音声学特征中能够体现韵律特性的一些参数。一句话听起来是否自然顺畅、抑扬顿挫就是由韵律决定。韵律特征的情感区分能力已经得到语音情感识别领域研究者的广泛认可，且被广泛使用。最常用的韵律特征有基频、能量、时长等。

特征1.1：声响（loudness）

声响可以通过计算短时能量得到，短时能量是指语音信号在较短时间内的能量值，它与声音震动强弱相关。通俗地来讲，一个人说话越大声，那么这段时间耗费的能量值就越大；一个人说话越小声，那么这段时间耗费的能量相对就越小。对于语音情感识别来说，一个人的语音情感中，一般在生气惊讶等发出的能量都会比平静的时候发出的能量大，也就是说话的声音比较大。因而从理论上来说，短时能量可以很好地区分语音的情感。一段情感语音信号经过采样处理后表示为

，窗函数为

，窗长为N，则这段情感语音信号的短时能量为：

特征1.2：基音频率

人在发出语音信号时，根据声带振动与否分成清音跟浊音。浊音又叫做有声语言，语音中大部分的能量存在于浊音中，在时域上浊音呈现出明显的周期性；但是清音如同白噪声，无度著周期性。当发出浊音时，气流通过声门使得声带产生张弛震荡式振动，进而产生准周期的激励脉冲串。上述声带振动的频率就叫做基音频率，相应的周期叫做基音周期。在声音中，基频是指一个复音中基音的频率，在构成一个复音的若干个音中，基音的频率最低，强度最大。基频的高低决定一个音的高低。在其频谱图中，为第一个峰对应的频率。通常，基音频率同个人声带的长短、韧性、劲度、薄厚和发音习惯等存在关系，因此，基音频率也反应了个人的特征。此外，基音频率还与人的性别、年龄有关。一般来说，男性说话者的基音频率较低，而女性说话者和小孩的基音频率相对较高。

对基音周期进行检测时常采用的方法有短时自相关法和短时平均幅度法。本专利采用了自相关系数法，主要通过计算信号的自相关函数寻找相应的周期特点。由于浊音的自相关函数在基音周期的整数倍处会出现峰值，清音则没有此现象，因此，可以根据峰值的位置求出基音周期大小。具体计算过程如下：

假设一段语音信号为x _n，该语言信号对应的自相关函数是

表示为：

得到该信号的自相关函数之后，可以根据峰值位置得到基音周期，再计算其倒数就可以得到基音频率。

特征1.3：语速 rate

语速是人类所特有的一种语言特性。人们利用语言表达文字内容时，单位时间内表达出词汇的长度就是语速。通常采用每秒的音节数或者音节的平均时长来衡量语速。语速可以影响语音的音高，因此可以从一定程度上折射出情感语音中的情感信息。

假设一句情感语音的时长为

，音节数记为n，则语速

表示为：

特征1.4：短时过零率

在语音情感识别任务中，需要对语音的波形进行采样，可以得到离散的语音信号。当相邻的两个采样点值的符号相异时，代表信号波形发生了一次过零事件。过零率则是统计一帧语音中过零事件的次数。不同情感语音的波形差异很大，因此可以通过计算过零率实现语音情感识别。语音信号

在一个帧的周期中,短时过零率的计算公式如下：

其中，N表示语音在分帧时的长度,

是符号函数:

2、声音质量特征

声音质量特征用来衡量语音是否纯净、清晰、容易辨识等。在说话人情感激动、难以控制的情景下，声音质量往往表现出哽咽、颤音、喘息、破音等。

2.1：频扰μ

信号主音频率的抖动。它是特定时间段内的平均值，即基音频率与平均值之间的偏差的相对估计值，为每一帧基频周期的全局统计量，公式如下

式中，N为每句话的帧数，T为每一帧基频的周期。

2.2：幅扰σ

为每一帧基频幅度的全局统计量，公式如下：

式中：N 为每句话的帧数；F为每一帧的幅值。

在本发明中，该步骤分为学习阶段和预测阶段。

在学习阶段，在按设定的一维维度（积极-消极）情感分类任务中，根据历史标定数据，可以直观观测到随着情绪的波动，这些特征随之变化的范围和趋势，从而可以设定不同情绪对应的各个特征的变化范围和趋势，即学习到不同情绪的韵律规律，进而设定好韵律规则，这个规则可以在标定新数据时作为情绪标定的判断标准。具体的，可以根据音频文件时域变化时，对应的六个特征（声响、基音频率、语速、短时过零率、频扰和幅扰）的变化曲线，这样就能直观的观察到情感的波动，例如人在平静过渡到生气的情绪时（对应一维情感分类中的积极变为消极），可以显著观察到响度会明显增大，语速显著变快。

在预测阶段，把新来的语音数据计算相应的声学情感特征后，输入到学习阶段学习到的韵律规则进行情感分类。由于选用的情感特征比较直观，所以一方面可以直观明显的看到随着音频在时域上的变化，各个特征随之波动变化的曲线，从而根据曲线变化的缓急、律动等方面可以观察到情感的变化；另一方面，可以根据各个特征变化的范围，根据学习阶段学习到的韵律规则确定相应的情感类型。结合两方面的判断，可以为标注人员提供统一清晰的标定规则，也能在情感类型模糊时为标注人员提供专业可靠的分析工具。

S3、判断第一情感结果和第二情感结果是否一致；若是，则以一致的情感结果作为该语音信号的最终情感结果；若否，则人工辨听，确定该语音信号的最终情感结果。

该步骤综合了语音情感识别算法模块（情感统计结果，模块一）和语音情感分析模块（情感直观感受，模块二）的结果而给出最终的情感类型判定结果，这两个模块可以各自独立的进行情感分析，不受另一个模块的影响。

具体的说，在分析新音频的时候，模块一输出为根据算法模型的预测的结果一，模块二输出为根据韵律规则直观判断的结果二，如果结果一和结果二判断结果一致，则可以直接确定该音频的情感类型，完成标记；如果结果一和结果二的结果不一致，则需要人工进一步辨听，再给出判定结果，同时在辨听的时候，标注人员可以根据标定的结果反过来对韵律规则进行细微的调整，从而增强韵律规则的适用性。

可以看到，该方法对不同的数据集有很好的迁移性。一般说来，语音情感识别算法（情感统计结果）是在一定的数据集上训练得到的情感分类算法模型，在音频类型变化（不同信道、不同信噪比、不同采样率等）的时候，算法模型的性能一般来说会有一定的下降。而语音情感分析模块（情感直观感受）在分析不同数据集时，只需要根据不同数据集上的音频特征分析，在制定的韵律规则里进行调整，从而可以很快的得到不同数据集下的对应的韵律规则，具有很好的数据迁移性和适用性。

本发明还提供一种用于实现上述方法的语音情感标定辅助系统，包括：

综上所述，本发明提供一种语音情感标定辅助方法及系统，利用语音情感识别算法对语音信号进行情感识别，得到第一情感结果；基于已标注的语音数据，学习不同情感的韵律规律，即不同情感对应的各个情感特征的变化范围和趋势，进而建立韵律规则；接着借助韵律规则对语音信号进行情感识别，得到第二情感结果；最后，综合这两种情感识别的结果，给出最终的标注结果。本发明一方面使用了语音情感识别算法结果进行智能标定，能大大减少标注人员工作量，提高工作效率；另一方面，结合情感分类任务中不同情感对应不同特征变化的规律，为不同的情感统一了标定标准和规则，提高了人工标定时情感标定的准确性，为标注人员提供专业的情感标注辅助。

本领域的技术人员容易理解，以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。