CN112634947B

CN112634947B - 一种动物声音情感特征集合排序识别方法及系统

Info

Publication number: CN112634947B
Application number: CN202011511415.7A
Authority: CN
Inventors: 贾宁; 郑纯军; 李帅; 叶剑锋; 郭耸; 关思雨; 崔新明; 王江浩
Original assignee: Dalian Neusoft University of Information
Current assignee: Dalian Neusoft University of Information
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2023-03-14
Anticipated expiration: 2040-12-18
Also published as: CN112634947A

Abstract

本发明公开了一种动物声音情感特征集合排序识别方法，通过特征提取来获得动物声音特征集，以海量的样本数量确保分类效果，开发人员还可以根据任务特点自定义特征因子；通过特征排序，以初步确定不同特征在情感识别任务中的可信度；通过异常特征权重补偿，以实现特征序列的初步调整；通过深度学习模型补偿，以进一步优化特征序列，从而使得声音情感识别的特征集合具有连续性和稳定性，提高声音情感识别精度。

Description

一种动物声音情感特征集合排序识别方法及系统

技术领域

本发明涉及动物声音情感识别技术领域，尤其涉及一种动物声音情感特征集合排序识别方法及系统。

背景技术

基于动物声音的情感自动识别，对于动物物种、种群及数量研究，生态环境分析具有重要意义。声音作为一种通信形式，需要机器有足够的智能去识别动物的声音和动物的情感。伴随着机器学习、神经网络和深度学习理论的发展，声音情感分类等相关任务的精度在逐步提升，这对于计算机理解声音的表达提供了很大帮助。现有技术中对动物声音情感自动识别主要存在以下四方面问题：一是自然条件下，现有的声音情感识别精度较低；二是解决现有声音情感识别的特征集合缺少连续性和稳定性；三是样本数量较少时，现有的声音情感识别的分类效果不佳；四是开发人员无法根据任务特点自定义特征因子。

发明内容

本发明提供一种动物声音情感特征集合排序识别方法及系统，以克服上述四方面技术问题。

本发明一种动物声音情感特征集合排序识别方法，包括：

获取所述动物声音的声学特征，并构建所述动物声音的特征集合；

根据所述特征集合进行动物情感分类标注，按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序，获得相关性特征列表；

筛选出所述相关性特征列表中的异常特征，通过对所述异常特征权重补偿以消除所述异常特征的位置偏差，获得初步补偿后的特征序列；

建立动物声音情感分类识别模型；根据所述初步补偿后的特征序列，采用深度学习方法对所述模型进行训练，获得二次补偿后的特征序列；

将动物的声音音频输入所述动物声音情感分类识别模型，根据所述二次补偿后的特征序列识别所述动物的声音情感。

进一步地，所述声学特征，包括：低级描述符和高级统计函数；

所述低级描述符，包括：

谱特征、共振峰、谐噪比、基频扰动、谐波、梅尔频率倒谱系数、振幅微扰、频谱斜率、谱通量、音强、等效声级及基频；

所述高级统计函数，包括：

均值、方差、协方差、20分位数、50分位数、80分位数、20-80分位数、上升信号包络均值、上升信号包络标准差、下降信号包络均值、下降信号包络标准差、偏度、峰度及四分卫。

进一步地，所述根据所述特征集合进行动物情感分类标注，按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序，获得相关性特征列表，包括：

所述动物情感特征，包括：愤怒、高兴、平静及悲伤；

利用Person分析方法对所述动物情感特征进行相关性分析，计算方法如公式(1)所示：

式中，

分别是变量x、y的均值，x_i、y_i分别是变量x,y的第i个观测点的值；样本相关系数r的取值范围是[-1,1]，r的绝对值越大，变量x、y的相关程度越强；n是特征维数；

对所有的所述动物情感特征求取相关性后进行降序排序，获得相关性特征列表L_rank。

进一步地，所述筛选出所述相关性特征列表中的异常特征，通过对所述异常特征权重补偿以消除所述异常特征的位置偏差，获得初步补偿后的特征序列，包括：

采用公式(2)和(3)对所述相关性特征列表L_rank中的每个特征进行评分；

式中，σ₁、σ₂分别是不同的角度扩张特征和声学信号特征的评分列表；N表示语音总数；D(i,j)是L_rank中第i个特征的第j个语音信号的特征值；λ是惩罚系数；

针对σ₁和σ₂评分列表分别排序，列举出所述σ₁和σ₂评分列表中的离群值，并记录所述离群值在列表中的位置；所述离群值为所述相关性特征列表中的异常特征；

通过所述异常特征权重补偿算法消除所述异常特征的位置偏差，获得初步补偿后的特征序列。

进一步地，所述异常特征权重补偿算法，包括：

遍历所有设定范围内的离群值；

从第一个所述离群值开始，将所述离群值的排序位置向后顺延一位；

利用公式(2)和(3)进行计算，判断当前离群值的数量是否为零；

若当前离群值的数量不为零，重复将所述离群值的排序位置向后顺延一位，并利用公式(2)和(3)进行计算；若当前离群值的数量为零，继续遍历下一个离群值，并进行将所述离群值的排序位置向后顺延一位之后的运算，直至设定范围内的离群值的数量全部为零。

进一步地，所述建立动物声音情感分类识别模型，包括：

建立双向三层的LSTM模型，所述LSTM模型的结构如公式(4)所示：

式中，W_f、W_i、

W_o分别为忘记门、输入门、单元和输出门的权重，b_f、b_i、

b_o分别为W_f、W_i、

W_o所对应的偏置；x_t为输入序列；h_t为隐藏层状态；f_t为忘记门；i_t为输入门；o_t为输出门；C_t为当前单元。

进一步地，所述采用深度学习方法对所述模型进行训练，包括：

采用Softmax函数对所述初步补偿后的特征序列进行分类，表达式为：

其中，W_scij表示去除静音后的Softmax函数值；i和j分别代表第i个分类和第j个语音；i的上限是分类数量N_class；即声音分类总数；Result(j)则是分类结果。

进一步地，所述采用Softmax函数对所述二次补偿后的特征序列进行分类之后，还包括：

采用加权精度WA作为指标，以监测所述动物声音情感分类识别模型的整体性能；

通过公式(7)计算加权精度WA；

式中，TP_i代表每类的真正例，FP_i代表每类的假正例。

进一步地，所述采用Softmax函数对所述二次补偿后的特征序列进行分类，包括：通过计算将所述动物声音情感分为四类，包括：

S91、以L_rank长度的1/N_class为限，将序号范围属于[0,L_rank/N_class]的特征归为第一类，序号范围属于[L_rank/N_class+1,L_rank]的特征归为第四类；

S92、从第一类队列中挑选一个特征L_rankj，其中，j是特征序号；对所述特征L_rankj进行模型训练，输入特征的序号分别为：[1,j-1],[1,j],[1,j+1],[1,j+d],其中，d是待测试特征队列的宽度；

S93、如果位置为[1,j]的特征的WA值明显低于其他几组，将第j个特征调整为第三类；

S94、重复执行S92-S93，直至遍历第一类队列中的所有特征；

S95、从第四类队列中挑选一个特征L_rankj，其中j是特征序号，对所述特征L_rankj进行模型训练，输入特征的序号分别为：[1,j-d],…[1,j-1],[1,j]；

S96、当特征[1,j]的WA值明显高于其他几组时，将第j个特征调整为第二类；

S97、重复执行S95-S96，直至第四类队列中序号范围属于L_rank/N_class+1之后排名的特征。

一种动物声音情感特征集合排序识别系统，包括：

特征提取单元、特征排序单元、异常特征权重补偿单元及深度学习模型补偿单元；

所述特征提取单元用于获取动物声音的声学特征，并构建所述动物声音的特征集合；

所述特征排序单元用于根据所述特征集合进行动物情感分类标注，按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序，获得相关性特征列表；

所述异常特征权重补偿单元用于筛选出所述相关性特征列表中的异常特征，通过对所述异常特征权重补偿以消除所述异常特征的位置偏差，获得初步补偿后的特征序列；

所述深度学习模型补偿单元用于建立动物声音情感分类识别模型；根据所述初步补偿后的特征序列，采用深度学习方法对所述模型进行训练，获得二次补偿后的特征序列。

本发明通过特征提取来获得动物声音特征集，以海量的样本数量确保分类效果，开发人员还可以根据任务特点自定义特征因子，通过特征排序，以初步确定不同特征在情感识别任务中的可信度，通过异常特征权重补偿，以实现特征序列的初步调整，通过深度学习模型补偿，以进一步优化特征序列，从而使得声音情感识别的特征集合具有连续性和稳定性，提高声音情感识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为动物声音情感特征集合排序识别方法流程图；

图2为动物声音情感特征集合排序识别系统示意图；

图3为本发明中的动物声音情感分类识别模型示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例提供了一种动物声音情感特征集合排序识别方法，包括：

101、获取动物声音的声学特征，并构建动物声音的特征集合；

具体而言，将采集到的动物声音制作成音频，通过程序提取每个音频的多个特征，形成动物声音的特征集合，其中，每个音频对应216维基础的有效特征。

针对常见的声音分类任务，涉及的声学特征由低级描述符(low-leveldescriptors，LLDs)和高级统计函数(high-level statistical functions，HSF)构成。作为非个性化声学特征的重要组成，LLDs是一种动态的表达，它主要由能量、共振峰、音高、时长和发音等组成。HSF特征比LLDs具有更好的性能，例如，平均值、标准差等。针对现有的LLDs设计更为有效的HSF，使得重构的新型特征具有更强的鲁棒性和针对性，从而缩短当前输入特征与最佳特征集合之间的距离。

本实施例选择了以下的LLDs特征，如表1所示：

表1

选择了以下的HSF特征，如表2所示：

表2

HSF	含义
		Mean	均值
variance	方差
		StddevNorm	协方差
Percentile20	20分位数
		Percentile50	50分位数
Percentile80	80分位数
		Pctlrange0-2	20-80分位数
meanRisingSlope	上升信号包络均值
		stddevRisingSlope	上升信号包络标准差
meanFallingSlope	下降信号包络均值
		stddevFallingSlope	下降信号包络标准差
kurtosis	峰度
		skewness	偏度
quartile1-3	四分卫

将LLDs与HSF进行组合，便可获得海量的声学特征，作为下一个阶段的排序对象，组合形式如表3所示：

表3

102、根据特征集合进行动物情感分类标注，按照不同的动物情感类别标注对动物声音情感特征进行相关性分析并排序，获得相关性特征列表；

具体而言，为了初步确定不同特征在情感识别任务中的可信度，首先根据情感分类结果进行相关性分析。

本实施例用Person方法进行相关性分析，计算方法如公式(1)所示：

式中，

分别是变量x,y的均值，x_i，y_i分别是变量x,y的第i个观测点的值；样本相关系数r取值范围是[-1,1]，表示变量x,y的线性相关程度，r的绝对值越大，变量x,y的相关程度越强。

在针对所有的特征求取相关性之后，对其进行降序排序，从而获得一个基于相关性分析的特征列表L_rank。

103、筛选出相关性特征列表中的异常特征，通过对异常特征权重补偿以消除异常特征的位置偏差，获得初步补偿后的特征序列；

具体而言，获得的相关性特征序列，部分特征在列表中的位置存在偏差，这种偏差往往是由于特征的权重值过大导致的，将对情感识别的精度产生负面影响。提供公式(2)、(3)用于为L_rank中的每个特征进行评分。

式中，σ₁和σ₂是这些特征的评分列表，N表示语音总数，D(i,j)是队列L_rank第i个特征的第j个语音信号的特征值，λ是惩罚系数；σ₁和σ₂从不同的角度扩张特征的维度和声学信号的维度；针对σ₁和σ₂列表分别排序，列举出其中的离群值，并记录其在列表中的位置。

需要注意的是，此时设计人员可以根据所需特征的数量，人为规定离群值的阈值，超出该阈值的离群值可以不做考虑，这样可以提高排序的效率。

通过异常特征权重补偿算法可以消除序列中的离群值，也就是异常特征，具体为：

遍历所有设定范围内的离群值，进行如下操作：

1、从第一个离群值开始操作；

2、当前离群值排序位置向后顺延一位；

3、重复公式(2)和(3)的计算，判断当前离群值是否消失；

4、如果当前离群值未消失，重复第2步和第3步，如果当前离群值消失，继续遍历下一个离群值；

5、重复上述操作，直至所有设定范围内的离群值消失，结束操作。

通过上述操作，可以从理论上消除具有异常位置的特征，通过动态调整特征的排序，从而给出一个更加合理的特征排序队列。通过对于异常特征的权重补偿，实现了特征序列的初步调整。

104、建立动物声音情感分类识别模型；根据初步补偿后的特征序列，采用深度学习方法对模型进行训练，获得二次补偿后的特征序列；

具体而言，如图3所示，结合目标任务建立动物声音情感分类识别模型进行训练和验证，及时调整异常特征的排位。本实施例用深度学习方法来对模型进行训练及验证。深度学习方法可以从不同层次的输入中学习有效的声学信号的非线性表现形式，由于语音是基于时间序列的信息，其上下文之间存在着一定的关联，因此，考虑增加具有短期记忆能力的神经网络模型。

本实施例引入了LSTM来控制信息的累积速度，有选择地加入新的信息，并有选择地遗忘之前积累的信息。LSTM结构如公式(4)所示。

式中，W_f、W_i、

W_o分别是忘记门、输入门、单元(Cell)和输出门的权重，b_f、b_i、

b_o分别是对应的偏置，输入序列x_t将结合上一个隐藏层状态h_t-1，生成忘记门f_t。输入门i_t和输出门o_t也分别通过x_t和h_t-1的计算得到。忘记门f_t与上一个状态C_t-1联合决定数据是否保留。C_t为当前单元。

本实施例采用了双向三层的LSTM模型来对初步补偿后的特征序列进行特征有效性的验证。双向是指存在两个传递相反信息的循环层，正向按时间顺序传递信息，逆向按时间逆序传递信息。它意味着过去和未来的信息均可以成功捕获，这是由于情感表达的时序因素可以由当前时刻的前后若干帧的信息共同决定。

本实施例采用Softmax函数对初步补偿后的特征序列进行分类，表达式为：

本实施例采用加权精度WA作为指标，以监测动物声音情感分类识别模型的整体性能；

通过公式(7)计算加权精度WA；

式中，TP_i代表每类的真正例，FP_i代表每类的假正例；

通过计算将动物声音情感分为四类：

第一类：在二次补偿后的特征序列中排名较高，所述WA值较高；

第二类：在二次补偿后的特征序列中排名较低，所述WA值较高；

第三类：在二次补偿后的特征序列中排名较高，所述WA值较低；

第四类：在二次补偿后的特征序列中排名较低，所述WA值较低。

具体的分类算法如下：

1、以L_rank长度的1/N_class为限，将序号范围属于[0,L_rank/N_class]的特征归为第一类，序号范围属于[L_rank/N_class+1,L_rank]的特征归为第四类；

2、从第一类队列中挑选一个特征L_rankj，其中j是特征序号，对其进行多轮次的模型训练，输入特征的序号分别为：[1,j-1],[1,j],[1,j+1],[1,j+d],其中d是待测试特征队列的宽度；

3、如果位置为[1,j]的特征的WA值明显低于其他几组，将第j个特征调整为第三类；

4、重复执行步骤2和3，直至遍历第一类队列中的所有特征；

5、从第四类队列中挑选一个特征L_rankj，其中j是特征序号，对其进行多轮次的模型训练，输入特征的序号分别为：[1,j-d],…[1,j-1],[1,j]；

6、当特征[1,j]的WA值明显高于其他几组时，将第j个特征调整为第二类；

7、重复执行步骤5和6，直至第四类队列中序号范围属于L_rank/N_class+1之后排名的特征。

通过上述操作，可以获得四类特征的二次分布，这里第一类和第二类特征的WA较高，第三类和第四类的WA较低，我们重新对于异常特征进行补偿，即提升第二类特征的排名，下降第三类特征的排名，调整后的特征排名顺序如下：第一类—第二类—第三类—第四类。需要说明的是，考虑到识别效率的问题，第四类中排名最后的1/3特征没有进行深度学习模型训练，此时的精度损失是有限的。如果将全部的特征都应用于上述的算法中进行特征补偿，可以实现最高的精度，但是会降低程序运行的效率。

针对获得的特征序列，研究人员可以自定义截断点，即可获得所需特征列表。建议截断点的位置在第一类或第二类区间。

105、将动物的声音音频输入动物声音情感分类识别模型，根据二次补偿后的特征序列识别动物的声音情感。

具体而言，如图3所示，以原始音频作为模型的输入，在清除静音区域后，获得大量的声学特征，经过动物声音情感分类识别模型计算，得到二次补偿后的特征序列，再将二次补偿后的特征序列输入现有的自定义识别模型中，从而识别动物声音情感。

如图2所示，本实施例提供了一种动物声音情感特征集合排序识别系统，包括：特征提取单元、特征排序单元、异常特征权重补偿单元及深度学习模型补偿单元；

特征提取单元用于获取动物声音的声学特征，并构建动物声音的特征集合；特征排序单元用于根据特征集合进行动物情感分类标注，按照不同的动物情感类别标注对动物声音情感特征进行相关性分析并排序，获得相关性特征列表；异常特征权重补偿单元用于筛选出相关性特征列表中的异常特征，通过对异常特征权重补偿以消除异常特征的位置偏差，获得初步补偿后的特征序列；深度学习模型补偿单元用于建立动物声音情感分类识别模型；根据初步补偿后的特征序列，采用深度学习方法对模型进行训练及验证，获得二次补偿后的特征序列。

仿真实验：

实验时，对于每个语音段进行分帧处理，窗口长度为25ms，位移是10ms。特征被标准化为零均值。同时使用openSMILE toolkit用于为每帧的部分LLDs和HSF提取。使用Tensorflow框架进行网络模型结构的搭建，在LSTM模型中，Batch的大小为128，最大周期数为10000。同时设置学习速率为0.001。Dropout设置为0.5。采用Relu作为激活函数，Adam作为优化器，使用均方误差作为损失函数。

(一)异常特征权重初次补偿实验

本实验将对比添加权重补偿前后的识别效果。其中，基线：全部特征，特征集1：前1/3特征，特征集2：补偿后的全部特征，特征集3：补偿后的前1/3特征。四分类任务实验结果如表4所示。

表4

特征	WA	UA
			基线：全部特征	0.52	0.54
特征集1：前1/3特征	0.55	0.55
			特征集2：补偿后的全部特征	0.55	0.54
特征集3：补偿后的前1/3特征	0.57	0.59

由表4可见，特征集3(补偿后的前1/3特征)拥有最优的WA和UA，超过其他补偿特征的结果。由此可以确定补偿后的特征集合的有效性，特征集2(补偿后的前1/2特征)的效果稍逊一筹，说明只有当特征维度恰当时，情感识别的精度才会达到最高。

针对二分类任务，使用补偿后的前1/3特征实验结果如表5所示。

表5

分类任务	WA	UA
			anger-others	0.85	0.71
happy-others	0.7	0.59
			neutral-others	0.72	0.6
sad-others	0.82	0.62

(二)深度学习模型再次补偿实验

本实验将对比添加补偿前后的识别效果。其中，基线：全部特征，特征集2：深度学习模型补偿后的全部特征，特征集3：深度学习模型补偿后的第1类特征，特征集4：深度学习模型补偿后的第1-3类特征，特征集5：当前模型(深度学习模型补偿后的第1类和第2类特征)。四分类任务实验结果见表6。

表6

由表6可见，特征集5(补偿后的第1类和第2类特征)拥有最优的WA和UA，超过表4其他补偿特征的结果。由此可以确定深度学习模型补偿后的特征集合的有效性，我们发现仅第1类特征的效果稍逊一筹，说明当第2类特征在一定程度上，提升了精度，也是必不可少的类别。而特征集4添加了第3类特征，从WA和UA的效果看，第3类中的部分特征起到了负面的影响。

不同情感类别的混淆矩阵如表7所示。

表7

recognition accuracyUA	anger	happy	neu	sad
					anger	68.3％	13.3％	8.9％	9.5％
happy	14.3％	57.6％	21.6％	6.5％
					neu	8.6％	26.5％	59.4％	5.5％
sad	8.8％	2.6％	10.1％	78.5％

由表7结果可见，anger和sad类别的识别准确度较高，happy和neu类别的识别准确率较低。

针对二分类任务，使用补偿后的第1类和第2类特征实验结果如表8所示。

表8

分类任务	WA	UA
			anger-others	0.87	0.79
happy-others	0.71	0.63
			neutral-others	0.73	0.68
sad-others	0.83	0.78

对比表8和表5，可以看出，四个二分类任务的WA和UA都有不同程度的提升。证明了深度学习模型补偿后的特征集合的有效性。针对IEMOCAP语料库中的情感类别数量不均衡问题，此特征集合在一定程度上缓解了不均衡所带来的负面影响。对比此类特征集合与流行的单模态语音情感识别模型的精度，如表9所示。

表9

Model	Accuracy
		Lee and Tashev	0.62
Chernykh	0.54
		Neumann	0.56
Lakomkin	0.56
		Ours Model	0.66

对比表9中的实验结果，可以发现，同样使用单模态进行语音情感识别，利用本发明的特征集获得的精度较高，优于现有技术中的语音情感识别模型，这说明了本发明设计的重构特征和扩展特征的有效性。但是不能盲目的增加特征的维度，只有当特征维度恰当时，情感识别的精度才会有提升。此外，特征对于不同情感的有效性是不一样的，采用错误的特征可能对识别的精度产生负面影响。

通过实验还发现，在重构的36个特征中，95％特征全部出现在第1类特征队列中，其中68％出现在四分类任务中，出现在anger、happy、neutral、sad二分类任务的特征比例分别是12％、12％、6％、33％。其余5％特征出现在第2类队列中，通过实验验证了重构特征的有效性。需要说明的是，针对不同的分类任务，重构特征的有效性也不同。通过实验对比发现，对于识别sad类的影响最大。

为了确保识别的精度，这些分类任务的特征集合也是不同的。研究人员要根据任务的需求，综合各种考察因素，再确定特征的维度，选择合适长度的队列，这样可以确保快速的获得识别精度高的特征集合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。