CN112634947B - 一种动物声音情感特征集合排序识别方法及系统 - Google Patents
一种动物声音情感特征集合排序识别方法及系统 Download PDFInfo
- Publication number
- CN112634947B CN112634947B CN202011511415.7A CN202011511415A CN112634947B CN 112634947 B CN112634947 B CN 112634947B CN 202011511415 A CN202011511415 A CN 202011511415A CN 112634947 B CN112634947 B CN 112634947B
- Authority
- CN
- China
- Prior art keywords
- feature
- animal
- features
- compensation
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 16
- 230000002159 abnormal effect Effects 0.000 claims abstract description 46
- 238000013136 deep learning model Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 claims description 11
- 238000010219 correlation analysis Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 230000000630 rising effect Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 8
- 230000002996 emotional effect Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 150000001875 compounds Chemical class 0.000 claims description 4
- 230000004907 flux Effects 0.000 claims description 3
- 230000002547 anomalous effect Effects 0.000 claims 1
- 230000003111 delayed effect Effects 0.000 claims 1
- 230000010339 dilation Effects 0.000 claims 1
- 230000008909 emotion recognition Effects 0.000 abstract description 17
- 230000000694 effects Effects 0.000 abstract description 7
- 238000002474 experimental method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种动物声音情感特征集合排序识别方法,通过特征提取来获得动物声音特征集,以海量的样本数量确保分类效果,开发人员还可以根据任务特点自定义特征因子;通过特征排序,以初步确定不同特征在情感识别任务中的可信度;通过异常特征权重补偿,以实现特征序列的初步调整;通过深度学习模型补偿,以进一步优化特征序列,从而使得声音情感识别的特征集合具有连续性和稳定性,提高声音情感识别精度。
Description
技术领域
本发明涉及动物声音情感识别技术领域,尤其涉及一种动物声音情感特征集合排序识别方法及系统。
背景技术
基于动物声音的情感自动识别,对于动物物种、种群及数量研究,生态环境分析具有重要意义。声音作为一种通信形式,需要机器有足够的智能去识别动物的声音和动物的情感。伴随着机器学习、神经网络和深度学习理论的发展,声音情感分类等相关任务的精度在逐步提升,这对于计算机理解声音的表达提供了很大帮助。现有技术中对动物声音情感自动识别主要存在以下四方面问题:一是自然条件下,现有的声音情感识别精度较低;二是解决现有声音情感识别的特征集合缺少连续性和稳定性;三是样本数量较少时,现有的声音情感识别的分类效果不佳;四是开发人员无法根据任务特点自定义特征因子。
发明内容
本发明提供一种动物声音情感特征集合排序识别方法及系统,以克服上述四方面技术问题。
本发明一种动物声音情感特征集合排序识别方法,包括:
获取所述动物声音的声学特征,并构建所述动物声音的特征集合;
根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;
筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,获得初步补偿后的特征序列;
建立动物声音情感分类识别模型;根据所述初步补偿后的特征序列,采用深度学习方法对所述模型进行训练,获得二次补偿后的特征序列;
将动物的声音音频输入所述动物声音情感分类识别模型,根据所述二次补偿后的特征序列识别所述动物的声音情感。
进一步地,所述声学特征,包括:低级描述符和高级统计函数;
所述低级描述符,包括:
谱特征、共振峰、谐噪比、基频扰动、谐波、梅尔频率倒谱系数、振幅微扰、频谱斜率、谱通量、音强、等效声级及基频;
所述高级统计函数,包括:
均值、方差、协方差、20分位数、50分位数、80分位数、20-80分位数、上升信号包络均值、上升信号包络标准差、下降信号包络均值、下降信号包络标准差、偏度、峰度及四分卫。
进一步地,所述根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表,包括:
所述动物情感特征,包括:愤怒、高兴、平静及悲伤;
利用Person分析方法对所述动物情感特征进行相关性分析,计算方法如公式(1)所示:
对所有的所述动物情感特征求取相关性后进行降序排序,获得相关性特征列表Lrank。
进一步地,所述筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,获得初步补偿后的特征序列,包括:
采用公式(2)和(3)对所述相关性特征列表Lrank中的每个特征进行评分;
式中,σ1、σ2分别是不同的角度扩张特征和声学信号特征的评分列表;N表示语音总数;D(i,j)是Lrank中第i个特征的第j个语音信号的特征值;λ是惩罚系数;
针对σ1和σ2评分列表分别排序,列举出所述σ1和σ2评分列表中的离群值,并记录所述离群值在列表中的位置;所述离群值为所述相关性特征列表中的异常特征;
通过所述异常特征权重补偿算法消除所述异常特征的位置偏差,获得初步补偿后的特征序列。
进一步地,所述异常特征权重补偿算法,包括:
遍历所有设定范围内的离群值;
从第一个所述离群值开始,将所述离群值的排序位置向后顺延一位;
利用公式(2)和(3)进行计算,判断当前离群值的数量是否为零;
若当前离群值的数量不为零,重复将所述离群值的排序位置向后顺延一位,并利用公式(2)和(3)进行计算;若当前离群值的数量为零,继续遍历下一个离群值,并进行将所述离群值的排序位置向后顺延一位之后的运算,直至设定范围内的离群值的数量全部为零。
进一步地,所述建立动物声音情感分类识别模型,包括:
建立双向三层的LSTM模型,所述LSTM模型的结构如公式(4)所示:
式中,Wf、Wi、Wo分别为忘记门、输入门、单元和输出门的权重,bf、bi、bo分别为Wf、Wi、Wo所对应的偏置;xt为输入序列;ht为隐藏层状态;ft为忘记门;it为输入门;ot为输出门;Ct为当前单元。
进一步地,所述采用深度学习方法对所述模型进行训练,包括:
采用Softmax函数对所述初步补偿后的特征序列进行分类,表达式为:
其中,Wscij表示去除静音后的Softmax函数值;i和j分别代表第i个分类和第j个语音;i的上限是分类数量Nclass;即声音分类总数;Result(j)则是分类结果。
进一步地,所述采用Softmax函数对所述二次补偿后的特征序列进行分类之后,还包括:
采用加权精度WA作为指标,以监测所述动物声音情感分类识别模型的整体性能;
通过公式(7)计算加权精度WA;
式中,TPi代表每类的真正例,FPi代表每类的假正例。
进一步地,所述采用Softmax函数对所述二次补偿后的特征序列进行分类,包括:通过计算将所述动物声音情感分为四类,包括:
S91、以Lrank长度的1/Nclass为限,将序号范围属于[0,Lrank/Nclass]的特征归为第一类,序号范围属于[Lrank/Nclass+1,Lrank]的特征归为第四类;
S92、从第一类队列中挑选一个特征Lrankj,其中,j是特征序号;对所述特征Lrankj进行模型训练,输入特征的序号分别为:[1,j-1],[1,j],[1,j+1],[1,j+d],其中,d是待测试特征队列的宽度;
S93、如果位置为[1,j]的特征的WA值明显低于其他几组,将第j个特征调整为第三类;
S94、重复执行S92-S93,直至遍历第一类队列中的所有特征;
S95、从第四类队列中挑选一个特征Lrankj,其中j是特征序号,对所述特征Lrankj进行模型训练,输入特征的序号分别为:[1,j-d],…[1,j-1],[1,j];
S96、当特征[1,j]的WA值明显高于其他几组时,将第j个特征调整为第二类;
S97、重复执行S95-S96,直至第四类队列中序号范围属于Lrank/Nclass+1之后排名的特征。
一种动物声音情感特征集合排序识别系统,包括:
特征提取单元、特征排序单元、异常特征权重补偿单元及深度学习模型补偿单元;
所述特征提取单元用于获取动物声音的声学特征,并构建所述动物声音的特征集合;
所述特征排序单元用于根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;
所述异常特征权重补偿单元用于筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,获得初步补偿后的特征序列;
所述深度学习模型补偿单元用于建立动物声音情感分类识别模型;根据所述初步补偿后的特征序列,采用深度学习方法对所述模型进行训练,获得二次补偿后的特征序列。
本发明通过特征提取来获得动物声音特征集,以海量的样本数量确保分类效果,开发人员还可以根据任务特点自定义特征因子,通过特征排序,以初步确定不同特征在情感识别任务中的可信度,通过异常特征权重补偿,以实现特征序列的初步调整,通过深度学习模型补偿,以进一步优化特征序列,从而使得声音情感识别的特征集合具有连续性和稳定性,提高声音情感识别精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为动物声音情感特征集合排序识别方法流程图;
图2为动物声音情感特征集合排序识别系统示意图;
图3为本发明中的动物声音情感分类识别模型示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供了一种动物声音情感特征集合排序识别方法,包括:
101、获取动物声音的声学特征,并构建动物声音的特征集合;
具体而言,将采集到的动物声音制作成音频,通过程序提取每个音频的多个特征,形成动物声音的特征集合,其中,每个音频对应216维基础的有效特征。
针对常见的声音分类任务,涉及的声学特征由低级描述符(low-leveldescriptors,LLDs)和高级统计函数(high-level statistical functions,HSF)构成。作为非个性化声学特征的重要组成,LLDs是一种动态的表达,它主要由能量、共振峰、音高、时长和发音等组成。HSF特征比LLDs具有更好的性能,例如,平均值、标准差等。针对现有的LLDs设计更为有效的HSF,使得重构的新型特征具有更强的鲁棒性和针对性,从而缩短当前输入特征与最佳特征集合之间的距离。
本实施例选择了以下的LLDs特征,如表1所示:
表1
选择了以下的HSF特征,如表2所示:
表2
HSF | 含义 |
Mean | 均值 |
variance | 方差 |
StddevNorm | 协方差 |
Percentile20 | 20分位数 |
Percentile50 | 50分位数 |
Percentile80 | 80分位数 |
Pctlrange0-2 | 20-80分位数 |
meanRisingSlope | 上升信号包络均值 |
stddevRisingSlope | 上升信号包络标准差 |
meanFallingSlope | 下降信号包络均值 |
stddevFallingSlope | 下降信号包络标准差 |
kurtosis | 峰度 |
skewness | 偏度 |
quartile1-3 | 四分卫 |
将LLDs与HSF进行组合,便可获得海量的声学特征,作为下一个阶段的排序对象,组合形式如表3所示:
表3
102、根据特征集合进行动物情感分类标注,按照不同的动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;
具体而言,为了初步确定不同特征在情感识别任务中的可信度,首先根据情感分类结果进行相关性分析。
本实施例用Person方法进行相关性分析,计算方法如公式(1)所示:
在针对所有的特征求取相关性之后,对其进行降序排序,从而获得一个基于相关性分析的特征列表Lrank。
103、筛选出相关性特征列表中的异常特征,通过对异常特征权重补偿以消除异常特征的位置偏差,获得初步补偿后的特征序列;
具体而言,获得的相关性特征序列,部分特征在列表中的位置存在偏差,这种偏差往往是由于特征的权重值过大导致的,将对情感识别的精度产生负面影响。提供公式(2)、(3)用于为Lrank中的每个特征进行评分。
式中,σ1和σ2是这些特征的评分列表,N表示语音总数,D(i,j)是队列Lrank第i个特征的第j个语音信号的特征值,λ是惩罚系数;σ1和σ2从不同的角度扩张特征的维度和声学信号的维度;针对σ1和σ2列表分别排序,列举出其中的离群值,并记录其在列表中的位置。
需要注意的是,此时设计人员可以根据所需特征的数量,人为规定离群值的阈值,超出该阈值的离群值可以不做考虑,这样可以提高排序的效率。
通过异常特征权重补偿算法可以消除序列中的离群值,也就是异常特征,具体为:
遍历所有设定范围内的离群值,进行如下操作:
1、从第一个离群值开始操作;
2、当前离群值排序位置向后顺延一位;
3、重复公式(2)和(3)的计算,判断当前离群值是否消失;
4、如果当前离群值未消失,重复第2步和第3步,如果当前离群值消失,继续遍历下一个离群值;
5、重复上述操作,直至所有设定范围内的离群值消失,结束操作。
通过上述操作,可以从理论上消除具有异常位置的特征,通过动态调整特征的排序,从而给出一个更加合理的特征排序队列。通过对于异常特征的权重补偿,实现了特征序列的初步调整。
104、建立动物声音情感分类识别模型;根据初步补偿后的特征序列,采用深度学习方法对模型进行训练,获得二次补偿后的特征序列;
具体而言,如图3所示,结合目标任务建立动物声音情感分类识别模型进行训练和验证,及时调整异常特征的排位。本实施例用深度学习方法来对模型进行训练及验证。深度学习方法可以从不同层次的输入中学习有效的声学信号的非线性表现形式,由于语音是基于时间序列的信息,其上下文之间存在着一定的关联,因此,考虑增加具有短期记忆能力的神经网络模型。
本实施例引入了LSTM来控制信息的累积速度,有选择地加入新的信息,并有选择地遗忘之前积累的信息。LSTM结构如公式(4)所示。
式中,Wf、Wi、Wo分别是忘记门、输入门、单元(Cell)和输出门的权重,bf、bi、bo分别是对应的偏置,输入序列xt将结合上一个隐藏层状态ht-1,生成忘记门ft。输入门it和输出门ot也分别通过xt和ht-1的计算得到。忘记门ft与上一个状态Ct-1联合决定数据是否保留。Ct为当前单元。
本实施例采用了双向三层的LSTM模型来对初步补偿后的特征序列进行特征有效性的验证。双向是指存在两个传递相反信息的循环层,正向按时间顺序传递信息,逆向按时间逆序传递信息。它意味着过去和未来的信息均可以成功捕获,这是由于情感表达的时序因素可以由当前时刻的前后若干帧的信息共同决定。
本实施例采用Softmax函数对初步补偿后的特征序列进行分类,表达式为:
其中,Wscij表示去除静音后的Softmax函数值;i和j分别代表第i个分类和第j个语音;i的上限是分类数量Nclass;即声音分类总数;Result(j)则是分类结果。
本实施例采用加权精度WA作为指标,以监测动物声音情感分类识别模型的整体性能;
通过公式(7)计算加权精度WA;
式中,TPi代表每类的真正例,FPi代表每类的假正例;
通过计算将动物声音情感分为四类:
第一类:在二次补偿后的特征序列中排名较高,所述WA值较高;
第二类:在二次补偿后的特征序列中排名较低,所述WA值较高;
第三类:在二次补偿后的特征序列中排名较高,所述WA值较低;
第四类:在二次补偿后的特征序列中排名较低,所述WA值较低。
具体的分类算法如下:
1、以Lrank长度的1/Nclass为限,将序号范围属于[0,Lrank/Nclass]的特征归为第一类,序号范围属于[Lrank/Nclass+1,Lrank]的特征归为第四类;
2、从第一类队列中挑选一个特征Lrankj,其中j是特征序号,对其进行多轮次的模型训练,输入特征的序号分别为:[1,j-1],[1,j],[1,j+1],[1,j+d],其中d是待测试特征队列的宽度;
3、如果位置为[1,j]的特征的WA值明显低于其他几组,将第j个特征调整为第三类;
4、重复执行步骤2和3,直至遍历第一类队列中的所有特征;
5、从第四类队列中挑选一个特征Lrankj,其中j是特征序号,对其进行多轮次的模型训练,输入特征的序号分别为:[1,j-d],…[1,j-1],[1,j];
6、当特征[1,j]的WA值明显高于其他几组时,将第j个特征调整为第二类;
7、重复执行步骤5和6,直至第四类队列中序号范围属于Lrank/Nclass+1之后排名的特征。
通过上述操作,可以获得四类特征的二次分布,这里第一类和第二类特征的WA较高,第三类和第四类的WA较低,我们重新对于异常特征进行补偿,即提升第二类特征的排名,下降第三类特征的排名,调整后的特征排名顺序如下:第一类—第二类—第三类—第四类。需要说明的是,考虑到识别效率的问题,第四类中排名最后的1/3特征没有进行深度学习模型训练,此时的精度损失是有限的。如果将全部的特征都应用于上述的算法中进行特征补偿,可以实现最高的精度,但是会降低程序运行的效率。
针对获得的特征序列,研究人员可以自定义截断点,即可获得所需特征列表。建议截断点的位置在第一类或第二类区间。
105、将动物的声音音频输入动物声音情感分类识别模型,根据二次补偿后的特征序列识别动物的声音情感。
具体而言,如图3所示,以原始音频作为模型的输入,在清除静音区域后,获得大量的声学特征,经过动物声音情感分类识别模型计算,得到二次补偿后的特征序列,再将二次补偿后的特征序列输入现有的自定义识别模型中,从而识别动物声音情感。
如图2所示,本实施例提供了一种动物声音情感特征集合排序识别系统,包括:特征提取单元、特征排序单元、异常特征权重补偿单元及深度学习模型补偿单元;
特征提取单元用于获取动物声音的声学特征,并构建动物声音的特征集合;特征排序单元用于根据特征集合进行动物情感分类标注,按照不同的动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;异常特征权重补偿单元用于筛选出相关性特征列表中的异常特征,通过对异常特征权重补偿以消除异常特征的位置偏差,获得初步补偿后的特征序列;深度学习模型补偿单元用于建立动物声音情感分类识别模型;根据初步补偿后的特征序列,采用深度学习方法对模型进行训练及验证,获得二次补偿后的特征序列。
仿真实验:
实验时,对于每个语音段进行分帧处理,窗口长度为25ms,位移是10ms。特征被标准化为零均值。同时使用openSMILE toolkit用于为每帧的部分LLDs和HSF提取。使用Tensorflow框架进行网络模型结构的搭建,在LSTM模型中,Batch的大小为128,最大周期数为10000。同时设置学习速率为0.001。Dropout设置为0.5。采用Relu作为激活函数,Adam作为优化器,使用均方误差作为损失函数。
(一)异常特征权重初次补偿实验
本实验将对比添加权重补偿前后的识别效果。其中,基线:全部特征,特征集1:前1/3特征,特征集2:补偿后的全部特征,特征集3:补偿后的前1/3特征。四分类任务实验结果如表4所示。
表4
特征 | WA | UA |
基线:全部特征 | 0.52 | 0.54 |
特征集1:前1/3特征 | 0.55 | 0.55 |
特征集2:补偿后的全部特征 | 0.55 | 0.54 |
特征集3:补偿后的前1/3特征 | 0.57 | 0.59 |
由表4可见,特征集3(补偿后的前1/3特征)拥有最优的WA和UA,超过其他补偿特征的结果。由此可以确定补偿后的特征集合的有效性,特征集2(补偿后的前1/2特征)的效果稍逊一筹,说明只有当特征维度恰当时,情感识别的精度才会达到最高。
针对二分类任务,使用补偿后的前1/3特征实验结果如表5所示。
表5
分类任务 | WA | UA |
anger-others | 0.85 | 0.71 |
happy-others | 0.7 | 0.59 |
neutral-others | 0.72 | 0.6 |
sad-others | 0.82 | 0.62 |
(二)深度学习模型再次补偿实验
本实验将对比添加补偿前后的识别效果。其中,基线:全部特征,特征集2:深度学习模型补偿后的全部特征,特征集3:深度学习模型补偿后的第1类特征,特征集4:深度学习模型补偿后的第1-3类特征,特征集5:当前模型(深度学习模型补偿后的第1类和第2类特征)。四分类任务实验结果见表6。
表6
由表6可见,特征集5(补偿后的第1类和第2类特征)拥有最优的WA和UA,超过表4其他补偿特征的结果。由此可以确定深度学习模型补偿后的特征集合的有效性,我们发现仅第1类特征的效果稍逊一筹,说明当第2类特征在一定程度上,提升了精度,也是必不可少的类别。而特征集4添加了第3类特征,从WA和UA的效果看,第3类中的部分特征起到了负面的影响。
不同情感类别的混淆矩阵如表7所示。
表7
recognition accuracyUA | anger | happy | neu | sad |
anger | 68.3% | 13.3% | 8.9% | 9.5% |
happy | 14.3% | 57.6% | 21.6% | 6.5% |
neu | 8.6% | 26.5% | 59.4% | 5.5% |
sad | 8.8% | 2.6% | 10.1% | 78.5% |
由表7结果可见,anger和sad类别的识别准确度较高,happy和neu类别的识别准确率较低。
针对二分类任务,使用补偿后的第1类和第2类特征实验结果如表8所示。
表8
分类任务 | WA | UA |
anger-others | 0.87 | 0.79 |
happy-others | 0.71 | 0.63 |
neutral-others | 0.73 | 0.68 |
sad-others | 0.83 | 0.78 |
对比表8和表5,可以看出,四个二分类任务的WA和UA都有不同程度的提升。证明了深度学习模型补偿后的特征集合的有效性。针对IEMOCAP语料库中的情感类别数量不均衡问题,此特征集合在一定程度上缓解了不均衡所带来的负面影响。对比此类特征集合与流行的单模态语音情感识别模型的精度,如表9所示。
表9
Model | Accuracy |
Lee and Tashev | 0.62 |
Chernykh | 0.54 |
Neumann | 0.56 |
Lakomkin | 0.56 |
Ours Model | 0.66 |
对比表9中的实验结果,可以发现,同样使用单模态进行语音情感识别,利用本发明的特征集获得的精度较高,优于现有技术中的语音情感识别模型,这说明了本发明设计的重构特征和扩展特征的有效性。但是不能盲目的增加特征的维度,只有当特征维度恰当时,情感识别的精度才会有提升。此外,特征对于不同情感的有效性是不一样的,采用错误的特征可能对识别的精度产生负面影响。
通过实验还发现,在重构的36个特征中,95%特征全部出现在第1类特征队列中,其中68%出现在四分类任务中,出现在anger、happy、neutral、sad二分类任务的特征比例分别是12%、12%、6%、33%。其余5%特征出现在第2类队列中,通过实验验证了重构特征的有效性。需要说明的是,针对不同的分类任务,重构特征的有效性也不同。通过实验对比发现,对于识别sad类的影响最大。
为了确保识别的精度,这些分类任务的特征集合也是不同的。研究人员要根据任务的需求,综合各种考察因素,再确定特征的维度,选择合适长度的队列,这样可以确保快速的获得识别精度高的特征集合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种动物声音情感特征集合排序识别方法,其特征在于,包括:
获取所述动物声音的声学特征,并构建所述动物声音的特征集合;
根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;
筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,得初步补偿后的特征序列;
建立动物声音情感分类识别模型;根据所述初步补偿后的特征序列,采用深度学习方法对所述模型进行训练,获得二次补偿后的特征序列;
将动物的声音音频输入所述动物声音情感分类识别模型,根据所述二次补偿后的特征序列识别所述动物的声音情感。
2.根据权利要求1所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述声学特征,包括:低级描述符和高级统计函数;
所述低级描述符,包括:
谱特征、共振峰、谐噪比、基频扰动、谐波、梅尔频率倒谱系数、振幅微扰、频谱斜率、谱通量、音强、等效声级及基频;
所述高级统计函数,包括:
均值、方差、协方差、20分位数、50分位数、80分位数、20-80分位数、上升信号包络均值、上升信号包络标准差、下降信号包络均值、下降信号包络标准差、偏度、峰度及四分卫。
3.根据权利要求2所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表,包括:
所述动物情感特征,包括:愤怒、高兴、平静及悲伤;
利用Person分析方法对所述动物情感特征进行相关性分析,计算方法如公式(1)所示:
对所有的所述动物情感特征求取相关性后进行降序排序,获得相关性特征列表Lrank。
4.根据权利要求3所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,获得初步补偿后的特征序列,包括:
采用公式(2)和(3)对所述相关性特征列表Lrank中的每个特征进行评分;
式中,σ1、σ2分别是不同的角度扩张特征和声学信号特征的评分列表;N表示语音总数;D(i,j)是Lrank中第i个特征的第j个语音信号的特征值;λ是惩罚系数;
针对σ1和σ2评分列表分别排序,列举出所述σ1和σ2评分列表中的离群值,并记录所述离群值在列表中的位置;所述离群值为所述相关性特征列表中的异常特征;
通过所述异常特征权重补偿算法消除所述异常特征的位置偏差,获得初步补偿后的特征序列。
5.根据权利要求4所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述异常特征权重补偿算法,包括:
遍历所有设定范围内的离群值;
从第一个所述离群值开始,将所述离群值的排序位置向后顺延一位;
利用公式(2)和(3)进行计算,判断当前离群值的数量是否为零;
若当前离群值的数量不为零,重复将所述离群值的排序位置向后顺延一位,并利用公式(2)和(3)进行计算;若当前离群值的数量为零,继续遍历下一个离群值,并进行将所述离群值的排序位置向后顺延一位之后的运算,直至设定范围内的离群值的数量全部为零。
9.根据权利要求8所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述采用Softmax函数对所述二次补偿后的特征序列进行分类,包括:
通过计算将所述动物声音情感分为四类,包括:
S91、以Lrank长度的1/Nclass为限,将序号范围属于[0,Lrank/Nclass]的特征归为第一类,序号范围属于[Lrank/Nclass+1,Lrank]的特征归为第四类;
S92、从第一类队列中挑选一个特征Lrankj,其中,j是特征序号;对所述特征Lrankj进行模型训练,输入特征的序号分别为:[1,j-1],[1,j],[1,j+1],[1,j+d],其中,d是待测试特征队列的宽度;
S93、如果位置为[1,j]的特征的WA值低于其他几组,将第j个特征调整为第三类;
S94、重复执行S92-S93,直至遍历第一类队列中的所有特征;
S95、从第四类队列中挑选一个特征Lrankj,其中j是特征序号,对所述特征Lrankj进行模型训练,输入特征的序号分别为:[1,j-d],...[1,j-1],[1,j];
S96、当特征[1,j]的WA值高于其他几组时,将第j个特征调整为第二类;
S97、重复执行S95-S96,直至第四类队列中序号范围属于Lrank/Nclass+1之后排名的特征。
10.一种动物声音情感特征集合排序识别系统,其特征在于,包括:
特征提取单元、特征排序单元、异常特征权重补偿单元及深度学习模型补偿单元;
所述特征提取单元用于获取动物声音的声学特征,并构建所述动物声音的特征集合;所述声学特征,包括:低级描述符和高级统计函数;
所述低级描述符,包括:
谱特征、共振峰、谐噪比、基频扰动、谐波、梅尔频率倒谱系数、振幅微扰、频谱斜率、谱通量、音强、等效声级及基频;
所述高级统计函数,包括:
均值、方差、协方差、20分位数、50分位数、80分位数、20-80分位数、上升信号包络均值、上升信号包络标准差、下降信号包络均值、下降信号包络标准差、偏度、峰度及四分卫;
所述特征排序单元用于根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;
所述异常特征权重补偿单元用于筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,获得初步补偿后的特征序列;
所述深度学习模型补偿单元用于建立动物声音情感分类识别模型;根据所述初步补偿后的特征序列,采用深度学习方法对所述模型进行训练,获得二次补偿后的特征序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011511415.7A CN112634947B (zh) | 2020-12-18 | 2020-12-18 | 一种动物声音情感特征集合排序识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011511415.7A CN112634947B (zh) | 2020-12-18 | 2020-12-18 | 一种动物声音情感特征集合排序识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634947A CN112634947A (zh) | 2021-04-09 |
CN112634947B true CN112634947B (zh) | 2023-03-14 |
Family
ID=75317599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011511415.7A Active CN112634947B (zh) | 2020-12-18 | 2020-12-18 | 一种动物声音情感特征集合排序识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634947B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724683A (zh) * | 2022-04-06 | 2022-07-08 | 大连东软信息学院 | 一种通过间接式手段进行情感调节的装置与方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN106340309A (zh) * | 2016-08-23 | 2017-01-18 | 南京大空翼信息技术有限公司 | 一种基于深度学习的狗叫情感识别方法及装置 |
CN107274888A (zh) * | 2017-06-14 | 2017-10-20 | 大连海事大学 | 一种基于倍频程信号强度和差异化特征子集的情感语音识别方法 |
CN109272986A (zh) * | 2018-08-29 | 2019-01-25 | 昆明理工大学 | 一种基于人工神经网络的狗声音情感分类方法 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN110634491A (zh) * | 2019-10-23 | 2019-12-31 | 大连东软信息学院 | 语音信号中针对通用语音任务的串联特征提取系统及方法 |
CN110956953A (zh) * | 2019-11-29 | 2020-04-03 | 中山大学 | 基于音频分析与深度学习的争吵识别方法 |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
CN111951812A (zh) * | 2020-08-26 | 2020-11-17 | 杭州情咖网络技术有限公司 | 一种动物情感识别方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7054810B2 (en) * | 2000-10-06 | 2006-05-30 | International Business Machines Corporation | Feature vector-based apparatus and method for robust pattern recognition |
-
2020
- 2020-12-18 CN CN202011511415.7A patent/CN112634947B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263036B1 (en) * | 2012-11-29 | 2016-02-16 | Google Inc. | System and method for speech recognition using deep recurrent neural networks |
CN106340309A (zh) * | 2016-08-23 | 2017-01-18 | 南京大空翼信息技术有限公司 | 一种基于深度学习的狗叫情感识别方法及装置 |
CN107274888A (zh) * | 2017-06-14 | 2017-10-20 | 大连海事大学 | 一种基于倍频程信号强度和差异化特征子集的情感语音识别方法 |
CN109272986A (zh) * | 2018-08-29 | 2019-01-25 | 昆明理工大学 | 一种基于人工神经网络的狗声音情感分类方法 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN110634491A (zh) * | 2019-10-23 | 2019-12-31 | 大连东软信息学院 | 语音信号中针对通用语音任务的串联特征提取系统及方法 |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
CN110956953A (zh) * | 2019-11-29 | 2020-04-03 | 中山大学 | 基于音频分析与深度学习的争吵识别方法 |
CN111951812A (zh) * | 2020-08-26 | 2020-11-17 | 杭州情咖网络技术有限公司 | 一种动物情感识别方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
基于注意力LSTM的音乐主题推荐模型;贾宁,郑纯军;《计算机科学》;20191130;第46卷(第11A期);230-235 * |
语音任务下声学特征提取综述;郑纯军 等;《计算机科学》;20200531;第47卷(第5期);110-119 * |
Also Published As
Publication number | Publication date |
---|---|
CN112634947A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN107610707B (zh) | 一种声纹识别方法及装置 | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN112861984B (zh) | 一种基于特征融合与集成学习的语音情感分类方法 | |
CN108711421A (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
CN1302427A (zh) | 用于说话者认证的模型自适应系统和方法 | |
CN110047504B (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
CN111916108B (zh) | 一种语音评测方法及装置 | |
KR20010038049A (ko) | 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 | |
Ram et al. | Neural network based end-to-end query by example spoken term detection | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN110992959A (zh) | 一种语音识别方法及系统 | |
CN114678030A (zh) | 基于深度残差网络和注意力机制的声纹识别方法及装置 | |
Cao et al. | Speaker-independent speech emotion recognition based on random forest feature selection algorithm | |
CN111428030B (zh) | 一种语料分类的方法及系统 | |
CN112634947B (zh) | 一种动物声音情感特征集合排序识别方法及系统 | |
CN116052718A (zh) | 音频测评模型训练方法和装置、音频测评方法和装置 | |
CN111081273A (zh) | 一种基于声门波信号特征提取的语音情感识别方法 | |
CN112052686B (zh) | 一种用户交互式教育的语音学习资源推送方法 | |
Sarkar et al. | Raga identification from Hindustani classical music signal using compositional properties | |
Ge et al. | Speaker change detection using features through a neural network speaker classifier | |
Singh et al. | Speaker Recognition Assessment in a Continuous System for Speaker Identification | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
CN108831487B (zh) | 声纹识别方法、电子装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |