CN112634947B - 一种动物声音情感特征集合排序识别方法及系统 - Google Patents

一种动物声音情感特征集合排序识别方法及系统 Download PDF

Info

Publication number
CN112634947B
CN112634947B CN202011511415.7A CN202011511415A CN112634947B CN 112634947 B CN112634947 B CN 112634947B CN 202011511415 A CN202011511415 A CN 202011511415A CN 112634947 B CN112634947 B CN 112634947B
Authority
CN
China
Prior art keywords
feature
animal
features
compensation
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011511415.7A
Other languages
English (en)
Other versions
CN112634947A (zh
Inventor
贾宁
郑纯军
李帅
叶剑锋
郭耸
关思雨
崔新明
王江浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Neusoft University of Information
Original Assignee
Dalian Neusoft University of Information
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Neusoft University of Information filed Critical Dalian Neusoft University of Information
Priority to CN202011511415.7A priority Critical patent/CN112634947B/zh
Publication of CN112634947A publication Critical patent/CN112634947A/zh
Application granted granted Critical
Publication of CN112634947B publication Critical patent/CN112634947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种动物声音情感特征集合排序识别方法,通过特征提取来获得动物声音特征集,以海量的样本数量确保分类效果,开发人员还可以根据任务特点自定义特征因子;通过特征排序,以初步确定不同特征在情感识别任务中的可信度;通过异常特征权重补偿,以实现特征序列的初步调整;通过深度学习模型补偿,以进一步优化特征序列,从而使得声音情感识别的特征集合具有连续性和稳定性,提高声音情感识别精度。

Description

一种动物声音情感特征集合排序识别方法及系统
技术领域
本发明涉及动物声音情感识别技术领域,尤其涉及一种动物声音情感特征集合排序识别方法及系统。
背景技术
基于动物声音的情感自动识别,对于动物物种、种群及数量研究,生态环境分析具有重要意义。声音作为一种通信形式,需要机器有足够的智能去识别动物的声音和动物的情感。伴随着机器学习、神经网络和深度学习理论的发展,声音情感分类等相关任务的精度在逐步提升,这对于计算机理解声音的表达提供了很大帮助。现有技术中对动物声音情感自动识别主要存在以下四方面问题:一是自然条件下,现有的声音情感识别精度较低;二是解决现有声音情感识别的特征集合缺少连续性和稳定性;三是样本数量较少时,现有的声音情感识别的分类效果不佳;四是开发人员无法根据任务特点自定义特征因子。
发明内容
本发明提供一种动物声音情感特征集合排序识别方法及系统,以克服上述四方面技术问题。
本发明一种动物声音情感特征集合排序识别方法,包括:
获取所述动物声音的声学特征,并构建所述动物声音的特征集合;
根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;
筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,获得初步补偿后的特征序列;
建立动物声音情感分类识别模型;根据所述初步补偿后的特征序列,采用深度学习方法对所述模型进行训练,获得二次补偿后的特征序列;
将动物的声音音频输入所述动物声音情感分类识别模型,根据所述二次补偿后的特征序列识别所述动物的声音情感。
进一步地,所述声学特征,包括:低级描述符和高级统计函数;
所述低级描述符,包括:
谱特征、共振峰、谐噪比、基频扰动、谐波、梅尔频率倒谱系数、振幅微扰、频谱斜率、谱通量、音强、等效声级及基频;
所述高级统计函数,包括:
均值、方差、协方差、20分位数、50分位数、80分位数、20-80分位数、上升信号包络均值、上升信号包络标准差、下降信号包络均值、下降信号包络标准差、偏度、峰度及四分卫。
进一步地,所述根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表,包括:
所述动物情感特征,包括:愤怒、高兴、平静及悲伤;
利用Person分析方法对所述动物情感特征进行相关性分析,计算方法如公式(1)所示:
Figure BDA0002846514260000021
式中,
Figure BDA0002846514260000022
分别是变量x、y的均值,xi、yi分别是变量x,y的第i个观测点的值;样本相关系数r的取值范围是[-1,1],r的绝对值越大,变量x、y的相关程度越强;n是特征维数;
对所有的所述动物情感特征求取相关性后进行降序排序,获得相关性特征列表Lrank
进一步地,所述筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,获得初步补偿后的特征序列,包括:
采用公式(2)和(3)对所述相关性特征列表Lrank中的每个特征进行评分;
Figure BDA0002846514260000023
Figure BDA0002846514260000024
式中,σ1、σ2分别是不同的角度扩张特征和声学信号特征的评分列表;N表示语音总数;D(i,j)是Lrank中第i个特征的第j个语音信号的特征值;λ是惩罚系数;
针对σ1和σ2评分列表分别排序,列举出所述σ1和σ2评分列表中的离群值,并记录所述离群值在列表中的位置;所述离群值为所述相关性特征列表中的异常特征;
通过所述异常特征权重补偿算法消除所述异常特征的位置偏差,获得初步补偿后的特征序列。
进一步地,所述异常特征权重补偿算法,包括:
遍历所有设定范围内的离群值;
从第一个所述离群值开始,将所述离群值的排序位置向后顺延一位;
利用公式(2)和(3)进行计算,判断当前离群值的数量是否为零;
若当前离群值的数量不为零,重复将所述离群值的排序位置向后顺延一位,并利用公式(2)和(3)进行计算;若当前离群值的数量为零,继续遍历下一个离群值,并进行将所述离群值的排序位置向后顺延一位之后的运算,直至设定范围内的离群值的数量全部为零。
进一步地,所述建立动物声音情感分类识别模型,包括:
建立双向三层的LSTM模型,所述LSTM模型的结构如公式(4)所示:
Figure BDA0002846514260000031
式中,Wf、Wi
Figure BDA0002846514260000032
Wo分别为忘记门、输入门、单元和输出门的权重,bf、bi
Figure BDA0002846514260000033
bo分别为Wf、Wi
Figure BDA0002846514260000034
Wo所对应的偏置;xt为输入序列;ht为隐藏层状态;ft为忘记门;it为输入门;ot为输出门;Ct为当前单元。
进一步地,所述采用深度学习方法对所述模型进行训练,包括:
采用Softmax函数对所述初步补偿后的特征序列进行分类,表达式为:
Figure BDA0002846514260000035
Figure BDA0002846514260000041
其中,Wscij表示去除静音后的Softmax函数值;i和j分别代表第i个分类和第j个语音;i的上限是分类数量Nclass;即声音分类总数;Result(j)则是分类结果。
进一步地,所述采用Softmax函数对所述二次补偿后的特征序列进行分类之后,还包括:
采用加权精度WA作为指标,以监测所述动物声音情感分类识别模型的整体性能;
通过公式(7)计算加权精度WA;
Figure BDA0002846514260000042
式中,TPi代表每类的真正例,FPi代表每类的假正例。
进一步地,所述采用Softmax函数对所述二次补偿后的特征序列进行分类,包括:通过计算将所述动物声音情感分为四类,包括:
S91、以Lrank长度的1/Nclass为限,将序号范围属于[0,Lrank/Nclass]的特征归为第一类,序号范围属于[Lrank/Nclass+1,Lrank]的特征归为第四类;
S92、从第一类队列中挑选一个特征Lrankj,其中,j是特征序号;对所述特征Lrankj进行模型训练,输入特征的序号分别为:[1,j-1],[1,j],[1,j+1],[1,j+d],其中,d是待测试特征队列的宽度;
S93、如果位置为[1,j]的特征的WA值明显低于其他几组,将第j个特征调整为第三类;
S94、重复执行S92-S93,直至遍历第一类队列中的所有特征;
S95、从第四类队列中挑选一个特征Lrankj,其中j是特征序号,对所述特征Lrankj进行模型训练,输入特征的序号分别为:[1,j-d],…[1,j-1],[1,j];
S96、当特征[1,j]的WA值明显高于其他几组时,将第j个特征调整为第二类;
S97、重复执行S95-S96,直至第四类队列中序号范围属于Lrank/Nclass+1之后排名的特征。
一种动物声音情感特征集合排序识别系统,包括:
特征提取单元、特征排序单元、异常特征权重补偿单元及深度学习模型补偿单元;
所述特征提取单元用于获取动物声音的声学特征,并构建所述动物声音的特征集合;
所述特征排序单元用于根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;
所述异常特征权重补偿单元用于筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,获得初步补偿后的特征序列;
所述深度学习模型补偿单元用于建立动物声音情感分类识别模型;根据所述初步补偿后的特征序列,采用深度学习方法对所述模型进行训练,获得二次补偿后的特征序列。
本发明通过特征提取来获得动物声音特征集,以海量的样本数量确保分类效果,开发人员还可以根据任务特点自定义特征因子,通过特征排序,以初步确定不同特征在情感识别任务中的可信度,通过异常特征权重补偿,以实现特征序列的初步调整,通过深度学习模型补偿,以进一步优化特征序列,从而使得声音情感识别的特征集合具有连续性和稳定性,提高声音情感识别精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为动物声音情感特征集合排序识别方法流程图;
图2为动物声音情感特征集合排序识别系统示意图;
图3为本发明中的动物声音情感分类识别模型示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供了一种动物声音情感特征集合排序识别方法,包括:
101、获取动物声音的声学特征,并构建动物声音的特征集合;
具体而言,将采集到的动物声音制作成音频,通过程序提取每个音频的多个特征,形成动物声音的特征集合,其中,每个音频对应216维基础的有效特征。
针对常见的声音分类任务,涉及的声学特征由低级描述符(low-leveldescriptors,LLDs)和高级统计函数(high-level statistical functions,HSF)构成。作为非个性化声学特征的重要组成,LLDs是一种动态的表达,它主要由能量、共振峰、音高、时长和发音等组成。HSF特征比LLDs具有更好的性能,例如,平均值、标准差等。针对现有的LLDs设计更为有效的HSF,使得重构的新型特征具有更强的鲁棒性和针对性,从而缩短当前输入特征与最佳特征集合之间的距离。
本实施例选择了以下的LLDs特征,如表1所示:
表1
Figure BDA0002846514260000061
Figure BDA0002846514260000071
选择了以下的HSF特征,如表2所示:
表2
HSF 含义
Mean 均值
variance 方差
StddevNorm 协方差
Percentile20 20分位数
Percentile50 50分位数
Percentile80 80分位数
Pctlrange0-2 20-80分位数
meanRisingSlope 上升信号包络均值
stddevRisingSlope 上升信号包络标准差
meanFallingSlope 下降信号包络均值
stddevFallingSlope 下降信号包络标准差
kurtosis 峰度
skewness 偏度
quartile1-3 四分卫
将LLDs与HSF进行组合,便可获得海量的声学特征,作为下一个阶段的排序对象,组合形式如表3所示:
表3
Figure BDA0002846514260000072
Figure BDA0002846514260000081
102、根据特征集合进行动物情感分类标注,按照不同的动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;
具体而言,为了初步确定不同特征在情感识别任务中的可信度,首先根据情感分类结果进行相关性分析。
本实施例用Person方法进行相关性分析,计算方法如公式(1)所示:
Figure BDA0002846514260000082
式中,
Figure BDA0002846514260000083
分别是变量x,y的均值,xi,yi分别是变量x,y的第i个观测点的值;样本相关系数r取值范围是[-1,1],表示变量x,y的线性相关程度,r的绝对值越大,变量x,y的相关程度越强。
在针对所有的特征求取相关性之后,对其进行降序排序,从而获得一个基于相关性分析的特征列表Lrank
103、筛选出相关性特征列表中的异常特征,通过对异常特征权重补偿以消除异常特征的位置偏差,获得初步补偿后的特征序列;
具体而言,获得的相关性特征序列,部分特征在列表中的位置存在偏差,这种偏差往往是由于特征的权重值过大导致的,将对情感识别的精度产生负面影响。提供公式(2)、(3)用于为Lrank中的每个特征进行评分。
Figure BDA0002846514260000091
Figure BDA0002846514260000092
式中,σ1和σ2是这些特征的评分列表,N表示语音总数,D(i,j)是队列Lrank第i个特征的第j个语音信号的特征值,λ是惩罚系数;σ1和σ2从不同的角度扩张特征的维度和声学信号的维度;针对σ1和σ2列表分别排序,列举出其中的离群值,并记录其在列表中的位置。
需要注意的是,此时设计人员可以根据所需特征的数量,人为规定离群值的阈值,超出该阈值的离群值可以不做考虑,这样可以提高排序的效率。
通过异常特征权重补偿算法可以消除序列中的离群值,也就是异常特征,具体为:
遍历所有设定范围内的离群值,进行如下操作:
1、从第一个离群值开始操作;
2、当前离群值排序位置向后顺延一位;
3、重复公式(2)和(3)的计算,判断当前离群值是否消失;
4、如果当前离群值未消失,重复第2步和第3步,如果当前离群值消失,继续遍历下一个离群值;
5、重复上述操作,直至所有设定范围内的离群值消失,结束操作。
通过上述操作,可以从理论上消除具有异常位置的特征,通过动态调整特征的排序,从而给出一个更加合理的特征排序队列。通过对于异常特征的权重补偿,实现了特征序列的初步调整。
104、建立动物声音情感分类识别模型;根据初步补偿后的特征序列,采用深度学习方法对模型进行训练,获得二次补偿后的特征序列;
具体而言,如图3所示,结合目标任务建立动物声音情感分类识别模型进行训练和验证,及时调整异常特征的排位。本实施例用深度学习方法来对模型进行训练及验证。深度学习方法可以从不同层次的输入中学习有效的声学信号的非线性表现形式,由于语音是基于时间序列的信息,其上下文之间存在着一定的关联,因此,考虑增加具有短期记忆能力的神经网络模型。
本实施例引入了LSTM来控制信息的累积速度,有选择地加入新的信息,并有选择地遗忘之前积累的信息。LSTM结构如公式(4)所示。
Figure BDA0002846514260000101
式中,Wf、Wi
Figure BDA0002846514260000102
Wo分别是忘记门、输入门、单元(Cell)和输出门的权重,bf、bi
Figure BDA0002846514260000103
bo分别是对应的偏置,输入序列xt将结合上一个隐藏层状态ht-1,生成忘记门ft。输入门it和输出门ot也分别通过xt和ht-1的计算得到。忘记门ft与上一个状态Ct-1联合决定数据是否保留。Ct为当前单元。
本实施例采用了双向三层的LSTM模型来对初步补偿后的特征序列进行特征有效性的验证。双向是指存在两个传递相反信息的循环层,正向按时间顺序传递信息,逆向按时间逆序传递信息。它意味着过去和未来的信息均可以成功捕获,这是由于情感表达的时序因素可以由当前时刻的前后若干帧的信息共同决定。
本实施例采用Softmax函数对初步补偿后的特征序列进行分类,表达式为:
Figure BDA0002846514260000104
Figure BDA0002846514260000105
其中,Wscij表示去除静音后的Softmax函数值;i和j分别代表第i个分类和第j个语音;i的上限是分类数量Nclass;即声音分类总数;Result(j)则是分类结果。
本实施例采用加权精度WA作为指标,以监测动物声音情感分类识别模型的整体性能;
通过公式(7)计算加权精度WA;
Figure BDA0002846514260000111
式中,TPi代表每类的真正例,FPi代表每类的假正例;
通过计算将动物声音情感分为四类:
第一类:在二次补偿后的特征序列中排名较高,所述WA值较高;
第二类:在二次补偿后的特征序列中排名较低,所述WA值较高;
第三类:在二次补偿后的特征序列中排名较高,所述WA值较低;
第四类:在二次补偿后的特征序列中排名较低,所述WA值较低。
具体的分类算法如下:
1、以Lrank长度的1/Nclass为限,将序号范围属于[0,Lrank/Nclass]的特征归为第一类,序号范围属于[Lrank/Nclass+1,Lrank]的特征归为第四类;
2、从第一类队列中挑选一个特征Lrankj,其中j是特征序号,对其进行多轮次的模型训练,输入特征的序号分别为:[1,j-1],[1,j],[1,j+1],[1,j+d],其中d是待测试特征队列的宽度;
3、如果位置为[1,j]的特征的WA值明显低于其他几组,将第j个特征调整为第三类;
4、重复执行步骤2和3,直至遍历第一类队列中的所有特征;
5、从第四类队列中挑选一个特征Lrankj,其中j是特征序号,对其进行多轮次的模型训练,输入特征的序号分别为:[1,j-d],…[1,j-1],[1,j];
6、当特征[1,j]的WA值明显高于其他几组时,将第j个特征调整为第二类;
7、重复执行步骤5和6,直至第四类队列中序号范围属于Lrank/Nclass+1之后排名的特征。
通过上述操作,可以获得四类特征的二次分布,这里第一类和第二类特征的WA较高,第三类和第四类的WA较低,我们重新对于异常特征进行补偿,即提升第二类特征的排名,下降第三类特征的排名,调整后的特征排名顺序如下:第一类—第二类—第三类—第四类。需要说明的是,考虑到识别效率的问题,第四类中排名最后的1/3特征没有进行深度学习模型训练,此时的精度损失是有限的。如果将全部的特征都应用于上述的算法中进行特征补偿,可以实现最高的精度,但是会降低程序运行的效率。
针对获得的特征序列,研究人员可以自定义截断点,即可获得所需特征列表。建议截断点的位置在第一类或第二类区间。
105、将动物的声音音频输入动物声音情感分类识别模型,根据二次补偿后的特征序列识别动物的声音情感。
具体而言,如图3所示,以原始音频作为模型的输入,在清除静音区域后,获得大量的声学特征,经过动物声音情感分类识别模型计算,得到二次补偿后的特征序列,再将二次补偿后的特征序列输入现有的自定义识别模型中,从而识别动物声音情感。
如图2所示,本实施例提供了一种动物声音情感特征集合排序识别系统,包括:特征提取单元、特征排序单元、异常特征权重补偿单元及深度学习模型补偿单元;
特征提取单元用于获取动物声音的声学特征,并构建动物声音的特征集合;特征排序单元用于根据特征集合进行动物情感分类标注,按照不同的动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;异常特征权重补偿单元用于筛选出相关性特征列表中的异常特征,通过对异常特征权重补偿以消除异常特征的位置偏差,获得初步补偿后的特征序列;深度学习模型补偿单元用于建立动物声音情感分类识别模型;根据初步补偿后的特征序列,采用深度学习方法对模型进行训练及验证,获得二次补偿后的特征序列。
仿真实验:
实验时,对于每个语音段进行分帧处理,窗口长度为25ms,位移是10ms。特征被标准化为零均值。同时使用openSMILE toolkit用于为每帧的部分LLDs和HSF提取。使用Tensorflow框架进行网络模型结构的搭建,在LSTM模型中,Batch的大小为128,最大周期数为10000。同时设置学习速率为0.001。Dropout设置为0.5。采用Relu作为激活函数,Adam作为优化器,使用均方误差作为损失函数。
(一)异常特征权重初次补偿实验
本实验将对比添加权重补偿前后的识别效果。其中,基线:全部特征,特征集1:前1/3特征,特征集2:补偿后的全部特征,特征集3:补偿后的前1/3特征。四分类任务实验结果如表4所示。
表4
特征 WA UA
基线:全部特征 0.52 0.54
特征集1:前1/3特征 0.55 0.55
特征集2:补偿后的全部特征 0.55 0.54
特征集3:补偿后的前1/3特征 0.57 0.59
由表4可见,特征集3(补偿后的前1/3特征)拥有最优的WA和UA,超过其他补偿特征的结果。由此可以确定补偿后的特征集合的有效性,特征集2(补偿后的前1/2特征)的效果稍逊一筹,说明只有当特征维度恰当时,情感识别的精度才会达到最高。
针对二分类任务,使用补偿后的前1/3特征实验结果如表5所示。
表5
分类任务 WA UA
anger-others 0.85 0.71
happy-others 0.7 0.59
neutral-others 0.72 0.6
sad-others 0.82 0.62
(二)深度学习模型再次补偿实验
本实验将对比添加补偿前后的识别效果。其中,基线:全部特征,特征集2:深度学习模型补偿后的全部特征,特征集3:深度学习模型补偿后的第1类特征,特征集4:深度学习模型补偿后的第1-3类特征,特征集5:当前模型(深度学习模型补偿后的第1类和第2类特征)。四分类任务实验结果见表6。
表6
Figure BDA0002846514260000131
Figure BDA0002846514260000141
由表6可见,特征集5(补偿后的第1类和第2类特征)拥有最优的WA和UA,超过表4其他补偿特征的结果。由此可以确定深度学习模型补偿后的特征集合的有效性,我们发现仅第1类特征的效果稍逊一筹,说明当第2类特征在一定程度上,提升了精度,也是必不可少的类别。而特征集4添加了第3类特征,从WA和UA的效果看,第3类中的部分特征起到了负面的影响。
不同情感类别的混淆矩阵如表7所示。
表7
recognition accuracyUA anger happy neu sad
anger 68.3% 13.3% 8.9% 9.5%
happy 14.3% 57.6% 21.6% 6.5%
neu 8.6% 26.5% 59.4% 5.5%
sad 8.8% 2.6% 10.1% 78.5%
由表7结果可见,anger和sad类别的识别准确度较高,happy和neu类别的识别准确率较低。
针对二分类任务,使用补偿后的第1类和第2类特征实验结果如表8所示。
表8
分类任务 WA UA
anger-others 0.87 0.79
happy-others 0.71 0.63
neutral-others 0.73 0.68
sad-others 0.83 0.78
对比表8和表5,可以看出,四个二分类任务的WA和UA都有不同程度的提升。证明了深度学习模型补偿后的特征集合的有效性。针对IEMOCAP语料库中的情感类别数量不均衡问题,此特征集合在一定程度上缓解了不均衡所带来的负面影响。对比此类特征集合与流行的单模态语音情感识别模型的精度,如表9所示。
表9
Model Accuracy
Lee and Tashev 0.62
Chernykh 0.54
Neumann 0.56
Lakomkin 0.56
Ours Model 0.66
对比表9中的实验结果,可以发现,同样使用单模态进行语音情感识别,利用本发明的特征集获得的精度较高,优于现有技术中的语音情感识别模型,这说明了本发明设计的重构特征和扩展特征的有效性。但是不能盲目的增加特征的维度,只有当特征维度恰当时,情感识别的精度才会有提升。此外,特征对于不同情感的有效性是不一样的,采用错误的特征可能对识别的精度产生负面影响。
通过实验还发现,在重构的36个特征中,95%特征全部出现在第1类特征队列中,其中68%出现在四分类任务中,出现在anger、happy、neutral、sad二分类任务的特征比例分别是12%、12%、6%、33%。其余5%特征出现在第2类队列中,通过实验验证了重构特征的有效性。需要说明的是,针对不同的分类任务,重构特征的有效性也不同。通过实验对比发现,对于识别sad类的影响最大。
为了确保识别的精度,这些分类任务的特征集合也是不同的。研究人员要根据任务的需求,综合各种考察因素,再确定特征的维度,选择合适长度的队列,这样可以确保快速的获得识别精度高的特征集合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种动物声音情感特征集合排序识别方法,其特征在于,包括:
获取所述动物声音的声学特征,并构建所述动物声音的特征集合;
根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;
筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,得初步补偿后的特征序列;
建立动物声音情感分类识别模型;根据所述初步补偿后的特征序列,采用深度学习方法对所述模型进行训练,获得二次补偿后的特征序列;
将动物的声音音频输入所述动物声音情感分类识别模型,根据所述二次补偿后的特征序列识别所述动物的声音情感。
2.根据权利要求1所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述声学特征,包括:低级描述符和高级统计函数;
所述低级描述符,包括:
谱特征、共振峰、谐噪比、基频扰动、谐波、梅尔频率倒谱系数、振幅微扰、频谱斜率、谱通量、音强、等效声级及基频;
所述高级统计函数,包括:
均值、方差、协方差、20分位数、50分位数、80分位数、20-80分位数、上升信号包络均值、上升信号包络标准差、下降信号包络均值、下降信号包络标准差、偏度、峰度及四分卫。
3.根据权利要求2所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表,包括:
所述动物情感特征,包括:愤怒、高兴、平静及悲伤;
利用Person分析方法对所述动物情感特征进行相关性分析,计算方法如公式(1)所示:
Figure FDA0004067440310000011
式中,
Figure FDA0004067440310000021
分别是变量x、y的均值,xi、yi分别是变量x,y的第i个观测点的值;样本相关系数r的取值范围是[-1,1],r的绝对值越大,变量x、y的相关程度越强;n是特征维数;
对所有的所述动物情感特征求取相关性后进行降序排序,获得相关性特征列表Lrank
4.根据权利要求3所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,获得初步补偿后的特征序列,包括:
采用公式(2)和(3)对所述相关性特征列表Lrank中的每个特征进行评分;
Figure FDA0004067440310000025
Figure FDA0004067440310000024
式中,σ1、σ2分别是不同的角度扩张特征和声学信号特征的评分列表;N表示语音总数;D(i,j)是Lrank中第i个特征的第j个语音信号的特征值;λ是惩罚系数;
针对σ1和σ2评分列表分别排序,列举出所述σ1和σ2评分列表中的离群值,并记录所述离群值在列表中的位置;所述离群值为所述相关性特征列表中的异常特征;
通过所述异常特征权重补偿算法消除所述异常特征的位置偏差,获得初步补偿后的特征序列。
5.根据权利要求4所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述异常特征权重补偿算法,包括:
遍历所有设定范围内的离群值;
从第一个所述离群值开始,将所述离群值的排序位置向后顺延一位;
利用公式(2)和(3)进行计算,判断当前离群值的数量是否为零;
若当前离群值的数量不为零,重复将所述离群值的排序位置向后顺延一位,并利用公式(2)和(3)进行计算;若当前离群值的数量为零,继续遍历下一个离群值,并进行将所述离群值的排序位置向后顺延一位之后的运算,直至设定范围内的离群值的数量全部为零。
6.根据权利要求5所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述建立动物声音情感分类识别模型,包括:
建立双向三层的LSTM模型,所述LSTM模型的结构如公式(4)所示:
Figure FDA0004067440310000031
式中,Wf、Wi
Figure FDA0004067440310000035
Wo分别为忘记门、输入门、单元和输出门的权重,bf、bi
Figure FDA0004067440310000037
bo分别为Wf、Wi
Figure FDA0004067440310000036
Wo所对应的偏置;xt为输入序列;ht为隐藏层状态;ft为忘记门;it为输入门;ot为输出门;Ct为当前单元。
7.根据权利要求6所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述采用深度学习方法对所述模型进行训练,包括:
采用Softmax函数对所述初步补偿后的特征序列进行分类,表达式为:
Figure FDA0004067440310000032
Figure FDA0004067440310000033
其中,Wscij表示去除静音后的Softmax函数值;i和j分别代表第i个分类和第j个语音;i的上限是分类数量Nclass;即声音分类总数;Result(j)则是分类结果。
8.根据权利要求7所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述采用Softmax函数对所述二次补偿后的特征序列进行分类之后,还包括:
采用加权精度WA作为指标,以监测所述动物声音情感分类识别模型的整体性能;
通过公式(7)计算加权精度WA;
Figure FDA0004067440310000034
式中,TPi代表每类的真正例,FPi代表每类的假正例。
9.根据权利要求8所述的一种动物声音情感特征集合排序识别方法,其特征在于,所述采用Softmax函数对所述二次补偿后的特征序列进行分类,包括:
通过计算将所述动物声音情感分为四类,包括:
S91、以Lrank长度的1/Nclass为限,将序号范围属于[0,Lrank/Nclass]的特征归为第一类,序号范围属于[Lrank/Nclass+1,Lrank]的特征归为第四类;
S92、从第一类队列中挑选一个特征Lrankj,其中,j是特征序号;对所述特征Lrankj进行模型训练,输入特征的序号分别为:[1,j-1],[1,j],[1,j+1],[1,j+d],其中,d是待测试特征队列的宽度;
S93、如果位置为[1,j]的特征的WA值低于其他几组,将第j个特征调整为第三类;
S94、重复执行S92-S93,直至遍历第一类队列中的所有特征;
S95、从第四类队列中挑选一个特征Lrankj,其中j是特征序号,对所述特征Lrankj进行模型训练,输入特征的序号分别为:[1,j-d],...[1,j-1],[1,j];
S96、当特征[1,j]的WA值高于其他几组时,将第j个特征调整为第二类;
S97、重复执行S95-S96,直至第四类队列中序号范围属于Lrank/Nclass+1之后排名的特征。
10.一种动物声音情感特征集合排序识别系统,其特征在于,包括:
特征提取单元、特征排序单元、异常特征权重补偿单元及深度学习模型补偿单元;
所述特征提取单元用于获取动物声音的声学特征,并构建所述动物声音的特征集合;所述声学特征,包括:低级描述符和高级统计函数;
所述低级描述符,包括:
谱特征、共振峰、谐噪比、基频扰动、谐波、梅尔频率倒谱系数、振幅微扰、频谱斜率、谱通量、音强、等效声级及基频;
所述高级统计函数,包括:
均值、方差、协方差、20分位数、50分位数、80分位数、20-80分位数、上升信号包络均值、上升信号包络标准差、下降信号包络均值、下降信号包络标准差、偏度、峰度及四分卫;
所述特征排序单元用于根据所述特征集合进行动物情感分类标注,按照不同的所述动物情感类别标注对动物声音情感特征进行相关性分析并排序,获得相关性特征列表;
所述异常特征权重补偿单元用于筛选出所述相关性特征列表中的异常特征,通过对所述异常特征权重补偿以消除所述异常特征的位置偏差,获得初步补偿后的特征序列;
所述深度学习模型补偿单元用于建立动物声音情感分类识别模型;根据所述初步补偿后的特征序列,采用深度学习方法对所述模型进行训练,获得二次补偿后的特征序列。
CN202011511415.7A 2020-12-18 2020-12-18 一种动物声音情感特征集合排序识别方法及系统 Active CN112634947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011511415.7A CN112634947B (zh) 2020-12-18 2020-12-18 一种动物声音情感特征集合排序识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011511415.7A CN112634947B (zh) 2020-12-18 2020-12-18 一种动物声音情感特征集合排序识别方法及系统

Publications (2)

Publication Number Publication Date
CN112634947A CN112634947A (zh) 2021-04-09
CN112634947B true CN112634947B (zh) 2023-03-14

Family

ID=75317599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011511415.7A Active CN112634947B (zh) 2020-12-18 2020-12-18 一种动物声音情感特征集合排序识别方法及系统

Country Status (1)

Country Link
CN (1) CN112634947B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724683A (zh) * 2022-04-06 2022-07-08 大连东软信息学院 一种通过间接式手段进行情感调节的装置与方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN106340309A (zh) * 2016-08-23 2017-01-18 南京大空翼信息技术有限公司 一种基于深度学习的狗叫情感识别方法及装置
CN107274888A (zh) * 2017-06-14 2017-10-20 大连海事大学 一种基于倍频程信号强度和差异化特征子集的情感语音识别方法
CN109272986A (zh) * 2018-08-29 2019-01-25 昆明理工大学 一种基于人工神经网络的狗声音情感分类方法
CN110534133A (zh) * 2019-08-28 2019-12-03 珠海亿智电子科技有限公司 一种语音情感识别系统及语音情感识别方法
CN110634491A (zh) * 2019-10-23 2019-12-31 大连东软信息学院 语音信号中针对通用语音任务的串联特征提取系统及方法
CN110956953A (zh) * 2019-11-29 2020-04-03 中山大学 基于音频分析与深度学习的争吵识别方法
CN110992987A (zh) * 2019-10-23 2020-04-10 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法
CN111951812A (zh) * 2020-08-26 2020-11-17 杭州情咖网络技术有限公司 一种动物情感识别方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7054810B2 (en) * 2000-10-06 2006-05-30 International Business Machines Corporation Feature vector-based apparatus and method for robust pattern recognition

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN106340309A (zh) * 2016-08-23 2017-01-18 南京大空翼信息技术有限公司 一种基于深度学习的狗叫情感识别方法及装置
CN107274888A (zh) * 2017-06-14 2017-10-20 大连海事大学 一种基于倍频程信号强度和差异化特征子集的情感语音识别方法
CN109272986A (zh) * 2018-08-29 2019-01-25 昆明理工大学 一种基于人工神经网络的狗声音情感分类方法
CN110534133A (zh) * 2019-08-28 2019-12-03 珠海亿智电子科技有限公司 一种语音情感识别系统及语音情感识别方法
CN110634491A (zh) * 2019-10-23 2019-12-31 大连东软信息学院 语音信号中针对通用语音任务的串联特征提取系统及方法
CN110992987A (zh) * 2019-10-23 2020-04-10 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法
CN110956953A (zh) * 2019-11-29 2020-04-03 中山大学 基于音频分析与深度学习的争吵识别方法
CN111951812A (zh) * 2020-08-26 2020-11-17 杭州情咖网络技术有限公司 一种动物情感识别方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于注意力LSTM的音乐主题推荐模型;贾宁,郑纯军;《计算机科学》;20191130;第46卷(第11A期);230-235 *
语音任务下声学特征提取综述;郑纯军 等;《计算机科学》;20200531;第47卷(第5期);110-119 *

Also Published As

Publication number Publication date
CN112634947A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN107610707B (zh) 一种声纹识别方法及装置
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN112861984B (zh) 一种基于特征融合与集成学习的语音情感分类方法
CN108711421A (zh) 一种语音识别声学模型建立方法及装置和电子设备
CN1302427A (zh) 用于说话者认证的模型自适应系统和方法
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
CN111916108B (zh) 一种语音评测方法及装置
KR20010038049A (ko) 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
Ram et al. Neural network based end-to-end query by example spoken term detection
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN110992959A (zh) 一种语音识别方法及系统
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
CN111428030B (zh) 一种语料分类的方法及系统
CN112634947B (zh) 一种动物声音情感特征集合排序识别方法及系统
CN116052718A (zh) 音频测评模型训练方法和装置、音频测评方法和装置
CN111081273A (zh) 一种基于声门波信号特征提取的语音情感识别方法
CN112052686B (zh) 一种用户交互式教育的语音学习资源推送方法
Sarkar et al. Raga identification from Hindustani classical music signal using compositional properties
Ge et al. Speaker change detection using features through a neural network speaker classifier
Singh et al. Speaker Recognition Assessment in a Continuous System for Speaker Identification
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
CN108831487B (zh) 声纹识别方法、电子装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant