CN113643724A - 一种基于时-频双分支特征的猕猴情绪识别方法及系统 - Google Patents
一种基于时-频双分支特征的猕猴情绪识别方法及系统 Download PDFInfo
- Publication number
- CN113643724A CN113643724A CN202110764429.8A CN202110764429A CN113643724A CN 113643724 A CN113643724 A CN 113643724A CN 202110764429 A CN202110764429 A CN 202110764429A CN 113643724 A CN113643724 A CN 113643724A
- Authority
- CN
- China
- Prior art keywords
- feature
- macaque
- layer
- dimensional
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 61
- 235000009436 Actinidia deliciosa Nutrition 0.000 title claims abstract description 36
- 235000009434 Actinidia chinensis Nutrition 0.000 title claims abstract description 20
- 244000298715 Actinidia chinensis Species 0.000 title 1
- 241000282553 Macaca Species 0.000 claims abstract description 139
- 230000008451 emotion Effects 0.000 claims abstract description 64
- 230000004927 fusion Effects 0.000 claims abstract description 53
- 238000007906 compression Methods 0.000 claims abstract description 38
- 230000006835 compression Effects 0.000 claims abstract description 38
- 244000298697 Actinidia deliciosa Species 0.000 claims abstract description 35
- 230000036651 mood Effects 0.000 claims abstract description 33
- 230000001755 vocal effect Effects 0.000 claims abstract description 8
- 239000010410 layer Substances 0.000 claims description 168
- 238000000605 extraction Methods 0.000 claims description 68
- 230000006870 function Effects 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 17
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 12
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000000750 progressive effect Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 5
- 239000002356 single layer Substances 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000008921 facial expression Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract description 9
- 230000014509 gene expression Effects 0.000 abstract description 8
- 230000000875 corresponding effect Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 11
- 210000003128 head Anatomy 0.000 description 8
- 230000006872 improvement Effects 0.000 description 7
- 241000288906 Primates Species 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 241001282135 Poromitra oscitans Species 0.000 description 2
- 206010048232 Yawning Diseases 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 102100028002 Catenin alpha-2 Human genes 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 101100222236 Homo sapiens CTNNA2 gene Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时‑频双分支特征的猕猴情绪识别方法及系统,该方法包括:将采集的猕猴叫声输入预先建立和训练好的猕猴情绪识别模型,得到对应的精确情绪类别;精确情绪类别包括“友好”情绪、“进攻或威胁”情绪、“失落或顺从”情绪和无情绪;猕猴情绪识别模型,用于提取猕猴叫声的中间特征,基于时‑频双分支对时域特征和频域特征进行分离提取,经融合分类确定对应的精确情绪类别。本发明通过使用原始叫声数据作为网络输入,从叫声中提取情绪相关中间特征,无需语音预处理,简化了算法流程,之后对时域和频域特征进行分离提取,从不同角度获取叫声的压缩特征,对时域和频域特征进行融合,增强了特征的表达力,有效地提升了识别准确率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于时-频双分支特征的猕猴情绪识别方法及系统。
背景技术
灵长类动物正面临着严重的生存危机,了解灵长类动物的生活习性,对有效开展灵长类动物保护具有重要研究价值。近年来,人工智能(Artificial intelligence,AI),尤其是深度学习(Deep Learning,DL)在多个领域的应用中取得了超过经典算法的成果,例如语音信号处理领域(语音识别、语音合成、声纹识别等),图像处理领域(图像识别、图像分类、图像生成、实例分割等)以及文本处理领域(文本分类、文本相似度检测等)。由于灵长类动物多生活在密林等环境中,使得图像采集设备难以部署,且监控设备易受密林遮挡,难以捕捉有效的影像信息。因而,从场景适用性及成本控制的角度考虑,将动物的叫声作为目标信号进行研究有很大优势。
目前国内外尚未有学者提出通过猕猴叫声对猕猴进行语音情绪识别的方案,现有的研究多集中在人类语音识别领域。而人类语音中包含的信息更加丰富,情绪种类多,如一段语音中包含的情绪可能有多种,有情绪的变化,因此在根据人类语音进行情绪识别时,通常需要设计复杂的预处理策略,以及更丰富的特征提取方法来从更多的维度提取人类语音中的情绪特征,才能设计出更有效人类语音情绪识别算法。而猕猴的叫声时长较短,并且一段猕猴叫声内的情绪较为一致(无情绪转折),因此现有人类语音识别的复杂特征提取方法在猕猴语音情绪识别过程通常发挥不出作用,无法进行有效的特征提取。
发明内容
本发明的目的在于克服现有技术缺陷,提供了一种基于时-频双分支特征的猕猴情绪识别方法及系统,能够实现基于猕猴叫声对猕猴的情绪进行识别。
为了实现上述目的,本发明提出了一种基于时-频双分支特征的猕猴情绪识别方法,所述方法包括:
将采集的猕猴叫声输入预先建立和训练好的猕猴情绪识别模型,得到对应的精确情绪类别;所述精确情绪类别包括“友好”情绪、“进攻或威胁”情绪、“失落或顺从”情绪和无情绪;
所述猕猴情绪识别模型,用于提取猕猴叫声的中间特征,基于时-频双分支对时域特征和频域特征进行分离提取,经融合分类确定对应的精确情绪类别。
作为上述方法的一种改进,所述猕猴情绪识别模型包括中间特征提取模块、频域特征提取模块、时域特征提取模块和特征融合与分类模块;其中,
所述中间特征提取模块,用于对输入的猕猴叫声数据进行多层次递进的特征提取和压缩,得到猕猴叫声的中间层二维特征表示FM;
所述频域特征提取模块,用于将中间层二维特征表示FM变换为频域特征表示FM′,然后进行频域特征捕获处理,得到FM的低维频域压缩特征表示eff;
所述时域特征提取模块,用于对中间层二维特征表示FM进行时域特征捕获处理,得到FM的低维时域压缩特征表示eft;
所述特征融合与分类模块,用于根据低维频域压缩特征表示eff与低维时域压缩特征表示eft,获取融合特征的分类编码输出,得到猕猴叫声数据对应的预测情绪类别。
作为上述方法的一种改进,所述中间特征提取模块包括一个头层和4个堆叠的结构相同的加权残差卷积块;其中,
所述头层包括一个卷积核大小为1*255,步长为1,通道数为128的一维卷积层;
所述加权残差卷积块包括两个结构相同的一维卷积层、一个一维批归一化层、一个最大值池化层和一个通道注意力机制层,并且每个加权残差卷积块的输入跳跃连接至加权残差卷积块第二个卷积层的输出;其中,每个一维卷积层卷积核大小为1*3,步长为1,通道数为128;通道注意力机制层包括一个自适应池化层、一个全连接层和权重计算函数。
作为上述方法的一种改进,所述中间特征提取模块的具体处理过程包括:
头层的一维卷积层对输入叫声数据i进行维度转换,得到输入特征o1,满足下式:
o1=i·w1+b1
其中,w1为一维卷积层的权重参数,b1为一维卷积层的偏置;
将输入特征o1分别输入4个堆叠的加权残差卷积块,通过自适应池化将二维特征映射至通道维度的一维向量表示,然后通过一层全连接及sigmoid函数σ得到每个通道的权重表示,将通道的权重表示与输入通道注意力计算函数的二维特征x相乘,得到各残差卷积块通道加权后的特征表示,作为下一个残差卷积块的输入;经过4层加权残差卷积块后得到猕猴叫声的中间层二维特征表示FM;
其中,第i个加权残差块输出为ori,i≤4,满足下式:
ori=SE(MaxP(o1+(BN(o1·wri0+bri0)·wri1+bri1))
其中,wri0,bri0分别表示第i个残差块中第一个卷积的卷积核及偏置参数,wri1,bri1分别表示第i个残差块中第二个卷积的卷积核及偏置参数,MaxP(·)表示最大池化,BN(·)表示批归一化处理,SE(x)为通道注意力计算函数,满足下式:
SE(x)=σ(AdaP(or1)·ws1+bs1)·x
其中,σ(·)表示激活函数,AdaP(·)表示自适应池化,ws1表示通道注意力的权重参数,bs1表示通道注意力的偏置,x表示中间变量。
作为上述方法的一种改进,所述频域特征提取模块包括依次连接的三层双向LSTM和一个全连接层;具体处理过程为:
将中间层二维特征表示FM变换为频域特征表示FM′,将FM′中每一时刻的频域表示特征依次输入三层双向LSTM;经LSTM进行特征提取后得到隐藏特征表示Ht,将所有时刻得到的隐藏特征进行融合,得到猕猴叫声的通道关联特征Ho;
通过全连接层对Ho进行映射,得到低维压缩频域特征表示eff为:
eff=Wfd*Ho+bfd
式中,Wfd和bfd分别表示全连接层的权重参数及偏置。
作为上述方法的一种改进,所述时域特征提取模块包括依次连接的一个单层的GRU和一个全连接层;具体处理过程包括:
将FM转换为时域表示特征,并将每一通道的时域表示特征输入GRU;对GRU所有通道对应的输出进行特征融合,得到猕猴叫声的时间关联特征Go,并由全连接层进行特征降维,得到猕猴叫声的低维频域压缩特征表示eft为:
eft=Wft*Go+bft
式中,Wft和bft分别表示全连接层权重参数及偏置。
作为上述方法的一种改进,所述特征融合与分类模块包括依次连接的一个融合层、第一全连接层、第二全连接层和一个分类函数;其中第二全连接层的维度为1;所述特征融合与分类模块具体处理过程包括:
对低维压缩频域特征表示eff和低维时域压缩特征表示eft进行特征融合,得到时-频融合特征efc=concat(eff,eft);
将时-频融合特征efc依次输入第一全连接层和第二全连接层,并对第二全连接层的输出经分类函数进行特征映射,根据映射结果预测出猕猴叫声对应的情绪类别。
作为上述方法的一种改进,所述方法还包括猕猴情绪识别模型的训练步骤,具体包括:
由原始猕猴叫声的声音数据集分别建立训练集和验证集;
将猕猴声音数据集与影像数据进行对应,分析猕猴的面部表情,对应每个声音数据确定情绪分类;
将训练集的数据依次输入猕猴情绪识别模型,利用二值交叉熵损失函数计算输出的预测标签与真实标签间的损失,并进行反向传播,采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出的模型在验证集上得到的准确率最高,得到最优参数组合,从而完成猕猴情绪识别模型的训练。
一种基于时-频双分支特征的猕猴情绪识别系统,所述系统包括:猕猴情绪识别模型和猕猴情绪输出模块;其中,
所述猕猴情绪输出模块,用于将采集的猕猴声音输入预先建立和训练好的猕猴情绪识别模型,得到对应的精确情绪类别;所述精确情绪类别包括“友好”情绪、“进攻或威胁”情绪、“失落或顺从”情绪和无情绪;
所述猕猴情绪识别模型,用于提取猕猴声音的中间特征,基于时-频双分支对时域特征和频域特征进行分离提取,经融合分类确定对应的精确情绪类别。
与现有技术相比,本发明的优势在于:
本发明通过使用原始叫声数据作为网络输入,能够从叫声中提取丰富的情绪相关中间特征,无需语音预处理,简化了算法流程,之后通过时域与频域两个分支,对时域和频域特征进行分离提取,从不同角度获取叫声的压缩特征,通过特征融合分类模块对时域和频域特征进行融合,增强了特征的表达力,有效地提升了识别准确率。
附图说明
图1为本发明实施例1的基于时-频双分支特征的猕猴情绪识别网络整体结构示意图;
图2为本发明实施例1的中间特征提取模块结构示意图;
图3为本发明实施例1的频域特征提取模块结构示意图;
图4为本发明实施例1的时域特征提取模块结构示意图;
图5为本发明实施例1的特征融合与分类模块结构示意图。
具体实施方式
本发明的方法包括:
步骤1)数据预处理,将原始猕猴叫声的训练语料库按每组a段叫声分为m组;
步骤2)随机读取一组叫声,由具有n层结构的中间特征提取模块对输入猕猴叫声数据进行多层次递进的特征提取和压缩,得到猕猴叫声的中间层二维特征表示FM=a×C×d=[f1,f2,..,fC],fi∈Rd,其中M表示时-频特征时域通道数,d表示通道特征维度,C表示通道数量,fi表示第i个通道的特征,其维度为d;
中间特征提取模块包括一个头层和4个堆叠的加权残差卷积块;
头层包括一个一维卷积层,所述一维卷积核大小为1*255,步长为1,通道数为128;
加权残差卷积块包括两个一维卷积层,一个一维批归一化层,一个最大值池化层及一个通道注意力机制层,并且每个所述加权残差卷积块的输入跳跃连接至所述加权残差卷积块第二个卷积层的输出;所述通道注意力机制层包括一个自适应池化层,一个全连接层及权重计算函数;其中,所述加权残差卷积块中每个一维卷积层卷积核大小为1*3,步长为1,通道数为128。
步骤2)具体包括:
步骤2-1)利用一维卷积对输入叫声数据i进行维度转换,得到输入特征o1,计算公式如下:
o1=i·w1+b1
步骤2-2)将输入特征o1作为所述4个堆叠的加权残差卷积块的输入,依次经过各加权残差卷积块进行通道加权特征提取,经过4层加权残差卷积块后得到所述猕猴叫声的中间层二维特征表示FM;
其中,每一层加权残差块输出为ori,其计算过程如下:
or1=SE(MaxP(o1+(BN(o1·wr10+br10)·wr11+br11))
通道注意力机制层的计算公式如下:
SE(x)=σ(AdaP(or1)·ws1+bs1)·x
其中,o1表示头层输出,ori表示第i层残差块输出。wri0,bri0分别表示第i个残差块中第一个卷积的卷积核及偏置参数,wri1,bri1分别表示第i个残差块中第二个卷积的卷积核及偏置参数,SE(x)为通道注意力计算函数,SE(x)通过自适应池化将二维特征映射至通道维度的一维向量表示,然后通过一层全连接及sigmoid函数σ得到每个通道的权重表示,将通道的权重表示与输入SE的原二维特征相乘即得到各残差卷积块通道加权后的特征表示,作为下一残差卷积块的输入。
步骤3)将步骤2)的输出FM变换为频域特征表示FM′=a×d×C,将FM′输入频域特征提取模块进行频域特征捕获处理,得到FM的低维频域压缩特征表示eff;频域特征提取模块包括三层双向LSTM和一个全连接层。
具体包括:
步骤3-1)将FM变换为频域特征表示FM′,将FM′中每一时刻的频域表示特征fi依次输入三层双向LSTM;
步骤3-2)将步骤3-1)中最后一层双向LSTM所有时刻的输出进行特征融合,并由全连接层进行特征降维,得到所述猕猴叫声的低维频域压缩特征表示eff;
其中,频域表示特征每一时刻的输入特征xt经LSTM进行特征提取后得到隐藏特征表示为Ht,将所有时刻得到的隐藏特征进行融合,得到所述猕猴叫声的通道关联特征Ho;Ht的计算过程如下:
Ct=Ft·Ct-1+It·tanh(Wxc*xt+Whc*Ht-1+bc)
Ft=σ(Wxf*xt+Whf*ωt-1+Wxf·Ct-1+bf)
Ot=σ(Wxo*xt+Who*ωt-1+Wco·Ct-1+bo)
It=σ(Wxi*xt+Whi*ωt-1+Wci·Ct-1+bi)
Ht=Ot·tanh(Ct)
其中,Ft,Ot,It分别表示LSTM中遗忘门、输出门和输入门的输出;Ct及Ht分别表示t时刻的细胞状态及隐藏特征,Wx*,Wh*表示对应门的卷积核参数,b*表示对应门的偏置参数,σ表示对应的激活函数,双向LSTM的隐藏状态输出可表示为:
Hot=g(VHt+V′Ht′)
其中,Hot表示t时刻的隐藏特征,Ht和Ht′分别表示正向和反向的输出特征;
通过全连接层对进行Ho进行映射,得到低维压缩频域特征表示eff,即:
eff=Wfd*Ho+bfd
上式中,Wfd和bfd分别表示全连接层的权重参数及偏置。
步骤4)将步骤2)的输出FM输入时域特征提取模块进行时域特征捕获处理,得到FM的低维时域压缩特征表示eft。时域特征提取模块包括一个单层的GRU和一个全连接层。
具体包括:
步骤4-1)将FM转换为时域表示特征,并将每一通道的时域表示特征输入GRU;
步骤4-2)将GRU所有通道对应的输出进行特征融合,得到猕猴叫声的时间关联特征Go,并由全连接层进行特征降维,得到所述猕猴叫声的低维频域压缩特征表示eft;
其中,GRU进行隐状态Gt的计算过程如下:
Zt=σ(Wz·[Ht-1,Xt])
Rt=σ(Wr·[Ht-1,Xt])
Ht=tanh(W·[Rt*Ht-1,Xt])
Gt=(1-Zt)*Ht-1+Zt*Ht
通过全连接层对Go进行映射得到低维时域压缩特征表示eft,即:
eft=Wft*Go+bft
上式中Zt和Rt分别表示更新门和重置门的输出特征;Wft和bft分别表示全连接层权重参数及偏置。
步骤5)将所述低维频域压缩特征表示eff与低维时域压缩特征表示eft通过特征融合与分类模块处理,获取融合特征的分类编码输出,得到所述猕猴叫声对应的预测情绪类别;特征融合与分类模块包括一个融合层、两个全连接层和一个分类函数;
具体包括:
步骤5-1)将所述低维频域压缩特征表示eff与所述低维时域压缩特征表示eft输入所述融合层进行特征融合,得到时-频融合特征efc=concat(eff,eft);
步骤5-2)将时-频融合特征efc特征依次输入两个全连接层,其中,第二个全连接层的输出维度为1;
步骤5-3)将第二个全连接层的输出输入分类函数进行特征映射,根据映射结果预测出所述猕猴叫声对应的情绪类别。
步骤6)根据预测情绪类别与真实的情绪类别进行损失计算,并采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出最优参数组合;
步骤7)基于最优参数模型,对待被测试的猕猴叫声进行情绪识别,其中,所述待被测试的猕猴不属于训练集所包含的猕猴。
下面结合附图和实施例对本发明的技术方案进行详细的说明。
实施例1
本发明的实施例1提出了基于时-频双分支特征的猕猴情绪识别方法。
需要说明的是,为了便于描述,附图中仅示出了与本发明实施例相关的部分而非全部内容。一些示例性实施例被描述成作为流程示意图描绘的处理或方法,虽然流程示意图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。
本发明技术方案设计的难点如下:
现有的研究多集中在人类语音识别领域,尚未有学者提出通过猕猴叫声对猕猴进行情绪识别的方案。而人类语音中包含的信息更加丰富,情绪种类多,如一段语音中包含的情绪可能有多种,有情绪的变化,因此在根据人类语音进行情绪识别时,通常需要设计复杂的预处理策略,以及更丰富的特征提取方法来从更多的维度提取人类语音中的情绪特征,才能设计出更有效人类语音情绪识别算法。而在本发明方案的设计过程中发现,猕猴的叫声时长较短,经统计,猕猴的一段叫声平均约为0.5秒,并且一段猕猴叫声内的情绪较为一致(无情绪转折),因此现有人类语音识别的复杂特征提取方法在猕猴语音情绪识别过程通常发挥不出作用,无法进行有效的特征提取,因此本发明设计了一种简单而有效的特征提取与训练策略,来学习猕猴叫声中含有的情绪特征,具有较高的猕猴情绪识别准确率,经实际实验获得的情绪识别准确率可达96.67%。
图1为本发明实施例提供的基于时-频双分支特征的猕猴情绪识别网络整体结构示意图,“CNN模块”表示中间特征提取模块。图1所示网络的数据处理过程包括如下步骤:
步骤110,数据预处理,将原始猕猴叫声的训练语料库按每组a段叫声分为m组。
步骤120,将待被检测的原始猕猴叫声输入中间特征提取模块,得到猕猴叫声的中间特征;其中,待被检测的猕猴不属于训练集所包含的猕猴随机读取一组叫声,由具有n层结构的中间特征提取模块对输入猕猴叫声数据进行多层次递进的特征提取和压缩,得到猕猴叫声的中间层二维特征表示FM=a×C×d=[f1,f2,..,fC],fi∈Rd,其中M表示特征时域通道数,d表示通道特征维度,C表示通道数量,fi表示第i个通道的特征,其维度为d。
步骤130,将FM变换为频域特征表示FM′=a×d×C,将FM′输入频域特征提取模块进行频域特征捕获处理,得到FM的低维频域压缩特征表示eff。
步骤140,将FM输入时域特征提取模块进行时域特征捕获处理,得到FM的低维时域压缩特征表示eft。
步骤150,将所述低维频域压缩特征表示eff与低维时域压缩特征表示eft通过特征融合与分类模块处理,获取融合特征的分类编码输出,得到所述猕猴叫声对应的预测情绪类别。
步骤160,根据预测情绪类别与真实的情绪类别进行损失计算,并采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出最优参数组合。
步骤170,基于最优参数模型,对待被测试的猕猴叫声进行情绪识别,其中,所述待被测试的猕猴不属于训练集所包含的猕猴。
现有的神经网络在进行训练和测试时,多采用封闭数据集的形式,即训练集和测试集是对相同来源的数据进行比例划分,这样训练出来的模型泛化能力较差,而本发明采用开放数据集的形式,测试集和训练集数据分别来自不同的猕猴,即待被检测的猕猴不属于训练集所包含的猕猴。假设一共有M只猕猴的叫声,则本发明选择M1只猕猴的声音数据作为训练集,剩余的M-M1只猕猴的声音数据作为待被测试的猕猴叫声,使得训练和测试所采用的猕猴叫声来自于不同的猕猴,这样训练出的网络,对任意的猕猴声音都能进行较好的情绪识别,泛化能力更好,实用性更强。
本发明实施例提供的端到端时-频特征融合的猕猴叫声情绪识别方法,通过使用原始叫声数据作为网络输入,能够从叫声中提取丰富的情绪相关中间特征,无需语音预处理,简化了算法流程,之后通过时域与频域两个分支,对时域特征和频域特征进行分离提取,从不同角度获取叫声的压缩特征,通过特征融合分类模块对时域和频域特征进行融合,增强了特征的表达力,有效提升了情绪识别的准确率。
另外,在步骤150得到预测标签之后还包括:利用二值交叉熵损失函数计算网络输出的预测标签与真实标签间的损失,并进行反向传播,采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出的网络在验证集上得到的准确率最高,得到网络的最优参数组合;之后采用具有最优网络参数组合的猕猴情绪识别网络对待被检测的猕猴原始叫声进行情绪识别。
可选的,根据猕猴表情与情绪的对应关系,确定出猕猴叫声中含有的至少2种情绪类别,包括:将猕猴声音数据集与影像数据进行对应,分析猕猴的面部表情;将嘴半张,嘴唇微微突出的猕猴表情所对应的声音确定为“友好”情绪;将眉毛扬起,聚精会神地盯着,嘴巴张开,露出牙齿,或者,眉毛扬起,聚精会神地注视,嘴唇突出,形成一个圆形这两种猕猴表情对应的声音确定为“进攻或威胁”情绪。
猕猴的情绪并没有人类情绪的明确定义,而实现猕猴叫声情绪识别,首先需要对猕猴叫声中的情绪进行分类,因此本发明结合猕猴的影像与声音信息,对猕猴的情绪进行了分析统计,将猕猴典型的6种表情对应的情绪分为4类,分别为:友好情绪,进攻或威胁情绪,失落或顺从情绪,面部特征为:动物的嘴张得很大,正在打呵欠。在灵长类动物中,打哈欠可能与痛苦和焦虑有关;无情绪,面部特征为:嘴巴紧闭,整个面部放松。其中,“友好”和“进攻或威胁”情绪的面部特征已在上文描述,此处未再赘述。
图2为本发明实施例提供的中间特征提取模块结构示意图,如图2所示,中间特征提取模块包括一个头层和4个堆叠的加权残差卷积块;
其中,头层包括一个一维卷积层(conv1d)和一个一维批归一化层(BatchN1d);本实施例中设定头层的输入通道数为1,输出通道数为128,卷积核大小为1*255,步长为1,即每一个1*255大小的卷积核通过与原始叫声数据进行卷积生成该层输出的一个通道。
加权残差卷积块包括两个一维卷积层,一个一维批归一化层,一个最大值池化层(MaxP)及一个通道注意力机制层(SE),并且将每个加权残差卷积块的输入跳跃连接至加权残差卷积块第二个卷积层的输出;通道注意力机制层包括一个自适应池化层,一个全连接层(FC)及权重计算函数。需要说明的是,加权残差卷积块的数量并不限于4个,可以通过增加加权残差卷积块的数量来增加网络深度。
具体的,所述步骤120具体包括:
步骤121,利用一维卷积对输入叫声数据i进行维度转换,得到输入特征o1,计算公式如下:
o1=i·w1+b1
步骤122,将输入特征o1作为所述4个堆叠的加权残差卷积块的输入,依次经过各加权残差卷积块进行通道加权特征提取,经过4层加权残差卷积块后得到猕猴叫声的中间层二维特征表示FM;
其中,每一层加权残差块输出为ori,其计算过程如下:
or1=SE(MaxP(o1+(BN(o1·wr10+br10)·wr11+br11))
通道注意力机制层的计算公式如下:
SE(x)=σ(AdaP(or1)·ws1+bs1)·x
其中,o1表示头层输出,ori表示第i层残差块输出。wri0,bri0分别表示第i个残差块中第一个卷积的卷积核及偏置参数,wri1,bri1分别表示第i个残差块中第二个卷积的卷积核及偏置参数,SE(x)为通道注意力计算函数,SE(x)通过自适应池化将二维特征映射至通道维度的一维向量表示,然后通过一层全连接及sigmoid函数σ得到每个通道的权重表示,将通道的权重表示与输入SE的原二维特征相乘即得到各残差卷积块通道加权后的特征表示,作为下一残差卷积块的输入。
其中,通道注意力机制层的权重计算函数可以是sigmoid函数。通过通道注意力机制中的自适应池化层可将二维特征映射至通道维度的一维向量表示,然后通过一层全连接及sigmoid函数得到每个通道的权重表示,对更能够表达猕猴情绪的特征通道赋予更大的权重,将通道的权重与原二维特征相乘,得到通道加权后的特征表示。通过中间特征提取模块对原始猕猴叫声进行特征提取,能够得到更加丰富的特征信息,对猕猴情绪的表示能力也更强。
最终得到的中间特征可以表示为FM=a×C×d,经过残差卷积提取的丰富特征图可理解为每段叫声的时频二维特征表示,每段叫声的二维特征大小为C×d。例如,本发明实施例可设置C=256,当输入的叫声数据长度为5120时,中间特征的d=19。为从不同的角度得到猕猴叫声的压缩特征,本发明实施例提出了时域和频域特征分离提取的形式。
图3为本发明实施例提供的频域特征提取模块结构示意图,如图3所示,频域特征提取模块包括三层双向LSTM(BiLSTM)和一个全连接层;将中间特征转换为频域表示特征,并将每一时刻的频域表示特征依次输入三层双向LSTM中;将最后一层双向LSTM所有时刻的输出进行特征融合,并由全连接层进行特征降维,得到猕猴叫声的频域特征。本发明实施例中可设置压缩后的频域特征为1*256维的特征向量。需要说明的是,本发明实施例中的三层双向LSTM为示例性的技术方案,并不对双向LSTM的层数进行限制。
所述步骤130具体包括:
步骤131,将FM变换为频域特征表示FM′,将FM′中每一时刻的频域表示特征fi依次输入三层双向LSTM。
步骤132,将步骤131中最后一层双向LSTM所有时刻的输出进行特征融合,并由全连接层进行特征降维,得到所述猕猴叫声的低维频域压缩特征表示eff;
其中,频域表示特征每一时刻的输入特征xt经LSTM进行特征提取后得到隐藏特征表示为Ht,将所有时刻得到的隐藏特征进行融合,得到所述猕猴叫声的通道关联特征Ho;Ht的计算过程如下:
Ct=Ft·Ct-1+It·tanh(Wxc*xt+Whc*Ht-1+bc)
Ft=σ(Wxf*xt+Whf*ωt-1+Wxf·Ct-1+bf)
Ot=σ(Wxo*xt+Who*ωt-1+Wco·Ct-1+bo)
It=σ(Wxi*xt+Whi*ωt-1+Wci·Ct-1+bi)
Ht=Ot·tanh(Ct)
其中,Ft,Ot,It分别表示LSTM中遗忘门、输出门和输入门的输出;Ct及Ht分别表示t时刻的细胞状态及隐藏特征,Wx*,Wh*表示对应门的卷积核参数,b*表示对应门的偏置参数,双向LSTM的隐藏状态输出可表示为:
Hot=g(VHt+V′Ht′)
其中,Hot表示t时刻的隐藏特征,Ht和Ht′分别表示正向和反向的输出特征;
通过全连接层对进行Ho进行映射,得到低维压缩频域特征表示eff,即:
eff=Wfd*Ho+bfd
上式中,Wfd和bfd分别表示全连接层的权重参数及偏置
具体的,将中间特征FM进行转置,得到频域表示特征为FM′=B*F*C,将频域表示特征依次输入至三层双向的LSTM中,通过LSTM对频域维度建立通道关联,将LSTM计算出的所有时刻的隐藏特征融合为Ho作为该段叫声的LSTM输出特征,并经过一层全连接对Ho的特征维度进行降维,将中间特征映射为频域的压缩特征。
图4为本发明实施例提供的时域特征提取模块结构示意图,如图4所示,时域特征提取模块包括一个单层的GRU和一个全连接层;
所述步骤140具体包括:
步骤141,将FM转换为时域表示特征,并将每一通道的时域表示特征输入GRU;
步骤142,将GRU所有通道对应的输出进行特征融合,得到猕猴叫声的时间关联特征Go,并由全连接层进行特征降维,得到所述猕猴叫声的低维频域压缩特征表示eft。
其中,若中间特征的表示不满足FM=b*C*d,则对中间特征进行转换。使用单层GRU结合全连接层,将中间特征映射并压缩为时域关联特征。本发明实施例中可设置压缩后的时域特征为1*256维的特征向量。
其中,GRU进行隐状态Gt的计算过程如下:
Zt=σ(Wz·[Ht-1,Xt])
Rt=σ(Wr·[Ht-1,Xt])
Ht`=tanh(W·[Rt*Ht-1,Xt])
Gt=(1-Zt)*Ht-1+Zt*Ht
通过全连接层对Go进行映射得到低维时域压缩特征表示eft,即:
eft=Wft*Ho+bft
上式中Zt和Rt分别表示更新门和重置门的输出特征;Wft和btd分别表示全连接层权重参数及偏置。
图5为本发明实施例提供的特征融合与分类模块结构示意图。如图5所示,特征融合与分类模块包括一个融合层、两个全连接层和一个分类函数;
所述步骤150具体包括:
步骤151,将所述低维频域压缩特征表示eff与所述低维时域压缩特征表示eft输入所述融合层进行特征融合,得到时-频融合特征efc=concat(eff,eft)。
步骤152,将时-频融合特征efc特征依次输入两个全连接层,其中,第二个全连接层的输出维度为1。
步骤153,将第二个全连接层的输出输入分类函数进行特征映射,根据映射结果预测出所述猕猴叫声对应的情绪类别。
其中,特征融合与分类模块中所采用的分类函数为sigmoid函数。将频域特征与时域特征分别得到大小为1*256维的特征向量(分别表示为eft和eff)进行特征融合(如拼接),得到一个1*512维的特征向量。第一个全连接层的输入和输出的特征维度分别为512和256,第二个全连接层输入和输出维度分别为256和1,将第二个全连接层输出的1维特征进一步由分类函数进行计算,得到预测的概率输出。根据预测概率与预设阈值的比较结果,即可识别出输入的原始猕猴叫声所表达的情绪。
该方法基于猕猴叫声实现猕猴情绪识别,主要处理流程包括:首先对输入的原始猕猴声音进行多层次递进的特征提取和压缩,得到与情绪相关的中间层二维特征;之后将中间层二维特征转换为时域特征表示,进行时间关联特征提取,捕获猕猴叫声采样数据的时域压缩特征表示;同时将中间层二维特征转换为频域特征表示,进行通道关联特征提取,捕获猕猴叫声采样数据的频域压缩特征表示;最后,将频域压缩特征与时域压缩特征通过特征融合策略聚合为双分支语义信息,并通过多层全连接映射得到输入猕猴声音对应的精确情绪类别,有效提升了基于猕猴叫声的情绪识别准确率。
为比较发明所提算法有效性,将其与近年来的两种效果较为优秀的人类语音情绪识别算法进行比较,其分别为基于双分支CNN结构的CAPR和基于CNN结构的RSSE。实验所采用数据集均为猕猴叫声情绪数据集。最终实验结果如表所示,可见,本发明所提供的猕猴情绪识别算法显著提高了情绪识别的准确率。
实施例2
本发明的实施例2提供了一种基于时-频双分支特征的猕猴情绪识别系统,根据上述实施例所提供的任一方法所构建的情绪识别网络模型实现,该系统包括:系统包括:猕猴情绪识别模型和猕猴情绪输出模块;其中,
猕猴情绪输出模块,用于将采集的猕猴声音输入预先建立和训练好的猕猴情绪识别模型,得到对应的精确情绪类别;所述精确情绪类别包括“友好”情绪、“进攻或威胁”情绪、“失落或顺从”情绪和无情绪;
猕猴情绪识别模型,用于提取猕猴声音的中间特征,基于时-频双分支对时域特征和频域特征进行分离提取,经融合分类确定对应的精确情绪类别。
其中,猕猴情绪识别模型包括中间特征提取模块、频域特征提取模块、时域特征提取模块和特征融合与分类模块;其中,
中间特征提取模块,用于对输入猕猴叫声数据进行多层次递进的特征提取和压缩,得到猕猴叫声的中间层二维特征表示FM=a×C×d=[f1,f2,..,fC],fi∈Rd,中M表示时-频特征时域通道数,d表示通道特征维度,C表示通道数量,fi表示第i个通道的特征,其维度为d;
频域特征提取模块,用于FM输入频域特征提取模块进行频域特征捕获处理,得到FM的低维频域压缩特征表示eff;
时域特征提取模块,用于将FM变换为时域特征表示FM′=a×d×C,对FM′进行时域特征捕获处理,得到低维时域压缩特征表示eft;
特征融合与分类模块,用于对低维频域压缩特征表示eff与低维时域压缩特征表示eft进行特征融合,并计算出融合特征的分类编码输出,得到所述猕猴叫声对应的情绪类别。
在对猕猴情绪识别模型进行训练时包括数据预处理模块,用于猕猴叫声数据的预处理,并将猕猴叫声的训练语料库按每组a段叫声分为m组。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.一种基于时-频双分支特征的猕猴情绪识别方法,所述方法包括:
将采集的猕猴叫声输入预先建立和训练好的猕猴情绪识别模型,得到对应的精确情绪类别;所述精确情绪类别包括“友好”情绪、“进攻或威胁”情绪、“失落或顺从”情绪和无情绪;
所述猕猴情绪识别模型,用于提取猕猴叫声的中间特征,基于时-频双分支对时域特征和频域特征进行分离提取,经融合分类确定对应的精确情绪类别。
2.根据权利要求1所述的基于时-频双分支特征的猕猴情绪识别方法,其特征在于,所述猕猴情绪识别模型包括中间特征提取模块、频域特征提取模块、时域特征提取模块和特征融合与分类模块;其中,
所述中间特征提取模块,用于对输入的猕猴叫声数据进行多层次递进的特征提取和压缩,得到猕猴叫声的中间层二维特征表示FM;
所述频域特征提取模块,用于将中间层二维特征表示FM变换为频域特征表示FM′,然后进行频域特征捕获处理,得到FM的低维频域压缩特征表示eff;
所述时域特征提取模块,用于对中间层二维特征表示FM进行时域特征捕获处理,得到FM的低维时域压缩特征表示eft;
所述特征融合与分类模块,用于根据低维频域压缩特征表示eff与低维时域压缩特征表示eft,获取融合特征的分类编码输出,得到猕猴叫声数据对应的预测情绪类别。
3.根据权利要求2所述的基于时-频双分支特征的猕猴情绪识别方法,其特征在于,所述中间特征提取模块包括一个头层和4个堆叠的结构相同的加权残差卷积块;其中,
所述头层包括一个卷积核大小为1*255,步长为1,通道数为128的一维卷积层;
所述加权残差卷积块包括两个结构相同的一维卷积层、一个一维批归一化层、一个最大值池化层和一个通道注意力机制层,并且每个加权残差卷积块的输入跳跃连接至加权残差卷积块第二个卷积层的输出;其中,每个一维卷积层卷积核大小为1*3,步长为1,通道数为128;通道注意力机制层包括一个自适应池化层、一个全连接层和权重计算函数。
4.根据权利要求3所述的基于时-频双分支特征的猕猴情绪识别方法,其特征在于,所述中间特征提取模块的具体处理过程包括:
头层的一维卷积层对输入叫声数据i进行维度转换,得到输入特征o1,满足下式:
o1=i·w1+b1
其中,w1为一维卷积层的权重参数,b1为一维卷积层的偏置;
将输入特征o1分别输入4个堆叠的加权残差卷积块,通过自适应池化将二维特征映射至通道维度的一维向量表示,然后通过一层全连接及sigmoid函数σ得到每个通道的权重表示,将通道的权重表示与输入通道注意力计算函数的二维特征x相乘,得到各残差卷积块通道加权后的特征表示,作为下一个残差卷积块的输入;经过4层加权残差卷积块后得到猕猴叫声的中间层二维特征表示FM;
其中,第i个加权残差块输出为ori,i≤4,满足下式:
ori=SE(MaxP(o1+(BN(o1·wri0+bri0)·wri1+bri1))
其中,wri0,bri0分别表示第i个残差块中第一个卷积的卷积核及偏置参数,wri1,bri1分别表示第i个残差块中第二个卷积的卷积核及偏置参数,MaxP(·)表示最大池化,BN(·)表示批归一化处理,SE(x)为通道注意力计算函数,满足下式:
SE(x)=σ(AdaP(or1)·ws1+bs1)·x
其中,σ(·)表示激活函数,AdaP(·)表示自适应池化,ws1表示通道注意力的权重参数,bs1表示通道注意力的偏置,x表示中间变量。
5.根据权利要求2所述的基于时-频双分支特征的猕猴情绪识别方法,其特征在于,所述频域特征提取模块包括依次连接的三层双向LSTM和一个全连接层;具体处理过程为:
将中间层二维特征表示FM变换为频域特征表示FM′,将FM′中每一时刻的频域表示特征依次输入三层双向LSTM;经LSTM进行特征提取后得到隐藏特征表示Ht,将所有时刻得到的隐藏特征进行融合,得到猕猴叫声的通道关联特征Ho;
通过全连接层对Ho进行映射,得到低维压缩频域特征表示eff为:
eff=Wfd*Ho+bfd
式中,Wfd和bfd分别表示全连接层的权重参数及偏置。
6.根据权利要求5所述的基于时-频双分支特征的猕猴情绪识别方法,其特征在于,所述时域特征提取模块包括依次连接的一个单层的GRU和一个全连接层;具体处理过程包括:
将FM转换为时域表示特征,并将每一通道的时域表示特征输入GRU;对GRU所有通道对应的输出进行特征融合,得到猕猴叫声的时间关联特征Go,并由全连接层进行特征降维,得到猕猴叫声的低维频域压缩特征表示eft为:
eft=Wft*Go+bft
式中,Wft和bft分别表示全连接层权重参数及偏置。
7.根据权利要求6所述的基于时-频双分支特征的猕猴情绪识别方法,其特征在于,所述特征融合与分类模块包括依次连接的一个融合层、第一全连接层、第二全连接层和一个分类函数;其中第二全连接层的维度为1;所述特征融合与分类模块具体处理过程包括:
对低维压缩频域特征表示eff和低维时域压缩特征表示eft进行特征融合,得到时-频融合特征efc=concat(eff,eft);
将时-频融合特征efc依次输入第一全连接层和第二全连接层,并对第二全连接层的输出经分类函数进行特征映射,根据映射结果预测出猕猴叫声对应的情绪类别。
8.根据权利要求1所述的基于时-频双分支特征的猕猴情绪识别方法,其特征在于,所述方法还包括猕猴情绪识别模型的训练步骤,具体包括:
由原始猕猴叫声的声音数据集分别建立训练集和验证集;
将猕猴声音数据集与影像数据进行对应,分析猕猴的面部表情,对应每个声音数据确定情绪分类;
将训练集的数据依次输入猕猴情绪识别模型,利用二值交叉熵损失函数计算输出的预测标签与真实标签间的损失,并进行反向传播,采用梯度下降法对模型中的参数进行更新;反复迭代,直至训练出的模型在验证集上得到的准确率最高,得到最优参数组合,从而完成猕猴情绪识别模型的训练。
9.一种基于时-频双分支特征的猕猴情绪识别系统,其特征在于,所述系统包括:猕猴情绪识别模型和猕猴情绪输出模块;其中,
所述猕猴情绪输出模块,用于将采集的猕猴声音输入预先建立和训练好的猕猴情绪识别模型,得到对应的精确情绪类别;所述精确情绪类别包括“友好”情绪、“进攻或威胁”情绪、“失落或顺从”情绪和无情绪;
所述猕猴情绪识别模型,用于提取猕猴声音的中间特征,基于时-频双分支对时域特征和频域特征进行分离提取,经融合分类确定对应的精确情绪类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764429.8A CN113643724B (zh) | 2021-07-06 | 2021-07-06 | 一种基于时-频双分支特征的猕猴情绪识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110764429.8A CN113643724B (zh) | 2021-07-06 | 2021-07-06 | 一种基于时-频双分支特征的猕猴情绪识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113643724A true CN113643724A (zh) | 2021-11-12 |
CN113643724B CN113643724B (zh) | 2023-04-28 |
Family
ID=78416774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110764429.8A Active CN113643724B (zh) | 2021-07-06 | 2021-07-06 | 一种基于时-频双分支特征的猕猴情绪识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113643724B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898775A (zh) * | 2022-04-24 | 2022-08-12 | 中国科学院声学研究所南海研究站 | 一种基于跨层交叉融合的语音情绪识别方法及系统 |
CN115083435A (zh) * | 2022-07-28 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、计算机设备和存储介质 |
CN115376518A (zh) * | 2022-10-26 | 2022-11-22 | 广州声博士声学技术有限公司 | 一种实时噪声大数据的声纹识别方法、系统、设备和介质 |
CN114898775B (zh) * | 2022-04-24 | 2024-05-28 | 中国科学院声学研究所南海研究站 | 一种基于跨层交叉融合的语音情绪识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107788997A (zh) * | 2016-08-30 | 2018-03-13 | 美新华股份有限公司 | 宠物反应识别系统 |
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的时序语义融合关联判断子系统 |
CN109036465A (zh) * | 2018-06-28 | 2018-12-18 | 南京邮电大学 | 语音情感识别方法 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
WO2020045789A1 (ko) * | 2018-08-30 | 2020-03-05 | (주) 너울정보 | 반려동물의 감정 상태 감지 시스템 및 방법 |
CN112466336A (zh) * | 2020-11-19 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于语音的情绪识别方法、装置、设备及存储介质 |
-
2021
- 2021-07-06 CN CN202110764429.8A patent/CN113643724B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107788997A (zh) * | 2016-08-30 | 2018-03-13 | 美新华股份有限公司 | 宠物反应识别系统 |
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的时序语义融合关联判断子系统 |
CN109036465A (zh) * | 2018-06-28 | 2018-12-18 | 南京邮电大学 | 语音情感识别方法 |
WO2020045789A1 (ko) * | 2018-08-30 | 2020-03-05 | (주) 너울정보 | 반려동물의 감정 상태 감지 시스템 및 방법 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN112466336A (zh) * | 2020-11-19 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于语音的情绪识别方法、装置、设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898775A (zh) * | 2022-04-24 | 2022-08-12 | 中国科学院声学研究所南海研究站 | 一种基于跨层交叉融合的语音情绪识别方法及系统 |
CN114898775B (zh) * | 2022-04-24 | 2024-05-28 | 中国科学院声学研究所南海研究站 | 一种基于跨层交叉融合的语音情绪识别方法及系统 |
CN115083435A (zh) * | 2022-07-28 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、计算机设备和存储介质 |
CN115083435B (zh) * | 2022-07-28 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、计算机设备和存储介质 |
CN115376518A (zh) * | 2022-10-26 | 2022-11-22 | 广州声博士声学技术有限公司 | 一种实时噪声大数据的声纹识别方法、系统、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113643724B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN113255755B (zh) | 一种基于异质融合网络的多模态情感分类方法 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
Guo et al. | Attention Based CLDNNs for Short-Duration Acoustic Scene Classification. | |
CN113643724B (zh) | 一种基于时-频双分支特征的猕猴情绪识别方法及系统 | |
KR102365433B1 (ko) | 교차 어텐션 모델 기반 감정 인식 방법 및 장치 | |
CN113033452B (zh) | 融合通道注意力和选择性特征融合机制的唇语识别方法 | |
Zhou et al. | ICRC-HIT: A deep learning based comment sequence labeling system for answer selection challenge | |
CN112633377A (zh) | 一种基于生成对抗网络的人体行为预测方法及系统 | |
Gohar et al. | Terrorist group prediction using data classification | |
CN114511912A (zh) | 基于双流卷积神经网络的跨库微表情识别方法及装置 | |
Nitisara et al. | Speech age-gender classification using long short-term memory | |
Tuncer et al. | A novel spiral pattern and 2D M4 pooling based environmental sound classification method | |
Dutta et al. | Applications of recurrent neural network: Overview and case studies | |
Atkar et al. | Speech Emotion Recognition using Dialogue Emotion Decoder and CNN Classifier | |
Rony et al. | An effective approach to communicate with the deaf and mute people by recognizing characters of one-hand bangla sign language using convolutional neural-network | |
Cho et al. | Detecting emotion from voice using selective Bayesian pairwise classifiers | |
CN114743569A (zh) | 一种基于双层融合深度网络的语音情感识别方法 | |
Kasabov et al. | Incremental learning in autonomous systems: evolving connectionist systems for on-line image and speech recognition | |
Nanduri et al. | A Review of multi-modal speech emotion recognition and various techniques used to solve emotion recognition on speech data | |
Ismael et al. | A new approach to arabic spam tweet detection in Twitter using machine learning algorithms | |
Khanum et al. | Emotion recognition using multi-modal features and CNN classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |