CN113643724A

CN113643724A - 一种基于时-频双分支特征的猕猴情绪识别方法及系统

Info

Publication number: CN113643724A
Application number: CN202110764429.8A
Authority: CN
Inventors: 李松斌; 唐计刚; 刘鹏; 张遥
Original assignee: Nanhai Research Station Institute Of Acoustics Chinese Academy Of Sciences
Current assignee: Nanhai Research Station Institute Of Acoustics Chinese Academy Of Sciences
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-11-12
Anticipated expiration: 2041-07-06
Also published as: CN113643724B

Abstract

本发明公开了一种基于时‑频双分支特征的猕猴情绪识别方法及系统，该方法包括：将采集的猕猴叫声输入预先建立和训练好的猕猴情绪识别模型，得到对应的精确情绪类别；精确情绪类别包括“友好”情绪、“进攻或威胁”情绪、“失落或顺从”情绪和无情绪；猕猴情绪识别模型，用于提取猕猴叫声的中间特征，基于时‑频双分支对时域特征和频域特征进行分离提取，经融合分类确定对应的精确情绪类别。本发明通过使用原始叫声数据作为网络输入，从叫声中提取情绪相关中间特征，无需语音预处理，简化了算法流程，之后对时域和频域特征进行分离提取，从不同角度获取叫声的压缩特征，对时域和频域特征进行融合，增强了特征的表达力，有效地提升了识别准确率。

Description

一种基于时-频双分支特征的猕猴情绪识别方法及系统

技术领域

本发明涉及计算机技术领域，特别涉及一种基于时-频双分支特征的猕猴情绪识别方法及系统。

背景技术

灵长类动物正面临着严重的生存危机，了解灵长类动物的生活习性，对有效开展灵长类动物保护具有重要研究价值。近年来，人工智能(Artificial intelligence，AI)，尤其是深度学习(Deep Learning，DL)在多个领域的应用中取得了超过经典算法的成果，例如语音信号处理领域(语音识别、语音合成、声纹识别等)，图像处理领域(图像识别、图像分类、图像生成、实例分割等)以及文本处理领域(文本分类、文本相似度检测等)。由于灵长类动物多生活在密林等环境中，使得图像采集设备难以部署，且监控设备易受密林遮挡，难以捕捉有效的影像信息。因而，从场景适用性及成本控制的角度考虑，将动物的叫声作为目标信号进行研究有很大优势。

目前国内外尚未有学者提出通过猕猴叫声对猕猴进行语音情绪识别的方案，现有的研究多集中在人类语音识别领域。而人类语音中包含的信息更加丰富，情绪种类多，如一段语音中包含的情绪可能有多种，有情绪的变化，因此在根据人类语音进行情绪识别时，通常需要设计复杂的预处理策略，以及更丰富的特征提取方法来从更多的维度提取人类语音中的情绪特征，才能设计出更有效人类语音情绪识别算法。而猕猴的叫声时长较短，并且一段猕猴叫声内的情绪较为一致(无情绪转折)，因此现有人类语音识别的复杂特征提取方法在猕猴语音情绪识别过程通常发挥不出作用，无法进行有效的特征提取。

发明内容

本发明的目的在于克服现有技术缺陷，提供了一种基于时-频双分支特征的猕猴情绪识别方法及系统，能够实现基于猕猴叫声对猕猴的情绪进行识别。

为了实现上述目的，本发明提出了一种基于时-频双分支特征的猕猴情绪识别方法，所述方法包括：

将采集的猕猴叫声输入预先建立和训练好的猕猴情绪识别模型，得到对应的精确情绪类别；所述精确情绪类别包括“友好”情绪、“进攻或威胁”情绪、“失落或顺从”情绪和无情绪；

所述猕猴情绪识别模型，用于提取猕猴叫声的中间特征，基于时-频双分支对时域特征和频域特征进行分离提取，经融合分类确定对应的精确情绪类别。

作为上述方法的一种改进，所述猕猴情绪识别模型包括中间特征提取模块、频域特征提取模块、时域特征提取模块和特征融合与分类模块；其中，

所述中间特征提取模块，用于对输入的猕猴叫声数据进行多层次递进的特征提取和压缩，得到猕猴叫声的中间层二维特征表示F_M；

所述频域特征提取模块，用于将中间层二维特征表示F_M变换为频域特征表示F_M′，然后进行频域特征捕获处理，得到F_M的低维频域压缩特征表示e_ff；

所述时域特征提取模块，用于对中间层二维特征表示F_M进行时域特征捕获处理，得到F_M的低维时域压缩特征表示e_ft；

所述特征融合与分类模块，用于根据低维频域压缩特征表示e_ff与低维时域压缩特征表示e_ft，获取融合特征的分类编码输出，得到猕猴叫声数据对应的预测情绪类别。

作为上述方法的一种改进，所述中间特征提取模块包括一个头层和4个堆叠的结构相同的加权残差卷积块；其中，

所述头层包括一个卷积核大小为1*255，步长为1，通道数为128的一维卷积层；

所述加权残差卷积块包括两个结构相同的一维卷积层、一个一维批归一化层、一个最大值池化层和一个通道注意力机制层，并且每个加权残差卷积块的输入跳跃连接至加权残差卷积块第二个卷积层的输出；其中，每个一维卷积层卷积核大小为1*3，步长为1，通道数为128；通道注意力机制层包括一个自适应池化层、一个全连接层和权重计算函数。

作为上述方法的一种改进，所述中间特征提取模块的具体处理过程包括：

头层的一维卷积层对输入叫声数据i进行维度转换，得到输入特征o¹，满足下式：

o¹＝i·w¹+b¹

其中，w¹为一维卷积层的权重参数，b¹为一维卷积层的偏置；

将输入特征o¹分别输入4个堆叠的加权残差卷积块，通过自适应池化将二维特征映射至通道维度的一维向量表示，然后通过一层全连接及sigmoid函数σ得到每个通道的权重表示，将通道的权重表示与输入通道注意力计算函数的二维特征x相乘，得到各残差卷积块通道加权后的特征表示，作为下一个残差卷积块的输入；经过4层加权残差卷积块后得到猕猴叫声的中间层二维特征表示F_M；

其中，第i个加权残差块输出为o^ri，i≤4，满足下式：

o^ri＝SE(MaxP(o¹+(BN(o¹·w^ri0+b^ri0)·w^ri1+b^ri1))

其中，w^ri0，b^ri0分别表示第i个残差块中第一个卷积的卷积核及偏置参数，w^ri1，b^ri1分别表示第i个残差块中第二个卷积的卷积核及偏置参数，MaxP(·)表示最大池化，BN(·)表示批归一化处理，SE(x)为通道注意力计算函数，满足下式：

SE(x)＝σ(AdaP(o^r1)·w^s1+b^s1)·x

其中，σ(·)表示激活函数，AdaP(·)表示自适应池化，w^s1表示通道注意力的权重参数，b^s1表示通道注意力的偏置，x表示中间变量。

作为上述方法的一种改进，所述频域特征提取模块包括依次连接的三层双向LSTM和一个全连接层；具体处理过程为：

将中间层二维特征表示F_M变换为频域特征表示F_M′，将F_M′中每一时刻的频域表示特征依次输入三层双向LSTM；经LSTM进行特征提取后得到隐藏特征表示H_t，将所有时刻得到的隐藏特征进行融合，得到猕猴叫声的通道关联特征H_o；

通过全连接层对H_o进行映射，得到低维压缩频域特征表示e_ff为：

e_ff＝W_fd*H_o+b_fd

式中，W_fd和b_fd分别表示全连接层的权重参数及偏置。

作为上述方法的一种改进，所述时域特征提取模块包括依次连接的一个单层的GRU和一个全连接层；具体处理过程包括：

将F_M转换为时域表示特征，并将每一通道的时域表示特征输入GRU；对GRU所有通道对应的输出进行特征融合，得到猕猴叫声的时间关联特征G_o，并由全连接层进行特征降维，得到猕猴叫声的低维频域压缩特征表示e_ft为：

e_ft＝W_ft*G_o+b_ft

式中，W_ft和b_ft分别表示全连接层权重参数及偏置。

作为上述方法的一种改进，所述特征融合与分类模块包括依次连接的一个融合层、第一全连接层、第二全连接层和一个分类函数；其中第二全连接层的维度为1；所述特征融合与分类模块具体处理过程包括：

对低维压缩频域特征表示e_ff和低维时域压缩特征表示e_ft进行特征融合，得到时-频融合特征e_fc＝concat(e_ff，e_ft)；

将时-频融合特征e_fc依次输入第一全连接层和第二全连接层，并对第二全连接层的输出经分类函数进行特征映射，根据映射结果预测出猕猴叫声对应的情绪类别。

作为上述方法的一种改进，所述方法还包括猕猴情绪识别模型的训练步骤，具体包括：

由原始猕猴叫声的声音数据集分别建立训练集和验证集；

将猕猴声音数据集与影像数据进行对应，分析猕猴的面部表情，对应每个声音数据确定情绪分类；

将训练集的数据依次输入猕猴情绪识别模型，利用二值交叉熵损失函数计算输出的预测标签与真实标签间的损失，并进行反向传播，采用梯度下降法对模型中的参数进行更新；反复迭代，直至训练出的模型在验证集上得到的准确率最高，得到最优参数组合，从而完成猕猴情绪识别模型的训练。

一种基于时-频双分支特征的猕猴情绪识别系统，所述系统包括：猕猴情绪识别模型和猕猴情绪输出模块；其中，

所述猕猴情绪输出模块，用于将采集的猕猴声音输入预先建立和训练好的猕猴情绪识别模型，得到对应的精确情绪类别；所述精确情绪类别包括“友好”情绪、“进攻或威胁”情绪、“失落或顺从”情绪和无情绪；

所述猕猴情绪识别模型，用于提取猕猴声音的中间特征，基于时-频双分支对时域特征和频域特征进行分离提取，经融合分类确定对应的精确情绪类别。

与现有技术相比，本发明的优势在于：

本发明通过使用原始叫声数据作为网络输入，能够从叫声中提取丰富的情绪相关中间特征，无需语音预处理，简化了算法流程，之后通过时域与频域两个分支，对时域和频域特征进行分离提取，从不同角度获取叫声的压缩特征，通过特征融合分类模块对时域和频域特征进行融合，增强了特征的表达力，有效地提升了识别准确率。

附图说明

图1为本发明实施例1的基于时-频双分支特征的猕猴情绪识别网络整体结构示意图；

图2为本发明实施例1的中间特征提取模块结构示意图；

图3为本发明实施例1的频域特征提取模块结构示意图；

图4为本发明实施例1的时域特征提取模块结构示意图；

图5为本发明实施例1的特征融合与分类模块结构示意图。

具体实施方式

本发明的方法包括：

步骤1)数据预处理，将原始猕猴叫声的训练语料库按每组a段叫声分为m组；

步骤2)随机读取一组叫声，由具有n层结构的中间特征提取模块对输入猕猴叫声数据进行多层次递进的特征提取和压缩，得到猕猴叫声的中间层二维特征表示F_M＝a×C×d＝[f₁，f₂，..，f_C]，f_i∈R^d，其中M表示时-频特征时域通道数，d表示通道特征维度，C表示通道数量，fi表示第i个通道的特征，其维度为d；

中间特征提取模块包括一个头层和4个堆叠的加权残差卷积块；

头层包括一个一维卷积层，所述一维卷积核大小为1*255，步长为1，通道数为128；

加权残差卷积块包括两个一维卷积层，一个一维批归一化层，一个最大值池化层及一个通道注意力机制层，并且每个所述加权残差卷积块的输入跳跃连接至所述加权残差卷积块第二个卷积层的输出；所述通道注意力机制层包括一个自适应池化层，一个全连接层及权重计算函数；其中，所述加权残差卷积块中每个一维卷积层卷积核大小为1*3，步长为1，通道数为128。

步骤2)具体包括：

步骤2-1)利用一维卷积对输入叫声数据i进行维度转换，得到输入特征o¹，计算公式如下：

o¹＝i·w¹+b¹

步骤2-2)将输入特征o¹作为所述4个堆叠的加权残差卷积块的输入，依次经过各加权残差卷积块进行通道加权特征提取，经过4层加权残差卷积块后得到所述猕猴叫声的中间层二维特征表示F_M；

其中，每一层加权残差块输出为o^ri，其计算过程如下：

o^r1＝SE(MaxP(o¹+(BN(o¹·w^r10+b^r10)·w^r11+b^r11))

通道注意力机制层的计算公式如下：

SE(x)＝σ(AdaP(o^r1)·w^s1+b^s1)·x

其中，o¹表示头层输出，o^ri表示第i层残差块输出。w^ri0，b^ri0分别表示第i个残差块中第一个卷积的卷积核及偏置参数，w^ri1，b^ri1分别表示第i个残差块中第二个卷积的卷积核及偏置参数，SE(x)为通道注意力计算函数，SE(x)通过自适应池化将二维特征映射至通道维度的一维向量表示，然后通过一层全连接及sigmoid函数σ得到每个通道的权重表示，将通道的权重表示与输入SE的原二维特征相乘即得到各残差卷积块通道加权后的特征表示，作为下一残差卷积块的输入。

步骤3)将步骤2)的输出F_M变换为频域特征表示F_M′＝a×d×C，将F_M′输入频域特征提取模块进行频域特征捕获处理，得到FM的低维频域压缩特征表示e_ff；频域特征提取模块包括三层双向LSTM和一个全连接层。

具体包括：

步骤3-1)将F_M变换为频域特征表示F_M′，将F_M′中每一时刻的频域表示特征f_i依次输入三层双向LSTM；

步骤3-2)将步骤3-1)中最后一层双向LSTM所有时刻的输出进行特征融合，并由全连接层进行特征降维，得到所述猕猴叫声的低维频域压缩特征表示e_ff；

其中，频域表示特征每一时刻的输入特征x_t经LSTM进行特征提取后得到隐藏特征表示为H_t，将所有时刻得到的隐藏特征进行融合，得到所述猕猴叫声的通道关联特征H_o；H_t的计算过程如下：

C_t＝F_t·C_t-1+I_t·tanh(W_xc*x_t+W_hc*H_t-1+b_c)

F_t＝σ(Wx_f*x_t+W_hf*ω_t-1+W_xf·C_t-1+b_f)

O_t＝σ(W_xo*x_t+W_ho*ω_t-1+W_co·C_t-1+b_o)

I_t＝σ(W_xi*x_t+W_hi*ω_t-1+W_ci·C_t-1+b_i)

H_t＝O_t·tanh(C_t)

其中，F_t，O_t，I_t分别表示LSTM中遗忘门、输出门和输入门的输出；C_t及H_t分别表示t时刻的细胞状态及隐藏特征，W_x*，W_h*表示对应门的卷积核参数，b_*表示对应门的偏置参数，σ表示对应的激活函数，双向LSTM的隐藏状态输出可表示为：

H_ot＝g(VH_t+V′H_t′)

其中，H_ot表示t时刻的隐藏特征，H_t和H_t′分别表示正向和反向的输出特征；

通过全连接层对进行H_o进行映射，得到低维压缩频域特征表示e_ff，即：

e_ff＝W_fd*H_o+b_fd

上式中，W_fd和b_fd分别表示全连接层的权重参数及偏置。

步骤4)将步骤2)的输出F_M输入时域特征提取模块进行时域特征捕获处理，得到F_M的低维时域压缩特征表示e_ft。时域特征提取模块包括一个单层的GRU和一个全连接层。

具体包括：

步骤4-1)将F_M转换为时域表示特征，并将每一通道的时域表示特征输入GRU；

步骤4-2)将GRU所有通道对应的输出进行特征融合，得到猕猴叫声的时间关联特征G_o，并由全连接层进行特征降维，得到所述猕猴叫声的低维频域压缩特征表示e_ft；

其中，GRU进行隐状态G_t的计算过程如下：

Z_t＝σ(W_z·[H_t-1，X_t])

R_t＝σ(W_r·[H_t-1，X_t])

H_t＝tanh(W·[R_t*H_t-1，X_t])

G_t＝(1-Z_t)*H_t-1+Z_t*H_t

通过全连接层对G_o进行映射得到低维时域压缩特征表示e_ft，即：

e_ft＝W_ft*G_o+b_ft

上式中Z_t和R_t分别表示更新门和重置门的输出特征；W_ft和b_ft分别表示全连接层权重参数及偏置。

步骤5)将所述低维频域压缩特征表示e_ff与低维时域压缩特征表示e_ft通过特征融合与分类模块处理，获取融合特征的分类编码输出，得到所述猕猴叫声对应的预测情绪类别；特征融合与分类模块包括一个融合层、两个全连接层和一个分类函数；

具体包括：

步骤5-1)将所述低维频域压缩特征表示e_ff与所述低维时域压缩特征表示e_ft输入所述融合层进行特征融合，得到时-频融合特征e_fc＝concat(e_ff，e_ft)；

步骤5-2)将时-频融合特征e_fc特征依次输入两个全连接层，其中，第二个全连接层的输出维度为1；

步骤5-3)将第二个全连接层的输出输入分类函数进行特征映射，根据映射结果预测出所述猕猴叫声对应的情绪类别。

步骤6)根据预测情绪类别与真实的情绪类别进行损失计算，并采用梯度下降法对模型中的参数进行更新；反复迭代，直至训练出最优参数组合；

步骤7)基于最优参数模型，对待被测试的猕猴叫声进行情绪识别，其中，所述待被测试的猕猴不属于训练集所包含的猕猴。

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

本发明的实施例1提出了基于时-频双分支特征的猕猴情绪识别方法。

需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部内容。一些示例性实施例被描述成作为流程示意图描绘的处理或方法，虽然流程示意图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。

本发明技术方案设计的难点如下：

现有的研究多集中在人类语音识别领域，尚未有学者提出通过猕猴叫声对猕猴进行情绪识别的方案。而人类语音中包含的信息更加丰富，情绪种类多，如一段语音中包含的情绪可能有多种，有情绪的变化，因此在根据人类语音进行情绪识别时，通常需要设计复杂的预处理策略，以及更丰富的特征提取方法来从更多的维度提取人类语音中的情绪特征，才能设计出更有效人类语音情绪识别算法。而在本发明方案的设计过程中发现，猕猴的叫声时长较短，经统计，猕猴的一段叫声平均约为0.5秒，并且一段猕猴叫声内的情绪较为一致(无情绪转折)，因此现有人类语音识别的复杂特征提取方法在猕猴语音情绪识别过程通常发挥不出作用，无法进行有效的特征提取，因此本发明设计了一种简单而有效的特征提取与训练策略，来学习猕猴叫声中含有的情绪特征，具有较高的猕猴情绪识别准确率，经实际实验获得的情绪识别准确率可达96.67％。

图1为本发明实施例提供的基于时-频双分支特征的猕猴情绪识别网络整体结构示意图，“CNN模块”表示中间特征提取模块。图1所示网络的数据处理过程包括如下步骤：

步骤110，数据预处理，将原始猕猴叫声的训练语料库按每组a段叫声分为m组。

步骤120，将待被检测的原始猕猴叫声输入中间特征提取模块，得到猕猴叫声的中间特征；其中，待被检测的猕猴不属于训练集所包含的猕猴随机读取一组叫声，由具有n层结构的中间特征提取模块对输入猕猴叫声数据进行多层次递进的特征提取和压缩，得到猕猴叫声的中间层二维特征表示F_M＝a×C×d＝[f₁，f₂，..，f_C]，f_i∈R^d，其中M表示特征时域通道数，d表示通道特征维度，C表示通道数量，fi表示第i个通道的特征，其维度为d。

步骤130，将F_M变换为频域特征表示F_M′＝a×d×C，将F_M′输入频域特征提取模块进行频域特征捕获处理，得到F_M的低维频域压缩特征表示e_ff。

步骤140，将F_M输入时域特征提取模块进行时域特征捕获处理，得到F_M的低维时域压缩特征表示e_ft。

步骤150，将所述低维频域压缩特征表示e_ff与低维时域压缩特征表示e_ft通过特征融合与分类模块处理，获取融合特征的分类编码输出，得到所述猕猴叫声对应的预测情绪类别。

步骤160，根据预测情绪类别与真实的情绪类别进行损失计算，并采用梯度下降法对模型中的参数进行更新；反复迭代，直至训练出最优参数组合。

步骤170，基于最优参数模型，对待被测试的猕猴叫声进行情绪识别，其中，所述待被测试的猕猴不属于训练集所包含的猕猴。

现有的神经网络在进行训练和测试时，多采用封闭数据集的形式，即训练集和测试集是对相同来源的数据进行比例划分，这样训练出来的模型泛化能力较差，而本发明采用开放数据集的形式，测试集和训练集数据分别来自不同的猕猴，即待被检测的猕猴不属于训练集所包含的猕猴。假设一共有M只猕猴的叫声，则本发明选择M1只猕猴的声音数据作为训练集，剩余的M-M1只猕猴的声音数据作为待被测试的猕猴叫声，使得训练和测试所采用的猕猴叫声来自于不同的猕猴，这样训练出的网络，对任意的猕猴声音都能进行较好的情绪识别，泛化能力更好，实用性更强。

本发明实施例提供的端到端时-频特征融合的猕猴叫声情绪识别方法，通过使用原始叫声数据作为网络输入，能够从叫声中提取丰富的情绪相关中间特征，无需语音预处理，简化了算法流程，之后通过时域与频域两个分支，对时域特征和频域特征进行分离提取，从不同角度获取叫声的压缩特征，通过特征融合分类模块对时域和频域特征进行融合，增强了特征的表达力，有效提升了情绪识别的准确率。

另外，在步骤150得到预测标签之后还包括：利用二值交叉熵损失函数计算网络输出的预测标签与真实标签间的损失，并进行反向传播，采用梯度下降法对模型中的参数进行更新；反复迭代，直至训练出的网络在验证集上得到的准确率最高，得到网络的最优参数组合；之后采用具有最优网络参数组合的猕猴情绪识别网络对待被检测的猕猴原始叫声进行情绪识别。

可选的，根据猕猴表情与情绪的对应关系，确定出猕猴叫声中含有的至少2种情绪类别，包括：将猕猴声音数据集与影像数据进行对应，分析猕猴的面部表情；将嘴半张，嘴唇微微突出的猕猴表情所对应的声音确定为“友好”情绪；将眉毛扬起，聚精会神地盯着，嘴巴张开，露出牙齿，或者，眉毛扬起，聚精会神地注视，嘴唇突出，形成一个圆形这两种猕猴表情对应的声音确定为“进攻或威胁”情绪。

猕猴的情绪并没有人类情绪的明确定义，而实现猕猴叫声情绪识别，首先需要对猕猴叫声中的情绪进行分类，因此本发明结合猕猴的影像与声音信息，对猕猴的情绪进行了分析统计，将猕猴典型的6种表情对应的情绪分为4类，分别为：友好情绪，进攻或威胁情绪，失落或顺从情绪，面部特征为：动物的嘴张得很大，正在打呵欠。在灵长类动物中，打哈欠可能与痛苦和焦虑有关；无情绪，面部特征为：嘴巴紧闭，整个面部放松。其中，“友好”和“进攻或威胁”情绪的面部特征已在上文描述，此处未再赘述。

图2为本发明实施例提供的中间特征提取模块结构示意图，如图2所示，中间特征提取模块包括一个头层和4个堆叠的加权残差卷积块；

其中，头层包括一个一维卷积层(conv1d)和一个一维批归一化层(BatchN1d)；本实施例中设定头层的输入通道数为1，输出通道数为128，卷积核大小为1*255，步长为1，即每一个1*255大小的卷积核通过与原始叫声数据进行卷积生成该层输出的一个通道。

加权残差卷积块包括两个一维卷积层，一个一维批归一化层，一个最大值池化层(MaxP)及一个通道注意力机制层(SE)，并且将每个加权残差卷积块的输入跳跃连接至加权残差卷积块第二个卷积层的输出；通道注意力机制层包括一个自适应池化层，一个全连接层(FC)及权重计算函数。需要说明的是，加权残差卷积块的数量并不限于4个，可以通过增加加权残差卷积块的数量来增加网络深度。

具体的，所述步骤120具体包括：

步骤121，利用一维卷积对输入叫声数据i进行维度转换，得到输入特征o¹，计算公式如下：

o¹＝i·w¹+b¹

步骤122，将输入特征o¹作为所述4个堆叠的加权残差卷积块的输入，依次经过各加权残差卷积块进行通道加权特征提取，经过4层加权残差卷积块后得到猕猴叫声的中间层二维特征表示F_M；

其中，每一层加权残差块输出为o^ri，其计算过程如下：

o^r1＝SE(MaxP(o¹+(BN(o¹·w^r10+b^r10)·w^r11+b^r11))

通道注意力机制层的计算公式如下：

SE(x)＝σ(AdaP(o^r1)·w^s1+b^s1)·x

其中，通道注意力机制层的权重计算函数可以是sigmoid函数。通过通道注意力机制中的自适应池化层可将二维特征映射至通道维度的一维向量表示，然后通过一层全连接及sigmoid函数得到每个通道的权重表示，对更能够表达猕猴情绪的特征通道赋予更大的权重，将通道的权重与原二维特征相乘，得到通道加权后的特征表示。通过中间特征提取模块对原始猕猴叫声进行特征提取，能够得到更加丰富的特征信息，对猕猴情绪的表示能力也更强。

最终得到的中间特征可以表示为F_M＝a×C×d，经过残差卷积提取的丰富特征图可理解为每段叫声的时频二维特征表示，每段叫声的二维特征大小为C×d。例如，本发明实施例可设置C＝256，当输入的叫声数据长度为5120时，中间特征的d＝19。为从不同的角度得到猕猴叫声的压缩特征，本发明实施例提出了时域和频域特征分离提取的形式。

图3为本发明实施例提供的频域特征提取模块结构示意图，如图3所示，频域特征提取模块包括三层双向LSTM(BiLSTM)和一个全连接层；将中间特征转换为频域表示特征，并将每一时刻的频域表示特征依次输入三层双向LSTM中；将最后一层双向LSTM所有时刻的输出进行特征融合，并由全连接层进行特征降维，得到猕猴叫声的频域特征。本发明实施例中可设置压缩后的频域特征为1*256维的特征向量。需要说明的是，本发明实施例中的三层双向LSTM为示例性的技术方案，并不对双向LSTM的层数进行限制。

所述步骤130具体包括：

步骤131，将F_M变换为频域特征表示F_M′，将F_M′中每一时刻的频域表示特征f_i依次输入三层双向LSTM。

步骤132，将步骤131中最后一层双向LSTM所有时刻的输出进行特征融合，并由全连接层进行特征降维，得到所述猕猴叫声的低维频域压缩特征表示e_ff；

C_t＝F_t·C_t-1+I_t·tanh(W_xc*x_t+W_hc*H_t-1+b_c)

F_t＝σ(W_xf*x_t+W_hf*ω_t-1+W_xf·C_t-1+b_f)

O_t＝σ(W_xo*x_t+W_ho*ω_t-1+W_co·C_t-1+b_o)

I_t＝σ(W_xi*x_t+W_hi*ω_t-1+W_ci·C_t-1+b_i)

H_t＝O_t·tanh(C_t)

其中，F_t，O_t，I_t分别表示LSTM中遗忘门、输出门和输入门的输出；C_t及H_t分别表示t时刻的细胞状态及隐藏特征，W_x*，W_h*表示对应门的卷积核参数，b_*表示对应门的偏置参数，双向LSTM的隐藏状态输出可表示为：

H_ot＝g(VH_t+V′H_t′)

e_ff＝W_fd*H_o+b_fd

上式中，W_fd和b_fd分别表示全连接层的权重参数及偏置

具体的，将中间特征F_M进行转置，得到频域表示特征为F_M′＝B*F*C，将频域表示特征依次输入至三层双向的LSTM中，通过LSTM对频域维度建立通道关联，将LSTM计算出的所有时刻的隐藏特征融合为H_o作为该段叫声的LSTM输出特征，并经过一层全连接对H_o的特征维度进行降维，将中间特征映射为频域的压缩特征。

图4为本发明实施例提供的时域特征提取模块结构示意图，如图4所示，时域特征提取模块包括一个单层的GRU和一个全连接层；

所述步骤140具体包括：

步骤141，将F_M转换为时域表示特征，并将每一通道的时域表示特征输入GRU；

步骤142，将GRU所有通道对应的输出进行特征融合，得到猕猴叫声的时间关联特征G_o，并由全连接层进行特征降维，得到所述猕猴叫声的低维频域压缩特征表示e_ft。

其中，若中间特征的表示不满足F_M＝b*C*d，则对中间特征进行转换。使用单层GRU结合全连接层，将中间特征映射并压缩为时域关联特征。本发明实施例中可设置压缩后的时域特征为1*256维的特征向量。

其中，GRU进行隐状态G_t的计算过程如下：

Z_t＝σ(W_z·[H_t-1，X_t])

R_t＝σ(W_r·[H_t-1，X_t])

H_t`＝tanh(W·[R_t*H_t-1，X_t])

G_t＝(1-Z_t)*H_t-1+Z_t*H_t

e_ft＝W_ft*H_o+b_ft

上式中Z_t和R_t分别表示更新门和重置门的输出特征；W_ft和b_td分别表示全连接层权重参数及偏置。

图5为本发明实施例提供的特征融合与分类模块结构示意图。如图5所示，特征融合与分类模块包括一个融合层、两个全连接层和一个分类函数；

所述步骤150具体包括：

步骤151，将所述低维频域压缩特征表示e_ff与所述低维时域压缩特征表示e_ft输入所述融合层进行特征融合，得到时-频融合特征e_fc＝concat(e_ff，e_ft)。

步骤152，将时-频融合特征e_fc特征依次输入两个全连接层，其中，第二个全连接层的输出维度为1。

步骤153，将第二个全连接层的输出输入分类函数进行特征映射，根据映射结果预测出所述猕猴叫声对应的情绪类别。

其中，特征融合与分类模块中所采用的分类函数为sigmoid函数。将频域特征与时域特征分别得到大小为1*256维的特征向量(分别表示为e_ft和e_ff)进行特征融合(如拼接)，得到一个1*512维的特征向量。第一个全连接层的输入和输出的特征维度分别为512和256，第二个全连接层输入和输出维度分别为256和1，将第二个全连接层输出的1维特征进一步由分类函数进行计算，得到预测的概率输出。根据预测概率与预设阈值的比较结果，即可识别出输入的原始猕猴叫声所表达的情绪。

该方法基于猕猴叫声实现猕猴情绪识别，主要处理流程包括：首先对输入的原始猕猴声音进行多层次递进的特征提取和压缩，得到与情绪相关的中间层二维特征；之后将中间层二维特征转换为时域特征表示，进行时间关联特征提取，捕获猕猴叫声采样数据的时域压缩特征表示；同时将中间层二维特征转换为频域特征表示，进行通道关联特征提取，捕获猕猴叫声采样数据的频域压缩特征表示；最后，将频域压缩特征与时域压缩特征通过特征融合策略聚合为双分支语义信息，并通过多层全连接映射得到输入猕猴声音对应的精确情绪类别，有效提升了基于猕猴叫声的情绪识别准确率。

为比较发明所提算法有效性，将其与近年来的两种效果较为优秀的人类语音情绪识别算法进行比较，其分别为基于双分支CNN结构的CAPR和基于CNN结构的RSSE。实验所采用数据集均为猕猴叫声情绪数据集。最终实验结果如表所示，可见，本发明所提供的猕猴情绪识别算法显著提高了情绪识别的准确率。

实施例2

本发明的实施例2提供了一种基于时-频双分支特征的猕猴情绪识别系统，根据上述实施例所提供的任一方法所构建的情绪识别网络模型实现，该系统包括：系统包括：猕猴情绪识别模型和猕猴情绪输出模块；其中，

猕猴情绪输出模块，用于将采集的猕猴声音输入预先建立和训练好的猕猴情绪识别模型，得到对应的精确情绪类别；所述精确情绪类别包括“友好”情绪、“进攻或威胁”情绪、“失落或顺从”情绪和无情绪；

猕猴情绪识别模型，用于提取猕猴声音的中间特征，基于时-频双分支对时域特征和频域特征进行分离提取，经融合分类确定对应的精确情绪类别。

其中，猕猴情绪识别模型包括中间特征提取模块、频域特征提取模块、时域特征提取模块和特征融合与分类模块；其中，

中间特征提取模块，用于对输入猕猴叫声数据进行多层次递进的特征提取和压缩，得到猕猴叫声的中间层二维特征表示F_M＝a×C×d＝[f₁，f₂，..，f_C]，f_i∈R^d，中M表示时-频特征时域通道数，d表示通道特征维度，C表示通道数量，fi表示第i个通道的特征，其维度为d；

频域特征提取模块，用于F_M输入频域特征提取模块进行频域特征捕获处理，得到F_M的低维频域压缩特征表示e_ff；

时域特征提取模块，用于将F_M变换为时域特征表示F_M′＝a×d×C，对F_M′进行时域特征捕获处理，得到低维时域压缩特征表示e_ft；

特征融合与分类模块，用于对低维频域压缩特征表示e_ff与低维时域压缩特征表示e_ft进行特征融合，并计算出融合特征的分类编码输出，得到所述猕猴叫声对应的情绪类别。

在对猕猴情绪识别模型进行训练时包括数据预处理模块，用于猕猴叫声数据的预处理，并将猕猴叫声的训练语料库按每组a段叫声分为m组。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于时-频双分支特征的猕猴情绪识别方法，所述方法包括：

2.根据权利要求1所述的基于时-频双分支特征的猕猴情绪识别方法，其特征在于，所述猕猴情绪识别模型包括中间特征提取模块、频域特征提取模块、时域特征提取模块和特征融合与分类模块；其中，

3.根据权利要求2所述的基于时-频双分支特征的猕猴情绪识别方法，其特征在于，所述中间特征提取模块包括一个头层和4个堆叠的结构相同的加权残差卷积块；其中，

4.根据权利要求3所述的基于时-频双分支特征的猕猴情绪识别方法，其特征在于，所述中间特征提取模块的具体处理过程包括：

o¹＝i·w¹+b¹

其中，第i个加权残差块输出为o^ri，i≤4，满足下式：

o^ri＝SE(MaxP(o¹+(BN(o¹·w^ri0+b^ri0)·w^ri1+b^ri1))

SE(x)＝σ(AdaP(o^r1)·w^s1+b^s1)·x

5.根据权利要求2所述的基于时-频双分支特征的猕猴情绪识别方法，其特征在于，所述频域特征提取模块包括依次连接的三层双向LSTM和一个全连接层；具体处理过程为：

e_ff＝W_fd*H_o+b_fd

式中，W_fd和b_fd分别表示全连接层的权重参数及偏置。

6.根据权利要求5所述的基于时-频双分支特征的猕猴情绪识别方法，其特征在于，所述时域特征提取模块包括依次连接的一个单层的GRU和一个全连接层；具体处理过程包括：

e_ft＝W_ft*G_o+b_ft

式中，W_ft和b_ft分别表示全连接层权重参数及偏置。

7.根据权利要求6所述的基于时-频双分支特征的猕猴情绪识别方法，其特征在于，所述特征融合与分类模块包括依次连接的一个融合层、第一全连接层、第二全连接层和一个分类函数；其中第二全连接层的维度为1；所述特征融合与分类模块具体处理过程包括：

8.根据权利要求1所述的基于时-频双分支特征的猕猴情绪识别方法，其特征在于，所述方法还包括猕猴情绪识别模型的训练步骤，具体包括：

由原始猕猴叫声的声音数据集分别建立训练集和验证集；

9.一种基于时-频双分支特征的猕猴情绪识别系统，其特征在于，所述系统包括：猕猴情绪识别模型和猕猴情绪输出模块；其中，