CN106340309B

CN106340309B - 一种基于深度学习的狗叫情感识别方法及装置

Info

Publication number: CN106340309B
Application number: CN201610709581.5A
Authority: CN
Inventors: 居一; 刘美丽; 刘家铭
Original assignee: Shanghai Solo Information Technology Co Ltd
Current assignee: Suzhou Kechakoyate Network Technology Co.,Ltd.
Priority date: 2016-08-23
Filing date: 2016-08-23
Publication date: 2019-11-12
Anticipated expiration: 2036-08-23
Also published as: CN106340309A

Abstract

本发明公开了一种基于深度学习的狗叫情感识别方法，包括：基于狗的叫声设计叫声存储层、端点检测层、带注意力模块的前馈深度神经网络模型、卷积神经网络模型、线性集成模型；叫声信号经存储、端点检测后计算MFCC特征，训练带注意力模块的前馈深度神经网络模型，判断狗叫声和非狗叫声；计算狗叫信号的MFCC特征和Mel Filterbank特征，交叉输入训练带注意力模块的前馈深度神经网络模型和卷积神经网络模型，将产生的四个模型线性集成，识别狗叫的十种情感，并将结果可视化。此外，本发明还提供了一种基于深度学习的狗叫情感识别转装置，本装置可以实时监测狗叫的感情变化，且能够远程显示其感情状态。

Description

一种基于深度学习的狗叫情感识别方法及装置

技术领域

本发明属于声音技术处理领域，具体是一种基于深度学习的狗叫情感识别方法及装置。

背景技术

现代家庭生活中，狗越来越成为重要的一份子。但是在我们与它们相处的过程中，并不能及时了解它们的需求，如想吃饭、想玩、想出去溜；在它们出现负面情绪，如害怕、警觉、愤怒、委屈、悲伤时也不能及时提供安慰和解决；更不能和他们共同分享正面情绪(开心)。在现有技术中，深度学习研究的蓬勃发展，使得人语音识别的准确率得到了极大的提高，但是在动物叫声信号的处理和感情分类上还处于空白状态。

发明内容

针对上述现有技术存在的问题，本发明的目的是提供一种基于深度学习的狗叫情感识别方法及装置。本装置能够实时监测狗叫的感情变化，且能够远程显示其感情状态。

为了实现上述目的，本基于深度学习的狗叫情感识别方法，包括：

基于狗的叫声设计叫声存储层、叫声信号端点检测层、带注意力模块的前馈深度神经网络模型、卷积神经网络模型、线性集成模型；

叫声语音信号经存储、声音端点检测后计算MFCC特征，训练带注意力模块的前馈深度神经网络模型，判断狗叫声和非狗叫声；计算狗叫信号的MFCC特征和Mel Filterbank特征，交叉输入训练带注意力模块的前馈深度神经网络模型和卷积神经网络模型，将产生的四个模型线性集成，识别狗叫的十种情感，并将结果可视化。

进一步，所述叫声存储层的叫声存储格式为PCM格式。

进一步，所述叫声信的端点检测，其包括如下步骤：

(1)将采集的叫声信号按秒分帧，加窗，计算每帧信号的短时能量：和短时过零率其中N＝400，x_n为第n帧叫声信号，其中

(2)采用双门限法，剔除噪音，并将有效语音信号发送至叫声检测单元。

进一步，所述带注意力模块的前馈深度神经网络模型，包含一个注意力层，3个全连接层和一个Softmax分类层，其中的注意力机制的公式为:

h_t＝LReLu(w_xhx_t+b_xh)； (3)

e_t＝a(h_t)＝tanh(w_hcx_t+b_hc)； (4)

公式(3)、(4)、(5)、(6)中，w_xh、w_hc为模型的权值，b_xh、b_hc为模型的阈值，LReLu函数的公式为LReLu(x)＝max(x.，01x)(7),tanh函数的公式为x_t是t时刻叫声输入数据的特征，h_t是x_t通过浅层前馈网络得到的特征变换，α_t是根据注意力机制计算的到的x_t在整段叫声信号中的权重，最终通过公式(6)的加权平均得到了整段叫声信号的统计特征表述c，进一步的建立三层深度前馈网络进行识别，输入信号为c，输出信号为情感标签，将c映射至该段声音对应的情感标签。

进一步，所述叫声识别单元的卷积神经网络模型，包含3个卷积层，3个池化层，2个全连接层和一个Softmax分类层。

进一步，所述Softmax分类层，代价函数为：

在公式(9)中，函数1{y⁽ⁱ⁾＝j}的取值规则是1{值为真的表达式}＝1，y⁽ⁱ⁾表示第i段叫声的情感标签，x⁽ⁱ⁾表示第i段叫声在上一层网络中的输出值，m为所有叫声的总个数，k＝10表示情感的10个分类，分别为开心，警觉，愤怒，悲伤，委屈，好奇，害怕，想吃东西，想玩，想出去溜，θ表示Softmax分类器的权重参数。

进一步，所述线性集成模型，是对四个模型(MFCC特征的带注意力模块的前馈深度神经网络模型，Mel Filterbank特征的带注意力模块的前馈深度神经网络模型，MFCC特征的卷积神经网络，Mel Filterbank特征的卷积神经网络)的Softmax分类层产生的10个概率值按权重线性相加，权重取决于模型在测试集中的正确率，最终选择概率值最大的情感作为输出结果。

本基于深度学习的狗叫情感识别装置，包括：音频采集单元、叫声检测单元、叫声识别单元、显示单元；所述音频采集单元对采集到的狗叫声信号进行存储、端点检测，并将有效声音信号通过无线发送至叫声检测单元；所述叫声检测单元通过计算叫声信号的MFCC特征，输入到带注意力模块的前馈深度神经网络模型，判断狗叫声和非狗叫声，将叫声信号传递到叫声识别单元；所述叫声识别单元通过计算狗叫信号的MFCC特征和Mel Filterbank特征，输入到线性集成模型，识别狗叫的十种情感，并将结果传递到显示单元；所述数据显示单元将狗叫声的情感判断结果进行可视化。

进一步，所述数据显示单元可视化方法，可以为LCD显示、LED显示、PC上位机的一种，也可以为通过QQ、微信公众号、手机APP、短息的一种发送给狗的主人。

作为本发明的优选，所述音频采集单元可佩带与狗身上，所述叫声检测单元、叫声识别单元捆绑在一起；所述无线发送方法可以是RF射频、wifi、蓝牙、GPRS的一种。

与现有技术相比，本基于深度学习的狗叫情感识别方法及装置的有益效果如下：

1.设计音频采集单元，通过端点检测处理，并将叫声信号进行PCM编码，方便后续数据处理。

2.设计叫声检测单元，区分出狗叫声，减轻后续其它单元的运算处理负担。

3.建立神经模型进行信号处理与分类，工作高效，准确。

4.分类结果通过无线传输给显示模块，实现了远程的监测。

附图说明

图1是本狗叫情感识别方法的原理示意图；

图2是本狗叫情感识别装置的结构示意图。

具体实施方式

下面结合附图对本发明做进一步说明。

如图1所示，本基于深度学习的狗叫情感识别方法，包括：

经存储、端点检测处理的叫声语音信号通过计算MFCC特征并归一化，通过所述带注意力模块的前馈深度神经网络模型，判断狗叫声和非狗叫声；计算狗叫信号的MFCC特征和Mel Filterbank特征，分别训练两个特征的带注意力模块的前馈深度神经网络模型和卷积神经网络模型，将产生的四个模型通过线性集成模型，判断狗叫的情感(共十种情感)，并将结果可视化。

进一步，所述叫声存储层的叫声存储格式为PCM格式。

进一步，所述叫声信号端点检测层，其包括如下步骤：

(2)采用双门限法，剔除噪音，并将有效语音信号发送至叫声检测单元，减轻了后续单元的负担。

h_t＝LReLu(w_xhx_t+b_xh)； (3)

e_t＝a(h_t)＝tanh(w_hcx_t+b_hc)； (4)

进一步，所述叫声识别单元的卷积神经网络模型，包含3个卷积层，3个池化层，2个全连接层和一个Softmax分类层。池化在卷积特征提取的基础上，对每个卷积特征进行取平均等，继续缩小隐藏节点对于的卷积特征维数，减小分类器的设计负担。

进一步，所述Softmax分类层，代价函数为：

进一步，所述线性集成模型，是对四个模型(MFCC特征的带注意力模块的前馈深度神经网络模型，Mel Filterbank特征的带注意力模块的前馈深度神经网络模型，MFCC特征的卷积神经网络Mel Filterbank特征的卷积神经网络)的Softmax分类层产生的10个概率值按权重线性相加，权重取决于模型在测试集中的正确率，最终选择概率值最大的情感作为输出结果。

如图2所示，本基于深度学习的狗叫情感识别装置，包括：音频采集单元、叫声检测单元、叫声识别单元、显示单元；所述音频采集单元佩带与狗身上，对采集到的狗叫声信号进行存储、端点检测，并将有效声音信号通过无线发送至叫声检测单元；所述叫声检测单元通过计算叫声信号的MFCC特征并归一化，构建带注意力模块的前馈深度神经网络模型，判断狗叫声和非狗叫声，将叫声信号传递到叫声识别单元；所述叫声识别单元通过计算狗叫信号的MFCC特征和Mel Filterbank特征，分别训练两个特征的带注意力模块的前馈深度神经网络模型和卷积神经网络模型，将产生的四个模型线性集成，判断狗叫的情感(共十种情感)，并将结果传递到显示单元；所述数据显示单元将狗叫声的情感判断结果进行可视化。

进一步，所述数据显示单元可视化方法，可以为LCD显示、LED显示、PC上位机的一种，也可以为通过QQ、微信公众号、短息的一种发送给狗的主人。

作为本发明的优选，所述叫声检测单元、叫声识别单元捆绑在一起；所述无线发送方法可以是RF射频、wifi、蓝牙、GPRS的一种。

Claims

1.一种基于深度学习的狗叫情感识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度学习的狗叫情感识别方法，其特征在于，所述叫声存储层的叫声存储格式为PCM格式。

3.根据权利要求1所述的一种基于深度学习的狗叫情感识别方法，其特征在于，所述带注意力模块的前馈深度神经网络模型，包含一个注意力层，3个全连接层和一个Softmax分类层，其中的注意力机制的公式为:

h_t＝L Re Lu(w_xhx_t+b_xh)； (3)

e_t＝a(h_t)＝tanh(w_hcx_t+b_hc)； (4)

公式(3)、(4)、(5)、(6)中，w_xh、w_hc为模型的权值，b_xh、b_hc为模型的阈值，L Re Lu函数的公式为L Re Lu(x)＝max(x，.01x)(7),tanh函数的公式为x_t是t时刻叫声输入数据的特征，h_t是x_t通过浅层前馈网络得到的特征变换，α_t是根据注意力机制计算的到的x_t在整段叫声信号中的权重，最终通过公式(6)的加权平均得到了整段叫声信号的统计特征表述c，进一步的建立三层深度前馈网络进行识别，输入信号为c，输出信号为情感标签，将c映射至该段声音对应的情感标签。

4.根据权利要求1所述的一种基于深度学习的狗叫情感识别方法，其特征在于，叫声识别单元的卷积神经网络模型，包含3个卷积层，3个池化层，2个全连接层和一个Softmax分类层。

5.根据权利要求4所述的一种基于深度学习的狗叫情感识别方法，其特征在于，所述Softmax分类层，代价函数为：

6.根据权利要求1所述的一种基于深度学习的狗叫情感识别方法，其特征在于，所述线性集成模型，是对包括MFCC特征的带注意力模块的前馈深度神经网络模型、MelFilterbank特征的带注意力模块的前馈深度神经网络模型、MFCC特征的卷积神经网络、MelFilterbank特征的卷积神经网络四个模型的Softmax分类层产生的10个概率值按权重线性相加，权重取决于模型在测试集中的正确率，最终选择概率值最大的情感作为输出结果。

7.一种基于深度学习的狗叫情感识别装置，其特征在于：包括音频采集单元、叫声检测单元、叫声识别单元、数据显示单元；

所述音频采集单元对采集到的狗叫声信号进行存储、端点检测，并将有效声音信号通过无线发送至叫声检测单元；

所述叫声检测单元通过计算叫声信号的MFCC特征，输入到带注意力模块的前馈深度神经网络模型，判断狗叫声和非狗叫声，将狗叫信号传递到叫声识别单元；

所述叫声识别单元通过计算狗叫信号的MFCC特征和Mel Filterbank特征，分别训练两个特征的带注意力模块的前馈深度神经网络模型和卷积神经网络模型，将产生的四个模型线性集成，判断狗叫的情感，并将结果传递到数据显示单元；

所述数据显示单元将狗叫声的情感判断结果进行可视化。

8.根据权利要求7所述的一种基于深度学习的狗叫情感识别装置，其特征在于，所述数据显示单元可视化方法，可以为LCD显示、LED显示、PC上位机的一种，也可以为通过QQ、微信公众号、手机APP、短信息的一种发送给狗的主人。

9.根据权利要求7所述的一种基于深度学习的狗叫情感识别装置，其特征在于，所述音频采集单元可佩带与狗身上，所述叫声检测单元、叫声识别单元捆绑在一起；所述无线发送方法可以是RF射频、wifi、蓝牙、GPRS的一种。