CN114330454A

CN114330454A - 一种基于ds证据理论融合特征的生猪咳嗽声音识别方法

Info

Publication number: CN114330454A
Application number: CN202210004800.5A
Authority: CN
Inventors: 尹艳玲; 沈维政; 纪楠; 王锡鹏; 严士超; 包军; 刘洪贵; 熊本海
Original assignee: Northeast Agricultural University
Current assignee: Northeast Agricultural University
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-12

Abstract

本发明公开了一种基于DS证据理论融合特征的生猪咳嗽声音识别方法，包括：提取语料库中生猪咳嗽声音和非咳嗽声音的线性预测倒谱系数和对数梅尔谱图，将特征图像分成训练集和测试集，分别将训练集中的线性预测倒谱系数和对数梅尔谱图输入两路并行的卷积神经网络提取深度特征，将提取的深度特征送入全连接层和softmax分类器进行二分类，将分类后的结果送入DS证据理论特征融合层，将融合后的结果输入分类器再次进行二分类，实现对生猪咳嗽声音的识别。本发明利用两路卷积神经网络对不同的图像特征提取深度特征，利用DS证据理论对深度特征进行融合，相比于常规的声音识别方法，该方法可有效提升咳嗽声音的识别精度。

Description

一种基于DS证据理论融合特征的生猪咳嗽声音识别方法

技术领域

本发明属于语音信号处理领域，特别是涉及一种基于DS证据理论融合特征的生猪咳嗽声音识别方法。

背景技术

生猪叫声包含丰富的信息，读懂生猪叫声可以更好的了解生猪的生长及健康状况。生猪群发性呼吸道疾病是集约式养殖环境下的一种多发疾病，严重影响生猪养殖的经济效益。咳嗽是呼吸道疾病前期的显著特征之一，因此通过非接触式的音频监测的方法可以实现对生猪呼吸道疾病的预警，而其中关键技术就是对生猪咳嗽声音的识别。生猪咳嗽声音识别的关键技术包括特征提取和声音信号分类技术，已有方法大多都使用单一的特征进行分类识别，且常用用于语音识别的梅尔频率倒谱系数或者语谱图作为特征，而这些方法对于生猪咳嗽声音的识别，很难达到语音信号的识别精度。因此，本发明提出了一种基于DS证据理论融合特征的生猪咳嗽声音识别方法，该方法采用了对于生猪咳嗽声音识别分类精度较高的两种特征作为输入特征，采用多层卷积神经网络提取深度特征，然后对不同特征的分类结果进行DS证据理论特征融合，从而实现高精度的生猪咳嗽声音识别。

发明内容

本发明的目的是提供一种基于DS证据理论融合特征的生猪咳嗽声音识别方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于DS证据理论融合特征的生猪咳嗽声音识别方法，包括：

对生猪的咳嗽声音和非咳嗽声进行特征提取并保存；

将特征图像分为训练集和测试集，将所述训练集中的数据输入两路并行的卷积神经网络提取深度特征并分类；

基于分类结果获得两路网络中咳嗽声和非咳嗽声的概率，并输入到DS证据理论特征融合层进行融合，将融合后的特征输入分类器进行分类；

完成训练后，将所述测试集的数据输入训练好模型进行生猪咳嗽声音的识别。

可选的，对生猪的咳嗽声音和非咳嗽声进行特征提取并保存之前还需进行预处理，所述预处理过程包括：

基于带通滤波器对声音信号进行滤波，频率为100Hz～16kHz；

对滤波后的信号进行分帧和加窗处理，其中帧长为20ms，重叠长度为10ms，所述加窗处理采用的窗函数为汉宁窗。

可选的，对生猪的咳嗽声音和非咳嗽声进行特征提取并保存的过程中包括：

提取线性预测倒谱系数和对数梅尔谱图，其中，提取所述线性预测倒谱系数的阶数为24；

将提取的特征保存成尺寸为227×227×3像素尺寸的彩色图片。

可选的，将所述训练集中的数据输入两路并行的卷积神经网络提取深度特征并分类的过程中包括：

所述两路并行的卷积神经网络的两路均包括五个卷积、两个全连接层和一个分类器；

基于五个所述卷积层对训练集中的数据进行处理，将提取的深度特征输入两个所述全连接层中进行处理；

处理结束后输入所述分类器进行分类，其中所述分类器为softmax分类器。

可选的，基于五个所述卷积层对训练集中的数据进行处理的过程包括：

所述卷积层采用迁移学习的方法预加载ImageNet数据集上训练好的权重；

基于交叉熵损失函数和随机梯度下降法对所述全连接层进行模型的训练和权重的更新。

可选的，基于所述交叉熵损失函数进行计算的过程中，采用如下公式进行计算：

式中N为输入样本数量，L₁用于第一路网络全连接层的权重更新，L₂用于第二路网络全连接层的权重更新，y_i代表数据标签，

代表从第一路卷积神经网络输出的数据，

代表为第二路卷积神经网络输出的数据。

可选的，基于分类结果获得两路网络中咳嗽声和非咳嗽声的概率的过程中包括：

基于第一路卷积神经网络的分类器进行分类，并获得第一生猪咳嗽声概率和第一生猪非咳嗽声概率；

基于第二路卷积神经网路的分类器进行分类，并获得第二生猪咳嗽声概率和第二生猪非咳嗽声概率。

可选的，输入到DS证据理论特征融合层进行融合的过程中，采用了如下公式：

式中m₁代表第一路卷积神经网络输出的咳嗽声和非咳嗽声事件的基本概率分配函数，m₂代表第二路卷积神经网络输出的咳嗽声和非咳嗽声事件的基本概率分配函数，A_i代表经过DS证据理论特征层融合后的对应事件，B_i表示从第一路卷积神经网络输出的概率，其中B₁代表所述第一生猪咳嗽声概率，B₂代表所述第一生猪非咳嗽声概率，C_i表示从第二路卷积神经网络输出的概率，其中C₁代表所述第二生猪咳嗽声概率，C₂代表所述第二生猪非咳嗽声概率，m₁(B₁)＝B₁，m₁(B₂)＝B₂，m₂(C₁)＝C₁，m₂(C₂)＝C₂，

本发明的技术效果为：

两路卷积神经网络对不同的图像特征提取深度特征，获得咳嗽声的深度特征和非咳嗽声的深度特征，通过DS证据理论对深度特征进行融合，并基于咳嗽声音概率、非咳嗽声音概率进行处理，相比于常规的声音识别方法，本发明提升了对生猪咳嗽声的识别准确率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的线性预测倒谱系数提取过程图；

图2为本发明实施例中的对数梅尔谱提取过程图；

图3为本发明实施例中的DS证据理论特征融合流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，本实施例中提供一种基于DS证据理论融合特征的生猪咳嗽声音识别方法，包括：

语料库为实际猪舍内采集的标注好的咳嗽声音和非咳嗽声音片段，从语料库中随机选取896个咳嗽声音和非咳嗽声音作为训练集样本，随机选取192个咳嗽声音和非咳嗽声音作为测试集样本。提取生猪咳嗽声音和非咳嗽声音的特征。首先将声音信号进行预处理，预处理过程包括：先将声音信号进行滤波，带通滤波器频率为100Hz～16kHz，然后进行分帧和加窗处理，帧长为20ms，重叠长度为10ms，窗函数为汉宁窗。然后分别提取线性预测倒谱系数和对数梅尔谱图，提取过程分别如图1和图2所示，提取线性预测倒谱系数的阶数为24，将提取的特征保存成尺寸为227×227×3像素尺寸的彩色图片，保存图片时，颜色设置为“viridis”，保存图片格式为“png”格式。

分别将线性预测倒谱系数和对数梅尔谱图输入如图3所示的网络中，其中，第一个卷积层的卷积核数量为96，卷积核大小为11×11×3，第二个卷积层的卷积核数量为256，卷积核大小为5×5×48，前两个卷积层后进行局部响应归一化(LRN)和最大池化处理，第三个卷积层的卷积核数量为384，卷积核大小为3×3×256，第四个卷积层的卷积核数量为384，卷积核大小为3×3，第五个卷积层的卷积核数量为256，卷积核大小为3×3，第6，7，8层为全连接层，其中前两个全连接层神经元个数为4096，第三个全连接层为softmax分类器，输出神经元个数为2。

假设第一路卷积神经网络经过第一个分类器后输出数据为B＝[B₁，B₂]，其中B₁代表咳嗽声概率，B₂代表非咳嗽声概率，第二路卷积神经网络经过第二个分类器输出数据为C＝[C₁，C₂]，其中C₁代表咳嗽声概率，C₂代表非咳嗽声概率，则构造的两个基本概率分配函数如下所示：

m₁(B₁)＝B₁，m₁(B₂)＝B₂

m₂(C₁)＝C₁，m₂(C₂)＝C₂

其中，基本概率分配函数满足条件：

m₁(B₁)+m₁(B₂)＝1，m₂(C₁)+m₂(C₂)＝1；

DS证据理论特征融合过程如下所示：

式中m₁代表第一路卷积神经网络输出的咳嗽声和非咳嗽声事件的基本概率分配函数，m₂代表第二路卷积神经网络输出的咳嗽声和非咳嗽声事件的基本概率分配函数，A_i代表经过DS证据理论特征层融合后的对应事件，B_i表示从第一路卷积神经网络输出的概率，其中B₁代表所述第一生猪咳嗽声概率，B₂代表所述第一生猪非咳嗽声概率，C_i表示从第二路卷积神经网络输出的概率，其中C₁代表所述第二生猪咳嗽声概率，C₂代表所述第二生猪非咳嗽声概率，m₁(B₁)＝B₁，m₁(B₂)＝B₂，m₂(C₁)＝C₁，m₂(C₂)＝C₂，。

将融合后的数据输入一个softmax分类器进行二分类，可以得到分类结果。在模型训练过程中，需要对网络权重进行更新，其中前五层卷积层采用迁移学习的方法预加载ImageNet数据集上训练好的权重，采用交叉熵损失函数和随机梯度下降法对全连接层进行模型的训练和权重的更新，损失函数计算方法具体如下：

假设第一路卷积神经网络经过第一个分类器输出的数据为

第二路卷积神经网络经过第一个分类器输出的数据为

输入数据标签为y_i，则两路卷积神经网络输出的损失函数可以表示为：

其中，N为输入样本数量。L₁用于第一路网络全连接层的权重更新，L₂用于第二路网络全连接层的权重更新。

完成模型的训练后，保存模型，将测试集内的数据输入已经训练好的模型，输出结果即为咳嗽声和非咳嗽声的标签，实现对生猪咳嗽声音的识别。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。