CN114330453A

CN114330453A - 基于声学特征和视觉特征融合的生猪咳嗽声音识别方法

Info

Publication number: CN114330453A
Application number: CN202210004775.0A
Authority: CN
Inventors: 尹艳玲; 沈维政; 纪楠; 王锡鹏; 严士超; 包军; 刘洪贵; 熊本海
Original assignee: Northeast Agricultural University
Current assignee: Northeast Agricultural University
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-12

Abstract

本发明公开了一种基于声学特征和视觉特征融合的生猪咳嗽声音识别方法，包括：对语料库中生猪的咳嗽声和非咳嗽声的声音片段进行声学特征提取，并将生猪的咳嗽声和非咳嗽声的声音片段分别转换为频谱图进行视觉特征提取；从特征选择和特征处理两个方面对提取出来的特征进行降维处理并进行融合，将融合的特征输入机器学习的分类模型中，实现对生猪咳嗽声音的识别。本发明分别从声音信号中直接提取声学特征和由声音信号转化的时频图提取视觉特征，将两种不同维度下的特征进行融合，相比于常规的声音识别方法，该方法可有效提升咳嗽声音和整体识别精度。

Description

基于声学特征和视觉特征融合的生猪咳嗽声音识别方法

技术领域

本发明属于语音信号处理领域，特别是涉及一种基于声学特征和视觉特征融合的生猪咳嗽声音识别方法。

背景技术

生猪群发性呼吸道疾病是影响生猪健康养殖的重要因素之一，呼吸道疾病不仅会给养殖户带来巨大的经济损失，同时大大降低了动物福利。传统依赖人工检测的方法耗时耗力且易引起猪的应激反应。因此，需要开发一种自动的猪呼吸道疾病监测方法，以实现快速的呼吸道疾病预警。

生猪群发性呼吸道疾病早期的显著症状之一就是咳嗽，因此可以通过对咳嗽声音进行监测和识别，从而实现呼吸道疾病的预警。在开发猪咳嗽声识别方法的过程中，获得具有代表性的特征通常被认为是实现高识别准确率的关键步骤。声音特征提取主要包含两个方面：一方面是从一维声音信号中提取声学特征，声学特征主要从时域或频域等方面反映声音信号的一维特征；另一方面是将声音信号转为二维的时频图作为图像特征进行处理，图像特征分别从时域、频域或其他域来反映声音信号的二维特征。目前已有分类算法大部分都是以单一或某几种声学或图像特征作为分类器的输入，而对于声学特征和图像特征进行融合分类在猪咳嗽声音识别领域尚未见报道。而从不同的特征角度，我们可以获取更多的特征信息，有助于分类器性能的提升。因此，本发明提出了一种基于声学特征和视觉特征融合的生猪咳嗽声音识别方法，从而达到提升分类器性能的目的。

发明内容

本发明的目的是提供一种基于声学特征和视觉特征融合的生猪咳嗽声音识别方法，以解决上述现有技术存在的问题。

一方面为实现上述目的，本发明提供了一种基于声学特征和视觉特征融合的生猪咳嗽声音识别方法，包括：

对语料库中生猪的咳嗽声和非咳嗽声的声音片段进行声学特征提取，并将生猪的咳嗽声和非咳嗽声的声音片段分别转换为频谱图进行视觉特征提取；

从特征选择和特征处理两个方面对提取出来的特征进行降维处理并进行融合，将融合的特征输入机器学习的分类模型中，实现对生猪咳嗽声音的识别。

可选的，对语料库中所述生猪的咳嗽声和非咳嗽声的声音片段进行声学特征提取的过程中包括：

对所述语料库中生猪咳嗽声和非咳嗽声的声音片段直接提取声学特征，所述声学特征包括均方根能量、梅尔倒谱系数、过零率、频谱质心、频谱滚降、频谱平坦度、频谱带宽和色度。

可选的，将生猪的咳嗽声和非咳嗽声的声音片段分别转换为频谱图进行视觉特征提取的过程中包括：

基于常数Q变换将所述声音片段转换为频谱图，并将所述频谱图保存为100×100×3像素大小的彩色频谱图；

将所述彩色频谱图转化为灰度频谱图，从所述灰度频谱图上提取视觉特征，包括局部二值模式和方向梯度直方图。

可选的，从特征选择和特征处理两个方面对提取出来的特征进行降维处理的过程中包括：

基于所述特征选择方面，对所述声学特征进行降维处理；

基于所述特征处理方面，对所述视觉特征进行降维处理，包括：

进行视觉特征提取的过程中，采用主成分分析法进行维度降低。

可选的，基于所述特征选择方面，对所述特征进行降维处理的过程包括：

在所选择的声学特征中，采用皮尔森相关系数和递归特征消除方法相结合进行特征选择，包括：对所述声学特征计算皮尔森相关系数，对没有相关性的所述声学特征进行独立测试分类性能，对有相关性的特征采用随机森林结合递归特征消除的方法进行进一步的特征选择。

可选的，对完成降维处理的特征进行融合，并输入机器学习的分类模型中包括：

根据筛选出的声学特征和视觉特征，进行不同特征组的融合；

融合后输入到机器学习的分类模型中，进行咳嗽声与非咳嗽声的分类，所述机器学习的分类模型包括支持向量机、随机森林和K最邻近法。

可选的，针对机器学习的分类模型，选择Gridsearch网格搜索法进行分类模型的参数选择。

可选的，进行分类的过程中包括：

针对所述支持向量机，选择两种核函数，包括线性核函数和RBF核函数；

针对所述随机森林，将n_estimators设置范围在(10,50)，将min_samples_split设置范围在(2,9)；

针对K最邻近法，设置n_neighbors的范围在(1,50)。

本发明的技术效果为：

将声音信号的一维的声学特征和二维的视觉特征作为分类器的输入，可以提供更多的信息用于提高识别精度，采用网格搜索法结合机器学习对咳嗽声音进行分类，抗干扰能力强且计算速度较快，与常规生猪叫声分类算法相比，本发明可以有效提高生猪咳嗽声音识别精度。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例一中的猪舍内采集声音数据实验设备布放图；

图2为本发明实施例一中的猪舍内采集的声音片段的声学特征图；

图3为本发明实施例一中的PCC-RF-RFECV的特征选择流程图；

图4为本发明实施例一中的对应LBP四组(P,R)值；

图5为本发明实施例一中的HOG视觉特征的提取流程图；

图6为本发明实施例一中的流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图6所示，本实施例中提供一种基于声学特征和视觉特征的特征融合的生猪咳嗽声音识别方法的实施方式，包括：

生猪咳嗽声音和其他叫声数据采集于黑龙江省哈尔滨市阿城区某商业养殖场的一个育肥猪舍内，生猪处于平均月龄为5个半月的育肥阶段，平均体重为60kg。猪舍尺寸为27.5米长×13.7米宽×3.2米高，舍内共有6个工业负压风机进行工作，舍内包括21个围栏，其中只有13个围栏内有猪，平均每个栏内有10头猪，一共126头猪，每个围栏由1.1米高铁栅栏围城，地板一半为水泥地板，一半为漏缝地板，如图1所示。

猪舍内的声音信号由一个频率范围为100Hz-16kHz的麦克风采集，麦克风连接笔记本电脑声卡，通过录音软件进行录音，麦克风固定在距离地面1.4米的位置，距离猪背大概0.8米高。通过人工提取的方法共提取了3157段不同的声音信号，其中包括1884段咳嗽声音和1273段非咳嗽声音。

对已提取出的声音片段进行声学特征的提取，特征包括均方根能量、梅尔倒谱系数、过零率、频谱质心、频谱滚降、频谱平坦度、频谱带宽和色度。共8个特征，如图2所示。第一列代表咳嗽声的8种声学特征，依次为两种非咳嗽声，即尖叫和水声。这两种声音是常见的非咳嗽声。随后，针对8个特征进行降维处理，采用皮尔森相关系数和递归特征消除方法相融合的方法，如图3所示。

首先对声学特征计算皮尔森相关系数，对没有相关性的特征进行独立测试分类性能，对有相关性的特征采用随机森林结合递归特征消除的方法进行进一步的特征选择。PCC的值在-1到1之间，计算得到的系数越接近0，表示两种特征间无线性相关性。接近1，表示二者具有强相关性。接近-1，表示二者具有负相关性。随机森林结合递归特征消除的方法是一种集成的特征选择方法，这种方法主要是根据不同特征的重要性排序进行模型识别能力的预测，最后返回最佳识别精度的特征个数。这里选择随机森林作为预测精度的监督模型，同时采用排列特性重要性(PFI)算法进行特征重要性计算。每次预测模型分类精度是将前一次特征重要性排序中最低的特征剔除掉，进行分类预测。依次循环直至特征数为0。最后，将最优的精度预测结果所对应的特征个数输出，进而选择最优特征组，以此通过降低特征个数而降低整体模型维度。

视觉特征的提取是基于常数Q变换的时频图。这里采用每8度的频谱线数为32，最小频率为22.05Hz，将声音片段转化为时频图，保存为100×100×3(像素×像素×通道)大小的彩色图像。随后，将彩色时频图进一步转化为灰度图像，在灰度图像中提取局部二值模式(LBP)和方向梯度直方图(HOG)两种视觉特征。其中，对LBP采用四组(P,R)值，如图4所示，进行模型预测精度的计算，选择最佳的(P,R)值。HOG的特征提取流程图如图5所示。对HOG捕获图像中的特征影响最大的三个参数分别是方向频谱线数，单元尺寸和模块尺寸。对这三种参数进行模型精度的探索，最后，选择LBP_12,2和方向数的频谱线数为9，单元尺寸为16×16，模块尺寸为2×2作为特征融合的最佳参数选择。在这个过程中，采用线性主成分分析进行降维处理。

根据筛选出的声学和视觉特征，进行不同特征组的融合，并输入到机器学习模型中，进行咳嗽声与非咳嗽声的分类。这里选择支持向量机，随机森林和K最邻近法进行对比分析。由于机器学习模型的参数的使用过于灵活，易发生过拟合。这里选择Gridsearch网格搜索法进行分类模型的参数选择。仿真采用python语言，其中机器学习模型使用scikit-learn库中的函数。针对支持向量机，选择两种核函数，即线性核和RBF核函数。C设置的范围在1，10，100。Gamma的范围设置在0.1,0.01,0.001。随机森林主要针对两个参数进行设置，即n_estimators和min_samples_split。将n_estimators设置范围在(10,50)，min_samples_split设置范围在(2,9)。K最邻近法，设置n_neighbors在(1,50)。最后通过网格搜索，在设置的参数范围内，不断的搜索计算。获得最佳参数。

实施例二

本实施例中提供一种基于声学特征和视觉特征的特征融合的生猪咳嗽声音识别方法，包括：

通过拾音设备和数据采集设备采集的猪舍内声音信号并保存成音频文件，通过人工听觉识别的方法识别出猪舍内有效的音频信号，并单独保存成音频文件，将识别出的音频信号分为两类，一类是生猪咳嗽声音，另一类是非生猪咳嗽声音，从一维和二维两个维度下分别对语料库中的生猪的咳嗽声音和非咳嗽声音片段直接提取声学特征和从声音片段转化的频谱图进行视觉特征的提取。对所有提取出的声音特征从特征选择和特征提取两个方面进行降维处理，最后将融合的特征输入机器学习的分类器模型中，实现对生猪咳嗽声音的识别。

在这个过程中，所有声音片段的采样率为22.05kHz，并通过10阶巴特沃斯滤波器，滤波通带为100Hz-16000Hz。

提取语料库中的生猪咳嗽声和非咳嗽声的声音片段直接提取一维特征，特征包括均方根能量、梅尔倒谱系数、过零率、频谱质心、频谱滚降、频谱平坦度、频谱带宽和色度。共8个特征。在所选择的声学特征中，采用皮尔森相关系数和递归特征消除方法相结合进行特征选择。首先对声学特征计算皮尔森相关系数(PCC)，对没有相关性的特征进行独立测试分类性能，对有相关性的特征采用随机森林结合递归特征消除的方法进行进一步的特征选择。

对所取的声音片段转换为常数Q变换的频谱图，保存为100×100×3(像素×像素×通道)大小的彩色图像，再将彩色图像转化为灰度图像，从灰度频谱图上提取二维的视觉特征，包括局部二值模式(LBP)和方向梯度直方图(HOG)。提取的过程中，采用主成分分析的方法将维度降低，从而进行有效的分类任务。

根据筛选出的声学和视觉特征，进行不同特征组的融合，并输入到机器学习模型中，进行咳嗽声与非咳嗽声的分类。这里选择支持向量机，随机森林和K最邻近法。针对这三种模型的参数，采用Gridsearch网格搜索法进行最优参数的选择。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于声学特征和视觉特征融合的生猪咳嗽声音识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，对语料库中所述生猪的咳嗽声和非咳嗽声的声音片段进行声学特征提取的过程中包括：

3.根据权利要求1所述的方法，其特征在于，将生猪的咳嗽声和非咳嗽声的声音片段分别转换为频谱图进行视觉特征提取的过程中包括：

4.根据权利要求2或3所述的方法，其特征在于，从特征选择和特征处理两个方面对提取出来的特征进行降维处理的过程中包括：

基于所述特征选择方面，对所述声学特征进行降维处理；

5.根据权利要求4所述的方法，其特征在于，基于所述特征选择方面，对所述特征进行降维处理的过程包括：

6.根据权利要求1所述的方法，其特征在于，对完成降维处理的特征进行融合，并输入机器学习的分类模型中包括：

7.根据权利要求6所述的方法，其特征在于，针对机器学习的分类模型，选择Gridsearch网格搜索法进行分类模型的参数选择。

8.根据权利要求6所述的方法，其特征在于，进行分类的过程中包括：

针对K最邻近法，设置n_neighbors的范围在(1,50)。