CN110322894A

CN110322894A - 一种基于声音的波形图生成及大熊猫检测方法

Info

Publication number: CN110322894A
Application number: CN201910565143.XA
Authority: CN
Inventors: 胡绍湘; 陈鹏; 侯蓉; 杨恒毅; 廖志武; 齐敦武; 张志和
Original assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; University of Electronic Science and Technology of China
Current assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; University of Electronic Science and Technology of China
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-10-11
Anticipated expiration: 2039-06-27
Also published as: CN110322894B

Abstract

本发明公开了一种基于声音的波形图生成及大熊猫检测方法，涉及声音处理及检测技术领域，步骤如下：对从环境中采集到的声音依次进行音频图像化、音频分帧提取处理，得到音频波形图；将音频波形图输入训练完成的卷积神经网络模型中进行向前传播推理，得到该音频波形图对应的声音为大熊猫声音的概率P_C；将概率P_c与大熊猫声音概率阈值P_T进行比较，根据比较结果判断出该环境中是否存在大熊猫。本方法对声音数据进行收集，通过收集一定量的大熊猫声音数据和非大熊猫声音数据训练卷积神经网络模型。通过把待检测的声音进行相应处理后输入卷积神经网络模型中，进行一次向前传播，得出检测结果。本方法检测时间短、检测效率高，检测准确率高，泛化能力强。

Description

一种基于声音的波形图生成及大熊猫检测方法

技术领域

本发明涉及声音识别技术领域，具体涉及一种基于声音的波形图生成及大熊猫检测方法。

背景技术

声音在时域和频域都包含多种信息，人可以通过声音辨识发声的物体正是利用了声音中包含的特异性信息。

传统的大熊猫检测方法都是基于图像、视频信息，若单纯基于前述信息进行检测，必然会浪费掉视频中的声音信息，而大熊猫的叫声中包含了丰富的信息。同时，图像和视频的信息量较大，检测速度也相对较慢，当采集到的数据量很大时，基于图像和视频的检测效率、检测准确率就会大大地降低。而目前，在野外条件下基本不能采集到大熊猫的叫声，甚至在大熊猫基地的参观区域也很少能采集到大熊猫的叫声，通常只能在大熊猫兽舍才可以采集到大熊猫的叫声，因此大熊猫的声音数据较为珍贵，一般人员和机构无法获得，现有大熊猫检测方法没有用到大熊猫的声音进行检测。而音频存储的数据量一般较小，当采集到的大熊猫声音的数据量很多时，使用音频信息也能快速完成对大熊猫的检测任务。

在音频检测或是音频识别领域，将声音转化为波形进行可视化是一种常用手段，但这种操作是从用于生成波形的数据出发，而不是从生成后的波形出发进行检测或是识别。现有手段是将原始声音波形的幅值点作为识别或是检测系统的输入，这些离散的幅值点无法体现声音连续变化过程，无法将相邻幅值点之间的关联性表现出来，即无法表示出原始语音波形在时域上每一帧之间的关联性，最终会导致对声音检测的准确率降低，原因是每帧之间的关联性可以体现一段声音的完整性，检测一段完整的声音会提高检测准确率。

卷积神经网络是近年来深度学习领域的代表算法之一，被广泛应用在图像处理、语音处理等方向上。相比传统的检测方法，卷积神经网络有着更强的特征提取能力和泛化能力，同时，由于采用了卷积计算以及非线性的激活函数，例如Sigmoid、Relu等，使得卷积神经网络也能处理非线性问题，因此非常适合用于图像、音频处理。此外，由于卷积神经网络具有权值共享的特性，因此它的参数相比支持向量机、全连接神经网络等更少，也更易于训练。基于上述的理念，可利用声音信息结合卷积神经网络来进行大熊猫的检测。然而，目前尚未提出将基于声音的波形图和神经网络结合来进行对大熊猫声音的检测，而在实际科研领域优势十分迫切的需求。

发明内容

本发明的目的在于：为解决现有的声音转化成波形图的方法是从用于生成波形的数据出发，将声音转成波形图，忽略了原始语音波形在时域上每一帧之间具有的关联性，导致转化后形成的波形图会降低后续对声音的检测的问题，提供了一种基于声音的波形图生成方法。同时，为解决现有的大熊猫检测方法检测时间长、检测准确率低的问题，提供了一种基于声音的大熊猫检测方法。

本发明采用的技术方案如下：

一种基于声音的波形图生成方法，包括以下步骤：

步骤A1.以固定的采样频率对音频文件进行重采样，获取音频文件的时长信息和每一个采样点的幅值信息，得到幅值的最大值F_MAX和最小值F_MIN；

步骤A2.基于步骤A1得到的音频文件的各采样点的幅值信息，对所有采样点的幅值进行归一化映射处理，将其幅值映射到区间[0，255]中；

步骤A3.将步骤A2得到的采样点的幅值按照采样顺序绘制出声音波形图。

进一步地，对采样点的幅值进行归一化映射处理的公式如下：

其中，σ表示采样点的幅值，σ^*表示采样点经过归一化映射处理后的幅值。

采用上述所述的基于声音生成的波形图的大熊猫检测方法，包括以下步骤：

步骤1.对从环境中采集到的声音进行音频图像化处理，得到声音波形图；

步骤2.对声音波形图进行音频分帧提取处理，得到音频波形图；

步骤3.将音频波形图输入训练完成的卷积神经网络模型中进行向前传播推理，得到该音频波形图对应的声音为大熊猫声音的概率P_C；

步骤4.将概率P_C与预设的大熊猫声音概率阈值P_T进行比较，根据比较结果判断出上述环境中是否存在大熊猫。

进一步地，获取环境中声音的方法为：通过声音采集设备录制环境中待检测的声波，将声波由模拟信号转化为数字信号，形成后续用于音频图像化的音频文件。

进一步地，对声音波形图进行音频分帧提取处理的具体方法为：首先确定波形截取时间长度，再基于确定的截取时间长度，以滑动窗口的方式对声音波形图进行截取，得到音频波形图。

进一步地，步骤3中，得到训练完成的卷积神经网络模型的具体步骤如下：

步骤3.1.构建初始卷积神经网络模型：由第一卷积层、第一池化层、第二卷积层、第三卷积层、第二池化层、第四卷积层、第五卷积层、第三池化层、第一全连接层、第二全连接层、softmax层组成卷积神经网络，并以交叉熵定义卷积神经网络的损失函数；

步骤3.2.声音样本预处理：采集大熊猫声音样本和非大熊猫声音样本，对采集到的声音样本依次进行音频图像化、音频分帧提取处理，得到分别对应于大熊猫声音样本、非大熊猫声音样本的A类波形图片、B类波形图片；

步骤3.3.将步骤3.2得到的每类波形图片按照一定比例随机分成训练集和测试集；

步骤3.4.将步骤3.3生成的训练集，按批输入初始卷积神经网络模型，完成前向传播；采用随机梯度法优化卷积神经网络连接的权重，完成反向传播；

步骤3.5.将步骤3.3生成的训练集全部输入卷积神经网络，完成卷积神经网络权重优化，得到训练完成的卷积神经网络模型。

进一步地，步骤4中，根据从环境中采集到的声音判断是否该环境中是否存在大熊猫的具体步骤如下：

步骤4.1.设定检测一张音频波形图对应的声音判定为大熊猫声音的概率阈值P_T；

步骤4.2.比较步骤3中音频波形图对应的声音为大熊猫声音的概率P_C与概率阈值P_T的大小关系，若满足P_C＞P_T，则判断出该音频波形图概率P_C对应的声音为大熊猫声音，反之则判断出该音频波形图概率P_C对应的声音非大熊猫声音。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本技术方案用于生成声音波形图的数据的点均为离散值，在生成声音波形图时，将各个离散点上的图像用平滑曲线进行了连接，由此可以将相邻点之间的关联性表现出来，相当于在原有的数据上增添了信息。本方法从不同的角度出发完成对声音进行处理，保留了声音波形在时域上每一帧之间的关联性信息，弥补了现有手段的缺陷，从而提高大熊猫检测准确率。本方法对离散点图像化后的声音波形图进行音频分帧提取处理后得到的音频波形图作为卷积神经网络的输入进行检测，实现了提高检测准确率的目的。

2、本方法将传统大熊猫检测方法中忽略的声音数据进行收集，通过收集一定量的大熊猫声音数据和非大熊猫声音数据进行卷积神经网络模型的训练，得到用于检测大熊猫声音的模型。利用训练好的模型检测声音时，只需要把待检测的声音进行相应处理后输入该模型中，进行一次向前传播操作，就可获得检测结果。相比于传统的大熊猫检测方法，本方法采用检测时间短、检测效率高，检测准确率高，泛化能力强。

3、本发明使用的卷积神经网络模型，根据生成的音频波形图大小进行了网络设计，使得该卷积神经网络可以适应音频波形图的大小，设计合理，适用性高。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的方法流程图；

图2为本发明中神经网络结构示意图；

图3为本发明中音频图像化构建数据集的流程示意图。

图4为本发明中的大熊猫声音波形图；

图5为本发明中的非大熊猫声音波形图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

实施例1

大熊猫叫声的声音频谱分布较为广泛，大熊猫叫声的频率从20Hz-20000Hz都有分布，现阶段有对人声音检测的特征，例如梅尔频率倒谱系数(MFCC)特征或是线性预测系数特征(LPC)特征，其中MFCC特征可以较好得表征低频部分的特征，人的声音频率也较多集中在低频部分，因此MFCC特征对人的声音表征较好。但大熊猫叫声由于有较多高频成分，MFCC无法表征出高频特征，因此现有的特征提取方法对大熊猫并不适用。本方案利用波形图进行检测，再利用卷积神经网络自动提取特征，可以克服这一缺陷。

本发明较佳实施例提供的一种基于声音的大熊猫检测方法，方法流程如图1所示，包括以下步骤：

步骤1.对从环境中采集到的声音进行音频图像化处理，得到声音波形图。

本实施例通过麦克风采集环境中待检测的声波，通过模数转换器将声波由模拟信号转化为数字信号，形成后续用于音频图像化的音频文件。对采集到的声音进行音频图像化(即基于声音的波形图生成方法)的具体步骤如下：

步骤A1.以固定的采样频率对音频文件进行重采样，获取音频文件的时长信息和每一个采样点的幅值信息，得到幅值的最大值F_MAX和最小值F_MIN。本实施例中，采样频率采用22050Hz。

步骤A2.基于步骤A1得到的音频文件的各采样点的幅值信息，对所有采样点的幅值进行归一化映射处理，将其幅值映射到区间[0，255]中。对采样点的幅值进行归一化映射处理的公式如下：

步骤A3.步骤A2得到的采样点的幅值按照采样顺序绘制出声音波形图，具体为：每个点的幅值大小均在0到255之间，将一个点的幅值信息转化到图像上的一个像素点，采样点的顺序作为图像像素点位置的横坐标信息，采样点的幅值作为像素点位置的纵坐标信息，绘制在图像上的相邻的像素点用平滑的曲线进行连接，从而得到一段声音的波形图。

步骤2.对声音波形图进行音频分帧提取处理，得到音频波形图。

对声音波形图进行音频分帧提取处理的具体方法为：首先确定波形截取时间长度，再基于确定的截取时间长度，以滑动窗口的方式对声音波形图进行截取，得到音频波形图。本实施例中，截取时间长度为每段20ms。根据设定的采样频率和截取时间长度可得，每段音频波形图的大小为440×256。

步骤3.将音频波形图输入训练完成的卷积神经网络模型中进行向前传播推理，得到该音频波形图对应的声音为大熊猫声音的概率P_C。其中，得到训练完成的卷积神经网络模型的具体步骤如下：

步骤3.1.构建初始卷积神经网络模型：由第一卷积层(Conv1_1)、第一池化层(Pool1)、第二卷积层(Conv2_1)、第三卷积层(Conv2_2)、第二池化层(Pool2)、第四卷积层(Conv3_1)、第五卷积层(Conv3_2)、第三池化层(Pool3)、第一全连接层(fc1)、第二全连接层(fc2)、softmax层组成卷积神经网络，并以交叉熵定义卷积神经网络的损失函数。

如图2所示，本实施例中，Conv1_1、Conv2_1、Conv2_2、Conv3_1、Conv3_2的卷积核的大小分别为5×5、3×3、3×3、1×1、1×1，池化均采用步长为2、大小为3×3的最大池化，激活函数均使用Sigmoid函数。其中，卷积层的计算公式如下：

其中，f表示激活函数，x表示一个大小为M×N的矩阵，对图像而言，该尺寸即为该图像的大小。w表示大小为J×I的卷积核，b表示偏置，y表示经过卷积后的输出，其大小同样为M×N，i、j表示变量。

步骤3.2.声音样本预处理：如图3所示，采集大熊猫声音样本和非大熊猫声音样本，对采集到的声音样本进行如上所述的音频图像化、音频分帧提取处理，得到分别对应于大熊猫声音样本、非大熊猫声音样本的A类波形图片、B类波形图片，如图4、图5所示。

步骤3.3.将步骤3.2得到的每类波形图片按照一定比例随机分成训练集和测试集。本实施例中，将波形图片随机分成训练集和测试集的比例采用5∶1。

步骤3.4.将步骤3.3生成的训练集，按批输入初始卷积神经网络模型，完成前向传播；采用随机梯度法优化卷积神经网络连接的权重，使损失函数值减小，完成反向传播。本实施例中，每次批量输入初始卷积神经网络模型的训练集数量为16张。

步骤4.将概率P_C与预设的大熊猫声音概率阈值P_T进行比较，根据比较结果判断出上述环境中是否存在大熊猫。方法如下：

步骤4.1.设定检测一张音频波形图对应的声音判定为大熊猫声音的概率阈值P_T。本实施例中，概率阈值P_T的取值为0.5。

为体现本发明技术方案的准确性和泛化性，本实施例选取了三组组未经过训练的大熊猫叫声波形图和非大熊猫叫声的波形图，利用本发明训练好的卷积神经网络模型进行检测，得到的检测结果如下：

准确率表示将大熊猫叫声(非大熊猫叫声)正确识别出的比率，误识率表示将非大熊猫叫声(大熊猫叫声)识别为大熊猫叫声(非大熊猫叫声)的比率，该结果表明本技术方案的检测方法具有较高的准确率和较强的泛化能力，该检测方法的准确度已经达到了本技术领域的较高水平。泛化能力强是本方案使用的神经网络的一个特点，由上述实验数据和实验结果表明，实验中没有使用训练集中的大熊猫声音波形，但是仍成功检测出了大熊猫的声音波形，体现了该方法的泛化能力。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声音的波形图生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于声音的波形图生成方法，其特征在于，对采样点的幅值进行归一化映射处理的公式如下：

3.采用权利要求1或2任一所述的基于声音生成的波形图的大熊猫检测方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的一种基于声音的大熊猫检测方法，其特征在于，获取环境中声音的方法为：通过声音采集设备录制环境中待检测的声波，将声波由模拟信号转化为数字信号，形成后续用于音频图像化的音频文件。

5.根据权利要求3所述的一种基于声音的大熊猫检测方法，其特征在于，对声音波形图进行音频分帧提取处理的具体方法为：首先确定波形截取时间长度，再基于确定的截取时间长度，以滑动窗口的方式对声音波形图进行截取，得到音频波形图。

6.根据权利要求3所述的一种基于声音的大熊猫检测方法，其特征在于，步骤3中，得到训练完成的卷积神经网络模型的具体步骤如下：

7.根据权利要求3所述的一种基于声音的大熊猫检测方法，其特征在于，步骤4中，根据从环境中采集到的声音判断是否该环境中是否存在大熊猫的具体步骤如下：