CN110827837A

CN110827837A - 一种基于深度学习的鲸鱼活动音频分类方法

Info

Publication number: CN110827837A
Application number: CN201910994480.0A
Authority: CN
Inventors: 巫海维; 张东
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-21
Anticipated expiration: 2039-10-18
Also published as: CN110827837B

Abstract

本发明涉及一种基于深度学习的鲸鱼活动音频分类方法。包括，1.采集水底语音数据；2.对采集的语音数据进行数据扩充；3.对训练数据进行声学特征提取，将一维的语音序列转换成二维的声学特征序列；4.利用声学特征，分别训练两组神经网络模型：基于帧的神经网络系统和基于语音片段的卷积神经网络系统；5.训练完基于帧的神经网络系统之后，提取基于帧的得分输出并做平均值处理，得到得分A；对于基于语音片段的卷积神经网络系统，利用该模型提取深度特征，用深度特征训练后端分类器，由后端分类器输出得分B；6.将得分A与得分B进行融合，得出最终的判断结果。本发明使用深度学习算法，能够得到更高的识别准确率，在具体应用中能够更加鲁棒，稳定。

Description

一种基于深度学习的鲸鱼活动音频分类方法

技术领域

本发明涉及环境检测技术领域，更具体地，涉及一种基于深度学习的鲸鱼活动音频分类方法。

背景技术

鲸鱼活动检测的方法包括使用图像技术的方案和使用音频技术的方案。使用图像技术的方案需要相关的录制设备长时间采集数据，功耗和成本都比较高。使用音频技术的方案成本相对较低，相对而言更容易实现。使用音频技术检测鲸鱼活动，大体分为两个模块，数据采集和数据分析。数据采集部分，需要准备水底声呐进行水底声音采集。而数据分析模块需要对鲸鱼叫声进行相应检测。

鲸鱼活动音频检测是一种副语言属性的识别任务。针对这种问题，一般的解决方案是：提取段级别的特征进行分类，判断这段音频当中是否存在鲸鱼的叫声。段级别特征主要有以下的几种，包括OpenSMILE ComParE set特征集合，语音词袋模型特征(BoAW)，AuDeep特征，Fisher编码特征(Fisher Encoding)等。分类所使用的分类器包括支持向量机(SVM)，多层感知机(MLP)等。OpenSMILE ComParE set特征是一个手工提取的特征集合，包含了语音的多种信息，比如多种声学特征的统计量，音调特征，语速特征，语音质量特征等。BoAW特征是基于码本的一种特征。提取BoAW特征的步骤是：提取一系列的声学模型，进行非监督聚类的学习，训练码本；通过码本，计算语音片段特征的统计量，作为段级别的特征。Audeep特征基于一种无监督循环神经网络的自编码器。它利用频谱特征进行训练，能够将频谱特征转换成定长维度的编码。Fisher编码特征的提取需要训练GMM模型，计算GMM相应参数，比如均值，协方差，对于概率函数的一阶导数和二阶导数。

传统的鲸鱼活动音频检测方法存在以下问题：问题一，传统方法的泛化性能还不足，识别的误报率和虚警率都较高，难以投入使用。问题二，由于水底鲸鱼语音难以采集，可使用的数据相对较少。对于训练性能高，鲁棒性强的模型有较高难度。同时，数据不平衡的问题也会影响系统的整体表现。问题三，没有对多通道进行充分利用。

发明内容

本发明为克服上述现有技术中的缺陷，提供一种基于深度学习的鲸鱼活动音频分类方法，使用深度学习算法，能够得到更高的识别准确率，在具体应用中能够更加鲁棒，稳定。

为解决上述技术问题，本发明采用的技术方案是：一种基于深度学习的鲸鱼活动音频分类方法，包括以下步骤：

S1.采集水底语音数据；

S2.对采集的语音数据进行数据扩充，增加训练数据量；

S3.对扩充后的训练数据进行声学特征提取，将一维的语音序列转换成二维的声学特征序列；

S4.利用S3步骤的声学特征，分别训练两组神经网络模型，分别是基于帧的神经网络系统和基于语音片段的卷积神经网络系统；

S5.训练完基于帧的神经网络系统之后，判断出音频信号是否为鲸鱼叫声，提取基于帧的得分输出并做平均值处理，得到一组得分A；对于基于语音片段的卷积神经网络系统，训练卷积神经网络之后，利用该模型提取深度特征，用深度特征训练后端分类器，判断出音频信号是否为鲸鱼叫声，由后端分类器输出得分B；

S6.将得分A与得分B进行融合，得出最终的判断结果。

进一步的，所述的数据扩充包括语速变化扩充、音频音调扩充、音频混合数据扩充。获取到语音信号数据之后，首先进行数据扩充。数据不足是训练模型中经常遇到的问题。而对鲸鱼叫声检测任务来说，这个问题尤为严重，因为相关的数据采集难度大，成本高。同时，采集来的数据的不平衡问题也会严重影响模型的识别效果。因此，数据扩充在神经网络模型训练当中非常重要。本专利一共采用了三种数据扩充方法：语速变化扩充，音频音调扩充，和音频混合数据扩充。

语速变化扩充：语速变化扩充在语音识别，声纹识别中，是常用的数据扩充方法。在具体实现当中，我们将音频进行特定倍率的加速和减速，从而增加训练数据。

音频音调扩充：音频的音调信息是音频当中的一个重要的信息。在语音识别等任务中，对于音频音调信息的调整是一个有效的数据扩充手段。而针对鲸鱼叫声检测的任务而言，由于鲸鱼叫声频率覆盖范围很广，即存在叫声处在高频，或者低频的情况。而且在频谱图上，高低频特征表现特点较为相似。在这种情况下，通过音调随机变化，使频率发生改变，并不会使得鲸鱼声音特征受到损害。添加的方法是，设置音频音调的抖动范围，每次随机生成一个抖动值，对音频音调进行调整。

音频混合数据扩充：在语音当中添加噪声来扩大训练数据量的方法，在数据扩充当中应用非常广泛。它的好处是让网络能够通过学习带噪声的数据，增强对噪声的抵抗能力，从而让模型的鲁棒性和泛化性能提高。本专利扩展了这种数据扩充方法，通过将带有鲸鱼叫声的正样本相互叠加，将噪声负样本数据加到鲸鱼叫声的方法，增加正样本数据，缓解训练数据中正样本不足的现象。添加的方法是，对于每一个正样本，随机选取一个其他的正样本或者负样本的音频数据，随机剪切成相同大小的音频片段，设置随机的信噪比进行叠加。

进一步的，将数据扩充完毕之后，接下来进行声学特征的提取，将一维的语音信号转换成二维的声学特征。它能够降低特征的维度，使得信息更容易被模型学习。本专利选择对数梅尔频谱特征。对数梅尔谱频谱特征的提取方法如下：

S31.对语音信号序列进行短时傅里叶变换；短时傅里叶变换是一种在音频处理领域常用的时频变换工具，它通过在语音上分帧，加窗，傅里叶变换，取模等操作，将时域的波形转换成频谱图；

S32.对生成的频率频谱图做梅尔变换；它等效于让特征通过一组三角滤波器，这组三角滤波器有以下的特点，它在低频位置有较高的幅值，较窄的频宽，随着频率的升高，三角滤波器的幅值逐渐降低，频宽逐渐下降；它的作用是重点突出某些频率的信息，使得后续的模型能够更快地学习到频谱的特征规律；

S33.在进行梅尔变换处理完毕之后，进行对数变换，降低特征稀疏性。

进一步的，对于基于帧的神经网络系统的训练，在训练之前，对提取的声学特征进行前后若干帧的拼接，从而增加上下文信息；之后，将生成的新的帧级别特征输入到网络中，采用时延神经网络结构作为帧级别网络模型。

进一步的，所述的帧级别网络模型的计算流程包括：

S511.输入的声学特征序列首先会被依次送入全连接神经网络当中，输出一个新的序列特征；

S512.在新的特征上，按照一定的间隔，选取前后帧，与当前的帧的特征进行拼接；

S513.将新生成的特征输入下一层全连接网络当中，输出新的序列特征；

S514.逐渐扩大跳帧的间隔，从1扩大到3，再扩大到5，重复步骤S512和S513；

S515.在最后一层全连接中，输出二维的得分结果，分别代表是否存在鲸鱼叫声。

在本发明中，通过跳帧的方法，能够增加网络的视野，从而使得每一帧判断的信息量更加丰富。除此之外，传统DNN，LSTM等网络结构也可以作为帧级别神经网络系统的模型。

在测试阶段，系统对每一帧的特征都进行分类判断。每一帧的预测结果是一个二维的向量，两个维度的含义分别是判断为鲸鱼叫声还是噪声的后验概率。最终，将帧级别的得分序列通过平均，转换成一整个语音片段的得分判断，作为最终帧级别神经网络的概率输出。

进一步的，所述的基于语音片段的卷积神经网络系统，流程主要包括训练阶段和测试阶段；其中，训练阶段包括：

S5211.进行数据扩充，提取语音声学特征；

S5212.训练深度卷积神经网络；网络由三部分构成，第一部分是深度卷积结构，第二部分是编码层模块，第三部分是全连接层分类模块；

S5213.训练完神经网络之后，使用神经网络提取深度特征，对每一个通道的语音数据都提取深度卷积特征，然后对特征做平均融合，作为一整个信号的表示；融合的方法可以用在特征层面上，或者后端分类器得分上；

S5214.使用深度特征训练后端分类器；

测试阶段包括：

S5221.提取测试语音的声学特征；

S5222.使用训练阶段S5212步骤中得到的网络提取深度特征；

S5223.使用训练阶段S5214步骤中得到的后端分类器获取得分。

在本发明中，水底麦克风一般会设置多组，采集得到的数据是多通道的语音数据。针对多通道的语音数据，本专利采取的融合策略是基于深度特征融合的策略。即对每一个单独的通道训练单独或共同的神经网络，提取不同通道语音的深度特征。最终，将多个深度特征进行拼接或者平均，作为一整个信号的特征表示。后面使用这种特征表示进行后端分类器的训练。除此之外，还可以采用基于声学特征层的融合，基于得分的融合的方法。

进一步的，所述的分类器选用SVM分类器、逻辑回归LR分类器或提升决策树GBDT分类器。

进一步的，所述的S5212步骤具体包括：

首先：以残差神经网络结构作为卷积结构的基础，卷积结构由两个部分组成，第一个部分是普通的卷积层加池化层，第二个部分是由四个残差模块构成；两个部分级联在一起，将输入的特征转换成深度的特征图；残差模块除了将特征进行常规的卷积，池化操作之外，还通过降采样，把当前输入的特征加入到输出的特征中，从而使得前端的特征能够得以保留，，使得训练变得更加容易；四个残差模块中的卷积通道数目随着层数的增加，逐渐增大；除了残差结构之外，Inception，DenseNet等深度卷积网络也可以被用作卷积结构。

然后，通过卷积神经网络结构之后，声学特征被转换成了深度特征图；特征图需要经过编码层编码，编码层将多通道特征图转换成固定维度特征，即深度特征；它的作用是通过学习或者计算的方式，达到减小特征维度，提炼信息的目的。一般使用全局平均池化层作为编码层。它在卷积结构输出的特征图上做时频维度上的平均，将不定长的特征映射到等长的深度特征上。除此之外，还可以使用包括LSTM编码层，时间平均层，均值方差层等进行编码。

最后，输出信息通过全连接和激活层，得到最终的判断。这里的全连接分类器的作用是做一个初步的判断，并通过这个判断计算损失，更新整体模型的参数。

在本发明中，监督的目标为鲸鱼叫声和水底噪声。损失函数选择交叉熵。训练的时候，初始设置较大的学习率，在每个迭代周期当中，累计计算整一轮的损失平均值。若损失平均值下降，则保持学习率继续学习，如果损失平均值提高，或者保持不变，则降低学习率。

进一步的，所述的S6步骤中采用平均融合或回归融合；所述的平均融合是对两种不同类型的神经网络模型的得分进行平均，将平均结果作为最终的输出；所述的回归融合是通过线性回归学习两组神经网络模型的权重，按照权重对模型的输出进行加权相加，得到最终的判断得分。

与现有技术相比，有益效果是：

1.本发明通过鲸鱼叫声音频检测算法，通过音频对鲸鱼活动进行观测，相对于录制影像，对视频进行分析的方法来说，成本更低，也更容易实现；

2.本发明算法使用深度学习算法，相对于传统算法能够得到更高的识别准确率。在具体应用中能够更加鲁棒，稳定；

3.本发明通过不同数据扩充的方法，充分利用了已有的数据，使得模型更加稳定，抗噪声性能更强；

4.本发明通过多通道融合的策略，充分利用了多通道音频数据。

附图说明

图1是本发明整体模型构架示意图。

图2是本发明基于帧的神经网络模型架构示意图。

图3是本发明基于语音片段的卷积神经网络模型架构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

如图1所示，一种基于深度学习的鲸鱼活动音频分类方法，包括以下步骤：

S1.采集水底语音数据；

S2.对采集的语音数据进行数据扩充，增加训练数据量；

S6.将得分A与得分B进行融合，得出最终的判断结果。采用平均融合或回归融合；所述的平均融合是对两种不同类型的神经网络模型的得分进行平均，将平均结果作为最终的输出；所述的回归融合是通过线性回归学习两组神经网络模型的权重，按照权重对模型的输出进行加权相加，得到最终的判断得分。

在本实施例中，数据扩充包括语速变化扩充、音频音调扩充、音频混合数据扩充。获取到语音信号数据之后，首先进行数据扩充。数据不足是训练模型中经常遇到的问题。而对鲸鱼叫声检测任务来说，这个问题尤为严重，因为相关的数据采集难度大，成本高。同时，采集来的数据的不平衡问题也会严重影响模型的识别效果。因此，数据扩充在神经网络模型训练当中非常重要。本专利一共采用了三种数据扩充方法：语速变化扩充，音频音调扩充，和音频混合数据扩充。

具体的，将数据扩充完毕之后，接下来进行声学特征的提取，将一维的语音信号转换成二维的声学特征。它能够降低特征的维度，使得信息更容易被模型学习。本专利选择对数梅尔频谱特征。对数梅尔谱频谱特征的提取方法如下：

如图2所示，对于基于帧的神经网络系统的训练，在训练之前，对提取的声学特征进行前后若干帧的拼接，从而增加上下文信息；之后，将生成的新的帧级别特征输入到网络中，采用时延神经网络结构作为帧级别网络模型。

如图2所示，其中，所述的帧级别网络模型的计算流程包括：

如图3所示，所述的基于语音片段的卷积神经网络系统，训练的流程主要包括训练阶段和测试阶段；其中，训练阶段包括：

S5211.进行数据扩充，提取语音声学特征；

S5214.使用深度特征训练后端分类器；

测试阶段包括：

S5221.提取测试语音的声学特征；

S5222.使用训练阶段S5211步骤中得到的网络提取深度特征；

S5223.使用训练阶段S5214步骤中得到的后端分类器获取得分。

在本实施例中，所述的分类器选用SVM分类器、逻辑回归LR分类器或提升决策树GBDT分类器。

在本实施例中，所述的S5212步骤具体包括：

实施例1：

如图1所示，先准备好采集到的多通道44.1kHz的鲸鱼叫声数据。之后，对数据进行数据扩充。数据扩充的手段包括：语速变化扩充，设置0.9倍和1.1倍的语速变化；音频音调扩充，按照一个选定的变化范围，比如10％，进行音调调整；音频混合数据扩充，将混入语音按一定随机信噪比加入正样本数据。

数据扩充完之后，提取短时傅里叶频谱特征。可以采取1024个点的短时傅里叶变换，帧长0.25s，帧移0.1s。提取对数梅尔谱的时候，梅尔滤波器数目选择为256。

在帧级别神经网络系统中，可以设置三到四层的DNN，将拼接好前后帧的频谱特征直接输入，训练神经网络。测试的时候，将帧级别的得分做一个平均作为最终输出。

在基于片段的卷积神经网络系统中，可以使用ResNet结构，将整个片段的频谱特征输入其中，使用有与没有鲸鱼噪声作为标签监督。训练完之后，使用这个网络结构，提取训练数据的深度特征，具体而言，就是将编码层之后的输出提取出来。接着，多通道的融合，可以采用基于深度特征的融合方法。对每个通道的深度特征进行平均，作为整体的特征。最后，使用这个深度特征，训练后端分类器SVM，用这个SVM得到该系统针对给定特征的得分。

整体系统的得分，由帧级别神经网络系统和基于片段的卷积神经网络系统得分平均而得。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习的鲸鱼活动音频分类方法，其特征在于，包括以下步骤：

S1.采集水底语音数据；

S2.对采集的语音数据进行数据扩充，增加训练数据量；

S6.将得分A与得分B进行融合，得出最终的判断结果。

2.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的数据扩充包括语速变化扩充、音频音调扩充、音频混合数据扩充。

3.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的S3步骤中的声学特征提取选择提取对数梅尔频谱特征，提取方法包括以下步骤：

S31.对语音信号序列进行短时傅里叶变换；

S32.对生成的频率频谱图做梅尔变换；

4.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，对于基于帧的神经网络系统的训练，在训练之前，对提取的声学特征进行前后若干帧的拼接，从而增加上下文信息；之后，将生成的新的帧级别特征输入到网络中，采用时延神经网络结构作为帧级别网络模型。

5.根据权利要求4所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的帧级别网络模型的计算流程包括：

S512.在新的特征上，按照设定的间隔，选取前后帧，与当前的帧的特征进行拼接；

6.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的基于语音片段的卷积神经网络系统，流程主要包括训练阶段和测试阶段；其中，训练阶段包括：

S5211.进行数据扩充，提取语音声学特征；

S5214.使用深度特征训练后端分类器；

测试阶段包括：

S5221.提取测试语音的声学特征；

S5222.使用训练阶段S5212步骤中得到的网络提取深度特征；

S5223.使用训练阶段S5214步骤中得到的后端分类器获取得分。

7.根据权利要求6所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的分类器选用SVM分类器、逻辑回归LR分类器或提升决策树GBDT分类器。

8.根据权利要求6所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的S5212步骤具体包括：

首先：以残差神经网络结构作为卷积结构的基础，卷积结构由两个部分组成，第一个部分是普通的卷积层加池化层，第二个部分是由四个残差模块构成；两个部分级联在一起，将输入的特征转换成深度的特征图；残差模块除了将特征进行常规的卷积、池化操作之外，还通过降采样，把当前输入的特征加入到输出的特征中，从而使得前端的特征能够得以保留；四个残差模块中的卷积通道数目随着层数的增加，逐渐增大；

然后，通过卷积神经网络结构之后，声学特征被转换成了深度特征图；特征图需要经过编码层编码，编码层将多通道特征图转换成固定维度特征，即深度特征；

最后，输出信息通过全连接和激活层，得到最终的判断。

9.根据权利要求1至8任一项所述的基于深度学习的鲸鱼活动音频分类方法，其特征在于，所述的S6步骤中采用平均融合或回归融合；所述的平均融合是对两种不同类型的神经网络模型的得分进行平均，将平均结果作为最终的输出；所述的回归融合是通过线性回归学习两组神经网络模型的权重，按照权重对模型的输出进行加权相加，得到最终的判断得分。