CN110827837B - 一种基于深度学习的鲸鱼活动音频分类方法 - Google Patents
一种基于深度学习的鲸鱼活动音频分类方法 Download PDFInfo
- Publication number
- CN110827837B CN110827837B CN201910994480.0A CN201910994480A CN110827837B CN 110827837 B CN110827837 B CN 110827837B CN 201910994480 A CN201910994480 A CN 201910994480A CN 110827837 B CN110827837 B CN 110827837B
- Authority
- CN
- China
- Prior art keywords
- neural network
- features
- training
- score
- whale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 241000283153 Cetacea Species 0.000 title claims abstract description 46
- 230000000694 effects Effects 0.000 title claims abstract description 24
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000013528 artificial neural network Methods 0.000 claims abstract description 39
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 20
- 238000003062 neural network model Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 6
- 230000004927 fusion Effects 0.000 claims description 25
- 238000012360 testing method Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000007500 overflow downdraw method Methods 0.000 claims description 4
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000012417 linear regression Methods 0.000 claims description 3
- 238000007477 logistic regression Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013434 data augmentation Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Stereophonic System (AREA)
Abstract
本发明涉及一种基于深度学习的鲸鱼活动音频分类方法。包括,1.采集水底语音数据;2.对采集的语音数据进行数据扩充;3.对训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;4.利用声学特征,分别训练两组神经网络模型:基于帧的神经网络系统和基于语音片段的卷积神经网络系统;5.训练完基于帧的神经网络系统之后,提取基于帧的得分输出并做平均值处理,得到得分A;对于基于语音片段的卷积神经网络系统,利用该模型提取深度特征,用深度特征训练后端分类器,由后端分类器输出得分B;6.将得分A与得分B进行融合,得出最终的判断结果。本发明使用深度学习算法,能够得到更高的识别准确率,在具体应用中能够更加鲁棒,稳定。
Description
技术领域
本发明涉及环境检测技术领域,更具体地,涉及一种基于深度学习的鲸鱼活动音频分类方法。
背景技术
鲸鱼活动检测的方法包括使用图像技术的方案和使用音频技术的方案。使用图像技术的方案需要相关的录制设备长时间采集数据,功耗和成本都比较高。使用音频技术的方案成本相对较低,相对而言更容易实现。使用音频技术检测鲸鱼活动,大体分为两个模块,数据采集和数据分析。数据采集部分,需要准备水底声呐进行水底声音采集。而数据分析模块需要对鲸鱼叫声进行相应检测。
鲸鱼活动音频检测是一种副语言属性的识别任务。针对这种问题,一般的解决方案是:提取段级别的特征进行分类,判断这段音频当中是否存在鲸鱼的叫声。段级别特征主要有以下的几种,包括OpenSMILE ComParE set特征集合,语音词袋模型特征(BoAW),AuDeep特征,Fisher编码特征(Fisher Encoding)等。分类所使用的分类器包括支持向量机(SVM),多层感知机(MLP)等。OpenSMILE ComParE set特征是一个手工提取的特征集合,包含了语音的多种信息,比如多种声学特征的统计量,音调特征,语速特征,语音质量特征等。BoAW特征是基于码本的一种特征。提取BoAW特征的步骤是:提取一系列的声学模型,进行非监督聚类的学习,训练码本;通过码本,计算语音片段特征的统计量,作为段级别的特征。Audeep特征基于一种无监督循环神经网络的自编码器。它利用频谱特征进行训练,能够将频谱特征转换成定长维度的编码。Fisher编码特征的提取需要训练GMM模型,计算GMM相应参数,比如均值,协方差,对于概率函数的一阶导数和二阶导数。
传统的鲸鱼活动音频检测方法存在以下问题:问题一,传统方法的泛化性能还不足,识别的误报率和虚警率都较高,难以投入使用。问题二,由于水底鲸鱼语音难以采集,可使用的数据相对较少。对于训练性能高,鲁棒性强的模型有较高难度。同时,数据不平衡的问题也会影响系统的整体表现。问题三,没有对多通道进行充分利用。
发明内容
本发明为克服上述现有技术中的缺陷,提供一种基于深度学习的鲸鱼活动音频分类方法,使用深度学习算法,能够得到更高的识别准确率,在具体应用中能够更加鲁棒,稳定。
为解决上述技术问题,本发明采用的技术方案是:一种基于深度学习的鲸鱼活动音频分类方法,包括以下步骤:
S1.采集水底语音数据;
S2.对采集的语音数据进行数据扩充,增加训练数据量;
S3.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S4.利用S3步骤的声学特征,分别训练两组神经网络模型,分别是基于帧的神经网络系统和基于语音片段的卷积神经网络系统;
S5.训练完基于帧的神经网络系统之后,判断出音频信号是否为鲸鱼叫声,提取基于帧的得分输出并做平均值处理,得到一组得分A;对于基于语音片段的卷积神经网络系统,训练卷积神经网络之后,利用该模型提取深度特征,用深度特征训练后端分类器,判断出音频信号是否为鲸鱼叫声,由后端分类器输出得分B;
S6.将得分A与得分B进行融合,得出最终的判断结果。
进一步的,所述的数据扩充包括语速变化扩充、音频音调扩充、音频混合数据扩充。获取到语音信号数据之后,首先进行数据扩充。数据不足是训练模型中经常遇到的问题。而对鲸鱼叫声检测任务来说,这个问题尤为严重,因为相关的数据采集难度大,成本高。同时,采集来的数据的不平衡问题也会严重影响模型的识别效果。因此,数据扩充在神经网络模型训练当中非常重要。本专利一共采用了三种数据扩充方法:语速变化扩充,音频音调扩充,和音频混合数据扩充。
语速变化扩充:语速变化扩充在语音识别,声纹识别中,是常用的数据扩充方法。在具体实现当中,我们将音频进行特定倍率的加速和减速,从而增加训练数据。
音频音调扩充:音频的音调信息是音频当中的一个重要的信息。在语音识别等任务中,对于音频音调信息的调整是一个有效的数据扩充手段。而针对鲸鱼叫声检测的任务而言,由于鲸鱼叫声频率覆盖范围很广,即存在叫声处在高频,或者低频的情况。而且在频谱图上,高低频特征表现特点较为相似。在这种情况下,通过音调随机变化,使频率发生改变,并不会使得鲸鱼声音特征受到损害。添加的方法是,设置音频音调的抖动范围,每次随机生成一个抖动值,对音频音调进行调整。
音频混合数据扩充:在语音当中添加噪声来扩大训练数据量的方法,在数据扩充当中应用非常广泛。它的好处是让网络能够通过学习带噪声的数据,增强对噪声的抵抗能力,从而让模型的鲁棒性和泛化性能提高。本专利扩展了这种数据扩充方法,通过将带有鲸鱼叫声的正样本相互叠加,将噪声负样本数据加到鲸鱼叫声的方法,增加正样本数据,缓解训练数据中正样本不足的现象。添加的方法是,对于每一个正样本,随机选取一个其他的正样本或者负样本的音频数据,随机剪切成相同大小的音频片段,设置随机的信噪比进行叠加。
进一步的,将数据扩充完毕之后,接下来进行声学特征的提取,将一维的语音信号转换成二维的声学特征。它能够降低特征的维度,使得信息更容易被模型学习。本专利选择对数梅尔频谱特征。对数梅尔谱频谱特征的提取方法如下:
S31.对语音信号序列进行短时傅里叶变换;短时傅里叶变换是一种在音频处理领域常用的时频变换工具,它通过在语音上分帧,加窗,傅里叶变换,取模等操作,将时域的波形转换成频谱图;
S32.对生成的频率频谱图做梅尔变换;它等效于让特征通过一组三角滤波器,这组三角滤波器有以下的特点,它在低频位置有较高的幅值,较窄的频宽,随着频率的升高,三角滤波器的幅值逐渐降低,频宽逐渐下降;它的作用是重点突出某些频率的信息,使得后续的模型能够更快地学习到频谱的特征规律;
S33.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。
进一步的,对于基于帧的神经网络系统的训练,在训练之前,对提取的声学特征进行前后若干帧的拼接,从而增加上下文信息;之后,将生成的新的帧级别特征输入到网络中,采用时延神经网络结构作为帧级别网络模型。
进一步的,所述的帧级别网络模型的计算流程包括:
S511.输入的声学特征序列首先会被依次送入全连接神经网络当中,输出一个新的序列特征;
S512.在新的特征上,按照一定的间隔,选取前后帧,与当前的帧的特征进行拼接;
S513.将新生成的特征输入下一层全连接网络当中,输出新的序列特征;
S514.逐渐扩大跳帧的间隔,从1扩大到3,再扩大到5,重复步骤S512和S513;
S515.在最后一层全连接中,输出二维的得分结果,分别代表是否存在鲸鱼叫声。
在本发明中,通过跳帧的方法,能够增加网络的视野,从而使得每一帧判断的信息量更加丰富。除此之外,传统DNN,LSTM等网络结构也可以作为帧级别神经网络系统的模型。
在测试阶段,系统对每一帧的特征都进行分类判断。每一帧的预测结果是一个二维的向量,两个维度的含义分别是判断为鲸鱼叫声还是噪声的后验概率。最终,将帧级别的得分序列通过平均,转换成一整个语音片段的得分判断,作为最终帧级别神经网络的概率输出。
进一步的,所述的基于语音片段的卷积神经网络系统,流程主要包括训练阶段和测试阶段;其中,训练阶段包括:
S5211.进行数据扩充,提取语音声学特征;
S5212.训练深度卷积神经网络;网络由三部分构成,第一部分是深度卷积结构,第二部分是编码层模块,第三部分是全连接层分类模块;
S5213.训练完神经网络之后,使用神经网络提取深度特征,对每一个通道的语音数据都提取深度卷积特征,然后对特征做平均融合,作为一整个信号的表示;融合的方法可以用在特征层面上,或者后端分类器得分上;
S5214.使用深度特征训练后端分类器;
测试阶段包括:
S5221.提取测试语音的声学特征;
S5222.使用训练阶段S5212步骤中得到的网络提取深度特征;
S5223.使用训练阶段S5214步骤中得到的后端分类器获取得分。
在本发明中,水底麦克风一般会设置多组,采集得到的数据是多通道的语音数据。针对多通道的语音数据,本专利采取的融合策略是基于深度特征融合的策略。即对每一个单独的通道训练单独或共同的神经网络,提取不同通道语音的深度特征。最终,将多个深度特征进行拼接或者平均,作为一整个信号的特征表示。后面使用这种特征表示进行后端分类器的训练。除此之外,还可以采用基于声学特征层的融合,基于得分的融合的方法。
进一步的,所述的分类器选用SVM分类器、逻辑回归LR分类器或提升决策树GBDT分类器。
进一步的,所述的S5212步骤具体包括:
首先:以残差神经网络结构作为卷积结构的基础,卷积结构由两个部分组成,第一个部分是普通的卷积层加池化层,第二个部分是由四个残差模块构成;两个部分级联在一起,将输入的特征转换成深度的特征图;残差模块除了将特征进行常规的卷积,池化操作之外,还通过降采样,把当前输入的特征加入到输出的特征中,从而使得前端的特征能够得以保留,,使得训练变得更加容易;四个残差模块中的卷积通道数目随着层数的增加,逐渐增大;除了残差结构之外,Inception,DenseNet等深度卷积网络也可以被用作卷积结构。
然后,通过卷积神经网络结构之后,声学特征被转换成了深度特征图;特征图需要经过编码层编码,编码层将多通道特征图转换成固定维度特征,即深度特征;它的作用是通过学习或者计算的方式,达到减小特征维度,提炼信息的目的。一般使用全局平均池化层作为编码层。它在卷积结构输出的特征图上做时频维度上的平均,将不定长的特征映射到等长的深度特征上。除此之外,还可以使用包括LSTM编码层,时间平均层,均值方差层等进行编码。
最后,输出信息通过全连接和激活层,得到最终的判断。这里的全连接分类器的作用是做一个初步的判断,并通过这个判断计算损失,更新整体模型的参数。
在本发明中,监督的目标为鲸鱼叫声和水底噪声。损失函数选择交叉熵。训练的时候,初始设置较大的学习率,在每个迭代周期当中,累计计算整一轮的损失平均值。若损失平均值下降,则保持学习率继续学习,如果损失平均值提高,或者保持不变,则降低学习率。
进一步的,所述的S6步骤中采用平均融合或回归融合;所述的平均融合是对两种不同类型的神经网络模型的得分进行平均,将平均结果作为最终的输出;所述的回归融合是通过线性回归学习两组神经网络模型的权重,按照权重对模型的输出进行加权相加,得到最终的判断得分。
与现有技术相比,有益效果是:
1.本发明通过鲸鱼叫声音频检测算法,通过音频对鲸鱼活动进行观测,相对于录制影像,对视频进行分析的方法来说,成本更低,也更容易实现;
2.本发明算法使用深度学习算法,相对于传统算法能够得到更高的识别准确率。在具体应用中能够更加鲁棒,稳定;
3.本发明通过不同数据扩充的方法,充分利用了已有的数据,使得模型更加稳定,抗噪声性能更强;
4.本发明通过多通道融合的策略,充分利用了多通道音频数据。
附图说明
图1是本发明整体模型构架示意图。
图2是本发明基于帧的神经网络模型架构示意图。
图3是本发明基于语音片段的卷积神经网络模型架构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
如图1所示,一种基于深度学习的鲸鱼活动音频分类方法,包括以下步骤:
S1.采集水底语音数据;
S2.对采集的语音数据进行数据扩充,增加训练数据量;
S3.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S4.利用S3步骤的声学特征,分别训练两组神经网络模型,分别是基于帧的神经网络系统和基于语音片段的卷积神经网络系统;
S5.训练完基于帧的神经网络系统之后,判断出音频信号是否为鲸鱼叫声,提取基于帧的得分输出并做平均值处理,得到一组得分A;对于基于语音片段的卷积神经网络系统,训练卷积神经网络之后,利用该模型提取深度特征,用深度特征训练后端分类器,判断出音频信号是否为鲸鱼叫声,由后端分类器输出得分B;
S6.将得分A与得分B进行融合,得出最终的判断结果。采用平均融合或回归融合;所述的平均融合是对两种不同类型的神经网络模型的得分进行平均,将平均结果作为最终的输出;所述的回归融合是通过线性回归学习两组神经网络模型的权重,按照权重对模型的输出进行加权相加,得到最终的判断得分。
在本实施例中,数据扩充包括语速变化扩充、音频音调扩充、音频混合数据扩充。获取到语音信号数据之后,首先进行数据扩充。数据不足是训练模型中经常遇到的问题。而对鲸鱼叫声检测任务来说,这个问题尤为严重,因为相关的数据采集难度大,成本高。同时,采集来的数据的不平衡问题也会严重影响模型的识别效果。因此,数据扩充在神经网络模型训练当中非常重要。本专利一共采用了三种数据扩充方法:语速变化扩充,音频音调扩充,和音频混合数据扩充。
具体的,将数据扩充完毕之后,接下来进行声学特征的提取,将一维的语音信号转换成二维的声学特征。它能够降低特征的维度,使得信息更容易被模型学习。本专利选择对数梅尔频谱特征。对数梅尔谱频谱特征的提取方法如下:
S31.对语音信号序列进行短时傅里叶变换;短时傅里叶变换是一种在音频处理领域常用的时频变换工具,它通过在语音上分帧,加窗,傅里叶变换,取模等操作,将时域的波形转换成频谱图;
S32.对生成的频率频谱图做梅尔变换;它等效于让特征通过一组三角滤波器,这组三角滤波器有以下的特点,它在低频位置有较高的幅值,较窄的频宽,随着频率的升高,三角滤波器的幅值逐渐降低,频宽逐渐下降;它的作用是重点突出某些频率的信息,使得后续的模型能够更快地学习到频谱的特征规律;
S33.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。
如图2所示,对于基于帧的神经网络系统的训练,在训练之前,对提取的声学特征进行前后若干帧的拼接,从而增加上下文信息;之后,将生成的新的帧级别特征输入到网络中,采用时延神经网络结构作为帧级别网络模型。
如图2所示,其中,所述的帧级别网络模型的计算流程包括:
S511.输入的声学特征序列首先会被依次送入全连接神经网络当中,输出一个新的序列特征;
S512.在新的特征上,按照一定的间隔,选取前后帧,与当前的帧的特征进行拼接;
S513.将新生成的特征输入下一层全连接网络当中,输出新的序列特征;
S514.逐渐扩大跳帧的间隔,从1扩大到3,再扩大到5,重复步骤S512和S513;
S515.在最后一层全连接中,输出二维的得分结果,分别代表是否存在鲸鱼叫声。
在本发明中,通过跳帧的方法,能够增加网络的视野,从而使得每一帧判断的信息量更加丰富。除此之外,传统DNN,LSTM等网络结构也可以作为帧级别神经网络系统的模型。
在测试阶段,系统对每一帧的特征都进行分类判断。每一帧的预测结果是一个二维的向量,两个维度的含义分别是判断为鲸鱼叫声还是噪声的后验概率。最终,将帧级别的得分序列通过平均,转换成一整个语音片段的得分判断,作为最终帧级别神经网络的概率输出。
如图3所示,所述的基于语音片段的卷积神经网络系统,训练的流程主要包括训练阶段和测试阶段;其中,训练阶段包括:
S5211.进行数据扩充,提取语音声学特征;
S5212.训练深度卷积神经网络;网络由三部分构成,第一部分是深度卷积结构,第二部分是编码层模块,第三部分是全连接层分类模块;
S5213.训练完神经网络之后,使用神经网络提取深度特征,对每一个通道的语音数据都提取深度卷积特征,然后对特征做平均融合,作为一整个信号的表示;融合的方法可以用在特征层面上,或者后端分类器得分上;
S5214.使用深度特征训练后端分类器;
测试阶段包括:
S5221.提取测试语音的声学特征;
S5222.使用训练阶段S5211步骤中得到的网络提取深度特征;
S5223.使用训练阶段S5214步骤中得到的后端分类器获取得分。
在本发明中,水底麦克风一般会设置多组,采集得到的数据是多通道的语音数据。针对多通道的语音数据,本专利采取的融合策略是基于深度特征融合的策略。即对每一个单独的通道训练单独或共同的神经网络,提取不同通道语音的深度特征。最终,将多个深度特征进行拼接或者平均,作为一整个信号的特征表示。后面使用这种特征表示进行后端分类器的训练。除此之外,还可以采用基于声学特征层的融合,基于得分的融合的方法。
在本实施例中,所述的分类器选用SVM分类器、逻辑回归LR分类器或提升决策树GBDT分类器。
在本实施例中,所述的S5212步骤具体包括:
首先:以残差神经网络结构作为卷积结构的基础,卷积结构由两个部分组成,第一个部分是普通的卷积层加池化层,第二个部分是由四个残差模块构成;两个部分级联在一起,将输入的特征转换成深度的特征图;残差模块除了将特征进行常规的卷积,池化操作之外,还通过降采样,把当前输入的特征加入到输出的特征中,从而使得前端的特征能够得以保留,,使得训练变得更加容易;四个残差模块中的卷积通道数目随着层数的增加,逐渐增大;除了残差结构之外,Inception,DenseNet等深度卷积网络也可以被用作卷积结构。
然后,通过卷积神经网络结构之后,声学特征被转换成了深度特征图;特征图需要经过编码层编码,编码层将多通道特征图转换成固定维度特征,即深度特征;它的作用是通过学习或者计算的方式,达到减小特征维度,提炼信息的目的。一般使用全局平均池化层作为编码层。它在卷积结构输出的特征图上做时频维度上的平均,将不定长的特征映射到等长的深度特征上。除此之外,还可以使用包括LSTM编码层,时间平均层,均值方差层等进行编码。
最后,输出信息通过全连接和激活层,得到最终的判断。这里的全连接分类器的作用是做一个初步的判断,并通过这个判断计算损失,更新整体模型的参数。
在本发明中,监督的目标为鲸鱼叫声和水底噪声。损失函数选择交叉熵。训练的时候,初始设置较大的学习率,在每个迭代周期当中,累计计算整一轮的损失平均值。若损失平均值下降,则保持学习率继续学习,如果损失平均值提高,或者保持不变,则降低学习率。
实施例1:
如图1所示,先准备好采集到的多通道44.1kHz的鲸鱼叫声数据。之后,对数据进行数据扩充。数据扩充的手段包括:语速变化扩充,设置0.9倍和1.1倍的语速变化;音频音调扩充,按照一个选定的变化范围,比如10%,进行音调调整;音频混合数据扩充,将混入语音按一定随机信噪比加入正样本数据。
数据扩充完之后,提取短时傅里叶频谱特征。可以采取1024个点的短时傅里叶变换,帧长0.25s,帧移0.1s。提取对数梅尔谱的时候,梅尔滤波器数目选择为256。
在帧级别神经网络系统中,可以设置三到四层的DNN,将拼接好前后帧的频谱特征直接输入,训练神经网络。测试的时候,将帧级别的得分做一个平均作为最终输出。
在基于片段的卷积神经网络系统中,可以使用ResNet结构,将整个片段的频谱特征输入其中,使用有与没有鲸鱼噪声作为标签监督。训练完之后,使用这个网络结构,提取训练数据的深度特征,具体而言,就是将编码层之后的输出提取出来。接着,多通道的融合,可以采用基于深度特征的融合方法。对每个通道的深度特征进行平均,作为整体的特征。最后,使用这个深度特征,训练后端分类器SVM,用这个SVM得到该系统针对给定特征的得分。
整体系统的得分,由帧级别神经网络系统和基于片段的卷积神经网络系统得分平均而得。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种基于深度学习的鲸鱼活动音频分类方法,其特征在于,包括以下步骤:
S1.采集水底语音数据;
S2.对采集的语音数据进行数据扩充,增加训练数据量;
S3.对扩充后的训练数据进行声学特征提取,将一维的语音序列转换成二维的声学特征序列;
S4.利用S3步骤的声学特征,分别训练两组神经网络模型,分别是基于帧的神经网络系统和基于语音片段的卷积神经网络系统;
S5.训练完基于帧的神经网络系统之后,判断出音频信号是否为鲸鱼叫声,提取基于帧的得分输出并做平均值处理,得到一组得分A;对于基于语音片段的卷积神经网络系统,训练卷积神经网络之后,利用该模型提取深度特征,用深度特征训练后端分类器,判断出音频信号是否为鲸鱼叫声,由后端分类器输出得分B;
S6.将得分A与得分B进行融合,得出最终的判断结果;
对于基于帧的神经网络系统的训练,在训练之前,对提取的声学特征进行前后若干帧的拼接,从而增加上下文信息;之后,将生成的新的帧级别特征输入到网络中,采用时延神经网络结构作为帧级别网络模型;
其中,所述的帧级别网络模型的计算流程包括:
S511.输入的声学特征序列首先会被依次送入全连接神经网络当中,输出一个新的序列特征;
S512.在新的特征上,按照设定的间隔,选取前后帧,与当前的帧的特征进行拼接;
S513.将新生成的特征输入下一层全连接网络当中,输出新的序列特征;
S514.逐渐扩大跳帧的间隔,从1扩大到3,再扩大到5,重复步骤S512和S513;
S515.在最后一层全连接中,输出二维的得分结果,分别代表是否存在鲸鱼叫声;
所述的基于语音片段的卷积神经网络系统,流程主要包括训练阶段和测试阶段;其中,训练阶段包括:
S5211.进行数据扩充,提取语音声学特征;
S5212.训练深度卷积神经网络;网络由三部分构成,第一部分是深度卷积结构,第二部分是编码层模块,第三部分是全连接层分类模块;
S5213.训练完神经网络之后,使用神经网络提取深度特征,对每一个通道的语音数据都提取深度卷积特征,然后对特征做平均融合,作为一整个信号的表示;融合的方法可以用在特征层面上,或者后端分类器得分上;
S5214.使用深度特征训练后端分类器;
测试阶段包括:
S5221.提取测试语音的声学特征;
S5222.使用训练阶段S5212步骤中得到的网络提取深度特征;
S5223.使用训练阶段S5214步骤中得到的后端分类器获取得分。
2.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的数据扩充包括语速变化扩充、音频音调扩充、音频混合数据扩充。
3.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的S3步骤中的声学特征提取选择提取对数梅尔频谱特征,提取方法包括以下步骤:
S31.对语音信号序列进行短时傅里叶变换;
S32.对生成的频率频谱图做梅尔变换;
S33.在进行梅尔变换处理完毕之后,进行对数变换,降低特征稀疏性。
4.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的分类器选用SVM分类器、逻辑回归LR分类器或提升决策树GBDT分类器。
5.根据权利要求1所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的S5212步骤具体包括:
首先:以残差神经网络结构作为卷积结构的基础,卷积结构由两个部分组成,第一个部分是普通的卷积层加池化层,第二个部分是由四个残差模块构成;两个部分级联在一起,将输入的特征转换成深度的特征图;残差模块除了将特征进行常规的卷积、池化操作之外,还通过降采样,把当前输入的特征加入到输出的特征中,从而使得前端的特征能够得以保留;四个残差模块中的卷积通道数目随着层数的增加,逐渐增大;
然后,通过卷积神经网络结构之后,声学特征被转换成了深度特征图;特征图需要经过编码层编码,编码层将多通道特征图转换成固定维度特征,即深度特征;
最后,输出信息通过全连接和激活层,得到最终的判断。
6.根据权利要求1至5任一项所述的基于深度学习的鲸鱼活动音频分类方法,其特征在于,所述的S6步骤中采用平均融合或回归融合;所述的平均融合是对两种不同类型的神经网络模型的得分进行平均,将平均结果作为最终的输出;所述的回归融合是通过线性回归学习两组神经网络模型的权重,按照权重对模型的输出进行加权相加,得到最终的判断得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910994480.0A CN110827837B (zh) | 2019-10-18 | 2019-10-18 | 一种基于深度学习的鲸鱼活动音频分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910994480.0A CN110827837B (zh) | 2019-10-18 | 2019-10-18 | 一种基于深度学习的鲸鱼活动音频分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110827837A CN110827837A (zh) | 2020-02-21 |
CN110827837B true CN110827837B (zh) | 2022-02-22 |
Family
ID=69549540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910994480.0A Active CN110827837B (zh) | 2019-10-18 | 2019-10-18 | 一种基于深度学习的鲸鱼活动音频分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110827837B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111370021B (zh) * | 2020-02-28 | 2021-12-07 | 中国科学院水生生物研究所 | 一种评价水下噪音对鲸类影响的实时在线预警方法 |
CN111414832B (zh) * | 2020-03-16 | 2021-06-25 | 中国科学院水生生物研究所 | 一种基于鲸豚类低频水声信号的实时在线识别分类系统 |
CN113470653B (zh) * | 2020-03-31 | 2024-10-18 | 华为技术有限公司 | 声纹识别的方法、电子设备和系统 |
CN111681659A (zh) * | 2020-06-08 | 2020-09-18 | 北京高因科技有限公司 | 一种应用于便携式设备的自动语音识别系统及其工作方法 |
CN111885624B (zh) * | 2020-07-28 | 2022-07-01 | 成都海擎科技有限公司 | 一种基于深度学习的信号噪底估计方法 |
CN112750462B (zh) * | 2020-08-07 | 2024-06-21 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置及设备 |
CN111951823B (zh) * | 2020-08-07 | 2024-06-21 | 腾讯科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN111986683A (zh) * | 2020-09-04 | 2020-11-24 | 国家深海基地管理中心 | 利用生物声学特征进行深海生态系统评价的方法及系统 |
CN112071308A (zh) * | 2020-09-11 | 2020-12-11 | 中山大学 | 一种基于语音合成数据增强的唤醒词训练方法 |
CN112529152A (zh) * | 2020-12-03 | 2021-03-19 | 开放智能机器(上海)有限公司 | 一种基于人工智能的西瓜成熟度检测的系统和方法 |
CN112735482B (zh) * | 2020-12-04 | 2024-02-13 | 珠海亿智电子科技有限公司 | 基于联合深度神经网络的端点检测方法及系统 |
CN112634873A (zh) * | 2020-12-22 | 2021-04-09 | 上海幻维数码创意科技股份有限公司 | 一种基于中文语音OpenSmile和双向LSTM的端到端情绪识别方法 |
CN112767967A (zh) * | 2020-12-30 | 2021-05-07 | 深延科技(北京)有限公司 | 语音分类方法、装置及自动语音分类方法 |
CN112863667B (zh) * | 2021-01-22 | 2023-10-24 | 杭州电子科技大学 | 一种基于深度学习的肺部声音诊断装置 |
CN113129908B (zh) * | 2021-03-24 | 2022-07-26 | 中国科学院声学研究所南海研究站 | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 |
CN112951269A (zh) * | 2021-04-14 | 2021-06-11 | 浙江百应科技有限公司 | 一种语音活性检测方法 |
CN113345443A (zh) * | 2021-04-22 | 2021-09-03 | 西北工业大学 | 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法 |
CN113643687B (zh) * | 2021-07-08 | 2023-07-18 | 南京邮电大学 | 融合DSNet与EDSR网络的非平行多对多语音转换方法 |
CN113870896A (zh) * | 2021-09-27 | 2021-12-31 | 动者科技(杭州)有限责任公司 | 基于时频图和卷积神经网络的运动声音判假方法、装置 |
CN114049899A (zh) * | 2021-11-23 | 2022-02-15 | 中国林业科学研究院资源信息研究所 | 一种声音识别方法、装置、电子设备及存储介质 |
CN113870870B (zh) * | 2021-12-02 | 2022-04-05 | 自然资源部第一海洋研究所 | 一种基于卷积神经网络的海洋哺乳动物发声实时识别方法 |
CN114755529A (zh) * | 2022-04-06 | 2022-07-15 | 重庆大学 | 一种基于深度学习的多特征融合单相接地故障类型辨识方法 |
CN115188387B (zh) * | 2022-07-12 | 2023-04-07 | 四川农业大学 | 一种有效的海洋哺乳动物声音自动检测和分类方法 |
CN115273908B (zh) * | 2022-08-05 | 2023-05-12 | 东北农业大学 | 一种基于分类器融合的生猪咳嗽声音识别方法 |
CN116206612B (zh) * | 2023-03-02 | 2024-07-02 | 中国科学院半导体研究所 | 鸟类声音识别方法、模型训练方法、装置、电子设备 |
CN116660876B (zh) * | 2023-05-26 | 2024-07-30 | 吉林大学 | 一种中华白海豚回声定位信号自动检测和定位方法 |
CN116645978B (zh) * | 2023-06-20 | 2024-02-02 | 方心科技股份有限公司 | 基于超算并行环境的电力故障声类别增量学习系统及方法 |
CN117275491B (zh) * | 2023-11-17 | 2024-01-30 | 青岛科技大学 | 基于音频转换与时间注意力图神经网络的叫声分类方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104882144A (zh) * | 2015-05-06 | 2015-09-02 | 福州大学 | 基于声谱图双特征的动物声音识别方法 |
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
CN106373561A (zh) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
CN106531174A (zh) * | 2016-11-27 | 2017-03-22 | 福州大学 | 基于小波包分解和声谱图特征的动物声音识别方法 |
CN108010538A (zh) * | 2017-12-22 | 2018-05-08 | 北京奇虎科技有限公司 | 音频数据处理方法及装置、计算设备 |
CN108780523A (zh) * | 2016-03-18 | 2018-11-09 | 高通股份有限公司 | 使用本地设备提供的传感器数据和标签的基于云的处理 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
US10418957B1 (en) * | 2018-06-29 | 2019-09-17 | Amazon Technologies, Inc. | Audio event detection |
CN110322900A (zh) * | 2019-06-25 | 2019-10-11 | 深圳市壹鸽科技有限公司 | 一种语音信号特征融合的方法 |
-
2019
- 2019-10-18 CN CN201910994480.0A patent/CN110827837B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104882144A (zh) * | 2015-05-06 | 2015-09-02 | 福州大学 | 基于声谱图双特征的动物声音识别方法 |
CN106373561A (zh) * | 2015-07-24 | 2017-02-01 | 三星电子株式会社 | 声学得分计算和语音识别的设备和方法 |
CN108780523A (zh) * | 2016-03-18 | 2018-11-09 | 高通股份有限公司 | 使用本地设备提供的传感器数据和标签的基于云的处理 |
CN105869630A (zh) * | 2016-06-27 | 2016-08-17 | 上海交通大学 | 基于深度学习的说话人语音欺骗攻击检测方法及系统 |
CN106531174A (zh) * | 2016-11-27 | 2017-03-22 | 福州大学 | 基于小波包分解和声谱图特征的动物声音识别方法 |
CN110019931A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 音频分类方法、装置、智能设备和存储介质 |
CN108010538A (zh) * | 2017-12-22 | 2018-05-08 | 北京奇虎科技有限公司 | 音频数据处理方法及装置、计算设备 |
CN108932950A (zh) * | 2018-05-18 | 2018-12-04 | 华南师范大学 | 一种基于标签扩增与多频谱图融合的声音场景识别方法 |
US10418957B1 (en) * | 2018-06-29 | 2019-09-17 | Amazon Technologies, Inc. | Audio event detection |
CN110322900A (zh) * | 2019-06-25 | 2019-10-11 | 深圳市壹鸽科技有限公司 | 一种语音信号特征融合的方法 |
Non-Patent Citations (1)
Title |
---|
Individual Minke Whale Recognition Using Deep Learning Convolutional Neural Networks;Dmitry A. Konovalov etc;《Journal of Geoscience and Environment Protection》;20180630;第25-36页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110827837A (zh) | 2020-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827837B (zh) | 一种基于深度学习的鲸鱼活动音频分类方法 | |
Gevaert et al. | Neural networks used for speech recognition | |
Thomas et al. | Analyzing convolutional neural networks for speech activity detection in mismatched acoustic conditions | |
CN105632501B (zh) | 一种基于深度学习技术的自动口音分类方法及装置 | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
Cai et al. | Sensor network for the monitoring of ecosystem: Bird species recognition | |
CN110600054B (zh) | 基于网络模型融合的声场景分类方法 | |
KR101561651B1 (ko) | 딥 빌리프 네트워크를 이용한 음성기반 호불호 검출방법 및 장치, 그를 기록한 기록매체 | |
CN111798874A (zh) | 一种语音情绪识别方法及系统 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN103915093B (zh) | 一种实现语音歌唱化的方法和装置 | |
Tsenov et al. | Speech recognition using neural networks | |
CN108876951A (zh) | 一种基于声音识别的教学考勤方法 | |
CN110265063B (zh) | 一种基于固定时长语音情感识别序列分析的测谎方法 | |
CN111667834B (zh) | 一种助听设备及助听方法 | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
Schröder et al. | Classifier architectures for acoustic scenes and events: implications for DNNs, TDNNs, and perceptual features from DCASE 2016 | |
CN106098079A (zh) | 音频信号的信号提取方法与装置 | |
CN112397074A (zh) | 基于mfcc和向量元学习的声纹识别方法 | |
CN110610722B (zh) | 短时能量及梅尔倒谱系数联合新型矢量量化的低复杂度危险声场景判别方法 | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
KR20190135916A (ko) | 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법 | |
CN109346104A (zh) | 一种基于谱聚类的音频特征降维方法 | |
Li et al. | Research on environmental sound classification algorithm based on multi-feature fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |