CN110120224B - 鸟声识别模型的构建方法、装置、计算机设备及存储介质 - Google Patents

鸟声识别模型的构建方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110120224B
CN110120224B CN201910390381.1A CN201910390381A CN110120224B CN 110120224 B CN110120224 B CN 110120224B CN 201910390381 A CN201910390381 A CN 201910390381A CN 110120224 B CN110120224 B CN 110120224B
Authority
CN
China
Prior art keywords
bird
sound
recognition model
training
bird sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910390381.1A
Other languages
English (en)
Other versions
CN110120224A (zh
Inventor
吴冀平
亢祖衡
彭俊清
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910390381.1A priority Critical patent/CN110120224B/zh
Publication of CN110120224A publication Critical patent/CN110120224A/zh
Application granted granted Critical
Publication of CN110120224B publication Critical patent/CN110120224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及声音识别领域,公开了一种鸟声识别模型的构建方法、装置、计算机设备及存储介质。其方法包括:获取鸟声样本,鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应;从声音片段中提取梅尔频率倒谱特征,获得声音片段的多个频谱图;对多个频谱图进行特征提取和降维处理,获得声音片段对应的特征图;将特征图进行声纹特征编码处理,获得声纹特征向量;将声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,鸟声识别模型包括训练完毕后的胶囊网络。本发明所获得鸟声识别模型可用于对包含鸟声的声音片段进行处理,识别出鸟的类别。

Description

鸟声识别模型的构建方法、装置、计算机设备及存储介质
技术领域
本发明涉及声音识别领域,尤其涉及一种鸟声识别模型的构建方法、装置、计算机设备及存储介质。
背景技术
在自然界中,人类的生产生活对于鸟类有着非常大的影响。反之,鸟类的生存状况在一定程度上可以反映人类生活环境的状态。因而,有必要建立对鸟类监测的站点,以获得鸟类的生存状况。
然而,很多鸟类监测站点往往处于无人区域,对于鸟类的监测往往依赖于监控人员对监测站点获取的监控录像的监测。这种方式的监测,一方面对监控人员有很高的要求,另一方面也对监拍设备有较高要求。因而现有的监测方式往往是采用录制监测站点包含鸟声的音频数据,并对含有鸟声的音频数据进行处理,进而获得鸟类的活动状况。在这种情况下,构建适当的神经网络模型,实现根据鸟声对鸟的类别进行识别,就显得相当必要。
发明内容
基于此,有必要针对上述技术问题,提供一种鸟声识别模型的构建方法、装置、计算机设备及存储介质,以获得可对包含鸟声的音频进行有效识别,识别出鸟的类别的鸟声识别模型。
一种鸟声识别模型的构建方法,包括:
获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应;
从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图;
对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图;
将所述特征图进行声纹特征编码处理,获得声纹特征向量;
将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络。
一种鸟声识别模型的构建装置,包括:
获取样本模块,用于获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应;
频谱图提取模块,用于从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图;
特征图提取模块,用于对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图;
向量构建模块,用于将所述特征图进行声纹特征编码处理,获得声纹特征向量;
获得模型模块,用于将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述鸟声识别模型的构建方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述鸟声识别模型的构建方法。
上述鸟声识别模型的构建方法、装置、计算机设备及存储介质,通过获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应,以便于在监督学习类的训练模型中进行训练。从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图,以将音频数据初步处理为二维数据。对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图,以对音频数据所生成的频谱图进一步处理,降低计算量。将所述特征图进行声纹特征编码处理,获得声纹特征向量,以获得适于模型训练的特征向量。将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络,以获得可用于识别鸟声的鸟声识别模型。本发明所获得鸟声识别模型可用于对包含鸟声的声音片段进行处理,识别出鸟的类别。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中鸟声识别模型的构建方法的一应用环境示意图;
图2是本发明一实施例中鸟声识别模型的构建方法的一流程示意图;
图3是本发明一实施例中鸟声识别模型的构建方法的一流程示意图;
图4是本发明一实施例中鸟声识别模型的构建方法的一流程示意图;
图5是本发明一实施例中鸟声识别模型的构建方法的一流程示意图;
图6是本发明一实施例中鸟声识别模型的构建方法的一流程示意图;
图7是本发明一实施例中鸟声识别模型的构建方法的一流程示意图;
图8是本发明一实施例中鸟声识别模型的构建方法的一流程示意图;
图9是本发明一实施例中鸟声识别模型的构建装置的一结构示意图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的鸟声识别模型的构建方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。客户端可以是用于收集鸟声样本的设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图1所示,提供一种鸟声识别模型的构建方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10、获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应;
S20、从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图;
S30、对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图;
S40、将所述特征图进行声纹特征编码处理,获得声纹特征向量;
S50、将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络。
本实施例中,鸟声样本包括经预处理过的包含鸟声的声音片段,每个鸟声样本与一个鸟名标签对应。鸟名标签可以是以编号标记的鸟类种类,如鸟001、鸟002、鸟003、鸟004、鸟005等;也可以是具体的鸟类名称,如天鹅、大雁、鸳鸯、鹈鹕、海鸥等。在此处,声音片段可以是经过除噪音处理后的仅包含特定鸟类鸣叫声的音频文件。每个声音片段可以处理为规范时间长度的音频数据。通常情况下,规范时间长度大于鸟类完整的发音周期。
梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。这里所指的频谱图指的是梅尔频谱图。一般情况下,一个声音片段可以分为多个音频帧,可以计算出每个音频帧对应的梅尔频谱图。在一实例中,可进行如下操作,获得声音片段的频谱图:先对声音片段进行分帧,获得多个音频帧;然后对音频帧进行预加重、分帧和加窗;对每一个短时分析窗,通过FFT(快速傅里叶变换)得到对应的频谱;将上面的频谱通过梅尔滤波器处理,得到梅尔频谱图。若在梅尔频谱图上面进行倒谱分析,可以获得音频帧对应的梅尔频率倒谱系数(MFCCs)。
可以使用多层卷积神经网络对频谱图进行特征提取和降维处理,每个频谱图可以生成多个特征图。
然后将特征图转化为一维向量,这些一维向量输入GRU循环神经网络中进行特征编码,然后GRU循环神经网络可以输出相应的声纹特征向量。
这些经过特征编码的声纹特征向量可以输入基于胶囊网络的训练模型中进行迭代训练,训练完毕后可以获得可根据鸟声识别鸟的种类的鸟声识别模型。在训练的过程中,需要输入多个鸟声样本的数据。
步骤S10-S50中,获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应,以便于在监督学习类的训练模型中进行训练。从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图,以将音频数据初步处理为二维数据。对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图,以对音频数据所生成的频谱图进一步处理,降低计算量。将所述特征图进行声纹特征编码处理,获得声纹特征向量,以获得适于模型训练的特征向量。将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络,以获得可用于识别鸟声的鸟声识别模型。
可选的,如图3所示,所述从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图之前,包括:
S11、获取包含鸟声的音频文件;
S12、根据预设规则从所述包含鸟声的音频文件中提取鸟叫的声音片段;
S13、基于所述声音片段生成鸟声样本,每个鸟声样本与一个鸟名标签对应。
本实施例中,包含鸟声的音频文件是声音片段的源数据。音频文件可以来源于网上的开源数据集,也可以是使用网络爬虫爬取的包含鸟声的音频文件,也可以是由监控站点提供的包含鸟声的音频数据。
预设规则包括了将包含鸟声的音频文件中的静音部分去除,仅保留包含鸟叫声声音片段。可以使用以能量为主要评判阈值的VAD(语音端点检测)算法对音频文件中的静音段进行切除。
预设规则中还可以包括除噪音部分。为了更好地从声音片段中提取出不同鸟类的发音特征,需要对声音片段中的噪音进行去除。这里的噪音包括了环境噪音以及非鸟叫声的杂声。
经预设规则提取后,可以获得音质较好的包含鸟叫的声音片段。然后为每个声音片段添加鸟名标签,形成鸟声样本。使用预设规则批量对多个音频文件处理,然后再进行添加鸟名标签操作,可以获得相应的多个鸟声样本。为了保证对鸟的种类的分辨能力更佳,具有相同的鸟名标签的鸟声样本最好具有一定的数量,比如数量为10。换句话讲,为了更好识别出某一种类的鸟的声音,该种类的鸟的鸟声样本需要达到一定数量。例如,要更好地识别大雁的声音,最好采用大于10个鸟名标签为“大雁”的鸟声样本。
步骤S11-S12中,获取包含鸟声的音频文件,以获得未经处理的原始鸟声数据。根据预设规则从所述包含鸟声的音频文件中提取鸟叫的声音片段,以对包含鸟声的音频文件进行处理,去除空白声音片段和非鸟声片段。基于所述声音片段生成鸟声样本,每个鸟声样本与一个鸟名标签对应,以生成包含鸟名标签的鸟声样本。
可选的,如图4所示,所述从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图,包括:
S201、将所述声音片段按第一指定时长切割为多个待处理音频帧;
S202、使用梅尔特征滤波器对每一帧所述待处理音频帧进行特征提取,获得每个所述待处理音频帧对应的一维特征向量;
S203、按指定重叠率对所有所述一维特征向量进行分批,基于每个批次的所述一维特征向量生成第二指定时长的所述频谱图。
本实施例中,首先需要对声音片段进行分帧,如可以设定第一指定时长的音频数据为一个音频帧,这样声音片段可以分成多个待处理音频帧。在这里,第一指定时长可以是20毫秒,也可以是其他设定时间。分帧方式为无重叠分帧。
可使用梅尔特征滤波器从各个待处理音频帧中提取声音特征(即一维特征向量)。梅尔特征滤波器的数量可以是40~60个。每个梅尔特征滤波器可以生成一个与待处理音频帧对应的一维特征向量。
为了得到二维的频谱图,可以将生成的多个一维特征向量捆绑成二维谱图。这里生成的频谱图即为梅尔频率倒谱图。此过程又称为“分批”操作,以便于对音频数据进行降维和信息的抽取。可以预先设置每个批次的时间长度(即第二指定时长),如可以是300毫秒。换句话讲,若第二指定时长为300毫秒,第一指定时长为20毫秒,则一个二维谱图是根据15个待处理音频帧对应的一维特征向量生成。由于分帧生成的向量所在的位置信息和音频中的时间信息是一一对应的,则分批过程中也可以被视作时间上信息的一个切割。在“分批”操作时,需要考虑瞬时变化的部分,因而需要按一定的重叠率进行分批。重叠率可以设置为50%。为了方便表述,可以先把批次进行编号,如从0到n。然后定义第1批为从0到a帧(a为偶数)的音频信号,第2批为a/2到3*a/2帧的音频信号,第3批为a到2*a帧的音频信号,以此类推,直至所有待处理音频帧处理完毕。
处理完毕后,可以获得n+1个频谱图,每个频谱图由a+1个待处理音频帧的一维特征向量捆绑而成。
步骤S201-S203中,将所述声音片段按第一指定时长切割为多个待处理音频帧,将声音片段按帧处理,提高处理声音片段的处理效率。使用梅尔特征滤波器对每一帧所述待处理音频帧进行特征提取,获得每个所述待处理音频帧对应的一维特征向量,以将待处理音频帧处理为一维数据。按指定重叠率对所有所述一维特征向量进行分批,基于每个批次的所述一维特征向量生成第二指定时长的所述频谱图,以获得声音片段对应的多个二维数据。
可选的,如图5所示,所述对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图,包括:
S301、使用多层卷积神经网络对所述频谱图进行降维处理;
S302、使用线性整流函数对降维后的数据进行处理,获得与所述声音片段所对应的多个特征图。
本实施例中,可以使用多层卷积神经网络把每个频谱图进行降维处理。由于倒谱信息已经非常致密了,因而需要在时间维度上面降维,在具体实现过程中,可以在卷积核在时间维度上等于1,但在梅尔频率倒谱方向上面大于1时,在时间维度上对频谱图进行降维处理。
经卷积处理后,可以使用线性整流函数(英文简写为ReLu)对频谱图继续进行处理。值得注意的是,由于池化操作会造成信息的不必要丢失,所以这里不使用池化层进行降维。
重复上述步骤,进行多层卷积神经网络对所有的频谱图进行特征抽取和降维,每一个频谱图可以转化为多个特征图。最终得到特征图的个数为:“频谱图的数量*每个频谱图转化出的特征图数量”。
步骤S301-S302中,使用多层卷积神经网络对所述频谱图进行降维处理,以降低频谱图的数据处理量。使用线性整流函数对降维后的数据进行处理,获得与所述声音片段所对应的多个特征图,以得到由频谱图转化后的特征图。
可选的,如图6所示,所述将所述特征图进行声纹特征编码处理,获得声纹特征向量,包括:
S401、将所述特征图转化为多个一维向量;
S402、将所述特征图转化出的一维向量按顺序输入门控循环单元循环神经网络进行特征编码,获得所述特征图对应的声纹特征向量。
本实施例中,可以把这些输出的特征图拉直,转化为多个一维向量(即reshape操作,将二维改变形状变成一维)。
可以使用GRU(门控循环单元)循环神经网络对每个特征图所生成的一维向量进行特征编码。具体过程是:将由同一个特征图生成的一维向量按照时序的先后顺序作为GRU循环神经网络的每一个循环的输入,然后把GRU循环神经网络最后一次循环输出的向量作为特征图对应的声纹特征向量。
对所有特征图按上述步骤进行处理,可以获得每个特征图所对应的声纹特征向量。
步骤S401-S402中,将所述特征图转化为多个一维向量,以对特征图进行数据转换,处理为易于处理的一维向量。将所述特征图转化出的一维向量按顺序输入门控循环单元循环神经网络进行特征编码,获得所述特征图对应的声纹特征向量,以获得模型训练所需要的特征向量。
可选的,如图7所示,所述将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络,包括:
S501、将所述声纹特征向量输入所述胶囊网络;
S502、获得所述胶囊网络的输出向量;
S503、根据所述输出向量计算训练模型的损失函数,获得所述损失函数的计算结果;
S504、判断所述损失函数的计算结果是否满足预设要求;
S505、若所述损失函数的计算结果不满足预设要求,则根据所述损失函数的计算结果调整所述胶囊网络的参数,并使用从鸟声样本中提取出的声纹特征向量继续对所述胶囊网络进行训练;
S506、若所述损失函数的计算结果满足预设要求,则确定所述胶囊网络训练完毕,并将包含训练完毕后的胶囊网络的模型确定为所述鸟声识别模型。
可以将从鸟声样本中提取出的声纹特征向量输入胶囊网络中,进行迭代训练。胶囊网络(CapsNet)是一种神经网络架构,它将CNN(卷积神经网络)中每个神经元的标量输出,替换为一个向量输出。若一个鸟声样本包括x个声纹特征向量,鸟声样本的总数为y个,则胶囊网络迭代一次,需要处理的声纹特征数量为x*y。
在训练的过程中,将鸟声样本的声纹特征向量输入胶囊网络后,可以生成相应的输出向量,这些向量为各种与鸟类具有相关性的向量。可以结合实际需要设置输出向量的长度。输出向量的长度越长鸟类分类精度越准确,但是训练时间更长,会产生更多的模型参数,并占用更多的内存和磁盘资源。可根据实际情况调整输出向量的长度。
在一实施例中,输出向量和鸟类的种类为一一对应的关系,即:某一个输出向量为某一种鸟类的相关性向量,且输出向量的模长为分类代表此类鸟叫的相关性的大小(某特征向量的模长值越大说明此类鸟相关性越大,反之亦然)。
在胶囊网络中,需要计算胶囊网络的损失函数(Margin loss),损失函数可记为Lc,可使用以下式子进行计算:
Lc=Tc·max(0,m+-||vc||)2+λ·0-Tc)·max(0,||vc||-m-)2
上式中,这里c为输出层的位置,代表某种鸟类的相关性。Tc为真实标签值(groundtruth),即:输出层的位置与鸟声样本的鸟名标签相符,则Tc=1,否则Tc=0。vc是模型输出在c位置的向量。这里m+=0.9,m-=0.1。λ是权重系数,通常为0.5。对等式右边进行计算,可获得损失函数Lc的值。
在训练胶囊网络时,也可以使用RMSProp、Adam的优化算法对胶囊网络进行训练。
步骤S501-S506中,将所述声纹特征向量输入所述胶囊网络,以完成模型训练过程中的数据输入。获得所述胶囊网络的输出向量,以获得胶囊网络处理的中间数据。根据所述输出向量计算训练模型的损失函数,获得所述损失函数的计算结果,以计算胶囊网络处理后输出向量所对应的损失函数。判断所述损失函数的计算结果是否满足预设要求,以评估胶囊网络的输出向量的质量。若所述损失函数的计算结果不满足预设要求,则根据所述损失函数的计算结果调整所述胶囊网络的参数,并使用从鸟声样本中提取出的声纹特征向量继续对所述胶囊网络进行训练,以在胶囊网络的输出向量的质量不达标时,继续对胶囊网络进行训练。若所述损失函数的计算结果满足预设要求,则确定所述胶囊网络训练完毕,并将包含训练完毕后的胶囊网络的模型确定为所述鸟声识别模型,以获得最终需要的鸟声识别模型,该鸟声识别模型可以对包含鸟声的声音片段进行处理,获得相应的鸟种类判别结果。
可选的,如图8所示,所述将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络之后,还包括:
S60、获取待识别的鸟声音频;
S70、将所述待识别的鸟声音频输入所述鸟声识别模型;
S80、获取所述鸟声识别模型输出的鸟名标签。
本实施例中,获得的鸟声识别模型可以对包含鸟声的音频进行识别,识别出与该音频内的鸟声对应的鸟的名字(即鸟名标签)。鸟声识别模型包括了声音处理模块和胶囊网络识别模块。声音处理模块可用于执行步骤S20-S40的方法,而胶囊网络识别模块则包含了训练好的胶囊网络。例如,一待识别的鸟声音频包含了鹦鹉的叫声,该待识别的鸟声音频输入鸟声识别模型中,该鸟声识别模型可输出鸟名标签——“鹦鹉”。
步骤S60-S80中,获取待识别的鸟声音频,以获得待处理的音频数据。将所述待识别的鸟声音频输入所述鸟声识别模型,以实现对鸟声音频的处理。获取所述鸟声识别模型输出的鸟名标签,以获得待识别鸟声音频所对应的鸟名标签。
本发明实施例通过获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应;从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图;对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图;将所述特征图进行声纹特征编码处理,获得声纹特征向量;将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络。本发明实施例所获得鸟声识别模型可用于对包含鸟声的声音片段进行处理,识别出鸟的类别。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种鸟声识别模型的构建装置,该鸟声识别模型的构建装置与上述实施例中鸟声识别模型的构建方法一一对应。如图9所示,该鸟声识别模型的构建装置包括获取样本模块10、频谱图提取模块20、特征图提取模块30、向量构建模块40和获得模型模块50。各功能模块详细说明如下:
获取样本模块10,用于获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应;
频谱图提取模块20,用于从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图;
特征图提取模块30,用于对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图;
向量构建模块40,用于将所述特征图进行声纹特征编码处理,获得声纹特征向量;
获得模型模块50,用于将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络。
可选的,鸟声识别模型的构建装置还包括生成样本模块,该生成样本模块包括:
获取音频单元,用于获取包含鸟声的音频文件;
音频处理单元,用于根据预设规则从所述包含鸟声的音频文件中提取鸟叫的声音片段;
样本生成单元,用于基于所述声音片段生成鸟声样本,每个鸟声样本与一个鸟名标签对应。
可选的,频谱图提取模块20包括:
音频切割单元,用于将所述声音片段按第一指定时长切割为多个待处理音频帧;
提取一维向量单元,用于使用梅尔特征滤波器对每一帧所述待处理音频帧进行特征提取,获得每个所述待处理音频帧对应的一维特征向量;
生成频谱图单元,用于按指定重叠率对所有所述一维特征向量进行分批,基于每个批次的所述一维特征向量生成第二指定时长的所述频谱图。
可选的,特征图提取模块30包括:
降维单元,用于使用多层卷积神经网络对所述频谱图进行降维处理;
生成特征图单元,用于使用线性整流函数对降维后的数据进行处理,获得与所述声音片段所对应的多个特征图。
可选的,向量构建模块40包括:
数据转换单元,用于将所述特征图转化为多个一维向量;
生成向量单元,用于将所述特征图转化出的一维向量按顺序输入门控循环单元循环神经网络进行特征编码,获得所述特征图对应的声纹特征向量。
可选的,获得模型模块50包括:
输入单元,用于将所述声纹特征向量输入所述胶囊网络;
输出向量单元,用于获得所述胶囊网络的输出向量;
计算损失函数,用于根据所述输出向量计算训练模型的损失函数,获得所述损失函数的计算结果;
结果判断单元,用于判断所述损失函数的计算结果是否满足预设要求;
继续训练单元,用于若所述损失函数的计算结果不满足预设要求,则根据所述损失函数的计算结果调整所述胶囊网络的参数,并使用从鸟声样本中提取出的声纹特征向量继续对所述胶囊网络进行训练;
获得模型单元,用于若所述损失函数的计算结果满足预设要求,则确定所述胶囊网络训练完毕,并将包含训练完毕后的胶囊网络的模型确定为所述鸟声识别模型。
可选的,鸟声识别模型的构建装置还包括:
获取待处理音频模块,用于获取待识别的鸟声音频;
模型处理模块,用于将所述待识别的鸟声音频输入所述鸟声识别模型;
输出鸟名标签模块,用于获取所述鸟声识别模型输出的鸟名标签。
关于鸟声识别模型的构建装置的具体限定可以参见上文中对于鸟声识别模型的构建方法的限定,在此不再赘述。上述鸟声识别模型的构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述鸟声识别模型的构建方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种鸟声识别模型的构建方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应;
从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图;
对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图;
将所述特征图进行声纹特征编码处理,获得声纹特征向量;
将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应;
从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图;
对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图;
将所述特征图进行声纹特征编码处理,获得声纹特征向量;
将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种鸟声识别模型的构建方法,其特征在于,包括:
获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应;
从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图;
对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图;
将所述特征图进行声纹特征编码处理,获得声纹特征向量;
将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络。
2.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图之前,包括:
获取包含鸟声的音频文件;
根据预设规则从所述包含鸟声的音频文件中提取鸟叫的声音片段;
基于所述声音片段生成鸟声样本,每个鸟声样本与一个鸟名标签对应。
3.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图,包括:
将所述声音片段按第一指定时长切割为多个待处理音频帧;
使用梅尔特征滤波器对每一帧所述待处理音频帧进行特征提取,获得每个所述待处理音频帧对应的一维特征向量;
按指定重叠率对所有所述一维特征向量进行分批,基于每个批次的所述一维特征向量生成第二指定时长的所述频谱图。
4.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图,包括:
使用多层卷积神经网络对所述频谱图进行降维处理;
使用线性整流函数对降维后的数据进行处理,获得与所述声音片段所对应的多个特征图。
5.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述将所述特征图进行声纹特征编码处理,获得声纹特征向量,包括:
将所述特征图转化为多个一维向量;
将所述特征图转化出的一维向量按顺序输入门控循环单元循环神经网络进行特征编码,获得所述特征图对应的声纹特征向量。
6.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络,包括:
将所述声纹特征向量输入所述胶囊网络;
获得所述胶囊网络的输出向量;
根据所述输出向量计算训练模型的损失函数,获得所述损失函数的计算结果;
判断所述损失函数的计算结果是否满足预设要求;
若所述损失函数的计算结果不满足预设要求,则根据所述损失函数的计算结果调整所述胶囊网络的参数,并使用从鸟声样本中提取出的声纹特征向量继续对所述胶囊网络进行训练;
若所述损失函数的计算结果满足预设要求,则确定所述胶囊网络训练完毕,并将包含训练完毕后的胶囊网络的模型确定为所述鸟声识别模型。
7.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络之后,还包括:
获取待识别的鸟声音频;
将所述待识别的鸟声音频输入所述鸟声识别模型;
获取所述鸟声识别模型输出的鸟名标签。
8.一种鸟声识别模型的构建装置,其特征在于,包括:
获取样本模块,用于获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应;
频谱图提取模块,用于从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图;
特征图提取模块,用于对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图;
向量构建模块,用于将所述特征图进行声纹特征编码处理,获得声纹特征向量;
获得模型模块,用于将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述鸟声识别模型的构建方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述鸟声识别模型的构建方法。
CN201910390381.1A 2019-05-10 2019-05-10 鸟声识别模型的构建方法、装置、计算机设备及存储介质 Active CN110120224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910390381.1A CN110120224B (zh) 2019-05-10 2019-05-10 鸟声识别模型的构建方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910390381.1A CN110120224B (zh) 2019-05-10 2019-05-10 鸟声识别模型的构建方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN110120224A CN110120224A (zh) 2019-08-13
CN110120224B true CN110120224B (zh) 2023-01-20

Family

ID=67522051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910390381.1A Active CN110120224B (zh) 2019-05-10 2019-05-10 鸟声识别模型的构建方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110120224B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517698B (zh) * 2019-09-05 2022-02-01 科大讯飞股份有限公司 一种声纹模型的确定方法、装置、设备及存储介质
CN111048101A (zh) * 2020-01-15 2020-04-21 合肥慧图软件有限公司 基于语音识别技术的生物多样性物种分析方法
CN111276151B (zh) * 2020-01-20 2023-04-07 北京正和恒基滨水生态环境治理股份有限公司 一种鸟声识别系统及识别方法
CN111370031B (zh) * 2020-02-20 2023-05-05 厦门快商通科技股份有限公司 语音分离方法、系统、移动终端及存储介质
CN112331231B (zh) * 2020-11-24 2024-04-19 南京农业大学 基于音频技术的肉鸡采食量检测系统
CN112599134A (zh) * 2020-12-02 2021-04-02 国网安徽省电力有限公司 一种基于声纹识别的变压器声音事件检测方法
CN112750442B (zh) * 2020-12-25 2023-08-08 浙江弄潮儿智慧科技有限公司 一种具有小波变换的朱鹮种群生态体系监测系统及其方法
CN114792525A (zh) * 2021-01-25 2022-07-26 江苏中协智能科技有限公司 一种修正广播音色的方法及系统
CN113012714B (zh) * 2021-02-22 2022-08-02 哈尔滨工程大学 基于像素注意力机制胶囊网络模型的声学事件检测方法
CN113066481B (zh) * 2021-03-31 2023-05-09 南京信息工程大学 一种基于混合特征选择和gwo-kelm模型的鸟声识别方法
CN113421585A (zh) * 2021-05-10 2021-09-21 云境商务智能研究院南京有限公司 一种音频指纹库生成方法及装置
CN113220934B (zh) * 2021-06-01 2023-06-23 平安科技(深圳)有限公司 歌手识别模型的训练及歌手识别方法、装置和相关设备
CN113495974B (zh) * 2021-07-23 2024-02-02 山东新一代信息产业技术研究院有限公司 一种声音分类处理方法、装置、设备及介质
CN113707159B (zh) * 2021-08-02 2024-05-03 南昌大学 一种基于Mel语图与深度学习的电网涉鸟故障鸟种识别方法
CN113724712B (zh) * 2021-08-10 2023-05-30 南京信息工程大学 一种基于多特征融合和组合模型的鸟声识别方法
CN114974267A (zh) * 2022-04-15 2022-08-30 昆山杜克大学 鸟语分类模型训练方法及鸟语识别方法
CN114743554A (zh) * 2022-06-09 2022-07-12 武汉工商学院 基于物联网的智能家居交互方法及装置
CN115188387B (zh) * 2022-07-12 2023-04-07 四川农业大学 一种有效的海洋哺乳动物声音自动检测和分类方法
CN116206612B (zh) * 2023-03-02 2024-07-02 中国科学院半导体研究所 鸟类声音识别方法、模型训练方法、装置、电子设备
CN117809662B (zh) * 2024-02-28 2024-05-10 江西师范大学 一种基于鸟类特征识别的栖息地环境调节方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976564A (zh) * 2010-10-15 2011-02-16 中国林业科学研究院森林生态环境与保护研究所 昆虫声音识别方法
CN107369451A (zh) * 2017-07-18 2017-11-21 北京市计算中心 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
CN108899037A (zh) * 2018-07-05 2018-11-27 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN109155132A (zh) * 2016-03-21 2019-01-04 亚马逊技术公司 说话者验证方法和系统
CN109410917A (zh) * 2018-09-26 2019-03-01 河海大学常州校区 基于改进型胶囊网络的语音数据分类方法
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050049876A1 (en) * 2003-08-28 2005-03-03 Ian Agranat Method and apparatus for automatically identifying animal species from their vocalizations

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976564A (zh) * 2010-10-15 2011-02-16 中国林业科学研究院森林生态环境与保护研究所 昆虫声音识别方法
CN109155132A (zh) * 2016-03-21 2019-01-04 亚马逊技术公司 说话者验证方法和系统
CN107369451A (zh) * 2017-07-18 2017-11-21 北京市计算中心 一种辅助鸟类繁殖期的物候研究的鸟类声音识别方法
CN108899037A (zh) * 2018-07-05 2018-11-27 平安科技(深圳)有限公司 动物声纹特征提取方法、装置及电子设备
CN109410917A (zh) * 2018-09-26 2019-03-01 河海大学常州校区 基于改进型胶囊网络的语音数据分类方法
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Deep Neural Network Approach to the LifeCLEF 2014 Bird task;Hendrik Vincent koops等;《CEUR Workshop Proceedings》;20141231;第634-642页 *

Also Published As

Publication number Publication date
CN110120224A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110120224B (zh) 鸟声识别模型的构建方法、装置、计算机设备及存储介质
CN108877775B (zh) 语音数据处理方法、装置、计算机设备及存储介质
WO2020177380A1 (zh) 基于短文本的声纹检测方法、装置、设备及存储介质
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
CN109087648B (zh) 柜台语音监控方法、装置、计算机设备及存储介质
EP3619657B1 (en) Selecting speech features for building models for detecting medical conditions
CN112562691B (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
CN109243491B (zh) 在频谱上对语音进行情绪识别的方法、系统及存储介质
CN108198547B (zh) 语音端点检测方法、装置、计算机设备和存储介质
Demircan et al. Feature extraction from speech data for emotion recognition
WO2019232829A1 (zh) 声纹识别方法、装置、计算机设备及存储介质
CN111048071B (zh) 语音数据处理方法、装置、计算机设备和存储介质
CN108597496A (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN107610707A (zh) 一种声纹识别方法及装置
CN111247584A (zh) 语音转换方法、系统、装置及存储介质
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN111582020A (zh) 信号处理方法、装置、计算机设备及存储介质
CN114333865B (zh) 一种模型训练以及音色转换方法、装置、设备及介质
CN114373452A (zh) 基于深度学习的嗓音异常识别和评价的方法及系统
CN111785302B (zh) 说话人分离方法、装置及电子设备
CN111179910A (zh) 语速识别方法和装置、服务器、计算机可读存储介质
CN110648655A (zh) 一种语音识别方法、装置、系统及存储介质
Nirjon et al. sMFCC: exploiting sparseness in speech for fast acoustic feature extraction on mobile devices--a feasibility study
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
CN113327616A (zh) 声纹识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant