CN113724712B - 一种基于多特征融合和组合模型的鸟声识别方法 - Google Patents

一种基于多特征融合和组合模型的鸟声识别方法 Download PDF

Info

Publication number
CN113724712B
CN113724712B CN202110912736.6A CN202110912736A CN113724712B CN 113724712 B CN113724712 B CN 113724712B CN 202110912736 A CN202110912736 A CN 202110912736A CN 113724712 B CN113724712 B CN 113724712B
Authority
CN
China
Prior art keywords
bird
feature
fusion
training
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110912736.6A
Other languages
English (en)
Other versions
CN113724712A (zh
Inventor
周晓彦
欧昀
李大鹏
刘文强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202110912736.6A priority Critical patent/CN113724712B/zh
Publication of CN113724712A publication Critical patent/CN113724712A/zh
Application granted granted Critical
Publication of CN113724712B publication Critical patent/CN113724712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于多特征融合和组合模型的鸟声识别方法,包括:对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗;提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,分别归一化后进行纵向拼接形成融合特征;绘制STFT语谱图;将融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,训练完成后加载上述三个模型的最优参数;将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果。本发明可提高不同鸟声之间特征的差异性,并且提高了鸟声识别准确率。

Description

一种基于多特征融合和组合模型的鸟声识别方法
技术领域
本发明涉及一种基于多特征融合和组合模型的鸟声识别方法,属于鸟鸣声分类识别的技术领域。
背景技术
鸟类是自然生态系统的重要组成部分,由于其对所生活的生态环境的变化十分敏感且易被观察和研究,因此对鸟类的监测和识别有助于对生态环境的监测,对生态环境保护工作的开展具有重大意义。鸟类监测是国内外研究的一个重要领域,传统的鸟类监测主要依赖于鸟类的形态特征差异完成,而在听觉上鸟鸣声中也包含着独有的特征,并且具有大范围性、稳定性、低干扰等优点,因此对鸟声识别的研究显得尤为重要。
鸟声识别的一般过程主要是预处理、特征参数提取、分类方法选择三个方面。目前国内外在鸟声识别技术上的改进主要是在于特征参数提取上,然后使用深度学习的方法构建神经网络进行训练完成鸟声识别。然而现有方法所提取的鸟声特征多基于人声领域的特征且较为单一,识别效果易受外界环境噪声影响。为解决此问题提出一种基于多特征融合和组合模型的鸟声识别方法。
发明内容
为解决现有的鸟声识别方法中提取特征单一,所代表的鸟声特性不足的问题,本发明提供一种基于多特征融合和组合模型的鸟声识别方法,使用融合特征替代了单一的特征,使不同鸟声之间的特征差异更大,更易被区分,且使用三个神经网络模型组合识别,提高了鸟声识别准确率。
本发明具体采用以下技术方案解决上述技术问题:
一种基于多特征融合和组合模型的鸟声识别方法,包括以下步骤:
步骤1、对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗;
步骤2、对预处理后的原始鸟声音频提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,并对四种特征分别归一化后进行纵向拼接形成一个融合特征;以及,对预处理后的原始鸟声音频经短时傅里叶变换STFT的结果绘制STFT语谱图;
步骤3、将形成的一个融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,训练完成后加载上述三个模型的最优参数;
步骤4、将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果。
进一步地,作为本发明的一种优选技术方案:所述步骤1中对原始鸟声音频采用一阶FIR高通数字滤波器进行预加重。
进一步地,作为本发明的一种优选技术方案:所述步骤1中对原始鸟声音频采用汉明窗进行分帧加窗。
进一步地,作为本发明的一种优选技术方案:所述步骤2中对预处理后的原始鸟声音频经短时傅里叶变换后的结果再进行梅尔滤波,得到梅尔滤波后的能量系数特征,并通过对梅尔滤波后的结果取对数再进行离散余弦变换DCT得到梅尔倒谱系数特征。
进一步地,作为本发明的一种优选技术方案:所述步骤3中采用单层神经元个数为512的ANN模型。
本发明采用上述技术方案,能产生如下技术效果:
1.本发明的方法,提出将梅尔倒谱系数(MFCC)、梅尔滤波后的能量系数、短时平均过零率和短时频谱质心四个特征参数进行融合形成一个融合特征,利用融合特征提高不同鸟声之间特征的差异性,使用融合特征替代了单一的特征,使不同鸟声之间的特征差异更大,更易被区分,有效地解决了单一特征所表征的鸟声特征不足的问题。此外,利用短时傅里叶变换(STFT)的结果数据绘制STFT语谱图,将语谱图也作为一种识别特征,增加了特征范围。
2.使用基于Inception模块搭建的自搭建卷积神经网络模型,降低了训练参数量。
3.为了提高识别准确率,提出了一种由三个神经网络组合而成的组合模型判决方法,首先选用深度学习方法中经典的卷积神经网络CNN作为网络模型,分别将融合特征和STFT语谱图作为构建的两个CNN模型的输入进行训练,将两种特征经两个模型的输出结果的概率数组进行组合得到特征数组并作为人工神经网络ANN模型的输入,其输出即识别结果。本方法基于融合特征和STFT语谱图特征的不同,使用这两个不同特征分别通过两个CNN模型的输出作为ANN模型的输入进行训练,即共使用三个神经网络模型组合的方法提高了鸟声识别准确率。
附图说明
图1为本发明基于多特征融合和组合模型的鸟声识别方法的原理示意图。
图2为本发明方法中的特征融合过程示意图。
图3为本发明方法中搭建的基于Inception模块的CNN模型示意图。
图4为本发明方法中Inception模块结构示意图。
图5为本发明方法中MFCC系数训练结果图。
图6为本发明方法中融合特征训练结果图。
图7为本发明方法中STFT语谱图训练结果图。
图8为本发明方法中ANN模型的训练结果图。
具体实施方式
下面结合说明书附图对本发明的实施方式进行描述。
如图1所示,本发明涉及一种基于多特征融合和组合模型的鸟声识别方法,该方法主要包括以下步骤:
步骤1、对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗,具体如下:
首先,以22.5KHz的频率读取原始鸟声音频,对读取的原始鸟声音频采用一阶FIR高通数字滤波器进行预加重,预加重系数为0.9665。然后采用汉明窗进行分帧加窗,帧长为23ms,帧移为11.5ms,共可分得173帧鸟声数据。
步骤2、对预处理后的原始鸟声音频提取鸟声的梅尔倒谱系数(MFCC)、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,并对四种特征分别归一化后进行纵向拼接形成一个融合特征;以及,对预处理后的原始鸟声音频经短时傅里叶变换STFT的结果绘制STFT语谱图,具体如下:
首先,设置等面积梅尔滤波器组,梅尔滤波器数量选为128,并对预处理后的原始鸟声音频经短时傅里叶变换STFT得到一个二维数组的结果,其第一维是幅值和相位信息,第二维是帧数,根据该短时傅里叶变换STFT后的结果进行梅尔滤波,以此结果得到梅尔滤波后的能量系数数据大小为[128,173]的二维数组,再对其取对数后进行离散余弦变换DCT得到MFCC系数并取前40位,即得大小为[40,173]的二维数组。
然后,分别提取短时过零率、短时频谱质心特征,大小均为[1,173]的二维数组数据。
最后,由于四组二维数据的量级不同,因此对四组二维数据分别进行归一化,使其分布在[-1,1]之间,最后进行纵向拼接,形成大小为[170,173,1]的三维数组,如图2所示,形成融合特征。
同时,为了提高鸟声识别的准确率,通过上述短时傅里叶变换(STFT)后得到的一个二维数组结果绘制了STFT语谱图,保存为图像数据并归一化,大小为[256,256,3]的三维数组。
步骤3、将形成的一个融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,训练完成后将两个模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,并加载上述三个模型的最优参数;具体如下:
如图3所示,首先,搭建两个独立的基于Inception模块的CNN模型。首先,输入的特征经过64个3×3的卷积核,步长为1,然后经过4个Inception模块,卷积核和池化核数量分别为16和32,最后经过全局平均池化后完成20分类的输出。其中Inception模块结构如图4所示,共有4个分支,每个分支有不同尺寸的卷积核和池化核,每个卷积核和池化核的步长由调用时参数决定,最后将4个分支通过聚合操作在深度上聚合。
然后,将融合特征和STFT语谱图分别放入上述两个基于Inception模块的CNN模型进行训练,训练完成后将各模型输出的概率数组进行拼接,形成一个特征数组;
将上述形成的一个特征数组作为单层神经元个数为512的ANN模型的输入进行训练,并在训练完成后加载两个基于Inception模块的CNN模型和ANN模型三个模型的最优参数,以得到最优参数后的两个基于Inception模块的CNN模型和ANN模型,即本方法共使用三个神经网络模型组合的方法提高鸟声识别准确率。
步骤4、最后,将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果,具体如下:
将上述获得最优参数后的三个模型搭建成组合模型,然后将待测的任一鸟声音频输入获得最优参数的三个模型搭建成的组合模型,根据上述方法的步骤,依次通过提取得到鸟声音频的一个融合特征和绘制STFT语谱图,并将其分别输入两个加载了最优参数的CNN模型,由该两个CNN模型分别输出一个概率数组,然后将这两个概率数组进行拼接形成一个特征数组,并将该特征数组作为加载了最优参数的ANN模型的输入,最终由ANN模型输出得到鸟声识别分类结果。
本实施例中,实验采用的鸟声音频是由百鸟数据科技(Birdsdata.com)有限责任公司发布的Birdsdata(公开部分),该数据集均是在自然场景中设计和收集,共收集了中国常见20种鸟类鸣声合集音频文件14311个,实验时将鸟声音频随机打乱并划分为训练集、验证集和测试集,比例为8600:2855:2856,约6:2:2。
本实施例的实验以PyCharm为软件平台,编写Python代码在Tensorflow框架下完成,准确率为评价指标。共分为两个部分实验:1.对比单一的MFCC特征、融合特征和STFT语谱图特征分别在VGG16和基于Inception模块的自搭建模型两种CNN模型下训练时的表现;2.利用测试集鸟声数据测试单一模型和组合模型的识别准确率。
如图5所示,为单一的MFCC经100次迭代的训练结果示意图。如图6所示,为融合特征经100次迭代的训练结果示意图。如图7所示,为STFT语谱图经100次迭代的训练结果示意图。如图8所示,为本发明的将两个CNN模型的输出作为ANN模型输入经20次迭代的训练结果示意图。
以及,下述表1为三种不同特征训练后验证集在两种CNN模型下加载最优参数后的表现,从表1中可以看出,本发明采用的融合特征和STFT语谱图特征的表现均优于单一的MFCC特征,因此融合特征有效地解决了单一特征所表征的鸟声特征不足的问题。通过图5、图6、图7也可看出,MFCC和融合特征在训练达到70次左右时,训练集准确率达到1,随后验证集交叉熵损失开始增加,在此前MFCC训练时波动更大,最优参数下识别准确率较低。此外,基于Inception模块自搭建的模型准确率在训练参数量远远小于VGG16的情况下,本发明的融合特征和STFT语谱图训练后CNN模型的识别准确率均高于VGG16网络,具有更好的应用前景。
下述表2为测试集鸟声数据在组合模型下与单一模型下识别结果对比,从表2中可以看出,对于完全陌生的测试集鸟声数据,本发明采用的融合特征和STFT语谱图的识别结果均十分良好,因此具有良好的泛化能力,另外,本发明使用三个模型作为组合模型的结果可以有效地提升了鸟声识别的准确率,降低了交叉熵损失。
表1:三种特征的验证集在两种CNN模型上的表现
Figure BDA0003204432710000061
表2:测试集在单一模型和组合模型下鸟声识别结果
Figure BDA0003204432710000062
综上,本发明的方法通过提取四个特征参数形成融合特征,提高不同鸟声之间特征的差异性,使用融合特征替代了单一的特征,使不同鸟声之间的特征差异更大,更易被区分,有效地解决了单一特征所表征的鸟声特征不足的问题。并且,本发明基于融合特征和STFT语谱图特征的不同,使用这两个不同特征分别通过两个CNN模型的输出作为ANN模型的输入进行训练,即共使用三个神经网络模型组合的方法有效提高了鸟声识别准确率。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种基于多特征融合和组合模型的鸟声识别方法,其特征在于,包括以下步骤:
步骤1、对读取的原始鸟声音频进行预处理,包括预加重和分帧加窗;
步骤2、对预处理后的原始鸟声音频提取鸟声的梅尔倒谱系数、梅尔滤波后的能量系数、短时过零率和短时频谱质心四种特征,并对四种特征分别归一化后进行纵向拼接形成一个融合特征;以及,对预处理后的原始鸟声音频经短时傅里叶变换STFT的结果绘制STFT语谱图;
步骤3、将形成的一个融合特征和绘制的STFT语谱图分别输入构建的两个基于Inception模块的CNN模型进行训练,包括:首先,搭建两个独立的基于Inception模块的CNN模型,其包括64个3×3的卷积核、4个Inception模块、全局平均池化模块;将一个融合特征输入一个基于Inception模块的CNN模型中,依次经过64个3×3的卷积核、4个Inception模块、全局平均池化模块后完成概率数组输出;并且,将绘制的STFT语谱图输入另一个基于Inception模块的CNN模型中,依次经过64个3×3的卷积核、4个Inception模块、全局平均池化模块后完成概率数组输出;
训练完成后将两个基于Inception模块的CNN模型输出的概率数组进行拼接形成一个特征数组,并将该特征数组作为ANN模型的输入进行训练,训练完成后加载两个基于Inception模块的CNN模型和ANN模型的最优参数;
步骤4、将待测的任一鸟声音频输入加载最优参数后的三个模型,得到鸟声识别分类结果。
2.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤1中对原始鸟声音频采用一阶FIR高通数字滤波器进行预加重。
3.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤1中对原始鸟声音频采用汉明窗进行分帧加窗。
4.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤2中对预处理后的原始鸟声音频经短时傅里叶变换后的结果再进行梅尔滤波,得到梅尔滤波后的能量系数特征,并通过对梅尔滤波后的结果取对数再进行离散余弦变换DCT得到梅尔倒谱系数特征。
5.根据权利要求1所述基于多特征融合和组合模型的鸟声识别方法,其特征在于:所述步骤3中采用单层神经元个数为512的ANN模型。
CN202110912736.6A 2021-08-10 2021-08-10 一种基于多特征融合和组合模型的鸟声识别方法 Active CN113724712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110912736.6A CN113724712B (zh) 2021-08-10 2021-08-10 一种基于多特征融合和组合模型的鸟声识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110912736.6A CN113724712B (zh) 2021-08-10 2021-08-10 一种基于多特征融合和组合模型的鸟声识别方法

Publications (2)

Publication Number Publication Date
CN113724712A CN113724712A (zh) 2021-11-30
CN113724712B true CN113724712B (zh) 2023-05-30

Family

ID=78675320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110912736.6A Active CN113724712B (zh) 2021-08-10 2021-08-10 一种基于多特征融合和组合模型的鸟声识别方法

Country Status (1)

Country Link
CN (1) CN113724712B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066481B (zh) * 2021-03-31 2023-05-09 南京信息工程大学 一种基于混合特征选择和gwo-kelm模型的鸟声识别方法
CN114446326B (zh) * 2022-01-27 2023-07-04 四川大学华西医院 基于时频分辨率的吞咽障碍患者识别方法及设备
CN114863938A (zh) * 2022-05-24 2022-08-05 西南石油大学 一种基于注意力残差和特征融合的鸟语识别方法和系统
CN117592014A (zh) * 2024-01-19 2024-02-23 北京科技大学 基于多模态融合的大五人格特征预测方法
CN117854540B (zh) * 2024-03-08 2024-05-17 中国人民解放军军事科学院战略评估咨询中心 基于神经网络和多维特征融合的水声目标识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120224A (zh) * 2019-05-10 2019-08-13 平安科技(深圳)有限公司 鸟声识别模型的构建方法、装置、计算机设备及存储介质
CN110246504A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 鸟类声音识别方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718223B (zh) * 2019-10-28 2021-02-12 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120224A (zh) * 2019-05-10 2019-08-13 平安科技(深圳)有限公司 鸟声识别模型的构建方法、装置、计算机设备及存储介质
CN110246504A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 鸟类声音识别方法、装置、计算机设备和存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Koh C Y."Bird Sound Classification Using Convolutional Neural Networks".《CLEF (Working Notes)》.2019,全文. *
徐淑正 ; 孙忆南 ; 皇甫丽英 ; 方玮骐 ; .基于MFCC和时频图等多种特征的综合鸟声识别分类器设计.实验室研究与探索.2018,(09),全文. *
秦楚雄 ; 张连海 ; .低资源语音识别中融合多流特征的卷积神经网络声学建模方法.计算机应用.2016,(09),全文. *
谢将剑 ; 李文彬 ; 张军国 ; 丁长青 ; .基于Chirplet语图特征和深度学习的鸟类物种识别方法.北京林业大学学报.2018,(03),全文. *
谢将剑 ; 杨俊 ; 邢照亮 ; 张卓 ; 陈新 ; .多特征融合的鸟类物种识别方法.应用声学.(02),全文. *

Also Published As

Publication number Publication date
CN113724712A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN113724712B (zh) 一种基于多特征融合和组合模型的鸟声识别方法
Lee et al. Sample-level deep convolutional neural networks for music auto-tagging using raw waveforms
CN108369813B (zh) 特定声音识别方法、设备和存储介质
CN109767785A (zh) 基于卷积神经网络的环境噪声识别分类方法
CN109378010A (zh) 神经网络模型的训练方法、语音去噪方法及装置
CN109524020A (zh) 一种语音增强处理方法
CN115762533A (zh) 一种鸟鸣声分类识别方法及装置
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN115762536A (zh) 一种基于桥接Transformer的小样本优化鸟声识别方法
CN107039036A (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
CN109584904B (zh) 应用于基础音乐视唱教育的视唱音频唱名识别建模方法
CN114863937B (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
CN110728991B (zh) 一种改进的录音设备识别算法
CN109872720A (zh) 一种基于卷积神经网络对不同场景鲁棒的重录语音检测算法
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN109448746A (zh) 语音降噪方法及装置
CN102982351A (zh) 基于bp神经网络的瓷绝缘子振动声学检测数据分类方法
CN110349593A (zh) 基于波形时频域分析的语义和声纹双重识别的方法及系统
CN113191178A (zh) 一种基于听觉感知特征深度学习的水声目标识别方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN115545086B (zh) 一种可迁移的特征自动选取声学诊断方法及系统
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
CN115472168B (zh) 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备
CN116386589A (zh) 一种基于智能手机加速度传感器的深度学习语音重建方法
CN110223706B (zh) 基于注意力驱动循环卷积网络的环境自适应语音增强算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant