CN113066481B

CN113066481B - 一种基于混合特征选择和gwo-kelm模型的鸟声识别方法

Info

Publication number: CN113066481B
Application number: CN202110347388.2A
Authority: CN
Inventors: 周晓彦; 李大鹏; 徐华南
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2023-05-09
Anticipated expiration: 2041-03-31
Also published as: CN113066481A

Abstract

本发明涉及一种基于混合特征选择和GWO‑KELM模型的鸟声识别方法，属于鸟鸣声分类识别技术领域。该方法包括如下步骤：首先从鸟声数据提取ComParE特征集，接着通过基于KELM和Fscore的混合特征选择算法对ComParE特征集进行特征选择得到适用于鸟声识别的特征子集，然后将特征子集在KELM模型十折交叉验证正确率作为灰狼优化算法的适应度，迭代寻找最优的正则化参数c和核函数参数

，最后在该参数上对KELM模型进行训练，得到识别结果。本发明使用大规模声学特征集ComParE，减弱了噪声对于识别结果的影响；通过基于KELM和Fscore的混合特征选择算法，降低了特征集的冗余度，提高了识别准确率；通过GWO优化KELM分类模型，找到最佳参数充分发挥KELM模型的性能。

Description

一种基于混合特征选择和GWO-KELM模型的鸟声识别方法

技术领域

本发明涉及一种基于混合特征选择和GWO-KELM(灰狼算法优化核极限学习机)模型的鸟声识别方法，属于鸟鸣声分类识别技术领域。

背景技术

鸟类作为生态系统的重要组成部分，对鸟类活动和分布的监测为了解一个地区的生物多样性变化和气候变化提供了重要的依据，因此对鸟类的监测与分类识别具有重要意义。鸟鸣声和形态特征是区分鸟类的重要特征，也是目前鸟类物种识别普遍采用的方式，在实际监测中鸟鸣声相较于形态特征更加便于监测。通过对鸟类物种的识别，对保护珍稀野生鸟类物种也具有重要意义。

目前国内外对于鸟声识别的研究并不是很多，通过调查研究发现目前国内外的鸟声识别技术主要通过改进鸟声提取算法，提取各种鸟声特征然后使用机器学习算法构建分类器进行识别。然而目前方法所提取的鸟声特征较为单一，识别效果易受环境噪声影响。

发明内容

为了解决鸟声识别算法中提取特征单一、分类准确率低等问题，本发明提出了一种基于混合特征选择和GWO-KELM模型的鸟声识别方法，将广泛用于语音情感识别中的大规模声学特征集ComParE(Computational Paralinguistics ChallengE，InterSpeech挑战赛公开的特征集)引入鸟声识别领域，采用灰狼优化算法(GWO)寻找极限学习机(KELM)模型参数的全局最优值，提高准确率。

本发明为解决其技术问题采用如下技术方案：

一种基于混合特征选择和GWO-KELM模型的鸟声识别方法，包括如下步骤：

(1)从鸟声数据提取ComParE特征集；

(2)接着通过基于KELM和Fscore的混合特征选择算法对ComParE特征集进行特征选择得到适用于鸟声识别的特征子集；

(3)将特征子集在KELM模型十折交叉验证正确率作为灰狼优化算法的适应度，迭代寻找最优的正则化参数c和核函数参数σ；

(4)最后在该参数上对KELM模型进行训练，得到识别结果。

步骤(1)的具体过程如下

首先对鸟声数据统一为单声道、采样率44.1KHz、32位的WAV格式音频，使用OpenSmile提取ComParE特征集。

本发明的有益效果如下：

使用大规模声学特征集ComParE，减弱了噪声对于识别结果的影响；通过基于KELM和Fscore(特征的F分数，一个特征评价标准)的混合特征选择算法，降低了特征集的冗余度，提高了识别准确率；通过GWO优化KELM分类模型，找到最佳参数充分发挥KELM模型的性能。

附图说明

图1为鸟声识别系统框图。

图2为GWO-KELM迭代结果图。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

本发明提供一种基于混合特征选择和GWO-KELM模型的鸟声识别方法，其方法流程如图1所示，首先对鸟声数据统一为单声道、采样率44.1KHz、32位的WAV格式音频，使用OpenSmile(open Speech and Music Interpretation by Large Space Extraction，一个开源的音频特征提取软件)提取ComParE特征集，为选择合适特征，接着通过基于KELM和Fscore的混合特征选择算法对ComParE特征集进行特征选择得到最终适用于鸟声识别的特征子集(惩罚参数λ设置为0.001)，然后将特征子集在KELM模型十折交叉验证正确率作为灰狼优化算法的适应度，迭代寻找最优的正则化参数c和核函数参数σ。最后在该参数上对KELM模型进行训练，得到识别结果。

实验采用的鸟声数据来自德国柏林自然科学博物馆，该数据库由专业的鸟类学家在自然野外环境中采集的鸟鸣声数据组成。为了保证足够的训练、测试数据，本文实验删除了数据库中鸟声音频文件数量低于25个的鸟类，采用了60种鸟类共计4468个鸟声音频文件。

本研究实验以MATALB 2018b为平台，十折交叉验证的方式为实验协议，采用准确率和F1-score(F1分数，一种分类模型的评价标准)作为分类模型评价指标。共分为三个部分实验。首先对比ComParE特征集在不同分类器上的表现，其次对比选择后的特征子集与原始ComParE特征集在不同分类器上的识别精度，最后对比采用网格搜索方式和GWO随机搜索方式所得参数在60类鸟声识别的结果。

表1：ComParE特征集在分类器上的表现

表1为ComParE特征集在不同分类器上的表现，从中可以看出KELM分类器在10类、30类和60类鸟声识别十折交叉验证正确率为96.67％、93.77％和93.23％，相对于其他分类器均具有更高的正确率，结果表明KELM算法相较于其他算法在高维度鸟声特征分类识别中更具优势，体现了KELM分类器的优越性。

表2：60类鸟声特征选择前后的特征集在分类器上的识别结果

表2为60类鸟声特征选择前后的特征集在分类器上的识别结果，从中可以看出选择后的特征子集在四个分类器上的识别正确率和F1-score均高于原始特征集，提升幅度在2％-5％左右。结果表明，基于Fscore和KELM特征选择算法减少了冗余特征，所选特征集具有良好的分类能力。

图2为GWO-KELM模型迭代结果示意图，经过100次的迭代最终选择的最优参数c和σ分别为316、6112。

表3：不同寻参方式下60类鸟声识别实验结果

表3为不同寻参方式下60类鸟声识别实验结果，从中可以看出特征子集在采用网格搜索方式的KELM模型(c＝2048，σ＝4096)上的识别正确率为93.89％，在GWO-KELM(c＝316，σ＝6112)识别正确率为94.45％，相比与网格搜索的方式提高0.5％左右，表明了GWO-KELM模型的有效性。

Claims

1.一种基于混合特征选择和GWO-KELM模型的鸟声识别方法，其特征在于，包括如下步骤：

(1)从鸟声数据提取ComParE特征集；

(4)最后在该参数上对KELM模型进行训练，得到识别结果。

2.根据权利要求1所述的一种基于混合特征选择和GWO-KELM模型的鸟声识别方法，其特征在于，步骤(1)的具体过程如下