CN114372513A - 一种鸟声识别模型的训练方法、分类方法、设备及介质 - Google Patents
一种鸟声识别模型的训练方法、分类方法、设备及介质 Download PDFInfo
- Publication number
- CN114372513A CN114372513A CN202111564495.7A CN202111564495A CN114372513A CN 114372513 A CN114372513 A CN 114372513A CN 202111564495 A CN202111564495 A CN 202111564495A CN 114372513 A CN114372513 A CN 114372513A
- Authority
- CN
- China
- Prior art keywords
- data
- bird sound
- processing
- recognition model
- spectrogram
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种鸟声识别模型的训练方法、分类方法、设备及介质,本发明通过获取鸟声数据集、噪声数据集并选取多个鸟声切片数据,对鸟声切片数据进行第一随机数据增强处理并进行变换增强处理得到声谱图数据,根据声谱图数据对识别模型进行训练得到鸟声识别模型;第一随机数据增强处理包括对鸟声切片数据进行噪声数据集的叠加处理、对鸟声切片数据进行时间区间位移变换处理、对鸟声切片数据进行第一音高变换处理以及对鸟声切片数据进行第一音量变换处理中的至少一种处理,将至少一种处理的结果进行组合处理,基于第一随机数据增强处理结果生成的训练数据丰富性增强,使得识别模型的泛化能力增强,本发明可广泛应用于深度学习领域。
Description
技术领域
本发明涉及深度学习领域,尤其是一种鸟声识别模型的训练方法、分类方法、设备及介质。
背景技术
世界上有近10000种鸟类,相关数据表明,部分鸟类种群数量呈现下降趋势,人类对鸟类的保护已经到了刻不容缓的地步,包括中国在内的世界各国都明确将保护鸟类以法规的形式确定下来。鸟种丰富度和鸟类活动活跃度往往能推断出这个地区的环境质量的好坏,因此如何监测鸟类的方式是保护鸟类的重要一步。目前已经有许多方法来监测鸟类,如传统的人工样点法、样线法以及人工布置红外相机监测等,传统的人工监测方法存在着效率低、覆盖面窄的缺陷,布置的红外相机还受拍摄角度以及供电的影响。相比于用照片或视频来观察鸟喙或者鸟的羽毛等形态特征,鸟鸣声所蕴含的生物学信息特征也有很大的差异,这种差异可以帮助区分不同物种的鸟。因此,基于鸣声的鸟类监测是一种新兴方法,我们可以通过提取和分析鸟鸣声所蕴含的信息来鉴别鸟的物种,统计生态区的鸟类分布特点,从而帮助了解生物多样性,进而监控生态系统的平衡。
在深度学习鸟声识别领域中,在构建训练集时通常将鸟声数据集的各个音频文件进行固定长度的切片标准化,然后将标准化的切片数据直接用于神经网络的训练,限制了切片的数据丰富性,导致数据不够泛化,模型容易过拟合,模型的泛化能力差。
发明内容
有鉴于此,为了解决上述技术问题,本发明的目的是提供一种提高数据丰富性以及模型泛化能力的鸟声识别模型的训练方法、分类方法、设备及介质。
本发明实施例采用的技术方案是:
一种鸟声识别模型的训练方法,包括:
获取鸟声数据集和噪声数据集,并从所述鸟声数据集中选取多个鸟声切片数据;
对所述鸟声切片数据进行第一随机数据增强处理;所述第一随机数据增强处理包括对所述鸟声切片数据进行所述噪声数据集的叠加处理、对所述鸟声切片数据进行时间区间位移变换处理、对所述鸟声切片数据进行第一音高变换处理以及对所述鸟声切片数据进行第一音量变换处理中的至少一种处理,以及将至少一种处理的结果进行组合处理;
对第一随机数据增强处理结果进行变换增强处理,得到声谱图数据;
根据所述声谱图数据对识别模型进行训练,得到鸟声识别模型。
进一步,所述对所述鸟声切片数据进行第一随机数据增强处理,包括:
从所述噪声数据集中选取与所述鸟声切片数据长度相同的噪声切片数据,根据预设信噪比范围将所述噪声切片数据与所述鸟声切片数据进行叠加处理,得到叠加处理结果;
根据预设时间间隔将所述鸟声切片数据进行划分,得到多个划分数据,并根据第一预设规则将所述划分数据进行拼接,得到时间区间位移变换处理结果;
根据预设音调倍数范围对所述鸟声切片数据进行第一音高变换处理,得到第一音高变换处理结果;
获取所述鸟声切片数据的幅度值,根据所述幅度值与幅度增益因子的乘积对所述鸟声切片数据进行第一音量变换处理,得到第一音量变换处理结果;
将所述叠加处理结果、时间区间位移变换处理结果、第一音高变换处理结果以及第一音量变换处理结果中的至少一个根据第二预设规则进行组合处理。
进一步,所述对第一随机数据增强处理结果进行变换增强处理,得到声谱图数据,包括:
对第一随机数据增强处理结果进行傅里叶变换处理以及梅尔滤波处理,得到低频率分辨率的鸟声声谱图;
对所述低频率分辨率的鸟声声谱图进行第二随机数据增强处理;
对第二随机数据增强处理结果进行归一化处理,得到所述声谱图数据。
进一步,所述对第一随机数据增强处理结果进行傅里叶变换处理以及梅尔滤波处理,得到低频率分辨率的鸟声声谱图,包括:
对所述第一随机数据增强处理结果进行数据分帧,得到多帧音频数据;
对所述音频数据进行加窗操作,对加窗操作结果进行快速傅里叶变换,并根据快速傅里叶变换结果的平方确定每一帧所述音频数据的功率谱;
根据每一所述功率谱以及梅尔滤波器组,确定每一帧所述音频数据的梅尔对数功率谱;
将所述梅尔对数功率谱按时间顺序进行拼接,得到所述低频率分辨率的鸟声声谱图。
进一步,所述对所述鸟声声谱图进行第二随机数据增强处理,包括:
对所述声谱图数据进行时频通道掩蔽处理,具体地:根据预设第一百分比从所述声谱图数据的时间以及频率中确定第一范围数据,将所述第一范围数据置零;
对所述声谱图数据进行随机区域置零处理,具体地:根据预设第二百分比从所述声谱图数据的频率中确定第二范围数据,将所述第二范围数据置零;
根据时频通道掩蔽处理结果以及随机区域置零处理结果进行组合。
进一步,所述识别模型包括卷积模块、全局平均池化层以及全连接层,所述鸟声数据集包括真实标签;所述根据所述声谱图数据对识别模型进行训练,得到鸟声识别模型,包括:
将所述声谱图数据输入所述卷积模块进行卷积处理,得到嵌入特征图;
将嵌入特征图输入所述全局平均池化层进行全局池化,得到固定维度的嵌入特征向量;
将所述嵌入特征向量输入至所述全连接层进行分类,得到分类信息;
根据分类信息、所述真实标签以及损失函数,通过余弦退火学习率策略进行所述识别模型的训练更新,得到鸟声识别模型。
本发明实施例还提供一种分类方法,包括:
获取测试数据;
根据所述测试数据以及鸟声识别模型,得到分类结果;
所述鸟声识别模型通过如权利要求1-6任一项所述鸟声识别模型的训练方法得到。
进一步,所述根据测试数据以及鸟声识别模型,得到分类结果,包括:
对所述测试数据进行切片处理,得到测试切片数据;
对所述测试切片数据进行第三随机数据增强处理,具体地:对所述测试切片数据进行时域反转、第二音高变换处理以及第二音量变换处理,根据时域反转结果、第二音高变换处理结果以及第二音量变换处理结果进行组合;
将第三随机数据增强处理结果输入至所述鸟声识别模型,得到输出结果;所述输出结果包括多个概率,每一所述概率对应一类别;
将所述概率由大至小排列,将排名靠前的预设个数的概率对应的类别作为分类结果。
本发明实施例还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现所述方法。
本发明实施例还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现所述方法。
本发明的有益效果是:通过获取鸟声数据集和噪声数据集,并从鸟声数据集中选取多个鸟声切片数据,对鸟声切片数据进行第一随机数据增强处理,对第一随机数据增强处理结果进行变换增强处理,得到声谱图数据,根据声谱图数据对识别模型进行训练,得到鸟声识别模型;其中,第一随机数据增强处理包括对鸟声切片数据进行噪声数据集的叠加处理、对鸟声切片数据进行时间区间位移变换处理、对鸟声切片数据进行第一音高变换处理以及对鸟声切片数据进行第一音量变换处理中的至少一种处理,以及将至少一种处理的结果进行组合处理,基于第一随机数据增强处理结果生成的训练数据丰富性增强,使得后续进行识别模型训练时增强识别模型的泛化能力。
附图说明
图1为本发明鸟声识别模型的训练方法的步骤流程示意图;
图2为本发明具体实施例叠加处理结果的示意图;
图3为本发明具体实施例时间区间位移变换处理结果的示意图;
图4为本发明具体实施例第一音高变换处理结果的示意图;
图5为本发明具体实施例第一音量变换处理结果的示意图;
图6为本发明具体实施例鸟声声谱图的示意图;
图7为本发明具体实施例时频通道掩蔽处理结果的示意图;
图8为本发明具体实施例随机区域置零处理结果的示意图;
图9为本发明具体实施例时频通道掩蔽处理结果以及随机区域置零处理结果的组合结果示意图;
图10为本发明分类方法的步骤流程示意图;
图11为本发明具体实施例的分类结果评价图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
如图1所示,本发明实施例提供一种鸟声识别模型的训练方法,包括步骤S100-S400:
S100、获取鸟声数据集和噪声数据集,并从鸟声数据集中选取多个鸟声切片数据。
可选地,鸟声数据集包括鸟声类别的数量NS,各个类别的鸟声数据总时长Ksi,i=1,2,…NS,鸟声数据集内的每个类别数据总时长Ksi不低于1200秒,每个类别的数据可以包括若干个音频文件,各个类别中音频文件的时长大于等于10秒,各个音频文件中的鸟声时长大于等于音频文件总时长的50%,音频文件中连续的非鸟声段小于等于整个音频文件总时长的百分之25%。需要说明的是,鸟声数据集中包括真实标签。
可选地,噪声数据集中噪声类别数为Nn,每个类别的噪声数据的总时长为Kni,i=1,2,…Nn,噪声数据集内的每个类别数据总时长Kni不低于1200秒,每个类别的数据可以包括若干个音频文件/数据,每个类别中的音频文件/数据的时长大于等于10秒。其中,噪声的类型可以是自然噪声(风声,雨声,流水声等)、城市噪声(交通噪声、建筑施工噪声、社会生活噪声)、机器噪声(白噪声,粉红噪声,气泡噪声)等,由实际声环境中可能存在的噪声类别确定。需要说明的是,鸟声数据集和噪声数据集经过数据格式统一化处理,例如:音频格式:wav,采样频率:32000Hz,音频通道数:单通道。如表1所示为本发明实施例中鸟声数据集和噪声数据集的构建细节,在构建的鸟声数据集和噪声数据集中按照采用分层抽样策略将数据集划分为训练集、验证集、测试集,比例为6:2:2,其他实施例中可以为其他比例。
表1
本发明实施例中,从鸟声数据集中采用随机采样的,固定长度的,随机位置的切片策略,实现随机采样数据增广,具体为随机采样出批量大小为N(例如32)的音频数据集1,然后在音频数据集1中对每个音频文件分别在时间维度上随机地复制出一段时间长度为预设长度(包括但不限于5秒)鸟声切片数据,得到多个鸟声切片数据。需要说明的是,随机采样指的是在鸟声数据集里面随机挑选一批音频文件数据;固定长度指的是在随机挑选的各个音频文件内裁剪出来的音频切片长度是固定的;随机位置指的是,在各个音频文件内裁剪的时间区间是随机的。
S200、对鸟声切片数据进行第一随机数据增强处理。
可选地,第一随机数据增强处理包括对鸟声切片数据进行噪声数据的叠加处理、对鸟声切片数据进行时间区间位移变换处理、对鸟声切片数据进行第一音高变换处理以及对鸟声切片数据进行第一音量变换处理,并根据概率将上述四种处理的结果进行组合处理。需要说明的是,其他实施例中可以包括对鸟声切片数据进行噪声数据的叠加处理、对鸟声切片数据进行时间区间位移变换处理、对鸟声切片数据进行第一音高变换处理以及对鸟声切片数据进行第一音量变换处理中的至少一种处理,以及将至少一种处理的结果进行组合处理,不作具体限定。
本发明实施例中,步骤S200包括步骤S210-S250,其中步骤S210-S240之间不限定执行顺序,步骤S210对应叠加处理,步骤S220对应时间区间位移变换处理,步骤S230对应第一音高变换处理,步骤S240对应第一音量变换处理,具体地:
S210、从噪声数据集中选取与鸟声切片数据长度相同的噪声切片数据,根据预设信噪比范围将噪声切片数据与鸟声切片数据进行叠加处理,得到叠加处理结果。
如图2所示,可选地,从噪声数据集中随机抽取一定数量(例如一个或多个)噪声文件,在此噪声文件内随机裁剪出与鸟声切片数据长度相同的噪声切片数据,按照预设信噪比范围(min_dB,max_dB)将噪声切片数据与鸟声切片数据进行叠加处理。例如,预设信噪比范围(min_dB,max_dB)包括但不限于min_dB=3,max_dB=30。
S220、根据预设时间间隔将鸟声切片数据进行划分,得到多个划分数据,并根据第一预设规则将划分数据进行拼接,得到时间区间位移变换处理结果。
如图3所示,可选地,在时间轴上根据预设时间间隔等距离地将鸟声切片数据进行划分,得到多个划分数据,包括但不限于小于等于3个划分数据,然后根据第一预设规则将划分数据进行拼接,得到时间区间位移变换处理结果。需要说明的是,第一预设规则可以为随机顺序的拼接,也可以为按照实现设定的顺序进行拼接。
S230、根据预设音调倍数范围对鸟声切片数据进行第一音高变换处理,得到第一音高变换处理结果。
如图4所示,可选地,按照预设音调倍数范围(min_multiple,max_multiple)对鸟声切片数据进行第一音高变换处理,以对鸟声切片数据进行随机倍数范围的音调调节,得到第一音高变换处理结果。需要说明的是,预设音调倍数范围可以根据鸟声数据集内鸟声频率具体设置,使得鸟声切片数据进行第一音高变换处理后不超过采样频率的一半,并且变化幅度不超过原始音频音高的1.5倍。
S240、获取鸟声切片数据的幅度值,根据幅度值与幅度增益因子的乘积对鸟声切片数据进行第一音量变换处理,得到第一音量变换处理结果。
如图5所示,可选地,获取鸟声切片数据所有采样点的幅度值,将幅度值乘以设定的幅度增益因子a对鸟声切片数据进行第一音量变换处理,以对鸟声切片数据进行随机幅度范围的音量调节,得到第一音量变换处理结果。其中,a=10(b/20),b=(min_dB,max_dB),最大、最小分贝门限根据需要事先设置,例如min_dB=-12,max_dB=12。
S250、将叠加处理结果、时间区间位移变换处理结果、第一音高变换处理结果以及第一音量变换处理结果中的至少一个根据第二预设规则进行组合处理。
本发明实施例中,可以为叠加处理结果、时间区间位移变换处理结果、第一音高变换处理结果以及第一音量变换处理结果分别设置预设第一概率P1,例如P1=0.5或者0.25等,然后根据预设第一概率P1对叠加处理结果、时间区间位移变换处理结果、第一音高变换处理结果以及第一音量变换处理结果进行随机组合,得到组合处理结果,即第一随机数据增强处理结果。例如,假设叠加处理结果为1,时间区间位移变换处理结果为2,、第一音高变换处理结果为3,第一音量变换处理结果为4,第一随机数据增强处理结果可能为:1、12、13、14、2、23、24、3、34、123、124、234、4、1234等。
本发明实施例中,在有限的鸟声数据集内采用第一随机数据增强处理进行数据处理,后续基于第一随机数据增强处理结果生成用于识别模型的训练数据进行训练,该联合随机训练策略可以增加有限的鸟声数据集的数据丰富性,并提高识别模型的泛化能力。
随机切片配合随机数据增强组合的联合随机训练策略方法,联合随机训练策略可以大大增加有限鸟声数据集的数据丰富性,大大提高模型的泛化能力。
S300、对第一随机数据增强处理结果进行变换增强处理,得到声谱图数据。
可选地,步骤S300包括步骤S310-S330:
S310、对第一随机数据增强处理结果进行傅里叶变换处理以及梅尔滤波处理,得到低频率分辨率的鸟声声谱图。
可选地,步骤S310包括步骤S3101-S3104:
S3101、对第一随机数据增强处理结果进行数据分帧,得到多帧音频数据。
本发明实施例中,对第一随机时域数据中的各个音频的数据进行数据分帧,具体地:将各个音频的数据在时间方向上进行等距离分帧,包括但不限于帧长为32ms(采样点长度为1024),帧移为16ms(采样点长度为512),帧叠为16ms(采样点长度为512),得到多帧音频数据。其中,不足一帧的数据对其进行补零到一帧的长度。
S3102、对音频数据进行加窗操作,对加窗操作结果进行快速傅里叶变换,并根据快速傅里叶变换结果的平方确定每一帧音频数据的功率谱。
本发明实施例中,对步骤S3101中的音频数据的每一帧通过汉明窗进行加窗操作,减少因分帧而发生的频谱泄露的现象。可选地,对加窗操作结果中的每一帧进行1024点的快速傅里叶变换,得到快速傅里叶变换结果,即每一帧的频谱,然后对每一帧的频谱取模值的平方获得每一帧音频数据的功率谱。
S3103、根据每一功率谱以及梅尔滤波器组,确定每一帧音频数据的梅尔对数功率谱。
可选地,将每一功率谱通过预设个数(包括但不限于16)的三角带通滤波器构成的梅尔滤波器组,然后将梅尔滤波器组的输出取对数得到每一帧音频数据的梅尔对数功率谱,从而实现功率谱的频点降维的目的。
S3104、将梅尔对数功率谱按时间顺序进行拼接,得到低频率分辨率的鸟声声谱图。
如图6所示,可选地,将各帧音频数据的梅尔对数功率谱在时间方向上按时间顺序进行拼接,得到低频率分辨率的鸟声声谱图。
本发明实施例中,通过压缩鸟声声谱图的频率维度,得到相对较低的频率分辨率的声谱图作为识别模型的前端特征,可以使识别模型针对野外现场复杂声学场景实现快速的鸟声识别,计算复杂度低,鸟声识别准确率高,从而缩短模型训练时长、提高模型推理速度、节约模型前项传播运算内存开销。
S320、对低频率分辨率的鸟声声谱图进行第二随机数据增强处理。
可选地,步骤S320包括步骤S3201-3203:
S3201、对声谱图数据进行时频通道掩蔽处理,具体地:根据预设第一百分比从声谱图数据的时间以及频率中确定第一范围数据,将第一范围数据置零。
如图7所示,本发明实施例中,在各个声谱图数据的时间维度以及频率维度随机选取一定范围的数据,例如随机选取连续的预设第一百分比(包括但不限于10%-25%)的行和列(即时间维度以及频率维度),从而确定第一范围数据(若为小数则向上取整),对选取的第一范围数据全部置零。需要说明的是,时频通道掩蔽处理可重复若干随机次数(例如1次-3次)。
S3202、对声谱图数据进行随机区域置零处理,具体地:根据预设第二百分比从声谱图数据的频率中确定第二范围数据,将第二范围数据置零。
如图8所示,本发明实施例中,根据声谱图数据中频率维度的预设第二百分比(例如10%-25%)确定矩形区域的边长(若为小数则向上取整),位于矩形区域内的数据为第二范围数据,随机生成矩形区域以对第二范围数据全部置零。需要说明的是,随机区域置零处理可重复若干随机次数(例如1次-3次)。
S3203、根据时频通道掩蔽处理结果以及随机区域置零处理结果进行组合。
如图9所示,可选地,可以为时频通道掩蔽处理结果以及随机区域置零处理结果分别设置对应的预设第二概率P2(包括但不限于0.5),然后根据预设第二概率P2对时频通道掩蔽处理结果以及随机区域置零处理结果进行组合。
S330、对第二随机数据增强处理结果进行归一化处理,得到声谱图数据。
可选地,归一化处理的公式为:
其中,Xi为第二随机数据增强处理结果中的各个数据,i=1,2…,N;Xi_max为Xi中的最大值,Xi_min为Xi中的最小值,Xi*为声谱图数据。
S400、根据声谱图数据对识别模型进行训练,得到鸟声识别模型。
本发明实施例中,识别模型包括卷积模块、全局平均池化层以及全连接层。可选地,识别模型为卷积神经网络及其改进的变体。
可选地,步骤S400包括步骤S410-S440:
S410、将声谱图数据输入卷积模块进行卷积处理,得到嵌入特征图。
本发明实施例中,卷积模块中设置有若干卷积层,通过卷积模块对输入的声谱图数据记性卷积处理,从而得到嵌入特征图。
S420、将嵌入特征图输入全局平均池化层进行全局池化,得到固定维度的嵌入特征向量。
本发明实施例中,在卷积模块中最后的卷积层后面加入全局平均池化层,通过全局平均池化层对嵌入特征图进行全局池化,以将嵌入特征图的所有通道进行全局池化,把嵌入特征在所有通道维度上进行维度归一化,得到固定维度的嵌入特征向量。
本发明实施例中,引入全局平均池化层使得不同长度数据经过卷积层后获得的嵌入特征通过全局平均池化层进行维度标准化,因此使得识别模型可以预测不同长度的鸟声音频信号,适应预测不同长度的鸟声测试数据。
S430、将嵌入特征向量输入至全连接层进行分类,得到分类信息。
本发明实施例中,将固定维度的嵌入特征向量输入至全连接层进行分类,从而确定分类信息。需要说明的是,分类信息包括鸟声数据集中的鸟声类别,全连接层的节点个数与鸟声数据集中的鸟声类别的数量相同。
S440、根据分类信息、真实标签以及损失函数,通过余弦退火学习率策略进行识别模型的训练更新,得到鸟声识别模型。
本发明实施例中,识别模型的损失函数采用二元交叉熵,并将数据标签例如分类信息以及真实标签进行标签平滑操作,例如平滑系数为0.05。可选地,本发明实施例中的训练优化器采用随机批量梯度下降优化器(Batch_SGD),设置初始学习率为initial_lr;初始学习率可以根据实际需要进行调整。而学习率策略选用余弦退火学习率策略,使得识别模型在训练过程中可以尽可能低跳过局部最优点,能在最后可以收敛到一个不错的位置,其中策略具体如下式所示:
其中,new_lr是各个epoch训练开始时得到的新的学习率,initial_lr是初始的学习率,eta_min表示最小学习率,T_max表示cos的周期的1/4,例如可设置lnitial_lr=1e-3,eta_min=1e-5,T_max=20。
需要说明的是,训练epoch次数以及训练batchsize个数(例如N)可以根据需要调整,训练一个epoch即训练一次训练集,识别模型按照每一个batch的数据来更新一次模型。一个epoch有多个batch,一个epoch内模型更新的次数=整个训练数据集音频大小/batchsize大小,而batchsize内的数据为声谱图数据。本发明实施例中,根据分类信息、真实标签以及损失函数,通过余弦退火学习率策略进行若干epoch次数的识别模型的训练更新,从而更新识别模型的模型参数,当损失函数的损失值下降转态趋于稳定或者小于预设损失阈值时,完成联合随机训练策略的训练,得到鸟声识别模型。
如图10所示,可选地,本发明实施例中还提供一种分类方法,包括步骤S500-S600:
S500、获取测试数据。
可选地,测试数据可以为实际应用中收集的包含鸟声的测试数据,例如上述步骤S100中的测试集。
S600、根据测试数据以及鸟声识别模型,得到分类结果。
其中,鸟声识别模型为通过上述鸟声识别模型的训练方法所得到。
可选地,步骤S600包括步骤S610-S640:
S610、对测试数据进行切片处理,得到测试切片数据。
可选地,把测试数据的各个文件各自进行若干次(例如10次)固定长度(例如5s)的随机切片,获得增强后的测试切片数据。
S620、对测试切片数据进行第三随机数据增强处理,具体地:对测试切片数据进行时域反转、第二音高变换处理以及第二音量变换处理,根据时域反转结果、第二音高变换处理结果以及第二音量变换处理结果进行组合。
可选地,第二音高变换处理的处理原理类似步骤S230,第二音量变换处理的处理原理类似步骤S240,时域反转的处理原理类似步骤S240,例如可以为时域反转结果、第二音高变换处理结果以及第二音量变换处理结果分别设置预设第三概率P3,根据预设第三概率P3进行时域反转结果、第二音高变换处理结果以及第二音量变换处理结果的组合。
S630、将第三随机数据增强处理结果输入至鸟声识别模型,得到输出结果。
具体地,输出结果包括多个概率,每一概率对应一类别。
S640、将概率由大至小排列,将排名靠前的预设个数的概率对应的类别作为分类结果。
需要说明的是,预设个数可以根据需要设定,本发明实施例以3为例。具体地,将概率由大至小排列,将排名靠前的3个(即排名前三)的概率对应的类别作为预测得到的分类结果。
如图11所示,为使利用包括50种鸟声类别的鸟声数据集输入鸟声识别模型得到的分类结果评价图。其中,图11的纵坐标数值为识别率,mel_bin为梅尔滤波器组内三角滤波器的个数,hop_size为帧移大小,accuarcy为准确率,weighted_f1为评价指标。
本发明实施例还提供了一种电子设备,电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的鸟声识别模型的训练方法或者分类方法。本发明实施例的电子设备包括但不限于手机、平板电脑、电脑及车载电脑等任意智能终端。
上述方法实施例中的内容均适用于本设备实施例中,本设备实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本发明实施例还提供一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的鸟声识别模型的训练方法或者分类方法。
本发明实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述实施例的鸟声识别模型的训练方法或者分类方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种鸟声识别模型的训练方法,其特征在于,包括:
获取鸟声数据集和噪声数据集,并从所述鸟声数据集中选取多个鸟声切片数据;
对所述鸟声切片数据进行第一随机数据增强处理;所述第一随机数据增强处理包括对所述鸟声切片数据进行所述噪声数据集的叠加处理、对所述鸟声切片数据进行时间区间位移变换处理、对所述鸟声切片数据进行第一音高变换处理以及对所述鸟声切片数据进行第一音量变换处理中的至少一种处理,以及将至少一种处理的结果进行组合处理;
对第一随机数据增强处理结果进行变换增强处理,得到声谱图数据;
根据所述声谱图数据对识别模型进行训练,得到鸟声识别模型。
2.根据权利要求1所述鸟声识别模型的训练方法,其特征在于:所述对所述鸟声切片数据进行第一随机数据增强处理,包括:
从所述噪声数据集中选取与所述鸟声切片数据长度相同的噪声切片数据,根据预设信噪比范围将所述噪声切片数据与所述鸟声切片数据进行叠加处理,得到叠加处理结果;
根据预设时间间隔将所述鸟声切片数据进行划分,得到多个划分数据,并根据第一预设规则将所述划分数据进行拼接,得到时间区间位移变换处理结果;
根据预设音调倍数范围对所述鸟声切片数据进行第一音高变换处理,得到第一音高变换处理结果;
获取所述鸟声切片数据的幅度值,根据所述幅度值与幅度增益因子的乘积对所述鸟声切片数据进行第一音量变换处理,得到第一音量变换处理结果;
将所述叠加处理结果、时间区间位移变换处理结果、第一音高变换处理结果以及第一音量变换处理结果中的至少一个根据第二预设规则进行组合处理。
3.根据权利要求1或2所述鸟声识别模型的训练方法,其特征在于:所述对第一随机数据增强处理结果进行变换增强处理,得到声谱图数据,包括:
对第一随机数据增强处理结果进行傅里叶变换处理以及梅尔滤波处理,得到低频率分辨率的鸟声声谱图;
对所述低频率分辨率的鸟声声谱图进行第二随机数据增强处理;
对第二随机数据增强处理结果进行归一化处理,得到所述声谱图数据。
4.根据权利要求3所述鸟声识别模型的训练方法,其特征在于:所述对第一随机数据增强处理结果进行傅里叶变换处理以及梅尔滤波处理,得到低频率分辨率的鸟声声谱图,包括:
对所述第一随机数据增强处理结果进行数据分帧,得到多帧音频数据;
对所述音频数据进行加窗操作,对加窗操作结果进行快速傅里叶变换,并根据快速傅里叶变换结果的平方确定每一帧所述音频数据的功率谱;
根据每一所述功率谱以及梅尔滤波器组,确定每一帧所述音频数据的梅尔对数功率谱;
将所述梅尔对数功率谱按时间顺序进行拼接,得到所述低频率分辨率的鸟声声谱图。
5.根据权利要求3所述鸟声识别模型的训练方法,其特征在于:所述对所述鸟声声谱图进行第二随机数据增强处理,包括:
对所述声谱图数据进行时频通道掩蔽处理,具体地:根据预设第一百分比从所述声谱图数据的时间以及频率中确定第一范围数据,将所述第一范围数据置零;
对所述声谱图数据进行随机区域置零处理,具体地:根据预设第二百分比从所述声谱图数据的频率中确定第二范围数据,将所述第二范围数据置零;
根据时频通道掩蔽处理结果以及随机区域置零处理结果进行组合。
6.根据权利要求1所述鸟声识别模型的训练方法,其特征在于:所述识别模型包括卷积模块、全局平均池化层以及全连接层,所述鸟声数据集包括真实标签;所述根据所述声谱图数据对识别模型进行训练,得到鸟声识别模型,包括:
将所述声谱图数据输入所述卷积模块进行卷积处理,得到嵌入特征图;
将嵌入特征图输入所述全局平均池化层进行全局池化,得到固定维度的嵌入特征向量;
将所述嵌入特征向量输入至所述全连接层进行分类,得到分类信息;
根据分类信息、所述真实标签以及损失函数,通过余弦退火学习率策略进行所述识别模型的训练更新,得到鸟声识别模型。
7.一种分类方法,其特征在于,包括:
获取测试数据;
根据所述测试数据以及鸟声识别模型,得到分类结果;
所述鸟声识别模型通过如权利要求1-6任一项所述鸟声识别模型的训练方法得到。
8.根据权利要求7所述分类方法,其特征在于:所述根据测试数据以及鸟声识别模型,得到分类结果,包括:
对所述测试数据进行切片处理,得到测试切片数据;
对所述测试切片数据进行第三随机数据增强处理,具体地:对所述测试切片数据进行时域反转、第二音高变换处理以及第二音量变换处理,根据时域反转结果、第二音高变换处理结果以及第二音量变换处理结果进行组合;
将第三随机数据增强处理结果输入至所述鸟声识别模型,得到输出结果;所述输出结果包括多个概率,每一所述概率对应一类别;
将所述概率由大至小排列,将排名靠前的预设个数的概率对应的类别作为分类结果。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-8中任一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-8中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564495.7A CN114372513A (zh) | 2021-12-20 | 2021-12-20 | 一种鸟声识别模型的训练方法、分类方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111564495.7A CN114372513A (zh) | 2021-12-20 | 2021-12-20 | 一种鸟声识别模型的训练方法、分类方法、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114372513A true CN114372513A (zh) | 2022-04-19 |
Family
ID=81140826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111564495.7A Pending CN114372513A (zh) | 2021-12-20 | 2021-12-20 | 一种鸟声识别模型的训练方法、分类方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372513A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115662464A (zh) * | 2022-12-29 | 2023-01-31 | 广州市云景信息科技有限公司 | 一种智能识别环境噪声的方法及系统 |
-
2021
- 2021-12-20 CN CN202111564495.7A patent/CN114372513A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115662464A (zh) * | 2022-12-29 | 2023-01-31 | 广州市云景信息科技有限公司 | 一种智能识别环境噪声的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
KR20130133858A (ko) | 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출 | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
CN109817227B (zh) | 一种养殖场的异常声音监测方法和系统 | |
CN117095694B (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
CN110853648A (zh) | 一种不良语音检测方法、装置、电子设备及存储介质 | |
Ting Yuan et al. | Frog sound identification system for frog species recognition | |
CN111696580A (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
Janney et al. | Temporal regularity increases with repertoire complexity in the Australian pied butcherbird's song | |
CN115048984A (zh) | 一种基于深度学习的母猪发情声识别方法 | |
CN113724734A (zh) | 声音事件的检测方法、装置、存储介质及电子装置 | |
CN114863905A (zh) | 语音类别获取方法、装置、电子设备和存储介质 | |
CN109300470A (zh) | 混音分离方法和混音分离装置 | |
CN114372513A (zh) | 一种鸟声识别模型的训练方法、分类方法、设备及介质 | |
CN111402918B (zh) | 一种音频处理方法、装置、设备及存储介质 | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
Xie et al. | Acoustic feature extraction using perceptual wavelet packet decomposition for frog call classification | |
CN111145726A (zh) | 基于深度学习的声场景分类方法、系统、装置及存储介质 | |
Bai et al. | CIAIC-BAD system for DCASE2018 challenge task 3 | |
CN114420099A (zh) | 一种多声源融合场景的人声检测方法及装置 | |
CN111768764B (zh) | 语音数据处理方法、装置、电子设备及介质 | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
CN115206347A (zh) | 肠鸣音的识别方法、装置、存储介质及计算机设备 | |
CN113936667A (zh) | 一种鸟鸣声识别模型训练方法、识别方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |