CN116612769A

CN116612769A - 一种野生动物声音识别方法和装置

Info

Publication number: CN116612769A
Application number: CN202310903052.9A
Authority: CN
Inventors: 马国学; 冯占林
Original assignee: Zhicheng Xinke Beijing Technology Co ltd
Current assignee: Zhicheng Xinke Beijing Technology Co ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-08-18
Anticipated expiration: 2043-07-21
Also published as: CN116612769B

Abstract

本发明提供一种野生动物声音识别方法和装置，通过将不同发声机制的音频特征提取识别划分为不同子任务，每个子任务对应一个多标签分类任务，用于同一发声机制的多种类型动物的声音识别，以解决难以兼顾众多不同类型声音的音频特征的学习和提取的问题，具体通过通用特征提取子模型对输入的音频信号进行全局特征提取，得到该音频信号中尽可能完整、全面的音频特征，利用多个多标签分类子模型对通用特征提取子模型提取的音频特征进行针对性筛选，从全面却欠缺针对性的音频特征中提炼出更具代表性、针对当前多标签分类子模型对应的多种动物类型更具区分性的音频特征，从而提升各个多标签分类子模型的识别精度，进而提升多动物混杂的声音识别精度。

Description

一种野生动物声音识别方法和装置

技术领域

本发明涉及音频识别技术领域，尤其涉及一种野生动物声音识别方法和装置。

背景技术

在野外环境中布设的声音传感器会同时采集很多不同类型动物的声音，需要准确辨认其中拾取了哪些野生动物的声音，以监测当地的生态环境。然而，不同类型的动物的发声器官不同、发声机制也不同，例如，哺乳动物靠声带震动发声、鸟类靠鸣管的空气震动发声、多数昆虫靠震动翅膀发声，而发声器官及发声机制的不同也表示需要进行针对性的音频特征提取才能有效地识别出相应类型动物的声音。

可惜的是，同一个模型很难在训练中兼顾众多不同类型声音的音频特征的学习和提取，导致模型的识别效果不平衡，对于部分类型动物的声音识别效果佳好，但部分类型动物的声音识别效果较差。而利用多种模型分别对不同类型的动物进行声音识别的方式训练成本过大，更重要的是，针对多种动物声音混杂的音频，多个模型各自独立进行动物声音识别会受到其他动物声音的干扰，尤其是在各类动物的声强、音高相差不大的情况下，会导致每个模型的识别效果均较差。

发明内容

本发明提供一种野生动物声音识别方法和装置，用以解决现有技术中动物声音识别精度欠佳的缺陷。

本发明提供一种野生动物声音识别方法，包括：

基于通用特征提取子模型中的多个连续卷积模块，对野生动物音频进行特征提取，得到所述多个连续卷积模块输出的通用特征矩阵；

基于任一多标签分类子模型中的多个连续注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，得到注意力特征矩阵，并将所述注意力特征矩阵与前一注意力模块输出的任务相关特征矩阵融合，得到当前注意力模块输出的任务相关特征矩阵；

基于所述任一多标签分类子模型中的多标签分类层，对最后一个注意力模块输出的任务相关特征矩阵进行多标签分类，得到所述任一多标签分类子模型输出的分类结果；其中，多个多标签分类子模型分别对应的多个分类标签是将多个目标动物类型按照发声机制进行分组后得到的，不同发声机制的目标动物类型的分类标签对应不同多标签分类子模型；

基于多个多标签分类子模型输出的分类结果，确定所述野生动物音频中包含的动物类型。

根据本发明提供的一种野生动物声音识别方法，所述通用特征提取子模型中包含多个连续的卷积模块组，所述多个连续的卷积模块组与任一多标签分类子模型中的多个连续的注意力模块按顺序一一对应；其中，任一卷积模块组包含一个第一卷积模块、一个第二卷积模块、一个第三卷积模块与一个池化模块，所述第一卷积模块、所述第二卷积模块与所述第三卷积模块中卷积层使用的卷积核尺寸互不相同。

根据本发明提供的一种野生动物声音识别方法，所述基于通用特征提取子模型中的多个连续卷积模块，对野生动物音频进行特征提取，得到所述多个连续卷积模块输出的通用特征矩阵，具体包括：

基于当前卷积模块组中的目标卷积模块，对上一卷积模块组中的目标卷积模块输出的通用特征矩阵以及上一卷积模块组中的池化模块输出的融合特征矩阵进行特征提取，得到当前卷积模块组中的目标卷积模块输出的通用特征矩阵；其中，所述目标卷积模块为第一卷积模块、第二卷积模块或第三卷积模块；首个卷积模块组中的目标卷积模块的输入为所述野生动物音频的频谱图；

基于当前卷积模块组中的池化模块对当前卷积模块组中的第一卷积模块、第二卷积模块和第三卷积模块输出的通用特征矩阵进行池化处理，得到当前卷积模块组中的池化模块输出的融合特征矩阵。

根据本发明提供的一种野生动物声音识别方法，所述基于任一多标签分类子模型中的多个连续注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，得到注意力特征矩阵，具体包括：

基于所述当前注意力模块分别对所述当前注意力模块对应的卷积模块组中的第一卷积模块、第二卷积模块和第三卷积模块输出的通用特征矩阵进行注意力变换，得到第一注意力特征矩阵、第二注意力特征矩阵和第三注意力特征矩阵；

将所述第一注意力特征矩阵、所述第二注意力特征矩阵和所述第三注意力特征矩阵融合，得到所述注意力特征矩阵。

根据本发明提供的一种野生动物声音识别方法，所述第一卷积模块、所述第二卷积模块和所述第三卷积模块中包含串联的卷积核尺寸相同的第一卷积层和第二卷积层。

根据本发明提供的一种野生动物声音识别方法，所述基于所述当前注意力模块分别对所述当前注意力模块对应的卷积模块组中的第一卷积模块、第二卷积模块和第三卷积模块输出的通用特征矩阵进行注意力变换，得到第一注意力特征矩阵、第二注意力特征矩阵和第三注意力特征矩阵，具体包括：

获取所述当前注意力模块对应的卷积模块组中目标卷积模块的第一卷积层输出的初始特征矩阵和第二卷积层输出的通用特征矩阵；

对所述目标卷积模块的第一卷积层输出的初始特征矩阵分别进行时频注意力变换和通道注意力变换，得到时频注意力掩膜和通道注意力掩膜；

分别基于所述时频注意力掩膜和所述通道注意力掩膜对所述目标卷积模块的第二卷积层输出的通用特征矩阵进行筛选，得到时频注意力矩阵和通道注意力矩阵；

对所述时频注意力矩阵和所述通道注意力矩阵进行融合，得到第一注意力特征矩阵、第二注意力特征矩阵或第三注意力特征矩阵。

根据本发明提供的一种野生动物声音识别方法，多个多标签分类子模型分别对应的多个分类标签是基于如下步骤确定的：

基于音频特征提取器对各个目标动物类型对应的多个样本独立音频进行特征提取，得到各个目标动物类型对应的多个样本独立音频的音频特征；

基于任一目标动物类型对应的多个样本独立音频的音频特征，确定所述任一目标动物类型的音频原型特征；

基于各个目标动物类型的发声机制将各个目标动物类型的分类标签划分为多个初始标签组后，针对任一初始标签组，基于所述任一初始标签组中各个目标动物类型的音频原型特征之间的差异对所述任一初始标签组进行细分，得到所述任一初始标签组对应的若干个细分标签组；其中，音频原型特征之间的差异小于预设阈值的目标动物类型的分类标签被划分至不同的细分标签组；

将各个细分标签组分配至各个多标签分类子模型。

根据本发明提供的一种野生动物声音识别方法，所述通用特征提取子模型与多个多标签分类子模型构成声音识别模型，所述声音识别模型是基于样本混杂音频以及所述样本混杂音频中包含的动物类型的分类标签训练得到的；所述样本混杂音频是从各个目标动物类型中随机选取多个目标动物类型作为待混杂动物类型，并分别从各个待混杂动物类型对应的多个样本独立音频中随机选取一个样本独立音频进行混合得到的。

根据本发明提供的一种野生动物声音识别方法，任一多标签分类子模型中的多标签分类层是基于双向递归神经网络构建的。

本发明还提供一种野生动物声音识别装置，包括：

通用特征提取单元，用于基于通用特征提取子模型中的多个连续卷积模块，对野生动物音频进行特征提取，得到所述多个连续卷积模块输出的通用特征矩阵；

任务相关特征提取单元，用于基于任一多标签分类子模型中的多个连续注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，得到注意力特征矩阵，并将所述注意力特征矩阵与前一注意力模块输出的任务相关特征矩阵融合，得到当前注意力模块输出的任务相关特征矩阵；

多标签分类单元，用于基于所述任一多标签分类子模型中的多标签分类层，对最后一个注意力模块输出的任务相关特征矩阵进行多标签分类，得到所述任一多标签分类子模型输出的分类结果；其中，多个多标签分类子模型分别对应的多个分类标签是将多个目标动物类型按照发声机制进行分组后得到的，不同发声机制的目标动物类型的分类标签对应不同多标签分类子模型；

动物类型确定单元，用于基于多个多标签分类子模型输出的分类结果，确定所述野生动物音频中包含的动物类型。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述野生动物声音识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述野生动物声音识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述野生动物声音识别方法。

本发明提供的一种野生动物声音识别方法和装置，通过将不同发声机制的音频特征提取和识别划分为不同的子任务，且每个子任务对应一个多标签分类任务，用于同一发声机制的多种类型动物的声音识别，以解决难以兼顾众多不同类型声音的音频特征的学习和提取的问题，具体通过通用特征提取子模型用于对输入的音频信号进行全局的特征提取，得到该音频信号中尽可能完整、全面的音频特征，然后利用多个多标签分类子模型分别对通用特征提取子模型提取的音频特征进行针对性地筛选，从全面却欠缺针对性的音频特征中提炼出更具代表性、针对当前多标签分类子模型对应的多种动物类型更具区分性的音频特征，从而提升各个多标签分类子模型的识别精度，进而提升多动物混杂的声音识别精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种野生动物声音识别方法的流程示意图；

图2是本发明提供的声音识别模型的结构示意图；

图3是本发明提供的通用特征提取方法的流程示意图；

图4是本发明提供的注意力变换方法的流程示意图之一；

图5是本发明提供的注意力变换方法的流程示意图之二；

图6是本发明提供的分类标签划分方法的流程示意图；

图7是本发明提供的一种野生动物声音识别装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的一种野生动物声音识别方法的流程示意图，如图1所示，该方法包括：

步骤110，基于通用特征提取子模型中的多个连续卷积模块，对野生动物音频进行特征提取，得到所述多个连续卷积模块输出的通用特征矩阵；

步骤120，基于任一多标签分类子模型中的多个连续注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，得到注意力特征矩阵，并将所述注意力特征矩阵与前一注意力模块输出的任务相关特征矩阵融合，得到当前注意力模块输出的任务相关特征矩阵；

步骤130，基于所述任一多标签分类子模型中的多标签分类层，对最后一个注意力模块输出的任务相关特征矩阵进行多标签分类，得到所述任一多标签分类子模型输出的分类结果；其中，多个多标签分类子模型分别对应的多个分类标签是将多个目标动物类型按照发声机制进行分组后得到的，不同发声机制的目标动物类型的分类标签对应不同多标签分类子模型；

步骤140，基于多个多标签分类子模型输出的分类结果，确定所述野生动物音频中包含的动物类型。

具体地，获取从野外环境中采集的野生动物音频，该野生动物音频中可能混杂有多种不同动物的声音信号，而本发明实施例的目的即在于从这些混杂的声音信号中辨认出是否存在关注的目标动物类型。其中，目标动物类型可以预先设置得到。由于输入的野生动物音频中混杂了数量未知的多种动物声音，为了从中辨认出各种动物类型，通常的做法是将该任务视为一个多标签分类任务，即将该音频输入模型进行计算，得到该音频对应每一种预置动物类型的概率，将概率较高的动物类型作为识别结果输出。然而，不同类型的动物的发声器官不同、发声机制也不同，发声器官及发声机制的不同也表示需要进行针对性的音频特征提取才能有效地识别出相应类型动物的声音，而一个统一的多标签分类模型很难在训练中兼顾众多不同类型声音的音频特征的学习和提取，多标签分类模型作为一个硬参数共享网络将被迫学习任务共享的可泛化表示，但缺乏针对每个特定的发声机制的特征学习能力，导致识别效果较差。

因此，为了实现上述目的，本发明实施例构建了一个多任务多标签的复合模型——声音识别模型，用于处理混杂了数量未知的多种动物声音信号的输入音频的声音识别问题。通过将不同发声机制的音频特征提取和识别划分为不同的子任务，且每个子任务对应一个多标签分类任务，用于同一发声机制的多种类型动物的声音识别。由于一个多标签分类任务针对的对象是同一发声机制的动物类型，其音频特征的学习相对更容易更精确，因此可以有效解决上述难以兼顾众多不同类型声音的音频特征的学习和提取的问题，提升多动物混杂的声音识别精度。为了训练上述声音识别模型，可以获取大量的样本混杂音频以及该样本混杂音频中包含的动物类型的分类标签，对声音识别模型的参数进行迭代调整。其中，样本混杂音频是从各个目标动物类型中随机选取多个目标动物类型作为待混杂动物类型，并从各个待混杂动物类型对应的多个样本独立音频中随机选取一个样本独立音频进行混合得到的，样本独立音频中仅包含一种动物的声音。

其中，该声音识别模型中包括通用特征提取子模型和多个多标签分类子模型，而通用特征提取子模型分别与每个多标签分类子模型相连。通用特征提取子模型用于对输入的音频信号进行全局的特征提取，得到该音频信号中尽可能完整、全面的音频特征。任一多标签分类子模型则负责处理划分得到的其中一个多标签分类任务，以从野生动物音频中辨认出其分类标签对应的动物类型。多个多标签分类子模型分别对应的多个分类标签可以通过将多个目标动物类型按照发声机制进行分组后得到，不同发声机制的目标动物类型的分类标签对应不同多标签分类子模型。多个多标签分类子模型可以分别对通用特征提取子模型提取的音频特征进行针对性地筛选，从全面却欠缺针对性的音频特征中提炼出更具代表性、针对当前多标签分类子模型对应的多种动物类型更具区分性的音频特征，从而提升各个多标签分类子模型的识别精度。

具体而言，通用特征提取子模型中包含有多个连续的卷积模块，用于对野生动物音频进行特征提取，得到每个卷积模块输出的通用特征矩阵。各个卷积模块输出的通用特征矩阵中包含有该野生动物音频中的音频特征。其中，由于野生动物音频中混杂有多种暂且未知的动物的声音信号，因此通用特征提取子模型会利用多个的卷积模块对该音频进行特征提取，从而尽可能全面地获取其中包含的各类动物的音频特征。随后，各个卷积模型输出的通用特征矩阵将被输入至各个多标签分类子模型中。此处，各个多标签分类子模型的结构是相同的，如图2所示，其中包含多个连续的注意力模块以及一个多标签分类层，此外，为了提升特征筛选的精度从而提升多标签分类任务的准确性，可以将各个注意力模块与通用特征提取子模型的卷积模块一一对应连接，以实现多层注意力变换。任一多标签分类子模型中的多标签分类层可以基于双向递归神经网络构建，从而利用双向递归神经网络对于音频上下文特征的提取能力进一步提升多标签分类的准确性。

针对任一多标签分类子模型，基于该多标签分类子模型中的当前注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，从中筛选出与当前分类任务更相关、对于该子模型的分类标签对应的动物类型更具区分性的特征，得到注意力特征矩阵，随后，将该注意力特征矩阵与前一注意力模块输出的任务相关特征矩阵融合，得到当前注意力模块输出的任务相关特征矩阵。需要什么的是，对于首个注意力模块，则该首个注意力模块输出的任务相关特征矩阵即为该注意力模块对与该注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换所得到的注意力特征矩阵。得到该多标签分类子模型中最后一个注意力模块输出的任务相关特征矩阵后，基于该多标签分类子模型中的多标签分类层，对最后一个注意力模块输出的任务相关特征矩阵进行多标签分类，得到该多标签分类子模型输出的分类结果。其中，该多标签分类子模型输出的分类结果中包括上述野生动物音频中存在该子模型的各个分类标签对应的动物类型的概率，任一分类标签对应的动物类型的概率越高表明该野生动物音频中拾取了该类型动物声音的可能性越高。

根据各个多标签分类子模型输出的分类结果，可以确定野生动物音频中包含的动物类型。其中，若任一多标签分类子模型输出的分类结果中对应任一分类标签的概率高于预设阈值，则可以确定野生动物音频中包含该分类标签对应的动物类型。

可见，本发明实施例提供的方法，通过将不同发声机制的音频特征提取和识别划分为不同的子任务，且每个子任务对应一个多标签分类任务，用于同一发声机制的多种类型动物的声音识别，以解决难以兼顾众多不同类型声音的音频特征的学习和提取的问题，具体通过通用特征提取子模型用于对输入的音频信号进行全局的特征提取，得到该音频信号中尽可能完整、全面的音频特征，然后利用多个多标签分类子模型分别对通用特征提取子模型提取的音频特征进行针对性地筛选，从全面却欠缺针对性的音频特征中提炼出更具代表性、针对当前多标签分类子模型对应的多种动物类型更具区分性的音频特征，从而提升各个多标签分类子模型的识别精度，进而提升多动物混杂的声音识别精度。

基于上述实施例，所述通用特征提取子模型中包含多个连续的卷积模块组，所述多个连续的卷积模块组与任一多标签分类子模型中的多个连续的注意力模块按顺序一一对应；其中，任一卷积模块组包含一个第一卷积模块、一个第二卷积模块、一个第三卷积模块与一个池化模块，所述第一卷积模块、所述第二卷积模块与所述第三卷积模块中卷积层使用的卷积核尺寸互不相同。

具体地，通用特征提取子模型的目的在于尽可能全面和完整地获取其中包含的各类动物的音频特征，然而原始的野生动物音频中可能包含有各类发声机制不同、音频特征迥异的动物声音信号，为音频特征的全面完整的提取制造了较大困难。为了提升通用特征提取子模型的特征提取能力以确保不丢失某类动物的音频特征，可以为通用特征提取子模型设置多个连续的卷积模块组，每个卷积模块组与多标签分类子模型中的多个连续的注意力模块按顺序一一对应。其中，任意一个卷积模块组中包含一个第一卷积模块、一个第二卷积模块、一个第三卷积模块与一个池化模块，而第一卷积模块、第二卷积模块与第三卷积模块中卷积层使用的卷积核尺寸互不相同。

此处，通过利用三个卷积核尺寸互不相同的卷积模块对输入的音频信号进行不同尺度的特征提取，可以同时提取短期、中期和长期的音频特征，从而满足不同类型动物的声音特性的特征提取，提升了通用特征提取子模型提取的通用特征矩阵的全面性和完整性。

基于上述任一实施例，如图3所示，所述基于通用特征提取子模型中的多个连续卷积模块，对野生动物音频进行特征提取，得到所述多个连续卷积模块输出的通用特征矩阵，具体包括：

步骤310，基于当前卷积模块组中的目标卷积模块，对上一卷积模块组中的目标卷积模块输出的通用特征矩阵以及上一卷积模块组中的池化模块输出的融合特征矩阵进行特征提取，得到当前卷积模块组中的目标卷积模块输出的通用特征矩阵；其中，所述目标卷积模块为第一卷积模块、第二卷积模块或第三卷积模块；首个卷积模块组中的目标卷积模块的输入为所述野生动物音频的频谱图；

步骤320，基于当前卷积模块组中的池化模块对当前卷积模块组中的第一卷积模块、第二卷积模块和第三卷积模块输出的通用特征矩阵进行池化处理，得到当前卷积模块组中的池化模块输出的融合特征矩阵。

具体地，将野生动物音频的频谱图输入至通用特征提取子模型的首个卷积模块组中后，依次利用各个卷积模块组进行特征提取。针对任一卷积模块组，可以基于该卷积模块组中的目标卷积模块，对上一卷积模块组中的目标卷积模块输出的通用特征矩阵以及上一卷积模块组中的池化模块输出的融合特征矩阵进行特征提取，得到当前卷积模块组中的目标卷积模块输出的通用特征矩阵。其中，目标卷积模块为第一卷积模块、第二卷积模块或第三卷积模块。即，各个卷积模块组中第一卷积模块与第一卷积模块串联，第二卷积模块与第二卷积模块串联，第三卷积模块与第三卷积模块串联。以第一卷积模块为例，当前卷积模块组中的第一卷积模块会对上一卷积模块组中的第一卷积模块输出的通用特征矩阵以及上一卷积模块组中的池化模块输出的融合特征矩阵进行特征提取，从而得到当前卷积模块组中的第一卷积模块输出的通用特征矩阵。可见，在通用特征提取子模型中，每个卷积模块组中的第一/第二/第三卷积模块均会输出一个通用特征矩阵。

随后，基于当前卷积模块组中的池化模块对当前卷积模块组中的第一卷积模块、第二卷积模块和第三卷积模块输出的通用特征矩阵进行池化处理，实现各个卷积模块输出的通用特征矩阵的融合，得到当前卷积模块组中的池化模块输出的融合特征矩阵。其中，该池化模块可以采用最大值池化或均值池化等方式，本发明实施例对此不作具体限定。

基于上述任一实施例，如图4所示，所述基于任一多标签分类子模型中的多个连续注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，得到注意力特征矩阵，具体包括：

步骤410，基于所述当前注意力模块分别对所述当前注意力模块对应的卷积模块组中的第一卷积模块、第二卷积模块和第三卷积模块输出的通用特征矩阵进行注意力变换，得到第一注意力特征矩阵、第二注意力特征矩阵和第三注意力特征矩阵；

步骤420，将所述第一注意力特征矩阵、所述第二注意力特征矩阵和所述第三注意力特征矩阵融合，得到所述注意力特征矩阵。

具体地，针对当前注意力模块，可以分别对该注意力模块对应的卷积模块组中的第一卷积模块、第二卷积模块和第三卷积模块输出的通用特征矩阵进行注意力变换，相应得到第一注意力特征矩阵、第二注意力特征矩阵和第三注意力特征矩阵。其中，任一卷积模块组中的第一卷积模块、第二卷积模块和第三卷积模块的网络结构可以是相同的，均包含串联的卷积核尺寸相同的第一卷积层和第二卷积层。随后，将上述第一注意力特征矩阵、第二注意力特征矩阵和第三注意力特征矩阵进行融合，例如可以进行拼接或加权，亦或是利用池化方式对三个矩阵进行最大值池化或均值池化，得到该注意力模块对应的注意力特征矩阵。

基于上述任一实施例，如图5所示，所述基于所述当前注意力模块分别对所述当前注意力模块对应的卷积模块组中的第一卷积模块、第二卷积模块和第三卷积模块输出的通用特征矩阵进行注意力变换，得到第一注意力特征矩阵、第二注意力特征矩阵和第三注意力特征矩阵，具体包括：

步骤510，获取所述当前注意力模块对应的卷积模块组中目标卷积模块的第一卷积层输出的初始特征矩阵和第二卷积层输出的通用特征矩阵；

步骤520，对所述目标卷积模块的第一卷积层输出的初始特征矩阵分别进行时频注意力变换和通道注意力变换，得到时频注意力掩膜和通道注意力掩膜；

步骤530，分别基于所述时频注意力掩膜和所述通道注意力掩膜对所述目标卷积模块的第二卷积层输出的通用特征矩阵进行筛选，得到时频注意力矩阵和通道注意力矩阵；

步骤540，对所述时频注意力矩阵和所述通道注意力矩阵进行融合，得到第一注意力特征矩阵、第二注意力特征矩阵或第三注意力特征矩阵。

具体地，为了利用注意力模块从卷积模块输出的通用特征矩阵中筛选提炼出当前分类任务相关的重要特征，可以首先获取当前注意力模块对应的卷积模块组中目标卷积模块的第一卷积层输出的初始特征矩阵和第二卷积层输出的通用特征矩阵。其中，目标卷积模块仍然为第一卷积模块、第二卷积模块或者第三卷积模块。针对目标卷积模块的第一卷积层输出的初始特征矩阵，分别对其进行时频注意力变换和通道注意力变换，得到该初始特征矩阵对应的时频注意力掩膜和通道注意力掩膜。其中，通过时频注意力变换可以从初始特征矩阵中捕获时间和频率的依赖，通过通道注意力变换可以从初始特征矩阵中捕获通道间的关联关系，因此时频注意力掩膜中包含有在时间和频率维度上的重要特征点，通道注意力掩膜中包含有在通道维度上的重要特征点。具体在进行时频注意力变换时，可以分别利用全局均值池化和全局最大值池化沿着通道维度对初始特征矩阵进行池化处理，然后将两个池化结果沿着通道维度进行拼接，再依次利用一个卷积层和一个sigmoid激活层对拼接结果进行整理，得到时频注意力掩膜。具体在进行通道注意力变换时，可以利用全局均值池化沿着时间和频率维度对初始特征矩阵进行池化处理，利用卷积层将池化结果进行压缩，接着依次利用ReLU激活层和卷积层对压缩结果依次进行整理和尺寸还原，得到通道注意力掩膜。

分别基于上述时频注意力掩膜和通道注意力掩膜对同一目标卷积模块的第二卷积层输出的通用特征矩阵进行筛选，相应得到时频注意力矩阵和通道注意力矩阵。其中，可以将时频注意力掩膜和通用特征矩阵进行矩阵点乘，得到时频注意力矩阵，将通道注意力掩膜和通用特征矩阵进行矩阵点乘，得到通道注意力矩阵。随后，将时频注意力矩阵和通道注意力矩阵进行融合（例如矩阵相加），得到第一注意力特征矩阵、第二注意力特征矩阵或第三注意力特征矩阵。其中，若目标卷积模块为第一卷积模块，则得到第一注意力特征矩阵；若目标卷积模块为第二卷积模块，则得到第二注意力特征矩阵；若目标卷积模块为第三卷积模块，则得到第三注意力特征矩阵。

基于上述任一实施例，如图6所示，多个多标签分类子模型分别对应的多个分类标签是基于如下步骤确定的：

步骤610，基于音频特征提取器对各个目标动物类型对应的多个样本独立音频进行特征提取，得到各个目标动物类型对应的多个样本独立音频的音频特征；

步骤620，基于任一目标动物类型对应的多个样本独立音频的音频特征，确定所述任一目标动物类型的音频原型特征；

步骤630，基于各个目标动物类型的发声机制将各个目标动物类型的分类标签划分为多个初始标签组后，针对任一初始标签组，基于所述任一初始标签组中各个目标动物类型的音频原型特征之间的差异对所述任一初始标签组进行细分，得到所述任一初始标签组对应的若干个细分标签组；其中，音频原型特征之间的差异小于预设阈值的目标动物类型的分类标签被划分至不同的细分标签组；

步骤640，将各个细分标签组分配至各个多标签分类子模型。

具体地，当基于发声机制将多个动物类型对应的分类标签划分成为多组并分配至各个多标签分类子模型时，可以有效解决不同发声类型声音的音频特征的学习和提取难以兼顾的问题。然而，将同一发声机制的动物类型划分到一组进行多标签分类之后，可能会引发两个或以上的动物类型声音的音频特征过于相似导致的分类准确性降低的问题。为了进一步解决音频特征相似带来的分类准确性降低的问题，可以基于音频特征提取器对各个目标动物类型对应的多个样本独立音频进行特征提取，得到各个目标动物类型对应的多个样本独立音频的音频特征。其中，音频特征提取器可以选取现有的音频特征提取模型并利用一定数量的动物音频样本进行训练得到。

基于任一目标动物类型对应的多个样本独立音频的音频特征，确定该目标动物类型的音频原型特征。其中，可以确定该目标动物类型对应的多个样本独立音频的音频特征的平均值，作为该目标动物类型的音频原型特征。在基于各个目标动物类型的发声机制将各个目标动物类型的分类标签划分为多个初始标签组（不同发声机制的目标动物类型的分类标签处于不同的初始标签组，相同发声机制的目标动物类型的分类标签位于相同的初始标签组）后，针对任一初始标签组，计算该初始标签组中各个目标动物类型的音频原型特征之间的差异，例如，可以计算该初始标签组中各个目标动物类型的音频原型特征之间的欧氏距离、曼哈顿距离等。根据该初始标签组中各个目标动物类型的音频原型特征之间的差异，对该初始标签组进行细分，得到该初始标签组对应的若干个细分标签组。其中，音频原型特征之间的差异小于预设阈值的目标动物类型的分类标签会被划分至不同的细分标签组。随后，将获得的各个细分标签组分配至各个多标签分类子模型，一个细分标签组对应一个多标签分类子模型。由于分配至同一个多标签分类子模型的分类标签对应的动物类型的音频原型特征之间的差异较大，表明各个分类标签对应的动物类型声音的音频特征之间的相似度较低，如此可以避免音频特征相似带来的分类准确性降低的问题，从而提升多标签分类子模型的识别准确性。

下面对本发明提供的野生动物声音识别装置进行描述，下文描述的野生动物声音识别装置与上文描述的野生动物声音识别方法可相互对应参照。

基于上述任一实施例，图7是本发明提供的野生动物声音识别装置的结构示意图，如图7所示，该装置包括：通用特征提取单元710、任务相关特征提取单元720、多标签分类单元730和动物类型确定单元740。

其中，通用特征提取单元710用于基于通用特征提取子模型中的多个连续卷积模块，对野生动物音频进行特征提取，得到所述多个连续卷积模块输出的通用特征矩阵；

任务相关特征提取单元720用于基于任一多标签分类子模型中的多个连续注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，得到注意力特征矩阵，并将所述注意力特征矩阵与前一注意力模块输出的任务相关特征矩阵融合，得到当前注意力模块输出的任务相关特征矩阵；

多标签分类单元730用于基于所述任一多标签分类子模型中的多标签分类层，对最后一个注意力模块输出的任务相关特征矩阵进行多标签分类，得到所述任一多标签分类子模型输出的分类结果；其中，多个多标签分类子模型分别对应的多个分类标签是将多个目标动物类型按照发声机制进行分组后得到的，不同发声机制的目标动物类型的分类标签对应不同多标签分类子模型；

动物类型确定单元740用于基于多个多标签分类子模型输出的分类结果，确定所述野生动物音频中包含的动物类型。

本发明实施例提供的装置，通过将不同发声机制的音频特征提取和识别划分为不同的子任务，且每个子任务对应一个多标签分类任务，用于同一发声机制的多种类型动物的声音识别，以解决难以兼顾众多不同类型声音的音频特征的学习和提取的问题，具体通过通用特征提取子模型用于对输入的音频信号进行全局的特征提取，得到该音频信号中尽可能完整、全面的音频特征，然后利用多个多标签分类子模型分别对通用特征提取子模型提取的音频特征进行针对性地筛选，从全面却欠缺针对性的音频特征中提炼出更具代表性、针对当前多标签分类子模型对应的多种动物类型更具区分性的音频特征，从而提升各个多标签分类子模型的识别精度，进而提升多动物混杂的声音识别精度。

基于上述任一实施例，所述通用特征提取子模型中包含多个连续的卷积模块组，所述多个连续的卷积模块组与任一多标签分类子模型中的多个连续的注意力模块按顺序一一对应；其中，任一卷积模块组包含一个第一卷积模块、一个第二卷积模块、一个第三卷积模块与一个池化模块，所述第一卷积模块、所述第二卷积模块与所述第三卷积模块中卷积层使用的卷积核尺寸互不相同。

基于上述任一实施例，所述基于通用特征提取子模型中的多个连续卷积模块，对野生动物音频进行特征提取，得到所述多个连续卷积模块输出的通用特征矩阵，具体包括：

基于上述任一实施例，所述基于任一多标签分类子模型中的多个连续注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，得到注意力特征矩阵，具体包括：

基于上述任一实施例，所述第一卷积模块、所述第二卷积模块和所述第三卷积模块中包含串联的卷积核尺寸相同的第一卷积层和第二卷积层。

基于上述任一实施例，所述基于所述当前注意力模块分别对所述当前注意力模块对应的卷积模块组中的第一卷积模块、第二卷积模块和第三卷积模块输出的通用特征矩阵进行注意力变换，得到第一注意力特征矩阵、第二注意力特征矩阵和第三注意力特征矩阵，具体包括：

基于上述任一实施例，多个多标签分类子模型分别对应的多个分类标签是基于如下步骤确定的：

将各个细分标签组分配至各个多标签分类子模型。

基于上述任一实施例，所述通用特征提取子模型与多个多标签分类子模型构成声音识别模型，所述声音识别模型是基于样本混杂音频以及所述样本混杂音频中包含的动物类型的分类标签训练得到的；所述样本混杂音频是从各个目标动物类型中随机选取多个目标动物类型作为待混杂动物类型，并分别从各个待混杂动物类型对应的多个样本独立音频中随机选取一个样本独立音频进行混合得到的。

基于上述任一实施例，任一多标签分类子模型中的多标签分类层是基于双向递归神经网络构建的。

图8是本发明提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、存储器(memory)820、通信接口(Communications Interface)830和通信总线840，其中，处理器810，存储器820，通信接口830通过通信总线840完成相互间的通信。处理器810可以调用存储器820中的逻辑指令，以执行野生动物声音识别方法，该方法包括：基于通用特征提取子模型中的多个连续卷积模块，对野生动物音频进行特征提取，得到所述多个连续卷积模块输出的通用特征矩阵；基于任一多标签分类子模型中的多个连续注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，得到注意力特征矩阵，并将所述注意力特征矩阵与前一注意力模块输出的任务相关特征矩阵融合，得到当前注意力模块输出的任务相关特征矩阵；基于所述任一多标签分类子模型中的多标签分类层，对最后一个注意力模块输出的任务相关特征矩阵进行多标签分类，得到所述任一多标签分类子模型输出的分类结果；其中，多个多标签分类子模型分别对应的多个分类标签是将多个目标动物类型按照发声机制进行分组后得到的，不同发声机制的目标动物类型的分类标签对应不同多标签分类子模型；基于多个多标签分类子模型输出的分类结果，确定所述野生动物音频中包含的动物类型。

此外，上述的存储器820中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的野生动物声音识别方法，该方法包括：基于通用特征提取子模型中的多个连续卷积模块，对野生动物音频进行特征提取，得到所述多个连续卷积模块输出的通用特征矩阵；基于任一多标签分类子模型中的多个连续注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，得到注意力特征矩阵，并将所述注意力特征矩阵与前一注意力模块输出的任务相关特征矩阵融合，得到当前注意力模块输出的任务相关特征矩阵；基于所述任一多标签分类子模型中的多标签分类层，对最后一个注意力模块输出的任务相关特征矩阵进行多标签分类，得到所述任一多标签分类子模型输出的分类结果；其中，多个多标签分类子模型分别对应的多个分类标签是将多个目标动物类型按照发声机制进行分组后得到的，不同发声机制的目标动物类型的分类标签对应不同多标签分类子模型；基于多个多标签分类子模型输出的分类结果，确定所述野生动物音频中包含的动物类型。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的野生动物声音识别方法，该方法包括：基于通用特征提取子模型中的多个连续卷积模块，对野生动物音频进行特征提取，得到所述多个连续卷积模块输出的通用特征矩阵；基于任一多标签分类子模型中的多个连续注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，得到注意力特征矩阵，并将所述注意力特征矩阵与前一注意力模块输出的任务相关特征矩阵融合，得到当前注意力模块输出的任务相关特征矩阵；基于所述任一多标签分类子模型中的多标签分类层，对最后一个注意力模块输出的任务相关特征矩阵进行多标签分类，得到所述任一多标签分类子模型输出的分类结果；其中，多个多标签分类子模型分别对应的多个分类标签是将多个目标动物类型按照发声机制进行分组后得到的，不同发声机制的目标动物类型的分类标签对应不同多标签分类子模型；基于多个多标签分类子模型输出的分类结果，确定所述野生动物音频中包含的动物类型。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种野生动物声音识别方法，其特征在于，包括：

2.根据权利要求1所述的一种野生动物声音识别方法，其特征在于，所述通用特征提取子模型中包含多个连续的卷积模块组，所述多个连续的卷积模块组与任一多标签分类子模型中的多个连续的注意力模块按顺序一一对应；其中，任一卷积模块组包含一个第一卷积模块、一个第二卷积模块、一个第三卷积模块与一个池化模块，所述第一卷积模块、所述第二卷积模块与所述第三卷积模块中卷积层使用的卷积核尺寸互不相同。

3.根据权利要求2所述的一种野生动物声音识别方法，其特征在于，所述基于通用特征提取子模型中的多个连续卷积模块，对野生动物音频进行特征提取，得到所述多个连续卷积模块输出的通用特征矩阵，具体包括：

4.根据权利要求3所述的一种野生动物声音识别方法，其特征在于，所述基于任一多标签分类子模型中的多个连续注意力模块，对与当前注意力模块对应的卷积模块输出的通用特征矩阵进行注意力变换，得到注意力特征矩阵，具体包括：

5.根据权利要求4所述的一种野生动物声音识别方法，其特征在于，所述第一卷积模块、所述第二卷积模块和所述第三卷积模块中包含串联的卷积核尺寸相同的第一卷积层和第二卷积层。

6.根据权利要求5所述的一种野生动物声音识别方法，其特征在于，所述基于所述当前注意力模块分别对所述当前注意力模块对应的卷积模块组中的第一卷积模块、第二卷积模块和第三卷积模块输出的通用特征矩阵进行注意力变换，得到第一注意力特征矩阵、第二注意力特征矩阵和第三注意力特征矩阵，具体包括：

7.根据权利要求1所述的一种野生动物声音识别方法，其特征在于，多个多标签分类子模型分别对应的多个分类标签是基于如下步骤确定的：

将各个细分标签组分配至各个多标签分类子模型。

8.根据权利要求1所述的一种野生动物声音识别方法，其特征在于，所述通用特征提取子模型与多个多标签分类子模型构成声音识别模型，所述声音识别模型是基于样本混杂音频以及所述样本混杂音频中包含的动物类型的分类标签训练得到的；所述样本混杂音频是从各个目标动物类型中随机选取多个目标动物类型作为待混杂动物类型，并分别从各个待混杂动物类型对应的多个样本独立音频中随机选取一个样本独立音频进行混合得到的。

9.根据权利要求1所述的一种野生动物声音识别方法，其特征在于，任一多标签分类子模型中的多标签分类层是基于双向递归神经网络构建的。

10.一种野生动物声音识别装置，其特征在于，包括：