CN115063601A

CN115063601A - 基于图像和音频双模态鸟类识别方法、装置、设备及介质

Info

Publication number: CN115063601A
Application number: CN202210785055.2A
Authority: CN
Inventors: 鉴海防; 王洪昌; 郭慧敏; 李文昌
Original assignee: Institute of Semiconductors of CAS
Current assignee: Institute of Semiconductors of CAS
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-16

Abstract

本发明提供了一种基于图像和音频双模态鸟类识别方法、装置、设备及介质。方法包括：获取鸟类的图像及音频；利用ViT深度学习神经网络模型对图像及音频进行特征提取，得到图像特征及音频特征；将图像特征及音频特征融合，输出鸟类的细粒度识别结果。本发明同时利用音频和图像特征进行鸟类细粒度识别，通过融合两种特征进行特征互补，可以提升识别精确度并提高数据利用率。

Description

基于图像和音频双模态鸟类识别方法、装置、设备及介质

技术领域

本发明涉及人工智能和生态保护领域，尤其涉及一种基于图像和音频双模态鸟类识别方法、装置、设备及介质。

背景技术

在生态环境保护领域，鸟类因为其对环境敏感的特性而被当作环境的指示物种。在鸟类的研究与保护过程中，某地区的鸟类的种类数是一项重要的指标。

然而当前人们主要通过专业的先验知识来进行鸟类识别，人工成本较高。随着人工智能的兴起，人们尝试利用视觉或者音频处理技术来实现鸟类物种的智能识别。但是利用单一的视觉或者音频模态所组成的模型受环境影响较大，应用场景有限。鉴于此，本发明提出一种新型的多模态融合技术，将图像和音频信息有效融合，得到更高精度的细粒度识别结果。

发明内容

本发明的一个方面提出一种基于图像和音频双模态鸟类识别方法，包括：获取鸟类的图像及音频；利用ViT深度学习神经网络模型对图像及音频进行特征提取，得到图像特征及音频特征；将图像特征及音频特征融合，输出鸟类的细粒度识别结果。

进一步地，本发明的基于图像和音频双模态鸟类识别方法，利用ViT深度学习神经网络模型对图像及音频进行特征提取，得到图像特征及音频特征包括：将图像调整为W×H格式并分割成多个单元图像；将单元图像进行二维卷积得到各单元图像的嵌入表示，其中，嵌入表示包括各单元图像的像素信息、各单元图像相对于图像的位置信息及各单元图像的类别信息；将单元图像输入到第一ViT深度学习神经网络模型进行特征提取，得到图像特征；对音频进行短时傅里叶变换；对音频进行梅尔频谱滤波以得到频谱图；将频谱图输入到第二ViT深度学习神经网络模型进行特征提取，得到音频特征。

进一步地，本发明的基于图像和音频双模态鸟类识别方法，将图像特征及音频特征融合包括：将图像特征及音频特征进行加权融合，其中，加权融合按如下公式进行计算：

s_out＝α·s₀+β·s₁

其中s_out为融合结果，s₀为图像特征，α为图像特征权重系数，s₁为音频特征，β为音频特征权重系数，α+β＝1且α、β≥0。

进一步地，本发明的基于图像和音频双模态鸟类识别方法，输出鸟类的细粒度识别结果包括：将融合结果输入全连接层，其中，全连接层包括融合结果与鸟类细粒度对应的识别类别；对各识别类别进行赋分计算并排名，取排名前三的识别类别作为识别结果输出。

进一步地，本发明的基于图像和音频双模态鸟类识别方法，包括：对ViT深度学习神经网络模型进行模型训练，具体为：使用随机梯度下降作为优化器训练ViT深度学习神经网络模型直至损失函数收敛，损失函数为：

其中n是样本数，m是类别数，y_ic是符号函数，当对样本i的预测结果为类别c为真时等于1否则等于0，p_ic是对观察到的样本i预测其属于类别c的概率。

本发明的另一个方面提出一种基于图像和音频双模态鸟类识别装置，包括：采集模块，用于获取鸟类的图像及音频；特征提取模块，用于利用ViT深度学习神经网络模型对图像及音频进行特征提取，得到图像特征及音频特征；识别模块，用于将图像特征及音频特征融合，输出鸟类的细粒度识别结果。

进一步地，本发明的基于图像和音频双模态鸟类识别装置，包括：图像调整模块，用于将图像调整为W×H格式并分割成多个单元图像，将单元图像进行二维卷积得到各单元图像的嵌入表示；第一ViT深度学习神经网络模型，用于对单元图像进行特征提取以得到图像特征；音频调整模块，用于对音频进行短时傅里叶变换并对音频进行梅尔频谱滤波以得到频谱图；第二ViT深度学习神经网络模型，用于对频谱图进行特征提取以得到音频特征。

进一步地，本发明的基于图像和音频双模态鸟类识别装置，包括：输入模块，用于将融合结果输入全连接层，其中，全连接层包括融合结果与鸟类细粒度对应的识别类别；赋分计算模块，用于对各识别类别进行赋分计算并排名，取排名前三的识别类别作为识别结果输出。

本发明同时提出一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现前述的方法。

本发明同时提出一种计算机可读存储介质，其上存储有计算机可读指令，所述指令被处理器执行时使得处理器执行前述的方法。

本发明同时利用音频和图像特征进行鸟类细粒度识别，通过融合两种特征进行特征互补，可以提升识别精确度并提高数据利用率。

附图说明

图1是根据本发明实施例的基于图像和音频双模态鸟类识别方法的流程图；

图2是根据本发明的实施例对图像及音频进行特征提取得到图像特征及音频特征的操作流程图；

图3是根据本发明实施例的基于图像和音频双模态鸟类识别装置的结构框图；

图4是根据本发明另一实施例的基于图像和音频双模态鸟类识别装置的结构框图；

图5是根据本发明又一实施例的基于图像和音频双模态鸟类识别装置的结构框图；

图6是根据本发明实施例的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本发明的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本发明的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

本发明的实施例提供了一种基于图像和音频双模态鸟类识别方法、装置、设备及介质，本发明的方法同时利用音频和图像特征进行鸟类细粒度识别，通过融合两种特征进行特征互补，可以提升识别精确度并提高数据利用率。

图1示意性示出了根据本发明实施例的基于图像和音频双模态鸟类识别方法的流程图。

参见图1，同时结合图2，对图1所示方法进行详细说明，该方法包括操作S110-操作S130。

在操作S110，获取鸟类的图像及音频。

根据本发明的实施例，获取鸟类图像采用摄像机捕获一只鸟的2D图像信息的方式，获取鸟类音频采用拾音器采集同一只鸟的叫声音频信息。

在操作S120，利用ViT深度学习神经网络模型对图像及音频进行特征提取，得到图像特征及音频特征。

根据本发明的实施例，ViT深度学习神经网络模型为基于Transformer的ViT深度学习神经网络模型，本发明采用两个ViT深度学习神经网络模型分别对图像及音频进行特征提取，得到图像特征及音频特征。

参见图2，根据本发明的实施例，对图像及音频进行特征提取得到图像特征及音频特征的操作具体为：

S121，将图像调整为W×H格式并分割成多个单元图像。

S122，将单元图像进行二维卷积得到各单元图像的嵌入表示，其中，嵌入表示包括各单元图像的像素信息、各单元图像相对于图像的位置信息及各单元图像的类别信息。

S123，将单元图像输入到第一ViT深度学习神经网络模型进行特征提取，得到图像特征。

S124，对音频进行短时傅里叶变换。

S125，对音频进行梅尔频谱滤波以得到频谱图。

S126，将频谱图输入到第二ViT深度学习神经网络模型进行特征提取，得到音频特征。

在上述步骤中，S121vS123为对图像进行特征提取得到图像特征的操作步骤，S124-S126为对音频进行特征提取得到音频特征的操作步骤。二者的操作由两个不同的ViT深度学习神经网络模型完成，因此可以对两部分操作顺序进行调整。

在操作S130，将图像特征及音频特征融合，输出鸟类的细粒度识别结果。

根据本发明的实施例，将图像特征及音频特征进行融合采用的是加权融合的方式，且加权融合按照如下公式进行计算：

s_out＝α·s₀+β·s₁

在计算得到融合结果后，将融合结果输入全连接层。根据本发明的实施例，全连接层提前设置了各融合结果所对应的鸟类细粒度数据，因此在将融合结果输入到全连接层后即可在全连接层中对各识别类别进行赋分计算，并根据赋分计算的结果排名，取排名前三的识别类别作为识别结果输出。此时可以最大程度确保鸟类细粒度识别准确度。

根据本发明的实施例，本发明还包括对ViT深度学习神经网络模型进行模型训练，具体为：使用随机梯度下降作为优化器训练ViT深度学习神经网络模型直至损失函数收敛，损失函数为：

基于同一发明构思，本发明实施例还提供了一种基于图像和音频双模态鸟类识别装置，下面结合图3对本发明实施例的IP地址动态阻断装置进行介绍。

图3示意性示出了根据本发明实施例的基于图像和音频双模态鸟类识别装置的结构框图。

如图3所示，基于图像和音频双模态鸟类识别装置300包括采集模块310、特征提取模块320及识别模块330。该基于图像和音频双模态鸟类识别装置300可以用于执行上文参考图1-图2描述的各种方法。

采集模块310例如执行参考上文图1描述的操作S110，用于获取鸟类的图像及音频。

特征提取模块320例如执行参考上文图1描述的操作S120，用于利用ViT深度学习神经网络模型对图像及音频进行特征提取，得到图像特征及音频特征。

识别模块330例如执行参考上文图1描述的操作S130，用于用于将图像特征及音频特征融合，输出鸟类的细粒度识别结果

图4示意性示出了根据本发明另一实施例的基于图像和音频双模态鸟类识别装置的结构框图。

如图4所示，该基于图像和音频双模态鸟类识别装置还可以包括图像调整模块410、音频调整模块420。

图像调整模块410例如执行参考上文图2描述的操作S121-S122，用于将图像调整为W×H格式并分割成多个单元图像，将单元图像进行二维卷积得到各单元图像的嵌入表示。

音频调整模块420例如执行参考上文图2描述的操作S124-S125，用于对音频进行短时傅里叶变换并对音频进行梅尔频谱滤波以得到频谱图。

根据本发明的一些实施例，ViT深度学习神经网络模型包括第一ViT深度学习神经网络模型及第二ViT深度学习神经网络模型，均安装在计算机中运行。第一ViT深度学习神经网络模型用于对单元图像进行特征提取以得到图像特征，第二ViT深度学习神经网络模型，用于对频谱图进行特征提取以得到音频特征。

图5示意性示出了根据本发明又一实施例的基于图像和音频双模态鸟类识别装置的结构框图。

如图5所示，该基于图像和音频双模态鸟类识别装置还可以包括输入模块510及赋分计算模块520。

输入模块510用于将融合结果输入全连接层，其中，全连接层包括融合结果与鸟类细粒度对应的识别类别。

赋分计算模块520，用于对各识别类别进行赋分计算并排名，取排名前三的识别类别作为识别结果输出。

根据本发明的实施例的模块中的任意多个、或其中任意多个的至少部分功能可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本发明的实施例，采集模块310、特征提取模块320、识别模块330、图像调整模块410、音频调整模块420、输入模块510及赋分计算模块520中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，采集模块310、特征提取模块320、识别模块330、图像调整模块410、音频调整模块420、输入模块510及赋分计算模块520中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图6示意性示出了根据本发明实施例的适于实现上文描述的方法的电子设备的方框图。图6示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，本发明提供了一种电子设备600，包括处理器601以及存储器602，该电子设备600可以执行根据本发明实施例的方法。

具体的，处理器601例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

存储器602，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

存储器602可以包括计算机程序6021，该计算机程序6021可以包括代码/计算机可执行指令，其在由处理器601执行时使得处理器601执行例如上面本发明实施例的方法流程及其任何变形。

计算机程序6021可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序6021中的代码可以包括一个或多个程序模块，例如包括6021A、模块6021B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器601执行时，使得处理器601可以执行例如上面结合本发明实施例的方法流程及其任何变形。

本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本申请实施例的方法。

根据本申请的实施例，计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、射频信号等等，或者上述的任意合适的组合。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图像和音频双模态鸟类识别方法，其特征在于，包括：

获取所述鸟类的图像及音频；

利用ViT深度学习神经网络模型对所述图像及音频进行特征提取，得到图像特征及音频特征；

将所述图像特征及音频特征融合，输出所述鸟类的细粒度识别结果。

2.根据权利要求1所述的基于图像和音频双模态鸟类识别方法，其特征在于，所述利用ViT深度学习神经网络模型对所述图像及音频进行特征提取，得到图像特征及音频特征包括：

将所述图像调整为W×H格式并分割成多个单元图像；

将所述单元图像进行二维卷积得到各所述单元图像的嵌入表示，其中，所述嵌入表示包括各所述单元图像的像素信息、各所述单元图像相对于所述图像的位置信息及各所述单元图像的类别信息；

将所述单元图像输入到第一ViT深度学习神经网络模型进行特征提取，得到图像特征；

对所述音频进行短时傅里叶变换；

对所述音频进行梅尔频谱滤波以得到频谱图；

将所述频谱图输入到第二ViT深度学习神经网络模型进行特征提取，得到音频特征。

3.根据权利要求1所述的基于图像和音频双模态鸟类识别方法，其特征在于，所述将所述图像特征及音频特征融合包括：

将所述图像特征及音频特征进行加权融合，其中，所述加权融合按如下公式进行计算：

s_out＝α·s₀+β·s₁

其中s_out为融合结果，s₀为所述图像特征，α为图像特征权重系数，s₁为所述音频特征，β为音频特征权重系数，α+β＝1且α、β≥0。

4.根据权利要求3所述的基于图像和音频双模态鸟类识别方法，其特征在于，所述输出所述鸟类的细粒度识别结果包括：

将所述融合结果输入全连接层，其中，所述全连接层包括所述融合结果与所述鸟类细粒度对应的识别类别；

对各所述识别类别进行赋分计算并排名，取排名前三的识别类别作为识别结果输出。

5.根据权利要求1所述的基于图像和音频双模态鸟类识别方法，其特征在于，包括：

对所述ViT深度学习神经网络模型进行模型训练，具体为：

使用随机梯度下降作为优化器训练所述ViT深度学习神经网络模型直至损失函数收敛，所述损失函数为：

6.一种基于图像和音频双模态鸟类识别装置，其特征在于，包括：

采集模块，用于获取所述鸟类的图像及音频；

特征提取模块，用于利用ViT深度学习神经网络模型对所述图像及音频进行特征提取，得到图像特征及音频特征；

识别模块，用于将所述图像特征及音频特征融合，输出所述鸟类的细粒度识别结果。

7.根据权利要求6所述的基于图像和音频双模态鸟类识别装置，其特征在于，包括：

图像调整模块，用于将所述图像调整为W×H格式并分割成多个单元图像，将所述单元图像进行二维卷积得到各所述单元图像的嵌入表示；

第一ViT深度学习神经网络模型，用于对所述单元图像进行特征提取以得到图像特征；

音频调整模块，用于对所述音频进行短时傅里叶变换并对所述音频进行梅尔频谱滤波以得到频谱图；

第二ViT深度学习神经网络模型，用于对所述频谱图进行特征提取以得到音频特征。

8.根据权利要求6所述的基于图像和音频双模态鸟类识别装置，其特征在于，包括：

输入模块，用于将所述融合结果输入全连接层，其中，所述全连接层包括所述融合结果与所述鸟类细粒度对应的识别类别；

赋分计算模块，用于对各所述识别类别进行赋分计算并排名，取排名前三的识别类别作为识别结果输出。

9.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1～5中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机可读指令，所述指令被处理器执行时使得处理器执行权利要求1～5中任意一项所述的方法。