CN115063601A - 基于图像和音频双模态鸟类识别方法、装置、设备及介质 - Google Patents

基于图像和音频双模态鸟类识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN115063601A
CN115063601A CN202210785055.2A CN202210785055A CN115063601A CN 115063601 A CN115063601 A CN 115063601A CN 202210785055 A CN202210785055 A CN 202210785055A CN 115063601 A CN115063601 A CN 115063601A
Authority
CN
China
Prior art keywords
image
audio
identification
bird
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210785055.2A
Other languages
English (en)
Inventor
鉴海防
王洪昌
郭慧敏
李文昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Semiconductors of CAS
Original Assignee
Institute of Semiconductors of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Semiconductors of CAS filed Critical Institute of Semiconductors of CAS
Priority to CN202210785055.2A priority Critical patent/CN115063601A/zh
Publication of CN115063601A publication Critical patent/CN115063601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于图像和音频双模态鸟类识别方法、装置、设备及介质。方法包括:获取鸟类的图像及音频;利用ViT深度学习神经网络模型对图像及音频进行特征提取,得到图像特征及音频特征;将图像特征及音频特征融合,输出鸟类的细粒度识别结果。本发明同时利用音频和图像特征进行鸟类细粒度识别,通过融合两种特征进行特征互补,可以提升识别精确度并提高数据利用率。

Description

基于图像和音频双模态鸟类识别方法、装置、设备及介质
技术领域
本发明涉及人工智能和生态保护领域,尤其涉及一种基于图像和音频双模态鸟类识别方法、装置、设备及介质。
背景技术
在生态环境保护领域,鸟类因为其对环境敏感的特性而被当作环境的指示物种。在鸟类的研究与保护过程中,某地区的鸟类的种类数是一项重要的指标。
然而当前人们主要通过专业的先验知识来进行鸟类识别,人工成本较高。随着人工智能的兴起,人们尝试利用视觉或者音频处理技术来实现鸟类物种的智能识别。但是利用单一的视觉或者音频模态所组成的模型受环境影响较大,应用场景有限。鉴于此,本发明提出一种新型的多模态融合技术,将图像和音频信息有效融合,得到更高精度的细粒度识别结果。
发明内容
本发明的一个方面提出一种基于图像和音频双模态鸟类识别方法,包括:获取鸟类的图像及音频;利用ViT深度学习神经网络模型对图像及音频进行特征提取,得到图像特征及音频特征;将图像特征及音频特征融合,输出鸟类的细粒度识别结果。
进一步地,本发明的基于图像和音频双模态鸟类识别方法,利用ViT深度学习神经网络模型对图像及音频进行特征提取,得到图像特征及音频特征包括:将图像调整为W×H格式并分割成多个单元图像;将单元图像进行二维卷积得到各单元图像的嵌入表示,其中,嵌入表示包括各单元图像的像素信息、各单元图像相对于图像的位置信息及各单元图像的类别信息;将单元图像输入到第一ViT深度学习神经网络模型进行特征提取,得到图像特征;对音频进行短时傅里叶变换;对音频进行梅尔频谱滤波以得到频谱图;将频谱图输入到第二ViT深度学习神经网络模型进行特征提取,得到音频特征。
进一步地,本发明的基于图像和音频双模态鸟类识别方法,将图像特征及音频特征融合包括:将图像特征及音频特征进行加权融合,其中,加权融合按如下公式进行计算:
sout=α·s0+β·s1
其中sout为融合结果,s0为图像特征,α为图像特征权重系数,s1为音频特征,β为音频特征权重系数,α+β=1且α、β≥0。
进一步地,本发明的基于图像和音频双模态鸟类识别方法,输出鸟类的细粒度识别结果包括:将融合结果输入全连接层,其中,全连接层包括融合结果与鸟类细粒度对应的识别类别;对各识别类别进行赋分计算并排名,取排名前三的识别类别作为识别结果输出。
进一步地,本发明的基于图像和音频双模态鸟类识别方法,包括:对ViT深度学习神经网络模型进行模型训练,具体为:使用随机梯度下降作为优化器训练ViT深度学习神经网络模型直至损失函数收敛,损失函数为:
Figure BDA0003719056780000021
其中n是样本数,m是类别数,yic是符号函数,当对样本i的预测结果为类别c为真时等于1否则等于0,pic是对观察到的样本i预测其属于类别c的概率。
本发明的另一个方面提出一种基于图像和音频双模态鸟类识别装置,包括:采集模块,用于获取鸟类的图像及音频;特征提取模块,用于利用ViT深度学习神经网络模型对图像及音频进行特征提取,得到图像特征及音频特征;识别模块,用于将图像特征及音频特征融合,输出鸟类的细粒度识别结果。
进一步地,本发明的基于图像和音频双模态鸟类识别装置,包括:图像调整模块,用于将图像调整为W×H格式并分割成多个单元图像,将单元图像进行二维卷积得到各单元图像的嵌入表示;第一ViT深度学习神经网络模型,用于对单元图像进行特征提取以得到图像特征;音频调整模块,用于对音频进行短时傅里叶变换并对音频进行梅尔频谱滤波以得到频谱图;第二ViT深度学习神经网络模型,用于对频谱图进行特征提取以得到音频特征。
进一步地,本发明的基于图像和音频双模态鸟类识别装置,包括:输入模块,用于将融合结果输入全连接层,其中,全连接层包括融合结果与鸟类细粒度对应的识别类别;赋分计算模块,用于对各识别类别进行赋分计算并排名,取排名前三的识别类别作为识别结果输出。
本发明同时提出一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现前述的方法。
本发明同时提出一种计算机可读存储介质,其上存储有计算机可读指令,所述指令被处理器执行时使得处理器执行前述的方法。
本发明同时利用音频和图像特征进行鸟类细粒度识别,通过融合两种特征进行特征互补,可以提升识别精确度并提高数据利用率。
附图说明
图1是根据本发明实施例的基于图像和音频双模态鸟类识别方法的流程图;
图2是根据本发明的实施例对图像及音频进行特征提取得到图像特征及音频特征的操作流程图;
图3是根据本发明实施例的基于图像和音频双模态鸟类识别装置的结构框图;
图4是根据本发明另一实施例的基于图像和音频双模态鸟类识别装置的结构框图;
图5是根据本发明又一实施例的基于图像和音频双模态鸟类识别装置的结构框图;
图6是根据本发明实施例的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本发明的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本发明的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。
本发明的实施例提供了一种基于图像和音频双模态鸟类识别方法、装置、设备及介质,本发明的方法同时利用音频和图像特征进行鸟类细粒度识别,通过融合两种特征进行特征互补,可以提升识别精确度并提高数据利用率。
图1示意性示出了根据本发明实施例的基于图像和音频双模态鸟类识别方法的流程图。
参见图1,同时结合图2,对图1所示方法进行详细说明,该方法包括操作S110-操作S130。
在操作S110,获取鸟类的图像及音频。
根据本发明的实施例,获取鸟类图像采用摄像机捕获一只鸟的2D图像信息的方式,获取鸟类音频采用拾音器采集同一只鸟的叫声音频信息。
在操作S120,利用ViT深度学习神经网络模型对图像及音频进行特征提取,得到图像特征及音频特征。
根据本发明的实施例,ViT深度学习神经网络模型为基于Transformer的ViT深度学习神经网络模型,本发明采用两个ViT深度学习神经网络模型分别对图像及音频进行特征提取,得到图像特征及音频特征。
参见图2,根据本发明的实施例,对图像及音频进行特征提取得到图像特征及音频特征的操作具体为:
S121,将图像调整为W×H格式并分割成多个单元图像。
S122,将单元图像进行二维卷积得到各单元图像的嵌入表示,其中,嵌入表示包括各单元图像的像素信息、各单元图像相对于图像的位置信息及各单元图像的类别信息。
S123,将单元图像输入到第一ViT深度学习神经网络模型进行特征提取,得到图像特征。
S124,对音频进行短时傅里叶变换。
S125,对音频进行梅尔频谱滤波以得到频谱图。
S126,将频谱图输入到第二ViT深度学习神经网络模型进行特征提取,得到音频特征。
在上述步骤中,S121vS123为对图像进行特征提取得到图像特征的操作步骤,S124-S126为对音频进行特征提取得到音频特征的操作步骤。二者的操作由两个不同的ViT深度学习神经网络模型完成,因此可以对两部分操作顺序进行调整。
在操作S130,将图像特征及音频特征融合,输出鸟类的细粒度识别结果。
根据本发明的实施例,将图像特征及音频特征进行融合采用的是加权融合的方式,且加权融合按照如下公式进行计算:
sout=α·s0+β·s1
其中sout为融合结果,s0为图像特征,α为图像特征权重系数,s1为音频特征,β为音频特征权重系数,α+β=1且α、β≥0。
在计算得到融合结果后,将融合结果输入全连接层。根据本发明的实施例,全连接层提前设置了各融合结果所对应的鸟类细粒度数据,因此在将融合结果输入到全连接层后即可在全连接层中对各识别类别进行赋分计算,并根据赋分计算的结果排名,取排名前三的识别类别作为识别结果输出。此时可以最大程度确保鸟类细粒度识别准确度。
根据本发明的实施例,本发明还包括对ViT深度学习神经网络模型进行模型训练,具体为:使用随机梯度下降作为优化器训练ViT深度学习神经网络模型直至损失函数收敛,损失函数为:
Figure BDA0003719056780000061
其中n是样本数,m是类别数,yic是符号函数,当对样本i的预测结果为类别c为真时等于1否则等于0,pic是对观察到的样本i预测其属于类别c的概率。
基于同一发明构思,本发明实施例还提供了一种基于图像和音频双模态鸟类识别装置,下面结合图3对本发明实施例的IP地址动态阻断装置进行介绍。
图3示意性示出了根据本发明实施例的基于图像和音频双模态鸟类识别装置的结构框图。
如图3所示,基于图像和音频双模态鸟类识别装置300包括采集模块310、特征提取模块320及识别模块330。该基于图像和音频双模态鸟类识别装置300可以用于执行上文参考图1-图2描述的各种方法。
采集模块310例如执行参考上文图1描述的操作S110,用于获取鸟类的图像及音频。
特征提取模块320例如执行参考上文图1描述的操作S120,用于利用ViT深度学习神经网络模型对图像及音频进行特征提取,得到图像特征及音频特征。
识别模块330例如执行参考上文图1描述的操作S130,用于用于将图像特征及音频特征融合,输出鸟类的细粒度识别结果
图4示意性示出了根据本发明另一实施例的基于图像和音频双模态鸟类识别装置的结构框图。
如图4所示,该基于图像和音频双模态鸟类识别装置还可以包括图像调整模块410、音频调整模块420。
图像调整模块410例如执行参考上文图2描述的操作S121-S122,用于将图像调整为W×H格式并分割成多个单元图像,将单元图像进行二维卷积得到各单元图像的嵌入表示。
音频调整模块420例如执行参考上文图2描述的操作S124-S125,用于对音频进行短时傅里叶变换并对音频进行梅尔频谱滤波以得到频谱图。
根据本发明的一些实施例,ViT深度学习神经网络模型包括第一ViT深度学习神经网络模型及第二ViT深度学习神经网络模型,均安装在计算机中运行。第一ViT深度学习神经网络模型用于对单元图像进行特征提取以得到图像特征,第二ViT深度学习神经网络模型,用于对频谱图进行特征提取以得到音频特征。
图5示意性示出了根据本发明又一实施例的基于图像和音频双模态鸟类识别装置的结构框图。
如图5所示,该基于图像和音频双模态鸟类识别装置还可以包括输入模块510及赋分计算模块520。
输入模块510用于将融合结果输入全连接层,其中,全连接层包括融合结果与鸟类细粒度对应的识别类别。
赋分计算模块520,用于对各识别类别进行赋分计算并排名,取排名前三的识别类别作为识别结果输出。
根据本发明的实施例的模块中的任意多个、或其中任意多个的至少部分功能可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,采集模块310、特征提取模块320、识别模块330、图像调整模块410、音频调整模块420、输入模块510及赋分计算模块520中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,采集模块310、特征提取模块320、识别模块330、图像调整模块410、音频调整模块420、输入模块510及赋分计算模块520中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本发明实施例的适于实现上文描述的方法的电子设备的方框图。图6示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,本发明提供了一种电子设备600,包括处理器601以及存储器602,该电子设备600可以执行根据本发明实施例的方法。
具体的,处理器601例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以是用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
存储器602,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
存储器602可以包括计算机程序6021,该计算机程序6021可以包括代码/计算机可执行指令,其在由处理器601执行时使得处理器601执行例如上面本发明实施例的方法流程及其任何变形。
计算机程序6021可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序6021中的代码可以包括一个或多个程序模块,例如包括6021A、模块6021B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器601执行时,使得处理器601可以执行例如上面结合本发明实施例的方法流程及其任何变形。
本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本申请实施例的方法。
根据本申请的实施例,计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线、光缆、射频信号等等,或者上述的任意合适的组合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于图像和音频双模态鸟类识别方法,其特征在于,包括:
获取所述鸟类的图像及音频;
利用ViT深度学习神经网络模型对所述图像及音频进行特征提取,得到图像特征及音频特征;
将所述图像特征及音频特征融合,输出所述鸟类的细粒度识别结果。
2.根据权利要求1所述的基于图像和音频双模态鸟类识别方法,其特征在于,所述利用ViT深度学习神经网络模型对所述图像及音频进行特征提取,得到图像特征及音频特征包括:
将所述图像调整为W×H格式并分割成多个单元图像;
将所述单元图像进行二维卷积得到各所述单元图像的嵌入表示,其中,所述嵌入表示包括各所述单元图像的像素信息、各所述单元图像相对于所述图像的位置信息及各所述单元图像的类别信息;
将所述单元图像输入到第一ViT深度学习神经网络模型进行特征提取,得到图像特征;
对所述音频进行短时傅里叶变换;
对所述音频进行梅尔频谱滤波以得到频谱图;
将所述频谱图输入到第二ViT深度学习神经网络模型进行特征提取,得到音频特征。
3.根据权利要求1所述的基于图像和音频双模态鸟类识别方法,其特征在于,所述将所述图像特征及音频特征融合包括:
将所述图像特征及音频特征进行加权融合,其中,所述加权融合按如下公式进行计算:
sout=α·s0+β·s1
其中sout为融合结果,s0为所述图像特征,α为图像特征权重系数,s1为所述音频特征,β为音频特征权重系数,α+β=1且α、β≥0。
4.根据权利要求3所述的基于图像和音频双模态鸟类识别方法,其特征在于,所述输出所述鸟类的细粒度识别结果包括:
将所述融合结果输入全连接层,其中,所述全连接层包括所述融合结果与所述鸟类细粒度对应的识别类别;
对各所述识别类别进行赋分计算并排名,取排名前三的识别类别作为识别结果输出。
5.根据权利要求1所述的基于图像和音频双模态鸟类识别方法,其特征在于,包括:
对所述ViT深度学习神经网络模型进行模型训练,具体为:
使用随机梯度下降作为优化器训练所述ViT深度学习神经网络模型直至损失函数收敛,所述损失函数为:
Figure FDA0003719056770000021
其中n是样本数,m是类别数,yic是符号函数,当对样本i的预测结果为类别c为真时等于1否则等于0,pic是对观察到的样本i预测其属于类别c的概率。
6.一种基于图像和音频双模态鸟类识别装置,其特征在于,包括:
采集模块,用于获取所述鸟类的图像及音频;
特征提取模块,用于利用ViT深度学习神经网络模型对所述图像及音频进行特征提取,得到图像特征及音频特征;
识别模块,用于将所述图像特征及音频特征融合,输出所述鸟类的细粒度识别结果。
7.根据权利要求6所述的基于图像和音频双模态鸟类识别装置,其特征在于,包括:
图像调整模块,用于将所述图像调整为W×H格式并分割成多个单元图像,将所述单元图像进行二维卷积得到各所述单元图像的嵌入表示;
第一ViT深度学习神经网络模型,用于对所述单元图像进行特征提取以得到图像特征;
音频调整模块,用于对所述音频进行短时傅里叶变换并对所述音频进行梅尔频谱滤波以得到频谱图;
第二ViT深度学习神经网络模型,用于对所述频谱图进行特征提取以得到音频特征。
8.根据权利要求6所述的基于图像和音频双模态鸟类识别装置,其特征在于,包括:
输入模块,用于将所述融合结果输入全连接层,其中,所述全连接层包括所述融合结果与所述鸟类细粒度对应的识别类别;
赋分计算模块,用于对各所述识别类别进行赋分计算并排名,取排名前三的识别类别作为识别结果输出。
9.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1~5中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机可读指令,所述指令被处理器执行时使得处理器执行权利要求1~5中任意一项所述的方法。
CN202210785055.2A 2022-06-28 2022-06-28 基于图像和音频双模态鸟类识别方法、装置、设备及介质 Pending CN115063601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210785055.2A CN115063601A (zh) 2022-06-28 2022-06-28 基于图像和音频双模态鸟类识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210785055.2A CN115063601A (zh) 2022-06-28 2022-06-28 基于图像和音频双模态鸟类识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115063601A true CN115063601A (zh) 2022-09-16

Family

ID=83204031

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210785055.2A Pending CN115063601A (zh) 2022-06-28 2022-06-28 基于图像和音频双模态鸟类识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115063601A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690448A (zh) * 2022-11-09 2023-02-03 广东省科学院动物研究所 一种基于ai的鸟类物种识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647912A (zh) * 2019-08-15 2020-01-03 深圳久凌软件技术有限公司 细粒度图像识别方法、装置、计算机设备及存储介质
CN112686293A (zh) * 2020-12-25 2021-04-20 广东电网有限责任公司中山供电局 一种基于gmm识别模型的鸟类智能识别方法及系统
CN112749760A (zh) * 2021-01-22 2021-05-04 淮阴师范学院 一种基于深度卷积网络的水鸟图像识别特征融合模型系统及方法
CN113469014A (zh) * 2021-06-29 2021-10-01 智洋创新科技股份有限公司 一种基于深度学习的输电线路鸟类隐患防治方法
CN114648667A (zh) * 2022-03-31 2022-06-21 北京工业大学 一种基于轻量化双线性cnn模型的鸟类图像细粒度识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647912A (zh) * 2019-08-15 2020-01-03 深圳久凌软件技术有限公司 细粒度图像识别方法、装置、计算机设备及存储介质
CN112686293A (zh) * 2020-12-25 2021-04-20 广东电网有限责任公司中山供电局 一种基于gmm识别模型的鸟类智能识别方法及系统
CN112749760A (zh) * 2021-01-22 2021-05-04 淮阴师范学院 一种基于深度卷积网络的水鸟图像识别特征融合模型系统及方法
CN113469014A (zh) * 2021-06-29 2021-10-01 智洋创新科技股份有限公司 一种基于深度学习的输电线路鸟类隐患防治方法
CN114648667A (zh) * 2022-03-31 2022-06-21 北京工业大学 一种基于轻量化双线性cnn模型的鸟类图像细粒度识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690448A (zh) * 2022-11-09 2023-02-03 广东省科学院动物研究所 一种基于ai的鸟类物种识别方法及装置

Similar Documents

Publication Publication Date Title
CN106887225B (zh) 基于卷积神经网络的声学特征提取方法、装置和终端设备
US11232785B2 (en) Speech recognition of named entities with word embeddings to display relationship information
CN110288049B (zh) 用于生成图像识别模型的方法和装置
US11030994B2 (en) Selective activation of smaller resource footprint automatic speech recognition engines by predicting a domain topic based on a time since a previous communication
CN112509584A (zh) 声源位置确定方法、装置和电子设备
CN116932919B (zh) 信息推送方法、装置、电子设备和计算机可读介质
CN115063601A (zh) 基于图像和音频双模态鸟类识别方法、装置、设备及介质
CN113989616A (zh) 一种目标检测方法、装置、设备和存储介质
CN110069997B (zh) 场景分类方法、装置及电子设备
CN116913258B (zh) 语音信号识别方法、装置、电子设备和计算机可读介质
CN111312223B (zh) 语音分割模型的训练方法、装置和电子设备
KR20220039313A (ko) 뉴럴 네트워크 연산 처리 방법 및 장치
CN115331048B (zh) 图像分类方法、装置、设备以及存储介质
US10915794B2 (en) Neural network classification through decomposition
CN111312224A (zh) 语音分割模型的训练方法、装置和电子设备
CN111582456B (zh) 用于生成网络模型信息的方法、装置、设备和介质
CN115131291A (zh) 对象计数模型的训练方法、装置、设备以及存储介质
US20220076035A1 (en) Coarse-to-fine attention networks for light signal detection and recognition
CN113987258A (zh) 音频的识别方法、装置、可读介质和电子设备
CN112990440A (zh) 用于神经网络模型的数据量化方法、可读介质和电子设备
US10045143B1 (en) Sound detection and identification
CN112070022A (zh) 人脸图像识别方法、装置、电子设备和计算机可读介质
US11514892B2 (en) Audio-spectral-masking-deep-neural-network crowd search
KR102396190B1 (ko) 딥러닝 기반의 교차 시험 영상 처리 방법 및 그 장치
CN114360528B (zh) 语音识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination