CN117095694B - 一种基于标签层级结构属性关系的鸟类鸣声识别方法 - Google Patents
一种基于标签层级结构属性关系的鸟类鸣声识别方法 Download PDFInfo
- Publication number
- CN117095694B CN117095694B CN202311345326.3A CN202311345326A CN117095694B CN 117095694 B CN117095694 B CN 117095694B CN 202311345326 A CN202311345326 A CN 202311345326A CN 117095694 B CN117095694 B CN 117095694B
- Authority
- CN
- China
- Prior art keywords
- bird
- audio
- sound
- features
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012937 correction Methods 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 21
- 235000019580 granularity Nutrition 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000012805 post-processing Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 230000003628 erosive effect Effects 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000000658 coextraction Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 230000003247 decreasing effect Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000012800 visualization Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 241000271566 Aves Species 0.000 description 26
- 241000894007 species Species 0.000 description 19
- 230000007613 environmental effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于标签层级结构属性关系的鸟类鸣声识别方法,属于生态学与人工智能技术交叉领域,包括:为每只鸟(如目、科和属)引入了分层多粒度标签,并利用分层语义嵌入框架来捕获不同粒度级别的特征信息。在整个网络中使用特定的注意力机制来提取和选择层级间的一般属性和特有属性,从而提高分类的准确性。本发明还采用一种简单而有效的路径校正策略来更正模型产生的不符合层级约束的预测结果。本发明可以大大提升类别预测的准确性并降低分类错误损失。
Description
技术领域
本发明属于生态学与人工智能技术交叉领域,具体涉及一种基于标签层级结构属性关系的鸟类鸣声识别方法。
背景技术
长期运行的基于被动声学监测(PAM)的鸟类监测系统将生成大量的记录文件,这些文件需要大量的精力和资源来手动分析。鸟类鸣声自动识别可以显著提高每个记录文件的处理效率,这对于实现鸟类智能监测的目标至关重要。鸟类鸣声自动识别的本质是对音频信号进行分类,类似于声纹识别。近年来,鸟类鸣声自动识别技术已从经典模式识别发展到深度学习,识别性能显著提高。用深度学习解决这类问题的一般方式为,构造一个端到端的神经网络模型,典型工作流程主要分解为以下三个主要步骤:预处理、特征提取和识别。原始录音通过预处理而产生相对干净的鸟叫声。特征提取是提取不同鸟类或个体的区分性特征的过程,可以手工制作(即时域、频域和时频域的计算),也可以从数据结构中自动学习(例如深度卷积神经网络)。识别过程则是将鸟类的发声特征通过分类或聚类得到声音对应的物种或个体。
一种理想的鸟类发声自动识别方法应该能够管理嘈杂的野外记录并产生稳健的识别结果,这是确保野生鸟类自动调查和监测成功的一项具有挑战性的任务。现有技术的主要缺陷概述如下:
(1)复杂的野外录音环境。在野外录音中,总有环境噪音,如自然环境音(风、雨等)和人造环境音(人为活动声音),这些声音可能会掩盖鸟类的叫声。此外,鸟群中相同或不同种类的鸟类可能会彼此合唱,导致录音中的声音重叠。上述情况使得识别瞬态、部分掩盖或重叠的发声变得困难,导致识别不正确,这对大多数现有的识别方法来说是一个巨大的挑战。
(2)巨大的种内发声差异。首先,鸟类拥有自己的发声曲目,其大小和复杂性取决于物种。其次,生活在不同地区的同一物种的鸟类发声可能存在差异。最后,由于发声可能被记录在不同的距离,其振幅、频率会有不同程度的扭曲。所有这些因素都导致了物种内的高度变异,使得学习完全有代表性的特定物种特征变得具有挑战性。
(3)有限的人工标注数据。一方面,收集到不同种类的鸣声数据显著不平衡,数据集呈现严重的长尾分布。另一方面,为了防止结果产生偏差,现有的识别方法往往容易过度拟合训练数据,这需要消耗非常大且具有代表性的训练数据集,这些数据集涵盖了野外的自然变异。因此,缺乏全面的、经过专家验证的数据集已成为训练通用且强大的分类器的最基本知识缺口。
(4)物种间自然属性关系的生物信息缺失。每种鸟类都隶属于唯一的目、科、属、种。大多数现有的方法忽视了不同鸟类种群之间固有的自然亲缘关系,而这往往隐含大量的生物学信息。例如属于同一科或同一属的鸟类鸣声可能会极其相似。
发明内容
为解决上述技术问题,本发明提供一种基于标签层级结构属性关系的鸟类鸣声识别方法,从数据、特征、模型三个不同层面对上述技术问题提出相应的解决策略。本发明将物种间的自然层级关系作为先验知识引入分类网络,同时预测对象各层级标签,可以有效地规范特征语义空间;采用场景适应的数据增强方式,以应数据分布不均、不同野外噪音覆盖目标信号等问题。本发明可以大大提升类别预测的准确性并降低分类错误损失。
为达到上述目的,本发明采用如下技术方案:
一种基于标签层级结构属性关系的鸟类鸣声识别方法,包括如下步骤:
步骤1、对每条原始音频进行预处理,所述预处理包括原始音频的信噪分离、预加重、分帧、加窗、离散傅里叶变换,应用梅尔滤波器组进行信号平滑化获得时序信号,并利用差分算子处理所得时序信号,组合为3D频谱图,获得训练鸟类鸣声识别算法模型所需的特征;
步骤2、搭建基于层级结构的鸟类鸣声识别算法模型,并利用步骤1获得的特征训练基于层级结构的鸟类鸣声识别算法模型;通过带位置注意力的Xception模型增强鸟类鸣声在所有层级粒度的表达能力,并通过层级信息交互模块的设计使位于不同层级粒度的特有特征具有区分性与判别性;采用少数服从多数、底层优先、分数优先的路径矫正策略进行后处理;
步骤3、利用所述鸟类鸣声识别算法模型,对外部测试集进行鸟类鸣声识别,针对焦点声音识别与声景识别两种不同应用场景设计不同的模型推理过程,得到识别结果。
有益效果:
考虑到鸟类声音的种群相似关系,本发明利用鸟类的生态学信息构建了层级关系网,设计了基于层级关系的建模框架,可以对鸟类鸣声进行更细致、更准确的分类。
注意力机制有助于突出音频数据中的重要特征,提高模型的整体性能;正交分解和融合模块能够组合不同类型的特征,从而更全面地表示鸟鸣;路径矫正的后处理策略有助于细化结果并减少错误分类的严重程度。
最后,本发明提出的一种场景适应的数据增强策略能够有效应对真实场景中的复杂环境噪声以及多样化的种群发声;其中,针对稀有鸟类设计的数据扩充方式能够缓解数据的长尾分布问题,进一步提升识别准确率。
附图说明
图1为本发明实施例提供的一种基于标签层级结构属性关系的鸟类鸣声识别方法的流程图;
图2为本发明实施例提供的声音特征提取过程流程图;
图3为本发明实施例提供的底层网络结构示意图;
图4为本发明实施例提供的树级层次关系结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种基于标签层级结构属性关系的鸟类鸣声识别方法,其为考虑层级结构关系的鸟类鸣声识别方法,为每只鸟(如目、科和属)引入了分层多粒度标签,并利用分层语义嵌入框架来捕获不同粒度级别的特征信息。在整个网络中使用特定的注意力机制来提取和选择层级间的一般属性和特有属性,从而提高分类的准确性。本发明还提出了一种简单而有效的路径校正策略来更正模型产生的不符合层级约束的预测结果。
如图1所示,本发明的一种基于标签层级结构属性关系的鸟类鸣声识别方法包括如下步骤:
步骤1、对每条原始音频进行预处理,所述预处理包括原始音频的信噪分离、预加重、分帧、加窗、离散傅里叶变换,应用梅尔滤波器组进行信号平滑化获得时序信号,并利用差分算子处理所得时序信号,组合为3D频谱图,获得训练鸟类鸣声识别算法模型所需的特征,通过声音预处理模块和主干特征提取模块实现,包括:
步骤(1.1)首先对原始音频的格式进行规范化,获得声音文件。原始音频的录音统一重新采样到32kHz(采样深度为2),混合到单声道并进行归一化,储存为WAV格式,丢弃损坏音频。
步骤(1.2)按照训练集:验证集:测试集 = 8:1:1划分数据集。为了保持划分均匀且随机,将一个物种的录音按时长从高到低排序,每10个样本,随机采样8个训练集样本、1个验证集样本、1个测试集样本,剩余样本归到训练集。
步骤(1.3)进行声音文件的信号与噪声分离。应用图像处理方法将每个训练集的音频内容分为信号部分和噪声部分,具体操作为:
首先,音频通过汉明窗口函数(大小512,75%重叠)来进行短时傅立叶变换(STFT)形成声谱图,然后将每个帧元素除以最大值,使得所有值在区间[0,1]中。
对于信号部分(代表鸟鸣或鸣叫元素),选择声谱图中大于行中值三倍且大于列中值三倍的所有像素,将这些像素设置为1,将其他像素设置为0。其次,应用一个4×4二进制侵蚀滤波器和两个4×1二进制膨胀滤波器来去除噪声并连接片段。本发明创建了一个新的指示向量,它的元素数量与谱图中的列(帧)数量一样多。如果第i列包含至少一个1,则将该向量中的第i个元素设置为1,否则将其设置为0。所有指示为1的元素代表提取的信号部分。
对于噪声部分(代表背景声音或杂音),遵循相同的步骤,但是选择所有大于行和列中值2.5倍的像素。然后,按照上述进行,最后颠倒结果。
通过连接属于鸟鸣或鸣叫元素、噪声的所有帧,分别形成“BirdsOnly”和“NoiseOnly”文件。由此将音频的信号部分和噪声部分保存,为后续数据扩充作准备。
步骤(1.4)通过可视化信号特征提取来构造合适的输入数据。人耳对声谱的响应是非线性的,滤波器组(fbank)是一种前端处理算法,以类似于人耳的方式处理音频,以提高声音识别的性能。如图2所示,获得信号的fbank特征的一般步骤是:预加重、分帧、加窗、傅里叶变换(FFT)、Mel(梅尔)滤波等。
预加重:通过公式加强信号高频,其中/>为信号采样数,/>为信号幅度值,系数/>取为0.97。/>表示经过预加重后的信号,/>表示第/>个采样信号;
分帧:使用滑动窗口将不定长的音频切分成固定长度的小段。每帧时长设置为64ms (n_fft=2048),窗移为帧长的2/3(42.7ms重叠)。
加窗:每帧信号与汉明窗函数相乘,让帧两端平滑地衰减到零。
FFT(傅里叶变换):通过公式,其中,表示经过傅里叶变换后的信号,/>表示第/>帧,/>表示信号采样数,/>表示第/>个采样信号,/>表示虚数。
将信号从时域转到频域,并通过公式计算能量谱,/>表示能量谱。其中/>代表处理后的信号,/>代表帧数。
Mel(梅尔)滤波:通过公式,将实际频率转化为Mel频率,并取对数,得到fbank特征。其中,/>是Mel标度频率,2595是控制人耳感知的与实际频率相对应的声音频率的值,/>是声学信号的实际频率。
然而,fbank特征表示仅表示声音数据的静态特征。本发明提取了一阶fbank()和二阶fbank(/>),以保持鸟叫声的动态特征。
将fbank、、/>三个特征采用3×3滤波器进行异常值过滤。每个特征的最终提取矩阵大小为/>。为了保持神经网络模型在三个特征下关注的位置具有一致性,即关注片段中鸟类的发声位置,将特征融合在通道维度上,得到尺寸为的三维特征图。其中,/>表示mel频带数,/>表示时间帧数。
步骤(1.5)为应对真实世界样本中不可预见的变化(同种鸟类的发声差异,环境因素带来的鸣声变异),设计一种场景适应的数据增强策略。对于所有鸟类音频,采用以下3种数据增强方法:(ⅰ)添加“BirdsOnly”中文件以增加数据集;(ⅱ)采用概率为0.5的随机频谱图混合(mixup),以适应鸣声重叠的情况;(ⅲ)采用概率为0.25的随机tanh失真,以适应低质量音频情况。tanh()函数可以给出一种舍入的“软剪裁”失真,失真量与输入的响度和预增益成比例。Tanh是对称的,因此信号的正部分和负部分以相同的方式压缩。这种变换增加了谐波,从而改变了声音的音色。
对于珍稀鸟类和濒危鸟类,分别进行随机数据扩充,以缓解数据中长尾分布的问题。(ⅰ)随机选择并添加来自“NoiseOnly”的噪声;(ⅱ)随机裁剪并拼接同一鸟类音频以扩充样本。上述两种数据增强技术以0.25的概率应用于珍稀鸟类,以0.5的概率应用于濒危鸟类。
具体地,珍稀鸟类定义:样本时长与样本数量小于0.5分位数的鸟类。
具体地,濒危鸟类定义:样本时长与样本数量小于0.25分位数的鸟类。
步骤2、搭建基于层级结构的鸟类鸣声识别算法模型,并利用步骤1获得的特征训练基于层级结构的鸟类鸣声识别算法模型;通过带位置注意力的Xception模型增强鸟类鸣声在所有层级粒度的表达能力,并通过层级信息交互模块的设计使位于不同层级粒度的特有特征具有区分性与判别性;采用少数服从多数、底层优先、分数优先的路径矫正策略进行后处理,包括:
步骤(2.1)本发明采用Xception+位置注意力机制来搭建底层网络;
如图3所示,Xception是相对轻量化的网络模型,使用前2个卷积层(Conv)和12个深度可分卷积块(DSC block)作为主干网络,最后2个深度可分卷积层(SeparableConv)和ReLU激活层组合成一个层级特征提取分支。
所述主干网络包括输入流、中间流和输出流。所述输入流具有3个深度可分卷积块。所述中间流具有8个深度可分卷积块。所述输出流具有1个深度可分卷积块。
如图3的右图所示,主干网络的输出流的最后一个深度可分卷积块由2个ReLU激活层+深度可分卷积层、1个最大池化层组成,在池化层后添加位置注意力。每个坐标注意力的输出特征是所有位置的特征和原始特征的加权和。因此,本发明捕捉长程上下文信息,并基于空间注意力图选择性地聚合上下文,空间注意力图聚合时域和频域的特征。
步骤(2.2)本发明采用层级注意力机制(Hierarchical Attention)与特征的跨层级正交分解与融合(Cross Hierarchy Orthogonal Fusion,CHOF)模块来搭建层级语义特征交互模块;
在层级信息交互过程中,特征自上而下地传递,细粒度层可以在正向过程中发现与粗粒度层的差异,从而增强区域观测的可分辨性。粗粒度特征可以通过反向梯度传播过程从细粒度特征中获得额外的补充细节。通过不同层次之间的区域互动,粗层次和细层次都可以实现绩效提升。
对于第层,原始/>维粒度语义特征/>由主干网络与第/>层级特征提取分支共同提取,其中/>、/>、/>分别代表特征的宽度、长度与通道数。考虑到人类在识别具有不同粒度属性的物种时往往关注不同范围的区域,本发明扩展了自注意机制来捕捉到丰富的上下文关系,从而在不同级别上获得更好的具有类内紧凑性的特征表示。
首先应用个1×1卷积层,然后进行批量归一化和ReLU激活,以生成维相似性图/>。之后,重塑相似性图/>到/>维(),重塑粒度语义特征/>到/>维。最后,语义特征的向量/>是通过相似性图/>的转置和粒度语义特征/>的矩阵乘法而获得的。
通过跨层级正交分解与融合模块,集成相邻级别的区域表示来增强细粒度表示的可分辨性。在第层,往往会忽视/>层的特有特征,而更加注意当前层的判别属性。因此,对于第/>层,本发明对特征空间进行正交分解以获得投影特征/>和正交特征,其定义分别为:
,
。
其中,是
上的平均池操作之后的全局特征。然后,可以通过以下公式计算信息交互后的第/>层级特征:
,
其中,是控制正交分量程度的影响因子。
步骤(2.3)本发明采用(/>为层级数量)个并行的完全连接层结合softmax激活层来搭建分类模块;
采用改进的多标签分类损失函数,得到最终的优化目标损失为:
,
其中,表示第/>层的多标签分类交叉熵损失函数,/>为模型的输入,/>为/>的第/>层粒度标签,/>为模型的预测结果,/>为目标平衡因子。表示正交区域正则化损失,其定义为:
,
,
其中,表示级别/>上每个类别第/>个正交区域的中心。
步骤(2.4)本发明采用“少数服从多数、底层优先、分数至上”的路径矫正策略进行后处理;
当预测结果不满足分层约束时,采用路径矫正算法来获得一致预测,具体来说:首先,将不一致的路径与树中的所有路径进行匹配,并选择匹配节点数最多的候选路径;其次,加权分配用于计算候选路径中的分数,权重从叶节点到根节点递减,这意味着粒度越细,匹配分数越高,从而获得最佳候选路径;最后,从下到上执行节点校正。如果最优候选路径在底部节点与预测路径不匹配,但在其父节点匹配,则重新选择父节点下预测得分最高的子节点作为校正节点。通过这种方式可以减少潜在的误差,并确保预测路径的完整性。
步骤3、利用训练后的所述鸟类鸣声识别算法模型,对外部测试集进行鸣声识别,得到识别结果,包括:
针对两种不同应用场景有以下两种不同的识别过程:
步骤(3.1)针对焦点声音(focal recording analysis)的鸟类识别(待识别音频时间范围:5s~60s):使用滑动窗口将待测音频进行划分,窗口长度为5s,窗口步长3s。不足3s的声音文件进行噪声填充。将划分好的音频信号段按照步骤(1.4)过程提取三维特征图,输入训练后的鸟类鸣声识别算法模型,每个音频信号段得到一个物种识别结果。将这些物种识别结果进行投票,票数最高物种为单个待测音频的最终鸟类识别结果。
步骤(3.2)针对声景(soundscape recording analysis)的鸟类识别(待识别音频时间范围:≥60s):野外设备采集的录音通常长达数十小时。录音中囊括的鸟类数量几种到几十种不等。为统计整段音频中出现的鸟类类别及其数量,将声景录音按照60s长度进行片段切割,每个片段按照步骤(1.4)过程提取三维特征图,输入训练后的鸟类鸣声识别算法模型,识别出一种鸟类。最后将这些60s长度的片段的输出结果进行统计计数即可。
为了说明本发明实施例上述方案的效果,下面结合具体示例进行说明。
本实施例采用了两个大型鸣声数据集来进行实验:(1)100种不同鸟类的现场录音的鸟类鸣声数据集。每个类别的声音片段数量从10到4647不等,持续时间从6m18s到77h55min15s不等。本发明为它们分配了三个层级标签:目、科和种类。此外,本发明额外增设一个层级来事先划分纯噪声与含鸟声的录音,如图4所示。(2)BirdCLEF2018鸟鸣数据集。该数据集是LifeCLEF发布的2018年官方鸟类声音识别比赛数据集。这些数据主要来源于Xeno-Canto的鸟类鸣声公开网站,该网站覆盖了中美洲和南美洲的1500个物种,本发明选取其中150个典型物种声音进行实验,并为其分配4级标签:目、科、属和种类,如图4所示。
实验对比基线方法与带层级结构的识别算法,分别展示平均倒数排名(MRR)、准确率(ACC)和错误层级距离(HDM)。实验结果显示表1和表2,表1为本发明实施例提供的100种不同鸟类的现场录音的鸟类鸣声数据集实验结果;表2为本发明实施例提供的BirdCLEF2018鸟鸣数据集实验结果。
在引入层级结构算法后,本发明技术在两个数据集上的识别性能都有显著提高,最终识别准确率分别达到89.57%与92.53%。这表明,考虑类层次结构的算法在不同场景下的鸣声数据集上都能够带来信息增益,从而提升识别效果。同时,由于层级关系的约束,在不同数据集上的错误层级距离相比基线也各有下降,说明其犯错误的严重程度被降低。
表1
表2
,
此外,为了提高模型在不平衡数据集上的泛化性能,有必要采用数据增强策略。与不考虑任何数据增强策略的模型进行对比,本发明中提出的模型在100种不同鸟类的现场录音的鸟类鸣声数据集上带来了约0.1%的平均分类精度增益,在BirdCLEF2018鸟鸣数据集上分别带来了约0.6%的平均分类精度增益。说明本发明中采样的数据增强策略能够应对不同真实场景带来的鸣声变化,且具有一定的通用性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于标签层级结构属性关系的鸟类鸣声识别方法,其特征在于,包括如下步骤:
步骤1、对每条原始音频进行预处理,所述预处理包括原始音频的信噪分离、预加重、分帧、加窗、离散傅里叶变换,应用梅尔滤波器组进行信号平滑化获得时序信号,并利用差分算子处理所得时序信号,组合为3D频谱图,获得训练鸟类鸣声识别算法模型所需的特征,包括:
步骤(1.1)对原始音频的格式进行归一化,获得声音文件;
步骤(1.2)将声音文件按照训练集:验证集:测试集 = 8:1:1进行划分;
步骤(1.3)进行声音文件的信号与噪声分离,包括:
将音频通过汉明窗口函数来进行短时傅立叶变换,然后将每个帧元素除以最大值,使得所有值在区间[0,1]中,形成标准化声谱图;
对于信号部分,选择标准化声谱图中大于行中值三倍且大于列中值三倍的所有像素,将这些像素设置为1,将其他像素设置为0;应用一个4×4二进制侵蚀滤波器和两个4×1二进制膨胀滤波器去除噪声并连接片段;创建一个新的指示向量,对标准化声谱图中包含至少一个1的列进行指示,代表提取的信号部分;所述信号部分代表鸟鸣或鸣叫元素;
对于噪声部分,选择标准化声谱图中小于行和列中值2.5倍的所有像素,将这些像素设置为1,将其他像素设置为0;应用一个4×4二进制侵蚀滤波器和两个4×1二进制膨胀滤波器去除噪声并连接片段;创建一个新的指示向量,对标准化声谱图中包含至少一个1的列进行指示,代表提取的噪声部分;所述噪声部分代表背景声音或杂音;
通过连接属于鸟鸣或鸣叫元素、背景声音或杂音的所有帧,分别形成BirdsOnly文件和NoiseOnly文件;将信号部分和噪声部分保存,为后续数据扩充作准备;
步骤(1.4)通过信号可视化的三维特征图提取构造输入数据;
步骤(1.5)设计对场景适应的数据增强策略:
对于所有鸟类音频,采用以下3种数据增强方法:(ⅰ)添加BirdsOnly文件中的鸟鸣或鸣叫元素以增加数据集;(ⅱ)采用概率为0.5的随机频谱图混合,以适应鸣声重叠的情况;(ⅲ)采用概率为0.25的随机tanh失真,以适应低质量音频情况;
对于珍稀鸟类和濒危鸟类,分别进行随机数据扩充,以缓解数据中长尾分布的问题,包括以下2种数据增强方法:(ⅰ)随机选择并添加来自NoiseOnly文件的背景声音或杂音;(ⅱ)随机裁剪并拼接同一鸟类音频以扩充样本;上述两种数据增强方法以0.25的概率应用于珍稀鸟类,以0.5的概率应用于濒危鸟类;
步骤2、搭建基于层级结构的鸟类鸣声识别算法模型,并利用步骤1获得的特征训练基于层级结构的鸟类鸣声识别算法模型;通过带位置注意力的Xception模型增强鸟类鸣声在所有层级粒度的表达能力,并通过层级信息交互模块的设计使位于不同层级粒度的特有特征具有区分性与判别性;采用少数服从多数、底层优先、分数优先的路径矫正策略进行后处理;
步骤3、利用所述鸟类鸣声识别算法模型,对外部测试集进行鸟类鸣声识别,针对焦点声音识别与声景识别两种不同应用场景设计不同的模型推理过程,得到识别结果。
2.根据权利要求1所述的一种基于标签层级结构属性关系的鸟类鸣声识别方法,其特征在于,所述步骤2包括:
步骤(2.1)采用Xception+位置注意力机制搭建底层网络:
使用前2个卷积层和12个深度可分卷积块作为主干网络,最后2个深度可分卷积层组合成一个层级特征提取分支;
在主干网络的最后一个深度可分卷积块后添加位置注意力;每个位置注意力的输出特征是所有位置的特征和原始特征的加权和;
步骤(2.2)采用层级注意力机制与特征的跨层级正交分解与融合模块搭建层级语义特征交互模块:
对于第层,原始/>维粒度语义特征/>由主干网络与第/>层级特征提取分支共同提取,其中/>、/>、/>分别代表特征的宽度、长度与通道数;
首先,应用个1×1卷积层,然后进行批量归一化和ReLU激活,以生成维相似性图/>,其中/>代表卷积层的通道数;之后,重塑相似性图到/>维,其中,/>,/>为中间参数,重塑粒度语义特征/>到/>维;最后,通过相似性图/>的转置和粒度语义特征/>的矩阵乘法获得语义特征的向量/>;
通过跨层级正交分解与融合模块,集成相邻级别的区域表示来增强细粒度表示的可分辨性;对于第层,对特征空间进行正交分解以获得投影特征/>和正交特征,其定义分别为:
,
,
其中,是/>上的平均池操作之后的全局特征;
通过以下公式计算信息交互后的第层级特征/>:
,
其中,是控制正交分量程度的影响因子;
步骤(2.3)采用个并行的完全连接层结合softmax激活层来搭建分类模块,其中,/>为层级数量;
采用改进的多标签分类损失函数,得到最终的优化目标损失为:
,
其中,表示第/>层的多标签分类交叉熵损失函数,/>为模型的输入,/>为/>的第/>层粒度标签,/>为模型的预测结果,/>为目标平衡因子;表示正交区域正则化损失,其定义为:
,
其中,,其中/>表示级别/>上每个类别第/>个正交区域的中心;
步骤(2.4)当预测结果不满足分层约束时,采用路径矫正策略获得一致预测:首先,将不一致的路径与树中的所有路径进行匹配,并选择匹配节点数最多的候选路径;其次,加权分配用于计算候选路径中的分数,权重从叶节点到根节点递减,即粒度越细,匹配分数越高,从而获得最佳候选路径;最后,从下到上执行节点校正;如果最优候选路径在底部节点与预测路径不匹配,但在其父节点匹配,则重新选择父节点下预测得分最高的子节点作为校正节点。
3.根据权利要求2所述的一种基于标签层级结构属性关系的鸟类鸣声识别方法,其特征在于,所述步骤3包括:
针对两种不同应用场景有以下两种不同的识别过程:
步骤(3.1)针对焦点声音的鸟类识别:使用滑动窗口将待测音频进行划分,窗口长度为5s,窗口步长3s;不足3s的声音文件进行噪声填充;将划分好的音频信号段按照步骤(1.4)根据三维特征图提取构造输入数据,输入训练后的鸟类鸣声识别算法模型,每个音频信号段得到一个物种识别结果;将物种识别结果进行投票,票数最高物种为单个待测音频的最终鸟类识别结果;针对焦点声音的鸟类识别的待识别音频时间范围为5s~60s;
(3.2)针对声景的鸟类识别:为统计整段音频中出现的鸟类类别及其数量,将声景录音按照60s长度进行片段切割,每个片段按照步骤(1.4)提取三维特征图,输入训练后的鸟类鸣声识别算法模型,识别出一种鸟类;最后将这些60s长度的片段的输出结果进行统计计数;针对声景的鸟类识别得到待识别音频时间范围为≥60s。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311345326.3A CN117095694B (zh) | 2023-10-18 | 2023-10-18 | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311345326.3A CN117095694B (zh) | 2023-10-18 | 2023-10-18 | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117095694A CN117095694A (zh) | 2023-11-21 |
CN117095694B true CN117095694B (zh) | 2024-02-23 |
Family
ID=88775385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311345326.3A Active CN117095694B (zh) | 2023-10-18 | 2023-10-18 | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095694B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117292693B (zh) * | 2023-11-27 | 2024-02-09 | 安徽大学 | 融入自注意力机制的crnn珍稀动物识别与定位方法 |
CN117569468B (zh) * | 2024-01-16 | 2024-03-19 | 广州声博士声学技术有限公司 | 基于室内主动降噪的隔声减振系统 |
CN117727332B (zh) * | 2024-02-18 | 2024-04-26 | 百鸟数据科技(北京)有限责任公司 | 基于语谱特征分析的生态种群评估方法 |
CN118173105B (zh) * | 2024-05-15 | 2024-07-05 | 百鸟数据科技(北京)有限责任公司 | 基于音频信号处理的鸟类鸣声识别方法 |
CN118535615A (zh) * | 2024-05-29 | 2024-08-23 | 北京三五通联科技发展有限公司 | 一种基于数据标注的数据统计分析方法 |
CN118522293B (zh) * | 2024-07-25 | 2024-09-24 | 百鸟数据科技(北京)有限责任公司 | 一种野生鸟类生态识别监测方法 |
CN118538226B (zh) * | 2024-07-25 | 2024-09-24 | 百鸟数据科技(北京)有限责任公司 | 一种基于3d卷积的生态环境鸟类鸣声识别方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978034A (zh) * | 2019-03-18 | 2019-07-05 | 华南理工大学 | 一种基于数据增强的声场景辨识方法 |
CN111476249A (zh) * | 2020-03-20 | 2020-07-31 | 华东师范大学 | 多尺度大感受野卷积神经网络的构建方法 |
CN112289326A (zh) * | 2020-12-25 | 2021-01-29 | 浙江弄潮儿智慧科技有限公司 | 一种具有噪音去除的鸟类识别综合管理系统及其噪音去除方法 |
CN112750442A (zh) * | 2020-12-25 | 2021-05-04 | 浙江弄潮儿智慧科技有限公司 | 一种具有小波变换的朱鹮种群生态体系监测系统及其小波变换方法 |
WO2021129569A1 (zh) * | 2019-12-25 | 2021-07-01 | 神思电子技术股份有限公司 | 一种人体动作识别方法 |
CN113963713A (zh) * | 2021-10-11 | 2022-01-21 | 稿定(厦门)科技有限公司 | 音频降噪方法及装置 |
CN114067107A (zh) * | 2022-01-13 | 2022-02-18 | 中国海洋大学 | 基于多粒度注意力的多尺度细粒度图像识别方法及系统 |
CN115294994A (zh) * | 2022-06-28 | 2022-11-04 | 重庆理工大学 | 一种真实环境中的鸟类鸣声自动识别系统 |
CN115762533A (zh) * | 2022-10-31 | 2023-03-07 | 南京信息工程大学 | 一种鸟鸣声分类识别方法及装置 |
WO2023056889A1 (zh) * | 2021-10-09 | 2023-04-13 | 百果园技术(新加坡)有限公司 | 模型训练和场景识别方法、装置、设备及介质 |
CN116206612A (zh) * | 2023-03-02 | 2023-06-02 | 中国科学院半导体研究所 | 鸟类声音识别方法、模型训练方法、装置、电子设备 |
CN116524939A (zh) * | 2023-04-23 | 2023-08-01 | 南京理工大学 | 一种基于ecapa-tdnn的鸟鸣物种自动识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101988222B1 (ko) * | 2015-02-12 | 2019-06-13 | 한국전자통신연구원 | 대어휘 연속 음성 인식 장치 및 방법 |
CN114202648B (zh) * | 2021-12-08 | 2024-04-16 | 北京百度网讯科技有限公司 | 文本图像矫正方法、训练方法、装置、电子设备以及介质 |
-
2023
- 2023-10-18 CN CN202311345326.3A patent/CN117095694B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109978034A (zh) * | 2019-03-18 | 2019-07-05 | 华南理工大学 | 一种基于数据增强的声场景辨识方法 |
WO2021129569A1 (zh) * | 2019-12-25 | 2021-07-01 | 神思电子技术股份有限公司 | 一种人体动作识别方法 |
CN111476249A (zh) * | 2020-03-20 | 2020-07-31 | 华东师范大学 | 多尺度大感受野卷积神经网络的构建方法 |
CN112289326A (zh) * | 2020-12-25 | 2021-01-29 | 浙江弄潮儿智慧科技有限公司 | 一种具有噪音去除的鸟类识别综合管理系统及其噪音去除方法 |
CN112750442A (zh) * | 2020-12-25 | 2021-05-04 | 浙江弄潮儿智慧科技有限公司 | 一种具有小波变换的朱鹮种群生态体系监测系统及其小波变换方法 |
WO2023056889A1 (zh) * | 2021-10-09 | 2023-04-13 | 百果园技术(新加坡)有限公司 | 模型训练和场景识别方法、装置、设备及介质 |
CN113963713A (zh) * | 2021-10-11 | 2022-01-21 | 稿定(厦门)科技有限公司 | 音频降噪方法及装置 |
CN114067107A (zh) * | 2022-01-13 | 2022-02-18 | 中国海洋大学 | 基于多粒度注意力的多尺度细粒度图像识别方法及系统 |
CN115294994A (zh) * | 2022-06-28 | 2022-11-04 | 重庆理工大学 | 一种真实环境中的鸟类鸣声自动识别系统 |
CN115762533A (zh) * | 2022-10-31 | 2023-03-07 | 南京信息工程大学 | 一种鸟鸣声分类识别方法及装置 |
CN116206612A (zh) * | 2023-03-02 | 2023-06-02 | 中国科学院半导体研究所 | 鸟类声音识别方法、模型训练方法、装置、电子设备 |
CN116524939A (zh) * | 2023-04-23 | 2023-08-01 | 南京理工大学 | 一种基于ecapa-tdnn的鸟鸣物种自动识别方法 |
Non-Patent Citations (1)
Title |
---|
基于机器学习的细粒度图像视觉分析研究;张翔;中国优秀博士论文信息科技辑;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117095694A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117095694B (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
CN109065030B (zh) | 基于卷积神经网络的环境声音识别方法及系统 | |
CN111477250B (zh) | 音频场景识别方法、音频场景识别模型的训练方法和装置 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN112509564A (zh) | 基于连接时序分类和自注意力机制的端到端语音识别方法 | |
CN110033756B (zh) | 语种识别方法、装置、电子设备及存储介质 | |
CN110808033A (zh) | 一种基于双重数据增强策略的音频分类方法 | |
CN114863937B (zh) | 基于深度迁移学习与XGBoost的混合鸟鸣识别方法 | |
CN112750442B (zh) | 一种具有小波变换的朱鹮种群生态体系监测系统及其方法 | |
CN115188387B (zh) | 一种有效的海洋哺乳动物声音自动检测和分类方法 | |
Ting Yuan et al. | Frog sound identification system for frog species recognition | |
CN113191178A (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
CN113936667A (zh) | 一种鸟鸣声识别模型训练方法、识别方法及存储介质 | |
CN114386518A (zh) | 基于自适应宽度自注意力机制的轻量化异常声事件检测方法 | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Liu et al. | Birdsong classification based on multi feature channel fusion | |
CN110808067A (zh) | 基于二值多频带能量分布的低信噪比声音事件检测方法 | |
Bergler et al. | ORCA-SLANG: An Automatic Multi-Stage Semi-Supervised Deep Learning Framework for Large-Scale Killer Whale Call Type Identification. | |
CN116863956A (zh) | 一种基于卷积神经网络的鲁棒性鼾声检测方法及系统 | |
Chen et al. | An intelligent nocturnal animal vocalization recognition system | |
CN113488069B (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
CN113539298B (zh) | 一种基于云边端的声音大数据分析计算图像化系统 | |
Bai et al. | CIAIC-BAD system for DCASE2018 challenge task 3 | |
CN114974267A (zh) | 鸟语分类模型训练方法及鸟语识别方法 | |
CN114372513A (zh) | 一种鸟声识别模型的训练方法、分类方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |