CN117238298B - 一种基于声音事件的动物识别与定位方法及系统 - Google Patents
一种基于声音事件的动物识别与定位方法及系统 Download PDFInfo
- Publication number
- CN117238298B CN117238298B CN202311498926.3A CN202311498926A CN117238298B CN 117238298 B CN117238298 B CN 117238298B CN 202311498926 A CN202311498926 A CN 202311498926A CN 117238298 B CN117238298 B CN 117238298B
- Authority
- CN
- China
- Prior art keywords
- features
- animal
- outputting
- sound
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241001465754 Metazoa Species 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000013075 data extraction Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 22
- 230000004807 localization Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 7
- 241000894007 species Species 0.000 claims description 5
- 238000000605 extraction Methods 0.000 description 20
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000011176 pooling Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000005314 correlation function Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000000750 progressive effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000001125 extrusion Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241000272814 Anser sp. Species 0.000 description 1
- 241000286209 Phasianidae Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于声音事件的动物识别与定位方法,包括采集动物声源信息,多通道的音频数据、对应所述音频数据的声音事件标签和位置标签;提取所述音频数据的浅层特征并输出;使用残差注意力网络处理所述浅层特征,用以生成深层特征并输出;使用时间上下文处理所述深层特征,用以判断并筛选所述深层特征中的有效特征并输出;通过回归处理输出动物的识别及定位结果。还包括了一种基于声音事件的动物识别与定位的相关系统,该系统包括有数据采集模块、数据提取模块、残差注意力网络、时间上下文表示模块以及回归处理模块。
Description
技术领域
本发明涉及音频处理技术、计算机技术领域,具体涉及一种基于声音事件的动物识别与定位方法及系统。
背景技术
动物的声音包含丰富的信息,利用动物的声音数据,可以识别动物种类、估计动物位置,从而跟踪野生动物的迁徙轨迹、评估物种丰度,结合动物物种识别与定位,可实现动物多样性监测,有效地对野生动物进行监控与保护。
随着深度学习技术的发展,计算机算法被广泛应用于动物声音的物种识别,但基于声音对动物进行定位多采用传统基于麦克风阵列的信号处理算法,且在定位前需人工处理动物发声的片段,耗费大量的时间和精力,动物声音片段检测、个体定位、动物声音识别分开执行。
声音事件检测,即检测较长录音中动物的发声片段以及识别不同声音事件的分类,可基于深度学习技术,将声音事件检测与动物位置估计结合起来,从获取的录音数据中检测动物发声片段、识别发声动物的种类并对动物进行定位。当前,基于深度学习的声音事件检测与定位模型多采用卷积神经网络和循环神经网络结合的方法,存在未充分利用特征的问题,可进一步优化模型结构,提高检测定位的精度。
发明内容
针对现有技术中存在未充分利用特征、检测与定位方法复杂耗时、精度不高等缺陷,本发明提出一种基于声音事件的动物识别与定位方法及系统,结合深度可分离卷积和残差注意力网络,对动物的声音事件进行检测,并进行分类识别与个体定位。
本发明技术方案及说明如下:
一种基于声音事件的动物识别与定位方法,包括以下步骤:
采集动物声源信息,包括:多通道的音频数据、对应所述音频数据的声音事件标签和位置标签;
提取所述音频数据的浅层特征并输出;
使用残差注意力网络处理所述浅层特征,用以生成深层特征并输出;
使用时间上下文处理所述深层特征,用以判断并筛选所述深层特征中的有效特征并输出;
通过回归处理输出动物的识别及定位结果。
进一步的,所述的一种基于声音事件的动物识别与定位方法,还包括:
对所述音频数据、声音事件标签和位置标签进行划分,划分为训练集和测试集。
进一步的,所述声音事件标签为发声动物的发声片段起止帧以及发声动物的物种类别,位置标签为发声动物的空间坐标。
进一步的,所述的一种基于声音事件的动物识别与定位方法,还包括:
所述音频数据的通道数为三通道或三通道以上,该通道是指平面麦克风阵列中麦克风的数量,一般采用不在同一直线上的三个或三个以上数量的麦克风。
若定位动物在k维空间中的位置,则所述音频数据的通道数至少为k+1。定位动物即被采集信息的动物,定位动物在k维空间中的位置指该动物在空间中的具体位置,例如三维坐标系位置(x,y,z)等。
进一步的,所述残差注意力网络包括:标准卷积块、深度可分离卷积残差注意力块(Residual Block with Attention Module, ResBlk-A);残差注意力网络首先通过两个卷积层和平均池化层减小输入的浅层特征,然后在输入深度可分离卷积残差注意力模块,用于从输入数据中提取深层特征。
所述深度可分离卷积残差注意力块包括深度可分离卷积层、注意力层,且所述深度可分离卷积残差注意力块的输入和输出之间设有跳跃连接(Skip Connection,跳跃连接是一种在深度神经网络中连接不同层次之间节点的方法),采用深度可分离卷积构建残差块,对标准卷积过程进行分解,首先在每个通道上进行滤波,然后采用1×1点卷积组合每个通道上的输出,显著降低计算成本和模型大小。
所述深度可分离卷积层中深度可分离卷积将标准卷积分为两步,其一为逐深度卷积,在每个通道上对输入数据进行卷积,其二为逐点卷积,将各通道特征进行融合。所述深度可分离卷积提取特征过程如下公式(a)所示:
(a)
式中, 表示尺寸为i×j的卷积核,其第m个卷积核对输入特征X第m个通道进行运算,可得到输出特征图 />的第m个通道。深度可分离卷积的参数量和计算成本分别如公式(b)和公式(c)所示:
(b)
(c)
所述深度可分离卷积在第一部分利用逐深度卷积进行滤波处理,对输入的数据在每个通道进行卷积处理,每个卷积核对应一个输入特征图;在逐深度卷积后面加入一个输出特征图为c的1×l标准卷积进行通道连接,从而保证输出特征图维度与标准卷积一致。
将注意力机制应用于所述残差块,可以学习每个特征通道的重要程度,提升有效特征,忽略对当前任务用处不大的特征,增强深层特征提取模块特征提取的能力。通过堆叠深度可分离卷积残差注意力块(ResBlk-A)块构成不同深度的深层特征提取模块,本模型对于基于声音事件检测的定位可以取得更高的精度。
所述注意力层将压缩激励网络模块应用于深层特征提取模块中的每个深度可分离卷积残差块中。对不同通道特征进行加权,进一步加强通道信息的保留,抑制背景噪声对特征提取的干扰,从而提取对识别声音事件和位置信息更有效的高级特征。所述压缩激励网络模块主要分为挤压(Squeeze)、激励(Excitation)以及调整输出特征(Scale)三个操作。对于残差块输入特征X,在通过两个深度可分离卷积块后得到特征图 ,其中高为H,宽为W,通道数为C。在SE模块中,首先对特征图X conv 进行挤压,通过全局平均池化操作将每个通道的特征值相加再取平均,得到所有通道的全局特征,计算表达式如式(d)所示:
(d)
式中,Z c 表示输入特征图X conv 第c个通道的统计值;F sq 表示Squeeze操作。通过平均池化,将每个通道的二维特征图(H×W)映射为一个具有全局感受野的实数。
进一步的,使用时间上下文处理所述深层特征,用以判断并筛选所述深层特征中的有效特征并输出;所述时间上下文处理是通过两个双向RNN层来完成的,每层包含256个GRU单元。其通过对深层特征进行时间上下文信息的处理(学习),判断并筛选对声音事件检测和定位的有效特征。
进一步的,所述的一种基于声音事件的动物识别与定位方法,还包括:
所述浅层特征包括声音事件检测特征和定位时频特征;
所述声音事件检测特征包括对数梅尔频谱图特征;
所述定位时频特征包括广义互相关的相位变换特征。
进一步的,提取所述音频数据的浅层特征并输出的步骤具体包括:
从所述音频数据中提取广义互相关的相位变换特征和对数梅尔频谱图特征,并在通道维度叠加后输出。其中广义互相关的相位变换(GCC-PHAT,全称Generalized Cross-Correlation with Phase Transform,广义互相关的相位变换)是一种用于声源定位的算法,它是一种广义的互相关函数,可以用于处理非平稳信号,在使用多个声源接收信号时,通过计算不同声源的时间差来确定不同声源的位置,在这个过程中GCC-PHAT可以起到更好的效果;对数梅尔频谱图(Log-mel-spectrogram)是一种音频特征提取方法,常用于语音识别、声纹识别等任务。
所述声音事件检测特征以所述音频数据的对数梅尔频谱图(Log-mel-spectrogram)表示,所述定位时频特征以所述音频数据的广义互相关函数GCC-PHAT表示,广义互相关函数长度与Log-Mel维度相同。
进一步的,通过回归处理输出动物的识别及定位结果的步骤具体包括:
使用回归处理所述有效特征,以生成所述动物声源信息的动物种类信息和对应的动物位置信息并输出。所述回归处理通过Dropout层和两层全连接层实现,其中Dropout层用于防止过拟合,第一个全连接层包含256个单元,采用Linear激活函数,第二个全连接层使用Tanh激活函数,输出声源的声音事件类别以及归一化后的三维空间坐标。
一种基于声音事件的动物识别与定位系统,该系统包括数据采集模块、数据提取模块、残差注意力网络、时间上下文表示模块以及回归处理模块,其中:
所述数据采集模块,用于采集动物声源信息;
所述数据提取模块,用于通过动物声源信息提取浅层特征并输出;
所述残差注意力网络,用于通过浅层特征生成深层特征并输出;
所述时间上下文表示模块,用于根据深层特征判断筛选有效特征并输出;
所述回归处理模块,用于通过深层特征生成所述动物声源信息的动物种类信息和对应的动物位置信息并输出。
本发明的有益效果包括有:
本发明以原始音频作为模型的输入,从中提取位置估计和声音事件检测的浅层特征,并由残差网络学习其中的深层特征,将通道注意力应用于位置估计和声音事件检测的深层特征提取模块,增强模型特征表达能力,并在模块中引入深度可分离卷积,降低其计算量及复杂度,提高模型的运算速度。从而增强模型特征表达能力,提高了基于声音事件的检测和定位精度,实现了从多通道录音数据中检测目标动物并进行位置估计。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1为本发明的流程原理示意图;
图2为本发明实施例中算法的流程示意图;
图3为本发明实施例中的残差注意力网络模块;
图4为本发明实施例中的深度可分离残差块结构;
图5为本发明实施例中的基于压缩激励网络的注意力网络模块;
图6为本发明实施例中二的声音事件检测模型总体结构图;
图7为本发明实施例中二的深度可分离卷积残差注意力模块网络结构图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
实施例一
如图1所示:
一种基于声音事件的动物识别与定位方法,包括以下步骤:
采集动物声源信息,包括:多通道的音频数据、对应所述音频数据的声音事件标签和位置标签;
提取所述音频数据的浅层特征并输出;
使用残差注意力网络处理所述浅层特征,用以生成深层特征并输出;
使用时间上下文处理所述深层特征,用以判断并筛选所述深层特征中的有效特征并输出;
通过回归处理输出动物的识别及定位结果。
在本实施例中,所述声音事件标签为发声动物的发声片段起止帧以及发声动物的物种类别,位置标签为发声动物的空间坐标。
在本实施例中,所述的一种基于声音事件的动物识别与定位方法,还包括:
所述音频数据的通道数为三通道或三通道以上;
若估计k维空间位置,则所述音频数据的通道数至少为k+1。
如图2所示,其中多通道的音频、事件标签和位置标签通过浅层特征提取,使用时间上下文表示后,经过全连接,最后通过回归处理,得到在某一帧的三维坐标,例如图中包括了灰雁、苍鹭以及灰山鹑的在第t帧的三维坐标。
在本实施例中,如图3所示,所述残差注意力网络包括:标准卷积块、深度可分离卷积残差注意力块(ResidualBlock with Attention Module, ResBlk-A);残差注意力网络首先通过两个卷积层和平均池化层减小输入的浅层特征,然后在输入深度可分离卷积残差注意力模块,用于从输入数据中提取深层特征。
所述深度可分离卷积残差注意力块包括深度可分离卷积层、注意力层,且所述深度可分离卷积残差注意力块的输入和输出之间设有跳跃连接,采用深度可分离卷积构建残差块(如图4所示),对标准卷积过程进行分解,首先在每个通道上进行滤波,然后采用1×1点卷积组合每个通道上的输出,显著降低计算成本和模型大小。
所述深度可分离卷积层中深度可分离卷积将标准卷积分为两步,其一为逐深度卷积,在每个通道上对输入数据进行卷积,其二为逐点卷积,将各通道特征进行融合。所述深度可分离卷积提取特征过程如下公式(a)所示:
(a)
式中, 表示尺寸为i×j的卷积核,其第m个卷积核对输入特征X第m个通道进行运算,可得到输出特征图/> 的第m个通道。深度可分离卷积的参数量和计算成本分别如公式(b)和公式(c)所示:
(b)
(c)
所述深度可分离卷积在第一部分利用逐深度卷积进行滤波处理,对输入的数据在每个通道进行卷积处理,每个卷积核对应一个输入特征图;在逐深度卷积后面加入一个输出特征图为c的1×l标准卷积进行通道连接,从而保证输出特征图维度与标准卷积一致。
将注意力机制应用于所述残差块,可以学习每个特征通道的重要程度,提升有效特征,忽略对当前任务用处不大的特征,增强深层特征提取模块特征提取的能力。通过堆叠深度可分离卷积残差注意力块(ResBlk-A)块构成不同深度的深层特征提取模块,本模型对于基于声音事件检测的定位可以取得更高的精度。
如图5所示,所述注意力层将压缩激励网络模块应用于深层特征提取模块中的每个深度可分离卷积残差块中。对不同通道特征进行加权,进一步加强通道信息的保留,抑制背景噪声对特征提取的干扰,从而提取对识别声音事件和位置信息更有效的高级特征。所述压缩激励网络模块主要分为挤压(Squeeze)、激励(Excitation)以及调整输出特征(Scale)三个操作。对于残差块输入特征X,在通过两个深度可分离卷积块后得到特征图,其中高为H,宽为W,通道数为C。在SE模块中,首先对特征图X conv 进行挤压,通过全局平均池化操作将每个通道的特征值相加再取平均,得到所有通道的全局特征,计算表达式如式(d)所示:
(d)
式中,Z c 表示输入特征图X conv 第c个通道的统计值;F sq 表示Squeeze操作。通过平均池化,将每个通道的二维特征图(H×W)映射为一个具有全局感受野的实数。
在本实施例中,使用时间上下文处理所述深层特征,用以判断并筛选所述深层特征中的有效特征并输出;所述时间上下文处理是通过两个双向RNN层来完成的,每层包含256个GRU单元。其通过对深层特征进行时间上下文信息的处理(学习),判断并筛选对声音事件检测和定位的有效特征。
在本实施例中,所述的一种基于声音事件的动物识别与定位方法,还包括:
所述浅层特征包括声音事件检测特征和定位时频特征;
所述声音事件检测特征包括对数梅尔频谱图特征;
所述定位时频特征包括广义互相关的相位变换特征。
在本实施例中,提取所述音频数据的浅层特征并输出的步骤具体包括:
从所述音频数据中提取广义互相关的相位变换特征和对数梅尔频谱图特征,并在通道维度叠加后输出。
所述声音事件检测特征以所述音频数据的和对数梅尔频谱图表示,所述定位时频特征以所述音频数据的广义互相关函数GCC-PHAT表示,广义互相关函数长度与Log-Mel维度相同。
在本实施例中,通过回归处理输出动物的识别及定位结果的步骤具体包括:
使用回归处理所述有效特征,以生成所述动物声源信息的动物种类信息和对应的动物位置信息并输出。所述回归处理通过Dropout层和两层全连接层实现,其中Dropout层用于防止过拟合,第一个全连接层包含256个单元,采用Linear激活函数,第二个全连接层使用Tanh激活函数,输出声源的声音事件类别以及归一化后的三维空间坐标。
一种基于声音事件的动物识别与定位系统,该系统包括数据采集模块、数据提取模块、残差注意力网络、时间上下文表示模块以及回归处理模块,其中:
所述数据采集模块,用于采集动物声源信息;
所述数据提取模块,用于通过动物声源信息提取浅层特征并输出;
所述残差注意力网络,用于通过浅层特征生成深层特征并输出;
所述时间上下文表示模块,用于根据深层特征判断筛选有效特征并输出;
所述回归处理模块,用于通过深层特征生成所述动物声源信息的动物种类信息和对应的动物位置信息并输出。
实施例二
基于实施例一的内容,在本实施例中,所述数据集(动物声源信息)来源于自然声音检测数据集,音频由采集的鸟鸣声音文件按目标鸟鸣时间段进行2s标准化切割而成,本实施例中首先统一音频数据的格式,将数据重采样为32k单通道16位编码的音频,并模拟声音的传播和环境噪声构建了多通道音频数据。
在本实施例中,如图6所示,所述一种基于声音事件的动物识别与定位系统由特征提取模块(数据采集模块和数据提取模块)、深层特征提取模块(残差注意力网络)、时间上下文表示模块和全连接模块(回归处理模块)组成。
从所述音频数据中提取广义互相关的相位变换特征和对数梅尔频谱图特征,并在通道维度叠加后输出;
所述深层特征提取模块为基于残差网络的卷积骨干网络,为更好地从数据中学习特征,将注意力机制应用于该模块。残差网络通过堆积卷积层数加深网络结构,通过跳跃连接避免梯度消失或爆炸,但在增大卷积层数的同时也需要学习更多的参数,为减少学习参数,降低模型复杂度,采用深度可分离卷积替换残差网络中的标准卷积。其首先通过两个卷积层和平均池化层减小输入的拼接特征,然后将提取的数据输入深度可分离卷积残差注意力模块(Residual Block with Attention Module, ResBlk-A),用于提取更深层次的特征。
所述时间上下文表示模块由双向门控循环单元(Bidirectional Gate RecurrentUnit, BiGRU)构成,每层包含256个GRU单元。通过对深层特征模块提取的特征进行时间上下文信息的学习,判断并筛选对声音事件检测和定位有效的特征;
最后所述全连接模块由Dropout层和两层全连接层构成,其中Dropout层用于防止过拟合,第一个全连接层包含256个单元,采用Linear激活函数,第二个全连接层使用Tanh激活函数,输出声源的声音事件类别以及归一化后的三维空间坐标。
在本实施例中,如图7所示,深度可分离卷积残差注意力模块(ResBlk-A)由深度可分离卷积层和注意力层构成,输入输出之间有一个跳跃连接,采用深度可分离卷积构建残差块,对标准卷积过程进行分解,首先在每个通道上进行滤波,然后采用简单的1×1点卷积组合每个通道上的输出,显著降低计算成本和模型大小。将注意力机制应用于残差块,学习每个特征通道的重要程度,提升有效特征,忽略对当前任务用处不大的特征,增强深层特征提取模块特征提取的能力。
其中可以优选BN-ReLU让ReLU更好地产生特征选择作用,因为输入值分布更接近0均值(有重构,所以不是等于0均值),于是ReLU的单侧抑制作用得以展现,不会出现输入全分布在0的一侧(正或负)。BN-ReLU:批归一化BN(Batch Normalization)、线性整流函数ReLU(Rectified Linear Unit)。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种基于声音事件的动物识别与定位方法,其特征在于,包括以下步骤:
采集动物声源信息,包括:多通道的音频数据、对应所述音频数据的声音事件标签和位置标签;
提取所述音频数据的浅层特征并输出;
使用残差注意力网络处理所述浅层特征,用以生成深层特征并输出;
使用时间上下文处理所述深层特征,用以判断并筛选所述深层特征中的有效特征并输出;
通过回归处理输出动物的识别及定位结果;
所述残差注意力网络包括:标准卷积块、深度可分离卷积残差注意力块;所述深度可分离卷积残差注意力块包括深度可分离卷积层、注意力层,且所述深度可分离卷积残差注意力块的输入和输出之间设有跳跃连接。
2.根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,所述声音事件标签为发声动物的发声片段起止帧以及发声动物的物种类别,位置标签为发声动物的空间坐标。
3.根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,还包括:
所述音频数据的通道数为三通道或三通道以上;
若定位动物在k维空间中的位置,则所述音频数据的通道数至少为k+1。
4.根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,还包括:
所述浅层特征包括声音事件检测特征和定位时频特征;
所述声音事件检测特征包括对数梅尔频谱图特征;
所述定位时频特征包括广义互相关的相位变换特征。
5.根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,提取所述音频数据的浅层特征并输出的步骤具体包括:
从所述音频数据中提取广义互相关的相位变换特征和对数梅尔频谱图特征,并在通道维度叠加后输出。
6.根据权利要求1所述的一种基于声音事件的动物识别与定位方法,其特征在于,通过回归处理输出动物的识别及定位结果的步骤具体包括:
使用回归处理所述有效特征,以生成所述动物声源信息的动物种类信息和对应的动物位置信息并输出。
7.一种基于声音事件的动物识别与定位系统,其特征在于,用于权利要求1-6任意一项所述的基于声音事件的动物识别与定位方法,该系统包括数据采集模块、数据提取模块、残差注意力网络、时间上下文表示模块以及回归处理模块,其中:
所述数据采集模块,用于采集动物声源信息;
所述数据提取模块,用于通过动物声源信息提取浅层特征并输出;
所述残差注意力网络,用于通过浅层特征生成深层特征并输出;
所述时间上下文表示模块,用于根据深层特征判断筛选有效特征并输出;
所述回归处理模块,用于通过深层特征生成所述动物声源信息的动物种类信息和对应的动物位置信息并输出。
8.根据权利要求7所述的一种基于声音事件的动物识别与定位系统,其特征在于,所述残差注意力网络包括:标准卷积块、深度可分离卷积残差注意力块;所述深度可分离卷积残差注意力块包括深度可分离卷积层、注意力层,且所述深度可分离卷积残差注意力块的输入和输出之间设有跳跃连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311498926.3A CN117238298B (zh) | 2023-11-13 | 2023-11-13 | 一种基于声音事件的动物识别与定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311498926.3A CN117238298B (zh) | 2023-11-13 | 2023-11-13 | 一种基于声音事件的动物识别与定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117238298A CN117238298A (zh) | 2023-12-15 |
CN117238298B true CN117238298B (zh) | 2024-02-06 |
Family
ID=89093190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311498926.3A Active CN117238298B (zh) | 2023-11-13 | 2023-11-13 | 一种基于声音事件的动物识别与定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117238298B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786021A (zh) * | 2021-01-26 | 2021-05-11 | 东南大学 | 一种基于分层量化的轻量级神经网络语音关键词识别方法 |
CN113921034A (zh) * | 2021-10-28 | 2022-01-11 | 哈尔滨理工大学 | 一种基于深度学习的声音事件检测和定位方法 |
CN114360526A (zh) * | 2022-03-16 | 2022-04-15 | 杭州研极微电子有限公司 | 音频检测设备、方法、装置及存储介质 |
CN114694685A (zh) * | 2022-04-12 | 2022-07-01 | 北京小米移动软件有限公司 | 语音质量评估方法、装置及存储介质 |
CN114937461A (zh) * | 2022-06-13 | 2022-08-23 | 华南农业大学 | 基于通道注意力与残差门控卷积的生猪声音事件检测方法及装置 |
CN115206294A (zh) * | 2022-09-16 | 2022-10-18 | 深圳比特微电子科技有限公司 | 训练方法、声音事件检测方法、装置、设备和介质 |
US11631238B1 (en) * | 2022-04-13 | 2023-04-18 | Iangxi Electric Power Research Institute Of State Grid | Method for recognizing distribution network equipment based on raspberry pi multi-scale feature fusion |
CN115984937A (zh) * | 2023-01-09 | 2023-04-18 | 江苏科技大学 | 一种基于优化ResNet算法的人脸表情识别方法 |
CN116246214A (zh) * | 2023-05-08 | 2023-06-09 | 浪潮电子信息产业股份有限公司 | 视听事件定位方法、模型训练方法、装置及设备和介质 |
CN116259313A (zh) * | 2023-03-14 | 2023-06-13 | 桂林理工大学 | 一种基于时域卷积网络的声音事件定位和检测方法 |
CN116386649A (zh) * | 2023-04-07 | 2023-07-04 | 北京林业大学 | 一种基于云边协同的野外鸟类监测系统和方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115137300A (zh) * | 2021-03-31 | 2022-10-04 | 京东方科技集团股份有限公司 | 信号检测方法、信号检测装置、电子设备和存储介质 |
-
2023
- 2023-11-13 CN CN202311498926.3A patent/CN117238298B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112786021A (zh) * | 2021-01-26 | 2021-05-11 | 东南大学 | 一种基于分层量化的轻量级神经网络语音关键词识别方法 |
CN113921034A (zh) * | 2021-10-28 | 2022-01-11 | 哈尔滨理工大学 | 一种基于深度学习的声音事件检测和定位方法 |
CN114360526A (zh) * | 2022-03-16 | 2022-04-15 | 杭州研极微电子有限公司 | 音频检测设备、方法、装置及存储介质 |
CN114694685A (zh) * | 2022-04-12 | 2022-07-01 | 北京小米移动软件有限公司 | 语音质量评估方法、装置及存储介质 |
US11631238B1 (en) * | 2022-04-13 | 2023-04-18 | Iangxi Electric Power Research Institute Of State Grid | Method for recognizing distribution network equipment based on raspberry pi multi-scale feature fusion |
CN114937461A (zh) * | 2022-06-13 | 2022-08-23 | 华南农业大学 | 基于通道注意力与残差门控卷积的生猪声音事件检测方法及装置 |
CN115206294A (zh) * | 2022-09-16 | 2022-10-18 | 深圳比特微电子科技有限公司 | 训练方法、声音事件检测方法、装置、设备和介质 |
CN115984937A (zh) * | 2023-01-09 | 2023-04-18 | 江苏科技大学 | 一种基于优化ResNet算法的人脸表情识别方法 |
CN116259313A (zh) * | 2023-03-14 | 2023-06-13 | 桂林理工大学 | 一种基于时域卷积网络的声音事件定位和检测方法 |
CN116386649A (zh) * | 2023-04-07 | 2023-07-04 | 北京林业大学 | 一种基于云边协同的野外鸟类监测系统和方法 |
CN116246214A (zh) * | 2023-05-08 | 2023-06-09 | 浪潮电子信息产业股份有限公司 | 视听事件定位方法、模型训练方法、装置及设备和介质 |
Non-Patent Citations (3)
Title |
---|
An Experimental Study on Sound Event Localization and Detection Under Realistic Testing Conditions;S. Niu et al.;《ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;全文 * |
Éric Bavu ; .TimeScaleNet: A Multiresolution Approach for Raw Audio Recognition Using Learnable Biquadratic IIR Filters and Residual Networks of Depthwise-Separable One-Dimensional Atrous Convolutions.《IEEE Journal of Selected Topics in Signal Processing》.2019,全文. * |
基于CNN的猪声音状态识别研究与应用;王文静;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117238298A (zh) | 2023-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kong et al. | Sound event detection of weakly labelled data with cnn-transformer and automatic threshold optimization | |
Sailor et al. | Unsupervised Filterbank Learning Using Convolutional Restricted Boltzmann Machine for Environmental Sound Classification. | |
CN111742365B (zh) | 用于监控系统中的音频事件检测的系统和方法 | |
Heittola et al. | Context-dependent sound event detection | |
Cakir et al. | Multi-label vs. combined single-label sound event detection with deep neural networks | |
CN112735473B (zh) | 基于声音识别无人机的方法及系统 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN111341319B (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
Bravo et al. | Species-specific audio detection: a comparison of three template-based detection algorithms using random forests | |
Ding et al. | Adaptive multi-scale detection of acoustic events | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN113921034A (zh) | 一种基于深度学习的声音事件检测和定位方法 | |
CN111833906B (zh) | 基于多路声学特征数据增强的声场景分类方法 | |
Colonna et al. | Feature evaluation for unsupervised bioacoustic signal segmentation of anuran calls | |
Phan et al. | Unifying isolated and overlapping audio event detection with multi-label multi-task convolutional recurrent neural networks | |
CN111128178A (zh) | 一种基于面部表情分析的语音识别方法 | |
CN102509548B (zh) | 一种基于多距离声传感器的音频索引方法 | |
Wang et al. | A novel underground pipeline surveillance system based on hybrid acoustic features | |
CN117877516A (zh) | 一种基于跨模型两阶段训练的声音事件检测方法 | |
Neri et al. | Sound event detection for human safety and security in noisy environments | |
Podwinska et al. | Acoustic event detection from weakly labeled data using auditory salience | |
Xia et al. | Sound event detection using multiple optimized kernels | |
Hu et al. | META-SELD: Meta-learning for fast adaptation to the new environment in sound event localization and detection | |
Shin et al. | SELD U-Net: Joint Optimization of Sound Event Localization and Detection with Noise Reduction | |
CN117238298B (zh) | 一种基于声音事件的动物识别与定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |