CN116994602A - 一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法 - Google Patents

一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法 Download PDF

Info

Publication number
CN116994602A
CN116994602A CN202311019925.6A CN202311019925A CN116994602A CN 116994602 A CN116994602 A CN 116994602A CN 202311019925 A CN202311019925 A CN 202311019925A CN 116994602 A CN116994602 A CN 116994602A
Authority
CN
China
Prior art keywords
fish
information
sound
module
serenet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311019925.6A
Other languages
English (en)
Inventor
于红
杨雨欣
杨宗轶
涂万
张鑫
林远山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Ocean University
Original Assignee
Dalian Ocean University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Ocean University filed Critical Dalian Ocean University
Priority to CN202311019925.6A priority Critical patent/CN116994602A/zh
Publication of CN116994602A publication Critical patent/CN116994602A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,包括采集养殖水域中的鱼类音频信号,对鱼类音频信号进行预处理;通过Mel声谱图特征提取方法对预处理后的鱼类音频信号进行声音特征提取,得到鱼类音频的Mel声谱图特征信息;构建TAP‑SEResNet模型,包括SEResNet模块、SE注意力机制模块、TAP模块、全连接层模块和Softmax分类器模块;将Mel声谱图特征信息输入TAP‑SEResNet模型中,得到鱼类声音信息特征;将鱼类声音信息特征输入TAP模块,得到深层声音特征向量;将深层声音特征向量输入全连接层模块得到声音特征整合信息;将声音特征整合信息输入Softmax分类器模块进行分类,输出鱼类行为识别结果。本发明能够能够减少关键信息丢失,且能够处理声音细节特征,使鱼类行为识别精度提高。

Description

一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法
技术领域
本发明属于智能识别技术领域,具体公开了一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法。
背景介绍
精准养殖是鱼类养殖的新趋势,鱼类行为识别为精准养殖提供技术支持,目前鱼类行为监测主要采用计算机视觉技术量化和识别鱼类的多种行为,但目前鱼类行为声音信息难采集、频率波动大和特征差异小等特点使得目标特征信息难以捕捉,赵梦等将SKNet注意力机制与YOLOv5融合,构成了关注像素级信息的特征提取网络,有效的增强了检测效果;韦思学等提出通道非降维双重注意力机制ECBAM,对降维操作进行了优化,进一步提高了识别精度。然而,在规模化、集约化等更为复杂的养殖环境中,计算机视觉方法仍有局限性,一些研究者考虑到声波在水中衰减小且不受水体浑浊影响、传播范围更广,开始将深度学习引入声音识别领域,Kong等提出了在大规模AudioSet数据集上训练的预训练音频神经网络PANNs,并证明可以将神经网络转移到其他音频相关任务,但网络提取声音特征能力受限;Desplanques等提出利用1D卷积神经网络融合Res2Net和SE模块以聚合声音不同层次的特征,增强特征通道相互依赖性,但这种方法难以处理声音细节特征。在鱼类行为识别领域中,同样可使用声学特征,Meng等提出将鱼类摄食音频转换为声音特征信息,使用卷积神经网络CNN模型对鱼的摄食强度进行分类,但卷积神经网络CNN对鱼类细粒度声音信息提取能力有限;胥婧雯等采用能对鱼类声音特征进行细粒度分类的ResNet网络,实现低维细节特征与高维语义特征融合,但样本种类较少,且深度残差网络中有大量冗余层、网络提取关键信息少。针对上述存在的问题,研究设计一种新型的基于Mel声谱图与改进SEResNet的鱼类行为识别方法,克服现有鱼类行为识别方法中所存在的问题是十分必要的。
发明内容
本发明为解决现有鱼类行为识别方法中存在的提取声音特征能力受限、难以处理声音细节特征而导致识别精度低的问题提出了一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法。
本发明提供了一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,包括如下步骤:
S1.采集养殖水域中的鱼类音频信号,对鱼类音频信号进行预处理;
S2.通过Mel声谱图特征提取方法对所述步骤1预处理后的鱼类音频信号进行声音特征提取,得到鱼类音频的Mel声谱图特征信息;
S3.构建TAP-SEResNet模型,所述TAP-SEResNet模型包括SEResNet模块、SE注意力机制模块、TAP模块、全连接层模块和Softmax分类器模块;
S4.将所述步骤S2得到的Mel声谱图特征信息输入所述步骤S3构建的TAP-SEResNet模型中,通过SEResNet模块的残差连接,得到鱼类原始声音特征,通过嵌入的SE注意力机制模块对Mel声谱图特征信息进行关键特征加权计算,获得鱼类声音关键信息,将获得的所述鱼类声音关键信息和所述鱼类原始声音特征相加,得到鱼类声音信息特征;
S5.将所述步骤S4得到的所述鱼类声音信息特征输入所述TAP模块,所述鱼类声音信息特征经过卷积处理后得到特征向量,将所述特征向量同时进行平均池化和最大池化,将平均池化和最大池化的输出结果进行拼接,得到深层声音特征向量;
S6.将所述步骤S5得到的所述深层声音特征向量输入所述全连接层模块进行信息整合,得到声音特征整合信息;
S7.将所述步骤S6得到的所述声音特征整合信息输入所述Softmax分类器模块进行分类,输出鱼类行为识别结果。
根据本申请一些实施例的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,所述步骤S1中,通过水听器采集养殖水域中的鱼类音频信号,鱼类每个行为采集时长为120s,将采集到的鱼类音频信号按照每段2s进行人工切分并编号,另设一组空白噪声对照组同步采集环境噪声,所述空白噪声对照组用于区分有效鱼类音频信号和噪声音频信号,将编号后的鱼类音频信号中的噪声音频信号去除,得到预处理后的鱼类音频信号。
根据本申请一些实施例的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,所述步骤S2中,所述Mel声谱图特征提取方法包括通过Mel滤波器对鱼类音频信号进行傅里叶变换,将能量非线性映射到频域梅尔刻度上,提取出傅里叶变换后的鱼类音频信号中的重要频率特征,在频率轴上对鱼类音频信号进行压缩,提取出鱼类细粒度声音信息,得到鱼类音频的Mel声谱图特征信息。
根据本申请一些实施例的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,所述步骤S3中,
所述SE注意力机制模块包括:
池化层模块,用于获取Mel声谱图特征信息中的全局信息;
第一全连接层模块,用于顺着空间维度对Mel声谱图特征信息中的特征进行特征压缩,降低特征维度;
ReLU层模块,用于进行非线性操作;
第二连接层模块,用于还原特征维度并拟合通道间的相关性得到卷积特征,
激活函数模块,采用Sigmoid函数,与卷积特征进行逐空间位置相乘,得到鱼类声音关键信息;
所述TAP模块包括:
卷积层模块,用于对所述鱼类声音信息特征经过卷积处理得到特征向量;
平均池化模块,用于将特征向量平均池化,提供区域内特征的整体趋势和背景信息;
最大池化模块,用于将特征向量最大池化,捕捉输入区域内的最显著特征,保留重要局部细节并去除冗余信息;
拼接模块,用于拼接平均池化和最大池化的输出结果。
根据本申请一些实施例的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,所述步骤S4中,所述SE注意力机制模块通过所述池化层模块进行全局平均池化获取Mel声谱图特征信息的全局信息,通过第一全连接层模块顺着空间维度对Mel声谱图特征信息进行特征压缩,使特征维度降低,通过ReLU层模块进行非线性操作,经过全连接层将特征维度还原并拟合通道间复杂的相关性卷积特征,最后使用Sigmoid函数激活,与所述卷积特征进行逐空间位置相乘,得到所述鱼类声音关键信息。
根据本申请一些实施例的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,所述步骤S5中,设所述鱼类声音信息特征经过卷积处理后的特征向量为hT,如公式(1)所示:
hT=(h1,h2,...,ht) (1)
其中,hi(i=1,2,...,t)是特征向量分量,t为总时间维度;
沿着总时间维度t,将特征向量同时进行平均池化μ和最大池化f(x),平均池化μ如公式(2)所示:
最大池化f(x)如公式(3)所示:
f(x)=max(0,hi) (3)
其中,max表示取特征向量最大值,
将平均池化和最大池化的输出结果进行拼接,得到深层声音特征向量E,如公式(4)所示:
E=[μ,f(x)] (4)
其中,[,]表示拼接操作。
根据本申请一些实施例的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,所述步骤S7中,输出的鱼类行为识别结果包括摄食行为、游泳行为和跳跃行为。
本发明提出的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,提出基于Mel声谱图和改进SEResNet的鱼类行为识别模型TAP-SEResNet,鱼类声音信息由Mel声谱图特征提取方法进行特征提取,通过Mel声谱图特征提取方法对频率特征进行非线性映射,提升网络对鱼类声音高级语义特征提取能力,通过融合时序聚合池化层TAP模块保留鱼类声音的局部关键信息和整体背景信息,使SEResNet保留最佳声音特征信息,也能够减少关键信息丢失,且能够处理声音细节特征,提高SEResNet模型识别能力,使鱼类行为识别精度提高,为研究鱼类行为识别领域提供技术支持,有助于在鱼类养殖过程中对鱼类行为实现精准识别。
附图说明
图1为本发明一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法的流程示意图;
图2为本发明实施例2中鱼类行为识别归一化混淆矩阵示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
实施例1
一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,如图1所示,包括如下步骤:
S1.采集养殖水域中的鱼类音频信号,对鱼类音频信号进行预处理;
通过水听器采集养殖水域中的鱼类音频信号,鱼类每个行为采集时长为120s,将采集到的鱼类音频信号按照每段2s进行人工切分并编号,另设一组空白噪声对照组同步采集环境噪声,空白噪声对照组用于区分有效鱼类音频信号和噪声音频信号,将编号后的鱼类音频信号中的噪声音频信号去除,得到预处理后的鱼类音频信号;
S2.通过Mel声谱图特征提取方法对步骤1预处理后的鱼类音频信号进行声音特征提取,得到鱼类音频的Mel声谱图特征信息;
Mel声谱图特征提取方法包括通过Mel滤波器对鱼类音频信号进行傅里叶变换,将能量非线性映射到频域梅尔刻度上,提取出傅里叶变换后的鱼类音频信号中的重要频率特征,在频率轴上对鱼类音频信号进行压缩,提取出鱼类细粒度声音信息,得到鱼类音频的Mel声谱图特征信息;
S3.构建TAP-SEResNet模型,TAP-SEResNet模型包括SEResNet模块、SE注意力机制模块、TAP模块、全连接层模块和Softmax分类器模块;
SE注意力机制模块包括:
池化层模块,用于获取Mel声谱图特征信息中的全局信息;
第一全连接层模块,用于顺着空间维度对Mel声谱图特征信息中的特征进行特征压缩,降低特征维度;
ReLU层模块,用于进行非线性操作;
第二连接层模块,用于还原特征维度并拟合通道间的相关性得到卷积特征,
激活函数模块,采用Sigmoid函数,与卷积特征进行逐空间位置相乘,得到鱼类声音关键信息;
TAP模块包括:
卷积层模块,用于对鱼类声音信息特征经过卷积处理得到特征向量;
平均池化模块,用于将特征向量平均池化,提供区域内特征的整体趋势和背景信息;
最大池化模块,用于将特征向量最大池化,捕捉输入区域内的最显著特征,保留重要局部细节并去除冗余信息;
拼接模块,用于拼接平均池化和最大池化的输出结果;
S4.将步骤S2得到的Mel声谱图特征信息输入步骤S3构建的TAP-SEResNet模型中,通过SEResNet模块的残差连接,得到鱼类原始声音特征,通过嵌入的SE注意力机制模块对Mel声谱图特征信息进行关键特征加权计算,获得鱼类声音关键信息,将获得的鱼类声音关键信息和鱼类原始声音特征相加,得到鱼类声音信息特征;
SE注意力机制模块通过池化层模块进行全局平均池化获取Mel声谱图特征信息的全局信息,通过第一全连接层模块顺着空间维度对Mel声谱图特征信息进行特征压缩,使特征维度降低,通过ReLU层模块进行非线性操作,经过全连接层将特征维度还原并拟合通道间复杂的相关性卷积特征,最后使用Sigmoid函数激活,与卷积特征进行逐空间位置相乘,得到鱼类声音关键信息;
S5.将步骤S4得到的鱼类声音信息特征输入TAP模块,鱼类声音信息特征经过卷积处理后得到特征向量,将特征向量同时进行平均池化和最大池化,将平均池化和最大池化的输出结果进行拼接,得到深层声音特征向量;
设鱼类声音信息特征经过卷积处理后的特征向量为hT,如公式(1)所示:
hT=(h1,h2,...,ht) (1)
其中,hi(i=1,2,...,t)是特征向量分量,t为总时间维度;
沿着总时间维度t,将特征向量同时进行平均池化μ和最大池化f(x),平均池化μ如公式(2)所示:
最大池化f(x)如公式(3)所示:
f(x)=max(0,hi) (3)
其中,max表示取特征向量最大值,
将平均池化和最大池化的输出结果进行拼接,得到深层声音特征向量E,如公式(4)所示:
E=[μ,f(x)] (4)
其中,[,]表示拼接操作;
S6.将步骤S5得到的深层声音特征向量输入全连接层模块进行信息整合,得到声音特征整合信息;
S7.将步骤S6得到的声音特征整合信息输入Softmax分类器模块进行分类,输出鱼类行为识别结果;
输出的鱼类行为识别结果包括摄食行为、游泳行为和跳跃行为。
实施例2
本试验在实验室进行,试验系统共3个养殖池,养殖池直径60cm,高度60cm,养殖水深40cm。以虹鳟鱼为试验对象,选取体长8~10cm、平均规格10g的虹鳟鱼共30条,养殖水的水温保持15~18℃,水体密度为9.2kg/m3,pH值为6.5~6.9,溶氧质量浓度12±2mg/L,将虹鳟鱼按数量均分到三个养殖池中,以保持最适养殖鱼群密度,减少试验误差。为避免虹鳟鱼对新环境产生应激反应而造成行为不准确,三个养殖池均经过一个月的养殖适应期,每天定量投喂两次,投喂时间分别为早上10点和下午6点。在饲料投喂时段,通过摄像头观察鱼类行为,采集鱼群摄食、游泳和跳跃声音信号,试验期间保持室内安静,观察到虹鳟鱼对新环境不再产生应激反应后再进行鱼类音频信号的采集。为采集鱼类不同行为的音频信号,使用水下声学测量系统,本实施例采用的水听器的型号为AQH20k-1062,为覆盖鱼类行为发声频率范围,音频信号的采样频率为20~20000Hz。为避免水听器撞击水箱壁造成杂音,将铅锤垂直放置于养殖池水面下方10cm的位置,水听器绑在铅锤上固定在养殖池中央。水听器的另一端连接计算机存储数据,将鱼类音频信号存储为wav格式。为实时观察鱼类行为且不妨碍鱼类正常生活,摄像头架设在高于水面30cm的养殖水箱旁,同时连接计算机。
将虹鳟鱼行为分为“Feed”、“Swim”和“Jump”三种,“Feed”表示摄食行为,“Swim”表示游泳行为,“Jump”表示跳跃行为,采集鱼类音频信号,为了保证鱼类音频信号包含一个完整周期的行为信息,每个行为采集时长为120s。由于鱼类行为声音时长短,将采集到的声音信号按照每段2s进行人工切分并编号;另设一组空白噪声对照组同步采集背景噪声,以便获取环境噪声,区分有效鱼类行为声音片段和噪声部分。收集不同时间段的试验数据并重复进行上述采集过程,采集虹鳟鱼摄食声音信号样本300个,游泳声音信号样本420个,跳跃声音信号样本300个,共计样本1020个。将训练集、验证集和测试集按照7:2:1比例划分。
采用实施例1的实验方法进行鱼类行为识别。本试验环境为Intel Core 17-9700CPU 3.00GHz 3.00处理器,RTX3090显卡,32GB内存,操作系统为Windows10,运行环境python3.8,开源深度学习框架pytorch版本为1.13.1。训练参数设置batch_size为32,epoch为100。
本实施例的方法评估采用准确率和F1值作为性能评价指标,分类评估采用精确率、召回率和F1值作为分类性能评价指标。
准确率(Accuracy,Ac)反映的是被识别为正确鱼类行为样本数与样本总数的比值,即是模型正确识别各种鱼类行为的概率,计算方法如公式(5)所示:
式中:TP为在正样本中识别出的正确鱼类行为的样本数;FN为在正样本中识别出的错误鱼类行为的样本数;FP为在负样本中识别的出正确鱼类行为的样本数;TN为在负样本中识别的出错误鱼类行为的样本数。
精确率(Precison,Pr)反映的是在特定鱼类行为下,正确分类样本在所有预测为该鱼类行为样本中所占的比例,计算方法如公式(6)所示:
召回率(Recall,Re)反映的是正确分类的鱼类行为占所有该行为总样本的比例,计算方法如公式(7)所示:
F1值(F1-score,F1)作为分类器的综合指标,是精确率和召回率的调和平均数,计算方法如公式(8)所示:
为验证时序聚合池化层TAP模块对SEResNet改进的有效性,设计了消融试验,在其他操作条件相同的情况下,分别对在有TAP模块和无TAP模块条件下进行了鱼类行为识别的对比试验,计算出了两种方法的准确率Ac和F1值F1,具体内容如表1所示:
表1消融试验
消融试验的结果如表1所示,加入TAP模块后准确率提升了3.23%,F1值提升了4.33%,表明加入TAP模块可以更好的进行鱼类行为识别。通过融合TAP模块对SEResNet模型进行改进,结合最大值和平均值,保留鱼类声音信号的局部关键信息和整体背景信息,使鱼类细粒度声音完整提取,减少有效信息丢失,提升模型性能,可更好满足鱼类行为识别要求。
为验证Mel声谱图特征提取方法(Mel spectrogram)对于鱼类音频信号中鱼类声音特征提取的有效性,设计了对比试验:在其他操作条件相同的情况下与Mel频率倒谱系数特征提取方法(Spectrogram)和声谱图特征提取方法(MFCC)进行对比,结果如表2所示。
表2特征提取方法对比
根据表2可知Mel声谱图特征提取方法与Mel频率倒谱系数特征提取方法相比,准确率提升8.36%,F1值提升8.8%;Mel声谱图特征提取方法与声谱图特征提取方法相比准确率提升0.97%,F1值提升0.47%。由分析可得,声谱图特征提取方法处理非稳态声音信息能力不足,而Mel频率倒谱系数特征提取方法会压缩过多频率尺度,都会影响方法识别的准确性。而Mel声谱图特征提取方法在频率轴上能够有效的压缩鱼类音频信号,增强鱼类声音信息特征的提取和分辨能力,与Mel频率倒谱系数特征提取方法和声谱图特征提取方法相比,Mel声谱图特征提取方法更适用于提取鱼类声音信息,Mel声谱图特征提取方法对鱼类声音的特征提取明显优于其他方法。
为验证本实施例方法TAP-SEResNet在鱼类行为识别的有效性,将本方法与其他方法进行对比试验,进行对比的方法分别是:Qiuqiang等通过迁移学习方法,提出的声音识别网络PANNs-CNN14;Desplanques等通过结合Res2Net模块和SE注意力机制并使多层特征聚合,提出的语音识别网络ECAPA-TDNN;胥婧雯通过结合MFCC和ResNet,提出的鱼类行为识别网络MFCC+ResNet,实验结果如表3所示。
表3不同方法与本实施例方法的性能对比
根据表3可知,与Qiuqiang等提出的声音识别网络PANNs-CNN14相比,TAP-SEResNet的准确率提升了5.32%,F1值提升了5.93%;与Desplanques等提出的语音识别网络ECAPA-TDNN相比,TAP-SEResNet的准确率提升了2.80%,F1值提升了1.96%;与胥婧雯提出的鱼类行为识别网络MFCC+ResNet相比,TAP-SEResNet的准确率提升了1.64%,F1值提升了2.00%。经分析可得,PANNs-CNN14通过将神经网络用于音频任务,学习声音特征,但是卷积神经网络CNN对声音信息提取能力有限;ECAPA-TDNN通过在1D卷积网络基础上融合Res2Net和SE模块以聚合声音不同层次的特征,但是对噪声和环境变化比较敏感;MFCC+ResNet通过将残差模块中的最大池化替换为平均池化,多维度学习鱼类声音特征,但是深度残差网络含有大量冗余层,有效声音信息提取不够。而本实施例的TAP-SEResNet通过融合TAP模块保留更多的鱼类行为声音关键特征,同时不丢失声音背景信息,促进SEResNet对鱼类细粒度声音信息进行有效提取,达到最优识别性能。
为验证本实施例方法对鱼类行为识别的分类性能,鱼类行为识别结果和归一化混淆矩阵如表4和图2所示,其中,“Feed”表示摄食行为,“Swim”表示游泳行为,“Jump”表示跳跃行为。
表4本实施例方法鱼类行为识别结果
由表4数据分析可得,摄食行为行为由于声音信息较丰富,分类效果最好,评估指标均在98%以上;摄食行为和跳跃行为的鱼类行为识别精确率均达到98%以上,摄食行为和游泳行为的鱼类行为识别召回率均达到99%以上,3个鱼类行为识别F1值均达到89%以上,模型整体准确率为91.15%。由图2可知,归一化混淆矩阵的左上到右下的对角线表示每个分类的识别准确率,对角线外区域表示错误分类区域,摄食行为和跳跃行为的分类精确率均达到98%,稳定性好。结果表明本方法的基于Mel声谱图和改进SEResNet的鱼类行为识别方法能够对鱼类行为实现更准确的识别,鱼类声音信息由Mel声谱图特征提取方法进行特征提取,通过融合TAP模块保留鱼类声音的局部关键信息和整体背景信息,减少关键信息丢失,提高SEResNet模型识别能力,有助于养殖过程中对鱼类行为实现精准识别。
本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (7)

1.一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,其特征在于,包括如下步骤:
S1.采集养殖水域中的鱼类音频信号,对所述鱼类音频信号进行预处理;
S2.通过Mel声谱图特征提取方法对所述步骤1预处理后的鱼类音频信号进行声音特征提取,得到鱼类音频的Mel声谱图特征信息;
S3.构建TAP-SEResNet模型,所述TAP-SEResNet模型包括SEResNet模块、SE注意力机制模块、TAP模块、全连接层模块和Softmax分类器模块;
S4.将所述步骤S2得到的Mel声谱图特征信息输入所述步骤S3构建的TAP-SEResNet模型中,通过SEResNet模块的残差连接,得到鱼类原始声音特征,通过嵌入的SE注意力机制模块对Mel声谱图特征信息进行关键特征加权计算,获得鱼类声音关键信息,将获得的所述鱼类声音关键信息和所述鱼类原始声音特征相加,得到鱼类声音信息特征;
S5.将所述步骤S4得到的所述鱼类声音信息特征输入所述TAP模块,所述鱼类声音信息特征经过卷积处理后得到特征向量,将所述特征向量同时进行平均池化和最大池化,将平均池化和最大池化的输出结果进行拼接,得到深层声音特征向量;
S6.将所述步骤S5得到的所述深层声音特征向量输入所述全连接层模块进行信息整合,得到声音特征整合信息;
S7.将所述步骤S6得到的所述声音特征整合信息输入所述Softmax分类器模块进行分类,输出鱼类行为识别结果。
2.根据权利要求1所述的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,其特征在于,所述步骤S1中,通过水听器采集养殖水域中的所述鱼类音频信号,鱼类每个行为采集时长为120s,将采集到的鱼类音频信号按照每段2s进行人工切分并编号,另设一组空白噪声对照组同步采集环境噪声,所述空白噪声对照组用于区分鱼类音频信号和噪声音频信号,将编号后的鱼类音频信号中的噪声音频信号去除,得到预处理后的鱼类音频信号。
3.根据权利要求2所述的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,其特征在于,所述步骤S2中,所述Mel声谱图特征提取方法包括通过Mel滤波器对鱼类音频信号进行傅里叶变换,将能量非线性映射到频域梅尔刻度上,提取出傅里叶变换后的鱼类音频信号中的重要频率特征,在频率轴上对鱼类音频信号进行压缩,提取出鱼类细粒度声音信息,得到鱼类音频的Mel声谱图特征信息。
4.根据权利要求3所述的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,其特征在于,所述步骤S3中,
所述SE注意力机制模块包括:
池化层模块,用于获取Mel声谱图特征信息中的全局信息;
第一全连接层模块,用于顺着空间维度对Mel声谱图特征信息中的特征进行特征压缩,降低特征维度;
ReLU层模块,用于进行非线性操作;
第二连接层模块,用于还原特征维度并拟合通道间的相关性得到卷积特征,
激活函数模块,采用Sigmoid函数,与卷积特征进行逐空间位置相乘,得到鱼类声音关键信息;
所述TAP模块包括:
卷积层模块,用于对所述鱼类声音信息特征经过卷积处理得到特征向量;
平均池化模块,用于将特征向量平均池化,提供区域内特征的整体趋势和背景信息;
最大池化模块,用于将特征向量最大池化,捕捉输入区域内的最显著特征,保留重要局部细节并去除冗余信息;
拼接模块,用于拼接平均池化和最大池化的输出结果。
5.根据权利要求4所述的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,其特征在于,所述步骤S4中,所述SE注意力机制模块通过所述池化层模块进行全局平均池化获取Mel声谱图特征信息的全局信息,通过第一全连接层模块顺着空间维度对Mel声谱图特征信息进行特征压缩,使特征维度降低,通过ReLU层模块进行非线性操作,经过全连接层将特征维度还原并拟合通道间复杂的相关性卷积特征,最后使用Sigmoid函数激活,与所述卷积特征进行逐空间位置相乘,得到所述鱼类声音关键信息。
6.根据权利要求5所述的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,其特征在于,所述步骤S5中,设所述鱼类声音信息特征经过卷积处理后的特征向量为hT,如公式(1)所示:
hT=(h1,h2,...,ht) (1)
其中,hi(i=1,2,...,t)是特征向量分量,t为总时间维度;
沿着总时间维度t,将特征向量同时进行平均池化μ和最大池化f(x),平均池化μ如公式(2)所示:
最大池化f(x)如公式(3)所示:
f(x)=max(0,hi) (3)
其中,max表示取特征向量最大值,
将平均池化和最大池化的输出结果进行拼接,得到深层声音特征向量E,如公式(4)所示:
E=[μ,f(x)] (4)
其中,[,]表示拼接操作。
7.根据权利要求6所述的一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法,其特征在于,所述步骤S7中,输出的鱼类行为识别结果包括摄食行为、游泳行为和跳跃行为。
CN202311019925.6A 2023-08-14 2023-08-14 一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法 Pending CN116994602A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311019925.6A CN116994602A (zh) 2023-08-14 2023-08-14 一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311019925.6A CN116994602A (zh) 2023-08-14 2023-08-14 一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法

Publications (1)

Publication Number Publication Date
CN116994602A true CN116994602A (zh) 2023-11-03

Family

ID=88523182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311019925.6A Pending CN116994602A (zh) 2023-08-14 2023-08-14 一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法

Country Status (1)

Country Link
CN (1) CN116994602A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816167A (zh) * 2020-07-22 2020-10-23 苏州思必驰信息科技有限公司 说话者嵌入学习方法、说话者识别方法及系统
CN111933188A (zh) * 2020-09-14 2020-11-13 电子科技大学 一种基于卷积神经网络的声音事件检测方法
CN115170942A (zh) * 2022-07-25 2022-10-11 大连海洋大学 一种声音与视觉多级融合的鱼类行为识别方法
WO2022222056A1 (en) * 2021-04-21 2022-10-27 Microsoft Technology Licensing, Llc Synthetic speech detection
US20230010160A1 (en) * 2021-09-17 2023-01-12 Beijing Baidu Netcom Science Technology Co., Ltd. Multimodal data processing
CN115861906A (zh) * 2023-03-01 2023-03-28 北京市农林科学院信息技术研究中心 鱼群摄食强度识别方法、装置、系统及投饵机
CN116052064A (zh) * 2023-04-03 2023-05-02 北京市农林科学院智能装备技术研究中心 鱼群摄食强度识别方法、装置、电子设备及投饵机
CN116504253A (zh) * 2023-05-05 2023-07-28 南京林业大学 一种基于频率动态卷积模型的鸟类声音识别方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816167A (zh) * 2020-07-22 2020-10-23 苏州思必驰信息科技有限公司 说话者嵌入学习方法、说话者识别方法及系统
CN111933188A (zh) * 2020-09-14 2020-11-13 电子科技大学 一种基于卷积神经网络的声音事件检测方法
WO2022222056A1 (en) * 2021-04-21 2022-10-27 Microsoft Technology Licensing, Llc Synthetic speech detection
US20230010160A1 (en) * 2021-09-17 2023-01-12 Beijing Baidu Netcom Science Technology Co., Ltd. Multimodal data processing
CN115170942A (zh) * 2022-07-25 2022-10-11 大连海洋大学 一种声音与视觉多级融合的鱼类行为识别方法
CN115861906A (zh) * 2023-03-01 2023-03-28 北京市农林科学院信息技术研究中心 鱼群摄食强度识别方法、装置、系统及投饵机
CN116052064A (zh) * 2023-04-03 2023-05-02 北京市农林科学院智能装备技术研究中心 鱼群摄食强度识别方法、装置、电子设备及投饵机
CN116504253A (zh) * 2023-05-05 2023-07-28 南京林业大学 一种基于频率动态卷积模型的鸟类声音识别方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘亚荣等: "基于滤波器组和残差网络的环境声音识别算法", 计算机工程与设计, vol. 44, no. 6, 15 June 2023 (2023-06-15), pages 1736 - 1742 *
杨雨欣等: "基于Mel声谱图与改进SEResNet的鱼类行为识别", 渔业现代化, vol. 51, no. 1, 15 February 2024 (2024-02-15), pages 56 - 63 *

Similar Documents

Publication Publication Date Title
Jürgens et al. Current topics in primate vocal communication
CN115170942B (zh) 一种声音与视觉多级融合的鱼类行为识别方法
CN115878832B (zh) 基于精细对齐判别哈希的海洋遥感图像音频检索方法
Zhang et al. Automatic detection and classification of marmoset vocalizations using deep and recurrent neural networks
Maskeliūnas et al. A hybrid U-lossian deep learning network for screening and evaluating Parkinson’s disease
CN118051831B (zh) 基于CNN-Transformer合作网络模型的水声目标识别方法
CN115578678A (zh) 一种鱼类摄食强度分类方法及系统
Duan et al. Short-term feeding behaviour sound classification method for sheep using LSTM networks
Best et al. Temporal evolution of the Mediterranean fin whale song
CN114299995A (zh) 一种用于情绪评估的语言情感识别方法
CN112466284B (zh) 一种口罩语音鉴别方法
CN113380418A (zh) 一种通过对话文本分析识别抑郁症的系统
Faragó et al. CNN-based identification of Parkinson’s disease from continuous speech in noisy environments
CN116994602A (zh) 一种基于Mel声谱图与改进SEResNet的鱼类行为识别方法
Wang et al. A hierarchical birdsong feature extraction architecture combining static and dynamic modeling
CN116092005A (zh) 鱼的识别方法、系统、计算机设备及存储介质
CN118587539A (zh) 一种基于多模态交互融合网络的鱼类行为识别方法
CN111145851A (zh) 一种基于智能手环的心理状态监测评估系统
CN118097391A (zh) 多模态融合的鱼群摄食强度分类方法、系统、设备及介质
CN118098289B (zh) 一种结合精准模型与轻量级模型的抑郁症识别方法及系统
CN113030986B (zh) 一种不同鲸类种群间隔离程度的确定方法及系统
CN117876732A (zh) 一种基于EffcientNet网络的舌象检测方法
CN118072746A (zh) 基于特征融合的海洋哺乳动物叫声识别与分类方法
Suryavanshi et al. FishNet: A Hybrid Deep Learning and Machine Learning Framework for Precise Fish Species Identification
Kitaoka et al. Recognizing emotions from speech using a physical model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination