CN117423346A - 基于tbta网络的海洋哺乳动物叫声识别分类方法 - Google Patents
基于tbta网络的海洋哺乳动物叫声识别分类方法 Download PDFInfo
- Publication number
- CN117423346A CN117423346A CN202311744125.0A CN202311744125A CN117423346A CN 117423346 A CN117423346 A CN 117423346A CN 202311744125 A CN202311744125 A CN 202311744125A CN 117423346 A CN117423346 A CN 117423346A
- Authority
- CN
- China
- Prior art keywords
- layer
- tbta
- network
- spectrum
- marine mammal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 241000283153 Cetacea Species 0.000 title claims abstract description 40
- WKGZJBVXZWCZQC-UHFFFAOYSA-N 1-(1-benzyltriazol-4-yl)-n,n-bis[(1-benzyltriazol-4-yl)methyl]methanamine Chemical compound C=1N(CC=2C=CC=CC=2)N=NC=1CN(CC=1N=NN(CC=2C=CC=CC=2)C=1)CC(N=N1)=CN1CC1=CC=CC=C1 WKGZJBVXZWCZQC-UHFFFAOYSA-N 0.000 title claims abstract 20
- 238000001228 spectrum Methods 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 27
- 230000005236 sound signal Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 230000003121 nonmonotonic effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 abstract description 19
- 230000007246 mechanism Effects 0.000 abstract description 10
- 241001465754 Metazoa Species 0.000 abstract description 6
- 230000003044 adaptive effect Effects 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000013461 design Methods 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 27
- 238000004891 communication Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000011664 nicotinic acid Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及海洋动物叫声识别分类技术领域,具体为基于TBTA网络的海洋哺乳动物叫声识别分类方法。并基于DenseNet和3D‑CNN,提出了双支路双层注意力机制网络TBTA深度学习框架,TBTA设计了两个分支,使用双支路分别提取海洋哺乳动物叫声音频时频谱图的光谱特征和空间特征,无需进行繁琐的特征工程,并且在光谱维度和空间维度上引入了自适应的自注意机制,分别应用于光谱分支和空间分支,光谱型注意块聚焦于信息丰富的波段,而空间型注意块聚焦于信息丰富的像素,这使得TBTA能够对提取的特征图进行有效的细分和优化,在数据集有限的情况下,可以大幅度提高分类的精度。
Description
技术领域
本发明涉及海洋动物叫声识别分类技术领域,具体为基于TBTA网络的海洋哺乳动物叫声识别分类方法。
背景技术
随着水声通信技术的发展,除了可靠性、通信速率和网络化外,水声通信的安全性与隐蔽性也逐渐受到重视。传统方法大多采用低检测概率Low Probability ofDetection,LPD技术实现隐蔽水声通信,与传统的LPD隐蔽通信技术不同,仿生隐蔽水声通信技术利用海洋中固有的海洋生物叫声或者人工合成的模拟叫声作为通信信号。
目前仿生隐蔽水声通信技术均是生成某一种海洋哺乳动物的特定叫声,无法根据不同海域、不同季节动物的栖息情况自适应调整,实际应用中若采用目标海域当前季节并不栖息的海洋动物叫声通信,反而更易被察觉。因此可以通过对目标海域当前季节的海洋哺乳动物叫声进行识别分类,继而自适应选择适合当前海域环境的海洋哺乳动物叫声。
发明内容
本发明的目的在于提供一种基于TBTA网络的海洋哺乳动物叫声识别分类方法,在双支路双层注意力机制网络TBTA基础上,将TBTA设计为两个分支,分别用于处理光谱特征和空间特征,无需进行繁琐的特征工程,并且在光谱维度和空间维度上引入了自适应的自注意机制,这使得TBTA能够对提取的特征图进行有效的细分和优化,在数据集有限的情况下,可以大幅度提高分类的精度。
为实现上述目的,本发明提供如下技术方案:本发明提供的基于TBTA网络的海洋哺乳动物叫声识别分类方法包括以下步骤:
S1使用Adobe Audition对原始海洋哺乳动物叫声音频信号进行预处理;
S2对进行了预处理的叫声信号的时频谱图生成三维立方体数据集,并进行数据集划分;
S3构建TBTA网络的光谱分支模型,具体包括:
S3.1使用3D-CNN层和下采样来捕获特征映射;
S3.2附着3D-CNN与BN结合的密集光谱块;
S3.3采用光谱注意块来细化频谱特征,并获得加权谱特征映射;
S3.4通过注意块获取加权谱特征映射后,采用批归一化BN层和随机失活层dropout层来增强数值稳定性,以克服过拟合问题;最后通过全局平均池化层获得光谱特征图;
S4构建TBTA网络的空间分支模型,具体包括:
S4.1使用3D-CNN层来捕获特征映射;
S4.2将3D-CNN与BN结合后的密集空间块进行附着;
S4.3采用空间注意块对每个像素的系数进行加权,得到更具判别性的空间特征;
S4.4在捕获加权空间特征映射后,采用BN层和dropout层增强数值稳定性,克服过拟合问题;最后通过全局平均池化层,得到空间特征图;
S5对TBTA网络模型进行训练与验证。
优选的,S1步骤具体为:
使用Adobe Audition软件对原始海洋哺乳动物叫声音频进行降噪、声音增强、回声消除、咔嗒声去除操作,然后再对音频信号进行数字化处理,以此来提高音频信号的质量、准确性和适用性。
优选的,S2步骤具体为:
S2.1对进行了预处理的所有海洋哺乳动物叫声音频信号进行短时傅里叶变换STFT,得到所有叫声音频信号的彩色时频谱图,对于给定信号x(t),其STFT通过下面公式计算:
;
其中,X(t,f)是频率f处在时间t处的复数值,x(τ)是原始信号,g(τ-t)是窗口函数,用于限制信号在时间窗口内,e-j2πfτ是复指数,描述了信号的频率;
S2.2在叫声音频信号的时频谱图中选取中心像素pi的h×h个相邻像素,生成三维立方体集{v1,v2,…,vn}∈Rh×h×b,当目标像素位于图像边缘时,其相邻缺失像素的值设为零,h即补丁大小,b表示频带个数;
S2.3将三维立方体数据集随机划分为训练集Vtrain、验证集Vval和测试集Vtest,同时将上述划分后的数据集对应的标签向量分为训练标签Ltrain、验证标签Lval、测试标签Ltest。
优选的,所述S3.1步骤具体为:
使用3D-CNN作为光谱分支的基本结构,每个3D-CNN层都附带一个批归一化BN层,以提高数值稳定性;对于带有BN的第(m+1)个3D-CNN层的第i个输出,计算公式为:
;
;
其中∈Rh×h×b为第(m+1)层的第j个输入特征图,/>为第m层BN后的输出,E(·)和Var(·)分别表示输入的期望函数和方差函数;/>和/>表示第(m+)个3D-CNN层的权重和偏置,/>为三维卷积运算,R()表示引入网络非线性单元的激活函数。
优选的,S3.2步骤具体为:
其密集光谱块使用的是DenseNet中的密集块,且密集光谱块中每个卷积层由r个形状为1×1×a的核组成,然后每层生成形状为h×h×b的特征映射,具有r个通道,密集连接在通道维度上连接特征映射,因此通道数量与卷积层数量之间存在线性关系;m层密集块生成的rm通道输出表示为:
;
其中b表示输入特征映射中的通道编号。
优选的,S3.3的步骤具体为:
光谱注意块从初始输入A∈Rc×h×h开始计算,其h×h为输入的patch大小,c为输入通道的个数;具体来说,将A与AT进行矩阵乘法运算,得到通道关注映射X∈Rc×c,softmax层连接计算公式为:
;
其中表示第i个通道对第j个通道的影响;将XT与A之间的矩阵相乘结果重塑为Rc×h×h;将重塑后的结果用尺度α参数进行加权,并加入输入a,得到最终的光谱注意图E∈Rc ×h×h,计算公式为:
;
其中α初始化为0,可以逐渐学习,最终的映射E包含了所有通道特征的加权和,并描述远程依赖关系,提高特征的可判别性。
优选的,S4.1步骤具体为:
使用3D-CNN作为空间分支的基本结构,并在每个3D-CNN层中加入一个BN层,以提高数值稳定性。
优选的,S4.2步骤具体为:
其密集空间块使用的也是DenseNet中的密集块,密集空间块中每个卷积层由r个形状为1×1×a的核组成,然后每层生成形状为h×h×b的特征映射,具有r个通道,密集连接在通道维度上连接特征映射,因此通道数量与卷积层数量之间存在线性关系。
优选的,S4.3步骤具体为:
使空间注意块的输入特征图为A∈Rc×h×h,采用两个卷积层分别生成新的特征图B和C,其中{B,C}∈Rc×h×h,将B和C重塑为Rc×n,其中n=p×p是像素数,在B和C之间进行矩阵相乘,随后附加一个softmax层,计算空间注意特征映射S∈Rn×n:
;
其中测量第i个像素对第j个像素的影响,两个像素的特征表示越相同,表示它们之间的相关性越强,将初始输入特征A同时送入卷积层,得到一个新的特征映射D∈Rc×h×h,随后将其重塑为Rc×n;并在D和ST之间进行矩阵的乘法运算,将结果重塑为Rc×h×h:
;
其中初始值为零的β可以逐渐学会分配更多的权重,对所有位置和原始特征进行权重相加,得到最终特征E∈Rc×h×h,因此,空间维度上的远程上下文信息建模为E。
优选的,S5步骤具体为:
S5.1在TBTA网络模型的训练过程中,除了在空间分支和频谱分支的最后一层BN层与全局平均池化层之间分别采用一层dropout层来防止过拟合,还引入了提前停止策略和动态学习率调整方法来防止过拟合,并减少训练时间;训练中使用的激活函数是自正则化非单调激活函数Mish,Mish的公式是:
;
其中x表示激活的输入,tanh表示双曲正切函数,softplus表示软正数激活函数,ln表示自然对数函数;
S5.2在TBTA网络模型的效果验证中,分别使用总体精度OA、平均精度AA和Kappa系数K三个定量指标来衡量模型预测的精度;OA的计算公式为:
;
其中a代表正确分类的样本数,N代表总样本数;
AA的计算公式为:
;
其中N代表总样本数,代表类别i中正确分类的样本数,/>代表类别i中的样本总数;
K的计算公式为:
;
其中N是类别的总数,是混淆矩阵中第i行的总和,/>是混淆矩阵中第i列的总和,Total是总样本数。
本发明的有益效果:
本发明的基于TBTA网络的海洋哺乳动物叫声识别分类方法,并基于DenseNet和3D-CNN,提出了双支路双层注意力机制网络TBTA深度学习框架,TBTA设计了两个分支,使用双支路分别提取海洋哺乳动物叫声音频时频谱图的光谱特征和空间特征,无需进行繁琐的特征工程,并且在光谱维度和空间维度上引入了自适应的自注意机制,分别应用于光谱分支和空间分支。
由于复杂的海洋环境和各种有害信号,如海底混响、杂波和各种类型的噪声,缺乏具有特定信噪比的数据集是海洋哺乳动物叫声分类识别技术研究的主要局限性之一。为海洋哺乳动物叫声信号识别分类任务提供了一种高效而灵活的解决方案,可通过对目标海域当前季节的海洋哺乳动物叫声进行识别分类,继而自适应选择适合当前海域环境的海洋哺乳动物叫声。
使用双支路分别提取海洋哺乳动物叫声音频时频谱图的光谱特征和空间特征,然后进行融合分类,这样做减少了两类特征之间的干扰,提供了更全面的数据表示。
使用光谱注意块和空间注意块使网络更多地关注信息区域,而较少考虑非必要区域,从而增加有效信息的提取效率。
使用双支路和自注意机制都可以在数据集有限的条件下提取更多更全面的特征描述,从而在数据集有限的情况下大幅度提高分类精度。
附图说明
图1是本发明的一种实施例的整体流程图;
图2是本发明的一种实施例的具有批归一化BN层的三维卷积神经网络CNN结构图;
图3是本发明的一种实施例的密集块结构图;
图4是本发明的一种实施例的光谱注意块结构图;
图5是本发明的一种实施例的空间注意块结构图;
图6是本发明的一种实施例的TBTA网络模型的整体结构图;
图7是本发明的一种实施例的TBTA网络模型的训练流程图。
具体实施方式
为了使本发明实现的技术手段、创造特征与达成功效易于理解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进一步清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明提供的基于TBTA网络的海洋哺乳动物叫声识别分类方法,如图1所示,包括以下步骤:
S1使用Adobe Audition对原始海洋哺乳动物叫声音频信号进行预处理的具体方法为:
使用Adobe Audition软件对原始海洋哺乳动物叫声音频进行降噪、声音增强、回声消除、咔嗒声去除操作,然后再对音频信号进行数字化处理,以此来提高音频信号的质量、准确性和适用性。
S2对进行了预处理的叫声信号的时频谱图生成三维立方体数据集,并进行数据集划分的具体方法为:
S2.1对进行了预处理的所有海洋哺乳动物叫声音频信号进行短时傅里叶变换STFT,得到所有叫声音频信号的彩色时频谱图,对于给定信号x(t),其STFT通过下面公式计算:
;
其中,X(t,f)是频率f处在时间t处的复数值,x(τ)是原始信号,g(τ-t)是窗口函数,用于限制信号在时间窗口内,e-j2πfτ是复指数,描述了信号的频率;
S2.2在叫声音频信号的时频谱图中选取中心像素pi的h×h个相邻像素,生成三维立方体集{v1,v2,…,vn}∈Rh×h×b,当目标像素位于图像边缘时,其相邻缺失像素的值设为零,h即补丁大小,b表示频带个数;
S2.3将三维立方体数据集随机划分为训练集Vtrain、验证集Vval和测试集Vtest,同时将上述划分后的数据集对应的标签向量分为训练标签Ltrain、验证标签Lval、测试标签Ltest。
S3构建TBTA网络的光谱分支模型的具体方法为:
S3.1使用3D-CNN层和下采样来捕获特征映射,使用3D-CNN层和下采样来捕获特征映射,使用3D-CNN作为光谱分支的基本结构,每个3D-CNN层都附带一个批归一化BN层,以提高数值稳定性,具有BN层的三维卷积神经网络CNN结构如图2所示;对于带有BN的第(m+1)个3D-CNN层的第i个输出,其计算公式为:
;
;
其中∈Rh×h×b为第(m+1)层的第j个输入特征图,/>为第m层BN后的输出,E(·)和Var(·)分别表示输入的期望函数和方差函数,/>和/>表示第(m+1)个3D-CNN层的权重和偏置,/>为三维卷积运算,R()表示引入网络非线性单元的激活函数;
S3.2附着3D-CNN与BN结合的密集光谱块,密集光谱块使用的是DenseNet中的密集块,密集光谱块中每个卷积层由r个形状为1×1×a的核组成,然后每层生成形状为h×h×b的特征映射,具有r个通道;密集连接在通道维度上连接特征映射,因此通道数量与卷积层数量之间存在线性关系;网络框架中的密集块结构如图3所示;m层密集块生成的rm通道输出可表示为:
;
其中b表示输入特征映射中的通道编号;
S3.3采用光谱注意块来细化频谱特征,并获得加权谱特征映射,光谱注意块从初始输入A∈Rc×h×h开始计算,其中h×h为输入的patch大小,c为输入通道的个数;具体来说,将A与AT进行矩阵乘法运算,得到通道关注映射X∈Rc×c,softmax层连接计算公式为:
;
其中表示第i个通道对第j个通道的影响,并将XT与A之间的矩阵相乘结果重塑为Rc×h×h,最后,将重塑后的结果用尺度α参数进行加权,并加入输入a,得到最终的光谱注意图E∈Rc×h×h;
;
其中α初始化为0,可以逐渐学习,最终的映射E包含了所有通道特征的加权和,其描述远程依赖关系并提高特征的可判别性,网络框架中光谱注意块结构如图4所示;
S3.4通过注意块获取加权谱特征映射后,采用批归一化BN层和随机失活层dropout层来增强数值稳定性,以克服过拟合问题;最后通过全局平均池化层获得光谱特征图。
S4构建TBTA网络的空间分支模型的具体方法为:
S4.1使用3D-CNN层来捕获特征映射,使用3D-CNN作为空间分支的基本结构,并在每个3D-CNN层中加入一个BN层,以提高数值稳定性;
S4.2将3D-CNN与BN结合后的密集空间块进行附着,密集空间块使用的也是DenseNet中的密集块,密集空间块中每个卷积层由r个形状为1×1×a的核组成,然后每层生成形状为h×h×b的特征映射,具有r个通道,密集连接在通道维度上连接特征映射,因此通道数量与卷积层数量之间存在线性关系;
S4.3采用空间注意块对每个像素的系数进行加权,得到更具判别性的空间特征,空间注意块的输入特征图为A∈Rc×h×h,采用两个卷积层分别生成新的特征图B和C,其中{B,C}∈Rc×h×h,并将B和C重塑为Rc×n,其中n=h×h是像素数,在B和C之间进行矩阵相乘,随后附加一个softmax层,计算空间注意特征映射S∈Rn×n:
;
其中测量第i个像素对第j个像素的影响,两个像素的特征表示越相同,表示它们之间的相关性越强;将初始输入特征A同时送入卷积层,得到一个新的特征映射D∈Rc×h×h,随后将其重塑为Rc×n;并在D和ST之间进行矩阵的乘法运算,将结果重塑为Rc×h×h:
;
其中初始值为零的β可以逐渐学会分配更多的权重,对所有位置和原始特征进行权重相加,得到最终特征E∈Rc×h×h,因此,空间维度上的远程上下文信息建模为E;网络框架中光谱注意块结构如图5所示;
S4.4在捕获加权空间特征映射后,采用BN层和dropout层增强数值稳定性,克服过拟合问题;最后通过全局平均池化层,得到空间特征图。
实施例2
本发明提供的基于TBTA网络的海洋哺乳动物叫声识别分类方法,如图6和图7所示,还包括以下步骤:
S5对TBTA网络模型进行训练与验证的具体方法为:
S5.1 TBTA网络模型的结构如图6所示,在TBTA网络模型的训练过程中,除了在空间分支和频谱分支的最后一层BN层与全局平均池化层之间分别采用一层dropout层来防止过拟合,还引入了提前停止策略和动态学习率调整方法来防止过拟合,并减少训练时间;训练中使用的激活函数是自正则化非单调激活函数Mish,Mish的公式是:
;
其中x表示激活的输入,tanh表示双曲正切函数,softplus表示软正数激活函数,ln表示自然对数函数;TBTA网络模型的训练流程如图7所示;
S5.2在TBTA网络模型的效果验证中,分别使用总体精度OA、平均精度AA和Kappa系数K三个定量指标来衡量模型预测的精度;OA的计算公式为:
;
其中a代表正确分类的样本数,N代表总样本数;
AA的计算公式为:
;
其中N代表总样本数,代表类别i中正确分类的样本数,/>代表类别i中的样本总数;
K的计算公式为:
;
其中N是类别的总数,是混淆矩阵中第i行的总和,/>是混淆矩阵中第i列的总和,Total是总样本数。
本发明提出了一种新型的深度学习框架——双支路双层注意力机制网络TBTA,该框架基于DenseNet和3D-CNN。为了捕获海洋哺乳动物叫声信号时频谱图语谱图中的丰富特征,TBTA设计了两个分支,分别用于处理光谱特征和空间特征,无需进行繁琐的特征工程。并且在光谱维度和空间维度上引入了自适应的自注意机制,分别应用于光谱分支和空间分支。光谱型注意块聚焦于信息丰富的波段,而空间型注意块聚焦于信息丰富的像素,这使得TBTA能够对提取的特征图进行有效的细分和优化。最后,通过连接两个分支的输出,合成光谱空间特征,并利用softmax函数确定最终的分类结果。这一端到端的网络框架结合了不同种类和维度的特征提取和注意力机制,在数据集有限的情况下,可以大幅度提高分类的精度,为海洋哺乳动物叫声信号识别分类任务提供了一种高效而灵活的解决方案。
以上实施例仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施例对本发明进行了详细的说明,对于本领域的普通技术人员来说,依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。
Claims (10)
1.基于TBTA网络的海洋哺乳动物叫声识别分类方法,其特征在于,包括以下步骤:
S1使用Adobe Audition对原始海洋哺乳动物叫声音频信号进行预处理;
S2对进行了预处理的叫声信号的时频谱图生成三维立方体数据集,并进行数据集划分;
S3构建TBTA网络的光谱分支模型,具体包括:
S3.1使用3D-CNN层和下采样来捕获特征映射;
S3.2附着3D-CNN与BN结合的密集光谱块;
S3.3采用光谱注意块来细化频谱特征,并获得加权谱特征映射;
S3.4通过注意块获取加权谱特征映射后,采用批归一化BN层和随机失活层dropout层来增强数值稳定性,以克服过拟合问题;最后通过全局平均池化层获得光谱特征图;
S4构建TBTA网络的空间分支模型,具体包括:
S4.1使用3D-CNN层来捕获特征映射;
S4.2将3D-CNN与BN结合后的密集空间块进行附着;
S4.3采用空间注意块对每个像素的系数进行加权,得到更具判别性的空间特征;
S4.4在捕获加权空间特征映射后,采用BN层和dropout层增强数值稳定性,克服过拟合问题;最后通过全局平均池化层,得到空间特征图;
S5对TBTA网络模型进行训练与验证。
2.如权利要求1所述的基于TBTA网络的海洋哺乳动物叫声识别分类方法,其特征在于,所述S1步骤具体为:
使用Adobe Audition软件对原始海洋哺乳动物叫声音频进行降噪、声音增强、回声消除、咔嗒声去除操作,然后再对音频信号进行数字化处理,以此来提高音频信号的质量、准确性和适用性。
3.如权利要求1所述的基于TBTA网络的海洋哺乳动物叫声识别分类方法,其特征在于,所述S2步骤具体为:
S2.1对进行了预处理的所有海洋哺乳动物叫声音频信号进行短时傅里叶变换STFT,得到所有叫声音频信号的彩色时频谱图,对于给定信号x(t),其STFT通过下面公式计算:
;
其中,X(t,f)是频率f处在时间t处的复数值,x(τ)是原始信号,g(τ-t)是窗口函数,用于限制信号在时间窗口内,e-j2πfτ是复指数,描述了信号的频率;
S2.2在叫声音频信号的时频谱图中选取中心像素pi的h×h个相邻像素,生成三维立方体集{v1,v2,…,vn}∈Rh×h×b,当目标像素位于图像边缘时,其相邻缺失像素的值设为零,h即补丁大小,b表示频带个数;
S2.3将三维立方体数据集随机划分为训练集Vtrain、验证集Vval和测试集Vtest,同时将上述划分后的数据集对应的标签向量分为训练标签Ltrain、验证标签Lval、测试标签Ltest。
4.如权利要求1所述的基于TBTA网络的海洋哺乳动物叫声识别分类方法,其特征在于,所述S3.1步骤具体为:
使用3D-CNN作为光谱分支的基本结构,每个3D-CNN层都附带一个批归一化BN层,以提高数值稳定性;对于带有BN的第(m+1)个3D-CNN层的第i个输出,计算公式为:
;
;
其中∈Rh×h×b为第(m+1)层的第j个输入特征图,/>为第m层BN后的输出,E(·)和Var(·)分别表示输入的期望函数和方差函数;/>和/>表示第(m+)个3D-CNN层的权重和偏置,/>为三维卷积运算,R()表示引入网络非线性单元的激活函数。
5.如权利要求1所述的基于TBTA网络的海洋哺乳动物叫声识别分类方法,其特征在于,所述S3.2步骤具体为:
其密集光谱块使用的是DenseNet中的密集块,且密集光谱块中每个卷积层由r个形状为1×1×a的核组成,然后每层生成形状为h×h×b的特征映射,具有r个通道,密集连接在通道维度上连接特征映射,因此通道数量与卷积层数量之间存在线性关系;m层密集块生成的rm通道输出表示为:
;
其中b表示输入特征映射中的通道编号。
6.如权利要求1所述的基于TBTA网络的海洋哺乳动物叫声识别分类方法,其特征在于,所述S3.3的步骤具体为:
光谱注意块从初始输入A∈Rc×h×h开始计算,其h×h为输入的patch大小,c为输入通道的个数;具体来说,将A与AT进行矩阵乘法运算,得到通道关注映射X∈Rc×c,softmax层连接计算公式为:
;
其中表示第i个通道对第j个通道的影响;将XT与A之间的矩阵相乘结果重塑为Rc ×h×h;将重塑后的结果用尺度α参数进行加权,并加入输入a,得到最终的光谱注意图E∈Rc ×h×h,计算公式为:
;
其中α初始化为0,可以逐渐学习,最终的映射E包含了所有通道特征的加权和,并描述远程依赖关系,提高特征的可判别性。
7.如权利要求1所述的基于TBTA网络的海洋哺乳动物叫声识别分类方法,其特征在于,所述S4.1步骤具体为:
使用3D-CNN作为空间分支的基本结构,并在每个3D-CNN层中加入一个BN层,以提高数值稳定性。
8.如权利要求1所述的基于TBTA网络的海洋哺乳动物叫声识别分类方法,其特征在于,所述S4.2步骤具体为:
其密集空间块使用的也是DenseNet中的密集块,密集空间块中每个卷积层由r个形状为1×1×a的核组成,然后每层生成形状为h×h×b的特征映射,具有r个通道,密集连接在通道维度上连接特征映射,因此通道数量与卷积层数量之间存在线性关系。
9.如权利要求1所述的基于TBTA网络的海洋哺乳动物叫声识别分类方法,其特征在于,所述S4.3步骤具体为:
使空间注意块的输入特征图为A∈Rc×h×h,采用两个卷积层分别生成新的特征图B和C,其中{B,C}∈Rc×h×h,将B和C重塑为Rc×n,其中n=p×p是像素数,在B和C之间进行矩阵相乘,随后附加一个softmax层,计算空间注意特征映射S∈Rn×n:
;
其中测量第i个像素对第j个像素的影响,两个像素的特征表示越相同,表示它们之间的相关性越强,将初始输入特征A同时送入卷积层,得到一个新的特征映射D∈Rc×h×h,随后将其重塑为Rc×n;并在D和ST之间进行矩阵的乘法运算,将结果重塑为Rc×h×h:
;
其中初始值为零的β可以逐渐学会分配更多的权重,对所有位置和原始特征进行权重相加,得到最终特征E∈Rc×h×h,因此,空间维度上的远程上下文信息建模为E。
10.如权利要求1所述的基于TBTA网络的海洋哺乳动物叫声识别分类方法,其特征在于,所述S5步骤具体为:
S5.1在TBTA网络模型的训练过程中,除了在空间分支和频谱分支的最后一层BN层与全局平均池化层之间分别采用一层dropout层来防止过拟合,还引入了提前停止策略和动态学习率调整方法来防止过拟合,并减少训练时间;训练中使用的激活函数是自正则化非单调激活函数Mish,Mish的公式是:
;
其中x表示激活的输入,tanh表示双曲正切函数,softplus表示软正数激活函数,ln表示自然对数函数;
S5.2在TBTA网络模型的效果验证中,分别使用总体精度OA、平均精度AA和Kappa系数K三个定量指标来衡量模型预测的精度;OA的计算公式为:
;
其中a代表正确分类的样本数,N代表总样本数;
AA的计算公式为:
;
其中N代表总样本数,代表类别i中正确分类的样本数,/>代表类别i中的样本总数;
K的计算公式为:
;
其中N是类别的总数,是混淆矩阵中第i行的总和,/>是混淆矩阵中第i列的总和,Total是总样本数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744125.0A CN117423346A (zh) | 2023-12-19 | 2023-12-19 | 基于tbta网络的海洋哺乳动物叫声识别分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744125.0A CN117423346A (zh) | 2023-12-19 | 2023-12-19 | 基于tbta网络的海洋哺乳动物叫声识别分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117423346A true CN117423346A (zh) | 2024-01-19 |
Family
ID=89531133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311744125.0A Pending CN117423346A (zh) | 2023-12-19 | 2023-12-19 | 基于tbta网络的海洋哺乳动物叫声识别分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117423346A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118098249A (zh) * | 2024-04-26 | 2024-05-28 | 青岛科技大学 | 基于ipso-chrfa模型的海洋哺乳动物叫声分类方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486851A (zh) * | 2021-07-28 | 2021-10-08 | 齐齐哈尔大学 | 基于双分支光谱多尺度注意力网络的高光谱图像分类方法 |
-
2023
- 2023-12-19 CN CN202311744125.0A patent/CN117423346A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486851A (zh) * | 2021-07-28 | 2021-10-08 | 齐齐哈尔大学 | 基于双分支光谱多尺度注意力网络的高光谱图像分类方法 |
Non-Patent Citations (1)
Title |
---|
RUI LI ET AL.: "Classification of Hyperspectral Image Based on Double-Branch Dual-Attention Mechanism Network", 《REMOTE SENSING》, 10 February 2020 (2020-02-10), pages 2 - 5 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118098249A (zh) * | 2024-04-26 | 2024-05-28 | 青岛科技大学 | 基于ipso-chrfa模型的海洋哺乳动物叫声分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807365B (zh) | 一种基于gru与一维cnn神经网络融合的水下目标识别方法 | |
CN112364779B (zh) | 信号处理与深-浅网络多模型融合的水声目标识别方法 | |
US10679643B2 (en) | Automatic audio captioning | |
CN109522857B (zh) | 一种基于生成式对抗网络模型的人数估计方法 | |
CN112349297B (zh) | 一种基于麦克风阵列的抑郁症检测方法 | |
CN107785029A (zh) | 目标语音检测方法及装置 | |
CN108875592A (zh) | 一种基于注意力的卷积神经网络优化方法 | |
CN117423346A (zh) | 基于tbta网络的海洋哺乳动物叫声识别分类方法 | |
Sun et al. | Underwater single-channel acoustic signal multitarget recognition using convolutional neural networks | |
Yang et al. | A new cooperative deep learning method for underwater acoustic target recognition | |
Wei et al. | A method of underwater acoustic signal classification based on deep neural network | |
CN115170942B (zh) | 一种声音与视觉多级融合的鱼类行为识别方法 | |
CN111931820A (zh) | 一种基于卷积残差网络的水中目标辐射噪声lofar谱图线谱提取方法 | |
CN113191178A (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
CN118349919B (zh) | 一种基于声磁信息融合的水面-水下目标辨识方法 | |
CN118051831A (zh) | 基于CNN-Transformer合作网络模型的水声目标识别方法 | |
Zhou et al. | DBSA-net: Dual branch self-attention network for underwater acoustic signal denoising | |
CN118016088A (zh) | 一种基于学习差异性的鲸豚信号增强方法 | |
Yang et al. | Underwater acoustic target recognition based on sub-band concatenated Mel spectrogram and multidomain attention mechanism | |
CN117310668A (zh) | 融合注意力机制与深度残差收缩网络的水声目标识别方法 | |
CN115329821A (zh) | 一种基于配对编码网络和对比学习的舰船噪声识别方法 | |
Hu et al. | A deep learning method for ship-radiated noise recognition based on mfcc feature | |
Song et al. | Underwater acoustic signal noise reduction based on fully convolutional time domain separation network | |
Jin et al. | UAWC: An intelligent underwater acoustic target recognition system for working conditions mismatching | |
CN118230758B (zh) | 基于编码器与卷积融合的水声目标识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20240119 |