CN115547347A - 基于多尺度时频特征提取的鲸类声信号识别方法与系统 - Google Patents

基于多尺度时频特征提取的鲸类声信号识别方法与系统 Download PDF

Info

Publication number
CN115547347A
CN115547347A CN202210803510.7A CN202210803510A CN115547347A CN 115547347 A CN115547347 A CN 115547347A CN 202210803510 A CN202210803510 A CN 202210803510A CN 115547347 A CN115547347 A CN 115547347A
Authority
CN
China
Prior art keywords
time
frequency
scale
acoustic signal
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210803510.7A
Other languages
English (en)
Inventor
宋睿平
冯晓
孙海信
齐洁
苏展
林榕彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202210803510.7A priority Critical patent/CN115547347A/zh
Publication of CN115547347A publication Critical patent/CN115547347A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本申请提出了一种基于多尺度时频特征提取的鲸类声信号识别方法,包括:S1、获取海洋中鲸类生物发出的声信号;S2、采用自适应多尺度线性调频小波变换提取所述声信号的多尺度时频参数特征;S3、将所述时频参数特征输入到改进的卷积神经网络框架中进行识别,所述改进的卷积神经网络框架具体包括:在特征金字塔网络自上而下的路径最高层添加上下文信息提取模块,在所述特征金字塔网络自下而上的路径中添加多尺度通道注意力特征融合模块。本申请结合自适应多尺度线性调频小波变换方法提取的时频参数特征和基于时频参数特征设计的时频卷积神经网络框架,充分提取和利用鲸类声信号中的多尺度非线性特征,提升鲸类声信号的识别准确率和鲁棒性。

Description

基于多尺度时频特征提取的鲸类声信号识别方法与系统
技术领域
本申请涉及水声信号识别的技术领域,具体涉及一种基于多尺度时频 特征提取的鲸类声信号识别方法与系统。
背景技术
鲸类作为海洋中广泛分布、数目庞大的生物,其重要性也引起了研究 人员对它们越来越多的兴趣。鲸类动物大部分时间都待在水中,利用声音 进行交流、回声定位和其他社会活动。鲸类信号检测、识别、分类是是研 究鲸类生物行为的前提,对海洋资源的开发和保护、通信仿生领域以及保 障海域安全具有重要意义。
经典的鲸类研究方法是使用视觉的方法来检测他们,但大多数物种容 易听到而不容易看到。随着技术的进步,现在越来越多的人认识到被动声 学监测(PassiveAcoustic Monitoring,PAM)是一种很好的测量和研究鲸类 动物的技术。虽然PAM会获得大量的声音数据,但是往往很难进行手工分 析。自动检测和分类等自动技术的发展,使分析鲸类信号变得更快和准确 的,并且可以消除人工检测和分类过程中经常见的人为误差。
通常把鲸类信号分为两类:一种是嘀嗒信号(Click),另一种是哨声 信号(Whistle),有许多学者针对鲸类声信号识别的时频变换方法进行了 研究。有学者研究使用过短时傅里叶变换(Short-Time Fourier Transform, STFT)、连续小波变换(Continuous Wavelet Transform,CWT)、Chirplet 变换等方法,但这些方法大多使用的是线性分析方法,未能针对鲸类信号 多分量、非线性的特点,CWT方法虽然可以对哨声信号中的非线性调频分 量进行处理,但是却使时频分辨率降低了。
同时针对鲸类信号的识别方法,也现存有大量研究。有学者提出过高 斯混合模型(Gaussian mixture model,GMM)分类器和隐马尔可夫模型 (Hidden Markov Model,HMM)对不同种类或不同个体的生物进行分类识 别,也有大量的学者讲神经网络和深度学习用于鲸类信号分类识别中。但 是目前使用的深度学习网络,都是通过训练获得深层抽象特征再进行分类, 会造成细节特征的消除,应用在鲸类信号时频图中就会导致部分信息丢失,降低识别准确率。
发明内容
为了解决上述技术问题,本申请针对鲸类信号特性,提出了一种基于 多尺度时频特征提取的鲸类声信号识别方法与系统。
根据本申请的第一方面,提出了一种基于多尺度时频特征提取的鲸类 声信号识别方法,包括以下步骤:
S1、获取海洋中鲸类生物发出的声信号;
S2、针对所述声信号的非线性特征和不断变化的啁啾率,采用自适应 多尺度线性调频小波变换提取所述声信号的多尺度时频参数特征;以及
S3、将所述时频参数特征输入到改进的卷积神经网络框架中进行识别, 所述改进的卷积神经网络框架具体包括:在特征金字塔网络自上而下的路 径最高层添加上下文信息提取模块,在所述特征金字塔网络自下而上的路 径中添加多尺度通道注意力特征融合模块。
优选的,所述步骤S2具体包括:
S21、对所述声信号进行线性调频小波变换;
S22、根据所述声信号的非线性特征和啁啾率,分别确定高斯窗的窗口 长度和窗口宽度,以满足所述声信号在所述高斯窗内接近平稳;
S23、根据所述高斯窗,得到所述自适应多尺度线性调频小波变换的表 达式,并根据表达式得到角度参数,从而提取包含所述角度参数和所述窗 口长度的所述时频参数特征。
优选的,所述步骤S22中所述窗口长度的确定过程具体包括:计算每 一时刻高斯窗函数的标准差,从而确定所述高斯窗的所述窗口长度,使得 所述声信号在所述高斯窗内接近平稳,所述高斯窗函数的表达式具体为:
Figure BDA0003735407280000031
其中,σ(t)为标准差;
所述窗口长度的表达式具体为:
Figure BDA0003735407280000032
优选的,所述步骤S22中所述窗口宽度的确定过程具体包括:通过检 测所述声信号的小波变换脊线估计瞬时频率,得到啁啾率:
Figure BDA0003735407280000033
其中,v(t)为瞬时频率;
从而得到所述窗口宽度的条件式具体为:
Figure BDA0003735407280000034
其中,通过调整阈值ξ使得所述声信号在所述高斯窗内接近平稳。
优选的,所述步骤S23中所述自适应多尺度线性调频小波变换的表达 式具体为:
Figure BDA0003735407280000035
其中,S(t)为声信号,αm、βn为角度参数,h(t-tc)是一个二维的高斯 窗函数,窗口长度代表的是时间域的跨度,窗口宽度代表的是频率域的跨 度。
优选的,所述步骤S23中所述时频参数特征的提取进一步包括:根据 时频能量浓度测量公式:
Figure BDA0003735407280000041
其中,p为大于1的参数,W为窗口长度,L为声信号的长度;
通过最小化时频能量浓度测量公式CM,使得时频能量浓度达到最大 值,从而获得最优的所述角度参数和最优的所述窗口长度。
优选的,所述上下文信息提取模块由多个比率不同的多路径膨胀卷积 层组成,且多个所述膨胀卷积层紧密连接。
优选的,所述多尺度通道注意力特征融合模块使用多尺度通道注意模 块将不同特征进行融合,其表达式具体为:
Figure RE-GDA0003885433400000043
其中,X、Y为输入的特征,M为权重,Z为模块最终输出的融合特征, ⊙表示初始特征融合运算:
Figure RE-GDA0003885433400000042
根据本申请的第二方面,提出了一种基于多尺度时频特征提取的鲸类 声信号识别系统,包括:
声信号获取模块,配置用于获取海洋中鲸类生物发出的声信号;
时频参数特征提取模块,配置用于针对所述声信号的非线性特征和不 断变化的啁啾率,采用自适应多尺度线性调频小波变换提取所述声信号的 多尺度时频参数特征;
声信号识别模块,配置用于将所述时频参数特征输入到改进的卷积神 经网络框架中进行识别,所述改进的卷积神经网络框架具体包括:在特征 金字塔网络自上而下的路径最高层添加上下文信息提取模块,在所述特征 金字塔网络自下而上的路径中添加多尺度通道注意力特征融合模块。
根据本申请的第三方面,提出了一种计算机可读储存介质,其储存有 计算机程序,所述计算机程序在被处理器执行时实施如本申请第一方面所 述的基于多尺度时频特征提取的鲸类声信号识别方法。
本申请提出了一种基于多尺度时频特征提取的鲸类声信号识别方法与 系统,通过采用自适应多尺度线性调频小波变换方法提取鲸类声信号的时 频参数特征,能够更有效地针对鲸类信号的非线性时变特性,减少特征提 取过程中的信息损失,同时设计一种新型的针对声信号时频参数特征的时 频卷积神经网络框架,能够更好地利用提取的时频特征。本申请通过使用 新型的时频参数特征提取方法和分类网络框架,实现了鲸类声信号在不同 距离、不同信噪比、不同多普勒频偏的条件下,相比现已有的识别算法在 识别准确率方面的提升,提高了当前鲸类声信号的识别能力和鲁棒性,对 当前我国的海洋资源勘探、海洋环境开发和海洋动物保护具有重要的意义。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并 且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本 申请的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通 过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互 按照比例的。同样的附图标记指代对应的类似部件。
图1是根据本申请实施例的基于多尺度时频特征提取的鲸类声信号识 别方法流程图;
图2是根据本申请具体实施例的线性调频小波变换解释图;
图3是根据本申请具体实施例的时频参数特征卷积神经网络框架;
图4是根据本申请具体实施例的上下文信息提取模块的框架图;
图5是根据本申请具体实施例的多尺度通道注意力特征融合模块的框 架图;
图6是根据本申请具体实施例的三种识别算法在不同距离下的识别率 对比图;
图7是根据本申请具体实施例的三种识别算法在不同信噪比下的识别 率对比图;
图8是根据本申请具体实施例的三种识别算法在不同多普勒频偏下的 识别率对比图;
图9是根据本申请实施例的基于多尺度时频特征提取的鲸类声信号识 别系统框图。
附图标记说明:1、声信号获取模块;2、时频参数特征提取模块;3、 声信号识别模块。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本 申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置 为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本 申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施 例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用 来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者 暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语 “包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而 且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物 品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括......” 限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在 另外的相同要素。
根据本申请的第一方面,提出了一种基于多尺度时频特征提取的鲸类 声信号识别方法。图1示出了根据本申请实施例的基于多尺度时频特征提 取的鲸类声信号识别方法流程图,如图1所示,该方法包括以下步骤:
S1、获取海洋中鲸类生物发出的声信号;
S2、针对声信号的非线性特征和不断变化的啁啾率,采用自适应多尺 度线性调频小波变换提取声信号的多尺度时频参数特征;
S3、将时频参数特征输入到改进的卷积神经网络框架中进行识别,改 进的卷积神经网络框架具体包括:在特征金字塔网络自上而下的路径最高 层添加上下文信息提取模块,在特征金字塔网络自下而上的路径中添加多 尺度通道注意力特征融合模块。
在具体的实施例中,步骤S2包括以下步骤:
S21、对声信号进行线性调频小波变换;
S22、根据声信号的非线性特征和啁啾率,分别确定高斯窗的窗口长度 和窗口宽度,以满足声信号在高斯窗内接近平稳;
S23、根据高斯窗,得到自适应多尺度线性调频小波变换的表达式,并 根据表达式得到角度参数,从而提取包含角度参数和窗口长度的时频参数 特征。
为了更好的介绍步骤S2中的自适应多尺度线性调频小波变换 (Adaptive Multi-Scale Chirplet Transform,AMSCT)方法以及步骤S3中改 进的卷积神经网络框架,下面将以完整的方法流程来阐述这两方面的内容。
1、自适应多尺度线性调频小波变换(AMSCT)方法
传统的线性时频分析(Time Frequency Analysis,TFA)是建立在信号 在短时间内是分段平稳的假设上,但是对于一些强调制频率的信号,它们 的瞬时频率(Instantaneous Frequency,IF)在短时间内也是变化的,导致这 类信号在进行TFA时时频分辨率较低。线性调频小波变换(Chirplet Transform,CT)是一种利用信号的先验知识来设置相位函数的参数值的方 法,能够更有效地表征调频信号的时频特性。鲸类声信号s(t)∈L2(R)的线性 调频小波变换可以表示为:
Figure BDA0003735407280000081
其中z(t)为s(t)的解析信号。
图2示出了根据本申请具体实施例的线性调频小波变换解释图,如图2 所示,其中实线为声信号的实际瞬时频率轨迹ω00t,点划线为变换过后的 轨迹,α=tan(θ)。从中可以直观的看到,线性调频小波变换相当于将瞬时 频率(IF)顺时针旋转了角度θ,然后向上平移αt0,最后使用时间宽度为σ 的窗函数h(t-t0)对IF做短时傅里叶变换。可以看出经过旋转平移后,IF被 相同时间宽度的窗函数截取的频带宽度变小,换而言之就是时间分辨率相同的情况下,提高了信号的频率分辨率。当α等于IF的斜率,即信号的啁 啾率时,频率分辨率将达到最高,时频图的能量最为集中。
但是,线性调频小波变换也存在一些不足,例如实际信号往往难以获 得先验知识,无法确定啁啾率以及窗口长度;对于非线性调频信号,啁啾 率不是一个常数,无法使用一个啁啾率为常数的核函数对信号不同时间段 进行有效的分析;在同一个时间窗口内,啁啾率也是固定的,核函数无法 匹配时间窗内的每个时间点。
对于非线性调频信号,瞬时频率的变化率是随着时间不断变化的。因 此对于非线性调频信号,要实现时间分辨率和频率分辨率合理协调,使用 的时间窗口应该是随着瞬时频率变化的快慢程度不断变化的。因此,本申 请所提出的自适应多尺度线性调频小波变换方法,在分析窗口长度时不需 要通过声信号的先验知识来人为设置,而是根据时频能量浓度自动选择最 佳窗口长度。AMSCT的高斯窗函数不是固定的,而是一个随时间变换的函数,可以通过算法获得每一时刻高斯窗函数的标准差σ(t),从而确定高斯窗 的长度W(t),使得声信号可以在该高斯窗内接近平稳。此时,高斯窗函数 的表达式具体为:
Figure BDA0003735407280000091
窗口长度的表达式具体为:
Figure BDA0003735407280000092
而窗口宽度取决于声信号的啁啾率,即中频的一阶导数。首先通过检 测信号的小波变换脊线来估计瞬时频率v(t)。然后,得到啁啾率:
Figure BDA0003735407280000093
根据啁啾率,准平稳的窗口宽度X(t)需满足条件式(1):
Figure BDA0003735407280000094
X(t)通过阈值ξ进行调整,使得信号在每个时刻t都是准平稳的。对于采 样间隔为△t的离散信号,第k个时间采样点的离散啁啾率为:
Figure BDA0003735407280000095
v[k]为瞬时频率的离散形式,对于离散信号,上述窗口宽度的条件式(1) 可以写为:
Figure BDA0003735407280000096
确定了高斯窗之后,便可得到自适应多尺度线性调频小波变换 (AMSCT)的表达式:
Figure BDA0003735407280000097
其中,S(t)为声信号,αm、βn为角度参数,h(t-tc)是一个二维的高斯 窗函数,窗口长度代表的是时间域的跨度,窗口宽度代表的是频率域的跨 度。
在优选的方法中,由于时频分布浓度测量可以为评价不同分布的性能 提供一个定量的标准,因此可以根据其值大小选择合适时频分析参数,从 而获得使时频能量浓度最高的窗口长度。浓度测量公式为:
Figure BDA0003735407280000101
其中,p为大于1的参数,W为窗口长度,L为声信号的长度。值得注 意的是,上式的值越小,说明时频分布浓度越高。通过最小化CM来获得参 数αm、βn,同时使角度参数αm、βn与窗口长度W能同时达到最优。因此可 以得到AMSCT的参数估计表达式为:
Figure BDA0003735407280000102
角度参数αm、βn与窗口长度W的具体计算步骤如下:
(1)输入窗移长度H,以及参数M、N和K,其中M、N为角度分段 数,K为窗口长度个数。
(2)根据M、N获得一系列角度参数以及窗口长度。
Figure BDA0003735407280000103
Figure BDA0003735407280000104
Figure BDA0003735407280000105
(3)得到每个时间中心,在不同角度参数α、β和窗口长度w下的一个 五维矩阵子时频表示(Time Frequency Reference,TFR)。
(4)根据AMSCT表达式获得每个时间中心最优的角度参数α、β和 窗口长度w。
(5)最后利用每个时频块最优的角度参数α、β和窗口长度w所对应 的TFR拼接成一个完整的TFR。
(6)输出最终的TFR。
至此,便提取得到声信号的多尺度时频参数特征。
2、改进的卷积神经网络框架
在得到AMSCT估计的时频参数特征后,即可通过针对时频参数特征 设计的卷积神经网络框架进行识别。图3示出了根据本申请具体实施例的 时频参数特征卷积神经网络框架图,如图3所示,该网络是在特征金字塔 网络(Feature Pyramid Network,FPN)的基础上经行了优化,FPN网络由 自上而下与自下而上两条支路组成。
由于深层网络学习到的特征具有较低的分辨率,为了避免导致时频图 中细小线分量结构被抹除和部分信息丢失,在特征金字塔网络自上而下的 路径最高层添加了上下文信息提取模块(Context Extraction Module,CEM) 用来获得多尺度特征映射并且将他们进行有效融合,增强网络提取特征的 能力。图4示出了根据本申请具体实施例的上下文信息提取模块的框架图, 如图4所示,该模块能够从各种感受野中提取大量的上下文信息,从而产 生具有很好的识别效果的客观特征。CEM由不同比率的多路径膨胀卷积层 组成,比率分别为3、6、12、18和24。利用这些卷积层,可以获得多个不 同尺寸感受野的特征。同时,在每个路径上都加入可变形的卷积层,以提 高几何转换的性能,确保CEM可以从给定的数据中获得转换不变的特征。 另外,为了实现多尺度信息的精细融合,CEM采用紧密的连接方式,将每 个膨胀卷积层的输出与输入的特征相结合,然后送入下一个膨胀卷积层。
在特征金字塔网络(FPN)中,自上而下与自下而上路径的特征图通过 简单的加法运算进行融合,但是这种简单粗暴的线性融合方式并不适合本 发明中的信号。因此,本申请使用多尺度通道注意力特征融合(Attentional Feature Fusion,AFF)模块作为FPN网络中自下而上支路的组成部分,使 网络能以上下文尺度感知的方式动态自适应地融合接收到的特征。图5示 出了根据本申请具体实施例的多尺度通道注意力特征融合模块的框架图, 如图5所示,其中C为通道数,特征图大小为H×W。其使用多尺度通道注 意模块(Multi-Scale Channel Attention Module,MS-CAM),将不同特征进 行融合,其表达式为:
Figure RE-GDA0003885433400000121
其中,X、Y为输入的特征,M为权重,Z为模块最终输出的融合特征, ⊙表示初始特征融合运算:
Figure RE-GDA0003885433400000122
由于权重M(X+Y)和1-M(X+Y)之和为1,所以相当于对特征X和Y做 加权平均。
在网络的最后将AFF的输出通过全连接(Fully Connected,FC)网络, 输出得到分类结果。
在优选的实施例中,本申请还对不同分类算法的性能进行了对比。
为了展示本申请所提出算法的性能,对比了所提出的AMSCT算法与 短时傅立叶变换(STFT)算法、速度同步线性线性调频小波变换(Velocity Synchronous LinearChirplet Transform,VSLCT)算法在鲸类声信号识别率 方面的性能。
在数据方面,所用的鲸类声信号数据集来源于网络开源的Whale FM数 据集。数据由吸附在鲸鱼身上的DTAG设备采集。数据集包括从冰岛、挪 威和巴哈马群岛沿岸的7只领航鲸和9只虎鲸的信号。数据格式为MP3, 数据长度为1-8s,总共约10000个样本,将数据集按照种类划分可以分为4 类,分别为位于巴哈马的短鳍领航鲸、位于挪威的长鳍领航鲸、位于冰岛 的虎鲸和位于挪威的虎鲸。
AMSCT算法中有四个输入参数M、N、K和H。M、N和K控制参数 估计的精度,H控制时频分辨率。当M、N和K越大,H越小时,获得的 时频图越清晰,但是运算时间也会随之增加,可以灵活调整它们的大小。 为了平衡时频特征的分辨率和计算效率,实验过程中M、N、K和H分别取为20、20、20和160。
为了研究识别算法对水下信道的鲁棒性,将仿真信号测试集中10种不 同距离、10中不同信噪比和10种不同多普勒频偏的样本分别进行了测试。
图6示出了根据本申请具体实施例的三种识别算法在不同距离下的识 别率对比图,如图6所示,由于多径延迟和信号衰减随着距离变远而逐渐 加剧,三种时频算法下的识别率都呈下降趋势,但是AMSCT相比于另外 两个算法具有更高的识别率,距离越远差距越明显。
图7示出了根据本申请实施例的三种识别算法在不同信噪比下的识别 率对比图,如图7所示,随着信噪比的提升,信号的识别准确率不断上升, 但是在不同信噪比下使用AMSCT算法的准确率始终比其他两种方法高。
图8示出了根据本申请实施例的三种识别算法在不同多普勒频偏下的 识别率对比图,如图8所示,在不同多普勒频偏下识别率并没有很大的变 化,但总体上AMSCT的识别性能更好。
综上所述,本申请结合AMSCT方法提取的时频参数特征和基于时频 参数特征设计的时频卷积神经网络框架,充分提取和利用鲸类声信号中的 多尺度非线性特征,提升鲸类声信号的识别准确率和鲁棒性,在不同距离、 不同信噪比、不同多普勒频偏的测试环境中都展现出明显的优势
根据本申请的第二方面,提出了一种基于多尺度时频特征提取的鲸类 声信号识别系统,该识别系统是基于上述的识别方法搭建的。图9示出了 根据本申请实施例的基于多尺度时频特征提取的鲸类声信号识别系统框 图,如图9所示,该系统包括:
声信号获取模块1,配置用于获取海洋中鲸类生物发出的声信号;
时频参数特征提取模块2,配置用于针对声信号的非线性特征和不断变 化的啁啾率,采用自适应多尺度线性调频小波变换提取声信号的多尺度时 频参数特征;
声信号识别模块3,配置用于将时频参数特征输入到改进的卷积神经网 络框架中进行识别,改进的卷积神经网络框架具体包括:在特征金字塔网 络自上而下的路径最高层添加上下文信息提取模块,在特征金字塔网络自 下而上的路径中添加多尺度通道注意力特征融合模块。
根据本申请的第三方面,提出了一种计算机可读储存介质,其储存有 计算机程序,该计算机程序在被处理器执行时实施如本申请第一方面的基 于多尺度时频特征提取的鲸类声信号识别方法。
本申请提出了一种基于多尺度时频特征提取的鲸类声信号识别方法、 系统及介质,通过采用自适应多尺度线性调频小波变换方法提取鲸类声信 号的时频参数特征,能够更有效地针对鲸类信号的非线性时变特性,减少 特征提取过程中的信息损失,同时设计一种新型的针对声信号时频参数特 征的时频卷积神经网络框架,能够更好地利用提取的时频特征。本申请通 过使用新型的时频参数特征提取方法和分类网络框架,实现了鲸类声信号 在不同距离、不同信噪比、不同多普勒频偏的条件下,相比现已有的识别 算法在识别准确率方面的提升,提高了当前鲸类声信号的识别能力和鲁棒 性,对当前我国的海洋资源勘探、海洋环境开发和海洋动物保护具有重要 的意义。
在本申请实施例中,应该理解到,所揭露的技术内容,可通过其它的 方式实现。其中,以上所描述的装置/系统/方法实施例仅仅是示意性的,例 如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的 划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或 一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合 或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通 信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分 或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在 一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软 件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销 售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解, 本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方 案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储 在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算 机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分 步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、 随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光 盘等各种可以存储程序代码的介质。
显然,本领域技术人员在不偏离本申请的精神和范围的情况下可以作 出对本申请的实施例的各种修改和改变。以该方式,如果这些修改和改变 处于本申请的权利要求及其等同形式的范围内,则本申请还旨在涵盖这些 修改和改变。词语“包括”不排除未在权利要求中列出的其它元件或步骤 的存在。某些措施记载在相互不同的从属权利要求中的简单事实不表明这 些措施的组合不能被用于获利。权利要求中的任何附图标记不应当被认为 限制范围。

Claims (10)

1.一种基于多尺度时频特征提取的鲸类声信号识别方法,其特征在于,包括以下步骤:
S1、获取海洋中鲸类生物发出的声信号;
S2、针对所述声信号的非线性特征和不断变化的啁啾率,采用自适应多尺度线性调频小波变换提取所述声信号的多尺度时频参数特征;以及
S3、将所述时频参数特征输入到改进的卷积神经网络框架中进行识别,所述改进的卷积神经网络框架具体包括:在特征金字塔网络自上而下的路径最高层添加上下文信息提取模块,在所述特征金字塔网络自下而上的路径中添加多尺度通道注意力特征融合模块。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:
S21、对所述声信号进行线性调频小波变换;
S22、根据所述声信号的非线性特征和啁啾率,分别确定高斯窗的窗口长度和窗口宽度,以满足所述声信号在所述高斯窗内接近平稳;
S23、根据所述高斯窗,得到所述自适应多尺度线性调频小波变换的表达式,并根据表达式得到角度参数,从而提取包含所述角度参数和所述窗口长度的所述时频参数特征。
3.根据权利要求2所述的方法,其特征在于,所述步骤S22中所述窗口长度的确定过程具体包括:计算每一时刻高斯窗函数的标准差,从而确定所述高斯窗的所述窗口长度,使得所述声信号在所述高斯窗内接近平稳,所述高斯窗函数的表达式具体为:
Figure FDA0003735407270000011
其中,σ(t)为标准差;
所述窗口长度的表达式具体为:
Figure FDA0003735407270000021
4.根据权利要求2所述的方法,其特征在于,所述步骤S22中所述窗口宽度的确定过程具体包括:通过检测所述声信号的小波变换脊线估计瞬时频率,得到啁啾率:
Figure FDA0003735407270000022
其中,v(t)为瞬时频率;
从而得到所述窗口宽度的条件式具体为:
Figure FDA0003735407270000023
其中,通过调整阈值ξ使得所述声信号在所述高斯窗内接近平稳。
5.根据权利要求2所述的方法,其特征在于,所述步骤S23中所述自适应多尺度线性调频小波变换的表达式具体为:
Figure FDA0003735407270000024
其中,S(t)为声信号,αm、βn为角度参数,h(t-tc)是一个二维的高斯窗函数,窗口长度代表的是时间域的跨度,窗口宽度代表的是频率域的跨度。
6.根据权利要求2所述的方法,其特征在于,所述步骤S23中所述时频参数特征的提取进一步包括:根据时频能量浓度测量公式:
Figure FDA0003735407270000025
其中,p为大于1的参数,W为窗口长度,L为声信号的长度;
通过最小化时频能量浓度测量公式CM,使得时频能量浓度达到最大值,从而获得最优的所述角度参数和最优的所述窗口长度。
7.根据权利要求1所述的方法,其特征在于,所述上下文信息提取模块由多个比率不同的多路径膨胀卷积层组成,且多个所述膨胀卷积层紧密连接。
8.根据权利要求1所述的方法,其特征在于,所述多尺度通道注意力特征融合模块使用多尺度通道注意模块将不同特征进行融合,其表达式具体为:
Figure RE-FDA0003885433390000031
其中,X、Y为输入的特征,M为权重,Z为模块最终输出的融合特征,⊙表示初始特征融合运算:
Figure RE-FDA0003885433390000032
9.一种基于多尺度时频特征提取的鲸类声信号识别系统,其特征在于,包括:
声信号获取模块,配置用于获取海洋中鲸类生物发出的声信号;
时频参数特征提取模块,配置用于针对所述声信号的非线性特征和不断变化的啁啾率,采用自适应多尺度线性调频小波变换提取所述声信号的多尺度时频参数特征;
声信号识别模块,配置用于将所述时频参数特征输入到改进的卷积神经网络框架中进行识别,所述改进的卷积神经网络框架具体包括:在特征金字塔网络自上而下的路径最高层添加上下文信息提取模块,在所述特征金字塔网络自下而上的路径中添加多尺度通道注意力特征融合模块。
10.一种计算机可读储存介质,其储存有计算机程序,所述计算机程序在被处理器执行时实施如权利要求1-8中任一项所述的方法。
CN202210803510.7A 2022-07-07 2022-07-07 基于多尺度时频特征提取的鲸类声信号识别方法与系统 Pending CN115547347A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210803510.7A CN115547347A (zh) 2022-07-07 2022-07-07 基于多尺度时频特征提取的鲸类声信号识别方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210803510.7A CN115547347A (zh) 2022-07-07 2022-07-07 基于多尺度时频特征提取的鲸类声信号识别方法与系统

Publications (1)

Publication Number Publication Date
CN115547347A true CN115547347A (zh) 2022-12-30

Family

ID=84723561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210803510.7A Pending CN115547347A (zh) 2022-07-07 2022-07-07 基于多尺度时频特征提取的鲸类声信号识别方法与系统

Country Status (1)

Country Link
CN (1) CN115547347A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312623A (zh) * 2023-03-20 2023-06-23 安徽大学 一种鲸类信号重叠分量的方向脊线预测追踪方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312623A (zh) * 2023-03-20 2023-06-23 安徽大学 一种鲸类信号重叠分量的方向脊线预测追踪方法及系统
CN116312623B (zh) * 2023-03-20 2023-10-13 安徽大学 一种鲸类信号重叠分量的方向脊线预测追踪方法及系统

Similar Documents

Publication Publication Date Title
Kong et al. Weakly labelled audioset tagging with attention neural networks
CN111860573B (zh) 模型训练方法、图像类别检测方法、装置和电子设备
Baumgartner et al. A generalized baleen whale call detection and classification system
CN107290741B (zh) 基于加权联合距离时频变换的室内人体姿态识别方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN110705722A (zh) 一种工业设备故障诊断的诊断模型及其构建方法和应用
Kershenbaum et al. An image processing based paradigm for the extraction of tonal sounds in cetacean communications
Ogundile et al. A hidden Markov model with selective time domain feature extraction to detect inshore Bryde's whale short pulse calls
CN115114949A (zh) 一种基于水声信号的舰船目标智能识别方法及系统
Wang et al. Rainfall observation using surveillance audio
CN113516626A (zh) 基于多尺度卷积与池化策略的侧扫声纳海底沙波检测方法
CN115547347A (zh) 基于多尺度时频特征提取的鲸类声信号识别方法与系统
CN115758082A (zh) 一种轨道交通变压器故障诊断方法
White et al. More than a whistle: Automated detection of marine sound sources with a convolutional neural network
CN114582325A (zh) 音频检测方法、装置、计算机设备、存储介质
Asghari et al. Spatial rainfall prediction using optimal features selection approaches
CN112327286B (zh) 低复杂度下日常活动分类方法、装置、设备及存储介质
CN110969203B (zh) 基于自相关和cam网络的hrrp数据去冗余方法
CN114358162B (zh) 一种基于连续小波变换的跌倒检测方法、装置及电子设备
CN114492540A (zh) 目标检测模型的训练方法、装置、计算机设备及存储介质
CN114282576A (zh) 基于时频分析及去噪的雷达信号调制格式识别方法及装置
CN115345203A (zh) 一种基于vmd和多特征融合的管道信号识别方法及系统
CN113688655B (zh) 干扰信号的识别方法、装置、计算机设备和存储介质
CN114998731A (zh) 智能终端导航场景感知识别的方法
CN113160823A (zh) 基于脉冲神经网络的语音唤醒方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination