CN105513609B - 一种水声目标信号声纹特征提取装置和方法 - Google Patents
一种水声目标信号声纹特征提取装置和方法 Download PDFInfo
- Publication number
- CN105513609B CN105513609B CN201510844022.0A CN201510844022A CN105513609B CN 105513609 B CN105513609 B CN 105513609B CN 201510844022 A CN201510844022 A CN 201510844022A CN 105513609 B CN105513609 B CN 105513609B
- Authority
- CN
- China
- Prior art keywords
- original signal
- vocal print
- signal
- underwater acoustic
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001755 vocal effect Effects 0.000 title claims abstract description 36
- 238000000605 extraction Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title abstract description 23
- 238000001228 spectrum Methods 0.000 claims abstract description 70
- 239000000284 extract Substances 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims description 37
- 238000013135 deep learning Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001503991 Consolida Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
一种水声目标信号声纹特征提取装置和方法,主要包括用于获取水声目标信号的原始信号谱的信号获取模块,用于从原始信号谱中提取出目标的基频和谐波的特征提取模块,利用原始信号谱、目标的基频和谐波对原始信号谱进行重构,得到声纹特征的重构模块,本发明可以有效提取水声目标信号声纹特征中的谐波成分,并具有一定的抗噪声干扰和频率漂移能力。
Description
技术领域
本发明涉及一种声纹特征提取装置和方法,特别是一种水声目标信号声纹特征提取装置和方法,属于水下声纹特征提取领域。
背景技术
舰船辐射噪声主要由发电机、推进系统和船上辅助设备等声源产生,可以被探测设备所侦测获取。侦测到的水声目标信号中存在着与其多声源相应的区别与其他型号舰船的特征线谱,即声纹特征。声纹特征包含简单特征和复杂特征。声纹特征中的线谱就是简单特征,这些特征线谱可以用频率、幅值和宽度描述,而特征线谱间存在的关联关系则为复杂特征,可以更精细地用重构信号的谱图表示。
近些年来,深度学习(Deep Learning)作为机器学习(Machine Leaning)研究中的一个新的领域,以其在各个机器学习任务中所展现出来的优良的性能,得到了广泛的关注。深度学习的引入也在一定程度上使得机器学习更加接近其原始的目标:人工智能(Artificial Intelligent)。在经典机器学习方法中,人工智能系统基于系统输入特征学习得到模型,从而实现分类和识别。在表示学习(Representation Learning)方法中,人工智能系统不仅学习如何从给定特征映射到系统输出,而且学习如何选择输入特征。然而在实际应用中,影响输入观察的因素非常多,如何从中抽取出更具代表性的高层特征,是表示学习所面临的困难。而基于深度学习的人工智能系统则实现了从底层的简单概念中构建得到高层复杂概念的能力。深度学习之所以被称为“深度”,是相对支撑向量机(SupportVector Machine)、提升方法(Boosting)、最大熵方法等“浅层学习”方法而言的。深度学习的概念源于人工神经网络(Artificial Neural Network)的研究,最早由多伦多大学的Hinton等提出,其中在输入层和输出层之间包含超过一个隐层的神经网络,即深层神经网络(Deep Neural Network),就是一种深度学习结构。在机器视觉领域,深层神经网络在ImageNet竞赛中带来的显著性能提升。在自然语言处理领域,循环神经网络语言模型被广泛应用到各个领域,取得了显著优于N元文法的性能。基于神经网络的方法也被应用到了许多自然语言处理任务中,例如机器翻译,命名体识别,词性标注,语义分析等。基于深层神经网络的语音识别声学模型成为了主流的建模方法,并在信息产业上取得了成功。
针对水声侦测信号的声纹特征提取问题,浅层结构算法的局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限,其泛化能力受到一定制约。深度学习具有多层非线性映射的深层结构,实现复杂的函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。声纹特征的提取需要从具有一定信噪比的噪声中重构出声纹信号。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供了一种水声目标信号声纹特征提取装置和方法,从原始信号谱中提取出目标的基频和谐波;并利用原始信号谱、目标的基频和谐波对原始信号谱进行重构,得到声纹特征,本发明可以有效提取水声目标信号声纹特征,并具有一定的抗噪声干扰和频率漂移能力。
本发明的技术解决方案是:一种水声目标信号声纹特征提取装置,主要包括:
信号获取模块,用于获取水声目标信号的原始信号谱;
特征提取模块,用于从原始信号谱中提取出目标的基频和谐波;
重构模块,利用原始信号谱、目标的基频和谐波对原始信号谱进行重构,得到声纹特征。
所述特征提取模块采用神经网络结构从原始信号谱中提取出目标的基频和谐波。
所述特征提取模块采用深层神经网络结构从原始信号谱中提取出目标的基频和谐波。
所述重构模块采用神经网络结构对原始信号谱进行重构,所述重构信号即为水声目标信号声纹特征。
所述重构模块采用深层神经网络结构对原始信号谱进行重构。
所述深层神经网络结构包括输入层、隐层和输出层,所述输入层中的节点数为原始信号谱的频点数、基频取值范围内的所有频率的频点数以及谐波阶次之和,隐层的层数大于等于1,输出层的节点数为原始信号谱的频点数。
所述隐层节点数小于输入节点数。
一种水声目标信号声纹特征提取方法,主要包括:
信号获取步骤,用于获取水声目标信号的原始信号谱;
特征提取步骤,从原始信号谱中提取出目标的基频和谐波;
重构步骤,利用原始信号谱、目标的基频和谐波对原始信号谱进行重构,得到声纹特征。
本发明与现有技术相比的有益效果是:
本发明针对声源信号在原始信号谱中具有谐波结构的特性,提取水声目标信号声纹特征谐波和基频特征,并基于提取出的谐波和基频对原始信号谱进行重构,得到去噪以后的声纹特征,与现有方法相比,具有一定的抗噪声干扰和频率漂移能力。
附图说明
图1为本发明的装置示意图;
图2为本发明的方法流程图;
图3为信噪比为-20dB时深层神经网络的重构结果示意图;
图4为信噪比为-28dB时深层神经网络的重构结果示意图;
图5为原始信号谱基频提取误差统计图。
具体实施方式
下面结合附图对本发明的具体实施方式进行进一步的详细描述。
如图1所示为本发明中的装置示意图,从图1可知,本发明提出的一种水声目标信号声纹特征提取装置,主要包括:
信号获取模块101,用于获取水声目标信号的原始信号谱;所述获取方式为采用目前常用的任何信号采集装置或者传感器获得的真实原始信号谱数据,或者为试验状态下通过缩比模型等获取的仿真原始信号谱,或者为计算机通过无噪声的水声目标信号与各种噪声叠加获得的模拟原始信号谱,水声目标的原始信号谱因为发电机、推进系统和船上辅助设备等设备运行过程中产生的噪音的影响,一般含有噪声,无法清晰的看出水声目标信号的声纹特征。
特征提取模块102,用于从原始信号谱中提取出目标的基频和谐波;声源信号在原始信号谱中具有谐波结构特性,是重要的声纹特征,因此对水声目标信号的基频和谐波进行提取,并基于提取的基频和谐波进行原始信号谱的重构,可以提取出更加清晰干净的原始信号谱。
从原始信号谱中提取出目标的基频和谐波,常用的方法主要是基于规则的方法,即首先提取稳定线谱,再通过谐波是基频的倍数的规则,确定线谱间存在的谐波关系,从而确定基频和谐波特征等。
本发明中的特征提取模块102采用神经网络结构从原始信号谱中提取出目标的基频和谐波。
进一步地,为了获得更好的谐波特征,特征提取模块102采用深层神经网络结构从原始信号谱中提取出目标的基频和谐波,所述深层神经网络结构包括输入层、隐层和输出层,所述输入层中的节点数为原始信号谱的频点数、基频取值范围内的所有频率的频点数以及谐波阶次之和,隐层的层数大于等于1,输出层的节点数为原始信号谱的频点数。具体到本发明中,特征提取模块102对应的深层神经网络结构输入层的输入信号为原始信号谱,输出层的输出信号为目标的基频和谐波。
重构模块103,利用原始信号谱、目标的基频和谐波对原始信号谱进行重构,得到声纹特征。
本发明中的重构模块103采用神经网络结构对原始信号谱进行重构。
进一步地,为了获得更好的谐波特征,重构模块103采用深层神经网络结构对原始信号谱进行重构,所述深层神经网络结构包括输入层、隐层和输出层,所述输入层中的节点数为原始信号谱的频点数、基频取值范围内的所有频率的频点数以及谐波阶次之和,隐层的层数大于等于1,输出层的节点数为原始信号谱的频点数。具体到本发明中,重构模块103对应的深层神经网络结构输入层的输入信号为原始信号谱、目标的基频和谐波,输出层的输出信号为重构后的目标原始信号谱。
自编码深层神经网络使用原始信号谱作为监督信息,对其进行重构,网络隐层输出则可以看成是对输入信号的编码表示。根据隐层节点数的不同,自编码网络可分成两种:
(i)隐层节点数小于输入节点数,网络隐层可看成是对信号的压缩编码;
(ii)隐层节点数大于输入节点数,网络隐层可更加充分的刻画输入信号的分布。
本发明关注的问题是从受噪声污染的目标信号中重构原始信号谱,而原始信号谱为稀疏分布的谐波信号,因此本发明采用第一种结构。
如图2所示为本发明的方法流程图,从图2可知,本发明提出的一种水声目标信号声纹特征提取方法,主要包括:
信号获取步骤201,用于获取水声目标信号的原始信号谱;所述获取方式为采用目前常用的任何信号采集装置或者传感器获得的真实原始信号谱数据,或者为试验状态下通过缩比模型等获取的仿真原始信号谱,或者为计算机通过无噪声的水声目标信号与各种噪声叠加获得的模拟原始信号谱。
特征提取步骤202,从原始信号谱中提取出目标的基频和谐波;本发明采用神经网络结构从原始信号谱中提取出目标的基频和谐波,进一步地,为了获得更好的谐波特征,采用深层神经网络结构从原始信号谱中提取出目标的基频和谐波。
重构步骤203,利用原始信号谱、目标的基频和谐波对原始信号谱进行重构,得到声纹特征。本发明采用神经网络结构对原始信号谱进行重构,进一步地,为了获得更好的谐波特征,采用深层神经网络结构对原始信号谱进行重构。
需要注意的是,对装置的具体说明可以用来帮助方法的理解,对方法的说明也可以用于帮助装置的理解。
具体实施例
本发明所用自编码深度神经网络不少于三个隐藏层,各隐藏层的节点数不少于50个,具体参数设置如表1所示,其中输入层中500个节点为原始信号谱的频点数,51个节点对应于在基频取值范围内的所有频率,5个节点为3~7共5阶谐波阶次。
表1
输入层 | 隐层1 | 隐层2 | 隐层3 | 输出层 | |
节点数 | 500+51+5 | 200 | 50 | 200 | 500 |
利用以上的自编码深度神经网络进行水声目标信号声纹特征提取,获得的结果如图3~图5所示,其中图3和图4所示为通过深度神经网络提取出目标信号的基频及其谐波,并据此对仿真产生的含噪声原始信号谱进行重构得到的重构信号谱。图3为采用深度神经网络从信噪比为-20dB、最大频率漂移为0.2Hz的含噪信号中重构出原始信号谱的结果,其中含噪谱中添加的噪声为高斯白噪声。从原始谱与重构谱的对比中可看出,重构信号的谐波信息比含噪谱更加清晰干净;当信噪比降低至-28dB时,深度神经网络仍可准确提取出基频及其谐波信息,如图4所示。与原始信号谱对比发现,神经网络对目标的基频及其谐波在频率和能量上的重构均较为准确,具备较强的抗噪声和抗频率漂移能力。如图5所示为其中330个原始信号谱检测样本的基频提取结果,从图中的误差统计中可看出,深度神经网络提取得到的目标的基频与真实的基频的误差非常小。
本发明说明书中未作详细描述的内容属于本领域专业技术人员的公知技术。
Claims (5)
1.一种水声目标信号声纹特征提取装置,其特征在于,主要包括:
信号获取模块,用于获取水声目标信号的原始信号谱;
特征提取模块,用于从原始信号谱中提取出目标的基频和谐波;
重构模块,利用原始信号谱、目标的基频和谐波对原始信号谱进行重构,得到声纹特征;
所述特征提取模块采用深层神经网络结构从原始信号谱中提取出目标的基频和谐波;
所述深层神经网络结构包括输入层、隐层和输出层,所述输入层中的节点数为原始信号谱的频点数、基频取值范围内的所有频率的频点数以及谐波阶次之和,隐层的层数大于等于1,输出层的节点数为原始信号谱的频点数。
2.根据权利要求1所述的一种水声目标信号声纹特征提取装置,其特征在于,所述特征提取模块采用神经网络结构从原始信号谱中提取出目标的基频和谐波。
3.根据权利要求1所述的一种水声目标信号声纹特征提取装置,其特征在于,所述重构模块采用神经网络结构对原始信号谱进行重构,所述重构信号即为水声目标信号声纹特征。
4.根据权利要求1所述的一种水声目标信号声纹特征提取装置,其特征在于,所述重构模块采用深层神经网络结构对原始信号谱进行重构。
5.根据权利要求4所述的一种水声目标信号声纹特征提取装置,其特征在于,所述隐层节点数小于输入节点数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510844022.0A CN105513609B (zh) | 2015-11-26 | 2015-11-26 | 一种水声目标信号声纹特征提取装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510844022.0A CN105513609B (zh) | 2015-11-26 | 2015-11-26 | 一种水声目标信号声纹特征提取装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105513609A CN105513609A (zh) | 2016-04-20 |
CN105513609B true CN105513609B (zh) | 2019-05-24 |
Family
ID=55721535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510844022.0A Active CN105513609B (zh) | 2015-11-26 | 2015-11-26 | 一种水声目标信号声纹特征提取装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105513609B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111504305B (zh) * | 2020-03-12 | 2021-05-28 | 国家深海基地管理中心 | 一种水声通信-mems传感器协同导航定位方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102980809A (zh) * | 2012-11-20 | 2013-03-20 | 河海大学 | 一种土体静止侧压力系数测定仪 |
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
-
2015
- 2015-11-26 CN CN201510844022.0A patent/CN105513609B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102980809A (zh) * | 2012-11-20 | 2013-03-20 | 河海大学 | 一种土体静止侧压力系数测定仪 |
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
Non-Patent Citations (3)
Title |
---|
《基于子波奇异性检测的水声信号去噪方法研究》;杨日杰等;《系统仿真学报》;20030930;第15卷(第9期);第1328-1330页 |
《基于神经网络数据融合的水下目标检测识别研究》;张亚军;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20061115(第11期);全文 |
周楠.《水下高速航行体辐射噪声检测及特征提取技术 》.《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》.2012,(第05期), |
Also Published As
Publication number | Publication date |
---|---|
CN105513609A (zh) | 2016-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105488466B (zh) | 一种深层神经网络和水声目标声纹特征提取方法 | |
Liu et al. | Underwater target recognition using convolutional recurrent neural networks with 3-D Mel-spectrogram and data augmentation | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN105788603A (zh) | 一种基于经验模态分解的音频识别方法及系统 | |
Sun et al. | Underwater single-channel acoustic signal multitarget recognition using convolutional neural networks | |
CN110164465A (zh) | 一种基于深层循环神经网络的语音增强方法及装置 | |
Kumar et al. | Non-negative matrix based optimization scheme for blind source separation in automatic speech recognition system | |
US20210319802A1 (en) | Method for processing speech signal, electronic device and storage medium | |
Rixen et al. | Sfsrnet: Super-resolution for single-channel audio source separation | |
Wang et al. | Research on speech emotion recognition technology based on deep and shallow neural network | |
Cao et al. | Underwater target classification at greater depths using deep neural network with joint multiple‐domain feature | |
Dong et al. | Bidirectional denoising autoencoders-based robust representation learning for underwater acoustic target signal denoising | |
Zhang et al. | Temporal Transformer Networks for Acoustic Scene Classification. | |
Gao et al. | Research on deep convolutional neural network time-frequency domain seismic signal denoising combined with residual dense blocks | |
Wang et al. | Self-supervised acoustic representation learning via acoustic-embedding memory unit modified space autoencoder for underwater target recognition | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN105513609B (zh) | 一种水声目标信号声纹特征提取装置和方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Qiu et al. | Sound Recognition of Harmful Bird Species Related to Power Grid Faults Based on VGGish Transfer Learning | |
CN117310668A (zh) | 融合注意力机制与深度残差收缩网络的水声目标识别方法 | |
Li et al. | Dcht: Deep complex hybrid transformer for speech enhancement | |
Xie et al. | Data augmentation and deep neural network classification based on ship radiated noise | |
Shi et al. | Extraction method of weak underwater acoustic signal based on the combination of wavelet transform and empirical mode decomposition | |
Li et al. | Multi-layer attention mechanism based speech separation model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |