CN109975762A - 一种水下声源定位方法 - Google Patents
一种水下声源定位方法 Download PDFInfo
- Publication number
- CN109975762A CN109975762A CN201711454053.0A CN201711454053A CN109975762A CN 109975762 A CN109975762 A CN 109975762A CN 201711454053 A CN201711454053 A CN 201711454053A CN 109975762 A CN109975762 A CN 109975762A
- Authority
- CN
- China
- Prior art keywords
- sound source
- feature vector
- neural network
- signal
- underwater sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种水下声源定位方法,包括以下步骤:将通过水听器阵列接收的声源信号转换成数字声音信号;对所述数字声音信号进行做傅里叶变换;在信号带宽内每个频率上计算数据协方差矩阵,然后通过特征值分解提取能表征信号方位信息的特征向量;在训练阶段,利用时延神经网络学习训练样本,得到特征向量和声源方位的映射关系模型;在测试阶段,输入测试样本的特征向量到训练好的模型,得到声源的距离和深度估计值。本发明利用深度神经网络,实现鲁棒而高效的水下声源定位。
Description
技术领域
本发明涉及水下声源定位方法。
背景技术
声源定位包括单声源定位和多声源定位,声源定位技术可以指示声源目标所在的空间方位,为后续的信息采集与处理提供重要的空间信息。
传统方法主要利用现代数字信号处理的技术来估计声源的位置信息,通过格点匹配搜索或解析方式给出声源位置,这些方法往往依赖于环境信息的准确性,环境的扰动会影响定位的准确度和鲁棒性。
在过去十多年中,少部分方法将机器学习引入水下声源定位任务中,浅层神经网络或支持向量机等被当做分类器来构建特征到声源位置的对应关系,然而远场水下声源定位问题中,较浅层神经网络和简单分类器非线性建模能力及泛化能力比较弱,不能准确的定位。
发明内容
针对现有技术水下声源定位精度、鲁棒性差的问题,本发明提出了水下声源定位方法,利用深度神经网络,实现鲁棒而高效的水下声源定位。
本发明一种水下声源定位方法,包括:
步骤1)将通过水听器阵列接收的声源信号转换成数字声音信号;
步骤2)对所述数字声音信号进行做傅里叶变换;
步骤3)在信号带宽内每个频率上计算数据协方差矩阵,然后通过特征值分解提取能表征信号方位信息的特征向量;
步骤4)在训练阶段,利用时延神经网络学习训练样本,得到特征向量和声源位置之间的映射关系模型;
步骤5)在测试阶段,将测试样本通过步骤3)提取特征向量,输入到步骤4)得到的模型,得到声源的距离和深度估计值。
进一步,所述步骤3)包括:
步骤3-1)、计算第f个频点上的数据协方差矩阵:
其中上标+表示求取共轭转置的操作,D代表快拍数,Pd(f)表示第f频点上的观察向量[P1,f,P2,f,…,PK,f],其中Pk,f表示第k个水听器接收的信号;
步骤3-2)、对协方差矩阵进行特征值分解:
其中Λf=[ef,1,…,ef,K]为特征向量,K为水听器的个数,上标(.)+代表共轭转置操作,∑f=diag[λ1,…,λK]为特征值矩阵;选取特征值较大的M个特征向量, 作为神经网络的输入特征向量。
进一步,所述步骤4)包括:
步骤4-1)、神经网络的输入特征为特征向量的实部与虚部的级联作为神经网络的输入特征:
其中代表取实部操作,ξ(,)代表取虚部操作,F为一共用到的频率数;
步骤4-2)、神经网络训练的准则为最小均方误差准则:
其中rl和zl代表声源距离和深度的估计值,rl′和zl′为声源距离和深度的参考值,L为样本个数;通过随机梯度下降反向传播算法最小化代价函数E,得到神经网络的权值矩阵。
本发明的优点在于:
本发明提出的水下声源定位方法,利用了深度神经网络,不依赖于环境参数的先验知识;深度神经网络可以利用多环境联合训练的方法来缓解环境扰动带来的困难,从而实现了鲁棒的水下声源定位方法。
附图说明
图1是本发明的基于深度学习的水下声源定位方法的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
参考图1,本发明的方法包括以下步骤
步骤1)将通过水听器阵列接收的声源信号转换成数字声音信号;
将通过水听器阵列接收的声源信号转换成数字声音信号;其中,所述水听器阵列包括有K个麦克风。
步骤2)对数字声音信号做傅里叶变换。
步骤3)在信号带宽内每个频率上计算数据协方差矩阵,然后通过特征值分解提取能表征信号方位信息的特征向量,具体步骤为:
3-1)第f个频点上的数据协方差矩阵:
其中上标+表示求取共轭转置的操作,D代表快拍数,Pd(f)表示第f频点上的观察向量[P1,f,P2,f,…,PK,f],其中Pk,f表示第k个水听器接收的信号;
3-2)对协方差矩阵进行特征值分解:
其中Λf=[ef,1,…,ef,K]为特征向量,K为水听器的个数,上标(.)+代表共轭转置操作,∑f=diag[λ1,…,λK]为特征值矩阵。选取特征值较大的M个特征向量, 作为神经网络的输入特征向量。
步骤4)在训练阶段,利用时延神经网络学习训练样本(训练样本为一组带有声源距离和深度标签的样本),得到的特征向量和声源位置之间的映射关系,具体步骤为:
由于特征向量是一个复数向量,不能直接被时延神经网络处理,因此将特征向量的实部与虚部级联起来作为神经网络的输入特征:
其中代表取实部操作,ξ(,)代表取虚部操作,F为一共用到的频率数,神经网络训练的准则为最小均方误差准则:
其中rl和zl代表声源距离和深度的估计值,rl′和zl′为声源距离和深度的参考值,L为样本个数。通过随机梯度下降反向传播算法最小化代价函数E,得到神经网络的权值矩阵。
另外,我们可以将不同环境下的训练数据混合起来进行神经网络学习,这样能有效对抗一定程度上的环境扰动带来的性能下降。
步骤5)在测试阶段,将测试样本通过步骤3)提取特征向量,输入步骤4)训练得到的模型,得到声源的距离和深度估计值。
我们认为通过上述步骤3)抽取的特征向量能够表征声源的位置信息,并且它和声源的位置(距离、深度)有一一映射的关系,而神经网络具有构建非线性映射关系的能力,而这种映射关系就包含在网络的权重矩阵中,因此通过神经网络对训练集进行学习,得到了这样一组权重矩阵,当一个未知声源位置的声源出现,我们通过同样的方式抽取特征,然后通过神经网络的矩阵运算,即可得到声源位置的估计值,从而实现对声源进行定位。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种水下声源定位方法,包括:
步骤1)将通过水听器阵列接收的声源信号转换成数字声音信号;
步骤2)对所述数字声音信号进行做傅里叶变换;
步骤3)在信号带宽内每个频率上计算数据协方差矩阵,然后通过特征值分解提取能表征信号方位信息的特征向量;
步骤4)在训练阶段,利用时延神经网络学习训练样本,得到特征向量和声源位置之间的映射关系模型;
步骤5)在测试阶段,将测试样本通过步骤3)提取特征向量,输入到步骤4)得到的模型,得到声源的距离和深度估计值。
2.根据权利要求1所述的一种水下声源定位方法,其特征在于,所述步骤3)进一步包括:
步骤3-1)、计算第f个频点上的数据协方差矩阵:
其中上标+表示求取共轭转置的操作,D代表快拍数,Pd(f)表示第f频点上的观察向量[P1,f,P2,f,…,PK,f],其中Pk,f表示第k个水听器接收的信号;
步骤3-2)、对协方差矩阵进行特征值分解:
其中Λf=[ef,1,…,ef,K]为特征向量,K为水听器的个数,上标(.)+代表共轭转置操作,∑f=diag[λ1,…,λK]为特征值矩阵;选取特征值较大的M个特征向量, 作为神经网络的输入特征向量。
3.根据权利要求1所述的一种水下声源定位方法,其特征在于,所述步骤4)进一步包括:
步骤4-1)、神经网络的输入特征为特征向量的实部与虚部的级联作为神经网络的输入特征:
其中代表取实部操作,ξ(,)代表取虚部操作,F为一共用到的频率数;
步骤4-2)、神经网络训练的准则为最小均方误差准则:
其中rl和zl代表声源距离和深度的估计值,rl′和z′l为声源距离和深度的参考值,L为样本个数;通过随机梯度下降反向传播算法最小化代价函数E,得到神经网络的权值矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711454053.0A CN109975762B (zh) | 2017-12-28 | 2017-12-28 | 一种水下声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711454053.0A CN109975762B (zh) | 2017-12-28 | 2017-12-28 | 一种水下声源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109975762A true CN109975762A (zh) | 2019-07-05 |
CN109975762B CN109975762B (zh) | 2021-05-18 |
Family
ID=67073994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711454053.0A Active CN109975762B (zh) | 2017-12-28 | 2017-12-28 | 一种水下声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109975762B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111123202A (zh) * | 2020-01-06 | 2020-05-08 | 北京大学 | 一种室内早期反射声定位方法及系统 |
CN111239686A (zh) * | 2020-02-18 | 2020-06-05 | 中国科学院声学研究所 | 一种基于深度学习的双通道声源定位方法 |
CN111965601A (zh) * | 2020-08-05 | 2020-11-20 | 西南交通大学 | 一种基于核极限学习机的水下声源被动定位方法 |
CN112257484A (zh) * | 2019-07-22 | 2021-01-22 | 中国科学院声学研究所 | 一种基于深度学习的多声源测向方法及系统 |
CN113109795A (zh) * | 2020-01-13 | 2021-07-13 | 中国科学院声学研究所 | 一种基于深度神经网络的深海直达声区目标深度估计方法 |
CN113138365A (zh) * | 2020-01-17 | 2021-07-20 | 中国科学院声学研究所 | 一种基于深度学习的单矢量水听器方位估计方法 |
CN113138366A (zh) * | 2020-01-17 | 2021-07-20 | 中国科学院声学研究所 | 一种基于深度迁移学习的单矢量水听器方位估计方法 |
CN114429154A (zh) * | 2022-01-07 | 2022-05-03 | 西北工业大学 | 一种多径辅助深度学习的水声阵列定向方法 |
CN116106880A (zh) * | 2023-04-13 | 2023-05-12 | 北京理工大学 | 基于注意力机制和多尺度融合的水下声源测距方法和装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5105468A (en) * | 1991-04-03 | 1992-04-14 | At&T Bell Laboratories | Time delay neural network for printed and cursive handwritten character recognition |
US20040260550A1 (en) * | 2003-06-20 | 2004-12-23 | Burges Chris J.C. | Audio processing system and method for classifying speakers in audio data |
CN1607576A (zh) * | 2002-11-15 | 2005-04-20 | 中国科学院声学研究所 | 一种语音识别系统 |
CN1711560A (zh) * | 2002-11-15 | 2005-12-21 | 皇家飞利浦电子股份有限公司 | 通过图像中固有的时变信息来分类对象 |
CN101950560A (zh) * | 2010-09-10 | 2011-01-19 | 中国科学院声学研究所 | 一种连续语音声调识别方法 |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN102081751B (zh) * | 2011-01-18 | 2014-04-16 | 清华大学 | 基于实数延时神经网络的同步双频功率放大器建模方法 |
CN104614709A (zh) * | 2015-01-19 | 2015-05-13 | 成都信息工程学院 | 一种基于声学和电磁学的雷声定位系统及方法 |
CN104882141A (zh) * | 2015-03-03 | 2015-09-02 | 盐城工学院 | 一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统 |
CN105403860A (zh) * | 2014-08-19 | 2016-03-16 | 中国科学院声学研究所 | 一种基于支配相关的多稀疏声源定位方法 |
CN106297778A (zh) * | 2015-05-21 | 2017-01-04 | 中国科学院声学研究所 | 数据驱动的基于奇异值分解的神经网络声学模型裁剪方法 |
CN106405501A (zh) * | 2015-07-29 | 2017-02-15 | 中国科学院声学研究所 | 一种基于相位差回归的单声源定位方法 |
CN106960672A (zh) * | 2017-03-30 | 2017-07-18 | 国家计算机网络与信息安全管理中心 | 一种立体声音频的带宽扩展方法与装置 |
CN107305767A (zh) * | 2016-04-15 | 2017-10-31 | 中国科学院声学研究所 | 一种应用于语种识别的短时语音时长扩展方法 |
-
2017
- 2017-12-28 CN CN201711454053.0A patent/CN109975762B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5105468A (en) * | 1991-04-03 | 1992-04-14 | At&T Bell Laboratories | Time delay neural network for printed and cursive handwritten character recognition |
CN1607576A (zh) * | 2002-11-15 | 2005-04-20 | 中国科学院声学研究所 | 一种语音识别系统 |
CN1711560A (zh) * | 2002-11-15 | 2005-12-21 | 皇家飞利浦电子股份有限公司 | 通过图像中固有的时变信息来分类对象 |
US20040260550A1 (en) * | 2003-06-20 | 2004-12-23 | Burges Chris J.C. | Audio processing system and method for classifying speakers in audio data |
CN101950560A (zh) * | 2010-09-10 | 2011-01-19 | 中国科学院声学研究所 | 一种连续语音声调识别方法 |
CN102081751B (zh) * | 2011-01-18 | 2014-04-16 | 清华大学 | 基于实数延时神经网络的同步双频功率放大器建模方法 |
CN103117060A (zh) * | 2013-01-18 | 2013-05-22 | 中国科学院声学研究所 | 用于语音识别的声学模型的建模方法、建模系统 |
CN105403860A (zh) * | 2014-08-19 | 2016-03-16 | 中国科学院声学研究所 | 一种基于支配相关的多稀疏声源定位方法 |
CN104614709A (zh) * | 2015-01-19 | 2015-05-13 | 成都信息工程学院 | 一种基于声学和电磁学的雷声定位系统及方法 |
CN104882141A (zh) * | 2015-03-03 | 2015-09-02 | 盐城工学院 | 一种基于时延神经网络和隐马尔可夫模型的串口语音控制投影系统 |
CN106297778A (zh) * | 2015-05-21 | 2017-01-04 | 中国科学院声学研究所 | 数据驱动的基于奇异值分解的神经网络声学模型裁剪方法 |
CN106405501A (zh) * | 2015-07-29 | 2017-02-15 | 中国科学院声学研究所 | 一种基于相位差回归的单声源定位方法 |
CN107305767A (zh) * | 2016-04-15 | 2017-10-31 | 中国科学院声学研究所 | 一种应用于语种识别的短时语音时长扩展方法 |
CN106960672A (zh) * | 2017-03-30 | 2017-07-18 | 国家计算机网络与信息安全管理中心 | 一种立体声音频的带宽扩展方法与装置 |
Non-Patent Citations (1)
Title |
---|
ALEXANDER WAIBEL ET.AL: "《Phoneme Recognition Using Time-Delay Neural Networks》", 《IEEE TRANSACTIONS ON ACOUSTICS,SPEECH,AND SIGNAL PROCESSING》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257484B (zh) * | 2019-07-22 | 2024-03-15 | 中国科学院声学研究所 | 一种基于深度学习的多声源测向方法及系统 |
CN112257484A (zh) * | 2019-07-22 | 2021-01-22 | 中国科学院声学研究所 | 一种基于深度学习的多声源测向方法及系统 |
CN111123202A (zh) * | 2020-01-06 | 2020-05-08 | 北京大学 | 一种室内早期反射声定位方法及系统 |
CN111123202B (zh) * | 2020-01-06 | 2022-01-11 | 北京大学 | 一种室内早期反射声定位方法及系统 |
CN113109795A (zh) * | 2020-01-13 | 2021-07-13 | 中国科学院声学研究所 | 一种基于深度神经网络的深海直达声区目标深度估计方法 |
CN113138366A (zh) * | 2020-01-17 | 2021-07-20 | 中国科学院声学研究所 | 一种基于深度迁移学习的单矢量水听器方位估计方法 |
CN113138365A (zh) * | 2020-01-17 | 2021-07-20 | 中国科学院声学研究所 | 一种基于深度学习的单矢量水听器方位估计方法 |
CN113138366B (zh) * | 2020-01-17 | 2022-12-06 | 中国科学院声学研究所 | 一种基于深度迁移学习的单矢量水听器方位估计方法 |
CN113138365B (zh) * | 2020-01-17 | 2022-12-06 | 中国科学院声学研究所 | 一种基于深度学习的单矢量水听器方位估计方法 |
CN111239686B (zh) * | 2020-02-18 | 2021-12-21 | 中国科学院声学研究所 | 一种基于深度学习的双通道声源定位方法 |
CN111239686A (zh) * | 2020-02-18 | 2020-06-05 | 中国科学院声学研究所 | 一种基于深度学习的双通道声源定位方法 |
CN111965601A (zh) * | 2020-08-05 | 2020-11-20 | 西南交通大学 | 一种基于核极限学习机的水下声源被动定位方法 |
CN114429154A (zh) * | 2022-01-07 | 2022-05-03 | 西北工业大学 | 一种多径辅助深度学习的水声阵列定向方法 |
CN114429154B (zh) * | 2022-01-07 | 2024-03-19 | 西北工业大学 | 一种多径辅助深度学习的水声阵列定向方法 |
CN116106880A (zh) * | 2023-04-13 | 2023-05-12 | 北京理工大学 | 基于注意力机制和多尺度融合的水下声源测距方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109975762B (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109975762A (zh) | 一种水下声源定位方法 | |
CN109993280B (zh) | 一种基于深度学习的水下声源定位方法 | |
Baumgartner et al. | A generalized baleen whale call detection and classification system | |
He et al. | Adaptation of multiple sound source localization neural networks with weak supervision and domain-adversarial training | |
CN108318862B (zh) | 一种基于神经网络的声源定位方法 | |
CN109782231B (zh) | 一种基于多任务学习的端到端声源定位方法及系统 | |
CN106023996B (zh) | 基于十字形声阵列宽带波束形成的声识别方法 | |
CN109712611A (zh) | 联合模型训练方法及系统 | |
CN110352349A (zh) | 异常音检测装置、异常度计算装置、异常音生成装置、异常音检测学习装置、异常信号检测装置、异常信号检测学习装置、及它们的方法以及程序 | |
Zhang et al. | Application of artificial bee colony algorithm to maximum likelihood DOA estimation | |
Himawan et al. | Deep Learning Techniques for Koala Activity Detection. | |
CN107202559A (zh) | 基于室内声学信道扰动分析的物体识别方法 | |
CN106886010B (zh) | 一种基于微型麦克风阵列的声源方位识别方法 | |
Marchese et al. | Topological learning for acoustic signal identification | |
CN113111786B (zh) | 基于小样本训练图卷积网络的水下目标识别方法 | |
CN112415467B (zh) | 一种基于神经网络的单矢量潜标目标定位实现方法 | |
CN109658944A (zh) | 直升机声信号增强方法及装置 | |
CN111352075B (zh) | 一种基于深度学习的水下多声源定位方法及系统 | |
CN117451055A (zh) | 一种基于基追踪降噪的水下传感器定位方法和系统 | |
CN117119377A (zh) | 基于滤波Transformer的室内指纹定位方法 | |
Goldwater et al. | Machine-learning-based simultaneous detection and ranging of impulsive baleen whale vocalizations using a single hydrophone | |
Klay et al. | Advanced methods for passive acoustic detection, classification, and localization of marine mammals | |
Ochoa et al. | Severity classification of a seismic event based on the magnitude-distance ratio using only one seismological station | |
CN111965601A (zh) | 一种基于核极限学习机的水下声源被动定位方法 | |
CN105204018B (zh) | 一种利用多帧信息的二维doa跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |