CN109061558A - 一种基于深度学习的声音碰撞检测及声源定位方法 - Google Patents

一种基于深度学习的声音碰撞检测及声源定位方法 Download PDF

Info

Publication number
CN109061558A
CN109061558A CN201810640649.8A CN201810640649A CN109061558A CN 109061558 A CN109061558 A CN 109061558A CN 201810640649 A CN201810640649 A CN 201810640649A CN 109061558 A CN109061558 A CN 109061558A
Authority
CN
China
Prior art keywords
sound
data
microphone
sample
collision detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810640649.8A
Other languages
English (en)
Inventor
钟艳如
卫涛
姜静月
罗笑南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201810640649.8A priority Critical patent/CN109061558A/zh
Publication of CN109061558A publication Critical patent/CN109061558A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于深度学习的声音碰撞检测及声源定位方法,其特征是,包括如下步骤:1)建立声音碰撞检测与声源定位系统;2)产生声音信号;3)区分声音信号;4)声音数据类型转换;5)绘制声音频谱图;6)时延差估计;7)数据划分;8)构建深度学习模型;9)确定声源位置。这种方法声源定位检测的精度高,检测速度快、实时性强。

Description

一种基于深度学习的声音碰撞检测及声源定位方法
技术领域
本发明涉及声学技术领域,具体是一种基于深度学习的声音碰撞检测及声源定位方法。
技术背景
声源定位是通过测量物体发出的声音对物体定位,与使用声纳、雷达、无线通讯的定位方法不同,前者信源是普通的声音,是宽带信号,而后者信源是窄带信号。由于信号质量、噪声和混响的存在,使得现有声源定位方法的定位精度较低。若声源在传声器的选择方向之外,则会引入大量的噪声,导致拾取信号的质量下降,而且,当传声器距离声源很远,或者存在一定程度的混响及干扰的情况下,也会使拾取信号的质量严重下降。为了解决单传声器系统的这些局限性和目前的声音碰撞检测与声源定位方法精度不高,且实时性差的问题,提出了用传声器阵列进行声音处理的方法,另外,对于大量的数据进行处理时,深度学习方法的引入提高定位精度并缩短定位所消耗的时间。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于深度学习的声音碰撞检测及声源定位方法。这种方法声源定位检测的精度高,检测速度快、实时性强。
实现本发明目的的技术方案是:
一种基于深度学习的声音碰撞检测及声源定位方法,与现有技术不同的是,包括如下步骤:
1)建立声音碰撞检测与声源定位系统:声音碰撞检测与声源定位系统包括一组麦克风形成的麦克风陈列、声源、噪声源和声学传感装置,麦克风组内的麦克风单侧排列呈麦克风陈列,麦克风陈列与声学传感装置连接,声源与噪声源分别位于距离麦克风陈列不同的位置点处。
2)产生声音信号:步骤1)建立的声音碰撞检测与声源定位系统中声源与噪声源发出声音,通过麦克风陈列和声学传感装置对声源与噪声源产生的声音进行采集;
3)区分声音信号:声学传感装置将麦克风陈列收到声音信号进行识别,区分声源与噪声源,声学传感装置对麦克风陈列收到声音信号先分类后分组,确定声音样本的数据量与数据类型;
4)声音数据类型转换:声学传感装置对麦克风陈列收到声音信号进行去噪与声音数据类型转换,将被识别的声音数据进行模拟音频转换成数字音频;
5)绘制声音频谱图:依据短时傅里叶变换原理,结合Matlab软件对步骤4)得到的音频数据绘制对应的频谱图,即用一个短的窗函数和信号滑动相乘,对每一个窗函数截取区间的数据进行傅立叶变换,对于傅里叶变换,设定一个长度为N的窗函数 w(k,τ),一个二维函数X(w,τ),这两个函数表示中心点位于τ的加窗声音的傅里叶变换;
6)时延差估计:分别测量声源、噪声源发出的声音到达麦克风阵列与声学传感装置的时间差;
7)数据划分:将步骤4)转换后的音频数据随机划分2部分,分别用作训练集和测试集;
8)构建深度学习模型:深度学习模型是caffe框架,其中,数据的组织形式是LevelDB;
9)确定声源位置:依据深度学习模型对训练集中声音数据进行训练,得到的训练结果就是最优声源位置。
步骤9)中所述的训练为:
给定N个大小为m x n的声音训练场景数据,{X1,...,XN},每个数据对应的类别标签为yi∈{1,...,k},基中K是类别数,在这些场景数据中,连续地取大小为l*l的声音数据块,并将每一声音数据块向量化,那么对于第i个声音数据,就可以得到数据矩阵:
Pi=(pi,1,pi,2,...pi,mn)
其中pij是第j个向量化的数据块,接着,对每个块进行归一化,每个块减去它他的均值并得到归一化数据矩阵
其中,pij是零均值的归一化的数据块,而它的标签跟整个图像的标签是一致的,对于所有训练的数据块,我们将对应的归一化数据矩阵拼接为一个大的矩阵
对于第i个样本i=1,2,…,Nmn,根据其他样本的标签,将其他样本分为同类样本和异类样本,K1个最近的同类样本和K2个最近的异类样本加上给定的样本构成一个样本集的子集,将其表达为矩阵
其对应的变换后低维特征表达
Zi=(Zi1,Zi2,Zi3,...,Zk1,Zi 1,Zi 2,Zi 3,...,Zik2)
对应的指标集定义为
为了在低维空间中最小化同类样本的zi,zi 1,zi 2,...,zi k1的距离,同时到同类近邻样本zi,zi 1,zi 2,...,zi k1的距离越小越好,定义它们之间的距离为
对于所有样本,整体的目标函数是所有带权重的部分目标函数的求和:
得到的和就是需要确定的声源位置。
所述声音碰撞检测与声源定位系统中麦克风的数量为至少4个。
这种方法声源定位检测的精度高,检测速度快、实时性强。
附图说明
图1为实施例的方法流程示意图;
图2为实施例中声音碰撞检测与声源定位系统模型结构示意图。
具体实施方式
下面结合附图和实施例对本发明内容作进一步的阐述,但不是对本发明的限定。
实施例:
参照图1,一种基于深度学习的声音碰撞检测及声源定位方法,包括如下步骤:
1)建立声音碰撞检测与声源定位系统:如图2所示,声音碰撞检测与声源定位系统包括一组麦克风形成的麦克风陈列、声源、噪声源和声学传感装置,麦克风组内的麦克风单侧排列呈麦克风陈列,麦克风陈列与声学传感装置连接,声源与噪声源分别位于距离麦克风陈列不同的位置点处;
2)产生声音信号:步骤1)建立的声音碰撞检测与声源定位系统中声源与噪声源发出声音,通过麦克风陈列和声学传感装置对声源与噪声源产生的声音进行采集;
3)区分声音信号:声学传感装置将麦克风陈列收到声音信号进行识别,区分声源与噪声源,声学传感装置对麦克风陈列收到声音信号先分类后分组,确定声音样本的数据量与数据类型;
4)声音数据类型转换:声学传感装置对麦克风陈列收到声音信号进行去噪与声音数据类型转换,将被识别的声音数据进行模拟音频转换成数字音频;
5)绘制声音频谱图:依据短时傅里叶变换原理,结合Matlab软件对步骤4)得到的音频数据绘制对应的频谱图,即用一个短的窗函数和信号滑动相乘,对每一个窗函数截取区间的数据进行傅立叶变换,对于傅里叶变换,设定一个长度为N的窗函数 w(k,τ),一个二维函数X(w,τ),这两个函数表示中心点位于τ的加窗声音的傅里叶变换;
6)时延差估计:分别测量声源、噪声源发出的声音到达麦克风阵列与声学传感装置的时间差;
7)数据划分:将步骤4)转换后的音频数据随机划分2部分,分别用作训练集和测试集;
8)构建深度学习模型:深度学习模型是caffe框架,其中,数据的组织形式是LevelDB;
9)确定声源位置:依据深度学习模型对训练集中声音数据进行训练,得到的训练结果就是最优声源位置。
步骤9)中所述的训练为:
给定N个大小为m x n的声音训练场景数据,{X1,...,XN},每个数据对应的类别标签为yi∈{1,...,k},基中K是类别数,在这些场景数据中,连续地取大小为l*l的声音数据块,并将每一声音数据块向量化,那么对于第i个声音数据,就可以得到数据矩阵:
Pi=(pi,1,pi,2,...pi,mn)
其中pij是第j个向量化的数据块,接着,对每个块进行归一化,每个块减去它他的均值并得到归一化数据矩阵
其中,pij是零均值的归一化的数据块,而它的标签跟整个图像的标签是一致的,对于所有训练的数据块,我们将对应的归一化数据矩阵拼接为一个大的矩阵
对于第i个样本i=1,2,…,Nmn,根据其他样本的标签,将其他样本分为同类样本和异类样本,K1个最近的同类样本和K2个最近的异类样本加上给定的样本构成一个样本集的子集,将其表达为矩阵
其对应的变换后低维特征表达
Zi=(Zi1,Zi2,Zi3,...,Zk1,Zi 1,Zi 2,Zi 3,...,Zik2)
对应的指标集定义为
为了在低维空间中最小化同类样本的zi,zi 1,zi 2,...,zi k1的距离,同时到同类近邻样本zi,zi 1,zi 2,...,zi k1的距离越小越好,定义它们之间的距离为
对于所有样本,整体的目标函数是所有带权重的部分目标函数的求和:
得到的和就是需要确定的声源位置。
所述声音碰撞检测与声源定位系统中麦克风的数量为至少4个。

Claims (3)

1.一种基于深度学习的声音碰撞检测及声源定位方法,其特征是,包括如下步骤:
1)建立声音碰撞检测与声源定位系统:声音碰撞检测与声源定位系统包括一组麦克风形成的麦克风陈列、声源、噪声源和声学传感装置,麦克风组内的麦克风单侧排列呈麦克风陈列,麦克风陈列与声学传感装置连接,声源与噪声源分别位于距离麦克风陈列不同的位置点处;
2)产生声音信号:步骤1)建立的声音碰撞检测与声源定位系统中声源与噪声源发出声音,通过麦克风陈列和声学传感装置对声源与噪声源产生的声音进行采集;
3)区分声音信号:声学传感装置将麦克风陈列收到声音信号进行识别,区分声源与噪声源,声学传感装置对麦克风陈列收到声音信号先分类后分组,确定声音样本的数据量与数据类型;
4)声音数据类型转换:声学传感装置对麦克风陈列收到声音信号进行去噪与声音数据类型转换,将被识别的声音数据进行模拟音频转换成数字音频;
5)绘制声音频谱图:依据短时傅里叶变换原理,结合Matlab软件对步骤4)得到的音频数据绘制对应的频谱图,即用一个短的窗函数和信号滑动相乘,对每一个窗函数截取区间的数据进行傅立叶变换,对于傅里叶变换,设定一个长度为N的窗函数w(k,τ),一个二维函数X(w,τ),这两个函数表示中心点位于τ的加窗声音的傅里叶变换;
6)时延差估计:分别测量声源、噪声源发出的声音到达麦克风阵列与声学传感装置的时间差;
7)数据划分:将步骤4)转换后的音频数据随机划分2部分,分别用作训练集和测试集;
8)构建深度学习模型:深度学习模型是caffe框架,其中,数据的组织形式是LevelDB;
9)确定声源位置:依据深度学习模型对训练集中声音数据进行训练,得到的训练结果就是最优声源位置。
2.根据权利要求1所述的基于深度学习的声音碰撞检测及声源定位方法,其特征是,步骤9)中所述的训练为:
给定N个大小为m x n的声音训练场景数据,{X1,...,XN},每个数据对应的类别标签为yi∈{1,...,k},基中K是类别数,在这些场景数据中,连续地取大小为l*l的声音数据块,并将每一声音数据块向量化,那么对于第i个声音数据,就可以得到数据矩阵:
Pi=(pi,1,pi,2,...pi,mn)
其中pij是第j个向量化的数据块,接着,对每个块进行归一化,每个块减去它他的均值并得到归一化数据矩阵
其中,pij是零均值的归一化的数据块,而它的标签跟整个图像的标签是一致的,对于所有训练的数据块,我们将对应的归一化数据矩阵拼接为一个大的矩阵
对于第i个样本i=1,2,…,Nmn,根据其他样本的标签,将其他样本分为同类样本和异类样本,K1个最近的同类样本和K2个最近的异类样本加上给定的样本构成一个样本集的子集,将其表达为矩阵
其对应的变换后低维特征表达
对应的指标集定义为
为了在低维空间中最小化同类样本的的距离,同时到同类近邻样本的距离越小越好,定义它们之间的距离为
对于所有样本,整体的目标函数是所有带权重的部分目标函数的求和:
得到的和就是需要确定的声源位置。
3.根据权利要求1所述的基于深度学习的声音碰撞检测及声源定位方法,其特征是,所述声音碰撞检测与声源定位系统中麦克风的数量为至少4个。
CN201810640649.8A 2018-06-21 2018-06-21 一种基于深度学习的声音碰撞检测及声源定位方法 Pending CN109061558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810640649.8A CN109061558A (zh) 2018-06-21 2018-06-21 一种基于深度学习的声音碰撞检测及声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810640649.8A CN109061558A (zh) 2018-06-21 2018-06-21 一种基于深度学习的声音碰撞检测及声源定位方法

Publications (1)

Publication Number Publication Date
CN109061558A true CN109061558A (zh) 2018-12-21

Family

ID=64821189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810640649.8A Pending CN109061558A (zh) 2018-06-21 2018-06-21 一种基于深度学习的声音碰撞检测及声源定位方法

Country Status (1)

Country Link
CN (1) CN109061558A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176250A (zh) * 2019-05-30 2019-08-27 哈尔滨工业大学 一种基于局部学习的鲁棒声学场景识别方法
US20210293918A1 (en) * 2020-03-18 2021-09-23 Samsung Electronics Co., Ltd. Acoustic collision detection and localization for robotic devices
CN116859339A (zh) * 2023-09-01 2023-10-10 北京圣传创世科技发展有限公司 一种多边形区域内声源分离和定位方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090097680A1 (en) * 2002-06-14 2009-04-16 Phonak Ag Method to operate a hearing device and arrangement with a hearing device
CN104535965A (zh) * 2014-12-29 2015-04-22 江苏科技大学 基于嵌入式gpu系统的并行化声源定位系统及方法
CN105976827A (zh) * 2016-05-26 2016-09-28 南京邮电大学 一种基于集成学习的室内声源定位方法
CN107703486A (zh) * 2017-08-23 2018-02-16 南京邮电大学 一种基于卷积神经网络cnn的声源定位算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090097680A1 (en) * 2002-06-14 2009-04-16 Phonak Ag Method to operate a hearing device and arrangement with a hearing device
CN104535965A (zh) * 2014-12-29 2015-04-22 江苏科技大学 基于嵌入式gpu系统的并行化声源定位系统及方法
CN105976827A (zh) * 2016-05-26 2016-09-28 南京邮电大学 一种基于集成学习的室内声源定位方法
CN107703486A (zh) * 2017-08-23 2018-02-16 南京邮电大学 一种基于卷积神经网络cnn的声源定位算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张铁成: "基于麦克风阵列的声音识别与定位算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176250A (zh) * 2019-05-30 2019-08-27 哈尔滨工业大学 一种基于局部学习的鲁棒声学场景识别方法
CN110176250B (zh) * 2019-05-30 2021-05-07 哈尔滨工业大学 一种基于局部学习的鲁棒声学场景识别方法
US20210293918A1 (en) * 2020-03-18 2021-09-23 Samsung Electronics Co., Ltd. Acoustic collision detection and localization for robotic devices
US11714163B2 (en) * 2020-03-18 2023-08-01 Samsung Electronics Co., Ltd. Acoustic collision detection and localization for robotic devices
CN116859339A (zh) * 2023-09-01 2023-10-10 北京圣传创世科技发展有限公司 一种多边形区域内声源分离和定位方法
CN116859339B (zh) * 2023-09-01 2023-11-17 北京圣传创世科技发展有限公司 一种多边形区域内声源分离和定位方法

Similar Documents

Publication Publication Date Title
US11398235B2 (en) Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array
CN104076331B (zh) 一种七元麦克风阵列的声源定位方法
US11346942B2 (en) Target positioning device and method based on plecotus auritus double-pinna bionic sonar
CN109061558A (zh) 一种基于深度学习的声音碰撞检测及声源定位方法
CN105976827B (zh) 一种基于集成学习的室内声源定位方法
KR100877914B1 (ko) 음원위치-지연시간차 상관관계 역 추정에 의한 음원 방향검지 시스템 및 방법
CN101855914A (zh) 声源的位置确定
CN103792513B (zh) 一种雷声定位系统及方法
RU2529441C1 (ru) Способ обработки гидролокационной информации
CN109741609B (zh) 一种基于麦克风阵列的机动车鸣笛声监测方法
CN105607042A (zh) 用麦克风阵列时延估计定位声源的方法
CN109212481A (zh) 一种利用麦克风阵列进行声源定位的方法
Nakadai et al. Sound source tracking with directivity pattern estimation using a 64 ch microphone array
CN112394324A (zh) 一种基于麦克风阵列的远距离声源定位的方法及系统
Dang et al. A feature-based data association method for multiple acoustic source localization in a distributed microphone array
CN113345443A (zh) 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法
Zhao et al. Design and evaluation of a prototype system for real-time monitoring of vehicle honking
CN110265060B (zh) 一种基于密度聚类的说话人数目自动检测方法
Baggenstoss Processing advances for localization of beaked whales using time difference of arrival
Berdugo et al. Speakers’ direction finding using estimated time delays in the frequency domain
Rudzyn et al. Real time robot audition system incorporating both 3D sound source localisation and voice characterisation
CN105676167B (zh) 一种基于声学矢量传感器和双谱变换的鲁棒单语者声源doa估计方法
Urazghildiiev et al. Passive acoustic detection and estimation of the number of sources using compact arrays
KR20090017208A (ko) 음원 위치 추적 방법 및 장치
Nakamura et al. Blind spatial sound source clustering and activity detection using uncalibrated microphone array

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181221