CN109031200A - 一种基于深度学习的声源空间方位检测方法 - Google Patents
一种基于深度学习的声源空间方位检测方法 Download PDFInfo
- Publication number
- CN109031200A CN109031200A CN201810504609.0A CN201810504609A CN109031200A CN 109031200 A CN109031200 A CN 109031200A CN 201810504609 A CN201810504609 A CN 201810504609A CN 109031200 A CN109031200 A CN 109031200A
- Authority
- CN
- China
- Prior art keywords
- neural network
- sound source
- dimensional orientation
- training
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 25
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 32
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 210000003128 head Anatomy 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 9
- 210000005069 ears Anatomy 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 3
- 210000000613 ear canal Anatomy 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 210000004218 nerve net Anatomy 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 210000005036 nerve Anatomy 0.000 claims 1
- 230000004807 localization Effects 0.000 description 7
- 238000000034 method Methods 0.000 description 6
- 210000004556 brain Anatomy 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- SDIXRDNYIMOKSG-UHFFFAOYSA-L disodium methyl arsenate Chemical compound [Na+].[Na+].C[As]([O-])([O-])=O SDIXRDNYIMOKSG-UHFFFAOYSA-L 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于深度学习的声源空间方位检测方法,包括步骤:步骤1、采用人工头双麦克风系统捡拾多个声源空间方位的双耳声信号,用于深度神经网络模型的训练;步骤2、对所述深度神经网络模型进行迭代训练,得到一个具有最优参数的分类器;步骤3、输入未知声源方位的双耳信号至训练好的深度神经网络模型,所述深度神经网络模型输出声源空间方位的预测值。相对于现有技术,本发明的硬件实施简便;同时,神经网络信息量大,预测准确性接近人类行为学实验的水平。
Description
技术领域
本发明涉及声源定位相关的技术领域,特别涉及一种基于深度学习的声源空间方位检测方法。
背景技术
声源定位是一种接受目标声场信息,并施以声源定位算法处理,进而确定目标声源方位的技术。声源定位技术涉及声信号检测、音频数字信号处理、空间听觉研究等一系列领域,在军事和民用消费领域有着重要的应用。例如,声源定位技术可以提高远程通讯的临场感和语言可懂度,也可用于车辆停放地的搜索和导航、智能音箱的唤醒等。
目前,声源定位技术主要是利用麦克风阵列(即传声器阵列)接收声场信息,根据声源信号到达各个麦克风阵元的物理差异(例如声达时间差,time differences ofarrival TDOA),被动估计声源的空间方位。已有多种麦克风阵列,如线性阵列、环形整列等;通常,麦克风阵元的数量和定位准确性呈正相关关系。实际应用中,为了获得良好的声源空间方位的检测效果,需要将较多数量的麦克风阵元按照一定的空间几何位置进行排列。多阵元麦克风阵列不仅需要精确设计阵列的孔径大小、阵元间距等参数,还需要多通道采集系统和算法支撑。这些对麦克风系统的软、硬件都提出了较高的要求,增加了系统实现的复杂性,相应的成本支出的增大也增加了用户的负担。目前,也有少量研究采用BP神经网络优化声源定位算法(例如,段敬红、刘瑞华,《电视技术》,47(5),2007)。一方面,文献中的神经网络采用均方误差作为目标函数(或代价函数),一定程度上存在学习速率偏低、鲁棒性较差的问题;另一方面,神经网络的输入采用麦克风阵列声达时间差TDOA,或者双耳声信号的部分特征量(例如,互相关系数、耳间强度差、耳间时间差),而这些参数只能部分地反映真实声信号的特征。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于深度学习的声源空间方位检测方法。深度学习是一种基于深度(多层)神经网络的机器学习方法,它可以有效地模仿人脑的机制。这里采用深度学习神经网络模拟人脑对声源空间方位的处理机制,进而发展出高效的声源空间方位检测方法。深度学习神经网络采用交叉熵作为目标函数,采用完整的双耳声信号作为系统输入。
本发明通过下述技术方案实现:
一种基于深度学习的声源空间方位检测方法,包括如下步骤:
步骤1、采用人工头双麦克风系统捡拾多个声源空间方位的双耳声信号,用于深度神经网络模型的训练;
步骤2、对所述深度神经网络模型进行迭代训练,得到一个具有最优参数的分类器;
步骤3、输入未知声源方位的双耳信号至训练好的深度神经网络模型,所述深度神经网络模型输出声源空间方位的预测值。
进一步地,所述步骤1具体包括:
步骤11、将人工头放置在转盘上,双耳距离地面的垂直高度为1米;将一个扬声器固定在距离人工头水平距离为1米的方位,和双耳等高;所述扬声器的输入端经由外置声卡和计算机连接;将两个麦克风分别固定在所述人工头的耳道末端,所述麦克风的输出端经由外置声卡和计算机连接;
步骤12、所述扬声器播放声源单通路信号,声音经过周围环境的传播到达人工头的双耳,随即被所述麦克风捡拾,最后保存至计算机;
步骤13、转动所述转盘,改变所述人工头和所述扬声器的相对空间方位,重复步骤12,记录Q个声源空间方位的双耳声信号。
进一步地,所述步骤2具体包括:
步骤21、数据的预处理:将Q个方位采集到的双声道长声源信号进行下采样处理,然后使用端点检测去除静音部分,并对余下部分进行50ms分段切片操作,每个方位得到M≥5000个片段,并附上对应角度的标签作为训练集T,所述训练集T包含N=Q×M个训练样本;
步骤22、搭建神经网络结构,初始化每层网络权重系数和偏置总训练次数K、学习效率α,其中,k为当前训练次数,初始值为1;l为神经网络的编号,l=1,...,L;L≥2为神经网络的总层数;
步骤23、随机打乱训练集T中N个样本的顺序,再从中依次取出S个样本,S一般为50,记为Bk,并得到onehot标签Yk;输入到神经网络中得到预测结果为其中k为当前训练次数,q代表神经网络每层的输出;
步骤24、计算误差函数J(Yk,Pk),所述误差函数J(Yk,Pk)定义为预测结果与真实标签的交叉熵;
其中Q为预测的总方位数,利用误差函数J(Yk,Pk)和学习效率α进行反向梯度传播,更新每层权重系数和偏置,得到和
步骤25、重复执行步骤23到24,直到k=K;保存训练好的深度神经网络模型。
进一步地,步骤21中,所述使用端点检测去除静音部分具体包括:
步骤211、对每个方位得到的声音信号X(n)下采样处理后进行分帧,每一帧记为xi(n),n=1,...,N为离散语音信号时间序列,N为帧长,i表示帧数;
步骤212、计算每一帧语音的短时能量设定帧能量阈值δ,若Ei≤δ即判断为静音片段,并舍去,反之保留。
进一步地,步骤22中,所述的神经网络包括全连接神经网络、卷积神经网络或递归神经网络。
进一步地,所述步骤3中,将未知声源方位的双耳信号输入至训练好的深度神经网络模型之前,还包括步骤:
数据的预处理:对未知声源方位的双耳信号进行下采样处理,然后使用端点检测去除静音部分,并对余下部分进行50ms分段切片操作,得到所述任意未知空间的M≥5000个片段。
本发明相对于现有技术具有如下的优点及效果:
(1)基于深度学习神经网络,采用交叉熵为目标函数,采用完整声信号作为网络输入,本发明实现了声源空间方位检测算法的优化;
(2)在获得同等定位精度的情况下,本发明只需要双麦克风,无需搭建多麦克风阵列,这样将有效降低系统搭建的难度和成本,且具有良好的便携性。
附图说明
图1是本发明实施例的原理框图。
图2是本发明的深度神经网络结构示意图。
图3是本发明的深度神经网络模型训练步骤图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步的详细描述。
如图1所示,一种基于深度学习的声源空间方位检测方法,包括如下步骤:
步骤1、采用人工头双麦克风系统捡拾多个声源空间方位的双耳声信号,用于深度神经网络的训练;
步骤2、对深度神经网络模型进行迭代训练,得到一个具有最优参数的分类器;
步骤3、输入未知声源方位的双耳信号至深度神经网络模型,模型输出声源空间方位的预测值;
具体而言,步骤1具体包括:
步骤11、将人工头放置在转盘上,双耳距离地面的垂直高度为1米;将一个扬声器固定在距离人工头水平距离为1米的方位,和双耳等高;所述扬声器的输入端经由外置声卡和计算机连接;将两个麦克风分别固定在所述人工头的耳道末端,所述麦克风的输出端经由外置声卡和计算机连接;
步骤12、所述扬声器播放声源单通路信号,声音经过周围环境的传播到达人工头的双耳,随即被所述麦克风捡拾,最后保存至计算机;
步骤13、转动所述转盘,改变所述人工头和所述扬声器的相对空间方位,重复步骤12,记录Q个声源空间方位的双耳声信号。
具体而言,如图3所示,所述步骤2包括
步骤21、数据的预处理:将Q个方位采集到的双声道长声源信号进行下采样处理,然后使用端点检测去除静音部分,并对余下部分进行50ms分段切片操作,每个方位得到M≥5000个片段,并附上对应角度的标签作为训练集T,所述训练集T包含N=Q×M个训练样本;
所述使用端点检测去除静音部分具体包括:
步骤211、对每个方位得到的声音信号X(n)下采样处理后进行分帧,每一帧记为xi(n),n=1,...,N为离散语音信号时间序列,N为帧长,i表示帧数;
步骤212、计算每一帧语音的短时能量设定帧能量阈值δ,若Ei≤δ即判断为静音片段,并舍去,反之保留。
步骤22、搭建神经网络结构,初始化每层网络权重系数和偏置总训练次数K、学习效率α,其中,k为当前训练次数,初始值为1;l为神经网络的编号,l=1,...,L;L≥2为神经网络的总层数;
这里,有多种深度学习的神经网络可供选择,例如全连接神经网络、卷积神经网络、递归神经网络等;
步骤23、随机打乱训练集T中N个样本的顺序,再从中依次取出S个样本,S一般为50,记为Bk,并得到onehot标签Yk;输入到神经网络中得到预测结果为其中k为当前训练次数,q代表神经网络每层的输出;
步骤24、计算误差函数J(Yk,Pk),所述误差函数J(Yk,Pk)定义为预测结果与真实标签的交叉熵;
其中Q为预测的总方位数,利用误差函数J(Yk,Pk)和学习效率α进行反向梯度传播,更新每层权重系数和偏置,得到和
步骤25、重复执行步骤23到24,直到k=K;保存训练好的模型。
具体而言,步骤3中,人工头捡拾到任意未知空间方位声源发出的声信号后、将未知声源方位的双耳信号输入至训练好的深度神经网络模型之前,还包括步骤:
数据的预处理:对未知声源方位的双耳信号进行下采样处理,然后使用端点检测去除静音部分,并对余下部分进行50ms分段切片操作,得到所述任意未知空间的M≥5000个片段。
经过类似步骤21中的静音检测和剔除、分段切片的预处理后,输入步骤25中训练好的神经网络模型,就可以得到对声源空间方位的预测值。
TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统。我们在TensorFlow中搭建了一个是前馈全连接深度神经网络(DNN)模型,网络结构如图2所示。其中,输入层、两个隐层、输出层分别包含了1024、128、32和8个神经元;最后,采用softmax函数将输出归一化。图3是深度神经网络模型训练的计算机流程图。在具体的实验中,获取了八个空间方位(水平面0°、45°、90°、135°、180°、225°、270°和315°)的双耳声信号;训练集的样本数为8000个。将训练好的神经网络模型运用到测试集上,结果表明:平均定位的正确率达到89%。此外,前方方位(0°、45°、315°)的信号混乱到后方的比例较高,都在60%以上;而后方方位(135°、180°、225°)的信号混乱到前方的比例较低,都在20%以下。模型的输出结果和已有人类行为学实验的观察是一致的(例如:Wightman F L,Kistler D J.Headphonesimulation of free-field listening.II:Psychophysical validation[J].Journal ofthe Acoustical Society of America,1989,85(2):868-878)。这个实例说明,本发明的方法可以较好地模拟人脑通过双耳声信号检测声源空间方位的机制和过程。
本发明可采用算法语言(如python、c++)编制的软件在多媒体计算机上实现,也可采用通用信号处理芯片电路或专用的集成电路实现。本发明可作为软件或硬件用于声源定位相关的多种应用,例如声目标导航、增强远程通讯、虚拟现实、智能音箱等。
尽管参照特定的优选实施例示出并描述了本发明专利,但本领域技术人员应当理解,本说明书中列举的具体实施方案和实施例,只不过是为了理解本发明的技术内容,不是对本发明的限制,在不背离本发明的主旨和范围的情况下,本发明在形式上和细节上可以进行改变,凡本领域的普通技术人员根据上述描述所做的润饰、修改或等同替换,均属于本发明所保护的范围。
Claims (6)
1.一种基于深度学习的声源空间方位检测方法,其特征是,包括如下步骤:
步骤1、采用人工头双麦克风系统捡拾多个声源空间方位的双耳声信号,用于深度神经网络模型的训练;
步骤2、对所述深度神经网络模型进行迭代训练,得到一个具有最优参数的分类器;
步骤3、输入未知声源方位的双耳信号至训练好的深度神经网络模型,所述深度神经网络模型输出声源空间方位的预测值。
2.根据权利要求1所述的一种基于深度学习的声源空间方位检测方法,其特征是:所述步骤1具体包括:
步骤11、将人工头放置在转盘上,双耳距离地面的垂直高度为1米;将一个扬声器固定在距离人工头水平距离为1米的方位,和双耳等高;所述扬声器的输入端经由外置声卡和计算机连接;将两个麦克风分别固定在所述人工头的耳道末端,所述麦克风的输出端经由外置声卡和计算机连接;
步骤12、所述扬声器播放声源单通路信号,声音经过周围环境的传播到达人工头的双耳,随即被所述麦克风捡拾,最后保存至计算机;
步骤13、转动所述转盘,改变所述人工头和所述扬声器的相对空间方位,重复步骤12,记录Q个声源空间方位的双耳声信号。
3.根据权利要求1所述的一种基于深度学习的声源空间方位检测方法,其特征是:所述步骤2具体包括:
步骤21、数据的预处理:将Q个方位采集到的双声道长声源信号进行下采样处理,然后使用端点检测去除静音部分,并对余下部分进行50ms分段切片操作,每个方位得到M≥5000个片段,并附上对应角度的标签作为训练集T,所述训练集T包含N=Q×M个训练样本;
步骤22、搭建神经网络结构,初始化每层网络权重系数和偏置总训练次数K、学习效率α,其中,k为当前训练次数,初始值为1;l为神经网络的编号,l=1,...,L;L≥2为神经网络的总层数;
步骤23、随机打乱训练集T中N个样本的顺序,再从中依次取出S个样本,S一般为50,记为Bk,并得到onehot标签Yk;输入到神经网络中得到预测结果为其中k为当前训练次数,q代表神经网络每层的输出;
步骤24、计算误差函数J(Yk,Pk),所述误差函数J(Yk,Pk)定义为预测结果与真实标签的交叉熵;
其中Q为预测的总方位数,利用误差函数J(Yk,Pk)和学习效率α进行反向梯度传播,更新每层权重系数和偏置,得到和
步骤25、重复执行步骤23到24,直到k=K;保存训练好的深度神经网络模型。
4.根据权利要求3所述的一种基于深度学习的声源空间方位检测方法,其特征是:步骤21中,所述使用端点检测去除静音部分具体包括:
步骤211、对每个方位得到的声音信号X(n)下采样处理后进行分帧,每一帧记为xi(n),n=1,...,N为离散语音信号时间序列,N为帧长,i表示帧数;
步骤212、计算每一帧语音的短时能量设定帧能量阈值δ,若Ei≤δ即判断为静音片段,并舍去,反之保留。
5.根据权利要求3所述的一种基于深度学习的声源空间方位检测方法,其特征是:步骤22中,所述的神经网络包括全连接神经网络、卷积神经网络或递归神经网络。
6.根据权利要求1所述的一种基于深度学习的声源空间方位检测方法,其特征是:所述步骤3中,将未知声源方位的双耳信号输入至训练好的深度神经网络模型之前,还包括步骤:
数据的预处理:对未知声源方位的双耳信号进行下采样处理,然后使用端点检测去除静音部分,并对余下部分进行50ms分段切片操作,得到所述任意未知空间的M≥5000个片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810504609.0A CN109031200A (zh) | 2018-05-24 | 2018-05-24 | 一种基于深度学习的声源空间方位检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810504609.0A CN109031200A (zh) | 2018-05-24 | 2018-05-24 | 一种基于深度学习的声源空间方位检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109031200A true CN109031200A (zh) | 2018-12-18 |
Family
ID=64611455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810504609.0A Pending CN109031200A (zh) | 2018-05-24 | 2018-05-24 | 一种基于深度学习的声源空间方位检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109031200A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109782231A (zh) * | 2019-01-17 | 2019-05-21 | 北京大学 | 一种基于多任务学习的端到端声源定位方法及系统 |
CN109919015A (zh) * | 2019-01-28 | 2019-06-21 | 东南大学 | 一种基于多采样卷积神经网络的射频指纹提取和识别方法 |
CN112257484A (zh) * | 2019-07-22 | 2021-01-22 | 中国科学院声学研究所 | 一种基于深度学习的多声源测向方法及系统 |
CN113138366A (zh) * | 2020-01-17 | 2021-07-20 | 中国科学院声学研究所 | 一种基于深度迁移学习的单矢量水听器方位估计方法 |
WO2022263712A1 (en) * | 2021-06-17 | 2022-12-22 | Nokia Technologies Oy | Apparatus, methods and computer programs for training machine learning models |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104183245A (zh) * | 2014-09-04 | 2014-12-03 | 福建星网视易信息系统有限公司 | 一种演唱者音色相似的歌星推荐方法与装置 |
CN107144818A (zh) * | 2017-03-21 | 2017-09-08 | 北京大学深圳研究生院 | 基于双向双耳匹配滤波器加权融合的双耳声源定位方法 |
CN107179119A (zh) * | 2016-03-10 | 2017-09-19 | 现代自动车株式会社 | 提供声音检测信息的方法和装置以及包括该装置的车辆 |
CN107682216A (zh) * | 2017-09-01 | 2018-02-09 | 南京南瑞集团公司 | 一种基于深度学习的网络流量协议识别方法 |
CN107703486A (zh) * | 2017-08-23 | 2018-02-16 | 南京邮电大学 | 一种基于卷积神经网络cnn的声源定位算法 |
-
2018
- 2018-05-24 CN CN201810504609.0A patent/CN109031200A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104183245A (zh) * | 2014-09-04 | 2014-12-03 | 福建星网视易信息系统有限公司 | 一种演唱者音色相似的歌星推荐方法与装置 |
CN107179119A (zh) * | 2016-03-10 | 2017-09-19 | 现代自动车株式会社 | 提供声音检测信息的方法和装置以及包括该装置的车辆 |
CN107144818A (zh) * | 2017-03-21 | 2017-09-08 | 北京大学深圳研究生院 | 基于双向双耳匹配滤波器加权融合的双耳声源定位方法 |
CN107703486A (zh) * | 2017-08-23 | 2018-02-16 | 南京邮电大学 | 一种基于卷积神经网络cnn的声源定位算法 |
CN107682216A (zh) * | 2017-09-01 | 2018-02-09 | 南京南瑞集团公司 | 一种基于深度学习的网络流量协议识别方法 |
Non-Patent Citations (3)
Title |
---|
束佳明: "基于双耳声源定位的鲁棒语音分离研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
钱丰等: "深度学习在汽车制造物流规划工作中的应用", 《技术与方法》 * |
黄斌等: "基于深度卷积神经网络的物体识别算法", 《计算机应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109782231A (zh) * | 2019-01-17 | 2019-05-21 | 北京大学 | 一种基于多任务学习的端到端声源定位方法及系统 |
CN109919015A (zh) * | 2019-01-28 | 2019-06-21 | 东南大学 | 一种基于多采样卷积神经网络的射频指纹提取和识别方法 |
CN112257484A (zh) * | 2019-07-22 | 2021-01-22 | 中国科学院声学研究所 | 一种基于深度学习的多声源测向方法及系统 |
CN112257484B (zh) * | 2019-07-22 | 2024-03-15 | 中国科学院声学研究所 | 一种基于深度学习的多声源测向方法及系统 |
CN113138366A (zh) * | 2020-01-17 | 2021-07-20 | 中国科学院声学研究所 | 一种基于深度迁移学习的单矢量水听器方位估计方法 |
CN113138366B (zh) * | 2020-01-17 | 2022-12-06 | 中国科学院声学研究所 | 一种基于深度迁移学习的单矢量水听器方位估计方法 |
WO2022263712A1 (en) * | 2021-06-17 | 2022-12-22 | Nokia Technologies Oy | Apparatus, methods and computer programs for training machine learning models |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109031200A (zh) | 一种基于深度学习的声源空间方位检测方法 | |
CN110782878B (zh) | 一种基于注意力机制的多尺度音频场景识别方法 | |
Adavanne et al. | Multichannel sound event detection using 3D convolutional neural networks for learning inter-channel features | |
CN110600054B (zh) | 基于网络模型融合的声场景分类方法 | |
CN110600014B (zh) | 一种模型训练方法、装置、存储介质及电子设备 | |
CN105575403A (zh) | 一种融合听觉掩蔽与双耳信号帧的互相关声源定位方法 | |
US11800301B2 (en) | Neural network model for cochlear mechanics and processing | |
CN109935226A (zh) | 一种基于深度神经网络的远场语音识别增强系统及方法 | |
CN107527626A (zh) | 一种音频识别系统 | |
Basbug et al. | Acoustic scene classification using spatial pyramid pooling with convolutional neural networks | |
CN115775564B (zh) | 音频处理方法、装置、存储介质及智能眼镜 | |
CN111142066A (zh) | 波达方向估计方法、服务器以及计算机可读存储介质 | |
CN102509548B (zh) | 一种基于多距离声传感器的音频索引方法 | |
CN112180318A (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
CN116559778A (zh) | 一种基于深度学习的车辆鸣笛定位方法及系统 | |
Zhang et al. | Binaural Reverberant Speech Separation Based on Deep Neural Networks. | |
Youssef et al. | From monaural to binaural speaker recognition for humanoid robots | |
Ashhad et al. | Improved Vehicle Sub-type Classification for Acoustic Traffic Monitoring | |
CN115312067B (zh) | 基于人声的声音信号识别方法、装置及存储介质 | |
Hu et al. | A generalized network based on multi-scale densely connection and residual attention for sound source localization and detection | |
WO2023159582A1 (zh) | 耳机控制方法、耳机、装置及存储介质 | |
Nguyen et al. | Location Estimation of Receivers in an Audio Room using Deep Learning with a Convolution Neural Network. | |
CN115657118B (zh) | 基于深度学习的声震信号数据识别方法及系统 | |
Samborski et al. | Speaker localization in conferencing systems employing phase features and wavelet transform | |
CN110703200B (zh) | 基于声学超材料的单通道多声源定位与分离装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181218 |