CN113111765A - 一种基于深度学习的多语音源计数和定位方法 - Google Patents

一种基于深度学习的多语音源计数和定位方法 Download PDF

Info

Publication number
CN113111765A
CN113111765A CN202110379637.6A CN202110379637A CN113111765A CN 113111765 A CN113111765 A CN 113111765A CN 202110379637 A CN202110379637 A CN 202110379637A CN 113111765 A CN113111765 A CN 113111765A
Authority
CN
China
Prior art keywords
sound source
value
doa
representing
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110379637.6A
Other languages
English (en)
Other versions
CN113111765B (zh
Inventor
潘翔
张敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110379637.6A priority Critical patent/CN113111765B/zh
Publication of CN113111765A publication Critical patent/CN113111765A/zh
Application granted granted Critical
Publication of CN113111765B publication Critical patent/CN113111765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于深度学习的多语音源计数和定位方法。包括:根据像源法的房间冲激响应模型构造麦克风阵列接收的多语音源信号;对麦克风阵列信号进行特征提取,提取相位变换加权的广义互相关系数和对数梅尔谱;神经网络训练提取到的输入特征,对声源个数估计和到达角估计做多任务学习的训练;根据声源个数的估计值,对到达角估计预测值进行峰值检测,峰值出现的位置即为多个语音源的到达角估计值。本发明能在未知声源个数的前提下对含有多个语音源的信号进行声源计数和到达角估计,能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能,对混响的环境具有一定的鲁棒性。

Description

一种基于深度学习的多语音源计数和定位方法
技术领域
本发明涉及声源定位技术领域,尤其涉及一种基于深度学习的未知声源个数的多语音源计数和定位方法。
背景技术
准确估计语音源的方位角是许多应用中的关键要素。如在电话会议中,利用说话人的位置知识来操控摄像机的转动,或通过波束形成实现对目标信号的增强,声源事件检测和跟踪,以及未知环境中的机器人移动等应用。在实际场景中,除了环境噪声和混响外,往往可能含有多个说话人,由于多个声源之间的混叠效应使得多语音源的定位更加困难。多数传统的高分辨率定位算法都是针对窄带信号提出来的,而语音信号是宽带非平稳信号且能量主要集中在低频成分,这些传统算法在小尺度阵列上存在对语音信号定位分辨率不足的问题,在大混响和低信噪比时定位性能也显著下降。基于深度学习的方法,多数将多语音源问题当做多标签分类问题求解,通过神经网络得到声源出现在所划分的类别中的后验概率,最大值出现的类别即为声源到达方位。定位精度与类别划分的精度相关,而且需要知道声源数目,在实际应用中受到很多限制。
发明内容
针对现有技术存在的问题,本发明所要解决的问题是,提供一种基于深度学习的小尺度麦克风阵列定位算法,实现对多个语音源的计数和到达角估计。
本发明所采用的技术方案是:一种基于深度学习的多语音源计数和定位方法,该方法包括以下步骤:
步骤1:构造室内混响环境下含有多个语音源的训练数据,即根据房间冲激响应模型构造麦克风阵列接收到的声源信号;
步骤2:提取语音信号特征,即提取相位变换加权的广义互相关系数和对数梅尔谱;
步骤3:训练神经网络,对声源个数估计和到达角(direction-of-arrival,DOA)估计做多任务学习训练;
步骤4:输出声源个数估计值和DOA估计值。
进一步地,所述步骤1构造室内混响环境下含有多个语音源的训练数据,具体步骤如下:
麦克风阵列接收到的声源信号可以表示为干净语音与房间冲激响应的卷积:
Figure BDA0003012480190000021
其中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,
Figure BDA0003012480190000022
表示卷积操作,
Figure BDA0003012480190000023
Figure BDA0003012480190000024
表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,
Figure BDA0003012480190000025
根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。
进一步地,所述步骤2具体包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数,对互功率谱进行调整,再进行逆傅里叶变换得到相位变换加权的广义互相关系数(generalized correlation coefficient with phasetransform,GCC-PHAT),计算公式如下所示:
Figure BDA0003012480190000026
其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作;
步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:
Figure BDA0003012480190000027
其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。
进一步地,所述步骤3具体如下:
将提取的特征输入到深度神经网络进行训练。输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块,将经过卷积神经网络模块后的特征拼接起来成为新特征再输入到门控循环单元(Gated Recurrent Unit,GRU),最后分为两路输出。一路输出通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值
Figure BDA0003012480190000028
其中全连接层的神经元个数为N1;另一路输出通过全连接层FC2和激活函数Sigmoid后得到DOA预测值
Figure BDA0003012480190000029
其中全连接层的神经元个数为N2
声源个数估计问题作为多分类模型求解,每个个数取值作为一个类别,采用交叉熵作为损失函数,计算公式如下:
Figure BDA0003012480190000031
其中p(xn)表示属于第n个类别的真实概率,
Figure BDA0003012480190000032
表示预测属于第n个类别的概率。
DOA估计问题作为回归模型求解,使用高斯函数设计DOA标签,计算公式如下:
Figure BDA0003012480190000033
其中y(i)代表θi角度的标签值,K代表声源个数,
Figure BDA0003012480190000034
代表第j个声源的真实角度值,θi代表麦克风阵列可以有效估计的到达角范围内的任意角度值,σ是控制高斯函数的参数。
DOA估计问题采用均方误差作为损失函数,计算公式如下:
Figure BDA0003012480190000035
其中
Figure BDA0003012480190000036
表示角度值为θn时的预测值;
声源个数估计和DOA估计以多任务学习模型的方式进行训练,整个深度神经网络模型的损失函数计算公式如下:
J=αJ1+J2
其中α是一个常量系数,范围大小0<α≤1。在最小化损失函数的准则下进行迭代训练,最终得到训练好的网络模型。
进一步地,所述步骤4具体如下:
对麦克风阵列接收到的声源信号进行特征提取,将提取的特征输入到步骤3训练得到的网络模型,得到声源个数预测值
Figure BDA0003012480190000037
和DOA预测值
Figure BDA0003012480190000038
Figure BDA0003012480190000039
的最大值对应的类别即为声源个数估计值
Figure BDA00030124801900000310
Figure BDA00030124801900000311
进行峰值检测,前
Figure BDA00030124801900000312
个最大峰值出现的位置即为DOA估计值。
本发明的有益效果是:本发明提出的一种基于深度学习的多语音源计数和定位方法,通过对麦克风阵列信号提取相位变换的广义互相关系数和对数梅尔谱,将其作为输入特征对神经网络进行训练,对声源个数估计和到达角估计做多任务学习训练,能在未知声源个数的情况下,对含有多个语音源的信号进行到达角估计。与传统的定位算法和其他深度学习的方法相比,能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能,对混响的环境具有一定的鲁棒性。
附图说明
图1是本发明具体实施例中基于深度学习的多语音源计数和定位方法流程图;
图2是本发明具体实施例中多语音源计数和定位的网络结构图;
图3是本发明具体实施例中多语音源定位测试结果图。
具体实施方式
下面结合实施例和附图对本发明提出的一种基于深度学习的多语音源计数和定位方法做出详细说明。
图1给出了本发明的总体流程图。在神经网络训练阶段,首先根据像源法构造房间冲激响应模型来模拟麦克风阵列接收到的声源信号,然后对麦克风阵列接收信号进行特征提取,将提取的信号特征输入到神经网络进行训练,网络模型为声源计数和到达角估计的多任务模型,多次迭代优化后得到训练好的网络模型。在推理测试阶段,对麦克风阵列接收到的声源信号进行特征提取后,输入到训练阶段得到的最优网络模型中,得到声源数目的估计值
Figure BDA0003012480190000041
最后对神经网络的DOA估计输出值进行峰值检测,前
Figure BDA0003012480190000042
个峰值出现的位置即为声源的DOA估计值。
本发明的技术方法具体实施方式如下:
步骤1,根据像源法的房间冲激响应模型模拟麦克风阵列接收到的声源信号,构造室内混响环境下含有多个语音源的训练数据。
Figure BDA0003012480190000043
式中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,
Figure BDA0003012480190000044
表示卷积操作,
Figure BDA0003012480190000045
Figure BDA0003012480190000046
表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,
Figure BDA0003012480190000047
根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。
步骤2,对步骤1中得到的声源信号X进行特征提取,包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数对互功率谱进行调整,再进行逆傅里叶变换得到GCC-PHAT,计算公式如下所示:
Figure BDA0003012480190000048
其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作,对于M个通道的麦克风阵列,一共计算M(M-1)/2组GCC-PHAT系数;
步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:
Figure BDA0003012480190000051
其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。
步骤3,将提取的特征输入到神经网络进行训练,神经网络结构如图2所示,包括以下步骤:
输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块,卷积神经网络CNNblock1和CNNblock2均由4层的卷积层组成,每个卷积层后面跟着最大值池化层和Batch Normalization层。将经过CNNblock1和CNNblock2模块后的特征拼接起来成为新特征再输入到GRU,GRU隐藏层神经元个数设置为512。最后分为两路输出,全连接层FC1的神经元个数设置为N1,通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值
Figure BDA0003012480190000058
全连接层FC2的神经元个数设置为N2,通过全连接层FC2和激活函数Sigmoid后得到DOA预测值
Figure BDA0003012480190000059
声源个数估计问题作为多分类模型求解,采用交叉熵作为损失函数,计算公式如下:
Figure BDA0003012480190000052
其中p(xn)表示第n个类别的真实概率,
Figure BDA0003012480190000053
表示预测属于第n个类别的概率。
DOA估计问题作为回归模型求解,使用高斯函数设计DOA标签,计算公式如下:
Figure BDA0003012480190000054
其中y(i)代表θi角度的标签值,K代表声源个数,
Figure BDA0003012480190000055
代表第j个声源的真实角度值,θi代表麦克风阵列可以有效估计的到达角范围内的任意角度值,σ是控制高斯函数的参数。
DOA估计问题采用均方误差作为损失函数,计算公式如下:
Figure BDA0003012480190000056
其中
Figure BDA0003012480190000057
表示角度值为θn时的预测值;
声源个数估计和DOA估计以多任务学习模型的方式进行训练,整个深度神经网络模型的损失函数计算公式如下:
J=αJ1+J2
其中α是一个常量系数,范围大小0<α≤1。在最小化损失函数的准则下进行迭代训练,最终得到训练好的网络模型。
步骤4,对麦克风阵列采集到的声源信号进行声源计数和定位。包括以下步骤:
对声源信号进行特征提取,将提取的特征输入到步骤3训练得到的网络模型,得到声源个数预测值
Figure BDA0003012480190000061
和DOA预测值
Figure BDA0003012480190000062
Figure BDA0003012480190000063
的最大值对应的类别即为声源个数估计值
Figure BDA0003012480190000064
Figure BDA0003012480190000065
进行峰值检测,前
Figure BDA0003012480190000066
个最大峰值出现的位置即为DOA估计值。
实施例
本实例将上述的多语音源计数和定位方法应用于一个2×2的矩形阵,矩形阵的阵间距均为3.8cm。设置5个不同大小的房间生成3600条不同的房间冲激响应,干净语音数据来源于Librispeech数据库,信噪比控制在10dB-20dB之间。信号采样频率16kHz,按照64ms的帧长和32ms帧移进行短时傅里叶变换。选择连续30帧的特征作为输入特征,广义互相关系数的τ取值64,梅尔滤波器个数取值为96,则GCC-PHAT的特征大小为6×30×64,LogMel的特征大小为4×30×96。声源个数估计的输出维度N1取值为4,DOA估计的输出维度N2取值为360,对神经网络进行迭代训练。
在房间大小为6×8×3.5m3的室内用上述的2×2的矩形阵采集到声源信号,用前文中训练好的模型对采集到的数据进行测试,如图3所示为一个含有2个语音源的混合信号的DOA估计结果。本发明所提出的方法,在此测试数据集上平均角度误差为8.6°,声源计数准确率为95.4%
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于深度学习的多语音源计数和定位方法,其特征在于,包括以下步骤:
步骤1:构造室内混响环境下含有多个语音源的训练数据,即根据房间冲激响应模型构造麦克风阵列接收到的声源信号;
步骤2:提取语音信号特征,即提取相位变换加权的广义互相关系数和对数梅尔谱;
步骤3:训练神经网络,对声源个数估计和到达角DOA估计做多任务学习训练;
步骤4:输出声源个数估计值和DOA估计值。
2.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤1构造室内混响环境下含有多个语音源的训练数据,具体步骤如下:
麦克风阵列接收到的声源信号可以表示为干净语音与房间冲激响应的卷积:
Figure FDA0003012480180000011
其中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,
Figure FDA0003012480180000012
表示卷积操作,
Figure FDA0003012480180000013
Figure FDA0003012480180000014
表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,
Figure FDA0003012480180000015
根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。
3.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤2具体包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数,对互功率谱进行调整,再进行逆傅里叶变换得到相位变换加权的广义互相关系数GCC-PHAT,计算公式如下所示:
Figure FDA0003012480180000016
其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作;
步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:
Figure FDA0003012480180000017
其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。
4.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤3具体如下:
将提取的特征输入到深度神经网络进行训练。输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块,将经过卷积神经网络模块后的特征拼接起来成为新特征再输入到门控循环单元GRU,最后分为两路输出。一路输出通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值
Figure FDA0003012480180000021
其中全连接层的神经元个数为N1;另一路输出通过全连接层FC2和激活函数Sigmoid后得到DOA预测值
Figure FDA0003012480180000022
其中全连接层的神经元个数为N2
声源个数估计问题作为多分类模型求解,每个个数取值作为一个类别,采用交叉熵作为损失函数,计算公式如下:
Figure FDA0003012480180000023
其中p(xn)表示属于第n个类别的真实概率,
Figure FDA0003012480180000024
表示预测属于第n个类别的概率。
DOA估计问题作为回归模型求解,使用高斯函数设计DOA标签,计算公式如下:
Figure FDA0003012480180000025
其中y(i)代表θi角度的标签值,K代表声源个数,
Figure FDA0003012480180000026
代表第j个声源的真实角度值,θi代表麦克风阵列可以有效估计的到达角范围内的任意角度值,σ是控制高斯函数的参数。
DOA估计问题采用均方误差作为损失函数,计算公式如下:
Figure FDA0003012480180000027
其中
Figure FDA0003012480180000028
表示角度值为θn时的预测值;
声源个数估计和DOA估计以多任务学习模型的方式进行训练,整个深度神经网络模型的损失函数计算公式如下:
J=αJ1+J2
其中α是一个常量系数,范围大小0<α≤1。在最小化损失函数的准则下进行迭代训练,最终得到训练好的网络模型。
5.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤4具体如下:
对麦克风阵列接收到的声源信号进行特征提取,将提取的特征输入到步骤3训练得到的网络模型,得到声源个数预测值
Figure FDA0003012480180000029
和DOA预测值
Figure FDA00030124801800000210
Figure FDA0003012480180000031
的最大值对应的类别即为声源个数估计值
Figure FDA0003012480180000032
Figure FDA0003012480180000033
进行峰值检测,前
Figure FDA0003012480180000034
个最大峰值出现的位置即为DOA估计值。
CN202110379637.6A 2021-04-08 2021-04-08 一种基于深度学习的多语音源计数和定位方法 Active CN113111765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110379637.6A CN113111765B (zh) 2021-04-08 2021-04-08 一种基于深度学习的多语音源计数和定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110379637.6A CN113111765B (zh) 2021-04-08 2021-04-08 一种基于深度学习的多语音源计数和定位方法

Publications (2)

Publication Number Publication Date
CN113111765A true CN113111765A (zh) 2021-07-13
CN113111765B CN113111765B (zh) 2023-04-18

Family

ID=76715106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110379637.6A Active CN113111765B (zh) 2021-04-08 2021-04-08 一种基于深度学习的多语音源计数和定位方法

Country Status (1)

Country Link
CN (1) CN113111765B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113835065A (zh) * 2021-09-01 2021-12-24 深圳壹秘科技有限公司 基于深度学习的声源方向确定方法、装置、设备及介质
CN114265009A (zh) * 2021-11-05 2022-04-01 珠海慧联科技有限公司 基于深度学习的音频检测和定位方法、系统及智能终端
CN114994608A (zh) * 2022-04-21 2022-09-02 西北工业大学深圳研究院 基于深度学习的多设备自组织麦克风阵列声源定位方法
CN117826081A (zh) * 2023-12-27 2024-04-05 中煤科工开采研究院有限公司 一种矿井下的声源定位系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109427328A (zh) * 2017-08-28 2019-03-05 中国科学院声学研究所 一种基于滤波网络声学模型的多通道语音识别方法
CN111239687A (zh) * 2020-01-17 2020-06-05 浙江理工大学 一种基于深度神经网络的声源定位方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109427328A (zh) * 2017-08-28 2019-03-05 中国科学院声学研究所 一种基于滤波网络声学模型的多通道语音识别方法
CN111239687A (zh) * 2020-01-17 2020-06-05 浙江理工大学 一种基于深度神经网络的声源定位方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
章宇栋;黄惠祥;童峰;: "面向多声源的压缩感知麦克风阵列的波达方向估计" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113835065A (zh) * 2021-09-01 2021-12-24 深圳壹秘科技有限公司 基于深度学习的声源方向确定方法、装置、设备及介质
CN113835065B (zh) * 2021-09-01 2024-05-17 深圳壹秘科技有限公司 基于深度学习的声源方向确定方法、装置、设备及介质
CN114265009A (zh) * 2021-11-05 2022-04-01 珠海慧联科技有限公司 基于深度学习的音频检测和定位方法、系统及智能终端
CN114994608A (zh) * 2022-04-21 2022-09-02 西北工业大学深圳研究院 基于深度学习的多设备自组织麦克风阵列声源定位方法
CN114994608B (zh) * 2022-04-21 2024-05-14 西北工业大学深圳研究院 基于深度学习的多设备自组织麦克风阵列声源定位方法
CN117826081A (zh) * 2023-12-27 2024-04-05 中煤科工开采研究院有限公司 一种矿井下的声源定位系统

Also Published As

Publication number Publication date
CN113111765B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN113111765B (zh) 一种基于深度学习的多语音源计数和定位方法
CN107703486B (zh) 一种基于卷积神经网络cnn的声源定位方法
Chakrabarty et al. Broadband DOA estimation using convolutional neural networks trained with noise signals
CN109490822B (zh) 基于ResNet的语音DOA估计方法
Salvati et al. Exploiting CNNs for improving acoustic source localization in noisy and reverberant conditions
CN112904279B (zh) 基于卷积神经网络和子带srp-phat空间谱的声源定位方法
CN110068795A (zh) 一种基于卷积神经网络的室内麦克风阵列声源定位方法
CN111239687B (zh) 一种基于深度神经网络的声源定位方法及系统
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
Morito et al. Partially Shared Deep Neural Network in sound source separation and identification using a UAV-embedded microphone array
CN110544490B (zh) 一种基于高斯混合模型和空间功率谱特征的声源定位方法
CN112180318B (zh) 声源波达方向估计模型训练和声源波达方向估计方法
Aroudi et al. Dbnet: Doa-driven beamforming network for end-to-end reverberant sound source separation
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
CN111443328B (zh) 基于深度学习的声音事件检测与定位方法
Salvati et al. Time Delay Estimation for Speaker Localization Using CNN-Based Parametrized GCC-PHAT Features.
Kwak et al. Convolutional neural network trained with synthetic pseudo-images for detecting an acoustic source
Salvati et al. Two-microphone end-to-end speaker joint identification and localization via convolutional neural networks
Salvati et al. End-to-End Speaker Identification in Noisy and Reverberant Environments Using Raw Waveform Convolutional Neural Networks.
Ding et al. Microphone array acoustic source localization system based on deep learning
CN116227553A (zh) 基于卷积神经网络的声源定位的方法及系统
CN110838303A (zh) 一种利用传声器阵列的语音声源定位方法
CN115713943A (zh) 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法
Chen et al. Multi-channel end-to-end neural network for speech enhancement, source localization, and voice activity detection
Tan et al. A dilated inception convolutional neural network for gridless DOA estimation under low SNR scenarios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant