CN113111765A - 一种基于深度学习的多语音源计数和定位方法 - Google Patents
一种基于深度学习的多语音源计数和定位方法 Download PDFInfo
- Publication number
- CN113111765A CN113111765A CN202110379637.6A CN202110379637A CN113111765A CN 113111765 A CN113111765 A CN 113111765A CN 202110379637 A CN202110379637 A CN 202110379637A CN 113111765 A CN113111765 A CN 113111765A
- Authority
- CN
- China
- Prior art keywords
- sound source
- value
- doa
- representing
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于深度学习的多语音源计数和定位方法。包括:根据像源法的房间冲激响应模型构造麦克风阵列接收的多语音源信号;对麦克风阵列信号进行特征提取,提取相位变换加权的广义互相关系数和对数梅尔谱;神经网络训练提取到的输入特征,对声源个数估计和到达角估计做多任务学习的训练;根据声源个数的估计值,对到达角估计预测值进行峰值检测,峰值出现的位置即为多个语音源的到达角估计值。本发明能在未知声源个数的前提下对含有多个语音源的信号进行声源计数和到达角估计,能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能,对混响的环境具有一定的鲁棒性。
Description
技术领域
本发明涉及声源定位技术领域,尤其涉及一种基于深度学习的未知声源个数的多语音源计数和定位方法。
背景技术
准确估计语音源的方位角是许多应用中的关键要素。如在电话会议中,利用说话人的位置知识来操控摄像机的转动,或通过波束形成实现对目标信号的增强,声源事件检测和跟踪,以及未知环境中的机器人移动等应用。在实际场景中,除了环境噪声和混响外,往往可能含有多个说话人,由于多个声源之间的混叠效应使得多语音源的定位更加困难。多数传统的高分辨率定位算法都是针对窄带信号提出来的,而语音信号是宽带非平稳信号且能量主要集中在低频成分,这些传统算法在小尺度阵列上存在对语音信号定位分辨率不足的问题,在大混响和低信噪比时定位性能也显著下降。基于深度学习的方法,多数将多语音源问题当做多标签分类问题求解,通过神经网络得到声源出现在所划分的类别中的后验概率,最大值出现的类别即为声源到达方位。定位精度与类别划分的精度相关,而且需要知道声源数目,在实际应用中受到很多限制。
发明内容
针对现有技术存在的问题,本发明所要解决的问题是,提供一种基于深度学习的小尺度麦克风阵列定位算法,实现对多个语音源的计数和到达角估计。
本发明所采用的技术方案是:一种基于深度学习的多语音源计数和定位方法,该方法包括以下步骤:
步骤1:构造室内混响环境下含有多个语音源的训练数据,即根据房间冲激响应模型构造麦克风阵列接收到的声源信号;
步骤2:提取语音信号特征,即提取相位变换加权的广义互相关系数和对数梅尔谱;
步骤3:训练神经网络,对声源个数估计和到达角(direction-of-arrival,DOA)估计做多任务学习训练;
步骤4:输出声源个数估计值和DOA估计值。
进一步地,所述步骤1构造室内混响环境下含有多个语音源的训练数据,具体步骤如下:
麦克风阵列接收到的声源信号可以表示为干净语音与房间冲激响应的卷积:
其中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,表示卷积操作, 表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。
进一步地,所述步骤2具体包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数,对互功率谱进行调整,再进行逆傅里叶变换得到相位变换加权的广义互相关系数(generalized correlation coefficient with phasetransform,GCC-PHAT),计算公式如下所示:
其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作;
步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:
其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。
进一步地,所述步骤3具体如下:
将提取的特征输入到深度神经网络进行训练。输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块,将经过卷积神经网络模块后的特征拼接起来成为新特征再输入到门控循环单元(Gated Recurrent Unit,GRU),最后分为两路输出。一路输出通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值其中全连接层的神经元个数为N1;另一路输出通过全连接层FC2和激活函数Sigmoid后得到DOA预测值其中全连接层的神经元个数为N2。
声源个数估计问题作为多分类模型求解,每个个数取值作为一个类别,采用交叉熵作为损失函数,计算公式如下:
DOA估计问题作为回归模型求解,使用高斯函数设计DOA标签,计算公式如下:
DOA估计问题采用均方误差作为损失函数,计算公式如下:
声源个数估计和DOA估计以多任务学习模型的方式进行训练,整个深度神经网络模型的损失函数计算公式如下:
J=αJ1+J2
其中α是一个常量系数,范围大小0<α≤1。在最小化损失函数的准则下进行迭代训练,最终得到训练好的网络模型。
进一步地,所述步骤4具体如下:
本发明的有益效果是:本发明提出的一种基于深度学习的多语音源计数和定位方法,通过对麦克风阵列信号提取相位变换的广义互相关系数和对数梅尔谱,将其作为输入特征对神经网络进行训练,对声源个数估计和到达角估计做多任务学习训练,能在未知声源个数的情况下,对含有多个语音源的信号进行到达角估计。与传统的定位算法和其他深度学习的方法相比,能在小尺度阵列上实现比传统的高分辨率定位算法更好的定位性能,对混响的环境具有一定的鲁棒性。
附图说明
图1是本发明具体实施例中基于深度学习的多语音源计数和定位方法流程图;
图2是本发明具体实施例中多语音源计数和定位的网络结构图;
图3是本发明具体实施例中多语音源定位测试结果图。
具体实施方式
下面结合实施例和附图对本发明提出的一种基于深度学习的多语音源计数和定位方法做出详细说明。
图1给出了本发明的总体流程图。在神经网络训练阶段,首先根据像源法构造房间冲激响应模型来模拟麦克风阵列接收到的声源信号,然后对麦克风阵列接收信号进行特征提取,将提取的信号特征输入到神经网络进行训练,网络模型为声源计数和到达角估计的多任务模型,多次迭代优化后得到训练好的网络模型。在推理测试阶段,对麦克风阵列接收到的声源信号进行特征提取后,输入到训练阶段得到的最优网络模型中,得到声源数目的估计值最后对神经网络的DOA估计输出值进行峰值检测,前个峰值出现的位置即为声源的DOA估计值。
本发明的技术方法具体实施方式如下:
步骤1,根据像源法的房间冲激响应模型模拟麦克风阵列接收到的声源信号,构造室内混响环境下含有多个语音源的训练数据。
式中X=[x1,x2,...,xm,...,xM]表示M个通道的麦克风阵列接收到的声源信号矩阵,K表示声源个数,si表示第i个语音信号,表示卷积操作, 表示第i个语音信号与第m个通道的麦克风之间的房间冲激响应,根据像源法计算得到,N=[n1,n2,...,nM]表示环境噪声。
步骤2,对步骤1中得到的声源信号X进行特征提取,包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数对互功率谱进行调整,再进行逆傅里叶变换得到GCC-PHAT,计算公式如下所示:
其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作,对于M个通道的麦克风阵列,一共计算M(M-1)/2组GCC-PHAT系数;
步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:
其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。
步骤3,将提取的特征输入到神经网络进行训练,神经网络结构如图2所示,包括以下步骤:
输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块,卷积神经网络CNNblock1和CNNblock2均由4层的卷积层组成,每个卷积层后面跟着最大值池化层和Batch Normalization层。将经过CNNblock1和CNNblock2模块后的特征拼接起来成为新特征再输入到GRU,GRU隐藏层神经元个数设置为512。最后分为两路输出,全连接层FC1的神经元个数设置为N1,通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值全连接层FC2的神经元个数设置为N2,通过全连接层FC2和激活函数Sigmoid后得到DOA预测值
声源个数估计问题作为多分类模型求解,采用交叉熵作为损失函数,计算公式如下:
DOA估计问题作为回归模型求解,使用高斯函数设计DOA标签,计算公式如下:
DOA估计问题采用均方误差作为损失函数,计算公式如下:
声源个数估计和DOA估计以多任务学习模型的方式进行训练,整个深度神经网络模型的损失函数计算公式如下:
J=αJ1+J2
其中α是一个常量系数,范围大小0<α≤1。在最小化损失函数的准则下进行迭代训练,最终得到训练好的网络模型。
步骤4,对麦克风阵列采集到的声源信号进行声源计数和定位。包括以下步骤:
实施例
本实例将上述的多语音源计数和定位方法应用于一个2×2的矩形阵,矩形阵的阵间距均为3.8cm。设置5个不同大小的房间生成3600条不同的房间冲激响应,干净语音数据来源于Librispeech数据库,信噪比控制在10dB-20dB之间。信号采样频率16kHz,按照64ms的帧长和32ms帧移进行短时傅里叶变换。选择连续30帧的特征作为输入特征,广义互相关系数的τ取值64,梅尔滤波器个数取值为96,则GCC-PHAT的特征大小为6×30×64,LogMel的特征大小为4×30×96。声源个数估计的输出维度N1取值为4,DOA估计的输出维度N2取值为360,对神经网络进行迭代训练。
在房间大小为6×8×3.5m3的室内用上述的2×2的矩形阵采集到声源信号,用前文中训练好的模型对采集到的数据进行测试,如图3所示为一个含有2个语音源的混合信号的DOA估计结果。本发明所提出的方法,在此测试数据集上平均角度误差为8.6°,声源计数准确率为95.4%
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于深度学习的多语音源计数和定位方法,其特征在于,包括以下步骤:
步骤1:构造室内混响环境下含有多个语音源的训练数据,即根据房间冲激响应模型构造麦克风阵列接收到的声源信号;
步骤2:提取语音信号特征,即提取相位变换加权的广义互相关系数和对数梅尔谱;
步骤3:训练神经网络,对声源个数估计和到达角DOA估计做多任务学习训练;
步骤4:输出声源个数估计值和DOA估计值。
3.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤2具体包括以下子步骤:
步骤21,对信号X进行短时傅里叶变换得到Y,计算任意两个麦克风信号Yi,Yj之间的互功率谱,引入相位变换加权函数,对互功率谱进行调整,再进行逆傅里叶变换得到相位变换加权的广义互相关系数GCC-PHAT,计算公式如下所示:
其中Ri,j(τ)表示第i个和第j个麦克风之间的广义互相关系数,Yi(ω)表示第i个麦克风接收到信号的频谱,(·)*表示共轭操作;
步骤22,用梅尔滤波器对Y的能量谱进行滤波得到梅尔谱,做对数运算得到对数梅尔谱:
其中f代表梅尔滤波器索引,Melf(k)代表第f个梅尔滤波器,Ωf代表第f个梅尔滤波器的频率范围。
4.根据权利要求1所述的一种基于深度学习的多语音源计数和定位方法,其特征在于,所述步骤3具体如下:
将提取的特征输入到深度神经网络进行训练。输入特征GCC-PHAT和特征LogMel先分别经过各自的卷积神经网络模块,将经过卷积神经网络模块后的特征拼接起来成为新特征再输入到门控循环单元GRU,最后分为两路输出。一路输出通过全连接层FC1和激活函数SoftMax后得到声源个数估计的预测值其中全连接层的神经元个数为N1;另一路输出通过全连接层FC2和激活函数Sigmoid后得到DOA预测值其中全连接层的神经元个数为N2。
声源个数估计问题作为多分类模型求解,每个个数取值作为一个类别,采用交叉熵作为损失函数,计算公式如下:
DOA估计问题作为回归模型求解,使用高斯函数设计DOA标签,计算公式如下:
DOA估计问题采用均方误差作为损失函数,计算公式如下:
声源个数估计和DOA估计以多任务学习模型的方式进行训练,整个深度神经网络模型的损失函数计算公式如下:
J=αJ1+J2
其中α是一个常量系数,范围大小0<α≤1。在最小化损失函数的准则下进行迭代训练,最终得到训练好的网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110379637.6A CN113111765B (zh) | 2021-04-08 | 2021-04-08 | 一种基于深度学习的多语音源计数和定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110379637.6A CN113111765B (zh) | 2021-04-08 | 2021-04-08 | 一种基于深度学习的多语音源计数和定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111765A true CN113111765A (zh) | 2021-07-13 |
CN113111765B CN113111765B (zh) | 2023-04-18 |
Family
ID=76715106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110379637.6A Active CN113111765B (zh) | 2021-04-08 | 2021-04-08 | 一种基于深度学习的多语音源计数和定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111765B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113835065A (zh) * | 2021-09-01 | 2021-12-24 | 深圳壹秘科技有限公司 | 基于深度学习的声源方向确定方法、装置、设备及介质 |
CN114265009A (zh) * | 2021-11-05 | 2022-04-01 | 珠海慧联科技有限公司 | 基于深度学习的音频检测和定位方法、系统及智能终端 |
CN114994608A (zh) * | 2022-04-21 | 2022-09-02 | 西北工业大学深圳研究院 | 基于深度学习的多设备自组织麦克风阵列声源定位方法 |
CN117826081A (zh) * | 2023-12-27 | 2024-04-05 | 中煤科工开采研究院有限公司 | 一种矿井下的声源定位系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109427328A (zh) * | 2017-08-28 | 2019-03-05 | 中国科学院声学研究所 | 一种基于滤波网络声学模型的多通道语音识别方法 |
CN111239687A (zh) * | 2020-01-17 | 2020-06-05 | 浙江理工大学 | 一种基于深度神经网络的声源定位方法及系统 |
-
2021
- 2021-04-08 CN CN202110379637.6A patent/CN113111765B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109427328A (zh) * | 2017-08-28 | 2019-03-05 | 中国科学院声学研究所 | 一种基于滤波网络声学模型的多通道语音识别方法 |
CN111239687A (zh) * | 2020-01-17 | 2020-06-05 | 浙江理工大学 | 一种基于深度神经网络的声源定位方法及系统 |
Non-Patent Citations (1)
Title |
---|
章宇栋;黄惠祥;童峰;: "面向多声源的压缩感知麦克风阵列的波达方向估计" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113835065A (zh) * | 2021-09-01 | 2021-12-24 | 深圳壹秘科技有限公司 | 基于深度学习的声源方向确定方法、装置、设备及介质 |
CN113835065B (zh) * | 2021-09-01 | 2024-05-17 | 深圳壹秘科技有限公司 | 基于深度学习的声源方向确定方法、装置、设备及介质 |
CN114265009A (zh) * | 2021-11-05 | 2022-04-01 | 珠海慧联科技有限公司 | 基于深度学习的音频检测和定位方法、系统及智能终端 |
CN114994608A (zh) * | 2022-04-21 | 2022-09-02 | 西北工业大学深圳研究院 | 基于深度学习的多设备自组织麦克风阵列声源定位方法 |
CN114994608B (zh) * | 2022-04-21 | 2024-05-14 | 西北工业大学深圳研究院 | 基于深度学习的多设备自组织麦克风阵列声源定位方法 |
CN117826081A (zh) * | 2023-12-27 | 2024-04-05 | 中煤科工开采研究院有限公司 | 一种矿井下的声源定位系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113111765B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113111765B (zh) | 一种基于深度学习的多语音源计数和定位方法 | |
CN107703486B (zh) | 一种基于卷积神经网络cnn的声源定位方法 | |
Chakrabarty et al. | Broadband DOA estimation using convolutional neural networks trained with noise signals | |
CN109490822B (zh) | 基于ResNet的语音DOA估计方法 | |
Salvati et al. | Exploiting CNNs for improving acoustic source localization in noisy and reverberant conditions | |
CN112904279B (zh) | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 | |
CN110068795A (zh) | 一种基于卷积神经网络的室内麦克风阵列声源定位方法 | |
CN111239687B (zh) | 一种基于深度神经网络的声源定位方法及系统 | |
CN112151059A (zh) | 面向麦克风阵列的通道注意力加权的语音增强方法 | |
Morito et al. | Partially Shared Deep Neural Network in sound source separation and identification using a UAV-embedded microphone array | |
CN110544490B (zh) | 一种基于高斯混合模型和空间功率谱特征的声源定位方法 | |
CN112180318B (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
Aroudi et al. | Dbnet: Doa-driven beamforming network for end-to-end reverberant sound source separation | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN111443328B (zh) | 基于深度学习的声音事件检测与定位方法 | |
Salvati et al. | Time Delay Estimation for Speaker Localization Using CNN-Based Parametrized GCC-PHAT Features. | |
Kwak et al. | Convolutional neural network trained with synthetic pseudo-images for detecting an acoustic source | |
Salvati et al. | Two-microphone end-to-end speaker joint identification and localization via convolutional neural networks | |
Salvati et al. | End-to-End Speaker Identification in Noisy and Reverberant Environments Using Raw Waveform Convolutional Neural Networks. | |
Ding et al. | Microphone array acoustic source localization system based on deep learning | |
CN116227553A (zh) | 基于卷积神经网络的声源定位的方法及系统 | |
CN110838303A (zh) | 一种利用传声器阵列的语音声源定位方法 | |
CN115713943A (zh) | 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 | |
Chen et al. | Multi-channel end-to-end neural network for speech enhancement, source localization, and voice activity detection | |
Tan et al. | A dilated inception convolutional neural network for gridless DOA estimation under low SNR scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |