CN112151059A - 面向麦克风阵列的通道注意力加权的语音增强方法 - Google Patents
面向麦克风阵列的通道注意力加权的语音增强方法 Download PDFInfo
- Publication number
- CN112151059A CN112151059A CN202011028613.8A CN202011028613A CN112151059A CN 112151059 A CN112151059 A CN 112151059A CN 202011028613 A CN202011028613 A CN 202011028613A CN 112151059 A CN112151059 A CN 112151059A
- Authority
- CN
- China
- Prior art keywords
- channel
- speech
- speech enhancement
- enhancement model
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001228 spectrum Methods 0.000 claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000005457 optimization Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种面向麦克风阵列的通道注意力加权的语音增强方法,方法包括:从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号;构建多通道语音增强模型;将麦克风阵每路带噪语音的短时傅里叶变换频谱作为多通道语音增强模型的输入特征,对多通道语音增强模型进行预训练;将麦克风阵列采集的多路含噪语音输入到多通道语音增强模型,并用该多通道语音增强模型实现麦克风阵列语音增强。本发明采用U‑NET网络对语音频谱特征进行处理,参数量少,计算复杂度较低,并在此基础上对通道维度采用注意力机制加权操作,对于每一层编码器和解码器都在通道维度进行注意力加权,在深层结构模拟波束形成对特征进行加权,提高语音增强的性能。
Description
技术领域
本发明涉及多通道语音增强技术领域,具体涉及一种面向麦克风阵列的通道注意力加权的语音增强方法。
背景技术
语音是现代通信的重要载体,语音增强的目的是利用信号处理的技术改善受到噪声污染的语音可懂度与质量,其在语音信号处理中有着重要的应用,因而近些年,语音增强技术也受到了广泛的关注。现实应用中录制的语音信号总是会受到各种干扰与污染,如:各种类型的噪声、混响、回声等。这些干扰会显著降低语音的可懂度,从而影响人类的听感以及语音识别系统的准确性。因此,有效的语音增强技术对于语音信号处理的发展是至关重要的。
单通道语音增强算法实现较为简单,但也存在一定缺点,例如,基于谱减法的语音增强方法会带来音乐噪声,且在语音质量和可懂度之间的矛盾在目前还没有得到较好的解决。而麦克风阵列技术的应用不仅可以得到语音的时域和频域信息,还可以得到语音信号的空域信息,合理利用它们可以在提高输出语音信号的信噪比并减少语音信号的失真。
传统的多通道语音增强方法包括波束形成,其中包含固定波束形成和自适应波束形成。固定波束形成算法首先计算对各个麦克风上进行时延补偿以对齐麦克风信号,然后将各个麦克风接收到的信号进行加权求和。由于各通道的权值是为固定的常数,其对环境的适应性不强。相比于固定波束形成,自适应波束形成能够根据环境的变化来自适应的调整各个通道语音的权值。Frost在1972首次提出基于线性约束最小方差(LinearlyConstrained Minimum Variance,LCMV)的自适应波束形成算法。LCMV可以直接在噪声语音或者干扰语音方向直接陷零以消除这些与期望信号无关的信号。
近年来,随着深度学习的发展,人们逐渐将这一技术应用到语音增强当中。通过神经网络的增强语音通常能够具有较好的语音清晰度和可懂度。基于深度学习的多通道语音增强技术已经取得了一些成果,但仍有很多问题需要解决。
在公开号为CN111524519A的发明专利中公开了采用高级特征融合的端到端多通道语音识别方法,采用传统的注意力机制,在编码器与解码器之间对特征进行注意力加权;编码器与解码器采用双向长短时记忆网络,而本发明对于每一层编码器和解码器都在通道维度进行注意力加权,在深层结构模拟波束形成对特征进行加权,本发明基于卷积神经网络的U-NET结构,参数量更少,计算复杂度较低,并且在解码过程中通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠,有效地融合浅层与深层的信息。在注意力机制当中,本发明采用多头注意力机制,在时间维度上对特征进行划分处理,而参考发明本文在计算注意力分布时采用的是键值对模式,而参考发明采用普通模式;在计算得分函数时,本发明采用的是缩放点积模型,而参考发明采用加性模型。
发明内容
发明目的:针对现有技术中多麦克风直接采用波束形成造成语音增强质量较低的缺陷,本发明公开了一种面向麦克风阵列的通道注意力加权的语音增强方法,采用U-NET网络对语音频谱特征进行处理,参数量少,计算复杂度较低,并且在解码过程中通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠,有效地融合浅层与深层的信息,并在此基础上对通道维度采用注意力机制加权操作,对于每一层编码器和解码器都在通道维度进行注意力加权,在深层结构模拟波束形成对特征进行加权,提高语音增强的性能。
技术方案:为实现上述技术目的,本发明采用以下技术方案。
一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,包括以下步骤:
S1:声音采样:通过两个扬声器分别播放纯净语音和噪声,从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号;
S2:构建多通道语音增强模型:首先构建具有编码器-解码器结构的U-NET卷积神经模型作为基线语音增强模型,在基线语音增强模型的基础上结合多通道注意力机制,通过多通道注意力机制对基线语音增强模型中的通道维度信息进行加权,构建多通道语音增强模型;
S3:多通道语音增强模型预训练:计算步骤S1中麦克风阵每路带噪语音的短时傅里叶变换频谱,作为多通道语音增强模型的输入特征;计算扬声器中播放的纯净语音的频谱,然后结合每路带噪语音的短时傅里叶变换频谱计算纯净语音的压缩复值理想比率掩模并通过多通道语音增强模型生成每路带噪语音估计的压缩复值理想比率掩模其中,j为麦克风标号;通过联合优化估计每路麦克风的和的均方误差MSE以及加权信号/失真比损失Weighted-SDR Loss来训练多通道语音增强模型;
S4:采用多通道语音增强模型进行麦克风阵语音增强:将麦克风阵列采集的多路含噪语音输入到多通道语音增强模型,并用该多通道语音增强模型实现麦克风阵列语音增强。
优选地,所述步骤S2中基线语音增强模型的具体结构为:基线语音增强模型为包括4层编码器和4层解码器的卷积神经网络,每层编码器以及每层解码器之间包含一层通道注意力层,基线语音增强模型输入信号,即麦克风阵中每组语音时域信号,其维度为F×T×2C,其中F为频率维度,T为时间维度,C为通道维度,即麦克风总个数。
优选地,所述每层编码器包含依次连接的卷积层、批归一化层和非线性层,编码器通过下采样扩展通道维度,所述每层编码器输出估计的特征;所述每层解码器包含依次连接的卷积层、批归一化层和非线性层,解码器通过上采样收缩通道维度,生成与输入维度相同的每路带噪语音的估计的压缩复值理想比率掩模编码器与解码器之间具有相同的卷积层数,编码器与解码器对应层之间通过跳跃连接将输出与输入在通道维度上进行堆叠。
优选地,所述步骤S2中构建多通道语音增强模型的具体过程为:
S21、将多通道注意力机制引入基线语音增强模型中:将输入的短时傅里叶变换频谱在频率维度划分为m个子空间,随机初始化若干组1×1卷积核,并与输入的带噪语音x∈RF×T×2C做卷积,得到键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x),其中,K(x)∈RF×d×2C,Q(x)∈RF×d×2C,V(x)∈RF×T×2C,d是1X1卷积的通道数;
S22、计算注意力权值矩阵:所述键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x)均为可训练的矩阵,通过计算查询矩阵Q(x)和键值矩阵K(x)的相似度,来对所有的数值矩阵V(x)进行加权,通过K(x)和Q(x)计算注意力权值矩阵Ai∈RF×2C×2C,并与V(x)相乘,得到通道注意力层的输出;其中,注意力权值矩阵Ai∈RF×2C×2C的计算公式为:
其中,i代表不同的子空间,通道注意力层的输出为缩放点积模型;
S23、通过多通道注意力机制对基线语音增强模型中的通道维度信息进行加权,构建多通道语音增强模型:注意力层输出在通道维度上与输入进行级联,则最终输出维度为F×T×4C,计算公式为:
O(K(x),Q(x),V(x))=Concat(A1,...,Am)V(x)
其中,O(K(x),Q(x),V(x))为通道注意力层的输出。
其中,K取10,β取0.1,X为带噪语音的短时傅里叶变换频谱,S为纯净语音的频谱,下标r表示实部,i表示虚部。
优选地,所述步骤S3中联合优化的损失的计算公式为:
其中,j为麦克风标号,C为麦克风总个数;MSE为均方误差,losswSDR为加权信号/失真比的损失,Sclean表示纯净语音的时域语音信号,表示多通道语音增强模型输出的估计的第j路时域语音信号,xj表示从麦克风阵列中获取的带噪的第j路时域语音信号,α代表加权系数,lossSDR代表信号/失真比的损失。
有益效果:
1、本发明采用U-NET网络对语音频谱特征进行处理,参数量少,计算复杂度较低,并且在解码过程中通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠,有效地融合浅层与深层的信息,并在此基础上对通道维度采用注意力机制加权操作,对于每一层编码器和解码器都在通道维度进行注意力加权,在深层结构模拟波束形成对特征进行加权,提高语音增强的性能;
2、本发明采用采用多头注意力机制,在时间维度上对特征进行划分处理,在深层结构上实现波束形成,提高语音增强的性能;
3、本发明采用复值理想掩蔽和加权信号/失真比损失作为模型的学习目标进行联合优化,可学习到只包含噪声数据的信息,并且对不同尺度的语音幅度敏感,进一步提高语音增强的性能;
4、本发明在计算注意力分布时采用的是键值对模式,在计算得分函数即数值矩阵V(x)时,本发明采用的是缩放点积模型,巧妙新颖,具有良好的应用前景。
附图说明
图1是本发明的方法流程图;
图2是本发明的具体流程示意图;
图3是本发明中编码器和解码器的结构组成示意图。
具体实施方式
以下结合附图和实施例对本发明做进一步的说明和解释。
如附图1和附图2所示,本发明的面向麦克风阵列的通道注意力加权的语音增强方法,包括以下步骤:
步骤(A),声音采样:通过两个扬声器分别播放纯净语音和噪声,从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号;
步骤(B),构建具有编码器-解码器结构的U-NET卷积神经模型作为基线语音增强模型;
步骤(C),通过多通道注意力机制对U-NET模型中的通道维度信息进行加权操作;
步骤(D),训练多通道语音增强模型,并用该网络实现麦克风阵列语音增强。将麦克风阵列语音输入到多通道语音增强模型中,并用该多通道语音增强模型实现麦克风阵列语音增强。
在步骤(B)中,构建基于编码器-解码器结构的U-NET卷积神经模型作为基线语音增强模型,所述基线模型为4层编码器和4层解码器卷积神经网络结构,每层编码器以及每层解码器之间包含一层通道注意力层。网络输入维度为F×T×2C(包含实部和虚部),其中F为频率维度,T为时间维度,C为麦克风总个数(通道维度)。
本发明采用U-NET网络对语音频谱特征进行处理,参数量少,计算复杂度较低,并且在解码过程中通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠,有效地融合浅层与深层的信息,并在此基础上对通道维度采用注意力机制加权操作,对于每一层编码器和解码器都在通道维度进行注意力加权,在深层结构模拟波束形成对特征进行加权,提高语音增强的性能。
在一些实施例中,通过计算512点STFT并丢弃最高频1维的数据得到F=256;T为时间维度,选取窗长为512点的hanning窗,重叠长度为128点,取约2s的语音得到T=256;C为麦克风总个数(通道维度),C=4。
如附图3所示,所述每层编码器包含依次连接的卷积层、批归一化层和非线性层,编码器通过下采样扩展通道维度,所述每层编码器输出估计的ccIRM;所述每层解码器包含依次连接的卷积层、批归一化层和非线性层,解码器通过上采样收缩通道维度,生成与输入维度相同的目标掩蔽;编码器与解码器之间具有相同的卷积层数,编码器与解码器对应层之间通过跳跃连接将输出与输入在通道维度上进行堆叠。
在一些实施例中,编码器通过对时间和频率维度下采样提取音频特征,每个编码器包含卷积核大小为3×3的卷积层、批归一化层以及激活函数为LeakyReLU(小于0的部分斜率为0.1)的非线性层,再通过下采样使得时间和频率维度逐层下采样至128、64、32,通道数逐层扩展至64、256、1024;编码器的输出经过一层1×1卷积得到与输入维度相同的每路带噪语音的估计的压缩复值理想比率掩模为了限制估计掩蔽的输出值域,最后一层的激活函数选择Tanh。
解码器通过上采样和与解码器相同的卷积层使得时间和频率维度逐渐恢复,并将通道逐渐收缩,最终生成与输入维度相同的目标掩模,并通过跳跃连接将编码器与解码器对应层之间的输出与输入在通道维度上进行堆叠,有效地融合浅层与深层的信息。
在步骤(C),在基线模型的基础上加入多通道注意力机制,在原有的U-NET结构中间引入对通道信息的加权操作,并将划分为多个子空间进行处理,使网络可以在深层结构中模拟波束形成。通道注意力机制具体如下:
(C1),将多通道注意力机制引入基线语音增强模型中:将输入的短时傅里叶变换频谱在频率维度划分为m个子空间,随机初始化若干组1×1卷积核,在一些实施例中,将输入频谱在频率维度划分为8个子空间,随机初始化3组1×1卷积核。将所有子空间内划分后的输入频谱分别与输入的带噪的时域语音信号x∈RF×T×2C做卷积,得到键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x),其中,K(x)∈RF×d×2C,Q(x)∈RF×d×2C,V(x)∈RF×T×2C,d是1X1卷积的通道数。本发明采用采用多头注意力机制,在频率维度上对特征进行划分处理,在深层结构上实现波束形成,提高语音增强的性能;
(C2),所述键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x)均为可训练的矩阵,通过计算查询矩阵Q(x)和键值矩阵K(x)的相似度,来对所有的数值矩阵V(x)进行加权,通过K(x)和Q(x)计算注意力权值矩阵Ai∈RF×2C×2C,并与V(x)相乘,得到通道注意力层的输出;其中,注意力权值矩阵Ai∈RF×2C×2C的计算公式为:
其中,i代表不同的子空间。在一些实施例中,m的值为8。通道注意力层的输出Ai为缩放点积模型。
(C3)注意力层输出在通道维度上与输入进行级联,则最终输出维度为F×T×4C,表示为
O(K(x),Q(x),V(x))=Concat(A1,...,Am)V(x) (2)
其中,O(K(x),Q(x),V(x))为通道注意力层的输出。本发明采用复值理想掩蔽和加权信号/失真比损失作为模型的学习目标进行联合优化,可学习到只包含噪声数据的信息,并且对不同尺度的语音幅度敏感,进一步提高语音增强的性能。本发明在计算注意力分布时采用的是键值对模式,在计算得分函数时,本发明采用的是缩放点积模型,巧妙新颖,具有良好的应用前景。
步骤(D)中,在训练多通道语音增强模型时,分别计算麦克风阵每路带噪语音的短时傅里叶变换频谱,作为多通道语音增强模型的输入特征;计算扬声器中播放的纯净语音的频谱,然后结合每路带噪语音频谱计算纯净语音的压缩复值理想比率掩模并通过模型估计每路带噪语音的压缩复制理想比率掩模c为麦克风标号;通过联合优化估计每路麦克风的和的均方误差MSE以及加权信号/失真比损失Weighted-SDR Loss来训练多通道语音增强模型。
其中,K取10,β取0.1,X为带噪语音的短时傅里叶变换频谱,S为纯净语音的频谱,下标r表示实部,i表示虚部。
在计算损失时,采用估计的ccIRM的均方误差(MSE)和加权信号/失真比(Weighted-SDR Loss:wSDR)的损失进行联合优化。
其中,j为麦克风标号,C为麦克风总个数;MSE为均方误差,losswSDR为加权信号/失真比的损失,Sclean表示纯净语音的时域语音信号,表示估计的第j路时域语音信号,xj表示带噪的第j路时域语音信号,α代表加权系数,lossSDR代表信号/失真比的损失。
为了充分比较算法的性能,实验设置在VOiCES(The Voices Obscured inComplex Environmental Settings)数据集上进行。训练数据集总共包含200个的说话人,选取其中rooml中相同麦克风类型的4个麦克风组成的阵列。房间的长、宽、高分别为3.7m、2.7m、2.7m。叠加的噪声类型包括音乐、电视、潺潺语音声和只包含房间本身的混响干扰。目标纯净语音均为单通道无混响语音。测试集包含100个不同的说话人在相同的环境下录制。测试指标包括语音质量的知觉评价(PESQ)和尺度不变的信噪比(SI-SNR)。实验对比了通道1带噪语音、Beamformit!方法、不采用通道注意力机制的基线模型(UNET-CIRM)和本文采用的基于通道注意力机制的模型(CA-UNET-CIRM)的性能。测试集对应的性能指标如表1所示。
表1
从上述表格中可以看出,相比原始带噪语音以及传统麦克风阵列语音增强方法,本发明所提出的方法在四种不同的噪声环境下,两项指标上均有明显提升,并且对于在所述的基线模型上增加通道注意力机制后,性能进一步提升,说明本发明所提出的模型可以有效去除背景噪声以及室内混响。
综上所述,本发明的面向麦克风阵列的通道注意力加权的语音增强方法,采用U-NET网络对语音频谱特征进行处理,并在此基础上对通道维度采用注意力机制加权操作,在深层结构上实现波束形成。还采用复值理想掩蔽作为模型的学习目标,更好地学习语音的实部和虚部信息,提高语音增强的性能,方法巧妙新颖,具有良好的应用前景。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,包括以下步骤:
S1:声音采样:通过两个扬声器分别播放纯净语音和噪声,从麦克风阵列中的每个麦克风分别采集一路带噪的语音时域信号;
S2:构建多通道语音增强模型:首先构建具有编码器-解码器结构的U-NET卷积神经模型作为基线语音增强模型,在基线语音增强模型的基础上结合多通道注意力机制,通过多通道注意力机制对基线语音增强模型中的通道维度信息进行加权,构建多通道语音增强模型;
S3:多通道语音增强模型预训练:计算步骤S1中麦克风阵每路带噪语音的短时傅里叶变换频谱,作为多通道语音增强模型的输入特征;计算扬声器中播放的纯净语音的频谱,然后结合每路带噪语音的短时傅里叶变换频谱计算纯净语音的压缩复值理想比率掩模并通过多通道语音增强模型生成每路带噪语音的估计的压缩复值理想比率掩模其中,j为麦克风标号;通过联合优化估计每路麦克风的和的均方误差MSE以及加权信号/失真比损失Weighted-SDR Loss来训练多通道语音增强模型;
S4:采用多通道语音增强模型进行麦克风阵语音增强:将麦克风阵列采集的多路含噪语音输入到多通道语音增强模型,并用该多通道语音增强模型实现麦克风阵列语音增强。
2.根据权利要求1所述的一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,所述步骤S2中基线语音增强模型的具体结构为:基线语音增强模型为包括4层编码器和4层解码器的卷积神经网络,每层编码器以及每层解码器之间包含一层通道注意力层,基线语音增强模型输入信号,即麦克风阵中每组语音时域信号,其维度为F×T×2C,其中F为频率维度,T为时间维度,C为通道维度,即麦克风总个数。
4.根据权利要求1所述的一种面向麦克风阵列的通道注意力加权的语音增强方法,其特征在于,所述步骤S2中构建多通道语音增强模型的具体过程为:
S21、将多通道注意力机制引入基线语音增强模型中:将输入的短时傅里叶变换频谱在频率维度划分为m个子空间,随机初始化若干组1×1卷积核,并与输入的带噪语音x∈RF ×T×2C做卷积,得到键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x),其中,K(x)∈RF×d×2C,Q(x)∈RF×d×2C,V(x)∈RF×T×2C,d是1X1卷积的通道数;
S22、计算注意力权值矩阵:所述键值矩阵K(x)、查询矩阵Q(x)和数值矩阵V(x)均为可训练的矩阵,通过计算查询矩阵Q(x)和键值矩阵K(x)的相似度,来对所有的数值矩阵V(x)进行加权,通过K(x)和Q(x)计算注意力权值矩阵Ai∈RF×2C×2C,并与V(x)相乘,得到通道注意力层的输出;其中,注意力权值矩阵Ai∈RF×2C×2C的计算公式为:
其中,i代表不同的子空间,通道注意力层的输出为缩放点积模型;
S23、通过多通道注意力机制对基线语音增强模型中的通道维度信息进行加权,构建多通道语音增强模型:注意力层输出在通道维度上与输入进行级联,则最终输出维度为F×T×4C,计算公式为:
O(K(x),Q(x),V(x))=Concat(A1,...,Am)V(x)
其中,O(K(x),Q(x),V(x))为通道注意力层的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011028613.8A CN112151059A (zh) | 2020-09-25 | 2020-09-25 | 面向麦克风阵列的通道注意力加权的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011028613.8A CN112151059A (zh) | 2020-09-25 | 2020-09-25 | 面向麦克风阵列的通道注意力加权的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112151059A true CN112151059A (zh) | 2020-12-29 |
Family
ID=73897485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011028613.8A Pending CN112151059A (zh) | 2020-09-25 | 2020-09-25 | 面向麦克风阵列的通道注意力加权的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112151059A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614056A (zh) * | 2020-12-31 | 2021-04-06 | 中国科学院生物物理研究所 | 图像超分辨率处理方法 |
CN112951263A (zh) * | 2021-03-17 | 2021-06-11 | 云知声智能科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
CN113241088A (zh) * | 2021-07-09 | 2021-08-10 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法及装置、语音增强方法及装置 |
CN113421581A (zh) * | 2021-08-24 | 2021-09-21 | 广州易方信息科技股份有限公司 | 一种跳跃网络的实时语音降噪方法 |
CN113611323A (zh) * | 2021-05-07 | 2021-11-05 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
CN114283830A (zh) * | 2021-12-17 | 2022-04-05 | 南京工程学院 | 基于深度学习网络的麦克风信号回声消除模型构建方法 |
CN114301569A (zh) * | 2021-12-30 | 2022-04-08 | 浙江大学 | 一种基于电子设备陶瓷电容发声的麦克风语音注入方法 |
CN114550743A (zh) * | 2022-02-23 | 2022-05-27 | 平安科技(深圳)有限公司 | 一种语音增强方法、装置、计算机设备及存储介质 |
WO2022213825A1 (zh) * | 2021-04-06 | 2022-10-13 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
CN115295002A (zh) * | 2022-07-26 | 2022-11-04 | 中国科学技术大学 | 一种基于交互性时频注意力机制的单通道语音增强方法 |
WO2023044961A1 (zh) * | 2021-09-23 | 2023-03-30 | 武汉大学 | 基于自注意力变换网络的多特征融合回声消除方法及系统 |
CN115885285A (zh) * | 2021-05-24 | 2023-03-31 | 维萨国际服务协会 | 使用卷积傅里叶网络分析多变量时间序列的系统、方法和计算机程序产品 |
CN116092501A (zh) * | 2023-03-14 | 2023-05-09 | 澳克多普有限公司 | 语音增强方法、语音识别方法、说话人识别方法和系统 |
CN117935838A (zh) * | 2024-03-25 | 2024-04-26 | 深圳市声扬科技有限公司 | 音频获取方法、装置、电子设备及存储介质 |
CN114550743B (zh) * | 2022-02-23 | 2024-05-28 | 平安科技(深圳)有限公司 | 一种语音增强方法、装置、计算机设备及存储介质 |
-
2020
- 2020-09-25 CN CN202011028613.8A patent/CN112151059A/zh active Pending
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614056B (zh) * | 2020-12-31 | 2023-09-05 | 北京纳析光电科技有限公司 | 图像超分辨率处理方法 |
CN112614056A (zh) * | 2020-12-31 | 2021-04-06 | 中国科学院生物物理研究所 | 图像超分辨率处理方法 |
CN112951263A (zh) * | 2021-03-17 | 2021-06-11 | 云知声智能科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
CN112951263B (zh) * | 2021-03-17 | 2022-08-02 | 云知声智能科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
WO2022213825A1 (zh) * | 2021-04-06 | 2022-10-13 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
CN113611323B (zh) * | 2021-05-07 | 2024-02-20 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
CN113611323A (zh) * | 2021-05-07 | 2021-11-05 | 北京至芯开源科技有限责任公司 | 一种基于双通道卷积注意力网络的语音增强方法及系统 |
US11922290B2 (en) | 2021-05-24 | 2024-03-05 | Visa International Service Association | System, method, and computer program product for analyzing multivariate time series using a convolutional Fourier network |
CN115885285A (zh) * | 2021-05-24 | 2023-03-31 | 维萨国际服务协会 | 使用卷积傅里叶网络分析多变量时间序列的系统、方法和计算机程序产品 |
CN113241088B (zh) * | 2021-07-09 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法及装置、语音增强方法及装置 |
CN113241088A (zh) * | 2021-07-09 | 2021-08-10 | 北京达佳互联信息技术有限公司 | 语音增强模型的训练方法及装置、语音增强方法及装置 |
CN113421581B (zh) * | 2021-08-24 | 2021-11-02 | 广州易方信息科技股份有限公司 | 一种跳跃网络的实时语音降噪方法 |
CN113421581A (zh) * | 2021-08-24 | 2021-09-21 | 广州易方信息科技股份有限公司 | 一种跳跃网络的实时语音降噪方法 |
WO2023044961A1 (zh) * | 2021-09-23 | 2023-03-30 | 武汉大学 | 基于自注意力变换网络的多特征融合回声消除方法及系统 |
CN114283830A (zh) * | 2021-12-17 | 2022-04-05 | 南京工程学院 | 基于深度学习网络的麦克风信号回声消除模型构建方法 |
CN114301569B (zh) * | 2021-12-30 | 2024-02-20 | 浙江大学 | 一种基于电子设备陶瓷电容发声的麦克风语音注入方法 |
CN114301569A (zh) * | 2021-12-30 | 2022-04-08 | 浙江大学 | 一种基于电子设备陶瓷电容发声的麦克风语音注入方法 |
CN114550743A (zh) * | 2022-02-23 | 2022-05-27 | 平安科技(深圳)有限公司 | 一种语音增强方法、装置、计算机设备及存储介质 |
CN114550743B (zh) * | 2022-02-23 | 2024-05-28 | 平安科技(深圳)有限公司 | 一种语音增强方法、装置、计算机设备及存储介质 |
CN115295002A (zh) * | 2022-07-26 | 2022-11-04 | 中国科学技术大学 | 一种基于交互性时频注意力机制的单通道语音增强方法 |
CN115295002B (zh) * | 2022-07-26 | 2024-05-14 | 中国科学技术大学 | 一种基于交互性时频注意力机制的单通道语音增强方法 |
CN116092501B (zh) * | 2023-03-14 | 2023-07-25 | 深圳市玮欧科技有限公司 | 语音增强方法、语音识别方法、说话人识别方法和系统 |
CN116092501A (zh) * | 2023-03-14 | 2023-05-09 | 澳克多普有限公司 | 语音增强方法、语音识别方法、说话人识别方法和系统 |
CN117935838A (zh) * | 2024-03-25 | 2024-04-26 | 深圳市声扬科技有限公司 | 音频获取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112151059A (zh) | 面向麦克风阵列的通道注意力加权的语音增强方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN110085245B (zh) | 一种基于声学特征转换的语音清晰度增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN107452389A (zh) | 一种通用的单声道实时降噪方法 | |
Koldovsky et al. | Time-domain blind separation of audio sources on the basis of a complete ICA decomposition of an observation space | |
CN110600050B (zh) | 基于深度神经网络的麦克风阵列语音增强方法及系统 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
CN110728989B (zh) | 一种基于长短时记忆网络lstm的双耳语音分离方法 | |
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
CN112904279A (zh) | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 | |
Lv et al. | A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation | |
CN112885375A (zh) | 基于听觉滤波器组和卷积神经网络的全局信噪比估计方法 | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
CN114694670A (zh) | 一种基于多任务网络的麦克风阵列语音增强系统及方法 | |
Aroudi et al. | Dbnet: Doa-driven beamforming network for end-to-end reverberant sound source separation | |
CN117373477A (zh) | 基于多通道全卷积时域网络的语音分离方法及设备 | |
CN110970044A (zh) | 一种面向语音识别的语音增强方法 | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
CN112201276B (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
Di Persia et al. | Objective quality evaluation in blind source separation for speech recognition in a real room | |
CN115359804B (zh) | 一种基于麦克风阵列的定向音频拾取方法和系统 | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
CN115713943A (zh) | 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 | |
CN115273884A (zh) | 基于频谱压缩和神经网络的多阶段全频带语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |