CN114339539A - 一种采用麦克风阵列拾音的多通道语音增强方法 - Google Patents
一种采用麦克风阵列拾音的多通道语音增强方法 Download PDFInfo
- Publication number
- CN114339539A CN114339539A CN202111411208.9A CN202111411208A CN114339539A CN 114339539 A CN114339539 A CN 114339539A CN 202111411208 A CN202111411208 A CN 202111411208A CN 114339539 A CN114339539 A CN 114339539A
- Authority
- CN
- China
- Prior art keywords
- channel
- microphone
- result
- voice
- carrying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 230000009467 reduction Effects 0.000 claims abstract description 18
- 238000012935 Averaging Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 38
- 230000004913 activation Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 23
- 230000009466 transformation Effects 0.000 claims description 15
- 238000013461 design Methods 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000037433 frameshift Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000003491 array Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种采用麦克风阵列拾音的多通道语音增强方法,该方法包括利用多个单通道麦克风对语音进行多通道拾音并进行预处理;基于参考麦克风的选择,采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,设计出与参考麦克风对应的滤波器;对其它单通道麦克风进行NCC和MCS两种特征提取,并设计出与其它单通道参考麦克风一一对应的滤波器;将所有的单通道麦克风的增强语音信号进行联合并将进行均值处理,以获得最终的增强语音信号。本发明提供的多通道语音增强方法采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,对室内空间中远近场带噪语音起到很好的降噪效果。
Description
技术领域
本发明涉及语音降噪技术领域,特别涉及一种采用麦克风阵列拾音的多通道语音增强方法。
背景技术
在真实的生产生活场景中,各种复杂的噪声干扰会严重影响人们使用语音设备的通信质量或语音识别系统的识别性能。需要通过语音信号的前端处理提升语音的清晰度和可懂度,以便提升系统性能。一般而言,采用多个麦克风,组成一定形式的阵列结构,进行多通道拾音,除了语音信号的时域特征和频域特征,还能获得比单个麦克风拾音更多的空间特征信息,从而进行更高维度的语音增强算法设计。传统的基于麦克风阵列的语音增强算法大多采用波束形成(Beamforming,BF)方法,通过算法采集信号的空间信息,提高目标方向的语音增益,实现对目标信号的增强,将其他方向的信号都认为是干扰信号。波束形成算法一般分成两个阶段,第一阶段要对各个麦克风接收的信号进行同步处理。选择一个麦克风作为参考麦克风,计算语音信号到每个麦克风的相对时延,通过时延补偿使得各个麦克风通道的信号在时间上同步。第二阶段确定各个麦克风通道的权重。赋予不同通道不同的权重,以便适应问题场景,将每个通道信号加权求和并做平均,得到最终的增强语音。基于信号处理的波束形成算法有几点不足:
1.算法基于一些数学假设和噪声的频谱估计,这些假设和估计只是一定程度上符合场景的特性,使得系统的降噪性能有限;
2.这类方法无法对波束以外的有用语音信号进行增强处理,不能满足全场景拾音的要求;
3.由于真实场景中说话人与麦克风距离不同,说话人的语音信号难以保证特征能量的均匀分布,一句话中,有的段声音大,有的段声音小,非平稳的语音状态,也使得系统语音增强效果不稳定。
发明内容
为了克服现有技术存在的不足,本发明提供了一种采用麦克风阵列拾音的多通道语音增强方法,所述技术方案如下:
本发明提供了一种采用麦克风阵列拾音的多通道语音增强方法,包括以下步骤:
S1、利用多个单通道麦克风对语音进行多通道拾音并进行预处理;
S2、选择其中一个单通道麦克风作为参考麦克风,基于所述参考麦克风的选择,进行归一化处理多通道拾音信号,采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,再通过多头注意力网络设计出与所述参考麦克风对应的滤波器,使用该滤波器对所述参考麦克风的拾音信号进行卷积操作,以获得所述参考麦克风滤波后的增强语音信号;
S3、结合所述参考麦克风滤波后的增强语音信号,对其它单通道麦克风进行NCC和MCS两种特征提取,并通过多头注意力网络设计出与其它单通道参考麦克风一一对应的滤波器,其它单通道麦克风通过对应的滤波器对各自的拾音信号进行卷积操作,以分别获得其它单通道麦克风滤波后的增强语音信号;
S4、将所有的单通道麦克风的增强语音信号进行联合并将进行均值处理,以获得最终的增强语音信号。
进一步地,在步骤S1中,预处理包括以下步骤:
S101、对语音数据前后进行补零;
S102、对补零后的语音数据进行分帧处理,
S103、对分帧后的语音数据添加上下文语音窗口,
进一步地,在步骤S2中,对添加上下文窗口的语音数据进行NCC和MCS两种特征提取并分别进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。
进一步地,将经MCS特征提取并进行平均池化操作的结果进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
进一步地,与所述参考麦克风对应的滤波器的设计包括以下步骤:
S201、所述输入数据输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S202、将步骤S201的结果经过带有Prelu激活函数的一维卷积处理;
S203、将步骤S202的结果先进行形状变换,再经过BiLSTM和Prelu激活函数处理;
S204、将步骤S203的结果输入到Linear线性层,并进行形状变换;
S205、使用跳跃连接将步骤S201的结果与步骤S204的结果进行相加,并进行LayerNorm正则化操作;
S206、对步骤S205的结果进行形状变换,然后对变换后的结果和步骤S201中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S207、将步骤S206的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成所述参考麦克风对应的滤波器。
进一步地,在步骤S3中,对添加上下文窗口的语音数据结合所述参考麦克风滤波后的增强语音信号进行NCC特征提取,对其它单通道麦克风对应的分帧语音数据进行MCS特征提取并进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。
进一步地,将其它单通道麦克风对应的添加上下文窗口的语音数据进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
进一步地,与其它单通道麦克风对应的滤波器的设计包括以下步骤:
S301、所述输入数据进行形状变换后输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S302、将步骤S301的结果进行形状变换后,再经过带有Prelu激活函数的一维卷积处理;
S303、将步骤S302的结果进行形状变换后,再经过BiLSTM和Prelu激活函数处理;
S304、将步骤S303的结果输入到Linear线性层处理;
S305、使用跳跃连接将步骤S301的结果与步骤S304的结果进行相加,并进行LayerNorm正则化操作;
S306、对步骤S305的结果进行形状变换,然后对变换后的结果和步骤S301中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S307、将步骤S306的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成其它单通道麦克风对应的滤波器。
进一步地,利用步骤S2-S4构建多通道语音增强模型,对所述多通道语音增强模型进行模型训练,步骤S1之前需要生成训练数据作为所述单通道麦克风拾音的对象,再执行步骤S1-S4,其中,生成训练数据包括以下步骤:
P1、从采样率相同的纯净语音数据集和噪声数据集各随机选取一个音频;
P2、将选取的纯净语音和噪声音频切分为长度相同的音频文件;
P3、根据降噪场景的噪声强度设置信噪比;
P4、设置降噪空间尺寸和单通道麦克风、说话人、噪声源位置,并使用gpuRIR工具包,模拟声音回响。
进一步地,对所述多通道语音增强模型进行模型训练时使用比例不变信噪比作为损失函数进行模型调参计算,以得到优化后的多通道语音增强模型。
本发明提供的技术方案带来的有益效果如下:
(1)对室内空间中远近场带噪语音起到很好的降噪效果;
(2)解决了接收语音信号能量分布不均的问题,提高了接收信号的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多通道语音增强方法中第一阶段语音增强示意图;
图2是本发明实施例提供的多通道语音增强方法的ACG-Net模块结构示意图;
图3是本发明实施例提供的多通道语音增强方法中第二阶段语音增强示意图;
图4是本发明实施例提供的多通道语音增强方法中麦克风分布结构示意图;
图5是本发明实施例提供的多通道语音增强方法中MCS特征提取流程示意图;
图6是本发明实施例提供的多通道语音增强方法中模型训练和推理流程示意图;
图7是本发明实施例提供的多通道语音增强方法中不同麦克风降噪前的语音波形图;
图8是本发明实施例提供的多通道语音增强方法中不同麦克风降噪后的语音波形图;
图9是本发明实施例提供的多通道语音增强方法中不同麦克风降噪前的频谱图;
图10是本发明实施例提供的多通道语音增强方法中不同麦克风降噪后的频谱图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,更清楚地了解本发明的目的、技术方案及其优点,以下结合具体实施例并参照附图对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。除此,本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明的一个实施例中,提供了一种采用麦克风阵列拾音的多通道语音增强方法,包括以下步骤:
S1、利用多个单通道麦克风对语音进行多通道拾音并进行预处理;
其中,预处理包括以下步骤:
S101、对语音数据前后进行补零;
S102、对补零后的语音数据进行分帧处理,
S103、对分帧后的语音数据添加上下文语音窗口,
S2、参见图1,选择其中一个单通道麦克风作为参考麦克风,基于所述参考麦克风的选择,进行归一化处理多通道拾音信号,采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,再通过多头注意力网络设计出与所述参考麦克风对应的滤波器,使用该滤波器对所述参考麦克风的拾音信号进行卷积操作,以获得所述参考麦克风滤波后的增强语音信号,作为语音增强的第一阶段;
具体地,对添加上下文窗口的语音数据进行NCC和MCS两种特征提取并分别进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。将经MCS特征提取并进行平均池化操作的结果进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
其中,参见图2,与所述参考麦克风对应的滤波器的设计包括以下步骤:
S201、所述输入数据输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S202、将步骤S201的结果经过带有Prelu激活函数的一维卷积处理;
S203、将步骤S202的结果先进行形状变换,再经过BiLSTM和Prelu激活函数处理;
S204、将步骤S203的结果输入到Linear线性层,并进行形状变换;
S205、使用跳跃连接将步骤S201的结果与步骤S204的结果进行相加,并进行LayerNorm正则化操作;
S206、对步骤S205的结果进行形状变换,然后对变换后的结果和步骤S201中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S207、将步骤S206的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成所述参考麦克风对应的滤波器。
S3、参见图3,结合所述参考麦克风滤波后的增强语音信号,对其它单通道麦克风进行NCC和MCS两种特征提取,并通过多头注意力网络设计出与其它单通道参考麦克风一一对应的滤波器,其它单通道麦克风通过对应的滤波器对各自的拾音信号进行卷积操作,以分别获得其它单通道麦克风滤波后的增强语音信号,作为语音增强的第二阶段;
具体地,对添加上下文窗口的语音数据结合所述参考麦克风滤波后的增强语音信号进行NCC特征提取,对其它单通道麦克风对应的分帧语音数据进行MCS特征提取并进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。将其它单通道麦克风对应的添加上下文窗口的语音数据进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
其中,与其它单通道麦克风对应的滤波器的设计包括以下步骤:
S301、所述输入数据进行形状变换后输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S302、将步骤S301的结果进行形状变换后,再经过带有Prelu激活函数的一维卷积处理;
S303、将步骤S302的结果进行形状变换后,再经过BiLSTM和Prelu激活函数处理;
S304、将步骤S303的结果输入到Linear线性层处理;
S305、使用跳跃连接将步骤S301的结果与步骤S304的结果进行相加,并进行LayerNorm正则化操作;
S306、对步骤S305的结果进行形状变换,然后对变换后的结果和步骤S301中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S307、将步骤S306的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成其它单通道麦克风对应的滤波器。
S4、将所有的单通道麦克风的增强语音信号进行联合并将进行均值处理,以获得最终的增强语音信号。
利用步骤S2-S4构建多通道语音增强模型,对所述多通道语音增强模型进行模型训练,步骤S1之前需要生成训练数据作为所述单通道麦克风拾音的对象,再执行步骤S1-S4,对所述多通道语音增强模型进行模型训练时使用比例不变信噪比作为损失函数进行模型调参计算,以得到优化后的多通道语音增强模型。
其中,生成训练数据包括以下步骤:
P1、从采样率相同的纯净语音数据集和噪声数据集各随机选取一个音频;
P2、将选取的纯净语音和噪声音频切分为长度相同的音频文件;
P3、根据降噪场景的噪声强度设置信噪比;
P4、设置降噪空间尺寸和单通道麦克风、说话人、噪声源位置,并使用gpuRIR工具包,模拟声音回响。
本实施例使用基于深度学习框架的双阶段增强方式进行多通道语音降噪算法设计,通过归一化计算平衡接收信号的能量分布,将多种通道间特征提取方法进行有机结合,充分利用麦克风阵列间的空间特征,并将多头注意力机制网络和序列网络联合建模,提升增强模型对数据的特征提取能力,以此来更好的训练多通道阵列滤波器,最后基于多通道滤波求和,获得纯净语音信号。
下面以模拟室内会议场景作为具体实例进行进一步地说明:
步骤1生成训练数据,以模拟室内会议场景的多通道语音增强问题。
步骤1.1从采样率均为16K Hz的纯净语音数据集和噪声数据集各随机选取一个音频,目前常用数据集的采样率都是16K Hz。
步骤1.2将选取的纯净语音和噪声切分为长度4s的音频文件。
步骤1.3根据降噪场景的噪声强度设置信噪比,范围是[-15db,0db],增加训练数据的覆盖范围。
步骤1.4设置降噪空间尺寸和分布式麦克风、说话人、噪声源位置,使用gpuRIR工具包,模拟声音回响,分布式麦克阵列的设置如图4所示。图4中圆圈表示说话人位置,三角形表示噪声源位置,长10米宽5米的长方形为会议室的大小,中间长5米宽1米的长方形是一个会议桌,在会议桌上的五角星表示单通道麦克风,四个五角星表示一个四麦克风环形分布的阵列结构。
步骤1.5将噪声按照不同信噪比与说话人纯净语音进行相加,生成带噪语音。
步骤2数据预处理
步骤2.1对带噪语音数据前后进行补零,前后各补32个零,以防止语音数据的首末特征丢失。
步骤2.2对补零后的语音数据进行分帧处理,设置帧长M为64个采样点,帧移K为32个采样点,
步骤2.3对分帧后的语音添加上下文语音窗口,
步骤3多通道语音增强的第一阶段
步骤3.1基于NCC的通道间的特征提取
步骤3.1.1进行归一化互相关通道特征提取
步骤3.1.2对步骤3.1.1的结果进行平均池化操作
步骤3.2基于MCS的通道间特征提取
步骤3.2.1参见图5,进行多通道卷积和的通道特征提取
步骤3.2.2对步骤3.2.1的结果进行平均池化操作
步骤3.3前处理模块设计(Pre-Net)
步骤3.3.2对outref进行一维卷积操作,进行GroupNorm操作,然后进行形状变换
mt=GroupNorm(Conv1d(outref))
步骤3.4滤波器设计(ACG-Net)
步骤3.4.2将联合后的向量变换形状,再输入到一维卷积中
步骤3.4.3将out2输入到多头注意力网络,使用跳跃连接,并进行LayerNorm正则化操作,
out3=LayerNorm(MultiHeadAtt(out2)+out2)
步骤3.4.4将步骤3.4.3的结果经过带有Prelu激活函数的一维卷积
out4=Prelu(Conv1d(out3))
步骤3.4.5接着将步骤3.4.4结果先进行形状变换,再经过BiLSTM和Prelu激活函数,
步骤3.4.6将步骤3.4.5的结果输入到Linear线性层,并进行形状变换,
out6=reshape(Linear(out5))
步骤3.4.7使用跳跃连接,将out3与out6进行相加,并进行LayerNorm正则化操作
out7=LayerNorm(out3+out6)
步骤3.4.9将步骤3.4.8的结果进行一维卷积操作,并使用Prelu激活函数
out9=Prelu(Conv1d(out8))
步骤3.4.10将out9分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘,
h=Tanh(Conv1d(out9))⊙Sigmoid(Conv1d(out9))
步骤3.5卷积求和,生成纯净语音
步骤3.5.1将h变换形状
Filter1=reshape(h)
步骤4多通道语音增强第二阶段
步骤4.1基于NCC的通道间的特征提取
步骤4.1.1进行归一化互相关通道特征提取
步骤4.2基于多通道卷积和的通道间特征提取
步骤4.2.1获取输入信号xt的其他麦克风信号,并进行变换形状
步骤4.2.2对步骤3输出的结果进行形状变换
Reft=reshape(Rt)
步骤4.2.3将Ref与otherx进行联合
Cont=concat([Reft,otherxt])
步骤4.2.4进行MCS通道特征提取(二维卷积)
g2t=Conv2d(Cont)
步骤4.2.5对步骤4.2.4进行平均池化操作,
步骤4.2.6对步骤4.2.5结果进行形状变换,再进行维度扩张,
步骤4.3前处理模块设计(Pre-Net)
步骤4.3.2对Cotherxt进行一维卷积操作,并进行GroupNorm操作,
cmt=GroupNorm(Conv1d(Cotherxt))
步骤4.4滤波器设计(ACG-Net)
步骤4.4.2将联合后的向量变换形状,再输入到一维卷积中
步骤4.4.3将out10进行形状变化,再输入到多头注意力网络,使用跳跃连接,并进行LayerNorm正则化操作,
步骤4.4.4将out11先经过形状变换,再经过带有Prelu激活函数的一维卷积
步骤4.4.5接着将步骤4.4.4结果先进行形状变换,再经过BiLSTM和Prelu激活函数,
步骤4.4.6将步骤4.4.5的结果输入到Linear层处理,
out14=Linear(out13)
步骤4.4.7使用跳跃连接,将out11与out14进行相加,并进行LayerNorm正则化操作
out15=LayerNorm(out11+out14)
步骤4.4.9对out16进行一维卷积操作,并使用Prelu激活函数,
out17=Prelu(Conv1d(out16))
步骤4.4.10将out17分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘,
h2=Tanh(Conv1d(out17))⊙Sigmoid(Conv1d(out17))
步骤4.5卷积求和
步骤4.5.1将h2变换形状,
Filter=reshape(h2)
步骤4.6生成纯净语音
步骤4.6.2对步骤4.6.1的结果计算平均值,
步骤5损失函数设计
步骤5.1使用比例不变信噪比(SI-SNR)作为损失函数
enoise=y-starget
步骤6超参数设置
多头注意力网络的head设置为4,MSC使用的卷积核大小为64,卷积核数量为16,步长为2,膨胀数为2。在训练阶段,使用150epoch进行训练,保存在验证集表现最好的模型。另外,在训练时,若最近10epoch模型损失值在验证集上没有降低,则将自动停止训练。使用adam作为损失函数优化器,同时为防止梯度爆炸,使用L2范数为5进行梯度剪裁。对于学习率,在训练过程中使用动态策略warmup去调整,它能够在训练初期以较小的学习率对模型进行预热,增加模型的稳定性,然后逐渐以0.98的衰减率每3epoch进行降低。
其中,lr指学习率,n是训练的步数,a1、a2、n_warmups、dmodel是超参数。在实验中,设置a1为0.2,a2为1e-3,n_warmups为4000,dmodel为64。
训练结束后,得到参数确定的多通道语音增强模型,作为优化后的模型。
步骤7模型推理
使用带噪语音作为模型输入,将数据经过步骤2-4,即可生成增强后的语音,具体过程见图6。
本实施例在多通道语音增强前后的语音波形图和频谱图,参见图7至图10,未处理前噪声能量较高,时域上已经比较难以区分语音分量和噪声分量,经过算法处理,噪声成分消除较为彻底,静音段已经趋于直线,频谱图上也有较为明显的噪声抵消,噪声能量最低的部分对应时域波形的直线部分。
本实施例基于单通道参考麦克风信号的选择,归一化处理多通道拾音信号,采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,并通过多头注意力机制设计ACG-Net滤波器,使用卷积计算,获得参考麦克风降噪后语音信号。通过计算通道间特征,通过ACG-Net网络,生成与麦克风一一对应的滤波器,卷积滤波后,将结果取均值,获得最终降噪语音。该方法的优势在于通过标准化处理输入数据,使用双阶段形式,加强通道间特征的提取。在每个阶段都会计算不同通道麦克风的通道特征,充分均衡空间的远近场特征,较好解决实际场景中语音能量不均问题。实验结果证明,该方法能够对室内空间中远近场带噪语音起到很好的降噪效果。
本发明提供的多通道语音增强方法基于深度学习框架进行多通道语音增强算法设计,相较于传统方法,无需假设条件进行算法设计,以数据为驱动,更好的利用空间特征;对于麦克风阵列中拾取的多通道信号,首先对语音信号数据进行变换,使其能量分布在训练集所使用的语音数据的能量分布范围内,进行均值和方差的归一化计算,以解决接收语音信号能量分布不均的问题,避免接收信号影响模型效果,降低模型性能。在深度学习的算法框架中,设计双阶段方式进行多通道语音增强,第一阶段,选取参考麦克风,融合多个通道间特征提取方法,对参考麦克风进行语音增强;第二阶段,使用增强后的参考麦克风信号对其他通道进行通道间特征提取,并对其它通道进行信号增强,最后将其增强信号平均池化,形成增强后的语音信号。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种采用麦克风阵列拾音的多通道语音增强方法,其特征在于,包括以下步骤:
S1、利用多个单通道麦克风对语音进行多通道拾音并进行预处理;
S2、选择其中一个单通道麦克风作为参考麦克风,基于所述参考麦克风的选择,进行归一化处理多通道拾音信号,采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,再通过多头注意力网络设计出与所述参考麦克风对应的滤波器,使用该滤波器对所述参考麦克风的拾音信号进行卷积操作,以获得所述参考麦克风滤波后的增强语音信号;
S3、结合所述参考麦克风滤波后的增强语音信号,对其它单通道麦克风进行NCC和MCS两种特征提取,并通过多头注意力网络设计出与其它单通道参考麦克风一一对应的滤波器,其它单通道麦克风通过对应的滤波器对各自的拾音信号进行卷积操作,以分别获得其它单通道麦克风滤波后的增强语音信号;
S4、将所有的单通道麦克风的增强语音信号进行联合并将进行均值处理,以获得最终的增强语音信号。
3.根据权利要求2所述的多通道语音增强方法,其特征在于,在步骤S2中,对添加上下文窗口的语音数据进行NCC和MCS两种特征提取并分别进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。
4.根据权利要求3所述的多通道语音增强方法,其特征在于,将经MCS特征提取并进行平均池化操作的结果进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
5.根据权利要求4所述的多通道语音增强方法,其特征在于,与所述参考麦克风对应的滤波器的设计包括以下步骤:
S201、所述输入数据输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S202、将步骤S201的结果经过带有Prelu激活函数的一维卷积处理;
S203、将步骤S202的结果先进行形状变换,再经过BiLSTM和Prelu激活函数处理;
S204、将步骤S203的结果输入到Linear线性层,并进行形状变换;
S205、使用跳跃连接将步骤S201的结果与步骤S204的结果进行相加,并进行LayerNorm正则化操作;
S206、对步骤S205的结果进行形状变换,然后对变换后的结果和步骤S201中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S207、将步骤S206的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成所述参考麦克风对应的滤波器。
6.根据权利要求2所述的多通道语音增强方法,其特征在于,在步骤S3中,对添加上下文窗口的语音数据结合所述参考麦克风滤波后的增强语音信号进行NCC特征提取,对其它单通道麦克风对应的分帧语音数据进行MCS特征提取并进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。
7.根据权利要求6所述的多通道语音增强方法,其特征在于,将其它单通道麦克风对应的添加上下文窗口的语音数据进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
8.根据权利要求7所述的多通道语音增强方法,其特征在于,与其它单通道麦克风对应的滤波器的设计包括以下步骤:
S301、所述输入数据进行形状变换后输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S302、将步骤S301的结果进行形状变换后,再经过带有Prelu激活函数的一维卷积处理;
S303、将步骤S302的结果进行形状变换后,再经过BiLSTM和Prelu激活函数处理;
S304、将步骤S303的结果输入到Linear线性层处理;
S305、使用跳跃连接将步骤S301的结果与步骤S304的结果进行相加,并进行LayerNorm正则化操作;
S306、对步骤S305的结果进行形状变换,然后对变换后的结果和步骤S301中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S307、将步骤S306的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成其它单通道麦克风对应的滤波器。
9.根据权利要求1所述的多通道语音增强方法,其特征在于,利用步骤S2-S4构建多通道语音增强模型,对所述多通道语音增强模型进行模型训练,步骤S1之前需要生成训练数据作为所述单通道麦克风拾音的对象,再执行步骤S1-S4,其中,生成训练数据包括以下步骤:
P1、从采样率相同的纯净语音数据集和噪声数据集各随机选取一个音频;
P2、将选取的纯净语音和噪声音频切分为长度相同的音频文件;
P3、根据降噪场景的噪声强度设置信噪比;
P4、设置降噪空间尺寸和单通道麦克风、说话人、噪声源位置,并使用gpuRIR工具包,模拟声音回响。
10.根据权利要求9所述的多通道语音增强方法,其特征在于,对所述多通道语音增强模型进行模型训练时使用比例不变信噪比作为损失函数进行模型调参计算,以得到优化后的多通道语音增强模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111411208.9A CN114339539A (zh) | 2021-11-25 | 2021-11-25 | 一种采用麦克风阵列拾音的多通道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111411208.9A CN114339539A (zh) | 2021-11-25 | 2021-11-25 | 一种采用麦克风阵列拾音的多通道语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114339539A true CN114339539A (zh) | 2022-04-12 |
Family
ID=81047199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111411208.9A Pending CN114339539A (zh) | 2021-11-25 | 2021-11-25 | 一种采用麦克风阵列拾音的多通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114339539A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117198308A (zh) * | 2023-09-11 | 2023-12-08 | 辽宁工程技术大学 | 一种车内反馈音效的风格迁移方法 |
CN117975982A (zh) * | 2024-04-01 | 2024-05-03 | 天津大学 | 一种基于g-lpc的病理嗓音增强方法及装置 |
-
2021
- 2021-11-25 CN CN202111411208.9A patent/CN114339539A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117198308A (zh) * | 2023-09-11 | 2023-12-08 | 辽宁工程技术大学 | 一种车内反馈音效的风格迁移方法 |
CN117198308B (zh) * | 2023-09-11 | 2024-03-19 | 辽宁工程技术大学 | 一种车内反馈音效的风格迁移方法 |
CN117975982A (zh) * | 2024-04-01 | 2024-05-03 | 天津大学 | 一种基于g-lpc的病理嗓音增强方法及装置 |
CN117975982B (zh) * | 2024-04-01 | 2024-06-04 | 天津大学 | 一种基于g-lpc的病理嗓音增强方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Deep learning based binaural speech separation in reverberant environments | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
US8958572B1 (en) | Adaptive noise cancellation for multi-microphone systems | |
US20120082322A1 (en) | Sound scene manipulation | |
JPH0566795A (ja) | 雑音抑圧装置とその調整装置 | |
CN114339539A (zh) | 一种采用麦克风阵列拾音的多通道语音增强方法 | |
KR101807961B1 (ko) | Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 | |
US11617043B2 (en) | EEG-assisted beamformer, beamforming method and ear-worn hearing system | |
TW201142829A (en) | Adaptive noise reduction using level cues | |
CN111696567B (zh) | 用于远场通话的噪声估计方法及系统 | |
CN110047478B (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
US20220076690A1 (en) | Signal processing apparatus, learning apparatus, signal processing method, learning method and program | |
CN111798860B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN110827847B (zh) | 低信噪比见长的麦克风阵列语音去噪增强方法 | |
Dadvar et al. | Robust binaural speech separation in adverse conditions based on deep neural network with modified spatial features and training target | |
EP2437517B1 (en) | Sound scene manipulation | |
WO2023108864A1 (zh) | 小型麦克风阵列设备的区域拾音方法及系统 | |
WO2022256577A1 (en) | A method of speech enhancement and a mobile computing device implementing the method | |
CN115359804A (zh) | 一种基于麦克风阵列的定向音频拾取方法和系统 | |
CN115273884A (zh) | 基于频谱压缩和神经网络的多阶段全频带语音增强方法 | |
CN112201276B (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
CN114255777A (zh) | 实时语音去混响的混合方法及系统 | |
US8700391B1 (en) | Low complexity bandwidth expansion of speech | |
CN113744751B (zh) | 一种应用于麦克风阵列的多通道语音信号增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |