CN114339539A - 一种采用麦克风阵列拾音的多通道语音增强方法 - Google Patents

一种采用麦克风阵列拾音的多通道语音增强方法 Download PDF

Info

Publication number
CN114339539A
CN114339539A CN202111411208.9A CN202111411208A CN114339539A CN 114339539 A CN114339539 A CN 114339539A CN 202111411208 A CN202111411208 A CN 202111411208A CN 114339539 A CN114339539 A CN 114339539A
Authority
CN
China
Prior art keywords
channel
microphone
result
voice
carrying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111411208.9A
Other languages
English (en)
Inventor
姜彦吉
梁振兴
刘海涛
彭博
郑四发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Automotive Research Institute of Tsinghua University
Original Assignee
Suzhou Automotive Research Institute of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Automotive Research Institute of Tsinghua University filed Critical Suzhou Automotive Research Institute of Tsinghua University
Priority to CN202111411208.9A priority Critical patent/CN114339539A/zh
Publication of CN114339539A publication Critical patent/CN114339539A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种采用麦克风阵列拾音的多通道语音增强方法,该方法包括利用多个单通道麦克风对语音进行多通道拾音并进行预处理;基于参考麦克风的选择,采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,设计出与参考麦克风对应的滤波器;对其它单通道麦克风进行NCC和MCS两种特征提取,并设计出与其它单通道参考麦克风一一对应的滤波器;将所有的单通道麦克风的增强语音信号进行联合并将进行均值处理,以获得最终的增强语音信号。本发明提供的多通道语音增强方法采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,对室内空间中远近场带噪语音起到很好的降噪效果。

Description

一种采用麦克风阵列拾音的多通道语音增强方法
技术领域
本发明涉及语音降噪技术领域,特别涉及一种采用麦克风阵列拾音的多通道语音增强方法。
背景技术
在真实的生产生活场景中,各种复杂的噪声干扰会严重影响人们使用语音设备的通信质量或语音识别系统的识别性能。需要通过语音信号的前端处理提升语音的清晰度和可懂度,以便提升系统性能。一般而言,采用多个麦克风,组成一定形式的阵列结构,进行多通道拾音,除了语音信号的时域特征和频域特征,还能获得比单个麦克风拾音更多的空间特征信息,从而进行更高维度的语音增强算法设计。传统的基于麦克风阵列的语音增强算法大多采用波束形成(Beamforming,BF)方法,通过算法采集信号的空间信息,提高目标方向的语音增益,实现对目标信号的增强,将其他方向的信号都认为是干扰信号。波束形成算法一般分成两个阶段,第一阶段要对各个麦克风接收的信号进行同步处理。选择一个麦克风作为参考麦克风,计算语音信号到每个麦克风的相对时延,通过时延补偿使得各个麦克风通道的信号在时间上同步。第二阶段确定各个麦克风通道的权重。赋予不同通道不同的权重,以便适应问题场景,将每个通道信号加权求和并做平均,得到最终的增强语音。基于信号处理的波束形成算法有几点不足:
1.算法基于一些数学假设和噪声的频谱估计,这些假设和估计只是一定程度上符合场景的特性,使得系统的降噪性能有限;
2.这类方法无法对波束以外的有用语音信号进行增强处理,不能满足全场景拾音的要求;
3.由于真实场景中说话人与麦克风距离不同,说话人的语音信号难以保证特征能量的均匀分布,一句话中,有的段声音大,有的段声音小,非平稳的语音状态,也使得系统语音增强效果不稳定。
发明内容
为了克服现有技术存在的不足,本发明提供了一种采用麦克风阵列拾音的多通道语音增强方法,所述技术方案如下:
本发明提供了一种采用麦克风阵列拾音的多通道语音增强方法,包括以下步骤:
S1、利用多个单通道麦克风对语音进行多通道拾音并进行预处理;
S2、选择其中一个单通道麦克风作为参考麦克风,基于所述参考麦克风的选择,进行归一化处理多通道拾音信号,采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,再通过多头注意力网络设计出与所述参考麦克风对应的滤波器,使用该滤波器对所述参考麦克风的拾音信号进行卷积操作,以获得所述参考麦克风滤波后的增强语音信号;
S3、结合所述参考麦克风滤波后的增强语音信号,对其它单通道麦克风进行NCC和MCS两种特征提取,并通过多头注意力网络设计出与其它单通道参考麦克风一一对应的滤波器,其它单通道麦克风通过对应的滤波器对各自的拾音信号进行卷积操作,以分别获得其它单通道麦克风滤波后的增强语音信号;
S4、将所有的单通道麦克风的增强语音信号进行联合并将进行均值处理,以获得最终的增强语音信号。
进一步地,在步骤S1中,预处理包括以下步骤:
S101、对语音数据前后进行补零;
S102、对补零后的语音数据进行分帧处理,
Figure BDA0003373905310000021
其中,M为帧长,K为帧移,Z为帧数,t是帧索引值,i是麦克风的索引,
Figure BDA0003373905310000022
表示单通道麦克风i在帧t处的语音向量;
S103、对分帧后的语音数据添加上下文语音窗口,
Figure BDA0003373905310000023
其中,W为上下文窗口大小,
Figure BDA0003373905310000024
是麦克风i在帧t处包含上下文的语音向量;
S104、将所有通道的分帧语音数据x添加到数组中,形状为[N,M,Z],将所有通道的添加上下文窗口的语音数据
Figure BDA0003373905310000025
添加到另一个数组中,形状为[N,2W+M,Z],其中N为通道数量。
进一步地,在步骤S2中,对添加上下文窗口的语音数据进行NCC和MCS两种特征提取并分别进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。
进一步地,将经MCS特征提取并进行平均池化操作的结果进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
进一步地,与所述参考麦克风对应的滤波器的设计包括以下步骤:
S201、所述输入数据输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S202、将步骤S201的结果经过带有Prelu激活函数的一维卷积处理;
S203、将步骤S202的结果先进行形状变换,再经过BiLSTM和Prelu激活函数处理;
S204、将步骤S203的结果输入到Linear线性层,并进行形状变换;
S205、使用跳跃连接将步骤S201的结果与步骤S204的结果进行相加,并进行LayerNorm正则化操作;
S206、对步骤S205的结果进行形状变换,然后对变换后的结果和步骤S201中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S207、将步骤S206的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成所述参考麦克风对应的滤波器。
进一步地,在步骤S3中,对添加上下文窗口的语音数据结合所述参考麦克风滤波后的增强语音信号进行NCC特征提取,对其它单通道麦克风对应的分帧语音数据进行MCS特征提取并进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。
进一步地,将其它单通道麦克风对应的添加上下文窗口的语音数据进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
进一步地,与其它单通道麦克风对应的滤波器的设计包括以下步骤:
S301、所述输入数据进行形状变换后输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S302、将步骤S301的结果进行形状变换后,再经过带有Prelu激活函数的一维卷积处理;
S303、将步骤S302的结果进行形状变换后,再经过BiLSTM和Prelu激活函数处理;
S304、将步骤S303的结果输入到Linear线性层处理;
S305、使用跳跃连接将步骤S301的结果与步骤S304的结果进行相加,并进行LayerNorm正则化操作;
S306、对步骤S305的结果进行形状变换,然后对变换后的结果和步骤S301中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S307、将步骤S306的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成其它单通道麦克风对应的滤波器。
进一步地,利用步骤S2-S4构建多通道语音增强模型,对所述多通道语音增强模型进行模型训练,步骤S1之前需要生成训练数据作为所述单通道麦克风拾音的对象,再执行步骤S1-S4,其中,生成训练数据包括以下步骤:
P1、从采样率相同的纯净语音数据集和噪声数据集各随机选取一个音频;
P2、将选取的纯净语音和噪声音频切分为长度相同的音频文件;
P3、根据降噪场景的噪声强度设置信噪比;
P4、设置降噪空间尺寸和单通道麦克风、说话人、噪声源位置,并使用gpuRIR工具包,模拟声音回响。
进一步地,对所述多通道语音增强模型进行模型训练时使用比例不变信噪比作为损失函数进行模型调参计算,以得到优化后的多通道语音增强模型。
本发明提供的技术方案带来的有益效果如下:
(1)对室内空间中远近场带噪语音起到很好的降噪效果;
(2)解决了接收语音信号能量分布不均的问题,提高了接收信号的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多通道语音增强方法中第一阶段语音增强示意图;
图2是本发明实施例提供的多通道语音增强方法的ACG-Net模块结构示意图;
图3是本发明实施例提供的多通道语音增强方法中第二阶段语音增强示意图;
图4是本发明实施例提供的多通道语音增强方法中麦克风分布结构示意图;
图5是本发明实施例提供的多通道语音增强方法中MCS特征提取流程示意图;
图6是本发明实施例提供的多通道语音增强方法中模型训练和推理流程示意图;
图7是本发明实施例提供的多通道语音增强方法中不同麦克风降噪前的语音波形图;
图8是本发明实施例提供的多通道语音增强方法中不同麦克风降噪后的语音波形图;
图9是本发明实施例提供的多通道语音增强方法中不同麦克风降噪前的频谱图;
图10是本发明实施例提供的多通道语音增强方法中不同麦克风降噪后的频谱图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,更清楚地了解本发明的目的、技术方案及其优点,以下结合具体实施例并参照附图对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。除此,本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明的一个实施例中,提供了一种采用麦克风阵列拾音的多通道语音增强方法,包括以下步骤:
S1、利用多个单通道麦克风对语音进行多通道拾音并进行预处理;
其中,预处理包括以下步骤:
S101、对语音数据前后进行补零;
S102、对补零后的语音数据进行分帧处理,
Figure BDA0003373905310000061
其中,M为帧长,K为帧移,Z为帧数,t是帧索引值,i是麦克风的索引,
Figure BDA0003373905310000062
表示单通道麦克风i在帧t处的语音向量;
S103、对分帧后的语音数据添加上下文语音窗口,
Figure BDA0003373905310000063
其中,W为上下文窗口大小,
Figure BDA0003373905310000064
是麦克风i在帧t处包含上下文的语音向量;
S104、将所有通道的分帧语音数据x添加到数组中,形状为[N,M,Z],将所有通道的添加上下文窗口的语音数据
Figure BDA0003373905310000065
添加到另一个数组中,形状为[N,2W+M,Z],其中N为通道数量。
S2、参见图1,选择其中一个单通道麦克风作为参考麦克风,基于所述参考麦克风的选择,进行归一化处理多通道拾音信号,采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,再通过多头注意力网络设计出与所述参考麦克风对应的滤波器,使用该滤波器对所述参考麦克风的拾音信号进行卷积操作,以获得所述参考麦克风滤波后的增强语音信号,作为语音增强的第一阶段;
具体地,对添加上下文窗口的语音数据进行NCC和MCS两种特征提取并分别进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。将经MCS特征提取并进行平均池化操作的结果进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
其中,参见图2,与所述参考麦克风对应的滤波器的设计包括以下步骤:
S201、所述输入数据输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S202、将步骤S201的结果经过带有Prelu激活函数的一维卷积处理;
S203、将步骤S202的结果先进行形状变换,再经过BiLSTM和Prelu激活函数处理;
S204、将步骤S203的结果输入到Linear线性层,并进行形状变换;
S205、使用跳跃连接将步骤S201的结果与步骤S204的结果进行相加,并进行LayerNorm正则化操作;
S206、对步骤S205的结果进行形状变换,然后对变换后的结果和步骤S201中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S207、将步骤S206的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成所述参考麦克风对应的滤波器。
S3、参见图3,结合所述参考麦克风滤波后的增强语音信号,对其它单通道麦克风进行NCC和MCS两种特征提取,并通过多头注意力网络设计出与其它单通道参考麦克风一一对应的滤波器,其它单通道麦克风通过对应的滤波器对各自的拾音信号进行卷积操作,以分别获得其它单通道麦克风滤波后的增强语音信号,作为语音增强的第二阶段;
具体地,对添加上下文窗口的语音数据结合所述参考麦克风滤波后的增强语音信号进行NCC特征提取,对其它单通道麦克风对应的分帧语音数据进行MCS特征提取并进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。将其它单通道麦克风对应的添加上下文窗口的语音数据进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
其中,与其它单通道麦克风对应的滤波器的设计包括以下步骤:
S301、所述输入数据进行形状变换后输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S302、将步骤S301的结果进行形状变换后,再经过带有Prelu激活函数的一维卷积处理;
S303、将步骤S302的结果进行形状变换后,再经过BiLSTM和Prelu激活函数处理;
S304、将步骤S303的结果输入到Linear线性层处理;
S305、使用跳跃连接将步骤S301的结果与步骤S304的结果进行相加,并进行LayerNorm正则化操作;
S306、对步骤S305的结果进行形状变换,然后对变换后的结果和步骤S301中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S307、将步骤S306的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成其它单通道麦克风对应的滤波器。
S4、将所有的单通道麦克风的增强语音信号进行联合并将进行均值处理,以获得最终的增强语音信号。
利用步骤S2-S4构建多通道语音增强模型,对所述多通道语音增强模型进行模型训练,步骤S1之前需要生成训练数据作为所述单通道麦克风拾音的对象,再执行步骤S1-S4,对所述多通道语音增强模型进行模型训练时使用比例不变信噪比作为损失函数进行模型调参计算,以得到优化后的多通道语音增强模型。
其中,生成训练数据包括以下步骤:
P1、从采样率相同的纯净语音数据集和噪声数据集各随机选取一个音频;
P2、将选取的纯净语音和噪声音频切分为长度相同的音频文件;
P3、根据降噪场景的噪声强度设置信噪比;
P4、设置降噪空间尺寸和单通道麦克风、说话人、噪声源位置,并使用gpuRIR工具包,模拟声音回响。
本实施例使用基于深度学习框架的双阶段增强方式进行多通道语音降噪算法设计,通过归一化计算平衡接收信号的能量分布,将多种通道间特征提取方法进行有机结合,充分利用麦克风阵列间的空间特征,并将多头注意力机制网络和序列网络联合建模,提升增强模型对数据的特征提取能力,以此来更好的训练多通道阵列滤波器,最后基于多通道滤波求和,获得纯净语音信号。
下面以模拟室内会议场景作为具体实例进行进一步地说明:
步骤1生成训练数据,以模拟室内会议场景的多通道语音增强问题。
步骤1.1从采样率均为16K Hz的纯净语音数据集和噪声数据集各随机选取一个音频,目前常用数据集的采样率都是16K Hz。
步骤1.2将选取的纯净语音和噪声切分为长度4s的音频文件。
步骤1.3根据降噪场景的噪声强度设置信噪比,范围是[-15db,0db],增加训练数据的覆盖范围。
步骤1.4设置降噪空间尺寸和分布式麦克风、说话人、噪声源位置,使用gpuRIR工具包,模拟声音回响,分布式麦克阵列的设置如图4所示。图4中圆圈表示说话人位置,三角形表示噪声源位置,长10米宽5米的长方形为会议室的大小,中间长5米宽1米的长方形是一个会议桌,在会议桌上的五角星表示单通道麦克风,四个五角星表示一个四麦克风环形分布的阵列结构。
步骤1.5将噪声按照不同信噪比与说话人纯净语音进行相加,生成带噪语音。
步骤2数据预处理
步骤2.1对带噪语音数据前后进行补零,前后各补32个零,以防止语音数据的首末特征丢失。
步骤2.2对补零后的语音数据进行分帧处理,设置帧长M为64个采样点,帧移K为32个采样点,
Figure BDA0003373905310000091
其中,t是帧索引值,i是麦克风的索引,
Figure BDA0003373905310000092
表示麦克风i在帧t处的语音向量,Z为帧数。
步骤2.3对分帧后的语音添加上下文语音窗口,
Figure BDA0003373905310000093
其中,W为上下文窗口大小,
Figure BDA0003373905310000094
是麦克风i在帧t处包含上下文的语音向量,以减少通道间的延时误差。
步骤2.4将所有通道的分帧语音数据x添加到数组中,形状为[N,M,Z],将所有通道的添加上下文语音数据
Figure BDA00033739053100000911
添加到另一个数组中,形状为[N,2W+M,Z],其中N为通道数量。
步骤3多通道语音增强的第一阶段
步骤3.1基于NCC的通道间的特征提取
步骤3.1.1进行归一化互相关通道特征提取
Figure BDA0003373905310000095
其中,
Figure BDA0003373905310000096
是参考麦克风与麦克风i的余弦相似度,
Figure BDA0003373905310000097
Figure BDA0003373905310000098
为参考麦克风信号。
步骤3.1.2对步骤3.1.1的结果进行平均池化操作
Figure BDA0003373905310000099
其中,
Figure BDA00033739053100000910
取均值后的归一化互相关。
步骤3.2基于MCS的通道间特征提取
步骤3.2.1参见图5,进行多通道卷积和的通道特征提取
Figure BDA0003373905310000101
其中,
Figure BDA0003373905310000102
二维卷积核尺寸为[N,K],步长设置为K/2,卷积核个数设置为E,
Figure BDA0003373905310000103
步骤3.2.2对步骤3.2.1的结果进行平均池化操作
Figure BDA0003373905310000104
其中,
Figure BDA0003373905310000105
步骤3.3前处理模块设计(Pre-Net)
步骤3.3.1对步骤3.2.2结果和
Figure BDA0003373905310000106
进行形状变换
Figure BDA0003373905310000107
Figure BDA0003373905310000108
其中,
Figure BDA0003373905310000109
步骤3.3.2对outref进行一维卷积操作,进行GroupNorm操作,然后进行形状变换
mt=GroupNorm(Conv1d(outref))
Figure BDA00033739053100001010
其中,
Figure BDA00033739053100001011
是帧数t处的语音特征向量,一维卷积的卷积核大小为2W+M,输出通道数为M,
Figure BDA00033739053100001012
步骤3.4滤波器设计(ACG-Net)
步骤3.4.1将
Figure BDA00033739053100001013
Figure BDA00033739053100001014
进行联合
Figure BDA00033739053100001015
其中,
Figure BDA00033739053100001016
表示在帧数t处联合后的语音向量,
Figure BDA00033739053100001017
表示联合后的语音向量。
步骤3.4.2将联合后的向量变换形状,再输入到一维卷积中
Figure BDA00033739053100001018
Figure BDA00033739053100001019
其中
Figure BDA00033739053100001020
一维卷积的卷积核大小为1,输出通道数为M。
步骤3.4.3将out2输入到多头注意力网络,使用跳跃连接,并进行LayerNorm正则化操作,
out3=LayerNorm(MultiHeadAtt(out2)+out2)
其中,
Figure BDA0003373905310000111
MultiHeadAtt输出维度设置为M,head值为4。
步骤3.4.4将步骤3.4.3的结果经过带有Prelu激活函数的一维卷积
out4=Prelu(Conv1d(out3))
其中,
Figure BDA0003373905310000112
一维卷积的卷积核大小为1,输出通道数为M/2。
步骤3.4.5接着将步骤3.4.4结果先进行形状变换,再经过BiLSTM和Prelu激活函数,
Figure BDA0003373905310000113
Figure BDA0003373905310000114
其中
Figure BDA0003373905310000115
BiLSTM的输出维度设置为2M。
步骤3.4.6将步骤3.4.5的结果输入到Linear线性层,并进行形状变换,
out6=reshape(Linear(out5))
其中,
Figure BDA0003373905310000116
Linear层的输出维度为M。
步骤3.4.7使用跳跃连接,将out3与out6进行相加,并进行LayerNorm正则化操作
out7=LayerNorm(out3+out6)
其中,
Figure BDA0003373905310000117
步骤3.4.8对步骤3.4.7的结果进行形状变换,然后对out2
Figure BDA0003373905310000118
使用跳跃连接
Figure BDA0003373905310000119
Figure BDA00033739053100001110
其中,
Figure BDA00033739053100001111
步骤3.4.9将步骤3.4.8的结果进行一维卷积操作,并使用Prelu激活函数
out9=Prelu(Conv1d(out8))
其中,
Figure BDA00033739053100001112
一维卷积的卷积核大小为1,输出通道为2W+1。
步骤3.4.10将out9分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘,
h=Tanh(Conv1d(out9))⊙Sigmoid(Conv1d(out9))
其中,
Figure BDA00033739053100001113
⊙为哈达玛积,一维卷积的卷积核大小为1,输出通道数C为2W+1。
步骤3.5卷积求和,生成纯净语音
步骤3.5.1将h变换形状
Filter1=reshape(h)
其中,
Figure BDA0003373905310000121
为生成的波束形成滤波器。
步骤3.5.2使用步骤3.5.1中生成的波束形成滤波器,对参考麦克风的语音
Figure BDA00033739053100001214
进行卷积操作,
Figure BDA0003373905310000122
其中,
Figure BDA0003373905310000123
表示参考麦克风经过滤波后的增强语音信号。
步骤4多通道语音增强第二阶段
步骤4.1基于NCC的通道间的特征提取
步骤4.1.1进行归一化互相关通道特征提取
Figure BDA0003373905310000124
其中,
Figure BDA0003373905310000125
是降噪后的参考麦克风信号与麦克风i的信号的余弦相似度计算结果,
Figure BDA0003373905310000126
为麦克风i的语音信号。
步骤4.2基于多通道卷积和的通道间特征提取
步骤4.2.1获取输入信号xt的其他麦克风信号,并进行变换形状
Figure BDA0003373905310000127
其中,
Figure BDA0003373905310000128
步骤4.2.2对步骤3输出的结果进行形状变换
Reft=reshape(Rt)
其中,
Figure BDA0003373905310000129
步骤4.2.3将Ref与otherx进行联合
Cont=concat([Reft,otherxt])
其中,
Figure BDA00033739053100001210
为联合后的语音向量。
步骤4.2.4进行MCS通道特征提取(二维卷积)
g2t=Conv2d(Cont)
其中,
Figure BDA00033739053100001211
二维卷积核尺寸为[N,G],步长设置为G/2,卷积核个数设置为E,
Figure BDA00033739053100001212
步骤4.2.5对步骤4.2.4进行平均池化操作,
Figure BDA00033739053100001213
其中,
Figure BDA0003373905310000131
步骤4.2.6对步骤4.2.5结果进行形状变换,再进行维度扩张,
Figure BDA0003373905310000132
Figure BDA0003373905310000133
其中,
Figure BDA0003373905310000134
步骤4.3前处理模块设计(Pre-Net)
步骤4.3.1获取输入信号
Figure BDA0003373905310000135
均其他麦克风信号,并对形状进行变化
Figure BDA0003373905310000136
其中,
Figure BDA0003373905310000137
步骤4.3.2对Cotherxt进行一维卷积操作,并进行GroupNorm操作,
cmt=GroupNorm(Conv1d(Cotherxt))
Figure BDA0003373905310000138
其中,
Figure BDA0003373905310000139
是帧数t处的语音特征向量,一维卷积的卷积核大小为2W+M,输出通道数为M,
Figure BDA00033739053100001310
步骤4.4滤波器设计(ACG-Net)
步骤4.4.1将
Figure BDA00033739053100001311
ft进行联合
Figure BDA00033739053100001312
其中,
Figure BDA00033739053100001313
步骤4.4.2将联合后的向量变换形状,再输入到一维卷积中
Figure BDA00033739053100001314
Figure BDA00033739053100001315
其中
Figure BDA00033739053100001316
一维卷积的卷积核大小为1,输出通道数为M。
步骤4.4.3将out10进行形状变化,再输入到多头注意力网络,使用跳跃连接,并进行LayerNorm正则化操作,
Figure BDA00033739053100001317
Figure BDA00033739053100001318
其中,
Figure BDA00033739053100001319
MultiHeadAtt输出维度设置为M,head值为4。
步骤4.4.4将out11先经过形状变换,再经过带有Prelu激活函数的一维卷积
Figure BDA00033739053100001320
Figure BDA00033739053100001321
其中,
Figure BDA0003373905310000141
一维卷积的卷积核大小为1,输出通道数为M/2。
步骤4.4.5接着将步骤4.4.4结果先进行形状变换,再经过BiLSTM和Prelu激活函数,
Figure BDA0003373905310000142
Figure BDA0003373905310000143
其中
Figure BDA0003373905310000144
BiLSTM的输出维度设置为M。
步骤4.4.6将步骤4.4.5的结果输入到Linear层处理,
out14=Linear(out13)
其中,
Figure BDA0003373905310000145
Linear层的输出维度为M。
步骤4.4.7使用跳跃连接,将out11与out14进行相加,并进行LayerNorm正则化操作
out15=LayerNorm(out11+out14)
其中,
Figure BDA0003373905310000146
步骤4.4.8对步骤4.4.7的结果进行形状变换,然后对out10
Figure BDA0003373905310000147
使用跳跃连接处理,
Figure BDA0003373905310000148
Figure BDA0003373905310000149
其中,
Figure BDA00033739053100001410
步骤4.4.9对out16进行一维卷积操作,并使用Prelu激活函数,
out17=Prelu(Conv1d(out16))
其中,
Figure BDA00033739053100001411
一维卷积的卷积核大小为1,输出通道为2W+1。
步骤4.4.10将out17分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘,
h2=Tanh(Conv1d(out17))⊙Sigmoid(Conv1d(out17))
其中,
Figure BDA00033739053100001412
⊙为哈达玛积,一维卷积的卷积核大小为1,输出通道数为2W+1。
步骤4.5卷积求和
步骤4.5.1将h2变换形状,
Filter=reshape(h2)
其中,
Figure BDA0003373905310000151
为生成的波束形成滤波器。
步骤4.5.2使用步骤4.5.1生成的波束形成滤波器,对相应的语音
Figure BDA00033739053100001512
进行卷积操作,
Figure BDA0003373905310000152
其中,
Figure BDA0003373905310000153
表示麦克风i经过滤波后的语音信号。
步骤4.6生成纯净语音
步骤4.6.1对增强语音信号
Figure BDA0003373905310000154
和R进行联合,然后维度变化并去掉先前所补的零,恢复原来语音长度。
Figure BDA0003373905310000155
其中,
Figure BDA0003373905310000156
表示所有麦克风恢复原始长度的语音增强信号。
步骤4.6.2对步骤4.6.1的结果计算平均值,
Figure BDA0003373905310000157
其中,
Figure BDA0003373905310000158
表示最终输出的语音增强信号。
步骤5损失函数设计
步骤5.1使用比例不变信噪比(SI-SNR)作为损失函数
Figure BDA0003373905310000159
enoise=y-starget
Figure BDA00033739053100001510
其中,y,
Figure BDA00033739053100001511
分别是降噪后的语音和纯净语音。
步骤6超参数设置
多头注意力网络的head设置为4,MSC使用的卷积核大小为64,卷积核数量为16,步长为2,膨胀数为2。在训练阶段,使用150epoch进行训练,保存在验证集表现最好的模型。另外,在训练时,若最近10epoch模型损失值在验证集上没有降低,则将自动停止训练。使用adam作为损失函数优化器,同时为防止梯度爆炸,使用L2范数为5进行梯度剪裁。对于学习率,在训练过程中使用动态策略warmup去调整,它能够在训练初期以较小的学习率对模型进行预热,增加模型的稳定性,然后逐渐以0.98的衰减率每3epoch进行降低。
Figure BDA0003373905310000161
Figure BDA0003373905310000162
其中,lr指学习率,n是训练的步数,a1、a2、n_warmups、dmodel是超参数。在实验中,设置a1为0.2,a2为1e-3,n_warmups为4000,dmodel为64。
训练结束后,得到参数确定的多通道语音增强模型,作为优化后的模型。
步骤7模型推理
使用带噪语音作为模型输入,将数据经过步骤2-4,即可生成增强后的语音,具体过程见图6。
本实施例在多通道语音增强前后的语音波形图和频谱图,参见图7至图10,未处理前噪声能量较高,时域上已经比较难以区分语音分量和噪声分量,经过算法处理,噪声成分消除较为彻底,静音段已经趋于直线,频谱图上也有较为明显的噪声抵消,噪声能量最低的部分对应时域波形的直线部分。
本实施例基于单通道参考麦克风信号的选择,归一化处理多通道拾音信号,采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,并通过多头注意力机制设计ACG-Net滤波器,使用卷积计算,获得参考麦克风降噪后语音信号。通过计算通道间特征,通过ACG-Net网络,生成与麦克风一一对应的滤波器,卷积滤波后,将结果取均值,获得最终降噪语音。该方法的优势在于通过标准化处理输入数据,使用双阶段形式,加强通道间特征的提取。在每个阶段都会计算不同通道麦克风的通道特征,充分均衡空间的远近场特征,较好解决实际场景中语音能量不均问题。实验结果证明,该方法能够对室内空间中远近场带噪语音起到很好的降噪效果。
本发明提供的多通道语音增强方法基于深度学习框架进行多通道语音增强算法设计,相较于传统方法,无需假设条件进行算法设计,以数据为驱动,更好的利用空间特征;对于麦克风阵列中拾取的多通道信号,首先对语音信号数据进行变换,使其能量分布在训练集所使用的语音数据的能量分布范围内,进行均值和方差的归一化计算,以解决接收语音信号能量分布不均的问题,避免接收信号影响模型效果,降低模型性能。在深度学习的算法框架中,设计双阶段方式进行多通道语音增强,第一阶段,选取参考麦克风,融合多个通道间特征提取方法,对参考麦克风进行语音增强;第二阶段,使用增强后的参考麦克风信号对其他通道进行通道间特征提取,并对其它通道进行信号增强,最后将其增强信号平均池化,形成增强后的语音信号。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种采用麦克风阵列拾音的多通道语音增强方法,其特征在于,包括以下步骤:
S1、利用多个单通道麦克风对语音进行多通道拾音并进行预处理;
S2、选择其中一个单通道麦克风作为参考麦克风,基于所述参考麦克风的选择,进行归一化处理多通道拾音信号,采用NCC和MCS两种特征提取并联合平均的方式降低通道间的信号差异,再通过多头注意力网络设计出与所述参考麦克风对应的滤波器,使用该滤波器对所述参考麦克风的拾音信号进行卷积操作,以获得所述参考麦克风滤波后的增强语音信号;
S3、结合所述参考麦克风滤波后的增强语音信号,对其它单通道麦克风进行NCC和MCS两种特征提取,并通过多头注意力网络设计出与其它单通道参考麦克风一一对应的滤波器,其它单通道麦克风通过对应的滤波器对各自的拾音信号进行卷积操作,以分别获得其它单通道麦克风滤波后的增强语音信号;
S4、将所有的单通道麦克风的增强语音信号进行联合并将进行均值处理,以获得最终的增强语音信号。
2.根据权利要求1所述的多通道语音增强方法,其特征在于,在步骤S1中,预处理包括以下步骤:
S101、对语音数据前后进行补零;
S102、对补零后的语音数据进行分帧处理,
Figure FDA0003373905300000011
其中,M为帧长,K为帧移,Z为帧数,t是帧索引值,i是麦克风的索引,
Figure FDA0003373905300000012
表示单通道麦克风i在帧t处的语音向量;
S103、对分帧后的语音数据添加上下文语音窗口,
Figure FDA0003373905300000013
其中,W为上下文窗口大小,
Figure FDA0003373905300000014
是麦克风i在帧t处包含上下文的语音向量;
S104、将所有通道的分帧语音数据x添加到数组中,形状为[N,M,Z],将所有通道的添加上下文窗口的语音数据
Figure FDA0003373905300000015
添加到另一个数组中,形状为[N,2W+M,Z],其中N为通道数量。
3.根据权利要求2所述的多通道语音增强方法,其特征在于,在步骤S2中,对添加上下文窗口的语音数据进行NCC和MCS两种特征提取并分别进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。
4.根据权利要求3所述的多通道语音增强方法,其特征在于,将经MCS特征提取并进行平均池化操作的结果进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
5.根据权利要求4所述的多通道语音增强方法,其特征在于,与所述参考麦克风对应的滤波器的设计包括以下步骤:
S201、所述输入数据输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S202、将步骤S201的结果经过带有Prelu激活函数的一维卷积处理;
S203、将步骤S202的结果先进行形状变换,再经过BiLSTM和Prelu激活函数处理;
S204、将步骤S203的结果输入到Linear线性层,并进行形状变换;
S205、使用跳跃连接将步骤S201的结果与步骤S204的结果进行相加,并进行LayerNorm正则化操作;
S206、对步骤S205的结果进行形状变换,然后对变换后的结果和步骤S201中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S207、将步骤S206的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成所述参考麦克风对应的滤波器。
6.根据权利要求2所述的多通道语音增强方法,其特征在于,在步骤S3中,对添加上下文窗口的语音数据结合所述参考麦克风滤波后的增强语音信号进行NCC特征提取,对其它单通道麦克风对应的分帧语音数据进行MCS特征提取并进行平均池化操作,以作为所述多头注意力网络中的一部分输入数据。
7.根据权利要求6所述的多通道语音增强方法,其特征在于,将其它单通道麦克风对应的添加上下文窗口的语音数据进行一维卷积以及GroupNorm操作,以得到所述多头注意力网络中的另一部分输入数据。
8.根据权利要求7所述的多通道语音增强方法,其特征在于,与其它单通道麦克风对应的滤波器的设计包括以下步骤:
S301、所述输入数据进行形状变换后输入所述多头注意力网络输出,使用跳跃连接将输出的结果与所述输入数据相加,并进行LayerNorm正则化操作;
S302、将步骤S301的结果进行形状变换后,再经过带有Prelu激活函数的一维卷积处理;
S303、将步骤S302的结果进行形状变换后,再经过BiLSTM和Prelu激活函数处理;
S304、将步骤S303的结果输入到Linear线性层处理;
S305、使用跳跃连接将步骤S301的结果与步骤S304的结果进行相加,并进行LayerNorm正则化操作;
S306、对步骤S305的结果进行形状变换,然后对变换后的结果和步骤S301中的输入数据使用跳跃连接后,进行一维卷积操作,并使用Prelu激活函数处理;
S307、将步骤S306的结果分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘后进行变换形状,以生成其它单通道麦克风对应的滤波器。
9.根据权利要求1所述的多通道语音增强方法,其特征在于,利用步骤S2-S4构建多通道语音增强模型,对所述多通道语音增强模型进行模型训练,步骤S1之前需要生成训练数据作为所述单通道麦克风拾音的对象,再执行步骤S1-S4,其中,生成训练数据包括以下步骤:
P1、从采样率相同的纯净语音数据集和噪声数据集各随机选取一个音频;
P2、将选取的纯净语音和噪声音频切分为长度相同的音频文件;
P3、根据降噪场景的噪声强度设置信噪比;
P4、设置降噪空间尺寸和单通道麦克风、说话人、噪声源位置,并使用gpuRIR工具包,模拟声音回响。
10.根据权利要求9所述的多通道语音增强方法,其特征在于,对所述多通道语音增强模型进行模型训练时使用比例不变信噪比作为损失函数进行模型调参计算,以得到优化后的多通道语音增强模型。
CN202111411208.9A 2021-11-25 2021-11-25 一种采用麦克风阵列拾音的多通道语音增强方法 Pending CN114339539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111411208.9A CN114339539A (zh) 2021-11-25 2021-11-25 一种采用麦克风阵列拾音的多通道语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111411208.9A CN114339539A (zh) 2021-11-25 2021-11-25 一种采用麦克风阵列拾音的多通道语音增强方法

Publications (1)

Publication Number Publication Date
CN114339539A true CN114339539A (zh) 2022-04-12

Family

ID=81047199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111411208.9A Pending CN114339539A (zh) 2021-11-25 2021-11-25 一种采用麦克风阵列拾音的多通道语音增强方法

Country Status (1)

Country Link
CN (1) CN114339539A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198308A (zh) * 2023-09-11 2023-12-08 辽宁工程技术大学 一种车内反馈音效的风格迁移方法
CN117975982A (zh) * 2024-04-01 2024-05-03 天津大学 一种基于g-lpc的病理嗓音增强方法及装置
CN117975982B (zh) * 2024-04-01 2024-06-04 天津大学 一种基于g-lpc的病理嗓音增强方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117198308A (zh) * 2023-09-11 2023-12-08 辽宁工程技术大学 一种车内反馈音效的风格迁移方法
CN117198308B (zh) * 2023-09-11 2024-03-19 辽宁工程技术大学 一种车内反馈音效的风格迁移方法
CN117975982A (zh) * 2024-04-01 2024-05-03 天津大学 一种基于g-lpc的病理嗓音增强方法及装置
CN117975982B (zh) * 2024-04-01 2024-06-04 天津大学 一种基于g-lpc的病理嗓音增强方法及装置

Similar Documents

Publication Publication Date Title
Zhang et al. Deep learning based binaural speech separation in reverberant environments
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
US20120082322A1 (en) Sound scene manipulation
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
JPH0566795A (ja) 雑音抑圧装置とその調整装置
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
US11617043B2 (en) EEG-assisted beamformer, beamforming method and ear-worn hearing system
TW201142829A (en) Adaptive noise reduction using level cues
CN113470671B (zh) 一种充分利用视觉与语音联系的视听语音增强方法及系统
CN111798860B (zh) 音频信号处理方法、装置、设备及存储介质
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN110827847B (zh) 低信噪比见长的麦克风阵列语音去噪增强方法
CN111696567B (zh) 用于远场通话的噪声估计方法及系统
Dadvar et al. Robust binaural speech separation in adverse conditions based on deep neural network with modified spatial features and training target
EP2437517B1 (en) Sound scene manipulation
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
US20220076690A1 (en) Signal processing apparatus, learning apparatus, signal processing method, learning method and program
CN114339539A (zh) 一种采用麦克风阵列拾音的多通道语音增强方法
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
WO2020103035A1 (zh) 音频处理方法、装置、存储介质及电子设备
US8700391B1 (en) Low complexity bandwidth expansion of speech
CN114255777A (zh) 实时语音去混响的混合方法及系统
CN114245266B (zh) 小型麦克风阵列设备的区域拾音方法及系统
CN115359804A (zh) 一种基于麦克风阵列的定向音频拾取方法和系统
CN115273884A (zh) 基于频谱压缩和神经网络的多阶段全频带语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination