CN113744751A

CN113744751A - 一种应用于麦克风阵列的多通道语音信号增强方法

Info

Publication number: CN113744751A
Application number: CN202110935773.9A
Authority: CN
Inventors: 姜彦吉; 梁振兴; 张胜; 邱友利; 田桂源; 张潇
Original assignee: Huayan Huisheng Suzhou Electronic Technology Co ltd; Suzhou Automotive Research Institute of Tsinghua University
Current assignee: Huayan Huisheng Suzhou Electronic Technology Co ltd; Suzhou Automotive Research Institute of Tsinghua University
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-12-03
Anticipated expiration: 2041-08-16
Also published as: CN113744751B

Abstract

本发明公开了一种应用于麦克风阵列的多通道语音信号增强方法，包括以下步骤：生成训练数据；对所述训练数据进行预处理；对预处理结果进行通道间特征提取；设计多通道滤波器；利用所述各个通道的滤波器对对应通道的第一分帧语音数据或第二分帧语音数据或带噪语音数据进行滤波操作，得到经过滤波后的增强语音信号；对各个通道的增强语音信号进行加权求和、取平均操作，以得到目标输出语音。本发明提供的多通道语音信号增强方法充分考虑降噪空间的空间特性，采用创新方法提取多通道间特征，并设计双阶段Bi‑LSTM作为多通道滤波器，使得声场传输特性表达更准确。

Description

一种应用于麦克风阵列的多通道语音信号增强方法

技术领域

本发明涉及语音降噪领域，尤其涉及一种应用于麦克风阵列的多通道语音信号增强方法。

背景技术

传统的多通道语音增强方法主要是基于集中式的麦克风阵列，对于分布式麦克风阵列的多通道语音增强方法研究较少。集中式麦克风阵列的算法多是基于信号处理方法，比如常见的波束成形算法。按照算法参数，波束成形方法可分为固定波束形成方法和自适应波束形成方法。固定波束形成方法基于固定结构的麦克阵列，算法设置好麦克阵列的每个方向上的滤波系数，使得阵列对特定需求方向上的声源进行增强，指向性是固定的，常见的是多通道的延迟求和法；自适应波束形成算法可以不依赖麦克风的结构位置，其滤波系数可以自适应调整，适应新环境能力比较强，常见的是多通道维纳滤波法。

基于信号处理方法的多通道语音增强具有计算实时性好的优点，但是算法设计往往基于一定假设条件，比如假设信号是平面波传播，声场均匀绝热，噪声是平稳的等等，算法在推导过程中也有一些数学上的近似，但这与实际真实场景是不相符的，并没有考虑到降噪空间的空间特性。所以这些方法在实际应用场景中，降噪性能较难提升。

发明内容

为了解决现有技术的问题，本发明提供了一种应用于麦克风阵列的多通道语音信号增强方法，具体技术方案如下：

本发明提供了一种应用于麦克风阵列的多通道语音信号增强方法，包括以下步骤：

S1、生成训练数据，包括：将预采集的语音数据输入模拟麦克风阵列场景以生成多通道的模拟语音数据，并将其与预采集或预处理的噪声数据相加，得到带噪语音数据；

S2、对所述训练数据进行预处理，包括：对带噪语音数据进行分帧处理，得到多个第一分帧语音数据，并对所述第一分帧语音数据添加上文语音窗口和/或下文语音窗口，得到多个第二分帧语音数据；

S3、对预处理结果进行通道间特征提取，包括：对所述第一分帧语音数据进行处理得到在各个帧处的第一语音特征向量；对所述第二分帧语音数据进行处理得到在各个帧处的第二语音特征向量；

S4、设计多通道滤波器，包括：将所述第一语音特征向量与第二语音特征向量联合，通过对联合后的向量进行维度调整、卷积、分块的操作后，将操作结果输入Bi-LSTM层和/或Linear层，得到层输出数据；并对所述层输出数据进行维度调整和分块合并操作，生成各个通道的滤波器；

S5、利用所述各个通道的滤波器对对应通道的第一分帧语音数据或第二分帧语音数据或带噪语音数据进行滤波操作，得到经过滤波后的增强语音信号；

S6、对各个通道的增强语音信号进行加权求和、取平均操作，以得到目标输出语音。

进一步地，步骤S3中，所述对所述第一分帧语音数据进行处理得到在各个帧处的第一语音特征向量包括：对每个第一分帧语音数据进行卷积操作及GroupNorm操作，得到在该帧处的第一语音特征向量；

所述对所述第二分帧语音数据进行处理得到在各个帧处的第二语音特征向量包括以下步骤：

S31、对所述第二分帧语音数据在帧长维度上进行平均值池化操作；

S32、将平均值池化结果输入到一组全连接层中进行数据处理；

S33、将所述全连接层输出的处理结果输入到Softmax函数，得到在各个帧处的权重向量；

S34、根据所述各个帧处的权重值，得到该帧处的第二语音特征向量。

优选地，步骤S31中的平均值池化操作包括：

其中，

是第i麦克风在帧数t处的平均值，N为麦克风阵列中麦克风的数量；

步骤S32中的数据处理包括：

其中，G_t是在帧数为t的麦克风阵列特征，P(*)为一组带有参数修正线性单元激活函数的全连接层，S(*)是一个带有Sigmoid激活函数的全连接层。

进一步地，步骤S4中所述设计多通道滤波器的步骤包括：

S41、将步骤S3中得到的第一语音特征向量与第二语音特征向量进行联合：xb_t＝concat([out_t,y_t])，其中，out_t为第二语音特征向量，y_t为第一语音特征向量，xb_t表示在帧数t处的联合语音向量，xb表示联合后的语音向量；

S42、将步骤S41中联合后的语音向量进行维度调整，再输入到一维卷积中：

其中c为卷积输出结果，其向量维度为N×M×Z，其中，N为麦克风阵列中麦克风的数量，M为分帧处理的帧长采样点数量，Z为各个通道内分帧处理的帧数；

S43、对步骤S42中的卷积输出结果进行分块操作，设置块长为S、总块数为U，得到分块后的向量O，其向量维度为N×M×S×U；

S44、对步骤S43中分块后的向量O进行调整维度：out＝reshape(O)，调整后的向量out的向量维度为(S×N)×U×M；

S45、将out依次输入到Bi-LSTM、Linear层，并进行GroupNorm正则化操作如下：out₁＝GroupNorm(Linear(BiLSTM(out)))；

S46、对out₁进行维度调整：out₂＝reshape(out₁)，调整后的向量out₂的向量维度为N×M×S×U；

S47、对分块进行合并：out₈＝OD(out₂)，其中，OD(·)是合并操作，out₈为得到的合并向量，其向量维度为M×N×Z；

S48、将步骤S47中得到的合并向量分别输入到带有Tanh激活函数的一维卷积中：h＝Tanh(Conv1d(out₈))，其中，h的向量维度为N×C×Z，其中C为一维卷积的输出通道数；

S49、将h变换形状：Filter＝reshape(h)，其中，Filter为生成的多通道滤波器，其向量维度为N×Z×C。

优选地，在步骤S46与S47之间，还包括对步骤S47中的向量out₂执行以下步骤以生成新的合并操作的对象：

S46-1-47、网络使用跳跃连接，将out₂与O进行相加：out₃＝out₂+O；

S46-2-47、对out₃进行维度调整：out₄＝reshape(out₃)，其中out₄的向量维度为(U×N)×S×M；

S46-3-47、将out₄依次输入到第二阶Bi-LSTM层、Linear层，并进行GroupNorm正则化操作：out₅＝GroupNorm(Linear(BiLSTM(out₄)))；

S46-4-47、对out₅进行维度调整：out₆＝reshape(out₅)，其中out₆的向量维度为N×M×S×U；

S46-5-47、网络再次使用跳跃连接，将out₆与out₃进行相加：out₇＝out₆+out₃；

S46-6-47、对out₇调整维度，将调整维度的结果reshape(out₇)作为步骤S47中的合并操作的对象，使步骤S47执行out₈＝OD(reshape(out₇))。

优选地，所述多通道语音信号增强方法还包括对步骤S47得到的合并向量out₈进行二维卷积操作：out₉＝Conv2d(out₈)，其中，out₉的向量维度为M×N×S×U，二维卷积操作的输出通道数为N；

将out₉作为步骤S48中输入到带有激活函数的一维卷积中的操作对象，且步骤S48中输入到带有Tanh激活函数的一维卷积的同时，还输入到带有Sigmoid激活函数的一维卷积中，并对两个输出结果进行相乘操作：h＝Tanh(Conv1d(out₉))⊙Sigmoid(Conv1d(out₉))，其中，⊙为哈达玛积。

进一步地，步骤S1中生成训练数据的步骤包括：

S11、从预采集的语音数据集中随机选取一个语音音频，从预采集的噪声数据集中随机选取一个噪声音频；

S12、将选取的语音音频和噪声音频按照预设时长进行切分，分别得到多个语音切分音频和多个噪声切分音频；

S13、根据预设的降噪空间尺寸和麦克风、语音音频声源、噪声源在所述降噪空间内的位置，使用gpuRIR工具包，对所述多个语音切分音频进行模拟声音回响，得到模拟语音数据；并在预设的信噪比范围内，将所述噪声切分音频按照不同的信噪比与所述模拟语音数据进行相加，得到多个带噪语音。

进一步地，步骤S2中对所述训练数据进行预处理的步骤包括：

S21、对带噪语音数据的前后进行补零；

S22、对补零后的带噪语音数据进行分帧处理，设置帧长M和帧移K，以确定采样点，得到相应的语音向量，作为第一分帧语音数据，

其中，t是帧索引值，i是麦克风的索引，

表示第i麦克风在帧t处的语音向量，其向量维度为1×M，Z为帧数；

S23、对分帧后的带噪语音数据添加上下文语音窗口，得到相应的语音向量，作为第二分帧语音数据，

其中，W为上下文窗口大小，

是第i麦克风在t帧处包含上下文的语音向量，其向量维度为2W+M。

优选地，在步骤S5中所述各个通道的滤波器对对应通道第二分帧语音数据进行滤波操作后，还需要去掉先前所补的零，使得经过滤波后的增强语音信号恢复到原来的语音长度。

优选地，步骤S34中通过以下公式得到语音特征序列，作为该帧处的第二语音特征向量，

其中，

是第i麦克风在帧数t处的语音特征序列，

是在帧数t处的权重向量。

本发明提供的技术方案带来的有益效果如下：

a.对空间的声场传输特性表达更准确；

b.可以更好的利用空间特征，提升降噪性能；

c.提高了降噪的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的多通道语音信号增强方法的整体流程图；

图2是本发明实施例提供的多通道语音信号增强方法中多通道滤波器设计处理流程图；

图3是本发明实施例提供的多通道语音信号增强方法中通道间特征提取模块处理流程图；

图4是本发明实施例提供的四麦克风分布式阵列示意图；

图5是本发明实施例提供的多通道语音信号增强方法中Bi-LSTM block框架图；

图6是本发明实施例提供的多通道语音信号增强方法中Bi-LSTM层的结构示意图；

图7是本发明实施例提供的双麦克风线性阵列示意图；

图8是本发明实施例提供的2线性双麦克风分布式阵列示意图；

图9是本发明实施例提供的四麦克风线性阵列示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本发明的一个实施例中，提供了一种应用于麦克风阵列的多通道语音信号增强方法，参见图1，包括以下步骤：

具体地，生成训练数据的步骤包括：

具体地，对所述训练数据进行预处理的步骤包括：

S21、对带噪语音数据的前后进行补零；

其中，t是帧索引值，i是麦克风的索引，

其中，W为上下文窗口大小，

具体地，所述对所述第一分帧语音数据进行处理得到在各个帧处的第一语音特征向量包括：对每个第一分帧语音数据进行卷积操作及GroupNorm操作，得到在该帧处的第一语音特征向量；

参见图2，所述对所述第二分帧语音数据进行处理得到在各个帧处的第二语音特征向量包括以下步骤：

其中，参见图3，所述设计多通道滤波器的步骤包括：

进一步地，在步骤S46与S47之间，还包括对步骤S47中的向量out₂执行以下步骤以生成新的合并操作的对象：

S46-3-47、参见图4和图5，将out₄依次输入到第二阶Bi-LSTM层、Linear层，并进行GroupNorm正则化操作：

out₅＝GroupNorm(Linear(BiLSTM(out₄)))；

对步骤S47得到的合并向量out₈进行二维卷积操作：out₉＝Conv2d(out₈)，其中，out₉的向量维度为M×N×S×U，二维卷积操作的输出通道数为N；

其中，所述各个通道的滤波器对对应通道第二分帧语音数据进行滤波操作后，还需要去掉先前所补的零，使得经过滤波后的增强语音信号恢复到原来的语音长度。

下面以具体数值为例进行语音信号增强处理说明

步骤1、生成训练数据

从采样率均为16K Hz的纯净语音数据集和噪声数据集各随机选取一个音频，将选取的纯净语音和噪声切分为长度4s的音频文件；设置信噪比，其范围是[-5db,0db]，增加训练数据的覆盖范围，设置降噪空间尺寸和分布式麦克风、说话人、噪声源位置，使用gpuRIR工具包，模拟声音回响，得到模拟语音数据，分布式麦克风阵列如图6所示，图6中圆形是麦克风，正方形是纯净语音源，五角星是噪声源；将噪声按照不同信噪比与模拟语音数据进行相加，生成带噪语音。需要注意的是，所述带噪语音包括了噪声数据、纯净语音数据及其回声数据，通过不同的信噪比叠加，更贴近实际情景。

步骤2、对训练数据进行预处理

步骤2.1对带噪语音数据前后进行补零，前后各补32个零，以防止语音数据的首末特征丢失。

步骤2.2对补零后的带噪语音数据进行分帧处理，设置帧长M为64个采样点，帧移K为32个采样点，

其中，t是帧索引值，i是麦克风的索引，Z为帧数，

表示麦克风i在帧t处的语音向量，

其表示

的向量维度为1×M，以下相似表达不再赘述。

步骤2.3对分帧后的语音数据添加上下文语音窗口

其中，W为上下文窗口大小，

是麦克风i在t帧处包含上下文的语音向量，以减少通道间的延时误差。

步骤2.4将所有通道的分帧语音数据x添加到数组中，形状为[N,M,Z]，将所有通道的添加上下文语音数据

添加到另一个数组中，形状为[N,2W+M,Z]，其中N为麦克风阵列中麦克风的数量，麦克风的数量与通道数量相同且对应。

步骤3、基于权重分配的通道间的特征提取

步骤3.1输入经过步骤2处理过的语音数据

在帧长维度上，进行平均值池化操作

其中，

是麦克风i在帧数t处的平均值。

步骤3.2将步骤3.1的结果输入到一组全连接层中

其中，

G_t是在帧数为t的麦克风阵列特征，参见图2，P(*)是一组带有参数修正线性单元PReLU激活函数的全连接层，这组全连接层的输出维度分别为[128,64,128]，S(*)是一个带有Sigmoid激活函数的全连接层，输出维度为[N]。

步骤3.3将步骤3.2的结果输入到Softmax激活函数中

其中，

是在帧数t处的权重向量，其总和为1，取值范围是[0,1]。

步骤3.4将步骤3.3的结果

与

做乘积后输出

其中，

表示麦克风i在帧数t处的语音特征序列。

步骤4、对语音信号x进行一维卷积操作，并进行GroupNorm操作后输出

y_t＝GroupNorm(Conv1d(x_t))

其中，

y_t是帧数t处的语音特征向量，一维卷积的卷积核大小为1，其输出通道数为N。

需要注意的是，步骤3和步骤4的处理不分先后，也可同时进行。

步骤5、对多通道滤波器进行设计

步骤5.1将步骤4的输出与步骤3.4的输出进行联合

xb_t＝concat([out_t,y_t])

其中，

xb_t表示在帧数t处的语音向量，

xb表示联合后的语音向量。

步骤5.2将步骤5.1联合后的向量变换形状，

再输入到一维卷积中后输出

其中

一维卷积的卷积核大小为1,输出通道数为64。

步骤5.3对c进行分块操作，设置块长S为50，块移动为25，总块数为U，划分后的向量设为O，

步骤5.4对向量O调整维度

out＝reshape(O)

其中，

步骤5.5参见图4和图5，将out依次输入到Bi-LSTM、Linear层，并进行GroupNorm正则化操作，

out₁＝GroupNorm(Linear(BiLSTM(out)))

其中，

参见图4，Bi-LSTM层的输出维度设置为256，Linear层的输出维度设置为64，GroupNorm层的输出维度设置为64，输入层的输出维度设置为64。

步骤5.6对out₁进行维度调整

out₂＝reshape(out₁)

其中，

步骤5.7网络使用跳跃连接，将out₂与O进行相加

out₃＝out₂+O

步骤5.8对out₃进行维度调整

out₄＝reshape(out₃)

其中，

步骤5.9将out₄依次输入到第二阶Bi-LSTM层、Linear层，并进行GroupNorm正则化操作

out₅＝GroupNorm(Linear(BiLSTM(out₄)))

其中，

Bi-LSTM的输出维度设置为256，Linear层的输出维度设置为64。

步骤5.10对out₅进行维度调整

out₆＝reshape(out₅)

其中，

步骤5.11网络再次使用跳跃连接，将out₆与out₃进行相加

out₇＝out₆+out₃

步骤5.12对out₇调整维度，然后对分块进行合并

out₈＝OD(reshape(out₇))

其中，

OD(·)是合并操作

步骤5.13对out₈进行二维卷积操作

out₉＝Conv2d(out₈)

其中，

二维卷积操作的卷积核大小为1，其输出通道数为N。

步骤5.14将out₉分别输入到带有sigmoid和Tanh激活函数的一维卷积中，并将其进行相乘

h＝Tanh(Conv1d(out₉))⊙Sigmoid(Conv1d(out₉))

其中，

⊙为哈达玛积，一维卷积的卷积核大小为1，其输出通道数为C。

步骤5.15将h变换形状

Filter＝reshape(h)

其中，

Filter为生成的多通道滤波器。

步骤6使用步骤5.15生成的多通道滤波器，对语音

进行卷积操作

其中，

表示第i麦克风经过滤波后的语音信号。

步骤7对增强语音信号

进行维度变化，然后去掉先前所补的零，恢复原来语音长度

其中，

表示第i麦克风恢复原始长度的语音增强信号。

步骤8对各个通道的增强语音信号加权求和，再取平均，以得到最终输出增强后的语音

其中，a_i表示麦克风i的权重值，

y是最终输出增强后的语音。

本实施例提供的多通道语音信号增强方法适充分考虑降噪空间的空间特性，采用创新方法提取多通道间特征，并设计双阶段Bi-LSTM作为多通道滤波器，因为分布式麦克风结构对空间的声场传输特性表达更准确，该方法更适合分布式麦克风阵列结构，经过实验验证，对比了四种麦克风阵列结构的四种降噪评价指标SDR、SI-SNR、PESQ、STOR，四种麦克风阵列分别为四麦克风分布式阵列(记作4db)、双麦克风线性阵列(记作2Linear)、2线性双麦克风分布式阵列(记作2x2db)、四麦克风线性阵列(记作4Linear)，参见图6至图9，图6至图9的图中圆形是指麦克风，正方形是指纯净语音源，五角星是指噪声源，四种阵列的对比结果参见表1，可明显发现基于该方法的多通道降噪取得了比基于传统麦克风阵列语音增强方法更佳的降噪性能，同时分布式四麦的指标表现优于其他结构的麦克风阵列。

表1本发明方法在不同指标和不同信噪比上的表现

现有技术多针对集中式麦克风阵列进行多通道语音增强，且方法中对声场的传输特性做了严格假设，对于复杂的噪声场景，多通道麦克风没有将空间特征充分利用。而本发明提供的多通道语音信号增强方法相比于单通道语音增强可以更好的利用空间特征，提升降噪性能。本发明基于语音帧级别进行通道间特征提取，充分利用多个通道间的空间特征，采用双阶段双向Bi-LSTM网络训练多通道滤波器，最后形成增强后的语音信号，需要注意的是，步骤5.5和步骤5.9对应到双阶段双向Bi-LSTM块的两次处理，也可以增加更多阶段的双向Bi-LSTM块处理，采取与步骤5.5与步骤5.9之间相似的操作进行更多次阶段的处理，具体需要依据其他设置条件而定。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。