CN109427328A

CN109427328A - 一种基于滤波网络声学模型的多通道语音识别方法

Info

Publication number: CN109427328A
Application number: CN201710750635.7A
Authority: CN
Inventors: 张鹏远; 张宇; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2019-03-05
Anticipated expiration: 2037-08-28
Also published as: CN109427328B

Abstract

本发明公开了一种基于滤波网络声学模型的多通道语音识别方法，所述方法包括：步骤1)对于给定的麦克风阵列，建立和训练基于滤波网络的声学模型；所述模型为一个滤波网络连接一个LSTM声学模型；步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号；步骤3)对采集的每个单通道语音信号进行预处理；然后，提取每个单通道语音信号的log‑mel特征以及麦克风之间的交叉相关向量；将处理得到的特征输入训练好的基于滤波网络的声学模型，将输出的状态后验概率用于后续的语音识别过程，最终获得语音识别结果。本发明的方法将自适应滤波网络与声学模型联合优化，避免了传统方法中前后端分开优化导致的次优解。

Description

一种基于滤波网络声学模型的多通道语音识别方法

技术领域

本发明涉及语音识别领域，特别涉及一种基于滤波网络声学模型的多通道语音识别方法。

背景技术

近年来，基于深度神经网络(Deep Neural Network，DNN)的声学模型建模方法已经在语音识别领域取得了突出的成果。长短时记忆模型(Long Short Term Memory,LSTM)等复杂神经网络的提出进一步提升了声学模型的能力。然而，由于背景噪声，混响以及人声干扰等因素，远场语音识别任务仍然充满挑战。

与单麦克风采集语音信号相比，使用麦克风阵列可以改善远场语音识别系统的鲁棒性，因其能够提供空间上的区分度。传统的多通道语音识别系统一般采用两部分架构，首先，利用波束形成算法将多通道语音信号形成一个语音信号实现语音增强，然后，利用增强后的语音信号进行声学模型训练。前端波束形成算法的优化准则是信号级别的准则，后端声学模型的优化标准是识别的准确率。

由于前端的语音增强与后端的识别模块分开优化，整个系统未能针对最终目标(语音识别准确率)进行优化。因此，上述方法得到的模型为次优解，从而影响最终的识别准确率。

发明内容

本发明的目的在于克服已有的多通道语音识别方法中的前端和后端分开优化的缺陷，提出一种基于滤波网络声学模型的多通道语音识别方法，将自适应滤波网络与声学模型联合优化，避免了传统方法中前后端分开优化导致的次优解。

为了实现上述目的，本发明提出了一种基于滤波网络声学模型的多通道语音识别方法，所述方法包括：

步骤1)对于给定的麦克风阵列，建立和训练基于滤波网络的声学模型；所述模型为一个滤波网络连接一个LSTM声学模型；

步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号；

步骤3)对采集的每个单通道语音信号进行预处理；然后，提取每个单通道语音信号的log-mel特征以及麦克风之间的交叉相关向量；将处理得到的特征输入训练好的基于滤波网络的声学模型，将输出的状态后验概率用于后续的语音识别过程，最终获得语音识别结果。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤1-1)对于给定的麦克风阵列，建立基于滤波网络的声学模型；所述模型为一个自适应滤波网络连接一个LSTM声学模型；

步骤1-2)基于给定的麦克风阵列建立的训练集，对基于滤波网络的声学模型进行训练；模型的训练方式为模型参数利用训练目标函数做误差反向传播联合更新。

作为上述方法的一种改进，所述步骤1-2)具体包括：

步骤1-2-1)建立训练集，所述训练集包括若干个通过所述麦克风阵列采集的训练语音及其对应的标注；所述麦克风阵列包括M个麦克风；

步骤1-2-2)对每个训练语音的每个单通道语音信号进行预处理，然后，提取每个单通道语音信号的40维log-mel特征；

步骤1-2-3)将M个通道的40维log-mel特征并联得到特征向量，然后，对此特征向量做均值方差规整去除信道不同所带来的影响，使规整后的特征服从N(0,1)分布，得到规整的多通道log-mel特征x_t；

步骤1-2-4)计算麦克风阵列中麦克风对之间的交叉相关向量，提取中心的21个相关系数；

步骤1-2-5)将交叉相关向量输入到自适应滤波网络，自适应滤波网络的输出值f_t限制在0到1之间；

其网络表达式如下：

h_t＝Filter(gcc_t)

f_t＝sigmoid(W_fhh_t+b_fh)

其中，Filter(.)是DNN或LSTM神经网络，gcc_t为t时刻的GCC特征，W_fh和b_fh分别为自适应滤波网络的权重矩阵和偏置向量，sigmoid函数将网络输出限制在0和1之间，输出滤波系数f_t；

步骤1-2-6)将步骤1-2-3)生成的log-mel特征向量x_t与步骤1-2-5)得到的滤波系数向量f_t逐元素相乘，得到滤波后的向量此操作表达式为：

其中，⊙代表两向量之间的逐元素相乘；

步骤1-2-7)将步骤1-2-6)生成的滤波特征做上下文扩展，插入上下文信息；

步骤1-2-8)将扩展后的特征输入LSTM声学模型，LSTM的输出为预测的声学状态后验概率；

步骤1-2-9)利用帧级别的状态标注结果和交叉熵目标函数，通过误差反向回传算法对基于滤波网络的声学模型做参数迭代更新，迭代更新完毕得到训练好的基于滤波网络的声学模型。

作为上述方法的一种改进，所述步骤1-2-2)的预处理过程为：首先对语音信号做预加重处理，预加重用于提升高频部分，使频谱更为平坦，以便于进行频谱分析；然后对语音信号分帧，每帧取25ms采样点，将单帧数字信号补零到512点；最后，对每帧信号加窗，加窗函数采用汉明窗；

作为上述方法的一种改进，所述步骤1-2-4)中计算麦克风阵列中麦克风对之间的交叉相关向量的过程为：

M个麦克风之间存在组麦克风对，两通道离散信号x_i(n)和x_j(n)之间交叉相关向量计算公式如下：

其中，IFFT为逆傅里叶变换，X_i(f)和X_j(f)为离散信号x_i(n)和x_j(n)的傅里叶变换，*表示取复数共轭。

本发明的优点在于：

1、本发明的方法将自适应滤波网络与声学模型联合优化，避免了传统方法中前后端分开优化导致的次优解；

2、本发明通过神经网络结构有效的利用麦克风阵列提供的空间区分度信息，改善了多通道语音识别系统的鲁棒性。

附图说明

图1是本发明所提出的应用于多通道语音识别任务中的基于自适应滤波网络的声学模型的示意图；

图2是本发明中使用的特征提取流程图。

具体实施方式

现结合附图和具体实施例对本发明做进一步的描述。

一种基于滤波网络声学模型的多通道语音识别方法，所述方法包括：

步骤1)对于给定的麦克风阵列，建立和训练基于滤波网络的多通道声学模型；具体包括：

步骤1-1)对于给定的麦克风阵列，建立基于滤波网络的多通道声学模型；所述模型为一个滤波网络连接一个LSTM声学模型；

如图1所示，自适应滤波网络的多通道声学模型的结构图。图中的自适应滤波网络为深度神经网络或LSTM神经网络模型。整个框架利用麦克风信道间的广义交叉相关向量(Generalized Cross Correlation,GCC)通过自适应滤波网络预测语音信号在log-mel域的时变滤波系数。使用估计的滤波系数对多通道语音信号的log-mel特征做滤波。得到的滤波后的特征作为传统神经网络声学模型的输入。

步骤1-2)基于给定的麦克风阵列建立的训练集，对基于滤波网络的声学模型进行训练；

模型的训练方式为自适应滤波网络与LSTM(Long-short-Term-Memory，长短时记忆)声学模型参数利用训练目标函数做误差反向传播联合更新。因此，整个结构的优化目标为语音识别准确率。

已知麦克风阵列(包括M个麦克风，即M个语音通道)的两个通道i和j的离散信号为x_i(n)和x_j(n)，GCC的计算公式可以表示为如下：

其中，X_i(f)和X_j(f)为离散信号x_i(n)和x_j(n)的傅里叶变换，*表示取复数共轭，IFFT为逆傅里叶变换。GCC表示两信道间的相关性，自变量n在两信道间的延时点处取到最大值。它包含麦克风信道间接收信号的时延信息，而信道间的时延是一种对空间信息的编码表示。因此，通常使用GCC对说话人定位。本发明的方法通过GCC向量将空间信息加入到神经网络声学建模中，利用空间信息直接对语音信号的特征做滤波。一般在声学建模中，log-mel特征的提取采用25ms帧长和10ms帧移。为了匹配特征提取的时间尺度，GCC的提取采用同样的参数。GCC维度的选取与麦克风数目，语音采样率，以及阵列中两麦克风间的最大距离有关。

为了处理一句话中说话位置人变化的问题，模型采用自适应滤波网络，即每帧预测的滤波系数随着GCC向量的变化而变化。自适应滤波网络可描述为如下公式：

h_t＝Filter(gcc_t)

f_t＝sigmoid(W_fhh_t+b_fh)

其中，Filter(.)表示前向DNN或LSTM神经网络，gcc_t为t时刻的GCC特征，W_fh和b_fh分别为可训练自适应滤波网络的权重矩阵和偏置向量，⊙代表两向量之间的逐元素相乘操作。sigmoid函数将输出的滤波系数限制在0和1之间。x_t为均值方差规整后的log-mel特征，由多通道语音信号提取的特征并联构成。例如，对8个麦克风组成的阵列中的每个单通道信号提取40维的log-mel特征，特征x_t为320维的log-mel特征。滤波后的特征经过上下文扩展之后输入到LSTM声学模型，模型的输出即为预测的声学状态后验概率。自适应滤波网络和声学模型的参数可通过交叉熵(Cross Entropy,CE)准则或鉴别性序列级准则优化。

所述步骤1-2)具体包括：

步骤1-2-1)建立训练集，所述训练集包括若干个通过所述麦克风阵列采集的训练语音及其对应的标注；

所述麦克风阵列为8个麦克风10厘米半径均匀的圆形麦克风阵列和16khz的麦克风采样频率。

步骤1-2-2)对每个训练语音的每个单通道语音信号进行预处理，然后，提取每个单通道语音信号的40维log-mel特征；具体流程如图2所示；

所述对语音信号的预处理包括：首先，对语音信号预加重处理，预加重用于提升高频部分，使频谱更为平坦，以便于进行频谱分析；然后，对语音信号分帧，每帧取25ms采样点，将单帧数字信号补零到512点；最后，为抑制吉布斯效应对每帧信号加窗，加窗函数采用汉明窗(hamming)。

预处理操作之后，对每帧语音信号进行快速傅里叶变换，得到其离散频谱；然后，使用40组Mel刻度滤波器对离散频谱做滤波，滤波后的输出为40维Mel域频谱；最后，对Mel域频谱取log对数压缩其动态范围，输出结果即为40维log-mel特征。

步骤1-2-3)将8个通道的40维log-mel特征并联，得到320维的特征向量，然后，对此特征向量做均值方差规整去除信道不同所带来的影响，使规整后的特征服从N(0,1)分布，得到规整的多通道log-mel特征x_t；

阵列中麦克风对的数目为任意两麦克风间的最大时延为τ＝0.2m/340m/s＝0.588ms，在16khz的采样率时，它对应着10个采样点的延迟。因此，每对麦克风的中心21个相关系数足够用来预测滤波系数。

8个麦克风之间存在组麦克风对，因此，输入的GCC特征的维度是28*21＝588。两通道离散信号x_i(n)和x_j(n)之间GCC向量计算公式如下：

其中，X_i(f)和X_j(f)为信号的傅里叶变换，*表示取复数共轭。

步骤1-2-5)将588维GCC向量输入到自适应滤波网络，自适应滤波网络的输出值f_t限制在0到1之间；

其网络表达式如下：

h_t＝Filter(gcc_t)

f_t＝sigmoid(W_fhh_t+b_fh)

其中，Filter(.)是DNN或LSTM神经网络，gcc_t为t时刻的GCC特征，W_fh和b_fh分别为自适应滤波网络的权重矩阵和偏置向量，sigmoid函数将网络输出限制在0和1之间，输出为320维的滤波系数f_t。

步骤1-2-6)将步骤1-2-3)生成的320维多通道log-mel特征向量x_t与步骤1-2-5)得到的320维滤波系数向量f_t逐元素相乘，得到滤波后的向量此操作表达式为

其中，⊙代表两向量之间的逐元素相乘；

步骤1-2-7)将步骤1-2-6)生成的320维滤波特征做上下文扩展，插入上下文信息，扩展帧数为5帧，左右各取2帧；

步骤1-2-8)扩展后的1600维特征输入LSTM声学模型，LSTM的输出为预测的声学状态后验概率；

步骤1-2-9)利用帧级别的状态标注结果和交叉熵目标函数，通过误差反向回传算法对基于滤波网络的声学模型做参数迭代更新，迭代更新完毕得到训练好的基于滤波网络的声学模型；

步骤3)对采集的每个单通道语音信号进行预处理。然后，提取每个单通道语音信号的40维log-mel特征以及麦克风之间的交叉相关向量；将按照步骤1-2-3)得到特征输入训练好的基于滤波网络的声学模型，将输出的状态后验概率用于后续的语音识别过程，最终获得语音识别结果。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于滤波网络声学模型的多通道语音识别方法，所述方法包括：

2.根据权利要求1所述的基于滤波网络声学模型的多通道语音识别方法，其特征在于，所述步骤1)具体包括：

3.根据权利要求2所述的基于滤波网络声学模型的多通道语音识别方法，其特征在于，所述步骤1-2)具体包括：

其网络表达式如下：

h_t＝Filter(gcc_t)

f_t＝sigmoid(W_fhh_t+b_fh)

其中，⊙代表两向量之间的逐元素相乘；

4.根据权利要求3所述的基于滤波网络声学模型的多通道语音识别方法，其特征在于，所述步骤1-2-2)的预处理过程为：首先对语音信号做预加重处理，预加重用于提升高频部分，使频谱更为平坦，以便于进行频谱分析；然后对语音信号分帧，每帧取25ms采样点，将单帧数字信号补零到512点；最后，对每帧信号加窗，加窗函数采用汉明窗。

5.根据权利要求4所述的基于滤波网络声学模型的多通道语音识别方法，其特征在于，所述步骤1-2-4)中计算麦克风阵列中麦克风对之间的交叉相关向量的过程为：