CN110047478A

CN110047478A - 基于空间特征补偿的多通道语音识别声学建模方法及装置

Info

Publication number: CN110047478A
Application number: CN201810040168.3A
Authority: CN
Inventors: 张鹏远; 张宇; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2019-07-23
Anticipated expiration: 2038-01-16
Also published as: CN110047478B

Abstract

本发明涉及一种基于空间特征补偿的多通道语音识别声学建模方法及装置,所提出的模型基于传统的混合声学建模框架，即神经网络声学模型预测隐马尔科夫模型状态后验概率，该方法包括：提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征；将所述声学特征和所述空间信息特征，输入神经网络声学模型训练；所述神经网络声学模型输出预测的声学状态后验概率，使用声学模型优化准则对所述神经网络参数做迭代更新，生成基于空间特征补偿的多通道语音识别声学模型。该方法避免了传统方法中前后端分开优化导致的次优解；使神经网络声学模型有效的利用麦克风阵列提供的空间信息，提升了对多通道语音信号的声学建模能力。

Description

基于空间特征补偿的多通道语音识别声学建模方法及装置

技术领域

本发明涉及语音识别领域，特别涉及一种基于空间特征补偿的多通道语音识别声学建模方法及装置。

背景技术

近年来，基于深度神经网络(Deep Neural Network，DNN)的声学建模方法已经在语音识别领域取得了突破性的成果。长短时记忆模型(Long Short-Term Memory,LSTM)等复杂神经网络的提出进一步提升了声学建模能力。然而，由于背景噪声，混响以及人声干扰等因素，远场语音识别任务仍然充满挑战。

与单麦克风采集语音信号相比，多麦克风录制的数据可以提供额外的空间信息。因此，通常采用麦克风阵列提升对远场语音信号的识别准确率。传统的多通道语音识别系统一般采用两部分架构，首先，利用波束形成算法实现语音增强，然后，利用增强后的语音信号进行声学模型训练。前端波束形成算法的优化准则是信号级别的准则，后端声学模型的优化标准是识别的准确率。由于前端的语音增强与后端的识别模块分开优化，整个系统未能针对最终目标(语音识别准确率)进行优化。虽然，研究表明DNN可以通过直接使用多通道输出并联做为网络输入建模声学状态后验概率，但此方法仍然没有充分利用麦克风阵列引入的空间信息，即说话人的位置信息。

发明内容

本发明的目的在于，克服已有的多通道语音识别方法中的前端和后端分开优化的缺陷，提出一种基于空间特征补偿的多通道声学建模方法及装置。

为了解决上述技术问题，第一方面，本发明实施例提供一种基于空间特征补偿的多通道声学建模方法，包括：

提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征；

将所述声学特征和所述空间信息特征，输入神经网络声学模型训练；

所述神经网络声学模型输出预测的声学状态后验概率，使用声学模型优化准则对所述神经网络参数做迭代更新，生成基于空间特征补偿的多通道语音识别声学模型。

作为上述方法的一种改进，提取麦克风阵列中的每个单通道录制的语音信号的声学特征，包括：

对麦克风阵列中的每个单通道录制的语音信号进行预处理，根据所述麦克风阵列中麦克风相关参数提取预设维声学特征；

将所述麦克风阵列中各个通道提取的预设维声学特征并联，计算获得规整的多通道预设维声学特征，并做上下文扩展，得到扩展后的多维度声学特征。

作为上述方法的再一种改进，对麦克风阵列中的每个单通道录制的语音信号进行预处理，包括；

对麦克风阵列中的每个单通道录制的语音信号预加重处理和分帧，对分帧后的每帧语音信号加窗，加窗函数采用汉明窗。

作为上述方法的还一种改进，据所述麦克风阵列中麦克风相关参数提取预设维声学特征，包括：

对每帧语音信号进行快速傅里叶变换，得到离散频谱；

使用Mel滤波器对所述离散频谱做滤波，滤波后的输出为预设维Mel域频谱；

对所述预设维Mel域频谱取log对数，输出结果为预设维log-mel特征。

作为上述方法的进一步改进，提取麦克风阵列中空间信息特征，包括：

计算麦克风阵列中麦克风对之间的交叉相关GCC向量，根据所述GCC向量，得到麦克风阵列中空间信息特征；

计算两通道信号x_i(n)和x_j(n)之间GCC向量公式如下：

其中，X_i(f)和X_j(f)为信号的傅里叶变换，*表示取复数共轭。

第二方面，本发明还提供一种基于空间特征补偿的多通道语音识别声学建模装置，包括：

第一提取模块，用于提取麦克风阵列中的每个单通道录制的语音信号的声学特征；

第二提取模块，用于提取麦克风阵列中空间信息特征；

输入模块，用于将所述声学特征和所述空间信息特征，输入神经网络声学模型训练；

生成模块，用于所述神经网络声学模型输出预测的声学状态后验概率，使用声学模型优化准则对所述神经网络参数做迭代更新，生成基于空间特征补偿的多通道语音识别声学模型。

作为上述装置的一种改进，所述第一提取模块，包括：

预处理子模块，用于对麦克风阵列中的每个单通道录制的语音信号进行预处理；

提取子模块，用于根据所述麦克风阵列中麦克风相关参数提取预设维声学特征；

扩展模块，用于将所述麦克风阵列中各个通道提取的预设维声学特征并联，计算获得规整的多通道预设维声学特征，并做上下文扩展，得到扩展后的多维度声学特征。

作为上述装置的再一种改进，所述预处理模块，具体用于对麦克风阵列中的每个单通道录制的语音信号预加重处理和分帧，对分帧后的每帧语音信号加窗，加窗函数采用汉明窗。

作为上述装置的还一种改进，所述提取子模块，具体用于对每帧语音信号进行快速傅里叶变换，得到离散频谱；使用Mel滤波器对所述离散频谱做滤波，滤波后的输出为预设维Mel域频谱；对所述预设维Mel域频谱取log对数，输出结果为预设维log-mel特征。

作为上述装置的进一步改进，所述第二提取模块，具体用于计算麦克风阵列中麦克风对之间的交叉相关GCC向量，根据所述GCC向量，得到麦克风阵列中空间信息特征；

计算两通道信号x_i(n)和x_j(n)之间GCC向量公式如下：

其中，X_i(f)和X_j(f)为信号的傅里叶变换，*表示取复数共轭。

本发明的优点在于，本发明的一种基于空间特征补偿的多通道语音识别声学建模方法，所提出的模型基于传统的混合声学建模框架，即神经网络声学模型预测隐马尔科夫模型(hidden Markov model,HMM)状态后验概率，该方法包括：提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征；将所述声学特征和所述空间信息特征，输入神经网络声学模型训练；所述神经网络声学模型输出预测的声学状态后验概率，使用声学模型优化准则对上述神经网络参数做迭代更新，生成基于空间特征补偿的多通道语音识别声学模型。该方法避免了传统方法中前后端分开优化导致的次优解；使神经网络声学模型有效的利用麦克风阵列提供的空间信息，提升了对多通道语音信号的声学建模能力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实施例提供的基于空间特征补偿的多通道语音识别声学建模方法的流程图；

图2为本发明实施例提供的步骤S101中提取声学特征的流程图；

图3为本发明实施例提供的步骤S201中提取预设维声学特征的流程图；

图4为本发明实施例提供的基于空间特征补偿的声学模型示意图；

图5为本发明实施例提供的基于空间特征补偿的多通道语音识别声学建模装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种基于空间特征补偿的多通道语音识别声学建模方法，参照图1所示，包括：

S101、提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征；

S102、将所述声学特征和所述空间信息特征，输入神经网络声学模型训练；

S103、所述神经网络声学模型输出预测的声学状态后验概率，使用声学模型优化准则对所述神经网络参数做迭代更新，生成基于空间特征补偿的多通道语音识别声学模型。

本发明的一种基于空间特征补偿的多通道语音识别声学建模方法，所提出的模型基于传统的混合声学建模框架，即神经网络声学模型预测隐马尔科夫模型(hidden Markovmodel,HMM)状态后验概率，该方法避免了传统方法中前后端分开优化导致的次优解；使神经网络声学模型有效的利用麦克风阵列提供的空间信息，提升了对多通道语音信号的声学建模能力。

下面分别对上述步骤进行详细的说明。

作为上述方法的一种改进，步骤S101中提取麦克风阵列中的每个单通道录制的语音信号的声学特征，参照图2所示，包括：

S201、对麦克风阵列中的每个单通道录制的语音信号进行预处理，根据所述麦克风阵列中麦克风相关参数提取预设维声学特征；

S202、将所述麦克风阵列中各个通道提取的预设维声学特征并联，计算获得规整的多通道预设维声学特征，并做上下文扩展，得到扩展后的多维度声学特征。

上述步骤S201中，对麦克风阵列中的每个单通道录制的语音信号进行预处理，具体包括：对麦克风阵列中的每个单通道录制的语音信号预加重处理和分帧，对分帧后的每帧语音信号加窗，加窗函数采用汉明窗。

步骤S201中根据所述麦克风阵列中麦克风相关参数提取预设维声学特征，参照图3所示，具体包括：

S301、对每帧语音信号进行快速傅里叶变换，得到离散频谱；

S302、使用Mel滤波器对所述离散频谱做滤波，滤波后的输出为预设维Mel域频谱；

S303、对所述预设维Mel域频谱取log对数，输出结果为预设维log-mel特征。

步骤S101中，提取麦克风阵列中空间信息特征，包括：

计算两通道信号x_i(n)和x_j(n)之间GCC向量公式如下：

其中，X_i(f)和X_j(f)为信号的傅里叶变换，*表示取复数共轭。

参照图4所示，为基于空间特征补偿的声学模型示意图。图中的声学建模采用DNN模型。麦克风信道间的广义交叉相关(Generalized Cross Correlation,GCC)向量作为空间信息的特征补偿输入到神经网络。

GCC一般用于确定两个空间分离麦克风之间接收声波的到达时延，多个麦克风对间的到达时延可以用来参数化声源位置。

本实施例中，由于说话人到每个麦克风的距离不同，语音信号到达不同麦克风时会有时延差，因而X_i(f)与X_j(f)之间存在相位差。经过傅里叶逆变换得到的GCC在变量n为两信道间的延时处取得最大值。它包含麦克风信道间接收信号的时延信息，是一种对说话人位置信息编码的表达。

因此，本发明中使用GCC做为空间信息的特征补偿输入神经网络声学模型。在模型的训练和测试阶段，麦克风阵列录制的语音信号提取的声学特征与相应的GCC特征并联输入神经网络。GCC的输入有益于神经网络更有效的利用来自不同信道的声学特征。模型的训练方式为利用训练目标函数做误差反向传播更新。因此，整个过程的优化目标为语音识别准确率。

本发明通过GCC向量将空间信息加入到神经网络声学建模中，利用加入的空间特征提升对多通道语音信号的建模能力。语音信号的特征提取一般采用25ms窗长和10ms帧移。为了匹配每句话提取的特征帧数，GCC的提取同样采用10ms帧移。另一方面，为权衡相关性计算的准确度与分辨率，GCC的提取窗长选用75ms。模型输入的GCC特征的维度选取与麦克风数目，语音采样率，以及阵列中两麦克风间的最大距离有关。

例如，麦克风阵列为8个麦克风10厘米半径均匀的圆形阵列，阵列中麦克风对的数目为任意两麦克风间的最大时延为τ＝0.2m/340m/s＝0.588ms，在16khz的采样率时，它对应着10个采样点的延迟。

因此，每对麦克风间的中心21个相关系数足够用来编码说话人位置，21*28＝588维度的GCC向量被用作神经网络声学模型的空间特征补偿。神经网络输入的声学特征由多通道语音信号提取的特征经过均值方差规整后并联构成。

例如，对8个麦克风组成的阵列中的每个单通道信号提取40维的log-mel特征，组成单帧维度为320的多通道声学特征。上下文扩展后的声学特征与588维度的空间特征并联输入神经网络声学模型，模型的输出即为预测的声学状态后验概率。声学模型的参数可通过交叉熵(Cross Entropy,CE)准则或鉴别性序列级准则优化。

为了更详细的说明本发明提供的方法，以一个具体实施例予以说明。

还是以8个麦克风10厘米半径均匀的圆形麦克风阵列和16khz的麦克风采样频率为例，本发明的方法可以包含以下8个步骤：

步骤1)，对麦克风阵列中的每个单通道语音信号进行预处理。然后，提取40维log-mel特征。

对语音信号的预处理包括：首先，对语音信号预加重处理，预加重旨在提升高频部分，使频谱更为平坦，以便于进行频谱分析；然后，对语音信号分帧，每帧取25ms采样点，将单帧数字信号补零到512点；最后，为抑制吉布斯效应对每帧信号加窗，加窗函数采用汉明(hamming)窗。

预处理操作之后，对每帧语音信号进行快速傅里叶变换，得到其离散频谱；然后，使用40组Mel刻度滤波器对离散频谱做滤波，滤波后的输出为40维Mel域频谱；最后，对Mel域频谱取log对数压缩其动态范围，输出结果即为40维log-mel特征。

步骤2)，将8通道的log-mel特征并联，得到320维的特征向量。然后，对此特征向量做均值方差规整去除信道不同所带来的影响，使规整后的特征服从N(0,1)分布，得到规整的多通道log-mel特征。

步骤3)，使用75ms窗长10ms帧移计算阵列中麦克风对之间的交叉相关向量，提取中心的21个相关系数作为自适应滤波网络的输入特征。8个麦克风之间存在组麦克风对。因此，输入的GCC特征的维度是28*21＝588。两通道信号x_i(n)和x_j(n)之间GCC向量计算公式如下：

其中，X_i(f)和X_j(f)为信号的傅里叶变换，*表示取复数共轭。

步骤4)，将步骤2)生成的320维多通道log-mel特征向量做上下文扩展。扩展帧数为5帧，左右各取2帧。

步骤5)，扩展后的1600维多通道声学特征与步骤3)得到的588维空间相关性特征做为神经网络声学模型的输入，如图4所示。神经网络的输出即为预测的声学状态后验概率。

步骤6)，利用帧级别的状态标注结果和交叉熵目标函数，通过误差反向回传算法对图1中的模型结果做参数迭代更新。迭代更新完毕得到的模型即为应用于多通道语音识别任务的声学模型。

步骤7)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号；

步骤8)对采集的每个单通道语音信号进行预处理。然后，提取每个单通道语音信号的40维log-mel特征以及麦克风之间的交叉相关向量；将多通道声学特征与交叉相关向量并联输入到步骤6)得到的声学模型，将输出的状态后验概率用于后续的语音识别过程，最终获得语音识别结果。

基于同一发明构思，本发明实施例还提供了基于空间特征补偿的多通道语音识别声学建模装置，由于该装置所解决问题的原理与前述基于空间特征补偿的多通道语音识别声学建模方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

本发明还提供一种基于空间特征补偿的多通道语音识别声学建模装置，参照图5所示，包括：

第一提取模块51，用于提取麦克风阵列中的每个单通道录制的语音信号的声学特征；

第二提取模块52，用于提取麦克风阵列中空间信息特征；

输入模块53，用于将所述声学特征和所述空间信息特征，输入神经网络声学模型训练；

生成模块54，用于所述神经网络声学模型输出预测的声学状态后验概率，使用声学模型优化准则对所述神经网络参数做迭代更新，生成基于空间特征补偿的多通道语音识别声学模型。

作为上述装置的一种改进，所述第一提取模块51，包括：

预处理子模块511，用于对麦克风阵列中的每个单通道录制的语音信号进行预处理；

提取子模块512，用于根据所述麦克风阵列中麦克风相关参数提取预设维声学特征；

扩展模块513，用于将所述麦克风阵列中各个通道提取的预设维声学特征并联，计算获得规整的多通道预设维声学特征，并做上下文扩展，得到扩展后的多维度声学特征。

作为上述装置的再一种改进，所述预处理模块511，具体用于对麦克风阵列中的每个单通道录制的语音信号预加重处理和分帧，对分帧后的每帧语音信号加窗，加窗函数采用汉明窗。

作为上述装置的还一种改进，所述提取子模块512，具体用于对每帧语音信号进行快速傅里叶变换，得到离散频谱；使用Mel滤波器对所述离散频谱做滤波，滤波后的输出为预设维Mel域频谱；对所述预设维Mel域频谱取log对数，输出结果为预设维log-mel特征。

作为上述装置的进一步改进，所述第二提取模块52，具体用于计算麦克风阵列中麦克风对之间的交叉相关GCC向量，根据所述GCC向量，得到麦克风阵列中空间信息特征；

计算两通道信号x_i(n)和x_j(n)之间GCC向量公式如下：

其中，X_i(f)和X_j(f)为信号的傅里叶变换，*表示取复数共轭。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于空间特征补偿的多通道语音识别声学建模方法，其特征在于，包括：

2.如权利要求1所述的建模方法，其特征在于，提取麦克风阵列中的每个单通道录制的语音信号的声学特征，包括：

3.如权利要求2所述的建模方法，其特征在于，对麦克风阵列中的每个单通道录制的语音信号进行预处理，包括；

4.如权利要求3所述的建模方法，其特征在于，据所述麦克风阵列中麦克风相关参数提取预设维声学特征，包括：

对每帧语音信号进行快速傅里叶变换，得到离散频谱；

5.如权利要求1-4任一项所述的建模方法，其特征在于，提取麦克风阵列中空间信息特征，包括：

计算两通道信号x_i(n)和x_j(n)之间GCC向量公式如下：

其中，X_i(f)和X_j(f)为信号的傅里叶变换，*表示取复数共轭。

6.一种基于空间特征补偿的多通道语音识别声学建模装置，其特征在于，包括：

第二提取模块，用于提取麦克风阵列中空间信息特征；

7.如权利要求6所述的建模装置，其特征在于，所述第一提取模块，包括：

8.如权利要求7所述的建模装置，其特征在于，所述预处理模块，具体用于对麦克风阵列中的每个单通道录制的语音信号预加重处理和分帧，对分帧后的每帧语音信号加窗，加窗函数采用汉明窗。

9.如权利要求8所述的建模装置，其特征在于，所述提取子模块，具体用于对每帧语音信号进行快速傅里叶变换，得到离散频谱；使用Mel滤波器对所述离散频谱做滤波，滤波后的输出为预设维Mel域频谱；对所述预设维Mel域频谱取log对数，输出结果为预设维log-mel特征。

10.如权利要求6-9任一项所述的建模装置，其特征在于，所述第二提取模块，具体用于计算麦克风阵列中麦克风对之间的交叉相关GCC向量，根据所述GCC向量，得到麦克风阵列中空间信息特征；

计算两通道信号x_i(n)和x_j(n)之间GCC向量公式如下：

其中，X_i(f)和X_j(f)为信号的傅里叶变换，*表示取复数共轭。