CN110570845B

CN110570845B - 一种基于域不变特征的语音识别方法

Info

Publication number: CN110570845B
Application number: CN201910753174.8A
Authority: CN
Inventors: 熊盛武; 李梦; 林泽华; 徐珊; 李小其; 董元杰; 路雄博; 刁月月
Original assignee: Wuhan Shuixiang Electronic Technology Co ltd; Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2021-10-22
Anticipated expiration: 2039-08-15
Also published as: CN110570845A

Abstract

本发明提出了一种基于域不变特征的语音识别方法，将语音域不变特征提取模型应用于端到端语音识别模型。本发明使用的特征提取模型针对鲁棒性问题，通过添加更多类型的语音数据训练语音特征提取模型可以得到更优的参数，得到更好的域不变特征提取模型。基于域不变特征的语音识别方法，利用无标注的纯语音数据训练特征提取模型，利用少量具有文本标注的语音训练端到端声学模型，为提高端到端声学模型的鲁棒性提供了重要的技术支撑。相比于现有技术，本发明在不同噪声环境中的识别准确率更高，语音标注任务的任务量更小，模型的训练和测试速度更快。

Description

一种基于域不变特征的语音识别方法

技术领域

本发明属于语音识别领域，涉及现实噪声环境下的鲁棒语音识别方法，具体是指一种基于域不变特征的语音识别方法，它可快速方便地扩展到新的噪声环境下。

背景技术

近年来，基于深度学习和序列到序列计算框架的端到端语音识别模型的应用日益广泛，但是，在实际运用语音识别模型的过程中，不可避免会遇到多种多样的噪声环境，使语音识别准确率大打折扣。噪声鲁棒性是指语音识别模型在噪声环境下保持原有识别准确率的能力。

目前，常见的提高语音识别模型噪声鲁棒性的常见方法有：(1)增加特征增强模型，用于语音预处理，起到对输入的带噪声语音进行降噪的作用；(2)对训练数据集进行扩充，在原有数据集上叠加噪声，使训练数据尽可能丰富，从而使得训练得到的语音识别模型具备一定噪声鲁棒性。

上述两种方法都不太理想，前者需要利用完全对应的带噪语音和清晰语音数据，因此此类方法大多运用在人工加噪的数据集上，这限制了此类方法的应用场景；后者直接导致训练数据量成倍地增加，使语音识别模型的训练过程所需的计算资源和时间大大增加，并且，人工加噪声无法覆盖所有噪声类型。

近年来，出现了一些基于深度学习的语音特征提取模型，通过提取与噪声信息无关的、只包含语义内容的语音特征，可以用于训练语音识别模型，从而提高语音识别模型的噪声鲁棒性。将不同噪声环境看作不同域，域不变特征指的是只包含语义内容的语音特征。

目前尚无将语音域不变特征提取模型应用于端到端语音识别模型的方法。

发明内容

本发明的目的是为了解决上述背景技术存在的不足，提出一种基于域不变特征的语音识别方法，提高语音识别模型在不同噪声环境下的语音识别准确率。

为了实现上述目的，本发明所采用的技术方案为一种基于域不变特征的语音识别方法，该方法包括如下步骤：

步骤一，构建训练数据集，包括采集不同噪声环境下的语音数据和标注语音对应的内容文本；

步骤二，利用步骤一构建的训练数据集训练基于域不变特征的语音识别模型，所述基于域不变特征的语音识别模型包括语音域不变特征提取模型和语音识别声学模型；

所述语音域不变特征提取模型结构包含两个编码网络和一个解码网络，分别记为Enc₁、Enc₂和Dec；其中Enc₂用于编码噪声域特征，包含多层Conv2D二维卷积层和一个重参数层，其输入为定长语音特征帧序列，即语音分段，输出为该分段对应的特征向量；Enc₁用于编码域不变特征，包含两层LSTM循环神经网络层和一个重参数层，其输入为上述相同的语音分段和噪声域特征向量，输出为域不变特征向量；Dec用于对编码的特征进行解码，包含两层LSTM循环神经网络层和一个重参数层，其输入为上述噪声域特征向量和域不变特征向量，输出为重构的语音特征分段；

所述语音识别声学模型包含两层Conv2D二维卷积层、5层双向GRU循环神经网络层和1层输出维度为标签数L的全连接层；

步骤三，利用训练好的基于域不变特征的语音识别模型，进行真实环境下语音识别。

进一步的，步骤一的具体实现方式如下，

(1.1)采集不同噪声环境下的语音数据

采集方式有直接录制和人工合成两种：直接录制是通过在具有背景噪声的自然场景中直接录制语音；人工合成是通过在无背景噪声的安静环境下录制清晰语音，然后在清晰语音上叠加噪声语音；通过上述数据采集过程最终得到的包含不同噪声的无标注语音数据集，记为X＝{X₁,...,X_M}，其中，M为噪声类型数量，

为第i类带噪语音集合，包含N_i条语音；

(1.2)为步骤(1.1)采集到的语音数据标注内容文本

人工对每一条语音标注对应的内容文本，首先根据语音内容类型确定标注元素：英文语音以单词为标注元素，中文语音以字为标注元素，得到标注训练数据集

其中y_i,j为语音x_i,j对应的文本，其中，1≤M₁≤M。

进一步的，所述Enc₂中Conv2D二维卷积层的步长为2，卷积核大小为3×3，卷积核数为32；Enc₁和Dec中LSTM循环神经网络层的单元数为256。

进一步的，语音识别声学模型中Conv2D二维卷积层的步长为2，卷积核大小为21×11，卷积核数为32；双向GRU循环神经网络层的单元数为800。

进一步的，所述步骤二的具体步骤如下：

(2.1)利用无标注语音数据集X＝{X₁,...,X_M}训练语音域不变特征提取模型，用于提取对噪声鲁棒性较好的语音域不变特征；根据所述语音域不变特征提取模型训练目的设计目标损失函数：整体损失函数表达式为L＝L_con+αL_dis+βL_gauss，由重构损失函数L_con、噪声域分类损失函数L_dis和特征分布约束损失函数L_gauss组成，α和β为权重系数，其中，L_con选取L₁距离，L_dis选取根据噪声域特征向量对噪声域类型的分类准确率，L_gauss选取由Enc1和Enc2编码得到的特征向量与标准正态分布之间的KL散度；

语音域不变特征提取模型训练具体步骤如下：

(2.1.1)对X＝{X₁,...,X_M}中的语音进行预处理，提取各语音的Fbank特征，然后对各Fbank特征序列进行分段，分段帧数取t，并标记各分段所属噪声域编号，最终得到带域标签的分段数据集D_S＝{(s_i,m_i)},i＝1,2,...,N_S，其中s_i为语音特征分段，m_i为域编号，N_S为总的分段数；

(2.1.2)利用上述得到的分段数据集D_S，根据随机梯度下降算法训练语音域不变特征提取模型，重复执行如下步骤直至网络参数收敛：随机选取m个分段数据作为一个Batch，经过网络前向传播后，计算损失函数值，然后用随机梯度下降算法更新网络参数，得到用于域不变特征提取的编码网络Enc₁和Enc₂；

(2.2)利用上述训练好的语音域不变特征提取模型，提取标注数据集

的语音域不变特征，得到

对各语音x_i,j根据步骤(2.1.1)中的处理过程进行处理得到各语音的特征分段，针对每一条语音对应的分段序列，逐分段输入到域不变特征提取模型，经过编码器编码得到该分段对应的特征向量，顺序拼接后得到每一条语音对应的域不变特征序列f_i,j；

(2.3)利用上述提取得到的带标注的语音域不变特征数据D_f训练语音识别声学模型；

其中，所述语音识别声学模型输入为语音域不变特征序列f_i,j，输出为各帧对应的标签元素的分类概率p_i,i＝1,2,...,T₁，其中p_i＝[p_ij],j＝1,2,...,L，

L为标签集元素个数；

语音识别声学模型的训练具体步骤如下：

(2.3.1)随机从D_f中采样m条数据，输入的域不变特征序列f_i,j经过卷积层后对32个通道的特征进行拼接，然后经过双向GRU和全连接层后得到p_i,i＝1,2,...,T₁；

(2.3.2)用p_i,i＝1,2,...,T₁和用整数索引化的文本标注序列y_i,j计算常用于表示序列标注准确率的CTC损失函数值，并通过梯度下降算法更新网络参数；

(2.3.3)重复步骤(2.3.1)和(2.3.2)直至网络参数收敛。

进一步的，步骤(2.1.1)中分段帧数取t＝20，由于分段窗口具有宽度t＝20，因此f_i,j比x_i,j少T-19帧，记T₁＝T-19。

进一步的，步骤三的具体实现方式如下，

(3.1)获取一条待识别语音数据；

(3.2)对步骤(3.1)获取的待识别语音数据按照步骤(2.1.1)进行处理，得到该语音对应的Fbank特征

以及T₁＝T-19个语音特征分段，记为

(3.3)将每个分段

i＝1,2,...,T₁顺序输入到语音域不变特征提取模型，经过编码网络编码得到该分段对应的特征向量f_i，最终得到该待识别语音数据对应的域不变特征序列

(3.4)对步骤(3.3)提取得到的域不变特征

利用语音识别声学模型、解码网络和语言模型得到最终输出文本；

首先，将

输入声学模型，计算得到各帧对应的标签元素的分类概率p_i,i＝1,2,...,T₁，其中p_i＝[p_ij],j＝1,2,...,L，

L为标签集元素个数；然后，通过采用集束搜索算法的解码网络，结合语言模型，对概率序列进行解码，得到最终的识别文本。

本发明的有益效果在于：

(1)噪声鲁棒性好：本发明提供的一种基于域不变特征的语音识别方法，相比于现有技术，在不同噪声环境中的识别准确率更高。

(2)标注量小：本发明可以实现通过无标注的语音数据学习对域不变特征的提取，随后通过部分带标注的语音数据即可学习语音识别模型，从而降低语音标注任务的任务量。

(3)速度快：与现有技术相比，本发明一方面减少了训练声学模型所需标注数据，另一方面通过编码降低了输入声学模型语音特征的维度，使得模型的训练和测试速度更快。

附图说明

图1为本发明一种基于域不变特征的语音识别方法实施的流程图，

图2为本发明实现语音域不变特征提取模型结构示意图，

图3为本发明实施例语音Fbank特征提取流程图，

图4为本发明语音识别声学模型结构示意图，

图5为本发明真实环境下语音识别过程示意图。

具体实施方式

为了具体说明使本发明的目的、技术方案、优点和可实现性，下面结合附图和实施例对本发明做进一步的说明。应当理解，此处所描述的具体实例仅仅用于解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间不构成冲突就可以相互结合。

如图1所示，一种基于域不变特征的语音识别方法，该方法包括如下步骤：

步骤一，构建训练数据集，包括采集不同噪声环境下的语音数据和标注语音对应的内容文本两个主要子步骤，具体如下：

(1.1)采集不同噪声环境下的语音数据。

采集方式有直接录制和人工合成两种：直接录制是通过在具有背景噪声的自然场景中直接录制语音，例如在嘈杂的公路旁、具有马达噪声的车厢内等环境下录制语音数据；人工合成是通过在无背景噪声的安静环境下录制清晰语音，然后在清晰语音上叠加噪声语音。通过上述数据采集过程最终得到的包含不同噪声的无标注语音数据集，记为X＝{X₁,...,X_M}，其中，M为噪声类型数量，

为第i类带噪语音集合，包含N_i条语音。

(1.2)为步骤(1.1)采集到的语音数据标注内容文本。

其中y_i,j为语音x_i,j对应的文本。其中，1≤M₁≤M，由于语音集合数据量可能过大，全部标注会十分耗时，因此可以只标注包含部分噪声类型的语音数据。本发明提供的一种基于域不变特征的语音识别方法，可以实现通过无标注文本的语音数据学习对噪声鲁棒的域不变特征的提取，随后通过部分带标注的语音数据即可学习语音识别模型，从而降低语音标注任务的任务量，并加快模型的训练。

步骤二，训练基于域不变特征的语音识别模型，所述基于域不变特征的语音识别模型包括语音域不变特征提取模型和语音识别声学模型，具体步骤如下：

(2.1)利用无标注语音数据集X＝{X₁,...,X_M}训练语音域不变特征提取模型，用于提取对噪声鲁棒性较好的语音域不变特征。

其中，如图2所示，所述语音域不变特征提取模型结构包含两个编码网络和一个解码网络，分别记为Enc₁、Enc₂和Dec；其中Enc₂用于编码噪声域特征，包含多层步长为2，卷积核大小为3×3，卷积核数为32的Conv2D二维卷积层和一个重参数层，其输入为定长语音特征帧序列，也称为语音分段，输出为该分段对应的特征向量；Enc₁用于编码域不变特征，包含两层单元数为256的LSTM循环神经网络层和一个重参数层，其输入为上述相同的语音分段和噪声域特征向量，输出为域不变特征向量；Dec用于对编码的特征进行解码，包含两层单元数为256的LSTM循环神经网络层和一个重参数层，其输入为上述噪声域特征向量和域不变特征向量，输出为重构的语音特征分段。本实施例中，特征向量维度均设置为32。

根据所述语音域不变特征提取模型训练目的设计目标损失函数：整体损失函数表达式为L＝L_con+αL_dis+βL_gauss，由重构损失函数L_con、噪声域分类损失函数L_dis和特征分布约束损失函数L_gauss组成，α和β为权重系数。其中，L_con选取L₁距离，L_dis选取根据噪声域特征向量对噪声域类型的分类准确率，即预测结果中正确结果数的占比，L_gauss选取上述两种特征向量(指由Enc1和Enc2编码得到的特征向量)与标准正态分布之间的KL散度。

本实施例中，语音域不变特征提取模型训练具体步骤如下：

(2.1.1)对X＝{X₁,...,X_M}中的语音进行预处理，提取各语音的Fbank特征，然后对Fbank特征进行分段，并标记每个分段所述噪声类型编号。其中，如图3所示，预处理包括对语音进行分帧、加窗、预加重等处理；语音帧长选取为25毫秒，帧移10毫秒，窗函数选取汉明窗，预加重系数取0.95，提取Fbank特征的过程包括短时傅里叶变换、平方、梅尔滤波器组滤波、取对数等。对各Fbank特征序列进行分段，分段帧数取t＝20，并标记各分段所属噪声域编号。最终得到带域标签的分段数据集D_S＝{(s_i,m_i)},i＝1,2,...,N_S，其中s_i为语音特征分段，m_i为域编号，N_S为总的分段数。

(2.1.2)利用上述得到的分段数据集D_S，根据随机梯度下降算法训练语音域不变特征提取模型。重复执行如下步骤直至网络参数收敛：随机选取m个分段数据作为一个Batch，经过网络前向传播后，计算损失函数值，然后用随机梯度下降算法更新网络参数。得到的用于域不变特征提取的编码网络Enc₁和Enc₂。

的语音域不变特征，得到

对各语音x_i,j根据步骤(2.1.1)中的处理过程进行处理得到各语音的特征分段，针对每一条语音对应的分段序列，逐分段输入到域不变特征提取模型，经过编码器编码得到该分段对应的特征向量，顺序拼接后得到每一条语音对应的域不变特征序列f_i,j，由于分段窗口具有宽度t＝20，因此f_i,j比x_i,j少T-19帧，记T₁＝T-19。

(2.3)利用上述提取得到的带标注的语音域不变特征数据D_f训练语音识别声学模型。

其中，所述声学模型输入为语音域不变特征序列f_i,j，输出为各帧对应的标签元素的分类概率p_i,i＝1,2,...,T₁，其中p_i＝[p_ij],j＝1,2,...,L，

L为标签集元素个数。

本实施例中，如图4所示，声学模型网络结构按照序列到序列模型计算框架进行设计，声学模型包含两层具有32个大小为21×11的卷积核、步长为2的Conv2D二维卷积层、5层单元数为800的双向GRU循环神经网络层和1层输出维度为标签数L的全连接层。其中各卷积层后跟随着一层填充层，将卷积结果各帧重复一次，保持帧数不变，例如，填充可以使序列abcd变成aabbccdd。

声学模型的训练具体步骤如下：

(2.3.1)随机从D_f中采样m条数据，输入的域不变特征序列f_i,j经过卷积层后对32个通道的特征进行拼接，然后经过双向GRU和全连接层后得到p_i,i＝1,2,...,T₁。

(2.3.2)用p_i,i＝1,2,...,T₁和用整数索引化的文本标注序列y_i,j计算常用于表示序列标注准确率的CTC损失函数值，并通过梯度下降算法更新网络参数。

(2.3.3)重复步骤(2.3.1)和(2.3.2)直至网络参数收敛。

步骤三，真实环境下语音识别，如图5所示，具体步骤如下：

(3.1)获取一条待识别语音数据。

语音可以通过录音器录制或读取语音文件，待识别语音数据通常是1至15秒的一条语音数据。待识别语音对应的文本内容是未知的，且语音中包含的噪声数据类型也是未知的，噪声类型可能在训练数据中出现过也可能没有出现过。本发明所提的方法的目的就是使语音识别模型在不同噪声环境下的语音识别结果都较好。

以及T₁＝T-19个语音特征分段，记为

(3.3)将每个分段

(3.4)对步骤(3.3)提取得到的域不变特征

利用声学模型、解码网络和语言模型得到最终输出文本。

首先，将

L为标签集元素个数；然后，通过采用集束搜索算法的解码网络，结合语言模型，对概率序列进行解码，包括去重复、去空白、转换为字母和语言模型纠错等操作，得到最终的识别文本。其中，解码网络和语言模型为语音识别领域常见技术，本发明不予撰述。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于域不变特征的语音识别方法，其特征在于，该方法包括如下步骤：

将不同噪声环境看作不同域，域不变特征指的是只包含语义内容的语音特征，所述语音域不变特征提取模型结构包含两个编码网络和一个解码网络，分别记为Enc₁、Enc₂和Dec；其中Enc₂用于编码噪声域特征，包含多层Conv2D二维卷积层和一个重参数层，其输入为定长语音特征帧序列，即语音分段，输出为该分段对应的特征向量；Enc₁用于编码域不变特征，包含两层LSTM循环神经网络层和一个重参数层，其输入为上述相同的语音分段和噪声域特征向量，输出为域不变特征向量；Dec用于对编码的特征进行解码，包含两层LSTM循环神经网络层和一个重参数层，其输入为上述噪声域特征向量和域不变特征向量，输出为重构的语音特征分段；

2.如权利要求1所述的一种基于域不变特征的语音识别方法，其特征在于：步骤一的具体实现方式如下，

(1.1)采集不同噪声环境下的语音数据