CN109256118A

CN109256118A - 基于生成式听觉模型的端到端汉语方言识别系统和方法

Info

Publication number: CN109256118A
Application number: CN201811228307.1A
Authority: CN
Inventors: 齐诏娣; 马勇; 顾明亮; 金赟
Original assignee: Jiangsu Normal University
Current assignee: Jiangsu Normal University
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2019-01-22
Anticipated expiration: 2038-10-22
Also published as: CN109256118B

Abstract

本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法，涉及语音识别技术领域。该汉语方言识别系统，用CNN模拟听觉模型对方言时域声音波形进行特征提取，随后将提取出的固定长度特征序列输入至RNN中，再连接全连接层后进行softmax，用于预测方言类别。本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法，可有效提高NN方言识别过程中的抗噪性能，并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息，所以在一定层度上也提高了方言识别率。

Description

基于生成式听觉模型的端到端汉语方言识别系统和方法

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于生成式听觉模型的端到端汉语方言识别系统和方法。

背景技术

在方言识别(DID)的应用中，已经有些许研究学者提出了用NN来解决方言识别问题，并且与传统的方法相比带来了显着的性能改进。比如在传统的方法中，由于人工设计的特征具有领域局限性，在某一领域的特征集不一定适应另一个领域，而NN在不同领域有一定的推广能力。接着，还出现了大量的变体NN，例如：前馈神经网络(FFNN)、递归神经网络(RNN)和时延神经网络(TDNN)。其中，RNN网络中的单元在接收到当前输入信息时也将其之前接收到的信息作为其输入，换句话说，就是把刚刚过去的事情联合现在的事情作为输入，来预测接下来会发生的事情，这给了它有限的短期记忆的优势，可以更好地学习语音的时间信息。随后，有研究者使用了LSTM取代了传统的RNN结构。此外，研究者们已经证明卷积神经网络(CNN)模型对于许多语音和语言处理应用是有效的。除了模型域，深度神经网络(DNN)也可以用于DID的特征域。例如：使用DNN来提取i-vector。

而在NN时代之前，从听觉模型中提取的特征已经应用于各种语音应用，并且已经证明比传统的语音处理特征更能抵抗噪声，其中，在听觉模型中基底膜模型的主要功能是带通滤波，它是对人耳听觉模型的系统进行有效的模拟。

然而，现存在的RNN方言识别模型虽然能够较好的提取语音的时间信息，但因为其使用特征为原始声学特征，从而对噪声的抵抗性较低。

因此，鉴于以上问题，有必要提出一种抗噪性能高的基于生成式听觉模型的端到端汉语方言识别系统，以提高方言识别率。

发明内容

为了克服传统的RNN汉语方言识别模型中底层声学特征的抗噪性能低问题，本发明提供一种基于生成式听觉模型的RNN方言识别系统，用CNN模拟听觉模型对方言时域声音波形进行特征提取，随后将提取出的固定长度特征序列输入至RNN中，再连接全连接层后进行softmax，用于预测方言类别，可有效提高现存在的NN方言识别系统的抗噪性能，并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息，所以在一定层度上也提高了方言识别率。

根据本发明的目的提出的一种基于生成式听觉模型的端到端汉语方言识别系统，其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层，所述生成式听觉模型使用卷积神经网络模拟听觉模型，使用固定核函数从原始声音时间波形中提取出深层次语言特征。

优选的，所述生成式听觉模型各层依次为1-D CNN层、合并层、2-D CNN层；所述1-DCNN层由36个1-D核组成，2-D CNN层由24个2-D核组成。

一种基于生成式听觉模型的端到端汉语方言识别方法，包括以下步骤：

步骤一、构建各地方言数据集并进行标注，其中包括训练集与测试集；

步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理，并为每一话语进行标签，其中，标签信息表示对应话语的所属地区；

步骤三、构建基于生成式听觉模型的RNN方言识别系统，其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层，所述生成式听觉模型使用卷积神经网络模拟听觉模型，使用固定核函数从原始声音时间波形中提取出深层次语言特征，所述生成式听觉模型各层依次为1-D CNN层、合并层、2-D CNN层；

步骤四、使用梯度下降法和反向传播算法训练所属网络系统；

步骤五、训练完成后，得到汉语方言识别训练系统的识别率。

优选的，步骤一中训练集与测试集的比例为7：3。

优选的，步骤二中对数据集进行分帧，帧长为22ms，帧移为10ms。

优选的，步骤三中生成式听觉模型分为两个阶段，第一阶段模仿听觉系统的外围功能，将声音表示为内部神经元活动；第二阶段模拟听觉皮层，来分析内部特征从而提取更高层次的特征。

优选的，生成式听觉模型中的1-D CNN层由36个1-D核组成，2-D CNN层由24个2-D核组成，1-D CNN层输出的STFT特征由合并层合并成声谱图后，再由2-D CNN层对声谱图进行分解。

优选的，步骤3中softmax层的输出层节点个数与需要分类的方言数据集的类别总数相同。

优选的，步骤四中梯度下降算法的具体步骤为：从任意一点出发，沿该点的梯度反方向移动到新位置，再沿新位置的梯度反方向运行至另一个新位置，循环迭代以上步骤，输出的函数解则一直朝下坡最陡的方向运动，直到运行到函数的局部最小点，即损失函数最小值。

优选的，步骤五中分批次对所有样本进行训练，不断更新权值，直到损失函数的值收敛于一个稳定区域内的值，即识别率收敛于一个稳定值。

与现有技术相比，本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统的优点是：

使用卷积神经网络模拟声学模型，提取各方言的语言特征，可有效提高现存在的NN方言识别系统的抗噪性能，并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息，所以在一定层度上也提高了方言识别率。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单的介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域中的普通技术人员来说，在不付出创造性劳动的前提下，还可根据这些附图获得其他附图。

图1为本发明的整体流程示意图。

图2为本发明中生成式听觉模型的流程示意图。

图3为本发明的系统框图。

具体实施方式

下面结合附图对本发明的具体实施方式做简要说明。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，均属于本发明保护的范围。

图1-图3示出了本发明较佳的实施例，分别从不同的角度对其进行了详细的剖析。

如图1-3所示的一种基于生成式听觉模型的端到端汉语方言识别系统，其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层。其中，生成式听觉模型各层依次为1-D CNN层、合并层、2-D CNN层。1-D CNN层由36个1-D核组成，2-D CNN层由24个2-D核组成，1-D CNN层输出的STFT特征由合并层合并成声谱图后，再由2-D CNN层对声谱图进行分解。该生成式听觉模型使用卷积神经网络模拟听觉模型，使用固定核函数从原始声音时间波形中提取出深层次语言特征，可解决现存在的NN方言识别噪声抵抗力弱的问题，并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息，所以在一定层度上也提高了方言识别率。具体的，1-D卷积层是模拟耳蜗滤波的方式执行时域卷积，它由36个1-D内核组成。然后将时域波形输入至这36个内核，其输出结果合并为二维类似于声谱图的声学形式。2-D卷积层模拟皮层滤波，它由24个2-D核组成，我们将由上层合并得来的类似声谱图的语音信号输入至其中，用它来分解谱图。然后，可以选择性在其后加入池化层用于降低输出维度，同时保留重要信息，即得到我们需要的语音深层次的语言特征。其中，每个1-D CNN的内核长度设置为200(即25ms)，因此，1-D内核的输出可以认为是帧移为10ms的log F频谱图。2-D CNN内核的大小被设置为10X15，2-D CNN可以理解为提取声谱图中更高级的语言信息。

具体的，输入的每一话语已经被预处理为固定帧长的时域波形。1-D卷积层由36个1-D内核组成，以类似于耳蜗滤波的方式执行时域卷积来用于模拟外围听觉系统耳蜗滤波器，固定时长的时域声音波形首先通过一组恒定带通滤波器，然后通过非线性压缩模块和横向抑制网络，最后通过包络提取器。非线性压缩模拟内毛细胞引起的饱和度，横向抑制网络模拟听觉的频率掩蔽。简而言之，该阶段的输出被称为听觉谱图，其表示时间与log F的神经元活动。直观地，听觉谱图类似于沿log F方向呈现的STFT谱图的幅度响应。提取的局部包络近似于STFT谱图的幅度。2-D CNN网络结构模拟神经元的皮质滤波。简而言之，听觉谱图由神经元进一步分析，神经元被建模为调整到不同谱时间调制参数的二维滤波器，调谐参数包括速率(ω)，比率(Ω)。速率参数捕获听觉频谱图的局部包络沿时间轴变化的速度，scale参数捕获包络沿logF轴分布的宽度。因此，语音的共振峰和谐波结构可以用比例参数来表征。方向性表示包络的扫描方向，并且以速率参数的符号编码。合并层是将1-DCNN的输出STFT合并为声谱图。

使用上述基于生成式听觉模型的端到端汉语方言识别系统进行汉语方言识别的方法，包括以下步骤：

步骤一、构建各地方言数据集并进行标注，其中包括训练集与测试集。

步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理，并为每一话语进行标签，其中，标签信息表示对应声音波形的所属地区。

步骤三、构建基于生成式听觉模型的RNN方言识别系统，其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层，该生成式听觉模型使用卷积神经网络模拟听觉模型，使用固定核函数从原始声音时间波形中提取出深层次语言特征。处理后的等长度时域波形经生成式听觉模型产生更高级的语言特征，将此特征作为输入至RNN方言识别系统中，得到预测汉语方言种类，依此结果与数据标签相比较来进行模型参数调整，优化模型参数，最终得到最优的RNN汉语方言识别系统。

步骤四、使用梯度下降法和反向传播算法训练所属网络系统，具体的，准备好系统网络后，将标注好的数据集送入系统网络中，开始运行程序。

步骤五、程序会输出每一段语音的预测结果，训练完成后会输出整个运行过程中训练和测试的识别率。

进一步的，步骤一中训练集与测试集的比例为7：3。

进一步的，步骤二中对数据集进行分帧，帧长为22ms，帧移为10ms。

进一步的，步骤三中RNN选取其变种GRU，该结构运算结果及其接近LSTM，但计算效率要远远高于LSTM。LSTM是RNN的一种改进，LSTM解决了RNN长时依赖问题，是一种特殊的RNN，所以算是RNN的一种改进。GRU也是如此，GRU作为LSTM的一种变体，也同样属于RNN的一种变体，它将LSTM中的忘记门和输入门合成了一个单一的更新门，同样还混合了细胞状态和隐藏状态，加诸其他一些改动。最终的模型比标准的LSTM模型要简单。GRU的计算量远远小于LSTM。生成式听觉模型分为两个阶段，第一阶段模仿听觉系统的外围功能，将声音表示为内部神经元活动；第二阶段模拟听觉皮层，来分析内部特征从而提取更高层次的特征。其中，softmax层的输出层节点个数与需要分类的方言数据集的类别总数相同。

进一步的，步骤四中梯度下降算法的具体步骤为：从任意一点出发，沿该点的梯度反方向移动到新位置，再沿新位置的梯度反方向运行至另一个新位置，循环迭代以上步骤，输出的函数解则一直朝下坡最陡的方向运动，直到运行到函数的局部最小点，即损失函数最小值。反向传播算法主要有两个主要部分组成，即激励传播与权重更新。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层。如果在输出层得不到期望的输出值，则取输出与期望的误差平方和作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，作为修改权值的依据，网络的学习在权值修改过程中完成。误差达到所期望值时，网络学习结束。

进一步的，步骤五中分批次对所有样本进行训练，不断更新权值，直到损失函数的值收敛于一个稳定区域内的值，即识别率收敛于一个稳定值。

综上所述，本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统，使用卷积神经网络模拟声学模型，提取各方言的语言特征，可有效提高现存在的NN方言识别系统的抗噪性能，并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息所以在一定层度上也提高了方言识别率。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现和使用本发明。对这些实施例的多种修改方式对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神和范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于生成式听觉模型的端到端汉语方言识别系统，其特征在于，其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层，所述生成式听觉模型使用卷积神经网络模拟听觉模型，使用固定核函数从原始声音时间波形中提取出深层次语言特征。

2.根据权利要求1所述的一种基于生成式听觉模型的端到端汉语方言识别系统，其特征在于，所述生成式听觉模型各层依次为1-D CNN层、合并层、2-D CNN层；所述1-D CNN层由36个1-D核组成，2-D CNN层由24个2-D核组成。

3.一种使用权利要求1所述的汉语方言识别系统进行汉语方言识别的方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法，其特征在于，步骤一中训练集与测试集的比例为7：3。

5.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法，其特征在于，步骤二中对数据集进行分帧，帧长为22ms，帧移为10ms。

6.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法，其特征在于，步骤三中生成式听觉模型分为两个阶段，第一阶段模仿听觉系统的外围功能，将声音表示为内部神经元活动；第二阶段模拟听觉皮层，来分析内部特征从而提取更高层次的特征。

7.根据权利要求6所述的一种基于生成式听觉模型的端到端汉语方言识别方法，其特征在于，生成式听觉模型中的1-D CNN层由36个1-D核组成，2-D CNN层由24个2-D核组成，1-D CNN层输出的STFT特征由合并层合并成声谱图后，再由2-D CNN层对声谱图进行分解。

8.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法，其特征在于，步骤3中softmax层的输出层节点个数与需要分类的方言数据集的类别总数相同。

9.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法，其特征在于，步骤四中梯度下降算法的具体步骤为：从任意一点出发，沿该点的梯度反方向移动到新位置，再沿新位置的梯度反方向运行至另一个新位置，循环迭代以上步骤，输出的函数解则一直朝下坡最陡的方向运动，直到运行到函数的局部最小点，即损失函数最小值。

10.根据权利要求3所述的一种基于生成式听觉模型的端到端汉语方言识别方法，其特征在于，步骤五中分批次对所有样本进行训练，不断更新权值，直到损失函数的值收敛于一个稳定区域内的值，即识别率收敛于一个稳定值。