CN115294973A

CN115294973A - 基于卷积神经网络和注意力机制的佤语孤立词汇识别方法

Info

Publication number: CN115294973A
Application number: CN202211209083.6A
Authority: CN
Inventors: 王俊; 刘金生; 吴迪; 陈恳; 甘健侯; 周菊香
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-11-04

Abstract

本发明涉及基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，属于语音识别领域。本发明对收集的原始佤语孤立词汇语音进行预处理并提取Fbank音频特征，然后使用卷积网络提取音频的深度特征信息，再输入到BiLSTM中充分学习音频序列在时间维度上的上下文信息，最后将BiLSTM层的输出特征输入到注意力层计算目标损失并输出结果，实现对佤语孤立词汇语音到中文词汇的建模，解决识别佤语孤立词汇识别率低的问题。本发明使用的网络结构简洁，在本方法所构建的数据集上可以达到88%的识别准确率。

Description

基于卷积神经网络和注意力机制的佤语孤立词汇识别方法

技术领域

本发明涉及基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，属于语音识别技术领域。

背景技术

少数民族语言是少数民族文化的重要组成部分，是一个民族存在的象征，而保护少数民族语言是保护和传承少数民族文化的一项重要措施。如今，不断发展的语音识别技术给保护这些少数民族语言提供了一项重要的技术手段。目前对于主流的语言，其语料数据丰富，训练出的传统语音识别模型准确率已经很高，但是对于低资源语音的语音识别研究工作相对较少，而佤语作为一种低资源语言，相关的研究工作更少。佤语识别存在的主要问题为低资源语言的语音语料太少，而且训练使用的佤语语料是孤立的佤语词汇语音，语音时长较短，不适合使用传统的大型语音识别模型，模型复杂不易优化，识别佤语的性能偏低。本发明涉及一种适合识别低资源佤语孤立词汇的语音识别方法，方法模型简洁且语音识别准确率高，这对佤语语言的保护提供了一项技术手段，具有重要的意义，同时也可以为保护其他少数民族语言提供思路和帮助。

发明内容

本发明要解决的技术问题是提供基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，用以解决低资源语言佤语孤立词识别率低的问题。

本发明的技术方案是：基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，将原始佤语词汇语音经过预处理得到Fbank音频特征，利用卷积神经网络进一步提取音频的深度特征，利用BiLSTM关注音频序列在时间序列上的上下文信息，最后将BiLSTM输出特征输入到Attention层进行解码，输出预测文本结果并计算目标损失，进行多次训练，优化模型参数，得到识别佤语孤立词汇准确率高的语音识别模型进行识别。

具体步骤为：

Step 1：将原始佤语词汇语音经过预处理得到Fbank音频特征；

Step 1.1：使用专业录音设备对当地多位佤族人进行常用佤语词汇语音采集，其中发音人包括不同年龄段并且分男女，有小学生、成年人和老年人，以此来丰富佤语孤立词汇语音语料库，大约收集到68000条语音数据，在进行模型训练时并按照3:1:1的比例划分训练集、测试集、验证集；

Step 1.2：对Step 1.1中采集的佤语孤立词汇语音进行预处理:首先对语音信号进行预加重处理，对高频部分进行加重，以此凸显高频信息，增加语音的高频分辨率；再进行分帧加窗操作，窗口长度设置为25ms并作为一帧音频信息，步长设置为10ms，即每次取出25ms的音频，再移动10ms取下一帧的音频；然后进行离散傅里叶变换，将每一帧的时域信号转换为频域信号，常用方法为快速傅里叶变换，可将时间复杂度从O(N²)降为O(Nlog2N)；再计算梅尔频谱并取对数，它符合人耳线性感知的频率曲线，将频谱规划到梅尔刻度上，能有效促进语音识别系统的性能，最终得到Fbank音频特征；

Step 2：利用卷积神经网络进一步提取音频的深度特征；

Step 2.1：先将Step 1.2得到的二维Fbank特征参数变换为三维，并输入到卷积神经网络中进一步提取底层特征，使用的卷积神经网络借鉴VGG网络模型，共有6层，其中包括4层2D卷积和2层最大池化层进行下采样，每一个卷积层的卷积核均为3*3，步长为1，即卷积层不进行下采样，使用池化层进行下采样，每一个池化层池化核均为3*3，步长为2；

Step 3：利用BiLSTM关注音频序列在时间序列上的上下文信息；

Step 3.1：将Step2.1输出的特征输入到BiLSTM层（双向长短期记忆网络），使各音频帧充分学习到整个输入音频序列的上下文信息，将最后一时刻的输出和所有时刻的输出合并为一个向量，作为最终的输出特征向量；

Step 4：将BiLSTM层的输出特征输入到Attention层计算目标损失和输出结果。

Step 4.1：将Step3.1输出的最终特征向量输入Attention层，直接使用Attention层进行预测，相较于使用CTC进行解码，Attention层不需要对齐每一个语音帧和输出符号，并且可以学习到输出之间的依赖关系，每一时刻的输出可以在之前所有预测输出的基础上进行预测，最终得到预测的输出序列并计算目标损失，从而不断的优化模型参数；

所述Step 1.2中，对原始的佤语语音信号经过预处理和各种变换计算得到Fbank音频特征。

所述Step 2.1中，使用卷积神经网络进一步提取音频信号的更多底层特征，提高模型的识别准确率。

所述Step 3.1中使用BiLSTM在时间序列上对语音特征进行处理，解决音频帧之间的长依赖问题。

所述Step 4.1中，使用注意力机制计算各音频帧与其他帧之间依赖关系的重要程度并进行输出预测，各输出之间有一定的依赖关系能提高识别准确率，并且使用注意力机制解码不用对齐输入的语音帧和预测的输出符号。

本发明对佤语孤立词汇语音识别方法进行设计，将卷积神经网络、BiLSTM和注意力机制应用到佤语孤立词汇语音识别任务中，是一种基于深度学习的端到端的语音识别方法。将原始佤语语音信息处理成Fbank特征，使用卷积神经网络进一步提取音频特征的深度特征，将深度特征输入到BiLSTM 层，每一音频帧从时间维度上关注整个音频序列的上下文信息，提高佤语语音识别的准确率，最后使用Attention层预测输出文本，不用显示对齐输入序列和输出序列，最后计算目标损失，加速了模型的收敛和优化，大大提高了语音识别的效率和准确率。

本发明的有益效果是：本发明能够有效地实现佤语孤立词汇的识别。与现有的传统语音识别方法相比，本发明可以更好的针对作为低资源语言的佤语孤立词的识别，主流的语音识别方法大都针对语料资源丰富的语言，而对于低资源语言的识别却不适用，并且较于传统的语音识别方法，本发明使用基于深度学习的方法对佤语孤立词汇的识别效果会更好，能实现端到端的识别，输入音频可以直接输出预测序列，具有重要的现实意义，对佤语的保护有着积极地意义。

附图说明

图1是本发明的主要流程图；

图2是本发明的原始佤语语音到Fbank音频特征转换的流程图；

图3是本发明使用的卷积神经网络结构和内部参数的细节图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1，如图1所示，基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，具体步骤为：

Step 1：将原始佤语词汇语音经过预处理得到Fbank音频特征；

Step 1.2：对Step 1.1中采集的佤语孤立词汇语音进行预处理:首先对语音信号进行预加重处理，对高频部分进行加重，以此凸显高频信息，增加语音的高频分辨率；再进行分帧加窗操作，窗口长度设置为25ms并作为一帧音频信息，步长设置为10ms，即每次取出25ms的音频，再移动10ms取下一帧的音频；然后进行离散傅里叶变换，将每一帧的时域信号转换为频域信号，常用方法为快速傅里叶变换，可将时间复杂度从O(N²)降为O(Nlog2N)；再计算梅尔频谱并取对数，它符合人耳线性感知的的频率曲线，将频谱规划到梅尔刻度上，能有效促进语音识别系统的性能，最终得到Fbank音频特征，提取Fbank特征流程图如图2所示；

Step 2：利用卷积神经网络进一步提取音频的深度特征；

Step 2.1：将Step 1.2得到的二维Fbank特征参数变换为三维，并输入到卷积神经网络中进一步提取底层特征，使用的卷积神经网络借鉴VGG网络模型，共有6层，其中包括4层2D卷积和2层最大池化层进行下采样，每一个卷积层的卷积核均为3*3，步长为1，即卷积层不进行下采样，使用池化层进行下采样，每一个池化层池化核均为3*3，步长为2，卷积神经网络结构和参数设置如图3所示；

Step 3：利用BiLSTM关注音频序列在时间序列上的上下文信息；

Step 3.1：将Step2.1输出的特征输入到BiLSTM层（双向长短期记忆网络），使各音频帧充分学习到输入音频序列的上下文信息，将最后一时刻的输出和所有时刻的输出合并为一个向量，作为最终的输出特征向量；

Step 4.1：将Step4.1输出的最终特征向量输入Attention层，直接使用注意力层进行预测，相较于使用CTC进行解码，Attention层不需要对齐每一个语音帧和输出符号，并且可以学习到输出之间的依赖关系，每一时刻的输出可以在之前所有预测输出的基础上进行预测，最终得到预测的输出序列并计算目标损失，从而不断的优化模型参数；

进一步的，Step 1.2中，对原始佤语孤立词汇语音信号经预处理和计算得到的Fbank音频特征。

进一步的，Step 2.1中使用卷积神经网络进一步提取音频信号的更多底层特征。

进一步的，Step 3.1中使用BiLSTM在时间序列上对语音特征进行处理，解决音频帧之间的长依赖问题。

进一步的，Step 4.1中使用注意力机制计算各音频帧与其他帧之间依赖关系的重要程度并进行输出预测，各输出之间有一定的依赖关系能提高识别准确率，并且使用注意力机制解码不用对齐输入的语音帧和预测的输出符号。

图1示明了基于卷积神经网络和注意力机制的佤语孤立词汇识别方法的架构。首先将原始佤语语音进行预处理和转换的操作，得到Fbank音频特征；类似于输入一张图片，将二维的Fbank特征先经过变换变成三维输入到卷积神经网络中，共经过6层网络，包括4层卷积和2层最大池化，输入整个网络的下采样为4；接下来将特征输入到BiLSTM层，各特征帧在时间维度上关注整个上下文信息，提高识别的准确率；最后输入到Attention层预测输出序列并计算目标损失，优化模型的参数，对于我们的佤语孤立词汇数据集，模型可以达到88%的识别准确率。

具体实施时，首先提取原始佤语孤立词汇语音的Fbank特征，提取Fbank特征过程如图2所示。将Fbank特征变换成三维输入到卷积神经网络，共经过4个卷积层和2个最大池化层，第一层和第二层的卷积的卷积核均为3*3，输出通道均为64，然后经过第三层的最大池化层进行第一次的下采样，再经过第四层和第五层的卷积层，卷积和均为3*3，输出通道均为128，最后经过一层最大池化层再进行一次下采样，提取特征的网络的整个下采样率为4，提取特征的网络如图3所示。将得到的特征再输入到BiLSTM层进一步的处理，最后输入到Attention层进行输出序列预测和计算损失优化模型参数。

本发明做了多组消融实验验证该方法的有效性，在特征提取时基于VGG网络对比了使用VGG(11)、VGG(13)、VGG(16)、CNN、Conformer时的识别效果，其中batch的大小均为32，共进行160K steps,每2K steps进行一次验证，使用WER（字错率）作为验证指标，1-WER即为准确率，最终本发明的方法识别准确率为88%，其他方法依次为78.66%、48.1%、12.7%、80.12%、45.9%，所以本发明的方法能够有效识别佤语孤立词汇数据集。

表1为不同的编码器使用相同的Attention进行解码在测试集上的WER

Model	WER[%]
		VGG(6)+BiLSTM+Attention	12.01
VGG11+BiLSTM+Attention	21.34
		VGG13+BiLSTM+Attention	51.9
VGG16+BiLSTM+Attention	87.3
		CNN+BiLSTM+Attention	19.88
Conformer+BiLSTM+Attention	54.1

从实验数据可以看到，不同模型之间只有提取特征部分不一样，本发明使用的是第一个方法，在识别佤语孤立词汇时取得了最好的结果，使用CNN时效果也不错。但随着VGG网络深度的加深，模型的识别准确率开始下降，使用Conformer时效果也很差，所以本发明使用的模型简洁同时识别效果也很好。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，其特征在于：所述方法包括如下步骤：

Step 1：将原始佤语词汇语音经过预处理得到Fbank音频特征；

Step 2：利用卷积神经网络进一步提取音频的深度特征；

Step 3：利用BiLSTM关注音频序列在时间序列上的上下文信息；

2.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，其特征在于：所述Step 1的具体步骤如下：

Step 1.1：使用录音设备对当地多位佤族人进行常用佤语词汇语音采集，其中发音人包括不同年龄段并且分男女，以此来丰富佤语孤立词汇语音语料库；

Step 1.2：对Step 1.1中采集的佤语孤立词汇语音进行预处理:首先对语音信号进行预加重处理，对高频部分进行加重，增加语音的高频分辨率；再进行分帧加窗操作，窗口长度设置为25ms作为一帧音频信息，步长设置为10ms，即每次取出25ms的音频，再移动10ms取下一帧的音频；下一步进行离散傅里叶变换，方法为快速傅里叶变换，将每一帧的时域信号转换为频域信号；计算梅尔频谱并取对数，将频谱规划到梅尔刻度上，最终得到Fbank音频特征。

3.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，其特征在于：所述Step 2包括：

Step 2.1：将Step 1得到的二维Fbank特征参数变换为三维，并输入到卷积神经网络中进一步提取底层特征，卷积神经网络借鉴VGG网络模型，共有6层，其中包括4层2D卷积和2层最大池化层进行下采样。

4.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，其特征在于：所述Step3包括：

Step 3.1：将Step2输出的特征输入到双向长短期记忆网络BiLSTM层，使各音频帧充分学习到输入音频序列的上下文信息，将最后一时刻的输出和所有时刻的输出合并为一个向量，作为最终的输出特征向量。

5.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，其特征在于：所述Step4包括：

Step 4.1：将Step3输出的最终特征向量输入到Attention层，直接使用注意力层进行预测，Attention不需要显式地对齐每一个语音帧和输出符号，并且学习到输出之间的依赖关系，每一时刻的输出在之前所有预测输出的基础上进行预测，最终得到预测的输出序列并计算目标损失，从而不断的优化模型参数。

6.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，其特征在于：Step1中，对原始的佤语语音信号经过预处理和变换计算得到Fbank音频特征。

7.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，其特征在于：Step2中，使用卷积神经网络进一步提取音频信号的特征。

8.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，其特征在于：Step3中使用BiLSTM在时间序列上对语音特征进行处理。

9.根据权利要求1所述的基于卷积神经网络和注意力机制的佤语孤立词汇识别方法，其特征在于：Step4中使用注意力机制计算各音频帧与其他帧之间依赖关系的重要程度并进行输出预测。