CN115359784A

CN115359784A - 基于迁移学习的民航陆空语音识别模型训练方法及系统

Info

Publication number: CN115359784A
Application number: CN202211292283.2A
Authority: CN
Inventors: 张华勇; 王小刚
Original assignee: Chengdu Aiwei Translation Technology Co ltd
Current assignee: Chengdu Aiwei Translation Technology Co ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2022-11-18
Anticipated expiration: 2042-10-21
Also published as: CN115359784B

Abstract

本发明公开了一种基于迁移学习的民航陆空语音识别模型训练方法及系统，所述方法包括：获取通用领域的数据集并处理得到声学特征；收集民航领域的数据集，再扩充训练文本并处理得到声学特征；初始化基于卷积神经网络的端到端语音识别模型的神经网络；采用通用领域的语音信号声学特征对语音识别模型进行训练得到预训练模型；获取迁移学习训练数据集；将初始化神经网络的语音识别模型的模型参数输入预训练模型中；采用迁移学习训练数据集对预训练模型进行训练，得到民航陆空通话语音识别模型。本发明能使语音识别模型在有限标注样本的数据集上也能显著提升识别率，进而提升飞行安全。

Description

基于迁移学习的民航陆空语音识别模型训练方法及系统

技术领域

本发明涉及民航无线电陆空通话领域，具体是基于迁移学习的民航陆空语音识别模型训练方法及系统。

背景技术

近年来，随着民航事业的高速发展，运输航空的飞行活动量逐年增长，民航业务也日益繁重。民航无线电陆空通话联系着空中和地面，传递着管制员和机组之间的指令信息，其与日常说话方式不同，是根据民航飞机运行特点开创的一种半人工语言。在中国，民航无线电陆空通话使用环境更加复杂，在《空中交通陆空对话用语标准》中，民航局对通话做了很多规定，例如数字的读法，7读为拐，0读为洞等。

为了避免在陆空通话过程中由于通话内容不正确、语言模糊等原因造成陆空通话错误，目前已采用语音识别模型来辅助管制员甚至替代管制员进行陆空通话，以此来减少陆空安全事故。语音识别模型需采用大量的民航陆空通话标注样本进行训练，以适应民航无线电陆空通话的使用环境，提升民航陆空通话语音指令的识别率，进而提升飞行安全性。然而，现有可供语音识别模型训练的民航陆空通话标注样本较少，而采用人为数据标注提供训练样本的方式开销巨大，这严重影响到了语音识别模型在民航陆空通话领域的推广应用。

发明内容

本发明的目的在于解决现有应用于民航陆空通话的语音识别模型因成本或标注样本较少而不能得到有效训练的问题，提供了一种基于迁移学习的民航陆空语音识别模型训练方法，其应用时采用有限的民航陆空通话标注样本训练语音识别模型，且能使语音识别模型在有限标注样本的数据集上也能显著提升识别率。

本发明的目的主要通过以下技术方案实现：基于迁移学习的民航陆空语音识别模型训练方法，包括以下步骤：

获取通用领域数据集，并进行数据处理得到通用领域的语音信号声学特征；

收集民航领域数据集，生成训练文本，再依据民航领域数据集的特点扩充训练文本，并进行数据处理得到民航领域的语音信号声学特征；

初始化基于卷积神经网络的端到端语音识别模型的神经网络，并保存模型参数；

采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练，直至模型的损失达到设定阈值范围内时停止训练，得到预训练模型；

将通用领域的语音信号声学特征与民航领域的语音信号声学特征按设定比例融合，得到迁移学习训练数据集；

将初始化神经网络的语音识别模型的模型参数输入预训练模型中，作为预训练模型的初始参数；

采用迁移学习训练数据集对预训练模型进行训练，调小模型学习率并微调网络所有层的参数，最终得到民航陆空通话语音识别模型。其中，通用领域数据集为开放域数据集，其数据为源域数据，民航领域数据集的数据作为目标域的数据。

由于民航陆空通话领域现有数据过少，本发明通过收集开放域数据集并做数据处理，初始化神经网络并保存模型参数，采用经初始化神经网络的语音识别模型在开放域进行模型训练，得到预训练模型，再融合源域和目标域的数据，使用一个较小的学习率对模型进行训练，得到民航陆空通话语音识别模型。本发明采用基于迁移学习的方法能有效利用该民航领域外的数据，提升在目标域语音识别的准确度，同时也能确保模型在开放域语音识别具有较高的准确率。采用本发明的方法能够解决无线电陆空通话领域语料不足的问题，提高无线电陆空通话的准确率。

进一步的，将数据集处理得到语音信号声学特征包括以下步骤：

将数据集中的语音格式进行解码得到语料库；

检测语料库中语音活性，并切除语音首尾静音部分，得到语音数据；

将语音数据依次经过预加重、分帧、加窗、离散傅里叶变换后得到语音信号声学特征。

进一步的，所述依据民航领域数据集的特点扩充训练文本包括以下步骤：

根据民航陆空通话特点，设置场景，分析陆空通话的典型指令，再设计为语音识别的语句范式，扩充为训练文本。

进一步的，所述初始化基于卷积神经网络的端到端语音识别模型的神经网络时，采用ReLU激活函数配置神经网络隐层。

进一步的，所述通用领域数据集定义为：

其中，Ｄ(S)表示通用领域数据集，为源域，x _i表示输入特征，y _i表示输入特征对应的标签数据，n为通用领域数据集的数据总量，i为n个数据中的第i个数据；

采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练时，通过预训练确定神经网络权值矩阵，进而得到预训练模型。

进一步的，将通用领域的语音信号声学特征与民航领域的语音信号声学特征进行融合时，融合比例为1：5。

进一步的，所述迁移学习训练数据集定义为:

其中，D(T)表示迁移学习训练数据集，为目标域，x _i'、x _j表示输入特征，y _i'、y _j表示输入特征对应的标签数据，m为迁移学习训练数据集中数据总数，i'为迁移学习训练数据集中第i'个通用领域的语音信号声学特征，j'为迁移学习训练数据集中第j'个民航领域的语音信号声学特征。

进一步的，得到民航陆空通话语音识别模型时，通过不断最小化损失函数得到新权值矩阵，进而得到最终模型。

进一步的，所述损失函数采用CTC损失函数，其Loss函数L(S)定义如下：

其中，L(S)表示训练集的损失函数，p(z│x)代表给定输入x，输出序列z的概率，S为训练集。

进一步的，所述通用领域数据集、民航领域数据集均包括中文数据集和英文数据集。

实现上述基于迁移学习的民航陆空语音识别模型训练方法的系统，包括：

通用领域数据收集处理模块，用于获取通用领域数据集，并进行数据处理得到通用领域的语音信号声学特征；

民航领域数据收集处理模块，用于收集民航领域数据集，生成训练文本，再依据民航领域数据集的特点扩充训练文本，并进行数据处理得到民航领域的语音信号声学特征；

语音识别模型初始化模块，用于初始化基于卷积神经网络的端到端语音识别模型的神经网络，并保存模型参数；

预训练模型生成模块，用于采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练，直至模型的损失达到设定阈值范围内时停止训练，得到预训练模型；

迁移学习训练数据生成模块，用于将通用领域的语音信号声学特征与民航领域的语音信号声学特征按设定比例融合，得到迁移学习训练数据集；

预训练模型参数设置模块，用于将初始化神经网络的语音识别模型的模型参数输入预训练模型中，作为预训练模型的初始参数；

民航陆空通话语音识别模型生成模块，用于采用迁移学习训练数据集对预训练模型进行训练，调小模型学习率并微调网络所有层的参数，最终得到民航陆空通话语音识别模型。

综上所述，本发明与现有技术相比具有以下有益效果：本发明的语音识别模型首先在更容易获取的开放域数据集上进行首次训练，获得一个可以良好识别开放域语音数据的语音识别模型。再利用迁移学习的方式，将该模型迁移至民航领域，相较于只使用目标域的声学建模，基于迁移学习的方案能够有效的提升在目标域语音识别的准确度，同时具备更高的鲁棒性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一个具体实施例的流程图；

图2为本发明一个具体实施例的系统框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例：

如图1所示，基于迁移学习的民航陆空语音识别模型训练方法，包括以下步骤：获取通用领域数据集，并进行数据处理得到通用领域的语音信号声学特征；收集民航领域数据集，生成训练文本，再依据民航领域数据集的特点扩充训练文本，并进行数据处理得到民航领域的语音信号声学特征；初始化基于卷积神经网络的端到端语音识别模型的神经网络，并保存模型参数；采用通用领域的语音信号声学特征对初始化神经网络的语音识别模型进行训练，直至模型的损失达到设定阈值范围内时停止训练，得到预训练模型；将通用领域的语音信号声学特征与民航领域的语音信号声学特征按设定比例融合，得到迁移学习训练数据集；将初始化神经网络的语音识别模型的模型参数输入预训练模型中，作为预训练模型的初始参数；采用迁移学习训练数据集对预训练模型进行训练，调小模型学习率并微调网络所有层的参数，最终得到民航陆空通话语音识别模型。本实施例中通用领域数据集、民航领域数据集均包括中文数据集和英文数据集。本实施例通用领域的中文数据集基于现有的AISHEEL数据集得到，通用领域的英文数据集基于LibriSpeech数据集得到。

如图2所示，实现上述基于迁移学习的民航陆空语音识别模型训练方法的系统，包括：

民航陆空通话语音识别模型生成模块，用于采用迁移学习训练数据集对预训练模型进行训练，调小模型学习率并微调网络所有层的参数，最终得到民航陆空通话语音识别模型。本实施例在具体设置时，模型的损失达到设定阈值范围为0～0.3，在训练过程中，当模型的损失值下降幅度不大于0.3时，可以认为损失基本保持不变。

本实施例将数据集处理得到语音信号声学特征包括以下步骤：将数据集中的语音格式进行解码得到语料库；检测语料库中语音活性，并切除语音首尾静音部分，得到语音数据；将语音数据依次经过预加重、分帧、加窗、离散傅里叶变换后得到语音信号声学特征。其中，解码的过程就是在给定声学特征的情况下，找到最可能对应的词组的过程。本实施例通过语音活性检测，检测语音信号是否存在。本实施例通过预加重以增强该语音数据的高频部分，再通过分帧、加窗进行平滑处理，再通过离散傅里叶变换将时域信号有采样变换为在频域的采样，得到预处理后的语音信号声学特征。

本实施例依据民航领域数据集的特点扩充训练文本包括以下步骤：根据民航陆空通话特点，设置场景，分析陆空通话的典型指令，再设计为语音识别的语句范式，扩充为训练文本。本实施例根据《空中交通无线电通化用语》来理解并分析指令，民航指令根据具体场景可分为不同的阶段，例如起飞阶段，放行阶段，滑行阶段，掉头阶段，推出开车阶段等，每一个阶段的指令不同，但在同一阶段的指令有固定句式；以掉头阶段为例：掉头阶段一般给飞机下发的指令为：_______在______跑道掉头，此时可以根据关键词匹配的方法在空格处填词，例如牧歌3785，在87跑道上掉头；奥凯1385，在35跑道上掉头；通过这种方式可以增加训练预料，从而提高语音识别模型的准确率。

本实施例初始化基于卷积神经网络的端到端语音识别模型的神经网络时，采用ReLU激活函数配置神经网络隐层。ReLU激活函数即为线性整流函数，其给神经元引入非线性因素，神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。ReLU激活函数f(x)的公式定义为：f(x)=max(0,x)。其中x为上一层神经网络的输入向量，f(x)为使用ReLU的神经元输出的max(0,x)。

本实施例采用基于卷积神经网络的端到端语音识别模型QuartzNet初始化神经网络，QuartzNet模型从总整体上看，模型主要由一个1D卷积层C ₁和一系列的块组成，其中，深度卷积被应用在了模型的所有卷积过程中。模型中的块与块之间使用残差进行连接，并被重复堆叠多次，每一个块包含基准模块及以下四层模块：1）一个大小为K的深度卷积层，输出通道数为C _out；2）一个深度卷积；3）一个泛化层；4）ReLU激活层。ReLU激活函数即线性整流函数，又称修正线性单元，是人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数。

本实施例将通过卷积得到的语音信号特征输入三个附加的卷积层（C ₂,C ₃,C ₄）中获得了维度为标签字典大小的输出，其中每一个维度代表该时间步语音信号被识别为字典中各个文本标签的概率。其中卷积层C ₁的步长为2，卷积层C ₄的扩张率为2。

深度卷积是对每个通道独立应用的，因此它只占权重总数的一小部分，这可以使用更宽的内核，其中经过实验验证，在归一化、层归一化、实例归一化以及组归一化中，批处理归一化的模型性能更稳定且结果更优，因此选择了批处理归一化作为模型的泛化层。

其中批处理归一化处理方法如下,其中批处理输入为x ₁～x _m共m个样本。

1）计算批处理数据均值μ _β：

2）计算批处理数据方差

：

3）规范化

，其中ε是为了避免除数为0时所使用的微小正数：

4）尺度变换和偏移后，输出网络特征y _k：

其中BN表示批处理，γ是尺度因子，β为平移因子，在训练时，γ、β为模型自己学到的参数，最后返回学习的参数γ、β，k取值为1至ｍ。

时间通道可分离卷积块的权重总数为K×C _in ＋C _in ×C _out权重，由于K通常比C _out小几倍，因此大多数权重都集中在逐点卷积部分。为了进一步减少参数的数量，本实施例在该层使用组卷积的方法，此外，还可采用组打乱方式以增加数据跨组互换，使用组卷积的方式可以大大减少权重的数量。

本实施例的通用领域数据集定义为：

其中，D(S)表示通用领域数据集，为源域，x _i表示输入特征，y _i表示输入特征对应的标签数据，n为通用领域数据集的数据总量，i为n个数据中的第i个数据；

发明人在反复实验总结发现，通用领域的语音信号声学特征与民航领域的语音信号声学特征采用1：5进行融合时，准备度能得到显著提升，因此，本实施例将通用领域的语音信号声学特征与民航领域的语音信号声学特征进行融合时，融合比例优选为1：5。

本实施例迁移学习训练数据集定义为:

本实施例得到民航陆空通话语音识别模型时，通过不断最小化损失函数得到新权值矩阵，进而得到最终模型。其中，损失函数采用CTC损失函数，其Loss函数L(S)定义如下：

其中，L(S) 表示训练集的损失函数，p(z│x)代表给定输入x，输出序列z的概率，S为训练集。

本实施例给出迁移学习训练数据集，其为来自于通用领域数据集和民航领域数据集，将输入特征及对应标签数据在预训练模型上进行迁移训练，设置一个较小的学习率来训练，当民航数据集在400小时以上时，学习率设置为0.0005，模型识别率最好。最后以不断最小化损失函数得到新权值矩阵及最终模型。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于迁移学习的民航陆空语音识别模型训练方法，其特征在于，包括以下步骤：

采用迁移学习训练数据集对预训练模型进行训练，调小模型学习率并微调网络所有层的参数，最终得到民航陆空通话语音识别模型。

2.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法，其特征在于，将数据集处理得到语音信号声学特征包括以下步骤：

将数据集中的语音格式进行解码得到语料库；

3.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法，其特征在于，所述依据民航领域数据集的特点扩充训练文本包括以下步骤：

4.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法，其特征在于，所述初始化基于卷积神经网络的端到端语音识别模型的神经网络时，采用ReLU激活函数配置神经网络隐层。

5.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法，其特征在于，所述通用领域数据集定义为：

6.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法，其特征在于，所述迁移学习训练数据集定义为:

7.根据权利要求1所述的基于迁移学习的民航陆空语音识别模型训练方法，其特征在于，得到民航陆空通话语音识别模型时，通过不断最小化损失函数得到新权值矩阵，进而得到最终模型。

8.根据权利要求7所述的基于迁移学习的民航陆空语音识别模型训练方法，其特征在于，所述损失函数采用CTC损失函数，其Loss函数L(S)定义如下：

9.根据权利要求1～8中任意一项所述的基于迁移学习的民航陆空语音识别模型训练方法，其特征在于，所述通用领域数据集、民航领域数据集均包括中文数据集和英文数据集。

10.实现权利要求1～9中任意一项所述的基于迁移学习的民航陆空语音识别模型训练方法的系统，其特征在于，包括：