CN110473520A

CN110473520A - 一种基于深度学习的空中管制中英文语音判别方法

Info

Publication number: CN110473520A
Application number: CN201910654299.5A
Authority: CN
Inventors: 王耀彬
Original assignee: Shanghai Matu Information Technology Co Ltd
Current assignee: Shanghai Matu Information Technology Co Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-11-19

Abstract

本发明公开了一种基于深度学习的空中管制中英文语音判别方法，包括以下步骤：获取待判别的语音信号，并将其转换为16bit 16kHz的PCM音频数据；建立深度网络模型；利用训练数据训深度网络模型得到中英文语音判别引擎；其中，深度网络模型使用深度残差卷积模块作为特征提取器，并由reshape层和全连接层对提取的特征数据进行处理，最终通过softmax分类器进行分类学习，获得判别结果。本发明采用以人工智能深度学习引擎为核心，具有极强的专业适用性和口音泛化能力，数据量依赖程度更低的优点，在空管中英文语音的语言判别上表现优异。

Description

一种基于深度学习的空中管制中英文语音判别方法

技术领域

本发明涉及语音处理技术领域，尤其涉及一种基于深度学习的空中管制领域的中英文语音判别方法。

背景技术

随着民航业快速发展，每年都增加大量的飞机和航班。然而空中管制人员却长期存在缺口，保守估计也有数千人之多。即使空管相关单位对此实施了一系列方法，比如4+1培养机制等方案，但空管人员依然存在大量流失的现象。同时又因为新进人员经验不足、培训时间和资源的缺乏等问题，导致无法发挥相应的人员效益。空管行业人员紧张导致了空管人员超负荷工作的问题，致使空中交通存在潜在的安全问题和效率问题。当前中国的空中交通管制仍是以管制员主观决策为主的高强度脑力劳动，飞机班次随着民航的蓬勃发展而大大增多，而人手不足的空管目前又只能依赖管制员进行长时间高强度专注集中工作，人为失误在所难免。据统计，人为差错引发的航空事故占到了航空事故总量的80%，已经成为影响航空安全的重要原因。以2016年的10·11虹桥机场客机冲突事件为例，正是由于塔台管制员遗忘飞机动态，才造成如此严重的事故（跑道侵入）。因此，有必要引入语音识别系统，实时发送与记录管制员和飞行员的指令和回复语音，从而减少理解歧义和遗忘等情况。当前，随着人工智能技术的发展，基于深度学习技术的端到端语音识别模型日趋成熟。然而中英文语音差异较大，且空管语音的发音速度很快，特别是英文语音中存在大量连读和吞音现象，因此难以训练一个中英文通用的语音识别模型，有必要建立一个中英文语音判别系统，作为语音识别的前处理模块，将中英文语音分离后分别送入对应的识别引擎中进行文字转换。

本专利所应用最重要的算法技术是深度残差卷积模块，其核心思想源于《DeepResidual Learning for Image Recognition》中所提出的残差学习框架，最早用于图像识别。本专利基于该思想建立两种不同类型的深度残差卷积模块，用于提取深层次的语音特征，以提高语言特征的判断准确率。

发明内容

本发明旨在构建一套专门用于空中管制语音的中英文语音判别系统。本系统采用深度学习技术构建，能够高准确地判别空管语音是中文语音还是英文语音，实现较高的空管语音中英文判别准确率。

为了实现上述效果，本发明提供的技术方案如下：

本发明包括以下步骤：

S1：获取待判别的语音信号，长度不超过16s的音频，音频格式将转换为16bit 16kHz的PCM音频数据；

S2：建立深度网络模型；

S3：利用训练数据训练深度网络模型得到中英文语音判别引擎；

S4：将有效音频片段输入中英文语音判别引擎，并输出对应的标签。

所述的深度网络模型，采用两种不同结构和功能的深度残差卷积模块作为特征提取器，每个深度残差卷积模块包含若干个卷积层紧跟批标准化层、一个直连结构和一个池化层，使用reshape层和全连接层对提取的特征数据进行处理，最后使用softmax分类器进行分类与决策，得到判别结果。语音数据经过深度残差卷积模块和softmax分类器可以获得判别结果，实现了一个完整的正向传播过程。所述的深度网络模型还在模块连接处设置有dropout层用于提高模型的泛化能力。

所述的深度残差卷积模块包括恒等型深度残差卷积模块和卷积型深度残差卷积模块。

所述的恒等型深度残差卷积模块包括主路、支路和处理模块：主路包含三个相同的小卷积模块，每个小卷积模块包含卷积层、批标准化层和非线性层；支路用于传输与输入数据相同的数据流；处理模块对经过主路和支路的数据进行求和，并作非线性处理；恒等型深度残差卷积模块的输入数据与输出数据的维度相同。

所述的卷积型深度残差卷积模块包括主路、支路和处理模块：主路包含三个相同的小卷积模块，每个小卷积模块包含卷积层、批标准化层和非线性层；支路包括一个卷积层与批标准化层；处理模块对经过主路和支路的数据进行求和，并作非线性处理；所述的卷积型深度残差卷积模块的输入数据与输出数据维度不一致。

所述的深度残差卷积模块采用ReLU激活函数作非线性处理。

所述的基于深度学习的空中管制中英文语音判别方法，利用训练数据训练得所述深度网络模型到中英文语音判别引擎，包括以下具体步骤：

S3.1：获取已切分好的空管指挥音频数据片段；

S3.2：标注语音数据：使用标签对S3.1所获得的音频数据进行标注得到训练数据，得到的训练数据包括语音数据和标注数据；

S3.3：将语音数据和标注数据成对按组划分训练数据；

S3.4：通过反向传播算法，利用Adam优化器对S2建立的深度网络模型进行训练，并形成可以应用的中英文语音判别深度学习网络。

将音频数据输入中英文语音判别引擎，训练好的判别引擎将会把音频数据转化为对应的中英文标签结果输出。标签结果将用于输出、保存或其他应用使用。

本发明具有以下有益效果：

本发明所述的深度网络模型采用的深度残差卷积模型不仅具有常规卷积模型所具有的局部感知、权值共享的优点，能够在相对较少的参数量下有效提取数据特征，还能够使信息跨层传递，约束随层深的增加导致的梯度不收敛现象，从而进一步提取数据特征。批标准化层在训练过程中使得每一层神经网络的输入保持相同分布，从而改善人工神经网络的性能和稳定性。池化层具有特征不变性和特征降维的优点，能够进一步压缩数据和参数量，防止模型过拟合。数据经过三个深度残差卷积模块，其中第一个模块为恒等类型，后两个模块为卷积类型，至下而上地提取数据特征，学习识别数据信息。另外，模块连接处还设置有dropout层，可以防止模型发生过拟合。

由于空管专业性、地域差异性和人员复杂性，空管语音中存在大量专业名词、独特的地区名称、中英文混杂以及口音差异，这对于中英文语音判别系统而言是一个巨大的挑战。本系统建立基于人工智能技术的中英文语音判别引擎，用于空管语音的中英文判别。相比于传统语音识别引擎，基于人工智能的中英文语音判别引擎不仅判别准确率有质的提升，而且模型结构大幅精简，训练与使用效率高。

本发明采用以人工智能深度学习引擎为核心，实现完整的、专业化的，专门针对空管语音特殊性的中英文语音判别系统。本系统中的中英文语音判别引擎全部采用真实的空管语音进行训练，具有极强的专业适用性和口音泛化能力，场景高度特定，数据量依赖程度更低，在空管语音的中英文判别上显著优于通用语音识别系统。

附图说明

图1是本发明语音指令中英文判别方法的流程示意图；

图2是本发明深度网络模型的连接方式示意图；

图3是恒等型深度残差卷积模块结构框架示意图

图4是卷积型深度残差卷积模块的结构框架示意图

图5是中英文语音判别引擎训练过程的流程示意图。

具体实施方式

下面将结合本实施例中的附图对本发明实施例作清楚完整的说明。所述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于深度学习的空中管制中英文语音判别方法，具体采用以下步骤：

PCM 即脉冲编码调制 (Pulse Code Modulation)，转换为PCM采用ffmpeg工具在linux系统或windows系统中对其进行转换。转换方法执行命令如下：

ffmpeg -i “raw_audio_file” -f wav -acodec pcm_s16le -ar 16000“pcm16bit16kHz.wav”；

上述命令可以将其他类型的音频文件，转换为 16bit 16kHz的PCM音频数据。

S2：建立深度网络模型。

深度网络模型的框架如图2所示。语音数据分为音频和标注文字两部分，其中音频部分以语谱图形式作为输入数据传入模型，标注部分转换为对应数字作为期望的输出值。输入数据首先按先后顺序经过首先经过一个恒等型深度残差卷积模块，然后经过两个卷积型深度残差卷积模块。

恒等型深度残差卷积模块结构框架如图3所示。数据流分为主路和支路。主路上数据流先后经过三个相同的小卷积模块，包含卷积层、批标准化层和非线性层，支路上数据流与初始数据完全相同，随后两者求和，并使用ReLU激活函数作非线性处理。该类型深度残差卷积模块的特点是输入数据与输出数据的维度相同。其实施方式如下：

def identity_block(x, kernal_size, filters):

k1,k2,k3=kernal_size

f1, f2, f3 = filters

shortcut = x # 支路

# 主路第一层

x = Conv2D(filters = f1, kernel_size = (k1, k1), strides = (1,1), padding= 'same', kernel_initializer='he_normal')(x)

x = BatchNormalization(axis = 3)(x)

x = Activation('relu')(x)

# 主路第二层

x = Conv2D(filters = f2, kernel_size = (k2, k2), strides = (1,1), padding= 'same', kernel_initializer='he_normal')(x)

x = BatchNormalization(axis=3)(x)

x = Activation('relu')(x)

# 主路第三层

x = Conv2D(filters = f3, kernel_size = (k3, k3), strides = (1,1), padding= 'same', kernel_initializer='he_normal')(x)

x = BatchNormalization(axis=3)(x)

# 主路与支路数据流相加，并作非线性处理

x = layers.add([x, shortcut])

x = Activation('relu')(x)

return x

卷积型深度残差卷积模块的结构框架如图4所示。与恒等型深度残差卷积模块相比，在支路上多了一个卷积层与批标准化层，其适用于输入数据与输出数据维度不一致的情况。该模块实施方式与恒等型深度残差卷积模块大致相同，区别在于在支路上添加一个卷积层和批处理层，其实施方式如下：

Shortcut = x

shortcut = Conv2D(f3, (1, 1), strides = (1, 1), padding='valid', kernel_initializer = 'he_normal') (shortcut)

shortcut = BatchNormalization(axis = 3)(shortcut)

在经过卷积模块的特征提取后，所提取的特征数据经过reshape层和全连接层进行整形与综合，最后进入softmax分类器进行判别。

优选地，reshape层的实施方式如下：

layer_h7 = Reshape((200, 3200))(layer_h12) # Reshape层

最后，数据进入一层全连接层和一层Softmax分类器进行分类学习与决策，获得预测结果。此外，在模型框架的模块连接处设置了dropout层（放弃层），以防止模型过拟合。

优选地，全连接层和Softmax分类器的实施方式如下：

layer_h8 = Dense(256, activation="relu", use_bias=True, kernel_initializer = 'he_normal') (layer_h13) # 全连接层

y_pred = Dense(2, activation='softmax', use_bias=True, kernel_initializer= 'he_normal', name='Prediction')(layer_h15) # Softmax分类器

优选地，可在深度网络模型各模块的连接处均设置dropout层，其实施方式如下：

layer_h6 = Dropout(0.1)(layer_h6)

S3：利用训练数据训练深度网络模型得到中英文语音判别引擎。

具体方式为：

获取原始空管指挥音频数据：获得需要判别的空管语音。除了使用真实的原始空管指挥音频数据，还可以使用人工智能合成拟真指令语音作为原始空管指挥音频数据进行使用；

标注语音数据：使用标签对所获得的语音进行标注得到训练数据，得到的训练数据包括语音数据和标注数据。

成对按组划分训练数据，优选地，划分组的大小为10000对为一组，可根据训练需要将数据划分为具有公共能的数据组，根据训练数据的功能和具体情况的确定每组的具体数量；

通过反向传播算法，利用adam优化器对深度网络模型进行训练，得到训练好的语音判别引擎。

优选地adam优化器的实施方式如下：

adam= Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-08)

model.compile(loss='binary_crossentropy', optimizer = adam, metrics=['accuracy'])

S4：将有效音频片段输入中英文语音判别引擎，并输出中英文判别结果。

判别结果将用于输出、保存或其他应用使用。

本发明实施例的方法，通过对深度神经网络进行结构优化，使用了深度残差卷积层模型具有局部感知、权值共享、增强收敛和提升信息传递性能的优点，相对于全连接的DNN，能够在相对较少的参数量下有效提取数据特征，减小了过拟合的几率；采用简单的Softmax分类器对数据特征进行分类学习与决策，使得整个模型的效率较高。

以上显示了本方案优选的实施方式。应当指出，本行业的技术人员应该了解本方案不受上述实施例的限制，任何本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案和发明构思加以等同或近似替换或改变，也应视为本发明的保护范围。

Claims

1.一种基于深度学习的空中管制中英文语音判别方法，其特征在于，包括以下步骤：

S1：获取待判别的语音信号，将其转换为16bit16kHz的PCM有效音频片段；

S2：建立深度网络模型；

S4：将有效音频片段输入语音判别引擎，并输出语言判别结果。

2.根据权利要求1所述的基于深度学习的空中管制中英文语音判别方法，其特征在于，所述步骤S1所述的语音信号为已经切分好的音频片段。

3.根据权利要求1所述的基于深度学习的空中管制中英文语音判别方法，其特征在于，所述步骤S2中所述的深度网络模型采用两种不同结构和功能的深度残差卷积模块作为特征提取器，每个深度残差卷积模块包含若干个卷积层紧跟批标准化层、一个直连结构和一个池化层，使用reshape层和全连接层对提取的特征数据进行处理，使用softmax分类器进行最终分类，得到判别结果；

其中，深度网络模型的模块连接处设置有dropout层。

4.根据权利要求3所述的基于深度学习的空中管制中英文语音判别方法，其特征在于，所述的深度残差卷积模块包括恒等型深度残差卷积模块和卷积型深度残差卷积模块；所述的恒等型深度残差卷积模块包括主路、支路和处理模块：主路包含三个相同的小卷积模块，每个小卷积模块包含卷积层、批标准化层和非线性层；支路用于传输与输入数据相同的数据流；处理模块对经过主路和支路的数据进行求和，并作非线性处理；

所述的恒等型深度残差卷积模块的输入数据与输出数据的维度相同；

所述的卷积型深度残差卷积模块包括主路、支路和处理模块：主路包含三个相同的小卷积模块，每个小卷积模块包含卷积层、批标准化层和非线性层；支路包括一个卷积层与批标准化层；处理模块对经过主路和支路的数据进行求和，并作非线性处理；

所述的卷积型深度残差卷积模块的输入数据与输出数据维度不一致；

所述的深度残差卷积模块采用ReLU激活函数进行非线性处理。

5.根据权利要求1所述的基于深度学习的空中管制中英文语音判别方法，其特征在于，所述步骤S3具体包括：

S3.1：获取空管指挥音频数据：获得需要判别的空管语音；

S3.2：标注语音数据：使用标签对S3.1所获得的语音进行标注得到训练数据，得到的训练数据包括语音数据和标注数据；

S3.3：成对按组划分训练数据；

S3.4：通过反向传播算法，利用Adam优化器对S3建立的深度网络模型进行训练，得到训练好的中英文语音判别引擎。