CN112216272A

CN112216272A - 一种针对民航陆空通话领域的语种识别方法

Info

Publication number: CN112216272A
Application number: CN201910571386.4A
Authority: CN
Inventors: 杨群; 余洋; 刘绍翰
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2021-01-12

Abstract

本发明公开一种针对民航陆空通话领域的语种识别方法。方法包括：获取民航陆空通话领域语音，对语音信号进行预处理，作为数据集；对所述数据集进行特征提取，得到特征向量；根据所述特征向量采用深度神经网络训练，得到语种识别模型；运用所述语种识别模型，实现对民航陆空通话领域的语种识别。民航陆空通话领域语音语速快，语音时间短，语音的现有特征表达不足，成为语种识别的一个难点，而深度神经网络对特征有较好的再表达效果，能够自动获取特征并进行分析，将深度神经网络运用到本发明上，能够辅助管制员进行陆空对话分析，识别对话语种，突破语种交流的障碍。

Description

一种针对民航陆空通话领域的语种识别方法

技术领域

本发明涉及智能通话领域，特别是涉及一种针对民航陆空通话领域的语种识别方法。

背景技术

由于航空运输、通用航空和军事交通的迅速发展，使得空中交通管制(AirTraffic Control，ATC)系统的运行繁忙，空中交通管制中使用不同种语言的人们在交流的过程中，语言是最大的局限和障碍，管制员迫切希望突破语种的障碍进行交流。

民航陆空通话作为飞行员与管制员之间的一种重要的通信方式，其正确性是保障航空器安全、高效运行的关键，也是关系民航事业发展的重点。为了减少陆空通话失误的发生，国际民航组织不断地对陆空通话用语规范进行改进，但是飞行员和管制员之间通话仍然存在着语种的差异，进而导致陆空通话失误，导致飞行事故不断发生，这对民航安全提出了严峻的考验。

随着现代文明与科技的快速发展，人类对语言的认识更加深入，从语音发音的原理、声道信息以及语音的频谱等都有了较深入的理解。特别的，随着计算机网络和人工智能的飞速发展，人们对于计算机能提取出深层语言信息并“听懂”不同语言的愿望更加强烈。民航陆空通话依赖于管制员主观性的决策，这对管制员的可靠性要求极高，如果能通过机器来辅助管制员实现民航陆空通话语种识别，进而实现语音的高效性识别，将能有效提高ATC系统的性能和可靠性，这对减少陆空安全事故具有重大和迫切的现实意义。

近些年，语种识别技术已日益成熟，使得实现以上构想成为可能，因此，如何提供一种针对民航陆空通话领域的语种识别方法，成为本领域亟需解决的技术问题。

发明内容

本发明的目的是提供一种针对民航陆空通话领域的语种识别方法，识别对话语种。

为实现上述目的，本发明提供了如下方案：

一种针对民航陆空通话领域的语种识别方法，所述识别方法包括：

获取民航陆空通话领域语音，对语音信号进行预处理，作为训练数据集；

对所述训练数据集进行特征提取，得到特征向量；

根据所述特征向量采用深度神经网络训练，得到语种识别模型；

运用所述语种识别模型，实现对民航陆空通话领域的语种识别。

可选的，所述获取民航陆空通话领域语音，对语音信号进行预处理，作为训练数据集，具体包括：

获取一段语音，切除首尾端的静音得到语音片段；

对所述语音片段，进行预加重处理；

对所述语音片段，进行分帧处理，得到语音段；

对所述语音段，进行加窗处理，作为训练数据集。

可选的，对所述训练数据集进行特征提取，得到特征向量，具体包括：

将所述训练数据集进行特征提取，选用梅尔倒谱频率特征；

根据所述特征，进行特征域补偿和归一化，得到处理后的特征；

根据处理后的特征，将多个特征进行融合，得到特征向量。

可选的，根据所述特征向量采用深度神经网络训练，得到语种识别模型，具体包括：

对所述特征向量，逐层训练受限玻尔兹曼机，得到高阶特征；

根据高阶特征，使用逻辑回归模型，得到模型的实际输出；

根据模型的实际输出，得到与样本标签的误差；

根据样本标签的误差，结合误差逆传播算法对模型的参数进行微调，得到语种识别模型。

可选的，运用所述语种识别模型，实现对民航陆空通话领域的语种识别，具体包括：

对所述输入语音进行特征提取，得到特征向量；

根据所述特征向量，使用语种识别模型，得到语种识别。

为实现上述目的，本发明提供了如下方案：

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种针对民航陆空通话领域的语种识别方法。方法包括：获取民航陆空通话领域语音，对语音信号进行预处理，作为训练数据集；对所述训练数据集进行特征提取，得到特征向量；根据所述特征向量采用深度神经网络训练，得到语种识别模型；运用所述语种识别模型，实现对民航陆空通话领域的语种识别。民航陆空通话领域语音语速快，语音时间短，语音的现有特征表达不足，成为语种识别的一个难点，而深度神经网络对特征有较好的再表达效果，能够自动获取特征并进行分析，将深度神经网络运用到本发明上，能够辅助管制员进行陆空对话分析，识别对话语种，突破语种交流的障碍。

附图说明

为了更清楚地说明本发明现有技术中的技术方案，下面将对技术方案所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些技术方案，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例针对民航陆空通话领域的语种识别方法流程图；

图2为本发明实施例针对民航陆空通话领域的语种识别方法流程模块图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例针对民航陆空通话领域的语种识别方法流程图。如图1所示，一种针对民航陆空通话领域的语种识别方法，所述识别方法包括：

步骤101：获取民航陆空通话领域语音，对语音信号进行预处理，作为训练数据集，具体包括：

获取一段语音，切除首尾端的静音得到语音片段；对所述语音片段，进行预加重处理；对所述语音片段，进行分帧处理，得到语音段；对所述语音段，进行加窗处理，作为训练数据集。

步骤102：对所述训练数据集进行特征提取，得到特征向量，具体包括：

将所述训练数据集进行特征提取，选用梅尔倒谱频率特征；根据所述特征，进行特征域补偿和归一化，得到处理后的特征；根据所述特征，将多个特征进行融合，得到特征向量。

步骤103：根据所述特征向量采用深度神经网络训练，得到语种识别模型，具体包括：

对所述特征向量，逐层训练受限玻尔兹曼机，得到高阶特征；根据高阶特征，使用逻辑回归模型，得到模型的实际输出；根据模型的实际输出，得到与样本标签的误差；根据样本标签的误差，结合误差逆传播算法对模型的参数进行微调，得到语种识别模型。

步骤104：根据所述语种识别模型，得到民航陆空通话领域的语种识别方法，具体包括：

对所述输入语音进行特征提取，得到特征向量；根据所述特征向量，使用语种识别模型，得到语种识别。

图2为本发明实施例针对民航陆空通话领域的语种识别方法流程模块图。如图2所示，一种针对民航陆空通话领域的语种识别方法，所述识别方法包括：

步骤201：对所述语音片段，进行预加重处理；对所述语音片段，进行分帧处理，得到语音段；对所述语音段，进行加窗处理，作为训练数据集。

步骤202：将所述训练数据集进行特征提取，选用梅尔倒谱频率特征；根据所述特征，进行特征域补偿和归一化，得到处理后的特征；根据处理后的特征，将多个特征进行融合，得到特征向量；根据特征向量，逐层训练受限玻尔兹曼机，得到高阶特征。

步骤203：对所述高阶特征，使用逻辑回归模型，得到模型的实际输出；根据模型的实际输出，得到与样本标签的误差；根据样本标签的误差，结合误差逆传播算法对模型的参数进行微调，得到语种识别模型。

本发明提供一种针对民航陆空通话领域的语种自动识别方法包括：获取民航陆空通话领域语音，对语音信号进行预处理，作为训练数据集；对所述训练数据集进行特征提取，得到特征向量；根据所述特征向量采用深度神经网络训练，得到语种识别模型；运用所述语种识别模型，实现对民航陆空通话领域的语种识别。民航陆空通话领域语音语速快，语音时间短，语音的现有特征表达不足，成为语种识别的一个难点，而深度神经网络对特征有较好的再表达效果，能够自动获取特征并进行分析，将深度神经网络运用到本发明上，能够辅助管制员进行陆空对话分析，识别对话语种，突破语种交流的障碍。

特征提取是语种识别方法中重要的部分之一，需要在语音信号中获得能够代表语种信息的特征表达。从语音信号中获取的特征参数要能够准确、完整的表达语音信号里面所携带的全部信息。然而，语音信号是复杂的非平稳的随机信号，其中不仅包含有语义信息，还有个人特征信息，如声道、情感等因素。需要在前端特征参数的处理过程中，增加增强鲁棒性的预处理方法，尽可能去除掉干扰因素，提高语种的识别性能。先对语音数据进行预处理，包括预加重、分帧、加窗，之后在提取特征，最后对提取出的原始特征进行特征域补偿和归一化，提高特征的鲁棒性。

特征提取的过程中提取的是梅尔倒谱频率特征(简称MFCC，Mel FrequencyCepstral Coefficient)，MFCC是基于人耳机理特性提取出来的声学特征。MFCC是从Mel频域提取出来的倒谱特征，具有较好的识别能力和噪声鲁棒性。具体方法如下：

1)预处理：预加重提升高频信号、分帧和加窗等处理，得到时域信号X(n)；

2)用快速傅里叶变换(Fast Fourier Transform，FFT)将时域信号X(n)转换为频域信号 X(m)，并计算得到能量谱E(f)；

3)将信号的频率转换为Mel域上的频率Mel(f)，从而得到梅尔域能量谱P(fmel)；

4)将P(fmel)通过一组三角滤波器Hi(m)，三角滤波器组的加权系数为：

其中，f(i)是三角带通滤波器的中心频率：

Mel(f[i+1])-Mel(f[i])＝Mel(f[i])-Mel(f[i-1])

由此得到每个滤波器组的对数能量输出：

其中M是滤波器组个数，ψ(i)表示第i个滤波器的输出，这里取对数是为了之后的信道卷积将乘积信号变为加性信号提供方便；

5)对ψ(i)做离散余弦变换(DCT，Discrete Cosine Transform)得到MFCC系数：

其中，P是MFCC参数的级数。

语种识别模型是语种识别方法中最为重要的部分之一，语种识别模型中最重要的部分是深度神经网络，深度神经网络是以受限玻尔兹曼机(简称RBM，Restric BoltzmanMachine)为基础网络结构逐层堆叠而成的，最底层的RBM的输入即为原始的语音数据的特征向量，其隐含层的输出作为下一层RBM的输入，下一层RBM隐含层的输出继续作为下一层RBM的输入，以此类推，直到到达最顶层的RBM，在最顶层的RBM的隐含层输出的后端加入逻辑回归作为语种识别分类结果的输出层，相比于单独的RBM对数据的建模更加精确，在语种识别研宄中得到了较好的应用。

语种识别模型训练的具体过程如下：

1)随机初始化RBM网络权值；

2)将输入语音数据的特征向量作为最底层的RBM的输入，用对比散度算法(简称CD， Contrastive Divergence)算法对该层RBM进行无监督学习；

3)固定已经训练好的RBM的参数，并将该层的隐含节点概率分布进行抽样得到隐含层节点状态样本，将该状态样本作为下一层RBM的输入，使用CD算法继续训练直到收敛；

4)重复步骤3，直到神经网络中的所有RBM都收敛；

5)在最顶层RBM之后添加逻辑回归模型，用样本的标签与模型实际的输出的误差结合BP 算法对模型的参数进行微调。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种针对民航陆空通话领域的语种识别方法，其特征在于，所述语种识别方法包括：