CN108986791B

CN108986791B - 针对民航陆空通话领域的中英文语种语音识别方法及系统

Info

Publication number: CN108986791B
Application number: CN201810905662.1A
Authority: CN
Inventors: 杨群; 周凯; 刘绍翰; 王佳文
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2018-08-10
Filing date: 2018-08-10
Publication date: 2021-01-05
Anticipated expiration: 2038-08-10
Also published as: CN108986791A

Abstract

本发明公开一种针对民航陆空通话领域的中英文语种语音识别方法及系统。方法包括：获取民航陆空通话语音的数据集，包括音频文件、标注文本、发音词典、语言模型，作为训练数据集；对所述训练数据集进行特征提取，并对所述数据转换得到特征向量；根据所述特征向量进行语种识别训练，得到中英文语种识别模型；根据所述特征向量进行语音识别训练，得到中英文语音识别模型；将所述语种识别模型作为前端、所述语音识别模型作为后端得到民航空中交通管制中英文语种语音识别方法。采用本发明的方法或者系统能够辅助管制员进行陆空对话分析，保证语音识别的精确度，提高民航陆空通话的准确性。

Description

针对民航陆空通话领域的中英文语种语音识别方法及系统

技术领域

本发明涉及智能通话领域，特别是涉及一种针对民航陆空通话领域的中英文语种语音识别方法及系统。

背景技术

由于航空运输、通用航空和军事交通的迅速发展，使得空中交通管制(AirTraffic Control，ATC)系统的运行繁忙，空中交通管制的工作强度大、工作时间长，从而导致管制员工作疲劳、精神不振，容易在通话中发出不当甚至错误的指令。

世界范围内的许多空难事故都是由于陆空通话失误而产生的。在1977年，在特纳利夫(Tenerife)岛上发生了民航历史中最为严重的空难，造成了583名乘客全部死亡。而这次空难是由于飞行员与管制员通话时使用了不当的飞行指令所导致的。

民航陆空通话作为飞行员与管制员之间的一种重要的通信方式，其正确性是保障航空器安全、高效运行的关键。也是关系民航事业发展的重点。为了减少陆空通话失误的发生，国际民航组织不断地对陆空通话用语规范进行改进，但是由于陆空通话失误导致的飞行事故仍然不断发生，这对民航安全提出了严峻的考验。

民航陆空通话依赖于管制员主观性的决策，是高强度的脑力劳动，这对管制员的可靠性要求极高，如果能通过机器来辅助管制员甚至替代管制员进行陆空通话，将能有效提高ATC系统的性能和可靠性，这对减少陆空安全事故具有重大和迫切的现实意义。

近些年，语音识别技术已日益成熟，使得实现以上构想成为可能，因此，因此，如何提供一种针对民航陆空通话领域的中英文语种语音识别方法及系统，成为本领域亟需解决的技术问题。

发明内容

本发明的目的是提供一种针对民航陆空通话领域的中英文语种语音识别方法及系统，提高民航陆空通话的准确性。

为实现上述目的，本发明提供了如下方案：

一种针对民航陆空通话领域的中英文语种语音识别方法，所述识别方法包括：

获取民航陆空通话语音的数据集，包括音频文件、标注文本、发音词典、语言模型，作为训练数据集；

对所述训练数据集进行特征提取，并对所数据转换得到特征向量；

根据所述特征向量进行中英文语种识别训练，得到中英文语种识别模型；

根据所述特征向量进行语音识别训练，得到中英文语音识别模型；

将所述中英文语种识别模型作为前端、所述中英文语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法。

可选的，对所述训练数据集进行特征提取，并对所数据转换转换得到特征向量，具体包括：

找到一段语音端点，去除掉语音前部无声或噪音片段，仅保留包含有人说话的片段；

若所述语音过长，则以较短时间间隔切分所述语音，得到语音段；

对所述语音段进行特征提取，选用梅尔倒谱频率特征，得到特征向量；

对所述特征向量进行针对民航陆空对话特点的适应转换，所述转换包括噪音削减、音速扰动，得到处理后的特征向量。

可选的，所述根据所述特征向量进行语种识别训练，得到语种识别模型，具体包括：

将所述训练集中所有的特征向量使用最大期望算法得到一个通用背景模型；

根据所述通用背景模型训练得到一个声学特征提取器；

根据所述声学特征提取器对每个语音段进行声学特征抽取，得到每段语音对应的包含语种信息和信道信息的特征向量；

根据所述特征向量训练声纹，得到声纹识别模型；

根据所述声纹识别模型，加上得分计算步骤和判别阈值，得到中英文语种识别模型。

可选的，所述根据所述特征向量进行语音识别训练，得到中英文语音识别模型，具体包括：

对所述中英文特征向量根据其上下文关系进行三音素建模，得到三音素模型；

对所述三音素模型进行说话人自适应，得到说话人适应后的三音素模型；

根据所述说话人适应后的三音素模型加上语言模型构建解码图，得到语音识别模型。

可选的，所述将所述中英文语种识别模型作为前端、所述语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法，具体包括：

根据所述中英文语种识别模型对输入语音进行识别，得到语种类型；

根据所述中英文语音识别模型对输入语音进行识别，得到解码文本；

根据所述语种类型和所述解码文本识别出输入语音，得到识别文本。

为实现上述目的，本发明提供了如下方案：

一种针对民航陆空通话领域的中英文语种语音识别系统，所述识别系统包括：

数据收集模块，用于获取民航陆空通话语音的数据集，包括音频文件、标注文本、发音词典、语言模型，作为训练数据集；

特征提取模块，用于对所述训练数据集进行特征提取，并对特征做适应转换得到特征向量；

中英文语种识别训练模块，用于根据所述特征向量进行中英文语种识别训练，得到语种识别模型；

中英文语音识别训练模块，用于根据所述特征向量进行语音识别训练，得到中英文语音识别模型；

语种语音识别模块，用于将所述中英文语种识别模型作为前端、所述中英文语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法。

可选的，所述特征提取模块，具体包括：

去噪单元，用于找到一段语音端点，去除掉语音前部无声或噪音片段，仅保留有人说话的片段；

切分语音单元，若所述语音过长，用于以较短时间间隔切分所述语音，得到语音段；

特征提取单元，用于对所述语音段进行特征提取，选用梅尔倒谱频率特征，得到特征向量；

转换单元，用于对所述特征向量进行针对民航陆空对话特点的适应转换，所述转换包括噪音削减、音速扰动，得到处理后的特征向量。

可选的，所述语种识别训练模块，具体包括：

背景模型建立单元，用于将所述训练集中所有的特征向量使用最大期望算法得到一个通用背景模型；

特征提取器训练单元，用于根据所述通用背景模型训练得到一个声学特征提取器；

特征抽取单元，用于根据所述声学特征提取器对每个语音段进行声学特征抽取，得到每段语音对应的包含语种信息和信道信息的特征向量；

声纹训练单元，用于根据所述特征向量训练声纹，得到声纹识别模型；

语种识别模型建立单元，用于根据所述声纹识别模型，加上得分计算步骤和判别阈值，得到中英文语种识别模型。

可选的，所述中英文语音识别训练模块，具体包括：

三音素建模单元，用于对所述特征向量根据其上下文关系进行三音素建模，得到三音素模型；

自适应单元，用于对所述三音素模型进行说话人自适应，得到说话人适应后的三音素模型；

解码单元，用于根据所述说话人适应后的三音素模型加上语言模型构建解码图，得到中英文语音识别模型。

可选的，所述语种语音识别模块，具体包括：

语种类型识别单元，用于根据所述中英文语种识别模型对输入语音进行识别，得到语种类型；

解码文本获取单元，用于根据所述中英文语音识别模型对输入语音进行识别，得到解码文本；

识别文本获取单元，用于根据所述语种类型和所述解码文本识别出输入语音，得到识别文本。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供一种针对民航陆空通话领域的中英文语种语音识别方法。包括：获取民航陆空通话语音的数据集，包括音频文件、标注文本、发音词典、语言模型，作为训练数据集；对所述训练数据集进行特征提取，并对所述特征做适应转换得到特征向量；根据所述特征向量进行语种识别训练，得到民航陆空通话中英文语种识别模型；根据所述特征向量进行语音识别训练，得到语音识别模型；将所述语种识别模型作为前端、所述语音识别模型作为后端得到民航空中交通管制多语种语音识别方法。本发明中的语音识别方法能够辅助管制员进行陆空对话分析，保证了语音识别的精确度，提高了民航陆空通话的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例针对民航陆空通话领域的中英文语种语音识别方法流程图；

图2为本发明实施例针对民航陆空通话领域的中英文语种语音识别系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例针对民航陆空通话领域的中英文语种语音识别方法流程图。如图1所示，一种针对民航陆空通话领域的中英文语种语音识别方法，所述识别方法包括：

步骤101：获取民航陆空通话语音的数据集，包括音频文件、标注文本、发音词典、语言模型，作为训练数据集；

步骤102：对所述训练数据集进行特征提取，并对所述数据转换得到特征向量，具体包括：

找到一段语音端点，去除掉语音前部无声或噪音片段，仅保留包含语言的片段；若所述语音过长，则以较短时间间隔切分所述语音，得到语音段；对所述语音段进行特征提取，所述特征选用梅尔倒谱频率特征，得到特征向量；对所述特征向量进行针对民航陆空对话特点的适应转换，所述转换包括噪音削减、音速扰动，得到处理后的特征向量。

步骤103：根据所述特征向量进行语种识别训练，得到中英文语种识别模型，具体包括：

将所述训练集中所有的特征向量使用最大期望算法得到通用背景模型；根据所述通用背景模型训练得到声学特征提取器；根据所述声学特征提取器对每个语音段进行声学特征抽取，得到每段语音对应的包含语种信息和信道信息的特征向量；根据所述特征向量训练声纹，得到声纹识别模型；根据所述声纹识别模型，加上得分计算步骤和判别阈值，得到语种识别模型。

步骤104：根据所述特征向量进行语音识别训练，得到中英文语音识别模型；具体包括：

对所述特征向量根据其上下文关系进行三音素建模，得到三音素模型；对所述三音素模型进行说话人自适应，得到说话人适应后的三音素模型；根据所述说话人适应后的三音素模型加上语言模型构建解码图，得到语音识别模型。

步骤105：将所述中英文语种识别模型作为前端、所述中英文语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法，具体包括：

根据所述语种识别模型对输入语音进行识别，得到语种类型；根据所述语音识别模型对输入语音进行识别，得到解码文本；根据所述语种类型和所述解码文本识别出多语种输入语音，得到识别文本。

本发明提供一种针对民航陆空通话领域的中英文语种自动语音识别方法包括：获取民航陆空通话语音的数据集，包括音频文件、标注文本、发音词典、语言模型，作为训练数据集；对所述训练数据集进行特征提取，并对所述特征做适应转换得到特征向量；根据所述特征向量进行语种识别训练，得到语种识别模型；根据所述特征向量进行语音识别训练，得到语音识别模型；将所述语种识别模型作为前端、所述语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法。本发明中的语音识别方法能够辅助管制员进行陆空对话分析，保证了语音识别的精确度，提高了民航陆空通话的准确性。

声学模型是语音识别系统中最为重要的部分之一，目前的主流系统多采用隐马尔科夫模型进行建模。隐马尔可夫模型的是一个离散时域有限状态自动机，隐马尔可夫模型HMM是指这马尔可夫模型的内部状态外界不可见，外界只能看到各个时刻的输出值。

对语音识别系统，输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设，一是内部状态的转移只与上一状态有关，另一是输出值只与当前状态(或当前的状态转移)有关，这两个假设大大降低了模型的复杂度。HMM的评分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。

语料库具体的准备过程如下：

1)将音频和文本按语句进行切分；

2)将所有音频的格式转换为Windows PCM格式；

3)将任意组织形式的多个音频文件和文本进行规范化，将文本以“说话人标识符文本标注”的形式汇总，将音频以“说话人标识符音频路径”的形式汇总，并组成一个总数据集；

4)汇总文本中出现的字符，并基于CMU和CEDICT的字典构建民航陆空通话的发音字典；

5)使用开源的“字素转音素”模型，自动得到未登录词的音素序列；

6)将总数据集按9:1的比例进行切分，分别为训练数据集和训练数据集；

语言模型训练的具体过程如下：

根据中国民航局发布的《空中交通无线电通话用语标准(MH/T4014-2003)》，从中总结与归纳出民航陆空通话的语法规范，以语法树的抽象表达方式对语法规范进行转述。在此基础之上，将语法树转换为有限状态转换器(Finite State Transducer)的代码表现形式，最后使用编译器将上述代码编译为有限状态转换器的模型文件。

声学模型训练的具体过程如下：

1)随机初始化GMM-HMM声学模型；

2)以语句为单位，使用步骤1中的模型对训练数据集进行子词边界的标注；

3)根据步骤2中的子词边界，将语句中每个词细化为音素后，将每个音素与音频段进行对应；

4)根据步骤3中的对应关系，以音素为单位，使用Baum-Welch算法训练GMM-HMM单音素模型；

5)对每个音素对应的HMM上下文进行扩展，扩展为三音素，重复步骤2～步骤4；

6)对训练集基于最大似然准则，估计一个全局的线性判别分析变换和最大似然线性变换。对所有的特征进行上述变换，并使用变换后的特征与步骤5得到的新子词边界重复步骤2～步骤4；

7)基于最大似然准则，对每个说话人拥有的语句估计基于最大似然线性回归变换，并对每个说话人对应的所有特征进行该变换，并使用变换后的特征与步骤6得到的新子词边界重复步骤2～步骤4；

8)在步骤6得到的新子词边界和特征的基础上，基于序列鉴别性训练准则，进行新一轮的训练；

9)比较步骤4～步骤8的测试结果，选取最优的模型对应的子词边界。

图2为本发明实施例针对民航陆空通话领域的中英文语种语音识别系统结构图。如图2所示，一种针对民航陆空通话领域的中英文语种语音识别系统，所述识别系统包括：

数据收集模块201，用于获取民航陆空通话语音的数据集，包括音频文件、标注文本、发音词典、语言模型，作为训练数据集；

特征提取模块202，用于对所述训练数据集进行特征提取，并对所述特征转换得到特征向量；

中英文语种识别训练模块203，用于根据所述特征向量进行语种识别训练，得到语种识别模型；

中英文语音识别训练模块204，用于根据所述特征向量进行语音识别训练，得到语音识别模型；

语音识别模块205，用于将所述语种识别模型作为前端、所述语音识别模型作为后端得到民航空中交通管制多语种语音识别方法。

所述特征提取模块202，具体包括：

去噪单元，用于找到一段语音端点，去除掉语音前部无声或噪音片段，仅保留包含语言的片段；

特征提取单元，用于对所述语音段进行特征提取，所述特征选用梅尔倒谱频率特征，得到特征向量；

所述语种识别训练模块203，具体包括：

语种识别模型建立单元，用于根据所述声纹识别模型，加上得分计算步骤和判别阈值，得到语种识别模型。

所述语音识别训练模块204，具体包括：

解码单元，用于根据所述说话人适应后的三音素模型加上语言模型构建解码图，得到语音识别模型。

所述语音识别模块205，具体包括：

语种类型识别单元，用于根据所述语种识别模型对输入语音进行识别，得到民航陆空通话中英文语种类型；

解码文本获取单元，用于根据所述语音识别模型对输入语音进行识别，得到解码文本；

识别文本获取单元，用于根据所述语种类型和所述解码文本识别出多语种输入语音，得到识别文本。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种针对民航陆空通话领域的中英文语种语音识别方法，其特征在于，所述语种语音识别方法包括：

对所述训练数据集进行特征提取和转换，得到特征向量；

将所述中英文语种识别模型作为前端、所述中英文语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法；

所述根据所述特征向量进行语种识别训练，得到语种识别模型，具体包括：

将所述训练数据集中所有的特征向量使用最大期望算法得到一个通用背景模型；

根据所述通用背景模型训练得到一个声学特征提取器；

根据所述特征向量训练声纹，得到声纹识别模型；

根据所述声纹识别模型，加上得分计算步骤和判别阈值，得到中英文语种识别模型；

所述将所述中英文语种识别模型作为前端、所述语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法，具体包括：

2.根据权利要求1所述的针对民航陆空通话领域的中英文语种语音识别方法，其特征在于，对所述训练数据集进行特征提取和转换，得到特征向量，具体包括：

3.根据权利要求1所述的针对民航陆空通话领域的中英文语种语音识别方法，其特征在于，所述根据所述特征向量进行语音识别训练，得到中英文语音识别模型，具体包括：

对所述特征向量根据其上下文关系进行三音素建模，得到三音素模型；

4.一种针对民航陆空通话领域的中英文语种语音识别系统，其特征在于，所述语种语音识别系统包括：

语种语音识别模块，用于将所述中英文语种识别模型作为前端、所述中英文语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法；

所述语种识别训练模块，具体包括：

背景模型建立单元，用于将所述训练数据集中所有的特征向量使用最大期望算法得到一个通用背景模型；

语种识别模型建立单元，用于根据所述声纹识别模型，加上得分计算步骤和判别阈值，得到中英文语种识别模型；

所述语种语音识别模块，具体包括：

5.根据权利要求4所述的针对民航陆空通话领域的中英文语种语音识别系统，其特征在于，所述特征提取模块，具体包括：

6.根据权利要求4所述的针对民航陆空通话领域的中英文语种语音识别系统，其特征在于，所述中英文语音识别训练模块，具体包括：