CN110473520A - 一种基于深度学习的空中管制中英文语音判别方法 - Google Patents

一种基于深度学习的空中管制中英文语音判别方法 Download PDF

Info

Publication number
CN110473520A
CN110473520A CN201910654299.5A CN201910654299A CN110473520A CN 110473520 A CN110473520 A CN 110473520A CN 201910654299 A CN201910654299 A CN 201910654299A CN 110473520 A CN110473520 A CN 110473520A
Authority
CN
China
Prior art keywords
data
voice
depth
residual error
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910654299.5A
Other languages
English (en)
Inventor
王耀彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Matu Information Technology Co Ltd
Original Assignee
Shanghai Matu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Matu Information Technology Co Ltd filed Critical Shanghai Matu Information Technology Co Ltd
Priority to CN201910654299.5A priority Critical patent/CN110473520A/zh
Publication of CN110473520A publication Critical patent/CN110473520A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的空中管制中英文语音判别方法,包括以下步骤:获取待判别的语音信号,并将其转换为16bit 16kHz的PCM音频数据;建立深度网络模型;利用训练数据训深度网络模型得到中英文语音判别引擎;其中,深度网络模型使用深度残差卷积模块作为特征提取器,并由reshape层和全连接层对提取的特征数据进行处理,最终通过softmax分类器进行分类学习,获得判别结果。本发明采用以人工智能深度学习引擎为核心,具有极强的专业适用性和口音泛化能力,数据量依赖程度更低的优点,在空管中英文语音的语言判别上表现优异。

Description

一种基于深度学习的空中管制中英文语音判别方法
技术领域
本发明涉及语音处理技术领域,尤其涉及一种基于深度学习的空中管制领域的中英文语音判别方法。
背景技术
随着民航业快速发展,每年都增加大量的飞机和航班。然而空中管制人员却长期存在缺口,保守估计也有数千人之多。即使空管相关单位对此实施了一系列方法,比如4+1培养机制等方案,但空管人员依然存在大量流失的现象。同时又因为新进人员经验不足、培训时间和资源的缺乏等问题,导致无法发挥相应的人员效益。空管行业人员紧张导致了空管人员超负荷工作的问题,致使空中交通存在潜在的安全问题和效率问题。当前中国的空中交通管制仍是以管制员主观决策为主的高强度脑力劳动,飞机班次随着民航的蓬勃发展而大大增多,而人手不足的空管目前又只能依赖管制员进行长时间高强度专注集中工作,人为失误在所难免。据统计,人为差错引发的航空事故占到了航空事故总量的80%,已经成为影响航空安全的重要原因。以2016年的10·11虹桥机场客机冲突事件为例,正是由于塔台管制员遗忘飞机动态,才造成如此严重的事故(跑道侵入)。因此,有必要引入语音识别系统,实时发送与记录管制员和飞行员的指令和回复语音,从而减少理解歧义和遗忘等情况。当前,随着人工智能技术的发展,基于深度学习技术的端到端语音识别模型日趋成熟。然而中英文语音差异较大,且空管语音的发音速度很快,特别是英文语音中存在大量连读和吞音现象,因此难以训练一个中英文通用的语音识别模型,有必要建立一个中英文语音判别系统,作为语音识别的前处理模块,将中英文语音分离后分别送入对应的识别引擎中进行文字转换。
本专利所应用最重要的算法技术是深度残差卷积模块,其核心思想源于《DeepResidual Learning for Image Recognition》中所提出的残差学习框架,最早用于图像识别。本专利基于该思想建立两种不同类型的深度残差卷积模块,用于提取深层次的语音特征,以提高语言特征的判断准确率。
发明内容
本发明旨在构建一套专门用于空中管制语音的中英文语音判别系统。本系统采用深度学习技术构建,能够高准确地判别空管语音是中文语音还是英文语音,实现较高的空管语音中英文判别准确率。
为了实现上述效果,本发明提供的技术方案如下:
本发明包括以下步骤:
S1:获取待判别的语音信号,长度不超过16s的音频,音频格式将转换为16bit 16kHz的PCM音频数据;
S2:建立深度网络模型;
S3:利用训练数据训练深度网络模型得到中英文语音判别引擎;
S4:将有效音频片段输入中英文语音判别引擎,并输出对应的标签。
所述的深度网络模型,采用两种不同结构和功能的深度残差卷积模块作为特征提取器,每个深度残差卷积模块包含若干个卷积层紧跟批标准化层、一个直连结构和一个池化层,使用reshape层和全连接层对提取的特征数据进行处理,最后使用softmax分类器进行分类与决策,得到判别结果。语音数据经过深度残差卷积模块和softmax分类器可以获得判别结果,实现了一个完整的正向传播过程。所述的深度网络模型还在模块连接处设置有dropout层用于提高模型的泛化能力。
所述的深度残差卷积模块包括恒等型深度残差卷积模块和卷积型深度残差卷积模块。
所述的恒等型深度残差卷积模块包括主路、支路和处理模块:主路包含三个相同的小卷积模块,每个小卷积模块包含卷积层、批标准化层和非线性层;支路用于传输与输入数据相同的数据流;处理模块对经过主路和支路的数据进行求和,并作非线性处理;恒等型深度残差卷积模块的输入数据与输出数据的维度相同。
所述的卷积型深度残差卷积模块包括主路、支路和处理模块:主路包含三个相同的小卷积模块,每个小卷积模块包含卷积层、批标准化层和非线性层;支路包括一个卷积层与批标准化层;处理模块对经过主路和支路的数据进行求和,并作非线性处理;所述的卷积型深度残差卷积模块的输入数据与输出数据维度不一致。
所述的深度残差卷积模块采用ReLU激活函数作非线性处理。
所述的基于深度学习的空中管制中英文语音判别方法,利用训练数据训练得所述深度网络模型到中英文语音判别引擎,包括以下具体步骤:
S3.1:获取已切分好的空管指挥音频数据片段;
S3.2:标注语音数据:使用标签对S3.1所获得的音频数据进行标注得到训练数据,得到的训练数据包括语音数据和标注数据;
S3.3:将语音数据和标注数据成对按组划分训练数据;
S3.4:通过反向传播算法,利用Adam优化器对S2建立的深度网络模型进行训练,并形成可以应用的中英文语音判别深度学习网络。
将音频数据输入中英文语音判别引擎,训练好的判别引擎将会把音频数据转化为对应的中英文标签结果输出。标签结果将用于输出、保存或其他应用使用。
本发明具有以下有益效果:
本发明所述的深度网络模型采用的深度残差卷积模型不仅具有常规卷积模型所具有的局部感知、权值共享的优点,能够在相对较少的参数量下有效提取数据特征,还能够使信息跨层传递,约束随层深的增加导致的梯度不收敛现象,从而进一步提取数据特征。批标准化层在训练过程中使得每一层神经网络的输入保持相同分布,从而改善人工神经网络的性能和稳定性。池化层具有特征不变性和特征降维的优点,能够进一步压缩数据和参数量,防止模型过拟合。数据经过三个深度残差卷积模块,其中第一个模块为恒等类型,后两个模块为卷积类型,至下而上地提取数据特征,学习识别数据信息。另外,模块连接处还设置有dropout层,可以防止模型发生过拟合。
由于空管专业性、地域差异性和人员复杂性,空管语音中存在大量专业名词、独特的地区名称、中英文混杂以及口音差异,这对于中英文语音判别系统而言是一个巨大的挑战。本系统建立基于人工智能技术的中英文语音判别引擎,用于空管语音的中英文判别。相比于传统语音识别引擎,基于人工智能的中英文语音判别引擎不仅判别准确率有质的提升,而且模型结构大幅精简,训练与使用效率高。
本发明采用以人工智能深度学习引擎为核心,实现完整的、专业化的,专门针对空管语音特殊性的中英文语音判别系统。本系统中的中英文语音判别引擎全部采用真实的空管语音进行训练,具有极强的专业适用性和口音泛化能力,场景高度特定,数据量依赖程度更低,在空管语音的中英文判别上显著优于通用语音识别系统。
附图说明
图1是本发明语音指令中英文判别方法的流程示意图;
图2是本发明深度网络模型的连接方式示意图;
图3是恒等型深度残差卷积模块结构框架示意图
图4是卷积型深度残差卷积模块的结构框架示意图
图5是中英文语音判别引擎训练过程的流程示意图。
具体实施方式
下面将结合本实施例中的附图对本发明实施例作清楚完整的说明。所述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于深度学习的空中管制中英文语音判别方法,具体采用以下步骤:
S1:获取待判别的语音信号,长度不超过16s的音频,音频格式将转换为16bit 16kHz的PCM音频数据;
PCM 即脉冲编码调制 (Pulse Code Modulation),转换为PCM采用ffmpeg工具在linux系统或windows系统中对其进行转换。转换方法执行命令如下:
ffmpeg -i “raw_audio_file” -f wav -acodec pcm_s16le -ar 16000“pcm16bit16kHz.wav”;
上述命令可以将其他类型的音频文件,转换为 16bit 16kHz的PCM音频数据。
S2:建立深度网络模型。
深度网络模型的框架如图2所示。语音数据分为音频和标注文字两部分,其中音频部分以语谱图形式作为输入数据传入模型,标注部分转换为对应数字作为期望的输出值。输入数据首先按先后顺序经过首先经过一个恒等型深度残差卷积模块,然后经过两个卷积型深度残差卷积模块。
恒等型深度残差卷积模块结构框架如图3所示。数据流分为主路和支路。主路上数据流先后经过三个相同的小卷积模块,包含卷积层、批标准化层和非线性层,支路上数据流与初始数据完全相同,随后两者求和,并使用ReLU激活函数作非线性处理。该类型深度残差卷积模块的特点是输入数据与输出数据的维度相同。其实施方式如下:
def identity_block(x, kernal_size, filters):
k1,k2,k3=kernal_size
f1, f2, f3 = filters
shortcut = x # 支路
# 主路第一层
x = Conv2D(filters = f1, kernel_size = (k1, k1), strides = (1,1), padding= 'same', kernel_initializer='he_normal')(x)
x = BatchNormalization(axis = 3)(x)
x = Activation('relu')(x)
# 主路第二层
x = Conv2D(filters = f2, kernel_size = (k2, k2), strides = (1,1), padding= 'same', kernel_initializer='he_normal')(x)
x = BatchNormalization(axis=3)(x)
x = Activation('relu')(x)
# 主路第三层
x = Conv2D(filters = f3, kernel_size = (k3, k3), strides = (1,1), padding= 'same', kernel_initializer='he_normal')(x)
x = BatchNormalization(axis=3)(x)
# 主路与支路数据流相加,并作非线性处理
x = layers.add([x, shortcut])
x = Activation('relu')(x)
return x
卷积型深度残差卷积模块的结构框架如图4所示。与恒等型深度残差卷积模块相比,在支路上多了一个卷积层与批标准化层,其适用于输入数据与输出数据维度不一致的情况。该模块实施方式与恒等型深度残差卷积模块大致相同,区别在于在支路上添加一个卷积层和批处理层,其实施方式如下:
Shortcut = x
shortcut = Conv2D(f3, (1, 1), strides = (1, 1), padding='valid', kernel_initializer = 'he_normal') (shortcut)
shortcut = BatchNormalization(axis = 3)(shortcut)
在经过卷积模块的特征提取后,所提取的特征数据经过reshape层和全连接层进行整形与综合,最后进入softmax分类器进行判别。
优选地,reshape层的实施方式如下:
layer_h7 = Reshape((200, 3200))(layer_h12) # Reshape层
最后,数据进入一层全连接层和一层Softmax分类器进行分类学习与决策,获得预测结果。此外,在模型框架的模块连接处设置了dropout层(放弃层),以防止模型过拟合。
优选地,全连接层和Softmax分类器的实施方式如下:
layer_h8 = Dense(256, activation="relu", use_bias=True, kernel_initializer = 'he_normal') (layer_h13) # 全连接层
y_pred = Dense(2, activation='softmax', use_bias=True, kernel_initializer= 'he_normal', name='Prediction')(layer_h15) # Softmax分类器
优选地,可在深度网络模型各模块的连接处均设置dropout层,其实施方式如下:
layer_h6 = Dropout(0.1)(layer_h6)
S3:利用训练数据训练深度网络模型得到中英文语音判别引擎。
具体方式为:
获取原始空管指挥音频数据:获得需要判别的空管语音。除了使用真实的原始空管指挥音频数据,还可以使用人工智能合成拟真指令语音作为原始空管指挥音频数据进行使用;
标注语音数据:使用标签对所获得的语音进行标注得到训练数据,得到的训练数据包括语音数据和标注数据。
成对按组划分训练数据,优选地,划分组的大小为10000对为一组,可根据训练需要将数据划分为具有公共能的数据组,根据训练数据的功能和具体情况的确定每组的具体数量;
通过反向传播算法,利用adam优化器对深度网络模型进行训练,得到训练好的语音判别引擎。
优选地adam优化器的实施方式如下:
adam= Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-08)
model.compile(loss='binary_crossentropy', optimizer = adam, metrics=['accuracy'])
S4:将有效音频片段输入中英文语音判别引擎,并输出中英文判别结果。
判别结果将用于输出、保存或其他应用使用。
本发明实施例的方法,通过对深度神经网络进行结构优化,使用了深度残差卷积层模型具有局部感知、权值共享、增强收敛和提升信息传递性能的优点,相对于全连接的DNN,能够在相对较少的参数量下有效提取数据特征,减小了过拟合的几率;采用简单的Softmax分类器对数据特征进行分类学习与决策,使得整个模型的效率较高。
以上显示了本方案优选的实施方式。应当指出,本行业的技术人员应该了解本方案不受上述实施例的限制,任何本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案和发明构思加以等同或近似替换或改变,也应视为本发明的保护范围。

Claims (5)

1.一种基于深度学习的空中管制中英文语音判别方法,其特征在于,包括以下步骤:
S1:获取待判别的语音信号,将其转换为16bit16kHz的PCM有效音频片段;
S2:建立深度网络模型;
S3:利用训练数据训练深度网络模型得到中英文语音判别引擎;
S4:将有效音频片段输入语音判别引擎,并输出语言判别结果。
2.根据权利要求1所述的基于深度学习的空中管制中英文语音判别方法,其特征在于,所述步骤S1所述的语音信号为已经切分好的音频片段。
3.根据权利要求1所述的基于深度学习的空中管制中英文语音判别方法,其特征在于,所述步骤S2中所述的深度网络模型采用两种不同结构和功能的深度残差卷积模块作为特征提取器,每个深度残差卷积模块包含若干个卷积层紧跟批标准化层、一个直连结构和一个池化层,使用reshape层和全连接层对提取的特征数据进行处理,使用softmax分类器进行最终分类,得到判别结果;
其中,深度网络模型的模块连接处设置有dropout层。
4.根据权利要求3所述的基于深度学习的空中管制中英文语音判别方法,其特征在于,所述的深度残差卷积模块包括恒等型深度残差卷积模块和卷积型深度残差卷积模块;所述的恒等型深度残差卷积模块包括主路、支路和处理模块:主路包含三个相同的小卷积模块,每个小卷积模块包含卷积层、批标准化层和非线性层;支路用于传输与输入数据相同的数据流;处理模块对经过主路和支路的数据进行求和,并作非线性处理;
所述的恒等型深度残差卷积模块的输入数据与输出数据的维度相同;
所述的卷积型深度残差卷积模块包括主路、支路和处理模块:主路包含三个相同的小卷积模块,每个小卷积模块包含卷积层、批标准化层和非线性层;支路包括一个卷积层与批标准化层;处理模块对经过主路和支路的数据进行求和,并作非线性处理;
所述的卷积型深度残差卷积模块的输入数据与输出数据维度不一致;
所述的深度残差卷积模块采用ReLU激活函数进行非线性处理。
5.根据权利要求1所述的基于深度学习的空中管制中英文语音判别方法,其特征在于,所述步骤S3具体包括:
S3.1:获取空管指挥音频数据:获得需要判别的空管语音;
S3.2:标注语音数据:使用标签对S3.1所获得的语音进行标注得到训练数据,得到的训练数据包括语音数据和标注数据;
S3.3:成对按组划分训练数据;
S3.4:通过反向传播算法,利用Adam优化器对S3建立的深度网络模型进行训练,得到训练好的中英文语音判别引擎。
CN201910654299.5A 2019-07-19 2019-07-19 一种基于深度学习的空中管制中英文语音判别方法 Pending CN110473520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910654299.5A CN110473520A (zh) 2019-07-19 2019-07-19 一种基于深度学习的空中管制中英文语音判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910654299.5A CN110473520A (zh) 2019-07-19 2019-07-19 一种基于深度学习的空中管制中英文语音判别方法

Publications (1)

Publication Number Publication Date
CN110473520A true CN110473520A (zh) 2019-11-19

Family

ID=68508262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910654299.5A Pending CN110473520A (zh) 2019-07-19 2019-07-19 一种基于深度学习的空中管制中英文语音判别方法

Country Status (1)

Country Link
CN (1) CN110473520A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129919A (zh) * 2021-04-17 2021-07-16 上海麦图信息科技有限公司 一种基于深度学习的空中管制语音降噪方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304921A (zh) * 2018-02-09 2018-07-20 北京市商汤科技开发有限公司 卷积神经网络的训练方法及图像处理方法、装置
CN108388890A (zh) * 2018-03-26 2018-08-10 南京邮电大学 一种基于面部表情识别的新生儿疼痛程度评估方法及系统
US20190114391A1 (en) * 2017-10-16 2019-04-18 Illumina, Inc. Deep Learning-Based Aberrant Splicing Detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190114391A1 (en) * 2017-10-16 2019-04-18 Illumina, Inc. Deep Learning-Based Aberrant Splicing Detection
CN108304921A (zh) * 2018-02-09 2018-07-20 北京市商汤科技开发有限公司 卷积神经网络的训练方法及图像处理方法、装置
CN108388890A (zh) * 2018-03-26 2018-08-10 南京邮电大学 一种基于面部表情识别的新生儿疼痛程度评估方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHANGJUN MA: "Lightweight Deep Residual CNN for Fault Diagnosis of Rotating Machinery Based on Depthwise Separable Convolutions", 《IEEE ACCESS》 *
王佳文: "面向民航陆空通话的语音识别技术研究", 《中国优秀硕士学位论文全文数据库》 *
王启航: "基于深度卷积神经网络的人脸检测算法研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129919A (zh) * 2021-04-17 2021-07-16 上海麦图信息科技有限公司 一种基于深度学习的空中管制语音降噪方法

Similar Documents

Publication Publication Date Title
CN110415683A (zh) 一种基于深度学习的空中管制语音指令识别方法
CN112149316B (zh) 基于改进的cnn模型的航空发动机剩余寿命预测方法
CN110263166A (zh) 基于深度学习的舆情文本分类方法
CN111460919B (zh) 一种基于改进YOLOv3的单目视觉道路目标检测及距离估计方法
CN109448493A (zh) 塔台管制模拟训练系统、语音管制指令识别及报读方法
CN106095928A (zh) 一种事件类型识别方法及装置
CN107103903A (zh) 基于人工智能的声学模型训练方法、装置及存储介质
CN111667830B (zh) 基于管制员指令语义识别的机场管制决策支持系统及方法
CN110335609A (zh) 一种基于语音识别的地空通话数据分析方法及系统
CN111126332B (zh) 基于轮廓特征的跳频信号分类方法
CN105679313A (zh) 一种音频识别报警系统及方法
CN113160798B (zh) 一种中文民航空中交通管制语音识别方法及系统
CN110232415B (zh) 一种基于生物信息特征的列车转向架故障识别方法
CN111723239B (zh) 一种基于多模态的视频标注方法
CN110930995A (zh) 一种应用于电力行业的语音识别模型
CN102810311A (zh) 说话人估计方法和说话人估计设备
CN110473520A (zh) 一种基于深度学习的空中管制中英文语音判别方法
CN111627257B (zh) 基于航空器运动趋势预判的管制指令安全预演与校验方法
CN113129919A (zh) 一种基于深度学习的空中管制语音降噪方法
CN109886352B (zh) 一种空域复杂度无监督评估方法
CN110390929A (zh) 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法
CN114581799A (zh) 一种基于多尺度特征融合的无人机小目标检测方法
CN109034192B (zh) 一种基于深度学习的轨道-车体振动状态预测方法
CN107798137B (zh) 一种基于可加模型的多源异构数据融合架构系统
CN109871850A (zh) 一种基于神经网络模型的车载激光雷达数据的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191119