CN110335609A - 一种基于语音识别的地空通话数据分析方法及系统 - Google Patents

一种基于语音识别的地空通话数据分析方法及系统 Download PDF

Info

Publication number
CN110335609A
CN110335609A CN201910563775.2A CN201910563775A CN110335609A CN 110335609 A CN110335609 A CN 110335609A CN 201910563775 A CN201910563775 A CN 201910563775A CN 110335609 A CN110335609 A CN 110335609A
Authority
CN
China
Prior art keywords
speech recognition
deep learning
file
blank pipe
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910563775.2A
Other languages
English (en)
Inventor
武喜萍
杨波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Sichuan Chuanda Zhisheng Software Co Ltd
Wisesoft Co Ltd
Original Assignee
Sichuan University
Sichuan Chuanda Zhisheng Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, Sichuan Chuanda Zhisheng Software Co Ltd filed Critical Sichuan University
Priority to CN201910563775.2A priority Critical patent/CN110335609A/zh
Publication of CN110335609A publication Critical patent/CN110335609A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开一种基于语音识别的地空通话数据分析方法及系统,包括:空管记录仪持续采集并储存地空通话话音数据与雷达数据;通过自适应解码转为wav格式文件;通过基于深度学习的端点检测技术,截取完整语句构成语音文件;通过基于深度学习的空管语音识别模型,将语音文件转换成文本信息;通过基于深度学习的空管语义理解模型,确定管制指令意图与参数;基于生成的各个文件进行语音及指令数据统计分析、监视数据与话音同步回放、重点监听等地空通话数据分析。本发明提出的方法全面提升了地空通话数据分析工作的效率和准确性,解决空管安全管理实践中,完全依靠人工收听、记录、查询、统计分析陆空通话进行管制指挥质量评估和事后分析的问题。

Description

一种基于语音识别的地空通话数据分析方法及系统
技术领域
本发明涉及民用航空空中交通管理技术领域,尤其涉及一种基于语音识别的地空通话数据分析方法及系统。
背景技术
空管记录仪肩负着记录地空通话话音、雷达信号的重要任务,在空中交通管理中起着“黑匣子”的作用,其重要性不言而喻。根据相关规范,对记录的这些重要图像资料和语音信息需要至少保存30天,是空中交通管制指挥的质量评估,差错、事故征候、事故等事后分析的主要依据和手段,也是空管部门不断完善内部管理体系的一个重要环节。
空管地空通话作为模拟语音数据,在空管安全管理实践中,只能通过记录仪采用人工方式收听陆空通话,人工记录语音内容的方式进行管制指挥质量评估和事后分析;对于重点监听的航班的所有话音只能按顺序监听该时段的所有陆空通话;监视数据和话音数据不能同步回放;各种类型指令的数量、时长、用语规范等统计只能人工收听并记录,无法快速高效量化分析。目前空中交通管理话音记录仪系统尚缺少这方面的研究。
发明内容
本发明的目的之一至少在于,针对如何克服上述现有技术存在的问题,提供一种基于语音识别的地空通话数据方法及系统,能够高效完成管制指挥质量评估、事后分析和工作负荷评估等工作,本发明提出运用深度学习为代表的人工智能技术结合大数据分析,对空管记录仪的话音进行语音识别与解析,实现监视数据和话音数据的同步回放,高效查询和统计等,全面提升了地空通话数据分析工作中语音收听、回放、查询、统计、报告生成的效率和准确性。
为了实现上述目的,本发明采用的技术方案包括以下各方面。
一种基于语音识别的地空通话数据分析方法,包括如下步骤:
步骤1:设置时间间隔,记录设备每隔第一时间间隔采集一次地空通话话音数据并按第二时间间隔进行存储,将按第二时间间隔存储的地空通话话音数据通过解码生成为相应的语音文件,并采用端点检测技术从所述语音文件提取出多个语音识别文件;
步骤2:构建基于深度学习的空管语音识别模型,利用所述基于深度学习的空管语音识别模型对所述多个语音识别文件进行识别,识别出所述语音识别文件包含的语义文本信息,以得到多个语义文本文件;
步骤3:构建基于深度学习的空管语义理解模型,利用所述基于深度学习的空管语义理解模型确定所述多个语义文本文件对应的管制指令意图与参数,以得到多个管制指令意图与参数文件;
步骤4:一次航空飞行完成后,根据检索到的航班起止时间和航班号从步骤1~步骤3中得到的文件中筛选出与该次航空飞行相关联的语音文件、语音识别文件、语义文本文件、管制指令意图与参数文件,以实现对该航班地空通话数据的汇总分析。
优选的,一种基于语音识别的地空通话数据分析方法中,记录设备采集地空通话话音数据时同步采集雷达数据并存储。
优选的,一种基于语音识别的地空通话数据分析方法中,所述语音文件为wav格式。
优选的,一种基于语音识别的地空通话数据分析方法中,采用端点检测技术从所述语音文件提取出语音识别文件具体包括:
对语音文件中的音频流进行分帧处理,得到多个音频帧,对所述音频帧进行预加重、短时傅里叶变换处理提取出所述音频帧的频谱特征向量;建立基于深度学习的端点检测模型,并通过所述基于深度学习的端点检测模型筛选出所述音频流中的有效语音,以得到所述多个语音识别文件;
其中,所述基于深度学习的端点检测模型满足:当有音频流的频谱特征输向量输入时,输出该音频流为语音或非语音的概率值。
优选的,一种基于语音识别的地空通话数据分析方法中,所述基于深度学习的端点检测模型包括:输入层、三个卷积层、三个池化层、全连接层、输出层,
其中,所述卷积层采用4×4大小的卷积核,第一卷积层、第二卷积层、第三卷积层的卷积核数分别为12、24、48;
所述池化层使用最大池化,第一池化层、第二层池化层采用2×2的滤波器,第三层池化层采用1×1的滤波器,步长均为2,边界填充采用SAME。
优选的,一种基于语音识别的地空通话数据分析方法中,采用长短期记忆子模型构建所述基于深度学习的空管语音识别模型,
所述基于深度学习的空管语音识别模型依次包括,输入层、卷积神经网络、长短期记忆子模型,全连接层、输出层,并使用连接时序分类函数作为损失函数进行误差反向传递。
优选的,一种基于语音识别的地空通话数据分析方法中,所述长短期记忆子模型的神经元可以由以下的递推式描述,
ft=σ(Wf·[ht-1,xt]+bf);
it=σ(Wi·[ht-1,xt]+bi);
Ct=ft*Ct-1+it*tanh(Wc*[ht-1,xt]+bc);
ot=σ(Wo[ht-1,xt]+bo);
ht=ot*tanh(Ct);
其中,xt、ht-1、Ct-1、ft、it、ot和ht分别代表输入序列、前一次存储块的输出、之前的细胞状态、遗忘门、输入门、输出门和输出门输出;σ(.)是sigmoid函数。Wf、Wi、Wc、Wo分别是连接遗忘门、输入门、神经元激活、输出门的权重矩阵,bf、bi、bc、bo分别是遗忘门、输入门、神经元激活、输出门对应的偏差向量。
优选的,一种基于语音识别的地空通话数据分析方法中,步骤3具体包括:
步骤301,构建基于深度学习的空管语义理解模型,确定模型的神经网络结构、隐藏层数量、神经元数量;
步骤302,制定空管语料库标注规范,规范多个语义文本信息对应的管制指令意图与参数;利用规范后的语义文本信息样本,训练所述基于深度学习的空管语音识别模型,优化模型的神经网络超参数,以使所述网络满足:当有语义文本信息输入时,输出所述语义文本信息对应的管制指令意图与参数;
步骤303,利用基于深度学习的空管语义理解模型确定步骤2所得的多个语义文本文件对应的管制指令意图与参数,以得到多个管制指令意图与参数文件。
优选的,一种基于语音识别的地空通话数据分析方法中,所述基于深度学习的空管语义理解模型中:初始学习率为0.1,学习速率衰减速度为0.9,梯度的最大范数为5.0,长短期记忆子模型可堆叠的层数为1,dropout层保留节点的比例为0.5,训练时每个批次样本的数量为16,词向量大小为300,输入词最大为10000,输出标签最大为123,最大训练次数为20000,多层感知器中隐含层的节点为200,激活函数为ReLU。
一种基于语音识别的地空通话数据分析系统,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。
综上所述,由于采用了上述技术方案,本发明至少具有以下有益效果:
通过将监视数据和话音数据解码为可以由通用播放器播放的语音文件,为同步回放提供了技术手段,解决了目前空管话音记录仪监视数据和话音数据单独回放的问题;并设计基于深度学习的端点检测模型、基于深度学习的空管语音识别模型、基于深度学习的空管语义理解模型话音提取模型对监听的空管话音进行高效识别,并将识别结果进行存储,代替了目前传统的人工收听、记录的手段,为空管事后调查分析提供了话音数据高效收听、自动记录的方法;并且监视数据与话音数据的持续监听、识别、自动记录为快速检索出重点监听航班的所有话音提供了技术手段,解决了目前只能按顺序人工监听所有陆空通话从中选出重点监听航班话音的问题;为各种类型管制指令识别、数量、时长、用语规范等提供了技术手段,解决了目前人工识别指令类型、统计数量的问题;为管制指挥“人在回路”中最后“未数字化”的陆空通话信息接入空管系统提供了技术手段;为管制员通信负荷评估提供了技术手段,解决了目前人工收听、记录、统计的问题。
附图说明
图1是根据本发明示例性实施例的一种基于语音识别的地空通话数据方法流程图。
图2是根据本发明示例性实施例的话音数据记录工作原理框图。
图3是根据本发明示例性实施例的雷达数据记录工作原理框图。
图4是根据本发明示例性实施例的管制语音格式转换工作原理框图。
图5是根据本发明示例性实施例的管制指令语义标签示意图。
图6是根据本发明示例性实施例的空管语音识别算法结构图。
图7是根据本发明示例性实施例的LSTM(长短期记忆模型)结构图。
图8是根据本发明示例性实施例的空管语音识别界面。
图9是根据本发明示例性实施例的空管语义理解算法结构图。
图10是根据本发明示例性实施例的语音查询界面。
图11是根据本发明示例性实施例的航迹和语音同步回放界面。
图12是根据本发明示例性实施例的一种基于语音识别的地空通话数据系统结构示意图。
具体实施方式
下面结合附图及实施例,对本发明进行进一步详细说明,以使本发明的目的、技术方案及优点更加清楚明白。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1示出了根据本发明示例性实施例的基于语音识别的地空通话数据分析方法。该实施例的方法主要包括:
步骤1:设置时间间隔,记录设备每隔第一时间间隔采集一次地空通话话音数据与雷达数据并按第二时间间隔进行存储,将按第二时间间隔存储的地空通话话音数据与雷达数据通过解码生成为相应的语音文件,并采用端点检测技术从所述语音文件提取出多个语音识别文件;
具体的,给记录设备设定的一个时间间隔,本实施例中,将记录设备设定为每500ms采集一次地空通话话音数据与雷达数据,并设定为按小时存储采集到的数据。首先持续采集地空通话话音数据与雷达数据,将数据进行处理并存入存储设备。持续采集地空通话话音数据,根据线路上的话音能量和静音门限判断是否静音,当本次通话结束且通话起止时长大于最短通话时间参数,如图2所示,将语音数据索引index文件和语音数据data文件写入数据记录单元。周期性的采集原始雷达数据,建立数据索引,如图3所示,将原始雷达记录数据和原始雷达数据索引文件加密写入物理主存储区,从而得到空管话音存储文件(包含地空通话话音数据与雷达数据)。进一步的,为了使用通用播放器进行空管语音数据的播放、标注,将记录仪中存储的空管话音存储文件(语音数据)转为wav格式数据(如图4所示)。
接着,为了进行后续的语音语义识别、语义对应指令的确定,我们依据《空中交通无限电通话用语》规范,制定空管语料库标注规范。具体的,数字是管制指令中非常重要的部分,航班号、航向、高度变化、速度变化、无线电频率、时间等均由数字组成。这些数字中的0、1、2、7的发音与日常生活中的发音有较大差别,分别标注为洞、幺、两、拐。陆空通话中的航线代号、滑行道等是由多位字母或字母和数字共同组成,为了避免发音混淆,对26个英文字母给出了新的发音规则,分别使用alpha到zulu等单词的发音代替a到z字母的发音。只有英文名称的导航台、地标点和报告点使用英文名称进行标注,如AGULU、DOREX、MIKOS等。陆空通话中一些空管专用名词,如QNH、ADS、RVR等发音按照一般英文字母的发音逐位读出,还有一些专用名词如ILS、RNAV等具有特殊读音,对于这些专用名词,标注时使用这些专用名词的英文名称进行标注。参考中国社会科学院语言所制定的韵律标注规范制定空管语音拼音规范,如“国航”标注为“guo2hang2”,数字表示对应的音调。管制指令涉及整个飞行过程,按照不同的管制范围,民航管制席位分为塔台、进近和区调。确定了28类意图、56个标签。28类意图包括雷达识别、上升、下降、保持、调速、飞导航台、航向调整、左转、右转、左偏、右偏、取消偏置、联系频率、进近、落地、脱离跑道、放行、开车、推出、滑行、跑道外等待、穿越跑道、进跑道等待、进跑道、起飞、等待、复飞、紧急指令、其他,如图5所示。
接着,采用端点检测技术从所述语音文件提取出语音识别文件。具体包括:对语音文件进行分帧处理,取帧长25ms,帧移10ms。分帧之后进行预加重,提升语音信号中的高频分量,之后进行加汉明窗操作。加窗后的信号进行快速傅里叶变换得到该语音帧的频谱特征。建立基于深度学习的端点检测模型,并通过所述基于深度学习的端点检测模型筛选出所述音频流中的有效语音,(即真实语音,剔除非语音音频),以得到剔除非语音音频并由真实语音构成的语音识别文件。该基于深度学习的端点检测模型包括:输入层、三个卷积层、三个池化层、全连接层、输出层,其中,所述卷积层采用4×4大小的卷积核,第一卷积层、第二卷积层、第三卷积层的卷积核数分别为12、24、48;所述池化层使用最大池化,第一池化层、第二层池化层采用2×2的滤波器,第三层池化层采用1×1的滤波器,步长均为2,边界填充采用SAME。一帧音频采样数据经过特征提取后为1×256的一维向量,将该向量表示为16×16的向量作为卷积神经网络的输入,网络结构包括多层卷积和池化,卷积池化层后连接全连接层,最后输出该帧是语音帧或非语音帧。使用总时长360小时的数据对该模型进行验证,90%的数据作为训练集,其他10%数据作为测试集,以使该模型性能趋于稳定,并满足:当有音频流的频谱特征输向量输入时,输出该音频流为语音或非语音的概率值。
步骤2:构建基于深度学习的空管语音识别模型,利用所述基于深度学习的空管语音识别模型对所述多个语音识别文件进行识别,识别所述语音识别文件包含的语义文本信息,以得到多个语义文本文件;
具体的,采用长短期记忆子模型构建所述基于深度学习的空管语音识别模型,首先确定模型的神经网络结构、隐藏层数量、神经元数量;利用标注好语义标签的语音样本,训练所述基于深度学习的空管语音识别模型,优化模型的神经网络超参数,以使所述网络满足:当有语音文件输入时,输出识别得到的所述语音文件的语义文本信息;利用基于深度学习的空管语音识别模型对步骤1提取到的语音识别文件进行识别,并得到其所对应的语义文本信息,并将所述文本信息存储为第一文件。
使用梅尔域倒谱系数(MFCC)方法对空管原始话音进行特征提取。语音特征提取完成后,连接卷积神经网络(CNN)减少频域变化,利用卷积的不变性克服语音信号的多样性。CNN层后是长短期记忆模型(LSTM),减小时域变化,LSTM最后一层的输出输入到全连接层(DNN),将特征空间映射到更容易分类的输出层。模型使用连接时序分类(CTC)作为损失函数进行误差反向传递。网络结构如图6所示。使用标注好的样本对语音识别模型进行验证。使用样本1200小时,共计50000条样本,样本按90%、5%、5%的比例分为训练集、验证集和测试集。
采用的硬件环境为:CPU为2×Intel Core i7-6800K,显卡为2×NVIDIA GeForceGTX 1080,显卡为2×8GB,内存为64GB,操作系统为Ubuntu Linux 16.04。
确定不同的LSTM层对识别结果的影响
LSTM结构如图7所示。
LSTM的神经元可以由以下的递推式描述,
ft=σ(Wf·[ht-1,xt]+bf) (1)
it=σ(Wi·[ht-1,xt]+bi) (2)
Ct=ft*Ct-1+it*tanh(Wc*[ht-1,xt]+bc) (3)
ot=σ(Wo[ht-1,xt]+bo) (4)
ht=ot*tanh(Ct) (5)
其中,xt、ht-1、Ct-1、ft、it、ot和ht分别代表输入序列、前一次存储块的输出、之前的细胞状态、遗忘门、输入门、输出门和输出门的输出;σ(.)是sigmoid函数。Wf、Wi、Wc、Wo分别是连接遗忘门、输入门、神经元激活、输出门的权重矩阵,bf、bi、bc、bo分别是遗忘门、输入门、神经元激活、输出门对应的偏差向量。
表1为不同神经网络结构语音识别结果。
实验序号 LSTM层数 WER(%) 显卡消耗(GB)
1 3 15.9 2.9
2 4 13.6 3.5
3 5 11.2 4.1
4 6 7.9 4.7
5 7 4.8 5.3
使用词错误率(WER)作为评价指标,该值越小识别效果越好。随着LSTM层数的增加,WER值不断减少,从15.9%下降到4.8%。
为了证明该模型的有效性,与其他语音识别算法进行比较,如Kaldi框架下的HMM/GMM、HMM/DNN。
表2为不同模型语音识别结果。
本发明研制的语音识别工具界面如图8所示。使用词错误率(WER)作为评价指标,该值越小识别效果越好。与HMM/GMM、HMM/DNN模型相比,本发明提出的方法WER最低,效果最好。
步骤3:构建基于深度学习的空管语义理解模型,利用所述基于深度学习的空管语义理解模型确定所述多个语义文本文件对应的管制指令意图与参数,以得到多个管制指令意图与参数文件;
具体的,步骤3包括:步骤301,构建基于深度学习的空管语义理解模型,确定模型的神经网络结构、隐藏层数量、神经元数量;步骤302,制定空管语料库标注规范(在步骤1已经具体给出详细规范),规范多个语义文本信息对应的管制指令意图与参数;利用规范后的语义文本信息样本,训练所述基于深度学习的空管语音识别模型,优化模型的神经网络超参数,以使所述网络满足:当有语义文本信息输入时,输出所述语义文本信息对应的管制指令意图与参数;步骤303,利用基于深度学习的空管语义理解模型确定步骤2所得的语义文本信息对应的管制指令意图与参数,并将得到的管制指令意图与参数存储为第二文件。
基于管制指令意图判断模型和管制指令语义标签模型建立管制指令自然语言理解模型。其中,在网络模型将管制指令自然语言设置为w=(w1,w2,...,wt);管制指令意图设置为I=(I1,I2,...,It);管制指令语义标签设置为L=(L1,L2,...,Lt)
基于RNN的管制指令自然语言理解模型如图9所示。模型根据输入的词、隐含层记录的当前时刻之前的管制指令意图和管制指令标签,输出管制指令标签和意图。
在第i个词时管制指令语义理解模型的隐含层为
hi=LSTM(hi-1,[wi,Ii-1,Li-1]) (6)
根据前i个词、词的意图、标签和第i个词,确定的第i个词的标签为,
根据第i个词、前i个词的意图和标签,确定的第i个词的意图为,
使用TensorFlow提供的神经网络(RNN)、多层感知器(MLP)、数学运算、词向量等实现管制指令自然语言理解。模型主要参数:初始学习率为0.1,学习速率衰减速度为0.9,梯度的最大范数为5.0,LSTM可以堆叠的层数为1,dropout层保留节点的比例为0.5,训练时每个batch中样本的数量为16,词向量大小为300,输入词最大为10000,输出标签最大为123,最大训练次数为20000,多层感知器中隐含层的节点为200,使用ReLU作为激活函数。使用标注好的样本对空管语义理解模型进行验证,样本按90%、5%、5%的比例分为训练集、验证集和测试集。分别使用1000、3000、6000条样本进行管制指令意图训练,以使模型趋于稳定,管制指令标签和意图判断的正确率如表3所示。
表3为不同训练样本数量的语义理解结果。
步骤4:一次航空飞行完成后,根据检索到的航班起止时间和航班号从步骤1~步骤3中得到的文件中筛选出与该次航空飞行相关联的语音文件、语音识别文件、语义文本文件、管制指令意图与参数文件,以实现对该航班地空通话数据的汇总分析。
具体的,在记录设备记录数据时会按照时序把所有的话音都存储起来,数据存储时不区分是哪个航班的话音(记录的所有数据中会带有关于航班的起止时间和航班号的内部标识,以在语义识别后能够区分出不同的航班信息),语音识别时进行端点检测,按照时序识别航班号和话音内容,管制指令意图确定在语音识别的基础上确定指令意图,对所有的话音进行识别后语义理解并存储。在一次航空飞行完成后,根据检索到的该航班的起止时间和航班号,查询并筛选出与该航班相关联的所有语音通话信息(语音文件、语义文件、管制指令文件等)。该航班相关联的所有语音通话信息包括音频和对应的文本,为其中的语音文件(wav格式的音频文件)提供播放功能,如图10所示。
并将该航班的语音通话信息中,由步骤3识别得到该航班中的各条管制指令标签和意图进行汇总分析。其中,民航管制席位分为塔台、进近和区调,不同管制席位管制指令类型不同,塔台管制指令类型如表4所示。
表4为塔台管制指令类型。
进一步的,还可以统计各类指令的数量、时长、高峰通话时段、通话类型、飞行架次等,根据席位、角色、航班号分类统计,统计话音通道信噪比、中英文通话比例等。
进一步的,还可根据回放时间和通道确定涉及的回放雷达数据和回放话音数据,周期性的将同步后的某周期的回放雷达数据进行跟踪处理,将同步后的某周期的回放话音数据进行解码播放,实现监视数据与语音数据同步回放,回放时显示航迹、语音、语音文本等要素,并提供回放、暂停、继续、结束、视频录制等操作,如图11所示。
图12示出了根据本发明示例性实施例的基于语音识别的地空通话数据分析系统,即电子设备310(例如具备程序执行功能的计算机服务器),其包括至少一个处理器311,电源314,以及与所述至少一个处理器311通信连接的存储器312和输入输出接口313;所述存储器312存储有可被所述至少一个处理器311执行的指令,所述指令被所述至少一个处理器311执行,以使所述至少一个处理器311能够执行前述任一实施例所公开的方法;所述输入输出接口313可以包括显示器、键盘、鼠标、以及USB接口,用于输入输出数据;电源314用于为电子设备310提供电能。
本领域技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
当本发明上述集成的单元以软件功能单元的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明具体实施方式的详细说明,而非对本发明的限制。相关技术领域的技术人员在不脱离本发明的原则和范围的情况下,做出的各种替换、变型以及改进均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于语音识别的地空通话数据分析方法,其特征在于,包括如下步骤:
步骤1:设置时间间隔,记录设备每隔第一时间间隔采集一次地空通话话音数据并按第二时间间隔进行存储,将按第二时间间隔存储的地空通话话音数据通过解码生成为相应的语音文件,并采用端点检测技术从所述语音文件提取出多个语音识别文件;
步骤2:构建基于深度学习的空管语音识别模型,利用所述基于深度学习的空管语音识别模型对所述多个语音识别文件进行识别,识别出所述语音识别文件包含的语义文本信息,以得到多个语义文本文件;
步骤3:构建基于深度学习的空管语义理解模型,利用所述基于深度学习的空管语义理解模型确定所述多个语义文本文件对应的管制指令意图与参数,以得到多个管制指令意图与参数文件;
步骤4:一次航空飞行完成后,根据检索到的航班起止时间和航班号从步骤1~步骤3中得到的文件中筛选出与该次航空飞行相关联的语音文件、语音识别文件、语义文本文件、管制指令意图与参数文件,以实现对该航班地空通话数据的汇总分析。
2.根据权利要求1所述的方法,其特征在于,记录设备采集地空通话话音数据时同步采集雷达数据并存储。
3.根据权利要求1所述的方法,其特征在于,所述语音文件为wav格式。
4.根据权利要求1所述的方法,其特征在于,所述采用端点检测技术从所述语音文件提取出语音识别文件具体包括:
对语音文件中的音频流进行分帧处理,得到多个音频帧,对所述音频帧进行预加重、短时傅里叶变换处理提取出所述音频帧的频谱特征向量;建立基于深度学习的端点检测模型,并通过所述基于深度学习的端点检测模型筛选出所述音频流中的有效语音,以得到所述多个语音识别文件;
其中,所述基于深度学习的端点检测模型满足:当有音频流的频谱特征输向量输入时,输出该音频流为语音或非语音的概率值。
5.根据权利要3所述的方法,其特征在于,所述基于深度学习的端点检测模型包括:输入层、三个卷积层、三个池化层、全连接层、输出层,
其中,所述卷积层采用4×4大小的卷积核,第一卷积层、第二卷积层、第三卷积层的卷积核数分别为12、24、48;
所述池化层使用最大池化,第一池化层、第二层池化层采用2×2的滤波器,第三层池化层采用1×1的滤波器,步长均为2,边界填充采用SAME。
6.根据权利要求1所述的方法,其特征在于,采用长短期记忆子模型构建所述基于深度学习的空管语音识别模型,
所述基于深度学习的空管语音识别模型依次包括,输入层、卷积神经网络、长短期记忆子模型,全连接层、输出层,并使用连接时序分类函数作为损失函数进行误差反向传递。
7.根据权利要求6所述的方法,其特征在于,所述长短期记忆子模型的神经元可以由以下的递推式描述,
ft=σ(Wf·[ht-1,xt]+bf);
it=σ(Wi·[ht-1,xt]+bi);
Ct=ft*Ct-1+it*tanh(Wc*[ht-1,xt]+bc);
ot=σ(Wo[ht-1,xt]+bo);
ht=ot*tanh(Ct);
其中,xt、ht-1、Ct-1、ft、it、ot和ht分别代表输入序列、前一次存储块的输出、之前的细胞状态、遗忘门、输入门、输出门和输出门输出;σ(.)是sigmoid函数。Wf、Wi、Wc、Wo分别是连接遗忘门、输入门、神经元激活、输出门的权重矩阵,bf、bi、bc、bo分别是遗忘门、输入门、神经元激活、输出门对应的偏差向量。
8.根据权利要求1所述的方法,其特征在于,步骤3具体包括:
步骤301,构建基于深度学习的空管语义理解模型,确定模型的神经网络结构、隐藏层数量、神经元数量;
步骤302,制定空管语料库标注规范,规范多个语义文本信息对应的管制指令意图与参数;利用规范后的语义文本信息样本,训练所述基于深度学习的空管语音识别模型,优化模型的神经网络超参数,以使所述网络满足:当有语义文本信息输入时,输出所述语义文本信息对应的管制指令意图与参数;
步骤303,利用基于深度学习的空管语义理解模型确定步骤2所得的多个语义文本文件对应的管制指令意图与参数,以得到多个管制指令意图与参数文件。
9.根据权利要求8所述的方法,其特征在于,所述基于深度学习的空管语义理解模型中:初始学习率为0.1,学习速率衰减速度为0.9,梯度的最大范数为5.0,长短期记忆子模型可堆叠的层数为1,dropout层保留节点的比例为0.5,训练时每个批次样本的数量为16,词向量大小为300,输入词最大为10000,输出标签最大为123,最大训练次数为20000,多层感知器中隐含层的节点为200,激活函数为ReLU。
10.一种基于语音识别的地空通话数据分析系统,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至9中任一项所述的方法。
CN201910563775.2A 2019-06-26 2019-06-26 一种基于语音识别的地空通话数据分析方法及系统 Pending CN110335609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910563775.2A CN110335609A (zh) 2019-06-26 2019-06-26 一种基于语音识别的地空通话数据分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910563775.2A CN110335609A (zh) 2019-06-26 2019-06-26 一种基于语音识别的地空通话数据分析方法及系统

Publications (1)

Publication Number Publication Date
CN110335609A true CN110335609A (zh) 2019-10-15

Family

ID=68142971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910563775.2A Pending CN110335609A (zh) 2019-06-26 2019-06-26 一种基于语音识别的地空通话数据分析方法及系统

Country Status (1)

Country Link
CN (1) CN110335609A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718225A (zh) * 2019-11-25 2020-01-21 深圳康佳电子科技有限公司 一种语音控制方法、终端以及存储介质
CN111210825A (zh) * 2019-12-16 2020-05-29 四川大学 一种增强地空通话管制员情景意识感知的方法与装置
CN111785257A (zh) * 2020-07-10 2020-10-16 四川大学 一种针对少量标注样本的空管语音识别方法及装置
CN112185390A (zh) * 2020-09-27 2021-01-05 中国商用飞机有限责任公司北京民用飞机技术研究中心 机上信息辅助方法及装置
CN112397071A (zh) * 2020-09-22 2021-02-23 南京莱斯信息技术股份有限公司 一种基于管制语音识别的进近及跑道运行风险预警方法
CN112735395A (zh) * 2020-12-25 2021-04-30 科大讯飞股份有限公司 语音识别方法及电子设备、存储装置
CN113099045A (zh) * 2021-04-15 2021-07-09 北京蓦然认知科技有限公司 一种线路优化的方法、装置和系统
CN113270097A (zh) * 2021-05-18 2021-08-17 成都傅立叶电子科技有限公司 无人机械控制方法、电台语音指令转换方法及装置
WO2022063288A1 (zh) * 2020-09-27 2022-03-31 中国商用飞机有限责任公司北京民用飞机技术研究中心 一种机上信息辅助系统和方法
CN115291967A (zh) * 2022-08-01 2022-11-04 中国人民解放军32039部队 航天数据分析方法、装置和电子设备
CN115440191A (zh) * 2022-11-09 2022-12-06 四川大学 一种基于深度学习的飞机驾驶舱安全辅助方法及电子设备
CN115938347A (zh) * 2023-03-13 2023-04-07 中国民用航空飞行学院 基于语音识别的飞行学员通话规范性评分方法及系统
CN116978384A (zh) * 2023-09-25 2023-10-31 成都市青羊大数据有限责任公司 一种公安一体化大数据管理系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916565A (zh) * 2010-06-24 2010-12-15 北京华安天诚科技有限公司 空管系统中的语音识别方法及语音识别装置
US9401758B2 (en) * 2014-06-17 2016-07-26 Northrop Grumman Systems Corporation Unmanned air vehicle with autonomous air traffic control communications capability
CN106297796A (zh) * 2016-03-25 2017-01-04 李克军 一种飞行员复诵监控方法及装置
CN106356063A (zh) * 2016-08-28 2017-01-25 桂林市晶准测控技术有限公司 一种对管控语音进行文字识别的方法和系统
CN106484888A (zh) * 2016-10-18 2017-03-08 温州云航信息科技有限公司 一种交通通信记录回调和提示系统及其方法
CN106910376A (zh) * 2016-08-18 2017-06-30 温州云航信息科技有限公司 一种空中交通运行管制指令监控方法与系统
CN109003601A (zh) * 2018-08-31 2018-12-14 北京工商大学 一种针对低资源土家语的跨语言端到端语音识别方法
CN109544997A (zh) * 2018-12-27 2019-03-29 四川九洲空管科技有限责任公司 一种基于空管通信及监视技术的移动式管制塔台

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916565A (zh) * 2010-06-24 2010-12-15 北京华安天诚科技有限公司 空管系统中的语音识别方法及语音识别装置
US9401758B2 (en) * 2014-06-17 2016-07-26 Northrop Grumman Systems Corporation Unmanned air vehicle with autonomous air traffic control communications capability
CN106297796A (zh) * 2016-03-25 2017-01-04 李克军 一种飞行员复诵监控方法及装置
CN106910376A (zh) * 2016-08-18 2017-06-30 温州云航信息科技有限公司 一种空中交通运行管制指令监控方法与系统
CN106356063A (zh) * 2016-08-28 2017-01-25 桂林市晶准测控技术有限公司 一种对管控语音进行文字识别的方法和系统
CN106484888A (zh) * 2016-10-18 2017-03-08 温州云航信息科技有限公司 一种交通通信记录回调和提示系统及其方法
CN109003601A (zh) * 2018-08-31 2018-12-14 北京工商大学 一种针对低资源土家语的跨语言端到端语音识别方法
CN109544997A (zh) * 2018-12-27 2019-03-29 四川九洲空管科技有限责任公司 一种基于空管通信及监视技术的移动式管制塔台

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GRAVES A: "Towards end-to-end speech recognition", 《PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON MACHINE LEARNING,ICML 2014.BEIJING:INTERNATIONAL MACHINE LEARNING SOCIETY (IMLS)》 *
杨波: "基于深度学习的空管指挥安全监控技术研究", 《中国指挥与控制学会.第一届空中交通管理系统技术学术年会论文集》 *
王海旭: "基于卷积神经网络的语音端点检测方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
王炳锡: "《实用语音识别基础》", 31 January 2005, 北京:国防工业出版社 *
龚文抗: "《西方国家的民用航空和机场发展 2000》", 31 December 2000, 斯特灵出版集团公司 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718225A (zh) * 2019-11-25 2020-01-21 深圳康佳电子科技有限公司 一种语音控制方法、终端以及存储介质
CN111210825A (zh) * 2019-12-16 2020-05-29 四川大学 一种增强地空通话管制员情景意识感知的方法与装置
CN111785257A (zh) * 2020-07-10 2020-10-16 四川大学 一种针对少量标注样本的空管语音识别方法及装置
CN111785257B (zh) * 2020-07-10 2022-08-26 四川大学 一种针对少量标注样本的空管语音识别方法及装置
CN112397071A (zh) * 2020-09-22 2021-02-23 南京莱斯信息技术股份有限公司 一种基于管制语音识别的进近及跑道运行风险预警方法
WO2022063288A1 (zh) * 2020-09-27 2022-03-31 中国商用飞机有限责任公司北京民用飞机技术研究中心 一种机上信息辅助系统和方法
CN112185390A (zh) * 2020-09-27 2021-01-05 中国商用飞机有限责任公司北京民用飞机技术研究中心 机上信息辅助方法及装置
CN112185390B (zh) * 2020-09-27 2023-10-03 中国商用飞机有限责任公司北京民用飞机技术研究中心 机上信息辅助方法及装置
CN112735395A (zh) * 2020-12-25 2021-04-30 科大讯飞股份有限公司 语音识别方法及电子设备、存储装置
CN113099045B (zh) * 2021-04-15 2023-02-10 杭州蓦然认知科技有限公司 一种线路优化的方法、装置和系统
CN113099045A (zh) * 2021-04-15 2021-07-09 北京蓦然认知科技有限公司 一种线路优化的方法、装置和系统
CN113270097B (zh) * 2021-05-18 2022-05-17 成都傅立叶电子科技有限公司 无人机械控制方法、电台语音指令转换方法及装置
CN113270097A (zh) * 2021-05-18 2021-08-17 成都傅立叶电子科技有限公司 无人机械控制方法、电台语音指令转换方法及装置
CN115291967A (zh) * 2022-08-01 2022-11-04 中国人民解放军32039部队 航天数据分析方法、装置和电子设备
CN115291967B (zh) * 2022-08-01 2023-05-23 中国人民解放军32039部队 航天数据分析方法、装置和电子设备
CN115440191A (zh) * 2022-11-09 2022-12-06 四川大学 一种基于深度学习的飞机驾驶舱安全辅助方法及电子设备
CN115440191B (zh) * 2022-11-09 2023-01-24 四川大学 一种基于深度学习的飞机驾驶舱安全辅助方法及电子设备
CN115938347A (zh) * 2023-03-13 2023-04-07 中国民用航空飞行学院 基于语音识别的飞行学员通话规范性评分方法及系统
CN115938347B (zh) * 2023-03-13 2023-05-23 中国民用航空飞行学院 基于语音识别的飞行学员通话规范性评分方法及系统
CN116978384A (zh) * 2023-09-25 2023-10-31 成都市青羊大数据有限责任公司 一种公安一体化大数据管理系统
CN116978384B (zh) * 2023-09-25 2024-01-02 成都市青羊大数据有限责任公司 一种公安一体化大数据管理系统

Similar Documents

Publication Publication Date Title
CN110335609A (zh) 一种基于语音识别的地空通话数据分析方法及系统
Schuller et al. The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates
CN108806668A (zh) 一种音视频多维度标注与模型优化方法
CN111489748A (zh) 一种调度智能语音辅助系统
CN109448730A (zh) 一种自动语音质检方法、系统、装置及存储介质
CN110457432A (zh) 面试评分方法、装置、设备及存储介质
CN113066499B (zh) 一种陆空通话说话人身份识别方法及装置
CN110309216A (zh) 一种基于文本分类的客服语音质检方法
CN108074576A (zh) 审讯场景下的说话人角色分离方法及系统
CN103336773B (zh) 一种音视频语音处理与检索的系统和方法
CN109686383B (zh) 一种语音分析方法、装置及存储介质
CN111785257B (zh) 一种针对少量标注样本的空管语音识别方法及装置
CN107358947A (zh) 说话人重识别方法及系统
CN116110405B (zh) 一种基于半监督学习的陆空通话说话人识别方法及设备
CN111899740A (zh) 一种基于测试需求的语音识别系统众包测试用例生成方法
CN109741752A (zh) 一种基于语音识别的人事考评方法与系统
Gong et al. Vocalsound: A dataset for improving human vocal sounds recognition
CN110473571A (zh) 基于短视频语音的情感识别方法和装置
CN109065020A (zh) 多语言类别的识别库匹配方法及系统
CN109872714A (zh) 一种提高语音识别准确性的方法、电子设备及存储介质
CN115910066A (zh) 用于区域配电网的智能调度指挥与运营系统
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
EP3671742A1 (en) Methods of and electronic devices for identifying a user utterance from a digital audio signal
CN114996506A (zh) 语料生成方法、装置、电子设备和计算机可读存储介质
CN106934870A (zh) 一种语音考勤系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191015

RJ01 Rejection of invention patent application after publication