CN113821053A

CN113821053A - 一种基于语音识别和关系抽取技术的飞行辅助方法和系统

Info

Publication number: CN113821053A
Application number: CN202111141947.0A
Authority: CN
Inventors: 吕宗磊; 方敏
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-21

Abstract

本发明公开了一种基于语音识别和关系抽取技术的飞行辅助方法和系统，属于信息处理技术领域，包括：S1、获取高频段的通话音频，进行预处理；S2、对音频进行转录，将特殊代码进行替换，整理出标签文本对应的字典；S3、读取音频信号，提取音频特征；S4、将音频特征输入变压器网络训练语音识别模型；S5、对管制员和飞行员之间的对话进行实体关系建模，得到实体关系抽取模型，提取出指令中包含的呼号、滑行道、跑道信息之间存在的关系；S6、将变压器网络训练语音识别模型和实体关系抽取模型植入航空器上的平视显示器中；S7、采集语音指令，进行预处理，获取指令文本，将指令文本输入实体关系抽取模型，提取出语音指令中的实体关系。

Description

一种基于语音识别和关系抽取技术的飞行辅助方法和系统

技术领域

本发明属于信息处理技术领域，特别是涉及一种基于语音识别和关系抽取技术的飞行辅助方法和系统。

背景技术

空中交通管制(ATC)是空中交通管理(ATM)中提供的一项空中交通服务，其任务是对飞机从起飞到着陆的全过程进行管理和控制，防止飞机与飞机、飞机与障碍物之间相撞，确保飞行活动安全、高效、有序地进行。众所周知，空中交通管制员通过向飞行员发送语音指令来指导飞行。这些指令包含丰富的情境信息，具体表现在控制指令中。在现有的空中交通管制管理系统中，空中交通管制员与飞行员之间的语音通信是一个集中的人在回路程序。从管制员方面来说，在空中交通管制过程中，管制员必须跟踪他们发出的所有指令，从目前来看，这部分工作需要通过鼠标输入或手动完成，并且给管制员带来了很高的工作量。从飞行员的方面来说，飞行员必须在一个嘈杂的语音环境中，持续收听高频段电台以防他们的呼号被叫，同时还要记住管制人员的冗长复杂的指令。

因此在实践中，这种人在回路的程序被认为存在安全风险，因此需要使用先进的技术进行监测辅助。使用语音识别技术识别出管制员发出的指令内容，再使用自然语言处理中的实体关系抽取方法，提取指令中包含的呼号-机位-滑行道、呼号-滑行道等实体关系，将指令所述滑行路径通过GIS显示在HUD上，方便飞行员清晰地了解到滑行路径。这将大大提升飞行员的认知速度，减少工作负荷，同时减少因通信不足而滑错或飞行员不熟悉机场地面路线滑行速度慢等情况的出现，导致机场地面交通拥塞。

发明内容

技术目的

本发明提供一种基于语音识别和关系抽取技术的飞行辅助方法和系统；在空中交通管理过程中，实现管制指令可视化的一种基于语音识别和关系抽取技术的飞行辅助办法及系统。本发明可以实时识别管制员的语音指令，再将指令文本输入实体关系抽取模型，获取指令中的关键信息，通过GIS将滑行路径显示在HUD上，辅助飞行员了解场面信息和滑行路径，避免因通信不足而滑错等情况的出现，导致机场地面交通拥塞。

技术方案

本发明的第一目的是提供一种基于语音识别和关系抽取技术的飞行辅助方法，包括如下步骤：

S1、获取高频段的通话音频，对所述音频进行预处理；

S2、对所述音频进行转录，将特殊代码进行替换，记录每个音频对应的标签文本，同时整理出标签文本对应的字典；

S3、读取音频信号，提取音频特征；

S4、将音频特征输入变压器网络训练语音识别模型；

S5、使用自然语言处理中的实体关系抽取办法，对管制员和飞行员之间的对话进行实体关系建模，得到实体关系抽取模型，提取出指令中包含的呼号、滑行道、跑道信息之间存在的关系；

S6、将所述变压器网络训练语音识别模型和实体关系抽取模型植入航空器上的平视显示器中，得到航空器地面滑行辅助系统；

S7、采集空中交通管制员的语音指令，对语音指令进行预处理，通过变压器网络训练语音识别模型，获取语音指令的指令文本，再将指令文本输入实体关系抽取模型，提取出语音指令中包含的实体关系。

优选地，所述S1具体为：通过收音机采集高频段中地面空中交通管制人员和飞行员之间的通话音频，对采集到的音频进行降噪、端点检测方面的预处理。

优选地，在所述S4中：所述变压器网络训练语音识别模型在进行解码时，结合标签文本的语言模型同时解码，使得最后得出的结果符合空中交通管制指令的规则，最后进行代码转换。

优选地，所述特殊代码为：国际民用航空组织规定的空中交通管制实时通信中唯一允许使用的口语术语。

优选地，在S3中：对音频信号预加重、分帧和加窗，随后通过快速傅里叶变换得到频谱，频谱通过Mel滤波器组得到Mel频谱，在Mel频谱上面进行倒谱分析得到MFCC特征。

优选地，在S4中：使用空中交通管制的特定背景语言模型进行解码，加入先验知识，检查在特定背景下是否符合管制规则，解码结束进行代码转换，将S2中的发音代码转换正确的含义。

优选地，在S5中，以音频的标签文本作为实体关系抽取模型的训练数据，训练关系抽取模型，抽取出呼号-机位-滑行道，呼号-等待点-滑行道，呼号-机位，呼号-滑行道实体关系，在对应航空器的平视显示器上显示滑行路径。

本发明的第二目的是提供一种基于语音识别和关系抽取技术的飞行辅助系统，包括：

音频预处理模块、获取高频段的通话音频，对所述音频进行预处理；

转录整理模块、对所述音频进行转录，将特殊代码进行替换，记录每个音频对应的标签文本，同时整理出标签文本对应的字典；

特征提取模块、读取音频信号，提取音频特征；

模型训练模块、将音频特征输入变压器网络训练语音识别模型；

实体关系建模模块、使用自然语言处理中的实体关系抽取办法，对管制员和飞行员之间的对话进行实体关系建模，得到实体关系抽取模型，提取出指令中包含的呼号、滑行道、跑道信息之间存在的关系；

辅助系统生成模块、将所述变压器网络训练语音识别模型和实体关系抽取模型植入航空器上的平视显示器中，得到航空器地面滑行辅助系统；

指令提取模块、采集空中交通管制员的语音指令，对语音指令进行预处理，通过变压器网络训练语音识别模型，获取语音指令的指令文本，再将指令文本输入实体关系抽取模型，提取出语音指令中包含的实体关系。

本专利的第三发明目的是提供一种实现上述基于语音识别和关系抽取技术的飞行辅助方法的信息数据处理终端。

本专利的第四发明目的是提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于语音识别和关系抽取技术的飞行辅助方法。

本发明的优点及积极效果为：

本发明通过基于变压器(transformer)网络的语音识别模型和实体关系抽取模型，识别管制人员的语音指令内容，再将指令内容输入实体关系抽取模型中，提取其中包含的呼号-滑行道，呼号-停机位-滑行道，呼号-等待点等实体关系，将得到的滑行路径通过GIS表示在HUD上面。变压器(transformer)模型在训练过程中采用声学模型和语言模型同时训练的方式，编码阶段相当于声学模型，在该阶段给出每一帧语音属于某个声学符号的概率，在解码的过程中，使用特定背景下的语言模型，对声学模型中可能产生的明显错误进行修正，优化最初的语音识别结果，使得最终的文本内容符合国际民用航空组织发布的空中交通管制标准程序和场面信息。指令文本再次输入实体关系抽取模型，提取指令中的实体关系，最后将滑行路径显示在HUD上，辅助飞行员在地面滑行。

附图说明

图1是本发明优选实施例中的流程图；

图2是本发明优选实施例中训练语音识别模型的流程；

图3是本发明优选实施例中的系统框图；

图4是本发明优选实施例中的HUD示意图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹例举以下实施例，并详细说明如下。

请参阅图1至图2：

由附图1可知，本发明共需要两个实现阶段，分别是模型训练阶段和HUD显示辅助飞行阶段。下面以实际示例对具体实施方式做解释说明。假设某航班F在机场A离场，管制员对航班F发出了指令“F继续滑行november 3papa bravo bravo 7 16右等待点”。该方法包括以下几个步骤：

首先是模型训练阶段：

请参阅图1，一种基于语音识别和关系抽取技术的飞行辅助方法，包括以下几个步骤：

步骤1，通过收音机采集空中交通管制人员和飞行员之间的通话音频，因为在空中交通管制的场景中，通信是通过甚高频(VHF)波段的无线电传输实现的，具有不稳定的背景噪声和低清晰度，这一直是接收正确和高质量语音信号的障碍。因此对采集到的音频进行降噪、短点检测等方面的预处理；

步骤2，对预处理完的音频进行转录，对一些特殊代码进行替换。国际民用航空组织(ICAO)发布了空中交通管制标准程序，其中规定了空中交通管制实时通信中唯一允许使用的口语术语。此外，为了消除同音异义词或近同音异义词引起的误解，对一些单词给予特殊的发音。例如，将英文字母a转换为发音alpha，国内管制员也会将数字“零”的发音转换为“洞”，记录每个音频的对应的标签文本，同时整理出标签文本对应的字典，为训练语音识别模型做好标签数据准备；

步骤3，读取音频信号，提取音频特征。对音频信号预加重、分帧和加窗，随后通过快速傅里叶变换得到频谱，频谱通过Mel滤波器组得到Mel频谱，在Mel频谱上面进行倒谱分析得到MFCC特征；

步骤4，将MFCC特征输入变压器(transformer)网络训练语音识别模型。变压器(transformer)模型在编码阶段相当于声学模型，在进行解码时，结合标签文本的语言模型同时解码，优化最初的语音识别结果，使得最终的文本内容符合国际民用航空组织发布的空中交通管制标准程序和场面信息，最后进行代码转换；

步骤5，使用自然语言处理中的实体关系抽取办法，对管制员和飞行员之间的对话进行实体关系建模，提取出指令中包含的呼号、滑行道、跑道等信息之间存在的关系。以标准指令文本作为实体关系抽取模型的训练数据，训练关系抽取模型，抽取出呼号-机位-滑行道，呼号-等待点-滑行道，呼号-机位，呼号-滑行道等实体关系，方便在对应航空器的平视显示器上显示滑行路径。

步骤6，将步骤四和步骤五训练得到的语音识别模型和实体关系抽取模型植入航空器F上的平视显示器(HUD)中，管制员发出指令后，HUD将显示滑行路径；

步骤7，通过麦克风采集空中交通管制员的语音指令，对语音进行预处理后，通过语音识别模型，获取语音的指令文本“F继续滑行november 3papa bravo bravo 7 16右等待点”，进行代码转换后指令变换为“F继续滑行N3 P B B7 16右等待点”，关系抽取模型提取指令文本中包含的实体关系F-N3 P B B7，滑行路线N3 P B B7通过GIS将显示航空器F的HUD中，飞行员则将根据此路线滑行离场。

步骤1中，在空中交通管制的场景中，通信是通过甚高频(VHF)波段的无线电传输实现的，具有不稳定的背景噪声和低清晰度，这一直是接收正确和高质量语音信号的障碍。此外，管制人员与多个驾驶员共用同一通信频率，导致系统时变，设备误差不同。因此，空管语音的特征与普通语音有很大的差异，对采集到的音频进行预处理非常重要。

步骤2中，国际民用航空组织(ICAO)发布了空中交通管制标准程序，其中规定了空中交通管制实时通信中唯一允许使用的口语术语。此外，为了消除同音异义词或近同音异义词引起的误解，对一些单词给予特殊的发音。例如，将英文字母a转换为发音alpha，将数字“零”的发音转换为“洞”。因此，为训练一个实际的ASR系统而进行足够的ATC语音标注是一项高度依赖专家和领域的、费时费力的任务。

步骤3中，对音频信号预加重、分帧和加窗，随后通过快速傅里叶变换得到频谱，频谱通过Mel滤波器组得到Mel频谱，在Mel频谱上面进行倒谱分析得到MFCC特征。

步骤4中，使用空中交通管制的特定背景语言模型进行解码，加入先验知识，方便检查在特定背景下是否符合管制规则，减少出现解码错误，解码结束进行代码转换。将步骤2中的代码转换正确的含义。

步骤5中，以音频的标签文本作为实体关系抽取模型的训练数据，训练关系抽取模型，抽取出呼号-机位-滑行道，呼号-等待点-滑行道，呼号-机位，呼号-滑行道等实体关系，方便在对应航空器的平视显示器上显示滑行路径。

步骤6中，将步骤4和步骤5训练生成的语音识别模型和关系抽取模型植入到平视显示器上，根据HUD的具体性能评估模型算法，将模型转变为可以在HUD中运行的代码，得到基于语音识别和关系抽取技术的飞行辅助系统。

步骤7中，通过麦克风采集空中交通管制员的语音指令，前端设置预处理模块，对采集到的语音指令进行降噪等预处理，再将预处理后的语音通过语音识别模型，获取语音的指令文本，再将指令文本输入实体关系抽取模型，提取出指令中包含的实体关系，例如呼号-机位-滑行道，并将飞机的滑行路径通过GIS显示在HUD上。

上述技术方案的关键在于训练一个特定的空中交通管制的语音识别模型，以及植入设备的使用。通过收集高频段电台的航空通话音频，对音频进行降噪、端点检测等预处理，在对音频进行标注，为训练语音识别模型做好数据准备。然后提取音频特征输入变压器(transformer)网络，训练语音识别模型。将语音的标签文本做好标注，作为实体关系抽取模型的训练数据，训练好关系抽取模型。通过语音识别模型获取管制员指令文本，再通过关系抽取模型提取指令中的关键信息。

这里使用的设备主要是航空器室上的HUD，平视显示器最早出现在军用飞机上，降低飞行员需要低头查看仪表的频率，避免注意力中断以及丧失对状态意识的掌握。因为HUD的方便性以及能够提高飞行安全，近些年来民航机也纷纷跟进安装。HUD提供了以平视的角度来呈现飞机实际的惯导飞行路径信息，大大增加了飞行员的可视角度。支持在所有气象条件下和所有飞行阶段对飞机的准确监视和精确控制；除此之外，还能在起飞，着陆进近阶段生成并显示指引信息,在飞行的每时每刻增强状态感知能力。HUD在驾驶员前方上部的一块透明屏幕上为驾驶员提供基本的飞行、导航和引导信息。因此将管制指令的一同显示在HUD上，不管是在地面滑行时查看滑行道等信息还是空中飞行过程中获取航路信息，对于飞行员驾驶飞机都有极大的帮助。

根据航空器上HUD的特征，本技术方案能够增加HUD的辅助性，加强飞行员对管制员发出的指令的认知理解，提升飞行过程中的安全性。

请参阅图3和图4，一种基于语音识别和关系抽取技术的飞行辅助系统，包括：

特征提取模块、读取音频信号，提取音频特征；

一种实现上述基于语音识别和关系抽取技术的飞行辅助方法的信息数据处理终端。

一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述的基于语音识别和关系抽取技术的飞行辅助方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅是对本发明的较佳实施例而已，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改，等同变化与修饰，均属于本发明技术方案的范围内。

Claims

1.一种基于语音识别和关系抽取技术的飞行辅助方法，其特征在于，包括如下步骤：

S1、获取高频段的通话音频，对所述音频进行预处理；

S3、读取音频信号，提取音频特征；

S4、将音频特征输入变压器网络训练语音识别模型；

2.根据权利要求1所述的基于语音识别和关系抽取技术的飞行辅助方法，其特征在于，所述S1具体为：通过收音机采集高频段中地面空中交通管制人员和飞行员之间的通话音频，对采集到的音频进行降噪、端点检测方面的预处理。

3.根据权利要求1所述的基于语音识别和关系抽取技术的飞行辅助方法，其特征在于，在所述S2中：国际民用航空组织发布空中交通管制标准程序，其中规定了空中交通管制实时通信中唯一允许使用的口语术语。

4.根据权利要求1所述的基于语音识别和关系抽取技术的飞行辅助方法，其特征在于，在S3中：对音频信号预加重、分帧和加窗，随后通过快速傅里叶变换得到频谱，频谱通过Mel滤波器组得到Mel频谱，在Mel频谱上面进行倒谱分析得到MFCC特征。

5.根据权利要求1所述的基于语音识别和关系抽取技术的飞行辅助方法，其特征在于，在S4中：使用空中交通管制的特定背景语言模型进行解码，加入先验知识，检查在特定背景下是否符合管制规则，解码结束进行代码转换，将S2中的发音代码转换正确的含义。

6.根据权利要求1所述的基于语音识别和关系抽取技术的飞行辅助方法，其特征在于，在S5中，以音频的标签文本作为实体关系抽取模型的训练数据，训练关系抽取模型，抽取出呼号-机位-滑行道，呼号-等待点-滑行道，呼号-机位，呼号-滑行道实体关系，在对应航空器的平视显示器上显示滑行路径。

7.一种基于语音识别和关系抽取技术的飞行辅助系统，其特征在于，包括：

特征提取模块、读取音频信号，提取音频特征；

8.一种实现权利要求1至6任一项所述基于语音识别和关系抽取技术的飞行辅助方法的信息数据处理终端。

9.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至6任一项所述基于语音识别和关系抽取技术的飞行辅助方法。