CN104575516A

CN104575516A - 用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法

Info

Publication number: CN104575516A
Application number: CN201410616526.2A
Authority: CN
Inventors: S·卡; K·G·克里什纳; J·K·阿加瓦尔; R·E·德默斯
Original assignee: Honeywell International Inc
Current assignee: Honeywell International Inc
Priority date: 2013-10-07
Filing date: 2014-09-30
Publication date: 2015-04-29
Anticipated expiration: 2034-09-30
Also published as: US20150100311A1; EP2858067B1; US9299340B2; EP2858067A1; CN104575516B

Abstract

一种在飞机上的用于识别话音的系统和方法，所述系统和方法补偿由至少第一和第二独特地理地区组成的区域上的不同地区方言，包括：使用代表第一独特地理地区中话音的话音数据特性来分析第一独特地理地区中的话音；检测从第一独特地理地区到第二地理地区的位置变化；以及在检测到飞机已经从第一独特地理地区转移到第二独特地理地区时，使用代表第二独特地理地区中话音的话音数据特性来分析第二独特地理地区中的话音。

Description

用于在使用动态话音数据库的飞机驾驶舱中校正口音诱导话音的系统和方法

技术领域

本文公开的实施例一般地涉及语言通信的处理，并且更特别地，涉及用于降低空对地、地对空以及空对空通信中的口音诱导异常的话音传输系统。

背景技术

众所周知，人类话音正逐渐被用作输入数据以电子地进行交易、发送和接收信息，以及提供命令和控制。鉴于以上情况，同样已知的是，航线以及航空电子工业在全球环境中运行，其中多方经常必须通过不是他们主要的语言或母语的语言进行语言通信。通信的准确度取决于每个讲话者清晰发出他或她说出的每个单词的有多好，这可以取决于他或她是否带有口音讲话，以及带有口音讲话的程度。如果讲话者的口音很重，诸如相邻飞机、空中交通控制(ATC)以及降落或起飞飞机等之间的通信可能会成问题。事实上，大约百分之六十五的国际飞行的飞行员报告由于空中交通控制者讲英语时的口音导致与ATC通信的困难。

尽管百分之七十五的通信者使用ICAO(国际民航组织)标准措辞，但是该问题广泛存在于许多国家的控制者当中。因此，翻译并不是问题。相反，问题与口音、音高、发音以及比特率有关。这类通信问题削弱了飞行员理解并遵从指令的能力，从而显著要求更多的努力以及注意力。

话音识别始终特定于讲话者的语言，而讲话者语言的发音从一个地区到另一地区并不是标准化的，即使跨国度也是如此。例如，基于音韵、词法以及特定的句法特征，北美英语能够被分为若干地区方言。也就是说，北美英语包括美式英语，其本身包括多个地区变体。因此，飞越不同地区的长途飞行上的飞行员可能与采用基于特定地区的语音以及词法变量的口音讲话的空中交通控制者交互，从而增加了飞行员的工作负担。

考虑以上内容，将期望在飞机正飞经地区中与飞机通信期间提供一种自动补偿地区方言的自适应话音接口。还将期望提供一种自适应话音接口，该话音接口使用为飞机正飞经的独特地理地区裁剪的声学模型。

发明内容

提供本概述来以简要形式介绍概念选择，下文在详细描述中进一步描述概念选择。本概述并不意图标识所要求保护的主题的关键特征或必要特征，也不意图用作确定所要求保护的主题的范围的辅助。

根据实施例，提供了一种在飞机上识别话音的方法，所述方法补偿由至少第一和第二独特的地理地区组成的区域上的不同地区方言。所述方法包括：使用代表第一独特地理地区中话音的话音数据特性来分析第一独特地理地区中的话音；检测从第一独特地理地区到第二地理地区的位置变化；以及在检测到飞机已经从第一独特地理地区转移到第二独特地理地区时，使用代表第二独特地理地区中话音的话音数据特性来分析第二独特地理地区中的话音。

还提供了一种用于在飞机上识别话音的飞行甲板系统，其补偿由至少第一和第二独特地理地区组成的区域的不同地区方言。该系统包括话音数据的第一源和话音数据的第二源，话音数据的第一源表示具有第一独特地理地区中的话音特性的第一话音数据库，话音数据的第二源表示具有第二独特地理地区中的话音特性的第二话音数据库。处理器被耦合到第一源和第二源，并被配置为使用第一源中的数据处理第一独特地理地区中的话音，当飞机进入第二独特地理地区时切换到第二源，并且使用第二源中的数据处理第二独特地理地区中的话音。

还提供了一种航空电子话音识别方法，其补偿由至少第一独特地理地区中的初始飞行位置和至少第二与第三独特地理地区组成的区域的地区方言。该方法包括：用当前飞机位置数据以及代表初始独特飞机位置和至少第一与第二附加独特地理地区中的话音特性的话音数据来初始化话音识别系统；以及使用与初始独特地理地区相关联的话音数据来处理在初始独特地理地区中的话音，当飞机从初始独特地理地区转移到第二独特地理地区时，使用与第二独特地理地区相关联的话音数据来处理在第二独特地理地区中的话音，以及当飞机从第二独特地理地区转移到第三独特地理地区时，使用与第三独特地理地区相关联的话音数据来处理在第三地理地区中的话音。

附图说明

当结合附图考虑时，参照详细描述和权利要求书可以得到更为完整的对主题的理解，在图中类似的附图标记贯穿附图指代类似元件。

图1为根据示例性实施例的表示声学映射结构的表；

图2是根据示例性实施例自动补偿地区方言的自适应话音接口的框图；

图3是图示适于在飞行甲板通信以及显示系统中用于识别话音的方法的示例性实施例的流程图，该方法通过根据飞机正飞经的地理地区而改变话音识别声学模型来识别话音。

具体实施方式

下面的详细描述本质上仅为说明性的，并不意图限制主题的实施例或者这类实施例的应用和使用。如本文使用的，单词“示例性”意为“作为示例、实例或者说明”。本文描述的作为示例的任何实现并不一定被解释为比其他实现优选或有利。此外，并不意图受先前技术领域、背景技术、发明内容或下面的详细描述中呈现的任何表达或暗示的理论所约束。

可以在本文中根据功能和/或逻辑块组件并且参考可以由各个计算组件或设备执行的操作、处理任务和功能的符号表示来描述技术和技艺。这类操作、任务以及功能有时被称为是计算机执行的、计算机化的、软件实现的或者计算机实现的。实践中，通过操纵系统存储器中存储位置处的表示数据比特的电信号以及其他信号的处理，一个或多个处理器设备能够执行所描述的操作、任务和功能。数据比特被维持在其中的存储器位置是具有特定的对应于数据比特的电、磁、光或有机属性的物理位置。应该明白的是：图中示出的各个块组件可以由被配置为执行指定功能的任意数量的硬件、软件和/或固件组件来实现。例如，系统或组件的实施例可以使用各种集成电路组件，例如，存储器元件、数字信号处理器元件、逻辑元件、查找表等，它们可以在一个或多个微处理器或其它控制设备的控制下执行各种功能。

为了简洁起见，在本文中可能未详细描述关于图形和图像处理、导航、飞行规划、飞机控制、飞机数据通信系统和某些系统及子系统的其它功能方面(以及某些系统和子系统的单独操作组件)的常规技术。此外，在包含在本文中的各个图中示出的连接线旨在表示各个元件之间的示例性的功能关系和/或物理耦合。应该指出的是：许多可替代或附加的功能关系或物理连接可以存在于本主题的实施例中。

如前陈述的，北美英语包括例如基于以下的若干地区方言：音韵意识(标识并操纵诸如单词和音节的口语单元的能力)；词法意识(或关于语言的单词或词汇，如与它的语法和句法方面所区别开的)；以及句法意识(语言中语法正确的句子和短语的形成规则)。

在航空中，飞行信息地区(FIR)是空域的指定地区，其中提供了飞行信息服务和警告服务(ALRS)。目前，它是世界上在使用的空域的最大常规划分。大气的每一部分属于特定的FIR。单个FIR可以包围较小国家的空域，而较大国家的空域被细分为多个地区FIR。一些FIR包围若干国家的领空。海洋空域被划分为海洋信息地区，并被委任为设定该地区边界的控制当局。当局间的划分通过国际民航组织(ICAO)根据国际协议完成。区域控制中心(ACC)是负责控制机场到达和出发之间在高海拔处控制飞机处于空域的特定体(FIR)中的路线的设施。因此，ACC还可被称为飞行路线交通控制中心。ACC通常接受来自终端控制中心或另一ACC的交通量，并最终将交通量传递到终端控制中心或另一ACC以进行控制。交通量的传送由语音通信ATC和飞行员执行。每个FIR地区的地理定义被存储在FIR数据库中(图2中的206)。

通过使用软件创建构成每个单词的声音的统计表示而制作话音和其文本转变的音频记录，来创建声学模型。允许单词由“它们发声的方式”来定位的语音词典，即，将每个单词的常见或语音错误拼写与正确拼写匹配的词典。这种词典使用发音重拼写来帮助搜索单词或识别单词。

对于每个地区，只有某些声学模型和它们的关联语音词典将递送高话音识别精确度。因此，本文使用的话音数据库应包括声学模型、语音词典以及语言模型，该语言模型包括由符合FIR/ATC措辞的FIR/ATC控制者能够说出的所有单词的统计表示。

本文描述的实施例设想取决于飞机正飞经的FIR地区而自动改变话音数据库的自适应话音接口的使用。对于每个FIR，基于组成FIR地区的人员构成来生成话音数据库。周期地，基于该构成的变化来更新话音数据库。话音数据库到飞行信息地区的该映射在本文被称为FIR声学映射或FIR声学关系数据库。综合的话音数据库由用于全世界的FIR声学映射组成。因此，话音数据库(图2中的204)由用于所有FIR地区的声学模型、语音词典以及语言模型组成，并且FIR声学映射将FIR地区与由声学模型、语音词典以及语言模型组成的话音数据库进行相关。

本文描述的实施例进一步设想：使得话音数据库204可获得作为驾驶舱内与图表、导航数据库等以非常相同方式可加载的组件。话音数据库204的修订可发出以提高精度。还设想，可以使话音数据库204在覆盖整个世界或其部分的预订基础上是可获得的，例如由特定航线、包机、或甚至结合私人飞机服务的地理位置。随着飞机从一个FIR地区转移到另一地区，飞机中托管的处理器202(结合图2被描述)根据FIR声学映射中定义的规则切换对话音数据库中的声学模型、语音词典以及语言模型的参考，并且将话音属性自动适配到用于新的FIR地区的话音数据库。可通过ATC命令来发起声学映射转换，所述ATC命令指示飞行员(1)调谐无线电来监听新分配的ATC控制者，例如“N1234联系亚历山大控制129.1”；(2)调谐无线电到待命频率，例如“N1234待命斯蒂芬维尔塔118..8”；或者(3)监听ATIS(自动终端信息服务)广播，例如“N1234监视ATIS 123.250”)。可替代地，当飞机进入新的FIR地区时，话音引擎自动适配并加载或者参考用于该新的FIR地区的话音数据库中的声学模型、语音词典和语言模型(即话音数据库)。当ATC对飞行员讲话时，机载语音引擎解码ATC语音命令，并向飞行员输出音频和文本。以该方式，生成的文本能够被存储，并随后被重新调用，从而降低了飞行员的工作负担。

参照图1，示出了表100，该表图示了由n行(为清楚起见仅示出2行)以及6列组成的FIR声学映射结构，这六列分别表示FIR地区102和关联的唯一的COM频率104、声音模型参考106、语音词典参考108、语言模型参考110以及置信水平112。第一行由FIR地区FIRID1、唯一的COM频率XXX、声学模型参考AM_X1、语音词典参考PD_X1、语言模型参考LM_X1以及置信水平92％填充。最后一行由FIR地区FIRID1n、唯一的COM频率YYY、声学模型参考AM_Xn、语音词典参考PD_Xn、语言模型参考LM_Xn以及置信水平93％填充。

对于每个被包括的FIR地区，训练系统监听针对每个FIR地区的ATC语音样本(实时的或者记录的)，并创建资料库。这被转换为用于每个FIR地区的声学模型。图1中示出的该类声学映射随后被创建。重复这些步骤，直到达到期望的置信水平。

图2是一种航空电子通信系统的框图，该系统图示了包括自适应语音识别系统的话音引擎，该语音识别系统基于飞机所处的地区而自动改变声学模型、语音词典以及语言模型。如能够看到的，通信(COM)无线电200经由其第一输入接收并响应飞行员对活动或待命通信频率的调谐，以及在其第二输入处接收从ATC馈送的语音。ATC语音馈送还被提供到处理器202的第一输入，处理器202对接收的语音执行自适应语音识别处理。处理器202还在其第二输入处接收位置数据，并在其第三输入处从无线电200接收频率信息(活动/待命频率)。上文描述的话音数据库204和FIR数据库206分别被耦合到处理器202的第四和第五输入。处理器202的输出被耦合到驾驶舱显示器208，其将ATC语音命令显示为文本。从无线电200馈送的语音被提供至音频切换和放大器210的输入，其继而提供音频输出。

处理器202可采用设计来执行本文描述的功能的通用处理器、内容可寻址存储器、数字信号处理器、专用集成电路、现场可编程门阵列、任何合适的可编程逻辑器件、分立门或晶体管逻辑、分立硬件组件或任意的组合来实施或实现。处理器设备可实现为微处理器、控制器、微控制器或状态机。此外，处理器设备可实现为计算设备的组合，例如数字信号处理器和微处理器的组合、多个微处理器、结合数字信号处理器核心的一个或多个微处理器，或者任何其他此类配置。

存储器212可实现为RAM存储器、闪速存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除盘、CD-ROM或本领域已知的任何其他形式的存储介质。在这方面，存储器212能够被耦合到处理器202，使得处理器202能够读取来自存储器212的信息，并向存储器212写入信息。在替代中，存储器212可以与处理器202相整合。作为示例，处理器202和存储器212可驻留在一ASIC中。实践中，可使用存储器212中维持的程序代码来实现系统的功能或逻辑模块/组件。例如，系统的组件可具有存储在存储器212中的相关联软件程序组件。

在示例性实施例中，显示元件206被实现为电子显示器，其被配置为图形化显示与主飞机的操作相关联的飞行信息或其他数据。实践中，处理器202产生图像渲染显示命令，该命令被显示元件206接收以用于渲染显示的目的。显示元件208通常位于主飞机的驾驶舱内。将意识到，虽然图2示出单个显示元件208，但实践中，主飞机上可以存在附加的显示设备。

图3是图示适于与图2中示出的飞行甲板显示器以及通信系统一起使用的过程300的示例性实施例的流程图。过程300表示用于识别话音的方法的一种实现，该方法通过根据飞机当前所处的特定地理地区来改变话音识别所基于的声学模型来识别话音。可通过软件、硬件、固件或其任意组合来执行与过程300结合执行的各种任务。为了说明的目的，过程300的以下描述可以涉及上面与图3结介提及的元件。实践中，可由所描述的系统的不同元件(例如处理器、显示元件或数据通信组件)执行过程300的各部分。应当意识到，过程300可包括任何数量的附加或替代任务，图3中所示的任务不需要按照图示的顺序执行，并且过程300可被合并到具有本文未详细描述的附加功能性的更综合的过程或处理中。此外，图3中所示的一个或多个任务可以从过程300的实施例中省略，只要意图的整体功能性保持完整即可。

现在参照图3，在功率被施加后(步骤302)，初始化自适应语音识别系统(步骤304)。这包括接收目前位置数据(306)以及目前FIR数据(308)。初始化话音数据库(310)中的声学映射到飞机的目前位置(即当前FIR地区)(步骤312)，初始化该系统到用于该初始位置的声学模型、语音词典以及语言模型(即数据库)(步骤314)。

两种情况可能引起声学映射确定新的话音数据库。第一，监视活动/待命通信频率(316)以确定是否已经发生频率变化(步骤318)。如果已经发生变化，则声学映射被参考以适配在话音数据库310中的新的话音数据库(步骤320)。第二，在步骤322中，监视飞机位置(306)，并检测FIR转移。这种情况下，声学映射是否参考以适配来提取与新的FIR地区相关联的细节(步骤324)。在任一情况下，取得新的参数(步骤326)，采用该新的参数来进行话音识别(步骤328)。随后，话音可以被提供到音频输出(步骤330)和/或被显示(步骤332)。

因此，已经提供了适合结合飞行甲板显示系统使用的系统和方法，其中根据飞机当前所处的特定地理地区来改变话音识别所基于的声学模型来识别话音。

尽管在前面的详细描述中已经给出了至少一个示例性实施例，但是应当意识到，存在大量变型。还应当意识到，本文描述的示例性实施例或多个实施例并不意图以任何方式限制所要求保护的主题的范围、适用性或配置。相反，前面的详细描述将为本领域技术人员提供用于实现所描述的实施例或多个实施例的方便路线图。应当理解，在不脱离权利要求限定的范围的情况下，能够在元件的功能和配置方面做出各种改变，权利要求限定的范围包括递交本专利申请时已知的等价物或可预见的等价物。

Claims

1.一种在飞机上的话音识别系统中识别话音的方法，所述方法补偿由至少第一和第二独特的地理地区组成的区域上的不同地区方言，所述方法包括：

使用代表第一独特地理地区中话音的话音数据特性来分析第一独特地理地区中的话音；

检测从第一独特地理地区到第二地理地区的位置变化；以及

在检测到飞机已经从第一独特地理地区转移到第二独特地理地区时，使用代表第二独特地理地区中话音的话音数据特性来分析第二独特地理地区中的话音。

2.根据权利要求1所述的方法，其中每个独特地理地区用唯一的飞机通信频率来表征，并且进一步包括：

监视所述飞机通信频率；

当飞机从第一独特地理地区转移到第二独特地理地区时，检测新的通信频率；以及

使用代表第二独特地理地区中话音的话音数据特性来分析第二独特地理地区中的话音。

3.根据权利要求2所述的方法，其中所述飞机通信频率为活动频率和待命频率之一。

4.根据权利要求3所述的方法，进一步包括监视来自空中交通控制的语音馈送。

5.根据权利要求4所述的方法，进一步包括在驾驶舱显示器上显示空中交通控制文本。

6.根据权利要求1所述的方法，其中第一独特地理地区对应于飞机的初始位置。

7.根据权利要求5所述的方法，其中所选择的用于地区的话音数据库是用于该地区的具有最大精度的话音数据库。

8.根据权利要求7所述的方法，进一步包括用初始位置数据和初始FIR数据来初始化所述话音识别系统。

9.根据权利要求1所述的方法，进一步包括：

监听空中交通控制样本；

构建用于每个独特地理地区的话音数据库；以及

选择提供最大精度的话音数据库。

10.根据权利要求9所述的方法，其中话音数据库是针对对应于活动通信频率与待命通信频率之一的FIR而选择的。