CN104008750B

CN104008750B - 用于校正口音引起的语音传输问题的系统和方法

Info

Publication number: CN104008750B
Application number: CN201410063725.5A
Authority: CN
Inventors: J.努塔罗; R.E.德默斯
Original assignee: Honeywell International Inc
Current assignee: Honeywell International Inc
Priority date: 2013-02-26
Filing date: 2014-02-25
Publication date: 2020-05-05
Anticipated expiration: 2034-02-25
Also published as: CN104008750A; EP2770501B1; US20140244246A1; US9135916B2; EP2770501A1

Abstract

提供了用于检测在语音传输系统中的错误的系统和方法。第一音频流由多个词组成，对其执行多个独立的声音到文本转换。如果确定了多个独立的声音到文本转换中的至少一个没有错误，则对所述至少一个没有错误的声音到文本转换执行文本到声音转换，以创建第二音频流。

Description

用于校正口音引起的语音传输问题的系统和方法

技术领域

本文中公开的实施例一般涉及口头通信的处理，并且更特别地，涉及用于在空对地、地对空和空对空通信中减小口音引起的异常的语音传输系统。

背景技术

公知的是，人类语音日益用作输入数据以及命令和其它信息，以便用电子仪器指挥事务、发送并接收信息以及提供命令和控制。考虑以上情况，也已知的是，航空公司和航空电子工业在各方经常必须用不是一方的主要语言或本国语言的语言进行口头通信的全球环境中运营。通信的准确性取决于说话者中的每一个说话者有多清晰发音他或她已经说的词中的每一个词，其可取决于例如在说话者用非本国语言说话时，他或她是否带有口音说话以及到什么程度。如果说话者的口音是严重的，则例如在邻近的飞机、空中交通管制（ATC）与着陆或离开的飞机等等之间的通信可能是成问题的。实际上，大约百分之六十五的在国际间飞行的飞行员报告了由于空中交通管制员在说英语时的口音而导致的与空中交通管制通信的困难。

该问题在许多国家中的管制员之中普遍存在，尽管百分之七十五的通信员使用ICAO（国际民航组织）的标准用语。因此，翻译不是问题。相反，问题与口音、音调、发音和位率相关联。这样的通信问题削弱了飞行员理解并遵循指令的能力，要求显著更多的努力和专心。

一个解决方案涉及使用声音到文本应用，继之以文本到声音应用；然而，即使在结合受限的词汇表（诸如用在管制塔/飞机通信中的词汇表）使用时，这样的方法也可能导致不准确。

鉴于前面的内容，会期望的是，提供用于在要求高度的准确性的环境中生成、发射并接收基本上无错误的通信的系统和方法。

发明内容

提供了该概要以便以简化的形式引入下面在详细的描述中进一步描述的概念的选定。该概要不意在识别所要求保护的主题的关键或必要特征，或者它也不意在用作帮助确定所要求主题的范围。

根据实施例，提供了一种用于检测在语音传输系统中的错误的方法。接收由多个词组成的第一音频流，并且执行对音频的多个独立的声音到文本转换。接下来，确定多个独立的声音到文本转换中的至少一个是否是没有错误的。对至少一个没有错误的声音到文本转换执行文本到声音转换以创建第二音频流。

根据进一步的实施例，提供了一种包括具有多个声音到文本转换器信道的声音到文本转换器系统的语音传输系统，每一个转换器用于接收所说的词的相同的流并将其转换为文本流，并且用错误代码取代对照错误。处理器被配置为（1）选定用于转换到声音的文本流；以及（2）用所说的词取代错误代码；以及提供用于将选定的文本流转换为声音的文本到声音转换器。

根据又进一步的实施例，提供了一种用于发射多个词的方法，包括：在利用第一和第二不同的转换算法的第一和第二声音到文本转换器中分别执行多个词的第一和第二声音到文本转换，以便分别产生第一和第二文本流。未在第一和第二声音到文本转换中认出的词（若有的话）分别用第一和第二错误代码来取代，以分别形成第一和第二文本流。对照第一和第二文本流，并且无法对照的词（若有的话）用第三错误代码来取代以形成第三文本流。错误代码用原始音频来取代。第三文本流被转换为声音，并且与原始音频（若有的话）一起被发射到接收器。

附图说明

可以通过在结合附图考虑时参考详细的描述和权利要求来导出对主题的更完整的理解，其中，相同的参考数字指代遍及附图的相同的元素。

图1是机场、周围的空运交通以及离开和/或到达飞机交通的三维视图；

图2是根据实施例的用于校正语音传输错误的系统的框图；

图3是根据进一步实施例的用于校正语音辨别错误的系统的框图；

图4是图示了根据实施例的可以如何增加系统的完整性的框图；

图5是图示了根据进一步的实施例的可以如何增加系统的完整性的框图；以及

图6是根据实施例的用于校正语音辨别错误的方法的流程图。

具体实施方式

下面详细的描述本质上仅仅是说明性的，并且不意在限制主题或申请的实施例以及这样的实施例的使用。如本文中使用的，词“示例性”意指“用作示例、实例或说明”。本文中如示例性描述的任何实现不必被理解为比其它实现优选或有利的。此外，不存在由前面的技术领域、背景技术、发明内容或下面详细的描述中呈现的任何明示或暗示的理论约束的意图。

在本文中可以根据函数和/或逻辑块组件并参考可以由各种计算组件或装置执行的操作、处理任务和功能的符号表示来描述技巧和技术。这样的操作、任务和功能有时候被称作计算机执行的、计算机化的、软件实现的或者计算机实现的。在实践中，一个或多个处理器装置可以通过操纵表示在系统存储器中的存储器位置处的数据位的电信号以及其它信号处理来执行所描述的操作、任务和功能。维持数据位的存储器位置是具有对应于数据位的特别的电、磁、光或有机属性的物理位置。应当理解的是，附图中示出的各种块组件可以由配置为执行指定的功能的任何数量的硬件、软件和/或固件组件来实行。例如，系统或组件的实施例可以采用各种集成电路组件，例如存储器元件、数字信号处理元件、逻辑元件、查找表等等，其可以在一个或多个微处理器或其它控制装置的控制下执行各种功能。

为了简洁起见，常规的技术涉及飞机数据通信系统，并且特定系统和子系统（以及其个别操作组件）的其它功能方面可能没有在本文中进行详细描述。此外，在本文中包含的各种附图中示出的连接线意在表示在各种元件之间的示例性函数关系和/或物理耦合。应当注意的是，在主题的实施例中可存在许多替换的或附加的函数关系或物理连接。虽然不总是要求，但是此处描述的技巧和技术适合于由任何飞机、地面控制系统或者其它通信系统使用。

图1是机场及其附近的空域的三维视图，所述空域包括空中交通管制（ATC）塔台10、跑道12以及在跑道12上着陆或从跑道12离开的飞机14。如可以看到的，飞机14与ATC塔台10通信，空运飞机16和18也是。飞机16和18也彼此进行通信。图1意在表明可以存在于飞行员、机组成员和交通管制员之间的无数的无线电通信模式。如上面提到的，如果通信的一方或双方都不正确地解释了正在说什么，则可能产生错误和延迟。问题在机场处理密集空中交通所在的拥挤的大城市区域中被加重。

因此，本文中设想提供用于通过至少两个独立的方式（例如，不同的算法）来将语音转换为文本并对照结果的方法和设备。如果一致，可以将文本转换为声音并发射。如果不一致，则来自说话者的原始词将代替无法对照的任何词。进一步设想的是，这将仅很少地出现，并且将不表示主要麻烦。如果对照的失败经常出现，则它可以表示说话者需要更多的训练的标志。又进一步设想的是，可以由任意一方或双方都将所述方法和设备用于会话。

图2是用于减小语音口音并且发射校正后的声音的系统200的功能框图。将说向麦克风202中的许多词提供给声音到文本转换器204，其根据已知的技术将所说的词转换为文本。在每一次循环中处理的词的数量将取决于在声音到文本转换器204中的声音转换器的质量和速度。所设想的是，在每一个循环中可以将三到五个词转换为文本。这表示在计算能力与语音中察觉的滞后之间的折中。此外，根据期望的语音延迟容忍和系统的硬件和软件的计算能力，每一个词循环的长度可以是可调整的。

声音到文本转换器204包含多个声音到文本转换信道，所述信道中的每一个信道接收用于转换的相同的词包。然后，由表决器206分析每一个信道中产生的文本，以便使信道彼此对照，并且确定至文本的转换是否是可接受的。然后，将选定的文本流发送到处理器208，与不适当的词数据库212中的词进行对照。处理器208也包括通信和错误日志210，其对于稍后的分析有用。处理器208也包括标准处理和存储器体系结构214和216。针对没有落入预先定义的词汇表的词，可以筛选文本（暂时忽视错误代码）。即，在要求诸如在飞机与管制塔台之间的通信的高度准确性的应用中，使用定义的词汇表来避免误会。说话者可能使用特定的词来传送身份（例如，如与“小猫（kitten）苹果（apple）五（five）”相反，身份“KA5”应当作为“千（kilo）阿尔法（alpha）五元券（fiver）”来传送）。不适当的词数据库212应当包含词“小猫（kitten）”、“苹果（apple）”和“五（five）”。所设想的是，该数据库将被频繁地更新以提供通常使用的不适当的词的完整列表。在使用不适当的词时，可以将它们存储在存储器中。甚至某人清嗓子的声音可以被包含在不适当的词数据库中并且用静默来取代。如果期望，处理器208可以被配置为用正确的词来取代不适当的词。在其它情况下，不适当的词可以被允许通过，但被记入日志以供随后的回顾。可替换地，处理器208可以被配置为在存储器中存储在核准的词汇表中的所有词的列表。没有在列表中的任何词汇可能被记入日志。

接下来，在下文中结合图3描述针对错误代码检查文本。如果不存在错误的代码，则将文本传给文本到声音转换器218，其通过使用已有的技术将文本转换回语音。选定声音的特性以达到最佳理解（例如，中西部），并且以便在适当的传输媒介（例如，用于无线电的音频频率范围）中进行传输。

然而，如果检测到错误代码，则错误代码由说话者的词的原始保存的数字化音频来取代。这可以通过在由错误代码取代的词串中简单地对词位置进行计数并使其与数字化音频中的相同的词位置相配来完成。在数字化音频中的词之间的零位可以用来对词进行计数并检测适当的词位置。文本到声音转换器218可以被打断，以便用数字化音频的词来取代错误代码，并接着返回以完成至语音的转换。

在适当的接口装置上将最终的语音发送到发射装置220。例如，如果整个语音生成器系统与无线电分开，则在以太网上的数字化音频发射器（例如，无线电收发报机或电话）可以是适当的。可替换地，可以将文本发送到文本到声音转换发生的接收器。

可以在存储器222中用连续不断的日志保存最终的文本，以便提供抄本。可替换地，发送到发射器220的最后的语音可以被存储在语音存储器222中，以便针对来自说话者或收听者的重复最后传输命令224被重新发送。所保存的传输的长度可由例如在循环上的词的数量调整。如果期望，显示器226可以被提供来显示数字化文本，如果数字化文本与语音一起或作为对语音的替换被发射。

应当理解的是，图2中示出的块本质上是功能性的，并且在可应用的情况下，该功能可以由一个或多个专用或通用处理器来执行。

图3是根据进一步的实施例的用于校正口音并发射校正后的语音的系统300的框图。在该实施例中，麦克风302分别耦合至第一和第二语音到文本转换器304和306的输入端。如果词在转换器304或306中都未被认出，将唯一的错误代码插入到取代未被认出的词的文本中。例如，在语音到文本转换器304中，未认出的词可以用错误代码XXXX来取代，而在语音到文本转换器306中未认出的词可以用错误代码YYYY来取代；即，未以足够高的信任级别认出的词。例如，每一个转换器可以提供关于零到100%的正确性比例的辨别，并且低于95%的任何比例可以被认为不可辨别。

声音到文本转换器304的输出（文本1）以及声音到文本转换器306的输出（文本2）在比较器308中进行对照。如果它们相对照，文本1或文本2（文本3）将被传递到检测器320，所述检测器320针对包含在数据库322中的不适当的词搜索文本3。如果词被发现是不适当的，来自数据库的适当的词可以代替块320中的文本词，并且被转送到文本到声音转换器310，所述文本到声音转换器310执行转换并将声音传递到发射器312。可替换地，原始文本词可以被传递，并且不适当的词被记入日志以供稍后的分析。

存在可以将存储在记录器316中的原始所说的词发送到发射器312的情况；例如，如果来自声音到文本转换器304的文本1与来自声音到文本转换器306的文本2无法对照。这可能由在文本1和/或文本2中插入了错误代码，或者正由各自的转换器以高可信度进行识别但却简直无法对照的词所引起。在这种情况下，没有认出的词用错误代码ZZZZ（文本3）来取代，并且被应用于块318，在所述块318中，原始所说的词在从文本到声音转换器310传输之前代替错误代码。以这种方式，原始所说的词在由转换器310供应给发射器312的词流中可以被放置其适当的地方。发射器312的输出端可以耦合至耳机313或其它换能器（例如，扬声器或无线电发射器），并且耦合至记录器314以记录最后的传输并针对请求重复最后的传输。

为了增加系统的完整性，在转换器304和306中的每一个转换器中的转换算法优选是不同的。此外，如图4所示，如果期望，可以提供两个麦克风302和402，第一麦克风302耦合至声音到文本转换器304的输入端，并且第二麦克风402耦合至声音到文本306的输入端。这也会增加系统的完整性。可替换地，如图5所示，除了声音到文本转换器304和306以外，麦克风302可以耦合至附加的声音到文本转换器502的输入端。表决器504接收声音到文本转换器304、306和502的输出，并且首先对照声音到文本转换器304的输出与声音到文本转换器306的输出。如果它们相对照，则转换器304或306的输出被转送。如果不存在对照，则将转换器304的输出与502的输出对照。如果存在对照，则表决器304或502的输出被转送。如果不存在对照，则将转换器306的输出与转换器502的输出对照。如果存在对照，则转换器306或502的输出被转送。如果不存在对照，则如先前描述的，表决器将错误代码ZZZZ基于文本3一起发送。

再次参考图3，声音到文本转换器中的每一个声音到文本转换器被提供有如下进行操作的唯一的错误代码。假定塔台说话者命令：

“501下降飞行高度60”。

转换器304检测到错误并输出：

“501下降XXXX高度60”

并且转换器306没有检测到错误并输出：

“501下降飞行高度60”。

两个输出都被提供给转换器308并且无法对照。所以，转换器308的输出是：

“501下降ZZZZ高度60”。

可替换地，在下一个示例中，转换器304检测到错误并输出：

“501下降XXXX高度60”

并且转换器306检测到错误并输出：

“501下降飞行YYYY 60”。

两者都被提供给转换器308并且无法对照，并且转换器308输出：

“501下降ZZZZ ZZZZ 60”。

在下一个示例中，转换器304和306检测到相同的错误。即转换器304检测到错误并输出：

“501下降XXXX高度60”

并且转换器306检测到错误并输出：

“501下降YYYY高度60”。

这些输出在转换器308中无法对照，并且转换器308输出：

“501下降ZZZZ高度60”。

图6是图示了用于减小语音传输（例如口音）错误的方法600的流程图。在步骤602中，将声音的相同片段转换为产生第一和第二文本信道的文本（步骤604和606）。如果在第一文本信道中的数字化语音的片段中的词不可辨别，或者以其它方式拥有低的可信度级别（步骤608），则该词在文本中用错误代码（例如XXXX）来取代（步骤610）。类似地，如果在第二文本信道中的数字化语音的片段中的词不可辨别，或者以其它方式拥有低的可信度级别（步骤612），则该词在文本中用错误代码（例如YYYY）来取代（步骤614）。在步骤610和614中的错误代码（XXXX、YYYY）的代替之后，如果必要，将从步骤610和614得到的修改后的文本进行对照（步骤616）。如果第一和第二符列中的词相对照，则过程直接进行到步骤624。

如果在该点处，文本1和文本2无法对照（步骤618），将无法对照的文本添加到错误日志中（步骤620），并且该无法对照用不同的错误代码（例如，ZZZZ）来取代（步骤622），以形成文本3。

然而，如果文本1和文本2对照（步骤618），将文本1或文本2选定为文本3（步骤624）。然后，针对不适当的词检查文本3。如果找到不适当的词（步骤626），则将不适当的词记入日志（步骤628），并且如果期望，用适当的词来取代（步骤630）。

如果不存在不适当的词，则针对错误代码审查文本（步骤632）。如果什么都没找到，则该文本被转换为语音（步骤634）、被记入日志（步骤636）且被发射（步骤640）。如果找到了错误代码，则通过用保存的声音取代错误代码来将文本转换为语音（步骤638）。在任意一种情况下，传输语音（步骤640）并开始新的循环（步骤642）。

尽管在本发明的前面详细描述中已经呈现了至少一个示例性实施例，但应当理解的是，存在大量的变化。也应当理解的是，一个或多个示例性实施例仅是示例，并且不意在以任何方式限制本发明的范围、适用性或配置。相反，前面的详细描述将向本领域技术人员提供用于实现本发明的示例性实施例的便利的路线图。正被理解的是，在不脱离如所附权利要求阐述的本发明的范围的情况下可以对示例性实施例中描述的元件的功能和布置做各种改变。

Claims

1.一种用于语音传输系统的方法，所述方法包括：

接收由具有次序的多个词组成的第一音频流；

通过记录所述第一音频流产生数字化音频；

执行所述第一音频流的至少两个独立的声音到文本转换，由此产生所述多个词的第一和第二文本版本；

分别对照所述第一和第二文本版本中的所述多个词的每个词，由此产生：（i）第一组词，包括所述第一和第二文本版本对其而言相同的词，以及（ii）第二组词，包括所述第一和第二文本版本对其而言不同的词；

对所述第一组词执行文本到声音转换；

识别与所述第二组词的词相对应的数字化音频部分；以及

创建第二音频流，所述第二音频流包括（i）经文本到声音转换的所述第一组词，以及（ii）与所述第二组词的词相对应的所述数字化音频部分，使得所述第二音频流中的词具有与所述第一音频流中的所述多个词相同的次序。

2.根据权利要求1所述的方法，进一步包括发射所述第二音频流到接收器。

3.根据权利要求2所述的方法，进一步包括发射对应于所述第二音频流的文本版本到显示器。

4.根据权利要求1所述的方法，进一步包括将所述第一和第二组词中的每个词与不适当词的数据库进行对照。

5.根据权利要求1所述的方法，进一步包括：

用第一错误代码来取代在所述第一文本版本中的不可辨别的词，以产生第一文本流；以及

用第二错误代码来取代在所述第二文本版本中的不可辨别的词，以产生第二文本流。

6.根据权利要求5所述的方法，进一步包括将所述第一文本流和所述第二文本流之一选定为用于至声音转换的第三文本流。

7.根据权利要求5所述的方法，进一步包括：

对照所述第一和第二文本流；以及

如果所述第一和第二文本流相对照，则将所述第一和第二文本流中的预先确定的一个文本流选定为第三文本流。

8.根据权利要求6所述的方法，进一步包括产生所述第三文本流，其具有在对应于所述第一文本流中的所述第一错误代码和所述第二文本流中的所述第二错误代码中的至少一个的位置处的第三错误代码。