CN105261361A

CN105261361A - 用于管理多语音系统环境中的语音识别的方法和系统

Info

Publication number: CN105261361A
Application number: CN201510392770.XA
Authority: CN
Inventors: W.罗杰斯; E.勒苏-戴克; S.怀特洛夫
Original assignee: Honeywell International Inc
Current assignee: Honeywell International Inc
Priority date: 2014-07-08
Filing date: 2015-07-07
Publication date: 2016-01-20
Also published as: EP2966644A2; EP2966644A3; US20160011853A1; US9569174B2

Abstract

本发明涉及用于管理多语音系统环境中的语音识别的方法和系统。提供用于管理在具有至少两个语音使能系统的环境中的语音处理的方法和系统。在一个实施例中，方法包括：记录指示用户的动作的第一用户数据；由处理器基于所记录的用户数据确定对第一语音使能系统的选择；以及由处理器基于第一语音使能系统生成信号以进行激活和解激活语音处理中的至少一个。

Description

用于管理多语音系统环境中的语音识别的方法和系统

技术领域

本公开一般地涉及用于管理语音识别的方法和系统，并且更特别地涉及用于管理在具有多个语音系统的环境中的语音识别的方法和系统。

背景技术

语音识别可以用于与在航空器中的多个系统的交互。在某些情况下，每个系统的语音识别能力可以是不同的。当操作航空器时与多个不同的语音系统进行交互对于空勤组成员来说可以难以指定并且留意他们正在与哪个系统进行交互。

另外，独立的语音系统可以具有单独但重叠的词汇，这可以在空勤人员相信他们正在通过语音命令一个系统但是实际上正在命令另一个系统的情况下导致无意识的输入或者控制动作。如果开发每个系统使得词汇中几乎没有重叠，则可能产生减小的识别率或者无响应系统的风险，这对组成员而言可能是沮丧的或者困惑的。对于具有多个独立语音系统的其他环境而言，这些问题和其他问题可能存在。

因此，存在对用于在多语音系统环境中管理语音输入的系统和方法的需要。根据后续的详细描述和所附的权利要求书，连同附图和前述的技术领域以及背景技术，其他期望的特征和特性将变得清楚。

发明内容

提供了用于在具有至少两个语音使能系统的环境中管理语音处理的方法和系统。在一个实施例中，一种方法包括：记录指示用户的动作的第一用户数据；由处理器基于所记录的用户数据确定对第一语音使能系统的选择；以及由处理器基于第一语音使能系统生成信号以进行激活和解激活（deactivate）语音处理中的至少一个。

在另一实施例中，一种系统包括：记录指示用户的动作的第一用户数据的输入设备；以及处理器。处理器基于所记录的用户数据确定语音使能系统的选择，并且基于语音使能系统生成信号以进行激活和解激活语音处理中的至少一个。

更进一步地，根据后续的详细描述和所附的权利要求书，连同附图和前述的背景技术，方法和系统的其他期望的特征和特性将变得清楚。

附图说明

此后将连同以下的图描述本发明，其中相同的数字表示相同的元素，并且其中：

图1是图示了根据示例性实施例的用于航空器的语音管理系统的功能框图；

图2是图示了根据示例性实施例的语音管理系统的模块的数据流图；以及

图3是图示了根据示例性实施例的可以由语音管理系统执行的语音管理方法的流程图。

具体实施方式

以下的详细描述本质上仅仅是示例性的并且不意图限制本公开或者本公开的应用和用途。如本文中使用的那样，词语“示例性的”意味着“充当示例、实例或者说明”。因此，本文中被描述为“示例性的”任何实施例不一定被解释为相对于其他实施例优选或者有利。本文描述的所有实施例都是示例性实施例，提供所述示例性实施例以使得本领域技术人员能够制造或者使用本发明并且不限制由权利要求书限定的发明的范围。更进一步地，不存在由在前述的技术领域、背景技术、发明内容或者以下具体实施方式中呈现的任何明确的或者暗示的理论进行约束的意图。

根据各种实施例，公开了一种语音管理系统，用于管理来自在具有多个语音使能系统的环境中的用户的语音输入。语音管理系统一般地虑及通过一个或多个输入模态（例如，语音、手势、注视（gaze），等等）对特定的语音使能系统的选择。例如，用户可以简单地说、指向或者看着他或她想要通过语音控制的语音使能系统，并且语音管理识别用户的意图并且激活针对该系统的语音识别。因为建议的输入模态不需要用户触摸预期的系统或者物理地激活系统，所以用户得以解放以执行其他任务。另外，输入模态允许用户与可以在他的或她的可达包络线（reachenvelope）之外的语音使能系统交互。基于所述选择，语音管理系统生成到选择的语音使能系统和/或非选择的语音使能系统的信号。信号通过选择的语音使能系统激活语音识别和/或通过非选择的语音使能系统解激活语音识别。

现在参考图1，本公开的示例性实施例针对一般地以10示出的语音管理系统，其与航空器12相关联。如可以理解的那样，本文描述的语音管理系统10可以被实现在具有与两个或更多语音使能系统16a-16n相关联的机载（onboard）计算设备14的任何航空器12（交通工具或者其他环境）中。在各种实施例中，语音使能系统16a-16n中的每个包括被配置成接收和处理来自组成员或者其他用户的语音输入的语音系统。在各种其他实施例中，语音使能系统16a-16n接收来自针对语音使能系统中的每个执行语音处理的中央语音处理器（未示出）的输入。如可以理解的那样，计算设备14可以被实现为语音使能系统16a中的一个的一部分并且可以与其他语音使能系统16b-16n通信，可以是与语音使能系统16a-16n（如所示出的那样）中的每个通信的独立系统或者可以部分地是语音使能系统16a-16n中的一个或多个的一部分并且可以部分地是独立系统的一部分。

计算设备14可以与显示设备18以及一个或多个输入设备20a-20n相关联，并且可以一般地包括存储器22、一个或多个处理器24以及通信地耦合到显示设备18和一个或多个输入设备20a-20n的一个或多个输入/输出控制器26。输入设备20a-20n包括例如激活开关20a、音频记录设备20b和/或一个或多个音频记录设备20n。

在各种实施例中，存储器22存储可以由处理器24执行的指令。被存储在存储器22中的指令可以包括一个或多个单独的程序，其中的每个包括用于实现逻辑功能的可执行指令的有序列表。在图1的示例中，被存储在存储器中的指令包括操作系统（OS）28和语音管理系统30。

操作系统28控制其他计算机程序的性能并且提供调度、输入-输出控制、文件和数据管理、存储器管理和通信控制以及有关的服务。当计算设备14在操作中时，处理器24被配置成执行被存储在存储器22之内的指令以向和从存储器22传送数据，并且按照指令一般地控制计算设备14的操作。处理器24可以是任何定做的或者商业上可获得的处理器、中央处理器单元（CPU）、在与计算设备14相关联的若干处理器之中的辅助处理器、基于半导体的微处理器（微芯片或者芯片集的形式）、宏处理器或者一般地用于执行指令的任何设备。

处理器24执行本公开的语音管理系统30的指令。语音管理系统30一般地虑及由用户通过一个或多个输入模态（例如，语音、手势、注视等等）对特定的语音使能系统16a-16n的选择。语音管理系统30识别选择并且基于选择激活相应的语音使能系统16a-16n。

在各种实施例中，语音管理系统30连续地监视针对用户发起的选择的输入模态中的一个或多个的数据，和/或语音管理系统30仅在经被经由激活开关20a或者其他输入设备激活之后才监视输入模态中的一个或多个的数据。例如，在将语音用于选择的标识的情况下，语音管理系统30接收来自激活开关16a的激活信号，并且在响应中激活音频记录设备20b用于记录由用户说的命令。命令可以包括第一名称或者指定所选择的语音使能系统16a-16n的其他名称。语音管理系统30处理所记录的音频数据以确定选择的语音使能系统16a。一旦已经选择了语音使能系统16a,语音管理系统30就通过向语音使能系统16a发送激活信号（例如，当每个语音使能系统16a-16n执行语音处理时）或者通过选择与语音使能系统16a相关联的词汇和/或语音处理方法（例如，当集中的语音处理器执行针对所有语音使能系统16a-16n的语音处理时）来激活针对所选择的语音使能系统16a的语音识别。附加地或者替代地，语音管理系统30通过向语音使能系统16b-16n发送解激活信号来解激活针对非选择的语音使能系统的语音识别。

在另一示例中，在将手势用于选择的标识的情况下，语音管理系统30接收来自激活开关16a的激活信号，并且在响应中激活视频记录设备20n（或者其他设备）用于记录由用户执行的手势。手势可以包括由手指、手或者手臂做的任何手势，诸如持续最小量的时间的指（pointing）或者使用手指运动（例如，转动）来指示选择的语音使能系统16a的方向。语音管理系统30处理所记录的视频数据以确定选择的语音使能系统16a。一旦已经选择了语音使能系统16a,语音管理系统30就通过向语音使能系统16a发送激活信号（例如，当每个语音使能系统16a-16n执行语音处理时）或者通过选择与语音使能系统16a相关联的词汇和/或语音处理方法（例如，当集中的语音处理器执行针对所有语音使能系统16a-16n的语音处理时）来激活针对语音使能系统16a的语音识别。附加地或者替代地，语音管理系统30通过向语音使能系统16b-16n发送解激活信号来解激活针对非选择的语音使能系统的语音识别。

在又一示例中，在将注视用于选择的标识的情况下，语音管理系统30接收来自激活开关的激活信号，并且在响应中激活视频记录设备20n（或者其他设备）用于记录用户的注视。用户的眼睛的注视可以指示选择的语音使能系统16a的方向。语音管理系统30处理所记录的视频数据以确定选择的语音使能系统16a。一旦已经选择了语音使能系统16a,语音管理系统30就通过向语音使能系统16a发送激活信号（例如，当每个语音使能系统16a-16n执行语音处理时）或者通过选择与语音使能系统16a相关联的词汇和/或语音处理方法（例如，当集中的语音处理器执行针对所有语音使能系统16a-16n的语音处理时）来激活针对语音使能系统16a的语音识别。附加地或者替代地，语音管理系统30通过向语音使能系统16b-16n发送解激活信号来解激活针对非选择的语音使能系统的语音识别。

现在参考图2并且继续参考图1，数据流图图示了语音管理系统30的各种实施例。根据本公开的语音管理系统30的各种实施例可以包括嵌入在语音管理系统30之内的任何数量的子模块。如可以理解的那样，在图2中示出的子模块可以被组合和/或被进一步划分以管理到语音管理系统30的语音输入。到语音管理系统30的输入可以从其他模块（未示出）接收、由在语音管理系统30之内的其他子模块（未示出）确定/建模，和/或可以是基于经由输入设备16a-16n与用户接口交互的用户的用户输入。在各种实施例中，语音管理系统30包括语音处理模块32、注视处理模块34和手势处理模块36（或者依赖输入模态数量的任何其他处理模块）中的至少一个、系统激活模块31以及语音系统激活/解激活模块38。

系统激活模块31接收作为输入的用户输入数据40。可以基于与诸如例如激活开关20a或其他设备的输入设备交互的用户而接收用户输入数据40。系统激活模块31处理用户输入数据40以确定用户输入数据是否指示激活语音使能系统16a-16n的选择的用户请求。如果用户输入数据40不指示激活语音系统选择，则可选地，系统激活模块31可以生成包括消息的显示数据42，所述消息可以被显示在接口中，其指示输入未被识别。如果用户输入数据40指示激活语音系统选择，则系统激活模块31将激活标志44设置为真（TRUE）（或者指示以激活语音系统选择的其他值）。

语音处理模块32例如接收作为输入的激活标志44。当激活标志44等于真（或者指示以激活语音系统选择的其他值）时，语音处理模块44向记录设备20b发送信号46来激活音频记录。作为回答，语音处理模块32接收所记录的语音数据48。语音处理模块32处理记录的语音数据48以确定所说的命令。可以基于标识航空器12的语音使能系统16a-16n的所识别的命令的集合以及本领域中所知的语音处理技术来执行处理。如果语音处理模块32不能够根据所记录的语音数据48识别所说的命令，则可选地，语音处理模块32生成包括消息的显示数据50，当消息被显示时指示命令未被识别。如果识别了所说的命令，则语音处理模块32确定在航空器12上的语音使能系统16a-16n的特定的语音使能系统16a，并且将选择的语音系统52设置为特定的语音使能系统。

注视处理模块34接收作为输入的激活标志44。当激活标志44等于真（或者指示以激活语音系统选择的其他值）时，注视处理模块34向记录设备20n发送信号54来激活视频记录。作为回答，注视处理模块34接收所记录的注视数据56。注视处理模块34处理所记录的注视数据56以确定注视方向。可以基于本领域中所知的注视识别技术执行处理。如果注视处理模块34不能够根据所记录的注视数据56识别注视措辞，则可选地，注视处理模块34生成包括消息的显示数据58，当消息被显示时指示注视方向未被标识。如果识别了注视方向，则注视处理模块34确定在航空器12上的语音使能系统16a-16n的特定的语音使能系统16a，并且将选择的语音使能系统60设置为特定的语音使能系统。

手势处理模块36接收作为输入的激活标志44。当激活标志44等于真（或者指示以激活语音系统选择的其他值）时，手势处理模块36向记录设备20n发送信号62来激活视频记录。作为回答，手势处理模块36接收所记录的手势数据64。手势处理模块36处理记录的手势数据64以确定手势方向。可以基于本领域中所知的手势识别技术执行处理。如果手势处理模块36不能够根据所记录的手势数据64识别手势措辞，则可选地，手势处理模块36生成包括消息的显示数据66，当所述消息被显示时指示手势方向未被标识。如果识别了手势方向，则手势处理模块36确定在航空器12上的语音使能系统16a-16n的特定的语音使能系统16a，并且将选择的语音系统68设置为特定的语音使能系统。

语音系统激活/解激活模块38接收作为输入的来自手势处理模块36的选择的语音系统68、来自注视处理模块34的选择的语音系统60和/或来自语音处理模块32的选择的语音系统52。语音系统激活/解激活模块38基于接收的选择的语音系统52、60、68生成激活/解激活信号70。由选择的语音使能系统接收激活/解激活信号70以激活和/或解激活由语音使能系统进行的语音处理，或者替代地，激活/解激活信号70被用于激活和/或解激活由集中的语音处理器使用特定的词汇和/或语音处理技术进行的语音处理。

当从手势处理模块36、注视处理模块34和语音处理模块32中的两个或更多接收选择的语音系统52、60、68时，语音系统激活/解激活模块38基于仲裁（arbitration）方法确定适合的语音使能系统16n-16n以生成激活/解激活信号。例如，如果选择的语音系统52、60、68中的两个或更多是相同的，则基于相同的选择的语音系统生成激活/解激活信号70。如果选择的语音系统52、60、68中的两个或更多是不同的，则选择与具有最高优先级的处理技术相关联的选择的语音系统。替代地，语音系统激活/解激活模块38可以生成包括指示不同的选择的语音使能系统52、60、68的消息的显示数据72以及挑选不同的选择的语音系统52、60、68中的一个的请求。作为回答，可以接收指示不同的选择的语音系统52、60、68中的所选择的一个的用户输入数据74，并且语音系统激活/解激活模块38基于所选择的一个生成激活/解激活信号70。

现在参考图3并且继续参考图1和2，流程图图示了根据本公开的可以由语音管理系统30执行的方法。如按照本公开可以理解的那样，在方法之内的操作的次序不限于如在图3中图示的顺序执行，但是可以如适用的那样并且根据本公开以一个或多个变化的次序执行。

在各种实施例中，可以基于预先确定的事件调度方法来运行和/或可以在航空器12的计算设备14的操作期间连续地运行所述方法。

方法可以在100处开始。在110处确定是否接收用户输入数据40。可以基于用户选择诸如例如激活开关20a或其他设备的输入设备接收用户输入数据40。在110处如果没有接收用户输入数据40，则在110处方法继续针对用户输入数据40进行监视。然而，如果在110处接收了用户输入数据40，则在120处处理用户输入数据40并且在130处评估用户输入数据40。如果在130处用户输入数据不指示以激活语音识别，则可选地，可以在140处显示指示未识别输入的消息，并且110处方法继续针对用户输入数据40进行监视。

然而，如果在130处用户输入数据40指示以激活语音识别，则在150处激活输入设备16b、16n以开始记录用户的语音、手势和/或注视。在160处如果记录的输入是语音输入，则基于语音识别方法在170处处理记录的语音数据48以确定语音命令。在180处根据语音命令确定选择的语音系统52。基于选择的语音系统52在190处生成激活/解激活信号70并且将其传送到适合的语音系统16a-16n。此后，在200处方法可以结束。

然而，在160处如果记录的数据相反不是语音数据，在210处记录的数据是注视数据56，则基于注视识别方法在220处处理记录的注视数据56以确定用户的注视的方向。在230处根据用户的注视的方向确定选择的语音系统60。基于选择的语音系统60在190处生成激活/解激活信号70并且将其传送到适合的语音系统16a-16n。此后，在200处方法可以结束。

然而，在160处如果记录的数据不是语音数据，并且在240处记录的数据不是手势数据，而是，在210处记录的数据是记录的手势数据64，则基于手势识别方法在250处处理记录的手势数据64以确定用户的手势的方向。在260处根据用户的手势的方向确定选择的语音系统68。基于选择的语音系统68在190处生成激活/解激活信号70并且将其传送到适合的语音系统16a-16n。此后，在200处方法可以结束。

在图3中示出的方法图示了处理语音数据、注视数据和手势数据中的一个以确定选择的语音系统。如可以理解的那样，可以处理语音数据、注视数据和手势数据中的两个或更多以确定选择的语音系统。例如，如果两个或更多输入指示相同的语音系统，则该语音系统是选择的语音系统。在另一示例中，如果一个输入指示第一语音系统并且另一输入指示第二语音系统，则可以显示指示差异（discrepancy）的消息。

本领域的技术人员将理解，连同本文公开的实施例描述的各种说明性的逻辑块、模块和算法步骤可以被实现为电子硬件、计算机软件或者两者的组合。上文按照功能和/或逻辑块部件（或模块）以及各种处理步骤描述了实施例和实施中的某些。然而，应理解，这样的块部件（或模块）可以由被配置成执行指定功能的任何数量的硬件、软件和/或固件部件实现。为了清楚地说明硬件和软件的该可交换性，上文已经按照它们的功能一般地描述了各种说明性部件、块、模块、电路和步骤。这样的功能是被实现为硬件还是软件取决于被施加在整个系统上的特定应用和设计约束。本领域技术人员可以针对每个特定的应用以变化的方式实现所描述的功能，但这样的实施决定不应被解释为引起从本发明的范围背离。例如，系统或者部件的实施例可以采用各种集成电路部件，例如存储器元件、数字信号处理元件、逻辑元件、查找表等等，其可以在一个或多个微处理器或者其他控制设备的控制下执行各种功能。另外，本领域技术人员将理解，本文描述的实施例仅是示例性实施。

可以用通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程的逻辑器件、分立门或者晶体管逻辑、分立硬件部件或者被设计以执行本文描述的方法的它们的任何组合来实现或者执行连同本文公开的实施例描述的各种说明性逻辑块、模块和电路。通用处理器可以是微处理器，但是在替代方案中，处理器可以是任何常规的处理器、控制器、微控制器或者状态机。处理器也可以被实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、一个或多个微处理器连同DSP核，或者任何其他这样的配置。

连同本文公开的实施例描述的方法或算法的步骤可以被直接地实现在硬件中、在由处理器执行的软件模块中或者在两者的组合中。软件模块可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM或者本领域中所知的任何其他形式的存储介质中。示例性的存储介质耦合到处理器，使得处理器可以从存储介质读信息并且向存储介质写信息。在替代方案中，存储介质可以对处理器不可或缺（beintegralto）。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在替代方案中，处理器和存储介质可以作为分立部件驻留在用户终端中。

在该文档中，诸如第一和第二等等的关系术语可以被单独地用于区分一个实体或动作与另一实体或动作，而未必要求或者暗示在这样的实体或者动作之间的任何实际的这样的关系或次序。诸如“第一”、“第二”、“第三”等等之类的数值序数仅表示多个中的不同的单个，并且不暗示任何次序或顺序，除非由权利要求语言具体地限定。在任何权利要求中的文本的顺序不暗示必须以根据这样的顺序的时间或逻辑次序执行处理步骤，除非由权利要求语言具体地限定。可以以任何次序交换处理步骤而不背离本发明的范围，只要这样的交换不与权利要求语言矛盾并且不是逻辑上无意义的。

虽然已经在本发明的上述详细描述中呈现了至少一个示例性实施例，但是应理解存在大量的变型。还应理解一个或多个示例性实施例只是示例，并且不意图以任何方式限制本发明的范围、可应用性或者配置。相反地，上述详细描述将为本领域技术人员提供用于实现本发明的示例性实施例的方便的路线图。应理解，可以在示例性实施例中描述的元件的功能和布置中做出各种改变而不背离如在所附权利要求书中记载的本发明的范围。

Claims

1.一种在具有至少两个语音使能系统的环境中管理语音处理的方法，包括：

　　记录指示用户的动作的第一用户数据；

　　由处理器基于记录的用户数据确定对第一语音使能系统的选择；以及

　　由处理器基于第一语音使能系统生成信号以进行激活和解激活语音处理中的至少一个。

2.如权利要求1所述的方法，其中用户的动作包括用户的手势。

3.如权利要求1所述的方法，其中用户的动作包括用户的注视。

4.如权利要求1所述的方法，其中用户的动作包括来自用户的所说的命令。

5.如权利要求1所述的方法，其中信号激活第一语音使能系统的语音处理。

6.如权利要求1所述的方法，其中信号激活使用与第一语音使能系统相关联的词汇和语音处理技术中的至少一个的集中的语音的处理器的语音处理。

7.如权利要求1所述的方法，进一步包括记录指示用户的第二动作的第二用户数据，并且其中确定对第一语音使能系统的选择基于第一记录的用户数据和第二记录的用户数据。

8.如权利要求1所述的方法，进一步包括接收指示激活记录的用户输入数据，并且其中基于用户输入数据执行记录。

9.如权利要求1所述的方法，其中连续地执行记录。

10.一种在具有至少两个语音使能系统的环境中管理语音处理的系统，包括：

　　输入设备，其记录指示用户的动作的第一用户数据；以及

　　处理器，其基于所记录的用户数据确定第一语音使能系统的选择，并且基于第一语音使能系统生成信号以进行激活和解激活语音处理中的至少一个。