CN105229727A

CN105229727A - 分布式语音识别系统

Info

Publication number: CN105229727A
Application number: CN201480012314.1A
Authority: CN
Inventors: 奥加斯·阿肖克·巴帕特
Original assignee: Cypress Semiconductor Corp
Current assignee: Cypress Semiconductor Corp
Priority date: 2013-01-08
Filing date: 2014-01-07
Publication date: 2016-01-06
Also published as: DE112014000373T5; WO2014110041A1; US20140195233A1

Abstract

本发明的实施方案包含用于声音命令的语音识别的装置、方法和系统。所述方法可以包含接收表示语音命令的数据、基于系统内的每一个目标的状态信息生成目标列表、以及基于声音命令从目标列表中选择目标。

Description

分布式语音识别系统

背景

技术领域

本发明的实施方案大致涉及语音识别。更具体地是，本发明的实施方案涉及在预期的目标设备上执行声音命令。利用自动语音识别通过口述命令控制或操作独立的目标设备可被用于办公自动化、家庭环境或其它领域。

背景技术

随着计算设备的处理能力的不断增长和计算系统的尺寸的不断降低，语音识别被越来越多地用于在家庭或办公室控制设备。最初，只有计算机可以识别口述命令。但是现在，仅举几个设备的例子，有手机、电视、录像机、灯和安全系统等模型也允许用户使用声音命令控制它们。

为了更精确地识别声音命令，这些设备中的多数设备使用简化的语言模型。这些设备中的每一个也需要同时包含确定何时其他语音并不意味着命令的能力和区分对自己的命令与对其它设备的命令的能力。例如，每一个设备需要过滤发生在设备附近的解译性对话以及用于其他设备的声音命令。因此，语音识别可能是处理器的密集处理过程。

另外，这些声音识别系统还必须解析与用户所处的环境相关的其他问题。这些问题可以包含回声、混响和环境噪声。这些问题可以是环境或房间相关的。例如，在繁忙房间内的环境噪声将不同于相对安静的房间内的环境噪声，而大型会议室内的回声将不同于较小的办公室的回声。

发明概述

因此，需要将处理器密集处理的普通语音识别算法的负载分流到中央处理环境，同时也允许通过环境内的分布式系统解决关于表示声音命令的数据的一些特定于环境的处理的灵活性。

因此，实施方案包含用于在预期的目标上执行的声音命令的语音识别的方法。该方法可以包含接收表示声音命令的数据、基于每一个目标的状态信息生成目标列表和基于声音命令从目标列表中选择目标。

另一个实施方案包含用于声音命令的语音识别的装置。该装置可以包括数据接收模块、列表生成模块和目标选择模块。数据接收模块可以被配置为接收表示声音命令的数据。列表生成模块可以被配置为基于目标的状态生成可能的目标的列表。目标选择模块可以被配置为基于可能的目标列表和声音命令选择预期的目标。

本发明的更多特征和优点，以及本发明的各种实施方案的结构和操作，将参考附图在下面进行详细描述。应注意，本发明不局限于本文描述的特定的实施方案。本文提出的这些实施方案仅用于阐述的目的。基于本文含有的教导，更多的实施方案对相关领域技术人员将是明显的。

附图简述

并入本文并形成说明书的一部分的附图阐述了一些实施方案，并且与描述结合更有助于解释本发明的原理和使相关领域技术人员能够制造和使用本发明。

图1是在其中可以实施实施方案的示例性通信系统的图示。

图2是在其中可以实施实施方案的示例性环境的图示。

图3是依据本发明的实施方案解码声音指令的方法的图示。

图4是依据本发明的实施方案的用于解码声音指令的目标选择的方法的图示。

图5是计算机系统示例的图示，本发明的实施方案或其一部分可以作为计算机可读代码在该计算机系统中实施。

发明详述

以下的详细描述参考了示出了依据本发明的示例性实施方案的附图。其他实施方案是可能的，并且可以在本发明的精神和范围内对实施方案进行修改。因此，详细的描述并不局限于本发明的范围。相反，所要求保护的主题的范围由所附的权利要求限定。

以下描述的本发明可以在很多不同的软件、硬件、固件和/或图中阐述的实体的实施方案中实施，这对相关领域技术人员是明显的。因此，本发明的实施方案的可操作的表现将基于对本发明的实施方案的可能的修改和变化的理解进行描述，本文的描述提供了给定的详细程度。

该说明书公开了包含本发明的特征的一个或多个系统。所公开的系统仅作为本发明的示例。本发明的范围并不局限于所公开的系统。本发明由本文所附的权利要求限定。

所描述的系统，以及在说明书中引用的“一个系统”、“系统”、“示例性系统”等，表明所描述的系统可能包含特殊的特征、结构或特性，但是每一个实施方案可能不必包含该特殊的特征、结构或特性。另外，这些短语不必指同一个系统。另外，当特殊的特征、结构或特性与系统结合进行描述时，应理解无论是否明确描述，所述描述均落入相关领域技术人员结合其他实施方案实现这些特征、结构或特性的知识范围内。

出于示例的目的，嵌入式搜索算法被用于以下装置、系统和方法的描述。相关领域普通技术人员将认识到这些仅仅是示例以及本发明在其他多个背景中是可用的。

1.启动器/目标通信系统

图1是在其中可以实施本文描述的实施方案的示例性通信系统100的图示。通信系统100包含通过网络112可通信地耦合至中央调度单元106的启动器102₁-102₅和目标110₁-110₄。传感器108和执行器104也通过网络112可通信地耦合至中央调度单元106。

启动器102₁-102₅可以是，例如但不限于，麦克风、移动电话、其他相似类型的电子设备、或其组合。

目标110₁-110₄可以是，例如但不限于，电视、收音机、烤箱、HVAC单元、微波炉、洗衣机、烘干机、洗碗机、其他相似类型的家用和商用设备或其组合。

中央调度单元106可以是，例如但不限于，电信服务器、网络服务器或其他相似类型的数据库服务器。在实施方案中，中央调度单元106可以具有多个处理器和多个共享的或单独的存储器组件，诸如，例如但不限于，包含在集群计算环境和服务器群中的一个或多个计算设备。由集群计算环境或服务器群执行的计算过程可以跨放置在相同位置或不同位置的多个处理器实现。在实施方案中，中央调度单元106可以在单一计算设备上实施。计算设备的实例包含，但不限于，中央处理单元、专用集成电路、现场可编程门阵列或具有至少一个处理单元和存储器的其他类型的计算设备。

传感器108可以是，例如但不限于，温度传感器、光传感器、运动传感器或其他相似类型的传感器设备或其组合。

执行器104可以是，例如但不限于，开关、移动设备、可以改变目标状态的其他相似的物体或其组合。

另外，网络112可以是，例如但不限于，可通信地将启动器102₁-102₅、目标110₁-110₄、传感器108、以及执行器104耦合至中央调度单元106的有线的(如以太网)或无线的(如Wi-Fi和3G)网络或其组合。

在实施方案中，通信系统100可以是家用网络系统(如3G和4G移动通信系统)。用户和环境(如通过图1中的启动器102₁-102₅和传感器108)可以改变(如通过图1中的执行器104)设备(如图1中的目标110₁-110₄)的状态。这可以使用移动通信网络(如图1中的网络112)和家用网络服务器(如图1中的中央调度单元106)完成。

在实施方案中，通信系统100可以从所接收的数据中去除一个或多个环境条件。例如，它可以从数据中消除噪声，诸如背景或环境噪声；消除回声；从数据中去除混响或其组合。在实施方案中，环境条件的去除可以由启动器102₁-102₅、中央调度单元106、网络112中的其它设备或其组合完成。

2.示例性家用环境

图2是可以实施本文的实施方案的示例性家用环境200的图示。家用环境200包含启动器区域202₁-202₁₂，每一个启动器区域都可以与一个或多个启动器102有关。每一个启动器区域202₁-202₁₂表示一个或多个启动器102可以从中接收输入的区域。

如图2所示，启动器区域202₁-202₁₂可以覆盖住宅中的大部分区域，但是不需要覆盖整个住宅。并且，如图2所示，启动器区域202₁-202₁₂可以重叠。

以下对于图3和4的描述基于家用/办公环境，类似于家用环境200。基于本文的描述，相关领域的普通技术人员将认识到本文公开的实施方案可以用于其他类型的环境，例如但不限于，飞机场、火车站以及杂货店等。这些其他类型的环境落入本文描述的实施方案的精神和范围内。

3.声音命令执行过程

为使用户更简单有效地在其家中或办公室使用设备，例如，图3中的流程图300阐述了使用截断的语言模型确定声音命令和在预期目标上执行命令的过程的实施方案。

如图3所示，在步骤302中，本发明的实施方案通过如图1中的一个或多个启动器102₁-102₅接收表示声音命令的数据。

在步骤304中，基于传感器信息、状态信息、启动器的位置、其它信息或其组合，本发明的实施方案可以生成可能的目标列表。例如，如果传感器显示外部温度是30华氏度，则可能的目标列表可以包含加热器，或如果光传感器显示是晚上，则可能的目标列表可以包含灯。在另一个实施例中，如果电视和收音机是打开的(即具有“开”的状态)，则可能的目标列表可以包含电视和收音机，因为声音命令可能针对这些目标。在又一个实施例中，如果与特殊房间(如启动器区域202₁-202₁₂)相关的启动器处理声音命令，则与特殊房间相关的目标可以被包含在可能的目标列表中。

在步骤306中，基于用于环境中的目标的可能的命令，实施方案可以创建语言模型。例如，在图2中的家用环境200中，可能有电视、HVAC、灯和烤箱，因此，在语言模型中将包含用于电视、HVAC、灯和烤箱(如“调大音量”、“降低温度”、“调暗灯光”以及“预热烤箱”)的命令。在接收到可能的目标列表后，实施方案可以截断语言模型以去除不适用的命令。例如，如果来自步骤304的可能目标列表不包含灯，则诸如“开灯”和“关灯”的命令可以从语言模型中被删除或被去除。

在实施方案中，可能的目标的状态信息也可能用于截断语言模型。例如，可能的目标列表可能包含电视。状态信息可能显示电视现在是关闭的(即“关”状态)。在这个实例中，诸如“将频道切换到频道10”或“调大音量”等与电视处于“开”状态有关的命令将从语言模型中被删除，因为这些命令不适用目标的状态。然而，诸如“打开电视”等与电视处于“关”状态有关的命令可能被保留，因为这些命令适用目标的当前状态。

在步骤308中，基于所截断的语言模型，实施方案可以解码声音命令。例如，如果电视当前是关闭的，则与电视处于“关”状态有关的命令(如命令“打开电视”)被用于解码声音命令。由于使用了更小的语言模型，基于所截断的语言模型解码声音命令的益处，包括更快地处理声音命令和正确处理声音命令的更高的准确性等。

在步骤310中，基于声音命令，实施方案可以从可能的目标列表中选择目标。在实施方案中，可能的目标列表可以包含单一目标(或“所选择的目标”)且流程图300进行到步骤312。例如，如果声音命令数据是“打开电视”或“将电视切换到频道12”且目标列表包含电视、HVAC单元、收音机和台灯，由于目标在声音命令数据中被识别出，所以可以确定命令的意图是在电视上执行。

在其它实施方案中，目标列表可以包含两个或多于两个目标。例如，声音命令诸如，举例来说，“打开”、“切换频道”和“降低音量”可以应用于电视和收音机。在实施方案中，步骤310将可能的目标列表减少至单一目标(或“所选择的目标”)。图4中的流程图400阐述了选择单一目标的过程的实施方案。

在步骤402中，如果多于一个目标被选择，则实施方案可以继续至步骤404以澄清哪个目标是预期的。例如，如果声音命令是“调大音量”且目标列表包含电视和收音机，则实施方案可以继续至步骤404。

在步骤404中，实施方案可以使用一个或多个判定准则以确定可能的目标列表中的哪个目标是预期的目标。在一个实施例中，实施方案可以请求用户澄清是电视还是收音机是预期的目标。在另一个实施例中，如果声音命令是“调大音量”且如果电视是打开的(即“开”状态)而收音机是关闭的(即“关”状态)，则实施方案可以将电视作为所选择的目标返回给步骤312以在电视上执行“调大音量”。

当相同或类似的情况发生时，实施方案可以从过去的事件中学习以确定哪个目标是预期目标。在实施方案中，系统可以学习如何基于一个或多个过去的选择在目标之间进行选择。例如，用户可能在一个房间里布置了两盏灯。在过去，用户可能说过“开灯”并且系统可能已经请求过关于是哪盏灯的澄清。基于用户过去的澄清，系统可能获知打开其中一盏灯。

在另一个实施方案中，系统还可以学习基于用户的位置做出选择或限制可能的目标列表。例如，如果用户在没有电视的厨房，且说了“打开电视”，则系统可能最初需要用户是指起居室的电视还是卧室中的电视的相关澄清。基于用户的位置，如果用户从厨房做出请求，则系统可能获知是将打开起居室的电视。

参考图3中的流程图300，在步骤312中，实施方案可以在所选择的目标上执行声音命令。实施方案可以使用执行器改变不同目标的状态。执行器可以被放置在目标内，如放置在电视的电源开关和音量控制器中、远离目标(如在顶灯的灯开关中)，或在集中的区域中(如在家庭娱乐服务器或移动设备中)。

基于本文的描述，相关领域的普通技术人员将认识到图3所示的步骤302-312可以在一个或多个处理模块上执行。在实施方案中，这些处理模块包含数据接收模块、列表生成模块、语言截断模块、声音解码器、目标生成模块和任务执行模块以分别执行步骤302、304、306、308、310和312。这些处理模块可以被集成在计算机系统中，诸如，举例来说，被集成在图5中的计算机系统500中(下面将详细描述)。另外，参考图1中的通信系统100，数据接收模块、列表生成模块、声音解码器、目标生成模块和任务执行模块可以被集成在启动器102、中央调度单元106、执行器104或其组合中。

4.示例性计算机系统

本发明的各个方面可以在软件、固件、硬件或其组合中实施。图5是示例性计算机系统500的图示，在该计算机系统中本发明的实施方案或其部分可以作为计算机可读代码被实施。例如，图3中的流程图300所示的方法和图4中的流程图400所示的方法可以在系统500中实施。本发明的各种实施方案依据该示例计算机系统500描述。在阅读此描述后，如何使用其他计算机系统和/或计算机架构来实施本发明的实施方案对相关领域技术人员将是明显的。

应该注意到本发明的各种实施方案的仿真、综合和/或生产可以部分通过使用计算机可读代码完成，计算机可读代码包含通用编程语言(如C或C++)、硬件描述语言(HDL)如，举例来说，VerilogHDL、VHDL、AlteraHDL(AHDL)或其他可获得的编程和/或原理图捕捉工具(如电路捕捉工具)。该计算机可读代码可以在包括半导体、磁盘、光盘(如CD-ROM、DVD-ROM)的任何计算机可用介质上被处理。因此，代码可以通过包括因特网的通信网络传输。应理解由系统完成的功能和/或提供的结构以及上述的技术可以在存储器中表示。

计算机系统500包含一个或多个处理器，例如处理器504。处理器504可能是专用或通用处理器。处理器504被连接到通信基础架构506(如总线或网络)。

计算机系统500还包含主存储器508，优选地是随机存取存储器(RAM)，并且还可能包含次存储器510。次存储器510可以包括，举例来说，硬盘驱动512、可移动存储驱动514和/或记忆棒。可移动存储驱动514可以包括软盘驱动、磁带驱动、光盘驱动、闪速存储器或类似驱动。可移动存储驱动514以众所周知的方式读取和/或写入可移动存储单元518。可移动存储单元518可以包括由可移动存储驱动514读取和写入的软盘、磁带、光盘等。如相关领域技术人员将认识到，可移动存储单元518包含其上存储了计算机软件和/或数据的计算机可用存储介质。

计算机系统500(可选的)包含显示接口502(其可以包含输入设备和输出设备，如键盘、鼠标等)用于转发在显示单元530上显示的图形、文本和来自通信基础架构506(或来自未显示的帧缓冲区)的其它数据。

在可选的实现方式中，次存储器510可以包含其它类似的设备用于允许计算机程序或其他指令被加载进计算机系统500内。该设备可以包括，举例来说，可移动存储单元522和接口520。这些设备的实施例可以包含程序盒和盒接口(比如可以在视频游戏设备中找到的程序盒和盒接口)、可移动存储器芯片(如EPROM或PROM)和相关的基座以及其他可移动存储单元522和允许软件和数据从可移动存储单元522被传输至计算机系统500的接口520。

计算机系统500还可以包含通信接口524。通信接口524允许软件和数据在计算机系统500和外部设备之间传输。通信接口524可以包含调制解调器、网络接口(如以太网卡)、通信端口、PCMCIA插槽和卡或类似接口。软件和数据通过通信接口524以可能是电子的、电磁的、光学的或可以被通信接口524接收的其他信号的信号形式被传输。这些信号通过通信通道526被提供给通信接口524。通信通道526承载信号并可以使用导线或电缆、光纤、电话线、蜂窝电话链路、射频链路或其他通信通道实施。

在本文中，术语“计算机程序介质”和“计算机可用介质”被用于总体指代诸如可移动存储单元518、可移动存储单元522和安装在硬盘驱动512中的硬盘等介质。计算机程序介质和计算机可用介质也可以指存储器，例如可能是存储器半导体的(如动态随机存取存储器等)的主存储器508和次存储器510。这些计算机程序产品为计算机系统500提供软件。

计算机程序(也被称为计算机控制逻辑)被存储在主存储器508和/或次存储器510中。计算机程序也可以通过通信接口524被接收。当被执行时，这些计算机程序使计算机系统500能够实施本文所讨论的本发明的实施方案。具体地说，当被执行时，计算机程序使处理器504能够实施本发明的实施方案的过程，例如实施可以在如上所述的系统500中实施的由图3的流程图300所示的方法和由图4的流程图400所示的方法中的步骤。其中，本发明的实施方案使用软件实施，该软件可以被储存在计算机程序产品中并使用可移动存储驱动514、接口520、硬盘驱动512或通信接口524被加载到计算机系统500内。

本发明的实施方案还针对包含储存在任何计算机可用介质上的软件的计算机程序产品。当在一个或多个数据处理设备上执行时，该软件使数据处理设备按本文的描述进行操作。本发明的实施方案采用现在已知或将来的任何计算机可用或计算机可读介质。计算机可用介质的实例包括，但不限于，主存储设备(如任何类型的随机存取存储器)、次存储设备(如硬驱动、软盘、CDROM、ZIP盘、磁带、磁性存储设备、光存储设备、MEMS、纳米技术存储设备等)和通信介质(如有线和无线通信网、局域网、广域网、内部网等)。

5.结论

应该认识到，详细描述章节而不是概述及摘要章节旨在用于解释权利要求。概述和摘要章节可能阐明一个或多个但并非由发明者考虑的本发明的所有示例性实施方案，并且因此，并不旨在以任何方式限制本发明和所附权利要求。

上面在功能组成框的辅助下描述了本发明的实施方案，该功能组成框阐述了特定功能的实施和其间的关系。为方便描述，这些功能组成框的边界在本文中没有特意定义。只要其中的特定功能和其间的关系被正确地执行，可选的边界是可以定义的。

前面对特定实施方案的描述将如此完全的揭示本发明的一般性质以至于其他人通过应用相关领域技术人员的知识，不用过度的实验，不脱离本发明的一般概念，就可以容易地修改和/或调整这些特定实施方案的各种应用。因此，基于本文所呈现的教导和指导，这些调整和修改旨在落入所公开的实施方案的意义和范围内。应理解，本文中的措辞和术语是出于描述的目的而不是进行限制，因此本说明书的术语和措辞由技术人员根据教导和指导来解释。

本发明的广度和范围不应被上面描述的任何示例性实施方案所限制，而是只能根据所附的权利要求和它们的等效物来限定。

Claims

1.一种用于语音识别的方法，所述方法包括：

接收表示声音命令的数据；

基于与一个或多个目标中的每个目标相关的状态信息，生成所述一个或多个目标的列表；以及

基于所述声音命令从所述目标的列表中选择目标。

2.如权利要求1所述的方法，还包括：

在所选择的目标上执行所述声音命令。

3.如权利要求1所述的方法，还包括：

基于所述目标的列表截断语言模型；以及

使用截断的语言解码所述声音命令。

4.如权利要求3所述的方法，其中，对所述语言模型的所述截断包括：基于所述目标的列表的识别、所述目标的列表的状态信息、与所述目标的列表相关的传感器信息或其组合，去除所述语言模型的一个或多个部分。

5.如权利要求1所述的方法，其中，所述接收包括从所述数据去除一个或多个环境条件。

6.如权利要求5所述的方法，其中，所述去除包括从所述数据中消除噪声、消除回声、去除混响或其组合。

7.如权利要求1所述的方法，其中，所述接收包括从多个位置中的一个位置接收所述数据。

8.如权利要求1所述的方法，其中，所述选择包括基于学习算法挑选所选择的目标，所述学习算法包含含有所述选择的目标的一个或多个过去的选择的学习算法、所述数据从中被接收的位置或其组合。

9.如权利要求1所述的方法，其中，所述选择包括：当出现两个或多于两个被选择的目标时，请求用户进行澄清，以选择一个目标。

10.一种用于语音识别的装置，所述装置包括：

数据接收模块，所述数据接收模块被配置为接收表示声音命令的数据；

列表生成模块，所述列表生成模块被配置为基于与一个或多个目标中的每一个目标相关的状态信息生成所述一个或多个目标的列表；以及

目标选择模块，所述目标选择模块被配置为基于所述声音命令从所述目标的列表中选择目标。

11.如权利要求10所述的装置，还包括：

任务执行模块，所述任务执行模块被配置为在所选择的目标上执行所述声音命令。

12.如权利要求10所述的装置，还包括：

语言截断模块，所述语言截断模块被配置为基于所述目标的列表截断语言模型；以及

声音解码器，所述声音解码器被配置为使用所截断的语言模型解码所述声音命令。

13.如权利要求12所述的装置，其中，所述语言截断模块被配置为，基于所述目标的列表的识别、所述目标的列表的状态信息、与所述目标的列表相关的传感器信息或其组合，去除所述语言模型中的一个或多个部分。

14.如权利要求10所述的装置，其中，所述数据接收模块被配置为从所述数据去除一个或多个环境条件。

15.如权利要求10所述的装置，其中，所述数据接收模块被配置为从多个位置中的一个位置接收所述数据。

16.如权利要求10所述的装置，还包括：

目标澄清模块，所述目标澄清模块被配置为，当所述目标选择模块从所述目标的列表中选择多于一个目标时，确定所选择的目标；

其中，所述目标选择模块被配置为基于学习算法学习如何确定所述所选择的目标，所述学习算法含有所述所选择的目标的一个或多个过去的选择、所述数据从中被接收的位置或其组合。

17.一种计算机程序产品，所述计算机程序产品包括其上记录了计算机程序逻辑的计算机可用介质，当被一个或多个处理器执行时，所述计算机程序逻辑将在语音识别系统中处理表示声音命令的多个数据，所述计算机程序逻辑包括：

第一计算机可读程序代码，所述第一计算机可读程序代码使处理器能够接收表示声音命令的数据；

第二计算机可读程序代码，所述第二计算机可读程序代码使处理器能够基于与一个或多个目标中的每一个目标相关的状态信息生成所述一个或多个目标的列表；以及

第三计算机可读程序代码，所述第三计算机可读程序代码使处理器能够基于所述声音命令从所述目标的列表中选择目标。

18.如权利要求17所述的计算机程序产品，还包括：

第四计算机可读程序代码，所述第四计算机可读程序代码使处理器能够在所选择的目标上执行所述声音命令。

19.如权利要求17所述的计算机程序产品，还包括：

第五计算机可读程序代码，所述第五计算机可读程序代码使处理器能够基于所述目标的列表截断语言模型；

第六计算机可读程序代码，所述第六计算机可读程序代码使处理器能够基于所述目标的列表、目标的目标状态或传感器信息截断所述语言模型；以及

第七计算机可读程序代码，所述第七计算机可读程序代码使处理器能够使用所截断的语言解码所述声音命令。

20.如权利要求17所述的计算机程序产品，其中，所述第三计算机可读程序代码包括，当出现两个或多于两个所选择的目标时，请求用户澄清以选择一个目标。