CN105229727A - 分布式语音识别系统 - Google Patents

分布式语音识别系统 Download PDF

Info

Publication number
CN105229727A
CN105229727A CN201480012314.1A CN201480012314A CN105229727A CN 105229727 A CN105229727 A CN 105229727A CN 201480012314 A CN201480012314 A CN 201480012314A CN 105229727 A CN105229727 A CN 105229727A
Authority
CN
China
Prior art keywords
target
list
voice command
program code
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480012314.1A
Other languages
English (en)
Inventor
奥加斯·阿肖克·巴帕特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cypress Semiconductor Corp
Original Assignee
Cypress Semiconductor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cypress Semiconductor Corp filed Critical Cypress Semiconductor Corp
Publication of CN105229727A publication Critical patent/CN105229727A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明的实施方案包含用于声音命令的语音识别的装置、方法和系统。所述方法可以包含接收表示语音命令的数据、基于系统内的每一个目标的状态信息生成目标列表、以及基于声音命令从目标列表中选择目标。

Description

分布式语音识别系统
背景
技术领域
本发明的实施方案大致涉及语音识别。更具体地是,本发明的实施方案涉及在预期的目标设备上执行声音命令。利用自动语音识别通过口述命令控制或操作独立的目标设备可被用于办公自动化、家庭环境或其它领域。
背景技术
随着计算设备的处理能力的不断增长和计算系统的尺寸的不断降低,语音识别被越来越多地用于在家庭或办公室控制设备。最初,只有计算机可以识别口述命令。但是现在,仅举几个设备的例子,有手机、电视、录像机、灯和安全系统等模型也允许用户使用声音命令控制它们。
为了更精确地识别声音命令,这些设备中的多数设备使用简化的语言模型。这些设备中的每一个也需要同时包含确定何时其他语音并不意味着命令的能力和区分对自己的命令与对其它设备的命令的能力。例如,每一个设备需要过滤发生在设备附近的解译性对话以及用于其他设备的声音命令。因此,语音识别可能是处理器的密集处理过程。
另外,这些声音识别系统还必须解析与用户所处的环境相关的其他问题。这些问题可以包含回声、混响和环境噪声。这些问题可以是环境或房间相关的。例如,在繁忙房间内的环境噪声将不同于相对安静的房间内的环境噪声,而大型会议室内的回声将不同于较小的办公室的回声。
发明概述
因此,需要将处理器密集处理的普通语音识别算法的负载分流到中央处理环境,同时也允许通过环境内的分布式系统解决关于表示声音命令的数据的一些特定于环境的处理的灵活性。
因此,实施方案包含用于在预期的目标上执行的声音命令的语音识别的方法。该方法可以包含接收表示声音命令的数据、基于每一个目标的状态信息生成目标列表和基于声音命令从目标列表中选择目标。
另一个实施方案包含用于声音命令的语音识别的装置。该装置可以包括数据接收模块、列表生成模块和目标选择模块。数据接收模块可以被配置为接收表示声音命令的数据。列表生成模块可以被配置为基于目标的状态生成可能的目标的列表。目标选择模块可以被配置为基于可能的目标列表和声音命令选择预期的目标。
本发明的更多特征和优点,以及本发明的各种实施方案的结构和操作,将参考附图在下面进行详细描述。应注意,本发明不局限于本文描述的特定的实施方案。本文提出的这些实施方案仅用于阐述的目的。基于本文含有的教导,更多的实施方案对相关领域技术人员将是明显的。
附图简述
并入本文并形成说明书的一部分的附图阐述了一些实施方案,并且与描述结合更有助于解释本发明的原理和使相关领域技术人员能够制造和使用本发明。
图1是在其中可以实施实施方案的示例性通信系统的图示。
图2是在其中可以实施实施方案的示例性环境的图示。
图3是依据本发明的实施方案解码声音指令的方法的图示。
图4是依据本发明的实施方案的用于解码声音指令的目标选择的方法的图示。
图5是计算机系统示例的图示,本发明的实施方案或其一部分可以作为计算机可读代码在该计算机系统中实施。
发明详述
以下的详细描述参考了示出了依据本发明的示例性实施方案的附图。其他实施方案是可能的,并且可以在本发明的精神和范围内对实施方案进行修改。因此,详细的描述并不局限于本发明的范围。相反,所要求保护的主题的范围由所附的权利要求限定。
以下描述的本发明可以在很多不同的软件、硬件、固件和/或图中阐述的实体的实施方案中实施,这对相关领域技术人员是明显的。因此,本发明的实施方案的可操作的表现将基于对本发明的实施方案的可能的修改和变化的理解进行描述,本文的描述提供了给定的详细程度。
该说明书公开了包含本发明的特征的一个或多个系统。所公开的系统仅作为本发明的示例。本发明的范围并不局限于所公开的系统。本发明由本文所附的权利要求限定。
所描述的系统,以及在说明书中引用的“一个系统”、“系统”、“示例性系统”等,表明所描述的系统可能包含特殊的特征、结构或特性,但是每一个实施方案可能不必包含该特殊的特征、结构或特性。另外,这些短语不必指同一个系统。另外,当特殊的特征、结构或特性与系统结合进行描述时,应理解无论是否明确描述,所述描述均落入相关领域技术人员结合其他实施方案实现这些特征、结构或特性的知识范围内。
出于示例的目的,嵌入式搜索算法被用于以下装置、系统和方法的描述。相关领域普通技术人员将认识到这些仅仅是示例以及本发明在其他多个背景中是可用的。
1.启动器/目标通信系统
图1是在其中可以实施本文描述的实施方案的示例性通信系统100的图示。通信系统100包含通过网络112可通信地耦合至中央调度单元106的启动器1021-1025和目标1101-1104。传感器108和执行器104也通过网络112可通信地耦合至中央调度单元106。
启动器1021-1025可以是,例如但不限于,麦克风、移动电话、其他相似类型的电子设备、或其组合。
目标1101-1104可以是,例如但不限于,电视、收音机、烤箱、HVAC单元、微波炉、洗衣机、烘干机、洗碗机、其他相似类型的家用和商用设备或其组合。
中央调度单元106可以是,例如但不限于,电信服务器、网络服务器或其他相似类型的数据库服务器。在实施方案中,中央调度单元106可以具有多个处理器和多个共享的或单独的存储器组件,诸如,例如但不限于,包含在集群计算环境和服务器群中的一个或多个计算设备。由集群计算环境或服务器群执行的计算过程可以跨放置在相同位置或不同位置的多个处理器实现。在实施方案中,中央调度单元106可以在单一计算设备上实施。计算设备的实例包含,但不限于,中央处理单元、专用集成电路、现场可编程门阵列或具有至少一个处理单元和存储器的其他类型的计算设备。
传感器108可以是,例如但不限于,温度传感器、光传感器、运动传感器或其他相似类型的传感器设备或其组合。
执行器104可以是,例如但不限于,开关、移动设备、可以改变目标状态的其他相似的物体或其组合。
另外,网络112可以是,例如但不限于,可通信地将启动器1021-1025、目标1101-1104、传感器108、以及执行器104耦合至中央调度单元106的有线的(如以太网)或无线的(如Wi-Fi和3G)网络或其组合。
在实施方案中,通信系统100可以是家用网络系统(如3G和4G移动通信系统)。用户和环境(如通过图1中的启动器1021-1025和传感器108)可以改变(如通过图1中的执行器104)设备(如图1中的目标1101-1104)的状态。这可以使用移动通信网络(如图1中的网络112)和家用网络服务器(如图1中的中央调度单元106)完成。
在实施方案中,通信系统100可以从所接收的数据中去除一个或多个环境条件。例如,它可以从数据中消除噪声,诸如背景或环境噪声;消除回声;从数据中去除混响或其组合。在实施方案中,环境条件的去除可以由启动器1021-1025、中央调度单元106、网络112中的其它设备或其组合完成。
2.示例性家用环境
图2是可以实施本文的实施方案的示例性家用环境200的图示。家用环境200包含启动器区域2021-20212,每一个启动器区域都可以与一个或多个启动器102有关。每一个启动器区域2021-20212表示一个或多个启动器102可以从中接收输入的区域。
如图2所示,启动器区域2021-20212可以覆盖住宅中的大部分区域,但是不需要覆盖整个住宅。并且,如图2所示,启动器区域2021-20212可以重叠。
以下对于图3和4的描述基于家用/办公环境,类似于家用环境200。基于本文的描述,相关领域的普通技术人员将认识到本文公开的实施方案可以用于其他类型的环境,例如但不限于,飞机场、火车站以及杂货店等。这些其他类型的环境落入本文描述的实施方案的精神和范围内。
3.声音命令执行过程
为使用户更简单有效地在其家中或办公室使用设备,例如,图3中的流程图300阐述了使用截断的语言模型确定声音命令和在预期目标上执行命令的过程的实施方案。
如图3所示,在步骤302中,本发明的实施方案通过如图1中的一个或多个启动器1021-1025接收表示声音命令的数据。
在步骤304中,基于传感器信息、状态信息、启动器的位置、其它信息或其组合,本发明的实施方案可以生成可能的目标列表。例如,如果传感器显示外部温度是30华氏度,则可能的目标列表可以包含加热器,或如果光传感器显示是晚上,则可能的目标列表可以包含灯。在另一个实施例中,如果电视和收音机是打开的(即具有“开”的状态),则可能的目标列表可以包含电视和收音机,因为声音命令可能针对这些目标。在又一个实施例中,如果与特殊房间(如启动器区域2021-20212)相关的启动器处理声音命令,则与特殊房间相关的目标可以被包含在可能的目标列表中。
在步骤306中,基于用于环境中的目标的可能的命令,实施方案可以创建语言模型。例如,在图2中的家用环境200中,可能有电视、HVAC、灯和烤箱,因此,在语言模型中将包含用于电视、HVAC、灯和烤箱(如“调大音量”、“降低温度”、“调暗灯光”以及“预热烤箱”)的命令。在接收到可能的目标列表后,实施方案可以截断语言模型以去除不适用的命令。例如,如果来自步骤304的可能目标列表不包含灯,则诸如“开灯”和“关灯”的命令可以从语言模型中被删除或被去除。
在实施方案中,可能的目标的状态信息也可能用于截断语言模型。例如,可能的目标列表可能包含电视。状态信息可能显示电视现在是关闭的(即“关”状态)。在这个实例中,诸如“将频道切换到频道10”或“调大音量”等与电视处于“开”状态有关的命令将从语言模型中被删除,因为这些命令不适用目标的状态。然而,诸如“打开电视”等与电视处于“关”状态有关的命令可能被保留,因为这些命令适用目标的当前状态。
在步骤308中,基于所截断的语言模型,实施方案可以解码声音命令。例如,如果电视当前是关闭的,则与电视处于“关”状态有关的命令(如命令“打开电视”)被用于解码声音命令。由于使用了更小的语言模型,基于所截断的语言模型解码声音命令的益处,包括更快地处理声音命令和正确处理声音命令的更高的准确性等。
在步骤310中,基于声音命令,实施方案可以从可能的目标列表中选择目标。在实施方案中,可能的目标列表可以包含单一目标(或“所选择的目标”)且流程图300进行到步骤312。例如,如果声音命令数据是“打开电视”或“将电视切换到频道12”且目标列表包含电视、HVAC单元、收音机和台灯,由于目标在声音命令数据中被识别出,所以可以确定命令的意图是在电视上执行。
在其它实施方案中,目标列表可以包含两个或多于两个目标。例如,声音命令诸如,举例来说,“打开”、“切换频道”和“降低音量”可以应用于电视和收音机。在实施方案中,步骤310将可能的目标列表减少至单一目标(或“所选择的目标”)。图4中的流程图400阐述了选择单一目标的过程的实施方案。
在步骤402中,如果多于一个目标被选择,则实施方案可以继续至步骤404以澄清哪个目标是预期的。例如,如果声音命令是“调大音量”且目标列表包含电视和收音机,则实施方案可以继续至步骤404。
在步骤404中,实施方案可以使用一个或多个判定准则以确定可能的目标列表中的哪个目标是预期的目标。在一个实施例中,实施方案可以请求用户澄清是电视还是收音机是预期的目标。在另一个实施例中,如果声音命令是“调大音量”且如果电视是打开的(即“开”状态)而收音机是关闭的(即“关”状态),则实施方案可以将电视作为所选择的目标返回给步骤312以在电视上执行“调大音量”。
当相同或类似的情况发生时,实施方案可以从过去的事件中学习以确定哪个目标是预期目标。在实施方案中,系统可以学习如何基于一个或多个过去的选择在目标之间进行选择。例如,用户可能在一个房间里布置了两盏灯。在过去,用户可能说过“开灯”并且系统可能已经请求过关于是哪盏灯的澄清。基于用户过去的澄清,系统可能获知打开其中一盏灯。
在另一个实施方案中,系统还可以学习基于用户的位置做出选择或限制可能的目标列表。例如,如果用户在没有电视的厨房,且说了“打开电视”,则系统可能最初需要用户是指起居室的电视还是卧室中的电视的相关澄清。基于用户的位置,如果用户从厨房做出请求,则系统可能获知是将打开起居室的电视。
参考图3中的流程图300,在步骤312中,实施方案可以在所选择的目标上执行声音命令。实施方案可以使用执行器改变不同目标的状态。执行器可以被放置在目标内,如放置在电视的电源开关和音量控制器中、远离目标(如在顶灯的灯开关中),或在集中的区域中(如在家庭娱乐服务器或移动设备中)。
基于本文的描述,相关领域的普通技术人员将认识到图3所示的步骤302-312可以在一个或多个处理模块上执行。在实施方案中,这些处理模块包含数据接收模块、列表生成模块、语言截断模块、声音解码器、目标生成模块和任务执行模块以分别执行步骤302、304、306、308、310和312。这些处理模块可以被集成在计算机系统中,诸如,举例来说,被集成在图5中的计算机系统500中(下面将详细描述)。另外,参考图1中的通信系统100,数据接收模块、列表生成模块、声音解码器、目标生成模块和任务执行模块可以被集成在启动器102、中央调度单元106、执行器104或其组合中。
4.示例性计算机系统
本发明的各个方面可以在软件、固件、硬件或其组合中实施。图5是示例性计算机系统500的图示,在该计算机系统中本发明的实施方案或其部分可以作为计算机可读代码被实施。例如,图3中的流程图300所示的方法和图4中的流程图400所示的方法可以在系统500中实施。本发明的各种实施方案依据该示例计算机系统500描述。在阅读此描述后,如何使用其他计算机系统和/或计算机架构来实施本发明的实施方案对相关领域技术人员将是明显的。
应该注意到本发明的各种实施方案的仿真、综合和/或生产可以部分通过使用计算机可读代码完成,计算机可读代码包含通用编程语言(如C或C++)、硬件描述语言(HDL)如,举例来说,VerilogHDL、VHDL、AlteraHDL(AHDL)或其他可获得的编程和/或原理图捕捉工具(如电路捕捉工具)。该计算机可读代码可以在包括半导体、磁盘、光盘(如CD-ROM、DVD-ROM)的任何计算机可用介质上被处理。因此,代码可以通过包括因特网的通信网络传输。应理解由系统完成的功能和/或提供的结构以及上述的技术可以在存储器中表示。
计算机系统500包含一个或多个处理器,例如处理器504。处理器504可能是专用或通用处理器。处理器504被连接到通信基础架构506(如总线或网络)。
计算机系统500还包含主存储器508,优选地是随机存取存储器(RAM),并且还可能包含次存储器510。次存储器510可以包括,举例来说,硬盘驱动512、可移动存储驱动514和/或记忆棒。可移动存储驱动514可以包括软盘驱动、磁带驱动、光盘驱动、闪速存储器或类似驱动。可移动存储驱动514以众所周知的方式读取和/或写入可移动存储单元518。可移动存储单元518可以包括由可移动存储驱动514读取和写入的软盘、磁带、光盘等。如相关领域技术人员将认识到,可移动存储单元518包含其上存储了计算机软件和/或数据的计算机可用存储介质。
计算机系统500(可选的)包含显示接口502(其可以包含输入设备和输出设备,如键盘、鼠标等)用于转发在显示单元530上显示的图形、文本和来自通信基础架构506(或来自未显示的帧缓冲区)的其它数据。
在可选的实现方式中,次存储器510可以包含其它类似的设备用于允许计算机程序或其他指令被加载进计算机系统500内。该设备可以包括,举例来说,可移动存储单元522和接口520。这些设备的实施例可以包含程序盒和盒接口(比如可以在视频游戏设备中找到的程序盒和盒接口)、可移动存储器芯片(如EPROM或PROM)和相关的基座以及其他可移动存储单元522和允许软件和数据从可移动存储单元522被传输至计算机系统500的接口520。
计算机系统500还可以包含通信接口524。通信接口524允许软件和数据在计算机系统500和外部设备之间传输。通信接口524可以包含调制解调器、网络接口(如以太网卡)、通信端口、PCMCIA插槽和卡或类似接口。软件和数据通过通信接口524以可能是电子的、电磁的、光学的或可以被通信接口524接收的其他信号的信号形式被传输。这些信号通过通信通道526被提供给通信接口524。通信通道526承载信号并可以使用导线或电缆、光纤、电话线、蜂窝电话链路、射频链路或其他通信通道实施。
在本文中,术语“计算机程序介质”和“计算机可用介质”被用于总体指代诸如可移动存储单元518、可移动存储单元522和安装在硬盘驱动512中的硬盘等介质。计算机程序介质和计算机可用介质也可以指存储器,例如可能是存储器半导体的(如动态随机存取存储器等)的主存储器508和次存储器510。这些计算机程序产品为计算机系统500提供软件。
计算机程序(也被称为计算机控制逻辑)被存储在主存储器508和/或次存储器510中。计算机程序也可以通过通信接口524被接收。当被执行时,这些计算机程序使计算机系统500能够实施本文所讨论的本发明的实施方案。具体地说,当被执行时,计算机程序使处理器504能够实施本发明的实施方案的过程,例如实施可以在如上所述的系统500中实施的由图3的流程图300所示的方法和由图4的流程图400所示的方法中的步骤。其中,本发明的实施方案使用软件实施,该软件可以被储存在计算机程序产品中并使用可移动存储驱动514、接口520、硬盘驱动512或通信接口524被加载到计算机系统500内。
本发明的实施方案还针对包含储存在任何计算机可用介质上的软件的计算机程序产品。当在一个或多个数据处理设备上执行时,该软件使数据处理设备按本文的描述进行操作。本发明的实施方案采用现在已知或将来的任何计算机可用或计算机可读介质。计算机可用介质的实例包括,但不限于,主存储设备(如任何类型的随机存取存储器)、次存储设备(如硬驱动、软盘、CDROM、ZIP盘、磁带、磁性存储设备、光存储设备、MEMS、纳米技术存储设备等)和通信介质(如有线和无线通信网、局域网、广域网、内部网等)。
5.结论
应该认识到,详细描述章节而不是概述及摘要章节旨在用于解释权利要求。概述和摘要章节可能阐明一个或多个但并非由发明者考虑的本发明的所有示例性实施方案,并且因此,并不旨在以任何方式限制本发明和所附权利要求。
上面在功能组成框的辅助下描述了本发明的实施方案,该功能组成框阐述了特定功能的实施和其间的关系。为方便描述,这些功能组成框的边界在本文中没有特意定义。只要其中的特定功能和其间的关系被正确地执行,可选的边界是可以定义的。
前面对特定实施方案的描述将如此完全的揭示本发明的一般性质以至于其他人通过应用相关领域技术人员的知识,不用过度的实验,不脱离本发明的一般概念,就可以容易地修改和/或调整这些特定实施方案的各种应用。因此,基于本文所呈现的教导和指导,这些调整和修改旨在落入所公开的实施方案的意义和范围内。应理解,本文中的措辞和术语是出于描述的目的而不是进行限制,因此本说明书的术语和措辞由技术人员根据教导和指导来解释。
本发明的广度和范围不应被上面描述的任何示例性实施方案所限制,而是只能根据所附的权利要求和它们的等效物来限定。

Claims (20)

1.一种用于语音识别的方法,所述方法包括:
接收表示声音命令的数据;
基于与一个或多个目标中的每个目标相关的状态信息,生成所述一个或多个目标的列表;以及
基于所述声音命令从所述目标的列表中选择目标。
2.如权利要求1所述的方法,还包括:
在所选择的目标上执行所述声音命令。
3.如权利要求1所述的方法,还包括:
基于所述目标的列表截断语言模型;以及
使用截断的语言解码所述声音命令。
4.如权利要求3所述的方法,其中,对所述语言模型的所述截断包括:基于所述目标的列表的识别、所述目标的列表的状态信息、与所述目标的列表相关的传感器信息或其组合,去除所述语言模型的一个或多个部分。
5.如权利要求1所述的方法,其中,所述接收包括从所述数据去除一个或多个环境条件。
6.如权利要求5所述的方法,其中,所述去除包括从所述数据中消除噪声、消除回声、去除混响或其组合。
7.如权利要求1所述的方法,其中,所述接收包括从多个位置中的一个位置接收所述数据。
8.如权利要求1所述的方法,其中,所述选择包括基于学习算法挑选所选择的目标,所述学习算法包含含有所述选择的目标的一个或多个过去的选择的学习算法、所述数据从中被接收的位置或其组合。
9.如权利要求1所述的方法,其中,所述选择包括:当出现两个或多于两个被选择的目标时,请求用户进行澄清,以选择一个目标。
10.一种用于语音识别的装置,所述装置包括:
数据接收模块,所述数据接收模块被配置为接收表示声音命令的数据;
列表生成模块,所述列表生成模块被配置为基于与一个或多个目标中的每一个目标相关的状态信息生成所述一个或多个目标的列表;以及
目标选择模块,所述目标选择模块被配置为基于所述声音命令从所述目标的列表中选择目标。
11.如权利要求10所述的装置,还包括:
任务执行模块,所述任务执行模块被配置为在所选择的目标上执行所述声音命令。
12.如权利要求10所述的装置,还包括:
语言截断模块,所述语言截断模块被配置为基于所述目标的列表截断语言模型;以及
声音解码器,所述声音解码器被配置为使用所截断的语言模型解码所述声音命令。
13.如权利要求12所述的装置,其中,所述语言截断模块被配置为,基于所述目标的列表的识别、所述目标的列表的状态信息、与所述目标的列表相关的传感器信息或其组合,去除所述语言模型中的一个或多个部分。
14.如权利要求10所述的装置,其中,所述数据接收模块被配置为从所述数据去除一个或多个环境条件。
15.如权利要求10所述的装置,其中,所述数据接收模块被配置为从多个位置中的一个位置接收所述数据。
16.如权利要求10所述的装置,还包括:
目标澄清模块,所述目标澄清模块被配置为,当所述目标选择模块从所述目标的列表中选择多于一个目标时,确定所选择的目标;
其中,所述目标选择模块被配置为基于学习算法学习如何确定所述所选择的目标,所述学习算法含有所述所选择的目标的一个或多个过去的选择、所述数据从中被接收的位置或其组合。
17.一种计算机程序产品,所述计算机程序产品包括其上记录了计算机程序逻辑的计算机可用介质,当被一个或多个处理器执行时,所述计算机程序逻辑将在语音识别系统中处理表示声音命令的多个数据,所述计算机程序逻辑包括:
第一计算机可读程序代码,所述第一计算机可读程序代码使处理器能够接收表示声音命令的数据;
第二计算机可读程序代码,所述第二计算机可读程序代码使处理器能够基于与一个或多个目标中的每一个目标相关的状态信息生成所述一个或多个目标的列表;以及
第三计算机可读程序代码,所述第三计算机可读程序代码使处理器能够基于所述声音命令从所述目标的列表中选择目标。
18.如权利要求17所述的计算机程序产品,还包括:
第四计算机可读程序代码,所述第四计算机可读程序代码使处理器能够在所选择的目标上执行所述声音命令。
19.如权利要求17所述的计算机程序产品,还包括:
第五计算机可读程序代码,所述第五计算机可读程序代码使处理器能够基于所述目标的列表截断语言模型;
第六计算机可读程序代码,所述第六计算机可读程序代码使处理器能够基于所述目标的列表、目标的目标状态或传感器信息截断所述语言模型;以及
第七计算机可读程序代码,所述第七计算机可读程序代码使处理器能够使用所截断的语言解码所述声音命令。
20.如权利要求17所述的计算机程序产品,其中,所述第三计算机可读程序代码包括,当出现两个或多于两个所选择的目标时,请求用户澄清以选择一个目标。
CN201480012314.1A 2013-01-08 2014-01-07 分布式语音识别系统 Pending CN105229727A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/736,618 2013-01-08
US13/736,618 US20140195233A1 (en) 2013-01-08 2013-01-08 Distributed Speech Recognition System
PCT/US2014/010514 WO2014110041A1 (en) 2013-01-08 2014-01-07 Distributed speech recognition system

Publications (1)

Publication Number Publication Date
CN105229727A true CN105229727A (zh) 2016-01-06

Family

ID=51061667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480012314.1A Pending CN105229727A (zh) 2013-01-08 2014-01-07 分布式语音识别系统

Country Status (4)

Country Link
US (1) US20140195233A1 (zh)
CN (1) CN105229727A (zh)
DE (1) DE112014000373T5 (zh)
WO (1) WO2014110041A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257601A (zh) * 2017-11-06 2018-07-06 广州市动景计算机科技有限公司 用于语音识别文本的方法、设备、客户端装置及电子设备

Families Citing this family (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9431014B2 (en) * 2013-07-25 2016-08-30 Haier Us Appliance Solutions, Inc. Intelligent placement of appliance response to voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10047970B2 (en) 2013-08-21 2018-08-14 Honeywell International Inc. Devices and methods for interacting with an HVAC controller
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10642233B2 (en) * 2016-01-04 2020-05-05 Ademco Inc. Device enrollment in a building automation system aided by audio input
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180083587A (ko) * 2017-01-13 2018-07-23 삼성전자주식회사 전자 장치 및 그의 동작 방법
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10524046B2 (en) 2017-12-06 2019-12-31 Ademco Inc. Systems and methods for automatic speech recognition
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1324175A (zh) * 2000-05-11 2001-11-28 松下电工株式会社 用于操作家用电器的话音控制系统
CN101136198A (zh) * 2006-08-29 2008-03-05 爱信艾达株式会社 语音识别方法及语音识别装置
JP2008076811A (ja) * 2006-09-22 2008-04-03 Honda Motor Co Ltd 音声認識装置、音声認識方法及び音声認識プログラム
CN101462522A (zh) * 2007-12-21 2009-06-24 通用汽车公司 交通工具内根据状况的语音识别
CN101796576A (zh) * 2007-07-11 2010-08-04 佳明有限公司 自动语音识别(asr)片区化
CN102160043A (zh) * 2008-05-27 2011-08-17 声钰科技 针对集成多语气多装置自然语言语音服务环境的系统和方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5970457A (en) * 1995-10-25 1999-10-19 Johns Hopkins University Voice command and control medical care system
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language
US20020087306A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented noise normalization method and system
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
TWI245259B (en) * 2002-12-20 2005-12-11 Ibm Sensor based speech recognizer selection, adaptation and combination
US7689404B2 (en) * 2004-02-24 2010-03-30 Arkady Khasin Method of multilingual speech recognition by reduction to single-language recognizer engine components
US9344666B2 (en) * 2007-12-03 2016-05-17 International Business Machines Corporation System and method for providing interactive multimedia services
JP2010217453A (ja) * 2009-03-16 2010-09-30 Fujitsu Ltd 音声認識用マイクロホンシステム
KR101059239B1 (ko) * 2009-07-29 2011-08-24 주식회사 서비전자 통합 제어 시스템 및 그것의 모니터링 방법
US8255217B2 (en) * 2009-10-16 2012-08-28 At&T Intellectual Property I, Lp Systems and methods for creating and using geo-centric language models
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
US8825020B2 (en) * 2012-01-12 2014-09-02 Sensory, Incorporated Information access and device control using mobile phones and audio in the home environment

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1324175A (zh) * 2000-05-11 2001-11-28 松下电工株式会社 用于操作家用电器的话音控制系统
CN101136198A (zh) * 2006-08-29 2008-03-05 爱信艾达株式会社 语音识别方法及语音识别装置
JP2008076811A (ja) * 2006-09-22 2008-04-03 Honda Motor Co Ltd 音声認識装置、音声認識方法及び音声認識プログラム
CN101796576A (zh) * 2007-07-11 2010-08-04 佳明有限公司 自动语音识别(asr)片区化
CN101462522A (zh) * 2007-12-21 2009-06-24 通用汽车公司 交通工具内根据状况的语音识别
CN102160043A (zh) * 2008-05-27 2011-08-17 声钰科技 针对集成多语气多装置自然语言语音服务环境的系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257601A (zh) * 2017-11-06 2018-07-06 广州市动景计算机科技有限公司 用于语音识别文本的方法、设备、客户端装置及电子设备

Also Published As

Publication number Publication date
DE112014000373T5 (de) 2015-10-08
WO2014110041A1 (en) 2014-07-17
US20140195233A1 (en) 2014-07-10

Similar Documents

Publication Publication Date Title
CN105229727A (zh) 分布式语音识别系统
US10410651B2 (en) De-reverberation control method and device of sound producing equipment
US9825773B2 (en) Device control by speech commands with microphone and camera to acquire line-of-sight information
US20190304448A1 (en) Audio playback device and voice control method thereof
US10185534B2 (en) Control method, controller, and recording medium
CN102171665B (zh) 使用中央dma机制进行数据过滤
US20130325460A1 (en) Method of providing voice recognition service and electronic device therefor
US20180090152A1 (en) Parameter prediction device and parameter prediction method for acoustic signal processing
CN102262879A (zh) 语音命令竞争处理方法、装置、语音遥控器和数字电视
CN105393302A (zh) 多级语音识别
CN104601538A (zh) 服务器、发话控制方法、发话装置以及发话系统
JP2021501356A (ja) 暗黙的ルーティングを使用したモジュール式会話の作成
JP6619488B2 (ja) 人工知能機器における連続会話機能
CN103634524A (zh) 相机系统的控制方法、控制设备及相机系统
CN110764616A (zh) 手势控制方法和装置
CN105652674A (zh) 无线语音透传器和控制终端
CN106034170A (zh) 群组生成方法及装置
CN110738992B (zh) 语音信息的处理方法及装置、存储介质、电子装置
CN109709814A (zh) 一种智能家居中动态构建冲突校验规则表的方法、装置
CN112782997B (zh) 设备控制方法及装置、存储介质、电子装置
CN103747171A (zh) 相机系统的控制方法及相机系统
KR20190119195A (ko) 인공지능 스마트 디바이스 및 이를 이용한 음성제어 시스템
CN104052801A (zh) 一种信息处理方法及电子设备
CN106775570B (zh) 音频设备、包括所述音频设备的音频采集播放系统和方法
CN109407843A (zh) 控制多媒体播放的方法及装置、存储介质、电子装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160106