CN106062734A

CN106062734A - 二级装置的自然语言控制

Info

Publication number: CN106062734A
Application number: CN201480073899.8A
Authority: CN
Inventors: 罗翰·穆塔基
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2013-12-02
Filing date: 2014-11-25
Publication date: 2016-10-26
Anticipated expiration: 2034-11-25
Also published as: US9698999B2; US20150154976A1; EP3077921B1; EP3077921A1; CN106062734B; WO2015084659A1; EP3077921A4

Abstract

自然语言控制的装置可以被配置成响应于一个或多个唤醒词来激活命令识别。提供技术以使得话音控制的系统能够检测或接收可用于进行控制的二级装置的指示。所述话音控制的系统与所述二级装置进行通信以便获得与所述二级装置相关的信息。所述话音控制的系统可以输出请求来自用户的与控制所述二级装置相关的音频输入数据的音频查询，并且基于所请求的音频输入数据生成用于识别一个或多个命令的至少一部分以便向所述二级装置发布一个或多个控制的识别数据。

Description

二级装置的自然语言控制

相关申请

本申请要求2013年12月2日提交的标题为“Natural Language Control ofSecondary Device(二级装置的自然语言控制)”的美国专利申请号14/094,270的优先权，所述专利申请以引用方式整体并入本文。

背景

家庭正变得布线更密且与计算装置(诸如台式计算机、平板电脑、娱乐系统和便携式通信装置)的激增更为密切相关。随着这些计算装置的逐步发展，已引入了允许用户与计算装置进行交互的许多不同方式，诸如通过机械装置(例如，键盘、鼠标等)、触摸屏、运动以及手势。与计算装置进行交互的另一种方式是通过自然语言输入，诸如语音输入。

使用自然语言输入来与计算装置进行交互提出了许多挑战。一个示例性挑战涉及通过初级计算装置或系统进行控制的二级装置的发现、配对和配置，所述初级计算装置或系统继而提供由用户输入的自然语言输入以便控制初级计算装置和二级装置。一般来说，用户可以通过点击窗口、按下触摸屏上的图标或使用非自然语言输入以其他方式明确地配置初级计算装置和二级计算装置来提供此类信息。然而，一些系统可能不将非自然语言输入提供给初级计算装置或者可能仅将有限的非自然语言输入提供给初级计算装置。

因此，当在此类情况下与自然语言控制装置进行交互时，需要用于提供令人满意的用户体验的技术。

附图简述

参照附图描述了详细的描述。在图中，参考数字中最左侧的数字标识首次出现所述参考数字的图。在不同的图中使用相同参考数字指示类似或相同的组件或特征。

图1是一些实现方式的说明性环境的示意图。

图2示出在话音控制的装置处实现所选择组件的功能框图。

图3示出在远程云服务处经由网络实现所选择组件的功能框图。

图4-9示出在图3的体系结构内的示例性操作，所述操作用于配置话音控制的装置、发现二级装置、将话音控制的装置与二级装置配对以及配置话音控制的装置以便基于来自用户的话音输入向二级装置发布指令、命令或控制。

图10示出在图3的体系结构内的示例性操作，所述操作用于配置话音控制的装置以便基于来自附加用户的话音输入向二级装置发布指令、命令或控制。

图11-12示出用于发现二级装置、将话音控制的装置与二级装置配对以及配置话音控制的装置以便基于来自用户的话音输入向二级装置发布指令、命令或控制的示例性过程。

图13示出用于配置话音控制的装置以便基于来自附加用户的话音输入向二级装置发布指令、命令或控制的示例性过程。

图14示出用于配置话音控制的装置以便基于来自用户的话音输入向多个二级装置发布指令、命令或控制的示例性过程。

详述

描述了用于通过自然语言输入经由初级语音响应装置来控制二级装置的技术。现今，一些计算装置需要用户利用物理按钮、软键、图形用户接口以及其他非自然语言输入以使得初级装置能够发现二级装置、与二级装置配对和/或配置二级装置的接口和/或控件。即使初级计算装置提供用于其他过程的自然语言输入，上述情况仍可能存在。此外，一些装置可能未装备有非自然语言输入能力或可能具有有限的非自然语言输入能力。然而，随着人机接口的逐步发展，用户可能希望并且甚至期望在不借助补充的非自然语言输入的情况下将此类自然语言命令提供给装置本身。

一般来说，自然语言输入可指示待执行的动作或命令。话音交互是自然语言命令的一种类型。因此，用户可以对计算装置讲话并且期望所述装置按照他或她的口头命令做出适当行动。例如，就语音输入来说，用户可以问“几点了？”并且期望计算装置进行正确的处理并且对查询做出回答。

当用户越来越适应通过语音控制装置时，出现了新的挑战。一个挑战是传统上未被认为是“智能的”一些装置在未来也许可通过语音进行控制。例如，用户可能想要说“打开台灯”，并且期望台灯照亮。

当此类二级装置被添加到环境时，另一个挑战是如何通过语音来发现并使用这些装置。假设用户收到新灯，并且想要通过语音来控制它。根据本文所述的技术，用户可以与自然语言控制的初级装置进行交互以发现二级装置、与二级装置配对和/或配置它们以用于话音控制操作。

自然语言命令并不限于语音，而是也可以提供为例如手写的命令等。因此，虽然本文所述的示例性实现方式和示例性使用情境涉及话音控制的装置，但是各实现方式并不限于此并且一般地可包括自然语言输入控制的装置。

图1是用户102利用话音控制的装置104来控制二级装置106的示例性情境100的说明。在图1中，二级装置被说明为台灯。提供图1以便帮助理解所公开的技术和系统。因此，应当理解，以下论述是非限制性的。

在所说明的情境100中，用户102先前已将话音控制的装置104配置成对用户102的自然语言命令做出响应。另外，用户102已使用自然语言命令通过话音控制的装置104执行了用于将话音控制的装置104与二级装置106配对(例如，建立控制链路)以及配置二级装置106的控件的过程。

如图1所示，用户102想要向话音控制的装置104使用话音命令来打开二级装置106。因此，用户102说出自然语言命令108，诸如“打开台灯”。话音控制的装置104的一个或多个麦克风可捕获对应于自然语言命令108的声波。在一些实现方式中，话音控制的装置104可以处理所捕获的信号。在其他实现方式中，一些或所有的声音处理可由通过一个或多个网络连接到话音控制的装置104的附加计算装置(例如，服务器)来执行。如果声音处理识别出有效的命令，那么话音控制的装置104可将对应的控制信号110输出到所谈论的二级装置106。在所说明的示例中，话音控制的装置104识别打开灯106的请求并且输出用于使灯106照亮的适当控制信号110。

在一些实现方式中，为了提供此类自然语言命令功能性，执行自然语言输入处理的话音控制的装置104或其他计算装置可以利用可定制的或用户特定的识别功能。例如，话音控制的装置104可以利用可定制的或用户特定的二级装置名称和/或可定制的或用户特定的命令。例如，第一用户102可以将图1的二级装置106称为“台灯(desk lamp)”并且第二用户102可以将图1的二级装置106称为“桌灯(table lamp)”。因此，在一些实现方式中，在基于来自话音控制的装置104的控制信号110对二级装置106进行配对和配置以便进行操作期间，话音控制的装置104可以要求用户102提供在控制二级装置106的过程中将使用的定制的和/或用户特定的名称或命令。

在一些实现方式中，定制的和/或用户特定的名称或命令可以与用户102(每个用户)的账户或配置文件(profile)和/或一组用户的账户或配置文件(例如，家庭名称)相关联。例如，图1的用户102的家庭成员可能将二级装置106称为“桌灯”。因此，用户102偶尔也可能将二级装置106称为“桌灯”并且用户102可在“桌灯”与“台灯”之间交替。为了便于用户102在此类情境下进行识别，用户102可能希望针对用户102的家庭为二级装置106指派定制的名称“桌灯”并且针对用户102的配置文件将用户特定的名称“台灯”指派给二级装置106。用户102的家庭的其他成员随后可得到提示或根据需要起始用于为图1的二级装置106提供用户特定的名称的过程。关于图14说明和描述了用于设置用户102的家庭的其他成员的账户和/或配置文件的此类示例性过程。

如以上所提及的，图1所说明的情境仅仅是为易于理解的一个示例，并且不意图作为对所公开的技术和系统的应用的限制。就本公开而言，额外的特征和变化对于本领域的普通技术人员来说将是显而易见的。

图2示出自然语言输入控制的装置(具体地，话音控制的装置200)的所选择的功能组件。话音控制的装置200可以类似于图1的话音控制的装置104并且实现上文关于其所论述的那些功能类似的功能。话音控制的装置200可以实现为独立式装置200(1)，所述独立式装置200(1)在功能能力方面是相对简单的，具有有限的输入/输出组件、存储器和处理能力。例如，话音控制的装置200(1)不具有键盘、小键盘或其他形式的机械输入。它也不具有便于视觉呈现和用户触摸输入的显示器或触摸屏。相反地，装置200(1)可以实现为具有接收和输出音频的能力、网络接口(无线的或有线的)、电源以及处理/存储能力。在某些实现方式中，可以采用一组有限的一个或多个输入组件(例如，用于起始配置的专用按钮、电源开/关等)。尽管如此，用户与装置200(1)进行交互的主要且可能唯一的模式是通过话音输入和可听输出。

话音控制的装置200还可以实现为移动装置200(2)，诸如智能电话或个人数字助理。移动装置200(2)可包括触敏显示屏和用于提供输入以及附加功能(诸如用于发送和接收电话呼叫的能力)的各种按钮。话音控制的装置200的替代实现方式还可包括作为个人计算机200(3)的配置。个人计算机200(3)可包括键盘、鼠标、显示屏以及在台式计算机、笔记本电脑、上网本或其他个人计算装置上常见的任何其他硬件或功能。装置200(1)、200(2)和200(3)仅仅是示例并且不意图进行限制，因为本公开中所述的技术基本上可用于具有识别语音输入或其他类型的自然语言输入的能力的任何装置中。

在所说明的实现方式中，话音控制的装置200包括一个或多个处理器202以及计算机可读介质204。在一些实现方式中，处理器202可包括中央处理单元(CPU)、图形处理单元(GPU)、CPU和GPU两者、微处理器、数字信号处理器或本领域中已知的其他处理单元或组件。可替代地或另外，本文所述的功能可至少部分地由一个或多个硬件逻辑组件来执行。例如并且非限制性地，可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统的系统(SOC)、复杂可编程逻辑装置(CPLD)等等。另外，每个处理器202可以处理其自身的本地存储器，所述存储器还可以存储程序模块、程序数据和/或一个或多个操作系统。

计算机可读介质204可包括以任何方法或技术实施以用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的易失性和非易失性的存储器、可移除和不可移除的介质。此类存储器包括但不限于RAM、ROM、EEPROM、快闪存储器或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学存储装置、磁盒、磁带、磁盘存储装置或其他磁性存储装置、RAID存储系统，或可用于存储所期望的信息并可由计算装置访问的任何其他介质。计算机可读介质204可以实现为计算机可读存储介质(“CRSM”)，所述CRSM可以是可由处理器202访问以执行存储在存储器204上的指令的任何可用的物理介质。在一个基本的实现方式中，CRSM可包括随机存取存储器(“RAM”)和快闪存储器。在其他实现方式中，CRSM可包括但不限于只读存储器(“ROM”)、电可擦可编程只读存储器(“EEPROM”)，或可用于存储所期望的信息并可由处理器202访问的任何其他有形介质。

若干模块(诸如指令、数据存储区(datastore)等等)可存储在计算机可读介质204内并且被配置成在处理器202上执行。一些示例性功能模块被示出为存储在计算机可读介质204中并在处理器202上执行的应用程序，不过可替代地，相同的功能性可在硬件、固件中实现或实现为片上系统(SOC)。

操作系统模块206可以被配置成用于管理装置200内的硬件和服务并且联接到所述装置200以有利于其他模块。二级装置交互模块208可以被配置成用于执行与发现二级装置、与二级装置配对和/或配置二级装置的接口和/或控件相关的操作。例如，如以上所论述的，一旦话音控制的装置已与二级装置配对，一些实现方式就可以提供定制的或用户特定的功能性，诸如用于二级装置的定制的和/或用户特定的名称或定制的和/或用户特定的命令。尽管在本文中被论述为“定制的”，但在一些实现方式中，可以向用户提供名称或命令并且要求用户说出所述名称或命令以允许话音控制的装置能够识别用户说出的名称或命令。语音处理模块210可以采用任何数量的常规语音处理技术，诸如使用语音识别、自然语言理解以及用于解释话音输入的广泛词汇。例如，语音处理模块210可以采用一般语音识别技术以及特定于控制二级装置106所使用的名称或命令的语音或短语识别。在一些实现方式中，语音处理模块210可以采用表示名称或命令本身的隐马尔可夫模型。这种模型可取决于特定的实现方式提前或在运行中创建。一旦被初始化并且激活，语音处理模块210的一些实现方式就进行操作以便检测所述语音处理模块210针对其进行编程或能够对其做出响应的自然语言命令中的任何一个。虽然在图1所示的特定实现方式中语音处理模块210被示出为用于执行二级装置名称和命令识别以及一般语音识别的单个模块，但是在其他实现方式中，这些功能可以是分开的。可替代地，二级装置名称和命令识别可以结合到二级装置交互模块208中。

话音控制的装置200还可包括存储在计算机可读介质204中的或装置200可以其他方式访问的多个应用程序212。在这个实现方式中，应用程序212是音乐播放器214、电影播放器216、计时器218以及个人购物顾问220。然而，话音控制的装置200可包括任何数量或类型的应用程序并且不限于此处示出的具体示例。音乐播放器214可以被配置成用于播放歌曲或其他音频文件。电影播放器216可以被配置成用于播放电影或其他视听媒体。计时器218可以被配置成用于提供简单计时装置和钟表的功能。个人购物顾问220可以被配置成用于帮助用户从基于网页的商家购买物品。

目前的数据存储区可包括装置交互数据存储区222和用户配置文件数据存储区224。装置交互数据存储区222可以存储在由二级装置交互模块208用于发现、配对和配置二级装置的数据。取决于二级装置和特定的实现方式，装置交互数据存储区222可以存储各种信息，诸如默认命令模板、针对多种类型的装置的建议名称、装置发现、配对和配置程序等。用户配置文件数据存储区224可以存储已与装置200进行交互的用户的一个或多个用户配置文件。用户配置文件数据存储区224可包括用户特性、偏好、用户特定的名称和命令(例如，与二级装置相关的用户特定的名称和命令)、使用历史、程序库信息(例如，音乐播放列表)、在线购买历史以及特定于个人用户的其他信息。装置交互数据存储区222和用户配置文件数据存储区224中的任一个或两个可以存储定制的但非用户特定的名称和命令等(例如，与二级装置相关的家庭名称和命令)。

一般来说，话音控制的装置200具有输入装置226和输出装置228。输入装置226可包括键盘、小键盘、鼠标、触摸屏、操纵杆、控制按钮等。在一些实现方式中，一个或多个麦克风230可以充当用于接收音频输入(诸如用户话音输入)的输入装置226。输出装置228可包括显示器、灯元件(例如，LED)、用于产生触觉感觉的振动器等。在一些实现方式中，一个或多个扬声器232可以充当用于输出音频声音的输出装置228。

用户102可以通过向话音控制的装置200讲话与其进行交互，并且一个或多个麦克风230捕获用户的语音。话音控制的装置200可以通过经由扬声器232发出可听陈述而传达回给用户。以这种方式，用户102可以仅仅通过语音而无需使用键盘或显示器来与话音控制的装置200进行交互。

话音控制的装置200可进一步包括无线单元234，所述无线单元234联接到天线236以便于无线连接到网络。无线单元234可以实现各种无线技术中的一种或多种，诸如Wi-Fi、蓝牙、RF等。可进一步提供USB端口238作为装置200的一部分，以便于有线连接到网络或与其他无线网络通信的插件网络装置。除USB端口238之外，或作为其替代方案，还可以采用其他形式的有线连接，诸如宽带连接。

因此，当实现为初级话音操作的装置200(1)时，可能不存在除麦克风230之外的输入装置，诸如导航按钮、小键盘、操纵杆、键盘、触摸屏等。此外，可能不存在用于文本或图形输出的输出装置，诸如显示器。扬声器232可以是主输出装置。在一个实现方式中，话音控制的装置200(1)可包括非输入控制机构，诸如用于增大/减小音量的基本音量控制按钮以及电源按钮和重置按钮。还可存在例如当电源开启时用于指示状态的简单灯元件(例如，LED)。

因此，装置200(1)可以实现为美学上吸引人的装置，其具有平滑且圆形的表面并且具有用于传递声波的一个或多个孔口。装置200(1)可仅仅具有电源线和任选地有线接口(例如，宽带、USB等)。因此，装置200(1)一般可以在较低的成本下生产。一旦被插上电源，装置就可以自动地或在稍微借助于用户的帮助进行自配置，并且准备好以供使用。在其他实现方式中，可以将其他I/O组件添加到这个基本模型，诸如专用按钮、小键盘、显示器等。

图3说明示例性体系结构300，其示出其中可通过云服务302提供装置200的一些或所有功能组件的装置200的替代实现方式。云服务302一般是指网络可访问的平台，其实现为处理器、存储装置、软件、数据访问等的计算基础结构，所述计算基础结构通过网络304(诸如互联网)维持并可访问。云服务302可能不需要终端用户了解递送服务的系统的物理位置和配置。与云服务相关联的常见表达包括“按需计算”、“软件即服务(SaaS)”、“平台计算”、“网络可访问平台”等。

在这个实现方式中，装置200可以被配置成具有一个或多个本地二级装置交互模块306以及在向处理器202提供指令的计算机可读介质204中可用的一个或多个本地模块308。一个或多个本地二级装置交互模块306可以代表远程云服务302或响应于来自远程云服务302的指令来执行与二级装置106的发现、配对和配置中的一个或多个相关的功能。例如，在根据图3的一些实现方式中，可以由远程云服务302来执行对包括定制的或用户特定的二级装置名称或命令的自然语言输入数据的处理。如以下将更详细地论述的，在此类实现方式中，模块306可以进行操作以便执行装置上操作和交互，从而允许云服务302执行那些任务(例如，致使装置200输出控制信号，记录自然语言输入数据等)。本地模块308可提供基本功能，诸如创建到网络304的连接和对从麦克风230接收的数据的初始处理以及控制输出装置(诸如扬声器232)。与图1和图2中描述的装置和系统相关联的其他功能可以由远程云服务302提供。

云服务302包括一个或多个网络可访问装置310，诸如服务器312。服务器312可包括一个或多个处理器314和计算机可读介质316。服务器210的处理器314和计算机可读介质212与装置200的处理器202和计算机可读介质204物理地分开，但是可以共同作为系统的一部分起作用，所述系统提供部分地在装置200上并且部分地在云服务302上的处理和存储器。这些服务器312可以任何数量的方式来布置，诸如数据中心中常用的服务器场、堆栈等。

此外，在一些实现方式中，至少一部分的图1所示的二级装置交互模块208、语音处理模块210和/或应用程序212中的任何一个可位于云服务302的计算机可读介质316中。因此，用于实现本公开中所包含的特征的相应模块的特定位置不受限制并且以下论述同样适用于包括本地装置、基于云的服务或其组合的任何实现方式。例如，在云服务302的本地二级装置交互模块306与二级装置交互模块208之间的功能性的分布可在不同的实现方式之间变化，从而使得可在话音控制的装置200上执行不同量的处理(例如，基于话音控制的装置200的特定实现方式的能力)。在平衡话音控制的装置200与云服务302之间的处理分布的另一个示例中，在其中语音处理模块210位于云服务302的计算机可读介质316中的实现方式中，本地二级装置交互模块308和/或本地模块308可以提供用于识别关于二级装置的名称和命令的功能性，并且可以本地处理命令生成或向远程语音处理模块210提供额外的信息作为起始点。

一般来说，在其中话音控制的装置200允许用户定义或选择用于二级装置的定制的或用户特定的名称或定制的命令的实现方式(与其中名称和命令是预定义的或以其他方式为用户不可选择的实现方式相反)中，话音控制的装置200可提示用户用于二级装置的定制的或用户特定的名称或定制的或用户特定的命令格式。本地模块308可以操作麦克风230来捕获用户的响应作为音频数据。本地二级装置交互模块308可以将音频数据连同用户、二级装置的标识和/或用于链接到音频数据的指令转发给云服务302。服务器312的二级装置交互模块208和/或语音处理模块210可以对用户响应的音频数据进行评估和/或处理以便生成可用于识别名称或命令的数据。服务器312的二级装置交互模块208随后可存储导出数据，所述导出数据用于识别名称或命令并且发布待发送到二级装置的对应指令。例如，用于识别与二级装置相关联的名称或命令的数据可存储在散列表或其他此类存储装置中，所述存储装置具有到用户配置文件的链接以及在定制的命令的情况下有待在识别出所述命令时向二级装置发布的一个或多个指令。

图4-10说明上文关于图3所描述的示例性体系结构300中的实现方式的操作，所述体系结构包括话音控制的装置200和云服务302。具体地，图4说明阶段400的示例性操作，在所述阶段400中，用户建立针对用户102的用户账户或配置文件(在下文中称为用户账户)。图5-9说明示例性阶段500-900，其具有用于发现二级装置、将话音控制的装置200与二级装置配对以及建立针对用户102的话音控制的操作。图10说明阶段1000的示例性操作，通过所述阶段1000，第二用户可以建立针对第二用户的对二级装置的话音控制。

图4示出其中用户102利用话音控制的装置200和云服务302设置用户账户的示例性情境400。假设话音控制的装置200具有电源并且已通过网络304(例如通过Wi-Fi或连接到互联网的其他局域网)连接到云服务302。在一些实现方式中，在初始上电并且与云服务302连接之后，话音控制的装置200可以起始与用户102的交互以便设置用户账户。另外或可替代地，用户102可以按下话音控制的装置200上的按钮以起始过程(例如，位于话音控制的装置200底部上的按钮)。当然，这些仅仅是示例并且可以利用任何数量的交互来起始设置过程。

一旦起始所述过程，话音控制的装置200就可请求用户账户的名称。例如，话音控制的装置200可以输出短语402“请为您的用户账户命名。”话音控制的装置200随后可以检测并记录用户响应404(“用户1”)的音频数据。所记录的音频数据连同附加信息随后可以作为编程数据和用户配置文件名称音频数据406被发送到云服务302，所述附加信息诸如话音控制的装置200的标识、话音控制的装置200的用户群组的标识符等。

云服务302的服务器312可以利用数据406来设置用户102的账户。此类账户可以链接到或包括用户配置文件信息，诸如语音识别数据、由用户102选择的二级装置名称以及其他定制。此外，用户账户可以链接到将用户的用户账户连接到话音控制的装置200的装置记录。如以上所提及的，还可能存在可由话音控制的装置200的任一用户使用的家庭名称或默认名称。这个数据可以链接到此类装置账户或存储在其中。一旦完成用户账户设置(及其它信息设置)，云服务就可以向话音控制的装置200发布确认消息408。在一些实现方式中，话音控制的装置200可以输出设置过程已成功的指示(未示出)。

以上设置过程是示例并且不意欲被认为是限制本文所公开的技术和系统的实现方式。

如以上所提及的，图5-9说明话音控制的装置200和云服务302的操作，包括与用户102进行交互以便将话音控制的装置200和云服务302配置成基于至话音控制的装置200的话音输入来控制二级装置。图5-9中的每个图说明在交互中的阶段。

图5说明处于交互中的阶段500的示例性体系结构300，所述阶段开始于用户102给将要通过至话音控制的装置200的话音输入进行控制的二级装置502通电。在图5的示例中，二级装置502被说明为落地灯，但这并不意欲暗示对根据本文所公开的系统和技术的二级装置的类型、形式、功能或任何其他方面进行任何限制。

在一些实现方式中，二级装置502可包括一个或多个处理器504和计算机可读介质506。一般来说，一个或多个处理器504和计算机可读介质506与一个或多个处理器202、计算机可读介质204、一个或多个处理器314和计算机可读介质316是分开的，但可以与上文关于图2和图3所述的类型和/或配置类似或不同。

计算机可读介质506可以存储一个或多个本地模块508，所述本地模块执行二级装置502的各种功能中的至少一些功能。例如，在一些实现方式中，本地模块508可包括用于致使初级装置接口510与话音控制的装置200和/或其他初级装置进行交互以执行其他功能(例如，由话音控制的装置200请求的功能)的指令。

二级装置502还可包括与二级装置502的其他功能相关的附加组件512。例如，图5所示的二级装置502被说明为灯。在此类实现方式中，二级装置502可包括用于响应于与话音控制的装置200的交互来打开/关闭灯泡的附加组件512。当然，图5所说明的实现方式仅仅是示例并且二级装置502的许多变化也是可能的。

在所说明的实现方式中，在给二级装置502供电之后，二级装置502开始输出发现起始传输514。发现起始传输514可以向在接近二级装置502的区域中的装置指示二级装置502存在并且可以进行配对以便由另一装置进行外部控制。例如，发现起始传输514可包括由话音控制的装置200用来与二级装置502进行通信的信息。话音控制的装置200接收发现起始传输514，且对发现起始传输514的所述接收导致交互中的下一个步骤，并且下文关于图6来描述进一步的交互。

图6说明处于交互中的阶段600的示例性体系结构300，所述阶段是在话音控制的装置200接收到发现起始传输514之后。

在这个阶段600，话音控制的装置200传输针对关于二级装置502的附加信息的请求602以允许话音控制的装置200控制二级装置502。作为响应，二级装置502传输回复604，所述回复604包括所请求的关于二级装置的信息和/或由话音控制的装置200用来控制二级装置502的控制信息。此时，在所说明的实现方式中，将话音控制的装置200和二级装置502配对，以实现无线通信和由话音控制的装置200来控制二级装置502的目的。图7-9说明话音控制的装置200和云服务302的配置过程的阶段，以实现通过话音控制的装置200对二级装置502进行话音控制。

上文关于图5和图6所描述的发现和配对序列仅仅是示例并且许多变化也是可能的。以下提供一些示例性变化。

在一些实现方式中，可以在话音控制的装置200上起始发现过程。例如，用户可以按下话音控制的装置200上的按钮或者说出用于起始发现新二级装置(例如，在接近话音控制的装置200的区域中)的短语。例如，用户102可以说出短语“搜索新装置”来开始发现过程。

关于图5和图6所论述的过程包括话音控制的装置200在接收到来自二级装置502的附加信息后即刻自动地与二级装置502进行配对。另外或可替代地，话音控制的装置200可以在完成与二级装置502的配对之前请求用户同意或确认。例如，话音控制的装置200可以输出短语“我已检测到新灯。您想要我与新灯进行配对吗？”如果用户以肯定形式回复，那么此类实现方式的话音控制的装置200可以完成配对过程(例如，通过与二级装置502交换附加的通信)。

另一种示例性类型的变化一般地可以与发现和配对过程相关。发现和配对过程中的此类差异可能是由于可具有不同配对过程的不同通信协议所致。例如，一些装置可以与服务器进行通信以便发现新装置(例如，通过使用HTTP或restful API)。其他装置可以扫描已知的地址范围或者扫描或收听已知的通信信道。一些示例性通信协议包括Zigbee^TM、Z-Wave^TM、Bluetooth^TM、Wi-Fi^TM、Wi-Fi Direct^TM以及Insteon^TM。这些和其他协议中的每一个具有指定的发现和配对过程。如本领域的普通技术人员将理解的，根据本公开，上文关于图5和图6提供的过程可适于说明由话音控制的装置200与二级装置502之间的通信所使用的通信协议引起的发现和配对过程。

在这个阶段或其他阶段，可以在话音控制的装置200与二级装置502之间交换附加信息。例如，在其中二级装置502将要连接到用户的家用网络的情况下，话音控制的装置200可以向二级装置502提供连接信息以允许二级装置502连接到家用网络而用户不必手动地提供此类细节(例如，代替用户手动地提供Wi-Fi网络标识和安全信息，话音控制的装置200可以将这个信息提供到二级装置502)。可关于其中装置200与502的配对和正常通信是通过家用网络进行的实现方式来说明另一个示例。在一些此类实现方式中，可通过第一协议(例如，Wi-Fi Direct)输出初始发现起始传输，话音控制的装置200和二级装置502通过所述第一协议交换家用网络细节。一旦二级装置502已连接到家用网络，就可使用第二协议(例如，Wi-Fi)通过家用网络来实施配对过程的其余部分以及稍后的交互。

此外，上文关于图5和图6所论述的过程包括对话音控制的装置200独立于云服务302来执行发现和配对过程的论述。然而，在一些实现方式中，云服务302可以执行发现操作和/或配对操作中的至少一些。在一些此类实现方式中，话音控制的装置200的本地二级装置交互模块306可以进行操作以便检测来自二级装置502的发现起始传输并且将信息转送到云服务302。云服务302可以执行用于实施配对过程的处理并且命令话音控制的装置200代表云服务302与二级装置502进行通信。其他实现方式可具有话音控制的装置200与云服务302之间的不同的操作分布。

如以上所顺便提到的，图7说明处于交互中的阶段700的示例性体系结构300，所述阶段是在话音控制的装置200与二级装置502配对之后。一般来说，阶段700说明用于从用户102获得话音音频输入数据的示例性操作，所述话音音频输入数据包括用户102在发布用于二级装置502的话音命令时将使用的二级装置502的名称。

如图7所说明，话音控制的装置200可以输出提示用户二级装置502的名称的短语。具体地，话音控制的装置200输出短语702“我已检测到新灯。您想要如何命名这个灯？”在所说明的示例性实现方式中，话音控制的装置200利用回复604中所包括的附加信息来告知用户已检测到的二级装置502的类型(即，新灯)。在一些实现方式中，话音控制的装置200可以告知用户102已检测到二级装置而未辨识出装置的类型。例如，二级装置502的制造商可能未包括让二级装置502将二级装置502的类型告知话音控制的装置200的能力。在此类情况下，话音控制的装置200可以输出短语“我已检测到新装置。您想要如何命名这个新装置？”

响应于话音控制的装置200输出的问题702，用户102可以说出新二级装置502的名称。在所说明的示例中，用户102用短语704“厨房灯”进行回复。换句话说，用户102指出用户在其与话音控制的装置200进行交互以控制二级装置502时将把二级装置502称为“厨房灯”。话音控制的装置200的麦克风230可以捕获这个回复作为语音输入数据。

图8说明处于交互中的阶段800的示例性体系结构300，所述阶段是在话音控制的装置200捕获对应于用户回复704的音频数据之后。一般来说，阶段800说明用于向云服务302提供与二级装置502相关的信息和由用户102提供的二级装置502的名称的示例性操作。使用所提供的信息，云服务302可以设置用户配置文件以实现用于基于由用户102指示的名称来控制二级装置502的操作。

如图8所示，话音控制的装置200的模块306可以进行操作以便将与二级装置相关的数据和所捕获的语音输入数据802发送给云服务302。云服务302使用所述数据来设置用户配置文件以允许通过话音控制的装置200来控制二级装置502。以这种方式，来自用户102的未来语音输出(包括命令和用户提供的名称(例如，厨房灯))可用来控制二级装置502。

更具体地，在接收到数据802后，模块208或210中的一个或多个即刻可将802的语音输入数据转换成将由语音处理模块210利用的语音识别数据。二级装置交互模块208还可以进行操作以生成与用户102的用户账户相关的二级装置记录。此类二级装置记录可包括关于二级装置502的信息以及与二级装置502的功能相关的信息，以允许云服务302确定可由话音控制的装置200实行的可能控制。例如，用于被说明为二级装置502的灯的二级装置记录可包括：

(1)二级装置502的标识符；

(2)二级装置502的装置类型；

(3)二级装置502的型号和/或制造商；

(4)由话音控制的装置200的用户指派给二级装置502的名称的列表连同用于允许语音处理模块210识别所述名称的语音识别数据；以及

(5)可由话音控制的装置200控制的二级装置502的功能的列表连同用于允许语音处理模块210识别话音命令的语音识别数据以及用于允许云服务致使话音控制的装置200向装置502输出命令所需的任何附加信息和用于二级装置502的适当格式。

可视情况基于特定实现方式针对任何装置账户或家庭账户执行类似操作。

一旦已利用用户102的账户设置了二级装置502，云服务302就可以将确认消息804传回到话音控制的装置200。确认消息804可致使话音控制的装置200输出设置已完成的音频指示(参见图9)，和/或可致使话音控制的装置200根据需要进行与二级装置502的任何附加通信以完成配对过程(即，在其中所述过程先前未完成的实现方式中)。

图9说明处于交互中的阶段900的示例性体系结构300，所述阶段是在话音控制的装置200接收到确认消息804之后。一般来说，图9所示的阶段900说明用于验证话音控制的装置200和云服务302的配置以便基于来自用户102的话音输入来控制二级装置502的示例性操作。

如图9所示，在接收到确认消息804之后，话音控制的装置200输出设置已完成的确认并且请求用户102测试二级装置控件。具体地，话音控制的装置200输出短语902“厨房灯的设置已完成。请说‘打开厨房灯，’来测试这个设置。”在图9的所说明示例中，用户102应允所述请求并且说出短语904“打开厨房灯。”话音控制的装置200的麦克风230捕获语音904作为用于测试的语音数据906。话音控制的装置200的本地二级装置交互模块306可以进行操作以便将用于测试的语音数据906发送给云服务302。取决于实现方式，话音控制的装置200可以包括或可以不包括对云服务302的以下指示：语音数据906是用于测试目的。换句话说，在一些实现方式中，云服务302可以与并非用于测试目的的语音数据相同的方式对用于测试的语音数据906进行操作。在其他实现方式中，可告知云服务302数据906的目的和/或云服务302可执行除通常应用于通用语音输入数据的处理之外的处理。

在接收到用于测试的语音数据906后，云服务302的语音处理模块210即刻可以进行操作以便执行语音识别并且尝试将用于测试的语音数据906与跟二级装置502(与用户帐户相关联)相关联的命令进行匹配，其中二级装置的名称是在所述命令的适当上下文中。例如，用于打开二级装置502的命令格式可以采用“打开[指派的名称]”的形式，其中针对待识别的命令，用由用户102为二级装置502提供的名称来代替文字“[指派的名称]”。因此，包括短语904“打开厨房灯”的用于测试的语音数据906被匹配到二级装置502(即，被命名为“厨房灯”的二级装置)的打开命令。如果发现匹配，那么云服务302可以进行操作以便确定话音控制的装置200应当向二级装置502发布来实现所识别命令的指令。这个信息可被提供到话音控制的装置200，以作为所说明的用于对所识别命令做出响应的信息908。

在接收到用于对所识别命令做出响应的信息908后，话音控制的装置200即刻可以利用信息908来向二级装置502发布适当的指令以便实现所识别命令(即，打开二级装置502)。

图10说明在其中针对附加用户1002设置话音控制的装置200以便控制二级装置502的情境1000下的示例性体系结构300。例如，附加用户1002可以是用户102的家庭的成员并且具有已利用话音控制的装置200和云服务302设置的用户账户。在用户102已利用话音控制的装置200设置并配置了二级装置502以便进行操作之后，在用户1002与话音控制的装置200进行交互的下一个时刻话音控制的装置200可以提示用户1002提供针对二级装置502的设置信息。

如图10所示，当用户1002开始与话音控制的装置200进行交互或者被话音控制的装置200检测到时，话音控制的装置200可以输出短语1004，诸如“用户1设置了新灯。对于这个新灯您想用什么名称？”作为响应，用户1002提供“灯”的回复1006。话音控制的装置200的麦克风230可以捕获呈语音输入数据形式的用户回复1006。

话音控制的装置200可以将语音输入数据和标识二级装置502的装置信息以消息1008的形式发送给云服务302。标识二级装置的装置信息可用来定位装置记录和/或用户1002的用户账户。一旦定位了记录，就可以利用语音输入数据生成用于识别由用户1002指派给二级装置502的名称的语音识别数据。类似于第一用户的设置，可以将确认消息1010传回给话音控制的装置200并且话音控制的装置200可以告知用户操作成功。

图4-10所说明的用于将话音控制的装置200和云服务302配置成基于来自用户102的语音数据控制二级装置502的技术仅仅是代表性的并且既不意图覆盖综合性列表，也不以任何方式进行限制。可以使用用于实现将话音控制的装置200和云服务302配置成基于来自用户102的语音数据控制二级装置502的这些和其他可能的特定技术，并且实现方式并不限于任何特定的技术。

图11和图12示出示例性过程1100和1200，其用于执行话音控制的装置200和云服务302的发现、配对和配置以便基于来自用户的话音输入控制二级装置502。过程1100和1200可以通过图3的话音控制的装置200和服务器312或通过其他装置来实现。在逻辑流图中，这个过程被说明为方框或动作的集合。一些方框表示可以硬件、软件或其组合来实现的操作。在软件的上下文中，方框表示存储在一个或多个计算机可读介质上的计算机可执行指令，当由一个或多个处理器执行时，所述计算机可执行指令执行所列举的操作。一般来说，计算机可执行指令包括例行程序、程序、对象、组件、数据结构等，其执行特定功能或实现特定抽象数据类型。描述操作的顺序不意图被解释为具有限制性，并且任何数量的所描述方框可以任何顺序和/或并行地组合以实现所述过程。

出于描述一个示例性实现方式的目的，在图11-12中，方框在视觉上被布置成呈话音控制的装置200、二级装置502和服务器312下方的列的形式，以便说明系统300的这些装置可以执行这些操作。也就是说，由布置在话音控制的装置200下方的方框来定义的动作可由话音控制的装置200执行，并且类似地，由布置在二级装置502和服务器312下方的方框来定义的动作可分别由二级装置502和一个或多个服务器312执行。

在1102处，二级装置502可以开始输出发现起始传输。如上文关于图5所论述的，此类发现起始传输可以向在接近二级装置502的区域中的装置指示二级装置502存在并且可以进行配对以便由另一装置进行外部控制。

在1104处，话音控制的装置200可以检测来自二级装置502的发现起始传输。在1106处，话音控制的装置200可以向二级装置查询附加信息(例如，装置类型、配置文件、接收(sink)等)并且视实现方式的情况提供关于话音控制的装置200的信息。如以上所提及的，还可以向二级装置502提供附加和/或其他信息。例如，可以提供信息以使得二级装置502能够连接到网络(用户的家用网络)。

在1108处，二级装置502传输回复，所述回复包括所请求的关于二级装置的信息和/或由话音控制的装置200用来控制二级装置502的控制信息。在1110处，话音控制的装置200接收来自二级装置502的回复并且处理所述信息以完成配对过程。

在1112处，当话音控制的装置200检测到用户102存在时，话音控制的装置200输出对用户102的音频查询以便获得例如二级装置502的名称。在1114处，话音控制的装置200捕获麦克风230处的语音输入。过程随后在图12中的1202处继续。

在1202处，话音控制的装置200将语音输入数据(视情况，以及其他信息)发送到服务器312以便向与用户相关联的账户注册二级装置502。在1204处，服务器312执行分析以便向用户的账户注册装置并且将语音输入数据处理成可由语音处理模块210用来识别由用户指派给装置的名称的语音识别数据。服务器312随后可将注册确认发送到话音控制的装置200，连同将用于请求用户102测试配置的指令发送到话音控制的装置200。

在1206处，话音控制的装置200可以接收注册确认和用于请求用户102测试配置的指令。在1208处，话音控制的装置200可以向用户102输出用于测试配置的音频请求(例如，请求用户说出对应于命令并且包括指派给二级装置的名称的短语)并且捕获来自用户102的测试语音输入。在1210处，话音控制的装置200可以将所捕获的测试语音输入数据发送到服务器312。

在1212处，服务器可根据先前针对指派给二级装置的名称生成的语音识别数据来对测试语音输入数据执行语音识别以便将测试语音输入数据匹配到与二级装置502(其与用户的账户相关联)相关联的命令，其中二级装置的名称是在所述命令的适当上下文中。如以上所提及的，可以使用任何数量的常规语音识别技术(诸如使用隐马尔可夫模型、高斯混合模型、自然语言处理和/或用于解释话音输入的广泛词汇)来执行语音识别。

在1214处，服务器可以将指令传回给话音控制的装置200以便命令二级装置502执行所识别的一个或多个命令。在1216处，话音控制的装置200可以接收由对测试语音输入数据的处理而产生的指令(例如，用于将“打开”命令输出到所发现的装置的指令)。

在1218处，话音控制的装置200可以执行从服务器接收到的指令，并且向二级装置502发布命令(例如，命令灯装置打开)。

图13示出用于在已针对用户102对装置进行配置之后执行话音控制的装置200和云服务302的配置以便基于来自第二用户(例如，用户1002)的话音输入来控制二级装置502的示例性过程1300。因为话音控制的装置200和云服务302与二级装置502配对或以其他方式能够控制二级装置502，所以所述过程可不同于以上所论述的过程。过程1300可以通过图3的话音控制的装置200和服务器312或通过其他装置来实现。出于简洁的目的，针对图13假设第二用户1002具有包括话音控制的装置200和服务器312的账户但未被配置成用于控制二级装置502。

在1302处，在与附加用户进行交互或检测到附加用户的存在后，话音控制的装置200即刻可以确定附加用户尚未被配置成用于控制二级装置(例如，已由话音控制的装置200的另一用户(诸如用户102)设置的二级装置)。在1304处，话音控制的装置200可以向附加用户输出指示另一用户已添加了新二级装置并且询问用户想要如何称呼所述二级装置的音频查询。

所述过程随后继续进行先前所论述的图11-12的过程(在方框1114处开始并且继续到方框1216)。当然，一些实现方式将包括至少一些细微的变化以说明已向云服务302注册了二级装置502。这些和许多其他变化是可能的。

图14示出用于执行话音控制的装置200和云服务302的配置以便基于来自用户102的话音输入来控制多个二级装置502的示例性过程1400。例如，在根据图14的一些实现方式中，用户102可以设置定制的命令以便产生待发布到第一二级装置以及一个或多个第二二级装置的指令。作为更具体的示例，用户102可能希望创建定制的命令以便激活用户娱乐中心(例如，电视机和蓝光播放器)的剧场模式并且还致使在娱乐中心所处的房间中的至少一个窗户上的百叶窗关闭。当然，应当理解，本文所公开的技术和系统不包括对可通过单个定制命令控制的附加二级装置的数量的限制。例如，除百叶窗之外，用于激活剧场模式的定制命令还可导致照明的变化，诸如关掉房间中的灯或将其调暗。

在1402处，话音控制的装置200可以接收由用户102做出的设置定制命令的云服务302请求并对其做出回复。例如，话音控制的装置200的麦克风230可以捕获“请设置定制命令。”的用户陈述。语音处理模块210可以进行操作以便处理并识别命令。

在1404处，云服务302可以命令话音控制的装置200来请求用户102辨识命令的字词。例如，话音控制的装置200可以输出短语“您的定制命令的字词是什么？”麦克风230随后可以捕获用户响应作为音频数据并且将所述数据发送到云服务以便进行处理和识别。例如，用户102可以回复“将我的客厅设为电影观看模式。”因此，云服务302可以识别出命令“将我的客厅电视机设为电影观看模式”将要执行用户指定的动作。

在1406处，云服务302可以命令话音控制的装置200来请求用户102辨识待执行的装置命令作为定制命令的一部分。例如，话音控制的装置200可以输出短语“当您的客厅处于电影观看模式时您想要发生的第一个动作是什么？”麦克风230随后可以捕获用户响应作为音频数据并且将所述数据发送到云服务以便进行处理和识别。例如，用户102可以回复“关掉客厅的灯。”因此，响应于定制命令“将我的客厅电视机设为电影观看模式”，云服务302可以识别并且添加命令“关掉客厅的灯”作为待执行的动作。云服务302可以命令话音控制的装置200来询问是应将附加动作添加到定制命令还是用户是否已完成。

在1408处，当用户指出用户已完成时，云服务302可以创建针对“将我的客厅设为电影观看模式”的定制命令记录以致使待执行的指定动作与定制命令相结合。

以上提供的对绑定到特定话音命令的多个动作的论述是示例并且不意图暗示对本文所公开的技术和系统的实现方式的任何限制。许多变化是可能的并且被认为在本公开的范围内。例如，在上文关于图14所提供的示例中，响应于定制的话音命令来执行多个装置。在一些实现方式中，可允许用户修改现有的或预定义的命令，从而使得现有的话音命令被绑定到或执行附加命令。在特定示例中，代替设置新命令(诸如“将客厅设置为剧场模式”)，用户也许能够将“在剧场模式下打开客厅电视机”命令修改为在剧场模式下打开电视机、关闭百叶窗、关掉客厅灯或将其调暗等等。

就本公开而言，上述技术和系统的其他变化对于本领域的普通技术人员来说将是显而易见的，并且本文所公开的系统的实现方式并不限于任何特定的技术。

例如，在一些实现方式中，二级装置502可以是待控制其电源的另一装置的电源装置。在特定的示例中，待控制其电源的装置可以是标准的或“哑”灯。二级装置502可以是灯插入其中并且继而插入电源(例如，壁式插座)中的装置。此类电源装置可基于从话音控制的装置200接收的控制信号来将灯的电源接通和断开。在另一个这样的示例中，二级装置502可以是多个装置插入其中的电源板。当新装置插入电源板中时，电源板可以与以上论述的方式类似的方式进行操作以便起始用于新装置插入其中的电源板的特定出口的配置过程。在此类情况下，可能先前已完成了配对，并且装置配置文件、用户配置文件和/或配置文件可能已更新以允许将与电源板相关联的不同的和/或附加的装置名称和命令以及更具体地用于控制灯插入其中的出口的命令。

在另一种变化中或另外，二级装置502可响应于命令将信息发送回到话音控制的装置200。例如，在命令导致错误的情况下，二级装置可以将错误传回给话音控制的装置200并且话音控制的装置200可以对错误进行处理并输出告知用户所述错误的音频信号。

在再另一种变化中或另外，可通过其他方式(例如，二级装置502上的按钮)来控制二级装置502，并且二级装置502可响应于替代的输入将信息发送到话音控制的装置。例如，二级装置502可具有打开按钮，并且二级装置502可以在按下所述按钮时向话音控制的装置200输出通知以便告知话音控制的装置二级装置502的状态已改变，从而允许话音控制的装置密切注意二级装置502的状态。在此类特征于图4的上下文中的示例性使用中，用户可能会问“灯打开了吗？”，并且话音控制的装置200可用二级装置502的状态做出响应而不需要对二级装置502进行查询。

结论

尽管已用特定于结构特征的语言描述了主题，但是应当理解，所附权利要求中定义的主题不必限于所述的特定特征。实际上，具体特征是作为实施权利要求书的说明性形式来公开的。

条款

1.一种计算系统，其包括：

一个或多个处理器；

一个或多个非暂态计算机可读存储介质，其存储计算机可执行指令；

二级装置控制指令，其维持在所述一个或多个非暂态计算机可读存储介质中并且由所述一个或多个处理器执行以：

检测二级装置；

与所述二级装置进行通信以使得所述二级装置能够连接到网络并且获得与所述二级装置相关的信息；

致使从用户输出与控制所述二级装置相关的音频查询请求信息；

从所述用户接收包括所述所请求的信息的第一音频输入数据；

致使对所述第一音频输入数据执行第一语音处理，其中所述第一语音处理的输出包括识别数据；

接收包括用于所述二级装置的命令的第二音频输入数据；

致使对所述第二音频输入数据执行第二语音处理，其中所述第二语音处理使用所述识别数据；并且

至少部分地基于所述第二语音处理的输出，与所述二级装置进行通信以致使所述二级装置执行所述命令的至少一部分。

2.如条款1所述的系统，其中用于与所述二级装置进行通信的所述指令致使通过直接连接来进行通信并且使得所述二级装置能够无线地连接到局域网(LAN)。

3.如条款1所述的系统，其中对来自所述用户的所述信息的所述请求包括请求所述用户输入在控制所述二级装置时将使用的口头标识符的至少一部分。

4.如条款1所述的系统，其进一步包括用于以下的指令：通过提示所述用户说出至少部分地基于所述第一音频输入数据的短语而致使向所述用户输出测试所述所生成的识别数据的请求。

5.如条款1所述的系统，其进一步包括用于以下的指令：

从用户接收包括与创建定制命令相关的信息的第三音频输入数据；

致使对所述第三音频输入数据执行第三语音处理；

从用户接收包括对应于所述定制命令的至少一个待执行动作的第四音频输入数据；

致使对所述第四音频输入数据执行第四语音处理；

配置所述定制命令以便调用所述第一动作和第二动作。

6.一种方法，其包括：

接收可用于进行控制的二级装置的指示；

与所述二级装置进行通信以便获得与所述二级装置相关的信息；

从所述用户接收包括所述所请求的信息的音频输入数据；以及

致使对所述音频输入数据执行第一语音处理，其中所述第一语音处理的输出包括识别数据。

7.如条款6所述的方法，其进一步包括与所述二级装置进行通信以使得所述二级装置能够连接到网络。

8.如条款6所述的方法，其中所述所请求的信息包括用于所述二级装置的口头标识符的至少一部分。

9.如条款6所述的方法，其进一步包括致使输出提示所述用户说出至少部分地基于所述音频输入数据的短语的附加音频查询，以便测试所述识别数据。

10.如条款6所述的方法，其中请求来自所述用户的与控制所述二级装置相关的信息的所述音频查询包括关于所述二级装置的信息。

11.如条款10所述的方法，其中关于所述二级装置的所述信息指示所述二级装置的类型。

12.如条款11所述的方法，其进一步包括：

接收包括用于所述二级装置的命令的第二音频输入数据；

13.如条款6所述的方法，其进一步包括：

致使对所述第三音频输入数据执行第三语音处理，所述第二所识别命令与配置特定命令以便调用多个二级装置的功能有关；

致使对所述第四音频输入数据执行第四语音处理；以及

配置所述定制命令以便调用所述第一动作和第二动作。

14.如条款6所述的方法，其中使用至少一个协议来控制所述二级装置，所述至少一个协议是Zigbee、Z-wave、Insteon、蓝牙、Wi-Fi或Wi-Fi Direct中的至少一个。

15.一种或多种非暂态计算机可读存储介质，其存储可在至少一个计算装置中执行的计算机可执行指令，于是所述计算机可执行指令的执行致使执行包括以下各者的操作：

与二级装置进行通信以便获得与控制所述二级装置相关的信息；

致使从用户输出随后可用于控制所述二级装置的信息的可听请求；

从所述用户接收包括所述所请求的信息的自然语言输入数据；以及

致使对所述自然语言输入数据执行第一语音处理，其中所述第一语音处理的输出包括识别数据。

16.如条款15所述的一种或多种计算机可读介质，其中所述识别数据是与装置的多个用户中的第一用户相关联的第一识别数据，所述装置与所述一个或多个处理器相关联；

所述指令进一步包括：

用于存储所述第一识别数据以使得所述第一识别数据与所述二级装置和所述第一用户相关联的指令；

用于存储第二识别数据以使得所述第二识别数据与所述二级装置和第二用户相关联的指令；以及

用于存储第三识别数据以使得所述第三识别数据与所述二级装置、所述第一用户和所述第二用户相关联的指令。

17.如条款16所述的一种或多种计算机可读介质，其中所述第一识别数据、第二识别数据和第三识别数据存储在散列表中。

18.如条款15所述的一种或多种计算机可读介质，其中对来自所述用户的与控制所述二级装置相关的信息的所述可听请求包括关于所述二级装置的信息。

19.如条款18所述的一种或多种计算机可读介质，其中关于所述二级装置的所述信息指示所述二级装置的类型。

20.如条款15所述的一种或多种计算机可读介质，所述指令进一步包括用于与所述二级装置进行通信以使得所述二级装置能够连接到网络的指令。

21.如条款15所述的一种或多种计算机可读介质，所述指令进一步包括用于以下的指令：

接收包括用于所述二级装置的命令的另一自然语言输入数据；

致使对所述另一自然语言输入数据执行第二语音处理，其中所述第二语音处理使用所述识别数据；

至少部分地基于所述第二语音处理的输出，与所述二级装置进行通信以便向所述二级装置发布所述命令的至少一部分；

接收针对与所述二级装置进行所述通信的响应以便向所述二级装置发布所述命令的至少一部分；以及

至少部分地基于所述响应致使向所述用户输出可听消息。

Claims

1.一种计算系统，其包括：

一个或多个处理器；

检测二级装置；

接收包括用于所述二级装置的命令的第二音频输入数据；

2.如权利要求1所述的系统，其中用于与所述二级装置进行通信的所述指令致使通过直接连接来进行通信并且使得所述二级装置能够无线地连接到局域网(LAN)。

3.如权利要求1所述的系统，其中对来自所述用户的所述信息的所述请求包括请求所述用户输入在控制所述二级装置时将使用的口头标识符的至少一部分。

4.如权利要求1所述的系统，其进一步包括用于以下的指令：通过提示所述用户说出至少部分地基于所述第一音频输入数据的短语而致使向所述用户输出测试所述所生成的识别数据的请求。

5.如权利要求1所述的系统，其进一步包括用于以下的指令：

致使对所述第三音频输入数据执行第三语音处理；

致使对所述第四音频输入数据执行第四语音处理；

配置所述定制命令以便调用所述第一动作和第二动作。

6.一种方法，其包括：

接收可用于进行控制的二级装置的指示；

7.如权利要求6所述的方法，其进一步包括与所述二级装置进行通信以使得所述二级装置能够连接到网络。

8.如权利要求6所述的方法，其中所述所请求的信息包括用于所述二级装置的口头标识符的至少一部分。

9.如权利要求6所述的方法，其进一步包括致使输出提示所述用户说出至少部分地基于所述音频输入数据的短语的附加音频查询，以便测试所述识别数据。

10.如权利要求6所述的方法，其中请求来自所述用户的与控制所述二级装置相关的信息的所述音频查询包括关于所述二级装置的信息。

11.如权利要求10所述的方法，其中关于所述二级装置的所述信息指示所述二级装置的类型。

12.如权利要求11所述的方法，其进一步包括：

接收包括用于所述二级装置的命令的第二音频输入数据；

13.如权利要求6所述的方法，其进一步包括：

致使对所述第四音频输入数据执行第四语音处理；以及

配置所述定制命令以便调用所述第一动作和第二动作。

14.如权利要求6所述的方法，其中使用至少一个协议来控制所述二级装置，所述至少一个协议是Zigbee、Z-wave、Insteon、蓝牙、Wi-Fi或Wi-Fi Direct中的至少一个。