CN107004412B

CN107004412B - 用于监听设备的设备仲裁

Info

Publication number: CN107004412B
Application number: CN201580065054.9A
Authority: CN
Inventors: Y·卡恩; A·乌瑟拉克; D·J·黄; S·保兰托尼欧; J·卡姆; V·S·坎南; D·J·穆尼二世; A·J·B·布洛什
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-11-28
Filing date: 2015-11-20
Publication date: 2020-08-18
Anticipated expiration: 2035-11-20
Also published as: US20160155443A1; US9812126B2; WO2016085776A1; CN107004412A; EP3224833A1; EP3224833B1; KR102438300B1; KR20170088982A

Abstract

互连电子设备的拓扑中的一电子设备能监听唤醒短语和语音命令。该设备可控制它何时以及如何进行响应，以使得单一设备对语音命令进行响应。可为用户存储每任务设备偏好。如果偏好设备不可用，则该任务仍旧可在具有适当能力的设备上执行。机器学习可确定用户的偏好。可带来电力节省和有效用户交互。

Description

用于监听设备的设备仲裁

背景

电子设备现在具有语音识别功能，语音识别功能能够响应于所说的命令提供各种特性。这种功能有许多益处。此外，一些设备现在提供数字人物，该数字人物能够以自然的、对话式的方式来对用户命令或问题作出响应。结果是，用户用语音和语言与他们的设备交互变得更舒适，且用语言完成用户任务变得更普遍。

而且，存在一些语音命令技术出错的场景。仍然存在改进空间。

概述

提供本概要从而以简要形式引入将在下面具体实施例中进一步描述的概念的选择。本概要不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用来限制所要求保护的主题的范围。

一实施例可以是一种控制互连电子设备的拓扑中的哪个电子设备对唤醒短语进行响应的方法，所述方法包括：在被配置成监听语音命令的所述互连电子设备的拓扑的电子设备中，从所述电子设备的话筒接收唤醒短语；识别所述唤醒短语；以及响应于识别所述唤醒短语，唤醒所述电子设备并控制所述互连电子设备的拓扑中的哪一个电子设备响应于所述唤醒短语而播放指示活跃监听状态的音频提示，其中所述控制调用响应仲裁规则，所述响应仲裁规则根据用户偏好或者由所述电子设备的一个或多个硬件传感器检测到的记录的活动来选择所述互连电子设备的拓扑中的单一电子设备，所述用户偏好指示针对所述互连电子设备的主设备指定。

一实施例可被实现为一种电子设备，所述电子设备被配置成在包括互连电子设备的拓扑的环境中在处于低功率待机状态时识别唤醒短语，所述电子设备包括：多个硬件传感器，所述多个硬件传感器包括话筒；扬声器；指示针对所述互连电子设备的拓扑的主设备指定的所存储的偏好；以及所存储的设备监听状态，其中所存储的设备监听状态在识别到由所述话筒接收的所述唤醒短语之际从所述低功率待机状态转换，并且其中所述电子设备被配置成根据所述所存储的偏好或由所述电子设备的所述硬件传感器中的一个或多个检测到的所记录的活动来控制所述互连电子设备的拓扑中的哪一个电子设备响应于所述唤醒短语而转换到活跃监听状态并播放指示所述活跃监听状态的音频提示，所述所存储的偏好指示针对所述互连电子设备的主设备指定。

一实施例可被实现为包括机器可执行指令的一个或多个机器可读介质，所述计算机可执行指令在被计算系统执行时执行一种控制互连电子设备的拓扑中的哪个电子设备对唤醒短语进行响应的方法，所述方法包括：从所述电子设备的话筒接收虚拟人物的唤醒短语；识别所述电子设备中的所述虚拟人物的所述唤醒短语；以及响应于识别所述虚拟人物的所述唤醒短语，唤醒所述电子设备并控制所述互连电子设备的拓扑中的哪一个电子设备响应于所述唤醒短语而播放指示监听状态的音频提示，其中所述控制调用响应仲裁规则，所述响应仲裁规则在指示针对所述互连电子设备的主设备指定的用户偏好指示主设备不可用时基于由所述电子设备的一个或多个硬件传感器所检测的所记录的活动指示单一设备当前正被使用来选择所述互连电子设备的拓扑中的所述单一电子设备；从所述电子设备的所述话筒接收命令短语；识别所述命令短语中的任务；经由超时，确定针对所述任务的偏好设备不可用；响应于确定针对所述任务的偏好设备不可用，确定针对所述任务的后备设备；以及将所述任务移交给所述后备设备。如本文所述的，各种其它特征和优点可按照需要被结合到所述技术中。

附图简述

图1是被配置成控制包括互连电子设备的拓扑的环境中哪一个电子设备播放音频提示的示例电子设备的框图。

图2是控制互连电子设备的拓扑中的哪个设备对唤醒短语进行响应的示例方法的流程图。

图3是被配置成控制哪一个电子设备执行所识别的任务的示例电子设备的图示。

图4是控制互连电子设备的拓扑中的哪个设备执行所识别的任务的示例方法的流程图。

图5和6是用于控制哪个电子设备对唤醒短语进行响应以及控制哪个电子设备执行所识别的任务的示例状态机的图示。

图7是控制互连电子设备的拓扑中的哪个设备执行所识别的任务的另一示例方法的流程图。

图8是从设备的视角的控制互连电子设备的拓扑中的哪个设备执行所识别的任务的另一示例方法的流程图。

图9是从整个系统的视角的控制互连电子设备的拓扑中的哪个设备执行所识别的任务的另一示例方法的流程图。

图10是可用于实现所描述的一些实施例的示例计算系统的框图。

图11是可以被用于本文所述的技术的示例移动设备。

图12是可以结合本文所述的技术使用的示例云支持环境。

详细描述

示例1—示例概览

本文的各实施例可在各种多设备场景中使用，以解决各种技术挑战，包括功率管理、语音命令的改善的用户效率、提升的用户交互性能、以及设备状态的表示。

在各示例中，语音激活可实现语音唤醒(wake-on-voice)功能。用户可简单地通过说出唤醒短语来唤醒处于已连接待机(或其它低功率模式)的设备，且设备进入监听状态以供完整语言识别。然而，当在说出唤醒短语时附近存在多个这样的设备时可能出现问题。在不存在技术方案的情况下，所有附近设备将唤醒(例如，经常在不均匀的同步的情况下唤醒)，从而导致令用户吃惊或困惑的体验。例如，非同步答复声音或音频提示的杂音可能产生。通过应用本文描述的技术，多于一个的设备可以监听，但仅一个设备响应。从用户的角度，适当的设备可预测且可靠地响应。

类似地，控制这些设备中的哪个设备实际上执行语音命令中的任务可能充满类似问题。例如，哪个设备应当执行该任务？什么阻止了多于一个设备执行同一任务？哪个设备最适于执行所请求的任务？例如，以下可能更好：使用电话进行呼叫，而使用台式计算机或其它具有键盘的设备进行电子邮件任务。如果这些问题没有被适当地解决，则可能产生不期望或令人困惑的结果。通过应用本文描述的技术，多于一个的设备可以监听，但仅一个设备(例如，适当的设备)执行该任务。

本文的各特征可解决这些问题，以使得能够得到整体优秀的用户体验和对用户有帮助的指引。

各种其它特征可被实现并如本文所述地组合。

示例2-与设备的示例高效用户界面和其它效果

本文描述的技术可带来与设备的高效用户界面。除了其中用户可简单说出命令的自然用户界面的益处，所述技术可在多设备场景中避免混淆、重复和误导。例如，用户可一次性地指定偏好设备而无需重复地通过名称显式地指定设备。

如本文所述的对唤醒短语的使用使得用户无需走到设备并按下按钮来启动语言交互。

而且，所述技术可支持任务粒度等级的偏好。可针对不同的任务设置不同的偏好设备。例如，用户可偏好在特定设备上呈现视频，且所述技术可尊重用户的期望。然而，如果该偏好设备不可用，则该任务仍旧可在具有执行该任务的能力的次级设备上执行。所述技术从而使得用户无需跟踪什么设备能做什么的复杂矩阵。

在其它场景中，用户可高效地与设备交互，因为偏好设备可呈现虚拟人物，但是设备仲裁可选择具有执行期望任务能力的设备。例如，用户可能偏好在不间断基础上与特定设备交互。然而，用户随后进入有一组其它的具有更多能力的设备的房间。这些设备可保持在待机模式中，直到用户请求该偏好设备不能实现的功能性为止。该偏好设备可继续交互，但是然后唤醒该其它设备并将该任务移交给该其它设备。

最终，可节省功率，因为不被使用的设备可大部分时间保持在待机模式中。

示例3-实现技术的示例系统

图1是示例电子设备150A的框图，该示例电子设备被配置成在包括互连的电子设备150A-N的拓扑105的环境中在识别出唤醒短语110时控制哪一个设备播放音频提示190。在该示例中，电子设备150A-N具有监听(例如语音识别)能力，但是拓扑105也可包括没有语音识别的一个或多个设备。

在该示例中，电子设备150A包括话筒120、扬声器180、和多个其它硬件传感器。电子设备150A的话筒可以是设备150A的内部或集成部件，或者可以是外部源(例如，USB话筒等)。指示针对互连的电子设备150A-N的拓扑105的主设备指定172的所存储的偏好也可与所记录的活动174(例如，如本文所述的硬件传感器的活动)一起被包括。

设备150A也可包括存储的设备监听状态165，在被识别器130识别出话筒120接收到的唤醒短语110之际，该状态从低功率待机状态转换。

设备150可根据指示针对互连电子设备的主设备指定172的所存储的偏好或者被电子设备150A的硬件传感器中的一个或多个检测到的所记录的活动174来控制互连电子设备150A-N的拓扑105中的哪一个电子设备响应于唤醒短语110转换到活跃监听状态并播放指示该活跃监听状态的音频提示190。

仲裁器160可提供仲裁服务并咨询响应仲裁规则168来实现对哪个设备进行响应的控制。如本文所述，这些规则168可包括当主设备不可用时的继位的规则(例如，后备列表)。监听状态165可指示该设备是否处于待机、活跃、活跃监听、或如本文描述的其它状态。

如本文所述，设备150A本身可不进行响应而是保持安静。以此方式，单一设备可进行响应，从而导致降低的功耗和与设备拓扑105的更平滑的用户交互。

尽管各组件在分开的框中示出，在实践中，组件边界可改变。例如，各组件可作为设备操作系统、应用、电器等的一部分被提供。其它布置也是可能的，同时仍旧实现所述技术。例如，作为被示出为在仲裁器160内的所示者的补充或替代，监听状态165可被分为多个位置。

在实践中，本文示出的系统(诸如系统100)可以更复杂、具有附加功能性、更多输入、输出等。在实践中，与位置有关的附加功能性(例如，GPS、室内定位技术等)可被包括以确定听到所说的命令的设备的当前位置。

系统100和此处描述的其它系统中的任何系统可结合此处描述的硬件组件中的任何组件来实现，诸如计算系统或下面描述的移动设备(例如，包括一个或多个处理器、存储器等)。在本文描述的任何示例中，输入、输出、偏好、规则、以及状态可被存储在一个或多个计算机可读存储介质或计算机可读存储设备中。此处描述的技术可对操作系统或硬件的细节通用且可在任何各种环境中应用以利用所述特征。

示例4-实现技术的示例方法

图2是控制互连电子设备的拓扑中的哪个电子设备对唤醒短语进行响应的示例方法200的流程图，且该方法可例如在图1中所示的系统中实现。互连电子设备的拓扑可以是本文描述的电子设备的任何组合。这些设备独立运行所述方法来合作地控制哪个设备进行响应。

在210，从该电子设备的话筒接收唤醒短语。

在220，在该设备中识别该唤醒短语。如本文所述，所述识别可由主监听子系统或辅助监听子系统执行。

在230，响应于识别出该唤醒短语，该设备响应于该唤醒短语来唤醒(例如，其唤醒自己)并控制互连电子设备的拓扑中的哪一个电子设备播放指示活跃监听状态的音频提示。进行响应的设备转换到如本文所述的活跃监听状态。

控制哪个设备进行响应可调用仲裁规则，所述仲裁规则根据指示互连电子设备的主设备指定的用户偏好或被该电子设备的一个或多个硬件传感器检测到的所记录的活动来在该拓扑中选择单一设备。

被选择的单一设备随后可发出语音提示。其它设备可保持安静(例如，不发出语音提示)，即使它们正在执行方法200(例如，与所述其它设备并行地执行该方法)。

方法200和此处描述的任何其它方法可由存储在一个或多个计算机可读介质(例如，存储或其它游行介质)中的或存储在一个或多个计算机可读存储设备中的计算机可执行指令执行(例如，使得计算机系统执行该方法)。这些方法可至少部分由本文描述的计算系统(例如，移动设备、移动计算设备、游戏控制台、可穿戴计算设备、另一监听设备等)中的任一个来执行。

示例5-示例唤醒短语

在本文描述的任何示例中，唤醒短语可被用来唤醒监听设备。这种短语可以是招呼、虚拟人物的名字或两者的形式。例如，可使用“喂<人物名字>”、“<人物名字>”等。为便于说明，一些示例使用针对虚拟人物的唤醒短语(例如，“喂，Cortana”)，但是实际唤醒短语可被改变而不影响本文描述的技术。

在低功率监听模式(例如，已连接待机状态)中时，硬件可用减少的资源实现对唤醒短语的识别，因为唤醒短语是预先已知的且完整识别还不需要被激活。在这些情况下可支持单一唤醒短语以外的有限数量的唤醒短语。

因为唤醒短语触发仲裁，所以唤醒短语有时候被称为“触发短语”，有时候被称为“关键词短语”。唤醒短语可以是针对虚拟人物的(例如，在支持多个唤醒短语的系统中)。

本文的技术可被应用到其中一个或多个设备不处于已连接待机状态中的场景。例如，当唤醒短语被说出时用户可能正在活跃地使用一设备或与该设备进行交互，而其它附近设备处于已连接待机。在这种情况下，仲裁可选取单一设备(例如，最可能是用户正在活跃地使用或与其进行交互的设备)。

附加语音识别特征可与唤醒短语相结合地使用，因为系统可被配置成仅在唤醒短语被授权用户(例如，在监听设备上被授权的用户)说出时进行响应。从而，可对唤醒短语执行用户标识(例如，基于在登记阶段期间、在日常使用期间等收集的发音上丰富的数据)。在实践中，可能需要针对某些动作或任务的附加认证层，但是具有用户专用的识别可能是有用的，特别是在多组设备正被同一地点的多组人使用时。

附加的用户标识特征可与唤醒短语相组合地使用(例如，视觉传感器可执行面部识别、骨架识别等)。

示例6-示例命令短语

在本文的任何示例中，话筒可接收用户说出的命令短语。这种命令短语可包括任务(例如，任务名称)、设备(例如，设备名称)、或两者。任务可被识别并随后被执行或移交以被执行，如本文所述。类似地，设备可被识别且任务被执行(例如如果当前设备是被提及的设备)或被移交给被显式提及的设备。

如本文所述，仲裁过程可选择在其上执行该任务的适当设备。

如本文所述，逐轮次(turn-by-turn)对话可被支持，其中任务短语在交流中被划分。例如，第一个命令短语可以说在被提及的设备上做“某事”。虚拟人物随后可通过询问要做什么来响应。第二个命令短语可以是简单的“播放音乐”，此时被提及的设备播放音乐。

示例7-示例显式设备

在本文的任何示例中，命令短语可包括设备(例如，设备名称)并由此显式地请求任务在被指定的设备上执行。例如，“在膝上型计算机上向Bob发送电子邮件”可导致膝上型计算机进行响应并启动电子邮件。显式设备不需要具有语音识别或监听能力，如本文所述，它能够接收移交。

在其中没有设备被指定的情况下(例如，“向Bob发送电子邮件”)，如果系统选择的初始设备是不正确的(例如，台式机)，则纠正发音(例如，“不，在我的膝上型计算机上”、“我们能在我的膝上型计算机上做这个吗？”等等)可显式地将该任务转移到所指定的设备，上下文被转移到所指定的设备(例如，用户可继续键入到Bob的电子邮件)。这种发音可作为显式发音被对待，以用于机器学习等目的。

示例8-示例虚拟人物

在本文的任何示例中，所述技术可实现一种虚拟的基于软件的实体，用户能够从一组设备与该实体进行交互以帮助完成给定任务(例如，向某人发送电子邮件、呼叫他们的地址簿中的某人等)。这种虚拟人物可鼓励用户以自然方式与电子设备交互，带来更放松的语音并且因此更高效的用户交互。

因为虚拟人物系统可帮助用户完成任务，所以虚拟人物有时候被称为“数字人物助理系统”。

通过利用本文描述的技术，可给用户虚拟人物无处不在的印象(例如，在许多设备中)。

示例9-示例经存储的设备监听状态

在本文的任何示例中，设备可存储设备监听状态(或简单称为“状态”)，这允许仲裁技术跨多个设备平滑地工作。可支持低功率已连接待机状态，其中设备监听唤醒短语，由此节省功率。设备可从低功率已连接待机状态转换到活跃监听状态，如本文所述。如本文所述，可支持各种其它状态。

在本文的一些示例中，开始状态被描述为低功率或已连接待机状态。在实践中，仲裁过程可被应用于任何数量的状态，诸如“唤醒并锁定”、“活跃”等。例如，设备可以完全活跃并解锁且仍旧对唤醒短语进行响应且开始本文描述的仲裁过程。锁定设备可尊重任务约束但仍旧执行“锁定下允许的”(above-the-lock)功能性(例如天气等)。

在被实现时，状态可被分为该设备内的多个位置。例如，低功率辅助处理器可存储状态，该状态与被处理器存储的状态相结合一起构成该设备的监听状态。

示例10-示例语音识别

在本文的任何示例中，各种语音识别技术可被应用。尽管语音识别可在如在一些示例中所示的设备中执行，然而外部识别器也可在适当情况下被采用。

除了语音识别以外，语音认证也可被执行以阻止设备对未授权用户进行响应。这种认证在多个正在说话的用户、多个设备的环境中可能有帮助。

示例11-示例低功率或已连接待机状态

本文描述的技术可通过实现在本文中有时候被称为“已连接待机”的低功率状态来节省功率。然而，在实践中，该状态可被称为“已连接待机”之外的其它称呼。因为该设备正在监听非常有限数量的关键字或一段发音(例如，唤醒短语)，所以低功耗实现可成功识别该唤醒短语并对该用户进行响应。

如本文所述，辅助语音识别子系统(例如，具有辅助处理器或其它电路)可被采用以实现对唤醒短语的初始语音识别。所谓的“完整”识别可由主语音识别子系统在该设备唤醒之后执行。

对于本文中的方法，一些部分可由辅助子系统(例如，通过辅助处理器或其它电路)执行，而其它部分由主语音识别子系统(例如，使用主处理器或其它电路)执行。例如，识别唤醒短语可在监听设备处于待机(例如，已连接待机)状态中时由该监听设备的辅助语音识别子系统执行。同时，控制哪个设备转换到活跃监听状态以及播放音频提示可由该设备的主语音识别子系统在该设备转换离开待机状态(例如，该设备唤醒)之后被执行。

在转换离开待机状态之后，该设备可处于非待机(例如，活跃、活跃监听等)状态。唤醒该设备从而可将主处理器从非活跃状态激活。

当该设备处于所述已连接待机状态中时(例如，CPU不在运行，但是仅消耗CPU运行时所消耗的功率的很小比例的功率的一些外围设备在运行)，主语音识别子系统可被置于非活跃、待机、或睡眠模式中。因此，当该设备处于待机状态中时，较少的功率被该设备消耗，但是该设备仍旧能够识别该唤醒短语。以此方式，可跨多个设备提供总是监听体验，即使并非所有设备总是活跃地监听命令。

实现这种更低功率或已连接待机监听状态的系统有时候被称为“总是监听”设备或具有“总是监听”能力的设备。在实践中，该设备不需要总是监听。例如，用户可手动关闭监听能力，或可处于其它原因而禁用或停止监听。

示例12-对哪个设备转换并播放音频提示的示例控制

在本文的任何示例中，响应仲裁可被执行以控制哪个设备转换到活跃监听状态并播放音频提示。响应仲裁是设备仲裁的一种形式，因为单一设备被选择来进行响应。对哪个设备进行响应的确定可经由本文描述的技术来实现(例如，基于用户偏好、已记录的活动等)。控制可以是基于按照响应仲裁规则对准则的评估的。

示例13-示例音频提示

在本文的任何示例中，设备可发出音频提示以指示该设备正处于活跃监听状态中。这种音频提示可采取一个或多个音调、问候(例如，“你好，我有什么可以帮您？”)等的形式。这种音频提示有时候被称为“耳像(earcon)”或“耳像声音”。

替换地，作为音频提示的附加或替换，视觉提示(例如，文本、闪烁、屏幕颜色或背景方面改变等)也可被使用。

在一些情况下，可能能够期望省略提示(例如，在无提示的情况下执行动作)。

示例14-示例互连电子设备

在本文的任何示例中，设备可以各种方式被互连。已连接设备有时候被称为设备的“拓扑”，因为设备的数量和种类可能影响整体系统的操作和性能。这些设备可按各种方式连接(例如，经由无线网络、经由有线网络等)。拓扑中的设备不需要都监听或者甚至能够监听。例如，一个设备可将任务移交给另一设备。

设备可被连接到互联网并通过因特网通信；然而，所述技术可在没有因特网连接的情况下工作。例如，通信可在局域网、私有网络、自组织网络等上进行。设备可将消息广播给同一网络上的其它设备。自组织(例如，私有)无线网络可被用来通信，即使没有正式的网络就位。设备可确定它们是否在彼此的特定邻近范围内，并且这种技术也可被用来互连设备。

在实践中，设备可限于向服务提供者或服务提供者群组注册的那些设备。如果如此，则互连设备可限于注册到同一账户(例如用户名)的那些设备。没有如此注册的设备可被排除而不进行响应。以此方式，一个用户的设备可广播消息，但是注册到不同用户的那些设备将不进行响应。

示例15-示例网络类型

在本文的任何示例中，被实现以连接所述设备的技术可改变。各种无线或有线技术中的任何技术可被使用。

例如，设备可通过TCP/IP、HTTP等直接与服务器通信。Windows推送通知服务或类似服务可被用来在设备间进行通信、唤醒设备等。

Wi-Fi直接服务(WiFiDS)可被使用以使得设备可通信，即使它们不在同一网络上、不存在网络(例如，在公共空间中)等。简单搜索和发现协议(SSDP)可被用来检测同一接入点(例如同一子网)上的设备。例如，这种方法可在设备不满足针对WiFiDS的硬件、驱动器、和/或软件前提条件的情况下被使用。近场通信(NFC)通常通过无线电通信被采用并且也可被使用。预期其它和未来开发的技术可被用于实现如本文所述的设备两两之间和各设备间的通信。

示例16-示例已记录的活动

在本文的任何示例中，设备可记录物理活动。这种已记录的活动随后可被用于设备仲裁以选择要对用户进行响应、执行任务等的单一设备。这种活动可从硬件传感器得到。例如，设备的物理移动，触摸屏、键盘、定点设备处的活动，视觉上检测到的移动，用户视觉(例如，面部、骨架等)识别等。除了话筒以外的硬件可被使用，但是话筒也可收集活动(例如，被检测的声音)。

这种已记录的活动可包括时间戳，以用于允许选择最近期活动或当前正被使用的设备，如本文所述。

示例17-实现技术的示例系统

图3是被配置成在包括互连电子设备350A-N的拓扑305的环境中识别语音命令310的示例电子设备350A的框图。在该示例中，电子设备350A-N具有监听(例如语音识别)能力，但是拓扑305也可包括没有语音识别的一个或多个设备。

在该示例中，语音识别器330被配置成识别被电子设备350A的话筒320接收的语音命令310。语音命令310可包括任务(例如，任务名称)、设备(例如，设备名称)、或两者，如本文所述。其它语音交互是可能的。例如，语音命令可经由多段发音来组装，或不严格满足指定准则的其它情形可被处理(例如，所以音频响应“对不起，我不明白”可被呈现)。

仲裁器360被配置成控制互连电子设备350A-N的拓扑中的哪一个电子设备根据用户偏好372或互连电子设备350A-N的能力374来执行该任务。

用户偏好372可指示用户设备偏好(例如，对于特定任务或场景)，如本文所述。机器学习可被应用来设置此类偏好372，如本文所述。

仲裁器360可包括监听状态365和任务仲裁规则368。任务仲裁规则368可指定当偏好设备不可用时的继位的规则(例如，后备列表)。

图3中的一些组件可与图1中的组件共享。例如，可使用同一话筒320。如本文所述，语音识别器330可参与到完全监听模式中，与如本文所述的低功率已连接待机模式不同，完全监听模式能够识别说出的任务。例如，设备350A已转换到活跃监听状态365(例如，在识别唤醒短语之后)。因此，识别器330可以是与图1的语音识别器相比具有扩展功能性的语音识别器。事实上，如果需要，该语音识别器可由不同电路实现。仲裁器360可与图1中所示的仲裁器共享，监听状态365同样如此。

从而，图1的系统可进一步包括语音识别器330和任务仲裁器360，该语音识别器被配置成识别由电子设备350A(其可以与图1中所示的设备150A为同一设备)的话筒320接收的语音命令310，该任务仲裁器被配置成控制互连电子设备的拓扑中的哪一个电子设备根据用户偏好或互连电子设备的能力来执行任务。

示例18-实现技术的示例方法

图4是控制互连电子设备的拓扑中的哪个电子设备执行所识别的任务的示例方法400的流程图，且该方法可例如在图3中所示的系统中实现。方法400可被独立执行，或与图2中针对响应仲裁示出的方法相结合地执行(例如，通过来自图1中所示的那些组件的组件)。

互连电子设备的拓扑可以是本文描述的电子设备的任何组合。这些设备独立运行所述方法来合作地控制哪个设备执行该任务。

在410，通过电子设备的话筒接收语音命令。

在420，识别语音命令中的任务。在实践中，由于这种识别所支持的丰富功能性，该识别通常由该电子设备的主监听子系统执行(例如，该设备处于活跃监听状态)。外部识别器可被使用，如本文所述。

在430，响应于识别该任务，该电子设备控制互连电子设备的拓扑中的哪一个电子设备响应于该语音命令而执行所识别的任务。控制哪个设备执行所识别的任务可调用仲裁规则，所述仲裁规则根据用户设备偏好或互连设备的能力来选择单一设备。

所选择的一个电子设备随后可执行该任务。其它设备可不做任何事情(例如，不执行该任务)，即使它们正在执行方法400(例如，与所述其它设备并行地执行该方法)。

在本文的任何示例中，任务仲裁可被执行以控制哪个设备执行所识别的任务。任务仲裁是设备仲裁的一种形式，因为单一设备被选择来执行该任务。如本文中所述的，控制可以是基于按照任务仲裁规则对准则的评估的。

例如，如果针对所识别任务的偏好设备不可用(例如，如通过维持可用设备列表、使用超时等所确定的)，则可选择后备设备。

该设备可将该任务移交给另一电子设备，如本文所述。在这种情况下，该设备随后可最终转换回待机低功率状态。

示例19—示例任务

在本文的任何示例中，命令短语可包括一个或多个任务，所述任务可被语音识别技术识别并随后代表该用户被执行。任务可具有相关联的任务名称，所述任务名称对用户而言是熟悉的而可被选择(例如，“播放音乐”、“打电话给妈妈”、“给Jim发送电子邮件”、“打开厨房灯”等)。如所示，任务可包括参数，所述参数作为说出的命令短语的一部分被包括。在本文中，任务有时候被称为“命令”。

各种任务中的任何任务都是可能的，包括播放音乐、发送电子邮件、拨打电话呼叫、发送文本消息、设置提醒、设置闹钟、设置日历项等。

在执行任务时，音频指示可被给出(例如，以虚拟人物的嗓音)。例如，诸如“好的，正在播放音乐”等短语可被发音出。从而，用户意识到任务被识别且即将被执行，从而带来用户和设备间的更平滑的交互。

示例20—示例任务域

在本文的任何示例中，任务可被分组到任务域。例如，与音乐相关的任务可被分组到音乐域，与电子邮件相关的任务可被分组到电子邮件域等。可使得响应偏好和行为在域内一致。例如，如果用户希望为特定任务设置偏好设备，则这种偏好可被携带传播到同一域中的其它任务。

示例21—示例设备

在本文的任何示例中，可支持各种设备。在实践中，设备可被指定为命令短语的一部分。出于区分设备的目的，设备可具有被作为命令短语的一部分而说出的设备名称。例如，可使用概括性的设备名称(例如，“在我的电话上播放音乐”)或设备可具有名称(例如，“在Jimmie的电话上播放音乐”)。

所述技术可支持可在用户的设备拓扑中存在的设备类型的丰富混合。例如，电话、平板、游戏控制台、可穿戴计算机、台式计算机、膝上型计算机等可被支持。

示例22-示例偏好设备指定

在本文的任何示例中，设备可存储任务与偏好设备的关联。从而，偏好设备与相应任务或任务组相关联。例如，播放音乐任务和电话之间的关联指示电话是用于播放音乐的偏好设备。

关联可以基于哪个设备要被用于哪个任务的用户设备偏好。在实践中，可基于所感知的拓扑来设置缺省。例如，对于具有仅两个特定类型的设备的用户，特定偏好简档可被实现。

用户可经由设置图形用户界面或通过语音命令(例如，“总是在我的电话上播放音乐”、“将我的电话作为播放音乐的缺省设备”等)来修改偏好设备指定。

当任务被识别时，如果偏好设备可用，则该任务随后可在偏好设备处被执行，如本文所述。例如，执行命令短语的识别的并非偏好设备的主设备可将该任务移交给偏好设备。

而且，如果偏好设备不可用，尽管如此具有执行该任务的能力的设备仍旧可在互连设备的拓扑中被选择。以此方式，用户仍旧可以完成该任务，即使偏好设备出于无论何种原因而不可用。

示例23-示例机器学习

机器学习可被用来设置偏好设备指定。例如，如果用户一致地且重复地显式指定特定设备用于一任务，则该设备可被设置为针对该任务的偏好设备。例如，连续指定设备n(例如，5等)次可导致该设备被设置为缺省设备。或者，随后可呈现提示，用户可通过该提示来确认该设备将为缺省设备。(例如，“你想要把你的电话作为播放音乐的缺省设备吗？”)。还可告知用户已经做出设置(例如，“好的。我正把你的电话设置为播放音乐。未来，你可以只说‘播放音乐’。”)。

从而，系统可识别针对特定任务对特定设备的重复的一致的使用。响应于识别到这种使用，指示该特定设备的用户偏好可被设置为与该特定任务相关联(例如，在下一监听循环发生之前)。在未来，任务可被识别，且控制哪个设备执行任务可基于该用户偏好为该特定任务选择该特定设备。

另一机器学习特征可基于设备纠正来被实现。例如，如果任务在特定设备上开始，用户可以说“不，不在设备X上，而在设备Y上”。系统可记录这种纠正并与如上的对设备的显式指定类似地对待这些纠正。所以，响应于接收到设备纠正命令，系统可存储针对任务的设备偏好。

机器学习可将任务域纳入考虑(例如，重复地一致地指定特定设备用于一域中的任务可导致该设备被设置为针对该任务域的偏好设备)。

示例24—示例设备能力

在本文的任何示例中，设备可存储能力与偏好设备的关联。从而，设备与一个或多个能力相关联。在实践中，这些能力可以是任务、子任务、场景等。例如，玩游戏任务和游戏控制台之间的关联指示游戏控制台是能够玩游戏(或特定游戏)的设备。

当任务被识别时，该任务随后可在具有执行该任务的能力的设备处被执行，如本文所述。例如，执行对命令短语的语音识别的不具有执行该任务的能力的主设备可将该任务移交给具有执行该任务的能力的设备。

从而，经由设备的存储的能力可以确定被识别的任务不能够在一电子设备处执行。响应于这种确定，另一电子设备可被选择以执行所识别的任务。

任务可随后被移交，如本文所述。唤醒命令可被提前发送以唤醒接收移交的设备。如本文所述，接收方设备不必听到该语音命令。

示例25-示例决策准则和仲裁规则

在本文的任何示例中，各种各样的决策准则和仲裁规则可被支持。准则可包括用户选择和偏好。规则可包括用户定义的规则。

例如，响应仲裁规则可被仲裁器在初始监听期间应用以确定哪个设备应当初始地进行响应并识别命令短语。这样的规则可将(例如，指示主设备的)用户偏好、由设备的一个或多个硬件传感器检测到的已记录的活动、或两者纳入考虑。

如本文所述，各种准则可被维持。例如，已记录的活动可如本文所述地被存储以确定最近期使用的设备、最频繁使用的设备等。取决于活动，一设备可被标记为用户正在使用的(例如，当前正使用的)设备。硬件传感器可帮助这种确定(例如，如由相机确定的用户邻近游戏控制台，用户正握着电话等)。

所支持的用于控制哪个设备进行响应的方法是选择已被指定为互连设备的主设备的设备(例如，根据用户偏好)。响应于确定这样的设备不可用(例如，该设备不响应于轮询，如本文所述)，则设备的后备列表可被用来确定哪个设备是执行主设备。后备列表可以是设备列表、设备类型列表、或设备指定列表。如果最近期使用的设备指定在后备列表中，则具有最近期活动的设备可被选择。例如，如果已记录的活动指示在该电子设备附近或该电子设备处的物理活动，则控制可选择具有最近期物理活动的电子设备。这种活动可被进一步标记以将该活动与特定用户相关联(例如，基于语音识别、面部识别、骨架识别、登录名称等)。

示例后备列表如下：偏好设备；当前活跃的设备；最近期使用的设备；提供服务的缺省设备。该列表可进一步继续：可穿戴设备；电话；平板；膝上型计算机；游戏控制台；以及台式计算机。

如果在设备间存在平手，则系统可选择最近期使用或最频繁使用的设备。

其它仲裁技术可被应用。例如，统计方法可基于大多数用户选择哪个设备来决定哪个设备进行响应(例如，选择可被匿名记录并被入池以众包机器学习)。如本文所述，如果设备被显式发音，则所指示的设备可被选择。如果用户经由某个设备参与了多轮对话，则该某个设备的可能性可被增大(或简单地该设备可被选择)。

任务仲裁规则可被仲裁器在识别命令短语之后使用以控制哪个设备执行所识别的任务。这些规则可将用户设备偏好(例如，针对特定任务)或互连电子设备的能力纳入考虑。当偏好设备不可用时，可使用设备的继位的规则(例如，设备的后备列表)来确定哪个设备将执行该任务。后备列表可类似于关于响应的后备列表，不同在于设备能力可被用来过滤掉不能执行该任务的设备。

设备的硬件可被用来影响决定(例如，在播放音乐时，具有最佳质量的扬声器的设备可被选择)。

附加准则可被支持，诸如说话者情绪、多少人在房间中、其它用户的多少设备在房间中、一天内的时间、活动检测(例如，节日、假期、请假、开车、走路等)、工作/家庭状态、人口统计、个人特征、数据可用性等。

用来实现规则的机制可改变。例如，决策树、神经网络等可被使用。

机器学习可被实现以允许规则基于学习到的用户行为或偏好而演进，如本文所述。

示例26—示例移交

可使得移交体验对用户而言平滑且快速。例如，第一设备可确认(例如，通过文本、声音等)该唤醒短语已被识别。第二设备可用简单的音频提示唤醒、安静地接受该命令并进行响应，就像用户已经对它说话一样。用户不需要重复自己。

用户说出的命令短语可被保存。该其它设备可被激活(例如，用于唤醒接收方设备的信号可在移交之前被发送)，且所保存的命令可被传递至该其它设备。可向该用户告知该移交以避免令用户吃惊并给予用户重定向的机会。

尽管被移交到的设备可能正在监听，然而该设备不需要正在监听或者甚至能够进行语音识别。该设备仅需要能够接收移交消息并执行所请求的任务。

示例27—示例延迟移交

在本文的任何示例中，移交可采取延迟形式。例如，如果确定特定设备当前不可用但是在未来可靠地可用(例如，用户每天早上打开他们的膝上型计算机)，则移交可被延迟，直到不可用的设备可用为止。这种场景可被用于在设备变得可用之前不会期满的任务(例如，“提醒我在午饭时打电话给X。”)。

示例28-示例拓扑形成和演进

在本文的任何示例中，设备可以各种方式形成和演进例如，可使用诸如说话者标识或验证等认证技术来排除其它用户的设备。可实现如本文所述的进一步的细节。

拓扑可开始于在彼此附近的那些设备。“在附近”可被实现为在同一网络上、在同一建筑物中、在阈值物理邻近区域内、在无线范围(例如，Wi-Fi、蓝牙等)内等。

当用户说出唤醒短语时，拓扑可缩减至具有唤醒/语音识别检测能力的那些设备，因为这些设备是监听唤醒短语的设备。

拓扑可接着进一步缩减至说话的用户被授权的设备集合。以下可被包括：具有用户已经在其上注册(并且因此识别用户的语音)的说话者标识的个人设备；共享设备(例如，将无论如何都会进行响应而不检查说话者标识的设备)；处于访客模式或没有说话者标识的个人或共享设备(例如，可在那时、随后询问密码和/或PIN或不询问)。这些设备可被实现为没有启用说话者标识的其它个人设备。

剩余集合是仲裁确定其中的哪个设备进行响应的集合。使用本文描述的技术，单一设备可被选择，所以拓扑可被认为是缩减到一个设备。

然而，一种选项是：进行响应的设备的设备(例如，无论该设备被自动还是显式选择)可以是不同设备(例如，移交场景)。在这种情况下，拓扑拓宽到支持被移交到的那些设备。这未必是与支持唤醒/语音检测能力相同的集合，因为可能向不监听(例如，不具有话筒)的设备进行移交。

示例29-示例状态机

图5和6是用于控制哪个电子设备对唤醒短语进行响应以及控制哪个电子设备执行所识别的任务的示例状态机500的图示。状态机500可被用来实现本文所述的技术。以此方式，仲裁可被完成以在存在到可进行响应的虚拟人物的多个端点时实现积极体验。正确的端点(例如，基于所感知的用户意图)可被选择来进行响应。该过程可在用户大声启动语音交互(诸如唤醒短语、唤醒命令或其组合)时开始。

在实践中，状态机500可被修改而不背离本文所述的发明思想。例如，状态可被组合、拆分、省略，且新状态可被添加，同时仍旧实现适当的功能性。

在已连接待机状态510，该设备正在监听。在这种状态的设备可以处于监听唤醒短语的低功耗模式，如本文所述。

如果该设备识别出唤醒短语或与命令相结合的唤醒短语，则该设备转换512到广播和标识状态530。

如果该设备唤醒(例如，出于任何原因)，则该设备可转换513到活跃状态520。如果该设备进入睡眠，则该设备此时转换524回到已连接待机510。在活跃时，如果该设备没有识别唤醒短语或如果非授权用户说了唤醒短语，则状态循环521到其自己。或者，如果该设备识别到唤醒短语、唤醒短语和任务、或者唤醒短语和任务和设备，则该设备可转换523到广播和标识530。如果该设备接收到设备移交而没有任务，则该设备可转换525到活跃监听540。如果移交被接收，则该设备可转换到图6的响应状态并立即进行响应。

从广播和标识状态530，该设备可使其它附近设备知道该设备听到了唤醒短语。该设备可标识该设备是否知道它是主设备并轮询其它设备。这一工作可在等待时间目标(例如，200毫秒等)内完成。在等待时间超限的情况下，第二轮询(例如，重新检查)可在另一等待时间目标(例如100毫秒等)中完成。

当处于广播和标识状态530时，如果做出该设备是主设备的判断(例如，如由主设备指定所指示的)，则该设备可转换531到活跃监听状态540。如果该设备不是主设备，或者如果不知道该设备是否是主设备，则状态可转换532到等待主设备550。

从活跃监听状态540，可通过扬声器发出音频提示以确认唤醒短语并且如果在语音命令中没有重定向待决的话则等待命令。仅在语音命令尚未被识别时，状态保留在活跃监听540。

如果语音命令和设备已经被指定，且该设备不是当前设备(例如，处理该命令的设备)，则状态可跳过活跃监听并尝试重定向。

如果预期的设备被语音识别且其不是此设备，但是没有任务被指定，则该设备可首先移交并且接着去到活跃监听540。

当处于活跃监听状态540中时，如果语音命令被识别，则该状态可转换542到图6中的“确定是否能响应”状态。如果语音命令定向到另一设备(例如，正进行响应的设备不是用户预期的设备，且用户显式地重定向到另一设备)，则状态可转换541到图6中的“任一者能响应”状态。

如果设备听到没有主设备，则该设备可基于继位的规则(例如，如本文所述的后备)来广播它想要作为主设备进行响应。当处于等待主设备状态550时，该设备可等待已知的主设备来进行广播。如果主设备广播或另一设备首先变为主设备，则该状态可转换551至活跃520。如果等待超时，则状态可转换552至“担当主设备，好吗？”560，其中该设备尝试宣告它自己是执行主设备。

当处于“执行主设备OK？”状态560时，如果该设备确认新的主设备或不存在响应，则状态可转换562至活跃监听状态540。然而，如果另一设备成功挑战并变成主设备，则状态可转换561至活跃520。

如果命令短语包括预期设备，但是该预期设备不是当前设备，但是任务尚未被识别，则该设备可移交并接着去到活跃监听。当处于“确定是否能响应”状态610时，如果该设备能够响应，则状态转换611到响应状态620。该设备接着执行任务并返回621到图5中的活跃状态。如果该设备不能响应，则该设备可转换612到“任一者能响应”状态640。该设备是否能响应的确定可基于所识别的命令(例如，任务)的性质、所确定的意图、以及显式、隐式或学习的其它信号、以及设备能力、数据可用性等，如本文所述。

在响应状态620，一些场景中的响应可涉及进一步的移交。如果如此，则状态转换622到移交状态650。而且，用户可截取并重定向，从而导致转换623到“任一者能响应”状态640。

在“任一者能响应”状态640，该设备不能满足用户的意图或者用户已经说出重定向的期望。因此，设备轮询能够满足所确定的需求的任何附近设备。其可接着基于隐式或学习的信号来选择正确的设备，或者经由语音命令让用户重定向。

如果没有满足该准则的设备可用642，则其可再次尝试、尝试恢复、或在错误状态600中为用户播放道歉。其随后可返回图5中的活跃状态。

然而，如果满足该准则的设备可用，则该设备可适当地告知用户(例如经由语音)并向下一设备发送移交信号以立即进行响应。从而，状态可转换641到移交状态650。移交编码信号可被发送至待机或活跃设备以使得接收方设备立即对用户进行响应(例如，接收方设备进入响应状态620)。接收方设备如果处于待机状态则可首先被唤醒。向活跃状态的转换651此时可发生。在一些情况下，移交可被发送而无需命令，因为命令短语指定该设备但没有指定命令。移交的接收方设备可进入活跃监听而非响应状态。

当用户选择被检测到时(例如，用户做出选择并且说出命令短语或对问题进行响应)，当设备进行响应时，或者当被移交到设备时，系统可学习用户的偏好和模式。这接着可允许通过用户的行为推断的自动重定向。

可以支持各种场景。例如，锁屏可被提取给授权用户。或者，任何用户被授权以用于共享的不安全的设备。

例如，在实践中，“锁屏”状态可被支持，其中该设备开机(非待机)但是不完全活跃(例如，其被锁住)。它如何变得解锁可取决于场景而改变。例如，一些任务可在锁上被执行(例如，无需对设备进行解锁)。其它任务可能需要解锁。如果该用户被授权，则不关注锁屏状态。因此，出于说明目的，锁屏状态可被提取掉并被表示为授权用户。

处于已连接待机的设备可通过未示出的其它手段变得活跃(例如，LAN唤醒、从另一设备接收移交命令等)。

在一些活跃情况下，唤醒短语可能不是必要的。用户可使用不限于语音的其它调用手段。

在“任一者能响应”情况下，用户还可显式地重定向。但是，这被抽象为“具有该准则(例如，包括用户定义的准则)的设备存在且能够进行响应”中。

可支持用户盖写。用户可选择使得多于一个设备成为主设备，在此情况下若干设备将一致或近乎一致地响应，从而导致无处不在的效果，或者用户可选择针对任何或全部设备禁用语音命令。所述状态可尊重这种用户选择。

不同的仲裁逻辑和规则可在系统中且基于实现被使用，所以它们没有在下面被显式定义。

去往和来自错误和学习状态的附加转换可被暗示且没有被显式示出。

示例30-示例消息内容

在本文的任何示例中，各种信息可在设备之间作为仲裁过程的一部分被传递。例如，消息可被用来传递设备类型、持续跟踪附近设备、在设备间持续传递设备状态、在设备间同步时间等。

消息可包括设备类型和核心设备能力(例如，具有屏幕、能够播放音频、连接到因特网、等)。如本文所述的当前设备状态也可被传递。当前任务设备能力也可被包括(例如，该设备是否能够完成当前任务、该设备能在什么质量水平完成当前任务等)。当前设备时间也可被提供(例如，用于同步)。

示例31-示例多设备场景

多设备场景的问题包括：当多个附近设备正监听语音命令时确定哪个设备应当对用户的命令进行响应，以及表示用户对来自特定设备的响应的期望。所述技术可提供基于规则的以及基于机器学习的方法来解决这些问题。

具有语音唤醒能力的设备在听到唤醒短语时可联系仲裁服务，无论它们是否已经唤醒。

随着虚拟人物跨越来越多的设备获得总是监听激活能力，用户将遇到其中支持虚拟人物的多个设备在唤醒短语邻近区域内的情形。在无法在这些设备之间进行仲裁的情况下，说出唤醒短语将导致若干设备——甚至是共享设备或者不属于用户的设备——将用遍及房间回声的音频提示来进行响应。此时在用户给出命令时具有不确定性。例如，不知道是否所有设备均进行响应；这些设备是否采取相同的动作，从而彼此冲突；或者如果设备不能对该命令进行响应会发生什么。误解导致不好的用户体验，并且对服务提供商有不良的反映。

目标用户体验可针对越来越多的设备、能力和用户期望的复杂世界中的语音唤醒激活来被定义和设计。实现可使用用户易于理解和期望的模型。从听到唤醒短语的设备，用户的偏好设备通常是将进行响应的唯一设备。然而，如果偏好设备不可用，则该系统可遵循简单的后备方案，直到达到能响应的设备。

该模型可被扩展且智能特性可被添加来满足各种情况和用户的便利性。

各方面可包括如下：

*仲裁的能力以及在对响应于命令而唤醒的适当设备的确定性。

*使用硬件传感器来最好地确定什么设备是活跃的(加速度计、面向前方的相机等)。

*精致的机器学习模型，其允许系统学习并针对该情形自动确定用户旨在与之交互的偏好设备。

*将场景、可用设备、能力纳入考虑并针对该情形动态选择最优者的精致的模型。

在具有多个监听设备(例如，电视机、平板、膝上型计算机、电话、消费者电子设备)和多个用户的房间中，正确的(例如，预期的)设备在正确的时间对正确的(例如，预期的)用户进行响应。

示例32—示例描述

下文描述各附加实施例。尽管名称为“Cortana”的数字个人助理系统的示例被使用，然而所述技术可被应用于各种数字助理系统中的任一种，且数字助理可具有各种名称中的任何名称。

类似地，尽管示例唤醒短语“你好Cortana”被使用，然而任何数量的其它唤醒短语可被代替使用，同时仍旧受益于所述技术。这些短语可被称为“关键词短语”、“触发短语”等。

尽管一些示例使用微软技术，然而其它技术可作为微软技术的替代品来取代。

示例33—示例特性

在本文的任何示例中，所述技术能够为设备(例如，具有总是监听和语音唤醒能力的设备)提供设备仲裁。

设备可经由本文描述的技术互连，这些技术可仲裁哪个设备对唤醒短语进行响应。

设备可经由哪个设备唤醒的链式处理而被唤醒。例如，“你好Cortana，在ABC设备上进行XYZ”可导致唤醒设备ABC，即使一不同设备初始地响应和/或处理该命令。

所述技术能够基于设备的能力来控制哪个设备进行响应。例如，“你好Cortana，向X发送电子邮件”可导致来自不具有用于编辑和发送电子邮件的电子邮件客户端的设备的不响应。

示例34—示例特性

所述技术可定义针对多个设备何时听到唤醒语音命令的“正确体验”，并注意诸如需要不同体验的模式影响或特例等考虑。

唤醒场景和来自使用虚拟人物的设备的要求可被表示。

仲裁服务可被设计。

语音唤醒和说话者识别技术可满足安全考虑。系统可被配置成使得用户仅能唤醒用户被授权唤醒的设备，无论是在个人还是共享设备上，或者甚至不具有相同服务提供商账户的设备。如果是相同的语音，则系统可查看唤醒的设备。如果设备具有不带说话者识别的语音唤醒，则该设备仍可唤醒并参与仲裁。

该模型可被进一步开发以使得不带这些系统的设备能够被包括在仲裁模型中。

在设备唤醒之后，轮到该设备实施用户是否被允许访问后续信息。

设备可被分类为逻辑设备。例如，以全部设备开始，具有唤醒(例如，语音唤醒)能力的那些设备可被分类为“听到用户的设备”。在那些设备中，用户被授权或注册的设备可经由说话者识别、访客模式等被确定。那些设备可唤醒(例如，进入全监听模式)。

在唤醒的设备之间，仲裁器服务选择一个设备来进行响应。被选择的设备随后尝试鉴于安全和其它限制来处理该场景(例如，由命令短语所规定的)。如果这不可能，则一不同设备可被选择(例如，经由移交)。

所述技术不限于上面描述的那些设备。例如，所述技术可移交给或激活没有听到用户的设备。

示例35—示例进一步特性

仅一个设备实际对用户进行响应。(仲裁服务可通过将听到命令并去到服务的设备的数量与进行响应的设备的数量进行比较来测量这一点。)

用户可为语音唤醒设置“偏好设备”。例如，偏好设备指定可被接收并被存储在该设备中。缺省地，此设备可以是电话。

如果偏好设备不可用，则服务可基于本文描述的方案选取后备设备。

示例36—示例问题

因为设备用户的数量通常已增加，用户可能遇到其中当用户说出唤醒短语时多个设备可能进行响应的情形。

这可能给用户以下印象：用户正直接向虚拟人物说话并得到期望的数据和任务。可使得中间的技术透明，即使多个设备唤醒。

然而，在没有仲裁的情况下，可能出现各种问题：

*回声问题。利用当前的处理器、无线能力和扬声器，响应通常不是同步的，并且不发出单一的、令人愉悦的、全向的声音。所以，取代统一响应，设备的困惑的不和谐图谋回答。不同步的耳像是不愉悦的体验。

*困惑和担忧。而且，因为用户感知到作为若干独立设备的响应，所以用户易于困惑且迷失(例如，不知道正与哪个设备交谈、不知道看哪里等)或担忧(例如，如果用户给出购买某物的命令，这些设备将买该物两次吗？)。

*特性附接：如果用户必须禁用一设备的语音唤醒以便该设备停止冲突，该用户可能没有再把它打开并且所以停止使用此特性并损失其益处。

*对服务提供商的感知。如果多个设备按照不协调的方式进行响应，这在统一的、共同良好工作的策略具有不良反映。

因此，在一些实现中，仅一个设备应该进行响应。

实现单一响应设备同样呈现一些问题：

*匹配预期——用户头脑中的任务是针对特定设备的。为什么某个其它设备进行了响应？并且如果进行了响应的设备不挡路了，这导致了用户的困惑和迷失，因为现在用户必须寻找并面对此另一设备。该用户还可能坚持它重定向到用户预期的设备。

*管理预期——用户可能询问虚拟人物许多事情。用户应当查看哪个设备，做什么？

*处理能力——对于该系统而言，并非每个设备都可以能够播放电影或者使得用户的数据立即可用。如果当前设备不能或不会应付所请求的动作，则可提供后备和错误处理体验。设备池可被确定。

*邻近度问题——哪些设备在用户附近？用户通常不期望使离得远的设备解锁，因为别人可能能够在用户能够访问所述设备之前访问它们。存在用于检测邻近度的音频解决方案。然而，一种实现能够简单地从听到用户的设备中进行选取。

还存在某些一般性的问题：

*用于同一用户的多个账户：如果用户正在一个设备上使用与另一设备不同的服务提供商账户会怎样？

*影子用户：一些共享设备可具有使用同一共享虚拟人物访问账户的多个现实个体。

*安全：该用户的数据对其他人的语音安全且保险吗？用户通常不期望别人仅通过他们的语音就能够使用该用户的设备。

实施例可使用说话者识别技术。存在用户可以采取以设置其语音以供说话者识别的步骤，从而如果用户进行了该步骤，则该设备可被建模为该用户能够访问的。这可处理账户、访客模式和设备权限所必需的细节。

示例37—示例特性

“激活”可描述设备接收用户信号以退出待机并且准备好实用的时候。一般而言，语音激活(“使用你的语音来唤醒设备”)可被使用，但是其它的基于自然用户界面的激活也可被使用。

“唤醒”可描述总是监听设备从低功率的“仅监听特定唤醒词语”模式到完全监听模式的时候。

“附近”可描述在物理上靠近该用户的设备。对于激活场景，足够靠近而能听到用户的命令的设备可被认为是附近的。

设备类型可以是个人或共享，如本文所述。

“正确的设备”可以是指用户期望使用的特定设备，如由设备收集的准则所证实的。在大多数情形下，存在用户想要使用的特定设备。对于激活而言，这可能总是正确的。对于主动式音频，可能不存在一个“正确的”设备。

偏好设备可以是用户选择对用户的语音命令进行响应的设备。

缺省设备可以是服务提供商的建议的偏好设备，直到用户另行将其改变为止。

活跃设备可以是用户当前正在使用的设备。可施加解锁状态前提条件。

设备的用户可如本文所述地被分类。

一种情形可包括用户在激活设备时能遇到的元场景。

主动式音频可包括设备在没有用户请求的情况下激活时的情形，诸如为了传入呼叫或警告。

被动式监听可以是设备仅在监听唤醒短语以便唤醒的时候。

活跃监听可以是设备在监听用户的整个发言和命令(例如，命令短语)的时候。

在指代导航对话(例如，非路径)时可以使用逐轮次。这种技术可在系统告知用户信息或问问题并且接着自动监听用户响应以帮助消除歧义或提示进一步命令时使用。例如，虚拟人物可以说“你的意思是雷德蒙德的天气吗？”，接着在用户进一步提供信息“是的，请”时自动开始监听。

“被动式监听”和“活跃监听”—被动式是设备正监听唤醒短语的时候，活跃监听在被动式监听之后发生(例如，在设备已唤醒时)。

示例38-用户开始语音唤醒的示例方式

例如，用户可以说：

1.唤醒短语(例如，“你好，Cortana”)；

2.唤醒短语加上带任务的命令短语(例如，“你好，Cortana”“做XYZ”)；

3.唤醒短语加上带任务和设备的命令短语(例如，“你好，Cortana”“在ABC设备上”“做XYZ)”；

4.唤醒短语加上带设备的命令短语(例如，“你好，Cortana”“在ABC设备上”)；

5.或类似的。

唤醒短语通常表征唤醒命令。任务和被指定的设备可以任何次序到来。

示例39-示例设备类型

出于仲裁目的，可定义两种设备类型：对特定用户而言是“个人的”并且大都由该特定用户使用的设备，以及也具有其它主要用户的“共享的”设备。

个人设备通常具有主关联账户。该设备通常假定它是其自己的用户。这些设备可包括可穿戴设备、电话、平板和一些膝上型计算机/台式计算机(例如，取决于配置)。在用户的思想中，个人的设备仅对该用户进行响应。所以，这样的预期可被所述技术实现。

共享的设备通常具有多个相关联的账户。该设备预期多个用户，并且可能预期访客。这样的设备可包括游戏控制台(例如，Xbox等)、壁挂式触摸屏设备(例如，SurfaceHub)、一些台式/膝上型计算机。在用户的思想中，该机器是通用机器，且预期该机器加载该用户的账户(例如，从可能账户的列表中)。

设备可仅在该设备足够靠近以首先获得命令时需要仲裁。在说话者识别被呈现时，这两种设备类型可被同样对待。

示例40-缺省和偏好设备的示例表示

一种实现可具有缺省设备，所述缺省设备基于用户的场景(例如，N个虚拟人物域之一)和对那些域进行响应的设备能力来进行响应。以此方式，针对该情形的最佳的/正确的设备进行响应。然而，保证最佳设备是一项困难的科学问题，并且基于可用性研究，用户不喜欢哪个设备进行响应方面的意外和不可预测性。他们难以跟踪NxN设备矩阵。并且，搞错设备是不好的用户体验。

为了简单性和预期的一致性，可使用两种指定：

偏好设备：用户宣告哪个设备将预期是对其语音激活进行响应的设备。即使该用户正活跃地处于另一设备上，被指定的设备依然可进行响应。

缺省设备：缺省地，这被设置为用户的电话。用户随后可改变缺省设备，如果他们想要改变的话。

可添加更精致的缺省和偏好。例如，可存在偏好通信设备、偏好娱乐设备等。对用户的行为的机器学习可被用来推断偏好设备。

示例41-用户可能遇到的示例情形类别

广义地，用户可能遇到的仲裁“情形”可被如下地分类：

1.激活个人设备

2.激活共享设备

3.主动式音频

对这些情形的一些观察在下面描述，以告知场景和仲裁规则的详细设计。

示例42—示例情形激活个人设备

在激活个人设备时，可能出现各种情形。例如，如果存在两个说话者，则可阻止除了该用户以外的说话者使用该用户的电话。在一些情况下，用户可将使用委托给他人(例如，家庭成员，诸如孩子)。

在其中存在多个用户和多个设备的情况下，系统可被配置成使得仅该用户的设备对该用户进行响应。聚会、公共地点(例如公交车)等可存在这样的情形。

在其中存在一个用户和多个个人设备的情况下，可做出关于哪个设备进行响应的决策。对于静态情况，一设备可被选择用于诸如播放音乐、打开灯等任务。一设备可被选择用于更新或同步信息。跨设备同步状态可被实现(例如，以使得如果设备B正在播放音乐，则阻止设备A也播放音乐)。

对于动态情况，用户可以一个设备开始而随后在另一设备上完成。附近设备的混合可改变。如果一个设备不能响应而另一个设备能够响应，则可完成移交。

交互模式(例如触摸)可导致设备获得优先(例如，因为该用户正活跃地使用该设备，如由触摸所指示的)。在一些情况下，两个设备可能被同时使用。

可以通过将设备池限制于足够靠近用户而能听到唤醒命令的那些设备来快速地做出决策。

示例43—示例情形激活共享设备

在共享设备情形中，可以存在具有多个用户的一个设备。正确的用户可被匹配到正确的数据(例如，该用户的日历)。然而，可确定该设备起初如何识别该用户。儿童/访客模式可被支持，以使得其他人可观看电视、玩游戏、检查天气、或打开灯而无需能够访问该用户的数据。

零售体验可被支持，以使得试用用户可尝试虚拟人物以鼓励试用用户购买。

在存在多个设备和多个用户时，在家中情形中，正确的用户可被匹配到正确的数据，而正确的设备可进行响应。

在零售情形中，可阻止所有设备对唤醒短语进行响应。

当存在混合个人和共享设备时(例如，用户具有可穿戴设备、电话、和共享设备存在)，则该情形可被建模为属于该用户的若干设备。

示例44—示例情形主动式音频

在主动式音频情形中，可关于哪个设备(例如，个人还是共享设备)警告用户做出决策。例如，取消提醒、发出闹钟等可被支持。可关于警告是否应当在多于一个设备(例如所有设备)上还是仅在一个设备上到来做出决策。

在混合个人和共享环境中，取消提醒可被支持。然而，可阻止个人提醒在共享设备上出现。但是，如果其它用户具有看到该提醒的权限，则可将该提醒提供给这些其它用户。

示例45-示例用户类型(设备的视角)

出于说明目的，可以考虑设备上的五个用户权限等级

1.主：设备的主所有人和用户

2.共享/辅/受限：设备的预先知晓的共享/辅/受限用户

3.访客：仍旧可使用设备的某些能力的未知用户

4.未授权：未被授权使用此设备的未授权用户

5.未知：该系统未知的未知用户

以上不是角色/权利的综合列表(例如，可添加IT管理员)，但是有助于说明仲裁的目的。

示例46-示例设计和交互原理

如果用户在一个设备上开始语音交互，则该系统可被配置成在同一设备上完成该语音交互，除非存在非常强的改变的理由。实际动作可利用其它模态，诸如向用户示出选项菜单的补充屏幕。

一般而言，如果用户启用了音频可穿戴设备，则该可穿戴设备可被配置成缺省或偏好设备(同样，除非有强烈的改变的理由)。

示例47-示例支持场景

当用户使用唤醒短语时，预期设备可进行响应。用户B主要将其平板作为他通常用于虚拟人物的设备相关联。所以，当他说出唤醒短语时，他预期他的平板而非他的台式机将唤醒，因为他的平板是他的偏好设备。

这使得该用户的体验保持简单。用户知道无论他的任务是什么，如果他仅说出唤醒短语，则他的平板将唤醒。如果他想要不同的设备开启，则他应当那么说(例如，<唤醒短语>在我的<设备>上播放电影)。

但是，当他的平板不在附近或关闭时，他期望对接下来发生什么有某种简单的逻辑。例如，他正在使用的设备进行响应，如本文所述。或者，他最近期使用的设备进行响应。并且，如果那些设备均不可用，则预期是不清楚的。所以，任何设备可进行响应。

该系统可允许用户指定该用户的偏好设备。例如，用户A购买了一个全新设备(例如，支持虚拟人物的任何仲裁设备)。当该仲裁设备被设置时，她登记她的语音以便她能够使用语音激活的特性。在登记过程期间，该设备问她她是否想要将该设备作为她的偏好设备。她可以拒绝，假定她将最常使用另一设备(例如电话)的话。

然而，在若干周过去之后，她告诉虚拟人物使该仲裁设备成为她的偏好语音唤醒设备，接着实现这一点。

对于这种场景，存在各种进入点。其可被呈现为说话者标识登记期间的选项。这是用户发现偏好设备选项的地方。选项可在控制面板或设备设置(例如，在说话者标识设置附近)中提供。并且，用于设置的虚拟人物语音命令可被使用(例如，“你好X，使此设备成为我的偏好唤醒设备”)。作为响应，该系统可跨用户设备集合来改变偏好设备。

如果错误的(例如，非预期的)设备进行响应，则该系统可允许用户重定向(例如，通过语音)。用户C说出唤醒短语，且当她真正想要她的膝上型计算机进行响应时，非预期的设备进行了响应。所以她说“在我的膝上型计算机上…”，这向该系统发信号通知转移到膝上型计算机。

随后，用户C意识到如果她相信错误的设备将响应，她还能显式地包括该设备(例如，“你好Cortana，在我的膝上型计算机上播放歌曲”)来跳过步骤。最终，她能如本文所述地更新她的偏好设备，以避免必需重复地显式指示偏好设备。

该系统可允许用户激活没有听到该用户的设备，尽管设备没有听到该用户。用户H正站在他的起居室-厨房区域的厨房附近。他的电话在他附近。他想要在他的游戏控制台上玩游戏，该游戏控制台在大房间的另一侧。他可以说出唤醒短语，且电话用耳像响应(例如，游戏控制台在范围外)。他随后可以说“在我的<游戏控制台>上玩<游戏名称>”。游戏控制台激活，尽管游戏控制台第一次没有听到他。虚拟人物的范围从而可被扩展。

如果设备在范围外，则解锁该设备可允许对待机设备的未授权访问。所以，仅在该用户显式地叫出该设备来重定向时可以启用此场景。这种场景还可在其中设备不能完成任务并且移交给能完成任务的设备的情形中使用。

示例48-示例进一步场景

对于用户和说话者识别，各种场景是可能的。

设备可被配置成仅对其相关联用户进行响应。无论是在家中、在工作还是在外面，且无论用户是否存在，该设备可仅在设备的用户说出唤醒短语时进行响应。当别人说出唤醒短语时，该设备可省略掉响应。对于共享设备，该设备可识别或至少回答。说话者识别技术可被用来达成这种结果。

然而，一些访客偶尔可被准许使用用户的设备。例如，如果儿童想要使用机器上的面向儿童的功能性，或者如果访客想要打开房间中的灯，则虚拟人物可回答他们。然而，个人信息可仍旧被保护。访客语音唤醒设备这一事实可被用作仲裁准则。

共享设备可被有限度地共享。其他人可具有受限的访问(例如，不能够模仿该设备的用户)。所以，该设备能进行响应而无需准许对全部功能性的完全访问。

在零售环境中，访客模式可被用于设备以允许潜在买家说出唤醒短语且不使所有设备进行响应。

一般性命令可省略掉一设备，且仲裁可选择适当设备。例如，“<唤醒短语>播放一些音乐”可导致能够进行响应的任何设备播放音乐。

如果用户想要特定设备，则该系统可确定该设备并使该设备进行响应。偏好设备可设置关于哪个设备应当进行响应的用户预期。如果错误的设备进行了响应，用户还可通过错误体验来重定向。走向一设备可被解读为预期设备。

触摸一设备可使得该设备成为进行响应的设备。例如，通过在键盘、触摸屏等上输入密码/PIN来解锁设备可指示用户预期被触摸的设备现在是将进行响应的设备。然而，在一些情况下，一不同设备可进行响应。

如果用户近期使用了一设备或在一设备附近，则该设备可以是被预期进行响应的设备。如果用户刚刚在使用平板且接着另一问题到来，则该用户可说出唤醒短语，且该平板进行响应。

然而，如果被确定为预期设备的设备不能执行命令短语的期望任务，则一不同设备可进行响应。预期设备可执行移交并播放移交正在发生的指示(例如，“好的。我将在你的PC上为你显示图片”)。某些功能性可简单地不可用，从而导致错误状态。例如，如果驾驶状态被检测到，则查看图片的请求可被拒绝，即使在技术上是可能的。

如果用户正佩戴着设备，则该设备可以是进行响应的设备。该设备可被设置为偏好设备。

在一个设备上开始任务而在另一设备上完成该任务是可能的例如，对仅音频的设备的命令可用“好的”进行响应，但是接着视觉选项可在附近的屏幕上被示出。仅音频的设备可引导用户走向该附近的屏幕。

存在关于获得主动式音频(诸如警告)的多个场景。

个人警告可被限于仅被播放给相关联的用户，在该用户所在之处。例如，关于惊喜生日派对的提醒可被限制成仅来到在该用户旁边的设备。

大的警告或公共电话呼叫可去到任何地方。例如，天气警告可在任何设备上说出和/或显示。传入的电话呼叫也可使多个设备振铃。设备间的音频同步可被使用。

当用户在一个设备上取消警告或提醒时，可避免该警告或提醒在另一设备上再次显示。

示例49-示例特性-仲裁服务

实现虚拟人物的任何电子设备可使用该技术。整个系统不需要对仅具有一个虚拟人物设备的用户的体验产生负面影响。仲裁可呈现总是启用、唤醒短语、以及扬声器标识能力。

高性能可被提供，以使得设备可快速进行响应。仲裁可快速发生，Wi-Fi或其它技术可被使用。

通知和主动式音频可被支持。

系统可支持按照类别的偏好设备、按照场景类别的缺省设备、以及用户偏好的机器学习。

即使一些设备与不同服务提供商账户相关联，仲裁也可工作。即使一个或多个设备没有连接到互联网，仲裁也可工作。

即使多个设备唤醒，被选择的单一设备可以是明确地对用户进行响应的唯一设备。在用户命令被发出之后，其它设备可保持安静并返回到待机状态。

示例50-示例特性-偏好设备

用户可为语音唤醒响应设置“偏好设备”。偏好设备设置可以是说话者识别登记的一部分。它们可被置于说话者识别设定中。偏好设备设置可经由虚拟人物语音命令来调用。用于语音唤醒的缺省设备可以是电话，然后是其它设备。如果多于一个偏好设备与一用户相关联，则该系统可提示该用户(例如，以选择单一设备)。

示例51-示例特性-后备能力

后备能力可在在说出的唤醒短语的范围内存在不是恰好一个偏好设备(例如，偏好设备关机、不在范围内等)的情况下实现。该系统可推断哪个设备当前正被用户使用。例如，可维持哪个设备是最近期被用户通过被识别的语音使用的概念。

示例52-示例特性-移交和错误能力

设备可被命名，且可被匹配到在命令短语中指定的设备(例如，“在ABC设备上”)。用户可在唤醒之后的第二“轮次”期间指定设备。唤醒的第一设备可唤醒尚未被用户的语音唤醒的用户指定的第二设备。

第一设备可向第二设备传递已经接收的用户命令以使得用户不需要重复该命令。

设备可被配置成监听和接受移交命令(例如，通过网络、无线地或以其它方式从其它设备)。如果设备不能移交，则该设备可经历错误过程(例如，并且告知用户)。类似地，如果设备不能完成所命令的任务，则该设备可经历错误过程。如果设备不能完成任务，但是唤醒的另一设备能完成任务，则该设备可将该任务移交给该能完成任务的设备。

示例53-示例用户界面故事板

从用户的视角，模型可保持简单。当用户说出唤醒短语时，仅一个设备在合理时间量(例如0.2秒)内进行响应。被选择进行响应的设备通常是用户的偏好设备。如果并非恰好一个偏好设备可用，则后备设备可被选择。

用户随后可说出他们的命令(例如，“做XYZ”)、设备(例如，“在ABC上”)或两者(例如，“在ABC上做XYZ”)。

如果该命令是旨在针对正在处理的设备的命令，则该设备尝试执行该命令。如果该设备不能，则该设备可移交至能够执行的设备或告知用户“对不起，我不能做这个。”

如果该命令是针对另一设备的命令，则正在处理的设备可尝试唤醒该另一设备并将用户的命令传递至该另一设备。该另一设备可用语音提示进行响应、唤醒、接收预先发送的命令、并接着跟随以上动作。如果该另一设备不可用，则音频指示可在所述设备之一上提供。

通过说出“在ABC”设备上来进行重定向，错误处理可被并入。一些实现可能不支持将唤醒短语与命令短语链接起来，但是仍旧能够实现本文描述的技术。

示例54-示例其它实现

图7是控制互连电子设备的拓扑中的哪个设备执行所识别的任务的另一示例方法700的流程图。

在710，唤醒短语被接收并识别。

在720，接收方设备唤醒并等待语音命令。

在730，用于执行任务的说出的命令短语被接收。该任务可如本文所述地被识别。如果该命令短语包括任务和设备，则所指定的设备可被唤醒，且命令被移交给该所指定的设备。如果命令短语仅具有设备，则该设备可被唤醒。任务可随后被接收并识别。

在740，所识别的任务被执行，或移交被执行，如本文所述。如果任务不能被执行，则错误过程可被调用。

示例55-示例实现-设备的视角

图8是控制互连电子设备的拓扑中的哪个设备执行所识别的任务的另一示例方法800的流程图，且该方法是从电子设备的视角描述的。

在810，设备循环监听唤醒短语。例如，该设备可以处于待机、低功率状态，如本文所述。如果经认证的语音未被检测到820，则其可继续循环。

在检测到经认证的语音之际，该设备可唤醒、与仲裁器交互、并获得来自仲裁器的结果830。

如果在840该设备接收到它是正确设备的信息，则该设备可进行到完全唤醒、播放音频提示并在860等待语音命令。如果否，则在850该设备可待机以等待传入的移交(例如，在移交传入的情况下)。

在870，可确定该命令是否能被执行，或者移交是否被准许。在880，如果该命令可被执行，则该命令被执行。否则，错误过程可被调用。

如果该命令不能被正在处理的设备执行，则在890其可移交。

示例56-示例实现-系统的视角

图9是从整个系统的视角的控制互连电子设备的拓扑中的哪个设备执行所识别的任务的另一示例方法900的流程图。

该系统可接收唤醒短语910、唤醒短语和包括任务的命令短语912、或者唤醒短语和包括任务和设备的命令短语914。听到用户930的设备可执行初始处理以确定它们是否应当进行响应。在940，如果偏好设备可用(例如，识别了唤醒短语识别)，则该偏好设备可进行响应950。如果没有偏好设备可用，则缺省设备可进行响应955。

所说的命令接着可被补全960并识别。

如果在970移交被指示，则移交可在990被执行。这种移交可以是移交到显式指定的设备、到针对该场景(例如任务)的偏好设备、或到针对该场景(例如任务)的缺省设备。移交期间的错误可被相应地处理。

否则，该命令在980被执行。如果命令不能被执行，则错误过程可被调用。

示例57-没有一个偏好设备可用时的示例动作

当池中没有偏好设备可用时(例如，设备在范围外、没有电、没有登录、没有响应等)，系统可求助于缺省设备。

当多于一个的偏好设备可用时，该系统可根据缺省设备列表选择一个设备(例如，消除歧义)。

电话可以缺省地是缺省设备(例如，当电话被购买时)，如果用户预期与这种缺省一致的话。

示例58-示例缺省设备和后备列表

缺省设备和后备列表可以如下(例如，按次序)：偏好设备；当前活跃的设备；最近期使用的设备；求助于服务提供商缺省值；可穿戴设备；电话；平板；膝上型计算机；游戏控制台；台式计算机。这种继位的规则可在偏好设备不可用或不能够执行所请求的任务时被使用。

响应于检测到任何层面上的设备间的平手，系统可选择最近期被使用的一个设备。替换地，最频繁使用的设备可被选择。设备间的平手可被合作地解决。例如，第一请求设备可主张它自己并看是否任何其它设备反对。从而，超时可被用来解决后备平手。

如果由于此用户的多个偏好设备而此列表必需被求助，该系统可提示用户调节冲突或歧义。

示例59—示例进一步特性

该系统可做出预设(provision)以使得系统更智能。例如，可实现最活跃使用的度量以用于设备缺省、后备等。个人化和机器学习可被用来推断缺省和偏好设备。

示例60—示例计算系统

图10示出了在其中可实现若干所描述的发明的合适的计算系统或环境1000的一般化示例。计算系统1000并不旨对使用范围或功能提出任何限制，因为这些创新可以在不同的通用或专用计算系统中实现。如在此所述的移动设备、可穿戴设备或其它设备可以采用所述的计算系统1000的形式。

参考图10，计算环境1000包括一个或多个处理单元1010、1015和存储器1020、1025。在图10中，该基本配置1030被包括在虚线内。处理单元1010、1015执行计算机可执行的指令。处理单元可以是通用中央处理单元(CPU)、专用集成电路(ASIC)中的处理器或者任何其他类型的处理器。在多处理系统中，多个处理单元执行计算机可执行指令以提高处理能力。例如，图10示出中央处理单元1010以及图形处理单元或协处理单元1015。有形存储器1020、1025可以是可由(诸)处理单元存取的易失性存储器(例如，寄存器、高速缓存、RAM)、非易失性存储器(例如，ROM、EEPROM、闪存等)或者两者的某一组合。存储器1020、1025可以适合被(诸)处理单元执行的计算机可执行指令的形式，存储实现此处描述的一个或多个发明的软件1080。

计算系统可具有附加的特征。例如，计算环境1000包括存储1040、一个或多个输入设备1050、一个或多个输出设备1060以及一个或多个通信连接1070。诸如总线、控制器或网络之类的互连机制(未示出)将计算系统1000的各组件互连。通常，操作系统软件(未示出)为在计算系统1000中执行的其它软件提供操作环境，并协调计算系统1000的各组件的活动。

有形存储1040可以是可移动或不可移动的，并包括磁盘、磁带或磁带盒、CD-ROM、DVD或可用于以非瞬态方式储存信息并可在计算系统1000内访问的任何其他介质。存储器1040可存储用于软件1080的指令，所述软件1080实现此处描述的一个或多个发明。

(一个或多个)输入设备1050可以是触摸输入设备(诸如键盘、鼠标、笔或跟踪球)、语音输入设备、扫描设备或向计算系统1000提供输入的另一设备。对于视频编码，(一个或多个)输入设备1050可以是相机、视频卡、TV调谐卡或接受模拟或数字形式的视频输入的类似设备，或将视频样本读入计算系统1000的CD-ROM或CD-RW。(一个或多个)输出设备1060可以是显示器、打印机、扬声器、CD刻录机或提供来自计算系统1000的输出的另一设备。

(诸)通信连接1070允许在通信介质上到另一计算实体的通信。通信介质传达诸如计算机可执行指令、音频或视频输入或输出、或已调制数据信号中的其他数据之类的信息。已调制数据信号是使其一个或多个特征以在信号中编码信息的方式设置或改变的信号。作为示例而非限制，通信介质可以使用电的、光学的、RF或其它载体。

各创新可以在计算机可读介质的一般上下文中描述。计算机可读介质是可在计算环境内访问的任何可用有形介质。作为示例而非局限，对于计算系统1000，计算机可读介质包括存储器1020、1025、存储1040、和以上任意的组合。

各创新可在计算机可执行指令(诸如包括在程序模块中的在(例如最终在硬件中执行的)目标现实或虚拟处理器上在计算系统中执行的那些计算机可执行指令)的一般上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。如各实施例中所描述的，这些程序模块的功能可以被组合，或者在这些程序模块之间拆分。针对各程序模块的计算机可执行指令可以在本地或分布式计算系统中执行。

术语“系统”和“设备”在此被互换地使用。除非上下文明确指示，否则，术语并不暗示对计算系统或计算设备的类型的任何限制。一般说来，计算系统或计算设备可以是本地的或分布式的，并且可以包括具有实现本文中描述的功能的软件的专用硬件和/或通用硬件的任意组合。

为了呈现起见，本详细描述使用了如“确定”和“使用”等术语来描述计算系统中的计算机操作。这些术语是对由计算机执行的操作的高级描述，且不应与人类所执行的动作混淆。对应于这些术语的实际的计算机操作取决于实现而不同。

示例61—示例移动设备

在任何一个此处的示例中，设备可采用移动设备的形式。图11是描述一示例移动设备1100的系统示意图，该示例移动设备1100包括在1102概括示出的各种任选的硬件和软件组件。该移动设备中的任何组件1102可与任何其他组件通信，但出于容易例示的目的而未示出所有连接。该移动设备可以是各种移动计算设备(例如，蜂窝电话、智能电话、平板、手持式计算机、无人机、个人数字助理(PDA)等)中的任一个，并且可允许与诸如蜂窝、卫星或其他网络的一个或多个移动通信网络1104进行无线双向通信。还支持(例如在Wi-Fi或其他网络上的)IP语音的场景。在此所述的通信设备可以采取所描述的移动设备1100的形式。

图示的移动设备1100可以包括用于执行任务的控制器或处理器1110(例如，信号处理器、微处理器、ASIC或者其他控制和处理逻辑电路)，所述任务诸如信号编码、数据处理、输入/输出处理、功率控制、和/或其他功能。操作系统1112可以控制各组件1102的分配和使用，并且支持一个或多个应用程序1114。应用程序1114可包括公共移动计算应用(例如，电子邮件应用、日历、联系人管理器、web浏览器、消息收发应用)、或任何其他计算应用。用于访问应用存储的功能性1113还可以用于获取和更新应用1114。

所例示的移动设备1100可包括存储器1120。存储器1120可以包括不可移动存储器1122和/或可移动存储器1124。不可移动存储器1122可以包括RAM、ROM、闪存、硬盘或者其他公知的存储器存储技术。可移动存储器1124可以包括闪存或订户身份模块(SIM)卡，这在GSM通信系统或者其他公知的存储器存储技术中是公知的，诸如“智能卡”。存储器1120可用于存储运行操作系统1112和应用1114的数据和/或代码。示例数据可以包括要经由一个或多个有线或无线网络被发送至和/或接收自一个或多个网络服务器或其他设备的网页、文本、图像、声音文件、视频数据或者其他数据集。存储器1120可用于存储订户标识符和设备标识符，所述订户标识符诸如国际移动订户身份(IMSI)，所述设备标识符诸如国际移动设备标识符(IMEI)。这种标识符可以被发射至网络服务器以标识用户和设备。

移动设备1100可支持诸如触摸屏1132、话筒1134、相机1136、物理键盘1138、和/或跟踪球1140等一个或多个输入设备1130，以及诸如扬声器1152和显示器1154等一个或多个输出设备1150。其他可能的输出设备(未示出)可以包括压电或其他触觉输出设备。一些设备可以用于多于一个输入/输出功能。例如，触摸屏1132和显示器1154可被组合在单一输入/输出设备中。

无线调制解调器1160可被耦合到天线(未示出)，并可支持处理器1110和外部设备之间的双向通信，如本领域中清楚理解的。调制解调器1160被一般性地示出，并且可以包括用于与移动通信网络1104的蜂窝调制解调器和/或其它基于无线电的调制解调器(例如蓝牙1164或Wi-Fi 1162)。无线调制解调器1160通常被配置用于与一个或多个蜂窝网络(诸如，用于在单一蜂窝网络内、蜂窝网络之间、或移动设备与公共交换电话网络(PSTN)之间的数据和语音通信的GSM或CDMA网络)进行通信。

移动设备1100还可以包括至少一个输入/输出端口1180、电源1182、卫星导航系统接收机1184(诸如全球导航卫星系统(GNSS)(例如，全球定位系统或即GPS)接收机)、加速度计1186、和/或物理连接器1190，物理连接器1190可以是USB端口、IEEE 1394(火线)端口和/或RS-232端口。图示的组件1102不是必须的或全包含的，因为任何组件可以被删除且其他组件可以被添加。

示例62—示例云支持环境

在图12的示例环境1200中，云1210向具有各种屏幕能力的连接的设备1230、1240、1250提供服务。所连接的设备1230代表具有计算机屏幕1235(例如，中等尺寸屏幕)的设备。例如，所连接的设备1230可以是诸如台式计算机、膝上型电脑、笔记本、上网本等个人计算机。所连接的设备1240代表具有移动设备屏幕1245(例如，小尺寸屏幕)的设备。例如，连接的设备1240可以是移动电话、智能电话、个人数字助理、平板计算机等。所连接的设备1250代表具有大屏幕1255的设备。例如，所连接的设备1250可以是电视机屏幕(例如，智能电视机)或连至电视机的另一设备(例如，机顶盒或游戏控制台)等等。相连接的设备1230、1240、1250中的一个或多个可包括触摸屏能力。触摸屏可以以不同方式接受输入。例如，电容式触摸屏在对象(例如，指尖或触笔)跨表面上流动的电流扭曲或中断时检测到触摸输入。举另一个示例，触摸屏可以使用光学传感器在来自光学传感器的波束被中断时检测到触摸输入。对于一些触摸屏所检测的输入而言，与屏幕表面的物理接触不是必要的。在示例环境1200中也可以使用没有屏幕能力的设备。例如，云1210可以为没有显示器的一个或多个计算机(例如，服务器计算机)提供服务。

服务可由云1210通过服务提供者1220提供、或通过其他在线服务提供者(未图示)而提供。例如，云服务可被定制成对应于特定相连接的设备(例如，相连接的设备1230、1240、1250)的屏幕大小、显示能力、和/或触摸屏能力。

在示例环境1200中，云1210至少部分地使用服务提供商1220来向各种连接的设备1230、1240、1250提供此处描述的技术和方案。例如，服务提供者1220可以为各种基于云的服务提供集中式解决方案。服务提供者1220可以管理对于各用户和/或设备(例如，对于所连接的设备1230、1240、1250和/或它们相应的用户)的服务预订。

示例63—示例实现

尽管以特定的顺序次序描述所公开方法的一些的操作以便于方便呈现，但应当理解，这一描述方式包含重排，除非以下提出的具体语言要求特定的次序。例如，顺序描述的操作可以在一些情况下并行地重排或同时执行。此外，为简洁起见，附图可能不示出所公开的方法可以结合其他方法使用的各种方式。

所公开的方法中的任一个可被实现为存储在一个或多个计算机可读介质(例如，非瞬态计算机可读介质，诸如一个或多个光学介质盘、易失性存储器组件(诸如DRAM或SRAM)或非易失性存储器组件(诸如硬驱动器))上并且在计算机(例如，任何可购买的计算机，包括智能电话或包含计算硬件的其它移动设备)上执行的计算机可执行指令。用于实现所公开的技术的计算机可执行指令中的任一个以及在所公开的实施例的实现期间创建和使用的任何数据可被存储在一个或多个计算机可读介质(例如，非瞬态计算机可读介质)上。计算机可执行指令可以是例如专用软件应用或者经由web浏览器或其他软件应用(诸如远程计算应用)访问和下载的软件应用的一部分。这种软件可以例如在单一本地计算机(例如，任何适当的商业可购买计算机)上或者使用一个或多个网络计算机在网络环境(例如，经由互联网、广域网、局域网、客户端－服务器网络(诸如云计算网络)、或者其他这样的网络)中执行。

为清楚起见，仅描述了基于软件的实现方式的特定所选方面。省略了本领域公知的其他细节。例如，应当理解，所公开的技术不限于任何具体的计算机语言或程序。例如，所公开的技术可以通过以C++、Java、Perl、JavaScript、Adobe Flash或者任何其他适当的编程语言编写的软件来实现。同样，所公开的技术不限于任何特定的计算机或硬件类型。适当计算机和硬件的特定细节是公知的，并且不需要在本公开中详细提出。

而且，基于软件的实施例(包括例如用于使计算机执行所公开方法的任一种的计算机可执行指令)中的任一者可以通过适当的通信手段被上载、下载或远程地访问。这种适当的通信手段包括例如互联网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信或者其他这样的通信手段。

所公开的方法、装置和系统不应以任何方式被限制。相反，本公开针对各种公开的实施例(单独和彼此的各种组合和子组合)的所有新颖和非显而易见的特征和方面。所公开的方法、装置和系统不限于任何具体方面或特征或它们的组合，所公开的实施例也不要求存在任一个或多个具体优点或者解决问题。

非瞬态计算机可读介质

在此的任何计算机可读介质可以是非瞬态的(例如，存储器、磁性存储、光学存储等等)。

在计算机可读介质中存储

此处描述的存储动作中的任一个可通过存储在一个或多个计算机可读介质(例如，计算机可读存储介质或其他有形介质)中来实现。

被描述为被存储的事物中的任一个可被存储在一个或多个计算机可读介质(例如，计算机可读存储介质或其他有形介质)中。

在计算机可读介质中的方法

此处描述的各方法中的任一方法可通过一个或多个计算机可读介质(例如，计算机可读存储介质或其他有形介质)中(例如，在其上编码)的计算机可执行指令来实现。这样的指令可以使得计算系统执行该方法。此处描述的技术可用各种编程语言来实现。

在计算机可读存储设备中的方法

此处描述的方法中的任一个可由存储在一个或多个计算机可读存储设备(例如，存储器、磁性存储、光学存储等等)中的计算机可执行指令来实现。这样的指令可以使得计算机执行该方法。

其他实施例

条款1：一种控制互连电子设备的拓扑中的哪个电子设备对唤醒短语进行响应的方法，所述方法包括：

在被配置成监听语音命令的所述互连电子设备的拓扑的电子设备中，从所述电子设备的话筒接收唤醒短语；

识别所述唤醒短语；以及

响应于识别所述唤醒短语，唤醒所述电子设备并控制所述互连电子设备的拓扑中的哪一个电子设备响应于所述唤醒短语而播放指示活跃监听状态的音频提示，其中所述控制调用响应仲裁规则，所述响应仲裁规则根据用户偏好或者由所述电子设备的一个或多个硬件传感器检测到的记录的活动来选择所述互连电子设备的拓扑中的单一电子设备，所述用户偏好指示针对所述互连电子设备的主设备指定。

条款2：如条款1所述的方法，其中：

所述响应仲裁规则指定在主设备不可用时的设备的继位的规则。

条款3：如条款1-2中的任一项所述的方法，其中：

所述记录的活动指示在所述电子设备附近或在所述电子设备处的物理活动；以及

所述控制选择具有最近期物理活动的电子设备。

条款4：如条款3所述的方法，其中：

响应于确定主设备不可用，具有最近期物理活动的电子设备被选择。

条款5：如条款1-4中的任一项所述的方法，其中：

所述控制动作选择被所述用户偏好指定为主设备的电子设备。

条款6：如条款1-4中的任一项所述的方法，进一步包括：

确定所述唤醒短语是否是被授权用户说出的；

当所述唤醒短语不是被授权用户说出的时所述唤醒短语不被识别。

条款7：如条款1-6中的任一项所述的方法，其中：

当所述电子设备处于待机状态时所述识别由所述电子设备的辅处理器执行。

条款8：如条款6所述的方法，其中：

在所述电子设备已转换离开待机状态之后，所述控制由所述电子设备的主处理器执行；以及

所述电子设备在处于待机状态中时消耗更少的电力。

条款9：如条款7所述的方法，其中：

唤醒所述电子设备将所述主处理器从非活跃状态激活。

条款10：如条款1-9中的任一项所述的方法，进一步包括：

通过所述电子设备的所述话筒接收语音命令；

识别通过所述话筒接收的所述语音命令中的任务；以及

响应于识别出所述任务，控制所述互连电子设备的拓扑中的哪一个电子设备执行所识别的任务，其中所述控制调用任务仲裁规则，所述任务仲裁规则根据用户设备偏好或所述互连电子设备的所存储的能力来从所述互连电子设备的拓扑中选择单一电子设备。

条款11：如条款8所述的方法，其中：

所述响应仲裁规则指定在针对所述任务的偏好设备不可用时的设备的继位的规则。

条款12：如条款8-11中的任一项所述的方法，进一步包括：

针对特定任务识别对特定设备的重复的、一致的使用；

在监听之前将所述用户偏好设置成将所述特定设备指示为与所述特定任务相关联；

其中所识别的任务包括所述特定任务，并且控制哪一个电子设备执行所述任务包括基于所述用户偏好针对所述特定任务选择所述特定设备。

条款13：如条款8-12中的任一项所述的方法，进一步包括：

经由所述互连电子设备的所存储的能力确定所识别的任务不能在所述电子设备处被执行；以及

选择另一电子设备来执行所识别的任务。

条款14：如权利要求11所述的方法，进一步包括：

将所述所识别的任务移交到另一电子设备。

条款15：如条款11-14中的任一项所述的方法，进一步包括：

向所述另一电子设备发送唤醒命令。

条款16：如条款11-15中的任一项所述的方法，其中：

所选择的单一电子设备没有听到所述语音命令。

条款17：一种电子设备，所述电子设备被配置成在包括互连电子设备的拓扑的环境中在处于低功率待机状态时识别唤醒短语，所述电子设备包括：

多个硬件传感器，所述多个硬件传感器包括话筒；

扬声器；

指示针对所述互连电子设备的拓扑的主设备指定的所存储的偏好；以及

所存储的设备监听状态，其中所存储的设备监听状态在识别到由所述话筒接收的所述唤醒短语之际从所述低功率待机状态转换，并且其中所述电子设备被配置成根据所述所存储的偏好或由所述电子设备的所述硬件传感器中的一个或多个检测到的所记录的活动来控制所述互连电子设备的拓扑中的哪一个电子设备响应于所述唤醒短语而转换到活跃监听状态并播放指示所述活跃监听状态的音频提示，所述所存储的偏好指示针对所述互连电子设备的主设备指定。

条款18：如条款13所述的电子设备，其中所述电子设备进一步包括：

辅语音识别子系统，所述辅语音识别子系统被配置成识别所述唤醒短语并且使所述电子设备转换离开所述低功率待机状态；以及

主语音识别子系统，所述主语音识别子系统被配置成控制所述互连电子设备的拓扑中的哪一个电子设备转换到活跃监听状态。

条款19：如条款13-18中的任一项所述的电子设备，进一步包括：

语音识别器，所述语音识别器被配置成识别由所述电子设备的所述话筒接收的语音命令，其中所述语音命令包括任务；

任务仲裁器，所述任务仲裁器被配置成根据用户偏好或所述互连电子设备的能力来控制所述互连电子设备的拓扑中的哪一个电子设备执行所述任务。

替换方案

来自任何示例的技术可以与在任何一个或多个其他示例中所描述的技术相组合。鉴于可应用所公开的本技术的原理的许多可能的实施例，应当认识到，所示实施例仅是所公开的技术的示例，并且不应被用作是对所公开的技术的范围的限制。相反，本公开的技术的范围由后续的权利要求来覆盖。我们要求作为我们的发明保护落入这些权利要求范围和精神内的所有内容。

Claims

1.一种控制互连电子设备的拓扑中的哪个电子设备对唤醒短语进行响应的方法，所述方法包括：

在被配置成监听语音命令的所述互连电子设备的拓扑的一电子设备中，从所述电子设备的话筒接收唤醒短语；

识别所述唤醒短语；以及

响应于识别所述唤醒短语，唤醒所述电子设备并控制所述互连电子设备的拓扑中的哪一个电子设备响应于所述唤醒短语而播放指示活跃监听状态的音频提示，其中所述控制调用响应仲裁规则，所述响应仲裁规则从所述互连电子设备的拓扑中选出单一电子设备作为主设备，其中所述主设备的选择是基于在从所述话筒接收到所述唤醒短语之前确定所述互连电阻设备的所述单一电子设备最近期已经被使用，其中所述确定基于指示在所述电子设备附近或在所述电子设备处的物理活动的记录的活动。

2.如权利要求1所述的方法，其特征在于：

3.如权利要求1所述的方法，其特征在于：

响应于确定所述主设备不可用，在接收所述唤醒短语之前具有第二最近期物理活动的电子设备被选择。

4.如权利要求1所述的方法，其特征在于：

5.如权利要求1所述的方法，其特征在于，进一步包括：

确定所述唤醒短语是否是被授权用户说出的；

6.如权利要求1所述的方法，其特征在于：

7.如权利要求6所述的方法，其特征在于：

所述电子设备在处于待机状态中时消耗更少的电力。

8.如权利要求7所述的方法，其特征在于：

唤醒所述电子设备将所述主处理器从非活跃状态激活。

9.如权利要求1所述的方法，其特征在于，进一步包括：

通过所述电子设备的所述话筒接收语音命令；

识别通过所述话筒接收的所述语音命令中的任务；以及

10.如权利要求9所述的方法，其特征在于：

11.如权利要求9所述的方法，其特征在于，进一步包括：

针对特定任务识别对特定设备的重复的、一致的使用；

12.如权利要求9所述的方法，其特征在于，进一步包括：

选择另一电子设备来执行所识别的任务。

13.如权利要求12所述的方法，其特征在于，进一步包括：

将所述所识别的任务移交到另一电子设备。

14.如权利要求12所述的方法，其特征在于，进一步包括：

向所述另一电子设备发送唤醒命令。

15.如权利要求2所述的方法，其特征在于：

所选择的单一电子设备没有听到所述语音命令。

16.一种电子设备，所述电子设备被配置成在包括互连电子设备的拓扑的环境中在处于低功率待机状态时识别唤醒短语，所述电子设备包括：

多个硬件传感器，所述多个硬件传感器包括话筒；

扬声器；以及

所存储的设备监听状态，其中所存储的设备监听状态在识别到由所述话筒接收的所述唤醒短语之际从所述低功率待机状态转换，并且其中所述电子设备被配置成根据在从所述话筒接收到所述唤醒短语之前所述互连电子设备的一电子设备最近期被使用来控制所述互连电子设备的拓扑中的哪一个电子设备响应于所述唤醒短语而转换到活跃监听状态并播放指示所述活跃监听状态的音频提示，其中最近期被使用的电子设备是基于指示在所述电子设备附近或在所述电子设备处的物理活动的记录的活动来确定的。

17.如权利要求16所述的电子设备，其特征在于，所述电子设备进一步包括：

18.如权利要求16所述的电子设备，其特征在于，还包括：

19.一个或多个包括机器可执行指令的机器可读介质，所述机器可执行指令使得电子设备执行一种控制互连电子设备的拓扑中的哪个电子设备对唤醒短语进行响应的方法，所述方法包括：

从所述电子设备的话筒接收虚拟人物的唤醒短语；

识别所述电子设备中的所述虚拟人物的所述唤醒短语；以及

响应于识别所述虚拟人物的所述唤醒短语，唤醒所述电子设备并控制所述互连电子设备的拓扑中的哪一个电子设备响应于所述唤醒短语而播放指示监听状态的音频提示，其中所述控制调用响应仲裁规则，所述响应仲裁规则在指示针对所述互连电子设备的主设备指定的用户偏好指示主设备不可用时选择所述互连电子设备的拓扑中的单一电子设备，其中所述单个设备被基于表示在所述单个设备附近或在所述单个设备处的物理活动的记录的活动确定为在接收到所述唤醒短语之前最近期被使用的设备，其中所述单个设备不同于所述电子设备；

从所述电子设备的所述话筒接收命令短语；

识别所述命令短语中的任务；

经由超时，确定针对所述任务的偏好设备不可用；

响应于确定针对所述任务的偏好设备不可用，确定针对所述任务的后备设备；以及

将所述任务移交给所述后备设备。