CN108604448B

CN108604448B - 跨装置的话音命令

Info

Publication number: CN108604448B
Application number: CN201680042544.1A
Authority: CN
Inventors: 陈贤名; 亚历山大·弗里德里希·库舍尔; 大岛满
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-11-06
Filing date: 2016-10-18
Publication date: 2019-09-24
Anticipated expiration: 2036-10-18
Also published as: CN108604448A; EP3913898A1; US9653075B1; US10714083B2; US20170133011A1; CN110675868A; US20230352025A1; US20170249940A1; US11749266B2; EP3371809B1; WO2017078926A1; CN110675868B; US20200302930A1; EP3371809A1

Abstract

本技术的方面涉及一种用于对多个计算装置使用话音命令的方法。从与用户账户相关联的第一计算装置接收第一话音输入数据，其中所述第一话音输入数据包括在所述第一计算装置处捕获的第一话音命令。从与所述用户账户相关联的第二计算装置接收第二话音输入数据，其中所述第二话音输入数据包括在所述第二计算装置处捕获的第二话音命令。基于所获得的第一话音输入数据和第二话音输入数据来确定预期话音命令。基于所述预期话音命令，确定第一目标计算装置。将与所述预期话音命令相关联的第一指令提供给所述第一目标计算装置以供执行。

Description

跨装置的话音命令

背景技术

随着越来越多的日常物品获得连接到因特网并且处理信息的能力，计算装置已经变得更加多样化且普遍存在。一种用于与这些类型的计算装置交互的方式是通过话音命令。随着能够识别话音命令并且对之做出响应的计算装置的数量增大，多个计算装置可捕获相同命令，这可导致执行所述命令的冲突或冗余。当前，不存在允许多个计算装置一起工作以确定预期话音命令并且基于预期话音命令确定目标计算装置的标准。

发明内容

本技术的方面涉及一种用于对一个或多个计算装置使用话音命令的计算机实施的方法。所述方法包括从与用户账户相关联的第一计算装置接收第一话音输入数据，其中所述第一话音输入数据包括在第一计算装置处捕获的第一话音命令。所述方法还包括从与用户账户相关联的第二计算装置接收第二话音输入数据，其中所述第二话音输入数据包括在第二计算装置处捕获的第二话音命令。所述方法还包括基于所获得的第一话音输入数据和第二话音输入数据来确定预期话音命令。所述方法还包括基于所述预期话音命令来确定第一目标计算装置。所述方法还包括将与预期话音命令相关联的第一指令提供给第一目标计算装置以供执行。

本技术的方面还涉及一种系统。所述系统包括一个或多个处理器和非暂态计算机可读介质，所述非暂态计算机可读介质包括存储在其中的指令，所述指令在由所述一个或多个处理器处理时致使所述一个或多个处理器执行操作。所述操作包括从与用户账户相关联的第一计算装置接收第一话音输入数据，其中所述第一话音输入数据包括在第一计算装置处捕获的第一话音命令和与所述第一话音命令相关联的第一时间戳。所述操作还包括从与用户账户相关联的第二计算装置接收第二话音输入数据，其中所述第二话音输入数据包括在第二计算装置处捕获的第二话音命令和与所述第二话音命令相关联的第二时间戳。所述操作还包括基于所获得的第一话音输入数据和第二话音输入数据来确定预期话音命令。所述操作还包括基于所述预期话音命令来确定第一目标计算装置。所述操作还包括将与预期话音命令相关联的第一指令提供给第一目标计算装置以供执行。

本技术的方面还涉及一种非暂态机器可读介质，其包括存储在其中的指令，所述指令在由机器执行时致使所述机器执行操作。所述操作包括从与多个用户账户相关联的第一计算装置接收第一话音输入数据。所述操作还包括使用话音辨识基于所述第一话音输入数据来确定与所述多个用户账户中的第一用户账户相关联的第一预期话音命令和与所述多个用户账户中的第二用户账户相关联的第二预期话音命令。所述操作还包括基于第一预期话音命令来确定第一目标计算装置。所述操作还包括基于第二预期话音命令来确定第二目标计算装置。所述操作还包括将与第一预期话音命令相关联的第一指令提供给第一目标计算装置以供执行。所述操作还包括将与第二预期话音命令相关联的第二指令提供给第二目标计算装置以供执行。

应当理解，本领域的技术人员将从以下具体实施方式容易明白本技术的其它配置，在以下具体实施方式中以说明方式展示并描述本技术的各种配置。如将意识到，本技术能够具有其它不同配置，并且其若干细节能够在各种其它方面中进行修改，这全部不脱离本技术的范围。因此，附图和具体实施方式应当被视为本质上是示例性而不是限制性的。

附图说明

包括附图以提供进一步理解，附图并入在本说明书中并构成其一部分，附图示出了所公开的方面并且连同描述一起用以解释所公开方面的原理。

图1示出用于对一个或多个计算装置使用话音命令的示例性网络环境。

图2展示示出根据本技术的各种方面的用于处理话音命令的示例性过程的流程图。

图3展示示出根据本技术的各种方面的用于处理话音命令的示例性过程的流程图。

图4概念性地示出可用于实施本技术的一些实施方式的示例性电子系统。

具体实施方式

下文所陈述的具体实施方式预期作为对本技术的各种配置的描述而不希望表示可实践本技术的仅有配置。附图并入在本文中并且构成具体实施方式的一部分。具体实施方式出于提供本技术的透彻理解的目的而包括特定细节。然而，本技术不限于本文中所陈述的特定细节，并且可在没有这些特定细节的情况下实践。在一些情况下，以框图形式展示结构和部件以避免模糊本技术的概念。

本技术使得用户能够利用话音命令来与一个或多个计算装置交互。根据各种方面，用户可对与在线或基于云的服务相关联的用户账户注册多个计算装置。用户可通过对用户账户证书认证来注册与所述用户账户相关联的计算装置。可通过经由例如门户网站、网络应用程序、应用程序登录页面等登录到用户账户来发起用户认证。在一些情况下，用户可通过注册与用户账户相关联的对应网络或装置标识符来注册与用户账户相关联的计算装置。可在注册到用户账户的多个计算装置中的任一者处捕获话音命令。在一些方面，可根据本技术处理仅在用户当前正在其处登录用户账户的计算装置处捕获的话音命令。

可接收来自与用户账户相关联的第一计算装置的第一话音输入数据。在一些方面，可接收来自与用户账户相关联的第二计算装置的第二话音输入数据。可基于第一话音输入数据和第二话音输入数据来确定预期话音命令。可基于预期话音命令来确定目标计算装置，并且可将与预期话音命令相关联的第一指令提供给第一目标计算装置以供执行。

在一个或多个实施例中，本技术使得用户能够使用话音命令来与缺乏捕获话音命令的能力的计算装置交互。例如，用户可希望与没有麦克风的智能恒温器交互。第一计算装置(例如，智能电话)可捕获话音命令并且将第一话音输入数据传输到服务器。服务器可接收第一话音输入数据并且确定预期话音命令是用于与第一计算装置不同的第二计算装置(例如，智能恒温器)。服务器可将与预期话音命令相关联的指令提供给第二计算装置。

图1示出可利用话音命令来与多个计算装置交互的示例性网络环境100。网络环境100可包括一个或多个计算装置102、104和106、网络108以及服务器110。服务器110可包括一个或多个计算装置112以及一个或多个数据存储区114。

计算装置102、104和106可表示各种形式的处理装置。以举例而非限制的方式，处理装置可包括台式计算机、膝上型计算机、手持式计算机、个人数字助理(PDA)、蜂窝式电话、网络电器、相机、智能电话、增强型通用分组无线电业务(EGPRS)移动电话、媒体播放器、导航装置、电子邮件装置、游戏控制台、智能电器或这些数据处理装置或其它数据处理装置中的任何者的组合。一些计算装置——诸如计算装置102和104，可具有捕获用户话音命令的能力。例如，计算装置102和104可包括麦克风，并且可具有存储在存储器中的指令，所述指令在由其相应处理器执行时允许计算装置102和104记录用户话音命令。其它计算装置——诸如计算装置106，可能不能够捕获用户话音命令，因为例如所述装置缺少麦克风。另外，计算装置102、104和106可包括用于语音识别和话音识别的处理电路和/或指令。

根据各种具体实施，计算装置102、104和106可与在线或基于云的用户账户相关联。在一些情况下，计算装置102、104和/或106可与多个不同的基于云的用户账户相关联。即使当计算装置与多个不同的基于云的用户账户相关联时，所述计算装置仍可与一个当前活动的用户账户相关联。例如，多个用户可能先前已经在计算装置上认证用户账户证书，但可能有一个用户在所述计算装置上活动地登录到用户账户。存储的与用户账户有关的信息可位于与服务器110相关联的数据存储区114中。在一些方面，存储的与用户账户有关的信息可位于单独服务器(未图示)上。

在一些方面，服务器110被配置为执行计算机指令以处理来自一个或多个计算装置的话音命令。当用户在诸如计算装置102或计算装置104的与用户账户相关联的计算装置(附近做出话音命令时，可捕获所述话音命令并且可将话音输入数据传输到服务器110。基于从与用户账户相关联的一个或多个计算装置接收到的话音输入数据，服务器110可确定预期话音命令并且将与预期话音命令相关联的指令提供到目标计算装置。

服务器110可为单个计算装置(例如，计算装置112)。在其它具体实施中，服务器110可表示一起工作以执行计算机服务器的动作的一个以上计算装置(例如，服务器群)。另外，服务器110可表示各种形式的服务器，其包括但不限于网络服务器、应用服务器、代理服务器、网络服务器或服务器群。

在一些方面，计算装置——包括计算装置102、104和106以及服务器110，可通过通信接口(未示出)无线地通信，所述通信接口可在必要时包括数字信号处理电路。通信接口可根据各种模式或协议提供通信，所述模式或协议例如为全球移动通信系统(GSM)话音呼叫、短消息服务(SMS)、增强型即时消息服务(EMS)或多媒体即时消息服务(MMS)即时消息、码分多址(CDMA)、时分多址(TDMA)、个人数字蜂窝(PDC)、宽带码分多址(WCDMA)、CDMA2000或通用分组无线电系统(GPRS)等。例如，所述通信可通过射频收发器(未示出)而发生。另外，短程通信可例如使用蓝牙、WiFi或其它此类收发器而发生。

在一些方面，网络环境100可为跨越诸如网络108的一个或多个网络的分布式客户端/服务器系统。网络108可为连接任何数量的移动客户端、固定客户端和服务器的大型计算机网络，诸如局域网(LAN)、广域网(WAN)、因特网、蜂窝式网络或其组合。另外，网络108可包括但不限于以下网络拓扑中的任何一者或多者，包括总线网络、星形网络、环形网络、网状网络、星形总线网络、树型或分级网络等等。在一些方面，每个客户端(例如，计算装置102、104和106)与服务器(例如，服务器110)之间的通信可经由虚拟私有网络(VPN)、安全外壳(SSH)隧道或其它安全网络连接发生。在一些方面，网络108还可包括企业网络(例如，内联网)和一个或多个无线接入点。

图2展示示出根据本技术的各种方面的用于处理话音命令的示例性过程200的流程图。过程200不需要以所示的次序执行。应当理解，所描绘的次序是一个或多个示例性途径的说明，并且本技术不意在限于所呈现的特定次序或层级。可重新排列步骤，且/或可同时执行所述步骤中的两者或两者以上。尽管已经相对于两个计算装置(例如，计算装置102和104)描述了过程200的步骤，但应当理解，本技术允许用户处理与两个以上计算装置相关联的话音命令。

在图2的框205中，从与用户账户相关联的第一计算装置(例如，计算装置102)接收第一话音输入数据，其中所述第一话音输入数据包括在第一计算装置102处捕获的第一话音命令。第一话音输入数据可包括例如在第一计算装置102处捕获的原始音频文件、基于所述原始音频文件的经过处理的词段、第一计算装置102的位置、时间戳、音频文件的声级等等。服务器110可从第一计算装置102接收包括原始音频文件的第一话音输入数据。在一些方面，服务器110可从第一计算装置102接收经过处理的词段。第一计算装置102可捕获第一话音命令的原始音频文件，并且可通过例如使用语音识别来处理原始音频文件以确定词段。第一计算装置102可将包括所确定的词段的第一话音输入数据发送到服务器110。

在图2的框210中，从与用户账户相关联的第二计算装置(例如，计算装置104)接收第二话音输入数据，其中所述第二话音输入数据包括在第二计算装置104处捕获的第二话音命令。第二话音输入数据可包括例如在第二计算装置104处捕获的原始音频文件、基于所述原始音频文件的经过处理的词段、第二计算装置104的位置、时间戳、音频的声级等。服务器110可从第二计算装置104接收包括原始音频文件的第二话音输入数据。在一些方面，服务器110可从第二计算装置104接收经过处理的词段。第二计算装置104可捕获第一话音命令的原始音频文件，并且可通过例如使用语音识别来处理原始音频文件以确定词段。第二计算装置104可将包括所确定的词段的第二话音输入数据发送到服务器110。

在一个或多个实施方式中，服务器110可确定在第一计算装置102处捕获的第一话音命令和在第二计算装置104处捕获的第二话音命令是否相关。服务器110可从第一计算装置102和第二计算装置104两者接收话音输入数据。所接收到的话音输入数据可与相同命令相关联。例如，可在第一计算装置102和第二计算装置104附近做出话音命令。所述计算装置中的每一者可捕获话音命令并且将其相应话音输入数据发送到服务器110。然而，所接收到的话音输入数据中的一些数据可能与不同命令相关联。例如，第一话音命令可在上午做出，并且第二话音命令可在下午做出。在另一个实例中，与第一用户相关联的第一话音命令可在第一计算装置102处捕获，并且与第二用户相关联的第二话音命令可在第二计算装置104处捕获。因此，本技术可在执行过程200的剩余部分之前确定第一话音命令和第二话音命令是否为相关的。

各种信息和技术可用于确定第一话音输入数据和第二话音输入数据是否为相关的。在一些方面，服务器110可将与第一话音输入数据相关联的时间戳和与第二话音输入数据相关联的时间戳进行比较。这些时间戳中的每一者可与相应计算装置中的在捕获话音命令时的内部时间相关联。如果与第一话音输入数据相关联的时间戳和与第二话音输入数据相关联的时间戳在预定时间阈值内，则服务器110可确定第一话音输入数据和第二话音输入数据为相关的。如上所述，服务器110可接收多个话音输入数据，并且可更有可能的是，当与第一话音输入数据相关联的时间戳在时间上接近于与第二话音输入数据相关联的时间戳时，第一话音输入数据和第二话音输入数据为相关的。

在某些情况下，第一计算装置102可捕获命令的第一部分，并且第二计算装置104可捕获命令的第二部分。例如，用户可在口述话音命令的同时正从第一计算装置102附近的位置移动到第二计算装置104附近的位置。第一计算装置102可能已经仅捕获话音命令的第一部分，并且第二计算装置104可能已经仅捕获话音命令的第二部分。在这种情况下，即使与第一话音输入数据和第二话音输入数据相关联的时间戳是不相同的，第一话音输入数据和第二话音输入数据仍为相关的。因而，预定时间阈值可被选择为允许与第一话音输入数据相关联的时间戳和与第二话音输入数据相关联的时间戳之间的某些可变性。第一计算装置102和第二计算装置104可周期性地使其内部时间与服务器110同步以确保正在使用标准时间来生成时间戳。

在一个或多个具体实施中，还可考虑所述计算装置中的每一者的位置。当第一计算装置102和第二计算装置104位于预定距离阈值内时，服务器110可确定第一话音输入数据和第二话音输入数据为相关的。可更有可能的是，当与第一计算装置102相关联的位置接近于与第二计算装置104相关联的位置时，第一话音输入数据和第二话音输入数据为相关的。然而，当用户在发布命令的同时正在到处移动时，即使与第一计算装置102和第二计算装置104相关联的位置是不相同的，第一话音输入数据和第二话音输入数据仍可为相关的。因而，预定距离阈值可被选择为允许与第一计算装置102相关联的位置和与第二计算装置104相关联的位置之间的某些可变性。所述计算装置中的每一者的位置可由服务器110作为相应话音输入数据的部分来接收，或可由服务器110来访问。

在一些情况下，话音识别也可用于确定第一话音输入数据和第二话音输入数据是否为相关的。例如，服务器110可访问与用户账户相关联的用户的样本话音记录，并且将样本话音记录与第一话音输入数据和第二话音输入数据进行比较以确定第一话音输入数据和第二话音输入数据与同用户账户相关联的用户相关联。在另一个实例中，服务器110可将与用户账户相关联的话音简档与第一话音输入数据和第二话音输入数据进行比较以确定第一话音输入数据和第二话音输入数据与同用户账户相关联的用户相关联。

在图2的框215中，基于所获得的第一话音输入数据和第二话音输入数据来确定预期话音命令。在一个或多个具体实施中，服务器110可确定与第一话音输入数据相关联的第一话音命令包括预期话音命令的第一部分，并且与第二话音输入数据相关联的第二话音命令包括预期话音命令的第二部分。例如，第一计算装置102和第二计算装置104可在不同位置中。用户可在用户正在发布话音命令(例如，“raise the temperature by 2 degrees(把温度提高2度)”)时正在移动。第一计算装置102可捕获预期话音命令的第一部分，例如，短语“raise the”。第二计算装置104可捕获预期话音命令的第二部分，例如，短语“temperature by 2 degrees”。服务器110可基于相应话音输入数据的时间戳来合并预期话音命令的第一部分和预期话音命令的第二部分。

服务器110可将与第一话音输入数据相关联的时间戳和与第二话音输入数据相关联的时间戳进行比较。如果与第一话音输入数据相关联的时间戳和与第二话音输入数据相关联的时间戳在预定时间阈值内，则服务器110可确定第一话音输入数据和第二话音输入数据为相关的。另外，服务器110可使用语音识别来基于第一话音输入数据确定预期话音命令的第一部分并且基于第二话音输入数据确定预期话音命令的第二部分。服务器110可确定预期话音命令的所确定的第一部分不与同用户账户相关联的任何计算装置上可用的命令相关联。

响应于确定预期话音命令的第一部分不与用户可用的命令相关联，服务器110可组合预期话音命令的第一部分(例如，“raise the”)和话音命令的第二部分(例如，“temperature by 2 degrees”)以确定预期话音命令(例如，“raise the temperature by2 degrees”)。可基于时间戳来确定组合预期话音命令的第一部分和话音命令的第二部分的次序。例如，如果与第一话音输入数据相关联的时间戳比与第二话音输入数据相关联的时间戳早，则可将预期话音命令的第二部分添加到预期话音命令的第一部分的末端。

在一些方面，服务器110可从第一计算装置102接收第一组识别的词段并且从第二计算装置104接收第二组识别的词段。基于本领域中已知的方法，计算装置可捕获话音命令并且处理所捕获的话音命令，使得所捕获的话音命令的每个音节被解析并转化为识别的词段。第一计算装置102可将第一组识别的词段发送到服务器110，并且第二计算装置104可将第二组辨识词段发送到服务器110。服务器110可确定在第一组识别的词段与第二组识别的词段之间存在识别的词段的重叠。可基于合并第一组识别的词段和第二组识别的词段来确定预期话音命令。

在一个或多个具体实施中，服务器110可基于第一时间戳与第二时间戳的第一比较以及第一计算装置102的第一位置与第二计算装置104的第二位置的第二比较，来确定第一话音命令和第二话音命令各自包括预期话音命令。例如，所接收的第一话音输入数据可包括例如在捕获第一话音命令时的第一计算装置102的第一位置和第一时间戳。所接收的第二话音输入数据可包括例如在捕获第二话音命令时的第二计算装置104的第二位置和第二时间戳。服务器110可将第一时间戳与第二时间戳进行比较以确定两个时间戳是否在预定时间阈值内。服务器110可将第一位置与第二位置进行比较以确定两个位置是否在预定位置阈值内。基于所述两个比较，服务器110可确定第一话音命令和第二话音命令各自包括预期话音命令。

在一些情况下，在不同装置处捕获的话音命令的质量可为不同的。例如，用户可在用户正在发布命令时正在移动，或与计算装置相关联的麦克风可正背对用户。在一些情况下，检测话音命令的计算装置中的每一者可捕获话音命令的原始音频文件。计算装置中的每一者可处理原始音频文件以确定识别的词段和相应置信度值。基于本领域中已知的方法，解析所捕获的话音命令的每个音节并且将其转化为识别的词段。还可计算置信度值，并且置信度值可指示识别的词段准确地表示话音命令的对应音节的概率。在一些情况下，服务器110可接收与话音命令相关联的原始音频文件，并且可处理原始音频文件以确定识别的词段和相应置信度值。

在一个或多个具体实施中，第一话音输入数据可包括第一识别的词段和第一置信度值，并且所述第二话音输入数据还包括第二识别的词段和第二置信度值。类似于确定第一话音输入数据与第二话音输入数据相关，服务器110可确定第一识别的词段与第二识别的词段相关。例如，服务器110可确定与第一识别的词段相关联的时间戳和与第二识别的词段相关联的时间戳之间的差值在预定时间阈值内。服务器110可通过确定第一识别的词段不同于第二识别的词段来确定预期话音命令。如上文提及，在不同装置处捕获的话音命令的质量可能不同，并且所述差异可被反映为第一置信度值与第二置信度值的差值。服务器110可基于第一置信度值与第二置信度值的比较来选择第一识别的词段或第二识别的词段中的一者。例如，较高置信度值可指示识别的词段准确地表示预期话音命令的概率较高。在这种情况下，服务器110可选择具有较高置信度值的词段。

例如，用户可口述单音节话音命令，诸如“off”。第一计算装置102可处理在第一计算装置102上捕获的话音命令，并且确定第一识别的词段——例如，指示“off”的文本，和第一置信度值——例如，.90。第二计算装置104可处理在第二计算装置102上捕获的话音命令，并且确定第二识别的词段——例如，指示“of”的文本和第二置信度值——例如，.80。所述计算装置中的每一者可将相应识别的词段发送到服务器110。服务器110可确定第一识别的词段和第二识别的词段为相关的，因为与第一识别的词段相关联的时间戳和与第二识别的词段相关联的时间戳低于预定时间阈值。服务器110可将第一置信度值与第二置信度值进行比较。基于第一置信度值(.90)和第二置信度值(.80)的比较，服务器110可选择“off”作为预期话音命令。

在一个或多个具体实施中，第一话音输入数据可包括第一组识别的词段及其相应的第一置信度值，并且第二话音输入数据可包括第二组识别的词段及其相应的第二置信度值。服务器110可接收第一话音输入数据和第二话音输入数据，并且将第一组词段中的每一者与其相应的第二词段进行比较。服务器110可确定第一组识别的词段与第二组识别的词段相关。例如，服务器110可确定与第一组识别的词段相关联的时间戳和与第二组识别的词段相关联的时间戳之间的差值在预定时间阈值内。

服务器110可基于相应的第一置信度值和相应的第二置信度值来合并第一组识别的词段和第二组识别的词段。在一些方面，对于第一组识别的词段中的每一者，服务器110可在第一词段和第二词段被确定为相同时将第一词段与相应的第二词段组合，并且在第一词段和第二词段被确定为不同时基于其相应的置信度值来在第一词段与相应的第二词段之间进行选择。

例如，用户可口述话音命令，诸如“print document one”。第一计算装置102可处理所述话音命令并且确定对应于“print document one”的第一组词段，其中每个词段对应于所述话音命令的音节。第二计算装置104可处理所述话音命令并且确定对应于“tintdocument one”的第二组词段，其中每个词段对应于所述话音命令的音节。服务器110可基于时间戳确定第一组识别的词段(例如，“print document one”)与第二组识别的词段(例如，“tint document one”)相关。例如，与第一组词段和第二组词段相关联的时间戳可以相同，这可指示第一组识别的词段可与第二组识别的词段相关。服务器110可确定第一组识别的词段当中的第一识别的词段(例如，“print”)不同于第二组识别的词段当中的其相应第二识别的词段(例如，“tint”)。如上所述，服务器110可基于其相应置信度值来在第一识别的词段(例如，“print”)与第二识别的词段(例如，“tint)之间选择识别的词段。在这个实例中，第一识别的词段可具有较高置信度值。根据本技术，服务器110可选择第一词段(例如，“print”)并且在确定剩余的第一词段和第二词段中的每一者为相同之后组合第一词段和第二词段中的剩余词段(例如，document one)。基于这个过程，服务器110可确定预期话音命令是“print document one”。

在图2的框220中，基于预期话音命令来确定第一目标计算装置。由于多个装置可捕获话音命令，所以在不实施恰当方法来解决冲突的情况下可发生执行话音命令的冲突或冗余。

在一个或多个具体实施中，预期话音命令可包括与第一目标计算装置相关联的装置标识符。例如，用户可陈述用户希望与之交互的装置的名称。当用户向用户账户注册装置时，可将装置标识符存储在数据存储区114中。在一些方面，服务器110可接收作为话音输入数据的部分的装置标识符。服务器110可将所存储的装置标识符或所接收到的装置标识符与预期话音命令进行比较，并且基于所述比较来确定第一目标计算装置。

在一个或多个具体实施中，所接收到的第一话音输入数据和第二话音输入数据还包括与其相应话音命令相关联的声级。服务器110可将与第一话音命令相关联的第一声级和与第二话音命令相关联的第二声级进行比较。服务器110可确定例如与较响亮的话音命令相关联的计算装置为第一目标计算装置。用户可更有可能与较靠近用户的计算装置交互，并且较靠近用户的计算装置可与较响亮的话音命令相关联。在一些情况下，即使当用户与第一计算装置102和第二计算装置104相距相同距离时，由于例如麦克风的质量，在第一计算装置102和第二计算装置104处捕获的声级仍可能不同。服务器110可接收与第一计算装置102的麦克风和第二计算装置104的麦克风相关联的数据，并且可在将第一声级与第二声级进行比较之前基于与麦克风相关联的其相应数据来使第一声级和第二声级标准化。

在一个或多个具体实施中，所接收到的第一话音输入数据和第二话音输入数据包括与相应计算装置上的用户可用的命令相关联的数据。服务器110可将与可用于第一计算装置102的命令相关联的第一数据和预期话音命令进行比较。服务器110还可将与可用于第二计算装置104的命令相关联的第二数据和预期话音命令进行比较。如果预期话音命令可用于第一计算装置102和第二计算装置104两者，则诸如上文提及的方法的其它方法可用于确定第一目标计算装置。如果预期话音命令可用于第一计算装置102，但不可用于第二计算装置104，则服务器110可确定第一计算装置102是第一目标计算装置。如果预期话音命令可用于第二计算装置104，但不可用于第一计算装置102，则服务器110可确定第二计算装置104是第一目标计算装置。

在一些情况下，服务器110可能够访问先前所接收到的话音输入数据。明确地说，如果在先前所接收的话音输入数据之后的预定时间阈值内接收到第一话音输入数据和第二话音输入数据，则服务器110可基于先前所确定的目标计算装置来确定第一目标计算装置。

例如，服务器110可确定预期任务是“raise the volume by 10(把音量调高10)”。服务器110可能不能够标识第一目标计算装置，因为与用户账户相关联的多个计算装置(例如，电视机、收音机、其它音乐播放器)可执行所述预期任务“rais[ing]the volume by10”。然而，如果用户先前已经口述话音命令，诸如“turn on the radio(打开收音机)”，则服务器110可基于与先前话音命令(例如，turn on the radio)相关联的先前所确定的目标计算装置来确定第一目标计算装置。服务器110可先前已经确定收音机(例如，第一计算装置102)是目标计算装置。如果在接收第一话音输入数据和与先前所口述的话音命令相关联的数据之间的时间差小于预定时间阈值，则服务器110可确定第一目标计算装置是第一计算装置102。

在一个或多个具体实施中，即使在执行上述方法之后，服务器110仍可能不能够标识第一目标计算装置。在这种情况下，服务器110可已经确定第一计算装置102和第二计算装置104两者可执行用户命令。服务器110可基于额外背景数据来在第一计算装置102与第二计算装置104之间进行选择。在一些方面，服务器110可能够访问与同用户账户相关联的计算装置中的每一者相关联的背景数据。背景数据可包括例如用户使用计算装置的频率和持续时间、当前电池电量、屏幕大小(如果适用)等等。在一些方面，服务器110可基于与第一计算装置102相关联的背景数据和与第二计算装置104相关联的背景数据的比较来确定第一目标计算装置。例如，如果用户使用第一计算装置102的频率高于用户使用第二计算装置104的频率，则服务器110可确定第一计算装置102是目标计算装置。在另一个实例中，如果第一计算装置102的当前电池电量高于第二计算装置104的当前电池电量，则服务器110可确定第一计算装置102是目标计算装置。

在图2的框225中，将与预期话音命令相关联的指令提供给第一目标计算装置以供执行。在一些方面，预期话音命令可与第一目标计算装置和第二目标计算装置相关联。服务器可从第一计算装置102接收第一话音输入数据并且从第二计算装置104接收第二话音输入数据。服务器110可确定预期话音命令并且确定第一目标计算装置和第二目标计算装置。服务器110可将与预期话音命令相关联的第一指令提供给第一目标计算装置并且将与预期话音命令相关联的第二指令提供给第二目标计算装置。例如，用户可希望将照片从第一计算装置102传送到第二计算装置104。第一目标计算装置可为第一计算装置102，并且第二目标计算装置可为第二计算装置104。第一指令可与在第一计算装置102上发起照片传送应用相关联。第二指令可与在第二计算装置104上接受来自第一计算装置102的照片传送相关联。在一些方面，与预期话音命令相关联的第一指令和与预期话音命令相关联的第二指令可以相同。例如，用户可希望“turn off(关掉)”多个计算装置。服务器110可向第一目标计算装置和第二目标计算装置发送相同指令。

在一个或多个具体实施中，服务器110可接收与所提供的指令相关联的用户反馈数据。在一些方面，在将第一指令提供给第一目标计算装置之后，服务器110可确定在预定时间阈值内从不是第一目标计算装置的计算装置接收用户交互指示可指示预期话音命令的确定是不正确的。服务器110可存储第一话音输入数据、第二话音输入数据和用户交互指示的条目以供将来参考。在服务器110接收话音输入数据的下一个时间，服务器110可将话音输入数据与先前所存储的条目进行比较。预期话音命令和目标计算装置的将来确定可还基于先前所存储的条目。

虽然第一计算装置102和第二计算装置104被描述为与单个用户账户相关联，但应当理解，第一计算装置102和第二计算装置104可与不同用户账户相关联。例如，第一计算装置102可从第一用户接收第一话音命令，并且第二计算装置104可从第二用户接收第二话音命令。第一话音命令和第二话音命令可与相同目标计算装置相关联。服务器110可从第一计算装置102接收包括第一话音命令的第一话音输入数据，并且从第二计算装置104接收包括第二话音命令的第二话音输入数据。服务器110可确定第一话音输入数据与第一用户账户的第一用户相关联并且第二话音输入数据与第二用户账户的第二用户相关联。服务器110可基于第一话音输入数据确定第一预期话音命令并且基于第二话音输入数据确定第二预期话音命令。服务器110可进一步确定目标计算装置与第一用户账户和第二用户账户相关联并且第一预期话音命令和第二预期话音命令为冲突的。在一些情况下，服务器110可将指令发送给计算装置102和104。作为响应，计算装置102和104可提供显示图形用户元素以从第一用户和第二用户接收进一步指令或确认。用户可选择哪个指令具有优先级。在其它情况下，与目标计算装置相关联的某些用户账户可具有较高优先级或特权。在这种情况下，服务器110可将与具有最高优先级的用户账户相关联的指令传输到目标计算装置。

图3展示示出根据本技术的各种方面的用于将与预期话音命令相关联的第一指令提供给目标计算装置的示例性过程300的流程图。过程300的步骤不需要以所展示的次序执行。应当理解，所描绘的次序是一个或多个示例性途径的说明，并且本技术不意在限于所呈现的特定次序或层级。可重新排列所述步骤，且/或可同时执行所述步骤中的两者或两者以上。

在图3的框305中，从与多个用户账户相关联的第一计算装置接收第一话音输入数据，其中所述第一话音输入数据包括与所述多个用户账户中的第一用户账户相关联的第一话音命令和与所述多个用户账户中的第二用户账户相关联的第二话音命令。第一用户和第二用户可在预定时间阈值内在第一计算装置102附近口述话音命令，并且第一计算装置102可捕获第一话音命令和第二话音命令两者作为例如单个音频文件并且将所述音频文件发送到服务器110。

在图3的框310中，基于第一话音输入数据来确定第一预期话音命令和第二预期话音命令。服务器110可使用话音识别技术来标识与所获得的第一话音输入数据相关联的用户。例如，服务器110可接收包括来自多个用户的多个命令的音频文件。服务器110可将所述音频文件分成多个部分，其中原始音频文件的部分可与不同用户相关联。

例如，第一计算装置102可与第一用户账户和第二用户账户相关联。第一用户可在第一计算装置102附近口述话音命令，诸如“raise the volume of the TV by 20(把电视音量升高20)”，并且第二用户也可在第一计算装置102附近发出话音命令，诸如“raise thetemperature to 100(把温度升高至100)”。所述两个话音命令可在彼此紧密接近时间内检测到并且可重叠。例如，可在t₀处检测到短语“raise the volume of the TV by”，可在t₁处检测到短语“raise the temperature to”，可在t₂处检测到短语“20”，并且可在t₃处检测到短语“100”。第一计算装置102可确定与通过使用话音识别技术检测到的短语中的每一者相关联的扬声器。第一计算装置102可基于(例如)与第一用户账户相关联的话音简档与所检测到的短语的比较来确定短语“raise the volume of the TV by”和“20”与第一用户相关联。第一计算装置102可还基于(例如)与第二用户账户相关联的话音简档和所检测到的短语的比较来确定短语“raise the temperature to”和“100”与第二用户相关联。基于这些确定，第一计算装置102可创建与第一用户相关联的原始音频文件的第一部分和与第二用户相关联的原始音频文件的第二部分。可将原始音频文件的这些部分发送到服务器110。在一些实施方式中，服务器110可接收与第一用户和第二用户相关联的原始音频文件，并且可基于以上过程来区别来自第一用户的命令和来自第二用户的命令。

在图3的框315中，基于第一预期话音命令来确定第一目标计算装置。在图3的框320中，基于第二预期话音命令来确定第二目标计算装置。第一目标计算装置和第二目标计算装置可能没有麦克风且/或可能尚未捕获到话音命令。例如，用户可能希望改变房屋的温度，并且可在用户的智能电话附近口述话音命令，诸如“raise temperature by threedegrees(把温度升高3度)”。计算装置102(例如，智能电话)可捕获话音命令并且将第一话音输入数据发送到服务器110。服务器110可确定计算装置106(例如，智能恒温器)是第一目标计算装置。在一些具体实施中，话音命令可包括装置标识符。服务器110可访问与用户账户相关联的计算装置列表并且确定计算装置106是第一目标计算装置。在一些实施方式中，计算装置106可发送数据，该数据可包括例如计算装置106的位置、计算装置106上的用户可用的命令等等。服务器110可将预期话音命令和与用户账户相关联的计算装置上的用户可用的命令进行比较。如果预期话音命令是计算装置106上的用户可用的命令，则服务器110可确定计算装置106是第一目标计算装置。

在图3的框325中，将与第一预期话音命令相关联的第一指令提供给第一目标计算装置以供执行。在图3的框330中，将与第二预期话音命令相关联的第二指令提供给第二目标计算装置以供执行。

图4概念性地示出可用于实施本技术的一些实施方式的示例性电子系统。电子系统400可为计算机、电话、PDA或任何其它种类的电子装置。此类电子系统包括各种类型的计算机可读介质和用于各种其它类型的计算机可读介质的接口。电子系统400包括总线408、处理单元412、系统存储器404、只读存储器(ROM)410、永久存储装置402、输入装置接口414、输出装置接口406和网络接口416。

总线408总体表示通信地连接电子系统400的许多内部装置的所有系统、外围装置和芯片组总线。例如，总线408通信地连接处理单元412与ROM 410、系统存储器404和永久存储装置402。

从这些各种存储器单元，处理单元412检索待执行的指令和待处理的数据以便执行本公开的过程。处理单元可在不同实施方式中为单个处理器或多核处理器。

ROM 410存储电子系统的处理单元412和其它模块所需要的静态数据和指令。另一方面，永久存储装置402是读取和写入存储器装置。这个装置是即使在电子系统400关闭时仍存储指令和数据的非易失性存储器单元。本公开的一些实施方式使用大容量存储装置(例如，磁盘或光盘及其对应盘驱动器)作为永久存储装置402。

其它实施方式使用可移除存储装置(例如，软盘、闪存驱动器及其对应盘驱动器)作为永久存储装置402。如同永久存储装置402，系统存储器404是读取和写入存储器装置。然而，不同于存储装置402，系统存储器404是易失性读取和写入存储器，诸如随机存取存储器。系统存储器404存储处理器在运行时需要的一些指令和数据。在一些实施方式中，本公开的过程存储在系统存储器404、永久存储装置402或ROM 410中。例如，根据一些实施方式，各种存储器单元包括用于显示网页、处理对网页的用户输入并且生成URL的指令。从这些各种存储器单元，处理单元412检索待执行的指令和待处理的数据以便执行一些实施方式的过程。

总线408还连接到输入装置接口414和输出装置接口406。输入装置接口414使得用户能够向电子系统传送信息并且选择命令。与输入装置接口414一起使用的输入装置包括例如字母数字键盘和指向装置(还称为“光标控制装置”)。输出装置接口406使得能够例如显示电子系统400所生成的图像。与输出装置接口406一起使用的输出装置包括例如打印机和显示装置，例如阴极射线管(CRT)或液晶显示器(LCD)。一些实施方式包括充当输入装置和输出装置两者的装置，例如触摸屏。

最后，如图4所示，总线408还通过网络接口416将电子系统400耦接到网络(未示出)。以此方式，计算机可为计算机网络(例如，局域网(LAN)、广域网(WAN)或内联网)的一部分，或网络的网络(例如，因特网)。可结合本公开使用电子系统400的任何或所有部件。

上述许多特征和应用程序被实施为指定作为记录在计算机可读存储介质(还称为计算机可读介质)上的一组指令的软件过程。当这些指令由一个或多个处理单元(例如，一个或多个处理器、处理器核心或其它处理单元)执行时，其致使处理单元执行所述指令中所指示的动作。计算机可读介质的实例包括但不限于CD-ROM、闪存驱动器、RAM芯片、硬盘驱动器、EPROM等等。计算机可读介质不包括无线地或经由有线连接传递的载波和电子信号。

在本说明书中，术语“软件”意在包括驻留在只读存储器中的固件或存储在磁性存储装置中的应用程序，所述应用程序可被读取到存储器中以供处理器处理。另外，在一些实施方式中，本公开的多个软件方面可被实施为较大程序的子部分，同时保留本公开的相异软件方面。在一些实施方式中，多个软件方面还可被实施为单独程序。最后，一起实施此处所描述的软件方面的单独程序的任何组合属于本公开的范围内。在一些实施方式中，软件程序在被安装以在一个或多个电子系统上进行操作时界定实行并执行软件程序的操作的一个或多个特定机器的实施方式。

计算机程序(还称为程序、软件、软件应用程序、脚本或代码)可以任何形式的编程语言(包括编译或解释语言、声明或程序语言)来书写，并且其可以任何形式来部，包括作为独立程序或作为适于在计算环境中使用的模块、部件、子例程、对象或其它单元。计算机程序可以但不需要对应于文件系统中的文件。程序可存储在保持其它程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)、在专用于正被谈论的程序的单个文件中或在多个协调文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可被部署为在一个计算机上或在位于一个位点处或分布在多个位点处并且通过通信网络互连的多个计算机上执行。

上述的这些功能可在数字电子电路中、在计算机软件、固件或硬件中实施。所述技术可使用一个或多个计算机程序产品来实施。可编程处理器和计算机可包括在移动装置中或封装为移动装置。所述过程和逻辑流程可由一个或多个可编程处理器并且由一个或多个可编程逻辑电路执行。通用和专用计算装置和存储装置可通过通信网络互连。

一些实施方式包括将计算机程序指令存储在机器可读或计算机可读介质(另选地称为计算机可读存储介质、机器可读介质或机器可读存储介质)中的电子部件，例如，微处理器、存储装置和存储器。此类计算机可读介质的一些实例包括RAM、ROM、只读压缩光盘(CD-ROM)、可记录压缩光盘(CD-R)、可覆写压缩光盘(CD-RW)、只读数字多功能光盘(例如，DVD-ROM、双层DVD-ROM)、多种可记录/可覆写DVD(例如，DVD-RAM、DVD-RW、DVD+RW等)、快闪存储器(例如，SD卡、迷你SD卡、微型SD卡等)、磁性或固态硬盘驱动器、只读且可记录盘、超高密度光盘、任何其它光学或磁性介质以及软盘。计算机可读介质可存储能够由至少一个处理单元执行并且包括用于执行各种操作的指令集的计算机程序。计算机程序或计算机代码的实例包括例如由编译器产生机器代码，以及由计算机、电子部件或微处理器使用解释程序执行的包括高级代码的文件。

尽管以上论述主要参考执行软件的微处理器或多核处理器，但一些实施方式由一个或多个集成电路来执行，例如，专用集成电路(ASIC)或现场可编程门阵列(FPGA)。在一些具体实施中，此类集成电路执行存储在电路本身上的指令。

如本申请的本说明书和任何权利要求中所使用，术语“计算机”、“服务器”、“处理器”和“存储器”全部是指电子装置或其它技术装置。这些术语不包括人或人群。出于本说明书的目的，术语“显示”意指在电子装置上显示。如本申请的本说明书和任何权利要求中所使用，术语“计算机可读介质”整体限于以计算机可读的形式存储信息的有形物理物体。这些术语不包括任何无线信号、有线下载信号和任何其它短暂信号。

为了提供与用户的交互，本说明书中所描述的主题的具体实施可在具有用于向用户显示信息的显示装置(例如，阴极射线管(CRT)或液晶显示器(LCD)监视器)以及用户通过其可向计算机提供输入的键盘和指点装置(例如，鼠标或轨迹球)的计算机上实施。其它种类的装置也可用于提供与用户的交互；例如，提供给用户的反馈可为任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且来自用户的输入可以任何形式来接收包括声学、语音或触觉输入。另外，计算机可通过向用户所使用的装置发送文档并且从用户所使用的装置接收文档来与用户交互；例如，通过响应于从web浏览器接收到的请求来将网页发送到用户客户端装置上的web浏览器。

本说明书中所描述的主题的实施例可在包括后端部件(例如，作为数据服务器)或包括中间件部件(例如，应用服务器)或包括前端部件(例如，具有图形用户界面或web浏览器的客户端计算机，用户可通过其与本说明书中所描述的主题的实施方式交互)或者一个或多个此类后端、中间件或前端部件的任何组合的计算系统中实施。所述系统的部件可通过数字数据通信的任何形式或媒体(例如，通信网络)互连。通信网络的实例包括局域网(LAN)和广域网(WAN)、互连网络(例如，因特网)以及对等网络(例如，特定对等网络)。

计算系统可包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器将数据(例如，HTML页)传输到客户端装置(例如，出于向与客户端装置交互的用户显示数据并且从与客户端装置交互的用户接收用户输入的目的)。可在服务器处从客户端装置接收在客户端装置处生成的数据(例如，用户交互的结果)。

应当理解，所公开的过程中的步骤的任何特定次序或层级是示例性方法的说明。基于设计偏好，应当理解可重新排列所述过程中的步骤的特定次序或层级，或者执行所有所示出的步骤。可同时执行一些步骤。例如，在某些情况下，多任务处理和并行处理可为有利的。此外，在上文所述的实施例中的各种系统部件的分离不应被理解为在所有实施例中均需要此类分离，并且应当理解，所描述的程序部件和系统可通常一起集成在单个软件产品中或封装到多个软件产品中。

提供先前描述以使得本领域的技术人员能够实践本文所述的各种方面。本领域的技术人员将容易明白这些方面的各种修改，并且本文中所定义的通用原理可应用于其它方面。因此，不希望权利要求书限于本文所展示的方面，而是应被赋予与书面权利要求书一致的完整范围，其中以单数形式提及元件不希望意指“一个且仅一个”而是“一个或多个”，除非另外明确陈述。除非以其它方式明确陈述，否则术语“一些”是指一个或多个。男性代词(例如，他的)包括女性和中性(例如，她的和它的)，反之亦然。标题和子标题(如果存在的话)仅出于方便起见来使用并且不限制本公开。

诸如“方面”等短语并不暗示此类方面对于本技术为基本的，或者此类方面适用于本技术的所有配置。与一方面相关的公开内容可适用于所有配置或一个或多个配置。诸如一方面等短语可指一个或多个方面，反之亦然。诸如“配置”等短语并不暗示此类配置对于本技术为基本的，或者此类配置适用于本技术的所有配置。与一个配置相关的公开内容可适用于所有配置或一个或多个配置。诸如一个配置等短语可指一个或多个配置，反之亦然。

Claims

1.一种计算机实施的方法，包括：

从与用户账户相关联的第一计算装置接收第一话音输入数据，所述第一话音输入数据包括第一识别词段和与所述第一识别词段相对应的第一置信度值，所述第一识别词段是从与所述第一话音输入数据相关联的第一话音命令获得的；

从与所述用户账户相关联的第二计算装置接收第二话音输入数据，所述第二话音输入数据包括第二识别词段和与所述第二识别词段相关联的第二置信度值，所述第二识别词段是从与所述第二话音输入数据相关联的第二话音命令获得的；

确定所述第一识别词段不同于所述第二识别词段；

基于所述第一置信度值与所述第二置信度值的比较来选择所述第一识别词段或所述第二识别词段中的一者；

基于所获得的第一话音输入数据和所获得的第二话音输入数据来从所述第一识别词段或所述第二识别词段中的所选定的一者确定预期话音命令；

基于所述预期话音命令来确定第一目标计算装置；以及

将与所述预期话音命令相关联的第一指令提供给所述第一目标计算装置以供执行。

2.根据权利要求1所述的方法，其中所述第一话音输入数据还包括与所述第一话音命令相关联的第一时间戳，其中所述第二话音输入数据还包括与所述第二话音命令相关联的第二时间戳。

3.根据权利要求2所述的方法，其中所述第一话音输入数据还包括所述第一计算装置的第一位置，并且所述第二话音输入数据还包括所述第二计算装置的第二位置，并且所述方法还包括：

进一步基于所述第一时间戳与所述第二时间戳的第一比较以及所述第一计算装置的所述第一位置与所述第二计算装置的所述第二位置的第二比较，来确定所述预期话音命令。

4.根据权利要求3所述的方法，其中所述第一话音输入数据还包括从所述第一话音命令获得的第一多个识别词段及其相应的第一置信度值，并且所述第二话音输入数据还包括从所述第二话音命令获得的第二多个识别词段及其相应的第二置信度值，并且其中确定所述预期话音命令还包括：

基于所述相应的第一置信度值和所述相应的第二置信度值来合并所述第一多个识别词段和所述第二多个识别词段，其中所述预期话音命令包括所合并的第一多个识别词段和第二多个识别词段。

5.根据权利要求1所述的方法，其中所述预期话音命令包括与所述第一目标计算装置相关联的装置标识符。

6.根据权利要求1所述的方法，其中所述第一话音输入数据还包括与所述第一话音命令相关联的第一声级，其中所述第二话音输入数据还包括与所述第二话音命令相关联的第二声级，并且其中确定所述第一目标计算装置还基于所述第一声级与所述第二声级的比较。

7.根据权利要求1所述的方法，其中确定所述第一目标计算装置还基于所述第一计算装置上的所述用户可用的命令与所述预期话音命令的第一比较以及所述第二计算装置上的所述用户可用的命令与所述预期话音命令的第二比较。

8.根据权利要求1所述的方法，还包括：

基于所述预期话音命令来确定第二目标计算装置；以及

将与所述预期话音命令相关联的第二指令提供给所述第二目标计算装置以供执行。

9.根据权利要求1所述的方法，其中确定所述第一目标计算装置还基于所述第一计算装置的第一位置和所述第二计算装置的第二位置。

10.一种处理话音命令的系统，包括：

一个或多个处理器；以及

非暂态计算机可读介质，包括存储在其中的指令，所述指令在由所述一个或多个处理器执行时致使所述一个或多个处理器执行操作，所述操作包括：

从与用户账户相关联的第一计算装置接收第一话音输入数据，所述第一话音输入数据包括第一识别词段，与所述第一识别词段相对应的第一置信度值，和与第一话音命令相关联的第一时间戳，从所述第一话音命令获得的所述第一识别词段与第一话音输入数据相关联；

从与所述用户账户相关联的第二计算装置接收第二话音输入数据，所述第二话音输入数据包括第二识别词段，与所述第二识别词段相对应的第二置信度值，和与第二话音命令相关联的第二时间戳，从所述第二话音命令获得的所述第二识别词段与所述第二话音输入数据相关联；

确定所述第一识别词段不同于所述第二识别词段；

基于所述预期话音命令来确定第一目标计算装置；以及

11.根据权利要求10所述的系统，其中所述操作还包括：

进一步基于所述第一时间戳与所述第二时间戳的第一比较以及所述第一计算装置的第一位置与所述第二计算装置的第二位置的第二比较，来确定所述预期话音命令。

12.根据权利要求10所述的系统，其中所述第一话音输入数据还包括与所述第一话音命令相关联的第一声级，其中所述第二话音输入数据还包括与所述第二话音命令相关联的第二声级，并且其中确定所述第一目标计算装置还基于所述第一声级与所述第二声级的比较。

13.根据权利要求10所述的系统，其中确定所述第一目标计算装置还基于所述第一计算装置上的用户可用的命令与所述预期话音命令的第一比较以及所述第二计算装置上的所述用户可用的命令与所述预期话音命令的第二比较。