CN110313152B

CN110313152B - 用于智能助理计算机的用户注册

Info

Publication number: CN110313152B
Application number: CN201880011946.4A
Authority: CN
Inventors: M·L·霍特曼
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-02-14
Filing date: 2018-02-09
Publication date: 2021-10-22
Anticipated expiration: 2038-02-09
Also published as: US10628714B2; US20200012906A1; CN110313152A; US10817760B2; EP3583489A1; US10579912B2; CN110326041A; US10621478B2; CN110313153B; US11194998B2; EP4027234A1; US20180232608A1; WO2018152008A1; US20220012470A1; US20180233142A1; US10467510B2; US10984782B2; US11017765B2; US20180233139A1; US20180232201A1

Abstract

向智能助理计算机注册人包括获得经由一个或多个相机捕捉的描绘最初未注册人的一个或多个图像帧。该最初未注册人的面部识别数据从该一个或多个图像帧中提取。注册该最初未注册人的口述命令经由一个或多个话筒被接收。在确定该口述命令源自具有预建立的注册特权的注册人之际，通过在新注册人的人员简档中将一个或多个附加特权与该面部识别数据相关联来将该最初未注册人注册为新注册人。

Description

用于智能助理计算机的用户注册

背景

智能助理计算机可以向用户提供语音交互、音乐回放、天气或新闻信息、和搜索界面，仅举数例。智能助理计算机可以向家庭或工作场所的多个人提供对一些信息的访问。然而，由智能助理计算机提供的其他信息可以是特定个人私有的，诸如举例而言入站通信。

概述

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的概念的选集。本概述并不旨在标识所要求保护的主题的关键特征或必要特征，亦非旨在用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本公开的任一部分中提及的任何或所有缺点的实现。

向智能助理计算机注册人包括获得经由一个或多个相机捕捉的描绘最初未注册人的一个或多个图像帧。最初未注册人的面部识别数据从该一个或多个图像帧中提取。注册最初未注册人的口述命令经由一个或多个话筒被接收。在确定该口述命令源自具有预建立的注册特权的注册人之际，通过在新注册人的人员简档中将一个或多个附加特权与该面部识别数据相关联来将该最初未注册人注册为新注册人。这些附加特权可以准许新注册人发起由智能助理计算机执行的一项或多项操作，这些操作先前在注册之前是不被准许的。

附图简述

图1描绘了智能助理计算系统的示例使用环境。

图2是描绘示例智能助理计算系统的示意图。

图3是描绘用于向智能助理计算机注册人的示例方法的流程图。

图4描绘了其中在由智能助理计算系统捕捉到最初未注册人的图像和/或音频数据之后发起并执行该最初未注册人的注册的示例实现的时间线。

图5描绘了其中发起最初未注册人的注册并且作为注册操作的一部分由智能助理计算系统捕捉该最初未注册人的图像和/或音频数据的另一示例实现的时间线。

图6示意性地示出了根据本公开的一示例的可由话音监听器利用的语音识别程序。

图7示出了根据本公开的一示例的意图模板。

图8示意性地示出了根据本公开的一示例的处理对话的一部分的解析器和意图处理器。

图9示意性地示出了根据本公开的各示例的可确定一个或多个实体的身份、位置和/或当前状态的实体跟踪器。

图10示意性地示出了根据本公开的各示例的实现智能助理计算系统的一体化计算设备。

图11示意性地示出了根据本公开的各示例的其中一个或多个远程服务用个体场所内(on-premises)计算设备执行智能助理计算系统的功能的示例实现。

图12示意性地示出了根据本公开的各示例的其中一个或多个远程服务结合多个独立场所内传感器和/或设备执行智能助理计算系统的功能的另一示例实现。

图13示意性地示出了根据本公开的各示例的其中一个或多个远程服务利用设备选择器的另一示例实现。

图14示意性地示出了其中在检测到一个或多个口述关键词之际激活智能助理计算系统的一个或多个功能的示例实现。

图15示意性地示出了根据本公开的各示例的其中响应于语音激活而选择(诸) 传感器和(诸)输出设备的多设备环境的示例实现。

图16示意性地示出了根据本公开的各示例的计算系统。

详细描述

图1描绘了智能助理计算系统100的示例使用环境。在该示例中，第一人120 通过大声说出由计算系统100经由话筒捕捉的短语来向该计算系统介绍第二人 122。例如，图1中描绘了第一人120正说出短语：“嘿计算机，这是我的朋友Tom (Hey Computer,this ismy friend Tom)”，这是指第二人122。由第一人120进行的这种介绍可被用于发起第二人122关于计算系统100的注册。

利用传统计算系统来注册用户对于一些用户而言可能是麻烦且令人沮丧的。通常，管理用户的任务是在图形用户界面内导航计算机程序的非直观菜单和设置。由本文公开的智能助理计算系统支持的自然语言界面使用户能够通过使用直观的人对人介绍向该计算系统介绍新用户来注册那些新用户。例如，可以通过口述短语向计算系统宣告新人的姓名和/或与注册人的关系状态以注册新人。以此方式，用户可以按更类似于基于人类的交互的直观方式来与计算系统对话。

在该示例中，第一人120向计算系统100注册，并且可被称为关于该计算系统的注册人或用户。例如，第一人120可以是计算系统100的所有者、主用户或管理用户，其先前已参与关于该计算系统的注册操作。向计算系统100注册的人可以获得关于该计算系统的附加特权，如将在本文中进一步详细地描述的。相反，第二人 122最初未向计算系统100注册，并且可被称为关于该计算系统的最初未注册人或用户。例如，第二人122可以是在由计算系统100监视的位置130处访问第一人 120的访客。在该示例中，位置130是第一人120的住所内的起居室。

智能助理计算系统100包括提供智能助理服务的一个或多个计算设备。因此，计算系统100至少包括提供智能助理服务的智能助理计算设备110，即智能助理计算机。在至少一些实现中，计算设备110可以采用场所内一体化智能助理计算设备的形式。计算设备110可包括与该计算设备或其外壳集成和/或板载地位于其上的一个或多个图形显示设备、一个或多个音频扬声器、一个或多个话筒、一个或多个相机等。

然而，在至少一些实现中，计算设备110可以是智能助理计算系统100的多个组件之一。例如，除了计算设备110之外，计算系统100还可包括一个或多个其他计算设备、图形显示设备、音频扬声器、话筒、相机等。图1描绘了计算系统100 的图形显示设备112、音频扬声器114和116、以及相机118的示例，其相对于位置130位于场所内，但在物理上与计算设备110分开。计算系统100可包括位于同一场所的不同位置处和/或位于远离场所(例如，基于云的服务器)的一个或多个计算设备。计算设备110可以使用有线和/或无线连接来与一个或多个其他设备可操作地连接。例如，计算设备110可以使用任何合适的有线和/或无线通信协议集经由通信网络通信地耦合到一个或多个其他计算设备、传感器设备或受控设备。

如本文进一步详细描述的，计算系统100可被配置成检测被监视区域内的人的存在，单独地跟踪那些人的空间位置，与那些人通信，使用经由一个或多个相机捕捉的图像数据和/或经由一个或多个话筒捕捉的音频数据以及其他传感器输入来单独地标识那些人。计算系统100可被配置成接收并处理自然语言输入，诸如举例而言口述短语。

扮演用户角色的人可以利用由计算系统100支持的智能助理特征来实现大量功能。例如，用户可以提供自然语言输入(例如，口述命令)以命令计算系统100 执行各种操作，诸如提供对查询的信息响应、发送或呈现通信消息、呈现音频/视频内容、捕捉和存储图像或音频内容、从一个设备向另一设备传递用户会话的实例、或者控制其他设备，仅举数例。这些各种操作中的一些或全部可以与并非对所有用户(诸如举例而言，未注册人)可用的特权相关联。例如，用户可向计算系统100 询问有关各种各样的主题的信息，诸如天气、个人日历事件、电影放映时间等。作为另一示例，用户可以经由计算系统100来控制其他设备，诸如图形显示设备112、音频扬声器114和116、燃气壁炉140或电动窗帘142。作为又一示例，计算系统 100可被用于接收和存储将在适当的将来时间被递送的消息和/或提醒。

图2是描绘提供智能助理服务的示例智能助理计算系统200的示意图。计算系统200是图1的计算系统100的非限制性示例。计算系统200能够识别和响应自然语言输入。如参考图1的计算系统100类似地描述的，计算系统200可被实现为单个计算设备或两个或更多个设备。计算系统200的两个或更多个设备可被分布在要被智能助理服务服务的场所的不同位置处和/或该计算系统的两个或更多个设备是地理上分布的(例如，在云支持的网络配置中)。

计算系统200包括至少一个传感器220、实体跟踪器210、话音监听器230、解析器240、意图处理器250、承诺引擎260和至少一个输出设备270。在一些示例中，传感器220可包括一个或多个话筒222、可见光相机224、红外相机226和诸如Wi-Fi或蓝牙模块之类的连接设备228。在一些示例中，(诸)传感器220可包括立体和/或深度相机、头部跟踪器、眼睛跟踪器、加速度计、陀螺仪、注视检测设备、电场感测部件、GPS或其他位置跟踪设备、温度传感器、设备状态传感器、和/或任何其他合适的传感器。

实体跟踪器210被配置成检测实体(包括人、动物或其他生物以及非生物对象) 及其活动。实体跟踪器210包括实体标识符212，其被配置成识别个体用户和/或非生物对象。话音监听器230接收音频数据并利用语音识别功能来将口述话语翻译成文本。话音监听器230还可向经翻译的文本指派(诸)置信值，并可执行发言者识别以确定正在发言的人的身份，以及向此类标识的准确度指派概率。解析器240 分析从话音监听器230接收到的文本和置信值以导出用户意图并生成相应的机器可执行语言。

意图处理器250从解析器240接收表示用户意图的机器可执行语言，并辨析缺失的和有歧义的信息以生成承诺。承诺引擎260存储来自意图处理器250的各承诺。在上下文适当的时间，承诺引擎可递送一条或多条消息和/或执行与一个或多个承诺相关联的一个或多个动作。承诺引擎260可将消息存储在消息队列262中或者使一个或多个输出设备270生成输出。输出设备270可包括(诸)扬声器272、(诸) 视频显示器274、(诸)指示灯276、(诸)触觉设备278和/或其他合适的输出设备中的一者或多者。在其他示例中，输出设备270可包括可经由承诺引擎260执行的动作被控制的诸如家庭照明、恒温器、媒体程序、门锁等的一个或多个其他设备或系统。

在不同的示例中，话音监听器230、解析器240、意图处理器250、承诺引擎 260和/或实体跟踪器210可被包含于存储在存储器中并由计算设备的一个或多个处理器执行的软件中。在一些实现中，专门编程的逻辑处理器可被用于提高智能助理计算机的计算效率和/或有效性。

在一些示例中，话音监听器230和/或承诺引擎260可以从实体跟踪器210接收包括相关联置信值的上下文信息。如下文更详细地描述的，实体跟踪器210可确定一个或多个传感器的范围内的一个或多个实体的身份、位置和/或当前状态，并且可将此类信息输出到诸如话音监听器230、承诺引擎260之类的一个或多个其他模块。在一些示例中，实体跟踪器210可解释和评估从一个或多个传感器接收到的传感器数据，并可基于该传感器数据来输出上下文信息。上下文信息可包括实体跟踪器基于接收到的传感器数据对一个或多个检测到的实体的身份、位置和/或状态的猜想/预测。

图3是描绘用于向智能助理计算机注册人的示例方法300的流程图。方法300 可由包括智能助理计算机的计算系统(诸如举例而言图1和2的先前描述的计算系统)来执行。

在310，最初未注册人的视觉捕捉可被执行。如以下进一步详细地描述的，计算系统可以将从由该计算系统经由一个或多个相机观察到的人的图像帧中提取的面部识别数据与先前观察到的人的数据库进行比较，以确定一个人是已注册还是未注册。如果一个人不能与先前观察到的人相匹配，则计算系统可以为该未被识别的人建立新的人员简档，并将该人标识为最初未注册。

在312，该方法包括获得经由一个或多个相机捕捉的描绘最初未注册人的一个或多个图像帧。该一个或多个图像帧可以形成经由一个或多个相机捕捉的一个或多个视频片段的一部分。这些图像帧或其视频片段可以从多个相机角度和/或在由最初未注册人到被监视区域的多次访问中捕捉出现在该被监视区域内的最初未注册人。因此，该一个或多个图像帧可以在跨越时刻、分钟、小时、天或其他合适的时间段的不同时间点描绘最初未注册人。在312捕捉的一个或多个图像帧或其视频片段可包括被监视区域的可见光、红外和/或深度表示。在312捕捉的一个或多个图像帧或其视频片段可被按原始的和/或经处理的形式存储在数据存储系统中，并可被随后从该数据存储系统中检索以用于由计算系统进行进一步处理或者用于后续呈现和由用户审查。

在314，该方法包括从该一个或多个图像帧中提取该最初未注册人的面部识别数据。在314提取的面部识别数据可被存储在数据存储系统中。作为示例，在342，在314提取的面部识别数据可以与为该最初未注册用户建立的人员简档相关联。可以由计算系统通过将从图像帧中提取的面部识别数据与存储在数据存储系统中的先前获得的面部识别数据(诸如举例而言与各人员简档相关联的面部识别数据)的数据库进行比较来视觉地标识人。该数据库可以由注册人和未注册人来组织，以使计算系统能够将注册人与未注册人区分开。在至少一些实现中，在通过视觉检测来标识或以其他方式检测到未注册人的存在之际，计算系统可以在316向与该计算系统相关联的注册人输出通知。该通知可以使注册人能够审查描绘未注册人的图像帧，并且如果需要，则为该未注册人发起注册操作。

在320，最初未注册人的听觉捕捉可被执行。如以下进一步详细地描述的，计算系统可以将从由该计算系统经由一个或多个话筒观察到的人的语音的音频片段中提取的发言者识别数据与先前观察到的语音的数据库进行比较，以确定一个人是已注册还是未注册。如果一个人不能与先前观察到的人相匹配，则计算系统可以为该未被识别的人建立新的人员简档，并将该人标识为最初未注册。

在322，该方法包括获得经由一个或多个话筒捕捉的包括由最初未注册人说出的一个或多个单词或短语的一个或多个音频片段。这些音频片段可以从多个话筒位置和/或在由最初未注册人到被监视区域的多次访问中捕捉正在该被监视区域内发言的最初未注册人。因此，该一个或多个音频片段可以在跨越时刻、分钟、小时、天或其他合适的时间段的不同时间点捕捉源自最初未注册人的语音。在312捕捉的一个或多个音频片段可被按原始的和/或经处理的形式存储在数据存储系统中，并可被随后从该数据存储系统中检索以用于由计算系统进行进一步处理或者用于后续呈现和由用户审查。

在324，该方法包括从该一个或多个音频片段中提取该最初未注册人的发言者识别数据。在324提取的发言者识别数据可被存储在数据存储系统中。作为示例，在344，在324提取的面部识别数据可以与为该最初未注册人建立的人员简档相关联。可以由计算系统通过将从音频片段中提取的发言者识别数据与存储在数据存储系统中的先前获得的发言者识别数据(诸如举例而言与各人员简档相关联的发言者识别数据)的数据库进行比较来听觉地标识人。如先前参考人的视觉检测所描述的，该数据库可以由注册人和未注册人来组织，以使计算系统能够将注册人与未注册人区分开。

在通过听觉和/或视觉检测来标识或以其他方式检测到未注册人的存在之际，计算系统可以在316向与该计算系统相关联的注册人输出通知，如先前参考人的视觉检测所描述的。该通知可以使注册人能够审查未注册人的语音或描绘的音频片段和/或视频片段或图像帧，并且如果需要，则为该未注册人发起注册操作。

在至少一些实现中，可以通过观察由一个人在经由一个或多个相机捕捉的一个或多个视频片段内进行的发言活动来获得该人的发言者识别数据。作为示例，最初未注册人的发言活动可被在一个或多个视频片段内标识。经由一个或多个话筒捕捉的与该一个或多个视频片段在时间上匹配的一个或多个音频片段可由计算系统获得。最初未注册人的发言者识别数据可基于与该一个或多个视频片段中描绘的该最初未注册人的发言活动相对应的一个或多个口述单词或短语来从该一个或多个音频片段中提取。

在330，最初未注册人的注册由注册人发起。在332，该方法包括经由一个或多个话筒接收注册最初未注册人的口述命令。注册一个人的口述命令可以采用各种形式，可以随实现而变化，并且可以通过用户设置而是用户定义的。在图1的先前示例中，注册人120大声说出短语“嘿计算机，这是我的朋友Tom(Hey Computer, this is my friend Tom)”是可被用于注册最初未注册人的口述命令的非限制性示例。可以在检测到由用户说出的一个或多个关键词或关键短语之际发起或以其他方式激活计算系统的一个或多个操作。例如，短语“嘿计算机(Hey Computer)”可被用作关键词短语以发起或激活计算系统的一个或多个操作，诸如监听进一步指示要执行的一个或多个附加操作的一个或多个附加关键词或关键短语。在至少一些示例中，计算系统可能需要或以其他方式依赖术语“注册”或其他合适的关键词或关键短语来发起注册操作。在又一示例中，计算系统可以向注册人输出关于是否要注册未注册人的询问(例如，视觉和/或听觉)。响应于此类询问，口述命令可以采用肯定的形式，诸如“是(yes)”或“好(ok)”。因此，在至少一些实现中，口述命令可以采用单个词、单个音位或音位集的形式。

虽然在该示例中描述了口述命令，但是将理解，可以使用其他形式的用户输入来接收其他合适的命令(即，非口述和/或非听觉命令)以发起人的注册。例如，可以经由基于硬件的用户界面(诸如触摸屏、键盘或键区、计算机鼠标或其他定点设备、或者其他合适的用户输入设备)来接收指示命令的用户输入。

在334，该方法包括确定口述命令或其他合适的命令源自具有预建立的注册特权的注册人。可以从存储在数据存储系统中的注册人的人员简档中检索或以其他方式引用预建立的注册特权。注册人可以通过本文中进一步详细地描述的视觉、听觉或其他合适技术中的一种或多种来标识。附加地或替换地，注册人可以基于上下文来标识，而不依赖于对该注册人的听觉或视觉检测。例如，注册用户可以经由基于硬件的用户界面来提供非口述命令，其中该注册人先前已经由该基于硬件的用户界面使用用户凭证(例如，用户名和/或密码)登录到计算系统中。

在336，该方法包括执行注册操作以将最初未注册人注册为新注册人。在确定口述命令或其他合适的命令源自具有预建立的注册特权的注册人之际，可以在336 执行注册。与特定人相关联的注册特权标示该人被准许向计算系统注册其他人。在至少一些实现中，响应于注册操作的发起而可以在340为最初未注册人建立人员简档。然而，如先前关于在310和320对最初未注册人的视觉和听觉捕捉所描述的，图像数据和/或音频数据可以与在发起注册操作之前为该人建立的人员简档相关联。在该实现中，在由计算系统通过视觉或听觉标识以及与先前观察到的人的比较来标识新人之际，可以建立人员简档。人员简档可以通过将简档标识符341(例如，标识符的特定域内的唯一标识符)指派或关联到该人员简档来建立，以使得该人员简档能够与其他人员简档区分开。

可以通过在346将关于计算系统的一个或多个附加特权与新注册人的人员简档相关联来执行注册。取决于实现，包括面部识别数据的图像数据和/或包括发言者识别数据的音频数据可以在注册时、在发起注册之前(例如，如果先前已为当时的最初未注册人而获取)、或在注册之后(例如，在获取时)与人员简档中的附加特权相关联，如以下将进一步详细地描述的。

在至少一些实现中，可以在接收到注册最初未注册人的口述命令之后捕捉在 312获得的图像帧中的一些或全部。作为示例，可以引导最初未注册人将其面部定位在一个或多个相机的视野内以捕捉用于面部识别和提取面部识别数据的一个或多个图像帧。附加地或替换地，可以在接收到注册最初未注册人的口述命令之后捕捉在322获得的一个或多个音频片段中的一些或全部。作为示例，可以引导最初未注册人在计算系统的一个或多个话筒的范围内说出一个或多个单词或短语，以捕捉用于发言者识别和提取发言者识别数据的一个或多个音频片段。

引导最初未注册人进行图像或音频捕捉可包括经由音频扬声器输出听觉引导和/或经由图形显示设备输出视觉引导中的一者或多者。计算系统可以响应于或稍后在从注册人接收到注册最初未注册人的口述命令之后引导该最初未注册人。例如，再次参考图1，由相机(例如，计算设备110的相机或相机118)捕捉的人122 (即，“Tom”)的一个或多个图像帧可被呈现在图形显示设备112上以使人122 能够将他的面部定位在该相机的视野内。计算系统可以通过输出关于人靠近/远离、往上/往下、往右/往左、讲话更响、重复单词或短语等的视觉和/或听觉提示来向该人提供反馈。

在至少一些实现中，可以在经由一个或多个相机捕捉到描绘最初未注册人的一个或多个图像帧中的一些或全部之后接收注册该最初未注册人的口述命令。在这些实现中，在接收到注册最初未注册人的口述命令之前，该一个或多个图像帧可被存储在数据存储设备中。该一个或多个图像帧可被从数据存储系统中检索，并且经由图形显示设备呈现以供注册人审查。例如，再次参考图1，在人120提供注册人122 的口述命令之前，人122(即，“Tom”)的一个或多个图像帧可由相机(例如，计算设备110的相机或相机118)捕捉。

在至少一些实现中，可以在经由一个或多个话筒捕捉到包含最初未注册人的口述单词或短语的一个或多个音频片段中的一些或全部之后接收注册该最初未注册人的口述命令。在这些实现中，在接收到注册最初未注册人的口述命令之前，该一个或多个音频片段可被存储在数据存储设备中。该一个或多个音频片段可被从数据存储系统中检索，并且经由音频扬声器呈现以供注册人审查。例如，再次参考图1，包含第二人122的口述单词或短语的音频片段可以经由音频扬声器114和116输出，以在人120提供注册人122的口述命令之前供人120进行审查。

在最初未注册人离开一个或多个相机的视野之后，或者在未注册人离开被计算系统监视的区域之后，可以呈现该最初未注册人的一个或多个图像帧和/或音频片段。例如，在最初未注册人离开被监视区域片刻、几分钟、几小时、几天、或其他合适的时间段之后，注册过程可由注册人在呈现该最初未注册人的图像帧和/或音频片段之后发起。

口述命令可以在呈现最初未注册人的一个或多个图像帧和/或音频片段期间或之后被接收。例如，再次参考图1，人120可以在审查图形显示设备112上的第二人122的图像帧时提供口述命令，无论第二人122是否仍然出现在区域130。在至少一些实现中，可以响应于由注册人发起的命令计算系统呈现由该计算系统捕捉的未注册人的图像或音频的另一命令(诸如口述或其他另一命令)而呈现一个或多个图像帧。

在350，新注册人发起操作。在该示例中，该操作由口述命令发起。例如，在 352，该方法包括经由一个或多个话筒接收后续口述命令以执行一个或多个操作。在354，该方法包括基于发言者识别数据来确定该后续口述命令源自具有一个或多个附加特权的新注册人。作为示例，计算系统可以检索或以其他方式引用与一些或全部人员简档相关联的发言者识别数据，以标识该口述命令源自的特定人。

在356处，该方法包括响应于该口述命令而执行由一个或多个附加特权准许的一个或多个操作中的操作。每个特权可以准许将由智能助理服务响应于源自与该特权相关联的人的命令而执行的一个或多个相关联的操作。作为示例，与新注册人相关联的一个或多个附加特权可以准许将由智能助理服务响应于源自该新注册人的口述命令而执行的先前在注册之前未被准许的一个或多个操作。在至少一些实现中，未注册用户或未标识人员可具有初始特权集(即，基本特权集)。在注册之后，新注册用户可以提供口述命令，例如，打开由计算系统服务的房间中的灯。响应于将该口述命令标识为源自与准许打开灯的特权相关联的新注册人，计算系统可以输出控制信号以打开房间中的灯。在该示例中，新注册人在注册之前(作为最初未注册人)可能在最初指派给所有未注册用户或未标识人员的基本特权集内不具有准许由计算系统打开灯的特权。作为另一示例，特权标识符可以指示新注册人是否被准许注册其他最初未注册人(即，注册特权)。在该示例中，新注册人在注册之前可能在基本特权集内不具有注册特权。

在332接收的口述命令可包括源自注册人的口述短语或者形成源自注册人的口述短语的一部分，其进一步包括新注册人的人标识符和/或特权标识符。人标识符可以采用要指派给正被注册的人的人的姓名或昵称的形式。在348，该方法可进一步包括将人标识符与新注册人的人员简档相关联。在346，该方法可进一步包括将特权标识符与新注册人的人员简档相关联。

特权标识符可被用于标识与正被注册的人的人员简档相关联的一个或多个附加特权。计算系统可以支持一个、两个或更多个特权标识符，其各自具有其自己相应的特权集。特权标识符可以取决于实现而采用各种形式并且可以是在用户设置内由用户定义的。作为示例，特权标识符可以采用基于关系的关键词或关键短语的形式，诸如“朋友”、“家庭”、“客人”、“同事”、“妻子”、“丈夫”、“孩子”等，其中每个关键词或关键短语指代其自己相应的特权集。作为另一示例，特权标识符可以采用关键词或关键短语值的分级集合的形式，诸如“级别1”、“级别2”、“级别3”等，其中每个关键词或关键短语同样指代其自己相应的特权集。

在向计算系统开始注册一个人之后，其可以保持注册人达预定义历时，在该历时之后该注册可以可任选地被计算系统终止。作为示例，该预定义历时可以是几分钟、几小时、几天、几年或不确定的。附加地或替换地，预定义历时可以是基于计算系统的被监视区域内的注册人的持续在场。例如，一个人可以保持被注册，直到该人离开该场所或该人离开该场所但在离开的阈值时间段内未返回被监视区域。预定义历时和/或阈值时间段可通过由计算系统维护的用户设置来设置或以其他方式定义。新注册人的用户设置可以对与注册特权或其他类型的特权相关联的另一注册人可用。用户设置可以对任何注册人关于与其自己的注册相关联的预定义历时可用，从而使该人能够终止向计算系统进行注册。在人员注册终止之际，该人的人员简档和相关联数据可被删除、使得无法访问、被改写、或使得可用于被新数据改写。以此方式，与人的注册相关联的信息的寿命可被控制，并且其进一步传播或使用可被限制。

图4描绘了其中在由智能助理计算系统捕捉到最初未注册人的图像和/或音频数据之后发起并执行该最初未注册人的注册的示例实现的时间线。在410，由计算系统在未注册人到被监视区域的一次或多次访问中捕捉该未注册人的图像数据和/ 或音频数据。例如，计算系统可以执行与在310的用于获得图像数据的对最初未注册人的视觉捕捉和/或在320的用于获得音频数据的对最初未注册人的听觉捕捉相关联的图3的先前描述的操作。图像数据可包括一个或多个图像、一个或多个视频片段、和/或从其导出的面部识别数据。音频数据可包括一个或多个音频片段和/或从其导出的发言者识别数据。

在412，注册人(例如，具有注册特权)发起最初未注册人的注册，并且注册由计算系统基于先前捕捉的图像数据和/或音频数据来执行。例如，计算系统可以执行与在330的注册操作和在340的用户简档相关联的图3的先前描述的操作。在注册之后，新注册人被授予一个或多个附加特权，如在414指示的。此外，在注册之后，计算系统可以可任选地获得新注册人的补充图像数据和/或音频数据，如在 416指示的。在418，新注册人发起由授予该人的特权准许的操作。

在注册之后获得的补充图像数据可包括除了在注册之前捕捉的图像帧和/或在没有该正被注册的人的任何先前捕捉的图像帧的情况下在注册之前捕捉的一个或多个音频片段之外的新注册人的一个或多个图像帧。例如，对新注册人的语音的听觉检测可被用于在注册之后在视觉上标识发言者，并且捕捉该人的图像帧和从其导出的面部识别数据。补充图像数据可被用于提取面部识别数据和/或进一步细化或更新该人的面部识别数据。在至少一些实现中，补充图像数据可包括从可在通信网络上被计算系统访问的第三方源(诸如社交媒体服务、照片或视频库等)获得的图像或视频片段。

在注册之后获得的补充音频数据可包括除了在注册之前捕捉的音频片段和/或在没有该正被注册的人的任何先前捕捉的音频片段的情况下在注册之前捕捉的图像帧之外的捕捉新注册人的语音的一个或多个音频片段。例如，对新注册人的发言活动的视觉检测可被用于在注册之后在视觉上标识并捕捉该人的音频片段和从其导出的发言者识别数据。补充音频数据可被用于提取发言者识别数据和/或进一步细化或更新该人的发言者识别数据。在至少一些实现中，补充音频数据可包括从可在通信网络上被计算系统访问的第三方源(诸如社交媒体服务、照片或视频库等) 获得的音频片段(个体地以及与视频片段相关联的那些)。

图5描绘了其中发起最初未注册人的注册并且作为注册操作的一部分由智能助理计算系统捕捉该最初未注册人的图像和/或音频数据的另一示例实现的时间线。在510，注册人(例如，具有注册特权)发起最初未注册人的注册。在512，计算系统可任选地关于捕捉用于面部识别的人的面部的一个或多个图像帧和/或用于发言者识别的人的话音或语音的一个或多个音频片段来引导最初未注册人。在 514，捕捉图像帧和/或音频片段，并从中获得面部识别数据和/或发言者识别数据。在516，计算系统基于正被注册的人的所捕捉的图像帧和/或音频片段来执行注册操作。在注册之后，新注册人被授予一个或多个特权，如在518指示的。在520，可任选地获得补充图像数据和/或补充音频数据以提取、细化或更新面部识别数据和/ 或发言者识别数据。在522，新注册人发起由授予该人的特权准许的操作。

虽然图4和5的时间线描绘了不同的实现，但是将理解，这些实现可被组合到工作流中，该工作流包括在注册之前捕捉该人的图像数据和/或音频数据，作为注册操作的一部分捕捉该人的图像数据和/或音频数据，以及可任选地在注册之后捕捉该人的补充图像数据和/或音频数据。利用所捕捉的每个新图像帧或音频片段，可以细化和改进面部识别数据和/或发言者识别数据，以提供对该人的更准确的检测和标识。

再次参考图2，现在将提供对智能助理计算系统200的各组件的附加描述。在一些示例中，话音监听器230可从周围环境接收音频数据。在一些示例中，诸如在图1的计算设备110中，话音监听器230可包含被具体化在包括一个或多个话筒的独立设备中的软件模块。在其他示例中，话音监听器230软件模块可被存储在位于远离用户环境的计算设备的存储器中(诸如在基于云的服务中)。在一些示例中，话音监听器230在执行下文更详细地描述的其功能时，可接收并利用来自一个或多个其他传感器的附加数据。话音监听器230可包括将口述话语的音频数据翻译成文本的语音识别功能。如下文更详细地描述的，话音监听器230还可将置信值指派给经翻译文本的一个或多个部分，诸如单个语音成分、单词、短语等。

现在参考图6，在一些示例中，话音监听器630可包括存储在计算设备624的非易失性存储622中的语音识别程序620。语音识别程序620可被加载到存储器626 中并由计算设备624的处理器628执行以执行下文更详细地描述的用于语音识别的方法和过程中的一者或多者。

自然语言语音形式的音频输入630可以由话筒625捕捉并由音频处理器634 处理以创建音频数据。来自音频处理器634的音频数据可由特征提取器636变换成数据以供语音识别程序620的语音识别引擎640处理。在一些示例中，特征提取器 636可在一时间区间上标识音频数据的包含用于处理的语音的各部分。特征提取器 636可从数据的这些部分提取特征向量642，其中特征向量表示在给定部分的该时间区间内口述话语的质量。多个特征向量642的矩阵可被提供给语音识别引擎640 以供进一步处理。

特征提取器636可利用任何合适的降维技术来处理音频数据并生成特征向量642。示例技术包括使用梅尔频率倒频谱系数(MFCC)、线性判别分析、深度神经网络技术等。

语音识别引擎640可将由特征提取器636生成的特征向量642与用于语音声音 (例如，语音分量)的声学模型进行比较。语音分量的各示例可包括音位 (phoneme)、单音素(phone)、双音素(diphone)、三音素(triphone)等。在一些示例中，语音识别引擎640可包括评估由一个或多个特征向量642表示的口述话语与语言声音的声学模型的相似性的声学表示生成器644(例如，声学建模器)。声学模型可包括将语音分量(诸如音位)的发音与特定单词和/或短语匹配的数据。

语音识别引擎640还可将特征向量和其他音频数据与声音序列进行比较，以标识与音频数据的口述声音匹配的单词和/或短语。语音识别程序620可包括可利用语言模型来评估特定单词将被包括在短语(在一些情形中可包括句子)中的特定位置处的似然性的语言表示生成器646(例如，语言建模器)。就本公开而言，短语可包括可能被或可能不被认为是完整句子的两个或更多个单词。

在一些示例中，语音识别引擎640可利用隐马尔可夫模型(HMM)来将特征向量642与音位和/或其他语音分量进行匹配。HMM输出n维向量的序列，其中n 是诸如10之类的整数。可以以给定频率生成序列，诸如每10毫秒生成一个序列。

HMM的每个状态可包括对角协方差高斯的混合的统计分布，这可指示每个观察到的向量的似然性。每个音位或单词可具有不同的输出分布。用于单独的音位和单词的各个体HMM可被组合以创建用于音位或单词序列的HMM。

各音位的上下文依赖关系可以由HMM的不同状态提供。此类上下文相关的 HMM状态可以与诸如高斯混合模型(GMM)之类的模型相关联。在一些示例中，各状态之间的转换可被指派与当前状态可从先前状态到达的似然性相对应的概率。 HMM的各状态之间的不同路径可以表示经输入的声音，其中不同路径表示针对相同声音的多个可能的文本匹配。

使用特征提取器636和语音识别引擎640，语音识别程序620可处理特征向量 642和其他语音识别数据648以生成经识别文本666。在其他示例中，可利用用于将特征向量642与音位和/或其他语音分量进行匹配的任何合适的技术。

在一些示例中，语音识别程序620可为语音识别数据648的一个或多个部分(诸如各个体语音分量、单词和短语)确定经估计置信值652。经估计置信值652可定义相应的经识别文本准确的统计似然性。如下文更详细地描述的，智能助理计算系统200的解析器240可在处理经识别文本和确定用户的意图时利用此类置信值 652。

在不同的示例中，可通过利用一个或多个统计分析方法、机器学习技术、依经验导出的数据以及前述的组合来确定置信值652。在一些示例中，语音识别程序620 可利用一个或多个概率模型来分析语音识别数据648的各部分、从语音识别分析流水线提取的一个或多个结果、和/或与此类部分相关联的经估计置信值652。例如， GMM可被利用以分析语音识别数据648的各部分和相应的结果。将理解，可利用诸如各种有监督学习和无监督学习方法之类的任何其他合适的机器学习技术来分析语音识别数据648。

将理解，对语音识别技术的前述描述仅仅是示例，并因此可在本公开的范围内利用和构想任何合适的语音识别技术和过程。

再次参考图2，在一些示例中，话音监听器230可从实体跟踪器210接收包括相关联的置信值的上下文信息。如下文更详细地描述的，实体跟踪器210可确定一个或多个传感器的范围内的一个或多个实体的身份、位置和/或当前状态，并且可将此类信息输出到诸如话音监听器230、承诺引擎260等一个或多个其他模块。在一些示例中，实体跟踪器210可解释和评估从一个或多个传感器接收到的传感器数据，并可基于该传感器数据来输出上下文信息。上下文信息可包括实体跟踪器基于接收到的传感器数据对一个或多个检测到的实体的身份、位置和/或状态的猜想/预测。在一些示例中，猜想/预测可附加地包括定义信息准确的统计似然性的置信值。

继续参考图2，话音监听器230可将经识别文本和对应的置信值发送到解析器240。如下文更详细地描述的，解析器240分析文本和置信值以确定用户说出接收到的话语的意图。解析器240可将从话音监听器230接收到的自然语言文本翻译成表示自然语言背后的用户意图的机器可执行语言。

在一些示例中，用户的意图可对应将被立即执行的命令，诸如话语“播放艺术家B的歌曲A(Play song A by artist B)”(“播放音乐”意图)。在一些示例中，意图可被表征为在触发器发生之际执行动作的承诺(commitment)，在下文中被称为“添加承诺”意图。例如，话语“当Bob回到家时提醒他把垃圾拿出去(When Bob gets home remind him to takeout the trash)”是添加承诺意图。在该示例中，触发器是Bob到家，而动作是提醒他把垃圾拿出去。添加承诺意图的另一示例可以是话语“当Keith在烤箱附近时，提醒我(When Keithis near the oven,alert me)”。在该示例中，该添加承诺意图的承诺包括触发器(Keith在烤箱附近)和当检测到该触发器时将被执行的动作(提醒我)。下文提供了关于承诺的附加描述和示例。

在一些示例中，解析器240可利用各自包含多个槽的多个意图模板，这些槽可填充有从话音监听器230接收到的单词或术语，或者基于从话音监听器接收到的其他单词的单词或术语。在一个或多个槽未被填充的一些示例中，解析器240可通过检查一个或多个其他单词的语义含义来填充这些槽。例如，智能助理计算系统200 可告诉用户“你有15封电子邮件”。用户可能会回复话语“好吧，我上车后再浏览它们”。作为对用户的话语的响应，解析器240可用类型“提醒”来填充“承诺类型”槽，即使“提醒”这个单词本身不在用户的话语中。

总之，意图模板的多个槽定义或以其他方式表征用户说出话语的意图。在各个不同的示例中，槽可包括动作槽、触发器槽、承诺槽、主题槽、内容槽、标识槽和各种其他类型的槽。在一些示例中，每个槽可具体化为以下三种状态中的一者：(1) 缺失信息、(2)存在的具有未辨析的歧义的信息、以及(3)存在的具有任何已被辨析的歧义的信息。

在一些示例中，一个或多个槽可以是不需要被填充的可选槽。例如，在一个场景中，两个槽可表示可选信息，而在另一场景中，相同的两个槽可表示所需信息。例如，话语“播放音乐”可被理解为应当从被用于该对话的设备播放音乐的命令。以此方式，系统推断关于用户的意图的信息(以经由被用于对话的设备播放音乐) 而不需要用户明确地声明该信息。在不同的示例中，话语“只要是Eve生日，就播放生日快乐歌(Whenever it’s Eve’sbirthday,play Happy Birthday)”将要求用户指定将使用的设备，因为播放音乐动作被安排成在只要指定的条件被满足的将来某时刻就被执行。

意图模板的一个示例是对应于添加承诺意图的承诺意图模板。现在参考图7，解说了承诺意图模板700的一个示例。在该示例中，解析器可从话音监听器230 接收到读作“当Keith在烤箱附近时提醒我(When Keith is near the oven alert me)”的文本短语710。短语“当Keith在烤箱附近时(When Keith is near the oven)”可被标识为触发器714。短语“提醒我(alert me)”可被标识为在检测到触发器时将被执行的动作718。如下文更详细地描述的，在一些示例中，解析器240可将该文本短语710翻译成被传递到意图处理器230以供进一步处理的机器可执行语言。

如以上所提及的，解析器240可从话音监听器230接收标示相应文本准确的似然性的准确度置信值。在一些示例中并如下文更详细地描述的，意图处理器250 还可接收与实体信息相关联的实体置信值。在一些示例中，可经由实体跟踪器210 接收此类实体置信值和其他上下文信息。

在本示例中，短语710中的单词“我(me)”填充主题槽722。在此示例中，主题槽722对应于在检测到触发器时将被提醒的人或其他实体。单词“我”可与将该单词与名为Joe的特定人员相关联的上下文信息、以及标示“我”即是人员“Joe”的确定度水平的实体置信值(诸如90％)一起被解析器接收。

在一些示例中，意图模板中的一个或多个单词的预期含义可能不是显而易见的。例如，在短语710中，单词“附近(near)”的含义可能是有歧义的，因为“附近”是相对术语。各种上下文因素可能会影响“附近”的预期含义以及在该短语中构想的相应距离。例如，在“Keith”是婴儿的情况下，“附近”的预期含义可能是基于说出该短语的用户的巨大安全担忧。在“Keith”是该用户的丈夫的情况下，“附近”的预期含义可能受到安全担忧的影响较小，而更多地受到便利因素的影响，这可能导致与“Keith”是婴儿的情形不同的相关距离。在另一示例中，短语“在烤箱附近(near the oven)”中所预期传达的距离可能与短语“在自由女神像附近 (near the Statue of Liberty)”中所预期传达的距离不同。

因此，意图模板中的一个或多个单词在传递给意图处理器250时可能是有歧义的。如下文更详细地描述的，意图处理器250可利用多种技术来辨析歧义并填充意图模板中具有缺失信息的槽。

在另一示例中，解析器240可从话音监听器230接收文本短语“与Fred播放音乐(Play music with Fred)”。在一些示例中，短语“播放音乐(Play music)”通常被解释成意味着用户希望经由媒体播放器来播放数字音乐文件。然而，在“播放音乐(Play music)”之后使用短语“与Fred(with Fred)”是不寻常的，因为人们通常不会在他们的意图是经由媒体播放器播放音乐的情况下使用此短语。解析器240可识别此歧义并可生成其确定是与用户的实际意图相对应的统计上最可能的意图模板的N个最佳意图模板的列表。在一些示例中，意图处理器250可使用附加的上下文信息来从N个最佳意图模板的列表中选择意图模板。

在另一示例中，从话音监听器230接收到的文本短语可以是单个单词“播放(Play)”。例如，用户在“播放(Play)”之后口述的一个或多个单词可能由于一个或多个原因(诸如背景中很响的噪声)而无法被话音监听器理解。在该示例中，解析器240可预测用户的意图是播放数字音乐，但是在相应的意图模板中，表示将播放什么音乐的内容槽是空的。在该示例中，解析器240可向意图处理器250发送“播放音乐”意图模板以供进一步处理和辨析此歧义，如下文更详细地描述的。

在一些示例中，解析器240可分析接收到的文本以形成用户的意图的决策树。在一些示例中，解析器240可根据接收到的文本生成If-Then(如果-就)语句(或规则)。每个If-Then(如果-就)语句可包括相应的触发器和动作。只要触发器的条件被满足，就执行动作。由此产生的If-Then(如果-就)语句可执行各种各样的任务，诸如家庭安全(“如果后院中的运动检测器被激活就向我发信息”)、家庭自动化(“当我到家时打开壁炉”)、个人事务整理(“将我的有关慈善捐款的电子邮件收据收集到电子表格中”)、与健康相关的任务(“如果我跑了超过7英里，就提醒我吃蛋白质”)以及许多其他任务。

在一些示例中，可从可被用户激活的一系列渠道中抽取触发器和动作。这些渠道可代表不同的实体和服务，包括设备(诸如智能电话操作系统、诸如智能灯开关之类的连通家庭组件)、知识源(诸如娱乐网站、电子邮件提供商等)以及类似物。每个渠道可展示针对触发器和动作两者的一组功能。

例如，If-Then(如果-就)语句可采用“如果[(诸)输入]被识别，就执行[(诸) 动作](IF[Input(s)]are recognized,THEN perform[Action(s)])”的形式。例如，接收到的短语“当Oz在厨房时，告诉他把垃圾拿出去(When Oz is in the kitchen,tell him totake out the garbage)”可被翻译成以下If-Then(如果-就)语句：“如果确定人员Oz在厨房内，那么就向该人员Oz广播把垃圾拿出去的消息。(IF the person Oz is determinedto be in the kitchen,THEN broadcast a message to the person Oz to take outthe garbage.)”在一些示例中，解析器240可基于对接收到的话语进行解析来确定用户意在建立重复出现的消息或动作。例如，在短语“当Oz在厨房时，告诉他把垃圾拿出去(WhenOz is in the kitchen,tell him to take out the garbage)”中，单词“当(when)”可被解析器240解释成指明每次满足条件时都应执行相应的动作(即，每次Oz在厨房都告诉他把垃圾拿出去)。在另一示例中，在短语“如果Oz在厨房，就告诉他把垃圾拿出去(If Oz is inthe kitchen,tell him to take out the garbage)”中，单词“如果(if)”可被解释成指明相应的动作只应被执行一次(即，下次Oz在厨房，告诉他把垃圾拿出去)。

在一些示例中并且如以上所提及的，这些If-Then(如果-就)语句可能是依概率生成的。以此方式并且对于给定的文本串，解析器240可生成可能对应于用户的话语的If-Then(如果-就)语句的多个N个最佳候选语句。

在对If-Then(如果-就)规则进行解析的一些示例中，解析器240可利用包含非常简单的语言的抽象语法树(AST)的含义表示。例如，每个根节点可扩展为“触发器”和“动作”对。这些节点进而扩展为受支持的触发器和动作的集合。这些树可被建模成生成If-Then(如果-就)任务的几乎上下文无关的语法。

在一些示例中，解析器240可使用两种技术的组合来根据从话音监听器230 接收到的文本生成If-Then(如果-就)语句和/或导出意图：(1)采用长短期记忆(LSTM)网络形式的递归神经网络(RNN)架构；以及(2)逻辑回归模型。在一些示例中，图形长短期记忆(图形LSTM)神经网络可被用于从接收到的文本中提取语义含义以及自然语言固有的各单词之间的关系。例如，文本可使用图形 LSTM神经网络被解析以使用根据文本片段中的术语的句法关系布置的若干图形 LSTM单元来提取跨句子的n元关系。可在图形LSTM神经网络中跟踪各单词之间的这些句法关系以允许人工智能和机器学习技术标识文本中的实体及其上下文并形成它们所存在的语法结构。例如，标识代词所指的名词的上下文、修饰给定动词的副词、影响给定单词的介词短语等可被合并到各种单词中以使得能够更准确地搜索自然语言文档的内容。

在一些示例中，解析器240可接收和处理文本以在各个体短语中并跨各短语的边界绘制节点(例如，单词、短语、字符等)和边(例如，各节点之间的依赖关系链接)。在各种示例中，绘制图形可包括标识文本中各节点之间的一个或多个链接 (例如，句法、语义、共同引用、语篇等)。链接可包括各节点之间的短语内和短语间链接。例如，链接可表示一个短语的根与相邻短语的根之间的关系。再例如，链接可表示短语中两个单词之间的关系，诸如针对单词“午餐(lunch)”的修饰语“安妮的(Annie's)”。

如上所述，在一些示例中，解析器240将意图模板传递给意图处理器250以供进一步处理。意图处理器250包括可辨析歧义信息和/或意图模板所缺失的信息的多步骤流水线。如下文更详细地描述的，意图处理器250可利用多种技术来辨析歧义并填充与意图模板相关的缺失信息的槽。在一些示例中，意图处理器250可利用因域而异的信息和因域而异的推理来辨析歧义、补全缺失信息、以及以其他方式澄清意图模板以更接近地对应于用户的实际意图。

在一些示例中，意图处理器250可通过分析对话历史中用户的先前话语来收集关于用户意图的知识，并且可利用此类洞察来辨析歧义并将缺失的信息添加到意图模板。一旦意图处理器250充分澄清了歧义并补全了缺失信息，相应的承诺就可被生成并被传递给承诺引擎260以供执行。

意图处理器250可被配置成处理可包括对话的多个意图模板。出于本公开的目的并且如下文更详细地描述的，对话可包括与用户和智能助理计算系统200之间的一个或多个交换相关的多个信息和其他数据。在不同的示例中，此类信息和数据可包括由用户口述的单词和/或短语、由智能助理计算系统200呈现给用户的查询、从一个或多个传感器接收到的传感器数据、诸如人员和/或身份信息之类的上下文信息等。

如下文提供的使用情形示例中描述的，意图处理器250可包括将从解析器240 接收到的意图模板及其相关联的数据翻译为内部数据引用的多个辨析器。为了解决意图模板中包括缺失和/或未辨析信息的槽，意图处理器250可在多阶段过程中利用多个辨析器。在一些示例中，每个辨析器都可被专门编程以处理与可从解析器 240接收到的特定意图模板相关联的问题。

辨析器的各示例可包括将专有名称、别名和其他标识符翻译为内部表示数据的查找辨析器(例如，“Bob(鲍勃)”被翻译为人员“Bob(鲍勃)”的内部表示，诸如Bob(鲍勃)的联系信息)。辨析器的各示例可包括回指辨析器和指示辨析器，回指辨析器解决具有依赖于上下文中的先行表达式或后置表达式的解释的表达式 (例如，“她(she)”被翻译成表示“代词‘她’的个人身份”的槽)，而指示辨析器解决在没有附加上下文信息的情况下不能被完全理解的单词和短语，诸如“这里(here)”或“那里(there)”(例如，“那里”可能会被翻译成表示“那里是哪里(where is there)？”的槽)。在其他示例中，可利用许多其他形式和类型的辨析器。

现在参考图8，示意性地解说了处理对话的一部分的解析器240和意图处理器 250的一个示例。在此示例中，解析器240将第一短语1解析为意图模板1。解析器240将意图模板1提供给意图处理器250，该意图处理器250利用第一辨析器1 来辨析该意图模板中的歧义和/或缺失信息。从解析器240接收对应于第二短语2 的第二意图模板2。如下文更详细地描述的，意图处理器250可分析意图模板2以及上下文信息810以确定是利用第一辨析器1还是利用第二辨析器2来辨析意图模板2。基于第三经解析的短语3的第三意图模板3可随后由意图处理器250接收。意图处理器250可利用第三辨析器3来辨析意图模板3。下文提供了使用辨析器分析意图模板的附加详细信息和使用情形示例。

在一些示例中，意图处理器250可确定两个或更多个意图模板是否应该被融合或合并在一起以继续现有的对话路径。如果意图处理器250确定两个或更多个意图模板应该被融合在一起，则意图处理器可以融合与这两个或更多个意图模板相关联的数据并继续使用经融合的数据遵循现有的对话路径。如果意图处理器250确定这两个或更多个意图模板不应该被融合在一起，则可使用最新近接收到的意图模板来开始新主题。

如下文更详细地描述的，在意图模板的槽具有缺失信息的情况下，意图处理器250可执行数据收集操作(诸如要求用户澄清或提供信息，或尝试以另一种方式收集信息)以便将信息填充到该槽。一旦每个槽包含信息，意图处理器250可确定每个槽中的信息是否是无歧义的。对于被标识为有歧义的信息，意图处理器250可应用各种技术中的一种或多种来辨析歧义。

再次参考图2，在一些示例中，意图处理器250可包括映射器252，该映射器 252将一个或多个系统目标映射到对应的(诸)用户意图。系统目标的各示例可包括澄清歧义、从用户获取附加信息等。在一些示例中，映射器252可在内部将系统目标重新解析为用户意图或目标。例如，映射器252可将系统需要的信息(诸如，用于辨析歧义意图的信息)映射到用户在提供该信息时会触发的用户意图。换言之，映射器252可将信息映射到将从话语中辨析出的意图，该话语将会被用户说出以便生成该意图。在一些示例中，映射器252可将系统目标映射到用户将会说出以便生成相同结果的单词或短语。

在一些示例中，当系统需要来自用户的信息来辨析用户意图时，系统可在内部提示一个状态，该状态相当于声明如果该用户提供了包含除了所需信息之外的意图的所有组成的输入(诸如话语)则该系统将处于的状态。换言之并且在一些示例中，系统可假设用户已经提供了更多输入，而该输入仅缺失与所需信息对应的一个或多个特定槽。以此方式，意图处理器250可继续利用所提供的任何用户输入。在一些示例中，这允许系统重新使用诸如意图模板之类的组件。因此并在这些示例中，通过使意图处理器250假设用户意图(相对于系统目标)正在驱动其操作，系统可在内部重新使用相应的逻辑并且可以更深入、更丰富地理解此类用户意图。

在一些示例中，系统可具有从用户获取信息以继续导出用户意图的目标。在第一示例中，用户可以说出两句话语：“给我预订明天飞往加利福尼亚的航班(Book me aflight to California tomorrow)；该航班需要飞往旧金山。(The flight needs to beto San Francisco.)”。在第一话语中，用户指示预订航班的意图，而在第二话语中，用户将意图缩小到飞往旧金山的航班。在这两个话语中都指定了用户意图。

在另一示例中，用户说出第一话语“给我预定明天的航班。(Book me a flighttomorrow.)”。系统可能会用询问“您想飞往哪里？(Where do you want to fly to？)”来回应。用户可随后回应“飞往旧金山(To San Francisco.)”。在生成系统查询之际，映射器252可将意图处理器的目标(获取用户目的地的信息)映射到用户意图。例如，映射器252可假设用户将会提供该信息就好像其是用户的意图一样。

在一些示例中，通过将映射器252配置成假设用户意图正在驱动其操作，系统可最小化执行这些操作的代码并重新使用相应的逻辑。以此方式，系统可以更深入、更丰富地理解此类用户意图。因此，在这些示例中，系统可利用用于意图处理器 250和映射器252的包括仅用户意图系统的代码，而不是利用多个专用代码片段来管理所有的歧义并以其他方式处理多个相应的任务和离散情况。

图9示意性地解说了示例实体跟踪器210，其可包括智能助理计算系统200的组件。实体跟踪器210可被用于确定一个或多个传感器范围内的一个或多个实体的身份、位置和/或当前状态。实体跟踪器210可将此类信息输出到智能助理计算系统200的一个或多个其他模块，诸如承诺引擎260、话音监听器230等。

在实体跟踪器210的上下文中使用的单词“实体”可以指人、动物或其他生物以及非生物对象。例如，实体跟踪器可被配置成标识家具、器具、结构、景观特征、车辆和/或任何其他物理对象，并确定此类物理对象的位置/定位和当前状态。在一些情形中，实体跟踪器210可被配置成仅标识人而不标识其他生物或非生物。在此类情形中，单词“实体”可能与单词“人”同义。

实体跟踪器210从一个或多个传感器222(诸如传感器A 902A、传感器B 902B 和传感器C 902C)接收传感器数据，但是将理解，实体跟踪器可以与任何数目和种类的合适的传感器一起使用。作为示例，可与实体跟踪器一起使用的传感器可包括相机(例如，可见光相机、UV相机、IR相机、深度相机、热相机)、话筒、压力传感器、温度计、运动检测器、邻近度传感器、加速度计、全球定位卫星(GPS) 接收机、磁力计、雷达系统、激光雷达系统、环境监视设备(例如，烟雾检测器、一氧化碳检测器)、气压计、健康监视设备(例如、心电图仪、血压计、脑电图)、汽车传感器(例如，速度计、里程表、转速计、燃料传感器)和/或收集和/或存储与一个或多个人或其他实体的身份、位置和/或当前状态有关的信息的任何其他传感器或设备。在一些示例中，实体跟踪器210可用多个传感器220中的一者或多者来占据公共设备壳体，和/或实体跟踪器及其相关联的传感器可跨被配置成经由一个或多个网络通信接口(例如，Wi-Fi适配器、蓝牙接口)通信的多个设备分布。

如图9的示例中所示，实体跟踪器210可包括实体标识符212、人标识符905、位置(定位)标识符906和状态标识符908。在一些示例中，人标识符905可以是实体标识符212的专用组件，其被特别优化以用于识别人，而非识别其他生物和非生物。在其他情形中，人标识符905可以与实体标识符212分开操作，或者实体跟踪器210可能不包括专用的人标识符。

取决于特定实现，与实体标识符、人标识符、位置标识符和状态标识符相关联的任何或所有功能可以由各个体传感器902A-902C执行。尽管本说明书一般将实体跟踪器210描述为从传感器接收数据，但这并不要求实体标识符212以及实体跟踪器的其他模块必须被实现在单个计算设备上，该设备和与实体跟踪器相关联的多个传感器分离并区别开来。相反，实体跟踪器210的功能可被分布在多个传感器之间。例如，与向实体跟踪器发送原始传感器数据不同，单个传感器可被配置成尝试标识其检测到的实体，并将该标识报告给实体跟踪器210和/或智能助理计算系统 200的其他模块。在一些情况下，该标识可包括置信值。

实体标识符212、人标识符905、位置标识符906和状态标识符908中的每一者被配置成解释和评估从多个传感器220接收到的传感器数据，并基于传感器数据输出上下文信息910。上下文信息910可包括实体跟踪器基于接收到的传感器数据对一个或多个检测到的实体的身份、位置和/或状态的猜想/预测。如下文将更详细地描述的，实体标识符212、人标识符905、位置标识符906和状态标识符908中的每一者可输出它们的预测/标识以及置信值。

实体标识符212可输出检测到的实体的实体身份912，并且此类实体身份可具有任何合适的特异性程度。换言之，基于接收到的传感器数据，实体跟踪器210 可预测给定实体的身份，并将此类信息输出为实体身份912。例如，实体标识符212 可报告特定实体是家具、狗、男人等。附加地或替换地，实体标识符212可报告特定实体是具有特定型号的烤箱；具有特定名字和品种的宠物狗；智能数字助理计算系统200的拥有者或用户，其中该拥有者/用户具有特定姓名和简档；等等。在一些示例中，实体标识符212标识/分类检测到的实体的特异性程度可取决于用户偏好和传感器限制中的一者或多者。

当被应用于人时，实体跟踪器210可在一些情形中收集关于无法通过姓名标识的个人的信息。例如，实体标识符212可记录人脸的图像，并将这些图像与人声的录制音频相关联。如果该人随后向智能助理计算系统200说话或以其他方式对待智能助理计算系统200，则实体跟踪器210将随后具有关于智能助理计算系统正在与谁交互的至少一些信息。在一些示例中，智能助理计算系统200还可提示人们声明他们的姓名，以便在将来更容易对人进行标识。

在一些示例中，智能助理计算系统200可利用人的身份来为该人定制用户界面。在一个示例中，可标识具有有限视觉能力的用户。在该示例中并且基于该标识，可修改智能助理计算系统200(或用户正在与之交互的其他设备)的显示以显示更大的文本、或者提供仅语音接口。

位置标识符906可被配置成输出检测到的实体的实体位置(即，定位)914。换言之，位置标识符906可基于收集到的传感器数据预测给定实体的当前位置，并将此类信息输出为实体位置914。与实体身份912一样，实体位置914可具有任何合适的细节水平，并且该细节水平可随用户偏好和/或传感器限制而变化。例如，位置标识符906可报告检测到的实体具有在诸如地板或墙壁之类的平面上定义的二维位置。附加地或替换地，经报告的实体位置914可包括检测到的实体在真实世界三维环境中的三维位置。在一些示例中，实体位置914可包括GPS位置、映射系统内的位置等。

检测到的实体的经报告实体位置914可对应于实体的几何中心、被分类为重要的实体的特定部分(例如，人的头部)、在三维空间中定义实体边界的一系列边界等。位置标识符906可进一步计算描述检测到实体的位置和/或方向的一个或多个附加参数，诸如俯仰、滚转和/或偏航参数。换言之，检测到的实体的报告位置可具有任意数目的自由度，并且可包括定义实体在环境中位置的任意数目的坐标。在一些示例中，即使实体跟踪器210无法标识实体和/或确定实体的当前状态，也可报告检测到的实体的实体位置914。

状态标识符908可被配置成输出检测到的实体的实体状态916。换言之，实体跟踪器210可被配置成基于接收到的传感器数据来预测给定实体的当前状态，并将此类信息输出为实体状态916。事实上“实体状态”可以指给定实体的任何可测量或可分类的属性、活动或行为。例如，当被应用于一个人时，该人的实体状态可指示该人的姿态(例如站立、坐下、躺下)、该人行走/跑步的速度、该人当前的活动(例如睡觉、看电视、工作、玩游戏、游泳、打电话)、该人当前的情绪(例如，通过评估人的面部表情或语调)、该人的生物/生理参数(例如，该人的心率、呼吸频率、氧饱和度、体温、神经活动)、该人是否有任何当前或即将发生的日历事件/约会等。“实体状态”可以指应用于其他生物或非生物对象时的附加/替换属性或行为，诸如烤箱或厨房水槽的当前温度、设备(例如，电视、灯、微波炉)是否通电、门是否打开等。

在一些示例中，状态标识符908可使用传感器数据来计算人的各种不同的生物 /生理参数。这可以以各种合适的方式完成。例如，实体跟踪器210可被配置成与光学心率传感器、脉搏血氧计、血压计、心电图仪等接口。附加地或替换地，状态标识符908可被配置成解释来自环境中的一个或多个相机和/或其他传感器的数据，并处理数据以便计算人的心率、呼吸率、氧饱和度等。例如，状态标识符908可被配置成利用欧拉放大和/或类似技术放大由相机捕捉到的微小运动或变化，从而允许状态标识符可视化通过人体循环系统的血流并计算相关联的生理参数。例如，此类信息可被用于确定该人何时睡着、工作、遇险、遇到健康问题等。

在确定实体身份912、实体位置914、和实体状态916中的一者或多者之际，此类信息可作为上下文信息910被发送到各种外部模块或设备中的任何一者，其中此类信息可以以各种方式被使用。例如，承诺引擎260可使用上下文信息910来管理承诺和相关联的消息和通知。在一些示例中并且如下文更详细地描述的，承诺引擎260可使用上下文信息910来确定特定消息、通知或承诺是否应该被执行和/或呈现给用户。类似地，当解释人类语音或响应于关键词触发器激活功能时，话音监听器230可利用上下文信息910。

如上所述，在一些示例中，实体跟踪器210可在单个计算设备中实现。在其他示例中，实体跟踪器210的一个或多个功能可跨多个协同工作的计算设备分布。例如，实体标识符212、人标识符905、位置标识符906和状态标识符908中的一者或多者可在不同的计算设备上实现，同时仍然共同包括被配置成执行本文描述的功能的实体跟踪器。如上文所指示的，实体跟踪器的任何或所有功能可由各个体传感器220执行。此外，在一些示例中，实体跟踪器210可省略实体标识符212、人标识符905、位置标识符906和状态标识符908中的一者或多者，和/或包括本文未描述的一个或多个附加组件，但同时仍提供上下文信息910。

实体身份912、实体位置914和实体状态916中的每一者可采用任何合适的形式。例如，实体身份912、位置914和状态916中的每一者可采用包括描述由实体跟踪器收集的信息的一系列值和/或标签的离散数据分组的形式。实体身份912、位置914和状态916中的每一者可附加地包括定义信息准确的统计似然性的置信值。例如，如果实体标识符212接收到强烈指示特定实体是名为“约翰·史密斯(John Smith)”的男人的传感器数据，那么实体身份912可包括该信息以及对应的相对高的置信值(诸如90％置信度)。如果传感器数据有更多的歧义，则被包括在实体身份912中的置信值可对应地相对较低(诸如62％)。在一些示例中，可为单独的预测指派单独的置信值。例如，实体身份912可以以95％的置信度指示特定实体是男人，并且以70％的置信度指示该实体是约翰·史密斯(John Smith)。如下文更详细地描述的，成本函数可利用此类置信值(或概率)来生成针对向用户提供消息或其他通知和/或执行(诸)动作的成本计算。

在一些实现中，实体跟踪器210可被配置成组合或融合来自多个传感器的数据以便输出更准确的预测。作为示例，相机可定位特定房间中的人。基于相机数据，实体跟踪器210可以以70％的置信值标识该人。然而，实体跟踪器210可附加地从话筒接收录制的语音。仅基于录制的语音，实体跟踪器210可以以60％的置信值标识该人。通过将来自相机的数据与来自话筒的数据组合，实体跟踪器210可以以可能比单独使用来自任一传感器的数据的置信值更高的置信值标识该人。例如，实体跟踪器可确定从话筒接收到的录制语音与接收到语音时相机可见的人的嘴唇运动相对应，并从而以相对较高的置信度(诸如92％)得出相机可见的人就是正在说话的人的结论。以此方式，实体跟踪器210可组合两个或更多个预测的置信值以用经组合的、更高的置信值标识人。

在一些示例中，取决于传感器数据的可靠性，可对从各种传感器接收到的数据进行不同地加权。当多个传感器输出看起来不一致的数据时，这一点尤其重要。在一些示例中，传感器数据的可靠性可至少部分地基于由传感器生成的数据的类型。例如，在一些实现中，视频数据的可靠性可能比音频数据的可靠性更高地加权，因为相机上的实体的存在相较于推定源自该实体的录制的声音而言是对其身份、位置和/或状态的更好的指示符。将理解，传感器数据的可靠性是相较于与数据实例的预测准确度相关联的置信值而言不同的因素。例如，基于每个实例处存在的不同上下文因素，视频数据的若干实例可具有不同的置信值。然而，视频数据的这些实例中的每一者通常都可以与视频数据的单个可靠性值相关联。

在一个示例中，来自相机的数据可以以70％的置信值表明特定的人位于厨房中，诸如经由面部识别分析。来自话筒的数据可以以75％的置信值表明同一人位于附近的走廊，诸如经由话音识别分析。即使话筒数据的实例携带更高的置信值，实体跟踪器210仍可基于相机数据的可靠性比话筒数据的可靠性高而输出人位于厨房内的预测。以此方式并且在一些示例中，不同传感器数据的不同可靠性值可以与置信值一起被用于协调冲突的传感器数据并确定实体的身份、位置和/或状态。

附加地或替换地，可赋予具有更高精度、更高处理功率或更高能力的传感器更高的权重。例如，与膝上型计算机中找到的基本网络摄像头相比，专业级视频相机可具有显著改进的镜头、图像传感器和数字图像处理能力。相应地，因为从专业级相机接收到的视频数据可能更准确，因此与网络摄像头相比此类数据可被赋予更高的权重/可靠性值。

现在参考图10-16，解说了智能助理计算系统在单个计算设备和跨多个计算设备中的附加示例实现。

图10示出了一体化计算设备1000的示例，其中实现智能助理计算系统200 的各组件一起被布置在独立设备中。在一些示例中，一体化计算设备1000可经由网络1066通信地耦合到一个或多个其他计算设备1062。在一些示例中，一体化计算设备1000可被通信地耦合到数据存储1064，数据存储164可存储诸如用户简档数据之类的各种数据。一体化计算设备1000包括至少一个传感器220、话音监听器230、解析器240、意图处理器250、承诺引擎260、实体跟踪器210和至少一个输出设备270。(诸)传感器220包括至少一个话筒以接收来自用户的自然语言输入。在一些示例中，还可包括一个或多个其他类型的传感器220。

如上所述，话音监听器230、解析器240和意图处理器250协同工作以将自然语言输入转换成可由一体化设备1000执行的承诺。承诺引擎260将这些承诺存储在承诺存储中。实体跟踪器210可向承诺引擎260和/或其他模块提供上下文信息。在上下文适当的时间，承诺引擎260可执行承诺并向(诸)输出设备270提供诸如音频信号之类的输出。

图11示出了其中一个或多个远程服务1110执行智能助理计算系统200的自然语言处理功能的示例实现。在该示例中，话音监听器230、解析器240、意图处理器250、实体跟踪器210和承诺引擎260驻留在位于远离支持云的用户设备A的诸如一个或多个服务器之类的一个或多个计算设备上。来自用户设备A的一个或多个传感器220的传感器数据经由网络被提供给(诸)远程服务1110。例如，用户发言的音频数据可被用户设备A的话筒捕捉并被提供给话音监听器230。

如上所述，话音监听器230、解析器240和意图处理器250协作以将音频数据转换成被存储在承诺引擎260中的承诺。在上下文适当的时间，承诺引擎260可执行承诺并向用户设备A的一个或多个输出设备270提供诸如音频信号之类的输出。

图12示出了其中一个或多个远程服务1110执行智能助理计算系统200的自然语言处理功能的另一示例实现。在该示例中，该一个或多个远程服务与多个不同的传感器和输出设备通信地耦合。在该示例中，传感器包括单独的独立传感器A和C，诸如话筒、相机等。输出设备包括单独的独立输出设备B和D，诸如扬声器。

一个或多个远程服务1110还通信地耦合到包括一个或多个传感器F和输出设备G的设备E。设备E可采用包括话筒、扬声器和网络连接组件的简单独立设备的形式。在其他示例中，设备E可以是移动电话、平板计算机、壁挂式显示器或其他合适的计算设备。在一些示例中，设备E、传感器A和C以及输出设备B和 D可以是同一支持云的客户端的一部分。在其他示例中，任何数目的单独传感器和设备都可以与一个或多个远程服务1110一起使用。

如上所述，一个或多个远程服务1110执行智能助理计算系统200的自然语言处理功能。在一些示例中，远程服务1110中的一者或多者可包括智能助理计算系统200的所有自然语言处理模块。在其他示例中，一个或多个远程服务1110可包括少于所有的自然语言处理模块，并可通信地耦合到位于一个或多个其他服务处的其他模块。在本示例中，并且如下文更详细地描述的，远程服务1110中的一者或多者还可包括设备选择器1112，该设备选择器1112可利用传感器输入来选择输出设备B、D和/或G以接收来自承诺引擎260的输出。

现在参考图13，在一些示例中，本公开的智能助理计算系统200可利用设备选择器1112来使用户能够与其位置可能对该用户来说是未知的另一个人通信。在一些示例中，该系统可使用传感器数据和/或对应的上下文数据来检测该存在并确定另一个人的位置。在接收到来自该用户的对另一个人说话或定位另一个人的请求之际，设备选择器1112可选择适当的输出设备以在该用户和另一个人之间建立通信。

在图13的示例使用情形中，实现智能助理计算系统20的一个或多个远程服务1110与智能电话1390和膝上型计算机1392通信地耦合。在一个示例中，智能电话1390包含包括话筒的多个传感器A，以及采用扬声器形式的输出设备A。智能电话1390可以与用户一起被定位在她家的用户地下媒体室中。膝上型计算机1392 包含包括话筒和网络摄像头的多个传感器B，以及采用扬声器形式的输出设备B。膝上型计算机1392可位于家的楼上卧室中。

智能电话1390的用户可能希望与她的女儿通信，但可能不知道她在家中的当前位置。女儿可能和另外两个朋友在楼上卧室中。该用户可以说出自然语言输入以指示她想要与她的女儿通信。例如，该用户可以说出“给我连接莎拉(Connect me to Sarah)”。该用户的智能电话1390中的话筒可接收自然语言输入并将其发送到远程服务1110以供上述话音监听器230和智能助理计算系统200的其他组件进行处理。

在确定该用户的意图之际，承诺引擎260可从实体跟踪器210请求包括用户的女儿Sarah(莎拉)的位置的上下文信息。作为响应，实体跟踪器210可利用来自膝上型计算机1392的网络摄像头的视频数据来标识该网络摄像头视野中的Sarah (莎拉)。实体跟踪器210可使用其他上下文信息来确定膝上型计算机1392并因此女儿Sarah(莎拉)位于楼上卧室中。

通过使用该信息，设备选择器1112可将用户的智能电话1390的话筒和扬声器与膝上型计算机1392的话筒和扬声器通信地耦合，并从而允许该用户与她的女儿交谈。

在其他示例中并且如上文讨论的，一个或多个其他类型的传感器和对应的数据可被用于定位人或其他实体。各示例包括仅音频数据、视频和音频数据的组合、设备登录数据、以及前述和其他传感器数据的其他组合。

现在参考图14，在一个示例中，采用话筒形式的一个或多个传感器220可接收用户说“嘿计算机，今晚的学校董事会几点开会？(Hey computer,what time is the schoolboard meeting tonight？)”的音频数据。如上所述，话音监听器230可将音频数据处理为文本和(诸)置信值，并将该信息传递给解析器240。解析器240中的关注激活器1432可标识文本中的关键词短语“嘿计算机(Hey computer)”。作为响应，解析器240可激活或修改智能助理计算系统200的其他组件和功能。例如，解析器240可增加语音识别模块的采样率以增加可能的后续用户的语音的识别准确度。

如以上所提及的，在处理用户的自然语言输入的音频数据之际，承诺引擎可向一个或多个输出设备(诸如扬声器和/或视频显示器)提供输出。在一些示例中，单个设备可包括捕捉用户的输入的话筒(其中此类输入被提供给智能助理计算系统 200)，以及接收并广播由系统响应于输入而生成的消息的扬声器。

在一些示例中，用户可处于具有可捕捉用户语音的两个或更多个话筒和/或可广播由系统响应于该语音而生成的消息的两个或更多个扬声器的环境中。例如，用户可能与他的移动电话、膝上型计算机、平板计算机和智能/连接电视一起位于他的媒体室中。这些设备中的每一者都可包含智能助理计算系统200或与智能助理计算系统200通信地耦合。

用户可以说出由多个设备中的每一者的话筒捕捉的关键词短语。因此，由智能助理计算系统200生成的相应消息可能被所有设备中的扬声器广播，这可能会使用户烦恼。如下文更详细地描述的，在涉及多个传感器、输出设备和/或其他设备的一些示例中，智能助理计算系统200可被配置成确定多个话筒中的哪个用于接收用户语音和/或多个扬声器中的哪个用于广播相应消息。在一些示例中并且如下所述，聚集器可评估和权衡多个度量以确定要利用哪些话筒和扬声器。

现在参考图15，提供了响应于多设备环境中的话音激活的传感器和输出设备选择的示例实现。在该示例中，实现智能助理计算系统200的一个或多个远程服务 1110可从三个不同设备(诸如移动电话1576、平板计算机1578和一体化智能助理设备1580)的三个不同话筒A、B和C接收音频数据。

三个设备附近的用户可以说出关键词短语，诸如“嘿计算机(Hey Computer)”。话筒A、B和C中的每一者可捕捉说出该短语的用户的音频数据，并可将该音频数据发送给话音监听器230。如上所述，话音监听器230可利用语音识别技术将口述话语翻译成文本。话音监听器230还可将(诸)置信值指派给经翻译的文本。在一些示例中，话音监听器230可包括关键词检测算法，该关键词检测算法被配置成标识经翻译的文本中的关键词或关键词短语。话音监听器230可向文本指派置信值，该置信值指示该文本是关键词或关键词短语的似然性。

在一些示例中，聚集器1582可评估与从不同的各个体话筒和/或从不同的话筒阵列接收到的与多个用户音频数据流相关的多个度量。如下文更详细地描述的，聚集器1582可利用这些度量来选择音频数据流中的一者及其对应的(诸)话筒以用于与用户交互。在一些示例中，可选择被确定为最接近用户的(诸)话筒。在一些示例中，可选择被确定为提供最高质量音频数据的(诸)话筒。在一些示例中，提供最高质量音频数据的(诸)话筒可被确定为最接近用户的(诸)话筒，并因此可被选择。

当话筒已被选出时，设备选择器1112可选择与该话筒相关联的扬声器以向用户输出响应。例如，在话筒是包括扬声器的设备的组件的情况下，可选择该扬声器。在话筒是独立话筒的情况下，聚集器1582可选择用户附近的另一扬声器以输出响应。在图15的示例中，聚集器1582位于实现智能助理计算系统200的至少一部分的远程服务中的一者上。在其他示例中，聚集器1582可位于另一计算设备上，诸如在另一基于云的服务中。

在一个使用情形示例中，聚集器1582可利用四个度量来评估接收到的用户音频数据流：(1)接收到的音频信号的幅度(音量)；(2)音频信号的信噪比(S/N)； (3)指示数据流包含关键词或关键词短语的似然性的关键词置信值；以及(4)指示发言者是特定人的似然性的用户标识置信值。

在一些示例中，可利用音频数据流接收幅度和/或S/N值。在其他示例中，幅度和/或S/N值可由话音监听器230或智能助理计算系统200的其他组件确定。如上所述，关键词置信值可由话音监听器230确定。同样如上所述，用户标识置信值可由实体跟踪器210确定。在一些示例中，说出输入的用户可被话音识别标识为已知的发言者或未知的发言者，并被指派相应的置信水平。

可通过将用户话音的信号电平与背景噪声的电平进行比较来计算接收到的音频输入的S/N比。在一些示例中，输入的幅度可被用于确定用户与对应话筒的邻近度。将理解，本实现中讨论的度量是作为示例提供的，并不意味着是限制性的。

每个接收到的音频数据流还可包括标识提供该数据流的特定设备或独立传感器的设备ID。在一些示例中，在从第一设备或传感器接收到第一组度量之后，聚集器1582可停顿预定的时间段以确定是否一个或多个其他设备/传感器也从与第一组度量中标识的用户相同的人处接收到关键词或关键词短语。例如，聚集器1582 可停顿0.5秒、1.0秒或不会对用户造成负面用户体验的任何其他时间段。

在本示例中并且如图15所示，聚集器1582评估从移动电话1576、平板计算机1578和一体化智能助理设备1580接收到的音频数据流的度量。对于每个设备，聚集器1582可将四个度量组合成单个可选择性分数，诸如通过对这四个度量取平均。在一些示例中并且在组合之前，可通过依经验确定的权重对每个度量进行加权，权重反映了度量在预测将提供最佳用户体验的设备/话筒和对应的音频数据流方面的准确度。通过比较每个设备/话筒及其数据流的可选性分数，聚集器1582可标识并选择期望的设备/数据流。

在一个示例中，对于四个度量中的每一者，聚集器1582可比较每个设备/话筒的分数并相应地根据每度量对设备/话筒进行排名。例如，聚集器1582可确定从移动电话1576的话筒A接收到的音频数据流的以下分数：1)90％(幅度)；2)90 ％(S/N)；3)30％(关键词置信度)；4)90％(发言者ID)。从平板计算机 1578的话筒B接收到的音频数据流的分数可以是：1)80％(幅度)；2)80％(S/N)； 3)80％(关键词置信度)；4)80％(发言者ID)。从智能助理设备1580的话筒 C接收到的音频数据流的分数可以是：1)92％(幅度)；2)88％(S/N)；3)90 ％(关键词置信度)；4)92％(发言者ID)。

在该示例中，针对四个度量中每一者的三个设备的排名如下：

幅度-1.智能助理设备；2.移动电话；3.平板计算机。

S/N比-1.移动电话；2.智能助理设备；3.平板计算机。

关键词置信度-1.智能助理设备；2.平板计算机；3.移动电话。

扬声器ID-1.智能助理设备；2.移动电话；3.平板计算机。

每个设备可基于其在每个度量类别中的排名来奖励积点。例如，排名第一名＝ 1积点、第二名＝2积点、而第三名＝3积点。对于每个设备，其点数为四个度量的总计并取平均值。聚集器1582选择具有最低平均积点总数的设备(和相应的数据流)。在本示例中，最终积点总数和排名是：1.智能助理设备＝>1.25；2.移动电话＝>2.0；3.平板计算机＝>2.75。因此，聚集器1582从智能助理设备1580中选择数据流以供智能助理计算系统200继续分析。附加地，并且基于上述排名，设备选择器1112可选择智能助理设备1580以接收由承诺引擎260生成的(诸)消息作为分析结果。

在一些示例中，在上述智能助理设备1580的聚集器1582的选择之际，聚集器还可使得其他两个设备禁止发送与同一发言者ID(即，人)相关联的音频数据流，该同一发言者ID与经分析的数据流相关联。以此方式，当同一用户在初始输入后提供更自然的语言输入时，仅所选智能助理设备1580将向(诸)远程服务1110 提供相应的音频数据。在一些示例中，当同一人说出关键词或关键词短语时，其他两个设备可恢复发送音频数据流。在这些情形中，可再次执行上述选择过程以确定所选设备。

在一些示例中并且如以上所提及的，在对奖励积点取平均之前，每个积点奖励可被乘以依经验确定的加权值，该加权值反映了度量在预测将提供最佳用户体验的设备和相应音频数据流方面的准确度。在一些示例中，一个或多个机器学习技术可被用于构建用于计算不同度量的模型。

在一些示例实现中，信号幅度可能与用户与接收该用户的语音的话筒的距离高度相关。S/N比还可提供针对用户与话筒的距离的良好指示符，因为较低的噪声值可能与用户离话筒较接近有关。在信号幅度和信号的S/N比两者都相对较高的情况下，扬声器ID精度可相应地受益于强信号。

将理解，上述方法和使用情形仅仅是示例，并且许多变型是可能的。例如，上述4个度量的子集可被用于评估用户音频数据流。在其他示例中，还可利用一个或多个附加度量。

在一些示例中，先前已经经由多个设备中的所选设备与智能助理计算系统200 建立了对话的用户在开始与同一设备的下一次对话之前可具有短暂的停顿。系统可将停顿的历时与预定时间段进行比较，并且可以在为下一次对话选择设备时考虑该比较。例如,在停顿的历时小于预定时期段(诸如5秒)的情况下,系统可包括最新近建立的扬声器ID和设备确定分析中存在的先前对话，作为为下一次对话选择同一设备的倾向。

上述示例包括识别可听关键词以激活智能助理计算系统的一个或多个功能。在一些示例中，可通过识别一个或多个其他信号来激活系统的功能。此类信号可包括例如由相机捕捉的用户姿势、用户眼睛注视、和用户的面部方向。

在一些示例中，用于设备选择的上述技术中的一者或多者可被用于基于一个或多个因素自动地更新所选设备。例如，在用户经由第一设备与智能助理计算系统 200通信的情况下，当用户改变她的定位并且远离第一设备移动时，该系统可相应地将所选设备改变为更接近用户的新位置的第二设备。

在一些实现中，除了音频数据之外，可利用来自一个或多个图像传感器的成像数据来选择设备。例如，从实体跟踪器210接收到的上下文数据810可包括可被用于选择设备的成像数据。成像数据的各示例可包括来自RGB相机的视频、来自IR 相机的红外图像、来自深度相机的深度图像、来自热相机的热图像等。例如，RGB 相机可跟踪用户在房间内的位置。来自相机的图像可被用于选择(诸)适当的设备 /话筒以接收用户的自然语言输入、和/或选择(诸)适当的扬声器以向用户广播消息。在一些示例中并且参考上述设备选择技术，可包括成像数据和相关参数作为由聚集器1582分析以确定设备选择的度量。

在一些示例中，捕捉到的用户图像可被用于标识用户说话时正面向哪个设备。在一些示例中，诸如面部检测之类的指示符可被用于标识用户。在一些示例中，经捕捉的视频可指示可被用于将口述关键词与用户相关联的用户的嘴唇移动。在具有多个用户的环境中，此类指示符还可标识正在处理设备的特定用户。如此，话音和物理识别两者都可被用作参数以将一用户与多个用户区分开来。

可用于选择设备/话筒和/或扬声器的输入的其他示例包括雷达信号和激光雷达信号。在一些示例中，来自经连接的设备的信号可指示用户正在与该设备进行交互。在一个示例中，用户可经由指纹识别来激活移动电话。此类交互可以是用户出现在电话位置处的强烈指示符。

在一些实施例中，本文中所描述的方法和过程可以与一个或多个计算设备的计算系统绑定。具体而言，此类方法和过程可被实现为计算机应用程序或服务、应用编程接口(API)、库、和/或其他计算机程序产品。

图16示意性地示出了可执行上述方法和过程中的一者或多者的计算系统1650 的非限制性实施例。以简化形式示出了计算系统1650。计算系统1650可采用一个或多个下列各项的形式：个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能电话)、和/或其他计算设备。

计算系统1650包括逻辑处理器1654、易失存储器1658以及非易失存储设备 1662。计算系统1650可以可任选地包括显示子系统1666、输入子系统1670、通信子系统1674和/或在图16中未示出的其他组件。

逻辑处理器1654包括被配置成执行指令的一个或多个物理设备。例如，逻辑处理器可以被配置成执行指令，该指令是一个或多个应用、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分。此类指令可被实现以执行任务、实现数据类型、变换一个或多个组件的状态、实现技术效果、或以其他方式得到期望的结果。

逻辑处理器1654可包括被配置成执行软件指令的一个或多个物理处理器 (硬件)。附加地或替换地，逻辑处理器可包括被配置成执行硬件实现的逻辑或固件指令的一个或多个硬件逻辑电路或固件设备。逻辑处理器1654的各处理器可以是单核的或多核的，并且其上所执行的指令可被配置成用于串行、并行和/或分布式处理。逻辑处理器的各个体组件可以可任选地分布在两个或更多个分开的设备之间，这些设备可以位于远程和/或被配置成用于协同处理。逻辑处理器1654的各方面可以由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。在此种情形中，这些虚拟化方面可以在各种不同机器的不同物理逻辑处理器上运行。

易失性存储器1658可包括包含随机存取存储器的物理设备。易失性存储器1658通常被逻辑处理器1654用来在软件指令的处理期间临时地存储信息。将理解，当切断给易失性存储器1658的功率时，该易失性存储器通常不继续存储指令。

非易失性存储设备1662包括被配置成保持可由逻辑处理器执行的指令以实现本文中所描述的方法和过程的一个或多个物理设备。当实现此类方法和过程时，非易失性存储设备1662的状态可以被变换－例如以保持不同的数据。非易失性设备1662还可以保存数据，包括本文描述的各种数据项。此类数据可被组织在共同形成数据库系统的一个或多个数据库中。非易失性存储设备1662的一个或多个数据保持设备可被统称为数据存储系统。虽然各种数据项被称为存储在数据存储系统或数据存储设备中，但是将理解，此类数据项可以跨两个或更多个数据存储设备分布。因此，例如，被称为与人员简档相关联的数据项可被存储在不同的数据存储设备中和/或使用共同形成数据库系统的两个或更多个数据库来存储。

非易失性存储设备1662可包括可移动和/或内置的物理设备。非易失性存储设备1662可包括光学存储器(例如，CD、DVD、HD-DVD、蓝光碟等)、半导体存储器(例如，ROM、EPROM、EEPROM、闪存存储器等)、和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)或者其他大容量存储设备技术。非易失性存储设备1662可包括非易失性、动态、静态、读/写、只读、顺序存取、位置可寻址、文件可寻址、和/或内容可寻址设备。将理解，非易失性存储设备1662被配置成即使当切断给该非易失性存储设备的功率时也保持指令。

逻辑处理器1654、易失性存储器1658和非易失性存储设备1662的各方面可以被一起集成到一个或多个硬件逻辑组件中。此类硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用集成电路(PASIC/ASIC)、程序和应用专用标准产品(PSSP/ASSP)、片上系统(SOC)，以及复杂可编程逻辑器件(CPLD)。

术语“模块”、“程序”和“引擎”可被用来描述计算系统1650的被实现为执行特定功能的方面。在一些情形中，模块、程序或引擎可经由逻辑处理器1654执行由非易失性存储设备1662所保持的指令、使用易失性存储器1658 的各部分来实例化。将理解，不同的模块、程序或引擎可以从相同的应用、服务、代码块、对象、库、例程、API、函数等实例化。类似地，相同的模块、程序和/或引擎可由不同的应用、服务、代码块、对象、例程、API、功能等来实例化。术语模块、程序和引擎涵盖单个或成群的可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。

将理解，如本文中所使用的“服务”是可以是跨多个用户会话可执行的应用程序。服务可用于一个或多个系统组件、程序、和/或其他服务。在一些实现中，服务可以在一个或多个服务器计算设备上运行。

在包括显示子系统1666时，显示子系统1666可被用来呈现由非易失性存储设备1662保持的数据的视觉表示。由于本文中所描述的方法和过程改变了由非易失性存储设备保持的数据，并因而变换了非易失性存储设备的状态，因此同样可以变换显示子系统1666的状态以视觉地表示底层数据中的改变。显示子系统1666可包括利用实质上任何类型的技术的一个或多个显示设备。可将此类显示设备与逻辑处理器1654、易失性存储器1658和/或非易失性存储设备1662 组合在共享外壳中，或此类显示设备可以是外围显示设备。

在包括输入子系统1670时，输入子系统1670可包括或对接于一个或多个用户输入设备。在一些实施例中，输入子系统可包括或对接于所选自然用户输入(NUI)部件。此类部件可以是集成的或外围的，并且输入动作的换能和/或处理可以在板上或板外被处置。示例NUI部件可包括用于语音和/或话音识别的话筒；用于机器视觉和/或姿势识别的红外、彩色、立体、和/或深度相机；用于运动检测、注视检测、和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计、和/或陀螺仪；用于评估脑部活动的电场感测部件；关于以上讨论的示例使用情形和环境描述的任何传感器；和/或任何其他合适的传感器。

当包括通信子系统1674时，通信子系统1674可被配置成将计算系统1650 与一个或多个其他计算设备通信地耦合。通信子系统1674可包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可被配置成用于经由无线电话网络、或者有线或无线局域网或广域网进行通信。在一些实施例中，通信子系统可允许计算系统1650经由诸如因特网之类的网络将数据发送至其他设备以及从其他设备接收数据。

根据本公开的示例实现，由计算系统执行的用于向智能助理计算机注册人的方法包括：获得经由一个或多个相机捕捉的描绘最初未注册人的一个或多个图像帧；从该一个或多个图像帧中提取该最初未注册人的面部识别数据；经由一个或多个话筒接收注册该最初未注册人的口述命令；确定该口述命令源自具有预建立的注册特权的注册人；在确定该口述命令源自具有预建立的注册特权的注册人之际，通过在新注册人的人员简档中将一个或多个附加特权与该面部识别数据相关联来将该最初未注册人注册为新注册人。在本文公开的该实现或任何其他实现中，在接收到注册该最初未注册人的口述命令之后捕捉一个或多个图像帧。在本文公开的该实现或任何其他实现中，该方法进一步包括：响应于接收到注册该最初未注册人的口述命令而引导该最初未注册人将其面部定位在一个或多个相机的视野内以捕捉用于面部识别的一个或多个图像帧。在本文公开的该实现或任何其他实现中，引导该最初未注册人包括经由音频扬声器输出听觉引导和/或经由图形显示设备输出视觉引导中的一者或多者。在本文公开的该实现或任何其他实现中，该方法进一步包括：响应于接收到注册该最初未注册人的口述命令而引导该最初未注册人说出一个或多个单词或短语；获得经由一个或多个话筒捕捉的包括由该最初未注册人说出的一个或多个单词或短语的一个或多个音频片段；从该一个或多个音频片段中提取该最初未注册人的发言者识别数据；以及将该发言者识别数据与该新注册人的人员简档相关联。在本文公开的该实现或任何其他实现中，在经由一个或多个相机捕捉到一个或多个图像帧之后接收注册该最初未注册人的口述命令。在本文公开的该实现或任何其他实现中，该方法进一步包括：在接收注册该最初未注册人的口述命令之前在数据存储系统中存储该一个或多个图像帧；从该数据存储系统中检索该一个或多个图像帧；经由图形显示设备呈现该一个或多个图像帧以供注册人审查；以及其中该口述命令在呈现该一个或多个图像帧期间或之后被接收。在本文公开的该实现或任何其他实现中，在最初未注册人离开该一个或多个相机的视野之后呈现该一个或多个图像帧。在本文公开的该实现或任何其他实现中，响应于由注册人发起的另一命令而呈现该一个或多个图像帧。在本文公开的该实现或任何其他实现中，该一个或多个图像帧形成经由该一个或多个相机捕捉的一个或多个视频片段的一部分；以及该方法进一步包括：标识该最初未注册人在该一个或多个视频片段内的发言活动；获得经由一个或多个话筒捕捉的与该一个或多个视频片段在时间上匹配的一个或多个音频片段；基于与该最初未注册人的发言活动相对应的一个或多个口述单词或短语来从该一个或多个音频片段中提取该最初未注册人的发言者识别数据；以及将该发言者识别数据与该人员简档相关联。在本文公开的该实现或任何其他实现中，该方法进一步包括：经由一个或多个话筒接收执行一个或多个操作的后续口述命令；基于该发言者识别数据来确定该后续口述命令源自具有一个或多个附加特权的新注册人；以及响应于该口述命令而执行由该一个或多个附加特权准许的一个或多个操作中的操作。在本文公开的该实现或任何其他实现中，该口述命令形成源自注册人的口述短语的一部分，其进一步包括新注册人的人标识符；以及该方法进一步包括将该人标识符与该新注册人的人员简档相关联。在本文公开的该实现或任何其他实现中，该口述命令形成源自注册人的口述短语的一部分，其进一步包括新注册人的标识与该人员简档相关联的一个或多个附加特权的特权标识符；其中该一个或多个附加特权中的每个特权准许将由智能助理计算机响应于源自该新注册人的命令而执行的先前在注册之前未被准许的一个或多个操作。在本文公开的该实现或任何其他实现中，该特权标识符指示新注册人是否被准许注册其他最初未注册人。

根据本公开的另一示例实现，计算系统包括捕捉图像数据的一个或多个相机；捕捉音频数据的一个或多个话筒；实现智能助理服务的一个或多个计算设备，其被配置成：获得经由该一个或多个相机捕捉的描绘最初未注册人的一个或多个图像帧；从该一个或多个图像帧中提取该最初未注册人的面部识别数据；经由该一个或多个话筒接收注册该最初未注册人的口述命令；确定该口述命令源自具有预建立的注册特权的注册人；在确定该口述命令源自具有预建立的注册特权的注册人之际，通过在存储在该一个或多个计算设备的数据存储系统中的新注册人的人员简档中将一个或多个附加特权与该面部识别数据相关联来将该最初未注册人注册为新注册人。在本文公开的该实现或任何其他实现中，在接收到注册该最初未注册人的口述命令之后捕捉一个或多个图像帧；以及其中该智能助理服务被进一步配置成：响应于接收到注册该最初未注册人的口述命令而引导该最初未注册人将其面部定位在一个或多个相机的视野内以捕捉用于面部识别的一个或多个图像帧。在本文公开的该实现或任何其他实现中，该智能助理服务被进一步配置成：响应于接收到注册该最初未注册人的口述命令而引导该最初未注册人说出一个或多个单词或短语；获得经由一个或多个话筒捕捉的包括由该最初未注册人说出的一个或多个单词或短语的一个或多个音频片段；从该一个或多个音频片段中提取该最初未注册人的发言者识别数据；以及将该发言者识别数据与该新注册人的人员简档相关联。在本文公开的该实现或任何其他实现中，在经由一个或多个相机捕捉到一个或多个图像帧之后接收注册该最初未注册人的口述命令；以及其中该智能助理服务被进一步配置成：在接收注册该最初未注册人的口述命令之前在数据存储系统中存储该一个或多个图像帧；在该最初未注册人离开该一个或多个相机的视野之后从该数据存储系统中检索该一个或多个图像帧；经由图形显示设备呈现该一个或多个图像帧以供注册人审查；以及其中该口述命令在呈现该一个或多个图像帧期间或之后被接收。在本文公开的该实现或任何其他实现中，该智能助理服务被进一步配置成：经由一个或多个话筒接收执行一个或多个操作的后续口述命令；确定该后续口述命令源自具有一个或多个附加特权的新注册人；以及响应于该口述命令而执行由该一个或多个附加特权准许的操作。

根据本公开的另一示例实现，由计算系统执行的用于向智能助理计算机注册一个人的方法包括：获得经由一个或多个相机捕捉的描绘最初未注册人的一个或多个图像帧；从该一个或多个图像帧中提取该最初未注册人的面部识别数据；获得经由一个或多个话筒捕捉的包括由该最初未注册人说出的一个或多个单词或短语的一个或多个音频片段；从该一个或多个音频片段中提取该最初未注册人的发言者识别数据；经由一个或多个话筒接收注册该最初未注册人的口述命令；确定该口述命令源自具有预建立的注册特权的注册人；在确定该口述命令源自具有预建立的注册特权的注册人之际，通过在新注册人的人员简档中将一个或多个附加特权与该面部识别数据和该话音识别数据相关联来将该最初未注册人注册为新注册人；在该新注册人的注册之后，经由该一个或多个话筒接收执行一个或多个操作的后续口述命令；基于该发言者识别数据来确定该后续口述命令源自具有一个或多个附加特权的新注册人；以及响应于该口述命令而执行由该一个或多个附加特权准许的操作。

将理解，本文中所描述的配置和/或办法本质上是示例性的，并且这些具体实施例或示例不应被视为具有限制意义，因为许多变体是可能的。本文中所描述的具体例程或方法可表示任何数目的处理策略中的一个或多个。由此，所解说和/或所描述的各种动作可以以所解说和/或所描述的顺序执行、以其他顺序执行、并行地执行，或者被省略。同样，以上所描述的过程的次序可被改变。

本公开的主题包括各种过程、系统和配置以及此处公开的其他特征、功能、动作和/或属性、以及它们的任一和全部等价物的所有新颖且非显而易见的组合和子组合。

Claims

1.一种由计算系统执行的用于向智能助理计算机注册人的方法，所述方法包括：

获得经由一个或多个相机捕捉的描绘最初未注册人的一个或多个图像帧；

从所述一个或多个图像帧中提取所述最初未注册人的面部识别数据；

经由一个或多个话筒接收注册所述最初未注册人的口述命令；

确定所述口述命令源自具有预建立的注册特权的注册人；以及

在确定所述口述命令源自具有所述预建立的注册特权的所述注册人之际，通过在新注册人的人员简档中将一个或多个附加特权与所述面部识别数据相关联来将所述最初未注册人注册为新注册人。

2.根据权利要求1所述的方法，其特征在于，在接收到注册所述最初未注册人的所述口述命令之后捕捉所述一个或多个图像帧。

3.根据权利要求2所述的方法，其特征在于，进一步包括：

响应于接收到注册所述最初未注册人的所述口述命令而引导所述最初未注册人将其面部定位在所述一个或多个相机的视野内以捕捉用于面部识别的所述一个或多个图像帧。

4.根据权利要求3所述的方法，其特征在于，引导所述最初未注册人包括经由音频扬声器输出听觉引导和/或经由图形显示设备输出视觉引导中的一者或多者。

5.根据权利要求1所述的方法，其特征在于，进一步包括：

响应于接收到注册所述最初未注册人的所述口述命令而引导所述最初未注册人说出一个或多个单词或短语；

获得经由一个或多个话筒捕捉的包括由所述最初未注册人说出的所述一个或多个单词或短语的一个或多个音频片段；

从所述一个或多个音频片段中提取所述最初未注册人的发言者识别数据；以及

将所述发言者识别数据与所述新注册人的人员简档相关联。

6.根据权利要求1所述的方法，其特征在于，在经由所述一个或多个相机捕捉到所述一个或多个图像帧之后接收注册所述最初未注册人的所述口述命令。

7.根据权利要求6所述的方法，其特征在于，进一步包括：

在接收注册所述最初未注册人的所述口述命令之前在数据存储系统中存储所述一个或多个图像帧；

从所述数据存储系统中检索所述一个或多个图像帧；

经由图形显示设备呈现所述一个或多个图像帧以供所述注册人审查；以及

其中所述口述命令在呈现所述一个或多个图像帧期间或之后被接收。

8.根据权利要求7所述的方法，其特征在于，在所述最初未注册人离开所述一个或多个相机的视野之后呈现所述一个或多个图像帧。

9.根据权利要求7所述的方法，其特征在于，响应于由所述注册人发起的另一命令而呈现所述一个或多个图像帧。

10.根据权利要求1所述的方法，其特征在于，所述一个或多个图像帧形成经由所述一个或多个相机捕捉的一个或多个视频片段的一部分；以及

其中所述方法进一步包括：

标识所述最初未注册人在所述一个或多个视频片段内的发言活动；

获得经由一个或多个话筒捕捉的与所述一个或多个视频片段在时间上匹配的一个或多个音频片段；

基于与所述最初未注册人的发言活动相对应的一个或多个口述单词或短语来从所述一个或多个音频片段中提取所述最初未注册人的发言者识别数据；以及

将所述发言者识别数据与所述人员简档相关联。

11.根据权利要求10所述的方法，其特征在于，进一步包括：

经由一个或多个话筒接收执行一个或多个操作的后续口述命令；

基于所述发言者识别数据来确定所述后续口述命令源自具有所述一个或多个附加特权的所述新注册人；以及

响应于所述口述命令而执行由所述一个或多个附加特权准许的所述一个或多个操作中的操作。

12.根据权利要求1所述的方法，其特征在于，所述口述命令形成源自所述注册人的口述短语的一部分，所述口述命令进一步包括所述新注册人的人标识符；以及

其中所述方法进一步包括将所述人标识符与所述新注册人的人员简档相关联。

13.根据权利要求1所述的方法，其特征在于，所述口述命令形成源自所述注册人的口述短语的一部分，所述口述短语进一步包括所述新注册人的标识与所述人员简档相关联的所述一个或多个附加特权的特权标识符；

其中所述一个或多个附加特权中的每个特权准许将由所述智能助理计算机响应于源自所述新注册人的命令而执行的先前在注册之前未被准许的一个或多个操作。

14.根据权利要求13所述的方法，其特征在于，所述特权标识符指示所述新注册人是否被准许注册其他最初未注册人。

15.一种计算系统，包括：

捕捉图像数据的一个或多个相机；

捕捉音频数据的一个或多个话筒；

实现智能助理服务的一个或多个计算设备，所述一个或多个计算设备被配置成：

获得经由所述一个或多个相机捕捉的描绘最初未注册人的一个或多个图像帧；

经由所述一个或多个话筒接收注册所述最初未注册人的口述命令；

在确定所述口述命令源自具有所述预建立的注册特权的所述注册人之际，通过在存储在所述一个或多个计算设备的数据存储系统中的新注册人的人员简档中将一个或多个附加特权与所述面部识别数据相关联来将所述最初未注册人注册为新注册人。

16.根据权利要求15所述的计算系统，其特征在于，在接收到注册所述最初未注册人的所述口述命令之后捕捉所述一个或多个图像帧；以及

其中所述智能助理服务被进一步配置成：

17.根据权利要求15所述的计算系统，其特征在于，所述智能助理服务被进一步配置成：

获得经由所述一个或多个话筒捕捉的包括由所述最初未注册人说出的所述一个或多个单词或短语的一个或多个音频片段；

将所述发言者识别数据与所述新注册人的人员简档相关联。

18.根据权利要求15所述的计算系统，其特征在于，在经由所述一个或多个相机捕捉到所述一个或多个图像帧之后接收注册所述最初未注册人的所述口述命令；以及

其中所述智能助理服务被进一步配置成：

在接收注册所述最初未注册人的所述口述命令之前在所述数据存储系统中存储所述一个或多个图像帧；

在所述最初未注册人离开所述一个或多个相机的视野之后从所述数据存储系统中检索所述一个或多个图像帧；

19.根据权利要求15所述的计算系统，其特征在于，所述智能助理服务被进一步配置成：

经由所述一个或多个话筒接收执行一个或多个操作的后续口述命令；

确定所述后续口述命令源自具有所述一个或多个附加特权的所述新注册人；以及

响应于所述口述命令而执行由所述一个或多个附加特权准许的操作。

20.一种由计算系统执行的用于向智能助理计算机注册人的方法，所述方法包括：

获得经由一个或多个话筒捕捉的包括由所述最初未注册人说出的一个或多个单词和/或短语的一个或多个音频片段；

从所述一个或多个音频片段中提取所述最初未注册人的发言者识别数据；

确定所述口述命令源自具有预建立的注册特权的注册人；

在确定所述口述命令源自具有所述预建立的注册特权的所述注册人之际，通过在新注册人的人员简档中将一个或多个附加特权与所述面部识别数据和所述话音识别数据相关联来将所述最初未注册人注册为新注册人；

在所述新注册人的注册之后，经由所述一个或多个话筒接收执行一个或多个操作的后续口述命令；