CN112313680A

CN112313680A - 助理系统中手势输入的自动完成

Info

Publication number: CN112313680A
Application number: CN201980040312.6A
Authority: CN
Inventors: 威廉·克罗斯比·普莱森特; 弗朗西斯拉夫·P·佩诺夫; 阿努杰·库马尔
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2018-04-20
Filing date: 2019-04-19
Publication date: 2021-02-02
Also published as: US10827024B1; US12001862B1; WO2019203869A1; US10958599B1; US11721093B2; CN112313644A; JP2021522561A; US10802848B2; CN112313642A; WO2019204651A1; US11100179B1; CN112292674A; US11908179B2; US10803050B1; US20190325084A1; US20220166733A1; US20190325042A1; WO2019203886A1; CN112292674B; US20210232589A1

Abstract

在一个实施例中，一种方法包括从与第一用户相关联的客户端系统接收用户输入，其中用户输入包括由第一用户执行的不完整手势，由意图理解模块计算对应于不完整手势的一个或更多个意图的一个或更多个置信度分数，确定与每个意图相关联的所计算的置信度分数低于阈值分数，响应于确定每个意图的所计算的置信度分数低于阈值分数，基于个性化手势识别模型从多个预定义手势中选择候选手势，其中每个候选手势与表示第一用户打算输入相应候选手势的可能性的置信度分数相关联，以及向客户端系统发送用于呈现对应于一个或更多个候选手势的一个或更多个建议输入的指令。

Description

助理系统中手势输入的自动完成

技术领域

本公开总体上涉及网络环境内基于机器学习技术的对话管理，并且具体地涉及用于智能助理(smart assistant)系统的硬件和软件。

背景

助理系统可以基于用户输入、位置感知和从各种在线来源访问信息(如天气状况、交通拥堵、新闻、股票价格、用户日程、零售价格等)的能力的组合来代表用户提供信息或服务。用户输入可以包括文本(例如，在线聊天)(尤其是在即时消息传递应用或其他应用中的文本)、声音(voice)、图像、运动、取向(orientation)、或它们的组合。助理系统可以基于用户输入来执行礼宾类型的(concierge-type)服务(例如，预订晚餐、购买活动门票、安排旅行)或者提供信息。助理系统也可以基于在线信息和事件执行管理或数据处理任务，而无需用户启动或交互。可以由助理系统执行的那些任务的示例可以包括日程管理(例如，对晚餐约会发送用户由于交通状况而要迟到的告警信息，更新双方的日程，以及改变餐馆预订时间)。助理系统可以通过计算设备、应用编程接口(API)、以及用户设备上应用激增(proliferation)的组合来实现。

可以包括社交网络网站的社交网络系统可以使它的用户(例如个人或组织)能够与它交互以及通过它彼此交互。社交网络系统可以利用来自用户的输入来在社交网络系统中创建并存储与用户相关联的用户简档(user profile)。用户简档可以包括用户的人口统计信息、通信渠道信息以及关于个人兴趣的信息。社交网络系统还可以用来自用户的输入来创建并存储用户与社交网络系统的其他用户的关系的记录，以及提供服务(例如，简档/动态消息(news feed)帖子、照片分享、事件组织、消息传递、游戏或广告)以便于在用户之间或当中的社会交互。

社交网络系统可以通过一个或更多个网络向用户的移动设备或其他计算设备发送与它的服务相关的内容或消息。用户还可以在用户的移动设备或其他计算设备上安装软件应用，用于访问用户的用户简档和在社交网络系统内的其他数据。社交网络系统可以生成一组个性化的内容对象以显示给用户，例如关连(connect)到该用户的其他用户的汇集的动态(story)的动态消息。

特定实施例概述

在特定实施例中，助理系统可以帮助用户获得信息或服务。助理系统可以使用户能够在有状态和多轮会话(stateful and multi-turn conversations)中通过多模态(multi-modal)用户输入(如声音、文本、图像、视频、运动、取向)与它进行交互，以获得帮助。助理系统可以创建和存储用户简档，该用户简档包括与用户相关联的个人信息和上下文信息(contextual information)。在特定实施例中，助理系统可以使用自然语言理解来分析用户输入。分析可以基于用户简档，以获得更个性化和上下文感知的理解。助理系统可以基于分析来解析(resolve)与用户输入相关联的实体。在特定实施例中，助理系统可以与不同的代理交互，以获得与解析的实体相关联的信息或服务。助理系统可以通过使用自然语言生成来为用户生成关于信息或服务的响应。通过与用户的交互，助理系统可以使用对话管理技术来管理和转发与用户的会话流。在特定实施例中，助理系统还可以通过汇总(summarize)信息来辅助用户有效且高效地消化所获得的信息。助理系统还可以通过提供帮助用户与在线社交网络交互(例如，创建帖子、评论、消息)的工具，来帮助用户更好地参与在线社交网络。助理系统另外可以帮助用户管理不同的任务，如持续跟踪事件。在特定实施例中，助理系统可以基于用户简档在没有用户输入的情况下主动执行与用户兴趣和偏好相关的任务。在特定实施例中，助理系统可以检查隐私设置，以确保根据用户的隐私设置来允许访问用户的简档或其他用户信息以及执行不同的任务。

在特定实施例中，助理系统可以接收由用户执行的处于第一模态的初始输入(例如对虚拟现实(VR)头戴式装置(headset)或增强现实(AR)智能眼镜的手势输入)，该初始输入作为与基于助理的客户端系统的交互，基于初始输入以自动完成方式确定候选延续输入(continuation-input)，并且以一种或更多种第二模态(例如，文本)向用户推荐这些候选延续输入，对于这些候选延续输入，用户可以选择其中之一来触发特定任务的执行。初始输入和延续输入可以基于任何合适的模态，包括文本、语音、图像、视频、运动、取向等。此外，初始输入的模态和延续输入的模态可以不同。作为示例而非限制，佩戴AR眼镜参观巴黎的用户可能正在看埃菲尔铁塔(Eiffel Tower)。基于凝视输入，助理系统可以建议显示在虚拟屏幕上的用于拍照的手势，或者建议用户说“拍照(take a picture)”。用户可以执行建议的手势或说出句子，以允许助理系统执行拍摄埃菲尔铁塔的任务。因此，助理系统可以具有处理一种模态的用户输入并生成一种或更多种其他模态的建议输入的能力，这可以被称为多模态用户输入的自动完成。尽管本公开描述了以特定方式经由特定系统生成特定多模态用户输入的特定自动完成，但是本公开设想了以任何合适的方式经由任何合适的系统生成任何合适的多模态用户输入的任何合适的自动完成。

在特定实施例中，助理系统可以从与第一用户相关联的客户端系统接收来自第一用户的初始输入。初始输入可以处于第一模态。在特定实施例中，助理系统可以通过意图理解模块来确定对应于初始输入的一个或更多个意图。助理系统然后可以基于一个或更多个意图生成一个或更多个候选延续输入。一个或更多个候选延续输入分别可以处于一种或更多种候选模态。候选模态可以不同于第一模态。在特定实施例中，助理系统还可以向客户端系统发送用于呈现对应于一个或更多个候选延续输入的一个或更多个建议输入的指令。

在特定实施例中，助理系统可以接收由用户执行的不完整手势，该不完整手势作为与基于助理的客户端系统(例如，VR头戴式装置或AR智能眼镜)的交互，基于不完整手势以自动完成的方式确定候选手势，向用户推荐这些候选手势，对于这些候选手势，用户可以选择它们中的一个来触发特定任务的执行。作为示例而非限制，佩戴AR眼镜的用户可能不知道执行什么手势来触发助理系统的特定功能。用户可以开始移动他/她的手，但是在空中暂停。因此，助理系统可以分析用户的不完整手势并确定可能的候选手势。助理系统可以通过AR眼镜向用户可视地显示这些候选手势。在用户选择了这些候选手势之一之后，助理系统还可以执行对应于该手势的任务。总之，助理系统可以对不完整的手势使用手势识别技术来确定用户意图的手势，并且向用户建议所确定的手势作为指导，这可以被称为手势输入的自动完成。尽管本公开描述了以特定方式经由特定系统生成特定手势输入的特定自动完成，但是本公开设想了以任何合适的方式经由任何合适的系统生成任何合适的手势输入的任何合适的自动完成。

在特定实施例中，助理系统可以从与第一用户相关联的客户端系统接收来自第一用户的用户输入。用户输入可以包括由第一用户执行的不完整手势。在特定实施例中，助理系统可以通过意图理解模块计算对应于不完整手势的一个或更多个意图的一个或更多个置信度分数。助理系统然后可以确定与每个意图相关联的所计算的置信度分数低于阈值分数。在特定实施例中，响应于确定每个意图的所计算的置信度分数低于阈值分数，助理系统可以基于个性化手势识别模型从多个预定义手势中选择一个或更多个候选手势。每个候选手势可以与表示第一用户打算输入相应候选手势的可能性的置信度分数相关联。在特定实施例中，助理系统还可以向客户端系统发送用于呈现对应于一个或更多个候选手势的一个或更多个建议输入的指令。

为了实现建议多模态用户输入以进行自动完成的目标，存在某些技术挑战。一个技术挑战可以包括基于初始输入确定候选延续输入。由本文公开的实施例提出的解决上述挑战的解决方案是基于初始输入的意图和与该意图相关的潜在实体或者与初始输入相关联的对象来确定候选延续输入，因为这样的信息对于确定用户可以使用什么延续输入来与助理系统交互以执行基于该意图和实体或者对象的任务可能是必要的。另一个技术挑战可以包括确定用户需要建议输入。由本文公开的实施例提出的解决该挑战的解决方案是基于不同因素来确定是否建议候选延续输入，这些不同因素包括唤醒输入、凝视信息、上下文信息和意图，因为这样的信息可以从不同的角度揭示用户对帮助的需求。

本文公开的某些实施例可以提供一个或更多个技术优势。实施例的技术优势可以包括丰富了用户对助理系统的体验，因为用户可以用各种模态的输入与助理系统交互。实施例的另一个技术优势可以包括通过用建议的输入序列引导用户探索用户可以请求帮助的各种任务来提高用户参与助理系统的程度。本文公开的某些实施例可以不提供、提供一些或全部上述技术优势。鉴于本公开的附图、说明书和权利要求，一个或更多个其他技术优势对于本领域技术人员来说可以是显而易见的。

要实现建议候选手势以进行自动完成的目标，存在某些技术挑战。一个技术挑战包括确定候选手势相对于不完整手势的相似度(similarity level)。由本文公开的实施例提出的解决上述挑战的解决方案是基于不同的因素来确定相似度，这些因素包括与不完整手势相关联的轨迹、取向、对象、上下文信息和位置，因为这样的信息可以为助理系统计算相似度提供不同的信息提示(informative cue)。另一个技术挑战包括确定用户需要手势的建议输入。由本文公开的实施例提出的解决该挑战的解决方案是基于不同因素确定是否建议候选手势，这些不同的因素包括意图的置信度分数、唤醒手势、不完整手势的时间信息、不完整手势的速度以及不完整手势的模式，因为这样的信息可以从不同的角度揭示用户对帮助的需求。

本文公开的某些实施例可以提供一个或更多个技术优势。实施例的技术优势可以包括改善用户对助理系统的体验，因为助理系统可以基于不完整手势来理解用户的意图，并且教导用户完成不完整的手势来与助理系统交互。实施例的另一个技术优势可以包括通过用建议的手势序列引导用户探索用户可以请求帮助的各种任务来提高用户参与助理系统的程度。本文公开的某些实施例可以不提供、提供一些或全部上述技术优势。鉴于本公开的附图、说明书和权利要求，一个或更多个其他技术优点对于本领域技术人员来说可以是显而易见的。

本文公开的实施例仅仅是示例，并且本公开的范围不限于它们。特定实施例可以包括本文公开的实施例的部件、元件、特征、功能、操作或步骤中的全部、一些或没有一个被包括。根据本发明的实施例在涉及方法、存储介质、系统、助理系统和计算机程序产品的所附权利要求中被具体公开，其中，在一个权利要求类别(例如，方法)中提到的任何特征也可以在另一个权利要求类别(例如，系统)中被要求保护。在所附权利要求中的从属性或往回引用仅为了形式原因而被选择。然而，也可以要求保护由对任何前面的权利要求的有意往回引用(特别是多项引用)而产生的任何主题，使得权利要求及其特征的任何组合被公开并且可被要求保护，而不考虑在所附权利要求中选择的从属性。可以被要求保护的主题不仅包括如在所附权利要求中阐述的特征的组合，而且还包括在权利要求中的特征的任何其他组合，其中，在权利要求中提到的每个特征可以与在权利要求中的任何其他特征或其他特征的组合相结合。此外，本文描述或描绘的实施例和特征中的任一个可以在单独的权利要求中和/或以与本文描述或描绘的任何实施例或特征的任何组合或以与所附权利要求的任何特征的任何组合被要求保护。

在实施例中，一种方法，特别地用于在助理系统中使用的方法，用于通过使用户能够在会话中利用用户输入与该助理系统交互以获取帮助，来帮助用户获得信息或服务，其中用户输入包括声音、文本、图像、视频、运动或取向或它们的任意组合，该助理系统特别地通过计算设备、应用编程接口(API)、以及用户设备上应用激增的组合来实现，该方法可以包括由一个或更多个计算系统：

从与第一用户相关联的客户端系统接收包括由第一用户执行的不完整手势的用户输入；

由意图理解模块计算对应于不完整手势的一个或更多个意图的一个或更多个置信度分数；

确定与每个意图相关联的所计算的置信度分数低于阈值分数；

响应于确定每个意图的所计算的置信度分数低于阈值分数，基于个性化手势识别模型，从多个预定义手势中选择一个或更多个候选手势，其中每个候选手势与表示第一用户打算输入相应候选手势的可能性的置信度分数相关联；以及

向客户端系统发送用于呈现对应于一个或更多个候选手势的一个或更多个建议输入的指令。

在实施例中，一种方法可以包括：

对于一个或更多个候选手势中的每一个，计算该候选手势相对于不完整手势的相似度。

每个候选手势相对于不完整手势的相似度可以基于不完整手势相对于客户端系统的轨迹。

每个候选手势相对于不完整手势的相似度可以基于不完整手势相对于客户端系统的取向。

每个候选手势相对于不完整手势的相似度可以基于与不完整手势相关联的对象。

每个候选手势相对于不完整手势的相似度可以基于与不完整手势相关联的上下文信息。

每个候选手势相对于不完整手势的相似度可以基于不完整手势相对于客户端系统的位置。

阈值分数可以基于由第一用户执行的唤醒手势。

计算对应于不完整手势的一个或更多个意图的一个或更多个置信度分数可以基于与不完整手势相关联的速度。

计算对应于不完整手势的一个或更多个意图的一个或更多个置信度分数可以基于与不完整手势相关联的时间信息，并且其中该时间信息包括用户输入中的暂停。

在实施例中，一种方法可以包括：

从客户端系统接收来自第一用户的用户选择的输入，其中该用户选择的输入包括建议输入之一；以及

基于用户选择的输入执行一个或更多个任务。

选择一个或更多个候选手势可以基于一个或更多个意图。

每个预定义手势可以包括指向(point)、戳(poke)、轻击(tap)、挥动(wave)或滑动(swipe)中的一个或更多个。

在实施例中，一种方法可以包括：

从客户端系统接收来自第一用户的第一用户选择的输入，其中该第一用户选择的输入包括建议输入之一，并且其中该第一用户选择的输入与第一意图相关联；

基于第一用户选择的输入，生成一个或更多个附加候选手势，其中该一个或更多个附加候选手势中的每一个都与第一意图相关联；

向客户端系统发送用于呈现对应于一个或更多个附加候选手势的一个或更多个附加建议输入的指令；

从客户端系统接收来自第一用户的第二用户选择的输入，其中该第二用户选择的输入包括附加建议输入之一；以及

基于第二用户选择的输入执行一个或更多个任务。

不完整手势可以包括用户手的暂停移动、张开的用户手在空中暂停、用户手势的开始(onset)中的一个或更多个，该不完整手势可以指示用户还没有完成整个手势。

客户端系统可以是虚拟现实(VR)头戴式装置和/或增强现实(AR)智能眼镜。

客户端系统可以从包括一个或更多个传感器的I/O设备接收用户输入。

I/O设备可以包括键盘、小键盘、麦克风、监视器、鼠标、打印机、扫描仪、扬声器、静态照相机、触笔、平板计算机、触摸屏、跟踪球、摄像机、另一个合适的I/O设备、或这些中的两个或更多个的组合。

意图理解模块可以包括自然语言理解模块和手势分类模型。

手势分类模型可以包括被离线训练以识别用户执行的不同类别手势的机器学习模型。

手势分类模型可以基于卷积神经网络、张量流(tensor flow)或隐马尔可夫模型(hidden Markov model)中的一个或更多个。

在实施例中，一个或更多个计算机可读非暂时性存储介质可以体现软件，该软件在被执行时可操作来：

该软件在被执行时可操作来：

在实施例中，一种系统可以包括：一个或更多个处理器；和耦合到该处理器的非暂时性存储器，该非暂时性存储器包括由处理器能够执行的指令，处理器在执行指令时可操作来：

在实施例中，一个或更多个计算机可读非暂时性存储介质可以体现软件，该软件在被执行时可操作来执行根据本发明或任何上面提到的实施例的方法。

在实施例中，一种系统可以包括：一个或更多个处理器；以及耦合到处理器并包括处理器可执行的指令的至少一个存储器，处理器当执行指令时可操作来执行根据本发明或任何上面提到的实施例的方法。

在实施例中，优选地包括计算机可读非暂时性存储介质的计算机程序产品当在数据处理系统上被执行时可操作来执行根据本发明或任何上面提到的实施例的方法。

在实施例中，一种助理系统用于通过使用户能够在会话中利用用户输入与该助理系统交互以获取帮助，来帮助用户获得信息或服务，其中用户输入包括声音、文本、图像、视频、运动或取向或它们的任意组合，该助理系统特别地通过计算设备、应用编程接口(API)、以及用户设备上应用激增的组合来实现，该系统可以包括：一个或更多个处理器；以及耦合到处理器的非暂时性存储器，该存储器包括处理器可执行的指令，该处理器在执行指令时可操作来执行根据本发明或任何上面提到的实施例的方法。

在实施例中，助理系统可以通过执行以下特征或步骤中的至少一个或更多个来帮助用户：

-创建并存储包括与用户相关联的个人和上下文信息的用户简档

-使用意图理解模块分析用户输入，其中该意图理解模块可以包括自然语言理解模块和手势分类模型

-使用自然语言理解来分析用户输入，其中分析可以基于用户简档，用于更个性化和上下文感知的理解

-基于分析解析与用户输入相关联的实体

-与不同的代理交互，以获得与解析的实体相关联的信息或服务

-通过使用自然语言生成为用户生成关于信息或服务的响应

-通过与用户的交互，使用对话管理技术来管理和转发与用户的会话流

-通过汇总信息，帮助用户有效和高效地消化获得的信息

-通过提供帮助用户与在线社交网络交互(例如，创建帖子、评论、消息)的工具，帮助用户更好地参与在线社交网络

-帮助用户管理不同的任务，如持续跟踪事件

-在与用户相关的时间，基于用户简档，在没有用户输入的情况下，主动执行与用户兴趣和偏好相关的预授权任务

-在必要时检查隐私设置，以确保访问用户简档和执行不同的任务都符合用户的隐私设置。

在实施例中，助理系统可以包括以下部件中的至少一个或更多个：

-消息传递平台，其用于从与用户相关联的客户端系统接收基于文本模态的用户输入和/或接收基于图像或视频模态的用户输入并在该消息传递平台内使用光学字符识别技术对基于图像或视频模态的该用户输入进行处理，以将该用户输入转换成文本，

-音频语音识别(ASR)模块，其用于从与用户相关联的客户端系统接收基于音频模态的用户输入(例如，用户可以对包括语音的视频说话或者发送包括语音的视频)，并将基于音频模态的用户输入转换成文本，

-助理xbot，其用于接收消息传递平台或ASR模块的输出。

在实施例中，一种系统可以包括：

至少一个客户端系统，特别是电子设备，

根据本发明或本文任何实施例的至少一个助理系统，

该客户端系统和该助理系统特别地通过网络彼此连接，

其中，客户端系统包括用于允许该客户端系统的用户与助理系统交互的助理应用，

其中，助理应用将用户输入传送给助理系统，并且基于该用户输入，助理系统生成响应并将所生成的响应发送给助理应用，并且助理应用向客户端系统的用户呈现该响应，

其中特别地，用户输入是音频或口头的，并且响应可以是文本或者也可以是音频或口头的。

在实施例中，一种系统可以包括社交网络系统，

其中，客户端系统特别地包括用于访问该社交网络系统的社交网络应用。

附图简述

图1示出了与助理系统相关联的示例网络环境。

图2示出了助理系统的示例架构。

图3示出了助理系统响应用户请求的示例流程图。

图4示出了处理包括手势输入的用户输入的示例工作流程。

图5示出了多模态用户输入的自动完成的示例场景。

图6示出了手势输入的自动完成的示例场景。

图7A示出了AR/VR设置中不完整手势的示例场景。

图7B示出了AR/VR设置中建议手势输入的示例场景。

图8示出了用于建议多模态用户输入以进行自动完成的示例方法。

图9示出了用于建议候选手势以进行自动完成的示例方法。

图10示出了示例社交图。

图11示出了嵌入空间的示例视图。

图12示出了示例人工神经网络。

图13示出了示例计算机系统。

示例实施例的描述

系统综述

图1示出了与助理系统相关联的示例网络环境100。网络环境100包括通过网络110彼此连接的客户端系统130、助理系统140、社交网络系统160和第三方系统170。尽管图1示出了客户端系统130、助理系统140、社交网络系统160、第三方系统170和网络110的特定布置，但是本公开设想了客户端系统130、助理系统140、社交网络系统160、第三方系统170和网络110的任何合适的布置。作为示例而非限制，客户端系统130、社交网络系统160、助理系统140和第三方系统170中的两个或更多个可以绕过网络110彼此直接连接。作为另一个示例，客户端系统130、助理系统140、社交网络系统160和第三方系统170中的两个或更多个可以全部或部分地在物理上或逻辑上彼此位于同一位置。此外，尽管图1示出了特定数量的客户端系统130、助理系统140、社交网络系统160、第三方系统170和网络110，但是本公开设想了任何合适数量的客户端系统130、助理系统140、社交网络系统160、第三方系统170和网络110。作为示例而非限制，网络环境100可以包括多个客户端系统130、助理系统140、社交网络系统160、第三方系统170和网络110。

本公开设想了任何合适的网络110。作为示例而非限制，网络110的一个或更多个部分可以包括自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、互联网的一部分、公共交换电话网(PSTN)的一部分、蜂窝电话网、或这些中的两个或更多个的组合。网络110可以包括一个或更多个网络110。

链路150可以将客户端系统130、助理系统140、社交网络系统160和第三方系统170连接到通信网络110或连接到彼此。本公开设想了任何合适的链路150。在特定实施例中，一个或更多个链路150包括一个或更多个有线链路(例如数字用户线路(DSL)或有线电缆数据服务接口规范(DOCSIS))、无线链路(例如Wi-Fi或全球互通微波接入(WiMAX))、或光链路(例如同步光网络(SONET)或同步数字体系(SDH))。在特定实施例中，一个或更多个链路150各自包括自组织网络、内联网、外联网、VPN、LAN、WLAN、WAN、WWAN、MAN、互联网的一部分、PSTN的一部分、基于蜂窝技术的网络、基于卫星通信技术的网络、另一链路150、或两个或更多个这种链路150的组合。链路150不需要在整个网络环境100中一定是相同的。一个或更多个第一链路150可以在一个或更多个方面上不同于一个或更多个第二链路150。

在特定实施例中，客户端系统130可以是一种电子设备，该电子设备包括硬件、软件或嵌入式逻辑部件、或两个或更多个这样的部件的组合，并且能够执行由客户端系统130实现或支持的适当功能。作为示例而非限制，客户端系统130可以包括计算机系统，如台式计算机、笔记本或膝上型计算机、上网本、平板计算机、电子书阅读器、GPS设备、照相机、个人数字助理(PDA)、手持电子设备、蜂窝电话、智能手机、智能扬声器、虚拟现实(VR)头戴式装置、增强现实(AR)智能眼镜、其他合适的电子设备或它们任何合适的组合。在特定实施例中，客户端系统130可以是智能助理设备。关于智能助理设备的更多信息可以在2018年4月9日提交的美国专利申请第15/949011号、2018年4月10日提交的美国专利申请第62/655751号、2018年1月3日提交的美国外观设计专利申请第29/631910号、2018年1月2日提交的美国外观设计专利申请第29/631747号、2018年1月3日提交的美国外观设计专利申请第29/631913号和2018年1月3日提交的美国外观设计专利申请第29/631914号中找到，这些专利申请中的每一个通过引用并入。本公开设想了任何合适的客户端系统130。客户端系统130可以使在客户端系统130处的网络用户能够访问网络110。客户端系统130可以使它的用户能够与在其他客户端系统130处的其他用户进行通信。

在特定实施例中，客户端系统130可以包括web浏览器132，例如MICROSOFTINTERNET EXPLORER、GOOGLE CHROME或MOZILLA FIREFOX，并且可以具有一个或更多个附加件、插件或其他扩展件，例如TOOLBAR或YAHOO TOOLBAR。在客户端系统130处的用户可以输入统一资源定位符(URL)或将web浏览器132引导到特定的服务器(例如服务器162或与第三方系统170相关联的服务器)的其他地址，并且web浏览器132可以生成超文本传输协议(HTTP)请求并将HTTP请求传递到服务器。服务器可以接受HTTP请求，并响应于HTTP请求而向客户端系统130传递一个或更多个超文本标记语言(HTML)文件。客户端系统130可以基于来自服务器的HTML文件来显现web界面(例如网页)用于呈现给用户。本公开设想了任何合适的源文件。作为示例而非限制，可以根据特定的需要根据HTML文件、可扩展超文本标记语言(XHTML)文件或可扩展标记语言(XML)文件来显现web界面。这样的界面还可以执行脚本，诸如例如且没有限制地，用JAVASCRIPT、JAVA、MICROSOFT SILVERLIGHT编写的脚本、标记语言和脚本的组合(例如AJAX(异步JAVASCRIPT和XML))等。在本文，在适当的情况下，对web界面的引用包括一个或更多个相应的源文件(浏览器可以使用这些源文件来显现web界面)，反之亦然。

在特定实施例中，客户端系统130可以包括安装在客户端系统130上的社交网络应用134。客户端系统130处的用户可以使用社交网络应用134来访问在线社交网络。客户端系统130处的用户可以使用社交网络应用134来与用户的社交关连(connection)(例如，朋友、关注者(follower)、关注账户、联系人等)进行通信。客户端系统130处的用户还可以使用社交网络应用134来与在线社交网络上的多个内容对象(例如，帖子、新闻文章、临时内容等)交互。作为示例而非限制，用户可以使用社交网络应用134浏览热门话题和突发新闻。

在特定实施例中，客户端系统130可以包括助理应用136。客户端系统130的用户可以使用助理应用136来与助理系统140交互。在特定实施例中，助理应用136可以包括独立的应用。在特定实施例中，助理应用136可以被集成到社交网络应用134或另一个合适的应用(例如，消息传递应用)中。在特定实施例中，助理应用136也可以集成到客户端系统130、助理硬件设备或任何其他合适的硬件设备中。在特定实施例中，可以经由web浏览器132访问助理应用136。在特定实施例中，用户可以经由不同的模态提供输入。作为示例而非限制，模态可以包括音频、文本、图像、视频、运动、取向等。助理应用136可以将用户输入传送给助理系统140。基于用户输入，助理系统140可以生成响应。助理系统140可以将生成的响应发送给助理应用136。然后，助理应用136可以向客户端系统130的用户呈现响应。所呈现的响应可以基于不同的模态，如音频、文本、图像和视频。作为示例而非限制，用户可以口头向助理应用136询问交通信息(即，经由音频模态)。然后，助理应用136可以将请求传送给助理系统140。助理系统140可以相应地生成结果并将其发送回助理应用136。助理应用136还可以以文本向用户呈现结果。

在特定实施例中，助理系统140可以帮助用户从不同的源检索信息。助理系统140还可以帮助用户向不同的服务提供者请求服务。在特定实施例中，助理系统140可以经由客户端系统130中的助理应用136接收用户对信息或服务的请求。助理系统140可以使用自然语言理解来基于用户简档和其他相关信息分析用户请求。分析的结果可以包括与在线社交网络相关联的不同实体。然后，助理系统140可以检索信息或请求与这些实体相关联的服务。在特定实施例中，当为用户检索信息或请求服务时，助理系统140可以与社交网络系统160和/或第三方系统170交互。在特定实施例中，助理系统140可以使用自然语言生成技术为用户生成个性化的通信内容。个性化通信内容可以包括例如检索到的信息或所请求服务的状态。在特定实施例中，助理系统140可以使用户能够通过使用对话管理技术来在有状态和多轮会话中与它进行关于信息或服务的交互。在下面图2的讨论中更详细地描述了助理系统140的功能。

在特定实施例中，社交网络系统160可以是可以托管在线社交网络的网络可寻址计算系统。社交网络系统160可以生成、存储、接收并发送社交网络数据(诸如例如，用户简档数据、概念简档数据、社交图信息或与在线社交网络相关的其他合适的数据)。社交网络系统160可以由网络环境100的其他部件直接地或经由网络110来访问。作为示例而非限制，客户端系统130可以使用web浏览器132或与社交网络系统160相关联的原生(native)应用(例如，移动社交网络应用、消息传递应用、另一合适的应用或其任何组合)直接地或经由网络110来访问社交网络系统160。在特定实施例中，社交网络系统160可以包括一个或更多个服务器162。每个服务器162可以是单一服务器(unitary server)或跨越多台计算机或多个数据中心的分布式服务器。服务器162可以具有各种类型，例如且没有限制，web服务器、新闻服务器、邮件服务器、消息服务器、广告服务器、文件服务器、应用服务器、交换服务器、数据库服务器、代理服务器、适合于执行本文描述的功能或过程的另一服务器、或者其任何组合。在特定实施例中，每个服务器162可以包括硬件、软件或嵌入式逻辑组件、或用于执行由服务器162实现或支持的适当功能的两个或更多个这样的组件的组合。在特定实施例中，社交网络系统160可以包括一个或更多个数据储存器164。数据储存器164可以用于存储各种类型的信息。在特定实施例中，可以根据特定的数据结构来组织存储在数据储存器164中的信息。在特定实施例中，每个数据储存器164可以是关系数据库、纵列(columnar)数据库、相关性数据库或其他合适的数据库。尽管本公开描述或示出了特定类型的数据库，但是本公开设想了任何合适类型的数据库。特定实施例可以提供使客户端系统130、社交网络系统160、助理系统140或第三方系统170能够管理、检索、修改、添加或删除存储在数据储存器164中的信息的接口。

在特定实施例中，社交网络系统160可以在一个或更多个数据储存器164中存储一个或更多个社交图。在特定实施例中，社交图可以包括多个节点——其可以包括多个用户节点(各自对应于特定用户)或多个概念节点(各自对应于特定概念)——以及连接节点的多条边。社交网络系统160可以向在线社交网络的用户提供与其他用户通信和交互的能力。在特定实施例中，用户可以经由社交网络系统160加入在线社交网络，且然后添加与社交网络系统160中的他们想要关连到的多个其他用户的关连(例如，关系)。在本文，术语“朋友”可以指用户经由社交网络系统160与其形成关连、关联(association)或关系的社交网络系统160的任何其他用户。

在特定实施例中，社交网络系统160可以向用户提供对由社交网络系统160支持的各种类型的项目或对象采取动作的能力。作为示例而非限制，项目和对象可以包括社交网络系统160的用户可以属于的群组或社交网络、用户可能感兴趣的事件或日历条目、用户可以使用的基于计算机的应用、允许用户经由服务来购买或销售商品的交易、用户可以执行的与广告的交互、或其他合适的项目或对象。用户可以与能够在社交网络系统160中或者由第三方系统170的外部系统表示的任何事物进行交互，第三方系统170与社交网络系统160分离并且经由网络110耦合到社交网络系统160。

在特定实施例中，社交网络系统160能够链接各种实体。作为示例而非限制，社交网络系统160可以使用户能够彼此交互以及从第三方系统170或其他实体接收内容，或者允许用户通过应用编程接口(API)或其他通信渠道与这些实体交互。

在特定实施例中，第三方系统170可以包括一种或更多种类型的服务器、一个或更多个数据储存器、一个或更多个接口(包括但不限于API)、一个或更多个web服务、一个或更多个内容源、一个或更多个网络或任何其他合适的部件(例如，服务器可以与这些部件通信)。第三方系统170可以由与操作社交网络系统160的实体不同的实体进行操作。然而，在特定实施例中，社交网络系统160和第三方系统170可以结合彼此来操作以向社交网络系统160或第三方系统170的用户提供社交网络服务。在这个意义上，社交网络系统160可以提供平台或骨干网，其他系统(例如第三方系统170)可以使用该平台或骨干网来在整个互联网上向用户提供社交网络服务和功能。

在特定实施例中，第三方系统170可以包括第三方内容对象提供者。第三方内容对象提供者可以包括可以被传递到客户端系统130的内容对象的一个或更多个源。作为示例而非限制，诸如，内容对象可以包括关于用户感兴趣的事情或活动的信息，例如电影放映时间、电影评论、餐馆评论、餐馆菜单、产品信息和评论或其他合适的信息。作为另一示例而非限制，内容对象可以包括激励内容对象(例如优惠券、折扣券、礼品券或其他合适的激励对象)。

在特定实施例中，社交网络系统160还包括用户生成的内容对象，其可以增强用户与社交网络系统160的交互。用户生成的内容可以包括用户可以添加、上传、发送或“发布”到社交网络系统160的任何内容。作为示例而非限制，用户将帖子从客户端系统130传送到社交网络系统160。帖子可以包括数据，例如状态更新或其他文本数据、位置信息、照片、视频、链接、音乐或其他类似数据或媒体。内容还可以由第三方通过“通信渠道”(例如动态消息或流)来添加到社交网络系统160。

在特定实施例中，社交网络系统160可以包括各种服务器、子系统、程序、模块、日志和数据储存器。在特定实施例中，社交网络系统160可以包括下列项中的一个或更多个：web服务器、动作记录器、API请求服务器、相关性和排序引擎、内容对象分类器、通知控制器、动作日志、第三方内容对象暴露日志、推理模块、授权/隐私服务器、搜索模块、广告定位模块(advertisement-targeting module)、用户界面模块、用户简档储存器、关连储存器、第三方内容储存器或位置储存器。社交网络系统160还可以包括合适的部件，如网络接口、安全机构、负载平衡器、故障转移服务器、管理和网络操作控制台、其他合适的部件、或其任何合适的组合。在特定实施例中，社交网络系统160可以包括用于存储用户简档的一个或更多个用户简档储存器。用户简档可以包括例如，传记信息、人口统计信息、行为信息、社交信息或其他类型的描述性信息(例如工作经历、教育历史、爱好或偏好、兴趣、亲和性或位置)。兴趣信息可以包括与一个或更多个类别相关的兴趣。类别可以是一般的或特定的。作为示例而非限制，如果用户“赞(like)”关于一种品牌的鞋的文章，则该类别可以是品牌，或者“鞋”或“衣服”的一般类别。关连储存器可以用于存储关于用户的关连信息。关连信息可以指示具有相似或共同的工作经历、组成员资格、爱好、教育历史或者以任何方式相关或共享共同属性的用户。关连信息还可以包括在不同用户和内容(内部和外部)之间的用户定义的关连。web服务器可以用于经由网络110将社交网络系统160链接到一个或更多个客户端系统130或一个或更多个第三方系统170。web服务器可以包括邮件服务器或用于在社交网络系统160和一个或更多个客户端系统130之间接收并路由(routing)消息的其他消息传递功能。API请求服务器可以允许助理系统140和第三方系统170通过调用一个或更多个API来访问来自社交网络系统160的信息。动作记录器可以用于从web服务器接收关于用户在社交网络系统160上或之外的动作的通信。结合动作日志，可以维护用户暴露于第三方内容对象的第三方内容对象日志。通知控制器可以向客户端系统130提供关于内容对象的信息。信息可以作为通知被推送到客户端系统130，或者信息可以响应于从客户端系统130接收的请求而从客户端系统130中被拉取。授权服务器可以用于实施社交网络系统160的用户的一个或更多个隐私设置。用户的隐私设置确定与用户相关联的特定信息可以如何被分享。授权服务器可以诸如例如通过设置适当的隐私设置来允许用户选择加入或选择退出使他们的动作由社交网络系统160记录或者与其他系统(例如，第三方系统170)共享。第三方内容对象储存器可以用于存储从第三方(例如第三方系统170)接收的内容对象。位置储存器可以用于存储从与用户相关联的客户端系统130接收的位置信息。广告定价模块可以组合社交信息、当前时间、位置信息或其他合适的信息以用通知的形式向用户提供相关广告。

助理系统

图2示出了助理系统140的示例架构。在特定实施例中，助理系统140可以帮助用户获得信息或服务。助理系统140可以使用户能够在有状态和多轮会话中用多模态用户输入(如声音、文本、图像、视频、运动、取向)与其进行交互，以获得帮助。助理系统140可以创建和存储包括与用户相关联的个人信息和上下文信息的用户简档。在特定实施例中，助理系统140可以使用自然语言理解来分析用户输入。分析可以基于用户简档，以获得更个性化和上下文感知的理解。助理系统140可以基于分析来解析与用户输入相关联的实体。在特定实施例中，助理系统140可以与不同的代理交互，以获得与解析的实体相关联的信息或服务。助理系统140可以通过使用自然语言生成来为用户生成关于信息或服务的响应。通过与用户的交互，助理系统140可以使用对话管理技术来管理和转发与用户的会话流。在特定实施例中，助理系统140还可以通过汇总信息来帮助用户有效和高效地消化所获得的信息。助理系统140还可以通过提供帮助用户与在线社交网络交互(例如，创建帖子、评论、消息)的工具，来帮助用户更好地参与在线社交网络。助理系统140另外可以帮助用户管理不同的任务，如持续跟踪事件。在特定实施例中，助理系统140可以在与用户相关的时间，而没有用户输入的情况下，基于用户简档主动执行与用户兴趣和偏好相关的预授权任务。在特定实施例中，助理系统140可以检查隐私设置，以确保根据用户的隐私设置来允许访问用户的简档或其他用户信息以及执行不同的任务。关于根据隐私设置来帮助用户的更多信息可以在2018年5月22日提交的美国专利申请第62/675090号中找到，该专利申请通过引用并入。

在特定实施例中，助理系统140可以从与用户相关联的客户端系统130中的助理应用136接收用户输入。在特定实施例中，用户输入可以是用户生成的输入，其在单轮中被发送到助理系统140。如果用户输入基于文本模态，则助理系统140可以在消息传递平台205接收它。如果用户输入基于音频模态(例如，用户可以对助理应用136说话或者向助理应用136发送包括语音的视频)，则助理系统140可以使用自动语音识别(ASR)模块210对其进行处理，以将用户输入转换成文本。如果用户输入基于图像或视频模态，则助理系统140可以使用消息传递平台205内的光学字符识别技术对其进行处理，以将用户输入转换成文本。消息传递平台205或ASR模块210的输出可以在助理xbot 215处接收。关于处理基于不同模态的用户输入的更多信息可以在2018年8月2日提交的美国专利申请第16/053600号中找到，该专利申请通过引用并入。

在特定实施例中，助理xbot 215可以是一种类型的聊天机器人(chat bot)。助理xbot 215可以包括可编程服务通道，可编程服务通道可以是用作用户个人助理的软件代码、逻辑或例程(routine)。助理xbot 215可以作为助理系统140的用户门户。因此，助理xbot 215可以被认为是一种类型的会话代理。在特定实施例中，助理xbot 215可以将文本用户输入发送到自然语言理解(NLU)模块220，以解释用户输入。在特定实施例中，NLU模块220可以从用户上下文引擎225和语义信息聚合器(semantic information aggregator,SIA)230获得信息，以准确理解用户输入。用户上下文引擎225可以存储用户的用户简档。用户的用户简档可以包括用户简档数据，该用户简档数据包括与用户相关联的人口统计信息、社交信息和上下文信息。用户简档数据还可以包括通过动态消息、搜索日志、消息传递平台205等上的会话聚合的用户对多个主题的兴趣和偏好。用户简档的使用可以被隐私检查模块245保护，以确保用户的信息只能用于他/她的利益，而不与任何其他人共享。关于用户简档的更多信息可以在2018年4月30日提交的美国专利申请第15/967239号中找到，该专利申请通过引用并入。语义信息聚合器230可以向NLU模块220提供与多个预定义的域(domain)、意图(intent)和槽(slot)相关联的本体数据(ontology data)。在特定实施例中，域可以表示交互的社交背景，例如，教育。意图可以是语义意图的预定义分类中的元素，其可以指示用户与助理系统140交互的目的。在特定实施例中，如果用户输入包括文本/语音输入，则意图可以是NLU模块220的输出。NLU模块220可以将文本/语音输入分类为预定义分类的成员，例如，对于输入“播放贝多芬的第五交响乐”，NLU模块220可以将输入分类为具有意图[IN:播放_音乐]。在特定实施例中，域可以在概念上是意图集合的命名空间，例如，音乐。槽可以是具有用户输入的命名子串，表示基本语义实体。例如，“比萨饼”的槽可以是[SL：盘子]。在特定实施例中，有效或预期命名槽的集合可以基于分类的意图。作为示例而非限制，对于[IN：播放_音乐]，槽可以是[SL：歌曲_名称]。语义信息聚合器230还可以从社交图、知识图和概念图中提取信息，并从用户上下文引擎225检索用户简档。语义信息聚合器230还可以通过确定聚合什么信息、注释用户输入的n-gram(n元文法)、基于聚合的信息用置信度分数对n-gram进行排序、将排序的n-gram公式化为可以被NLU模块220用于理解用户输入的特征来处理来自这些不同源的信息。关于聚合语义信息的更多信息可以在2018年4月30日提交的美国专利申请第15/967342号中找到，该专利申请通过引用并入。基于用户上下文引擎225和语义信息聚合器230的输出，NLU模块220可以以个性化和上下文感知的方式从用户输入中识别域、意图和一个或更多个槽。作为示例而非限制，用户输入可以包括“告诉我如何去星巴克(show me how to get to the Starbucks)”。NLU模块220可以基于用户的个人信息和相关联的上下文信息来识别用户想要去的特定星巴克。在特定实施例中，NLU模块220可以包括语言词典(lexicon of language)、语法分析器(parser)和语法规则，以将句子划分成内部表示。NLU模块220还可以包括一个或更多个程序，该程序使用语用学(pragmatics)来执行朴素(naive)语义或随机语义分析，以理解用户输入。在特定实施例中，语法分析器可以基于包括多个长短期记忆(LSTM)网络的深度学习架构。作为示例而非限制，语法分析器可以基于循环神经网络文法(RNNG)模型，这是一种类型的递归和循环LSTM算法。关于自然语言理解的更多信息可以在2018年6月18日提交的美国专利申请第16/011062号、2018年7月2日提交的美国专利申请第16/025317号、和2018年7月17日提交的美国专利申请第16/038120号中找到，这些专利申请中的每一个通过引用并入。

在特定实施例中，来自NLU模块220的所识别的域、意图和一个或更多个槽可以被发送到对话引擎235。在特定实施例中，对话引擎235可以管理用户与助理xbot 215之间的会话流和对话状态。对话引擎235另外可以存储用户和助理xbot 215之间的先前会话。在特定实施例中，对话引擎235可以与实体解析模块240通信，以解析与一个或更多个槽相关联的实体，这支持对话引擎235转发用户和助理xbot 215之间的会话流。在特定实施例中，实体解析模块240可以在解析实体时访问社交图、知识图和概念图。实体可以包括例如独特的用户或概念，每个用户或概念可以具有唯一的标识符(ID)。作为示例而非限制，知识图可以包括多个实体。每个实体可以包括与一个或更多个属性值相关联的单个记录。特定记录可以与唯一的实体标识符相关联。对于实体的一个属性，每个记录可以有不同的值。每个属性值可以与置信度概率相关联。属性值的置信度概率表示该值对于给定属性是准确的概率。每个属性值也可以与语义权重相关联。属性值的语义权重可以表示考虑到所有可用信息该值在语义上适合给定属性的程度。例如，知识图可以包括电影“火星救援(The Martian)”(2015年)的实体，该实体包括已经从多个内容源(例如，Facebook、Wikipedia、电影评论源、媒体数据库和娱乐内容源)提取、并且然后被去重(deduped)、解析和融合以生成知识图的单个唯一记录的信息。实体可以与指示电影“火星救援”(2015年)的类型(genre)的空间属性值相关联。关于知识图的更多信息可以在2018年7月27日提交的美国专利申请第16/048049号和2018年7月27日提交的美国专利申请第16/048101号中找到，这些专利申请中的每一个通过引用并入。实体解析模块240另外可以从用户上下文引擎225请求与用户输入相关联的用户的用户简档。在特定实施例中，实体解析模块240可以与隐私检查模块245通信，以保证实体的解析不违反隐私策略。在特定实施例中，隐私检查模块245可以使用授权/隐私服务器来实施隐私策略。作为示例而非限制，待解析的实体可以是在他/她的隐私设置中指定他/她的身份不应该在在线社交网络上可搜索的另一个用户，因此实体解析模块240可以响应于请求而不返回该用户的标识符。基于从社交图、知识图、概念图和用户简档获得的信息，并遵循适用的隐私策略，实体解析模块240因此可以以个性化和上下文感知的方式准确地解析与用户输入相关联的实体。在特定实施例中，每个解析的实体可以与由社交网络系统160托管的一个或更多个标识符相关联。作为示例而非限制，标识符可以包括唯一的用户标识符(ID)。在特定实施例中，每个解析的实体也可以与置信度分数相关联。关于解析实体的更多信息可以在2018年7月27日提交的美国专利申请第16/048049号和2018年7月27日提交的美国专利申请第16/048072号中找到，这些专利申请中的每一个通过引用并入。

在特定实施例中，对话引擎235可以基于所识别的意图和域以及所解析的实体与不同的代理通信。在特定实施例中，代理可以是充当一个域的多个内容提供者之间的中介者(broker)的一种实现。内容提供者可以是负责执行与意图相关联的动作或完成与意图相关联的任务的实体。作为示例而非限制，多个特定于设备的实现(例如，对客户端系统130的或客户端系统130上的消息传递应用的实时调用)可以由单个代理在内部处理。可替代地，这些特定于设备的实现可以由与多个域相关联的多个代理来处理。在特定实施例中，代理可以包括第一方代理250和第三方代理255。在特定实施例中，第一方代理250可以包括可由助理系统140访问和控制的内部代理(例如，与在线社交网络提供的服务相关联的代理(Messenger、Instagram))。在特定实施例中，第三方代理255可以包括助理系统140不能控制的外部代理(例如，音乐流代理(声田(Spotify))、门票销售代理(Ticketmaster))。第一方代理250可以与第一方提供者260相关联，该第一方提供者260提供由社交网络系统160托管的内容对象和/或服务。第三方代理255可以与第三方提供者265相关联，该第三方提供者265提供由第三方系统170托管的内容对象和/或服务。

在特定实施例中，从对话引擎235到第一方代理250的通信可以包括请求由第一方提供者260提供的特定内容对象和/或服务。因此，第一方代理250可以从第一方提供者260检索所请求的内容对象和/或执行命令第一方提供者260执行所请求服务的任务。在特定实施例中，从对话引擎235到第三方代理255的通信可以包括请求由第三方提供者265提供的特定内容对象和/或服务。因此，第三方代理255可以从第三方提供者265检索所请求的内容对象和/或执行命令第三方提供者265执行所请求服务的任务。第三方代理255可以访问隐私检查模块245，以保证在与第三方提供者265交互之前没有隐私侵犯。作为示例而非限制，与用户输入相关联的用户可以在他/她的隐私设置中指定他/她的简档信息对于任何第三方内容提供者是不可见的。因此，当从第三方提供者265检索与用户输入相关联的内容对象时，第三方代理255可以在不向第三方提供者265透露哪个用户正在请求内容对象的情况下完成检索。

在特定实施例中，第一方代理250或第三方代理255中的每一个可以被指定用于特定域。作为示例而非限制，域可以包括天气、运输、音乐等。在特定实施例中，助理系统140可以协同使用多个代理来响应用户输入。作为示例而非限制，用户输入可以包括“指引我到我的下一个会议(direct me to my next meeting)”。助理系统140可以使用日历代理来检索下一个会议的位置。助理系统140然后可以使用导航代理来指引用户到下一个会议。

在特定实施例中，第一方代理250或第三方代理255中的每一个可以从用户上下文引擎225检索用户简档，从而以个性化和上下文感知的方式执行任务。作为示例而非限制，用户输入可以包括“为我预订去机场的乘坐(book me a ride to the airport)”。运输代理可以执行预订乘坐的任务。运输代理可以在预订乘坐之前从用户上下文引擎225检索用户的用户简档。例如，用户简档可以指示用户更喜欢出租车，因此运输代理可以为用户预订出租车。作为另一个示例，与用户简档相关联的上下文信息可以指示用户赶时间，因此运输代理可以为用户从拼车服务(例如，Uber、Lyft)预订乘坐，因为从拼车服务获得乘坐可能比出租车公司更快。在特定实施例中，第一方代理250或第三方代理255中的每一个在执行任务时可以考虑其他因素。作为示例而非限制，其他因素可以包括价格、评级、效率、与在线社交网络的伙伴关系等。

在特定实施例中，对话引擎235可以与会话理解编写器(CU编写器)270通信。对话引擎235可以将所请求的内容对象和/或所请求服务的状态发送给CU编写器270。在特定实施例中，对话引擎235可以将所请求的内容对象和/或所请求服务的状态作为<k,c,u,d>元组(tuple)发送，其中k指示知识源、c指示通信目标、u指示用户模型，并且d指示话语(discourse)模型。在特定实施例中，CU编写器270可以包括自然语言生成器(NLG)271和用户界面(UI)有效载荷生成器272。自然语言生成器271可以基于对话引擎235的输出生成通信内容。在特定实施例中，NLG271可以包括内容确定部件、句子规划器和表层实现(surfacerealization)部件。内容确定部件可以基于知识源、通信目标和用户的期望来确定通信内容。作为示例而非限制，确定可以基于描述逻辑。描述逻辑可以包括例如三个基本观念(notion)，它们是个体(表示域中的对象)、概念(描述个体集合)和角色(表示个体或概念之间的二元关系)。描述逻辑可以由一组构造器来表征，该构造器允许自然语言生成器271从原子(atomic)概念/角色构建复杂概念/角色。在特定实施例中，内容确定部件可以执行以下任务来确定通信内容。第一任务可以包括翻译任务，其中对自然语言生成器271的输入可以被翻译成概念。第二任务可以包括选择任务，其中可以基于用户模型从翻译任务产生的概念中选择相关概念。第三任务可以包括验证任务，其中可以验证所选概念的一致性。第四任务可以包括实例化任务，其中被验证的概念可以被实例化为可由自然语言生成器271处理的可执行文件。句子规划器可以确定通信内容的组织，使其为人所理解。表层实现部件可以确定要使用的特定单词、句子的顺序以及通信内容的风格。UI有效载荷生成器272可以确定要呈现给用户的通信内容的优选模态。在特定实施例中，CU编写器270可以与隐私检查模块245通信，以确保通信内容的生成遵循隐私策略。在特定实施例中，在生成通信内容并确定通信内容的模态时，CU编写器270可以从用户上下文引擎225检索用户简档。因此，对于用户来说，通信内容可以是更加自然、个性化和上下文感知的。作为示例而非限制，用户简档可以指示用户喜欢会话中的短句，因此生成的通信内容可以基于短句。作为另一个示例而非限制，与用户简档相关联的上下文信息可以指示用户正在使用仅输出音频信号的设备，因此UI有效载荷生成器272可以将通信内容的模态确定为音频。关于自然语言生成的更多信息可以在2018年4月30日提交的美国专利申请第15/967279号和2018年4月30日提交的美国专利申请第15/966455号中找到，这些专利申请中的每一个通过引用并入。

在特定实施例中，CU编写器270可以将生成的通信内容发送给助理xbot 215。在特定实施例中，助理xbot 215可以将通信内容发送到消息传递平台205。消息传递平台205还可以经由助理应用136向客户端系统130发送通信内容。在替代实施例中，助理xbot 215可以将通信内容发送到文本到语音(TTS)模块275。TTS模块275可以将通信内容转换成音频剪辑。TTS模块275还可以经由助理应用136将音频剪辑发送到客户端系统130。

在特定实施例中，助理xbot 215可以在不接收用户输入的情况下与主动推断(proactive inference)层280交互。主动推断层280可以基于从用户上下文引擎225检索的用户简档来推断用户兴趣和偏好。在特定实施例中，主动推断层280还可以与主动代理285就推断进行通信。主动代理285可以基于推断执行主动任务。作为示例而非限制，主动任务可以包括向用户发送内容对象或提供服务。在特定实施例中，每个主动任务可以与一个议程项目(agenda item)相关联。议程项目可以包括循环出现的项目，如每日摘要。议程项目也可以包括一次性项目。在特定实施例中，主动代理285可以在执行主动任务时从用户上下文引擎225检索用户简档。因此，主动代理285可以以个性化和上下文感知的方式执行主动任务。作为示例而非限制，主动推断层可以推断用户喜欢Maroon 5乐队，并且主动代理285可以针对用户生成Maroon 5的新歌曲/专辑的推荐。

在特定实施例中，主动代理285可以基于用户简档生成与主动任务相关联的候选实体。该生成可以基于使用确定性滤波器从结构化数据储存器检索候选实体的直接后端查询。可替代地，该生成可以基于机器学习模型，该机器学习模型基于用户简档、实体属性以及用户和实体之间的相关性进行训练。作为示例而非限制，机器学习模型可以基于支持向量机(SVM)。作为另一个示例而非限制，机器学习模型可以基于回归模型(regressionmodel)。作为另一个示例而非限制，机器学习模型可以基于深度卷积神经网络(DCNN)。在特定实施例中，主动代理285还可以基于用户简档和与候选实体相关联的内容来对生成的候选实体进行排序。排序可以基于用户兴趣与候选实体之间的相似性。作为示例而非限制，助理系统140可以生成表示用户兴趣的特征向量和表示候选实体的特征向量。助理系统140然后可以计算表示用户兴趣的特征向量和表示候选实体的特征向量之间的相似性分数(例如，基于余弦相似性)。可替代地，排序可以基于排序模型，其基于用户反馈数据进行训练。

在特定实施例中，主动任务可以包括向用户推荐候选实体。主动代理285可以调度(schedule)推荐，从而将推荐时间与推荐的候选实体相关联。推荐的候选实体也可以与优先级和到期时间相关联。在特定实施例中，推荐的候选实体可以被发送到主动调度器。主动调度器可以基于与任务相关联的优先级和其他相关因素(例如，推荐的候选实体的点击和印象)来确定向用户发送推荐的候选实体的实际时间。在特定实施例中，主动调度器然后可以将具有确定的实际时间的推荐候选实体发送到异步层(asynchronous tier)。异步层可以将推荐的候选实体临时存储为作业(job)。在特定实施例中，异步层可以在确定的实际时间将作业发送到对话引擎235以进行执行。在替代实施例中，异步层可以通过将其发送到其他表层(例如，与社交网络系统160相关联的其他通知服务)来执行作业。在特定实施例中，对话引擎235可以识别与用户相关联的对话意图、状态和历史。基于对话意图，对话引擎235可以从推荐的候选实体中选择一些候选实体来发送给客户端系统130。在特定实施例中，对话状态和历史可以指示用户是否参与了与助理xbot 215的正在进行的会话。如果用户参与了正在进行的会话，并且推荐任务的优先级低，则对话引擎235可以与主动调度器通信，以重新调度将所选候选实体发送到客户端系统130的时间。如果用户参与了正在进行的会话并且推荐任务的优先级高，则对话引擎235可以发起与用户的新的对话会话(dialogsession)，其中可以呈现所选候选实体。因此，可以防止正在进行的会话的中断。当确定发送所选择的候选实体不会中断用户时，对话引擎235可以将所选择的候选实体发送到CU编写器270，以根据用户的隐私设置生成包括所选候选实体的个性化和上下文感知的通信内容。在特定实施例中，CU编写器270可以将通信内容发送给助理xbot 215，助理xbot 215然后可以经由消息传递平台205或TTS模块275将其发送给客户端系统130。关于主动帮助用户的更多信息可以在2018年4月30日提交的美国专利申请第15/967193号和2018年7月16日提交的美国专利申请第16/036827号中找到，这些专利申请中的每一个通过引用并入。

在特定实施例中，助理xbot 215可以响应于用户输入与主动代理285通信。作为示例而非限制，用户可以要求助理xbot 215设置提醒。助理xbot215可以请求主动代理285设置这样的提醒，并且主动代理285可以在稍后主动执行提醒用户的任务。

在特定实施例中，助理系统140可以包括汇总器(summarizer)290。汇总器290可以向用户提供定制的动态消息汇总。在特定实施例中，汇总器290可以包括多个元代理(metaagent)。多个元代理可以使用第一方代理250、第三方代理255或主动代理285来生成动态消息汇总。在特定实施例中，汇总器290可以从主动推断层280检索用户兴趣和偏好。汇总器290然后可以从实体解析模块240检索与用户兴趣和偏好相关联的实体。汇总器290还可以从用户上下文引擎225检索用户简档。基于来自主动推断层280、实体解析模块240和用户上下文引擎225的信息，汇总器290可以为用户生成个性化的和上下文感知的汇总。在特定实施例中，汇总器290可以将汇总发送给CU编写器270。CU编写器270可以处理汇总并将处理结果发送给助理xbot 215。然后，助理xbot 215可以经由消息传递平台205或TTS模块275向客户端系统130发送经处理的汇总。关于汇总的更多信息可以在2018年4月30日提交的美国专利申请第15/967290号中找到，该专利申请通过引用并入。

图3示出了助理系统140响应用户请求的示例流程图。在特定实施例中，助理xbot215可以在接收到用户请求时访问请求管理器305。请求管理器305可以包括上下文提取器306和会话理解对象生成器(CU对象生成器)307。上下文提取器306可以提取与用户请求相关联的上下文信息。上下文提取器306还可以基于在客户端系统130上执行的助理应用136来更新上下文信息。作为示例而非限制，上下文信息的更新可以包括在客户端系统130上显示内容项目。作为另一个示例而非限制，上下文信息的更新可以包括是否在客户端系统130上设置警报。作为另一个示例而非限制，上下文信息的更新可以包括是否在客户端系统130上播放歌曲。CU对象生成器307可以生成与用户请求相关的特定内容对象。内容对象可以包括与用户请求相关联的对话会话数据和特征，该对话会话数据和特征可以与助理系统140的所有模块共享。在特定实施例中，请求管理器305可以将上下文信息和生成的内容对象存储在数据储存器310中，数据储存器310是在助理系统140中实现的特定数据储存器。

在特定实施例中，请求管理器305可以将生成的内容对象发送到NLU模块220。NLU模块220可以执行多个步骤来处理内容对象。在步骤221，NLU模块220可以生成内容对象的白名单(whitelist)。在特定实施例中，白名单可以包括匹配用户请求的解释数据。在步骤222，NLU模块220可以基于白名单执行特征化。在步骤223，NLU模块220可以基于特征化产生的特征对用户请求执行域分类/选择，以将用户请求分类到预定义的域中。还可以基于两个相关的过程进一步处理域分类/选择结果。在步骤224a，NLU模块220可以使用意图分类器来处理域分类/选择结果。意图分类器可以确定与用户请求相关联的用户意图。在特定实施例中，每个域可以有一个意图分类器来确定给定域中最可能的意图。作为示例而非限制，意图分类器可以基于机器学习模型，该模型可以将域分类/选择结果作为输入，并计算输入与特定预定义意图相关联的概率。在步骤224b，NLU模块可以使用元意图(meta-intent)分类器来处理域分类/选择结果。元意图分类器可以确定描述用户意图的类别。在特定实施例中，多个域共有的意图可以由元意图分类器处理。作为示例而非限制，元意图分类器可以基于机器学习模型，该模型可以将域分类/选择结果作为输入，并计算输入与特定预定义元意图相关联的概率。在步骤225a，NLU模块220可以使用槽标记器(slot tagger)来注释与用户请求相关联的一个或更多个槽。在特定实施例中，槽标记器可以为用户请求的n-grams注释一个或更多个槽。在步骤225b，NLU模块220可以使用元槽标记器为来自元意图分类器的分类结果注释一个或更多个槽。在特定实施例中，元槽标记器可以标记通用槽(如对项目的引用(例如，第一个))、槽的类型、槽的值等。作为示例而非限制，用户请求可以包括“将我账户中的500美元兑换成日元(change 500dollars in my account to Japanese yen)”。意图分类器可以将用户请求作为输入，并将其公式化为向量。意图分类器然后可以基于表示用户请求的向量和表示不同预定义意图的向量之间的向量比较来计算用户请求与不同预定义意图相关联的概率。以类似的方式，槽标记器可以将用户请求作为输入，并将每个单词公式化为向量。意图分类器然后可以基于表示单词的向量和表示不同预定义槽的向量之间的向量比较来计算每个单词与不同预定义槽相关联的概率。用户的意图可以被分类为“兑换钱(changing money)”。用户请求的槽可以包括“500”、“美元(dollars)”、“账户(account)”和“日元(Japanese yen)”。用户的元意图可以被分类为“金融服务(financial service)”。元槽(meta slot)可以包括“金融(finance)”。

在特定实施例中，NLU模块220可以通过从语义信息聚合器230提取语义信息来改进内容对象的域分类/选择。在特定实施例中，语义信息聚合器230可以以下述方式聚合语义信息。语义信息聚合器230可以首先从用户上下文引擎225检索信息。在特定实施例中，用户上下文引擎225可以包括离线聚合器226和在线推断服务227。离线聚合器226可以处理从先前时间窗口收集的与用户相关联的多个数据。作为示例而非限制，数据可以包括从先前90天的窗口收集的动态消息帖子/评论、与动态消息帖子/评论的交互、Instagram帖子/评论、搜索历史等。处理结果可以作为用户简档的一部分存储在用户上下文引擎225中。在线推断服务227可以分析由助理系统140在当前时间接收的与用户相关联的会话数据。分析结果也可以作为用户简档的一部分存储在用户上下文引擎225中。在特定实施例中，离线聚合器226和在线推断服务227都可以从多个数据中提取个性化特征。提取的个性化特征可以被助理系统140的其他模块使用，以更好地理解用户输入。在特定实施例中，语义信息聚合器230然后可以在以下步骤中处理从用户上下文引擎225检索的信息，即用户简档。在步骤231，语义信息聚合器230可以基于自然语言处理(NLP)来处理从用户上下文引擎225检索的信息。在特定实施例中，语义信息聚合器230可以：通过文本标准化来切分(tokenize)文本，从文本中提取句法(syntax)特征，并基于NLP从文本中提取语义特征。语义信息聚合器230另外可以从上下文信息中提取特征，该上下文信息是从用户和助理系统140之间的对话历史访问的。语义信息聚合器230还可以基于上下文信息进行全局单词嵌入、特定于域的嵌入和/或动态嵌入。在步骤232，处理结果可以由实体标记器用实体来注释。在步骤233，基于注释，语义信息聚合器230可以为检索到的信息生成字典。在特定实施例中，字典可以包括可以离线动态更新的全局字典特征。在步骤234，语义信息聚合器230可以对由实体标记器标记的实体进行排序。在特定实施例中，语义信息聚合器230可以与包括社交图、知识图和概念图的不同图330通信，以提取与从用户上下文引擎225检索的信息相关的本体数据。在特定实施例中，语义信息聚合器230可以聚合用户简档、排序的实体和来自图330的信息。语义信息聚合器230然后可以将聚合的信息发送到NLU模块220，以促进域分类/选择。

在特定实施例中，NLU模块220的输出可以被发送到共指(co-reference)模块315，以解释与用户请求相关联的内容对象的指代。在特定实施例中，共指模块315可用于识别用户请求所指的项目。共指模块315可以包括指代创建316和指代消解(referenceresolution)317。在特定实施例中，指代创建316可以为由NLU模块220确定的实体创建指代。指代消解317可以准确地消解这些指代。作为示例而非限制，用户请求可以包括“为我找到最近的沃尔玛并指引我到那里(find me the nearest Walmart and direct methere)”。共指模块315可以将“那里(there)”解释为“最近的沃尔玛(the nearestWalmart)”。在特定实施例中，共指模块315可以在必要时访问用户上下文引擎225和对话引擎235，以用提高的准确性来解释指代。

在特定实施例中，所识别的域、意图、元意图、槽和元槽以及所消解的指代可以被发送到实体解析模块240以解析相关实体。实体解析模块240可以执行通用和特定于域的实体解析。在特定实施例中，实体解析模块240可以包括域实体解析241和通用实体解析242。域实体解析241可以通过将槽和元槽归类到不同的域来解析实体。在特定实施例中，可以基于从图330中提取的本体数据来解析实体。本体数据可以包括不同槽/元槽和域之间的结构关系。本体也可以包括槽/元槽可以如何在较高级别包括域的层次结构内被分组、相关，并根据相似性和差异细分的信息。通用实体解析242可以通过将槽和元槽归类到不同的通用主题来解析实体。在特定实施例中，解析也可以基于从图330中提取的本体数据。本体数据可以包括不同槽/元槽和通用主题之间的结构关系。本体也可以包括槽/元槽可以如何在较高级别包括主题的层次结构内被分组、相关，并根据相似性和差异细分的信息。作为示例而非限制，响应于对特斯拉(Tesla)汽车的优点的询问的输入，通用实体解析242可以将特斯拉汽车解析为车辆(vehicle)，并且域实体解析241可以将特斯拉汽车解析为电动汽车(electric car)。

在特定实施例中，实体解析模块240的输出可以被发送到对话引擎235，以转发与用户的会话流。对话引擎235可以包括对话意图解析236和对话状态更新/排序器237。在特定实施例中，对话意图解析236可以基于用户和助理系统140之间的对话历史来解析与当前对话会话相关联的用户意图。对话意图解析236可以将NLU模块220确定的意图映射到不同的对话意图。对话意图解析236还可以基于来自NLU模块220、实体解析模块240的信号以及用户和助理系统140之间的对话历史来对对话意图进行排序。在特定实施例中，对话状态更新/排序器237可以对当前对话会话的对话状态进行更新/排序。作为示例而非限制，如果对话会话结束，对话状态更新/排序器237可以将对话状态更新为“完成(completed)”。作为另一个示例而非限制，对话状态更新/排序器237可以基于与对话状态相关联的优先级来对对话状态进行排序。

在特定实施例中，对话引擎235可以就对话意图和相关联的内容对象与任务完成模块335进行通信。在特定实施例中，任务完成模块335可以针对不同的对话意图对不同的对话假设进行排序。任务完成模块335可以包括动作选择部件336。在特定实施例中，对话引擎235另外可以对照关于对话状态的对话策略320进行检查。在特定实施例中，对话策略320可以包括描述代理340的动作执行计划的数据结构。代理340可以在注册的内容提供者中进行选择来完成该动作。数据结构可以由对话引擎235基于意图和与该意图相关联的一个或更多个槽来构造。对话策略320还可以包括通过逻辑操作符互相关的多个目标。在特定实施例中，目标可以是对话策略的一部分的输出结果，并且它可以由对话引擎235构造。目标可以由具有一个或更多个命名参量的标识符(例如，字符串)来表示，该一个或更多个命名参量将目标参数化。作为示例而非限制，目标及其关联的目标参量可以表示为{确认_艺术家，参量:{艺术家:“Madonna”}}。在特定实施例中，对话策略可以基于树形结构表示，其中目标被映射到树叶。在特定实施例中，对话引擎235可以执行对话策略320来确定要执行的下一个动作。对话策略320可以包括通用策略321和特定于域的策略322，它们都可以指导如何基于对话状态选择下一个系统动作。在特定实施例中，任务完成模块335可以与对话策略320通信，以获得下一个系统动作的指导。在特定实施例中，动作选择部件336因此可以基于对话意图、相关联的内容对象和来自对话策略320的指导来选择动作。

在特定实施例中，任务完成模块335的输出可以被发送到CU编写器270。在替代实施例中，所选择的动作可能需要一个或更多个代理340参与。因此，任务完成模块335可以向代理340通知所选择的动作。同时，对话引擎235可以接收更新对话状态的指令。作为示例而非限制，更新可以包括等待代理的响应。在特定实施例中，CU编写器270可以基于任务完成模块335的输出使用NLG 271而为用户生成通信内容。在特定实施例中，NLG 271可以使用不同的语言模型和/或语言模板来生成自然语言输出。自然语言输出的生成可以是特定于应用的。自然语言输出的生成也可以针对每个用户进行个性化。CU编写器270还可以使用UI有效载荷生成器272来确定所生成的通信内容的模态。由于所生成的通信内容可以被认为是对用户请求的响应，所以CU编写器270可以另外使用响应排序器273来对所生成的通信内容进行排序。作为示例而非限制，排序可以指示响应的优先级。

在特定实施例中，CU编写器270的输出可以被发送到响应管理器325。响应管理器325可以执行不同的任务，包括存储/更新从数据储存器310检索的对话状态326以及生成响应327。在特定实施例中，CU编写器270的输出可以包括自然语言字符串、语音或带有参数的动作中的一个或更多个。因此，响应管理器325可以基于CU编写器270的输出来确定要执行什么任务。在特定实施例中，所生成的响应和通信内容可以被发送到助理xbot 215。在替代实施例中，如果所确定的通信内容的模态是音频，则CU编写器270的输出可以另外发送到TTS模块275。然后，由TTS模块275生成的语音和由响应管理器325生成的响应可以被发送到助理xbot 215。

手势输入工作流程

图4示出了处理包括手势输入的用户输入的示例工作流程。手势输入可以是基于身体部位(特别是手或头部)的移动的输入，以表达一种想法或意思。手势输入可以是图像信息、视频信息、运动信息或其任意组合的形式。在特定实施例中，助理系统140可以从客户端系统130接收用户的用户输入405。助理系统140可以将用户输入405发送到意图理解模块410。意图理解模块410可以包括自然语言理解(NLU)模块220和手势分类模型415。手势分类模型415可以是被离线训练以识别由用户执行的不同类别手势的机器学习模型。作为示例而非限制，手势分类模型415可以基于卷积神经网络、张量流或隐马尔可夫模型中的一个或更多个。基于用户输入405，意图理解模块410可以使用不同的部件来确定与用户输入405相关联的意图420。如果用户输入405包括文本输入或语音输入，则意图理解模块410可以使用NLU模块220来确定意图420。如果用户输入405包括手势输入，则意图理解模块410可以使用手势分类模型415来确定意图420。所确定的意图420可以与置信度分数相关联，该置信度分数指示助理系统140在确定用户的意图420时有多确信。在特定实施例中，可以基于用户的文本输入或语音输入与给定意图420的已知输入的匹配接近度来确定置信度分数。作为示例而非限制，接近度可以基于文本输入和已知输入(文本)之间的字符串相似性。助理系统140然后可以将意图420及其置信度分数发送到对话引擎235。如果置信度分数高于阈值分数，则对话引擎235可以确定对应于意图420的一个或更多个任务425，并将它们发送给第一方代理250或第三方代理255以执行任务425。执行结果430可以被发送到CU编写器270。如果置信度分数低于阈值分数，则对话引擎235可以为用户确定一个或更多个建议输入435，建议输入435可以帮助助理系统140以较高的置信度分数确定用户的意图。对话引擎235可以将建议输入435发送到CU编写器270。基于执行结果430或建议输入435，CU编写器270可以生成响应440。响应440可以处于不同的模态，包括文本、图像、视频或手势动画中的一种或更多种。CU编写器270还可以将响应440发送到客户端系统130。尽管本公开描述了以特定方式经由特定系统处理用户输入，但是本公开设想描述了以任何合适的方式经由任何合适的系统处理任何合适的用户输入。

助理系统中多模态用户输入的自动完成

在特定实施例中，助理系统140可以接收由用户执行的第一模态的初始输入(例如对虚拟现实(VR)头戴式装置或增强现实(AR)智能眼镜的手势输入)，该初始输入作为与基于助理的客户端系统130的交互，基于初始输入以自动完成方式确定候选延续输入，并且以一种或更多种第二模态(例如，文本)向用户推荐这些候选延续输入，对于这些候选延续输入，用户可以选择其中之一来触发特定任务425的执行。初始输入和延续输入可以基于任何合适的模态，包括文本、语音、图像、视频、运动、取向等。此外，初始输入的模态和延续输入的模态可以不同。作为示例而非限制，佩戴AR眼镜参观巴黎的用户可能正在看埃菲尔铁塔。基于凝视输入，助理系统140可以建议显示在虚拟屏幕上的用于拍照的手势，或者建议用户说“拍照”。用户可以执行建议的手势或说出句子，以允许助理系统140执行拍摄埃菲尔铁塔的任务。因此，助理系统140可以具有处理一种模态的用户输入405并生成一种或更多种其他模态的建议输入的能力，这可以被称为多模态用户输入的自动完成。尽管本公开描述了以特定方式经由特定系统生成特定多模态用户输入的特定自动完成，但是本公开设想了以任何合适的方式经由任何合适的系统生成任何合适的多模态用户输入的任何合适的自动完成。

在特定实施例中，助理系统140可以从与第一用户相关联的客户端系统130接收来自第一用户的初始输入。初始输入可以处于第一模态。在特定实施例中，助理系统140可以通过意图理解模块来确定对应于初始输入的一个或更多个意图420。助理系统140然后可以基于一个或更多个意图420生成一个或更多个候选延续输入。一个或更多个候选延续输入可以分别处于一种或更多种候选模态。候选模态可以不同于第一模态。在特定实施例中，助理系统140还可以向客户端系统130发送用于呈现对应于一个或更多个候选延续输入的一个或更多个建议输入的指令。

在特定实施例中，第一模态可以包括音频、文本、图像、视频、运动或取向之一。作为示例而非限制，第一模态可以包括运动，并且相应地，初始输入可以包括手势。作为另一个示例而非限制，第一模态可以包括取向，并且相应地，初始输入可以包括对对象的凝视。在特定实施例中，第一模态和候选延续输入的候选模态可以不同。作为示例而非限制，用户可能正戴着AR眼镜，并且他/她的初始输入可以是两只手呈框架手势(framing gesture)用于定位他/她面前的对象。助理系统140可以建议用户说“点击(click)”作为候选延续输入，其作为文本显示在AR眼镜的屏幕上。一旦用户说“点击”，助理系统140就可以进一步执行为框架中的对象拍照的任务。因此，助理系统140可以具有丰富助理系统140的用户体验的技术优势，因为用户可以用各种模态的输入与助理系统140交互。尽管本公开描述了特定方式的特定模态，但是本公开设想了任何合适方式的任何合适的模态。

在特定实施例中，助理系统140可以基于初始输入的意图和与意图420相关的潜在实体来确定候选延续输入。助理系统140可以首先识别与一个或更多个意图420相关联的一个或更多个实体。助理系统140然后还可以基于一个或更多个实体生成一个或更多个候选延续输入。作为示例而非限制，第一用户可以执行呼叫手势作为初始输入。助理系统140可以确定呼叫意图和与该呼叫意图相关联的可能实体(例如，联系人)。实体可以作为文本被建议给用户，并且助理系统140可以另外要求用户说出用户打算呼叫的实体的名称。基于初始输入的意图420和与意图420相关的潜在实体来确定候选延续输入可以是解决基于初始输入确定候选延续输入的技术挑战的有效解决方案，因为意图420和潜在实体对于确定用户可以使用什么延续输入来与助理系统140交互以执行基于它们的任务可能是必要的。尽管本公开描述了以特定方式确定特定输入，但是本公开设想了以任何合适的方式确定任何合适的输入。

在特定实施例中，助理系统140可以确定第一用户需要一个或更多个建议输入。助理系统140可以基于不同的因素来确定是否建议候选延续输入。在特定实施例中，确定第一用户需要一个或更多个建议输入可以基于来自第一用户的唤醒输入。唤醒输入可以包括语音话语(voice utterance)、字符串、图像、视频剪辑、手势或凝视中的一个或更多个。作为示例而非限制，唤醒输入可以是说“助理！(assistant！)”的语音命令或者像打响指(snapping fingers)这样的手势。一旦助理系统140接收到唤醒输入，它就可以启动用于建议候选延续输入的过程。助理系统140可以持续处于活动状态，用于建议候选延续输入。此外，是否建议延续输入可以基于由助理系统140检测到的用户注意力，即凝视信息。在特定实施例中，初始输入可以包括对对象的凝视，并且确定第一用户需要一个或更多个建议输入还可以基于对对象的凝视。另一方面，生成一个或更多个候选延续输入还可以基于对象。基于与初始输入相关联的对象来确定候选延续输入可以是解决基于初始输入来确定候选延续输入的技术挑战的有效解决方案，因为对象对于确定用户可以使用什么延续输入来与助理系统交互以执行基于它的任务可能是必要的。作为示例而非限制，如果佩戴AR眼镜的用户正在商店盯着一双鞋，则助理系统140可以确定用户需要建议输入，并生成建议输入，例如“拍照”和“查看评论(checking the reviews)”等。建议输入可以基于任何合适的模态。例如，建议输入可以被呈现为显示在AR眼镜的屏幕中的手势，用户可以跟随该手势来执行。作为另一个示例，建议输入可以是基于音频的，用户可以收听该基于音频的建议输入。作为另一个示例而非限制，用户在AR眼镜上进行视频通话，然后用户转过身来，看电视一段阈值时间。助理系统140然后可以确定用户需要建议输入。如果用户希望视频呼叫被镜像(mirror)到电视，则助理系统140可以呈现指示用户指向电视的建议输入。在特定实施例中，确定第一用户需要一个或更多个建议输入还可以基于与初始输入相关联的上下文信息。在特定实施例中，上下文信息可以包括时间信息、位置信息、存在信息或社交信息中的一种或更多种。作为示例而非限制，用户可以只输入几个字母，然后在一定时间内停止输入文本。助理系统140然后可以确定用户需要建议输入，因为用户可能难以输入想要的文本。作为另一个示例而非限制，用户可能在自助餐厅，并且向助理系统140发送菜肴的图像。然后，助理系统140可以确定用户需要建议输入，例如菜肴的名称或订购该菜肴的请求。在特定实施例中，确定第一用户需要一个或更多个建议输入还可以基于一个或更多个意图420。作为示例而非限制，用户的初始输入可以指示用户想要购买电影票，但是用户没有提供任何附加信息。助理系统140然后可以确定用户需要建议输入，例如最近流行电影的名称。尽管本公开描述了确定是否以特定方式建议特定输入，但是本公开设想了确定是否以任何合适的方式建议任何合适的输入。

在特定实施例中，助理系统140还可以从客户端系统130接收来自第一用户的用户选择的输入。用户选择的输入可以包括建议输入之一。助理系统140然后可以基于用户选择的输入来执行一个或更多个任务425。在特定实施例中，助理系统140可以不止一次地建议候选延续输入。换句话说，助理系统140可以引导用户遍历(through)候选延续输入的序列，该序列中的每个候选延续输入可以被映射到具体意图420。更具体地，助理系统140可以从客户端系统130接收来自第一用户的第一用户选择的输入。第一用户选择的输入可以包括建议输入之一，并且第一用户选择的输入可以与第一意图420相关联。助理系统140然后可以基于第一用户选择的输入生成一个或更多个附加候选延续输入。一个或更多个附加候选延续输入中的每一个可以与第一意图420相关联。助理系统140然后可以向客户端系统130发送用于呈现对应于一个或更多个附加候选延续输入的一个或更多个附加建议输入的指令。助理系统140然后可以从客户端系统130接收来自第一用户的第二用户选择的输入。第二用户选择的输入可以包括附加建议输入之一。助理系统140还可以基于第二用户选择的输入来执行一个或更多个任务425。一个或更多个任务425可以对应于第一意图420。在特定实施例中，助理系统140可以继续前述过程，直到需要整个输入序列的一个或更多个任务425被执行。作为示例而非限制，佩戴AR眼镜的用户可能想要通过执行“提醒”手势来设置提醒。助理系统140可以识别这样的手势，并生成提醒是针对什么事件的建议。助理系统140可以在文本中呈现三个建议事件，例如，“修剪草坪”、“喂狗”和“给妈妈买礼物”。用户可以点击“喂狗”。助理系统140还可以生成建议时间(例如，上午10点、下午3点和下午7点)，并要求用户通过轻击或说话来选择时间。在用户(例如，通过说“下午7点”)选择了时间之后，助理系统140可以相应地设置提醒。因此，助理系统140可以具有通过用建议的输入序列引导用户探索用户可以请求帮助的各种任务来提高用户参与助理系统140的程度的技术优势。尽管本公开描述了以特定方式生成特定的输入序列，但本公开设想了以任何合适的方式生成任何合适的输入序列。

助理系统中手势输入的自动完成

在特定实施例中，助理系统140可以接收由用户执行的不完整手势，作为与基于助理的客户端系统130(例如，VR头戴式装置或AR智能眼镜)的交互，基于不完整手势以自动完成的方式确定候选手势，向用户推荐这些候选手势，对于这些候选手势，用户可以选择它们中的一个来触发特定任务425的执行。作为示例而非限制，佩戴AR眼镜的用户可能不知道执行什么手势来触发助理系统140的特定功能。用户可以开始移动他/她的手，但是在空中暂停。因此，助理系统140可以分析用户的不完整手势并确定可能的候选手势。助理系统140可以通过AR眼镜向用户可视地显示这些候选手势。在用户选择了候选手势之一之后，助理系统140还可以执行对应于该手势的任务425。总之，助理系统140可以对不完整的手势使用手势识别技术来确定用户意图的手势，并且向用户建议所确定的手势作为指导，这可以被称为手势输入的自动完成。尽管本公开描述了以特定方式经由特定系统生成特定手势输入的特定自动完成，但是本公开设想了以任何合适的方式经由任何合适的系统生成任何合适的手势输入任何合适的自动完成。

在特定实施例中，助理系统140可以从与第一用户相关联的客户端系统接收来自第一用户的用户输入405。用户输入405可以包括由第一用户执行的不完整手势。在特定实施例中，助理系统140可以通过意图理解模块计算对应于不完整手势的一个或更多个意图420的一个或更多个置信度分数。助理系统140然后可以确定与每个意图420相关联的所计算的置信度分数低于阈值分数。在特定实施例中，响应于确定每个意图420的所计算的置信度分数低于阈值分数，助理系统140可以基于个性化手势识别模型从多个预定义手势中选择一个或更多个候选手势。每个候选手势可以与表示第一用户打算输入相应候选手势的可能性的置信度分数相关联。在特定实施例中，助理系统140还可以向客户端系统130发送用于呈现对应于一个或更多个候选手势的一个或更多个建议输入的指令。

在特定实施例中，助理系统140可以识别用户输入405的不完整手势。不完整手势可以包括手势的开始，这可以指示用户还没有完成整个手势。作为示例而非限制，在空中暂停的张开的手可能是挥动手势的不完整手势。在特定实施例中，助理系统140可以建议预定义手势的列表，其中之一可以是用户打算执行的手势。作为示例而非限制，每个预定义手势可以包括指向、戳、轻击、挥动或滑动中的一个或更多个。因此，助理系统140可以具有改善用户对助理系统140的体验的技术优势，因为助理系统140可以基于不完整手势理解用户的意图420，并且教导用户完成不完整手势以与助理系统140交互。尽管本公开描述了特定方式的特定手势，但是本公开设想了任何合适方式的任何合适的手势。

在特定实施例中，助理系统140可以基于相对于预定义手势列表的相似性评估来确定用户意图的手势。助理系统140可以针对一个或更多个候选手势中的每一个计算该候选手势相对于不完整手势的相似度。作为示例而非限制，如果用户的手处于特定位置，则助理系统140可以确定该不完整手势与预定义手势有多相似。在确定该未完成手势与哪些预定义手势最相似之后，助理系统140可以选择它们作为候选手势。在特定实施例中，助理系统140可以基于相似度来确定是否向用户呈现候选手势。作为示例而非限制，如果所有候选手势相对于不完整手势的相似度低于预定义的阈值水平，则助理系统140可以将它们呈现给用户以供选择。作为另一个示例而非限制，如果两个或更多个候选手势具有大于预定义阈值水平的相似的相似度，则助理系统140仍然可以将它们呈现给用户用于歧义消除。在特定实施例中，选择一个或更多个候选手势还可以基于一个或更多个意图420。作为示例而非限制，意图420可以包括在社交媒体上定位对象或与另一用户交互。相应地，候选手势可以包括指向或戳。在特定实施例中，助理系统140还可以建议可以引导用户完成候选手势的输入。尽管本公开描述了以特定方式确定特定候选手势，但是本公开设想了以任何合适的方式确定任何合适的候选手势。

在特定实施例中，助理系统140可以以不同方式确定相似度。在特定实施例中，每个候选手势相对于不完整手势的相似度可以基于不完整手势相对于客户端系统的轨迹。作为示例而非限制，如果用户将他/她的手从左向右移动并暂停，则很可能助理系统140可以确定以相对相似的轨迹继续该运动的一些手势(例如，滑动)。但是如果用户将他/她的手从底部移动到顶部，轨迹是不同的，为此，助理系统140可以确定不同的手势(例如，指向)。在特定实施例中，每个候选手势相对于不完整手势的相似度可以基于不完整手势相对于客户端系统130的取向。作为示例而非限制，如果取向平行于客户端系统130，挥动或滑动手势相对于不完整手势可能具有较高的相似度。作为另一个示例而非限制，如果取向垂直于客户端系统130，则指向或戳的手势相对于不完整手势可能具有较高的相似度。在特定实施例中，每个候选手势相对于不完整手势的相似度可以基于与不完整手势相关联的对象。作为示例而非限制，所确定的对应于电话的手势可以不同于对应于电视的手势。在特定实施例中，每个候选手势相对于不完整手势的相似度可以基于与不完整手势相关联的上下文信息。作为示例而非限制，如果上下文信息指示用户正在浏览另一个用户的社交媒体简档，则候选手势可能更有可能是戳而不是指向。在特定实施例中，每个候选手势相对于不完整手势的相似度可以基于不完整手势相对于客户端系统130的位置。作为示例而非限制，如果不完整手势非常靠近客户端系统130，则候选手势可能更有可能是轻击。一个技术挑战包括确定候选手势相对于不完整手势的相似度。基于包括与不完整手势相关联的轨迹、取向、对象、上下文信息和位置的不同因素来确定相似度可以是解决确定候选手势相对于不完整手势的相似度的技术挑战的有效解决方案，因为这样的信息可以为助理系统140计算相似度提供不同的信息提示。尽管本公开描述了以特定方式确定特定相似度，但是本公开设想了以任何合适的方式确定任何合适的相似度。

在特定实施例中，助理系统140可以基于对应于不完整手势的意图420的所计算的置信度分数来确定第一用户是否需要建议来完成不完整手势。如果置信度分数低于阈值分数，则它可能表明助理系统140无法确定用户的意图420。确定用户意图420的这种困难可能是由不完整手势信息不足这一事实引起的，这还表明用户不知道如何执行想要的手势，并且可能需要建议。在特定实施例中，阈值分数可以基于第一用户执行的唤醒手势。唤醒手势可以表明用户显然需要建议。因此，助理系统140可以设置高阈值分数，这导致所计算的置信度分数低于阈值分数。助理系统140然后可以相应地生成候选手势。总之，一旦用户做出了唤醒手势，助理系统140就可以启动手势建议的过程。助理系统可以持续处于活动状态以进行手势建议。在特定实施例中，计算对应于不完整手势的一个或更多个意图420的一个或更多个置信度分数可以基于与不完整手势相关联的时间信息。时间信息可以包括用户输入405中的暂停。作为示例而非限制，当用户输入405中有暂停时，所计算的置信度分数可能较低。因此，助理系统140可以确定用户需要建议来完成不完整手势。在特定实施例中，计算对应于不完整手势的一个或更多个意图420的一个或更多个置信度分数可以基于与不完整手势相关联的速度。作为示例而非限制，助理系统140可以监控用户的移动有多快。如果用户相当确信且快速地移动，则用户可能已经知道他/她想要执行的手势，对于该手势，助理系统140可以计算高置信度分数，并且不建议任何手势。如果助理系统140检测到用户对执行手势犹豫不决(例如，缓慢移动)，则助理系统140可以推断用户正试图弄清楚他/她可以做什么手势，计算低置信度分数，并相应地建议手势。在特定实施例中，确定第一用户需要建议来完成不完整手势还可以基于不完整手势的模式。作为示例而非限制，如果用户正在重复相同的不完整手势，则助理系统140可以确定建议手势来完成用户意图的手势。基于不同因素(包括意图的置信度分数、唤醒手势、不完整手势的时间信息、不完整手势的速度以及不完整手势的模式)来确定是否建议候选手势可以是解决确定用户需要针对手势的建议输入的技术挑战的有效解决方案，因为这样的信息可以从不同的角度揭示用户对帮助的需求。尽管本公开描述了以特定方式确定用户是否需要特定的建议手势，但是本公开设想了以任何合适的方式确定用户是否需要任何合适的建议手势。

在特定实施例中，助理系统140可以从客户端系统130接收来自第一用户的用户选择的输入。用户选择的输入可以包括建议输入之一。助理系统140然后可以基于用户选择的输入来执行一个或更多个任务。在特定实施例中，助理系统140可以不止一次地建议候选手势。换句话说，助理系统140可以引导用户遍历候选手势序列，其中每个候选手势可以被映射到具体意图420。更具体地，助理系统140可以从客户端系统130接收来自第一用户的第一用户选择的输入。第一用户选择的输入可以包括建议输入之一，并且第一用户选择的输入可以与第一意图420相关联。助理系统140然后可以基于第一用户选择的输入生成一个或更多个附加候选手势。一个或更多个附加候选手势中的每一个都可以与第一意图420相关联。助理系统140然后可以向客户端系统130发送用于呈现对应于一个或更多个附加候选手势的一个或更多个附加建议输入的指令。助理系统140然后可以从客户端系统130接收来自第一用户的第二用户选择的输入。第二用户选择的输入可以包括附加建议输入之一。助理系统140还可以基于第二用户选择的输入来执行一个或更多个任务425。一个或更多个任务425可以对应于第一意图420。在特定实施例中，助理系统140可以继续前述过程，直到需要整个手势序列的一个或更多个任务425被执行。作为示例而非限制，佩戴AR眼镜的用户可能想要进行呼叫并且已经执行了不完整手势。助理系统140可以建议一些候选手势，包括“呼叫”手势。用户然后可以基于该建议完成“呼叫”手势。然后，助理系统140可以在VR眼镜的虚拟屏幕上显示三个不同的人(例如，姓名或照片)，并向用户建议附加手势(例如，指向或轻击)。相应地，用户可以对他/她想要呼叫的人执行附加建议手势之一。最后，助理系统140可以执行呼叫意向人员的任务425。作为另一个示例而非限制，用户可能想要给朋友拍照并且已经执行了不完整手势。助理系统140可以向用户建议几个候选手势，包括“拍照”手势。用户然后可以基于该建议完成“拍照”手势。在照片被拍摄之后，助理系统140还可以建议用户可以在照片上执行的一些附加手势。例如，一个手势可以是向朋友发送该照片的手势。用户因此可以执行这样的手势来完成手势序列，并且助理系统140可以随后将照片发送给朋友。因此，助理系统140可以具有通过用建议的手势序列引导用户探索用户可以请求帮助的各种任务来提高用户参与助理系统140的程度的技术优势。尽管本公开描述了以特定方式建议特定的手势序列，但是本公开设想了以任何合适的方式建议任何合适的手势序列。

在特定实施例中，响应于用户的不完整手势来确定候选手势可以应用于基于助理的AR/VR系统中的用户教育。作为示例而非限制，当用户最初戴上AR眼镜时，他可能不知道他可以使用什么手势来与助理系统140交互。用户可以举起他/她的手，想知道该做什么。在这种情况下，助理系统140可以分析用户当前的不完整手势，并确定哪些手势可以是用户可以执行的类似手势。因此，助理系统140可以通过在AR眼镜的屏幕上虚拟地显示它们来建议所确定的手势。在特定实施例中，当只有手势可用于与助理系统140交互时，响应于用户的不完整手势来确定候选手势才可能是合适的。作为示例而非限制，用户不能说话并且没有用于打字的键盘。在这种情况下，如果用户以不完整手势开始他/她与助理系统140的交互，助理系统140可以建议用户执行一个或更多个手势来完成特定任务425。尽管本公开描述了本文所公开实施例的特定方式的特定应用，但是本公开设想了本文所公开实施例的任何合适方式的任何合适的应用。

图5示出了多模态用户输入405的自动完成的示例场景。如图5所示，用户500可能正戴着一副AR眼镜505。AR眼镜505可以用作用户500与助理系统140交互的客户端系统130。用户500可以提供初始输入，其可以是“呼叫”手势510。助理系统140可以确定用户呼叫对应于“呼叫”手势510的联系人的意图420。助理系统140可以识别用户500可能想要呼叫的两个联系人，例如他的妈妈和他的妻子简(Jane)。基于所识别的联系人，助理系统140可以生成两个候选延续输入，包括通过语音选择联系人和通过手势选择联系人。助理系统140还可以生成可以显示在VR眼镜505的屏幕515上的建议输入。在图5中，建议输入呈现为“您想联系谁？您可以说“妈妈”或者“简”，或者您可以轻击照片”520。此外，“妈妈”的照片525和“简”的照片530可以与建议输入相关联地呈现。尽管本公开描述了以特定方式自动完成特定多模态用户输入的特定场景，但是本公开设想了以任何合适的方式自动完成任何合适的多模态用户输入的任何合适的场景。

图6示出了手势输入的自动完成的示例场景。如图6所示，用户500可以经由客户端系统130与助理系统140交互。用户500可能想要执行手势来与助理系统140交互，但是并不真正知道他可以执行什么手势。因此，用户500可以将他的手举在空中，这可能已经形成了不完整手势605。基于不完整手势605，助理系统140可以使用个性化手势识别模型来确定一个或更多个候选手势。作为示例而非限制，一个或更多个候选手势可以包括两个手势，即挥动和轻击。助理系统140还可以生成可以显示在客户端系统130的屏幕610上的建议输入。在图6中，建议输入被呈现为“请执行以下手势之一，让我知道我可以如何帮助您”615。此外，挥动手势的动画620和轻击手势的动画625可以与建议输入相关联地呈现。尽管本公开描述了以特定方式自动完成特定手势输入的特定场景，但是本公开设想了以任何合适的方式自动完成任何合适手势输入的任何合适的场景。

图7A-图7B示出了手势输入的自动完成的另一示例场景。图7A示出了AR/VR设置中不完整手势的示例场景。如图7A所显示的，用户500可能正戴着一副AR眼镜505。AR眼镜505可以用作用户500与助理系统140交互的客户端系统130。用户500可以在AR眼镜505的屏幕705上看到狗。用户500可能想要执行手势来与助理系统140交互，但是并不真正知道他可以执行什么手势。因此，用户500可以将他的手举在空中，这可能已经形成了不完整手势710。基于该不完整手势710和用户注意力的焦点(即，狗)，助理系统140可以使用个性化手势识别模型来确定一个或更多个候选手势。助理系统140还可以生成可以显示在AR眼镜505的屏幕705上的建议输入。图7B示出了AR/VR设置中建议手势输入的示例场景。在图7B中，建议输入被呈现为“请执行所显示的手势来拍照”715。此外，“拍照”手势720(即，虚线的手势)可以与建议输入相关联地呈现。尽管本公开描述了以特定方式自动完成特定手势输入的特定场景，但是本公开设想了以任何合适的方式自动完成任何合适手势输入的任何合适的场景。

图8示出了用于建议多模态用户输入405以进行自动完成的示例方法800。方法可以在步骤810开始，在步骤810，助理系统140可以从与第一用户相关联的客户端系统130接收来自第一用户的初始输入，其中初始输入处于第一模态。在步骤820，助理系统140可以通过意图理解模块410确定对应于初始输入的一个或更多个意图420。在步骤830，助理系统140可以基于一个或更多个意图420生成一个或更多个候选延续输入，其中一个或更多个候选延续输入分别处于一种或更多种候选模态，并且其中候选模态不同于第一模态。在步骤840，助理系统140可以向客户端系统130发送用于呈现对应于一个或更多个候选延续输入的一个或更多个建议输入的指令。在适当的情况下，特定实施例可以重复图8方法的一个或更多个步骤。尽管本公开描述并示出了图8方法的特定步骤如以特定的顺序发生，但是本公开设想了图8方法的任何合适的步骤以任何合适的顺序发生。此外，尽管本公开描述并示出了用于建议多模态用户输入以进行自动完成的示例方法包括图8方法的特定步骤，但是本公开设想了用于建议多模态用户输入以进行自动完成的任何合适的方法包括任何合适的步骤，在适当的情况下，这些合适的步骤可以包括图8方法的所有步骤、一些步骤或者可以不包括图8方法的步骤。此外，尽管本公开描述并示出了执行8方法的特定步骤的特定部件、设备或系统，但是本公开设想了执行图8方法的任何合适步骤的任何合适的部件、设备或系统的任何合适的组合。

图9示出了用于建议候选手势以进行自动完成的示例方法900。方法可以在步骤910开始，在步骤910，助理系统140可以从与第一用户相关联的客户端系统130接收来自第一用户的用户输入405，其中用户输入405包括由第一用户执行的不完整手势。在步骤920，助理系统140可以通过意图理解模块410计算对应于不完整手势的一个或更多个意图420的一个或更多个置信度分数。在步骤930，助理系统140可以确定与每个意图420相关联的所计算的置信度分数低于阈值分数。在步骤940，响应于确定每个意图420的所计算的置信度分数低于阈值分数，助理系统140可以基于个性化手势识别模型从多个预定义手势中选择一个或更多个候选手势，其中每个候选手势与表示第一用户打算输入相应候选手势的可能性的置信度分数相关联。在步骤950，助理系统140可以向客户端系统130发送用于呈现对应于一个或更多个候选手势的一个或更多个建议输入的指令。在适当的情况下，特定实施例可以重复图9方法的一个或更多个步骤。尽管本公开描述并示出了9方法的特定步骤如以特定的顺序发生，但是本公开设想了图9方法的任何合适的步骤以任何合适的顺序发生。此外，尽管本公开描述并示出了用于建议候选手势以进行自动完成的示例方法包括图9方法的特定步骤，但是本公开设想了用于建议候选手势以进行自动完成的任何合适的方法包括任何合适的步骤，在适当的情况下，这些合适的步骤可以包括图9方法的所有步骤、一些步骤或者可以不包括图9方法的步骤。此外，尽管本公开描述并示出了执行9方法的特定步骤的特定部件、设备或系统，但是本公开设想了执行图9方法的任何合适步骤的任何合适的部件、设备或系统的任何合适的组合。

社交图

图10示出了示例社交图1000。在特定实施例中，社交网络系统160可以在一个或更多个数据储存器中存储一个或更多个社交图1000。在特定实施例中，社交图1000可以包括多个节点——该多个节点可以包括多个用户节点1002或多个概念节点1004——以及关连这些节点的多条边1006。每个节点可以与唯一的实体(即，用户或概念)相关联，每个实体可以具有唯一的标识符(ID)，如唯一的号码或用户名。出于教导的目的，图10中以二维视觉地图表示(two-dimensional visual map representation)示出了示例社交图1000。在特定实施例中，社交网络系统160、客户端系统130、助理系统140或第三方系统170可以访问社交图1000和相关社交图信息以用于合适的应用。社交图1000的节点和边可以作为数据对象被存储在例如数据储存器(例如社交图数据库)中。这种数据储存器可以包括社交图1000的节点或边的一个或更多个可搜索或可查询的索引。

在特定实施例中，用户节点1002可以对应于社交网络系统160或助理系统140的用户。作为示例而非限制，用户可以是与社交网络系统160或助理系统140交互或通信或通过社交网络系统160或助理系统140交互或通信的个人(人类用户)、实体(例如，企业、公司或第三方应用)或(例如，个人或实体的)团体。在特定实施例中，当用户向社交网络系统160注册账户时，社交网络系统160可以创建对应于用户的用户节点1002，并将用户节点1002存储在一个或更多个数据储存器中。本文描述的用户和用户节点1002在适当的情况下可以指注册的用户和与注册的用户相关联的用户节点1002。另外或作为替代方案，在适当的情况下，本文描述的用户和用户节点1002可以指没有向社交网络系统160注册的用户。在特定实施例中，用户节点1002可以与由用户提供的信息或由各种系统(包括社交网络系统160)收集的信息相关联。作为示例而非限制，用户可以提供他或她的姓名、简档图片、联系信息、出生日期、性别、婚姻状况、家庭状况、职业、教育背景、偏好、兴趣或其他人口统计信息。在特定实施例中，用户节点1002可以与对应于与用户相关联的信息的一个或更多个数据对象相关联。在特定实施例中，用户节点1002可以对应于一个或更多个web界面。

在特定实施例中，概念节点1004可以对应于概念。作为示例而非限制，概念可以对应于地点(诸如例如，电影院、餐馆、地标或城市)；网站(诸如例如，与社交网络系统160相关联的网站或与web应用服务器相关联的第三方网站)；实体(诸如例如，个人、企业、团体、运动队或名人)；资源(诸如例如，音频文件、视频文件、数字照片、文本文件、结构化文档或应用)，其可以位于社交网络系统160内或外部服务器(例如web应用服务器)上；不动产或知识产权(诸如例如，雕塑、绘画、电影、游戏、歌曲、想法、照片或书面作品)；游戏；活动；想法或理论；另一个合适的概念；或者两个或更多个这样的概念。概念节点1004可以与由用户提供的概念的信息或由各种系统(包括社交网络系统160和助理系统140)收集的信息相关联。作为示例而非限制，概念的信息可以包括名称或标题；一个或更多个图像(例如，书籍的封面的图像)；位置(例如，地址或地理位置)；网站(其可以与URL相关联)；联系信息(例如，电话号码或电子邮件地址)；其他合适的概念信息；或者这样的信息的任何合适的组合。在特定实施例中，概念节点1004可以与一个或更多个数据对象相关联，一个或更多个数据对象对应于与概念节点1004相关联的信息。在特定实施例中，概念节点1004可以对应于一个或更多个web界面。

在特定实施例中，社交图1000中的节点可以表示web界面(其可以被称为“简档界面”)或者由web界面表示。简档界面可以由社交网络系统160或助理系统140托管或是社交网络系统160或助理系统140可访问的。简档界面也可以在与第三方系统170相关联的第三方网站上被托管。作为示例而非限制，对应于特定外部web界面的简档界面可以是特定外部web界面，并且简档界面可以对应于特定概念节点1004。简档界面可以由其他用户的全部或选定子集可查看。作为示例而非限制，用户节点1002可以具有相应的用户简档界面，其中相应的用户可以添加内容、作出声明或以其他方式表达他或她自己。作为另一示例而非限制，概念节点1004可以具有相应的概念简档界面，其中一个或更多个用户可以添加内容、作出声明或表达他们自己，特别是关于对应于概念节点1004的概念。

在特定实施例中，概念节点1004可以表示由第三方系统170托管的第三方web界面或资源。第三方web界面或资源可以包括表示动作或活动的内容、可选择的图标或其他图标或其他可交互对象(其可以例如用JavaScript、AJAX或PHP代码来实现)以及其他元素。作为示例而非限制，第三方web界面可以包括可选择的图标，例如“赞”、“签到(check-in)”、“吃”、“推荐”，或其他合适的动作或活动。查看第三方web界面的用户可以通过选择图标之一(例如，“签到”)来执行动作，使客户端系统130向社交网络系统160发送指示用户的动作的消息。响应于该消息，社交网络系统160可以在对应于用户的用户节点1002和对应于第三方web界面或资源的概念节点1004之间创建边(例如，签到类型边)，并将边1006存储在一个或更多个数据储存器中。

在特定实施例中，社交图1000中的一对节点可以通过一条或更多条边1006关连到彼此。连接一对节点的边1006可以表示在该对节点之间的关系。在特定实施例中，边1006可以包括或表示对应于在一对节点之间的关系的一个或更多个数据对象或属性。作为示例而非限制，第一用户可以指示第二用户是第一用户的“朋友”。响应于该指示，社交网络系统160可以向第二用户发送“好友请求”。如果第二用户确认“好友请求”，则社交网络系统160可以在社交图1000中创建将第一用户的用户节点1002关连到第二用户的用户节点1002的边1006，并将边1006作为社交图信息存储在一个或更多个数据储存器164中。在图10的示例中，社交图1000包括指示在用户“A”和用户“B”的用户节点1002之间的朋友关系的边1006、以及指示在用户“C”和用户“B”的用户节点1002之间的朋友关系的边。尽管本公开描述或示出了关连特定用户节点1002的具有特定属性的特定边1006，但是本公开设想了关连用户节点1002的具有任何适当属性的任何适当边1006。作为示例而非限制，边1006可以表示友谊、家庭关系、商业或雇佣关系、粉丝关系(包括例如，赞等)、关注者关系、访问者关系(包括例如，访问、查看、签到、分享等)、订购者关系、上级/下级关系、互惠关系、非互惠关系、另一种合适类型的关系、或两种或更多种这样的关系。此外，尽管本公开一般将节点描述为被连接，但是本公开也将用户或概念描述为被连接。在本文，对被关连的用户或概念的引用在适当的情况下可以指在社交图1000中由一条或更多条边1006关连的对应于那些用户或概念的节点。

在特定实施例中，在用户节点1002和概念节点1004之间的边1006可以表示由与用户节点1002相关联的用户朝着与概念节点1004相关联的概念执行的特定动作或活动。作为示例而非限制，如图10所示，用户可以“赞”、“出席”、“播放”、“收听”、“烹饪”、“工作于”或“观看”概念，其中每个可以对应于边类型或子类型。对应于概念节点1004的概念简档界面可以包括例如可选择的“签到”图标(诸如例如，可点击的“签到”图标)或可选择的“添加到收藏夹”图标。类似地，在用户点击这些图标之后，社交网络系统160可以响应于对应于相应动作的用户动作来创建“收藏夹”边或“签到”边。作为另一示例而非限制，用户(用户“C”)可以使用特定的应用(声田(SPOTIFY)，其为在线音乐应用)来收听特定的歌曲(“想象(Imagine)”)。在这种情况下，社交网络系统160可以在对应于用户的用户节点1002和对应于歌曲和应用的概念节点1004之间创建“收听”边1006和“使用”边(如图10所示)，以指示用户收听了歌曲并使用了应用。此外，社交网络系统160可以在对应于歌曲和应用的概念节点1004之间创建“播放”边1006(如图10所示)，以指示特定的歌曲由特定的应用播放。在这种情况下，“播放”边1006对应于由外部应用(声田)对外部音频文件(歌曲“想象”)执行的动作。尽管本公开描述了连接用户节点1002和概念节点1004的具有特定属性的特定边1006，但是本公开设想了连接用户节点1002和概念节点1004的具有任何适当属性的任何适当边1006。此外，尽管本公开描述了表示单个关系的在用户节点1002和概念节点1004之间的边，但是本公开设想了表示一个或更多个关系的在用户节点1002和概念节点1004之间的边。作为示例而非限制，边1006可以表示用户喜欢并使用了特定概念。替代地，另一条边1006可以表示用户节点1002和概念节点1004之间(如图10所示，用户“E”的用户节点1002和“声田”的概念节点1004之间)每种类型的关系(或多个单一关系)。

在特定实施例中，社交网络系统160可以在社交图1000中的用户节点1002和概念节点1004之间创建边1006。作为示例而非限制，(诸如例如，通过使用由用户的客户端系统130托管的web浏览器或专用应用)查看概念简档界面的用户可以通过点击或选择“赞”图标来指示他或她喜欢由概念节点1004表示的概念，这可以使用户的客户端系统130向社交网络系统160发送指示用户喜欢与概念简档界面相关联的概念的消息。响应于该消息，社交网络系统160可以在与用户相关联的用户节点1002和概念节点1004之间创建边1006，如由在用户节点和概念节点1004之间的“赞”边1006所示的。在特定实施例中，社交网络系统160可以将边1006存储在一个或更多个数据储存器中。在特定实施例中，边1006可以由社交网络系统160响应于特定用户动作而自动形成。作为示例而非限制，如果第一用户上传图片、观看电影或收听歌曲，则可以在对应于第一用户的用户节点1002和对应于那些概念的概念节点1004之间形成边1006。尽管本公开描述了以特定方式形成特定边1006，但是本公开设想了以任何合适的方式形成任何合适的边1006。

向量空间和嵌入

图11示出了向量空间1100的示例视图。在特定实施例中，可以在d维向量空间中表示对象或n-gram，其中d表示任何合适的维数。尽管向量空间1100被示为三维空间，但这仅仅是为了说明的目的，因为向量空间1100可以具有任何合适的维度。在特定实施例中，n-gram可以在向量空间1100中被表示为向量，该向量被称为项目嵌入(term embedding)。每个向量可以包括对应于向量空间1100中的特定点(即，向量的终点)的坐标。作为示例而非限制，如图11所示，向量1110、1120和1130可以被表示为向量空间1100中的点。n-gram可以被映射到相应的向量表示。作为示例而非限制，通过应用由字典定义的函数

n-gramst₁和t₂可以分别映射到向量空间1100中的向量

和

使得

并且

作为另一个示例而非限制，可以利用被训练为将文本映射到向量表示的字典，或者这种字典本身可以通过训练来生成。作为另一个示例而非限制，模型(例如Word2vec)可以用于将n-gram映射到向量空间1100中的向量表示。在特定实施例中，可以通过使用机器学习模型(例如，神经网络)将n-gram映射到向量空间1100中的向量表示。机器学习模型可能已经使用训练数据的序列(例如，每个包括n-gram的多个对象的语料库(corpus))进行了训练。

在特定实施例中，对象可以在向量空间1100中被表示为向量，该向量被称为特征向量或对象嵌入。作为示例而非限制，通过应用函数

对象e₁和e₂可以分别映射到向量空间1100中的向量

和

使得

并且

在特定实施例中，可以基于对象的一个或更多个特性、属性或特征、对象与其他对象的关系或与对象相关联的任何其他合适的信息来将对象映射到向量。作为示例而不是作为限制，函数

可以通过特征提取将对象映射到向量，特征提取可以从初始测量数据集开始，并构建导出值(例如，特征)。作为示例而非限制，通过使用算法以检测或隔离对象的各种期望部分或形状，包括视频或图像的对象可以被映射到向量。用于计算向量的特征可以基于从边检测、拐角(corner)检测、团块(blob)检测、脊线(ridge)检测、尺度不变特征变换、边方向、变化强度、自相关、运动检测、光流、阈值化、团块提取、模板匹配、霍夫(Hough)变换(例如，线、圆、椭圆、任意形状)获得的信息或任何其他合适的信息。作为另一个示例非限制，包括音频数据的对象可以基于特征(例如频谱斜率、音调系数、音频频谱质心、音频频谱包络、梅尔频率倒频谱(Mel-frequencycepstrum)或任何其他合适的信息)来被映射到向量。在特定实施例中，当对象具有太大而无法有效地被处理的数据或者包括冗余数据时，函数

可以使用所变换的精简特征集(例如，特征选择)来将对象映射到向量。在特定实施例中，函数

可以基于与对象e相关联的一个或更多个n-gram来将对象映射到向量

尽管本公开描述了以特定方式在向量空间中表示n-gram或对象，但是本公开设想了以任何合适的方式在向量空间中表示n-gram或对象。

在特定实施例中，社交网络系统160可以计算向量空间1100中的向量的相似性度量。相似性度量可以是余弦相似性、Minkowski距离、Mahalanobis距离、Jaccard相似性系数或任何合适的相似性度量。作为示例而不是作为限制，

和

的相似性度量可以是余弦相似性

作为另一个示例而不是作为限制，

和

的相似性度量可以是欧几里德(Euclidean)距离

两个向量的相似性度量可以表示分别对应于两个向量的两个对象或n-grams彼此之间的相似程度，如通过向量空间1100中两个向量之间的距离所测量的。作为示例而非限制，基于相应向量之间的距离，向量1110和向量1120可以对应于比对应于向量1110和向量1130的对象与彼此更相似的对象。尽管本公开描述了以特定方式计算向量之间的相似性度量，但本公开设想了以任何合适的方式计算向量之间的相似性度量。

关于向量空间、嵌入、特征向量和相似性度量的更多信息可以在2015年11月23日提交的美国专利申请第14/949436号、2016年10月5日提交的美国专利申请第15/286315号和2016年11月30日提交的美国专利申请第15/365789号中找到，这些专利申请中的每一个通过引用并入。

人工神经网络

图12示出了示例人工神经网络(“ANN”)1200。在特定实施例中，ANN可以指包括一个或更多个节点的计算模型。示例ANN 1200可以包括输入层1210、隐藏层1220、1230、1240和输出层1250。ANN 1200的每个层可以包括一个或更多个节点，如节点1205或节点1215。在特定实施例中，ANN的每个节点可以关连到ANN的另一个节点。作为示例而非限制，输入层1210的每个节点可以关连到隐藏层1220的一个或更多个节点。在特定实施例中，一个或更多个节点可以是偏置节点(例如，层中不关连到前一层中的任何节点并且不从其接收输入的节点)。在特定实施例中，每层中的每个节点可以关连到前一层或后一层的一个或更多个节点。尽管图12描绘了具有特定层数、特定节点数和节点间特定关连的特定ANN，但是本公开设想了具有任何合适层数、任何合适节点数和节点间任何合适关连的任何合适的ANN。作为示例而非限制，尽管图12描绘了输入层1210的每个节点和隐藏层1220的每个节点之间的关连，但是输入层1210的一个或更多个节点可以不关连到隐藏层1220的一个或更多个节点。

在特定实施例中，ANN可以是前馈ANN(例如，没有循环或回路的ANN，其中节点之间的通信从输入层开始在一个方向上流动，并前进到连续层)。作为示例而非限制，隐藏层1220的每个节点的输入可以包括输入层1210的一个或更多个节点的输出。作为另一个示例而非限制，输出层1250的每个节点的输入可以包括隐藏层1240的一个或更多个节点的输出。在特定实施例中，ANN可以是深度神经网络(例如，包括至少两个隐藏层的神经网络)。在特定实施例中，ANN可以是深度残差网络。深度残差网络可以是前馈ANN，其包括组织成残差块的隐藏层。第一残差块之后的每个残差块的输入可以是前一个残差块的输出和前一个残差块的输入的函数。作为示例而非限制，到残差块N的输入可以是F(x)+x，其中F(x)可以是残差块N-1的输出，x可以是到残差块N-1的输入。尽管本公开描述了特定的ANN，但是本公开设想了任何合适的ANN。

在特定实施例中，激活函数可以对应于ANN的每个节点。节点的激活函数可以针对给定输入定义节点的输出。在特定实施例中，节点的输入可以包括输入集合。作为示例而非限制，激活函数可以是恒等函数、二进制阶跃函数、逻辑函数或任何其他合适的函数。作为另一个示例而不是作为限制，节点k的激活函数可以是sigmoid函数

双曲线正切函数

整流器F_k(s_k)＝max(0，s_k)或任何其他合适的函数F_k(s_k)，其中s_k可以是节点k的有效输入。在特定实施例中，对应于节点的激活函数的输入可以被加权。每个节点可以使用基于加权输入的对应激活函数来生成输出。在特定实施例中，节点之间的每个关连可以与权重相关联。作为示例而非限制，节点1205和节点1215之间的关连1225可以具有0.4的加权系数，这可以指示节点1205的输出乘以0.4被用作节点1215的输入。作为另一个示例而非限制，节点k的输出y_k可以是y_k＝F_k(s_k)，其中F_k可以是对应于节点k的激活函数，s_k＝∑_j(w_jkx_j)可以是节点k的有效输入，x_j可以是关连到节点k的节点j的输出，并且w_jk可以是节点j和节点k之间的加权系数。在特定实施例中，输入层的节点的输入可以基于表示对象的向量。尽管本公开描述了节点的特定输入和输出，但是本公开考虑了节点的任何合适的输入和输出。此外，尽管本公开可以描述节点之间的特定关连和权重，但是本公开考虑了节点之间的任何合适的关连和权重。

在特定实施例中，可以使用训练数据来训练ANN。作为示例而非限制，训练数据可以包括ANN 1200的输入和预期输出。作为另一个示例而非限制，训练数据可以包括向量，每个向量表示训练对象和每个训练对象的预期标签。在特定实施例中，训练ANN可以包括通过优化目标函数来修改与ANN的节点之间的关连相关联的权重。作为示例而非限制，可以使用训练方法(例如，共轭梯度法、梯度下降法、随机梯度下降)来反向传播作为表示训练对象的每个向量之间的距离测量的平方和误差(例如，使用最小化平方和误差的成本函数)。在特定实施例中，可以使用丢弃技术来训练ANN。作为示例而非限制，在训练时可以暂时忽略一个或更多个节点(例如，不接收输入并且不生成输出)。对于每个训练对象，ANN的一个或更多个节点都可以有被忽略的一定概率。针对特定训练对象忽略的节点可以不同于针对其他训练对象忽略的节点(例如，可以逐个对象地临时忽略节点)。尽管本公开描述了以特定方式训练ANN，但是本公开设想了以任何合适的方式训练ANN。

隐私

在特定实施例中，计算系统的一个或更多个对象(例如，内容或其他类型的对象)可以与一个或更多个隐私设置相关联。一个或更多个对象可以存储在任何合适的计算系统或应用上，或者以其他方式与任何合适的计算系统或应用相关联，该计算系统或应用诸如例如是社交网络系统160、客户端系统130、助理系统140、第三方系统170、社交网络应用、助理应用、消息传递应用、照片共享应用或者任何其他合适的计算系统或应用。尽管本文讨论的示例是在在线社交网络的上下文中，但是这些隐私设置可以应用于任何其他合适的计算系统。对象的隐私设置(或“访问设置”)可以以任何合适的方式——诸如例如与对象相关联地、在授权服务器上用索引、以另一种合适的方式、或其任何合适的组合——被存储。关于对象的隐私设置可以指定如何可以在在线社交网络中访问、存储或以其他方式使用(例如，查看、共享、修改、复制、执行、显现或识别)该对象(或与该对象相关联的特定信息)。在对象的隐私设置允许特定用户或其他实体访问该对象时，该对象可以被描述为相对于该用户或其他实体是“可见的”。作为示例而非限制，在线社交网络的用户可以指定关于用户简档页面的隐私设置，该隐私设置识别可以访问在用户简档页面上的工作经历信息的一组用户，因而排除其他用户访问该信息。

在特定实施例中，对象的隐私设置可以指定不应当被允许访问与对象相关联的某些信息的用户或其他实体的“黑名单(blocked list)”。在特定实施例中，黑名单可以包括第三方实体。黑名单可以指定一个或更多个用户或实体，对象对这些用户或实体是不可见的。作为示例而非限制，用户可以指定不可以访问与用户相关联的相册的用户集合，因而排除那些用户访问相册(同时也可能允许不在指定用户集合内的某些用户访问相册)。在特定实施例中，隐私设置可以与特定社交图元素相关联。社交图元素(例如节点或边)的隐私设置可以指定可以如何使用在线社交网络来访问社交图元素、与社交图元素相关联的信息、或与社交图元素相关联的对象。作为示例而非限制，对应于特定照片的特定概念节点1004可以具有指定照片仅可以由在照片中标记的用户以及在照片中标记的用户的朋友访问的隐私设置。在特定实施例中，隐私设置可以允许用户选择加入或选择退出使他们的内容、信息或动作被社交网络系统160或助理系统140存储/记录或者与其他系统(例如，第三方系统170)分享。尽管本公开描述了以特定方式使用特定隐私设置，但是本公开设想了以任何合适的方式使用任何合适的隐私设置。

在特定实施例中，隐私设置可以基于社交图1000的一个或更多个节点或边。可以为社交图1000的一条或更多条边1006或边类型、或者关于社交图1000的一个或更多个节点1002、1004或节点类型，指定隐私设置。应用于关连两个节点的特定边1006的隐私设置可以控制对应于这两个节点的两个实体之间的关系对于在线社交网络的其他用户是否可见。类似地，应用于特定节点的隐私设置可以控制对应于该节点的用户或概念对于在线社交网络的其他用户是否可见。作为示例而非限制，第一用户可以向社交网络系统160共享对象。该对象可以与通过边1006关连到第一用户的用户节点1002的概念节点1004相关联。第一用户可以指定应用于关连到对象的概念节点1004的特定边1006的隐私设置，或者可以指定应用于关连到概念节点1004的所有边1006的隐私设置。作为另一个示例而非限制，第一用户可以共享特定对象类型的对象集合(例如，图像集合)。第一用户可以针对与第一用户相关联的该特定对象类型的所有对象将隐私设置指定为具有特定的隐私设置(例如，指定由第一用户发布的所有图像仅对第一用户的朋友和/或在图像中标记的用户可见)。

在特定实施例中，社交网络系统160可以向第一用户呈现“隐私向导(privacywizard)”(例如，在网页、模块、一个或更多个对话框或任何其他合适的界面内)，以帮助第一用户指定一个或更多个隐私设置。隐私向导可以显示指令、合适的隐私相关信息、当前隐私设置、用于接受来自第一用户的一个或更多个输入(其指定隐私设置的改变或确认)的一个或更多个输入字段、或其任何合适的组合。在特定实施例中，社交网络系统160可以向第一用户提供“仪表板(dashboard)”功能，该功能可以向第一用户显示第一用户的当前隐私设置。仪表板功能可以在任何适当的时间显示给第一用户(例如，在来自调用仪表板功能的第一用户的输入之后，在特定事件或触发动作发生之后)。仪表板功能可以允许第一用户以任何合适的方式在任何时间修改第一用户的一个或更多个当前隐私设置(例如，将第一用户重定向到隐私向导)。

与对象相关联的隐私设置可以指定允许访问或拒绝访问的任何合适的粒度(granularity)。作为示例而非限制，可以为特定用户(例如，只有我、我的室友、我的老板)、在特定分离度内的用户(例如，朋友、朋友的朋友)、用户团体(例如，游戏俱乐部、我的家人)、用户网络(例如，特定雇主的雇员、特定大学的学生或校友)、所有用户(“公众”)、无用户(“私人的”)、第三方系统170的用户、特定应用(例如，第三方应用、外部网站)、其他合适的实体、或其任何合适的组合来指定访问或拒绝访问。尽管本公开描述了允许访问或拒绝访问的特定粒度，但是本公开考虑了允许访问或拒绝访问的任何合适粒度。

在特定实施例中，一个或更多个服务器162可以是用于实施隐私设置的授权/隐私服务器。响应于来自用户(或其他实体)的对存储在数据储存器164中的特定对象的请求，社交网络系统160可以向数据储存器164发送对该对象的请求。请求可以识别与该请求相关联的用户，并且对象只有在授权服务器基于与该对象相关联的隐私设置确定该用户被授权访问该对象时才可以被发送给该用户(或者该用户的客户端系统130)。如果请求用户未被授权访问该对象，则授权服务器可以阻止所请求的对象从数据储存器164中被检索，或者可以阻止所请求的对象被发送给用户。在搜索-查询上下文中，只有当查询用户被授权访问对象时，例如，如果对象的隐私设置允许其被显露给查询用户、被查询用户发现或以其他方式对查询用户可见，才可以提供对象作为搜索结果。在特定实施例中，对象可以表示通过用户的动态消息对用户可见的内容。作为示例而非限制，一个或更多个对象对于用户的“热门话题(Trending)”页面可以是可见的。在特定实施例中，对象可以对应于特定用户。对象可以是与特定用户相关联的内容，或者可以是特定用户的账户或存储在社交网络系统160或其他计算系统上的信息。作为示例而非限制，第一用户可以通过在线社交网络的“你可能认识的人(People You May Know)”功能或者通过查看第一用户的朋友列表来查看在线社交网络的一个或更多个第二用户。作为示例而非限制，第一用户可以指定他们不希望在他们的动态消息或朋友列表中看到与特定第二用户相关联的对象。如果对象的隐私设置不允许其被显露给用户、被用户发现或对用户可见，则该对象可以从搜索结果中排除。尽管本公开描述了以特定方式实施隐私设置，但是本公开设想了以任何合适的方式实施隐私设置。

在特定实施例中，与用户相关联的相同类型的不同对象可以具有不同的隐私设置。与用户相关联的不同类型的对象可以具有不同类型的隐私设置。作为示例而非限制，第一用户可以指定第一用户的状态更新是公开的，但是第一用户共享的任何图像仅对在线社交网络上第一用户的朋友可见。作为另一个示例而非限制，用户可以为不同类型的实体(如个人用户、朋友的朋友、关注者、用户团体或公司实体)指定不同的隐私设置。作为另一个示例而非限制，第一用户可以指定可以查看由第一用户发布的视频的一组用户，同时防止视频对第一用户的雇主可见。在特定实施例中，可以为不同的用户组或用户人口统计提供不同的隐私设置。作为示例而非限制，第一用户可以指定与第一用户在同一所大学上学的其他用户可以查看第一用户的照片，但是作为第一用户的家庭成员的其他用户不能查看那些相同的照片。

在特定实施例中，社交网络系统160可以为特定对象类型的每个对象提供一个或更多个默认隐私设置。被设置为默认的对象的隐私设置可以由与该对象相关联的用户来改变。作为示例而非限制，由第一用户发布的所有图像可以具有默认隐私设置，即仅对于第一用户的朋友可见，并且对于特定图像，第一用户可以改变图像的隐私设置，以对于朋友和朋友的朋友可见。

在特定实施例中，隐私设置可以允许第一用户指定(例如，通过选择退出，通过不选择加入)社交网络系统160或助理系统140是否可以出于任何目的接收、收集、记录或存储与用户相关联的特定对象或信息。在特定实施例中，隐私设置可以允许第一用户指定特定应用或进程是否可以访问、存储或使用与用户相关联的特定对象或信息。隐私设置可以允许第一用户选择加入或选择退出使对象或信息被特定应用或进程访问、存储或使用。社交网络系统160或助理系统140可以访问这样的信息，以便向第一用户提供特定的功能或服务，而社交网络系统160或助理系统140不能出于任何其他目的访问该信息。在访问、存储或使用这样的对象或信息之前，社交网络系统160或助理系统140可以提示用户提供隐私设置，该隐私设置指定哪些应用或进程(如果有的话)可以在允许任何这样的动作之前访问、存储或使用对象或信息。作为示例而非限制，第一用户可以经由与在线社交网络相关的应用(例如，消息传递app)向第二用户传输消息，并且可以指定社交网络系统160或助理系统140不应该存储这种消息的隐私设置。

在特定实施例中，用户可以指定社交网络系统160或助理系统140是否可以访问、存储或使用与第一用户相关联的特定类型的对象或信息。作为示例而非限制，第一用户可以指定由第一用户通过社交网络系统160或助理系统140发送的图像不可以被社交网络系统160或助理系统140存储。作为另一个示例而非限制，第一用户可以指定从第一用户发送给特定第二用户的消息不可以被社交网络系统160或助理系统140存储。作为又一个示例而非限制，第一用户可以指定经由特定应用发送的所有对象可以被社交网络系统160或助理系统140保存。

在特定实施例中，隐私设置可以允许第一用户指定是否可以从特定客户端系统130或第三方系统170访问与第一用户相关联的特定对象或信息。隐私设置可以允许第一用户选择加入或选择退出从特定设备(例如，用户智能电话上的电话簿)、从特定应用(例如，消息传递app)或从特定系统(例如，电子邮件服务器)访问对象或信息。社交网络系统160或助理系统140可以提供关于每个设备、系统或应用的默认隐私设置，和/或可以提示第一用户为每个上下文指定特定的隐私设置。作为示例而非限制，第一用户可以利用社交网络系统160或助理系统140的位置服务特征来提供用户附近的餐馆或其他地方的推荐。第一用户的默认隐私设置可以指定社交网络系统160或助理系统140可以使用从第一用户的客户端设备130提供的位置信息来提供基于位置的服务，但是社交网络系统160或助理系统140不可以存储第一用户的位置信息或将其提供给任何第三方系统170。第一用户然后可以更新隐私设置，以允许第三方图像共享应用使用位置信息来对照片进行地理标记。

在特定实施例中，隐私设置可以允许用户指定可以从其访问对象的一个或更多个地理位置。对象的访问或拒绝访问可以取决于试图访问对象的用户的地理位置。作为示例而非限制，用户可以共享对象并指定只有同一城市的用户可以访问或查看该对象。作为另一个示例而非限制，第一用户可以共享对象，并且指定该对象仅在第一用户处于特定位置时对第二用户可见。如果第一用户离开特定位置，对象不可以再对第二用户可见。作为另一个示例而非限制，第一用户可以指定对象仅对在距离第一用户的阈值距离内的第二用户可见。如果第一用户随后改变了位置，则可以访问该对象的原始第二用户可能失去访问权，而新的第二用户组可以在他们进入第一用户的阈值距离内时获得访问权。

在特定实施例中，社交网络系统160或助理系统140可具有可将用户的个人或生物信息用作输入以用于用户认证或体验个性化目的的功能。用户可以选择利用这些功能来增强他们在在线社交网络上的体验。作为示例而非限制，用户可以向社交网络系统160或助理系统140提供个人或生物信息。用户的隐私设置可以指定这样的信息仅可用于特定的进程(如认证)，并且还指定这样的信息不能与任何第三方系统170共享，或者不能用于与社交网络系统160或助理系统140相关联的其他进程或应用。作为另一个示例而非限制，社交网络系统160可以为用户提供向在线社交网络提供声纹记录的功能。作为示例而非限制，如果用户希望利用在线社交网络的这一功能，则用户可以提供他或她自己声音的声音记录，以提供在线社交网络上的状态更新。声音输入的记录可以与用户的声纹进行比较，以确定用户说了什么词语。用户的隐私设置可以指定这种声音记录可以仅用于声音输入目的(例如，认证用户、发送声音消息、改进声音识别以便使用在线社交网络的声音操作特征)，并且还指定这种声音记录不可以与任何第三方系统170共享，或者不可以被与社交网络系统160相关联的其他进程或应用使用。作为另一个示例而非限制，社交网络系统160可以为用户提供向在线社交网络提供参考图像(例如，面部轮廓、视网膜扫描)的功能。在线社交网络可以将参考图像与稍后接收的图像输入进行比较(例如，用于认证用户，在照片中标记用户)。用户的隐私设置可以指定这种图像仅可用于有限的目的(例如，认证、在照片中标记用户)，并且还指定这种图像不能与任何第三方系统170共享，或者不能被与社交网络系统160相关联的其他进程或应用使用。

系统和方法

图13示出了示例计算机系统1300。在特定实施例中，一个或更多个计算机系统1300执行本文描述或示出的一个或更多个方法的一个或更多个步骤。在特定实施例中，一个或更多个计算机系统1300提供本文描述或示出的功能。在特定实施例中，在一个或更多个计算机系统1300上运行的软件执行本文描述或示出的一个或更多个方法的一个或更多个步骤，或者提供本文描述或示出的功能。特定实施例包括一个或更多个计算机系统1300的一个或更多个部分。在本文，在适当的情况下，对计算机系统的引用可以包括计算设备，反之亦然。此外，在适当的情况下，对计算机系统的引用可以包括一个或更多个计算机系统。

本公开设想了任何合适数量的计算机系统1300。本公开设想了计算机系统1300采取任何合适的物理形式。作为示例而非限制，计算机系统1300可以是嵌入式计算机系统、片上系统(SOC)、单板计算机系统(SBC)(诸如例如，模块上计算机(COM)或模块上系统(SOM))、台式计算机系统、膝上型或笔记本计算机系统、交互式信息亭、大型机、计算机系统网状网、移动电话、个人数字助理(PDA)、服务器、平板计算机系统、或者这些的两个或更多个的组合。在适当的情况下，计算机系统1300可以包括一个或更多个计算机系统1300；是整体式的或分布式的；跨越多个位置；跨越多台机器；跨越多个数据中心；或者驻留在云中，云可以包括在一个或更多个网络中的一个或更多个云组件。在适当的情况下，一个或更多个计算机系统1300可以在没有实质性空间或时间限制的情况下执行本文描述或示出的一个或更多个方法的一个或更多个步骤。作为示例而非限制，一个或更多个计算机系统1300可以实时地或以批处理模式来执行本文描述或示出的一个或更多个方法的一个或更多个步骤。在适当的情况下，一个或更多个计算机系统1300可以在不同的时间或在不同的位置处执行本文描述或示出的一个或更多个方法的一个或更多个步骤。

在特定实施例中，计算机系统1300包括处理器1302、存储器1304、存储装置1306、输入/输出(I/O)接口1308、通信接口1310和总线1312。尽管本公开描述并示出了具有在特定布置中的特定数量的特定组件的特定计算机系统，但是本公开设想了具有在任何合适布置中的任何合适数量的任何合适组件的任何合适的计算机系统。

在特定实施例中，处理器1302包括用于执行指令(例如构成计算机程序的那些指令)的硬件。作为示例而非限制，为了执行指令，处理器1302可以从内部寄存器、内部高速缓存、存储器1304或存储装置1306中检索(或取回)指令；将这些指令解码并执行它们；以及然后将一个或更多个结果写到内部寄存器、内部高速缓存、存储器1304或存储装置1306。在特定实施例中，处理器1302可以包括用于数据、指令或地址的一个或更多个内部高速缓存。在适当的情况下，本公开设想了处理器1302包括任何合适数量的任何合适的内部高速缓存。作为示例而非限制，处理器1302可以包括一个或更多个指令高速缓存、一个或更多个数据高速缓存、以及一个或更多个转译后备缓冲器(TLB)。在指令高速缓存中的指令可以是在存储器1304或存储装置1306中的指令的副本，并且指令高速缓存可以加速处理器1302对那些指令的检索。在数据高速缓存中的数据可以是：在存储器1304或存储装置1306中的数据的副本，用于使在处理器1302处执行的指令进行操作；在处理器1302处执行的先前指令的结果，用于由在处理器1302处执行的后续指令访问或者用于写到存储器1304或存储装置1306；或其他合适的数据。数据高速缓存可以加速由处理器1302进行的读或写操作。TLB可以加速关于处理器1302的虚拟地址转译。在特定实施例中，处理器1302可以包括用于数据、指令或地址的一个或更多个内部寄存器。在适当的情况下，本公开设想了处理器1302包括任何合适数量的任何合适的内部寄存器。在适当的情况下，处理器1302可以包括一个或更多个算术逻辑单元(ALU)；是多核处理器；或者包括一个或更多个处理器1302。尽管本公开描述并示出了特定的处理器，但是本公开设想了任何合适的处理器。

在特定实施例中，存储器1304包括用于存储用于使处理器1302执行的指令或用于使处理器1302操作的数据的主存储器。作为示例而非限制，计算机系统1300可以将指令从存储装置1306或另一个源(例如，另一个计算机系统1300)加载到存储器1304。处理器1302然后可以将指令从存储器1304加载到内部寄存器或内部高速缓存。为了执行指令，处理器1302可以从内部寄存器或内部高速缓存中检索指令并将它们解码。在指令的执行期间或之后，处理器1302可以将一个或更多个结果(其可以是中间结果或最终结果)写到内部寄存器或内部高速缓存。处理器1302然后可以将这些结果中的一个或更多个写到存储器1304。在特定实施例中，处理器1302仅执行在一个或更多个内部寄存器或内部高速缓存中或在存储器1304(而不是存储装置1306其他地方)中的指令，并且仅对在一个或更多个内部寄存器或内部高速缓存中或在存储器1304(而不是存储装置1306或其他地方)中的数据进行操作。一个或更多个存储器总线(其可以各自包括地址总线和数据总线)可以将处理器1302耦合到存储器1304。如下所述，总线1312可以包括一个或更多个存储器总线。在特定实施例中，一个或更多个存储器管理单元(MMU)驻留在处理器1302和存储器1304之间，并且便于由处理器1302请求的对存储器1304的访问。在特定实施例中，存储器1304包括随机存取存储器(RAM)。在适当的情况下，该RAM可以是易失性存储器。在适当的情况下，该RAM可以是动态RAM(DRAM)或静态RAM(SRAM)。此外，在适当的情况下，该RAM可以是单端口RAM或多端口RAM。本公开设想了任何合适的RAM。在适当的情况下，存储器1304可以包括一个或更多个存储器1304。尽管本公开描述并示出了特定的存储器，但是本公开设想了任何合适的存储器。

在特定实施例中，存储装置1306包括用于数据或指令的大容量存储装置。作为示例而非限制，存储装置1306可以包括硬盘驱动器(HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(USB)驱动器、或这些中的两个或更多个的组合。在适当的情况下，存储装置1306可以包括可移动或不可移动(或固定)介质。在适当的情况下，存储装置1306可以在计算机系统1300的内部或外部。在特定实施例中，存储装置1306是非易失性固态存储器。在特定实施例中，存储装置1306包括只读存储器(ROM)。在适当的情况下，该ROM可以是掩模编程ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可变ROM(EAROM)、或闪存、或这些中的两个或更多个的组合。本公开设想了采用任何合适的物理形式的大容量存储装置1306。在适当的情况下，存储装置1306可以包括便于在处理器1302和存储装置1306之间的通信的一个或更多个存储装置控制单元。在适当的情况下，存储装置1306可以包括一个或更多个存储装置1306。尽管本公开描述并示出了特定的存储装置，但是本公开设想了任何合适的存储装置。

在特定实施例中，I/O接口1308包括为在计算机系统1300和一个或更多个I/O设备之间的通信提供一个或更多个接口的硬件、软件或两者。在适当的情况下，计算机系统1300可以包括这些I/O设备中的一个或更多个。这些I/O设备中的一个或更多个可以实现在人和计算机系统1300之间的通信。作为示例而非限制，I/O设备可以包括键盘、小键盘、麦克风、监视器、鼠标、打印机、扫描仪、扬声器、静态摄像机、触笔、平板计算机、触摸屏、跟踪球、视频摄像机、另一个合适的I/O设备、或这些中的两个或更多个的组合。I/O设备可以包括一个或更多个传感器。本公开设想了任何合适的I/O设备以及用于它们的任何合适的I/O接口1308。在适当的情况下，I/O接口1308可以包括使处理器1302能够驱动这些I/O设备中的一个或更多个的一个或更多个设备或软件驱动器。在适当的情况下，I/O接口1308可以包括一个或更多个I/O接口1308。尽管本公开描述并示出了特定的I/O接口，但是本公开设想了任何合适的I/O接口。

在特定实施例中，通信接口1310包括提供用于在计算机系统1300和一个或更多个其他计算机系统1300或一个或更多个网络之间的通信(例如，基于分组的通信)的一个或更多个接口的硬件、软件或两者。作为示例而非限制，通信接口1310可以包括用于与以太网或其他基于有线的网络通信的网络接口控制器(NIC)或网络适配器，或者用于与无线网络(例如WI-FI网络)通信的无线NIC(WNIC)或无线适配器。本公开设想了任何合适的网络和用于它的任何合适的通信接口1310。作为示例而非限制，计算机系统1300可以与自组织网络、个域网(PAN)、局域网(LAN)、广域网(WAN)、城域网(MAN)或互联网的一个或更多个部分、或这些中的两个或更多个的组合进行通信。这些网络中的一个或更多个的一个或更多个部分可以是有线的或无线的。作为示例，计算机系统1300可以与无线PAN(WPAN)(例如，蓝牙WPAN)、WI-FI网络、WI-MAX网络、蜂窝电话网络(例如，全球移动通信系统(GSM)网络)、或其他合适的无线网络、或这些中的两个或更多个的组合进行通信。在适当的情况下，计算机系统1300可以包括用于这些网络中的任一个的任何合适的通信接口1310。在适当的情况下，通信接口1310可以包括一个或更多个通信接口1310。尽管本公开描述并示出了特定的通信接口，但是本公开设想了任何合适的通信接口。

在特定实施例中，总线1312包括将计算机系统1300的组件耦合到彼此的硬件、软件或两者。作为示例而非限制，总线1312可以包括加速图形端口(AGP)或其他图形总线、扩展工业标准体系结构(EISA)总线、前端总线(FSB)、HYPERTRANSPORT(HT)互连、工业标准体系结构(ISA)总线、INFINIBAND互连、低引脚数(LPC)总线、存储器总线，微通道体系结构(MCA)总线、外围部件互连(PCI)总线、PCI-Express(扩展)(PCIe)总线、串行高级技术附件(SATA)总线、视频电子标准协会本地(VLB)总线、或任何其他合适的总线、或这些中的两个或更多个的组合。在适当的情况下，总线1312可以包括一个或更多个总线1312。尽管本公开描述并示出了特定总线，但是本公开设想了任何合适的总线或互连。

在本文，在适当的情况下，一个或更多个计算机可读非暂时性存储介质可以包括一个或更多个基于半导体的或其他集成电路(IC)(诸如例如，现场可编程门阵列(FPGA)或专用IC(ASIC))、硬盘驱动器(HDD)、混合硬盘驱动器(HHD)、光盘、光盘驱动器(ODD)、磁光盘、磁光盘驱动器、软盘、软盘驱动器(FDD)、磁带、固态驱动器(SSD)、RAM驱动器、安全数字(SECURE DIGITAL)卡或驱动器、任何其他合适的计算机可读非暂时性存储介质、或这些中的两个或更多个的任何合适组合。在适当的情况下，计算机可读非暂时性存储介质可以是易失性的、非易失性的或者易失性和非易失性的组合。

其他杂项

本文中，除非另有明确指示或通过上下文另有指示，否则“或”是包括一切的而非排他性的。因此在本文，除非另有明确指示或通过上下文另有指示，否则“A或B”意指“A、B或两者”。此外，除非另有明确指示或通过上下文另有指示，否则“和”既是联合的又是各自的。因此在本文，除非另有明确指示或通过上下文另有指示，否则“A和B”意指“A和B，联合地或各自地”。

本公开的范围包括本领域中的普通技术人员将理解的对本文描述或示出的示例实施例的所有改变、替换、变化、变更和修改。本公开的范围不限于本文描述或示出的示例实施例。此外，尽管本公开将本文的相应实施例描述并示为包括特定的组件、元件、特征、功能、操作或步骤，但是这些实施例中的任何一个可以包括本领域中的普通技术人员将理解的在本文任何地方描述或示出的任何组件、元件、特征、功能、操作或步骤的任何组合或置换。此外，在所附权利要求中对适合于、被布置成、能够、被配置成、实现来、可操作来、或操作来执行特定功能的装置或系统或装置或系统的组件的引用包括该装置、系统、组件，无论它或那个特定功能是否被激活、开启或解锁，只要该装置、系统或组件是这样被调整、被布置、使能够、被配置、被实现、可操作的、或操作的。此外，尽管本公开将特定实施例描述或示为提供特定优点，但是特定实施例可以提供这些优点中的一些、全部或不提供这些优点。

Claims

1.一种方法，包括由一个或更多个计算系统：

从与第一用户相关联的客户端系统接收包括由所述第一用户执行的不完整手势的用户输入；

由意图理解模块计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数；

响应于确定每个意图的所计算的置信度分数低于所述阈值分数，基于个性化手势识别模型，从多个预定义手势中选择一个或更多个候选手势，其中，每个候选手势与表示所述第一用户打算输入相应候选手势的可能性的置信度分数相关联；以及

向所述客户端系统发送用于呈现对应于一个或更多个所述候选手势的一个或更多个建议输入的指令。

2.根据权利要求1所述的方法，还包括：

对于所述一个或更多个候选手势中的每一个，计算该候选手势相对于所述不完整手势的相似度。

3.根据权利要求2所述的方法，其中，每个候选手势相对于所述不完整手势的相似度基于所述不完整手势相对于所述客户端系统的轨迹。

4.根据权利要求2所述的方法，其中，每个候选手势相对于所述不完整手势的相似度基于所述不完整手势相对于所述客户端系统的取向。

5.根据权利要求2所述的方法，其中，每个候选手势相对于所述不完整手势的相似度基于与所述不完整手势相关联的对象。

6.根据权利要求2所述的方法，其中，每个候选手势相对于所述不完整手势的相似度基于与所述不完整手势相关联的上下文信息。

7.根据权利要求2所述的方法，其中，每个候选手势相对于所述不完整手势的相似度基于所述不完整手势相对于所述客户端系统的位置。

8.根据权利要求1所述的方法，其中，所述阈值分数基于由所述第一用户执行的唤醒手势。

9.根据权利要求1所述的方法，其中，计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数是基于与所述不完整手势相关联的速度。

10.根据权利要求1所述的方法，其中，计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数是基于与所述不完整手势相关联的时间信息，并且其中，所述时间信息包括所述用户输入中的暂停。

11.根据权利要求1所述的方法，还包括：

从所述客户端系统接收来自所述第一用户的用户选择的输入，其中，所述用户选择的输入包括所述建议输入之一；以及

基于所述用户选择的输入执行一个或更多个任务。

12.根据权利要求1所述的方法，其中，选择所述一个或更多个候选手势还基于所述一个或更多个意图。

13.根据权利要求1所述的方法，其中，每个预定义手势包括指向、戳、轻击、挥动或滑动中的一个或更多个。

14.根据权利要求1所述的方法，还包括：

从所述客户端系统接收来自所述第一用户的第一用户选择的输入，其中，所述第一用户选择的输入包括所述建议输入之一，并且其中，所述第一用户选择的输入与第一意图相关联；

基于所述第一用户选择的输入，生成一个或更多个附加候选手势，其中，所述一个或更多个附加候选手势中的每一个都与所述第一意图相关联；

向所述客户端系统发送用于呈现对应于一个或更多个所述附加候选手势的一个或更多个附加建议输入的指令；

从所述客户端系统接收来自所述第一用户的第二用户选择的输入，其中，所述第二用户选择的输入包括所述附加建议输入之一；以及

基于所述第二用户选择的输入执行一个或更多个任务。

15.体现软件的一个或更多个计算机可读非暂时性存储介质，所述软件在被执行时可操作来：

16.根据权利要求15所述的介质，其中，所述软件在被执行时还可操作来：

17.根据权利要求15所述的介质，其中，每个候选手势相对于所述不完整手势的相似度基于所述不完整手势相对于所述客户端系统的轨迹。

18.根据权利要求15所述的介质，其中，每个候选手势相对于所述不完整手势的相似度基于所述不完整手势相对于所述客户端系统的取向。

19.根据权利要求15所述的介质，其中，每个候选手势相对于所述不完整手势的相似度基于与所述不完整手势相关联的对象。

20.一种系统，包括：一个或更多个处理器；和耦合到所述处理器的非暂时性存储器，所述非暂时性存储器包括所述处理器能够执行的指令，所述处理器在执行所述指令时可操作来：

21.一种方法，特别地用于在助理系统中使用，所述方法用于通过使用户能够在会话中利用用户输入与所述助理系统交互以获取帮助，来帮助用户获得信息或服务，其中，所述用户输入包括声音、文本、图像、视频、运动或取向或它们的任意组合，所述助理系统特别地通过计算设备、应用编程接口(API)、以及用户设备上应用激增的组合来实现，

所述方法包括，由一个或更多个计算系统：

22.根据权利要求21所述的方法，还包括：

23.根据权利要求22所述的方法，其中，每个候选手势相对于所述不完整手势的相似度基于以下一项或更多项：

-所述不完整手势相对于所述客户端系统的轨迹

-所述不完整手势相对于所述客户端系统的取向

-与所述不完整手势相关联的对象

-与所述不完整手势相关联的上下文信息

-所述不完整手势相对于所述客户端系统的位置。

24.根据权利要求21至23中任一项所述的方法，其中，所述阈值分数基于由所述第一用户执行的唤醒手势。

25.根据权利要求21至24中任一项所述的方法，其中，计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数是基于与所述不完整手势相关联的速度。

26.根据权利要求21至25中任一项所述的方法，其中，计算对应于所述不完整手势的一个或更多个意图的一个或更多个置信度分数是基于与所述不完整手势相关联的时间信息，并且其中，所述时间信息包括所述用户输入中的暂停。

27.根据权利要求21至26中任一项所述的方法，还包括：

基于所述用户选择的输入执行一个或更多个任务。

28.根据权利要求21至27中任一项所述的方法，其中，选择所述一个或更多个候选手势还基于所述一个或更多个意图。

29.根据权利要求21至28中任一项所述的方法，其中，每个预定义手势包括指向、戳、轻击、挥动或滑动中的一个或更多个。

30.根据权利要求21至29中任一项所述的方法，还包括：

基于所述第二用户选择的输入执行一个或更多个任务。

31.根据权利要求21至30中任一项所述的方法，其中，不完整手势包括用户手的暂停移动、张开的用户手在空中暂停、用户手势的开始中的一个或更多个，所述不完整手势能够指示用户还没有完成整个手势。

32.根据权利要求21至31中任一项所述的方法，特别地，其中所述客户端系统是虚拟现实(VR)头戴式装置和/或增强现实(AR)智能眼镜；和/或

特别地，其中所述客户端系统从包括一个或更多个传感器的I/O设备接收用户输入；

特别地，其中所述I/O设备包括键盘、小键盘、麦克风、监视器、鼠标、打印机、扫描仪、扬声器、静态照相机、触笔、平板计算机、触摸屏、跟踪球、摄像机、另一个合适的I/O设备、或这些设备中的两个或更多个的组合。

33.根据权利要求21至32中任一项所述的方法，其中，所述意图理解模块能够包括自然语言理解模块和手势分类模型；

特别地，其中所述手势分类模型包括离线训练以识别用户执行的不同类别手势的机器学习模型；

特别地，其中所述手势分类模型基于卷积神经网络、张量流或隐马尔可夫模型中的一个或更多个。

34.体现软件的一个或更多个计算机可读非暂时性存储介质，所述软件在被执行时可操作来执行根据权利要求21至33中任一项的方法或者来：

35.根据权利要求34所述的介质，其中，所述软件在被执行时还可操作来：

36.根据权利要求35所述的介质，其中，每个候选手势相对于所述不完整手势的相似度基于以下一项或更多项：

-所述不完整手势相对于所述客户端系统的轨迹

-所述不完整手势相对于所述客户端系统的取向

-与所述不完整手势相关联的对象

-与所述不完整手势相关联的上下文信息

-所述不完整手势相对于所述客户端系统的位置。

37.一种系统，包括：一个或更多个处理器；以及耦合到所述处理器的非暂时性存储器，所述非暂时性存储器包括所述处理器能够执行的指令，所述处理器在执行所述指令时可操作来执行根据权利要求21至33中任一项的方法或者来：

38.一种助理系统，其用于通过使用户能够在会话中利用用户输入与所述助理系统交互以获取帮助，来帮助用户获得信息或服务，其中，所述用户输入包括声音、文本、图像、视频、运动或取向或它们的任意组合，所述助理系统特别地通过计算设备、应用编程接口(API)、以及用户设备上应用激增的组合来实现，所述系统包括：一个或更多个处理器；以及耦合到所述处理器的非暂时性存储器，所述非暂时性存储器包括所述处理器能够执行的指令，所述处理器在执行所述指令时可操作来执行根据权利要求21至33中的任一项的方法。

39.根据权利要求38所述的助理系统，用于通过执行以下特征或步骤中的至少一个或更多个来帮助用户：

-创建并存储包括与用户相关联的个人信息和上下文信息的用户简档

-使用意图理解模块分析所述用户输入，其中，所述意图理解模块能够包括自然语言理解模块和手势分类模型

-使用自然语言理解来分析所述用户输入，其中，所述分析能够基于所述用户简档，用于更个性化和上下文感知的理解

-基于所述分析解析与所述用户输入相关联的实体

-通过使用自然语言生成来为用户生成关于信息或服务的响应

-通过汇总信息，帮助用户有效和高效地消化获得的信息

-通过提供帮助用户与在线社交网络交互(例如，创建帖子、评论、消息)的工具，帮助用户更好地参与所述在线社交网络

-帮助用户管理不同的任务，如持续跟踪事件

-在与用户相关的时间，而没有用户输入的情况下，基于所述用户简档，主动执行与用户兴趣和偏好相关的预授权任务

-每当有必要确保访问用户简档和执行不同的任务都遵守用户的隐私设置时就检查隐私设置。

40.根据权利要求38或39所述的助理系统，包括以下部件中的至少一个或更多个：

-消息传递平台，其用于从与用户相关联的客户端系统接收基于文本模态的用户输入和/或接收基于图像或视频模态的用户输入，并在所述消息传递平台内使用光学字符识别技术对基于图像或视频模态的该用户输入进行处理，以将该用户输入转换成文本，

-音频语音识别(ASR)模块，其用于从与用户相关联的所述客户端系统接收基于音频模态的用户输入(例如，用户能够说话或者发送包括语音的视频)，并将基于所述音频模态的所述用户输入转换成文本，

-助理xbot，其用于接收所述消息传递平台或所述ASR模块的输出。

41.一种系统，包括：

至少一个客户端系统，特别是电子设备，

根据权利要求39至40中任一项所述的至少一个助理系统，

所述客户端系统和所述助理系统特别地通过网络彼此连接，

其中，所述客户端系统包括用于允许所述客户端系统的用户与所述助理系统交互的助理应用，

其中，所述助理应用将用户输入传送给所述助理系统，并且基于所述用户输入，所述助理系统生成响应并将所生成的响应发送给所述助理应用，并且所述助理应用向所述客户端系统的用户呈现所述响应，

其中特别地，所述用户输入是音频或口头的，并且所述响应能够是文本或者也能够是音频或口头的。

42.根据权利要求41所述的系统，还包括社交网络系统，

其中，所述客户端系统特别地包括用于访问所述社交网络系统的社交网络应用。