CN112119373A

CN112119373A - 选择虚拟助理的输入模式

Info

Publication number: CN112119373A
Application number: CN201980032731.5A
Authority: CN
Inventors: 易卜拉欣·巴德尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-05-16
Filing date: 2019-05-13
Publication date: 2020-12-22
Anticipated expiration: 2039-05-13
Also published as: KR20230020019A; KR102494642B1; CN112119373B; KR20210005253A; JP7167187B2; US20220027030A1; US20230342011A1; US20190354252A1; KR102667842B1; US11720238B2; JP2021523487A; EP3776172A1; US11169668B2; WO2019222076A1

Abstract

描述了用于选择输入模式的方法、系统和装置。在一个方面，一种方法包括接收指定从移动设备的锁定屏幕启动虚拟助理应用的请求的请求数据。响应于接收到请求数据，获得输入信号。基于输入信号，从候选输入模式中选择用于虚拟助理应用的输入模式。每个候选输入模式是与每个其他候选输入模式的每个其他输入类型不同的输入类型。输入类型包括图像类型和音频类型。图像类型的输入模式接收用于虚拟助理应用的输入的像素数据。音频类型的输入模式接收用于虚拟助理应用的音频输入。虚拟助理应用呈现基于使用所选择的输入模式接收到的输入信号所选择的内容。

Description

选择虚拟助理的输入模式

背景技术

虚拟助理是可以为用户执行任务或服务(诸如回答问题、播放音乐，调度日历应用中的事件等)的软件应用。虚拟助理通常经由语音或文本以自然语言形式接收请求。例如，用户可以使用语音向虚拟助理提出问题，并且虚拟助理可以识别语音输入，并使用扬声器提供对该问题的答案或在用户界面中呈现该答案。

发明内容

本说明书描述了与基于一个或多个信号来选择用于向用户提供内容的输入模式相关的技术。通常，本说明书中描述的主题的一个创新方面可以体现在包括下述的方法中：接收指定从移动设备的锁定屏幕启动虚拟助理应用的请求的请求数据；响应于接收到请求数据，获得输入信号，每个输入信号的输入类型与每个其它输入信号的每个其它输入类型不同，并且每个输入信号是虚拟助理的输入，用于输入信号的输入类型包括图像类型和音频类型，其中图像类型的输入信号是由移动设备的相机捕获到的图像的像素数据，并且音频类型的输入信号是通过移动设备的麦克风捕获到的音频输入的音频数据；基于输入信号并且从多个候选输入模式中选择虚拟助理应用的输入模式，其中每个候选输入模式的输入类型与其他每个候选输入模式的输入类型不同，并且输入类型包括图像类型和音频类型，其中图像类型的输入模式接收用于虚拟助理应用的输入的像素数据，音频类型的输入模式接收用于虚拟助理应用的音频输入；以及由虚拟助理应用向移动设备的用户呈现内容，所呈现的内容基于使用所选择的输入模式接收到的输入信号来选择。该方面的其他实施方式包括被配置成执行在计算机存储设备上编码的方法的动作的相应装置、设备、系统和计算机程序。

这些和其他实施方式可以各自可选地包括以下特征中的一个或多个。在一些方面，基于输入信号并且从多个候选输入模式中选择用于虚拟助理应用的输入模式包括，基于像素数据确定图像是否包括一个或多个所识别的对象；基于音频数据确定音频是否包括一个或多个所识别的口头话语(spoken words)，以及基于相应的确定选择输入模式中的至少一种。

一些方面包括基于所选择的输入模式将多个输入信号的输入传送到远程服务器。可以基于输入信号的所传送的输入，从远程服务器接收呈现给用户的内容。

一些方面包括基于所选择的输入模式选择用户界面以供虚拟助理应用进行呈现。可以使用所选择的用户界面来呈现内容。

在一些方面，获得输入信号包括基于从移动设备的加速度计或移动设备的陀螺仪中的一个或多个接收到的数据来确定移动设备相对于用户的位所。基于输入信号并且从多个候选输入模式中选择用于虚拟助理应用的输入模式可以包括基于移动设备相对于用户的位所来选择输入模式。

在一些方面，获得输入信号包括基于从移动设备的加速度计或移动设备的陀螺仪中的一个或多个接收到的数据来确定其中移动设备的相机正指向的方向。基于输入信号并且从多个候选输入模式中选择用于虚拟助理应用的输入模式可以包括基于其中移动设备的相机正指向的方向来选择输入模式。

在一些方面，获得与用于虚拟助理的输入相关的一个或多个信号可以包括获得指定移动设备的地理位所的地理位所数据。基于一个或多个信号并且从多个候选输入模式中选择用于虚拟助理应用的输入模式可以包括基于移动设备的地理位所来选择输入模式。

在一些方面，基于一个或多个信号并且从多个候选输入模式中选择用于虚拟助理应用的输入模式可以包括确定语音输入是否包括查询以及响应于确定语音输入包括查询来选择音频输入模式。在一些方面中，由虚拟助理应用向移动设备的用户呈现内容可以包括在虚拟助理应用的用户界面中呈现图像内容、在虚拟助理应用的用户界面中呈现视频内容、或者播放音频内容中的至少一个。

本说明书中描述的主题可以在特定实施例中实现，使得实现下述优点中的一个或多个。通过基于接收到的输入信号自动确定输入模式，可以更有效且高效地处理输入信号。例如，通过首先基于接收到的信号确定输入模式，可以避免不提供有用输入的输入信号的进一步处理。例如，可以确定接收到的图像或音频数据不是作为查询的一部分提供的输入信号，并且因此，诸如对象识别和/或分类技术的计算上昂贵的图像或音频处理技术可能不被应用于接收到的基于图像的输入信号。可以附加地或可替代地避免将输入信号传输到远程设备，从而避免不适合在远程设备处进行处理的向远程设备传输信号的带宽使用。通过响应于用户从锁定屏幕(或其他用户界面元素)启动虚拟助理应用选择输入模式，与等待用户选择输入模式或提示用户从多种输入模式中进行选择相比，虚拟助理应用可以基于从所选择的输入模式接收到的输入信号更快地标识和呈现内容。使用适当的输入模式允许虚拟助理应用更准确地响应用户的请求，例如，通过响应用户的请求提供适当的内容。

这防止用户不得不进行多个请求，反而减少计算系统处理该请求以标识和选择内容的次数。聚集在许多用户上，这可以通过减少强加于计算机的处理需求来显著改善选择内容的内容分发系统的计算机的机能。因为可以通过网络访问内容分发系统，所以减少请求数量还可以减少消耗的带宽量，从而允许针对其他网络业务的带宽和/或增加网络速度。

通过为用户选择适当的输入模式，用户不必为每个请求选择输入模式而有负担。这可以改善用户体验，并允许用户更快的请求以及用户的更大灵活性。例如，用户可以握住移动设备，使得相机正指向对象并获得有关该对象的信息，而不必也与移动设备进行交互以选择相机输入模式。

下面关于附图描述前述主题的各种特征和优点。根据本文描述的主题和权利要求，其他特征和优点是显而易见的。

附图说明

图1是其中虚拟助理应用选择输入模式并且呈现基于使用所选择的输入模式接收到的输入信号所选择的内容的环境的框图。

图2描绘选择输入模式并且呈现基于使用所选择的输入模式接收到的输入信号所选择的内容的移动设备的示例屏幕截图的序列。

图3描绘选择输入模式并且呈现基于使用所选择的输入模式接收到的输入信号所选择的内容的移动设备的示例屏幕截图的另一序列。

图4是用于选择用于虚拟助理应用的输入模式并且呈现基于使用所选择的输入模式接收到的输入信号的内容的示例过程的流程图。

在各个附图中，相似的附图标记和名称指示相似的元件。

具体实施方式

通常，本文描述的系统和技术可以选择在选择要呈现给用户的内容时使用的输入模式。可以从多个不同的输入模式中选择输入模式，其中，每个输入模式的输入类型与每个其他输入模式的每个其它输入类型不同。例如，输入模式可以包括音频类型的音频输入模式(例如，语音输入)、图像类型的图像输入模式、文本类型的文本输入模式和/或两种或多种输入类型(例如，语音和图像)的组合输入模式。可以响应于启动虚拟助理应用(或另一个应用)的请求来选择输入模式。虚拟助理应用可以基于从多个不同候选输入模式接收到的输入信号来选择输入模式。

例如，用户能够请求通过做出手势(诸如在特定方向中滑动锁定屏幕上呈现的图标)从移动设备的锁定屏幕启动虚拟助理应用。响应于检测到请求，虚拟助理应用可以获取一个或多个信号，并基于一个或多个信号确定在标识内容时使用哪种输入模式。

信号可以与虚拟助理应用的输入模式相关。例如，信号可以包括在语音输入中识别的单词或短语、移动设备的相机的取景器的像素数据(例如，是否在取景器中检测到对象和/或所识别的对象或对象的类型)、和/或移动设备的位置和/或定向(例如，移动设备是否靠近用户的面部或者面部朝下)。信号还可以包括移动设备的地理位所(例如，移动设备位于哪种类型的建筑物中)、环境信号(例如，照明量和/或环境噪声)、用于基于先前的信号的输入模式的用户的历史或偏好和/或其他适当的信号。

例如，如果语音输入包括问题并且在表示取景器中示出什么(例如，相机正在捕获什么)的像素数据中未识别出对象，当用户可能向虚拟助理应用提出问题并且没有将相机指向其中用户感兴趣的对象时可以选择语音输入模式。在另一个示例中，如果用户将移动设备靠近用户的面部握住并且在像素数据中检测到一个或多个对象，则用户可能会请求关于对象之一的信息。

图1是虚拟助理应用116选择输入模式并呈现基于使用所选输入模式接收到的输入信号而选择的内容的环境100的框图。虚拟助理应用116可以安装在移动设备110上和/或由其执行。移动设备110是能够通过数据通信网络140发送和接收数据的电子设备。示例移动设备110包括智能电话、平板计算设备、可穿戴计算设备(例如，智能手表)和其他可以通过网络140发送和接收数据的设备。网络140可以包括局域网(LAN)、广域网(WAN)、互联网、移动网络或其组合。

虚拟助理应用116可以实现为针对特定平台或特定设备开发的本机应用。虚拟助理应用116可以为移动设备110的用户执行任务或服务。例如，虚拟助理应用116可以回答用户问题，标识并呈现与对象(例如，相机111的图像或取景器中描述的对象)相关的数据，播放音乐，配置其他应用(例如，在日历应用中设置会议)和/或其他适当的任务或服务。

虚拟助理应用116可以经由多个不同的输入模式来接收请求(例如，问题、命令或针对信息的请求)。例如，虚拟助理应用116可以接收来自移动设备110的麦克风112的语音请求。虚拟助理应用116还可以检测和/或识别移动设备110的相机111的取景器中的对象并且将用户将相机111指向对象这一事实解释为对有关对象的更多信息的请求。在一些实施方式中，虚拟助理应用116还可以接收文本请求，例如使用移动设备110的物理或触摸键盘键入。

移动设备110可以允许从移动设备110的锁定屏幕访问虚拟助理应用116。锁定屏幕是通过要求用户执行访问移动设备110的动作来调节对移动设备110的访问的用户界面元素。移动设备110可以被配置成在移动设备110被锁定的同时响应检测到特定用户动作(例如，手势)来启动虚拟助理应用116。例如，用户动作可以是在特定方向上滑动图标、以特定动作移动移动设备116、说出特定命令或其他适当动作。

响应于检测到特定用户动作，移动设备110可以启动虚拟助理应用116并呈现虚拟助理应用116的用户界面。此外，虚拟助理应用116可以获得一个或多个输入信号，以用于从多种不同的候选输入模式中进行选择。每个候选输入模式可以是与每个其他候选输入模式的每个其他输入类型不同的输入类型。候选输入模式可以包括图像类型的图像输入模式和音频类型的音频输入模式。图像输入模式可以接收用于虚拟助理应用的输入的像素数据。类似地，音频输入模式可以接收用于虚拟助理应用的音频输入。

候选输入模式还可以包括接收两种或更多种类型的输入(例如，像素数据和音频数据、或者音频数据和文本数据)的组合输入模式。如上所述，可以基于输入信号中的一个或多个例如使用一组规则或机器学习模型来选择输入模式。

每个输入信号可以是与每个其它输入信号的每个其它输入类型不同的输入类型。例如，输入类型可以包括图像类型和音频类型。图像类型的输入信号可以是由移动设备的相机捕获的一个或多个图像的像素数据，例如，在移动设备检测到启动虚拟助理应用的请求之后捕获到的一个或多个图像的像素数据。像素数据可以包括用于每个图像的相应像素数据集。每个像素数据集可以表示相机的取景器在特定时间点的像素。每个像素数据集中的像素数据可以包括指定相机的取景器的每个像素的视觉特性(例如，颜色、强度、亮度等)的数据。

音频类型的输入信号可以是用于由移动设备的麦克风捕获的音频输入的音频数据。例如，如果音频输入包括口头话语，则音频数据可以包括表示音频输入中的口头话语的文本。例如，虚拟助理应用(或另一个应用)可以使用音频转录技术将音频数据转换为文本。

虚拟助理应用116包括输入模式选择器117，其基于输入信号选择输入模式。当启动虚拟助理应用116时，虚拟助理应用116可以开始获取信号。例如，当启动虚拟助理应用116时，虚拟助理应用116可以开始从麦克风112获取音频输入，并从相机111获取取景器的像素数据。输入模式选择器117可以监视这些信号，直到输入模式选择器117具有足够的信息来选择输入模式为止。例如，输入模式选择器117可以监视音频流、图像流的像素数据和/或其他信号，直到输入模式选择器117获得足够的数据以决定要选择哪种输入模式为止。

确定是否已经获得足够的数据可以基于是否在音频输入中检测到查询、是否在用于取景器的像素数据中检测到对象、对象的类别、是否识别出对象(例如，标识实际对象)、是否可以确定移动设备相对于用户的位置、或者这些信号中一个或多个的组合。在一些实施方式中，输入模式选择器117基于这些信号中的一个或多个确定候选输入模式的置信度分值。如果置信度分值满足或超过阈值，则输入模式选择器117可以选择候选输入模式。

虚拟助理应用116包括语音识别器119，该语音识别器119可以接收来自麦克风112的音频输入，并将音频转变为文本(如果音频包括口头话语)，并将文本提供给虚拟助理应用116。然后，虚拟助理应用116可以使用文本(单独或与其他信号组合)选择输入模式。

在一些实施方式中，输入模式选择器117可以基于语音识别器119输出的文本是否包括查询来选择输入模式。例如，输入模式选择器117可以将文本与查询集(例如，虚拟助理应用从一个或多个用户接收到的先前查询或定义的查询集)进行比较。如果文本与查询匹配，则输入模式选择器117可以选择音频输入模式，并使用文本来标识要呈现给用户的内容。在另一示例中，输入模式选择器117使用语言模型来确定文本包括查询的可能性。可以使用查询集(例如使用指定哪个文本是查询和哪个文本不是查询的所标记的训练数据)来训练语言模型。语言模型可以输出输入文本包括基于输入文本的查询的可能性。

输入模式选择器117可以使用指定文本是单独包括查询还是与其他信号组合来包括查询的数据来选择输入模式。如果文本包含查询，则用户更有可能基于已被转变为文本的用户的语音输入请求内容。因此，输入模式选择器117可以选择音频输入模式，并在文本包括查询时使用文本选择要呈现给用户的内容。

输入模式选择器117可以基于用于相机111的取景器的像素数据选择输入模式。在虚拟助理应用116启动之后虚拟助理应用116可以从相机111获得像素数据。例如，虚拟助理应用116可以获得像素数据集的流。每个像素数据集可以表示特定时间点的取景器的像素。每个像素数据集中的像素数据可以包括指定取景器的每个像素的视觉特性(例如，颜色、强度、亮度等)的数据。

在一些实施方式中，输入模式选择器117基于像素的整体亮度来选择输入模式。例如，如果整体亮度低(例如，小于阈值)，则用户可能在夜晚处于外面或处于其中用户不太可能基于可以在相机111的取景器中检测到什么来请求内容的黑暗位所中。但是，如果像素的整体亮度高(例如，大于阈值)，则用户可能在白天处于外面或者处于其中用户可能会尝试获得相机的取景器111中的信息的光线充足的房间。可以基于像素数据集中的每个像素的视觉特性的组合(例如，跨像素集中的所有像素的亮度值的平均值)来确定像素数据集的整体亮度。

输入模式选择器117可以基于是否在取景器(例如，在一个或多个像素数据集中)检测到对象来选择输入模式，并且如果是，则标识对象或对象的类别。例如，虚拟助理应用116可以包括对象识别器120，该对象识别器120试图检测和识别(例如，标识)像素数据(或图像)中的对象。对象识别器120可以使用边缘检测和/或其他对象识别技术来检测各种对象，诸如人、条形码、地标、绘画、车辆和/或其他类型的对象。

在一些实施方案中，对象识别器120包括粗分类器，其确定像素数据集是否包括对象的一个或多个特定类别(例如，种类)中的对象。例如，粗分类器可以在识别或不识别实际对象的情况下检测到像素数据集包括特定类别的对象。

粗分类器可以基于图像是否包括指示对象类别的一个或多个特征来检测对象类别的存在。粗分类器可以包括轻量级模型，以执行低计算分析来检测其对象类别中对象的存在。例如，粗分类器可以针对每个对象类别检测图像中描绘的有限的视觉特征集，以确定图像是否描绘落入对象类别内的对象。在特定示例中，粗分类器可以检测图像是否描绘被分类为以下一种或多种类别的对象：文本、条形码、地标、媒体对象(例如，专辑封面、电影海报等)、或艺术品对象(例如，绘画、雕塑等)。对于条形码，粗分类器可以确定图像是否包括具有不同宽度的平行线。

在一些实施方式中，粗分类器使用经训练的机器学习模型(例如，卷积神经网络)基于图像的视觉特征对图像进行分类。例如，可以使用标记有它们相应类别的已标记的图像来训练机器学习模型。可以训练机器学习模型，以将图像分类为特定对象类别集中的零个或多个特定对象类别。机器学习模型可以接收与图像的视觉特征相关的数据作为输入，并输出分类成特定对象类别集中的零个或多个特定对象类别。

粗分类器可以输出指定是否在图像中检测到对象类别的数据。粗分类器还可以输出指示在图像中已经检测到对象类别的存在的置信度的置信度值和/或指示在图像中描绘诸如艾菲尔铁塔的实际对象的置信度的置信度值。

对象识别器120可以将指定是否在像素数据集中检测到对象的数据提供给输入模式选择器117，并且如果识别出对象，则提供标识所识别的对象的数据。当使用粗分类器时，对象识别器120可以向输入模式选择器117提供指定是否已经检测到在对象类别中的至少一个对象类别内的对象的存在的数据，如果是，则提供检测到的类别。如上所述，虚拟助理应用116可以接收像素数据集的流。在此示例中，对象识别器120可以评估每个像素数据集，并针对流中的每个像素数据集(或其至少一部分)将此数据提供给输入模式选择器117。

输入模式选择器117可以基于一个或多个像素数据集是否包括对象、所识别的实际对象和/或在像素数据集中检测到的对象类别来选择输入模式。例如，如果在取景器中(基于用于取景器的像素数据集)检测到对象，则与如果在取景器中不存在可检测到的对象相比，用户更有可能基于什么在取景器中来请求内容。因此，如果在像素数据中检测到对象或对象类别，则输入模式选择器117可以选择图像输入模式。

如果检测到特定对象或对象类别，则输入模式选择器117可以选择图像输入模式，而不是其他输入模式。例如，如果检测到地标或名画，则与检测到木地板或沙子相比，用户更有可能请求有关地标或名画的内容。

输入模式选择器117还可以基于例如流中的像素数据集的序列来选择输入模式。例如，如果在像素数据集中识别的对象在短时间段(例如，2-5秒)内改变，则用户有可能在到处移动移动设备110而不是尝试获取针对特定对象的内容，并且如果音频输入包括查询，则可以选择音频输入模式。然而，如果在像素数据集的序列中识别出相同的对象，则用户更有可能请求该对象的内容，并且可以选择图像输入模式。

输入模式选择器117还可以基于移动设备110例如相对于用户的位所和/或移动设备110的定向来选择输入模式。如果移动设备110在用户或用户的面部附近(例如，在阈值距离内)，则用户可能正在查看取景器，并且正在请求用于取景器中的对象的内容并且可以选择图像输入模式。如果移动设备远离用户或用户的面部(例如，大于阈值距离)，则可以选择“视频”，则取景器不太可能正在查看取景器并且可以选择音频输入模式。

在一些实施方式中，输入模式选择器117可以基于最近的移动(例如，在启动虚拟助理应用的请求被接收到之前的阈值时间量内)来确定移动设备110是否靠近用户的面部。例如，输入模型选择器117可以例如在连续流中从加速计113和/或陀螺仪114获得描述移动设备110的运动的数据。输入模式选择器117可以确定移动设备110在接收到请求之前的阈值时间量内是否向上移动(例如，至少阈值距离)。如果是这样，则输入模式选择器117可以确定移动设备117可能靠近用户的面部。类似地，在移动设备110向下移动至少阈值距离的情况下，移动设备很可能没有靠近用户的面部。

在一些实施方式中，输入模式选择器117可以基于音频输入来确定移动设备117是否靠近用户的面部。例如，输入模式选择器117可以基于在音频输入中检测到的语音输入的强度来确定移动设备117是否靠近用户的面部。如果语音输入至少是阈值强度，则输入模式选择器117可以确定移动设备110靠近用户的面部。

输入模式选择器117还可以基于移动设备110的定向或移动设备110相对于地面的角度来选择输入模式。输入模式选择器117可以基于从加速度计113和/或陀螺仪114接收到的数据来确定移动设备110的定向或角度。如果移动设备100被定向使得相机111水平或者向上面对用户，则可以指示用户将相机指向对象以获得与该对象相关的内容，并且可以选择图像输入模式。如果移动设备110被定向使得相机111向下面对用户，则其可以指示用户正在与移动设备110讲话，而不是将相机指向对象，并且音频输入模式可以被选择。

输入模式选择器117还可以基于移动设备110的位所(例如，移动设备110的地理位所)来选择输入模式。例如，移动设备110可以包括全球定位系统(GPS)传感器，其确定移动设备110的地理位所。输入模式选择器117可以使用地理位所来确定什么建筑物、建筑物类型、外部区域(例如，公园、地标、纪念碑)、或移动设备110所位于的其他区域。例如，输入模式选择器117可以将移动设备110的GPS坐标与已知位所的GPS坐标进行比较，以确定移动设备110所位于的建筑物或区域的类型。在某些类型的位所(例如，在博物馆、地标等)中，与语音相比，用户可能更有可能基于对象的图像来请求内容。当移动设备110处于这些位所之一(或在距这些位所的阈值距离之内)时，输入模式选择器117可以选择图像输入模式。如果移动设备110位于用户很有可能使用语音请求来请求内容的类型的位所中，则输入模式选择器117可以选择音频输入模式。

输入模式选择器117可以基于先前信号基于用户对输入模式的历史或者偏好来选择输入模式。例如，用户可以选择与信号相关的特定情况下用户偏爱的输入模式。在特定示例中，当移动设备指向向上角度时，在取景器中检测到特定类别的对象、或者当用户说出特定短语时，用户可以选择图像输入模式。如果信号与这些情况之一匹配，则输入模式选择器117可以选择图像输入模式。

在另一个示例中，输入模式选择器117可以维持用户为各种信号值选择的输入模式的历史。例如，输入模式选择器117对于用户而言可以维持用户针对每个单独的信号或者每个信号组合的每个值选择每种输入模式的次数。如果当信号具有特定值或在特定范围内时用户选择一种输入模式的频率比另一种输入模式更加频繁，当信号具有特定值或者值的范围时输入模式选择器117可以选择一种输入模式。例如，如果用户在总像素亮度大于阈值时选择图像输入模式，则输入模式选择器117可以在用于取景器的像素数据集的总亮度值大于阈值时选择图像输入模式。

因为当启动虚拟助理应用时输入模式选择器117可以获得多个信号，所以可能难以选择适当的输入模式。在一些实施方式中，输入模式选择器117处理一组规则或其他逻辑以基于信号选择输入模式。在一个示例中，规则可以指定信号的层级或相对重要性。例如，对象的检测可以具有比移动设备110的位所或定向更高的权重。在该示例中，如果在像素数据中检测到对象，则输入模式选择器117可以选择图像输入模式，不管移动设备110的位置或定向如何。

输入模式选择器117可以处理规则以便选择输入模式。例如，第一规则可以指定如果检测到对象，则应选择图像输入模式。如果不是，则应处理第二规则。第二规则可以指定如果音频输入包括查询，则应该选择音频输入模式。如果不是，则应处理第三条规则等，直到对输入模式的选择被选择为止。

在一些实施方式中，输入模式选择器117使用经训练的机器学习模型来选择输入模式。可以使用所标记的训练数据来训练机器学习模型，该训练数据为信号的多个不同组合中的每一个指定应选择哪种输入模式。由输入模式选择器117获得的各种信号可以被提供作为机器学习模型的输入。机器学习模型的输出是基于输入对输入模式之一的选择。

在一些实施方式中，输入模式选择器117可以选择基于音频和图像输入两者的输入模式。例如，当从音频转变的文本与在用于取景器的像素数据中识别的对象相关时，输入模式选择器117可以选择这种输入模式。当文本指代同一对象、同一对象类别或该对象的特性时，输入模式选择器117可以确定该文本与该对象相关。在特定示例中，用户可以在将移动设备110的相机111指向汽车时讲出“how much does this car cost(这辆汽车值多少钱)”。输入模式选择器117可以确定两个输入都与汽车相关并选择音频和图像输入模式。

在输入模式选择器117选择输入模式之后，虚拟助理应用116可以通过网络140将用于输入模式的输入发送到内容分发系统150。例如，如果选择图像输入模式，虚拟助理应用116可以将一个或多个像素数据集发送到内容分发系统150。像素数据集可以包括取景器用于选择图像输入模式的像素数据和/或在选择图像输入模式之后捕获的像素数据集。例如，虚拟助理应用116可以首先发送用于选择图像输入模式的像素数据集。如果取景器稍后指向不同对象，则虚拟助理应用116可以向内容分发系统150发送用于不同对象的像素数据。因此，虚拟助理应用116可以基于所选择的输入模式将输入传送到内容分发系统150。例如，仅被选择的与输入模式相关联的输入可以被传送到内容分发系统。因此，虚拟助理应用116可以预处理输入信号，以确定可用于向用户提供内容的输入信号和/或旨在作为来自用户的输入的输入信号，并且仅传送被确定可用于向用户提供内容的输入信号。因此，可以仅通过发送有用的输入信号来减少在通信网络上的输入信号的传送。

类似地，虚拟助理应用116可以将从在选择音频输入模式之前和/或之后捕获的音频输入转变的文本发送到内容分发系统150。例如，如果在选择音频输入模式之后转变的文本包括与从在选择音频输入模式之前捕获的音频转变的文本不同的查询，则虚拟助理应用116可以将包括不同查询的文本发送到内容分发系统150。

内容分发系统150可以基于从移动设备110接收到的数据(例如，像素数据和/或从音频转变的文本)选择要在移动设备110处呈现给用户的内容。内容分发系统150包括一个或多个前端服务器152和一个或多个后端服务器154。前端服务器152可以从移动设备110接收数据，并将该数据提供给后端服务器154。前端服务器152还可以响应于接收到数据而将内容发送到移动设备110。

后端服务器154包括内容选择引擎156，该内容选择引擎156响应于从移动设备110接收到的数据来选择用于提供给移动设备110的内容。如在此所使用的，术语引擎指代执行一组任务的数据处理装置。内容选择引擎156可以从内容数据存储单元158(例如，一个或多个硬盘驱动器、闪存等)中选择内容，该数据存储单元158存储与对象、用户可能请求的信息、音乐、视频、图像、与条形码相关的信息相关的内容和/或其他适当的内容。内容选择引擎156可以从内容数据存储单元158中存储的内容中选择与从移动设备110接收到的数据最相关的一个或多个内容项。

例如，如果从移动设备110接收到的像素数据表示条形码的图像，则内容选择引擎156可以标识由条形码表示的对象并选择与该对象相关的内容(例如，图像、标题等)。如果像素数据表示地标的图像，则内容选择引擎156可以选择与地标相关的内容，例如，地标的照片、到地标的地图等。如果从语音输入转变的文本包括针对对象的特定事实或者特性的查询(例如，四月份佛罗里达州的平均温度是多少？)，内容选择引擎156可以从存储在内容数据存储单元158中的数据中标识此平均温度。

后端服务器154可以将由内容选择引擎156选择的内容提供给前端服务器152。前端服务器152转而可以将内容提供给移动设备110，从该移动设备110接收到用于选择内容的数据。

虚拟助理应用116包括用户界面生成器118，该用户界面生成器118在移动设备110处生成、更新并呈现用户界面122。用户界面122可以响应于向内容分发系统150发送用于所选择的输入模式的数据呈现从内容分发系统150接收到的内容。用户界面122还可以呈现已发送到内容分发系统150的数据(或数据的一部分)。例如，如果用户向虚拟辅助应用116提出问题，则提供对该问题的答案的用户界面122也可以包括该问题本身。以这种方式，用户已经确认该答案是对该用户提出的问题的答案。类似地，如果基于用于相机111的取景器的像素数据提供内容，则可以在用户界面122中呈现由像素数据表示的图像。这提供类似的确认。

用户界面生成器118可以基于所选择的输入模式来选择和/或配置用户界面122。例如，当选择图像输入模式时生成的用户界面可以与当选择音频输入模式时生成的用户界面不同(例如，包括不同类型的内容、具有不同的布局、包括不同的接口控制等)。在特定示例中，用于图像输入模式的用户界面可以包括由用于选择内容的像素数据表示的图像，而用于音频输入模式的用户界面可以包括呈现用户的查询和针对该查询的答案的聊天界面。

在一些实施方式中，输入模式选择器117和/或用户界面生成器118可以远离移动设备110而被实现。例如，输入模式选择器117和/或用户界面生成器118可以在内容分发系统150处实现。在这样的实施方式中，用户可以选择允许虚拟助理应用116向内容分发系统150发送像素数据和/或音频数据的特征。

在一些实施方式中，内容选择引擎156在移动设备110上被实现。例如，虚拟助理应用116可以包括内容选择引擎156和内容数据存储单元，其存储内容，例如，比内容数据存储单元158更多的限制的内容集。在这个示例中，虚拟助理应用116可以尝试标识虚拟助理应用116的内容数据存储单元中的内容。如果没有标识合适的内容，则虚拟助理应用116可以从内容分发系统150请求内容。通过这种方式，在一些情况下，与从内容分发系统150获取内容相比，可以更快地向用户呈现内容。

图2描绘选择输入模式并呈现基于使用所选择的输入模式接收到的输入信号选择的内容的移动设备的示例屏幕截图210、220和230的序列。

第一屏幕截图210描绘移动设备的示例锁定屏幕212。如上所述，锁定屏幕212可以调整对移动设备的访问。锁定屏幕212还可以向用户呈现信息。例如，锁定屏幕212呈现当前日期和时间214。

在此示例中，用户可以通过例如在特定方向上滑动触摸屏来访问移动设备。这将打开移动设备的主用户界面。锁定屏幕212还呈现用于虚拟助理应用的图标216。在该示例中，图标216描绘麦克风符号。但是，该图标可能会呈现相机符号、麦克风符号和相机符号二者、或者虚拟助理应用的其他适当符号(或其他可视元素)。

如果用户向上(或另一适当方向)滑动图标216，则移动设备可以允许访问该移动设备并呈现用于虚拟助理应用的用户界面。第二屏幕截图220呈现虚拟助理应用的初始用户界面222。在此示例中，初始用户界面222呈现音频输入模式选择器控件223和图像输入模式选择器控件224。如果用户与音频输入模式选择器控件223交互(例如选择)，则虚拟助理应用可以使用音频输入来选择要呈现给用户的内容。类似地，如果用户与图像输入模式选择器控件224交互(例如，选择)，则虚拟助理应用116可以使用图像输入(例如，相机的取景器的像素数据)来选择用于呈现给用户的内容。如果其他输入模式可用，则初始用户界面222可以包括选择器控件，其允许用户选择其他输入模式。

在一些实施方式中，初始用户界面222可以呈现内容或动画，其指示虚拟助理应用正在尝试标识内容。例如，初始用户界面222可以呈现以循环动画的跳动动画或用信号通知虚拟助理应用正在标识用于呈现给用户的内容的另一动画。

如上所述，虚拟助理应用可以响应于用户例如从锁定屏幕212启动虚拟助理应用而选择输入模式。为了选择输入模式，虚拟助理应用可以获得一个或多个信号。在该示例中，虚拟助理应用获得音频输入225、图像输入228(例如，以像素数据的形式)以及指定移动设备相对于用户面部的位所的接近度数据227。

音频输入225可以被转变成文本。在此示例中，音频输入225已转变为“How fastwas a 1961 Super Roadster(1961年超级跑车有多快)？”的问题。例如，用户可能已经向虚拟助理应用提出转化后的问题。

图像输入226表示具有其中每个像素具有相同颜色的纯色的图像。例如，相机可能已经面对地面、墙或一些其他具有纯色的表面。接近度数据227(例如，基于用于移动设备的运动数据指示在启动虚拟助理应用之前和/或启动虚拟助理应用时移动设备向下移动)指示移动设备在用户的面部下方。

虚拟助理应用可以使用音频输入225、图像输入228和接近度数据227选择输入模式。在此示例中，虚拟助理应用可以标识音频输入中的查询(例如，问题查询)，确定图像输入226中不存在对象，并确定移动设备不在用户的面部附近。因此，虚拟助理应用可以选择音频输入模式，因为这些信号指示用户更有可能基于转化后的问题而不是图像输入226中的纯色来请求内容。

在选择输入模式之后，虚拟助理应用可以呈现用户界面232，该用户界面232呈现从所选择的输入模式使用输入而选择的内容，如屏幕截图230所示。在此示例屏幕截图230中，用户界面232呈现文本框234，其包括问题和对问题的答案。在其他示例中，可以在聊天框中呈现问题和答案，该聊天框允许用户使用语音或文本提出其他问题。

如上所述，可以基于所选择的输入模式来选择用户界面。在此示例中，所选择的输入模式是音频输入模式，并且基于文本的用户界面被选择。还可以基于被选择用于呈现的内容来选择用户界面。例如，在用户的问题“what does a 1961 Super Roadster looklike(1961年的超级跑车看起来像什么)”当中，可以选择呈现1961超级跑车的图像的用户界面并且将其呈现给用户。

示例用户界面232还在音频输入模式选择器控件223周围显示框236，以指示音频输入模式是所选择的输入模式。其他视觉指示器也可以用于指示音频输入模式是所选择的输入模式。如果用户选择图像输入模式选择器控件224，则虚拟助理应用可以开始从相机获取图像输入并基于图像输入选择要呈现的内容。虚拟助理应用还可以更新用户界面或生成用于图像输入模式的用户界面。

图3描绘选择输入模式并呈现基于使用所选择的输入模式接收到的输入信号所选择的内容的移动设备的示例屏幕截图310、320和330的另一序列。第一屏幕截图310描绘移动设备的示例锁定屏幕212。锁定屏幕312可以与图2的锁定屏幕212相同或相似。例如，锁定屏幕312呈现当前日期和时间314以及虚拟助理应用的图标316。

第二屏幕截图320呈现虚拟助理应用的初始用户界面322，其可以与图2的初始用户界面222相同或相似。例如，初始用户界面322呈现音频输入模式选择器控件323和图像输入模式选择器控件324。

如上所述，虚拟助理应用可以响应于用户例如从锁定屏幕312启动虚拟助理应用而选择输入模式。为了选择输入模式，虚拟助理应用可以获得一个或多个信号，例如，音频输入325、图像输入326(例如，以像素数据的形式)和接近度数据327，其用于指定移动设备相对于用户面部的位所。

在此示例中，音频输入325已被转变为问题“I wonder where she bought that(我想知道她在哪儿买的)”，并且图像输入326表示汽车的图像，例如，基于来自正指向汽车的相机的取景器的像素数据。例如，用户可能在与朋友谈论汽车时将相机指向汽车。接近度数据327(例如，基于用于移动设备的运动数据指示运动设备在虚拟助理应用被启动之前和/或在其被启动时被向上移动和/或基于包括具有至少阈值强度的语音的音频数据)指示移动设备与用户的面部大约齐平(或靠近)。

虚拟助理应用可以使用音频输入325、图像输入326和接近度数据327选择输入模式。在此示例中，虚拟助理应用可以确定音频输入325不包括查询，因为在转变后的文本中没有可标识的对象。虚拟助理应用还可以确定图像输入326表示对象或汽车的图像(例如，使用对象检测技术)，确定图像输入326表示车辆类别中的对象的图像(例如，使用粗分类器)，并且/或者确定图像输入326表示特定汽车的图像，例如，1961超级跑车(例如，使用对象识别技术)。

因为图像输入326表示对象的图像，所以接近度数据327指示移动设备与用户的面部齐平或靠近用户的面部，并且音频输入不包括查询，所以虚拟助理应用可以选择图像输入模式。

在选择输入模式之后，虚拟助理应用可以呈现用户界面332，该用户界面332呈现从所选择的输入模式使用输入选择的内容，如在屏幕快照330所示。在此示例屏幕快照330中，用户界面332呈现由图像输入324表示的图像334和包括有关图像中所描绘的汽车的信息的信息框335。例如，虚拟助理应用(或内容分发系统)可以识别图像中的汽车，并选择与汽车相关的内容以在用户界面332中呈现。在此示例中，有关汽车的信息(例如，汽车的身份)已被选择并且呈现。在其他示例中，可以选择并呈现汽车的其他图像、汽车的视频或关于汽车的其他信息。如果音频输入包括关于汽车的问题，或者可以被分类为有关汽车的问题(例如，那是什么颜色？或那辆车是哪一年？)，则虚拟助理应用可以选择回答该问题的内容。

示例用户界面332还在图像输入模式选择器控件324周围呈现框336，以指示图像输入模式是所选择的输入模式。如果用户选择音频输入模式选择器控件323，则虚拟助理应用可以开始从麦克风获得音频输入，并基于音频输入选择要呈现的内容。虚拟助理应用还可以更新用户界面或生成用于音频输入模式的用户界面。

图4是用于为虚拟助理应用选择输入模式并且呈现基于使用所选择的输入模式接收到的输入信号的内容的示例过程400的流程图。过程400的操作可以例如由一个或多个数据处理装置(诸如图1的移动设备110)执行。过程400的操作还可以被实现为存储在非暂时性计算机可读介质上的指令。指令的执行使一个或多个数据处理装置执行过程400的操作。

接收指定从移动设备的锁定屏幕启动虚拟助理应用的请求的请求数据(402)。移动设备可以在锁定屏幕处(或在移动设备被锁定时)检测到指示用户正在请求移动设备解锁移动设备的特定动作、手势或口头命令，并启动虚拟助理应用。例如，移动设备可以检测用户滑动在锁定屏幕上呈现的图标。

获得用于虚拟助理的输入信号(404)。每个输入信号可以是与每个其它输入信号的每个其它输入类型不同的输入类型。例如，输入类型可以包括图像类型和音频类型。图像类型的输入信号可以是由移动设备的相机捕获的一个或多个图像的像素数据，例如，在移动设备检测到启动虚拟助理应用的请求之后捕获的一个或多个图像的像素数据。像素数据可以包括用于每个图像的相应像素数据集。每个像素数据集可以表示在特定时间点的相机取景器的像素。每个像素数据集中的像素数据可以包括指定相机的取景器的每个像素的视觉特性(例如，颜色、强度、亮度等)的数据。

所获得的信号还可以包括接近类型的输入，该接近类型指示移动设备相对于用户或用户的面部的位所。接近度类型的输入信号可以指定移动设备与用户(或用户的面部)之间的距离以及移动设备相对于用户(或用户的面部)的相对位所，例如，甚至在上方、下面、到特定侧等)。

所获得的信号还可以包括地理位所类型的输入。地理位所类型的输入信号可以包括移动设备的地理位所。例如，虚拟助理应用可以从移动设备的GPS传感器获取GPS坐标。虚拟助理应用可以使用坐标和位所的索引来确定例如移动设备所位于的建筑物或区域的类型(例如，博物馆、公园、体育场、住宅、零售店等)。

所获得的信号可以包括环境类型的输入。环境类型的输入可以包括与照明、噪声和/或其他环境信号相关的信号。例如，移动设备可以包括检测在移动设备的位所处的环境光的量的光传感器和/或检测在移动设备的位所处的环境噪声的量的环境噪声传感器。在另一个示例中，虚拟助理应用(或另一应用)可以使用像素数据确定环境照明量和/或使用音频数据确定环境噪声量。

所获得的信号可以包括基于先前信号的用户对输入模式的历史或偏好。例如，如果当在图像中识别对象时用户先前已经选择虚拟助理的图像模式，当选择输入模式时可以通过虚拟助理应用获得此数据。

基于一个或多个信号，从多个候选输入模式中选择虚拟助理应用的输入模式(406)。每个候选输入模式可以是与每个其他候选输入模式的每个其他输入类型不同的输入类型。候选输入模式可以包括图像类型的图像输入模式和音频类型的音频输入模式。图像输入模式可以接收用于虚拟助理应用的输入的像素数据。同样，音频输入模式可以接收用于虚拟助理应用的音频输入。

候选输入模式还可以包括接收两种或更多种类型的输入(例如，像素数据和音频数据、或者音频数据和文本数据)的组合输入模式。如上所述，可以基于输入信号中的一个或多个(例如，使用一组规则或机器学习模型)来选择输入模式。

在一个示例中，输入模式通过基于使用图像输入模式接收到的图像的像素数据来确定图像是否包括一个或多个所识别的对象并基于使用音频输入模式接收到的音频数据确定音频是否包括一个或者多个所识别的口头话语来选择。基于图像是否包括一个或多个所识别的对象以及音频是否包括一个或多个所识别的口头话语来确定输入模式。例如，如果图像包括一个或多个所识别的对象并且音频不包含口头话语，则用户更有可能对图像中的对象感兴趣并且可以选择图像输入模式。同样，如果音频中包括一个或多个所识别的口头语言并且图像不包括所识别的对象，则用户更有可能对接收与该口头话语相关的内容感兴趣。

如果图像包括一个或多个所识别的对象并且音频包括与一个或多个所识别的对象相关的一个或多个口头话语，则用户可能正在提出有关所识别的对象的问题或指定与用户正在寻找的对象相关的内容。如果图像包括一个或多个所识别的对象并且音频包括与一个或多个所识别的对象相关的一个或多个口头话语，在通过虚拟助理应用标识内容以进行呈现时可以为我们选择使用音频数据和像素数据两者的组合输入模式。

内容被呈现给移动设备的用户(408)。可以基于使用所选择的输入模式接收到的输入信号来选择所呈现的内容。例如，如果选择音频输入模式，则可以基于用于音频输入的音频数据(例如，音频输入的转录)来选择内容。如果选择图像输入模式，则可以基于一个或多个图像的像素数据中识别的一个或多个对象来选择内容。如果选择图像和音频输入模式，则可以基于图像输入和音频输入的组合来选择内容。内容可以由远程系统(例如，内容分发系统)选择，并将其发送到移动设备以进行呈现。

本说明书中描述的主题和功能操作的实施例可用数字电子电路、用有形地具体实现的计算机软件或固件、用包括本说明书中公开的结构及其结构等同物的计算机硬件或者用它们中的一个或多个的组合来实现。本说明书中描述的主题的实施例可作为一个或多个计算机程序被实现，所述一个或多个计算机程序即在有形非暂时性存储介质上编码以供由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或多个模块。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问存储设备或它们中的一个或多个的组合。替换地或此外，可将程序指令编码在人工生成的传播信号上，所述传播信号例如是机器生成的电、光或电磁信号，该传播信号被生成来对信息进行编码以用于传输到适合的接收器装置以供由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问存储设备或它们中的一个或多个的组合。

术语“数据处理装置”包含用于处理数据的所有种类的装置、设备和机器，作为示例包括可编程处理器、计算机或多个处理器或计算机。装置可以包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。装置除了包括硬件之外还可以包括为讨论中的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(也可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本或代码)以包括编译或解释语言或声明或过程语言的任何形式的编程语言编写，并且它可被以任何形式部署，包括作为独立程序或者作为模块、组件、子例行程序或适合于在计算环境中使用的其它单元。程序可以但是不必对应于文件系统中的文件。计算机程序可以被存储在保持其它程序或数据的文件的一部分中，例如存储在标记语言文档中的一个或多个脚本；在专用于所述程序的单个文件中或者在多个协调文件中，例如存储代码的一个或多个模块、子程序或部分的文件。可以将计算机程序部署为在位于一个站点上或跨多个站点分布并通过通信网络互连的一个计算机上或在多个计算机上执行。

本说明书中描述的过程和逻辑流程可由执行一个或多个计算机程序的一个或多个可编程计算机执行以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程还可以由装置执行，并且装置可以被实现为专用逻辑电路，例如，FPGA(现场可编程门阵列)、ASIC(专用集成电路)或GPGPU(通用图形处理单元)。

适合于执行计算机程序的计算机包括，通过示例，可以基于通用微处理器或专用微处理器或两者，或任何其它种类的中央处理器。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或者实行指令的中央处理单元以及用于存储指令和数据的一个或多个存储设备。中央处理单元和存储器可由专用逻辑电路补充或者并入在专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘，或者操作上被耦合以从所述一个或多个大容量存储设备接收数据或者将数据传送到所述一个或多个大容量存储设备，或者两者以用于存储数据。然而，计算机不必具有这样的设备。此外，计算机可被嵌入在另一设备中，所述另一设备例如是移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制器、全球定位系统(GPS)接收器或便携式存储设备，例如通用串行总线(USB)闪存驱动器等。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，作为示例包括半导体存储设备，例如EPROM、EEPROM和闪速存储器设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，可在计算机上实现本说明书中描述的主题的实施例，所述计算机具有用于向用户显示信息的显示设备以及用户可用来向该计算机提供输入的键盘和定点设备，所述显示设备例如是CRT(阴极射线管)或LCD(液晶显示器)监视器，所述定点设备例如是鼠标或轨迹球。其它种类的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以任何形式接收来自用户的输入，包括声、语音或触觉输入。此外，计算机可通过向由用户使用的设备发送文档并从由用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收到请求而向用户的客户端设备上的web浏览器发送网页。

本说明书中描述的主题的实施例可被实现在计算系统中，所述计算系统包括后端组件，例如作为数据服务器；或者包括中间件组件，例如应用服务器；或者包括前端组件，例如具有用户可用来与本说明书中描述的主题的实现方式交互的图形用户界面或者web浏览器；或者包括一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可通过例如通信网络的任何形式或介质的数字数据通信来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如互联网。

计算系统可包括客户端和服务器。客户端和服务器一般地彼此远离并通常通过通信网络来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

虽然本说明书包含许多具体实施方式细节，但是这些不应该被解释为对任何发明的或可能要求保护的范围的限制，而是相反地被解释为对可能特定于特定发明的特定实施例的特征的描述。也可在单个实施例中组合地实现在本说明书中在单独的实施例的上下文中描述的某些特征。相反地，也可单独地或者按照任何适合的子组合在多个实施例中实现在单个实施例的上下文中描述的各种特征。此外，尽管特征可能在上面被描述按照某些组合起作用并且甚至最初被如此要求保护，但是来自要求保护的组合的一个或多个特征可在一些情况下被从该组合中除去，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然按照特定次序在附图中描绘操作，但是这不应该被理解为要求按照所示的特定次序或者以先后次序执行这样的操作，或者要求执行所有图示的操作以实现所预期的结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，上述实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中要求这样的分离，并且应该理解的是，所描述的程序组件和系统一般地可被一起集成在单个软件产品中或者包装到多个软件产品中。

已描述了主题的特定实施例。其它实施例在所附权利要求的范围内。例如，权利要求中记载的动作可被以不同的次序执行并仍然实现所预期的结果。作为一个示例，附图中描绘的过程不一定要求所示的特定次序或顺序次序以实现所预期的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

Claims

1.一种由一个或多个数据处理装置执行的方法，所述方法包括：

接收指定从移动设备的锁定屏幕启动虚拟助理应用的请求的请求数据；

响应于接收到所述请求数据，获得多个输入信号，所述输入信号中的每个输入信号的输入类型不同于每个其它输入信号的每个其它输入类型，并且每个输入信号是虚拟助理的输入，所述输入信号的所述输入类型包括图像类型和音频类型，其中所述图像类型的输入信号是由所述移动设备的相机捕获到的图像的像素数据，并且所述音频类型的输入信号是由所述移动设备的麦克风捕获到的音频输入的音频数据；

基于所述多个输入信号并且从多个候选输入模式中选择用于所述虚拟助理应用的输入模式，其中每个候选输入模式的输入类型与每个其他候选输入模式的每个其他输入类型不同，并且所述输入类型包括图像类型和音频类型，其中所述图像类型的输入模式接收用于所述虚拟助理应用的输入的像素数据，并且所述音频类型的输入模式接收用于所述虚拟助理应用的音频输入；和

通过所述虚拟助理应用向所述移动设备的用户呈现内容，所呈现的内容是基于使用所选择的输入模式接收到的所述输入信号来选择的。

2.根据权利要求1所述的方法，其中，基于所述多个输入信号并且从多个候选输入模式中选择用于所述虚拟助理应用的输入模式包括：

基于所述像素数据，确定所述图像是否包括一个或多个所识别的对象；

基于所述音频数据，确定所述音频是否包括一个或多个所识别的口头话语；以及

基于相应的确定，选择所述输入模式中的至少一个。

3.根据权利要求1或2所述的方法，进一步包括基于所选择的输入模式将所述多个输入信号的输入传送到远程服务器；

其中，呈现给所述用户的所述内容是基于所述多个输入信号的所传送的输入从所述远程服务器接收的。

4.根据权利要求1或2所述的方法，进一步包括基于所选择的输入模式选择用户界面以由所述虚拟助理应用呈现，其中，所述内容是使用所选择的用户界面来呈现的。

5.根据任意前述权利要求所述的方法，其中：

获得多个输入信号包括基于从所述移动设备的加速度计或所述移动设备的陀螺仪中的一个或多个接收到的数据来确定所述移动设备相对于所述用户的位所；和

基于所述多个输入信号并且从多个候选输入模式中选择用于所述虚拟助理应用的输入模式包括基于所述移动设备相对于所述用户的位所来选择所述输入模式。

6.根据任意前述权利要求所述的方法，其中：

获得多个输入信号包括基于从所述移动设备的加速度计或所述移动设备的陀螺仪中的一个或多个接收到的数据来确定所述移动设备的相机正指向的方向；和

基于所述多个输入信号并且从多个候选输入模式中选择用于所述虚拟助理应用的输入模式包括基于所述移动设备的相机正指向的所述方向来选择所述输入模式。

7.根据任意前述权利要求所述的方法，其中：

获得与用于所述虚拟助理的所述输入相关的一个或多个信号包括获得指定所述移动设备的地理位所的地理位所数据；和

基于所述一个或多个信号并且从多个候选输入模式中选择用于所述虚拟助理应用的输入模式包括基于所述移动设备的地理位所来选择所述输入模式。

8.根据任意前述权利要求所述的方法，其中，基于所述一个或多个信号并且从多个候选输入模式中选择用于所述虚拟助理应用的输入模式包括确定所述语音输入是否包括查询并且响应于确定所述语音输入包括所述查询而选择音频输入模式。

9.根据前述权利要求所述的方法，其中，由所述虚拟助理应用向所述移动设备的用户呈现内容包括在所述虚拟助理应用的用户界面中呈现图像内容、在所述虚拟助理应用的用户界面中呈现视频内容或播放音频内容中的至少一个。

10.一种携带计算机程序的计算机可读介质，所述计算机程序包括计算机可读指令，所述计算机可读指令被配置成使计算机执行根据任意前述权利要求所述的方法。

11.一种计算机系统，包括：

存储器，所述存储器存储处理器可读指令；和

一个或多个处理器，所述一个或者多个处理器被布置为读取和执行所述处理器可读指令，其中所述处理器可读指令包括被布置为控制所述计算机系统执行根据权利要求1至9中的任一项所述的方法的指令。