CN115516445A

CN115516445A - 对于检测到的对象对增强现实内容的基于语音的选择

Info

Publication number: CN115516445A
Application number: CN202180031101.3A
Authority: CN
Inventors: 约瑟夫·蒂莫西·福捷; 希丽亚·妮科尔·穆尔库扬尼斯; 埃文·施皮格尔; 卡韦赫·安瓦里普尔
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2020-03-26
Filing date: 2021-03-25
Publication date: 2022-12-23
Also published as: EP4127971A1; WO2021195404A1; KR20220155601A

Abstract

本公开内容的各方面涉及如下系统：该系统包括存储用于显示增强现实内容的程序和方法的计算机可读存储介质。该程序和方法提供由在运行于设备上的消息传送应用使设备的摄像机捕获图像；由消息传送应用接收语音输入以选择用于与图像一起显示的增强现实内容；确定语音输入中包括的至少一个关键词；确定至少一个关键词指示图像中所描绘的对象和针对该对象执行的动作；从多个增强现实内容项中识别与针对对象执行动作相对应的增强现实内容项；以及将增强现实内容项与图像一起显示。

Description

对于检测到的对象对增强现实内容的基于语音的选择

相关申请的交叉引用

本专利申请要求于2021年3月24日提交的美国申请序列第17/211,321号的优先权，该申请要求于2020年3月26日提交的题为“SPEECH-BASED SELECTION OF AUGMENTEDREALITY CONTENT FOR DETECTED OBJECTS”的美国临时专利申请第63/000,071号的权益，其通过引用整体并入本文。本专利申请还要求于2021年3月24日提交的美国申请序列第17/211,158号的优先权，该申请要求于2020年3月26日提交的题为“SPEECH-BASED SELECTIONOF AUGMENTED REALITY CONTENT”的美国临时专利申请第63/000,056号的权益，其通过引用整体并入本文。

技术领域

本公开内容总体上涉及消息传送应用，包括提供在消息传送应用内显示增强现实内容。

背景技术

消息传送系统提供用户之间的消息内容的交换。例如，消息传送系统允许用户与一个或更多个其他用户交换消息内容(例如，文本、图像)。

附图说明

为了容易地标识对任何特定元件或动作的讨论，附图标记中的一个最高位数字或多个最高位数字指代该元件被首次引入时所在的图号。

图1是根据一些示例实施方式的其中可以部署本公开内容的联网环境的图形表示。

图2是根据一些示例实施方式的消息传送客户端应用的图形表示。

图3是根据一些示例实施方式的如在数据库中维护的数据结构的图形表示。

图4是根据一些示例实施方式的消息的图形表示。

图5是根据一些示例实施方式的访问限制过程的流程图。

图6是示出根据一些示例实施方式的基于语音输入来选择增强现实内容以对对象执行动作的过程的交互图。

图7A至图7B示出了根据一些示例实施方式的用于基于语音输入来选择增强现实内容以提供对象的识别信息的用户界面。

图8A至8B示出了根据一些示例实施方式的用于基于语音输入来选择增强现实内容以求解与对象相对应的问题的用户界面。

图9是示出根据一些示例性实施方式的基于语音输入来选择增强现实内容以对对象执行动作的过程的流程图。

图10是示出根据一些示例实施方式的其中可以实现本公开内容的软件架构的框图。

图11是根据一些示例实施方式的呈计算机系统形式的机器的图形表示，在该计算机系统内可以执行指令的集合以使该机器执行本文中讨论的方法中任何一种或更多种。

具体实施方式

消息传送系统通常允许用户在消息线程中彼此交换内容项(例如，消息、图像和/或视频)。消息传送系统可以结合增强现实系统来实现或者以其他方式工作，以显示关于消息传送的增强现实内容。例如，在创建消息内容时，增强现实内容与由设备摄像机捕获的图像数据相结合。然而，用户可能希望关于消息传送的增强现实内容的便利创建和/或选择。

所公开的实施方式提供了在运行于设备上以基于接收到的语音输入在增强现实内容项之间进行选择(例如，对应于应用增强现实体验或镜头)的消息传送应用。语音输入对应于用于对所捕获的图像中描绘的对象执行动作的语音命令。消息传送应用例如通过从语音识别服务请求关键词来从语音输入中确定关键词。

消息传送应用确定关键词指示图像中所描绘的对象，并且还指示对该对象执行的动作。消息传送应用将对象的属性和动作的属性发送至服务器，服务器被配置成基于属性来选择增强现实内容项(例如，对应于增强现实体验)。消息传送应用将与所选择的增强现实内容项相对应的增强现实内容连同所捕获的图像数据一起显示。

图1是示出用于通过网络108交换数据(例如，消息和相关联的内容)的示例消息传送系统100的框图。消息传送系统100包括客户端设备102的实例，每个实例托管包括消息传送客户端应用104和语音识别客户端应用106的多个应用。每个消息传送客户端应用104经由网络108(例如，因特网)通信地耦接至消息传送客户端应用104的其他实例和消息传送服务器系统112。

消息传送客户端应用104能够经由网络108与另一消息传送客户端应用104和消息传送服务器系统112进行通信和交换数据。在消息传送客户端应用104之间以及在其他消息传送客户端应用104与消息传送服务器系统112之间交换的数据包括函数(例如，调用函数的命令)以及有效载荷数据(例如，文本、音频、视频或其他多媒体数据)。

所公开的消息传送客户端应用104与语音识别客户端应用106之间的通信可以被直接传送。可替选地或另外地，所公开的消息传送客户端应用104与语音识别客户端应用106之间的通信可以(例如，经由一个或更多个服务器)被间接地传送。

在一个或更多个实施方式中，语音识别客户端应用106是与消息传送客户端应用104分开且不同的应用。例如，语音识别客户端应用106由客户端设备102与消息传送客户端应用104分开地(例如，在其之前或之后)下载和安装。此外，语音识别客户端应用106是由与提供消息传送客户端应用104的实体或组织不同的实体或组织提供的应用。在一个或更多个实施方式中，语音识别客户端应用106是可以由客户端设备102使用与消息传送客户端应用104不同的登录凭证来访问的应用。例如，语音识别客户端应用106可以维护第一用户帐户，以及消息传送客户端应用104可以维护第二用户帐户。

在一个或更多个替选实施方式中，语音识别客户端应用106是作为消息传送客户端应用104的一部分而被包括的部件。例如，语音识别客户端应用106包括集成在消息传送客户端应用104内的一个或更多个硬件和/或软件部件。以这种方式，与语音识别服务器系统128和/或消息传送服务器系统112结合的消息传送客户端应用104被配置成执行语音识别客户端应用106的功能。

在一个或更多个实施方式中，语音识别客户端应用106被配置成执行在客户端设备102处接收到的声音输入(例如，对应于用户的语音)的语音识别。例如，声音输入由消息传送客户端应用104接收，并且对应于用于执行特定功能(例如，显示增强现实内容)的语音命令。

在一个或更多个实施方式中，语音识别客户端应用106对应于(例如，经由网络108)与语音识别服务器系统128通信的客户端侧部件，语音识别服务器系统128对应于用于执行语音识别的服务器侧部件。例如，语音识别客户端应用106被配置成接收由消息传送客户端应用104提供的声音输入，确定该声音输入包括用于激活语音识别的触发词，并且请求语音识别服务器系统128执行针对附加声音输入(例如，与声音输入的在触发词之后的剩余部分或者与由消息传送客户端应用104接收的后续声音输入相对应的语音命令)的语音识别。

在一些实施方式中，消息传送客户端应用104(例如，在消息传送客户端应用104启动时)激活客户端设备102的摄像机。消息传送客户端应用104允许用户请求扫描由摄像机捕获的摄像机馈送中的一个或更多个项。例如，消息传送客户端应用104可以接收与摄像机馈送一起呈现的专用扫描选项(例如，按钮)的用户选择。在替选实施方式中，消息传送客户端应用104可以检测用户的手的手指与触摸屏的区域之间的物理接触达阈值时间段。例如，消息传送客户端应用104确定用户触摸屏幕并且将他们的手指保持在屏幕上达超过三秒。作为响应，消息传送客户端应用104捕获正在屏幕上显示的图像并且处理该图像以识别图像中的一个或更多个对象。可替选地或另外地，如本文所述，响应于语音输入(例如，语音命令)来执行用于检测对象的扫描操作以执行针对对象的动作。在一些实施方式中，消息传送客户端应用104使用一个或更多个经训练的分类器和/或环境因素来识别图像中的对象。

消息传送服务器系统112经由网络108向特定的消息传送客户端应用104提供服务器侧功能。虽然消息传送系统100的某些功能在本文中被描述为由消息传送客户端应用104或由消息传送服务器系统112执行，但是将理解，在消息传送客户端应用104或消息传送服务器系统112内的某些功能的位置是设计选择。例如，在技术上可能优选的是最初在消息传送服务器系统112内部署某些技术和功能，但是稍后将该技术和功能迁移至其中客户端设备102具有足够处理能力的消息传送客户端应用104。

消息传送服务器系统112支持被提供给消息传送客户端应用104的各种服务和操作。这样的操作包括向消息传送客户端应用104发送数据、从消息传送客户端应用104接收数据以及处理由消息传送客户端应用104生成的数据。作为示例，该数据可以包括消息内容、客户端设备信息、图形元素、地理位置信息、媒体注释和覆盖、虚拟对象、消息内容持续条件、社交网络信息和实况事件信息。通过经由消息传送客户端应用104的用户界面(UI)(例如，图形用户界面)可用的功能来调用和控制消息传送系统100内的数据交换。

现在具体转到消息传送服务器系统112，API服务器110(应用编程接口服务器)耦接至应用服务器114，并且向应用服务器114提供编程接口。应用服务器114通信地耦接至数据库服务器118，这有助于访问其中存储有与由应用服务器114处理的消息相关联的数据的数据库124。

具体处理API服务器110，该服务器在客户端设备102与应用服务器114之间接收和发送消息数据(例如，命令和消息有效载荷)。具体地，API服务器110提供接口(例如，例程和协议)的集合，所述接口的集合可以由消息传送客户端应用104调用或查询，以便调用应用服务器114的功能。API服务器110公开由应用服务器114支持的各种功能，包括帐户注册；登录功能；经由应用服务器114从特定消息传送客户端应用104向另一消息传送客户端应用104发送消息；从消息传送客户端应用104向消息传送服务器应用116发送媒体文件(例如，图形元素、图像或视频)，并且供另一消息传送客户端应用104可能访问；图形元素列表；媒体数据的集合(例如故事)的设置；这样的集合的检索；客户端设备102的用户的好友列表的检索；维护增强现实内容项；消息和内容的检索；向社交图添加和删除好友；好友在社交图内的位置；访问用户对话数据；访问存储在消息传送服务器系统112上的化身信息；以及打开应用事件(例如，与消息传送客户端应用104有关)。

应用服务器114托管多个应用和子系统，包括消息传送服务器应用116、图像处理系统120、社交网络系统122和增强现实系统126。消息传送服务器应用116实现许多消息处理技术和功能，尤其涉及包括在从消息传送客户端应用104的多个实例接收的消息中的内容(例如，文本和多媒体内容)的聚合和其他处理。如将更详细地描述的，来自多个源的文本和媒体内容可以被聚合成内容的集合(例如，被称为故事或库)。然后，由消息传送服务器应用116使这些集合可用于10。鉴于用于这样的处理的硬件要求，消息传送服务器应用116也可以在服务器侧执行数据的其他处理器和存储器密集型处理。

应用服务器114还包括专用于执行各种图像处理操作的图像处理系统120，所述图像处理操作通常针对在消息传送服务器应用116处的消息的有效载荷内接收的图像或视频。在一个或更多个实现方式中，图像处理系统120的一部分也可以由增强现实系统126来实现。

社交网络系统122支持各种社交联网功能和服务，并且使这些功能和服务可用于消息传送服务器应用116。为此，社交网络系统122维护并访问数据库124内的实体图。社交网络系统122所支持的功能和服务的示例包括特定用户与之有关系或“关注”其的消息传送系统100的其他用户的标识，以及其他实体和感兴趣的特定用户的标识。这样的其他用户可以被称为用户的好友。社交网络系统122可以访问与用户的好友中的每个好友相关联的位置信息以确定他们居住在哪里或当前在地理上位于哪里。社交网络系统122可以维护用户的好友中的每个好友的位置简档，该位置简档指示用户的好友居住的地理位置。

消息传送客户端应用104包括允许客户端设备102访问增强现实系统126的功能集合。增强现实系统126生成并维护增强现实内容项的列表。增强现实内容项可以对应于用于用增强现实内容补充所捕获的图像数据的增强现实体验。

在一个或更多个实施方式中，增强现实系统126提供用于确定(例如，接收)对象的一个或更多个属性(例如，名称)和/或对对象执行的动作(例如，提供识别信息、提供视觉效果、提供解)的一个或更多个属性。增强现实系统126提供搜索与对象和/或动作的一个或更多个属性相关联的一个或更多个增强现实内容项(例如，虚拟对象)，并且用于(例如，基于关联和分配给每个属性的权重)对虚拟对象进行排位。增强现实系统126使排位最高的增强现实内容项的一个或更多个虚拟对象或图形元素呈现在所捕获的图像之上。

应用服务器114通信地耦接至数据库服务器118，这有助于访问其中存储有与由消息传送服务器应用116处理的消息相关联的数据的数据库124。数据库124可以是第三方数据库。例如，应用服务器114可以与第一实体相关联，并且数据库124或数据库124的一部分可以通过第二不同实体相关联并由第二不同实体托管。在一些实施方式中，数据库124存储第一实体收集的关于由第一实体提供的服务的各个用户中的每个用户的用户数据。例如，用户数据包括用户名、电话号码、密码、地址、好友、活动信息、偏好、用户消费的视频或内容等。

图2是示出根据示例实施方式的关于消息传送系统100的另外的细节的框图。具体地，消息传送系统100被示为包括消息传送客户端应用104和应用服务器114，其又包含多个一些子系统，即短暂定时器系统202、集合管理系统204和注释系统206。

短暂定时器系统202负责实施对消息传送客户端应用104和消息传送服务器应用116所允许的内容的短暂访问。为此，短暂定时器系统202结合了多个定时器，这些定时器基于与消息或消息的集合(例如，故事)相关联的持续时间和显示参数，选择性地显示消息和相关联的内容以及使得能够经由消息传送客户端应用104访问消息和相关联的内容。下面提供关于短暂定时器系统202的操作的另外的细节。

集合管理系统204负责管理媒体的集合(例如，文本、图像视频和音频数据的集合)。在一些示例中，内容(例如，消息，包括图像、视频、文本和音频)的集合可以被组织成“事件库”或“事件故事”。可以使这样的集合在指定的时间段(例如内容所涉及的事件的持续时间)内可用。例如，可以使与音乐会有关的内容在该音乐会的持续时间内作为“故事”可用。集合管理系统204还可以负责发布向消息传送客户端应用104的用户界面提供特定集合的存在性的通知的图标。

集合管理系统204还包括允许集合管理器管理和策展内容的特定集合的策展接口208。例如，策展接口208使得事件组织者能够策展与特定事件相关的内容的集合(例如，删除不适当的内容或冗余消息)。另外，集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动地策展内容集合。在某些实施方式中，可以向用户支付补偿以将用户生成的内容包括到集合中。在这样的情况下，策展接口208进行操作以自动向这样的用户支付费用以使用其内容。

注释系统206提供使得用户能够注释或以其他方式修改或编辑与消息相关联的媒体内容的各种功能。例如，注释系统206提供与生成和发布用于由消息传送系统100处理的消息的媒体覆盖相关的功能。注释系统206基于客户端设备102的地理位置可操作地向消息传送客户端应用104供应媒体覆盖或补充(例如，图像过滤)。在另一示例中，注释系统206基于其他信息(例如客户端设备102的用户的社交网络信息)可操作地向消息传送客户端应用104供应媒体覆盖。媒体覆盖可以包括音频和视觉内容以及视觉效果。音频和视觉内容的示例包括图片、文本、标志、动画和声音效果。视觉效果的示例包括颜色覆盖。音频和视觉内容或视觉效果可以应用于客户端设备102处的内容项(例如，照片)。例如，媒体覆盖可以包括可以覆盖在由客户端设备102拍摄的照片之上的文本。在另一示例中，媒体覆盖包括位置标识(例如，威尼斯海滩)覆盖、实况事件的名称或商家名称(例如，海滩咖啡馆)覆盖。在另一示例中，注释系统206使用客户端设备102的地理位置来标识包括在客户端设备102的地理位置处的商家的名称的媒体覆盖。媒体覆盖可以包括与商家相关联的其他标记。媒体覆盖可以存储在数据库124中并且通过数据库服务器118被访问。

在一个示例实施方式中，注释系统206提供基于用户的发布平台，该发布平台使得用户能够选择地图上的地理位置，并且上传与所选择的地理位置相关联的内容。用户还可以指定特定媒体覆盖应当被提供给其他用户的环境。注释系统206生成包括所上传的内容的媒体覆盖并且将所上传的内容与所选择的地理位置相关联。

在另一示例实施方式中，注释系统206提供基于商家的发布平台，该发布平台使得商家能够经由竞价过程来选择与地理位置相关联的特定媒体覆盖。例如，注释系统206在预定义时间量内将最高出价商家的媒体覆盖与对应的地理位置相关联。

图3是示出根据某些示例实施方式的可以存储在消息传送服务器系统112的数据库124中的数据结构300的示意图。虽然数据库124的内容被示为包括多个表，但是应当理解，数据可以存储在其他类型的数据结构(例如，作为面向对象的数据库)中。

数据库124包括存储在消息表314内的消息数据。实体表302存储实体数据，包括实体图304。其记录被维护在实体表302内的实体可以包括个人、公司实体、组织、对象、地点、事件等。不管何种类型，消息传送服务器系统112关于其存储数据的任何实体都可以是已识别实体。每个实体设置有唯一标识符以及实体类型标识符(未示出)。

实体图304存储关于实体之间的关系和关联的信息。仅作为示例，这样的关系可以是基于兴趣的或基于活动的社会关系、专业关系(例如，在共同的公司或组织工作)。

消息表314可以存储用户与一个或更多个好友或实体之间的对话的集合。消息表314可以包括每个对话的各种属性，例如参与者列表、对话的大小(例如，用户的数量和/或消息的数量)、对话的聊天颜色、对话的唯一标识符以及任何其他对话相关的特征。

数据库124还在注释表312中存储呈过滤器的示例形式的注释数据。数据库124还存储在注释表312中接收的经注释内容。其数据被存储在注释表312内的过滤器与视频(其数据被存储在视频表310中)和/或图像(其数据被存储在图像表308中)相关联并且被应用于视频和/或图像。在一个示例中，过滤器是在呈现给接收者用户期间被显示为覆盖在图像或视频上的覆盖。过滤器可以具有各种类型，包括当发送用户正在编写消息时由消息传送客户端应用104向发送用户呈现的来自过滤器的库中的用户选择的过滤器。其他类型的过滤器包括地理定位过滤器(也称为地理过滤器)，其可以基于地理位置呈现给发送用户。例如，基于由客户端设备102的全球定位系统(GPS)单元确定的地理位置信息，消息传送客户端应用104可以在UI内呈现特定于邻域或特定位置的地理位置过滤器。另一类型的过滤器是数据过滤器，其可以由消息传送客户端应用104基于在消息创建过程期间由客户端设备102收集的其他输入或信息来选择性地呈现给发送用户。数据过滤器的示例包括特定位置处的当前温度、发送用户行进的当前速度、客户端设备102的电池寿命或当前时间。

可以存储在图像表308内的其他注释数据是增强现实内容项(例如，对应于增强现实体验或镜头)。增强现实内容项可以是可以添加至图像或视频的实时特殊效果和声音。

如上所述，增强现实内容项、覆盖、图像变换、AR图像和类似术语是指可以对视频或图像进行的修改。这包括实时修改，实时修改在使用设备传感器捕获图像时修改该图像并且然后在设备的屏幕上显示具有修改的图像。这还包括对所存储的内容的修改，例如可以被修改的库中的视频剪辑。例如，在访问多个增强现实内容项的设备中，用户可以将单个视频剪辑与多个增强现实内容项一起使用来查看不同的增强现实内容项将如何修改所存储的剪辑。例如，通过针对内容选择不同的增强现实内容项，可以将应用不同伪随机运动模型的多个增强现实内容项应用于同一内容。类似地，实时视频捕获可以与所示的修改一起使用，以示出当前由设备的传感器捕获的视频图像将如何修改所捕获的数据。这样的数据可以简单地显示在屏幕上并且不存储在存储器中，或者由设备传感器捕获的内容可以在有或没有修改(或两者)的情况下被记录并存储在存储器中。在一些系统中，预览特征可以示出不同的增强现实内容项同时在显示器中的不同窗口内看起来如何。这可以例如使得能够同时在显示器上观看具有不同伪随机动画的多个窗口。

因此，数据以及使用增强现实内容项或其他这样的变换系统来使用该数据修改内容的各种系统可以涉及：对象(例如，面部、手、身体、猫、狗、表面、对象等)的检测；当这样的对象离开、进入视频帧中的视场以及在视场周围移动时对其进行跟踪；以及当跟踪这样的对象时对其进行修改或变换。在各种实施方式中，可以使用用于实现这样的变换的不同方法。例如，一些实施方式可以涉及生成一个或多个对象的三维网格模型，并且使用视频内的模型的变换和动画纹理来实现变换。在其他实施方式中，可以使用对对象上的点的跟踪来将图像或纹理(其可以是二维或三维的)放置在所跟踪的位置处。在又一实施方式中，视频帧的神经网络分析可以用于将图像、模型或纹理放置在内容(例如，视频的图像或帧)中。因此，增强现实内容项既涉及用于创建内容中的变换的图像、模型和纹理，又涉及实现利用对象检测、跟踪和放置的这样的变换所需的附加建模和分析信息。

可以利用保存在任何类型的计算机化系统的存储器中的任何类型的视频数据(例如，视频流、视频文件等)来执行实时视频处理。例如，用户可以加载视频文件并将它们保存在设备的存储器中，或者可以使用设备的传感器来生成视频流。另外，可以使用计算机动画模型来处理任何对象，例如人的面部和人体的部分、动物、或非生命物体(例如椅子、汽车或其他对象)。

在一些实施方式中，当连同要变换的内容一起选择特定修改时，计算设备识别要变换的元素，并且然后如果所述元素存在于视频帧中，则检测并跟踪它们。根据针对修改的请求来修改对象的元素，从而变换视频流的帧。可以通过用于不同类型的变换的不同方法来执行视频流的帧的变换。例如，对于主要涉及改变对象元素的形式的帧的变换，计算针对对象的每个元素的特征点(例如，使用主动形状模型(ASM)或其他已知方法)。然后，针对对象的至少一个元素中的每一个元素生成基于特征点的网格。该网格用于跟踪视频流中的对象的元素的后续阶段。在跟踪过程中，所提及的针对每个元素的网格与每个元素的位置对准。然后，在网格上生成附加点。基于针对修改的请求来针对每个元素生成第一点的第一集合，并且基于第一点的集合和针对修改的请求来针对每个元素生成第二点的集合。然后，可以基于第一点和第二点的集合以及网格通过修改对象的元素来对视频流的帧进行变换。在这样的方法中，也可以通过跟踪和修改背景来改变或扭曲被修改对象的背景。

在一个或更多个实施方式中，可以通过计算针对对象的每个元素的特征点并基于所计算的特征点生成网格来执行使用对象的元素改变对象的一些区域的变换。在网格上生成点，并且然后生成基于这些点的各种区域。然后通过将针对每个元素的区域与针对至少一个元素中的每一个元素的位置对准来跟踪对象的元素，并且可以基于针对修改的请求来修改区域的特性，从而变换视频流的帧。根据针对修改的特定请求，可以以不同的方式来对所提及的区域的特性进行变换。这样的修改可以涉及：改变区域的颜色；从视频流的帧中去除区域的至少一些部分；将一个或更多个新对象包括到基于针对修改的请求的区域中；以及修改或扭曲区域或对象的元素。在各种实施方式中，可以使用这样的修改或其他类似修改的任何组合。对于要被动画化的某些模型，可以选择一些特征点作为用于确定针对模型动画的选项的整个状态空间的控制点。

在使用面部检测来变换图像数据的计算机动画模型的一些实施方式中，使用特定的面部检测算法(例如，Viola-Jones)在图像上检测面部。然后，将主动形状模型(ASM)算法应用于图像的面部区域以检测面部特征参考点。

在其他实施方式中，可以使用适合于面部和/或对象检测的其他方法和算法。例如，在一些实施方式中，使用表示在所考虑的大多数图像中存在的可区别点的界标(landmark)来定位特征。例如，对于面部界标，可以使用左眼瞳孔的位置。在初始标志界标不可识别的情况下(例如，如果人具有眼罩)，可以使用次级界标。这样的界标识别过程可以用于任何这样的对象。在一些实施方式中，界标的集合形成形状。可以使用形状中的点的坐标将形状表示为向量。利用使形状点之间的平均欧几里得距离最小化的相似性变换(允许平移、缩放和旋转)将一个形状与另一个形状对准。平均形状是对准的训练形状的平均。

在一些实施方式中，开始从与由全局面部检测器确定的面部的位置和大小对准的平均形状搜索界标。然后，这样的搜索重复以下步骤：通过对每个点周围的图像纹理进行模板匹配来调整形状点的位置来建议暂定形状，并且然后使暂定形状符合全局形状模型，直到出现收敛。在一些系统中，单独的模板匹配是不可靠的，并且形状模型汇集弱模板匹配器的结果以形成更强的整体分类器。在图像金字塔中的每一级从粗分辨率到细分辨率重复整个搜索。

变换系统的实施方式可以在客户端设备(例如，客户端设备102)上捕获图像或视频流，并且在客户端设备102上本地执行复杂的图像操纵，同时保持适当的用户体验、计算时间和功耗。复杂的图像操纵可以包括大小和形状改变、情感转移(例如，将面部从皱眉改变为微笑)、状态转移(例如，使对象老化、减小外表年龄、改变性别)、风格转移、图形元素应用以及由已经被配置成在客户端设备102上有效执行的卷积神经网络实现的任何其他合适的图像或视频操纵。

在一些示例实施方式中，用于变换图像数据的计算机动画模型可以由如下系统使用：在该系统中，用户可以使用具有作为在客户端设备102上操作的消息传送客户端应用104的一部分而操作的神经网络的客户端设备102来捕获用户的图像或视频流(例如，自拍照)。在消息传送客户端应用104内操作的变换系统确定图像或视频流内对象(例如，面部)的存在性，并且提供与用于变换图像数据的计算机动画模型相关联的修改图标，或者计算机动画模型可以与本文描述的界面相关联地存在。修改图标包括可以是用于作为修改操作的一部分修改图像或视频流内的用户面部的基础的变化。一旦选择了修改图标，则变换系统发起转换用户的图像以反映所选择的修改图标的过程(例如，在用户上生成微笑面部)。在一些实施方式中，一捕获了图像或视频流并且选择了指定的修改，就可以在移动客户端设备上显示的图形用户界面中呈现修改后的图像或视频流。变换系统可以在图像或视频流的一部分上实现复杂的卷积神经网络，以生成和应用所选择的修改。也就是说，用户可以捕获图像或视频流，并且一旦选择了修改图标，就可以实时或接近实时地呈现修改后的结果。此外，在捕获视频流并且所选择的修改图标保持切换时，修改可以是持久的。机器教导的神经网络可以用于实现这样的修改。

在一些实施方式中，呈现由变换系统执行的修改的图形用户界面可以向用户提供附加的交互选项。这样的选项可以基于用于发起特定计算机动画模型的选择和内容捕获的界面(例如，从内容创建者用户界面发起)。在各种实施方式中，在初始选择修改图标之后，修改可以是持久的。用户可以通过轻敲或以其他方式选择正由变换系统修改的面部来切换修改的开或关，并将其进行存储以供稍后查看或浏览到成像应用的其他区域。在变换系统修改多个面部的情况下，用户可以通过轻敲或选择在图形用户界面内修改和显示的单个面部来全局地切换修改的开或关。在一些实施方式中，可以单独修改多个面部的组中的各个面部，或者可以通过轻敲或选择图形用户界面内显示的各个面部或一系列各个面部来单独切换这样的修改。

如以上所提及的，视频表310存储视频数据，在一个实施方式中，视频数据与其记录被维护在消息表314内的消息相关联。类似地，图像表308存储与其消息数据被存储在实体表302中的消息相关联的图像数据。实体表302可以将来自注释表312的各种注释与存储在图像表308和视频表310中的各种图像和视频相关联。

增强现实内容项表316存储可用于消息传送客户端应用104进行选择和激活的增强现实内容项的指示(例如，列表)。在一个或更多个实施方式中，增强现实内容项表316中的每个增强现实内容项与一个或更多个对象属性相关联。增强现实内容项表316中的每个增强现实内容项还可以(例如，使用元数据标签、名称等)与一个或更多个预定义词语相关联。在一个或更多个实施方式中，消息传送客户端应用104搜索存储在增强现实内容项表316中的对象属性和/或预定义词语，以识别与扫描对象或所捕获图像中识别的对象相关联的一个或更多个增强现实内容项。存储在增强现实内容项表316中的每个增强现实内容项包括可以被动画化或可以不被动画化的一个或更多个图形元素或虚拟对象。每个增强现实内容项还包括关于将图形元素或虚拟对象相对于所捕获的图像中描绘的其他对象定位在何处的指令。

故事表306存储关于消息和相关联的图像、视频或音频数据的集合的数据，所述消息和相关联的图像、视频或音频数据被编译成集合(例如，故事或库)。特定集合的创建可以由特定用户(例如，其记录被维护在实体表302中的每个用户)发起。用户可以创建以已经由该用户创建和发送/广播的内容集合的形式的“个人故事”。为此，消息传送客户端应用104的UI可以包括可被用户选择以使得发送用户能够将特定内容添加至他或她的个人故事的图标。

集合还可以构成“实况故事”，“实况故事”是被手动地、自动地或使用手动和自动技术的组合来创建的来自多个用户的内容的集合。例如，“实况故事”可以构成来自不同位置和事件的用户提交的内容的策展流。其客户端设备具有启用的位置服务并且在特定时间处于共同位置事件的用户可以例如经由消息传送客户端应用104的UI被呈现有选项以向特定实况故事贡献内容。可以由消息传送客户端应用104基于用户的位置向用户标识实况故事。最终结果是从社群角度讲述的“实况故事”。

另一类型的内容集合被称为“位置故事”，“位置故事”使得其客户端设备102位于特定地理位置(例如，在大学或大学校园)内的用户能够对特定集合做出贡献。在一些实施方式中，对位置故事的贡献可能需要第二程度的认证来验证终端用户属于特定组织或其他实体(例如，是大学校园中的学生)。

图4是示出根据一些实施方式的消息400的结构的示意图，该消息400由消息传送客户端应用104生成，以传送至另一消息传送客户端应用104或消息传送服务器应用116。特定消息400的内容用于填充存储在消息传送服务器应用116可访问的数据库124内的消息表314。类似地，消息400的内容作为客户端设备102或应用服务器114的“运输中”或“飞行中”数据存储在存储器中。消息400被示为包括以下部件：

●消息标识符402：标识消息400的唯一标识符。

●消息文本有效载荷404：要由用户经由客户端设备102的用户界面生成并且包括在消息400中的文本。

●消息图像有效载荷406：由客户端设备102的摄像机部件捕获或从客户端设备102的存储器部件检索并且包括在消息400中的图像数据。

●消息视频有效载荷408：由摄像机部件捕获或从客户端设备102的存储器部件检索并且包括在消息400中的视频数据。

●消息音频有效载荷410：由麦克风捕获或从客户端设备102的存储器部件检索并且包括在消息400中的音频数据。

●消息注释412：表示要应用于消息400的消息图像有效载荷406、消息视频有效载荷408或消息音频有效载荷410的注释的注释数据(例如，过滤器、贴纸或其他增强)。

●消息持续时间参数414：以秒为单位指示消息的内容(例如，消息图像有效载荷406、消息视频有效载荷408、消息音频有效载荷410)将被呈现或使得用户可经由消息传送客户端应用104访问的时间量的参数值。

●消息地理位置参数416：与消息的内容有效载荷相关联的地理位置数据(例如，纬度和经度坐标)。多个消息地理位置参数值416可以被包括在有效载荷中，这些参数值中的每一个参数值与关于包括在内容中的内容项(例如，消息图像有效载荷406内的特定图像或消息视频有效载荷408中的特定视频)相关联。

●消息故事标识符418：标识与消息400的消息图像有效载荷406中的特定内容项相关联的一个或更多个内容集合(例如，“故事”)的标识符值。例如，消息图像有效载荷406内的多个图像可以各自使用标识符值与多个内容集合相关联。

●消息标签420：每个消息400可以用多个标签来标记，多个标签中的每个标签指示包括在消息有效载荷中的内容的主题。例如，在包括在消息图像有效载荷406中的特定图像描绘动物(例如，狮子)的情况下，标签值可以包括在指示相关动物的消息标签420内。标签值可以基于用户输入手动生成，或者可以使用例如图像识别自动生成。

●消息发送者标识符422：指示在其上生成消息400并且从其发送消息400的客户端设备102的用户的标识符(例如，消息传送系统标识符、电子邮件地址或设备标识符)。

●消息接收者标识符424：指示消息400寻址到的客户端设备102的用户的标识符(例如，消息传送系统标识符、电子邮件地址或设备标识符)。

消息400的各个部件的内容(例如，值)可以是指向在其内存储内容数据值的表中的位置的指针。例如，消息图像有效载荷406中的图像值可以是指向图像表308内的位置(或地址)的指针。类似地，消息视频有效载荷408内的值可以指向存储在视频表310内的数据，存储在消息注释412内的值可以指向存储在注释表312中的数据，存储在消息故事标识符418内的值可以指向存储在故事表306中的数据，并且存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表302内的用户记录。

图5是示出访问限制过程500的示意图，根据该访问限制过程，对内容(例如，短暂消息502和相关联的数据的多媒体有效载荷)或内容集合(例如，短暂消息组504)的访问可以是时间受限的(例如，短暂的)。

短暂消息502被示为与消息持续时间参数506相关联，消息持续时间参数506的值确定消息传送客户端应用104将向短暂消息502的接收用户显示短暂消息502的时间量。在一个实施方式中，取决于发送用户使用消息持续时间参数506指定的时间量，接收用户可查看短暂消息502上至最多10秒。

消息持续时间参数506和消息接收者标识符424被示出为消息定时器512的输入，消息定时器512负责确定向由消息接收者标识符424标识的特定接收用户示出短暂消息502的时间量。特别地，将仅在由消息持续时间参数506的值确定的时间段内向相关接收用户示出短暂消息502。消息定时器512被示出为向更一般化的短暂定时器系统202提供输出，该短暂定时器系统202负责向接收用户显示内容(例如，短暂消息502)的总体定时。

图5中示出的短暂消息502被包括在短暂消息组504(例如，个人故事或事件故事中的消息的集合)内。短暂消息组504具有相关联的组持续时间参数508，组持续时间参数508的值确定短暂消息组504被呈现并且可由消息传送系统100的用户访问的持续时间。例如，组持续时间参数508可以是音乐会的持续时间，其中，短暂消息组504是属于该音乐会的内容的集合。可替选地，当执行短暂消息组504的设置和创建时，用户(拥有用户或策展者用户)可以指定组持续时间参数508的值。

另外，短暂消息组504内的每个短暂消息502具有相关联的组参与参数510，组参与参数510的值确定在短暂消息组504的上下文内可访问短暂消息502的持续时间。因此，在短暂消息组504本身根据组持续时间参数508到期之前，特定的短暂消息组504可以“到期”并且在短暂消息组504的上下文内变得不可访问。组持续时间参数508、组参与参数510和消息接收者标识符424各自向组定时器514提供输入，组定时器514可操作地首先确定短暂消息组504的特定短暂消息502是否将被显示给特定接收用户，并且如果是，则确定显示多长时间。注意，作为消息接收者标识符424的结果，短暂消息组504也知道特定接收用户的身份。

因此，组定时器514可操作地控制相关联的短暂消息组504以及包括在短暂消息组504中的单独的短暂消息502的总使用期限。在一个实施方式中，短暂消息组504内的每个短暂消息502在由组持续时间参数508指定的时间段内保持可查看和可访问。在另一实施方式中，在短暂消息组504的上下文内，某个短暂消息502可以基于组参与参数510而到期。注意，即使在短暂消息组504的上下文内，消息持续时间参数506也仍然可以确定向接收用户显示特定短暂消息502的持续时间。因此，消息持续时间参数506确定向接收用户显示特定短暂消息502的持续时间，而不管接收用户是在短暂消息组504的上下文之内还是之外查看该短暂消息502。

短暂定时器系统202还可以基于已经超过相关联的组参与参数510的确定而从短暂消息组504中可操作地移除特定的短暂消息502。例如，当发送用户已经建立了从发布起24小时的组参与参数510时，短暂定时器系统202将在指定的24小时之后从短暂消息组504中移除相关的短暂消息502。当针对短暂消息组504内的每个短暂消息502的组参与参数510已经到期时，或者当短暂消息组504本身根据组持续时间参数508已经到期时，短暂定时器系统202还进行操作以移除短暂消息组504。

在某些使用情况下，特定短暂消息组504的创建者可以指定无期限的组持续时间参数508。在这种情况下，针对短暂消息组504内最后剩余的短暂消息502的组参与参数510的到期将确定短暂消息组504本身何时到期。在这种情况下，添加至短暂消息组504的具有新的组参与参数510的新的短暂消息502有效地将短暂消息组504的寿命延长到等于组参与参数510的值。

响应于短暂定时器系统202确定短暂消息组504已经到期(例如，不再是可访问的)，短暂定时器系统202与消息传送系统100(并且例如特别是消息传送客户端应用104)通信，以使得与相关短暂消息组504相关联的标记(例如，图标)不再显示在消息传送客户端应用104的用户界面内。类似地，当短暂定时器系统202确定针对特定短暂消息502的消息持续时间参数506已经到期时，短暂定时器系统202使消息传送客户端应用104不再显示与短暂消息502相关联的标记(例如，图标或文本标识)。

图6是示出根据一些示例实施方式的用于基于语音输入来选择增强现实内容以对对象执行动作的过程600的交互图。出于说明的目的，本文中主要参照图1的消息传送客户端应用104、语音识别客户端应用106、语音识别服务器系统128和消息传送服务器系统112来描述过程600。然而，过程600可以由一个或更多个其他部件和/或由其他合适的设备来执行。进一步出于说明的目的，本文中将过程600的块描述为串行或线性地发生。然而，过程600的多个块可以并行发生。另外，过程600的块不需要以所示的顺序执行，以及/或者过程600的一个或更多个块不需要被执行和/或可以由其他操作代替。

如本文所述，客户端设备102被配置成基于在消息传送客户端应用104处接收到的语音输入(例如，用户的语音)，并且还基于在由设备摄像机捕获的图像数据中检测到的对象，来提供选择增强现实内容项(例如，对应于增强现实体验)。例如，消息传送客户端应用104请求语音识别客户端应用106对语音输入执行语音识别，以便确定用于搜索多个增强现实内容项(例如，可用增强现实内容项)的关键词。消息传送客户端应用104确定关键词指示对所捕获的图像数据中描绘的对象执行的动作。消息传送客户端应用104将对象的属性和动作的属性发送至消息服务器系统112，消息服务器系统112被配置成基于属性来选择增强现实内容项(例如，增强现实体验)。消息传送客户端应用104将所选择的增强现实内容项(例如，增强现实体验)连同所捕获的图像数据一起显示。

在块602处，消息传送客户端应用104使客户端设备102的摄像机捕获图像。例如，消息传送客户端应用104被配置成在消息传送客户端应用104被初始化时默认激活摄像机。可替选地或另外地，消息传送客户端应用104自动激活用于消息传送客户端应用104的特定接口(例如用于生成多媒体内容(例如，以包括在消息中)的接口)的摄像机。

在块604处，消息传送客户端应用104接收语音输入(例如，用于选择用于显示的增强现实内容项的语音命令)。语音输入在客户端设备102的摄像机被激活并且捕获图像数据的情况下被接收。

在一个或更多个实施方式中，由消息传送客户端应用104接收的语音输入包括指示对语音识别进行初始化的触发词(例如，“嘿”、“嘿消息传送应用”、“消息传送应用”)，并且还包括用于选择用于显示的增强现实内容项的语音命令(例如，如下面关于图7A至图7B和图8A至图8B所讨论的“那是什么书”、“求解这个数学问题”等)。消息传送客户端应用104被配置成向语音识别客户端应用106提供语音输入，以进行语音识别(操作606)。

在一个或更多个实施方式中，语音识别客户端应用106被配置成在多个阶段中处理语音输入。例如，在第一阶段中，语音识别客户端应用106使用语音活动检测(VAD)或其他已知技术来检测语音输入的至少一部分是否对应于人类语音。在一些实施方式中，语音识别客户端应用106在本地实现VAD，使得客户端设备102自身执行人类语音的检测。

在第二阶段中，如果在语音输入中检测到人类语音，则语音识别客户端应用106在本地(例如，在客户端设备102上)确定语音输入是否包括预定义的触发词(例如，“嘿”、“嘿消息传送应用”、“消息传送应用”)。可替选地，触发词的检测可以由语音识别服务器系统128基于向其发送的请求来执行。

在第三阶段中，如果语音输入被确定为包括触发词，则语音识别客户端应用106将语音输入提供给语音识别服务器系统128，以基于语音输入来确定关键词。如上所提到的，除了包括触发词之外，语音输入还可以包括用于选择用于显示的特定增强现实内容项的语音命令(例如，从其中确定关键词)。

应注意，上述三个阶段对应于语音识别的示例，并且可以使用其他技术来代替这些阶段或除这些阶段之外还使用其他技术。例如，作为需要触发词的替选，语音识别客户端应用106可以被配置成响应于预定义手势(例如，与客户端设备102的硬件按钮和/或在消息传送客户端应用104内显示的软件按钮相关联的用户输入)来启动语音识别服务器系统128的语音识别服务。用户手势可以伴随有由用户提供的语音输入，其中，语音输入包括语音命令(并且不包括触发词)。

在另一示例中，可以的是，语音输入包括触发词，但最初不包括语音命令(例如，“嘿”、“嘿消息传送应用”和/或“消息传送应用”，随后是表示语音输入结束的暂停)。在这样的情况下，语音识别客户端应用106结合消息传送客户端应用104可以(例如，通过显示消息和/或音频消息，例如“我可以如何帮助你？”)向用户提示语音命令。用户可以经由消息传送客户端应用104利用与语音命令相对应的附加语音输入来进行响应，其中，语音识别客户端应用106被配置成将附加语音输入发送至语音识别服务器系统128，以进行语音识别和关键词确定。

因此，在块608处，语音识别客户端应用106基于语音输入来确定一个或更多个关键词，其中，这样的确定基于语音识别客户端应用106将语音输入发送至语音识别服务器系统128。在一些实施方式中，语音识别服务器系统128被配置成实现一个或更多个自动语音识别(ASR)算法或其他已知技术，以将语音输入转换成一个或更多个基于文本的关键词。语音识别客户端应用106然后将(例如，从语音识别服务器系统128接收的)一个或更多个关键词发送至消息传送客户端应用104(操作610)。

在一个或更多个实施方式中，消息传送客户端应用104被配置成显示语音输入的语音命令部分的基于文本的版本。在这方面，语音识别服务器系统128可以执行ASR以将语音输入的整个语音命令部分转换成文本，并且可以将该文本(连同关键词一起)提供给消息传送客户端应用(例如，在操作610处)。可替选地或另外地，在一些实施方式中，消息传送客户端应用104被配置成在从用户接收语音输入时显示图形元素(例如，动画)。

在块612处，消息传送客户端应用104确定关键词指示由设备摄像机捕获的图像中描绘的对象并且还指示针对该对象执行的动作。例如，消息传送客户端应用104确定第一关键词指示在所捕获的图像中描绘的对象，并且第二关键词指示针对该对象执行的动作。

如上所提到的，消息传送客户端应用104被配置成实现或以其他方式访问对象识别算法(例如，包括机器学习算法)，该对象识别算法被配置成扫描所捕获的图像，并且检测/跟踪图像内的对象的移动。作为非限制性示例，图像内的可检测对象包括：人脸、人体部分、动物及其部分、景观、自然中的对象、非生命对象(例如，椅子、书籍、汽车、建筑物、其他结构)、对象(例如，在海报和/或传单上)的图示、基于文本的对象、基于方程式的对象等。此外，消息传送客户端应用104被配置成确定或以其他方式访问对象的属性，例如名称、类型、风格、颜色、尺寸、形状、纹理、地理位置和/或其他补充信息(例如，与媒体相对应的对象的歌曲名称/艺术家)。

在一个或更多个实现方式中，消息传送客户端应用104还被配置成确定与对象相关联的动作。例如，消息传送客户端应用104可以(例如，从本地和/或远程存储)访问与特定类型的对象相关联的一个或更多个相应动作。作为非限制性示例，可以针对对象执行的动作包括：提供对象的识别和/或补充信息(例如，名称、风格、歌曲标题、作者、地理位置等)，提供与问题相对应的对象的解(例如，数学问题的解、问题的答案)、将视觉效果应用于对象(例如，纹理、三维网格)等。此外，消息传送客户端应用104被配置成确定或以其他方式访问动作的属性，例如动作的类型(例如，用于识别、求解、修改、提供视觉效果等的动作)、执行动作的持续时间和/或与执行动作相关的其他特性。

因此，基于在操作610处提供的关键词、所捕获的图像数据内的对象的检测以及与不同类型的对象相关联的动作，消息传送客户端应用104被配置成确定关键词指示图像中描绘的对象并且还指示针对该对象执行的动作。

在操作614处，消息传送客户端应用104将对象的属性(例如，对象的名称)和/或动作的属性(例如，动作的类型)发送至消息传送服务器系统112(操作614)。在一个或更多个实施方式中，消息传送客户端应用104发送如由语音识别客户端应用106提供的关键词作为对象和动作的属性。

作为响应，消息传送服务器系统112基于对象的属性和动作的属性来搜索和选择增强现实内容项(例如，增强现实体验)(块616)。在一个或更多个实施方式中，消息传送服务器系统112被配置成通过将对象和动作的属性与和可用增强现实内容项中的每一个相关联的相应属性和/或预定义词语进行比较来搜索可用增强现实内容项的集合。

如上所提到的，包括在数据库124中的增强现实内容项表316被配置成用相应的属性和/或预定义词语(例如，经由元数据)来指定或标记每个增强现实内容项以搜索增强现实内容项。因此，在一个或更多个实施方式中，消息传送服务器系统112用对象和动作的属性(例如，对象的名称和执行的动作的类型)查询数据库124，并且数据库124可以提供一个或更多个所选择的增强现实内容项作为查询的结果。

在对象/动作属性对应于多于一个增强现实内容项的相应属性和/或预定义词语的情况下，数据库124可以被配置成提供多个增强现实内容项的指示作为查询的结果。此外，数据库124可以(例如，基于匹配的数量和/或分配给对象/动作属性、增强现实内容项属性和/或预定义词语中的一个或更多个的权重)对多个增强现实内容项进行排位。数据库124可以将排位的指示作为查询结果的一部分提供给消息传送服务器系统112。

基于所接收的结果，消息传送服务器系统112将所选择的增强现实内容项的指示连同排位信息(如果适用的话)一起发送至消息传送客户端应用104(操作618)。

消息传送客户端应用104将所选择的增强现实内容项连同由客户端设备102的摄像机捕获的图像数据一起显示(块620)。在由消息传送服务器系统112提供多个增强现实内容项的情况下，消息传送客户端应用104可以将排位最高的增强现实内容项与图像数据一起显示，并且例如以排位后的顺序在轮播界面内提供剩余的增强现实内容项。如下面关于图7A至图7B和图8A至图8B所讨论的，消息传送客户端应用104显示轮播界面，轮播界面为用户提供在多个可用增强现实内容项之间进行切换。可用增强现实内容项可以包括在操作618处提供给消息传送客户端应用104的经排位的增强现实内容项集合和/或附加的可用增强现实内容项(例如，如存储在增强现实内容项表316中的可用增强现实内容项)。

因此，针对消息传送客户端应用104，借助于过程600，可以基于语音命令(例如，语音输入)和由设备摄像机捕获的图像数据中所描绘的对象来提供用于选择增强现实内容(例如，增强现实内容项)。所选择的增强现实内容项可以连同所捕获的图像数据一起显示。

图7A至图7B示出了根据一些示例实施方式的用于基于语音输入来选择增强现实内容(例如，增强现实体验)以提供对象的识别信息的用户界面702和用户界面712。例如，用户界面702和用户界面712显示在消息传送客户端应用104内。图7A的用户界面702对应于接收语音命令的界面，以及图7B的用户界面712对应于将所选择的增强现实内容项应用于所捕获的图像数据的界面。

在图7A的示例中，用户界面702包括与由客户端设备102的面向前的摄像机捕获的图像数据相对应的所捕获的图像数据706。可替选地，图像数据可以由客户端设备102的面向后的摄像机捕获。在一个或更多个实施方式中，按钮708的用户选择提供生成包括屏幕内容的图像(例如，响应于按钮708的按下/轻击手势)和/或视频(例如，响应于按钮708的按下并保持手势)的消息，以例如发送给好友、包括在故事中等。

如上所讨论的，客户端设备102的用户可以向消息传送客户端应用104提供语音输入。语音输入包括用于选择特定增强现实内容项的语音命令(例如，其之前可以是触发词)。在图7A的示例中，语音输入可以包括触发词(例如，未示出)，其后是“那是什么书”的语音命令/查询。

在一个或更多个实现方式中，在接收语音输入的同时，消息传送客户端应用104被配置成显示转换后的文本710，其对应于由语音识别服务器系统128确定的语音输入的基于文本的版本。可替选地或另外地，消息传送客户端应用104被配置成显示语音命令图形(未示出)，例如，其对应于指示语音输入的(例如，实时)接收的动画。

转到图7B，响应于接收到语音输入来(例如，由消息传送客户端应用104)显示用户界面712。如上所讨论的，消息传送服务器系统112至少部分地基于来自语音输入的关键词(例如，“什么”、“书”)从多个可用增强现实内容项中选择增强现实内容项。例如，关键词“书”对应于如上面讨论的由消息传送客户端应用104检测到的所捕获的图像数据706中描绘的对象。

消息传送客户端应用104可以检测所捕获的图像数据706中的不同对象(例如，作为如上所讨论的扫描操作的一部分)。例如，消息传送客户端应用104可以识别所捕获的图像数据706中的书本对象704以及多个其他对象(未示出，例如桌子、杂志、灯等)。在识别对象时，消息传送客户端应用104确定关键词“书”被描绘在所捕获的图像数据706中(例如，作为书本对象704)。

另外，消息传送客户端应用104确定关键词“什么”指示要对书本对象704执行的动作。例如，可以预先确定关键词“什么”与提供对象的识别信息的动作相关联。与提供识别信息的动作相关联的预定关键词的其他示例包括但不限于“识别”、“告诉我关于……”、“提供关于……的信息”等。

如上所讨论的，消息传送服务器系统112基于书本对象704和动作(例如，提供识别信息)的属性来搜索和选择一个或更多个增强现实内容项，并且向消息传送客户端应用104提供镜头的指示和/或排位信息。消息传送客户端应用104然后启动所选择的增强现实内容项以将增强现实内容项716(例如，书本对象704的标题)连同所捕获的图像数据706一起显示。例如，所选择的增强现实内容项可以对应于被配置成提供书本的识别信息的应用。在一个或更多个实现方式中，可以显示补充信息元素714以指示书本对象704的其他识别信息(例如，作者、可用性)。其他识别信息也可以由所选择的增强现实内容项提供。此外，补充信息元素714可以对应于用户可选择链接，该链接用于重新定向到用于关于该书的附加信息和/或购买该书的能力的第三方应用。

此外，用户界面712包括轮播界面720，轮播界面720允许用户循环通过和/或选择不同的增强现实内容项以应用于所捕获的图像数据706。可用增强现实内容项中的每一个由用户可选择以切换到相应的增强现实内容项的图标来表示。在一个或更多个实施方式中，与活动的增强现实内容项相对应的图标(例如，所选择的增强现实内容项图标718)以相对于其余图标不同(例如，大于其余图标)的方式显示。在一个或更多个实施方式中，用户对所选择的增强现实内容项图标718的选择提供用于生成包括屏幕内容的图像(例如，响应于所选择的增强现实内容项图标718的按下/轻击手势)和/或视频(例如，响应于所选择的增强现实内容项图标718的按下并保持手势)的消息，例如以发送给好友、包括在故事等中。

图8A至8B示出了根据一些示例实施方式的用于基于语音输入来选择增强现实内容(例如，增强现实体验)以求解与对象相对应的问题的用户界面802和用户界面812。例如，用户界面802和用户界面812显示在消息传送客户端应用104内。图8A的用户界面802对应于接收语音命令的界面，以及图8B的用户界面812对应于将所选择的增强现实内容项应用于所捕获的图像数据的界面。

在图8A的示例中，用户界面802包括与由客户端设备102的面向前的摄像机捕获的图像数据相对应的所捕获的图像数据806。可替选地，图像数据可以由客户端设备102的面向后的摄像机捕获。在一个或更多个实施方式中，按钮808的用户选择提供用于生成包括屏幕内容的图像(例如，响应于按钮808的按下/轻击手势)和/或视频(例如，响应于按钮808的按下并保持手势)的消息，以例如发送给好友、包括在故事中等。

如上所讨论的，客户端设备102的用户可以向消息传送客户端应用104提供语音输入。语音输入包括用于选择特定增强现实内容项的语音命令(例如，其之前可以是触发词)。在图8A的示例中，语音输入可以包括触发词(例如，未示出)，其后是“求解这个数学问题”的语音命令/查询。

在一个或更多个实现方式中，在接收语音输入的同时，消息传送客户端应用104被配置成显示转换后的文本810，其对应于由语音识别服务器系统128确定的语音输入的基于文本的版本。可替选地或另外地，消息传送客户端应用104被配置成显示语音命令图形(未示出)，例如，其对应于指示语音输入的(例如，实时)接收的动画。

转到图8B，响应于接收到语音输入来(例如，由消息传送客户端应用104)显示用户界面812。如上所讨论的，消息传送服务器系统112至少部分地基于来自语音输入的关键词(例如，“求解”、“数学问题”)从多个可用增强现实内容项中选择增强现实内容项。例如，关键词“数学问题”对应于所捕获的图像数据806中描绘的如上面讨论的由消息传送客户端应用104检测到的对象。

消息传送客户端应用104可以检测所捕获的图像数据806中的不同对象(例如，作为扫描操作的一部分)。例如，消息传送客户端应用104可以识别所捕获的图像数据806中的数学问题对象804以及多个其他对象(纸、笔等)。在识别对象时，消息传送客户端应用104确定关键词“数学问题”被描绘在所捕获的图像数据806中(例如，作为数学问题对象804)。

另外，消息传送客户端应用104确定关键词“求解”指示针对数学问题对象804执行的动作。例如，可以预先确定关键词“求解”与求解问题的动作相关联。与求解问题的动作相关联的预定关键词的其他示例包括但不限于“计算”、“算出”、“提供答案”等。

如上所讨论的，消息传送服务器系统112基于数学问题对象804和动作(例如，求解问题)的属性来搜索和选择一个或更多个增强现实内容项，并且向消息传送客户端应用104提供镜头的指示和/或排位信息。消息传送客户端应用104然后启动所选择的增强现实内容项，以将增强现实内容项814(例如，求解数学问题对象804)连同所捕获的图像数据806一起显示。例如，所选择的增强现实内容项可以对应于被配置成求解数学问题的应用(例如，数学求解器应用)。在一个或更多个实现方式中，消息传送客户端应用104可以提供用户可选择链接(例如，按钮816)，该链接用于重新定向到提供关于求解数学问题对象804的附加信息的第三方应用。

此外，用户接口812包括轮播界面818，轮播界面818允许用户循环通过和/或选择不同的增强现实内容项以应用于所捕获的图像数据806。可用增强现实内容项中的每一个由用户可选择以切换到相应的增强现实内容项的图标来表示。在一个或更多个实施方式中，与活动的增强现实内容项相对应的图标(例如，所选择的增强现实内容项图标820)以相对于其余图标不同(例如，大于其余图标)的方式显示。在一个或更多个实施方式中，用户对所选择的增强现实内容项图标820的选择提供用于生成包括屏幕内容的图像(例如，响应于所选择的增强现实内容项图标820的按下/轻击手势)和/或视频(例如，响应于所选择的增强现实内容项图标820的按下并保持手势)的消息，以例如发送给好友、包括在故事等中。

注意，图7A至图7B和图8A至图8B对应于可以基于由用户提供的语音输入(例如，语音命令)来选择的增强现实内容项的示例。如下讨论增强现实内容项选择的其他示例。

在一个示例中，消息传送客户端应用104接收语音输入，以为所捕获的图像中所描绘的食物项提供视觉效果。例如，用户可能已经提供了“使我的汉堡动画化”的语音命令(例如，或其他类似的命令)。作为响应，消息传送客户端应用104(例如，结合语音识别客户端应用106、语音识别服务器系统128和/或消息传送服务器系统112)检索包括看起来像食物项的一个或更多个图形元素(例如，汉堡和/或与汉堡相关联的对象的动画化图像)的增强现实内容项(例如，增强现实内容项)。消息传送客户端应用104在食物项周围或在食物项之上呈现一个或更多个图形元素。一个或更多个图形元素可以被动画化，以看起来围绕该食物项。

在另一示例中，消息传送客户端应用104接收语音输入以提供所捕获图像中描绘的电影或媒体项目的识别信息和/或视觉效果。例如，用户可能已经提供了语音命令“这是什么电影”(例如，或其他类似命令)。作为响应，消息传送客户端应用104(例如，结合语音识别客户端应用106、语音识别服务器系统128和/或消息服务器系统112)检索包括与电影或媒体项相关联的信息和/或图形元素的增强现实内容项。消息传送客户端应用104在电影或媒体项周围或在电影或媒体项之上呈现信息和/或图形元素。例如，如果封面艺术包括狮子的图片，则增强现实内容项包括使狮子动画化的图形元素，并且用该图形元素的动画化狮子替换封面艺术中的狮子的图片。

在另一示例中，消息传送客户端应用104接收语音输入以提供所捕获的图像中描绘的风景(例如，包括天空)的天气信息。例如，用户可能已经提供了语音命令“这里的天气是什么样的”(例如，或其他类似的命令)。作为响应，消息传送客户端应用104(例如，结合语音识别客户端应用106、语音识别服务器系统128和/或消息传送服务器系统112)采用(例如，对应于天气应用的)增强现实内容项来提供所描绘的风景的当前天气信息。当前天气信息可以至少部分地基于客户端设备102的地理位置。所选择的增强现实内容项提供描绘天气的一个或更多个图形元素，并且消息传送客户端应用104将一个或更多个图形元素呈现在风景(例如，包括天空)之上。

图9是示出根据一些示例实施方式的用于基于语音输入来选择增强现实内容以对对象执行动作的过程900的流程图。出于说明的目的，本文中主要参照图1的消息传送客户端应用104、语音识别客户端应用106、语音识别服务器系统128和消息传送服务器系统112来描述过程900。然而，过程900的一个或更多个块(或操作)可以由一个或更多个其他部件和/或由其他合适的设备来执行。进一步出于说明的目的，本文中将过程900的块描述为串行或线性地发生。然而，过程900的多个块可以并行发生。另外，过程900的块不需要以所示的顺序执行，以及/或者过程900的一个或更多个块不需要执行和/或可以由其他操作代替。

在客户端设备102上运行的消息传送客户端应用104使得客户端设备102的摄像机捕获图像(块902)。消息传送客户端应用104接收语音输入以选择用于与图像一起显示的增强现实内容(例如，增强现实内容项)(块904)。

消息传送客户端应用104确定语音输入中包括的至少一个关键词(块906)。确定至少一个关键词可以包括向语音识别服务器系统128发送基于语音输入执行语音识别的请求，以及基于发送请求从语音识别服务器系统128接收至少一个关键词。语音输入的第一部分可以包括触发词，并且至少一个关键词可以基于语音输入的不包括触发词的第二部分。

消息传送客户端应用104确定至少一个关键词指示图像中描绘的对象和针对该对象执行的动作(块908)。至少一个关键词可以包括指示对象的第一关键词和指示针对对象执行的动作的第二关键词。消息传送客户端应用104可以执行图像的扫描以识别图像中的多个对象，并且基于执行扫描而从多个对象中检测对象。

该动作可以对应于提供对象的识别信息，使得增强现实内容提供对象的识别信息。在另一示例中，对象可以对应于要求解的问题，使得动作对应于求解该问题，并且增强现实内容显示该问题的解。在另一示例中，动作可以对应于将视觉效果应用于图像中所描绘的对象，增强现实内容使得将视觉效果应用于图像中所描绘的对象。

消息传送客户端应用104从多个增强现实内容项中识别与针对对象执行动作相对应的增强现实内容项(块910)。

识别增强现实内容项可以包括向消息传送服务器系统112发送基于对象的属性和动作的属性来搜索多个增强现实内容项的请求，以及基于发送请求从消息传送服务器系统112接收增强现实内容项的指示。消息传送服务器系统112可以被配置成通过将对象的属性和动作的属性与和多个增强现实内容项中的每一个增强现实内容项相关联的预定义属性进行比较来搜索多个增强现实内容项。

消息传送客户端应用104将增强现实内容项(例如，增强现实内容项)与图像一起显示(块912)。消息传送客户端应用104可以提供用于显示的轮播界面，该轮播界面包括针对多个增强现实内容项中的每一个增强现实内容项的相应图标，并且使得在轮播界面内进行针对增强现实内容项的图标相对于其余图标的差异化显示。

图10是示出软件架构1004的框图1000，该软件架构1004可以安装在本文所描述的任何一个或更多个设备上。软件架构1004由硬件例如包括处理器1020、存储器1026和I/O部件1038的机器1002支持。在该示例中，软件架构1004可以被概念化为层的堆叠，在该层的堆叠中，每个层提供特定的功能。软件架构1004包括诸如操作系统1012、库1010、框架1008和应用1006的层。在操作上，应用1006通过软件堆栈来激活API调用1050，并且响应于API调用1050来接收消息1052。

操作系统1012管理硬件资源并提供公共服务。操作系统1012包括例如核1014、服务1016和驱动器1022。核1014充当硬件层与其他软件层之间的抽象层。例如，核1014提供存储器管理、处理器管理(例如，调度)、部件管理、网络和安全设置以及其他功能。服务1016可以为其他软件层提供其他公共服务。驱动器1022负责控制底层硬件或与底层硬件接口。例如，驱动器1022可以包括显示驱动器、摄像机驱动器、

或

低功耗驱动器、闪存驱动器、串行通信驱动器(例如，通用串行总线(USB)驱动器)、

驱动器、音频驱动器、电源管理驱动器等。

库1010提供由应用1006使用的低级公共基础结构。库1010可以包括系统库1018(例如，C标准库)，系统库1018提供诸如存储器分配函数、符串操作函数、数学函数等的函数。另外，库1010可以包括API库1024，例如媒体库(例如，用于支持各种媒体格式的呈现和操作的库，所述各种媒体格式例如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如，用于在显示器上的图形内容中以二维(2D)和三维(3D)进行呈现的OpenGL框架)、数据库库(例如，提供各种关系数据库功能的SQLite)、web库(例如，提供网页浏览功能的WebKit)等。库1010还可包括多种其他库1028以向应用1006提供许多其他API。

框架1008提供由应用1006使用的高级公共基础结构。例如，框架1008提供各种图形用户界面(GUI)功能、高级资源管理和高级位置服务。框架1008可以提供可以由应用1006使用的广泛的其他API，其中的一些API可以专用于特定的操作系统或平台。

在示例实施方式中，应用1006可以包括家庭应用1036、联系人应用1030、浏览器应用1032、图书阅读器应用1034、位置应用1042、媒体应用1044、消息传送应用1046(例如，对应于消息传送客户端应用104)、游戏应用1048以及广泛分类的其他应用例如第三方应用1040。应用1006是执行程序中限定的功能的程序。可以使用各种编程语言来创建以各种方式构造的应用1006中的一个或更多个，所述编程语言例如面向对象的编程语言(例如，Objective-C、Java或C++)或过程编程语言(例如C或汇编语言)。在特定示例中，第三方应用1040(例如，由除特定平台的供应商外的实体使用ANDROID^TM或IOS^TM软件开发工具包(SDK)开发的应用)可以是移动操作系统例如IOS^TM、ANDROID^TM、

Phone或另一移动操作系统上运行的移动软件。在该示例中，第三方应用1040可以激活由操作系统1012提供的API调用1050，以促进本文描述的功能。

图11是机器1100的图形表示，在机器1100中可以执行用于使机器1100执行本文讨论的任何一个或更多个方法的指令1108(例如，软件、程序、应用、小程序、app或其他可执行代码)。例如，指令1108可以使机器1100执行本文描述的方法中的任何一个或更多个方法。指令1108将通用的未经编程的机器1100转换成特定机器1100，该特定机器1100被编程为以所述方式执行所述和所示功能。机器1100可以作为独立设备操作，或者可以耦接(例如，联网)至其他机器。在网络部署中，机器1100可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份操作，或者在对等(或分布式)网络环境中作为对等机器操作。机器1100可以包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、PDA、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能电器)、其他智能设备、web电器、网络路由器、网络交换机、网络桥接器或能够顺序地或以其他方式执行指定要由机器1100采取的动作的指令1108的任何机器。此外，虽然仅示出了单个机器1100，但是术语“机器”还应当被理解为包括单独地或联合地执行指令1108以执行本文中讨论的任何一种或更多种方法的机器的集合。

机器1100可以包括处理器1102、存储器1104和I/O部件1144，它们可以被配置成经由总线1142彼此通信。在示例实施方式中，处理器1102(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、ASIC、射频集成电路(RFIC)、另一处理器或其任何合适的组合)可以包括例如执行指令1108的处理器1106和处理器1110。术语“处理器”旨在包括多核处理器，所述多核处理器可以包括可以同时执行指令的两个或更多个独立的处理器(有时称为“核”)。虽然图11示出了多个处理器1102，但是机器1100可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如，多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器或其任何组合。

存储器1104包括处理器1102可经由总线1142访问的主存储器1112、静态存储器1114和存储单元1116。主存储器1104、静态存储器1114和存储单元1116存储实现本文中所描述的方法或功能中的任何一个或更多个方法或功能的指令1108。指令1108在其由机器1100执行期间还可以完全或部分地驻留在主存储器1112内、静态存储器1114内、存储单元1116内的机器可读介质1118内、处理器1102中的至少一个内(例如，在处理器的高速缓冲存储器内)或其任何合适的组合内。

I/O部件1144可以包括用于接收输入、提供输出、产生输出、传送信息、交换信息、捕获测量结果等的各种部件。包括在特定机器中的特定I/O部件1144将取决于机器的类型。例如，便携式机器例如移动电话可以包括触摸输入设备或其他这样的输入机构，而无头服务器机器将不太可能包括这样的触摸输入设备。应当理解，I/O部件1144可以包括图11中未示出的许多其他部件。在各种示例实施方式中，I/O部件1144可以包括输出部件1128和输入部件1130。输出部件1128可以包括视觉部件(例如，诸如等离子体显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、声学部件(例如，扬声器)、触觉部件(例如，振动马达、阻力机构)、其他信号发生器等。输入部件1130可以包括字母数字输入部件(例如，键盘、被配置成接收字母数字输入的触摸屏、光电键盘或其他字母数字输入部件)、基于点的输入部件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他定点仪器)、触觉输入部件(例如，物理按钮、提供触摸或触摸手势的位置和/或力的触摸屏或其他触觉输入部件)、音频输入部件(例如，麦克风)、光学传感器部件(例如摄像机)等。

在另外的示例实施方式中，I/O部件1144可以包括生物计量部件1132、运动部件1134、环境部件1136或定位部件1138以及各种其他部件。例如，生物计量部件1132包括用于检测表达(例如，手部表达、面部表达、声音表达、身体姿势或眼睛追踪)、测量生物信号(例如，血压、心率、体温、排汗或脑波)、识别人(例如，声音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件1134包括加速度传感器部件(例如，加速度计)、重力传感器部件、旋转传感器部件(例如，陀螺仪)等。环境部件1136包括例如照明传感器部件(例如，光度计)、温度传感器部件(例如，检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如，气压计)、声学传感器部件(例如，检测背景噪声的一个或更多个麦克风)、接近传感器部件(例如，检测附近对象的红外传感器)、气体传感器(例如，用于出于安全考虑而检测危险气体的浓度或用于测量大气中的污染物的气体检测传感器)或可以提供与周围物理环境相对应的指示、测量或信号的其他部件。定位部件1138包括位置传感器部件(例如，GPS接收器部件)、海拔传感器部件(例如，检测可以得到海拔的气压的高度计或气压计)、取向传感器部件(例如，磁力计)等。

可以使用多种技术来实现通信。I/O部件1144还包括通信部件1140，通信部件1140能够进行操作以分别经由耦接器1126和耦接器1124将机器1100耦接至网络1120或设备1122。例如，通信部件1140可以包括网络接口部件或另一合适的设备以与网络1120接口。在另外的示例中，通信部件1140可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、

部件(例如，

低功耗)、

部件以及经由其他形式提供通信的其他通信部件。设备1122可以是另一机器或各种外围设备中的任何外围设备(例如，经由USB耦接的外围设备)。

此外，通信部件1140可以检测标识符或包括可操作以检测标识符的部件。例如，通信部件1140可以包括射频识别(RFID)标签读取器部件、NFC智能标签检测部件、光学读取器部件(例如，用于检测下述各项的光学传感器：一维条形码，例如通用产品代码(UPC)条形码；多维条形码，例如快速响应(QR)代码、Aztec代码、数据矩阵、数据图示符(Dataglyph)、麦克斯码(MaxiCode)、PDF417、超代码、UCC RSS-2D条形码；以及其他光学代码)或者声学检测部件(例如，用于识别已标记的音频信号的麦克风)。另外，可以经由通信部件1140得出各种信息，例如经由因特网协议(IP)地理定位的位置、经由

信号三角测量的位置、经由检测可以指示特定位置的NFC信标信号的位置等。

各种存储器(例如，存储器1104、主存储器1112、静态存储器1114和/或处理器1102的存储器)和/或存储单元1116可以存储一组或更多组指令和数据结构(例如，软件)，这些指令和数据结构体现本文描述的方法或功能中的任何一个或更多个或者由本文描述的方法或功能中的任何一个或更多个使用。这些指令(例如，指令1108)在由处理器1102执行时使各种操作实现所公开的实施方式。

可以使用传输介质、经由网络接口设备(例如，包括在通信部件1140中的网络接口部件)并使用多个公知的传输协议中的任何一个(例如，超文本传输协议(HTTP))通过网络1120发送或接收指令1108。类似地，可以使用传输介质经由到设备1122的耦接1124(例如，对等耦接)来发送或接收指令1108。

“客户端设备”是指与通信网络对接以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、多个膝上型计算机、多处理器系统、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。

“通信网络”是指网络的一个或更多个部分，该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、

网络、另一类型的网络或者两个或更多个这样的网络的组合。例如，网络或网络的一部分可以包括无线网络或蜂窝网络，并且耦接可以是码分多址(CDMA)连接、全局移动通信系统(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中，耦接可以实现各种类型的数据传输技术中的任何数据传输技术，例如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、GSM演进的增强数据速率(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动通讯系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。

“部件”是指具有以下边界的设备、物理实体或逻辑：该边界由功能或子例程调用、分支点、API或被提供用于对特定处理或控制功能进行划分或模块化的其他技术来定义。部件可以经由它们的接口与其他部件组合以执行机器处理。部件可以是被设计用于与其他部件一起使用的经封装的功能硬件单元并且可以是通常执行相关功能中的特定功能的程序的一部分。部件可以构成软件部件(例如，体现在机器可读介质上的代码)或硬件部件。“硬件部件”是能够执行某些操作的有形单元，并且可以以某种物理方式来配置或布置。在各种示例实施方式中，一个或更多个计算机系统(例如，独立计算机系统、客户端计算机系统或服务器计算机系统)或计算机系统的一个或更多个硬件部件(例如，处理器或处理器组)可以通过软件(例如，应用或应用部分)被配置为用于执行如本文中描述的某些操作的硬件部件。也可以机械地、电子地或其任何合适的组合来实现硬件部件。例如，硬件部件可以包括被永久地配置成执行某些操作的专用电路或逻辑。硬件部件可以是专用处理器，例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件部件还可以包括通过软件被短暂配置成执行某些操作的可编程逻辑或电路。例如，硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置，则硬件部件成为被唯一地定制成执行配置的功能的特定的机器(或机器的特定部件)，并且不再是通用处理器。将理解的是，可以出于成本和时间考虑来推动在专用且永久配置的电路中或在短暂配置(例如，通过软件配置)的电路中机械地实现硬件部件的决策。因此，短语“硬件部件”(或者“硬件实现的部件”)应当被理解成包含有形实体，即为被物理构造、永久配置(例如，硬连线)或短暂配置(例如，编程)成以某种方式操作或者执行本文中描述的某些操作的实体。考虑硬件部件被短暂配置(例如，被编程)的实施方式，无需在任一时刻对硬件部件中的每个硬件部件进行配置或实例化。例如，在硬件部件包括通过软件配置成专用处理器的通用处理器的情况下，该通用处理器可以在不同时间处分别被配置为不同的专用处理器(例如，包括不同的硬件部件)。软件相应地配置一个特定处理器或多个特定处理器以例如在一个时刻处构成特定硬件部件并且在不同的时刻处构成不同的硬件部件。硬件部件可以向其他硬件部件提供信息并且从其他硬件部件接收信息。相应地，所描述的硬件部件可以被认为是通信上耦接的。在同时存在多个硬件部件的情况下，可以通过在两个或更多个硬件部件之间或之中的信号传输(例如，通过适当的电路和总线)来实现通信。在其中多个硬件部件在不同时间处被配置或实例化的实施方式中，可以例如通过将信息存储在多个硬件部件可以访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件部件之间的通信。例如，一个硬件部件可以执行操作，并且将该操作的输出存储在通信上耦接的存储器设备中。然后，另外的硬件部件可以在随后的时间处访问存储器设备，以检索和处理所存储的输出。硬件部件还可以发起与输入或输出设备的通信，并且可以对资源进行操作(例如，信息的收集)。在本文中描述的示例方法的各种操作可以至少部分地由被短暂地配置(例如，由软件)或永久地配置以执行相关操作的一个或更多个处理器来执行。无论是短暂配置还是永久配置，这样的处理器可以构成进行操作以执行本文描述的一个或更多个操作或功能的处理器实现的部件。如本文中使用的，“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地，本文中描述的方法可以至少部分地由处理器实现，其中，特定的一个或多个处理器是硬件的示例。例如，方法的至少一些操作可以由一个或更多个处理器或处理器实现的部件来执行。此外，一个或更多个处理器还可以进行操作以支持“云计算”环境中的相关操作的执行或者操作为“软件即服务”(SaaS)。例如，操作中的至少一些操作可以由一组计算机(作为包括处理器的机器的示例)执行，其中，这些操作能够经由网络(例如，因特网)并且经由一个或更多个适当的接口(例如，API)进行访问。某些操作的执行可以分布在处理器之间，不仅驻留在单个机器内，而且跨多个机器部署。在一些示例实施方式中，处理器或处理器实现的部件可以位于单个地理位置中(例如，在家庭环境、办公室环境或服务器群内)。在其他示例实施方式中，处理器或处理器实现的部件可以跨多个地理位置分布。

“计算机可读介质”是指机器存储介质和传输介质两者。因此，这些术语包括存储设备/介质和载波/调制数据信号两者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物并且可以在本公开内容中互换地使用。

“短暂消息”是指在时间有限的持续时间内可访问的消息。短暂消息可以是文本、图像、视频等。针对短暂消息的访问时间可以由消息发送者设置。可替选地，访问时间可以是默认设置或者由接收者指定的设置。无论设置技术如何，该消息都是暂时的。

“机器存储介质”指的是存储可执行指令、例程和/或数据的单个或多个存储设备和/或介质(例如，集中式或分布式数据库、和/或相关联的缓存和服务器)。因此，上述术语应被视为包括但不限于固态存储器以及光学和磁性介质，包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和/或设备存储介质的具体示例包括：非易失性存储器，包括例如半导体存储器设备，例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪速存储器设备；磁盘，例如内部硬盘和可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM磁盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物，并且在本公开内容中可以互换使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质，载波、调制数据信号和其他这样的介质中的至少一些被涵盖在术语“信号介质”中。

“处理器”是指根据控制信号(例如，“命令”、“操作码”、“机器码”等)操纵数据值并且产生被应用以操作机器的对应输出信号的任何电路或虚拟电路(由在实际处理器上执行的逻辑模拟的物理电路)。例如，处理器可以是中央处理单元(CPU)、简化指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)或其任何组合。处理器还可以是具有两个或更多个独立处理器(有时称为“核”)的多核处理器，其可以同时执行指令。

“信号介质”是指能够存储、编码或携载由机器执行的指令的任何无形介质，并且包括数字或模拟通信信号或其他无形介质以有助于软件或数据的通信。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”意指使其特性中的一个或更多个以对信号中的信息进行编码的这样的方式来设置或改变的信号。术语“传输介质”和“信号介质”意指相同的介质，并且可以在本公开内容中互换使用。

在不脱离本公开内容的范围的情况下，可以对所公开的实施方式进行改变和修改。这些和其他改变或修改旨在被包括在本公开内容的范围内，并且在所附权利要求中被表达。

Claims

1.一种方法，包括：

由在运行于设备上的消息传送应用使所述设备的摄像机捕获图像；

由所述消息传送应用接收语音输入以选择用于与所述图像一起显示的增强现实内容；

确定所述语音输入中包括的至少一个关键词；

确定所述至少一个关键词指示所述图像中描绘的对象和针对所述对象执行的动作；

从多个增强现实内容项中识别与针对所述对象执行所述动作相对应的增强现实内容项；以及

将所述增强现实内容项与所述图像一起显示。

2.根据权利要求1所述的方法，还包括：

执行所述图像的扫描以识别所述图像中的多个对象；以及

基于执行所述扫描，从所述多个对象中检测所述对象。

3.根据权利要求1所述的方法，其中，确定所述至少一个关键词包括：

向语音识别服务发送基于所述语音输入执行语音识别的请求；以及

基于发送所述请求从所述语音识别服务接收所述至少一个关键词。

4.根据权利要求3所述的方法，其中，所述语音输入的第一部分包括触发词，并且

其中，所述至少一个关键词基于所述语音输入的不包括所述触发词的第二部分。

5.根据权利要求1所述的方法，其中，识别所述增强现实内容项包括：

向服务器发送基于所述对象的属性和所述动作的属性来搜索所述多个增强现实内容项的请求；以及

基于发送所述请求从所述服务器接收所述增强现实内容项的指示。

6.根据权利要求5所述的方法，其中，所述服务器被配置成通过将所述对象的属性和所述动作的属性与和所述多个增强现实内容项中的每一个增强现实内容项相关联的预定义属性进行比较来搜索所述多个增强现实内容项。

7.根据权利要求1所述的方法，还包括：

提供用于显示的轮播界面，所述轮播界面包括针对所述多个增强现实内容项中的每一个增强现实内容项的相应图标；以及

使得在轮播界面内进行针对所述增强现实内容项的所述图标相对于其余图标的差异化显示。

8.根据权利要求1所述的方法，其中，所述动作对应于提供所述对象的识别信息，并且

其中，所述增强现实内容提供所述对象的识别信息。

9.根据权利要求1所述的方法，其中，所述对象对应于要求解的问题，

其中，所述动作对应于求解所述问题，并且

其中，所述增强现实内容显示所述问题的解。

10.根据权利要求1所述的方法，其中，所述动作对应于将视觉效果应用于所述图像中描绘的所述对象，并且

其中，所述增强现实内容使得将所述视觉效果应用于所述图像中描绘的所述对象。

11.根据权利要求1所述的方法，其中，所述至少一个关键词包括指示所述对象的第一关键词和指示针对所述对象执行的所述动作的第二关键词。

12.一种设备，包括：

处理器；以及

存储指令的存储器，所述指令在由所述处理器执行时使所述处理器：

确定所述语音输入中包括的至少一个关键词；

将所述增强现实内容项与所述图像一起显示。

13.根据权利要求12所述的设备，其中，所述指令还使所述处理器：

执行所述图像的扫描以识别所述图像中的多个对象；以及

基于执行所述扫描，从所述多个对象中检测所述对象。

14.根据权利要求12所述的设备，其中，确定所述至少一个关键词包括：

15.根据权利要求14所述的设备，其中，所述语音输入的第一部分包括触发词，并且

16.根据权利要求12的设备，其中，识别所述增强现实内容项包括：

17.根据权利要求16所述的设备，其中，所述服务器被配置成通过将所述对象的属性和所述动作的属性与和所述多个增强现实内容项中的每一个增强现实内容项相关联的预定义属性进行比较来搜索所述多个增强现实内容项。

18.根据权利要求12所述的设备，其中，所述指令还使所述处理器：

19.根据权利要求12所述的设备，其中，所述动作对应于提供所述对象的识别信息，并且

其中，所述增强现实内容提供所述对象的识别信息。

20.一种非暂态计算机可读存储介质，所述计算机可读存储介质包括指令，所述指令在由计算机执行时使所述计算机：

确定所述语音输入中包括的至少一个关键词；

将所述增强现实内容项与所述图像一起显示。