CN118160032A

CN118160032A - 具有意图估计的语音识别

Info

Publication number: CN118160032A
Application number: CN202280067027.5A
Authority: CN
Inventors: 艾伦·贝克尔; 伊塔马尔·申; 雅茨凯·阿萨; 埃伊纳夫·伊塔马尔; 纳夫·阿尔加里奇
Original assignee: Snap Inc
Current assignee: Snap Inc
Priority date: 2021-10-06
Filing date: 2022-10-05
Publication date: 2024-06-07
Also published as: KR20240090286A; WO2023060111A1; US20230104583A1; US11984114B2

Abstract

提供了用于执行语音到意图分类的系统和方法。系统和方法执行以下操作，所述操作包括：接收包括语音输入的音频文件；由语音识别引擎处理包括语音输入的音频文件，以生成语音输入的初始的基于字符的表示；由意图分类器处理语音输入的初始的基于字符的表示，以生成语音输入的估计意图；以及由所述语音识别引擎基于语音输入的估计意图来生成语音输入的文本表示。

Description

具有意图估计的语音识别

优先权要求

本专利申请要求于2021年10月6日提交的序列号为17/495,402的美国申请的优先权的权益，该美国申请的全部内容通过引用并入本文中。

技术领域

本公开内容一般涉及社交网络的技术领域。特别地，本示例一般涉及执行语音识别。

背景技术

随着社交网络的普及增长，社交网络不断扩展其能力。为了提高易用性，社交网络集成了越来越多的功能，使得用户可以在社交网络自身内完成许多或者甚至大多数他们基于计算机的任务。一些社交网络允许用户使用语音命令来执行任务。

附图说明

在不一定按比例绘制的附图中，相似的附图标记可以在不同的视图中描述类似的部件。为了容易标识对任何特定元件或动作的讨论，附图标记中的一个或多个最高位数字指代该元件被首次引入时所在的图号。在附图中示出了一些非限制性示例，在附图中：

图1是根据一些示例的可以在其中部署本公开内容的联网环境的图解表示。

图2是根据一些示例的具有客户端侧功能和服务器侧功能两者的消息收发系统的图解表示。

图3是根据一些示例的在数据库中维护的数据结构的图解表示。

图4是根据一些示例的消息的图解表示。

图5示出了根据一些示例的语音到意图系统。

图6是根据一些示例的语音到意图系统的处理流程的图解表示。

图7是根据一些示例的语音到意图系统的基于字符的矩阵的图解表示。

图8是示出根据示例的语音到意图系统的示例操作的流程图。

图9是根据一些示例的呈计算机系统形式的机器的图解表示，在该机器内可以执行指令集合以使该机器执行本文所讨论的方法中的任何一种或更多种。

图10是示出了其中可以实现示例的软件架构的框图。

具体实施方式

下面的描述包括体现本公开内容的说明性示例的系统、方法、技术、指令序列和计算机器程序产品。在以下描述中，出于说明的目的，阐述了许多具体细节以便提供对各种示例的理解。然而，对于本领域技术人员而言明显的是，可以在没有这些具体细节的情况下实践示例。一般地，不一定详细地示出公知的指令实例、协议、结构和技术。

某些社交网络系统允许用户通过口头上提供诸如捕获、编写、发送、删除、设置颜色等的几个预定命令来控制社交网络系统的操作。然而，在这些系统中，用户必须提前了解可以口头上提供什么确切命令。即，用户必须花费时间学习他们可以口头上发出的命令的确切格式和类型，这花费时间和精力，并且失去口头上控制社交网络系统的吸引力。

对话系统的关键任务之一是理解从用户接收的语音输入的目的。在大多数使用情况下，由于对话具有窄的商业焦点，因此这通常由基于变压器的神经网络来实现，该基于变压器的神经网络在受监督的标记的意图和时隙的大语料库上进行训练。在通常的系统中，语音输入首先由语音识别模型来处理，以生成接收到的语音输入的文本转录(transcription)。然后，该文本转录由意图分类器来处理，以确定用户的意图，以执行几个社交网络功能之一。虽然这样的系统通常很好地工作，但因为意图分类器与由语音识别模块处理的原始语音输入去耦接，因此意图分类器的输出的质量受到语音识别模块的输出的质量的限制。即，如果语音识别模块无法准确地生成接收到的语音输入的转录，则意图分类器也将无法提供准确的意图分类，这使语音识别(例如，意图分类器)执行错误或非预期的操作。这可能使用户非常沮丧，并且可能降低使用口头输入来操作社交网络系统的整体吸引力。

所公开的技术通过提供根据原始语音输入的部分转录估计用户的意图的语音识别系统，来提高使用电子设备的效率。根据所公开的技术，语音识别引擎以端到端的方式或方法与意图分类器一起进行训练。以这种方式，由语音识别引擎生成的语音转录考虑到由意图分类器(例如，基于字符的意图分类器)确定的给定语音输入的实际意图。这提高了由语音识别引擎生成转录的整体能力和准确度，并且提高了由意图分类器生成的意图分类的质量。

在示例中，在语音识别引擎将原始语音输入完全解码为文本转录之前，意图分类器从语音识别引擎接收原始语音输入的表示。该表示可以包括表示在生成文本转录时由语音识别引擎处理的隐藏层(语音输入的初始的基于字符的表示)的logit晶格。意图分类器可以对隐藏层(logit晶格)或语音输入的初始的基于字符的表示进行操作，以生成意图分类。因为意图分类是通过处理语音输入的初始的基于字符的表示而不是语音输入的最终转录来生成的，因此由意图分类器生成的意图的准确度不受到由语音识别引擎生成的转录的质量的影响。意图分类器的输出可以反馈至语音识别引擎，以进一步改进由语音识别引擎执行的任何转录或解码，以生成最终的语音输入转录。通过确保由语音识别引擎生成的任何转录考虑到语音输入的意图分类，这显著提高了社交网络系统执行自动语音识别和意图分类的整体能力。

具体地，所公开的技术接收包括语音输入的音频文件。公开的技术通过语音识别引擎处理包括语音输入的音频文件，以生成语音输入的初始的基于字符的表示。所公开的技术通过意图分类器处理语音输入的初始的基于字符的表示，以生成语音输入的估计意图。然后，公开的技术可以可选地由语音识别引擎基于语音输入的估计意图生成语音输入的文本表示。

以这种方式，所公开的技术提供更直观、鲁棒、吸引人的对话和语音识别系统，并且避免使用户提前了解社交网络系统或语音识别系统可以接受的特定类型的命令。这提高了社交网络系统可以被访问和进行交互的效率，从而减少了执行常规社交网络任务和操作所需的资源量。

所公开的技术提供了自动地且容易地生成聚焦于执行社交网络操作的有效的机器/人类对话的方式。

联网计算环境

图1是示出用于通过网络来交换数据(例如，消息和相关联的内容)的示例消息传送系统100的框图。消息收发系统100包括客户端设备102的多个实例，每个实例托管包括消息收发客户端104和其他外部应用109(例如，第三方应用)的若干应用。每个消息收发客户端104经由网络112(例如，因特网)通信地耦接至(例如，托管在相应的其他客户端设备102上的)消息收发客户端104的其他实例、消息收发服务器系统108以及外部app服务器110。消息收发客户端104还可以使用应用程序接口(API)与本地托管的第三方应用109进行通信。

消息收发客户端104能够经由网络112与其他消息收发客户端104和消息收发服务器系统108进行通信并且交换数据。在消息收发客户端104之间以及在消息收发客户端104与消息收发服务器系统108之间交换的数据包括功能(例如，用于激活功能的命令)以及净荷数据(例如，文本、音频、视频或其他多媒体数据)。

消息收发服务器系统108能够经由网络112向特定消息收发客户端104提供服务器侧功能。虽然消息收发系统100的某些功能在本文中被描述为由消息收发客户端104或由消息收发服务器系统108执行，但是某些功能是定位在消息收发客户端104内还是定位在消息收发服务器系统108内可以是设计选择。例如，在技术上可能优选的是：最初将某些技术和功能部署在消息收发服务器系统108内，但是后期将该技术和功能迁移至客户端设备102具有足够处理能力的消息收发客户端104。

消息收发服务器系统108支持向消息收发客户端104提供的各种服务和操作。这样的操作包括向消息收发客户端104发送数据、从消息收发客户端104接收数据以及对由消息收发客户端104生成的数据进行处理。作为示例，该数据可以包括消息内容、客户端设备信息、地理定位信息、媒体增强和覆盖(overlay)、消息内容持续性条件、社交网络信息、水印(正在被读取或呈现给客户端设备102的用户的消息和反应的组合指示)以及实时事件信息。通过经由消息收发客户端104的用户界面(UI)可用的功能来激活和控制消息收发系统100内的数据交换

现在具体地转至消息收发服务器系统108，API服务器116耦接至应用服务器114并且向应用服务器114提供编程接口。应用服务器114通信地耦接至数据库服务器120，该数据库服务器120便利于对数据库126的访问，该数据库126存储与通过应用服务器114处理的消息和反应相关联的数据。类似地，web服务器128耦接至应用服务器114，并且向应用服务器114提供基于web的界面。为此，web服务器128通过超文本传输协议(HTTP)和几个其他相关协议处理传入的网络请求。

API服务器116在客户端设备102与应用服务器114之间接收和发送消息数据(例如，水印、命令和消息净荷)。具体地，API服务器116提供一组接口(例如，例程和协议)，该组接口可以由消息收发客户端104调用或查询以激活应用服务器114的功能。API服务器116显露由应用服务器114支持的各种功能，包括：账户注册；登录功能；经由应用服务器114将消息从特定消息收发客户端104发送至另一消息收发客户端104；将媒体文件(例如，图像或视频)从消息收发客户端104发送至消息收发服务器118并用于另一消息收发客户端104的可能访问；媒体数据集合(例如，故事)的设置；检索客户端设备102的用户的朋友列表；检索这样的集合；检索消息和内容；在实体图(例如，社交图)中添加和删除实体(例如，朋友)；在社交图中定位朋友；以及打开应用事件(例如，与消息收发客户端104有关)。

应用服务器114托管若干服务器应用和子系统，包括例如消息收发服务器118、图像处理服务器122以及社交网络服务器124。消息收发服务器118实现了若干消息处理技术和功能，特别是与从消息收发客户端104的多个实例接收到的消息中包括的内容(例如，文本和多媒体内容)的聚合和其他处理有关的消息处理技术和功能。如将更详细地描述的，来自多个源的文本和媒体内容可以被汇集成内容的集合(例如，被称为故事或图库(gallery))。然后，使这些集合对消息收发客户端104可用。鉴于对数据的其他处理器和存储器密集处理的硬件要求，也可以由消息收发服务器118在服务器侧执行这样的处理。

应用服务器114还包括图像处理服务器122，该图像处理服务器122专用于执行各种图像处理操作，通常相对于在从消息收发服务器114发送或者在消息收发服务器118处接收的消息的净荷内的图像或视频，执行各种图像处理操作。

社交网络服务器124支持各种社交联网功能和服务并使这些功能和服务可用于消息收发服务器118。为此，社交网络服务器124维护并且访问数据库126内的实体图308(如图3所示)。社交网络服务器124所支持的功能和服务的示例包括识别消息收发系统100中的与特定用户具有关系或该特定用户正在“关注”的其他用户，以及识别特定用户的兴趣和其他实体。

返回至消息收发客户端104，外部资源(例如，外部应用109或小程序)的特征和功能使得经由消息收发客户端104的界面对用户可用。消息收发客户端104接收对用于启动或访问外部资源(例如，第三方资源)例如外部app 109的特征的选项的用户选择。外部资源可以是安装在客户端设备102上的第三方应用(外部app 109)(例如，“本地app”)，或者是托管在客户端设备102上或客户端设备102远端(例如，托管在外部app服务器110上)的第三方应用的小规模版本(例如，“小程序”)。第三方应用的小规模版本包括第三方应用(例如，第三方独立应用的全规模本地版本)的特征和功能的子集并且使用标记语言文档来实现。在一个示例中，第三方应用的小规模版本(例如，“小程序”)是第三方应用的基于web的标记语言版本，并且被嵌入在消息收发客户端104中。除了使用标记语言文档(例如，.*ml文件)以外，小程序可以包括脚本语言(例如，.*js文件或.json文件)和样式表(例如，.*ss文件)。

响应于接收到对用于启动或访问外部资源(外部app 109)的特征的选项的用户选择，消息收发客户端104确定所选择的外部资源是基于web的外部资源还是本地安装的外部应用。在一些情况下，本地安装在客户端设备102上的外部应用109可以例如通过在客户端设备102的主画面上选择与外部应用109对应的图标来独立于消息收发客户端104并且与消息收发客户端104分开地启动。这样的外部应用的小规模版本可以经由消息收发客户端104来启动或访问，并且在一些示例中，小规模外部应用的任何部分都不能(或者有限部分才能)在消息收发客户端104之外被访问。可以通过消息收发客户端104从外部app服务器110接收与小规模外部应用相关联的标记语言文档并对这样的文档进行处理来启动小规模外部应用。

响应于确定外部资源是本地安装的外部应用109，消息收发客户端104指示客户端设备102通过执行与外部应用109对应的本地存储的代码来启动外部应用109。响应于确定外部资源是基于web的资源，消息收发客户端104与外部app服务器110进行通信以获得与所选择的资源对应的标记语言文档。然后消息收发客户端104处理获得的标记语言文档以在消息收发客户端104的用户界面内呈现基于web的外部资源。

消息收发客户端104可以向客户端设备102的用户或与这样的用户有关的其他用户(例如，“朋友”)通知一个或更多个外部资源中正发生的活动。例如，消息收发客户端104可以向消息收发客户端104中的对话(例如，聊天会话)的参与者提供与一组用户的一个或更多个成员当前或最近使用外部资源有关的通知。可以邀请一个或更多个用户加入有效的外部资源或启动最近使用但当前不活动的(在该组朋友中)外部资源。外部资源可以向对话中的各自使用相应的消息收发客户端104的参与者提供与进入聊天会话中的用户组中的一个或更多个成员分享外部资源中的项目、状况、状态或定位的能力。共享项可以是交互式聊天卡，聊天的成员可以利用该交互式聊天卡进行交互，例如，以启动对应的外部资源，观看外部资源内的特定信息，或将聊天的成员带到外部资源内的特定位置或状态。在给定的外部资源内，可以向消息收发客户端104上的用户发送响应消息。外部资源可以基于外部资源的当前上下文将不同的媒体项选择性地包括在响应中。

消息收发客户端104可以向用户呈现可用外部资源(例如，第三方或外部应用109或小程序)的列表以启动或访问给定的外部资源。该列表可以以上下文相关菜单的方式呈现。例如，表示外部应用109(或小程序)中的不同外部应用的图标可以基于用户如何启动菜单(例如，从对话界面启动还是从非对话界面启动)而变化。

在一些示例中，消息收发客户端104可以呈现增强现实体验，该增强现实体验可以提供基于语音或对话的交互。例如，消息收发客户端104可以例如使用客户端设备102的前置摄像装置捕获用户(或2D或3D环境)的图像或视频。消息收发客户端104可以在描绘用户的图像或视频上覆盖或显示组成增强现实体验的一个或更多个增强现实图形元素。例如，消息收发客户端104可以显示增强现实时尚物品，例如化妆品、衣服、珠宝、帽子或眼镜。作为另一示例，消息收发客户端104可以呈现化身，作为表示用户的增强现实图形元素。作为另一示例，消息收发客户端104可以捕获描绘交通工具的环境的图像或视频。在这种情况下，消息收发客户端104可以接收来自用户的请求改变交通工具的颜色的语音交互(输入)。作为响应，消息收发客户端104可以用由语音交互请求的增强现实颜色来显示交通工具。

在向用户呈现增强现实体验的同时(例如，在描绘用户的图像上显示增强现实图形元素的同时)，消息收发客户端104可以接收来自用户的语音输入(例如，“请将框架改变为蓝色”)。作为示例，语音输入可以包括对增强现实图形元素进行改变的请求，例如改变一个或更多个增强现实图形元素的颜色、改变样式、改变大小或形状、改变材料、改变虚拟属性(例如，要求增加一点图像亮度或更生动地绘画建筑物)、和/或改变增强现实体验的音频性质。响应于接收到语音输入，消息收发客户端104可以将语音识别引擎应用于语音输入，以确定语音输入的意图以及/或者生成语音输入的转录。然后，该意图可以用于执行语音输入所请求的对应功能，例如改变透镜类型、改变框架形状、改变框架颜色等。意图还可以用于确定“积极意图”、“消极意图”、“确认”、“犹豫”等。每个意图可以通过功能检测到，以控制增强现实图形元素的外观，并且还控制对话的接下来的步骤或流程。

语音识别模型使用语音识别引擎和基于字符的意图分类器两者来处理原始语音输入(“请将框架改变为蓝色”)。具体地，语音识别引擎生成原始语音输入的初始的基于字符的表示。这可以作为字符随时间的概率的矩阵来提供。在语音识别引擎继续处理原始语音输入以解码和生成原始语音输入的转录(文本表示)时，可以将该矩阵提供给基于字符的意图分类器并对其进行处理。

基于字符的意图分类器例如通过确定哪些随时间的字符概率的组合表示语音输入的最可能的意图来生成原始语音输入的估计意图。该估计意图(和字符概率的组合)在一些情况下可以反馈至语音识别引擎，以改进或改进由语音识别引擎生成的原始语音输入的转录(文本表示)。

在一些示例中，语音识别引擎和意图分类器是神经网络，其以端到端方式基于在同一组语音输入训练数据上操作的两个损失函数进行训练。因此，因为意图分类器在原始语音数据上操作(在语音识别引擎完全解码语音输入之前)，因此与意图分类器在语音识别引擎的完全转录和解码的输出上操作的常规系统相比，该意图分类器可以生成对语音输入的意图的更准确的预测。此外，因为语音识别引擎基于由意图分类器提供的估计意图执行将语音输入解码成转录，因此提高了语音识别引擎的输出的准确度。

消息收发客户端104处理语音输入的意图和转录，以修改当前在图像中的用户的描绘上呈现的增强现实图形元素。例如，消息收发客户端104将增强现实眼镜对象的颜色值从第一颜色改变为更新的第二颜色(例如，当语音输入请求改变眼镜的颜色或亮度时)。消息收发客户端104还显示语音输入的转录(作为对用户的反馈)，并且生成对语音输入的音频响应。

系统架构

图2是示出根据一些示例的关于消息收发系统100的其他细节的框图。具体地，消息收发系统100被示为包括消息收发客户端104和应用服务器114。消息收发系统100包含若干子系统，这些子系统在客户端侧由消息收发客户端104支持并且在服务器侧由应用服务器114支持。这些子系统包括例如短暂定时器系统202、集合管理系统204、增强系统208、地图系统210、游戏系统212、外部资源系统220以及语音到意图系统230。

短暂定时器系统202负责实施由消息收发客户端104和消息收发服务器118对内容进行临时或限时访问。短暂定时器系统202包含若干个定时器，这些定时器基于与消息或消息集合(例如，故事)相关联的持续时间和显示参数来选择性地实现经由消息收发客户端104访问(例如，用于呈现和显示)消息和相关联的内容。下面提供关于短暂定时器系统202的操作的进一步的细节。

集合管理系统204负责管理媒体的合集或集合(例如，文本、图像、视频和音频数据的集合)。内容(例如，消息，包括图像、视频、文本和音频)的集合可以被组织成“事件图库”或“事件故事”。可以使这样的集合在指定的时间段(诸如内容所涉及的事件的持续时间)内可用。例如，可以在音乐会的持续时间内使与音乐会有关的内容作为“故事”可用。集合管理系统204还可以负责向消息收发客户端104的用户界面发布提供对存在特定集合的通知的图标。

此外，集合管理系统204还包括允许集合管理器管理和策展内容的特定集合的策展接口206。例如，策展接口206使得事件组织者能够策展与特定事件相关的内容的集合(例如，删除不适当的内容或冗余消息)。另外，集合管理系统204采用机器视觉(或图像识别技术)和内容规则来自动地策展内容集合。在某些示例中，可以向用户支付补偿以将用户生成的内容包括到集合中。在这样的情况下，集合管理系统204进行操作以自动向这样的用户支付费用以使用其内容。

增强系统208提供使得用户能够增强(例如，注解或以其他方式修改或编辑)与消息相关联的媒体内容的各种功能。例如，增强系统208提供与生成和发布用于由消息收发系统100处理的消息的媒体覆盖(media overlay)有关的功能。增强系统208基于客户端设备102的地理定位可操作地向消息收发客户端104供应媒体覆盖或增强(例如，图像过滤器或增强现实项)。在另一示例中，增强系统208基于诸如客户端设备102的用户的社交网络信息的其他信息可操作地向消息收发客户端104提供媒体覆盖。媒体覆盖可以包括音频和视觉内容和视觉效果。音频和视觉内容的示例包括图片、文本、标志、动画和声音效果。在一些情况下，媒体覆盖被称为增强现实项。视觉效果的示例包括颜色覆盖。音频和视觉内容或视觉效果可以应用于客户端设备102处的媒体内容项(例如，照片)。例如，媒体覆盖可以包括可以覆盖在由客户端设备102拍摄的照片的顶部的文本、图形元素或者图像。在另一示例中，媒体覆盖包括位置标识(例如，威尼斯海滩)覆盖、现场事件的名称或商家名称(例如，海滩咖啡馆)覆盖。在另一示例中，增强系统208使用客户端设备102的地理定位来标识包括客户端设备102的地理定位处的商家名称的媒体覆盖。媒体覆盖可以包括与商家相关联的其他标记。媒体覆盖可以存储在数据库120中并通过数据库服务器120进行访问。

在一些示例中，增强系统208提供基于用户的发布平台，该基于用户的发布平台使得用户能够选择地图上的地理定位，并且上传与选择的地理定位相关联的内容。用户还可以指定特定媒体覆盖应当被提供给其他用户的环境。增强系统208生成包括所上传的内容并将所上传的内容与所选择的地理定位相关联的媒体覆盖。

在其他示例中，增强系统208提供基于商家的发布平台，该基于商家的发布平台使得商家能够经由竞标处理选择与地理定位相关联的特定媒体覆盖。例如，增强系统208将最高竞价商家的媒体覆盖与对应地理定位相关联达预定义时间量。增强系统208与图像处理服务器122通信以自动选择和激活与由客户端设备102捕获的图像相关的增强现实体验。一旦在用户使用用户环境中的摄像装置扫描图像时选择增强现实体验，一个或更多个图像、视频或增强现实图形元素被检索并呈现为扫描图像顶部上的覆盖。在一些情况下，摄像装置被切换至正面视角(例如，客户端设备102的前置摄像装置响应于特定增强现实体验的激活而被激活)，并且来自客户端设备102的前置摄像装置而不是客户端设备102的后置摄像装置的图像开始显示在客户端设备102。一个或更多个图像、视频或增强现实图形元素被检索并呈现为由客户端设备102的前置摄像装置捕获和显示的图像之上的覆盖。

增强系统208允许用户创建自定义的媒体覆盖或增强现实项。这样的媒体覆盖可以包括一个或更多个不同的特征类型。例如，媒体覆盖可以包括基于面部跟踪的特征，在这些基于面部跟踪的特征中，基于在接收到的或捕获的图像或视频中检测到的面部特征的移动而修改一个或更多个增强现实项。作为另一示例，媒体覆盖可以包括基于音频片段的特征，在这些基于音频片段的特征中声音片段或音频片段与在接收的或捕获的图像或视频中呈现的一个或更多个增强现实项相关联。作为另一示例，媒体覆盖可以包括基于陀螺仪或加速度计的特征，在这些基于陀螺仪或加速度计的特征中，基于其上显示了接收的或捕获的图像或视频的客户端设备102的移动而修改一个或更多个增强现实项。可以与消息收发应用的其他用户共享自定义媒体覆盖。其他用户可以选择启动或访问自定义媒体覆盖。作为响应，检索并且使用自定义媒体覆盖的特征来增强或修改在其他用户的客户端设备上呈现的一个或更多个图像或视频。

地图系统210提供各种地理定位功能，并且支持由消息收发客户端104呈现基于地图的媒体内容和消息。例如，地图系统210使得能够在地图上显示(例如，存储在配置文件数据316中的)用户图标或形象化表示，以指示用户的“朋友”的当前或过去位置，以及由这样的朋友在地图的上下文内生成的媒体内容(例如，包括照片和视频的消息的集合)。例如，在消息收发客户端104的地图界面上，可以将用户从特定地理定位发布到消息收发系统100的消息在地图的该特定位置的情境内显示给特定用户的“朋友”。用户还可以经由消息收发客户端104与消息收发系统100的其他用户(例如，使用适当的状况化身)分享他或她的定位和状况信息，其中，在消息收发客户端104的地图界面的上下文内该定位和状况信息被类似地显示给选择的用户。

在一些示例中，消息收发客户端104可以接收来自用户的请求与地图系统210交互的对话或语音输入。基于语音输入的意图分类和语音输入的准确转录，消息收发客户端104可以向地图上描绘的朋友发送消息或执行其他基于地图的功能。

游戏系统212在消息收发客户端104的上下文中提供各种游戏功能。消息收发客户端104提供游戏界面，该游戏界面提供可以由用户在消息收发客户端104的上下文内启动并且与消息收发系统100的其他用户一起玩的可得游戏(例如，基于web的游戏或基于web的应用)的列表。消息收发系统100还使得特定用户能够通过从消息收发客户端104向其他用户发出邀请来邀请这样的其他用户参与玩特定游戏。消息收发客户端104还支持在游戏上下文内进行语音消息收发和文本消息收发(例如，聊天)两者，为游戏提供排行榜，并且还支持提供游戏内奖励(例如，游戏币和物品)。基于语音输入的意图分类和语音输入的准确转录，消息收发客户端104可以执行基于游戏的功能。

外部资源系统220向消息收发客户端104提供用于与外部app服务器110通信以启动或访问外部资源的接口。每个外部资源(app)服务器110托管例如基于标记语言(例如，HTML5)的应用或外部应用(例如，消息收发客户端104外部的游戏、实用程序、支付或乘车共享应用)的小规模版本。消息收发客户端104可以通过从与基于web的资源(例如，应用)相关联的外部资源(app)服务器110访问HTML5文件来启动该基于web的资源。在某些示例中，由外部资源服务器110托管的应用是利用由消息收发服务器118提供的软件开发工具包(SDK)以JavaScript编程的。SDK包括应用编程接口(API)，这些API具有可以由基于web的应用调用或激活的功能。在某些示例中，消息收发服务器118包括JavaScript库，该JavaScript库向给定的第三方资源提供对消息收发客户端104的某些用户数据的访问权限。HTML5被用作用于对游戏进行编程的示例技术，但是可以使用基于其他技术编程的应用和资源。基于语音输入的意图分类和语音输入的准确转录，消息收发客户端104可以执行基于外部资源的功能。

为了将SDK的功能集成到基于web的资源中，由外部资源(app)服务器110从消息收发服务器118下载SDK或者由外部资源(app)服务器110以其他方式来接收SDK。一旦被下载或接收，SDK就作为基于web的外部资源的应用代码的一部分被包括在内。然后，基于web的资源的代码可以调用或激活SDK的某些功能以将消息收发客户端104的特征集成到基于web的资源内。

存储在消息收发服务器118上的SDK有效地提供了外部资源(例如，第三方或外部应用109或小程序)与消息收发客户端104之间的桥接。这为用户提供了在消息收发客户端104上与其他用户交流的无缝体验，同时还保留了消息收发客户端104的外观和感觉。为了桥接外部资源与消息收发客户端104之间的通信，在某些示例中，SDK有助于外部资源服务器110与消息收发客户端104之间进行通信。在某些示例中，在客户端设备102上运行的网络视图JavaScript桥接在外部资源与消息收发客户端104之间建立两个单向通信通道。在外部资源与消息收发客户端104之间经由这些通信通道异步地发送消息。每个SDK功能激活被作为消息和回调来发送。每个SDK功能通过构造唯一的回调标识符并发送具有该回调标识符的消息来实现。

通过使用SDK，并非所有来自消息收发客户端104的信息都与外部资源服务器110共享。SDK基于外部资源的需求来限制共享哪些信息。在某些示例中，每个外部资源服务器110将与基于web的外部资源对应的HTML5文件提供给消息收发服务器118。消息收发服务器118可以在消息收发客户端104中添加基于web的外部资源的视觉表示(例如盒设计或其他图形)。一旦用户通过消息收发客户端104的GUI选择该视觉表示或指示消息收发客户端104访问基于web的外部资源的特征，消息收发客户端104就获得HTML5文件并且使访问基于web的外部资源的特征所需的资源实例化。

消息收发客户端104呈现用于外部资源的图形用户界面(例如，登陆页面或标题画面)。在呈现登陆页面或标题画面期间、之前或之后，消息收发客户端104确定所启动的外部资源是否先前已被授权访问消息收发客户端104的用户数据。响应于确定启动的外部资源先前已被授权访问消息收发客户端104的用户数据，消息收发客户端104呈现包括外部资源的功能和特征的外部资源的另一图形用户界面。响应于确定所启动的外部资源先前未被授权访问消息收发客户端104的用户数据，在显示外部资源的登陆页面或标题画面的阈值时间段(例如，3秒)之后，消息收发客户端104滑动用于授权外部资源访问用户数据的菜单(例如，将菜单动画化为从画面底部浮现到画面的中间或其他部分)。该菜单标识外部资源将被授权进行使用的用户数据的类型。响应于接收到对接受选项的用户选择，消息收发客户端104将外部资源添加到授权的外部资源的列表中，并且使得外部资源能够访问来自消息收发客户端104的用户数据。在一些示例中，消息收发客户端104根据OAuth 2框架来授权外部资源访问用户数据。

消息收发客户端104基于被授权的外部资源的类型来控制与外部资源共享的用户数据的类型。例如，向包括全规模外部应用(例如，第三方或外部应用109)的外部资源提供对第一类型的用户数据(例如，具有或不具有不同化身特征的用户的仅二维化身)的访问权限。作为另一示例，向包括外部应用的小规模版本(例如，第三方应用的基于web的版本)的外部资源提供对第二类型的用户数据(例如，支付信息、用户的二维化身、用户的三维化身以及具有各种化身特征的化身)的访问权限。形象化表示特性包括定制形象化表示的外观和感觉(例如不同的姿势、面部特征、服装等)的不同方式。

语音到意图系统230管理终端用户与消息收发客户端104之间的对话交互。具体地，对语音到意图系统230进行训练，以便以考虑到用户的语音输入的意图的方式，对从用户接收到的语音输入执行语音识别。语音到意图系统230与语音识别引擎转录语音输入并行地(同时)对语音输入执行意图分类。语音到意图系统230处理矩阵中包括的语音输入的字符概率，以确定或估计语音输入的意图。在语音识别引擎完成对语音输入进行解码之前，语音到意图系统230的意图分类器对由语音识别引擎提供的字符流或字符矢量进行操作。以这种方式，意图分类器可以以不依赖由语音识别引擎提供的转录或解码的方式估计语音输入的意图。

然后，语音识别引擎可以基于由意图分类器生成的意图分类来完成或改进语音输入的解码。在一些情况下，语音到意图系统230基于考虑到两个或更多个成本函数的损失函数，以端到端方式来训练意图分类器和语音识别引擎。两个或更多个成本函数包括基于意图分类计算损失的成本函数以及基于语音输入的转录计算损失的另一成本函数。意图分类器和语音识别引擎是使用对多批训练数据进行的反向传播来训练的。

在示例中，语音到意图系统230经由客户端设备102例如从客户端设备102的麦克风接收来自用户的语音输入。在训练期间，语音到意图系统230从存储在数据库中的多个训练数据中接收语音输入。结合图5，提供了语音到意图系统230的另外的细节。

数据架构

图3是示出根据某些示例的可以存储在消息收发服务器系统108的数据库126中的数据结构300的示意图。虽然数据库126的内容被示为包括若干表，但是应当理解，数据可以存储在其他类型的数据结构中(例如，作为面向对象的数据库)。

数据库126包括存储在消息表302中的消息数据。对于任何特定的一个消息，该消息数据至少包括消息发送者数据、消息接收方(或接收者)数据和净荷。下面参照图4描述了关于可以被包括在消息中并且被包括在存储在消息表302中的消息数据中的信息的另外的细节。

实体表306存储实体数据，并且(例如，参考地)链接至实体图308和配置文件数据316。在实体表306内针对其维护记录的实体可以包括个人、公司实体、组织、对象、地点、事件等。无论实体类型如何，消息收发服务器系统108存储关于其的数据的任何实体可以是识别的实体。每个实体被提供有唯一标识符以及实体类型标识符(未示出)。

实体图308存储关于实体之间的关系和关联的信息。仅作为示例，这样的关系可以是基于感兴趣的或基于活动的社交关系、职业关系(例如，在共同的公司或组织中工作)。

配置文件数据316存储关于特定实体的多种类型的配置文件数据。基于由特定实体指定的隐私设置，配置文件数据316可以被选择性地使用并呈现给消息收发系统100的其他用户。在实体是个人的情况下，配置文件数据316包括例如用户名、电话号码、地址、设置(例如，通知和隐私设置)、以及用户选择的形象化表示(或这样的形象化表示的集合)。然后，特定用户可以将这些化身表示中的一个或更多个化身表示选择性地包括在经由消息收发系统100传送的消息的内容中以及包括在由消息收发客户端104向其他用户显示的地图界面上。化身表示的集合可以包括“状态化身”，其呈现用户在特定时间可以选择来进行通信的状态或活动的图解表示。

在实体是团体的情况下，除了团体名称、成员和相关团体的各种设置(例如，通知)之外，团体的配置文件数据316还可以类似地包括与团体相关联的一个或更多个形象化表示。

数据库126还在增强表310中存储增强数据，例如覆盖(overlay)或过滤器(filter)。增强数据与视频(其数据存储在视频表304中)和图像(其数据存储在图像表312中)相关联并应用于视频和图像。

在一个示例中，过滤器是在向接收方用户呈现期间被显示为覆盖在图像或视频上的覆盖。过滤器可以是各种类型的，包括当发送用户正在编写消息时从由消息收发客户端104呈现给发送用户的一组过滤器中用户选择的过滤器。其他类型的过滤器包括地理定位过滤器(也称为地理过滤器)，其可以基于地理定位被呈现给发送用户。例如，可以基于由客户端设备102的全球定位系统(GPS)单元确定的地理定位信息，由消息收发客户端104在用户界面内呈现特定于附近或特殊位置的地理定位过滤器。

另一种类型的过滤器是数据过滤器，其可以由消息收发客户端104基于在消息创建处理期间由客户端设备102收集的其他输入或信息选择性地呈现给发送用户。数据过滤器的示例包括特殊定位处的当前温度、发送用户行进的当前速度、客户端设备102的电池寿命或当前时间。

可以被存储在图像表312内的其他增强数据包括增强现实内容项(例如，对应于应用镜头或增强现实体验)。增强现实内容项可以是可以添加到图像或视频的实时特殊效果和声音。

如上所述，增强数据包括增强现实内容项、覆盖物、图像变换、AR图像以及指代可以应用于图像数据(例如，视频或图像)的修改的类似术语。这包括实时修改，其在使用客户端设备102的设备传感器(例如，一个或多个摄像装置)捕获图像时对该图像进行修改，然后在客户端设备102的屏幕上使用该修改进行显示。这还包括对所存储的内容诸如图库中可以被修改的视频片段的修改。例如，在可以访问多个增强现实内容项的客户端设备102中，用户可以使用具有多个增强现实内容项的单个视频片段来观看不同的增强现实内容项将如何修改所存储的片段。例如，通过针对内容选择不同的增强现实内容项，可以将应用不同伪随机运动模型的多个增强现实内容项应用于同一内容。类似地，实时视频捕获可以与所示出的修改一起使用，以示出当前由客户端设备102的传感器捕获的视频图像将如何修改所捕获的数据。这样的数据可以仅显示在屏幕上而不存储在存储器中，或者由设备传感器捕获的内容可以在进行或不进行修改(或进行和不进行修改两者)的情况下被记录并且存储在存储器中。在一些系统中，预览特征可以示出不同的增强现实内容项同时在显示器中的不同窗口内看起来如何。这可以例如使得能够同时在显示器上观看具有不同伪随机动画的多个窗口。

因此，使用增强现实内容项的数据和各种系统或使用该数据修改内容的其他这样的变换系统可以涉及对象(例如，面部、手、身体、猫、狗、表面、物体等)的检测，在这些对象离开、进入视频帧中的视场以及在视场四处移动时跟踪这些对象，以及在跟踪这些对象时对其进行修改或变换。在各种示例中，可以使用用于实现这样的变换的不同的方法。一些示例可以涉及生成一个或多个对象的6维网格模型，以及在视频内使用模型的变换和动画纹理来实现变换。在其他示例中，可以使用对对象上的点的跟踪来将图像或纹理(可以是二维或三维的)放置在所跟踪的位置处。在更进一步的示例中，可以使用视频帧的神经网络分析来将图像、模型或纹理放置在内容(例如，图像或视频帧)中。因此，增强现实内容项既指用于在内容中创建变换的图像、模型和纹理，也指利用对象检测、跟踪和放置实现这样的变换所需的附加建模和分析信息。

可以利用保存在任何种类的计算机化系统的存储器中的任何种类的视频数据(例如，视频流、视频文件等)来执行实时视频处理。例如，用户可以加载视频文件并将它们保存在设备的存储器中，或者可以使用设备的传感器来生成视频流。此外，可以使用计算机动画模型来处理任何对象，例如人的面部和人身体的各部分、动物或非生命事物(例如椅子、汽车或其他对象)。

在一些示例中，当连同要变换的内容一起选择特定修改时，由计算设备识别要变换的元素，并且然后如果要变换的元素存在于视频的帧中，则检测并跟踪要变换的元素。根据针对修改的请求来修改对象的元素，从而变换视频流的帧。可以通过用于不同类型的变换的不同方法来执行视频流的帧的变换。例如，对于主要是指对象的元素的变化形式的帧变换，计算对象的每个元素的特征点(例如，使用主动形状模型(ASM)或其他已知方法)。然后，针对对象的至少一个元素中的每一个生成基于特征点的网格。该网格被用于后续阶段，在所述后续阶段中跟踪视频流中对象的元素。在跟踪过程中，所提及的每个元素的网格与每个元素的位置对准。然后，在网格上生成附加点。基于对修改的请求针对每个元素生成第一点的第一集合，并且基于第一点的集合和对修改的请求针对每个元素生成第二点的集合。然后，可以通过基于第一点的集合和第二点的集合以及网格来修改对象的元素，对视频流的帧进行变换。在这样的方法中，也可以通过跟踪和修改背景来使所修改对象的背景改变或变形。

在一些示例中，可以通过计算针对对象的每个元素的特征点并基于所计算的特征点生成网格来执行使用对象的元素改变对象的一些区域的变换。在网格上生成点，然后基于所述点生成各种区域。然后，通过将每个元素的区域与至少一个元素中的每一个的位置对准来跟踪对象的元素，并且可以基于对修改的请求来修改区域的属性，从而变换视频流的帧。根据具体的修改请求，可以以不同的方式对所提及区域的属性进行变换。这样的修改可以涉及改变区域的颜色；从视频流的帧中去除区域的至少一些部分；将一个或更多个新对象包括到基于针对修改的请求的区域中；以及修改或扭曲区域或对象的元素。在各种示例中，可以使用这样的修改的任何组合或其他类似修改。对于某些要被动画化的模型，可以选择一些特征点作为控制点，以用于确定模型动画的选项的整个状态空间。

在使用面部检测来变换图像数据的计算机动画模型的一些示例中，使用特定的面部检测算法(例如，Viola-Jones)在图像上检测面部。然后，将主动形状模型(ASM)算法应用于图像的脸部区域以检测脸部特征参考点。

可以使用其他适合面部检测的方法和算法。例如，在一些示例中，使用界标来定位特征，该界标表示在所考虑的大多数图像中存在的可区分点。例如，对于脸部界标，可以使用左眼瞳孔的位置。如果初始界标不可识别(例如，如果人带眼罩)，则可以使用次要界标。这样的界标标识过程可以被用于任何这样的对象。在一些示例中，界标集合形成形状。可以使用形状中的点的坐标来将形状表示为矢量。一个形状用相似性变换(允许平移、缩放和旋转)与另一个形状对准，该相似性变换使形状点之间的平均欧几里德距离最小化。平均形状(mean shape)是经对准的训练形状的平均值。

在一些示例中，从与由全局面部检测器确定的面部的位置和大小对准的均值形状开始搜索界标。然后，这样的搜索重复以下步骤：通过每个点周围的图像纹理的模板匹配来调整形状点的定位来建议暂定形状，并且然后使暂定形状符合全局形状模型，直到出现收敛。在一些系统中，个体模板匹配是不可靠的，并且形状模型将弱模板匹配的结果进行池化，以形成更强的整体分类器。整个搜索在从粗分辨率到细分辨率的图像金字塔的每个级别上重复。

变换系统可以在客户端设备(例如，客户端设备102)上捕获图像或视频流，并且在客户端设备102上本地执行复杂的图像操纵，同时保持适当的用户体验、计算时间和功耗。复杂的图像操纵可以包括大小和形状改变、情感变换(例如，将面部从皱眉改变为微笑)、状态变换(例如，使主体变老、减小外表年龄、改变性别)、风格变换、图形元素应用以及由已经被配置成在客户端设备102上有效执行的卷积神经网络实现的任何其他合适的图像或视频操纵。

在一些示例中，用于变换图像数据的计算机动画模型可以由系统使用，在该系统中，用户可以使用具有神经网络的客户端设备102来捕获用户的图像或视频流(例如，自拍)，该神经网络操作为在客户端设备102上操作的消息收发客户端104的一部分。在消息收发客户端104内操作的变换系统确定图像或视频流内的面部的存在，并且提供与计算机动画模型相关联的修改图标以变换数据图像，或者计算机动画模型可以被呈现为与本文中描述的界面相关联。修改图标包括可以是用于作为修改操作的一部分修改图像或视频流内的用户面部的基础的变化。一旦选择了修改图标，则变换系统发起将用户的图像转换以反映所选择的修改图标(例如，在用户上生成笑脸)的过程。一旦捕获图像或视频流并且选择了指定的修改，就可以在客户端设备102上显示的图形用户界面中呈现修改后的图像或视频流。变换系统可以在图像或视频流的一部分上实现复杂的卷积神经网络，以生成和应用选择的修改。也就是说，用户可以捕获图像或视频流，并且一旦已经选择了修改图标，就可以实时或接近实时地呈现修改后的结果。此外，当正在捕获视频流时，修改可以是持久的，并且选择的修改图标保持被切换。机器教导的神经网络可以用于实现此类修改。

呈现由变换系统执行的修改的图形用户界面可以为用户供应附加的交互选项。这样的选项可以基于用于发起内容捕获以及选择特定计算机动画模型的界面(例如，从内容创建者用户界面发起)。在各种示例中，在最初选择了修改图标之后，修改可以是持久的。用户可以通过轻敲或以其他方式选择正由变换系统修改的面部来切换以打开或关闭修改，并对其进行存储以供稍后观看或浏览成像应用的其他区域。在变换系统修改多个面部的情况下，用户可以通过轻敲或选择在图形用户界面内修改和显示的单个面部来全局地切换以打开或关闭修改。在一些示例中，可以通过轻击或选择图形用户界面内显示的单独面部或一系列面部来单独修改一组多个面部中的各个面部，或者单独切换这样的修改。。

故事表314存储关于消息的集合的数据以及相关联的图像、视频或音频数据，这些数据被编译成集合(例如，故事或图库)。特定集合的创建可以由特定用户(例如，在实体表306中维护其记录的每个用户)发起。用户可以创建以已经由该用户创建和发送/广播的内容的集合的形式的“个人故事”。为此，消息收发客户端104的用户界面可以包括用户可选择的图标，以使得发送用户能够将特定内容添加到他或她的个人故事。

集合还可以构成“实况故事”，“实况故事”是被手动地、自动地或使用手动和自动技术的组合来创建的来自多个用户的内容的集合。例如，“实况故事”可以构成来自各种位置和事件的用户提交的内容的策展流。可以例如经由消息收发客户端104的用户界面向其客户端设备启用了定位服务并且在特定时间处于共同定位事件处的用户呈现选项，以将内容贡献给特定的实况故事。可以由消息收发客户端104基于他或她的定位向用户标识现场故事。最终结果是从社群角度讲述的“现场故事”。

另一类型的内容集合被称为“位置故事”，“位置故事”使得其客户端设备102位于特定地理定位(例如，在学院或大学校园)内的用户能够对特定集合做出贡献。在一些示例中，对位置故事的贡献可能需要第二程度的认证来验证终端用户属于特定组织或其他实体(例如，是大学校园中的学生)。

如上面所提及的，视频表304存储视频数据，在一个示例中，该视频数据与其记录维护在消息表302内的消息相关联。类似地，图像表312存储与消息数据被存储在实体表306中的消息相关联的图像数据。实体表306可以使来自增强表310的各种增强与存储在图像表312和视频表304中的各种图像和视频相关联。

训练数据307存储了多个语音输入以及对应的真值意图和真值转录。训练数据307由语音到意图系统230处理，以便以端到端方式训练语音识别引擎和意图分类器。

数据通信架构

图4是示出根据一些示例的消息400的结构的示意图，该消息400由消息收发客户端104生成，以传送至另外的消息收发客户端104或消息收发服务器118。特定消息400的内容用于填充存储在数据库126内的消息表302，该消息表302可由消息收发服务器118访问。类似地，消息400的内容被存储在存储器中作为客户端设备102或应用服务器114的“传输中”或“飞行中”数据。消息400被示出包括以下示例组成部分：

·消息标识符402：标识消息400的唯一标识符。

·消息文本净荷404：要由用户经由客户端设备102的用户界面生成并且包括在消息400中的文本。

·消息图像净荷406：由客户端设备102的摄像装置部件捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的图像数据。用于发送或接收的消息400的图像数据可以存储在图像表312中。

·消息视频净荷408：由摄像装置部件捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的视频数据。用于发送或接收的消息400的视频数据可以存储在视频表304中。

·消息音频净荷410：由麦克风捕获的或从客户端设备102的存储器部件检索到的并且包括在消息400中的音频数据。

·消息增强数据412：表示要应用于消息400的消息图像净荷406、消息视频净荷408、或消息音频净荷410的增强的增强数据(例如，过滤器、贴纸或其他注释或增强)。针对发送或接收的消息400的增强数据可以被存储在增强表310中。

·消息持续时间参数414：指示消息的内容(例如，消息图像净荷406、消息视频净荷408、消息音频净荷410)将经由消息收发客户端104呈现给用户或使其可由用户访问的以秒为单位的时间量的参数值。

·消息地理定位参数416：与消息的内容净荷相关联的地理定位数据(例如，纬度坐标和经度坐标)。在净荷中可以包括多个消息地理定位参数416值，这些参数值中的每个参数值都与包括在内容中的内容项(例如，消息图像净荷406内的特定图像，或消息视频净荷408中的特定视频)相关联。

·消息故事标识符418：标识与消息400的消息图像净荷406中的特定内容项相关联的一个或更多个内容集合(例如，故事表314中标识的“故事”)的标识符值。例如，消息图像净荷406内的多个图像可以各自使用标识符值与多个内容集合相关联。

●消息标签420：每个消息400可以用多个标签来标记，这些标签中的每个标签都指示消息净荷中包括的内容的主题。例如，在包括在消息图像净荷406中的特定图像描绘动物(例如，狮子)的情况下，标签值可以包括在指示相关动物的消息标签420内。标签值可以基于用户输入手动生成，或者可以使用例如图像识别自动生成。

·消息发送者标识符422：指示在其上生成消息400以及从其发送消息400的客户端设备102的用户的标识符(例如，消息收发系统标识符、电子邮件地址或设备标识符)。

·消息接收者标识符424：指示消息400寻址到的客户端设备102的用户的标识符(例如，消息收发系统标识符、电子邮件地址或设备标识符)。

消息400的各个要素的内容(例如，值)可以是指向在其内存储内容数据值的表中的位置的指针。例如，消息图像净荷406中的图像值可以是指向图像表312内的位置的指针(或是图像表312内的位置的地址)。类似地，消息视频净荷408内的值可以指向存储在视频表304内的数据，存储在消息增强数据412内的值可以指向存储在增强表310中的数据，存储在消息故事标识符418内的值可以指向存储在故事表314中的数据，以及存储在消息发送者标识符422和消息接收者标识符424内的值可以指向存储在实体表306内的用户记录。

语音到意图系统

图5示出了根据一些示例的语音到意图系统230。语音到意图系统230包括语音输入模块510、自动语音识别系统520和转录输出模块530。虽然所有部件被绘制为语音到意图系统230的一部分，但部件中的任何一个或所有部件可以由单独的设备实现，并且可以位于地理上不同的位置。如先前所提及的，语音到意图系统230管理终端用户与消息收发客户端104之间的对话交互，包括由消息收发客户端104实现的一个或更多个特征，例如增强现实体验、游戏系统、通信系统和外部资源系统。

语音输入模块510在两种模式——训练模式和被训练模式——下操作。在训练模式下，语音输入模块510获取成批的训练数据307，以向自动语音识别系统520提供一个或更多个语音输入(包括语音输入音频文件)。训练模式持续直到由自动语音识别系统520满足停止准则以及/或者当阈值量或数目的训练语音输入音频文件已被处理。在被训练模式下，语音输入模块510从客户端设备102的麦克风接收语音输入音频文件中定义的原始语音输入。

语音到意图系统230可以基于多个训练数据(包括各种语音输入和对应的真值意图和真值转录)来训练自动语音识别系统520(例如，包括一个或更多个神经网络)。对自动语音识别系统520进行训练，以除了建立原始语音输入音频文件与真值转录之间的关系之外，还建立与语音输入音频文件相关联的原始字符概率与真值意图之间的关系。自动语音识别系统520包括语音识别模块522，该语音识别模块522布置在与意图分类模块524的级联布置中(例如，作为级联神经网络)。自动语音识别系统520实现了一个或更多个机器学习模型，一个或更多个机器学习模型被训练以处理语音输入，以确定语音输入的意图和语音输入的转录。

机器学习是使计算机能够在不被明确编程的情况下进行学习的研究领域。机器学习探索了算法(本文也称为工具)的学习和构造，其可以从现有数据中学习并且做出关于新数据的预测。这样的机器学习工具通过根据示例训练数据(例如，语音输入和对应的方案或可配置实体)构建模型来进行操作，以做出被表示为输出或评估的数据驱动的预测或决策。尽管示例实施方式是关于一些机器学习工具呈现的，但是本文中所呈现的原理可以应用于其他机器学习工具。在一些示例实施方式中，可以使用不同的机器学习工具。例如，可以使用逻辑回归(LR)、朴素贝叶斯、随机森林(RF)、神经网络(NN)、矩阵分解和支持矢量机(SVM)工具来基于语音输入对意图进行估计。

机器学习算法利用特征来分析数据以生成评估。特征是被观察的现象的个体可测量属性。特征的概念与在诸如线性回归的统计技术中使用的解释变量的概念有关。选择信息性、区别性和独立的特征对于在模式识别、分类和回归中的有效操作是重要的。特征可以是不同类型的，诸如数字特征、字符串和图形。

机器学习算法利用训练数据来发现影响结果或评估的所识别特征之间的相关性。在一些示例实施方式中，训练数据包括标记数据，该标记数据是一个或更多个所识别的特征和一个或更多个结果的已知数据。

一旦收集并处理了训练数据，就可以使用统计学习或机器学习技术来构建自动语音识别系统520。在一个实施方式中，回归分析可以用于构建自动语音识别系统520。回归分析是用于估计变量之间的关系的统计过程。存在执行回归分析的若干已知方法。线性回归或普通最小二乘回归等是“参数化的”，因为回归函数是根据有限数目的未知模型参数定义的，可以从训练数据中估计这些未知模型参数。例如，可以将回归模型(例如，式1)例如定义为：

H≈f(X,β)，(式1)

其中，“H”表示已知的转录和意图，“X”表示输入变量的矢量(例如，成对的批量语音输入)，并且“β”表示要针对回归模型确定或训练的未知参数的矢量。

包括成对的批量语音输入和对应的模式类型或可配置实体类型以及对应的可配置实体更新或意图/时隙(其可以为每个用户手动或自动地指定)的训练数据提供具有对应X值(例如，从成对的批量语音输入中提取的特征矢量)的一组已知H值。使用这些数据，可以使用数据拟合技术例如最小二乘法、最大似然等来计算模型参数β。一旦估计出β，模型就可以针对新的一组X值(例如，从新的语音输入中提取的特征矢量)计算H(例如，语音输入的意图分类和转录)。

机器学习技术对模型进行训练，以准确地预测馈送到模型中的数据。在学习阶段期间，针对输入的训练数据集开发模型以优化模型，来正确地预测针对给定输入的输出。通常，学习阶段可以是监督的、半监督的或无监督的，其指示与训练输入相对应地提供“正确”输出的下降程度。在监督学习阶段，所有输出均被提供给模型，并且模型旨在开发将输入映射到输出的一般规则或算法。相比之下，在无监督学习阶段，未提供针对输入的期望输出，使得模型可以开发其自己的规则来发现训练数据集内的关系。在半监督学习阶段，提供了不完全标记的训练集，其中对于训练数据集，一些输出是已知的，而一些是未知的。

模型可以针对训练数据集运行若干时期(例如，迭代)，其中训练数据集被重复馈送到模型中以改进其结果。例如，在监督学习阶段中，开发模型以预测针对给定输入集的输出，并且在若干时期内对模型进行评估以针对训练数据集的最大数目的输入更可靠地提供被指定为对应于给定输入的输出。在另一示例中，对于无监督学习阶段，开发模型以将数据集聚类为n个组，并且在几个时期内关于模型如何一致地将给定输入放置到给定组中以及如何可靠地跨每个时期产生n个期望聚类对模型进行评估。

一旦运行了一时期，就对模型进行评估并且调整模型的变量的值以尝试以迭代的方式更好地改进模型。在各个方面，评估偏向于假阴性、偏向于假阳性、或相对于模型的总体准确度均匀地偏向。取决于所使用的机器学习技术，可以通过几个方式调整这些值。例如，在遗传或进化算法中，在预测期望输出方面最成功的模型的值被用于开发供模型在后续时期期间使用的值，这可能包括随机变化/突变以提供另外的数据点。本领域普通技术人员将熟悉可以应用于本公开内容的几个其他机器学习算法，包括线性回归、随机森林、决策树学习、神经网络、深度神经网络等。

每个模型通过改变影响输入以更接近地映射到期望结果的一个或更多个变量的值来在几个时期内开发规则或算法，但是由于训练数据集可能变化并且优选地非常大，因此可能无法实现完美的准确度和精度。因此，可以将构成学习阶段的若干时期设置为给定的试验数目或固定的时间/计算预算，或者当给定模型的准确度足够高或足够低或已经达到准确度平台期时，构成学习阶段的多个时期可以在达到该数目/预算之前终止。例如，如果训练阶段被设计成运行n个时期并且产生具有至少95％准确度的模型，并且这样的模型是在第n时期之前产生的，则学习阶段可能提早结束并且使用满足最终目标准确度阈值的产生的模型。类似地，如果给定模型不准确到足以满足随机机会阈值(例如，该模型在确定给定输入的真/假输出时仅55％准确)，则该模型的学习阶段可以提前终止，但是学习阶段中的其他模型可以继续训练。类似地，当给定模型跨多个时期持续在其结果中提供类似的准确度或波动时——已经达到性能平台期——给定模型的学习阶段可以在达到时期数目/计算预算之前终止。

一旦完成了学习阶段，模型就最终确定。在一些示例实施方式中，对照测试标准来对最终确定的模型进行评估。在第一示例中，包括其输入的已知输出的测试数据集被馈送到最终的模型中，以确定模型在处理其尚未被训练的数据时的准确度。在第二示例中，可以使用假阳率或假阴率来评估最终确定之后的模型。在第三示例中，使用数据聚类之间的描绘来选择产生其数据的聚类的最清晰边界的模型。

在经训练之后，机器学习技术被提供作为自动语音识别系统520，并且应用于之前从未见过的新语音输入。在一个示例中，机器学习技术(例如，线性模型)的系数值被存储在自动语音识别系统520的存储装置中。自动语音识别系统520被配置成接收新的口头语音输入(例如，会话)，并且生成新的口头语音输入的意图和/或转录。意图和/或转录被提供给转录输出模块530。转录输出模块530生成针对消息收发客户端104的特征的合适的命令，以执行所请求的功能。

作为示例，在经训练之后，语音到意图系统230允许终端用户在消息收发客户端104上访问给定的增强现实体验。语音到意图系统230可以呈现视觉指示器，以通知用户给定的增强现实体验是否被对话启用。如果被对话启用，则语音到意图系统230可以接受来自用户的语音输入，以浏览在终端用户的消息收发客户端104上呈现的增强现实体验的增强现实元素的各种替选或属性值。语音到意图系统230经由消息收发客户端104例如从客户端设备102的麦克风接收来自用户的语音输入。语音到意图系统230可以计算语音输入的意图，该意图指示增强现实体验的类型，包括眼镜类型、框架颜色和/或透镜类型以及可用于增强现实体验的可能交互。语音到意图系统230可以基于为接收到的语音输入和/或语音输入的转录生成的意图分类来对增强现实体验进行调整。

在一个示例中，语音识别模块522实现第一神经网络，例如递归神经网络或其他机器学习模型。语音识别模块522接收语音输入音频文件，例如过程流程600(图6)中所示的原始音频文件610。语音识别模块522实现应用于原始音频文件610的连接时序分类(CTC)网络620。CTC网络620生成logit晶格，该logit晶格包括不同字符的概率的矩阵630，不同字符根据不同的时间点被映射至口语的语音输入。结合图7示出并讨论了示例矩阵。矩阵630表示由语音识别模块522生成的语音输入的初始的基于字符的表示。

矩阵630表示与语音输入对应的多个字符随时间的概率。在示例中，矩阵的行表示语音输入的不同时间点，并且矩阵的列表示语音输入的转录的不同字符。语音输入音频文件可以划分成几个相等或不相等的时间间隔(例如，2至3毫秒的时间间隔)。对于每个时间间隔，向多个字符中的每个字符分配指示该间隔中的口语音频内容对应于给定字符的可能性的概率。例如，对于特定时间间隔内的给定口语内容，可以向字符“a”分配0.1的概率，可以向字符“b”分配0.3的概率，可以向字符“c”分配0.2的概率，可以向字符“d”分配0.6的概率，等等。这可以跨所有时间间隔执行，并且存储在矩阵中。在一些情况下，可以将矩阵的每一行作为概率的线性组合进行流式传输。每一行可以被编码或压缩成随时间的字符矢量。

在生成矩阵630之后，语音识别模块522进入解码阶段640。在解码阶段640期间，语音识别模块522处理矩阵630，以生成在接收到的音频文件中包括的语音输入的转录。语音识别模块522可以应用一个或更多个启发式方法(heuristics)，例如将随时间的最高概率的字符组合成一个或更多个词语，以生成转录。

当语音识别模块522处于解码阶段640时，如图6所示，矩阵630由意图分类模块524进行流式传输并对其进行处理。在示例中，意图分类模块524实现第二神经网络。意图分类模块524接收来自矩阵630的字符流，并且基于与矩阵630的字符相关联的概率来生成估计意图。例如，意图分类模块524可以处理来自矩阵630的第一行的字符的第一组合以及/或者来自矩阵630第二行的字符的第二组合，以生成与语音输入相关联的第一估计意图。意图分类模块524对一组字符进行操作以生成意图，而不是对词语的集合进行操作。可以在接收到一定数目的字符矢量之后或者在接收到矩阵630的全部之后生成估计意图。

例如，意图分类模块524可以接收图7所示的矩阵630或矩阵630的一部分。矩阵630包括多个行710和多个列720。矩阵630的每个列720表示在与语音输入相关联的特定时间间隔处出现的多个字符(C1、C2、C3、......、Cn)(例如，英语字母表中的字母)中的特定字符的概率。每一行710表示特定时间间隔内的字符集合及其相应的概率。例如，对于给定的时间间隔T1，行710表示给定时间间隔T1期间的口语内容对应于字母C1的第一概率714，并且表示给定时间间隔T1期间的口语内容对应于字母C6的第二概率712。该行710可以以编码形式被接收，并且由意图分类模块524处理，以生成估计意图。在一些情况下，意图分类模块524对一定量或数目的行710进行操作，以生成估计意图。

在一些情况下，意图分类模块524接收矩阵630的行710的元素的线性组合。例如，可以通过将行710中的给定单元格的概率(例如，P1)乘以表示与概率相关联的对应字符(例如，C1)的整数值或非整数值，并且跨行710中的每个单元格累加这样的相乘值来形成线性组合。即，线性组合可以形成为P1*C1+P2*C2+P3*C3+Pn*Cn的函数。然后，可以针对矩阵630的每个行710或矩阵630的行的一部分生成该线性组合。在一些情况下，可以形成每个行的线性组合的矢量，并且由意图分类模块524对其进行处理，以估计意图。即，线性组合可以由意图分类模块524处理，以生成与线性组合或线性组合的子组相关联的估计意图。类似地，可以应用用于对给定行710进行编码的其他方式。

可以通过将意图分类与真值意图分类进行比较，根据基于一个或多个行710的线性组合估计的意图分类来计算损失。除了针对由语音识别模块522生成的转录计算的损失之外，还可以计算损失的梯度并且用于更新语音识别模块522的参数。

在一些情况下，意图分类模块524可以针对跨矩阵630的每个行710或行710的子集的不同字符或字符子集的每个组合生成意图分类。

然后，意图分类模块524可以将估计意图和/或与估计意图相关联的可能字符反馈至语音识别模块522。语音识别模块522可以基于从意图分类模块524接收到的估计意图来调整或改进解码阶段640。

在训练期间，自动语音识别系统520获得第一训练语音输入(包括第一训练语音音频文件)。自动语音识别系统520将第一训练语音输入提供给语音识别模块522以生成矩阵630。第一训练语音输入的矩阵630被提供给意图分类模块524，以生成第一估计意图，而语音识别模块522对矩阵630进行解码以生成转录。在一些情况下，通过指定矩阵630中的哪些字符最可能与第一估计意图相关联，将第一估计意图从意图分类模块524提供至语音识别模块522。语音识别模块522可以改进或调整解码阶段640，以生成或改进第一训练语音输入的转录。

在语音识别模块522在完成解码阶段640时生成或改进转录之后，自动语音识别系统520基于两个成本函数来计算自动语音识别系统520的损失。两个成本函数中的第一个将由意图分类模块524生成的第一估计意图和与第一训练语音输入相关联的真值意图进行比较。两个成本函数中的第二个将由语音识别模块522生成的转录和与第一训练语音输入相关联的真值转录进行比较。例如通过执行通过损失的梯度的反向传播来更新语音识别模块522和意图分类模块524的参数。在一些情况下，第一成本函数的梯度用于更新第二神经网络(实现意图分类模块524)的参数，并且在反向传播中反馈，以更新第一神经网络(实现语音识别模块522)的参数。

自动语音识别系统520通过检索附加的训练语音输入并且重新计算损失以继续更新第一神经网络和第二神经网络的参数来继续该过程，直到满足停止准则以及/或者在所有批次的训练数据已被处理。

图8是示出根据示例的消息收发客户端104在执行过程800时的示例操作的流程图。过程800可以利用计算机可读指令来实施，该计算机可读指令用于由一个或更多个处理器执行，使得过程800的操作可以部分地或全部地由消息收发服务器系统108的功能部件来执行；因此，下面通过参照消息收发服务器系统108的功能部件作为示例来描述过程800。然而，在其他示例中，处理800的操作中的至少一些操作可以部署在各种其他硬件配置上。过程800中的操作可以以任何顺序执行、并行地执行，或者可以完全跳过和省略。

在操作801处，如以上所讨论的，消息收发服务器系统108接收包括语音输入的音频文件。

在操作802处，如以上所讨论的，消息收发服务器系统108通过语音识别引擎处理包括语音输入的音频文件，以生成语音输入的初始的基于字符的表示。

在操作803处，如以上所讨论的，消息收发服务器系统108通过意图分类器处理语音输入的初始的基于字符的表示，以生成语音输入的估计意图。

在操作804处，如以上所讨论的，消息收发服务器系统108通过语音识别引擎基于语音输入的估计意图来生成语音输入的文本表示。

机器架构

图9是机器900的图解表示，在该机器900内可以执行用于使机器900执行本文所讨论的方法中的任何一个或更多个方法的指令908(例如，软件、程序、应用、小程序、app或其他可执行代码)。例如，指令908可以使机器900执行本文所描述的方法中的任何一种或更多种。指令908将通用的未经编程的机器900转换成特定机器900，该特定机器900被编程为以所描述的方式执行所描述和所示出的功能。机器900可以作为独立设备操作或者可以耦接(例如，联网)至其他机器。在联网部署中，机器900可以在服务器-客户端网络环境中以服务器机器或客户端机器的身份(capacity)来操作，或者在对等(或分布式)网络环境中作为对等机器操作。机器900可以包括但不限于服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、个人数字助理(PDA)、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能电器)、其他智能设备、web装置、网络路由器、网络交换机、网络桥接器或能够顺序地或以其他方式执行指定要由机器900采取的动作的指令908的任何机器。此外，虽然仅示出了单个机器900，但是术语“机器”还应被认为包括单独地或联合地执行指令908以执行本文中讨论的任何一种或更多种方法的机器的集合。例如，机器900可以包括客户端设备102或者形成消息收发服务器系统108的一部分的若干服务器设备中的任何一个。在一些示例中，机器900还可以包括客户端系统和服务器系统两者，其中，在服务器侧执行特定方法或算法的某些操作，并且在客户端侧执行特定方法或算法的某些操作。

机器900可以包括可以被配置成经由总线940彼此通信的处理器902、存储器904和输入/输出(I/O)部件938。在示例中，处理器902(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另外的处理器或其任何合适的组合)可以包括例如执行指令908的处理器16016和处理器910。术语“处理器”旨在包括多核处理器，所述多核处理器可以包括可以同时执行指令的两个或更多个独立的处理器(有时被称为“核”)。尽管图9示出了多个处理器902，但是机器900可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如，多核处理器)、具有单个核的多个处理器、具有多个核的多个处理器、或者其任何组合。

存储器904包括主存储器912、静态存储器914以及存储单元916，其均可由处理器902经由总线940访问。主存储器912、静态存储器914和存储单元916存储体现本文所描述的方法或功能中的任何一种或更多种的指令908。指令908还可以在其被机器900执行期间完全地或部分地驻留在主存储器912内、在静态存储器914内、在存储单元916内的机器可读介质内、在处理器902中的至少一个内(例如，在处理器的高速缓存存储器内)、或者在其任何合适的组合内。

I/O部件938可以包括接收输入、提供输出、产生输出、传送信息、交换信息、捕获测量结果等的各种各样的部件。包括在特定机器中的具体I/O部件938将取决于机器的类型。例如，诸如移动电话的便携式机器可以包括触摸输入设备或其他这样的输入机构，而无头(headless)服务器机器可能将不包括这样的触摸输入设备。应当理解，I/O部件938可以包括图9中未示出的许多其他部件。在各种示例中，I/O部件938可以包括用户输出部件924和用户输入部件926。用户输出部件924可以包括视觉部件(例如，诸如等离子显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、听觉部件(例如，扬声器)、触觉部件(例如，振动马达、阻力机构)、其他信号生成器等。用户输入部件926可以包括字母数字输入部件(例如，键盘、被配置成接收字母数字输入的触摸屏、光电键盘或其他字母数字输入部件)、基于指向的输入部件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或另一指向仪器)、触觉输入部件(例如，物理按钮、提供触摸或触摸姿势的定位和力的触摸屏或者其他触觉输入部件)、音频输入部件(例如，麦克风)等。

在另外的示例中，I/O部件938可以包括生物计量部件928、运动部件930、环境部件932或位置部件934以及各种各样的其他部件。例如，生物计量部件928包括用于检测表达(例如，手表达、面部表达、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、出汗或脑波)、识别人(例如，声音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件930包括加速度传感器部件(例如，加速计)、重力传感器部件、旋转传感器部件(例如，陀螺仪)。

环境部件932包括例如一个或更多个摄像装置(具有静态成像/摄像和拍摄视频能力)、照明传感器部件(例如，光度计)、温度传感器部件(例如，检测周围温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如，气压计)、声学传感器部件(例如，检测背景噪声的一个或更多个麦克风)、接近传感器部件(例如，检测附近对象的红外传感器)、气体传感器(例如，为了安全而检测危险气体的浓度或者测量大气中的污染物的气体检测传感器)、或者可以提供与周围物理环境对应的指示、测量或信号的其他部件。

关于摄像装置，客户端设备102可以具有摄像装置系统，该摄像装置系统包括例如在客户端设备102的前表面上的前置摄像装置和客户端设备102的后表面上的后置摄像装置。前置摄像装置可以例如用于捕获客户端设备102的用户的静止图像和视频(例如，“自拍”)，然后可以用上述增强数据(例如，过滤器)对该静止图像和视频进行增强。例如，后置摄像装置可以用于以更传统的摄像装置模式捕获静止图像和视频，这些图像类似地用增强数据进行增强。除了前置摄像装置和后置摄像装置之外，客户端设备102还可以包括用于捕获360°照片和视频的360°摄像装置。

此外，客户端设备102的摄像装置系统可以包括双后置摄像装置(例如，主摄像装置以及深度感测摄像装置)，或者甚至在客户端设备102的前后侧上包括三个、四个或五个后置摄像装置配置。例如，这些多摄像装置系统可以包括广角摄像装置、超广角摄像装置、长焦摄像装置、微距摄像装置和深度传感器。

位置部件934包括定位传感器部件(例如，GPS接收器部件)、海拔传感器部件(例如，检测气压的高度计或气压计，根据该气压可以得到海拔)、取向传感器部件(例如，磁力计)等。

可以使用各种各样的技术来实现通信。I/O部件938还包括通信部件936，通信部件938可操作以经由相应的耦接或连接将机器900耦接至网络920或设备922。例如，通信部件936可以包括用于与网络920对接的网络接口部件或另一合适的设备。在另外的示例中，通信部件936可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(NFC)部件、部件(例如，/>低能耗)、/>部件以及经由其他模态提供通信的其他通信部件。设备922可以是另一机器或各种外围设备中的任何一个外围设备(例如，经由USB耦接的外围设备)。

此外，通信部件936可以检测标识符或包括可操作以检测标识符的部件。例如，通信部件936可以包括射频识别(RFID)标签阅读器部件、NFC智能标签检测部件、光学阅读器部件(例如，用于检测诸如通用产品代码(UPC)条形码的一维条形码、诸如快速反应(QR)码、Aztec码、码、数据矩阵、数据符号(Dataglyph)、最大码(MaxiCode)、PDF417、超码(UltraCode)、UCC RSS-2D条形码的多维条形码和其他光学码的光学传感器)或声学检测部件(例如，用于识别标记的音频信号的麦克风)。另外，可以经由通信部件936得出各种信息，例如经由因特网协议(IP)地理定位的位置、经由信号三角测量的位置、经由检测可以指示特定位置的NFC信标信号的位置等。

各种存储器(例如，主存储器912、静态存储器914以及处理器902的存储器)以及存储单元916可以存储由本文中描述的方法或功能中的任何一个或更多个使用或实施本文中描述的方法或功能中的任何一个或更多个的一组或更多组指令和数据结构(例如，软件)。这些指令(例如，指令908)在由处理器902执行时使得各种操作实现所公开的示例。

指令908可以经由网络接口设备(例如，通信部件936中包括的网络接口部件)，使用传输介质并且使用几个公知的传输协议中的任何一种传输协议(例如，超文本传输协议(HTTP))，通过网络920来发送或接收。类似地，指令908可以使用传输介质经由至设备922的耦接(例如，对等耦接)来发送或接收。

软件架构

图10是示出软件架构1004的框图1000，该软件架构1004可以安装在本文所描述的任何一个或更多个设备上。软件架构1004由诸如机器1002的硬件支持，机器1002包括处理器1020、存储器1026和I/O部件1038。在该示例中，软件架构1004可以被概念化为层的堆栈，其中每个层提供特定功能。软件架构1004包括诸如操作系统1012、库1010、框架1008和应用1006的层。在操作上，应用1006通过软件堆栈来激活API调用1050并响应于API调用1050来接收消息1052。

操作系统1012管理硬件资源并提供公共服务。操作系统1012包括例如：核1014、服务1016以及驱动器1022。核1014用作硬件与其他软件层之间的抽象层。例如，核1014提供存储器管理、处理器管理(例如，调度)、部件管理、联网和安全设置等功能。服务1016可以针对其他软件层提供其他公共服务。驱动器1022负责控制底层硬件或与底层硬件接口(interface)。例如，驱动器1022可以包括显示驱动器、摄像装置驱动器、或/>低能量驱动器、闪存驱动器、串行通信驱动器(例如，USB驱动器)、/>驱动器、音频驱动器、电力管理驱动器等。

库1010提供由应用1006使用的共同低级基础设施。库1010可以包括系统库1018(例如，C标准库)，系统库1018提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。此外，库1010可以包括API库1024，例如媒体库(例如，用于支持各种媒体格式的呈现和操纵的库，所述各种媒体格式例如运动图像专家组-4(MPEG4)、高级视频编码(H.264或AVC)、运动图像专家组层-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如，用于在显示器上的图形内容中以二维(2D)和三维(3D)进行呈现的OpenGL框架)、数据库库(例如，提供各种关系数据库功能的SQLite)、web库(例如，提供web浏览功能的WebKit)等。库1010还可以包括各种其他库1028，以向应用1006提供许多其他API。

框架1008提供由应用1006使用的共同高级基础设施。例如，框架1008提供各种图形用户界面(GUI)功能、高级资源管理以及高级定位服务。框架1008可以提供可以由应用1006使用的广泛的其他API，其中一些API可以专用于特定操作系统或平台。

在示例中，应用1006可以包括家庭应用1036、联系人应用1030、浏览器应用1032、书籍阅读器应用1034、定位应用1042、媒体应用1044、消息收发应用1046、游戏应用1048和诸如外部应用1040的各种各样的其他应用。应用1006是执行程序中定义的功能的程序。可以采用各种编程语言来创建以各种方式构造的应用1006中的一个或更多个，所述编程语言例如面向对象的编程语言(例如，Objective-C、Java或C++)或过程编程语言(例如，C或汇编语言)。在特定示例中，外部应用1040(例如，由特定平台的供应商以外的实体使用ANDROID^TM或IOS^TM软件开发工具包(SDK)开发的应用)可以是在诸如IOS^TM、ANDROID^TM、Phone的移动操作系统或其他移动操作系统上运行的移动软件。在该示例中，外部应用1040可以激活由操作系统1012提供的API调用1050以促进本文中描述的功能。

术语表

“载波信号”是指能够存储、编码或携载由机器执行的指令的任何无形介质并且包括数字或模拟通信信号或其他无形介质以有助于这些指令的通信。可以经由网络接口设备使用传输介质在网络上发送或接收指令。

“客户端设备”是指与通信网络对接以从一个或更多个服务器系统或其他客户端设备获得资源的任何机器。客户端设备可以是但不限于移动电话、桌上型计算机、膝上型计算机、便携式数字助理(PDA)、智能电话、平板计算机、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器或可编程消费电子产品、游戏控制台、机顶盒或用户可以用于访问网络的任何其他通信设备。

“通信网络”是指网络的一个或更多个部分，该网络可以是自组织网络、内联网、外联网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、其他类型的网络或者两个或更多个这样的网络的组合。例如，网络或网络的一部分可以包括无线网络或蜂窝网络，并且耦接可以是码分多址(CDMA)连接、全局移动通信系统(GSM)连接或其他类型的蜂窝或无线耦接。在该示例中，耦接可以实现各种类型的数据传输技术中的任何数据传输技术，诸如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线电服务(GPRS)技术、GSM演进的增强数据速率(EDGE)技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动通信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准设置组织定义的其他数据传输技术、其他长距离协议或其他数据传输技术。

“部件”是指设备、物理实体或具有由功能或子例程调用、分支点、API或者对特定处理或控制功能提供分区或模块化的其他技术来定义的边界的逻辑。部件可以经由它们的接口与其他部件组合以执行机器处理。部件可以是被设计用于与其他部件一起使用的经封装的功能硬件单元并且可以是通常执行相关功能中的特定功能的程序的一部分。

部件可以构成软件组件(例如，在机器可读介质上实施的代码)或硬件部件。“硬件部件”是能够执行某些操作的有形单元，并且可以以某种物理方式来配置或布置。在各种示例中，一个或更多个计算机系统(例如，独立计算机系统、客户端计算机系统或服务器计算机系统)或计算机系统的一个或更多个硬件部件(例如，处理器或处理器组)可以通过软件(例如，应用或应用部分)被配置为进行操作以执行如本文中描述的某些操作的硬件部件。

也可以机械地、电子地或其任何合适的组合来实现硬件部件。例如，硬件部件可以包括被永久地配置成执行某些操作的专用电路系统或逻辑。硬件部件可以是专用处理器，诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件部件还可以包括通过软件被短暂配置成执行某些操作的可编程逻辑或电路系统。例如，硬件部件可以包括由通用处理器或其他可编程处理器执行的软件。一旦通过这样的软件被配置，则硬件部件成为被独特地定制成执行所配置的功能的特定机器(或机器的特定部件)，而不再是通用处理器。将认识到的是，可以出于成本和时间考虑来决定机械地、在专用且永久配置的电路系统中还是在临时配置(例如，通过软件配置)的电路系统中实现硬件部件。因此，短语“硬件部件”(或者“硬件实现的部件”)应当被理解成包含有形实体，即为被物理构造、永久配置(例如，硬连线)或临时配置(例如，编程)成以某种方式操作或者执行本文中描述的某些操作的实体。

考虑硬件部件被临时配置(例如，被编程)的示例，无需在任一时刻对硬件部件中的每个硬件部件进行配置或实例化。例如，在硬件部件包括通过软件配置而成为专用处理器的通用处理器的情况下，通用处理器可以在不同时间处被配置为分别不同的专用处理器(例如，包括不同的硬件部件)。软件相应地配置一个或多个特定处理器，以例如在一个时刻处构成特定硬件部件并且在不同的时刻处构成不同的硬件部件。

硬件部件可以向其他硬件部件提供信息并且从其他硬件部件接收信息。相应地，所描述的硬件部件可以被认为是通信上耦接的。在同时存在多个硬件部件的情况下，可以通过在两个或更多个硬件部件之间或之中的信号传输(例如，通过适当的电路和总线)来实现通信。在其中多个硬件部件在不同时间处被配置或被实例化的示例中，可以例如通过将信息存储在多个硬件部件可以访问的存储器结构中并且在该存储器结构中检索信息来实现这样的硬件部件之间的通信。例如，一个硬件部件可以执行操作，并且将该操作的输出存储在通信上耦接的存储器设备中。然后，其他硬件部件可以在随后的时间处访问存储器设备以检索和处理所存储的输出。硬件部件还可以发起与输入设备或输出设备的通信，并且可以对资源(例如，信息的集合)进行操作。

在本文中描述的示例方法的各种操作可以至少部分地由被临时地配置(例如，通过软件)或被永久地配置成执行相关操作的一个或更多个处理器来执行。无论是被临时地配置还是被永久地配置，这样的处理器可以构成进行操作以执行本文描述的一个或更多个操作或功能的处理器实现的部件。如本文所使用的，“处理器实现的部件”是指使用一个或更多个处理器实现的硬件部件。类似地，本文中描述的方法可以至少部分地由处理器实现，其中一个或多个特定处理器是硬件的示例。例如，方法的至少一些操作可以由一个或更多个处理器602或处理器实现的部件来执行。此外，一个或更多个处理器还可以进行操作以支持“云计算”环境中的相关操作的执行或作为“软件即服务”(SaaS)操作。例如，操作中的至少一些操作可以由计算机组(作为包括处理器的机器的示例)执行，其中，这些操作可经由网络(例如，因特网)并且经由一个或更多个适当的接口(例如，API)进行访问。某些操作的执行可以分布在处理器之间，不仅仅驻留在单个机器内，而是可以被部署在若干机器上。在一些示例中，处理器或处理器实现的部件可以位于单个地理定位中(例如，在家庭环境、办公室环境或服务器群内)。在其他示例中，处理器或处理器实现的部件可以跨若干地理定位而分布。

“计算机可读存储介质”是指机器存储介质和传输介质二者。因此，这些术语包括存储设备/介质以及载波/经调制的数据信号两者。术语“机器可读介质”、“计算机可读介质”和“设备可读介质”意指相同的事物，并且可以在本公开内容中互换使用。

“短暂消息”是指在有时间限制的持续时间内可访问的消息。短暂消息可以是文本、图像、视频等。针对短暂消息的访问时间可以由消息发送者设置。替选地，访问时间可以是默认设置或者由接收方指定的设置。无论设置技术如何，该消息都是暂态的。

“机器存储介质”是指存储可执行指令、例程和数据的单个或多个存储设备和介质(例如，集中式或分布式数据库，以及相关联的缓存和服务器)。因此，该术语应当被视为包括但不限于固态存储器以及光学和磁介质，包括处理器内部或外部的存储器。机器存储介质、计算机存储介质和设备存储介质的具体示例包括：非易失性存储器，包括例如半导体存储器设备，例如可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、FPGA和闪存设备；磁盘，例如内部硬盘和可移除盘；磁光盘；以及CD-ROM和DVD-ROM盘。术语“机器存储介质”、“设备存储介质”、“计算机存储介质”意指相同的事物并且可以在本公开内容中互换地使用。术语“机器存储介质”、“计算机存储介质”和“设备存储介质”明确地排除了载波、调制数据信号和其他这样的介质，其中的至少一些被涵盖在术语“信号介质”中。

“非暂态计算机可读存储介质”是指能够存储、编码或携载由机器执行的指令的有形介质。

“信号介质”是指能够存储、编码或携载由机器执行的指令的任何无形介质，并且“信号介质”包括数字或模拟通信信号或其他无形介质以有助于软件或数据的传送。术语“信号介质”应当被视为包括任何形式的调制数据信号、载波等。术语“调制数据信号”意指使其特性中的一个或更多个特性被设置或改变以将信息编码其中的信号。术语“传输介质”和“信号介质”意指相同的事物并且在本公开内容中可以可互换地使用。

在不脱离本公开内容的范围的情况下，可以对所公开的示例进行改变和修改。这些和其他改变或修改旨在被包括在如所附权利要求书中表达的本公开内容的范围内。

Claims

1.一种方法，包括：

由一个或更多个处理器接收包括语音输入的音频文件；

由语音识别引擎处理包括所述语音输入的所述音频文件，以生成所述语音输入的初始的基于字符的表示；

由意图分类器处理所述语音输入的初始的基于字符的表示，以生成所述语音输入的估计意图；以及

由所述语音识别引擎基于所述语音输入的估计意图来生成所述语音输入的文本表示。

2.根据权利要求1所述的方法，其中，所述语音识别引擎和所述意图分类器被布置为级联神经网络，并且所述方法还包括：以端到端方式训练所述语音识别引擎和所述意图分类器。

3.根据权利要求1至2中任一项所述的方法，其中，生成所述语音输入的初始的基于字符的表示包括：

生成表示与所述语音输入对应的多个字符随时间的概率的矩阵，其中，所述矩阵的行表示所述语音输入的不同时间点，并且其中，所述矩阵的列表示所述语音输入的转录的不同字符。

4.根据权利要求3所述的方法，其中，针对所述矩阵的行中的与所述语音输入中的第一时间点对应的第一行，矩阵的列中的与所述第一行相关联的所述多个字符中的每个字符与相应的概率相关联，所述相应的概率表示所述语音输入与所述多个字符中的相应字符对应的可能性。

5.根据权利要求3至4中任一项所述的方法，还包括：流式传输所述矩阵的行的子组的线性组合。

6.根据权利要求3至5中任一项所述的方法，还包括：

流式传输字符的第一线性组合，所述字符的第一线性组合包括与针对所述第一时间点的第一组相应概率相关联的字符的第一子组；以及

流式传输字符的第二线性组合，所述字符的第二线性组合包括与针对第二时间点的第二组相应概率相关联的字符的第二子组。

7.根据权利要求3至6中任一项所述的方法，还包括：基于所述字符的第一线性组合和第二线性组合来生成所述语音输入的估计意图。

8.根据权利要求3至7中任一项所述的方法，还包括：将所述矩阵编码为随时间的字符矢量。

9.根据权利要求1至8中任一项所述的方法，其中，由所述意图分类器处理所述语音输入的初始的基于字符的表示，而所述语音识别引擎生成所述语音输入的文本表示。

10.根据权利要求1至9中任一项所述的方法，其中，所述语音识别引擎包括第一神经网络，并且所述意图分类器包括第二神经网络。

11.根据权利要求10所述的方法，还包括：

计算包括第一成本函数和第二成本函数的损失函数，所述第一损失函数基于所述语音输入的估计意图，并且所述第二损失函数基于所述语音输入的文本表示；以及

基于所述损失函数来更新所述第一神经网络和所述第二神经网络的参数，其中，所述第一损失函数的梯度反向传播至所述第二损失函数。

12.根据权利要求1至11中任一项所述的方法，还包括：

接收包括多个训练音频文件的训练数据，所述多个音频文件包括所述音频文件，所述多个训练音频文件中的每一个与真值意图分类和真值转录相关联；

由所述语音识别引擎处理所述多个训练音频文件中的第一训练音频文件，以生成估计的文本表示；

在所述语音识别引擎处理所述第一训练音频文件时，生成所述第一训练音频文件的第一初始的基于字符的表示；

由所述意图分类器处理所述语音输入的所述第一初始的基于字符的表示，以生成第一估计意图分类；

将所述第一估计意图分类和与所述第一训练音频文件相关联的所述真值意图分类进行比较，以生成第一损失；

将所述估计的文本表示和与所述第一训练音频文件相关联的所述真值转录进行比较，以生成第二损失；

以及

基于所述第一损失和所述第二损失来更新所述语音识别引擎和所述意图分类器的参数。

13.根据权利要求12所述的方法，还包括：处理所述多个训练音频文件中的第二训练音频文件，以进一步更新所述语音识别引擎和所述意图分类器的参数。

14.根据权利要求1至13中任一项所述的方法，其中，所述意图分类器基于所述语音输入的字符随时间的概率的不同线性组合来生成所述语音输入的估计意图。

15.根据权利要求1至14中任一项所述的方法，其中，所述意图分类器在所述语音识别引擎生成所述语音输入的转录之前生成所述语音输入的估计意图。

16.一种系统，包括：

客户端设备的处理器，其被配置成执行操作，所述操作包括：

接收包括语音输入的音频文件；

17.根据权利要求16所述的系统，其中，所述语音识别引擎和所述意图分类器被布置为级联神经网络，并且所述操作还包括：以端到端方式训练所述语音识别引擎和所述意图分类器。

18.根据权利要求16至17中任一项所述的系统，其中，生成所述语音输入的初始的基于字符的表示包括：

19.根据权利要求18所述的系统，其中，针对所述矩阵的行中的与所述语音输入中的第一时间点对应的第一行，所述矩阵的列中的与所述第一行相关联的所述多个字符中的每个字符与相应的概率相关联，所述相应的概率表示所述语音输入与所述多个字符中的相应字符对应的可能性。

20.一种非暂态机器可读存储介质，所述非暂态机器可读存储介质包括指令，所述指令在由客户端设备的一个或更多个处理器执行时，使所述客户端设备执行操作，所述操作包括：

接收包括语音输入的音频文件；