CN115605840A

CN115605840A - 具有音频呈现交互的自动化助理

Info

Publication number: CN115605840A
Application number: CN202080100658.3A
Authority: CN
Inventors: 维克托·克尔布内; 马修·谢里菲
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-07-15
Filing date: 2020-12-14
Publication date: 2023-01-13
Also published as: US20220020365A1; JP2023525232A; US11996094B2; JP7481488B2; KR20230025708A; WO2022015356A1; EP4127897A1

Abstract

用户交互可以由自动化助理的音频呈现来支持，并且尤其是利用在音频呈现内的特定点处呈现的这种音频呈现的口头内容。可以执行对音频呈现的分析，以识别由音频呈现提出、提及或以其他方式与音频呈现相关联的一个或多个实体，并且可以执行话语分类，以确定在对音频呈现的回放期间接收的话语是否针对音频呈现，并且在一些实例中，针对音频呈现中的特定实体和/或回放点，从而使得能够对话语生成适当的响应。

Description

具有音频呈现交互的自动化助理

背景技术

人类可以参与与交互式软件应用的人机对话，该交互式软件应用在此被称为“自动化助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“会话代理”等)。例如，人类(当他们与自动化助理交互时，可以被称为“用户”)可以使用口头自然语言输入(即，话语)——在一些情况下，口头自然语言输入可以被转换成文本并且然后被处理——和/或通过提供文本(例如，键入的)自然语言输入向自动化助理提供命令和/或请求。自动化助理通常通过提供响应用户界面输出来响应命令或请求，该响应用户界面输出可以包括听觉和/或视觉用户界面输出。

自动化助理使用户能够获取信息、访问服务和/或执行各种任务。例如，用户能够执行搜索、获取方向，并且在一些情况下，能够与第三方计算服务进行交互。用户还可能能够执行各种操作，诸如从拼车应用叫车、订购商品或服务(例如，披萨)、控制智能设备(例如，灯开关)、预订等。

自动化助理可以使用语音识别和自然语言处理与用户交谈，一些自动化助理还利用机器学习和其他人工智能技术例如来预测用户的意图。自动化助理可以擅长以自然、直观的方式与用户进行对话，部分地因为他们理解对话上下文。为了利用对话上下文，自动化助理可以保存来自用户的最近输入、来自用户的问题和/或由自动化助理提供的响应/问题。例如，用户可能会问，“最近的咖啡店在哪里？(Where is the closest coffeeshop？)”，自动化助理可能会回答，“往东两个街区。(Two blocks east.)”用户然后可能会问，“它开到多晚？(How late is it open？)”通过保留至少某个形式的对话上下文，自动化助理能够确定代词“它(it)”指的是“咖啡店(coffee shop)”(即，共同引用解析)。

许多自动化助理也被用于回放音频内容，诸如音乐、播客、广播电台或流、有声书籍等。运行在移动设备或独立交互式扬声器上的自动化助理经常包括扬声器，或者可连接到耳机，用户可以通过耳机收听音频内容。然而，传统上，与这样的音频内容的交互已经主要被限制于控制回放，例如开始回放、暂停、结束回放、向前或向后跳转、静音或改变回放音量，或者向自动化助理查询关于音频内容的整体信息，例如获得歌曲的标题或关于录制该歌曲的艺术家的信息。特别是对于包含语音内容的音频呈现，自动化助理交互的范围非常有限。

发明内容

本文描述了用于支持用户与自动化助理的音频呈现进行交互的技术，并且尤其是与在音频呈现内的特定点处呈现的这种音频呈现的口头内容进行交互的技术。可以执行对音频呈现的分析，以识别由音频呈现提出、提及或以其他方式与音频呈现相关联的一个或多个实体，并且可以执行话语分类，以确定在音频呈现回放期间接收到的话语是否针对音频呈现，并且在一些情况下，针对音频呈现中的特定实体和/或回放点，从而使得能够对话语生成适当的响应。

因此，符合本发明的一个方面，方法可以包括分析与音频呈现相关联的口头音频内容以识别音频呈现中提出的一个或多个实体，在音频呈现回放期间接收用户查询，并且确定用户查询是否针对音频呈现，并且如果用户查询被确定为针对音频呈现，则生成对用户查询的响应，其中确定用户查询是否针对音频呈现或者生成对用户查询的响应使用所识别的一个或多个实体。

在一些实施例中，分析与音频呈现相关联的口头音频内容包括对口头音频内容执行语音识别处理以生成转录文本，以及对转录文本执行自然语言处理以识别所述一个或多个实体。此外，在一些实施例中，在助理设备回放音频呈现期间，在助理设备上执行语音识别处理、执行自然语言处理和接收用户查询。

此外，在一些实施例中，在助理设备回放音频呈现期间在助理设备上执行接收用户查询，并且在回放音频呈现之前执行实行语音识别处理和执行自然语言处理中的至少一个。在一些实施例中，执行语音识别处理和执行自然语言处理中的至少一个由远程服务执行。

此外，一些实施例还可以包括基于音频呈现中的特定点，使用所识别的一个或多个实体来确定一个或多个建议。一些实施例还可以包括在由助理设备回放音频呈现中的特定点期间在助理设备上呈现所述一个或多个建议。此外，一些实施例还可以包括在接收用户查询之前，使用所识别的一个或多个实体来预处理对一个或多个潜在用户查询的响应。此外，在一些实施例中，生成对用户查询的响应包括使用所述一个或多个预处理的响应中的预处理的响应来生成对用户查询的响应。

在一些实施例中，确定用户查询是否针对音频呈现包括将来自音频呈现和用户查询的转录文本提供给基于神经网络的分类器，该分类器被训练成输出给定用户查询是否可能针对给定音频呈现的指示。一些实施例还可以包括在接收用户查询之前缓冲来自音频呈现的音频数据，并且分析与音频呈现相关联的口头音频内容包括在接收用户查询之后分析来自缓冲的音频数据的口头音频内容以识别缓冲的音频数据中提出的一个或多个实体，并且确定用户查询是否针对音频呈现或者生成对用户查询的响应使用缓冲的音频数据中提出的所识别的一个或多个实体。此外，在一些实施例中，音频呈现是播客。

在一些实施例中，确定用户查询是否针对音频呈现包括使用所识别的一个或多个实体来确定用户查询是否针对音频呈现。此外，在一些实施例中，生成对用户查询的响应包括使用所识别的一个或多个实体来生成对用户查询的响应。在一些实施例中，确定用户查询是否针对音频呈现包括确定用户查询是否针对音频呈现中的特定点。此外，在一些实施例中，确定用户查询是否针对音频呈现包括确定用户查询是否针对音频呈现中的特定实体。

此外，在一些实施例中，在助理设备上执行接收用户查询，并且确定用户查询是否针对音频呈现包括确定用户查询是否针对音频呈现，而不是针对助理设备的一般查询。在一些实施例中，在助理设备上执行接收用户查询，并且确定用户查询是否针对音频呈现包括确定用户查询是针对音频呈现，而不是针对助理设备的一般查询。

此外，在一些实施例中，确定用户查询是否针对音频呈现还包括确定用户查询是针对助理设备而不是非查询话语。此外，一些实施例还可以包括响应于接收用户查询来确定是否暂停音频呈现。

此外，在一些实施例中，确定是否暂停音频呈现包括确定是否可以用视觉响应来响应查询，并且该方法还包括响应于确定可以用视觉响应来响应查询，视觉地呈现所生成的响应而不暂停音频呈现，并且响应于确定不能用视觉响应来响应查询，暂停音频呈现并且在音频呈现被暂停时呈现所生成的响应。此外，在一些实施例中，确定是否暂停音频呈现包括确定音频呈现是否正在在可暂停的设备上播放，并且该方法还包括响应于确定音频呈现没有正在在可暂停的设备上播放，呈现所生成的响应而不暂停音频呈现，并且响应于确定音频呈现正在在可暂停的设备上播放，暂停音频呈现并且在音频呈现被暂停时呈现所生成的响应。

符合本发明的另一方面，方法可以包括，在包括口头音频内容的音频呈现回放期间，接收用户查询，并且确定用户查询是否针对音频呈现，并且如果用户查询被确定为针对音频呈现，则生成对用户查询的响应，其中确定用户查询是否针对音频呈现或者生成对用户查询的响应使用从音频呈现的分析中识别的一个或多个实体。

符合本发明的另一方面，方法可以包括，在包括口头音频内容的音频呈现回放期间，缓冲来自音频呈现的音频数据并接收用户查询，在接收到用户查询之后，分析来自缓冲的音频数据的口头音频内容以识别缓冲的音频数据中提出的一个或多个实体，并确定用户查询是否针对音频呈现，以及如果用户查询被确定为针对音频呈现，则生成对用户查询的响应，其中确定用户查询是否针对音频呈现或生成对用户查询的响应使用所识别的一个或多个实体。

此外，一些实施方式可以包括系统，该系统包括一个或多个处理器和与所述一个或多个处理器可操作地耦合的存储器，其中存储器存储指令，所述指令响应于一个或多个处理器对指令的执行，使得所述一个或多个处理器执行前述方法中的任何一个。一些实施方式还可以包括自动化助理设备，该自动化助理设备包括音频输入设备(例如，麦克风、线路输入的输入、接收数字音频数据的网络或存储接口等)以及被耦合到音频输入设备并执行本地存储的指令以使一个或多个处理器执行前述方法中的任何一个的所述一个或多个处理器。一些实施方式还包括包含指令的至少一个非暂时性计算机可读介质，所述指令响应于一个或多个处理器对指令的执行，使得所述一个或多个处理器执行前述方法中的任何一个。

应当理解，在此更详细描述的前述概念和附加概念的所有组合被认为是在此公开的主题的一部分。例如，出现在本公开末尾的所要求保护的主题的所有组合被认为是本文公开的主题的一部分。

附图说明

图1是可以实现本文公开的实施方式的示例计算环境的框图。

图2是可以实现本文公开的实施方式的示例机器学习栈的示例实施方式的框图。

图3是示出根据各种实施方式的用于从音频呈现中捕获和分析音频内容的示例操作序列的流程图。

图4是示出根据各种实施方式的利用远程服务从音频呈现中捕获和分析音频内容的示例操作序列的流程图。

图5是示出根据各种实施方式的利用音频缓冲从音频呈现中捕获和分析音频内容的示例操作序列的流程图。

图6是示出根据各种实施方式的用于呈现与音频呈现相关联的建议的示例操作序列的流程图。

图7是示出根据各种实施方式的用于处理话语并生成对话语的响应的示例操作序列的流程图。

图8示出计算设备的示例架构。

具体实施方式

现在转向图1，示出了可以实现本文公开的技术的示例环境100。示例环境100包括与一个或多个远程和/或基于云的自动化助理组件104接口连接的助理设备102，所述一个或多个远程和/或基于云的自动化助理组件104可以在经由在106处一般指示的一个或多个局域网和/或广域网(例如，因特网)被通信地耦合到助理设备102的一个或多个计算系统(统称为“云”计算系统)上实现。助理设备102和操作远程或基于云的自动化助理组件104的计算设备可以包括用于存储数据和软件应用的一个或多个存储器、用于访问数据和执行应用的一个或多个处理器、以及便于通过网络通信的其他组件。由助理设备102和/或自动化助理组件104执行的操作可以被跨多个计算机系统分布，例如，作为在通过网络彼此耦合的一个或多个位置中的一个或多个计算机上运行的计算机程序。在各种实施方式中，例如，自动化助理的功能中的一些或所有功能可以被分布在多个计算机系统之间，或者甚至被分布到客户机计算设备。在一些实施方式中，例如，这里讨论的功能可以完全在客户端计算设备内执行，例如，使得即使当不存在在线连接时，这样的功能也对用户可用。这样，在一些实施方式中，助理设备可以包括客户端设备，而在其他实施方式中，助理设备可以包括远离客户端设备的一个或多个计算机系统，或者甚至是客户端设备和一个或多个远程计算机系统的组合，由此助理设备是设备的分布式组合。因此，在各种实施方式中，助理设备可以被认为包括实现自动化助理的任何功能的任何电子设备。

所示实施方式中的助理设备102通常是计算设备，在该计算设备上，自动化助理客户端108的实例通过其与一个或多个远程和/或基于云的自动化助理组件104的交互，可以形成从用户的角度看似乎是自动化助理的逻辑实例的东西，用户可以利用该逻辑实例参与人机对话。为了简洁和简单起见，本文中用作“服务”特定用户的术语“自动化助理”将指代在由用户操作的助理设备102上执行的自动化助理客户端108和一个或多个远程和/或基于云的自动化助理组件104(在一些实施方式中，其可以在多个自动化助理客户端当中共享)的组合。

助理设备102还可以包括各种应用110的实例，在一些实施方式中，这些应用110可以与自动化助理交互或者以其他方式由自动化助理支持。可以支持的各种应用110当中包括例如音频应用，诸如播客应用、有声书应用、音频流应用等。此外，从硬件的角度来看，助理设备102可以包括例如以下的一个或多个：台式计算设备、笔记本计算设备、平板计算设备、移动电话计算设备、用户的车辆的计算设备(例如，车载通信系统、车载娱乐系统、车载导航系统)、独立交互式扬声器、诸如智能电视的智能电器、和/或用户的包括计算设备的可穿戴装置(例如，用户的具有计算设备的手表、用户的具有计算设备的眼镜、虚拟或增强现实计算设备)。在其他实施方式中可以使用附加的和/或替代的计算设备，并且将理解，各种实施方式中的助理设备可以利用助理功能作为其唯一的功能，而在其他实施方式中，助理功能可以是执行大量其他功能的计算设备的特征。

如本文更详细描述的，自动化助理经由用户界面输入和输出设备助理设备102参与与一个或多个用户的人机对话会话。此外，各种附加组件与支持这样的会话有关而驻留在助理设备102中，并且具体地，支持用户与助理设备上的音频呈现的交互。

例如，音频回放模块112可以被用于控制各种音频呈现的回放，例如，驻留在音频呈现存储114中的一个或多个音频呈现，或者从远程服务流传输的一个或多个音频呈现。例如，可以使用助理设备102的一个或多个扬声器，或者替代地，使用与助理设备102通信的例如在耳机、耳塞、汽车立体声系统、家庭立体声系统、电视等中的一个或多个扬声器，向用户呈现音频回放。除了音频回放之外或者代替音频回放，音频记录模块116可以被用于捕获由与助理设备相同的环境中的另一设备——例如在助理设备附近播放的收音机——回放的音频呈现的至少一部分。

在这点上，音频呈现可以被认为是音频内容的任何呈现，并且在许多情况下，是音频内容的呈现，其中音频内容的至少一部分是包含人类语言语音的口头音频内容。虽然在一些实施方式中，音频呈现中的音频内容可以包括音乐和/或歌唱，但是在下文讨论的许多实施方式中，焦点在于包括用户可能希望与之交互的非歌唱口语音频内容的音频呈现，例如播客、有声书、广播节目、脱口秀、新闻节目、体育节目、教育节目等。在一些实施方式中，音频呈现可以针对虚构和/或非虚构的主题，并且在一些实施方式中，除了音频内容之外，还包括视觉或图形内容，尽管在许多实施方式中，音频呈现可以仅限于音频内容。

在下文讨论的实施方式中，可以分析与音频呈现相关联的口头音频内容，以识别音频呈现中所提出的一个或多个实体，并且这种分析可以被用于执行各种操作，诸如生成与口头音频内容相关联的建议，用于向用户显示或呈现，和/或响应用户在音频呈现回放期间提出的用户查询。在一些实施方式中，例如，可以在音频呈现回放期间接收用户查询，并且可以确定用户查询是否针对音频呈现，使得如果用户查询被确定为针对音频呈现，则可以生成对用户查询的适当响应并呈现给用户。如下面将变得更加明显的，例如，当试图确定用户查询是否针对音频呈现时和/或当生成对用户查询的响应时，可以使用通过分析所识别的实体。

为了支持这样的功能，助理设备102可以包括各种附加模块或组件118至132。语音识别模块118例如可以被用于从音频数据生成或转录文本(和/或其他合适的表示或嵌入)，而自然语言处理模块120可以被用于生成一个或多个实体。模块118例如可以接收语音输入的音频记录(例如，以数字音频数据的形式)，并且将数字音频数据转换成一个或多个文本单词或短语(这里也被称为令牌)。在一些实施方式中，语音识别模块118也是流传输模块，使得语音输入在逐个令牌的基础上实时或接近实时地被转换成文本，使得令牌可以与用户的语音有效地同时从模块118输出，并且因此在用户发出完整的口头请求之前输出。语音识别模块118可以依赖于一个或多个声学和/或语言模型，这些模型一起对音频信号和语言中的语音单元以及语言中的单词序列之间的关系进行建模。在一些实施方式中，可以使用单个模型，而在其他实施方式中，可以支持多个模型，例如，以支持多个语言、多个说话者等。

语音识别模块118将语音转换成文本，而自然语言处理模块120试图辨别模块输出的文本的语义或含义。例如，自然语言处理模块120可以依赖于一个或多个语法模型来将动作文本映射到特定的基于计算机的动作，并且识别约束这些动作的表现的实体文本和/或其他文本。在一些实施方式中，可以使用单个模型，而在其他实施方式中，可以支持多个模型，例如，以支持不同的基于计算机的动作或基于计算机的动作域(即，诸如通信相关动作、搜索相关动作、音频/视频相关动作、日历相关动作、设备控制相关动作等相关动作的集合)。作为示例，语法模型(被存储在助理设备102和/或远程计算设备上)可以将基于计算机的动作映射到基于语音的动作查询的动作术语，诸如动作术语“告诉我更多关于……的信息(tell me more about)”、“到……的方向(directions to)”、“导航到(navigate to)”、“观看(watch)”、“呼叫(call)”、“电子邮件(email)”、“联系人(contact)”等。

此外，尽管模块118和120可以在一些实施方式中被用于处理来自用户的语音输入或查询，但是在所示实施方式中，模块118和120还被用于处理来自音频呈现的口头音频内容。具体而言，音频呈现分析模块122可以部分地通过利用模块118和120来分析音频呈现，以生成与音频呈现相关联的各种实体。替代地，语音识别和自然语言处理可以使用来自模块118、120的例如被嵌入在模块122内的独立功能来执行。就这一点而言，实体可以指被结合到口头音频内容中的实际上任何逻辑或语义概念，例如，包括但不限于与音频呈现中的口头音频内容相关联的主题、人物、地点、事物、事件、观点、事实、组织、日期、时间、地址、URL、电子邮件地址、测量等。模块118、120中的任一个也可以使用附加的内容元数据(例如，播客标题、描述等)来辅助识别实体和/或消除实体的歧义。实体还可以在逻辑上与音频呈现中的特定点相关联，例如，主题“凡尔登战役(Battle of Verdun)”的实体包括相关联的时间戳，该时间戳指示该主题在关于第一次世界大战的播客中于13:45被提及。通过将实体与音频呈现中的特定点相关联，实体可以对于响应诸如“这是哪一年发生的(what yeardid this happen)”或“告诉我更多关于这个的信息(tell me more about this)”的更模糊的用户查询是有用的，因为在许多情况下，知道当用户在回放期间的特定点发出查询时什么实体正在被提出可以辅助解决查询的模糊方面。

在所示实施方式中，音频呈现分析模块122可以被用于以至少两个方式向用户提供反馈，尽管本发明不限于此。在一些实施方式中可能期望例如自动化助理在音频呈现回放期间向用户提供建议，例如，通过显示用户可能想要在音频呈现的不同点发出的查询的有趣事实或建议。这样，模块122可以包括建议生成器124，该建议生成器124能够基于音频呈现中识别的实体生成建议(例如，“轻敲此处了解更多关于在播客中采访的<名人>(Taphere to learn more about<personality>interviewed in podcast)”或“轻敲此处查看来自<正在被广告的服务>的报价(Tap here to check-out the offer from<servicebeing advertised>)”)。在一些实施方式中，还可能期望自动化助理响应用户发出的特定查询，并且像这样，模块122还可以包括用于生成对特定查询的响应的响应生成器126。如下面将变得更加明显的，生成器124、126中的任一个可以被用于按需(即，在回放期间和/或响应于特定查询)生成建议和/或响应，并且在一些实施方式中，生成器中的任一个可以被用于在回放音频呈现之前生成预处理的建议和/或响应，以减少回放和/或查询处理期间的处理开销。

为了支持模块122，实体和动作存储128可以存储音频呈现中识别的实体以及可以响应于与任何存储的实体相关联的用户输入而被触发的任何动作(例如，建议、响应等)。虽然本发明不限于此，但是在一些实施方式中，动作类似于动词，并且实体类似于名词或代词，使得查询可以识别要执行的动作以及作为动作焦点的一个或多个实体，或者以其他方式与要执行的动作以及作为动作焦点的一个或多个实体相关联。因此，当被执行时，鉴于查询中(经由周围环境直接或间接)涉及的一个或多个实体，用户查询可以引起基于计算机的动作的表现(例如，当在讨论凡尔登战役期间发出查询时，“这是哪一年发生的(what yeardid this happen)”可以映射到关于凡尔登战役开始日期的Web搜索)。

应当理解，在一些实施方式中，存储114、128可以本地驻留在助理设备102中。然而，在其他实施方式中，存储114、128可以部分或完全驻留在一个或多个远程设备中。

如上所述，音频呈现分析模块122的建议生成器124可以生成用于呈现给助理设备102的用户的建议。在一些实施方式中，助理设备102可以包括显示器，并且像这样，可能期望包括视觉渲染模块130以在集成显示器上渲染建议的视觉表示。此外，在支持对查询的视觉响应的情况下，模块130也可以适于生成对查询的文本和/或图形响应。

自动化助理108使用的又一模块是话语分类器模块132，其被用于对自动化助理108检测的任何语音话语进行分类。模块132通常被用于从助理设备102所处的环境内说出的话语中检测基于语音的查询，以及尝试确定与话语相关联的意图(如果有的话)。如下面将变得更加明显的，在本公开的上下文中，模块132可以被用于确定例如话语是否是查询，话语是否针对自动化助理，话语是否针对音频呈现，或者甚至话语是否针对音频呈现中的特定实体和/或点。

将理解的是，在其他实施方式中，被示为驻留在助理设备102中的任何前述模块和组件的功能中的一些或所有功能可以在远程自动化助理组件中实现。因此，本发明不限于图1所示的特定功能分配。

虽然这里描述的功能可以在不同的实施方式中以多个不同的方式来实现，但是图2接下来示出了一个示例实施方式，其利用了包括适于支持与自动化助理的音频呈现交互的四个阶段152、154、156、158的端到端音频理解栈150。

在该实施方式中，第一语音识别阶段152从音频呈现160中生成或转录文本，然后由第二自然语言处理阶段154处理该文本，以用适当的实体或元数据来注释该文本。第三阶段156包括两个不同的组件，从注释文本生成建议的建议生成组件162，以及检测和确定用户发出的查询(例如作为话语166提供的查询)的意图的查询处理组件164。每个组件162、164还可以利用上下文信息168，例如，先前的用户查询或偏好、对话信息等，其可以进一步被用于确定用户的意图和/或为特定用户生成有用的和信息性的建议。第四反馈生成阶段158可以结合排名系统，该排名系统从组件162、164获取累积选项，并基于动作的被动收听的输入或上下文向用户呈现要执行的最有可能的动作作为用户反馈170。在一些实施方式中，阶段152、154可以使用与助理栈中使用的类似的神经网络来实现，以处理被用于处理用户话语的语音识别流水线和文本注释，并且在许多情况下可以在助理设备上本地运行，或者替代地至少部分在一个或多个远程设备上运行。类似地，在一些实施方式中，阶段156、158可以被实现为助理栈的扩展，或者替代地使用与助理栈分离的定制机器学习栈，并且在助理设备上本地实现，或者部分或全部在一个或多个远程设备上实现。

在一些实施方式中，建议生成组件162可以被配置成生成与用户已经或当前正在收听的内容相匹配的建议，并且可以执行诸如执行搜索或与其他应用集成的动作，例如通过显现与实体(或其他应用功能)相关的深层链接。此外，查询处理组件164可以确定用户发出的查询或话语的意图。此外，如下面将变得更加明显的，查询处理组件164还可能能够响应于特定查询而中断或暂停音频呈现的回放，并且可以包括机器学习模型，该机器学习模型能够对查询是与音频呈现相关还是一般不相关的辅助命令进行分类，并且在一些实例中，对查询是与音频呈现中的特定点相关还是与音频呈现中引用的特定实体相关进行分类。在一些实施方式中，机器学习模型可以是多层神经网络分类器，其被训练为输出给定用户查询是否可能针对给定音频呈现的指示，并且使用例如转录的音频内容以及用户查询两者作为输入嵌入层，并且如果用户查询被确定为与音频内容相关，则返回一个或多个可用动作。

在一些实施方式中，反馈生成阶段可以组合来自组件162、164两者的输出，并对向用户呈现什么和不呈现什么进行排序。例如，可能的情况是，用户查询被认为与音频呈现相关，但是没有动作被返回，但是一个或多个建议可能仍然被期望呈现给用户。

现在转向图3至图5，如上所述，在一些实施例中，在一些实施方式中，可以分析来自音频呈现的口头音频内容，以识别音频呈现所引用的或以其他方式与之相关联的各种实体。例如，图3示出了可以对音频呈现执行的一个示例操作序列200，例如，可以由图1的音频呈现分析模块122执行。在一些实施方式中，序列200可以按实时方式——例如，在音频呈现回放期间——执行。然而，在其他实施方式中，序列200可以在音频呈现回放之前执行，例如，作为对音频呈现执行的预处理操作的一部分。例如，在一些实施方式中，可能期望在批处理中预处理多个音频呈现，并存储实体、时间戳、元数据、预处理的建议和/或预处理的响应，以供稍后在音频呈现回放期间检索。这样做可以减少与支持用户在回放期间经由助理设备与音频呈现交互相关联的处理开销。在这点上，可能期望由远程或基于云的服务而不是由单个用户设备来执行这种批处理。

因此，如框202所示，为了分析音频呈现，音频呈现可以被呈现、被检索或被捕获。在这点上，被呈现通常是指在助理设备上回放音频呈现，这可以包括本地流或来自远程设备或服务的流，并且将理解的是，来自音频呈现的口头音频内容通常是作为呈现音频呈现的结果而获得的。在这点上，被检索通常是指从存储中对音频呈现的检索。在一些实例中，检索可以与回放相结合，而在其他情况下，例如，当作为批处理的一部分预处理音频呈现时，检索可以与音频呈现的任何回放分离。在这点上，被捕获通常是指当音频呈现正由除了助理设备之外的设备呈现时，从音频呈现获得音频内容。在一些实施方式中，例如，助理设备可以包括麦克风，该麦克风可以被用于捕获由与助理设备处于相同环境中的另一设备回放的音频，例如，可能由无线电、电视、家庭或商业音频系统或另一用户的设备播放的音频。

不管音频呈现中的口头音频内容的来源如何，可以对音频内容执行自动化语音识别，以生成音频呈现的转录文本(框204)，并且转录文本然后可以被用于执行自然语言处理，以识别被提出或以其他方式与音频呈现相关联的一个或多个实体(框206)。此外，在一些实施方式中，可以以与如本文别处所述的生成响应和建议的方式类似的方式，基于所识别的实体来生成和存储一个或多个预处理的响应和/或建议(框208)。此外，如从框208到框202的箭头所示，在一些实施方式中，序列200可以对音频呈现递增地执行，由此回放和分析在音频呈现回放期间有效地并行发生。

如上所述，与音频呈现的分析相关联的各种功能可以被分布在多个计算设备当中。例如，图4示出了依赖于与远程或基于云的服务(右栏)通信的助理设备(左栏)来执行音频呈现的实时流传输和分析的操作序列210。具体地，在框212中，助理设备可以向用户呈现音频呈现，例如，通过向助理设备的用户回放来自音频呈现的音频。在这样的回放期间，音频呈现也可以被流传输到远程服务(框214)，远程服务以与图3的框204和206几乎相同的方式执行自动化语音识别和自然语言处理(框216和218)。此外，在一些实施方式中，可以以与图3的框208的方式类似的方式，基于所识别的实体来生成和存储一个或多个预处理的响应和/或建议(框220)，并且实体(以及可选地，响应和/或建议)可以被返回给助理设备(框222)。然后，助理设备存储所接收的信息(框224)，并且音频呈现的呈现继续进行，直到呈现结束或者被过早地暂停或停止。

现在转到图5，在一些实施方式中，可能期望推迟或延迟对音频呈现的分析，直到用户查询需要为止，其一个示例在序列230中示出。因此，在一些实施方式中，不是在回放期间连续地对整个音频呈现执行语音识别和自然语言处理，而是可能期望仅缓冲或以其他方式存储来自音频呈现的音频数据，直到接收到适当的用户查询，并且然后分析音频呈现中接收用户查询的特定点附近的音频呈现的一部分(例如，最后N秒)。因此，在一个代表性示例中，如果用户发出诸如“这是哪一年发生的？(what year did this happen？)”的查询，可以分析音频呈现的最后大约30秒，以确定正在被讨论的当前主题是凡尔登战役(theBattle of Verdun)，并且可以执行搜索以生成代表性响应，诸如“凡尔登战役发生在1916年(The Battle of Verdun occurred in 1916.)”。

因此，如框232所示，音频呈现可以由助理设备呈现或被捕获(如果由另一设备呈现)，音频呈现的最后N秒被缓冲(框234)。在一些情况下，缓冲可以包括存储所捕获的音频数据，而在其他情况下，例如，在呈现由助理设备发起并且音频呈现当前被存储在助理设备上的情况下，缓冲可以包括简单地维护对当前回放点之前的音频呈现的范围的引用，从而使得能够在需要分析时从存储中检索适当的范围。

回放以该方式继续，直到用户查询被接收(框236)，并且一旦用户查询被接收，以与上面结合图3至图4讨论的方式类似的方式，对缓冲的音频或音频呈现的范围执行自动化语音识别和自然语言处理(框238和240)。然后，以与下面结合图7描述的方式类似的方式处理用户查询(框242)，但是主要基于对音频呈现的缓冲部分的分析。

现在转向图6，在一些实施方式中，可能期望在音频呈现的呈现期间在助理设备上主动显示建议，其一个示例由操作序列250示出。具体地，在音频呈现的呈现或捕获期间(框252)，可以确定任何存储的建议是否与音频呈现中的当前回放点相关联。如果没有，音频呈现的回放继续，并且控制返回到框252。然而，如果任何建议与当前回放点相关，则控制转到框256，以在助理设备上临时地显示建议中的一个或多个，例如，使用被显示在助理设备上的卡片、通知或小片。在一些实施方式中，建议还可以与动作相关联，使得用户与建议的交互可以触发特定动作。因此，例如，如果在播客中特定的名人正在被讨论，则合适的建议可以陈述“轻敲此处以了解更多关于在播客中被采访的<名人>(Tap here to learn moreabout<personality>interviewed in Podcast)”，由此对该建议的选择可以打开具有关于该名人的附加信息的浏览器标签。

在不同的实施方式中，可以以多个方式生成建议。如上所述，例如，建议可以在音频呈现的分析期间生成，无论是在音频呈现回放期间实时生成，还是预先生成，例如作为音频呈现的预处理的结果。这样，在音频呈现正在被分析时，被存储的建议可能仅最近才已被存储。此外，在一些实施方式中，建议可以与特定实体相关联，使得每当特定实体在音频呈现期间的特定点被引用并且作为音频呈现的分析结果被识别时，与该特定实体相关联的任何建议都可以被检索、可选地被排名并被显示给用户。建议还可以或替代地与音频呈现中的特定点相关联，使得建议的检索可以基于音频呈现的当前回放点，而不是音频呈现中什么实体当前正在被提出。

图7接下来示出了适合于处理话语或用户查询的示例操作序列260，例如，可以至少部分地由图1的话语分类器模块132来执行，并且在一些实施方式中，使用被训练为输出给定用户查询是否可能针对给定音频呈现的指示的基于神经网络的分类器来执行。该序列开始于在音频呈现的呈现期间接收话语，例如由助理设备的麦克风捕获的话语(框262)。然后可以处理该话语(框264)以确定话语意图。在一些实例中，话语意图可以至少部分地基于来自当前正在被呈现的音频呈现和/或音频呈现中的当前回放点的一个或多个识别的实体。在一些实施方式中，对话语的分类可以是多层的，并且可以尝试确定以下的一个或多个：(1)话语是否针对自动化助理(例如，与针对环境中另一个人的非查询话语相反，不特定针对任何人，或者背景噪声)，(2)话语是否针对音频呈现(例如，与针对自动化助理的一般查询相反)，(3)话语是否针对音频呈现中的特定点，或者(4)话语是否针对与音频呈现相关联的特定实体。助理设备对话语的响应可以因此基于分类而变化。此外，在一些实施方式中，可以利用声学回声消除，使得音频呈现本身不作为话语被处理。

在一个示例实施方式中，话语的分类基于该话语是否针对助理(框266)；如果是，则话语是否更具体地针对当前正在被呈现的音频呈现(框268)；并且如果是，则话语是甚至更具体地针对音频呈现中的特定点(框270)还是针对音频呈现中的特定实体(框272)。

如果该话语被确定为不是针对助理的，则该话语可以被忽略，或者替代地，可以生成诸如“我不明白，请重复一遍好吗(I didn’t understand that,could you pleaserepeat)”的响应(框274)。如果话语被确定为针对助理，但不具体针对音频呈现(例如，“明天天气如何(what is the weather tomorrow)”)，则可以以常规方式生成响应(框276)。类似地，如果话语被确定为针对音频呈现，而不是针对音频呈现中的任何特定点或实体(例如，“暂停播客(pause podcast)”或“这个播客叫什么？(what is this podcastcalled？)”)，可以生成适当的响应(框276)。

然而，如果话语分类确定话语针对音频呈现中的特定点和/或实体，则控制可以转到框278，以可选地确定是否有任何预处理的响应可用(例如，如以上结合图3至图4所讨论的)。如果不使用响应预处理，则可以省略框278。如果没有预处理的响应可用，则可以生成响应(框280)。在准备响应时，音频呈现中的一个或多个识别的实体和/或当前回放点可以可选地被用于确定适当的响应。

接下来，如果预处理的响应可用，或者已经生成了新的响应，则可以向用户呈现该响应。在所示的实施方式中，根据响应的类型和其中已经生成响应的上下文，响应可以以多个不同的方式呈现。具体而言，在所示实施方式中，对该响应是否是视觉响应进行确定(框282)，这意味着该响应能够通过视觉手段(例如，经由助理设备的显示器)被呈现给用户。如果是，则可以在不暂停音频呈现的回放的情况下呈现响应(框284)。这种响应的示例可以是响应于在对凡尔登战役的讨论期间查询“这是哪一年发生的(What year did thishappen)”而在助理设备上显示的通知、卡片或小片，陈述“凡尔登战役发生在1916年(TheBattle of Verdun took place in 1916)”。然而，在其他实施方式中，可能不支持任何视觉响应(例如，对于非显示助理设备)，由此可以省略框282。

如果响应不是视觉响应，则可以对回放是否是可暂停的进行确定(框286)。例如，如果回放是在收音机上或者在除了助理设备之外的设备上和/或由此不可控制，或者如果音频呈现是期望不暂停的实况流，则回放可能不是可暂停的。在这种情况下，控制可以转到框284，以呈现响应而不暂停回放。然而，如果回放是可暂停的，则控制可以转到框288，以暂时暂停回放并呈现响应，并且通常在响应呈现完成时继续音频呈现的回放。

图8是适于实现这里描述的功能的全部或部分功能的示例计算设备300的框图。计算设备300通常包括至少一个处理器302，其经由总线子系统304与多个外围设备通信。这些外围设备可以包括存储子系统306，包括例如存储器子系统308和文件存储子系统310、用户接口输入设备312、用户接口输出设备314和网络接口子系统316。输入和输出设备允许用户与计算设备300交互。网络接口子系统316提供到外部网络的接口，并且被耦合到其他计算设备中的对应接口设备。

用户接口输入设备312可以包括键盘、诸如鼠标、轨迹球、触摸板或图形输入板的定点设备、扫描仪、被结合到显示器中的触摸屏、诸如语音识别系统的音频输入设备、麦克风和/或其他类型的输入设备。一般而言，术语“输入设备”的使用旨在包括将信息输入到计算设备300或通信网络上的所有可能类型的设备和方式。

用户接口输出设备314可以包括显示子系统、打印机、传真机或者诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管(CRT)、诸如液晶显示器(LCD)的平板设备、投影设备或用于创建可视图像的某个其他机制。显示子系统还可以诸如经由音频输出设备提供非视觉显示。一般而言，术语“输出设备”的使用旨在包括从计算设备300向用户或另一机器或计算设备输出信息的所有可能类型的设备和方式。

存储子系统306存储提供这里描述的模块的一些或所有模块的功能的编程和数据结构。例如，存储子系统306可以包括执行图5、图7和/或图10所示的各种序列的被选择的方面的逻辑。

这些软件模块通常由处理器302单独执行或者与其他处理器结合执行。存储子系统306中使用的存储器308可以包括多个存储器，包括用于在程序执行期间对指令和数据的存储的主随机存取存储器(RAM)318和存储固定指令的只读存储器(ROM)420。文件存储子系统310可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、CD-ROM驱动器、光驱或可移除介质盒。实现某些实施方式的功能的模块可以由文件存储子系统310存储在存储子系统306中，或者存储在处理器302可访问的其他机器中。

总线子系统304提供了用于使计算设备300的各种组件和子系统能够如预期的那样相互通信的机制。尽管总线子系统304被示意性地示为单个总线，但是总线子系统的替代实施方式可以使用多个总线。

计算设备300可以是各种类型，包括移动设备、智能手机、平板电脑、笔记本计算机、台式计算机、可穿戴计算机、可编程电子设备、机顶盒、专用助理设备、工作站、服务器、计算集群、刀片服务器、服务器群或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图8中描绘的计算设备300的描述仅旨在作为为了说明一些实施方式的目的的特定示例。计算设备300的许多其他配置可能具有比图8中描绘的计算设备300更多或更少的组件。

在这里描述的系统收集关于用户的个人信息或者可以利用个人信息的情况下，可以向用户提供机会来控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好或者用户的当前地理位置的信息)，或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。此外，在存储或使用某些数据之前，可能以一个或多个方式对其进行处理，以便移除个人身份信息。例如，用户的身份可以被处理，使得对于用户没有任何个人身份信息能够被确定，或者在获得地理位置信息的情况下可以概括用户的地理位置(诸如到城市、邮政编码或州级)，使得不能确定用户的特定地理位置。因此，用户可以具有对关于用户的信息如何被收集和/或被使用的控制。

虽然这里已经描述和示出了几个实施方式，但是可以利用用于执行功能和/或获得结果和/或这里描述的一个或多个优点的各种其他手段和/或结构，并且这样的变化和/或修改中的每一个被认为在这里描述的实施方式的范围内。更一般地，这里描述的所有参数、尺寸、材料和配置都意味着是示例性的，并且实际的参数、尺寸、材料和/或配置将取决于使用该教导的一个或多个具体应用。本领域的技术人员将认识到或者能够使用不超过常规实验来确定这里描述的具体实施方式的许多等同物。因此，应当理解，前述实施方式仅作为示例被呈现，并且在所附权利要求及其等同物的范围内，实施方式可以以不同于具体描述和要求保护的方式实践。本公开的实施方式针对这里描述的每个单独的特征、系统、物品、材料、套件和/或方法。此外，两个或多个这样的特征、系统、物品、材料、套件和/或方法的任何组合，如果这样的特征、系统、物品、材料、套件和/或方法不是相互矛盾的，则被包括在本公开的范围内。

Claims

1.一种计算机实现的方法，包括：

分析与音频呈现相关联的口头音频内容，以识别所述音频呈现中提出的一个或多个实体；

在所述音频呈现的回放期间接收用户查询；以及

确定所述用户查询是否针对所述音频呈现，并且如果所述用户查询被确定为针对所述音频呈现，则生成对所述用户查询的响应，其中确定所述用户查询是否针对所述音频呈现或生成对所述用户查询的响应使用所识别的一个或多个实体。

2.根据权利要求1所述的方法，其中，分析与所述音频呈现相关联的所述口头音频内容包括：

对所述口头音频内容执行语音识别处理，以生成转录文本；以及

对所述转录文本执行自然语言处理以识别所述一个或多个实体。

3.根据权利要求2所述的方法，其中，执行所述语音识别处理、执行所述自然语言处理和接收所述用户查询是在助理设备对所述音频呈现的回放期间在所述助理设备上执行的。

4.根据权利要求2或权利要求3所述的方法，其中，接收所述用户查询是在所述助理设备对所述音频呈现的回放期间在所述助理设备上执行的，并且其中，执行所述语音识别处理和执行所述自然语言处理中的至少一个是在所述音频呈现的回放之前执行的。

5.根据权利要求2至4中的任一项所述的方法，其中，执行所述语音识别处理和执行所述自然语言处理中的至少一个是由远程服务执行的。

6.根据前述权利要求中的任一项所述的方法，进一步包括基于所述音频呈现中的特定点，使用所识别的一个或多个实体来确定一个或多个建议。

7.根据权利要求6所述的方法，进一步包括在助理设备对所述音频呈现中的所述特定点的回放期间，在所述助理设备上呈现所述一个或多个建议。

8.根据前述权利要求中的任一项所述的方法，进一步包括在接收所述用户查询之前，使用所识别的一个或多个实体来预处理对一个或多个潜在用户查询的响应。

9.根据权利要求8所述的方法，其中，生成对所述用户查询的所述响应包括使用一个或多个预处理的响应中的一个预处理的响应来生成对所述用户查询的所述响应。

10.根据前述权利要求中的任一项所述的方法，其中，确定所述用户查询是否针对所述音频呈现包括将来自所述音频呈现和所述用户查询的转录文本提供给基于神经网络的分类器，所述分类器被训练为输出给定用户查询是否可能针对给定音频呈现的指示。

11.根据前述权利要求中的任一项所述的方法，进一步包括在接收所述用户查询之前缓冲来自所述音频呈现的音频数据，其中分析与所述音频呈现相关联的所述口头音频内容包括在接收所述用户查询之后分析来自所缓冲的音频数据的口头音频内容，以识别所述所缓冲的音频数据中提出的一个或多个实体，并且其中确定所述用户查询是否针对所述音频呈现或生成对所述用户查询的所述响应使用所缓冲的音频数据中提出的所识别的一个或多个实体。

12.根据前述权利要求中的任一项所述的方法，其中，所述音频呈现是播客。

13.根据前述权利要求中的任一项所述的方法，其中，确定所述用户查询是否针对所述音频呈现包括使用所识别的一个或多个实体来确定所述用户查询是否针对所述音频呈现。

14.根据前述权利要求中的任一项所述的方法，其中，生成对所述用户查询的所述响应包括使用所识别的一个或多个实体生成对所述用户查询的所述响应。

15.根据前述权利要求中的任一项所述的方法，其中，确定所述用户查询是否针对所述音频呈现包括确定所述用户查询是否针对所述音频呈现中的特定点。

16.根据前述权利要求中的任一项所述的方法，其中，确定所述用户查询是否针对所述音频呈现包括确定所述用户查询是否针对所述音频呈现中的特定实体。

17.根据前述权利要求中的任一项所述的方法，其中，接收所述用户查询是在助理设备上执行的，并且其中，确定所述用户查询是否针对所述音频呈现包括确定所述用户查询是否针对所述音频呈现，而不是针对所述助理设备的一般查询。

18.根据前述权利要求中的任一项所述的方法，其中，接收所述用户查询是在助理设备上执行的，并且其中，确定所述用户查询是否针对所述音频呈现包括确定所述用户查询针对所述音频呈现，而不是针对所述助理设备的一般查询。

19.根据权利要求18所述的方法，其中，确定所述用户查询是否针对所述音频呈现进一步包括确定所述用户查询针对所述助理设备而不是非查询话语。

20.根据前述权利要求中的任一项所述的方法，进一步包括响应于接收所述用户查询，确定是否暂停所述音频呈现。

21.根据权利要求20所述的方法，其中，确定是否暂停所述音频呈现包括确定是否能够利用视觉响应来响应所述查询，所述方法进一步包括：

响应于确定能够利用视觉响应来响应所述查询，视觉地呈现所述所生成的响应而不暂停所述音频呈现；

以及响应于确定不能利用视觉响应来响应所述查询，暂停所述音频呈现并在所述音频呈现被暂停时呈现所生成的响应。

22.根据权利要求20所述的方法，其中，确定是否暂停所述音频呈现包括确定所述音频呈现是否正在可暂停设备上播放，所述方法进一步包括：

响应于确定所述音频呈现没有在可暂停设备上播放，呈现所生成的响应而不暂停所述音频呈现；以及

响应于确定所述音频呈现正在可暂停设备上播放，暂停所述音频呈现并在所述音频呈现被暂停时呈现所生成的响应。

23.一种计算机实现的方法，包括：

在包括口头音频内容的音频呈现的回放期间，接收用户查询；以及

确定所述用户查询是否针对所述音频呈现，并且如果所述用户查询被确定为针对所述音频呈现，则生成对所述用户查询的响应，其中确定所述用户查询是否针对所述音频呈现或生成对所述用户查询的响应使用从所述音频呈现的分析中识别的一个或多个实体。

24.一种计算机实现的方法，包括：

在包括口头音频内容的音频呈现的回放期间，缓冲来自所述音频呈现的音频数据并接收用户查询；

在接收所述用户查询之后，分析来自所缓冲的音频数据的口头音频内容，以识别所缓冲的音频数据中提出的一个或多个实体；以及

确定所述用户查询是否针对所述音频呈现，并且如果所述用户查询被确定为针对所述音频呈现，则生成对所述用户查询的响应，其中确定所述用户查询是否针对所述音频呈现或生成对所述用户查询的所述响应使用所识别的一个或多个实体。

25.一种系统，包括一个或多个处理器和可操作地与所述一个或多个处理器耦合的存储器，其中所述存储器存储指令，响应于一个或多个处理器对所述指令的执行，所述指令使得所述一个或多个处理器执行根据权利要求1至24中的任一项所述的方法。

26.一种助理设备，包括：

音频输入设备；以及

一个或多个处理器，所述一个或多个处理器耦合到所述音频输入设备，并执行本地存储的指令，以使得所述一个或多个处理器执行根据权利要求1至24中的任一项所述的方法。

27.一种包括指令的至少一个非暂时性计算机可读介质，响应于一个或多个处理器对所述指令的执行，所述指令使得所述一个或多个处理器执行根据权利要求1至24中的任一项所述的方法。