CN108228132B

CN108228132B - 语音启用装置及其中执行的方法

Info

Publication number: CN108228132B
Application number: CN201710918670.5A
Authority: CN
Inventors: 维克拉姆·阿加尔瓦尔; 巴纳比·詹姆斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-14
Filing date: 2017-09-30
Publication date: 2021-09-10
Anticipated expiration: 2037-09-30
Also published as: KR102097097B1; WO2018111384A1; CN108228132A; US20180166074A1; EP3504704A1; JP2020502571A; JP6704525B2; KR20190076061A; US11238854B2; GB2559643B; DE202017105901U1; DE102017122513B4; GB201715653D0; DE102017122513A1; EP3504704B1; GB2559643A

Abstract

本申请涉及促进用户录制的音频的创建和回放。描述了方法、设备和计算机可读介质，其涉及录制、组织、和制作可供语音激活产品使用的音频文件。在各种实施方式中，响应于从第一用户接收到指示所述第一用户打算录制音频内容的输入，可以捕获并且存储音频内容。可以从所述第一用户接收指示所述音频内容的至少一个标识符的输入。可以将存储的音频内容与所述至少一个标识符相关联。可以从后续的用户接收语音输入。响应于确定了所述语音输入具有特定特性，可以使关于所述语音输入的话音识别偏向于识别所述至少一个标识符。响应于识别，基于所述经偏向的话音识别、所述语音输入中的所述至少一个标识符的存在，可以播放存储的音频内容。

Description

语音启用装置及其中执行的方法

技术领域

本申请涉及促进用户录制的音频的创建和回放。

背景技术

自动化助理(也称为“个人助理模块”、“移动助理”或者“聊天机器人”)可以经由各种各样的计算装置(诸如，智能电话、平板计算机、可穿戴装置、汽车系统、独立个人助理装置等)与用户交互。自动化助理接收来自用户的输入(例如，键入和/或说出的自然语言输入)并且以响应内容(例如，视觉和/或听觉自然语言输出)进行响应。

语音激活(或者“语音启用”)产品(诸如，智能电话、车辆计算系统、可穿戴装置、和独立语音激活扬声器)正变得越来越普及。然而，这些装置上的听觉内容(诸如，音频书)的可用性可能受到限制，并且/或者可能要求用户购买对这种内容的访问。此外，这种音频内容可以由与消费用户没有任何私人关系的个人录制。许多用户已经有权使用叙述内容(诸如，书籍、脚本、剧本等，例如，采用书面形式(例如，儿童书籍等))以及记忆性叙述(narrative)(诸如，故事、歌曲、演讲等)。在针对儿童的编写内容(诸如，儿童书籍)的情况下，父母或者监护人可能不能总是亲身和/或大声地朗读内容。在涉及参与口语对话的多个人物的脚本和/或剧本的情况下，可能不能总是存在足够的用户来完全再现/实践场景。

发明内容

本文描述了用于录制、组织和制作可供语音激活产品消耗的音频文件的技术。

在各种实施方式中，语音激活产品可以通过使得捕获和存储由第一用户提供的音频内容来对从第一用户接收指示第一用户打算记录音频内容的输入做出响应。例如，音频内容可以包括叙述，诸如，儿童故事。除了音频内容之外，第一用户还可以提供指示音频内容的至少一个标识符的输入。响应于置配至少一个标识符，可以将所存储的音频内容与至少一个标识符相关联。在随后的时间里，语音激活产品可以接收来自后续的用户的语音输入，并且可以对语音输入的特性进行分析。响应于确定了语音输入具有特定特性，关于语音输入执行的话音识别可以偏向于识别至少一个标识符。最后，响应于识别，基于经偏向的话音识别、语音输入中的至少一个标识符的存在，可以发起回放所存储的音频内容。

如将了解到的，因此，语音激活产品可以便于更有效地检索所存储的音频内容，特别是在后续的用户可能通常难以与语音激活产品交互的情况下。例如，这可能发生在后续的用户的话音没有这种装置的普通用户的话音清楚时(例如，在后续的用户是幼儿或者具有影响其话音清楚的残疾)。在一些情况下，例如，标识符可以是后续的用户所熟悉的音频内容的别名或者昵称，并且因此可以进一步便于音频内容的检索。此外，在一些实施方式中，响应于经偏向的话音识别导致语音输入未被识别，可以向用户提供可选择的选项以回放所存储的音频内容。

在一些实施方式中，诸如父母等用户可以向语音激活产品(例如，用户的装置“生态系统”中的一个或者多个装置)，具体是在语音激活产品上执行的语音激活助理软件(“自动化助理”)，指示用户希望记录叙述的音频再现，诸如，向一个或者多个听众大声朗读故事书、歌曲、剧本、演讲等(然而，在录制期间听众不一定存在)。在一些实施方式中，自动化助理可以从用户请求书目输入(在录制之前或者之后)。例如，请求的书目信息可以包括书籍的标题和/或作者、书籍的出版商、国际标准书号(“ISBN”)、书籍的别名(例如，如果听众打算用与书籍的正标题不同的词语或者短语来指代该书籍)等。自动化助理可以进入录制用户提供叙述的听觉再现的录制状态(在接收来自用户的书目信息之前或者之后)。

一旦用户完成了叙述的录制，用户便可以指令自动化助理停止录制，或者录制可以响应于其它事件(诸如，用户在预定时间间隔内没有讲话、识别到表示叙述结束的词语或者短语等)而停止。在一些实施方式中，自动化助理可以向用户提示(例如，在听觉上、在视觉上等)关于录制的音频文件的各种信息(诸如，录制的音频文件的长度等)。在一些实施方式中，自动化助理可以建议其回放用户批准的录音。假设用户提供了批准(或者如果未请求批准)，则自动化助理可以将录制好的音频文件存储在计算机存储器中，例如，存储在本地或者存储在形成所谓的“云”基础设施的一个或者多个计算机服务器处。

在各种实施方式中，可以将录音存储为与用户所提供的书目信息相关联(例如，由用户所提供的书目信息索引)。在一些实施方式中，在书目数据库中，自动化助理可以将录音/书目信息与预先存在的书面作品匹配(或者可以将搜索查询提供至一个或者多个远程服务器以将录音/书目信息与预先存在的书面作品匹配)。与预先存在的书面作品相关联的附加信息(诸如，出版商、出版年份、封面、声音效果等)可以用于各种目的，诸如，将封面(或者其它图示)的视觉再现呈现在语音激活产品的显示屏或者用户的生态系统的另一装置上。在各种实施方式中，音频文件可以进一步在计算机存储器中通过使用一个或者多个这种附加信息段被编索引。

一旦对音频文件进行了存储和索引(在语音激活产品本地和/或在云上)，用户和/或另一个人便可以请求回放录音。在各种实施方式中，个人可以通过使用一个或者多个索引信息段(诸如，由录制用户提供的书目信息、或者可以与书目数据库中的预先存在的书面作品相关联的前述附加信息)来搜索多个录制好的音频文件。例如，儿童可以通过使用书籍的正标题或者其它信息(例如，作者)并且/或者通过使用儿童为书籍起的昵称(词语或者短语)来请求回放先前由成年人录制好的特定书籍。在一些实施方式中，录制好的音频文件可以由录制用户的身份(例如，“妈妈”、“爸爸”、“Geoff叔叔”等)索引，从而使听众可以通过录制用户来搜索音频文件(例如，如果儿童想其妈妈，则儿童可以搜索由“妈妈”朗读的书籍，或者可以简单地说出话语“我想妈妈”)。在后一种情况下，语音激活助理可以搜索由妈妈录制的音频文件，并且可以提供使儿童能够选择由妈妈录制的音频文件以供回放的交互式对话(例如，语音识别、在视觉上使用封面等)。

在一些实施方式中，自动化助理可以使声音效果能够并入用户的叙述的听觉再现的音频文件中，例如，在叙述内的特定时间点并且/或者响应于特定词语或者短语。例如，在一些实施方式中，录制用户可以针对声音效果搜索网页，或者可以针对声音效果搜索包含叙述的书目信息的一个或者多个数据库。录制用户可以将这些声音效果并入音频文件中，例如，在录制期间或者稍后使用各种用户界面。在一些实施方式中，用户可以在录制之前或者期间选择声音效果，并且然后可以响应于检测到特定词语或者短语向自动化助理发出命令以将声音效果并入音频文件中。例如，录制“老麦克唐纳的农场”的听觉再现的用户可以选择多个动物叫声(例如，预先录制好的)，并且可以在录制开始的时候向自动化助理指令应该响应于特定词语的话语(例如，<“牛”、“牛叫声”>、<“鸭子”、“鸭叫声”>等)将特定动物声音效果并入音频文件中。

在一些实施方式中，自动化助理可以配置为执行语音分析(例如，语音识别、说话者识别等)以确定发出一个或者多个语音命令的用户与录制音频文件的用户不同。在一些这样的实施方式中，自动化助理可以基于语音分析来发起为不同用户定制的交互式对话。例如，交互式对话可以限制不同用户回放录制好的音频文件，并且可以响应于从所谓的“管理员”用户(例如，具有与自动化助理相关联的账户的用户)接收到的命令来限制访问可以由自动化助理以另外的方式访问的其它不相关的资源。在这种实施方式中，或多或少可以具有鲁棒性的不同语法具有有限的词汇量，提供有限的(例如，二进制的)选择等，在交互式对话期间可以由自动化助理采用来与不同用户交互。

在一些实施方式中，提供了一种由一个或者多个处理器执行的方法，其包括：响应于从第一用户接收到指示第一用户打算录制音频内容的输入，使得捕获并且存储音频内容；从第一用户接收指示该音频内容的至少一个标识符的输入；将存储的音频内容与至少一个标识符相关联；从后续的用户接收语音输入；对语音输入的特性进行分析；响应于确定了语音输入具有特定特性，使关于语音输入的话音识别偏向于识别至少一个标识符；以及响应于识别，基于经偏向的话音识别、语音输入中的至少一个标识符的存在，使得回放存储的音频内容。

本文所公开的技术的这些和其它实施方式可以可选地包括以下特征中的一个或者多个。

在各种实施方式中，该方法可以进一步包括：响应于经偏向的话音识别导致语音输入未被识别，向所述后续的用户提供可选择的选项以使所述后续的用户能够回放存储的内容。在各种实施方式中，可选择的选项包括至少一个标识符。在各种实施方式中，可选择的选项可以是音频提示。

在各种实施方式中，该方法可以进一步包括：响应于从第一用户接收到指示第一用户打算录制音频内容的输入，向第一用户提供提示以指令第一用户提供指示至少一个标识符的输入。

在另一方面中，方法可以包括：通过位于一个或者多个输入装置处的语音激活产品，接收来自用户的第一命令，其中，第一命令向语音激活产品通知用户希望录制叙述的听觉再现；通过位于输入装置中的一个或者多个输入装置处的语音激活产品，接收来自用户的书目输入，其中，书目输入指示与叙述相关联的书目信息；经由音频输入装置，通过语音激活产品，录制用户所说的叙述的听觉再现；将包括录制好的由用户所说的叙述的听觉再现的音频文件存储在可用于语音激活产品的计算机存储器中，其中，音频文件在计算机存储器中被至少部分地基于书目信息编索引；以及经由音频输出装置，通过语音激活产品，响应于在输入装置中的一个或者多个输入装置处接收到的来自相同用户或者不同用户的第二命令来对音频文件进行渲染，其中，第二命令包括书目信息的指示。

在各种实施方式中，第一命令可以包括经由音频输入装置接收到的话音。在各种实施方式中，该方法可以进一步包括：通过位于一个或者多个输出装置处的语音激活产品，提供对与叙述相关联的书目信息的请求。在各种实施方式中，请求可以包括经由音频输出装置提供的听觉提示。在各种实施方式中，书目输入可以包括经由音频输入装置接收到的话音。在各种实施方式中，第二命令可以包括经由音频输入装置接收到的话音。

在各种实施方式中，叙述可以包括先前存在的书面作品，并且该方法可以进一步包括将书目信息与数据库中的先前存在的书面作品匹配。在各种实施方式中，该方法可以进一步包括：经由输出装置中的一个或者多个输出装置，通过语音激活产品，提供与数据库中的先前存在的书面作品相关联的附加信息。在各种实施方式中，附加信息可以包括表示先前存在的书面作品的视觉再现。在各种实施方式中，音频文件在计算机存储器中可以被进一步基于与数据库中的先前存在的书面作品相关联的附加信息编索引。

在各种实施方式中，计算机存储器可以与一个或者多个远程服务器构成整体，一个或者多个远程服务器与语音激活产品进行网络通信。在各种实施方式中，计算机存储器可以存储由对应书目信息索引的多个录制好的音频文件。在各种实施方式中，多个音频文件可以进一步由录制它们的用户的身份索引。

在各种实施方式中，该方法可以进一步包括：通过语音激活产品将由用户选择的一种或者多种声音效果并入音频文件中。在各种实施方式中，该方法可以进一步包括：对第二命令执行语音分析以确定第二命令是由与该用户不同的用户说出的。在各种实施方式中，该方法可以进一步包括：通过语音激活产品，基于语音分析来发起为不同用户定制的交互式对话。

另外，一些实施方式包括一个或者多个计算装置的一个或者多个处理器，其中，一个或者多个处理器可操作以执行存储在相关联的存储器中的指令，以及其中，指令配置为执行前述方法中的任何一种方法。一些实施方式还包括一个或者多个非暂时性计算机可读存储介质，该一个或者多个非暂时性计算机可读存储介质存储计算机指令，该计算机指令可由一个或者多个处理器执行以执行上述方法中的任何一种方法。

应该了解，前述概念和在本文中更为详细地讨论的附加概念的所有组合被构思为本文公开的主题的一部分。例如，在本公开的末尾出现的要求保护的主题的所有组合被构思为本文公开的主题的一部分。

附图说明

图1是可以实施本文所公开的实施方式的示例环境的框图。

图2、图3、图4和图5描绘了根据各种实施方式的在各个用户与自动化助理之间的示例对话。

图6和图7是图示了根据本文所公开的实施方式的示例方法的流程图。

图8图示了计算装置的示例架构。

具体实施方式

现在转向图1，图示了可以实施本文所公开的技术的示例环境。该示例环境包括多个客户端计算装置106_1-N和自动化助理120。虽然在图1中将自动化助理120图示为独立于客户端计算装置106_1-N，但是在一些实施方式中，自动化助理120的全部或者方面可以由客户端计算装置106_1-N中的一个或者多个客户端计算装置106_1-N实施。例如，客户端装置106₁可以实施自动化助理120的一个实例或者多个方面，并且客户端装置106_N也可以实施自动化助理120的这些一个或者多个方面的单独实例。在自动化助理120的一个或者多个方面由远离客户端计算装置106_1-N的一个或者多个计算装置实施的实施方式中，客户端计算装置106_1-N和自动化助理120的这些方面可以经由一个或者多个网络(诸如，局域网(LAN)和/或广域网(WAN)(例如，互联网))进行通信。

例如，客户端装置106_1-N可以包括以下中的一个或者多个：桌面型计算装置、膝上型计算装置、平板计算装置、移动电话计算装置、用户的车辆的计算装置(例如，车载通信系统、车载娱乐系统、车载导航系统)、和/或用户的包括计算装置的可穿戴设备(例如，用户的具有计算装置的手表、用户的具有计算装置的眼镜、虚拟或者增强现实计算装置)。可以提供附加和/或替选客户端计算装置。在一些实施方式中，给定用户可以通过利用共同来自计算装置的协调“生态系统”的多个客户端计算装置来与自动化助理120通信。在一些这样的实施方式中，自动化助理120可以被认为是为该特定用户“服务”，例如，赋予自动化助理120对资源(例如，内容、文档等)的增强的访问，针对该资源，访问由“被服务的”用户控制。在一些情况下，自动化助理120可以由其服务的用户进行语音训练以对用户的话音的识别进行微调并且提高准确度。然而，为了简单起见，本说明书所描述的一些示例将集中于用户操作单个客户端计算装置106。

每个客户端计算装置106_1-N可以操作各种各样的不同应用，诸如，消息交换客户端107_1-N中的对应消息交换客户端107_1-N。消息交换客户端107_1-N可以采取各种形式，并且形式可能因客户端计算装置106_1-N而有所不同并且/或者在客户端计算装置106_1-N中的单个客户端计算装置106_1-N上可以操作多种形式。在一些实施方式中，消息交换客户端107_1-N中的一个或者多个消息交换客户端107_1-N可以采取短消息服务(“SMS”)和/或多媒体消息服务(“MMS”)客户端、在线聊天客户端(例如，即时通讯软件、互联网中继聊天或者“IRC”等)、与社交网络相关联的消息传递应用、专用于与自动化助理120对话的个人助理消息传递服务等的形式。在一些实施方式中，消息交换客户端107_1-N中的一个或者多个消息交换客户端107_1-N可以经由网页或者由web浏览器(未描绘)或者客户端计算装置106的其它应用渲染的其它资源来实施。

如在本文中更详细地描述的，自动化助理120经由一个或者多个客户端装置106_1-N的用户界面输入和输出装置来参与和一个或者多个用户的对话会话。在一些实施方式中，自动化助理120可以响应于由用户经由客户端装置106_1-N中的一个客户端装置106_1-N的一个或者多个用户界面输入装置提供的用户界面输入来参与和用户的对话会话。在一些实施方式中，用户界面输入明确地指向自动化助理120。例如，消息交换客户端107_1-N中的一个消息交换客户端107_1-N可以是专用于与自动化助理120对话的个人助理消息传递服务，并且可以自动将经由该个人助理消息传递服务提供的用户界面输入提供至自动化助理120。同样，例如，基于指示要调用自动化助理120的特定用户界面输入，在消息交换客户端107_1-N中的一个或者多个消息交换客户端107_1-N中，可以将用户界面输入明确地指向自动化助理120。例如，特定用户界面输入可以是一个或者多个键入字符(例如，@AutomatedAssistant(自动化助理))、与硬件按钮和/或虚拟按钮的用户交互(例如，敲击、长击)、口头命令(例如，“你好，自动化助理”)、和/或其它特定用户界面输入。在一些实施方式中，自动化助理120可以响应于用户界面输入来参与对话会话，即使在未将用户界面输入明确地指向自动化助理120时。例如，自动化助理120可以检查用户界面输入的内容并且响应于存在于用户界面输入中的某些词项并且/或基于其它线索来参与对话会话。在许多实施方式中，自动化助理120可以参与交互式语音响应(“IVR”)，从而使用户可以发出命令、搜索等，并且自动化助理120可以利用一个或者多个语法来将话语转换为文本，并且因此对文本做出响应。

客户端计算装置106_1-N和自动化助理120中的每一个可以包括用于存储数据和软件应用的一个或者多个存储器、用于访问数据并且执行应用的一个或者多个处理器、以及方便通过网络进行通信的其它组件。操作可以由客户端计算装置106_1-N中的一个或者多个客户端计算装置106_1-N执行并且/或者自动化助理120可以被分布到多个计算机系统中。例如，自动化助理120可以实施为在通过网络彼此耦合的一个或者多个位置中的一个或者多个计算机上运行的计算机程序。

自动化助理120可以包括自然语言处理器122和响应内容引擎130。在一些实施方式中，自动化助理120的引擎和/或模块中的一个或者多个可以被省略、组合在一起、并且/或者实施在独立于自动化助理120的组件中。自动化助理120可以经由相关联的客户端装置106_1-N参与和一个或者多个用户的对话会话以提供由响应内容引擎130生成和/或维护的响应内容。

在一些实施方式中，响应内容引擎130在与自动化助理120的对话会话期间响应于由客户端装置106_1-N中的一个客户端装置106_1-N生成的各种输入来生成响应内容。响应内容引擎130(例如，当独立于用户的客户端装置时通过一个或者多个网络)提供响应内容以呈现给用户作为对话会话的部分。例如，响应内容引擎130可以响应于经由客户端装置106_1-N中的一个客户端装置106_1-N提供的自由形式的自然语言输入来生成响应内容。如本文所使用的，自由形式的输入是由用户制定的输入并且不限于呈现以供用户选择的一组选项。

如本文所使用的，“对话会话”可以包括在用户与自动化助理120之间进行一个或者多个消息的逻辑自包含交换。自动化助理120可以基于各种信号(诸如，会话之间的时间推移、会话之间的用户上下文(例如，位置、在排程好的会议之前/期间/之后等)的变化、除了在用户与自动化助理之间的对话之外的在用户与客户端装置之间的一个或者多个中间交互(例如，用户暂时切换应用、用户离开，然后回到独立的语音激活产品)的检测、使会话之间的客户端装置锁定/休眠、用于与自动化助理120的一个或者多个实例接口连接的客户端装置的变化等)来区分与用户的多个对话会话。

在一些实施方式中，当自动化助理120提供请求用户反馈的提示，自动化助理120可以先发制人地激活客户端装置(经由该客户端装置来提供提示)的一个或者多个组件，该一个或者多个组件配置为处理响应于提示而接收到的用户界面输入。例如，在经由客户端装置106₁的麦克风提供用户界面输入的情况下，自动化助理120可以提供一个或者多个命令以使得：先发制人地“打开”麦克风(从而防止对敲击界面元件或者说出“热词”来打开麦克风的需要)、先发制人地激活客户端装置106₁的本地语音转文本处理器、先发制人地在客户端装置106₁与远程语音转文本处理器之间建立通信会话、并且/或者在客户端装置106₁上渲染图形用户界面(例如，包括一个或者多个可选择的元件的截面，可以选择该一个或者多个可选择的元件来提供反馈)。这可以使得相比于没有先发制人地激活组件，能够更快地提供和/或处理用户界面输入。

自动化助理120的自然语言处理器122处理由用户经由客户端装置106_1-N生成的自然语言输入，并且可以生成供自动化助理120的一个或者多个其它组件(诸如响应内容音频130)使用的注释输出。例如，自然语言处理器122可以处理由用户经由客户端装置106₁的一个或者多个用户界面输入装置生成的自然语言自由形式输入。生成的注释输出包括自然语言输入的一个或者多个注释，并且可选地包括自然语言输入的词项中的一个或者多个(例如，所有)词项。

在一些实施方式中，自然语言处理器122配置为识别和注释自然语言输入中的各种类型的语法信息。例如，自然语言处理器122可以包括词性标注器，该词性标注器配置为用其语法角色来注释词项。例如，词性标注器可以用其词性(诸如，“名词”、“动词”、“形容词”、“代词”等)来标注每个词项。同样，例如，在一些实施方式中，自然语言处理器122可以另外和/或替选地包括依赖性分析器，该依赖性分析器配置为确定在自然语言输入中的词项之间的句法关系。例如，依赖性分析器可以确定哪些词项修饰句子的其它词项、主语和动词(例如，语法分析树)，并且可以做出这种依赖性的注释。

在一些实施方式中，自然语言处理器122可以另外和/或替选地包括实体标注器，该实体标注器配置为注释一个或者多个段中的实体引用(诸如，对人的引用(例如，包括文学人物))、组织、位置(真实与虚构)等。实体标注器可以将对实体的引用注释为高粒度水平(例如，使得能够识别对实体类(诸如，人)的所有引用)和/或低粒度水平(例如，使得能够识别对特定实体(诸如，特定人)的所有引用)。实体标注器可以依赖自然语言输入的内容以解析特定实体并且/或者可以可选地与知识图或者其它实体数据库通信以解析特定实体。

在一些实施方式中，自然语言处理器122可以另外和/或替选地包括指称相同解析器，该指称相同解析器配置为基于一个或者多个上下文线索来将对相同的实体的引用分组或者“聚类”。例如，可以利用指称相同解析器来将自然语言输入“I like reading Winniethe Pooh to you,son.Let’s record it(儿子，我喜欢为你朗读小熊维尼。让我们来录制它)”中的词项“它”解析为用户的听觉再现“小熊维尼”。

在一些实施方式中，自然语言处理器122的一个或者多个组件可以依赖来自自然语言处理器122的一个或者多个其它组件的注释。例如，在一些实施方式中，指定的实体标注器在注释对特定实体的所有提及时可以依赖来自指称相同解析器和/或依赖性分析器的注释。同样，例如，在一些实施方式中，指称相同解析器可以在将对相同实体的引用聚类时可以依赖来自依赖性分析器的注释。在一些实施方式中，在处理特定自然语言输入时，自然语言处理器122的一个或者多个组件可以使用除了特定自然语言输入之外的相关在前输入和/或其它相关数据来确定一个或者多个注释。

如上面所提及的，在与客户端装置106_1-N中的一个客户端装置106_1-N的用户的对话会话期间，响应内容引擎130在生成建议和/或其它内容时利用一个或者多个资源来进行提供。在各种实施方式中，响应内容引擎130可以包括动作模块132、实体模块134和内容模块136。

响应内容引擎130的动作模块132利用从客户端计算装置106_1-N接收到的自然语言输入和/或由自然语言处理器122提供的自然语言输入的注释来确定对自然语言输入做出响应的至少一个动作。在一些实施方式中，动作模块132可以基于包括在自然语言输入中的一个或者多个词项来确定动作。例如，动作模块132可以基于在一个或者多个计算机可读介质中被映射至包括在自然语言输入中的一个或者多个词项的动作来确定动作。例如，可以将动作“record an audible rendition of a narrative(录制叙述的听觉再现)”映射到一个或者多个词项，诸如，“I’d like to record…(我想录制……)”、“Let’s record it(让我们录制它)”、“I’m going to read<someone>a story(我将要向<某人>朗读故事)”、“Let’s record a sing along(让我们录制主题曲)”等。作为另一示例，可以将动作“render an audio file of a previously-recorded audible rendition of anarrative(对叙述的先前录制好的听觉再现的音频文件进行渲染)”映射到一个或者多个词项，诸如，“Read me a story(为我读个故事)”、“Ready me<story keyword>(为我准备<故事关键词>)”、“Read me a story about<keyword>(为我读个关于<关键词>的故事)”、“Imiss<recording user>(我想<录制用户>)”等。

书目数据库152可以设置在一个或者多个非暂时性计算机可读介质上并且可以包括与多个叙述相关联的信息，诸如，先前存在的作品(例如，书籍、诗、歌曲、剧本、脚本等)、和/或相关联的实体(作者、出版商、制片人、人物等)、实体中的每个实体的属性、和可选地是这些实体之间的关系。例如，书目数据库152可以包括特定书籍的标识符(例如，标题、ISBN等)和书籍的一个或者多个特性和/或属性，诸如，作者、共同作者、插图画家、流派(例如，幻想、目标年龄等)、(词语和/或页面)长度、昵称(或者别名)、出版商、出版日期、声音效果、主题、话题等。在一些实施方式中，书目数据库152可以被存储在一个或者多个服务器计算系统上，例如，在云中，并且可以对于在多个不同客户端装置106上运行并且/或者为多个不同用户服务的多个自动化助理120来说可访问。

叙述数据库154可以设置在一个或者多个非暂时性计算机可读介质上并且可以包括一个或者多个录制好的音频文件(其可以通过使用各种有损和/或无损的音频格式(例如，MPEG、MP3、ALAC、FLAC、WMA等)而被存储)的库，该一个或者多个录制好的音频文件包括由与自动化助理120交互的客户端装置106的用户提供的叙述的听觉再现。例如，每当用户通过使用本文所描述的技术来指令自动化助理120录制叙述的听觉再现时，可以将结果音频文件存储和索引在叙述数据库154中。叙述数据库154可以存储在一个或者多个存储器位置中，诸如，在一个或者多个客户端装置106上、在一个或者多个服务器(例如，云)上等。

内容模块136可以访问(例如，通过一个或者多个网络或者在本地计算存储器中)书目数据库152和叙述数据库154两者。在各种实施方式中，例如，内容模块136可以配置为从动作模块132接收用户命令。响应于这些命令，内容模块136可以执行各种动作，包括但不限于：录制新的音频文件以存储在叙述数据库154中；对存储在叙述数据库154中的预先录制好的音频文件进行听觉渲染(例如，回放)；和/或将存储在叙述数据库154中的录制好的音频文件与包含在书目数据库152中的信息相关联。

图2图示了对话会话的示例，在该对话会话中，自动化助理120通过用户录制作品(例如，书籍、歌曲、散文、诗、脚本、剧本等)的听觉再现。图2所描绘的计算装置210可以包括一个或者多个麦克风和一个或者多个扬声器。图2图示了根据本文所描述的实施方式的可以经由麦克风和扬声器发生在计算装置210的用户101与自动化助理120之间的对话会话的示例。自动化助理120的一个或者多个方面可以实施在计算装置210和/或与计算装置210进行网络通信的一个或者多个计算装置上。在本文所描述的示例中，可以假设自动化助理为用户101“服务”。例如，自动化助理120可以具有由用户101控制的对资源的特许访问权，可以被训练以理解来自用户101的话音(例如，被调音(tune)为用户的词汇、口音、发音、节奏等)。

在图2中，用户101提供自然语言输入280A“I’m going to read a story to mychild(我要为我的孩子读故事)(如102中所指示的)Let’srecord it(让我们录制它)”在用户101与自动化助理120之间发起对话会话。响应于自然语言输入280A，自动化助理120提供自然语言输出282A“Sure,what story are you going to read(当然可以，你要读什么故事)”。然后，用户101提供自然语言输入280B，例如，该自然语言输入280B包括书目信息，诸如，标题“Goodnight Moon(晚安，月亮)”。然后，自动化助理120提供自然语言输出282B，该自然语言输出282B提示用户该自动化助理120将录制由用户读出的故事的听觉再现。

然后，用户提供包括故事的听觉再现的语音输入280C。一段时间后，例如，在用户完成了读故事之后，在一些实施方式中，用户可以提供某种输入，诸如，自然语言输入280D(在一些情况下，该自然语言输入280D可以是来自故事的最后一个词语或者短语)，自动化助理120可以将该自然语言输入280D识别为停止录制的触发。然后，自动化助理120可以提供各种输出，诸如，录制好的音频文件的时间长度。在一些实施方式中，自动化助理120还可以提供其它输出，诸如，询问用户是否想听录音的提示、确认用户希望保存录音的提示等。在一些实施方式中，自动化助理120可以等到完成录制之后才请求书目信息，而不是提前询问(如282A中所指示的)。

一旦完成了图2所描绘的会话，在各种实施方式中，就可以将包括录制好的由用户101说出的叙述的听觉再现的音频文件存储在对于计算装置210可用的计算机存储器(例如，叙述数据库154)中(例如，在本地或者在例如形成云的一个或者多个服务器上)。在一些实施方式中，音频文件在计算机存储器中可以被至少部分地基于由用户提供的书目信息编索引，例如，在280B。

在一些实施方式中，叙述可以包括预先存在的书面作品，诸如，出版书籍。在一些这样的实施方式中，可以将由用户提供的书目信息与预先存在的作品数据库中的预先存在的书面作品匹配(例如，图1中的154)。也可以将与预先存在的书面作品相关联的附加信息存储在数据库中。例如，该附加信息可以包括附加书目信息(例如，作者、ISBN、出版年、版本等)以及其它附加信息，诸如，用于作品(例如，通过录制用户101和/或通过其它用户)的一个或者多个昵称或者别名、与书面作品相关联的封面和/或其它插图(例如，来自作品的一个或者多个发布版本的图示、扇画等)、声音效果(下面所描述的)、花絮、关于作品中的人物的信息(例如，身份、人种、性别等)、主题、话题、关键词或者短语等。

如下面将更详细地描述的，在各种实施方式中，例如，可以通过计算装置210的一个或者多个输出装置来提供这样的附加信息作为自动化助理120的输出。例如，输出的附加信息可以包括表示预先存在的书面作品的视觉再现，在计算装置210的显示器(未描绘)上输出该视觉再现。如果计算装置210不包括显示器，则在各种实施方式中，例如，由用户101控制的计算装置的生态系统的一个或者多个其它计算装置(诸如，智能电话或者附近的智能电视)可以在显示器上输出视觉再现。在一些实施方式中，可以进一步由自动化助理120基于与数据库中的预先存在的书面作品相关联的一个或者多个附加信息段来在计算机存储器(例如，154)中为音频文件编索引。

在各种实施方式中，自动化助理120可以配置为：经由音频输出装置，响应于在输入装置中的一个或者多个输入装置处从相同用户或者不同用户(诸如，孩子102)接收到的命令来对一个或者多个先前录制好的音频文件(例如，在图2所描绘的会话期间录制好的音频文件)进行渲染。命令可以包括孩子102希望回放的音频文件的标识符。在一些实施方式中，标识符可以包括在录制音频文件时由录制用户提供的书目信息的指示。

图3描绘了在不同会话期间孩子102与在计算装置210上操作的自动化助理120之间的示例对话。在380A中，孩子102说出这句话“Can you read me a story(你可以为我读故事吗)？”假设孩子的命令对于孩子想听什么故事来说是模棱两可的，那么在382A中自动化助理120可以例如通过提示孩子指示孩子想听什么故事来消除孩子的命令的歧义。在382B中，孩子可以通过提供他或者她想听的故事的标识符来做出响应。例如，在380B中，孩子可以提供书目信息，诸如，标题“Goodnight Moon(晚安，月亮)”。在382B中(这可以是可选的)，自动化助理120可以提供听觉确认，并且然后，在382C中，自动化助理120可以回放存储在可由计算装置210访问的计算存储器(例如，154)中与标识符(例如，书目信息)相关联的音频文件。在其它实施方式中，如果孩子102通过提供不太模棱两可的命令(诸如，“read meGoodnight Moon(为我读晚安，月亮)”)来开始，则因为可能不需要消除歧义，所以可以跳过382A和380B。

图4描绘了在用户101与在计算装置210上执行的自动化助理120之间的更复杂的录制对话。在该示例中，在480A中，用户101发出他要给他的孩子唱歌的命令。在482A中，自动化助理120设法消除将唱哪一首歌的歧义，例如，通过书目信息。在480中，用户101提供书目信息(“Old MacDonald Had a Farm(老麦克唐纳有个农场)”)。

在一些实施方式中，并且如上面所注意的，自动化助理120可以将书目信息与数据库中的现有作品匹配。在一些实施方式中，自动化助理120可以提供录制选项，该录制选项特别适用于该现有作品或者这种流派的现有作品。例如，响应于将用户提供的书目信息与著名的儿歌“老麦克唐纳有个农场”匹配，自动化助理120可以例如基于与书目数据库152中的现有作品相关联存储的附加信息来确定声音效果经常伴有歌曲。因此，在482B中，自动化助理120可以提示用户101看看用户101是否想要将任何声音效果并入录音中。

在480C中，用户101可以确认他希望并入声音效果。用户可以各种方式将声音效果并入录制好的音频文件中。在简单示例中，用户(或者正在听用户读的听众)可以在录制期间提供听觉声音效果，从而将声音效果简单地记录到录音中作为环境噪声。然而，在其它实施方式(诸如，图4所描绘的实施方式)中，数字化助理120可以提供针对并入声音效果的更多选项。

例如，用户101向自动化助理120指令，无论用户何时说出词语“cow(牛)”，自动化助理120都应该在歌曲中的适当的点处播放预先存在的音频文件(“<filename(文件名)>指示要回放的音频文件的占位符”)。在这种情况下，当回放时，预先存在的音频文件可以对牛哞哞叫的声音进行渲染。在一些实施方式中，这种预先存在的音频文件可以由用户101获得(例如，从声音效果库中下载)并且存储在对自动化助理120可用的计算机存储器中，例如，在计算装置210上、在由用户101操作的计算装置的生态系统的另一计算装置上、和/或在云上。在其它实施方式中，可以将预先存在的音频文件与上面所描述的附加信息相关联地存储在书目数据库152中。

对于“老麦克唐纳有农场”，当用户101(和/或正在听的孩子102)唱出“and on hisfarm he had a cow(他的农场里有只牛)”时，自动化助理120可以对歌曲的听觉再现执行音频分析。在一些实施方式中，自动化助理120可以利用存储在书目数据库中的附加信息来确定何时播放当前声音效果。例如，自动化助理120可以确定，无论用户101(或者孩子102)何时说出“with a(有)……”，自动化助理120都应该对预先存在的音频文件进行听觉渲染。因此，当用户给孩子102唱这首歌时，将实时并入声音效果，以增强体验。此外，可以将预先存在的音频文件的回放并入歌曲的录制中，例如，当录制环境噪声连同用户的语音并且/或者通过使用实时和/或下游声音文件处理来将环境噪声和用户的语音组合成结果音频文件时。

作为另一示例，用户101向自动化助理120指令，无论用户何时说出词语“duck(鸭子)”，自动化助理120都应该播放从由用户操作的创建“quack(嘎嘎叫)”声音的装置(例如，可压缩的橡皮鸭子、鸭鸣器等)发出的声音。在这种实施方式中，自动化助理120可以在短语“下面的声音”之前立即记录用户创建的声音。然后，自动化助理120可以在用户101给孩子102唱歌的同时对声音进行听觉渲染，并且可以将声音记录到歌曲的听觉录音中，例如，通过环境噪声并且/或者通过将录音与结果音频文件组合在一起。在482C中，自动化助理120确认其将插入请求的声音效果和适当的时间。

图5描绘了在孩子102与在计算装置210上操作的自动化助理120之间的另一示例对话。在一些实施方式中，图5中描绘的对话证明了自动化助理120搜索先前录制好的各个叙述的听觉再现的音频文件的库(例如154)的能力。在580A中，孩子102请求自动化助理120读关于小兔子的故事。在一些实施方式中，自动化助理120可以切换至满足未知用户(其可以是成年人和/或由自动化助理120服务的账户的所有者)而不是用户101的模式(例如，“generalized(广义)”或者“sandbox(沙盒)”模式)。

例如，在一些实施方式中，自动化助理120可以对从孩子102接收到的语音命令580A执行语音处理(例如，说话者识别、语音识别、话音识别)以确定接收到的语音命令是由个人(例如，孩子102)说出的，该个人与通过使用本文所描述的技术来录制一个或者多个音频文件的另一个人(例如，用户101)(或者在一些情况下，由自动化助理120服务的另一个人)不同。在一些这样的实施方式中，自动化助理120可以响应地发起为孩子102定制的交互式对话。在图5中，例如，在582A中，自动化助理120通过试图通过搜索先前录制好的音频文件的库(例如，154)来消除孩子的请求的歧义并且返回以某种方式与“bunnies(小兔子)”相关的两个响应结果来做出响应。例如，当这些音频文件先前由用户101录制时，用户101可以具有提供的书目信息，例如，该书目信息包括关键词，诸如，“bunnies(小兔子)”、“rabbits(兔子)”等，或者叙述在其标题或者甚至在其文本内包括词项“bunnies(小兔子)”(或者其同义词)。然后，在580B中，孩子102可以用消除歧义的答案来做出响应，自动化助理120可以可选地在582B中对此进行确认，然后在582C中对此进行渲染。

如上面所注意的，在一些实施方式中，自动化助理120可以响应于对接收到的音频命令进行了语音处理来切换至“广义”模式，在该“广义”模式下，满足除了由自动化助理120服务的用户101之外的个人。回想一下，自动化助理120可以被训练为更好地理解自动化助理120服务的用户所使用的词汇。因此，在广义模式下，自动化助理120可以利用与自动化助理120通常所采用的语法、词汇、和/或决策树不同的一个或者多个语法、词汇、和/或决策树来与由自动化助理120服务的用户101交互。在一些实施方式中，当处于广义或者沙盒模式时，自动化助理120可以限制未知用户访问各种内容(诸如，由自动化助理120服务的用户101所控制的内容和/或在互联网上可用的一般内容)的方式来定制自动化助理120的对话。

在一些实施方式中，响应于确定了说话者是除了用户101之外的个人，自动化助理120可以实施向个人请求除了自然语言输入之外的二进制输入(例如，是或者否)的极其简单化的对话。例如，自动化助理120可以发起如下对话：

自动化助理120：“听起来像是你想听故事，对吗？”

个人(不是用户101)：“是”

自动化助理120：“好的。我有三个故事。第一个是麦克白。你想读这个吗？”

个人(不是用户101)：“是”

这种对话可以简化对本文所描述的技术创建的音频文件的访问。另外，这种对话可以限制个人对除了通过使用本文所描述的技术而创建的音频文件之外的内容进行访问的能力。此外，当与除了用户101之外的个人交互时，与能够解释来自个人(其可能具有未被识别出的口音、发音、词汇、说话节奏、音调等)的自然语言输入相比较，自动化助理120可以能够更容易地解释简单的二进制响应，诸如，“是”、“否”、“好的”等。

作为另一示例，当自动化助理120确定说话者是与用户101不同的人时，自动化助理120可以使搜索结果偏向于通过使用本文的技术而生成的录音。另外或者可替选地，自动化助理120可以使搜索结果偏离(甚至排除)其它内容，诸如，通常在互联网上是可用的内容和/或可能是特定用户个人的内容(例如，机密和/或敏感的内容)。例如，假设被自动化助理120服务的用户101发出搜索特定关键词的语音命令。自动化助理120可以提供从任何数量的来源(诸如，互联网、由用户控制的云存储、由用户控制的电子邮件或者其它文件等)收集到的响应搜索结果。相反，假设孩子(例如，102)或者不被自动化助理120服务的另一个人发出具有相同关键词的相同语音命令。自动化助理120可以执行语音处理以确定说话者不是被自动化助理120服务的用户。因此，自动化助理120可以使搜索结果偏向于通过使用本文所描述的技术而录制的音频文件，并且可以使搜索结果偏离(或者彻底排除)其它内容。

附加地或替选地，在一些实施方式中，语音命令本身的解释可能偏向于寻找使用本文描述的技术而录制的文件。作为示例，与自动化助理120相关联的语音到文本引擎可以将接收到的语音输入转换为文本，同时考虑到说话者不同于用户101的事实。这可以增加由自动化助理120执行的语音到文本转换的准确性和/或鲁棒性。例如，自动化助理120可以修改语音到文本转换中使用的语音到文本模型的一个或多个值，和/或由其生成的一个或多个值，并且可以修改这些值以增加符合与使用本文描述的技术录制的文件相关联的参数的文本作为符合所接收的语音输入的文本的可能性。这可以提高自动化助理120的性能和/或减少可能被语音输入的不准确表示消耗的各种计算资源的使用(例如，用来校正语音输入的不准确表示可能需要的附加“转弯”所消耗的网络流量)。

在一些实施方式中，由自动化助理120使用的语音到文本模型中的一个或多个可以实现例如限定将数字音频数据映射到文本词或短语的多个路径的有限状态解码图。在一些实施方式中，这些语音到文本模型中的一个或多个可以包括可以与(例如，至少部分地基于说话者不同于标称用户101来生成的)上下文敏感模型选择性地耦合和/或其输出可以被上下文敏感模型选择性地修改的基本模型。基本模型可以支持包括可能由用户说出的相对常见的词和短语的主要词汇。另一方面，上下文敏感模型可以包括用于一个或多个词或短语的路径，其可以用于有效地针对特定上下文扩增基本模型的词汇，诸如当除了用户101之外的人在说话时。基本模型可以与上下文敏感模型集成或以其他方式被上下文敏感模型补充的方式可以在不同的实施方式中有所变化，例如，基于将路径编码为模型的方式。

图6是图示了根据本文所公开的实施方式的示例方法600的流程图。为了方便起见，参照执行操作的系统描述流程图的操作。该系统可以包括各个计算机系统的各个组件，诸如，自动化助理120的一个或者多个组件。此外，虽然按照特定的顺序示出了方法600的操作，但这不意味着受到限制。一个或者多个操作可以被重新排序、省略或者添加。

在框602中，系统可以接收包括用于录制叙述的听觉再现的第一命令的输入。该输入可以在各种类型的输入装置(诸如，触摸屏、麦克风、键盘、鼠标、加速计(例如，检测手势)、摄像头(检测手势)等)处以各种形式被接收。在一些实施方式中，在框604中，系统可以提供请求关于待录制的叙述的书目的输出。例如，自动化助理120可以向用户提示问题或者语句，诸如，“what are you going to read/sing/perform(你要读/唱/执行什么)？”在一些实施例中，可以基于在框602中提供的输入来选择在框604中提供的输出的一个或者多个参数。例如，假设用户发出命令“I’m going to read a story,let’s record it(我要读故事，让我们录制它)。”基于词语“story(故事)”，在框604中提供的输出可以包括语句，诸如，“What story are you going to read(你要读什么故事)？”在其它实施方式中，可以通过使用除了扬声器之外的输出装置(诸如，显示器(例如，触摸屏)、触觉反馈机制、打印机等)来提供框604的输出。

在框606中，系统可以从用户接收包括与待录制的叙述相关联的书目信息的输入。在一些实施方式中，用户可以提供该信息作为在框602中提供的命令的部分。例如，用户可以主动说“I’m going to sing‘Mary had a little lamb’to my daughter.Let’s recordit.(我要给我女儿唱《玛丽有一只小羊羔》。让我们录制它。)”在这种情况下，可以省略框606，因为用户已经提供了书目信息。

在框606中，用户可以通过使用各种类型的输入装置(包括麦克风，触摸屏显示器、键盘，鼠标、加速计、摄像头)来提供各种类型的输入。例如，在一些实施方式中，在针对书目信息进行提示时，用户仅仅可以将书籍的副本保持在摄像头的前面。摄像头可以捕获书籍的一个或者多个图像，并且可以执行各种类型的视觉分析，诸如、光学字符识别、读取书籍上的视觉标志(诸如，条形码和/或快速审查(“QR”)代码等)，以自动地检测书目信息。另外，在各个实施例中，由用户提供的书目信息可以包括可用于识别预先存在的作品的任何标识符，诸如，标题、主题、作者、出版商、ISBN号等。

在框608中，系统(例如，内容模块136)可以将在框608中接收到的书目信息与数据库(例如，图1的书目数据库152)中的一个或者多个预先存在的作品匹配。在各种实施方式中，例如，可以使用从书目数据库152的匹配条目获得的附加信息来索引最终由用户录制的音频文件。作为示例，可以将用户提供的书籍标题与在书目数据库152中具有条目的一个或者多个预先存在的作品匹配。在用户录制了书籍的音频再现之后，可以将从书目数据库152获得的与预先存在的作品有关的各种附加信息与例如在叙述数据库154中的录制好的音频文件相关联。

在一些实施例中，系统可以将其它类型的书目信息与书目数据库152中的一个或者多个条目匹配。例如，用户可以提供可以与存储在书目数据库中的一个或者多个别名或者关键词匹配的别名或者其它关键词。例如，用户可以提供人物的名称、替选标题、副标题等。如果用户提供的人物与书目数据库152中的多个条目(例如，以人物为特征的多本书籍)匹配，则最终可以将与所有匹配条目相关联的附加信息或者仅仅x个最匹配的条目与录制好的音频文件相关联，或者可以向用户提供进一步消除歧义的机会。

在一些实施方式中，在框610中，系统可以输出与匹配的预先存在的作品相关联的各种附加信息。例如，在一些实施方式中，配备有显示器的计算装置(例如，210)可以对与匹配的预先存在的作品相关联的封面和/或其它艺术/图示/图片进行渲染。在一些实施方式中，可以输出附加信息，以便录制用户确认正确的预先存在的作品与录音相关联。如果输出与不正确的预先存在的作品相关联的附加信息，则用户可以被警告在框608中匹配了错误的预先存在的作品，并且可以将附加命令和/或书目信息提供至自动化助理120，例如，从而使自动化助理120可以试图匹配正确的预先存在的作品。

在框612中，系统可以录制由录制用户提供的叙述的听觉再现。例如，自动化助理可以转换成录制状态，在该录制状态下，自动化助理用麦克风(与计算装置210集成或者单独的)来录制噪音。在一些实施方式中，当存在满足阈值的时间间隔的暂停时，自动化助理120可以停止录制。在其它实施方式中，自动化助理120可以响应于录制用户故意发出停止录制(例如，“recording complete(录制完成)”)的命令或者响应于关键词或者短语(例如，“The End(结束)”)来停止录制。在一些实施方式中，自动化助理120可以访问与录制好的预先存在的作品相关联的内容，并且可以对该内容进行分析以确定预先存在的作品的结束词语或者短语。然后，可以由录制用户检测该结束词语或者短语以触发自动化助理120停止录制。

在一些实施方式中，在框614中，自动化助理120可以将一个或者多个声音效果并入录音中。例如，并且如先前所描述的，录制用户在提供叙述的听觉再现的同时可以简单地手动创建声音效果。另外或者可替选地，录制用户可以指令自动化助理120在各个点(诸如，在某些词语或者短语之后)将声音效果(例如，短时间的音频文件)并入叙述(如上面参照图4所描述的)。

除了目前为止描述的非限制性声音效果之外，在一些实施方式中，还可以将其它类型的声音效果并入录音中，诸如，音乐、语音修饰等。例如，假设待录制的叙述以来自多个不同的人物的对话为特征。进一步假设单个用户将提供该多人物对话的听觉再现。在一些实施方式中，自动化助理120可以(例如，在完成录制之后进行后处理)将各种类型的语音修饰施加至用户的语音以在听觉上区分由一个人物说出的对话与由另一人物说出的对话(例如，更改音调、添加效果、提高/降低音量等)。

作为另一示例，在一些实施方式中，多个用户可以录制与多个人物相关联的用户说话线(speaking line)(例如，脚本或者剧本)的听觉再现。在一些实施方式中，自动化助理120可以区分由不同的人物/演员说出的线，并且可以用信息(诸如，说出线的人物(或者扮演人物的演员)、在其之前/之后会有什么线等)来注释线(例如，该线可以包含在音频文件的部分中)。随后，当指令自动化助理120回放多说话者朗读时，用户可以指令数字化助理仅仅读出一些人物(或者演员)说出的线，但是与正在听的用户传递的实时线同步地读出这些线。

例如，假设在与自动化助理120的第一会话期间，两个演员录制来自莎士比亚的麦克白的场景的自己的朗读线。随后，在扮演麦克白夫人的第二演员不在的情况下，扮演麦克白的第一演员可以指示自动化助理120仅仅回放音频文件的包含麦克白夫人所说的线的这些部分并且与第一演员所读的麦克白的线同步地实时读出这些部分。例如，自动化助理120可以基于存储在书目数据库152上的麦克白的脚本来实时检测与麦克白的线匹配的由第一演员说出的线，并且可以在这之后立即播放麦克白夫人的响应线。因此，针对一个场景，在第一演员与自动化助理120之间的对话可以如下展开：

返回图6，一旦完成了录制叙述的听觉再现，在可选框616中，系统就可以请求批准录制好的音频文件。在一些实施方式中，系统可以回放整个音频文件并且让用户在此之后批准或者不批准。在其它实施方式中，系统可以提供一个或者多个用户界面(音频、图形等)，该一个或者多个用户界面使录制用户能够修饰音频文件，例如，通过删除部分、将多个音频文件拼接在一起等。在其它实施方式中，系统可以向用户提供其它信息，诸如，录音的持续时间、匹配的预先存在的作品等。在框618中，系统可以通过一个或者多个数据点(包括但不限于由用户提供的书目信息、由用户提供的别名或者其它关键词、主题、话题、从书目数据库152获得的书目信息、录制用户的身份(例如，“妈妈”、“爸爸”等)等)在叙述数据库154中为录制好的音频文件编索引。

图7是图示了根据本文所公开的实施方式的示例方法700的流程图。为了方便起见，参照执行操作的系统描述流程图的操作。该系统可以包括各个计算机系统的各个组件，诸如，自动化助理120的一个或者多个组件。此外，虽然按照特定的顺序示出了方法700的操作，但这不意味着受到限制。一个或者多个操作可以被重新排序、省略或者添加。

在框702中，系统可以接收语音输入。在各种实施方式中，语音输入可以包括显式命令或者隐含地建议说话者想要回放通过使用本文所描述的技术而创建的音频文件的其它话语。在一些实施方式中，可以将各个短语与对音频文件进行渲染的命令匹配。例如，可以将短语(诸如，“I miss mommy(我想妈妈)”或者“I like how daddy reads stories(我喜欢爸爸读故事)”)与对由孩子各自的父母录制(并且索引)的音频文件进行渲染的命令匹配。

在框704中，例如，系统可以对语音输入执行语音处理(例如，说话者识别)以确定说话者是否与先前录制包含叙述的再现的音频文件的一个或者多个用户(例如，成年人、父母)不同，如本文所描述的。另外或者可替选地，在一些实施方式中，例如，系统可以通过使用语音输入的各种特性(诸如，词汇、音调、节奏等)来检测说话者是否可能是孩子。

假设在框702中接收到的语音输入没有明确地识别音频文件，那么在框706中，系统可以提供输出来从用户请求书目输入，该输出可以用于识别期望音频文件。在许多实施方式中，该输出可以是音频输出，但是在其它实施方式中，输出可以采取其它形式，诸如，视觉等。在框708中，系统可以接收(通常但不限于)音频输入，该音频输入包括什么是有效的搜索查询，并且可以包括书目信息，诸如，标题、作者、录制用户、别名、主题等。在框710中，例如，系统可以从叙述数据库154中检索响应结果。

在框712中，系统可以基于框702的语音处理来确定说话者是否是与录制用户不同并且/或者与和自动化助理120相关联(由自动化助理120服务)的用户不同。如果答案是肯定的，则方法700可以进行框714。在框714中，系统可以提供偏向于通过使用本文所描述的技术而录制(例如，存储在叙述数据库154中)的音频文件的搜索结果。在一些实施方式中，系统可以使搜索结果偏离其它内容，诸如，由自动化助理120服务的用户控制的内容(例如，其它文档、电子邮件、设置、媒体等)和/或通常在互联网上是可用的内容。在一些实施方式中，该偏离可能至今将不包含在叙述数据库154中的至少一些内容排除在搜索结果之外。

另外或者可替选地，在一些实施方式中，系统可以基于说话者的语音的一个或者多个音频特性来使话音识别偏向于由说话者提供的语音输入。例如，系统可以对在框702和/或框708接收到的语音输入执行话音识别。系统还可以对语音输入的音频特性(例如，音调、节奏、发音、词汇等)进行分析以确定说话者的特性，诸如，身份、性别、大致年龄等。响应于确定了语音输入具有特定音频特性(例如，正在说话的是个孩子)，系统可以使话音识别偏向于识别与通过使用本文所描述的技术而录制的音频文件相关联的标识符(例如，书目信息)。

返回图7，如果框712中的回答是否定的(即，用户是与录制音频文件的用户相同的用户并且/或者是由自动化助理120服务的用户)，则方法700可以进行框716。在框716中，系统可以提供未偏向的搜索结果，例如，该未偏向的搜索结果可以包括：除了包含在叙述数据库154中的内容之外的由自动化助理服务的用户控制的内容、在互联网上是可用的内容等。

在框718中，系统可以接收来自搜索结果的包括用户选择的输入。例如，在一些实施方式中，在框714/716中，系统可以提供搜索结果的音频列表(包括来自叙述数据库154的先前录制好的响应音频文件)，并且用户可以提供选自这些结果的音频输入。在其它实施方式中，在框714/716中，系统可以向图形用户界面提供搜索结果的视觉列表，并且例如，该用户可以通过使用鼠标、触摸屏输入，或者通过说出期望结果来从这些结果中选择。

在框720中，系统可以对所选择的音频文件进行听觉渲染。在一些实施方式中，系统可以对音频文件进行听觉渲染之后提供其它输出。例如，系统可以提供各种事实、琐事或者与先前存在的作品和/或作者相关的其它信息。例如，在对录音“Mary Had a LittleLamb(玛丽有一只小羊羔)”的音频文件进行渲染之后，自动化助理120可以输出一件琐事，诸如，“Did you know that the author of that song,'Mary Had A Little Lamb'isalso responsible for why Americans celebrate Thanksgiving(你知道玛丽有只小羊羔的作者也是为什么美国人庆祝感恩节的原因吗)”。

在一些实施方式中，在框716中，系统可以提供对与录制好的音频文件不相关的查询(例如，在框702或者708中接收到的)直接作出响应的信息(在这种情况下，至少可以省略框706)，并且然后可以提供与通过使用本文所描述的技术而录制的音频文件对应的搜索结果。例如，假设用户提供了关于作者的一般搜索查询，诸如，“How old was Mark Twainwhen he died(马克吐温在死时有多少岁)？”自动化助理120首先可以通过提供答案(“74”)来做出响应。然后，自动化助理120可以确定存储在叙述数据库154中的一个或者多个音频文件与马克吐温相关(例如，由马克吐温所著、提及马克吐温等)。基于该确定，自动化系统可以通过提供询问用户是否想要回放一个或者多个与马克吐温相关的音频文件(例如，“Bythe way,you have recorded two titles written by Mark Twain.Shall I read one(顺便问一下，你已经录制了马克吐温所写的两个标题。我应该读其中一个吗)？”)的输出来继续。

图8是可以可选地用于执行本文所描述的技术的一个或者多个方面的示例计算装置810的框图。在一些实施方式中，客户端计算装置、自动化助理120、和/或(多个)其它组件中的一个或者多个可以包括示例计算装置810的一个或者多个组件。

计算装置810通常包括至少一个处理器814，该至少一个处理器814经由总线子系统812与多个外围装置通信。这些外围装置可以包括存储子系统824(例如，包括存储器子系统825和文件存储子系统826)、用户界面输出装置820、用户界面输入装置822和网络接口子系统816。输入装置和输出装置允许用户与计算装置810交互。网络接口子系统816将接口提供至外部网络并且耦合至其它计算装置中的对应接口装置。

用户界面输入装置822可以包括键盘、指示装置(诸如，鼠标、轨迹球、触摸板或者图形输入板)、扫描仪、并入显示器中的触摸屏、音频输入装置(诸如，语音识别系统、麦克风和/或其它类型的输入装置)。一般而言，所使用的术语“输入装置”旨在包括将信息输入到计算装置810中或者到通信网络上的所有可能类型的装置和方法。

用户界面输出装置820可以包括显示子系统、打印机、传真机、或者非可视显示器，诸如，音频输出装置。显示子系统可以包括阴极射线管(CRT)、平板装置(诸如，液晶显示器(LCD))、投影装置、或者用于创建可见的图像的一些其它机构。显示子系统还提供非可视显示器，诸如，经由音频输出装置。一般而言，所使用的术语“输出装置”旨在包括将信息从计算装置810输出至用户或者至另一机器或者计算机装置的所有可能类型的装置和方法。

存储子系统824存储提供本文所描述的模块中的一些或者所有的功能的编程和数据结构。例如，存储子系统824可以包括执行图6和图7的方法的所选择的方面并且实施图1中描绘的各个组件的逻辑。

这些软件模块通常由处理器814单独或者与其它处理器组合执行。用于存储子系统824的存储器825可以包括多个存储器，该多个存储器包括用于在程序执行期间存储指令和数据的主要随机存取存储器(RAM)830以及存储有固定指令的只读存储器(ROM)832。文件存储子系统826可以为程序和数据文件提供永久存储，并且可以包括硬盘驱动器、软盘驱动器连同相关联的可移动媒体、CD-ROM驱动器、光盘驱动器、或者可移动媒体盒。实施某些实施方式的功能的模块可以由文件存储子系统826存储在存储子系统824中或者在可由处理器814访问的其它机器中。

总线子系统812提供用于允许计算装置810的各种组件和子系统按照预期的方式彼此通信。虽然总线子系统812被示意地示出为单个总线，但是总线子系统的替选实施方式可以使用多个总线。

计算装置810可以有各种类型，包括工作站、服务器、计算集群、刀片式服务器、服务器群、或者其它数据处理系统或者计算装置。由于计算机和网络的性质多变，所以图8中描绘的计算装置810的描述仅仅作为为了说明一些实施方式的目的的具体示例。计算装置810的许多其它配置可能具有比图8中描绘的计算装置更多或者更少的组件。

在本文所讨论的某些实施方式可以收集或者使用关于用户的个人信息(例如，从其它电子通信提取到的用户数据、关于用户的社交网络的信息、用户的位置、用户的时间、用户的生物特征信息、用户的活动和人口统计信息、用户之间的关系等)的情况下，会向用户提供控制是否收集信息、是否存储个人信息、是否使用个人信息、以及如何收集、存储和使用关于用户的信息的一个或者多个机会。即，本文所讨论的系统和方法仅是在从相关用户接收到要这样做的显式授权时收集、存储和/或使用用户个人信息。

例如，向用户提供控制程序或者特征是否收集关于该特定用户或者与程序或者特征相关的其它用户的用户信息。向个人信息将要被收集的每个用户呈现一个或者多个选项：允许控制与该用户相关的信息收集以提供关于是否收集信息和关于收集信息的哪些部分的许可或者授权。例如，可以通过通信网络向用户提供一个或者多个这样的选项。另外，在存储或者使用特定数据之前，可以按照一种或者多种方式来处理该特定数据，从而使得可以去除个人身份信息。作为一个示例，可以处理用户的身份，从而无法确定个人身份信息。作为另一示例，可以将用户的地理位置泛化到更大的区域，从而无法确定用户的具体位置。在本公开的背景下，可以安全的方式来维护由系统捕获的任何关系(诸如，父母子女关系)，例如，从而使得不可通过使用这些关系来分析和/或解释自然语言输入来在自动化助理之外访问这些关系。例如，自动化助理可能无法告知问题(诸如，“Who is Sally’smother(谁是Sally的妈妈)”)的答案，即使自动化助理已经为了实践本文所描述的技术的目的而了解到该信息(例如，妈妈说：“I want to record a story for my daughter,Sally(我想为我的女儿Sally录制故事)”)。这同样适用于由自动化助理在实践本文所描述的技术的同时了解到的关于用户的其它人口统计信息(例如，年龄、性别、能力等)。

虽然在本文中已经描述和图示了多个实施方式，但是可以利用用于执行功能并且/或者获得结果和/或本文所描述的优点中的一个或者多个优点的各种各样的其它装置和/或结构，并且认为这种变化和/或修改中的每一种在本文所描述的实施方式的范围内。更一般地，本文所描述的所有参数、尺寸、材料和配置意谓示例性的，并且实际参数、尺寸、材料和/或配置将取决于使用了本公开的教导的具体应用。本领域的技术人员仅仅使用常规实验即将认识或者能够确定本文所描述的具体实施方式的许多等同物。因此，要理解，前述实施方式仅仅以举例的方式呈现，并且在所附权利要求书和其等同物的范围内，可以不同于所具体描述和所要求保护的方式来实践实施方式。本公开的实施方式是针对本文所描述的每一单独特征、系统、物品、材料、套件和/或方法。另外，如果这些特征、系统、物品、材料、套件和/或方法并非相互矛盾，则两个或者多个这些特征、系统、物品、材料、套件和/或方法的任何组合包括在本公开的范围内。

Claims

1.一种计算机实现的方法，其包括：

响应于从第一用户接收到指示所述第一用户打算录制音频内容的输入，使得捕获并且存储音频内容；

从所述第一用户接收指示所述音频内容的至少一个标识符的输入；

将所存储的音频内容与所述至少一个标识符相关联；

从第二用户接收语音输入；

对所述语音输入的特性进行分析；

响应于确定了所述语音输入具有特定特性，使关于所述语音输入的话音识别偏向于识别所述至少一个标识符，包括修改由语音到文本模型的一个或多个值或者由语音到文本的模型生成的一个或多个值以增加识别到所述至少一个标识符的可能性，其中，所述特定特性指示所述第二用户是与所述第一用户不同的人；以及

响应于识别，基于经偏向的话音识别、所述语音输入中的所述至少一个标识符的存在，使得回放所存储的音频内容。

2.根据权利要求1所述的方法，其进一步包括：

响应于所述经偏向的话音识别导致所述语音输入未被识别，向所述第二用户提供可选择的选项以使所述第二用户能够使得回放所存储的内容。

3.根据权利要求2所述的方法，其中，所述可选择的选项包括所述至少一个标识符。

4.根据权利要求2所述的方法，其中，所述可选择的选项是音频提示。

5.根据权利要求1所述的方法，其进一步包括：

响应于从所述第一用户接收到指示所述第一用户打算录制音频内容的所述输入，向所述第一用户提供提示，所述提示指令所述第一用户提供指示所述至少一个标识符的所述输入。

6.一种计算机实现的方法，其包括：

通过位于一个或者多个输入装置处的语音激活产品，接收来自用户的第一命令，其中，所述第一命令通知所述语音激活产品所述用户希望录制叙述的听觉再现；

通过位于所述一个或者多个输入装置处的所述语音激活产品，接收来自所述用户的书目输入，其中，所述书目输入指示与所述叙述相关联的书目信息；

经由音频输入装置，通过所述语音激活产品，录制所述用户所说的所述叙述的所述听觉再现；

将包括所录制好的由所述用户所说的所述叙述的听觉再现的音频文件存储在对所述语音激活产品可用的计算机存储器中，其中，所述音频文件在所述计算机存储器中被至少部分地基于所述书目信息编索引；以及

经由音频输出装置，通过所述语音激活产品，响应于在所述一个或者多个输入装置处接收到的来自不同用户的第二命令来对所述音频文件进行渲染，其中，所述第二命令包括所述书目信息的指示，

其中，所述第二命令响应于在语音输入中识别到所述书目信息的指示的存在而被执行，

其中，在所述语音输入中识别到所述书目信息的指示的存在包括如果确定了所述语音输入具有特定特性则使关于所述语音输入的话音识别偏向于识别所述书目信息的指示，其中，所述特定特性指示所述不同用户是与所述用户不同的人，并且

其中，使所述语音输入偏向于识别所述书目信息的指示包括修改由语音到文本模型的一个或多个值或者由语音到文本的模型生成的一个或多个值以增加识别到所述书目信息的指示的可能性。

7.根据权利要求6所述的计算机实现的方法，其中，所述第一命令包括经由所述音频输入装置接收到的话音。

8.根据权利要求6所述的计算机实现的方法，其进一步包括：通过位于一个或者多个输出装置处的所述语音激活产品，提供对与所述叙述相关联的所述书目信息的请求。

9.根据权利要求6所述的计算机实现的方法，其中，所述书目输入包括经由所述音频输入装置而接收到的话音。

10.根据权利要求6所述的计算机实现的方法，其中，所述第二命令包括经由所述音频输入装置而接收到的话音。

11.根据权利要求6所述的计算机实现的方法，其中，所述叙述包括先前存在的书面作品，并且所述方法进一步包括将所述书目信息与数据库中的所述先前存在的书面作品匹配。

12.根据权利要求11所述的计算机实现的方法，其进一步包括：经由一个或者多个输出装置，通过所述语音激活产品，提供与所述数据库中的所述先前存在的书面作品相关联的附加信息。

13.根据权利要求12所述的计算机实现的方法，其中，所述附加信息包括表示所述先前存在的书面作品的视觉再现。

14.根据权利要求11所述的计算机实现的方法，其中，所述音频文件在所述计算机存储器中被进一步基于与所述数据库中的所述先前存在的书面作品编索引。

15.根据权利要求6所述的计算机实现的方法，其中，所述计算机存储器存储通过对应书目信息编索引的多个录制好的音频文件。

16.根据权利要求15所述的计算机实现的方法，其中，所述多个音频文件进一步通过录制所述多个音频文件的用户的身份编索引。

17.根据权利要求6所述的计算机实现的方法，其进一步包括：通过所述语音激活产品将由所述用户选择的一种或者多种声音效果并入所述音频文件中。

18.根据权利要求6所述的计算机实现的方法，其进一步包括：对所述第二命令进行语音分析以确定所述第二命令是由与所述用户不同的用户说出的。

19.根据权利要求18所述的计算机实现的方法，其进一步包括：通过所述语音激活产品，基于所述语音分析来发起为所述不同用户定制的交互式对话。

20.一种语音启用装置，其包括：

一个或者多个处理器；

一个或者多个扬声器，所述一个或者多个扬声器可操作地与所述一个或者多个处理器耦合；

一个或者多个麦克风，所述一个或者多个麦克风可操作地与所述一个或者多个处理器耦合；以及

存储器，所述存储器与所述一个或者多个处理器耦合，其中，所述存储器存储指令，所述指令在由所述一个或者多个处理器执行时，使所述一个或者多个处理器执行权利要求6至19中的任一项所述的方法。