CN110869904A

CN110869904A - 用于提供未播放内容的系统和方法

Info

Publication number: CN110869904A
Application number: CN201880043859.7A
Authority: CN
Inventors: 赛金·戈文德; 杰夫·古尔; 达伦·吉尔; 拉雅·查图尔维迪; 维什瓦纳森·里希纳穆尔蒂; 里安·埃利奥特; 许茂雄
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2017-09-26
Filing date: 2018-09-21
Publication date: 2020-03-06
Also published as: US10733987B1; WO2019067312A1; EP3669264A1

Abstract

与从内容项的集合中提供内容项有关的系统、方法和设备。公开的实施方案通过跟踪哪些内容项已向用户播放并且自动跳过那些内容项来增强用户体验。本文公开的实施方案还可使得用户能够将内容项的播放限制为自最后一次播放来自所述内容项集合的内容项以来已添加的那些内容项。如果所述用户在接收到所述新添加项之后选择接收附加内容项，则所述系统可在已播放所述新添加内容新闻项之后提供较旧的未播放内容项。

Description

用于提供未播放内容的系统和方法

相关申请的交叉引用

本申请要求以Saigin Govender等人的名义的于2017年9月26日提交的题为“用于提供未播放内容的系统和方法”的美国专利申请序列号15/716,439的优先权。上述专利申请通过引用整体并入本文。

背景技术

诸如音频(例如，语音)控制的电子设备的电子设备能够执行各种功能。例如，个人可说出激活这种设备的命令，并且作为响应，所述设备或其他系统部件可执行各种功能和/或引起执行一个或多个动作。一些语音控制的电子设备还可包括能够输出内容的显示屏。

附图说明

图1A和图1B是根据各种实施方案的用于跟踪针对两名不同用户已播放的内容并且用于提供尚未播放的附加内容的示例性系统的说明图；

图2是根据各种实施方案的用于向电子设备提供尚未播放的内容的代表性系统架构的说明图；

图3是根据各种实施方案的可由例如图1和图2所示的系统利用的示例性系统架构的说明图；

图4展示了根据本公开的各种实施方案的存储的并且与说话者配置文件相关联的数据；

图5是展示了根据本公开的各种实施方案的执行用于准备用于ASR和用户识别的音频数据的处理的流程图；

图6是根据本公开的各种实施方案的矢量编码器的图；

图7是展示了根据本公开的各种实施方案的用户识别的系统流程图；

图8是根据各种实施方案的用于确定内容是否已被播放并且用于播放未播放内容的过程的说明图；并且

图9是根据各种实施方案的用于在提供未播放内容时处理来自内容提供商的内容更新的过程的说明图。

具体实施方式

如下所述，本公开总体上涉及与使用语音控制的设备来提供诸如新闻、体育、节目或类似的基于订阅的内容的内容有关的系统、方法和设备的各种实施方案。个人越来越多地使用诸如亚马逊的Echo的设备来除了别的之外与朋友、家人和同事进行通信，就像早期使用传统的固定电话一样，以及作为免提信息来源。使用此类设备的最常见方式是让个人说出特殊的单词作为话语的一部分，经常称为设备被设计成识别的“唤醒词”。例如，用户在坐在他或她的卧室、客厅、厨房等中时，可向语音控制设备说出话语“Alexa，我的简讯是什么？”。用户可具有与和语音控制设备对应的用户账户相关联的新的提供商的列表。可选择所述提供商列表作为用户可选择启用的技能或附加特征的一部分，诸如新闻简讯特征。

当用户添加此类特征时，可为用户提供与特征相关的选项。例如，可向用户提供可能吸引各种各样的人群的各种各样的内容来源。新闻提供商可包括但不限于诸如国家公共广播电台(NPR)、福克斯新闻网(Fox)、MSNBC(微软国家广播公司)、CNN(有线电视新闻网)、美联社(AP)头条新闻、CBS新闻、NBC新闻、ABC新闻、Slate杂志、政客新闻网、彭博新闻社等的来源。每个新闻提供商都可根据不同的时间表来更新所提供故事的选择，使得某些更新可能每小时发生一次，其他更新可能每天发生，等等。

在配置页或安装位置处，用户可选择将从其编译新闻简讯的新闻提供商(它们可使用例如来自应用、网站或其他出售物的列表来选择)。一旦启用并配置特征，用户可仅通过说出适当的话语来调用所述特征，诸如“Alexa，我的新闻简讯是什么？”。系统随后将通过从选择的新闻提供商中的每个选择给定数目的新故事来编译新闻简讯，并且按顺序开始播放它们(这也可由用户配置成播放例如来自任何选择的新闻提供商的最多三个新闻故事)。用户可能会收听所有回放的故事，或者用户可能会跳过似乎对特定个人很少兴趣或根本没有兴趣的故事(在这种情况下，个人可能会简单地说出“下一个”，这可使电子设备跳到下一个故事，在这种情况下，电子设备将不得不将模式切换到“打开传声器”模式，使得调用特定命令将不必使用唤醒词)。在某些情况下，用户可能会受到打扰，从而使一个或多个新闻故事处于“未播放”状态(“未播放”可能代表未完整回放的新闻故事，或者它可能代表尚未开始为特定用户回放的新闻故事)。

在将来的某个时候，同一用户可能会通过说出相同或相似的话语(诸如“Alexa，请播放我的新闻”)来再次调用所述特征。作为响应，即使其中一些新闻已经为用户播放，系统也将仅开始回放当前的新闻故事的内容。

本文公开的原理实际上同样适用于可至少提供一些定期更新的任何内容，诸如基于订阅的内容。例如，个人可能订阅每天提供多次更新的YouTube频道。根据本文公开的各种实施方案，下文所述的系统和方法可用来通过在个人层面上跟踪哪些内容项已经被播放并且哪些内容项未被播放来改善客户体验，其中“播放”包括收听、观看、回放、阅读或以任何其他方式消费内容。以这种方式，播放通常是指以任何方式消费内容，而与格式无关并且与消费内容所使用的方法无关，包括播放音频、播放视频、播放组合的音频/视频、显示书面文本等。因此，通过语音激活设备在仅音频模式下播放的新的故事被以与在具有诸如EchoShow的屏幕的设备上播放的YouTube视频相同的方式“播放”。仅出于说明性而非限制性的目的，以下许多讨论都利用新闻简讯和新闻内容作为主要实例。本公开的原理同样非常适用于定期提供和消费的任何类型的内容，以使得用户能够在没有“丢失任何内容”的风险的情况下以有效且愉悦的方式播放并从而消费所述内容。

然而，根据本文公开的各种实施方案，下文讨论的系统和方法提供了附加功能，使得当调用新闻简讯特征(或类似的基于内容的特征)时，仅回放“未播放的”新闻故事(假设用户将特征配置成以所述方式操作，或者特征本身被配置成以作为默认设置的所述方式操作)。在回放新闻故事时，系统可使用元数据来维护哪些故事已播放或哪些故事仍“未播放”或者两种状态的某种组合的指示。随后，如果用户在未来短期内调用新闻简讯特征，则系统可跳过任何已回放的新闻故事，并且仅回放分类为“未播放”的新闻故事。

通过使用元数据跟踪哪些新闻故事是“播放”与“未播放”的状态，可提供附加功能来进一步增强用户的体验。例如，以同样的方式，所述系统还可被配置成识别自最后一次请求新闻简讯发布以来，已将哪些新闻故事添加到特定新闻馈送的队列中。在那种情况下，从回放最新的新闻故事开始可能是有益的。在新添加的新闻故事的回放已完成后，所述系统(包括语言处理系统)可格式化向用户回放的请求，诸如“这就是我现在拥有的所有新的新闻，您想继续您更早的新闻简讯吗”。以这种方式，用户可确信所述系统正在向他或她提供个人希望接收的所有新闻，并且用户可确信他们没有丢失任何东西(或者至少他们可选择是否跳过某些新闻项)。

为了实现这种类型的附加特征，系统将需要还能够确定更新了哪些新闻故事(基于哪些来源正在进行更新)。这可以多种方式来实现。在大多数情况下，可从新闻提供商那里获得何时发生更新的更新时间表。基于这些更新的定时，系统可确定在特定更新之前存在哪些新闻故事。例如，系统可维持最后一次新闻简讯结束的时间，并且随后将其与每个新闻或内容提供商发生一个或多个更新的时间进行关联。在每种情况下，本文公开的系统和方法的一个不变的目标是增强用户体验，使得以可使用户充满信心和信息的明智、及时且有效的方式来提供所请求的内容。

图1A和图1B是根据各种实施方案的以有效的方式向两名不同的用户(图1A中的一名用户和图1B中的另一名用户)提供多条新闻简讯的示例性系统的说明图。在非限制性的说明性实施方案中，在图1A中，在房屋中的个人1a在被指定为时间“X”的第一时间5处可能希望听到一些新闻。因此，个人1a可说出话语4a，意图根据个人已配置的特征设置来调用新闻简讯特征。例如，话语4a可能是“Alexa，我的简讯是什么？”。在此实例中，姓名“Alexa”可对应于语音激活电子设备100a的唤醒词，项“是什么”可对应于用于启动命令的调用短语，在这种情况下，所述命令将播放如由用户配置的新闻简讯。

给定请求，系统可简单地转到与设备100a相关联的用户帐户，并且编译从用户先前启用的提供商讲述的当前的新闻列表。如图1A的图示中所示，个人1a已配置他的新闻简讯以从四(4)个不同的来源进行编译，这些来源可包括例如NPR、CNN、Fox和AP等。如图1A所示，来自启用的内容提供商中的每个的新闻故事可被累积和存储以便进行回放，并且可维护与新闻故事本身、这些新闻故事的用户的回放状态和/或两者有关的附加信息。例如，图1A示出，对于每个内容提供商，可获得一系列信息，这些信息可用于向所请求的个人提供“未播放的”新闻故事。可为每个提供商维护信息，如由来源1(参考数字20)所示，其示出标记为1、2、3和4的四个来源1的新闻故事(仅出于说明性目的，在此实例中提供的每组内容都类似地具有四个项)，然而，显然的是，不同的内容来源可提供不同量的内容以便进行回放，并且所有内容提供商可根据与其他内容提供商相比相似或不同的时间表来更新所述内容。

对于标记为1、2、3和4的新闻故事中的每个，还维护时间戳，在图1所示的实例中，所述时间戳被相对于时间“X”示出，使得例如来源1、故事编号2被在时间X之前一小时三十分钟添加到系统。尽管出于说明目的，来自内容提供商20、22、24和26中的每个的每个新闻故事的每个时间都是相同的，但是更有可能所述时间将在新闻故事级别以及内容提供商与他们提供更新的时间之间都变化。

除了与新闻故事本身有关的信息外，还维护附加信息，所述信息指示已播放了哪些新闻故事(如上所述，“播放”仅意味着已输出任何格式的内容，无论输出是否是音频、视频、组合的音频/视频、显示的文本等)。可通过简单地指定播放每个新闻项的时间来提供所述信息，或者可利用更完善的方法，诸如系统在给定会话过程中标记每个播放项的位置，并且他们在发生新会话时改变这些标记。这种功能可为用户提供请求回放在给定会话过程中播放的新闻故事的能力(通过说出诸如“Alexa，请再次回放所述新闻”的话语，它可让用户在跳到最近回放的特定新闻故事时收听)。

每个内容提供商可具有不同的指定，使得可将新闻故事配置成以不同的优先级来播放。例如，在图1中的时间X处所示的新闻简讯过程中，回放来自来源1的指定为编号1、2和3的三个故事，而仅回放来自来源2(参考数字22)中的两个故事(指定为编号1和2)。类似地，回放来自来源3(参考数字24)(编号1、2和3)的三个故事，而回放来自来源4(参考数字26)中的所有可用内容(即编号1至4)。列表8对此进行了说明，所述列表是基于由内容提供商按顺序提供的每个新闻文章的数字指定进行排序的。例如，系统可回放一条消息，说明“来自来源1的新闻包括[故事1、故事2和故事3]，而来自来源2的新闻包括[故事1和故事2]，并且来自来源3的新闻包括[故事1、故事2和故事3]，并且来源3包括[故事1、故事2、故事3和故事4]。对于回放的每个故事，系统都可进行指定，诸如矩阵20、22、24和26中的每个中示出的勾选标记。

在图1A中也示出的是在时间15处的同一个人(现在标记为1b以反映随时间的变化)，现在是一小时四十五分钟过后(或者时间＝X+1：45)。根据潜在可调节的用户设置或者潜在地由内容提供商控制，某些新闻项可能会在给定时间后过期并且被从列表中删除，至少部分是为了为更新的新闻项腾出空间。本文出于说明和简化的目的，图1A中所示的内容提供商的每个在时间15处示出相同的时间指定，就像它们在时间5处示出相同的时间指定一样。然而，在正常情况下，时间指定可能将在提供商之间以及给定提供商内变化。此外，尽管图1A所示的图示示出新闻项1和2已变得“过时”，并且已为每个内容提供商删除，在正常情况下，每个内容提供商将建立其自己的标准，以便决定何时删除内容项使其不可用于回放。出于说明目的，内容提供商已指定为30、32、34和36而不是20、22、24和26，以表明存储在其中用于回放的内容在介入的一小时四十五分钟的过程中已改变。总的来说，时间5处的内容由参考数字50共同说明，而时间15处的内容由参考数字55共同说明。

以这种方式，例如，将每个内容提供商的每个剩余的内容项指定为分别具有X-1、X-：30、X+：15和X+1的时间的项3、4、5和6(例如，在时间5之后的一个小时或者在时间15之前的45分钟添加新闻项6)。这次，当个人1b再次询问“Alexa，我的简讯是什么？”时，系统可通过仅提供先前“未播放”的那些新闻项以及自在时间5处发布新闻简讯以来已添加的任何新闻项来进行响应(假设用户已将系统配置成在“未播放”的基础上提供新闻)。如前所述，一旦前一会话结束，则一旦所述回放会话结束，在先前会话期间回放的新闻项可能已经将其勾选指定切换为X指定。因此，在这个图示中，来自来源1的新闻项3、来自来源3的新闻项3以及来自来源4的新闻项3和4都被指定为X，而来自来源1的新闻项4和5、来自来源2的新闻项3和4、来自来源3的新闻项4、以及来自来源4的新闻项5和6全都用勾选来指定(即指示它们在当前会话过程中被回放)。结果可能是列表18，其示出在会话期间回放的七个“播放”或新的新闻项。

图1B展示了以相同方式但是针对用户3a(以及时间15处的3b)而不是用户1a执行的同一系统。因此，系统跟踪已经播放或保持未播放的不同的内容项。还应当注意的是，尽管图1A和图1B示出针对个人1和3两者的相同来源，但是在大多数实际情况下，每个人可选择从其获得内容的任何数量的不同来源。如图1B所示，个人3a在时间X处(参考数字5)在话语7a中说出“Alexa，我的简讯是什么？”，并且响应9a是“您的简讯是......”，随后查看八个不同的内容项，如表8所示。在所示实例中，个人3a播放来自来源1的项1和4(跳过保持未播放的项2和3)、来自来源2的项2和3(跳过项1和4)、来自来源3的项2和4(跳过项1和3)、以及来自来源4的项2和3(跳过项1和4)。这与示出了个人1a播放十二个内容项的图1A进行比较。

图1B还示出了在时间15处(即1小时45分钟后)当个人3B说出询问“Alexa，我的简讯是什么”的话语7b时可能发生的情况的图示。同样，提供了响应9b“您的简讯是......”并且内容如下。在这种情况下，个人3b花费时间来追赶被跳过的故事并且收听新的内容项。这在表18中示出，其示出个人3B在此新闻简讯过程中已播放十一个内容项(与个人3a播放的七个内容项相比)。图1A和图1B(以及与图1A和图1B基本相似但是针对可能播放来自不同来源的内容项的不同用户的任何数量的图)展示了本公开中描述的方法和系统如何可用于管理可更新内容的播放。

图2是可根据本文公开的系统和方法来利用的新闻简讯系统200的说明性示意图。尽管图2针对“新闻简讯”，但是应当理解，本文描述的原理和特征可应用于任何内容来源，特别是应用于以常规方式更新内容的内容来源。新闻简讯系统200通过协调器340与语言处理系统300(在图3中示出并且在下文进行描述)通信，所述协调器提供经由自然语言理解(NLU)处理子系统360(在图3中更详细地示出并且也在下文更全面地描述)接收的命令。通常，语音激活的命令由诸如图1A和图1B所示的设备100a的设备接收，所述设备从说出文本生成数字音频数据。数字音频数据经由网络(诸如通过互联网连接的Wi-Fi网络)传输到语言处理系统。语言处理系统包括自动言语识别子系统，所述子系统将接收的数字音频数据转换成单词，随后将其传递给NLU 360以分析其含义。例如，当图1所示的个人1说出话语“Alexa，我的简讯是什么”时，NLU 360确定个人1具有用户配置文件，其中已启用简讯以供使用，并且在被调用时，将利用被指定为来源1、来源2、来源3和来源4的四个新闻提供商来完成。

NLU 360通过向Alexa服务/DeeSOS 218发送适当的指令来开始过程。Alexa服务.DeeSOS 218使用适当的时隙和意图来格式化新闻简讯命令，并且将所述信息发送到speechlet 362，以连接到新闻简讯子系统200。Speechlet 362通过与新闻数据库202通信的每日简讯服务206连接到新闻简讯子系统200。新闻服务管理器204控制和/或请求放置在新闻数据库202内或者从其收回或删除的内容。新闻提供商管理器208与新闻内容的外部来源交接，这是图2所示的图示，包括来源1(210)、来源2(212)、来源3(214)以及来源4(216)。内容提供商210、212、214和216中的每一个(以及一旦启用，其他内容提供商)可根据可对于每个提供商唯一的预定时间表来通过新闻提供商管理器208提供新闻内容更新。

因此，新闻服务管理器204通过请求新闻更新和/或管理在由内容提供商提供时的新闻更新来控制新闻数据库202的内容。通过从第三方获取内容并且将所述内容放置到新闻数据库202中，新闻提供商管理器208基本上遵循了来自新服务管理器204的指令。新闻服务管理器204用于维护给定用户账户内“未播放”的新闻项的状态，并且或者这种信息可直接提供给自然语言处理系统，其中用户信息可由子系统368维护。

如上文简要描述的，言语处理系统(或计算系统)300可包括特定的言语处理系统，在一些实施方案中，所述言语处理系统被配置成使用接收的音频数据来确定说出话语的意图，并且生成对话语的响应和/或引起执行一个或多个动作。例如，在接收到表示话语4的音频数据时，言语处理系统可通过对音频数据执行自动言语识别(“ASR”)处理以产生文本数据来生成表示音频数据的文本数据，并且可利用对产生的文本数据执行的自然语言理解“(NLU)”处理来确定话语的意图。言语处理系统可进一步确定话语的意图包括例如播放特定个人的最爱播放列表或者播放特定个人的新闻简讯的意图。

确定意图的过程也可将特定设备100a是否具有已注册使用语音识别的任何用户作为输入。如果存在这种用户，则言语系统300可经由用户账户368分析接收的音频数据以进行语音识别确定，以便更容易地管理通过各个设备100a接收的命令。例如，如果启用语音识别特征，则可分析图1A所示的话语4a和4b(或图1B中所示的话语7a和7b)以确定是否存在成功的语音识别。如果语音识别成功，则言语处理系统可标识调用了简讯的请求的特定用户、访问所述特定用户的简讯指令、并且随后相应地执行这些指令。否则，言语处理系统300可能必须对个人1和3进行准备和格式化查询，以便确定在哪里找到个人1和3的用户配置文件(即，确定履行简讯请求所需的正确的指令和内容)。

图3是根据各种实施方案的言语处理系统300的示例性系统架构的说明图，所述言语处理系统可如上文结合图1A和图1B以及图2所描述地使用。尽管图3主要涉及言语处理系统300，图3还示出了电子设备100a的代表性部件，所述部件可通过例如网络330(其可为例如连接到互联网的Wi-Fi网络)无线地连接到言语处理系统300。在一些实施方案中，设备100a可包括声控功能，诸如一个或多个语音或声音激活部件。在一些实施方案中，电子设备100a可被配置成使得其可响应于检测到包括唤醒词的话语而与言语处理系统300、并且特别是核心言语处理系统350通信，唤醒词随后可跟着例如请求、问题、陈述或意图。类似地，电子设备100a可替代地或此外包括用于手动控制功能的一个或多个手动激活部件。

在这种特定情境下，在一些实施方案中，电子设备100a还可被配置成响应于由例如像触摸屏、按钮和/或开关的一个或多个输入机构检测到手动输入而与言语处理系统300、并且特别是核心言语处理系统350进行通信。更广泛的言语处理系统300在下文可简称为计算系统300，并且核心系统350可称为言语处理系统350(至少部分是因为虚线标记350内包含的部件代表用于通过语音控制设备(诸如100a)为用户提供语音控制功能的核心基础部件)。例如，虚线350内所示的部件从设备100a接收表示话语的音频数据，将自动言语识别模块358应用于所述数据以产生文本数据，所述文本数据随后由自然语言理解模块360进行分析。附加功能可经由speechlet模块362引入(诸如语音识别功能)。文本转言语模块364为用户准备了结果消息。并且用户账户模块368可提供对用户账户的访问。如图2所示的新闻简讯控制和信息可驻留在计算系统300中，或者可将其视为与核心言语处理系统350通信的独立子系统。

出于说明的目的，否则可能落入speechlet 362的权限之内的新闻简讯部件可被认为是子系统320，并且可包括新闻简讯用户配置文件322、新闻简讯状态管理器324(可简单地是图2的新闻服务管理器204的子集)、以及新闻简讯时间管理器326(也可为新闻服务管理器204的子系统)。

在非限制性实施方案中，电子设备100a可能够响应于检测到诸如唤醒词的特定声音以及或可替代地经由一个或多个输入而被激活。在检测到特定声音(例如，唤醒词或触发表达)之后，电子设备100a可识别所捕获的音频内的命令(例如，可听命令、输入等)，并且可响应于接收的命令来执行一个或多个动作。此外，电子设备100a还可被配置成响应于经由电子设备100a检测到特定触摸或其他机械输入来执行一个或多个动作。

电子设备100a可对应于任何合适类型的电子设备，包括但不限于台式计算机、移动计算机(例如，膝上型计算机、超极本)、移动电话、智能电话、平板计算机、电视、机顶盒、智能电视、个人显示设备、大型显示设备(例如，广告牌、路牌等)、个人数字助理(“PDA”)、游戏机和/或设备、智能家具、智能家用设备(例如，冰箱、微波炉等)、智能车辆(例如汽车、卡车、摩托车等)、智能运输设备(例如船舶、火车、飞机等)、可穿戴设备(例如手表、别针/胸针、耳机等)、和/或智能配件(例如，灯泡、电灯开关、电子开关等)。在一些实施方案中，电子设备100a在结构上可为相对简单或基础的，使得不包括或包括最少量的机械输入选项(例如，键盘、鼠标、触控板)或触摸输入(例如，触摸屏、按钮)。例如，电子设备100a可能够接收并输出音频，并且可包括功率、处理能力、存储装置/存储器能力以及通信能力。然而，在其他实施方案中，电子设备100a可包括用于接收机械输入或触摸输入的一个或多个部件，诸如触摸屏和/或一个或多个按钮。

在一些实施方案中，电子设备100a可包括最少数量的输入机构，诸如电源开/关开关，使得电子设备100a的功能可单独地或主要地通过音频输入和音频输出。例如，电子设备100a可包括通过持续监视本地音频来监听唤醒词的一个或多个传声器或者与所述一个或多个传声器进行通信。响应于检测到唤醒词，电子设备100a可与计算系统300和/或言语处理系统350建立连接，将音频数据发送到计算系统300和/或言语处理系统350，并且等待/接收来自计算系统300和/或言语处理系统350的响应。然而，在一些实施方案中，非语音/声音激活的设备也可与计算系统300和/或言语处理系统350通信(例如，按键通话设备)。例如，响应于按下按钮或触摸屏或者按下并保持按钮或触摸屏，与电子设备100a相关联的传声器可开始记录本地音频，并且可与计算系统300和/或言语处理系统350建立连接，将表示捕获的音频的音频数据发送到计算系统300和/或言语处理系统350，并且等待/接收来自计算系统300和/或言语处理系统350的响应。

本领域普通技术人员将认识到，尽管在说明性实施方案中，计算系统300包括言语处理系统350，但是这仅是示例性的，并且言语处理系统350可与计算系统300分开。例如，言语处理系统350可位于专用计算设备内，所述专用计算设备可与或可不与计算系统300和/或一个或多个附加设备通信。

电子设备100a可包括一个或多个处理器302、存储装置/存储器304、通信电路306、一个或多个传声器308或其他音频输入设备(例如，换能器)、一个或多个扬声器310或其他音频输出设备、显示屏312、以及一个或多个相机314或其他图像捕获部件。然而，电子设备100a内可包括一个或多个附加部件和/或可省略一个或多个部件。例如，电子设备100a还可包括电源或总线连接器。作为又一实例，电子设备100a可包括一个或多个附加的输入和/或输出机构，诸如一个或多个按钮或者一个或多个开关或旋钮。作为另一实例，电子设备100a可没有显示屏。此外，尽管电子设备100a可包括一个或多个部件的多个实例，但是为简单起见，仅示出每个部件中的一个。

在一些实施方案中，电子设备100a可对应于手动激活设备，或者可包括手动激活设备的功能。如本文所述，手动激活设备可对应于能够响应于手动输入(例如，按下按钮、触摸触摸屏的一部分、在设备上执行动作)而激活的设备。例如，点击通话设备是一种类型的手动激活设备。例如，这种点击通话设备能够响应于按下按钮而获得并输出音频数据。

在一些实施方案中，电子设备100a可与附加处理设备通信，所述附加处理设备包括以下各项中的一项或多项：处理器302、存储装置/存储器304、通信电路306、传声器308、扬声器310、显示屏312和/或相机314。例如，电子设备100a的集中控制设备可包括一个或多个传声器308。这些传声器308可接收音频输入信号，所述音频输入信号进而可响应于电子设备100a的唤醒词引擎确定发出唤醒词而发送到计算系统300和/或言语处理系统350。

处理器302可包括能够控制电子设备100a的操作和功能以及促进电子设备100a内的各个部件之间通信的任何合适的处理电路。在一些实施方案中，处理器302可包括中央处理单元(“CPU”)、图形处理单元(“GPU”)、一个或多个微处理器、数字信号处理器或任何其他类型的处理器或者它们的任何组合。在一些实施方案中，处理器302的功能可由一个或多个硬件逻辑部件执行，所述硬件逻辑部件包括但不限于现场可编程门阵列(“FPGA”)、专用集成电路(“ASIC”)、专用标准产品(“ASSP”)、片上系统(SOC)和/或复杂的可编程逻辑设备(“CPLD”)。此外，每个处理器302可包括其自己的本地存储器，所述本地存储器可存储程序模块、程序数据和/或一个或多个操作系统。然而，处理器302可运行用于电子设备100a的操作系统(“OS”)和/或一个或多个固件应用、媒体应用和/或驻留在其上的应用。在一些实施方案中，处理器302可运行本地客户端脚本以便读取并渲染从一个或多个网站接收的内容。例如，处理器302可运行本地JavaScript客户端，以便渲染从电子设备100a访问的特定URL接收的HTML或XHTML内容。

存储装置/存储器304可包括一种或多种类型的存储介质，诸如任何易失性或非易失性存储器，或者以任何适当方式实现以存储用于电子设备100a的数据的任何可移动或不可移动的存储器。例如，可使用计算机可读指令、数据结构和/或程序模块来存储信息。各种类型的存储装置/存储器可包括但不限于硬盘驱动器、固态驱动器、闪存存储器、永久性存储器(例如ROM)、电子可擦除可编程只读存储器(“EEPROM”)、CD-ROM、数字通用光盘(“DVD”)或其他光学存储介质、磁带盒、磁带、磁盘存储装置或其他磁性存储设备、RAID存储系统或任何其他存储类型或者它们的任何组合。此外，存储装置/存储器304可被实现为计算机可读存储介质(“CRSM”)，其可为处理器302可访问以执行存储在存储装置/存储器304内的一个或多个指令的任何可用的物理介质。在一些实施方案中，一个或多个应用(例如，游戏、音乐、视频、日历、列表等)可由处理器302运行，并且可存储在存储器304中。

在一些实施方案中，存储装置/存储器304可存储将提供给电子设备100a的一个或多个可听和/或可视消息，以便指示如果未检测到言语则通信会话将要结束。例如，存储装置/存储器304可存储一个或多个可听消息和/或GUI，其包括从预设时间向下计数到零的计数器，到零时通信会话可结束。

在一些实施方案中，存储装置/存储器304可包括媒体系统316，所述媒体系统可被配置成促进电子设备100a与计算系统300之间的通信。例如，媒体系统316可存储可由处理器302执行的一个或多个通信协议，以便促进设备100a的通信。在一些实施方案中，会话发起协议(“SIP”)可用于促进电子设备100a与计算系统300(例如，通信系统328)和另一电子设备100a中的一个或多个之间的媒体传输。例如，SIP是基于文本的应用层协议，并且可采用实时传输协议(“RTP”)或安全实时传输协议(“SRTP”)功能。具体地，媒体系统316可采用PJSIP通信功能来支持电子设备100a的音频、视频、存在和消息传递通信。在一些实施方案中，电子设备100a可采用Web实时通信(“WebRTC”)协议。在非限制性实施方案中，媒体系统316可包括指令，所述指令指示基于电子设备100a的设备类型采用哪些通信协议来促进设备之间的媒体传输。例如，如果电子设备100a不包括显示器312和/或相机314，则媒体系统316可指示应当使用PJSIP，而如果电子设备100包括显示器312和/或相机314，则媒体系统316可指示应当使用WebRTC协议。

在一些实施方案中，存储装置/存储器304可包括一个或多个模块和/或数据库，诸如言语活动检测系统(下文参考言语活动检测系统322更详细地描述)、言语识别模块、唤醒词数据库、声音配置文件数据库、以及唤醒词检测模块。言语识别模块可例如包括识别在检测的音频中的人类言语的自动言语识别(“ASR”)部件。言语识别模块还可包括自然语言理解(“NLU”)部件，所述部件基于检测的音频来确定用户意图。言语识别模块内还可包括能够将文本转换成言语以便由扬声器310输出的文本转言语(“TTS”)部件，和/或能够将接收的音频信号转换成文本以便发送到计算系统300和/或言语处理系统350来处理的言语转文本(“STT”)部件。

唤醒词数据库可为由电子设备100a的存储装置/存储器304本地存储的数据库，并且可包括电子设备100a的当前唤醒词的列表，以及一个或多个先前使用的或替代的唤醒词电子设备100a。在一些实施方案中，个人可为其电子设备100a设置或编程唤醒词。唤醒词可直接在电子设备100a上进行编程，或者可由个人经由与计算系统300和/或言语处理系统350通信的本地客户端应用来设置一个或多个唤醒词。例如，个人可使用他们的在其上运行有言语处理系统应用的移动设备来设置唤醒词。随后可将特定的唤醒词从移动设备传送到言语处理系统350，所述言语处理系统进而可将个人对唤醒词的选择发送/通知给电子设备100a。随后可将选择的激活存储在存储装置/存储器304的唤醒词数据库中。在一些实施方案中，唤醒词的附加触发表达或置换也可存储在存储装置/存储器304内。例如，指示唤醒词的存在的特定触发表达或单词也可存储在存储装置/存储器304内。在一些实施方案中，指示特定动作或消息的音频水印也可存储在存储装置/存储器204内。

在一些实施方案中，用于不同的单词、短语、命令或音频成分的声音配置文件也能够被存储在存储装置/存储器304内，诸如存储在声音配置文件数据库内。例如，音频的声音配置文件可存储在电子设备100a上的存储装置/存储器304的声音配置文件数据库内。以这种方式，例如，如果检测到特定声音(例如，唤醒词或短语)，则可忽略对应的命令或请求。声音配置文件例如可对应于特定音频文件或任何媒体文件的音频部分(诸如音频指纹或频谱表示)的频率和时间分解。

唤醒词检测模块可包括表达检测器，所述表达检测器分析由传声器308产生的音频信号以检测唤醒词，所述唤醒词通常可为预定义的单词、短语或任何其他声音或者任何一系列时间相关的声音。作为实例，可使用关键字检出技术来实现这种表达检测器。关键字检出器是功能部件或算法，其评估音频信号以检测由传声器308检测的音频信号内的预定义单词或表达的存在。关键字检出器生成真/假输出(例如，逻辑1/0)以指示在音频信号中是否表示预定义的单词或表达，而不是产生言语单词的转录。在一些实施方案中，表达检测器可被配置成分析音频信号以产生分数，所述分数指示唤醒词在由传声器308检测的音频信号内表示的可能性。表达检测器可随后将所述分数与唤醒词阈值进行比较，以确定唤醒词是否将被声明为已说出。

在一些实施方案中，关键字检出器可使用简化ASR技术。例如，表达检测器可使用隐马尔可夫模型(“HMM”)识别器，所述识别器执行音频信号的声学建模，并且将音频信号的HMM模型与已通过训练针对特定触发表达创建的一个或多个参考HMM模型进行比较。HMM模型将单词表示为一系列状态。通常，通过将音频信号的一部分的HMM模型与触发表达的HMM模型进行比较来分析音频信号的一部分，从而得出特征分数，所述特征分数表示音频信号模型与触发表达模型的相似度。

实际上，HMM识别器可产生对应于HMM模型的不同特征的多个特征分数。表达检测器可使用支持矢量机(“SVM”)分类器，所述分类器接收由HMM识别器产生的一个或多个特征分数。SVM分类器产生置信度分数，所述置信度分数指示音频信号包含触发表达的可能性。将置信度分数与置信度阈值进行比较，以作出关于音频信号的特定部分是否表示触发表达(例如，唤醒词)的话语的最终决定。在声明音频信号表示触发表达的话语之后，电子设备100a可随后开始将音频信号传输到言语处理系统350以便检测并且响应于个人讲出的后续话语。

通信电路306可包括允许或启动电子设备100a的一个或多个部件以与彼此、一个或多个附加设备、服务器和/或系统通信的任何电路。例如，通信电路306可促进电子设备100a与计算系统300之间的通信。作为说明性实例，可使用任意数量的通信协议通过网络330(诸如，互联网)将表示话语(例如，图1A的话语4a)的音频数据传输到计算系统300。例如，可使用传输控制协议和互联网协议(“TCP/IP”)(例如，在TCP/IP层中每个中使用的任何协议)、超文本传输协议(“HTTP”)、WebRTC、SIP、以及无线应用协议(“WAP”)来访问网络330，所述协议是可用于促进电子设备100a与计算系统300之间的通信的各种类型的协议中的一些。在一些实施方案中，电子设备100a和计算系统300和/或一个或多个附加设备或系统(例如，言语处理系统350)可使用HTTP经由web浏览器彼此通信。各种附加通信协议可用于促进电子设备100a与计算系统300之间的通信，包括但不限于Wi-Fi(例如802.11协议)、蓝牙、射频系统(例如900MHz、1.4GHz和5.6GHz通信系统)、蜂窝网络(例如GSM、AMPS、GPRS、CDMA、EV-DO、EDGE、3GSM、DECT、IS-136/TDMA、iDen、LTE或者任何其他合适的蜂窝网络协议)、红外、BitTorrent、FTP、RTP、RTSP、SSH和/或VOIP。

通信电路306可使用任何通信协议，诸如前面提到的任何示例性通信协议。在一些实施方案中，电子设备100a可包括天线，以促进使用各种无线技术(例如，Wi-Fi、蓝牙、射频等)与网络的无线通信。在又一实施方案中，电子设备100a可包括一个或多个通用串行总线(“USB”)端口、一个或多个以太网或宽带端口和/或任何其他类型的硬线接入端口，使得通信电路306允许电子设备100a与一个或多个通信网络通信。

电子设备100a还可包括一个或多个传声器308和/或换能器。此外，位于单独设备内的一个或多个传声器可与电子设备100a通信，以捕获用于电子设备100a的声音。传声器308可为能够检测音频信号的任何合适的部件。例如，传声器308可包括用于产生电信号的一个或多个传感器以及能够处理产生的电信号的电路。在一些实施方案中，传声器308可包括能够检测各种频率水平的多个传声器。作为说明性实例，电子设备100a可包括放置在电子设备100a周围的各个位置处的多个传声器(例如，四个、七个、十个等)，以监视/捕获在电子设备100a所处的环境中输出的任何音频。各种传声器308可包括针对远距离声音优化的一些传声器，而一些传声器可针对电子设备100a的近距离范围内产生的声音来优化。在一些实施方案中，传声器308可仅响应于对电子设备100a的手动输入而开始检测音频信号。例如，响应于诸如按下按钮、点击触摸屏或者向触摸输入部件提供任何触摸输入手势的用户输入，手动激活设备可开始使用传声器308来捕获音频数据。

电子设备100a可包括一个或多个扬声器310。此外，电子设备100a可与一个或多个扬声器310通信。扬声器310可对应于用于输出音频信号的任何合适机构。例如，扬声器310可包括一个或多个扬声器单元、扬声器外壳、换能器、扬声器阵列和/或换能器阵列，它们可能够将音频信号和或音频内容广播到电子设备100a可能位于的周围区域。在一些实施方案中，扬声器310可包括可无线连线或硬连线到电子设备100a的耳机或耳塞，其可能够直接向个人广播音频。

在一些实施方案中，一个或多个传声器308可用作接收音频输入的输入设备。在先前提到的实施方案中，电子设备100a还可随后包括一个或多个扬声器310以输出可听响应。以这种方式，电子设备100a可仅通过言语或音频来工作，而无需使用或不需要任何输入机构或显示器，然而，这仅仅是示例性的。

显示屏312可对应于显示设备和/或触摸屏，其可为任何大小和/或形状并且可位于电子设备100a的任何部分。各种类型的显示器可包括但不限于液晶显示器(“LCD”)、单色显示器、彩色图形适配器(“CGA”)显示器、增强型图形适配器(“EGA”)显示器、可变图形阵列(“VGA”)显示器或任何其他类型的显示器、或者它们的任何组合。更进一步，在一些实施方案中，触摸屏可对应于包括能够识别在其上的触摸输入的电容式感测面板的显示设备。例如，显示屏312可对应于投射电容式触摸(“PCT”)，屏幕包括一根或多根行迹线和/或驱动线迹线，以及一根或多根列迹线和/或感测线。在一些实施方案中，显示屏312可为电子设备100a的可选部件。例如，电子设备100a可不包括显示屏312。这种设备(有时称为“无头”设备)可输出音频，或者可与显示设备通信以便输出可见内容。

在一个非限制性实施方案中，显示屏312可包括绝缘体部分，诸如玻璃，其涂覆有透明导体，诸如氧化铟锡(“InSnO”或“ITO”)。通常，触摸屏显示器的一侧可涂覆有导电材料。可将电压施加到导电材料部分，从而产生均匀的电场。当诸如人的手指、触笔或任何其他导电介质的导电物体接触非导电侧、通常是显示屏312的外表面时，可在物体与导电材料之间形成电容。处理器202可能够确定与检测到电容变化的位置相关联的触摸屏的位置，并且可将触摸输入登记为在所述位置处发生。

在一些实施方案中，显示屏312可包括多个层，诸如顶部涂层、驱动线层、感测层和玻璃基底层。如前所述，玻璃基底层可对应于绝缘体部分，而顶部涂层可涂覆有一种或多种导电材料。驱动线层可包括多根驱动线，并且感测层可包括多根感测线，这在下文更详细地描述。本领域普通技术人员将认识到，可包括一个或多个附加层或层之间的空间。此外，本领域普通技术人员将认识到可使用分别用于驱动线层和感测层的任何数量的驱动线和感测线。

在一些实施方案中，驱动线层和感测线层的驱动线和感测线可分别形成多个交叉点，其中每个交叉点用作其自己的电容器。每根感测线可耦合到来源，使得向每根感测线提供电荷，并且因此特定驱动线和感测线的电容的变化是可检测的。响应于使导电物体接近或基本接触顶部涂层的外表面，特定电容器(例如，交叉点)的互电容可在大小上减小。换句话说，可在显示屏312上对应于导电物体接触显示屏312的位置的位置处检测到电压降。

可测量电容的变化以确定触摸屏上物体已接触表面的位置。例如，如果个人触摸显示屏312上的点，则可标识在所述点处相交的对应的驱动线和感测线。所述点的位置可具有与所述位置相关联的一个或多个像素，并且因此可为在所述位置处显示的一个或多个项登记一个或多个动作。电子设备100a的处理器302可被配置成确定哪些像素与特定位置点相关联，以及哪个或哪些项也在所述像素位置处显示。此外，电子设备100a可被配置成基于触摸输入的持续时间和或如果检测到一个或多个附加触摸输入来使一个或多个附加动作发生在显示在显示屏312上的一个或多个项上。例如，可在稍后的时间点确定在第一位置处接触显示屏312的物体在第二位置处接触显示屏312。在说明性实例中，物体可能最初在第一位置处接触显示屏312，并且沿着特定的驱动线移动到第二位置。在这种情境下，同一驱动线可能已检测到对应于两条单独的感测线的两个位置之间的电容的变化。

驱动线和感测线的数量以及因此交叉点的数量可直接与触摸屏的“分辨率”相关。例如，交叉点的数量越多(例如，驱动线和感测线的数量越多)，触摸输入的精度越高。例如，具有100条驱动线和100条感测线的触摸屏显示屏312可具有100个交叉点以及因此100个单独的电容器，而具有10条驱动线和10条感测线的触摸屏显示屏212可仅具有10个交叉点以及因此10个单独的电容器。因此，具有100个交叉点的触摸屏的分辨率可大于具有10个交叉点的触摸屏的分辨率。换句话说，与具有10个交叉点的触摸屏相比，具有100个交叉点的触摸屏可能够以更高的精度分辨触摸所述触摸屏的物体的位置。然而，由于驱动线和感测线需要向其施加电压，因此这也可能意味着存在由电子设备100汲取的更大量的功率，并且因此使用的驱动线和/或感测线越少，操作触摸屏显示器所需的功率量越小。

在一些实施方案中，显示屏312可对应于高清(“HD”)显示器。例如，显示屏312可显示720p、1080p、1080i或任何其他图像分辨率的图像和/或视频。在这些特定情境中，显示屏312可包括被配置成显示一种或多种分辨率的图像的像素阵列。例如，720p显示器可呈现分别具有786,432、921,600或1,049,088个像素的1024乘768、1280乘720或1366乘768的图像。此外，1080p或1080i显示器可呈现具有2,073,600个像素的1920像素乘1080像素的图像。然而，本领域普通技术人员将认识到，前述显示比率和像素数仅是示例性的，并且任何合适的显示分辨率或像素数可用于显示屏312，诸如非HD显示器、4K显示器和/或超高清显示器。

在一些实施方案中，电子设备100a可包括一个或多个相机314，其对应于能够捕获一个或多个图像和/或视频的任何一个或多个合适的图像捕获部件。在一些实施方案中，相机314可被配置成捕获照片、照片序列、快速拍摄(例如，在相对较小的持续时间内顺序捕获的多张照片)、视频或任何其他类型的图像或者它们的任何组合。在一些实施方案中，电子设备100a可包括多个相机314，诸如一个或多个前置相机和/或一个或多个后置相机。此外，相机314可被配置成识别远场成像(例如，位于远离电子设备100a较大距离的物体)或近场成像(例如，位于距离电子设备100a相对较小距离的物体)。在一些实施方案中，相机可为高清(“HD”)相机，其能够以相当大的分辨率(例如726p、1080p、1080i等)获得图像和/或视频。在一些实施方案中，相机214对于电子设备100a可为可选的。例如，相机314可在电子设备100a的外部并且与之通信。例如，外部相机可能够捕获图像和/或视频，随后可将其提供给电子设备100a以便进行查看和/或处理。

本领域普通技术人员将认识到，在一些实施方案中，显示屏312和/或相机314对于电子设备100a可为可选的。例如，电子设备100a可使用音频输入并且输出音频来运行，并且因此显示屏312和/或相机314可不包括在内。此外，在一些实施方案中，电子设备100a可不包括显示屏312和/或相机314，而是可与显示屏312和/或相机314通信。例如，电子设备100a可经由Wi-Fi(例如802.11协议)连接而连接到显示屏，使得发送到电子设备100a的可视内容可发送到显示屏并且从而输出。

在一个示例性实施方案中，电子设备100a可包括附加的输入/输出(“I/O”)接口。例如，电子设备100a可包括能够接收用户输入的一个或多个输入部件。各种类型的输入部件可包括但不限于键盘、按钮、开关、鼠标、操纵杆，或者外部控制器可用作用于I/O接口的输入机构。在一些实施方案中，电子设备100a的I/O接口的输出部分可包括一个或多个灯、发光二极管(“LED”)或者其他视觉指示器。本领域普通技术人员将认识到，在一些实施方案中，I/O接口的输出部分的一个或多个特征可包括在电子设备100a的纯语音激活版本中。例如，一个或多个LED灯可包括在电子设备100a上，使得当传声器308接收音频时，一个或多个LED灯被点亮，从而代表音频已由电子设备100a接收。在一些实施方案中，一个或多个振动机构或其他触觉特征可包括在电子设备100a内，以向个人提供触觉响应。

在一些实施方案中，电子设备100a可包括射频标识(“RFID”)功能和/或近场通信(“NFC”)功能。此外，在一些实施方案中，电子设备100a可包括一个或多个红外(“IR”)传感器以及一个或多个IR发射器。IR传感器/发射器可用于确定深度信息。例如，在一些实施方案中，可使用一个或多个IR传感器/发射器来确定个人距电子设备100a的距离。可使用任何深度确定技术来执行深度确定。在一些实施方案中，可采用个人与电子设备100a之间的距离作为用于使用显示屏312呈现密度变化的内容的基础。例如，当个人与电子设备100a相距距离A时，电子设备100a可显示当天的天气数据。然而，随着用户更靠近电子设备100a移动，诸如在距电子设备100a的距离B(可能小于距离A)处，电子设备100a可显示当前一周的天气数据。例如，随着个人越来越靠近电子设备100a，个人看到较密集内容的能力增强，并且随着个人更远离电子设备100a移动，个人看到较密集内容的能力降低。例如，这可确保由电子设备100a显示的内容是连续相关的并且可由个人读取。

在非限制性示例性实施方案中，计算系统300可包括言语处理系统350。然而，在其他实施方案中，言语处理系统350可与计算系统300分离或与计算系统通信。通常，在一些实施方案中，言语处理系统350可包括能够从一个或多个电子设备(诸如电子设备100a)接收内容并向其发送内容的一个或多个远程设备。言语处理系统350可包括各种部件和模块，包括但不限于ASR模块358、NLU模块360、speechlet模块362、TTS模块364、以及用户账户模块368。在一些实施方案中，言语处理系统350还可包括计算机可读介质，包括但不限于闪存存储器、随机存取存储器(“RAM”)和/或只读存储器(“ROM”)。言语处理系统350还可包括存储用于言语处理系统350的软件、硬件、逻辑、指令和/或命令的各种模块，诸如扬声器标识(“ID”)模块或任何其他模块，或者它们的任何组合。

ASR模块358可被配置成识别检测的音频中的人类言语，诸如由传声器308捕获的音频，随后可将所述音频传输到言语处理系统350。在一些实施方案中，ASR模块358可包括一个或多个处理器352、存储装置/存储器354和通信电路356。在一些实施方案中，处理器352、存储装置/存储器354和通信电路356可基本上类似于上文更详细描述的处理器302、存储装置/存储器304和通信电路306，并且前述描述可适用。在一些实施方案中，ASR模块358可包括言语转文本(“STT”)模块366。STT模块366可采用各种言语转文本技术。然而，用于将言语转录成文本的技术在本领域中是众所周知的，并且在此无需进一步详细描述，并且任何合适的计算机实现的言语转文本技术都可用于将接收的音频信号转换成文本，诸如可从总部位于英国英格兰剑桥的Autonomy公司获得的SOFTSOUND言语处理技术。

ASR模块358可包括表达检测器，所述表达检测器分析由言语处理系统350接收的音频信号，诸如上文关于电子设备100a提到的表达检测器。作为实例，可使用关键字检出技术来实现这种表达检测器。关键字检出器是功能部件或算法，其评估音频信号以检测音频信号内的诸如密码短语或其他声音数据的预定义单词或表达的存在。关键字检出器生成真/假输出(例如，逻辑1/0)以指示在音频信号中是否表示预定义的单词或表达，而不是产生言语单词的转录。在一些实施方案中，表达检测器可被配置成分析音频信号以产生分数，所述分数指示唤醒词或短语在音频信号内表示的可能性。表达检测器可随后将所述分数与阈值进行比较，以确定唤醒词或短语是否将被声明为已说出。

NLU模块360可被配置成使得其基于接收的音频数据来确定用户意图。例如，NLU模块360可确定图1中的话语4的意图是用于发起与和特定实体名称相关联的设备的通信会话(例如，与“巡航”发起通信会话)。响应于确定话语的意图，NLU模块360可将接收的命令传送到speechlet模块362上的适当的主题服务器或技能，以执行一个或多个任务和/或检索适当的响应或响应信息。NLU模块360可包括处理器352、存储装置/存储器354和通信电路356，它们在一些实施方案中可基本上类似于电子设备100a的处理器302、存储装置/存储器304和通信电路306，并且前述描述可适用。

Speechlet模块362可例如对应于各种动作特定的系统或服务器，有时称为“技能”，其能够处理各种任务特定的动作。Speechlet模块362可进一步对应于能够执行各种任务或动作的第一方应用和/或第三方应用。例如，基于从电子设备100a接收的音频的内容，言语处理系统350可使用某种功能来生成响应或者获得响应信息，进而可将响应信息传达回电子设备100a。例如，话语可能要求与另一个人进行通信(并且那个人可能与由实体名称表示的用户账户相关联)，并且因此，speechlet模块362可访问通信系统328(或者在一些实施方案中，第三方消息传递应用)，以获得与用户账户以及与和电子设备100a相关联的用户账户相关联或属于所述用户账户的设备相关的联系信息。Speechlet模块362还可包括处理器352、存储装置/存储器354和通信电路356。

TTS模块364可采用各种文本转言语技术。然而，用于将言语转录成文本的技术在本领域中是众所周知的，并且在此无需进一步详细描述，任何合适的计算机实现的言语转文本技术都可用于将接收的音频信号转换成文本，诸如可从总部位于英国英格兰剑桥的Autonomy公司获得的SOFTSOUND言语处理技术。TTS模块364还可包括处理器352、存储装置/存储器354和通信电路356。

用户账户模块368可存储对应于在计算系统300上具有注册账户的用户的一个或多个用户配置文件。例如，父母可能在计算系统300上拥有注册账户，并且父母的每个孩子都可能在父母的注册账户下注册了自己的用户配置文件。例如，可将每个用户配置文件的信息、设置和/或偏好存储在用户配置文件数据库内。在一些实施方案中，用户账户模块368可存储用于特定用户配置文件的语音信号，诸如语音生物计量信息。这可允许说话者标识技术被用来匹配与特定用户配置文件相关联的语音到语音生物计量数据。在一些实施方案中，用户账户模块368可存储分配给特定用户配置文件的电话号码。

此外，在一些实施方案中，用户账户模块368可存储与特定用户账户和/或用户配置文件相关联的联系人。此外，在一些实施方案中，存储在用户账户模块中的联系人可包括电话号码(即，公共交换电话网(“PSTN”联系人)、与第三方消息传递网络相关联的用户名和其他信息、以及与第一方消息传递网络相关联的内部用户账户。此外，在一些实施方案中，用户账户模块368可存储属于特定用户账户和/或用户配置文件的设备。

在一些实施方案中，用户账户模块368可存储由用户分配的实体名称，以代表用户认为合适的任何昵称设备。例如，位于名为“Aaron”的家庭成员的卧室中的设备可能接收到实体名称“Aaron”、“Aaron’s Room”、“Aaron’s Echo”、“Aaron’s Echo Show”、“Aaron’sEcho Dot”、“Superstar”或者由用户分配以代表设备的任何其他实体名称。用户账户368还可存储与昵称设备相关联的用户列表。

在一些实施方案中，用户账户模块368可存储被分配来表示联系人和/或设备的任何组的实体名称。例如，用户可为他或她的家庭成员的PSTN联系人(即电话联系人)共同分配实体名称“Home”、“Family”或者任何其他实体名称。作为另一实例，用户可为属于他或她的用户账户(每个属于他/她自己和/或他/她的家庭成员)的设备共同分配实体名称“Home”、“Family”或者任何其他实体名称。作为另一实例，用户账户模块368可将PSTN联系人、设备和第一方消息传递联系人的组合共同存储为一个实体名称。

本领域普通技术人员将认识到，尽管ASR模块358、NLU模块360、speechlet模块362、TTS模块364和用户账户模块368中的每一个可各自包括处理器352、存储装置/存储器354和通信电路356的实例，并且ASR模块358、NLU模块360、speechlet模块362、TTS模块364和用户账户模块368中的每一个内的处理器352、存储装置/存储器354和通信电路356的那些实例可不同。例如，ASR模块358内的处理器352的结构、功能和样式可与NLU模块360内的处理器352的结构、功能和样式基本相似，然而实际的处理器352不必是同一实体。

图4展示了包括与设备的用户有关的数据的用户配置文件存储装置402。用户配置文件存储装置402可位于处理器/服务器352附近，或者否则可例如通过网络330与系统300的各种部件进行通信。用户配置文件存储装置402可包括与和系统300交互的各个用户、账户等相关的各种信息。在实例中，用户配置文件存储装置402是基于云的存储装置。为了说明，如图4所示，用户配置文件存储装置402可包括关于单个言语控制设备100a(或其他设备)的多名用户的数据。与言语控制设备100a相关联的用户配置文件中指示的每名用户可与对应于相应用户的训练说出话语的训练数据相关联，诸如下文讨论的训练数据705。此外或可替代地，在与言语控制设备100a相关联的用户配置文件中指示的每名用户可与对应于相应用户的训练数据的特征/矢量数据相关联。此外，每个用户可具有标识特定用户以便进行进一步系统处理的用户ID。

图5展示了执行以准备用于ASR模块358和用户识别的音频数据的处理。言语控制设备100a通过网络330将音频数据111发送到服务器352以便进行处理。服务器352可包括声学前端(AFE)110(或其他部件)，其对输入音频数据111执行各种功能以准备输入音频数据111以便进行进一步的下游处理，诸如ASR和/或用户识别。例如，AFE 110可对音频数据111执行(502)开窗功能，以创建帧音频数据503(例如，波形)。每个帧的大小可取决于实现方式。在实例中，每个帧可包括二十五(25)毫秒(m/s)的音频数据，具有数据的10ms的下一帧的重叠，从而导致音频数据的滑动窗口处理。执行开窗功能可包括将时间记录与幅度在其边缘处平滑且逐渐向零变化的有限长度窗口相乘。通过执行这些，音频数据的各个帧的波形的端点会合，从而导致没有尖锐过渡的连续波形。AFE 110随后可执行(504)快速傅立叶变换(FFT)，所述快速傅立叶变换将成帧的音频数据503的每个帧中的波形从其原始域(例如，时间)转换成频域中的表示(从而创建频域成帧音频数据505)。除了或除FFT之外的音频处理技术可用于将音频数据(例如，波形)转换成可根据需要进行处理的数据。

处理器/服务器352(通过AFE 110或使用另一部件)随后检测(510)在后FFT波形(即，频域成帧音频数据505)中是否存在语音活动(即，言语)。在这样做时，处理器/服务器352可执行上文讨论的VAD操作。VAD检测器510(或其他部件)也可以不同的顺序配置，例如VAD检测器510可对输入音频数据111进行操作而不是对频域成帧音频数据505进行操作，可对ASR特征进行操作等等。部件的各种不同的配置是可能的。如果音频数据中不存在言语，则处理器/服务器352丢弃频域成帧音频数据505(即，从处理流中删除音频数据)。相反，如果处理器/服务器352在频域成帧音频数据505中检测到言语，则处理器/服务器352对频域成帧音频数据505执行用户识别特征提取(508)。用户识别特征提取(508)可包括执行帧级特征提取和/或话语级特征提取。

帧级特征提取可确定所述帧对应于通用背景模型(UBM)的哪个帧。UBM可为高斯混合模型、深度神经网络等。话语级特征提取可分析对准的言语帧，以导出固定长度的特征矢量(即，用户识别特征/矢量数据509)。特征提取可继续，直到在输入音频数据中不再检测到语音活动为止，这时，处理器/服务器352可确定已到达相对于其处理的言语的端点。可对从言语控制设备100a接收的所有音频数据111执行ASR特征提取(506)。可替代地(未示出)，可仅对包括言语的音频数据执行ASR特征提取(506)(如VAD 510所指示)。ASR特征提取(506)和用户识别特征提取(508)涉及确定表示频域成帧音频数据505的质量的值(即特征)，连同将那些特征量化成值(即特征矢量或音频特征矢量)。ASR特征提取(506)可确定对ASR处理有用的ASR特征/矢量数据507，并且用户识别特征提取(508)可确定对用户识别有用的用户识别特征/矢量数据509。ASR特征/矢量数据507和用户识别特征/矢量数据509可为相同的特征/矢量、不同的特征/矢量，或者可包括一些重叠的特征/矢量。可使用多种方法从频域成帧音频数据505中提取特征/矢量，诸如MFCC、PLP技术、神经网络特征矢量技术、线性判别分析、半结合(semi-tied)协方差矩阵或者本领域技术人员已知的其他方法。

通常，ASR特征/矢量数据507可包括用于每个音频帧的不同的音频特征矢量。因此，对于一个25ms长的音频帧，ASR特征提取部件506可输出单个ASR特征矢量。由ASR特征提取部件506输出的ASR特征矢量507可输出到ASR模块358以执行言语识别。

取决于系统配置，用户识别特征提取部件508可输出多个用户识别特征矢量，例如用于每个音频帧的一个这种矢量。可替代地，用户识别特征提取部件508可在话语正在进行时(例如，在音频数据505中达到言语的端点之前)继续输入频域成帧音频数据505。当输入用于话语的音频数据505时，用户识别特征提取部件508可在音频数据505进入时累积或以其他方式组合音频数据。即，对于输入的特定帧大小的音频数据505，用户识别特征提取部件508可将所述帧大小的数据与针对特定话语接收的先前数据进行组合。累积的特定方法可能不同，包括使用运算部件、递归神经网络(RNN)、训练模型或者能够组合音频数据的其他部件。此外，由用户识别特征提取部件508执行的组合的形式可取决于确定哪种音频质量对于最终用户识别很重要。因此，可训练用户识别特征提取部件508以隔离和处理对于用户识别最有用的数据。用户识别特征提取部件508的输出因此可包括用户识别特征/矢量数据509，其包括用于对用户识别有用的特征的值。随后可将所得的用户识别特征/矢量数据509用于用户识别。

用户识别特征/矢量数据509可包括多个矢量，每个矢量对应于输入话语的不同部分。可替代地，用户识别特征/矢量数据509可为表示输入话语的音频质量的单个矢量。参考图6，如下所述，可使用编码器650来创建单个矢量，所述编码器可创建固定大小的矢量以表示音频数据实体的某些特性。用数学符号表示，给定特征数据值的序列x₁、...x_n、...x_N，其中x_n是D维矢量，编码器E(x₁，...x_N)＝y将特征序列投射到y，其中y是F维矢量。F是固定长度的矢量，并且可根据编码矢量的用途和其他系统配置来进行配置。如图6所示，特征值602至606(其可包括音频数据111、频域成帧音频数据505等的特征矢量)可输入到编码器650中，所述编码器将输出表示输入特征值的编码的特征矢量610。

VAD 510可为编码器650的输入，使得编码器650可仅在其中输入的特征值对应于言语时才操作。各个特征值(例如602至606)可对应于特定音频帧。不管输入多少个特征值，任何特定编码器650将被配置来输出相同大小的矢量，从而确保来自任何特定编码器650的输出编码矢量大小的连续性(尽管不同的编码器可输出不同固定大小的矢量)，并且能够比较不同的特征矢量y。值y可称为序列x₁、...、x_N的嵌入。和y的长度x_n是固定的且先验已知的，但是特征序列x₁、...、x_N的长度N不一定是先验已知的。编码器E可被实现为神经网络(NN)、递归神经网络(RNN)、GMM或其他模型。一个特定实例是长短期记忆(LSTM)RNN。编码器650有多种方式来消耗编码器输入，包括但不限于：

线性，一个方向(向前或向后)，

双线性，基本上是向前和向后嵌入的串联，或者

树，基于序列的分析树。

此外，可使用注意模型，所述注意模型是学习将注意力“吸引”到输入的某些部分的另一个RNN或深度神经网络(DNN)。注意模型可与上述消耗输入的方法结合使用。

图6展示了编码器650的操作。输入特征值序列，其从特征值x₁ 602开始、继续通过特征值x_n 604并且以特征值x_N 606结束，被输入到编码器650中。编码器650可如上所述地处理输入特征值。编码器650输出编码特征矢量y 610，其是长度为F的固定长度特征矢量。因此，用户识别特征提取部件508可包括编码器650，其接收用于特定话语的音频特征值作为输入，并且输出固定长度的编码特征矢量y 610，其可为用户识别特征/矢量数据509。因此，在某些系统配置中，无论话语多长，或者将多少特征值大小的声帧输入编码器650中，输出特征矢量610/509的长度都相同，从而允许通过用户识别模块更轻松地执行用户识别。为了允许稳健的系统操作，最终的矢量509可包括许多维度(例如，几百个)，从而提供许多数据点供下游考虑。

为了确定用户识别特征/矢量数据509，系统可(例如，使用VAD检测器510)确定在输入音频中检测到语音活动。这可指示话语的开始，从而导致系统确定输入话语在音频数据的第一点处开始。音频处理(例如通过开窗502、FFT 504、ASR特征提取506、用户识别特征提取508、ASR模块355等)可在话语音频数据上从第一点开始并且一直持续到VAD检测器510确定在音频数据的第二点处未检测到语音活动为止。因此，系统可确定输入话语在第二点处结束。因此，第一点可认为是话语的起点，并且第二点可认为是话语的端点。当检测到起点和/或端点时，VAD检测器510或其他部件可向用户识别特征提取部件508发信号，使得用户识别特征提取部件508可开始处理从起点开始并且在端点结束的音频数据。此外，在话语期间不包括言语的音频帧可由VAD检测器510过滤掉，并且因此ASR特征提取506和/或用户识别特征提取508不考虑它。随后可在用于用户验证特征/矢量数据509的单个特征矢量中表示针对话语(从起点到端点)的所得的累积/处理的言语音频数据，随后可将所述数据509用于用户识别。

图7展示了由处理器/服务器352执行的用户验证。如上所述，ASR模块358对ASR特征/矢量数据507执行ASR。如上所述，NLU模块360随后处理ASR输出(即，文本数据367)。随后可将ASR置信度数据707传递给用户识别模块702。

处理器/服务器352的用户识别模块702使用各种数据执行用户识别，包括用户识别特征/矢量数据509和训练数据705(所述数据可对应于与已知用户相对应的样本音频数据)、ASR置信度数据707、以及辅助数据709。用户识别模块702可随后输出反映出输入话语由一名或多名特定用户说出的某种置信度的用户识别置信度数据711。用户识别置信度数据711可不指示用户的访问权。用户识别置信度数据711可包括验证的用户的指示符(诸如对应于话语的说话者的用户ID)连同对应于用户ID的置信度值，诸如如下所述的数值或分区值(binned value)。

训练数据705可存储在用户识别数据存储装置704中。用户识别数据存储装置704可由处理器/服务器352存储，或者可为单独的设备。此外，用户识别数据存储装置704可为用户配置文件存储装置402的一部分。用户识别数据存储装置704可为基于云的存储装置。存储在用户识别数据存储装置704中的训练数据705可被存储为波形和/或对应的特征/矢量。训练数据705可对应于来自各种音频样本的数据，每个音频样本与已知用户和/或用户身份相关联。例如，系统已知的每个用户可与用于已知用户的某一组训练数据705相关联。用户识别模块702可随后使用训练数据705来与输入的音频数据(由用户识别特征/矢量数据509表示)进行比较，以确定说出话语的用户的身份。存储在用户识别数据存储装置704中的训练数据705可因此与多个设备的多个用户相关联。因此，存储在存储装置704中的训练数据705可与说出相应话语的用户以及捕获相应话语的言语控制设备100a两者相关联。

用于特定用户的训练数据705可包括与用户识别特征/矢量数据509的矢量大小相同的特征矢量。因此，例如，如果特征矢量509的大小为F(例如，由编码器650编码)，则训练数据705也可为大小为F的特征矢量。为了创建这种训练数据特征矢量，在训练时段期间，系统可提示用户说出样本音频数据，或者可标识已知已由特定用户说出的样本音频数据。系统可随后处理样本音频数据(例如，处理成特征值，诸如602至606，并且随后通过编码器650)，以创建样本训练数据705(例如，大小为F的特征矢量)。训练数据705可随后由系统存储(诸如存储在数据存储装置704中)，并且保存以供在用户验证处理运行时期间使用。

为了执行用户识别，用户识别模块702可确定音频数据111所源自的言语控制设备100a。例如，音频数据111可包括指示言语控制设备100a的标签。言语控制设备100a或处理器/服务器352可这样标记音频数据111。指示言语控制设备100a的标签可与从音频数据111产生的用户识别特征/矢量数据509相关联。用户识别模块702可将信号发送到用户识别数据存储装置704，其中所述信号仅请求与音频数据111所源自的言语控制设备100a的已知用户相关联的训练数据705。这可包括访问与言语控制设备100a相关联的用户配置文件，并且随后仅输入与对应于设备100a的用户配置文件的用户相关联的训练数据705。这限制了识别模块702在验证用户时的运行时下应当考虑的可能的训练数据的范围，并且从而通过减少需要处理的训练数据705的量来减少执行用户识别的时间的量。可替代地，用户识别模块702可访问系统可用的所有训练数据705(或者其某一其他子集)。然而，访问所有训练数据705将可能增加基于将要处理的大量训练数据执行用户识别所需的时间的量。

如果用户识别模块702接收训练数据705作为音频波形，则用户识别模块702可确定波形的特征/矢量，或者否则将波形转换成可由用户识别模块702使用的数据格式，以实际执行用户识别。用户识别模块702可随后通过将用户识别特征/矢量数据509的特征/矢量与训练的特征/矢量(无论是从存储装置704接收的还是通过从存储装置704接收的训练数据705确定的)进行比较来识别说出音频数据111中的话语的用户。

用户识别模块702可包括评分部件722，所述评分部件确定相应的分数，所述分数指示特定用户(由训练数据705表示)是否说出输入话语(由用户识别特征/矢量数据509表示)。用户识别模块702还可包括置信度部件724，所述置信度部件确定总体置信度作为用户识别操作(诸如评分部件722的那些)的准确性和/或可能由评分部件722标识的每个用户的个人置信度。来自评分部件722的输出可包括针对其为所有用户(例如，与言语控制设备100a相关联的所有用户)执行用户识别的分数。例如，输出可包括针对第一用户的第一分数、针对第二用户的第二分数、以及针对第三用户的第三分数等等。尽管示出为两个单独的部件，但是评分部件722和置信度部件724可组合成单个部件，或者可分离成多于两个部件。

评分部件722和置信度部件724可实现本领域已知的一种或多种训练的机器学习模型(诸如神经网络、分类器等)。例如，评分部件722可使用概率线性判别分析(PLDA)技术。PLDA评分确定输入的用户识别特征矢量509对应于特定用户的特定训练数据特征矢量705的可能性。PLDA评分可为所考虑的每个训练特征矢量生成相似度分数，并且可输出分数列表和用户和/或说话者的用户ID，其训练数据特征矢量最接近对应于话语的输入用户识别特征矢量509。评分部件722还可使用其他技术(诸如GMM、生成贝叶斯模型等)来确定相似度分数。

置信度部件724可输入各种数据，包括关于ASR置信度707、话语长度(例如，话语的帧数或时间)、音频条件/质量数据(诸如信号干扰数据或者其他度量数据)、指纹数据、图像数据或者其他因素的信息，以考虑用户识别模块702关于将用户链接到输入话语的分数的置信度。置信度部件724还可考虑由评分部件722输出的相似度分数和用户ID。因此，置信度部件724可确定较低的ASR置信度707或不良的输入音频质量或者其他因素可能导致用户识别模块702的较低的置信度。而较高的ASR置信度707或较好的输入音频质量或者其他因素可能导致用户识别模块702的较高的置信度。置信度的精确确定可取决于置信度部件724及其中使用的模型的配置和训练。置信度部件724可使用多种不同的机器学习模型/技术(诸如，GMM、神经网络等)进行操作。例如，置信度部件724可为被配置成将由评分部件722输出的分数映射到置信度的分类器。

用户识别模块702可输出特定于单个用户的用户识别置信度数据711。用户识别置信度数据711可包括特定分数(例如，0.0至1.0、0至1000或者系统被配置成操作的任何量度范围)。可替代地或此外，用户识别置信度数据711可包括分区的识别指示符。例如，可将计算的第一范围的识别分数(例如0.0至0.33)输出为“低”，可将计算的第二范围的识别分数(例如0.34至0.66)输出为“中等”，并且可将计算的第三范围的识别分数(例如0.67至1.0)输出为“高”。组合的分区和置信度分数输出也是可能的。用户识别模块702还可输出分数/分区正确的置信度值，其中所述置信度值指示用户识别模块702对输出结果的置信度。所述置信度值可由置信度部件724确定。

置信度部件724可在确定用户识别置信度数据711时确定各个用户置信度以及用户置信度之间的差异。例如，如果第一用户的置信度分数与第二用户的置信度分数之间的差异较大，并且第一用户的置信度分数高于阈值，则用户识别模块702能够将第一用户识别为说出话语的用户，与用户的置信度之间的差异较小的情况相比具有高得多的置信度。

用户识别模块702可执行某些阈值分割，以避免输出不正确的用户识别结果。例如，用户识别模块702可将由置信度部件724输出的置信度分数与置信度阈值进行比较。如果置信度分数不高于置信度阈值(例如，“中等”或更高的置信度)，则用户识别模块702可不输出用户识别置信度数据711，或者可仅在所述数据711中包括说出话语的用户无法验证的指示。此外，用户识别模块702可能不输出用户识别置信度数据711直到累积并处理了足够的用户识别特征/矢量数据509以识别高于阈值置信度的用户为止。因此，用户识别模块702可等待直到话语的音频数据的足够的阈值量已在输出用户识别置信度数据711之前被处理。置信度部件724还可考虑接收的音频数据的量。

用户识别模块702可默认为输出分区的(例如，低、中、高)用户识别置信度数据711。然而，从应用服务器125的角度来看，这可能是有问题的。例如，如果用户识别模块702为多名用户计算单个分区置信度，则应用服务器125可能无法确定相对于哪个用户来确定内容。在这种情况下，用户识别模块702可被配置成覆盖其默认设置，并且输出用户识别置信度数据711，所述数据包括与和相同分区置信度相关联的用户相关联的数值(例如0.0至1.0)。这使得应用服务器125能够选择与和最高置信度值相关联的用户相关联的内容。用户识别置信度数据711还可包括对应于说出话语的潜在用户的用户ID。

NLU结果357可响应于说出的话语而调用有权访问内容的多个应用服务器125。处理器/服务器352可与应用服务器125中的一个或多个通信，而不必使用网络330。可替代地，处理器/服务器352可通过网络330与应用服务器125中的一个或多个通信。

每个应用服务器125可具有在应用服务器125响应于音频数据111中的说出的话语而提供内容之前必须满足的相应的用户识别置信度阈值。应用服务器125可单独地将对用户识别数据的请求发送到用户识别模块702。每个请求可包括请求源自其/从其发送请求的应用服务器125的用户识别置信度阈值。可替代地，处理器/服务器352的部件可编译由说出的话语调用的所有应用服务器125的用户识别置信度阈值，并且可在单次传输中将所有用户识别置信度阈值发送给用户识别模块702。用户识别置信度阈值可采用数字置信度值(例如，0.0至1.0、0至1000)或置信度指示符(例如，低、中、高)的形式。发送给用户识别模块702的所有用户识别置信度阈值可为置信度值，发送给用户识别模块702的所有用户识别置信度阈值可采用置信度指示符的形式，或者发送给用户识别模块702的一些用户识别置信度阈值可采用置信度值的形式而其他用户识别置信度阈值采用置信度指示符的形式。

用户识别模块702可针对与言语控制设备100a相关联的配置文件中指示的所有用户来确定用户识别置信度数据711。用户识别模块702可随后确定一个或多个用户是否与满足最严格(例如，最高)接收的用户识别置信度阈值的用户识别置信度数据711相关联。如果用户识别模块702确定单个用户与满足或超过最高用户识别置信度阈值的用户识别置信度数据711相关联，则用户识别模块702将用户识别置信度数据711发送到从其接收用户识别置信度阈值的应用服务器125。

如果用户识别模块702没有确定与满足或超过最高用户识别置信度阈值的用户识别置信度数据711相关联的用户，则用户识别模块702可使言语控制设备100a(和/或在与言语控制设备的配置文件中指示的用户相关联的配置文件中指示的不同的设备)收集可用于用户识别的附加数据。这种附加数据可包括例如可用于面部识别的图像数据或视频数据。这种附加数据还可包括生物计量数据，诸如使用视网膜扫描仪捕获并用于视网膜验证的视网膜图像数据。此外，这种附加数据可包括生物计量数据，诸如使用指纹扫描仪捕获并用于指纹验证的指纹数据。也可使用其他用户标识数据。用户识别模块702可使用附加数据执行用户识别，直到用户识别模块702确定与满足或超过最高用户识别置信度阈值的用户识别置信度数据711相关联的单个用户(在与言语控制设备100a相关联的配置文件中指示)为止。同样，如果用户识别模块702确定与满足或超过最高用户识别置信度阈值的用户识别置信度数据711相关联的多于一名用户，则用户识别模块702使用附加数据(如上所述)以执行用户识别，直到仅单个用户与满足或超过最高用户识别置信度阈值的用户识别置信度数据711相关联。

此外，用户识别模块702可使用辅助数据709来通知用户识别处理。因此，当执行识别时，用户识别模块702的训练模型或其他部件可被训练来将辅助数据709作为输入特征。辅助数据709可取决于系统配置而包括各种各样的数据类型，并且可从其他传感器、设备或存储装置获得，诸如用户配置文件数据等。辅助数据709可包括捕获音频数据的当日时间、捕获音频数据的一周中的一天、文本数据367和/或NLU结果357。

处理器/服务器352可从用户本地的各种设备(例如，言语控制设备100a、智能电话、生物计量传感器等)接收辅助数据709。接收的辅助数据709可取决于用户环境的情况。例如，如果多个个人位于设备附近(例如，如由位于相机314的视野内的多个个人所确定的，或者基于在由传声器308捕获的音频数据中检测到的多个个人的语音所确定的)，处理器/服务器352可接收对应于密码、生物计量内容或者可能不会由其他个人监听/监视的其他内容的辅助数据709。可经由智能设备(诸如智能电话、平板计算机等)的触摸界面来提供密码。生物计量内容可为由指纹扫描仪捕获的指纹、由视网膜扫描仪捕获的视网膜的图像等。在另一个实例中，如果多个个人位于用户周围，则辅助数据709可仅是密码的一部分。用户配置文件可指示字母数字密码，并且处理器/服务器352(或者另一设备)可仅从用户请求密码的一部分(例如，第三位)。如果确定存在多个个人，则这些技术可能是有益的，因为它允许用户提供有用的验证数据，而无需用户将机密信息泄露给未授权的个人。

辅助数据709的每种形式(例如，用于视网膜验证的图像数据、密码数据等)可与相应的分数/权重相关联，或者通常，确定的置信度数据711可取决于辅助数据的可用形式及其相应分数(如果有的话)。例如，使用视网膜扫描数据执行的用户识别可增加置信度数据，但是增加的量可取决于与视网膜扫描数据相关联的分数(例如，来自产生视网膜扫描数据的视网膜扫描部件的分数)。因此，应当理解，不同形式的辅助数据709可不同地影响用户识别确定。

与每个用户相关联的配置文件可包括参考辅助数据(即，参考视网膜图像数据、参考指纹图像数据等)，出于用户识别的目的，将捕获的辅助数据709与参考辅助数据进行比较。此外，每个用户配置文件可包括与每种类型的辅助数据709相关联的可靠性权重信息。可靠性权重信息可特定于被配置成捕获辅助数据的设备。例如，如果用户具有两个不同的视网膜扫描仪，则第一视网膜扫描仪可能与第一可靠性权重相关联，并且第二视网膜扫描仪可能与第二可靠性权重相关联。如果用户识别模块702确定不满足最严格的用户识别置信度阈值的初始用户识别置信度数据711，则用户识别模块702可使辅助数据709随后被捕获，并且可使用辅助数据709来确定更新的用户识别置信度数据711。

在一个实例中，辅助数据709可包括图像数据或视频数据。例如，可对从言语控制设备100a接收的图像数据或视频数据执行面部识别，从所述言语控制设备接收音频数据111。面部识别可由用户识别模块702或处理器/服务器352的另一个部件来执行。面部识别过程的输出可由用户识别模块702使用。即，面部识别输出数据可结合音频数据111和训练数据705的特征/矢量的比较一起使用，以执行更准确的用户识别。因此，虽然训练数据705可基于用户的言语样本，但是训练数据705也可基于其他数据，诸如对应于用户的已知图片的图像数据、对应于用户的视网膜扫描数据、指纹数据等。

辅助数据709也可包括言语控制设备100a的位置数据。位置数据可特定于言语控制设备100a所位于的建筑物。例如，如果言语控制设备100a位于用户A的卧室中，则此位置可能会增加与用户A相关联的用户识别置信度数据，但是会减少与用户B相关联的用户识别置信度数据。

辅助数据709可进一步包括指示言语控制设备100a的类型的类型数据。不同类型的言语控制设备可包括例如智能手表、智能电话、平板计算机和车辆。可在与言语控制设备100a相关联的配置文件中指示言语控制设备100a的类型。例如，如果从其接收音频数据111的言语控制设备100a是属于用户A的智能手表或车辆，则言语控制设备100a属于用户A的事实可能会增加与用户A相关联的用户识别置信度数据，但是会减少与用户B相关联的用户识别置信度数据。

辅助数据709可此外包括与言语控制设备100a相关联的地理坐标数据。例如，与车辆相关联的配置文件可指示多名用户(例如，用户A和用户B)。车辆可包括全球定位系统(GPS)，所述全球定位系统指示当音频数据111由车辆捕获时车辆的纬度和经度坐标。同样地，如果车辆位于对应于用户A的工作地点/建筑物的坐标处，则这可增加与用户A相关联的用户识别置信度数据，但是减少在与车辆相关联的配置文件中指示的所有其他用户的用户识别置信度数据。可在与言语控制设备100a相关联的用户配置文件中指示全局坐标和相关联的位置(例如，工作、家等)。全局坐标和相关联的位置可与用户配置文件中的相应用户相关联。

辅助数据709还可包括关于特定用户的活动的其他数据/信号，其对于执行输入话语的用户识别可能是有用的。例如，如果用户最近输入了禁用家庭安全警报的代码，并且话语对应于家中的设备，则来自家庭安全警报的关于禁用用户、禁用时间等的信号可反映在辅助数据709中，并且由用户识别模块702考虑。如果检测到已知与特定用户相关联的移动设备(诸如电话、Tile、软件狗或其他设备)接近(例如，在物理上接近、连接到相同的Wi-Fi网络或者否则在附近)言语控制设备100a，这可反映在辅助数据709中并且由用户识别模块702考虑。

取决于系统配置，辅助数据709可被配置成包括在用户识别特征/矢量数据509的矢量表示中(例如，使用编码器650)，使得与将通过评分部件722来处理的话语有关的所有数据可包括在单个矢量中。可替代地，辅助数据709可反映在将通过评分部件722来处理的一个或多个不同的数据结构中。

如图7所示，ASR模块358可输出文本数据367，所述文本数据进而由NLU部件360处理。由NLU模块360执行的NLU处理的结果357以及由用户识别模块702输出的用户识别置信度数据711可发送到由应用服务器125表示的一个或多个应用。NLU结果357和用户识别置信度数据711可经由应用程序接口(API)同时(即，以单次传输)发送到应用服务器125。可替代地，NLU结果357和用户识别置信度数据711可经由API以连续传输发送到应用服务器125。接收NLU结果357和用户识别置信度分数数据711的应用服务器125可由处理器/服务器352确定为对应于响应于音频数据111中的话语的内容。例如，如果音频数据111包括话语“播放我的音乐”，则可将NLU结果357和用户识别置信度数据711发送到音乐播放应用服务器125。如果与单个用户相关联的用户识别置信度数据711被传递到应用服务器125，则应用服务器125可标识响应于话语并且与用户相关联的内容。相反，如果与多名用户相关联的用户识别置信度分数数据711被传递到应用服务器125，则应用服务器125可标识响应于话语并且与和最高识别置信度相关联的用户相关联的内容。

用于将用户识别置信度数据711传递到应用服务器125的API可允许应用服务器125接收各种信息，诸如用户ID以及对应于用户ID的置信度值，诸如如本文讨论的数值或分区值。API还可传递对应于或表示置信度值诸如本文讨论的分区值的数据，或其他数据、数字或者以其他方式表示置信度。API还可传递其他数据，诸如用户识别数据的来源(例如，系统是否使用言语分析、密码、密码短语、指纹、生物计量数据等或者它们的某种组合来识别用户)。API还可传递数据，诸如其他用户配置文件信息、言语会话标识符(使得各个部件可跟踪对应于所述数据的言语会话)或者其他信息。言语会话标识符可对应于用户说出的话语和/或对应于系统与用户之间正在进行的交换(诸如多个话语的对话)以交换用于执行命令的信息。API或一个或多个其他API还可用于交换从应用服务器125发送到用户识别模块702的用户识别置信度阈值以及其他数据，诸如用户识别数据的请求的特定来源、用户ID、言语会话ID、请求的内容数据或者出于处理言语命令/会话的目的将要交换的其他信息。

各种机器学习技术可用于训练和操作模型以执行上述各种步骤，诸如用户识别特征提取、编码、用户识别评分、用户识别置信度确定等。可根据各种机器学习技术来训练和操作模型。此类技术可包括例如神经网络(诸如深度神经网络和/或递归神经网络)、推理引擎、训练分类器等。训练分类器的实例包括支持矢量机(SVM)、神经网络、决策树、与决策树组合的AdaBoost(简称“自适应提升”)以及随机森林法。以SVM为例，SVM是利用相关联的学习算法的监督学习模型，其分析数据并识别数据中的模式，并且通常用于分类和回归分析。给定一组训练实例，每个实例被标记为属于两种类别之一，SVM训练算法构建将新实例分配到一种类别或另一种类别的模型，从而使其成为非概率二元线性分类器。可利用标识多于两种类别的训练集来构建更复杂的SVM模型，其中SVM确定哪种类别与输入数据最相似。可映射SVM模型，以便通过明确的间隙来划分单独类别的实例。随后将新的实例映射到该同一空间，并且基于它们所处的间隙的侧来预测属于一种类别。分类器可发出“分数”，从而指示数据最匹配的类别。分数可提供数据与类别匹配程度的指示。

为了应用机器学习技术，需要训练机器学习过程本身。在这种情况下，训练机器学习部件，诸如第一模型或第二模型之一，需要为训练实例建立“基础事实”。在机器学习中，术语“基础事实”是指用于监督学习技术的训练集的分类的准确性。可使用各种技术来训练模型，包括反向传播、统计学习、监督学习、半监督学习、随机学习或其他已知技术。

在创建/发布用户特定内容之前，不同的内容来源可能需要满足不同的用户识别置信度水平阈值。例如，如果用户说出“我的银行账户余额是多少”，系统的输出最终可能是“你好，John，您的银行A账户余额为$500”。输出中对应于“你好，John”的部分可为由需要满足“低”用户识别置信度阈值的TTS内容来源创建的，因为从机密性的角度来看，在问候语中可能说错了用户名不一定是有问题的。相比之下，可使用来自需要满足用户识别置信度阈值“高”的银行内容来源(例如，应用服务器125)的输出来创建对应于“您的银行A账户余额为$500”的输出的部分，因为从机密性的角度来看，将用户的银行和账户余额泄露给错误的用户是很有问题的。

此外，基于将要发布的内容的类型/种类，单个内容来源可能需要满足不同的用户识别置信度水平阈值。例如，银行应用可被配置成创建/发布银行分行信息(例如，分行位置和操作时间)。银行应用还可被配置成发布银行账户信息。银行应用可能要求满足“低”的用户识别置信度水平来发布银行分行信息，但是可能要求满足“高”的用户识别置信度水平来发布用户特定的银行账户信息。

图8是根据本文公开的原理的用于向个人用户提供新闻简讯的过程800的说明图。如上所述，尽管出于说明的目的在本文中提供新闻简讯作为代表性实例，但是本文公开的原理能够并且确实适用于从各种各样来源提供的各种各样内容，诸如纯音频、纯视频、音频-视频、文本的呈现等。可以一种方式提供定期更新的任何内容，从而可应用本文所述的系统和方法来使得用户能够返回以便稍后播放内容，从而系统可提供未播放的内容，同时自动跳过已播放的内容。过程800可在步骤802中开始，由此可接收对新闻简讯的请求。如上文简要描述的，电子设备100a(除了包括在其中的传声器和扬声器之外，可包括或可不包括显示屏)被配置成监听话语直到接收到唤醒词为止。那时，话语被转换成表示话语的数字音频数据，并且数字音频数据被经由诸如Wi-Fi接口的网络接口330通过互联网从电子设备100a传递到语言处理系统300。一旦语言处理系统通过ASR和NLU处理已确定话语的意图是请求新闻简讯，则步骤802完成，并且可开始新闻简讯过程。

在步骤804中，根据本文描述和讨论的技术创新，关于特定用户(诸如图1A和图1B所示的个人1和3)是否已在当天(考虑的相关的时间范围可变化，例如它可在过去一周内、过去几天内、过去几个小时内等)早些时候听过新闻简讯来作出确定。如果用户尚未听过新闻简讯，则可在步骤806中开始播放完整的新闻简讯。如果用户已听过新闻简讯，则在步骤808中，系统可尝试确定特定用户已为新闻简讯启用哪些简讯频道。如上所述，如果特定用户也已注册语音识别并且启用了所述特征，则系统可从话语中快速识别出用户，并且访问所述用户的配置文件，以便确定所述用户的用于接收新闻简讯的特定配置和设置。

一旦已确定各个频道(例如，在图1A和图1B所示的实例中，来源将是来源1、来源2、来源3和来源4)，在步骤810中，评估每个频道以便确定“未播放”简讯，并且系统还可确定每个频道中最早的“未播放”简讯，以便尝试确定该特定的新项是否可能过时。在步骤812中，可回放各个新闻项，使得可在移动到不同的选择的新闻频道之前顺序地播放针对特定频道的一些或所有“未播放”新闻项。在可与步骤812结合或并行发生的步骤814中，随后相应地将回放的每个新闻故事标记或者指定为已回放。在步骤816中，可利用附加指定来指示已听到特定频道的所有新闻故事。通过提供更简单且更快捷的方法来跳过一系列已回放的新闻故事，这种附加指定可提高总体性能和响应性。

图9是用于根据本文公开的原理提供新闻简讯的过程900的说明图，其中一个或多个内容频道或提供商在请求先前的简讯时与在请求当前的简讯时之间的介入时期已更新可用的内容或新闻故事。当接收到对新闻简讯的请求时，过程900可在步骤902开始。步骤902可与上文详细描述的步骤802基本相似，并且包括由设备100a接收话语，所述话语包括唤醒词，并且与言语识别系统300进行通信以确定作出简讯请求。

在步骤904中，关于特定用户是否已在“今天”(或者在与“未播放”的新闻项相关的任何指定时间段内)接收到简讯作出确定。如果用户尚未接收到新闻简讯，则在步骤906中提供完整的简讯(或者至少开始回放)。如果先前的简讯已发生，则对特定用户的配置文件作出查询，以便确定所述用户的简讯设置和偏好。在步骤910中，系统关于自先前的新闻简讯以来是否已提供新的内容来针对由特定用户启用的每个频道作出确定。

在步骤912中，如果特定用户已将系统配置成首先基于添加的新闻来提供新闻简讯，则系统可开始回放在当前的新闻简讯与先前的新闻简讯之间的介入时段期间已从新闻内容提供商中的一个或多个接收的每个新闻项。在步骤914中，将回放的每个新闻项标记或指定为已回放。如果系统完成每个新添加的新闻项的播放，并且特定用户未完成收听先前的新闻简讯(使得还有附加新闻项被指定为“未播放”)，则语言处理系统将在步骤916中可为特定用户准备一个问题，并且使用文本转言语子系统364将所述问题转换成数字音频数据，并且随后在设备100a上回放所述问题，所述问题询问用户用户是否要恢复播放先前的新闻简讯。例如，系统可能会使用设备100a内的扬声器来播放音频消息，诸如“这是自您上次的简讯以来我所拥有的所有更新的新闻。您上次的简讯中还有一些新闻项，您想恢复收听它们吗？”

可关于描述本申请的各方面的以下条款来理解本申请：

1.一种方法，其包括：

从与用户账户相关联的用户设备接收音频数据，所述音频数据表示用于播放一组内容项的命令，所述组内容项包括第一内容项和第二内容项，所述第一内容项与表示关于何时将所述第一内容项添加到所述组中的第一日期和时间信息的第一时间元数据相关联，并且所述第二内容项与表示关于何时将所述第二内容项添加到所述组中的第二日期和时间信息的第二时间元数据相关联；

通过对所述音频数据执行生物计量分析来确定与所述用户账户相关联的说话者标识配置文件；

使用所述第一时间元数据来确定所述第一内容项有资格进行回放；

使用与所述第一内容项相关联的第一回放元数据来确定所述第一内容项尚未播放给具有由所述说话者标识配置文件表示的语音的用户；

将所述第一内容项发送给所述用户设备；

产生与所述第一内容项相关联的新的回放元数据，所述新的回放元数据指示所述第一内容项已呈现给与所述说话者标识配置文件相关联的所述用户；

使用所述第二时间元数据来确定所述第二内容项有资格进行回放；

确定所述第二内容项与第二回放元数据相关联，所述第二回放元数据指示所述第二内容项已响应于与所述说话者标识配置文件相关联的之前的命令而播放；以及

响应于确定所述第二回放元数据与所述第二内容项相关联，自动跳过并且不发送所述第二内容项来进行回放。

2.如条款1所述的方法，其中接收音频数据包括：

使用自动言语识别(ASR)处理来生成表示所述音频数据的第一文本数据；以及

基于所述第一文本数据，使用自然语言理解(NLU)处理来确定所述音频数据对应于播放所述组内容项的意图。

3.如条款1或2所述的方法，其还包括：

从所述用户账户接收账户日期和时间信息，所述账户日期和时间信息指示所述用户最近何时从所述组内容项中播放内容项；以及

在播放所述组内容项中的其他内容项之前，仅播放内容日期和时间信息比所述账户日期和时间信息更新近的内容项。

4.如条款1、2或3所述的方法，其还包括：

确定所述组内容项中具有比所述账户日期和时间信息更新近的日期和时间信息的所有内容项已被播放；

生成表示关于是否应当继续播放内容的查询的文本数据；

通过对所述文本数据应用文本转言语处理来生成查询音频数据；

将所述音频数据发送至电子设备以便进行回放；

接收表示对所述查询的回复的回复音频数据；以及

基于所述回复继续播放所述组内容项中的内容项。

5.如条款1、2、3或4所述的方法，其还包括：

从所述音频数据生成语音标识矢量数据；

将所述语音标识矢量数据与和所述用户账户相关联的存储的矢量数据进行比较；

基于所述语音标识矢量数据和所述存储的矢量数据的比较来确定所述说话者标识配置文件；

检索对应于所述用户和所述内容项的内容元数据；以及

基于所述内容元数据输出所述内容项。

6.一种方法，其包括：

从用户设备接收音频数据；

接收用于从一组内容项中输出内容项的命令；

通过对所述音频数据进行分析来确定与用户相关联的说话者标识配置文件；

确定与所述用户相关联的用户账户；

从所述用户账户接收指示已输出的某些内容项的元数据；

播放不具有指示所述内容项已被输出的元数据的内容项；以及

在输出内容项之后，在所述用户账户中为所述相应的内容项设置元数据。

7.如条款6所述的方法，其中接收命令包括：使用自动言语识别(ASR)处理来生成表示所述音频数据的第一文本数据；

基于所述第一文本数据，使用自然语言理解(NLU)处理来确定所述音频数据对应于从所述组内容项中输出所述内容项的意图；以及

生成所述命令以输出所述内容项。

8.如条款6或7所述的方法，其还包括：

基于所述用户账户中的元数据从所述用户账户接收账户日期和时间信息，所述账户日期和时间信息指示所述组内容项中的内容项何时被最后一次输出；

确定在所述账户日期和时间信息之后将哪些内容项添加到所述组内容项；以及

仅输出在所述账户日期和时间信息之后添加到所述组内容项的所述内容项。

9.如条款6、7或8所述的方法，其还包括：

确定所述组内容项中具有比所述账户日期和时间信息更新近的日期和时间信息的所有内容项已被输出；

生成表示关于是否应当继续输出内容的查询的文本数据；

将所述音频数据发送至用户设备以便进行回放；

接收表示对所述查询的回复的回复音频数据；以及

基于所述回复继续输出所述组内容项中的内容项。

10.如条款6、7、8或9所述的方法，其还包括：

从所述音频数据生成语音标识矢量数据；

检索对应于所述用户和所述内容项的内容元数据；以及

基于所述内容元数据输出所述内容项。

11.如条款6、7、8、9或10所述的方法，其还包括：

设置与所述用户账户相关联的组元数据，所述组元数据指示输出一组内容项中的所有内容项。

12.如条款6、7、8、9、10或11所述的方法，其还包括：

接收用于从所述组内容项中输出内容项的进一步的命令；以及

响应于所述组元数据指示已输出一组内容项中的所有内容项，跳过所述组内容项中的所有内容项。

13.如条款6、7、8、9、10、11或12所述的方法，其中确定用户账户包括：

从所述用户设备接收生物计量数据；

通过将所述生物计量数据与对应于和所述用户设备相关联的所述用户账户的存储的生物计量数据进行比较来分析所述生物计量数据；以及

基于所述生物计量数据与所述存储的生物计量数据的比较来标识所述用户。

14.一种系统，其包括：

存储器；以及

至少一个处理器，其能操作：

接收用于从一组内容项中输出内容的命令；

确定与用于输出内容的所述命令相关联的用户账户；

从所述用户账户接收与已输出的某些内容项有关的元数据；

输出尚未输出的内容项；以及

在输出所述内容项之后，在所述用户账户中为所述相应的内容项设置元数据。

15.如条款14所述的系统，其中所述至少一个处理器进一步能操作：

从用户设备接收表示第一话语的第一输入音频数据；

标识与所述用户设备相关联的第一用户账户；

使用自动言语识别(ASR)处理来生成表示所述第一音频数据的第一文本数据；

使用自然语言理解(NLU)处理，基于所述第一文本数据，确定所述第一话语包括从一组内容项中输出内容项的意图；以及

生成用于输出内容的所述命令。

16.如条款14或15所述的系统，其中所述至少一个处理器进一步能操作：

与所述用户账户相关联地从所述用户账户接收账户日期和时间信息，所述账户日期和时间信息指示所述组内容项中的内容项何时被最后一次输出；

在输出所述组内容项中的其他内容项之前，仅输出具有在所述账户日期和时间信息之后的内容日期和时间信息的内容项。

17.如条款14、15或16所述的系统，其中所述至少一个处理器进一步能操作：

生成表示关于是否应当继续输出内容的查询的文本数据；

将所述音频数据发送至电子设备以便进行回放；

接收表示对所述查询的回复的音频信号的回复音频数据；以及

基于所述回复继续输出所述组内容项中的内容项。

18.如条款14、15、16或17所述的系统，其中所述至少一个处理器进一步能操作：

从用户设备接收表示第一话语的第一输入音频数据；

标识与所述用户设备相关联的第一用户账户；

从所述第一输入音频数据生成语音标识矢量数据；

将所述语音标识矢量数据与和所述第一用户账户相关联的存储的矢量数据进行比较；

基于所述语音标识矢量数据和所述存储的矢量数据的比较来确定说话者标识配置文件；

检索对应于所述特定用户的所述元数据；以及

基于所述元数据输出所述内容项。

19.如条款14、15、16、17或18所述的系统，其中所述至少一个处理器进一步能操作：

20.如条款19所述的系统，其中所述至少一个处理器进一步能操作：

21.如条款14、15、16、17、18、19或20所述的系统，其中所述至少一个处理器进一步能操作：

从所述用户设备接收生物计量数据；

基于所述生物计量数据与所述存储的生物计量数据的所述比较来标识个人。

本发明的各种实施方案可由软件来实现，但是也可以硬件或者以硬件和软件的组合来实现。本发明也可体现为计算机可读介质上的计算机可读代码。计算机可读介质可为任何数据存储设备，其随后可由计算机系统读取。

呈现本发明的上述实施方案是为了说明的目的，而不旨在是限制性的。尽管已以对结构特征专用的语言描述了主题，但是应当理解，所附权利要求中限定的主题不一定限于所描述的具体特征。相反，具体特征是作为实现权利要求的说明性形式而公开。

Claims

1.一种方法，其包括：

从用户设备接收音频数据；

接收用于从一组内容项中输出内容项的命令；

确定与所述用户相关联的用户账户；

从所述用户账户接收指示已输出的某些内容项的元数据；

播放不具有指示所述内容项已输出的元数据的内容项；以及

2.如权利要求1所述的方法，其中接收命令包括：

使用自动言语识别(ASR)处理来生成表示所述音频数据的第一文本数据；

生成所述命令以输出所述内容项。

3.如权利要求1或2所述的方法，其还包括：

4.如权利要求1、2或3所述的方法，其还包括：

确定所述组内容项中具有比所述账户日期和时间信息更新近的日期和时间信息的所有内容项已输出；

生成表示关于是否应当继续输出内容的查询的文本数据；

将所述音频数据发送至用户设备以便进行回放；

接收表示对所述查询的回复的回复音频数据；以及

基于所述回复继续输出所述组内容项中的内容项。

5.如权利要求1、2、3或4所述的方法，其还包括：

从所述音频数据生成语音标识矢量数据；

检索对应于所述用户和所述内容项的内容元数据；以及

基于所述内容元数据输出所述内容项。

6.如权利要求1、2、3、4或5所述的方法，其还包括：

7.如权利要求6所述的方法，其还包括：

8.如权利要求1、2、3、4、5、6或7所述的方法，其中确定用户账户包括：

从所述用户设备接收生物计量数据；

9.一种系统，其包括：

存储器；以及

至少一个处理器，其能操作：

接收用于从一组内容项中输出内容的命令；

确定与用于输出内容的所述命令相关联的用户账户；

从所述用户账户接收与已输出的某些内容项有关的元数据；

输出尚未输出的内容项；以及

10.如权利要求9所述的系统，其中所述至少一个处理器进一步能操作：

从用户设备接收表示第一话语的第一输入音频数据；

标识与所述用户设备相关联的第一用户账户；

使用自动言语识别(ASR)处理来生成表示所述第一音频数据的第一文本数据；以及

生成用于输出内容的所述命令。

11.如权利要求9或10所述的系统，其中所述至少一个处理器进一步能操作：

12.如权利要求9、10或11所述的系统，其中所述至少一个处理器进一步能操作：

生成表示关于是否应当继续输出内容的查询的文本数据；

将所述音频数据发送至电子设备以便进行回放；

基于所述回复继续输出所述组内容项中的内容项。

13.如权利要求9、10、11或12所述的系统，其中所述至少一个处理器进一步能操作：

从用户设备接收表示第一话语的第一输入音频数据；

标识与所述用户设备相关联的第一用户账户；

从所述第一输入音频数据生成语音标识矢量数据；

检索对应于特定用户和所述内容项的内容元数据；以及

基于所述内容元数据输出所述内容项。

14.如权利要求9、10、11、12或13所述的系统，其中所述至少一个处理器进一步能操作：

15.如权利要求14所述的系统，其中所述至少一个处理器进一步能操作：