CN113950698A

CN113950698A - 对话线程的音频呈现

Info

Publication number: CN113950698A
Application number: CN202080042680.7A
Authority: CN
Inventors: A·K·尼豪斯; S·乔杜里; E·Y·徐; G·索德
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-06-10
Filing date: 2020-04-27
Publication date: 2022-01-18
Also published as: US11853650B2; US11269590B2; US20220269479A1; EP3980953A1; US20200387347A1; WO2020251669A1

Abstract

在一个示例中，计算系统接收用于发起针对接收者的电子通信的音频呈现的指令。响应于所述指令，计算系统可听地输出最新对话线程中的每个未查看电子通信，该最新对话线程包括针对接收者的一组最新未查看的、回复链接的电子通信。最新对话线程中的每个未查看电子通信可以以时间先后顺序可听地输出，从最旧未查看电子通信开始并继续到最新未查看电子通信。响应于完成来自对话线程的最新未查看电子通信的可听输出，计算设备可听地输出下一个最新对话线程中的每个未查看电子通信，下一个最新对话线程包括针对接收者的一组下一个最新未查看的、回复链接的电子通信。下一个最新对话线程中的每个未查看电子通信可以以时间先后顺序可听地输出，从最旧未查看电子通信开始。

Description

对话线程的音频呈现

背景技术

通信网络支持用户之间广泛的电子通信。基于文本的电子通信可以采用多种不同的形式，包括电子邮件、文本/SMS消息、实时/即时消息、多媒体消息、社交网络消息、多玩家视频游戏中的消息，等等。用户可以经由个人电子设备(例如移动设备或桌面式计算机)来阅读和键入对这些形式的电子通信的响应。

发明内容

提供本发明内容以便以简化的形式对下面在具体实施方式中进一步描述的设计构思的选择进行介绍。本发明内容并不旨在标识要求保护的主题的关键特征或重要特征，也不旨在用于限制要求保护的主题的范围。另外，要求保护的主题不局限于解决本公开内容的任何部分中指出的任何或所有缺点的实现。

在一个示例中，计算系统接收用于发起针对接收者的电子通信的音频呈现的指令。响应于该指令，计算系统可听地输出最新对话线程中的每个未查看电子通信，包括针对该接收者的一组最新未查看的、回复链接的电子通信。最新对话线程中的每个未查看电子通信可以以时间先后顺序可听地输出，从最旧未查看电子通信开始并继续到最新未查看电子通信。响应于完成来自对话线程的最新未查看电子通信的可听输出，计算设备可听地输出下一个最新对话线程中的每个未查看电子通信，包括针对该接收者的一组下一个最新未查看的、回复链接的电子通信。下一个最新对话线程中的每个未查看电子通信可以以时间先后顺序可听地输出，从最旧未查看电子通信开始并继续到最新未查看电子通信。

附图说明

图1描绘了用户与个人助理设备之间的示例交互。

图2示意性地描绘了示例计算系统。

图3示意性地描绘了示例电子通信。

图4描绘了由个人助理设备输出的音频呈现的示例时间线。

图5描绘了针对接收者的电子通信的示例时间线。

图6描绘了图5的电子通信的呈现顺序的示例时间线。

图7A描绘了用于组织和呈现对话线程的示例方法的流程图。

图7B描绘了用于呈现对话线程的示例方法的流程图。

图8描绘了用于呈现对话线程的时间标识信息的示例方法的流程图。

图9A-图9E描绘了一些表格，其中针对一系列条件提供了个人助理设备的示例可听输出。

图10A-图10P描绘了用户与个人助理设备之间的示例对话。

具体实施方式

使用基于文本的电子通信(例如电子邮件、文本消息传送和即时消息传送)已发展成为现代社会的主要通信方式。移动计算设备使人们能够在几乎任何时间和地点接收他们的电子通信。当人们在日常生活中时，他们可能经常被查看新的电子通信的需要或愿望打断。通过图形用户界面对文本和多媒体内容的视觉消费可能会分散人们同时执行其他任务的注意力，或者可能会阻止人们执行任务，直到电子通信被视觉地查看。例如，在操作车辆时，一个人可能无法视觉地查看新的基于文本的通信，或者这是很危险的。

根据本公开内容的一个方面，使用图形用户界面来呈现电子通信的文本和多媒体内容可以通过电子通信的可听呈现以向用户提供呈现体验的上下文以及对可听呈现的控制的方式来增强或替代。这种可听呈现可以提供与电子通信的视觉消费相称或改进的用户体验，同时使用户能够同时执行在使用图形用户界面时难以或不可能执行的任务。本质上，所公开的可听呈现可以将基于文本的通信转化为类似于收听播客的体验。

图1描绘了用户110与个人助理设备120之间的示例交互100。在该示例中，用户110正在骑自行车上下班，同时通过用户语音130与个人助理设备120交互。该示例中的个人助理设备120采用移动计算设备的形式。响应于用户语音130的口述命令，个人助理设备120可以向用户110输出音频信息作为设备语音140。这是免提、免显示交互的一个示例，它使用户能够在参与任务(例如骑自行车上下班)的同时处理电子通信。

如用户语音130中所示，用户110通过说出命令“Read messages(阅读消息)”来开始与个人助理设备120的对话。响应于用户的口述命令，在设备语音140中，个人助理设备120输出音频信息，该信息包括：“山姆你好！我获得你的6个对话。这将花费大约5分钟(HiSam！I’ve got 6conversations for you.This’ll take about 5minutes)”。在设备语音140的该部分中，个人助理设备120以自然语言的形式输出音频信息，该音频信息通过用户的名字(即，“Sam(山姆)”)向用户110打招呼，识别包含用户的未查看电子通信的某个数量(即，“6个”)的对话线程，并识别用户通过电子通信的内容的可听输出查看对话线程的持续时间(即“大约5分钟”)。因此，在进展通过音频呈现之前，个人助理设备120向用户110通知关于未查看电子通信的音频呈现的预期持续时间，从而使用户能够做出关于应查看还是跳过特定电子通信的知情决定。

继续图1的示例对话，个人助理设备120通过向用户110输出第一对话线程的摘要来继续，其标识对话线程的未查看电子通信的数量和/或持续时间(即，“长”)并标识对话线程的主题(即“世界杯办公室竞猜”)。因此，在进展通过第一对话线程的音频呈现之前，用户110被告知关于用于查看第一对话线程的未查看电子通信的主题和估计时间。此外，个人助理设备120向用户110指示用户“可以随意中断”，这向用户通知用户的口述命令可用于推进或中断第一对话线程的音频呈现。

接下来，个人助理设备120向用户110输出第一对话线程的第一电子通信的摘要，其标识第一电子通信被接收的相对时间(即，“几个小时前”)，标识第一电子通信的发送者(即“Greg”)，标识第一电子通信的类型(即“电子邮件”)，标识第一电子通信的一定数量的其他接收者或受众(即“一个大组”)，标识第一电子通信的附件的存在(即“带有附件”)，以及标识第一电子通信的消息的文本内容的至少一部分(例如，“进球！你能相信现在已经是世界杯时间了吗？......”)。

在该示例中，在听到第一电子通信的文本内容的一部分时，在用户语音130中，用户110说出命令“下一个对话”。响应于用户110的这个口述命令，个人助理设备120将未查看电子通信的音频呈现推进到第二对话线程，从而跳过第一对话线程的剩余未查看电子通信的音频呈现。例如，个人助理设备120通过输出第二对话线程的摘要来响应用户110，该摘要标识第二对话线程的未查看电子通信的数量(即，“3个”)、标识第二对话线程的电子通信的类型(即，“电子邮件”)，并标识第二对话线程的主题(即“人力资源事件”)。

个人助理设备120可以以上述方式进展通过对话线程，直到用户110已经查看了所有未查看电子通信或者用户预先选择停止对话。通过个人助理设备120总结对话线程及其内容，向用户110提供了足够的信息以做出关于特定对话线程或电子通信是否应该由用户在当前会话中查看的知情决定。在用户110不推进或中断未查看电子通信的音频呈现的示例中，个人助理设备120的音频呈现将在大约由个人助理设备识别的持续时间(例如，“5分钟”)内结束。然而，通过推进音频呈现，用户110可以在更短的时间段内查看电子通信。

图2示意性地描绘了示例计算系统200，其包括计算设备210。作为示例，计算设备210可以采取移动计算设备、可穿戴计算设备、与车辆集成的计算设备、桌面计算设备、家用电器计算设备或其他合适的设备的形式。图1的个人助理设备120是计算设备210的一个示例。计算设备210包括逻辑子系统212、存储子系统214、输入/输出(I/O)子系统216和/或图2中未示出的其他合适的组件。

逻辑子系统212包括被配置为执行指令的一个或多个物理设备(例如，处理器)。存储子系统214包括被配置为保存数据220的一个或多个物理设备(例如，存储器)，数据包括可由逻辑子系统212执行以实现本文描述的方法和操作的指令222。下面描述逻辑子系统212和存储子系统214的附加方面。

如图2所示，逻辑子系统212和存储子系统214可以协作以实例化一个或多个功能组件，例如个人助理机230、语音输出机232、语音输入机234、一个或多个通信应用236、和/或其他合适的组件。如本文所用，术语“机器”可用于统称指令222(例如，固件、软件等)与硬件和/或协作以提供所描述的功能的其他合适组件的组合。虽然个人助理机230、语音输出机232、语音输入机234和/或通信应用236被描述为通过逻辑子系统212和存储子系统214的协作来实例化，但在至少一些示例中，个人助理机230、语音输出机232、语音输入机234和/或通信应用236中的一项或多项可以全部或部分由远程计算设备或系统(例如服务器系统260)实例化。因此，本文描述的方法或操作可以在计算设备210处本地执行，在服务器系统260处远程执行，或者可以分布在一个或多个计算设备210和/或一个或多个服务器系统260之间。

个人助理机230可以通过接收和处理用户的口述命令来与用户进行对话以执行任务，包括向用户输出信息。作为示例，个人助理机230可以根据呈现顺序为接收者输出多个对话线程和/或电子通信的音频呈现。个人助理机230可以包括自然语言处理，从而支持用户可以通过其与计算设备210交互的自然语言接口。实施个人助理机230的设备，例如计算设备210，可以被称为个人助理设备。

语音输出机232从个人助理机230接收数据(例如机器可读数据和/或基于文本的数据)以输出给用户，并且将这些数据转换成包含具有自然语言成分的语音的音频数据。在一个示例中，语音输出机232可以提供文本到语音的转换。例如，个人助理机230可以向语音输出机232提供电子通信的文本内容的选择部分来将文本内容转换成文本内容的可听输出以供用户可听消费。例如，在图1中，个人助理设备120输出“GOAL！Can you believe it’salready World Cup time？(进球！你能相信现在已经是世界杯时间了吗？)”，这是用户110是其接收者的电子通信的文本内容的可听输出。

语音输入机234接收表示人类语音的音频数据，并将音频数据转换成可由个人助理机230或计算设备210的其他合适组件使用的机器可读数据和/或文本数据。在一个示例中，语音输入机232可以提供语音到文本的转换。例如，在图1中，个人助理设备经由语音输入机234接收并处理用户110的口述命令，包括“Read messages(阅读消息)”和“Nextconversation(下一个对话)”。

一个或多个通信应用236可以支持电子通信238的发送和接收，其中电子通信240是一个示例。通信应用可以支持一种或多种类型的电子通信，包括电子邮件、文本/SMS消息、实时/即时消息、多媒体消息、社交网络消息、多玩家视频游戏中的消息和/或任何其他类型的电子通信。个人助理机230可以与通信应用236对接，使个人助理机能够代表用户接收、处理和发送一种或多种不同类型的电子通信。

I/O子系统216可以包括下列中的一项或多项：音频输入接口250、音频输出接口252、显示接口254、通信接口256和/或其他合适的接口。

计算设备210接收表示经由音频输入接口250捕捉的音频的音频数据。音频输入接口250可以包括一个或多个集成音频麦克风和/或可以与一个或多个外围音频麦克风对接。例如，计算设备210可以接收表示经由音频输入接口250捕捉的用户语音(例如图1的用户语音130)的音频数据。来自音频输入接口250的音频数据可以被提供给语音输入机234和/或个人助理机230进行处理。在至少一些示例中可以省略音频输入接口250。

计算设备210经由音频输出接口252输出表示音频数据的音频。音频输出接口252可以包括一个或多个集成音频扬声器和/或可以与一个或多个外围音频扬声器对接。例如，计算设备210可以经由音频输出接口252输出具有自然语言成分的语音的音频表示，例如图1的设备语音140。音频数据可以由语音输出机232、个人助理机230或计算设备210的其他合适的组件提供给音频输出接口252以作为音频数据的可听输出被输出。在至少一些示例中可以省略音频输出接口252。

计算设备210可以经由显示接口254输出表示图形数据的图形内容。显示接口254可以包括一个或多个集成显示设备和/或可以与一个或多个外围显示设备对接。在至少一些示例中可以省略显示接口254。

计算设备210可以经由通信接口256与其他设备(例如服务器系统260和/或其他计算设备270)通信，使计算设备210能够向其他设备发送电子通信和/或从其他设备接收电子通信。通信接口256可以包括一个或多个集成收发机和相关联的通信硬件，它们根据任何合适的通信协议支持无线和/或有线通信。例如，通信接口256可以被配置用于经由无线或有线电话网络和/或无线或有线个域网、局域网和/或广域网(例如，互联网、蜂窝网络或其一部分)通过通信网络280进行通信。在至少一些示例中可以省略通信接口256。

I/O子系统216还可以包括集成和/或外围形式的一个或多个额外输入设备和/或输出设备。输入设备的额外示例包括用户输入设备(例如键盘、鼠标、触摸屏、触摸板、游戏控制器等)，和/或惯性传感器、全球定位传感器、照相机、光学传感器等。输出设备的额外示例包括振动电机和发光指示器。

计算系统200还可以包括一个或多个服务器计算设备的服务器系统260。计算系统200还可以包括多个其他计算设备270，计算设备272是其示例。服务器系统260可以托管通信服务262，通信服务262接收、处理和发送由电子通信寻址的发送者和接收者之间或之中的电子通信。例如，用户可以操作计算设备210和270以经由通信服务262发送或接收电子通信。通信服务262被描绘为包括多个电子通信264，电子通信266是其示例。在一个示例中，可以经由网络280从计算设备272接收电子通信266以进行处理和/或经由网络280传送到计算设备210。一个或多个通信应用236可以被配置为与通信服务262协调操作，使得能够针对作为计算设备210和270的用户的发送者和接收者发送、接收和/或处理电子通信。

图3示意性地描绘了示例电子通信300。图2的电子通信240和266是电子通信300的示例。在一个示例中，电子通信300采用数据的形式，该数据包括或识别发送者310、一个或多个接收者312、指示电子通信的接收或发送的定时(例如，时钟时间以及发送或接收的日期)的时间戳314、可以包括文本内容318的主题316、可以包括文本内容322和/或媒体内容324的消息320、一个或多个附件326、日历数据328、通信类型330和/或其他数据332。提供电子通信300作为非限制性示例。本公开内容几乎与任何类型的电子通信兼容，而不管可能特定于该类型的电子通信的电子通信的内容。因此，可以可选地省略电子通信的各个方面，和/或可以包括未示出的各个方面。

在示例中，充当电子通信300的发送者的用户可以通过用户输入来定义下列中的一项或多项：接收者312、包括文本内容318的主题316、包括文本内容322和/或媒体内容324的消息320、附件326、日历数据328和/或电子通信300的其他数据332。时间戳314可以由通信应用或通信服务分配作为电子通信300的发送或接收的定时。通信类型330可以取决于发送者使用的通信应用或服务，或者在支持多种通信类型的通信应用或服务的情况下可以由发送者的用户输入定义或以其他方式选择。

图4描绘了由个人助理设备(例如图1的设备120或图2的计算设备210)输出的音频呈现的示例时间线400。在时间线400内，时间从图形的左手侧前进到图形的右手侧。时间线400可以从可由本文中公开的个人助理设备实施的预定义模板实例化。因此，在其他示例中，可以省略、重复或以不同顺序呈现针对时间线400描述的可听输出。此外，可以代替时间线400的可听输出或在可听输出之间包括额外的可听输出。

在410处，问候可以被呈现为可听输出。在一个示例中，可以响应于由个人助理设备接收到的指令412来呈现问候，以发起向接收者呈现未查看电子通信。指令412可以采用用户的口述命令或个人助理设备接收的其他类型的用户输入的形式。例如，在图1中，用户110提供指令“Read messages(阅读消息)”作为口述命令，并且个人助理设备120通过呈现问候语“Hi Sam！(嗨，山姆！)”来进行响应。

在414处，呈现路线图可以被呈现为可听输出。呈现路线图可以识别下列一项或多项：包括针对接收者的一个或多个未查看电子通信的对话线程的数量、未查看电子通信的数量、用于呈现包括未查看电子通信的对话线程的音频呈现的时间估计、未查看电子通信的长度估计、一个或多个突出显示的项目，和/或其他合适的信息。

在416处，可以将打断通知(barge-in notice)呈现为可听输出。打断通知可以用于向用户通知可以由用户提供口述命令以执行针对音频呈现或其内容的动作。参考图1的示例，个人助理设备可以呈现可听输出“Feel free to interrupt(随时可中断)”作为在416呈现的打断通知的示例。

在418处，可以将用户一天的一个或多个变化呈现为可听输出。一天的变化可以包括对用户日历的更新，并且可选地可以从一个或多个未查看电子通信的日历数据中得出。

如参考图5-图7进一步详细描述的，接收者的电子通信可以被组织成对话线程，其中每个对话线程包括两个或更多个回复链接的电子通信。通过将电子通信组织成对话线程，收听电子通信的音频呈现的用户可能能够更好地理解或跟踪形成同一对话线程的一部分的电子通信的发送者和接收者之间或之中的对话。相比之下，仅根据电子通信的时间顺序而不考虑对话的上下文来呈现电子通信可能使用户更难以理解或跟踪发送者和接收者之间或之中的对话，特别是在这种通信的音频呈现的上下文中。

可以在470处呈现包括用户的一个或多个未查看电子通信的第一对话线程，其包括第一对话线程的对话线程摘要420、第一对话线程的每个未查看电子通信的通信摘要422，以及第一对话线程的每个未查看电子通信的消息内容424。

在420处，可以将第一对话线程的对话线程摘要呈现为可听输出。对话线程摘要可以标识以下一项或多项：从对话线程的电子通信中识别出的对话线程的主题、对话线程的电子通信的类型、对话线程的未查看电子通信的数量、从对话线程的电子通信中识别出的对话线程的接收者和/或受众(例如，接收者的数量、身份和/或与先前回复链接通信相关的添加或删除的接收者的数量/身份)、用于呈现对话线程的未查看电子通信的音频呈现的一部分的时间估计、对话线程的未查看电子通信的长度估计，和/或其他合适的信息。

参考图9C更详细地描述了个人助理设备关于对话线程的未查看电子通信的数量的示例输出。参考图9A和图9E更详细地描述了个人助理设备关于对话线程和/或电子通信的时间和/或长度的示例输出。在示例中，对话线程摘要的时间和/或长度估计可以包括长度警告。参考图1的示例，个人助理设备可以呈现可听输出“long conversation(长对话)”作为长度警告的示例。

在422处，可以将第一对话线程的第一未查看电子通信的第一通信摘要呈现为可听输出。通信摘要可以标识下列一项或多项：电子通信的主题，电子通信的类型，基于电子通信的时间戳的电子通信的定时，电子通信的发送者、接收者和/或电子通信的受众，用于呈现电子通信的音频呈现的一部分的时间估计，电子通信的长度估计，对于电子通信中是否包括一个或多个附件的指示，和/或其他合适的信息。参考图9B更详细地描述了个人助理设备关于对话线程的接收者和/或受众的示例输出。

在424处，可以将第一对话线程的第一未查看电子通信的消息内容呈现为可听输出。例如，在424处，可以部分或完整呈现第一未查看电子通信的消息的文本内容的可听输出。例如，在图1中，个人助理设备120将电子通信的文本内容的可听输出输出为“GOAL！Canyou believe it’salready World Cup time？(进球！你能相信现在已经是世界杯时间了吗？)”。在至少一些示例中，个人助理设备可以选择文本内容的一个或多个部分以包括在可听输出中和/或从可听输出中排除。例如，个人助理设备可以在消息或消息中包括的网络域地址结束时避免可听地输出签名块的文本内容。在一些示例中，文本内容可以作为其文本的可听再现被可听地输出以提供文本内容的字面阅读。在其他示例中，文本内容可由个人助理设备智能地编辑以便为用户提供提升的收听体验，包括纠正文本内容中的拼写/语法错误、对文本内容的文本成分进行重新排序和/或总结可听输出中的文本内容。

在呈现第一未查看电子通信之后，音频呈现可以进行到第一对话线程的第二未查看电子通信。例如，在426处，可以将第一对话线程的第二未查看电子通信的第二通信摘要呈现为可听输出。在428处，可以将第一对话线程的第二未查看电子通信的消息内容呈现为可听输出。音频呈现可以通过第一对话线程的每个未查看电子通信顺序进行。在至少一些示例中，对话线程的未查看电子通信可以根据基于未查看电子通信的相应时间戳的时间先后顺序来呈现，从对话线程的最旧未查看电子通信开始并继续到对话线程的最新未查看电子通信。

在430处，可以将引导式通知呈现为可听输出。引导式通知可用于询问用户是否想要执行针对第一对话线程的动作。例如，引导式通知可以向用户提供一般性通知，例如“perform an action or proceed to the next conversation？(执行动作还是继续下一个对话？)”或者可以提供有针对性的通知，例如“would you like to reply to thisconversation？(你想要回复此对话吗？)”。在432处，可以提供静默时段以使用户能够在进行到音频呈现的下一个对话线程之前提供指令或以其他方式针对对话线程采取行动。

在470处呈现第一对话线程之后，音频呈现可以继续在472处呈现第二对话线程，其包括针对接收者的一个或多个未查看电子通信。第二对话线程的呈现可类似地包括下列各项的呈现：440处的第二对话线程的线程摘要、442处的第二对话线程的第一未查看电子通信的通信摘要、444处的第二对话线程的第一未查看电子通信的消息内容、446处的第二对话线程的第二未查看电子通信的通信摘要、448处的第二对话线程的第二未查看电子通信的消息内容，等等，直到第二对话线程的每个未查看电子通信都已作为可听输出被呈现。

音频呈现可以继续进行每个对话线程，对话线程包括针对接收者的一个或多个未查看电子通信，如先前参考470处的第一对话线程的呈现所描述的。在包括一个或多个未查看电子通信的对话线程的呈现之后，个人助理设备确定为与用户潜在相关的额外信息可以在460处被呈现为可听输出。在462处，用户可通过个人助理设备从音频呈现会话结束。

继续图4的示例时间线，用户可以向个人助理设备提供指令以在音频呈现内或在对话线程及其电子通信之间导航。例如，响应于指令480，个人助理设备可以将音频呈现从在422处呈现通信摘要推进到在440处呈现第二对话线程的线程摘要，从而使用户能够跳过一些或全部第一对话线程的呈现。在图1中，用户110提供了口述命令“Next conversation(下一个对话)”，作为指令480的示例。例如，响应于指令480，个人助理设备可以将音频呈现从在422处呈现第一未查看电子通信的通信摘要推进到在426处呈现第二未查看电子通信的通信摘要，从而使用户能够跳过一些或全部第一未查看电子通信的呈现。

通过将电子通信组织成对话线程，用户可以执行针对该对话线程的电子通信的动作。例如，如上所述，用户可以通过提供诸如图1的“Next conversation(下一个对话)”之类的口述命令来跳过特定对话线程(包括该对话线程的未查看电子通信)的音频呈现。作为另一示例，用户可以通过在静默时段452内提供口述命令(例如指令496)来删除对话线程的电子通信或将此类电子通信标记为重要。因此，个人助理设备可以响应于用户的口述命令对对话线程的多个电子通信中的每个电子通信应用动作。

在至少一些示例中，可听指示符可以由个人助理设备呈现为可听输出，以向用户通知音频呈现的各部分之间的转换。例如，可以在418处的一天变化的呈现和420处的线程摘要之间呈现可听指示符482，可以在电子通信之间呈现可听指示符484和490，可以在引导式通知与静默时段之间呈现可听指示符486和492，并且可听指示符488和494可以在静默时段和随后的对话线程与在460处呈现的额外信息或在462处呈现的结束语之间呈现。可听指示符可以采用可听音调或任何合适声音的形式。可以在音频呈现的不同部分呈现具有可区分声音的可听指示符。例如，标识电子通信之间的转变的可听指示符484可以不同于标识对话线程之间的转变的可听指示符488。这样的可听指示符可以帮助用户容易地了解个人助理设备是否已经开始或完成了音频呈现的特定部分，个人助理设备是否按照用户的指示完成了特定动作，或者个人助理设备当前是否在听取要由用户提供的指令。

个人助理设备可以支持各种呈现模式，包括连续呈现模式和引导式呈现模式。在连续呈现模式中，个人助理设备可以在没有来自用户的指令的情况下继续进行音频呈现。在引导式呈现模式中，个人助理设备可以在转换点暂停音频呈现以等待来自用户的指令来继续进行。例如，在引导式呈现模式下，个人助理设备可以暂停音频呈现并在对话摘要的呈现之后输出询问：“你想要听这个对话线程吗(Would you like to hear thisconversation thread)”。

图5描绘了电子通信的示例时间线500。在时间线500内，时间从图形的左手侧前进到图形的右手侧。图5内的每个电子通信的时间可以对应于该电子通信的相应时间戳，例如参考图3的时间戳314所描述的。

时间线500被划分成多个对话线程510-520，每个对话线程包括接收者的一个或多个电子通信。在该示例中，对话线程510包括电子通信530-540，对话线程512包括电子通信550-558，对话线程514包括电子通信560-564，对话线程516包括电子通信570，对话线程518包括电子通信580，对话线程520包括电子通信590-594。

对话线程的多个电子通信可以被称为回复链接的电子通信，其中一个或多个电子通信是对原始电子通信的回复，从而通过公共对话线程将这些电子通信相互链接。第一电子通信是对较早的第二电子通信的回复，而后者又是对更早的第三电子通信的回复，第一电子通信可以被认为回复链接对第二和第三电子通信二者，从而形成共同对话线程。例如，电子通信534是对电子通信532的回复，而电子通信532又是对电子通信530的回复。因此，电子通信530、532和534中的每个电子通信形成对话线程510的一部分。对于某些类型的电子通信，例如协作消息传送平台或多玩家游戏平台，与特定渠道(例如，特定协作项目或多玩家游戏)相关联的电子通信可以被识别为是彼此回复链接的。

此外，在该示例中，电子通信530-540、554-558、560-564、570和594是接收者的未查看电子通信。作为对照，电子通信550、552、580和590是接收者的先前查看过的电子通信。在一个示例中，如果电子通信的消息(例如，图3的消息320)尚未通过视觉、听觉或其他(例如，盲文)呈现模式中的任何一种被呈现给接收者用户，则电子通信可以被称为未查看电子通信。例如，在电子邮件的上下文中，个体电子邮件消息可以被标记为“已读”或“未读”，这可以对应于先前已查看或未查看的电子通信。在图5的示例中，电子通信592对应于接收者对先前电子通信590的回复。

如参考图1的用户110和个人助理设备120之间的示例对话所描述的，可以根据特定呈现顺序来呈现多个对话线程。在至少一些示例中，用于呈现两个或更多个对话线程的呈现顺序可以基于每个对话线程的未查看电子通信的定时。在图5的示例中，对话线程510的电子通信530-540中的每个电子通信在对话线程512的电子通信550-558中的每个电子通信之后被接收，而对话线程514的电子通信560-564在时间上穿插在对话线程510和512的电子通信之间。

在第一示例呈现顺序中，可以根据基于每个对话线程的最新未查看电子通信的反向时间先后顺序来呈现对话线程。在图5的示例时间线中，对话线程510可以在对话线程512、514、516和520之前呈现，因为对话线程510包括最新未查看电子通信540，其具有分别在对话线程512、514、516和520的最新未查看电子通信558、564、570和594之后的定时。该第一示例呈现顺序可用于根据接收者接收到的未查看电子通信来对具有最新活动的对话线程进行优先级排序。在该示例中可以不呈现对话线程518，因为对话线程518不包括任何未查看电子通信。

图6描绘了在没有用户指令来推进或中断对话线程的呈现的情况下，上文针对图5的电子通信描述的第一示例呈现顺序的示例时间线600。在时间线600内，时间从图形的左手侧前进到图形的右手侧。根据基于每个对话线程的最新未查看电子通信的反向时间先后顺序来将对话线程510-516和520呈现在图6中。在每个对话线程中，未查看电子通信可以按时间先后顺序呈现，从对话线程的最早未查看电子通信开始，继续到该对话线程的最新未查看电子通信，在没有用户指令来推进或中断对话线程的呈现的情况下同样如此。例如，根据图6中描绘的第一示例呈现顺序，根据以下顺序接收图5的未查看电子通信：560、554、594、556、558、562、530、532、570、534、564、536、538、540按照以下的顺序呈现：对话线程510的电子通信530-540、对话线程514的电子通信560-564、对话线程570的电子通信516、对话线程512的电子通信554-558，以及对话线程520的电子对话594。

返回到图5，在第二示例呈现顺序中，可以根据基于每个对话线程的最新未查看电子通信的时间先后顺序来呈现对话线程。与上述反向时间先后顺序相比，这将造成对话线程的相反排序。例如，在图5的示例时间线中，对话线程512可以在对话线程510和514之前呈现，因为对话线程512包括最新未查看电子通信558，其具有分别在对话线程510和514的最新未查看电子通信540和564之前的定时。

在第三示例呈现顺序中，可以根据基于每个对话线程的最早未查看电子通信的定时的反向时间先后顺序来呈现对话线程。在图5的示例时间线中，对话线程510可以在对话线程512和514之前呈现，因为对话线程510包括最早未查看电子通信530，其具有分别在对话线程512和514的最早未查看电子通信554和560之后的定时。

在第四示例呈现顺序中，可以根据基于每个对话线程的最早未查看电子通信的定时的时间先后顺序来呈现对话线程。在图5的示例时间线中，对话线程514可以在对话线程510和512之前呈现，因为对话线程514包括最早未查看电子通信560，其具有分别在对话线程510和512的最早未查看电子通信530和554之前的定时。

在第五示例呈现顺序中，包括接收者在线程内某个点的回复的对话线程在呈现顺序上可以优先于不包括接收者的回复的对话线程。在图5的示例时间线中，对话线程520的未查看电子通信594可以在对话线程510-516的电子通信之前呈现，因为对话线程520包括接收者的回复电子通信592。与其他对话线程相比，对话线程520中回复电子通信592的存在可以指示对话线程520的提高的重要性。在每个都包括接收者的回复的多个对话线程中，未查看电子通信的呈现顺序可以利用上文讨论的第一、第二、第三或第四示例呈现顺序中的任何一个用于在呈现不包括接收者的回复的对话线程的未查看电子通信之前呈现包括接收者的回复的对话线程。

在第六示例呈现顺序中，具有接收者的回复的对话线程的优先级排序，例如上文针对第五示例呈现顺序所描述的，可以仅考虑接收者的这样的回复：未查看电子通信是直接对接收者的该回复的回复。该呈现顺序可用于使包括直接回复链接到接收者的回复的未查看电子通信的对话线程优先于其他对话线程。

在第七示例呈现顺序中，可以基于一个或多个因素来对对话线程进行优先级排序，这些因素包括：电子通信的主题、消息或附件的内容，电子通信的发送者，每个对话线程的电子通信的数量，每个对话线程的电子通信的频率，与电子通信相关联的重要性指示符(例如，标志)的存在，等等。在一个示例中，对话线程可以根据一个或多个因素进行排名，并且可以用基于对话线程的排名的顺序来呈现。这种排名可以基于任何期望的试探法、机器学习算法或其他排名方法。

图7A描绘了用于组织和呈现对话线程的示例方法700的流程图。方法700或其部分可由计算系统的一个或多个计算设备执行。例如，方法700可以由图2的计算设备210或由包括计算设备210的计算系统结合图2的服务器系统260来执行。

在710处，针对接收者获得电子通信。在示例中，可以在用户的计算设备处经由通信网络从远程服务器系统获得电子通信。在710处，针对接收者获得的电子通信可以跨越一种或多种类型的电子通信，并且可以从一种或多种通信服务和/或应用收集。此外，在710处获得的电子通信可以指接收者的所有电子通信的子集。例如，在710处获得的电子通信可以包括接收者的主要或焦点收件箱或文件夹，并且可以排除其他收件箱或文件夹，例如垃圾邮件、促销等。

在712处，针对接收者在710处获得的电子通信之中识别未查看电子通信。如先前参考图5所描述的，如果电子通信的消息(例如，图3的消息320)尚未通过视觉、听觉或触觉(例如，盲文)呈现模式中的任何一种被呈现给接收者用户，则电子通信可以被称为未查看电子通信。在一个示例中，可以将指示电子通信是被查看还是未被查看的标识符存储为电子通信的元数据。在另一个示例中，标识符可以存储在从中获得电子通信的通信应用或服务处，并且可以与电子通信一起由应用或服务报告。

在714处，根据模式来组织在710处获得的电子通信。该模式可以由用户的计算设备的通信应用、服务器系统的通信服务或个人助理机器中的一个或多个以编程方式定义，这取决于实现方式。例如，一些通信服务或应用可以将电子通信组织或部分组织到对话线程中，而其他通信服务或应用可以不支持对话线程的使用。

在716处，在710处获得的电子通信可被分组为包含两个或更多个回复链接的电子通信的多个对话线程。如前所述，如果电子通信是对较早的电子通信的回复，则两个或更多个电子通信是回复链接的，并且电子通信可以通过一个或多个中间回复链接的电子通信回复链接至较早的电子通信。在操作716之后，每个对话线程包括彼此回复链接的针对接收者的两个或更多个电子通信。然而，将理解的是，至少一些对话线程可以包括个体电子通信。在718处，可以针对每个对话线程存储表示电子通信的分组的数据。例如，表示来自操作716的分组的数据可以存储在计算设备的存储子系统中，包括在用户本地的计算设备处和/或在远程服务器系统处。

在720处，可以根据指示每个电子通信的定时的时间戳按时间顺序对每个对话线程的电子通信进行排序。在722处，可以针对每个对话线程存储表示电子通信的排序的数据。例如，表示来自操作722的排序的数据可以存储在计算设备的存储子系统中，包括在用户本地的计算设备处和/或在远程服务器系统处。

在724处，可以基于规则对对话线程进行排序以获得对话线程之间的呈现顺序。如先前参考图5的呈现顺序示例所描述的，在对话线程之间可以支持多种不同的呈现顺序。根据参考图6进一步详细描述的第一示例呈现顺序，在操作724处应用的规则可以包括识别每个对话线程的最新未查看电子通信，并且基于对话线程的最新未查看电子通信的定时，以相反的时间顺序对对话线程进行排序。可以定义在操作724处应用的规则以提供本文中描述的任何示例呈现顺序。在726处，可以存储表示对话线程的排序的数据。例如，表示来自操作724的排序的数据可以存储在计算设备的存储子系统中，包括在用户本地的计算设备处和/或在远程服务器系统处。

在728处，接收用于发起针对接收者的电子通信的音频呈现的指令。该指令可以采用用户口述命令的形式，例如先前参考图1所描述的，其中用户语音130包括“Readmessages(阅读消息)”。在至少一些示例中，用于发起音频呈现的口述命令可以在个人助理设备处预定义并可由个人助理设备识别的一个或多个关键词，例如“Messages(消息)”、“Play messages(播放消息)”、“Read messages(阅读消息)”、“Hear messages(听到消息)”、“Get mail(获取邮件)”、“tell me about my emails(告诉我我的电子邮件)”、“Whatemails do I have？(我有哪些电子邮件？)”、“Did anyone email me？(有人给我发过电子邮件吗？)”、“Do I have any new emails？(我有任何新电子邮件吗？)”，等等。在至少一些示例中，用户通过特定口述话语发起音频呈现的意图可以从上下文推断和/或可以从与用户的先前交互中获悉。例如，个人助理设备可以向用户询问用户是否想要发起未查看电子通信的音频呈现，用户可以通过说“yes(是)”或“please(请)”来响应。在728处接收的指令还可以包括非语言命令，例如经由任何输入设备或用户的计算设备的接口提供的用户输入。此外，在一些示例中，未查看电子通信的音频呈现可以在某些上下文中由个人助理设备发起而无需接收指令。例如，个人助理设备可以响应于特定的操作条件来发起音频呈现，例如安排的时间、用户拿起个人助理设备、接收到新的未查看电子通信，等等。

在730处，响应于在728处接收的指令，根据在操作724处获得的呈现顺序输出对话线程的音频呈现。呈现顺序可以由下列中的一项或多项来定义：在716处的电子通信的分组、在720处的电子通信的排序，以及在724处的对话线程的排序，并且可以基于存储在718、722和726处的数据。

在一个示例中，音频呈现包括按时间先后顺序的每个对话线程的未查看电子通信，其从对话线程的最旧未查看电子通信开始并继续到对话线程的最新未查看电子通信，对话线程在多个对话线程中的另一个对话线程之前，另一个对话线程包括在时间上穿插在该对话线程的最旧未查看电子通信和最新未查看电子通信之间的未查看电子通信。例如，在732处，在734处的第二对话线程的未查看电子通信之前，根据时间先后顺序可听地输出第一对话线程的两个或更多个未查看电子通信。

此外，在一个示例中，对话线程的呈现顺序可以是基于多个对话线程中的每个对话线程的最新未查看电子通信的反向时间先后顺序，使得具有第一最新未查看电子通信的第一对话线程在732处在第二对话线程之前被呈现，第二对话线程具有比多个对话线程的第一最新未查看电子通信更旧的第二最新未查看电子通信。参考图6描述了这种反向时间先后顺序的示例。

730处的音频呈现输出可以包括，对于每个未查看电子通信，被呈现为可听输出的未查看电子通信的消息的文本内容的至少一部分。在一个示例中，未查看电子通信的消息的所有文本内容可以被呈现为可听输出。此外，在至少一些示例中，音频呈现还包括：对于多个对话线程中的每个对话线程，在对话线程的文本内容之前被呈现为可听输出的对话线程的线程摘要。参考图4描述了在消息内容之前呈现的线程摘要的示例。

在740处，可以接收用于推进音频呈现的第二指令。在740处接收的指令可以采用用户的口述命令的形式，例如先前参考图1描述的，其中用户语音130包括“Nextconversation(下一个对话)”。然而，在740处接收的指令可以包括非语言命令，例如经由任何输入设备或用户的计算设备的接口提供的用户输入。

在742处，响应于第二指令，可以将多个对话线程的音频呈现从当前对话线程推进到呈现顺序的后续对话线程。应当理解，个人助理设备可以支持音频呈现内的其他形式的导航，包括结束音频呈现、重新开始音频呈现、跳到下一个对话线程、跳到由用户标识的特定对话线程、跳过下一个未查看电子通信、跳到由用户标识的特定未查看电子通信，等等。

针对对话线程推进音频呈现的动作是个人助理设备可以支持的多个动作之一。例如，操作740可以替代地包括用于执行不同动作的指令，例如回复、转发给另一个接收者、存储或删除对话线程，或者将对话线程标记为重要(例如，标记对话线程或其电子通信)。对于至少一些类型的动作，响应于用于执行动作的指令，在742处，个人助理设备可以将动作应用于对话线程的每个电子通信。由个人助理设备用于发起特定动作的口述命令可以包括：在个人助理设备处预定义的并且可由个人助理设备识别的一个或多个关键词，或者可由个人助理设备从上下文推断出口述话语的意图，例如先前参考在728处接收到的指令所描述的。

图7B描绘了用于呈现对话线程的示例方法750的流程图。方法750可以结合图7A的方法700来执行。例如，方法750或其部分可以形成方法700的操作730的一部分。方法750或其部分可由计算系统的一个或多个计算设备执行。例如，方法700可以由图2的计算设备210或由包括计算设备210的计算系统结合图2的服务器系统260来执行。

在752处，可以接收指令。例如，在752处接收的指令可以对应于在图7A的728处接收的指令。响应于该指令，该方法在752处包括：可听地输出最新对话线程中的每个未查看电子通信，其包括针对接收者的一组最新未查看的、回复链接的电子通信。例如，在754处，个人助理设备可听地输出下一个最新对话线程。作为在754处可听地输出下一个最新对话线程的一部分，在756处，个人助理设备可以可听地输出线程摘要。然而，在其他示例中线程摘要可能不是可听地输出的。

在758处，可以以时间先后顺序可听地输出最新对话线程中的每个未查看电子通信，在760处从最旧未查看电子通信开始。在760处可听地输出最旧未查看电子通信可以包括：在762处可听地输出通信摘要，以及在764处可听地输出消息的一些或全部文本内容。然而，在其他示例中通信摘要可能不是可听地输出的。

在766处，如果对话线程中还有未查看电子通信，则该方法返回到760，其中最旧未查看电子通信被可听地输出。因此，该方法继续到最新未查看电子通信，例如先前参考图6的示例呈现顺序所描述的。

在766处，如果在对话线程中不再有未查看电子通信，则方法进行到768。在768处，如果存在包括未查看电子通信的更多对话线程，则该方法可以返回到754，其中在754处可听地输出下一个最新对话线程。因此，响应于完成来自对话线程的最新未查看电子通信的可听输出，该方法包括：可听地输出下一个最新对话线程中的每个未查看电子通信，包括针对接收者的一组下一个最新未查看、回复链接的电子通信。下一个最新对话线程中的每个未查看电子通信在758处以时间先后顺序可听地输出，从最旧未查看电子通信开始并继续到最新未查看电子通信。

例如，如参考图4-图6所描述的，来自下一个最新通信线程的至少一个未查看电子通信在时间顺序上可以在来自最新通信线程的两个未查看电子通信中间，并且来自最新对话线程的所有未查看电子通信可以是通过使用方法750在来自下一个最新通信线程的任何未查看电子通信被可听地输出之前可听地输出的。

图8描绘了用于呈现对话线程的时间标识信息的示例方法800的流程图。方法800或其部分可由计算系统的一个或多个计算设备执行。例如，方法800可以由图2的计算设备210或由包括计算设备210的计算系统结合图2的服务器系统260来执行。

在810处，该方法包括：接收用于发起针对接收者的电子通信的音频呈现的指令。如先前参考图7的操作728所描述的，指令可以包括用户的口述命令。

在812处，获得针对接收者的电子通信。如先前参考图7的操作710所描述的，可以在用户的计算设备处经由通信网络从远程服务器系统获得针对接收者的电子通信。

在814处，识别针对接收者的未查看电子通信。如先前参考图5所描述的，如果电子通信的消息(例如，图3的消息320)尚未通过视觉、听觉或其他(例如，盲文)呈现模式中的任何一种被呈现给接收者用户，则电子通信可以被称为未查看电子通信。在一个示例中，可以将指示电子通信是被查看还是未被查看的标识符存储为电子通信的元数据。在另一个示例中，标识符可以存储在从中获得电子通信的通信应用或服务处，并且可以与电子通信一起由应用或服务报告。

在816处，确定用于呈现音频呈现的一部分的估计时间，其中该部分包括针对接收者的未查看电子通信的文本内容的可听输出。文本内容可以包括每个未查看电子通信的消息的文本内容。作为示例，估计时间是基于多个未查看电子通信的文本内容的特征来确定的。例如，文本内容的特征可以包括文本内容的词语计数或字符计数；并且可以基于词语计数或字符计数(例如，每个词语0.7秒)以算法的方式来计算时间估计。作为另一示例，该方法还可以包括：将多个未查看电子通信的文本内容转换成表示文本内容的可听输出的音频数据，基于音频数据的特征来确定用于呈现音频呈现的后续部分的估计时间。例如，音频数据的特征可以包括音频数据的量(例如，字节计数)，或者音频数据在目标呈现速率下的持续时间。

估计时间可以基于将由个人助理设备在后续部分中可听地输出的音频呈现中包含的其他信息来确定。例如，在音频呈现包括每个对话线程的线程摘要的情况下，还可以基于音频呈现的后续部分内线程摘要的持续时间来确定估计时间。

在至少一些示例中，由呈现路线图标识的估计时间可以采用广义时间估计的形式。图9A描绘了广义时间估计的示例。在广义时间估计的情况下，操作816还可以包括：确定估计时间的初始值，并基于估计时间的初始值从多个分级的广义时间估计中选择广义时间估计。图9A中描绘的广义时间估计的示例指的是表示估计时间的初始值的会话持续时间。在至少一些示例中，估计时间可以四舍五入为广义时间估计，例如，如图9A所描绘的。

在818处，响应于指令来输出音频呈现。输出音频呈现包括：输出音频呈现的初始部分，其包括呈现路线图820，以及后续部分，其包括接收者的多个未查看电子通信的文本内容的可听输出。在一个示例中，820处的呈现路线图输出标识用于在操作822处呈现音频呈现输出的后续部分的估计时间，其对应于在操作816处针对其确定了估计时间的部分。

818处的呈现路线图输出可以标识音频呈现的其他特征，例如先前参考图4所描述的。作为示例，呈现路线图还可以标识未查看电子通信的数量和/或针对未查看电子通信的对话线程的数量。

可以类似地执行方法800的各方面以在包含一个或多个回复链接的电子通信的对话线程的线程摘要中或针对个体电子通信的通信摘要呈现估计时间，例如参考图4所描述的。

图9A-图9E描绘了一些表格，其中针对一系列条件提供了个人助理设备的示例可听输出。图9A-图9E中描绘的可听输出可以用作与用户的对话的一部分，包括例如作为呈现路线图、线程摘要和通信摘要的一部分。

图9A描绘了个人助理设备基于音频呈现或其一部分的估计时间或持续时间的各种示例自然语言响应。

图9B描绘了个人助理设备基于电子通信或对话线程的接收者的各种示例自然语言响应。

图9C描绘了个人助理设备基于对话线程的未查看电子通信的数量的各种示例自然语言响应。

图9D描绘了个人助理设备基于在对话线程内电子通信的接收者的变化的各种示例自然语言响应。

图9E描绘了个人助理设备基于消息的文本内容的音频呈现持续时间的估计的各种示例自然语言响应。

图10A-图10P描绘了根据上述描述的、用户与个人助理设备之间的示例对话。图10A-图10P的示例对话的、与由“助理”表示的个人助理设备相对应的部分可以采用个人助理设备的可听输出的形式，并且与由“用户”表示的用户相对应的对话的部分可以采取用户的口述话语的形式。

在至少一些示例中，个人助理设备可以利用被配置为实现方法700的逻辑的一个或多个对话模板。例如，图4的时间线可以表示从对话模板实例化的对话，对话模板以问候410开始，进展到呈现路线图414，变化到日期418，在以引导式通知450、额外信息460和结束语462结束之前，然后根据方法750循环通过每个未查看的对话线程。应当理解，可以使用以不同顺序呈现信息的不同模板。这样的模板可以被配置为：响应于用户指令分支到不同的对话顺序。

图10A-图10C描绘了示例对话。在图10A中，个人助理设备可听地输出诸如先前参考图1所描述的呈现路线图，随后是额外对话线程的可听输出。在图10B和图10C中，用户提供指令以执行针对对话线程的额外动作，包括将电子通信标记为重要。例如，在图10B中，当个人助理设备正在可听地输出来自发送者“Satya”的消息的文本内容时，用户使用“flagthat(标记它)”形式的打断口述命令。此外，在图10B中，在针对主题“Pizza party(披萨派对)”的对话线程由个人助理设备可听地输出之后，用户在由个人助理设备提供的静默时段(例如，图4的静默时段432)期间提供口述命令“flag that(标记它)”。在图10C中，个人助理设备通过可听地输出“You’ve got a package from Company XYZ on its way(您有来自XYZ公司的包裹正在运送途中)”作为图4的额外信息460的示例，以及“That’s all for now(暂时就这些)”作为对图4的结束语462的可听指示来结束电子通信的音频呈现。

图10D和图10E描绘了用于收件箱询问的示例对话框。在图10D中，个人助理设备使用引导式呈现模式，其中个人助理设备在呈现路线图被可听地输出之后询问用户“Whichsender do you wanna hear more about？(你想更多地了解哪个发送者？)”，该路线图标识了特定的发送者“Jade”、“Ruby”和“Trent”以及其他路线图信息。个人助理设备的这种询问可以采用图4的打断通知416的形式。响应于用户说出“Jade”，个人助理设备呈现针对来自Jade的未查看电子通信的线程摘要，其再次识别发送者“Jade”、主题“Touching letter..(感人的信……)”以及时间/长度估计“it’s a long one(它是一封长信)”。在线程摘要之后，个人助理设备使用引导式呈现模式来询问用户“Wanna hear it？(想听吗？)”，并且响应于用户提供口述命令“yes(是)”，个人助理设备可听地输出消息的文本内容的至少一部分。

在图10E中，个人助理设备突出显示用户可能想从总共10个未查看电子通信中听到的三个未查看电子通信。

图10F描绘了用于基于人的查询的示例对话。

图10G描绘了示例对话，其中个人助理设备在呈现路线图中突出显示电子通信的特定发送者。

图10H描绘了收件箱查询的示例对话，其中个人助理设备确定未查看电子通信不重要。

图10I描绘了收件箱查询的示例对话框，其中不存在针对接收者的未查看电子通信。

图10J描绘了示例对话，其中个人助理设备响应于口述命令准备并代表用户发送电子通信。

图10K描绘了示例对话，其中个人助理设备响应于口述命令而代表用户回复电子通信。

图10L描绘了示例对话，其中个人助理设备响应于口述命令代表用户来回复具有多个接收者的电子通信。

图10M描绘了示例对话，其中个人助理设备通过口述命令将电子通信转发给用户标识的另一个接收者。

图10N描绘了示例对话，其中个人助理设备代表用户保存回复的草稿。

图10O描绘了示例对话，其中用户选择要由个人助理设备可听地输出的特定电子通信。

图10P描绘了示例对话，其中个人助理设备可听地输出电子通信的日历数据，并且响应于用户的口述命令来执行针对日历数据的动作。例如，个人助理设备输出“Would youlike to accept this meeting？(你愿意接受这次会议吗？)”，对此用户响应“Yes(是的)”，响应于此，个人助理设备向会议请求的发送者(即“Nicki”)发送会议确认回复。

在至少一些示例中，本文中描述的方法和过程可以绑定到一个或多个计算设备的计算系统。具体而言，这些方法和过程可以实现为计算机应用程序或服务、应用编程接口(API)、库和/或其他计算机程序产品。

再次参考图2，计算系统200是可以执行本文中描述的一个或多个方法和操作的示例计算系统。以简化的形式示出了计算系统200。计算系统200可以采取下列形式：一个或多个移动计算设备、可穿戴计算设备、与车辆集成的计算设备、桌面式计算设备、家用电器计算设备、个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如，智能手机)、物联网(IoT)设备、嵌入式计算设备和/或其他计算设备。

逻辑子系统212可以包括被配置为执行软件指令的一个或多个处理器。另外地或替代地，逻辑子系统可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑电路。逻辑子系统的处理器可以是单核或多核的，并且在其上执行的指令可以被配置用于顺序、并行和/或分布式处理。逻辑子系统的各个组件可选地可以分布在两个或更多个单独的设备中，这些设备可以远程放置和/或被配置用于协同处理。逻辑子系统的一些方面可以虚拟化，并且由在云计算配置中配置的可远程访问的联网计算设备执行。

存储子系统214可以包括可移除和/或内置设备。存储子系统214可以包括光存储器(例如，CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁性存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)以及其他。存储子系统214可以包括易失性、非易失性、动态、静态、读/写、只读、随机访问、顺序访问、位置可寻址、文件可寻址和/或内容可寻址设备。应当理解，存储子系统214包括一个或多个物理设备并且不仅仅是在有限持续时间内不被物理设备保存的电磁信号、光信号等。

逻辑子系统212和存储子系统214的方面可以一起集成到一个或多个硬件逻辑组件中。例如，这样的硬件逻辑组件可以包括现场可编程门阵列(FPGA)、程序专用和应用专用集成电路(PASIC/ASIC)、程序专用和应用专用标准产品(PSSP/ASSP)、片上系统(SoC)以及复杂可编程逻辑器件(CPLD)。

当本文中描述的方法和操作由逻辑子系统212和存储子系统214实现时，存储子系统214的状态可以被转换—例如，以保存不同的数据。例如，逻辑子系统212可以被配置为：执行作为一个或多个应用、服务、程序、例程、库、对象、组件、数据结构或其他逻辑构造的部分的指令222。可以实现这样的指令以执行任务、实现数据类型、转换一个或多个组件的状态、达到技术效果或以其他方式达到期望的结果。

逻辑子系统和存储子系统可以协作以实例化一个或多个逻辑机，例如先前参考个人助理机230、语音输出机232和语音输入机234所描述的。将理解的是，本文中描述的“机器”(例如，参考图2)从来不是抽象的想法并且总是具有有形的形式。向特定机器提供与硬件相结合的功能的指令222可以可选地被保存为合适的存储设备上的未执行模块，并且可以经由网络通信和/或保存此类模块的物理存储设备的传输来发送此类模块。

可以使用最新技术和/或未来机器学习(ML)、人工智能(AI)和/或自然语言处理(NLP)技术的任何合适组合来实现机器。可以并入一个或多个机器的实施方式中的技术的非限制性示例包括支持向量机、多层神经网络、卷积神经网络(例如，包括用于处理图像和/或视频的空间卷积网络、用于处理音频信号和/或自然语言句子的时间卷积神经网络，和/或被配置为跨一个或多个时间和/或空间维度对特征进行卷积和池化的任何其他合适的卷积神经网络)、循环神经网络(例如，长短期记忆网络)、关联记忆(例如，查找表、哈希表、布隆(Bloom)过滤器、神经图灵机和/或神经随机存取存储器)、词嵌入模型(例如，GloVe或Word2Vec)、无监督空间和/或聚类方法(例如，最近邻算法、拓扑数据分析和/或k均值聚类)、图形模型(例如，(隐)马尔可夫模型、马尔可夫随机场、(隐)条件随机场和/或人工智能知识库)，和/或自然语言处理技术(例如，标记化、词干提取、选区和/或依赖性解析，和/或意图识别、分段模型和/或超分段模型(例如，隐动态模型))。

在一些示例中，可使用一个或多个可微函数来实现本文描述的方法和过程，其中可以针对可微函数的输入和/或输出来计算和/或估计可微函数的梯度(例如，针对训练数据和/或针对目标函数)。这样的方法和过程可以至少部分由一组可训练参数确定。因此，可以通过任何合适的训练过程来调整用于特定方法或过程的可训练参数，以便持续改善该方法或过程的功能。

用于调整可训练参数的训练过程的非限制性示例包括受监督训练(例如，使用梯度下降或任何其他合适的优化方法)、零样本、少样本、无监督学习方法(例如，基于从无监督聚类方法得出的类别的分类)、强化学习(例如，基于反馈的深度Q学习)，和/或生成式对抗神经网络训练方法、信念传播、RANSAC(随机样本共识)、上下文Bandit方法、最大似然法和/或期望最大化。在一些示例中，可以针对测量多个组件的集体功能(例如，针对增强反馈和/或针对标记的训练数据)的性能的目标函数来同时训练本文描述的多个方法、过程和/或系统的组件。同时训练多个方法、过程和/或组件可以改善这种集体功能。在一些示例中，可以独立于其他组件来训练一个或多个方法、过程和/或组件(例如，对于历史数据的离线训练)。

语言模型可以利用词汇特征来引导采样/搜索词语以识别语音。例如，语言模型可以至少部分由词语的统计分布或其他词汇特征来定义。例如，可以通过n元语法的统计分布来定义语言模型，该n元语法根据词汇统计来定义候选词之间的转移概率。语言模型还可以基于任何其他适当的统计特征和/或使用一个或多个机器学习和/或统计算法处理统计特征的结果(例如，由这种处理产生的置信度值)。在一些示例中，统计模型可以限制可以针对音频信号识别的词语，例如，基于以下假设：音频信号中的词语来自特定词汇。

替代地或另外地，语言模型可以基于一个或多个神经网络，该神经网络先前被训练以表示共享的潜在空间中的音频输入和词语，例如，由一个或多个音频和/或单词模型学习的向量空间(例如，wav2letter和/或word2vec)。因此，找到候选词可以包括基于由音频模型针对音频输入编码的向量来搜索共享的潜在空间，以便找到候选词向量以用词语模型来进行解码。共享的潜在空间可以用于针对一个或多个候选词语评估该候选词语在语音音频中起重要作用的置信度。

该语言模型可以与声学模型结合使用，该声学模型被配置为针对候选词和音频信号，基于该词语的声学特征(例如，梅尔频率倒谱系数，共振峰等)，评估该候选词包括在音频信号中的语音音频中的置信度。可选地，在一些示例中，语言模型可以并入声学模型(例如，语言模型的评估和/或训练可以基于声学模型)。声学模型例如基于标记的语音音频，定义了声学信号与诸如音素之类的基本声音单元之间的映射。声学模型可以基于最先进的技术或未来机器学习(ML)和/或人工智能(AI)模型的任何适当组合，例如：深度神经网络(例如，长短期记忆、时间卷积神经网络、受限玻尔兹曼机、深度信念网络)、隐式马尔可夫模型(HMM)、条件随机场(CRF)和/或马尔可夫随机场、高斯混合模型和/或其他图形模型(例如深贝叶斯网络)。可以用任何合适的方式对要用声学模型处理的音频信号进行预处理，例如，以任何合适的采样率进行编码、傅立叶变换、带通滤波器等。可以训练声学模型，以基于对带有标记的音频数据的训练来识别声学信号和声音单元之间的映射。例如，可以基于包括语音音频和经校正的文本的带标记音频数据来训练声学模型，以便学习语音音频信号和由经校正的文本表示的声音单元之间的映射。因此，可以持续改进声学模型以改进其正确识别语音音频的效用。

在一些示例中，除了统计模型、神经网络和/或声学模型之外，语言模型还可以并入任何合适的图形模型，例如，隐式马尔可夫模型(HMM)或条件随机场(CRF)。给定到目前为止识别出的语音音频和/或其他词语，图形模型可以利用统计特征(例如，转换概率)和/或置信度值来确定识别词语的可能性。因此，图形模型可以利用统计特征、先前训练的机器学习模型和/或声学模型来定义图形模型中表示的状态之间的转换概率。

在至少一些示例中，I/O子系统216可以包括所选择的自然用户输入(NUI)元件部分或与所选择的NUI元件部分对接。这样的元件部分可以是集成或外围的，并且输入动作的转换和/或处理可以是在板或离板处理的。示例NUI元件部分可以包括：用于语音和/或声音识别的麦克风；用于机器视觉和/或姿势识别的红外、彩色、立体和/或深度摄像头；头部跟踪器、眼部跟踪器、加速计、和/或用于运动检测和/或意图识别的回转仪；以及用于评估大脑活动的电场感应元件部分。

将理解的是：本文中使用的“服务”是跨多个用户会话可执行的应用程序。服务可以用于一个或多个系统组件、程序和/或其他服务。在一些实现中，服务可以在一个或多个服务器计算设备上运行。

根据本公开内容的一个示例，一种由计算系统执行的方法包括：接收用于发起针对接收者的电子通信的音频呈现的指令；响应于指令，在最新对话线程中可听地输出每个未查看电子通信，其包括针对接收者的一组最新未查看的、回复链接的电子通信，其中，最新对话线程中的每个未查看电子通信是以时间先后顺序可听地输出的，从最旧未查看电子通信开始并继续到最新未查看电子通信；以及响应于完成来自对话线程的最新未查看电子通信的可听输出，在下一个最新对话线程中可听地输出每个未查看电子通信，其包括针对接收者的一组下一个最新未查看的、回复链接的电子通信，其中，下一个最新对话线程中的每个未查看电子通信是以时间先后顺序可听地输出的，从最旧未查看电子通信开始并继续到最新未查看电子通信。在本文中公开的本示例或任何其他示例中，来自下一个最新通信线程的至少一个未查看电子通信在时间顺序上在来自最新对话线程的两个未查看电子通信中间，并且来自最新对话线程的所有未查看电子通信是在来自下一个最新通信线程的任何未查看电子通信被可听地输出之前可听地输出的。

根据本公开内容的另一示例，一种由计算系统执行的方法包括：接收用于发起针对接收者的电子通信的音频呈现的指令；以及响应于指令，根据呈现顺序输出多个对话线程的音频呈现，其中，每个对话线程包括彼此回复链接的针对接收者的两个或更多个未查看电子通信，音频呈现包括每个对话线程中按时间先后顺序的两个或更多个未查看电子通信，从最旧未查看电子通信开始并继续到对话线程的最新未查看电子通信，该对话线程在多个对话线程中的另一个对话线程之前，另一个对话线程包括在时间上穿插在该对话线程的最旧未查看电子通信和最新未查看电子通信之间的未查看电子通信。在本文中公开的本示例或任何其他示例中，呈现顺序是基于多个对话线程中的每个对话线程的最新未查看电子通信的反向时间先后顺序，使得：具有第一最新未查看电子通信的第一对话线程是在具有第二最新未查看电子通信的第二对话线程之前呈现的，第二最新未查看电子通信比多个对话线程的第一最新未查看电子通信旧。在本文中公开的本示例或任何其他示例中，方法还包括：接收用于推进多个对话线程的音频呈现的第二指令；以及响应于第二指令，将多个对话线程的音频呈现从当前对话线程推进到呈现顺序的后续对话线程。在本文中公开的本示例或任何其他示例中，方法还包括：接收用于执行与多个对话线程中的对话线程相关的动作的第二指令；以及响应于第二指令，将动作应用于对话线程的每个电子对话。在本文中公开的本示例或任何其他示例中，音频呈现包括：对于每个未查看电子通信，被呈现为可听输出的未查看电子通信的消息的文本内容的至少一部分。在本文中公开的本示例或任何其他示例中，音频呈现还包括：对于多个对话线程中的每个对话线程，在对话线程的文本内容之前呈现为可听输出的对话线程的线程摘要。在本文中公开的本示例或任何其他示例中，线程摘要标识对话线程的未查看电子通信的数量。在本文中公开的本示例或任何其他示例中，线程摘要标识用于呈现对话线程的估计时间。在本文中公开的本示例或任何其他示例中，线程摘要标识对话线程的未查看电子通信的接收者的数量。在本文中公开的本示例或任何其他示例中，线程摘要标识对话线程的主题。

根据本公开内容的另一示例，一种计算系统包括：音频输出接口，其用于经由一个或多个音频扬声器输出音频；逻辑子系统；以及存储子系统，其上存储有可由逻辑子系统执行用于以下操作的指令：接收用于发起针对接收者的电子通信的音频呈现的指令；以及响应于指令，经由音频接口根据呈现顺序输出多个对话线程的音频呈现，其中，每个对话线程包括彼此回复链接的针对接收者的两个或更多个未查看电子通信，音频呈现包括按时间先后顺序的每个对话线程的两个或更多个未查看电子通信，从最旧未查看电子通信开始并继续到对话线程的最新未查看电子通信，对话线程在多个对话线程中的另一个对话线程之前，另一个对话线程包括在时间上穿插在该对话线程的最旧未查看电子通信和最新未查看电子通信之间的未查看电子通信。在本文中公开的本示例或任何其他示例中，呈现顺序是基于多个对话线程中的每个对话线程的最新未查看电子通信的反向时间先后顺序，使得：具有第一最新未查看电子通信的第一对话线程是在具有第二最新未查看电子通信的第二对话线程之前呈现的，第二最新未查看电子通信比多个对话线程的第一最新未查看电子通信旧。在本文中公开的本示例或任何其他示例中，指令还可由逻辑子系统执行用于：接收用于推进多个对话线程的音频呈现的第二指令；以及响应于第二指令，将多个对话线程的音频呈现从当前对话线程推进到呈现顺序的后续对话线程。在本文中公开的本示例或任何其他示例中，指令还可由逻辑子系统执行用于：接收用于执行与多个对话线程中的对话线程相关的动作的第二指令；以及响应于第二指令，将动作应用于对话线程的每个电子对话。在本文中公开的本示例或任何其他示例中，音频呈现还包括：对于多个对话线程中的每个对话线程，在对话线程的文本内容之前被呈现为可听输出的对话线程的线程摘要。在本文中公开的本示例或任何其他示例中，线程摘要标识对话线程的未查看电子通信的数量。在本文中公开的本示例或任何其他示例中，线程摘要标识用于呈现对话线程的估计时间。在本文中公开的本示例或任何其他示例中，线程摘要标识对话线程的主题。

将理解的是：本文中描述的配置和/或方法在性质上是示例性的，并且这些具体实施例或示例不应该被认为具有限制性的意义，因为许多变体是可能的。本文中描述的具体例程或方法可以表示任意数量的处理策略中的一种或多种。因此，说明和/或描述的各个动作可以用说明和/或描述的顺序、用其他顺序、平行地来执行或被省略。同样地，上述过程的顺序可以改变。

本公开内容的主题包括各个过程、系统和配置的所有新颖和非显而易见的组合和子组合，以及本文中公开的其他特征、功能、动作和/或属性及它们的任何和所有等价项。

Claims

1.一种由计算系统执行的方法，所述方法包括：

接收用于发起针对接收者的电子通信的音频呈现的指令；

响应于所述指令，在最新对话线程中可听地输出每个未查看电子通信，所述最新对话线程包括针对所述接收者的一组最新未查看的、回复链接的电子通信，其中，所述最新对话线程中的每个未查看电子通信是以时间先后顺序可听地输出的，从最旧未查看电子通信开始并继续到最新未查看电子通信；以及

响应于完成来自对话线程的所述最新未查看电子通信的可听输出，在下一个最新对话线程中可听地输出每个未查看电子通信，所述下一个最新对话线程包括针对所述接收者的一组下一个最新未查看的、回复链接的电子通信，其中，所述下一个最新对话线程中的每个未查看电子通信是以时间先后顺序可听地输出的，从最旧未查看电子通信开始并继续到最新未查看电子通信。

2.根据权利要求1所述的方法，其中，来自所述下一个最新通信线程的至少一个未查看电子通信在时间顺序上在来自所述最新对话线程的两个未查看电子通信中间，并且其中，来自所述最新对话线程的所有未查看电子通信是在来自所述下一个最新通信线程的任何未查看电子通信被可听地输出之前可听地输出的。

3.根据权利要求1所述的方法，还包括：

接收用于推进未查看电子通信的可听输出的第二指令；以及

响应于所述第二指令，将所述可听输出推进到后续未查看电子通信。

4.根据权利要求1所述的方法，还包括：

接收用于执行与对话线程相关的动作的第二指令；以及

响应于所述第二指令，将所述动作应用于所述对话线程的每个电子通信。

5.一种计算系统，包括：

音频输出接口，用于经由一个或多个音频扬声器输出音频；

逻辑子系统；以及

存储子系统，其上存储有可由所述逻辑子系统执行以进行以下操作的指令：

接收用于发起针对接收者的电子通信的音频呈现的指令；以及

响应于所述指令，经由所述音频接口根据呈现顺序输出多个对话线程的音频呈现，其中，每个对话线程包括彼此回复链接的针对所述接收者的两个或更多个未查看电子通信，

所述音频呈现包括每个对话线程中按时间先后顺序的所述两个或更多个未查看电子通信，从最旧未查看电子通信开始并继续到所述对话线程的最新未查看电子通信，所述对话线程在所述多个对话线程中的另一个对话线程之前，所述另一个对话线程包括在时间上穿插在所述对话线程的所述最旧未查看电子通信和所述最新未查看电子通信之间的未查看电子通信。

6.根据权利要求5所述的计算系统，其中，所述呈现顺序是基于所述多个对话线程中的每个对话线程的最新未查看电子通信的反向时间先后顺序，使得：

具有第一最新未查看电子通信的第一对话线程是在具有第二最新未查看电子通信的第二对话线程之前呈现的，所述第二最新未查看电子通信比所述多个对话线程的所述第一最新未查看电子通信旧。

7.根据权利要求5所述的计算系统，其中，所述指令还可由所述逻辑子系统执行用于：

接收用于推进所述多个对话线程的所述音频呈现的第二指令；以及

响应于所述第二指令，将所述多个对话线程的所述音频呈现从当前对话线程推进到所述呈现顺序的后续对话线程。

8.根据权利要求5所述的计算系统，其中，所述指令还可由所述逻辑子系统执行用于：

接收用于执行与所述多个对话线程中的对话线程相关的动作的第二指令；以及

响应于所述第二指令，将所述动作应用于所述对话线程的每个电子对话。

9.根据权利要求5所述的计算系统，其中，所述音频呈现还包括：

对于所述多个对话线程中的每个对话线程，在所述对话线程的所述文本内容之前被呈现为可听输出的、所述对话线程的线程摘要。

10.根据权利要求9所述的计算系统，其中，所述线程摘要标识所述对话线程的未查看电子通信的数量。

11.根据权利要求9所述的计算系统，其中，所述线程摘要标识用于呈现所述对话线程的估计时间。

12.根据权利要求9所述的计算系统，其中，所述线程摘要标识所述对话线程的主题。