CN116830559A

CN116830559A - 处理语音音频流中断的系统和方法

Info

Publication number: CN116830559A
Application number: CN202180092238.XA
Authority: CN
Inventors: F·奥利维耶里; R·韦斯特堡; S·塔加杜尔希瓦帕
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2021-02-03
Filing date: 2021-12-09
Publication date: 2023-09-29
Also published as: JP2024505944A; US20220246133A1; EP4289129A1; BR112023014966A2; KR20230133864A; TW202236084A; US11580954B2; WO2022169534A1

Abstract

一种用于通信的设备包括一个或多个处理器，其被配置为在在线会议期间接收表示第一用户的语音的语音音频流。该一个或多个处理器还被配置为接收表示第一用户的语音的文本流。该一个或多个处理器还被配置为响应于该语音音频流中的中断而基于该文本流选择性地生成输出。

Description

处理语音音频流中断的系统和方法

优先权的要求

本申请要求2021年2月3日提交的共同拥有的美国非临时专利申请第17/166，250号的优先权，其内容通过引用明确地整体并入本文。

技术领域

本公开一般涉及处理语音音频流中断的系统和方法。

相关技术的描述

由于技术的进步而产生了更小型和更强大的计算设备。例如，当前存在各种便携式个人计算设备，包括诸如移动和智能电话之类的无线电话、小型、轻量且易于由用户携带的平板电脑和膝上型计算机。这些设备可以通过无线网络传送语音和数据分组。此外，许多这样的设备并入了附加功能，诸如数字静态相机、数字视频相机、数字记录器和音频文件播放器。此外，这样的设备可以处理可运行指令，包括可以用于访问因特网的软件应用，诸如web浏览器应用。这样，这些设备可以包括显著的计算能力。

这种计算设备通常并入从一个或多个麦克风接收音频信号的功能。例如，音频信号可以表示由麦克风捕获的用户语音，由麦克风捕获的外部声音或其组合。这样的设备可以包括用于在线会议或呼叫的通信设备。在第一用户和第二用户之间的在线会议期间的网络问题可导致帧丢失，使得由第一用户的第一设备发送的一些音频和视频帧不被第二用户的第二设备接收。网络问题导致的帧丢失可能导致在线会议期间不可恢复的信息丢失。例如，第二用户必须猜测错过了什么或者要求第一用户重复错过的内容，这带来不好的用户体验。

发明内容

根据本公开的一种实现方式，一种用于通信的设备包括一个或多个处理器，该一个或多个处理器被配置为在在线会议期间接收表示第一用户的语音的语音音频流。一个或多个处理器还被配置为接收表示第一用户的语音的文本流。该一个或多个处理器还被配置为响应于该语音音频流中的中断而基于该文本流选择性地生成输出。

根据本公开的另一种实现方式，一种通信方法包括在在线会议期间在设备处接收表示第一用户的语音的语音音频流。该方法还包括在设备处接收表示第一用户的语音的文本流。该方法还包括响应于该语音音频流中的中断而在该装置处基于该文本流选择性地生成输出。

根据本公开的另一种实现方式，一种非暂时性计算机可读介质包括指令，该指令在由一个或多个处理器运行时使该一个或多个处理器在在线会议期间接收表示第一用户的语音的语音音频流。当由该一个或多个处理器运行时，该指令还使该一个或多个处理器接收表示该第一用户的语音的文本流。该指令在由该一个或多个处理器运行时还使该一个或多个处理器响应于该语音音频流中的中断而基于该文本流选择性地生成输出。

根据本公开的另一种实现方式，一种装置包括用于在在线会议期间接收语音音频流的部件，该语音音频流表示第一用户的语音。该装置还包括用于接收表示第一用户的语音的文本流的部件。该装置还包括用于响应于该语音音频流中的中断而基于该文本流选择性地生成输出的部件。

本公开的其他方面、优点和特征在阅读整个申请(包括以下部分)后将变得显而易见：附图说明、具体实施方式和权利要求书。

附图说明

图1是根据本公开的一些示例的可操作来处理语音音频流中断的系统的特定说明性方面的框图。

图2是根据本公开的一些示例的可操作来处理语音音频流中断的系统的说明性方面的示图。

图3A是根据本公开的一些示例的由图1的系统或图2的系统生成的说明性图形用户界面(GUI)的示图。

图3B是根据本公开的一些示例的由图1的系统或图2的系统生成的说明性GUI的示图。

图3C是根据本公开的一些示例的由图1的系统或图2的系统生成的说明性GUI的示图。

图4A是根据本公开的一些示例的图1的系统或图2的系统的操作的说明性方面的示图。

图4B是根据本公开的一些示例的图1的系统或图2的系统的操作的说明性方面的示图。

图5是根据本公开的一些示例的可操作来处理语音音频流中断的系统的说明性方面的示图。

图6A是根据本公开的一些示例的由图5的系统生成的说明性图形用户界面(GUI)的示图。

图6B是根据本公开的一些示例的由图5的系统生成的说明性GUI的示图。

图6C是根据本公开的一些示例的由图5的系统生成的说明性GUI的示图。

图7A是根据本公开的一些示例的图5的系统的操作的说明性方面的示图。

图7B是根据本公开的一些示例的图5的系统的操作的说明性方面的示图。

图8是根据本公开的一些示例的可由图1、图2或图5的系统中的任一者执行的处理语音音频流中断的方法的特定实现方式的示图。

图9图示了根据本公开的一些示例的可操作来处理语音音频流中断的集成电路的示例。

图10是根据本公开的一些示例的可操作来处理语音音频流中断的移动设备的示图。

图11是根据本公开的一些示例的可操作来处理语音音频流中断的头戴式耳机的示图。

图12是根据本公开的一些示例的可用于处理语音音频流中断的可穿戴电子设备的示图。

图13是根据本公开的一些示例的可操作来处理语音音频流中断的声控扬声器系统的示图。

图14是根据本公开的一些示例的可操作来处理语音音频流中断的相机的示图。

图15是根据本公开的一些示例的可操作来处理语音音频流中断的头戴式耳机(诸如虚拟现实或增强现实头戴式耳机)的示图。

图16是根据本公开的一些示例的可操作来处理语音音频流中断的交通工具的第一示例的示图。

图17是根据本公开的一些示例的可操作来处理语音音频流中断的交通工具的第二示例的示图。

图18是根据本公开的一些示例的可操作来处理语音音频流中断的设备的特定说明性示例的框图。

具体实施方式

错过在线会议或呼叫的一部分可能对用户体验造成不好的影响。例如，在第一用户和第二用户之间的在线会议期间，如果由第一用户的第一设备发送的一些音频帧未被第二用户的第二设备接收到，则第二用户可能错过第一用户的语音的一部分。第二用户必须猜测第一用户所说的内容或要求第一用户重复错过的内容。这可能导致通信错误、中断对话流以及浪费时间。

公开了处理语音音频流中断的系统和方法。例如，每个设备包括会议管理器，该会议管理器被配置为在设备和一个或多个其他设备之间建立在线会议或呼叫。中断管理器(在装置处或在服务器处)被配置为处理语音音频流中断。

在第一用户的第一设备和第二用户的第二设备之间的在线会议期间，第一设备的会议管理器向第二设备发送媒体流。该媒体流包括语音音频流、视频流或两者。语音音频流对应于会议期间第一用户的语音。

流管理器(在第一设备处或在服务器处)通过对语音音频流执行语音到文本的转换来生成文本流，并将该文本流转发到第二设备。流管理器(例如，第一设备处或服务器处的会议管理器)在第一操作模式(例如，发送字幕数据模式)下，在整个在线会议期间与媒体流并发地转发文本流。在可替代示例中，在第二操作模式(例如，发送中断数据模式)中，流管理器(例如，第一设备或服务器处的中断管理器)响应于检测到向第二设备发送媒体流的网络问题(例如，低带宽、分组丢失等)将文本流转发到第二设备。

在一些示例中，网络问题导致在第二设备处接收媒体流的中断，而没有接收文本流的中断。在一些示例中，处于第一操作模式(例如，显示字幕数据模式)中的第二设备向显示器提供文本流，而与检测网络问题无关。在其他示例中，处于第二操作模式(例如，显示中断数据模式)的第二设备响应于检测到媒体流中的中断而显示文本流。

在特定示例中，流管理器(例如，会议管理器或中断管理器)除了文本数据之外还转发元数据流。元数据指示第一用户的语音的情感、语调、其他属性。在特定示例中，第二设备除了显示文本流之外还显示元数据流。例如，基于元数据流注释文本流。

在特定示例中，第二设备对文本流执行文本到语音的转换以生成合成语音音频流，且输出合成语音音频流(例如，以替换中断的语音音频流)。在特定示例中，文本到语音的转换至少部分地基于元数据流。

在特定示例中，第二设备在合成语音音频流的输出期间显示虚拟化身(avatar)(例如，以替换中断的视频流)。在特定示例中，文本到语音的转换基于通用语音模型。例如，第一通用语音模型可以用于一个用户，第二通用语音模型可以用于另一个用户，以便听众能够区分对应于不同用户的语音。在另一特定示例中，文本到语音的转换基于根据第一用户的语音生成的用户语音模型。在特定示例中，在在线会议之前生成用户语音模型。在特定示例中，在在线会议期间生成(或更新)用户语音模型。在特定示例中，用户语音模型从通用语音模型初始化并基于第一用户的语音更新。

在特定示例中，虚拟化身指示正在训练语音模型。例如，虚拟化身被初始化为红色以指示正在使用通用语音模型(或者用户语音模型未准备好)，并且虚拟化身随着时间从红色过渡到绿色以指示正在训练语音模型。绿色虚拟化身表示用户语音模型被训练(或用户语音模型准备就绪)。

在线会议可以在多于两个用户之间。在第一设备正在经历网络问题但是在线会议中的第三用户的第三设备没有经历网络问题的情形下，第二设备可以在输出从第三设备接收的与第三用户的语音、视频或两者对应的第二媒体流的同时输出第一用户的合成语音音频流。

下面参考附图描述本公开的特定方面。在说明书中，共同的特征由共同的附图标记表示。如本文所使用的，各种术语仅用于描述特定实现方式的目的，而不旨在限制实现方式。例如，单数形式“一个”、“一种”和“该”也旨在包括复数形式，除非上下文另外清楚地指出。此外，在本文描述的一些特征在一些实现方式中是单数，并且在其他实现方式中是复数。为了说明，图1描绘了包括一个或多个处理器(图1的“处理器”160)的设备104，其指示在一些实现方式中，设备104包括单个处理器160，而在其他实现方式中，设备104包括多个处理器160。

如本文所使用的，术语“包括(comprise)”、“包括(comprises)”和“包括(comprising)”可与“包含(include)”、“包含(includes)”或“包含(including)”互换使用，另外，术语“其中”可与“在哪里”互换使用。如本文所使用的，“示例性”指示示例、实现方式和/或方面，并且不应被解释为限制或指示偏好或优选实现方式。如本文所使用的，用于修改诸如结构、组件、操作等元素的序数术语(例如，“第一”、“第二”、“第三”等)本身并不指示该元素相对于另一元素的任何优先级或顺序，而是仅将该元素与具有相同名称的另一元素区分开(但使用序数术语)。如本文所使用的，术语“集合”是指一个或多个特定元素，并且术语“多个”是指多个(例如，两个或多个)特定元素。

如本文所使用的，“耦合”可以包括“通信地耦合”、“电耦合”或“物理地耦合”，并且还可以(或可替代地)包括其任何组合。两个设备(或组件)可以经由一个或多个其他设备、组件、导线、总线、网络(例如，有线网络、无线网络或其组合)等直接或间接地耦合(例如，通信地耦合、电耦合或物理地耦合)。作为说明性的非限制性示例，电耦合的两个设备(或组件)可以被包括在相同的设备中或不同的设备中，并且可以经由电子器件、一个或多个连接器或电感耦合来连接。在一些实现方式中，通信地耦合(诸如，电通信)的两个设备(或组件)可以经由一个或多个导线、总线、网络等直接或间接地发送和接收信号(例如，数字信号或模拟信号)。如本文所使用的，“直接耦合”可以包括在没有中间组件的情况下耦合(例如，通信地耦合、电耦合或物理地耦合)的两个设备。

在本公开中，诸如“确定”、“计算”、“估计”、“移位”、“调整”等术语可用于描述如何执行一个或多个操作。应当注意，这些术语不应被解释为限制性的，并且可以利用其他技术来执行类似的操作。另外，如本文所提到的、“生成”、“计算”、“估计”、“使用”、“选择”、“访问”和“确定”可以互换使用。例如，、“生成”、“计算”、“估计”或“确定”参数(或信号)可以指主动地生成、估计、计算或确定参数(或信号)，或者可以指使用、选择或访问已经生成的参数(或信号)，诸如由另一组件或设备生成。

参考图1，公开了被配置为处理语音音频流中断的系统的特定说明性方面，且将其大体指定为100。系统100包括经由网络106耦合到设备104的设备102。网络106包括有线网络、无线网络或两者。设备102耦合到相机150、麦克风152或两者。装置104耦合到扬声器154、显示设备156或两者。

设备104包括耦合到存储器132的一个或多个处理器160。一个或多个处理器160包括耦合到中断管理器164的会议管理器162。会议管理器162和中断管理器164耦合到图形用户界面(GUI)生成器168。中断管理器164包括文本到语音的转换器166。设备102包括一个或多个处理器120，该处理器120包括耦合到中断管理器124的会议管理器122。会议管理器122和会议管理器162被配置为建立在线会议(例如，音频呼叫、视频呼叫、会议呼叫等)。在特定示例中，会议管理器122和会议管理器162对应于通信应用(例如，在线会议应用)的客户端。中断管理器124和中断管理器164被配置为处理语音音频中断。

在一些实现方式中，会议管理器122和会议管理器162无视(例如，未意识到)由中断管理器124和中断管理器164管理的任何语音音频中断。在一些实现方式中，会议管理器122和会议管理器162分别对应于设备102和设备104的网络协议栈(例如，开放系统互连(OSI)模型)的较高层(例如，应用层)。在一些实现方式中，中断管理器124和中断管理器164分别对应于设备102和设备104的网络协议栈的较低级别(例如，传输层)。

在一些实现方式中，设备102、设备104或两者对应于各种类型的设备或被包括在各种类型的设备中。在说明性示例中，一个或多个处理器120、一个或多个处理器160或其组合被集成在头戴式耳机设备中，如参考图11进一步描述的。在其他示例中，一个或多个处理器120、一个或多个处理器160或其组合被集成在如参考图10所描述的移动电话或平板计算机设备、如参考图12所描述的可穿戴电子设备、如参考图13所描述的声控扬声器系统、如参考图14所描述的相机设备，或如参考图15所描述的虚拟现实头戴式耳机、增强现实头戴式耳机或混合现实头戴式耳机中的至少一者中。在另一个说明性示例中，一个或多个处理器120、一个或多个处理器160或其组合被集成到交通工具中，如参考图16和图17进一步描述的。

在操作期间，会议管理器122和会议管理器162在设备102和设备104之间建立在线会议(例如，音频呼叫、视频呼叫、会议呼叫或其组合)。例如，在线会议在设备102的用户142和设备104的用户144之间。麦克风152在用户142正在讲话时捕获用户142的语音，并向设备102提供表示该语音的音频输入153。在特定方面，相机150(例如，静态相机、视频相机或两者)捕获用户142的一个或多个图像(例如，静态图像或视频)且将表示该一个或多个图像的视频输入151提供给设备102。在特定方面，相机150将视频输入151提供给设备102，同时麦克风152将音频输入153提供给设备102。

会议管理器122基于音频输入153、视频输入151或两者生成媒体帧的媒体流109。例如，媒体流109包括语音音频流111、视频流113或两者。在特定方面，会议管理器122经由网络106实时地向设备104发送媒体流109。例如，会议管理器122在接收到视频输入151、音频输入153或两者时生成媒体流109的媒体帧，并且在生成媒体帧时发送(例如，启动发送)媒体帧的媒体流109。

在特定实现方式中，在设备102的第一操作模式(例如，发送字幕数据模式)期间，会议管理器122基于音频输入153生成文本流121、元数据流123或两者。例如，会议管理器122对音频输入153执行语音到文本的转换以生成文本流121。文本流121指示对应于在音频输入153中检测到的语音的文本。在特定方面，会议管理器122对音频输入153执行语音语调分析以生成元数据流123。例如，元数据流123指示在音频输入153中检测到的语音的语调(例如，情感、音高、音调或其组合)。在设备102的第一操作模式(例如，发送字幕数据模式)中，会议管理器122将文本流121、元数据流123或两者(例如，作为隐藏字幕数据)与媒体流109一起发送到设备104(例如，独立于网络问题或语音音频中断)。可替代地，会议管理器122在设备102的第二操作模式(例如，发送中断数据模式)期间，响应于确定没有检测到语音音频中断，避免生成文本流121和元数据流123。

设备104经由网络106从设备102接收媒体帧的媒体流109。在特定实现方式中，设备104接收媒体流109的媒体帧的集合(例如，突发)。在可替代实现方式中，设备104在媒体流109的时间接收一个媒体帧。会议管理器162播放媒体流109的媒体帧。例如，会议管理器162基于语音音频流111生成音频输出143，并经由扬声器154播放(例如，作为流音频内容)音频输出143。在特定方面，GUI生成器168基于媒体流109生成GUI 145，如参考图3A进一步描述的。例如，GUI生成器168生成(或更新)GUI 145以显示视频流113的视频内容，并向显示设备156提供GUI 145(例如，流式传输视频内容)。用户144可以在显示设备156上观看用户142的图像，同时经由扬声器154收听用户142的音频语音。

在特定实现方式中，会议管理器162在播放之前将媒体流109的媒体帧存储在缓冲器中。例如，会议管理器162在接收媒体帧和在第一回放时间回放媒体帧之间添加延迟，以增加后续媒体帧在缓冲器中的相应回放时间(例如，第二回放时间)可用的可能性。在特定方面，会议管理器162实时播放媒体流109。例如，会议管理器162从缓冲器检索媒体流109的媒体帧以播放音频输出143、GUI 145的视频内容或两者，同时媒体流109的后续媒体帧正被设备104接收(或预期被接收)。

在设备104的第一操作模式(例如，显示字幕数据模式)中，会议管理器162与媒体流109一起播放文本流121(例如，独立于检测语音音频流111中的中断)。在特定方面，会议管理器162，例如，在设备102的第一操作模式(例如，发送字幕数据模式)期间与媒体流109一起接收文本流121、元数据流123或两者。在可替代方面，会议管理器162，例如，在设备102的第二操作模式(例如，发送中断数据模式)期间不接收文本流121、元数据流123或两者，并且基于语音音频流111、视频流113或两者来生成文本流121、元数据流123或两者。例如，会议管理器162对语音音频流111执行语音到文本的转换以生成文本流121，并对语音音频流111执行语调分析以生成元数据流123。

在设备104的第一操作模式(例如，显示字幕数据模式)期间，会议管理器162将文本流121作为输出提供给显示设备156。例如，会议管理器162使用GUI 145与显示视频流113的视频内容，向扬声器154提供音频输出143或两者同时显示文本流121的文本内容(例如，作为隐藏字幕)。为了说明，会议管理器162将文本流121提供给GUI生成器168，同时将视频流113提供给GUI生成器168。GUI生成器168更新GUI 145以显示文本流121、视频流113或两者。GUI生成器168向显示设备156提供GUI 145的更新，同时会议管理器162向扬声器154提供语音音频流111作为音频输出143。

在特定示例中，会议管理器162基于文本流121和元数据流123生成注释文本流137。在特定方面，会议管理器162通过基于元数据流123向文本流121添加注释来生成注释文本流137。会议管理器162将注释文本流137作为输出提供给显示设备156。例如，会议管理器162与媒体流109一起播放注释文本流137。为了说明，会议管理器162在显示视频流113的视频内容、向扬声器154提供音频输出143或两者的同时，使用GUI 145显示注释文本流137的注释的文本内容(例如，作为具有语调指示的隐藏字幕)。

在特定实现方式中，会议管理器162在设备104的第二操作模式(例如，显示中断数据模式或隐藏字幕禁用模式)中避免播放文本流121(例如，注释文本流137)。例如，会议管理器162不接收文本流121(例如，在设备102的第二操作模式期间)，并且在第二操作模式(例如，显示中断数据模式或隐藏字幕禁用模式)下不生成文本流121。作为另一个示例，会议管理器162接收文本流121，并且响应于检测到设备104的第二操作模式(例如，显示中断数据模式或隐藏字幕禁用模式)，避免播放文本流121(例如，注释文本流137)。在特定方面，中断管理器164在设备104的第二操作模式(例如，显示中断数据模式)中，响应于确定在媒体流109中没有检测到中断(例如，已经接收到媒体流109中对应于文本流121的部分)，避免播放文本流121(例如，注释文本流137)。

在特定方面，中断管理器164在在线会议开始之前或开始附近基于通用语音模型初始化语音模型131，诸如人工神经网络。在特定方面，中断管理器164基于确定通用语音模型与用户142的人口统计数据(诸如，用户的年龄、位置、性别或其组合)相匹配(例如，与之相关联)来从多个通用语音模型中选择通用语音模型。在特定方面，中断管理器164基于用户142的联系信息(例如，姓名、位置、电话号码、地址或其组合)来在在线会议(例如，排定的会议)之前预测人口统计数据。在特定方面，中断管理器164在在线会议的开始部分期间基于语音音频流111、视频流113或两者来估计人口统计数据。例如，中断管理器164分析语音音频流111、视频流113或两者，以估计用户142的年龄、区域性口音、性别或其组合。在特定方面，中断管理器164检索与用户142相关联(例如，匹配用户102的用户标识符)的语音模型131(例如，先前生成的)。

在特定方面，中断管理器164基于在线会议期间在语音音频流111中(例如，在语音音频流111中的中断之前)检测到的语音来训练(例如，生成或更新)语音模型131。为了说明，文本到语音的转换器166被配置为使用语音模型131来执行文本到语音的转换。在特定方面，中断管理器164接收(例如，在设备102的第一操作模式期间)或生成(例如，在设备102的第二操作模式期间)对应于语音音频流111的文本流121、元数据流123或两者。文本到语音的转换器166使用语音模型131通过对文本流121、元数据流123或两者执行文本到语音的转换来生成合成语音音频流133。中断管理器164基于语音音频流111和合成语音音频流133的比较使用训练技术来更新语音模型131。在语音模型131包括人工神经网络的说明性示例中，中断管理器164使用反向传播来更新语音模型131的权重和偏置。根据一些方面，语音模型131被更新，使得使用语音模型131的后续文本到语音的转换更可能生成与用户142的语音特性更紧密匹配的合成语音。

在特定方面，中断管理器164生成用户142的虚拟化身135(例如，视觉表示)。在特定方面，虚拟化身135包括或对应于指示语音模型131的训练级别的训练指示符，如参考图3A-3C进一步描述的。例如，响应于确定不满足第一训练标准，中断管理器164将虚拟化身135初始化为指示语音模型131未被训练的第一视觉表示。在在线会议期间，中断管理器164响应于确定满足第一训练标准但是不满足第二训练标准，将虚拟化身135从第一视觉表示更新为第二视觉表示，以指示语音模型131的训练正在进行中。中断管理器164响应于确定满足第二训练标准，将虚拟化身135更新为第三视觉表示以指示语音模型131的训练完成。

训练标准可基于用于训练语音模型131的音频样点的计数、用于训练语音模型131的音频样点的回放持续时间、用于训练语音模型131的音频样点的覆盖、语音模型131的成功度量或其组合。在特定方面，用于训练语音模型131的音频样点的覆盖对应于由音频样点表示的不同声音(例如，元音、辅音等)。在特定方面，成功度量是基于用于训练语音模型131的音频样点与基于语音模型131生成的合成语音的比较(例如，它们之间的匹配)。

根据一些实现方式，虚拟化身135的第一颜色、第一阴影、第一大小、第一动画或其组合指示语音模型131未被训练。虚拟化身135的第二颜色、第二阴影、第二大小、第二动画或其组合指示语音模型131被部分训练。虚拟化身135的第三颜色、第三阴影、第三大小、第三动画或其组合指示语音模型131的训练完成。在特定方面，GUI生成器168生成(或更新)GUI 145以指示虚拟化身135的视觉表示。

在特定方面，中断管理器124检测到设备104的通信链路中的网络问题(例如，减小的带宽)。响应于检测到网络问题，中断管理器124将指示语音音频流111中的中断的中断通知119发送到设备104，避免将媒体流109的后续媒体帧发送(例如，停止发送)到设备104，直到检测到网络问题得到解决或两者。例如，中断管理器124响应于检测到网络问题，避免向设备104发送(例如，停止发送)语音音频流111、视频流113或两者，直到中断结束。

中断管理器124发送对应于后续媒体帧的文本流121、元数据流123或两者。例如，在设备102的第一操作模式(例如，发送字幕数据模式)中，中断管理器124继续发送对应于后续媒体帧的文本流121、元数据流123或两者。为了说明，在第一操作模式(例如，发送字幕数据模式)中，会议管理器122生成媒体流109、文本流121、元数据流123或其组合。中断管理器124响应于在第一操作模式(例如，发送字幕数据模式)中检测到网络问题，停止媒体流109的后续媒体帧的发送，并且继续向设备104发送与后续媒体帧相对应的文本流121、元数据流123或两者。可替代地，响应于在设备102的第二操作模式(例如，发送中断数据模式)中检测到网络问题，中断管理器124基于与后续媒体帧相对应的音频输入153来生成文本流121、元数据流123或两者。为了说明，在第二操作模式(例如，发送中断数据模式)中，会议管理器122生成媒体流109而不生成文本流121、元数据流123或两者。中断管理器124响应于在设备102的第二操作模式(例如，发送中断数据模式)中检测到网络问题，停止媒体流109的后续媒体帧的发送，并启动对应于后续媒体帧的文本流121、元数据流123或两者到设备104的发送。在特定方面，在设备102的第二操作模式(例如，发送中断数据模式)中，将文本流121、元数据流123或两者发送到设备104对应于将中断通知119发送到设备104。

在特定方面，中断管理器164响应于从设备102接收到中断通知119而检测到语音音频流111中的中断。在特定方面，当设备102以第二操作模式(例如，发送中断数据模式)操作时，中断管理器164响应于接收文本流121、元数据流123或两者而检测到语音音频流111中的中断。

在特定方面，中断管理器164响应于确定在语音音频流111的最后接收的音频帧的阈值持续时间内未接收到语音音频流111的音频帧而检测到语音音频流111中的中断。例如，语音音频流111的最后接收的音频帧在设备104的第一接收时间被接收。中断管理器164响应于确定在第一接收时间的阈值持续时间内没有接收到语音音频流111的音频帧而检测到中断。在特定方面，中断管理器164向设备102发送中断通知。在特定方面，中断管理器124响应于从设备104接收到中断通知而检测到网络问题。如上所述，中断管理器124响应于检测到网络问题，向设备104发送文本流121、元数据流123或两者(例如，而不是发送媒体流109的后续媒体帧)。

响应于检测到中断，中断管理器164基于文本流121选择性地生成输出。例如，响应于中断，中断管理器164向文本到语音的转换器166提供文本流121、元数据流123、注释文本流137或其组合。文本到语音的转换器166通过使用语音模型131基于文本流121、元数据流123、注释文本流137或其组合执行文本到语音的转换来生成合成语音音频流133。例如，基于文本流121并且独立于元数据流123的合成语音音频流133对应于由文本流121指示的语音，该语音具有由语音模型131表示的用户142的中性语音特性。作为另一个示例，基于注释文本流137(例如，文本流121和元数据流123)的合成语音音频流133对应于由文本流121指示的语音，该语音具有由语音模型131表示的用户142的语音特性，该语音特性具有由元数据流123指示的语调。使用至少部分地在用户142的语音(例如，语音音频流111)上训练的语音模型131来执行文本到语音的转换使得合成语音音频流133能够更接近地匹配用户142的语音特性。响应于中断，中断管理器164将合成语音音频流133作为音频输出143提供给扬声器154、停止语音音频流111的回放、停止视频流113的回放，或其组合。

在特定方面，中断管理器164在将合成语音音频流133作为音频输出143提供给扬声器154的同时选择性地显示虚拟化身135。例如，当将语音音频流111作为音频输出143提供给扬声器154时，中断管理器164避免显示虚拟化身135。作为另一个示例，中断管理器164在将合成语音音频流133作为音频输出143提供给扬声器154的同时显示虚拟化身135。为了说明，GUI生成器168更新GUI 145以显示虚拟化身135而不是视频流113，同时合成语音音频流133作为音频输出143被输出以供扬声器154播放。在特定方面，中断管理器164在将语音音频流111作为音频输出143提供给扬声器154的同时显示虚拟化身135的第一表示，并且在将合成语音音频流133作为音频输出143提供给扬声器154的同时显示虚拟化身135的第二表示。例如，第一表示指示虚拟化身135正在或已经被训练(例如，语音模型131的训练指示符)，并且第二表示指示虚拟化身135正在说话(例如，语音模型131正被用于生成合成语音)，如参考图3C进一步描述的。

在特定实现方式中，中断管理器164选择性地提供文本流121、注释文本流137或两者作为到显示设备156的输出。例如，响应于设备104的第二操作模式(例如，显示中断数据模式)期间的中断，中断管理器164向GUI生成器168提供文本流121、注释文本流137或两者，以更新GUI 145来显示文本流121、注释文本流137或两者。在可替代实现方式中，在设备104的第一操作模式(例如，显示字幕数据模式)期间，中断管理器164继续(例如，独立于中断)向显示设备156提供文本流121、注释文本流137或两者作为输出。在特定方面，中断管理器164在将合成语音音频流133作为音频输出143提供给扬声器154的同时将文本流121、注释文本流137、两者提供给显示设备156。

在特定实现方式中，中断管理器164基于中断配置设置并响应于该中断，输出合成语音音频流133、文本流121或注释文本流137中的一者或多者。例如，响应于中断并确定中断配置设置具有第一值(例如，0或“音频和文本”)，中断管理器164将文本流121、注释文本流137或两者提供给显示设备156，同时将合成语音音频流133作为音频输出143提供给扬声器154。中断管理器164响应于中断并确定中断配置设置具有第二值(例如，1或“仅文本”)，向显示设备156提供文本流121、注释文本流137或两者，并避免向扬声器154提供音频输出143。中断管理器164响应于中断并确定中断配置设置具有第三值(例如，2或“仅音频”)，避免将文本流121、注释文本流137或两者提供给显示设备156，并将合成语音音频流133作为音频输出143提供给扬声器154。在特定方面，中断配置设置基于默认数据、用户输入或两者。

在特定方面，中断管理器124检测到中断已经结束并将中断结束通知发送到设备104。例如，响应于确定与设备104的通信链路的可用通信带宽大于阈值，中断管理器124检测到中断已经结束。在特定方面，响应于从设备102接收到中断结束通知，中断管理器164检测到中断已经结束。

在另一特定方面，中断管理器164检测到中断已经结束并将中断结束通知发送到设备102。例如，响应于确定与设备102的通信链路的可用通信带宽大于阈值，中断管理器164检测到中断已经结束。在特定方面，响应于从设备104接收到中断结束通知，中断管理器124检测到中断已经结束。

响应于检测到中断已经结束，会议管理器122恢复向设备104发送语音音频流111、视频流113或两者。在特定方面，语音音频流111、视频流113或两者的发送对应于中断结束通知的发送。响应于检测到在设备102的第二操作模式(例如，发送中断数据模式)期间中断已经结束，中断管理器124避免向设备104发送文本流121、元数据流123或两者。

会议管理器162响应于检测到中断已经结束，避免基于文本流121生成合成语音音频流133，避免将合成语音音频流133作为音频输出143(例如，停止)提供给扬声器154，并且恢复语音音频流111作为音频输出143(例如，提供)给扬声器154的回放。响应于检测到中断已经结束，会议管理器162恢复向显示设备156提供视频流113。例如，会议管理器162将视频流113提供给GUI生成器168以更新GUI 145来显示视频流113。

在特定方面，响应于检测到中断已经结束，中断管理器164向GUI生成器168发送第一请求以更新GUI 145，从而指示语音模型131未被用于输出合成语音音频(例如，虚拟化身135未说话)。GUI生成器168响应于接收到第一请求，更新GUI 145以显示虚拟化身135的第一表示，该第一表示指示语音模型131正在或已经被训练并且语音模型131未被用于输出合成语音音频(例如，虚拟化身135未说话)。在可替代的方面，响应于检测到中断已经结束，中断管理器164向GUI生成器168发送第二请求，以停止显示虚拟化身135。例如，GUI生成器168响应于接收到第二请求，更新GUI 145以避免显示虚拟化身135。

在特定方面，中断管理器164响应于检测到中断已在第二操作模式(例如，更多地显示中断数据或无字幕数据模式)期间结束，避免向显示设备156提供文本流121、注释文本流137或两者。例如，GUI生成器168更新GUI 145以避免显示文本流121、注释文本流137或两者。

系统100因此减少(例如，消除)在线会议期间语音音频流111的中断期间的信息损失。例如，在文本可以被设备104接收的情况下，尽管网络问题阻止语音音频流111被设备104接收，但是用户144继续接收对应于用户142的语音的音频(例如，合成语音音频流133)、文本(例如，文本流121、注释文本流137或两者)或其组合。

虽然相机150和麦克风152被图示为耦合到设备102，但是在其他实现方式中，相机150、麦克风152或两者可以集成在设备102中。虽然扬声器154和显示设备156被图示为耦合到设备104，但是在其他实现方式中，扬声器154、显示设备156或两者可以集成在设备104中。尽管图示了一个麦克风和一个扬声器，但是在其他实现方式中，可以包括被配置为捕获用户语音的一个或多个附加麦克风、被配置为输出语音音频的一个或多个附加扬声器，或其组合。

应当理解，为了便于说明，将设备102描述为发送设备，将设备104描述为接收设备。在呼叫期间，设备102和设备104的角色可以在用户144开始说话时切换。例如，设备104可以是发送设备，而设备102可以是接收设备。为了说明，设备104可以包括麦克风和相机以捕获用户144的音频和视频，并且设备102可以包括或耦合到扬声器和显示器以向用户142播放音频和视频。在特定方面，例如，当用户142和用户144两者同时或在重叠时间说话时，设备102和设备104中的每一者可为发送设备和接收设备。

在特定方面，会议管理器122还被配置为执行参考会议管理器162描述的一个或多个操作，反之亦然。在特定方面，中断管理器124还被配置为执行参考中断管理器164描述的一个或多个操作，反之亦然。尽管GUI生成器168被描述为不同于会议管理器162和中断管理器164，但是在其他实现方式中，GUI生成器168被集成到会议管理器162、中断管理器164或两者中。为了说明，在一些示例中，会议管理器162、中断管理器164或两者被配置为执行参考GUI生成器168描述的一些操作。

参考图2，示出了可操作来处理语音音频流中断的系统，且其一般指定为200。在特定方面，图1的系统100包括系统200的一个或多个组件。

系统200包括经由网络106耦合到设备102和设备104的服务器204。服务器204包括会议管理器122和中断管理器124。服务器204被配置为将在线会议数据从设备102转发到设备104，反之亦然。例如，会议管理器122被配置为在设备102和设备104之间建立在线会议。

设备102包括会议管理器222。在在线会议期间，会议管理器222将媒体流109(例如，语音音频流111、视频流113或两者)发送到服务器204。服务器204的会议管理器122从设备102接收媒体流109(例如，语音音频流111、视频流113或两者)。在特定实现方式中，设备102与向服务器204发送媒体流109同时发送文本流121、元数据流123或两者。

在特定方面，如参考图1所描述的，用服务器204代替设备102来执行后续操作。例如，会议管理器122(在服务器204而不是图1中的设备102处操作)以与参考图1所描述的方式类似的方式将媒体流109、文本流121、元数据流123或其组合发送到设备104。例如，在服务器204的第一操作模式(例如，发送字幕数据模式)期间，会议管理器122发送文本流121、元数据流123或两者。在特定实现方式中，会议管理器122将从设备102接收的文本流121、元数据流123或两者转发到设备104。在一些实现方式中，会议管理器122基于文本流121、媒体流109或其组合来生成元数据流123。在这些实现方式中，会议管理器122将从设备102接收到的文本流121转发到设备104，将在服务器204处生成的元数据流123发送到设备104或两者。在一些实现方式中，会议管理器122基于媒体流109生成文本流121、元数据流123或两者，并将文本流121、元数据流123或两者转发到设备104。可替代地，在服务器204的第二操作模式(例如，发送中断数据模式)期间，会议管理器122响应于确定未检测到中断而避免发送文本流121、元数据流123或两者。设备104经由网络106从服务器204接收媒体流109、文本流121、注释文本流137或其组合。会议管理器162播放媒体流109、文本流121、注释文本流137或其组合的媒体帧，如参考图1所描述的。中断管理器164训练语音模型131、显示虚拟化身135或两者，如参考图1所描述的。

在特定方面，中断管理器124响应于检测到网络问题而将指示语音音频流111中的中断的中断通知119发送到设备104，避免将媒体流109的后续媒体帧发送(例如，停止发送)到设备104，直到检测到网络问题得到解决(例如，中断已经结束)或两者。中断管理器124将对应于后续媒体帧的文本流121、元数据流123或两者发送到设备104，如参考图1所描述的。例如，中断管理器124将从设备102接收的文本流121、元数据流123或两者转发到设备104。在一些示例中，中断管理器124将在服务器204处生成的元数据流123、文本流121或两者发送到设备104。在特定方面，中断管理器124在服务器204的第二操作模式(例如，发送中断数据模式)期间响应于检测到语音音频流111中的中断而选择性地生成元数据流123、文本流121或两者。

在特定方面，中断管理器164以与参考图1所描述的方式类似的方式，响应于从(例如，在服务器204处)中断管理器124接收到中断通知119，当服务器204在第二操作模式(例如，发送中断数据模式)中操作时接收到文本流121、元数据流123或两者，确定在语音音频流111的最后接收的音频帧的阈值持续时间内未接收到语音音频流111的音频帧，或其组合，而检测到语音音频流111中的中断。在特定方面，中断管理器164向服务器204发送中断通知。在特定方面，中断管理器124响应于从设备104接收到中断通知而检测到网络问题。中断管理器124将对应于后续媒体帧的文本流121、元数据流123或两者发送到设备104，如参考图1所描述的。

响应于检测到中断，中断管理器164向文本到语音的转换器166提供文本流121、元数据流123、注释文本流137或其组合。文本到语音的转换器166通过使用语音模型131基于文本流121、元数据流123、注释文本流137或其组合执行文本到语音的转换来生成合成语音音频流133，如参考图1所描述的。中断管理器164响应于中断而将合成语音音频流133作为音频输出143提供给扬声器154、停止语音音频流111的回放、停止视频流113的回放、显示虚拟化身135、显示虚拟化身135的特定表示、显示文本流121、显示注释文本流137或其组合，如参考图1所描述的。

响应于检测到中断已经结束，会议管理器122恢复向设备104发送语音音频流111、视频流113或两者。在特定方面，响应于检测到在服务器204的第二操作模式(例如，发送中断数据模式)期间中断已经结束，中断管理器124避免向设备104发送(例如，停止发送)文本流121、元数据流123或两者。

会议管理器162响应于检测到中断已经结束，避免基于文本流121生成合成语音音频流133、避免将合成语音音频流133作为音频输出143(例如，停止)提供给扬声器154、恢复语音音频流111作为音频输出143给扬声器154的回放、恢复将视频流113提供给显示设备156、停止或调整虚拟化身135的显示、避免将文本流121提供给显示设备156、避免将注释文本流137提供给显示设备156或其组合。

因此，系统200在与传统设备(例如，不包括中断管理器的设备102)的在线会议期间减少了(例如，消除)语音音频流111的中断期间的信息损失。例如，在文本可以被设备104接收的情况下，尽管网络问题阻止语音音频流111被设备104接收，但是用户144继续接收对应于用户142的语音的音频(例如，合成语音音频流133)、文本(例如，文本流121、注释文本流137或两者)或其组合。

在特定方面，服务器204还可以与设备104更接近(例如，更少的网络跳)，并且从服务器204(例如，而不是从设备102)发送文本流121、元数据流123或两者可以节省全部网络资源。在特定方面，服务器204可具有对网络信息的访问，该网络信息可用于将文本流121、元数据流123或两者成功地发送到设备104。例如，服务器204最初经由第一网络链路发送媒体流109。服务器204检测网络问题，并且至少部分地基于确定第一网络链路不可用或不起作用，使用看起来可用于容纳文本发送的第二网络链路来发送文本流121、元数据流123或两者。

参考图3A，示出了GUI 145的示例。在特定方面，GUI 145由图1的系统100、图2的系统200或两者生成。

GUI 145包括视频显示306、虚拟化身135和训练指示符(TI)304。例如，GUI生成器168在在线会议开始期间生成GUI 145。经由视频显示306显示视频流113(例如，用户142的图像(例如，Jill Pratt))。

训练指示符304指示语音模型131的训练级别(例如，0％或未训练)。例如，训练指示符304指示语音模型131尚未被定制训练。在特定方面，虚拟化身135的表示(例如，纯色)还指示训练级别。在特定方面，虚拟化身135的表示指示合成语音未被输出。例如，GUI 145不包括合成语音指示符，如参考图3C进一步描述的。

在特定实现方式中，如果在定制训练语音模型131之前生成中断，并且文本到语音的转换器166使用语音模型131(例如，非定制通用语音模型)生成合成语音音频流133，则合成语音音频流133对应于具有可能与用户142的语音特性不同的通用语音特性的音频语音。在特定方面，使用与用户142的人口统计数据相关联的通用语音模型来初始化语音模型131。在此方面，合成语音音频流133对应于与用户142的人口统计数据(例如，年龄、性别、地区性口音等)匹配的通用语音特征。

参考图3B，示出了GUI 145的示例。在特定方面，GUI 145由图1的系统100、图2的系统200或两者生成。

在特定示例中，GUI生成器168在在线会议期间更新GUI 145。训练指示符304指示语音模型131的第二训练级别(例如，20％或部分训练的)。例如，训练指示符304指示语音模型131正被定制训练或已被部分定制训练。在特定方面，虚拟化身135的表示(例如，部分着色的)还指示第二训练级别。在特定方面，虚拟化身135的表示指示合成语音未被输出。例如，GUI 145不包括合成语音指示符。

在特定实现方式中，如果在语音模型131的部分定制训练之后生成中断并且文本到语音的转换器166使用语音模型131(例如，部分定制语音模型)生成合成语音音频流133，则合成语音音频流133对应于具有与用户142的语音特性具有一些相似性的语音特性的音频语音。

参考图3C，示出了GUI 145的示例。在特定方面，GUI 145由图1的系统100、图2的系统200或两者生成。

在特定示例中，GUI生成器168响应于中断而更新GUI 145。训练指示符304指示语音模型131的第三训练级别(例如，100％或训练完成)。例如，训练指示符304指示语音模型131是定制训练的或定制训练已经完成(例如，达到阈值级别)。在特定方面，虚拟化身135的表示(例如，完全着色)还指示第三训练级别。在特定方面，虚拟化身135的表示指示正在输出合成语音。例如，GUI 145包括作为虚拟化身135的一部分或与虚拟化身135一起显示的合成语音指示符398，以指示正在播放的语音是合成语音。

由于在图3C的示例中，中断在对语音模型131进行定制训练之后出现，并且文本到语音的转换器166使用语音模型131(例如，定制语音模型)来生成合成语音音频流133，所以合成语音音频流133对应于具有与用户142的语音特性相似的语音特性的音频语音。

响应于中断，中断管理器164停止视频流113的输出。例如，视频显示306指示视频流113的输出已经由于中断(例如，网络问题)而停止。GUI 145包括文本显示396。例如，中断管理器164响应于中断经由文本显示396输出文本流121。

在特定方面，文本流121被实时显示，使得用户144可以继续参与会话。例如，用户144可以在读入用户142所说的文本显示396之后向用户142说出回复。在特定方面，如果网络问题阻止对应于用户144的语音的语音音频流被设备102接收，则中断管理器124可在设备102处显示对应于用户144的语音的文本流。在线会议的一个或多个参与者因此可以接收对应于其他参与者的语音的文本流或语音音频流。

参考图4A，示出了图1的系统100或图2的系统200的操作的说明性方面的示图，并且总体上用400表示。图4A所示的定时和操作是用于说明而不是限制。在其他方面，可执行额外或较少的操作且定时可不同。

图400图示了来自设备102的媒体流109的媒体帧的发送定时。在特定方面，媒体流109的媒体帧从设备102发送到设备104，如参考图1所描述的。在可替代的方面，媒体流109的媒体帧从设备102发送到服务器204以及从服务器204发送到设备102，如参考图2所描述的。

设备102在第一发送时间发送媒体流109的媒体帧(FR)410。设备104在第一接收时间接收媒体帧410，并在第一回放时间提供用于回放的媒体帧410。在特定示例中，会议管理器162在第一接收时间和第一回放时间之间的第一缓冲间隔期间将媒体帧410存储在缓冲器中。在特定方面，媒体帧410包括视频流113的第一部分和语音音频流111的第一部分。在第一回放时间，会议管理器162将语音音频流111的第一部分作为音频输出143的第一部分输出到扬声器154，并将视频流113的第一部分输出到显示设备156。

预期设备102(或服务器204)在第二预期发送时间发送媒体帧411。预期设备104在第二预期接收时间接收媒体帧411。响应于确定在第一接收时间的接收阈值持续时间内没有接收到媒体流109的媒体帧，设备104的中断管理器164检测语音音频流111中的中断。例如，中断管理器164基于第一接收时间和接收阈值持续时间来确定第二时间(例如，第二时间＝第一接收时间+接收阈值持续时间)。响应于确定在第一接收时间和第二时间之间没有接收到媒体流109的媒体帧，中断管理器164检测到语音音频流111中的中断。第二时间在媒体帧411的第二预期接收时间之后并且在媒体帧411的预期回放时间之前。例如，第二时间在媒体帧411的预期缓冲间隔期间。

设备102(或服务器204)检测语音音频流111中的中断，如参考图1-2所描述的。响应于语音音频流111中的中断，(设备102或服务器204的)中断管理器124将对应于后续媒体帧(例如，一组媒体帧491)的文本流121发送到设备104，直到中断结束。在特定方面，媒体帧411包括视频流113的第二部分和语音音频流111的第二部分。中断管理器124(或会议管理器122)通过对语音音频流111的第二部分执行语音到文本的转换来生成文本流121的文本451，并将文本451发送到设备104。

设备104从设备102或服务器204接收文本流121的文本451，如参考图1-2所描述的。响应于中断，中断管理器164启动对应于后续媒体帧的文本流121的回放，直到中断结束。例如，中断管理器164在第二回放时间向显示设备156提供文本451。在特定方面，第二回放时间基于(例如，与之相同)媒体帧411的预期回放时间。

在特定方面，图2的会议管理器222不知道中断，并将媒体流109的媒体帧413发送到服务器204。在特定方面，(图1中的设备102或图2中的服务器204的)中断管理器124响应于该中断而停止媒体帧413到设备104的发送。在特定方面，媒体帧413包括视频流113的第三部分和语音音频流111的第三部分。中断管理器124基于语音音频流111的第三部分生成文本453。中断管理器124将文本453发送到设备104。

设备104接收文本453。响应于中断，中断管理器164在第三回放时间向显示设备156提供文本453。在特定方面，第三回放时间基于(例如，与之相同)媒体帧413的预期回放时间。

(设备102或服务器204的)中断管理器124响应于中断结束，恢复媒体流109的后续媒体帧(例如，下一媒体帧493)到设备104的发送，如参考图1-2所述。例如，会议管理器122向设备104发送媒体帧415。响应于中断结束，中断管理器164恢复媒体流109的回放并停止文本流121的回放。在特定方面，媒体帧415包括视频流113的第四部分和语音音频流111的第四部分。在第四回放时间，会议管理器162将语音音频流111的第四部分作为音频输出143的一部分输出到扬声器154，并将视频流113的第四部分输出到显示设备156。

作为另一个示例，会议管理器122向设备104发送媒体帧417。在特定方面，媒体帧417包括视频流113的第五部分和语音音频流111的第五部分。在第五回放时间，会议管理器162将语音音频流111的第五部分作为音频输出143的一部分输出到扬声器154，并将视频流113的第五部分输出到显示设备156。

因此，设备104通过在媒体流109中的中断期间回放文本流121来防止信息丢失。当中断结束时，媒体流109的回放恢复。

参考图4B，示出了图1的系统100或图2的系统200的操作的说明性方面的示图，并且总体上表示为490。图4B所示的定时和操作是用于说明而不是限制。在其他方面，可执行额外或较少的操作且定时可不同。

图490图示了来自设备102的媒体流109的媒体帧的发送定时。图1的GUI生成器168生成指示虚拟化身135的训练级别的GUI 145。例如，GUI 145指示虚拟化身135(例如，语音模型131)是未训练的或部分训练的。设备104接收包括视频流113的第一部分和语音音频流111的第一部分的媒体帧410。会议管理器162在第一回放时间将语音音频流111的第一部分作为音频输出143的第一部分输出到扬声器154，并将视频流113的第一部分输出到显示设备156，如参考图4A所描述的。中断管理器164基于媒体帧410(例如，语音音频流111的第一部分)训练语音模型131，如参考图1所描述的。GUI生成器168更新指示虚拟化身135的更新的训练级别(例如，部分训练或完全训练的)的GUI 145。

设备104从设备102或服务器204接收文本流121的文本451，如参考图4A所描述的。中断管理器164响应于该中断，停止媒体流109的回放，停止语音模型131的训练，并启动合成语音音频流133的回放。例如，中断管理器164基于文本451生成合成语音音频流133的合成语音帧471。为了说明，中断管理器164将文本451提供给文本到语音的转换器166。文本到语音的转换器166使用语音模型131对文本451执行文本到语音的转换以生成合成语音帧(SFR)471。中断管理器164在第二回放时间提供合成语音帧471作为音频输出143的第二部分。GUI生成器168更新GUI 145以包括指示正在输出合成语音的合成语音指示符398。例如，GUI 145指示虚拟化身135正在说话。

设备104接收文本453，如参考图4A所描述的。中断管理器164响应于该中断，基于文本453生成合成语音音频流133的合成语音帧473。中断管理器164在第三回放时间提供合成语音帧473作为音频输出143的第三部分。

(设备102或服务器204的)中断管理器124响应于中断结束，恢复媒体流109的后续媒体帧(例如，下一媒体帧493)到设备104的发送，如参考图4A所述的。例如，会议管理器122将媒体帧415发送到设备104。响应于中断结束，中断管理器164恢复媒体流109的回放、停止合成语音音频流133的回放，并恢复语音模型131的训练。GUI生成器168更新GUI 145以去除合成语音指示符398，从而指示合成语音未被正在输出。

在特定示例中，会议管理器162播放媒体帧415和媒体帧417。为了说明，媒体帧415包括视频流113的第四部分和语音音频流111的第四部分。在第四回放时间，会议管理器162将语音音频流111的第四部分作为音频输出143的第四部分输出到扬声器154，并将视频流113的第四部分输出到显示设备156。在特定方面，会议管理器162在第五回放时间将语音音频流111的第五部分作为音频输出143的第五部分输出到扬声器154，并将视频流113的第五部分输出到显示设备156。

因此，设备104通过在媒体流109中断期间回放合成语音音频流133来防止信息丢失。当中断结束时，媒体流109的回放恢复。

参考图5，示出了可操作来处理语音音频流中断的系统，且其一般指定为500。在特定方面，图1的系统100包括系统500的一个或多个组件。

系统500包括经由网络106耦合到设备104的设备502。在操作期间，会议管理器162建立与多个设备(例如，设备102和设备502)的在线会议。例如，会议管理器162建立用户144与设备102的用户142和设备502的用户542的在线会议。设备104从设备102或服务器204接收表示用户142的语音、图像或两者的媒体流109(例如，语音音频流111、视频流113或两者)，如参考图1-2所描述的。类似地，设备104从设备502或服务器(例如，服务器204或另一服务器)接收表示用户542的语音、图像或两者的媒体流509(例如，第二语音音频流511、第二视频流513或两者)。

如参考图6A进一步描述的，会议管理器162在播放媒体流509的同时播放媒体流109。例如，会议管理器162将视频流113提供给显示设备156，同时将第二视频流513提供给显示设备156。为了说明，用户144可以在在线会议期间同时观看用户142的图像和观看用户542的图像。作为另一个示例，会议管理器162将语音音频流111、第二语音音频流511或两者作为音频输出143提供给扬声器154。为了说明，用户144可以听到用户142的语音、用户542的语音或两者。在特定方面，中断管理器164基于语音音频流111训练语音模型131，如参考图1所描述的。类似地，中断管理器164基于第二语音音频流511训练用户542的第二语音模型。

在特定示例中，设备104在语音音频流111的中断期间继续接收媒体流509。中断管理器164在播放合成语音音频流133、文本流121、注释文本流137或其组合的同时播放媒体流509，如参考图6C进一步描述的。例如，中断管理器164在生成合成语音音频流133并将合成语音音频流133提供给扬声器154的同时提供第二语音音频流511。作为另一个示例，中断管理器164在生成对包括文本流121或注释文本流137的GUI 145的更新并将GUI 145的更新提供给显示设备156的同时，将第二视频流513提供给显示设备156。用户144因此可以在语音音频流111的中断期间跟随用户142和用户542之间的对话。

在特定方面，媒体流509中的中断与语音音频流111的中断重叠。中断管理器164接收对应于第二语音音频流511的第二文本流、第二元数据流或两者。在特定方面，中断管理器164基于第二文本流、第二元数据流或两者生成第二注释文本流。中断管理器164通过使用第二语音模型基于第二文本流、第二元数据流、第二注释文本流或其组合执行文本到语音的转换来生成第二合成语音音频流。中断管理器164在播放合成语音音频流133的同时向扬声器154播放第二语音音频流511。在特定方面，中断管理器164在向显示设备156播放第二文本流、第二注释文本流或两者的同时播放文本流121、注释文本流137或两者。因此，在语音音频流111和第二语音音频流511的中断期间，用户144可以跟随用户142和用户542之间的对话。

因此，系统500减少了(例如，消除)在与多个用户的在线会议期间一个或多个语音音频流(例如，语音音频流111、第二语音音频流511或两者)的中断期间的信息损失。例如，在文本可以被设备104接收的情况下，尽管网络问题阻止一个或多个语音音频流被设备104接收，但是用户144继续接收对应于用户142的语音和用户542的语音的音频、文本或其组合。

参考图6A，示出了GUI 145的示例。在特定方面，GUI 145由图5的系统500生成。

GUI 145包括用于在线会议的多个参与者的视频显示、虚拟化身、训练指示符或其组合。例如，GUI 145包括用于用户142的视频显示306、虚拟化身135、训练指示符304或其组合，如参考图3A所描述的。GUI 145还包括用于用户542的视频显示606、虚拟化身635、训练指示符(TI)604或其组合。例如，GUI生成器168在在线会议开始期间生成GUI 145。媒体流509的第二视频流513(例如，用户542的图像(例如，Emily F.))经由视频显示606显示，同时视频流113(例如，用户142的图像(例如，Jill P.))经由视频显示306显示。

训练指示符304指示语音模型131的训练级别(例如，0％或未训练的)，训练指示符604指示第二语音模型的训练级别(例如，10％或部分训练的)。如果一个用户比另一个用户说话更多，或者如果一个用户的语音包括更多种类的声音(例如，模型覆盖更高)，则语音模型的训练级别可能不同。

在特定方面，虚拟化身135的表示(例如，纯色)和虚拟化身635的表示(例如，部分着色)还指示相应语音模型的训练级别。在特定方面，虚拟化身135的表示和虚拟化身635的表示指示合成语音未被输出。例如，GUI 145不包括任何合成语音指示符。

在特定实现方式中，如果在接收媒体流109时生成中断，则文本到语音的转换器166使用语音模型131(例如，非定制通用语音模型)来生成合成语音音频流133。如果在接收媒体流509中生成中断，则文本到语音的转换器166使用第二语音模型(例如，部分定制语音模型)生成第二合成语音音频流。在特定方面，中断管理器164基于与用于初始化语音模型131的第一通用语音模型不同的第二通用语音模型来初始化第二语音模型，使得如果在语音模型131和第二语音模型的训练(或完全训练)之前生成中断，则用户142的合成语音可与用户542的合成语音区分开。在特定方面，使用与用户142的人口统计数据相关联的第一通用语音模型来初始化语音模型131，且使用与用户542的人口统计数据相关联的第二通用语音模型来初始化第二语音模型。

参考图6B，示出了GUI 145的示例。在特定方面，GUI 145由图5的系统500生成。

在特定示例中，GUI生成器168在在线会议期间更新GUI 145。例如，训练指示符304指示语音模型131的第二训练级别(例如，20％或部分训练的)和第二语音模型的第二训练级别(例如，100％或完全训练的)。

参考图6C，示出了GUI 145的示例。在特定方面，GUI 145由图5的系统500生成。

在特定示例中，GUI生成器168响应于接收媒体流109中的中断而更新GUI 145。训练指示符304指示语音模型131的第三训练级别(例如，55％或部分训练的)，且训练指示符604指示第二语音模型的第三训练级别(例如，100％或完全训练的)。在特定方面，虚拟化身135的表示指示正在输出合成语音。例如，GUI 145包括合成语音指示符398。虚拟化身635的表示指示合成语音未被输出给用户542。例如，GUI 145不包括与虚拟化身635相关联的合成语音指示符。

响应于中断，中断管理器164停止视频流113的输出。例如，视频显示306指示视频流113的输出已经由于中断(例如，网络问题)而停止。中断管理器164响应于该中断经由文本显示396输出文本流121。

在特定方面，文本流121被实时显示，使得用户144可以继续跟随和参与会话。例如，用户144可以从合成语音音频流133听到、在文本显示396上阅读或两者，用户142作出第一陈述(例如，“我希望你也有类似的事情庆祝”)。用户144可以在扬声器154输出的媒体流509的第二语音音频流中听到来自用户542的回复。用户144可从合成语音音频流133听到，在文本显示396上阅读或两者，用户142作出第二陈述(例如，“那太有趣了！你玩得开心我很高兴”)。用户144因此可以在接收在线会议的一个或多个其他参与者的媒体流的同时，为在线会议的一个或多个参与者收听来自合成语音音频流的音频、阅读文本流的文本或两者。

参考图7A，示出了图5的系统500的操作的说明性方面的示图，并且总体上用700表示。图7A所示的定时和操作是用于说明而不是限制。在其他方面，可执行额外或较少的操作且定时可不同。

图700图示了来自设备102的媒体流109和来自设备502的媒体流509的媒体帧的发送定时。在特定方面，媒体流109的媒体帧从设备102或服务器204发送到设备104，如参考图1-2所描述的。类似地，媒体流509的媒体帧从设备502或服务器(例如，服务器204或另一服务器)发送到设备104。

设备104接收媒体流109的媒体帧410和媒体流509的媒体帧710，并提供媒体帧410和媒体帧710以供回放。例如，会议管理器162将语音音频流111的第一部分(例如，由媒体帧410指示)和第二语音音频流的第一部分(例如，由媒体帧710指示)作为音频输出143输出到扬声器154，经由视频显示306输出视频流113的第一部分(例如，由媒体帧410指示)，并且经由视频显示606输出第二视频流的第一部分(例如，由媒体帧710指示)，如参考图6A所描述的。

设备104在媒体流109的中断期间接收文本流121的文本451(对应于媒体帧411)，如参考图4A所描述的。设备104接收媒体流509的媒体帧711。中断管理器164响应于该中断，在媒体流509的回放同时启动对应于媒体流109的后续媒体帧的文本流121的回放，直到该中断结束。例如，中断管理器164在提供用于回放的媒体帧711的同时向显示设备156提供文本451(例如，由媒体帧411指示)。

设备104在媒体流109的中断期间接收文本流121的文本453(对应于媒体帧413)，如参考图4A所描述的。设备104接收媒体流509的媒体帧713。中断管理器164在提供用于回放的媒体帧713的同时向显示设备156提供文本453。

中断管理器164响应于中断结束，恢复媒体流109的回放并停止文本流121的回放，如参考图4A所述。会议管理器162接收并回放媒体帧415和媒体帧715。类似地，会议管理器162接收并回放媒体帧417和媒体帧717。

因此，设备104通过在媒体流109中的中断期间，在媒体流509的回放的同时回放文本流121来防止信息丢失。当中断结束时，媒体流109的回放恢复。

参考图7B，示出了图5的系统500的操作的说明性方面的示图，并且通常将其指定为790。图7B所示的定时和操作是用于说明而不是限制。在其他方面，可执行额外或较少的操作且定时可不同。

图790图示了来自设备102的媒体流109和来自设备502的媒体流509的媒体帧的发送定时。图1的GUI生成器168生成指示虚拟化身135的训练级别和虚拟化身635的训练级别的GUI 145。例如，GUI 145指示虚拟化身135(例如，语音模型131)未被训练，而虚拟化身635(例如，第二语音模型)被部分训练。设备104接收并回放媒体帧410和媒体帧710。中断管理器164基于媒体帧410训练语音模型131，如参考图4B所述；并基于媒体帧710训练第二语音模型。GUI生成器168更新指示虚拟化身135的更新的训练级别(例如，部分训练的)和虚拟化身635的更新的训练级别(例如，完全训练的)的GUI 145。

设备104接收文本流121的文本451和媒体帧711。中断管理器164基于文本451生成合成语音帧471，如参考图4B所述。中断管理器164回放合成语音帧471和媒体帧711。GUI生成器168更新GUI 145以包括指示正在为用户142输出合成语音的合成语音指示符398。例如，GUI 145指示虚拟化身135正在说话。GUI 145不包括用于用户542的合成语音指示符(例如，虚拟化身635未被指示为说话)。

设备104接收文本453和媒体帧713。中断管理器164基于文本453生成合成语音帧473，如参考图4B所述。中断管理器164回放合成语音帧473和媒体帧417。

中断管理器164响应于中断结束，恢复媒体流109的回放、停止合成语音音频流133的回放并恢复语音模型131的训练，如参考图4B所述。GUI生成器168更新GUI 145以去除合成语音指示符398，从而指示合成语音未被输出。

在特定示例中，会议管理器162接收并播放媒体帧415和媒体帧715。作为另一个示例，会议管理器162接收并播放媒体帧417和媒体帧717。

因此，设备104通过在媒体流109中的中断期间，在播放媒体流509的同时回放合成语音音频流133来防止信息丢失。当中断结束时，媒体流109的回放恢复。

参考图8，示出了处理语音音频流中断的方法800的特定实现方式。在特定方面，方法800的一个或多个操作由会议管理器162、中断管理器164、一个或多个处理器160、设备104、图1的系统100或其组合来执行。

方法800包括，在802处，在在线会议期间接收表示第一用户的语音的语音音频流。例如，图1的设备104在在线会议期间接收表示用户142的语音的语音音频流111，如参考图1所描述的。

方法800还包括在804处，接收表示第一用户的语音的文本流。例如，图1的设备104接收表示用户142的语音的文本流121，如参考图1所描述的。

方法800还包括在806处，响应于语音音频流中的中断而基于文本流选择性地生成输出。例如，图1的中断管理器164响应于语音音频流111中的中断，基于文本流121选择性地生成合成语音音频流133，如参考图1所描述的。在特定实现方式中，中断管理器164响应于语音音频流111中的中断而选择性地输出文本流121、注释文本流137或两者，如参考图1所描述的。

因此，方法800改进了在在线会议期间在语音音频流111的中断期间减少(例如，消除)信息损失。例如，在文本可以被设备104接收的情况下，尽管网络问题阻止语音音频流111被设备104接收，但是用户144继续接收对应于用户142的语音的音频(例如，合成语音音频流133)、文本(例如，文本流121、注释文本流137或两者)或其组合。

图8的方法800可以由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)，诸如中央处理单元(CPU)的处理单元、DSP、控制器、另一硬件设备、固件设备或其任意组合来实现。作为示例，图8的方法800可以由运行指令的处理器来执行，诸如参考图18所描述的。

图9将设备104的实现方式900描绘为包括一个或多个处理器160的集成电路902。集成电路902还包括输入904(例如，一个或多个总线接口)，以使得能够接收输入数据928(例如，语音音频流111、视频流113，媒体流109、中断通知119、文本流121、元数据流123、媒体流509或其组合)以供处理。集成电路902还包括输出906(例如，总线接口)，以使得能够发送输出信号(例如，语音音频流111、合成语音音频流133、音频输出143、视频流113、文本流121、注释文本流137、GUI 145或其组合)。集成电路902使得能够将处理语音音频流中断的实现方式作为系统中的组件，该系统诸如图10中描绘的移动电话或平板电脑、图11中描绘的头戴式耳机、图12中描绘的可穿戴电子设备、图13中描绘的声控扬声器系统、图14中描绘的相机、图15中描绘的虚拟现实头戴式耳机或增强现实头戴式耳机或图16或图17中描绘的交通工具。

图10描绘了实现方式1000，其中设备104包括作为说明性的非限制性示例的移动设备1002，诸如电话或平板电脑。移动设备1002包括麦克风1010、扬声器154和显示屏1004。一个或多个处理器160的组件，包括会议管理器162、中断管理器164、GUI生成器168或其组合，被集成在移动设备1002中，并且使用虚线来示出以指示对移动设备1002的用户一般不可见的内部组件。在特定示例中，会议管理器162输出语音音频流111或中断管理器164输出合成语音音频流133，其然后被处理以在移动设备1002处执行一个或多个操作，诸如启动图形用户界面或以其他方式(例如，经由集成的“智能助理”应用)在显示屏1004处显示与用户的语音相关联的其他信息。

图11描绘了其中设备104包括头戴式耳机设备1102的实现方式1100。头戴式耳机设备1102包括扬声器154、麦克风1110或两者。一个或多个处理器160的组件(包括会议管理器162、中断管理器164或两者)被集成在头戴式耳机设备1102中。在特定示例中，会议管理器162输出语音音频流111或中断管理器164输出合成语音音频流133，这可使头戴式耳机设备1102在头戴式耳机设备1102处执行一个或多个操作以将对应于用户语音的音频数据发射到第二设备(未图示)以供进一步处理。

图12描绘了其中设备104包括被图示为“智能手表”的可穿戴电子设备1202的实现方式1200。会议管理器162、中断管理器164、GUI生成器168、扬声器154、麦克风1210或其组合被集成到可穿戴电子设备1202中。在特定示例中，会议管理器162输出语音音频流111，或者中断管理器164输出合成语音音频流133，该合成语音音频流133然后被处理以在可佩戴电子设备1202处执行一个或多个操作，诸如启动GUI 145或者以其他方式在可佩戴电子设备1202的显示屏1204处显示与用户的语音相关联的其他信息。为了说明，可佩戴电子设备1202可以包括显示屏，该显示屏被配置为基于由可佩戴电子设备1202检测到的用户语音来显示通知。在特定示例中，可穿戴电子设备1202包括触觉设备，其响应于检测到用户语音而提供触觉通知(例如，振动)。例如，触觉通知可以使用户查看可穿戴电子设备1202以查看指示检测到用户说出的关键字的所显示的通知。可佩戴电子设备1202因此可以向听力受损的用户或佩戴头戴式耳机的用户提示检测到用户的语音。

图13是设备104包括无线扬声器和语音激活设备1302的实现方式1300。无线扬声器和语音激活设备1302可具有无线网络连接性且被配置为运行辅助操作。包括会议管理器162、中断管理器164或两者、扬声器154、麦克风1310或其组合的一个或多个处理器160被包括在无线扬声器和语音激活设备1302中。在操作期间，响应于在会议管理器162输出的语音音频流111中或中断管理器164输出的合成语音音频流133中接收到被标识为用户语音的口头命令，无线扬声器和语音激活的设备1302可以诸如经由语音激活系统(例如，集成助理应用)的运行来运行助理操作。辅助操作可以包括创建日历事件、调整温度、播放音乐、打开灯等。例如，响应于在关键字或关键短语(例如，“你好助理”)之后接收到命令，执行助理操作。

图14描绘了实现方式1400，其中设备104包括对应于相机设备1402的便携式电子设备。会议管理器162、中断管理器164、GUI生成器168、扬声器154、麦克风1410或其组合被包括在相机设备1402中。在操作期间，作为说明性示例，响应于在会议管理器162输出的语音音频流111中或中断管理器164输出的合成语音音频流133中接收到被标识为用户语音的口头命令，相机设备1402可以运行响应于口头用户命令的操作，诸如调整图像或视频捕捉设置、图像或视频回放设置或图像或视频捕捉指令。

图15描绘了实现方式1500，其中设备104包括对应于虚拟现实、增强现实或混合现实头戴式耳机1502的便携式电子设备。会议管理器162、中断管理器164、GUI生成器168、扬声器154、麦克风1510或其组合被集成到头戴式耳机1502中。可以基于会议管理器162输出的语音音频流111或中断管理器164输出的合成语音音频流133来执行用户语音检测。视觉接口设备位于用户眼前，以便在佩戴头戴式耳机1502时能够向用户显示增强现实或虚拟现实图像或场景。在特定示例中，视觉接口设备被配置为显示指示在音频流中检测到的用户语音的通知。在另一个示例中，视觉接口设备被配置为显示GUI 145。

图16描绘了实现方式1600，其中设备104对应于或集成在被图示为有人操纵的或无人操纵的航空设备(例如，包裹递送无人机)的交通工具1602内。会议管理器162、中断管理器164、GUI生成器168、扬声器154、麦克风1610或其组合被集成到交通工具1602中。可以基于会议管理器162输出的语音音频流111或中断管理器164输出的合成语音音频流133，诸如针对来自交通工具1602的授权用户的递送指令，来执行用户语音检测。

图17描绘了另一实现方式1700，其中设备104对应于被图示为汽车的交通工具1702或被集成在交通工具1702内。交通工具1702包括一个或多个处理器160，该处理器160包括会议管理器162、中断管理器164、GUI生成器168或其组合。交通工具1702还包括扬声器154、麦克风1710或两者。可以基于会议管理器162输出的语音音频流111或中断管理器164输出的合成语音音频流133来执行用户语音检测。例如，用户语音检测可以用于检测来自交通工具1702的授权用户的语音命令(例如，启动发动机或加热)。在特定实现方式中，响应于在会议管理器162输出的语音音频流111中或中断管理器164输出的合成语音音频流133中接收到被识别为用户语音的口头命令，交通工具1702的语音激活系统基于在语音音频流111或合成语音音频流133中检测到的一个或多个关键字(例如，“解锁”、“启动引擎”、“播放音乐”、“显示天气预报”或另一语音命令)来发起交通工具1702的一个或多个操作，诸如通过经由显示器1720或一个或多个扬声器(例如，扬声器154)提供反馈或信息。在特定实现方式中，GUI生成器168向显示器1720提供关于在线会议(例如，呼叫)的信息。例如，GUI生成器168向显示器1720提供GUI 145。

参考图18，描绘设备的特定说明性实现方式的框图且将其大体指定为1800。在各种实现方式中，设备1800可以具有比图18所示更多或更少的组件。在说明性实现方式中，设备1800可以对应于设备104。在说明性实现方式中，设备1800可以执行参考图1-17描述的一个或多个操作。

在特定实现方式中，设备1800包括处理器1806(例如，中央处理单元(CPU))。设备1800可以包括一个或多个附加处理器1810(例如，一个或多个DSP)。在特定方面，图1的一个或多个处理器160对应于处理器1806、处理器1810或其组合。处理器1810可以包括语音和音乐编码器-解码器(CODEC，编解码器)1808，其包括语音编解码器(“声码器”(vocoder))编码器1836、声码器解码器1838、会议管理器162、中断管理器164、GUI生成器168或其组合。在特定方面，图1的一个或多个处理器160包括处理器1806、处理器1810或其组合。

设备1800可以包括存储器1886和CODEC 1334。存储器1886可包括可由一个或多个附加处理器1810(或处理器1806)运行以实现参考会议管理器162、中断管理器164、GUI生成器168或其组合描述的功能的指令1856。在特定方面，存储器1886存储由会议管理器162、中断管理器164、GUI生成器168或其组合使用或生成的程序数据1858。在特定方面，存储器1886包括图1的存储器132。设备1800可以包括经由收发器1850耦合到天线1842的调制解调器1840。

设备1800可以包括耦合到显示控制器1826的显示设备156。扬声器154和一个或多个麦克风1832可耦合到CODEC 1334。CODEC 1834可包括数模转换器(DAC)1802、模数转换器(ADC)1804或两者。在特定实现方式中，CODEC1834可从一个或多个麦克风1832接收模拟信号、使用模数转换器1804将模拟信号转换为数字信号，且将数字信号提供给语音和音乐编解码器1808。语音和音乐编解码器1808可以处理数字信号，并且数字信号还可以由会议管理器162、中断管理器164或两者来处理。在特定实现方式中，语音和音乐编解码器1808可向CODEC 1334提供数字信号。CODEC 1834可以使用数模转换器1802将数字信号转换为模拟信号，并且可以将模拟信号提供给扬声器154。

在特定实现方式中，设备1800可以被包括在系统级封装或片上系统设备1822中。在特定实现方式中，存储器1886、处理器1806、处理器1810、显示控制器1826、CODEC 1334、调制解调器1840和收发器1850包括在系统级封装或片上系统设备1822中。在特定实现方式中，输入设备1830和电源1844耦合到片上系统设备1822。此外，在特定实现方式中，如图18中所图示，显示设备156、输入设备1830、扬声器154、一个或多个麦克风1832、天线1842和电源1844在片上系统设备1822的外部。在特定实现方式中，显示设备156、输入设备1830、扬声器154、一个或多个麦克风1832、天线1842及电源1844中的每一者可耦合到片上系统设备1822的组件，诸如接口或控制器。

设备1800可包括虚拟助理、家用电器、智能设备、物联网(IoT)设备、通信设备、头戴式耳机、交通工具、计算机、显示设备、电视机、游戏控制台、音乐播放器、无线电、视频播放器、娱乐单元、个人媒体播放器、数字视频播放器、相机、导航设备、智能扬声器、扬声器棒、移动通信设备、智能电话、蜂窝电话、膝上型计算机、平板电脑、个人数字助理、数字视频盘(DVD)播放器、调谐器、增强现实头戴式耳机、虚拟现实头戴式耳机、飞行器、家庭自动化系统、语音激活的设备、无线扬声器和语音激活的设备、便携式电子设备、汽车、计算设备、虚拟现实(VR)设备、基站、移动设备、或其任何组合。

结合所描述的实现方式，装置包括用于在在线会议期间接收语音音频流的部件，该语音音频流表示第一用户的语音。例如，用于接收语音音频流的部件可以对应于会议管理器162、中断管理器164、一个或多个处理器160、设备104、图1的系统100、会议管理器122、服务器204、图2的系统200、一个或多个处理器1810、处理器1806、语音和音乐编解码器1808、调制解调器1840、收发器1850、天线1842、设备1800、被配置为在在线会议期间接收语音音频流的一个或多个其他电路或组件或者其任意组合。

该装置还包括用于接收表示第一用户的语音的文本流的部件。例如，用于接收文本流的部件可以对应于会议管理器162、中断管理器164、文本到语音的转换器166、一个或多个处理器160、设备104、图1的系统100、会议管理器122、中断管理器124、服务器204、图2的系统200、一个或多个处理器1810、处理器1806、语音和音乐编解码器1808、调制解调器1840、收发器1850、天线1842、设备1800、被配置为接收文本流的一个或多个其他电路或组件或其任意组合。

该装置还包括用于响应于该语音音频流中的中断而基于文本流选择性地生成输出的部件。例如，用于选择性地生成输出的部件可以对应于中断管理器164、文本到语音的转换器166、GUI生成器168、一个或多个处理器160、设备104、图1的系统100、中断管理器124、服务器204、图2的系统200、一个或多个处理器1810、处理器1806、语音和音乐编解码器1808、设备1800、被配置为选择性地生成输出的一个或多个其他电路或组件或其任何组合。

在一些实现方式中，非暂时性计算机可读介质(例如，计算机可读存储设备，诸如存储器1886)包括指令(例如，指令1856)，当由一个或多个处理器(例如，一个或多个处理器1810或处理器1806)运行时，该指令使一个或多个处理器在在线会议期间接收表示第一用户(例如，用户142)的语音音频流(例如，语音音频流111)。当由一个或多个处理器运行时，这些指令还使一个或多个处理器接收表示第一用户(例如，用户142)的语音的文本流(例如，文本流121)。该指令在由该一个或多个处理器运行时还使该一个或多个处理器响应于语音音频流中的中断而基于文本流选择性地生成输出(例如，合成语音音频流133、注释文本流137或两者)。

以下在第一组相关条款中描述了本公开的特定方面：

根据条款1，一种用于通信的设备包括：一个或多个处理器，其被配置为：在在线会议期间接收表示第一用户的语音的语音音频流；接收表示第一用户的语音的文本流；和响应于该语音音频流中的中断，基于该文本流选择性地生成输出。

条款2包括条款1的设备，其中，该一个或多个处理器被配置为响应于确定在该语音音频流的最后接收的音频帧的阈值持续时间内没有接收到该语音音频流的音频帧而检测该中断。

条款3包括条款1的设备，其中，该一个或多个处理器被配置为响应于接收到该文本流而检测该中断。

条款4包括条款1的设备，其中，该一个或多个处理器被配置为响应于接收到中断通知而检测该中断。

条款5包括如条款1至4中任一项的设备，其中，该一个或多个处理器被配置为将该文本流作为输出提供给显示器。

条款6包括条款1至5中任一项的设备，其中，该一个或多个处理器还被配置为：接收指示该第一用户的语音的语调的元数据流；和基于该元数据流注释该文本流。

条款7包括条款1至6中任一项的设备，其中，该一个或多个处理器还被配置为：对该文本流执行文本到语音的转换以生成合成语音音频流；将合成语音音频流作为输出提供给扬声器。

条款8包括条款7的设备，其中，该一个或多个处理器还被配置为接收指示该第一用户的语音的语调的元数据流，其中，该文本到语音的转换基于该元数据流。

条款9包括条款7的设备，其中，该一个或多个处理器还被配置为在向扬声器提供该合成语音音频流的同时地显示虚拟化身。

条款10包括条款9的设备，其中，该一个或多个处理器被配置为在在线会议期间接收媒体流，该媒体流包括第一用户的语音音频流和视频流。

条款11包括条款10的设备，其中，该一个或多个处理器被配置为，响应于该中断：停止该语音音频流的回放；和停止该视频流的回放。

条款12包括条款10的设备，其中，该一个或多个处理器被配置为，响应于该中断结束：避免向该扬声器提供该合成语音音频流；避免显示虚拟化身；恢复视频流的回放；和恢复该语音音频流的回放。

条款13包括条款7的设备，其中，文本到语音的转换是基于语音模型执行的。

条款14包括条款13的设备，其中，语音模型对应于通用语音模型。

条款15包括条款13或条款14的设备，其中，该一个或多个处理器被配置为在该中断之前基于该语音音频流更新该语音模型。

条款16包括条款1至15中任一项的设备，其中，该一个或多个处理器被配置为：在该在线会议期间接收表示第二用户的语音的第二语音音频流；和在生成该输出的同时向扬声器提供该第二语音音频流。

条款17包括条款1至16中任一项的设备，其中，该一个或多个处理器被配置为：响应于该语音音频流中的中断而停止该语音音频流的回放；并且响应于中断结束：避免基于该文本流生成该输出；和恢复该语音音频流的回放。

以下在第二组相关条款中描述了本公开的特定方面：

根据条款18，一种通信方法包括：在在线会议期间在设备处接收表示第一用户的语音的语音音频流；在该设备处接收表示该第一用户的语音的文本流；和响应于该语音音频流中的中断，在该设备处基于该文本流选择性地生成输出。

条款19包括条款18的方法，还包括响应于确定在语音音频流的最后接收的音频帧的阈值持续时间内没有接收到语音音频流的音频帧而检测中断。

条款20包括如条款18的方法，还包括响应于接收到该文本流而检测中断。

条款21包括条款18的方法，还包括响应于接收到中断通知而检测中断。

条款22包括如条款18至21中任一条款的方法，还包括将该文本流作为输出提供给显示器。

条款23包括条款18至22中任一条款的方法，还包括：接收指示该第一用户的语音的语调的元数据流；和基于该元数据流注释该文本流。

本公开的相关条款中描述了本公开的特定方面：

根据条款24，一种存储指令的非暂时性计算机可读存储介质，该指令在由一个或多个处理器运行时使该一个或多个处理器：在在线会议期间接收表示第一用户的语音的语音音频流；接收表示该第一用户的该语音的文本流；和响应于该语音音频流中的中断，基于文本流选择性地生成输出。

条款25包括条款24的非暂时性计算机可读存储介质，其中，该指令在由一个或多个处理器运行时使一个或多个处理器：对该文本流执行文本到语音的转换以生成合成语音音频流；和将合成语音音频流作为输出提供给扬声器。

条款26包括条款25的非暂时性计算机可读存储介质，其中，该指令在由一个或多个处理器运行时使一个或多个处理器接收指示第一用户的语音的语调的元数据流，其中，文本到语音的转换基于元数据流。

条款27包括条款25或条款26的非暂时性计算机可读存储介质，其中，该指令在由一个或多个处理器运行时使一个或多个处理器在向扬声器提供合成语音音频流的同时地显示虚拟化身。

条款28包括条款25至27中任一条款的非暂时性计算机可读存储介质，其中，该指令在由一个或多个处理器运行时使一个或多个处理器在中断之前基于语音音频流更新语音模型，并且其中，文本至语音的转换是基于语音模型执行的。

下面在第四组相关条款中描述本公开的特定方面：

根据条款29，一种装置包括：用于在在线会议期间接收语音音频流的部件，该语音音频流表示第一用户的语音；用于接收表示该第一用户的该语音的文本流的部件；和用于响应于该语音音频流中的中断而基于该文本流选择性地生成输出的部件。

条款30包括条款29的装置，其中，用于接收语音音频流的部件、用于接收文本流的部件以及用于选择性地生成输出的部件被集成到虚拟助理、家用电器、智能设备、物联网(IoT)设备、通信设备、头戴式耳机、交通工具、计算机、显示设备、电视机、游戏控制台、音乐播放器、收音机、视频播放器、娱乐单元、个人媒体播放器、数字视频播放器、相机或导航设备中的至少一者中。

所属领域的技术人员将进一步了解，结合本文所公开的实现方案而描述的各种说明性逻辑块、配置、模块、电路和算法步骤可实现为电子硬件、由处理器运行的计算机软件或两者的组合。上文已大体上在功能性方面描述了各种说明性组件、块、配置、模块、电路和步骤。将此功能性实现为硬件还是处理器可运行指令取决于特定应用和强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实现所描述的功能性，此些实现方式决策不应被解释为导致脱离本公开的范围。

结合本文所公开的实现方式而描述的方法或算法的步骤可直接以硬件、以由处理器运行的软件模块或以所述两者的组合来实现。软件模块可以驻留在随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、光盘只读存储器(CD-ROM)或本领域已知的任何其他形式的非暂时性存储介质中。示例性存储介质耦合到处理器，使该处理器可从存储介质读取信息且将信息写入到存储介质。在可替代方案中，存储介质可与处理器整合。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在计算设备或用户终端中。在可替代方案中，处理器和存储介质可作为离散组件驻存在计算装置或用户终端中。

提供对所公开方面的先前描述以使得所属领域的技术人员能够制作或使用所公开方面。所属领域的技术人员将容易明白对这些方面的各种修改，且在不脱离本发明的范围的情况下，本文所界定的原理可应用于其他方面。因此，本公开并不希望限于本文所展示的方面，而是应被赋予与如由所附权利要求书限定的原理和新颖特征一致的可能的最广范围。

Claims

1.一种用于通信的设备，包括：

一个或多个处理器，被配置为：

在在线会议期间接收表示第一用户的语音的语音音频流；

接收表示所述第一用户的所述语音的文本流；和

响应于所述语音音频流中的中断，基于所述文本流选择性地生成输出。

2.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为响应于确定在所述语音音频流的最后接收的音频帧的阈值持续时间内未接收到所述语音音频流的音频帧而检测所述中断。

3.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为响应于接收到所述文本流而检测所述中断。

4.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为响应于接收到中断通知而检测所述中断。

5.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为将所述文本流作为所述输出提供给显示器。

6.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：

接收指示所述第一用户的语音的语调的元数据流；和

基于所述元数据流注释所述文本流。

7.根据权利要求1所述的设备，其中，所述一个或多个处理器还被配置为：

对所述文本流执行文本到语音的转换以生成合成语音音频流；和

将所述合成语音音频流作为输出提供给扬声器。

8.根据权利要求7所述的设备，其中，所述一个或多个处理器还被配置为接收指示所述第一用户的所述语音的语调的元数据流，其中，所述文本到语音的转换基于所述元数据流。

9.根据权利要求7所述的设备，其中，所述一个或多个处理器还被配置为在将所述合成语音音频流提供给所述扬声器的同时显示虚拟化身。

10.根据权利要求9所述的设备，其中，所述一个或多个处理器被配置为在所述在线会议期间接收媒体流，所述媒体流包括所述第一用户的语音音频流和视频流。

11.根据权利要求10所述的设备，其中，所述一个或多个处理器被配置为响应于所述中断：

停止所述语音音频流的回放；和

停止所述视频流的回放。

12.根据权利要求10所述的设备，其中，所述一个或多个处理器被配置为响应于所述中断结束：

避免向所述扬声器提供所述合成语音音频流；

避免显示所述虚拟化身；

恢复所述视频流的回放；和

恢复所述语音音频流的回放。

13.根据权利要求7所述的设备，其中，所述文本到语音的转换是基于语音模型来执行的。

14.根据权利要求13所述的设备，其中，所述语音模型对应于通用语音模型。

15.根据权利要求13所述的设备，其中，所述一个或多个处理器被配置为在所述中断之前基于所述语音音频流更新所述语音模型。

16.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为：

在所述在线会议期间接收表示第二用户的语音的第二语音音频流；和

在生成所述输出的同时向扬声器提供所述第二语音音频流。

17.根据权利要求1所述的设备，其中，所述一个或多个处理器被配置为：

响应于所述语音音频流中的中断而停止所述语音音频流的回放；和

响应于所述中断结束：

避免基于所述文本流生成所述输出；和

恢复所述语音音频流的回放。

18.一种通信方法，包括：

在在线会议期间在设备处接收表示第一用户的语音的语音音频流；

在所述设备处接收表示所述第一用户的所述语音的文本流；和

响应于所述语音音频流中的中断而在所述设备处基于所述文本流选择性地生成输出。

19.根据权利要求18所述的方法，还包括响应于确定在所述语音音频流的最后接收的音频帧的阈值持续时间内未接收到所述语音音频流的音频帧而检测所述中断。

20.根据权利要求18所述的方法，还包括响应于接收到所述文本流而检测所述中断。

21.根据权利要求18所述的方法，还包括响应于接收到中断通知而检测所述中断。

22.根据权利要求18所述的方法，还包括将所述文本流作为所述输出提供给显示器。

23.根据权利要求18所述的方法，还包括：

接收指示所述第一用户的语音的语调的元数据流；和

基于所述元数据流注释所述文本流。

24.一种存储指令的非暂时性计算机可读存储介质，所述指令在由一个或多个处理器运行时使所述一个或多个处理器：

在在线会议期间接收表示第一用户的语音的语音音频流；

接收表示所述第一用户的所述语音的文本流；和

25.根据权利要求24所述的非暂时性计算机可读存储介质，其中，所述指令在由所述一个或多个处理器运行时使所述一个或多个处理器：

将所述合成语音音频流作为输出提供给扬声器。

26.根据权利要求25所述的非暂时性计算机可读存储介质，其中，所述指令在由所述一个或多个处理器运行时使所述一个或多个处理器接收指示所述第一用户的所述语音的语调的元数据流，其中，所述文本到语音的转换基于所述元数据流。

27.根据权利要求25所述的非暂时性计算机可读存储介质，其中，所述指令在由所述一个或多个处理器运行时使所述一个或多个处理器在将所述合成语音音频流提供给所述扬声器的同时显示虚拟化身。

28.根据权利要求25所述的非暂时性计算机可读存储介质，其中，所述指令在由所述一个或多个处理器运行时使所述一个或多个处理器在所述中断之前基于所述语音音频流更新语音模型，且其中，所述文本到语音的转换是基于语音模型来执行的。

29.一种装置，包括：

用于在在线会议期间接收语音音频流的部件，所述语音音频流表示第一用户的语音；

用于接收表示所述第一用户的语音的文本流的部件；和

用于响应于所述语音音频流中的中断而基于所述文本流选择性地生成输出的部件。

30.根据权利要求29所述的装置，其中，所述用于接收语音音频流的部件、所述用于接收文本流的部件以及所述用于选择性地生成输出的部件被集成到虚拟助理、家用电器、智能设备、物联网(IoT)设备、通信设备、头戴式耳机、交通工具、计算机、显示设备、电视机、游戏控制台、音乐播放器、收音机、视频播放器、娱乐单元、个人媒体播放器、数字视频播放器、相机或导航设备中的至少一者中。