CN115428476A

CN115428476A - 用于生成音频呈现的系统和方法

Info

Publication number: CN115428476A
Application number: CN202080100075.0A
Authority: CN
Inventors: R.马钱特; D.M.琼斯; P.罗德利-巴丁; A.施拉道; H.J.霍兰
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2022-12-02
Also published as: US20230156401A1; EP4122219A1; WO2021216060A1

Abstract

提供了用于生成音频呈现的系统和方法。一种方法可以包括获得指示用户的声学环境的数据；获得指示一个或多个事件的数据；由人工智能系统至少部分地基于指示一个或多个事件的数据和指示用户的声学环境的数据来为用户生成音频呈现；以及向用户呈现音频呈现。声学环境可以包括在计算系统上播放的第一音频信号或与用户的周围环境相关联的第二音频信号中的至少一个。一个或多个事件可以包括由计算系统传达给用户的信息或与用户的周围环境相关联的第二音频信号的至少一部分中的至少一个。

Description

用于生成音频呈现的系统和方法

技术领域

本公开总体上涉及用于生成音频呈现的系统和方法。更具体地，本公开涉及利用人工智能系统在特定时间将与事件相关联的音频信号并入用户的声学环境的设备、系统和方法。

背景技术

诸如智能手机的个人计算设备已经提供了跨各种平台和应用按需收听基于音频的内容的能力。例如，一个人可以收听其智能手机上本地存储的音乐和电影；流式(stream)电影、音乐、电视节目、播客和来自众多免费和基于订阅的服务的其他内容；访问互联网上可获得的多媒体内容；等等。此外，无线扬声器技术的进步已经允许用户在各种环境中收听这样的音频内容。

然而，在典型的实施方式中，关于是否向用户呈现音频信息，用户只有二元选择。例如，当在噪声消除模式下收听音频内容时，可以消除所有外部信号，包括用户更喜欢听到的音频信息。此外，当用户在用户的电话上收到任何类型的通知、消息、提示等时，与这些事件相关联的音频信息通常将在接收时呈现，经常中断为用户播放的任何其他音频内容。

发明内容

本公开的方面和优点将在以下描述中部分地阐述，或者可以从描述中显而易见，或者可以通过本公开的实施例的实践来了解。

本公开的一个示例方面针对一种用于为用户生成音频呈现的方法。该方法可以包括由包括一个或多个处理器的便携式用户设备获得指示用户的声学环境的数据。用户的声学环境可以包括在便携式用户设备上播放的第一音频信号或者经由一个或多个麦克风检测到的与用户的周围环境相关联的第二音频信号中的至少一个，所述一个或多个麦克风形成便携式用户设备的一部分或者与便携式用户设备通信地耦合。该方法还可以包括由便携式用户设备获得指示一个或多个事件的数据。所述一个或多个事件可以包括将由便携式用户设备传达给用户的信息或与用户的周围环境相关联的第二音频信号的至少一部分中的至少一个。该方法还可以包括由便携式用户设备的设备上人工智能系统至少部分地基于指示一个或多个事件的数据和指示用户的声学环境的数据来为用户生成音频呈现。生成音频呈现可以包括确定将与一个或多个事件相关联的第三音频信号合并到声学环境中的特定时间。该方法还可以包括由便携式用户设备向用户呈现该音频呈现。

本公开的另一个示例方面针对一种用于为用户生成音频呈现的方法。该方法可以包括由包括一个或多个处理器的计算系统获得指示用户的声学环境的数据。用户的声学环境可以包括在计算系统上播放的第一音频信号或与用户的周围环境相关联的第二音频信号中的至少一个。该方法还可以包括由计算系统获得指示一个或多个事件的数据。所述一个或多个事件可以包括将由计算系统传达给用户的信息或与用户的周围环境相关联的第二音频信号的至少一部分中的至少一个。该方法还可以包括由人工智能系统经由计算系统至少部分地基于指示一个或多个事件的数据和指示用户的声学环境的数据来为用户生成音频呈现。该方法还可以包括由计算系统向用户呈现音频呈现。由人工智能系统生成音频呈现可以包括由人工智能系统确定将与一个或多个事件相关联的第三音频信号合并到声学环境中的特定时间。

本公开的另一个示例方面涉及一种训练人工智能系统的方法。人工智能系统可以包括一个或多个机器学习模型。人工智能系统可以被配置为通过接收一个或多个事件的数据并将与一个或多个事件相关联的第一音频信号合并到用户的声学环境中来为用户生成音频呈现。该方法可以包括由包括一个或多个处理器的计算系统获得指示与用户相关联的一个或多个先前事件的数据。指示一个或多个先前事件的数据可以包括一个或多个先前事件的语义内容。该方法还可以包括由计算系统获得指示对一个或多个先前事件的用户响应的数据。指示用户响应的数据可以包括响应于一个或多个先前事件的、与计算系统的一个或多个先前用户交互或者描述响应于一个或多个先前事件接收的干预偏好的一个或多个先前用户输入中的至少一个。该方法还可以包括由计算系统训练包括一个或多个机器学习模型的人工智能系统，以至少部分地基于与用户相关联的一个或多个先前事件的语义内容和指示对一个或多个事件的用户响应的数据，将与一个或多个未来事件相关联的音频信号合并到用户的声学环境中。人工智能系统可以是与用户相关联的本地人工智能系统。

本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质、机器可读指令和电子设备。

参考以下描述和所附权利要求，本公开的这些和其他特征、方面和优点将变得更好理解。合并入本说明书并构成其一部分的附图示出了本公开的实施例，并与说明书一起用于解释本公开的原理。

附图说明

针对本领域普通技术人员的本公开的完整且可行的描述在参考附图的说明书中阐述，其中：

图1A描绘了根据本公开的示例方面的经由人工智能系统为用户生成音频呈现的示例系统的框图；

图1B描绘了根据本公开的示例方面的示例计算设备的框图；

图1C描绘了根据本公开的示例方面的示例计算设备的框图；

图2A描绘了根据本公开的示例方面的示例人工智能系统的框图；

图2B描绘了根据本公开的示例方面的示例人工智能系统的框图；

图2C描绘了根据本公开的示例方面的示例人工智能系统的框图；

图2D描绘了根据本公开的示例方面的示例人工智能系统的框图；

图2E描绘了根据本公开的示例方面的示例人工智能系统的框图；

图2F描绘了根据本公开的示例方面的示例人工智能系统的框图；

图3描绘了根据本公开的示例方面的用户的声学环境的图形表示；

图4A描绘了根据本公开的示例方面的包括通信的多个事件的图形表示；

图4B描绘了根据本公开的示例方面的多个事件的示例概要的图形表示；

图5描绘了根据本公开的示例方面的示例闯入(barge)干预策略(interventiontactic)的图形表示；

图6A描绘了根据本公开的示例方面的示例滑动(slip)干预策略的图形表示；

图6B描绘了根据本公开的示例性方面的示例性滑动干预策略的图形表示；

图7描绘了根据本公开的示例方面的示例过滤干预策略的图形表示；

图8A描绘了根据本公开的示例性方面的示例伸展(stretch)干预策略的图形表示；

图8B描绘了根据本公开的示例性方面的示例伸展干预策略的图形表示；

图9A描绘了根据本公开的示例方面的示例循环(loop)干预策略的图形表示；

图9B描绘了根据本公开的示例方面的示例循环干预策略的图形表示；

图9C描绘了根据本公开的示例方面的示例循环干预策略的图形表示；

图9D描绘了根据本公开的示例方面的示例循环干预策略的图形表示；

图10描绘了根据本公开的示例方面的示例移动干预策略的图形表示；

图11描绘了根据本公开的示例方面的示例覆盖干预策略的图形表示；

图12A描绘了根据本公开的示例性方面的示例闪避(duck)干预策略的图形表示；

图12B描绘了根据本公开的示例性方面的示例闪避干预策略的图形表示；

图13描绘了根据本公开的示例方面的示例干扰(glitch)干预策略的图形表示；

图14描绘了根据本公开的示例方面的用于生成音频呈现的示例方法；

图15描绘了根据本公开的示例方面的用于生成音频呈现的示例方法；以及

图16描绘了根据本公开的示例方面的示例训练方法。

具体实施方式

一般而言，本公开针对可以为用户生成音频呈现的设备、系统和方法。例如，诸如便携式用户设备(例如，智能手机、可穿戴设备等)的计算设备可以获得指示用户的声学环境的数据。在一些实施方式中，声学环境可以包括在计算设备上播放的第一音频信号和/或与用户的周围环境相关联的第二音频信号。第二音频信号可以经由计算设备的一个或多个麦克风来检测。计算设备还可以获得指示一个或多个事件的数据。一个或多个事件可以包括将由计算系统传达给用户的信息和/或与周围环境相关联的第二音频信号的至少一部分。例如，在各种实施方式中，一个或多个事件可以包括由计算设备接收的通信(例如，文本消息、SMS消息、语音消息等)、来自周围环境的音频信号(例如，通过PA系统的通告)、来自在计算设备上操作的应用的通知(例如，应用徽标、新闻更新等)，或者来自在计算设备上操作的应用的提示(例如，来自导航应用的逐向(turn-by-turn)指引)。计算系统然后可以使用人工智能(“AI”)系统，诸如设备上的AI系统，至少部分地基于指示一个或多个事件的数据和指示声学环境的数据来为用户生成音频呈现。例如，AI系统可以使用一个或多个机器学习模型来生成音频呈现。计算系统然后可以向用户呈现音频呈现。例如，在一些实施方式中，计算系统可以在可穿戴的扬声器设备(例如，耳塞)上为用户播放音频呈现。

更具体地，本公开的系统和方法可以允许作为沉浸式音频用户界面的一部分向用户提供可听的信息，就像图形用户界面向用户可视地提供信息一样。例如，计算技术的进步已经允许用户越来越多地通过各种计算设备(诸如个人用户设备(例如，智能手机、平板电脑、膝上型计算机等)和可穿戴设备(例如，智能手表、耳塞、智能眼镜等))连接。这样的计算设备允许实时或近实时地向用户提供信息。例如，在计算设备上操作的应用可以允许实时和接近实时的通信(例如，电话呼叫、文本/SMS消息、视频会议)，通知可以快速向用户通知可访问的信息(例如，电子邮件徽标、社交媒体帖子更新、新闻更新等)，并且提示可以为用户提供实时指令(例如，逐向指引、日历提醒等)。然而，在典型的实施方式中，用户可能只有关于是否向用户提供这种信息的二元选项(例如，全部提供或什么都不提供)。

此外，尽管无线声音技术的进步已经允许用户在各种环境中收听音频内容，诸如在穿戴可穿戴扬声器设备(例如，一对耳塞)的同时，是否向用户呈现音频信息通常也是二元决策。例如，接收一条或多条文本消息的用户通常会听到所接收的每条消息的相关声音，或者根本听不到任何一条的声音。此外，与文本消息相关联的声音通常在接收时提供，通常会打断为用户播放的任何音频内容。类似地，当用户在噪声消除模式下收听音频内容时，通常所有外部噪声都被消除。因此，用户可能希望听到的一些音频信息(例如，在PA系统上关于用户即将到来的航班的通告或另一个人对用户讲话)可能被消除，从而永远不会传达给用户。因此，为了让用户与用户的周围环境交互，用户可能必须停止播放音频内容，或者在某些情况下，完全移除可穿戴的扬声器设备。

然而，本公开的设备、系统和方法可以智能地为用户管理(curate)音频信息，并在适当的时间向用户呈现音频信息。例如，诸如便携式用户设备的计算系统可以获得指示用户的声学环境的数据。例如，声学环境可以包括在计算系统上播放的音频信号(例如，音乐、播客、有声读物等)。声学环境还可以包括与用户的周围环境相关联的音频信号。例如，便携式用户设备的一个或多个麦克风可以检测周围环境中的音频信号。在一些实施方式中，一个或多个麦克风可以被合并到可穿戴音频设备(诸如一对无线耳塞)中。

计算系统还可以获得指示一个或多个事件的数据。例如，指示一个或多个事件的数据可以包括要由计算系统传达给用户的信息和/或与用户的周围环境相关联的音频信号。例如，在一些实施方式中，一个或多个事件可以包括由计算系统接收的到用户的通信(例如，文本消息、SMS消息、语音消息等)。在一些实施方式中，一个或多个事件可以包括由计算系统接收的外部音频信号，诸如与周围环境相关联的音频信号(例如，PA通告、口头通信等)。在一些实施方式中，一个或多个事件可以包括来自在计算系统上操作的应用的通知(例如，应用徽标、新闻更新、社交媒体更新等)。在一些实施方式中，一个或多个事件可以包括来自在计算系统上操作的应用的提示(例如，日历提醒、导航提示、电话铃声等)。

指示一个或多个事件的数据和指示声学环境的数据然后可以被输入到AI系统，诸如本地存储在计算系统上的AI系统。例如，AI系统可以包括一个或多个机器学习模型(例如，神经网络等)。AI系统可以至少部分地基于指示一个或多个事件的数据和指示声学环境的数据来为用户生成音频呈现。生成音频呈现可以包括确定将与一个或多个事件相关联的音频信号合并到声学环境中的特定时间。

计算系统然后可以向用户呈现音频呈现。例如，在一些实施方式中，计算系统可以与相关联的外围设备通信地耦合。相关联的外围设备可以是例如扬声器设备，诸如经由蓝牙或其他无线连接耦合到计算系统的耳塞设备。在一些实施方式中，相关联的外围设备，诸如扬声器设备(例如，可穿戴耳塞设备)也可以被配置为向用户播放音频呈现。例如，计算系统的计算设备可以操作用于诸如经由蓝牙连接将音频信号通信到扬声器设备，并且在接收到音频信号时，扬声器设备可以为用户可听地播放音频呈现。

在一些实施方式中，AI系统可以通过识别声学环境中的间歇(例如，间隙)来确定将与一个或多个事件相关联的音频信号合并入声学环境的特定时间。例如，间歇可以是与声学环境的其他部分相比，与相对安静的时段相对应的声学环境的一部分。例如，对于收听流式音乐播放列表的用户，间歇可以对应于连续歌曲之间的过渡时段。类似地，对于收听有声读物的用户来说，间歇可以对应于章节之间的时段。对于电话呼叫中的用户，间歇可以对应于用户挂断后的时间段。对于与另一个人进行对话的用户，间歇可以对应于对话中的间歇。

在一些实施方式中，可以在向用户播放音频内容之前识别间歇。例如，播放列表、有声读物和其他音频内容可以被分析，并且可以识别间歇，诸如通过远离用户的计算设备的服务器计算设备。指示间歇的数据可以由服务器计算系统存储并提供给用户的计算设备。

在一些实施方式中，可以实时或近实时地识别间歇。例如，一个或多个机器学习模型可以分析在用户的计算设备上播放的音频内容，并且可以分析音频内容的即将到来的部分(例如，将在不久的将来播放的即将到来的音频内容的15秒窗口)。类似地，一个或多个机器学习模型可以分析声学环境中的音频信号，以实时或近实时地识别间歇。在一些实施方式中，AI系统可以选择间歇作为将与一个或多个事件相关联的音频信号合并入声学环境的特定时间。

在一些实施方式中，AI系统可以至少部分地基于用户的地理位置、与一个或多个事件相关联的源、或者指示一个或多个事件的数据的语义内容中的至少一个来确定一个或多个事件的紧急性。例如，当用户开车去开会时，关于会议的改变的位置的通知可以比用户还没有出发去开会时更紧急。类似地，当用户正在工作时(例如，在用户的工作场所)用户可能不想被提供某些信息(例如，文本消息等)，而当用户在家时用户可能希望接收这样的信息。AI系统可以使用一个或多个机器学习模型来分析用户的地理位置，并基于该地理位置来确定一个或多个事件的紧急性。

同样，与事件相关联的源可以用于确定一个或多个事件的紧急性。例如，来自用户配偶的通信可以比来自新闻应用的通知更紧急。类似地，通过PA系统发布的出发航班的通告可以比在用户的声学环境中播放的无线电广告更紧急。AI系统可以使用一个或多个机器学习模型来确定与一个或多个事件相关联的源，并基于该源来确定一个或多个事件的紧急性。

一个或多个事件的语义内容也可以用于确定一个或多个事件的紧急性。例如，来自用户配偶的关于他们的孩子在学校生病的文本消息可以比来自用户配偶的请求用户在回家的路上买一加仑牛奶的文本消息更紧急。类似地，来自在电话上操作的安全系统应用的指示潜在闯入正在发生的通知可以比来自应用的安全面板中的电池电量变低的通知更紧急。AI系统可以使用一个或多个机器学习模型来分析一个或多个事件的语义内容，并基于语义内容来确定一个或多个事件的紧急性。

此外，在一些实施方式中，AI系统可以概括一个或多个事件的语义内容。例如，用户可以接收多条群组文本消息，其中该群组正在决定是否去吃午饭以及去哪里吃午饭。在一些实施方式中，AI系统可以使用机器学习模型来分析多条文本消息的语义内容，并生成文本消息的概要。例如，该概要可以包括群组为群组午餐选择的位置和时间。

类似地，在一些实施方式中，可以概括单个事件。例如，用户可能在机场等待用户航班的登机。该航班的登机通告可以通过PA系统发出，并且可以包括诸如目的地、航班号、出发时间和/或其他信息的信息。AI系统可以为用户生成概要，诸如“您的航班现在正在登机”。

在一些实施方式中，AI系统可以至少部分地基于一个或多个事件来生成音频信号，并将该音频信号合并到用户的声学环境中。例如，在一些实施方式中，文本到语音(text-to-speech，TTS)机器学习模型可以将文本信息转换成音频信号，并且可以将音频信号合并入用户的声学环境。例如，可以在声学环境中的间歇期间(例如，在歌曲结束时)为用户播放一个或多个事件的概要。

在一些实施方式中，AI系统可以确定不将与事件相关联的音频信号合并到声学环境中。例如，AI系统可以将高度紧急的事件合并到声学环境中，而忽略(例如，不合并)非紧急事件。

在一些实施方式中，AI系统可以通过消除与用户周围环境相关联的音频信号的至少一部分来生成音频呈现。例如，用户可以正在噪声消除模式下收听音乐。AI系统可以从用户的周围环境中获得音频信号，这些音频信号可以包括环境或背景噪声(例如，汽车行驶和鸣笛、邻居的谈话、餐馆中的喧闹声等)以及离散的音频信号，诸如通过PA系统的通告。在一些实施方式中，AI系统可以在为用户播放音乐时，消除音频信号中对应于环境噪声的部分。此外，AI系统可以生成与PA通告(例如，概要)相关联的音频信号，并且可以将该音频信号合并到声学环境中，如本文所述。

在一些实施方式中，AI系统可以使用一种或多种干预策略将与一个或多个事件相关联的音频信号合并到声学环境中。例如，干预策略可以用于在特定时间合并与一个或多个事件相关联的音频信号。

作为示例，与一个或多个事件相关联的一些音频信号可以比其他音频信号更紧急，诸如高度紧急的文本消息或用户在特定时间转向的导航提示。在这种情况下，AI系统可以尽快将与一个或多个事件相关联的音频信号合并到声学环境中。例如，AI系统可以使用“闯入”干预策略，其中在计算系统上为用户播放的音频信号被中断，以便为与一个或多个事件相关联的音频信号腾出空间。

然而，可以使用其他干预策略以更少侵入的方式向用户呈现音频信息。例如，在一些实施方式中，可以使用“过滤”干预策略，其中在播放与一个或多个事件相关联的音频信号时，为用户播放的音频信号被过滤(例如，仅播放音频信号的某些频率)。“伸展”干预策略可以在播放与一个或多个事件相关联的音频信号时，保持并重复播放在计算系统上播放的音频信号的一部分(例如，保持歌曲的音调(note))。“循环”干预策略可以在播放与一个或多个事件相关联的音频信号时选择在计算系统上播放的音频信号的一部分并且重复播放该部分(例如，循环3秒的音频片段)。“移动(move)”干预策略可以在播放与一个或多个事件相关联的音频信号时改变在计算系统上播放的音频信号的感知方向(例如，从左到右、从前到后等)。“覆盖(overlay)”干预策略可以将与一个或多个事件相关联的音频信号覆盖在计算系统上播放的音频信号上(例如，同时)。“闪避”干预策略可以在播放与一个或多个事件相关联的音频信号时降低在计算系统上播放的音频信号的音量(例如，使第一音频信号更安静)。“干扰”干预策略可以用于在计算系统上播放的音频信号中生成缺陷(flaw)。例如，干扰干预策略可以用于向用户提供上下文信息，诸如通知用户何时转向(例如，响应于导航提示)或在用户跑步时标出距离标记(例如，每英里)。本文描述的干预策略可以用于将与一个或多个事件相关联的音频信号合并到用户的声学环境中。

在一些实施方式中，AI系统可以至少部分基于描述收听环境的用户输入来生成音频呈现。例如，用户可以从各种收听环境中选择特定的收听环境，并且该特定的收听环境可以描述更多还是更少的与一个或多个事件相关联的音频信息应该被传达给用户。

在一些实施方式中，可以至少部分基于描述干预偏好的先前用户输入来训练AI系统。例如，可以通过接收响应于一个或多个事件的一个或多个用户输入来生成训练数据集。例如，当用户接收到文本消息时，AI系统可以询问用户(例如，经由图形或音频用户界面)用户是否希望在将来被通知类似的文本消息。AI系统可以使用例如文本消息的发送者、用户的位置、文本消息的语义内容、用户选择的收听环境偏好等来训练AI系统是否和/或何时向用户呈现与未来发生的类似事件相关联的音频信息。

在一些实施方式中，可以至少部分地基于响应于一个或多个先前事件的与计算系统的一个或多个先前用户交互来训练AI系统。例如，除了具体请求关于一个或多个事件的用户输入之外或作为对其的替代，AI系统可以至少部分地基于用户是否和/或如何响应一个或多个事件来生成训练数据集。作为示例，用户快速响应文本消息可以指示类似的文本消息应该比被忽略、未被响应或在延长时间段内未被响应的文本消息具有更高的紧急级别。

由AI系统生成的训练数据集可以用于训练AI系统。例如，AI系统的一个或多个机器学习模型可以被训练来响应用户先前已经响应的事件或者用户已经指示为优选响应的事件。训练数据集可以用于训练存储在用户计算设备上的本地AI系统。

在一些实施方式中，AI系统可以基于本地AI系统生成一个或多个匿名化的参数，并且可以将匿名化的参数提供给服务器计算系统。例如，服务器计算系统可以使用联合学习方法来使用从多个用户接收的多个匿名化的参数来训练全局模型。全局模型可以提供给各个用户，并且可以用于例如初始化AI系统。

本公开的系统和方法可以提供许多技术效果和益处。例如，所公开的技术的各种实施方式可以提高向用户传达音频信息的效率。例如，某些实施方式可以允许向用户提供更多信息，而不延长音频信息被传达给用户的总持续时间。

此外或可替换地，某些实施方式可以减少不必要的用户分心，从而增强用户的安全性。例如，本公开的设备、系统和方法可以允许在用户执行诸如驾驶等的其他任务的同时将音频信息传达给用户。此外，在一些实施方式中，用户的音频信息可以被过滤、概括，并且基于音频信息的内容和/或上下文，在对用户合适的时间智能地传达。这可以提高向用户传达这种信息的效率，并改善用户的体验。

本公开的设备、系统和方法的各种实施方式可以使得能够在不损害用户在现实世界中有效操作的能力的情况下进行头戴式扬声器设备(例如，耳塞)的穿戴。例如，现实世界中的重要通告可以在适当的时间传达给用户，使得用户经由头戴式扬声器设备有效地消费音频的能力不会受到不利影响。

本公开的系统和方法还提供了对计算技术的改进。具体地，诸如个人用户设备的计算设备可以获得指示用户的声学环境的数据。计算设备还可以获得指示一个或多个事件的数据。计算设备可以至少部分地基于指示一个或多个事件的数据和指示用户的声学环境的数据，通过设备上AI系统为用户生成音频呈现。计算设备然后可以向用户呈现音频呈现，诸如经由一个或多个可穿戴的扬声器设备。

现在参考附图，将更详细地讨论本公开的示例实施例。

图1描绘了根据本公开的示例方面的用于为用户生成音频呈现的示例系统。系统100可以包括计算设备102(例如，诸如智能手机的用户/个人/移动计算设备)、服务器计算系统130和外围设备150(例如，扬声器设备)。在一些实施方式中，计算设备102可以是可穿戴计算设备(例如，智能手表、耳塞耳机等)。在一些实施方式中，外围设备150可以是可穿戴设备(例如，耳塞耳机)。

计算设备102可以包括一个或多个处理器111和存储器112。一个或多个处理器111可以是任何合适的处理设备(例如，处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或可操作地连接的多个处理器。存储器112可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等、及其组合。在一些实施方式中，存储器可以包括临时存储器，诸如音频缓冲器，用于音频信号的临时存储。存储器112可以存储数据114和指令116，指令116可以由处理器111运行以使得用户计算设备102执行操作。

计算设备102可以包括一个或多个用户界面118。用户界面118可以被用户用来与用户计算设备102交互，诸如提供用户输入，诸如选择收听环境、响应一个或多个事件等。

计算设备102还可以包括接收用户输入的一个或多个用户输入组件120。例如，用户输入组件120可以是对用户输入对象(例如，手指或触笔)的触摸敏感的触敏组件(例如，触敏显示屏118或触摸板)。在一些实施方式中，触敏组件可以用来实施虚拟键盘。其他示例用户输入组件120包括一个或多个按钮、传统键盘或用户可以用来提供用户输入的其他部件。用户输入组件120可以允许用户诸如经由用户界面120或者响应于用户界面120中显示的信息提供用户输入。

计算设备102还可以包括一个或多个显示屏122。显示屏122可以是例如被配置为诸如经由用户界面118向用户显示各种信息的显示屏。在一些实施方式中，一个或多个显示屏122可以是能够接收用户输入的触敏显示屏。

计算设备102还可以包括一个或多个麦克风124。一个或多个麦克风124可以是例如被配置为生成与用户的周围环境相关联的音频信号的任何类型的音频传感器和相关联的信号处理组件。例如环境音频，诸如餐馆嘈杂声、过往车辆噪音等，可以由一个或多个麦克风124接收，麦克风124可以基于用户的周围环境生成音频信号。

根据本公开的另一方面，计算设备102还可以包括人工智能(AI)系统125，该人工智能系统125包括一个或多个机器学习模型126。在一些实施方式中，机器学习模型126可以操作用于分析用户的声学环境。例如，声学环境可以包括由计算设备102播放的音频信号。例如，计算设备102可以被配置为播放各种媒体文件，并且相关联的音频信号可以被一个或多个机器学习模型126分析，如本文所公开的。在一些实施方式中，声学环境可以包括与用户的周围环境相关联的音频信号。例如，一个或多个麦克风124可以获得和/或生成与用户的周围环境相关联的音频信号。一个或多个机器学习模型126可以操作用于分析与用户的周围环境相关联的音频信号。

在一些实施方式中，一个或多个机器学习模型126可以操作用于分析指示一个或多个事件的数据。例如，指示一个或多个事件的数据可以包括要由计算设备102传达给用户的信息和/或与用户的周围环境相关联的音频信号。例如，在一些实施方式中，一个或多个事件可以包括由计算设备102接收的到用户的通信(例如，文本消息、SMS消息、语音消息等)。在一些实施方式中，一个或多个事件可以包括由计算设备102接收的外部音频信号，诸如与周围环境相关联的音频信号(例如，PA通告、口头通信等)。在一些实施方式中，一个或多个事件可以包括来自在计算设备上操作的应用的通知(例如，应用徽标、新闻更新、社交媒体更新等)。在一些实施方式中，一个或多个事件可以包括来自在计算设备102上操作的应用的提示(例如，日历提醒、导航提示、电话铃声等)。

在一些实施方式中，一个或多个机器学习模型126可以是例如神经网络(例如，深度神经网络)或输出由人工智能系统使用的各种信息的其他多层非线性模型。下面将进一步参考图2A至图2F讨论根据本公开的示例方面的示例人工智能系统125和相关联的机器学习模型126。

AI系统125可以存储在设备上(例如，在计算设备102上)。例如，AI系统125可以是本地AI系统125。

计算设备102还可以包括通信接口128。通信接口128可以包括任意数量的用于提供联网通信的组件(例如，收发器、天线、控制器、卡等)。在一些实施方式中，计算设备102包括可以操作用于使用诸如蓝牙和/或蓝牙低能量的短程无线协议进行通信的第一网络接口，可以操作用于使用诸如Wi-Fi的其他无线网络协议进行通信的第二网络接口，和/或可以操作用于通过GSM、CDMA、AMPS、1G、2G、3G、4G、5G、LTE、GPRS和/或其他无线蜂窝网络进行通信的第三网络接口。

计算设备102还可以包括一个或多个扬声器129。一个或多个扬声器129可以例如被配置为可听地播放音频信号(例如，生成包括声音、语音等的声波)以供用户听到。例如，人工智能系统125可以为用户生成音频呈现，并且一个或多个扬声器129可以向用户呈现音频呈现。

仍然参考图1，系统100还可以包括服务器计算系统130。服务器计算系统130可以包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或可操作地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等、及其组合。存储器134可以存储数据136和由处理器132运行以使服务器计算系统130执行操作的指令138。

在一些实施方式中，服务器计算系统130包括一个或多个服务器计算设备或者以其他方式由一个或多个服务器计算设备来实现。在其中服务器计算系统130包括多个服务器计算设备的情况下，这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合来操作。

在一些实施方式中，服务器计算系统130可以存储或包括AI系统140，该AI系统140可以包括一个或多个机器学习模型142。下面将进一步参考附图2A至图2F讨论根据本公开的示例方面的示例人工智能系统140和相关联的机器学习模型142。

在一些实施方式中，AI系统140可以是基于云的AI系统140，诸如对特定用户唯一的个人云AI系统140。AI系统140可以操作用于经由基于云的AI系统140为用户生成音频呈现。

服务器计算系统130和/或计算设备102可以包括模型训练器146，该模型训练器146使用各种训练或学习技术，诸如误差的反向传播，来训练人工智能系统125/140/170。在一些实施方式中，执行误差的反向传播可以包括随时间执行截短的(truncated)反向传播。模型训练器146可以执行多种泛化技术(例如，权重衰减、丢弃等)来提高被训练模型的泛化能力。

特别地，模型训练器146可以基于训练数据144集合来训练一个或多个机器学习模型126/142/172。训练数据144可以包括例如由AI系统125/140/170生成的训练数据集。例如，如本文将更详细描述的，训练数据144可以包括指示一个或多个先前事件的数据和描述干预偏好的相关联的用户输入。在一些实施方式中，训练数据144可以包括指示一个或多个先前事件的数据和指示响应于一个或多个先前事件的与计算设备102的一个或多个先前用户交互的数据。

在一些实施方式中，服务器计算设备130可以实现模型训练器146来训练新的模型或在附加训练数据144上更新现有模型的版本。作为示例，模型训练器146可以从一个或多个计算设备102接收与本地AI系统125相关联的匿名化的参数，并且可以使用联合学习方法来生成全局AI系统140。在一些实施方式中，全局AI系统140可以被提供给多个计算设备102，以在多个计算设备102上初始化本地AI系统125。

服务器计算设备130可以周期性地向计算设备102提供AI系统140和/或机器学习模型142的一个或多个更新版本。更新的AI系统140和/或机器学习模型142可以经由网络180发送到用户计算设备102。

模型训练器146可以包括用于提供所需功能的计算机逻辑。模型训练器146可以用控制通用处理器的硬件、固件和/或软件来实现。例如，在一些实施方式中，模型训练器146包括存储在存储设备上、加载到存储器112/134中并由一个或多个处理器111/132运行的程序文件。在其他实施方式中，模型训练器146包括存储在诸如RAM硬盘或光学或磁性介质的有形的计算机可读存储介质中的一个或多个计算机可运行指令集合。

在一些实施方式中，被描述为存储在服务器计算设备130处或由服务器计算设备130执行的任何过程、操作、程序、应用或指令可以全部或部分地存储在计算设备102处或由计算设备102执行，反之亦然。例如，如所示的，计算设备102可以包括模型训练器146，其被配置为训练本地存储在计算设备102上的一个或多个机器学习模型126。

网络180可以是任何类型的通信网络，诸如局域网(例如，内联网)、广域网(例如，互联网)或其某种组合，并且可以包括任何数量的有线或无线链路。一般而言，网络180上的通信可以使用各种通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如，VPN、安全HTTP、SSL)，经由任何类型的有线和/或无线连接来承载。

仍然参考图1所示，系统100可以进一步包括一个或多个外围设备150。在一些实施方式中，外围设备150可以是可穿戴的扬声器设备，诸如可以通信地耦合到计算设备102的耳塞设备。

外围设备150可以包括被配置为接收用户输入的一个或多个用户输入组件152。用户输入组件152可以被配置为接收指示请求的用户交互，诸如响应于一个或多个事件。例如，用户输入组件120可以是对用户输入对象(例如，手指或触笔)的触摸敏感的触敏组件(例如，触摸板)。其他示例用户输入组件152包括一个或多个按钮、开关或用户可以用来提供用户输入的其他部件。用户输入组件152可以允许用户提供诸如请求显示一个或多个语义实体的用户输入。

外围设备150还可以包括一个或多个扬声器154。一个或多个扬声器154可以例如被配置为可听地播放音频信号(例如，声音、语音等)以供用户听到。例如，与在计算设备102上播放的媒体文件相关联的音频信号可以诸如通过一个或多个网络180从计算设备102通信，并且该音频信号可以由一个或多个扬声器154可听地向用户播放。类似地，与计算设备102接收的通信信号(例如，电话呼叫)相关联的音频信号可以由一个或多个扬声器154可听地播放。

外围设备150还可以包括通信接口156。通信接口156可以包括任意数量的提供联网通信的组件(例如，收发器、天线、控制器、卡等)。在一些实施方式中，外围设备150包括可以操作用于使用诸如蓝牙和/或蓝牙低能量的短程无线协议进行通信的第一网络接口，可以操作用于使用诸如Wi-Fi的其他无线网络协议进行通信的第二网络接口，和/或可以操作用于通过GSM、CDMA、AMPS、1G、2G、3G、4G、5G、LTE、GPRS和/或其他无线蜂窝网络进行通信的第三网络接口。

外围设备150还可以包括一个或多个麦克风158。一个或多个麦克风158可以是例如被配置为生成与用户的周围环境相关联的音频信号的任何类型的音频传感器和相关联的信号处理组件。例如环境音频，诸如餐馆嘈杂声、过往车辆噪音等，可以由一个或多个麦克风158接收，麦克风158可以基于用户的周围环境生成音频信号。

外围设备150可以包括一个或多个处理器162和存储器164。一个或多个处理器162可以是任何合适的处理设备(例如，处理器内核、微处理器、ASIC、FPGA、控制器、微控制器等)并且可以是一个处理器或可操作地连接的多个处理器。存储器164可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等、及其组合。存储器164可以存储数据166和由处理器162运行以使外围设备150执行操作的指令168。

外围设备150可以存储或包括AI系统170，AI系统170可以包括一个或多个机器学习模型172。下面将进一步参考图2A至图2F讨论根据本公开的示例方面的示例人工智能系统170和相关联的机器学习模型172。在一些实施方式中，AI系统170可以被合并到AI系统125/140中或者作为AI系统125/140的一部分。例如，AI系统125/140/170可以通信地耦合并一起工作来为用户生成音频呈现。作为示例，各种机器学习模型124/142/172可以作为AI系统125/140/170的一部分本地存储在相关联的设备/系统102/130/150上，并且机器学习模型124/142/172可以共同为用户生成音频呈现。

例如，第一机器学习模型172可以经由与周围环境相关联的麦克风158获得音频信号，并且对经由麦克风158获得的音频信号的一个或多个部分执行噪声消除。第二机器学习模型125可以将与事件相关联的音频信号合并到由第一机器学习模型172生成的经噪声消除的声学环境中。

如本文所述，AI系统170可以由计算设备102和/或服务器计算系统130训练或以其他方式提供给外围设备150。

图1B描绘了根据本公开的示例实施例执行的示例计算设备10的框图。计算设备10可以是用户计算设备或服务器计算设备。

计算设备10包括多个应用(例如，应用程序1至N)。每个应用包含自己的机器学习库和机器学习模型。例如，每个应用可以包括机器学习模型。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图1B所示，每个应用可以与计算设备的多个其他组件通信，诸如，例如一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，每个应用可以使用API(例如，公共API)与每个设备组件通信。在一些实施方式中，每个应用使用的API是特定于该应用的。

图1C描绘了根据本公开的示例实施例执行的示例计算设备50的框图。计算设备50可以是用户计算设备或服务器计算设备。

计算设备50包括多个应用(例如，应用1至N)。每个应用都与中央智能层通信。示例应用包括文本消息应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用可以使用API(例如，跨所有应用的公共API)与中央智能层(以及存储在其中的模型)通信。

中央智能层包括多个机器学习模型。例如，如图1C所示，相应的机器学习模型(例如，模型)可以为每个应用提供，并由中央智能层管理。在其他实施方式中，两个或更多个应用可以共享单个机器学习模型。例如，在一些实施方式中，中央智能层可以为所有应用提供单个模型(例如，单个模型)。在一些实施方式中，中央智能层被包括在计算设备50的操作系统中，或者以其他方式由计算设备50的操作系统来实现。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是计算设备50的集中式数据仓库。如图1C所示，中央设备数据层可以与计算设备的多个其他组件通信，诸如，例如一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，中央设备数据层可以使用API(例如，私有API)与每个设备组件通信。

图2A描绘了根据本公开的示例方面的包括一个或多个机器学习模型202的示例AI系统200的框图。在一些实施方式中，AI系统200可以存储在计算设备/系统上，诸如图1中所描绘的计算设备102、计算系统130和/或外围设备150。AI系统200可以是被配置为为用户生成音频呈现208的AI系统。在一些实施方式中，AI系统200被训练来接收指示一个或多个事件204的数据。

例如，指示一个或多个事件的数据可以包括要由计算设备/系统传达给用户的信息和/或与用户的周围环境相关联的音频信号。例如，在一些实施方式中，一个或多个事件可以包括由计算设备/系统接收的到用户的通信(例如，文本消息、SMS消息、语音消息等)。在一些实施方式中，一个或多个事件可以包括由计算设备/系统接收的外部音频信号，诸如与周围环境相关联的音频信号(例如，PA通告、口头通信等)。在一些实施方式中，一个或多个事件可以包括来自在计算设备上操作的应用的通知(例如，应用徽标、新闻更新、社交媒体更新等)。在一些实施方式中，一个或多个事件可以包括来自在计算设备102上操作的应用的提示(例如，日历提醒、导航提示、电话铃声等)。

在一些实施方式中，AI系统200被训练为还接收指示用户的声学环境206的数据。例如，指示声学环境206的数据可以包括在计算设备/系统上为用户播放的音频信号(例如，音乐、播客、有声读物等)。指示声学环境206的数据还可以包括与用户的周围环境相关联的音频信号。

如图2A所示，指示一个或多个事件204的数据和指示声学环境206的数据可以被输入到AI系统200中，诸如输入到一个或多个机器学习模型202中。AI系统200可以至少部分地基于指示一个或多个事件204的数据和指示声学环境206的数据来为用户生成音频呈现208。例如，音频呈现208(例如，指示其的数据)可以作为AI系统200和/或一个或多个机器学习模型202的输出被接收。

AI系统200可以通过确定是否以及何时将与一个或多个事件204相关联的音频信号合并到声学环境206中来生成音频呈现208。换句话说，AI系统200可以智能地为用户管理音频信息。

例如，现在参考图3，描绘了用户310的示例声学环境300。如图所示，用户310穿戴着可穿戴的扬声器设备312(例如，耳塞)。在一些实施方式中，声学环境300可以包括为用户310播放的音频内容，诸如从用户的个人计算设备流式传输到可穿戴扬声器设备312的音乐。

然而，用户310的声学环境300还可以包括附加的音频信号，诸如与用户的周围环境相关联的音频信号320-328。音频信号320-328中的每一个可以与唯一的事件相关联。例如，如图所示，音频信号320可以是由音乐家在火车站的装载平台上生成的音频信号。另一个音频信号322可以是来自附近孩子笑声的音频信号。音频信号324可以是通过PA系统的通告，诸如特定列车正在上车的通告。音频信号326可以是来自附近乘客的音频信号，该乘客大喊以引起其旅行团队中其他成员的注意。音频信号328可以是由附近的火车生成的音频信号，诸如由在轨道上行驶的火车生成的音频信号或者指示火车即将出发的喇叭声。

用户的周围环境中的音频信号320-328的刺耳嘈杂声以及为用户310播放的任何音频内容都有可能让用户310难以忍受。因此，作为响应，期望在用户的个人设备上收听音频内容的用户310可以使用噪声消除模式来消除音频信号320-328，从而仅允许在用户的个人设备上播放的音频内容被呈现给用户。然而，这可能导致用户310错过重要的音频信息，诸如通过PA系统324发布的用户的火车即将出发的的通告。因此，在一些情况下，为了确保用户310不会错过重要的音频内容，用户310可能必须关闭噪声消除模式或者完全移除可穿戴扬声器设备312。

此外，即使当用户310能够收听音频内容，诸如在用户的个人设备(例如，智能手机)上播放的音频内容，这样的音频内容也可能频繁地被其他事件中断，诸如与由用户的个人设备提供的通信、通知和/或提示相关联的音频信号。作为响应，用户可以选择“静音”模式，其中不提供与设备上通知相关联的任何音频信号，但是这也可能导致用户类似地错过重要信息，诸如来自配偶的文本消息或者来自旅行应用的关于旅行延迟的通知。

回头参考附图2A，AI系统200可以通过确定是否以及何时将与一个或多个事件相关联的音频信号合并到用户的声学环境中来智能地管理用户的声学环境。例如，根据本发明的附加示例方面，由AI系统200生成音频呈现208可以包括确定将与一个或多个事件204相关联的音频信号合并到声学环境206中的特定时间。

例如，现在参考图2B，在一些实施方式中，指示声学环境206的数据可以被输入到一个或多个机器学习模型212中，该模型被配置为识别声学环境206中的间歇214。例如，与声学环境206的其他部分相比，间歇214可以是声学环境206的对应于相对安静时段的一部分。例如，对于收听流式音乐播放列表的用户，间歇214可以对应于连续歌曲之间的过渡时段。类似地，对于收听有声读物的用户，间歇214可以对应于章节之间的时段。对于电话呼叫中的用户，间歇214可以对应于用户挂断后的时间段。对于与另一个人进行对话的用户，间歇214可以对应于对话中的中断。参考图6A和图6B更详细地描述了示例间歇214。

在一些实施方式中，可以在向用户播放音频内容之前识别间歇214。例如，播放列表、有声读物和其他音频内容可以由一个或多个机器学习模型212来分析，并且可以诸如由远离用户的计算设备的服务器计算设备来识别间歇214。指示间歇214的数据可由服务器计算系统存储并提供给用户的计算设备。

在一些实施方式中，可以实时或近实时地识别间歇214。例如，一个或多个机器学习模型212可以分析在用户的计算设备上播放的音频内容，并且可以分析音频内容的即将到来的部分(例如，将在不久的将来播放的即将到来的音频内容的15秒窗口)。类似地，一个或多个机器学习模型212可以分析声学环境206中的音频信号，以实时或近实时地识别间歇214。

在一些实施方式中，AI系统200可以选择间歇214作为将与一个或多个事件相关联的音频信号合并到声学环境206中的特定时间。例如，指示间歇214的数据和指示一个或多个事件204的数据可以被输入到第二机器学习模型216中，第二机器学习模型216可以在间歇214期间通过将与一个或多个事件204相关联的音频信号合并到声学环境206中来生成音频呈现208。

在一些实施方式中，一种或多种干预策略可以用于将与一个或多个事件204相关联的音频信号合并到声学环境206中。参考图5至图13更详细地描述了根据本公开的示例方面的示例干预策略。

现在参考图2C，在一些实施方式中，AI系统200可以生成与一个或多个事件相关联的音频信号224。例如，指示一个或多个事件204的数据可以被输入到被配置为生成与一个或多个事件204相关联的音频信号224的一个或多个机器学习模型222中。例如，文本到语音(TTS)机器学习模型222可以将与一个或多个事件204相关联的文本(例如，文本消息)转换成音频信号224。类似地，其他机器学习模型222可以生成与其他事件204相关联的音频信号224。例如，在一些实施方式中，一个或多个机器学习模型222可以生成音调音频信号224，其可以传达一个或多个事件204的上下文。例如，可以为不同的导航提示生成不同的音频信号224，诸如通过使用第一音调来指示右转，以及使用第二音调来指示左转。

音频信号224(例如，指示其的数据)和声学环境206(例如，指示其的数据)可以被输入到一个或多个机器学习模型226中，该模型可以为用户生成音频呈现(例如，指示其的数据)208。例如，如本文所述，音频信号224可以被合并到声学环境206中。

现在参考附图2D，在一些实施方式中，AI系统200可以至少部分基于一个或多个事件204的语义内容234来生成音频信号。例如，指示一个或多个事件204的数据可以被输入到被配置为确定一个或多个事件204的语义内容234的一个或多个机器学习模型232中。例如，可以诸如通过使用被配置为将语音转换成文本的机器学习模型232分析用户周围环境中的通过PA系统的通告，以确定通告的语义内容234。此外，在一些实施方式中，语义内容234可以被输入到被配置为生成语义内容234的概要238的一个或多个机器学习模型236中。

例如，坐在机场的用户的声学环境206可以偶尔包括具有关于各种航班的信息的PA系统通告，诸如航班目的地、航班号、出发时间和/或其他信息。然而，用户可能只希望听到关于他/她即将到来的航班的通告。在一些实施方式中，每个航班通告(例如，每个事件)的语义内容234可以由一个或多个机器学习模型232来确定。对于大多数事件204(例如，大多数航班通告)，在分析语义内容后，AI系统200可以确定与事件204相关联的音频信号不需要被合并到用户的声学环境206中。例如，AI系统200可以确定不将与一个或多个事件相关联的音频信号合并到声学环境204中。

然而，在获得用户的航班(例如，特定事件)的PA系统通告的音频信号后，AI系统200可以确定与该通告相关联的音频信号应该被合并到用户的声学环境206中。例如，AI系统200可以辨识(recognize)通告的语义内容234中的航班号对应于存储在用户的个人设备上的登机牌文档或日历条目上的航班号。

在一些实施方式中，AI系统200可以通过选择当前时间段向用户提供与一个或多个事件相关联的音频信号来生成音频呈现208。例如，AI系统200可以在接收到关于用户的航班的PA系统通告时将其传递给用户，但是将其他通知进行噪声消除。

在一些实施方式中，AI系统可以选择未来时间段来提供与通告相关联的音频信号(例如，在间歇期间，如本文所述)。然而，尽管这种方法可以智能地管理(例如，过滤)用户可能不关心的音频信号，但是传递或重放关于用户的航班的PA通告可能会呈现超出用户需要的额外和不必要的信息。

为了在音频呈现208中更好地管理呈现给用户的音频信息，在一些实施方式中，可以概括一个或多个事件204的语义内容234。例如，可以由一个或多个机器学习模型236使用语义内容234来生成通告(例如，单个事件)的概要238，而不是为用户重放PA系统通告。例如，AI系统200可以生成概要238，其中生成带有信息“您的航班现在正在登机”的音频信号

类似地，在一些实施方式中，可以为用户概括多个事件。例如，现在参考图4A，描绘了用户的示例声学环境410。声学环境410可以是例如在一段时间内为用户播放的音频内容。在不同的时间，用户可以诸如经由用户的个人设备接收文本消息420A-D(例如，事件)。文本消息420A-D中的每一个可以是对应于相关联的接收时间430A-D的事件，如参考声学环境410所描绘的。例如，文本消息420A-D可以是一个群组的人试图决定是否去以及去哪里吃午餐的文本消息链。事件420A-D(例如，文本消息420A-D)中的每一个可以被输入到AI系统中，并且可以为事件420A-D确定相应的语义内容。此外，现在参考图4B，可以至少部分基于事件420A-D的语义内容来生成概要430。例如，概要430可以概括文本消息420A-D的语义内容，其中概要430指出该群组已经决定午餐吃玉米卷。

虽然图4A和4B可视地描绘了各种通知和概要，但是与事件和概要相关联的信息可以作为音频内容提供给用户。例如，文本消息420A-D的概要440可以被合并到为用户播放的声学环境410中。例如，音频信号450可以由AI系统200生成，并且音频信号440可以被合并到声学环境410中。例如，如本文所述，文本到语音机器学习模型可以在声学环境410中的间歇(或其他特定时间)期间为用户可听地播放概要。

现在参考附图2E，在一些实施方式中，AI系统200可以至少部分地基于一个或多个事件的紧急性246来生成音频呈现208。例如，如图所示，在一些实施方式中，一个或多个事件的语义内容234、地理位置240和/或与一个或多个事件相关联的源242可以被输入到一个或多个机器学习模型244中，以确定一个或多个事件的紧急性246。语义内容234可以是例如由一个或多个机器学习模型232生成的语义内容，如图2D所示。

例如，用户的地理位置240可以指示用户的声学环境和/或用户的偏好。例如，当用户在用户的工作场所时，用户可能更喜欢仅被提供与某些源242相关联的音频内容和/或其中语义内容234特别重要和/或与用户的工作相关的音频内容。然而，当用户在家时，用户可能更喜欢被提供与更广范围和/或不同的源242集合相关联的音频内容，和/或其中语义内容234与更广范围和/或不同的主题集合相关联的音频内容。

类似地，当用户正在行进时，用户可能不喜欢被提供某些音频内容。例如，AI系统200可以基于用户在行进时改变的地理位置240，使用一个或多个机器学习模型246来确定用户正在行进。例如，用户沿着街道的改变的地理位置240可以指示用户正在驾驶。在这种情况下，一个或多个机器学习模型244可以使用地理位置240来确定只有具有相对高的紧急性246的事件应该被合并到声音呈现208中。

作为示例，用户在其工作场所(例如，地理位置240)接收来自其配偶(例如，源242)的表明该用户的孩子在学校生病的文本消息(例如，语义内容234)可以被一个或多个机器学习模型244确定为具有相对高的紧急性246。相反，用户在其工作场所(例如，地理位置240)接收来自用户配偶(例如，源242)的请求用户在回家的路上买一加仑牛奶的文本消息(例如，语义内容234)可以被一个或多个机器学习模型244确定为具有相对低的紧急性246。

类似地，开车去机场(例如，地理位置240)的用户从他的朋友(例如，源242)接收到询问用户是否想去看棒球比赛的文本消息(例如，语义内容234)可以被一个或多个机器学习模型244确定为具有相对低的紧急性246。相比之下，当用户正在前往机场(例如，地理位置240)时接收到的来自在用户的智能手机上操作的旅行应用(例如，源242)的、指示用户的即将到来的航班已经被延迟(例如，语义内容234)的通知可以被一个或多个机器学习模型2442确定为具有相对高的紧急性246。

在一些实施方式中，也可以使用其他数据来确定紧急性246。例如，一个或多个上下文意符(未示出)也可以用于确定紧急性246。作为示例，一天中的时间(例如，在用户的典型工作日期间)可以指示用户可能正在工作，即使用户在家(例如，远程工作)。类似地，一周中的某一天(例如，周末)可以指示用户可能不在工作。此外，用户正在执行的活动也可以是上下文意符(signifier)。作为示例，用户编辑文档或起草电子邮件可以指示用户正在执行工作活动。类似地，用户导航到目的地(例如，驾驶车辆)可以指示用户很忙，因此不应该经常被打断。在这种情况下，一个或多个机器学习模型248可以使用这种上下文意符来生成音频呈现208。

事件204的紧急性246和用户的声学环境206可以被输入到一个或多个机器学习模型248中，以生成音频呈现208。例如，事件204的紧急性246可以用于确定是否、何时和/或如何将与事件204相关联的音频信号合并到声学环境206。例如，具有相对高的紧急性246的事件204可以比具有相对低的紧急性246的事件204更快地被合并到声学环境206中。此外，可以使用不同的音调来识别通知的类型和相关联的紧急性两者。例如，第一频率(例如，低频)的蜂鸣音可以指示已经接收到低紧急性文本消息，而第二频率(例如，高频)的蜂鸣音可以指示已经接收到高紧急性文本消息。以这种方式，AI系统200可以通过至少部分基于一个或多个事件204的紧急性246将与一个或多个事件204相关联的音频信号合并到声学环境206中来生成音频呈现208。

现在参考图2F，在一些实施方式中，AI系统200可以通过消除与声学环境206相关联的音频信号的至少一部分来生成音频呈现。例如，如所描绘的，声学环境206(例如，指示其的数据)可以被输入到一个或多个机器学习模型252中，以生成噪声消除254(例如，经消除的音频信号)。作为示例，AI系统200的一个或多个机器学习模型252可以执行主动噪声消除，以允许某些环境声音(例如，降雨、鸟的啁啾声等)通过，同时消除更刺耳、更具破坏性的声音(汽车鸣笛、人们叫喊等)。噪声消除254可以被合并到音频呈现中，诸如本文描述的音频呈现208。

通常参考图2A至图2F，AI系统200和相关联的机器学习模型可以协同工作来智能地管理用户的声学环境206。例如，可以分析事件204以确定事件204的紧急性246。可以基于事件204的语义内容234来概括事件204。与事件204相关联的音频信号可以由AI系统200生成。AI系统200可以确定向用户呈现音频信号的特定时间，诸如在方便的时间。音频信号可以在该特定时间被合并到用户的声学环境206，诸如在用户的智能手机上播放的音乐。

此外，在一些实施方式中，AI系统可以至少部分基于描述收听环境的用户输入来为用户生成音频呈现208。例如，用户可以选择多个不同收听环境中的一个，该收听环境可以包括用于向用户呈现音频信息的各种阈值。例如，在范围的一端，用户可以选择实时通知模式，在该模式中，具有相关联的音频信号的每个事件被实时或近实时地呈现给用户。在该范围的另一端，用户可以选择静音模式，其中周围环境中的所有外部声音都被消除。一个或多个中间模式可以包括其中事件被概括的概要模式、其中产生白噪声并提供音调音频信息(例如，指示各种事件的音调)的环境更新模式、和/或其中仅提供来自用户周围的音频内容的环境模式。当用户改变她的收听模式时，AI系统200可以调整如何将音频信息合并到她的声学环境206中。

根据本公开的附加示例方面，在一些实施方式中，一个或多个干预策略可以用于将与一个或多个事件相关联的音频信号合并到用户的声学环境。现在参考图5，描绘了示例“闯入”干预策略。例如，描绘了声学环境510，并且声学环境可以包括一个或多个音频信号，如本文所述。在一些实施方式中，AI系统可以使用闯入策略来中断声学环境510，以合并与一个或多个事件相关联的音频信号520。例如，如图所示，声学环境510的音频信号完全停止，而与一个或多个事件520相关联的音频信号被播放。一旦已经播放了与一个或多个事件520相关联的音频信号，就恢复声学环境510。例如，闯入策略可以用于具有相对高的紧急性的事件。

现在参考图6A和图6B，描绘了示例“滑动”干预策略。例如，如图6A所示，示出了声学环境610。在612，出现间歇。例如，如本文所述，间歇612可以对应于声学环境610的相对安静的部分。如图6B所示，通过在间歇612期间播放音频信号620，可以将与一个或多个事件620相关联的音频信号合并到声学环境610中。例如，滑动干预策略可以用于不具有相对高的紧急性的事件，或者用于在对用户更方便或更合适的时间呈现音频信息。

现在参考图7，描绘了示例“过滤”干预策略。例如，如图7所示，示出了声学环境710。在712，过滤策略被应用于声学环境710。例如，如图所示，只有某些频率通过。与一个或多个事件720相关联的音频信号然后可以通过在过滤712发生时播放音频信号720而被合并到声学环境710中。

现在参考图8A和图8B，描绘了示例“伸展”干预策略。例如，如图8A所示，示出了声学环境810，如图8B所示，声学环境已经通过伸展音频信号的第一部分来保持和连续播放第一音频信号的第一部分而被“伸展”。例如，歌曲的音调可以保持一段时间。当声学环境810被伸展时，与一个或多个事件820相关联的音频信号然后可以通过在伸展发生时播放音频信号820而被合并到声学环境810中。

现在参考图9A至图9D，描绘了示例“循环”干预策略。例如，如图所示。现在参考图9A，示出了声学环境910。可以选择声学环境910的部分912(例如，片段)。例如，部分912可以是声学环境910的即将到来的部分，在该部分处，与一个或多个事件920相关联的音频信号将被合并到声学环境910中。如图9B所示，当播放部分912A时(例如，当声学环境910到达第一部分时)，与一个或多个事件920相关联的音频信号可以通过播放音频信号920而被合并到声学环境910中。如图9C所示，在完成播放部分912A时，可以在播放音频信号920的同时播放第二部分912B。在完成播放部分912B时，可以在播放音频信号920的同时播放第三部分912C。连续部分912可以类似地重复播放，直到音频信号920完成。以这种方式，循环干预策略可以通过重复循环声学环境910的部分912来保持和重复播放声学环境910的部分912。

现在参考图10，描绘了示例“移动”干预策略。例如，如图10所示，示出了声学环境1010。如图所示，当播放与一个或多个事件1020相关联的音频信号时，可以改变声学环境1010的感知方向。例如，声学环境1010的感知方向可以通过将立体声声学环境1010从左侧移动到右侧、从前侧移动到后侧等来改变。在一些实施方式中，改变感知方向可以包括合并“消声”效果，其中声学环境1010被感知为在离用户一定距离处。

现在参考图11，描绘了示例“覆盖”干预策略。例如，如图11所示，示出了声学环境1110。如图所示，通过同时播放声学环境1110和音频信号1120两者，与一个或多个事件1120相关联的音频信号被以声学环境1110覆盖。覆盖干预策略可以用于向用户提供上下文。例如，第一音调可以用于指示驾驶员应该左转，而第二音调可以用于指示右转。

现在参考图12A和图12B，描绘了示例“闪避”干预策略。例如，如图12A所示，示出了声学环境1210。然而，如图12B所示，在播放与一个或多个事件1220相关联的音频信号时，已经降低了声学环境1210的音量。闪避干预策略可以用于逐渐或突然降低声学环境1210的音量。声学环境1210的音量降低的速度可以用于例如为音频信号1220提供上下文，诸如指示一个或多个事件的紧急性。

现在参考图13，描绘了示例“干扰”干预策略。例如，如图13所示，示出了声学环境1310。如图所示，可以通过在声学环境1310中制造缺陷来生成与一个或多个事件1320相关联的音频信号。例如，该缺陷可以类似于唱片划痕或数字音轨的跳跃。该缺陷可以用于向用户提供上下文。例如，干扰策略可以用于收听音乐的跑步者标出距离或时间标记(例如，每英里、每分钟等)。

大体上参考图5至图13所示，本文描述的干预策略可以单独使用或者相互结合使用。例如，伸展策略和闪避策略可以用于伸展和降低声学环境的音量。此外，应当注意，本文描述的声学环境可以包括为用户播放音频内容和/或音频信号的消除。例如，在环境模式下收听的用户可以让某些声音(例如，雨声)传递给用户，而其他声音(汽车喇叭声)被消除。

图14描绘了用于生成音频呈现的示例方法1400的流程图。尽管图14出于说明和讨论的目的描绘了以特定顺序执行的步骤，但是本公开的方法不限于特定示出的顺序或布置。在不脱离本公开的范围的情况下，方法1400的各个步骤可以以各种方式被省略、重新排列、组合和/或修改。

在1402，该方法可以包括获得指示声学环境的数据。例如，在一些实施方式中，指示声学环境的数据可以包括诸如在用户的便携式用户设备上为用户播放的音频信号。在一些实施方式中，指示声学环境的数据可以包括与用户的周围环境相关联的音频信号。例如，一个或多个麦克风可以检测/获得与周围环境相关联的音频信号。

在1404，该方法可以包括获得指示一个或多个事件的数据。例如，在一些实施方式中，指示一个或多个事件的数据可以由便携式用户设备获得。一个或多个事件可以包括诸如由便携式用户设备传达给用户的信息，和/或与用户的周围环境相关联的音频信号的一部分。在一些实施方式中，一个或多个事件可以包括由便携式用户设备接收的到用户的通信(例如，文本消息、SMS消息、语音消息等)。在一些实施方式中，一个或多个事件可以包括由便携式用户设备接收的外部音频信号，诸如与周围环境相关联的音频信号(例如，PA通告、口头通信等)。在一些实施方式中，一个或多个事件可以包括来自在便携式用户设备上操作的应用的通知(例如，应用徽标、新闻更新、社交媒体更新等)。在一些实施方式中，一个或多个事件可以包括来自在便携式用户设备上操作的应用的提示(例如，日历提醒、导航提示、电话铃声等)。

在1406，该方法可以包括由AI系统至少部分地基于指示一个或多个事件的数据和指示用户的声学环境的数据来为用户生成音频呈现。例如，在一些实施方式中，AI系统可以是便携式用户设备的设备上AI系统。

在1408，该方法可以包括向用户呈现音频呈现。例如，在一些实施方式中，音频呈现可以由便携式用户设备来呈现。例如，便携式用户设备可以经由一个或多个可穿戴的扬声器设备(诸如一个或多个耳塞)向用户呈现音频呈现。

现在参考图15，描绘了为用户生成音频呈现的示例方法1500的流程图。尽管图15出于说明和讨论的目的描绘了以特定顺序执行的步骤，但是本公开的方法不限于特定示出的顺序或布置。在不脱离本公开的范围的情况下，方法1500的各个步骤可以以各种方式被省略、重新排列、组合和/或修改。

在1502，该方法可以包括确定一个或多个事件的紧急性。例如，在一些实施方式中，AI系统可以使用一个或多个机器学习模型来至少部分地基于用户的地理位置、与一个或多个事件相关联的源和/或一个或多个事件的语义内容来确定一个或多个事件的紧急性。

在1504，该方法可以包括识别声学环境中的间歇。例如，与声学环境的其他部分相比，间歇可以是与相对安静的时段相对应的声学环境的一部分。例如，对于收听流式音乐播放列表的用户，间歇可以对应于连续歌曲之间的过渡时段。类似地，对于收听有声读物的用户来说，间歇可以对应于章节之间的时间段。对于电话呼叫中的用户，间歇可以对应于用户挂断后的时间段。对于与另一个人进行对话的用户，间歇可以对应于对话中的中断。

在1506，该方法可以包括确定将与一个或多个事件相关联的音频信号合并到声学环境中的特定时间。例如，在一些实施方式中，可以至少部分基于一个或多个事件的紧急性来确定(例如，选择)特定时间。例如，具有相对更高的紧急性的事件可以比具有相对更低的紧急性的事件更早呈现。在一些实施方式中，AI系统可以选择所识别的间歇作为合并与一个或多个事件相关联的音频信号的特定时间。在一些实施方式中，确定合并与一个或多个事件相关联的音频信号的特定时间可以包括确定不将音频信号合并到声学环境。在一些实施方式中，确定特定时间可以包括确定将第一音频信号合并到声学环境的特定时间，同时确定不合并第二音频信号。

在1508，该方法可以包括生成音频信号。例如，在一些实施方式中，音频信号可以是指示一个或多个事件的紧急性的音调。在一些实施方式中，与一个或多个事件相关联的音频信号可以包括一个或多个事件的语义内容的概要。例如，在一些实施方式中，诸如概要的音频信号可以由文本到语音(TTS)模型生成。

在1510，该方法可以包括消除噪声。例如，在一些实施方式中，为用户生成音频呈现可以包括消除与用户的周围环境相关联的一个或多个音频信号。

在1512，该方法可以包括将与一个或多个事件相关联的音频信号合并到用户的声学环境中。例如，在一些实施方式中，可以使用一种或多种干预策略。例如，AI系统可以使用闯入干预策略，其中中断在计算系统上为用户播放的音频信号，以便为与一个或多个事件相关联的音频信号腾出空间。在一些实施方式中，AI系统可以使用滑动干预策略来在声学环境中的间歇期间播放与一个或多个事件相关联的音频信号。在一些实施方式中，可以使用过滤干预策略，其中在播放与一个或多个事件相关联的音频信号时过滤为用户播放的音频信号(例如，仅播放音频信号的某些频率)。在一些实施方式中，可以使用伸展干预策略，其中AI系统在播放与一个或多个事件相关联的音频信号时保持并重复播放在设备上播放的音频信号的一部分(例如，保持歌曲的音调)。在一些实施方式中，可以使用循环干预策略，其中AI系统选择在设备上播放的音频信号的一部分，并且在播放与一个或多个事件相关联的音频信号时重复播放该部分(例如，循环3秒的音频片段)。在一些实施方式中，可以使用移动干预策略，其中AI系统在播放与一个或多个事件相关联的音频信号时，改变在计算系统上播放的音频信号的感知方向(例如，从左到右、从前到后等)。在一些实施方式中，可以使用覆盖干预策略，其中AI系统将与一个或多个事件相关联的音频信号覆盖在设备上播放的音频信号上(例如，同时)。在一些实施方式中，可以使用闪避干预策略，其中AI系统在播放与一个或多个事件相关联的音频信号时降低设备上播放的音频信号的音量(例如，使第一音频信号更安静)。在一些实施方式中，可以使用干扰干预策略，其中AI系统在设备上播放的音频信号中生成缺陷。

现在参考图16，描绘了训练AI系统的示例方法1600的流程图。尽管图16出于说明和讨论的目的描绘了以特定顺序执行的步骤，但是本公开的方法不限于特定示出的顺序或布置。在不脱离本公开的范围的情况下，方法1600的各个步骤可以以各种方式被省略、重新排列、组合和/或修改。

在1602，该方法可以包括获得指示一个或多个先前事件的数据。例如，一个或多个先前事件可以包括由计算系统接收的到用户的通信(例如，文本消息、SMS消息、语音消息等)。在一些实施方式中，一个或多个事件可以包括由计算系统接收的外部音频信号，诸如与周围环境相关联的音频信号(例如，PA通告、口头通信等)。在一些实施方式中，一个或多个事件可以包括来自在计算系统上操作的应用的通知(例如，应用徽标、新闻更新、社交媒体更新等)。在一些实施方式中，一个或多个事件可以包括来自在计算系统上操作的应用的提示(例如，日历提醒、导航提示、电话铃声等)。在一些实施方式中，指示一个或多个先前事件的数据可以被包括在由AI系统生成的训练数据集中。

在1604，该方法可以包括获得指示对一个或多个先前事件的用户响应的数据。例如，指示用户响应的数据可以包括响应于一个或多个先前事件的与计算系统的一个或多个先前用户交互。例如，用户是否查看了来自新闻应用通知的新闻文章可以用于训练将来是否提供类似的新闻更新。在一些实施方式中，指示用户响应的数据可以包括描述响应于一个或多个先前事件而接收的干预偏好的一个或多个先前用户输入。例如，AI系统可以询问用户是否愿意在将来接收类似的内容。在一些实施方式中，指示用户响应的数据可以被包括在由AI系统生成的训练数据集中。

在1606，该方法可以包括训练包括一个或多个机器学习模型的AI系统，以至少部分地基于与用户相关联的一个或多个先前事件的语义内容和指示对一个或多个事件的用户响应的数据，将与一个或多个未来事件相关联的音频信号合并到用户的声学环境。例如，人工智能系统可以被训练成以类似于用户如何对类似事件做出反应的方式将音频信号合并到声学环境，或者更好地与用户声明的偏好保持一致。

在1608，该方法可以包括确定与AI系统相关联的一个或多个匿名化的参数。例如，AI系统可以是存储在用户个人设备上的本地AI系统。一个或多个匿名化的参数可以包括例如AI系统的一个或多个机器学习模型的一个或多个匿名的化参数。

在1610，该方法可以包括向服务器计算系统提供与AI系统相关联的一个或多个匿名化的参数，该服务器计算系统被配置为经由联合学习至少部分地基于一个或多个匿名化的参数来确定全局AI系统。例如，服务器计算系统可以接收多个本地AI系统匿名化的参数，并且可以生成全局AI系统。例如，全局AI系统可以用于在用户设备上初始化AI系统。

本文讨论的技术涉及服务器、数据库、软件应用和其他基于计算机的系统，以及所采取的行动和发送到这些系统和从这些系统接收的信息。基于计算机的系统的固有灵活性允许在组件之间对任务和功能进行多种可能的配置、组合和划分。例如，本文讨论的服务器过程可以使用单个服务器或组合工作的多个服务器来实现。数据库和应用可以在单个系统上实现，也可以分布在多个系统上。分布式组件可以顺序或并行操作。

虽然已经针对具体的示例实施例和方法详细描述了本主题，但是应当理解，本领域技术人员在理解前述内容的基础上，可以容易地产生这些实施例的变更、变化和等同物。因此，本公开的范围是示例性的，而不是限制性的，并且本公开不排除包括对本主题的这种修改、变化和/或添加，这对本领域普通技术人员来说是显而易见的

此外，虽然本公开一般参考诸如智能手机的计算设备来讨论，但是本公开也适用于其他形式的计算设备，包括例如膝上型计算设备、平板计算设备、可穿戴计算设备、台式计算设备、移动计算设备或其他计算设备。

Claims

1.一种用于为用户生成音频呈现的方法，包括：

由包括一个或多个处理器的便携式用户设备获得指示用户的声学环境的数据，所述用户的声学环境包括在便携式用户设备上播放的第一音频信号或经由一个或多个麦克风检测到的与用户的周围环境相关联的第二音频信号中的至少一个，所述一个或多个麦克风形成便携式用户设备的一部分或与便携式用户设备通信地耦合；

由便携式用户设备获得指示一个或多个事件的数据，所述一个或多个事件包括要由所述便携式用户设备传达给所述用户的信息或与所述用户的周围环境相关联的第二音频信号的至少一部分中的至少一个；

由便携式用户设备的设备上人工智能系统至少部分地基于指示一个或多个事件的数据和指示用户的声学环境的数据为用户生成音频呈现，其中生成音频呈现包括确定将与一个或多个事件相关联的第三音频信号合并到声学环境的特定时间；以及

由便携式用户设备向用户呈现所述音频呈现。

2.根据权利要求1所述的方法，其中，所述音频呈现经由一个或多个可穿戴的扬声器设备呈现给用户，并且可选地，其中：

第一音频信号经由一个或多个头戴式扬声器设备和/或形成所述一个或多个头戴式扬声器设备的一部分的一个或多个麦克风中的至少一个向用户播放。

3.根据任一前述权利要求所述的方法，其中，所述一个或多个可穿戴扬声器设备包括一个或多个头戴式可穿戴扬声器设备。

4.一种用于为用户生成音频呈现的方法，包括：

由包括一个或多个处理器的计算系统获得指示用户的声学环境的数据，所述用户的声学环境包括在计算系统上播放的第一音频信号或与用户的周围环境相关联的第二音频信号中的至少一个；

由所述计算系统获得指示一个或多个事件的数据，所述一个或多个事件包括将由所述计算系统传达给所述用户的信息或与所述用户的周围环境相关联的第二音频信号的至少一部分中的至少一个；

由人工智能系统经由计算系统至少部分地基于指示一个或多个事件的数据和指示用户的声学环境的数据来为用户生成音频呈现；以及

由所述计算系统向用户呈现音频呈现；

其中，由所述人工智能系统生成所述音频呈现包括由所述人工智能系统确定将与一个或多个事件相关联的第三音频信号合并到声学环境中的特定时间。

5.根据任一前述权利要求所述的方法，其中，由所述人工智能系统确定将与一个或多个事件相关联的第三音频信号合并到声学环境中的特定时间包括：

识别声学环境中的间歇；以及

选择所述间歇作为所述特定时间。

6.根据任一前述权利要求所述的方法，其中，由所述人工智能系统确定将与一个或多个事件相关联的第三音频信号合并到声学环境中的特定时间包括：

由所述人工智能系统至少部分地基于所述用户的地理位置、与一个或多个事件相关联的源或指示所述一个或多个事件的数据的语义内容中的至少一个来确定一个或多个事件的紧急性，以及

由所述人工智能系统至少部分地基于一个或多个事件的紧急性来确定所述特定时间。

7.根据任一前述权利要求所述的方法，其中，第三音频信号与一个或多个事件中的第一事件相关联，并且其中，所述方法还包括：

由所述人工智能系统确定不将与一个或多个事件中的第二事件相关联的音频信号合并到声学环境中。

8.根据任一前述权利要求所述的方法，其中，获得指示用户的声学环境的数据包括获得与用户的周围环境相关联的第二音频信号；并且

其中，由人工智能系统为用户生成音频呈现包括对与用户的周围环境相关联的第二音频信号的至少一部分进行噪声消除。

9.根据任一前述权利要求所述的方法，其中，由所述人工智能系统生成音频呈现还包括由所述人工智能系统在所述特定时间将第三音频信号合并到声学环境中。

10.根据前述权利要求中任一项所述的方法，其中，由所述人工智能系统生成音频呈现还包括：

由所述人工智能系统至少部分地基于指示一个或多个事件的数据来生成第三音频信号。

11.根据前述权利要求中任一项所述的方法，其中，由所述人工智能系统至少部分基于指示一个或多个事件的数据生成第三音频信号包括：由所述人工智能系统至少部分基于指示一个或多个事件的数据的语义内容生成第三音频信号。

12.根据前述权利要求中任一项所述的方法，其中，由所述人工智能系统至少部分基于一个或多个事件的语义内容生成第三音频信号包括对一个或多个事件的语义内容进行概括。

13.根据前述权利要求中任一项所述的方法，其中，所述一个或多个事件包括由所述计算系统接收的到用户的通信、由所述计算系统接收的包括与所述用户的周围环境相关联的第二音频信号的至少一部分的外部音频信号、来自在所述计算系统上操作的应用的通知、或来自在所述计算系统上操作的应用的提示中的至少一个。

14.根据前述权利要求中任一项所述的方法，其中，将第三音频信号合并到声学环境中包括以下中的至少一个：使用至少一种干预策略将第三音频信号合并到声学环境中；并且

其中，所述至少一种干预策略包括以下中至少一种：中断第一音频信号，过滤第一音频信号，通过伸展第一音频信号的第一部分来保持并连续地播放第一音频信号的第一部分，通过重复地循环第一音频信号的第二部分来保持并重复地播放第一音频信号的第二部分，改变第一音频信号的感知方向，将第三音频信号重叠到第一音频信号上，降低第一音频信号的音量，或者在第一音频信号中生成缺陷。

15.根据前述权利要求中任一项所述的方法，其中，由所述人工智能系统确定将与一个或多个事件相关联的第三音频信号合并到声学环境中的特定时间包括：由所述人工智能系统确定不将第三音频信号合并到声学环境中。

16.根据前述权利要求中任一项所述的方法，其中，所述音频呈现至少部分基于描述收听环境的用户输入来生成。

17.根据前述权利要求中任一项所述的方法，其中，所述人工智能系统已经至少部分基于描述干预偏好的先前用户输入来训练。

18.根据前述权利要求中任一项所述的方法，其中，所述人工智能系统已经至少部分地基于响应于一个或多个先前事件的、与所述计算系统的一个或多个先前用户交互来训练。

19.一种训练人工智能系统的方法，所述人工智能系统包括一个或多个机器学习模型，所述人工智能系统被配置为通过接收一个或多个事件的数据并将与一个或多个事件相关联的第一音频信号合并到用户的声学环境中来为用户生成音频呈现，所述方法包括：

由包括一个或多个处理器的计算系统获得与用户相关联的、指示一个或多个先前事件的数据，所述指示一个或多个先前事件的数据包括一个或多个先前事件的语义内容；

由所述计算系统获得指示对一个或多个先前事件的用户响应的数据，指示用户响应的数据包括响应于一个或多个先前事件的、与计算系统的一个或多个先前用户交互或描述响应于一个或多个先前事件接收的干预偏好的一个或多个先前用户输入中的至少一个；以及

由所述计算系统训练包括一个或多个机器学习模型的人工智能系统，以至少部分地基于与用户相关联的一个或多个先前事件的语义内容和指示对一个或多个事件的用户响应的数据，将与一个或多个未来事件相关联的音频信号合并到用户的声学环境中；

其中，所述人工智能系统包括与用户相关联的本地人工智能系统。

20.根据权利要求19所述的方法，还包括：

由所述计算系统接收指示一个或多个先前事件的用户位置的数据或指示一个或多个先前事件的源的数据中的至少一个；以及

其中，由所述计算系统训练所述人工智能系统包括由所述计算系统至少部分地基于指示一个或多个先前事件的用户位置的数据或指示一个或多个先前事件的源的数据中的至少一个来训练所述人工智能系统。

21.根据前述权利要求中任一项所述的方法，还包括：

由所述计算系统确定与和用户相关联的本地人工智能系统相关联的一个或多个匿名化的参数；

由所述计算系统向服务器计算系统提供与和用户相关联的本地人工智能系统相关联的一个或多个匿名化的参数，所述服务器计算系统被配置为经由联合学习至少部分地基于一个或多个匿名化的参数来确定全局人工智能系统。

22.一种系统，包括：

包括一个或多个机器学习模型的人工智能系统；

一个或多个处理器；以及

一个或多个非暂时性计算机可读介质，其共同地存储当由一个或多个处理器运行时使计算系统执行操作的指令，所述操作包括：

获得指示用户的声学环境的数据，所述用户的声学环境包括在计算系统上播放的第一音频信号或与用户的周围环境相关联的第二音频信号中的至少一个；

获得指示一个或多个事件的数据，所述一个或多个事件包括将由计算系统传达给用户的信息或与用户的周围环境相关联的第二音频信号的至少一部分中的至少一个；

由所述人工智能系统至少部分地基于指示一个或多个事件的数据和指示用户的声学环境的数据来为用户生成音频呈现；以及

向用户呈现音频呈现；

其中，由所述人工智能系统生成音频包括：

确定将与一个或多个事件相关联的第三音频信号合并到声学环境的特定时间；以及

在所述特定时间将第三音频信号合并到声学环境中。

23.根据权利要求22所述的系统，其中，由所述人工智能系统生成音频包括：至少部分基于所述一个或多个事件的语义内容生成第三音频信号。

24.根据前述权利要求中任一项所述的系统，其中，所述系统还包括包含扬声器的可穿戴设备；并且

其中，向用户呈现向用户的音频呈现包括经由可穿戴设备播放音频呈现。

25.一种便携式用户设备，包括一个或多个处理器，所述处理器经由机器可读指令配置为执行权利要求1至21中任一项所述的方法。

26.一种机器可读指令，当被运行时，使得权利要求1至21中任一项的方法的执行。