CN116686293A

CN116686293A - 生成式媒体内容的回放

Info

Publication number: CN116686293A
Application number: CN202180085869.9A
Authority: CN
Inventors: 戴恩·威尔伯丁; 史蒂芬·贝克哈德; 格雷戈里·麦卡利斯特; 丹尼尔·琼斯; 奥雷里奥·拉莫斯; 尼古拉斯·达马托
Original assignee: Sonos Inc
Current assignee: Sonos Inc
Priority date: 2020-11-18
Filing date: 2021-11-17
Publication date: 2023-09-01

Abstract

可以在多个回放设备之间同时回放生成式媒体内容(例如，生成式音频)。协调器设备可以接收多通道媒体内容流，其中至少一些通道包括生成式媒体内容。协调器设备向多个回放设备发送这些通道中的每个通道。第一回放设备根据第一回放职责来回放第一通道子集，并且第二回放设备根据第二回放职责来回放第二通道子集。例如响应于一个或多个输入参数，可以随着时间动态地修改第一回放职责和/或第二回放职责。

Description

生成式媒体内容的回放

相关申请的交叉引用

本申请要求于2020年11月18日提交的题为“Multi-Device Playback ofGenerative Media Content”的美国临时申请No.63/198,866、于2021年5月10日提交的题为“Playback of Generative Media Content”的美国申请No.17/302,690、以及于2021年9月30日提交的题为“Multi-Channel Playback of Generative Media Content”的美国临时申请No.63/261，893的优先权，这些申请中的每个申请的全部内容通过引用合并于此。

技术领域

本公开涉及消费者产品，并且更具体地，涉及与媒体回放或者其某个方面相关的方法、系统、产品、特征、服务和其他元素。

背景技术

访问和收听外放设置的数字音频的选项是有限的，直到2002年Sonos公司开始开发新型回放系统为止。Sonos然后于2003年提交了其首批专利申请中的一件题为“Methodfor Synchronizing Audio Playback between Multiple Networked Devices”的专利申请，并于2005年开始出售其首个媒体回放系统。Sonos无线家庭音响系统使人们能够经由一个或多个联网回放设备体验来自许多源的音乐。通过安装在控制器(例如‘智能电话、平板计算机、计算机、语音输入设备)上的软件控制应用，人们可以在任何具有联网回放设备的房间中回放他想要的东西。媒体内容(例如，歌曲、播客、视频声音)可以流式传输给回放设备，使得每个具有回放设备的房间可以回放对应的不同媒体内容。另外，可以将房间分组在一起以同步回放相同的媒体内容，和/或可以在所有房间中同步收听相同的媒体内容。

附图说明

参考以下说明书、所附权利要求和附图，可以更好地理解所公开的技术的特征、方面和优点，如下面所列出的。相关领域的技术人员将理解，附图中所示的特征用于说明的目的，并且包括不同和/或附加的特征及其布置的变化是可能的。

图1A是具有根据所公开的技术的方面配置的媒体回放系统的环境的局部剖面视图。

图1B是图1A的媒体回放系统和一个或多个网络的示意图。

图1C是回放设备的框图。

图1D是回放设备的框图。

图1E是绑定回放设备的框图。

图1F是网络麦克风设备的框图。

图1G是回放设备的框图。

图1 H是控制设备的局部示意图。

图11至图1L示出了对应的媒体回放系统区的示意图。

图1M示出了媒体回放系统区的示意图。

图2是根据本技术的示例的用于回放生成式媒体内容的系统的功能框图。

图3是根据本技术的各方面的用于生成式媒体模块的功能框图。

图4是根据本技术的各方面的用于存储并取回生成式媒体内容的示例架构。

图5是示出了根据本技术的各方面的用于回放生成式媒体内容的系统中的数据交换的功能框图。

图6是根据本技术的各方面的示例分布式生成式媒体回放系统的示意图。

图7是用于多通道回放的生成式媒体回放系统的图。

图8是用于多通道回放的另一生成式媒体回放系统的图。

图9至图13是根据本技术的各方面的用于回放生成式媒体内容的方法的流程图。

附图用于示出本技术的示例的目的，但本领域普通技术人员将理解，本文公开的技术不限于附图中所示的布置和/或手段。

具体实施方式

I.概述

生成式媒体内容是基于算法来动态合成、创建和/或修改的内容，无论是在软件还是物理模型中实现。生成式媒体内容可以单独地基于算法或结合上下文数据(例如，用户传感器数据、环境传感器数据、发生数据)随着时间而改变。在各种示例中，这种生成式媒体内容可以包括生成式音频(例如，音乐、环境音景等)、生成式视觉图像(例如，动态地改变形状、颜色等的抽象视觉设计)或任何其他合适的媒体内容或其组合。如本文的其他地方所说明的，生成式音频可以至少部分地经由算法和/或非人类系统来创建，该算法和/或非人类系统利用基于规则的计算来产生新颖的音频内容。

由于可以实时动态地修改生成式媒体内容，因此它可以实现使用预先录制的内容的常规媒体回放所无法获得的独特用户体验。例如，生成式音频可以是随着算法的输入(例如，与用户输入相关联的输入参数、传感器数据、媒体源数据或任何其他合适的输入数据)改变而变化的无限和/或动态音频。在一些示例中，生成式音频可以用于将用户的情绪引导至所期望的情绪状态，其中生成式音频的一个或多个特性响应于反映用户情绪状态的实时测量而变化。如在本技术的示例中所使用的，该系统可以基于用户的当前和/或所期望的情绪状态、基于用户的活动水平、基于环境内存在的用户的数量、或任何其他合适的输入参数来提供生成式音频。

作为另一示例，可以基于一个或多个输入(诸如用户的位置或活动、房间中出现的用户的数量、一天中的时间、或(例如，由一个或多个传感器或由用户输入确定的)任何其他输入)来创建和/或修改生成式音频。例如，当单个用户以平静状态坐在她的办公桌前时，媒体回放系统可以自动生成适合于所专注的学习或工作的生成式音频内容，而当房间中存在进行很多运动且处于兴奋状态的多个用户时，同一媒体回放系统可以自动产生适合社交聚会或舞会的生成式音频。在各种示例中，可以被动态修改以产生生成式音频的音频特性可以包括音频样本或剪辑的选择、节奏、低音/高音/中音音量、音频输出的空间滤波或任何其他合适的音频特性。可以通过使用不同的音调或声音、音调或声音的定时、和/或可能具有所期望的质量的音频样本来改变音频特性。在一些情况下，也可以通过过滤或调制内容的回放来改变特性，诸如各自衡、相位或混响/延迟。在收听体验期间，可以基于多种输入(诸如一天中的时间、地理位置、天气)或各种用户输入(诸如推断的情绪、集体活动水平)或生理输入(诸如心率等)来改变生成式音乐的音频特性。

在涉及多个分立回放设备的环境内，在各种回放设备之间协调生成式音频内容的回放可能具有挑战性。在一些情况下，每个回放设备可以同步回放相同的生成式音频内容。为此，各种设备可以同步它们的输入或用于生成式媒体内容模块的其他参数，以及同步所得生成式音频的回放。在一些示例中，一些或所有回放设备可以具有彼此不同的回放职责(例如，对应于音频输入的不同通道或回放职责的其他这种划分)，同时回放仍然可以同时(例如，同步地)发生以被环境内的一个或多个用户听到。在一些示例中，不同的回放设备可以回放完全独立的生成式音频内容，但这些内容仍然可以同时和/或同步回放。例如，在具有丛林般视觉装饰的房间内，第一回放设备可以回放对应于流水声的生成式音频以模拟流，而第二回放设备可以回放对应于鸟鸣或其他动物噪声的生成式音频，而第三回放设备可以回放对应于节奏节拍的生成式音频。尽管每个回放设备输出独立的生成式音频内容，但通过所有三个设备同时回放它们各自的生成式音频内容，仍然可以改善用户体验。

在这些和其他情况下，协调各种回放设备之间的回放可能很有用。在一些示例中，生成式媒体组可以包括多个分立设备，该多个分立设备在操作中彼此同时地回放生成式音频内容。该组中的一个设备可以用作协调器设备，其余组设备用作负责回放的成员设备。在操作中，协调器设备可以将媒体内容、关联数据和/或指令路由到成员设备以促进同时回放。在一些示例中，协调器设备包括生成式媒体模块，该生成式媒体模块可以基于一个或多个输入(例如，传感器数据、用户输入、所选择的音频内容源等)来产生一个或多个生成式音频内容流。然后可以将生成式音频内容流发送给组成员设备以用于回放。在一些示例中，协调器设备例如通过参与音频回放，本身也可以是成员设备。

附加地或备选地，这些成员设备中的一个或多个成员设备可以利用其自己的生成式媒体模块来基于一个或多个输入参数动态地产生生成式音频内容。在这种情况下，协调器设备可以向成员设备发送指令、数据(例如，用于促进同步回放的定时数据)和/或输入参数，然后这些成员设备继而可以产生生成式音频以与该组中的其他设备同时进行实时或近乎实时的回放。下面更详细地说明附加示例。

在一些情况下，处理输入参数和产生生成式媒体内容可能是计算密集型的，并且可能超过环境内的一个或多个本地回放设备的计算能力(例如，处理能力、可用存储器等)。因此，利用分布式架构进行生成式媒体回放可能很有用，其中产生生成式媒体内容所需的某些任务由远程计算设备(例如，基于云的服务器)来处理，而其他任务由一个或多个本地回放设备来处理。作为一个示例，一个或多个远程计算设备可以产生并存储生成式媒体内容的各种排列。这些排列可以对应于不同的能量水平、所期望的情绪状态等，并且可以在远程计算设备处随着时间而更新。然后，本地回放设备可以查询远程计算设备以接收生成式媒体内容的特定排列以用于回放。所请求或传送的特定排列可以至少部分地基于一个或多个输入参数，该一个或多个输入参数继而可以由回放设备检测和/或提供。在一个示例中，本地回放设备(或多个这种设备)可以接收指示房间中的大量人的输入参数(例如，传感器数据)。这些参数可以指示高能量水平，并且相应地，本地回放设备可以请求来自远程计算设备的生成式媒体内容的适当排列。然后，远程计算设备可以选择生成式媒体内容的适当排列并将其发送给本地回放设备以用于回放。

在远程计算设备处，可以产生并存储生成式媒体内容的各种排列，每个排列具有不同的特性和/或配置文件。例如，存储在远程计算设备上的生成式媒体模块可以利用特定的生成式媒体内容模型(例如，使用一个或多个音频段和/或输入参数作为输入来产生新颖的生成式媒体内容的算法或规则集)来生成生成式媒体内容的多个不同的排列。例如，生成式媒体模块可以生成相同生成式媒体内容的高能量、中能量和低能量变体，其中，在各种排列中使用相同(或至少一些重叠)的音频段，但不同地混合和/或修改这些段以产生不同的内容(例如，较高或较低的节奏，较多或较少的和弦变化等)。

附加地或备选地，多个分立音频段可以本地存储在本地环境内的一个或多个回放设备上。这些音频段可以被布置、排序、重叠、混合和/或以其他方式处理以产生生成式媒体内容的方式进行回放。在一些示例中，远程计算设备可以以更新的生成式媒体内容模型(例如，算法)的形式周期性地向本地回放设备提供指令，然后本地回放设备可以使用该指令以实现所期望的心理声学效果的方式回放本地存储的分立音频段。在该示例中，输出生成式音频所需的任务被分配为使得本地回放设备存储、布置并回放组成音频段，而远程计算设备处理输入参数并确定特定段应该如何被布置和以其他方式处理以产生所期望的生成式媒体内容。本地计算设备和远程计算设备之间的各种其他任务分配是可能的。

生成式媒体内容的多通道回放可能带来某些挑战，特别是鉴于环境内的不同回放设备之间同步回放各种通道的重要性。例如，在一些情况下，可以基于某些输入(例如，传感器数据、用户输入或其他上下文信息)来实时修改不同回放设备之间的生成式媒体内容的特定分配。虽然经由云服务器或其他远程计算设备来产生生成式媒体内容可能很有用，但要求这种远程计算设备基于本地上下文来重新计算通道分配可能引入不期望的时延。

本技术通过向环境内的多个回放设备中的每个回放设备提供多通道生成式媒体内容(例如，包括至少一些生成式媒体内容的多通道内容)的所有通道来解决这些和其他问题。在一些情况下，这包括将这些通道发送给协调器设备，该协调器设备继而将这些通道发送给环境内的回放设备。然后，每个回放设备可以接收关于这些通道的哪个子集(以及在什么水平)要与其他回放设备同步回放的指令。例如，在房间的第一区域中的回放设备可以回放雨声，而在房间的另一部分中的回放设备可以回放伴随的节奏节拍。作为另一示例，每个设备可以回放这些通道中的两个或更多个通道，但以不同的相对水平(例如，第一回放设备以80％的增益回放雨声并以20％的增益回放伴随的节拍，而第二回放设备则相反)。这些回放职责和通道的分配可以基于一个或多个输入而实时变化。例如，随着更多用户进入房间，可以增加节拍的节奏，或者可以调整各个通道的相对电平。通过将所有通道分配给所有回放设备，可以快速实现这种动态变化，而不会在将信息路由回基于云的服务器进行更新计算时出现延迟。在各种示例中，指派给每个设备的特定回放职责可以经由协调器设备、经由控制设备(例如，智能电话应用或其他组件)、经由回放设备本身或以其他方式(例如，远程计算设备可以包括伴随多通道媒体内容的元数据，该元数据指示默认或推荐的回放职责分配)来确定。

虽然本文描述的一些示例可以涉及由诸如“用户”、“收听者”和/或其他实体之类的给定动作者执行的功能，但应当理解，这仅出于解释的目的。除非权利要求本身的语言明确要求，否则不应将权利要求解释为要求任何这种示例行动者进行动作。

在附图中，相同的附图标记通常标识相似和/或相同的元件。为了促进对任何特定元件的讨论，附图标记中的一个或多个最高有效位指的是首次引入该元件的附图。例如，元件110a在参考图1A被首次引入和讨论。附图中所示的许多细节、尺寸、角度和其他特征仅是对所公开的技术的特定示例的说明。因此，其他示例可以具有其他细节、尺寸、角度和特征而不背离本公开的精神或范围。另外，本领域普通技术人员将理解，可以在没有以下描述的若干细节的情况下实践各种公开技术的其他示例。

二、合适的操作环境

图1A是分布在环境101(例如，房子)中的媒体回放系统100的局部剖面视图。媒体回放系统100包括一个或多个回放设备110(被逐个标识为回放设备110a至110n)、一个或多个网络麦克风设备(“NMD”)、120(被逐个标识为NMD 120a至NMD 120c)、以及一个或多个控制设备130(被逐个标识为控制设备130a和130b)。

如本文所使用的，术语“回放设备”通常可以指被配置为接收、处理和输出媒体回放系统的数据的网络设备。例如，回放设备可以是接收和处理音频内容的网络设备。在一些示例中，回放设备包括由一个或多个放大器供电的一个或多个换能器或扬声器。然而，在其他示例中，回放设备包括扬声器和放大器之一(或任意一个都不包括)。例如，回放设备可以包括一个或多个放大器，该一个或多个放大器配置为经由对应的布线或电缆驱动回放设备外部的一个或多个扬声器。

此外，如本文所使用的，术语NMD(即，“网络麦克风设备”)通常可以指被配置用于音频检测的网络设备。在一些示例中，NMD是被配置主要用于音频检测的独立设备。在其他示例中，NMD被合并到回放设备中(或反之亦然)。

术语“控制设备”通常可以指被配置为执行与促进媒体回放系统1 00的用户访问、控制和/或配置相关的功能的网络设备。

回放设备110中的每一个被配置为从一个或多个媒体源(例如，一个或多个远程服务器、一个或多个本地设备)接收音频信号或数据，并将接收到的音频信号或数据作为声音回放。一个或多个NMD 120被配置为接收口语命令，并且一个或多个控制设备130被配置为接收用户输入。响应于接收到的口语命令和/或用户输入，媒体回放系统100可以经由一个或多个回放设备110回放音频。在某些示例中，回放设备110被配置为响应于触发而开始媒体内容的回放。例如，一个或多个回放设备110可以被配置为在检测到相关联的触发条件(例如，厨房中存在用户、检测到咖啡机操作)时回放早晨的播放列表。在一些示例中，例如，媒体回放系统100被配置为与第二回放设备(例如，回放设备100b)同步回放来自第一回放设备(例如，回放设备110a)的音频。下面参考图1B至图1H更详细地描述根据本公开的各种示例配置的媒体回放系统100的回放设备110、NMD 120和/或控制设备130之间的交互。

在图1A的所示示例中，环境101包括具有多个房间、空间和/或回放区的家庭，该家庭包括(从左上角开始沿顺时针方向)主浴室101a、主卧室101b、次卧室101c、家庭房间或书房101d、办公室101e、客厅101f、餐厅101g、厨房101h和户外露台101i。虽然下面在家庭环境的上下文中描述了某些实施例和示例，但本文描述的技术可以在其他类型的环境内实现。在一些示例中，例如，媒体回放系统100可以在一个或多个商业环境(例如，餐厅、商场、机场、酒店、零售店或其他商店)、一个或多个交通工具(例如，运动型多功能车、公共汽车、汽车、轮船、船、飞机)、多个环境(例如，家庭环境和交通工具环境的组合)和/或可能需要多区音频的另一合适环境。

媒体回放系统100可以包括一个或多个回放区，其中一些可以对应于环境101中的房间。媒体回放系统100可以建立有一个或多个回放区，之后可以添加或移除附加区以形成例如图1A所示的配置。每个区可以根据不同的房间或空间(例如，办公室101e、主浴室101a、主卧室101b、次卧室101c、厨房101h、餐厅101g、客厅101f和/或户外露台101i)进行命名。在一些方面，单个回放区可以包括多个房间或空间。在某些方面，单个房间或空间可以包括多个回放区。

在图1A的所示示例中，主浴室101a、次卧室101c、办公室101e、客厅101f、餐厅101g、厨房101h和户外露台101i各自包括一个回放设备110，并且主卧室101b和书房101d包括多个回放设备110。在主卧室101b中，回放设备110l和110m可以被配置为例如作为回放设备110中的各个回放设备、作为绑定的回放区、作为合并的回放设备、和/或其任何组合来同步回放音频内容。类似地，在书房101d中，回放设备110h至110j可以被配置为例如作为回放设备110中的各个回放设备、作为一个或多个绑定的回放设备、和/或作为一个或多个合并的回放设备来同步回放音频内容。下面参考图1B和图1E描述关于绑定的回放设备和合并的回放设备的附加细节。

在一些方面，环境101中的一个或多个回放区各自可以正在播放不同的音频内容。例如，用户可以正在露台101i上烧烤并收听由回放设备110c正在播放的嘻哈音乐，而另一用户正在厨房101h中准备食物并收听由回放设备110b播放的古典音乐。在另一示例中，回放区可以与另一回放区同步回放相同的音频内容。例如，用户可以正在办公室101e中收听回放设备110f播放由回放设备110c在露台101i上正在回放的相同嘻哈音乐。在一些方面，回放设备110c和110f同步回放嘻哈音乐，使得用户感知到音频内容在不同回放区之间移动时正在无缝地(或至少基本上无缝地)播放。关于回放设备和/或区之间的音频回放同步的附加细节可以在例如标题为“System and method for synchronizing operations amonga plurality of independently clocked digital data processing devices”的美国专利No.8,234,395中找到，该专利的全部内容通过引用并入本文。

a.合适的媒体回放系统

图1B是媒体回放系统100和云网络102的示意图。为了便于说明，从图1B中省略了媒体回放系统100和云网络102的某些设备。一个或多个通信链路103(下文中被称为“链路103”)将媒体回放系统100和云网络102通信耦接。

链路103例如可以包括一个或多个有线网络、一个或多个无线网络、一个或多个广域网(WAN)、一个或多个局域网(LAN)、一个或多个个域网(PAN)、一个或多个电信网络(例如，一个或多个全球移动系统(GSM)网络、码分多址(CDMA)网络、长期演进(LTE)网络、5G通信网网络和/或其他合适的数据发送协议网络)等。云网络102被配置为：响应于经由链路103从媒体回放系统100发送的请求，将媒体内容(例如，音频内容、视频内容、照片、社交媒体内容)输送到媒体回放系统100。在一些示例中，云网络102还被配置为从媒体回放系统100接收数据(例如，语音输入数据)并相应地向媒体回放系统100发送命令和/或媒体内容。

云网络102包括计算设备106(分别标识为第一计算设备106a、第二计算设备106b和第三计算设备106c)。计算设备106可以包括各个计算机或服务器，例如存储音频和/或其他媒体内容的媒体流服务服务器、语音服务服务器、社交媒体服务器、媒体回放系统控制服务器等。在一些示例中，一个或多个计算设备106包括单个计算机或服务器的模块。在某些示例中，一个或多个计算设备106包括一个或多个模块、计算机和/或服务器。此外，虽然在单个云网络的上下文中描述了云网络102，但在一些示例中，云网络102包括多个云网络，该多个云网络包括通信耦接的计算设备。此外，虽然云网络102在图1B中被示为具有三个计算设备106，但在一些示例中，云网络102包括少于(或多于)三个计算设备106。

媒体回放系统100被配置为经由链路103从网络102接收媒体内容。接收到的媒体内容例如可以包括统一资源标识符(URI)和/或统一资源定位符(URL)。例如，在一些示例中，媒体回放系统100可以流式从与接收到的媒体内容相对应的URI或URL传输、下载或以其他方式获得数据。网络104将链路103与媒体回放系统100的至少一部分设备(例如，回放设备110、NMD 120和/或控制设备130中的一个或多个)通信耦接。网络104例如可以包括无线网络(例如，WIFI网络、蓝牙、Z-Wave网络、ZigBee和/或其他合适的无线通信协、议网络)和/或有线网络(例如，包括以太网、通用串行总线(USB)和/或其他合适的有线通信的网络)。如本领域普通技术人员将理解的，如本文所使用的，“WIFI”可以指以2.4GHz(GHz)、5GHz和/或其他合适频率发送的几种不同通信协议，其包括例如电气和电子工程师协会(IEEE)802.11a、802.11b、802.11g、802.11n、802.11ac、802.11ac、802.11ad、802.11af、802.11ah、802.11ai、802.11aj、802.11aq、802.11ax、802.11ay、802.15等。

在一些示例中，网络104包括专用通信网络，媒体回放系统100使用该通信网络在各个设备之间发送消息和/或向媒体内容源(例如，一个或多个计算设备106)发送媒体内容和从媒体内容源(例如，一个或多个计算设备106)发送媒体内容。在某些示例中，网络104被配置为仅可由媒体回放系统100中的设备访问，从而减少与其他家用设备的干扰和竞争。然而，在其他示例中，网络104包括现有的家庭通信网络(例如，家庭WIFI网络)。在一些示例中，链路103和网络104包括一个或多个相同的网络。在一些方面，例如，链路103和网络104包括电信网络(例如，LTE网络、5G网络)。此外，在一些示例中，媒体回放系统100在没有网络104的情况下实现，并且包括媒体回放系统100的设备可以例如经由一个或多个直接连接、PAN、电信网络和/或其他合适的通信链路彼此通信。

在一些示例中，可以在媒体回放系统100中定期添加或移除音频内容源。在一些示例中，例如，当一个或多个媒体内容源被更新、添加到媒体回放系统100和/或从媒体回放系统100中移除时，媒体回放系统100执行媒体项目的索引。媒体回放系统100可以扫描回放设备110可访问的一些或所有文件夹和/或目录中的可识别媒体项目，并生成或更新包括元数据(例如，标题、艺术家、专辑、曲目长度)和用于找到的每个可识别媒体项目的其他相关联信息(例如，URI、URL)的媒体内容数据库。在一些示例中，例如，媒体内容数据库存储在回放设备110、NMD 120和/或控制设备130中的一个或多个上。

在图1B的所示示例中，回放设备110l和110m包括组107a。回放设备110l和110m可以位于家庭中的不同房间中，并且基于在媒体回放系统100中的控制设备130a和/或另一控制设备130处接收到的用户输入，在临时或永久的基础上将回放设备110l和110m一起分组到组107a中。当被布置在组107a中时，回放设备110l和110m可以被配置为从一个或多个音频内容源同步回放相同或相似的音频内容。在某些示例中，例如，组107a包括绑定区，其中回放设备110l和110m分别包括多通道音频内容的左音频通道和右音频通道，从而产生或增强音频内容的立体声效果。在一些示例中，组107a包括附加回放设备110。然而，在其他示例中，媒体回放系统100省略了组107a和/或回放设备110的其他分组布置。

媒体回放系统100包括NMD 120a和NMD 120d，每个包括被配置为从用户接收语音发声的一个或多个麦克风。在图1B的所示示例中，NMD 120a是独立设备，而NMD 120d被集成到回放设备110n中。例如，NMD 120a被配置为从用户123接收语音输入121。在一些示例中，NMD 120a将与接收到的语音输入121相关联的数据发送给语音助理服务(VAS)，该语音助理服务(VAS)被配置为(i)处理接收到的语音输入数据、以及(ii)将对应的命令发送给媒体回放系统100。在一些方面，例如，计算设备106c包括VAS(例如，由中的一个或多个操作的VAS)的一个或多个模块和/或服务器。计算设备106c可以经由网络104和链路103从NMD120a接收语音输入数据。响应于接收到语音输入数据，计算设备106c处理语音输入数据(即，“播放披头士乐队的Hey Jude”)，并确定处理后的语音输入包括播放歌曲(例如，“HeyJude”)的命令。计算设备106c因此向媒体回放系统100发送命令以在一个或多个回放设备110上从合适的媒体服务(例如，经由一个或多个计算设备106)回放披头士乐队的“HeyJude”。

b.合适的回放设备

图1C是包括输入/输出111的回放设备110a的框图。输入/输出111可以包括模拟I/O 111a(例如，一根或多根布线、电缆和/或被配置为携带模拟信号的其他合适的通信链路)和/或数字I/O 111b(例如，一根或多根布线、电缆或被配置为携带数字信号的其他合适的通信链路)。在一些示例中，模拟I/O 111a是音频线路输入连接，其包括例如自动检测的3.5mm音频线路输入连接。在一些示例中，数字I/O 111b包括索尼/飞利浦数字接口格式(S/PDIF)通信接口和/或电缆和/或东芝链路(TOSLINK)电缆。在一些示例中，数字I/O 111b包括高清多媒体接口(HDMI)接口和/或电缆。在一些示例中，数字I/O 111b包括一个或多个无线通信链路，其包括例如射频(RF)、红外线、WIFI、蓝牙或另一种合适的通信协议。在某些示例中，模拟I/O 111a和数字I/O 111b包括接口(例如，端口、插头、插孔)，这些接口被配置为分别接收发送模拟和数字信号的电缆的连接器，而不必包括电缆。

回放设备110a例如可以经由输入/输出111(例如，电缆、布线、PAN、蓝牙连接、自组织有线或无线通信网络、和/或其他合适的通信链路)从本地音频源105接收媒体内容(例如，包括音乐和/或其他声音的音频内容)。本地音频源105例如可以包括移动设备(例如，智能电话、平板计算机、膝上型计算机)或另一合适的音频组件(例如，电视、台式计算机、放大器、留声机、蓝光播放器，存储数字媒体文件的存储器)。在一些方面，本地音频源105包括智能电话、计算机、网络附接存储(NAS)、和/或被配置为存储媒体文件的另一合适设备上的本地音乐库。在某些示例中，回放设备110、NMD 120和/或控制设备130中的一个或多个包括本地音频源105。然而，在其他示例中，媒体回放系统完全省略了本地音频源105。在一些示例中，回放设备110a不包括输入/输出111并且经由网络104接收所有音频内容。

回放设备110a还包括电子设备112、用户界面113(例如，一个或多个按钮、旋钮、转盘、触敏表面、显示器、触摸屏)和一个或多个换能器114(下文中被称为“换能器114”)”)。电子设备112被配置为经由输入/输出111从音频源(例如，本地音频源105)、经由网络104(图1B)从一个或多个计算设备106a至106c接收音频，放大接收到的音频，以及经由一个或多个换能器114输出放大后的音频用于回放。在一些示例中，回放设备110a可选地包括一个或多个麦克风115(例如，单个麦克风、多个麦克风、麦克风阵列)(下文中被称为“麦克风115”)。在某些示例中，例如，具有一个或多个可选麦克风115的回放设备110a可以用作被配置为从用户接收语音输入并基于接收到的语音输入相应地执行一个或多个操作的NMD。

在图1C的所示示例中，电子设备112包括一个或多个处理器112a(下文中被称为“处理器112a”)、存储器112b、软件组件112c、网络接口112d、一个或多个音频处理组件112g(下文中被称为“音频组件112g”)、一个或多个音频放大器112h(下文中被称为“放大器112h”)、以及电源112i(例如，一个或多个电源、电源线、电源插座、电池、感应线圈、以太网供电(POE)接口和/或其他合适的电源)。在一些示例中，电子设备112可选地包括一个或多个其他组件112j(例如，一个或多个传感器、视频显示器、触摸屏、电池充电底座)。

处理器112a可以包括被配置为处理数据的时钟驱动计算组件，并且存储器112b可以包括被配置为存储用于执行各种操作和/或功能的指令的计算机可读介质(例如，有形非暂时性计算机可读介质、加载有一个或多个软件组件112c的数据存储)。处理器112a被配置为执行存储在存储器112b上的指令以执行一个或多个操作。该操作例如可以包括使回放设备110a从音频源(例如，计算设备106a至106c(图1B)中的一个或多个)和/或回放设备110中的另一回放设备取回音频数据。在一些示例中，操作还包括使回放设备110a将音频数据发送给回放设备110a中的另一回放设备和/或另一设备(例如，NMD 120之一)。某些示例包括使回放设备110a与一个或多个回放设备110中的另一回放设备配对以实现多通道音频环境(例如，立体声对、绑定区)的操作。

处理器112a还可以被配置为执行使回放设备110a与一个或多个回放设备110中的另一回放设备同步回放音频内容的操作。如本领域普通技术人员将理解的，在多个回放设备上同步回放音频内容期间，收听者将优选地不能感知回放设备110a和其他一个回放设备110或多个其他回放设备110对音频内容的回放之间的时间延迟差。关于回放设备之间的音频回放同步的附加细节可以在例如美国专利No.8,234,395中找到，该专利在上面通过引用并入。

在一些示例中，存储器112b还被配置为存储与回放设备110a相关联的数据，例如回放设备110a是其成员的一个或多个区和/或区组、回放设备110a可访问的音频源、和/或回放设备110a(和/或一个或多个回放设备中的另一回放设备)可以与之关联的回放队列。所存储的数据可以包括被周期性地更新并用于描述回放设备110a的状态的一个或多个状态变量。存储器112b还可以包括与媒体回放系统100的其他设备(例如，回放设备110、NMD120、控制设备130)中的一个或多个设备的状态相关联的数据。在一些方面，例如，在媒体回放系统100的至少一部分设备之间在预定时间间隔期间(例如，每5秒、每10秒、每60秒)共享状态数据，使得这些设备中的一个或多个设备具有与媒体回放系统100相关联的最新数据。

网络接口112d被配置为促进回放设备110a与数据网络(例如，链路103和/或网络104(图1B))上的一个或多个其他设备之间的数据传输。网络接口112d被配置为发送和接收对应于媒体内容(例如，音频内容、视频内容、文本、照片)的数据以及包括数字分组数据的其他信号(例如，非瞬态信号)，该数字分组数据包括基于互联网协议(IP)的源地址和/或基于IP的目标地址。网络接口112d可以解析数字分组数据，使得电子设备112正确地接收并处理以回放设备110a为目的地的数据。

在图1C的所示示例中，网络接口112d包括一个或多个无线接口112e(下文中被称为“无线接口112e”)。无线接口112e(例如，包括一个或多个天线的合适接口)可以被配置为根据适合的无线通信协议(例如，WIFI、蓝牙、LTE)与一个或多个其他设备(例如，其他回放设备110、NMD 120和/或控制设备130中的一个或多个)进行无线通信，该一个或多个其他设备通信耦接到网络104(图1B)。在一些示例中，网络接口112d可选地包括有线接口112f(例如，被配置为接收诸如以太网、USB-A、USB-C和/或雷电(Thunderbolt)电缆的网络电缆的接口或插座)，该有线接口112f被配置为根据合适的有线通信协议通过有线连接与其他设备进行通信。在某些示例中，网络接口112d包括有线接口112f并且不包括无线接口112e。在一些示例中，电子设备112完全排除网络接口112d并且经由另一通信路径(例如，输入/输出111)发送和接收媒体内容和/或其他数据。

音频组件112g被配置为处理和/或过滤包括由电子设备112(例如，经由输入/输出111和/或网络接口112d)接收到的媒体内容的数据以产生输出音频信号。在一些示例中，音频处理组件112g包括例如一个或多个数模转换器(DAC)、音频预处理组件、音频增强组件、数字信号处理器(DSP)、和/或其他合适的音频处理组件、模块、电路等在某些示例中，音频处理组件112g中的一个或多个可以包括处理器112a的一个或多个子组件。在一些示例中，电子设备112省略了音频处理组件112g。在一些方面，例如，处理器112a执行存储在存储器112b上的指令以执行音频处理操作以产生输出音频信号。

放大器112h被配置为接收和放大由音频处理组件112g和/或处理器112a产生的音频输出信号。放大器112h可以包括被配置为将音频信号放大到足以驱动一个或多个换能器114的电平的电子设备和/或组件。在一些示例中，例如，放大器112h包括一个或多个开关或D类功率放大器。然而，在其他示例中，放大器包括一种或多种其他类型的功率放大器(例如，线性增益功率放大器、A类放大器、B类放大器、AB类放大器、C类放大器、D类放大器、E类放大器、F类放大器、G类和/或H类放大器、和/或其他合适类型的功率放大器)。在某些示例中，放大器112h包括两种或更多种前述类型的功率放大器的合适组合。此外，在一些示例中，放大器112h中的各个放大器对应于换能器114中的各个换能器。然而，在其他示例中，电子设备112包括放大器112h中的单个放大器，该单个放大器被配置为将放大后的音频信号输出到多个换能器114。在一些其他示例中，电子设备112省略了放大器112h。

换能器114(例如，一个或多个扬声器和/或扬声器驱动器)从放大器112h接收放大后的音频信号并将放大的音频信号呈现或输出为声音(例如，频率在约20赫兹(Hz)至约20千赫兹(kHz)之间的可听声波)。在一些示例中，换能器114可以包括单个换能器。然而，在其他示例中，换能器114包括多个音频换能器。在一些示例中，换能器114包括多于一种类型的换能器。例如，换能器114可以包括一个或多个低频换能器(例如，低音炮、低音喇叭)、中频换能器(例如，中频换能器、中频低音喇叭)和一个或多个高频换能器(例如，一个或多个高音扬声器)。如本文所使用的，“低频”通常可以指低于约500Hz的可听频率，“中频”通常可以指介于约500Hz与约2kHz之间的可听频率，以及“高频”通常可以指高于2kHz的可听频率。然而，在某些示例中，一个或多个换能器114包括不遵守前述频率范围的换能器。例如，换能器114之一可以包括被配置为以介于约200Hz与约5kHz之间的频率输出声音的中频低音换能器。

举例来说，SONOS公司目前提供(或已经提供)销售某些回放设备，其例如包括“SONOS ONE”、“PLAY：1”、“PLAY：3”、“PLAY：5”、“PLAYBAR”、“PLAYBASE”、“CONNECT：AMP”、“CONNECT”和“SUB”。其他合适的回放设备可以附加地或备选地用于实现本文公开的示例示例的回放设备。此外，本领域的普通技术人员将理解，回放设备不限于本文描述的示例或SONOS的产品供应。在一些示例中，例如，一个或多个回放设备110包括有线或无线耳机(例如，耳挂式耳机、贴耳式耳机、入耳式耳机)。在其他示例中，回放设备110中的一个或多个包括扩展坞和/或被配置为与个人移动媒体回放设备的扩展坞进行交互的接口。在某些示例中，回放设备可以是诸如电视、照明器材或在室内外使用的一些其他设备之类的另一设备或组件的组成部分。在一些示例中，回放设备省略了用户界面和/或一个或多个换能器。例如，图1D是包括输入/输出111和电子设备112而没有用户界面113或换能器114的回放设备110p的框图。

图1E是绑定的回放设备110q的框图，该绑定的回放设备110q包括与回放设备110i(例如，低音炮)(图1A)声学绑定的回放设备110a(图1C)。在所示示例中，回放设备110a和110i是被容纳在单独外壳中的单独回放设备110。然而，在一些示例中，绑定的回放设备110q包括容纳回放设备110a和110i两者的单个外壳。绑定的回放设备110q可以被配置为以不同于未绑定的回放设备(例如，图1C的回放设备110a)和/或配对或绑定的回放设备(例如，图1B的回放设备110l和110m)的方式处理和再现声音。在一些示例中，例如，回放设备110a是被配置为呈现低频、中频和高频音频内容的全频回放设备，并且回放设备110i是被配置为呈现低频音频内容的低音炮。在一些方面，回放设备110a当与第一回放设备绑定时被配置为仅呈现特定音频内容的中频分量和高频分量，而回放设备110i呈现特定音频内容的低频分量。在一些示例中，绑定的回放设备110q包括附加回放设备和/或另一绑定的回放设备。

c.合适的网络麦克风设备(NMD)

图1F是NMD 120a(图1A和图1B)的框图。NMD 120a包括一个或多个语音处理组件124(下文中被称为“语音组件124”)和参考回放设备110a(图1C)描述的包括处理器112a、存储器112b和麦克风115的若干组件。NMD 120a可选地包括也被包括在回放设备110a(图1C)中的其他组件，例如用户界面113和/或换能器114。在一些示例中，NMD 120a被配置为媒体回放设备(例如，一个或多个回放设备110)，并且还包括例如一个或多个音频组件112g(图1C)、放大器114和/或其他回放设备组件。在某些示例中，NMD 120a包括物联网(IoT)设备，例如恒温器、报警面板、火灾和/或烟雾探测器等。在某些示例中，NMD 120a包括麦克风115、语音处理124、以及上面关于图1B描述的电子设备112的组件的仅一部分。在一些方面，例如，NMD 120a包括处理器112a和存储器112b(图1B)，同时省略了电子设备112的一个或多个其他组件。在一些示例中，NMD 120a包括附加组件(例如，一个或多个传感器、相机、温度计、气压计、湿度计)。

在一些示例中，NMD可以集成到回放设备中。图1G是包括NMD 120d的回放设备110r的框图。回放设备110r可以包括回放设备110a的许多或所有组件并且还包括麦克风115和语音处理124(图1F)。回放设备110r可选地包括集成的控制设备130c。控制设备130c例如可以包括用户界面(例如，图1B的用户界面113)，其被配置为在没有单独控制设备的情况下接收用户输入(例如，触摸输入、语音输入)。然而，在其他示例中，回放设备110r从另一控制设备(例如，图1B的控制设备130a)接收命令。

再次参考图1F，麦克风115被配置为从环境(例如，图1A的环境101)和/或NMD 120a所在的房间获取、捕获和/或接收声音。接收到的声音例如可以包括语音话语、由NMD 120a和/或另一回放设备回放的音频、背景语音、环境声音等。麦克风115将接收到的声音转换为电信号以产生麦克风数据。语音处理124接收并分析麦克风数据以确定语音输入是否存在于麦克风数据中。例如，语音输入可以包括激活词，其后是包括用户请求的话语。如本领域普通技术人员将理解的，激活词是表示用户语音输入的词或其他音频提示。例如，在查询VAS时，用户可能说出激活词“Alexa”。其他示例包括用于调用/>VAS的“Ok，Google”和用于调用/>VAS的“Hey,Siri”。

在检测到激活词之后，语音处理124监控语音输入中伴随的用户请求中的麦克风数据。用户请求例如可以包括控制第三方设备的命令，该第三方设备例如恒温器(例如，恒温器)、照明设备(例如，/>照明设备)或媒体回放设备(例如，回放设备)。例如，用户可能说出激活词“Alexa”，然后说出话语“将恒温器设置为68度”来设置家(例如，图1A的环境101)中的温度。用户可能说出相同的激活词，然后说出话语“点亮客厅”来点亮家中客厅区域中的照明设备。用户可以类似地说出激活词，然后请求在家中的回放设备上回放特定歌曲、专辑或音乐播放列表。

d.合适的控制设备

图1H是控制设备130a(图1A和图1B)的局部示意图。如本文所使用的，术语“控制设备”可以与“控制器”或“控制系统”互换使用。在其他特征中，控制设备130a被配置为接收与媒体回放系统100相关的用户输入，并且作为响应，使媒体回放系统100中的一个或多个设备执行对应于用户输入的动作或操作。在所示示例中，控制设备130a包括其上安装有媒体回放系统控制器应用软件的智能电话(例如，iPhone^TM、Android电话)。在一些示例中，控制设备130a包括例如平板计算机(例如，iPad^TM)、计算机(例如，膝上型计算机、台式计算机)和/或其他合适的设备(例如电视、汽车音频头部单元、物联网设备)。在某些示例中，控制设备130a包括用于媒体回放系统100的专用控制器。在其他示例中，如上面关于图1G所描述的，控制设备130a被集成到媒体回放系统100中的另一设备(例如，回放设备110、NMD 120和/或被配置为通过网络进行通信其他合适设备)。

控制设备130a包括电子设备132、用户界面133、一个或多个扬声器134和一个或多个麦克风135。电子设备132包括一个或多个处理器132a(下文中被称为“处理器132a”)、存储器132b、软件组件132c和网络接口132d。处理器132a可以被配置为执行与促进用户访问、控制和配置媒体回放系统100相关的功能。存储器132b可以包括数据存储设备，该数据存储设备可以加载有可由处理器112a执行以执行那些功能的一个或多个软件组件。软件组件132c可以包括被配置为促进控制媒体回放系统100的应用和/或其他可执行软件。存储器112b可以被配置为存储例如软件组件132c、媒体回放系统控制器应用软件、和/或与媒体回放系统100和用户相关联的其他数据。

网络接口132d被配置为促进控制设备130a与媒体回放系统100中的一个或多个其他设备和/或一个或多个远程设备之间的网络通信。在一些示例中，网络接口132d被配置为根据一种或多种合适的通信行业标准(例如，红外线、无线电、包括IEEE 802.3的有线标准、包括IEEE 802.11a、802.11b、802.11g、802.11n、802.11ac、802.15、4G、LTE的无线标准)进行操作。例如，网络接口132d可以被配置为向回放设备110、NMD 120、控制设备130中的其他设备、图1B的计算设备106之一、包括一个或多个其他媒体回放系统的设备等发送数据和/或从其接收数据。所发送和/或接收的数据例如可以包括回放设备控制命令、状态变量、回放区和/或区组配置。例如，基于在用户界面133处接收到的用户输入，网络接口132d可以将回放设备控制命令(例如，音量控制、音频回放控制、音频内容选择)从控制设备130发送给回放设备110中的一个或多个。网络接口132d还可以发送和/或接收配置改变，例如，向区域增加或从区域中移除一个或多个回放设备110、向区组增加或从区组中移除一个或多个区、形成绑定或合并的播放器、将一个或多个回放设备从绑定或合并的播放器分开等。下面可以参考图1I至图1M找到了对区和组的附加描述。

用户界面133被配置为接收用户输入并且可以促进对媒体回放系统100的控制。用户界面133包括媒体内容艺术133a(例如，专辑封面、歌词、视频)、回放状态指示器133b(例如，经过时间和/或剩余时间指示器)、媒体内容信息区域133c、回放控制区域133d、以及区指示器133e。媒体内容信息区域133c可以包括对关于当前播放的媒体内容和/或队列或回放列表中的媒体内容的相关信息(例如，标题、艺术家、专辑、流派、发行年份)的显示。回放控制区域133d可以包括可选的(例如，经由触摸输入和/或经由光标或另一合适的选择器)图标，以使所选择的回放区或区组中的一个或多个回放设备执行回放动作，例如，播放或暂停、快进、快退、跳到下一个、跳到上一个、进入/退出随机模式、进入/退出重复模式、进入/退出交叉淡入淡出(cross fade)模式等。回放控制区域133d还可以包括用于修改各自衡设置、回放音量和/或其他合适回放动作的可选择图标。在所示示例中，用户界面133包括呈现在智能电话(例如，iPhone^TM、Android电话)的触摸屏界面上的显示。然而，在一些示例中，可以备选地在一个或多个网络设备上实现变化的格式、样式和交互序列的其他用户界面，以提供对媒体回放系统的类似的控制访问。

一个或多个扬声器134(例如，一个或多个换能器)可以被配置为向控制设备130a的用户输出声音。在一些示例中，一个或多个扬声器包括被配置为相应地输出低频、中频和/或高频的各个换能器。在一些方面，例如，控制设备130a被配置为回放设备(例如，回放设备110之一)。类似地，在一些示例中，控制设备130a被配置为NMD(例如，NMD 120之一)，其经由一个或多个麦克风135接收语音命令和其他声音。

一个或多个麦克风135例如可以包括一个或多个电容式麦克风、驻极体电容式麦克风、动态麦克风和/或其他合适类型的麦克风或换能器。在一些示例中，两个或更多个麦克风135被布置为捕获音频源(例如，语音、可听声音)的位置信息和/或被配置为促进过滤背景噪声。此外，在某些示例中，控制设备130a被配置为用作回放设备和NMD。然而，在其他示例中，控制设备130a省略了一个或多个扬声器134和/或一个或多个麦克风135。例如，控制设备130a可以包括这种一个设备(例如，恒温器、IoT设备、网络设备)，即该设备包括电子设备132的一部分和用户界面133(例如，触摸屏)而没有任何扬声器或麦克风。

合适的回放设备配置

图1I至图1M示出了区和区组中的回放设备的示例配置。首先参考图1M，在一个示例中，单个回放设备可以属于一个区。例如，次卧室101c(图1A)中的回放设备110g可以属于C区。在下面描述的一些实现中，多个回放设备可以被“绑定”以形成“绑定对”，该“绑定对”一起形成单个区。例如，回放设备110l(例如，左回放设备)可以被绑定到回放设备110l(例如，左回放设备)以形成A区。绑定的回放设备可以具有不同的回放职责(例如，通道职责)。在下面描述的另一实现中，可以合并多个回放设备以形成单个区。例如，回放设备110h(例如，前回放设备)可以与回放设备110i(例如，低音炮)以及回放设备110j和110k(例如，分别为左环绕扬声器和右环绕扬声器)合并以形成单个D区。在另一示例中，回放设备110g和110h可以被合并以形成合并的组或区组108b。合并的回放设备110g和110h可以不被具体分配不同的回放职责。即，合并的回放设备110h和110i除了同步播放音频内容之外，每个都可以播放音频内容，就像它们没有被合并一样。

媒体回放系统100中的每个区可以被提供用于作为单个用户界面(UI)实体进行控制。例如，A区可以被提供为名为主浴室的单个实体。B区可以被提供为名为主卧室的单个实体。C区可以被提供为名为次卧室的单个实体。

被绑定的回放设备可以具有不同的回放职责，例如某些音频通道的职责。例如，如图1I所示，回放设备110l和110m可以被绑定以产生或增强音频内容的立体声效果。在该示例中，回放设备110l可以被配置为播放左通道音频分量，而回放设备110k可以被配置为播放右通道音频分量。在一些实现中，这种立体声绑定可以被称为“配对”。

此外，绑定的回放设备可以具有附加和/或不同的各个扬声器驱动器。如图1J所示，名为前的回放设备110h可以与名为低音炮(SUB)的回放设备110i绑定。前设备110h可以被配置为呈现中高频的范围，而低音炮设备110i可以被配置为呈现低频。然而，当未绑定时，前设备110h可以被配置为呈现整个频率范围。作为另一示例，图1K示出了还分别与左回放设备110j和右回放设备110k绑定的前设备110h和低音炮设备110i。在一些实现中，左设备110j和右设备102k可以被配置为形成家庭影院系统的环绕或“卫星”通道。绑定的回放设备110h、110i、110j和110k可以形成单个D区(图1M)。

合并的回放设备可以没有指派的回放职责，但各自可以呈现相应回放设备能够回放的全范围的音频内容。然而，合并的设备可以被表示为单个UI实体(即，区，如上所述)。例如，主浴室的回放设备110a和110n具有A区的单个UI实体。在一个示例中，回放设备110a和110n各自可以同步输出每个相应回放设备110a和110n能够回放的全频率范围音频内容。

在一些示例中，NMD与另一设备绑定或合并以形成一个区。例如，NMD 120b可以与回放设备110e绑定，它们一起形成名为客厅的F区。在其他示例中，独立的网络麦克风设备可以自己在一个区中。然而，在其他示例中，独立网络麦克风设备可能不与区相关联。可以在例如先前引用的美国专利申请No.15/438,749中找到关于将网络麦克风设备和回放设备关联为指定设备或默认设备的附加细节。

可以将各个、绑定的和/或合并的设备的区分在一组以形成区组。例如，参考图1M，A区可以与B区分在一组以形成包括两个区的区组108a。类似地，G区可以与H区分在一组以形成区组108b。作为另一示例，A区可以与一个或多个其他C区至I区分在一组。可以以多种方式对A区至I区进行分组和取消分组。例如，A区至I区中的三个、四个、五个或更多个(例如，全部)可以分在一组。单独的回放设备和/或绑定的回放设备的区当被分在一组时可以彼此同步回放音频，如先前引用的美国专利No.8,234,395中所述。回放设备可以动态进行分组和取消分组以形成同步回放音频内容的新的或不同的组。

在各种实现中，环境内的区域可以是组内的区的默认名称或区组内的区的名称的组合。例如，区组108b可以已经被分配诸如“餐厅+厨房”的名称，如图1M所示。在一些示例中，区组可以被赋予由用户选择的唯一名称。

某些数据可以作为一个或多个状态变量存储在回放设备的存储器(例如，图1C的存储器112b)中，这些状态变量被周期性地更新并用于描述回放区、回放设备和/或与其相关联的区组的状态。存储器还可以包括与媒体系统的其他设备的状态相关联的数据，并且不时地在设备之间共享，使得设备中的一个或多个具有与系统相关联的最新数据。

在一些示例中，存储器可以存储与状态相关联的各种变量类型的实例。变量实例可以与对应于类型的标识符(例如，标签)一起存储。例如，某些标识符可以是用于标识区的回放设备的第一类型“a1”、用于标识可以绑定在区中的回放设备的第二类型“b1”、以及用于标识该区可以属于的区组的第三类型“c1”。作为相关示例，与次卧室101c相关联的标识符可以指示回放设备是C区的唯一回放设备并且不在区组中。与书房相关联的标识符可以指示书房不与其他区分在一组，但包括绑定的回放设备110h至110k。与餐厅相关联的标识符可以指示餐厅是餐厅+厨房区组108b的部分并且设备110b和110d被分在一组(图1L)。由于厨房是餐厅+厨房区组108b的部分，因此与厨房相关联的标识符可以指示相同或相似的信息。下面描述了其他示例区变量和标识符。

在又另一示例中，媒体回放系统100可以表示区和区组的其他关联的变量或标识符，例如与区域相关联的标识符，如图1M所示。一个区域可以涉及区组和/或不在一个区组内的区的集群。例如，图1M示出了包括A区至D区的上区域109a和包括E区至I区的下区域109b。在一个方面，一个区域可以用于调用共享另一集群的一个或多个区和/或区组的区组和/或区的集群。在另一方面，这与不与另一区组共享一个区的区组不同。可以在例如于2017年8月21日提交的并且题为“Room Association Based on Name”的美国申请No.15/682,506以及于2007年9月11日提交的并且题为“Controlling and manipulatinggroupings in a multi-zone media system”的美国专利No.8,483,853中找到用于实现区域的技术的另外示例。这些申请中的每一个通过引用整体并入本文。在一些示例中，媒体回放系统100可以不实现区域，在这种情况下，系统可以不存储与区域相关联的变量。

III.生成式媒体内容的回放

图2是用于回放生成式媒体内容的系统200的功能框图。如前所述，生成式媒体内容可以包括由非人类的基于规则的过程(诸如算法或模型)动态创建、合成和/或修改的任何媒体内容(例如，音频、视频、视听输出、触觉输出或任何其他媒体内容)。可以针对实时或近乎实时回放发生这种创建或修改。附加地或备选地，可以(例如，在请求回放之前提前)异步地产生或修改生成式媒体内容，然后可以选择生成式媒体内容的特定项目用于稍后回放。如本文所使用的，“生成式媒体模块”包括无论是以软件、物理模型或其组合实现的可以基于一个或多个输入来产生生成式媒体内容的任何系统。在一些示例中，这种生成式媒体内容包括新颖的媒体内容，该新颖的媒体内容可以被创建为全新的媒体内容或者可以通过混合、组合、操纵或以其他方式修改一个或多个预先存在的媒体内容段来创建。如本文所使用的，“生成式媒体内容模型”包括可以用于使用一个或多个输入(例如，传感器数据、艺术家提供的参数、诸如音频剪辑或样本的媒体段等)来产生新颖的生成式媒体内容的任何算法、模式或规则集。在示例中，生成式媒体模块可以使用各种不同的生成式媒体内容模型来产生不同的生成式媒体内容。在一些情况下，艺术家或其他合作者可以与生成式媒体内容模型交互、创作和/或更新生成式媒体内容模型以产生特定的生成式媒体内容。尽管贯穿该讨论的若干个示例涉及音频内容，但本文公开的原理可以在一些示例中应用于其他类型的媒体内容，例如视频、视听、触觉或其他媒体内容。

如图2所示，系统200包括生成式媒体组协调器210，其与生成式媒体组成员250a和250b以及传感器数据源218、媒体内容源220和控制设备130进行通信。这种通信可以经由网络102执行，该网络1 02如上所述可以包括任何合适的有线或无线的网络连接或其组合(例如，WiFi网络、蓝牙、Z-Wave网络、ZigBee、以太网连接、通用串行总线(USB)连接等)。

一个或多个远程计算设备106也可以经由网络102与组协调器210和/或组成员250a和250b进行通信。在各种示例中，远程计算设备106可以是与设备制造商、媒体内容提供商、语音助理服务或其他合适的实体相关联的基于云的服务器。如图2所示，远程计算设备106可以包括生成式媒体模块214。如本文的其他地方更详细描述的，远程计算设备106可以在远离本地设备(例如，协调器210以及成员250a和250b)处产生生成式媒体内容。然后可以将生成式媒体内容发送给这些本地设备中的一个或多个本地设备以用于回放。附加地或备选地，生成式媒体内容可以全部或部分地经由本地设备(例如，组协调器210和/或组成员250a和250b)来产生。在一些示例中，组协调器210本身可以是远程计算设备，使得它经由广域网通信地耦接到组成员250a和250b，并且这些设备不需要共同位于同一环境内(例如，家庭、营业地点等)。

a.示例生成式媒体组操作

在所示示例中，生成式媒体组包括生成式媒体组协调器210(本文中也被称为“协调器设备210”)以及第一生成式媒体组成员250a和第二生成式媒体组成员250b(本文中也被称为“第一成员设备250a”、“第二成员设备250b”并且被统称为“成员设备250”)。可选地，一个或多个远程计算设备106也可以形成生成式媒体组的一部分。在操作中，这些设备可以彼此通信和/或与其他组件(例如，传感器数据源218、控制设备130、媒体内容源220或任何其他合适的数据源或组件)进行通信，以促进生成式媒体内容的产生和回放。

在各种示例中，设备210和/或250中的一些或全部可以共同位于同一环境内(例如，同一家庭、商店等内)。在一些示例中，设备210和/或250中的至少一些可以彼此远离，例如在不同的家庭、不同的城市等内。

协调器设备210和/或成员设备250可以包括上面关于图1A至图1H描述的回放设备110或网络麦克风设备120的一些或所有组件。例如，协调器设备210和/或成员设备250可以可选地包括回放组件212(例如，换能器、放大器、音频处理组件等)，或者在一些情况下可以省略这种组件。

在一些示例中，协调器设备210本身是回放设备，并且因此也可以用作成员设备250。在其他示例中，协调器设备210可以连接到一个或多个成员设备250(例如，经由直接有线连接或经由网络102)，但协调器设备210本身不回放生成式媒体内容。在各种示例中，协调器设备210可以在本地网络上的类桥设备上、在本身不是生成式媒体组的一部分的回放设备上(即，回放设备本身不回放生成式媒体内容)和/或在远程计算设备(例如，云服务器)上实现。

在各种示例中，一个或多个设备可以包括其上的生成式媒体模块214。这种生成式媒体模块214可以例如使用合适的生成式媒体内容模型基于一个或多个输入来产生新颖的合成媒体内容。如图2所示，在一些示例中，协调器设备210可以包括用于产生生成式媒体内容的生成式媒体模块214，然后可以将该生成式媒体内容发送给成员设备250a和250b以用于同时和/或同步回放。附加地或备选地，成员设备250(例如，如图2所示的成员设备250b)中的一些或全部可以包括生成式媒体模块214，该生成式媒体模块214可以由成员设备250用于基于一个或多个输入在本地产生生成式媒体内容。在各种示例中，可以可选地使用从本地设备接收到的一个或多个输入参数来经由远程计算设备106产生生成式媒体内容。然后可以将该生成式媒体内容发送给一个或多个本地设备以用于协调和/或回放。

在一些示例中，成员设备250中的至少一些在其上不包括生成式媒体模块214。备选地，在一些情况下，每个成员设备250可以在其上包括生成式媒体模块214，并且可以被配置为在本地产生生成式媒体内容。在至少一些示例中，成员设备250中没有一个在其上包括生成式媒体模块214。在这种情况下，生成式媒体内容可以由协调器设备210来产生。然后可以将这种生成式媒体内容发送给成员设备250以用于同时和/或同步回放。

在图2所示的示例中，协调器设备210附加地包括协调组件216。如本文更详细描述的，在一些情况下，协调器设备210可以促进经由多个不同的回放设备(其可以包括或可以不包括协调器设备210本身)回放生成式媒体内容。在操作中，协调组件216被配置为促进生成式媒体创建(例如，使用可以分布在各种设备中的一个或多个生成式媒体模块214)以及生成式媒体回放两者的同步。例如，协调器设备210可以向成员设备250发送定时数据以促进同步回放。附加地或备选地，协调器设备210可以向一个或多个成员设备250发送输入、生成式媒体模型参数、或与生成式媒体模块214相关的其他数据，使得成员设备250可以在本地产生生成式媒体(例如，使用本地存储的生成式媒体模块214)，和/或使得成员设备250可以基于从协调器设备210接收到的输入来更新或修改生成式媒体模块214。

如本文的其他地方更详细描述的，生成式媒体模块214可以被配置为使用生成式媒体内容模型基于一个或多个输入来产生生成式媒体。这些输入可以包括(例如，由传感器数据源218提供的)传感器数据、(例如，从控制设备130或经由与协调器设备210或成员设备250的直接用户交互接收到的)用户输入、和/或媒体内容源220。例如，生成式媒体模块214可以通过基于一个或多个输入参数(例如，与设备210、250的一个或多个用户相关的传感器数据)调整生成式音频的各种特性来产生并连续修改生成式音频。

b.示例媒体内容源

在各种示例中，媒体内容源220可以包括一个或多个本地和/或远程媒体内容源。例如，媒体内容源220可以包括如上所述的一个或多个本地音频源105(例如，通过诸如来自移动设备(例如，智能电话、平板计算机、膝上型计算机)或另一合适的音频组件(例如，电视、台式计算机、放大器、留声机、蓝光播放器，存储数字媒体文件的存储器)的输入/输出连接接收到的音频)。附加地或备选地，媒体内容源220可以包括可经由网络接口(例如，经由网络102上的通信)访问的一个或多个远程计算设备。这种远程计算设备可以包括单独的计算机或服务器，例如存储音频和/或其他媒体内容等的媒体流式传输服务服务器。

在各种示例中，经由媒体内容源220可用的媒体可以包括完整声音、歌曲、歌曲的部分(例如，样本)或任何音频组件(例如，特定乐器的预先录制音频、合成节拍或其他音频段、非音乐音频(如口语或自然声音等)形式的预先录制的音频段。在操作中，生成式媒体模块214可以利用这种媒体来产生生成式媒体内容，例如通过组合、混合、重叠、操纵或以其他方式修改所取回到的媒体内容以产生新颖的生成式媒体内容以经由一个或多个设备进行回放。在一些示例中，生成式媒体内容可以采用预先录制的音频段(例如，预先录制的歌曲、口语录制等)与正在被创建并与预先录制的音频叠加的新颖的合成音频组合的形式。如本文所使用的，“生成式媒体内容”或“所生成媒体内容”可以包括任何这种组合。

c.示例生成式媒体模块

如上所述，生成式媒体模块214可以包括可以无论是以软件、物理模型或其组合实例化的基于一个或多个输入来产生生成式媒体内容的任何系统。在各种示例中，生成式媒体模块214可以利用生成式媒体内容模型，该生成式媒体内容模型可以包括一种或多种算法或数学模型，该一种或多种算法或数学模型基于相关输入参数来确定生成媒体内容的方式。在一些情况下，例如基于从一个或多个远程计算设备(例如，与音乐服务或其他实体相关联的云服务器)接收到的指令、或基于从相同或不同环境内的其他组成员设备接收到的输入或任何其他合适的输入，这些算法和/或数学模型本身可以随着时间更新。在一些示例中，该组内的各种设备可以在其上具有不同的生成式媒体模块214——例如第一成员设备具有与第二成员设备的生成式媒体模块不同的生成式媒体模块214。在其他情况下，该组内具有生成式媒体模块214的每个设备可以包括基本相同的模型或算法。

可以使用任何合适的算法或算法的组合来产生生成式媒体内容。这种算法的示例包括使用机器学习技术(例如，生成式对抗网络、神经网络等)、形式语法、马尔可夫(Markov)模型、有限状态自动机的算法，和/或在当前可用产品(诸如OpenAI的JukeBox、Amazon的AWS DeepComposer、Google的Magenta、Amper Music的AmperAI等)内实现的任何算法。在各种示例中，生成式媒体模块214可以利用现在存在或在未来开发的任何合适的生成式算法。

根据上面的讨论，产生生成式媒体内容(例如，音频内容)可以涉及实时改变媒体内容的各种特性和/或实时或近乎实时地通过算法生成新颖的媒体内容。在音频内容的上下文中，这可以通过将多个音频样本存储在数据库中(例如，在媒体内容源220内)来实现，该数据库可以远程定位并可由协调器设备210和/或成员设备250通过网络102访问，或者备选地，音频样本可以在设备210、250本身上本地维护。音频样本可以与对应于样本的一个或多个音频特性的一个或多个元数据标签相关联。例如，给定的样本可以与元数据标签相关联，这些元数据标签指示该样本包含特定频率或频率范围(例如，低音/中音/高音)或特定乐器、流派、节奏、调性、发布日期、地理区域、音色、混响、失真、音质或将显而易见的任何其他音频特性的音频。

在操作中，(例如，协调器设备210和/或第二成员设备250b的)生成式媒体模块214可以基于它们的关联标签来取回某些音频样本并将这些音频样本混合在一起以创建生成式音频。随着生成式媒体模块214取回具有不同标签的音频样本和/或具有相同或相似标签的不同音频样本，生成式音频可以实时演变。生成式媒体模块214取回的音频样本可以取决于一个或多个输入(诸如传感器数据、一天中的时间、地理位置、天气)或各种用户输入(诸如情绪选择)或生理输入(诸如心率等)。以这种方式，随着输入改变，生成式音频也改变。例如，如果用户选择平静或放松情绪输入，则生成式媒体模块214可以取回音频样本并将其与对应于用户可以找到平静或放松的音频内容的标签进行混合。这种音频样本的示例可以包括被标记为低节奏或低谐波复杂度的音频样本、或已经被预定为平静或放松并且已经被如此标记的音频样本。在一些示例中，可以基于分析信号的时间内容和频谱内容的自动化过程将音频样本识别为平静或放松。其他示例也是可能的。在本文的任何示例中，生成式媒体模块214可以通过取回并混合与不同元数据标签或其他合适的标识符相关联的音频样本来调整生成式音频的特性。

修改生成式音频的特性可以包括：操纵音量、平衡中的一项或多项；移除某些乐器或音调；改变音频的节奏、增益、混响、频谱各自衡、音色或音质等。在一些示例中，可以在不同的设备处以不同方式回放生成式音频，例如在离用户最近的特定回放设备处强调生成式音频的某些特性。例如，最近的回放设备可以强调某些乐器、节拍、音调或其他特性，而其余回放设备可以充当背景音频源。

如本文的其他地方所描述的，媒体内容模块214可以被配置为产生旨在将用户的情绪和/或生理状态引导到所期望方向的媒体。在一些示例中，(例如，以预定的间隔)持续地和/或迭代地监视或测量用户的当前状态(例如，心情、情绪状态、活动水平等)，以确保用户的当前状态正在朝向所期望的状态转变或至少不是在与所期望的状态相反的方向上。在这种示例中，可以改变生成式音频内容以将用户的当前状态转向所期望的最终状态。

在本文的任何示例中，生成式媒体模块可以使用滞后来避免对生成式音频做出可能对收听体验产生负面影响的快速调整。例如，如果生成式媒体模块基于用户相对于回放设备的位置的输入来修改媒体，则当用户快速靠近或远离回放设备时，该回放设备可以以本文描述的任何方式快速改变生成式音频。这种快速调整可能让用户感到不愉快。为了减少这些快速调整，生成式媒体模块214可以被配置为通过在用户的移动或其他活动触发调整时将对生成式音频的调整延迟预定时间段来采用滞后。例如，如果回放设备检测到用户已经在回放设备的阈值距离内移动，则不是立即执行上述调整之一，而是回放设备在进行调整之前可以等待预定时间量(例如，几秒)。如果在预定时间量之后，用户保持在阈值距离内，则回放设备可以继续调整生成式音频。然而，如果在预定时间量之后，用户未保持在阈值距离内，则生成式媒体模块214可以避免调整生成式音频。生成式媒体模块214可以类似地将滞后应用到本文描述的其他生成式媒体调整。

图3示出了用于使用各种输入参数来产生生成式音频内容的过程300的流程图。在各种示例中，可以基于用户输入来修改这些输入参数中的一个或多个。例如，艺术家可以选择图2所示的各种参数、约束或可用音频段，并且这些选择可以继而至少部分地确定生成式音频内容的最终输出。如前所述，可以在一个或多个回放设备上存储并操作这种生成式媒体模块，以用于(例如，经由相同的回放设备和/或经由通过局域网通信耦接的其他回放设备的)本地回放。附加地或备选地，可以在一个或多个远程计算设备上存储并操作这种生成式媒体模块，其中所得输出通过广域网发送给一个或多个远程设备以用于回放。

如图所示，该过程开始于框302并进行到框304中的时钟/节拍器，在框304处接收节奏306和时间标签308输入。节奏306和时间标签308可以由艺术家选择或者可以使用模型来自动确定或生成。该过程继续到框310，在框310处可以触发和弦变化，并且接收和弦变化频率参数312作为输入。艺术家可以选择在旨在获得更高能量体验的音乐(例如，舞蹈音乐、令人振奋的环境音乐等)中具有更高的和弦变化频率。相反，较低的和弦变化频率可以与较低的能量输出(例如，平静的音乐)相关联。

在框314处，从可用和弦段316中选择和弦。也可以提供多个和弦信息参数318、320、322作为和弦段316的输入。这些输入可以用于确定接下来要播放并作为框324输出的特定和弦。在某些示例中，艺术家可以提供针对每个和弦的信息，诸如权重、特定和弦的使用频率等。

接下来，在框326中，至少部分地基于用作输入的和声复杂度参数来选择和弦变化。和声复杂度参数328可以由艺术家来调整或选择或者可以自动确定。通常，较高和声复杂度参数可以与较高能量音频输出相关联，并且较低和声复杂度参数可以与较低能量音频输出相关联。在一些情况下，和声复杂度参数可以包括诸如和弦转位、声部、以及和声密度之类的输入。

在框330中，该过程获得和弦的根音，并且在框332中，从可用的低音段334中选择要播放的低音段。然后这些低音段经过总线处理336，在总线处理336处可以执行各自衡、滤波、定时和其他处理。

返回到框326中的和弦变化，该过程单独地继续到框338以播放从可用和声段340中选择的和声。然后这个和声段经过总线处理342。与低音总线处理一样，和声段总线处理342可以涉及各自衡、滤波、定时，并且可以执行其他处理。

返回到所选择的和弦324，该过程单独地继续到框344中过滤旋律音符，其利用旋律约束346的输入。框348中的输出是要播放的可用旋律音符。旋律约束346可以由艺术家提供，并且例如可以指定要播放或不播放哪些音符、限制旋律范围、或提供其他这种约束，这可以取决于特定的所选和弦324。

在框350中，该过程确定要播放(可用旋律音符348中的)哪个旋律音符。可以基于模型值、艺术家提供的输入、随机化效果或任何其他合适的输入来自动做出该确定。在所示示例中，一个输入来自触发旋律音符框352，其继而基于旋律密度参数354。艺术家可以提供旋律密度参数354，其部分地确定音频输出的复杂程度和/或高能量程度。基于该参数，可以更频繁地或不太频繁地并在特定时间触发旋律音符，使用被输入到框350的框352来确定要播放哪个旋律音符。在各种示例中，可以以反馈回路的形式提供框350的输出作为框350的输入，使得在框350中选择的下一个旋律音符至少部分地取决于在框350中最后选择的旋律音符.然后在框356中从可用旋律段358中选择旋律段，然后使该旋律段经过总线处理360。

返回到框302中的开始，该过程单独进行到框362以播放非音乐内容。例如，这可以是自然声音、口语音频或其他这种非音乐内容。各种非音乐段364可以被存储并可用于回放。这些非音乐内容段也可以在框366中经过总线处理。

这些各种路径的输出(例如，所选择的低音段、和声段、旋律段和/或非音乐段)可以在经由混合和主处理在框368处组合之前各自经过单独的总线处理。这里可以设置组合水平，可以应用各种过滤器，可以建立相对定时，以及在框370中输出生成式音频内容之前执行任何其他合适的处理步骤。在各种示例中，可以完全省略这些路径中的一些。例如，生成式媒体模块可以省略将非音乐内容与生成式音乐内容一起回放的选项。图3所示的过程300仅是示例性的，并且本领域的技术人员将理解，可以对这里所示的过程300进行合适的修改，并且附加地，存在可以用于产生生成式媒体内容的许多合适的备选过程。

图4是用于存储并取回生成式媒体内容的示例架构。在该示例中，生成式媒体内容包括各种分立曲目(每个曲目具有与能量水平或另一参数相关联的多个变体)，可以取决于特定的输入参数以各种顺序和分组来选择并回放这些曲目。

如图所示，生成式媒体内容404可以存储为与全局生成式媒体内容元数据402相关联的一个或多个音频文件。这种元数据例如可以包括全局节奏(例如，每分钟节拍)、全局触发频率(例如，检查输入参数的变化的频率)和/或全局交叉淡入淡出持续时间(例如，在不同的所选能量之间淡入淡出的时间)。

生成式媒体内容404中有多个不同的曲目406、408和410。在操作中，可以选择这些曲目并且以各种布置(例如，具有一些覆盖的随机分组，或根据预定顺序回放等)回放这些曲目。在一些示例中，可以经由一个或多个回放设备在本地存储包括曲目406、408、410的生成式媒体内容404，而一个或多个远程计算设备可以周期性地发送这些曲目、生成式媒体内容和/或全局生成式媒体内容元数据的更新版本。在一些示例中，回放设备可以周期性地轮询或查询远程计算设备，并且响应于查询或轮询，远程计算设备可以向存储在本地回放设备上的生成式媒体模块提供更新。

对于每个曲目，可以存在该曲目的对应于不同能量水平的对应子集。例如，曲目1的第一能量水平(EL)在412处，曲目1的第二能量水平在414处，以及曲目1的第n能量水平在416处。这些曲目中的每一个可以包括元数据(例如，元数据418、420、422)和对应于特定能量水平的特定媒体文件(例如，媒体文件424、426、428)两者。在一些示例中，每个曲目可以包括以特定方式布置的多个媒体文件(例如，媒体文件424)，对应的元数据(例如，元数据418)可能期望该多个媒体文件的布置和组合。媒体文件例如可以是可以经由回放设备回放和/或流式传输到回放设备以用于回放的任何合适的格式。在一些示例中，媒体文件424、426、428中的一个或多个可以是图3所描绘的生成模型的输出。元数据例如可以包括节奏(如果不同于全局节奏)、触发频率(如果不同于全局触发频率)、顺序信息(例如，是否按顺序、随机或按百分比权重播放特定文件)、交叉淡入淡出持续时间(如果不同于全局交叉淡入淡出)、空间信息(例如，用于使用多个换能器在空间中渲染音频内容)、复音信息(例如，允许多个音频文件在该段中立刻回放)和/或水平(例如，以dB为单位的水平调整，或在预定义范围内的随机水平)。

在操作中，一个或多个输入参数(例如，房间中存在的人的数量、一天中的时间等)可以用于确定目标能量水平。可以使用回放设备和/或一个或多个远程计算设备来做出该确定。基于该确定，可以选择对应于所确定的能量水平的特定媒体文件。然后生成式媒体模块可以根据生成式内容模型来布置并回放所选择的这些曲目。这可以涉及以特定的预定义顺序播放所选择的曲目、以随机或伪随机顺序播放它们、或任何其他合适的方法。在一些示例中，可以以至少部分重叠的方式回放曲目。改变曲目之间重叠的量使得休闲收听者不会听到音频内容的重复循环而是将生成式音频感知为无重复的无休止的音频流可能很有用。

尽管图4所示的示例利用能量水平作为参数来区分不同的生成式音频内容，但在各种示例中，生成式音频内容的特定变体或排列可以沿其他维度(例如，流派、一天中的时间、关联的用户任务等)变化。

d.示例传感器数据源和其他输入参数

如前所述，生成式媒体模块214可以至少部分地基于可以包括(例如，从传感器数据源214接收到的)传感器数据的输入参数和/或其他合适的输入参数来产生生成式媒体。关于传感器输入参数，传感器数据源214可以包括来自任何合适传感器的数据，无论该传感器相对于生成式媒体组位于任何位置以及由此测量的任何值。合适的传感器数据的示例包括生理传感器数据，诸如从生物特征传感器、可穿戴传感器等获得的数据。这种数据可以包括生理参数，如心率、呼吸率、血压、脑电波、活动水平、运动、体温等。

合适的传感器包括配置为由用户佩戴或携带的可穿戴传感器，诸如头戴式耳机、手表、移动设备、脑机接口(例如，神经链接)、耳机、麦克风或其他类似设备。在一些示例中，传感器可以是不可穿戴传感器或固定到固定结构。传感器可以提供传感器数据，其可以包括对应于例如大脑活动、语音、位置、运动、心率、脉搏、体温和/或排汗的数据。在一些示例中，该传感器可以对应于多个传感器。例如，如本文的其他地方所说明的，该传感器可以对应于由第一用户佩戴的第一传感器、由第二用户佩戴的第二传感器、以及用户未佩戴的第三传感器(例如，固定到固定结构)。在这种示例中，传感器数据可以对应于从第一传感器、第二传感器和第三传感器中的每个传感器接收到的多个信号。

传感器可以被配置为获得或生成通常对应于用户的心情或情绪状态的信息。在一个示例中，传感器是可佩戴的大脑感测头带，其是本文描述的传感器的许多示例之一。这种头带例如可以包括其上具有多个传感器的脑电图(EEG)头带。在一些示例中，头带可以对应于任何Muse^TM头带(InteraXon；多伦多，加拿大)。传感器可以位于头带的内表面周围的不同位置处，例如，以对应于用户的不同大脑解剖结构(例如，额骨、顶骨、颞骨和蝶骨)。因此，这些传感器中的每一个可以从用户接收不同的数据。这些传感器中的每一个可以对应于可以从头带流式传输到系统设备210和/或250的各个通道。例如通过对各种脑电波的频率和强度进行分类或通过执行其他分析，这种传感器数据可以用于检测用户的情绪。在2020年8月24日提交的题为“MOOD DETECTIONAND/OR INFLUENCE VIA AUDIO PLAYBACK DEVICES”的共同拥有的美国申请No.62/706,544中可以找到使用大脑感测头带用于生成式音频内容的附加细节，该申请的全部内容通过引用合并于此。

在一些示例中，传感器数据源218包括从联网设备传感器数据(例如，物联网(IoT)传感器，例如联网灯、相机、温度传感器、恒温器、存在检测器、麦克风等)获得的数据。附加地或备选地，传感器数据源218可以包括环境传感器(例如，测量或指示天气、温度、时间/日/周/月等)。

在一些示例中，生成式媒体模块214可以使用回放设备能力(例如，换能器的数量和类型、输出功率、其他系统架构)、设备位置(例如，相对于其他回放设备的位置、相对于一个或多个用户的位置)的形式的输入。在2020年1月3日提交的题为“GENERATIVE MUSICBASED ON USER LOCATION”的共同拥有的美国申请No.62/956,771中更详细地描述了根据用户和设备位置来创建并修改生成式音频的附加示例，该申请的全部内容通过引用合并于此。附加输入可以包括该组内的一个或多个设备的设备状态，诸如热状态(例如，如果特定设备有过热的危险，则可以修改生成式内容以降低温度)、电池电量(例如，在具有低电池电量的便携式回放设备中可以降低低音输出)和绑定状态(例如，特定回放设备是否被配置为立体声对的一部分、与低音炮绑定、或作为家庭影院布置的一部分等)。任何其他合适的设备特性或状态可以类似地用作用于产生生成式媒体内容的输入。

另一示例输入参数包括用户存在——例如，当新用户进入回放生成式音频的空间时，可以(例如，经由接近传感器、信标等)检测到用户的存在，并且可以将生成式音频修改为响应。这种修改可以基于用户的数量(例如，针对1个用户提供环境、冥想音频，针对2至4个用户提供放松音乐，以及针对多于4个的用户提供派对或舞蹈音乐)。修改也可以基于存在用户的标识(例如，基于用户特性、收听历史或其他这种标记的用户配置文件)。

在一个示例中，用户可以佩戴生物特征设备，其可以测量用户的各种生物特征参数(诸如心率或血压)，并将这些参数报告给设备210和/或250。这些设备210和/或250的生成式媒体模块214可以使用这些参数来进一步调整生成式音频，诸如通过响应于检测到高心率(因为这可以指示用户正在从事高运动量活动)而增加音乐的节奏或响应于检测到高血压(因为这可以指示用户压力大并且可以从平静的音乐中受益)而降低音乐的节奏。

在又另一示例中，回放设备的一个或多个麦克风(例如，图1F的麦克风115)可以检测用户的语音。然后可以处理所捕获的语音数据以确定例如用户的情绪、年龄或性别(以从家庭内的若干个用户中识别特定用户)或任何其他这种输入参数。其他示例也是可能的。

e.组成员之间的示例协调

图5是示出了用于回放生成式媒体内容的系统中的数据交换的功能框图。出于说明的目的，图5所示的系统500包括协调器设备210和成员设备250b之间的交互。然而，本文描述的交互和过程可以应用于涉及多个附加协调器设备210和/或成员设备250的交互。如图5所示，协调器设备210包括生成式媒体模块214a，其接收包括输入参数502(例如，传感器数据、媒体内容、用于生成式媒体模块214a的模型参数、或其他这种输入)以及时钟和/或定时数据504的输入。在各种示例中，时钟和/或定时数据504可以包括用于同步回放和/或同步由该组内的各种设备产生的生成式媒体的同步信号。在一些示例中，时钟和/或定时数据504可以由内部时钟、处理器、或在协调器设备210本身内容纳的其他这种组件来提供。在一些示例中，可以经由网络接口从远程计算设备接收时钟和/或定时数据504。

基于这些输入，生成式媒体模块214a可以输出生成式媒体内容404a。可选地，输出的生成式媒体内容404a本身可以以反馈回路的形式用作生成式媒体模块214a的输入。例如，生成式媒体模块214a可以使用至少部分地取决于先前所生成的内容的模型或算法来生成后续内容(例如，音频帧)。

在所示示例中，成员设备250b同样包括生成式媒体模块214b，其可以与协调器设备210的生成式媒体模块214a基本相同，或者可以在一个或多个方面不同。生成式媒体模块214b同样可以接收输入参数502以及时钟和/或定时数据504。可以从协调器设备210、从其他成员设备、从本地网络上的其他设备(例如，提供温度数据的本地联网智能恒温器)和/或从一个或多个远程计算设备(例如，提供时钟和/或定时数据504、或天气数据、或任何其他这种输入的云服务器)接收这些输入。基于这些输入，生成式媒体模块214b可以输出生成式媒体内容404b。该产生的生成式媒体内容404b可以可选地作为反馈回路的一部分被反馈回生成式媒体模块214b中。在一些示例中，生成式媒体内容404b可以包括已经通过网络发送给成员设备250b的(经由协调器设备210产生的)生成式媒体内容404a，或由该生成式媒体内容404a组成。在其他情况下，可以独立于且单独于经由协调器设备210产生的生成式媒体内容404a来产生生成式媒体内容404b。

然后生成式媒体内容404a和404b可以经由设备210和250b本身来回放，和/或由该组内的其他设备来回放。在各种示例中，生成式媒体内容404a和404b可以被配置为同时和/或同步回放。在一些情况下，生成式媒体内容404a和404b可以彼此基本相同或相似，每个生成式媒体模块214使用相同或相似的算法和相同或相似的输入。在其他情况下，生成式媒体内容404a和404b可以彼此不同，但仍然被配置用于同步或同时回放。

f.使用分布式架构的示例生成式媒体

如前所述，媒体内容的生成可能是计算密集型的，并且在一些情况下单独在本地回放设备上完全执行可能是不切实际的。在一些示例中，本地回放设备的生成式媒体模块可以从存储在一个或多个远程计算设备(例如，云服务器)上的生成式媒体模块请求生成式媒体内容。该请求可以包括或基于特定的输入参数(例如，传感器数据、用户输入、上下文信息等)。响应于该请求，远程生成式媒体模块可以将特定的生成式媒体内容流式传输到本地设备以用于回放。提供给本地回放设备的特定生成式媒体内容可以随着时间变化，该变化取决于特定输入参数、生成式媒体模块的配置或其他这种参数。附加地或备选地，回放设备可以存储用于回放的分立曲目(例如，具有与不同能量水平相关联的曲目的不同变化，如图4所描绘的)。远程计算设备然后可以周期性地向本地回放设备提供用于更新曲目的新文件以用于回放，或者备选地可以向生成式媒体模块提供确定何时以及如何回放在回放设备上本地存储的特定文件的更新。

以这种方式，将产生并回放生成式音频所需的任务分配在一个或多个远程计算设备和一个或多个本地回放设备之间。通过向远程计算设备执行与生成新颖的媒体内容相关联的计算密集型任务中的至少一些，并且可选地通过减少对实时计算的需要，可以提高整体效率。通过在回放之前根据特定媒体内容模型经由远程计算设备生成离散数量的备选曲目或曲目变体，本地回放设备可以基于实时或近乎实时的输入参数(例如，传感器数据)来请求并接收特定变体。例如，远程计算设备可以生成不同版本的媒体内容，并且回放设备可以基于输入参数来实时请求特定版本。结果是基于实时或近乎实时的输入参数(例如，传感器数据)来回放合适的生成式媒体内容，而无需实时执行这种媒体内容的重新生成。

图6是示例分布式生成式媒体回放系统600的示意图。如图所示，艺术家602可以将多个媒体段604和一个或多个生成式内容模型606提供给经由一个或多个远程计算设备存储的生成式媒体模块214。媒体段可以对应于例如特定的音频段或种子(例如，单独的音符或和弦、n个小节的短曲目、非音乐内容等)。在一些示例中，生成式内容模型606也可以由艺术家602来提供。这可以包括提供整个模型，或者艺术家602可以例如通过改变或调整某些方面(例如，节奏、旋律约束、和声复杂度参数、和弦变化密度参数等)向模型606提供输入。

生成式媒体模块214可以接收媒体段604和一个或多个输入参数502两者(如本文的其他地方所描述的)。基于这些输入，生成式媒体模块214可以输出生成式媒体。如图6所示，艺术家602可以例如通过接收基于由艺术家602提供的输入的示例性输出(例如，媒体段604和/或生成式内容模型606)来可选地试听生成式媒体模块214。在一些情况下，试听可以取决于各种不同的输入参数向艺术家602回放生成式媒体内容的变体(例如，一个版本对应于旨在产生令人兴奋或振奋的效果的高能量水平，另一版本对应于旨在产生平静的效果的低能量水平等)。基于经由该试听步骤的输出，艺术家602可以动态更新媒体段604和/或生成式内容模型606的设置，直到实现所期望的输出为止。

在所示示例中，在框608处，每n个小时(或分钟、天等)可以存在迭代，其中生成式媒体模块214可以产生多个不同版本的生成式媒体内容。在所示示例中，存在三个版本：框610中的版本A、框612中的版本B和框614中的版本C。然后(例如，经由远程计算设备)将这些输出存储为生成式媒体内容616。这些版本中的特定版本(在该示例中为框618中的版本C)可以发送(例如，流式传输)给本地回放设备250以用于回放。在一些示例中，特定版本可以对应于图4所示的曲目406、408和41 0。

尽管这里以示例的方式示出了三个版本，但实际上可能存在经由远程计算设备生成的生成式媒体内容的更多版本。这些版本可以沿多个不同的维度变化，诸如适合于不同的能量水平、适合于不同的预期任务或活动(例如，学习与跳舞)、适合于一天中的不同时间、或任何其他适当的变化。

在所示示例中，回放设备250可以周期性地从远程计算设备请求特定版本的生成式媒体内容。这种请求可以基于例如用户输入(例如，经由控制器设备的用户选择)、传感器数据(例如，房间中存在的人的数量、背景噪声水平等)或其他合适的输入参数。如图所示，输入参数502可以可选地提供给回放设备250(或由回放设备250检测)。附加地或备选地，输入参数502可以提供给远程计算设备106(或由远程计算设备106检测)。在一些示例中，回放设备250将输入参数发送给远程计算设备106，该远程计算设备106继而向回放设备250提供合适的版本，而无需回放设备250专门地请求特定版本。

g.多通道生成式媒体内容的示例生成和回放

在一些示例中，生成式媒体内容可以采用多通道内容的形式。这些通道可以对应于常规的音频分布(例如，左、右、环绕、高度)或其他分布(例如，自然声音的第一通道和节奏节拍的第二通道)。另外，生成式媒体内容可以作为多通道音频中的一个通道被包括在内，该多通道音频还包括非生成式媒体内容。在一些情况下，生成式媒体内容的多通道回放可能会带来某些挑战，特别是关于环境内的不同回放设备之间同步回放各种通道的重要性。例如，可以基于某些输入(例如，传感器数据、用户输入或其他上下文信息)来实时修改不同回放设备之间的生成式媒体内容的特定分布，并且鉴于仅依赖于远程计算设备确定回放职责的动态调整来同步这种回放可能引入不期望的时延。

本技术的一些示例通过向环境内的多个回放设备中的每个回放设备提供多通道生成式媒体内容(例如，包括至少一些生成式媒体内容的多通道内容)的所有通道来解决这些和其他问题。图7示出了示例分布式生成式媒体回放系统700。系统700可以类似于上面关于图6描述的系统600，并且图7中省略的某些组件可以包括在各种实现中。省略了生成式媒体内容产生的一些方面，并且这里仅示出了生成式媒体模块214和所得生成式媒体内容616。然而，在各种示例中，本文的其他地方描述或本领域技术人员已知的任何方法或技术都可以并入生成式媒体内容616的产生中

在各种示例中，生成式媒体内容616可以包括多通道媒体内容。然后生成式媒体内容616可以发送给组协调器210，该组协调器210如上所述可以是回放设备或本地环境内的任何其他合适的设备。组协调器210可以将生成式媒体内容616传送给多个成员设备或回放设备250a、250b和250c(被统称为“成员设备”250或“回放设备250”)中的每个设备。此外，回放设备250可以各自被配置为接收一个或多个输入参数502。如前所述，输入参数502可以包括任何合适的输入，诸如用户输入(例如，经由控制器设备的用户选择)、传感器数据(例如，房间中存在的人的数量、背景噪声水平、一天中的时间、天气数据等)或其他合适的输入参数。在各种示例中，输入参数502可以可选地提供给回放设备250，和/或可以由回放设备250本身来检测或确定。

在一些示例中，多通道媒体内容616的每个通道被发送给组协调器210和每个回放设备250两者。所发送的内容可以在发送之前由协调器210或以其他方式分解为帧，或者备选地可以以未编码的形式(例如，作为PCM信号)被发送。如果内容616被编码，则它可以在每个相应的回放设备250处被解码。尽管回放设备250中的每一个接收多通道媒体内容的每个通道，但回放设备250可以具有不同的回放职责。例如，可以指派第一回放设备250a仅回放多通道媒体内容的第一通道子集，而指派第二回放设备250b回放第二通道子集，以及指派第三回放设备250c回放第三通道子集。这些子集可以完全不同，或者可以至少部分地重叠。此外，除了特定通道子集的回放之外，各种水平的回放也可以在回放设备250之间不同。例如，为了创建位于房间的一个角落中的暴雨的效果，对应于雨声的音频通道可以由直接在该角落的回放设备以第一水平回放，而与该角落间隔开的第二回放设备可以以较低的水平回放雨声通道。在至少一些示例中，比多通道媒体内容616的所有通道少的通道被发送给这些回放设备中的每个回放设备。

在一些示例中，为了确定特定的回放职责并且为了协调各种设备之间的同步回放，组协调器210可以向回放设备250发送定时信息和/或回放职责信息。附加地或备选地，回放设备250本身可以基于所接收到的多通道媒体内容连同输入参数502来确定它们各自的回放职责。

在各种示例中，各种回放设备250的回放职责可以基于输入参数或其他因素随着时间而动态调整。可以导致一个或多个回放设备250的回放职责的变化的输入参数502的示例包括存在检测(例如，空间中存在多少用户、人的分布、运动方向等)、噪声分类(例如，在环境内检测到的噪声的类型和水平)、一天中的时间(例如，昼夜节律)或其他合适的输入参数。如上所述，回放职责的变化可以包括通道由哪些设备回放和回放特定通道的相对水平两者的变化。

图8示出了分布式生成式媒体回放系统800的另一示例。在系统800中，除了本地媒体源105耦接到组协调器210之外，系统800可以类似于上面关于图7描述的系统700。该本地媒体源105可以是物理线路输入连接(例如，连接到乐器、麦克风、录音机、电视、具有存储的音频文件的本地数据存储设备等)或无线本地连接。如图所示，组协调器210还可以包括混合器802，其被配置为将来自本地媒体源105的传入媒体与经由网络接口从远程计算设备接收到的生成式媒体内容616进行混合。通过在本地执行这种混合，本地媒体内容可以与远程产生的生成式媒体内容616同步以用于回放。

然后可以将混合媒体内容从协调器设备210发送给多个回放设备250。如上面关于图7所描述的，针对每个回放设备250的特定回放职责可以基于一个或多个输入参数502(和/或可以基于一个或多个输入参数502随着时间而动态变化)，该一个或多个输入参数502可以包括传感器数据、用户输入、与媒体(无论是本地媒体还是生成式媒体内容)相关联的元数据或任何其他合适的输入。

h.用于生成并回放生成式媒体的示例方法

图9至图13是用于经由多个分立回放设备回放生成式媒体内容的示例方法的流程图。方法900、1000、1100、1200和1300可以由本文描述的任何设备或现在已知或以后开发的任何其他设备来实现。

方法900、1000、1100、1200和1300的各种示例包括由各个框示出的一个或多个操作、功能或动作。尽管以连续顺序示出了各个框，但是这些框也可以并行执行，和/或以与本文公开和描述的顺序不同的顺序执行。此外，基于所期望的实现，各个框可以被组合成更少的框，被划分为更多的框，和/或被移除。

另外，对于方法900、1000、1100、1200和1300以及本文所公开的其他过程和方法，流程图示出了一些示例的可能实现的功能和操作。在这方面，每个框可以表示程序代码的模块、段或部分，程序代码包括由一个或多个处理器可执行的用于实现过程中的特定逻辑功能或步骤的一个或多个指令。程序代码可以存储在任何类型的计算机可读介质上，例如，包括磁盘或硬盘驱动器的储存设备。计算机可读介质可以包括非暂时性计算机可读介质，例如，用于短时间存储数据的有形非暂时性计算机可读介质，如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)。计算机可读介质还可以包括非暂时性介质，例如，辅存或持久性长期储存器，如只读存储器(ROM)、光盘或磁盘、紧凑盘只读存储器(CD-ROM)等。计算机可读介质还可以是任何其他易失性或非易失性存储系统。计算机可读介质可以被认为是计算机可读存储介质，例如有形的储存设备。另外，对于这些方法和本文所公开的其他过程和方法，图9至图13中的每个框可以表示被连接以执行该过程中的特定逻辑功能的电路。

参考图9，方法900开始于框902，其涉及接收命令以经由回放设备的组或绑定区回放生成式媒体内容。这种命令可以经由例如控制设备130或其他合适的用户输入来接收。

在框904处，方法900涉及组协调器设备向生成式组成员设备提供定时信息。定时信息可以包括基于公共时钟的上下文定时数据(例如，与传感器输入或其他用户输入相关联的时间数据)、生成式媒体回放定时数据(例如，用于促进生成式媒体的同步回放的时间戳和同步数据)和/或媒体内容流定时数据。

在框906处，该方法可选地包括确定要用于产生生成式媒体的生成式媒体内容模型。这种模型可以在例如上面关于图2至图8描述的媒体内容模块214中实现。在一些示例中，这些成员设备中的每一个可以使用相同或基本相同的生成式媒体内容模型，而在其他情况下，这些成员设备中一些或全部可以使用彼此不同的生成式媒体内容模型。例如，第一生成式媒体内容模型可以产生节奏节拍，而第二生成式媒体内容模型可以产生环境自然声音。由这些不同的生成式媒体内容模型生成的生成式音频当同时被回放时，可以为用户带来令人愉悦的收听者体验。在一些示例中，对特定生成式媒体内容模型的选择本身可以基于一个或多个输入参数，诸如设备能力、设备位置、存在用户的数量、用户传感器数据等。

在框908中，方法900包括协调器设备和成员设备接收上下文数据和/或其他输入数据。例如，输入数据可以包括传感器数据、用户输入、上下文数据、或可以用作生成式媒体内容模型的输入的任何其他相关数据。

方法900在框910中继续，其中协调器和成员设备同步生成并回放生成式媒体内容。

图10示出了用于经由多个回放设备回放生成式音频内容的另一种方法1000。方法1000开始于框1002，其中在组协调器设备处接收一个或多个输入参数。如前所述，输入参数可以包括传感器数据、用户输入、上下文数据、或可以由生成式媒体模块用于产生生成式音频以用于回放的任何其他输入。

在框1004中，协调器设备向其上具有生成式媒体模块的一个或多个分立回放设备发送输入参数。例如，协调器设备可以获得传感器数据和其他输入参数，并且将这些发送给环境内或甚至分布在多个环境内的多个分立回放设备。在一些示例中，这些输入参数可以包括生成式内容模型本身的特征，例如提供指令以更新由这些分立回放设备中的一个或多个分立回放设备本地存储的生成式媒体模块。

在框1006中，该方法涉及从协调器设备向回放设备发送定时数据。定时数据例如可以包括时钟数据或其他同步信号，其被配置为促进协调生成式媒体内容的生成以及经由分立回放设备同步回放该生成式媒体内容。

方法1000在框1008中继续，至少部分地基于输入参数经由回放设备同时回放生成式媒体内容。如前所述，各种回放设备可以回放相同的生成式音频，或者每个回放设备可以回放不同的生成式音频，该不同的生成式音频当被同步回放时，针对在场用户产生所期望的心理声学效果。

在图10的示例中，分立回放设备可以在本地生成生成式媒体内容，这些分立回放设备各自彼此并行地回放创建它们自己的生成式音频内容。在图11所示的备选方法1100中，生成式媒体内容是在协调器设备处产生的，然后该协调器设备将生成式媒体内容连同定时数据一起发送给分立回放设备以用于同步回放。

在框1102中，方法1100涉及在组协调器设备处接收一个或多个输入参数。输入参数的示例在本文的其他地方进行了描述，并且包括传感器数据、用户输入、上下文数据、或可以由生成式媒体模块用于产生生成式音频以用于回放的任何其他输入。

在框1104中，协调器设备至少部分地基于输入参数来生成第一生成式媒体流和第二生成式媒体流，并且在框906中，分别将第一媒体流和第二媒体流发送给第一分立回放设备和第二分立回放设备。例如，协调器设备可以生成形成生成式音频的不同通道的两个流，例如，具有要由第一回放设备回放的左通道和要由第二回放设备回放的对应右通道的两个流。附加地或备选地，这两个流可以是不同的曲目，但仍然可以被同步回放，诸如一个流中的节奏节拍和另一流中的环境自然声音。多种其他变化是可能的。尽管该示例描述了用于两个回放设备的两个流，但在各种其他示例中，可以存在可以提供给任何数量的回放设备以用于同步回放的一个流或多于两个的流。在至少一些示例中，一个或多个回放设备可以位于彼此相距很远的不同环境中(例如，在不同的家庭、不同的城市等中)。

在框1108中，第一回放设备回放第一生成式媒体流，并且第二回放设备回放第二生成式媒体流。在一些示例中，可以通过使用从协调器设备接收到的定时数据来促进该同时回放。

图12示出了用于生成并回放生成式媒体内容的另一示例方法1200。如上所述，使用一个或多个远程计算设备(例如，基于云的服务器)来执行产生生成式媒体内容所需的处理的至少一部分以便减少对本地回放设备的计算需求和/或使用本地回放设备的组件来执行将不可行的操作可能是有益的。方法1200开始于框1202，其中在回放设备处接收一个或多个输入参数。如前所述，输入参数可以包括传感器数据、用户输入、上下文数据、或可以由生成式媒体模块用于产生生成式音频以用于回放的任何其他输入。

在框1204中，方法1200涉及访问包括多个预先存在的媒体段的库。例如，多个分立媒体段(例如，曲目)可以存储在回放设备处，并且可以根据生成的内容模型来布置和/或混合以用于回放。附加地或备选地，该库可以存储在一个或多个远程计算设备上，其中从远程计算设备向回放设备发送各个媒体段以用于回放。

方法1000在框1206中继续，其中根据生成式媒体内容模型并且至少部分地基于输入参数，通过布置对库中用于回放的预先存在的媒体段的选择以生成媒体内容。如本文的其他地方所描述的，生成式媒体内容模型可以接收一个或多个输入参数作为输入。基于该输入，并使用生成式媒体内容模型，可以输出特定的生成式媒体内容。在示例中，生成式媒体内容可以包括预先存在的媒体段的布置，例如以特定顺序布置它们、在特定媒体段之间有或没有重叠、和/或执行附加的处理或混合步骤以产生所期望的输出。

在框1208中，回放设备回放所生成的媒体内容。在各种示例中，该回放可以与附加的回放设备同时和/或同步执行。

图13示出了用于回放多通道生成式媒体内容的示例过程1300。如图所示，方法1300开始于框1302，其中在协调器设备处接收包括媒体内容的多个通道的流。例如，多通道媒体内容的一些或所有通道可以是生成式媒体。

在框1304中，方法1300涉及向至少包括第一回放设备和第二回放设备的多个回放设备发送多个通道中的每个通道。协调器设备可以是通信耦接到环境内的多个附加回放设备的回放设备。备选地，协调器设备本身可以不是回放设备，但可以将多通道生成式媒体内容路由到多个回放设备以用于回放。协调器设备可以可选地将音频划分为帧以发送给回放设备。附加地或备选地，音频内容可以由协调器设备进行编码并且稍后由回放设备进行解码以用于音频再现。

方法1300在框1306中继续，其中根据第一回放职责经由第一回放设备回放第一通道子集，并且在框1308继续，其中根据第二回放职责经由第二回放设备回放第二通道子集。例如，多通道媒体内容可以包括第一通道的雨声、第二通道的鸟声和第三通道的节奏节拍。可以在每个设备处接收到这些通道，而任何给定设备仅回放通道的子集。例如，第一回放设备可以回放雨声和节奏节拍，而第二回放设备可以回放雨声和鸟声。此外，相对水平可以在设备之间变化。例如，第一回放设备可以以50％的增益(即，增益减半)回放雨声，而第二回放设备可以以100％的增益(即，不降低增益)回放雨声。通过改变由各种设备回放的特定音频通道以及特定水平两者，可以实现沉浸式音景，特别是在包括多个协同操作的回放设备的环境内。

在框1310中，随着时间动态地修改第一回放职责和/或第二回放职责。例如，回放职责可以根据不同设备回放哪些特定通道、回放特定通道的相对水平或其他方面而变化。在一些示例中，至少部分地基于一个或多个输入参数(诸如生理传感器数据、联网设备传感器数据、环境数据、回放设备能力数据、回放设备状态、用户数据、直接用户输入、或任何其他合适的输入参数)来修改回放职责。作为一个示例，随着更多用户进入房间，节奏节拍通道可以由比初始配置中更多的回放设备来回放。

本文描述了生成式媒体回放的各种示例。本领域的技术人员将理解，根据本技术可设想并可以使用各种不同的生成式媒体模块、算法、输入、传感器数据和回放设备配置。

IV.结论

以上关于回放设备、控制器设备、回放区配置和媒体内容源的讨论仅提供了操作环境的一些示例，在该操作环境内可以实现下面描述的功能和方法。本文未明确描述的媒体回放系统、回放设备和网络设备的配置和其他操作环境也可以适用且适于功能和方法的实现。

以上描述尤其公开了各种示例系统、方法、装置和尤其包括在硬件上执行的固件和/或软件的制品。应当理解的是，这些示例仅是示意性的，而不应当被认为是限制性的。例如，可以想到，这些固件、硬件和/或软件方面或组件中的任意一个或全部可以专门在硬件中实现、专门在软件中实现、专门在固件中实现、或在硬件、软件和/或固件的任意组合中实现。因此，所提供的示例不是实现这些系统、方法、装置和/或制品的唯一方式。

此外，本文对“示例”的提及意味着结合示例描述的特定特征、结构或特性可以包括在本发明的至少一个示例或实施例中。在说明书中各处出现该短语不一定都指代相同的示例，也不是与其他示例互斥的分离的或备选的示例。因此，本领域技术人员应当显式地和隐式地理解的是，本文所描述的示例可以与其他示例组合。

主要在说明性的环境、系统、过程、步骤、逻辑块、处理以及直接或间接地与耦接到网络的数据处理设备的操作相类似的其他象征性表示的方面上，提出本说明书。本领域技术人员通常使用这些处理描述和表示，以向本领域技术人员的其他技术人员传播他们的工作内容。阐述了各种具体细节，以提供本公开的透彻理解。然而，本领域技术人员应当理解，可以在没有特定、具体细节的情况下实践本技术的某些示例。在其他情况下，没有描述熟知的方法、过程、组件和电路，以避免不必要地使示例的方面模糊不清。因此，本公开的范围由随附权利要求、而不是以上示例的描述来限定。

当随附权利要求中的任一项权利要求被理解成涵盖纯软件和/或固件实现时，在此明确限定至少一个示例中的至少一个元素以包括存储软件和/或固件的非暂时性有形介质，如存储器、DVD、CD、蓝光等。

例如，根据以下描述的各种示例来说明所公开的技术。为方便起见，所公开技术的示例的各种示例被描述为编号的示例(1、2、3等)。这些示例是作为示例提供，而不限制所公开的技术。注意，任何一个从属示例能够以任意组合方式组合，并被放入相应的独立示例中。其他示例可以类似的方式呈现。

示例1：一种方法，包括：在协调器设备处，接收输入参数；从协调器设备向多个回放设备发送输入参数，每个回放设备在其中具有生成式媒体模块；从所述协调器设备向所述多个回放设备发送定时数据，使得所述回放设备至少部分地基于所述输入参数来同时回放生成式媒体内容。

示例2：根据本文的示例中任一个所述的方法，其中，第一回放设备和第二回放设备各自至少部分地基于输入参数来回放不同的生成式音频内容。

示例3：根据本文的示例中任一个所述的方法，其中，输入参数包括以下各项中的一项或多项：生理传感器数据(例如，生物特征传感器、可穿戴传感器(心率、温度、呼吸率、脑电波))；联网设备传感器数据(例如，相机、灯、温度传感器、恒温器、存在检测器、麦克风)；环境数据(例如，天气、温度、时间/天/周/月)；回放设备能力数据(例如，换能器的数量和类型、输出功率)；回放设备状态(例如，设备温度、电池电量、当前音频回放、回放设备位置、回放设备是否与另一回放设备绑定)；或用户数据(例如，用户标识、在场用户的数量、用户位置、用户历史数据、用户偏好数据、用户生物特征数据(心率、温度、呼吸率、大脑活动)、用户情绪数据)。

示例4：根据本文的示例中任一个所述的方法，其中，定时数据包括以下各项中的至少一项：时钟数据或一个或多个同步信号。

示例5：根据本文的示例中任一个所述的方法，还包括从协调器设备向多个回放设备中的至少一个回放设备发送信号，该信号导致回放设备的生成式媒体模块被修改。

示例6：根据本文的示例中任一个所述的方法，其中，生成式媒体内容包括以下各项中的至少一项：生成式音频内容或生成式视觉内容。

示例7：根据本文的示例中任一个所述的方法，其中，生成式媒体模块包括基于至少包括输入参数的输入来自动生成新颖的媒体输出的算法。

示例8：一种设备，包括：网络接口；一个或多个处理器；以及有形非暂时性计算机可读介质，存储指令，该指令当由一个或多个处理器执行时，使设备执行操作，该操作包括：经由网络接口，接收输入参数；经由网络接口，向多个回放设备发送输入参数，每个回放设备在其中具有生成式媒体模块；经由网络接口，向多个回放设备发送定时数据，使得回放设备至少部分地基于输入参数来同时回放生成式媒体内容。

示例9：根据本文的示例中任一个所述的设备，其中，第一回放设备和第二回放设备各自至少部分地基于输入参数来回放不同的生成式音频内容。

示例10：根据本文的示例中任一个所述的设备，其中，输入参数包括以下各项中的一项或多项：生理传感器数据(例如，生物特征传感器、可穿戴传感器(心率、温度、呼吸率、脑电波))；联网设备传感器数据(例如，相机、灯、温度传感器、恒温器、存在检测器、麦克风)；环境数据(例如，天气、温度、时间/天/周/月)；回放设备能力数据(例如，换能器的数量和类型、输出功率)；回放设备状态(例如，设备温度、电池电量、当前音频回放、回放设备位置、回放设备是否与另一回放设备绑定)；或用户数据(例如，用户标识、在场用户的数量、用户位置、用户历史数据、用户偏好数据、用户生物特征数据(心率、温度、呼吸率、大脑活动)、用户情绪数据)。

示例11：根据本文的示例中任一个所述的设备，其中，定时数据包括以下各项中的至少一项：时钟数据或一个或多个同步信号。

示例12：根据本文的示例中任一个所述的设备，其中，所述操作还包括：经由网络接口，从协调器设备向多个回放设备中的至少一个回放设备发送信号，该信号导致回放设备的生成式媒体模块被修改。

示例13：根据本文的示例中任一个所述的设备，其中，生成式媒体内容包括以下各项中的至少一项：生成式音频内容或生成式视觉内容。

示例14：根据本文的示例中任一个所述的设备，其中，生成式媒体模块包括基于至少包括输入参数的输入来自动生成新颖的媒体输出的算法。

示例15：一种存储指令的有形非暂时性计算机可读介质，该指令当由设备的一个或多个处理器执行时，使设备执行操作，该操作包括：在协调器设备处，接收输入参数；从协调器设备向多个回放设备发送输入参数，每个回放设备在其中具有生成式媒体模块；从所述协调器设备向所述多个回放设备发送定时数据，使得所述回放设备至少部分地基于所述输入参数来同时回放生成式媒体内容。

示例16：根据本文的示例中任一个所述的计算机可读介质，其中，第一回放设备和第二回放设备各自至少部分地基于输入参数来回放不同的生成式音频内容。

示例17：根据本文的示例中任一个所述的计算机可读介质，其中，输入参数包括以下各项中的一项或多项：生理传感器数据(例如，生物特征传感器、可穿戴传感器(心率、温度、呼吸率、脑电波))；联网设备传感器数据(例如，相机、灯、温度传感器、恒温器、存在检测器、麦克风)；环境数据(例如，天气、温度、时间/天/周/月)；回放设备能力数据(例如，换能器的数量和类型、输出功率)；回放设备状态(例如，设备温度、电池电量、当前音频回放、回放设备位置、回放设备是否与另一回放设备绑定)；或用户数据(例如，用户标识、在场用户的数量、用户位置、用户历史数据、用户偏好数据、用户生物特征数据(心率、温度、呼吸率、大脑活动)、用户情绪数据)。

示例18：根据本文的示例中任一个所述的计算机可读介质，其中，定时数据包括以下各项中的至少一项：时钟数据或一个或多个同步信号。

示例19：根据本文的示例中任一个所述的计算机可读介质，还包括从协调器设备向多个回放设备中的至少一个回放设备发送信号，该信号导致回放设备的生成式媒体模块被修改。

示例20：根据本文的示例中任一个所述的计算机可读介质，其中，生成式媒体内容包括以下各项中的至少一项：生成式音频内容或生成式视觉内容。

示例21：根据本文的示例中任一个所述的计算机可读介质，其中，生成式媒体模块包括基于至少包括输入参数的输入来自动生成新颖的媒体输出的算法。

示例22：一种方法，包括：在协调器设备处，接收输入参数；经由所述协调器设备的生成式媒体模块，生成第一媒体内容流和第二媒体内容流；经由所述协调器设备，向第一回放设备发送所述第一媒体内容流；经由所述协调器设备，向第二回放设备发送所述第二媒体内容流，使得经由所述第一回放设备和所述第二回放设备同时回放所述第一媒体内容流和所述第二媒体内容流。

示例23：根据本文的示例中任一个所述的方法，还包括从协调器设备向第一回放设备和第二回放设备中的每个回放设备发送定时数据。

示例24：根据本文的示例中任一个所述的方法，其中，定时数据包括以下各项中的至少一项：时钟数据或一个或多个同步信号。

示例25：根据本文的示例中任一个所述的方法，其中，第一媒体内容流和第二媒体内容流不同。

示例26：根据本文的示例中任一个所述的方法，其中，输入参数包括以下各项中的一项或多项：生理传感器数据(例如，生物特征传感器、可穿戴传感器(心率、温度、呼吸率、脑电波))；联网设备传感器数据(例如，相机、灯、温度传感器、恒温器、存在检测器)；环境数据(例如，天气、温度、时间/天/周/月)；回放设备能力数据(例如，换能器的数量和类型、输出功率)；回放设备状态(例如，设备温度、电池电量、当前音频回放、回放设备位置、回放设备是否与另一回放设备绑定)；或用户数据(例如，用户标识、在场用户的数量、用户位置、用户历史数据、用户偏好数据、用户生物特征数据(心率、温度、呼吸率、大脑活动)、用户情绪数据)。

示例27：根据本文的示例中任一个所述的方法，还包括修改协调器设备的生成式媒体模块。

示例28：根据本文的示例中任一个所述的方法，其中，第一生成式媒体内容流和第二生成式媒体内容流中的每个生成式媒体内容流包括以下各项中的至少一项：生成式音频内容或生成式视觉内容。

示例29：根据本文的示例中任一个所述的方法，其中，生成式媒体模块包括基于至少包括输入参数的输入来自动生成新颖的媒体输出的算法。

示例30：一种设备，包括：网络接口；生成式媒体模块；一个或多个处理器；以及有形非暂时性计算机可读介质，存储指令，该指令当由一个或多个处理器执行时，使设备执行操作，该操作包括：经由网络接口，接收输入参数；经由生成式媒体模块，生成第一媒体内容流和第二媒体内容流；经由网络接口，向第一回放设备发送第一媒体内容流；以及经由网络接口，向第二回放设备发送第二媒体内容流，使得经由第一回放设备和第二回放设备同时回放第一媒体内容流和第二媒体内容流。

示例31：根据本文的示例中任一个所述的设备，其中，所述操作还包括：经由网络接口，向第一回放设备和第二回放设备中的每个回放设备发送定时数据。

示例32：根据本文的示例中任一个所述的设备，其中，定时数据包括以下各项中的至少一项：时钟数据或一个或多个同步信号。

示例33：根据本文的示例中任一个所述的设备，其中，第一媒体内容流和第二媒体内容流不同。

示例34：根据本文的示例中任一个所述的设备，其中，输入参数包括以下各项中的一项或多项：生理传感器数据(例如，生物特征传感器、可穿戴传感器(心率、温度、呼吸率、脑电波))；联网设备传感器数据(例如，相机、灯、温度传感器、恒温器、存在检测器)；环境数据(例如，天气、温度、时间/天/周/月)；回放设备能力数据(例如，换能器的数量和类型、输出功率)；回放设备状态(例如，设备温度、电池电量、当前音频回放、回放设备位置、回放设备是否与另一回放设备绑定)；或用户数据(例如，用户标识、在场用户的数量、用户位置、用户历史数据、用户偏好数据、用户生物特征数据(心率、温度、呼吸率、大脑活动)、用户情绪数据)。

示例35：根据本文的示例中任一个所述的设备，其中，所述操作还包括修改生成式媒体模块。

示例36：根据本文的示例中任一个所述的设备，其中，第一生成式媒体内容流和第二生成式媒体内容流中的每个生成式媒体内容流包括以下各项中的至少一项：生成式音频内容或生成式视觉内容。

示例37：根据本文的示例中任一个所述的设备，其中，生成式媒体模块包括基于至少包括输入参数的输入来自动生成新颖的媒体输出的算法。

示例38：一种存储指令的有形非暂时性计算机可读介质，该指令当由协调器设备的一个或多个处理器执行时，使协调器设备执行操作，该操作包括：在协调器设备处，接收输入参数；经由所述协调器设备的生成式媒体模块，生成第一媒体内容流和第二媒体内容流；经由协调器设备，向第一回放设备发送第一媒体内容流；以及经由所述协调器设备，向第二回放设备发送所述第二媒体内容流，使得经由所述第一回放设备和所述第二回放设备同时回放所述第一媒体内容流和所述第二媒体内容流。

示例39：根据本文中的任何一个示例的计算机可读介质，还包括从协调器设备向第一回放设备和第二回放设备中的每个回放设备发送定时数据。

示例40：根据本文的示例中任一个所述的计算机可读介质，其中，定时数据包括以下各项中的至少一项：时钟数据或一个或多个同步信号。

示例41：根据本文的示例中任一个所述的计算机可读介质，其中，第一媒体内容流和第二媒体内容流不同。

示例42：根据本文的示例中任一个所述的计算机可读介质，其中，输入参数包括以下各项中的一项或多项：生理传感器数据(例如，生物特征传感器、可穿戴传感器(心率、温度、呼吸率、脑电波))；联网设备传感器数据(例如，相机、灯、温度传感器、恒温器、存在检测器)；环境数据(例如，天气、温度、时间/天/周/月)；回放设备能力数据(例如，换能器的数量和类型、输出功率)；回放设备状态(例如，设备温度、电池电量、当前音频回放、回放设备位置、回放设备是否与另一回放设备绑定)；或用户数据(例如，用户标识、在场用户的数量、用户位置、用户历史数据、用户偏好数据、用户生物特征数据(心率、温度、呼吸率、大脑活动)、用户情绪数据)。

示例43：根据本文的示例中任一个所述的计算机可读介质，其中，所述操作还包括修改协调器设备的生成式媒体模块。

示例44：根据本文的示例中任一个所述的计算机可读介质，其中，第一生成式媒体内容流和第二生成式媒体内容流中的每个生成式媒体内容流包括以下各项中的至少一项：生成式音频内容或生成式视觉内容。

示例45：根据本文的示例中任一个所述的计算机可读介质，其中，生成式媒体模块包括基于至少包括输入参数的输入来自动生成新颖的媒体输出的算法。

示例46：一种回放设备，包括：一个或多个放大器，被配置为驱动一个或多个音频换能器；一个或多个处理器；以及数据存储设备，其上具有指令，该指令当由一个或多个处理器执行时，使回放设备执行操作，该操作包括：在回放设备处，接收一个或多个第一输入参数；经由回放设备，至少部分地基于一个或多个第一输入参数来生成第一媒体内容，该生成包括：访问存储在回放设备上的库，该库包括多个预先存在的媒体段；以及根据生成式媒体内容模型并至少部分地基于一个或多个输入参数，布置对库中用于回放的预先存在的媒体段的第一选择；以及经由一个或多个放大器回放所生成的第一媒体内容。

示例47：根据本文的示例中任一个所述的回放设备，其中，所述操作还包括：在回放设备处，接收不同于第一输入参数的一个或多个第二输入参数；经由回放设备，至少部分地基于一个或多个第二输入参数来生成第二媒体内容，该第二媒体内容不同于第一媒体内容，该生成包括：访问库；以及根据生成式媒体内容模型并至少部分地基于一个或多个第二输入参数，布置对库中用于回放的预先存在的媒体段的第二选择；以及经由一个或多个放大器，回放所生成的第二媒体内容。

示例48：根据权利要求1所述的回放设备，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括以至少部分地在时间上偏移的方式布置预先存在的媒体段中的两个或更多个媒体段。

示例49：根据本文的示例中任一个所述的回放设备，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括以至少部分地在时间上重叠的方式布置预先存在的媒体段中的两个或更多个媒体段。

示例50：根据本文的示例中任一个所述的回放设备，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括向不同的预先存在的媒体段应用不同的各自衡调整。

示例51：根据本文的示例中任一个所述的回放设备，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括随着时间向不同的预先存在的媒体段应用变化的增益水平。

示例52：根据本文的示例中任一个所述的回放设备，其中，布置对库中的预先存在的媒体段的第一选择以用于回放包括随机化用于回放特定的预先存在的媒体段的起点。

示例53：根据本文的示例中任一个所述的回放设备，其中，所生成的第一媒体内容和所生成的第二媒体内容各自包括新颖的媒体内容。

示例54：根据本文的示例中任一个所述的回放设备，其中，所生成的第一媒体内容包括音频内容，并且多个预先存在的媒体段包括多个预先存在的音频段。

示例55：根据本文的示例中任一个所述的回放设备，其中，所生成的第一媒体内容包括视听内容，并且多个预先存在的媒体段包括多个预先存在的音频段、预先存在的视觉媒体段、或预先存在的视听媒体段。

示例56：根据本文的示例中任一个所述的回放设备，还包括：经由网络接口，接收附加的预先存在的媒体段；以及更新所述库以至少包括所述附加的预先存在的媒体段。

示例57：根据本文的示例中任一个所述的回放设备，其中，第一输入参数和第二输入参数包括以下各项中的一项或多项：生理传感器数据(例如，生物特征传感器、可穿戴传感器(心率、温度、呼吸率、脑电波))；联网设备传感器数据(例如，相机、灯、温度传感器、恒温器、存在检测器、麦克风)；环境数据(例如，天气、温度、时间/天/周/月)；回放设备能力数据(例如，换能器的数量和类型、输出功率)；回放设备状态(例如，设备温度、电池电量、当前音频回放、回放设备位置、回放设备是否与另一回放设备绑定)；或用户数据(例如，用户标识、在场用户的数量、用户位置、用户历史数据、用户偏好数据、用户生物特征数据(心率、温度、呼吸率、大脑活动、语音话语特性)、用户情绪数据)。

示例58：一种方法，包括：在回放设备处，接收一个或多个第一输入参数；经由回放设备，至少部分地基于一个或多个第一输入参数来生成第一媒体内容，该生成包括：访问存储在回放设备上的库，该库包括多个预先存在的媒体段；以及根据生成式媒体内容模型并至少部分地基于一个或多个输入参数，布置对库中用于回放的预先存在的媒体段的第一选择；以及经由所述回放设备，回放所生成的第一媒体内容。

示例59：根据本文的示例中任一个所述的方法，还包括：在回放设备处，接收不同于第一输入参数的一个或多个第二输入参数；经由回放设备，至少部分地基于一个或多个第二输入参数来生成第二媒体内容，该第二媒体内容不同于第一媒体内容，该生成包括：访问库；以及根据生成式媒体内容模型并至少部分地基于一个或多个第二输入参数，布置对库中用于回放的预先存在的媒体段的第二选择；以及经由所述回放设备，回放所生成的第二媒体内容。

示例60：根据本文的示例中任一个所述的方法，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括以至少部分地在时间上偏移的方式布置预先存在的媒体段中的两个或更多个媒体段。

示例61：根据本文的示例中任一个所述的方法，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括以至少部分地在时间上重叠的方式布置预先存在的媒体段中的两个或更多个媒体段。

示例62：根据本文的示例中任一个所述的方法，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括向不同的预先存在的媒体段应用不同的各自衡调整。

示例63：根据本文的示例中任一个所述的方法，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括随着时间向不同的预先存在的媒体段应用变化的增益水平。

示例64：根据本文的示例中任一个所述的方法，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括随机化用于回放特定的预先存在的媒体段的起点。

示例65：根据本文的示例中任一个所述的方法，其中，所生成的第一媒体内容和所生成的第二媒体内容各自包括新颖的媒体内容。

示例66：根据本文的示例中任一个所述的方法，其中，所生成的第一媒体内容包括音频内容，并且多个预先存在的媒体段包括多个预先存在的音频段。

示例67：根据本文的示例中任一个所述的方法，其中，所生成的第一媒体内容包括视听内容，并且多个预先存在的媒体段包括多个预先存在的音频段、预先存在的视觉媒体段、或预先存在的视听媒体段。

示例68：根据本文的示例中任一个所述的方法，还包括：经由网络接口，接收附加的预先存在的媒体段；以及更新所述库以至少包括所述附加的预先存在的媒体段。

示例69：根据本文的示例中任一个所述的方法，其中，第一输入参数和第二输入参数包括以下各项中的一项或多项：生理传感器数据(例如，生物特征传感器、可穿戴传感器(心率、温度、呼吸率、脑电波))；联网设备传感器数据(例如，相机、灯、温度传感器、恒温器、存在检测器、麦克风)；环境数据(例如，天气、温度、时间/天/周/月)；回放设备能力数据(例如，换能器的数量和类型、输出功率)；回放设备状态(例如，设备温度、电池电量、当前音频回放、回放设备位置、回放设备是否与另一回放设备绑定)；或用户数据(例如，用户标识、在场用户的数量、用户位置、用户历史数据、用户偏好数据、用户生物特征数据(心率、温度、呼吸率、大脑活动、语音话语特性)、用户情绪数据)。

示例70：一种存储指令的有形非暂时性计算机可读介质，该指令当由回放设备的一个或多个处理器执行时，使回放设备执行操作，该操作包括：在回放设备处，接收一个或多个第一输入参数；经由回放设备，至少部分地基于一个或多个第一输入参数来生成第一媒体内容，该生成包括：访问存储在回放设备上的库，该库包括多个预先存在的媒体段；以及根据生成式媒体内容模型并至少部分地基于一个或多个输入参数，布置对库中用于回放的预先存在的媒体段的第一选择；以及经由所述回放设备，回放所生成的第一媒体内容。

示例71：根据本文的示例中任一个所述的计算机可读介质，其中，所述操作还包括：在回放设备处，接收不同于第一输入参数的一个或多个第二输入参数；经由回放设备，至少部分地基于一个或多个第二输入参数来生成第二媒体内容，该第二媒体内容不同于第一媒体内容，该生成包括：访问库；以及根据生成式媒体内容模型并至少部分地基于一个或多个第二输入参数，布置对库中用于回放的预先存在的媒体段的第二选择；以及经由一个或多个放大器，回放所生成的第二媒体内容。

示例72：根据本文的示例中任一个所述的计算机可读介质，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括以至少部分地在时间上偏移的方式布置预先存在的媒体段中的两个或更多个媒体段。

示例73：根据本文的示例中任一个所述的计算机可读介质，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括以至少部分地在时间上重叠的方式布置预先存在的媒体段中的两个或更多个媒体段。

示例74：根据本文的示例中任一个所述的计算机可读介质，其中，布置对库中的预先存在的媒体段的第一选择以用于回放包括向不同的预先存在的媒体段应用不同的各自衡调整。

示例75：根据本文的示例中任一个所述的计算机可读介质，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括随着时间向不同的预先存在的媒体段应用变化的增益水平。

示例76：根据本文的示例中任一个所述的计算机可读介质，其中，布置对库中用于回放的预先存在的媒体段的第一选择包括随机化用于回放特定的预先存在的媒体段的起点。

示例77：根据本文的示例中任一个所述的计算机可读介质，其中，所生成的第一媒体内容和所生成的第二媒体内容各自包括新颖的媒体内容。

示例78：根据本文的示例中任一个所述的计算机可读介质，其中，所生成的第一媒体内容包括音频内容，并且多个预先存在的媒体段包括多个预先存在的音频段。

示例79：根据本文的示例中任一个所述的计算机可读介质，其中，所生成的第一媒体内容包括视听内容，并且多个预先存在的媒体段包括多个预先存在的音频段、预先存在的视觉媒体段、或预先存在的视听媒体段。

示例80：根据本文的示例中任一个所述的计算机可读介质，还包括：经由网络接口，接收附加的预先存在的媒体段；以及更新所述库以至少包括所述附加的预先存在的媒体段。

示例81：根据本文的示例中任一个所述的计算机可读介质，其中，第一输入参数和第二输入参数包括以下各项中的一项或多项：生理传感器数据(例如，生物特征传感器、可穿戴传感器(心率、温度、呼吸率、脑电波))；联网设备传感器数据(例如，相机、灯、温度传感器、恒温器、存在检测器、麦克风)；环境数据(例如，天气、温度、时间/天/周/月)；回放设备能力数据(例如，换能器的数量和类型、输出功率)；回放设备状态(例如，设备温度、电池电量、当前音频回放、回放设备位置、回放设备是否与另一回放设备绑定)；或用户数据(例如，用户标识、在场用户的数量、用户位置、用户历史数据、用户偏好数据、用户生物特征数据(心率、温度、呼吸率、大脑活动、语音话语特性)、用户情绪数据)。

示例82：一种系统，包括第一回放设备和第二回放设备。第一回放设备包括：第一网络接口；一个或多个第一处理器；以及数据存储设备，其上具有指令，该指令当由一个或多个处理器执行时，使第一回放设备执行操作，该操作包括：接收一个或多个输入参数；至少部分地基于一个或多个输入参数来生成媒体内容，所生成的媒体内容包括第一部分和至少第二部分，该生成包括：访问存储在回放设备上的库，该库包括多个预先存在的媒体段；以及根据生成式媒体内容模型并至少部分地基于一个或多个输入参数，布置对库中用于回放的预先存在的媒体段的选择；经由第一网络接口，发送信号，该信号包括所生成的媒体内容的第二部分和对应的定时信息；以及引起所生成的媒体内容的第一部分的回放。第二回放设备包括：第二网络接口；一个或多个音频换能器；一个或多个第二处理器；以及数据存储设备，其上具有指令，该指令当由一个或多个第二处理器执行时，使第二回放设备执行操作，该操作包括：经由第二网络接口，接收从第一回放设备发送的信号；以及经由一个或多个换能器，根据与所生成的媒体内容的第一部分的回放基本同步的定时信息来回放所生成的媒体内容的第二部分。

示例83：根据本文的示例中任一个所述的系统，还包括：网络设备，包括第三网络接口；一个或多个处理器；以及数据存储设备，其上具有指令，该指令当由一个或多个处理器执行时，使第三回放设备执行包括操作，该操作包括：经由数据网络上的第三网络接口，从第一回放设备接收请求；以及响应于接收到该请求，经由数据网络上的第三网络接口，向第一回放设备发送预先存在的媒体段的更新库。

示例84：根据本文的示例中任一个所述的系统，其中，网络设备包括以下各项中的一项或多项：远程服务器、另一回放设备、移动计算设备、膝上型计算机或平板计算机。

示例85：一种系统，包括通过局域网通信耦接的第一回放设备和第二回放设备。第一回放设备包括：一个或多个第一处理器；一个或多个第一音频换能器；以及数据存储设备，其上具有指令，该指令当由一个或多个第一处理器执行时，使第一回放设备执行操作，该操作包括：接收一个或多个输入参数；至少部分地基于一个或多个输入参数来生成第一媒体内容，该生成包括：访问存储在第一回放设备上的第一库，该第一库包括多个预先存在的媒体段；以及根据第一生成式媒体内容模型并至少部分地基于一个或多个输入参数，布置对第一库中用于回放的预先存在的媒体段的选择；以及经由一个或多个第一音频换能器，回放第一生成式媒体内容。第二回放设备包括：第二网络接口；

一个或多个第二音频换能器；一个或多个第二处理器；以及数据存储设备，其上具有指令，该指令当由一个或多个第二处理器执行时，使第二回放设备执行操作，该操作包括：至少部分地基于一个或多个输入参数来生成第二媒体内容，所生成的第二媒体内容与所生成的第一媒体内容基本相同，该生成包括：访问存储在第二回放设备上的第二库，该第二库包括多个预先存在的媒体段；以及根据第二生成式媒体内容模型并至少部分地基于一个或多个输入参数，布置对第二库中用于回放的预先存在的媒体段的选择；以及经由一个或多个第二音频换能器，与经由第一回放设备回放所生成的第一媒体内容同步地回放所生成的第二媒体内容。

示例86：根据本文的示例中任一个所述的系统，其中，第一生成式媒体内容模型和第二生成式媒体内容模型基本相同。

实例87：根据本文的示例中任一个所述的系统，其中，第一库和第二库基本相同。

示例88：一种用于回放多通道生成式媒体内容的媒体回放系统，该系统包括：第一回放设备，包括第一音频换能器和一个或多个第一处理器；第二回放设备，包括第二音频换能器和一个或多个第二处理器；协调器设备，包括一个或多个第三处理器；以及一个或多个计算机可读介质，存储指令，该指令当由一个或多个第一处理器、第二处理器和/或第三处理器执行时，使媒体回放系统执行操作，该操作包括：在协调器设备处，接收包括媒体内容的多个通道的流，这些通道中的至少一些包括生成式媒体内容；向至少包括第一回放设备和第二回放设备的多个回放设备发送多个通道中的每个通道；根据第一回放职责经由所述第一回放设备回放第一通道子集；根据第二回放职责经由所述第二回放设备回放第二通道子集；以及随着时间动态地修改所述第一回放职责和/或所述第二回放职责。

示例89：本文的示例中任一个所述的系统，其中，第一回放设备同步地回放第一通道和第二通道，并且其中，修改第一回放职责包括修改第一通道的回放增益而不修改第二通道的回放增益。

示例90：根据本文的示例中任一个所述的系统，其中，动态修改基于一个或多个输入参数，该输入参数包括以下各项中的一项或多项：生理传感器数据；联网设备传感器数据；环境数据；回放设备能力数据；回放设备状态；或用户数据。

示例91：根据本文的示例中任一个所述的系统，其中，动态修改响应于经由控制器设备的用户输入。

示例92：根据本文的示例中任一个所述的系统，其中，所述操作还包括：经由协调器设备，根据第三回放职责来回放多个通道的子集。

示例93：根据本文的示例中任一个所述的系统，其中，生成式媒体内容是从包括生成式媒体模块的一个或多个远程计算设备接收的。

示例94：根据本文的示例中任一个所述的系统，其中，所述操作还包括：在协调器设备处，经由物理连接来接收本地媒体内容；以及经由协调器设备，将本地媒体内容与包括媒体内容的多个通道的流进行混合以生成混合媒体内容；以及向所述多个回放设备发送所述混合媒体内容。

示例95：一种用于生成式媒体内容的多通道回放的方法，该方法包括：在协调器设备处，接收包括媒体内容的多个通道的流，这些通道中的至少一些包括生成式媒体内容；向至少包括第一回放设备和第二回放设备的多个回放设备发送所述多个通道中的每个通道；根据第一回放职责经由所述第一回放设备回放第一通道子集；根据第二回放职责经由所述第二回放设备回放第二通道子集；随着时间动态地修改所述第一回放职责和/或所述第二回放职责。

示例96：本文的示例中任一个所述的方法，其中，第一回放设备同步地回放第一通道和第二通道，并且其中，修改第一回放职责包括修改第一通道的回放增益而不修改第二通道的回放增益。

示例97：根据本文的示例中任一个所述的方法，其中，动态修改基于一个或多个输入参数，该输入参数包括以下各项中的一项或多项：生理传感器数据；联网设备传感器数据；环境数据；回放设备能力数据；回放设备状态；或用户数据。

示例98：根据本文的示例中任一个所述的方法，其中，动态修改响应于经由控制器设备的用户输入。

示例99：根据本文的示例中任一个所述的方法，还包括：经由协调器设备，根据第三回放职责回放多个通道的子集。

示例100：根据本文的示例中任一个所述的方法，其中，从包括生成式媒体模块的一个或多个远程计算设备接收生成式媒体内容。

示例101：根据本文的示例中任一个所述的方法，还包括：在协调器设备处，经由物理连接来接收本地媒体内容；以及经由协调器设备，将本地媒体内容与包括媒体内容的多个通道的流进行混合以生成混合媒体内容；以及向所述多个回放设备发送所述混合媒体内容。

示例102：一个或多个有形非暂时性计算机可读介质，存储指令，该指令当由媒体回放系统的一个或多个处理器执行时，使媒体回放系统执行操作，该操作包括：在协调器设备处，接收包括媒体内容的多个通道的流，这些通道中的至少一些包括生成式媒体内容；向至少包括第一回放设备和第二回放设备的多个回放设备发送所述多个通道中的每个通道；根据第一回放职责经由所述第一回放设备回放第一通道子集；根据第二回放职责经由所述第二回放设备回放第二通道子集；以及随着时间动态地修改所述第一回放职责和/或所述第二回放职责。

示例103：本文的示例中任一个所述的一个或多个计算机可读介质，其中，第一回放设备同步地回放第一通道和第二通道，并且其中，修改第一回放职责包括修改第一通道的回放增益而不修改第二通道的回放增益。

示例104：根据本文的示例中任一个所述的一个或多个计算机可读介质，其中，动态修改基于一个或多个输入参数，该输入参数包括以下各项中的一项或多项：生理传感器数据；联网设备传感器数据；环境数据；回放设备能力数据；回放设备状态；或用户数据。

示例105：根据本文的示例中任一个所述的一个或多个计算机可读介质，其中，动态修改响应于经由控制器设备的用户输入。

示例106：根据本文的示例中任一个所述的一个或多个计算机可读介质，其中，所述操作还包括：经由协调器设备，根据第三回放职责来回放多个通道的子集。

示例107：根据本文的示例中任一个所述的一个或多个计算机可读介质，其中，所述操作还包括：在协调器设备处，经由物理连接来接收本地媒体内容；以及经由协调器设备，将本地媒体内容与包括媒体内容的多个通道的流进行混合以生成混合媒体内容；以及向所述多个回放设备发送所述混合媒体内容。

Claims

1.一种方法，包括：

在协调器设备处，接收输入参数；

从所述协调器设备向多个回放设备发送所述输入参数，每个回放设备在其中具有生成式媒体模块；

从所述协调器设备向所述多个回放设备发送定时数据，使得所述回放设备至少部分地基于所述输入参数来同时回放生成式媒体内容。

2.根据权利要求1所述的方法，其中，所述第一回放设备和所述第二回放设备各自至少部分地基于所述输入参数来回放不同的生成式音频内容。

3.根据任一前述权利要求所述的方法，其中，所述定时数据包括以下各项中的至少一项：时钟数据或一个或多个同步信号。

4.根据任一前述权利要求所述的方法，还包括从所述协调器设备向所述多个回放设备中的至少一个回放设备发送信号，所述信号导致所述回放设备的生成式媒体模块被修改。

5.根据任一前述权利要求所述的方法，其中，所述生成式媒体内容包括以下各项中的至少一项：生成式音频内容或生成式视觉内容。

6.一种方法，包括：

在协调器设备处，接收输入参数；

经由所述协调器设备的生成式媒体模块，生成第一媒体内容流和第二媒体内容流；

经由所述协调器设备，向第一回放设备发送所述第一媒体内容流；

经由所述协调器设备，向第二回放设备发送所述第二媒体内容流，使得经由所述第一回放设备和所述第二回放设备同时回放所述第一媒体内容流和所述第二媒体内容流。

7.根据权利要求6所述的方法，还包括从所述协调器设备向所述第一回放设备和所述第二回放设备中的每个回放设备发送定时数据。

8.根据权利要求7所述的方法，其中，所述定时数据包括以下各项中的至少一项：时钟数据或一个或多个同步信号。

9.根据权利要求6至8之一所述的方法，其中，所述第一媒体内容流和第二媒体内容流不同。

10.根据权利要求6至9之一所述的方法，还包括修改所述协调器设备的生成式媒体模块。

11.根据权利要求6至10之一所述的方法，其中，所述第一生成式媒体内容流和所述第二生成式媒体内容流中的每个生成式媒体内容流包括以下各项中的至少一项：生成式音频内容或生成式视觉内容。

12.根据任一前述权利要求所述的方法，其中，所述生成式媒体模块包括一个或多个算法，所述一个或多个算法基于至少包括所述输入参数的输入来自动生成新颖的媒体输出。

13.一种用于多通道回放生成式媒体内容的方法，所述方法包括：

在协调器设备处，接收包括媒体内容的多个通道的流，所述通道中的至少一些包括生成式媒体内容；

向至少包括第一回放设备和第二回放设备的多个回放设备发送所述多个通道中的每个通道；

根据第一回放职责经由所述第一回放设备回放第一通道子集；

根据第二回放职责经由所述第二回放设备回放第二通道子集；

随着时间动态地修改所述第一回放职责和/或所述第二回放职责。

14.根据权利要求13所述的方法，其中，所述第一回放设备同步回放第一通道和第二通道，并且其中，修改所述第一回放职责包括修改所述第一通道的回放增益而不修改所述第二通道的回放增益。

15.根据权利要求13或14所述的方法，其中，所述动态修改响应于经由控制器设备的用户输入。

16.根据权利要求13至15中的一项所述的方法，还包括：经由所述协调器设备，根据第三回放职责来回放所述多个通道的子集。

17.根据权利要求13至16中的一项所述的方法，其中，所述生成式媒体内容是从包括生成式媒体模块的一个或多个远程计算设备接收的。

18.根据权利要求13至17之一所述的方法，还包括：

在所述协调器设备处，经由物理连接来接收本地媒体内容；

经由所述协调器设备，将所述本地媒体内容与包括所述媒体内容的多个通道的所述流进行混合以生成混合媒体内容；以及

向所述多个回放设备发送所述混合媒体内容。

19.一种协调器设备，包括：

网络接口；

一个或多个处理器；以及

有形非暂时性计算机可读介质，存储指令，所述指令当由一个或多个处理器执行时，使所述设备执行根据任一前述权利要求所述的方法。

20.一种方法，包括：

在回放设备处，接收一个或多个第一输入参数；

经由所述回放设备，至少部分地基于所述一个或多个第一输入参数来生成第一媒体内容，所述生成包括：

访问存储在所述回放设备上的库，所述库包括多个预先存在的媒体段；

根据生成式媒体内容模型并至少部分地基于所述一个或多个输入参数，布置对所述库中用于回放的预先存在的媒体段的第一选择；以及

经由所述回放设备，回放所生成的第一媒体内容。

21.根据权利要求20所述的方法，还包括：

在所述回放设备处，接收不同于所述第一输入参数的一个或多个第二输入参数；

经由所述回放设备，至少部分地基于所述一个或多个第二输入参数来生成第二媒体内容，所述第二媒体内容不同于所述第一媒体内容，所述生成包括：

访问所述库；

根据所述生成式媒体内容模型并至少部分地基于所述一个或多个第二输入参数，布置对所述库中用于回放的预先存在的媒体段的第二选择；以及

经由所述回放设备，回放所生成的第二媒体内容。

22.根据权利要求20或21所述的方法，其中，布置对所述库中用于回放的预先存在的媒体段的第一选择包括：以至少部分地在时间上偏移的方式或以至少部分地在时间上重叠的方式，布置所述预先存在的媒体段中的两个或更多个媒体段。

23.根据权利要求20至22中的一项所述的方法，其中，所生成的第一媒体内容和所生成的第二媒体内容各自包括新颖的媒体内容。

24.根据权利要求20至23之一所述的方法，还包括：

经由网络接口，接收附加的预先存在的媒体段；以及

更新所述库以至少包括所述附加的预先存在的媒体段。

25.根据任一前述权利要求所述的方法，其中，所述输入参数包括以下各项中的一项或多项：

生理传感器数据；

联网设备传感器数据；

环境数据；

回放设备能力数据；

回放设备状态；或

用户数据。

26.一种存储指令的有形非暂时性计算机可读介质，所述指令当由设备的一个或多个处理器执行时，使所述设备执行根据任一前述权利要求所述的方法。

27.一种回放设备，包括：

一个或多个放大器，被配置为驱动一个或多个音频换能器；

一个或多个处理器；以及

数据存储设备，其上具有指令，所述指令当由所述一个或多个处理器执行时，使所述回放设备执行根据权利要求20至25之一所述的方法。

28.一种用于回放多通道生成式媒体内容的媒体回放系统，所述系统包括：

第一回放设备，包括第一音频换能器和一个或多个第一处理器；

第二回放设备，包括第二音频换能器和一个或多个第二处理器；

协调器设备，包括一个或多个第三处理器；以及

一个或多个计算机可读介质，存储指令，所述指令当由所述一个或多个第一处理器、第二处理器和/或第三处理器执行时，使所述媒体回放系统执行根据权利要求1至18以及20至25之一所述的方法。