CN110945494A

CN110945494A - 向客户端提供媒体内容的方法和系统

Info

Publication number: CN110945494A
Application number: CN201880049620.0A
Authority: CN
Inventors: J·M·克劳德; J·里德米勒; K·克乔林; J·克雷沙
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2017-07-28
Filing date: 2018-07-26
Publication date: 2020-03-31
Anticipated expiration: 2038-07-26
Also published as: EP3659040A1; CN110945494B; US20200275171A1; US12170712B2; US20240340356A1; US11489938B2; WO2019023488A1; CN118540517A; EP3659040A4; US20230047127A1

Abstract

一种用于在媒体分发网络内提供媒体内容的方法。该方法包括将源媒体内容变换为临时格式，从而提供经变换内容。此外，该方法包括将该经变换内容存储在至少一个核心存储单元上。另外，该方法包括从客户端接收对该源媒体内容的请求。该方法进一步包括：将该经变换内容或从该经变换内容得到的中间编码内容编码为适合于通过核心网络和/或边缘网络传输的经编码内容，以及经由该核心网络和/或该边缘网络将该经编码内容发送到该客户端。

Description

向客户端提供媒体内容的方法和系统

相关申请的交叉引用

本申请要求于2018年7月28日提交的美国临时申请号62/538,093和2018年7月10日提交的美国临时申请号62/695,947的优先权，所述美国临时申请通过引用并入本文。

技术领域

本文档涉及通过分发网络向一个或多个客户端分发媒体内容，尤其是视频和/或音频。

背景技术

通过采用软件定义网络(SDN)、将高速缓存能力和计算能力进一步推向网络边缘、以及物联网(IoT)的发展而推动的向灵活、高度可配置的网络基础设施的转变使得有机会利用新方法来提高网络和/或云分发、存储和传递多媒体的效率和个性化。然而，OTT/网络提供的多媒体服务正在以并非现有的音频和视频编解码器最初被设计的方式(即，以单播传输)使用这些编解码器，这些编解码器最初被设计用于利用一对多模型的广播系统，并且在中间存储和处理可用的情况下使用传递信道(即，网络)。网络基础设施以及多媒体传递方式的发展使得有机会推动对多媒体进行编码、存储、分发和传递给最终消费者的方式的范式转变。

本文档解决了为双向、尤其是基于IP的网络通信信道提供高效且灵活的多媒体捕获、存储、分发和/或传递系统的技术问题。

发明内容

根据一方面，描述了一种用于在媒体分发网络内提供媒体内容的方法。媒体分发网络包括具有一个或多个(核心)存储单元的核心网络。此外，媒体分发网络包括将一个或多个核心存储单元互连到一个或多个客户端的至少一个边缘网络。方法包括：将源媒体内容变换为临时格式，从而提供经变换内容；将经变换内容存储在一个或多个核心存储单元上；从客户端接收对源媒体内容的请求；使用一个或多个处理单元或编码器将经变换内容或从经变换内容得到的中间编码内容编码为适合于通过核心网络和/或边缘网络传输的经编码内容；以及经由传输网络将经编码内容发送到客户端。

根据另一方面，描述了一种用于媒体分发网络的系统，其中，媒体分发网络包括具有至少一个核心存储单元的核心网络以及将一个或多个核心存储单元互连到一个或多个客户端的至少一个边缘网络。系统被配置成：将源媒体内容变换为临时格式，从而提供经变换内容；将经变换内容存储在一个或多个核心存储单元上；从客户端接收对源媒体内容的请求；将经变换内容或从经变换内容得到的中间编码内容编码为适合于通过传输网络传输的经编码内容；以及经由传输网络将经编码内容发送到客户端。

根据另一方面，描述了一种软件程序。软件程序可以适于在处理器上执行并且当在处理器上执行时用于执行本文档中概述的方法步骤。

根据另一方面，描述了一种存储介质。存储介质可以包括软件程序，软件程序可以适于在处理器上执行并且当在处理器上执行时用于执行本文档中概述的方法步骤。

根据另一方面，描述了一种计算机程序产品。计算机程序可以包括可执行指令，可执行指令当在计算机上执行时用于执行本文档中概述的方法步骤。

应当注意，如在本专利申请中概述的方法和系统、包括其优选实施例可以独立使用，或者与本文档中公开的其他方法和系统结合使用。此外，本专利申请中概述的方法和系统的所有方面可以任意组合。特别地，权利要求的特征可以以任意方式彼此组合。

附图说明

下面参照附图以示例性方式解释本发明，在附图中：

图1示出了示例分发网络；

图2示出了用于向客户端提供源内容的示例方法的流程图；

图3示出了用于在媒体分发网络内提供媒体内容的示例方法的流程图；

图4A和图4B示出了用于根据可用网络吞吐量和/或带宽来编码媒体内容的示例方法的流程图；

图5示出了由编码器/转码器执行的示例处理；

图6示出了用于对音频对象进行下混的示例处理；

图7A和图7B示出了经变换内容和经编码内容的示例帧；并且

图8示出了用于经由屏蔽高速缓存来提供内容的示例方案。

具体实施方式

通过采用软件定义网络(SDN)、将高速缓存能力和计算能力进一步推向网络边缘、以及物联网(IoT)的发展而推动的向灵活、高度可配置的网络基础设施的转变使得有机会利用新方法来提高网络/云分发、存储和传递多媒体的效率和个性化。传统上，通过广播系统的多媒体传递采用一对多模型。然而，当今OTT(过顶)/网络提供的多媒体服务的发展主要利用了单播(一个源到单个接收器)模型，单播模型当与包括存储资源和计算资源的网络耦接时，使得有机会动态地提供网络资源、对(来自网络、回放设备和/或回放环境本身的)反馈进行响应、在网络边缘处理和高速缓存内容等。这种组合使得有机会推动对多媒体进行存储、分发和传递给最终消费者的方式的范式转变，以便提高在传递给多媒体设备的每比特质量方面的效率，使得基础网络能够实现更高效地利用容量、网络存储高速缓存，降低维持服务器与客户端之间的连接状态所需的开销量等。在本文档中，描述了用于双向基于IP的网络通信信道的高效多媒体捕获、存储、分发和传递系统。

图1示出了用于分发媒体内容的示例分发网络100。网络100包括被配置成存储和/或提供原始媒体内容或源内容105的媒体源实体101(例如，原始服务器)。可以经由一个或多个不同的(子)网络110、120、130将原始媒体内容105提供给一个或多个客户端104。出于传输的目的，通常使用一个或多个不同的编码器102、112、122、132对原始媒体内容105进行编码。网络100内的所有编码器112、122、132(可能与原始编码器102分开)可以被配置成基于所请求的内容、网络状况、客户端104的类型和/或客户端104的环境状况来不同地对内容进行编码。可以由客户端104或位于网络边缘的网络嵌入式解码器124、134对原始内容105或原始内容的自定义/个性化版本进行解码。

可以将未压缩的多媒体源内容105变换(例如，部分编码)成一种或多于一种临时格式。取决于网络100内的位置和/或对内容的需求，每种临时格式优选地适合于高效的存储和/或传递。临时格式可以确保网络存储位置之间的一致性，从而能够从一个或多个现有网络存储位置提供新的网络存储位置，并且在不牺牲个性化和质量的情况下实现多源下载。此外，这一种或多种临时格式可以支持按需(动态)个性化和/或生成具有独特成帧(frame)特性的优先子集、呈现内容和/或包含附加编码的子集，所述附加编码适合于传递到一个或多个回放设备104(例如，移动设备、电视、计算机等)。举例来说，对于源媒体105或由音频构成的源媒体分量的子集，可以将多个时频变换应用于各种帧大小和/或窗口函数的(多个)LPCM(线性脉冲编码调制)采样的音频源。该步骤中使用的滤波器组类型可以包括以下一项或多项：MDCT(修正离散余弦变换)、CQMF(正交镜像滤波器)和/或其变型。可以以使得临时格式的经变换媒体内容103与包括以下各项的标准化音频编码系统的滤波器组要求兼容的方式来实施时间/频率变换：MPEG AAC、HE-AAC、MPEG-H、MPEG-D USAC、AC-3、E-AC-3、AC-4、Opus等。所得的时频系数数据或其派生物可以被处理并格式化为适合于在后续步骤中高效地存储在本地存储器、网络、云、分布式存储装置和/或序列化中的表示。因此，可以生成可以包括多媒体源内容105的一个或多个频域表示的临时格式(这里也称为“超级夹层(super-mezzanine)”格式)的经变换内容103。

换言之，可以在主编码器102内对源内容105进行部分编码或变换，以提供临时格式的经变换内容103。作为示例，临时格式的经变换内容103可以包括源内容105的一个或多个时频表示(例如，包括时频系数数据)。

经变换内容103可以被进一步编码和/或个性化以形成一种或多种派生临时格式的中间内容113、123、133，该中间内容被优化以存储在边缘网络120、130内和/或被传递到具有类似属性的多组客户端设备104。作为示例，可以移除用于显示经变换内容103中的720p以上分辨率的视频的能力和/或编码器112可以将音频回放限制为不超过2个声道，从而形成派生临时格式的中间内容113。可以将派生临时格式的中间内容113发送到由仅支持较低分辨率的视频和/或立体声回放的移动客户端设备104构成的移动边缘网络120。可以将派生临时格式的中间内容113本地存储在移动边缘网络120内的存储实体121处，以支持未来的请求。可替代地或另外地，中间内容113可以由下游编码器122进一步编码以支持特定的网络和客户端要求。生成新的派生临时格式的每个编码过程可以自定义内容，以针对给定的网络110、120、130、网络路径和/或一组客户端104进行最佳传递。

在分发给核心、边缘、和/或跨运营商的(多个)网络存储域的任何或所有存在点(PoP)、和/或客户端104本身之前，可以使用网络编码(例如，RLNC、随机线性网络编码)和/或前向纠错(FEC)编码来进一步处理经变换内容103的全部、子集和/或其他派生物，以改善网络存储供应性能、实现多源和/或多路径下载、提高抵御网络中断的能力等。换言之，可以使用网络编码和/或FEC编码在主编码器102内对经变换内容103进行编码。此外，经变换内容103可以以网络编码或FEC编码的格式以其整体或作为子集存储在核心网络110内的一个或多个存储实体111上和/或一个或多个边缘网络120、130的一个或多个存储实体121、131上(例如，多频道视频节目传输商(MVPD)、宽带、蜂窝传输网络120和/或因特网服务提供商(ISP)网络130)；和/或可以以网络编码或FEC编码的格式传递给客户端104。

因此，在主要过程的上下文中，经变换内容103或中间或派生内容113、123、133可以位于和/或存储在一个或多个存储实体111、121、131上。可以以临时格式对经变换内容103进行编码，该临时格式对于存储以及随后的客户端和/或边缘网络相关的适配是高效的。

编码器102、112、122、132可以由一个或多个客户端104和/或通过网络100内的另一个过程“按需”激活，该一个或多个客户端104连接到网络100并请求多媒体内容(其中，一个或多个客户端104具有一种或多种不同的客户端类型，例如，电视、移动设备、膝上型计算机等)。每个编码器102、112、122、132可以基于多个主动和/或被动反馈源连续地计算时间和/或频率掩蔽曲线，或者以其他方式计算原始内容105或临时格式的内容103、113、123、133的自定义/个性化表示，这些反馈源包括(但不限于)：网络传感器、回放环境传感器、设备特性和/或用户偏好。然后，在将经变换内容103、113、123、133格式化为一种或多种压缩的临时格式或最终格式以通过(双向)传递网络110、120、130进行消费者传递之前，可以计算(尤其是优化)最终的比特分配过程和比特率。每个编码过程可以是动态的，并且可以连续地适应网络状况、回放环境的SNR等的变化。举例来说，将活动回放设备104从高SNR环境移动到低SNR环境可能产生比特分配/比特率的(实时)降低，因为对低SNR环境中的收听者或观看者可接受的质量可能对原始内容105的较低比特率/质量表示感到满意。

因此，可以根据由网络110、120、130和/或客户端104提供的反馈信息106、116，和/或由网络运营商基于边缘网络120、130的类型和/或基于所连接的客户端104的类型的分布等进行估计，使用编码器112、122、132来进一步对经变换内容103或派生物进行一次或多次编码和/或个性化。通过这样做，可以提供用于客户端104的经编码内容113、123、133。通过基于反馈信息106、116适配对内容的编码，可以在逐个边缘网络的基础上或在逐个客户端的基础上实现传输带宽与渲染质量之间的改进的权衡。

可以在分发网络100内的不同处理和/或存储节点111、112、121、122、131、132处对变换和/或处理步骤进行实例化。可替代地或另外地，可以经由分布式控制系统和/或经由集中式控制(编排)系统以局部级(独立地)控制每个变换和/或处理步骤。控制系统可以被配置成以全局、子网或超局部规模来优化多媒体网络流量。这可以允许在具有或不具有来自网络110、120、130、来自回放/渲染设备104、客户端的个人偏好、和/或来自回放环境的反馈的情况下，通过使用网络编码动态地(逐帧地)对(多个)多媒体流量比特率和/或临时格式进行细粒度控制，以改善对可用网络容量的使用、优化网络存储容量、最大化吞吐量、为由节点111、121、131服务的所有端点104维持恒定的体验/服务质量、维持公平性、克服网络中断(例如，丢包、过早连接终止等)和/或最小化等待时间。

因此，可以将反馈数据106、116提供给存储节点111、121、131或相应的编码器112、122、132，并且可以基于反馈数据106、116来对经变换内容103、113、123、133进行(进一步)编码和/或个性化。换言之，可以基于反馈数据106、116动态地驱动用于提供经编码内容103、113、123、133的后续过程中的一个或多个属性。反馈数据106、116可以包括或可以涉及：

·活动网络状况，例如，拥塞、延迟、丢包、可用带宽、跳数(hop count)等。

·网络存储装置和/或编码器的状态信息，例如，可用性、负荷、可靠性等；

·回放设备的能力和/或背景信息，例如，分辨率能力、HDR兼容性、换能器数量、换能器频率响应等；

·活动回放设备104所支持的编解码器；

·从IoT设备传感器、手机传感器、平板计算机传感器、PC传感器等收集的回放环境信息，例如，信噪比(SNR)、环境声音、环境光等；

·客户端偏好，例如，语言选择、对话增强偏好等；

·客户端参与度，例如，对注意力情绪影响的度量等；和/或

·回放设备104的地理位置。

通过使用上述用于分发内容105的方案，可以降低存储和管理复杂度，同时实现降低的处理复杂度。可以部署内容105，同时连续地适配和/或优化所请求的多媒体流，以提高效率和/或维持不同客户端节点104的目标体验/服务水平。此外，通过使每个内容存储/高速缓存位置111、121、131能够为每个可能的回放设备104提供服务，可以实现改进的存储和高速缓存效率以及机会。此外，可以实现与实现多路径或多源传递的下一代基于IP的传输机制和/或协议的改进集成。

当在具有或不具有关于下游网络120、130、和/或回放设备104或回放设备104的子集的反馈信息106、116的情况下由客户端104、中央控制器和/或处理器节点112、122、132接收到对内容105的请求时，可以沿整个传递路径动态实例化一个或多个过程，从而允许进一步优化(使用上述反馈机制)在分发网络100内的各个点的比特率，包括例如基于消费者端点/客户端104选择的个性化而进行的特征选择。

本文档中概述的方案通过更高效地利用网络资源(例如，带宽和存储)并通过个性化网络100内不同级的内容(例如，代替原始服务器101或CDN(内容传递网络(ContentDelivery Network))111(即，代替ABR、音频/视频渲染器))来降低网络100的带宽和存储要求。此外，所描述的方案通过在必要时将相当一部分计算上昂贵的过程卸载到网络元件102、112、122、132，使得能够改善向小型、低功率和计算受限的设备104的体验传递。例如，在网络边缘(例如，在解码器124、134内)的解码AC-4可以用于支持低功率和受计算约束的消费者设备104，例如移动和可听设备。此外，所描述的与网络的集成可以提供对内容传递流水线的附加控制，从而允许即时进行修改(例如，使用网络编码或FEC编码来插入冗余)以帮助从网络中断或可能影响消费者体验的其他障碍中恢复过来。示例包括通过无线网络传递内容，这带来了与移动性、动态信道状况等有关的独特挑战。

如上所述，可以从活动回放设备104和/或其他设备(例如，包含在回放环境中的传感器107和/或网络传感器)提供上行链路和/或回传信道，以基于一组组合回放设备的能力、从包含在回放环境内的一个或多个活动传感器捕获的环境特性、和/或网络状况，经由连续调整多个编码器特定的控制参数(包括量化/比特分配、编码带宽、采样率等)来直接控制音频/视频编码器的当前比特率。

因此，可以经由主动感测回放环境和/或网络状况来提供细粒度的编码器比特率控制。感测可以包括对回放环境特性的被动和/或主动特征提取，该回放环境特性包括：回放响度/级别、噪声频谱(用于计算当前/半当前SNR)、活动环境(耳机/扬声器、音乐/其他等)、设备对收听者/观看者的取向、有源换能器频率响应、地理位置、生物反馈和/或情感参与。感测还可以包括对网络状况和/或特性的被动和/或主动特征提取，包括：检测拥塞、丢包、缓冲器膨胀、服务器负荷、网络配置变化、链路质量、链路容量等。可以提供所感测到的关于回放环境和/或网络状况的信息作为反馈数据106、116。该反馈数据106、116可以用于使多媒体预处理、编码和/或个性化适应于下游存储装置121、131、处理装置122、124、132、134和/或客户端104。在回放环境的其中SNR和/或有源换能器频率响应超过某个值的一个示例中(例如，在安静的家庭影院环境或封闭式耳机/耳塞中)，可能会中断使用端点传感器控制编码器比特率，并且可以使用仅监测网络状况(连接容量、等待时间等)作为反馈数据116的模式。

反馈路径中使用的环境传感器107可以包括(但不限于)以下各项：诸如在IoT和/或CE(消费电子)设备(诸如，手机、平板计算机、耳机、耳塞、膝上型计算机、智能扬声器、条形音箱、AVR等)中找到的光传感器和/或麦克风等传感器的组合中的一个或多个。

反馈路径中使用的网络传感器可以包括(但不限于)以下各项：在网络设备上执行的网络监测过程、软件定义网络(SDN)的功能、和/或附加到传递网络100的专用网络传感器。执行监测过程的网络设备可以包括(但不限于)路由器、交换机、高速缓存、负荷均衡器等。此外，监测过程和/或网络传感器可以在SDN内实施为独立的虚拟化网络功能(VNF)和/或作为另一功能的一部分。

此外，来自多个回放设备104、环境传感器107和/或网络传感器的反馈可以被聚合在一起以形成反馈106、116。反馈聚合可以包括聚合来自多个网络和/或环境传感器的反馈。

如上所述，初始处理步骤可以用于通过使用临时格式来准备打算在网络100上传递的经变换内容103，该临时格式表现出使得后续步骤能够以一种或多种标准化或专有格式生成压缩比特流的灵活性。此外，该临时格式还可以适合于基于最终用户(客户端104)的约束和/或偏好的自定义。该临时格式再次可以使得能够根据需要即时地得到各种比特率/质量、个性化等。

可以将临时格式的经变换内容103或其派生物113分布在整个网络中，并将其存储在内容分发网络(CDN，content distribution network)、边缘高速缓存等中，以进行处理和/或最终准备按需传递和回放。如上所述，内容113和/或其格式可以取决于内容113被提供给和/或被准备用于的网络120、130和/或客户端104。

下面描述网络供应和存储步骤。如前所述，可以在存储实体111处接收对内容的请求。响应于此，可以将临时格式的经变换内容103、113即时处理为适合于下游存储和/或传递到终端设备104以及稍后被该终端设备消费的格式。该处理可以在网络100、120、130内存储有临时格式的经变换内容103、113的任何地方进行，或者可以沿着从经变换内容103的存储位置到终端设备104的路由进行。此外，该处理可以包括各种适配以支持基于网络性能和/或用户偏好的个性化，该网络性能和/或用户偏好确定内容的哪些部分被存储和/或传递。结果，可以以高效的方式存储、管理和/或传递内容，同时提供用于将内容105个性化到客户端104(例如，到特定类型的客户端104)的平台。

图2示出了用于向客户端104提供源内容105的示例工作流或方法200。此外，图1示出了示例分发网络100。图2所示的初始编码过程准备了源内容105，以在核心网络110内进行广泛的分发和存储。为此，可以将最初创建的源内容105(步骤201)变换为临时格式，从而提供经变换内容103(步骤202)。该临时格式的内容103可以被分发在整个网络100中，并且可以被存储在一个或多个存储实体111上以用于稍后的消费(步骤203)。此外，可以使用优选地以确定性方式实施的网络编码(例如，RLNC)或FEC编码来对该临时格式的内容103进行编码，以使得能够高效地提供网络存储和客户端传递。根据来自中央控制器、下游高速缓存121、131和/或最终用户设备104的请求，可以将临时格式的内容103再次编码为派生格式，以优化通过下游存储装置和边缘网络120、130的存储和传递(步骤204)。该预编码的内容可以被称为中间编码内容113。在示例中，辅助(secondary)编码过程可以基于反馈和/或对下游网络/链路状况的估计、网络拥塞、设备配置文件、或其他客户端个性化参数的聚合集合来进行有限数量的个性化，以将所需的比特率降低为优化处理节点112下游的存储和传递的格式。作为示例，在接收到通过移动/3GPP网络120做出的请求的情况下，辅助编码过程可以将内容下混为立体声表示。该下混版本可以被存储在移动/3GPP网络120内的存储单元121上，并且可以被传递给其他移动设备104，而无需另一个移动设备104从原始的核心网络存储实体111请求内容(步骤205)。当内容103、113遍历网络100朝向终端回放设备104时，可以进行一个或多个附加编码过程以进一步自定义比特流(如图2中从步骤205到步骤204的反馈循环所突出显示的)，并且经编码内容123、133可以可选地存储在临时表示或网络编码表示中，以支持向需要相同或相似自定义的其他回放设备104的传递。可以进行这些自定义中的每一个以优化内容的存储和/或传递，以提高效率和/或将可能不可用或在网络100内更深的地方无法作用的信息考虑在内。最终，可以将经编码内容123、133提供给客户端104(步骤207)。

上述编码过程不一定仅更改或修改流式传输的内容的本质。而是，编码过程还可以基于所使用的传输机制、网络拓扑或观察到的网络状况来更改/编码比特流，以优化内容在网络上的存储和传递。该编码过程可以应用于网络100内存在编码器102、112、122、132的任何点，并且可以实时地定制以优化存储和传输效率。在示例中，客户端设备104可以执行与处理节点或编码器122、132和/或存储单元121、131相似的功能，以支持向其对等方的内容传递。

一种方法是使用网络编码来编码内容比特流。可以根据情况以多种不同方式完成此操作。第一示例涉及在编码过程中对临时格式的内容103或派生物进行网络编码，并且将此网络编码的内容分发到核心网络存储装置111可以提高内容可用性、降低内容管理的复杂度、并在接收到请求时提高后续传递性能。一个这样的示例包括终端设备104向不同的网络存储位置111、121、131(即，多源)发出对相同的网络编码内容的多个请求。每个网络存储位置111、121、131都可以为接收到的请求提供服务，而不必在它们之间进行协调/通信。该示例也适用于终端设备104通过不同的网络路径向同一网络存储位置111、121、131发出多个请求的情况。编码器102、112、122、132可以使用网络编码来在每个路径上发送编码信息，从而能够高效、多路径地传输内容。

第二示例涉及使用网络编码将临时格式的内容或其派生物的不相交元素一起进行编码。一种可能的实现方式包括使用网络编码将基于对象的音频编解码器的子流、参数流、呈现内容或元素一起进行编码。

第三示例涉及在将临时格式的内容或其派生物存储在网络100内之前，使用网络编码来对其进行编码。然后，各种存储位置111、121、131可以形成点对点网络，以最优地分发内容的整个表示或内容的子集，从而提供提高的错误冗余/故障弹性。

第四示例涉及使用来自下游网络设施的反馈来向编码器102、112、122、132通知潜在的拥塞或丢包。然后，编码过程可以使用网络编码将任何所需的冗余添加到比特流中，以确保给定的服务质量。可以将冗余应用于任何内容、存储位置或编码过程，而不管网络100内的位置或内容的格式如何(例如，内容可能已经被编码和个性化)。

进一步示例是基于从可以报告与拥塞、丢包、网络策略等有关的统计信息和状况的基于网络的设施和/或传感器获得的反馈106、116，在任何位于网络中的编码器102、112、122、132内将(例如，最初包含在临时格式中的)内容实时编码为针对传递而优化的形式。示例包括下混、转换为有损音频编解码器、或以其他方式降低音频和/或视频内容的比特率，以使得可以在可能经历网络拥塞、丢包和/或其他降级(如基于网络的传感器报告的)的网络链路上维持给定的服务质量。

使用临时格式及其派生物和网络编码的组合方法可以同时支持单播(一对一)流和多播(一对多)流。上面给出的描述假设了单播工作流。然而，系统架构还支持多播工作流。多播工作流取决于基础网络能力。多播会话管理可以由网络自动执行，或者伪多播会话可以由联网编码器102、112、122、132本身使用标准单播方法(例如，TCP或UDP)来管理。为此，可以向联网编码器102、112、122、132提供关于终端设备104的信息。当终端设备104加入多播会话时，其连接到最近的联网编码器102、112、122、132，并提供其设备配置文件、用户偏好等。联网编码器102、112、122、132从与其连接的任何终端设备104收集所有此类信息。然后，该联网编码器计算将支持每个连接的终端设备104的单一格式(即，终端设备104将能够解码该格式并提取适当的内容)。网络编码器102、112、122、132可以将该信息发送给其上游的可以执行相同的计算的编码器102、112、122、132。这可以继续进行，直到到达源编码器102或者客户端设备104的整个集合被包含在单个网络编码器102、112、122、132之下和/或由该单个网络编码器处理。一旦该信息传播到内容源(即，内容根)，便会编码一种格式，以满足其下每个联网编码器/终端设备(即，联网编码器的子级)的要求。然后，使用标准多播方法将该经编码内容从内容根传输到下游编码器112、122、132和/或客户端设备104。在接收到经编码内容之后，每个下游编码器112、122、132可以进一步将该内容编码和/或个性化为满足其每个子级的要求的新编码版本。网络编码还可以用于将冗余添加到多播比特流中，以确保经编码内容在每个联网编码器102、112、122、132与终端设备104之间的可靠通信。用于该目的的网络编解码器可以在网络编码器102、112、122、132与终端设备104之间的网络状况改变时被连续地更新。

可以以各种方法来实施嵌入网络100中的编码器102、112、122、132。方法涉及使用基于云的处理资源。这些资源可以采取可以附加到网络核心计算资源、网络边缘计算资源、或甚至最终客户端/设备104本身的服务的形式。实施编码器102、112、122、132的另一种方法是在软件定义的网络(SDN)内创建虚拟化的网络功能(VNF)。该VNF编码器可以与执行诸如路由、交换、网络防御(例如，防火墙)、网络数据收集等服务的其他VNF一起位于任何SDN网络节点内。

可以以分布式或集中式模式或两者的组合来管理和操作存储节点111、121、131和编码器节点102、112、122、132。在分布式模式下，每个编码器都会以网络数据包的形式生成消息并将消息分发给其一个或多个邻居(通常认为是在编码链中紧接在该编码器之前和之后的编码器)。这些消息可以包括有关终端设备配置文件的信息、长期网络统计信息、利用率、优化信息等。在集中式模式下，联网的存储和编码器控制器可以向每个联网的编码器和存储设备发送关于操作和全局网络状况的信息和命令。无论使用分布式控制模式和/或集中式控制模式，都可以使用各种策略来管理存储和/或编码器网络节点。策略的示例包括但不限于尽力而为策略或最低保证质量策略，在尽力而为策略中，在逐个客户端的基础上管理内容传递，并且不跨客户端执行协调；并且在最低保证质量策略中，服务保证最低质量，将该最低质量传递给能够在理想网络状况下接收这种质量的客户端子集。后一种情况涉及优化跨多个客户端104的传递质量，同时考虑诸如共同影响客户端的整个子集的约束，诸如网络/链路容量、交换机/路由器吞吐量、延迟等。

可以利用反馈沿着传递路径执行分布式编码和/或处理。将多媒体处理集成到较低级别的网络功能本身中可以潜在地在从4K电视到支持Atmos的AVR(音频/视频渲染器)(包括移动设备和可听设备)的各种现有和未来消费设备104上提供更高效、自适应的内容传递。在本文档中描述的方法可以推动执行编码和解码、并且然后将其存储在CDN和/或其他网络连接的存储设备中以进行传递的方式的范式转变。在一个提出的模型中，多媒体内容可以被部分编码为一种临时格式，所述临时格式适合于当从回放客户端104请求时按需实现最终的比特分配、比特率、体验、个性化和/或流格式化。可以设想从若干可用反馈源动态地驱动对上述非穷尽属性列表中的每个属性的优化，这些反馈源包括：整个网络路径中使用中的节点/链路、回放设备/背景信息、编解码器和/或回放环境。好处包括降低存储复杂度，同时使得能够在网络100中部署较低复杂度的处理，以配置并连续地适配针对效率或在客户端节点104上维持目标体验/服务水平而优化的所请求的多媒体流。

可以执行分析、反馈和/或传感器驱动的个性化。经由嵌入式网络传感器对网络性能统计信息的实时收集、来自回放设备104的反馈、经由回放设备104和/或其他部署的IoT设备对环境状况的感测等可以用于通知基于云的编码、转码、以及解码过程。这种带外信息可以帮助优化局部(单流)和全局(多流)规模的比特率。此外，该信息对于个性化体验可能很有用。

可以通知对内容的个性化的因素示例包括但不限于以下各项：

1.单个网络链路(如将设备104连接到因特网的Wi-Fi或LTE链路)的性能度量。有关无线链路上的SNR、拥塞通知、丢包率、延迟等的信息，这些信息可以用于在中断或质量的意外降级会影响回放之前通过降低回放比特率、使用网络或FEC编码添加冗余等来抢先调整回放体验。

2.由多个客户端设备104、路由器、交换机、存储设备、计算设备等构成的网络中的性能度量。有关沿网络传递路径的拥塞、来自其他客户端设备104的需求、存储设备和/或计算设备上的负荷和可靠性、端到端连接可靠性、和/或端到端和/或逐链路的丢包、延迟、可用容量的信息，这些信息可以用于调整回放体验以有效地使用所有可用网络资源以便最大化回放性能。

3.观看者参与度的度量，如头部和/或眼睛跟踪、心率、回放环境内的位置等，可以通过提供表示参与程度的质量来帮助通知编码过程。如果某人正在看电影但没有看或没有关注客户端设备104的屏幕，则通常没有理由传输视频数据。类似地，如果某人正在观看5.1音频声道的内容，但是正在从5.1扬声器系统的覆盖范围之外观看，那么从感知上来说，以立体声而不是5.1来回放内容可能会更好。

4.由IoT设备或其他CE设备(具有麦克风和/或其他传感器)收集的信息(诸如环境噪声和光照水平以及影响QoS/QoE(服务质量/体验质量)的其他环境状况)可以用于基于来自回放环境的直接反馈而动态地适配流式传输媒体属性，如比特率、编码模式、分辨率等。例如，较低质量的音频可能在感知上是透明的，并且较低的比特率可以用于在嘈杂的环境中进行回放，而在安静的环境中可能不够用。

5.客户端偏好和相关信息(诸如听力或视力敏感性)可以用于以在被透明感知的同时可以使用较低的比特率表示的方式来适配流式传输媒体属性。

6.有关回放设备和/或系统的信息(诸如硬件型号、扬声器配置、屏幕分辨率、网络连接性等)可以用于以使得在消除了需要传输设备和/或系统无法使用的信息的同时能够利用回放设备和/或系统的全部能力的方式来对内容进行编码。示例包括在无法准确复制某些频率的扬声器系统上的音频回放。在这种情况下，那些频率的音频传输没有用，并且可以在编码步骤中消除以降低比特率。

7.当多于一个客户端设备104处于活动状态时，以上信息的聚合。示例包括通过将客户端104的整个集合所需的所有个性化特征的并集包括在内，基于统计度量、总体需求等来个性化旨在用于多于一个客户端设备104的内容的编码。

因此，可以提供一种编码格式，该编码格式允许轻量级转码以降低内容传递网络100中沿着传递链的某处的比特率。特别地，可以执行网络分布式视频和/或音频编码，使得视频和/或音频编码和解码分布在网络100内的三个或更多处理单元102、112、122、124、104上。处理单元102、112、122、124、104通过具有单独带宽约束的链路互连，并且每个处理单元102、112、122、124、104具有单独的处理能力。如图1所示，这些处理单元之一通常是“原始”编码器102，并且这些处理单元之一通常是“最终”解码器124、104。处理单元102、112、122、124、104可以是传递网络100内的节点，其以分布式方式执行用于视频和/或音频事务的功能。

为了促进处理单元112、122、132(在本文中也称为编码器或转码器)内的转码，与原始内容105相比，经变换内容103可以表现出比特率开销。比特率开销可以用于提高转码操作的效率。因此，通过增加比特率开销，可以降低转码等待时间(latency)和/或复杂度。特别地，在转码之前将比特率增加到完全同时广播的程度可以将转码等待时间和/或复杂度限制为零。另一方面，如果允许增加的等待时间和复杂度，则可以以降低的比特率或不具有附加比特率来执行转码。

特别地，经变换内容103可以包括辅助信息和/或转码元数据，这些信息促进由一个或多个中间处理单元(尤其是编码器或转码器)112、122、132执行的转码。换言之，临时格式可以包括辅助信息和/或转码元数据，用于促进由媒体分发网络100的一个或多个编码器112、122、132执行的转码或编码过程。

在下文中，在音频编码的背景下，尤其是在音频的声道编码和对象编码的背景下，更详细地描述了辅助信息和转码的提供。可以在比特流(例如AC-4比特流)的后向兼容的容器中提供转码辅助信息。辅助信息或转码元数据可以包括

·针对不同比特率的A-SPX信息(即，用于频谱带复制或高频重建的信息)；

·针对不同比特率的A-CPL设置(即，参数化立体声的信息)；

·ASF转码帮助信息(例如，用于指导比特率分配过程以进行转码)；和/或

·不能以其他方式从比特流中扣除的特定控制数据，用于降低转码过程的复杂度。

因此，为了在媒体分发网络100内实现具有相对较低的等待时间和相对较低的复杂度的网络分布式音频编码，可以与来自原始服务器102的比特流一起发送附加元数据或辅助信息，其中，可以在转码期间(例如，在网络100的边缘附近)使用附加元数据。该元数据可以表示或者可以是音频编码数据，如果在转码期间计算音频编码数据，则会引入大量复杂度和等待时间，但是另一方面其可能会表现出合理的低比特率。因此，可以在转码期间将来自原始服务器102的开销比特率与等待时间和复杂度进行权衡。

附加元数据可以是用于指导高频重建算法(可以在音频编解码器中以相对较低的比特率使用)的辅助信息、参数化立体声或多声道元数据、和/或描述了在MDCT域中以比临时格式的速率低的目标速率进行波形编码的适当噪声分配策略的元数据。

在临时格式的极端版本中，可以在经变换内容103内同时广播所有所需的速率和声道配置。这降低了从由编码器102提供的经变换内容103中选择子流的任务的转码等待时间和复杂度。然而，在这种情况下，临时格式的开销会相对较高。同时广播要在转码期间和之后使用的适当参数允许将临时格式中的比特率开销与转码中的等待时间和复杂度进行权衡。

在示例中，可以使用适当的元数据作为临时格式的经变换内容103的一部分来实现立体声转码。经变换内容103可以表现出客户端104可以请求的最高音频质量，使得转码可以被限制为提供降低的音频质量以及降低的比特率。可以在MDCT域内执行转码，以使得转码内容或经编码内容113、123、133的窗口序列可以与经变换内容103的窗口序列相同。通过这样做，可以降低转码操作的等待时间和复杂度。可以使用现有的音频编解码器(例如AC-4)定义临时格式。通过这样做，可以将后向兼容的容器用于承载附加的转码元数据。

为了能够进行转码以降低速率并使用高频重建算法，可以在经变换内容103内或与经变换内容一起提供适当的高频重建(HFR)参数化数据。HFR参数化数据优选地覆盖转码期间所需的最宽频率范围。在示例中，可能的最低比特率可能意味着高频重建开始于5kHz并覆盖高达15kHz的频率范围。另一个比特率可能意味着使用了例如从13kHz到20kHz的高频重建。这将意味着临时格式可用的HFR参数化数据应覆盖5kHz到20kHz的频率范围。这可以通过针对每个可能的目标比特率同时广播HFR参数化数据的整个集合来实现。可替代地，可以提供HFR参数化数据的超集，这使得转码器或编码器112、122、132能够得到针对特定目标比特率的相关HFR参数化数据。HFR参数化数据可以尤其包括关于要通过高频重建算法重建的高频带的频谱包络的信息。频谱包络可以以临时格式(例如，作为转码元数据的一部分)传输，并进行适当的时间和频率平铺，以使得能够转码为各种不同的目标比特率。

对于MDCT域中的波形编解码器部分，转码元数据可以包括对不能以其他方式从比特流中扣除的特定控制数据进行编码。

在立体声音频编码的情况下，可以考虑以下立体声编码模式：

1.纯波形编码的立体声(即，使用增强Mid/Side、Mid/Side或L/R编码)；

2.混合场景，其中音频信号的频率范围的一部分被波形编码的立体声覆盖，并且频率范围的一部分被参数化立体声编码工具覆盖。

3.纯参数化立体声编码(A-CPL，即，高级耦接)，其中整个频率范围均通过参数化立体声编码工具进行编码。

在示例中，在MDCT域中针对相对较低的目标比特率执行转码的情况下，由于立体声编码技术而可能施加限制。上面提到的混合场景通常将立体声编码限制为Mid/side或增强的Mid/side，以便作为单声道下混提供mid信号以用于参数化立体声编码。在这种情况下，这两个声道通常使用相同的窗口序列。

在示例中，在立体声重建(例如，AC-4中的A-CPL)之前执行高频重建(例如，作为AC-4的一部分的A-SPX)。在这种情况下，包括在临时格式内的HFR参数化数据可能会覆盖立体声和单声道两者。可以针对这两个声道配置同时广播HFR参数化数据，或者可以提供适当的超集，该超集允许针对立体声和单声道情况得到相关的HRF参数化数据。

可以在本文档中概述的方案的上下文中使用自适应音频编码。自适应音频编码旨在通过尽可能接近吞吐量约束(除了确保内容播放稳定之外)调整编码器112、122、132的操作比特率来实现对可用吞吐量的最佳利用。可以将内容编码成若干质量版本，并且客户端应用程序可以涉及旨在通过选择内容的适当版本来最大化播放性能的控制策略。这种流式传输场景的示例可以通过HTTP 1.1的分块编码来实现，其中每个块可以(例如)包括以特定比特率编码的内容。客户端102的控制策略可以在逐块的基础上做出关于即将到来的块的质量水平的决定。提供有限数量的内容版本可能未充分利用可用带宽。

本文档中描述的转码器/编码器112、122、132可以执行旨在利用客户端104的全部可用吞吐量的转码。可用吞吐量可能难以度量，并且其可能会随时间波动。转码器/编码器112、122、132可以访问来自网络传输协议的信令。举例来说，网络传输协议的确认信号(ACK)可以用于估计可用吞吐量。

关于可用吞吐量的估计问题可以通过利用来自客户端104的显式反馈数据106来减轻，例如，表明客户端104的播放缓冲器的充满度的反馈数据106。通常，播放缓冲器已满的事实表明流式传输的比特率可能会增加，而缓冲水平的降低可能表明所选的比特率太高。

由于音频信号的非平稳性和可变复杂度，因此实现特定质量所需的比特率通常是时间可变的。为了在转码器/编码器112、122、132处提供高效的速率调整策略，转码器/编码器112、122、132可以使用附加信息。例如，内容105的复杂度可以在每帧的基础上(或在每片段的基础上)变化，并且该复杂度可以被先验地估计并且可以作为元数据与临时格式一起提供(例如，可以例如通过特定帧的感知熵的值来表示帧/片段的复杂度)。该辅助信息或元数据可以由转码器/编码器112、122、132用于与经编码内容113、123、133的比特率有关的控制策略。控制策略可以利用效用函数，该效用函数指示根据所分配的比特率而变化的已实现的音频内容质量。效用函数可以是特定帧或片段的编码难度的函数。

转码器/编码器112、122、132的控制策略可以利用来自客户端104的关于缓冲器充满度的反馈数据106，这将允许估计缓冲器漂移。可以将控制策略设计为在每个帧或每个片段的基础上最小化缓冲器漂移，以最大化效用函数和/或最小化内容重新缓冲的概率(可能同时)。

这种自适应转码方案可以例如借助于HTTP/2的推送技术来实施，并且可以利用在服务器上运行的专用转码服务。

转码器/编码器112、122、132可以利用来自客户端104的反馈数据106来调整I帧的时间密度。例如，如果流式传输发生在不可靠的传输信道上，则即使会降低编码效率，增大I帧的频率也可能是有益的。

转码器/编码器112、122、132可以被配置成通过改变正在使用的编码技术或编码方案来执行比特率的适配。例如，可以在相对较高的比特率下对全频谱使用基于MDCT的编码，而在较低比特率下，可以仅在达到特定截止频率的情况下才执行基于MDCT的编码。可以使用带宽重建算法(例如，HFR)来重建频谱的其余部分。通常，可以向转码器/编码器112、122、132提供指导转码过程的转码元数据。元数据可以是内容自适应的或关于所使用的播放设备104自适应的。

图4A和图4B图示了由转码器/编码器112、122、132执行的示例方法400、410。基于客户端反馈106和/或基于从网络传输协议得到的信息(即，基于信息405)，可以预测可用吞吐量(步骤401)。然后可以基于可用吞吐量来适配转码器112、122、132的操作(步骤402)。可替代地或另外地，可以预测吞吐量(步骤411)，并且可以基于预测的吞吐量来选择用于编码的适当工具集(步骤412)，并且可以生成比特流(尤其是经编码内容113、123、133)(步骤413)。

图5图示了由转码器/编码器112、122、132执行的处理。可以接收临时格式的经变换内容103。经变换内容103可以包括指示媒体内容105的难度或复杂度的元数据502。此外，经变换内容103可以包括部分编码的媒体数据501，诸如MDCT波形、HFR参数化数据等。转码器/编码器112、122、132的控制策略503可以基于元数据502并且基于反馈数据106、505(尤其是关于客户端104的缓冲器充满度)来选择适当的比特率507。此外，转码单元504可以基于数据501并且基于所选比特率507来提供临时编码的内容或经编码内容506、113、123、133。

可以使用对象音频编码对音频内容进行编码。对象音频编码允许通过组合若干个音频对象和/或通过简化音频场景来灵活地适配比特率。在基于对象的编码的情况下，音频信号由与元数据(例如，位置元数据)相关联的一组音频对象表示。通常，在音频场景的表示中增加的对象数量会提高音频场景的重建质量。可以根据用于播放的扬声器配置来适配和/或变换基于对象的表示。

在内容传递的情况下，具有相对较高数量的对象(N个对象)的音频表示可以集中存储(例如，存储在一个或多个存储单元111中)，并分发到转码节点112、122、132，其中可以将对象表示转换为具有减少数量的M个对象(例如M<N)的对象表示。可以对具有减少数量的对象的表示进行编码，并且使其对连接到转码节点112、122、132的一个或多个设备104可用。

可以在靠近网络100的边缘而不是在客户端104上(例如，在解码器124内)执行渲染操作。在这种情况下，可以将基于对象的内容作为基于声道的表示(例如，对应于客户端设备104的播放能力)来传递。如果客户端设备104具有有限的计算性能(例如，具有立体声播放的电池供电的手机可以接收内容的立体声再现而不是由相对大量的波形构成的对象表示)，则这种方案可能是有益的。

可以使用单个高质量临时格式将内容103分发到例如位于网络100的边缘处的许多转码节点112、122、132。节点112、122、132然后可以针对正在使用节点112、122、132的特定类型的设备104来处理内容(例如，LTE节点可以为具有有限的计算复杂度和有限的播放能力的移动设备104提供服务，而靠近IXP(因特网交换点)的节点通常为各种不同类型的设备104提供服务)。

基于对象的内容的分布式处理的另一方面与对话增强有关。对话可以与一组专用对象相关联。在一些情况下，吞吐量约束可能会限制可以传输到客户端104的对象数量。如果发生这种限制，则可能需要对对话和非对话对象进行下混，从而使诸如对话增强之类的特征恶化。反馈数据106可以指示使用了这种与对话有关的特征。在这种情况下，可以通过在下混操作之前提升对话对象来实现对话增强。在处理等待时间不太关键的基于文件的流式传输的情况下，这种方案可能特别有益。

可以借助于仿真分层编码来实现自适应流式传输(如图6、图7A和图7B所示)。可以通过即时编辑比特流来实现轻量级转码，从而降低质量并降低操作比特率。在示例比特流中，使用M个对象下混对N个对象进行参数化编码(N＞M)。编码方案可以使得可以对这N个对象执行信号重建(从而产生最高质量)并且对这M个对象执行信号重建(从而产生降低的质量)。在这种情况下，比特流语法可以包括四个部分：M个下混对象的波形描述；M个下混对象的元数据描述；参数化上混信息(例如，上混矩阵的系数以及促进解相关器操作的系数)；以及N个上混对象的元数据描述(例如，位置元数据)。

图6图示了编码器102，该编码器可以被配置成提供上述经变换内容103。原始内容105可以包括用于这N个对象的对象元数据601，以及用于这N个对象的波形数据602。可以在下混单元603中对这N个对象进行下混以提供用于这M个对象的波形数据，可以使用编码器604对这些波形数据进行编码以提供这M个对象的波形描述607。此外，提供了用于这M个对象的对象元数据606。另外，可以使用参数估计单元605来提供参数化上混参数608。

图7A图示了包括下混对象波形607、下混对象元数据606、上混参数608和上混对象元数据601的比特流的帧。仅需要后两个来完全重建722这N个对象，其中前两个允许重建这M个对象。

转码节点112、122、132可以通过用虚拟上混713替换参数化上混信息608来降低比特率(例如，(动态)上混(预测)矩阵从N×N任意矩阵转换为可以以降低的成本传输的静态M×M单位矩阵；可以丢弃去相关系数)，并且可以用虚拟有效载荷714(例如，其可以从下混中复制)替换位置元数据601。应当注意，由于音频场景的基于对象的表示的性质，参数化上混608可能需要相对较高的比特率，因为用于执行上混的预测矩阵通常允许完全的重建灵活性(因为矩阵不是稀疏的)。

此外，可以配置编码方案，使得可以基于未编码的下混波形来计算上混参数608。这导致了开环编码方案，该方案可以促进对波形编码的下混的转码操作，从而允许进一步降低操作比特率。

可以使用单组上混参数608、单组下混对象元数据606和单组上混对象元数据601、但针对不同比特率使用下混波形数据607的若干版本来将对象内容传输到转码节点112、122、132。转码节点112、122、132可以通过组合来自各个部件的最终比特流(选择下混波形数据606的适当质量版本，并向其附加元数据606和可能的上混参数608)，使操作比特率适应可用吞吐量。图7B图示了可以如何通过从波形数据607的超集中选择适当的波形数据707来生成修改的比特流。

通过在尚未设计为分层的编码方案中使用或仿真分层编码，可以实现好处。可以通过用仍然有助于解码但传输效率更高的虚拟有效载荷替换将不会由解码器用来重建信号的比特流语法的一部分来仿真分层编码。为了实现解码，这例如在所部署的解码器要求接收比特流的所有分量的情况下可能很有用。可以通过解析比特流并通过用虚拟有效载荷替换将不使用的比特流部分来执行转码。结果是，以比特率高效的方式向解码器提供了比特流的所有必需分量。

应当注意，当传输基于声道的内容(即，床(bed)、具有静态元数据的对象)时，也可以使用基于对象的格式和上述方案。在这种情况下，位置元数据606、601的有效载荷可能不重要，但是基于对象的内容的编码方案的开环属性可以用于通过用虚拟有效载荷713替换上混参数608并实现直接从下混中进行重建来促进轻量级转码。

用于基于已编码对象的表示的语法的开环构造可以促进更高效的高速缓存。特别地，在内容分发网络100中，其中在高速缓存未命中的情况下使用屏蔽高速缓存(以卸载内容的始发者)，屏蔽高速缓存可以提供所请求内容的质量降低的版本(例如，通过仅提供下混对象表示并且通过用虚拟有效载荷替换上混表示713)。这降低了传输成本，并且可以促进加速的播放器启动和客户端播放器的播放缓冲器的加速建立。同时，高速缓存节点可以从原始服务器请求内容的完整表示。从基于下混的重建到基于上混的重建可以(几乎)无缝切换。

图8中图示了对内容的高速缓存。原始服务器801(例如，编码器102)可以将经变换内容812、103提供给存储单元111、803。客户端804、104可以请求(消息815)内容的高质量表示，并且可以向客户端804、104提供(比特流813)内容的高质量表示。还可以将内容811、103提供给屏蔽高速缓存802(例如，离线)。屏蔽高速缓存802可以被配置成向客户端804、104提供内容的下混表示(比特流814)(例如，在存储单元111、803存在技术问题的情况下)。

在下面的不同示例中，描述了可能受益于网络分布式音频和视频编码的转码应用程序。所有应用程序都涉及传递ABR(自适应比特率)媒体(例如，音频和/或视频)，其中以几种不同的表示提供媒体内容。这些表示可能在分辨率、帧速率、比特率以及编解码器配置文件/级别方面有所不同。表示在颜色空间、色度二次采样格式、动态范围、编解码器和流式传输格式方面也可能有所不同。

图3示出了用于在媒体分发网络100内提供媒体内容的示例方法300的流程图。方法300可以包括在图2的上下文中描述的方法200的方法步骤。方法300可以由分发网络100的一个或多个部件来执行，例如由分发网络100的一个或多个编码器102、112、122、132来执行。媒体分发网络100包括具有至少一个核心存储单元111的核心网络110。此外，分发网络100可以包括至少一个边缘网络120、130，该边缘网络直接或间接耦接到一个或多个客户端104。媒体内容可以以比特流的形式从分发网络100的部件(例如，从一个或多个编码器102、112、122、132)经由至少一个边缘网络120、130提供给一个或多个客户端104。示例客户端104是电视、智能电话、计算机、平板计算机、音频和/或视频渲染设备等。示例边缘网络120、130包括MVPD、宽带、移动/蜂窝网络、由因特网服务提供商(ISP)提供的网络等。媒体分发网络可以被配置成仅分发媒体(尤其是语音和/或视频内容)。优选地，媒体分发网络可以被配置成传输媒体和其他形式的数据(如因特网或由电信运营商或宽带提供商运营的管理网络)。

方法300可以包括将源媒体内容105变换301为临时格式，从而提供经变换内容103。源媒体内容105可以例如是PCM编码的音频数据、未压缩的数字视频数据、或两者。临时格式的经变换内容103可以包括源媒体内容105的时频表示。特别地，临时格式的经变换内容103可以包括源媒体内容105的时频变换的系数、尤其是MDCT系数或QMF系数。

此外，方法300可以包括将经变换内容103存储302在至少一个核心和/或边缘存储单元111、121、131上。因此，代替存储源媒体内容105(或作为存储源媒体内容的补充)，可以将经变换内容103(或从所述经变换内容得到的中间编码内容113)存储在分发网络100内的一个或多个存储单元111上。结果，对可以被高效个性化的内容的访问可以分布在多个基于云的基础设施上，从而实现多源下载、自动故障恢复、分布式拥塞避免等。此外，经变换内容103可以存储在分发网络100内的一个或多个存储单元111、121、131上，而与来自源媒体内容105的特定请求无关。

方法300可以进一步包括：从客户端104接收303对源媒体内容105的请求。为此，可以经由分发网络100的后向通信信道从客户端104接收消息。可以在某一部件处、尤其是在分发网络100的编码器102、112、122、132处接收该消息。

另外，方法300可以包括(尤其是响应于接收到303来自客户端104的请求)将经变换内容103或从该经变换内容得到的中间编码内容113编码304成适合于通过边缘网络120、130传输的经编码内容123、133。应当注意，中间编码内容113可以以具有不同个性化选项的不同版本来提供。因此，仅响应于来自至少一个客户端104的特定请求，才可以完成对源媒体内容105的实际和/或完整的编码。然后可以经由边缘网络120、130将经编码内容123、133发送305到客户端104。

本文档中描述的多步骤媒体提供方法使得能够高效且灵活地向不同的客户端104提供源媒体内容105。特别地，可以通过将源媒体内容105存储为呈适用于多个不同客户端104和/或边缘网络120、130的联合临时格式的经变换内容105来降低媒体提供的复杂度。然后，可以根据客户端104和/或边缘网络120、130的要求，对部分编码的经变换内容105进行具体适配的编码304，从而能够灵活地提供源媒体内容105。

该临时格式可以使得与直接从源媒体内容105生成经编码内容123、133的计算复杂度相比，降低了基于经变换内容103和/或基于中间编码内容113生成经编码内容123、133的计算复杂度。可替代地或另外地，临时格式可以是使得存储经变换内容103和/或中间编码内容113所需的存储器量等于或优选地低于以用于支持自适应比特率(ABR)应用程序的方式存储源媒体内容105所需的存储器量。可替代地或另外地，该临时格式可以使得能够将经变换内容103分布式存储在多个核心存储单元111上和/或将经变换内容103依次提供给客户端104。因此，临时格式可以实现高效且灵活的媒体分发。

方法300可以进一步包括：在将经变换内容105和/或中间编码内容113存储303在核心和/或边缘存储单元111、121、131上之前，和/或在对经变换内容103和/或中间编码内容113进行编码304之前，对经变换内容105和/或中间编码内容113中的至少一些(或全部)执行网络编码、尤其是随机线性网络编码(RLNC)。网络编码可以包括向经变换内容103或中间编码内容113添加冗余。通过使用网络编码，可以进一步提高媒体分发的鲁棒性和效率。

对经变换内容103和/或中间编码内容113和/或经编码内容123、133进行编码304可以包括：将时间和/或频率掩蔽曲线应用于经变换内容103和/或中间编码内容113；和/或对包括在经变换内容103和/或中间编码内容113内的系数进行量化；和/或将比特分配给经变换内容103和/或中间编码内容113的不同分量；和/或设置用于经编码内容123、133的采样率；和/或对包括在经变换内容103和/或中间编码内容113中的多个声道进行下混；和/或基于经变换内容103和/或中间编码内容113生成比特流；和/或从经变换内容103和/或中间编码内容113中移除辅助内容/子流(诸如替代语言)。

应当注意，网络100可以包括核心网络110的多个层。此外，应当注意，经变换内容103和/或中间编码内容113可以被重新编码多次，以便使内容适应于网络110、120、130和/或客户端104的特定要求。因此，可以在网络100内提供多个(尤其是2、3、4、5或更多)级别的(部分)编码内容103、113、123、133。特别地，可以存在中间编码内容113的多个不同版本(例如，用于不同的边缘网络120、130和/或用于不同类型的客户端104)。因此，原始内容105可以被变换/编码为经变换内容103。经变换内容103可以被编码成中间编码内容113的不同版本和/或级别(例如，用于不同的客户端104和/或用于不同的边缘网络120、130)。最终，中间编码内容113的版本可以被编码成被发送到客户端104的经编码内容123、133。对经编码内容123、133的解码可以在网络边缘的解码器124、134中和/或客户端104处执行。

方法300可以包括从客户端104、从客户端104的渲染环境和/或从传递网络100内的任何部件接收反馈数据106、116。然后可以基于反馈数据106、116来对经变换内容103和/或中间编码内容113和/或经编码内容123、133进行编码。对经变换内容103和/或中间编码内容113和/或经编码内容123、133进行编码304可以然后包括：基于反馈数据106、116来适配掩蔽曲线；和/或基于反馈数据106、116来适配量化大小或水平；和/或基于反馈数据106、116来适配比特分配方案；和/或基于反馈数据106、116来调整用于对经变换内容103和/或中间编码内容113和/或经编码内容123、133进行编码的采样率；和/或基于反馈106、116移除将不会被使用的辅助内容/子流(诸如替代语言)。通过考虑反馈数据106、116，可以进一步提高媒体分发的效率和灵活性。

反馈数据106、116可以包括关于传递网络100的特性和/或状况的信息。示例反馈数据106、116包括：关于传递网络100的传输延迟和/或等待时间的信息；和/或关于传递网络100的可用带宽的信息；和/或关于核心存储单元111与客户端104之间的跳数的信息；和/或关于传递网络100的传输可靠性和/或丢包率的信息；和/或关于在传递网络100内应用的网络策略和配置的信息；和/或关于传递网络100内的网络编码器112、122、132的流量或处理负荷的信息；和/或关于传递网络100内的拥塞和/或容量约束的信息；和/或关于传递网络100内的存储装置111、121、131的可用性的信息；和/或关于传递网络100内的经变换内容103、113、123、133的可用性/状态的信息。

可替代地或另外地，反馈数据106、116可以包括关于客户端104的特性和/或状况的信息。示例反馈数据106、116包括：关于客户端104所支持的编码方案的信息；和/或关于客户端104所支持的渲染方案的信息；和/或关于客户端104的音频和/或视频渲染换能器和/或设备的数量的信息；和/或关于客户端104的换能器的频率响应的信息；和/或关于客户端104的捕获能力、尤其是关于该客户端的麦克风的信息；和/或关于客户端104的位置的信息；和/或关于客户端104的渲染模式(例如，单声道或立体声渲染)的信息。

可替代地或另外地，反馈数据106、116包括关于客户端104的渲染环境的特性和/或状况的信息。示例反馈数据106、116包括：关于渲染环境内的噪声水平和/或噪声特性和/或噪声频谱的信息；和/或关于渲染环境内的亮度和/或光照状况的信息；和/或关于客户端104的用户的生物数据、情绪数据和/或偏好的信息；和/或关于客户端104的用户相对于客户端104的一个或多个渲染换能器的取向的信息。

客户端104可以包括渲染环境内的一个或多个传感器107和/或一个或多个传感器107的集合，该传感器被配置成提供关于客户端104的渲染环境的传感器数据，其中，该一个或多个传感器可以包括光传感器和/或声学传感器和/或生物传感器。反馈数据106、116然后可以包括和/或然后可以基于传感器数据。通过将传感器数据作为反馈提供给部件(例如分发网络100的编码器102、112、122、132)，可以进一步提高媒体分配的灵活性和效率。

反馈数据106、116可以包括关于客户端104、客户端104的渲染环境和/或传递网络100的瞬时和/或固定信息。固定信息可以用于将经变换内容103部分编码为可以被存储的中间编码内容113和/或经编码内容123、133(例如，用于在特定边缘网络120、130内传输和/或用于传输至一组特定的客户端104)。瞬时信息可以用于(连续地)适配对经变换内容103和/或中间编码内容113和/或经编码内容123、133的编码。通过考虑瞬时和/或固定反馈信息，可以进一步提高媒体分发的灵活性和效率。

方法300可以包括重复地、尤其是周期性地接收更新的反馈数据106、116(例如，包括瞬时反馈信息)。然后，可以基于更新的反馈数据106、116，重复地、尤其是周期性地适配对经变换内容103和/或中间编码内容113和/或经编码内容123、133的编码304，从而提高服务质量和/或媒体分发方案的体验质量。

方法300可以包括接收关于已经请求或可能请求源媒体内容105的多个客户端104的多播反馈数据106、116。然后，可以基于多播反馈数据106、116至少部分地对经变换内容103或中间编码内容113和/或经编码内容123、133进行编码，以向多个客户端104提供联合的、至少部分地编码的内容。因此，可以以高效且灵活的方式来实现向多个客户端104和/或经由多个不同的边缘网络120、130的多播媒体分发。

媒体分发网络100可以包括具有第一特性(例如，第一带宽限制)的第一边缘网络120和具有第二特性(例如，第二带宽限制)的第二边缘网络130。第一特性和/或第二特性可以分别是第一边缘网络120和第二边缘网络130的固有和/或固定特性。举例来说，第一特性和/或第二特性可以包括边缘网络120、130的延迟、等待时间、丢包率、带宽和/或物理层特性。

方法300可以包括：根据第一特性将经变换内容105编码为第一中间编码内容113，以经由第一边缘网络120进行传输。第一边缘网络120可以包括一个或多个第一边缘存储单元121的集合，并且第一中间编码内容113可以被存储在一个或多个第一边缘存储单元121上。此外，方法300可以包括：根据第二特性将经变换内容105编码为第二中间编码内容113，以经由第二边缘网络130进行传输。第二传输网络130可以包括一个或多个第二边缘存储单元131的集合，并且第二中间编码内容113可以被存储在一个或多个第二边缘存储单元121上。因此，可以针对具有一个或多个不同(固定或固有)网络特性的不同边缘网络120、130提供部分预编码的中间编码内容113。然后可以基于瞬时反馈数据106、116将中间编码内容113编码为经编码内容123、133。通过这样做，可以进一步提高媒体分发的效率。

可替代地或另外地，方法300可以包括接收关于客户端104和/或客户端104的渲染环境的固有和/或固定的状况和/或特性的反馈数据106。然后，可以基于(固定的)反馈数据106将经变换内容103编码为中间编码内容113。此外，中间编码内容113可以存储在边缘网络120、130的一个或多个核心存储单元111上和/或一个或多个边缘存储单元121、131上。然后可以基于瞬时反馈数据106、116将中间编码内容113编码为经编码内容123、133。通过这样做，可以进一步提高媒体分发的效率。如上所述，可以以任意数量的级别(例如3、4、5、6或更多个级别)对原始内容105进行编码。

方法300可以包括使用媒体分发网络100的解码单元124、134至少部分地对经编码内容123、133进行解码，以提供至少部分地解码的内容。然后可以将至少部分地解码的内容发送到客户端104。通过这样做，可以降低客户端104的资源要求和/或可以以客户端104可以摄取的格式将部分解码的内容传递到客户端104。

经变换内容103可以包括用于指导对经变换内容103的编码304的转码元数据。特别地，转码元数据可以用于降低对经变换内容103进行编码304的等待时间和/或复杂度。转码元数据可以指示编码经变换内容103的片段或帧的复杂度(关于信息内容)和/或熵。可替代地或另外地，转码元数据可以指示根据比特率而变化的经编码内容123、133的质量的效用函数。可替代地或另外地，转码元数据可以指示根据比特率而变化的量化步长大小和/或频率相关噪声分配。然后可以基于转码元数据来对经编码内容123、133进行编码。结果，可以降低编码304的等待时间和/或计算复杂度。

方法300可以包括：从客户端104接收反馈数据106、116，尤其是指示客户端104用于缓冲经编码内容123、133以用于回放的缓冲水平的反馈数据106、116。可替代地或另外地，方法300可以包括基于通过传输协议所交换的消息(尤其是基于确认消息)来确定用于向客户端104发送305经编码内容123、133的可用带宽的指示。

然后可以基于转码元数据、基于反馈数据106、116和/或基于可用带宽的指示，确定经编码内容123、133的(目标)比特率。特别地，可以将(目标)比特率确定为使得目标成本函数得以改善、尤其是被优化，该目标成本函数取决于缓冲器漂移、经编码内容123、133的质量、和/或缓冲器上溢和/或下溢的概率。通过这样做，可以以最佳方式使用编码器112、122、132与客户端104之间的传输链路上的可用带宽。

媒体内容可以包括音频，尤其是基于声道的音频和/或基于对象的音频。经变换内容103可以包括用于生成不同数量的音频对象和/或用于音频的不同数量的音频声道的参数化数据。可以基于参数化数据对经编码内容123、133进行编码。特别地，可以确定经编码内容123、133内的音频的目标比特率，并且可以从经变换内容103内的参数化数据中选择用于确定经编码内容123、133的一组适当的参数化数据。可以根据目标比特率来执行选择。通过这样做，可以以高效的方式执行对经变换内容103的编码304。

方法300可以包括接收指示分发网络100的传输稳定性相对较低的反馈数据106、116。响应于此，可以增加经编码内容123、133内的独立编码帧的数量，尤其是I帧的数量，从而提高由客户端104接收的经编码内容123、133的质量。

经变换内容103可以包括用于相对较宽频率范围的高频重建数据。高频重建数据可以使得解码器能够基于音频的低频部分来生成音频的高频部分(例如，音频信号或音频声道的高频部分)。可以以从相对较低的交叉频率开始并且上升至相对较高的最大频率的方式提供高频重建数据。

方法300可以包括从用于相对较宽频率范围的高频重建数据中得到用于相对较窄频率范围的高频重建数据，以便确定经编码内容。特别地，用于相对较窄频率范围的高频重建数据可以仅以增加的交叉频率开始和/或仅上升到减小的最大频率。

用于相对较宽频率范围的高频重建数据可以包括用于音频的高频部分的包络的包络数据。经变换内容103可以包括相对较高频率分辨率和/或时间分辨率的包络数据。方法300可以包括从该相对较高频率分辨率和/或时间分辨率的包络数据中得到相对较低频率分辨率和/或时间分辨率的包络数据。

通过提供相对较宽频率范围的高频重建数据，可以降低转码为具有各种不同比特率的音频信号的复杂度和等待时间。

源媒体内容105可以包括N个音频对象。变换302源媒体内容105可以包括：对这N个音频对象进行下混以提供M个音频对象，其中，M＜N。此外，可以确定用于从M个音频对象中重建N个音频对象的上混元数据608。然后，可以将M个音频对象和上混元数据608插入到经变换内容103中。音频对象通常包括波形数据和位置元数据。经变换内容103还可以包括N个音频对象的位置元数据601。结果，可以使得编码器112、122、132能够以高效的方式提供N个音频对象的重建或减少数量的M个音频对象的重建。

特别地，对经变换内容103进行编码304可以包括：移除上混元数据608或用虚拟元数据713替换上混元数据608。结果，可以以高效的方式在编码器112、122、132处提供下混音频流。

如上所述，经变换内容105可以包括M个音频对象(其可能是较高数量的N个音频对象的下混版本)。这M个音频对象中的至少一个可以包括或可以是可能对收听者特别重要的强调对象(例如，包括对话或语音信号的对话对象)。

该方法可以包括接收指示客户端104是否对强调对象使用了增强(例如，对话增强)的反馈数据106。对经变换内容103进行编码304可以包括：根据是否对强调对象使用了增强(例如，对话增强)来对M个音频对象进行下混。举例来说，如果对强调对象使用了增强，则可以在下混之前对强调对象进行放大。通过这样做，可以以高效的方式提供高质量的用户体验。

如上所述，经变换内容105可以包括M个音频对象。方法300可以包括接收指示客户端104仅支持基于声道的音频渲染的反馈数据106。响应于此，对经变换内容103进行编码304可以包括将这M个音频对象变换为一个或多个音频声道。通过这样做，可以以高效且适当的方式将音频内容提供给客户端104。

经变换内容105可以针对这M个音频对象中的至少一个包括不同比特率的波形数据607。在这种情况下，对经变换内容103进行编码304可以包括选择目标比特率的波形数据607。通过提供不同比特率的波形数据607，可以实现对不同比特率的高效转码。

此外，描述了用于媒体分发网络100的系统。该系统可以包括媒体分发网络100内的一个或多个计算设备(例如，服务器)。特别地，该系统可以包括一个或多个编码器102、112、122、132。

该系统被配置成将源媒体内容105变换为临时格式，从而提供经变换内容103。此外，该系统被配置成将经变换内容103存储在至少一个核心存储单元111上。另外，该系统被配置成从客户端104接收对源媒体内容105的请求。该系统进一步被配置成将经变换内容103或从该经变换内容得到的中间编码内容113编码为适合于通过边缘网络120、130传输的经编码内容123、133，并经由边缘网络120、130将经编码内容123、133发送到客户端104。

本文档中描述的方法和系统可以被实施为软件、固件和/或硬件。某些部件可以例如被实施为在数字信号处理器或微处理器上运行的软件。其他部件可以例如被实施为硬件和/或专用集成电路。所描述的方法和系统中遇到的信号可以存储在诸如随机存取存储器或光学存储介质等介质上。这些信号可以经由诸如无线电网络、卫星网络、无线网络或有线网络(例如，因特网)等网络来传输。利用本文档中描述的方法和系统的典型设备是用于存储和/或渲染音频信号的便携式电子设备或其他消费设备。

Claims

1.一种用于在媒体分发网络内提供媒体内容的方法，其中，所述媒体分发网络包括具有至少一个核心存储单元的核心网络和耦接至一个或多个客户端的至少一个边缘网络；其中，所述方法包括：

将源媒体内容变换为临时格式，从而提供经变换内容；

将所述经变换内容存储在至少一个核心存储单元上；

从客户端接收对所述源媒体内容的请求；

将所述经变换内容或从所述经变换内容得到的中间编码内容编码为适合于通过所述核心网络和/或所述边缘网络传输的经编码内容；以及

经由所述核心网络和/或所述边缘网络将所述经编码内容发送到所述客户端。

2.如权利要求1所述的方法，其中，所述临时格式使得与直接从所述源媒体内容生成所述经编码内容的计算复杂度相比，基于所述经变换内容和/或所述中间编码内容生成所述经编码内容的计算复杂度降低。

3.如权利要求1所述的方法，其中，所述临时格式使得存储所述经变换内容和/或所述中间编码内容所需的存储器量等于或小于存储所述源媒体内容所需的存储器量、尤其是以自适应比特率所需的所有版本和排列来存储所述源媒体内容所需的存储器量。

4.如权利要求1所述的方法，其中，所述临时格式：

使得能够将所述经变换内容分布式存储在多个核心存储单元上；和/或

使得能够将所述经变换内容分布式存储在多个边缘存储单元上；和/或

使得能够将所述经变换内容依次提供给客户端。

5.如权利要求1所述的方法，其中，

所述方法进一步包括：在将所述经变换内容和/或所述中间编码内容存储在所述核心存储单元和/或边缘存储单元上之前，和/或在对所述经变换内容和/或所述中间编码内容进行编码之前，对所述经变换内容和/或所述中间编码内容中的至少一些执行网络编码、尤其是随机线性网络编码；并且

网络编码尤其包括将所述经变换内容或所述中间编码内容确定性地映射为改善所述经变换内容和/或所述中间编码内容向所述客户端的传递的表示。

6.如权利要求1所述的方法，其中，对所述经变换内容和/或所述中间编码内容进行编码包括：

将时间和/或频率掩蔽曲线应用于所述经变换内容和/或所述中间编码内容；和/或

对包括在所述经变换内容和/或所述中间编码内容内的系数进行量化；和/或

将比特分配给所述经变换内容和/或所述中间编码内容的不同分量；和/或

设置用于所述经编码内容的采样率；和/或

对包括在所述经变换内容和/或所述中间编码内容内的多个声道进行下混；和/或

基于所述经变换内容和/或所述中间编码内容生成比特流。

7.如权利要求1所述的方法，其中，

所述临时格式的经变换内容包括所述源媒体内容的时频表示；和/或

所述临时格式的经变换内容包括所述源媒体内容的时频变换的系数、尤其是MDCT系数或QMF系数。

8.如权利要求1所述的方法，其中，

所述方法包括：从所述客户端、所述客户端的渲染环境和/或所述分发网络内的一个或多个部件接收反馈数据；以及

所述经变换内容和/或所述中间编码内容是基于所述反馈数据而被编码的。

9.如权利要求8所述的方法，其中，对所述经变换内容和/或所述中间编码内容进行编码包括：

基于所述反馈数据来适配掩蔽曲线；和/或

基于所述反馈数据来适配量化大小；和/或

基于所述反馈数据来适配比特分配方案；和/或

基于所述反馈数据来调整用于对所述经变换内容和/或所述中间编码内容进行编码的采样率；和/或

基于所述反馈数据来适配回放配置文件和/或配置。

10.如权利要求8所述的方法，其中，所述反馈数据包括：

关于所述边缘网络的特性和/或状况的信息；和/或

关于所述边缘网络的传输延迟和/或等待时间的信息；和/或

关于所述边缘网络的可用带宽的信息；和/或

关于所述核心存储单元与所述客户端之间的跳数的信息；和/或

关于所述边缘网络的传输可靠性和/或丢包率的信息；和/或

关于在所述边缘网络内应用的网络策略的信息。

11.如权利要求8所述的方法，其中，所述反馈数据包括：

关于所述客户端的特性和/或状况的信息；和/或

关于所述客户端所支持的编码方案的信息；和/或

关于所述客户端所支持的渲染方案的信息；和/或

关于所述客户端的音频和/或视频渲染换能器的数量的信息；和/或

关于所述客户端的换能器的频率响应的信息；和/或

关于所述客户端的捕获能力、尤其是关于所述客户端的麦克风的信息；和/或

关于所述客户端的位置的信息；和/或

关于所述客户端的渲染模式的信息。

12.如权利要求8所述的方法，其中，所述反馈数据包括：

关于所述客户端的所述渲染环境的特性和/或状况的信息；和/或

关于所述渲染环境内的噪声水平和/或噪声特性和/或噪声频谱的信息；和/或

关于所述渲染环境内的亮度和/或光照状况的信息；和/或

关于所述客户端的用户的生物数据、情绪数据和/或偏好的信息；和/或

关于所述客户端的用户相对于所述客户端的一个或多个渲染换能器的取向的信息。

13.如权利要求8所述的方法，其中，

所述客户端包括一个或多个传感器，所述一个或多个传感器被配置成提供关于所述客户端的所述渲染环境的传感器数据；

所述一个或多个传感器尤其包括光传感器和/或声传感器和/或生物传感器；并且

所述反馈数据包括和/或基于所述传感器数据。

14.如权利要求8所述的方法，其中，所述反馈数据包括关于所述客户端、所述客户端的所述渲染环境和/或所述边缘网络的瞬时和/或固定信息。

15.如权利要求8所述的方法，其中，所述方法包括：

重复地、尤其是周期性地接收更新的反馈数据；以及

基于所述更新的反馈数据，重复地、尤其是周期性地适配对所述经变换内容和/或所述中间编码内容的编码。

16.如权利要求8所述的方法，其中，

所述方法包括：接收关于已经请求了所述源媒体内容的多个客户端的多播反馈数据；以及

所述经变换内容或所述中间编码内容是基于所述多播反馈数据而至少部分地被编码的，以针对所述多个客户端提供联合的、至少部分地编码的内容。

17.如权利要求1所述的方法，其中，

所述媒体分发网络包括具有第一特性的第一边缘网络和具有第二特性的第二边缘网络；

所述方法包括：根据所述第一特性将所述经变换内容编码为第一中间编码内容，以经由所述第一边缘网络进行传输；并且

所述方法包括：根据所述第二特性将所述经变换内容编码为第二中间编码内容，以经由所述第二边缘网络进行传输。

18.如权利要求17所述的方法，其中，

所述第一边缘网络包括第一边缘存储单元；

所述第二边缘网络包括第二边缘存储单元；

所述方法包括：将所述第一中间编码内容存储在所述第一边缘存储单元上；并且

所述方法包括：将所述第二中间编码内容存储在所述第二边缘存储单元上。

19.如权利要求17所述的方法，其中，

所述第一特性和/或所述第二特性分别是所述第一边缘网络和所述第二边缘网络的固有和/或固定特性；和/或

所述第一特性和/或所述第二特性包括所述边缘网络的延迟、等待时间、丢包率和/或物理层特性。

20.如权利要求1所述的方法，其中，所述方法包括：

接收关于所述客户端的固有和/或固定的状况和/或特性的反馈数据；

基于所述反馈数据将所述经变换内容编码为中间编码内容；以及

将所述中间编码内容存储在所述核心存储单元上和/或所述边缘网络的边缘存储单元上。

21.如权利要求1所述的方法，其中，所述方法包括：

使用所述媒体分发网络的解码单元至少部分地对所述经编码内容进行解码，以提供至少部分地解码的内容；以及

将所述至少部分地解码的内容发送给所述客户端。

22.如权利要求1所述的方法，其中，

所述经变换内容包括用于指导对所述经变换内容的编码的转码元数据；并且

基于所述转码元数据对所述经编码内容进行编码。

23.如权利要求22所述的方法，其中，所述转码元数据表明：

对所述经变换内容的片段或帧进行编码的复杂度；和/或

根据比特率而变化的所述经编码内容的质量的效用函数；和/或

根据比特率而变化的量化步长大小；和/或

根据比特率而变化的频率相关噪声分配。

24.如权利要求22所述的方法，其中，所述方法包括：

从所述客户端接收反馈数据、尤其是指示所述客户端的缓冲水平的反馈数据；和/或

基于通过传输协议所交换的消息，确定用于发送所述经编码内容的可用带宽的指示；以及

基于所述转码元数据、基于所述反馈数据和/或基于所述可用带宽的指示，确定所述经编码内容的比特率。

25.如权利要求24所述的方法，其中，将所述比特率确定为使得目标成本函数得以改善、尤其是被优化，所述目标成本函数取决于缓冲器漂移、所述经编码内容的质量、和/或缓冲器上溢和/或下溢的概率。

26.如权利要求1所述的方法，其中，

所述媒体内容包括音频；

所述经变换内容包括用于覆盖不同数量的音频对象和/或用于所述音频的不同数量的音频声道的参数化数据；并且

基于所述参数化数据对所述经编码内容进行编码。

27.如权利要求26所述的方法，其中，所述方法包括：

确定所述音频的目标比特率；以及

根据所述目标比特率选择用于确定所述经编码内容的参数化数据。

28.如权利要求1所述的方法，其中，所述方法包括：

接收指示所述分发网络的传输稳定性相对较低的反馈数据；以及

作为响应，增加所述经编码内容内的独立编码帧的数量。

29.如权利要求1所述的方法，其中，

所述媒体内容包括音频；

所述经变换内容包括用于相对较宽频率范围的高频重建数据；

所述高频重建数据使得能够基于所述音频的低频部分生成所述音频的高频部分；并且

所述方法包括从用于相对较宽频率范围的高频重建数据中得到用于相对较窄频率范围的高频重建数据，以便确定所述经编码内容。

30.如权利要求28所述的方法，其中，

用于相对较宽频率范围的高频重建数据包括用于所述音频的高频部分的包络的包络数据；

所述经变换内容包括相对较高频率分辨率和/或时间分辨率的包络数据；并且

所述方法包括从所述相对较高频率分辨率和/或时间分辨率的包络数据中得到相对较低频率分辨率和/或时间分辨率的包络数据。

31.如权利要求1所述的方法，其中，所述源媒体内容包括N个音频对象；其中，变换所述源媒体内容包括

对所述N个音频对象进行下混以提供M个音频对象，其中M＜N；

确定用于从所述M个音频对象中重建所述N个音频对象的上混元数据；以及

将所述M个音频对象和所述上混元数据插入到所述经变换内容中。

32.如权利要求31所述的方法，其中，

音频对象包括波形数据和位置元数据；

所述经变换内容还包括所述N个音频对象的位置元数据。

33.如权利要求31所述的方法，其中，对所述经变换内容进行编码包括：移除所述上混元数据或用虚拟元数据替换所述上混元数据。

34.如权利要求1所述的方法，其中，

所述经变换内容包括M个音频对象；

所述M个音频对象中的至少一个包括对话；

所述方法包括：接收指示所述客户端是否使用对话增强的反馈数据；并且

对所述经变换内容进行编码包括：根据是否使用对话增强来对所述M个音频对象进行下混。

35.如权利要求1所述的方法，其中，

所述经变换内容包括M个音频对象；

所述方法包括：接收指示所述客户端仅支持基于声道的音频渲染的反馈数据；以及

对所述经变换内容进行编码包括将所述M个音频对象变换为一个或多个音频声道。

36.如权利要求1所述的方法，其中，

所述经变换内容包括M个音频对象；

所述经变换内容针对所述M个音频对象中的至少一个包括不同比特率的波形数据；并且

对所述经变换内容进行编码包括选择目标比特率的波形数据。

37.一种用于媒体分发网络的系统，其中，所述媒体分发网络包括具有至少一个核心存储单元的核心网络和耦接至一个或多个客户端的至少一个边缘网络，其中，所述系统被配置成：

将源媒体内容变换为临时格式，从而提供经变换内容；

将所述经变换内容存储在至少一个核心存储单元上；

从客户端接收对所述源媒体内容的请求；