CN118511545A

CN118511545A - 用于上混/重混/下混应用的多声道音频处理

Info

Publication number: CN118511545A
Application number: CN202280083961.6A
Authority: CN
Inventors: 索伦·斯科夫加德克里斯滕森; 佩德罗·霍仁-索伦森; 莫滕·罗汉森; 丹尼斯·沃尔科夫; 拉斯-约翰·布兰马克
Original assignee: Dirac Research AB
Current assignee: Dirac Research AB
Priority date: 2021-12-20
Filing date: 2022-12-20
Publication date: 2024-08-16
Also published as: WO2023118078A1

Abstract

提供了一种用于确定解码L×K矩阵的方法，该解码L×K矩阵用于将传入的L维声道音频解码为传出的K维声道音频，其中L≥2且K≥1。该方法包括：确定使L维输入样本x与该输入样本的估计x^估计＝d a之间的第一差度量最小化的平移控制参数p和样本分量d，其中a＝A(p)，并且其中A(p)是针对给定平移控制参数p返回L维平移向量a的第一预设映射函数；生成K维原始输出样本y^原始＝d s，其中s＝S(p)，并且其中S(p)是针对给定平移控制参数p返回K维平移向量s的第二预设映射函数，以及；通过求解使该K维原始输出样本y^原始与解码的输入样本x M之间的第二差度量最小化的优化问题来确定该解码L×K矩阵M。还提供了一种用于使用该解码L×K矩阵将传入的L维声道音频解码为传出的K维声道音频的方法。

Description

用于上混/重混/下混应用的多声道音频处理

技术领域

所提出的技术总体上涉及音频处理，更具体地涉及一种用于上混/重混/下混应用的多声道音频处理的方法和系统、一种自适应空间解码器、一种音频处理系统和一种对应的总体音频系统、以及一种计算机程序和一种计算机程序产品。

背景技术

多声道音频处理广泛用于许多不同的音频应用中。更具体地，多声道处理通常用于上混/重混/下混应用。

举例来说，众所周知的是提供上混以从立体声录音中生成多声道音频信号，例如，参见Avendano等人的“A Frequency-Domain Approach to Multichannel Upmix[多声道上混的频域方法]”，音频工程学会杂志，第52卷，第7/8期，2004年7月/8月，Faller的“Multiple-Loudspeaker Playback of Stereo Signals[立体声佶号的多扩音器重放]”，音频工程学会杂志，第54卷，第11期，2006年11月，以及美国专利号8,280,077。多声道上混的概念有时被称为立体声信号的多扩音器重放。

例如在美国专利号9,088,855、美国专利号8,204,237、美国专利号8,019,093、美国专利号7,315,624、美国专利号7,257,231、美国专利申请公开号2011/0081024、EP2517485 B1、WO 2015/169618 A1和Walther等人的“Direct-Ambient Decomposition andUpmix of Surround Signals[环绕信号的直接环境分解和上混]”(2011年IEEE信号处理应用于音频和声学研讨会，2011年10月)中披露了关于上混以及所谓的流分离和多声道音频分解的特定技术的信息。尽管有多声道格式的音频录音，但大多数录音仍然混合到两个声道中，并且通过多声道系统重放这种素材会带来一些挑战。通常，音频工程师在混合立体声录音时会考虑特定的设置，即，一对扩音器对称地放置在听众前方。因此，通过多扬声器系统(例如，5.1环绕)收听这种素材会产生诸如应该将哪个(哪些)信号发送到环绕声道和中央声道的问题。遗憾的是，目前不存在明确的客观标准。

通常，混合多声道音频主要有两种方法。一种是直接/环境方法，其中主信号(例如，与乐器相关的信号)以面向前方的方式在前声道之间平移，就像立体声混合通常所做的那样，并且所谓的“环境”信号被发送到后(环绕)声道。这种混合给人的印象是听众就在观众席上，在舞台前方。第二种方法是全方位源(sources-all-around)或乐队内(in-the-band)方法，其中乐器信号和环境信号在所有扩音器之间平移，营造出听众被音乐家包围的印象，例如，参见Tomlinson Holman的“Surround Sound：Up and Running[环绕声：启动和运行]”第2版，焦点出版社，2008年。关于哪种方法是最好的，目前仍有争论。

不管是采用乐队内方法还是直接/环境方法，都普遍需要改进的信号处理技术来操纵立体声录音，以提取与不同平移设置相关联的信号分量以及环境信号。这是一项非常困难的任务，因为关于立体声混合是如何进行的信息不可用或非常有限。

现有的2到K声道上混过程(即，将2个声道提升为K>2的任何数量的声道)可以分为两大类：试图提取或合成录音的环境并将其传递到环绕声道的环境生成技术，以及在扩音器的数量多于声道数量的情况下得到用于重放的附加声道的多声道转换器。更具体地，比如音乐或电影素材等音频素材通常以标准音频格式混合，比如基于立体声、5.1、7.1声道的编码。然而，在许多实际情况下，再现环境往往与混合素材时假设的环境不同。例如，在一种情况下，用户可能想要在具有多于2个扬声器的环绕声扬声器系统上收听立体声素材，或者在包括附加物理扬声器(比如高度扬声器)的系统上观看以5.1编码的电影。另一个常见的应用是简单地在一副耳机上收听立体声音乐素材，尽管立体声素材是为了在房间中放置的两个扬声器上重放而混合在一起的。

如上所述，众所周知的概念是对音频素材进行上混(或重混)作为已编码格式与实际再现系统之间的桥梁处理步骤。例如，经典的上混配置是接收立体声输入信号并返回5.1环绕声信号。上混不是标准化的，并且存在多种上混方法。因此，实际上，在例如2到5.1配置中，以及更一般地，在任何L到K配置中，可能实现不同类型的声音体验。不存在明确的客观标准，实用上混算法的典型目的是找到一种为任何源素材提供良好的主观声音体验的设置。上混和相关信号处理算法的进一步信息和概述可以在Francis Rumsey的“SignalProcessing for 3D Audio[3D音频的信号处理]”(音频工程学会杂志，第56卷，第7/8期，2008年7月/8月)以及Francis Rumsey的“Spatial audio processing：Upmix，downmix，shake it all about[空间音频处理：上混，下混，全面调整]”(音频工程学会杂志，第61卷，第6期，2013年6月)中找到。

尽管以上技术有时可以获得令人满意的结果，但是仍然普遍需要改进的多声道音频处理。

发明内容

鉴于以上所述，总的目的是提供关于用于上混/重混/下混应用的多声道音频处理和/或自适应空间解码的新的和改进的发展。这个和其他目的将在下文中变得显而易见。

一个具体目的是提供一种用于确定解码L×K矩阵的方法，该解码L×K矩阵用于将传入的L维声道音频解码为传出的K维声道音频，其中L≥2且K≥1。还有一个目的是提供一种用于使用解码L×K矩阵将传入的L维声道音频解码为传出的K维声道音频的方法。

另一个目的是提供一种自适应空间解码器ASD，其被配置为将传入的L维声道音频解码为传出的K维声道音频。ASD有时也被称为自适应空间再编码器。

还将讨论一种用于自适应空间解码(也称为自适应空间再编码)的方法。

还将讨论一种音频处理系统和一种总体音频系统。

以上和其他目的通过所提出的技术得以满足。

总体上，所提出的技术涉及为自适应空间解码器配置、更新或确定解码矩阵(比如多输入多输出(MIMO)矩阵)以实现对多声道音频处理的改进的过程。

基本上，所提出的技术适用于与任何2到K声道处理相关的多声道音频处理，或者甚至更一般地适用于任何L到K声道处理，比如上混/重混/下混处理，其中L是等于或大于2的整数并且K是等于或大于1的整数，即，L≥2且K≥1。

通常K大于L(例如，用于上混)，但是K可以等于L(例如，用于从一种立体声格式到另一种立体声格式的立体声到立体声的重混)，或者甚至小于L(例如，用于分离/提取立体声或多声道混合的某些特征或分量，比如从立体声中提取中央声道)，这取决于总的多声道音频处理目标。

以这种方式，可以提供执行用于上混/重混/下混应用的多声道音频处理和/或自适应空间解码/再编码的改进方式。

根据第一方面，提供了一种用于确定解码L×K矩阵的方法，该解码L×K矩阵用于将传入的L维声道音频解码为传出的K维声道音频，其中L≥2且K≥1。该方法包括：确定使L维输入样本x与输入样本的估计x^估计＝d a之间的第一差度量最小化的平移控制参数p和样本分量d，其中a＝A(p)，并且其中A(p)是针对给定平移控制参数p返回L维平移向量a的第一预设映射函数；生成K维原始输出样本y^原始＝d s，其中s＝S(p)，并且其中S(p)是针对给定平移控制参数p返回K维平移向量s的第二预设映射函数，以及；通过求解使K维原始输出样本y^原始与解码的输入样本x M之间的第二差度量最小化的优化问题来确定解码L×K矩阵M。该方法优选地是计算机实施的方法。

因此，提供了一种用于多声道解码和/或上混/重混/下混应用的改进方法。

应当理解，确定使L维输入样本x与输入样本的估计x^估计＝d a之间的第一差度量最小化的平移控制参数p和样本分量d可以包括拟合过程。拟合过程可以是确定性过程。在“原始空间解码的示例”一节下的详细描述中讨论了用于传入立体声信号的这种确定性过程的示例。可替代地，拟合过程可以包括求解优化问题，即，可以通过求解使输入样本x与输入样本的估计x^估计之间的第一差度量最小化的第一优化问题来确定平移控制参数p和样本分量d。这在平移控制参数p是多维(比如环境立体声的情况)的情况下尤其有用，其中控制参数p包括空间方位角和仰角。

该方法的优化问题可以进一步被设置为使样本加权差度量最小化。样本权重可以包括来自其他L维输入样本的贡献。加权差度量允许通过权重来获得解码L×K矩阵的动态更新。动态更新可以包括将高权重指派给当前样本并且将低权重指派给相邻样本。相邻样本可以在时域或频域中相邻。

该方法提供了一种实用算法，涉及原始空间声道估计与解码矩阵相结合。特别地，ASD在不知道信号混合源的基础数量的情况下进行操作，因此不知道平移信息和/或环境信号分量。该方法和得到的ASD可以通过提供更稳定的重新平移结果、增强的信号清晰度和通常更少的听觉伪像而比通常基于主要环境建模和估计原理的标准算法执行得更好。

该方法可以与自适应空间解码(ASD)输出声道朝向物理扬声器声道的应用相关的渲染/路由原理结合使用。ASD模块的使用/配置与渲染/路由设计一起可以构成完整的上混体验。渲染可以包括将ASD信号路由到物理多扬声器(例如，使用增益、延迟、去相关)，如在例如汽车/家庭音频应用中。渲染可能意味着在耳机应用中使用ASD声道的双耳下混。

该方法的第一预设映射函数A()可以根据预先建立的查找表或根据传达关于如何根据上下文预设映射函数A()的信息的预定义规则来预设。

该方法的第二预设映射函数S()可以根据预先建立的传达关于如何根据上下文设置预设映射函数S()的信息的查找表来预设。

在详细描述中提供了如何选择预定义映射函数A(p)和S(p)的示例。

该方法的第一差度量和/或第二差度量可以使用目标成本函数来确定。可以使用比如加权绝对差或加权平方差等成本函数来确定差度量中的任何一个或两个。

该方法的目标成本函数可以定义为加权平方差。目标成本函数可以是使第一差度量和/或第二差度量最小化的函数。目标成本函数可以定义为最大后验估计MAP或最大似然ML估计。应当理解，目标成本函数的特定形式可以源自所寻求的特定种类的估计。目标成本函数的特定形式可以有利地应用于寻求解码L×K矩阵的优化问题。

该方法可以进一步包括将传入的L维声道音频划分为多个频带N，其中为每个此种频带N确定解码L×K矩阵。可以对每个频带应用针对每个这样的频带确定的每个解码L×K矩阵，使得可以将所有频带输出组合到K维时域信号。这些频带可以是频段。然而，频带的划分也可以在离散余弦变换(DCT)域中进行。频带的划分可以在任何合适的域中执行。

该方法可以包括基于新的L维输入样本x_i随时间动态更新解码L×K矩阵，其中i表示第i个输入样本。

该方法可以包括将L维输入样本x从时域变换到另一个域。从时域到另一个域的变换可以包括在另一个域中执行：确定使L维输入样本x与输入样本的估计x^估计＝d a之间的第一差度量最小化的平移控制参数p和样本分量d，其中a＝A(p)，并且其中A(p)是针对给定平移控制参数p返回L维平移向量a的第一预设映射函数；生成K维原始输出样本y^原始＝d s，其中s＝S(p)，并且其中S(p)是针对给定平移控制参数p返回K维平移向量s的第二预设映射函数，以及；通过求解使K维原始输出样本y^原始与解码的输入样本x M之间的第二差度量最小化的优化问题来确定解码L×K矩阵M。

另一个域可以是频域或组合的时/频域。从时域到另一个域的特定变换可以是时间滑动离散余弦变换(DCT)或短时傅里叶变换(STFT)。

根据第二方面，提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质上存储有指令，这些指令用于在具有处理能力的设备上执行时实施根据第一方面的方法。

根据第三方面，提供了一种计算机实施的方法，该方法用于将传入的L维声道音频解码为传出的K维声道音频，其中L≥2且K≥1。该方法包括：根据第一方面确定一个或多个解码L×K矩阵；以及使用该一个或多个解码L×K矩阵将传入的L维声道音频解码为传出的K维声道音频。

根据第三方面的方法可以进一步包括：将L维输入样本x从时域变换到另一个域；当在另一个域中时，根据第一方面确定一个或多个解码L×K矩阵，并且使用该一个或多个解码L×K矩阵将传入的L维声道音频解码为传出的K维声道音频；以及将传出的K维声道音频变换回时域。

根据第四方面，提供了一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质上存储有指令，这些指令用于在具有处理能力的设备上执行时实施根据第三方面的方法。

根据第五方面，提供了一种自适应空间解码器ASD，其被配置为将传入的L维声道音频解码为传出的K维声道音频，其中L≥2且K≥1。ASD包括多个功能模块，每个功能模块专用于执行根据第三方面的方法中的对应步骤，其中每个单独的模块被实施为硬件模块、软件模块或其组合。

当阅读本发明的非限制性详细描述时，将理解其他优点。

附图说明

通过参考以下结合所附的非限制性附图的描述，可以最好地理解进一步的目的和优点，在所附的非限制性附图中：

图1是图示了音频系统的简化示例的示意框图。

图2是图示了包括自适应空间解码器(ASD)和渲染模块的音频处理系统或链的概览的示例的示意图。

图3是图示了包括自适应空间解码器(ASD)和渲染模块的立体声到多声道处理系统或链的示例的示意图。

图4是图示了自适应空间解码器(ASD)的示例的示意图。

图5是图示了自适应空间解码器(ASD)在特定上混渲染链中的应用示例的示意图。

图6是图示了自适应空间解码器(ASD)在特定上混渲染链中的另一应用示例的示意图。

图7是图示了自适应空间解码器(ASD)在特定上混渲染链中的又一应用示例的示意图。

图8是图示了自适应空间解码器(ASD)在特定上混渲染链中的又一应用示例的示意图。

图9A是图示了自适应空间解码器(ASD)在用于立体声到耳机立体声信号的特定下混渲染链中的应用示例的示意图。

图9B是图示了自适应空间解码器(ASD)在用于多声道到耳机立体声信号的特定下混渲染链中的应用示例的示意图。

图9C是图示了自适应空间解码器(ASD)在用于多声道到多声道耳机信号的特定重混(或下混或上混)渲染链中的应用示例的示意图。

图10是图示了根据实施例的计算机实施方式的示例的示意图。

图11是用于确定解码L×K矩阵的方法的框图，该解码L×K矩阵用于将传入的L维声道音频解码为传出的K维声道音频，其中L≥2且K≥1。

图12是用于使用如例如结合图11所讨论的那样确定的解码L×K矩阵将传入的L维声道音频解码为传出的K维声道音频的方法的框图，其中L≥2且K≥1。

具体实施方式

在所有附图中，相同的附图标记用于相似或对应的元件。

参考图1从音频系统概览开始可能是有用的，该图图示了简化的音频系统。音频系统100包括音频处理系统200和声音生成系统300。一般而言，音频处理系统200被配置为处理可能与一个或多个音频声道有关的一个或多个音频输入信号。经处理的音频信号被转发到声音生成系统300以产生声音。

如上所述，特定类型的音频处理涉及用于上混/重混/下混应用(比如立体声到多声道(2到K声道)上混)的多声道音频处理。

所提出的技术适用于与任何2到K声道处理相关的多声道音频处理，或者甚至更一般地适用于任何L到K声道处理，比如上混/重混/下混处理，其中L是等于或大于2的整数并且K是等于或大于1的整数；即，L≥2且K≥1。

换句话说，基本问题是基于为原始音频信号中的各种声源编码的平移信息(例如，电平和相位差)从L个音频声道中提取K个音频声道，通常(但不一定)从较低数量的声道(比如立体声音频信号的两个声道)中提取多个声道。在某种意义上，基于不同的平移信息或设置或者与不同的平移信息或设置相关联来提取信号分量是有用的。

举例来说，所提出的技术涉及为自适应空间解码器配置或确定解码矩阵(比如多输入多输出(MIMO)矩阵)以实现对多声道音频处理的改进的新颖过程。

现在将参考自适应空间解码(作为多声道音频处理的过程)以及自适应空间解码器(ASD)(作为多声道音频处理系统中的中心组件)来说明性地描述所提出的技术。在特定的使用情况下，ASD模块可以作为插件提供，该插件可以例如由混音工程师和/或音乐制作人使用。

举例来说，为了便于理解，可以对自适应空间解码器(ASD)的关键术语进行以下简短解释：

●自适应

●通常是指模块跟踪源信号的某些输入/源声道(例如，立体声输入的左/右声道)统计数据并连续地调整一个或多个解码矩阵的事实。

●空间

●通常是指平移位置的空间解释，其中源声道(例如，立体声输入的左/右声道)通常与物理扬声器位置相关联。可以理解的是，这样的平移和/或扬声器位置可以用一维、二维和/或三维来表示。

●解码

●通常是指在上混/重混/下混应用中广泛接受的无源/有源矩阵解码的概念，例如参见David Griesinger在1996年11月于洛杉矾举行的第101届音频工程学会大会上提出的“Multichannel matrix surround decoders for two-eared listeners[用于双耳听众的多声道矩阵环绕解码器]”。音频工程学会，1996年。举例来说，ASD模块可以被视为一种有源矩阵解码。

自适应空间解码器(ASD)有时也称为再编码器。

自适应空间解码器(ASD)可以接收L个输入或源声道(比如立体声输入)并基于一个或多个解码矩阵生成K个输出声道。K个输出声道可以被视为解码的空间声道。

自适应空间解码器(ASD)可以与应用相关的渲染(例如，如在例如汽车或家庭音频应用中，ASD输出声道朝向物理扬声器声道的应用相关的路由)结合使用，或者它可以意味着在耳机应用中使用ASD声道的双耳下混。

举例来说，自适应空间解码器(ASD)可以与应用相关的渲染结合使用以创建立体声到标准环绕的上混链，比如立体声到5.1和立体声到7.1。

所提出的技术还提供了包括这种自适应空间解码器(ASD)和/或多声道音频处理系统的音频处理系统。

所提出的技术还提供了包括这种音频处理系统的总体音频系统。

为了更好地理解，现在将给出实施方式的更详细但非限制性的讨论和披露：

在该示例中，ASD模块被配置为分析2声道立体声信号(L_源/R_源；左/右)并返回与不同的左/右输入相关性(例如，被解释为平移角度)相对应的可配置的一组“空间声道”(例如，多达7个)。

可选地，ASD模块可以被配置为返回不相关或去相关的声道，目的在于从源信号中移除或至少显著减少(例如，左/右)相关内容。

通常，ASD模块旨在与ASD输出声道朝向物理扬声器声道的应用相关的渲染和/或路由原理结合使用。ASD模块的使用和/或配置与渲染和/或路由设计一起构成完整的“上混/重混体验”。

举例来说，渲染可以意味着将ASD信号路由到多个物理扬声器(例如，使用增益、延迟、滤波)，如在例如汽车或家庭音频应用中，或者它可以意味着在耳机应用中使用ASD声道的双耳下混，这将在后面更详细地解释。

应当理解，本发明不限于立体声应用，而是一般有效并适用于任何L到K声道处理，如先前所讨论的。

可能的配置和/或操作原理的示例概述如下：

1.选择处理域-保持在时域或使用音频信号的适当变换，例如：

-使用短时傅里叶变换(STFT)处理(时域/频域)的滤波器组。

-无变换(直接在时域中操作)。

-一些其他的时间和/或频率分析和/或合成链。

2.计算变换域中每个音频观察样本x_i(L维)的原始空间声道解码y_i(K维)：

-注意，K可以更小，具有相同的值，或者大于L，这取决于目标是什么。

3.在给定观察样本和相关联的原始空间声道解码样本的情况下计算MIMO解码矩阵。

4.将MIMO解码矩阵应用于所选择的和/或变换的域中的观察样本(并且可能应用逆变换以回到时域)以产生最终的K维输出信号。

图4是图示了自适应空间解码器(ASD)的示例的示意图。

举例来说，根据广泛接受的技术，自适应空间解码器(ASD)可以包括块/加窗模块、快速傅里叶变换(FFT)模块和滤波器组。

进一步地，自适应空间解码器(ASD)可以包括一组解码矩阵M₁至M_N，N个频带中的每一个频带一个解码矩阵，每个解码矩阵是L×K解码矩阵。如果需要，每个或任何(一个或多个)解码矩阵可以响应于输入随时间连续更新。应当理解，L×K解码矩阵不限于仅构成行向量或仅构成列向量。换句话说，L×K解码矩阵可以是K×L解码矩阵。

自适应空间解码器(ASD)可以进一步包括IFFT模块，该IFFT模块被配置用于按频带对输出声道进行逆变换，以及用于生成K个输出声道的传统重叠/相加模块，这些输出声道可以是解码的空间声道y和可选地附加的不相关声道。

平移解释和/或变换目标可以被视为将输入音频信号重新分配到多声道声场中。

例如，对于立体声信号，当左声道(L_源)音频样本等于右声道(R_源)音频样本时，这将被感知为幻像中心源(在两个物理扬声器之间)。这种素材被称为“中心平移”素材。在这种情况下，可能的变换(映射)目标可以是输出专用于具有某个选定的平移粒度的中心平移素材的声道。振幅平移也可以与所提出的技术(例如，基于正弦余弦的平移)结合使用，参见David Griesinger在1996年11月于洛杉矾举行的第101届音频工程学会大会上提出的“Multichannel matrix surround decoders for two-eared listeners[用于双耳听众的多声道矩阵环绕解码器]”。音频工程学会，1996年。

可以在例如Pulkki，Ville的“Virtual sound source positioning usingvector base amplitude panning[使用向量基础振幅平移的虚拟声源定位]”(音频工程学会杂志45.6：456-466页，1997年)中找到关于平移的附加信息。

原始空间声道解码的示例

举例来说，原始空间声道解码函数可以认为样本x_i是由映射到源维度的单声道信号产生的，即

●x_i＝a_id_i

●其中，a_i是属于某个集合A的(归一化的)实值1×L平移/编码向量，d_i是主要信号分量(标量/单声道)，并且i表示第i个索引/样本。

仅从单个观察样本x_i，就可以找到描述观察的A(和相关联的信号d_i)中a_i的值(注意，集合A使得不存在符号模糊)。当L＝2(立体声)时，这可以通过三角恒等式来实现，假设a_i属于余弦-正弦平移向量A的集合。作为示例，对于在x_i的两个条目中具有相同值的立体声样本向量x_i，相关联的平移向量a_i可以被确定为[cos(π/4)sin(π/4)]＝[11]/√2，对应于中心平移样本。

以下过程定义了原始空间声道解码的示例：

1.找到标准化的平移/编码向量

○给定x_i的a_i，

2.估计相关联的单声道信号分量

○d_i ^估计＝x_ia_i ^T

3.确定(例如，通过预定的查找表或某种“规则”)与a_i相关联的K维映射

○s_i＝S(a_i)，其中S()是描述如何将给定的L维编码向量转换/解码为K维输出向量的映射函数(例如，包含包括有限(量化)数量的向量s_i的集合S的查找表)

4.将估计的单声道信号分量映射到最终的原始空间声道解码输出

○y_i ^原始＝s_id_i ^估计

集合S和映射函数S()也可以分别被视为描述如何将给定的L维编码向量a_i转换和/或解码为K维输出向量s_i的集合或函数。

例如，假设L＝2(立体声)和K＝3，目标是提供输出声道L_空间、C_空间、R_空间，并考虑前面提到的中心平移样本a_i＝[11]/√2的情况。可以方便地选择相关联的映射函数S()来返回3扬声器平移向量s_i＝S(a_i)＝[0 1 0]，其中a_i＝[11]/√2。对应于仅将中心平移立体声素材重新分配到C_空间声道的目标。通常，可以在S()中捕捉任何值a_i的多声道重新分配目标，例如根据多声道平移规则。

重要的是，映射函数S()例如可以灵活地成形，并且通常提供用于设计和/或选择期望的空间解码行为的直接机制。换句话说，映射函数S()可配置用于选择性地和/或自适应地确定空间解码行为。

MIMO解码矩阵计算的示例

MIMO解码矩阵(每频带)可以基于观察样本和相关联的原始空间解码样本来计算，一般原理是：

●对于一组观察样本x_i和原始空间解码样本y_i ^原始，计算提供原始空间估计y_i ^原始的最佳估计(或加权估计)x_i*M的解码矩阵M。

例如，以加权最小二乘估计的形式：

●M_dec＝arg min_M sum_i w_i||x_iM-y_i ^原始||²，其中w_i是与第i个样本相关联的(非负)权重。

不过，计算MIMO解码矩阵的信号域是灵活的，并且不同的操作模式是可能的：

1.可以在变换域中计算解码矩阵，其中通过使用属于变换域的数据(观察+原始空间)来计算原始空间解码样本。

●例如，x_i和y_i ^原始是来自与特定频率或离散余弦变换(DCT)频带相关联的多个STFT窗口的样本。

2.可以基于原始观察和逆变换的原始空间解码样本在原始时域中计算解码矩阵。

3.可以通过将二次变换应用于观察+原始空间解码样本来在二次变换域中计算解码矩阵。

举例来说，对于线性变换，可以针对最小二乘原理将此概括为：

●M_dec＝arg min_M Tr[(XM-Y^原始)^T U^T U(XM-Y^原始)]

其中U是将一组样本映射到另一个域的广义权重/变换矩阵，并且其中X(大小N_i×L)和Y^原始(大小N_i×K)是包含一组(行向量)样本的矩阵，其中N_i是该组中样本的数量。

在与立体声到多声道处理相关的特定非限制性示例中，ASD模块可以被配置如下：

●该模块处理2声道(立体声)输入信号，返回例如7+2个输出声道

●输入

○2个声道(左/右立体声)

●输出

○例如，7个空间声道：

■目的是根据所加载的配置，即根据映射函数S()，将立体声源重新平移到多于两个声道，映射函数S()为来自集合A的任何源平移向量a_i指定来自集合S的相关联的7维重新平移向量s_i。

○可选地，例如2个不相关的声道估计：

■目的是估计立体声信号中的不相关信号分量，以作为“源环境增强”的潜在用途。

■也可以被视为“相关信号衰减器”，例如，中心平移的素材将被严重衰减。

●关键参数

○具有一定程度可配置性的一组一个或多个参数。

■例如，用于更新解码矩阵的样本权重。可替代地，控制样本权重的元参数，比如时间“遗忘因子”。

■特别地，平移控制参数p被解释为与立体声源相关联的一个或多个角度或索引。

■(多个)附加参数可以与滤波器组的配置相关，比如频带的数量及其频率或DCT范围。

○空间声道配置，即空间声道映射函数。

■携带确定基本空间声道重新平移规则的空间声道MAP(SMAP)矩阵。SMAP可以携带用于重新平移到多个空间声道的可配置指令(例如，以平移控制参数p的形式)。这可以对应于集合S，集合S指定与来自集合A的任何源平移向量相关联的基本空间声道解码(重新平移)规则。例如，当L＝2(立体声)时，集合A可以包含余弦-正弦平移向量，并且对于K＝7，集合S可以包含例如7个离散扬声器的相关联的重新平移向量。换句话说，平移控制参数p可以根据其与集合S和A的对应关系来定义平移向量s和/或a。

音频路径示例

●STFT内核实施N频带滤波器组(运行卷积原理)和每频带MIMO滤波。

●每频带MIMO滤波器为2×9滤波器

○9＝7个空间+2个不相关的声道滤波器随时间动态更新，使其行为适应立体声源信号的内容。

MIMO滤波器矩阵设计示例

举例来说，ASD模块的核心涉及MIMO滤波器矩阵的设计，这里以2×9MIMO矩阵为例。如前所述，整个矩阵可以包括或划分为两个分量，一个2×7矩阵M^s用于7个空间声道输出，另一个可选分量，即2×2矩阵M^u用于2个不相关声道输出。

●使用最小二乘解码矩阵(LSM)原理更新空间声道MIMO滤波器M^s(2×7滤波器)：

1.针对变换组中的样本独立地计算原始空间声道估计y_i ^原始(每个FFT仓，时间/频率组的实分量和虚分量，即某个持续时间内的频带)

a.选择其中(立体声)混合中的不同源/分量能够合理地分离(即(立体声)混合中的不同源/分量能在某种可定义的程度上分离)的初始变换(例如，STFT滤波器组变换)。

2.通过以下方式来更新每个频带n的MIMO滤波器：拟合MIMO矩阵M_n，使得对于一组音频样本x_i，n(某个时间上给定频带的样本)，MIMO滤波器对立体声信号x_i，n到7个空间声道(x_i，n*M_n)的扩展近似于原始空间估计y_i，n ^原始

a.这可以通过针对每个频带求解最小二乘问题来实现，其中样本上的权重从先前的时间窗口衰减，概念上类似于

b.M^s _n＝arg min_M sum_iw_i||x_i，nM-y_i，n ^raw||²，导致

c.M^s _n＝inv(P_n)Q_n，其中，P_n＝sum_iw_i(x_i，n)^Tx_i，n是2×2矩阵，并且Q_n＝sum_iw_i(x_i，n)^Ty_i，n ^原始是2×7矩阵。

d.实际上，可以随时间跟踪每个频带n的P_n和Q_n。

●可选地，更新不相关声道MIMO滤波器M^u(2×2滤波器)，例如使用LMMSE原理。

○这种类型的估计基于立体声源信号的另一个模型/视图，目的是提供可以应用于上混链中的“环境”信号增强的输出声道。

○将立体声信号(本地时间和频率)视为

■x_i＝a_id_i+v_i

■其中，a_i是实值1×2平移向量，d_i是主要信号分量(标量)，并且v_i是表示左/右不相关环境分量的1×2向量

○目的是输出信号v_i的估计(不知道a_i和d_i)。

○使用MIMO矩阵M^u的v_i的线性估计可以通过下式获得

■v_i ^估计＝x_i*M^u

○频带n的矩阵M^u _n的线性最小均方误差(LMMSE)估计可以示出为

■M^u _n＝E[v_n ^Tx_n]inv(E[x_n ^Tx_n])，其中E[]是期望算子。

有用的实施方式和/或配置可以基于这样的认识

源/分量通常在联合时域/频域中分离得更好(具有合适的时间和/或频率分辨率)。例如，配置的选择可以基于测试各种配置和执行收听测试，以使得能够选择给出良好结果的配置。

在某种意义上，所提出的技术可以基于计算和/或更新一个或多个解码MIMO矩阵的新方式，例如，在递归最小二乘意义上动态更新或调整每个解码矩阵。

略微不同地表达，所提出的技术可以被视为基于滤波器组的STFT LSM自适应平移或重新平移过程。举例来说，STFT·LSM过程使得能够利用原始FFT仓和/或样本来获得(输入信号的)源素材的高时间/频率分辨率视图，并且允许在该域中执行原始重新平移，同时在顶部使用LSM解码矩阵滤波以实现稳健性。例如，使用高分辨率原始空间声道估计作为最小二乘解码矩阵滤波器组架构的训练数据(拟合数据)导致稳健和高质量的空间声道输出。

举例来说，这提供了在时隙/频隙内重新平移两个非正交源的能力。例如，在具有立体声输入的系统中，这提供了识别和执行两个非正交源的原始重新映射(即，重新平移)(使用高分辨率时间/频率视图)的能力，并获得解码矩阵，该解码矩阵在(较低分辨率)时隙/频隙内(比如在某个持续时间内看到的一个频带内)保持两个非正交源的重新平移(稳健地)。

技术益处，尤其是当应用于整个渲染链时，可以包括关于例如减少音频伪像的改进，以及在等待时间减少方面更易于实施的配置。

应当理解，ASD模块在整个上混/重混/下混链中起着中心作用，其非限制性示例将在下文中描述。

潜在的适用性可能包括以下各项中的一项或多项：

●前级控制。

○扩大甜蜜点(随意聆听)

○中心语音稳定(对话增强)

○处置不理想的再现环境

○多扬声器扩宽声场

●营造一种被包围的感觉。

在该示例中，图示了家庭音频场景。举例来说，可能期望使用普通立体声前级(幻像中心)，例如通过将立体声混合的选定分量馈送到其他可用扬声器来营造沉浸感。

对于上混链，例如可以在左/右前扬声器上使用立体声源，将ASD模块配置为输出L_空间-R_空间-C_空间解码声道，并仅将L_空间和R_空间用于其他扬声器以沉浸在这些声道的内容中，即侧平移的素材中-同时不分配C_空间(以避免中心人声干扰)。

在该示例中，图示了另一家庭音频场景。举例来说，可能期望使用3扬声器前级(稳定、扩宽和/或甜蜜点)，例如通过将立体声混合的选定解码分量馈送到其他可用扬声器来营造沉浸感。

对于上混链，例如可以将ASD模块配置为输出空间解码声道L_空间、C_空间和R_空间，并将这些声道馈送到前扬声器以获得物理中心体验，并将L_空间和R_空间的滤波版本馈送到其他扬声器以沉浸在这些声道的内容中，即侧平移的素材中。

在该示例中，图示了又一家庭音频场景。举例来说，可能期望使用5扬声器前级来获得乐队内沉浸体验。可替代地，也可以在墙壁上配置5个扬声器以获得宽广稳定的舞台体验。

对于上混链，例如可以将ASD模块配置为输出5个前L_空间-Lc_空间-C_空间-Rc_空间-R_空间空间解码声道，并在将信号馈送到环绕系统之前将这些声道作为渲染体验的一部分进行操纵。

图8是图示了自适应空间解码器(ASD)在特定上混渲染链中的又一应用示例的示意图。该示例类似于图7的示例，但是这里还包括一个或多个扩展，例如，扩展到具有一个或多个低音炮(SW)的环绕系统。

还应当理解，其他变化也是可能的，例如，环绕系统也可以具有高度扬声器。示例可以是7.x.4布局。

图9A是图示了自适应空间解码器(ASD)在用于立体声到耳机立体声信号的特定重混/下混渲染链中的应用示例的示意图。例如，双耳下混可能是一种特殊情况。

图9C是图示了自适应空间解码器(ASD)在用于多声道到多声道耳机信号的特定上混/重混/下混渲染链中的应用示例的示意图。

在以上渲染示例中，应当理解，渲染可以涉及例如基于增益和/或延迟的处理和/或各种滤波操作。

如上所述，作为ASD的基本解码功能的补充方面，ASD模块可以可选地被配置为返回不相关或去相关的声道，目的在于从源信号中移除或至少显著减少相关内容。

当集成整个信号架构时，可以方便地计算空间解码矩阵和不相关解码矩阵两者并将它们合并为组合解码矩阵，从而在单个处理框架中提供不同性质的输出。

当在渲染环境(比如上混/重混/下混应用)中使用ASD时，空间声道和不相关声道可以组合使用，也可以不组合使用。

因此应当理解，在没有不相关声道的情况下使用ASD模块显然是可能的。也可以使用生成空间声道和不相关声道两者的ASD模块。

将理解的是，本文描述的方法和布置可以以多种方式实施、组合和重新布置。

举例来说，提供了一种被配置为执行如本文所述的方法的装置。

例如，实施例可以以硬件实施，或者以软件实施以便通过适合的处理电路系统来执行，或其组合。

本文描述的步骤、功能、过程、模块和/或块可以使用任何常规技术以硬件来实施，比如离散电路或集成电路技术，包括通用电子电路系统和专用电路系统两者。

可替代地或者作为补充，本文描述的步骤、功能、过程、模块和/或块中的至少一些可以以比如计算机程序等软件来实施，以便由比如一个或多个处理器或处理单元等合适的处理电路系统来执行。

处理电路系统的示例包括但不限于一个或多个微处理器、一个或多个数字信号处理器(DSP)、一个或多个中央处理单元(CPU)、视频加速硬件、和/或任何合适的可编程逻辑电路系统，比如一个或多个现场可编程门阵列(FPGA)或一个或多个可编程逻辑控制器(PLC)。

还应当理解，可以重新使用实施所提出的技术的任何常规设备或单元的一般处理能力。也可以重新使用现有的软件，例如通过对现有软件进行重新编程，或者通过添加新的软件组件。

也可以提供基于硬件和软件的组合的解决方案。实际的硬件-软件分区可以由系统设计者基于包括处理速度、实施成本和其他要求的许多因素来决定。

图10是图示了计算机实施方式400的示例的示意图。在该特定示例中，本文描述的步骤、功能、过程、模块和/或块中的至少一些在计算机程序425；435中实施，该计算机程序被加载到存储器420中，以便由包括一个或多个处理器410的处理电路系统来执行。(多个)处理器410和存储器420彼此互连以实现正常的软件执行。可选的输入/输出设备440也可以互连到(多个)处理器410和/或存储器420，以实现比如(多个)输入参数和/或得出的(多个)输出参数等相关数据的输入和/或输出。

术语“处理器”应当在一般意义上解释为能够执行程序代码或计算机程序指令以便执行特定处理、确定或计算任务的任何系统或设备。

包括一个或多个处理器410的处理电路系统因此被配置为在执行计算机程序425时执行比如本文所描述的那些明确定义的处理任务。

处理电路系统不必专用于仅执行上述步骤、功能、过程和/或框，而是还可以执行其他任务。

在特定实施例中，计算机程序425；435包括指令，这些指令在由处理器410执行时使处理器410执行本文所描述的任务。

所提出的技术还提供了包括计算机程序的载体，其中，该载体是电子信号、光信号、电磁信号、磁信号、电信号、无线电信号、微波信号或计算机可读存储介质之一。

举例来说，软件或计算机程序425；435可以被实现为计算机程序产品，其通常被承载或存储在非暂态计算机可读介质420；430、特别是非易失性介质上。计算机可读介质可以包括一个或多个可移除或不可移除存储器设备，包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、光盘(CD)、数字多功能光盘(DVD)、蓝光光盘、通用串行总线(USB)存储器、硬盘驱动器(HDD)存储设备、闪存、磁带或任何其他传统的存储器设备。可以因此将计算机程序加载到计算机或等效处理设备的操作存储器中，以便由其处理电路系统执行。

当由一个或多个处理器410执行时，本文提出的过程流程可以被视为计算机流。对应的装置可以被定义为一组功能模块，其中，由处理器410执行的每个步骤与功能模块相对应。在这种情况下，功能模块被实施为在处理器410上运行的计算机程序。

可以因此将驻留在存储器420中的计算机程序组织为适当的功能模块，这些适当的功能模块被配置为在由处理器410执行时执行本文所述的步骤和/或任务的至少一部分。

可替代地，可以主要通过硬件模块或者替代性地通过硬件在相关模块之间进行适当的互连来实现这些功能模块。特定示例包括一个或多个适当配置的数字信号处理器和互连以执行特定功能的其他已知的电子电路(例如离散逻辑门)和/或如先前所提及的专用集成电路(ASIC)。可用硬件的其他示例包括输入/输出(I/O)电路系统和/或用于接收和/或发送信号的电路系统。软件与硬件的范围纯粹是实施方式选择。

结合图11，将讨论用于确定解码L×K矩阵的方法1100，该解码L×K矩阵用于将传入的L维声道音频解码为传出的K维声道音频，其中L≥2且K≥1。该方法可以是计算机实施的，即该方法的步骤或不同表达的功能模块优选地由处理器执行。然而，正如上文所讨论的，该方法的一个或多个步骤/功能模块可以以硬件实施。方法1100的一些或全部步骤可以由上述ASD执行。然而，同样认识到，方法1100的步骤中的一些或全部可以由具有类似功能的一个或多个其他设备来执行。方法1100包括以下步骤。可以以任何合适的顺序执行这些步骤。

确定S1110使L维输入样本x与输入样本的估计x^估计＝d a之间的第一差度量最小化的平移控制参数p和样本分量d，其中a＝A(p)，并且其中A(p)是针对给定平移控制参数p返回L维平移向量a的第一预设映射函数。如上文已经更详细讨论的，第一预设映射函数A()可以根据预先建立的查找表或根据传达关于如何根据上下文预设映射函数A()的信息的预定义规则来预设。如上文已经更详细讨论的，第一差度量可以使用目标成本函数来确定。例如，目标成本函数可以被定义为加权平方差。

生成S1120 K维原始输出样本y^原始＝d s，其中s＝S(p)，并且其中S(p)是针对给定平移控制参数p返回K维平移向量s的第二预设映射函数。如上文已经更详细讨论的，第二预设映射函数S()可以根据预先建立的传达关于如何根据上下文设置预设映射函数S()的信息的查找表来预设。

通过求解使K维原始输出样本y^原始与解码的输入样本x M之间的第二差度量最小化的优化问题来确定S1130解码L×K矩阵M。如上文已经更详细讨论的，优化问题可以被设置为使样本加权差度量最小化，其中样本权重包括来自其他L维输入样本的贡献。如上文已经更详细讨论的，第二差度量可以使用目标成本函数来确定。例如，目标成本函数可以被定义为加权平方差。

方法1100可以进一步包括将传入的L维声道音频划分为多个频带N的步骤，其中为每个此种频带N确定解码L×K矩阵。上文已经更详细地讨论了将传入的L维声道音频划分为多个频带N。

该方法可以进一步包括基于新的L维输入样本x_i随时间动态更新解码L×K矩阵的步骤，其中i表示第i个输入样本。上文已经更详细地讨论了解码L×K矩阵随时间的动态更新。

该方法可以进一步包括将L维输入样本x从时域变换到另一个域的步骤。执行步骤S1110、S1120和1130然后优选地在另一个域中执行。如上文所讨论的，另一个域可以是频域或组合的时/频域。

结合图12，将讨论用于将传入的L维声道音频解码为传出的K维声道音频的方法1200，其中L≥2且K≥1。该方法可以是计算机实施的，即该方法的步骤或不同表达的功能模块优选地由处理器执行。然而，正如上文所讨论的，该方法的一个或多个步骤/功能模块可以以硬件实施。方法1200的全部步骤中的一些可以由上述ASD执行。然而，同样认识到，方法1200的步骤中的一些或全部可以由具有类似功能的一个或多个其他设备来执行。方法1200包括以下步骤。可以以任何合适的顺序执行这些步骤。

确定S1210一个或多个解码L×K矩阵。如上文所讨论的那样、尤其是如结合图11所讨论的方法所讨论的那样来确定该一个或多个解码L×K矩阵。

使用该一个或多个解码L×K矩阵将传入的L维声道音频解码S1220为传出的K维声道音频。

方法1200可以进一步包括将L维输入样本x从时域变换S1205到另一个域。如上文更详细讨论的，另一个域可以是频域或组合的时/频域。当在另一个域中时，执行确定S1210一个或多个解码L×K矩阵并且使用该一个或多个解码L×K矩阵将传入的L维声道音频解码S1220为传出的K维声道音频的步骤。

方法1200可以进一步包括将传出的K维声道音频变换S1225回时域。

上述实施例仅作为示例给出，并且应当理解，所提出的技术不限于此。本领域技术人员将理解，在不脱离所附权利要求限定的本范围的情况下，可以对实施例进行各种修改、组合和改变。具体地，在技术上可能的情况下，可以将不同实施例中的不同部分解决方案在其他配置中组合。

Claims

1.一种用于确定解码L×K矩阵的计算机实施的方法，该解码L×K矩阵用于将传入的L维声道音频解码为传出的K维声道音频，其中L≥2且K≥1，该方法包括以下步骤：

a)确定使L维输入样本x与该输入样本的估计x^估计＝da之间的第一差度量最小化的平移控制参数p和样本分量d，其中a＝A(p)，并且其中A(p)是针对给定平移控制参数p返回L维平移向量a的第一预设映射函数；

b)生成K维原始输出样本y^原始＝ds，其中s＝S(p)，并且其中S(p)是针对给定平移控制参数p返回K维平移向量s的第二预设映射函数；

c)通过求解使该K维原始输出样本y^原始与解码的输入样本xM之间的第二差度量最小化的优化问题来确定解码L×K矩阵M。

2.根据权利要求1所述的方法，其中，该优化问题被设置为使样本加权差度量最小化，其中，样本权重包括来自其他L维输入样本的贡献。

3.根据权利要求1或2所述的方法，其中，该第一预设映射函数A()是根据预先建立的查找表或根据传达关于如何根据上下文预设映射函数A()的信息的预定义规则来预设的。

4.根据权利要求1至3中任一项所述的方法，其中，该第二预设映射函数S()是根据预先建立的传达关于如何根据上下文设置预设映射函数S()的信息的查找表来预设的。

5.根据权利要求1至4中任一项所述的方法，其中，该第一差度量和/或该第二差度量是使用目标成本函数来确定的。

6.根据权利要求5所述的方法，其中，该目标成本函数被定义为加权平方差。

7.根据权利要求1至6中任一项所述的方法，进一步包括将该传入的L维声道音频划分为多个频带N的步骤，其中为每个此种频带N确定解码L×K矩阵。

8.根据权利要求1至7中任一项所述的方法，进一步包括基于新的L维输入样本x_i随时间动态更新该解码L×K矩阵的步骤，其中i表示第i个输入样本。

9.根据权利要求1至7中任一项所述的方法，进一步包括将该L维输入样本x从时域变换到另一个域的步骤，并且在该另一个域中执行步骤a)到c)。

10.根据权利要求9所述的方法，其中，该另一个域是频域或组合的时/频域。

11.一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质上存储有指令，所述指令在具有处理能力的设备上执行时实施根据权利要求1至10中任一项所述的方法。

12.一种用于将传入的L维声道音频解码为传出的K维声道音频的计算机实施的方法，其中L≥2且K≥1，该方法包括以下步骤：

确定一个或多个根据权利要求1至8中任一项所述的解码L×K矩阵；以及

使用该一个或多个解码L×K矩阵将传入的L维声道音频解码为传出的K维声道音频。

13.根据权利要求12所述的方法，进一步包括以下步骤：

将该L维输入样本x从时域变换到另一个域；

当在该另一个域中时：

确定该一个或多个根据权利要求1至8中任一项所述的解码L×K矩阵，

使用该一个或多个解码L×K矩阵将该传入的L维声道音频解码为传出的K维声道音频；以及

将该传出的K维声道音频变换回时域。

14.一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质上存储有指令，所述指令在具有处理能力的设备上执行时实施根据权利要求12或13所述的方法。

15.一种自适应空间解码器ASD，被配置为将传入的L维声道音频解码为传出的K维声道音频，其中L≥2且K≥1，该ASD包括多个功能模块，每个功能模块专用于执行根据权利要求12或13所述的方法中的对应步骤，其中，每个单独的模块被实施为硬件模块、软件模块或其组合。