CN103765507B

CN103765507B - 最佳混合矩阵与在空间音频处理中去相关器的使用

Info

Publication number: CN103765507B
Application number: CN201280040135.XA
Authority: CN
Inventors: 尤哈·维尔卡莫; 汤姆·贝克斯特伦; 法比安·库奇; 阿希姆·昆茨
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2011-08-17
Filing date: 2012-08-14
Publication date: 2016-01-20
Anticipated expiration: 2032-08-14
Also published as: PL2617031T3; EP2560161A1; CN103765507A; US20140233762A1; US10748516B2; EP2617031A1; US20200372884A1; US20190251938A1; HK1187731A1; AU2012296895B2; CA2843820A1; KR20140047731A; BR112014003663A2; WO2013024085A1; TWI489447B; CA2843820C; JP5846460B2; RU2014110030A; AU2012296895A1; BR112014003663B1

Abstract

提供一种用于由具有两个或多个音频输入信道的音频输入信号产生具有两个或多个音频输出信道的音频输出信号的装置。该装置包括提供器（110）及信号处理器（120）。该提供器（110）适于提供该音频输入信号的第一协方差性质。该信号处理器（120）适于通过对两个或多个音频输入信道中的至少两个施加混合规则来产生该音频输出信号。该信号处理器（120）被配置成基于该音频输入信号的第一协方差性质及基于该音频输出信号的第二协方差性质来确定混合规则，第二协方差性质与第一协方差性质不同。

Description

最佳混合矩阵与在空间音频处理中去相关器的使用

技术领域

本发明有关于音频信号处理，且特别是，有关于利用最佳混合矩阵的装置及方法，此外，还关于在空间音频处理中使用去相关器。

背景技术

音频处理变得越来越重要。在空间音频的感知处理中，典型的假设是由扬声器再现的声音的空间方面特别是由感知频带中的音频信道之间的能量及时间校准相依性来决定。这建立在当这些特征透过扬声器再现时转换成空间感知的双耳线索：双耳音强差、双耳时间差及双耳一致性的观念之上。出于这一构想已有各种不同的空间处理方法出现，包括上混（upmixing），请参见：

[1]C.Faller,“Multiple-LoudspeakerPlaybackofStereoSignals”,JournaloftheAudioEngineeringSociety,Vol.54,No.11,pp.1051-1064,June2006,

空间微动杂音，请参见，例如，

[2]V.Pulkki,“SpatialSoundReproductionwithDirectionalAudioCoding”,JournaloftheAudioEngineeringSociety,Vol.55,No.6,pp.503-516,June2007;及

[3]C.Tournery,C.Faller,F.Küch,J.Herre,“ConvertingStereoMicrophoneSignalsDirectlytoMPEGSurround”,128thAESConvention,May2010;

及高效率的立体声及多信道传输，请参见，例如，

[4]J.Breebaart,S.vandePar,A.KohlrauschandE.Schuijers,“ParametricCodingofStereoAudio”,EURASIPJournalonAppliedSignalProcessing,Vol.2005,No.9,pp.1305-1322,2005;及

[5]J.Herre,K.J.Breebaart,C.Faller,S.Disch,H.Purnhagen,J.Koppens,J.Hilpert,J.W.Oomen,K.LinzmeierandK.S.Chong,“MPEGSurround–TheISO/MPEGStandardforEfficientandCompatibleMultichannelAudioCoding”,JournaloftheAudioEngineeringSociety,Vol.56,No.11,pp.932-955,November2008.

听力测试已经证实构想在每一应用中的优势，请参见，例如，[1,4,5]及，例如，

[6]J.Vilkamo,V.Pulkki,“DirectionalAudioCoding:VirtualMicrophone-BasedSynthesisandSubjectiveEvaluation”,JournaloftheAudioEngineeringSociety,Vol.57,No.9,pp.709-724,September2009。

尽管应用不同，所有这些技术都有相同的核心任务，那就是由一组输入信道产生能量及相依性被定义成时间与频率的函数的一组输出信道，这可以被假定为感知空间音频处理中的共同的基本任务。例如，在定向音频编码（DirAC）的背景下，请参见，例如，[2]，源信道通常是一阶麦克风信号，它们经由混合、幅度平移及去相关处理而在感知上近似量测声场。在上混（参见[1]）中，同样是时间与频率的函数的立体声输入信道适应地分配给环绕声设置。

发明内容

本发明的一个目标在于提供用于从一组输入信道产生一组具有定义性质的输出信道的改进构想。本发明的目的由根据权利要求1所述的装置，由根据权利要求25所述的方法及根据权利要求26所述的计算机程序来解决。

提供一种用于从具有两个或多个音频输入信道的音频输入信号产生具有两个或多个音频输出信道的音频输出信号的装置。该装置包括提供器及信号处理器。该提供器适于提供该音频输入信号的第一协方差（covariance）性质。该信号处理器适于通过对两个或多个音频输入信道中的至少两个施加混合规则来产生音频输出信号。该信号处理器被配置成基于音频输入信号的第一协方差性质及基于音频输出信号的第二协方差性质来确定混合规则，第二协方差性质不同于第一协方差性质。

例如，信道能量及时间校准相依性可通过，例如感知频带中的信号协方差矩阵的实部来表示。在下文中，提出对在此域中处理空间声音的一般可适用的构想。该构想包括适应性混合解决方案，以通过输入信道中的独立分量的最佳运用来达成特定的目标协方差性质（第二协方差性质），例如，特定的目标协方差矩阵。在一实施方式中，可提供一种装置，当目标没有达到时，注入必要量的去相关声音能量。此构想的功能强健，且可应用于许多用例。目标协方差性质例如可由使用者来提供。例如，依据一实施方式的装置可具有使得用户可输入协方差性质的装置。

依据一实施方式，该提供器可适于提供第一协方差性质，其中该第一协方差性质对第一时频段具有第一状态，且其中该第一协方差性质对不同于第一时频段的第二时频段具有不同于第一状态的第二状态。该提供器并不一定需要执行分析以获得协方差性质，但是可由储存器、使用者输入或由类似来源提供此数据。

在另一实施方式中，该信号处理器可适于基于第二协方差性质来确定混合规则，其中该第二协方差性质对第三时频段具有第三状态，且其中该第二协方差性质对不同于第三时频段的第四时频段具有不同于第三状态的第四状态。

依据另一实施方式，该信号处理器适于通过应用混合规则来产生音频输出信号，使得两个或多个音频输出信道中的每一个依赖于两个或多个音频输入信道中的每一个。

在另一实施方式中，该信号处理器可适于确定混合规则，使得误差量度被最小化。误差量度可以是，例如参考输出信号与实际输出信号之间的绝对差信号。

在实施方式中，误差量度可以是，例如一取决于下式的量度：

||y_ref–y||²

其中y是音频输出信号，其中

y_ref=Qx，

其中，x指定音频输入信号，且其中Q是映射矩阵，其可能是特定应用，如此y_ref指定参考目标音频输出信号。

依据又一实施方式，该信号处理器可适于确定混合规则，使得

e＝E[||y_ref-y||²]

被最小化，其中E是期望运算符（operator），其中y_ref是定义的参考点，且其中y是音频输出信号。

依据再一实施方式，该信号处理器可被配置成通过确定第二协方差性质来确定混合规则，其中该信号处理器可被配置成基于第一协方差性质来确定第二协方差性质。

依据又一实施方式，该信号处理器可适于确定混合矩阵作为混合规则，其中，该信号处理器可适于基于第一协方差性质及基于第二协方差性质来确定混合矩阵。

在另一实施方式中，该提供器可适于通过确定音频输入信号的第一协方差矩阵来分析第一协方差性质，且其中，该信号处理器可被配置成基于作为第二协方差性质的音频输出信号的第二协方差矩阵来确定混合规则。

依据另一实施方式，该提供器可适于确定第一协方差矩阵，使得第一协方差矩阵的每一对角线值可指示音频输入信道中的一个的能量，且使得第一协方差矩阵的不是一对角线值的每一个值可指示第一音频输入信道与不同的第二音频输入信道之间的信道间相关性。

依据又一实施方式，该信号处理器可被配置成基于第二协方差矩阵来确定混合规则，其中第二协方差矩阵的每一个对角线值可指示音频输出信道中之一的能量，且其中第二协方差矩阵的不是一对角线值的每一个值可指示第一音频输出信道与第二音频输出信道之间的信道间相关性。

依据另一实施方式，该信号处理器可适于确定混合矩阵，使得：

M = K_{y} {PK}_{x}^{- 1}

使得

K_{x} K_{x}^{T} = C_{x}

K_{y} K_{y}^{T} = C_{y}

其中M是混合矩阵，其中C_x是第一协方差矩阵，其中C_y是第二协方差矩阵，其中是第一分解矩阵K_x的第一转置矩阵，其中是第二分解矩阵K_y的第二转置矩阵，其中是第一分解矩阵K_x的反矩阵，且其中P是第一单式（unitary）矩阵。

在又一实施方式中，该信号处理器可适于确定混合矩阵，使得

M = K_{y} {PK}_{x}^{- 1}

其中，

P=VU^T

其中U^T是第二单式矩阵U的第三转置矩阵，其中V是第三单式矩阵，其中

{USV}^{T} = K_{x}^{T} Q^{T} K_{y}

其中Q^T是下混矩阵Q的第四转置矩阵，其中V^T是第三单式矩阵V的第五转置矩阵，且其中S是一对角矩阵。

依据另一实施方式，该信号处理器适于确定混合矩阵作为混合规则，其中该信号处理器适于基于第一协方差性质及基于第二协方差性质来确定混合矩阵，其中该提供器适于通过确定音频输入信号的第一协方差矩阵来提供或分析第一协方差性质，且其中该信号处理器被配置成基于作为第二协方差性质的音频输出信号的第二协方差矩阵来确定混合规则，其中该信号处理器被配置成当对角矩阵S_x的值为零或小于预定阈值时，修改该对角矩阵S_x的至少某些对角线值，使得该等值大于或等于阈值，其中该信号处理器适于基于对角矩阵来确定混合矩阵。然而，该阈值不一定是预定的，而是也可取决于函数。

在又一实施方式中，该信号处理器被配置成修改对角矩阵S_x的至少某些对角线值，其中且其中其中C_x是第一协方差矩阵，其中S_x是对角矩阵，其中U_x是第二矩阵，是第三转置矩阵，且其中是第五矩阵K_x的第四转置矩阵。矩阵V_x及U_x可以是单式矩阵。

依据另一实施方式，该信号处理器适于通过对两个或多个音频输入信道中的至少两个施加混合规则以获得中间信号及通过将残差信号r加入中间信号以获得音频输出信号来产生音频输出信号。

在另一实施方式中，该信号处理器适于基于对角增益矩阵G及中间矩阵来确定混合矩阵，使得其中对角增益矩阵具有以下值：

G (i, i) \sqrt{\frac{C_{y} (i, i)}{{\hat{C}}_{y} (i, i)}}

其中

{\hat{C}}_{y} = \hat{M} C_{x} {\hat{M}}^{T},

其中M’是混合矩阵，其中G是对角增益矩阵，且其中是中间矩阵，其中C_y是第二协方差矩阵，且其中是矩阵的第五转置矩阵。

附图说明

将参照图式来说明本发明的较佳实施方式，其中：

图1示出依据一实施方式，用以由具有两个或多个音频输入信道的音频输入信号产生具有两个或多个音频输出信道的音频输出信号的装置，

图2示出依据实施方式的信号处理器，

图3示出应用向量L及R的线性组合以达成新向量集R’及L’的范例，

图4示出依据另一实施方式的装置的方块图，

图5示出图式，其示出依据一实施方式的立体声重合麦克风信号到MPEG环绕声编码器，

图6示出依据与SAM至MPS编码器的下混ICC/水平校正有关的另一实施方式的装置，

图7示出依据用于小间距麦克风阵列的增强的一实施方式的装置，

图8示出依据另一实施方式，用于立体声或多信道播放中的空间声音质量的盲增强的装置，

图9示出窄扬声器设置的增强，

图10示出基于B格式麦克风信号提供改良定向音频编码渲染的实施方式，

图11示出显示实施方式的数值范例的表1，以及

图12示出列表1，列表1显示依据一实施方式的方法的Matlab实施。

具体实施方式

图1示出依据一实施方式，用以由具有两个或多个音频输入信道的音频输入信号产生具有两个或多个音频输出信道的音频输出信号的装置。该装置包括提供器110及信号处理器120。提供器110适于接收具有两个或多个音频输入信道的音频输入信号。而且，提供器110适于分析音频输入信号的第一协方差性质。此外，提供器110适于将第一协方差性质提供给信号处理器120。再者，信号处理器120适于接收音频输入信号。并且，信号处理器120适于通过在音频输入信号的两个或多个输入信道的至少两个上施加混合规则来产生音频输出信号。信号处理器120被配置成基于音频输入信号的第一协方差性质及基于音频输出信号的第二协方差性质来确定混合规则，第二协方差性质不同于第一协方差性质。

图2示出依据一实施方式的信号处理器。该信号处理器包括最佳混合矩阵公式化单元210及混合单元220。最佳混合矩阵公式化单元210使最佳混合矩阵公式化。为此，最佳混合矩阵公式化单元210使用由例如图1的实施方式的提供器110接收的立体声或多信道频带音频输入信号的第一协方差性质230（例如，输入协方差性质）。此外，最佳混合矩阵公式化单元210基于第二协方差性质240，例如目标协方差矩阵来确定混合矩阵，这可能是取决于应用的。由最佳混合矩阵公式化单元210公式化的最佳混合矩阵可用作信道映像矩阵。然后最佳混合矩阵可被提供给混合单元220。混合单元220对立体声或多信道频带输入应用最佳混合矩阵，以获得音频输出信号的立体声或多信道频带输出。音频输出信号具有期望的第二协方差性质（目标协方差性质）。

为了更详细地说明本发明的实施方式，引入定义。现在，零平均复输入及输出信号x_i（t,f）及y_j（t,f）被定义，其中t是时间索引，其中f是频率索引，其中i是输入信道索引，且其中j是输出信道索引。此外，音频输入信号x及音频输出信号y的信号向量被定义：

\begin{matrix} x_{N_{x}} (t, f) = [\begin{matrix} x_{1} (t, f) \\ x_{2} (t, f) \\ \cdot \\ \cdot \\ \cdot \\ x_{N_{x}} (t, f) \end{matrix}] & y_{N_{y}} (t, f) \end{matrix}= = [\begin{matrix} y_{1} (t, f) \\ y_{2} (t, f) \\ \cdot \\ \cdot \\ \cdot \\ y_{N_{y}} (t, f) \end{matrix}] - - - (1)

其中N_x及N_y是输入及输出信道的总数。此外，N=max（N_y,N_x）且相等维度的零填充信号被定义：

\begin{matrix} x (t, f) = [\begin{matrix} x_{N_{x}} (t, f) \\ 0_{(N - N_{s}) \times 1} \end{matrix}] \\ y (t, f) = [\begin{matrix} y_{N_{y}} (t, f) \\ 0_{(N - N_{y})} \times 1 \end{matrix}] \end{matrix} - - - (2)

零填充信号可在公式化中使用，直到导出的解被延伸到不同的向量长度为止。

如上文已经说明的，用以描述多信道声音的空间方面的广泛使用量度是信道能量与时间校准相依性的组合。这些性质含括在如下定义的协方差矩阵的实部中：

C_x＝E[Re{xx^H]

(3)

C_y＝E[Re{yy^H}]

在方程式（3）中，且在下文中，E[]是期望运算符，Re{}是实部运算符，且x^H及y^H是x及y的共轭转置。期望运算符E[]是一数学运算符。在实际应用中，其被估计，诸如某一时间间隔的平均取代。在以下部分中，使用“协方差矩阵”一词指这种实值定义。C_x及C_y是对称且为半正定的，且因此，实数矩阵K_x及K_y可被定义，使得：

\begin{matrix} C_{x} = K_{x} K_{x}^{T} \\ C_{y} = K_{y} K_{y}^{T} . \end{matrix} - - - (4)

此类分解例如可通过使用丘列斯基分解（CheloskyDecomposition）或特征分解来获得，请参见，例如，

[7]Golub,G.H.andVanLoan,C.F.,“Matrixcomputations”,JohnsHopkinsUnivPress,1996.

应指出的是，存在有无限数目的分解满足方程式（4）。对于任何正交矩阵P_x及P_y，矩阵K_xP_x及K_yP_y也满足条件，因为

\begin{matrix} K_{x} P_{x} {P_{x}}^{T} K_{x}^{T} = K_{x} K_{x}^{T} = C_{x} \\ K_{y} P_{y} {P_{y}}^{T} K_{y}^{T} = K_{y} K_{y}^{T} = C_{y} . \end{matrix} - - - (5)

在使用立体声的情况下，协方差矩阵通常以信道能量及信道间相关性（ICC）形式给出，例如[1,3,4]中所示。C_x的对角线值是信道能量，且两个信道之间的ICC为

{ICC}_{x} = \frac{C_{x} (1,2)}{\sqrt{C_{x} (1,1) C_{x} (2,2)}} - - - (6)

且对于C_y而言，是相应的。括号中的索引表示矩阵列及行。

剩余的定义是应用确定的映像矩阵Q，它包括哪些输入信道将用于组成每一输出信道的信息。利用Q，可定义参考信号

y_ref＝Qx.(7)

映像矩阵Q可包括信道的维度及缩放、组合及重排序的变化。由于信号的零填充定义，Q在此处是N×N的正方形矩阵，它可包括零列或行。Q的某些范例是：

-空间增强：Q=I，在输出应该与输入最相似的应用中。

-下混（downmixing）：Q是下混矩阵。

-一阶麦克风信号的空间合成：Q例如可以是环绕音场麦克风混合

矩阵，这意味着y_ref是一组虚拟麦克风信号。

在下文中，用公式表示如何由信号x产生信号y，限制条件是y具有应用定义的协方差矩阵C_y。应用也定义给出用于优化的参考点的映射矩阵Q。输入信号x具有测量出的协方差矩阵C_x。如上所述，因为使用去相关器典型地包括信号质量，提出的执行此一转换的构想主要是使用一种仅优化混合该等信道的构想，且其次在目标未达成时注入去相关能量。

依据这些构想的输入-输出关系可被写作：

y＝Mx+r(8)

其中M是依据主要构想的实数混合矩阵，且r是依据次要构想的残差信号。

在下文中，提出用于协方差矩阵修改的构想。

首先，依据主要构想的任务通过仅交混输入信道来解决。则方程式（8）简化成

y＝Mx.(9)

由方程式（3）及（9），得到

\begin{matrix} C_{y} = E [Re {{yy}^{H}}] \\ = E [Re {{Mxx}^{H} M^{T}}] = {MC}_{x} M^{T} . \end{matrix} - - - (10)

由方程式（5）及（10）得到

K_{y} P_{y} {P_{y}}^{T} K_{y}^{T} = M K_{x} P_{x} {P_{x}}^{T} K_{x}^{T} M^{T} - - - (11)

由此得到满足方程式（10）的M的一组解

M = K_{y} {P_{y}}^{P_{x}^{T} K_{x}^{- 1}} = K_{y} P^{K_{x}^{- 1}} - - - (12)

这些解的条件是存在。正交矩阵是剩余的自由参数。

在下文中，描述如何找到提供最佳矩阵M的矩阵P。由方程式（12）中的所有M，搜寻一个产生最接近定义参考点y_ref，即，使下式最小化的输出的矩阵

e＝E[||y_ref-y||²](13a)

即，使下式最小化

e＝E［||y_ref-y||²]＝E[||Qx-Mx||²].(13)

现在，信号w被定义，使得E[Re{ww^H}]=I。w可被选择成使得x=K_xw，由于

\begin{matrix} E [Re {{xx}^{H}}] = E [Re {K_{x} {ww}^{H} K_{x}^{T}}] \\ = K_{x} E [Re {{ww}^{H}}] K_{x}^{T} \\ = K_{x} K_{x}^{T} = C_{x} . \end{matrix} - - - (14)

则得到

Mx＝MK_xw＝K_yPw.(15)

方程式（13）可被写作

\begin{matrix} e = E [{| | Qx - Mx | |}^{2}] \\ = E [{| | {QK}_{x} w - K_{y} Pw | |}^{2}] \\ = E [{| | ({QK}_{x} - K_{y} P) w | |}^{2}] \\ = E [w^{H} {(Q K_{x} - K_{y} P)}^{T} ({QK}_{x} - K_{y} P) w] . \end{matrix} - - - (16)

由E[Re{ww^H}]=I，可以容易地对实数对称矩阵A证明E[w^HAw]=tr（A），此即为矩阵迹数（trace）。得到方程式（16）是以下形式：

e＝tr[(QK_x-K_yP)^T(QK_x-K_yP)].(17)

由矩阵迹数，可易于证实

tr(A+B)＝tr(A)+tr(B)

tr(A)＝tr(A^T)

tr(P^TAP)＝tr(A).(18)

使用这些性质，方程式（17）是以下形式

\begin{matrix} e = tr (K_{x}^{T} Q^{T} Q K_{x}) + tr ({K_{y}^{T} K}_{y}) \\ - 2 tr (K_{x}^{T} Q^{T} K_{y} P) . \end{matrix} - - - (19)

只有最后一项视P而定。因此，优化问题是

P = \arg \underset{P}{\min e} = \arg \max_{P} [tr (K_{x}^{T} Q^{T} K_{y} P)] . - - - (20)

可以容易地证明，对于一非负对角矩阵S及任一正交矩阵P_s，

tr(S)≥tr(SP_s).(21)

因此，通过定义奇异值分解其中S是非负且对角线的，且U及V是正交的，则对于任一正交P，得到

\begin{matrix} tr (S) &GreaterEqual; tr ({SV}^{T} PU) = tr ({USV}^{T} {PUU}^{T}) \\ = tr (K_{x}^{T} Q^{T} K_{y} P) \end{matrix} - - - (22)

以下等式成立

借此，此P产生的最大值及方程式（13）中的误差量度的最小值。

依据一实施方式的装置确定最佳混合矩阵M，使得误差e被最小化。应指出的是，音频输入信号及音频输出信号的协方差性质可因不同的时频段（bin）而不同。为此，依据一实施方式的装置的提供器适于分析音频输入信道的协方差性质，对于不同的时频段，它们可能是不同的。此外，依据一实施方式的装置的信号处理器适于基于音频输出信号的第二协方差性质来确定混合规则，例如混合矩阵M，其中，第二协方差性质可能对于不同的时频段具有不同的值。

由于确定的混合矩阵M应用于音频输入信号的每一音频输入信道，且由于每一产生的音频输出信号的音频输出信道因此可以依赖于每一音频输入信道，因此，依据一实施方式的装置的信号处理器适于通过应用混合规则来产生音频输出信号，使得两个或多个音频输出信道中的每一个依赖于音频输入信号的两个或多个音频输入信道中的每一个。

依据另一实施方式，提议当不存在或不稳定时使用去相关。在上述实施方式中，提供一种解决方案来确定一个其中假定存在的最佳混合矩阵。然而，可能并不会总存在或如果x中的某些主要分量非常小，则其反矩阵可能需要非常大的乘数。一种使反矩阵正则化的有效方式是利用奇异值分解因此，反矩阵是

k_{x}^{- 1} = V_{x} S_{x}^{- 1} U_{x}^{T} . - - - (24)

当非负对角矩阵S_x中的某些对角线值为零或非常小时，问题产生。一种使反矩阵稳固正则化（regularization）的构想于是用较大的值来取代这些值。此程序的结果是且对应的反矩阵是且对应的混合矩阵是

\hat{M} = K_{y} P {\hat{K}}_{x}^{- 1} .

该正则化实际上意味着在混合程序内，x中的某些小主要分量的放大已减少，且因此，它们对输出信号y的完整性也减小，且目标协方差C_y大体上并没有达到。

因此，依据一实施方式，信号处理器可被配置成修改对角矩阵S_x的至少某些对角线值，其中对角矩阵S_x的值为零或小于阈值（该阈值可能是预定的或可取决于函数），使得该等值大于或等于该阈值，其中该信号处理器可能适于基于对角矩阵来确定混合矩阵。

依据一实施方式，信号处理器可被配置成修改对角矩阵S_x的至少某些对角线值，其中K_x=U_xS_xV_x ^T，且其中其中C_x是第一协方差矩阵，其中S_x是对角矩阵，其中U_x是第二矩阵，是第三转置矩阵，且其中是第五矩阵K_x的第四转置矩阵。

信号分量的上述损耗可完全用残差信号r来补偿。原始的输入-输出关系将用正则化后的反矩阵来详细描述。

\begin{matrix} y = \hat{M} x + r = K_{y} P {\hat{K}}_{x}^{- 1} x + r \\ = K_{y} P V_{x} {\hat{S}}_{x}^{- 1} U_{x}^{T} x + r \end{matrix} - - - (25)

现在，加性分量c被定义，使得得到而不是除此之外，独立信号w’被定义，使得E[Re{w′w′^H}]＝I且

c = \sqrt{I - {({\hat{S}}_{x}^{- 1} S_{x})}^{2}} w^{'} . - - - (26)

可以容易地证明，信号

\begin{matrix} y^{'} = K_{y} {PV}_{x} ({\hat{S}}_{x}^{- 1} U_{x}^{T} x + c) \\ = \hat{M} x + K_{y} {PV}_{x} c \end{matrix} - - - (27)

具有协方差C_y。用于补偿正则化的残差信号则为

r＝K_yPV_xC.(28)

由方程式（27）及（28）可得到

C_{r} = E [Re {{rr}^{H}}] = C_{y} - \hat{M} C_{x} {\hat{M}}^{T} . - - - (29)

由于c已经被定义为随机信号，则得出r的相关性质是其协方差矩阵。因此，与被处理成具有协方差C_r的x无关的任一信号使用作为在利用所述正则化的情况下理想化地重组目标协方差矩阵C_y的一残差信号。此残差信号使用去相关器及提出的信道混合方法可容易地被产生。

解析找到去相关能量的量与小信号分量放大之间的最佳平衡并不是简单的。这是因为它取决于特定应用因素，诸如输入信号的统计性质的稳定性、应用的输入信号分析窗口及输入信号的SNR。然而，调整启发式（heuristic）函数来完成此一平衡是相当简单而没有明显缺点的，它在下文所提供的示范编码中完成。

据此，依据一实施方式的装置的信号处理器可适于通过对两个或多个音频输入信号中的至少两个施加混合规则以获得中间信号并通过向中间信号中加入残差信号r以获得音频输出信号来产生音频输出信号。

已经证明，当K_x的反矩阵正则化被应用时，整体输出中遗漏的信号分量可用具有协方差C_r的残差信号r完全补充。通过这些手段，可保证目标协方差C_y一直都能实现。在下文中，提出一种产生对应的残差信号r的方式。它包括以下步骤：

1.产生与输出信道数量相同的一组信号。信号y_ref=Qx可被利用，因为它具有与输出信号同样数量的信道，且每一输出信号包括对该特定信道适合的信号。

2.将此信号去相关。有许多去相关的方式，包括全通滤波器、突发噪声的卷积运算及频域中的伪随机延迟。

3.量测（或假定）去相关信号的协方差矩阵。量测是最简单且最稳固的，但是由于信号来自去相关器，可假定它们是非相干的。于是，仅能量测量将是足够的。

4.应用提出的方法来产生混合矩阵，当应用于去相关信号时，产生具有协方差矩阵C_r的输出信号。此处使用一映射矩阵Q=I，因为希望最低限度地影响信号内容。

5.利用此混合矩阵来处理来自去相关器的信号，并将其馈送至输出信号，以补充信号分量的缺失。由此达到目标C_y。

在可选实施方式中，去相关信道在公式表示最佳混合矩阵之前被附加至（至少一个）输入信号。在此情况下，输入及输出是同一维度，且假定输入信号的独立信号分量与输入信道数量相同，则无需利用残差信号r。当去相关器以此方式来使用时，去相关器的使用对提出的构想是“无形的”，因为去相关信道是与其他相同的输入信道。

如果使用去相关器是不符期望的，至少目标信道能量可通过乘算的列来实现，使得

M^{'} = G \hat{M} - - - (30)

其中，G是具有以下值的对角增益矩阵：

G (i, i) = \sqrt{\frac{C_{y} (i, i)}{{\hat{C}}_{y} (i, i)}} - - - (31)

其中

{\hat{C}}_{Y} = \hat{M} C_{x} {\hat{M}}^{T} .

在许多应用中，输入及输出信道的数目是不同的。如方程式（2）中所述，对具有较小维度的信号应用零填充，以使其与具有较高维度的信号具有相同的维度。零填充意味因所产生的M中的某些列或行对应于具有定义零能量的信道的计算成本。在数学上，等效于首先使用零填充且最终将M裁剪成相应的N_y×N_x维，通过引入本身是补零成N_y×N_x维的单位（identity）矩阵的矩阵Λ可减少成本，例如，

A_{3 \times 2} = [\begin{matrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{matrix}] . - - - (32)

当P被重定义成使得

P=VΛU^T（33）

时，所产生的M是N_y×N_x混合矩阵，它与零填充情况的M的相关部分是相同的。因此，C_x、C_y、K_x及K_y可以是它们的自然维度且映射矩阵Q是N_y×N_x维。

输入协方差矩阵总是可分解为因为它是实际信号的半正定（positivesemi-definite）量度。然而，可以定义因为它们表示不可能信道的相依性而不能分解的此种目标协方差矩阵。存有确保可分解性，诸如将负特征值调整成零并将能量正规化的构想，参见，例如，

[8]R.Rebonato,P.“Themostgeneralmethodologytocreateavalidcorrelationmatrixforriskmanagementandoptionpricingpurposes”,JournalofRisk,Vol.2,No.2,pp.17-28,2000.

然而，提出的构想的最有意义的使用是仅要求可能的协方差矩阵。

综上所述，常见的任务可重新表述如下。首先，得到具有某协方差矩阵的输入信号。其次，应用定义两个参数：目标协方差矩阵和规则，哪些输入信道将用于组成每一个输出信道。对于执行此变换，提议使用以下构想：如图2中所示，主要构想是目标协方差通过使用输入信道的最佳混合的解决方案来实现。此构想被视为是主要构想的原因在于其避免使用去相关器，使用去相关器通常损害信号质量。当没有足够具有合理能量的独立分量可用时，次要构想发生。去相关能量被注入以补偿这些分量的欠缺。这两个构想一同提供在任一特定情况下用以执行稳固的协方差矩阵调整的手段。

提出构想的主要预期应用是在空间微动杂音[2,3]的领域，即与信号协方差有关的问题因为定向麦克风的实体限制而表现得特别明显的领域。其他预期用例包括立体声及多信道增强、氛围提取、上混及下混。

在上述说明中，定义已经给出，之后是导出该提出的构想。首先，交混解决方案已被提供，其次注入相关声音能量的构想已经提出。之后，利用不同数目的输入与输出信道的构想说明已被提供，且同时考虑到协方差矩阵的可分解性。在下文中，提供实际用例，且提出一组数值范例及结论。此外，还提供依据此文件的一具有完整功能的示范Matlab码。

立体声或多信道声音的感知空间特征主要由频带中的信号的协方差矩阵来定义。已经提供一种构想用以最佳地且自适应地交混具有特定协方差性质的一组输入信道与具有任意可定义的协方差性质的一组输出信道。已经提供的另一构想是仅在必要时，即在合理能量的独立声音分量不可利用时注入去相关能量。该构想在空间音频信号处理的领域中有各种各样的应用。

信道能量及多信道信号的信道间相依性（或协方差矩阵）可通过依赖输入特征及所欲的目标特征仅线性地且随时间变化地交混该等信道而被控制。此构想可用表示信号的因子来说明，向量之间的角相当于信道相依性，且向量的幅度等于信号水平。

图3示出用以对向量L及R施加线性组合以实现新向量集R’及L’的范例。同样地，音频信道水平及它们的相依性可用线性组合来修改。一般的解决方案并不包括向量而是对任一信道数而言最佳的矩阵公式表示。

从图3中可以看出，立体声信号的混合矩阵也可以容易地用三角学方法以公式表示。结果与用矩阵数学者相同，但公式是不同的。

如果输入信道是高度依赖性的，只有在使用去相关器下才可能实现目标协方差矩阵。仅在必要时，例如，最佳时引入去相关器的程序也已被提供。

图4示出应用混合技术的一实施方式的装置的方块图。该装置包括协方差矩阵分析模块410，及信号处理器（图未示），其中该信号处理器包括混合矩阵公式模块420及混合矩阵施加模块430。立体声或多信道频带输入的输入协方差性质是以协方差矩阵分析模块410来分析。协方差矩阵分析的结果被馈入混合矩阵公式模块420。

混合矩阵公式模块420根据目标协方差矩阵，且亦可能根据误差标准而基于协方差矩阵分析的结果来公式表示混合矩阵。

混合矩阵公式模块420将混合矩阵馈入混合矩阵施加模块430。混合矩阵施加模块430将混合矩阵应用在立体声或多信道频带输入上，以获得立体声或多信道频带输出，该立体声或多信道频带输出例如具有依赖于目标协方差矩阵的预定义目标协方差性质。

综上所述，该构想的一般目的是在声音质量方面极度最佳的性质来增强、固定及/或合成空间声音。目标，例如第二协方差性质，是由应用来定义。

该构想也可在全频带中应用，是在感知上有意义的，特别是在频带处理中。

去相关器被使用来改良（降低）信道间相关性。它们可达成该目的但是易损害总体声音质量，尤其是在有瞬态声音分量的情况下。

提出的构想避免使用去相关器，或在某些应用中，最小程度地使用去相关器。结果是相同的空间特征，但是并没有这样的声音质量减损。

在其他用法中，该技术可在SAM至MPS编码器中使用。

提出的构想已被实施以改良由来自一阶立体声重合麦克风的信号产生MPEG环绕声比特流（MPEG=MovingPictureExpertsGroup（动态影像专家组））的麦克风技术，参见，例如[3]。程序包括由立体声信号估计频带中声场的方向及扩散，及产生此MPEG环绕声比特流，当此MPEG环绕声比特流在接收器端解碼时，产生感知近似于原始声场的声场。

在图5中，示出图式，其示出依据一实施方式，立体声重合麦克风信号达到MPEG环绕声编码器，其利用提出的构想，由特定的麦克风信号来产生MPEG环绕声下混信号。所有处理都在频带中执行。

空间数据确定模块520适于根据依赖声场模型510的方向及扩散信息，以公式表示包括空间环绕声数据及下混ICC及/或水平的配置信息数据。声场模型本身以对立体声麦克风信号的麦克风ICC及水平的分析为基础。接着，空间数据确定模块520提供目标下混ICC及水平给混合矩阵公式模块530。此外，空间数据确定模块520可适于以公式表示空间环绕声数据及下混ICC及水平当作MPEG环绕声空间旁侧信息。混合矩阵公式模块530接着基于所提供的配置信息数据，例如，目标下混ICC及水平，以公式表示混合矩阵，并将矩阵馈入混合模块540。混合模块540将混合矩阵应用在立体声麦克风信号上。由此，产生具有目标ICC及水平的信号。具有目标ICC及水平的信号接着被提供给核心编码器550。在一实施方式中，模块520、530及540是信号处理器的子模块。

在由依据图5的装置所实施的程序内，MPEG环绕立体声下混必须产生。这包括需要在对声音质量有最小影响下调整特定立体声信号的水平及ICC。提出的交混构想为了实现此目的被应用，且[3]中的先前技术的感知优势是可观察到的。

图6示出依据与SAM至MPS编码器的下混ICC/水平校正有关的另一实施方式的一装置。ICC及水平分析在模块602中实施，且声场模型610依赖于模块602的ICC及水平分析。模块620对应于图5中的模块520，模块630对应于图5中的模块530，且模块640对应于图5中的模块540。这同样适用于核心编码器650，它对应于图5的核心编码器550。上述构想可纳入SAM至MPS编码器，以由麦克风信号产生具有完全正确的ICC及水平的MPS下混。上述构想也可适用在毋需MPS的直接SAM至多信道渲染，以提供理想的空间合成，同时将去相关器的使用量最小化。

预计在有关源距离、源定位、稳定性、聆听舒适度及包围感上有所改进。

图7示出依据一实施方式的装置用以增强小间距麦克风阵列。模块705适于对麦克风输入信号实施协方差矩阵分析，以获得麦克风协方差矩阵。麦克风协方差矩阵被馈入混合矩阵公式模块730。此外，麦克风协方差矩阵用以导出声场模型710。声场模型710可以是以协方差矩阵以外的其他源为基础。

基于声场模型的方向及扩散信息接着被馈入目标协方差矩阵公式模块720，用以产生目标协方差矩阵。目标协方差矩阵公式模块720接着将所产生的目标协方差矩阵馈入混合矩阵公式模块730。

混合矩阵公式模块730适于产生混合矩阵，并将所产生的混合矩阵馈入混合矩阵施加模块740。混合矩阵施加模块740适于将混合矩阵应用在麦克风输入信号上，以获得具有目标协方差性质的麦克风输出信号。在一实施方式中，模块720、730及740是信号处理器的子模块。

该装置遵循DirAC及SAM中的构想，那就是估计原始声场的方向及扩散，及产生最佳重现估计方向及扩散的输出。此信号处理程序需要大协方差矩阵调整，以提供正确的空间影像。提出的构想是对此的解决方案。通过提出的构想，源距离、源定位，及/或源分离、聆听舒适度及/或包围感。

图8示出一范例，该范例显示立体声或多信道播放中的空间声音质量的盲增强的一实施方式。在模块805中，实施协方差矩阵分析，例如，立体声或多信道内容的ICC或水平分析。接着，增强规则应用于增强模块815，例如，以从输入ICC获得输出ICC。混合矩阵公式模块830基于由模块805实施的协方差矩阵分析，并基于由应用在增强模块815中实施的增强规则所导出的信息而产生混合矩阵。混合矩阵然后在模块840中被应用于立体声或多信道内容上，以获得具有目标协方差性质的调整立体声或多信道内容。

关于多信道声音，例如混音或录音，在空间声音中找到感知次最适性，特别是就过高的ICC而言，是相当常见的。典型的结果是有关宽度、包围感、距离、源分离、源定位及/或源稳定性及聆听舒适度的质量降低。已经非正式地测试，该构想能够改进这些具有ICC不必要地高的项目的性质。观察的改良有宽度、源距离、源定位/分离、包围感及听力舒适度。

图9示出关于窄扬声器设置（例如，平板装置、TV）的增强的另一实施方式。提出的构想可能对于作为一种用以改良扬声器角过窄（例如，平板装置）的播放设置中的立体声质量的工具是有利的。提出的构想将提供：

-再平移特定弧内的源以匹配较宽的扬声器设置

-增加ICC以更佳地匹配较宽的扬声器设置

-提供执行串音消除的较佳起点，例如，仅在没有直接产生所欲双

耳线索的方式时使用串音消除。

预计在有关宽度及有关正规的串音消除、声音质量及稳固性上有改进。

在图10中所示的另一应用范例中，示出一实施方式，该实施方式提供基于B格式麦克风信号的最佳定向音频编码（DirAC）渲染。

图10的实施方式基于以下发现：基于重合麦克风信号的最先进DirAC渲染单元以不必要的程度运用去相关，因此损害音频质量。例如，若声场被分析为是扩散的，则全相关应用于所有信道，即便是在水平声场（W,X,Y）情况下，B格式已经提供三个非相干声音分量。该效果除了当扩散为零时之外以不同程度存在。

此外，上述使用虚拟麦克风的系统并不保证正确的输出协方差矩阵（水平及信道相关），因为虚拟麦克风依赖于源角、扬声器定位及声场扩散而不同地实现声音。

提出的构想解决这两个问题。存在两种可选择方案：提供去相关信道作为额外的输入信道（如同在下图中）；或使用去相关器混合构想。

在图10中，模块1005实施协方差矩阵分析。当以公式表示目标协方差矩阵时，目标协方差矩阵公式模块1018不仅计入声场模型，而且也计入扬声器配置。此外，混合矩阵公式模块1030不仅基于协方差矩阵分析及目标协方差矩阵，而且基于优化标准，例如，由模块1032提供的B格式至虚拟麦克风混合矩阵而产生混合矩阵。声场模型1010可对应于图7的声场模型710。混合矩阵施加模块1040可对应于图7的混合矩阵施加模块740。

在另一应用范例中，提供实施方式用于信道转换方法，例如下混中的空间调整。信道转换，例如，由22.2音频轨道实现自动5.1下混包括破坏信道。这可包括空间影像的损耗或改变，而这可利用提出的构想来处理。再者，存在两种可选择方案：第一个在具有较高数目的信道域中利用该构想但定义较低数目的遗漏信道为零能量信道；另一个对不同的信道数目直接以公式表示矩阵解。

图11示出表1，其提供上述构想的数值范例。当具有协方差C_x的信号利用混合矩阵M来处理并以具有C_r的可能的残差信号补充时，输出信号具有协方差C_y。尽管这些数值范例是静态的，提出方法的典型用例是动态的。假定信道顺序为L、R、C、Ls、Rs、（Lr,Rr）。

表1显示一组数值范例，说明提出构想在某些预期用例中的特性。矩阵用列表1中所提供的Matlab码以公式表示。列表1被示出于图12中。

图12的列表1示出提出构想的Matlab实施。Matlab码用在数值范例中，并提供提出构想的一般功能。

虽然该等矩阵被示出为静态的，但在典型应用中，它们在时间及频率上不同。若具有协方差C_x的信号以混合矩阵M来处理并以具有C_r的可能残差信号来完成，输出信号具有定义的协方差C_y，则定义上满足设计标准。

表的第一及第二行说明通过使信号去相关的立体声增强的用例。在第一行中，两个信道之间有小但合理的非相干分量，且因此，完全非相干的输出仅利用信道混合来实现。在第二行中，输入相关性非常高，例如，较小的主分量非常小。以极端程度将其放大是不合宜的，且因此，内建限制器开始需要注入相关能量，例如，C_r现在为非零值。

第三行显示立体声至5.0上混的情况。在此范例中，目标协方差矩阵被设定成使得立体声混音的非相干分量被相等且非相干地分配给旁侧及后扬声器，且相干分量处于中央扬声器位置。由于信号维度增加，所以残差信号再次是非零的。

第四行显示简单的5.0至7.0上混的一例，其中原始的两个后向信道被非相干地上混至四个新的后向信道。此范例说明处理集中于需要调整的那些信道。

第五行示出将5.0信号下混至立体声的一例。被动下混，诸如应用静态下混矩阵Q，将会放大相干分量优先于非相干分量。此处，目标协方差矩阵被定义成保存能量，这由所产生的M来实现。

第六及第七行说明重合空间微动杂音的用例。输入协方差矩阵C_x是令理想的一阶重合麦克风处于理想的扩散场位置的结果。在第六行中，麦克风之间的角度是相同的，且在第七行中，麦克风面向5.0设置的标准角。在这两种情况下，C_x的大非对角线值说明被动一阶重合麦克风技术在理想情况下的固有缺点，最好地表示扩散场的协方差矩阵是对角线的，且因此被设定为目标。在这两种情况下，产生的相关能量与总能量之比正好为2/5。这是因为在一阶水平重合麦克风信号中有三个独立的信号分量可用，且要增加两个信号分量以达到五信道对角线目标协方差矩阵。

立体声及多信道播放中的空间感知已经被确认为特别取决于感知相关频带中的信号协方差矩阵。

已经提出通过最佳交混该等信道来控制信号的协方差矩阵的构想。用以在当不具备合理能量的足够独立信号分量的情况下所必要时注入去相关能量的手段已被提出。

已经发现该构想在其目的上是强健的，且已经确认有各种不同的可能应用。

在下文中，提出如何基于C_x产生C_y的实施方式。作为第一范例，立体声至5.0上混被考虑。关于立体声至5.0上混，在上混中，C_x是一2x2的矩阵，且C_y是5x5的矩阵（在此范例中，重低音信道不被考虑）。在每一时频瓦片（tile）中基于C_x产生C_y的步骤，在上混的情况下例如可以是如同下列：

1.估计左及右信道中的环音声及直达声能量。环音声的特征在于信道之间的非相干分量，其在两个信道中具有相同能量。当环音声能量部分从总能量，例如相干能量分量中除去时，直达声能量是余部，可能在左及右信道中具有不同能量。

2.估计直接分量的角度。这通过相反地使用幅度平移法则来完成。直接分量中有幅度平移比，且前扬声器之间只有一个角与之对应。

3.产生5×5零矩阵作为C_y。

4.使直达声能量的数量处于对应于分析方向的两个最近扬声器的C_y的对角线位置。这些扬声器之间的能量分配可通过幅度平移法则而获得。幅度平移是相干的，所以将两个信道能量的乘积的平方根增至对应的非对角线。

5.将相当于环绕声分量的能量的能量的量增至对应于信道L、R、Ls及Rs的C_y的对角线。均等分布是个好选择。现在得到目标C_y。

作为另一范例，增强被考虑。目的在于通过将信道间相干向零调整来增加感知质量，诸如宽度或包围感。此处，提出两个不同的范例，以两种方式执行增强。对于第一种方式，选择立体声增强的用例，所以Cx及Cy是2x2的矩阵。步骤如下：

1.以公式表示ICC，例如使用所提供的公式（正规化协方差值在-1与1之间）。

2.用函数来调整ICC。例如，ICC_new=sign（ICC）*ICC²。这是一个相当小的调整。或ICC_new=sign（ICC）*max（0,abs（ICC）*10-9）。这是一个较大的调整。

3.以公式表示C_y，使得对角线值与C_x中相同，但是非对角线值用ICC_new以公式表示，公式与步骤1中的公式相同但相反。

在上述情况下，并不需要残差信号，因为ICC调整被设计成使得系统并不需要小信号分量的大幅放大。

此用例中第二种实施该方法的方式如下。得到N信道输入信号，所以C_x及C_y是NxN矩阵。

1.仅通过将C_y中的对角线值设定成与C_x中相同，并将非对角线值设定成零而由C_x公式表示C_y。

2.在提出方法中启用增益补偿方法而非使用残差。K_x的反矩阵的正则化负责处理使系统是稳定的。增益补偿负责处理使能量被保存。

上述两种实现增强的方式提供相似的结果。后者更易于在多信道用例中实施。

最后，作为第三范例，直接/扩散性模型，例如定向音频编码（DirAC）是被考虑的DirAC，且还有空间音频麦克风（SAM），提供对具有参数方向及扩散的声场诠释。方向是直达声分量的到达角。扩散是介于0与1之间的值，该值提供总声音能量中有多少量扩散的信息，例如，假定从各个方向非相干地到达。这是声场的近似，但是当应用于感知频带时，提供声场的感知良好表现。已知的声场方向、扩散及总能量呈现在时频瓦片中。这些是使用麦克风协方差矩阵C_x中的信息以公式表示。得到N信道扬声器设置。产生C_y的步骤与上混相似，如下文：

1.产生NxN零矩阵作为C_y。

2.使直达声能量的数量，即（1-diffuseness）*总能量处于对应于分析方向的两个最近扬声器的C_y的对角线位置。这些扬声器之间的能量分配可通过幅度平移法则而获得。幅度平移是相干的，故将两个信道能量的乘积的平方根增至对应的非对角线。

3.将扩散能量的数量，即diffuseness*总能量分配到C_y的对角线。分配完成可使得例如更多能量被分配到扬声器稀少的那些方向。现在得到目标C_y。

虽然某些层面已就装置被描述，但很显然的是，这些层面也表示对应方法的说明，其中方块或装置对应于方法步骤或方法步骤的特征。类似地，就方法步骤而描述的层面也表示对应装置的对应方块或项目或特征的说明。

视某些实施要求而定，本发明实施方式可以硬件或以软件来实施。该实施可使用数字储存媒体来执行，例如其上储存有电子可读取控制信号的软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH内存，该等电子可读取控制信号与可程序计算机系统协作（或能够与之协作），使得各别方法得以执行。

依据本发明的某些实施方式包括具有电子可读取控制信号的数据载体，该等电子可读取控制信号能够与可程序计算机系统协作，使得本文所述诸方法中的一个得以执行。

一般而言，本发明实施方式可被实施为具有程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，该程序代码可作用以执行该等方法中的一个。该程序代码例如可储存在机器可读取载体上。

其他实施方式包括储存在机器可读取载体或非瞬时储存媒体上，用以执行本文所述诸方法中的一个的计算机程序。

因此，换言之，本发明方法的实施方式是具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码用以执行本文所述诸方法中的一个。

因此，本发明方法的另一实施方式是数据载体（或数字储存媒体，或计算机可读取媒体），包括记录在其上的用以执行本文所述诸方法中之一的计算机程序。

因此，本发明方法的又一实施方式是代表用以执行本文所述诸方法中之一的计算机程序的数据流或序列信号。该数据流或序列信号例如可以被配置成经由数据通讯连接，例如经由因特网来传送。

另一实施方式包括处理装置，例如计算机，或可程序逻辑装置，其被配置成或适应于执行本文所述诸方法中的一个。

另一实施方式包括其上安装有用以执行本文所述诸方法中之一的计算机程序的计算机。

在某些实施方式中，可程序逻辑装置（例如现场可程序门阵列）可用以执行本文所述方法的某些或全部功能。在某些实施方式中，现场可程序门阵列可与微处理器协作以执行本文所述诸方法中之一。一般而言，该等方法较佳地由任一硬件装置来执行。

上述实施方式仅说明本发明的原理。应理解的是，本文所述的配置的修改及变化及细节对本领域技术人员将是显而易见的。因此，意图仅受后附权利要求的范围的限制而不受经由说明及解释本文实施方式而提出的特定细节的限制。

文献：

[1]C.Faller,“Multiple-LoudspeakerPlaybackofStereoSignals”,JournaloftheAudioEngineeringSociety,Vol.54,No.11,pp.1051-1064,June2006.

[2]V.Pulkki,“SpatialSoundReproductionwithDirectionalAudioCoding”,JournaloftheAudioEngineeringSociety,Vol.55,No.6,pp.503-516,June2007.

[3]C.Tournery,C.Faller,F.Küch,J.Herre,“ConvertingStereoMicrophoneSignalsDirectlytoMPEGSurround”,128thAESConvention,May2010.

[4]J.Breebaart,S.vandePar,A.KohlrauschandE.Schuijers,“ParametricCodingofStereoAudio,”EURASIPJournalonAppliedSignalProcessing,Vol.2005,No.9,pp.1305-1322,2005.

[6]J.Vilkamo,V.Pulkki,“DirectionalAudioCoding:VirtualMicrophone-BasedSynthesisandSubjectiveEvaluation”,JournaloftheAudioEngineeringSociety,Vol.57,No.9,pp.709-724,September2009.

Claims

1.一种用于从具有两个或多个音频输入信道的音频输入信号产生具有两个或多个音频输出信道的音频输出信号的装置，其包括：

提供器（110），其用于提供所述音频输入信号的第一协方差性质，及

信号处理器（120），其用于通过对所述两个或多个音频输入信道中的至少两个施加混合规则来产生所述音频输出信号，

其中，所述信号处理器（120）被配置成基于所述音频输入信号的所述第一协方差性质并基于所述音频输出信号的第二协方差性质来确定混合规则，所述第二协方差性质与所述第一协方差性质不同。

2.根据权利要求1所述的装置，其中，所述提供器（110）适于提供所述第一协方差性质，其中，所述第一协方差性质对第一时频段具有第一状态，且其中，所述第一协方差性质对不同于所述第一时频段的第二时频段具有不同于所述第一状态的第二状态。

3.根据权利要求1所述的装置，其中，所述信号处理器（120）适于基于所述第二协方差性质来确定所述混合规则，其中，所述第二协方差性质对第三时频段具有第三状态，且其中，所述第二协方差性质对不同于所述第三时频段的第四时频段具有不同于所述第三状态的第四状态。

4.根据权利要求1所述的装置，其中，所述信号处理器（120）适于通过施加所述混合规则来产生所述音频输出信号，使得所述两个或多个音频输出信道中的每一个取决于所述两个或多个音频输入信道的每一个。

5.根据权利要求1所述的装置，其中，所述信号处理器（120）适于将所述混合规则确定为使得误差量度被最小化。

6.根据权利要求5所述的装置，其中，所述信号处理器（120）适于将所述混合规则确定为使得所述混合规则取决于：

||yref–y||²

其中

yref=Qx，

其中，x是所述音频输入信号，其中，Q是映射矩阵，且其中，y是所述音频输出信号。

7.根据权利要求1所述的装置，其中，所述信号处理器（120）被配置成通过确定所述第二协方差性质来确定所述混合规则，其中，所述信号处理器（120）被配置成基于所述第一协方差性质来确定所述第二协方差性质。

8.根据权利要求1所述的装置，其中，所述信号处理器（120）适于确定混合矩阵作为所述混合规则，其中，所述信号处理器（120）适于基于所述第一协方差性质及基于所述第二协方差性质来确定所述混合矩阵。

9.根据权利要求1所述的装置，其中，所述提供器（110）适于通过确定所述音频输入信号的第一协方差矩阵来提供所述第一协方差性质，且其中，所述信号处理器（120）被配置成基于作为所述第二协方差性质的所述音频输出信号的第二协方差矩阵来确定所述混合规则。

10.根据权利要求9所述的装置，其中，所述提供器（110）适于确定所述第一协方差矩阵，使得所述第一协方差矩阵的每一对角线值指示所述音频输入信道中的一个的能量，并且使得所述第一协方差矩阵的不是对角线值的每一个值指示第一音频输入信道与不同的第二音频输入信道之间的信道间相关性。

11.根据权利要求10所述的装置，其中，所述信号处理器（120）被配置成基于所述第二协方差矩阵来确定所述混合规则，其中，所述第二协方差矩阵的每一对角线值指示所述音频输出信道中的一个的能量，并且其中，所述第二协方差矩阵的不是对角线值的每一个值指示所述多个音频输出信道中的第一音频输出信道与所述多个音频输出信道中的第二音频输出信道之间的信道间相关性。

12.根据权利要求1所述的装置，其中，所述信号处理器（120）适于确定混合矩阵作为所述混合规则，其中，所述信号处理器（120）适于基于所述第一协方差性质并且基于所述第二协方差性质来确定所述混合矩阵，其中，所述提供器（110）适于通过确定所述音频输入信号的第一协方差矩阵来提供所述第一协方差性质，并且其中，所述信号处理器（120）被配置成基于作为所述第二协方差性质的所述音频输出信号的第二协方差矩阵来确定所述混合规则，其中，所述信号处理器（120）适于将所述混合矩阵确定为使得：

M = K_{y} {PK}_{x}^{- 1},

使得

K_{x} K_{x}^{T} = C_{x},

K_{y} K_{y}^{T} = C_{y}

其中，M是所述混合矩阵，其中，Cx是所述第一协方差矩阵，其中，C_y是所述第二协方差矩阵，其中，是第一分解矩阵K_x的第一转置矩阵，其中，是第二分解矩阵K_y的第二转置矩阵，其中，是所述第一分解矩阵K_x的反矩阵，且其中，P是第一单式矩阵。

13.根据权利要求12所述的装置，其中，所述信号处理器（120）适于确定所述混合矩阵，使得

M = K_{y} {PK}_{x}^{- 1},

其中，

P=VΛU^T，

其中，U^T是第二单式矩阵U的第三转置矩阵，其中，V是第三单式矩阵，其中，Λ是补零的单位矩阵，其中，

{USV}^{T} = K_{x}^{T} Q^{T} K_{y},

其中，Q^T是映射矩阵Q的第四转置矩阵，

其中，V^T是所述第三单式矩阵V的第五转置矩阵，且其中，S是对角矩阵。

14.根据权利要求1所述的装置，其中，所述信号处理器（120）适于确定混合矩阵作为所述混合规则，其中，所述信号处理器（120）适于基于所述第一协方差性质及基于所述第二协方差性质来确定所述混合矩阵，

其中，所述提供器（110）适于通过确定所述音频输入信号的第一协方差矩阵来提供所述第一协方差性质，且

其中，所述信号处理器（120）被配置成基于作为所述第二协方差性质的所述音频输出信号的第二协方差矩阵来确定所述混合规则，

其中，所述信号处理器（120）适于在对角矩阵S_x的值为零或小于阈值时，通过修改所述对角矩阵S_x的至少某些对角线值，使得所述对角矩阵S_x的值大于或等于所述阈值来确定所述混合规则，

其中，所述对角矩阵取决于所述第一协方差矩阵。

15.根据权利要求14所述的装置，其中，所述信号处理器（120）被配置成修改所述对角矩阵S_x的至少某些对角线值，其中，且其中，其中，C_x是所述第一协方差矩阵，其中，S_x是所述对角矩阵，其中U_x是第二矩阵，是第三转置矩阵，且其中，是第五矩阵K_x的第四转置矩阵，且其中，V_x及U_x是单式矩阵。

16.根据权利要求14所述的装置，其中，所述信号处理器（120）适于通过对所述两个或多个音频输入信道中的至少两个施加所述混合矩阵以获得中间信号并通过将残差信号r加入该中间信号以获得所述音频输出信号来产生所述音频输出信号。

17.根据权利要求14所述的装置，其中，所述信号处理器（120）适于基于对角增益矩阵G和中间矩阵来确定所述混合矩阵，使得其中，所述对角增益矩阵具有以下值：

G (i, i) = \sqrt{\frac{C_{y} (i, i)}{{\hat{C}}_{y} (i, i)}}

其中，

{\hat{C}}_{y} = \hat{M} C_{x} {\hat{M}}^{T},

其中，M’是所述混合矩阵，其中，G是所述对角增益矩阵，其中，C_y是所述第二协方差矩阵，且其中，是所述中间矩阵的第五转置矩阵。

18.根据权利要求1所述的装置，其中，所述信号处理器（120）包括：

混合矩阵公式化模块（420；530；630；730；830；1030），用于基于所述第一协方差性质来产生所述混合矩阵作为所述混合规则，及

混合矩阵施加模块（430；540；640；740；840；1040），用于对所述音频输入信号施加所述混合矩阵，以产生所述音频输出信号。

19.根据权利要求18所述的装置，

其中，所述提供器（110）包括协方差矩阵分析模块（410；705；805；1005），用于提供所述音频输入信号的输入协方差性质，以获得分析结果作为所述第一协方差性质，且

其中，所述混合矩阵公式模块（420；530；630；730；830；1030）适于基于所述分析结果来产生所述混合矩阵。

20.根据权利要求18所述的装置，其中，所述混合矩阵公式模块（420；530；630；730；830；1030）适于基于误差标准来产生所述混合矩阵。

21.根据权利要求18所述的装置，

其中，所述信号处理器（120）进一步包括空间数据确定模块（520；620），该空间数据确定模块用于确定包括环绕声空间数据、信道间相关性数据或音频信号水平数据的配置信息数据，且

其中，所述混合矩阵公式模块（420；530；630；730；830；1030）适于基于所述配置信息数据来产生所述混合矩阵。

22.根据权利要求19所述的装置，

其中，所述信号处理器（120）进一步包括目标协方差矩阵公式模块（730；1018），其用于基于所述分析结果来产生目标协方差矩阵，且

其中，所述混合矩阵公式模块（420；530；630；730；830；1030）适于基于所述目标协方差矩阵来产生混合矩阵。

23.根据权利要求22所述的装置，其中，所述目标协方差矩阵公式模块（1018）被配置成基于扬声器配置来产生所述目标协方差矩阵。

24.根据权利要求18所述的装置，其中，所述信号处理器（120）进一步包括：增强模块（815），用于基于输入信道间相关性数据来获得不同于所述输入信道间相关性数据的输出信道间相关性数据，且

其中，所述混合矩阵公式模块（420；530；630；730；830；1030）适于基于所述输出信道间相关性数据来产生所述混合矩阵。

25.一种用于从具有两个或多个音频输入信道的音频输入信号产生具有两个或多个音频输出信道的音频输出信号的方法，其包括以下步骤：

提供所述音频输入信号的第一协方差性质，及

通过对所述两个或多个音频输入信道中的至少两个施加混合规则来产生所述音频输出信号，

其中，所述混合规则是基于所述音频输入信号的所述第一协方差性质并且基于不同于所述第一协方差性质的所述音频输出信号的第二协方差性质来确定的。