具体实施方式
图1示出了用于解码在输入线100处获得的编码后的多信道音频信号的音频或视频解码器。该编码后的多信道音频信号包括利用用于合成表示多信道音频信号的第一信道信号与第二信道信号的合成规则生成的编码后的第一合成信号、编码后的预测剩余信号和预测信息。该编码后的多信道信号可以是数据流,诸如具有三个复用形式分量的位流。其他侧信息可包括在线100上的编码后的多信道信号中。该信号被输入到输入接口102中。输入接口102可被实施为数据流解复用器,其在线104上输出编码后的第一合成信号,在线106上输出编码后的剩余信号,以及在线108上输出预测信息。优选地,该预测信息是具有不等于零的实部和/或异于零的虚部的因子。编码后的合成信号和编码后的剩余信号被输入到信号解码器110中来解码第一合成信号以在线112上获得解码后的第一合成信号。此外,信号解码器110被配置为解码编码后的剩余信号以在线114上获得解码后的剩余信号。根据音频编码器侧的编码处理,该信号解码器可包括熵解码器(诸如霍夫曼解码器、算术解码器或任何其他熵解码器),以及用于执行与关联音频编码器中的量化运算相匹配的解量化运算的随后连接的解量化级。线112和114上的信号被输入到解码器计算器115中,解码器计算器115在线117上输出第一信道信号,以及在线118上输出第二信道信号,其中,这两个信号是立体声信号或多信道音频信号的两个信道。例如,当多信道音频信号包括五个信道时,则这两个信号是来自多信道信号的两个信道。为完全编码具有五个信道的这种多信道信号,可应用根据图1的两个解码器,其中,第一解码器处理左信道和右信道,第二解码器处理左环绕信道和右环绕信道,以及第三单信道解码器将用于执行中心信道的单信道解码。然而,也可应用波形编码器和参数编码器的其他分组或组合。概括多于两个信道的预测方案的替代性方式将是同时处理三个(或更多个)信号,即利用两个预测系数由第一和第二信号来预测第三合成信号,非常类似于MPEG环绕声中的“二到三”模块。
此外,在输入线100处获得的编码后的多信道音频信号包括预测方向指示符。该预测方向指示符(诸如预测方向标志)由输入接口102从编码后的多信道信号中提取,并转发至解码器计算器116,使得该解码器计算器根据预测信息、解码后的第一(或第二)合成信号和由输入接口102提供的预测方向指示符来计算解码后的多信道信号。
解码器计算器116被配置为利用解码后的剩余信号114、预测信息108和解码后的第一合成信号112来计算具有解码后的第一信道信号117和解码后的第二信道信号118的解码后的多信道信号。具体地,解码器计算器116被配置为以使解码后的第一信道信号和解码后的第二信道信号至少为输入到相应编码器中的多信道信号的第一信道信号和第二信道信号的近似这一方式来工作,当生成第一合成信号和预测剩余信号时,解码后的第一信道信号和解码后的第二信道信号由合成规则来合成。具体地,线108上的预测信息包括异于零的实值部分和/或异于零的虚部。
解码器计算器116可以不同方式来实施。第一实施在图4a中示出。该实施包括预测器1160、合成信号计算器1161和合成器1162。该预测器接收解码后的第一合成信号112和预测信息108,并输出预测信号1163。具体地,预测器1160被配置为向解码后的第一合成信号112或源自于解码后的第一合成信号的信号应用预测信息108。用于导出应用预测信息108的该信号的导出规则可以是实部-虚部转换,或等价地,虚部-实部转换或加权运算,或者根据实施,相移运算或合成的加权/相移运算。预测信号1163与解码后的剩余信号一起输入到合成信号计算器1161中以计算解码后的第二合成信号1165。信号112和1165均被输入到合成器1162中,合成器1162合成解码后的第一合成信号与第二合成信号以分别在输出线1166和1167上获得具有解码后的第一信道信号和解码后的第二信道信号的解码后的多信道音频信号。可替代地,该解码器计算器被实施为矩阵计算器1168,该矩阵计算器1168接收解码后的第一合成信号或信号M、解码后的剩余信号或信号D以及预测信息α108作为输入。矩阵计算器1168向信号M、D应用如1169所示的转换矩阵以获得输出信号L、R,其中,L是解码后的第一信道信号,以及R是解码后的第二信道信号。图4b中的符号类似于具有左信道L和右信道R的立体声符号。该符号已被应用以提供更简单的理解,但对于本领域技术人员而言,显然信号L、R可以是具有多于两个信道信号的多信道信号中的两个信道信号的任何合成。矩阵运算1169将图4a的块1160、1161和1162中的运算统一成一种“单次”矩阵计算,且向图4a电路的输入和从图4a电路的输出与向矩阵计算器1168的输入或从矩阵计算器1168的输出相同。
图4c示出了关于由图4a中的合成器1162应用的逆合成规则的一个实例。具体地,该合成规则类似于已知的中/侧编码中的解码器侧合成规则,其中,L=M+S,且R=M-S。需要理解,由图4c中的逆合成规则使用的信号S是由合成信号计算器计算的信号,即线1163上的预测信号与线114上的解码后的剩余信号的合成。需要理解,在该说明书中,线上的信号有时由用于该线的附图标记来命名,或者有时由已属于该线的附图标记本身来指示。因此,该符号如下:具有特定信号的线指示信号本身。线可以是硬连线实施中的物理线。然而,在计算机化实施中,物理线并不存在,但由该线表示的信号从一个计算模块被发送至另一计算模块。
图11b示出了根据在预测方向指示符输入401处提供的预测方向指示符来工作的解码器计算器的另一优选实施。根据预测方向指示符的状态,应用402所示的第一计算规则或403所示的第二计算规则。另一计算规则402在输出处提供了第一信道信号和第二信道信号,且第一计算规则可如后续描述的图13c所示来实施。在第一合成信号为中信号且第二合成信号为侧信号的特定实施方式中,预测方向指示符具有“0”值,以及预测从第一合成信号向第二合成信号执行。在该情况下,输入404具有中信号,即第一合成信号。然而,当预测方向指示符等于“1”时,则开关405使输入404与第二计算规则装置403的输入连接。在该情况下,执行从诸如侧信号的第二合成信号到诸如中信号的第一合成信号的预测,且输入404将具有侧信号而非中信号。第二计算规则装置403将再次输出第一信道信号和第二信道信号,但用于计算这两个信号(即立体声实施方式中的左信号和右信号)的规则将是不同的。关于第二计算规则的特定实施方式在后续讨论的图13d中示出。
图2示出了用于编码具有两个以上信道信号的多信道音频信号200的音频编码器,其中,第一信道信号在201处示出且第二信道在202处示出。两个信号均被输入到编码器计算器203中以利用第一信道信号201和第二信道信号202以及预测信息206来计算第一合成信号204和预测剩余信号205,使得当预测剩余信号205与源自于第一合成信号204和预测信息206的预测信号合成时,产生第二合成信号,其中,利用合成规则,第一合成信号和第二合成信号均可从第一信道信号201和第二信道信号202获得。
该预测信息由用于计算预测信息206的优化器207生成,使得预测剩余信号满足最优化目标208。第一合成信号204和剩余信号205被输入到信号编码器209中以编码第一合成信号204来获得编码后的第一合成信号210以及编码剩余信号205来获得编码后的剩余信号211。编码信号210、211两者均被输入到输出接口212中以合成编码后的第一合成信号210和编码后的预测剩余信号211以及预测信息206来获得编码后的多信道信号213,编码后的多信道信号213与输入到图1所示的音频解码器的输入接口102中的编码后的多信道信号100类似。
根据实施,优化器207接收第一信道信号201和第二信道信号202,或如由线214和215所示源自于图3a的合成器2031的第一合成信号214和第二合成信号215,这将后续讨论。
优选的最优化目标在图2中示出,其中,编码增益被最大化,即尽可能降低位率。在该最优化目标中,剩余信号D相对于α被最小化。换言之,这意味着预测信息α被选定为使得||S–αM||2最小化。这产生了针对图2所示α的解。信号S、M以逐块方式给出,且优选为频域信号,其中,符号||...||是指自变量的2-范数,以及其中,<…>通常示出点积。当第一信道信号201和第二信道信号202被输入到优化器207中时,则该优化器将必须应用合成规则,其中,示例性合成规则在图3c中示出。然而,当第一合成信号214和第二合成信号215被输入到优化器207中时,则优化器207本身并不需要实施该合成规则。
其他最优化目标可与感知质量有关。最优化目标可以是获得最大感知质量。则该优化器将需要来自感知模型的附加信息。最优化目标的其他实施可与获得最小的或固定的位率有关。则优化器207将被实施以执行量化/熵编码操作来确定特定α值所需的位率,使得α可被设定为满足这些要求,诸如最小位率,或可替代地,固定位率。该最优化目标的其他实施可与编码器或解码器资源的最小利用率有关。在实施该最优化目标的情况下,关于特定最优化所需资源的信息将可供优化器207使用。此外,这些最优化目标或其他最优化目标的合成可用于控制计算预测信息206的优化器207。
该音频编码器另外包括预测方向计算器219,该预测方向计算器219在其输出端提供指示与图2中由编码器计算器203输出的预测剩余信号205相关联的预测方向的预测方向指示符。预测方向计算器219可以不同方式来实施,其中,若干实例在图14背景下讨论。
图2中的编码器计算器203可以不同方式来实施,其中,示例性第一实施在图3a中示出,其中,显式(explicit)合成规则在合成器2031中执行。替代性示例性实施在图3b中示出,其中,使用矩阵计算器2039。图3a中的合成器2031可被实施以执行图3c所示的合成规则,该合成规则是示例性已知的中/侧编码规则,其中,加权因子0.5被应用于所有分支。然而,根据实施,可使用其他加权因子或完全没有加权因子(统一加权)。此外,需要注意,只要存在可应用于图4a所示的解码器合成器1162的相应逆合成规则(解码器合成器1162应用与由编码器应用的合成规则相反的合成规则),可应用其他合成规则(诸如其他线性合成规则或非线性合成规则)。由于本发明的预测,任何可逆预测规则均可被使用,因为对波形的影响被该预测“平衡”,即任何误差均包括在所发送的剩余信号中,这是因为由与编码器计算器203结合的优化器207执行的预测操作是波形保持处理。
合成器2031输出第一合成信号204和第二合成信号2032。该第一合成信号被输入到预测器2033中,以及第二合成信号2032被输入到剩余计算器2034中。预测器2033计算预测信号2035,该预测信号2035与第二合成信号2032合成以最终获得剩余信号205。具体地,合成器2031被配置为以两种不同方式来合成多信道音频信号的两个信道信号201和202以获得第一合成信号204和第二合成信号2032,其中,这两种不同方式在图3c的示例性实施方式中示出。预测器2033被配置为向第一合成信号204或源自于该第一合成信号的信号应用预测信息以获得预测信号2035。源自于该合成信号的信号可由任何非线性或线性运算来导出,其中,实部-虚部转换/虚部-实部转换是优选的,该转换可利用线性滤波器(诸如执行特定值的加权加法的FIR滤波器)来实施。
图3a中的剩余计算器2034可执行减法运算,使得该预测信号从第二合成信号中被减去。然而,该剩余计算器中的其他运算也是可行的。相应地,图4a中的合成信号计算器1161可执行加法运算,其中,解码后的剩余信号114与预测信号1163相加到一起来获得第二合成信号1165。
图11a示出了编码器计算器的优选实施。根据输入到预测方向输入501中的预测方向指示符,选择第一预测规则502或第二预测规则503,这由受控选择开关505来示出。第一预测规则可类似于图13b中所示,为第一选择,以及第二预测规则可类似于图13b中所示,为第二选择。块502、503的输出(即合成信号和剩余信号)可被转发至输出接口,或在信号编码的情况下,转发至图2中的信号编码器209。此外,预测方向指示符与预测信息、编码后的剩余信号和编码后的合成信号一起被输入到输出位流中,在预测方向指示符等于“0”的情况下,该编码后的合成信号可以是第一合成信号,或者在预测方向指示符等于“1”的情况下,该编码后的合成信号可以是第二合成信号。
图5a示出了音频编码器的优选实施。相比图3a所示的音频编码器,第一信道信号201是时域第一信道信号55a的频谱表示。相应地,第二信道信号202是时域信道信号55b的频谱表示。从时域到频谱表示的转换由用于第一信道信号的时间/频率转换器50和用于第二信道信号的时间/频率转换器51来执行。优选但非必要地,频谱转换器50、51被实施为实值转换器。转换算法可以是离散余弦转换(DCT)、仅使用实部的FFT、MDCT或提供实值频谱值的任何其他转换。可替代地,这两种转换均可被实施为虚部转换,诸如仅使用虚部而摒弃实部的DST、MDST或FFT。也可使用仅提供虚部的任何其他转换。利用纯实值转换或纯虚部转换的一个目的在于计算复杂性,因为对于每一频谱值而言,仅单一值(诸如幅值或实部)必须被处理,或者可替代地,相位或虚部必须被处理。相比之下,在完全复转换(诸如FFT)中,两个值(即针对每一频谱线的实部和虚部)将必须被处理,这使计算复杂性增加至少2的倍数。这里,利用实值转换的另一原因是该转换通常是临界采样的,且因此为信号量化和熵编码(实施在“MP3”、AAC或类似音频编码系统中的标准“感知音频编码”范例)提供合适(和常用)的域。
图5a另外示出了作为加法器的剩余计算器2034,其在“加”输入处接收侧信号并在“减”输入处接收由预测器2033输出的预测信号。此外,图5a示出了预测器控制信息从优化器转发至复用器212的情况,该复用器212输出表示编码后的多信道音频信号的复用位流。具体地,预测操作以侧信号由中信号预测这一方式来执行,如由图5a右侧方程所示。
尽管图5a示出了从M到S的预测,即侧信号由中信号预测(这在预测方向指示符等于零时发生),但当预测方向指示符等于1时,应用逆预测。则执行从S到M的预测。这可通过调换块2031的输出来示出,从而上输出具有侧信号且下输出具有中信号。
优选地,预测器控制信息206是如图3b右侧所示的因子。在预测控制信息仅包括实部(诸如复值α的实部或复值α的大小,其中,该部分对应于异于零的因子)的实施方式中,当中信号与侧信号由于其波形结构而彼此类似但具有不同振幅时,可获得显著的编码增益。
然而,当预测控制信息仅包括第二部分(该第二部分可以是复值因子的虚部或复值因子的相位信息,其中,该虚部或相位信息异于零)时,本发明对于彼此相移异于0°或180°的值以及除相移之外具有类似波形特性和类似振幅关系的信号获得显著编码增益。
优选地,预测控制信息是复值的。则可针对振幅不同且相移的信号获得显著编码增益。在时间/频率转换提供复频谱的情况下,运算2034将是复运算,其中,该预测器控制信息的实部被应用于复频谱M的实部以及该复预测信息的虚部被应用于复频谱的虚部。则在加法器2034中,该预测操作的结果是预测实部频谱和预测虚部频谱,且该预测实部频谱将从侧信号S的实部频谱中被减去(频带式),以及该预测虚部频谱将从S的频谱虚部中被减去以获得复的剩余频谱D。
时域信号L和R是实值信号,但频域信号可以是实值或复值的。当频域信号为实值时,则该转换是实值转换。当频域信号为复值时,则该转换是复值转换。这意味着到时间-频率转换的输入和频率-时间转换的输出是实值的,而频域信号可以是例如复值QMF域信号。
图5b示出了对应于图5a所示的音频编码器的音频解码器。关于图1音频解码器的类似元件具有类似附图标记。
由图5a中的位流复用器212输出的位流被输入到图5b中的位流解复用器102中。位流解复用器102将该位流解复用为下混信号M和剩余信号D。下混信号M被输入到解量化器110a中。剩余信号D被输入到解量化器110b中。此外,位流解复用器102将来自位流的预测器控制信息108解复用并同样输入到预测器1160中。预测器1160输出预测侧信号α·M,以及合成器1161合成由解量化器110b输出的剩余信号与预测侧信号以最终获得重构侧信号S。该信号随后被输入到合成器1162中,合成器1162执行例如和/差处理,如图4c中针对中/侧编码所示。具体地,块1162执行(逆)中/侧解码以获得左信道的频域表示和右信道的频域表示。该频域表示随后由相应频率/时间转换器52和53转换为时域表示。
图5b示出了在编码器中已完成由等于零的预测方向指示符指示的从中信号M到侧信号S的预测的情况。然而,当等于1的预测方向指示符从编码器(诸如图5a中的编码器)被发送到图5b中的解码器时,则必须执行从S到M的逆预测,即解码器计算规则是使得M由S来计算而非在预测方向指示符等于零的情况下的相反计算。
根据系统的实施,当频域表示是实值表示时,频率/时间转换器52、53是实值频率/时间转换器,或者当频域表示是复值表示时,频率/时间转换器52、53是复值频率/时间转换器。
然而,对于提高效率而言,执行实值转换是优选的,如针对编码器的图6a中和针对解码器的图6b中的另一实施所示。实值转换50和51由MDCT实施。此外,预测信息按照具有实部和虚部的复值来计算。由于两频谱M、S均为实值频谱,且因此由于该频谱的虚部不存在,所以提供了由信号M的实值频谱计算估计的虚部频谱600的实部-虚部转换器2070。该实部-虚部转换器2070是优化器207的一部分,且由块2070估计的虚部频谱600与实部频谱M一起被输入到α优化器级2071中以计算预测信息206,预测信息206现在具有在2073处所示的实值因子和在2074处所示的虚部因子。现在,根据该实施方式,第一合成信号M的实值频谱乘以实部αR2073以获得预测信号,该预测信号随后从实值侧频谱中被减去。此外,虚部频谱600乘以在2074处所示的虚部αI以获得另一预测信号,其中,该预测信号随后从在2034b处所示的实值侧频谱中被减去。随后,预测剩余信号D在量化器209b中被量化,而M的实值频谱在块209a中被量化/编码。此外,优选在量化器/熵编码器2072中量化和编码预测信息α以获得编码后的复α值,该复α值被转发至例如图5a的位流复用器212,且其最终被输入到位流中作为预测信息。
关于针对α的量化/编码(Q/C)模块2072的位置,需要注意,乘法器2073和2074优选利用恰好相同的(量化)α,α也将在解码器中使用。因此,我们可直接移动2072到2071的输出,或者我们可考虑α的量化已在2071的优化处理中考虑到。
尽管我们可在编码器侧计算复频谱,但由于所有信息均可用,所以优选在编码器的块2070中执行实数-复数转换,从而产生关于图6b所示解码器的类似情况。解码器接收第一合成信号的实值编码频谱和编码后的剩余信号的实值频谱表示。此外,编码后的复预测信息在108处获得,且熵解码和解量化在块65中执行以获得1160b处所示的实部αR和1160c处所示的虚部αI。由加权元件1160b和1160c输出的中信号被添加到解码和解量化后的预测剩余信号中。具体地,在复预测因子的虚部被用作加权因子的情况下,输入到加权器1160c中的频谱值由实部-虚部转换器1160a从实值频谱M获得,这优选以与有关编码器侧的图6a的块2070相同的方式来实施。与编码器侧相比,在解码器侧,中信号或侧信号的复值表示不可用。原因在于由于位率和复杂性的原因,仅编码后的实值频谱从编码器被发送至解码器。
图6a和图6b示出了预测方向指示符等于零的情况,即执行从M预测S或利用M和复预测信息α计算S的情况。然而,当该预测方向指示符等于1,或者一般而言,指示逆预测方向时,则可应用相同电路,但块2031的输出被调换,使得上线具有侧信号S且下线具有中信号M。在解码器侧,解码器计算规则也被改变,使得在逆预测方向的情况下,M由S来计算,这也可通过在图6b中块110a的输出的上线处将M信号替换为侧信号S来表示。这在块1161b的输出处产生中信号M并在块1162的上输入处产生侧信号S。因此,由块1162应用的规则必须适应该不同输入情况,或M/S信号必须在输入到块1162中之前被调换。在后者情况下,即当执行调换时,块1162对于两个预测方向指示符值是相同的。
实部-虚部转换器1160a或图6a的相应块2070可按照在WO2004/013839A1或WO 2008/014853A1或者美国专利第6,980,933号中公开的来实施。根据信号或实施,预测信息α可以是纯实值或纯虚值的或者可以是具有实部和虚部的复数。然而,若仅实施实值预测,则预测方向逆转换将已经提供了具有非常有限的附加计算需求的改善后的性能,并由于剩余信号将具有较小能量这一事实而将产生较低位率,且对于预测信息也是同样的。因此,由于剩余信号和预测信息所需的较低位率,发送预测方向指示符所需的附加位率最终产生了相当多的位节省。因此,预测信息可包括异于零的实值部分和/或异于零的虚部。可替代地,本领域已知的任何其他实施均可被应用,且优选实施在图10a、图10b背景下讨论。
具体地,如图10a所示,实部-虚部转换器1160a包括连接至虚部频谱计算器1001的频谱帧(frame)选择器1000。频谱帧选择器1000在输入1002处接收当前帧i的指示,且根据实施,在控制输入1003处接收控制信息。例如,当线1002上的指示指出要计算关于当前帧i的虚部频谱时,以及当控制信息1003指出仅当前帧将被用于计算时,则频谱帧选择器1000仅选择当前帧i并将该信息转发至虚部频谱计算器。随后,虚部频谱计算器仅利用当前帧i的频谱线来针对频率接近或在当前频谱线k附近执行位于当前帧中的线的加权合成(块1008),虚部线将如图10b中的1004所示来计算。然而,当频谱帧选择器1000接收指示前一帧i-1和后一帧i+1也将用于计算虚部频谱的控制信息1003时,则该虚部频谱计算器另外接收来自帧i-1和i+1的值,并执行关于帧i-1的1005和关于帧i+1的1006处所示的相应帧中的线的加权合成。加权运算的结果由块1007中的加权合成来合成以最终获得关于帧fi的虚部线k,该虚部线k随后乘以元件1160c中的预测信息的虚部以获得关于该线的预测信号,该预测信号随后被添加至关于解码器的加法器1161b中的中信号的相应线。在编码器中,执行相同操作,但在元件2034b中完成减法。
必须指出,控制信息1003可另外指示使用多于两个周围帧的帧,或者例如仅利用当前帧和恰好一个或多个先前帧而不利用“未来”帧以减少系统性延迟。
此外,需要指出,图10b所示的第一操作中来自一个帧的线被合成且随后来自这些逐帧合成操作的结果自身合成的逐级加权合成也可以另一顺序来执行。另一顺序意味着在第一步骤中,关于来自由控制信息103所示的一些相邻帧的当前频率k的线由加权合成来合成。根据将用于估计虚部线的相邻线的数目,该加权合成针对线k、k-1、k-2、k+1、k+2等来完成。随后,来自这些“逐个时间”合成的结果经过“频率方向”中的加权合成以最终获得关于帧fi的虚部线k。优选地,权重被设定为-1与1之间的值,且该权重可以直接FIR或IIR滤波器合成来实施,该直接FIR或IIR滤波器合成执行来自不同频率和不同帧的频谱线或频谱信号的线性合成。
如图6a和图6b所示,优选转换算法为MDCT转换算法,其应用于图6a的元件50和51中的正向且应用于元件52、53中的反向,并在频谱域中运行的合成器1162中的合成操作之后。
图8a示出了块50或51的更详细实施。具体地,时域音频样本的序列被输入到分析窗口器500中,分析窗口器500利用分析窗口来执行窗口化操作,且具体地,以逐帧方式来执行该操作,但利用50%的步长(stride)或交叠。该分析窗口器的结果(即窗口化样本的帧序列)被输入到MDCT转换块501中,MDCT转换块501输出实值MDCT帧的序列,其中,这些帧被混叠影响。示例性地,该分析窗口器应用具有2048个样本长度的分析窗口。随后,MDCT转换块501输出具有1024条实部频谱线或MDCT值的MDCT频谱。优选地,分析窗口器500和/或MDCT转换器501可由窗口长度或转换长度控制502来控制,使得例如对于信号中的瞬时部分,减小窗口长度/转换长度以获得较好的编码结果。
图8b示出了块52和53中执行的逆MDCT运算。示例性地,块52包括用于执行逐帧逆MDCT转换的块520。例如,当MDCT值的帧具有1024个值时,则该MDCT逆转换的输出具有2048个混叠影响的时间样本。该帧被提供给合成窗口器521,合成窗口器521对2048个样本的该帧应用合成窗口。窗口化帧随后被转发至交叠/相加处理器522,示例性地,交叠/相加处理器522在两个连续帧之间应用50%的交叠,且随后执行逐样本相加,使得2048个样本的块最终产生无混叠输出信号的1024个新样本。另外,优选利用例如在编码后的多信道信号的侧信息中传送的信息来应用523处所示的窗口/转换长度控制。
α预测值可针对MDCT频谱的每条单个频谱线来计算。然而,已发现这并不是必需的,且可通过执行预测信息的逐频带计算来节省大量侧信息。换言之,图9所示频谱转换器50例如是如图8a背景下讨论的MDCT处理器,其提供具有图9b中所示的特定频谱线的高频分辨率频谱。该高频分辨率频谱被频谱线选择器90利用,频谱线选择器90提供包括特定频带B1、B2、B3、…、BN的低频分辨率频谱。该低频分辨率频谱被转发至用于计算预测信息的优化器207,使得预测信息不针对每一频谱线来计算,而是仅针对每一频带来计算。为此,优化器207接收每一频带中的频谱线,并始于相同α值用于频带中的所有频谱线的假设来计算最优化操作。
优选地,频带以心理声学方式成形,使得该频带的带宽从低频增至高频,如图9b所示。可替代地,尽管不如增加的带宽实施那样优选,但也可使用等大小的频带,其中,每一频带具有至少两个或通常更多,诸如至少30条频率线。通常,对于1024条频谱线的频谱,少于30个复α值且优选地,多于5个α值被计算。对于具有少于1024条频谱线(例如,128条线)的频谱,优选更少的频带(例如,6个)被用于α。
对于计算α值而言,不一定需要高分辨率的MDCT频谱。可替代地,具有类似于计算α值所需分辨率的频率分辨率的滤波器组也可被利用。当要实施频率上增大的频带时,则该滤波器组应具有变化的带宽。然而,当从低频到高频的恒定带宽足够时,则具有等宽次频带的传统滤波器组可被使用。
根据实施,图3b或图4b所示的α值的符号可反转。然而,为保持一致,该符号反转必须用于编码器侧以及用于解码器侧。相比图6a,图5a示出了编码器的概图,其中,项目2033是由预测器控制信息206控制的预测器,预测器控制信息206在项目207中被确定,且嵌入位流中作为侧信息。代替图6a的块50、51中使用的MDCT,一般化时间/频率转换如所讨论的用于图5a中。如先前所述,图6a是对应于图6b中的解码器处理的编码器处理,其中,L代表左信道信号,R代表右信道信号,M代表中信号或下混信号,S代表侧信号,以及D代表剩余信号。可替代地,L也被称作第一信道信号201,R也被称作第二信道信号202,M也被称作第一合成信号204,以及S也被称作第二合成信号2032。
优选地,编码器中的模块2070和解码器中的1160a应恰好匹配以确保正确的波形编码。这优选适用于以下情况:其中,这些模块利用某些形式的近似,诸如截尾滤波,或者当仅利用一个或两个而非三个MDCT帧(即线60上的当前MDCT帧、线61上的前一MDCT帧、以及线62上的下一MDCT帧)时。
此外,优选图6a的编码器中的模块2070利用非量化MDCT频谱M作为输入,尽管解码器中的实部-虚部(R2I)模块1160a仅具有量化的MDCT频谱可用作输入。可替代地,我们还可利用编码器使用量化的MDCT系数作为向模块2070的输入的实施。然而,从感知观点来看,利用非量化的MDCT频谱作为向模块2070的输入是优选方法。
随后,更详细讨论本发明实施方式的若干方面。
标准的参数立体声编码(诸如USAC系统中基于MPEG环绕(MPS)的立体声编码)依赖于过采样复(混合)QMF域允许时间和频率变化的感知激励的信号处理而不引入混叠伪差的能力。然而,在下混/剩余编码(如用于这里考虑的高位率)的情况下,所获得的统一立体声编码器用作波形编码器。由于波形编码范例确保MDCT-IMDCT处理链的混叠消除特性被足够好地保留,所以这允许在临界采样域(如MDCT域)中的操作。
然而,为能够利用可在具有信道间时间或相位差的立体声信号的情况下利用复值预测系数α实现的改善后的编码效率,下混信号DMX的复值频域表示需要作为向复值上混矩阵的输入。这可通过使用除了对DMX信号的MDCT转换之外的MDST转换来获得。MDST频谱可由MDCT频谱(精确或作为近似地)计算。
此外,上混矩阵的参数化可通过发送复预测系数α代替MPS参数来简化。因此,仅两个参数(α的实部和虚部)而非三个(ICC、CLD和IPD)被发送。在下混/剩余编码的情况下,这由于MPS参数化中的冗余而可行。MPS参数化包括关于添加到解码器中的解相关的相对量(即RES与DMX信号之间的能量比)的信息,且当实际DMX和RES信号被发送时,该信息是冗余的。
由于相同原因,在下混/剩余编码的情况下,增益因子被舍弃。因此,用于利用复预测的下混/剩余编码的上混矩阵现在是:
相比图4b中的方程1169,α的符号在该方程中相反,以及DMX=M且RES=D。因此,相对于图4b,这是替代性实施/符号。
两个选择可用于在编码器中计算预测剩余信号。一个选择是利用下混的量化MDCT频谱值。由于编码器和解码器利用相同值来生成预测,所以这将导致与M/S编码相同的量化误差分布。另一选择是利用非量化的MDCT频谱值。这意味着编码器和解码器将不使用相同数据来生成预测,这允许编码误差根据信号的瞬时屏蔽特性空间上重新分布,代价是编码增益有所减少。
优选如所讨论的利用三个相邻MDCT帧的二维FIR滤波在频域中直接计算MDST频谱。后者可被视为“实部-虚部”(R2I)转换。MDST的频域运算的复杂性可以不同方式来减小,这意味着仅MDST频谱的近似被计算:
·限定FIR滤波器分接(tap)的数目。
·仅由当前MDCT帧来估计MDST。
·由当前和前一MDCT帧来估计MDST。
只要相同近似法用在编码器和解码器中,波形编码特性不受影响。然而,这种MDST频谱的近似法可能导致由复预测获得的编码增益的减小。
若基本MDCT编码器支持窗口形状切换,则用于计算MDST频谱的二维FIR滤波器的系数必须适应实际窗口形状。应用于当前框的MDCT频谱的滤波器系数取决于完整窗口,即每种窗口类型和每一窗口过渡所需的一组系数。应用前一/下一帧的MDCT频谱的滤波器系数仅取决于窗口与当前帧的半交叠,即这组系数仅需要针对每一种窗口类型来使用(无用于过渡的其他系数)。
若基本MDCT编码器利用转换长度切换,包括近似中的前一和/或下一MDCT帧在不同转换长度之间的过渡附近变得更加复杂。由于当前和前一/下一帧中MDCT系数的不同数目,在该情况下,二维滤波更加复杂。为避免增加计算和结构复杂性,以针对相应帧的近似的精度减小为代价,前一/下一帧可从转换长度过渡的滤波中被排除。
此外,需要特别关注MDST频谱的最低和最高部分(接近DC和fs/2),其中,比所需的更少的周围MDCT系数可用于FIR滤波。这里,滤波处理需要适应于正确计算MDST频谱。这可通过针对缺少的系数使用MDCT频谱的对称扩展(根据时间离散信号的频谱的周期性),或者通过相应调适滤波器系数来完成。当然,这些特定情况的处理在以MDST频谱的边界附近的精度减小为代价的前提下可被简化。
在解码器中由发送的MDCT频谱计算精确的MDST频谱使解码器延迟增加一帧(这里假定有1024个样本)。通过利用不需要下一帧的MDCT频谱作为输入的MDST频谱的近似,可避免其他延迟。
以下项目列表总结了基于MDCT的统一立体声编码胜过基于QMF的统一立体声编码的优势:
·计算复杂性仅小幅增加(当未使用SBR时)。
·若MDCT频谱未被量化,则最多达到完美重构。注意这不是针对基于QMF的统一立体声编码的情况。
·M/S编码和强度立体声编码的自然统一和扩展。
·由于立体声信号处理和量化/编码可紧密耦合,所以有简化编码器调谐的更简洁架构。注意在基于QMF的统一立体声编码中,MPS帧和MDCT帧并不对准且标度因子频带与MPS参数频带不匹配。
·由于仅必须发送两个参数(复α),而不是如MPEG环绕中那样三个参数(ICC、CLD、IPD)必须被发送,所以能有效编码立体声参数。
·若MDST频谱被计算为近似(未利用下一帧),则无其他解码器延迟。
实施的重要特性可被总结如下:
a)MDST频谱利用二维FIR滤波从当前、前一和下一MDCT频谱来计算。通过减少所使用的FIR滤波器分接的数目和/或MDCT帧的数目,关于MDST计算(近似)的不同复杂性/质量折衷是可行的。具体地,若相邻帧由于在发送或转换长度切换期间的帧损失而不可用,则特定帧从MDST估计中被排除。对于转换长度切换的情况,该排除在位流中信号传送。
b)仅发送两个参数,复预测系数α的实部和虚部,而非ICC、CLD和IPD。α的实部和虚部被独立处理,限定为范围[-3.0,3.0]且以0.1的步长大小来量化。若特定参数(α的实部或虚部)在给定帧中未使用,则这在位流中信号传送,且不发送不相关参数。这些参数以时间差异或频率差异来编码,且最终利用标度因子编码簿来应用霍夫曼编码。预测系数每过两个标度因子频带而被更新,这产生了与MPEG环绕的频率分辨率类似的频率分辨率。该量化和编码方案对于具有96kb/s目标位率的典型配置内的立体声侧信息产生约2kb/s的平均位率。
优选的其他或替代性实施细节包括:
c)对α的两个参数中的每一个而言,我们可在每个帧或每个串流的基础上选择非差分(PCM)或差分(DPCM)编码,由位流中的相应位以信号发送。对于DPCM编码而言,时间或频率差分编码是可行的。另外,这可利用一位标志来以信号发送。
d)代替重新利用预定义编码簿(诸如AAC标度因子簿),我们也可利用专用不变的或信号自适应的编码簿来编码α参数值,或者我们可恢复使用固定长度(例如,4位)无符号或两个补码字。
e)α参数值的范围以及参数量化步长大小可任意选择并优化为眼前的信号特性。
f)有效α参数频带的数目以及频谱和/或时间宽度可被任意选择并优化为给定信号特性。具体地,频带配置可在每个帧或每个串流的基础上以信号发送。
g)除了以上a)中所述的机制以外或者代替该机制,可利用位流中的每帧一位来外显地发信号,使得仅当前帧的MDCT频谱用于计算MDST频谱近似,即未考虑相邻MDCT帧。
实施方式与用于MDCT域中的统一立体声编码的发明系统有关。即使在较高位率下(在SBR未被使用的情况下)也能利用MPEG USAC系统中的统一立体声编码的优势,而将伴随基于QMF方法的计算复杂性未明显增加。
以下两个列表总结了前述优选配置方面,这些方面可彼此交替使用或附加至其他方面来使用:
1a)一般性概念:由中MDCT和MDST复值预测侧MDCT;
1b)利用一个以上帧(3帧方法引入延迟)由频域中的MDCT(“R2I转换”)来计算/近似MDST;
1c)滤波器截尾(甚至降至1帧2分接,例如[-1 0 1])以减少计算复杂性;
1d)恰当处理DC和fs/2附近的转换系数;
1e)恰当处理窗口形状切换;
1f)若其具有不同转换大小,则不使用前一/下一帧;
1g)基于编码器中的非量化或量化MDCT系数来预测;
2a)直接量化和编码复预测系数的实部和虚部(即没有MPEG环绕参数化);
2b)对此使用统一量化器(步长大小例如0.1);
2c)使用针对预测系数的适当频率分辨率(例如,每2个标度因子频带1个系数);
2d)在所有预测系数均为实值的情况下廉价信号传送;
2e)每帧有显式位以迫使1帧R2I运算发生,即不利用前一/下一帧。
在一种实施方式中,编码器另外包括:用于将两个信道信号的时域表示转换成具有关于该两个信道信号的次频带信号的两个信道信号的频谱表示的频谱转换器(50、51),其中,合成器(2031)、预测器(2033)和剩余信号计算器(2034)被配置为单独处理每个次频带信号,从而获得针对多个次频带的第一合成信号和剩余信号,其中,输出接口(212)被配置为合成针对多个次频带的编码后的第一合成信号和编码后的剩余信号。
尽管已在设备背景下描述了某些方面,但应清楚,这些方面也表示对相应方法的描述,其中,块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤背景下描述的方面也表示对相应设备的相应块或项目或者特征的描述。
在本发明的实施方式中,应用窗口形状切换的恰当处理。当考虑图10a时,窗口形状信息109可被输入到虚部频谱计算器1001中。具体地,执行诸如MDCT频谱的实值频谱的实部-虚部转换的虚部频谱计算器(诸如图6a中的元件2070或图6b中的元件1160a)可被实施为FIR或IIR滤波器。该实部-虚部模块1001中的FIR或IIR系数取决于当前帧的左半部分和右半部分的窗口形状。该窗口形状可对于正弦窗口或KBD(西泽贝索衍生)窗口是不同的,且以给定窗口序列配置为准,可以是长窗口、开始窗口、停止窗口、停止-开始窗口或短窗口。实部-虚部模块可包括二维FIR滤波器,其中,一个维度是时间维度,其中,两个连续的MDCT帧被输入到FIR滤波器中,以及另一维度是频率维度,其中,输入帧的频率系数。
下表给出针对关于不同窗口形状的当前窗口序列的不同MDST滤波器系数,以及该窗口的左半部分和右半部分的不同实施。
表A–针对当前窗口的MDST滤波器参数
此外,当前一窗口用于由MDCT频谱计算MDST频谱时,窗口形状信息109提供关于前一窗口的窗口形状信息。关于前一窗口的相应MDST滤波器系数作为当前窗口序列和形状的函数在下表中给出。
表格B–针对前一窗口的MDST滤波器参数
因此,根据窗口形状信息109,图10a中的虚部频谱计算器1001通过应用不同组的滤波器系数来调适。
在解码器侧使用的窗口形状信息在编码器侧被计算,且作为侧信息与编码器输出信号一起被发送。在解码器侧,窗口形状信息109由位流解复用器(例如,图5b中的102)从该位流中被提取,并提供给如图10a所示的虚部频谱计算器1001。
当窗口形状信息109示意前一帧具有不同转换大小时,则优选前一帧不用于从实值频谱计算虚部频谱。当通过解读窗口形状信息109发现下一帧具有不同转换大小时,也同样适用。则下一帧不用于从实值频谱计算虚部频谱。在该情况下,例如当前一帧具有与当前帧不同的转换大小时以及当下一帧同样具有与当前帧相比不同的转换大小时,则仅当前帧(即,当前窗口的频谱值)用于估计虚部频谱。
编码器中的预测基于诸如MDCT系数的非量化或量化频率系数。当由图3a中的元件2033所示的预测例如基于非量化数据时,则剩余计算器2034优选也对非量化数据运算,且剩余计算器输出信号(即,剩余信号205)在被熵编码和发送至解码器之前被量化。然而,在替代性实施方式中,优选该预测基于量化的MDCT系数。则量化可在图3a中的合成器2031之前进行,使得第一量化信道和第二量化信道作为计算剩余信号的基础。可替代地,量化也可在合成器2031之后进行,使得第一合成信号和第二合成信号以非量化形式来计算并在计算剩余信号之前被量化。同样,可替代地,预测器2033可在非量化域中工作,且预测信号2035在被输入到剩余计算器之前被量化。则有用的是,同样被输入到剩余计算器2034中的第二合成信号2032也在该剩余计算器计算图6a中的剩余信号D之前被量化,这可在图3a中的预测器2033内实施,对解码器侧可用的相同量化数据运算。则可保证为执行剩余信号的计算的目的而在编码器中估计的MDST频谱与用于执行逆预测(即用于由剩余信号来计算侧信号)的解码器侧的MDST频谱恰好相同。为此,第一合成信号(诸如图6a中的线204上的信号M)在被输入到块2070之前被量化。随后,MDST频谱利用当前帧的量化MDCT频谱来计算,以及根据控制信息,前一或下一帧的量化MDCT频谱被输入到乘法器2074中,且图6a的乘法器2074的输出同样将是非量化频谱。该非量化频谱将从输入到加法器2034b中的频谱被减去且结果最终将在量化器209b中被量化。
在一种实施方式中,每一预测频带的复预测系数的实部和虚部被直接量化和编码,即无需例如MPEG环绕参数化。量化可利用具有例如0.1的步长大小的统一量化器来执行。这意味着任何对数量化步长大小等均未被应用,而任何线性步长大小均被应用。在一种实施中,关于复预测系数的实部和虚部的值的范围从-3变化到3,这意味着60个或者根据实施细节,61个量化步骤被用于复预测系数的实部和虚部。
优选地,图6a的乘法器中应用的实部2073和图6a中应用的虚部2074在应用之前被量化,使得用于预测的相同值再次被用于编码器侧,也可用于解码器侧。这保证了预测剩余信号除了引入的量化误差之外还涵盖了当非量化预测系数应用于编码器侧,而量化预测系数应用于解码器侧时可能出现的任何误差。优选地,量化以尽可能使相同情况和相同信号在编码器侧和解码器侧可用的这一方式被应用。因此,优选利用与量化器209a中应用的相同的量化来量化向实部-虚部计算器2070中的输入。此外,优选量化预测系数α的实部和虚部以在项目2073和项目2074中执行乘法。该量化与应用于量化器2072的量化相同。此外,由图6a中的块2031输出的侧信号也可在加法器2034a和2034b之前被量化。然而,在由这些加法器对非量化侧信号实施加法之后由量化器209b执行量化也是没有问题的。
在本发明的另一实施方式中,在所有预测系数均为实数的情况下实施廉价信号传送。这可能是对于特定帧(即,对于音频信号的相同时间部分)的所有预测系数被计算为实数的情况。该情况可能在所有中信号和所有侧信号彼此无相移或仅小相移时发生。为节省位,这由单一实数指示符来表示。则预测系数的虚部不需要在具有表示零值的码字的位流中以信号发送。在解码器侧,位流解码器接口(诸如位流解复用器)将解读该实数指示符且随后将不查询关于虚部的码字,而是将假定该位流的相应段中的所有位仅表示实值预测系数。此外,当接收到帧中的预测系数的所有虚部均为零的指示时,预测器2033将无需由实值MDCT频谱计算MDST频谱,或者一般地,虚部频谱。因此,图6b解码器中的元件1160a将被停用,且逆预测将仅使用图6b的乘法器1160b中应用的实值预测系数来进行。对于元件2070将被停用且预测将仅利用乘法器2073来进行的编码器侧也同样适用。该侧信息优选用作每帧的附加位,且解码器将逐帧读取该位以确定实部-虚部转换器1160a是否将对帧起作用。因此,由于关于帧的预测系数的所有虚部为零的更有效信号传送,提供该信息使得位流大小减小,且此外,极大减小了关于用于该帧的解码器的复杂性,这直接使例如实施在电池供电移动装置中的该处理器的电池消耗减小。
根据本发明优选实施方式的复立体声预测是用于有效编码信道之间具有强度和/或相差的信道对的工具。利用复值参数α,左右信道经由以下矩阵来重构。dmxIm表示对应于下混信道dmxRe的MDCT的MDST。
以上方程是针对α的实部和虚部分开的另一表示,且表示关于合成预测/合成运算的方程,其中,预测信号S不一定被计算。
以下数据元素优选用于该工具:
cplx_pred_all 0:某些频带使用L/R编码,如由cplx_pred_used[]以信号发送
1:所有频带均使用复立体声预测
cplx_pred_used[g][sfb]每一窗口组g和标度因子频带sfb一位标志(在由预测频带映射之后),其指示
0:复预测未被使用,L/R编码被使用
1:复预测被使用
complex_coef 0:针对所有预测频带,αIm=0(只读预测)
1:针对所有预测频带发送αIm
use_prev_frame 0:仅利用用于MDST估计的当前帧
1:利用用于MDST估计的当前帧和前一帧
delta_code_time 0:预测系数的频率差分编码
1:预测系数的时间差分编码
hcod_alpha_q_re αRe的霍夫曼编码
hcod_alpha_q_im αIm的霍夫曼编码
图13a示出了本发明依赖的另一数据元素,即预测方向指示符pred_dir。该数据元素指示根据图13a中的表格的预测方向。因此,第一值0意指从中信道预测侧信道,以及第二值(诸如值“1”)意指从侧信道预测中信道。
这些数据元素在编码器中被计算,且被输入到立体声或多信道音频信号的侧信息中。这些元素由侧信息提取器从解码器侧的侧信息中提取,并用于控制解码器计算器来执行相应动作。
复立体声预测需要当前信道对的下混MDCT频谱,且在complex_coef=1的情况下,需要估计当前信道对的下混MDST频谱,即MDCT频谱的虚部对应体。下混MDST估计由当前帧的MDCT下混来计算,且在use_prev_frame=1的情况下,由前一帧的MDCT下混来计算。窗口组g和组窗口b的前一帧的MDCT下混从该帧的重构左右频谱获得。
下混MDST估计的计算取决于长度均匀的MDCT转换、window_sequence以及filter_coefs与filter_coefs_prev,它们是包括滤波器核心以及根据之前表格导出的数组。
对于所有预测系数,与前一(时间或频率上)值的差利用霍夫曼编码簿来编码。对于cplx_pred_used=0的预测频带不发送预测系数。
逆量化预测系数alpha_re和alpha_im由下式给出:
alpha_re=alpha_q_re*0.1
alpha_im=alpha_q_im*0.1
当侧信号S相比下混信号M具有相当高的能量时,可能发生无预测方向反转的问题。在该情况下,预测S中存在的信号的主要部分可能变得困难,尤其当M是非常低的等级并因此主要由噪声成份组成时。
此外,关于预测系数α的值的范围可能变得非常大,潜在地导致由于不希望的量化噪声的放大或摇摆而引起的编码伪差(例如,空间未屏蔽效应)。
为提供一个实例,我们可考虑轻微摇摆的异相信号,其中R=-0.9·L,这产生相当大的最优预测因子19。
R=-0.9·L;
M=0.5·(L+R)=0.05·L;
S=0.5·(L-R)=0.95·L;
RES=S-(α*M);
optimumα:
α=19;
根据本发明,切换预测方向,且这在具有最少运算量和较小α的情况下使预测增益增加。
在侧信号S相比中信号M具有高能量的情况下,有兴趣使预测方向相反,使得M由S的复值表示来预测,如例如图13b的(2)中所示。当切换预测方向使得M由S来预测时,S优选需要附加MDST,但M不需要MDST。此外,在该情况下,代替如图13b的(1)中第一选择的中信号,(实值)侧信号必须与剩余信号和预测信息α一起被发送至解码器。
预测方向的切换可在每个帧的基础上(即在时间轴上)、每一频带的基础上(即在频率轴上)、或其合成的基础上完成,使得允许按频带和频率切换。这针对每一帧和每一频带产生预测方向指示符(一位),但仅允许针对每帧的单一预测方向可能是有用的。
为此,提供预测方向计算器219,其在图12a中示出。与其他图中一样,图12a示出了MDCT级50/51、中/侧编码级2031、实数-复数转换器2070、预测信号计算器2073/2074和最后的剩余信号计算器2034。此外,提供预测方向控制M/S调换器507,其被配置且用于实施图11a所示的两种不同预测规则502、503。第一预测规则是调换器507处于第一状态,即M和S未被调换的情况。第二预测规则在调换器507处于调换状态时即M和S从输入被调换为输出时实施。该实施具有调换器507之后的整个电路对于两种预测方向相同的优势。
类似地,不同解码规则402、403(即不同解码器计算规则)也可在合成器1162的输入处由调换器407来实施,合成器1162在图12b的实施方式中被实施为执行逆中/侧编码。也可被称作“预测开关”的调换器407在其输入处接收下混信号DMX和信号IPS,其中,IPS代表相反预测信号。根据预测方向指示符,调换器407使DMX与M连接且使IPS与S连接或者使DMX与S连接且使IPS与M连接,如图12b上方表格所示。
图13b示出了图11b的第一计算规则(即由块402所示规则)的实施。在第一实施方式中,明确执行逆预测,使得侧信号由剩余信号和所发送的中信号明确计算。随后,在后续步骤中,L和R由图13中显式逆预测方程右边的方程来计算。在替代性实施中,隐式逆预测被执行,其中,侧信号S未被明确计算,但左信号L和右信号R利用预测信息α由所发送的M信号和所发送的剩余信号直接计算。
图13d示出了关于另一预测方向(即预测方向指示符pred_dir等于1时)的方程。同样,用于获得M的显式逆预测可利用所发送的剩余信号和所发送的侧信号来执行,且L和R的后续计算可利用中信号和侧信号来完成。可替代地,隐式逆预测可被执行,使得L和R由所发送的信号S、剩余信号和预测信息α来计算,而无需明确计算中信号M。
如以下图13b中所述,α的符号可在所有方程中反转。当其被执行时,针对剩余信号计算,图13b具有两项之间的和。则显式逆预测变成差计算。根据实际实施,如图13b至图13d中所述符号或相反符号可能是适当的。
在图13b至图13d的方程中,可能发生若干复数乘法。这些复数乘法可能针对α为复数的所有情况发生。则需要M或S的复数近似,如方程中所述。复数乘法将产生两个因子的实部的实际乘积与两个因子的虚部的乘积之间的差,如图13e中仅针对α或针对(1+α)的情况所示。
预测方向计算器219可以不同方式来实施。图14示出了用于计算预测方向的两种基本方式。一种方式是前向馈送计算,其中,信号M和信号S(一般为第一合成信号和第二合成信号)通过计算能量差来比较,如步骤550中所示。随后,在步骤551中,该差值与阈值相比较,其中,该阈值可经由阈值输入线来设定或者可固定至某一程序。然而,优选有一些滞后。因此,按照关于实际预测方向的确定标准,可评估S与M之间的能量差。为实现最佳感知质量,该确定标准可通过利用某些滞后(即基于最后帧的预测方向的不同确定阈值)来稳定化。关于该预测方向的另一可以想到的标准将是输入信道的信道间相位差。关于滞后,阈值的控制可以某一时间间隔内预测方向几乎无变化优先于该时间间隔内有许多变化的这一方式来执行。因此,从某一阈值开始,该阈值可响应预测方向变化而增加。则基于该高值,在无预测方向变化被计算期间,该阈值可减少得越来越多。则当该阈值接近其最后变化之前的值时,该阈值保持在同一水平且系统再次准备改变预测方向。仅当S与M之间有非常高的差时,该过程才允许短间隔内的变化,但当M与S之间的能量差不那么高时,允许较少的频率变化。
可替代或附加地,反馈计算可被执行,其中,关于两个预测方向的剩余信号如步骤552所示来计算。随后,在步骤553中,预测方向被计算,这产生了较小的剩余信号或关于剩余信号或下混信号的较少的位或者较少的总位数或较好的音频信号质量或者任何其他特定情况。因此,产生特定最优化目标的预测方向在该反馈计算中被选出。
需要强调,本发明不仅适用于立体声信号,即仅具有两个信道的多信道信号,而且也适用于诸如5.1或7.1信号的具有三个以上信道的多信道信号的两个信道。关于多信道实施的一种实施方式可包括多个信号对的识别和针对多于一对信号的数据的计算和并行传输或存储。
在音频解码器的实施方式中,编码或解码后的第一合成信号104和编码或解码后的预测剩余信号106分别包括第一多个次频带信号,其中,预测信息包括第二多个预测信息参数,该第二多个小于该第一多个,其中,预测器1160被配置为对解码后的第一合成信号的至少两个不同次频带信号应用相同预测参数,其中,解码器计算器116或合成信号计算器1161或者合成器1162被配置为执行次频带式处理;且其中,该音频解码器还包括合成滤波器组52、53,合成滤波器组52、53用于合成解码后的第一合成信号与解码后的第二合成信号的次频带信号以获得时域第一解码信号和时域第二解码信号。
在音频解码器的实施方式中,预测器1160被配置为接收窗口形状信息109,以及用于利用不同滤波器系数来计算虚部频谱,其中,不同滤波器系数取决于由窗口形状信息109指示的不同窗口形状。
在音频解码器的实施方式中,解码后的第一合成信号与由包括在编码后的多信道信号100中的转换长度指示符指示的不同转换长度相关联,以及其中,预测器1160被配置为仅利用具有相同相关联转换长度的第一合成信号的一个或多个帧来估计关于第一合成信号的当前帧的虚部。
在音频解码器的实施方式中,预测器1160被配置为利用频率相邻的解码后的第一合成信号的多个次频带来估计第一合成信号的虚部,以及其中,在低频或高频情况下,第一合成信号的当前帧的频率的对称扩展被用于与低于或等于零或者高于或等于当前帧基于的采样频率的一半的频率相关联的次频带,或者其中,包括在预测器1160a中的滤波器的滤波器系数针对缺失次频带而被设定为与非缺失次频带相比的不同值。
在音频解码器的实施方式中,预测信息108以量化和熵编码表示包括在编码后的多信道信号中,其中,该音频解码器还包括预测信息解码器65,预测信息解码器65用于熵解码或解量化以获得由预测器1160利用的解码后的预测信息,或者其中,编码后的多信道音频信号包括数据单元,该数据单元以第一状态指示预测器1160使用时间上在解码后的第一合成信号的当前帧之前或之后的至少一个帧,以及以第二状态指示预测器1160仅使用解码后的第一合成信号的单一帧来估计关于该解码后的第一合成信号的当前帧的虚部,以及其中,预测器1160被配置为检测该数据单元的状态以及相应运行。
在音频解码器的实施方式中,预测信息108包括时间连续或频率相邻的复值之间的差的码字,且其中,该音频解码器被配置为执行熵解码步骤和后续的差分解码步骤以获得时间连续的量化复预测值或关于相邻频带的复预测值。
在音频解码器的实施方式中,编码后的多信道信号包括作为侧信息的实数指示符,其指示关于编码后的多信道信号的帧的所有预测系数均为实值,其中,该音频解码器被配置为从编码后的多信道音频信号100中提取实数指示符,且其中,由于实数指示符仅指示实值预测系数,所以解码器计算器116被配置为不计算关于帧的虚数信号。
在音频编码器的实施方式中,预测器2033包括量化器,该量化器用于量化第一信道信号、第二信道信号、第一合成信号或第二合成信号以获得一个或多个量化信号,且其中,预测器2033被配置为利用量化信号来计算剩余信号。
在音频编码器的实施方式中,第一信道信号是样本块的频谱表示,以及第二信道信号是样本块的频谱表示,其中,该频谱表示是纯实数频谱表示或纯虚数频谱表示,其中,优化器207被配置为作为异于零的实值因子和/或作为异于零的虚数因子来计算预测信息206,且其中,编码器计算器203被配置为计算第一合成信号和预测剩余信号,使得预测信号利用实值因子从纯实数频谱表示或纯虚数频谱表示获得。
本发明的编码后的音频信号可被存储在数字存储介质上或者可在诸如无线传输介质或诸如因特网的有线传输介质的传输介质上被传输。
尽管主要在音频处理背景下描述了本发明,但需要强调,本发明也可应用于编码或解码视频信号。具有变化的方向的复预测可应用于例如3D立体视频压缩。在该特定实例中,使用2D-MDCT。有关该技术的一个实例是Google WebM/VP8。然而,无需2D-MDCT的其他实施也可被应用。
尽管已在设备背景下描述了某些方面,但应清楚,这些方面也表示对相应方法的描述,其中,块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤背景下描述的方面也表示对相应设备的相应块或项目或者特征的描述。
根据特定实施要求,本发明的实施方式可以硬件或软件来实施。该实施可使用具有存储其上的电可读控制信号的数字存储介质来执行,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或内存,该电可读控制信号与可编程计算机系统协作(或者能够协作),使得相应方法被执行。
根据本发明的一些实施方式包括具有电可读控制信号的非暂时性或有形数据载体,该电可读控制信号能够与可编程计算机系统协作,从而执行本文所述方法中的一种。
一般地,本发明的实施方式可被实施为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码可操作地用于执行方法中的一种。该程序代码例如可存储在机器可读载体上。
其他实施方式包括存储在机器可读载体上用于执行本文所述方法中的一种的计算机程序。
因此,换言之,本发明方法的实施方式是具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文所述方法中的一种。
因此,本发明方法的另一实施方式是包括存储其上用于执行本文所述方法中的一种的计算机程序的数据载体(或数字存储介质或者计算机可读介质)。
因此,本发明方法的另一实施方式是表示用于执行本文所述方法中的一种的计算机程序的数据流或信号序列。该数据流或信号序列例如可被配置为经由数据通信连接(例如经由因特网)来传送。
另一实施方式包括处理装置(例如计算机)或可编程逻辑器件,其被配置为或适用于执行本文所述方法中的一种。
另一实施方式包括具有安装其上用于执行本文所述方法中的一种的计算机程序的计算机。
在一些实施方式中,可编程逻辑器件(例如,现场可编程门阵列)可用于执行本文所述方法中的一些或全部功能。在一些实施方式中,现场可编程门阵列可与微处理器协作以执行本文所述方法中的一种。一般地,该方法优选由任何硬件设备执行。
上述实施方式仅用于说明本发明的原理。应当理解,本文所述配置和细节的修改和变形对于本领域技术人员而言将是显而易见的。因此,其旨在仅由所附专利权利要求的范围来限定,且不由以对本文实施方式的描述和说明的方式给出的具体细节来限定。