CN102855876B

CN102855876B - 音频编码器和音频编码方法

Info

Publication number: CN102855876B
Application number: CN201210212498.9A
Authority: CN
Inventors: 户栗康裕; 前田祐儿; 松本淳; 铃木志朗; 松村祐树
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-07-01
Filing date: 2012-06-21
Publication date: 2017-04-12
Anticipated expiration: 2032-06-21
Also published as: US9672832B2; CN102855876A; US20130003980A1; JP6061121B2; JP2013033189A

Abstract

本发明公开了一种音频编码器和音频编码方法，该音频编码器包括：确定部，基于多个声道的音频信号的频谱，确定混合比率，该混合比率为针对多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；混合部，基于确定部确定的混合比率，针对每个声道混合多个声道的频谱；以及编码部，对经混合部混合之后的多个声道的频谱进行编码。

Description

音频编码器和音频编码方法

技术领域

本技术涉及一种音频编码器以及音频编码方法序，更具体地，涉及能够在高效地对多个声道的音频信号进行编码时防止由于编码而导致声音质量劣化的音频编码器和音频编码方法。

背景技术

在用于对由多个声道的音频信号构成的立体声音频信号进行编码的公知技术当中，存在通过利用声道之间的关系来提高编码效率的M/S立体声编码技术、强度立体声编码技术等。在下文中，为了便于说明，立体声音频信号的声道数量是两个，即左声道和右声道，但是该说明同样可以适用于数量是三个或更多个的情况。

M/S立体声编码生成构成立体声音频信号的右声道的音频信号和左声道的音频信号之间的和分量以及差分量作为编码结果。因此，由于当右声道的音频信号和左声道的音频信号彼此类似时差分量较小，因此编码效率较高。然而，由于当右声道的音频信号和左声道的音频信号彼此显著不同时差分量较大，因此难以获得高编码效率。这会在编码之后的量化时引起量化噪声，从而在解码时引起人工噪声。

在强度立体声编码中，基于如下原理执行编码：人类听觉在高频域对相位迟钝，并且主要基于频谱之间的水平比(level ratio)来感测位置(例如，参见ISO/IEC 13818-7Information technology"Generic coding of moving pictures and associatedaudio information Part 7",Advanced Audio Coding(AAC))。具体地，对于低于预定频率F_IS的频率，强度立体声编码按原样提供右声道和左声道的频谱作为编码结果。另一方面，对于等于或大于预定频率F_IS的频率，强度立体声编码生成通过混合右声道和左声道的频谱而获得的共同谱以及各个声道的频谱的水平作为编码结果。

因此，对于低于频率F_IS的频率，解码器将作为编码结果的右声道和左声道的频谱按原样提供作为解码结果。另一方面，对于等于或大于频率FIS的频率，解码器将各个声道的频谱的水平应用于作为编码结果的共同谱，以生成解码结果。

另外，对于这样的强度立体声编码，假定与M/S立体声编码的情况类似，右声道的音频信号和左声道的音频信号彼此类似。因此，当右声道的音频信号和左声道的音频信号彼此完全不同时，例如，当左声道的音频信号是钹（cymbals）的音频信号而右声道的音频信号是小号（trumpet）的音频信号时，由于共同谱不同于右声道和左声道的频谱，因此在解码时会出现人工噪声。

因此，提出了计算右声道的音频信号的频谱与左声道的音频信号的频谱之间的距离的尺度，并且当该尺度等于或小于阈值时，执行诸如M/S立体声编码的共同编码，并且当该尺度等于或大于阈值时，单独地执行编码（例如，参见日本专利第3421726号，在下文中将其称为专利文献1）。

此外，还提出了针对预定频带将立体声音频信号的频谱划分成段（piece），并且对于每个频带，使用特定的哈夫曼码本号来传送被应用了强度立体声编码的索引（例如，参见日本专利第3622982号，这在下文中被称为专利文献2）。因而，可以针对每个预定频带而在开与关之间切换强度立体声编码。

然而，在专利文献1和2的技术的情况下，当在开与关之间频繁切换共同编码或强度立体声编码时，感测位置会变得不稳定或者会出现异常声音。

另外，存在对于编码期望高压缩率的情形。即使在右声道的音频信号和左声道的音频信号彼此显著不同时，该情形也可能强制要求采用强度立体声编码以提高编码效率。在该情况下，在解码时肯定会出现可感测的人工噪声。

同时，认为针对带而被划分成段的立体声音频信号基于编码的失真系数、以混合比率混合从而将其编码（例如，参见日本专利第3951690号）。在该情况下，由于基于失真系数连续地控制右边和左边的编码对象的分离（立体声感觉），因此可以防止感测位置不稳定或者可以防止异常声音的出现。

图1是示出执行这样的编码的音频编码器的配置的一个示例的框图。

图1中的音频编码器10被配置成包括滤波器组11、滤波器组12、自适应混合部13、T/F变换部14、T/F变换部15、编码控制部16、编码部 17、多路复用器18以及失真系数检测部19。

作为左声道的时间信号的音频信号x_L和作为右声道的时间信号的音频信号x_R作为编码对象的立体声音频信号被输入到图1中的音频编码器10。

音频编码器10的滤波器组11将被输入作为编码对象的音频信号x_L划分成相应的B个频带（带）的音频信号。滤波器组11将所划分的具有带号b（b=1，2，…，B）的子带信号x^b _L提供到自适应混合部13。

类似地，滤波器组12将被输入作为编码对象的音频信号x_R划分成相应的B个带的音频信号。滤波器组12将所划分的具有带号b（b=1，2，...，B）的子带信号x^b _R提供到自适应混合部13。

自适应混合部13基于从失真系数检测部19提供的并且用于对过去的编码对象编码的失真系数，确定从滤波器组11提供的子带信号x^b _L与从滤波器组12提供的子带信号x^b _R的混合比率。

具体地，自适应混合部13使得混合比率随着失真系数越大（即，S/N比率越小）而越大。因而，要通过进行混合而获得的子带信号针对右边和左边的分离（立体声感觉）变小，并且将提高编码效率。另一方面，自适应混合部13使得混合比率随着失真系数越小（即，S/N比率越大）而越小。因而，要通过进行混合而获得的子带信号针对右边和左边的分离（立体声感觉）变大。

自适应混合部13基于所确定的子带信号x^b _L的混合比率而针对每个带混合子带信号x^b _L和子带信号x^b _R，以生成子带信号x^b _Lmix。类似地，自适应混合部13基于所确定的子带信号x^b _R的混合比率而针对每个带混合子带信号xbL和子带信号x^b _R，以生成子带信号x^b _Rmix。自适应混合部13将所生成的子带信号x^b _Lmix提供到T/F变换部14，并且将子带信号x^b _Rmix提供到T/F变换部15。

T/F变换部14对子带信号x^b _Lmix执行诸如MDCT（改进的离散余弦变换）的时频变换，并且将所得到的频谱X_L提供到编码控制部16和编码部17。

类似地，T/F变换部15对子带信号x^b _Rmix执行诸如MDCT的时频变换，并且将所得到的频谱X_R提供到编码控制部16和编码部17。

编码控制部16基于从T/F变换部14提供的频谱X_L与从T/F变换部15提供的频谱X_R之间的关联，选择M/S立体声编码和强度编码这两种编码中的任一种编码方案。编码控制部16将所选择的编码方案提供到编码部17。

编码部17使用从编码控制部16提供的编码方案对从T/F变换部14提供的频谱X_L和从T/F变换部15提供的频谱X_R中的每一个进行编码。编码部17将通过编码所获得的编码谱和关于编码的附加信息提供到多路复用器18。

多路复用器18以预定格式对从编码部17提供的编码谱、关于编码的附加信息等进行多路复用，并且输出所得到的编码数据。

失真系数检测部19检测编码部17的编码的失真系数，并且将其提供到自适应混合部13。

发明内容

然而，在图1的音频编码器10中，由于基于过去的编码对象的失真系数来确定混合比率，因此该混合比率不一定适合于当前编码对象的特征。结果，会出现由于编码而导致的声音质量的劣化。例如，即使当右声道的音频信号和左声道的音频信号彼此显著不同时，也会出现由于未充分混合右声道和左声道的频谱而引起的解码时的噪声。

本技术是鉴于上述情形而做出的，并且期望在高效地对立体声音频信号进行编码时防止由于编码而导致的声音质量的劣化。

根据本技术的一方面，提供了一种音频编码器，包括：确定部，基于多个声道的音频信号的频谱，确定混合比率，该混合比率为针对多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；混合部，基于确定部确定的混合比率，针对每个声道混合多个声道的频谱；以及编码部，对经混合部混合后的多个声道的频谱进行编码。

根据本技术的一方面，提供了一种与根据本技术的第一方面的音频编码器对应的音频编码方法和程序。

在根据本技术的一方面，基于多个声道的音频信号的频谱，确定混合比率，该混合比率为针对多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；基于所确定的混合比率，针对每个声道混合多个声道的频谱；以及对混合后的多个声道的频谱进行编码。

根据本技术的一方面，可以在高效地对多个声道的音频信号进行编码时防止由于编码而导致的声音质量的劣化。

附图说明

图1是示出过去的音频编码器的配置的一个示例的框图；

图2是示出应用了本技术的音频编码器的一个实施例的构成示例的框图；

图3是用于说明图2中的关联/能量计算部中的带的图；

图4是示出图2中的自适应混合部的构成示例的图；

图5是示出混合比率m₁的示例的图；

图6是示出混合比率m₂的示例的图；

图7是示出混合比率m₃的示例的图；

图8是示出图2中的编码部的构成示例的框图；

图9是用于说明编码处理的流程图；

图10是用于详细地说明图9中的混合处理的流程图；以及

图11是示出计算机的一个实施例的构成示例的图。

具体实施方式

<实施例>

(音频编码器的一个实施例的构成示例)

图2是示出应用了本技术的音频编码器的一个实施例的构成示例的框图。

图2中的音频编码器30被配置成包括输入端子31和输入端子32、T/F变换部33和T/F变换部34、关联/能量计算部35、自适应混合部36、编码部37、多路复用器38以及输出端子39。音频编码器30以基于立体声音频信号的频谱的混合比率来对频谱进行混合，以执行强度立体声编码。

具体地，编码对象的立体声音频信号之中作为左声道的时间信号的音频信号x_L被输入到音频编码器30的输入端子31，并且被提供到T/F变换部33。此外，编码对象的立体声音频信号之中作为右声道的时间信号的音频信号x_R被输入到输入端子32，并且被提供到T/F变换部34。

T/F变换部33针对每个预定的变换帧，对从输入端子31提供的音频信号x_L执行诸如MDCT变换的时频变换。T/F变换部33将所得到的频谱X_L（系数）提供到关联/能量计算部35和自适应混合部36。

类似地，T/F变换部34针对每个预定的变换帧，对从输入端子32提供的音频信号x_R执行诸如MDCT变换的时频变换。T/F变换部34将所得到的频谱X_R（系数）提供到关联/能量计算部35和自适应混合部36。

关联/能量计算部35针对各预定频带（带）将从T/F变换部33提供的频谱X_L和从T/F变换部34提供的频谱X_R中的每一个划分成段。另外，按照频率的升序而顺序地为各个带给出带号b（b=1，2，…，B）。

另外，关联/能量计算部35根据以下等式（1），针对每个带计算具有带号b的带的频谱X_L的能量E_L(b)和频谱X_R的能量E_R(b)。

另外，在等式（1）中，X_L(k)表示频率索引k的频谱X_L，X_R(k)表示频率索引k的频谱X_R。另外，K_b和K_b+1-1分别表示与具有带号b的带的频率对应的频率索引的最小值和最大值。这同样适用于下述等式（2）。

此外，关联/能量计算部35根据以下等式（2），使用能量E_L(b)和能量E_R(b)来针对每个带计算频谱X_L与频谱X_R之间的关联corr(b)。

尽管每次在频谱X_L和频谱X_R被输入到关联/能量计算部35时（即，针对每个变换帧）计算该关联corr(b)，但是关联/能量计算部35由于关联corr(b)相对于其它的强烈变化而对关联corr(b)执行时间平滑。具体地，关联/能量计算部35例如根据以下等式（3），通过计算当前变换帧的关联corr(b)和预定数量的过去变换帧的关联corr(b)的指数加权平均值来顺序地计算平均关联ave_corr(b)。

ave_corr(b)=r×ave_corr(b)^Old+(1-r)×corr(b)(0<r<1)...(3)

在等式（3）中，ave_corr(b)^Old是预定数量的过去变换帧的指数加权平均值。

关联/能量计算部35将如上算出的平均关联ave_corr(b)、能量E_L(b)和能量E_R(b)提供到自适应混合部36。

自适应混合部36基于从关联/能量计算部35提供的平均关联ave_corr(b)、能量E_L(b)和能量E_R(b)，计算每个带的混合比率。该混合比率是右声道的频谱X_R（左声道的频谱X_L）相对于混合后的左声道的频谱X_Lmix（右声道的频谱X_Rmix）的比率。

自适应混合部36基于每个带的混合比率，针对每个带和声道混合从T/F变换部33提供的频谱X_L和从T/F变换部34提供的频谱X_R。自适应混合部36将混合之后所得到的左声道的频谱X_Lmix和右声道的频谱X_Rmix提供到编码部37。

编码部37对从自适应混合部36提供的频谱X_Lmix和频谱X_Rmix执行强度立体声编码。编码部37将通过编码所获得的编码谱和关于编码的附加信息提供到多路复用器38。

多路复用器38以预定格式对从编码部37提供的编码谱、关于编码的附加信息等执行多路复用，从而经由输出端子39输出所得到的编码数据。

尽管以上在音频编码器30中关联corr(b)经历时间平滑，但是可不采用时间平滑，从而使得上述等式（3）中的r为0。此外，能量E_L(b)和能量E_R(b)也可与关联corr(b)一样经历时间平滑。

尽管以上在音频编码器30中编码部37执行强度立体声编码，但是可采用除强度立体声编码之外的高效编码，诸如M/S立体声编码。

（带的说明）

图3是用于说明图2中的关联/能量计算部35中的带的图。

如图3所示，每个带是具有预定频率的带宽。例如，在图3中，具有带号b的带是包括等于或大于对应于频率索引K_b的频率且小于对应于频率索引K_b+1的频率的频率的带宽。

另外，在图3的示例中，带之中右边和左边的频谱在强度立体声编码中不是按原样成为编码结果的最底下带（在下文中称为起始带）的带号是isb。此外，具有带号isb的带的最小频率索引是K_isb，并且频率索引K_isb的频率是F_IS。

另外，优选地，关联/能量计算部35中的带被配置成在根据听觉的临界带宽（听力临界带）划分时带的范围随着进入越高的频域而越宽。另外，带的范围可等于作为编码部37中的量化或编码的处理单位的量化单位的范围，或者与之不同。等于或大于F_IS的频率可仅构成一个带而不被划分成多个带。

（自适应混合部的构成示例）

图4是示出图2中的自适应混合部36的构成示例的图。

图4中的自适应混合部36被配置成包括确定部51、乘法部52、乘法部53、加法部54、乘法部55、乘法部56以及加法部57。

确定部51使用从图2中的关联/能量计算部35提供的带的能量E_L(b)、能量E_R(b)和平均关联ave_corr(b)，计算每个带的混合比率m(b)。确定部51将算出的混合比率m(b)提供到乘法部52、乘法部53、乘法部55以及乘法部56。

乘法部52、乘法部53以及加法部54用作左声道的混合部，并且乘法部55、乘法部56以及加法部57用作右声道的混合部。

具体地，乘法部52、乘法部53以及加法部54根据以下等式（4）、基于混合比率m(b)而执行混合，以生成混合后的频谱X_Lmix。此外，乘法部55、乘法部56以及加法部57根据以下等式（4）、基于混合比率m(b)而执行混合，以生成混合后的频谱X_Rmix。

X_Lmix(k)=(1-m(b))×X_L(k)+m(b)×X_R(k)

X_Rmix(k)=m(b)×X_L(k)+(1-m(b))×X_R(k)...(4)

在等式（4）中，频率索引k是包括在具有带号b的带中的频率的频率索引。另外，在等式（4）中，X_Lmix(k)和X_Rmix(k)分别是频率索引k的频谱X_Lmix和频谱X_Rmix。此外，X_L(k)和X_R(k)是频率索引k的频谱X_L和频谱X_R。

更详细地，乘法部52针对每个带，将从图2中的T/F变换部33提供的频谱X_L与通过从1减去从确定部51提供的混合比率m(b)而获得的值相乘，以将所得到的频谱提供到加法部54。

此外，乘法部53针对每个带，将从图2中的T/F变换部34提供的频谱X_R与从确定部51提供的混合比率m(b)相乘，以将所得到的频谱提供到加法部54。

加法部54针对每个带，将从乘法部52提供的频谱与从乘法部53提供的频谱相加。加法部54将通过相加所获得的频谱作为混合后的频谱X_Lmix提供到图2中的编码部37。

此外，乘法部55针对每个带，将从T/F变换部33提供的频谱X_L(b)与从确定部51提供的混合比率m(b)相乘，以将所得到的频谱提供到加法部57。

乘法部56针对每个带，将从T/F变换部34提供的频谱X_R(b)与通过从1减去从确定部51提供的混合比率m(b)而获得的值相乘，以将所得到的频谱提供到加法部57。

加法部57针对每个带，将从乘法部55提供的频谱与从乘法部56提供的频谱相加。加法部57将通过相加所获得的频谱作为混合后的频谱X_Rmix提供到编码部37。

（计算混合比率的方法的说明）

图5至图7是用于说明图4中的确定部51中的计算混合比率的方法的图。

确定部51针对每个带，基于平均关联ave_corr(b)确定例如图5所示的混合比率m₁(ave_corr(b))。在图5中，横轴表示平均关联ave_corr(b)，并且纵轴表示混合比率m₁(ave_corr(b))。

当平均关联ave_corr(b)接近0时，频谱X_L和频谱X_R彼此不同。因此，期望防止右声道和左声道的不同编码对象在解码时引起噪声。另一方面，当平均关联ave_corr(b)接近1时，频谱X_L和频谱X_R彼此类似。几乎不会出现由于编码而导致的解码时的噪声。因此，在图5的示例中，混合比率m₁(ave_corr(b))随着平均关联ave_corr(b)越接近0而变得越大，并且随着平均关联m₁(ave_corr(b))越接近1而变得越小。此外，当平均关联ave_corr(b)等于0时，混合比率m₁(ave_corr(b))是作为最大值的0.5。

同时，当平均关联ave_corr(b)是负值时，与平均关联ave_corr(b)是正值的情况类似，混合比率m₁(ave_corr(b))随着平均关联ave_corr(b)越接近0而变得越大，并且随着平均关联ave_corr(b)越接近-1而变得越小。然而，在该情况下，由于能量因混合而衰减，因此与平均关联ave_corr(b)是正值的情况下的混合比率相比，混合比率m₁(ave_corr(b))较小。此外，当平均关联ave_corr(b)小于比-1大的预定负阈值T（例如，大约-0.6）时，混合比率m₁(ave_corr(b))是0。

另外，可如以下等式（5）所表示的那样来确定混合比率m₁(ave_corr(b))。

m₁(ave_corr(b))=0,当ave_corr(b)≤C1时,

m₁(ave_corr(b))=0.5×(ave_corr(b)-C1)/(C2-C1),当C1<ave_corr(b)≤C2时,以及

m₁(ave_corr(b))=0.5×(ave_corr(b)-1)/(C2-1),当ave_corr(b)>C2时...(5)

在等式（5）中，C1和C2是预定阈值。例如，C1可以是-0.6，并且C2可以是0。

另外，确定部51针对每个带，基于能量E_L(b)和E_R(b)确定例如图6所示的混合比率m₂(LR_ratio(b))。

在图6中，横轴表示基于能量E_L(b)和E_R(b)由以下等式（6）定义的右声道和左声道的频谱的水平比LR_ratio(b)[dB]，并且纵轴表示混合比率m₂(LR_ratio(b))。

LR_ratio(b)=10log₁₀(E_L/E_R)...(6)

在图6的示例中，随着水平比LR_ratio的绝对值越大，即，随着频谱X_L和频谱X_R的水平越不相同，混合比率m₂(LR_ratio(b))变得越小，以防止声音泄漏（以下详细描述）。而且，当水平比LR_ratio的绝对值等于或大于预定阈值R（大约30dB）时，混合比率m₂(LR_ratio(b))为0。

然而，当右声道和左声道中的至少一个的声音几乎是无声的时，即，当频谱X_L和频谱X_R中的至少一个水平小于预定阈值时，声音泄漏是可感测的。因此，无论水平比LR_ratio如何，都使混合比率m₂(LR_ratio(b))为0。

声音泄漏是因混合水平彼此显著不同的音频信号的频谱而引起的，并且是从水平较大的频谱到水平较小的频谱的水平偏移。

此外，确定部51基于带的频率而确定例如图7所示的混合比率m₃(b)。在图7中，横轴表示带号b，并且纵轴表示混合比率m₃(b)。

当混合从作为起始带的具有带号isb的带急剧开始时，会由于不连续性而出现噪声。因此，在图7的示例中，从带号稍微在带号isb前面的带开始，混合比率m₃(b)逐渐增加至作为最大值的0.5。此外，在较高的频域（例如，13kHz或更高的频率）中，由于几乎感测不到解码时的噪声，因此混合比率m₃(b)略小于0.5，以便即使当频谱X_L和频谱X_R彼此不同时也保持立体声感觉。

确定部51使用如上算出的混合比率m₁(ave_corr(b))、m₂(LR_ratio(b))和m₃(b)，根据以下等式（7）计算带b的最终混合比率m(b)。

m(b)=4×m₁(ave_corr(b))×m₂(LR_ratio(b))×m₃(b)...(7)

另外，混合比率m(b)可以不是混合比率m₁(ave_corr(b))、m₂(LR_ratio(b))和m₃(b)的乘积，而是如以下等式（8）所述的、混合比率m₁(ave_corr(b))、m₂(LR_ratio(b))和m₃(b)的线性和。

m(b)=w₁×m₁(ave_corr(b))+w₂×m₂(LR_ratio(b))+w₃×m₃(b)，其中w₁+w₂+w₃=1...(8)

此外，混合比率m(b)不一定使用全部的混合比率m₁(ave_corr(b))、m₂(LR_ratio(b))和m₃(b)来确定，而是可使用混合比率m₁(ave_corr(b))、m₂(LR_ratio(b))和m₃(b)中的至少一个来确定。

（编码部的构成示例）

图8是示出图2中的编码部37的构成示例的框图。

图8中的编码部37被配置成包括乘法部71、运算部72、水平校正部73、加法部74、归一化部75、量化部76、加法部77、归一化部78以及量化部79。

在从图2中的自适应混合部36提供的频谱X_Lmix和X_Rmix当中，频率索引小于起始带中最小的频率F_IS的频率索引K_isb的频谱X_Lmix和频谱X_Rmix分别被提供到加法部74和加法部77。

另一方面，在从自适应混合部36提供的频谱X_Lmix和X_Rmix当中，频率索引等于或大于频率索引K_isb的频谱X_Lmix被提供到运算部72、水平校正部73以及加法部74，并且频率索引等于或大于频率索引K_isb的频谱X_Rmix被提供到乘法部71、水平校正部73以及加法部77。

乘法部71和运算部72根据以下等式（9），生成各自的频率索引均等于或大于频率索引K_isb的频谱X_Lmix和频谱X_Rmix共同的共同谱X_M。

X_M(k)=0.5×{X_Lmix(k)+sign×X_Rmix(k)}(k≥K_isb)...(9)

在等式（9）中，X_M(k)、X_Lmix(k)和X_Rmix(k)分别表示具有频率索引k的共同谱X_M、频谱X_Lmix、频谱X_Rmix。此外，sign是对于每个量化单位的频谱X_Rmix的相位极性并且是+1或-1。例如，当对于量化单位的频谱X_Lmix和X_Rmix的关联是正值时，相位极性符号是+1，并且当该关联是负值时，相位极性符号是-1。

更详细地，乘法部71将频率索引等于或大于频率索引K_isb的频谱X_Rmix与相位极性符号相乘，以将所得到的频谱提供到运算部72。

运算部72将频率索引等于或大于频率索引K_isb的频谱X_Lmix与从乘法部71提供的频谱相加，并且将所得到的频谱与0.5相乘以生成共同谱X_M。运算部72将所生成的共同谱X_M提供到水平校正部73。

水平校正部73针对每个量化单位，校正共同谱X_M的水平，以使得从运算部72提供的共同谱X_M的能量与频率索引等于或大于频率索引K_isb的频谱X_Lmix的、对于该量化单位的能量一致。类似地，水平校正部73校正共同谱X_M的水平，以使得共同谱X_M的能量与频率索引等于或大于频率索引K_isb的频谱X_Rmix的、对于该量化单位的能量一致。

具体地，首先，水平校正部73分别计算频率索引等于或大于频率索引K_isb的频谱X_Lmix和X_Rmix的、量化单位q的能量E_L(q)和E_R(q)以及共同谱X_M的能量E_M(q)。然后，水平校正部73针对每个量化单位q，根据以下等式（10）使用能量E_L(q)或E_R(q)以及能量E_M(q)校正共同谱X_M的水平。

在等式（10）中，X_M(k)、X_L ^IS(k)和X_R ^IS(k)分别表示频率索引k的共同谱XM、水平校正后的共同谱X_L ^IS和水平校正后的共同谱X_R ^IS。

水平校正部73将水平校正后的共同谱X_L ^IS提供到加法部74，并且将水平校正后的共同谱X_R ^IS提供到加法部77。

加法部74将频率索引小于频率索引K_isb的频谱X_Lmix与从水平校正部73提供的共同谱X_L ^IS相加，以将所得到的全部频率索引的频谱提供到归一化部75。

归一化部75针对具有预定频率带宽的每个量化单位，响应于频谱的幅度而使用归一化因子（比例因子）SF_L来对从加法部74提供的频谱进行归一化。归一化部75将通过归一化所获得的频谱X_L ^Norm提供到量化部76，并且将归一化因子SF_L作为关于编码的附加信息提供到图2中的多路复用器38。

量化部76以预定比特数对从归一化部75提供的频谱X_L ^Norm进行量化，以将量化后的频谱X_L ^Norm作为左声道的编码谱提供到多路复用器38。因而，作为左声道的编码谱提供到多路复用器38的编码谱的频率索引k与全部频率索引(0,1,...,K_isb,...,K)一致。

另外，加法部77将频率索引小于频率索引K_isb的频谱X_Rmix与从水平校正部73提供的共同谱X_R ^IS相加，以将所得到的全部频率索引的频谱提供到归一化部78。

归一化部78针对每个量化单位，响应于频谱的幅度而使用归一化因子SF_R来对从加法部77提供的频谱进行归一化。归一化部78将通过归一化所获得的频谱X_R ^Norm提供到量化部79，并且将归一化因子SF_R作为关于编码的附加信息提供到多路复用器38。

量化部79在从归一化部78提供的频谱X_R ^Norm中，以预定比特数对频率索引小于频率索引K_isb的频谱X_R ^Norm进行量化。量化部79将量化后的频谱X_R ^Norm作为右声道的编码谱提供到多路复用器38。因而，被提供到多路复用器38的右声道的编码谱的频率索引k与全部频率索引当中小于频率索引K_isb的频率索引(0,1，...,K_isb-1)一致。

尽管在图8的编码部37中，左声道的编码谱的频率索引k是全部频率索引并且右声道的编码谱的频率索引k是小于K_isb的频率索引，但是左声道的频率索引k可取代右声道的频率索引。即，右声道的编码谱的频率索引k可以是全部频率索引，并且左声道的编码谱的频率索引k可以是小于K_isb的频率索引。

（音频编码器的处理的说明）

图9是用于说明图2中的音频编码器30的编码处理的流程图。当音频信号x_L被输入到输入端子31并且音频信号x_R被输入到输入端子32时，启动该编码处理。

在图9的步骤S11中，T/F变换部33针对每个预定变换帧，对从输入端子31提供的左声道的音频信号x_L执行时频变换。T/F变换部33将所得到的频谱X_L提供到关联/能量计算部35和自适应混合部36。

在步骤S12中，T/F变换部34针对每个预定变换帧，对从输入端子32提供的右声道的音频信号x_R执行时频变换。T/F变换部34将所得到的频谱X_R提供到关联/能量计算部35和自适应混合部36。

在步骤S13中，关联/能量计算部35针对各个带，将从T/F变换部33提供的频谱X_L和从T/F变换部34提供的频谱X_R中的每一个划分成段。

在步骤S14中，关联/能量计算部35根据上述等式（1），针对每个带计算能量E_L(b)和能量E_R(b)，以提供到自适应混合部36。

在步骤S15中，关联/能量计算部35根据上述等式（2）、使用能量E_L(b)和能量E_R(b)来计算每个带的关联corr(b)，并保存它们。然后，关联/能量计算部35根据上述等式（3），通过计算当前变换帧的关联corr(b)和预定数量的过去变换帧的关联corr(b)的指数加权平均值来顺序地计算平均关联ave_corr(b)，以提供到自适应混合部36。

在步骤S16中，自适应混合部36基于平均关联ave_corr(b)、能量E_L(b)和能量E_R(b)，针对每个带和每个声道执行混合频谱X_L和频谱X_R的混合处理。将参照下述图10详细地描述该混合处理。

在步骤S17中，编码部37对从自适应混合部36提供的频谱X_Lmix和频谱X_Rmix执行强度立体声编码，以将所得到的编码谱提供到多路复用器38。

在步骤S18中，多路复用器38以预定格式对从编码部37提供的编码谱、关于编码的附加信息等执行多路复用，以经由输出端子39输出所得到的编码数据。然后，编码处理终止。

图10是用于详细地说明图9的步骤S16中的混合处理的流程图。

在图10的步骤S31中，自适应混合部36的确定部51（图4）基于从关联/能量计算部35提供的平均关联ave_corr(b)，针对每个带确定如图5所示的混合比率m₁(ave_corr(b))。

在步骤S32中，确定部51基于从关联/能量计算部35提供的能量E_L(b)和能量E_R(b)，针对每个带确定如图6所示的混合比率m₂(LR_ratio(b))。

在步骤S33中，确定部51基于各个带的频率，针对每个带确定如图7所示的混合比率m₃(b)。

在步骤S34中，确定部51根据上述等式（7）或等式（8），基于混合比率m₁(ave_corr(b))、混合比率m₂(LR_ratio(b))和混合比率m₃(b)，针对每个带确定混合比率m(b)。确定部51将算出的混合比率m(b)提供到乘法部52、乘法部53、乘法部55以及乘法部56。

在步骤S35中，乘法部52针对每个带，将从图2中的T/F变换部33提供的频谱X_L与通过从1减去从确定部51提供的混合比率m(b)而获得的值相乘，以将所得到的频谱提供到加法部54。此外，乘法部56针对每个带，将从图2中T/F变换部34提供的频谱X_R与通过从1减去从确定部51提供的混合比率m(b)而获得的值相乘，以将所得到的频谱提供到加法部57。

在步骤S36中，乘法部53针对每个带，将从T/F变换部34提供的频谱X_R与从确定部51提供的混合比率m(b)相乘，以将所得到的频谱提供到加法部54。此外，乘法部55针对每个带，将从T/F变换部33提供的频谱X_L与从确定部51提供的混合比率m(b)相乘，以将所得到的频谱提供到加法部57。

在步骤S37中，加法部54针对每个带，将从乘法部52提供的频谱与从乘法部53提供的频谱相加。加法部54将所得到的频谱作为混合后的频谱X_Lmix提供到图2中的编码部37。此外，加法部57针对每个带，将从乘法部55提供的频谱与从乘法部56提供的频谱相加。加法部57将所得到的频谱作为混合后的频谱X_Rmix提供到编码部37。然后，处理返回至图9中的步骤S16，并且进行到步骤S17。

如上所述，由于音频编码器30基于编码对象的立体声音频信号的频谱X_L和X_R确定混合比率m(b)，因此混合比率m(b)适合于编码对象的立体声音频信号的特征。结果，可以防止由于编码而导致的声音质量的劣化，诸如噪声的出现和声音泄漏。

此外，由于音频编码器30针对每个带不是混合音频信号x_L和x_R而是混合频谱X_L和X_R，因此与图1中的音频编码器10不同，不需要滤波器组11和12来划分成带。另外，可以减少编码处理中的运算量和存储器使用量。

（应用了本技术的计算机的说明）

接下来，上述一系列处理可以由硬件或软件来执行。当这一系列处理由软件来执行时，构成该软件的程序安装在通用计算机等中。

因此，图11示出了根据安装有执行上述一系列处理的程序的计算机的一个实施例的构成示例。

程序可以预先存储在作为置于计算机中的记录介质的存储部208或ROM（只读存储器）202中。

或者，程序可以存储（记录）在可移动介质211中。这样的可移动介质211可以被提供作为所谓的封装软件。这里，可移动介质211是例如软盘、CD-ROM（致密盘只读存储器）、MO（磁光）盘、DVD（数字通用盘）、磁盘、半导体存储器等。

另外，程序可以从上述可移动介质211经由驱动器210安装在计算机中，或者可以经由通信网络或广播网络下载到计算机中，以安装在内置存储部208中。即，程序可以通过无线通信（例如从下载站点经由用于数字卫星广播的卫星）传送到计算机，或者可以经由网络（诸如LAN（局域网）和因特网）通过有线通信而传送到计算机。

计算机内包括CPU（中央处理单元）201，并且I/O接口205经由总线204连接到CPU201。

当CPU 201接收到用户经由I/O接口205通过对输入部206的操作而输入的命令时，根据该命令，CPU 201执行存储在ROM 202中的程序。或者，CPU 201将存储在存储部208中的程序加载到RAM（随机存取存储器）203中并执行该程序。

因而，CPU 201执行根据上述流程图的处理或者根据上述框图的配置而被执行的处理。然后，CPU 201例如在必要时经由I/O接口205从输出部207输出处理结果，或者从通信部209传送该处理结果，另外，将该处理结果记录在存储部208等中。

另外，输入部206被配置成包括键盘、鼠标、麦克风等。此外，输出部207被配置成包括LCD（液晶显示器）、扬声器等。

这里，在本发明中，计算机根据程序所执行的处理不一定按照流程图所指示的顺序以时间顺序来执行。即，计算机根据程序所执行的处理还包括并行地或单独地执行的处理（例如，并行处理或面向对象的处理）。

另外，程序可由一个计算机（处理器）来处理，或者可由多个计算机以分布式处理方式来执行。此外，程序可被传送到远程计算机来执行。

本领域技术人员应理解，在所附权利要求或其等同方案的范围内，根据设计要求和其它因素，可进行各种修改、组合、子组合和变更。

另外，还可如下配置本技术。

（1）一种音频编码器，包括：

确定部，基于多个声道的音频信号的频谱，确定混合比率，所述混合比率为针对所述多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；

混合部，基于所述确定部确定的所述混合比率，针对每个声道混合所述多个声道的频谱；以及

编码部，对经所述混合部混合后的所述多个声道的频谱进行编码。

（2）根据（1）所述的音频编码器，其中，

所述确定部基于所述多个声道的频谱之间的关联，确定所述混合比率。

（3）根据（2）所述的音频编码器，其中，

所述确定部以下述方式确定所述混合比率：所述混合比率随着所述关联越接近0而变得越大，并且所述混合比率随着所述关联越接近-1而变得越小。

（4）根据（2）或（3）所述的音频编码器，其中，

当所述关联小于预定负阈值时，所述确定部确定所述混合比率是0，其中所述预定负阈值大于-1。

（5）根据（1）至（4）中任一项所述的音频编码器，其中，

所述确定部基于所述多个声道的频谱之间的水平比，确定所述混合比率。

（6）根据（5）所述的音频编码器，其中，

所述确定部以下述方式确定所述混合比率：所述混合比率随着所述水平比越大而变得越小。

（7）根据（5）或（6）所述的音频编码器，其中，

当所述多个声道中的至少一个声道的频谱的水平小于预定阈值时，所述确定部确定所述混合比率是0，而当所述多个声道的所有频谱的水平都等于或大于所述预定阈值时，所述确定部基于所述水平比确定所述混合比率。

（8）根据（5）所述的音频编码器，其中，

所述确定部基于所述多个声道的频谱之间的能量比，确定所述混合比率。

（9）根据（1）至（8）中任一项所述的音频编码器，其中，

所述确定部针对各个预定频带将所述多个声道的各个频谱划分成段，并且基于针对每个频带的所述多个声道的频谱确定每个频带的混合比率，以及

所述混合部基于所述确定部确定的针对每个频带的混合比率，针对每个声道和每个频带而混合所述多个声道的频谱。

（10）根据（9）所述的音频编码器，其中，

所述确定部基于每个频带的频谱和该频带的频率，确定对于每个频带的混合比率。

（11）根据（1）至（10）中任一项所述的音频编码器，其中，

所述编码器对经所述混合部混合后的所述多个声道的频谱执行强度立体声编码。

（12）一种音频编码方法，包括通过音频编码器执行如下步骤：

基于多个声道的音频信号的频谱，确定混合比率，所述混合比率为针对所述多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；

基于通过确定步骤的处理而确定的所述混合比率，针对每个声道混合所述多个声道的频谱；以及

对通过混合步骤的处理混合后的所述多个声道的频谱进行编码。

（13）一种使得计算机执行以下步骤的程序：

本公开内容包含与2011年10月20日向日本专利局提交的日本优先权专利申请JP2011-230330和2011年7月1日向日本专利局提交的日本优先权专利申请JP 2011-147421中公开的主题内容有关的主题内容，其全部内容通过引用而合并于此。

Claims

1.一种音频编码器，包括：

编码部，对经所述混合部混合之后的所述多个声道的频谱进行编码，

其中，所述确定部基于所述多个声道的频谱之间的水平比，确定所述混合比率。

2.根据权利要求1所述的音频编码器，其中，

所述确定部还基于所述多个声道的频谱之间的关联，确定所述混合比率。

3.根据权利要求2所述的音频编码器，其中，

4.根据权利要求2所述的音频编码器，其中，

5.根据权利要求1所述的音频编码器，其中，

6.根据权利要求1所述的音频编码器，其中，

7.根据权利要求1所述的音频编码器，其中，

8.根据权利要求1所述的音频编码器，其中，

所述确定部针对各个预定频带将所述多个声道的各个频谱划分成段，并且还基于针对每个频带的所述多个声道的频谱确定每个频带的混合比率，以及

9.根据权利要求8所述的音频编码器，其中，

所述确定部基于每个频带的频谱和该频带的频率，确定每个频带的混合比率。

10.根据权利要求1所述的音频编码器，其中，

11.一种音频编码方法，包括通过音频编码器执行如下步骤：

基于多个声道的音频信号的频谱，确定混合比率，该混合比率为针对所述多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；

对通过混合步骤的处理混合后的所述多个声道的频谱进行编码，

其中，基于所述多个声道的频谱之间的水平比，确定所述混合比率。