CN101809656A

CN101809656A - 音响编码装置、音响解码装置、音响编码解码装置及会议系统

Info

Publication number: CN101809656A
Application number: CN200980100543A
Authority: CN
Inventors: 石川智一; 则松武志; 张国成; 周欢
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2008-07-29
Filing date: 2009-07-28
Publication date: 2010-08-18
Anticipated expiration: 2029-07-28
Also published as: EP2306452B1; JPWO2010013450A1; BRPI0905069A2; WO2010013450A1; US20100198589A1; EP2306452A4; EP2306452A1; RU2010111795A; US8311810B2; RU2495503C2; CN101809656B; JP5243527B2

Abstract

削减多声道音响编码装置以及多声道音响解码装置的延迟。音响编码装置具备：降混信号生成部(410)，对输入的多声道音响信号，在时间域上生成1或2声道的音响信号即第一降混信号；降混信号编码部(404)，对第一降混信号进行编码；第一t-f变换部(401)，将输入的多声道音响信号变换为频域的多声道音响信号；以及空间信息计算部(409)，对频域的多声道音响信号进行分析，由此生成根据降混信号生成多声道音响信号的空间信息。

Description

音响编码装置、音响解码装置、音响编码解码装置及会议系统

技术领域

本发明涉及在多声道音响编码技术以及多声道音响解码技术中、实现更低延迟的编码处理以及解码处理的装置。作为该技术的应用，本发明能够适用于家庭影院系统、车载音响系统、电子游戏系统、会议系统以及便携电话等。

背景技术

在将多声道音响信号编码的方式中，存在杜比-数字方式以及MPEG(Moving Pictures Experts Group，运动图像专家组)-AAC(Advanced AudioCoding，高级音频编码)方式等。这些编码方式，基本上通过将多声道音响信号中的各声道的音响信号分别编码，来实现多声道音响信号的传送。这些编码方式，被称为离散多声道编码，并能够与5.1声道配合而在实用上将比特率为384kbps左右作为下限，来进行编码。

另一方面，作为完全不同的方法，存在将多声道音响信号编码而进行传送的空间音频编码技术(SAC：Spatial-CueAudio Coding)。作为SAC方式的一个例子，存在MPEG环绕方式。如非专利文献1所记载的那样，MPEG环绕方式为如下方式：将多声道音响信号降混到1或2声道的音响信号中，并用MPEG-AAC方式(非专利文献2)以及HE(High-Efficiency，高效)-AAC方式(非专利文献3)等，将该1或2声道的音响信号、即降混信号进行编码，由此生成降混编码串，同时将根据各声道之间的信号生成的空间信息(SpatialCue)附加到上述降混编码串中。

在空间信息(SpatialCue)中含有表示降混信号与原来输入的各声道信号的相关值、功率比以及相位的差异等的关系的信息、即将降混信号分离为多声道音响信号的声道分离信息。以其为基础，在音响解码装置中，将被编码的降混信号进行解码，之后根据解码的降混信号和空间信息(SpatialCue)生成多声道音响信号。如此，实现多声道音响信号的传送。

在MPEG环绕方式中使用的空间信息(SpatialCue)为非常小的信息量，因此对于1或2声道的降混编码串能够将信息量的增大抑制为最小限度。因此，在MPEG环绕方式中，能够以与1或2声道的音响信号相同程度的信息量来编码多声道音响信号，因此与MPEG-AAC方式以及杜比-数字方式相比，能够以较少的比特率来传送多声道音响信号。

例如，作为低比特率且高音质的编码方式的一个有用的应用例子，举出临场感通信系统。一般在临场感通信系统中，2个以上的地点由双向通信相互连接。并且，各地点相互收发编码数据，设置在各地点的音响编码装置以及音响解码装置，对收发的数据进行编码以及解码。

图7是现有例的多地点会议系统的构成图，表示在3个地点进行会议时的音响信号编码处理以及音响信号解码处理的一个例子。

在图7中，各地点(地点1～3)分别具有音响编码装置和音响解码装置，通过用具有某特定宽度的通信路径来交接音响信号，由此实现音响信号的双向通信。

即，地点1具备麦克风101、多声道编码装置102、与地点2对应的多声道解码装置103、与地点3对应的多声道解码装置104、表现装置105、扬声器106以及回波消除器107。地点2具备与地点1对应的多声道解码装置110、与地点3对应的多声道解码装置111、表现装置112、扬声器113、回波消除器114、麦克风108以及多声道编码装置109。地点3具备麦克风115、多声道编码装置116、与地点2对应的多声道解码装置117、与地点1对应的多声道解码装置118、表现装置119、扬声器120以及回波消除器121。

在各地点的装置中多具备用于对会议系统的通话中产生的回波进行抑制的回波消除器。并且，各地点的装置在为能够收发多声道音响信号的装置的情况下，有时为了能够使多声道音响信号定位到各个方向上，而在各地点具备使用了头部传达函数(HRTF：Head-Related Transfer Function)的表现装置。

例如，在地点1，麦克风101对音响信号进行收音，多声道编码装置102以规定的比特率进行编码。结果，音响信号被变换为比特流bs1，并向地点2和地点3发送。发送的比特流bs1，在与多声道音响信号的解码相对应的多声道解码装置110中，被解码为多声道音响信号。表现装置112对解码的多声道音响信号进行表现。扬声器113对表现的多声道音响信号进行再生。

同样，在地点3，多声道解码装置118对编码的多声道音响信号进行解码，表现装置119对解码后的多声道音响信号进行表现，扬声器120对表现的多声道音响信号进行再生。

另外，对地点1为发送侧、地点2以及地点3为接受侧的情况进行了说明，但有时地点2为发送侧、地点1以及地点3为接受侧，有时地点3为发送侧、地点1以及地点2为接受侧。这些处理一直被同时并行地重复，由此建立了临场感通信系统。

临场感通信系统的主要目的是实现充满临场感的会话。因此，在相互连接的哪2个地点之间，都需要降低双向通信中的不协调感。并且，另一方面，双向通信中的通信费用也成为课题。

为了实现不协调感较少的廉价的双向通信，需要满足几个方面的要求。对于将音响信号编码的方式来说需要满足：(1)音响编码装置以及音响解码装置的处理时间较少、即编码方式的算法延迟较小；(2)能够以低比特率进行传送；(3)高音质。

在MPEG-AAC方式以及杜比-数字方式等方式中，当比特率下降时产生极端的音质恶化，因此难以在维持传递临场感的音质的同时实现廉价的通信费用。关于这一点，以MPEG环绕方式为首的SAC方式，能够在维持音质的同时减小传送比特率，对于为了以廉价的通信费用实现临场感通信系统，是比较适合的编码方式。

尤其是，在SAC方式中也是音质较好的MPEG环绕方式的主要思想，也是用较少信息量的参数来表现输入信号的空间信息(SpatialCue)，并使用降混到1或2声道而传送的降混信号和上述参数，来合成多声道音响信号。通过削减传送的音响信号的声道数量，SAC方式能够降低比特率，并满足临场感通信系统中重要的第二方面、即能够以低比特率进行传送。与MPEG-AAC方式以及杜比-数字方式等现有例中的多声道编码方式相比较，在SAC方式中，在相同比特率下，尤其在5.1声道中192kbps等超低比特率下，能够进行更高音质的传送。

因此，对于临场感通信系统来说，SAC方式成为有用的解决手段。

非专利文献1：ISO/IEC-23003-1

非专利文献2：ISO/IEC-13818-3

非专利文献3：ISO/IEC-14496-3：2005

非专利文献4：ISO/IEC-14496-3：2005/Amd 1：2007

对于上述SAC方式，在适用于临场感通信系统时实际上也存在较大课题。与MPEG-AAC方式以及杜比-数字方式等现有例中的离散多声道编码方式相比较，SAC方式的编码延迟量非常大。例如，在MPEG-AAC方式中，对于编码延迟量增大的课题，作为将其降低的技术而对MPEG-AAC-LD(Low Delay，低延迟)方式进行了标准化(非专利文献4)。

在通常的MPEG-AAC方式中，在采样频率为48kHz的情况下，在音响编码装置中存在大约42msec的编码处理的延迟，在音响解码装置中产生大约21msec的解码处理的延迟。另一方面，在MPEG-AAC-LD方式中，能够以通常的MPEG-AAC方式的一半的编码延迟量进行音响信号的处理。当将该方式适用于临场感通信系统中时，由于编码延迟少而能够顺畅地进行与通信对象的会话以及交流。但是，MPEG-AAC-LD方式虽然为低延迟，但也还是以MPEG-AAC为基础的多声道编码手法，与MPEG-AAC方式相同，不能够实现比特率的降低，不能够同时满足低比特率、高音质以及低延迟。

即，在MPEG-AAC方式、MPEG-AAC-LD方式以及杜比-数字方式等现有例的离散多声道编码方式中，难以实现全部满足低比特率、高音质以及低延迟的编码。

图8对SAC方式的代表例的MPEG环绕方式的编码延迟量进行解析、图示。MPEG环绕方式的详细情况记载在非专利文献1中。

如该图所示，SAC编码装置(SAC encoder)具备t-f变换部201、SAC分析部202、f-t变换部204、降混信号编码部205以及重叠装置207。SAC分析部202具备降混部203以及空间信息计算部206。

SAC解码装置(SAC decoder)具备解读装置208、降混信号解码部209、t-f变换部210、SAC合成部211以及f-t变换部212。

根据图8，在编码侧，t-f变换部201将多声道音响信号变换为频域的信号。t-f变换部201，有时通过离散傅里叶变换(FFT：Finite Fourier Transform)以及离散余弦变换(MDCT：Modified Discrete Cosine Transform)等而变换为纯粹的频域，也有时使用QMF(Quadrature Mirror Filter，正交镜像滤波器)滤波器组而变换为合成频域。

变换为频域的多声道音响信号，在SAC分析部202中与2个路径连接。1个是与生成1或2声道的音响信号、即中间降混信号IDMX的降混部203连接的路径。另一个是与提取空间信息(SpatialCue)并进行量化的空间信息计算部206连接的路径。作为空间信息(SpatialCue)，一般生成所输入的多声道音响信号的各声道之间的电平差、功率差、相关以及相干性等而使用的情况较多。

在空间信息计算部206进行了提取空间信息(SpatialCue)并进行量化的处理之后，f-t变换部204将中间降混信号IDMX再次变换为时间域的信号。

降混信号编码部205将通过f-t变换部204得到的降混信号DMX编码为希望的比特率。

作为此时所使用的降混信号的编码方式，是将1或2声道的音响信号编码的方式，可以是MP3(MPEG Audio Layer-3，MPEG音频第3层)、MPEG-AAC、ATRAC(Adaptive TRansformation Acoustic Coding，自适应变换声学编码)方式、杜比-数字方式以及Windows(注册商标)MediaAudio(WMA)方式那样的不可逆压缩方式，也可以是MPEG4-ALS(AudioLossless，音频无损)、LPAC(Lossless Predictive Audio Compression，无损预测音频压缩)以及LTAC(Lossless Transform Audio Compression，无损变换音频压缩)等可逆压缩方式。并且，也可以是iSAC(internet Speech AudioCodec，互联网语音音频编码解码器)、iLBC(internet Low Bitrate Codec，互联网低码率编码解码器)以及ACELP(Algebraic code excited linearprediction，代数码激励线性预测)等在声音域特殊化的压缩方式。

重叠装置207是具备将2个以上的输入作为1个信号输出的机构的多路复用器。重叠装置207将编码的降混信号DMX和空间信息(SpatialCue)多路复用而向音响解码装置发送。

在音响解码装置侧，接收由重叠装置207生成的编码比特流。解读装置208对接收的比特流进行多路复用。此处，解读装置208是根据1个输入信号输出多个信号的信号分离器，是将1个输入信号分离为多个信号的分离部。

之后，降混信号解码部209将比特流所含有的被编码的降混信号解码为1或2声道的音响信号。

t-f变换部210将解码的信号变换至频域。

SAC合成部211根据由解读装置208分离的空间信息(SpatialCue)和上述频域的解码信号，合成多声道音响信号。

f-t变换部212将由SAC合成部211合成的频域的信号变换为时间域的信号，结果生成时间域的多声道音响信号。

如上所述，当纵观SAC的构成时，编码方式的算法延迟量能够分类为如下的3类。

(1)SAC分析部202以及SAC合成部211

(2)降混信号编码部205以及降混信号解码部209

(3)t-f变换部以及f-t变换部(201、204、210、212)

图9表示现有例中SAC技术的算法延迟量。以下为了方便，将各自的算法延迟量如下地记载。

设t-f变换部201以及t-f变换部210的延迟量为D0，SAC分析部202的延迟量为D1，f-t变换部204以及f-t变换部212的延迟量为D2，降混信号编码部205的延迟量为D3，降混信号解码部209的延迟量为D4，并且，SAC合成部211的延迟量为D5。

如图9所示，音响编码装置和音响解码装置总的延迟量D为：

D＝2*D0+D1+2*D2+D3+D4+D5

关于SAC编码方式的典型例的MPEG环绕方式，在音响编码装置以及音响解码装置中产生2240样本的算法延迟。当包含降混信号在音响编码装置以及音响解码装置中产生的算法延迟时，整体的算法延迟变得庞大。采用MPEG-AAC方式作为降混编码装置以及降混解码装置时的算法延迟也达到80msec。但是，一般为了在延迟量重要的临场感通信系统中意识不到延迟量地进行通信，需要使音响编码装置以及音响解码装置的延迟量为40msec以下。

因此，在需要低比特率、高音质以及低延迟的临场感通信系统等用途中，在使用SAC编码方式的情况下，存在延迟量大幅超出的本质上的课题。

发明内容

因此，本发明的目的为提供一种音响编码装置以及音响解码装置，能够削减现有例的多声道音响信号的编码装置以及解码装置的算法延迟。

为了解决上述课题，本发明的音响编码装置是将输入的多声道音响信号编码的音响编码装置，具备：降混信号生成部，通过将输入的上述多声道音响信号在时间域上进行降混，由此生成1或2声道的音响信号、即第一降混信号；降混信号编码部，对由上述降混信号生成部生成的第一降混信号进行编码；第一t-f变换部，将输入的上述多声道音响信号变换为频域的多声道音响信号；以及空间信息计算部，通过对由上述第一t-f变换部变换的频域的多声道音响信号进行分析，由此生成空间信息、即根据降混信号生成多声道音响信号的信息。

由此，能够不等待根据多声道音响信号生成空间信息的处理结束，就能够执行相同的将多声道音响信号降混而编码的处理。即，能够并列地执行这些处理。因此，能够削减音响编码装置中的算法延迟。

并且，上述音响编码装置还可以进一步具备：第二t-f变换部，将由上述降混信号生成部生成的第一降混信号变换为频域的第一降混信号；降混部，通过将由上述第一t-f变换部变换的频域的多声道音响信号进行降混，来生成频域的第二降混信号；以及降混补偿电路，通过对由上述第二t-f变换部变换的频域的第一降混信号与由上述降混部生成的频域的第二降混信号进行比较，来计算对降混信号进行调整的信息、即降混补偿信息。

由此，能够生成用于对未等待生成空间信息的处理结束而生成的降混信号进行调整的降混补偿信息。并且，音响解码装置通过使用所生成的降混补偿信息，能够生成更高音质的多声道音响信号。

并且，上述音响编码装置还可以进一步具备将上述降混补偿信息与上述空间信息存储于相同编码串中的重叠装置。

由此，能够确保与现有例的音响编码装置以及音响解码装置的互换性。

并且，上述降混补偿电路还可以计算信号的功率比作为上述降混补偿信息。

由此，从本发明的音响编码装置接收了降混信号和降混补偿信息的音响解码装置，能够使用作为降混补偿信息的功率比，来调整降混信号。

并且，上述降混补偿电路还可以计算信号的差分作为上述降混补偿信息。

由此，从本发明的音响编码装置接收了降混信号和降混补偿信息的音响解码装置，能够使用作为降混补偿信息的差分，来调整降混信号。

并且，上述降混补偿电路还可以计算预测滤波系数作为上述降混补偿信息。

由此，从本发明的音响编码装置接收了降混信号和降混补偿信息的音响解码装置，能够使用作为降混补偿信息的预测滤波系数，来调整降混信号。

并且，本发明的音响解码装置还可以是将接收的比特流解码为多声道音响信号的音响解码装置，具备：分离部，将接收的比特流分离为数据部和参数部，数据部包含被编码的降混信号，参数部包含根据降混信号生成多声道音响信号的信息即空间信息和调整降混信号的信息即降混补偿信息；降混调整电路，使用上述参数部所包含的降混补偿信息，对从上述数据部得到的频域的降混信号进行调整；多声道信号生成部，使用上述参数部所包含的空间信息，根据由上述降混调整电路调整的频域的降混信号生成频域的多声道音响信号；以及f-t变换部，将由上述多声道信号生成部生成的频域的多声道音响信号变换为时间域的多声道音响信号。

由此，根据从削减了算法延迟的上述音响编码装置接收的降混信号，生成高音质的多声道音响信号。

并且，上述音响解码装置还可以具备：降混中间解码部，通过将上述数据部所包含的被编码的降混信号进行逆量化，由此生成频域的降混信号；以及域变换部，将由上述降混中间解码部生成的频域的降混信号变换为在时间轴方向上也具有成分的频域的降混信号；上述降混调整电路通过上述降混补偿信息来对由上述域变换部变换的频域的降混信号进行调整。

由此，用于生成多声道音响信号的前级的处理在频域上进行。因此能够削减处理的延迟。

并且，上述降混调整电路，也可以取得信号的功率比作为上述降混补偿信息，并将上述降混信号与上述功率比相乘，由此调整上述降混信号。

由此，音响解码装置接收的降混信号，使用由音响编码装置计算的功率比，被调整为适合于生成高音质的多声道音响信号的降混信号。

并且，上述降混调整电路，也可以取得信号的差分作为上述降混补偿信息，并将上述降混信号与上述差分相加，由此调整上述降混信号。

由此，音响解码装置接收的降混信号，使用由音响编码装置计算的差分，被调整为适合于生成高音质的多声道音响信号的降混信号。

并且，上述降混调整电路，也可以取得预测滤波系数作为上述降混补偿信息，并对上述降混信号施以使用了上述预测滤波系数的预测滤波，由此调整上述降混信号。

由此，音响解码装置接收的降混信号，使用由音响编码装置计算的预测滤波系数，被调整为适合于生成高音质的多声道音响信号的降混信号。

并且，本发明的音响编码解码装置还可以具备将输入的多声道音响信号编码的音响编码部和将接收的比特流解码为多声道音响信号的音响解码部；上述音响编码部具备：降混信号生成部，通过将输入的上述多声道音响信号在时间域上进行降混，由此生成1或2声道的音响信号、即第一降混信号；降混信号编码部，对由上述降混信号生成部生成的第一降混信号进行编码；第一t-f变换部，将输入的上述多声道音响信号变换为频域的多声道音响信号；空间信息计算部，通过对由上述第一t-f变换部变换的频域的多声道音响信号进行分析，由此生成空间信息、即根据降混信号生成多声道音响信号的信息；第二t-f变换部，将由上述降混信号生成部生成的第一降混信号变换为频域的第一降混信号；降混部，通过将由上述第一t-f变换部变换的频域的多声道音响信号进行降混，来生成频域的第二降混信号；以及降混补偿电路，通过对由上述第二t-f变换部变换的频域的第一降混信号与由上述降混部生成的频域的第二降混信号进行比较，来计算对降混信号进行调整的信息、即降混补偿信息；上述音响解码部具备：分离部，将接收的比特流分离为数据部和参数部，数据部包含被编码的降混信号，参数部包含根据降混信号生成多声道音响信号的信息即空间信息和调整降混信号的信息即降混补偿信息；降混调整电路，使用上述参数部所包含的降混补偿信息，对从上述数据部得到的频域的降混信号进行调整；多声道信号生成部，使用上述参数部所包含的空间信息，根据由上述降混调整电路调整的频域的降混信号生成频域的多声道音响信号；以及f-t变换部，将由上述多声道信号生成部生成的频域的多声道音响信号变换为时间域的多声道音响信号。

由此，能够作为满足低延迟、低比特率以及高音质的音响编码解码装置得以利用。

并且，本发明的会议系统还可以具备将输入的多声道音响信号编码的音响编码装置和将接收的比特流解码为多声道音响信号的音响解码装置；上述音响编码装置具备：降混信号生成部，通过将输入的上述多声道音响信号在时间域上进行降混，由此生成1或2声道的音响信号、即第一降混信号；降混信号编码部，对由上述降混信号生成部生成的第一降混信号进行编码；第一t-f变换部，将输入的上述多声道音响信号变换为频域的多声道音响信号；空间信息计算部，通过对由上述第一t-f变换部变换的频域的多声道音响信号进行分析，由此生成空间信息、即根据降混信号生成多声道音响信号的信息；第二t-f变换部，将由上述降混信号生成部生成的第一降混信号变换为频域的第一降混信号；降混部，通过将由上述第一t-f变换部变换的频域的多声道音响信号进行降混，来生成频域的第二降混信号；以及降混补偿电路，通过对由上述第二t-f变换部变换的频域的第一降混信号与由上述降混部生成的频域的第二降混信号进行比较，来计算对降混信号进行调整的信息、即降混补偿信息；上述音响解码装置具备：分离部，将接收的比特流分离为数据部和参数部，数据部包含被编码的降混信号，参数部包含根据降混信号生成多声道音响信号的信息即空间信息和调整降混信号的信息即降混补偿信息；降混调整电路，使用上述参数部所包含的降混补偿信息，对从上述数据部得到的频域的降混信号进行调整；多声道信号生成部，使用上述参数部所包含的空间信息，根据由上述降混调整电路调整的频域的降混信号生成频域的多声道音响信号；以及f-t变换部，将由上述多声道信号生成部生成的频域的多声道音响信号变换为时间域的多声道音响信号。

由此，能够作为能够进行顺畅的交流的会议系统得以利用。

本发明的音响编码方法还可以是将输入的多声道音响信号编码的音响编码方法，具备：降混信号生成步骤，通过将输入的上述多声道音响信号在时间域上进行降混，由此生成1或2声道的音响信号、即第一降混信号；降混信号编码步骤，对由上述降混信号生成步骤生成的第一降混信号进行编码；第一t-f变换步骤，将输入的上述多声道音响信号变换为频域的多声道音响信号；以及空间信息计算步骤，通过对由上述第一t-f变换步骤变换的频域的多声道音响信号进行分析，由此生成空间信息、即根据降混信号生成多声道音响信号的信息。

由此，能够削减音响信号的编码处理中的算法延迟。

本发明的音响解码方法还可以是将接收的比特流解码为多声道音响信号的音响解码方法，具备：分离步骤，将接收的比特流分离为数据部和参数部，数据部包含被编码的降混信号，参数部包含根据降混信号生成多声道音响信号的信息即空间信息和调整降混信号的信息即降混补偿信息；降混调整步骤，使用上述参数部所包含的降混补偿信息，对从上述数据部得到的频域的降混信号进行调整；多声道信号生成步骤，使用上述参数部所包含的空间信息，根据由上述降混调整步骤调整的频域的降混信号生成频域的多声道音响信号；以及f-t变换步骤，将由上述多声道信号生成步骤生成的频域的多声道音响信号变换为时间域的多声道音响信号。

由此，能够生成高音质的多声道音响信号。

并且，本发明的编码程序还可以是用于将输入的多声道音响信号编码的音响编码装置的程序，是使计算机执行上述音响编码方法所包含的步骤的程序。

由此，能够作为进行低延迟的音响编码处理的程序得以利用。

并且，本发明的解码程序还可以是用于将接收的比特流解码为多声道音响信号的音响解码装置的程序，是使计算机执行上述音响解码方法所包含的步骤的程序。

由此，能够作为进行生成高音质的多声道音响信号的处理的程序得以利用。

如上所述，本发明不仅能够作为音响编码装置以及音响解码装置实现，也能够作为将音响编码装置以及音响解码装置所具备的特征手段作为步骤的音响编码方法以及音响解码方法实现。并且，能够作为使计算机执行这些步骤的程序实现。并且，也能够构成为将音响编码装置以及音响解码装置所具备的特征手段一体化的LSI(Large scale Integration，大规模集成电路)等半导体集成电路。并且，这种程序当然能够经由CD-ROM(CompactDisc Read Only Memory，CD只读存储器)等记录媒体以及互联网等传送媒体来提供。

发明的效果

根据本发明的音响编码装置以及音响解码装置，能够削减现有例中的多声道音响编码装置以及多声道音响解码装置的算法延迟，能够高效地兼顾处于折衷关系的比特率与音质的关系。

即，能够发挥的效果为：与现有例的多声道音响编码技术相比能够削减算法延迟，并能够实现进行实时通话的会议系统以及需要低延迟且高音质的多声道音响信号的传送的充满临场感的通信系统等的构筑。

因此，通过本发明，能够进行高音质、低比特率且低延迟的收发。因此，在便携电话等移动设备彼此的充满临场感的交流变得普及、AV设备以及会议系统中的真正的临场感交流变得普及的当今，本发明的实用价值极高。当然，用途并不限于此，对于需要延迟量小的所有双向交流当然也是有效的发明。

附图说明

图1是表示本发明实施方式中的音响编码装置的构成以及各部分的延迟量的图。

图2是本发明实施方式中的比特流的构造图。

图3是本发明实施方式中的比特流的其他构造图。

图4是表示本发明实施方式中的音响解码装置的构成以及各部分的延迟量的图。

图5是本发明实施方式中的参数集的说明图。

图6是本发明实施方式中的混合域的说明图。

图7是现有例的多地点会议系统的构成图。

图8是现有例的音响编码装置以及音响解码装置的构成图。

图9是表示现有例的音响编码装置以及音响解码装置的延迟量的图。

符号说明

101、108、115麦克风

102、109、116多声道编码装置

103、104、110、111、117、118多声道解码装置

105、112、119表现装置

106、113、120扬声器

107、114、121回波消除器

201、210时间-频域变换部(t-f变换部)

202、402SAC分析部

203、408降混部

204、212、506频域-时间变换部(f-t变换部)

205、404降混信号编码部

206、409空间信息计算部

207、407重叠装置

208、501解读装置(分离部)

209降混信号解码部

211、505SAC合成部

401第一时间-频域变换部(第一t-f变换部)

403任意方式(Arbitrary)降混电路

405第二时间-频域变换部(第二t-f变换部)

406降混补偿电路

410降混信号生成部

502降混信号中间解码部

503域变换部

504降混调整电路

507多声道信号生成部

具体实施方式

以下，参照附图说明本发明的实施方式。

(实施方式1)

首先，说明本发明的实施方式1。

图1是本发明实施方式1的音响编码装置的构成图。并且，在图1中，在各部分的下方表示延迟量。另外，这里的延迟量表示在蓄积了多个输入信号之后输出信号的情况下的延迟量。在从输入到输出之间未蓄积多个输入信号的情况下，能够忽略该部分的延迟量，因此在图1中将延迟量表示为0。

图1所示的音响编码装置是将多声道音响信号进行编码的音响编码装置，具备降混信号生成部410、降混信号编码部404、第一t-f变换部401、SAC分析部402、第二t-f变换部405、降混补偿电路406以及重叠装置407。降混信号生成部410具备任意方式(Arbitrary)降混电路403。SAC分析部402具备降混部408以及空间信息计算部409。

任意方式降混电路403通过任意方式(Arbitrary)，将输入的多声道音响信号降混为1或者2声道的音响信号，而生成任意方式降混信号ADMX。

降混信号编码部404，将由任意方式降混电路403生成的任意方式降混信号ADMX进行编码。

第二t-f变换部405，将由任意方式降混电路403生成的任意方式降混信号ADMX从时间域变换为频域，而生成频域的中间任意方式降混信号IADMX。

第一t-f变换部401，将输入的多声道音响信号从时间域变换为频域。

降混部408，对由第一t-f变换部401变换的频域的多声道音响信号进行分析，而生成频域的中间降混信号IDMX。

空间信息计算部409，对由第一t-f变换部401变换的频域的多声道音响信号进行分析，而生成空间信息(SpatialCue)。空间信息(SpatialCue)中包含声道分离信息，该声道分离信息是表示被降混的信号与多声道音响信号的相关值、频率比以及相位的差异等的关系的信息，将降混的信号分离为多声道音响信号。

降混补偿电路406，对中间任意方式降混信号IADMX和中间降混信号IDMX进行比较，计算出降混补偿信息(DMXCue)。

重叠装置407是具备将2个以上的输入作为1个信号输出的机构的多路复用器的例子。重叠装置407将由降混信号编码部404编码的任意方式降混信号ADMX、由空间信息计算部409计算的空间信息(SpatialCue)以及由降混补偿电路406计算出的降混补偿信息(DMXCue)进行多路复用，并作为比特流进行输出。

如图1所示，输入的多声道音响信号被输入到2个模块。1个是任意方式降混电路403，另一个是第一t-f变换部401。第一t-f变换部401例如使用公式1，将输入的多声道音响信号向频域的信号进行变换。

[公式1]

S (f) = Σ_{k = 0}^{N - 1} s (t) \cos (\frac{π}{2 N} (2 k + 1 + \frac{N}{2}) (2 f + 1))

(式1)

公式1是离散余弦变换(MDCT)的例子。s(t)是输入的时间域的多声道音响信号。S(f)是频域的多声道音响信号。t表示时间域。f表示频域。N是帧数。

另外，在本实施方式中，作为第一t-f变换部401使用的计算公式的例子，将离散余弦变换(MDCT)在公式1进行表示，但是本发明并不限于此。有时通过离散快速傅里叶变换(FFT：Fast Fourier Transform)以及离散余弦变换(MDCT)等变换为纯粹的频域，也有时使用QMF滤波器组等而变换为在时间轴方向上也具有成分的频域、即合成频域。因此，第一t-f变换部401，将使用哪个变换域预先保持在编码串中。例如，在使用QMF滤波器组的合成频域的情况下在编码串中保持“01”，在使用离散余弦变换(MDCT)的频域的情况下在编码串中保持“00”。

SAC分析部402的降混部408，将变换为频域的多声道音响信号降混为中间降混信号IDMX。中间降混信号IDMX是1或2声道的音响信号，是频域的信号。

[公式2]

S_{IDMX} (f) (\begin{matrix} C_{L} & C_{R} & C_{C} & C_{Ls} & C_{Rs} \\ D_{L} & D_{R} & D_{C} & D_{Ls} & D_{Rs} \end{matrix}) * (\begin{matrix} S_{L} (f) \\ S_{R} (f) \\ S_{C} (f) \\ S_{Ls} (f) \\ S_{Rs} (f) \end{matrix})

(式2)

公式2是降混的计算处理的例子。公式2中的f表示频域。S_L(f)、S_R(f)、S_C(f)、S_Ls(f)以及S_Rs(f)是各声道的音响信号。S_IDMX(f)是中间降混信号IDMX。C_L、C_R、C_C、C_Ls、C_Rs、D_L、D_R、D_C、D_Ls以及D_Rs是降混系数。

此处，适用ITU规定的降混系数。通常的ITU规定的降混系数对于时间域的信号进行运算，但在本实施方式中，将其用于频域上的变换这一情况与通常的ITU建议的降混方法不同。此处的降混系数有时也对应于多声道音响信号的特性而进行变化。

SAC分析部402的空间信息计算部409，在SAC分析部402的降混部408进行降混的同时，计算空间信息(SpatialCue)，并进行量化。空间信息(SpatialCue)在将降混信号分离为多声道音响信号时使用。

[公式3]

{ILD}_{n, m} = \frac{{S (f)}_{n}^{2}}{{S (f)}_{m}^{2}}

(式3)

在公式3中，将声道n与声道m之间的功率比作为ILD_n·m进行计算。n以及m为，1相当于L声道，以下2为R声道、3为C声道、4为Ls声道、5为Rs声道。并且，S(f)n以及S(f)m是各声道的音响信号。

同样，将声道n与声道m之间的相关系数作为ICC_n·m如公式4那样进行计算。

[公式4]

ICC_n，m＝Corr(S(f)_n，S(f)_m)(式4)

n以及m为，1相当于L声道，以下2为R声道、3为C声道、4为Ls声道、5为Rs声道。并且，S(f)n以及S(f)m是各声道的音响信号。并且，运算符Corr为公式5那样的运算。

[公式5]

Corr (x, y) = \frac{\underset{i}{Σ} (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{\underset{i}{Σ} {(x_{i} - \overset{&OverBar;}{x})}^{2}} * \sqrt{\underset{i}{Σ} {(y_{i} - \overset{&OverBar;}{y})}^{2}}}

(式5)

公式5的x_i和y_i表示由运算符Corr运算的x和y所包含的各要素。x拔和y拔表示运算的x和y所包含的要素的平均值。

如此，SAC分析部402的空间信息计算部409，在计算出各声道之间的ILD以及ICC之后，进行量化并根据需要使用Huffman(哈夫曼)编码方法等废弃冗余性，并生成空间信息(SpatialCue)。

重叠装置407，将由空间信息计算部409生成的空间信息(SpatialCue)重叠到如图2所示那样的比特流中。

图2是本发明实施方式中的比特流的构造图。重叠装置407将编码的任意方式降混信号ADMX和空间信息(SpatialCue)重叠到比特流中。并且，空间信息(SpatialCue)包含由空间信息计算部409计算出的信息SAC_Param和由降混补偿电路406计算出的降混补偿信息(DMXCue)。通过使降混补偿信息(DMXCue)包含于空间信息(SpatialCue)，能够维持与现有例的音响解码装置的互换性。

并且，图2所示的LD_flag(LowDelay(低延迟)标志)是表示是否通过本发明的音响编码方法进行了编码的标志。音响编码装置的重叠装置407附加LD_flag，由此音响解码装置能够容易地判断是否为附加了降混补偿信息(DMXCue)的信号。并且，音响解码装置也可以通过跳过所附加的降混补偿信息(DMXCue)，来进行更低延迟的解码的处理。

另外，在本实施方式中，作为空间信息(SpatialCue)，使用输入的多声道音响信号的各声道之间的功率比和相关系数，但本发明不限于此，也可以是输入的多声道音响信号之间的相干性以及绝对值的差分。

并且，作为SAC方式使用了MPEG环绕方式的情况的详细说明记载于非专利文献1。非专利文献1记载的ICC(Interaural Correlation Coefficient，耳间相关系数)相当于声道之间的相关信息，ILD(Interaural LevelDifference，耳间电平差)相当于各声道之间的功率比。图2所示的ITD(Interaural Time Difference，耳间时间差)相当于各声道之间的时间差信息。

下面，对任意方式降混电路403的功能进行说明。

任意方式降混电路403，以任意的方式对时间域的多声道音响信号进行降混，计算时间域的1或2声道的音响信号、即任意方式降混信号ADMX。作为降混的一个例子，存在按照ITU-R建议BS.775-1(非专利文献5)的降混。

[公式6]

S_{ADMX} (t) (\begin{matrix} C_{L} & C_{R} & C_{C} & C_{Ls} & C_{Rs} \\ D_{L} & D_{R} & D_{C} & D_{Ls} & D_{Rs} \end{matrix}) (\begin{matrix} s {(t)}_{L} \\ s {(t)}_{R} \\ s {(t)}_{C} \\ s {(t)}_{Ls} \\ s {(t)}_{Rs} \end{matrix})

(式6)

公式6是降混的计算处理的例子。公式6中的t表示时间域。s(t)_L、s(t)_R、s(t)_C、s(t)_Ls以及s(t)_Rs是各声道的音响信号。S_ADMX(t)是任意方式降混信号ADMX。C_L、C_R、C_C、C_Ls、C_Rs、D_L、D_R、D_C、D_Ls以及D_Rs是降混系数。在本发明中，对每个音响编码装置设定降混系数，如图3所示，重叠装置407也可以将设定的降混系数作为比特流的一部分进行发送。并且，也可以预先准备多个降混系数的集合，重叠装置407将切换时的信息重叠到比特流中进行发送。

图3是本发明实施方式中的比特流的构造图，是与图2所示的比特流不同的构造图。图3所示的比特流与图2所示的比特流相同，重叠了被编码的任意方式降混信号ADMX和空间信息(SpatialCue)。并且，空间信息(SpatialCue)包含由空间信息计算部409计算出的信息SAC Param和由降混补偿电路406计算出的降混补偿信息(DMXCue)。在图3所示的比特流中还包含降混系数的信息和表示降混系数的模式的信息DMX flag。

例如，准备2种模式的降混系数。1个模式为ITU-R建议的系数、另一个为用户定义的系数。重叠装置407将1比特的追加信息记载于比特流中，在ITU建议的情况下使该比特为“0”并进行发送。在用户定义的情况下，使该比特为“1”并进行发送，并且在1的情况下，在其后保持用户定义的系数。比特流中的保持方法为，例如在任意方式降混信号ADMX为单声道的情况下，保持降混系数的数量(原信号为5.1声道的情况下为“6”)。在其后以固定比特长度保持实际的降混系数。在原信号为5.1声道的情况下比特长度为16比特的情况下，降混系数在比特流上以合计96比特记载。在任意方式降混信号ADMX为立体声的情况下，保持降混系数的数量(原信号为5.1声道的情况下为“12”)。在其后以固定比特长度保持实际的降混系数。

另外，降混系数有时以固定比特长度进行保持，也可以以可变比特长度进行保持。在该情况下，将保持有降混系数的比特的长度信息存储在比特流中。

通过保持降混系数的模式信息，音响解码装置仅通过读取其模式信息，就能够不进行读出降混系数本身等多余的处理而进行解码。由于不进行多余的处理，具有能够进行更低消耗电力的解码的好处。

如此，任意方式降混电路403进行降混。然后，降混信号编码部404以规定的比特率、规定的编码形式对1或者2声道的任意方式降混信号ADMX进行编码。并且，重叠装置407将编码的信号重叠到比特流中，向音响解码装置发送。

另一方面，第二t-f变换部405，将任意方式降混信号ADMX变换为频域，生成中间任意方式降混信号IADMX。

[公式7]

S_{IADMX} (f) = Σ_{k = 0}^{N - 1} S_{ADMX} (t) \cos (\frac{π}{2 N} (2 k + 1 + \frac{N}{2}) (2 f + 1))

(式7)

公式7是向频域的变换所使用的离散余弦变换(MDCT)的例子。公式7中的t表示时间域。f表示频域。N表示帧数。S_ADMX(f)表示任意方式降混信号ADMX。S_IADMX(f)表示中间任意方式降混信号IADMX。

第二t-f变换部405中使用的变换可以是公式7所示的离散余弦变换(MDCT)，也可以是离散傅里叶变换(FFT)以及QMF滤波器组等。

第二t-f变换部405和第一t-f变换部401，优选为相同种类的变换，但是在判断为使用不同种类的变换(QMF和FFT的组合以及FFT和MDCT的组合等)能够实现更简便的编码以及解码的情况下，也可以使用不同种类的变换。音响编码装置在比特流中保持判断t-f变换是相同还是不同的信息、以及在使用不同的变换时分别使用哪个变换的信息。音响解码装置根据这些信息实现解码处理。

降混信号编码部404，对任意方式降混信号ADMX进行编码。作为该编码方式，使用非专利文献1所记载的MPEG-AAC方式。另外，该降混信号编码部404中的编码方式，不限于MPEG-AAC方式，也可以是MP3方式等非可逆编码方式，也可以是MPEG-ALS等可逆编码方式。降混信号编码部404中的编码方式，在为MPEG-AAC方式的情况下，其延迟量在音响编码装置中成为2048样本(音响解码装置中1024样本)。

另外，本发明的降混信号编码部404的编码方式，不对比特率进行特别限制，更适合MDCT以及FFT等使用了直接变换的编码方式。

计算上述S_IADMX(f)和S_IDMX(f)的过程能够并行地进行运算，因此并行地实施运算。于是，音响编码装置整体的延迟量，能够从D0+D1+D2+D3消减为max(D0+D1，D3)。尤其是，本发明的音响编码装置，通过将降混编码处理与SAC分析并列地进行处理，来削减整体的延迟量。

在本发明的音响解码装置中，通过削减由SAC合成部生成多声道音响信号之前的t-f变换处理、以及对降混解码处理进行中间处理，由此能够将延迟量从D4+D0+D5+D2削减为D5+D2。

下面，说明音响解码装置。

图4是本发明实施方式1的音响解码装置的例子。并且，在图4中在各部分的下方表示延迟量。另外，与图1同样，此处的延迟量表示在蓄积了多个输入信号之后输出信号的情况下从输入到输出为止的延迟量。并且，与图1同样，在从输入到输出的期间没有蓄积多个输入信号的情况下，能够忽视该部分的延迟量，因此在图4中将延迟量表示为0。

图4所示的音响解码装置是将接收的比特流解码为多声道音响信号的音响解码装置。

并且，图4所示的音响解码装置具备：解读装置501，将接收的比特流分离为数据部和参数部；降混信号中间解码部502，对数据部的编码串进行逆量化处理，并计算出频域的信号；域变换部503，根据需要将计算出的频域的信号向其他频域的信号进行变换；降混调整电路504，通过参数部所包含的降混补偿信息(DMXCue)对被变换为频域的信号进行调整；多声道信号生成部507，根据由降混调整电路504调整的信号和参数部所包含的空间信息(SpatialCue)，生成多声道音响信号；以及f-t变换部506，将生成的多声道音响信号向时间域的信号进行变换。

并且，多声道信号生成部507具备通过SAC方式生成多声道音响信号的SAC合成部505。

解读装置501是根据1个输入信号输出多个信号的多路分离器的例子，是将1个输入信号分离为多个信号的分离部的例子。解读装置501将由图1所示的音响编码装置所生成的比特流分离为降混编码串和空间信息(SpatialCue)。

在分离比特流时，解读装置501使用比特流所包含的降混编码串的长度信息和空间信息(SpatialCue)的编码串的长度信息，来分离比特流。

降混信号中间解码部502，通过对由解读装置501分离的降混编码串进行逆量化，来生成频域的信号。在该过程中由于不存在延迟电路，因此不发生延迟。作为降混信号中间解码部502的形态，例如在MPEG-AAC方式中，通过进行到非专利文献1记载的Figure0.2-MPEG-2AAC DecoderBlock Diagram所记载的滤波器组之前的处理，来计算频域(MPEG-AAC方式的情况下为MDCT系数)的系数。即，作为不进行滤波器组的处理的解码处理这一点，是与现有例中的音响解码装置的不同点。在通常的音响解码装置中，由于滤波器组所内含的延迟电路而产生延迟，但是在本发明的降混信号中间解码部502中不需要使用滤波器组，因此不产生延迟。

域变换部503，根据需要将通过降混信号中间解码部502的降混中间解码处理而得到的频域的信号，向调整降混信号的其他频域进行变换。

具体地说，域变换部503，使用编码串所包含的频域的降混补偿域信息，向进行降混补偿的域进行变换。上述降混补偿域信息，是表示在哪个域中进行降混补偿的信息。例如，音响编码装置，作为上述降混补偿域信息，在QMF滤波器组进行的情况下对“01”进行编码，在MDCT域进行的情况下对“00”进行编码，在FFT域进行的情况下对“10”进行编码，域变换部503通过取得该信息来进行判断。

之后，降混调整电路504，使用由音响编码装置计算出的降混补偿域信息(DMXCue)，对由域变换部503变换的降混信号进行调整。即，通过计算来生成中间降混信号IDMX的频域系数的近似值。调整方法根据降混补偿信息(DMXCue)的编码方式而不同，对此留待后述。

SAC合成部505使用由降混调整电路504调整的中间降混信号IDMX、以及空间信息(SpatialCue)所包含的ICC及ILD等，分离为频域的多声道音响信号。

f-t变换部506向时间域的多声道音响信号进行变换并再生。f-t变换部506使用IMDCT(Inverse Modified Discrete Cosine Transform，修正型离散余弦反变换)那样的滤波器组。

作为SAC合成部505中的SAC方式使用MPEG环绕方式的情况，在非专利文献1中记载。

在如此构成的音响解码装置的情况下，产生延迟的是包含延迟电路的SAC合成部505和f-t变换部506。各自的延迟量为D5和D2。

通常的SAC解码装置在图9中表示，但是如果将其与本发明的音响解码装置(图4)进行比较，则可知构成的不同。如图9所示，在通常的SAC解码装置的情况下，在降混信号解码部209中内含有f-t变换部，由其引起的延迟存在D4样本。并且，SAC合成部211是频域的运算，因此需要将降混信号解码部209的输出临时变换为频域的t-f变换部210，由该部分引起的延迟量存在D0样本。因此，作为音响解码装置整体，成为D4+D0+D5+D2样本。

另一方面，在本发明的图4中，整体的延迟量是将SAC合成部505的延迟量D5样本与f-t变换部506的延迟量D2样本相加，与图9的现有例相比较，削减了D4+D0样本量的延迟。

下面说明降混补偿电路406以及降混调整电路504的动作。

首先，通过指出现有技术中的问题点，来说明本实施方式的降混补偿电路406的意义。

图8是现有例的SAC编码装置的构成图。

降混部203，将频域的多声道音响信号降混为频域的1或2声道的中间降混信号IDMX。作为降混的方法，存在ITU建议的方法等。f-t变换部204，将频域的1或2声道的音响信号即中间降混信号IDMX，变换为时间域的1或2声道的音响信号即降混信号DMX。

降混信号编码部205，例如通过MPEG-AAC方式对降混信号DMX进行编码。此时，降混信号编码部205，进行从时间域向频域的直接变换。因此，在f-t变换部204以及降混信号编码部205的从时间域向频域的变换中，产生巨大的延迟量。

因此，着眼于由降混信号编码部205生成的频域的降混信号、以及由SAC分析部202生成的中间降混信号IDMX是相同种类的信号这一情况，削减f-t变换部204。并且，作为将时间域的多声道音响信号降混为1或2声道的音响信号的电路，配置了图1所示的任意方式降混电路403。并且，配置进行与降混信号编码部205内含的从时间域向频域的变换处理同样的处理的第二t-f变换部405。

此处，通过图8所示的f-t变换部204将频域的中间降混信号IDMX变换为时间域之后最初的降混信号DMX，与通过图1所示的上述任意方式降混电路403和第二t-f变换部405得到的时间域的1或2声道的音响信号、即中间任意方式降混信号IADMX之间具有差异。由于该差异，音质恶化。

因此，在本实施方式中，作为补偿该差异的电路而设置降混补偿电路406。由此，防止音质恶化。并且，由此能够削减f-t变换部204的从频域向时间域的变换处理的延迟量。

下面，说明本实施方式中的降混补偿电路406的形态。为了进行说明，设在各编码帧以及解码帧中能够计算出M个频域系数。

SAC分析部402，将频域的多声道音响信号向中间降混信号IDMX进行降混。设与此时的中间降混信号IDMX相对应的频域系数为x(n)(n＝0、1、…、M-1)。

另一方面，第二t-f变换部405，将由任意方式降混电路403生成的任意方式降混信号ADMX，变换为频域的信号即中间任意方式降混信号IADMX。设与此时的中间任意方式降混信号IADMX相对应的频域系数为y(n)(n＝0、1、…、M-1)。

降混补偿电路406根据这2个信号计算降混补偿信息(DMXCue)。本实施方式中的降混补偿电路406中的运算过程如下所述。

在频域为纯粹的频域的情况下，这些作为空间信息(SpatialCue)以及降混补偿信息(DMXCue)的Cue(线索)信息，具有比较粗略的频率分辨率。以下将根据频率分辨率而汇集的频域系数的组，称为参数集。如图5所示，各参数集在大多数情况下包含1个以上的频域系数。为了使空间信息(SpatialCue)的组合单纯，在本发明中，以与空间信息(SpatialCue)的表现相同的构成来计算所有降混补偿信息(DMXCue)。当然，降混补偿信息(DMXCue)和空间信息(SpatialCue)也可以是不同的构成。

基于缩放比例(scaling)的降混补偿信息(DMXCue)的情况，如公式8所示。

[公式8]

G_{lev, i} = \frac{\underset{n &Element; {ps}_{i}}{Σ} x^{2} (n)}{\underset{n &Element; {ps}_{i}}{Σ} y^{2} (n)}

其中i＝0，1，Λ，N-1(式8)

此处，G_lev，i是表示中间降混信号IDMX与中间任意方式降混信号IADMX的功率比的降混补偿信息(DMXCue)。x(n)是中间降混信号IDMX的频域系数。y(n)是中间任意方式降混信号IADMX的频域系数。ps_i是各参数集，具体说是集合{0、1、…、M-1}的子集。N是将M个集合{0、1、…、M-1}分为子集时的子集的数量，是参数集的数量。

即，如图5所示，降混补偿电路406，根据各M个的频域系数的x(n)以及y(n)，计算N个降混补偿信息(DMXCue)即G_lev，i。

计算出的G_lev，i被量化，并根据需要通过Huffman编码手法排除冗余性，并重叠到比特流中。

在音响解码装置中，接收比特流，通过公式9根据解码的中间任意方式降混信号IADMX的频域系数即y(n)、以及接收的降混补偿信息(DMXCue)即G_lev，i，来计算中间降混信号IDMX的频域系数的近似值。

[公式9]

其中n∈ps_i且i＝0，1，Λ，N-1(式9)

此处，公式9的左边表示中间降混信号IDMX的频域系数的近似值。ps_i是各参数集。N是参数集的数量。

图4所示的音响解码装置的降混调整电路504，进行公式9所示的运算。由此，音响解码装置根据降混补偿信息(DMXCue)即G_lev，i、以及从比特流得到的中间任意方式降混信号IADMX的频域系数即y(n)，计算中间降混信号IDMX的频域系数的近似值(公式9的左边)。SAC合成部505，根据计算中间降混信号IDMX的频域系数的近似值生成多声道音响信号。f-t变换部506，将频域的多声道音响信号变换为时间域的多声道音响信号。

本实施方式中的音响解码装置，通过使用每个参数集的降混补偿信息(DMXCue)即G_lev，i，来实现高效率的解码处理。

另外，在音响解码装置中，如果读取图2所示的LD_flag，并表示是附加了LD_flag的降混补偿信息(DMXCue)，则也可以跳过附加的降混补偿信息(DMXCue)。由此，有时音质会恶化，但能够进行更低延迟的解码处理。

如此构成的音响编码装置以及音响解码装置，(1)使运算处理的一部分并列，(2)使一部分的滤波器组共用，(3)新设置对由于这些而产生的音质恶化进行补偿的电路，将用于补偿的辅助信息作为比特流进行传送。由此，与低比特流且高音质但延迟量较大MPEG环绕方式所代表的SAC方式相比，能够使算法延迟量半减并且实现同等的音质。

(实施方式2)

以下，参照附图说明本发明实施方式2的降混补偿电路以及降混调整电路。

实施方式2的音响编码装置以及音响解码装置的基本构成与图1以及图4所示的实施方式1的音响编码装置以及音响解码装置的构成相同，但在实施方式2中降混补偿电路406的动作不同，因此对其进行详细说明。

以下，说明本实施方式中的降混补偿电路406的动作。

首先，通过指出现有技术中的问题点，由此说明本实施方式中的降混补偿电路406的意义。

图8是现有例的SAC编码装置的构成图。

在频域为纯粹的频域的情况下，这些作为空间信息(SpatialCue)以及降混补偿信息(DMXCue)的Cue信息，具有比较粗略的频率分辨率。以下将根据频率分辨率而汇集的频域系数的组，称为参数集。如图5所示，各参数集在大多数情况下包含1个以上的频域系数。为了使空间信息(SpatialCue)的组合单纯，在本发明中，以与空间信息(SpatialCue)的表现相同的构成来计算所有降混补偿信息(DMXCue)。当然，降混补偿信息(DMXCue)和空间信息(SpatialCue)也可以是不同的构成。

在作为SAC方式而使用MPEG环绕方式的情况下，从时间域向频域的变换使用QMF滤波器组。如图6所示，在使用QMF滤波器组进行了变换的情况下，变换的结果为，成为在时间轴方向上也具有充分的频域即混合域。此时，作为中间降混信号IDMX的频域系数的x(n)、作为中间任意方式降混信号IADMX的频域系数的y(n)，被表示为将频域系数进行了时分的表现x(m，hb)和y(m，hb)(m＝0、1、…、M-1，hb＝0、1、…、HB-1)。

并且，与参数带(band)和参数集的合成参数(PS-PB)相对应而计算出空间信息(SpatialCue)。如图6所示，各合成参数(PS-PB)一般包含多个时隙和混合带。此时，降混补偿电路406通过公式10来计算降混补偿信息(DMXCue)。

[公式10]

G_{lev, i} = \frac{\underset{m &Element; {ps}_{i}, hb &Element; {pb}_{i}}{Σ} x^{2} (m, hb)}{\underset{m &Element; {ps}_{i}, hb &Element; {pb}_{i}}{Σ} y^{2} (m, hb)}

其中i＝0，1，Λ，N-1(式10)

此处，G_lev，i是表示中间降混信号IDMX和中间任意方式降混信号IADMX的功率比的降混补偿信息(DMXCue)。ps_i是各参数集。pb_i是参数带。N是合成参数(PS-PB)的数量。x(m，hb)是中间降混信号IDMX的频域系数。y(m，hb)是中间任意方式降混信号IADMX的频域系数。

即，如图6所示，降混补偿电路406根据与M个时隙以及HB个混合带相对应的x(m，hb)以及y(m，hb)，计算与N个合成参数(PS-PB)相对应的降混补偿信息(DMXCue)即G_lev，i。

重叠装置407，将所计算出的降混补偿信息(DMXCue)重叠到比特流中进行传送。

并且，图4所示的音响解码装置的降混调整电路504，通过公式11计算中间降混信号IDMX的频域系数的近似值。

[公式11]

其中m∈ps_i，hb∈pb_i且i＝0，1，Λ，N-1(式11)

此处，公式11的左边表示中间降混信号IDMX的频域系数的近似值。G_lev，i是表示中间降混信号IDMX和中间任意方式降混信号IADMX的功率比的降混补偿信息(DMXCue)。ps_i是参数集。pb_i是参数带。N是合成参数(PS-PB)的数量。

图4所示的音响解码装置的降混调整电路504，进行公式11所示的运算。由此，音响解码装置根据降混补偿信息(DMXCue)即G_lev、以及从比特流得到的中间任意方式降混信号IADMX的频域系数即y(m，hb)，计算中间降混信号IDMX的频域系数的近似值(公式11的左边)。SAC合成部505，根据计算中间降混信号IDMX的频域系数的近似值生成多声道音响信号。f-t变换部506，将频域的多声道音响信号变换为时间域的多声道音响信号。

在本实施方式中，通过使用每个合成参数(PS-PB)的降混补偿信息(DMXCue)即G_lev，i，来实现高效率的解码处理。

(实施方式3)

以下，参照附图说明本发明实施方式3的降混补偿电路以及降混调整电路。

实施方式3的音响编码装置以及音响解码装置的基本构成与图1以及图4所示的实施方式1的音响编码装置以及音响解码装置的构成相同，但在实施方式3中降混补偿电路406的动作不同，因此对其进行详细说明。

以下，说明本实施方式中的降混补偿电路406的动作。

图8是现有例的SAC编码装置的构成图。

在频域为纯粹的频域的情况下，降混补偿电路406通过公式12计算降混补偿信息(DMXCue)即G_lev，i，来作为中间降混信号IDMX与中间任意方式降混信号IADMX的差分。

[公式12]

G_res(n)＝(x(n)-y(n)) n＝0，1，Λ，M-1(式12)

公式12中的G_res是表示中间降混信号IDMX和中间任意方式降混信号IADMX的差分的降混补偿信息(DMXCue)。x(n)是中间降混信号IDMX的频域系数。y(n)是中间任意方式降混信号IADMX的频域系数。M是在编码帧以及解码帧中被计算出频域系数的数量。

通过公式12计算的残差信号，根据需要进行量化，并通过Huffman编码来排除冗余性，并重叠到比特流中发送给音响解码装置。

另外，在公式12所记载的差分运算中，由于未使用实施方式1所示的参数集，因此计算结果的数量变多。因此，按照计算结果的残差信号的编码方式，有时比特率变高。因此，在对降混补偿信息(DMXCue)进行编码时，例如使用将残差信号作为纯粹的数值串而适用向量量化方法的情况等，将比特率的上升抑制为最小限度。在该情况下，在残差信号的编码以及解码时，不是在蓄积了多个信号之后进行输出，因此当然不会有算法延迟量。

音响解码装置的降混调整电路504，根据作为残差信号的G_res和作为中间任意方式降混信号IADMX的频域系数的y(n)，通过公式13来计算中间降混信号IDMX的频域系数的近似值。

[公式13]

\hat{x} (n) = y (n) + G_{res} (n)

n＝0，1，Λ，M-1(式13)

此处，公式13的左边表示中间降混信号IDMX的频域系数的近似值。M是在编码帧以及解码帧中被计算出频域系数的数量。

图4所示的音响解码装置的降混调整电路504，进行公式13所示的运算。由此，音响解码装置根据降混补偿信息(DMXCue)即G_res、以及从比特流得到的中间任意方式降混信号IADMX的频域系数即y(n)，计算中间降混信号IDMX的频域系数的近似值(公式13的左边)。SAC合成部505，根据计算中间降混信号IDMX的频域系数的近似值生成多声道音响信号。f-t变换部506，将频域的多声道音响信号变换为时间域的多声道音响信号。

在频域是频率与时间的混合域的情况下，降混补偿电路406通过公式14计算降混补偿信息(DMXCue)。

[公式14]

G_res(m，hb)＝(x(m，hb)-y(m，hb))其中m＝0，1，Λ，M-1；hb＝0，1，Λ，HB-1(式14)

公式14中的G_res是表示中间降混信号IDMX和中间任意方式降混信号IADMX的差分的降混补偿信息(DMXCue)。x(m，hb)是中间降混信号IDMX的频域系数。y(m，hb)是中间任意方式降混信号IADMX的频域系数。M是在编码帧以及解码帧中被计算出频域系数的数量。HB是混合带的数量。

并且，图4所示的音响解码装置的降混调整电路504通过公式15，计算中间降混信号IDMX的频域系数的近似值。

[公式15]

其中m＝0，1，Λ，M-1；hb＝0，1，Λ，HB-1(式15)

此处，公式15的左边表示中间降混信号IDMX的频域系数的近似值。y(m，hb)是中间任意方式降混信号IADMX的频域系数。M是在编码帧以及解码帧中被计算出频域系数的数量。HB是混合带的数量。

图4所示的音响解码装置的降混调整电路504，进行公式15所示的运算。由此，音响解码装置根据降混补偿信息(DMXCue)即G_res、以及从比特流得到的中间任意方式降混信号IADMX的频域系数即y(m，hb)，计算中间降混信号IDMX的频域系数的近似值(公式15的左边)。SAC合成部505，根据计算中间降混信号IDMX的频域系数的近似值生成多声道音响信号。f-t变换部506，将频域的多声道音响信号变换为时间域的多声道音响信号。

(实施方式4)

以下，参照附图说明本发明实施方式4的降混补偿电路以及降混调整电路。

实施方式4的音响编码装置以及音响解码装置的基本构成与图1以及图4所示的实施方式1的音响编码装置以及音响解码装置的构成相同，但在实施方式4中降混补偿电路406以及降混调整电路504的动作不同，因此对其进行详细说明。

以下，说明本实施方式中的降混补偿电路406的动作。

图8是现有例的SAC编码装置的构成图。

首先，对频域为纯粹的频域的情况进行说明。

降混补偿电路406，计算预测滤波系数，作为上述降混补偿信息(DMXCue)。作为降混补偿电路406所使用的预测滤波系数的生成方法，有Wiener(维纳)的FIR(Finite Impulse Response，有限脉冲响应)滤波器中的基于最小自乘法(MMSE：Minimum Mean Square Error，最小均方误差)的最佳预测滤波系数的生成方法。

在设Wiener滤波器的FIR系数为G_pred，i(0)、G_pred，i(1)、…、G_pred，i(K-1)的情况下，作为MSE(Mean Square Error，均方误差)的值的ξ由公式16表示。

[公式16]

ζ = \underset{n &Element; {ps}_{i}}{Σ} {(x (n) - Σ_{k = 0}^{K - 1} G_{pred, i} (k) \cdot y (n - k))}^{2}

其中i＝0，1，Λ，N-1(式16)

公式16中的x(n)是中间降混信号IDMX的频域系数。y(n)是中间任意方式降混信号IADMX的频域系数。K是FIR系数。ps_i是参数集。

降混补偿电路406，在求MSE的公式16中，如公式17所示，计算使对于G_pred，i(j)的各个要素的微分系数为0的G_pred，i(j)，作为降混补偿信息(DMXCue)。

[公式17]

\frac{&PartialD; ζ}{{&PartialD; G}_{pred, i} (j)} = 0,

其中j＝0，1，Λ，K-1

&DoubleRightArrow; G_{{pred, i}_{opt}} = [\begin{matrix} G_{pred, i} (0) \\ G_{pred, i} (1) \\ M \\ G_{pred, i} (K - 1) \end{matrix}] = Φ_{yy}^{- 1} Φ_{yx}

(式17)

式17中的Φ_yy是y(n)的自相关矩阵。Φ_yx是与中间任意方式降混信号IADMX相对应的y(n)和与中间降混信号IDMX相对应的x(n)的互相关矩阵。另外，n是参数集ps_i的要素。

音响编码装置，将如此计算的G_pred，i(j)进行量化而并入编码串中进行传送。

接收了编码串的音响解码装置的降混调整电路504，根据接收的中间任意方式降混信号IADMX的频域系数即y(n)、以及预测系数G_pred，i(j)，如下地计算中间降混信号IDMX的频域系数的近似值。

[公式18]

\hat{x} (n) = Σ_{k = 0}^{K - 1} G_{pred, i} (k) \cdot y (n - k)

(式18)

此处，公式18的左边表示中间降混信号IDMX的频域系数的近似值。

图4所示的音响解码装置的降混调整电路504，进行公式18所示的运算。由此，在音响解码装置中，根据降混补偿信息(DMXCue)即G_pred，i、以及从比特流解码的中间任意方式降混信号IADMX的频域系数即y(n)，计算中间降混信号IDMX的频域系数的近似值(公式18的左边)，SAC合成部505，根据中间降混信号IDMX的频域系数的近似值生成多声道音响信号。f-t变换部506，将频域的多声道音响信号变换为时间域的多声道音响信号。

在频域是频域与时间域的混合域的情况下，降混补偿电路406如下地计算降混补偿信息(DMXCue)。

[公式19]

\frac{&PartialD; ζ}{{&PartialD; G}_{pred, i} (j)} = 0,

其中j＝0，1，Λ，K-1

&DoubleRightArrow; G_{{pred, i}_{opt}} = [\begin{matrix} G_{pred, i} (0) \\ G_{pred, i} (1) \\ M \\ G_{pred, i} (K - 1) \end{matrix}] = Φ_{yy}^{- 1} Φ_{yx}

(式19)

公式19中的G_pred，i(j)是Wiener滤波器的FIR系数，计算使对于各个要素的微分系数成为0的G_pred，i(j)，作为预测系数。

并且，式19中的Φ_yy是y(m，hb)的自相关矩阵。Φ_yx是与中间任意方式降混信号IADMX的频域系数即y(m，hb)和与中间降混信号IDMX的频域系数x(m，hb)的互相关矩阵。另外，m是参数集ps_i的要素，hb是参数带pb_i的要素。

作为最小自乘法中的评价函数而使用公式20。

[公式20]

ξ = \underset{m &Element; {ps}_{i}}{Σ} \underset{hb &Element; {pb}_{i}}{Σ} {(x (m, hb) - Σ_{k = 0}^{K - 1} G_{pred, i} (k) \cdot y (m, hb - k))}^{2}

(式20)

公式20中的x(m，hb)是中间降混信号IDMX的频域系数。y(m，hb)是中间任意方式降混信号IADMX的频域系数。K是FIR系数。ps_i是参数集。pb_i是参数带。

此时，音响解码装置的降混调整电路504，根据接收的中间任意方式降混信号IADMX的频域系数即y(n)、以及接收的预测系数G_pred，i(j)，通过公式21计算中间降混信号IDMX的频域系数的近似值。

[公式21]

其中m∈ps_i，hb∈pb_i且i＝0，1，Λ，N-1(式21)

此处，公式21的左边表示中间降混信号IDMX的频域系数的近似值。

图4所示的音响解码装置的降混调整电路504，进行公式21所示的运算。由此，在音响解码装置中，根据降混补偿信息(DMXCue)即G_pred、以及从比特流中得到的中间任意方式降混信号IADMX的频域系数即y(n)，计算中间降混信号IDMX的频域系数的近似值(公式21的左边)。SAC合成部505，根据中间降混信号IDMX的频域系数的近似值生成多声道音响信号。f-t变换部506，将频域的多声道音响信号变换为时间域的多声道音响信号。

并且，根据本发明的音响编码装置以及音响解码装置，能够削减现有例中的多声道音响编码装置以及多声道音响解码装置的算法延迟，能够高效地兼顾处于折衷关系的比特率与音质的关系。

即，能够发挥的效果为：与现有例的多声道音响编码技术相比能够削减算法延迟，并能够实现进行实时通话的会议系统以及需要低延迟、高音质的多声道音响信号的传送的充满临场感的通信系统等的构筑。

因此，通过本发明，能够进行高音质、低比特率且低延迟的收发。因此，在便携电话等移动设备彼此的充满临场感的交流变得普及、AV设备以及会议系统中的正式的临场感交流变得普及的当今，本发明的实用价值极高。当然，用途并不限于此，对于需要延迟量小的全部双向交流当然也是有效的发明。

以上，基于实施方式1～4说明了本发明的音响编码装置以及音响解码装置，但本发明不限于这些实施方式。对于这些实施方式实施本领域技术人员所想到的各种变形而得到的方式、以及将这些实施方式的构成要素任意地组合而实现的其他方式也包含于本发明。

并且，本发明不仅能够作为这种音响编码装置以及音响解码装置实现，也可作为将这种音响编码装置以及音响解码装置所具备的特征的构件作为步骤的音响编码方法以及音响解码方法实现。并且，能够作为使计算机执行这些步骤的程序实现。并且，也能够构成为将音响编码装置以及音响解码装置所具备的特征手段一体化的LSI等半导体集成电路。并且，这种程序当然能够经由CD-ROM等记录媒体以及互联网等传送媒体来提供。

工业可利用性

本发明能够用于进行使用多声道音响编码技术以及多声道音响解码技术的实时通话的会议系统、以及需要低延迟且高音质的多声道音响信号的传送的充满临场感的通信系统中。当然，本发明不限于此，对于需要较小延迟量的双向交流整体能够适用。例如，本发明能够适用于家庭影院系统、车载音响系统、电子游戏系统、会议系统以及便携电话等。

Claims

1.一种音响编码装置，对输入的多声道音响信号进行编码，具备：

降混信号生成部，在时间域上对输入的上述多声道音响信号进行降混，由此生成作为1或2声道的音响信号的第一降混信号；

降混信号编码部，对由上述降混信号生成部生成的第一降混信号进行编码；

第一t-f变换部，将输入的上述多声道音响信号变换为频域的多声道音响信号；以及

空间信息计算部，对由上述第一t-f变换部进行了变换的频域的多声道音响信号进行分析，由此生成作为根据降混信号生成多声道音响信号的信息的空间信息。

2.如权利要求1所述的音响编码装置，其中，

上述音响编码装置还具备：

第二t-f变换部，将由上述降混信号生成部生成的第一降混信号变换为频域的第一降混信号；

降混部，对由上述第一t-f变换部进行了变换的频域的多声道音响信号进行降混，由此生成频域的第二降混信号；以及

降混补偿电路，对由上述第二t-f变换部进行了变换的频域的第一降混信号与由上述降混部生成的频域的第二降混信号进行比较，由此计算作为对降混信号进行调整的信息的降混补偿信息。

3.如权利要求2所述的音响编码装置，其中，

上述音响编码装置还具备重叠装置，该重叠装置将上述降混补偿信息和上述空间信息存放至相同的编码串。

4.如权利要求2所述的音响编码装置，其中，

上述降混补偿电路计算信号的功率比，作为上述降混补偿信息。

5.如权利要求2所述的音响编码装置，其中，

上述降混补偿电路计算信号的差分，作为上述降混补偿信息。

6.如权利要求2所述的音响编码装置，其中，

上述降混补偿电路计算预测滤波系数，作为上述降混补偿信息。

7.一种音响解码装置，将接收的比特流解码为多声道音响信号，具备：

分离部，将接收的比特流分离为数据部和参数部，数据部包含被编码的降混信号，参数部包含作为根据降混信号生成多声道音响信号的信息的空间信息、以及作为对降混信号进行调整的信息的降混补偿信息；

降混调整电路，使用上述参数部所包含的降混补偿信息，对从上述数据部得到的频域的降混信号进行调整；

多声道信号生成部，使用上述参数部所包含的空间信息，根据由上述降混调整电路进行了调整的频域的降混信号，生成频域的多声道音响信号；以及

f-t变换部，将由上述多声道信号生成部生成的频域的多声道音响信号变换为时间域的多声道音响信号。

8.如权利要求7所述的音响解码装置，其中，

上述音响解码装置还具备：

降混中间解码部，对上述数据部所包含的被编码的降混信号进行逆量化，由此生成频域的降混信号；以及

域变换部，将由上述降混中间解码部生成的频域的降混信号变换为在时间轴方向也具有成分的频域的降混信号；

上述降混调整电路对由上述域变换部进行了变换的频域的降混信号，根据上述降混补偿信息进行调整。

9.如权利要求7所述的音响解码装置，其中，

上述降混调整电路取得信号的功率比作为上述降混补偿信息，并将上述降混信号与上述功率比相乘，由此对上述降混信号进行调整。

10.如权利要求7所述的音响解码装置，其中，

上述降混调整电路取得信号的差分作为上述降混补偿信息，并将上述降混信号与上述差分相加，由此对上述降混信号进行调整。

11.如权利要求7所述的音响解码装置，其中，

上述降混调整电路取得预测滤波系数作为上述降混补偿信息，并对上述降混信号施以使用了上述预测滤波系数的预测滤波，由此对上述降混信号进行调整。

12.一种音响编码解码装置，具备对输入的多声道音响信号进行编码的音响编码部、以及将接收的比特流解码为多声道音响信号的音响解码部，

上述音响编码部具备：

第一t-f变换部，将输入的上述多声道音响信号变换为频域的多声道音响信号；

空间信息计算部，对由上述第一t-f变换部进行了变换的频域的多声道音响信号进行分析，由此生成作为根据降混信号生成多声道音响信号的信息的空间信息；

降混补偿电路，对由上述第二t-f变换部进行了变换的频域的第一降混信号与由上述降混部生成的频域的第二降混信号进行比较，由此计算作为对降混信号进行调整的信息的降混补偿信息；

上述音响解码部具备：

13.一种会议系统，具备对输入的多声道音响信号进行编码的音响编码装置、以及将接收的比特流解码为多声道音响信号的音响解码装置，

上述音响编码装置具备：

上述音响解码装置具备：

14.一种音响编码方法，对输入的多声道音响信号进行编码，具备：

降混信号生成步骤，在时间域上对输入的上述多声道音响信号进行降混，由此生成作为1或2声道的音响信号的第一降混信号；

降混信号编码步骤，对由上述降混信号生成步骤生成的第一降混信号进行编码；

第一t-f变换步骤，将输入的上述多声道音响信号变换为频域的多声道音响信号；以及

空间信息计算步骤，对由上述第一t-f变换步骤进行了变换的频域的多声道音响信号进行分析，由此生成作为根据降混信号生成多声道音响信号的信息的空间信息。

15.一种音响解码方法，将接收的比特流解码为多声道音响信号，具备：

分离步骤，将接收的比特流分离为数据部和参数部，数据部包含被编码的降混信号，参数部包含作为根据降混信号生成多声道音响信号的信息的空间信息、以及作为对降混信号进行调整的信息的降混补偿信息；

降混调整步骤，使用上述参数部所包含的降混补偿信息，对从上述数据部得到的频域的降混信号进行调整；

多声道信号生成步骤，使用上述参数部所包含的空间信息，根据由上述降混调整步骤进行了调整的频域的降混信号，生成频域的多声道音响信号；以及

f-t变换步骤，将由上述多声道信号生成步骤生成的频域的多声道音响信号变换为时间域的多声道音响信号。

16.一种程序，用于对输入的多声道音响信号进行编码的音响编码装置，使计算机执行权利要求14所述的音响编码方法所包含的步骤。

17.一种程序，用于将接收的比特流解码为多声道音响信号的音响解码装置，使计算机执行权利要求15所述的音响解码方法所包含的步骤。