发明内容
为了解决上述课题,本发明的音频信号解码装置,解码代码串并输出音频信号,包括:提取单元,从所输入的代码串提取下述代码串和辅助信息,该被提取的代码串表示被混入了多个音频信号且数量比多个音频信号少的混入信号,该被提取的辅助信息用于将上述混入信号恢复到被混入之前的音频信号;
解码单元,解码上述代码串,该代码串表示上述混入信号;
信号分离单元,根据所提取的上述辅助信息,分离由上述解码所得的上述混入信号,生成听觉上与被混入之前的上述音频信号相近的多个音频信号;以及
播放单元,播放已被解码的上述混入信号,或者播放从上述混入信号所分离的多个音频信号,
上述辅助信息包括线性预测系数,该线性预测系数用于以上述混入信号的函数来表示被混入之前的一个以上的音频信号;
上述信号分离单元,根据上述辅助信息内的上述线性预测系数,算出以上述混入信号的函数来表示的无相关信号,从上述混入信号排 除所算出的上述无相关信号,从而生成被混入之前的上述音频信号。
所述的音频信号解码装置,上述辅助信息包括标志,该标志示出被混入之前的多个音频信号之间的相关程度;
上述信号分离单元,在上述标志示出上述音频信号之间的相关程度低的情况下,从上述混入信号排除上述无相关信号,从而生成被混入之前的上述音频信号。
一种音频信号编码装置,编码混入信号,该混入信号是被混入了多个音频信号的信号,该音频信号编码装置包括:
混入信号生成单元,混入所输入的多个音频信号,生成混入信号,该混入信号表示数量比原来的音频信号的数量少的音频信号;
辅助信息生成单元,生成辅助信息,该辅助信息包括线性预测系数和标志,该线性预测系数用于根据被混入之前的一个以上的音频信号,算出以上述混入信号的函数来表示的无相关信号,该标志示出被混入之前的多个音频信号之间的相关程度,且该辅助信息用于在上述标志示出上述音频信号之间的相关程度低的情况下,从上述混入信号分离下述音频信号,该音频信号是听觉上与被混入之前的上述音频信号相近的音频信号;
编码单元,编码上述混入信号;以及
代码串生成单元,生成代码串,该代码串包括已被编码的上述混入信号和已被生成的上述辅助信息。
所述的音频信号编码装置,上述线性预测系数是一种被导出的系数,该线性预测系数使线性预测滤波输出的信号表示被混入上述混入信号之前的至少一个上述音频信号,并且用函数定义以混入信号作为输入信号的上述线性预测滤波。
再者,本发明不仅作为这样的音频信号编码装置以及音频信号解码装置来实现,也作为音频信号编码方法以及音频信号解码方法来实现,或者可以将上述的步骤作为使计算机执行的程序来实现。进而,也可以作为将这些的步骤编入到集成电路等的音频信号编码装置以及 音频信号解码装置来实现。并且,上述的程序也可以通过CD-ROM等记录介质或互联网等传送介质来分发。
如上述说明,本发明的音频信号编码装置,在根据被混入的二个或更多信号列生成代码串而且将所生成的代码串分离成多个信号列时,着眼于信号之间的类似性,使代码串中含有非常小的补助信息,从而,分离信号后能够达到听觉上与分离前没有差别的程度。还有,预先将被混入的信号设成多声道信号的缩混信号,这样在解码时不需要读取补助信息来进行信号处理,而是仅解码缩混信号部,就能够在具有2声道信号播放系统的扬声器或耳机中,也以少的运算量进行高音质的播放。
具体实施方式
以下,参照附图对本发明的实施方式加以说明。
(实施方式1)
图2是示出本发明的音频信号解码装置中生成可以解码的代码串的音频信号编码装置200的结构的块图。该音频信号编码装置200是至少输入二个信号并从所输入的信号生成数量更少的混入信号,而且生成下述代码串的音频信号编码装置,该代码串包括表示混入信号的一个编码数据和位数比该编码数据少的位数来表示的辅助信息,该音频信号编码装置200包括混入信号编码部203以及辅助信息生成部204。辅助信息生成部204内部包括:增益算出部211、相位算出部212、系数算出部213。以下,为了说明的方便,就输入信号为二个的情况加以说明。混入信号编码部203以及辅助信息生成部204,都以输入信号(1)201和输入信号(2)202作为输入,混入信号编码部203生成混入信号以及混入信号信息206。在这里,混入信号是用规定的方法重叠输入信号(1)201和输入信号(2)202所得的信号。辅助信息生成部204根据所输入的输入信号(1)201、输入信号(2)202以及混入信号编码部203输出的混入信号,生成辅助信息205。
更具体而言,在混入信号编码部203,根据预先所定的一定的方法将输入信号(1)201和输入信号(2)202加在一起生成混入信号,并编码该混入信号,输出混入信号信息206。在这里,作为混入信号编码部203的编码方法,可以使用AAC等方法,不过不局限于该方法。
在辅助信息生成部204,用输入信号(1)201、输入信号(2)202、混入信号、混入信号信息206生成辅助信息205,该混入信号和混入信号信息206是在混入信号编码部203所作成的。在这里辅助信息205用于从混入信号中分离,听觉上与被混入之前的输入信号(1)201和输入信号(2)202尽量相同的信号。因而,混入信号分离后的程度可以是与被混入之前的输入信息(1)201和输入信号(2)202完全相同的程度,也可以是听觉上没有差异的程度。即使在听觉上有差异,该辅助信息属于本发明的范畴,重要的是该辅助信息含有用于上述分离的信息。在辅助信息生成部,对所输入的信号进行编码,例如,可以用正交镜像对称滤波器(QMF:Quadrature Mirror Filter)滤波器组的编码方法进行编码,也可以用快速傅立叶变换(FFT:Fast Fourier Transform)等的编码方法进行编码。
增益算出部211,对输入信号(1)201及输入信号(2)202,和混入信号进行比较,从而生成增益,该增益用于从混入信号生成非常相似于输入信号(1)201及输入信号(2)202的信号。更具体而言,增益算出部211,首先对输入信号(1)201及输入信号(2)202和混入信号的每个帧分别实施QMF滤波处理,从而将输入信号(1)201、输入信号(2)202及混入信号变换为时间频率空间上的子频带信号。其次,将时间频率空间按时间方向和频率方向分割之后,在被分割的各区域内进行下述比较,比较从输入信号(1)201及输入信号(2)202所变换的各个子频带信号,和从混入信号所变换的子频带信号。然后,使用从混入信号所变换的子频带信号,算出被分割的每个区域的增益,该增益用来表示从输入信号(1)201及输入信号(2)202所变换的各个子频带信号。进而,生成时间频率矩阵,并且将该时间频率矩阵与示出时间频率空间的分 割方法的信息一同作为辅助信息205输出,该时间频率矩阵示出对被分割的各区域所算出的增益的分布。再者,在这里可以只对输入信号(1)201及输入信号(2)202所变换的子频带信号中的一个算出增益的分布。其理由如下,从混入信号生成输入信号(1)201及输入信号(2)202中的一个,再从混入信号减去输入信号(1)201或者输入信号(2)202,就可以得到另一个输入信号(1)201或者输入信号(2)202。
还有,可以预想,例如用邻接的话筒等所收集的语音等,各频谱之间的相关程度高。这种情况下,相位算出部212与增益算出部211相同,对输入信号(1)201及输入信号(2)202和混入信号的每个帧分别进行QMF滤波处理。进而相位算出部212,以每个子频带为单位,算出从输入信号(1)201所得的子频带信号和从输入信号(2)202所得的子频带信号的相位差(延迟量),并将算出的相位差与该情况的增益作为辅助信息输出。再者,输入信号(1)201和输入信号(2)202的相位差,有这样的性质,在低频率中听觉上容易被感知,而在高频率中难以被感知。因此,子频带信号为高频率的情况下,可以省略算出该相位差。还有,相位算出部212在输入信号(1)201和输入信号(2)202的相关程度低的情况下,即使算出相位差,也不在辅助信息中包括其算出值。
进而,输入信号(1)201和输入信号(2)202的相关程度低的情况下,可以将输入信号(1)201和输入信号(2)202之中的一个信号当做是与另一个信号没有关系的信号(噪音信号)。从而,系数算出部213,在输入信号(1)201和输入信号(2)202的相关程度低的情况下,首先生成示出输入信号(1)201和输入信号(2)202的相关程度低的标志。定义以混入信号作为输入信号的线性预测滤波(函数),导出线性预测系数,该线性预测系数使上述滤波输出的信号与被混入之前的一个信号尽可能相同。如果混入信号由二个信号所构成,可以导出二组的线性预测系数,将该二者作为辅助信息输出,也可以只输出其中一个。即使混入信号由多个输入信号构成,也导出下述线性预测系数,根据该线性预测系数输出至少与某一个输入信号尽可能相同的信号。因这样的结构,系 数算出部213在算出上述函数的线性预测系数之后,将所算出的线性预测系数和示出输入信号(1)201和输入信号(2)202的相关程度低的标志作为辅助信息输出。再者,在这里用标志来示出输入信号(1)201和输入信号(2)202的相关程度低,不过,不局限于比较信号全体,也可以对每个用QMF滤波处理等所得到的子频带信号生成该标志。
其次用图3说明解码方法。图3是将本发明的音频信号解码装置100的主要部的结构以模式的方法示出的图。音频信号解码装置100是一种解码装置,该音频信号解码装置100预先从所输入的代码串提取混入信号信息和辅助信息,从所解码的混入信号信息分离出输出信号(1)105和输出信号(2)106,该音频信号解码装置100包括混入信号解码部102及信号分离处理部103。
在音频信号解码装置100的前段,从代码串所提取的混入信号信息101,在混入信号解码部102从编码数据的形式解码为音频信号的形式。上述音频信号的形式,不局限于时间轴上的信号形式,可以是频率轴上的信号形式,也可以是以时间和频率两轴所表现的形式等。辅助信息104和来自混入信号解码部102的输出信号,被输入到信号分离处理部103,进行信号的分离合成后,输出输出信号(1)105和输出信号(2)106。图4是示出在本实施方式的音频信号解码装置,将被混入了二个信号的混入信号mX分离成听觉上与原信号相近的二个信号X1和X2的模样的图。本发明的音频信号解码装置100,根据从代码串所提取的辅助信息,从混入信号mX分离信号X1和信号X2,该分离信号X1和信号X2听觉上与原信号信号x1和信号x2相近。
以下,用图5来说明本发明的具体的解码方法。图5是示出在本实施方式的音频信号解码装置100进行增益控制时结构的一个例子的图。本实施方式的音频信号解码装置100包括:混入信号解码部302、信号分离部303、增益控制部304、时间频率矩阵生成部308。
在图5示出的音频信号解码装置100的前段,预先从代码串所提取的混入信号信息301被输入到混入信号解码部302。在混入信号解码 部302,混入信号信息301从编码数据的形式解码为音频信号的形式。上述音频信号的形式,不局限于时间轴上的信号形式,可以是频率轴上的信号形式,也可以是以时间和频率两轴所表现的形式等。上述的混入信号解码部302的输出信号,以及辅助信息307,被输入到信号分离部303。在信号分离部303,以辅助信息307为基础将所解码的混入音频信号分离成多个信号。具体而言,按照包括在辅助信息307的示出时间频率空间(或者频率空间)的分割方法的信息,来分割混入音频信号所属的空间。为了说明的方便,在这里记载了分离成二个的情况,不过,不一定限制为二个。另一方面,在时间频率矩阵生成部308,根据辅助信息307生成对应于从混入信号解码部302所输出的信号或者来自信号分离部303的多个输出信号相同的音频信号的形式的增益。例如,音频形式单纯是时域信号的情况下,时间频率矩阵生成部308输出有关时域的一个以上时间的增益信息,或者,音频形式是如同QMF滤波由多个子频带所组成的时间轴和频率轴所表现的形式的情况下,时间频率矩阵生成部308输出时间和频率的二维的增益信息。增益控制部304,对上述的增益信息和来自信号分离部303的多个音频信号适用与数据形式相对应的增益控制,而且输出输出信号(1)305和输出信号(2)306。
这样所构成的音频信号解码装置,可以从被混入的音频信号中得到已被适当地进行了增益控制的多个音频信号。
关于该增益控制,用以下的图6及图7进行详细说明。图6(a)及图6(b),示出从图5所示的混入信号解码部302所输出的是QMF滤波的情况下,对各个子频带信号的增益控制的一个例子的图。图7是示出表示来自混入信号解码部302的输出信号的空间的分割方法的一个例子的图。图6(a)是示出图5所示的混入信号解码部302输出的子频带信号的图。如上所述,QMF滤波所输出的子频带信号以时间轴和频率轴所组成的二维空间上的信号来表示。
从而,当音频形式由QMF滤波所构成的情况下,以帧为单位处理 音频信号时,用时间频率矩阵的增益控制可容易进行。
例如,音频信号由32子频带的QMF滤波所构成,且该音频信号是1帧1024采样的音频信号,处理该音频信号的结果,可以获得时间方向32采样,频率方向(子频带)32频带的作为音频形式的时间频率矩阵。对那些1024采样的信号进行增益控制的情况下,如图7,以频率方向和时间方向分割区域,对所分割的各个区域定义增益控制的系数(R11,R12,R21,R22),则容易进行增益控制。在这里为了说明的方便,使用了由R11至R22的四个要素所组成的矩阵,不过,时间方向、频率方向的系数个数不受这些限制。在图6示出增益控制的适用例子。即图6(b)是示出将图7所示的时间频率空间的分割方法适用在图6(a)所示的子频带信号的例子的图。如图6(b)所示,QMF滤波为6子频带的情况下,将6子频带分为低域4频带和高域2频带,时间方向上平均地分为2个,这样的情况下,在上述4区域存在的QMF滤波所得的信号列乘以增益R11,R12,R21,R22,输出乘上之后的信号等。
对于所混入的信号列没有特别限制,不过,处理多声道的音频信号列的情况下,可以考虑出现,后部声道信号混入到前方声道信号的情况、进而中央声道也混入其中的情况等。从而,混入后的信号在通常被称为缩混信号等的情况也有效。
图8是示出用2声道移动播放器来播放来自编码装置700的代码串的情况下,音频信号系统的结构例子的图。如该图所示,该音频信号系统包括编码装置700、移动播放器710、耳机或扬声器720。编码装置700是一种编码装置,该编码装置700输入例如5.1声道的多声道音频信号列,输出从5.1声道缩混为2声道的音频代码串以及辅助信号,该编码装置700包括缩混部701、辅助信息生成部702以及编码部703。缩混部701,从5.1声道的多声道音频信号列生成2声道的缩混信号,又将生成的缩混信号DL及DR输出到编码部703。辅助信息生成部702生成用于从所生成的缩混信号DL及DR复原到5.1声道的多声道信号的信息,又将该信息作为辅助信息输出到编码部703。编码部 703,编码所生成的缩混信号DL及DR和辅助信息,又多路复用该缩混信号DL及DR和辅助信息,将这些作为代码串输出。在该音频信号系统中的移动播放器710,连接在2声道的耳机或者扬声器720,只能播放2声道的立体声播放。而移动播放器710包括混入信号解码部711,由混入信号解码部711仅对从编码装置700获得的代码串进行解码,就能够以2声道的耳机或扬声器720进行播放。
图9是示出用家庭播放器播放来自编码装置700的代码串的情况下,音频信号系统的结构例子的图,该家庭播放器是可以播放多声道音频的播放器。如该图所示,该音频信号系统包括,编码装置700、多声道家庭播放器730以及扬声器740。编码装置700的内部结构与图8示出的编码装置700相同,因此省略说明。多声道家庭播放器730包括混入信号解码部711和信号分离处理部731,该多声道家庭播放器连接在可以播放5.1声道的多声道信号的扬声器740。在该多声道家庭播放器730中,混入信号解码部711,解码从编码装置700获得的代码串,提取辅助信息和缩混信号DL及DR。在信号分离处理部731,根据所提取的辅助信息,从所提取的缩混信号DL和DR生成5.1声道的多声道信号。
如同图8及图9所示的例子,即使输入同样的代码串,只播放2声道信号的移动播放器等,仅解码代码串中的混入信号就可以播放所希望的缩混音频信号,从而可以得到降低电的消费,使电池的使用时间长久的效果。还有,设置在家庭中的可播放多声道音频信号的家庭播放器因为不是由电池所驱动,所以可不介意电的消耗,可以追求播放更高音质的音频信号。
(实施方式2)
以下,用图10来说明本实施方式的具体的解码装置。
图10是示出在本实施方式的音频信号解码装置进一步进行相位控制的情况下的结构的一个例子的图。实施方式2的音频信号解码装置是一种音频信号解码装置,该音频信号解码装置是输入作为代码串的 混入信号信息401及辅助信息407,根据所输入的混入信号信息401及辅助信息407,输出输出信号(1)405及输出信号(2)406的装置,该音频信号解码装置包括,混入信号解码部402、信号分离部403、增益控制部404、时间频率矩阵生成部408、相位控制部409。
实施方式2的结构与上述的实施方式1的结构上的差异只在于,实施方式2加上了相位控制部409,其他的结构与实施方式1相同。因而本实施方式2中,只对相位控制部409的结构进行详细说明。
当编码时所混入的信号,相互间存在关联性的情况下,特别是对某一个信号另一个信号延迟,作为增益不同的信号来处理时,混入信号被记载成(公式1)。
(公式1)
mx=x1+x2
=x1+A*x1*phaseFactor
在这里,mx为被混入之后的信号,x1、x2为输入信号(被混入之前的信号),A为增益补正,phaseFactor是按照相位差所乘的系数。所以,因为混入信号mx是作为信号x1的函数来表示,所以在相位控制部409可以从混入信号mx简单地算出信号x1,并进行分离。而且,可以根据从混入信号mx分离信号x1来获得信号x2。进而,增益控制部404根据从辅助信息407所得的时间频率矩阵,对上述所分离的信号x1及x2,进行增益控制,从而可以输出更接近原音的输出信号(1)405及输出信号(2)406。
A以及phaseFactor,不是从被混入之后的信号导出的,而是从编码的时候(即被混入之前的多个信号)就可以导出,所以预先在编码装置,将这些编码到辅助信息407中,就能够在相位控制部409控制分 离的各个信号的相位。
相位差,可以以不被限定为整数的采样数来编码,也可以以协方差矩阵赋予。协方差矩阵是同行业者普遍知道的技术,因此省略说明。
频带中存在相位信息在听觉上重要的频带,也存在相位信息不对音质产生大的影响的信号或频带,因此相位信息没有必要发给所有的频带以及所有的时间。即,相位信息在听觉上不重要的频带,或者相位信息不对音质产生大的影响的信号或频带中,可以省略子频带信号的相位控制。从而,对每个子频带信号分别生成相位信息,就可以不用发送多余的信息,能够减少辅助信息的数据量。
(实施方式3)
用图11对本发明的具体的解码装置进行说明。图11是示出在本实施方式的音频信号解码装置,当各个输入信号间相关程度低时,使用线性预测滤波的情况下的结构的一个例子的图。
实施方式3的音频信号解码装置是当被输入混入信号信息501和辅助信息507,并原来的输入信号之间没有大的相互关系的情况下,将其中一个信号当做由混入信号的函数来表示的无相关信号(噪音信号),生成并输出输出信号(1)505和输出信号(2)506的音频信号解码装置,该音频信号解码装置包括:混入信号解码部502、信号分离部503、增益控制部504、时间频率矩阵生成部508、相位控制部509、线性预测滤波自适应部510。
首先,该实施方式3的解码装置是详细说明实施方式1中的解码装置的装置。
实施方式3的结构和上述的实施方式2的结构上的不同之处仅在于加上了线性预测滤波自适应部510,其他的结构与实施方式2相同。因而在本实施方式3,只对线性预测滤波自适应部510的结构进行详细说明。
当编码时被混入的信号之间相互关系小的情况下,对某一个信号的表现不能单纯通过延迟另一个信号等来表现。这个情况下,可以考 虑线性预测滤波自适应部510将一个信号当做与另一个信号无相关的信号(噪音信号),对该一个信号进行编码。在这样的情况下,预先在代码串中编码标志等,该标志示出相关程度低,就可以在解码时实行相关程度低的情况的分离处理。该信息可以以每个频带或者以每个时间间隔进行编码。还有,这个标志在代码串中可以以每个子频带信号进行编码。
(公式2)
mx=x1+x2
=x1+Func(x1+x2)
在这里,mx为被混入之后的信号,x1m、x2为输入信号(被混入之前的信号),Func()是由线性预测系数等组成的多项式。
信号mx,x1,x2不是从被混入之后的信号导出的,而是从编码的时候(即被混入之前的多个信号)就可以利用,所以从信号mx,x1,x2导出以Func()来表示的多项式的系数,并将这些系数预先编码到辅助信息507里,就能够在线性预测滤波自适应部510导出x1、x2。
(公式3)
x2=Func(x1+x2)
从而,导出使(公式3)成立的Func()的系数,并进行编码即可。
如上所述,使代码串中包括表示输入信号之间是否存在相互关系的标志,从而在输入信号之间没有很多相互关系的情况下,或者当输入信号有二个或二个以上时,将其中某一个作为标准信号,且其他的输入信号与标准信号没有很多相关的情况下,可以将其他的信号以无 相关信号(噪音信号)来表示,该无相关信号是以混入信号的函数来表示的信号。还有,输入信号之间的相互关系大的情况下,可将其他的信号以标准信号的延迟信号来表示。还有,如上所述从混入信号所分离的各信号乘上以时间频率矩阵来表示的增益,从而具有能够获得更加忠实于所输入的原音的输出信号的效果。
本发明的音频信号解码装置以及编码装置,可适用于已适用音频编码及解码方法的所有应用程序。
进行了音频编码的位流(bit stream)代码串,应用于现在的广播内容的传送,以及在DVD或SD卡等存储介质中记录并播放的情况,还应用于将AV内容传送到以移动电话为代表的通信机器的情况等。还有,该编码流也有用于作为互联网上交换的电子数据,传送音频信号的情况。
本发明的音频信号解码装置,作为根据电池等所驱动的移动电话等移动型音频信号播放装置而有用。还有,本发明的音频信号解码装置,作为可以转换多声道播放和2声道播放来进行播放的多声道家庭播放器而有用。还有,本发明的音频信号编码装置,作为分发音频内容的广播局或内容分发服务器包括的音频信号编码装置而有用,该广播局或内容分发服务器通过窄频带传输线,向移动电话等的移动型音频信号播放装置分发音频内容。