CN1922655A - 音频信号编码装置、音频信号解码装置、方法及程序 - Google Patents
音频信号编码装置、音频信号解码装置、方法及程序 Download PDFInfo
- Publication number
- CN1922655A CN1922655A CNA2005800055198A CN200580005519A CN1922655A CN 1922655 A CN1922655 A CN 1922655A CN A2005800055198 A CNA2005800055198 A CN A2005800055198A CN 200580005519 A CN200580005519 A CN 200580005519A CN 1922655 A CN1922655 A CN 1922655A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- signal
- characteristic quantity
- supplementary
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种由混入信号编码部(203)及辅助信息生成部(204)构成的音频信号编码装置,具备:混入信号编码部(203),生成通过某种一定的预先设定的方法相加后的混入信号,将该混入信号编码,输出混入信号信息(206);辅助信息生成部(204),利用第1输入信号(201)、第2输入信号(202)、以及由混入信号编码部(203)制作的混入信号和混入信号信息(206),生成辅助信息(205)。辅助信息生成部(204)利用有关人类的声源方向知觉的特性、扩散感、以及距离感的特征,将辅助信息(205)高效地量化。
Description
技术领域
本发明涉及音频信号的编码装置、解码装置、方法及程序。
背景技术
作为以往的音频信号编码方法及解码方法,作为公知的方法可列举出ISO/IEC的国际标准方式,通称为MPEG方式等。当前,具有广泛的应用、且即使在低位速率时作为高音质的编码方式,可列举出ISO/IEC 13818-7、通称为MPEG2 AAC(Advanced Audio Coding,先进音频编码)等。当前对本方式的扩展规格有多个规格化。
作为其中之一,有利用称作空间音响信息(Spatial CueInformation)或听觉音响信息(Binaural Cue)的信息的技术。作为这种技术的例子,有在作为ISO国际标准规格的MPEG-4 Audio(ISO/IEC 14496-3)中确定的参量立体声(Parametric Stereo)方式(参照非专利文献1)。此外,作为另一例,有在美国公开专利US2003/0035553“Backwards-compatible Perceptual Coding of SpatialCues”中公开的方式。此外,还提出了其他的方式(例如参照专利文献1、专利文献2等)。
非专利文献1:ISO/IEC 14496-3:2001 AMD2“Parametric Codingfor High Quality Audio”
专利文献1:美国公开专利US2003/0035553“Backwards-compatible Perceptual Coding of Spatial Cues”
专利文献2:美国公开专利US2003/0219130“Coherence-basedAudio Coding and Synthesis”
发明的公开
发明要解决的问题
但是,在以往的音频信号编码方法及解码方法中,例如在背景技术中记载的AAC等中,在将多声道的信号编码时,由于不能充分利用声道间的相关,所以难以进行低位速率化。即使在利用声道间的相关而实施编码的情况下,也有不能充分将因具有人类的声源方向知觉的特性或有关扩散感的特征而得到的编码的效率提高等效果应用到量化和编码中的问题。
此外,在以往的方法中,在将多声道信号编码后进行解码时,在通过2个扬声器或耳机等再生的情况下,必须一次将所有的声道解码、然后利用缩混(downmix)等方法,通过相加而生成应由上述2个扬声器或耳机再生的声音信号。这成为在用2个扬声器或耳机再生的情况下、需要较多的计算量及计算用的缓存、进而提高了安装它的DSP等的计算单元的消耗电力及成本的原因。
发明内容
本发明是鉴于上述问题而做出的,目的是提供一种提高将多声道信号编码时的编码效率的音频信号编码装置、和将由该装置得到的编码解码的音频信号解码装置。
本发明的音频信号编码装置,是将多个声道各自的原声信号编码为表示上述原声信号的整体特征的混入信号信息、和表示基于各个原声信号间的关系的特征量的辅助信息的音频信号编码装置,具备:混入信号编码单元,通过将混入上述原声信号而得到的混入信号编码而生成上述混入信号信息;辅助信息生成单元,根据上述原声信号算出上述特征量,且当表示各声道的声音从听者来看的再生位置的声道信息被提供时,则根据由被提供的声道信息所表示的各再生位置的配置关系,确定不同的编码方法,并利用上述被确定的编码方法将上述计被算出的特征量编码,由此生成上述辅助信息。
此外,上述辅助信息生成单元也可以预先存储有对可得到不同的量化精度的量化点进行定义的多个表,通过以上述多个表中的上述声道信息所表示的各再生位置的配置关系的一个表所定义的量化点,将上述特征量量化,来进行编码。
此外,上述辅助信息生成单元,也可以算出上述原声信号间的电平差及相位差的至少一个,而作为上述特征量;还可以根据上述算出的电平差及相位差,算出被推测为听者所知觉的声象的方向作为上述特征量。
此外,上述辅助信息生成单元,也可以预先存储有定义从听者的正面方向左右对称地设置的量化点的第1表、和定义从听者的左方向前后非对称地设置的量化点的第2表,在上述声道信息表示听者的左前方和右前方的情况下,通过以上述第1表定义的量化点将上述特征量量化来进行编码,在上述声道信息表示听者的左前方和左后方的情况下,通过以上述第2表定义的量化点将上述特征量量化来进行编码。
此外,上述辅助信息生成单元,也可以计算上述原声信号间的类似度,作为上述特征量;此外,也可以算出上述原声信号间的相互相关值、或其绝对值,作为上述类似度;还可以根据上述算出的类似度,计算被推测为听者所知觉的声象的扩散感及距离感的至少一个,作为上述特征量。
为了解决上述问题,本发明的音频信号解码装置,是将表示多个声道各自的原声信号的整体特征的混入信号信息、和表示基于各个原声信号间的关系的特征量的辅助信息解码为上述多个声道各自的再生信号的音频信号解码装置,具备:解码方式切换单元,当表示各声道从听者来看的声音的再生位置的声道信息被提供时,则根据由被提供的声道信息所表示的各再生位置配置关系,确定不同的解码方法;信号间信息解码单元,利用上述被确定的解码方法将上述辅助信息解码为上述特征量;信号合成单元,利用上述混入信号信息和上述解码后的特征量,生成上述多个声道各自的再生信号。
此外,上述辅助信息也可以是通过以定义得到不同的量化精度的量化点的多个表中的对应于上述声道信息的表示的各再生位置的配置关系的一个所定义的量化点,将上述特征量量化而被编码的;上述信号间信息解码单元,预先存储有上述多个表,利用上述多个表中的对应于上述声道信息所表示的各再生位置的配置关系的一个,将上述辅助信息解码为上述特征量。
此外,上述特征量也可以表示上述原声信号间的电平差、相位差、以及被推测为听者所知觉的声象的方向中的至少一个;上述信号间信息解码单元预先存储有定义从听者的正面方向左右对称地设置的量化点的第1表、和定义从听者的左方向前后非对称地设置的量化点的第2表,在上述声道信息表示听者的左前方和右前方的情况下,利用上述第1表将上述辅助信息解码为上述特征量,在上述声道信息表示听者的左前方和左后方的情况下,利用上述第2表将上述辅助信息解码为上述特征量。
此外,上述特征量也可以表示上述原声信号间的电平差、相位差、类似性、以及被推测为听者所知觉的声象的方向、扩散感、以及距离感中的至少一个。
上述信号合成单元也可以在上述特征量表示上述原声信号间的电平差、相位差、及类似性中的至少一个的情况下,对上述混入信号信息所表示的声音信号提供对应于上述特征量的电平差、相位差、及类似性,由此生成上述再生信号。
此外,本发明不仅可以作为这样的音频信号编码装置及音频信号解码装置实现,也可以作为以通过具备这样装置的特征性单元进行执行的处理作为分步的方法来实现,还可以作为使计算机执行这些步骤的程序来实现。并且,这样的程序当然可以通过CD-ROM等存储媒体或因特网等传送媒体发送。
根据本发明的音频信号编码装置及解码装置,在生成从混入原声信号而得到的混入信号将近似于原声信号的再生信号分离用的辅助信息时,通过具有有关人类的声源的方向知觉特性、扩散感、以及距离感的特征,能够达到在听觉上没有不适感之程度的信号的分离,并且能够生成很小的辅助信息。
此外,如果构成为能够从多声道的原声信号作为上述混入信号而得到左右双声道的缩音信号,则在通过具有双声道信号的再生系统的扬声器或耳机的再生中,不处理辅助信息,而只将上述缩音信号解码,就能够以低运算量进行高品质的立体声再生。
附图说明
图1是表示有关本发明的实施方式的音频信号编码装置的功能结构的一例的框图。
图2是表示声道信息显示的听者与声源的位置关系的一例的图。
图3是表示辅助信息生成部的结构的一例的功能框图。
图4(A)及图4(B)是示意地表示在知觉方向推测值的量化中使用的表的一例的图。
图5(A)及图5(B)是示意地表示在信号间电平差及信号间相位差的量化中使用的表的一例的图。
图6是表示辅助信息生成部的结构的另一例的功能框图。
图7是示意地表示在信号间相关度、信号间类似度、以及扩散感推测值的量化中使用的表的一例的图。
图8是表示辅助信息生成部的结构的又一例的功能框图。
图9是表示有关本发明的实施方式的音频信号解码装置的整体结构的功能结构的一例的框图。
图10是表示信号分离处理部的结构的一例的功能框图。
具体实施方式
下面,参照附图对本发明的实施方式进行说明。
(音频信号编码装置)
图1是表示本发明的音频信号编码装置的功能结构的一例的框图。该音频信号编码装置是将从外部送来的第1输入信号201及第2输入信号202编码而得到混入信号信息206、并且根据由外部送来的声道信息207,按照所示的各声道的声音的再生位置的配置关系利用不同的编码方法得到辅助信息205的装置,由混入信息编码部203及辅助信息生成部204构成。
混入信号信息206及辅助信息205是通过后述的音频信号解码装置将第1输入信号201及第2输入信号202分别解码为近似的信号的信息,声道信息207是表示从听者来看被解码的各个信号是从哪个方向再生的信息。
图2是表示信号再生用声源与听者之间的的位置关系的一例的图。该例表示在进行5声道再生的情况下,从作为各声道的声源的扬声器分别由听者来看的配置方向。例如,显示出前L声道扬声器及前R声道扬声器被分别配置在从听者的正面开始左右30°的方向。这2个扬声器也用于立体声再生。
声道信息207例如将从L声道扬声器及前R声道扬声器再生的声音编码,具体地通过设听者的正面为0°逆时针方向旋转+30°(前L声道扬声器)及-30°(前R声道扬声器)的声源配置角度来表示。此外,在实用上,也可以不用30°这样的详细的角度信息、而是在预先确定各声道的声源的配置角度的基础上,仅通过前L声道、前R声道这样的声道名表示相同的信息。
由知道哪个声道的声音编码的外部的装置适当地将声道信息207发送给该音频信号编码装置。
作为一个典型例,供给立体声的原声信号作为第1输入信号201及第2输入信号202,且在由此生成单声道的混入信号和辅助信息的情况下,供给表示前L声道及前R声道的声道信息207。
作为另一典型例,在由声道5的原声信号生成左右双声道的混入信号时,第1输入信号201及第2输入信号202分别供给前L声道及后L声道的信号,并由此生成左声道的混入信号和辅助信息的情况下,被供给表示前L声道及后L声道的声道信息207。
再次参照图1,第1输入信号201及第2输入信号202被输入到混入信息编码部203和辅助信息生成部204中。在混入信息编码部203中,通过用某种一定的预先设定的方法将第1输入信号201及第2输入信号202相加而生成混入信号,输出将该混入信号编码而得到的混入信号信息206。在该编码中可以利用适当公知的技术,但作为一例,也可以使用在背景技术项中所述的AAC等方法。
在辅助信息生成部204中,由第1输入信号201、第2输入信号202、信息编码部203制作的混入信号、以及混入信号信息206,利用声道信息207生成辅助信息205。
这里,辅助信息205是用来从混入信号分离出在听觉上尽可能分别接近于第1输入信号201及第2输入信号202的信号的信息。也可以利用辅助信息205分离出与第1输入信号201、第2输入信号202完全相同的信号,或能够分离听起来好像没有不同的程度的信号。即使听起来有差异,该辅助信息只要是用来进行信号分离的信息,也包含在本发明的范畴中。
辅助信息生成部204通过利用声道信息207,以较少的信息量生成可分离出听觉上没有不适感的程度的信号的辅助信息。为此,辅助信息生成部204根据声道信息207切换编码辅助信息的方法、具体而言切换编码的量化精度。
下面对辅助信息生成部204的一些实施例详细地说明。
(实施例1)
利用图3到图5说明有关实施例1的辅助信息生成部。
图3是表示实施例1的辅助信息生成部的功能结构的框图。
实施例1的辅助信息生成部是由第1输入信号201及第2输入信号202生成根据声道信息207而进行了不同的编码的辅助信息205A的部分,由信号间电平差算出部303、信号间相位差算出部304、知觉方向推测部305、以及编码部306构成。
辅助信息205A是将由信号间电平差算出部303计算出的信号间电平差、由信号间相位差算出部304算出的信号间相位差、由知觉方向推测部305算出的知觉方向推测值中的至少一个量化并编码而得到的信息。
第1输入信号201和第2输入信号202被输入到信号间电平差算出部303以及信号间相位差算出部304中。
在信号间电平差算出部303中,计算第1输入信号201与第2输入信号202的信号的能量差。在计算能量差的情况下,既可以将信号划分为多个频带、对各个频带分别计算,也可以在整个频带中计算出一个。此外,计算的时间单位也没有特别的限制。作为表现能量差的方法,也可以将差表现为音频表现中经常使用的指数函数值、例如dB,且并不限于此。
在信号间相位差算出部304中,计算第1输入信号201与第2输入信号202的信号间的相互相关,根据该相互相关值计算其值变大的相位差。这种相位差算出方法对于本领域的技术者是公知的。此外,也可以并不一定赋予相互相关值的最大值的相位作为相位差。这是因为,在根据数字信号算出相互相关的情况下,由于是离散值,所以对于相位差也可以用离散值得到,所以,作为其解决方法,也可以是根据相互相关值的分步、通过内插而被推测的相位差。
从信号间电平差算出部303作为输出而得到的信号间电平差、从信号间相位差算出部304作为输出而得到的信号间相位差、以及声道信息207被输出给知觉方向推测部305。
知觉方向推测部305根据上述声道信息207、从信号间电平差算出部303作为输出而得到的信号间电平差、从信号间相位差算出部304作为输出而得到的信号间相位差,推测听者所知觉的声象的方向。
一般在从2个扬声器提示了声音信号时听者所知觉的方向已知是由2个扬声器的配置、和双声道信号的电平差及相位差确定的(“空间音响”イエンスブラウエルト,森本政之,后藤敏幸 编著,鹿岛出版会(1986),或者“Spatial Hearing:The Psychophysics of HumanSound Localization”,修订版,MIT Press,1997)。知觉方向推测部305例如根据该理论推测听者的声象的知觉方向,将表示该推测结果的知觉方向推测值输出给编码部306。
编码部306,根据上述的声道信息207和知觉方向推测值按照不同的精度将信号间电平差、信号间相位差、以及知觉方向推测值中的至少一个进行量化,再输出实施编码而得到的辅助信息205A。
以往,对于听者的知觉辨别特性,已知有如下的特性。一般,听者的知觉辨别特性相对于正面方向是左右对称的,正面方向的知觉辨别特性较敏感,而随着朝向前L声道方向(或前R声道方向)去,有变得迟钝的趋势。此外,一般听者的知觉辨别特性在从正面方向沿逆时针方向转到背面方向是前后非对称的,正面方向的知觉辨别特性较敏感,而随着朝后声道去,有变得迟钝的趋势。
编码部306考虑到该特性,在从知觉方向推测部305得到的知觉方向推测值表示知觉辨别特性敏感的方向的情况下,将信号间电平差、信号间相位差、以及知觉方向推测值较精细地量化,反之,在表示知觉辨别特性较迟钝的方向的情况下,与表示较敏感方向的情况相比,粗略地进行量化。
即,编码部306,在声道信息207表示前L声道和R声道的情况下,实施关于知觉方向在左右方向上对称的量化,在表示前L声道和后L声道的情况下,实施关于知觉方向在前后方向上非对称的量化。
为了进行这样的量化精度的切换,编码部306作为一例而预先保持将输入值变换为量化值的多个表,从其中使用与声道信息207对应的一个。
图4是示意地表示由编码部306预先保持的、在知觉方向推测值的量化中使用的表的一例的图。哪个表都表示知觉方向推测值的量化点的一例,(A)是前L声道及前R声道用的一例,(B)是后L声道及前L声道用的一例。
编码部306,在声道信息207表示前L声道及前R声道的情况下,根据图4(A)的表,将知觉方向推测值在知觉辨别特性较敏感的正面方向的附近精细地量化,随着往知觉辨别特性较迟钝的左右方向去而粗略地量化。
此外,在声道信息207表示后L声道及前L声道的情况下,根据图4(B)的表,将知觉方向推测值在知觉辨别特性的较敏感的正面方向的附近精细地量化,随着往知觉辨别特性较迟钝的背面方向去,而粗略地量化。
图5是示意地表示在信号间电平差及信号间相位差的量化中使用的表的一例的图。哪个表都表示进行了规定的标准化的信号间电平差及信号间相位差的量化点的一例,(A)是前L声道及前R声道用的表一例,(B)是后L声道及前L声道用的表一例。
编码部306在声道信息207表示前L声道及前R声道的情况下,根据图5(A)的表,在知觉方向推测值表示知觉辨别特性较敏感的正面方向的附近的情况下,将信号间电平差及信号间相位差精细地量化,随着知觉方向推测值往知觉辨别特性较迟钝的左右方向去,而将信号间电平差及信号间相位差粗略地量化。
此外,在声道信息207表示后L声道及前L声道的情况下,根据图5(B)的表,在知觉方向推测值表示知觉辨别特性的较敏感的正面方向的附近的情况下,将信号间电平差及信号间相位差较精细地量化,随着知觉方向推测值往知觉辨别特性较迟钝的背面方向去,而将信号间电平差及信号间相位差粗略地量化。
另外,图4及图5的表都是表示本发明特征的根据声道信息207而切换编码方法的结构的一个具体例的图,并不是要将量化点的分布限定于图示的内容。声道信息207表示后L声道及后R声道的情况等、使用表示反应了听者的知觉辨别特性的量化点的其他分布的表的情况也包含在本发明中。
除了切换该表的结构以外,也可以考虑通过切换例如量化的函数、编码的过程本身来实现对应于声道信息207的编码方法的切换。
如以上说明,编码部306根据声道信息207和从知觉方向推测部305得到的知觉方向推测值,确定能够反映出有关听者的声象的知觉方向的辨别能力的量化精度(即在正面方向上较精细、随着从左右方向往背面方向去而变粗的量化精度),将信号间电平差、信号间相位差、以及知觉方向推测值中的至少一个量化编码。
由此,与不切换量化精度的情况相比,能够得到由更少的由信息量表示的辅助信息。
在量化精度的确定中,也可以根据声源静止时的听觉心理模型制作量化表或量化函数来实施量化。在实际的声源中,也可以考虑声象移动,根据该声象的移动速度或作为量化对象的频带的特性来改变量化精度。特别是,通过适当地改变时间分解能,能够适用于声源静止时的模式而进行量化编码。
如果使用这样构成的编码方法,能够根据人类的声音的知觉方向的特性实施编码,能够高效地进行编码。
(实施例2)
利用图6及图7说明有关实施例2的辅助信息生成部。
图6是表示实施例2的辅助信息生成部的功能结构的框图。
实施例2的辅助信息生成部是从第1输入信号201及第2输入信号202生成根据声道信息207而而被编码了的辅助信息205B的部分,由信号间相关度算出部401、扩散感推测部402、以及编码部403构成。
这里,辅助信息205B是将由信号间相关度算出部401计算出的信号间相关度、信号间类似度、由扩散感推测部402计算出的扩散感推测值中的至少一个量化并编码而得到的信息。
第1输入信号201和第2输入信号202被输入到信号间相关度算出部401中。
在信号间相关度算出部401中,根据第1输入信号201和第2输入信号202的信号的相互相关值以及各个输入信号,例如按照如下所示的式1
(式1)
ICC=∑(x*(y+τ))/(∑x*x·∑y*y)^0.5
等计算出信号间的类似度(一致性)。
τ是用来补正两耳间的相位偏差的项,在本领域内是公知的。
在计算类似度的情况下,既可以将信号划分为多个频带、对各个频带算出,也可以在整个频带中算出1个。此外,算出的时间单位也没有特别的限制。
从信号间相关度的算出部401作为输出得到的信号间的类似度、及声道信息207被输入到扩散感推测部402。
扩散感推测部402根据上述声道信息207和从信号间相关度算出部401作为输出得到的信号间的类似度,推测听者所知觉的声象的扩散的程度。这里,假设听者所知觉的声象的扩散程度是使作为心理量的大或小适当数值化而被表现的。
一般,声音的扩散感已知能够用输入到听者的两耳中的声音信号的声压电平和两耳间的相关度来说明(专利第3195491号及专利第3214255号)。这里,两耳间相关度(DICC)和声道间相关度(ICCC)为如下的式2表示的关系。
(式2)DICC=ICCC*Clr
这里,Clr是Hl与Hr的相关度,Hl是从扬声器等声源到听者的左耳的传递函数,Hr是从扬声器等声源到听者的右耳的传递函数。这里,在如试听室那样扬声器配置为左右对称的情况下将Clr看作1,所以声象的扩散感可以通过信号间的相关度和声压电平预测。扩散感推测部402例如根据该理论推测听者感觉到的声音的扩散感,将表示该推测结果的扩散感推测值输出给编码部403。
编码部403将根据上述声道信息207以不同的精度将信号间
相关度、信号间类似度、以及扩散感推测值中的至少一个量化、再输出进行编码而得到的辅助信息205B。
以往,已知即使两耳间相关度相同,在到达听者的直接声音的方向不是听者的正面的情况下,与直接声音从正面到达的情况相比扩散感会减小(”Relation between Auditory Source Width in Various SoundFields and Degree of Interaural Cross-Correlation”,M.Morimoto,K.Iida,and Y.Furue,Applied Acoustics,38(1993)291-301)。
这意味着与从前L声道和前R声道进行声音再生的情况相比,在从前L声道和后L声道进行声音再生的情况下,听者对再生声音的扩散感的辨别能力较差。
编码部403考虑到这个特性,根据声道信息207表示前L声道及前R声道的情况、和表示前L声道及后L声道的情况,以不同的精度实施量化。
为了进行这种量化精度的切换,编码部403作为一例而预先保持将输入值变换为量化值的多个表,从其中使用与声道信息207对应的一个。
图7是被预先保持在编码部403中、示意地表示在信号间相关度、信号间类似度、以及扩散感推测值的量化中使用的表的一例的图。哪个表都表示进行了规定的标准化的信号间相关度、类似度、扩散感推测值的量化点的一例,(A)是前L声道及前R声道用的一例,(B)是后L声道及前L声道用的一例。
编码部403在声道信息207表示前L声道及前R声道的情况下,根据图7(A)的表,将信号间相关度、信号间类似度、以及扩散感推测值较细致地量化;在声道信息207表示后L声道及前L声道的情况下,根据图7(B)的表,将信号间相关度、信号间类似度、以及扩散感推测值较粗地量化。
如以上说明,编码部403根据声道信息207确定反映听者对扩散感的辨别能力的量化精度(即在正面方向上较细致、随着从左右方向往背面方向去而变粗的量化精度),用所确定的精度将信号间相关度、信号间类似度、以及扩散感推测值中的至少一个量化编码。
如果使用这样构成的编码方法,能够实施基于人类的声象的扩散感的特性的编码,能够高效地实施编码。
(实施例3)
利用图8说明有关实施例3的辅助信息生成部。
图8是表示有关实施例3的辅助信息生成部的功能结构的框图。
实施例3的辅助信息生成部是从第1输入信号201及第2输入信号202生成根据声道信息207而进行了编码的辅助信息205C的部分,由信号间相关度算出部401、距离感推测部502、以及编码部503构成。
这里,辅助信息205C是将由信号间相关度算出部401算出的信号间相关度、信号间类似度、由距离感推测部502计算出的距离感推测值中的至少一个量化并编码而得到的信息。
第1输入信号201和第2输入信号202被输入到信号间相关度算出部401中。
在信号间相关度算出部401中,根据第1输入信号201和第2输入信号202的信号的相互相关值以及各个输入信号,按照上述的式1等计算出信号间的类似度(一致性)。
在计算类似度的情况下,既可以将信号划分为多个频带、对各个频带计算,也可以由整个频带计算1个。此外,计算的时间单位也没有特别的限制。
从信号间相关度算出部401作为输出得到的信号间的类似度、及声道信息207被输入给距离感推测部502。
距离感推测部502根据上述声道信息207和从信号间相关度算出部401作为输出得到的信号间的类似度,推测听者所知觉的声象的距离感的程度。这里,假设听者所知觉的声象的距离感的程度是使作为心理量而感受到的远或近适当数值化来表现的。
以往,已知在听者所知觉的声象的距离感和通过上述式1计算出的来自信号间相关度算出部401的输出值(类似度)的正负符号之间存在关系。其记载在“双声道声音信号的相关系数与声象的品质:日本音响学会杂志39卷4号(1983)”(黑住幸一等)中。距离感推测部502例如根据该理论,推测听者所知觉的声象的距离感,将表示该推测结果的距离感推测值输出给编码部503。
编码部503将根据上述声道信息207以不同的精度将信号间相关度、信号间类似度、以及距离感推测值中的至少一个量化、再进行编码而输出得到的辅助信息205C。
关于再生声音的距离感,也预想从前L声道和前R声道进行声音再生的情况与从前L声道和后L声道进行声音再生的情况下、听者的辨别能力不同。
考虑到该特性,编码部503根据声道信息207表示前L声道及前R声道的情况、和表示前L声道及后L声道的情况,实施不同的量化。
为了进行这种量化精度的切换,编码部503作为一例而预先保持将输入值变换为量化值的多个表,从其中使用与声道信息207对应的一个。在这样的表中,由于可使用与图7中说明的表同样的表,所以这里省略详细的说明。
如以上说明,编码部503根据声道信息207确定反映有关到听者感觉到的声象的距离感的辨别能力的量化精度(即在正面方向上精细、随着从左右方向往背面方向去而变粗的量化精度),以所确定的精度将信号间相关度、信号间类似度、以及距离感推测值中的至少一个量化编码。
如果使用这样构成的编码方法,能够实施基于人类的声象的距离感的特性的编码,能够高效地实施编码。
(实施例4)
实施例4的音频信号编码装置是将实施例1、实施例2以及实施例3的音频信号编码装置组合而构成的。
实施例4的音频信号编码装置兼具有图3、图6及图8所示的结构的全部,由2个输入信号算出信号间电平差、信号间相位差、信号间相关度(类似度),根据声道信息,推测知觉方向、扩散感、以及距离感,根据声道信息切换量化方法及量化表,来实施编码。
另外,在实施例4中也可以将从实施例1到实施例3中的任意2个组合。
(音频解码装置)
图9是表示本发明的音频信号解码装置的整体结构的功能结构的一例的框图。该音频信号解码装置是根据由上述音频信号编码装置生成的混入信号信息206、辅助信息205、及声道信息207、解码近似于原声信号的第1输出信号105及第2输出信号106的装置,由混入信号解码部102及信号分离处理部103构成。
本发明并没有限定从音频信号编码装置向音频信号解码装置转送混入信号信息206、辅助信息205、及声道信息207的具体的方法,但作为一例,也可以将混入信号信息206、辅助信息205、及声道信息207由一个播放流被多路转换而被发送,音频信号解码装置通过接收该播放流而进行多路分离,来得到混入信号信息206、辅助信息205、及声道信息207。
此外,例如也可以是将混入信号信息206、辅助信息205、及声道信息207存储在存储媒体中,音频信号解码装置从该存储媒体读出混入信号信息206、辅助信息205、及声道信息207。
另外,对于声道信息207,也可以考虑通过在音频信号编码装置和音频信号解码装置之间预先设定预定值及预定的顺序而省略传送。
混入信号解码部102将以编码数据的形式表示的混入信号信息206解码为音频信号的形式,将解码后的音频信号输出给信号分离处理部103。混入信号解码部102是进行上述音频信号编码装置中的混入信息编码部203的逆变换的设备,例如在混入信息编码部203按照AAC生成混入信号信息206的情况下,混入信号解码部102也还进行由AAC确定的逆变换而得到上述音频信号。上述音频信号的形式可以从时间轴上的信号形式、频率轴上的信号形式、以及由时间和频率两轴表现的形式等中选择,在本发明中并不限定其形式。
信号分离处理部103由从混入信号解码部102输出的音频信号,根据辅助信息205及声道信息207,生成并输出第1输出信号105和第2输出信号106。
下面对信号分离处理部103的详细情况进行说明。
图10是表示有关该实施例的信号分离处理部103的功能结构的框图。
信号分离处理部103是根据声道信息207利用不同的解码方法将辅助信息205解码、利用该解码结果生成第1输出信号105及第2输出信号106的部分,由解码方法切换部705、信号间信息解码部706、以及信号合成部707构成。
解码方法切换部705如果被输入了声道信息207,则根据该声道信息207对信号间信息解码部706指示解码方法的切换。
信号间信息解码部706利用按照来自解码方法切换部705的指示切换的解码方法,将辅助信息705解码为信号间信息。该信号间信息是在实施例1到实施例3中说明的信号间电平差、信号间相位差、信号间相关度等。信号间信息解码部706与音频信号编码装置中的编码部同样,可以通过切换表示量化点的表来切换解码方法。此外,例如也可以通过切换量化的反函数、或解码的过程本身来切换解码方法。
信号合成部707根据作为混入信号解码部704的输出信号的音频信号,生成具有由上述信号间信息表示的信号间电平差、信号间相位差、信号间相关度的第1输出信号105和第2输出信号106。在该生成中,只要适当地使用如下的周知的方法就可以:对将上述音频信号复制而得到的2个信号分别向反方向赋予上述信号间电平差的一半,且分别向反方向赋予上述信号间相位差的一半,再将赋予了电平差及相位差后的2个信号根据上述信号间相关度而混入。
如果使用这样构成的解码方法,则能够实现反映声道信息的高效的解码方法,能够得到高音质的多个信号。
此外,该解码方法不仅可用于使1声道的音频信号变为双声道的音频信号,而且能够用于将n声道的音频信号生成比n多的声道的音频信号。例如,在从双声道的音频信号得到6声道的音频信号的情况下、或在从1声道的音频信号得到6声道的音频信号的情况下等是有效的。
工业实用性
此外,本发明的音频信号编码装置、音频信号解码装置以及它们的方法可以用于传送被音频编码后的比特流的系统,例如播放内容的传送系统、在DVD或SD卡等存储媒体中存储及再生声音信息的系统、将AV内容传送给以移动电话为代表的通信设备的系统等中。此外,也可以用于将音频信号作为在因特网上交换的电子数据传送的系统中。
Claims (18)
1、一种音频信号编码装置,将多个声道各自的原声信号编码为表示上述原声信号的整体特征的混入信号信息、和表示基于各个原声信号间的关系的特征量的辅助信息,其特征在于,具备:
混入信号编码单元,通过将混入上述原声信号而得到的混入信号编码而生成上述混入信号信息;
辅助信息生成单元,根据上述原声信号算出上述特征量,且当表示各声道的声音从听者来看的再生位置的声道信息被提供时,则根据由被提供的声道信息所表示的各再生位置的配置关系,确定不同的编码方法,并利用上述被确定的编码方法将上述被计算出的特征量编码,由此生成上述辅助信息。
2、如权利要求1所述的音频信号编码装置,其特征在于,
上述辅助信息生成单元预先存储有对可得到不同的量化精度的量化点进行定义的多个表,通过以上述多个表中的与由上述声道信息表示的各再生位置的配置关系对应的一个表所定义的量化点,将上述特征量量化,来进行编码。
3、如权利要求1所述的音频信号编码装置,其特征在于,
上述辅助信息生成单元,算出上述原声信号间的电平差及相位差的至少一个,而作为上述特征量。
4、如权利要求3所述的音频信号编码装置,其特征在于,
上述辅助信息生成单元,算出上述原声信号间的电平差及相位差两者,根据上述计算出的电平差及相位差,算出被推测为听者所知觉的声象的方向,作为上述特征量。
5、如权利要求3所述的音频信号编码装置,其特征在于,
上述辅助信息生成单元,预先存储有定义从听者的正面方向左右对称地设置的量化点的第1表、和定义从听者的左方向前后非对称地设置的量化点的第2表,在上述声道信息表示听者的左前方和右前方的情况下,通过以上述第1表定义的量化点将上述特征量量化来进行编码,在上述声道信息表示听者的左前方和左后方的情况下,通过以上述第2表定义的量化点将上述特征量量化来进行编码。
6、如权利要求1所述的音频信号编码装置,其特征在于,
上述辅助信息生成单元,算出上述原声信号间的类似度,作为上述特征量。
7、如权利要求6所述的音频信号编码装置,其特征在于,
上述辅助信息生成单元算出上述原声信号间的相互相关值或其绝对值,作为上述类似度。
8、如权利要求6所述的音频信号编码装置,其特征在于,
上述辅助信息生成单元,根据上述计算出的类似度,算出被推测为听者所知觉的声象的扩散感及距离感的至少一个,作为上述特征量。
9、一种音频信号解码装置,将表示多个声道各自的原声信号的整体特征的混入信号信息、和表示基于各个原声信号间的关系的特征量的辅助信息解码为上述多个声道各自的再生信号,其特征在于,具备:
解码方式切换单元,当表示各声道的声音从听者来看的再生位置的声道信息被提供时,则根据由被提供的声道信息表示的各再生位置的配置关系,确定不同的解码方法;
信号间信息解码单元,利用上述被确定的解码方法将上述辅助信息解码为上述特征量;
信号合成单元,利用上述混入信号信息和上述解码后的特征量,生成上述多个声道各自的再生信号。
10、如权利要求9所述的音频信号解码装置,其特征在于,
通过以定义得到不同的量化精度的量化点的多个表中的、对应于上述声道信息所表示的各再生位置的配置关系的一个所定义的量化点,将上述特征量量化,将上述辅助信息编码;
上述信号间信息解码单元,预先存储有上述多个表,利用上述多个表中的对应于上述声道信息所表示的各再生位置的配置关系的一个,将上述辅助信息解码为上述特征量。
11、如权利要求10所述的音频信号解码装置,其特征在于,
上述特征量表示上述原声信号间的电平差、相位差、以及被推测为听者所知觉的声象的方向中的至少一个;
上述信号间信息解码单元预先存储有定义从听者的正面方向左右对称地设置的量化点的第1表、和定义从听者的左方向前后非对称地设置的量化点的第2表,在上述声道信息表示听者的左前方和右前方的情况下,利用上述第1表将上述辅助信息解码为上述特征量,在上述声道信息表示听者的左前方和左后方的情况下,利用上述第2表将上述辅助信息解码为上述特征量。
12、如权利要求9所述的音频信号解码装置,其特征在于,
上述特征量表示上述原声信号间的电平差、相位差、类似性、以及被推测为听者所知觉的声象的方向、扩散感、以及距离感中的至少一个。
13、如权利要求12所述的音频信号解码装置,其特征在于,
上述信号合成单元,在上述特征量表示上述原声信号间的电平差、相位差、及类似性中的至少一个的情况下,对上述混入信号信息所表示的声音信号提供对应于上述特征量的电平差、相位差、及类似性,由此生成上述再生信号。
14、一种音频信号编码方法,将多个声道各自的原声信号编码为表示上述原声信号的整体特征的混入信号信息、和表示基于各个原声信号间的关系的特征量的辅助信息,其特征在于,包括:
混入信号编码步骤,通过将混入上述原声信号而得到的混入信号编码而生成上述混入信号信息;
辅助信息生成步骤,根据上述原声信号算出上述特征量,并且当表示各声道的声音从听者来看的再生位置的声道信息被提供时,则根据被提供的声道信息所表示的各再生位置的配置关系,确定不同的编码方法,并利用上述被确定的编码方法将上述计算出的特征量编码,来生成上述辅助信息。
15、一种音频信号解码方法,将表示多个声道各自的原声信号的整体特征的混入信号信息、和表示基于各个原声信号间的关系的特征量的辅助信息解码为上述多个声道各自的再生信号,其特征在于,包括:
解码方式切换步骤,当表示各声道的声音从听者来看的再生位置的声道信息被提供时,则根据被提供的声道信息所表示的各再生位置的配置关系,确定不同的解码方法;
信号间信息解码步骤,利用上述被确定的解码方法将上述辅助信息解码为上述特征量;
信号合成步骤,利用上述混入信号信息和上述被解码了的特征量,生成上述多个声道各自的再生信号。
16、一种程序,是用于将多个声道各自的原声信号编码为表示上述原声信号的整体特征的混入信号信息、和表示基于各个原声信号间的关系的特征量的辅助信息的、计算机可执行的程序,其特征在于,使计算机执行:
混入信号编码步骤,通过将混入上述原声信号而得到的混入信号编码,而生成上述混入信号信息;
辅助信息生成步骤,根据上述原声信号算出上述特征量,并且当表示各声道的声音从听者来看的再生位置的声道信息被提供时,则根据由被提供了的声道信息所表示的各再生位置的配置关系,确定不同的编码方法,利用上述被确定的编码方法将上述被算出的特征量编码,来生成上述辅助信息。
17、一种程序,是用于将表示多个声道各自的原声信号的整体特征的混入信号信息、和表示基于各个原声信号间的关系的特征量的辅助信息解码为上述多个声道各自的再生信号的、计算机可执行的程序,其特征在于使计算机执行:
解码方式切换步骤,当表示各声道的声音从听者来看的再生位置的声道信息被提供时,则根据被提供的声道信息所表示的各再生位置的配置关系,确定不同的解码方法;
信号间信息解码步骤,利用上述被确定的解码方法将上述辅助信息解码为上述特征量;
信号合成步骤,利用上述混入信号信息和上述被解码了的特征量,生成上述多个声道各自的再生信号。
18、一种计算机可读取的记录介质,其特征在于,存储有权利要求16及权利要求17的至少一项中所述的程序。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004199819 | 2004-07-06 | ||
JP199819/2004 | 2004-07-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1922655A true CN1922655A (zh) | 2007-02-28 |
Family
ID=35782852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005800055198A Pending CN1922655A (zh) | 2004-07-06 | 2005-07-01 | 音频信号编码装置、音频信号解码装置、方法及程序 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20070160236A1 (zh) |
JP (1) | JPWO2006004048A1 (zh) |
CN (1) | CN1922655A (zh) |
WO (1) | WO2006004048A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010022633A1 (zh) * | 2008-08-27 | 2010-03-04 | 深圳华为通信技术有限公司 | 音频信号的生成、播放方法及装置、处理系统 |
WO2014071766A1 (zh) * | 2012-11-07 | 2014-05-15 | 中兴通讯股份有限公司 | 音频多编码传输方法及相应装置 |
WO2024197541A1 (zh) * | 2023-03-27 | 2024-10-03 | 北京小米移动软件有限公司 | 一种量化编码方法、装置、设备及存储介质 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101147191B (zh) * | 2005-03-25 | 2011-07-13 | 松下电器产业株式会社 | 语音编码装置和语音编码方法 |
JP4997781B2 (ja) * | 2006-02-14 | 2012-08-08 | 沖電気工業株式会社 | ミックスダウン方法およびミックスダウン装置 |
JP2007310087A (ja) * | 2006-05-17 | 2007-11-29 | Mitsubishi Electric Corp | 音声符号化装置及び音声復号装置 |
JP5031840B2 (ja) * | 2007-08-20 | 2012-09-26 | パイオニア株式会社 | 音像定位予測装置及び音像定位制御システム並びに音像定位予測方法及び音像定位制御方法 |
WO2009050896A1 (ja) * | 2007-10-16 | 2009-04-23 | Panasonic Corporation | ストリーム合成装置、復号装置、方法 |
EP2215629A1 (en) * | 2007-11-27 | 2010-08-11 | Nokia Corporation | Multichannel audio coding |
US9299355B2 (en) | 2011-08-04 | 2016-03-29 | Dolby International Ab | FM stereo radio receiver by using parametric stereo |
KR20140046980A (ko) | 2012-10-11 | 2014-04-21 | 한국전자통신연구원 | 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법 |
US10152977B2 (en) | 2015-11-20 | 2018-12-11 | Qualcomm Incorporated | Encoding of multiple audio signals |
WO2020084170A1 (en) * | 2018-10-26 | 2020-04-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Directional loudness map based audio processing |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4222623C2 (de) * | 1992-07-10 | 1996-07-11 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern von digitalisierten Tonsignalen |
JP2755208B2 (ja) * | 1995-03-30 | 1998-05-20 | ヤマハ株式会社 | 音場制御装置 |
DE19628292B4 (de) * | 1996-07-12 | 2007-08-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten |
JP2000295698A (ja) * | 1999-04-08 | 2000-10-20 | Matsushita Electric Ind Co Ltd | バーチャルサラウンド装置 |
JP2002229598A (ja) * | 2001-02-01 | 2002-08-16 | Matsushita Electric Ind Co Ltd | ステレオ符号化信号復号化装置及び復号化方法 |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US7583805B2 (en) * | 2004-02-12 | 2009-09-01 | Agere Systems Inc. | Late reverberation-based synthesis of auditory scenes |
US20030035553A1 (en) * | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
-
2005
- 2005-07-01 WO PCT/JP2005/012221 patent/WO2006004048A1/ja active Application Filing
- 2005-07-01 US US10/589,818 patent/US20070160236A1/en not_active Abandoned
- 2005-07-01 JP JP2006519623A patent/JPWO2006004048A1/ja active Pending
- 2005-07-01 CN CNA2005800055198A patent/CN1922655A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010022633A1 (zh) * | 2008-08-27 | 2010-03-04 | 深圳华为通信技术有限公司 | 音频信号的生成、播放方法及装置、处理系统 |
US8705778B2 (en) | 2008-08-27 | 2014-04-22 | Huawei Technologies Co., Ltd. | Method and apparatus for generating and playing audio signals, and system for processing audio signals |
WO2014071766A1 (zh) * | 2012-11-07 | 2014-05-15 | 中兴通讯股份有限公司 | 音频多编码传输方法及相应装置 |
WO2024197541A1 (zh) * | 2023-03-27 | 2024-10-03 | 北京小米移动软件有限公司 | 一种量化编码方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2006004048A1 (ja) | 2008-04-24 |
WO2006004048A1 (ja) | 2006-01-12 |
US20070160236A1 (en) | 2007-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1922655A (zh) | 音频信号编码装置、音频信号解码装置、方法及程序 | |
US9473870B2 (en) | Loudspeaker position compensation with 3D-audio hierarchical coding | |
KR101723332B1 (ko) | 회전된 고차 앰비소닉스의 바이노럴화 | |
RU2618383C2 (ru) | Кодирование и декодирование аудиообъектов | |
JP4772279B2 (ja) | オーディオ信号のマルチチャネル/キュー符号化/復号化 | |
CN1655651A (zh) | 基于后期混响的听觉场景 | |
JP2013174891A (ja) | 高品質マルチチャネルオーディオ符号化および復号化装置 | |
TWI760593B (zh) | 使用混成式編碼器/解碼器空間分析之音訊場景編碼器、音訊場景解碼器及相關方法 | |
US20220383885A1 (en) | Apparatus and method for audio encoding | |
EP3127110B1 (en) | Exploiting metadata redundancy in immersive audio metadata | |
CN1647156A (zh) | 参数多声道音频表示 | |
JP2022518744A (ja) | 空間オーディオ表現を符号化するための装置および方法、またはトランスポートメタデータを使用して符号化されたオーディオ信号を復号するための装置および方法、ならびに関連するコンピュータプログラム | |
TW202007189A (zh) | 以後向可相容音訊傳送同步化增強式音訊傳送 | |
TW202347316A (zh) | 用以編碼音訊信號或用以解碼經編碼音訊場景之設備、方法及電腦程式 | |
GB2578715A (en) | Controlling audio focus for spatial audio processing | |
US11081116B2 (en) | Embedding enhanced audio transports in backward compatible audio bitstreams | |
CN112823534A (zh) | 信号处理设备和方法以及程序 | |
Peters et al. | Scene-based audio implemented with higher order ambisonics (HOA) | |
CN1666572A (zh) | 信号处理 | |
JP2010516077A (ja) | オーディオ信号処理方法及び装置 | |
KR20230153402A (ko) | 다운믹스 신호들의 적응형 이득 제어를 갖는 오디오 코덱 | |
US11062713B2 (en) | Spatially formatted enhanced audio data for backward compatible audio bitstreams | |
JP4124702B2 (ja) | 立体音響信号符号化装置、立体音響信号符号化方法および立体音響信号符号化プログラム | |
Peters et al. | Scene-based audio implemented with higher order ambisonics | |
RU2823537C1 (ru) | Устройство и способ кодирования аудио |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20070228 |