CN101253806B - 用于编码和解码音频信号的装置及其方法 - Google Patents
用于编码和解码音频信号的装置及其方法 Download PDFInfo
- Publication number
- CN101253806B CN101253806B CN200680031480.1A CN200680031480A CN101253806B CN 101253806 B CN101253806 B CN 101253806B CN 200680031480 A CN200680031480 A CN 200680031480A CN 101253806 B CN101253806 B CN 101253806B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- parameter set
- time slot
- parameter
- bits
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 180
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000002156 mixing Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 14
- 239000000203 mixture Substances 0.000 description 76
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 14
- 239000000284 extract Substances 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000007493 shaping process Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 240000006409 Acacia auriculiformis Species 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
将与音频信号关联的空间信息编码在要被发送至解码器或记录至存储介质的比特流中。此比特流可包括与时域、频域和空域相关的不同句法。在一些实施例中,此比特流包括一个或多个数据结构(例如帧),这些数据结构包含可对其施加参数的有序间隙集。这些数据结构可以是固定的或可变的。可将数据结构类型指示符插入此比特流以使解码器能够确定数据结构类型并调用合适的解码过程。数据结构可包括位置信息,位置信息可由解码器用以标识对其施加给定参数集的正确间隙。可基于由数据结构类型指示符指示的数据结构类型以固定比特数或可变比特数来编码此间隙位置信息进行编码。对于可变数据结构类型,可基于间隙在有序间隙集中的位置以可变比特数来编码此间隙位置信息。
Description
技术领域
本申请的主题内容一般地涉及音频信号处理。
背景技术
人们正在努力研发对多声道音频进行感知编码的新方法,多声道音频的感知编码一般被称为空间音频编码(SAC)。SAC允许以低比特率传送多声道音频,这使得SAC能适用于许多流行的音频应用(例如因特网媒体流、音乐下载)。
SAC不是对各个音频输入声道执行分立的编码,而是用紧凑的参数集捕获多声道音频信号的空间映像。这些参数可被发送至解码器,在那里这些参数被用来合成或重构此音频信号的空间性质。
在一些SAC应用中,空间参数作为比特流的一部分被发送至解码器。此比特流包括多个空间帧,这些空间帧包含可施加空间参数集的有序时隙集。此比特流还包括位置信息,位置信息能由解码器用以识别施加给定参数集的正确时隙。
一些SAC应用利用编码/解码路径中的概念元件。一个元件通常被称为1至2(OTT)而另一个元件通常被称为2至3(TTT),在此这两个名称分别暗示相应解码器元件的输入和输出声道数。OTT编码器元件提取两个空间参数并创建声道缩减混音信号和残差信号。TTT元件将三个音频信号缩减混音成立体声声道缩减混音信号加上残差信号。可组合这些元件以提供各种空间音频环境(例如环绕声)配置。
一些SAC应用可在无指导工作模式下操作,在此工作模式下仅立体声声道缩减混音信号从编码器被发送至解码器而无需进行空间参数传送。解码器合成来自声道缩减混音信号的空间参数并利用这些参数来产生多声道音频信号。
发明内容
本发明提供一种解码音频信号的方法,包括:接收声道缩减混音信号和空间信息;从所述空间信息生成与时隙的位置信息对应的参数集,其中,所述的时隙的位置信息包括绝对值和差值,所述绝对值指示对其施加第一参数集的时隙的位置,所述差值指示对其施加前一参数集的时隙的位置与对其施加在所述前一参数集之后的后一参数集的时隙的位置之间的差;以及基于所述生成的参数集解码所述音频信号。
本发明还提供一种用于解码音频信号的装置,包括:多路分解器,用于从表示音频信号的比特流分离声道缩减混音信号和空间信息,所述比特流具有帧;声道缩减混音信号解码单元,用于解码所述声道缩减混音信号;空间信息解码单元,用于从所述空间信息解码包括对应于时隙的位置信息的参数集的空间信息,其中,所述的时隙的位置信息包括绝对值和差值,所述绝对值指示对其施加第一参数集的时隙的位置,所述差值指示对其施加前一参数集的时隙的位置与对其施加在所述前一参数集之后的后一参数集的时隙的位置之间的差;以及声道扩展混音单元,用于基于所述参数集对所述音频信号进行解码,其中,所述的时隙的位置信息是以可变比特数表示的。
本发明进一步提供一种用于编码音频信号的方法,包括:生成音频信号的参数集,其中所述参数集对应于所述音频信号的时隙的位置信息,其中,所述的时隙的位置信息包括绝对值和差值,所述绝对值指示对其施加第一参数集的时隙的位置,所述差值指示对其施加前一参数集的时隙的位置与对其施加在所述前一参数集之后的后一参数集的时隙的位置之间的差;以及在表示所述音频信号的比特流中插入所述生成的参数集和所述的时隙的位置信息。
本发明还提供一种用于编码多声道音频信号的装置,包括:声道缩减混音单元,用于对所述多声道音频信号进行声道缩减混音,生成声道缩减混音信号;声道缩减混音信号编码单元,用于对所述声道缩减混音信号进行编码;空间信息生成单元,用于生成包括音频信号的参数集的空间信息,其中,所述参数集对应于所述音频信号的时隙的位置信息,其中,所述的时隙的位置信息包括绝对值和差值,所述绝对值指示对其施加第一参数集的时隙的位置,所述差值指示对其施加前一参数集的时隙的位置与对其施加在所述前一参数集之后的后一参数集的时隙的位置之间的差;以及多路复用器,用于对所述的经编码的声道缩减混音信号和所述的空间信息进行多路复用以生成表示所述多声道音频信号的比特流。
与音频信号关联的空间信息被编码在比特流中,此比特流能被发送至解码器或记录至存储介质。此比特流可以包括与时域、频域和空域相关的不同句法。在一些实施例中,此比特流包括一个或多个数据结构(例如,帧),这些数据结构包含可施加参数的有序间隙集。这些数据结构可以是固定的或可变的。可将数据结构类型指示符插入此比特流以使解码器确定数据结构类型并调用合适的解码过程。该数据结构可包括位置信息,此位置信息可由解码器用以识别施加给定参数集的正确间隙。可基于由数据结构类型指示符指示的数据结构类型以固定数目个比特或可变数目个比特来编码此间隙位置信息。对于可变数据结构类型,可基于间隙在有序间隙集中的位置来以可变数目个比特编码此间隙位置信息。
在一些实施例中,一种解码音频信号的方法包括:接收声道缩减混音信号;从声道缩减混音信号生成与第一或第二信息对应的参数集;并基于参数集解码音频信号,其中所述第一或第二信息是由可变比特数来表示的。
公开了多帧型时隙位置编码的针对系统、方法、装置、数据结构和计算机可读介质的其他实施例。
应当理解,前面的概述和后面对实施例的详细说明两者都是示例性和说明性的,并且旨在提供对要求权利的本发明的进一步解释。
附图说明
包括于此以提供对本发明的进一步理解并被纳入在本申请内且构成其一部分的附图示出了本发明的实施例,并与说明一起用来解释本发明的原理。在附图中:
图1是示出根据本发明一个实施例的生成空间信息的原理的图示;
图2是根据本发明一个实施例的用于编码音频信号的编码器的方框图;
图3是根据本发明一个实施例的用于解码音频信号的解码器的方框图;
图4是根据本发明一个实施例的包含在解码器的声道扩展混音单元中的声道转换模块的方框图;
图5是解释根据本发明一个实施例的配置音频信号的比特流的方法的图示;
图6A和6B分别为解释根据本发明一个实施例的参数集、时隙和参数带之间关系的图示和时/频坐标图;
图7A示出根据本发明一个实施例的用于表示空间信息信号的配置信息的句法;
图7B是根据本发明一个实施例的空间信息信号的参数带数表;
图8A示出根据本发明一个实施例的以固定比特数来表示施加于OTT框的参数带数目的句法;
图8B示出根据本发明一个实施例的以可变比特数来表示施加于OTT框的参数带数目的句法;
图9A示出根据本发明一个实施例的以固定比特数来表示施加于TTT框的参数带数目的句法;
图9B示出根据本发明一个实施例的以可变比特数来表示作用于TTT框的参数带数目的句法;
图10A示出根据本发明一个实施例的空间扩展帧的空间扩展配置信息的句法;
图10B和10C示出根据本发明一个实施例的、在空间扩展帧中包含残差信号的情形中该残差信号的空间扩展配置信息的句法;
图10D示出根据本发明一个实施例的表示残差信号的参数带数目的方法的句法;
图11A是根据本发明一个实施例的使用无指导编码的解码装置的方框图;
图11B是根据本发明一个实施例的将参数带数目表示为一组的方法的图解;
图12示出根据本发明一个实施例的空间帧的配置信息的句法;
图13A示出根据本发明一个实施例的施加参数集的时隙的位置信息的句法;
图13B示出根据本发明一个实施例的将施加参数集的时隙的位置信息表示为绝对值和差值的句法;
图13C是根据本发明一个实施例的将施加参数集的各时隙的多个位置信息表示为一个组的图解;
图14是根据本发明一个实施例的编码方法的流程图;
图15是根据本发明一个实施例的解码方法的流程图;
图16是实现参照图1–15描述的编码和解码过程的设备架构的方框图。
具体实施方式
图1是示出根据本发明一个实施例的生成空间信息的原理的图解。用于多声道音频信号的感知编码方案基于如下事实:人类能通过三维空间感知音频信号。音频信号的三维空间可使用空间信息予以表示,所述空间信息包括但不局限于下列已知空间参数:声道能级差(CLD)、声道间相关性/相干性(ICC)、声道时间差(CTD)、声道预测系数(CPC)等。CLD参数描述两个音频声道间的能量(能级)差,ICC参数描述两个音频声道间的相关性或相干性的量,而CTD参数表示两个音频声道间的时间差。
图1中示出CTD和CLD参数的生成。来自远端声源101的第一直接声波103到达人的左耳107并且第二直接声波102在人的头部周围衍射后到达人的右耳106。直接声波102和103在到达时间和能级方面彼此不同。可分别基于声波102和103的到达时间差和能级差生成CTD和CLD参数。另外,经反射的声波104和105分别到达耳106和107,并且彼此没有相关性。可基于声波104和105之间的相关性生成ICC参数。
在编码器处,从多声道音频输入信号提取空间信息(例如空间参数)并生成声道缩减混音信号。声道缩减混音信号和空间参数被传送至解码器。对声道缩减混音信号可使用任意数目个音频信道,包括但不局限于:单声道信号、立体声信号、或多声道音频信号。在解码器处,从声道缩减混音信号和空间参数创建多声道的声道扩展混音信号。
图2是根据本发明一个实施例的对音频信号进行编码的编码器的方框图。此编码器包括声道缩减混音单元202、空间信息生成单元203、声道缩减混音信号编码单元207、和多路复用单元209。编码器也可以有其它配置。编码器能以硬件、软件、或硬件与软件的组合来实现。编码器能以集成电路芯片、芯片集、单片系统(SoC)、数字信号处理器、通用处理器以及各种数字和模拟器件来实现。
声道缩减混音单元202从多声道音频信号201生成声道缩减混音信号204。在图2中,x1、……、xn指示输入音频声道。如前面提到的那样,声道缩减混音信号204可以是单声道信号、立体声信号、或多声道音频信号。在所示例子中,x’1、……、x’m指示声道缩减混音信号204的声道号。在一些实施例中,编码器处理从外界提供的声道缩减混音信号205(例如,艺术性声道缩减混音)而不是处理声道缩减混音信号204。
空间信息生成单元203从多声道音频信号201提取空间信息。在这种情形中,“空间信息”表示与在解码器中将声道缩减混音信号204声道扩展混音成多声道音频信号时使用的音频信号声道有关的信息。通过将多声道音频信号声道缩减混音生成了声道缩减混音信号204。将此空间信息编码以提供经编码的空间信息信号206。
声道缩减混音信号编码单元207通过将生成自声道缩减混音单元202的声道缩减混音信号204编码来生成经编码的声道缩减混音信号208。
多路复用单元209生成包括经编码的声道缩减混音信号208和经编码的空间信息信号206的比特流210。比特流210可被传送至下游的解码器和/或被记录在存储介质上。
图3是根据本发明一个实施例的对经编码的音频信号进行解码的解码器的方框图。此解码器包括多路分解单元302、声道缩减混音信号解码单元305、空间信息解码单元307、和声道扩展混音单元309。解码器能以硬件、软件、或硬件与软件的组合来实现。解码器能以集成电路芯片、芯片集、单片系统(SoC)、数字信号处理器、通用处理器、以及各种数字和模拟器件来实现。
在一些实施例中,多路分解单元302接收代表音频信号的比特流301并随后从比特流301中分离出经编码的声道缩减混音信号303和经编码的空间信息信号304。在图3中,x’1、……、x’m指示声道缩减混音信号303的声道。声道缩减混音信号解码单元305通过将经编码的声道缩减混音信号303解码来输出经解码的声道缩减混音信号306。如果此解码器不能输出多声道音频信号,则声道缩减混音信号解码单元305直接输出声道缩减混音信号306。在图3中,y’1、……、y’m指示声道缩减混音信号解码单元305的直接输出声道。
空间信息信号解码单元307从经编码的空间信息信号304中提取出空间信息信号的配置信息并随后使用所提取出的配置信息对空间信息信号304进行解码。
声道扩展混音单元309可使用所提取出的空间信息308将声道缩减混音信号306作声道扩展混音成多声道音频信号310。在图3中,y1、……、yn指示声道扩展混音单元309的输出声道数。
图4是可包含在图3中所示的解码器的声道扩展混音单元309中的声道变换模块的方框图。在一些实施例中,声道扩展混音单元309可包括多个声道变换模块。声道变换模块是能够使用特定信息将输入声道数和输出声道数彼此区别的概念化装置。
在一些实施例中,声道变换模块可包括用来将一个声道变换成两个声道及将两个声道变换成一个声道的OTT(1–至2)框、以及用来将两个声道变换成三个声道及将三个声道变换成两个声道的TTT(2–至3)框。OTT和/或TTT框可以被排列成各种有用的配置。例如,图3所示的声道扩展混音单元309可包括5-1-5结构、5-2-5结构、7-2-7结构、7-5-7结构等。在5-1-5结构中,通过将五个声道缩减混音成一个声道而生成具有一个声道的声道缩减混音信号,该声道缩减混音信号随后可被声道扩展混音成五个声道。其它结构可使用OTT和TTT框的各种组合以相同方式来创建。
参照图4,图中示出声道扩展混音单元400的示例性5-2-5结构。在5-2-5结构中,具有两个声道的声道缩减混音信号401被输入至声道扩展混音单元400。在所示例子中,提供左声道(L)和右声道(R)作为对声道扩展混音单元400的输入。在该实施例中,声道扩展混音单元400包括一个TTT框402和三个OTT框406、407和408。提供具有两个声道的声道缩减混音信号401作为对TTT框(TTT0)402的输入,TTT框(TTT0)402处理声道缩减混音信号401并提供三个声道403、404和405作为输出。一个或多个空间参数(例如CPC、CLD、ICC)可作为输入被提供给TTT框402,并被用来处理声道缩减混音信号401,如下所述。在一些实施例中,可选择性地将残差信号作为输入提供给TTT框402。在这一情形中,CPC可被描述为用来从两个声道生成三个声道的预测系数。
作为输出从TTT框402提供的声道403作为输入被提供给使用一个或多个空间参数生成两个输出声道的OTT框406。在所示例子中,这两个输出声道表示在例如环绕声环境中的左前(FL)和左后(BL)扬声器位置。声道404作为输入被提供给使用一个或多个空间参数生成两个输出声道的OTT框407。在所示例子中,这两个输出声道代表右前(FR)和右后(BR)扬声器位置。声道405作为输入被提供给生成两个输出声道的OTT框408。在所示例子中,这两个输出声道代表中置(C)扬声器位置和低频增强(LFE)声道。在这种情形中,可提供空间信息(例如CLD、ICC)作为对每个OTT框的输入。在一些实施例中,可提供残差信号(Res1、Res2)作为至OTT框406和407的输入。在这一实施例中,可不将残差信号作为输入提供给输出中置声道和LFE声道的OTT框408。
图4所示结构是声道变换模块的一个结构的例子。声道变换模块也可采用其它结构,包括OTT和TTT框的各种组合。由于每个声道变换模块可在频域中工作,因此可定义施加于每个声道变换模块的参数带的数目。参数带表示一个参数可适用的至少一个频带。参数带的数目将结合图6B来描述。
图5是示出根据本发明一个实施例的配置音频信号的比特流的方法的图。图5(a)示出仅包含空间信息信号的音频信号的比特流,而图5(b)和5(c)示出包含声道缩减混音信号和空间信息信号的音频信号的比特流。
参照图5(a),音频信号的比特流可包括配置信息501和帧503。帧503可在比特流中被重复并且在一些实施例中帧包括含空间音频信息的单个空间帧502。
在一些实施例中,配置信息501包括描述一个空间帧502内的时隙总数、横跨音频信号频率范围的参数带总数、OTT框中的参数带数目、TTT框中的参数带数目、以及残差信号中的参数带数目的信息。也可根据需要将其它信息包括在配置信息501中。
在一些实施例中,空间帧502包括一个或多个空间参数(例如CLD、ICC)、帧类型、一个帧内的参数集数目、以及可施加参数集的时隙。也可根据需要将其它信息包括在空间帧502中。下面将结合图6–10解释配置信息501和包含在空间帧502中的信息的意义和使用。
参照图5(b),音频信号的比特流包括配置信息504、声道缩减混音信号505、和空间帧506。在这种情形中,一个帧507可包括声道缩减混音信号505和空间帧506,并且帧507可在比特流中被重复。
参照图5(c),音频信号的比特流可包括声道缩减混音信号508、配置信息509、和空间帧510。在这种情形中,一个帧511可包括配置信息509和空间帧510,并且帧511可在比特流中被重复。如果配置信息509被插入到每个帧511中,则音频信号可由回放设备在任意性位置上回放。
尽管图5(c)示出配置信息509是按帧511地被插入到比特流中,然而应当很明显的是,配置信息509可以按周期地或非周期地重复的多个帧地被插入到比特流中。
图6A和6B是示出根据本发明一个实施例的参数集、时隙和参数带之间的关系的图。参数集表示施加于一个时隙的一个或多个空间参数。空间参数可包括空间信息,例如CDL、ICC、CPC等。时隙表示音频信号中可对其施加空间参数的时间区间。一个空间帧可包括一个或多个时隙。
参照图6A,数个参数集1、……、P可被用于一个空间帧中,并且每个参数集可包括一个或多个数据字段1、……、Q–1。参数集可被施加于音频信号的整个频率范围,并且参数集中的每个空间参数可施加于频带的一个或多个部分。例如,如果参数集包括20个空间参数,则音频信号的整个频带可被分成20个区(在下文中称之为“参数带”),并且此参数集的这20个空间参数被施加于这20个参数带。可根据需要将参数施加于参数带。例如,空间参数可被稠密地施加于低频参数带而被稀疏地施加于高频参数带。
参照图6B,一时/频坐标图示出参数集与时隙之间的关系。在所示例子中,三个参数集(参数集1、参数集2、参数集3)被施加于单个空间帧中的12个时隙的有序集。在这种情形中,音频信号的整个频率范围被分成9个参数带。因此,横轴表示时隙号而纵轴表示参数带号。这三个参数集中的每个被施加于一特定时隙。例如,第一参数集(参数集1)被施加于时隙#1,第二参数集(参数集2)被施加于时隙#5,而第三参数集(参数集3)被施加于时隙#9。可通过内插和/或将参数集拷贝至其他时隙来将这些参数集应用于那些时隙。一般而言,参数集的数目可以等于或小于时隙的数目,并且参数带的数目可等于或小于音频信号的频带的数目。通过为音频信号的时-频域的诸部分而不是为音频信号的整个时-频域编码空间信息,就可减少从编码器向解码器发送的空间信息量。此数据减少是可行的,因为根据已知的感知音频编码原理,时-频域中的稀疏信息对人类的听知觉而言往往是足够的。
所公开的实施例的一个重要特征是使用固定或可变的比特数将可施加参数集的时隙位置编码和解码。也可用固定比特数或可变比特数来表示参数带数目。可变比特编码方案也可应用于在空间音频编码中使用的其它信息,所述其它信息包括但不局限于:与时域、空域和/或频域相关联的信息(例如施加于从滤波器组输出的频率子带的数目)。
图7A示出根据本发明一个实施例的表示空间信息信号的配置信息的句法。此配置信息包括可对其指派数个比特的多个字段701至718。
“bsSamplingFrequencyIndex”字段701表示从音频信号的采样过程获得的采样频率。为了表示该采样频率,给“bsSamplingFrequencyIndex”字段701分配了4比特。如果“bsSamplingFrequencyIndex”字段701的值为15,即二进制数1111,则添加“bsSamplingFrequency”字段702以表示采样频率。在这种情形中,给“bsSamplingFrequency”字段702分配24比特。
“bsFrameLength”字段703表示一个空间帧内时隙的总数(在下文中称之为“numSlots”),并且在“numSlots”与“bsFrameLength”字段703之间可存在numSlots=bsFrameLength+1的关系。
“bsFreqRes”字段704表示横跨音频信号整个频域的参数带的总数。“bsFreqRes”字段704将在图7B中予以解释。
“bsTreeConfig”字段705表示包括如参考图4所述的多个声道变换模块的树状结构的信息。该树状结构的信息包括例如声道变换模块类型、声道变换模块数目、声道变换模块中使用的空间信息的类型、音频信号的输入/输出声道数等的信息。
树状结构根据声道变换模块的类型或声道数可具有5-1-5结构、5-2-5结构、7-2-7结构、7-5-7结构等中的一个。图4中示出具有5-2-5结构的树状结构。
“bsQuantMode”字段706表示空间信息的量化模式信息。
“bsOneIcc”字段707表示是否对所有OTT框使用一个ICC参数子集。在这种情形中,参数子集表示施加于特定时隙和特定声道变换模块的参数集。
“bsArbitraryDownmix”字段708表示任意性声道缩减混音增益的存在与否。
“bsFixedGainSur”字段709表示对例如LS(左环绕)和RS(右环绕)等的环绕声道施加的增益。
“bsFixedgainLF”字段710表示对LFE声道施加的增益。
“bsFixedGainDM”字段711表示对声道缩减混音信号施加的增益。
“bsMatrixMode”字段712表示是否从编码器生成一矩阵兼容立体声声道缩减混音信号。
“bsTempShapeConfig”713表示解码器中的时间整形的工作模式(例如TES(时间包络整形)和/或TP(时间整形))。
“bsDecorrConfig”字段714指示解码器的解相关器的工作模式。
并且,“bs3DaudioMode”字段715表示声道缩减混音信号是否被编码成3D信号以及是否采用逆HRTF(头部相关传递函数)处理。
当在编码器/解码器中已确定/提取每个字段的信息之后,施加于声道变换模块的参数带数目的信息在编码器/解码器中被确定/提取。首先确定/提取对OTT框施加的参数带数目(716),然后确定/提取对TTT框施加的参数带数目(717)。下面将结合图8A–9B对OTT框和/或TTT框的参数带数目进行详细说明。
在存在扩展帧的情形中,“spatialExtensionConfig”块718包括扩展帧的配置信息。下面将结合图10A–10D对包含在“spatialExtensionConfig”块718中的信息进行说明。
图7B是根据本发明一个实施例的空间信息信号的参数带数目的表。“numBands”表示音频信号的整个频域的参数带数目而“bsFreqRes”表示参数带数的索引信息。例如,可根据需要将音频信号的整个频域按参数带数目(例如4、5、7、10、14、20、28等)来分割。
在一些实施例中,可对每个参数带施加一个参数。例如,如果“numBands”为28,则音频信号的整个频域被分成28个参数带并且可对这28个参数带中的每一个施加28个参数中的每一个。又如,如果“numBands”为4,则给定音频信号的整个频域被分成4个参数带并且可对这4个参数带中的每一个施加4个参数中的每一个。在图7B中,术语“保留的”表示给定音频信号的整个频域的参数带数目尚未确定。
要注意,人类的听觉器官对编码方案中使用的参数带数目并不敏感。因此,使用少数几个参数带相比于使用较大数目个参数带而言能够为收听者提供相似的空间音频效果。
与“numBands”不同,由图7A所示的“bsFrameLength”字段703表示的“numSlots”可代表所有值。然而,如果一个空间帧内的采样数目恰好是能被“numSlots”整除的,则“numSlots”值可以是有限的。因此,如果实际上能表示的“numSlots”的最大值是“b”,则“bsFramelength”字段703的每个值可由ceil{log2(b)}比特来表示。在这种情形中,“ceil(x)”表示大于或等于值“x”的最小整数。例如,如果一个空间帧包括72个时隙,则可给“bsFrameLength”字段703分配ceil{log2(72)}=7比特,并且可确定施加于声道变换模块的参数带的数目在“numBands”内。
图8A示出根据本发明一个实施例的以固定比特数来表示施加于OTT框的参数带数目的句法。参照图7A和8A,“i”值的值为0至numOttBoxes–1,其中“numOttBoxes”是OTT框的总数。即,“i”值表示每个OTT框,并且根据“i”的值表示被施加于每个OTT框的参数带的数目。如果OTT框具有LFE声道模式,则对OTT框的LFE声道施加的参数带的数目(下文中称之为“bsOttBands”)可用固定比特数表示。在图8A所示例子中,给“bsOttBands”字段801分配5比特。如果OTT框不具有LFE声道模式,则可对OTT框的一个声道施加将参数带的总数(numBands)。
图8B示出根据本发明一个实施例的以可变比特数表示施加于OTT框的参数带数目的句法。图8B与图8A相似,区别于图8A之处在于图8B所示的“bsOttBands”字段802由可变比特数来表示。具体地说,可使用“numBands”以可变比特数来表示值等于或小于“numBands”的“bsOttBands”字段802。
如果“numBands”落在等于或大于2^(n–1)且小于2^(n)的范围内,则“bsOttBands”字段802能由可变的n个比特来表示。
例如:(a)如果“numBands”为40,则“bsOttBands”字段802由6比特表示;(b)如果“numBands”为28或20,则“bsOttBands”字段802由5比特表示;(c)如果“numBands”为14或10,则“bsOttBands”字段802由4比特表示;并且(d)如果“numBands”为7、5或4,则“bsOttBands”字段802由3比特表示。
如果“numBands”落在大于2^(n–1)且等于或小于2^(n)的范围内,则“bsOttBands”字段802能由可变的n个比特表示。
例如:(a)如果“numBands”为40,则“bsOttBands”字段802由6比特表示;(b)如果“numBands”为28或20,则“bsOttBands”字段802由5比特表示;(c)如果“numBands”为14或10,则“bsOttBands”字段802由4比特表示;(d)如果“numBands”为7、5,则“bsOttBands”字段802由3比特表示;并且(e)如果“numBands”为4,则“bsOttBands”字段802由2比特表示。
“bsOttBands”字段802可通过取“numBands”作为变量的向上舍入至最接近的整数的函数(下文中称之为“升限(ceil)函数”)由可变的比特数表示。
具体地说,ⅰ)在0<bsOttBands≤numBands或0≤bsOttBands<numBands的情形中,“bsOttBands”字段802由对应于ceil(log2(numBands))值的比特数表示,或ⅱ)在0≤bsOttBands≤numBands的情形中,“bsOttBands”字段802可由ceil(log2(numBands+1))比特表示。
如果任意性地确定一个等于或小于“numBands”的值(下文中称之为“numberBands”),则“bsOttBands”字段802可通过取“numberBands”作为变量的升限函数由可变的比特数来表示。
具体地说,ⅰ)在0<bsOttBands≤numberBands或0≤bsOttBands<numberBands的情形中,“bsOttBands”字段802由ceil(log2(numberBands))比特表示,或者ⅱ)在0≤bsOttBands≤numberBands的情形中,“bsOttBands”字段802可由ceil(log2(numberBands+1))比特表示。
如果使用了一个以上的OTT框,则可由下面的式1来表达“bsOttBands”的组合:
这里,bsOttBandsi表示第i个“bsOttBands”。例如,假设有三个OTT框和三个对应于“bsOttBands”字段802的值(N=3)。在此例中,“bsOttBands”施加于这三个OTT框的字段802的三个值(下文中分别称其为a1、a2和a3)各自可由2比特表示。因此,需要总共6比特来表达值a1、a2和a3。然而,如果值a1、a2和a3被表示为一个组,则可能发生27(=3*3*3)种情形,这可由5比特表示,省下一个比特。如果“numBands”为3并且由5比特表示的组值为15,则该组值可表示为15=1*(3^2)+2*(3^1)+0*(3^0)。因此,解码器可通过逆运算式1而从组值15确定“bsOttBands”字段802的三个值a1、a2和a3分别为1、2和0。
在多个OTT框的情形中,“bsOttBands”的组合可使用“numberBands”表示为式2至式4(在下文中定义)中的一个。由于使用“numberBands”来表示“bsOttBands”与式1中使用“numBands”来表示是相似的,因此将省去其详细解释并仅给出如下公式:
[式2]
[式3]
[式4]
图9A示出根据本发明一个实施例的由固定比特数来表示施加于TTT框的参数带数目的句法。参照图7A和9A,“i”值具有0至numTttBoxes–1的值,其中“numTttBoxes”是所有TTT框的数目。即,“i”的值表示每个TTT框。根据“i”的值来表示对每个TTT框施加的参数带数目。在一些实施例中,TTT框可被分为低频带范围和高频带范围,并且可对低频带范围和高频带范围施加不同的处理。也可使用其它分法。
“bsTttDualMode”字段901表示给定的TTT框对于低频带范围和高频带范围是否分别在不同模式下工作(下文中称之为“双重模式”)。例如,如果“bsTttDualMode”字段901的值为零,则对整个频带范围使用一种模式而不在低频带范围和高频带范围之间加以区别。如果“bsTttDualMode”字段901的值为1,则可分别对低频带范围和高频带范围使用不同的模式。
“bsTttModeLow”字段902指示给定TTT框的工作模式,它可以有多种工作模式。例如,TTT框可具有使用例如CPC和ICC参数的预测模式、使用例如CLD参数的基于能量的模式等。如果TTT框具有双重模式,则对高频带范围可能需要附加信息。
“bsTttModeHigh”字段903指示在TTT框具有双重模式的情形中高频带范围的工作模式。
“bsTttBandsLow”字段904表示对TTT框施加的参数带数目。
“bsTttBandsHigh”字段905具有“numBands”。
如果TTT框具有双重模式,则低频带范围可以等于或大于零并小于“bsTttBandsLow”,而高频带范围可以等于或大于“bsTttBandsLow”并小于“bsTttBandsHigh”。
如果TTT框不具有双重模式,则对TTT框施加的参数带数目可等于或大于零并小于“numBands”(907)。
“bsTttBandsLow”字段904可由固定比特数表示。例如,如图9A所示,5可分配5比特以表示“bsTttBandsLow”字段904。
图9B示出根据本发明一个实施例的以可变比特数表示施加于TTT框的参数带数目。图9B与图9A相似,但其区别在于图9B以可变比特数“bsTttBandsLow”字段907,而图9A以固定比特数表示“bsTttBandsLow”字段904。具体地说,由于“bsTttBandsLow”字段907具有等于或小于“numBands”的值,因此可使用“numBands”以可变比特数表示“bsTttBands”字段907。
具体地说,在“numBands”等于或大于2^(n–1)并小于2^n的情形中,能以n比特来表示“bsTttBandsLow”字段907。
例如:(ⅰ)如果“numBands”为40,则“bsTttBandsLow”字段907由6比特表示;(ⅱ)如果“numBands”为28或20,则“bsTttBandsLow”字段907由5比特表示;(ⅲ)如果“numBands”为14或10,则“bsTttBandsLow”字段907由4比特表示;以及(ⅳ)如果“numBands”为7、5或4,则“bsTttBandsLow”字段907由3比特表示。
如果“numBands”落在大于2^(n–1)并等于或小于2^n的范围内,则“bsTttBandsLow”字段907可由n比特表示。
例如:(ⅰ)如果“numBands”为40,则“bsTttBandsLow”字段907由6比特表示;(ⅱ)如果“numBands”为28或20,则“bsTttBandsLow”字段907由5比特表示;(ⅲ)如果“numBands”为14或10,则“bsTttBandsLow”字段907由4比特表示;(ⅳ)如果“numBands”为7或5,则“bsTttBandsLow”字段907由3比特表示;(ⅴ)如果“numBands”为4,则“bsTttBandsLow”字段907由2比特表示。
“bsTttBandsLow”字段907可由取“numBands”为变量的升限函数确定的比特数来表示。
例如,(ⅰ)在0<bsTttBandsLow≤numBands或0≤bsTttBandsLow<numBands的情形中,“bsTttBandsLow”字段907由对应于ceil(log2(numBands))值的比特数表示;或者(ⅱ)在0≤bsTttBandsLow≤numBands的情形中,“bsTttBandsLow”字段907可由ceil(log2(numBands+1))比特表示。
如果值等于或小于“numBands”,即“numberBands”是任意性地确定的,则可使用“numberBands”以可变的比特数来表示“bsTttBandsLow”字段907。
具体地说,(ⅰ)在0<bsTttBandsLow≤numberBands或在0≤bsTttBandsLow<numberBands的情形中,“bsTttBandsLow”字段907由对应于ceil(log2(numberBands))值的比特数表示或者(ⅱ)在0≤bsTttBandsLow≤numberBands的情形中,“bsTttBandsLow”字段907可由对应于ceil(log2(numberBands+1))的比特数表示。
在多个TTT框的情形中,“bsTttBandsLow”的组合可被表达为如下定义的式5。
[式5]
在这种情形中,bsTttBandsLowi表示第i个“bsTttBandsLow”,由于式5的意义与式1的相同,因此在下面的说明中省去对式5的详细说明。
在多个TTT框的情形中,“bsTttBandsLow”的组合可使用“numberBands”表达为式6–8中的一个。由于式6–8的意义与式2–4的意义相同,因此在后面的说明中省去对式6–8的详细说明。
[式6]
[式7]
[式8]
对声道变换模块(例如OTT框和/或TTT框)施加的参数带数目可表示为“numBands”的整除值。在本例中,此整除值使用“numBands”的半值或将“numBands”除以特定值后得到的值。
一旦确定了对OTT和/或TTT框施加的参数带数目,就能够确定在这些数目个参数带的范围内可施加于每个OTT框和/或每个TTT框的参数集。每个参数集能以时隙为单位地施加于每个OTT框和/或每个TTT框。即一个参数集可被施加于一个时隙。
如前面说明所提到的,一个空间帧可包括多个时隙。如果空间帧是固定帧类型,则可将参数集施加于等间隔的多个时隙。如果帧是可变帧类型,则需要有施加参数集的时隙的位置信息。这将在后面结合图13A–13C予以详细说明。
图10A示出根据本发明一个实施例的空间扩展帧的空间扩展配置信息的句法。空间扩展配置信息可包括“bsSacExtType”字段1001、“bsSacExtLen”字段1002、“bsSacExtLenAdd”字段1003、“bsSacExtLenAddAdd”字段1004和“bsFillBits”字段1007。也可使用其它字段。
“bsSacExtType”字段1001指示空间扩展帧的数据类型。例如,空间扩展帧可用零、残差信号数据、任意性声道缩减混音残差信号数据、或任意性树数据填充。
“bsSacExtLen”字段1002指示空间扩展配置信息的字节数。
“bsSacExtLenAdd”字段1003在空间扩展配置信息的字节数变得等于或大于例如15的情况下指示空间扩展配置信息的附加字节数。
“bsSacExtLenAddAdd”字段1004在空间扩展配置信息的比特数变得等于或大于例如270的情况下指示空间扩展配置信息的附加字节数。
当在编码器/解码器中确定/提取了各字段之后,为包含在空间扩展帧中的数据类型确定配置信息(1005)。
如前面说明所提到的,在空间扩展帧中可包含残差信号数据、任意性声道缩减混音残差信号数据、树状结构数据等。
接着,计算空间扩展配置信息的长度的未使用比特数1006。
“bsFillBits”字段1007指示能够被忽略以填充这些未使用比特的数据的比特数。
图10B和10C示出根据本发明一个实施例的在残差信号被包含在空间扩展帧中的情形中此残差信号的空间扩展配置信息的句法。
参照图10B,“bsResidualSamplingFrequencyIndex”字段1008指示残差信号的采样频率。
“bsResidualFramesPerSpatialFrame”字段1009指示每空间帧的残差帧数。例如,一个空间帧中可包含1、2、3或4个残差帧。
“ResidualConfig”框1010指示对每个OTT和/或TTT框施加的残差信号的参数带数目。
参照图10C,“bsResidualPresent”字段1011指示是否对每个OTT和/或TTT框施加了残差信号。
“bsResidualBands”字段1012在每个OTT和/或TTT框中存在残差信号的情况下指示存在于每个OTT和/或TTT框中的残差信号的参数带数目。残差信号的参数带数目可以由固定比特数或可变比特数表示。在参数带数目由固定的比特数表示的情形中,残差信号能够具有等于或小于音频信号的参数带总数的值。因此,可分配表示所有参数带数目所必需的比特数(例如图10C中为5比特)。
图10D示出根据本发明一个实施例的以可变比特数表示残差信号的参数带数目的句法。“bsResidualBands”字段1014可使用“numBands”以可变比特数来表示。如果numBands等于或大于2^(n–1)并小于2^(n),则“bsResidualBands”字段1014可由n比特表示。
例如:(ⅰ)如果“numBands”为40,则“bsResidualBands”字段1014由6比特表示;(ⅱ)如果“numBands”为28或20,则“bsResidualBands”字段1014由5比特表示;(ⅲ)如果“numBands”为14或10,则“bsResidualBands”字段1014由4比特表示;并且(ⅳ)如果“numBands”为7、5或4,则“bsResidualBands”字段1014由3比特表示。
如果numBands大于2^(n–1)并等于或小于2^(n),则可由n比特表示残差信号的参数带数目。
例如:(ⅰ)如果“numBands”为40,则“bsResidualBands”字段1014由6比特表示;(ⅱ)如果“numBands”为28或20,则“bsResidualBands”字段1014由5比特表示;(ⅲ)如果“numBands”为14或10,则“bsResidualBands”字段1014由4比特表示;(ⅳ)如果“numBands”为7或5,则“bsResidualBands”字段1014由3比特表示;并且(ⅴ)如果“numBands”为4,则“bsResidualBands”字段1014由2比特表示。
此外,“bsResidualBands”字段1014可由取“numBands”为变量的向上舍入到最接近的整数的升限函数确定的比特数来表示。
具体地说,(ⅰ)在0<bsResidualBands≤numBands或0≤bsResidualBands<numBands的情形中,“bsResidualBands”字段1014由ceil{log2(numBands)}比特表示,或者(ⅱ)在0≤bsResidualBands≤numBands的情形中,“bsResidualBands”字段1014可由ceil{log2(numBands+1)}比特表示。
在一些实施例中,“bsResidualBands”字段1014可使用等于或小于numBands的值(numberBands)来表示。
具体地说,(ⅰ)在0<bsResidualBands≤numberBands或0≤bsResidualBands<numberBands的情形中,“bsResidualBands”字段1014由ceil{log2(numberBands)}比特表示,或者(ⅱ)在0≤bsResidualBands≤numberBands的情形中,“bsResidualBands”字段1014可由ceil{log2(numberBands+1)}比特表示。
如果存在多个残差信号(N),则“bsResidualBands”的组合可被表达为如下面的式9所示:
[式9]
在这种情形中,bsResidualBandsi表示第i个“bsresidualBands”。由于式9的意义与式1的相同,因此在后面的说明中省去对式9的详细说明。
如果存在多个残差信号,则可使用“numberBands”将“bsresidualBands”的组合表示为式10–12中的一个。由于使用“numberbands”表示“bsresidualBands”与式2–4的表示相同,因此在后面的说明中省去对其的详细说明。
[式10]
[式11]
[式12]
残差信号的参数带数目可表示为“numBands”的整除值。在本例中,此整除值可使用“numBands”的半值或“numBands”除以特定值得到的值。
残差信号可与声道缩减混音信号和空间信息信号一起被包含在音频信号的比特流中,并可将此比特流传送至解码器。解码器可从比特流中提取出声道缩减混音信号、空间信息信号和残差信号。
接着,使用空间信息对声道缩减混音信号进行声道扩展混音。同时,在声道扩展混音过程中将残差信号施加于声道缩减混音信号。具体地说,使用空间信息在多个声道变换模块中对声道缩减混音信号进行声道扩展混音。在此期间,残差信号被施加于声道变换模块。如前面说明中提到的那样,声道变换模块具有数个参数带并且参数集以时隙为单位被施加于声道变换模块。当残差信号被施加于声道变换模块时,可能需要残差信号来更新对其施加残差信号的音频信号的声道间相关性信息。然后,更新后的声道间相关性信息在声道扩展混音处理中被使用。
图11A是根据本发明一个实施例的无指导编码的解码器的方框图。无指导编码意味着音频信号的比特流中不包含空间信息。
在一些实施例中,此解码器包括分析滤波器组1102、分析单元1104、空间合成单元1106以及合成滤波器组1108。尽管图11A中示出立体声信号类型的声道缩减混音信号,然而也可使用其它类型的声道缩减混音信号。
在工作中,此解码器接收声道缩减混音信号1101并且分析滤波器组1102将接收到的声道缩减混音信号1101变换成频域信号1103。分析单元1104从经变换的声道缩减混音信号1103生成空间信息。分析单元1104以间隙为单位执行处理并可每多个间隙地生成空间信息1105。在这种情形中,所述间隙包括时隙。
可以两步来生成空间信息。首先,从声道缩减混音信号生成声道缩减混音参数。第二,将声道缩减混音参数变换成诸如空间参数的空间信息。在一些实施例中,可通过声道缩减混音信号的矩阵计算来生成声道缩减混音参数。
空间分析单元1106通过将所生成的空间信息1105与声道缩减混音信号1103合成来生成多声道音频信号1107。所生成的多声道音频信号1107经过合成滤波器组1108以被变换成时域音频信号1109。
可在预定间隙位置生成空间信息。这些位置之间的距离可以相等(即,等距)。例如,可每四个间隙地生成空间信息。也可在可变的间隙位置生成空间信息。在这种情形中,可从比特流提取要自此生成空间信息的间隙位置信息。位置信息可由可变的比特数表示。位置信息可表示为绝对值以及与前一时隙位置信息的差值。
在使用无指导编码的情形中,音频信号的每个声道的参数带数目(下文中称之为“bsNumguidedBlindBands”)可由固定的比特数表示。“bsNumguidedBlindBands”可使用“numBands”以可变的比特数表示。例如,如果“numBands”等于或大于2^(n-1)并小于2^(n),则能够以可变的n比特表示“bsNumguidedBlindBands”。
具体地说,(a)如果“numBands”为40,则“bsNumguidedBlindBands”由6比特表示,(b)如果“numBands”为28或20,则“bsNumguidedBlindBands”由5比特表示,(c)如果“numBands”为14或10,则“bsNumguidedBlindBands”由4比特表示,并且(d)如果“numBands”为7、5或4,则“bsNumguidedBlindBands”由3比特表示。
如果“numBands”大于2^(n–1)并等于或小于2^(n),则能够以可变的n比特表示“bsNumguidedBlindBands”。
例如:(a)如果“numBands”为40,则“bsNumguidedBlindBands”由6比特表示;(b)如果“numBands”为28或20,则“bsNumguidedBlindBands”由5比特表示;(c)如果“numBands”为14或10,则“bsNumguidedBlindBands”由4比特表示;(d)如果“numBands”为7或5,则“bsNumguidedBlindBands”由3比特表示;并且(e)如果“numBands”为4,则“bsNumguidedBlindBands”由2比特表示。
此外,“bsNumguidedBlindBands”可使用取“numBands”为变量的ceil函数以可变的比特数表示。
例如,(ⅰ)在0<bsNumguidedBlindBands≤numBands或者0≤bsNumguidedBlindBands<numBands的情形中,“bsNumguidedBlindBands”由ceil{log2(numBands)}比特表示,或者(ⅱ)在0≤bsNumguidedBlindBands<numBands的情形中,“bsNumguidedBlindBands”可由ceil{log2(numBands+1)}比特表示。
如果一值等于或小于“numBands”,即“numBands”是任意性地确定的,则“bsNumguidedBlindBands”可表示如下。
具体地说,(ⅰ)在0<bsNumguidedBlindBands≤numberBands或0≤bsNumguidedBlindBands<numberBands的情形中,“bsNumguidedBlindBands”由ceil{log2(numberBands)}比特表示,或者(ⅱ)在0≤bsNumguidedBlindBands≤numberBands的情形中,“bsNumguidedBlindBands”可由ceil{log2(numberBands+1)}比特表示。
如果存在数个声道(N),则“bsNumguidedBlindBands”的组合可被表达为如式13。
[式13]
在这种情形中,“bsNumGuidedBlindBandsi”指示第i个“bsNumguidedBlindBands”。由于式13的意义与式1的相同,因此在下面的说明中省去对式13的详细说明。
如果存在多个声道,则可使用“numberBands”将“bsNumguidedBlindBands”表示为式14–16中的一个。由于使用“numberBands”表示“bsNumguidedBlindBands”与式2–4的表示相同,因此在下面的说明中省去对式14–16的详细说明。
[式14]
[式15]
[式16]
图11B是根据本发明一个实施例的将参数带数目表示为一组的方法的图。参数带数目包括施加于声道变换模块的参数带数目信息、施加于残差信号的参数带数目信息、以及在使用无指导编码的情形中音频信号的每个声道的参数带数目信息。在存在多个参数带数目信息的情形中,可将这多个数目信息(例如“bsOttBands”、“bsTttBands”、“bsResidualBand”和/或“bsNumguidedBlindBands”)表示为至少一个或多个组。
参照图11B,如果存在(kN+L)个参数带数目信息并且如果需要Q个比特来表示每个参数带数目信息,则多个参数带数目信息可被表示为如下的一组。在这种情形中,“k”和“N”是非零的任意性整数而“L”是满足0≤L<N的任意性整数。
一种编组方法包括以下步骤:通过将N个参数带数目信息绑定在一起而生成k组,并通过将最后L个参数带数目信息绑定在一起而生成最末组。这k组可表示为M比特并且最末组可表示为p比特。在这种情形中,这M比特优选为少于在不编组地表示每个参数带数目信息的情形中使用的N*Q比特。这p比特优选为等于或小于在不编组地表示每个参数带数目信息的情形中使用的L*Q比特。
例如,假设两个参数带数目信息分别为b1和b2。如果b1和b2中的每一个能够具有5个值,则需要3比特来表示b1和b2中的每一个。在这种情形中,尽管3比特能够表示8个值,但是实质上需要的是5个值。因此,b1和b2的每一个具有三个冗余。然而,在通过将b1和b2绑定在一起而将b1和b2表示成一个组的情形中,可使用5比特而不是6比特(=3比特+3比特)。具体地说,由于b1和b2的所有组合包括25(=5*5)种类型,因此b1和b2的组可以被表示为5比特。由于这5比特能够表示32个值,因此在编组表示的情形中产生7个冗余。然而,在通过编组b1和b2进行表示的情形中,其冗余比将b1和b2中的每个表示为3比特的情形中的冗余要小。将多个参数带数目信息表示为组的方法可以用如下的各种方式来实现。
如果多个参数带数目信息各自具有40种值,则使用2、3、4、5或6作为N来生成k组。这k组可分别被表示为11、16、22、27和32比特。另外,可通过将各个情形相结合来表示这k组。
如果多个参数带数目信息各自具有28种值,则使用6作为N生成k组,并且这k组可被表示为29比特。
如果多个参数带数目信息各自具有20种值,则使用2、3、4、5、6或7作为N来生成k组。这k组分别被表示为9、13、18、22、26和31比特。或者,可通过将各情形相结合来表示这k组。
如果多个参数带数目信息各自具有14种值,则使用6作为N来生成k组。这K组可表示为23比特。
如果多个参数带数目信息各自具有10种值,则使用2、3、4、5、6、7、8或9作为N来生成k组。这k组可分别表示为7、10、14、17、20、24、27和30比特。或者,可通过将各个情形相结合来表示这k组。
如果多个参数带数目信息各自具有7种值,则使用6、7、8、9、10或11作为N来生成k组。这k组分别表示为17、20、23、26、29和31比特。或者,通过将各情形相结合来表示这k组。
如果多个参数带数目信息各自具有例如5种值,则可使用2、3、4、5、6、7、8、9、10、11、12或13作为N来生成k组。这k组可被分别表示为5、7、10、12、14、17、19、21、24、26、28和31比特。或者,通过将各情形相结合来表示这k组。
此外,多个参数带数目信息可被配置成表示为上述诸组,或者通过使每个参数带数目信息成为一独立的比特序列来连贯地表示。
图12示出根据本发明一个实施例的表示空间帧的配置信息的句法。空间帧包括“FramingInfo”块1201、“bsIndependencyFlag”字段1202、“OttData”块1203、“TttData”块1204、“SmgData”块1205和“tempShapeData”块1206。
“FramingInfo”块1201包括参数集数目信息以及关于对其施加每个参数集的时隙的信息。“FramingInfo”块1201将在图13A中予以详细说明。
“bsIndependencyFlag”字段1202表示当前帧是否不必获知之前的帧就能被解码。
“OttData”块1203包括所有OTT框的所有空间参数信息。
“TttData”块1204包括所有TTT框的所有空间参数信息。
“SmgData”块1205包括关于施加于经反量化的空间参数的时间平滑的信息。
“tempShapeData”块1206包括关于施加于经解相关的信号的时间包络整形的信息。
图13A示出根据本发明一个实施例的用于表示对其施加参数集的时隙位置信息的句法。“bsFramingType”字段1301指示音频信号的空间帧是固定帧类型还是可变帧类型。固定帧表示参数集被施加于预置时隙的帧。例如,参数集被施加于以等间隔预置的时隙。可变帧表示单独接收对其施加参数集的时隙的位置信息的帧。
“bsNumParamSets”字段1302表示在一个空间帧内的参数集数目(在下文中称之为“numParaSets”),并且在“numParamSets”与“bsNumParamSets”之间存在“numParamSets=bsNumParamSets+1”的关系。
由于例如在图13A中给“bsNumParamSets”字段1302分派了3比特,因此在一个空间帧内可以提供最多8个参数集。由于对所分配的比特数没有限制,因此可在一个空间帧内提供更多的参数集。
如果空间帧是固定帧类型,则可根据预置规则来确定对其施加参数集的时隙的位置信息,并且对其施加参数集的时隙的附加位置信息是不必要的。然而,如果空间帧是可变帧类型,则对其施加参数集的时隙的位置信息是需要的。
“bsParamSlot”字段1303指示对其施加参数集的时隙的位置信息。可使用一个空间帧内的时隙数即“numSlots”由可变比特数来表示“bsParamSlot”字段1303。具体地说,在“numSlots”等于或大于2^(n–1)并小于2^(n)的情形中,“bsParamSlot”字段1103可由n比特表示。
例如:(ⅰ)如果“numSlots”落在64与127之间的范围内,则“bsParamSlot”字段1303可由7比特表示;(ⅱ)如果“numSlots”落在32与63之间的范围内,则“bsParamSlot”字段1303可由6比特表示;(ⅲ)如果“numSlots”落在16与31之间的范围内,则“bsParamSlot”字段1303可由5比特表示;(ⅳ)如果“numSlots”落在8与15之间的范围内,则“bsParamSlot”字段1303可由4比特表示;(ⅴ)如果“numSlots”落在4与7之间的范围内,则“bsParamSlot”字段1303可由3比特表示;(ⅵ)如果“numSlots”落在2与3之间的范围内,则“bsParamSlot”字段1303可由2比特表示;(ⅶ)如果“numSlots”为1,则“bsParamSlot”字段1303可由1比特表示;并且(ⅷ)如果“numSlots”为0,则“bsParamSlot”字段1303可由0比特表示。类似地,如果“numSlots”落在64与127之间的范围内,则“bsParamSlot”字段1303可由7比特表示。
如果存在多个参数集(N),则“bsParamSlot”的组合可根据式9来表示。
[式9]
在这种情形中,“bsParamSlotsi”指示对其施加第i个参数集的时隙。例如,假设“numSlots”为3并且“bsParamSlot”字段1303可具有10个值。在这种情形中,“bsParamSlot”字段1303需要三个信息(下文中分别称之为c1、c2和c3),由于需要4比特来表示c1、c2和c3中的每一个,因此总共需要12(=4*3)比特。在通过将c1、c2和c3绑定在一起以将其表示为一组的情形中,可能会发生1000(=10*10*10)种情况,这些情况可被表示为10比特,从而省下2比特。如果“numSlots”为3并且被读为5比特的值为31,则该值可被表示为31=1*(3^2)+5*(3^1)+7*(3^0)。解码器装置可通过对式9进行逆运算来确定c1、c2和c3分别为1、5和7。
图13B示出根据本发明一个实施例的用于将对其施加参数集的时隙的位置信息表示为绝对值和差值的句法。如果空间帧是可变帧类型,则可利用“bsParamSlot”信息单调递增这一事实将图13A中的“bsParamSlot”字段1303表示为绝对值和差值。
例如:(ⅰ)对其施加第一参数集的时隙的位置可被生成为一绝对值,即“bsParamSlot[0]”;并且(ⅱ)对其施加第二或更高参数集的时隙的位置可被生成为差值,即“bsParamSlot[ps]”与“bsParamSlot[ps–1]”之间的“差值”或“差值–1”(在下文中称之为“bsDiffParamSlot[ps]”)。在这种情形中,“ps”表示参数集。
“bsParamSlot[0]”字段1304可由使用“numSlots”和“numParamSets”计算得到的比特数(下文中称之为“nBitsParamSlot(0)”)来表示。
“bsDiffParamSlot[ps]”字段1305可由使用“numSlots”、“numParamSets”以及对其施加前一参数集的时隙的位置——即“bsParamSlot[ps-1]”——计算得到的比特数(下文中称之为“nBitsParamSlot[ps]”)来表示。
具体地说,为了以最小比特数来表示“bsParamSlot[ps]”,可基于以下规则来确定表示“bsParamSlot[ps]”的比特数:(ⅰ)多个“bsParamSlot[ps]”以升序数列递增(bsParamSlot[ps]=bsParamSlot[ps–1]);(ⅱ)“bsParamSlot[0]”的最大值为“numSlots–NumParamsets”;以及(ⅲ)在0<ps<numParamSets的情形中,bsParamSlot[ps]只能具有在“bsParamSlot[ps–1]+1”与“numSlots–numParamSets+ps”之间的值。
例如,如果“numSlots”为10并且如果“numParamsets”为3,则由于bsParamSlot[ps]以升序数列递增,因此“bsParamSlot[0]”的最大值变为“10–3=7”。即,应当从0–7的值中选择“bsParamSlot[0]”。这是因为如果“bsParamSlot[0]”具有大于7的值,则剩下的参数集所用的时隙数将不够。
如果“bsParamSlot[0]”为5,则应当从“5+1=6”与“10–3+1=8”之间的值中选择第二参数集的时隙位置bsParamSlot[1]。
如果“bsParamSlot[1]”为7,“bsParamSlot[2]”可变为8或9。如果“bsParamSlot[1]”为8,则“bsParamSlot[2]”可变为9。
因此,可使用上述特征将“bsParamSlot[ps]”表示为可变比特数,而不是表示为固定比特。
当在比特流中配置“bsParamSlot[ps]”时,如果“ps”为0,则“bsParamSlot[0]”可由对应于“nBitsParamSlot(0)”的比特数表示为绝对值。如果“ps”大于0,则“bsParamSlot[ps]”可由对应于“nBitsParamSlot(ps)”的比特数表示为差值。在从比特流中读取上述配置的“bsParamSlot[ps]”时,可使用式10找到每个数据的比特流长度,即“nBitsParamSlot[ps]”。
[式10]
具体地说,可找到“nBitsParamSlot[ps]”为nBitsParamSlot[0]=fb(numSlots–numParamSets+1)。如果0<ps<numParameSets,则可找到“nBitsParamSlot[ps]”为nBitsParamSlot[ps]=fb(numSlots–numParamSets+ps–bsParamSlot[ps–1])。可使用将式10上扩至7比特的式11来确定“nBitsParamSlot[ps]”。
[式11]
函数fb(x)的一个例子解释如下。如果“numSlots”为15并且“numParamSets”为3,则此函数可被求值为nBitsParamSlot[0]=fb(15–3+1)=4比特。
如果由4比特表示的“bsParamSlot[0]”为7,则此函数可被求值为nBitsParamSlot[1]=fb(15–3+1–7)=3比特。在这种情形中,“bsDiffParamSlot[1]”字段1305由3比特表示。
如果由3比特表示的值为3,则“bsParamSlot[1]”变为7+3=10。因此变成nBitsParamSlot[2]=fb(15–3+2–10)=2比特。在这种情形中,“bsDiffParamSlot[2]”字段1305可由2比特表示。如果剩余时隙数目等于剩余参数集数目,则可给“bsDiffParamSlot[ps]”字段分派0比特。换句话说,无需附加信息就可表示对其施加此参数集的时隙的位置。
因此,“bsParamSlot[ps]”的比特数能被可变地决定。在解码器中可使用函数fb(x)从比特流读取“bsParamSlot[ps]”的比特数。在一些实施例中,函数fb(x)可包括函数ceil(log2(x))。
当在解码器中从比特流读取被表示为绝对值和差值的“bsParamSlot[ps]”的信息时,可首先从比特流中读取“bsParamSlot[0]”并可随后读取“bsDiffParamSlot[ps]”,0<ps<numParamSets。随后可使用“bsParamSlot[0]”和“bsDiffParamSlot[ps]”来找到区间0≤ps≤numParamSets的“bsParamSlot[ps]”。例如图13B所示,可通过向“bsParamSlot[ps–1]”加上“bsDiffParamSlot[ps]+1”来找到“bsParamSlot[ps]”。
图13C示出根据本发明一个实施例的用于将对其施加参数集的时隙的位置信息表示为一组的句法。在存在多个参数集的情形中,可将多个参数集的“bsParamSlots”1307表示为至少一个或多个组。
如果“bsParamSlots”1307的数目为(kN+L)并且如果需要Q比特来表示为每一“bsParamSlots”1307,则可将“bsParamSlots”1307表示为以下的一组。在这种情形中,“k”和“N”是非零的任意性整数而“L”是满足0≤L<N的任意性整数。
一种编组方法可包括以下步骤:通过将N个“bsParamSlots”1307绑定在一起生成k组,并通过将最后L个“bsParamSlots”1307绑定在一起以生成最末组。这k组可由M比特表示并且最末诸可由p比特表示。在这种情形中,M比特优选为少于在不编组地表示每一“bsParamSlots”1307的情形中使用的N*Q比特。这p比特优选为等于或小于在不编组地表示每一“bsParamSlots”1307的情形中使用的L*Q比特。
例如,假设对应于两个参数集的一对“bsParamSlots”1307分别为d1和d2。如果d1和d2中的每一个能够具有五种值,则需要3比特来表示d1和d2中的每一个。在这种情形中,尽管这3比特能表示8个值,但是实质上需要的是5个值。因此,d1和d2中的每一个具有三个冗余。然而,在通过将d1和d2绑定在一起而将d1和d2表示为一组的情形中,使用的是5比特而不是6比特(=3比特+3比特)。具体地说,由于d1和d2的所有组合包括25(=5*5)个类型,因此d1和d2的组可被表示为仅5比特。由于5比特能够表示32个值,因此在编组表示的情形中产生7个冗余。然而,在编组d1和d2来作表示的情形中,其冗余比将d1和d2中的每个表示为3比特的情形的冗余要小。
在配置该组时,可使用首值的“bsParamSlot[0]”以及第二或更高值的“bsParamSlot[ps]”对之间的差值来配置该组的数据。
在配置该组时,如果参数集数目为1则可直接分配比特而不进行编组,而如果参数集数目等于或大于2则可在完成编组后分配比特。
图14是根据本发明一个实施例的编码方法的流程图。一种根据本发明的编码音频信号和编码器工作的方法被解释如下。
首先,确定音频信号的一个空间帧中的时隙总数(numSlots)和参数带的总数(numBands)(S1401)。
然后,确定施加于声道变换模块(OTT框和/或TTT框)的参数带数目和/或残差信号(S1402)。
如果OTT框具有LFE声道模式,则单独确定施加于OTT框的参数带数目。
如果OTT框不具有LFE声道模式,则使用“numBands”作为施加于该OTT框的参数数目。
接着,确定空间帧的类型。在这种情形中,空间帧可被分类成固定帧类型和可变帧类型。
如果空间帧是可变帧类型(S1403),则确定在一个空间帧内使用的参数集数目(S1406)。在这种情形中,能以时隙为单位将参数集施加于声道变换模块。
接着,确定对其应用参数集的时隙的位置(S1407)。在这种情形中,对其应用参数集的时隙的位置可被表示为绝对值和差值。例如,对其施加第一参数集的时隙的位置可被表示为绝对值,而对其施加第二或更高参数集的时隙的位置被表示为与前一时隙位置的差值。在这种情形中,能以可变比特数来表示对其施加参数集的时隙的位置。
具体地说,对其施加第一参数集的时隙的位置可由使用时隙总数和参数集总数计算得到的比特数来表示。对其施加第二或更高参数集的时隙的位置可由使用时隙总数、参数集总数、和对其施加前一参数的时隙的位置计算得到的比特数来表示。
如果空间帧为固定帧类型,则确定在一个空间帧中使用的参数集数目(S1404)。在这种情形中,使用预置规则来确定对其施加参数集的时隙的位置。例如,对其施加参数集的时隙的位置可被确定为距离对其施加前一参数集的时隙的位置有等间隔(S1405)。
接着,声道缩减混音单元和空间信息生成单元使用上面确定的时隙总数、参数带总数、要施加于声道变换单元的参数带数目、一个空间帧中的参数集总数、以及对其施加参数集的时隙的位置信息来分别生成声道缩减混音信号和空间信息(S1408)。
最后,多路复用单元生成包括此声道缩减混音信号和此空间信号的比特流(S1409)并随后将所生成的比特流传递至解码器(S1409)。
图15是根据本发明一个实施例的解码方法的流程图。根据本发明的音频信号解码和解码器操作的方法解释如下。
首先,解码器接收音频信号的比特流(S1501)。多路分解单元从所接收到的比特流1502中分离出声道缩减混音信号和空间信息信号(S1502)。接着,空间信息信号解码单元从空间信息信号的配置信息中提取出一个空间帧中的时隙总数的信息、参数带总数、和施加于声道变换模块的参数带数目(S1503)。
如果空间帧是可变帧类型(S1504),则从此空间帧中提取出一个空间帧中的参数集数目和对其施加参数集的时隙的位置信息(S1505)。时隙的位置信息可由固定或可变的比特数表示。在这种情形中,对其施加第一参数集的时隙的位置信息可被表示为绝对值,而对其施加第二或更高参数集的时隙的位置信息可被表示为差值。对其施加第二或更高参数集的时隙的实际位置信息可通过将对其施加前一参数集的时隙的位置信息加上此差值来找到。
最后,使用所提取的信息将声道缩减混音信号变换成多声道音频信号(S1506)。
上述公开的实施例提供优于常规音频编码方案的若干优势。
首先,在通过以可变比特数表示对其施加参数集的时隙的位置来编码多声道音频信号时,所公开的实施例能够减少所传递的数据量。
其次,通过将对其施加第一参数集的时隙的位置表示为绝对值,并通过将对其施加第二或更高参数集的时隙的位置表示为差值,所公开的实施例能减少所传递的数据量。
第三,通过以固定或可变比特数来表示施加于诸如OTT框或TTT框的声道变换模块的参数带数目,所公开的实施例能减少所传递的数据量。在这种情形中,能使用前述原理来表示对其施加参数集的时隙的位置,其中这些参数集可存在于参数带数目的范围内。
图16是用于实现结合图1–15所述的实现音频编码器/解码器的示例性设备架构1600的方框图。该设备架构1600适用于各种设备,包括但不局限于:个人计算机、服务器计算机、消费者电子设备、移动电话、个人数字助理(PDA)、电子输入板、电视系统、电视机顶盒、游戏控制台、媒体播放机、音乐播放机、导航系统、和能够解码音频信号的任何其他设备。这些设备中的一些可实现使用硬件和软件的结合的变形系统。
架构1600包括一个或多个处理器1602(例如Intel等)、一个或多个显示设备1604(例如CRT、LCD)、音频子系统1606(例如音频硬件/软件)、一个或多个网络接口1608(例如以太网、USB等)、输入设备1610(例如键盘、鼠标等)以及一个或多个计算机可读介质1612(例如RAM、ROM、SDRAM、硬盘、光盘、闪存等)。这些器件能经由一条或多条总线1614(例如EISA、PCI、PCI特快等)来交换通信和数据。
术语“计算机可读介质”表示参与向处理器1602提供指令供执行的任何介质,包括但不局限于非易失性介质(例如光盘或磁盘)、易失性介质(例如存储器)和传输介质。传输介质包括但不局限于,同轴电缆、铜线和光纤。传输介质还采取声、光或射频波的形式。
计算机可读介质1612还包括操作系统1616(例如MacLinux等)、网络通信模块1618、音频编解码器1620以及一个或多个应用1622。
操作系统1616可以是多用户、多处理、多任务、多线程、实时操作系统等。操作系统1616执行基本任务,包括但不局限于:识别来自输入设备1610的输入;向显示设备1604和音频子系统1606发送输出;跟踪计算机可读介质1612(例如存储器或存储设备)上的文件和目录;控制外围设备(例如盘驱动器、打印机等);以及管理这一条或多条总线1614上的话务。
网络通信模块1618包括用于建立和维护网络连接的各种元件(例如用于实现诸如TCP/IP、HTTP、以太网等的通信协议的软件)。网络通信模块1618可包括浏览器,它允许设备架构1600的操作者在网络(例如因特网)上搜索信息(例如音频内容)。
音频编解码器1620负责实现结合图1–15描述的编码和/或解码过程的全部或其中一部分。在一些实施例中,此音频编解码器与硬件(例如处理器1602、音频子系统1606)协作以处理音频信号,包括根据这里描述的本发明的地来编码和/或解码音频信号。
应用1622可包括与音频内容有关的和/或在其中编码和/或解码音频内容的任何软件应用,包括但不局限于媒体播放器、音乐播放器(例如MP3播放器)、移动电话应用、PDA、电视系统、机顶盒等。在一个实施例中,音频编解码器可由应用服务供应商使用以在网络(例如因特网)上提供编码/解码服务。
在上面的说明中,为便于解释,阐述了众多具体细节以提供对本发明的透彻理解。然而,本领域内技术人员可以清楚知道,无需这些具体细节也可实践本发明。在其它情况下,结构和设备以方框图形式示出以避免混淆本发明。
尤其,本领域内技术人员将可认识到,可使用其它架构和图形环境,并且可使用除上述内容以外的其他图形工具和产品来实现本发明。具体地说,客户机/服务器方法仅为用于提供本发明的控制板功能集的架构的一个示例,本领域内技术人员可以认识到也可使用其它的非客户机/服务器方法。
本详细说明的一些部分是以在计算机存储器内对数据比特的操作的算法和符号表示来给出的。这些算法描述和表示是数据处理领域内技术人员用以最有效地将他们工作的实质内容传达给其它本领域内技术人员的手段。算法在这里,并且一般而言,被构思成导致合需结果的自相容的一系列步骤。这些步骤是需要对物理量作物理操纵的步骤。通常,尽管不是必需的,这些量采取能够被存储、转换、组合、比较或操纵的电信号或磁信号的形式。已证明有时——主要是出于通用性的原因——将这些信号称为比特、值、元、符号、字符、项、数字等是便利的。
工业实用性
然而,应当记住,所有这些和类似的术语要关联于适当的物理量并且仅仅是应用于这些量的便利标示。除非特别说明或是从讨论中可显而易见,否则应当领会贯穿本说明,使用诸如“处理”或“计算”或“运算”或“确定”或“显示”等的术语的讨论是指计算机系统或类似电子计算设备的动作和处理,其操纵在计算机系统的寄存器和存储器中以物理(电子)量表示的数据并将其转换成在计算机系统存储器或寄存器或其它此类信息存储、传送或显示设备内被类似地以物理量表示的其它数据。
本发明还涉及应用执行本文中的操作的装置。该装置可针对所要求的目的而专门构造,或者其可为由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机构成。这种计算机程序可存储在计算机可读存储介质中,例如但不局限于,包括软盘、光盘、CD-ROM和磁光盘在内的任何类型的盘,只读存储器(ROM),随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡、或适用于存储电子指令的任何类型的介质,并且它们各自耦合于计算机系统总线。
本文中给出的算法和模块并非固有地与任何特定计算机或其它装置有关。可将各种通用系统与根据本文的教导的程序一起使用,或者可证明构造更加专门化的装置来执行这些方法步骤是便利的。各种这类系统的必要结构将在下面的说明中出现。另外,本发明不是参照任何特定编程语言来描述的。应当领会,可使用各种编程语言来实现本文中所讨论的本发明的教导。此外,本领域内普通技术人员应当明确,本发明的模块、特征、属性、方法集和其它方面可实现为软件、硬件、固件或三者的任意组合。当然,在本发明的组件被实现为软件的场合,此组件可被实现为独立程序、实现为较大型程序的一部分、实现为多个独立程序、实现为静态或动态链接库、实现为内核可加载模块、实现为设备驱动程序、和/或以计算机编程领域中技术人员现在或未来所知的所有其他方法。另外,本发明决不局限于在任何特定操作系统或环境中实现。
本领域内技术人员可以明确,可对所公开实施例作出各种修改和变形而不会脱离本发明的精神或范围。因此,本发明旨在覆盖对所公开实施例的所有此类修改和变形,只要这些修改和变形落在所附权利要求及其等效技术方案的范围内。
Claims (14)
1.一种解码音频信号的方法,包括:
接收声道缩减混音信号和空间信息;
从所述空间信息生成与时隙的位置信息对应的参数集,其中,所述的时隙的位置信息包括绝对值和差值,所述绝对值指示对其施加第一参数集的时隙的位置,所述差值指示对其施加前一参数集的时隙的位置与对其施加在所述前一参数集之后的后一参数集的时隙的位置之间的差;以及
基于所述生成的参数集解码所述音频信号。
2.如权利要求1所述的方法,其特征在于,所述的时隙的位置信息指示可变位置。
3.如权利要求2所述的方法,其特征在于,所述的时隙的位置信息是由可变比特数表示的,所述可变比特数是通过使用所述时隙的参数集的数目来确定的。
4.如权利要求3所述的方法,其特征在于,当所述参数集的数目等于或大于2^(n–1)并小于2^(n)时,所述可变比特数被确定为n比特。
5.如权利要求4所述的方法,其特征在于,当所述参数集的数目大于2^(n–1)并等于或小于2^(n)时,所述可变比特数被确定为n比特。
6.如权利要求1所述的方法,其特征在于,所述生成参数集还包括:
从所述声道缩减混音信号生成声道缩减混音参数;以及
将所生成的声道缩减混音参数变换成所述参数集。
7.如权利要求6所述的方法,其特征在于,还包括:
将所述参数集施加于声道变换模块,所述声道变换模块用来从n个声道映射成m个声道。
8.如权利要求1所述的方法,其特征在于,所述的时隙的位置信息是以可变比特数表示的。
9.一种用于解码音频信号的装置,包括:
多路分解器,用于从表示音频信号的比特流分离声道缩减混音信号和空间信息,所述比特流具有帧;
声道缩减混音信号解码单元,用于解码所述声道缩减混音信号;
空间信息解码单元,用于从所述空间信息解码包括对应于时隙的位置信息的参数集的空间信息,其中,所述的时隙的位置信息包括绝对值和差值,所述绝对值指示对其施加第一参数集的时隙的位置,所述差值指示对其施加前一参数集的时隙的位置与对其施加在所述前一参数集之后的后一参数集的时隙的位置之间的差;以及
声道扩展混音单元,用于基于所述参数集对所述音频信号进行解码,
其中,所述的时隙的位置信息是以可变比特数表示的。
10.如权利要求9所述的装置,其特征在于,所述的时隙的位置信息指示可变位置。
11.如权利要求10所述的装置,其特征在于,所述的时隙的位置信息是由可变比特数表示的,所述可变比特数是通过使用所述时隙的参数集的数目来确定的。
12.如权利要求9所述的装置,其特征在于,该装置还包括:
声道缩减混音参数生成单元,用于从所述声道缩减混音信号生成声道缩减混音参数;
声道变换单元,用于通过使用参数集将具有n声道的声道扩展混音的声道缩减混音信号变换成具有m声道的多声道音频信号,其中,所述参数集通过将所生成的声道缩减混音参数变换成所述参数集来生成。
13.一种用于编码音频信号的方法,包括:
生成音频信号的参数集,其中所述参数集对应于所述音频信号的时隙的位置信息,其中,所述的时隙的位置信息包括绝对值和差值,所述绝对值指示对其施加第一参数集的时隙的位置,所述差值指示对其施加前一参数集的时隙的位置与对其施加在所述前一参数集之后的后一参数集的时隙的位置之间的差;以及
在表示所述音频信号的比特流中插入所述生成的参数集和所述的时隙的位置信息。
14.一种用于编码多声道音频信号的装置,包括:
声道缩减混音单元,用于对所述多声道音频信号进行声道缩减混音,生成声道缩减混音信号;
声道缩减混音信号编码单元,用于对所述声道缩减混音信号进行编码;
空间信息生成单元,用于生成包括音频信号的参数集的空间信息,其中,所述参数集对应于所述音频信号的时隙的位置信息,其中,所述的时隙的位置信息包括绝对值和差值,所述绝对值指示对其施加第一参数集的时隙的位置,所述差值指示对其施加前一参数集的时隙的位置与对其施加在所述前一参数集之后的后一参数集的时隙的位置之间的差;以及
多路复用器,用于对所述的经编码的声道缩减混音信号和所述的空间信息进行多路复用以生成表示所述多声道音频信号的比特流。
Applications Claiming Priority (31)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US71211905P | 2005-08-30 | 2005-08-30 | |
US60/712,119 | 2005-08-30 | ||
US71920205P | 2005-09-22 | 2005-09-22 | |
US60/719,202 | 2005-09-22 | ||
US72300705P | 2005-10-04 | 2005-10-04 | |
US60/723,007 | 2005-10-04 | ||
US72622805P | 2005-10-14 | 2005-10-14 | |
US60/726,228 | 2005-10-14 | ||
US72922505P | 2005-10-24 | 2005-10-24 | |
US60/729,225 | 2005-10-24 | ||
KR1020060004062 | 2006-01-13 | ||
KR1020060004055 | 2006-01-13 | ||
KR1020060004057A KR20070025904A (ko) | 2005-08-30 | 2006-01-13 | 멀티채널 오디오 코딩에서 효과적인 lfe채널의 파라미터밴드 수 비트스트림 구성방법 |
KR10-2006-0004051 | 2006-01-13 | ||
KR20060004055 | 2006-01-13 | ||
KR1020060004063 | 2006-01-13 | ||
KR1020060004051 | 2006-01-13 | ||
KR10-2006-0004055 | 2006-01-13 | ||
KR1020060004063A KR20070025907A (ko) | 2005-08-30 | 2006-01-13 | 멀티채널 오디오 코딩에서 효과적인 채널변환모듈에 적용될파라미터 밴드 수 비트스트림 구성방법 |
KR10-2006-0004062 | 2006-01-13 | ||
KR20060004065 | 2006-01-13 | ||
KR10-2006-0004065 | 2006-01-13 | ||
KR1020060004057 | 2006-01-13 | ||
KR1020060004051A KR20070025903A (ko) | 2005-08-30 | 2006-01-13 | 멀티채널 오디오 코딩에서 효과적인 레지듀얼 신호의파라미터 밴드 수 비트스트림 구성방법 |
KR10-2006-0004063 | 2006-01-13 | ||
KR10-2006-0004057 | 2006-01-13 | ||
KR1020060004065 | 2006-01-13 | ||
KR1020060004062A KR20070037974A (ko) | 2005-10-04 | 2006-01-13 | 멀티채널 오디오 코딩에서 효과적인 넌가이디드 코딩의파라미터 밴드 수 비트스트림 구성방법 |
US76253606P | 2006-01-27 | 2006-01-27 | |
US60/762,536 | 2006-01-27 | ||
PCT/KR2006/003421 WO2007055460A1 (en) | 2005-08-30 | 2006-08-30 | Apparatus for encoding and decoding audio signal and method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101253806A CN101253806A (zh) | 2008-08-27 |
CN101253806B true CN101253806B (zh) | 2015-05-13 |
Family
ID=38100099
Family Applications (10)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800316239A Expired - Fee Related CN101253552B (zh) | 2005-08-30 | 2006-08-30 | 解码音频信号的方法及装置 |
CN2006800314619A Expired - Fee Related CN101253551B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN200680031519XA Expired - Fee Related CN101253808B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN200680031572XA Expired - Fee Related CN101253809B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN2006800316192A Expired - Fee Related CN101253810B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN200680031505.8A Expired - Fee Related CN101253807B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN2006800309057A Expired - Fee Related CN101248484B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN200680031480.1A Expired - Fee Related CN101253806B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN2006800316690A Active CN101253554B (zh) | 2005-08-30 | 2006-08-30 | 解码音频信号的方法和装置 |
CN2006800316332A Active CN101253553B (zh) | 2005-08-30 | 2006-08-30 | 解码音频信号的方法 |
Family Applications Before (7)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800316239A Expired - Fee Related CN101253552B (zh) | 2005-08-30 | 2006-08-30 | 解码音频信号的方法及装置 |
CN2006800314619A Expired - Fee Related CN101253551B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN200680031519XA Expired - Fee Related CN101253808B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN200680031572XA Expired - Fee Related CN101253809B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN2006800316192A Expired - Fee Related CN101253810B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN200680031505.8A Expired - Fee Related CN101253807B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
CN2006800309057A Expired - Fee Related CN101248484B (zh) | 2005-08-30 | 2006-08-30 | 用于编码和解码音频信号的装置及其方法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800316690A Active CN101253554B (zh) | 2005-08-30 | 2006-08-30 | 解码音频信号的方法和装置 |
CN2006800316332A Active CN101253553B (zh) | 2005-08-30 | 2006-08-30 | 解码音频信号的方法 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20070025905A (zh) |
CN (10) | CN101253552B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20070025905A (ko) * | 2005-08-30 | 2007-03-08 | 엘지전자 주식회사 | 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법 |
ATE455348T1 (de) | 2005-08-30 | 2010-01-15 | Lg Electronics Inc | Vorrichtung und verfahren zur dekodierung eines audiosignals |
CN101930738B (zh) * | 2009-06-18 | 2012-05-23 | 晨星软件研发(深圳)有限公司 | 多声道音频信号译码方法与装置 |
CN102025393B (zh) * | 2009-09-09 | 2013-08-14 | 华为技术有限公司 | 数据传输方法及装置 |
US8428936B2 (en) * | 2010-03-05 | 2013-04-23 | Motorola Mobility Llc | Decoder for audio signal including generic audio and speech frames |
US8605564B2 (en) * | 2011-04-28 | 2013-12-10 | Mediatek Inc. | Audio mixing method and audio mixing apparatus capable of processing and/or mixing audio inputs individually |
CN102419978B (zh) * | 2011-08-23 | 2013-03-27 | 展讯通信(上海)有限公司 | 音频解码器、音频解码的频谱重构方法及装置 |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
ES2653975T3 (es) | 2013-07-22 | 2018-02-09 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador de audio multicanal, codificador de audio multicanal, procedimientos, programa informático y representación de audio codificada mediante el uso de una decorrelación de señales de audio renderizadas |
EP2830334A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals |
CN109903776B (zh) | 2013-09-12 | 2024-03-01 | 杜比实验室特许公司 | 用于各种回放环境的动态范围控制 |
CN105898669B (zh) * | 2016-03-18 | 2017-10-20 | 南京青衿信息科技有限公司 | 一种声音对象的编码方法 |
CN114333862B (zh) * | 2021-11-10 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 音频编码方法、解码方法、装置、设备、存储介质及产品 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6021386A (en) * | 1991-01-08 | 2000-02-01 | Dolby Laboratories Licensing Corporation | Coding method and apparatus for multiple channels of audio information representing three-dimensional sound fields |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5481643A (en) * | 1993-03-18 | 1996-01-02 | U.S. Philips Corporation | Transmitter, receiver and record carrier for transmitting/receiving at least a first and a second signal component |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6339760B1 (en) * | 1998-04-28 | 2002-01-15 | Hitachi, Ltd. | Method and system for synchronization of decoded audio and video by adding dummy data to compressed audio data |
US6757659B1 (en) * | 1998-11-16 | 2004-06-29 | Victor Company Of Japan, Ltd. | Audio signal processing apparatus |
US6631352B1 (en) * | 1999-01-08 | 2003-10-07 | Matushita Electric Industrial Co. Ltd. | Decoding circuit and reproduction apparatus which mutes audio after header parameter changes |
WO2002084646A1 (en) * | 2001-04-18 | 2002-10-24 | Koninklijke Philips Electronics N.V. | Audio coding |
KR20040063155A (ko) * | 2001-11-23 | 2004-07-12 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 인지성 잡음의 대치 |
DE60307252T2 (de) * | 2002-04-11 | 2007-07-19 | Matsushita Electric Industrial Co., Ltd., Kadoma | Einrichtungen, verfahren und programme zur kodierung und dekodierung |
EP1500084B1 (en) * | 2002-04-22 | 2008-01-23 | Koninklijke Philips Electronics N.V. | Parametric representation of spatial audio |
KR20070025905A (ko) * | 2005-08-30 | 2007-03-08 | 엘지전자 주식회사 | 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법 |
-
2006
- 2006-01-13 KR KR1020060004058A patent/KR20070025905A/ko not_active Application Discontinuation
- 2006-08-30 CN CN2006800316239A patent/CN101253552B/zh not_active Expired - Fee Related
- 2006-08-30 CN CN2006800314619A patent/CN101253551B/zh not_active Expired - Fee Related
- 2006-08-30 CN CN200680031519XA patent/CN101253808B/zh not_active Expired - Fee Related
- 2006-08-30 CN CN200680031572XA patent/CN101253809B/zh not_active Expired - Fee Related
- 2006-08-30 CN CN2006800316192A patent/CN101253810B/zh not_active Expired - Fee Related
- 2006-08-30 CN CN200680031505.8A patent/CN101253807B/zh not_active Expired - Fee Related
- 2006-08-30 CN CN2006800309057A patent/CN101248484B/zh not_active Expired - Fee Related
- 2006-08-30 CN CN200680031480.1A patent/CN101253806B/zh not_active Expired - Fee Related
- 2006-08-30 CN CN2006800316690A patent/CN101253554B/zh active Active
- 2006-08-30 CN CN2006800316332A patent/CN101253553B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6021386A (en) * | 1991-01-08 | 2000-02-01 | Dolby Laboratories Licensing Corporation | Coding method and apparatus for multiple channels of audio information representing three-dimensional sound fields |
Also Published As
Publication number | Publication date |
---|---|
CN101253808B (zh) | 2012-05-23 |
CN101253551A (zh) | 2008-08-27 |
CN101253807B (zh) | 2014-04-02 |
CN101253553B (zh) | 2012-09-19 |
CN101248484B (zh) | 2012-06-13 |
CN101253553A (zh) | 2008-08-27 |
CN101253552B (zh) | 2013-04-03 |
CN101253809B (zh) | 2011-12-28 |
CN101253808A (zh) | 2008-08-27 |
CN101253551B (zh) | 2012-11-28 |
CN101253810B (zh) | 2011-12-14 |
CN101253554A (zh) | 2008-08-27 |
CN101253552A (zh) | 2008-08-27 |
CN101253807A (zh) | 2008-08-27 |
CN101253809A (zh) | 2008-08-27 |
CN101248484A (zh) | 2008-08-20 |
CN101253554B (zh) | 2011-12-07 |
CN101253806A (zh) | 2008-08-27 |
CN101253810A (zh) | 2008-08-27 |
KR20070025905A (ko) | 2007-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101253806B (zh) | 用于编码和解码音频信号的装置及其方法 | |
AU2006285538B2 (en) | Apparatus for encoding and decoding audio signal and method thereof | |
KR100891685B1 (ko) | 오디오 신호의 인코딩 및 디코딩 장치, 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150513 Termination date: 20180830 |
|
CF01 | Termination of patent right due to non-payment of annual fee |