CN101297352B - 用于编码和解码音频信号的装置及其方法 - Google Patents
用于编码和解码音频信号的装置及其方法 Download PDFInfo
- Publication number
- CN101297352B CN101297352B CN2006800292910A CN200680029291A CN101297352B CN 101297352 B CN101297352 B CN 101297352B CN 2006800292910 A CN2006800292910 A CN 2006800292910A CN 200680029291 A CN200680029291 A CN 200680029291A CN 101297352 B CN101297352 B CN 101297352B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- channel
- gain
- signal
- channel audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 446
- 238000000034 method Methods 0.000 title claims abstract description 86
- 239000000203 mixture Substances 0.000 claims description 283
- 239000000284 extract Substances 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 11
- 230000002708 enhancing effect Effects 0.000 claims 4
- 238000012937 correction Methods 0.000 description 27
- 230000008859 change Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 240000006409 Acacia auriculiformis Species 0.000 description 1
- AFCARXCZXQIEQB-UHFFFAOYSA-N N-[3-oxo-3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CCNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 AFCARXCZXQIEQB-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
公开了一种编码和/或解码音频信号的方法和/或装置,其中在编码装置中对声道缩减混音信号施加声道缩减混音增益,并进而将包含关于所施加的声道缩减混音增益的信息的比特流发送至解码装置。解码装置使用此声道缩减混音增益信息来恢复出声道缩减混音信号。还公开了一种编码和/或解码音频信号的方法和/或装置,其中编码装置可对声道缩减混音信号施加任意性声道缩减混音增益(ADG),并将包含关于所施加的ADG的信息的比特流发送至解码装置。该解码装置使用此ADG信息来恢复出声道缩减混音信号。还公开了一种编码和/或解码音频信号的方法和/或装置,其中该方法和/或装置还能改变特定声道的能级并能恢复出已改变的能级。
Description
技术领域
本发明涉及一种用于编码和/或解码音频信号的方法和/或装置。
背景技术
本发明涉及多声道音频信号的空间信息的编码和/或解码。最近,已开发出各种用于数字音频信号的编码技术和方法,并且已生产出与之相关联的各种产品。
然而,当多声道音频信号被声道缩减混音成单声道或立体声音频信号的形式时,可能存在音频信号声级损失的问题。尤其是经编码的信号即使在由核心编解码器对其进行编码后仍然表现出声级损失现象,因为经编码的信号具有有限的大小,例如16比特。音频信号的这种声级损失现象影响到音频信号的输出特性,并造成音质的劣化。
发明内容
构思以解决上述问题的本发明的一个目的在于通过对多声道音频信号的声道缩减信号施加声道缩减混音增益来解决多声道音频信号的声级损失问题。
本发明的另一目的是通过对多声道音频信号的声道缩减混音信号施加任意性声道缩减混音增益来解决多声道音频信号的声级损失问题。
本发明的另一目的是通过对多声道音频信号的特定声道施加特定声道增益来解决多声道音频信号的声级损失问题。
本发明的另一目的是通过使用声道缩减混音增益、任意性声道缩减混音增益、以及特定声道增益中的至少两个来解决多声道音频信号的声级损失问题。
为了实现这些和其它的优点并根据本发明的目的,一种根据本发明的解码音频信号的方法包括以下步骤:从音频信号的比特流中分离出声道缩减混音信号;并对该声道缩减混音信号施加声道缩减混音增益以修正该声道缩减混音信号。
为了进一步实现这些和其它的优点并根据本发明的目的,一种根据本发明的解码音频信号的方法包括以下步骤:从音频信号的比特流中分离出声道缩减混音信号和空间信息信号;使用该空间信息信号将声道缩减混音信号变换成多声道音频信号;并对该多声道音频信号施加声道缩减混音增益。
为了进一步实现这些和其它的优点并根据本发明的目的,一种根据本发明的编码音频信号的方法包括以下步骤:从多声道音频信号生成声道缩减混音信号和空间信息信号;并对该声道缩减混音信号施加声道缩减混音增益。
为了进一步实现这些和其它的优点并根据本发明的目的,一种根据本发明的编码音频信号的方法包括以下步骤:对多声道音频信号施加声道缩减混音增益;并从已施加声道缩减混音增益的多声道音频信号生成声道缩减混音信号。
为了进一步实现这些和其它的优点并根据本发明的目的,一种根据本发明的解码音频信号的装置包括:多路分解器,用来从音频信号的比特流中分离出声道缩减混音信号和空间信息信号;声道缩减混音增益施加单元,用来对该声道缩减混音信号施加声道缩减混音增益;以及多声道生成单元,用来通过使用空间信息信号将已施加声道缩减混音增益的声道缩减混音信号变换成多声道音频信号。
为了进一步实现这些和其它的目的并根据本发明的目的,一种根据本发明的编码音频信号的装置包括:声道缩减混音单元,用来从多声道音频信号生成声道缩减混音信号;空间信息生成单元,用来从多声道音频信号提取空间信息;以及声道缩减增益施加单元,用来对声道缩减混音信号施加声道缩减混音增益。
附图说明
包含于此以提供对本发明进一步理解的附图示出本发明诸实施例,并与说明书一起用来解释本发明的原理。
在附图中:
图1是示出一种使人类能够辨认出音频信号中所包含的空间信息的方法的示意图;
图2是示出在编码音频信号的过程中发生的音频信号的声级损失现象的波形图;
图3是示出根据本发明一实施例的在其中对声道缩减混音信号施加声道缩减混音增益以修正声道缩减混音信号的第一编码装置的方框图;
图4是示出根据本发明一实施例的在其中对声道缩减混音信号施加声道缩减混音增益以修正声道缩减混音信号的第一解码装置的方框图;
图5是示出根据本发明一实施例的对多声道音频信号施加声道缩减混音增益以修正多声道音频信号的第二编码装置的方框图;
图6是示出根据本发明一实施例的对多声道音频信号施加声道缩减混音增益以修正多声道音频信号的第二解码装置的方框图;
图7是示出根据本发明一实施例的对声道缩减混音信号施加声道缩减混音增益以修正声道缩减混音信号的第三编码装置的方框图;
图8是示出根据本发明一实施例的对声道缩减混音信号施加声道缩减混音增益以修正声道缩减混音信号的第三解码装置的方框图;
图9是示出根据本发明实施例的各自包含声道缩减混音增益信息的比特流的图;
图10A和10B是示出根据本发明一实施例的各种形式的声道缩减混音增益的表;
图11是示出根据本发明的一种用来防止由于施加声道缩减混音增益引起的帧周围音质劣化的方法的曲线图;
图12是示出根据本发明一实施例的一种采用对声道缩减混音信号施加声道缩减混音增益的方案的音频信号编码方法的流程图;
图13是示出根据本发明一实施例的一种对声道缩减混音信号施加声道缩减混音增益的音频信号解码方法的流程图;
图14是示出根据本发明一实施例的一种对声道缩减混音信号施加任意性声道缩减混音增益(ADG)以修正声道缩减混音信号的编码装置的方框图;
图15是示出根据本发明一实施例的对声道缩减混音信号施加ADG以修正声道缩减混音信号的解码装置的方框图;
图16是示出根据本发明一实施例的对声道缩减混音信号施加声道缩减混音增益和ADG以修正声道缩减混音信号的编码装置的方框图;
图17是示出根据本发明一实施例的对声道缩减混音信号施加声道缩减混音增益和ADG以修正声道缩减混音信号的解码装置的方框图;
图18是示出根据本发明一实施例的施加了ADG的多个频带的表;
图19是示出根据本发明一实施例的对声道缩减混音信号施加ADG以修正声道缩减混音信号的音频信号编码方法的流程图;
图20是示出根据本发明一实施例的对声道缩减混音信号施加ADG以修正声道缩减混音信号的音频信号解码方法的流程图;
图21是示出根据本发明一实施例的修正特定声道的声级的编码装置的方框图;
图22是示出根据本发明一实施例的修正特定声道的声级的解码装置的方框图;以及
图23是示出根据本发明一实施例的修正特定声道的声级的解码装置的方框图。
发明的最佳实现方式
下面对本发明的优选实施例进行详细参考,附图中示出了这些优选实施例的例子。
图1示出使人类能辨认音频信号中的空间信息的方法。
多声道音频信号的编码利用了如下事实:由于人类能够三维地辨认音频信号,因此能够使用多个参数集以三维空间信息的形式表达音频信号。
用于表示多声道音频信号的空间信息的“空间参数”包括声道级差(CLD)、声道间相干性(ICC)和声道时间差(CTD)。CLD表示两声道间的能量差。ICC表示两声道间的相关性。CTD表示两声道间的时间差。
图1示出人类如何空间地辨认音频信号,以及是如何创生出空间参数的概念。
参照图1,来自远端声源101的直接声波103到达人类的左耳107,而另一直接声波102在人类头部周围衍射后到达人类的右耳106。
这两个声波102和103就到达时间和能级而言具有差异。由于这种差异,创生出如上所述的CTD和CLD参数。
另一方面,如果经反射的声波104和105到达人类的双耳,或者如果声源101包括多个分散的声源,则相关性很小的声波到达人类的双耳。结果,创生出如上所述的ICC参数。
使用根据上述原理创生的空间参数,就能以单声道或立体声信号的形式发送多声道音频信号,并以多声道音频信号的形式输出所发送的单声道或立体声信号。
本发明提供一种在声道缩减混音信号被变换成多声道音频信号时使用上述空间信息来修正声道缩减混音信号的方法。
图2示出在音频信号编码期间产生的音频信号声级损失。音频信号的声级损失主要是因为两个因素而产生的。第一,当原始信号的声级很高时会产生这样的声级损失。第二,当要被声道缩减混音的输入声道的数目也很大时会产生这样的声级损失。例如,相比其中3个声道被声道缩减混音至一个声道的情形而言,当7个声道被声道缩减混音至一个声道时,声级损失更频繁地产生。图2的声级损失对应的情形是5个声道被声道缩减混音至一个声道。然而,本发明不局限于所述情形。这种声级损失也可能因例如限幅(clipping)等的各种因素而产生。
图2(a)示出由5个声道构成的原始信号的声级。原始信号的每个声道可利用有限大小(例如16比特)的几乎整个范围。图2(b)示出根据5个声道的声道缩减混音产生的声道缩减混音信号。如图2(b)所示,此声道缩减混音信号可能具有多个超过限定大小的波峰。图2(c)示出在使用核心编解码器(例如AAC编解码器)对声道缩减混音信号进行编码/解码后生成的音频信号。即使在根据核心编解码器的编码/解码操作产生的这样的音频信号的情形中,仍然会有声级损失,因为该音频信号是在有限的大小(例如16比特)内表达的。这种声级损失影响多声道音频信号的输出特性,并造成音质的劣化。
图3示出根据本发明一实施例的对声道缩减混音信号施加将声道缩减混音增益以修正声道缩减混音信号的第一编码装置。此第一编码装置包括声道缩减混音单元302、空间信息生成单元303、声道缩减混音增益施加单元306、和多路复用器308。
参照图3,声道缩减混音单元302对多声道音频信号301进行声道缩减混音,由此生成声道缩减混音信号304。在图3中,“n”表示输入声道的数目。声道缩减混音信号304可以是单声道、立体声、或多声道音频信号。
空间信息生成单元303从多声道音频信号301中提取空间信息。这里,“空间信息”是指关于在将声道缩减混音信号声道扩展混音至多声道音频信号时使用的音频信号声道的信息,其中该声道缩减混音信号是通过多声道音频信号的声道缩减混音而生成的。
声道缩减混音增益施加单元306对声道缩减混音信号304施加声道缩减混音增益以降低声道缩减混音信号304的声级。这里,“声道缩减混音增益”是指施加于(例如乘以)声道缩减混音信号或多声道音频信号以改变该信号的声级的值。在编码装置中,对声道缩减混音信号施加这种声道缩减混音增益主要是用来降低声道缩减混音信号的声级。例如,当使用大于1的声道缩减混音增益时,声道缩减混音信号乘以了此声道缩减混音增益的倒数以降低声道缩减混音信号的总声级。
可对多声道音频信号301的至少一个声道施加特定声道增益,例如低频(LFE)增益或环绕增益。声道缩减混音单元302可在已如上所述地对多声道音频信号301的至少一个声道施加了特定声道增益的情况下生成与多声道音频信号301相关联的声道缩减混音信号304。之后,进行对声道缩减混音信号304施加声道缩减混音增益的操作。当然,声道缩减混音增益施加单元306可在从多声道音频信号301生成声道缩减混音信号304的过程中进行此施加声道缩减混音增益的操作。
多路复用器308生成包括已施加声道缩减混音增益的声道缩减混音信号307、以及空间信息信号305的比特流309。空间信息信号305由空间信息生成单元303提取的空间信息构成。比特流309被发送至解码装置。比特流309还可包含关于声道缩减混音增益的信息,即声道缩减混音增益信息。
图4示出根据本发明一实施例的对声道缩减混音信号施加声道缩减混音增益以修正声道缩减混音信号的第一解码装置。此第一解码装置包括多路分解器402、声道缩减混音信号解码装置405、空间信息信号解码单元406、声道缩减混音增益施加单元409、以及多声道生成单元411。
参照图4,多路分解器402接收音频信号的比特流401,并从比特流401中分离出经编码的声道缩减混音信号403和经编码的空间信息信号404。
声道缩减混音信号解码单元405将经编码的声道缩减混音信号403解码,并将结果所得的经解码信号作为声道缩减混音信号407输出。空间信息信号解码单元406将经编码的空间信息信号404解码,并将结果所得的经解码信号作为空间信息408输出。
声道缩减混音增益施加单元409对声道缩减混音信号407施加声道缩减混音增益,由此输出具有原始声级的声道缩减混音信号410。例如,当声道缩减混音增益大于1时,声道缩减混音信号乘以了此声道缩减混音增益以提高声道缩减混音信号的声级。同时,声道缩减混音增益施加单元409在将声道缩减混音信号变换至多声道音频信号的过程中执行施加声道缩减混音增益的操作。
多声道生成单元411使用空间信息408将施加了声道缩减混音增益的声道缩减混音信号410作为多声道音频信号(out2)输出。
图5示出根据本发明一实施例的对多声道音频信号施加声道缩减混音增益以修正多声道音频信号的第二编码装置。与第一编码装置相似,此第二编码装置包括声道缩减混音单元504、空间信息生成单元505、声道缩减混音增益施加单元502、以及多路复用器508。
参照图5,此第二编码装置与第一编码装置相似。此第二编码装置与第一编码装置在声道缩减混音增益施加单元502的位置上存在区别。即,尽管在第一编码装置中声道缩减混音增益是被施加于声道缩减混音信号,然而在第二编码装置中声道缩减混音增益是被施加于多声道音频信号。
详细地说,声道缩减混音增益施加单元502对多声道音频信号501施加声道缩减混音增益,由此生成已施加声道缩减混音增益的多声道音频信号503。声道缩减混音单元504对多声道音频信号503进行声道缩减混音,由此生成声道缩减混音信号506。空间信息生成单元505从已施加声道缩减混音增益的多声道音频信号503中提取空间信息。多路复用器508生成包括声道缩减混音信号506和空间信息信号507的比特流509。
图6示出根据本发明一实施例的对多声道音频信号施加声道缩减混音增益以修正多声道音频信号的第二解码装置。与第一解码装置相似,此第二解码装置包括多路分解器602、声道缩减混音信号解码单元605、空间信息信号解码单元606、多声道生成单元609、和声道缩减混音增益施加单元611。
由于多路分解器602、声道缩减混音信号解码单元605、和空间信息信号解码单元606与结合图4说明的第一解码装置的那些部件相同或相似,因此不再对其进行详细说明。
多声道生成单元609使用空间信息608将声道缩减混音信号607变换成多声道音频信号610。
声道缩减混音增益施加单元611对多声道音频信号610施加声道缩减混音增益,并由此输出已施加声道缩减混音增益的多声道音频信号(out2)。当解码装置不能输出多声道音频信号时,使用空间信息,可直接从声道缩减混音信号解码单元605输出声道缩减混音信号607(out1)。
图7示出根据本发明一实施例的对声道缩减混音信号施加声道缩减混音增益以修正声道缩减混音信号的第三编码装置。此第三编码装置包括声道缩减混音单元702、空间信息生成单元703、声道缩减混音增益确定单元706、声道缩减混音增益施加单元708、和多路复用器710。
参照图7,此第三编码装置与第一编码装置相似。此第三编码装置与第一编码装置的不同点在于第三编码装置包括声道缩减混音增益确定单元706。由于声道缩减混音单元702、空间信息生成单元703、声道缩减混音增益施加单元708和多路复用器710与结合图3描述的第一编码装置的那些部件相同或是相似,因此不对其进行详细的说明。
声道缩减混音增益确定单元706确定将被施加于声道缩减混音信号的声道缩减混音增益。声道缩减混音增益确定单元706可通过测量在多声道音频信号701被声道缩减混频以生成声道缩减混频信号704时产生的频率和声级损失的程度来确定声道缩减混音增益。
当假设“xk(n)”(k=1、2、3、……、N)表示多声道音频信号的每一声道信号,并且声道缩减混音信号被生成为时,声道缩减混音增益的最大值可被确定为例如,当a1=1、a2=1、a3=1、a4=1/、a4=1/而时,声道缩减混音增益的最大值可被确定为4.73。当声道缩减混音增益的最大值被向下舍入时,它被确定为4。
图8示出根据本发明一实施例的对声道缩减混音信号施加声道缩减混音增益以修正声道缩减混音信号的第三解码装置。此第三解码装置包括多路分解器802、声道缩减混音信号解码单元805、空间信息信号解码单元807、声道缩减混音增益提取单元808、声道缩减混音增益施加单元809、和多声道生成单元812。
参照图8,此第三解码装置与第一解码装置相似。此第三解码装置在声道缩减混音增益提取单元808上与第一解码装置不同。
由于多路分解器802、声道缩减混音信号解码单元805、空间信息信号解码单元807、声道缩减混音增益施加单元809和多声道生成单元812与结合图4说明的第一解码装置的那些部件相同或相似,因此不给出其详细说明。
声道缩减混音增益提取单元808可从经解码的空间信息信号804或经解码的声道缩减混音信号803中提取声道缩减混音增益信息。
图9示出根据本发明诸实施例的分别包含声道缩减混音增益信息的比特流。如图9(a)所示,声道缩减混音增益信息可被每帧地插入到比特流的空间信息信号902中,其中比特流包括声道缩减混音信号901和空间信息信号902。
如图9(b)所示,也可将声道缩减混音增益信息每帧地插入比特流的声道缩减混音信号903中。同样,可以将声道缩减混音增益信息每多个帧地插入到比特流中。声道缩减混音增益可对于该比特流的所有帧具有恒定值,或者可具有每帧或每多个帧可变的值。
根据本发明,可实现一种方法,其中空间信息信号每帧或每多个帧具有一头部(或配置信息区),并且所述头部包含声道缩减混音增益信息。在空间信息信号每帧具有一个头部的场合,解码装置从头部提取声道缩减混音增益信息并对该帧施加声道缩减混音增益。另一方面,在空间信息信号每多个帧具有一头部的场合,解码装置从具有头部的帧提取声道缩减混音增益信息。然后,解码装置对具有头部的帧施加声道缩减混音增益,并对不具有头部的其余各帧施加提取自前一头部的声道缩减混音增益。头部可周期地或非周期地包含在空间信息信号的诸帧中。
如图9(c)所示,声道缩减混音增益信息也可被插入到比特流的头部904中。头部904包括配置信息等。在这种情形中,可将声道缩减混音增益信息以独立值的形式插入头部,或在将其与诸如特定声道增益的其他值编组之后以成组值的形式插入头部。
根据本发明,可实现另一种方法,其中声道缩减混音增益信息被插入到比特流的保留字段中而不使用额外比特。
另外,根据本发明,可实现另一种方法,其中可使用图9(a)、9(b)和9(c)中所示方法的组合。例如,可如图9(c)所示那样将声道缩减混音增益插入头部,并可同时如图9(a)所示那样将其插入空间信息信号。另外,声道缩减混音增益可被直接插入比特流,或可根据关于是否应当使用声道缩减混音增益的标识信息被选择性地插入比特流。例如,比特流的头部可具有关于是否应当使用声道缩减混音增益的第一标识信息。当基于第一标识信息确定应当使用声道缩减混音增益时,比特流的每个帧具有关于是否应当使用声道缩减混音增益的第二标识信息。当确定在一帧中应当使用声道缩减混音增益时,则在该帧中包括声道缩减混音增益。
图10A和10B示出根据本发明一个实施例的各种类型的声道缩减混音增益。声道缩减混音增益可具有各种不同的值。例如,如图10A和10B所示,可由特定声道增益(例如环绕增益和LFE增益)和声道缩减混音增益构成一个表。参照表1,对于环绕增益和LFE增益,可分别使用“1/”和对于声道缩减混音增益,可使用“1”或“1/2”。
参照表4,对于环绕增益和LFE增益,可分别使用“1/”和对于声道缩减混音增益,可使用“1”、“1/”、“1/2”或“1/(2)”。参照表5,对于环绕增益和LFE增益,可分别使用“1/”和对于声道缩减混音增益,可使用“1”、“3/4”、“2/3”或“1/2”。
尽管已在图10A和10B中将环绕增益和LFE增益描述为固定于特定值(例如,分别为“1/”和),然而本发明不仅限于此。根据本发明,可像在声道缩减增益中那样从多个特定值中选择环绕增益和LFE增益。根据本发明,可使用与该环绕增益和LFE增益不同的其他特定声道增益。
图11示出根据本发明的一种防止帧周围的音质劣化的方法,其中音质劣化是由于施加声道缩减混音增益而引起的。当由于施加声道缩减混音增益而引起声级变化时,在帧周围声道缩减混音增益的值突变之处会发生音质劣化。这是因为在帧周围声道缩减混音增益值突变之处会发生声级突变。为此,需要设定过渡阶段以使得因声道缩减混音增益变化导致的影响平滑地显现。对此,可使用下面的表达式来进行平滑处理。
DG(n)=a(n)DGt-1(n-1)+(1-a(n))DGt(n),
其中n=0、1、2、……、N
在上面的表达式中,“a(n)”可以是一阶线性函数或一般的n阶多项式函数。“a(n)”也可以是当声道缩减混音增益(DG)发生变化时显现出平滑变化的函数,例如高斯函数、汉宁(Hanning)函数或汉明(Hamming)函数。
同时,尽管进行了上述平滑处理,然而因声道缩减混音增益的突变导致的不利影响可能仍然存在。因此,可在编码过程中进行约束以防止声道缩减混音增益突变。当然,即使在编码装置不包括能够防止声道缩减混音增益突变的配置时,也可在解码装置中执行分析以防止声道缩减混音增益突变。例如,当使用具有递增或递减变化的值的声道缩减混音增益时,通过将声道缩减混音变化控制在相继各帧之间有一单位的增量或减量内,或者控制成每预定数目个帧(n帧)有一单位的增量或减量,就可以防止声道缩减混音增益的突然变化。
图12是示出根据本发明一个实施例的对声道缩减混音信号施加声道缩减混音增益的音频信号编码方法的流程图。参照图12,将在其中执行该音频信号编码方法的编码装置首先接收多声道音频信号(S1201)。此多声道音频信号随后由该编码装置的声道缩减混音单元进行声道缩减混音,进而生成声道缩减混音信号(S1202)。尽管如上所述,声道缩减信号是根据多声道音频信号的声道缩减混音获得的,然而也可使用从编码装置外界直接输入的声道缩减混音信号,例如任意性声道缩减混音信号。空间信息信号由该编码装置的空间信息生成单元从多声道音频信号生成(S1202)。
此后,由该编码装置的声道缩减增益施加单元对声道缩减混音信号施加声道缩减混音增益(S1203)。例如,当声道缩减混音增益大于1时,将声道缩减混音信号与声道缩减混音增益的倒数相乘以降低声道缩减混音信号的声级。另一方面,当声道缩减混音增益小于1时,将声道缩减混音信号与声道缩减混音增益相乘以降低声道缩减混音信号的声级。
随后由该编码装置的乘法器生成包括已施加声道缩减混音增益的声道缩减混音信号以及空间信息信号的比特流(S1204)。所生成的比特流可被发送至解码装置(S1204)。
该声道缩减混音增益可被施加于该比特流的声道缩减混音信号的所有帧。尽管该方法对于具有大声级的声道缩减混音信号帧是优选的,然而,当将该方法应用于具有小声级的声道缩减混音信号帧时会产生缺陷,因为可能发生信噪比(SNR)劣化。因此,可在预定时间间隔使用不同的声道缩减混音增益值。
可在比特流中每帧地定义声道缩减混音增益施加句法。在这种情形中,可根据声道缩减混音增益施加句法选每帧选择性地施加声道缩减混音增益。例如,对声道缩减混音信号施加声道缩减混音增益可执行如下。
首先,在比特流的头部设置声道缩减混音增益。在这种情形中,该声道缩减混音增益可被施加于该声道缩减混音信号的受该头部影响的全部帧。
第二,根据单独定义的句法每帧对声道缩减混音信号施加一独立的声道缩减混音增益。
第三,使用第一和第二方法的组合。即,设置要对声道缩减混音信号的所有帧施加的声道缩减混音增益(下文中将其称为“第一声道缩减混音增益”)。此第一声道缩减混音增益被用于整个时期或用于一很长的时期范围,例如1-2秒。在第一声道缩减混音增益以外,每帧地对声道缩减混音信号施加另一声道缩减混音增益(下文中称之为“第二声道缩减混音增益”),以使得在不被第一声道缩减混音增益覆盖的时期里能进行增益控制。
如上所述,当以单声道或立体声信号形式再现经解码的声道缩减混音信号时,可直接对已施加声道缩减混音增益的声道缩减混音信号进行解码而不考虑施加于该声道缩减混音信号的声道缩减混音增益。然而,当声道缩减混音信号被解码从而以多声道音频信号的形式再现时,需要使用下面的方法。
第一方法是对声道缩减混音信号的整个范围或对声道缩减混音信号中应用了头部的范围施加声道缩减混音增益,以恢复相关联的音频信号的声级。
第二方法是每帧地施加声道缩减混音增益,或对声道缩减混音信号中短于应用了头部的范围的多个帧施加声道缩减混音增益。
第三方法是使用第一和第二方法的组合。即每帧地或每多个帧地对声道缩减混音信号施加声道缩减混音增益,并随后对声道缩减混音信号的整个范围施加另一声道缩减混音增益。
图13是示出根据本发明一实施例的对声道缩减混音信号施加声道缩减混音增益的音频信号解码方法的流程图。参照图13,应用该声道信号解码方法的解码装置接收一音频信号比特流(S1301)。该比特流包括经编码的声道缩减混音信号和经编码的空间信息信号。
该解码装置的多路分解器从接收到的比特流中分离出经编码的声道缩减混音信号和经编码的空间信息信号(S1302)。该解码装置的声道缩减混音信号解码单元将经编码的声道缩减混音信号解码并输出经解码的声道缩减混音信号(S1303)。
当该解码装置不能使用空间信息输出多声道音频信号时(S1304),该解码装置可直接输出由声道缩减混音信号解码单元解码的声道缩减混音信号(S1308)。另一方面,当该解码装置能够输出多声道音频信号时(S1304),则执行下面的程序。
即,该解码装置的空间信息信号解码单元将分离出的空间信息信号解码并生成空间信息。该解码装置的声道缩减混音增益提取单元从空间信息信号或声道缩减混音信号中提取声道缩减混音增益信息(S1305)。可基于所提取的声道缩减混音增益信息确定声道缩减混音增益。该解码装置的声道缩减混音增益施加单元对声道缩减混音信号施加所确定的声道缩减混音增益(S1306)。该解码装置的多声道生成单元通过使用空间信息将已施加声道缩减混音增益的声道缩减混音信号变换成多声道音频信号(S1307)。
图14示出根据本发明一实施例的对声道缩减混音信号施加任意性声道缩减混音增益(ADG)以修正声道缩减混音信号的编码装置。该编码装置包括声道缩减混音单元1402、空间信息生成单元1403、ADG生成单元1407、ADG施加单元1409和多路复用器1411。
参照图14,声道缩减混音单元1402对多声道音频信号1401进行声道缩减混音,由此生成声道缩减混音信号1404。在图14中,“n”表示输入声道数。空间信息生成单元1403从多声道音频信号1401中提取空间信息。
ADG生成单元1407可将由声道缩减混音单元1402生成的声道缩减混音信号1404(下文中称之为“第一声道缩减混音信号”)与直接从编码装置外界输入的声道缩减混音信号1405(下文中称之为“第二声道缩减混音信号”)进行比较以确定ADG。例如,可基于表示第一和第二声道缩减混音信号1404和1405之差的信息即差信息来生成ADG。这里,“ADG”表示减小第二声道缩减混音信号与第一声道缩减混音信号之差的信息,在本发明中,也可对第二声道缩减混音信号或对第一声道缩减混音信号施加“ADG”以修正声道缩减混音信号。
ADG施加单元1409将由ADG生成单元1407生成的ADG施加于声道缩减混音信号1408。当声道缩减混音信号1408是第二声道缩减混音信号1405时,ADG不仅用来减小第二声道缩减混音信号1405与第一声道缩减混音信号1404之差,而且还用来修正声道缩减混音信号1408,例如应用降低声道缩减混音信号1408的声级。在这种情形中,可每帧地执行向声道缩减混音信号1408施加AGC的操作。
多路复用器1411生成包括已对其施加ADG的ADG已施加声道缩减混音信号1408以及空间信息信号1406的比特流1412。空间信息信号1406由空间信息生成单元1403所提取的空间信息构成。比特流1412被发送至解码装置。比特流1412也可包含关于ADG的信息。
图15示出根据本发明一实施例的对声道缩减混音信号施加AGC以修正声道缩减混音信号的解码装置。该解码装置包括多路分解器1502、声道缩减混音信号解码单元1505、空间信息信号解码单元1507、ADG提取单元1508、ADG施加单元1509、以及多声道生成单元1512。
参照图15,多路分解器1502从比特流1501中分离出经编码的声道缩减混音信号1503和经编码的空间信息信号1504。
声道缩减混音信号解码单元1505将经编码的声道缩减混音信号1503解码,并将结果所得的经解码信号作为声道缩减混音信号1506输出,此信号可以是单声道、立体声、或多声道音频信号。声道缩减混音信号解码单元1505可使用核心编解码器的解码器。当该解码装置不能处理声道缩减混音信号1506以输出多声道音频信号时,可直接从解码装置输出声道缩减混音信号(out1)。
空间信息信号解码单元1507将经编码的空间信息信号1504解码,并将结果所得的经解码的信号作为空间信息1511输出。
ADG提取单元1508从空间信息信号1504中提取关于ADG的信息,即ADG信息。ADG提取单元1508也可从声道缩减混音信号1506中提取ADG信息。
ADG施加单元1509对声道缩减混音信号1506施加AGC,其中ADG是基于由ADG提取单元1508提取的ADG信息确定的。多声道生成单元1512使用空间信息1508将已施加ADG的声道缩减混音信号1510变换成多声道音频信号,并输出此多声道音频信号(out2)。
图16示出根据本发明一实施例的对声道缩减混音信号施加声道缩减混音增益和ADG以修正声道缩减混音信号的编码装置。该编码装置包括声道缩减混音单元1602、空间信息生成单元1603、声道缩减混音增益施加单元1606、ADG施加单元1608、和多路复用器1610。
参照图16,由于声道缩减混音单元1602、空间信息生成单元1603和多路复用器1610与图14的那些部件相同或相似,因此不再对其进行详细说明。
图16的编码装置与图14的编码装置的区别在于,图16的编码装置包括声道缩减混音增益施加单元1606和ADG施加单元1608两者以实现声道缩减混音增益和ADG两者的施加。尽管在图16中未示出,但是图16的编码装置还可包括声道缩减混音增益生成单元和ADG生成单元。
详细地说,声道缩减混音增益施加单元1606对声道缩减混音信号1604施加声道缩减混音增益。声道缩减混音增益可统一地施加于声道缩减混音信号1604的整个范围。另外,可在声道缩减混音单元1602中对多声道音频信号1601进行声道缩减混音期间执行施加声道缩减混音增益的操作,并由此生成声道缩减混音信号1604。
ADG施加单元1608对已施加声道缩减混音增益的声道缩减混音信号1607施加ADG。如上所述,可每帧地执行对声道缩减混音信号1607施加ADG的操作。根据ADG的施加,已施加ADG的声道缩减混音信号的波形的效果可能与施加了动态范围控制(DRC)时显现出的效果相似。可在频域,更具体地说在混合域中对声道缩减混音信号施加ADG。根据本发明,对从编码装置外界输入的声道缩减混音信号(未示出)施加声道缩减混音增益和ADG也是可行的。
多路复用器1610生成包括已对其施加ADG的声道缩减混音信号1609以及空间信息信号1605的比特流1611。
图17示出根据本发明一实施例的对声道缩减混音信号施加声道缩减混音增益和ADG以修正声道缩减混音信号的解码装置。该解码装置包括多路分解器1702、声道缩减混音信号解码单元1705、空间信息信号解码单元1707、声道缩减混音增益和ADG提取单元1708、ADG施加单元1709、声道缩减混音增益施加单元1711、和多声道生成单元1714。
参照图17,多路分解器1702、声道缩减混音信号解码单元1705、空间信息信号解码单元1707和多声道生成单元1714具有与图15所示的多路分解器1502、声道缩减混音信号解码单元1505、空间信息信号解码单元1507和多声道生成单元1512相同或相似的功能。因此,将不再给出对这些组成部件的详细说明。
图17的解码装置与图15的解码装置的不同点在于图17的解码装置包括声道缩减混音增益和ADG提取单元1708、ADG施加单元1709、以及声道缩减混音增益施加单元1711以实现声道缩减混音增益和AGC两者的施加。
声道缩减混音增益和ADG提取单元1708从空间信息信号1704中提取声道缩减混音增益和ADG信息。声道缩减混音增益和ADG信息可由同一组成部件提取。替换地,声道缩减混音增益和ADG信息可分别由不同的组成部件(未示出)提取。也可从声道缩减混音信号1706中提取声道缩减混音增益和ADG信息。
ADG施加单元1709将根据所提取的ADG信息生成的ADG施加于根据声道缩减混音信号解码单元1705的解码操作生成的声道缩减混音信号1706。如上所述,对声道缩减混音信号1706施加ADG的操作可每帧地执行。
声道缩减混音增益施加单元1711将根据声道缩减混音增益信息生成的声道缩减混音增益施加于已施加ADG的声道缩减混音信号1710。多声道生成单元1714使用空间信息1713将已施加ADG和声道缩减混音增益的声道缩减混音信号1712作为多声道音频信号输出(out2)。当该解码装置不能输出这样的多声道音频信号时,它可直接输出根据声道缩减混音信号解码单元1705的解码操作生成的声道缩减混音信号1706(out1)。
图18示出根据本发明一实施例的施加了ADG的多个频带。在对音频信号的频带施加ADG时,ADG的值可与音频信号的声道级差(CLD)相同。例如,ADG可具有与CLD相同数目的参数频带。因此,当在解码装置中实现了施加ADG的功能时,可基于如图18所示的“bsFreqResStridexxx”确定整个频带应当被分割成的组数。
当“pbStride”为1时,不执行整个频带的分组。在这种情形中,对每个频带执行ADG读取,并且将读取的ADG施加于该频带。当“pbStride”为5时,每5个频带地执行ADG读取,并对这5个频带施加所读取的ADG。另一方面,当“pbStride”为28时,执行ADG读取,并对整个频带施加所读取的ADG。由此,当“pbStride”为28时,执行整个频带的增益控制,而当“pbStride”为28以外的值时,执行多频带增益控制。
也可对声道缩减混音信号的每个声道执行基于ADG的增益控制。
也可在时隙基础上执行ADG施加。这里,“时隙”表示用于在时域中等分音频信号的时间间隔。因此,当在特定时间位置发生趋向高声的声级突变时,可在该特定时间位置上执行针对高声的增益控制。当ADG值发生变化时,对ADG执行初步内插。否则,保持ADG值不变。由此,在全频带增益控制的情形中,对于整个频带存在每时隙一个ADG。另一方面,在多频带增益控制的情形中,对于多频带存在每时隙一个ADG。
图19是示出根据本发明一实施例的对声道缩减混音信号施加ADG以修正声道缩减混音信号的音频信号编码方法的流程图。将在其中进行此音频信号编码方法的编码装置首先接收多声道音频信号(S1901)。
此多声道音频信号随后由该编码装置的声道缩减混音单元进行声道缩减混音,进而生成第一声道缩减混音信号(S1902)。
由该编码装置的空间信息生成单元从该多声道音频信号生成空间信息信号(S1902)。
此后,由该编码装置的ADG生成单元将第一声道缩减混音信号与从该编码装置外界直接输入的声道缩减混音信号即第二混音信号进行比较。基于比较结果,ADG生成单元生成ADG(S1903)。所生成的ADG随后在该编码装置的ADG施加单元中被施加于第一声道缩减混音信号或第二声道缩减混音信号(S1904)。接着,由该编码装置的多路复用器生成包括已施加ADG的声道缩减混音信号以及空间信息信号的比特流(S1905)。所生成的比特流被发送至解码装置(S1905)。
根据本发明,可实现另一种音频信号编码方法,其中对声道缩减混音信号施加声道缩减混音增益和ADG两者以修正声道缩减混音信号。这种编码方法与图19所示的编码方法相似。这种编码方法与图19所示编码方法的不同点在于该方法还包括在如图19所示地生成声道缩减混音信号和空间信息信号之后对声道缩减混音信号施加声道缩减混音增益。在这种编码方法中,随后对已施加声道缩减混音增益的声道缩减混音信号施加ADG。
根据本发明,ADG的生成是以这样一种方式进行的:ADG的低频部分不是作为增益生成的,而是通过对第一声道缩减混音信号的低频分量执行残差编码来生成的,而ADG的高频部分如在常规方法中那样是作为增益来生成,从而使所生成的ADG能显现出进步的性能。这里,“残差编码”表示对声道缩减混音信号的一部分进行直接编码。
在上述方法中,ADG的低频部分是通过对第一声道缩减混音信号的低频分量执行残差编码来生成的。然而,ADG的低频部分也可通过对第一和第二声道缩减混音信号之差执行残差编码来生成。
作为增益生成的ADG和根据对第一声道缩减混音信号的低频分量的残差编码生成的ADG被施加于声道缩减混音信号以修正声道缩减混音信号。根据本发明,与声道缩减混音信号产生声级损失的那个点相关联的恢复信息可被添加至ADG中,或可随ADG一起被发送,以使带有恢复信息的ADG在解码装置中能被用于声道缩减混音信号的修正。
根据本发明,在ADG中也可包括用于修正声道缩减混音信号(例如改变声道缩减混音信号的振幅)的信息以及用于恢复第二声道缩减混音信号以减小第二声道缩减混音信号与第一声道缩减混音信号之差的信息。以上述方式生成的ADG能以包含在空间信息信号中的状态被发送。
图20是示出根据本发明一实施例的对声道缩减混音信号施加ADG以修正声道缩减混音信号的音频信号解码方法的流程图。参照图20,应用了此音频信号解码方法的解码装置接收音频信号的比特流(S2001)。所述比特流包括经编码的声道缩减混音信号和经编码的空间信息信号。
由该解码装置的多路分解器从所接收的比特流中分离出经编码的声道缩减混音信号和经编码的空间信息信号(S2002)。分离出的声道缩减混音信号由该解码装置的声道缩减混音信号解码单元解码(S2003)。
当该解码装置不能使用空间信息将声道缩减混音信号输出为多声道音频信号时(S2004),该解码装置可直接输出由声道缩减混音信号解码单元解码的声道缩减混音信号(S2008)。另一方面,当该解码装置能将声道缩减混音信号输出为多声道音频信号时(S2004),执行以下程序。
即,由该解码装置的空间信息信号解码单元将分离出的空间信息信号解码,以生成空间信息。还由该解码装置的ADG提取单元从空间信息信号或声道缩减混音信号提取ADG信息(S2005)。可基于所提取的ADG信息确定ADG。所确定的ADG由该解码装置的ADG施加单元施加于声道缩减混音信号(S2006)。已施加ADG的声道缩减混音信号由该解码装置的多声道生成单元基于空间信息变换成多声道音频信号,并且从该解码装置输出此多声道音频信号(S2007)。
根据本发明,还可实现另一种解码方法,其中对声道缩减混音信号施加声道缩减混音增益和ADG以修正声道缩减混音信号。这种解码方法与图20所示解码方法相似。这种解码方法与图20所示解码方法不同点在于:该方法还包括在对声道缩减混音信号施加ADG之前对声道缩减混音信号施加声道缩减混音增益(S2006)。在下文中将更为详细地描述这种解码方法。
声道缩减混音增益信息和ADG信息由声道缩减混音增益和ADG提取单元(未示出)从空间信息信号或声道缩减混音信号提取。随后将基于所提取的声道缩减混音增益信息生成的声道缩减混音增益施加于声道缩减混音信号。该声道缩减混音增益可被施加于声道缩减混音信号的整个范围。此后,基于所提取的ADG信息生成的ADG被施加于声道缩减混音信号。对声道缩减混音信号施加ADG的操作可每帧地执行。
图21是示出根据本发明一实施例的用于修正特定声道的能级的编码装置的方框图。该编码装置包括特定声道能级处理单元2102、声道缩减混音单元2104、空间信息生成单元2105、和多路复用器2108。
参照图21,特定声道能级处理单元2102接收多声道音频信号2101,修正接收的多声道音频信号2101中的特定声道的能级,并输出经修正的多声道音频信号2103。这里,“能级”表示与相关联的信号的振幅成比例的值,并包括声级。可通过测量或计算来确定特定声道的能级是否变化和如何变化。优选通过对其中发生了能级变化的声道信号施加特定声道增益来作出能级修正。例如,可通过对环绕声道或LFE声道施加环绕增益或LFE增益来作出能级修正。声道缩减混音单元2014对经能级修正的多声道音频信号2103进行声道缩减混音,由此生成声道缩减混音信号2106。也可由空间信息生成单元2105从多声道音频信号2103提取空间信息。
多路复用器2108生成包括声道缩减混音信号2106和空间信息信号2107的比特流2109。空间信息信号2107由空间信息生成单元2105所提取的空间信息构成。比特流2109被发送至解码装置。比特流2109还可包含特定声道增益信息。
图22是示出根据本发明一实施例的用于修正特定声道的能级的解码装置的方框图。该解码装置包括多路分解器2202、声道缩减混音信号解码单元2205、空间信息信号解码单元2206、多声道生成单元2210、和特定声道能级处理单元2212。
参照图22,多路分解器2202接收音频信号的比特流2201,并从比特流2201中分离出经编码的声道缩减混音信号2203和经编码的空间信息信号2204。
声道缩减混音信号解码单元2205将经编码的声道缩减混音信号2203解码,并输出结果所得的经解码的声道缩减混音信号2208。声道缩减混音信号解码单元2205还可通过对经编码的声道缩减混音信号2203进行解码来生成具有脉冲码调制(PCM)数据格式的声道缩减混音信号2209。
空间信息信号解码单元2206将空间信息信号2204解码,并输出结果所得的空间信息2207。多声道生成单元2210将声道缩减混音信号2209变换成多声道音频信号2211。
特定声道能级处理单元2212接收多声道音频信号2211、空间信息2207、以及声道缩减混音信号2208,并基于接收的信号每声道地执行能级修正。
特定声道能级处理单元2212包括声道能级检测单元2213、修正判别单元2214、和声道能级修正单元2215。声道能级检测单元2213每声道地检测多声道音频信号2211的声道能级是否变化和如何变化。修正判别单元2214基于在声道能级检测单元2213中执行的检测结果来判别是否应当每声道地执行能级修正。声道能级修正单元2215基于在修正判别单元2214中执行的判别结果来修正特定声道的能级。
当该解码装置不能输出多声道音频信号时,该解码装置可直接输出根据声道缩减混音信号解码单元2005的解码操作生成的声道缩减混音信号2008(out1)。另一方面,当该解码装置能输出多声道音频信号时,该解码装置可在每声道地修正多声道音频信号的能级之后输出多声道音频信号(out2)。
当没有从编码装置发来的关于特定声道的能级修正信息时,图22所示的解码装置能自行修正特定声道的能级。这种解码装置的一个特征在于,特定声道能级处理单元2212被配置成独立于多声道生成单元2210。包含在特定声道能级处理单元2212中的声道能级检测单元2213能够基于包含在空间信息和声道缩减混音信号2218中的CLD来计算原始音频信号的能级。将计算得到的能级与从多声道生成单元2210输入的多声道音频信号2211的能级进行比较。
当基于比较结果确定存在能级差时,在声道能级修正单元2215中执行能级修正。即,声道能级修正单元2215将多声道音频信号2211的能级乘以预先确定的特定声道增益以修正多声道音频信号2211的能级。在这种情形中,当存在能级差时,修正判别单元2214确定需要执行声道能级修正。替换地,修正判别单元2214可仅在能级差超过一预先确定的阈值时才确定需要执行声道能级修正。
根据本发明,可实现与图22所示解码装置相似、但与图22所示解码装置具有不同点的另一解码装置,该不同点在于多声道生成单元中包括了声道能级检测单元和修正判别单元,并且声道能级修正单元被独立配置。
根据本发明,可实现与图22所示解码装置相似、但与图22所示解码装置具有不同点的另一解码装置,该不同点在于:多声道生成单元中包括了声道能级检测单元、修正判别单元、和声道能级修正单元。在这种情形中,可使用多声道生成单元中的内部函数来每声道地执行能级修正。使用内部函数的能级修正方法可包括:当使用诸如正交镜像滤波器(QMF)或混合滤波器的滤波器时调整此类滤波器的增益的方法;调整整体增益的方法;调整前置矩阵或后置矩阵值的方法,调整与子带包络施加工具或时间包络施加工具相关联的函数的方法;当对经解相关的信号与原始信号求和时调整这些信号的增益的方法;或是使用特定模块以代替上述方法的方法。在使用QMF滤波器或混合滤波器实现解码的场合,可分析每个声道的频带特性。在使用子带包络施加工具或时间包络施加工具实现解码的场合,可使用户能够生成提供现实效果的最终信号。
图23是示出根据本发明一实施例的用于修正特定声道的能级的解码装置的方框图。该解码装置具有与图22所示解码装置相似的配置。因此,不再对包括多路分解器2302、声道缩减混音信号解码单元2305、和空间信息信号解码单元2303在内的相似配置予以详细说明。图23的解码装置与图22的解码装置的不同点在于,特定声道能级处理单元2308的位置与其在图22所示的解码装置中所处的位置不同。
参照图23,特定声道能级处理单元2308包括声道能级检测单元2309、修正判别单元2310、和声道能级修正单元2311。特定声道能级处理单元2308能每声道地修正具有PCM数据格式的声道缩减混音信号2307的能级。
详细地说,当假设能够根据原始信号的能级与再现信号的能级之间的比较检测出原始信号和再现信号之间的能级差时,声道能级修正单元2311在声道的基础上修正声道缩减混音信号2307的能级。
特定声道能级处理单元2308将声道缩减混音信号2312发送至多声道生成单元2313。多声道生成单元2313可在使用空间信息信号2304处理声道缩减混音信号2312之后将声道缩减混音信号2312输出为多声道音频信号2314,其中空间信息是根据空间信息信号解码单元2303对空间信息信号(out2)的解码操作来生成的。
同时,根据本发明,可使用相关联的音频信号的比特流来实现修正特定声道的能级的功能。详细地说,当编码装置修正特定声道的能级并以比特流中包含修正信息的状态发送关于修正的信息时,接收比特流的解码装置能从比特流中提取修正信息,并可基于所提取的修正信息恢复特定声道的能级。例如,编码装置设定具有各种不同值的环绕增益,将这些环绕增益中选定的一个施加于环绕声道,并在比特流中包含关于所施加的环绕增益的信息,即环绕增益信息。在这种情形中,环绕增益信息可被包含在比特流的空间信息信号中。解码装置从比特流中提取环绕增益信息。使用所提取的信息,解码装置可将该环绕声道的能级恢复至原始能级。下文中将详细描述将修正信息插入比特流的方法。
首先,空间信息信号被格式化以使其每帧或每多个帧具有一头部。关于特定声道的修正信息(例如环绕增益信息)被包含在头部中。在空间信息信号每多个帧具有一个头部的场合,可每多个帧地将头部周期或非周期地包含在空间信息信号中。
比特流还可包含表示“哪个声道应当被放大或衰减以及应如何放大或衰减(dB)该声道”的比特信息。在这种情形中,比特流可包含关于是否应当修正特定声道的能级、以及当执行修正时是否应当连续使用之前的数据的信息。比特流还可包含关于应当修正哪个声道的信息。另外,比特流可包含关于要被修正的声道的衰减或放大能级(dB)的信息。
根据本发明,可实现一种方法,其中将特定声道编组以每组地执行特定声道增益调整。即,在编码装置中分别对不同组的特定声道施加不同的声道增益。在声道缩减混音操作之后,编码装置以特定声道增益信息被包含在根据声道缩减混音操作生成的比特流中的状态来发送该特定声道增益信息。解码装置通过每组地将在编码装置中使用的声道增益的倒数施加于多声道音频信号来将多声道音频信号的能级恢复至原始能级。
例如,可将音频信号的诸声道分成三组,即由中置声道、左前声道和右前声道构成的第一组,由左后声道和右后声道构成的第二组、以及由LFE声道构成的第三组。在这种情形中,可使用第一特定声道增益调整方法,其中对每一声道施加特定声道增益的操作是每组地执行的,并且结果所得的声道被求和以生成单声道的声道缩减混音信号。在解码装置中,单声道的声道缩减混音信号被变换至多声道,并且多声道中的每个声道被每组地与相关联的特定声道增益相乘以使其在恢复至原始能级后被输出。此特定声道增益乘法可在变换处理之后或期间执行。
也可使用第二特定声道增益调整方法。根据第二方法,每组地对每一声道施加特定声道增益。此后,左前声道和左后声道被求和以生成左声道,而右前声道和右后声道被求和以生成右声道。对中置声道和LFE声道中的每一个施加一特定声道增益,进而将其乘以1/2^(1/2)。结果所得的声道分别被添加至左声道和右声道以生成立体声的声道缩减混音信号。当如上所述生成的立体声声道缩减混音信号被解码以生成最终信号时,每声道地执行特定声道增益施加。具体地说,从声道缩减混音信号的左声道和右声道提取的信号被乘以2^(1/2),并添加至中置声道和LFE声道。尽管已描述与单声道或立体声的声道缩减混音信号相关联的实施例,然而本发明不仅限于此。
根据本发明,可实现另一方法,其中在每组地对每一声道施加特定声道增益之后生成声道缩减混音信号,并且施加声道缩减混音增益的操作是对所生成的声道缩减混音信号执行的。
对于本领域内技术人员显而易见的是,可在本发明中作出各种修改和变化而不会脱离其精神或范围。因此,本发明旨在覆盖本发明落在所附权利要求书及其等效技术范围内的所有的修改和变化。
工业应用
从上面的说明可显而易见的是,根据本发明,可通过对根据多声道音频信号的声道缩减混音生成的声道缩减混音信号施加声道缩减混音增益、或者通过在对多声道音频信号施加声道缩减混音增益之后对多声道音频信号进行声道缩减混音来有效地防止多声道音频信号的声级损失。
也可通过对根据多声道音频信号的声道缩减混音生成的声道缩减混音信号施加ADG、或通过在对声道缩减混音信号施加声道缩减混音增益之后执行对声道缩减混音信号施加ADG的操作来防止多声道音频信号的声级损失问题。
另外,可通过修正多声道音频信号的特定声道的能级并对经修正的多声道音频信号进行声道缩减混音以生成声道缩减混音信号来防止多声道音频信号的能级损失问题。
Claims (2)
1.一种解码音频信号的方法,所述方法包括:
从所述音频信号接收空间信息信号和声道缩减混音信号,其中所述空间信息信号包括头部;
从所述头部提取声道缩减混音增益;
从所述空间信息信号提取空间信息和低频增强(LFE)增益;
通过使用所述声道缩减混音增益,修正所述声道缩减混音信号中对应于所述头部的全部帧的能级;
通过将所述空间信息施加于所述声道缩减混音信号生成多声道音频信号,所述多声道音频信号包括低频增强(LFE)声道信号;以及
通过将所述低频增强(LFE)增益施加于所述低频增强(LFE)声道信号,来修正所述多声道音频信号。
2.一种用于解码音频信号的装置,其包括:
多路分解器,从音频信号的比特流分离声道缩减混音信号和空间信息信号,所述空间信息信号包括头部;
声道缩减混音增益提取单元,从所述头部提取声道缩减混音增益,并从所述空间信息信号提取空间信息和低频增强(LFE)增益;
声道缩减混音增益施加单元,通过使用所述声道缩减混音增益,修正所述声道缩减混音信号中对应于所述头部的全部帧的能级;
多声道生成单元,通过将所述空间信息施加到所述声道缩减混音信号来生成多声道音频信号,所述多声道音频信号包括低频增强(LFE)声道信号;以及
声道级别修正单元,通过将所述低频增强(LFE)增益施加于所述低频增强(LFE)声道信号,来修正所述多声道音频信号。
Applications Claiming Priority (32)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US69500705P | 2005-06-30 | 2005-06-30 | |
US60/695,007 | 2005-06-30 | ||
US60/695,858 | 2005-07-05 | ||
US60/748,608 | 2005-12-09 | ||
US60/757,004 | 2006-01-09 | ||
US60/758,236 | 2006-01-12 | ||
KR20060004055 | 2006-01-13 | ||
KR10-2006-0004065 | 2006-01-13 | ||
US60/758,609 | 2006-01-13 | ||
KR10-2006-0004055 | 2006-01-13 | ||
KR10-2006-0004056 | 2006-01-13 | ||
KR20060004056 | 2006-01-13 | ||
KR20060004065 | 2006-01-13 | ||
US60/759,623 | 2006-01-18 | ||
US60/760,359 | 2006-01-20 | ||
US60/778,070 | 2006-03-02 | ||
KR1020060030653A KR20070003544A (ko) | 2005-06-30 | 2006-04-04 | 아비트러리다운믹스게인을 이용한 클리핑복원 |
KR1020060030671A KR20070003545A (ko) | 2005-06-30 | 2006-04-04 | 멀티채널 오디오 코딩에서 클리핑 복원방법 |
KR10-2006-0030671 | 2006-04-04 | ||
KR10-2006-0030653 | 2006-04-04 | ||
KR1020060056480A KR20070003574A (ko) | 2005-06-30 | 2006-06-22 | 오디오 신호 인코딩 및 디코딩 방법 및 장치 |
KR10-2006-0056480 | 2006-06-22 | ||
KR1020060058120A KR20070005477A (ko) | 2005-07-05 | 2006-06-27 | 다채널 오디오 코딩에서의 채널 신호의 에너지 레벨보정방법, 그리고 그 보정 기능을 수행하는 인코딩 및디코딩 장치 |
KR10-2006-0058120 | 2006-06-27 | ||
KR10-2006-0058139 | 2006-06-27 | ||
KR1020060058139A KR20070003593A (ko) | 2005-06-30 | 2006-06-27 | 멀티채널 오디오 신호의 인코딩 및 디코딩 방법 |
KR10-2006-0058141 | 2006-06-27 | ||
KR10-2006-0058140 | 2006-06-27 | ||
KR1020060058141A KR20070075237A (ko) | 2006-01-12 | 2006-06-27 | 멀티채널 오디오 신호의 인코딩 및 디코딩 방법 |
KR10-2006-0058142 | 2006-06-27 | ||
KR1020060058140A KR20070003594A (ko) | 2005-06-30 | 2006-06-27 | 멀티채널 오디오 신호에서 클리핑된 신호의 복원방법 |
PCT/KR2006/002575 WO2007004828A2 (en) | 2005-06-30 | 2006-06-30 | Apparatus for encoding and decoding audio signal and method thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101297352A CN101297352A (zh) | 2008-10-29 |
CN101297352B true CN101297352B (zh) | 2013-02-13 |
Family
ID=37870372
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800292910A Active CN101297352B (zh) | 2005-06-30 | 2006-06-30 | 用于编码和解码音频信号的装置及其方法 |
CN2006800294367A Active CN101243490B (zh) | 2005-06-30 | 2006-06-30 | 编码和解码音频信号的方法和装置 |
CN200680029607.6A Active CN101243491B (zh) | 2005-06-30 | 2006-06-30 | 用于编码和解码音频信号的装置及其方法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800294367A Active CN101243490B (zh) | 2005-06-30 | 2006-06-30 | 编码和解码音频信号的方法和装置 |
CN200680029607.6A Active CN101243491B (zh) | 2005-06-30 | 2006-06-30 | 用于编码和解码音频信号的装置及其方法 |
Country Status (2)
Country | Link |
---|---|
KR (2) | KR20070003593A (zh) |
CN (3) | CN101297352B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8219408B2 (en) * | 2008-12-29 | 2012-07-10 | Motorola Mobility, Inc. | Audio signal decoder and method for producing a scaled reconstructed audio signal |
JP4917189B2 (ja) * | 2009-09-01 | 2012-04-18 | パナソニック株式会社 | デジタル放送送信装置、デジタル放送受信装置およびデジタル放送送受信システム |
TWI443646B (zh) * | 2010-02-18 | 2014-07-01 | Dolby Lab Licensing Corp | 音訊解碼器及使用有效降混之解碼方法 |
US8948406B2 (en) | 2010-08-06 | 2015-02-03 | Samsung Electronics Co., Ltd. | Signal processing method, encoding apparatus using the signal processing method, decoding apparatus using the signal processing method, and information storage medium |
US8762158B2 (en) | 2010-08-06 | 2014-06-24 | Samsung Electronics Co., Ltd. | Decoding method and decoding apparatus therefor |
US9514768B2 (en) | 2010-08-06 | 2016-12-06 | Samsung Electronics Co., Ltd. | Audio reproducing method, audio reproducing apparatus therefor, and information storage medium |
US8948403B2 (en) | 2010-08-06 | 2015-02-03 | Samsung Electronics Co., Ltd. | Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system |
TWI462087B (zh) | 2010-11-12 | 2014-11-21 | Dolby Lab Licensing Corp | 複數音頻信號之降混方法、編解碼方法及混合系統 |
EP2477188A1 (en) * | 2011-01-18 | 2012-07-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of slot positions of events in an audio signal frame |
US10140995B2 (en) | 2012-07-02 | 2018-11-27 | Sony Corporation | Decoding device, decoding method, encoding device, encoding method, and program |
US10083700B2 (en) | 2012-07-02 | 2018-09-25 | Sony Corporation | Decoding device, decoding method, encoding device, encoding method, and program |
TWI517142B (zh) | 2012-07-02 | 2016-01-11 | Sony Corp | Audio decoding apparatus and method, audio coding apparatus and method, and program |
WO2016049106A1 (en) * | 2014-09-25 | 2016-03-31 | Dolby Laboratories Licensing Corporation | Insertion of sound objects into a downmixed audio signal |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11282496A (ja) * | 1998-03-30 | 1999-10-15 | Matsushita Electric Ind Co Ltd | 復号装置 |
JPH11330980A (ja) * | 1998-05-13 | 1999-11-30 | Matsushita Electric Ind Co Ltd | 復号装置及びその復号方法、並びにその復号の手順を記録した記録媒体 |
US7536305B2 (en) * | 2002-09-04 | 2009-05-19 | Microsoft Corporation | Mixed lossless audio compression |
-
2006
- 2006-06-27 KR KR1020060058139A patent/KR20070003593A/ko unknown
- 2006-06-27 KR KR1020060058140A patent/KR20070003594A/ko unknown
- 2006-06-30 CN CN2006800292910A patent/CN101297352B/zh active Active
- 2006-06-30 CN CN2006800294367A patent/CN101243490B/zh active Active
- 2006-06-30 CN CN200680029607.6A patent/CN101243491B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101243491A (zh) | 2008-08-13 |
CN101243491B (zh) | 2014-03-05 |
CN101243490A (zh) | 2008-08-13 |
KR20070003594A (ko) | 2007-01-05 |
KR20070003593A (ko) | 2007-01-05 |
CN101297352A (zh) | 2008-10-29 |
CN101243490B (zh) | 2013-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101297352B (zh) | 用于编码和解码音频信号的装置及其方法 | |
CA2613731C (en) | Apparatus for encoding and decoding audio signal and method thereof | |
US8494667B2 (en) | Apparatus for encoding and decoding audio signal and method thereof | |
CN101484935B (zh) | 用于编码和解码基于对象的音频信号的方法和装置 | |
CN101542597B (zh) | 用于编码和解码基于对象的音频信号的方法和装置 | |
AU2006301612B2 (en) | Temporal and spatial shaping of multi-channel audio signals | |
RU2407226C2 (ru) | Генерация пространственных сигналов понижающего микширования из параметрических представлений мультиканальных сигналов | |
JP4601669B2 (ja) | マルチチャネル信号またはパラメータデータセットを生成する装置および方法 | |
CN101543098B (zh) | 产生输出信号的去相关器和方法以及产生多声道输出信号的音频解码器 | |
CN101385075B (zh) | 用于编码/解码信号的装置和方法 | |
US20100076774A1 (en) | Audio decoder | |
CN108307272A (zh) | 音频信号处理方法和设备 | |
CA2554002A1 (en) | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal | |
CN104681030A (zh) | 用于编码/解码信号的装置和方法 | |
CN102859590A (zh) | 产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序 | |
CN101133680A (zh) | 用于产生音频片段或音频数据流的已编码立体声信号的装置及方法 | |
CN101243488B (zh) | 用于编码和解码音频信号的装置及其方法 | |
RU2393550C2 (ru) | Устройство и способ кодирования и декодирования звукового сигнала |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1127664 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1127664 Country of ref document: HK |