CN101044551B - 用于双声道提示编码方案和类似方案的单通道整形 - Google Patents
用于双声道提示编码方案和类似方案的单通道整形 Download PDFInfo
- Publication number
- CN101044551B CN101044551B CN2005800357018A CN200580035701A CN101044551B CN 101044551 B CN101044551 B CN 101044551B CN 2005800357018 A CN2005800357018 A CN 2005800357018A CN 200580035701 A CN200580035701 A CN 200580035701A CN 101044551 B CN101044551 B CN 101044551B
- Authority
- CN
- China
- Prior art keywords
- envelope
- keying
- voice
- passage
- transmission
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007493 shaping process Methods 0.000 title claims description 32
- 230000005540 biological transmission Effects 0.000 claims description 104
- 238000000034 method Methods 0.000 claims description 50
- 238000012512 characterization method Methods 0.000 claims description 34
- 230000001052 transient effect Effects 0.000 claims description 26
- 239000000203 mixture Substances 0.000 claims description 24
- 239000002131 composite material Substances 0.000 claims description 23
- 238000002156 mixing Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 10
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 abstract description 14
- 230000000875 corresponding effect Effects 0.000 description 45
- 230000005236 sound signal Effects 0.000 description 40
- 238000010586 diagram Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 240000006409 Acacia auriculiformis Species 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 1
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 description 1
- 241001633942 Dais Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Stereophonic System (AREA)
- Stereo-Broadcasting Methods (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Superheterodyne Receivers (AREA)
- Channel Selection Circuits, Automatic Tuning Circuits (AREA)
- Outer Garments And Coats (AREA)
- Time-Division Multiplex Systems (AREA)
- Electrophonic Musical Instruments (AREA)
- Steroid Compounds (AREA)
Abstract
Description
发明背景
相关申请的参考引用
本申请要求于2004年10月20日在美国提交的第60/620,480号临时申请的利益,其代理人号为Allamanche 2-3-18-4,其启示在此引入作为参考。
另外,本申请的主题涉及下面美国申请的主题,这里将其引入作为参考:
美国申请号为09/848,877,申请日为2001年5月4日,代理人号为Faller 5;
美国申请号为10/045,458,申请日为2001年11月7日,代理人号为Baumgarte 1-6-8,该美国申请要求了于2001年8月10日提交的第60/311,565号美国临时申请的利益;
美国申请号为10/155,437,申请日为2002年5月24日,代理人号为Baumgarte 2-10;
美国申请号为10/246,570,申请日为2002年9月18日,代理人号为Baumgarte 3-11;
美国申请号为10/815,591,申请日为2004年4月1日,代理人号为Baumgarte 7-12;
美国申请号为10/936,464,申请日为2004年9月8日,代理人号为Baumgarte 8-7-15;
美国申请号为10/762,100,申请日为2004年1月20日,(Faller 13-1);和
美国申请号为10/xxx,xxx,相同的申请日,代理人号为Allamanche 1-2-17-3;
本申请的主题还涉及下面论文的主题,在此将其引入作为参考:
F.Baumgarte和C.Faller,“Binaural Cue Coding-Part I:Psychoacoustic fundamentals and design principles”,IEEE Trans.On Speech and Audio Proc.,卷11,第6期,2003年11月;
C.Faller和F.Baumgarte,“Binaural Cue Coding-Part II:Schemes and applications”,IEEE Trans.On Speech and Audio Proc.,卷11,第6期,2003年11月;和
C.Faller,“Coding of spatial audio compatible with differentplayback formats”,Preprint 117th Conv.Aud.Eng.Soc.,2004年10月。
技术领域
本发明涉及音频信号的编码和从编码的音频数据的听觉场景的后续合成。
背景技术
当人听到由特定音源产生的音频信号(即,声音)时,所述音频信号通常会在两个不同的时间抵达人的左耳与右耳且具有两个不同的音频音量大小(例如,分贝),这些不同的时间和音量大小是路径中差异的函数,通过所述路径音频信号分别传播抵达左耳与右耳。人的大脑解读这些时间和音量大小的差异从而使人感觉到所接收的音频信号是由位于相对于所述人的特定位置(例如,方向与 距离)的音源所产生。听觉场景为一人同时听到的由位于相对于所述人的一个或多个不同位置的一个或多个不同音源所产生的音频合成串音。
通过大脑这样处理的存在可被用来合成听觉场景,其中来自一个或多个不同音源的音频信号可以目的性地修改以产生左边与右边音频信号,所述左边和右边音频信号使听者感觉到不同音源相对于所述听者位于不同的位置。
图1表示传统的立体声信号合成器100的高级框图,其将单一音源信号(例如,单声道信号)转换成立体声信号的左边与右边音频信号,其中立体声信号被定义为在听者的鼓膜处所接收的两个信号。除所述音源信号外,合成器100接收对应于相对听者的音源的期望位置的一组空间提示信号。在典型的实施中,所述这组空间提示信号包括通道间的电平差(ICLD)值(其辨识分别在左耳与右耳所接收的左与右音频信号间音频音量大小的差异),和通道间的时间差异(ICTD)值(其辨识分别在左耳与右耳所接收的左边与右边音频信号间抵达时间的差异)。此外或作为替换,一些合成技术包括用于从音源到耳膜的声音的方向依赖转移函数的建模,也可引用头部相关的转移函数(HRTF),参见例如,J.Blauert,ThePsychophysics of Human Sound Localization,MIT Press,1983,其在此引入以供参考。
使用图1的立体声信号合成器100,由单一音源所产生的单声道音频信号可被处理以便当通过耳机收听时,所述音源通过使用适当空间提示信号组(例如,ICLD、ICTD和/或HRTF)来为每一个耳朵产生音频信号,参见例如,D.R.Begault,3-D Sound for Virtual Realityand Multimedia,Academic Press,Cambridge,MA,1994。
图1的立体声信号合成器100产生最简单型式的听觉场景,它们相对于听者具有单一音源,包括相对于听者的位于不同位置的两个或多个音源的更复杂的听觉场景可使用听觉场景合成器被产生,所述听觉场景合成器通过使用多个立体声信号合成器而本质上被实施,其中每个立体声信号合成器产生对应于不同音源的立体声信号,因为每个不同音源相对于听者具有不同的位置,不同空间提示信号组被用来对每个不同音源产生立体声音频信号。
发明内容
依据一个实施例,本发明为用于编码音频通道的方法、设备与机器可读式媒介,一个或多个提示码被产生且传输用于一个或多个音频通道,其中至少一个提示码为在所述一个或多个音频通道中的一个通过特性化时序包络所产生的包络提示码。
依据本发明的另一实施例,本发明为用于编码C个输入音频通道以产生E个传输音频通道的设备,所述设备包括包络分析器、代码评估器(estimator)和下混器(downmixer),所述包络分析器特性化至少C个输入音频通道中的一个的输入时序包络。所述码评估器对所述C个输入通道的两个或多个产生提示码,且所述下混器下混所述C个输入通道以产生所述E个传输通道,其中C>E≥1,其中所述设备传输关于所述提示码的信息和所述特性化的输入时序包络以启动解码器以便在E个传输通道的解码期间执行合成和包络整形。
依据另一个实施例,本发明为由编码音频通道所产生的编码的音频比特流,其中一个或多个提示码被产生用于一个或多个音频通道,其中至少一个提示码是通过对所述一个或多个音频通道中的一个的时序包络进行特性化所产生的包络提示码,所述一个或多个提示码和对应于所述一个或多个音频通道的E个传输音频 通道,其中E≥1,被编码进所述编码的音频比特流。
依据另一个实施例,本发明为编码的音频比特流包括一个或多个提示码和E个传输音频通道。所述一个或多个提示码被产生用于一个或多个音频通道,其中至少一个提示码为所述一个或多个音频通道中的一个通过特性化时序包络所产生的包络提示码,所述E个传输音频通道对应于所述一个或多个音频通道。
依据另一实施例,本发明为用于解码E个传输音频通道以产生C个回放(playback)音频通道的方法、设备和机器可读取式媒介,其中C>E≥1。接收对应于所述E个传输通道的提示码,其中所述提示码包括包络提示码,所述包络提示码对应于E个传输通道的音频通道的特性化时序包络。上混(upmix)所述传输音频通道中的一个或多个以产生一个或多个上混音频通道,通过施加所述提示码至所述一个或多个上混音频通道合成C个回放通道中的一个或多个,其中所述包络提示码被施加至上频通道或合成信号以调整基于所述特性化时序包络的合成信号的时序包络,使得所述经调整的时序包络大体地匹配所述特性化时序包络。
附图说明
本发明的其它观点、特色与优点从以下详细描述、所附权利要求书与附图将变得更完全显明,其中附图中相同的参考编号视为相似或相同的组件。
图1为传统的立体声信号合成器的高级框图;
图2为一般双声道提示编码(BCC)音频处理系统的框图;
图3显示可被使用于图2的下混器的框图;
图4显示可被使用于图2的BCC合成器的框图;
图5依据本发明的实施例,显示图2中所述BCC评估器的框
图6说明用于五通道的ICTD和ICLD数据的生成;
图7说明用于五通道的ICC数据的生成;
图8显示图4的所述BCC合成器的实施的框图,其在单一传输总和信号s(n)加空间提示信号下可被使用于BCC解码器中以产生立体声或多通道音频信号;
图9说明ICTD与ICLD作为频率函数如何在基频带中被改变;
图10依据本发明的实施例显示时域处理的框图,其被附加至如图2的编码器的BCC编码器;
图11说明在图4中所述BCC合成器方面TP处理的例示时域应用;
图12(a)与(b)分别显示图10的TPA与图11的TP的可能实施,其中包络整形仅在频率高于截止频率fTP时被施加;
图13依据本发明的另一个可替换实施例显示被附加至BCC编码器如图2的编码器的频域处理的框图;
图14说明在图4的所述BCC合成器方面,TP处理的例示频域应用;
图15依据本发明的另一个可替换实施例显示被附加至BCC编码器如图2的编码器的频域处理的框图;
图16说明在图4的所述BCC合成器方面,TP处理的例示频域应用;
图17(a)-(c)显示图16的ITP与TP和图15与16的TPA的可能实施的框图;
图18(a)与(b)说明图16的操作所述控制方块的两个例示模式。
具体实施方式
在双声道提示编码(BCC)中,编码器编码C个输入音频通道以产生E个传输音频通道,其中C>E≥1,特别是C个输入音频通道中的两个或多个被提供于频域中,且一个或多个提示码被产生用于频域中两个或多个输入通道中的一个或多个不同频带的每一个,此外,所述C个输入通道被下混以产生E个传输通道。在一些下混实施中,至少一个所述E个传输通道基于所述C个输入通道中的两个或多个,且至少所述E个传输通道中的一个仅基于C个输入通道中的单一个音频通道。
在一个实施例中,BCC码器具有两个或多个滤波器库、一码评估器与一下混器,所述两个或多个滤波器库将所述C个输入通道中的两个或多个从时域转换到频域。所述码评估器产生一个或多个提示码用于所述两个或多个经转换的输入通道中一个或多个不同频带的每一个。下混器下混C个输入通道以产生E个传输通道,其中C>E≥1。
在BCC解码中,E个传输音频通道被解码以产生C个回放音频通道,特别是对一个或多个频带中的每一个,E个传输通道中的一个或多个在频域中被上混以在频域中产生C个回放通道中的两个或多个,其中C>E≥1。一个或多个提示码被施加至频域中所述两个或多个回放通道中的所述一个或多个不同频段的每一个以产生两个或多个经修改的通道,且所述两个或多个经修改的通道从频域被转换成时域。在一些上混实施中,至少C个回放通道中的一个基于至少E个传输通道中的一个和至少一个提示码,且至少C个回放通道中的一个仅基于E个传输通道的单一个且与任何提示码无关。
在一个实施例中,BCC解码器具有上混器、合成器和一个或多个反向滤波器库。对一个或多个不同频带中的每一个,所述上 混器在频域中上混E个传输通道中的一个或多个以便在频域中产生C个回放通道中的两个或多个,其中C>E≥1,所述合成器施加一个或多个提示码至频域中所述两个或多个回放通道中的所述一个或多个不同频段的每一个以便产生两个或多个经修改的通道。所述一个或多个反向滤波器库将所述两个或多个经修改的通道从频域转换成时域。
根据特别实施,指定的回放通道可基于单一传输通道,而不是两个或多个传输通道的结合,例如,当仅有一个传输通道,C个回放通道中的每一个基于所述一个传输通道。在这些情况下,上混对应所述相应的传输通道的复制。如此,对仅有一传输通道的应用,所述上混器可使用为每一回放通道复制传输通道的复制器而被实施。
BCC编码器和/或解码器可合并成许多的系统或应用,其包含,例如数字录像机/放影机、数字录音机/放音机、计算机、卫星发送器/接收器、有线发送器/接收器、陆地广播发送器/接收器、家用娱乐系统与电影剧院系统。
(一般BCC处理)
图2为普通的双声道提示编码(BCC)音频处理系统200的框图,包括编码器202与解码器204,编码器202包含下混器206和BCC评估器208。
下混器206转换C个输入音频通道xi(n)成E个传输音频通道yi(n),其中C>E≥1,在此说明书中,使用变量n表示的信号为时域信号,同时使用变量k表示的信号为频域信号。根据特别的实施,下混即可以在时域或者在频域中实施,BCC评估器208从C个输入音频通道产生且传输相对于E个传输音频通道作为或者在频带内或者在频带外辅助信息的BCC码。通常的BCC码包含通道间时间差(ICTD)、通道间电平差(ICLD)和评估作为频率与时间的函数的输入通道的某些对之间的通道间相关码(ICC)数据中的一个或多个。所述特别实施将指示在输入通道的特定对之间BCC码被评估。
ICC数据对应立体声信号的一致性,其关于所述音源的感觉的宽度。音源愈宽,所产生立体声信号的左边与右边音频通道间的一致性愈低。例如,对应传过一礼堂讲台的管弦乐队的立体声信号的一致性为通常较低于对应单一小提琴独奏的立体声信号的一致性。通常,具有较低一致性音频信号通常被感觉为在听觉空间中传播更远,如此,ICC数据通常为有关于听者环境的明显音源宽度与程度,见例如,J.Blauert,The Psychophysics of Human SoundLocalization,MIT press,1983。
根据特定应用,所述E个传输音频通道和对应的BCC码可直接被传输到解码器204或储存于储存装置的一些适当型式用于通过解码器204的后续存取,视所述情况而定,术语“传输”可参引为不是直接传输至解码器就是储存用于对解码器的后续供应,在任何情况下,解码器204接收传输音频通道与辅助信息且执行上混与使用BCC码的BCC合成以将E个传输音频通道转换成超过E个(通常,但不必须是,C)回放音频通道 用于音频回放,根据特定的实施,上混可或者在时域中或者在频域中被执行。
除图2中所示的BCC处理外,普通的BCC音频处理系统可含有额外的编码和解码阶段以进一步分别在编码器压缩音频信号且接着在解码器解压缩所述音频信号。这些音频码可基于传统的音频压缩/解压缩技术,如那些基于脉冲码调变(PCM)、差分PCM(DPCM)或适应性DPCM(ADPCM)。
当下混器206产生单一总和信号(即,E=1)时,BCC码能够在 比特率仅稍高于所需要表示的单声道音频信号来表示多通道音频信号。这是因为在通道之间所述经评估的ICTD、ICLD与ICC数据含有较音频波形少约两个数量级大小的信息。
不仅对BCC编码的低比特率,而且其后向兼容性方面也是所关心的。单一传输总和信号对应于原始的立体声或多通道信号的单声道下混。对于不支持立体声或多通道音频重现的接收器,倾听传输总和信号是在低级的单声道再现设备上呈现所述音频素材的正确方法,BCC编码可因此也被使用以提升包括向多通道音频传输单声道音频素材的现有服务,例如,现有单声道音频无线广播系统可被提升用于立体声或多通道回放,假如BCC辅助信息可被嵌入到现有传输通道中。类似能力存在于当下混多通道音频至对应的立体声的两个总和信号。
BCC处理具有某一时间与频率分辨率的音频信号,所使用的所述频率分辨率主要由人体听觉系统的频率分辨率所引起,音质暗示的空间感觉最有可能基于所述声响输入信号的临界(critical)频带表示。此频率分辨率通过使用具有频宽等于或与人体听觉系统的临界频宽成正比的基频带的可反向滤波器库(例如,基于快速傅立叶转换(FFT)或正交镜像滤波器(QMF))被考虑。
(一般下混)
在较佳实施中,所述传输总和信号包含所述输入音频信号的全部信号成份。目标为每一个信号成份被完全保持。所述音频输入音频通道的简单总和导致信号成份的放大或衰减,换句话说,在“简单”总和中信号成份的功率经常是大于或小于每一个通道的对应信号成份的功率总和。下混技术可被使用,其使所述总和信号均衡,以便使得在总和信号中的信号成份的功率为大约相等于在全部输入通道中的对应功率。
图3显示一下混器300的框图,其可依据BCC系统200的特定实施被使用于图2的下混器206。下混器300具有滤波器库(FB)302用于每个输入音频通道xi(n)、下混区块304、可选择的校准(scaling)/延迟区块306和反向FB(IFB)308用于每个编码音频通道yi(n)。
每一滤波器库302将时域中相应的数字输入音频通道xi(n)的每一框架(例如,20msec)转换成频域中一组输入系数 下混区块304将C个相应的输入系数的每一基频带下混成E个经下混频域系数的相应基频带。方程式(1)表示输入系数 的第k个(kth)基频带的下混以产生经下混系数 的第k个(kth)基频带如下:
其中DCE为一真实数值的从E到C(C-by-E)的下混矩阵。选择的校准/延迟区块306包括一组乘法器310,每一个乘法器以一校准因子ei(k)乘上相应的经下混的系数 以产生相应的校准的系数 用于校准操作的动机为相等于对每一个通道用于以任意加权因子下混所一般化的平等化。如果输入通道为独立的,接着每一基频带的经下混的信号的功率 以如下方程式(2)得到:
假如基频带不是独立的,接着所述经下混信号的功率值 将大于或小于使用第(2)式所计算得值,由于当信号成份分别是同相或不同相时信号放大或取消。为避免如此,第(1)式的下混操作接着以乘法器310的校准操作被施加到基频带中。校准因子ei(k)(1≥i≥E)可由第(3)式得出如下:
除去或者用可选择的校准替代之外,校准/延迟区块306可选择地对信号施加延迟。
虽然图3显示输入音频通道的全部C被转换成频域用于后续下混,在一个替代实施中,C个输入通道中的一个或多个(但少于C-1)可避开图3中所显示的所述操作的一些或全部且可被传输作为未修改的音频通道的相等数量。根据所述特别实施,这些未修改的音频通道可以或不可以通过图2的BCC评估器208用于产生传输BCC码。
在下混器300的实施中其产生单一总和信号y(n),E=1,且每一个输入通道c的每一基频带的信号 被加入且接着乘以因子e(k),依据如下的第(4)式:
因子e(k)从如下的第(5)式得到:
(一般BCC合成)
图4显示BCC合成器400的框图,其依据BCC系统200的某些实施可被使用于图2的解码器204,BCC合成器400具有滤波器库402用于每一个传输通道yi(n),上混区块404,延迟器406,乘法器408,相关区块410和反向滤波器库412用于每一个回放通道
每一个滤波器库402将时域中相应的数字的、传输通道yi(n)的每一个框架转换成频域中一组输入系数 上混区块404将E个相应的传输通道系数中的每一个基频带上混成C经上混频域系数的一相应的基频带,方程式(4)表示传输通道系数 的第k个基频带的上混以产生如下的上混系数 的第k个基频带:
其中UEC为一真实数值由C到E(E-by-C)的上混矩阵,在频域中执行上混使上混能被独立地施加于每一个不同的基频带。
每一个延迟器406施加基于用于ICTD数据的相应的B CC码的延迟值di(k)以确保所要的ICTD值出现于回放通道的某些对中。每一个乘法器408施加基于用于ICLD资料的相应的BCC码的校准因子ai(k)以确保所要的ICLD值出现于回放通道的某些对中。相关区块410执行基于用于ICC数据的相应的BCC码的去相关(decorrelate)操作A以确保所要的ICC值出现于回放通道的某些对中。相关区块的操作的进一步描述可见2002年5月24日作为Baumgarte 2-10提交的美国第10/155,437号专利申请。
ICLD值的合成比ICTD和ICC值的合成容易一些,因为ICLD合成仅涉及基频带信号的校准,因为ICLD提示信号为最通常使用的方向性提示信号,ICLD值接近原始音频信号的所述这些值是通常更重要的。如此,ICLD数据可被评估在全部通道对之间。对每一基频带的校准因子ai(k),(1≤i≤C)最好被选取使得每一个回放通道的基频带功率接近原始输入音频通道的相应的功率。
一个目标可施加相对少的信号修改用以合成ICTD和ICC值,这样,所述BCC值可不包含用于全部通道对的ICTD和ICC值,在所述情形中,BCC合成器400将仅在某些通道对之间合成ICTD和ICC值。
每一个反向滤波器库412将一组频域中的相应的经合成系数 转换成相应的数字的、回放通道 的框架。
虽然图4显示全部E个传输通道被转换成频域用于后续上混与BC C处理,在另外实施中,所述E个传输通道中的一个或多个(但非全部)可避开图4所示的处理的一些或全部。例如,传输通道的一个或多个可以是未修改的通道,其未接受任何上混。除了作为C个回放通道中的一个或多个之外,这些未修改的通道,轮流地,可以是但不必须被用作为参考通道,其BCC处理被施加给合成其它回放通道中的一个或多个。在任一情形中,这些未修改的通道可受到延迟以补偿包括上混的操作时间与/或用以产生其余回放通道的BCC操作。
注意的是,虽然图4显示C个回放通道自E个传输通道被合成,其中,C也为原始输入通道的数目,BCC合成不限于回放通道的所述数目,通常,回放通道的数目可以是通道的任何数目,包含数目大于或小于C和可能甚至当回放通道的数目是等于或小于传输通道数目的情形。
(介于音频通道之间的“感觉上相对差异”)
假设单一总合信号,BCC合成立体声或多通道音频信号使得ICTD、ICLD和ICC接近原始音频信号的相应的提示信号,以下,关于音频空间影像属性的ICTD、ICLD和ICC的作用将予讨论。
关于空间听觉的知识包含有对于一个听觉事件,ICTD和ICLD与感觉方向是相关的。当考虑到音源的立体声空间脉冲响应(BRIRs)时,在听觉事件的宽度和听者包封和为BRIRs的早期和后期部分评估的ICC数据之间具有关系。然而,在ICC和这些普通信号(和不只是BRIRs)的性质之间的关系不是直接的。
立体声和多通道音频信号通常包含同步主动源信号的复杂混合,所述主动源信号是从围绕空间中录音所产生的经反射信号成份所迭加,或用于人工生成的空间印象的录音工程师所赋加,不同的 音源信号与它们的反射占据时间-频率平面中的不同区域。此由ICTD、ICLD与ICC所反映,其作为时间与频率的函数而改变。在此情形下,瞬时现象ICTD、ICLD和ICC和音频事件方向与空间印象间的关系是不明显的。某些BCC实施例的策略是不明显地合成这些提示信号,以便使它们接近原始音频信号的相应的提示信号。
具有基频带频宽等于两倍相等矩形频宽(ERB)的滤波器库被使用。非正式的倾听会泄漏当选取较高频率分辨率时BCC的音频质量未显著改善,较低频率分辨率可为需求的,因为它导致较少ICTD、ICLD与ICC值需要被传输至解码器,且因此以较低比特率传输。
关于时间分辨率,ICTD、ICLD和ICC为通常在固定时间间距下被考虑,当ICTD、ICLD与ICC以约每4到16ms被考虑时,可得到高性能。注意的是,除非所述提示信号在非常短的时间间隔被考虑,先前效果未直接考虑,假设音频刺激的典性领先-落后对,假如所述领先和落后位于时间间隔仅一组提示信号被合成,则所述领先的局部化优势未被考虑。虽然如此,BCC达到音频质量以平均MUSHRA分数反映为平均约87(即,“极佳”音频质量),且对某些音频信号高到接近于100。
参考信号与经合成信号间的所述经常得到的感觉上小差异暗示关于宽度范围的音频空间影像属性的提示信号为暗示性地在固定时间间隔被合成ICTD、ICLD和ICC所考虑。以下,一些论点对于ICTD、ICLD和ICC可如何与音频空间影像属性的范围有关。
(空间提示信号的评估)
以下中,将描述ICTD、ICLD和ICC如何被评估,用于这些(经量化的与编码的)空间提示信号的传输比特率可为刚好为几个kb/s并因此,使用BCC,它可能在比特率接近对单一音频通道的要求 下传输立体声与多通道音频信号。
图5显示依据本发明,图2的BCC评估器208的框图,BCC评估器208包括滤波器库(FB)502,其可与图3的滤波器库302相同,和评估区块504其对由滤波器库502所产生的每一个不同频率产生ICTD、ICLD与ICC空间提示信号。
(用于立体声信号的ICTD、ICLD和ICC的评估)
ICTD[例子]
具有由以下第(8)式得到的经标准化交叉相关函数的短时间评估。
其中
d1=max{-d,0} (9)
d2=max{d,0}
ICLD[dB]
ICC
注意经标准化交叉相关的绝对值被考虑且c12(k)具有[0,1]的范 围。
(用于多通道音频信号的ICTD、ICLD和ICC的评估)
当有超过两个输入通道,它通常足以在参考通道间限定ICTD和ICLD(例如,音频通道号码1)与其它通道,如图6中所说明用于C=5个通道的情形,其中τ1c(k)与ΔL2(k)在参考通道1与通道c之间分别指示ICTD与ICLD。
与ICTD和ICLD相反的,ICC通常具有较多自由度,所限定的ICC在所有可能的输入通道对之间具有不同的值,对C个通道而言,具有C(C-1)/2个可能的音频通道对,例如,对5个通道会有如图7(a)中所例示的10个通道对,然而,这些方式需要在每一时间索引对每一基频带评估且传输C(C-1)/2个ICC值,导致高计算复杂度与高比特率。
或者,对每一基频带,实施ICTD与ICLD决定基频带中相应的信号成份的音频事件的方向。每基频带的单一ICC参数可接着被用于描述全部音频通道间的整体一致性,良好的结果可通过仅在每一时间索引的每一基频带中具有最多能量的两个音频通道间评估和传输ICC提示信号而得到,此例示于图7(b)中,其中时间瞬间k-1与k的所述通道对(3,4)与(1,2)分别为最强。启发式规则可被用于在其它通道对间决定ICC。
(空间提示信号的合成)
图8显示图4的BCC合成器400的实施框图,其在给单一传输总和信号s(n)加空间提示信号下,可被使用于BCC解码器中以产生立体声或多通道音频信号,总和信号s(n)被分解成基频带,其中 指示这些基频带,为产生每一个输出通道的相应的基频带,延迟dc校准因子ac与滤波器hc被施加至总和信号的相应的基频带,(为简化表示,时间索引k在延迟、校准因子和滤波器中被省 略),ICTD通过加上延迟,ICTD通过校准和ICC通过施加去相关滤波器被合成,图8中所示的处理被独立地施加至每一基频带。
(ICTD合成)
延迟dc从ICTDs τ1c(k)被决定,依据如下第(12)式:
用于参考通道的延迟d1被计算使得延迟dc的最大数量被最小化,越少基频带信号被修改,越少的人为危害产生,假如基频带取样率对ICTD合成未提供够高的时间分辨率,延迟可通过使用合适的全通滤波器更准确地被加于其上。
(ICLD合成)
为使输出基频带信号在通道c和参考通道1具有所要的ICLDsΔL12(k),增益因子ac应所述满足如下第(13)式:
此外,输出基频带最好被标准化使得全部输出通道的功率与输入总和信号的功率相等。因为在每一基频带中的全部原始信号功率被保存在总和信号中,在绝对基频带功率中的此标准化结果对每一个输出通道接近原始编码器音频信号的相应的功率,在这些限制下,校准因子ac由以下第(14)式得到。
(ICC合成)
在某些实施例中,ICC合成的目标为在延迟后的基频带间降低相关且校准已被施加,而不会影响ICTD和ICLD。此可通过设计图8中的滤波器hc而达到,使得ICTD和ICLD如同一频率函数有效地被改变,使得在每一基频带(音频临界频带)中平均变异为0。
图9说明ICTD和ICLD如何在一基频带中如同频率函数被改变,ICTD和ICLD变异的振幅决定去相关的程度且如同ICC函数被控制,注意ICTD被平缓地改变(如图9(a)),同时ICLD被任意改变(如图9(b)),可如同ICTD平缓般地变化ICLD,但此将导致音频信号产生更多的声染色。
用于合成ICC的另一方法,特别适合于多通道ICC合成,被更详细描述于C.Faller,“Parametric multi-channel audio coding:Synthesis ofcoherence cues,”IEEE Trans.on Speech and Audio Proc.,2003,其启示被并入于此以供参考,作为时间和频率的函数,人为后期回声(late-reverberation)的特定量被加于每一个输出通道用以获得想要的ICC,另外,频谱修改可被施加以使得产生信号的频谱包络接近原始音频信号的频谱包络。
其它用于立体声信号(或音频通道对)的相关与不相关的ICC合成技术已发表于E.Schuijers,W.Oomen,B.den Brinker,and J.Breebaart,“Advances in parametric coding for high-quality audio,”in Preprint 114th Conv.Aud.Eng.Soc.,Mar.2003,and J.Engdegard,H.Purnhagen,J.Roden,and L.Liljeryd,“Synthetic ambience in parametric stereo coding,”in Preprint 117th Cov.Aud.Eng.Soc.,May 2004,二者的启示并入于此以供参考。
(C-to-E BCC)
如先前描述,BCC可以超过传输通道被实施,BCC的变形已被描述,其代表C个音频通道并非为单一(传输)通道,但作为E个音频通道,标示为C-to-E BCC。对C-to-E BCC至少有两个动机:
具备传输通道的BCC提供向后(backwards)可兼容路径用以升级现有的单声道系统用于立体声或多通道音频回放,所述经升级的系统通过现有的单声道架构传输BCC下混总和信号,从C到E(C-to-E)的BCC可施加至E-通道向后可兼容的C-通道音频的编码。
从C到E的BCC以传输通道数目的不同程度的减少引进校准。可以预期当更多的音频通道被传输会有更佳的音频质量。
对从C到E的BCC的信号处理细节,诸如如何定义ICTD、ICLD和ICC提示信号,被描述于2004年1月20日的美国第10/762,100号专利申请中(Faller 13-1)。
(单独音频通道整形)
在某些实施例中,具有传输音频通道的BCC和从C到E的BCC二者涉及对ICLD、ICTD和/或ICC合成的算法,通常,约每4至30ms为足够合成ICTD、ICLD和/或ICC,然而先前效果的感觉现象暗示当人体听觉系统以较高时间分辨率评估提示信号时,(例如,每1至10ms)具有特定时间瞬间。
单一静态滤波器库在时间瞬间通常不能提供够高的频率分辨率,适于大多数的时间瞬间,同时当先前效果变得有效时,在时间瞬间提供足够高的时间分辨率。
本发明的某些实施例被导向至使用相当低时间分辨率ICTD、ICLD和/或ICC合成,同时加上额外的处理以当需要较高时间分辨率时强调时间瞬间,此外,在某些实施例中,所述系统免除对信号适应性窗切换技术的需求,其通常是难以集成到系统架构中,在某些实施例中,一个或多个原始编码器输入音频通道的时序包络被评估。此可被完成,例如直接以信号时间架构的分析或通过检验信号频谱在时间上的自动相关,两种方法将于后续实施例中 进一步说明,包含于这些包络的信息被传输至解码器(如包络提示码),假如感觉上需要且有利的话。
在某些实施例中,解码器施加某些处理以增加这些想要的时序包络到其输出通道上。
此可通过TP处理被实现,例如以信号的时域样本与时间变化振幅修改函数相乘的所述信号包络操作,相似的处理可被施加至空间的/基频带样本,假如所述基频带的时间分辨率为充份够高的话(以粗糙频率分辨率为代价)。
另外地,在频率上的所述信号频谱表示的卷积/滤波可以按照类似在先前技术中所使用的方式而被使用,用于低比特率音频编码器的量化噪声整形或用于提升强度立体声经编码的信号。此为较佳的,假如所述滤波器库具有高频分辨率且因此相当低的时间分辨率。对卷积/滤波方法:
包络整形方法从强度立体声被延伸至C-to-E多通道编码。
所述技术包括设置其中包络整形以由编码器所产生的参数信息(例如,二元标记)控制,但使用解码器导出的滤波器系数组真正被执行。
在另一设置中,滤波器系数组从编码器被传输,例如仅当感觉上必须和/或有益时。
相同的对时域/基频带域方式也为真实的,因此,临界值(例如,瞬时现象探测与语音评估)可被导入额外地控制包络信息的传输。
当它是有利的关闭所述TP处理以避免潜在人为影响的情形时。为了安全,良好的策略是以不执行使所述瞬时现象处理关闭(即,BCC将依据传统的BCC方式操作),额外的处理仅当它被预期所述通道的较高瞬时现象分辨率产生改善时,例如,当它被预期先前效果变得活跃时被开启。
如先前所描述,此开启/关闭控制可通过瞬时现象探测被实现。即是,假如瞬时现象被测得,接着TP处理被启动。所述先前效果对瞬时现象为最有效的。瞬时现象探测可预测(look-ahead)被使用以有效地整形不仅单一瞬时现象而且在所述瞬时现象前或后不久的信号成份。探测瞬时现象的可能方式包含:
观察BCC编码器输入信号或传输BCC总和信号的时序包络,假如在功率上有突然的增加,接着瞬时现象发生。
检验所述线性预测编码(LPC)增益如在编码器或解码器中所评估的,假如LPC预测增益超过某个临界值,它可被假定为所述信号为瞬时现象的或高度波动。LPC分析在频谱的自动相关上被计算。
另外,为避免在音调信号中可能的人为影响,当经传输总和信号的音调为高时TP处理最好为未施加。
依据本发明的某些实施例,单独原始音频通道的时序包络在BCC编码器被评估以启动BCC解码器产生具有时序包络类似(或感觉上类似)原始音频通道的时序包络的输出通道,本发明的某些实施例着眼在先前效果现象。本发明的某些实施例包括除其它BCC码,如ICLD、ICTD和/或ICC外,包络提示码的传输,作为所述BCC辅助信息的部分。
在本发明的某些实施例中,用于时序包络提示信号的时间分辨率比其它BCC码(例如,ICLD、ICTD、ICC)的时间分辨率细致,此使包络整形能在以合成窗所提供的所述时段内被执行,所述合成窗相应于输入通道的区块长度,其中由所述输入通道其它BCC码被导出。
(实施例)
图10显示依据本发明的实施例被加至BCC编码器,如图2 的编码器202的时域处理的框图,如图10(a)中所示,每一个瞬时现象处理分析器(TPA)1002评估不同原始输入通道xc(n)的时序包络,虽然通常所述输入通道中的任意一个或多个可被分析。
图10(b)显示TPA1002的一个可能以时域基础的实施的框图,其中输入信号样本被平方(1006)且接着被低通滤波(1008)以特性化所述输入信号的时序包络,在另一个实施例中,所述时序包络使用自动相关/LPC方法或使用其它方法例如Hilbert转换被评估。
图10(a)的区块1004在传输前参数化、量化且编码所述评估的时序包络作为瞬时现象处理(TP)信息(即,包络提示码),其被包含于图2的辅助信息中。
在一个实施例中,区块1004中的探测器(未显示)决定是否在解码器的TP处理将改善音频质量,以便使区块1004仅在所述这些时间当音频质量通过TP处理将被改善时立即传输TP辅助信息。
图11说明图4中BCC合成器400方面TP处理的示例性时域应用,在此实施例中,具有单一传输的总和信号s(n),C个基础信号通过复制所述总和信号被产生,且包络整形被单独施加至不同的合成通道。在另一个实施例中,延迟、校准和其它处理的顺序可以是不同的。而且,在另一个实施例中,包络整形不限于独立处理每一个音频通道,此为卷积/滤波基础的实施为特别真实的,其利用整个频带的一致性以在信号瞬时现象微细结构上导出信息。
在图11(a)中,解码1102从BCC编码器所接收的传输TP辅助信息对每一个输出通道回复时序包络信号a,且每一个TP区块1104施加相应的包络信息以整形所述输出通道的包络。
图11(b)中显示TP1104的可能时域基础的实施框图,其中所述经合成的信号样本被平方(1106),且接着低通滤波(1108)以特性 化所述经合成的通道的时序包络,校准因子(例如,sqrt(a/b))被产生(1110)且接着施加(1112)至所述经合成的通道以产生一具有一时序包络的输出信号,所述输出信号为大体上相等于相应的原始输入通道的信号。
在图10的TPA1002和图11的TP1004的另一个实施中,时序包络使用量值操作而不是通过平方信号样本而被特性化,在这些实施中,a/b比例可被使用为校准因子而不必使用平方根操作。
虽然图11(b)的校准操作相应的TP处理时域基础实施,TP处理(与TPA与反向TP(ITP)处理)也可使用频域信号被实施,如图16-17的实施例(下面描述的),这样,为本说明书的目的,术语“校准功能”应被解读涵盖不是时域或频域操作,如图17(b)和(c)的滤波操作。
通常,每一个TP1004优选被设计,以便使它不会修改信号功率(即,能量)。根据所述特定实施,此信号功率可以是每一个音频通道中的短时间平均信号功率,例如,在以合成窗或一些其它合适的功率量测所定义的时域中每音频通道的全部信号功率,如此,用于ICLD合成的校准(例如,使用乘法器408)可于包络整形的前后被施加。
因为所述BCC输出信号的全频带校准可产生人为影响,包络整形可仅在特定频率被施加,例如,频率大于某个截止频率fTP(例如,500Hz),注意用于分析(TPA)的频率范围可不同于用于合成(TP)的频率范围。
图12(a)和(b)显示图10的TPA1002和图11的TP1104的可能的实施,其中包络整形可仅在高于截止频率fTP的频率上被施加,特别地,图12(a)显示高通滤波器1202的附加,其在时序包络特性化前过滤低于fTP的频率,图12(b)显示在两个基频带间具有截止 频率fTP的双带滤波器库1204的附加,其中仅高频部分被瞬时现象地整形,双带反向滤波器库1206接着再结合低频部分与瞬时现象整形的高频部分以产生输出通道。
图13显示依据本发明的实施例的频域处理框图,其被附加至BCC编码器,如图2的编码器202如图13(a)中所示,每一个TPA1302的处理被分别施加于不同基频带中,其中每一个滤波器库(FB)和图3的相应的FB302相同且区块1304为类似图10的区块1004的基频带实施。在另一个实施中,用于TPA处理的基频带可不同于BCC基频带,如图13(b)中所示,TPA1302可类似图10的TPA1002被实施。
图14说明图4的BCC合成器400方面TP处理的例示频域应用,解码1402类似图11的解码1102,且每一个TP1404为类似图11的每一个TP1104的基频带实施,如图14(b)中所示。
图15显示依据本发明的另一个实施例被附加至BCC编码器,如图2的编码器202的频域处理框图。此方式具有以下设立,用于每一个输入通道的包络信息通过横跨频率(1502)、参数化(1504)、量化(1506)的计算被导出,且通过编码器编码成比特流(1508),图17(a)说明图15的TPA1502的实施例,此欲传输至多通道合成器(解码器)的辅助信息可为通过自动相关方法所计算的LPC滤波器系数所产生的反射系数或线频谱对等,或为了保持所述辅助信息数据率为小的,从例如,LPC预测增益像“瞬时现象存在/不存在”二元标记导出的参数。
图16说明图4中BCC合成器400方面TP处理的另一个例示性频域应用,图15的编码处理与图16的解码处理可被实施以形成编码器/解码器外形的匹配对,解码区块1602为类似于图14的解码区块,且每一个TP1604类似于图14的每一个TP1404在这些 多通道合成器中,传输TP辅助信息被解码且使用以控制单独通道的包络整形,此外,然而,所述合成器包含包络特性器阶段(TPA)1606用于所述传输总和信号的分析,反向TP(ITP)1608用于平坦化每一个基础信号的时序包络,其中包络调整器(TP)1604将经修改的包络施加于每一个输出通道,根据所述特定实施,ITP可在不是上混前就是上混后被施加,详细地,此使用卷积/滤波方式被完成,其中包络整形通过施加LPC基础滤波器于跨越频率的频谱如用于TPA、ITP与TP处理的图17(a)、(b)、(c)所例示被完成,在图16中,控制区块1610决定是否包络整形将被实施,且如果这样的话,是否它将基于(1)传输TP辅助信息或(2)从TPA1606所述局部特性化包络数据。
图18(a)和(b)说明图16的操作控制区块1610的两个示例模式,在图18(a)的实施中,一组滤波器系数被传输至解码器,且由卷积/滤波的包络整形基于传输系数被完成,假如瞬时现象整形被编码器探测为非有益的话,接着无滤波器数据被送出且滤波器被关闭(在图18(a)通过切换至单一滤波器系数组“[1,0...]”)。
在图18(b)的实施中,仅“瞬时现象/非瞬时现象标记”对每一个通道被传输且此标记被用以激活或无效在解码器中基于从传输下混信号所计算的滤波器系数组的整形。
(另外可替换实施例)
虽然本发明已就BCC编码方面被描述,其中具有单一总和信号,本发明也可在具有两个或多个总和信号的BCC编码方面被实施,在此情形下,用于每一个不同“基础”的总和信号的时序包络可于施加BCC合成前被评估,且不同的BCC输出通道可基于不同的时序包络被产生,根据总和信号被用以合成不同输出通道,输出通道从两个或多个总和通道被合成可基于有效的时序包络被 产生,所述时序包络将所述构成总和通道的相对效果列入考虑(例如,通过加权平均)。
虽然本发明已描述了涉及ICTD、ICLD和ICC码的BCC码的方面,本发明也可在仅涉及这三种码(例如,ICLD、ICC而非ICTD)类型中的一个或两个的BCC码方面实施和/或额外码类型中的一个或多个,而且,BCC合成处理的顺序与包络整形可在不同实施中变化,例如,当包络整形被施加至频域信号,如图14与16,包络整形可于ICTD合成(于那些使用ICTD合成的实施例中)后但先于ICLD合成另外被实施,在其它实施例中,包络整形于任何其它BCC合成被施加前可被施加至上混信号。
虽然本发明已描述了从原始输入通道产生包络提示码的BCC编码器的方面,所述包络提示码可从相应的原始输入通道的下混通道被产生,此将启动处理器(例如,分离包络提示编码器)的实施,其能(1)接收产生下频通道与某些BCC码的编码器BCC的输出(例如,ICLD、ICTD和/或ICC),和(2)特性化经下混通道中的一个或多个的时序包络以加入包络提示码至BCC辅助信息。
虽然本发明已描述了在BCC编码方案的内容,其中包络提示码以一个或多个通道和其它BCC码被传输。在另一个实施例中,所述包络提示码可以不是单独就是与其它BCC码一同被传输至一个地方(例如,解码器或储存装置),该地方已具有传输通道和可能的其它BCC码。
虽然本发明已在BCC编码方案方面进行了描述,本发明也可在其它音频处理方面实施,其中音频信号被去相关或需要去相关信号的其它音频处理。
虽然本发明已在实施方面进行了描述,其中编码器在时域中接收输入音频信号,且在时域中产生传输音频信号,且解码器在 时域中接收传输音频信号,且在时域中产生回放音频信号,本发明不限于此,例如,在其它实施中,任意一个或多个输入、传输和回放音频信号可被表示于频域中。
BCC编码器和/或解码器可与多种不同应用或系统连接或被并入多种不同应用或系统中,包含用于电视或电子音乐发布、电影院、广播、流向和/或接收的系统,这些包含系统用于编码/解码传输通过,例如,地面、卫星、有线电视、因特网、网间网络或物理媒介(例如,磁盘、数字磁盘、半导体芯片、硬盘、记忆卡和相类物),BCC编码器和/或解码器也可被使用于游戏与游戏系统中,包含,例如,想要与娱乐用的使用者互动的交互式软件产品和/或可被出版用于多项机器、平台或媒介的教育,进而BCC编码器和/或解码器可被并入于PC软件应用,其是结合数字解码(例如,播放机、解码器)和结合数字编码能力的软件应用(例如,编码器、录音器、自动点唱机)。
本发明可以以基于电路的制程被实现,包含作为单一集成电路(如,ASIC或FPGA)、多芯片模块、单一卡片或多卡电路组的可能的实施,其对本领域技术人员电路组件的各种功能也可如软件程序的处理步骤被实施将是明显的,这些软件也可被使用于例如,数字信号处理器、微控制器或一般计算机。
本发明也可具体表现在方法和用以实施这些方法的设备中,本发明也可被具体实施在包含在实体媒介的程序代码中,如磁盘、CD-ROMs、硬盘或任何其它机器可读取储存媒体,其中当程序代码被加载且通过机器如计算机执行,所述机器变成用以实施本发明的设备,本发明也可被具体表现于程序代码,例如,是否储存在储存媒体、通过机器加载或执行或传输经过一些传输媒体或载体,如以电线或有线、通过光纤或通过电磁辐射,其中,当程序 代码通过机器如计算机被加载和执行,所述机器变成用以实施本发明的设备,当在一般处理器上实施时,所述程序代码区段结合所述处理器用以提供特殊装置,其操作为类似于特定逻辑电路。
它将进而了解到在细节、材料与已描述和说明以便解释本发明的本质的零件配置上的各种变化,对本领域技术人员来说,可无需脱离本发明表示在以下的权利要求书而实现。
虽然以下方法权利要求书中的步骤,若有的话,可以特定顺序和相应的标示被详述,除非所述权利要求书详述另外暗指特定顺序用以实施这些步骤的一些或全部,这些步骤不必被限定为以所述特定顺序被实施。
Claims (35)
1.一种用于编码音频通道的方法,所述方法包括:
为一个或多个音频通道产生两个或多个提示码,其中至少一个提示码是在一个或多个音频通道中的一个音频通道中,通过对时序包络进行特性化所产生的包络提示码,其中所述两个或多个提示码还包括一个或多个的通道间相关(ICC)码、通道间电平差(ICLD)码与通道间时差(ICTD)码,其中与所述包络提示码相关联的第一次分辨率,比与其他提示码相关联的第二次分辨率更精细;及
传输所述两个或多个提示码。
2.如权利要求1所述的方法,还包括传输对应于一个或多个音频通道的E个传输音频通道,其中E≥1。
3.如权利要求2所述的方法,其中:
所述一个或多个音频通道包括C个输入音频通道,其中C>E;及
所述C个输入音频通道被下混以产生E个传输音频通道。
4.如权利要求1所述的方法,其中所述两个或多个提示码被传输以使解码器在基于两个或多个提示码的E个传输音频通道解码期间实施包络整形,其中E个传输音频通道对应所述一个或多个音频通道,其中E≥1。
5.如权利要求4所述的方法,其中所述包络整形调整通过解码器产生的合成信号的时序包络,与在所述一个或多个音频通道中的一个音频通道中进行特性化以产生包络提示码的所述时序包络匹配。
6.如权利要求1所述的方法,其中所述时序包络仅对于相应的音频通道的特定频率被特性化。
7.如权利要求1所述的方法,其中所述时序包络仅对于相应的音频通道的频率高于特定截止频率时被特性化。
8.如权利要求1所述的方法,其中还包括决定是否启动或关闭所述特性化。
9.如权利要求8所述的方法,还包括产生与传输启动/关闭标记,所述标记基于在对对应于所述一个或多个音频通道的E个传输音频通道解码期间指示解码器是否进行包络整形的决定,其中E≥1。
10.如权利要求8所述的方法,其中所述决定基于分析音频通道以探测音频通道中的瞬时现象,以便如果探测到瞬时现象启动所述特性化。
11.如权利要求1所述的方法,其中产生所述包络提示码的步骤包括对所述音频通道的信号样本或所述音频通道的基频带信号进行平方(1006)或者形成一个量值和对所述音频通道的所述信号样本或所述音频通道的基频带信号进行低通滤波(1008),以便将所述时序包络在所述一个或多个音频通道中的一个音频通道中特性化。
12.如权利要求1或11所述的方法,其中所述产生步骤还包括对所述在所述一个或多个音频通道中的一个音频通道中的时序包络进行参数化、量子化和编码。
13.用于编码音频通道的设备,所述设备包括:
用于对一个或多个音频通道产生两个或多个提示码的装置,其中至少一个提示码是通过在一个或多个音频通道中的一个音频通道,对时序包络进行特性化所产生的包络提示码,其中所述两个或多个提示码还包括一个或多个的通道间相关(ICC)码、通道间电平差(ICLD)码与通道间时差(ICTD)码,其中与所述包络提示码相关联的第一次分辨率,比与其他提示码相关联的第二次分辨率更精细;及
用于传输关于所述两个或多个提示码信息的装置。
14.如权利要求13所述的设备,
其中,所述设备可操作用于对C个输入音频通道进行处理,
其中产生装置包括包络分析器,其适用于特性化所述C个输入音频通道中的一个通道的所述时序包络;
其中产生装置还包括代码评估器,其适用于为所述C个输入音频通道的两个或多个音频通道产生所述提示码;及
所述设备还包括下混器,其适用于下混所述C个输入音频通道,以便产生E个传输音频通道,其中C>E≥1,
其中所述传输装置适用于传输关于所述两个或多个提示码的所述信息以启动解码器在E个传输音频通道解码期间进行合成和包络整形。
15.如权利要求14所述的设备,其中所述设备为从由数字录像机、数字音频录音机、计算机、卫星发送器、有线发送器、陆地广播发送器、家用娱乐系统与电影剧院系统组成的组中选出的系统;及
所述系统包括包络分析器、代码评估器与下混器。
16.用于解码E个传输音频通道以产生C个回放音频通道的方法,其中C>E≥1,所述方法包括:
接收对应于所述E个传输音频通道的两个或多个提示码,其中所述两个或多个提示码包括包络提示码,所述包络提示码对应于相应于所述E个传输音频通道的音频通道的特性化的时序包络,其中所述两个或多个提示码还包括一个或多个的通道间相关(ICC)码、通道间电平差(ICLD)码与通道间时差(ICTD)码,其中与所述包络提示码相关联的第一次分辨率,比与其他提示码相关联的第二次分辨率更精细;
上混所述E个传输音频通道中的一个或多个,以产生一个或多个上混通道;及
通过将所述提示码施加至所述一个或多个上混通道,合成C个回放音频通道中的一个或多个,或者通过所述合成获得合成信号,其中所述包络提示码被施加至上混通道或合成信号,以调整基于所述特性化的时序包络的所述上混通道或者所述合成信号的时序包络,以便使所述经调整的时序包络与所述特性化时序包络匹配。
17.如权利要求16所述的方法,其中所述包络提示码对应于用于产生所述E个传输音频通道的原始输入音频通道中的特性化的时序包络。
18.如权利要求17所述的方法,其中所述合成包括后期回声ICC合成。
19.如权利要求17所述的方法,其中所述经合成信号的一个时序包络在ICLD合成之前被调整。
20.如权利要求16所述的方法,其中
所述合成信号的一个时序包络被特性化;及
当所述包络提示码被施加到合成的通道时,所述合成信号的时序包络基于相应的包络提示码的特性化时序包络和所述合成信号的特性化时序包络而被调整。
21.如权利要求20所述的方法,其中
基于相应的所述包络提示码的时序包络和所述合成信号的时序包络产生校准函数;和
当所述合成信号的时序包络被调整,所述校准函数被施加至所述合成信号。
22.如权利要求16所述的方法,还包括调整基于所述特性化时序包络的传输音频通道以产生平坦化通道,其中对所述平坦化通道施加所述上混与合成,以产生相应的回放音频通道。
23.如权利要求16所述的方法,其还包括调整基于所述特性化时序包络的上混通道,以产生平坦化通道,其中对所述平坦化通道施加所述合成,以产生相应的回放音频通道。
24.如权利要求16所述的方法,其中仅对特定频率调整所述合成信号的时序包络。
25.如权利要求24所述的方法,其中仅对特定截止频率以上的频率调整所述合成信号的时序包络。
26.如权利要求16所述的方法,其中对合成信号中不同信号基频带单独调整时序包络。
27.如权利要求16所述的方法,其中在时域中调整所述合成信号的时序包络。
28.如权利要求16所述的方法,还包括决定是否启动或关闭所述合成信号的时序包络调整。
29.如权利要求28所述的方法,其中所述决定基于由产生所述E个传输音频通道的音频编码器所产生的启动/关闭标记。
30.如权利要求28所述的方法,其中所述决定基于分析所述E个传输音频通道以探测瞬时现象,以便如果瞬时现象出现被探测到,则使所述调整被启动。
31.如权利要求16所述的方法,还包括:
特性化传输音频通道的时序包络;及
决定是否使用(1)相应的所述包络提示码的特性化时序包络或(2)传输音频通道的特性化时序包络,以调整所述合成信号的时序包络。
32.如权利要求16所述的方法,其中在调整所述时序包络后,所述合成信号的特定窗之内的功率大体地等于调整前所述合成信号的对应窗内的功率。
33.如权利要求32所述的方法,其中所述特定窗对应联合一个或多个非包络提示码的合成窗。
34.用于解码E个传输音频通道以产生C个回放音频通道的设备,其中C>E≥1,所述设备包括:
用于接收对应于所述E个传输音频通道的提示码的装置,其中提示码包括对应于所述E传输音频通道的音频通道的特性化时序包络的包络提示码,其中所述两个或多个提示码还包括一个或多个的通道间相关(ICC)码、通道间电平差(ICLD)码与通道间时差(ICTD)码,其中与所述包络提示码相关联的第一次分辨率,比与其他提示码相关联的第二次分辨率更精细;
用于上混E个传输音频通道中的一个或多个传输通道的装置,以产生一个或多个上混通道;及
用于通过对一个或多个上混通道施加提示码,来合成C个回放音频通道中的一个或多个回放通道的装置,或通过所述合成获得合成信号,其中对上混通道或合成信号施加所述包络提示码,以调整基于所述特性化时序包络的所述上混通道或所述合成信号的时序包络,以便使所述调整的时序包络与所述特性化时序包络匹配。
35.如权利要求34所述的设备,其中
所述设备为从由数字放影机、数字音频播放机、计算机、卫星接收器、有线接收器、陆地广播接收器、家用娱乐系统与电影剧院系统组成的组中选出的系统;及
所述系统包括接收装置、上混装置、合成装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62048004P | 2004-10-20 | 2004-10-20 | |
US60/620,480 | 2004-10-20 | ||
US11/006,482 | 2004-12-07 | ||
US11/006,482 US7720230B2 (en) | 2004-10-20 | 2004-12-07 | Individual channel shaping for BCC schemes and the like |
PCT/EP2005/009618 WO2006045371A1 (en) | 2004-10-20 | 2005-09-07 | Individual channel temporal envelope shaping for binaural cue coding schemes and the like |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101044551A CN101044551A (zh) | 2007-09-26 |
CN101044551B true CN101044551B (zh) | 2012-02-08 |
Family
ID=36180779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800357018A Active CN101044551B (zh) | 2004-10-20 | 2005-09-07 | 用于双声道提示编码方案和类似方案的单通道整形 |
Country Status (21)
Country | Link |
---|---|
US (1) | US7720230B2 (zh) |
EP (1) | EP1803117B1 (zh) |
JP (1) | JP4664371B2 (zh) |
KR (1) | KR100924576B1 (zh) |
CN (1) | CN101044551B (zh) |
AT (1) | ATE424606T1 (zh) |
AU (1) | AU2005299068B2 (zh) |
BR (1) | BRPI0516405B1 (zh) |
CA (1) | CA2582485C (zh) |
DE (1) | DE602005013103D1 (zh) |
DK (1) | DK1803117T3 (zh) |
ES (1) | ES2323275T3 (zh) |
HK (1) | HK1106861A1 (zh) |
IL (1) | IL182236A (zh) |
MX (1) | MX2007004726A (zh) |
NO (1) | NO338919B1 (zh) |
PL (1) | PL1803117T3 (zh) |
PT (1) | PT1803117E (zh) |
RU (1) | RU2339088C1 (zh) |
TW (1) | TWI318079B (zh) |
WO (1) | WO2006045371A1 (zh) |
Families Citing this family (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI393121B (zh) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
KR20070056081A (ko) * | 2004-08-31 | 2007-05-31 | 마츠시타 덴끼 산교 가부시키가이샤 | 스테레오 신호 생성 장치 및 스테레오 신호 생성 방법 |
US20060106620A1 (en) * | 2004-10-28 | 2006-05-18 | Thompson Jeffrey K | Audio spatial environment down-mixer |
KR100682915B1 (ko) * | 2005-01-13 | 2007-02-15 | 삼성전자주식회사 | 다채널 신호 부호화/복호화 방법 및 장치 |
EP1691348A1 (en) * | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
JP4887288B2 (ja) * | 2005-03-25 | 2012-02-29 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
EP1905002B1 (en) * | 2005-05-26 | 2013-05-22 | LG Electronics Inc. | Method and apparatus for decoding audio signal |
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
KR100644715B1 (ko) * | 2005-12-19 | 2006-11-10 | 삼성전자주식회사 | 능동적 오디오 매트릭스 디코딩 방법 및 장치 |
US8111830B2 (en) * | 2005-12-19 | 2012-02-07 | Samsung Electronics Co., Ltd. | Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener |
EP1974347B1 (en) * | 2006-01-19 | 2014-08-06 | LG Electronics Inc. | Method and apparatus for processing a media signal |
CN102693727B (zh) * | 2006-02-03 | 2015-06-10 | 韩国电子通信研究院 | 用于控制音频信号的渲染的方法 |
WO2007091850A1 (en) * | 2006-02-07 | 2007-08-16 | Lg Electronics Inc. | Apparatus and method for encoding/decoding signal |
CN101390443B (zh) * | 2006-02-21 | 2010-12-01 | 皇家飞利浦电子股份有限公司 | 音频编码和解码 |
KR100773562B1 (ko) * | 2006-03-06 | 2007-11-07 | 삼성전자주식회사 | 스테레오 신호 생성 방법 및 장치 |
JP5457171B2 (ja) * | 2006-03-20 | 2014-04-02 | オランジュ | オーディオデコーダ内で信号を後処理する方法 |
US8027479B2 (en) | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
US7876904B2 (en) * | 2006-07-08 | 2011-01-25 | Nokia Corporation | Dynamic decoding of binaural audio signals |
US8126721B2 (en) | 2006-10-18 | 2012-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8041578B2 (en) | 2006-10-18 | 2011-10-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8417532B2 (en) | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
CA2670864C (en) | 2006-12-07 | 2015-09-29 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
FR2911426A1 (fr) * | 2007-01-15 | 2008-07-18 | France Telecom | Modification d'un signal de parole |
PL2118889T3 (pl) | 2007-03-05 | 2013-03-29 | Ericsson Telefon Ab L M | Sposób i sterownik do wygładzania stacjonarnego szumu tła |
CA2705968C (en) * | 2007-11-21 | 2016-01-26 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
EP2248289A1 (en) * | 2008-02-29 | 2010-11-10 | Telefonaktiebolaget L M Ericsson (publ) | Channel power estimation means |
WO2009125046A1 (en) * | 2008-04-11 | 2009-10-15 | Nokia Corporation | Processing of signals |
KR101499785B1 (ko) | 2008-10-23 | 2015-03-09 | 삼성전자주식회사 | 모바일 디바이스를 위한 오디오 처리 장치 및 그 방법 |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
EP2491551B1 (en) * | 2009-10-20 | 2015-01-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for providing an upmix signal representation on the basis of a downmix signal representation, apparatus for providing a bitstream representing a multichannel audio signal, methods, computer program and bitstream using a distortion control signaling |
EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
FR2961980A1 (fr) * | 2010-06-24 | 2011-12-30 | France Telecom | Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique |
EP3422346B1 (en) | 2010-07-02 | 2020-04-22 | Dolby International AB | Audio encoding with decision about the application of postfiltering when decoding |
CN103339670B (zh) * | 2011-02-03 | 2015-09-09 | 瑞典爱立信有限公司 | 确定多通道音频信号的通道间时间差 |
KR101662681B1 (ko) | 2012-04-05 | 2016-10-05 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법 |
RU2628195C2 (ru) | 2012-08-03 | 2017-08-15 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Декодер и способ параметрической концепции обобщенного пространственного кодирования аудиообъектов для случаев многоканального понижающего микширования/повышающего микширования |
CN105393304B (zh) * | 2013-05-24 | 2019-05-28 | 杜比国际公司 | 音频编码和解码方法、介质以及音频编码器和解码器 |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP2830333A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals |
EP2830047A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
WO2015041477A1 (ko) | 2013-09-17 | 2015-03-26 | 주식회사 윌러스표준기술연구소 | 오디오 신호 처리 방법 및 장치 |
US10204630B2 (en) | 2013-10-22 | 2019-02-12 | Electronics And Telecommunications Research Instit Ute | Method for generating filter for audio signal and parameterizing device therefor |
BR112016014892B1 (pt) | 2013-12-23 | 2022-05-03 | Gcoa Co., Ltd. | Método e aparelho para processamento de sinal de áudio |
EP4294055A1 (en) | 2014-03-19 | 2023-12-20 | Wilus Institute of Standards and Technology Inc. | Audio signal processing method and apparatus |
CN108966111B (zh) | 2014-04-02 | 2021-10-26 | 韦勒斯标准与技术协会公司 | 音频信号处理方法和装置 |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
TWI587286B (zh) * | 2014-10-31 | 2017-06-11 | 杜比國際公司 | 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體 |
JP6797187B2 (ja) | 2015-08-25 | 2020-12-09 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオ・デコーダおよびデコード方法 |
ES2771200T3 (es) | 2016-02-17 | 2020-07-06 | Fraunhofer Ges Forschung | Postprocesador, preprocesador, codificador de audio, decodificador de audio y métodos relacionados para mejorar el procesamiento de transitorios |
CN107818790B (zh) * | 2017-11-16 | 2020-08-11 | 苏州麦迪斯顿医疗科技股份有限公司 | 一种多路音频混音方法及装置 |
RU2762302C1 (ru) * | 2018-04-05 | 2021-12-17 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство, способ или компьютерная программа для оценки разности во времени между каналами |
GB2584630A (en) * | 2019-05-29 | 2020-12-16 | Nokia Technologies Oy | Audio processing |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US6539357B1 (en) * | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
Family Cites Families (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4236039A (en) | 1976-07-19 | 1980-11-25 | National Research Development Corporation | Signal matrixing for directional reproduction of sound |
US4815132A (en) | 1985-08-30 | 1989-03-21 | Kabushiki Kaisha Toshiba | Stereophonic voice signal transmission system |
DE3639753A1 (de) | 1986-11-21 | 1988-06-01 | Inst Rundfunktechnik Gmbh | Verfahren zum uebertragen digitalisierter tonsignale |
DE3943881B4 (de) | 1989-04-17 | 2008-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Digitales Codierverfahren |
US5583962A (en) | 1991-01-08 | 1996-12-10 | Dolby Laboratories Licensing Corporation | Encoder/decoder for multidimensional sound fields |
DE4209544A1 (de) | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
DE4236989C2 (de) | 1992-11-02 | 1994-11-17 | Fraunhofer Ges Forschung | Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle |
US5371799A (en) | 1993-06-01 | 1994-12-06 | Qsound Labs, Inc. | Stereo headphone sound source localization system |
US5463424A (en) | 1993-08-03 | 1995-10-31 | Dolby Laboratories Licensing Corporation | Multi-channel transmitter/receiver system providing matrix-decoding compatible signals |
JP3227942B2 (ja) | 1993-10-26 | 2001-11-12 | ソニー株式会社 | 高能率符号化装置 |
DE4409368A1 (de) * | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
JP3277679B2 (ja) | 1994-04-15 | 2002-04-22 | ソニー株式会社 | 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置 |
JPH0969783A (ja) | 1995-08-31 | 1997-03-11 | Nippon Steel Corp | オーディオデータ符号化装置 |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5771295A (en) | 1995-12-26 | 1998-06-23 | Rocktron Corporation | 5-2-5 matrix system |
US7012630B2 (en) | 1996-02-08 | 2006-03-14 | Verizon Services Corp. | Spatial sound conference system and apparatus |
ATE309644T1 (de) | 1996-02-08 | 2005-11-15 | Koninkl Philips Electronics Nv | Mit 2-kanal- und 1-kanal-übertragung kompatible n-kanalübertragung |
US5825776A (en) | 1996-02-27 | 1998-10-20 | Ericsson Inc. | Circuitry and method for transmitting voice and data signals upon a wireless communication channel |
US5889843A (en) | 1996-03-04 | 1999-03-30 | Interval Research Corporation | Methods and systems for creating a spatial auditory environment in an audio conference system |
US6697491B1 (en) | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
JP3707153B2 (ja) | 1996-09-24 | 2005-10-19 | ソニー株式会社 | ベクトル量子化方法、音声符号化方法及び装置 |
SG54379A1 (en) | 1996-10-24 | 1998-11-16 | Sgs Thomson Microelectronics A | Audio decoder with an adaptive frequency domain downmixer |
SG54383A1 (en) | 1996-10-31 | 1998-11-16 | Sgs Thomson Microelectronics A | Method and apparatus for decoding multi-channel audio data |
US5912976A (en) | 1996-11-07 | 1999-06-15 | Srs Labs, Inc. | Multi-channel audio enhancement system for use in recording and playback and methods for providing same |
US6131084A (en) | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6111958A (en) | 1997-03-21 | 2000-08-29 | Euphonics, Incorporated | Audio spatial enhancement apparatus and methods |
US5946352A (en) | 1997-05-02 | 1999-08-31 | Texas Instruments Incorporated | Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain |
US5860060A (en) | 1997-05-02 | 1999-01-12 | Texas Instruments Incorporated | Method for left/right channel self-alignment |
US6108584A (en) | 1997-07-09 | 2000-08-22 | Sony Corporation | Multichannel digital audio decoding method and apparatus |
DE19730130C2 (de) | 1997-07-14 | 2002-02-28 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines Audiosignals |
US5890125A (en) | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
US6021389A (en) | 1998-03-20 | 2000-02-01 | Scientific Learning Corp. | Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds |
US6016473A (en) | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
TW444511B (en) | 1998-04-14 | 2001-07-01 | Inst Information Industry | Multi-channel sound effect simulation equipment and method |
JP3657120B2 (ja) | 1998-07-30 | 2005-06-08 | 株式会社アーニス・サウンド・テクノロジーズ | 左,右両耳用のオーディオ信号を音像定位させるための処理方法 |
JP2000152399A (ja) | 1998-11-12 | 2000-05-30 | Yamaha Corp | 音場効果制御装置 |
US6408327B1 (en) | 1998-12-22 | 2002-06-18 | Nortel Networks Limited | Synthetic stereo conferencing over LAN/WAN |
US6282631B1 (en) | 1998-12-23 | 2001-08-28 | National Semiconductor Corporation | Programmable RISC-DSP architecture |
JP4438127B2 (ja) | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
US6823018B1 (en) | 1999-07-28 | 2004-11-23 | At&T Corp. | Multiple description coding communication system |
US6434191B1 (en) | 1999-09-30 | 2002-08-13 | Telcordia Technologies, Inc. | Adaptive layered coding for voice over wireless IP applications |
US6978236B1 (en) * | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US6614936B1 (en) | 1999-12-03 | 2003-09-02 | Microsoft Corporation | System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding |
US6498852B2 (en) | 1999-12-07 | 2002-12-24 | Anthony Grimani | Automatic LFE audio signal derivation system |
US6845163B1 (en) | 1999-12-21 | 2005-01-18 | At&T Corp | Microphone array for preserving soundfield perceptual cues |
US6782366B1 (en) | 2000-05-15 | 2004-08-24 | Lsi Logic Corporation | Method for independent dynamic range control |
US6850496B1 (en) | 2000-06-09 | 2005-02-01 | Cisco Technology, Inc. | Virtual conference room for voice conferencing |
US6973184B1 (en) | 2000-07-11 | 2005-12-06 | Cisco Technology, Inc. | System and method for stereo conferencing over low-bandwidth links |
US7236838B2 (en) | 2000-08-29 | 2007-06-26 | Matsushita Electric Industrial Co., Ltd. | Signal processing apparatus, signal processing method, program and recording medium |
JP3426207B2 (ja) | 2000-10-26 | 2003-07-14 | 三菱電機株式会社 | 音声符号化方法および装置 |
TW510144B (en) | 2000-12-27 | 2002-11-11 | C Media Electronics Inc | Method and structure to output four-channel analog signal using two channel audio hardware |
US7292901B2 (en) | 2002-06-24 | 2007-11-06 | Agere Systems Inc. | Hybrid multi-channel/cue coding/decoding of audio signals |
US20030035553A1 (en) | 2001-08-10 | 2003-02-20 | Frank Baumgarte | Backwards-compatible perceptual coding of spatial cues |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7006636B2 (en) | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US6934676B2 (en) | 2001-05-11 | 2005-08-23 | Nokia Mobile Phones Ltd. | Method and system for inter-channel signal redundancy removal in perceptual audio coding |
US7668317B2 (en) | 2001-05-30 | 2010-02-23 | Sony Corporation | Audio post processing in DVD, DTV and other audio visual products |
SE0202159D0 (sv) * | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
KR20040080003A (ko) | 2002-02-18 | 2004-09-16 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 파라메트릭 오디오 코딩 |
US8498422B2 (en) | 2002-04-22 | 2013-07-30 | Koninklijke Philips N.V. | Parametric multi-channel audio representation |
WO2003094369A2 (en) | 2002-05-03 | 2003-11-13 | Harman International Industries, Incorporated | Multi-channel downmixing device |
US6940540B2 (en) | 2002-06-27 | 2005-09-06 | Microsoft Corporation | Speaker detection and tracking using audiovisual data |
JP4322207B2 (ja) | 2002-07-12 | 2009-08-26 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ符号化方法 |
WO2004008806A1 (en) | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
US7516066B2 (en) * | 2002-07-16 | 2009-04-07 | Koninklijke Philips Electronics N.V. | Audio coding |
ATE348386T1 (de) | 2002-11-28 | 2007-01-15 | Koninkl Philips Electronics Nv | Audiosignalkodierung |
KR101049751B1 (ko) * | 2003-02-11 | 2011-07-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
FI118247B (fi) | 2003-02-26 | 2007-08-31 | Fraunhofer Ges Forschung | Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa |
KR20050116828A (ko) | 2003-03-24 | 2005-12-13 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 다채널 신호를 나타내는 주 및 부 신호의 코딩 |
US20050069143A1 (en) | 2003-09-30 | 2005-03-31 | Budnikov Dmitry N. | Filtering for spatial audio rendering |
DE602004030594D1 (de) * | 2003-10-07 | 2011-01-27 | Panasonic Corp | Verfahren zur entscheidung der zeitgrenze zur codierung der spektro-hülle und frequenzauflösung |
US7394903B2 (en) | 2004-01-20 | 2008-07-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal |
US20070092086A1 (en) * | 2005-10-24 | 2007-04-26 | Pang Hee S | Removing time delays in signal paths |
-
2004
- 2004-12-07 US US11/006,482 patent/US7720230B2/en active Active
-
2005
- 2005-09-07 MX MX2007004726A patent/MX2007004726A/es active IP Right Grant
- 2005-09-07 CN CN2005800357018A patent/CN101044551B/zh active Active
- 2005-09-07 AU AU2005299068A patent/AU2005299068B2/en active Active
- 2005-09-07 BR BRPI0516405-2A patent/BRPI0516405B1/pt active IP Right Grant
- 2005-09-07 RU RU2007118679/09A patent/RU2339088C1/ru active
- 2005-09-07 PT PT05792350T patent/PT1803117E/pt unknown
- 2005-09-07 DE DE602005013103T patent/DE602005013103D1/de active Active
- 2005-09-07 ES ES05792350T patent/ES2323275T3/es active Active
- 2005-09-07 DK DK05792350T patent/DK1803117T3/da active
- 2005-09-07 CA CA2582485A patent/CA2582485C/en active Active
- 2005-09-07 JP JP2007537133A patent/JP4664371B2/ja active Active
- 2005-09-07 AT AT05792350T patent/ATE424606T1/de active
- 2005-09-07 KR KR1020077008410A patent/KR100924576B1/ko active IP Right Grant
- 2005-09-07 EP EP05792350A patent/EP1803117B1/en active Active
- 2005-09-07 PL PL05792350T patent/PL1803117T3/pl unknown
- 2005-09-07 WO PCT/EP2005/009618 patent/WO2006045371A1/en active Application Filing
- 2005-10-19 TW TW094136500A patent/TWI318079B/zh active
-
2007
- 2007-03-21 NO NO20071493A patent/NO338919B1/no unknown
- 2007-03-27 IL IL182236A patent/IL182236A/en active IP Right Grant
- 2007-12-28 HK HK07114229.7A patent/HK1106861A1/xx unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5812971A (en) * | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
US6539357B1 (en) * | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
Non-Patent Citations (1)
Title |
---|
Eric Schujers et al.Advances in Parametric Coding for High-Quality Audio.《Audio Engieering Society Convention Paper 5852 Presented at the 114th Convention》.2003, * |
Also Published As
Publication number | Publication date |
---|---|
HK1106861A1 (en) | 2008-03-20 |
NO20071493L (no) | 2007-05-22 |
PT1803117E (pt) | 2009-06-15 |
RU2339088C1 (ru) | 2008-11-20 |
AU2005299068B2 (en) | 2008-10-30 |
MX2007004726A (es) | 2007-09-07 |
IL182236A (en) | 2011-08-31 |
DK1803117T3 (da) | 2009-06-22 |
ATE424606T1 (de) | 2009-03-15 |
BRPI0516405A (pt) | 2008-09-02 |
DE602005013103D1 (de) | 2009-04-16 |
NO338919B1 (no) | 2016-10-31 |
CN101044551A (zh) | 2007-09-26 |
TW200628001A (en) | 2006-08-01 |
US20060083385A1 (en) | 2006-04-20 |
CA2582485A1 (en) | 2006-05-04 |
BRPI0516405B1 (pt) | 2019-09-17 |
WO2006045371A1 (en) | 2006-05-04 |
JP2008517333A (ja) | 2008-05-22 |
ES2323275T3 (es) | 2009-07-10 |
JP4664371B2 (ja) | 2011-04-06 |
BRPI0516405A8 (pt) | 2018-07-31 |
US7720230B2 (en) | 2010-05-18 |
EP1803117B1 (en) | 2009-03-04 |
PL1803117T3 (pl) | 2009-08-31 |
KR100924576B1 (ko) | 2009-11-02 |
CA2582485C (en) | 2012-05-15 |
EP1803117A1 (en) | 2007-07-04 |
KR20070061872A (ko) | 2007-06-14 |
AU2005299068A1 (en) | 2006-05-04 |
IL182236A0 (en) | 2007-09-20 |
TWI318079B (en) | 2009-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101044551B (zh) | 用于双声道提示编码方案和类似方案的单通道整形 | |
CN101044794B (zh) | 用于双声道提示码编码方案和类似方案的散射声音整形的方法和设备 | |
CN101160618B (zh) | 用于空间音频参数编码的紧凑辅助信息 | |
JP5017121B2 (ja) | 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化 | |
KR101215868B1 (ko) | 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치 | |
CN101553868B (zh) | 用于处理音频信号的方法和装置 | |
CN101248483B (zh) | 多声道音频信号的生成 | |
KR101215872B1 (ko) | 송신되는 채널들에 기초한 큐들을 갖는 공간 오디오의파라메트릭 코딩 | |
TR201811059T4 (tr) | Ses kaynaklarının parametrik birleşik kodlaması. | |
Schuh et al. | Efficient multichannel audio transform coding with low delay and complexity | |
Dubey et al. | A Novel Very Low Bit Rate Multi-Channel Audio Coding Scheme Using Accurate Temporal Envelope Coding and Signal Synthesis Tools | |
Annadana et al. | New Enhancements to Immersive Sound Field Rendition (ISR) System | |
Ehret et al. | A novel approach to up-mix stereo to surround based on MPEG surround technology | |
Dubey et al. | Subjective Evaluation of the Immersive Sound Field Rendition System and Recent Enhancements |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |