CN110675882B - 用于对降混合矩阵解码及编码的方法、编码器及解码器 - Google Patents
用于对降混合矩阵解码及编码的方法、编码器及解码器 Download PDFInfo
- Publication number
- CN110675882B CN110675882B CN201910973920.4A CN201910973920A CN110675882B CN 110675882 B CN110675882 B CN 110675882B CN 201910973920 A CN201910973920 A CN 201910973920A CN 110675882 B CN110675882 B CN 110675882B
- Authority
- CN
- China
- Prior art keywords
- downmix matrix
- gain
- matrix
- value
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 290
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000013507 mapping Methods 0.000 claims abstract description 29
- 238000009877 rendering Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 15
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 18
- 230000005540 biological transmission Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 230000003247 decreasing effect Effects 0.000 description 9
- 238000013139 quantization Methods 0.000 description 9
- 230000002829 reductive effect Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000000630 rising effect Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004378 air conditioning Methods 0.000 description 3
- 230000001343 mnemonic effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- PEIBAWRLFPGPAT-UHFFFAOYSA-N 1-(diazomethyl)pyrene Chemical compound C1=C2C(C=[N+]=[N-])=CC=C(C=C3)C2=C2C3=CC=CC2=C1 PEIBAWRLFPGPAT-UHFFFAOYSA-N 0.000 description 1
- 101100018996 Caenorhabditis elegans lfe-2 gene Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005056 compaction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
描述一种方法,该方法对用于将音频内容的多个输入声道(300)映射至多个输出声道(302)的降混合矩阵(306)进行解码,输入及输出声道(300,302)与位于相对于收听者位置的预定位置处的各个扬声器相关联,其中通过利用多个输入声道(300)的扬声器对(S1‑S9)的对称性以及多个输出声道(302)的扬声器对(S10‑S11)的对称性对降混合矩阵(306)进行编码。对表示经编码的降混合矩阵(306)的经编码的信息进行接收并解码以获得经解码的降混合矩阵(306)。
Description
本申请是申请日为2014年10月13日、申请号为“201480057957.8”、发明名称为“用于对降混合矩阵解码及编码的方法、编码器及解码器”的中国发明专利的分案申请。
技术领域
本发明涉及音频编码/解码的领域,尤其涉及空间音频编码及空间音频对象编码,例如,涉及3D音频编解码器系统的领域。本发明的实施例涉及用于对用于将音频内容的多个输入声道映射至多个输出声道的降混合矩阵进行编码及解码的方法、涉及用于呈现音频内容的方法、涉及用于对降混合矩阵进行编码的编码器、涉及用于对降混合矩阵进行解码的解码器、涉及音频编码器以及涉及音频解码器。
背景技术
在本技术领域中,空间音频编码工具是众所周知的并且,例如,在MPEG-surround标准中已被标准化。空间音频编码从诸如在再现装备(setup)中通过其布置而识别的五个或七个声道(即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道)的原始输入声道开始。空间音频编码器可从原始声道得到一个或多个降混合声道,且此外可得到关于空间线索(cues)参数化数据,例如在声道相干数值中的声道间水平差异、声道间相位差异、声道间时间差异等等。一个或多个降混合声道与指示空间线索的参数化旁侧信息一起被传输至用于对降混合声道及相关联的参数化数据进行解码以最终获得原始输入声道的近似版本的输出声道的空间音频解码器。声道在输出装备的布置可为固定的,例如,5.1格式、7.1格式等等。
同样,空间音频对象编码工具在此技术领域中是众所周知的,且(例如)在MPEGSAOC(SAOC=空间音频对象编码)标准中被标准化。相比于空间音频编码从原始声道开始,空间音频对象编码从音频对象开始,该音频对象不自动专用于某个渲染再现装备。相反,音频对象在再现场景中的布置是灵活的且可由用户(例如)通过将某些渲染信息输入至空间音频对象编码解码器中而设定。可选地或此外地,渲染信息可作为附加旁侧信息或元数据而被传输,渲染信息可包括某个音频对象在再现设置中(例如,随时间)待被放置的位置处的信息。为获得某个数据压缩,使用SAOC编码器对多个音频对象进行编码,SAOC编码器通过根据某个降混合信息对对象进行降混合以从输入对象计算一个或多个传输声道。此外,SAOC编码器计算表示对象间线索(诸如,对象水平差异(OLD)、对象相干值等)的参数化旁侧信息。如在SAC(SAC=空间音频编码)中,针对个别时间/频率平铺(time/frequency tiles)计算对象间参数化数据。对于音频信号的某个帧(例如,1024或2048个样本),考虑多个频带(例如,24、32或64个频带),以便为每个帧及每个频带提供参数化数据。举例而言,当音频片段具有20个帧且当每个帧被细分成32个频带时,时间/频率平铺的数目为640。
在3D音频系统中,可能期望使用扩音器(loudspeaker)或扬声器(speaker)配置在接收器处提供音频信号的空间印象,因为扩音器或扬声器配置在接收器处是可用的,但可不同于用于原始音频信号的原始扬声器配置。在此情形下,根据哪些输入声道依据音频信号的原始扬声器配置而被映射至根据接收器的扬声器配置定义的输出声道,需要进行转换,该转换亦被称作“降混合”。
发明内容
本发明的目标在于提供用于为接收器提供降混合矩阵的改良方法。
此目标由以下描述的方法、编码器、解码器、音频编码器及音频解码器实现。
本发明基于以下发现:可通过利用对称性实现稳定的降混合矩阵的更有效率的编码,可在关于与各个声道相关联的扬声器的放置的输入声道配置及输出声道配置中发现该对称性。本发明的发明者已发现,利用此对称性允许将对称地布置的扬声器(例如,具有关于收听者位置的具有相同仰角及具有相同绝对值但带有不同正负号的方位角的位置的那些扬声器)组合至降混合矩阵的共同行/列。此允许生成具有减小的尺寸的紧密降混合矩阵,因此,当与原始降混合矩阵相比时,可更容易且更有效率地对该紧密降混合矩阵进行编码。
根据实施例,不仅定义了对称扬声器组,且实际上创建了三类扬声器组(即,上述的对称扬声器、中心扬声器及不对称扬声器),然后其可用于生成紧密表示。此方法为有利的,因为它允许不同地且因此更有效率地处置来自各个类别的扬声器。
根据实施例,对紧密降混合矩阵进行编码包含:对与关于实际的紧密降混合矩阵的信息分开的增益值进行编码。通过创建紧密显著性(significance)矩阵来对关于实际的紧密降混合矩阵的信息进行编码,通过将输入及输出对称扬声器对中的每个并入一个组,该紧密显著性矩阵关于紧密输入/输出声道配置指示非零增益的存在。此方法为有利的,因为它允许基于行程长度方案的显著性矩阵的有效率的编码。
根据实施例,可提供模板矩阵,该模板矩阵类似于紧密降混合矩阵,其中模板矩阵的矩阵元素中的条目大体上对应于紧密降混合矩阵中的矩阵元素中的条目。大体而言,在编码器及解码器处提供此模板矩阵,且此模版矩阵与紧密降混合矩阵的不同之处仅在于矩阵元素的减少的数目,从而通过利用此模板矩阵将逐元素地XOR应用至紧密显著性矩阵,将大幅减少矩阵元素的数目。此方法为有利的,因为它允许再次使用(例如)行程长度方案更进一步地增大对显著性矩阵进行编码的效率。
根据又一实施例,编码进一步基于正常扬声器是否仅混合至正常扬声器且LFE扬声器仅混合至LFE扬声器的指示。此为有利的,因为它进一步改良了显著性矩阵的编码。
根据又一实施例,至于行程长度编码所应用于的一维向量,提供紧密显著性矩阵或上述XOR运算的结果以将其转换为成串的零,其中一跟随其后,此为有利地,因为它提供用于对信息进行编码的极有效率的可能性。为实现更有效率的编码,根据实施例,将有限哥伦布-莱斯编码应用于行程长度值。
根据另一实施例,对于每个输出扬声器组,指示对称性及可分离性的属性是否适用于生成其的所有对应的输入扬声器组。此为有利的,因为它指示在(例如)由左扬声器及右扬声器组成的扬声器组中,输入声道组中的左扬声器仅被映射至对应的输出扬声器组中的左声道,输入声道组中的右扬声器仅被映射至输出声道组中的右扬声器,且不存在自左声道至右声道的混合。此允许由单一增益值替换原始降混合矩阵的2×2子矩阵中的四个增益值,该单一增益值可被引入至紧密矩阵中,或在紧密矩阵为显著性矩阵的情况下可被单独地编码。在任何情况下,待编码的增益值的总数减少。因此,对称性及可分离性的信号发送的(signaled)属性为有利的,因为它们允许对与输入及输出扬声器组中的每对相对应的子矩阵进行有效率地编码。
根据实施例,为了对增益值进行编码,使用信号发送的最小及最大增益以及信号发送的期望精度以特定次序创建可能增益的列表。以常用增益位于列表或表格的开始处的此次序创建增益值。此为有利的,因为它允许通过将用于对增益值进行编码的最短码字应用于最频繁使用的增益而对增益值进行有效率地编码。
根据实施例,可在列表中提供生成的增益值,列表中的每个条目具有与其相关联的索引。当对增益值进行编码而非对实际值进行编码时,增益的索引被编码。此可(例如)通过应用有限哥伦布-莱斯编码方法来进行。此增益值的处置为有利的,因为它允许对其进行有效率地编码。
根据实施例,可连同降混合矩阵一起传输均衡器(EQ)参数。
附图说明
将关于附图描述本发明的实施例,其中:
图1示出3D音频系统的3D音频编码器的概述;
图2示出3D音频系统的3D音频解码器的概述;
图3示出可在图2的3D音频解码器中实施的立体声渲染器的实施例;
图4示出如在本技术领域中已知的用于从22.2输入配置映射至5.1输出配置的例示性降混合矩阵;
图5示意性地示出用于将图4的原始降混合矩阵转换成紧密降混合矩阵的本发明的实施例;
图6示出根据本发明的实施例的图5的紧密降混合矩阵,该紧密降混合矩阵具有经转换的输入及输出声道配置,其中矩阵条目表示显著性值;
图7示出用于使用模板矩阵对图5的紧密降混合矩阵的结构进行编码的本发明的又一实施例;及
图8(a)至图8(g)示出根据输入及输出扬声器的不同组合可从图4中所示的降混合矩阵得出的可能子矩阵。
实施方式
将描述本发明方法的实施例。以下描述将从可实施本发明方法的3D音频编解码器系统的系统概述开始。
图1及图2示出根据实施例的3D音频系统的算法区块。更具体地,图1示出3D音频编码器100的概述。音频编码器100在可选地提供的预渲染器/混合器电路102处接收输入信号,更具体地,在提供至音频编码器100的多个输入声道处接收多个声道信号104、多个对象信号106及对应的对象元数据108。由预渲染器/混合器102处理的对象信号106(参见信号110)可被提供至SAOC编码器112(SAOC=空间音频对象编码)。SAOC编码器112生成被提供至USAC编码器116(USAC=统一语音及音频编码)的SAOC传输声道114。此外,信号SAOC-SI 118(SAOC-SI=SAOC旁侧信息)也被提供至USAC编码器116。USAC编码器116进一步直接从预渲染器/混合器接收对象信号120,以及声道信号与预渲染的对象信号122。对象元数据信息108应用于用于将经压缩的对象元数据信息126提供至USAC编码器的OAM编码器124(OAM=对象相关联的元数据)。USAC编码器116基于上述输入信号生成如在128处所示的经压缩的输出信号mp4。
图2示出3D音频系统的3D音频解码器200的概述。在音频解码器200处,更具体地在USAC解码器202处接收由图1的音频编码器100生成的经编码的信号128(mp4)。USAC解码器202将接收的信号128解码成声道信号204、预渲染的对象信号206、对象信号208及SAOC传输声道信号210。另外,经压缩的对象元数据信息212及信号SAOC-SI 214由USAC解码器202输出。对象信号208被提供至输出渲染的对象信号218的对象渲染器216。SAOC传输声道信号210被供应至输出渲染的对象信号222的SAOC解码器220。经压缩的对象元信息212被供应至OAM解码器224,该OAM解码器224将各个控制信号输出至对象渲染器216及SAOC解码器220以用于生成渲染的对象信号218及渲染的对象信号222。解码器进一步包含接收(如图2中所示)输入信号204、206、218及222以用于输出声道信号228的混合器226。声道信号可被直接输出至扩音器,如,如在230处所指示的32声道扩音器。信号228可被提供至格式转换电路232,该格式转换电路232接收指示声道信号228待被转换的方式的再现布局信号作为控制输入。在图2中描绘的实施例中,假设以信号可被提供至如在234处所指示的5.1扬声器系统的方式进行转换。同样,声道信号228可被提供至生成(例如)用于如在238处所指示的耳机的两个输出信号的立体声渲染器236。
在本发明的实施例中,图1及图2中所描绘的编码/解码系统基于用于声道及对象信号 (参见信号104及106) 的编码的MPEG-D USAC编解码器。为增加对大量对象进行编码的效率,可使用MPEG SAOC技术。三种类型的渲染器可执行将对象渲染至声道、将声道渲染至耳机或将声道渲染至不同扩音器装备(参见图2,附图标记230、234及238)的任务。当使用SAOC明确地传输或参数化地编码对象信号时,对应的对象元数据信息108被压缩(参见信号126)且被多工至3D音频比特流128。
以下将进一步详细描述图1及图2中所示的总体3D音频系统的算法区块。
可选地提供预渲染器/混合器102以在编码前将声道加对象输入场景转换成声道场景。该预渲染器/混合器102在功能上与以下将描述的对象渲染器/混合器相同。可期望对象的预渲染以确保在编码器输入端处确定性信号熵,该确定性信号熵基本上独立于多个同时活跃的对象信号。利用对象的预渲染,无需对象元数据的传输。离散对象信号被渲染至声道布局,编码器被配置为使用该声道布局。从相关联的对象元数据(OAM)获得用于每个声道的对象的权重。
USAC编码器116为用于扩音器-声道信号、离散对象信号、对象降混合信号及预渲染信号的核心编解码器。其基于MPEG-D USAC技术。该核心编解码器通过基于输入声道及对象分配的几何和语义信息创建声道及对象映射信息来处置以上信号的编码。此映射信息描述输入声道及对象如何被映射至USAC声道元素,如声道对元素(CPE)、单一声道元素(SCE)、低频效应(LFE)及四声道元素(QCE)及CPE、SCE及LFE,且对应信息被传输至解码器。所有的附加有效载荷(如SAOC数据114、118或对象元数据126)被视为处于编码器的速率控制下。依据对渲染器的速率/失真要求及互动性要求,以不同方式对对象进行编码是可能的。根据实施例,以下对象编码变体是可能的:
●预渲染的对象:在编码前将对象信号预渲染并混合至22.2声道信号。随后编码链见到22.2声道信号。
●离散对象波形:对象作为单音波形被供应至编码器。编码器使用单一声道元素(SCE)传输除声道信号之外的对象。在接收器侧渲染并混合经解码的对象。经压缩的对象元数据信息被传输至接收器/渲染器。
●参数化对象波形:借助于SAOC参数描述对象属性及其彼此的关系。利用USAC对对象信号的降混合进行编码。沿旁侧传输参数化信息。依据对象的数目及总数据速率,选择降混合声道的数目。经压缩的对象元数据信息被传输至SAOC渲染器。
用于对象信号的SAOC编码器112及SAOC解码器220可基于MPEG SAOC技术。系统能够基于较少数目的传输声道及附加的参数化数据(诸如,OLD、IOC(对象间相干性)、OMG(降混合增益))重创建、修改及渲染多个音频对象。附加的参数化数据展现明显低于各自地传输所有对象所需的数据速率,从而使编码非常有效率。SAOC编码器112将作为单音波形的对象/声道信号当作输入,并输出参数化信息(其被封装至3D音频比特流128内)及SAOC传输声道(使用单一声道元素对其进行编码并传输)。SAOC解码器220从经解码的SAOC传输声道210及参数化信息214重构建对象/声道信号,并基于再现布局、经解压缩的对象元数据信息以及可选地基于用户互动信息而生成输出音频场景。
提供对象元数据编解码器(参见OAM编码器124及OAM解码器224),以使得对于每个对象,通过在时间及空间中的对象属性的量化而对指定对象在3D空间中的几何位置和体积的相关联的元数据进行有效率地编码。经压缩的对象元数据cOAM 126被传输至接收器200作为旁侧信息。
对象渲染器216利用经压缩的对象元数据根据给定再现格式生成对象波形。每个对象根据其元数据而被渲染至某个输出声道。此区块的输出自部分结果的总和产生。若基于声道的内容和离散/参数化对象二者被解码,则在输出所得波形228前或在将其馈入至后处理器模块(如立体声渲染器236或扩音器渲染器模块232)前,基于声道的波形和渲染的对象波形被混合器226混合。
立体声渲染器模块236产生多声道音频材料的立体声降混合,以使得每个输入声道由虚拟声源表示。在QMF(正交镜像滤波器组)域中逐帧地进行该处理,且立体声化基于测量的立体声房间脉冲响应。
扩音器渲染器器232在传输的声道配置228与期望的再现格式之间转换。其也可被称为“格式转换器”。格式转换器执行至较低数目的输出声道的转换,即,其创建降混合。
图3示出图2的立体声渲染器236的实施例。立体声渲染器模块可提供多声道音频材料的立体声降混合。立体声化可基于测量的立体声房间脉冲响应。房间脉冲响应可被视为真实房间的声学属性的“指纹”。测量并储存房间脉冲响应,且任意声学信号可设有此“指纹”,借此允许在收听者处的与房间脉冲响应相关联的房间的声学属性的模拟。立体声渲染器236可被编程化或配置以用于使用头部相关转移函数或立体声房间脉冲响应(BRIR)而将输出声道渲染至两个立体声声道中。举例而言,对于移动装置而言,需要用于附接至此移动装置的耳机或扩音器的立体声渲染。在此移动装置中,归因于约束,可能有必要限制解码器及渲染复杂性。除了省略在此处理情景下的解相关之外,首先使用降混合器250对中间降混合信号252(即,对较低数目的输出声道)进行降混合可能是较佳的,较低数目的输出声道导致用于实际立体声转换器254的较低数目的输入声道。举例而言,22.2声道材料可由降混合器250降混合至5.1中间降混合,或可选地,中间降混合可由图2中的SAOC解码器220以一种“捷径”的方式直接计算。然后,相比于在22.2输入声道待被直接渲染的情况下应用44个HRTF或BRIR函数,立体声渲染仅必须应用十个HRTF(头部相关转移函数)或BRIR函数以在不同位置处渲染五个单独的声道。立体声渲染所必需的卷积操作需要大量的处理能力,且因此,降低此处理能力同时仍获得可接受的音频品质对于移动装置是特别有用的。立体声渲染器236产生多声道音频材料228的立体声降混合238,以使得每个输入声道(不包括LFE声道)由虚拟声源表示。可在QMF域中逐帧地进行该处理。立体声化基于测量的立体声房间脉冲响应,且可使用QMF域上的快速卷积在伪FFT域中经由卷积方法将直达声及早期回声压印至音频资料,而可对后期混响单独地进行处理。
多声道音频格式当前存在于大量的多种配置中,该格式用于如以上已详细地对其进行描述的3D音频系统中,3D音频系统用于(例如)提供DVD及蓝光光盘上提供的音频信息。一个重要问题为适应多声道音频的实时传输同时维持与现有可用的客户物理扬声器装备的兼容性。解决方案为以(例如)生产中使用的原始格式对音频内容进行编码,该格式通常具有大量的输出声道。此外,提供降混合旁侧信息以生成具有少量独立声道的其他格式。假设(例如)N个数目的输入声道及M个数目的输出声道,接收器处的降混合程序可由大小为N×M的降混合矩阵指定。此特定程序(正如其可在上述格式转换器或立体声渲染器的降混合器中进行)表示被动降混合,意味着不存在依赖于实际音频内容的适应性信号处理被应用至输入信号或经降混合的输出信号。
降混合矩阵试图不仅匹配音频信息的物理混合,还可传达生产者(生产者可使用其关于被传输的实际内容的知识)的艺术意图。因此,存在若干个生成降混合矩阵的方式,例如,通过使用关于输入及输出扬声器的角色及位置的通用声学知识手动地生成降混合矩阵、通过使用关于实际内容及艺术意图的知识手动地生成降混合矩阵及例如通过使用软件工具自动地生成降混合矩阵,该软件工具使用给定输出扬声器计算近似值。
在本技术领域中,存在用于提供此降混合矩阵的多个已知方法。然而,现有方案做了许多假设并对结构的重要部分及实际降混合矩阵的内容进行硬编码。在现有技术参考[1]中,描述了使用特定降混合程序,该降混合程序被明确地定义以用于从5.1声道配置(参见现有技术参考[2])降混合至2.0声道配置、从6.1或7.1前部或前高度或后部环绕变体降混合至5.1或2.0声道配置。这些已知方法的缺点在于,在将一些输入声道与预定义权重进行混合(例如,在将7.1后部环绕映射至5.1配置的情况下,L、R及C输入声道被直接映射至对应的输出声道)以及将减少数目的增益值共享于一些其他输入声道(例如,在将7.1前部映射至5.1配置的情况下,使用仅一个增益值将L、R、Lc及Rc输入声道映射至L及R输出声道)的意义上,降混合方案仅具有有限自由度。此外,增益仅具有有限范围及精度,例如,从0 dB至-9 dB,其中共八个等级。对于每个输入及输出配置对,明确地描述降混合程序是费力的并暗示以延迟的顺应性为代价的对现有标准的补充。现有技术参考[5]中描述另一建议。此方法使用表示灵活性的改良的明确的降混合矩阵,然而,该方案再次限制0 dB至-9 dB(其中共16个等级)的范围及精度。此外,以4个比特的固定精度对每个增益进行编码。
因此,鉴于已知的现有技术,需要用于对降混合矩阵进行有效率地编码的改良方法,包括选择合适的表示域及量化方案以及对量化值进行无损编码的方面。
根据实施例,通过允许以由生产者根据其需要指定的范围及精度对任意降混合矩阵进行编码来实现不受限制的灵活性以用于处置降混合矩阵。同样,本发明的实施例提供非常有效率的无损编码,所以典型矩阵使用少量比特,且背离典型矩阵将仅逐渐地降低效率。此意味着矩阵与典型矩阵越类似,则根据本发明的实施例所描述的编码将越有效率。
根据实施例,所需精度可由生产者指定为1 dB、0.5 dB或0.25 dB以用于均匀量化。应注意,根据其他实施例,也可选择用于精度的其他值。与此相反,现有方案仅允许用于约0 dB的值的1.5 dB或0.5 dB的精度,同时使用用于其他值的较低精度。使用用于一些值的较粗略量化影响所实现的最差情况容差并使得经解码的矩阵的解释更加困难。在现有技术中,将较低精度用于一些值,此为使用均匀编码减少所需比特数的简单方式。然而,实际上,可在不牺牲精度的情况下通过使用以下将进一步详细描述的改良编码方案实现相同结果。
根据实施例,可在最大值(例如,+22 dB)与最小值(例如,-47 dB)之间指定混合增益的值。该值也可包括负无穷大值。在比特流中,矩阵中使用的有效值域被指示作为最大增益及最小增益,借此不浪费实际上未使用的值上的任何比特而不限制期望的灵活性。
根据实施例,假设音频内容(将为此提供降混合矩阵)的输入声道列表以及指示输出扬声器配置的输出声道列表是可用的。这些列表提供关于输入配置及输出配置中的每个扬声器的几何信息,如,方位角及仰角。可选地,还可提供扬声器的惯用名称。
图4示出如在本技术领域中已知的用于从22.2输入配置映射至5.1输出配置的例示性降混合矩阵。在矩阵的右手列300中,根据22.2配置的各个输入声道由与各个声道相关联的扬声器名称指示。底部行302包括输出声道配置(5.1配置)的各个输出声道。再次,各个声道由相关联的扬声器名称指示。矩阵包括多个矩阵元素304,每个矩阵元素304保持有增益值,又被称作混合增益。混合增益指示当对各个输出声道302有贡献时,如何调整给定输入声道(例如,输入声道300中的一个)的等级。举例而言,左上方矩阵元素示出值“1”,意味着输入声道配置300的中心声道C与输出声道配置302的中心声道C完全匹配。同样地,两个配置中的各个左及右声道(L/R声道)被完全映射,即,输入配置中的左/右声道完全对输出配置中的左/右声道有贡献。输入配置中的其他声道(例如,声道Lc及Rc)以0.7的降低的等级(level)映射至输出配置302的左及右声道。如从图4可见,也存在多个不具有条目的矩阵元素,意味着与矩阵元素相关联的各个声道未彼此映射,或意味着经由不具有条目的矩阵元素的链接至输出声道的输入声道不对各个输出声道有贡献。举例而言,左/右输入声道皆未映射至输出声道Ls/Rs,即,左及右输入声道不对输出声道Ls/Rs有贡献。替代在矩阵中提供空,也可以已指示零增益。
在下文中将描述若干技术,根据本发明的实施例应用该若干技术以实现降混合矩阵的有效率的无损编码。在以下实施例中,将对图4中所示的降混合矩阵的编码进行参考,然而,显而易见的是,下文中描述的细节可应用于可被提供的任何其他降混合矩阵。根据实施例,提供用于对降混合矩阵进行解码的方法,其中通过利用多个输入声道的扬声器对的对称性以及多个输出声道的扬声器对的对称性来对降混合矩阵进行编码。降混合矩阵在其传输至解码器之后(例如)在音频解码器处被解码,该音频解码器接收包括经编码的音频内容及表示降混合矩阵的经编码的信息或数据的比特流,允许在解码器处建构对应于原始降混合矩阵的降混合矩阵。对降混合矩阵进行解码包含:接收表示降混合矩阵的经编码的信息并对经编码的信息进行解码以用于获得降混合矩阵。根据其他实施例,提供用于对降混合矩阵进行编码的方法,该方法包含利用多个输入声道的扬声器对的对称性以及多个输出声道的扬声器对的对称性。
在本发明的实施例的以下描述中,将在对降混合矩阵进行编码的上下文中描述一些方面,然而,对于本领域的读者,明显的是,这些方面也表示用于对降混合矩阵进行解码的对应方法的描述。类似地,在对降混合矩阵进行解码的上下文中描述的方面也表示用于对降混合矩阵进行编码的对应方法的描述。
根据实施例,第一步骤为利用矩阵中的相当大数目的零条目。在随后的步骤中,根据实施例,利用全局及精细等级正则性,该正则性通常存在于降混合矩阵中。第三步骤为利用非零增益值的典型分布。
根据第一实施例,本发明方法从降混合矩阵开始,因为其可由音频内容的生产者提供。对于以下论述,为简单起见,假设所考虑的降混合矩阵为图4的降混合矩阵。根据本发明方法,转换图4的降混合矩阵以用于提供紧密降混合矩阵,当与原始矩阵相比时,该紧密降混合矩阵可被更有效率地编码。
图5示意性表示刚提及的转换步骤。在图5的上部部分中,示出图4的原始降混合矩阵306,以下文将进一步详细描述的方式将该原始降混合矩阵306转换成图5的下部部分中示出的紧密降混合矩阵308。根据本发明方法,使用“对称扬声器对”的概念,该概念意味着相对于收听者位置,一个扬声器在左半平面中,而另一扬声器在右半平面中。此对称对配置对应于具有相同仰角以及具有相同绝对值但带有不同正负号的方位角的两个扬声器。
根据实施例,定义不同类别的扬声器组,主要为对称扬声器S、中心扬声器C及不对称扬声器A。中心扬声器为当改变扬声器位置的方位角的正负号时其位置不改变的那些扬声器。不对称扬声器为缺乏给定配置中的另一个或对应的对称扬声器的那些扬声器,或在一些罕见配置中,另一侧上的扬声器可具有不同仰角或方位角,从而在此情况下存在两个单独的不对称扬声器,而非对称对。在图5中示出的降混合矩阵306中,输入声道配置300包括图5的上部部分中指示的九个对称扬声器对S1至S9。举例而言,对称扬声器对S1包括22.2输入声道配置300的扬声器Lc及Rc。同样,22.2输入配置中的LFE扬声器为对称扬声器,因为其关于收听者位置具有相同仰角及具有相同绝对值但带有不同正负号的方位角。22.2输入声道配置300进一步包括六个中心扬声器C1至C6,即,扬声器C、Cs、Cv、Ts、Cvr及Cb。输入声道配置中不存在不对称声道。不同于输入声道配置,输出声道配置302仅包括两个对称扬声器对S10及S11,及一个中心扬声器C7及一个不对称扬声器A1。
根据所描述的实施例,通过将形成对称扬声器对的输入及输出扬声器分组在一起而将降混合矩阵306转换为紧密表示308。将各个扬声器分组在一起产生包括与原始输入配置300中相同的中心扬声器C1至C6的紧密输入配置310。然而,当与原始输入配置300相比时,对称扬声器S1至S9分别被分组在一起,以使得各对此时仅占据单一行,如图5的下部部分中所指示。以类似方式,原始输出声道配置302也被转换成也包括原始中心及不对称扬声器(即,中心扬声器C7及不对称扬声器A1)的紧密输出声道配置312。然而,各个扬声器对S10及S11被组合至单一列中。因此,如从图5可见,原始降混合矩阵306的24×6的尺寸减小为紧密降混合矩阵的15×4的尺寸。
在关于图5所描述的实施例中,可看到在原始降混合矩阵306中,指示输入声道多强地有贡献于输出声道的与各个对称扬声器对S1至S11相关联的混合增益针对输入声道及输出声道中的对应的对称扬声器对而被对称地布置。举例而言,在查看对S1及S10时,各个左及右声道经由增益0.7组合,而左/右声道的组合以增益0组合。因此,当以如在紧密降混合矩阵308中所示出的方式将各个声道分组在一起时,紧密降混合矩阵元素314可包括也关于原始矩阵所306描述的各个混合增益。因此,根据上述实施例,通过将对称扬声器对分组在一起来减小原始降混合矩阵的大小,从而相比于原始降混合矩阵,“紧密”表示308可被更有效率地编码。
关于图6,现将描述本发明的又一实施例。图6再次示出具有如已关于图5所示出及描述的经转换的输入声道配置310及输出声道配置312的紧密降混合矩阵308。在图6的实施例中,不同于在图5中,紧密降混合矩阵的矩阵条目314不表示任何增益值而表示所谓的“显著性值”。显著性值指示在各个矩阵元素314处与其相关联的任何增益是否为零。示出值“1”的那些矩阵元素314指示各个元素已具有与其相关联的增益值,而空矩阵元素指示无增益值或零增益与此元素相关联。根据此实施例,当与图5相比时,用显著性值替代实际增益值允许更进一步对紧密降混合矩阵进行有效率地编码,因为可使用(例如)每条目一个比特(指示用于各个显著性值的值1或值0)来对图6的表示308进行简单地编码。此外,除对显著性值进行编码之外,也将有必要对与矩阵元素相关联的各个增益值进行编码,从而在对所接收的信息进行解码后,可重建构完整的降混合矩阵。
根据另一实施例,可使用行程长度方案对呈如图6中所示出的紧密形式的降混合矩阵的表示进行编码。在此行程长度方案中,通过将以行1开始且以行15结束的行串接在一起而将矩阵元素314变换成一维向量。然后将此一维向量转换成含有行程长度(例如,以1结束的连续零的数目)的列表。在图6的实施例中,此产生以下列表:
其中(1)表示在比特向量以0结束的情况下的虚拟终止。可使用适当的编码方案(如,将可变长度的前缀码分配给每个数字的有限哥伦布-莱斯编码)对以上所示出的行程长度进行编码,从而使总比特长度最小化。哥伦布-莱斯编码方法用以使用非负整数参数p≥0对非负整数n≥0进行编码如下:首先,使用一元编码对数字进行编码,h一(1)比特后跟着终止零比特;然后使用p个比特对数字进行均匀地编码。
有限哥伦布-莱斯编码为在提前已知n<N时所使用的平凡变体。当对h的最大可能值(其为)进行编码时,有限哥伦布-莱斯编码不包括终止零比特。更准确地,为了对进行编码,使用仅h一(1)比特而无需终止零比特,不需要终止零比特是因为解码器可隐含地检测此条件。
如上所提及,需要对与各个元素314相关联的增益进行编码及传输,且以下将进一步详细描述用于进行此的实施例。在详细论述增益的编码之前,现将描述用于对图6中所示出的紧密降混合矩阵的结构进行编码的另外实施例。
图7描述用于通过利用典型紧密矩阵具有某一有意义结构从而其大体上类似于在音频编码器及音频解码器二者处可用的模板矩阵的事实来对紧密降混合矩阵的结构进行编码的又一实施例。图7示出如也在图6中示出的具有显著性值的紧密降混合矩阵308。另外,图7示出具有相同输入声道配置310'及输出声道配置312'的可能模板矩阵316的示例。模板矩阵(如紧密降混合矩阵)包括各个模板矩阵元素314'中的显著性值。除了如上所提及的仅“类似于”紧密降混合矩阵的模板矩阵在一些元素314'中不同之外,显著性值基本上以与在紧密降混合矩阵中相同的方式分布在元素314'中。模板矩阵316与紧密降混合矩阵308的不同之处在于,在紧密降混合矩阵308中,矩阵元素318及320不包括任何增益值,而在对应的矩阵元素318'及320'中,模板矩阵316包括显著性值。因此,关于高亮的条目318'及320',模板矩阵316不同于需被编码的紧密矩阵。为实现紧密降混合矩阵的更进一步有效率的编码,当与图6比较时,逻辑地组合两个矩阵308、316中的对应的矩阵元素314、314'以按与关于图6所描述的类似的方式获得可以以上述类似方式而被编码的一维向量。矩阵元素314、314'中的每个可经受XOR运算,更具体地,使用紧密模板将逐逻辑元素地XOR运算应用于紧密矩阵,此产生被转换成含有以下行程长度的列表的一维向量:
现可(例如)通过也使用有限哥伦布-莱斯编码对此列表进行编码。当与关于图6所描述的实施例相比时,可以看出,可甚至更有效率地对此列表进行编码。在最好情况下,当紧密矩阵与模板矩阵相同时,整个向量仅由零组成,且仅需对一个行程长度数目进行编码。
关于模板矩阵的使用,如已关于图7对其进行描述,应注意,与由扬声器的列表所确定的输入或输出配置相比,编码器及解码器均需要具有由输入及输出扬声器集合唯一地确定的此紧密模板的预定义集合。此意味着输入及输出扬声器的次序与模板矩阵的确定无关,相反,可在用以匹配给定紧密矩阵的次序之前变更该次序。
在下文中,如上所提及,将描述关于原始降混合矩阵中所提供的混合增益的编码的实施例,该混合增益不再存在于紧密降混合矩阵中且需要被编码及传输。
图8描述用于对混合增益进行编码的实施例。根据输入及输出扬声器组(即,组S(对称的L及R)、C(中心)及A(不对称))的不同组合,此实施例利用对应于原始降混合矩阵中的一个或多个非零条目的子矩阵的属性。图8描述可根据输入及输出扬声器(即,对称扬声器L及R、中心扬声器C及不对称扬声器A)的不同组合从图4中所示的降混合矩阵得到的可能子矩阵。在图8中,字母a、b、c及d表示任意增益值。
图8(a)示出四个可能子矩阵,正如其可从图4的矩阵得到。第一个为定义两个中心声道(例如,输入配置300中的扬声器C及输出配置302中的扬声器C)的映射的子矩阵,且增益值“a”为矩阵元素[1,1](图4中的左上方元素)中指示的增益值。图8(a)中的第二子矩阵表示(例如)将两个对称输入声道(例如,输入声道Lc及Rc)映射至输出声道配置中的中心扬声器(如,扬声器C)。增益值“a”及“b”为矩阵元素[1,2]及[1,3]中指示的增益值。图8(a)中的第三子矩阵指的是图4的输入配置300中的中心扬声器C(如,扬声器Cvr)至输出配置302中的两个对称声道(如,声道Ls及Rs)的映射。增益值“a”及“b”为矩阵元素[4,21]及[5,21]中指示的增益值。图8(a)中的第四子矩阵表示映射两个对称声道的情况,例如,输入配置300中的声道L、R被映射至输出配置302中的声道L、R。增益值“a”至“d”为矩阵元素[2,4]、[2,5]、[3,4]及[3,5]中指示的增益值。
图8(b)示出映射不对称扬声器时的子矩阵。第一表示为通过映射两个不对称扬声器而获得的子矩阵(图4中未给出此子矩阵的示例)。图8(b)的第二子矩阵指的是两个对称输入声道至不对称输出声道的映射,该映射在图4的实施例中为(例如)两个对称输入声道LFE及LFE2至输出声道LFE的映射。增益值“a”及“b”为矩阵元素[6,11]及[6,12]中指示的增益值。图8(b)中的第三子矩阵表示输入不对称扬声器与输出扬声器的对称对相匹配的情况。在示例的情况下,不存在不对称输入扬声器。
图8(c)示出用于将中心扬声器映射至不对称扬声器的两个子矩阵。第一子矩阵将输入中心扬声器映射至不对称输出扬声器(图4中未给出此子矩阵的示例),且第二子矩阵将不对称输入扬声器映射至中心输出扬声器。
根据此实施例,对于每个输出扬声器组,检查对应列对于所有条目是否满足对称性及可分离性的属性,且使用两个比特将此信息传输作为旁侧信息。
将关于图8(d)及图8(e)描述对称性属性,且对称性属性意味着包含L及R扬声器的S组以相同增益混合至中心扬声器或不对称扬声器,或自中心扬声器或不对称扬声器以相同增益混合,或S组得以同等地混合至另一S组或自另一S组同等地混合。图8(d)中描绘出混合S组的刚提及的两个可能性,且两个子矩阵对应于以上关于图8(a)所描述的第三子矩阵及第四子矩阵。应用刚提及的对称性属性(即,使用相同增益混合)产生图8(e)中所示出的第一子矩阵,其中使用相同增益值将输入中心扬声器C映射至对称扬声器组S(例如,参见图4中输入扬声器Cvr至输出扬声器Ls及Rs的映射)。此在相反方面亦适用,例如,在查看输入扬声器Lc、Rc至输出声道的中心扬声器C的映射时;此处可发现相同的对称性属性。对称性属性进一步导致图8(e)中所示出的第二子矩阵,根据此,在对称性扬声器中的混合为等同的,其意味着左扬声器的映射与右扬声器的映射使用相同增益因数,且也使用相同增益值来进行左扬声器至右扬声器的映射与右扬声器至左扬声器的映射。在图4中(例如)关于输入声道L、R至输出声道L、R的映射来描绘此,其中增益值“a”=1,且增益值“b”=0。
可分离性属性意味着通过保持从左侧向左的所有信号及从右侧向右的所有信号对称组得以混合至另一对称组或自另一对称组混合。此适用于图8(f)中所示出的子矩阵,该子矩阵对应于以上关于图8(a)所描述的四个子矩阵。应用刚提及的可分离性属性导致图8(g)中所示出的子矩阵,根据此,左输入声道仅被映射至左输出声道且右输入声道仅被映射至右输出声道,且归因于零增益因数,不存在“声道间”映射。
使用在多数已知的降混合矩阵中遇到的以上提及的两个属性允许进一步显著地减少需被编码的增益的实际数目,且在满足可分离性属性的情况下还直接消除大量零增益所需要的编码。举例而言,当考虑包括显著性值的图6的紧密矩阵时且当将以上引用的属性应用于原始降混合矩阵时,可以看到,(例如)以如图5中在下部部分中所示出的方式足以定义用于各个显著性值的单一增益值,这是因为,归因于可分离性及对称性属性,已知与各个显著性值相关联的各个增益值在解码后需要以何种方式分布在原始降混合矩阵中。因此,当关于图6中所示出的矩阵应用图8的上述实施例时,足以仅提供需要与经编码的显著性值一起被编码并传输的19个增益值,以用于允许解码器重建构原始降混合矩阵。
在下文中,将描述用于动态地创建增益表的实施例,该增益表可用于(例如)由音频内容的生产者定义原始降混合矩阵中的原始增益值。根据此实施例,使用指定精度在最小增益值(minGain)与最大增益值(maxGain)之间动态地创建增益表。优选地,创建该增益表以使得最频繁使用的值及较多“舍入”的值被布置为比其他值(即,不常用的值或未如此舍入的值)更靠近表格或列表的开头。根据实施例,使用maxGain、maxGain及精度等级的可能值的列表可被如下地创建:
-添加3 dB的整数倍,从0 dB降低至minGain;
-添加3 dB的整数倍,从3 dB上升至maxGain;
-添加1 dB的剩余整数倍,从0 dB降低至minGain;
-添加1 dB的剩余整数倍,从1 dB上升至maxGain;
在精度等级为1 dB时停止;
-添加0.5 dB的剩余整数倍,从0 dB降低至minGain;
-添加0.5 dB的剩余整数倍,从0.5 dB上升至maxGain;
在精度等级为0.5 dB时停止;
-添加0.25 dB的剩余整数倍,从0 dB降低至minGain;及
-添加0.25 dB的剩余整数倍,从0.25 dB上升至maxGain。
举例而言,当maxGain为2 dB且 minGain为-6 dB且精度为0.5 dB时,创建以下列表:
0、-3、-6、-1、-2、-4、-5、1、2、-0.5、-1.5、-2.5、-3.5、-4.5、-5.5、0.5、1.5。
关于以上实施例,应注意,本发明并不限于以上指示的值,相反,替代使用3 dB的整数倍并从0 dB开始,可选择其他值,且也可依据情况选择用于精度等级的其他值。
大体而言,增益值列表可被如下地创建:
-在最小增益(含)与起始增益值(含)之间以递减次序添加第一增益值的整数倍;
-在起始增益值(含)与最大增益(含)之间以递增次序添加第一增益值的剩余整数倍;
-在最小增益(含)与起始增益值(含)之间以递减次序添加第一精度等级的剩余整数倍;
-在起始增益值(含)与最大增益(含)之间以递增次序添加第一精度等级的剩余整数倍;
-在精度等级为第一精度等级时停止;
-在最小增益(含)与起始增益值(含)之间以递减次序添加第二精度等级的剩余整数倍;
-在起始增益值(含)与最大增益(含)之间以递增次序添加第二精度等级的剩余整数倍;
-在精度等级为第二精度等级时停止;
-在最小增益(含)与起始增益值(含)之间以递减次序添加第三精度等级的剩余整数倍;及
-在起始增益值(含)与最大增益(含)之间以递增次序添加第三精度等级的剩余整数倍。
在以上实施例中,当起始增益值为零时,以递增次序添加剩余值且满足相关联的倍数性条件的部分将最初地添加第一增益值或第一或第二或第三精度等级。然而,在一般情况下,以递增次序添加剩余值的部分将最初地添加最小值,满足在起始增益值(含)与最大增益(含)之间的间隔中的相关联的倍数性条件。对应地,以递减次序添加剩余值的部分将最初地添加最大值,满足在最小增益(含)与起始增益值(含)之间的间隔中的相关联的倍数性条件。
考虑类似于以上示例但具有起始增益值=1 dB的示例(第一增益值=3 dB、maxGain=2 dB、minGain=-6 dB且精度等级=0.5 dB)产生以下:
下:0、-3、-6
上:[空]
下:1、-2、-4、-5
上:2
下:0.5、-0.5、-1.5、-2.5、-3.5、-4.5、-5.5
上:1.5
为对增益值进行编码,优选地,在表格中查找增益,并输出其在表格内部的位置。将始终发现期望增益,因为所有增益事先被量化至(例如)1 dB、0.5 dB或0.25 dB的指定精度的最近整数倍。根据优选实施例,增益值的位置具有与其相关联的索引,其指示在表格中的位置,且可(例如)使用有限哥伦布-莱斯编码方法对增益的索引进行编码。此导致小索引使用比大索引较少数目的比特,且如此,频繁使用的值或典型值(如0 dB、-3 dB或-6 dB)将使用最少数目的比特,且较多的“舍入”值(如-4 dB)将比并非如此舍入的数(例如,-4.5dB)使用较少数目的比特。因此,通过使用上述实施例,不仅音频内容的生产者可生成期望的增益列表,且也可非常有效率地对这些增益进行编码,从而当根据又一实施例应用所有上述方法时,可实现降混合矩阵的高度有效率的编码。
上述功能性可为音频编码器的部分,正如以上已关于图1对其进行描述,可选地,其可由单独的编码器装置提供,该编码器装置将降混合矩阵的经编码的版本提供至音频编码器以在比特流中将其传输至接收器或解码器。
在接收器侧接收到经编码的紧密降混合矩阵后,根据实施例,提供解码方法,该方法对经编码的紧密降混合矩阵进行解码且将经分组的扬声器取消分组(分离)成单一扬声器,借此产生原始降混合矩阵。当矩阵的编码包括对显著性值及增益值进行编码时,在解码步骤期间,显著性值及增益值被解码从而基于显著性值及基于期望的输入/输出配置,降混合矩阵可被重建构,且各个经解码的增益可与重建构的降混合矩阵的各个矩阵元素相关联。此可由单独解码器执行,该解码器产生至音频解码器的完整降混合矩阵(音频解码器(例如,以上关于图2、图3及图4描述的音频解码器)可在格式转换器中使用它)。
因此,如上所定义的本发明方法也提供用于将具有具体输入声道配置的音频内容呈现至具有不同输出声道配置的接收系统的系统及方法,其中用于降混合的附加信息与经编码的比特流一起被从编码器侧传输至解码器侧,且根据本发明方法,归因于降混合矩阵的非常有效率的编码,开销明显地降低。
在下文中,描述实施有效率的静态降混合矩阵编码的又一实施例。更具体地,将描述用于利用可选的EQ编码的静态降混合矩阵的实施例。也如较早所提及的,与多声道音频有关的一个问题为适应其实时传输,同时维持与所有现有可用的客户物理扬声器装备的兼容性。一个解决方案为在呈原始生产格式的音频内容旁提供降混合旁侧信息以生成具有较少独立声道的其他格式(若需要)。假设inputCount个输入声道及outputCount个输出声道,通过大小为inputCount乘outputCount的降混合矩阵指定降混合程序。此特定程序表示被动降混合,意味着取决于实际音频内容的适应性信号处理被应用至输入信号或经降混合的输出信号。根据现在描述的实施例,本发明方法描述用于降混合矩阵的有效率的编码的完整方案(包括关于选择合适的表示域及还关于经量化的值的无损编码的量化方案的方面)。每个矩阵元素表示混合增益,该混合增益调整给定输入声道对给定输出声道有贡献的程度。现在描述的实施例旨在通过允许对具有可由生产者根据其需要指定的范围及精度的任意降混合矩阵的编码来实现不受限制的灵活性。同样,期望有效率的无损编码,从而典型矩阵使用少量比特,且背离典型矩阵将仅逐渐地降低效率。此意味着矩阵越类似于典型矩阵,则该矩阵的编码将越有效率。根据实施例,所需的精度可由生产者指定为1 dB、0.5 dB或0.25 dB以用于均匀量化。混合增益的值可被指定在最大值+22 dB至最小值-47 dB(含)之间,且还包括值(线性域中的0)。降混合矩阵中使用的有效值域在比特流中被指示为最大增益值maxGain及最小增益值minGain,因此不浪费实际上未使用的值上的任何比特,同时不限制灵活性。
假设(例如)根据现有技术参考[6]或[7],提供关于每个扬声器的几何信息(如,方位角及仰角及可选地,扬声器的惯用名称)的输入声道列表以及输出声道列表是可用的,根据实施例,用于对降混合矩阵进行编码的算法可在表1中示出如下:
表1-DownmixMatrix的语法
/>
/>
/>
/>
根据实施例,用于对增益值进行解码的算法可在表2中示出如下:
表2-DecodeGainValue的语法
语法 | 比特数 | 助记符 |
DecodeGainValue(){ if (rawCodingNonzeros){ nAlphabet = (maxGain - minGain) * 2 ^precisionLevel + 1; gainValueIndex =ReadRange(nAlphabet); gainValue = maxGain- gainValueIndex / 2 ^ precisonLevel; } else{ gainValueIndex; /* limited Golomb-Riceusing gainLGRParam */ gainValue =gainTable[gainValueIndex]; }} | 变化 | bslbf |
根据实施例,用于定义读取范围函数的算法可在表3中示出如下:
表3-ReadRange的语法
语法 | 比特数 | 助记符 |
ReadRange(alphabetSize){ nBits = floor(log2(alphabetSize)); nUnused = 2 ^ (nBits + 1) -alphabetSize; range; if (range >= nUnused) { rangeExtra; range = range * 2 - nUnused +rangeExtra; } return range;} | nBits 1 | uimsbf uimsbf |
根据实施例,用于定义均衡器配置的算法可在表4中示出如下:
表4-EqualizerConfig的语法
语法 | 比特数 | 助记符 |
EqualizerConfig(inputConfig, inputCount){ numEqualizers= escapedValue(3, 5, 0) + 1; eqPrecisionLevel;eqExtendedRange; for (i = 0; i < numEqualizers; i++) {numSections = escapedValue(2, 4, 0) + 1;lastCenterFreqP10 = 0; lastCenterFreqLd2 = 10;maxCenterFreqLd2 = 99; for (j = 0; j < numSections; j++) { centerFreqP10 = lastCenterFreqP10 +ReadRange(4 - lastCenterFreqP10); if(centerFreqP10 > lastCenterFreqP10) lastCenterFreqLd2 = 10;if (centerFreqP10 == 3) maxCenterFreqLd2 = 24;centerFreqLd2 = lastCenterFreqLd2 +ReadRange(1 + maxCenterFreqLd2 - lastCenterFreqLd2);qFactorIndex; if (qFactorIndex > 19) {qFactorExtra; } cgBits = 4 +eqExtendedRange + eqPrecisionLevel;centerGainIndex; } sgBits = 4 +eqExtendedRange + min(eqPrecisionLevel + 1, 3);scalingGainIndex; } for (i = 0; i < inputCount; i++) { hasEqualizer[i]; if (hasEqualizer[i]) {equalizerIndex[i] = ReadRange(numEqualizers); }}} | 21 5 3 cgBits sgBits 1 | uimsbfuimsbfuimsbf uimsbf uimsbf uimsbfuimsbf |
根据实施例,降混合矩阵的元素可在表5中示出如下:
表5-降混合矩阵的元素
字段 | 描述/值 |
paramConfig,inputConfig,outputConfig | 指定关于每个扬声器的信息的声道配置向量。每个条目(paramConfig[i])为具有以下成员的结构:-AzimuthAngle,扬声器方位角的绝对值;-AzimuthDirection,方位方向,0(左)或1(右);-ElevationAngle,扬声器仰角的绝对值;-ElevationDirection,仰角方向,0(上)或1(下);-alreadyUsed,指示扬声器是否已为组的部分;-isLFE,指示扬声器是否为LFE扬声器。 |
paramCount,inputCount,outputCount | 对应的声道配置向量中的扬声器的数目 |
compactParamConfig,compactInputConfig,compactOutputConfig | 指定关于每个扬声器组的信息的紧密声道配置向量。每个条目(compactParamConfig[i])为具有以下成员的结构:-pairType,扬声器组的类型,其可为SYMMETRIC(两个扬声器的对称对)、center或ASYMMETRIC;-isLFE,指示扬声器组是否由LFE扬声器组成;-originalPosition,组中的第一扬声器或仅有扬声器在原始声道配置中的位置;-symmetricPair.originalPosition,组中的第二扬声器在原始声道配置中的位置,仅用于SYMMETRIC组。 |
compactParamCount,compactInputCount,compactOutputCount | 对应的紧密声道配置向量中的扬声器组的数目 |
equalizerPresent | 布尔型,指示待应用于输入声道的均衡器信息是否存在 |
precisionLevel | 用于增益的均匀量化的精度:0=1 dB、1=0.5 dB、2=0.25 dB、3保留 |
maxGain | 矩阵中的最大实际增益(以dB来表示):从0至22的可能值,按照线性1…12.589 |
minGain | 矩阵中的最小实际增益(以dB来表示):从-1至-47的可能值,按照线性0.891…0.004 |
isAllSeparable | 布尔型,指示所有输出扬声器组是否都满足可分离性属性 |
isSeparable[i] | 布尔型,指示具有索引i的输出扬声器组是否满足可分离性属性 |
isAllSymmetric | 布尔型,指示所有输出扬声器组是否都满足对称性属性 |
isSymmetric[i] | 布尔型,指示具有索引i的输出扬声器组是否满足对称性属性 |
mixLFEOnlyToLFE | 布尔型,指示是否LFE扬声器仅混合至LFE扬声器,且同时非LFE扬声器仅混合至非LFE扬声器。 |
rawCodingCompactMatrix | 布尔型,指示compactDownmixMatrix经原始编码(每条目使用一个比特),或是使用行程长度编码跟着使用有限哥伦布-莱斯对其进行编码 |
compactDownmixMatrix[i][j] | 对应于输入扬声器组i及输出扬声器组j的compactDownmixMatrix中的条目,指示相关联的增益中的任一个是否为非零:0=所有增益为零,1=至少一个增益为非零 |
useCompactTemplate | 布尔型,指示是否将逐元素地XOR应用至具有预定义的紧密模板矩阵的compactDownmixMatrix,以改良行程长度编码的效率 |
runLGRParam | 用以在线性化的flatCompactMatrix中对零行程长度进行编码的有限哥伦布-莱斯参数 |
flatCompactMatrix | 已应用的具有预定义的紧密模板矩阵的compactDownmixMatrix的线性化版本;当使能mixLFEOnlyToLFE时,其不包括已知为零的条目(归因于非LFE与LFE之间的混合)或用于LFE至LFE混合的那些条目 |
compactTemplate | 预定义的紧密模板矩阵,具有“典型”条目,其对compactDownmixMatrix进行逐元素地XOR以通过创建大部分为零值的条目来改良编码效率 |
zeroRunLength | 在flatCompactMatrix中,零行程的长度之后始终跟着使用参数runLGRParam利用有限哥伦布-莱斯编码进行编码的一 |
fullForAsymmetricInputs | 布尔型,指示是否忽略用于每个不对称输入扬声器组的对称性属性;当被使能时,每个不对称输入扬声器组将具有两个增益值,增益值被解码用于具有索引i的每个对称输出扬声器组,与isSymmetric[i]无关 |
gainTable | 含有具有精度precisionLevel的在minGain与maxGain之间的所有可能增益的列表的动态产生的增益表 |
rawCodingNonzeros | 布尔型,指示非零增益值经原始编码(使用ReadRange函数均匀编码)或是使用有限哥伦布-莱斯编码对其在gainTable列表中的索引进行编码 |
gainLGRParam | 用于对通过搜索gainTable列表中的每个增益而计算的非零增益索引进行编码的有限哥伦布-莱斯参数 |
哥伦布-莱斯编码用以使用给定的非负整数参数对任何非负整数进行编码如下:首先使用一元编码对数字进行编码,因为h一比特后跟着终止零比特;然后使用个比特对数字均匀地进行编码。
有限哥伦布-莱斯编码为在提前已知(对于给定整数)时所使用的平凡变体。当对最大可能值(其为)进行编码时,有限哥伦布-莱斯编码不包括终止零比特。更准确地,为了对进行编码,我们仅写h一比特,而不写终止零比特,不需要该终止零比特是因为解码器可隐含地检测此条件。
以下所描述的函数ConvertToCompactConfig (paramConfig, paramCount)用于将由paramCount个扬声器组成的给定paramConfig配置转换成由compactParamCount个扬声器组组成的紧密compactParamConfig配置。compactParamConfig[i].pairType字段可在组表示成对的对称扬声器时为SYMMETRIC (S)、在组表示中心扬声器时为CENTER (C)或在组表示没有对称对的扬声器时为ASYMMETRIC (A)。
ConvertToCompactConfig(paramConfig, paramCount)
{
for (i = 0; i < paramCount; ++i) {
paramConfig[i].alreadyUsed = 0;
}
idx = 0;
for (i = 0; i < paramCount; ++i) {
if (paramConfig[i].alreadyUsed) continue;
compactParamConfig[idx].isLFE = paramConfig[i].isLFE;
if ((paramConfig[i].AzimuthAngle == 0) ||
(paramConfig[i].AzimuthAngle == 180°) {
compactParamConfig[idx].pairType = CENTER;
compactParamConfig[idx].originalPosition = i;
} else {
j = SearchForSymmetricSpeaker(paramConfig, paramCount, i);
if (j != -1) {
compactParamConfig[idx].pairType = SYMMETRIC;
if (paramConfig.AzimuthDirection == 0) {
compactParamConfig[idx].originalPosition = i;
compactParamConfig[idx].symmetricPair.originalPosition = j;
} else {
compactParamConfig[idx].originalPosition = j;
compactParamConfig[idx].symmetricPair.originalPosition = i;
}
paramConfig[j].alreadyUsed = 1;
} else {
compactParamConfig[idx].pairType = ASYMMETRIC;
compactParamConfig[idx].originalPosition = i;
}
}
idx++;
}
compactParamCount = idx;
}
函数FindCompactTemplate (inputConfig, inputCount, outputConfig,outputCount)用于发现匹配由inputConfig及inputCount表示的输入声道配置和由outputConfig及outputCount表示的输出声道配置的紧密模板矩阵。
通过在编码器及解码器二者处可用的紧密模板矩阵的预定义列表中搜索具有与inputConfig相同的输入扬声器集合及与outputConfig相同的输出扬声器集合的紧密模板矩阵而发现紧密模板矩阵,与不相关的实际扬声器次序无关。在回传所发现的紧密模板矩阵之前,函数可需要重排序其行及列以匹配如从给定输入配置得到的扬声器组的次序以及如从给定输出配置得到的扬声器组的次序。
若未发现匹配的紧密模板矩阵,则函数应回传具有正确数目的行(其为输入扬声器组的计算数目)及列(其为输出扬声器组的计算数目)的矩阵,对于所有条目,该矩阵具有值一(1)。
函数SearchForSymmetricSpeaker(paramConfig, paramCount, i)用于在由paramConfig及paramCount表示的声道配置中搜索对应于扬声器paramConfig[i]的对称扬声器。该对称扬声器paramConfig[j]应位于扬声器paramConfig[i]之后,因此,j可在i+1至paramConfig–1(含)的范围中。此外,其不应已为扬声器组的部分,意味着paramConfig[j].alreadyUsed必须为假(false)。
函数readRange()用于读取在0…alphabetSize-1(含)的范围中的均匀分布的整数,该范围可具有总数为alphabetSize的可能值。此可通过读取ceil(log2(alphabetSize))个比特但不利用未使用的值而简单地完成。举例而言,当alphabetSize为3时,函数将仅使用一个比特用于整数0,及两个比特用于整数1及2。
函数generateGainTable(maxGain, minGain, precisionLevel)用于动态地生成增益表gainTable,该增益表gainTable含有具有精度precisionLevel的在minGain与maxGain之间的所有可能增益的列表。选择值的次序,从而最频繁使用的值以及较多“舍入”值将通常更靠近列表的开头。具有所有可能增益值的列表的增益表可如下地产生:
- 添加3 dB的整数倍,从0 dB降低至minGain;
- 添加3 dB的整数倍,从3 dB上升至maxGain;
- 添加1 dB的剩余整数倍,从0 dB降低至minGain;
- 添加1 dB的剩余整数倍,从1 dB上升至maxGain;
- 在precisionLevel为0(对应于1 dB)时停止;
- 添加0.5 dB的剩余整数倍,从0 dB降低至minGain;
- 添加0.5 dB的剩余整数倍,从0.5 dB上升至maxGain;
- 在precisionLevel为1(对应于0.5 dB)时停止;
- 添加0.25 dB的剩余整数倍,从0 dB降低至minGain;
- 添加0.25 dB的剩余整数倍,从0.25 dB上升至maxGain。
举例而言,当maxGain为2 dB,及minGain为-6 dB,且precisionLevel为0.5 dB时,我们创建以下列表:0、-3、-6、-1、-2、-4、-5、1、2、-0.5、-1.5、-2.5、-3.5、-4.5、-5.5、0.5、1.5。
根据实施例,用于均衡器配置的元素可在表6中示出如下:
表6-EqualizerConfig的元素
字段 | 描述/值 |
numEqualizers | 存在的不同均衡器滤波器的数目 |
eqPrecisionLevel | 用于增益的均匀量化的精度:0=1 dB、1=0.5 dB、2=0.25 dB、3=0.1 dB |
eqExtendedRange | 布尔型,指示是否使用用于增益的扩展范围;若被使能,则可用范围加倍 |
numSections | 均衡器滤波器的部分的数目,每个部分为峰值滤波器 |
centerFreqLd2 | 用于峰值滤波器的中心频率的前两个十进位数字;最大范围为10…99 |
centerFreqP10 | 待附加至centerFreqLd2的零的数目,最大范围为0…3 |
qFactorIndex | 用于峰值滤波器的品质因数索引 |
qFactorExtra | 用于对大于1.0的品质因数进行解码的额外比特 |
centerGainIndex | 用于峰值滤波器的在中心频率处的增益 |
scalingGainIndex | 用于均衡器滤波器的缩放增益 |
hasEqualizer[i] | 布尔型,指示具有索引i的输入声道是否具有与其相关联的均衡器 |
eqalizerIndex[i] | 与具有索引i的输入声道相关联的均衡器的索引 |
在下文中,将描述根据实施例的解码过程的方面,从降混合矩阵的解码开始。
语法元素DownmixMatrix()含有降混合矩阵信息。解码首先读取由语法元素EqualizerConfig()表示的均衡器信息(若被使能)。然后读取字段precisionLevel、maxGain及minGain。使用函数ConvertToCompactConfig()将输入及输出配置转换成紧密配置。然后,读取指示对于每个输出扬声器组是否满足可分离性及对称性属性的旗标。
然后通过a)每条目原始使用一个比特或b)使用行程长度的有限哥伦布莱斯编码,且接着将经解码的比特从flactCompactMatrix复制至compactDownmixMatrix并应用compactTemplate矩阵来读取显著性矩阵compactDownmixMatrix。
最后,读取非零增益。对于compactDownmixMatrix的每个非零条目,取决于对应输入组的字段pairType及对应输出组的字段pairType,必须重建构大小高达2乘2的子矩阵。使用可分离性及对称性相关联的属性,使用函数DecodeGainValue()读取多个增益值。可通过使用函数ReadRange()或使用增益在gainTable表中的索引的有限哥伦布-莱斯编码来对增益值进行均匀地编码,该gainTable表含有所有可能增益值。
现在将描述对均衡器配置进行解码的方面。语法元素EqualizerConfig()含有待应用于输入声道的均衡器信息。首先numEqualizers个均衡器滤波器的编号被解码且之后使用eqIndex[i]而被选择用于具体的输入声道。字段eqPrecisionLevel及eqExtendedRange指示缩放增益及峰值滤波器增益的量化精度及可用范围。
每个均衡器滤波器为存在于峰值滤波器的多个numSections和一scalingGain中的串联级联。每个峰值滤波器完全由其centerFreq、qualityFactor及centerGain定义。
必须以非递减次序给出属于给定均衡器滤波器的峰值滤波器的centerFreq参数。参数限于10…24000 Hz(含),且可被计算如下:
峰值滤波器的qualityFactor参数可表示具有0.05的精度的在0.05与1.0(含)之间的值及具有0.1的精度的从1.1至11.3(含)的值,且可被计算如下:
引入给出对应于给定eqPrecisionLevel的以dB为单位的精度的向量eqPrecisions,及给出用于对应于给定eqExtendedRange及eqPrecisionLevel的增益的以dB为单位的最小值及最大值的eqMinRanges矩阵及eqMaxRanges矩阵。
参数scalingGain使用精度等级,该精度等级为下一个较佳精度等级(若尚不是最后一个精度等级)。从字段centerGainIndex及scalingGainIndex至增益参数centerGain及scalingGain的映射被计算如下:
尽管已在装置的上下文中描述了一些方面,但显然,这些方面还表示对应方法的描述,其中区块或装置对应于方法步骤或方法步骤的特征。类似地,方法步骤的上下文中所描述的方面还表示对应区块或对应装置的项目或特征的描述。可由(或使用)硬件装置(例如,微处理器、可编程计算机或电子电路)执行方法步骤中的一些或全部。在一些实施例中,可由此装置执行最重要方法步骤中的某一步或多步。
依据某些实施要求,本发明的实施例可以以硬件或软件实施。可使用具有存储于其上的电子可读控制信号的诸如数字存储介质的非暂时性存储介质,例如软盘、硬盘、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或闪存,执行实施方案,电子可读控制信号与(或能够与)可编程计算机系统协作,从而执行各个方法。因此,数字存储介质可是计算机可读的。
根据本发明的一些实施例包含具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,从而执行本文中所描述的方法中的一个。
大体而言,本发明的实施例可被实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码可操作用于执行所述方法中的一个。程序代码可(例如)储存于机器可读载体上。
其他实施例包含储存于机器可读载体上的用于执行本文中所描述的方法中的一个的计算机程序。
换言之,因此,本发明方法的实施例为具有程序代码的计算机程序,当计算机程序在计算机上运行时,该程序代码用于执行本文中所描述的方法中的一个。
因此,本发明方法的另一实施例为数据载体(或数字存储介质,或计算机可读介质),其包含记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常为有形的及/或非暂时性的。
因此,本发明方法之另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可(例如)被配置为通过数据通信连接(例如,通过因特网)进行传送。
另一实施例包含处理装置(例如,计算机或可编程逻辑装置),其被配置为或编程为执行本文中所描述的方法中的一个。
另一实施例包含一种计算机,其具有安装于其上的用于执行本文中所描述的方法中的一个的计算机程序。
根据本发明的另一实施例包含用于将用于执行本文中所描述的方法中的一个的计算机程序传输(例如,电子地或光学地)至接收器的装置或系统。接收器可(例如)为计算机、移动装置、存储器装置或类似。装置或系统可(例如)包含用于将计算机程序传输至接收器的文件服务器。
在一些实施例中,可编程逻辑装置(例如,现场可编程门阵列)可用于执行本文中所描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可与微处理器协作,以执行本文中所描述的方法中的一个。大体而言,优选地由任何硬件装置执行方法。
上文所描述的实施例仅仅说明本发明的原理。应理解的是,本文中所描述的配置及细节的修改及变化对于本领域的其他技术人员是显而易见的。因此,其仅受到所附的专利权利要求的范围的限制,而不受本文中以实施例的描述及解释方式所呈现的特定细节的限制。
文献
[1] Information technology - Coding of audio-visual objects - Part 3:Audio, AMENDMENT 4: New levels for AAC profiles, ISO/IEC 14496-3:2009/DAM 4, 2013.
[2] ITU-R BS.775-3, “Multichannel stereophonic sound system with andwithout accompanying picture,” Rec., International Telecommunications Union,Geneva, Switzerland, 2012.
[3] K. Hamasaki, T. Nishiguchi, R. Okumura, Y. Nakayama and A. Ando,“A 22.2 Multichannel Sound System for Ultrahigh-definition TV (UHDTV),” SMPTEMotion Imaging J., pp. 40-49, 2008.
[4] ITU-R Report BS.2159-4, “Multichannel sound technology in homeand broadcasting applications”, 2012.
[5] Enhanced audio support and other improvements, ISO/IEC 14496-12:2012 PDAM 3, 2013.
[6] International Standard ISO/IEC 23003-3:2012, Informationtechnology - MPEG audio technologies - Part 3: Unified Speech and AudioCoding, 2012.
[7] International Standard ISO/IEC 23001-8:2013, Informationtechnology - MPEG systems technologies - Part 8: Coding-independent codepoints, 2.
Claims (27)
1.一种用于对用于将音频内容的多个输入声道(300)映射至多个输出声道(302)的降混合矩阵(306)进行解码的方法,所述输入及输出声道(300,302)与位于相对于收听者位置的预定位置处的各个扬声器相关联,其中通过利用所述多个输入声道(300)的扬声器对(S1-S9)的对称性以及所述多个输出声道(302)的扬声器对(S10-S11)的对称性对所述降混合矩阵(306)进行编码,所述方法包含:
接收表示经编码的降混合矩阵(306)的经编码的信息;以及
对所述经编码的信息进行解码以获得经解码的降混合矩阵(306),
其中对所述降混合矩阵(306)进行解码包含:
从表示所述降混合矩阵的所述信息解码指示在所述降混合矩阵(306)中对于每组输出声道(302)是否满足对称性属性和可分离性属性的信息,所述对称性属性指示输出声道(302)的组自单一输入声道(300)以相同增益混合或输出声道(302)的组自输入声道(300)的组同等地混合,且所述可分离性属性指示输出声道(302)的组自输入声道(300)的组混合同时保持在各自的左侧或右侧处的所有信号。
2.根据权利要求1所述的方法,其中所述降混合矩阵(306)中的输入及输出声道(300,302)的各对(S1-S11)具有用于调适给定输入声道(300)对给定输出声道(302)有贡献的程度的相关联的各个混合增益,且
所述方法进一步包含:
从表示所述降混合矩阵(306)的所述信息解码经编码的显著性值,其中将各个显著性值分配给成对的所述输入声道(300)的对称扬声器组与所述输出声道(302)的对称扬声器组(S1-S11),所述显著性值指示用于所述输入声道(300)中的一个或多个的混合增益是否为零;以及
从表示所述降混合矩阵(306)的所述信息解码经编码的混合增益。
3.根据权利要求2所述的方法,其中所述显著性值包含指示为零的混合增益的第一值,以及指示不为零的混合增益的第二值,且其中对所述显著性值进行解码包含:解码以预定义次序串接所述显著性值的一维向量。
4.根据权利要求2所述的方法,其中,基于具有相同的成对的所述输入声道(300)的扬声器组以及所述输出声道(302)的扬声器组的模板,对所述显著性值进行解码,所述模板具有与其相关联的模板显著性值。
5.根据权利要求4所述的方法,其中
使用所述模板显著性值和一维向量来解码所述显著性值,所述一维向量逻辑地组合所述显著性值与所述模板显著性值,并通过第一值指示显著性值与模板显著性值相同,并通过第二值指示显著性值与模板显著性值不同。
6.根据权利要求5所述的方法,其中所述一维向量包含行程长度,行程长度为以所述第二值终止的连续的第一值的数目。
7.根据权利要求5所述的方法,其中使用哥伦布-莱斯编码或有限哥伦布-莱斯编码对所述行程长度进行编码。
8.根据权利要求1所述的方法,其中对于满足所述对称性属性及所述可分离性属性的输出声道(302)的组,提供单一混合增益。
9.根据权利要求2所述的方法,包含:
提供保持有所述混合增益的列表,每个混合增益与所述列表中的索引相关联;
从表示所述降混合矩阵(306)的所述信息解码所述列表的所述索引;以及
根据所述列表中的经解码的索引从所述列表选择所述混合增益。
10.根据权利要求9所述的方法,其中使用哥伦布-莱斯编码或有限哥伦布-莱斯编码对所述索引进行编码。
11.根据权利要求9所述的方法,其中提供所述列表包含:
从表示所述降混合矩阵(306)的所述信息解码最小增益值、最大增益值及期望精度;以及
创建包括在所述最小增益值与所述最大增益值之间的多个增益值的所述列表,所述增益值设有所述期望精度,其中使用所述增益值越频繁,则所述增益值越接近于所述列表的开头,所述列表的所述开头具有最小索引。
12.根据权利要求11所述的方法,其中创建所述增益值的列表如下:
在所述最小增益与起始增益值之间,包括端值,以递减次序添加第一增益值的整数倍;
在所述起始增益值与所述最大增益之间,包括端值,以递增次序添加所述第一增益值的剩余整数倍;
在所述最小增益与所述起始增益值之间,包括端值,以递减次序添加第一精度等级的剩余整数倍;
在所述起始增益值与所述最大增益之间,包括端值,以递增次序添加所述第一精度等级的剩余整数倍;
在精度等级为所述第一精度等级时停止;
在所述最小增益与所述起始增益值之间,包括端值,以递减次序添加第二精度等级的剩余整数倍;
在所述起始增益值与所述最大增益之间,包括端值,以递增次序添加所述第二精度等级的剩余整数倍;
在精度等级为所述第二精度等级时停止;
在所述最小增益与所述起始增益值之间,包括端值,以递减次序添加第三精度等级的剩余整数倍;以及
在所述起始增益值与所述最大增益之间,包括端值,以递增次序添加所述第三精度等级的剩余整数倍。
13.根据权利要求12所述的方法,其中所述起始增益值=0dB,所述第一增益值=3dB,所述第一精度等级=1dB,所述第二精度等级=0.5dB,且所述第三精度等级=0.25dB。
14.根据权利要求1所述的方法,其中依据相对于所述收听者位置的扬声器位置的方位角及仰角而定义扩音器的预定位置,且其中具有相同仰角且具有相同绝对值但带有不同正负号的方位角的扬声器形成对称扬声器对(S1-S11)。
15.根据权利要求1所述的方法,其中所述输入及输出声道(302)进一步包括与一个或多个中心扬声器及一个或多个不对称扬声器相关联的声道,不对称扬声器缺乏在由所述输入/输出声道(302)定义的配置中的另一对称扬声器。
16.根据权利要求1所述的方法,其中对所述降混合矩阵(306)进行编码包含:通过将与对称扬声器对(S1-S9)相关联的所述降混合矩阵(306)中的输入声道(300)以及与对称扬声器对(S10-S11)相关联的所述降混合矩阵(306)中的输出声道(302)一起分组至共同列或行中来将所述降混合矩阵转换为紧密降混合矩阵(308),以及对所述紧密降混合矩阵(308)进行编码。
17.根据权利要求16所述的方法,其中对所述紧密降混合矩阵进行解码包含:
接收所述经编码的显著性值及所述经编码的混合增益,
对所述显著性值进行解码、生成经解码的紧密降混合矩阵(308)并对所述混合增益进行解码,
将经解码的混合增益分配给指示增益不为零的对应的显著性值,以及
对被分组在一起的所述输入声道(300)及所述输出声道(302)取消分组,用于获得所述经解码的降混合矩阵(306)。
18.一种用于对用于将音频内容的多个输入声道(300)映射至多个输出声道(302)的降混合矩阵(306)进行编码的方法,所述输入及输出声道(300,302)与位于相对于收听者位置的预定位置处的各个扬声器相关联,
其中对所述降混合矩阵(306)进行编码包含利用所述多个输入声道(300)的扬声器对(S1-S9)的对称性以及所述多个输出声道(302)的扬声器对(S10-S11)的对称性,
其中对所述降混合矩阵(306)进行编码包含:
将指示在所述降混合矩阵(306)中对于每组输出声道(302)是否满足对称性属性和可分离性属性的信息编码到表示所述降混合矩阵的信息中,所述对称性属性指示输出声道(302)的组自单一输入声道(300)以相同增益混合或输出声道(302)的组自输入声道(300)的组同等地混合,且所述可分离性属性指示输出声道(302)的组自输入声道(300)的组混合同时保持在各自的左侧或右侧处的所有信号。
19.一种用于将具有多个输入声道(300)的音频内容呈现至具有不同于输入声道(300)的多个输出声道(302)的系统的方法,所述方法包含:
提供所述音频内容及用于将所述输入声道(300)映射至所述输出声道(302)的降混合矩阵(306),
对所述音频内容进行编码;
根据权利要求18对所述降混合矩阵(306)进行编码;
将经编码的音频内容及经编码的降混合矩阵(306)传输至所述系统;
对所述音频内容进行解码;
根据权利要求1对降混合矩阵(306)进行解码;以及
使用经解码的降混合矩阵(306)将所述音频内容的所述输入声道(300)映射至所述系统的所述输出声道(302)。
20.根据权利要求19所述的方法,其中所述降混合矩阵(306)由用户指定。
21.根据权利要求19所述的方法,进一步包含:传输与所述输入声道(300)或所述降混合矩阵元素(304)相关联的均衡器参数。
22.一种非暂时性计算机产品,包括计算机可读介质,其储存有用于执行根据权利要求1所述的方法的指令。
23.一种用于对降混合矩阵(306)进行解码的解码器,所述降混合矩阵(306)用于将音频内容的多个输入声道(300)映射至多个输出声道(302),所述输入及输出声道(302)与位于相对于收听者位置的预定位置处的各个扬声器相关联,其中通过利用所述多个输入声道(300)的扬声器对(S1-S9)的对称性以及所述多个输出声道(302)的扬声器对(S10-S11)的对称性对所述降混合矩阵(306)进行编码,所述解码器包含:
处理器,用于接收表示经编码的降混合矩阵(306)的经编码的信息,以及对所述经编码的信息进行解码以获得经解码的降混合矩阵(306),
其中,为了对所述降混合矩阵(306)进行解码,所述处理器用于从表示所述降混合矩阵的所述信息解码指示在所述降混合矩阵(306)中对于每组输出声道(302)是否满足对称性属性和可分离性属性的信息,所述对称性属性指示输出声道(302)的组自单一输入声道(300)以相同增益混合或输出声道(302)的组自输入声道(300)的组同等地混合,且所述可分离性属性指示输出声道(302)的组自输入声道(300)的组混合同时保持在各自的左侧或右侧处的所有信号。
24.一种用于对降混合矩阵(306)进行编码的编码器,所述降混合矩阵(306)用于将音频内容的多个输入声道(300)映射至多个输出声道(302),所述输入及输出声道(302)与位于相对于收听者位置的预定位置处的各个扬声器相关联,所述编码器包含:
处理器,用于对所述降混合矩阵(306)进行编码,其中对所述降混合矩阵(306)进行编码包含:利用所述多个输入声道(300)中的扬声器对(S1-S9)的对称性以及所述多个输出声道(302)的扬声器对(S10-S11)的对称性,
其中为了对所述降混合矩阵(306)进行编码,所述处理器用于将指示在所述降混合矩阵(306)中对于每组输出声道(302)是否满足对称性属性和可分离性属性的信息编码到表示所述降混合矩阵的信息中,所述对称性属性指示输出声道(302)的组自单一输入声道(300)以相同增益混合或输出声道(302)的组自输入声道(300)的组同等地混合,且所述可分离性属性指示输出声道(302)的组自输入声道(300)的组混合同时保持在各自的左侧或右侧处的所有信号。
25.一种用于对音频信号进行编码的音频编码器,包含根据权利要求24所述的用于对降混合矩阵(306)进行编码的编码器。
26.一种用于对经编码的音频信号进行解码的音频解码器,所述音频解码器包含根据权利要求23所述的用于对降混合矩阵(306)进行解码的解码器。
27.根据权利要求26所述的音频解码器,包含格式转换器,所述格式转换器耦接至用于接收经解码的降混合矩阵(306)的解码器,并运转以根据接收的经解码的降混合矩阵(306)转换所述经解码的音频信号的格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910973920.4A CN110675882B (zh) | 2013-10-22 | 2014-10-13 | 用于对降混合矩阵解码及编码的方法、编码器及解码器 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13189770.4 | 2013-10-22 | ||
EP20130189770 EP2866227A1 (en) | 2013-10-22 | 2013-10-22 | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
CN201480057957.8A CN105723453B (zh) | 2013-10-22 | 2014-10-13 | 用于对降混合矩阵解码及编码的方法、编码器及解码器 |
PCT/EP2014/071929 WO2015058991A1 (en) | 2013-10-22 | 2014-10-13 | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
CN201910973920.4A CN110675882B (zh) | 2013-10-22 | 2014-10-13 | 用于对降混合矩阵解码及编码的方法、编码器及解码器 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480057957.8A Division CN105723453B (zh) | 2013-10-22 | 2014-10-13 | 用于对降混合矩阵解码及编码的方法、编码器及解码器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110675882A CN110675882A (zh) | 2020-01-10 |
CN110675882B true CN110675882B (zh) | 2023-07-21 |
Family
ID=49474267
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480057957.8A Active CN105723453B (zh) | 2013-10-22 | 2014-10-13 | 用于对降混合矩阵解码及编码的方法、编码器及解码器 |
CN201910973920.4A Active CN110675882B (zh) | 2013-10-22 | 2014-10-13 | 用于对降混合矩阵解码及编码的方法、编码器及解码器 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480057957.8A Active CN105723453B (zh) | 2013-10-22 | 2014-10-13 | 用于对降混合矩阵解码及编码的方法、编码器及解码器 |
Country Status (19)
Country | Link |
---|---|
US (4) | US9947326B2 (zh) |
EP (2) | EP2866227A1 (zh) |
JP (1) | JP6313439B2 (zh) |
KR (1) | KR101798348B1 (zh) |
CN (2) | CN105723453B (zh) |
AR (1) | AR098152A1 (zh) |
AU (1) | AU2014339167B2 (zh) |
BR (1) | BR112016008787B1 (zh) |
CA (1) | CA2926986C (zh) |
ES (1) | ES2655046T3 (zh) |
MX (1) | MX353997B (zh) |
MY (1) | MY176779A (zh) |
PL (1) | PL3061087T3 (zh) |
PT (1) | PT3061087T (zh) |
RU (1) | RU2648588C2 (zh) |
SG (1) | SG11201603089VA (zh) |
TW (1) | TWI571866B (zh) |
WO (1) | WO2015058991A1 (zh) |
ZA (1) | ZA201603298B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2830051A3 (en) | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
EP2866227A1 (en) | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
KR102627374B1 (ko) * | 2015-06-17 | 2024-01-19 | 삼성전자주식회사 | 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치 |
US10497379B2 (en) | 2015-06-17 | 2019-12-03 | Samsung Electronics Co., Ltd. | Method and device for processing internal channels for low complexity format conversion |
KR102657547B1 (ko) | 2015-06-17 | 2024-04-15 | 삼성전자주식회사 | 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치 |
JP2019518373A (ja) | 2016-05-06 | 2019-06-27 | ディーティーエス・インコーポレイテッドDTS,Inc. | 没入型オーディオ再生システム |
CN109716794B (zh) * | 2016-09-20 | 2021-07-13 | 索尼公司 | 信息处理装置、信息处理方法及计算机可读存储介质 |
US10075789B2 (en) * | 2016-10-11 | 2018-09-11 | Dts, Inc. | Gain phase equalization (GPEQ) filter and tuning methods for asymmetric transaural audio reproduction |
US10659906B2 (en) * | 2017-01-13 | 2020-05-19 | Qualcomm Incorporated | Audio parallax for virtual reality, augmented reality, and mixed reality |
US10979844B2 (en) * | 2017-03-08 | 2021-04-13 | Dts, Inc. | Distributed audio virtualization systems |
EP3622509B1 (en) * | 2017-05-09 | 2021-03-24 | Dolby Laboratories Licensing Corporation | Processing of a multi-channel spatial audio format input signal |
US11089425B2 (en) * | 2017-06-27 | 2021-08-10 | Lg Electronics Inc. | Audio playback method and audio playback apparatus in six degrees of freedom environment |
JP7222668B2 (ja) * | 2017-11-17 | 2023-02-15 | 日本放送協会 | 音響処理装置及びプログラム |
BR112020012648A2 (pt) | 2017-12-19 | 2020-12-01 | Dolby International Ab | métodos e sistemas de aparelhos para aprimoramentos de decodificação de fala e áudio unificados |
GB2571572A (en) * | 2018-03-02 | 2019-09-04 | Nokia Technologies Oy | Audio processing |
BR112020019890A2 (pt) | 2018-04-11 | 2021-01-05 | Dolby International Ab | Métodos, aparelho e sistemas para sinal pré-renderizado para renderização de áudio |
BR112021008089A2 (pt) | 2018-11-02 | 2021-08-03 | Dolby International Ab | codificador de áudio e decodificador de áudio |
GB2582749A (en) * | 2019-03-28 | 2020-10-07 | Nokia Technologies Oy | Determination of the significance of spatial audio parameters and associated encoding |
JP7314398B2 (ja) | 2019-08-15 | 2023-07-25 | ドルビー・インターナショナル・アーベー | 変更オーディオビットストリームの生成及び処理のための方法及び装置 |
CN114303392A (zh) * | 2019-08-30 | 2022-04-08 | 杜比实验室特许公司 | 多声道音频信号的声道标识 |
GB2593672A (en) * | 2020-03-23 | 2021-10-06 | Nokia Technologies Oy | Switching between audio instances |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1649723A1 (en) * | 2004-06-30 | 2006-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
CN101506875A (zh) * | 2006-07-07 | 2009-08-12 | 弗劳恩霍夫应用研究促进协会 | 用于组合多个参数编码的音频源的设备和方法 |
CN101529501A (zh) * | 2006-10-16 | 2009-09-09 | 杜比瑞典公司 | 多声道下混对象编码的增强编码和参数表示 |
CN101842834A (zh) * | 2007-10-12 | 2010-09-22 | 弗劳恩霍夫应用研究促进协会 | 包括语音信号处理在内的生成多声道信号的设备和方法 |
WO2012125855A1 (en) * | 2011-03-16 | 2012-09-20 | Dts, Inc. | Encoding and reproduction of three dimensional audio soundtracks |
CN105723453B (zh) * | 2013-10-22 | 2019-11-08 | 弗朗霍夫应用科学研究促进协会 | 用于对降混合矩阵解码及编码的方法、编码器及解码器 |
Family Cites Families (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6108633A (en) * | 1996-05-03 | 2000-08-22 | Lsi Logic Corporation | Audio decoder core constants ROM optimization |
US6697491B1 (en) * | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
US20040062401A1 (en) * | 2002-02-07 | 2004-04-01 | Davis Mark Franklin | Audio channel translation |
US6522270B1 (en) * | 2001-12-26 | 2003-02-18 | Sun Microsystems, Inc. | Method of coding frequently occurring values |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
KR101079066B1 (ko) * | 2004-03-01 | 2011-11-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 멀티채널 오디오 코딩 |
US20090299756A1 (en) * | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
WO2005098821A2 (en) * | 2004-04-05 | 2005-10-20 | Koninklijke Philips Electronics N.V. | Multi-channel encoder |
SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
TWI393121B (zh) * | 2004-08-25 | 2013-04-11 | Dolby Lab Licensing Corp | 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式 |
WO2006022190A1 (ja) * | 2004-08-27 | 2006-03-02 | Matsushita Electric Industrial Co., Ltd. | オーディオエンコーダ |
US8204261B2 (en) * | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
SE0402650D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
US7787631B2 (en) * | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
MX2007011915A (es) * | 2005-03-30 | 2007-11-22 | Koninkl Philips Electronics Nv | Codificacion de audio multicanal. |
CN101138274B (zh) * | 2005-04-15 | 2011-07-06 | 杜比国际公司 | 用于处理去相干信号或组合信号的设备和方法 |
JP4988716B2 (ja) * | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
AU2006255662B2 (en) * | 2005-06-03 | 2012-08-23 | Dolby Laboratories Licensing Corporation | Apparatus and method for encoding audio signals with decoding instructions |
US7411528B2 (en) * | 2005-07-11 | 2008-08-12 | Lg Electronics Co., Ltd. | Apparatus and method of processing an audio signal |
PL1905006T3 (pl) * | 2005-07-19 | 2014-02-28 | Koninl Philips Electronics Nv | Generowanie wielokanałowych sygnałów audio |
US7974713B2 (en) * | 2005-10-12 | 2011-07-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Temporal and spatial shaping of multi-channel audio signals |
KR100888474B1 (ko) * | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
EP1974347B1 (en) * | 2006-01-19 | 2014-08-06 | LG Electronics Inc. | Method and apparatus for processing a media signal |
EP1989704B1 (en) * | 2006-02-03 | 2013-10-16 | Electronics and Telecommunications Research Institute | Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue |
US7965848B2 (en) * | 2006-03-29 | 2011-06-21 | Dolby International Ab | Reduced number of channels decoding |
US8027479B2 (en) * | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
AU2007312597B2 (en) * | 2006-10-16 | 2011-04-14 | Dolby International Ab | Apparatus and method for multi -channel parameter transformation |
DE102006050068B4 (de) * | 2006-10-24 | 2010-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm |
WO2008069594A1 (en) * | 2006-12-07 | 2008-06-12 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
CA2645915C (en) * | 2007-02-14 | 2012-10-23 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
CN101689368B (zh) * | 2007-03-30 | 2012-08-22 | 韩国电子通信研究院 | 对具有多声道的多对象音频信号进行编码和解码的设备和方法 |
DE102007018032B4 (de) * | 2007-04-17 | 2010-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Erzeugung dekorrelierter Signale |
EP2137725B1 (en) * | 2007-04-26 | 2014-01-08 | Dolby International AB | Apparatus and method for synthesizing an output signal |
RU2472306C2 (ru) * | 2007-09-26 | 2013-01-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и способ для извлечения сигнала окружающей среды в устройстве и способ получения весовых коэффициентов для извлечения сигнала окружающей среды |
RU2443075C2 (ru) * | 2007-10-09 | 2012-02-20 | Конинклейке Филипс Электроникс Н.В. | Способ и устройство для генерации бинаурального аудиосигнала |
RU2452043C2 (ru) * | 2007-10-17 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Аудиокодирование с использованием понижающего микширования |
EP2225893B1 (en) * | 2008-01-01 | 2012-09-05 | LG Electronics Inc. | A method and an apparatus for processing an audio signal |
US7733245B2 (en) * | 2008-06-25 | 2010-06-08 | Aclara Power-Line Systems Inc. | Compression scheme for interval data |
EP2154911A1 (en) * | 2008-08-13 | 2010-02-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An apparatus for determining a spatial output multi-channel audio signal |
BRPI0913460B1 (pt) * | 2008-09-11 | 2024-03-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparelho e método para prover um conjunto de indicadores espaciais na base de um sinal de microfone e aparelho para prover um sinal de áudio de dois canais e um conjunto de indicadores espaciais |
US8798776B2 (en) * | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
US9082395B2 (en) * | 2009-03-17 | 2015-07-14 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
US8000485B2 (en) * | 2009-06-01 | 2011-08-16 | Dts, Inc. | Virtual audio processing for loudspeaker or headphone playback |
KR101388901B1 (ko) * | 2009-06-24 | 2014-04-24 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호 디코더, 오디오 신호를 디코딩하는 방법 및 캐스케이드된 오디오 객체 처리 단계들을 이용한 컴퓨터 프로그램 |
EP2360681A1 (en) * | 2010-01-15 | 2011-08-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information |
TWI557723B (zh) * | 2010-02-18 | 2016-11-11 | 杜比實驗室特許公司 | 解碼方法及系統 |
US8908874B2 (en) * | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
EP2477188A1 (en) * | 2011-01-18 | 2012-07-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of slot positions of events in an audio signal frame |
WO2012177067A2 (ko) | 2011-06-21 | 2012-12-27 | 삼성전자 주식회사 | 오디오 신호 처리방법 및 장치와 이를 채용하는 단말기 |
EP2560161A1 (en) * | 2011-08-17 | 2013-02-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
KR20130093798A (ko) * | 2012-01-02 | 2013-08-23 | 한국전자통신연구원 | 다채널 신호 부호화 및 복호화 장치 및 방법 |
WO2013192111A1 (en) * | 2012-06-19 | 2013-12-27 | Dolby Laboratories Licensing Corporation | Rendering and playback of spatial audio using channel-based audio systems |
US9761229B2 (en) * | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
US9479886B2 (en) * | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
KR101729930B1 (ko) * | 2013-02-14 | 2017-04-25 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 업믹스된 오디오 신호들의 채널간 코히어런스를 제어하기 위한 방법 |
US10199044B2 (en) * | 2013-03-20 | 2019-02-05 | Nokia Technologies Oy | Audio signal encoder comprising a multi-channel parameter selector |
-
2013
- 2013-10-22 EP EP20130189770 patent/EP2866227A1/en not_active Withdrawn
-
2014
- 2014-10-13 EP EP14783660.5A patent/EP3061087B1/en active Active
- 2014-10-13 WO PCT/EP2014/071929 patent/WO2015058991A1/en active Application Filing
- 2014-10-13 KR KR1020167013337A patent/KR101798348B1/ko active IP Right Grant
- 2014-10-13 PL PL14783660T patent/PL3061087T3/pl unknown
- 2014-10-13 ES ES14783660.5T patent/ES2655046T3/es active Active
- 2014-10-13 CA CA2926986A patent/CA2926986C/en active Active
- 2014-10-13 RU RU2016119546A patent/RU2648588C2/ru active
- 2014-10-13 PT PT147836605T patent/PT3061087T/pt unknown
- 2014-10-13 BR BR112016008787-9A patent/BR112016008787B1/pt active IP Right Grant
- 2014-10-13 SG SG11201603089VA patent/SG11201603089VA/en unknown
- 2014-10-13 CN CN201480057957.8A patent/CN105723453B/zh active Active
- 2014-10-13 MY MYPI2016000689A patent/MY176779A/en unknown
- 2014-10-13 JP JP2016525036A patent/JP6313439B2/ja active Active
- 2014-10-13 AU AU2014339167A patent/AU2014339167B2/en active Active
- 2014-10-13 MX MX2016004924A patent/MX353997B/es active IP Right Grant
- 2014-10-13 CN CN201910973920.4A patent/CN110675882B/zh active Active
- 2014-10-21 TW TW103136287A patent/TWI571866B/zh active
- 2014-10-22 AR ARP140103967A patent/AR098152A1/es active IP Right Grant
-
2016
- 2016-04-18 US US15/131,263 patent/US9947326B2/en active Active
- 2016-05-16 ZA ZA2016/03298A patent/ZA201603298B/en unknown
-
2018
- 2018-03-05 US US15/911,974 patent/US10468038B2/en active Active
-
2019
- 2019-09-23 US US16/579,293 patent/US11393481B2/en active Active
-
2022
- 2022-06-15 US US17/807,095 patent/US11922957B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1649723A1 (en) * | 2004-06-30 | 2006-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
CN101506875A (zh) * | 2006-07-07 | 2009-08-12 | 弗劳恩霍夫应用研究促进协会 | 用于组合多个参数编码的音频源的设备和方法 |
CN101529501A (zh) * | 2006-10-16 | 2009-09-09 | 杜比瑞典公司 | 多声道下混对象编码的增强编码和参数表示 |
CN102892070A (zh) * | 2006-10-16 | 2013-01-23 | 杜比国际公司 | 多声道下混对象编码的增强编码和参数表示 |
CN101842834A (zh) * | 2007-10-12 | 2010-09-22 | 弗劳恩霍夫应用研究促进协会 | 包括语音信号处理在内的生成多声道信号的设备和方法 |
WO2012125855A1 (en) * | 2011-03-16 | 2012-09-20 | Dts, Inc. | Encoding and reproduction of three dimensional audio soundtracks |
CN105723453B (zh) * | 2013-10-22 | 2019-11-08 | 弗朗霍夫应用科学研究促进协会 | 用于对降混合矩阵解码及编码的方法、编码器及解码器 |
Non-Patent Citations (3)
Title |
---|
A 22.2 Multichannel Sound System for Ultrahigh-Definition TV (UHDTV);K. Hamasaki;《SMPTE Motion Imaging Journal》;20080430;全文 * |
Conversion of Multichannel Sound Signal Maintaining Physical Properties of Sound in Reproduced Sound Field;A. Ando;《IEEE Transactions on Audio, Speech, and Language Processing》;20101115;全文 * |
International Telecommunications Union.Multichannel stereophonic sound system with and without accompanying picture.《ITU-R BS.775-3》.2012, * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675882B (zh) | 用于对降混合矩阵解码及编码的方法、编码器及解码器 | |
US20240029744A1 (en) | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals | |
CN112839296B (zh) | 实现3d音频内容的saoc降混合的装置及方法 | |
US9761229B2 (en) | Systems, methods, apparatus, and computer-readable media for audio object clustering | |
EP3025329B1 (en) | Concept for audio encoding and decoding for audio channels and audio objects | |
CN105659319B (zh) | 使用被插值矩阵的多通道音频的渲染 | |
CN107077861B (zh) | 音频编码器和解码器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |