CN103400583A - 多声道下混对象编码的增强编码和参数表示 - Google Patents

多声道下混对象编码的增强编码和参数表示 Download PDF

Info

Publication number
CN103400583A
CN103400583A CN201310285571XA CN201310285571A CN103400583A CN 103400583 A CN103400583 A CN 103400583A CN 201310285571X A CN201310285571X A CN 201310285571XA CN 201310285571 A CN201310285571 A CN 201310285571A CN 103400583 A CN103400583 A CN 103400583A
Authority
CN
China
Prior art keywords
audio
matrix
audio object
information
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310285571XA
Other languages
English (en)
Other versions
CN103400583B (zh
Inventor
约纳斯·恩德加德
拉斯·维尔默斯
海科·朋哈根
巴巴拉·瑞奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN103400583A publication Critical patent/CN103400583A/zh
Application granted granted Critical
Publication of CN103400583B publication Critical patent/CN103400583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Abstract

本发明提供了一种利用多个音频对象来产生编码的音频对象信号的音频对象编码器,所述音频对象编码器包括:下混信息产生器,用于产生下混信息,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布;音频对象参数产生器,用于产生所述音频对象的对象参数;以及输出接口,用于利用所述下混信息以及所述对象参数来产生导入的音频输出信号。本发明还提供了一种音频合成器,所述音频合成器使用下混信息来产生输出数据,所述输出数据能够用于创建预定音频输出配置的多个输出声道。

Description

多声道下混对象编码的增强编码和参数表示
分案说明
本申请是申请日为2007年10月5日,申请号为200780038364.7,题为“多声道下混对象编码的增强编码和参数表示”的中国专利申请的分案申请。
技术领域
本发明涉及基于可用的多声道下混(downmix)以及附加的控制数据来对来自己编码的多对象信号的多个对象进行解码。
背景技术
近来音频的发展使得基于立体声(或者单声道)信号以及对应的控制数据来重建音频信号的多声道表示更为容易。这些参数环绕编码方法通常包含参数化过程。参数多声道音频解码器(例如在ISO/IEC23003-1[1]、[2]中所定义的MPEG环绕(MPEG Surround)解码器)基于K个传送的声道,利用附加的控制数据来重构M个声道,其中M>K。该控制数据由基于IID(声道间强度差)和ICC(声道间相干性)的多声道信号的参数化构成。这些参数通常在编码级中提取的,并且描述了上混过程中所使用的声道对之间的功率比值以及相关性。使用这样的编码方案,与传送全部的M个声道相比,允许使用明显更低的数据速率进行编码,使得编码效率非常高,同时确保与K声道装置以及M声道装置的兼容性。
一种非常相关的编码系统是对应的音频对象编码器[3],[4],其中在编码器中对若干音频对象进行下混,随后在控制数据的指引下进行上混。该上混过程也可以被视为是对在下混中混合的对象的分离。所得到的上混信号可以被呈现至一个或者多个回放声道。更准确而言,[3,4]提出了一种方法,根据下混(称为和信号)、有关源对象的统计信息以及描述期望输出格式的数据来合成多个声道。在使用多个下混信号的情况下,这些下混信号由对象的不同子集构成,并且针对每一个下混声道分别执行上混。
在新方法中,我们介绍了一种方法,其中对所有下混声道联合地进行上混。在本发明之前的对象编码方法中,并未提出用于对具有多于一个声道的下混进行联合解码的方案。
参考文献:
[1]L. Villemoes,J.Herre,J.Breebaart,G.Hotho,S.Disch,H.Purnhagen,and K.
Figure BDA00003483475300021
″MPEG Surround:The Forthcoming ISOStandard for Spatial Audio Coding,″in28th International AESConference,The Future of Audio Technology Surround and Beyond,
Figure BDA00003483475300022
Sweden,June30-July2,2006.
[2]J.Breebaart,J.Herre,L.Villemoes,C.Jin,,K.
Figure BDA00003483475300023
J.Plogsties,and J.Koppens,″Multi-Channels goes Mobile:MPEGSurround Binaural Rendering,″in29th International AES Conference,Audio for Mobile and Handheld Devices,Seoul,Sept2-4,2006.
[3]C.Faller,“Parametric Joint-Coding of Audio Sources,”Convention Paper6752presented at the120th AES Convention,Paris,France,May20-23,2006.
[4]C.Faller,“Parametric Joint-Coding of Audio Sources,”专利申请PCT/EP2006/050904,2006.
发明内容
本发明的第一方面涉及一种利用多个音频对象来产生编码的音频对象信号的音频对象编码器,所述音频对象编码器包括:下混信息产生器,用于产生下混信息,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布;对象参数产生器,用于产生所述音频对象的对象参数;以及输出接口,用于利用所述下混信息和所述对象参数来产生所述编码的音频对象信号。
本发明的第二方面涉及一种利用多个音频对象来产生编码的音频对象信号的音频对象编码方法,所述音频对象编码方法包括:产生下混信息,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布;产生所述音频对象的对象参数;以及利用所述下混信息和所述对象参数来产生所述编码的音频对象信号。
本发明的第三方面涉及一种利用编码的音频对象信号来产生输出数据的音频合成器,所述音频合成器包括:输出数据合成器,用于产生所述输出数据,所述输出数据能够用于创建预定音频输出配置的多个输出声道以表示多个音频对象,所述输出数据合成器使用下混信息和音频对象的音频对象参数,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布。
本发明的第四方面涉及一种利用编码的音频对象信号来产生输出数据的音频合成方法,所述音频合成方法包括:产生所述输出数据,所述输出数据能够用于创建预定音频输出配置的多个输出声道以表示多个音频对象,所述输出数据合成器使用下混信息和音频对象的音频对象参数,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布。
本发明的第五方面涉及一种编码的音频对象信号,包括下混信息和对象参数,所述下混信息指示多个音频对象在至少两个下混声道中的分布,所述对象参数使得能够使用所述对象参数以及所述至少两个下混声道来重构所述音频对象。本发明的第六方面涉及一种计算机程序,当所述计算机程序在计算机上运行时,执行音频对象编码方法或者音频对象解码方法。
附图说明
现在参照附图,以示意性示例而非限制本发明范围或精神的方式来描述本发明,附图中:
图1a示意了包括编码和解码在内的空间音频对象编码的操作;
图1b示意了重用MPEG环绕解码器的空间音频对象编码的操作;
图2示意了空间音频对象编码器的操作;
图3示意了在基于能量的模式下操作的音频对象参数提取器;
图4示意了在基于预测的模式下操作的音频对象参数提取器;
图5示意了SAOC至MPEG环绕的代码转换器的结构;
图6示意了下混转换器的不同操作模式;
图7示意了用于立体声下混的MPEG环绕解码器的结构;
图8示意了包含SAOC编码器的实际使用情况;
图9示意了编码器的实施例;
图10示意了解码器的实施例;
图11示意了示出不同的优选解码器/合成器模式的表格;
图12示意了用于计算特定空间上混参数的方法;
图13a示意了用于计算附加空间上混参数的方法;
图13b示意了利用预测参数进行计算的方法;
图14示意了编码器/解码器系统的整体概观;
图15示意了计算预测对象参数的方法;以及
图16示意了立体声呈现的方法。
具体实施方式
以下描述的实施例仅用于说明本发明“多声道下混对象编码的增强编码和参数表示”的原理。应理解,对本文所描述的配置和细节进行的修改和变型对本领域技术人员而言是显而易见的。因此,本发明的范围仅由所附权利要求的范围来限定,而不是由这里以实施例的描述和解释的方式呈现的具体细节来限定。
优选实施例提供了一种编码方案,将对象编码的方案的功能与多声道解码器的呈现能力相结合。所传送的控制数据与各个对象相关,并且因此允许在重现中进行空间位置和水平的操作。因此,该控制数据与所谓的场景描述直接相关,其中给出了对象的定位信息。该场景描述可以在解码器侧由收听者以交互方式控制,或者也可以在编码器侧由制作人控制。由本发明所教导的代码转换器级用于将与对象相关的控制数据以及下混信号转换为与重现系统(例如MPEG环绕解码器)相关的控制数据和下混信号。
在本编码方案中,对象可以任意分布在编码器处可用的下混声道中。代码转换器明确地使用多声道下混信息来提供代码转换后的下混信号以及与对象相关的控制数据。由此,在解码器处的上混不是如[3]中所提出的那样对所有声道分别执行,而是在单个上混过程中对全部下混声道同时进行处理。在这种新方案中,该多声道下混信息必须是控制数据的一部分,并且是由对象编码器来编码的。
对象在下混声道中的分布可以以自动的方式来完成,或者可以是编码器侧的一种设计选择。在后一种情况下,可以将下混设计为适合于使用现有的多声道重现方案(例如立体声重现系统)来进行回放,特征在于进行重现并省略代码转换以及多声道解码级。这是优于现有技术编码方案的另一优点,现有技术的编码方案由单一下混声道,或者包含源对象子集的多个下混声道构成。
虽然现有技术的对象编码方案仅描述了使用单一下混声道的解码过程,但是本发明并不受该限制,因为本发明提供一种用于对包含多于一个声道的下混的下混进行联合解码的方法。在分离对象时所能获得的质量随下混声道数目增加而提高。因此,本发明成功地弥补了具有单一单声道下混声道的编码方案与其中每个对象在单独声道中传送的多声道编码方案之间的间隙。因此,本发明所提出的方案允许根据应用的要求以及传送系统的特性(如信道容量)来对对象分离的质量进行灵活缩放。
此外,由于允许附加地考虑该各个声道之间的相关性,以不是如现有技术的对象编码方案中那样将描述限制为强度差,因此使用多于一个下混声道是有利的。现有技术方案依赖与所有对象独立且互不相关(零互相关)的假设,而实际上,对象之间并非不可能相关(例如立体声信号的左与右声道)。如同本发明所教导的,在描述(控制数据)中结合相关性使其更加完整,并从而还促进了分离对象的能力。
优选实施例包括下列的特征中的至少一个特征:
一种用于传送和创建多个的单独音频对象的系统,使用多声道下混以及描述这些对象的附加控制数据,所述系统包括:空间音频对象编码器,用于将多个音频对象编码为多声道下混、与所述多声道下混相关的信息、以及对象参数;或者空间音频对象解码器,用于将多声道下混、与所述多声道下混相关的信息、对象参数以及对象呈现矩阵(object rendering matrix)解码为适合于音频重现的第二多声道音频信号。
图1a示意了空间音频对象编码(SAOC)的操作,包括SAOC编码器101以及SAOC解码器104。空间音频对象编码器101根据编码器参数,将N个对象编码为由K>1个音频声道组成的对象下混。SAOC编码器将与所应用的下混权值矩阵D的信息与可选数据一起输出,所述可选数据与下混的功率和相关性有关。该矩阵D通常(但并不一定总是)在时间和频率上是恒定的,因此表示相对少量的信息。最后,SAOC编码器以由感知考虑所定义的分辨率,提取每个对象的对象参数作为时间和频率的函数。空间音频对象解码器104以对象下混声道、下混信息以及对象参数(由编码器所产生)作为输入,产生具有M个音频声道的输出以呈现给用户。利用作为对SAOC解码器的用户输入而提供的呈现矩阵来将N个对象呈现至M个音频声道。
图1b示意了重用MPEG环绕解码器的空间音频对象编码的操作。由本发明所教导的SAOC解码器104可以被实现为SAOC至MPEG环绕的代码转换器102,以及基于立体声下混的MPEG环绕解码器103。由用户控制的大小为M×N的呈现矩阵A定义将N个对象至M个声道的呈现目标。这个矩阵可以依赖于时间和频率,并且这是用于音频对象操作的对用户更加友好的接口的最终输出(也可以使用外部提供的场景描述)。在5.1扬声器设置的情况下,输出音频声道的数目为M=6。SAOC解码器的任务是以感知方式重建原始音频对象的目标呈现。SAOC至MPEG环绕的代码转换器102以该呈现矩阵A、对象下混、包括下混权值矩阵D下混辅助信息以及对象辅助信息作为输入,并且产生立体声下混与MPEG环绕辅助信息。当该代码转换器根据本发明的方式来构建时,被提供以这些数据的后续MPEG环绕解码器103将产生具有期望特性的M声道的音频输出。
由本发明所教导的SAOC解码器104可以被实现为SAOC至MPEG环绕的代码转换器102,以及基于立体声下混的MPEG环绕解码器103。由用户控制的大小为M×N的呈现矩阵A定义将N个对象至M个声道的呈现目标。这个矩阵可以依赖于时间和频率,并且这是用于音频对象操作的对用户更加友好的接口的最终输出。在5.1扬声器设置的情况下,输出音频声道的数目为M=6。SAOC解码器的任务是以感知方式重建原始音频对象的目标呈现。SAOC至MPEG环绕的代码转换器102以该呈现矩阵A、对象下混、包括下混权值矩阵D下混辅助信息以及对象辅助信息作为输入,并且产生立体声下混与MPEG环绕辅助信息。当该代码转换器根据本发明的方式来构建时,被提供以这些数据的后续MPEG环绕解码器103将产生具有期望特性的M声道的音频输出。
图2示意了本发明所教导的空间音频对象编码器(SAOC)101的操作。将N个音频对象馈送入下混器201以及音频对象参数提取器202。下混器201根据编码器参数将这些对象混合为由K>1个音频声道组成的对象下混,并且也输出下混信息。该信息包括所应用的下混权值矩阵D的描述,以及可选地,如果随后的音频对象参数提取器在预测模式下操作,则还包括描述该对象下混的功率以及相关性的参数。如将随后的段落中讨论的,这些附加参数的作用是在仅相对于下混来表示对象参数的情况下(主要示例是5.1扬声器设置中的后置/前置提示),提供对所呈现声道的子集的能量和相关性的访问。音频对象参数提取器202根据该编码器参数来提取对象参数。该编码器控制以随时间和频率变化的方式来确定应用两个编码器模式中的哪一个,即基于能量的模式或基于预测的模式。在基于能量的模式中,编码器参数还包含与N个音频对象组合为P个立体声对象和N-2P个单声道对象的组合过程相关的信息。通过图3和图4来进一步描述每种模式。
图3示意了在基于能量的模式下操作的音频对象参数提取器202。根据编码器参数中包含的组合信息来执行组合为P个立体声对象和N-2P个单声道对象的组合过程301。然后,对于每一个所考虑的时间频率区间,执行下列操作。立体声参数提取器302针对P个立体声对象中的每一个来提取两个对象功率和一个归一化相关性。单声道参数提取器303针对N-2P个单声道对象来提取一个功率参数。然后,在304中将N个功率参数以及P个归一化相关参数的总集合与组合数据一起进行编码,以形成对象参数。该编码过程可以包含相对于最大对象功率或者相对于所提取的对象功率总和的归一化步骤。
图4示意了在基于预测的模式下操作的音频对象参数提取器202。对于每一个所考虑的时间频率区间,执行下列的操作。针对N个对象中的每一个,导出K个对象下混声道的线性组合,其在最小二乘意义上与给定对象相匹配。该线性组合的K个权值称为对象预测系数(OPC),而且是利用OPC提取器401来计算的。在402中对N·K个OPC的总集合进行编码,以形成对象参数,该编码过程可以结合基于线性相互依赖关系的OPC总数的减小。如本发明所教导的,如果该下混权值矩阵具有满秩,则这个总数可以减小至max{K·(N-K),0}。
图5示意了本发明所教导的SAOC至MPEG环绕的代码转换器102的结构。对于每一个时间频率区间,参数计算器502将下混辅助信息和对象参数与呈现矩阵相结合,以形成CLD、CPC与ICC类型的MPEG环绕参数以及大小为2×K的下混转换器矩阵G。下混转换器501通过根据该G矩阵来应用矩阵运算,将对象下混转换成立体声下混。在K=2的简化模式的代码转换器中,该矩阵为单位矩阵,并且对象下混在未经改变的情况下通过代码转换器作为立体声下混。在图中示意出了这种模式,其中选择器开关503在位置A,而在正常操作模式下该开关在位置B。该代码转换器的另一优点在于其作为独立应用的实用性,其中忽略了MPEG环绕参数,并且下混转换器的输出直接用作立体声呈现。
图6示意了本发明所教导的下混转换器501的不同操作模式。给定从K声道音频编码器输出的使用比特流格式传送的对象下混,音频解码器601首先将该比特流解码为K个时域音频信号。然后,在T/F单元602中,通过MPEG环绕混合QMF滤波器组将这些信号转换至频域。矩阵化单元603对所产生的混合QMF域信号执行由转换器矩阵数据定义的随时间和频率变化的矩阵运算,并输出混合QMF域中的立体声信号。混合合成单元604将立体声混合QMF域信号转换成立体声QMF域信号。定义混合QMF域以通过随后对QMF子带进行滤波来获得更好的向较低频率的频率分辨率。当随后的滤波由奈奎斯特滤波器组定义时,从该混合至标准QMF域的转换由混合子带信号组的简单相加构成,见[E.Schuijers,J.Breebart,and H.Purnhagen,“Low Complexity Parametric Stereo Coding,Proc116th AES ConventionBerlin,Germany2004,Preprint6073.]。该信号构成下混转换器的第一种可能的输出格式,如在位置A的选择器开关607所定义。这样的QMF域信号可以直接馈送入MPEG环绕解码器中的对应QMF域接口,并且就延迟、复杂度以及质量而言,这是最为有利的操作模式。下一种可能性是通过执行QMF滤波器组合成605,以获得立体声时域信号来获得的。在选择器开关607在位置B的情况下,转换器输出数字音频立体声信号,该信号也可以馈送入随后的MPEG环绕解码器的时域接口,或者直接在立体声回放设备中呈现。第三种可能性(选择器开关在位置C)是通过利用立体声编码器606对时域立体声信号进行编码来获得的。然后,下混转换器的输出格式为立体声音频比特流,其与MPEG解码器中包含的核心解码器兼容。这第三种操作模式适合于以下情况:SAOC至MPEG环绕的代码转换器与MPEG解码器分离而其间的连接对比特率有所限制,或者用户期望储存特定对象呈现以便未来回放。
图7示意了用于立体声下混的MPEG环绕解码器的结构。2转3工具箱(TTT box)将立体声下混转换成三个中间声道。再利用三个1转2工具箱(OTT box)将这些中间声道分成两个声道,以产生5.1声道配置的六个声道。
图8示意了包括SAOC编码器的实际使用的情况。音频混合器802输出立体声信号(L和R),该信号典型地是通过将混合器输入信号(此处为输入声道1-6)组合以及可选地与来自效应返回(如回响等)的附加输入组合而构成。该混合器也从混合器输出单独的声道(此处为声道5),这可以例如通过通常使用的混合器功能,如“直接输出”或者“辅助发送”等来完成,以便在任何插入过程(如动态处理以及EQ)之后输出单独的声道。将立体声信号(L和R)以及该单独的声道输出(obj5)输入至SAOC编码器801,编码器801只是图1中的SAOC编码器101的一种特殊情况。然而,它清楚地示意了一种典型应用,其中应在解码器侧对音频对象obj5(包含例如语音)进行由用户控制的音级修改,同时仍为立体声混合(L和R)的一部分。从上述概念也可以明显看出,两个或者更多个音频对象可以连接至801中的“对象输入”面板,此外,可以使用多声道混合(如5.1混合)来扩展该立体声混合。
在下文中,将概述本发明的数学描述。对于离散的复信号x、y,其复内积以及平方范数(能量)定义为:
< x , y > = &Sigma; k x ( k ) y &OverBar; ( k ) , | | x | | 2 = < x , x > = &Sigma; k | x ( k ) | 2 , - - - ( 1 )
其中
Figure BDA00003483475300102
表示y(k)的复共轭信号。此处所考虑的所有信号是来自离散时间信号的调制滤波器组或加窗FFT分解的子带采样。应理解,这些子带必须由对应的合成滤波器组操作将其转换回到离散时域。L个采样的信号块表示时间与频率区间中的信号,所述区间是用于描述信号的特性的时频平面中以感知方式激发的片(tiling)的一部分。在这种设置中,给定的音频对象可以表示成矩阵中长度为L的N个行,
S = s 1 ( 0 ) s 1 ( 1 ) . . . s 1 ( L - 1 ) s 2 ( 0 ) s 2 ( 1 ) . . . s 2 ( L - 1 ) . . . . . . . . . s N ( 0 ) s N ( 1 ) . . . s N ( L - 1 ) - - - ( 2 )
大小为K×N的下混权值矩阵D(其中K>1)通过以下矩阵乘法来确定以具有K行的矩阵形式表示的K声道下混信号:
X=DS    (3)
大小为M×N的由用户控制的对象呈现矩阵A通过以下矩阵乘法来确定以具有M行的矩阵形式表示的音频对象的M声道的目标呈现:
Y=AS    (4)
暂时不考虑核心音频编码的效果,在给定呈现矩阵A、下混X、下混矩阵D以及对象参数的情况下,SAOC解码器的任务是产生原始音频对象的目标呈现Y在感知意义上的近似。
本发明所教导的能量模式中的对象参数携带与原始对象的协方差有关的信息。在对随后的推导较为便利并描述典型的编码器操作的确定性版本中,该协方差由矩阵乘积SS*以未归一化的形式给出,其中星号表示复共轭转置矩阵运算。因此,能量模式对象参数提供正半定N×N矩阵E,使其可能高达缩放因子
SS*≈E    (5)
现有技术的音频对象编码经常考虑所有对象不相关的对象模型,。在这种情况下,矩阵E是对角矩阵,并仅包含对对象能量的近似:Sn=||sn||2,n=1,2,...,N。根据图3的对象参数提取器允许进行针对这种思想的重要的改进,尤其是关于对象作为立体声信号提供的情况,对于这种情况,不具相关性的假设不成立。使用索引集合{(np,mp),p=1,2,...,P}表示P个所选立体声对象对的组合。针对这些立体声对,立体声参数提取器302计算其相关性〈sn,sm〉,并提取归一化相关性(ICC)的复数、实数或者绝对值:
&rho; n , m = < s n , s m > | | s n | | | | s m | | - - - ( 6 )
然后,在解码器中,将ICC数据与能量组合,形成具有2P个非对角线元素的矩阵E。例如对于总计N=3个对象,其中的前两个组成单一对(1,2),所传送的能量和相关性数据为S1、S2、S3以及ρ1,2。在此情况下,组合入矩阵E得到:
E = S 1 &rho; 1,2 S 1 S 2 0 &rho; 1,2 * S 1 S 2 S 2 0 0 0 S 3
本发明所教导的预测模式中的对象参数的目的是使N×K对象预测系数(OPC)矩阵C可用于解码器,使得:
S≈CX=CDS    (7)
换言之,对于每一个对象,存在下混声道的线性组合,使得对象可以近似地被恢复为
sn(k)≈cn,1x1(k)+...+cn,KxK(k)    (8)
在优选实施例中,OPC提取器401求解正规方程:
CXX*=SX*           (9)
或者,对于更吸引人的实数值OPC的情况,求解:
CRe{XX*}=Re{SX*}    (10)
在这两种情况中,假设实数值的下混权值矩阵D,以及非奇异下混协方差,则左乘D可得:
DC=I    (11)
其中I是大小为K的单位矩阵。若D满秩,则由初等线性代数可知,可以将(9)的解集合参数化为max{K·(N-K),0}个参数。在402中对OPC数据的联合编码中利用了这一点。在解码器中,可以根据简化的参数集以及下混矩阵来重建完整的预测矩阵C。
例如,考虑立体声下混(K=2),三个对象(N=3)的情况包括立体声音乐轨道(s1,s2)以及中心全景化(center panned)的单一乐器或者语音轨道s3。下混矩阵为:
D = 1 0 1 / 2 0 1 1 / 2 - - - ( 12 )
亦即,下混左声道是以及右声道为
Figure BDA00003483475300123
针对单个轨道的OPC的目标在于近似s3≈c31x1+c32x2,在此情况中,可以求解方程式(11)来实现 c 11 = 1 - c 31 / 2 , c 12 = - c 32 / 2 , c 21 = - c 31 / 2 以及
Figure BDA00003483475300127
因此,足够的OPC数目由K(N-K)=2·(3-2)=2给出。OPC c31、c32可以由正规方程式求得:
[ c 31 , c 32 ] | | x 1 | | < x 1 , x 2 > < x 2 , x 1 > | | x 2 | | = [ < s 3 , x 1 > , < s 3 , x 2 > ]
SAOC至MPEG环绕的代码转换器
参考图7,5.1配置的M=6个输出声道为:(y1,y2,...,y6)=(lf,ls,rf,rs,c,lfe)。代码转换器必须输出立体声下混(l0,r0)以及用于TTT工具箱以及OTT工具箱的参数。由于现在的焦点在于立体声下混,因此在下文将假设K=2。由于对象参数以及MPS TTT参数存在于能量模式以及预测模式中,因此全部四种组合都要考虑。举例而言,如果在所考虑的频率区间中,下混音频编码器不是一种波形编码器,则能量模式是适当的选择。应理解,在下文中所导出的MPEG环绕参数必须在传送之前进行正确的量化以及编码。
为进一步明确上述的四种组合,这些组合包括:
1.对象参数在能量模式中,代码转换器在预测模式中
2.对象参数在能量模式中,代码转换器在能量模式中
3.对象参数在预测模式中(OPC),代码转换器在预测模式中
4.对象参数在预测模式中(OPC),代码转换器在能量模式中
如果在所考虑的频率区间中,下混音频编码器是一种波形编码器,则对象参数可以在能量模式中或者也可以在预测模式中,但是代码转换器优选地应在预测模式中操作。如果在所考虑的频率区间中,下混音频编码器不是波形编码器,则对象编码器以及代码转换器皆应在能量模式中操作。第四种组合较为无关,因此在下文的说明中将仅针对前三种组合。
能量模式中给出的对象参数
在能量模式中,对代码转换器可用的数据由矩阵三元组(D,E,A)来描述。通过对从所传送的参数以及6×N的呈现矩阵A推导出的虚拟的呈现执行能量和相关性估计来获得MPEG环绕OTT参数。六声道目标协方差为:
YY*=AS(AS)*=A(SS*)A*    (13)
将(5)代入(13)得到下列近似:
YY*≈F=AEA*    (14)
该近似完全由可用数据定义。令fkl表示F的元素。然后,CLD与ICC参数由下列方程式获得:
CLD 0 = 10 log 10 ( f 55 f 66 ) , - - - ( 15 )
CLD 1 = 10 log 10 ( f 33 f 44 ) , - - - ( 16 )
CLD 2 = 10 log 10 ( f 11 f 22 ) , - - - ( 17 )
Figure BDA00003483475300144
Figure BDA00003483475300145
其中
Figure BDA00003483475300146
是绝对值
Figure BDA00003483475300147
或者实数值运算子
Figure BDA00003483475300148
作为示意性示例,考虑前述与方程式(12)相关的三个对象的情况。令呈现矩阵由以下给出:
A = 0 1 0 0 1 0 1 0 1 1 0 0 0 0 1 0 0 1
因此,目标呈现包含:将对象1置于右前与右环绕之间,将对象2置于左前与左环绕之间,以及对象3位于右前、中心以及lfe。为简化起见,也假设三个对象不相关,并且都具有相同的能量,使得:
E = 1 0 0 0 1 0 0 0 1
在此情况中,方程式(14)的右边变成:
F = 1 1 0 0 0 0 1 1 0 0 0 0 0 0 2 1 1 1 0 0 1 1 0 0 0 0 1 0 1 1 0 0 1 0 1 1
将适当值代入方程式(15)至(19)可得:
CLD 0 = 10 log 10 ( f 55 f 66 ) = 10 log 10 ( 1 1 ) = 0 dB ,
CLD 1 = 10 log 10 ( f 33 f 44 ) = 10 log 10 ( 2 1 ) = 3 dB ,
CLD 2 = 10 log 10 ( f 11 f 22 ) = 10 log 10 ( 1 1 ) = 0 dB ,
Figure BDA00003483475300155
Figure BDA00003483475300156
由此,指示MPEG环绕解码器在右前与右环绕之间使用一些解相关过程,但是不在左前与左环绕之间使用解相关。
对于在预测模式中的MPEG环绕TTT参数,第一步骤形成简化的大小为3×N的呈现矩阵A3用于组合的声道(l,r,qc),其中A3=D36A成立,其中6至3部分下混矩阵定义为:
D 36 = w 1 w 1 0 0 0 0 0 0 w 2 w 2 0 0 0 0 0 0 qw 3 qw 3 - - - ( 20 )
部分下混权值wp,p=1,2,3被调整为使得wp(y2p-1+y2p)的能量等于能量和||y2p-1||2+||y2p||2,相差不超过限制因子。推导部分下混矩阵D36所需的全部数据可以从F获得。接下来,产生大小为3×2的预测矩阵C3,使得:
C3X≈A3S    (21)
优选地,通过首先考虑正规方程式来导出这样的矩阵:
C3(DED*)=A3ED*
给定对象协方差模型E,该正规方程式的解得到针对(21)的最佳可能的波形匹配。优选地,对矩阵C3进行一些后处理,包括用于基于总体声道或单独声道的预测损失补偿的行因子。
为了示意并明确上述步骤,考虑以上给出的特定六声道呈现示例的延续。以F的矩阵元素来表示,下混权值为下列方程式的解:
w p 2 ( f 2 p - 1,2 p - 1 + f 2 p , 2 p + 2 f 2 p - 1,2 p ) = f 2 p - 1,2 p - 1 + f 2 p , 2 p , p = 1,2,3
在该特定示例中,变为:
w 1 2 ( 1 + 1 + 2 &CenterDot; 1 ) = 1 + 1 w 2 2 ( 2 + 1 + 2 &CenterDot; 1 ) = 2 + 1 w 3 2 ( 1 + 1 + 2 &CenterDot; 1 ) = 1 + 1
使得 ( w 1 , w 2 , w 3 ) = ( 1 / 2 , 3 / 5 , 1 / 2 ) . 代入(20)可得:
A 3 = D 36 A = 0 2 0 2 3 5 0 3 5 0 0 1
通过求解该方程组C3(DED*)=A3ED*,可以发现(现在切换至有限精度):
C 3 = - 0.3536 1.0607 1.4358 - 0.1134 0.3536 0.3536
该矩阵C3包含最佳权值,用于从对象下混获得对组合声道(l,r,qc)中的期望对象呈现的近似。这种一般类型的矩阵运算无法利用MPEG环绕解码器来实现,因为其仅使用两个参数而受限于TTT矩阵的有限空间。本发明的下混转换器的目的是对对象下混进行预处理,使得预处理与MPEG环绕TTT矩阵的组合效应与C3矩阵所描述的期望上混相同。
在MPEG环绕中,通过以下等式,利用三个参数(α,β,γ)对用于从(l0,r0)预测(l,r,qc)的TTT矩阵进行参数化:
C TTT = &gamma; 3 &alpha; + 2 &beta; - 1 &alpha; - 1 &beta; + 2 1 - &alpha; 1 - &beta; - - - ( 22 )
本发明所教导的下混转换器矩阵G是通过选择γ=1以及求解下列的方程组而获得的:
CTTTG=C3    (23)
容易验证,DTTTCTTT=I成立,其中I为2乘2的单位矩阵,以及
D TTT = 1 0 1 0 1 1 - - - ( 24 )
因此,在(23)两边,左乘DTTT可得:
G=DTTTC3    (25)
在一般情况下,G是可逆的,并且(23)对于CTTT具有唯一解,满足DTTTCTTT=I。TTT参数(α,β)由这个解确定。
对于前述所考虑的特定示例,容易验证,该解由以下给出:
G = 0 1.4142 1.7893 0.2401 以及(α,β)=(0.3506,0.4072)
注意,对于该转换器矩阵,立体声下混的主要部分在左右之间交换,这反应出该呈现示例将在左侧对象下混声道中的对象放置在声音场景的右侧,反之依然。在立体声模式中,不可能从MPEG环绕解码器中得到这种性态。
如果不能应用下混转换器,则可以开发一种次优过程如下。对于能量模式中的MPEG环绕TTT参数,所需要的是组合声道(l,r,c)的能量分布。因此,可以通过下列方程式,直接从F的元素导出相关的CLD参数:
CLD TTT 0 = 10 log 10 ( | | l | | 2 + | | r | | 2 | | c | | 2 ) = 10 log 10 ( f 11 + f 22 + f 33 + f 44 f 55 + f 66 ) - - - ( 26 )
CLD TTT 1 = 10 log 10 ( | | l | | 2 | | r | | 2 ) = 10 log 10 ( f 11 + f 22 f 33 + f 44 ) - - - ( 27 )
在此情况中,适合仅使用具有正项的对角矩阵G来用于下混转换器。在TTT上混之前,可以进行操作以实现下混声道的正确能量分布。在6至2声道下混矩阵D26=DTTTD36以及从下列方程式所得到的定义:
Z=DED*    (28)
W = D 26 E D 26 * - - - ( 29 )
可以简单地选择:
G = w 11 / z 11 0 0 w 22 / z 22 - - - ( 30 )
进一步的观察可以发现,可以从对象至MPEG环绕的代码转换器中省略这样的对角形式的下混转换器,而通过激活MPEG环绕解码器的任意下混增益(ADG)参数来实现。这些增益在对数域中由ADGi=10log10(wii/zii),i=1,2给出。
预测(OPC)模式中给出的对象参数
在对象预测模式中,可用数据由矩阵三元组(D,C,A)表示,其中C是拥有N对OPC的N×2矩阵。由于预测系数的相关性质,还需要基于能量的MPEG环绕参数的估计能够访问对象下混的2×2协方差矩阵的近似:
XX*≈Z    (31)
这个信息优选地从对象编码器作为下混辅助信息的一部分来传送,但是也可以在代码转换器中根据对接收的下混执行的测量来对其进行估计,或者间接地利用近似对象模型考虑从(D,C)导出。给定Z,可以通过代入预测模型Y=CX来估计对象协方差,得到:
E=CZC*    (32)
并且,可以根据E来估计所有MPEG环绕OTT以及能量模式TTT参数,如同在基于能量的对象参数的情况中一样。然而,使用OPC的巨大优势出现在与预测模式中MPEG环绕TTT参数相结合的情况下。在此情况中,波形近似D36Y≈A3CX立即得到简化的预测矩阵:
C3=A3C    (32)
由此,实现TTT参数(α,β)以及下混转换器的其余步骤类似于能量模式中给定的对象参数的情况。事实上,方程式(22)至(25)的步骤完全相同。将所得到的矩阵G馈送至下混转换器,并将TTT参数(α,β)传送至MPEG环绕解码器。
独立应用下混转换器进行立体声呈现
在上述的所有情况中,对象至立体声的下混转换器501输出对音频对象的5.1声道呈现的立体声下混。这种立体声呈现可以表示为2×N矩阵A2,定义为A2=D26A。在许多的应用中,该下混本身很令人感兴趣,并且,立体声呈现矩阵A2的直接操作是吸引人的。再次考虑以下情况作为示意性示例:通过按照图8所述并在方程式(12)前后的部分中所讨论的方法的一种特殊情况对具有所施加的中心全景化的单声道语音轨道的立体声轨道进行编码。可以通过以下呈现来实现对语音音量的用户控制:
A 2 = 1 1 + v 2 1 0 v / 2 0 1 v / 2 - - - ( 33 )
其中v是语音与音乐的商控制。下混转换器矩阵的设计基于:
GDS≈A2S    (34)
对于基于预测的对象参数,简单地代入近似S≈CDS并且获得转换器矩阵G≈A2C。对于基于能量的对象参数,求解正规方程式:
G(DED*)=A2ED*    (35)
图9示意了根据本发明的一个方面的音频对象编码器的优选实施例。已经结合之前的附图总体上描述了音频对象编码器101。用于产生编码的对象信号的音频对象编码器使用多个音频对象90,在图9中已经示出,这些音频对象进入下混器92以及对象参数产生器94。此外,音频对象编码器101包括下混信息产生器96,用于产生下混信息97,下混信息97指示了所述多个音频对象在至少两个下混声道中的分布,在93处指示其离开下混器92。
该对象参数产生器用于产生音频对象的对象参数95,其中计算对象参数使得能够使用该对象参数和至少两个下混声道93来重构音频对象。然而,重要的是,这种重构不是发生在编码器侧,而是发生在解码器侧。不过,编码器侧的对象参数产生器计算对象对象参数95,以便在解码器侧执行完整的重构。
此外,音频对象编码器101包括输出接口98,用于使用下混信息97和对象参数95来产生编码的音频对象信号99。根据应用,下混声道93也可以使用并且编码成为编码的音频对象信号。然而,也可能存在以下情况:输出接口98产生编码的音频对象信号99,其不包含下混声道。当在解码器侧要使用的任何下混声道已经存在于解码器侧时,这种情况可能发生,所以下混信息与音频对象的对象参数与下混声道分离地进行传送。当可以使用较少量的钱将对象下混声道93与对象参数和下混信息分开购买时,这种情形是有用的,并且,可以使用额外的钱来购买对象参数和下混信息,以向解码器侧的用户提供附加价值。
在没有对象参数和下混信息的情况下,根据下混中包括的声道数目,用户可以将下混声道呈现为立体声或者多声道信号。自然地,用户也可以通过简单地将至少两个所传送的对象下混声道相加来呈现单声道信号。为增加呈现的灵活性、收听的质量与实用性,对象参数和下混信息使用户那个在任何预期的音频重现设置(如立体声系统、多声道系统或者甚至波场合成系统(wave field synthesis system))中形成音频对象的灵活呈现。虽然波场合成系统尚未十分普及,但是多声道系统,如5.1系统或者7.1系统在消费市场上正日益普及。
图10示意了用于产生输出数据的音频合成器。为此,该音频合成器包括输出数据合成器100。该输出数据合成器接收下混信息97和音频对象参数95作为输入,还可能接收预期的音频源数据(如音频源的定位或者特定源的用户指定的音量,如101处所示,在进行呈现时所述源应当已经具有上述定位和音量)作为输入。
输出数据合成器100用于产生输出数据,所述输出数据能够用于创建预定音频输出配置的多个输出声道以表示多个音频对象。输出数据合成器100使用下混信息97和音频对象参数95。如将在稍后参考图11所讨论的,该输出数据可以是各种不同实用应用的数据,包括输出声道的特定呈现,或者仅包括源信号的重构,或者包括在没有输出声道的任何特定呈现的情况下,将参数代码转换为针对空间上混器配置的空间呈现参数的代码转换,以例如储存或者传送这种空间参数。
图14中概括了本发明的一般应用场景。图14中有编码器侧140,包括音频对象编码器101用于接收N个音频对象作为输入。除了图14中未示出的下混信息和对象参数之外,该优选的音频对象编码器的输出包括K个下混声道。根据本发明,下混声道的数目大于或者等于二。
将下混声道传送至解码器侧142,解码器侧142包括空间上混器143。该空间上混器143可以包括本发明的音频合成器,其中该音频合成器在代码转换器模式中操作。然而,当如图10所示的音频合成器101在空间上混器模式中工作时,则在该实施例中,空间上混器143以及音频合成器是相同的设备。空间上混器产生要通过M个扬声器来播放的M个输出声道。这些扬声器放置在预定空间位置,并且一起表示预定音频输出配置。预定音频输出配置的输出声道可以被视为数字或模拟扬声器信号,要将该信号从空间上混器143的输出发送至预定音频输出配置的多个预定位置中的预定位置处的扬声器的输入。根据情况,当执行立体声呈现时,M个输出声道的数目可以等于二。然而,当执行多声道呈现时,M个输出声道的数目大于二。典型地,由于传送链路的要求,存在下混声道的数目小于输出声道数目的情况。在此情况中,M大于K,并且甚至可以远大于K,例如大小为两倍或者甚至更多。
图14还包括若干矩阵标记,以便示意本发明的编码器侧以及本发明的解码器侧的功能。一般而言,对采样值块进行处理。因此,如方程式(2)中所示,音频对象表示为L个采样值组成的行。矩阵S具有N行(对应于对象数目)以及L列(对应于采样数目)。矩阵E以方程式(5)所示的方式计算,并且具有N列和N行。当对象参数在能量模式中给定时,矩阵E包含对象参数。对于不相关的对象,如同之前结合方程式(6)所指出的,矩阵E仅具有主对角线元素,其中主对角线元素给出了音频对象的能量。如之前所指出的,所有非对角线元素表示两个音频对象的相关性,当一些对象为立体声信号的两个声道时,该相关性特别有用。
根据具体实施例,方程式(2)为时域信号。因此,产生针对音频对象的整个频带的单一能量值。然而,优选地,通过时间/频率转换器来处理音频对象,该时间/频率转换器包括例如一种变换或者滤波器组算法。在后者的情况下,对于每一个子带,方程式(2)有效,因此可以获得针对每一个子带以及,当然地,每一个时间帧的矩阵E。
下混声道矩阵X具有K行L列,并以方程式(3)所示的方式来计算。如方程式(4)所示,使用N个对象,通过将所谓的呈现矩阵A应用至N个对象来计算M个输出声道。根据情况,使用下混和对象参数,可以在解码器侧重新产生这N个对象,并且,可以直接地对重构的对象信号应用呈现。
可选地,可以将下混直接变换至输出声道而不需要显式计算源信号。一般而言,呈现矩阵A指示各个源相对于预定音频输出配置的定位。如果有六个对象和六个输出声道,则可以将每个对象放置在每个输出声道上,并且,呈现矩阵将反映出该方案。然而,如果希望将所有对象放置在两个输出扬声器位置之间,则呈现矩阵A将看起来不同,并且将反映出这种不同情况。
呈现矩阵,或者更一般而言,对象的预期定位以及音频源的预期相对音量,一般可以利用编码器来进行计算,并且作为所谓的场景描述传送至解码器,。然而,在其它实施例中,场景描述可以由用户自己来产生,以产生针对用户专用音频输出配置的用户专用的上混。因此,场景描述的传送不是必要的,而是场景描述也可以由用户来产生以满足用户期望。举例而言,用户可能希望将特定音频对象放置在与产生这些对象时这些对象所在的位置不同的位置上。也存在以下情况,音频对象是由用户自己设计的,而且没有任何相对于其它对象的“原始”位置。在这种情况中,音频源的相对位置由用户在第一时间产生。
回到图9,其中示意了下混器92。该下混器用于将多个音频对象下混入多个下混声道,其中音频对象的数目大于下混声道的数目,并且,该下混器耦合至下混信息产生器,以便如下混信息中所指示的方式来将多个音频对象分布至多个下混声道中。由图9中的下混信息产生器96所产生的下混信息可以自动创建或者手动调整。优选地,所提供下混信息的分辨率小于对象参数的分辨率。因此,可以节省辅助信息比特,而不会有较大的质量损失,这是因为,针对不必须是频率选择性的特定音频片段或仅有缓慢变化的下混情况,固定的下混信息已经被证明是足够的。在一个实施例中,下混信息表示具有K行和N列的下混矩阵。
当与下混矩阵中的值相对应的音频对象在由下混矩阵中的行所表示的下混声道中时,下混矩阵该行中该值具有特定值。当多于一个下混声道中包括音频对象时,下混矩阵多于一行的值具有特定值。然而,优选地,当针对单一音频对象相加在一起时,该值的平方和为1.0。然而,其它值也是可能的。此外,音频对象可以以变化的音级输入至一个或者更多个下混声道,并且这些音级可以由下混矩阵中的权值来表示,这些权值不等于1,而且对于特定音频对象,其总和不等于1.0。
当输出接口98产生的编码的音频对象信号中包括下混声道时,编码的音频对象信号可以是例如特定格式的时间复用信号。可选地,编码的音频对象信号可以是任何信号,只要该信号允许在解码器侧将对象参数95、下混信息97以及下混声道93分离。此外,输出接口98可以包括用于对象参数、下混信息或者下混声道的编码器。用于对象参数和下混信息的编码器可以是差分编码器和/或熵编码器,用于下混声道的编码器可以是单声道或者立体声音频编码器,如MP3编码器或者AAC编码器。所有这些编码操作导致进一步的数据压缩,以进一步的降低编码的音频对象信号99所需的数据速率。
根据特定应用,下混器92将背景音乐的立体声表示包括在至少两个下混声道中,此外,以预定比值将语音轨道引入该至少两个下混声道中。在该实施例中,背景音乐的第一声道在第一下混声道内,背景音乐的第二声道在第二下混声道内。这将在立体声呈现设备中产生立体声背景音乐的最佳回放。然而,用户仍然可以在左立体声扬声器以及右立体声扬声器之间修改语音轨道的位置。可选地,可以在一个下混声道中包括第一以及第二背景音乐声道,而且,可以在另一个下混声道中包括该语音轨道。因此,通过消除一个下混声道,可以将语音轨道从背景音乐中分离,这特别适合于卡拉OK应用。然而,背景音乐声道的立体声重现质量将会受到对象参数化的影响,对象参数化当然是一种有损压缩方法。
下混器92适用于在时域中执行逐采样加法。这个加法使用来自要下混为单一下混声道的音频对象的采样。当要以特定百分比将音频对象引入下混声道时,可以在逐采样求和过程之前,进行预加权。可选地,求和也可以在频域中,或者子带域中进行,即在时间/频率转换之后的域中进行。因此,当时间/频率转换是滤波器组时,甚至可以在滤波器组域中执行下混,或者,当时间/频率转换是FFT、MDCT或任何其它变换类型时,在变换域中执行下混。
在本发明的一个方面,对象参数产生器94产生能量参数,此外,当两个音频对象一起表示立体声信号时,还产生两个对象之间的相关性参数,通过随后的方程式(6)可以清楚这一点。可选地,对象参数是预测模式参数。图15示意了计算设备的算法步骤或装置,该计算设备用于计算这些音频对象预测参数。如结合方程式(7)至(12)所讨论的,必须计算矩阵X中关于下混声道的一些统计信息以及矩阵S中的音频对象。具体地,块150示意了计算S·X*的实部以及X·X*的实部的第一步骤。这些实部并非仅是数字而是矩阵,并且在一个实施例中,当考虑在方程式(12)之后的实施例时,通过方程式(1)中的标记来确定这些矩阵。一般而言,步骤150的值可以使用在音频对象编码器101中的可用数据来计算。然后,如步骤152所述的方式来计算预测矩阵C。具体地,以现有技术已知的方法来求解方程式组,以获得具有N行和K列的预测矩阵C中的所有值。一般而言,计算方程式(8)给定的加权因子cn,i,使得所有下混声道的加权的线性相加尽可能好地重构对应的音频对象。当下混声道的数目增加时,该预测矩阵产生更好的音频对象重构。
随后将更详细地讨论图11。具体地,图7示意了若干种输出数据,这些输出数据可用于创建预定音频输出配置的多个输出声道。行111示意了输出数据合成器100的输出数据是重构的音频源的情况。输出用于呈现重构的音频源的数据合成器100所需的输入数据包括下混信息、下混声道以及音频对象参数。然而,为了呈现重构的源,不一定需要输出配置以及在空间音频输出配置中音频源本身的预期定位。在图11中以模式编号1所示的第一种模式中,输出数据合成器100将输出重构的音频源。在预测参数作为音频对象参数的情况中,输出数据合成器100以方程式(7)所定义的方式操作。当对象参数在能量模式中时,则输出数据合成器使用能量矩阵和下混矩阵的逆矩阵来重构源信号。
可选地,例如图1b中的块102中所示,输出数据合成器100作为代码转换器来操作。当输出合成器是一种用于产生空间混合器参数的代码转换器时,需要下混信息、音频对象参数、输出配置以及源的预期定位。具体地,输出配置以及预期定位由呈现矩阵A来提供。然而,如结合图12更详细讨论的,产生该空间混合器参数不需要下混声道。然后,根据情况,直接空间混合器(如MPEG环绕混合器)可以使用输出数据合成器100所产生的空间混合器参数来对下混声道进行上混。该实施例并不一定需要修改对象下混声道,而是可以提供简单的转换矩阵,如方程式(13)中所讨论的,该矩阵仅具有对角线元素。因此,在由图11的112表示的模式2中,输出数据合成器100输出空间混合器参数,并优选地输出如方程式(13)所示的转换矩阵G,矩阵G包含可以用作MPEG环绕解码器的任意下混增益参数(ADG)的增益。
在由图11的113所表示的模式编号3中,输出数据包括转换矩阵(如结合方程式(25)所示的转换矩阵)中的空间混合器参数。在此情况中,输出数据合成器100并不一定必须执行实际的下混转换以将对象下混转换为立体声下混。
图11的行114中由模式编号4所表示的一种不同的操作模式示意了图10的输出数据合成器。在此情况中,代码转换器以图1b中102所指示的方式操作,不仅输出空间混合器参数,也附加地输出转换后的下混。然而,除了转换后的下混之外,不再需要输出转换矩阵G。如图1b所示,输出转换后的下混以及空间混合器参数已经足够。
模式编号5指示了图10所示的输出数据合成器100的另一种用法。在图11中行115所示的这种情况中,由输出数据合成器所产生的输出数据不包含任何空间混合器参数,而仅包含例如由方程式(35)所示转换矩阵G,或者如115处所示,实际上包括立体声信号本身的输出。在该实施例中,仅对立体声呈现感兴趣,而不需要任何空间混合器参数。然而,为了产生立体声输出,需要如图11所示的所有可用输入信息。
另一种输出数据合成器模式由行116中的模式编号6表示。此处,输出数据合成器100产生多声道输出,并且,输出数据合成器100类似于图1b中的元件104。为此,输出数据合成器100需要所有可用的输入信息,并且输出具有多于两个输出声道的多声道输出信号,所述输出声道要通过根据预定音频输出配置位于预期扬声器位置的对应数目的扬声器来呈现。这种多声道输出是5.1输出、7.1输出或者仅是具有左扬声器、中央扬声器以及右扬声器的3.0输出。
随后参考图11,图11示意了用于根据由MPEG环绕解码器所知的图7的参数化概念来计算若干参数的一个示例。如图所示,图7示意了MPEG环绕解码器侧的参数化,该参数化从具有左下混声道l0以及右下混声道r0的立体声下混70开始。概念上,两个下混声道皆输入至所谓的2转3工具箱71。2转3工具箱由若干输入参数72控制。工具箱71产生三个输出声道73a、73b、73c。每一个输出声道输入至1转2工具箱。这意味着,声道73a输入至工具箱74a,声道73b输入至工具箱74b,声道73c输入至工具箱74c。每一个工具箱输出两个输出声道。工具箱74a输出左前声道lf以及左环绕声道ls。此外,工具箱74b输出右前声道rf以及右环绕声道rs。此外,工具箱74c输出中央声道c以及低频增强声道lfe。重要的是,从下混声道70至输出声道的整个上混是使用矩阵运算来执行的,不需要逐步地实现图7所示的树形结构,而是可以通过单一或者若干矩阵运算来实现。此外,特定实施例不显式计算由73a、73b以及73c指示的中间信号,而是示意于图7中仅用于说明目的。此外,工具箱74a、74b接收一些残差信号
Figure BDA00003483475300271
这些残差信号可以用于将特定随机性引入至输出信号。
从MPEG环绕解码器可知,工具箱71由预测参数CPC或者能量参数CLDTTT控制。对于从两个声道至三个声道的上混,至少需要两个预测参数CPC1、CPC2,或者至少需要两个能量参数
Figure BDA00003483475300272
Figure BDA00003483475300273
此外,可以将相关性测量ICCTTT放入工具箱71中,然而,这仅是可选特征,在本发明一个实施例中并未使用。图12与13示意了通过图9的对象参数95、图9的下混信息97以及音频源的预期的定位(例如图10中所示的场景描述101)来计算全部参数CPC/CLDTTT、CLD0、CLD1、ICC1、CLD2、ICC2所必须的步骤和/或装置。这些参数是用于5.1环绕系统的预定音频输出格式。
自然地,根据本文的教导,针对特定实现的参数的特定计算可以适用于其它的输出格式或者参数化。此外,在图12与13a、13b中的步骤的顺序或者装置的布置仅是示例性的,可以在数学相等的逻辑意义内进行改变。
在步骤120中,提供呈现矩阵A。该呈现矩阵指示要将多个源中的源放置在预定输出配置的环境中的何处。步骤121示意如方程式(20)所示的部分下混矩阵D36的推导。该矩阵反映了从六个输出声道至三个声道的下混的情况,而且其大小为3×N。当要产生比5.1配置更多的输出声道时,如8声道输出配置(7.1),则在块121中确定矩阵会是D38矩阵。在步骤122中,通过将矩阵D36与步骤120中所定义的完整呈现矩阵相乘来产生简化的呈现矩阵A3。在步骤123中,引入下混矩阵D。当该矩阵完全地包含在编码的音频对象信号中时,可以通过该信号来得到下混矩阵D。可选地,例如针对特定下混信息示例以及下混矩阵G,可以对该下混矩阵进行参数化。
此外,在步骤124中提供对象能量矩阵。该对象能量矩阵由N个对象的对象参数来反映,并且可以从导入的音频对象中提取,或者使用特定重构规则来重构。重构规则可以包括熵编码等。
在步骤125中,定义了“简化”预测矩阵C3。该矩阵的值可以通过求解步骤125所示的线性方程组来计算。具体而言,矩阵C3的元素可以通过在该方程式的两侧同时乘上(DED*)的逆矩阵来计算。
在步骤126中,计算转换矩阵G。该转换矩阵G的大小为K×K,并且由方程式(25)所定义的方式产生。在步骤126中,为求解该方程式,要提供如步骤127所示的特定矩阵DTTT。该矩阵的示例在方程式(24)中给出,并且该定义可以从如方程式(22)所定义的针对CTTT的对应方程式导出。因此,方程式(22)定义了需要在步骤128中进行的工作。步骤129定义用于计算矩阵CTTT的方程式。一旦根据块129中的方程式确定了矩阵CTTT,可以输出参数α、β与γ,这些参数是CPC参数。优选地,γ设定为1,使得输入至块71中的仅剩的CPC参数为α与β。
图7的方案所需的其余参数是输入至块74a、74b以及74c的参数。结合图13来讨论这些参数的计算。在步骤130中提供呈现矩阵A。该呈现矩阵A的大小为N行(针对音频对象的数目)和M列(针对输出声道的数目)。当使用场景向量时,该呈现矩阵包含来自场景向量的信息。一般而言,呈现矩阵包括与输出设置中特定位置上的音频源的放置相关的信息。例如,当考虑方程式(19)下的呈现矩阵A时,在该呈现矩阵之内如何对特定音频对象的放置进行编码变的更加清楚。自然地,可以使用指定特定位置的其他方法,例如通过不等于1的值。此外,当一方面使用小于1的值,而另一方面使用大于1的值时,特定音频对象的响度也可能受到影响。
在一个实施例中,在没有来自编码器侧的任何信息的情况下,在解码器侧产生呈现矩阵。这使得用户可以将音频对象放置在用户喜欢的任何位置上,而不需要注意在编码器设置中音频对象的空间关系。在另一实施例中,可以在编码器侧对音频源的相对或者绝对位置进行编码,并且将其作为一种场景向量传送至解码器。然后,在解码器侧,对有关音频源位置的信息(优选地独立于预期的音频呈现设置)进行处理,以产生呈现矩阵,该呈现矩阵反映根据特定音频输出配置而定制的音频源位置。
在步骤131中,提供了已经结合图12的步骤124讨论过的对象能量矩阵E。该矩阵的大小为N×N,并且包含音频对象参数。在一个实施例中,针对每一个子带和每个时域采样或者子带域采样块,提供这种对象能量矩阵。
在步骤132中,计算输出能量矩阵F。F是输出声道的协方差矩阵。然而,由于输出声道仍未知,因此输出能量矩阵F是使用呈现矩阵以及能量矩阵来计算的。在步骤130与131中提供了这些矩阵,并且容易对解码器侧可用。然后,应用特定方程式(15)、(16)、(17)、(18)以及(19)来计算声道音级差参数CLD0、CLD1、CLD2,以及声道间相干性参数ICC1以及ICC2,使得用于工具箱74a、74b、74c的参数可用。重要地,这些空间参数是通过将输出能量矩阵F的特定元素进行组合来计算的。
步骤133之后,用于空间上混器(如图7示意性示出的空间上混器)的所有参数都可用。
在前述实施例中,将对象参数作为能量参数给出。然而,当对象参数作为预测参数给出时,即作为如图12中项124a所示的对象预测矩阵C给出时,简化预测矩阵C3的计算仅是如块125a所示并结合方程式(32)所讨论的矩阵乘法。在块125a中所使用的矩阵A3与在图12的块122中所提到的矩阵A3相同。
当对象预测矩阵C由音频对象编码器产生并且传送至解码器时,则需要一些附加的计算,用于产生工具箱74a、74b、74c所需的参数。这些附加的步骤如图13b所示。再一次,如图13b中的124a所示,提供对象预测矩阵C,其与结合图12中的块124a所讨论的矩阵C相同。然后,如结合方程式(31)所讨论的,对象下混的协方差矩阵Z是使用所传送的下混来计算的,或者作为附加的辅助信息来产生并传送该协方差矩阵Z。当传送矩阵Z的信息时,则解码器并不一定必须执行任何能量计算,这些计算固有地引入一些延迟的处理,并且增加了解码器侧的处理负荷。然而,当这些问题对于特定应用没有决定性时,则可以节省传送带宽,并且,对象下混的协方差矩阵Z也可以使用下混采样来计算,这些下混采样在解码器侧当然是可用的。一旦步骤134完成,并且对象下混的协方差矩阵已经就绪,可以如步骤135所示的方式,通过使用预测矩阵C以及下混协方差或者“下混能量”矩阵Z来计算对象能量矩阵E。一旦步骤135完成,可以执行结合图13a所讨论的所有步骤,如步骤132、133,以产生用于图7的块74a、74b、74c的所有参数。
图16示意了另一实施例,其中仅需要立体声呈现。该立体声呈现图11的模式编号5或者行115所提供的输出。此处,图10的输出数据合成器100对于任何空间上混参数并不感兴趣,而主要对用于将对象下混转换为有用的并且当然容易可影响以及容易可控制的立体声下混的特定转换矩阵G感兴趣。
在图16的步骤160中,计算M至2的部分下混矩阵。在六个输出声道的情况中,该部分下混矩阵是六至二声道的下混矩阵,但是其它下混矩阵也是可用的。例如,可以通过12图中的步骤121中所产生的部分下混矩阵D36以及步骤127中所使用的矩阵DTTT来导出该部分下混矩阵的计算。
此外,使用步骤160的结果和步骤161中所示的“大”呈现矩阵A来产生立体声呈现矩阵A2。呈现矩阵A是与已经结合图12中的块120所讨论的矩阵相同。
随后,在步骤162中,可以使用放置参数μ与κ来参数化立体声呈现矩阵。当μ设定为1,κ也设定为1时,则得到方程式(33),允许结合方程式(33)所描述的示例中的语音音量的变化。然而,当使用其它参数(如μ与κ)时,则源的放置也可以改变。
然后,如步骤163所示,使用方程式(33)来计算转换矩阵G。具体地,可以计算并反转该矩阵(DED*),并且反转后的矩阵可以乘至块163中方程式的右侧。自然地,可以应用其它方法来求解块163中的方程式。然后获得转换矩阵G,并且可以通过将该转换矩阵与块164中所示的对象下混相乘来对对象下混X进行转换。然后,可以使用两个立体声扬声器来对转换后的下混X’进行立体声呈现。根据实现方式,可以对μ、v以及κ设定特定值,以计算转换矩阵G。可选地,可以使用全部三个参数作为变量来计算转换矩阵G,以便根据用户要求在步骤163之后设置这些参数。
优选实施例解决了传送多个单独音频对象(使用多声道下混以及描述这些对象的附加控制数据)和将这些对象呈现至给定重现系统(扬声器配置)的问题。介绍了一种关于如何将与对象相关的控制数据修改成与重现系统兼容的控制数据的技术。还基于MPEG环绕编码方案提出了适当的编码方法。
根据本发明方法的特定实现要求,可以以硬件或软件形式来实现本发明的方法和信号。实现方式可以是在数字存储介质上,尤其是其上存储有电子可读的控制信号的盘或CD,所述控制信号可以与可编程计算机系统协作来执行本发明的方法。一般地,因此,本发明也在于具有程序代码的计算机程序产品,所述程序代码存储在机器可读载体上,当计算机程序产品在计算机上运行时,所述程序代码被配置为至少执行本发明的一个方法。换言之,因此,本发明方法是具有程序代码的计算机程序,当计算机程序在计算机上运行时,所述程序代码执行本发明的方法。

Claims (13)

1.一种利用编码的音频对象信号(95,97)来产生输出数据的音频合成器(104),包括:
输出数据合成器(100),用于产生所述输出数据,所述输出数据能够用于呈现预定音频输出配置的多个输出声道以表示多个音频对象,所述输出数据合成器使用下混信息和所述音频对象的音频对象参数,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布,其中,所述输出数据合成器(100)还利用所述音频对象(90)在音频输出配置中的预期定位(A),来将所述音频对象参数代码转换(502)为针对所述预定音频输出配置的空间参数。
2.如权利要求1所述的音频合成器,其中,所述输出数据合成器(100)使用从所述音频对象的预期定位(A)导出的转换矩阵(G),来将多个下混声道转换为针对所述预定音频输出配置的立体声下混。
3.如权利要求1所述的音频合成器,其中,所述空间参数包括用于2转3上混的第一组参数,以及用于3转6上混的第二组能量参数,以及
其中,所述输出数据合成器(100)使用呈现矩阵(A)、部分下混矩阵(D36)以及所述下混矩阵(D)来计算2转3预测矩阵的预测参数,所述呈现矩阵(A)由所述音频对象(90)的预期定位确定,所述部分下混矩阵(D36)描述了输出声道至假想2转3上混过程所产生的三个声道的下混。
4.如权利要求3所述的音频合成器,其中,所述对象参数为对象预测参数,并且,所述输出数据合成器(100)基于所述对象预测参数(C)、下混信息(D)以及与下混声道相对应的能量信息(Z)来预计算能量矩阵(E)。
5.如权利要求1所述的音频合成器,其中,所述输出数据合成器(100)通过计算参数化的立体声呈现矩阵(A2)和依赖于所述参数化的立体声呈现矩阵(A2)的转换矩阵(G),来产生立体声输出配置的两个立体声道。
6.一种利用编码的音频对象信号(95,97)来产生输出数据的音频合成方法,包括:
产生所述输出数据,所述输出数据能够用于创建预定音频输出配置的多个输出声道以表示多个音频对象(90),其中,使用下混信息和音频对象的音频对象参数,所述下混信息指示所述多个音频对象在至少两个下混声道中的分布,并且,还利用所述音频对象(90)在音频输出配置中的预期定位(A),来将所述音频对象参数代码转换(502)为针对所述预定音频输出配置的空间参数。
7.一种利用多个音频对象(90)来产生编码的音频对象信号的音频对象编码器(101),包括:
下混信息产生器(96),用于产生下混信息(97),所述下混信息(97)指示所述多个音频对象在至少两个下混声道中的分布,其中,所述下混信息产生器(96)被配置为产生(150)功率信息(XX*)和相关性信息(SX*),所述功率信息和相关性信息指示所述至少两个下混声道(93)的功率特性和相关性特性;
对象参数产生器(94),用于产生所述音频对象的对象参数(95);以及
输出接口(98),用于产生所述编码的音频对象信号,所述编码的对象信号包括所述下混信息、所述功率信息、所述相关性信息和所述对象参数。
8.如权利要求7所述的音频对象编码器,还包括:
下混器(92),用于将所述多个音频对象下混入多个下混声道,其中,音频对象的数目大于下混声道的数目,并且,所述下混器(92)耦合至所述下混信息产生器,以便以所述下混信息中指示的方式来执行所述多个音频对象在所述多个下混声道中的分布。
9.如权利要求7所述的音频对象编码器,其中,所述下混信息产生器(96)计算所述下混信息,使得所述下混信息指示:
哪个音频对象完整地或部分地包含于所述多个下混声道中的一个或多个下混声道中,以及
当音频对象包含于多于一个下混声道中时,与所述多于一个下混声道中的一个下混声道中包括的音频对象的一部分相关的信息。
10.一种利用多个音频对象来产生编码的音频对象信号的音频对象编码方法(101),包括:
产生下混信息(97),所述下混信息(97)指示所述多个音频对象(90)在至少两个下混声道中的分布;
产生(150)功率信息(XX*)和相关性信息(SX*),所述功率信息和相关性信息指示所述至少两个下混声道的功率特性和相关性特性;
产生所述音频对象的对象参数(94);以及
产生所述编码的音频对象信号(99),所述编码的对象信号包括所述下混信息、所述功率信息、所述相关性信息和所述对象参数。
11.一种编码的音频对象信号,包括下混信息、功率信息(XX*)和相关性信息(SX*)、以及对象参数,所述下混信息指示多个音频对象在至少两个下混声道中的分布,所述功率信息和相关性信息指示所述至少两个下混声道的功率特性和相关性特性,所述对象参数使得能够使用所述对象参数以及所述至少两个下混声道来重构所述音频对象。
12.如权利要求11所述的编码的音频对象信号,存储在计算机可读存储介质上。
13.一种计算机程序,当所述计算机程序在计算机上运行时,执行根据权利要求6或10中任一项所述的方法。
CN201310285571.XA 2006-10-16 2007-10-05 多声道下混对象编码的增强编码和参数表示 Active CN103400583B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US82964906P 2006-10-16 2006-10-16
CN2007800383647A CN101529501B (zh) 2006-10-16 2007-10-05 音频对象编码器和音频对象编码方法
US60/829,649 2009-10-16

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2007800383647A Division CN101529501B (zh) 2006-10-16 2007-10-05 音频对象编码器和音频对象编码方法

Publications (2)

Publication Number Publication Date
CN103400583A true CN103400583A (zh) 2013-11-20
CN103400583B CN103400583B (zh) 2016-01-20

Family

ID=38810466

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201210276103.1A Active CN102892070B (zh) 2006-10-16 2007-10-05 多声道下混对象编码的增强编码和参数表示
CN2007800383647A Active CN101529501B (zh) 2006-10-16 2007-10-05 音频对象编码器和音频对象编码方法
CN201310285571.XA Active CN103400583B (zh) 2006-10-16 2007-10-05 多声道下混对象编码的增强编码和参数表示

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN201210276103.1A Active CN102892070B (zh) 2006-10-16 2007-10-05 多声道下混对象编码的增强编码和参数表示
CN2007800383647A Active CN101529501B (zh) 2006-10-16 2007-10-05 音频对象编码器和音频对象编码方法

Country Status (22)

Country Link
US (2) US9565509B2 (zh)
EP (3) EP2068307B1 (zh)
JP (3) JP5270557B2 (zh)
KR (2) KR101012259B1 (zh)
CN (3) CN102892070B (zh)
AT (2) ATE503245T1 (zh)
AU (2) AU2007312598B2 (zh)
BR (1) BRPI0715559B1 (zh)
CA (3) CA2874454C (zh)
DE (1) DE602007013415D1 (zh)
ES (1) ES2378734T3 (zh)
HK (3) HK1126888A1 (zh)
MX (1) MX2009003570A (zh)
MY (1) MY145497A (zh)
NO (1) NO340450B1 (zh)
PL (1) PL2068307T3 (zh)
PT (1) PT2372701E (zh)
RU (1) RU2430430C2 (zh)
SG (1) SG175632A1 (zh)
TW (1) TWI347590B (zh)
UA (1) UA94117C2 (zh)
WO (1) WO2008046531A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151049A (zh) * 2013-11-27 2020-12-29 弗劳恩霍夫应用研究促进协会 解码器、编码器、产生音频输出信号的方法及编码方法
CN112151049B (zh) * 2013-11-27 2024-05-10 弗劳恩霍夫应用研究促进协会 解码器、编码器、产生音频输出信号的方法及编码方法

Families Citing this family (138)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2006255662B2 (en) * 2005-06-03 2012-08-23 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
US20090177479A1 (en) * 2006-02-09 2009-07-09 Lg Electronics Inc. Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof
KR100917843B1 (ko) * 2006-09-29 2009-09-18 한국전자통신연구원 다양한 채널로 구성된 다객체 오디오 신호의 부호화 및복호화 장치 및 방법
CN101529898B (zh) * 2006-10-12 2014-09-17 Lg电子株式会社 用于处理混合信号的装置及其方法
DE602007013415D1 (de) 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
CN101529504B (zh) 2006-10-16 2012-08-22 弗劳恩霍夫应用研究促进协会 多通道参数转换的装置和方法
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
MX2008012439A (es) * 2006-11-24 2008-10-10 Lg Electronics Inc Metodo de codificacion y decodificacion de señal de audio basada en objetos y aparato para lo mismo.
CN101553868B (zh) 2006-12-07 2012-08-29 Lg电子株式会社 用于处理音频信号的方法和装置
EP2595149A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for transcoding downmix signals
US8756066B2 (en) * 2007-02-14 2014-06-17 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US20100241434A1 (en) * 2007-02-20 2010-09-23 Kojiro Ono Multi-channel decoding device, multi-channel decoding method, program, and semiconductor integrated circuit
KR20080082917A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
RU2419168C1 (ru) 2007-03-09 2011-05-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ обработки аудиосигнала и устройство для его осуществления
KR101100214B1 (ko) 2007-03-16 2011-12-28 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
KR101422745B1 (ko) * 2007-03-30 2014-07-24 한국전자통신연구원 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩장치 및 방법
US8422688B2 (en) * 2007-09-06 2013-04-16 Lg Electronics Inc. Method and an apparatus of decoding an audio signal
KR101290394B1 (ko) * 2007-10-17 2013-07-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다운믹스를 이용한 오디오 코딩
EP2215629A1 (en) * 2007-11-27 2010-08-11 Nokia Corporation Multichannel audio coding
WO2009075510A1 (en) * 2007-12-09 2009-06-18 Lg Electronics Inc. A method and an apparatus for processing a signal
KR101597375B1 (ko) 2007-12-21 2016-02-24 디티에스 엘엘씨 오디오 신호의 인지된 음량을 조절하기 위한 시스템
US8386267B2 (en) * 2008-03-19 2013-02-26 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
MX2010012580A (es) * 2008-05-23 2010-12-20 Koninkl Philips Electronics Nv Aparato de mezcla ascendente estereo parametrico, decodificador estereo parametrico, aparato de mezcla descendente estereo parametrico, codificador estereo parametrico.
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
BRPI0905069A2 (pt) * 2008-07-29 2015-06-30 Panasonic Corp Aparelho de codificação de áudio, aparelho de decodificação de áudio, aparelho de codificação e de descodificação de áudio e sistema de teleconferência
US8705749B2 (en) 2008-08-14 2014-04-22 Dolby Laboratories Licensing Corporation Audio signal transformatting
US8861739B2 (en) 2008-11-10 2014-10-14 Nokia Corporation Apparatus and method for generating a multichannel signal
KR20100065121A (ko) * 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8670575B2 (en) 2008-12-05 2014-03-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2395504B1 (en) * 2009-02-13 2013-09-18 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus
KR101367604B1 (ko) * 2009-03-17 2014-02-26 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
JP2011002574A (ja) * 2009-06-17 2011-01-06 Nippon Hoso Kyokai <Nhk> 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
US8538042B2 (en) * 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
JP5345024B2 (ja) * 2009-08-28 2013-11-20 日本放送協会 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
EP3996089A1 (en) * 2009-10-16 2022-05-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for providing adjusted parameters
CN102257567B (zh) 2009-10-21 2014-05-07 松下电器产业株式会社 音响信号处理装置、音响编码装置及音响解码装置
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
BR112012012097B1 (pt) * 2009-11-20 2021-01-05 Fraunhofer - Gesellschaft Zur Foerderung Der Angewandten Ten Forschung E.V. aparelho para prover uma representação de sinal upmix com base na representação de sinal downmix, aparelho para prover um fluxo de bits que representa um sinal de áudio de multicanais, métodos e fluxo de bits representando um sinal de áudio de multicanais utilizando um parâmetro de combinação linear
US9305550B2 (en) * 2009-12-07 2016-04-05 J. Carl Cooper Dialogue detector and correction
US20120277894A1 (en) * 2009-12-11 2012-11-01 Nsonix, Inc Audio authoring apparatus and audio playback apparatus for an object-based audio service, and audio authoring method and audio playback method using same
CN102792378B (zh) * 2010-01-06 2015-04-29 Lg电子株式会社 处理音频信号的设备及其方法
WO2011104146A1 (en) * 2010-02-24 2011-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
CN113490135B (zh) 2010-03-23 2023-05-30 杜比实验室特许公司 音频再现方法和声音再现系统
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
JP5604933B2 (ja) * 2010-03-30 2014-10-15 富士通株式会社 ダウンミクス装置およびダウンミクス方法
DK2556504T3 (en) * 2010-04-09 2019-02-25 Dolby Int Ab MDCT-BASED COMPLEX PREVIEW Stereo Encoding
WO2011132368A1 (ja) * 2010-04-19 2011-10-27 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
KR20120038311A (ko) 2010-10-13 2012-04-23 삼성전자주식회사 공간 파라미터 부호화 장치 및 방법,그리고 공간 파라미터 복호화 장치 및 방법
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US9055371B2 (en) 2010-11-19 2015-06-09 Nokia Technologies Oy Controllable playback system offering hierarchical playback options
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
US9881625B2 (en) * 2011-04-20 2018-01-30 Panasonic Intellectual Property Corporation Of America Device and method for execution of huffman coding
EP2751803B1 (en) 2011-11-01 2015-09-16 Koninklijke Philips N.V. Audio object encoding and decoding
WO2013073810A1 (ko) * 2011-11-14 2013-05-23 한국전자통신연구원 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
KR20130093798A (ko) 2012-01-02 2013-08-23 한국전자통신연구원 다채널 신호 부호화 및 복호화 장치 및 방법
US10148903B2 (en) 2012-04-05 2018-12-04 Nokia Technologies Oy Flexible spatial audio capture apparatus
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9622014B2 (en) 2012-06-19 2017-04-11 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
JP6231093B2 (ja) * 2012-07-09 2017-11-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ信号の符号化及び復号
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
CN104541524B (zh) 2012-07-31 2017-03-08 英迪股份有限公司 一种用于处理音频信号的方法和设备
WO2014020181A1 (en) * 2012-08-03 2014-02-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
US9489954B2 (en) * 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
JP6141980B2 (ja) 2012-08-10 2017-06-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法
KR20140027831A (ko) * 2012-08-27 2014-03-07 삼성전자주식회사 오디오 신호 전송 장치 및 그의 오디오 신호 전송 방법, 그리고 오디오 신호 수신 장치 및 그의 오디오 소스 추출 방법
EP2717265A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
US9774973B2 (en) 2012-12-04 2017-09-26 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
US9860663B2 (en) 2013-01-15 2018-01-02 Koninklijke Philips N.V. Binaural audio processing
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US9640163B2 (en) 2013-03-15 2017-05-02 Dts, Inc. Automatic multi-channel music mix from multiple audio stems
WO2014162171A1 (en) 2013-04-04 2014-10-09 Nokia Corporation Visual audio processing apparatus
CN105247613B (zh) 2013-04-05 2019-01-18 杜比国际公司 音频处理系统
PL2981963T3 (pl) 2013-04-05 2017-06-30 Dolby Int Ab Urządzenie kompandujące i sposób redukcji szumu kwantyzacji stosujący zaawansowane rozszerzenie spektralne
US9905231B2 (en) 2013-04-27 2018-02-27 Intellectual Discovery Co., Ltd. Audio signal processing method
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP2997573A4 (en) 2013-05-17 2017-01-18 Nokia Technologies OY Spatial object oriented audio apparatus
KR20230129576A (ko) * 2013-05-24 2023-09-08 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
JP6248186B2 (ja) * 2013-05-24 2017-12-13 ドルビー・インターナショナル・アーベー オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ
US9892737B2 (en) * 2013-05-24 2018-02-13 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CA3017077C (en) 2013-05-24 2021-08-17 Dolby International Ab Coding of audio scenes
EP3270375B1 (en) * 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
CN105229733B (zh) * 2013-05-24 2019-03-08 杜比国际公司 包括音频对象的音频场景的高效编码
KR102228994B1 (ko) * 2013-06-05 2021-03-17 돌비 인터네셔널 에이비 오디오 신호를 인코딩하기 위한 방법, 오디오 신호를 인코딩하기 위한 장치, 오디오 신호를 디코딩하기 위한 방법 및 오디오 신호를 디코딩하기 위한 장치
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
US9830918B2 (en) 2013-07-05 2017-11-28 Dolby International Ab Enhanced soundfield coding using parametric component generation
EP3023984A4 (en) * 2013-07-15 2017-03-08 Electronics and Telecommunications Research Institute Encoder and encoding method for multichannel signal, and decoder and decoding method for multichannel signal
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830334A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2830046A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
MX361115B (es) 2013-07-22 2018-11-28 Fraunhofer Ges Forschung Descodificador de audio multicanal, codificador de audio multicanal, métodos, programa de computadora y representación de audio codificada usando una decorrelación de señales de audio renderizadas.
KR20230007563A (ko) * 2013-07-31 2023-01-12 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱
BR112016004299B1 (pt) * 2013-08-28 2022-05-17 Dolby Laboratories Licensing Corporation Método, aparelho e meio de armazenamento legível por computador para melhora de fala codificada paramétrica e codificada com forma de onda híbrida
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
CN107134280B (zh) 2013-09-12 2020-10-23 杜比国际公司 多声道音频内容的编码
TWI774136B (zh) * 2013-09-12 2022-08-11 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
TWI557724B (zh) * 2013-09-27 2016-11-11 杜比實驗室特許公司 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器
EP3057096B1 (en) * 2013-10-09 2019-04-24 Sony Corporation Encoding device and method, decoding device and method, and program
JP6396452B2 (ja) * 2013-10-21 2018-09-26 ドルビー・インターナショナル・アーベー オーディオ・エンコーダおよびデコーダ
KR102381216B1 (ko) 2013-10-21 2022-04-08 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
KR102107554B1 (ko) * 2013-11-18 2020-05-07 인포뱅크 주식회사 네트워크를 이용한 멀티미디어 합성 방법
WO2015105748A1 (en) 2014-01-09 2015-07-16 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
WO2016036163A2 (ko) * 2014-09-03 2016-03-10 삼성전자 주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
EP4207756A1 (en) * 2015-07-16 2023-07-05 Sony Group Corporation Information processing apparatus and method
AU2016311335B2 (en) 2015-08-25 2021-02-18 Dolby International Ab Audio encoding and decoding using presentation transform parameters
MY186661A (en) 2015-09-25 2021-08-04 Voiceage Corp Method and system for time domain down mixing a stereo sound signal into primary and secondary channels using detecting an out-of-phase condition of the left and right channels
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
KR102586089B1 (ko) 2015-11-17 2023-10-10 돌비 레버러토리즈 라이쎈싱 코오포레이션 파라메트릭 바이너럴 출력 시스템 및 방법을 위한 머리추적
RU2722391C2 (ru) * 2015-11-17 2020-05-29 Долби Лэборетериз Лайсенсинг Корпорейшн Система и способ слежения за движением головы для получения параметрического бинаурального выходного сигнала
WO2017132082A1 (en) 2016-01-27 2017-08-03 Dolby Laboratories Licensing Corporation Acoustic environment simulation
US10158758B2 (en) 2016-11-02 2018-12-18 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs at call centers
US10135979B2 (en) * 2016-11-02 2018-11-20 International Business Machines Corporation System and method for monitoring and visualizing emotions in call center dialogs by call center supervisors
CN106604199B (zh) * 2016-12-23 2018-09-18 湖南国科微电子股份有限公司 一种数字音频信号的矩阵处理方法及装置
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10650834B2 (en) * 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
CN114420139A (zh) * 2018-05-31 2022-04-29 华为技术有限公司 一种下混信号的计算方法及装置
CN110970008A (zh) * 2018-09-28 2020-04-07 广州灵派科技有限公司 一种嵌入式混音方法、装置、嵌入式设备及存储介质
MX2021015314A (es) * 2019-06-14 2022-02-03 Fraunhofer Ges Forschung Codificacion y decodificacion de parametros.
KR102079691B1 (ko) * 2019-11-11 2020-02-19 인포뱅크 주식회사 네트워크를 이용한 멀티미디어 합성 단말기
WO2022245076A1 (ko) * 2021-05-21 2022-11-24 삼성전자 주식회사 다채널 오디오 신호 처리 장치 및 방법
CN114463584B (zh) * 2022-01-29 2023-03-24 北京百度网讯科技有限公司 图像处理、模型训练方法、装置、设备、存储介质及程序
CN114501297B (zh) * 2022-04-02 2022-09-02 北京荣耀终端有限公司 一种音频处理方法以及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1295778A (zh) * 1998-04-07 2001-05-16 雷·M·杜比 低位率空间编码方法和系统
WO2006048203A1 (en) * 2004-11-02 2006-05-11 Coding Technologies Ab Methods for improved performance of prediction based multi-channel reconstruction

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69428939T2 (de) * 1993-06-22 2002-04-04 Thomson Brandt Gmbh Verfahren zur Erhaltung einer Mehrkanaldekodiermatrix
WO1995022818A1 (en) 1994-02-17 1995-08-24 Motorola Inc. Method and apparatus for group encoding signals
US6128597A (en) * 1996-05-03 2000-10-03 Lsi Logic Corporation Audio decoder with a reconfigurable downmixing/windowing pipeline and method therefor
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
JP3743671B2 (ja) 1997-11-28 2006-02-08 日本ビクター株式会社 オーディオディスク及びオーディオ再生装置
JP2005093058A (ja) 1997-11-28 2005-04-07 Victor Co Of Japan Ltd オーディオ信号のエンコード方法及びデコード方法
US6788880B1 (en) 1998-04-16 2004-09-07 Victor Company Of Japan, Ltd Recording medium having a first area for storing an audio title set and a second area for storing a still picture set and apparatus for processing the recorded information
US6122619A (en) * 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor
CA2859333A1 (en) 1999-04-07 2000-10-12 Dolby Laboratories Licensing Corporation Matrix improvements to lossless encoding and decoding
KR100392384B1 (ko) 2001-01-13 2003-07-22 한국전자통신연구원 엠펙-2 데이터에 엠펙-4 데이터를 동기화시켜 전송하는장치 및 그 방법
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
JP2002369152A (ja) 2001-06-06 2002-12-20 Canon Inc 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体
CA2459856C (en) * 2001-09-14 2008-11-18 Corus Aluminium Walzprodukte Gmbh Method of de-coating metallic coated scrap pieces
JP2005521921A (ja) * 2002-04-05 2005-07-21 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号処理
JP3994788B2 (ja) * 2002-04-30 2007-10-24 ソニー株式会社 伝達特性測定装置、伝達特性測定方法、及び伝達特性測定プログラム、並びに増幅装置
RU2363116C2 (ru) * 2002-07-12 2009-07-27 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
CN1669358A (zh) * 2002-07-16 2005-09-14 皇家飞利浦电子股份有限公司 音频编码
JP2004193877A (ja) 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
KR20040060718A (ko) * 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
WO2004086817A2 (en) 2003-03-24 2004-10-07 Koninklijke Philips Electronics N.V. Coding of main and side signal representing a multichannel signal
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7555009B2 (en) * 2003-11-14 2009-06-30 Canon Kabushiki Kaisha Data processing method and apparatus, and data distribution method and information processing apparatus
JP4378157B2 (ja) 2003-11-14 2009-12-02 キヤノン株式会社 データ処理方法および装置
US7805313B2 (en) * 2004-03-04 2010-09-28 Agere Systems Inc. Frequency-based coding of channels in parametric multi-channel coding systems
RU2382419C2 (ru) * 2004-04-05 2010-02-20 Конинклейке Филипс Электроникс Н.В. Многоканальный кодер
RU2396608C2 (ru) 2004-04-05 2010-08-10 Конинклейке Филипс Электроникс Н.В. Способ, устройство, кодирующее устройство, декодирующее устройство и аудиосистема
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
BRPI0515128A (pt) * 2004-08-31 2008-07-08 Matsushita Electric Ind Co Ltd aparelho de geração de sinal estéreo e método de geração de sinal estéreo
JP2006101248A (ja) 2004-09-30 2006-04-13 Victor Co Of Japan Ltd 音場補正装置
WO2006060279A1 (en) * 2004-11-30 2006-06-08 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
ATE473502T1 (de) * 2005-03-30 2010-07-15 Koninkl Philips Electronics Nv Mehrkanal-audiocodierung
US7991610B2 (en) * 2005-04-13 2011-08-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Adaptive grouping of parameters for enhanced coding efficiency
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
US8214221B2 (en) * 2005-06-30 2012-07-03 Lg Electronics Inc. Method and apparatus for decoding an audio signal and identifying information included in the audio signal
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
JP2009503574A (ja) * 2005-07-29 2009-01-29 エルジー エレクトロニクス インコーポレイティド 分割情報のシグナリング方法
EP1938663A4 (en) * 2005-08-30 2010-11-17 Lg Electronics Inc DEVICE FOR ENCODING AND DECODING AUDIO SIGNAL AND CORRESPONDING METHOD
US20080255857A1 (en) * 2005-09-14 2008-10-16 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
WO2007049881A1 (en) * 2005-10-26 2007-05-03 Lg Electronics Inc. Method for encoding and decoding multi-channel audio signal and apparatus thereof
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
KR100644715B1 (ko) * 2005-12-19 2006-11-10 삼성전자주식회사 능동적 오디오 매트릭스 디코딩 방법 및 장치
KR100885700B1 (ko) * 2006-01-19 2009-02-26 엘지전자 주식회사 신호 디코딩 방법 및 장치
EP1989704B1 (en) * 2006-02-03 2013-10-16 Electronics and Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
WO2007089129A1 (en) * 2006-02-03 2007-08-09 Electronics And Telecommunications Research Institute Apparatus and method for visualization of multichannel audio signals
JP2009526467A (ja) 2006-02-09 2009-07-16 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法とその装置
US20090177479A1 (en) * 2006-02-09 2009-07-09 Lg Electronics Inc. Method for Encoding and Decoding Object-Based Audio Signal and Apparatus Thereof
ATE532350T1 (de) * 2006-03-24 2011-11-15 Dolby Sweden Ab Erzeugung räumlicher heruntermischungen aus parametrischen darstellungen mehrkanaliger signale
WO2007111568A2 (en) * 2006-03-28 2007-10-04 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
ATE527833T1 (de) 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
AU2007271532B2 (en) * 2006-07-07 2011-03-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for combining multiple parametrically coded audio sources
US20080235006A1 (en) * 2006-08-18 2008-09-25 Lg Electronics, Inc. Method and Apparatus for Decoding an Audio Signal
KR100917843B1 (ko) 2006-09-29 2009-09-18 한국전자통신연구원 다양한 채널로 구성된 다객체 오디오 신호의 부호화 및복호화 장치 및 방법
US8504376B2 (en) * 2006-09-29 2013-08-06 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101529898B (zh) * 2006-10-12 2014-09-17 Lg电子株式会社 用于处理混合信号的装置及其方法
DE602007013415D1 (de) 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1295778A (zh) * 1998-04-07 2001-05-16 雷·M·杜比 低位率空间编码方法和系统
WO2006048203A1 (en) * 2004-11-02 2006-05-11 Coding Technologies Ab Methods for improved performance of prediction based multi-channel reconstruction
CN1969317A (zh) * 2004-11-02 2007-05-23 编码技术股份公司 基于多个参数化的多声道重构

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J.BREEBAART ET AL: "MPEG Spatial Audio Coding/MPEG Surround: Overview and Current Status", 《AUDIO ENGINEERING SOCIETY CONVENTION PAPER PRESENTED AT THE 119TH CONVENTION》 *
J.HERRE ET AL: "The Reference Modal Architecture for MPEG Spatial Audio Coding", 《AUDIO ENGINEERING SOCIETY CONVENTION PAPER 6447》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151049A (zh) * 2013-11-27 2020-12-29 弗劳恩霍夫应用研究促进协会 解码器、编码器、产生音频输出信号的方法及编码方法
US11875804B2 (en) 2013-11-27 2024-01-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems
CN112151049B (zh) * 2013-11-27 2024-05-10 弗劳恩霍夫应用研究促进协会 解码器、编码器、产生音频输出信号的方法及编码方法

Also Published As

Publication number Publication date
NO340450B1 (no) 2017-04-24
EP2054875B1 (en) 2011-03-23
JP5270557B2 (ja) 2013-08-21
ATE503245T1 (de) 2011-04-15
CN102892070A (zh) 2013-01-23
RU2430430C2 (ru) 2011-09-27
BRPI0715559B1 (pt) 2021-12-07
MY145497A (en) 2012-02-29
TWI347590B (en) 2011-08-21
CN103400583B (zh) 2016-01-20
JP2010507115A (ja) 2010-03-04
JP5592974B2 (ja) 2014-09-17
TW200828269A (en) 2008-07-01
JP5297544B2 (ja) 2013-09-25
PL2068307T3 (pl) 2012-07-31
KR20090057131A (ko) 2009-06-03
CA2666640A1 (en) 2008-04-24
US20110022402A1 (en) 2011-01-27
KR20110002504A (ko) 2011-01-07
ATE536612T1 (de) 2011-12-15
MX2009003570A (es) 2009-05-28
KR101103987B1 (ko) 2012-01-06
RU2009113055A (ru) 2010-11-27
US20170084285A1 (en) 2017-03-23
EP2068307A1 (en) 2009-06-10
AU2007312598A1 (en) 2008-04-24
AU2011201106B2 (en) 2012-07-26
ES2378734T3 (es) 2012-04-17
AU2011201106A1 (en) 2011-04-07
NO20091901L (no) 2009-05-14
PT2372701E (pt) 2014-03-20
CA2666640C (en) 2015-03-10
HK1162736A1 (zh) 2012-08-31
US9565509B2 (en) 2017-02-07
CA2874454C (en) 2017-05-02
AU2007312598B2 (en) 2011-01-20
JP2012141633A (ja) 2012-07-26
HK1126888A1 (en) 2009-09-11
DE602007013415D1 (de) 2011-05-05
SG175632A1 (en) 2011-11-28
CA2874454A1 (en) 2008-04-24
EP2054875A1 (en) 2009-05-06
CN101529501A (zh) 2009-09-09
EP2068307B1 (en) 2011-12-07
KR101012259B1 (ko) 2011-02-08
EP2372701A1 (en) 2011-10-05
JP2013190810A (ja) 2013-09-26
CN102892070B (zh) 2016-02-24
HK1133116A1 (en) 2010-03-12
UA94117C2 (ru) 2011-04-11
CA2874451A1 (en) 2008-04-24
WO2008046531A1 (en) 2008-04-24
RU2011102416A (ru) 2012-07-27
EP2372701B1 (en) 2013-12-11
CA2874451C (en) 2016-09-06
CN101529501B (zh) 2013-08-07
BRPI0715559A2 (pt) 2013-07-02

Similar Documents

Publication Publication Date Title
CN101529501B (zh) 音频对象编码器和音频对象编码方法
JP5133401B2 (ja) 出力信号の合成装置及び合成方法
CN101263742B (zh) 音频编码
CN101568958B (zh) 用于处理音频信号的方法和装置
CN101044794B (zh) 用于双声道提示码编码方案和类似方案的散射声音整形的方法和设备
EP3748994A1 (en) Audio decoder and decoding method
RU2485605C2 (ru) Усовершенствованный метод кодирования и параметрического представления кодирования многоканального объекта после понижающего микширования
Annadana et al. New Enhancements to Immersive Sound Field Rendition (ISR) System

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant