CN104769669A - 对参数音频对象编码运用残差概念的编码器、解码器、系统及方法 - Google Patents

对参数音频对象编码运用残差概念的编码器、解码器、系统及方法 Download PDF

Info

Publication number
CN104769669A
CN104769669A CN201380052536.1A CN201380052536A CN104769669A CN 104769669 A CN104769669 A CN 104769669A CN 201380052536 A CN201380052536 A CN 201380052536A CN 104769669 A CN104769669 A CN 104769669A
Authority
CN
China
Prior art keywords
audio object
signal
object signal
mixed
contractings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380052536.1A
Other languages
English (en)
Other versions
CN104769669B (zh
Inventor
托尔斯滕·卡斯特纳
于尔根·赫勒
约尼·保卢斯
莱昂·特伦提夫
奥利弗·赫尔穆特
哈拉尔德·富克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN104769669A publication Critical patent/CN104769669A/zh
Application granted granted Critical
Publication of CN104769669B publication Critical patent/CN104769669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供一种解码器。该解码器包括参数解码单元(110),该参数解码单元(110)用于通过升混三个或更多个缩混信号来产生多个第一估计音频对象信号,其中,所述三个或更多个缩混信号对多个原始音频对象信号进行编码,其中,该参数解码单元(110)被配置成根据参数旁侧信息来升混所述三个或更多个缩混信号,该参数旁侧信息指示关于该多个原始音频对象信号的信息。此外,该解码器包括残差处理单元(120),该残差处理单元(120)用于通过修改第一估计音频对象信号中的一个或更多个来产生多个第二估计音频对象信号,其中,该残差处理单元(120)被配置成根据一个或多个残差信号来修改该第一估计音频对象信号中的所述一个或更多个。

Description

对参数音频对象编码运用残差概念的编码器、解码器、系统及方法
技术领域
本发明涉及音频信号编码、解码及处理,具体地,涉及对参数音频对象编码运用残差概念的编码器、解码器及方法。
背景技术
近来,在音频编码(参见,例如,[BCC]、[JSC]、[SAOC]、[SAOC1]及[SAOC2])和通知源分离(参见,例如,[ISS1]、[ISS2]、[ISS3]、[ISS4]、[ISS5]及[ISS6])领域中已提出了一种参数技术,用于对包括多个音频对象的音频场景进行位速率高效传输/储存。这些技术目的是基于附加旁侧信息(additional side information)来重建期望的输出音频场景或期望的音频源对象,所述附加旁侧信息描述所传输和/或所储存的音频场景和/或该音频场景中的音频源对象。
图5描绘了SAOC(SAOC=空间音频对象编码(Spatial Audio ObjectCoding))系统概况,其例示了使用MPEG SAOC(MPEG=动画专家组(Moving Picture Experts Group))的实例的这种参数系统的原理(参见,例如,[SAOC]、[SAOC1]及[SAOC2])。
一般处理以时间/频率选择性方式进行且可被描述如下:
SAOC编码器510(具体地,SAOC编码器510的旁侧信息估计器530)提取旁侧信息,该旁侧信息描述最多32个输入音频对象信号s1...s32的特性(以其最简单形式,描述音频对象信号的对象功率的关系)。SAOC编码器510的混音器520使用缩混增益因子d1,1...d32,2来缩混这些音频对象信号s1...s32,以获得单声道或双声道信号混合(即,一个或两个缩混信号)。
传输或储存该缩混信号(这些缩混信号)和旁侧信息。为此,可使用音频编码器540编码该缩混音频信号(这些缩混信号)。音频编码器540可以是熟知的感知音频编码器,例如,MPEG-1层II或III(aka.mp3)音频编码器、MPEG高级音频编码(AAC,Advanced Audio Coding)音频编码器等。
在接收器侧,对应的音频解码器550(例如,感知音频解码器,诸如MPEG-1层II或III(aka.mp3)音频解码器、MPEG高级音频编码(AAC)音频解码器等)对已编码的缩混音频信号进行解码。
SAOC解码器560概念上试图使用传输的和/或储存的旁侧信息,例如通过使用虚拟对象分离器570,从一个或两个缩混信号恢复原始(音频)对象信号(“对象分离”)。然后通过SAOC解码器560的再现器(renderer)580使用再现(rendering)矩阵(由系数r1,1...r32,6描述)将这些估计的(音频)对象信号s1,est...s32,est混音成由最多6个音频输出声道y1,est...y6,est表示的目标场景。输出可为单声道、双声道立体声或5.1多声道目标场景(例如,一个、两个或六个音频输出信号)。
归因于在解码侧对音频对象的参数估计的潜在限制;在大多数情况下,不能完美地产生期望的目标输出场景。在极端操作点(例如,一个音频对象的单独播放),该处理常常不再能达成足够的主观声音。为此,已通过引入增强式音频对象(EAO,Enhanced Audio Object)来扩展SAOC方案(参见,例如,[Dfx],此外,参见,例如,[SAOC])。被编码为EAO的音频对象展现出与编码于同一缩混信号中的其它(普通)非增强式音频对象(非EAO)有所增加的分离能力,其代价为旁侧信息速率有所增加。EAO概念针对每一EAO考虑参数模式的预测误差(残差信号)。
图6描绘了在编码器侧的残差估计,其示意性地例示了针对每一EAO对残差信号的计算。在SAOC编码器中,使用所提取参数旁侧信息(PSI,Parametric Side Information)及原始源信号估计残差信号(至多为4个EAO),对这些残差信号进行波形编码且将其作为非参数残差旁侧信息(RSI,Residual Side Information)包括于SAOC位串流中。更详细而言,用于EAO的PSI SAOC解码器610从缩混X产生估计音频对象信号sest,EAO。RSI产生单元620然后基于所产生的估计音频对象信号sest,EAO并且基于原始EAO音频对象信号s1,…,s4产生至多四个残差信号sres,RSI,{1,…,4}
图7描绘了具有EAO支持的SAOC解码器的基本结构,其例示了整合于SAOC解码/转码链(转码=数据从一种编码至另一种编码的转换)中的EAO处理方案的概念性概述。
由CPC估计单元710从参数旁侧信息(PSI)导出缩混信号导向式参数(即,声道预测系数(CPC,Channel Prediction Coefficient))。
将CPC与缩混信号一起馈送至2至N方框(TTN方框)720中。TTN方框720概念上试图从所传输的缩混信号(X)估计EAO(sest,EAO)并且试图提供仅由非EAO组成的估计的非EAO缩混(Xest,nonEAO)。
RSI处理单元730使用传输的和/或储存(且解码)的残差信号(sres,RSI)来增强对EAO(sest,EAO)的估计和对仅非EAO对象的对应缩混(XnonEAO)。
根据目前技术水平,在下一步骤中,RSI处理单元730将非EAO缩混信号(XnonEAO)馈送至SAOC缩混处理器(PSI解码单元)740中,以估计非EAO对象sest,nonEAO。PSI解码单元740将估计的非EAO音频对象sest,nonEAO传递至再现单元750。此外,RSI处理单元将增强的直接馈送至再现单元750中。再现单元750然后基于估计的非EAO音频对象sest,nonEAO且基于增强的产生单声道或立体声输出信号。
现有技术的系统有以下缺点:
在应用残差信号在SAOC解码器中计算EAO之前,必须从传输的/储存的参数旁侧信息计算缩混导向式CPC。
所有缩混信号必须在SAOC残差概念内进行处理,而与其对EAO处理是否有用无关。
由于TTN方框的限制,SAOC残差概念仅可与单声道或双声道信号混合一起使用。EAO残差概念无法结合多声道混合(例如,5.1多声道混合)来使用。
此外,由于其估计的对应计算复杂性,SAOC EAO对EAO的数目设置了限制(即,至多4个)。
由于这些限制,SAOC EAO残差处理概念无法应用于多声道(例如5.1)缩混信号或用于超过4个EAO。
因此,如果能提供音频信号编码、音频信号解码及音频信号处理的改进概念,则将很受欢迎。
发明内容
本发明的一个目标是提供针对音频信号编码、音频信号解码以及音频信号处理的改进概念。本发明的目标是通过以下手段来解决:根据权利要求1的解码器、根据权利要求11的残差信号产生器、根据权利要求19的编码器、根据权利要求21的系统、根据权利要求22的已编码信号、根据权利要求23的方法、根据权利要求24的方法以及根据权利要求25的计算机程序。
提供了一种解码器。该解码器包括参数解码单元,该参数解码单元用于通过升混三个或更多个缩混信号来产生多个第一估计音频对象信号,其中,该三个或更多个缩混信号对多个原始音频对象信号进行编码,其中该,参数解码单元被配置成根据参数旁侧信息来升混该三个或更多个缩混信号,该参数旁侧信息指示关于该多个原始音频对象信号的信息。此外,该解码器包括残差处理单元,该残差处理单元用于通过修改第一估计音频对象信号中的一个或更多个来产生多个第二估计音频对象信号,其中,该残差处理单元被配置成根据一个或多个残差信号来修改该第一估计音频对象信号中的所述一或多个。
实施例给出对象导向式残差概念,其改良EAO的感知质量。与现有技术的系统不同,所给出的概念既不受限于缩混信号的数目也不受限于EAO的数目。给出了两种用于导出对象相关残差信号的方法。一种串行概念,其中随着EAO的数目增加,迭代地减少残差信号的能量,其代价为计算复杂性更高;以及第二种概念,其计算复杂性更低,其中同时估计所有残差。
此外,实施例提供了在解码器侧应用对象导向式残差信号的改进概念以及针对以下应用场景设计的复杂性有所减小的概念:其中在解码器侧仅处理EAO,或者对非EAO的修改局限于增益缩放。
根据一个实施例,残差处理单元可被配置成根据至少三个残差信号来修改该第一估计音频对象信号中的所述一个或更多个。解码器适合于基于该多个第二估计音频对象信号来产生至少三个音频输出声道。
根据一个实施例,解码器可进一步包括缩混修改单元。残差处理单元可确定该多个第二估计音频对象信号中的一个或更多个音频对象信号。该缩混修改单元可适合于从该三个或更多个缩混信号中移除所确定的一个或更多个第二估计音频对象信号,以获得三个或更多个经修改的缩混信号。参数解码单元可被配置成基于该三个或更多个经修改的缩混信号来确定该第一估计音频对象信号中的一个或更多个音频对象信号。
在特定实施例中,缩混修改单元可例如适合于应用公式 X ~ nonEAO = X - DZ eao * S eao .
此外,解码器可适合于进行两个或更多个迭代步骤。针对每一迭代步骤,参数解码单元可适合于确定该多个第一估计音频对象信号中的确切的一个音频对象信号。此外,针对该迭代步骤,残差处理单元可适合于通过修改该多个第一估计音频对象信号中的该音频对象信号来确定该多个第二估计音频对象信号中的确切的一个音频对象信号。此外,针对该迭代步骤,缩混修改单元可适合于从该三个或更多个缩混信号中移除该多个第二估计音频对象信号中的所述音频对象信号,以修改该三个或更多个缩混信号。在所述迭代步骤之后的下一迭代步骤中,参数解码单元可适合于基于已修改的该三个或更多个缩混信号来确定该多个第一估计音频对象信号中的确切的一个音频对象信号。
在一个实施例中,一个或更多个残差信号中的每一个指示该多个原始音频对象信号中的一个与该一个或更多个第一估计音频对象信号中的一个之间的差。
根据一个实施例,其中,残差处理单元可适合于通过修改该第一估计音频对象信号中的五个或更多个来产生多个第二估计音频对象信号,其中,残差处理单元可被配置成根据五个或更多个残差信号来修改该第一估计音频对象信号中的所述五个或更多个。
在另一个实施例中,解码器可被配置成基于多个第二估计音频对象信号来产生七个或更多个音频输出声道。
根据另一个实施例,解码器可适合于不确定声道预测系数就确定多个第二估计音频对象信号。实施例提供了这些概念,使得到目前为止在现有技术的SAOC中对于解码必不可少的对声道预测系数的计算对于解码不再是必需的。
在另一个实施例中,该解码器可为SAOC解码器。
此外,提供了一种残差信号产生器。该残差信号产生器包括参数解码单元,该参数解码单元用于通过升混三个或更多个缩混信号来产生多个估计音频对象信号,其中,该三个或更多个缩混信号对多个原始音频对象信号进行编码,其中,该参数解码单元被配置成根据参数旁侧信息来升混该三个或更多个缩混信号,该参数旁侧信息指示关于该多个原始音频对象信号的信息。此外,残差信号产生器包括残差估计单元,该残差估计单元用于基于该多个原始音频对象信号并且基于该多个估计音频对象信号来产生多个残差信号,使得该多个残差信号中的每一个是差信号,该差信号指示该多个原始音频对象信号中的一个与该多个估计音频对象信号中的一个之间的差。
在一个实施例中,残差估计单元可适合于基于该多个原始音频对象信号中的至少五个原始音频对象信号并且基于该多个估计音频对象信号中的至少五个估计音频对象信号来产生至少五个残差信号。
在一个实施例中,残差信号产生器可进一步包括缩混修改单元,该缩混修改单元适合于修改该三个或更多个缩混信号以获得三个或更多个经修改的缩混信号。参数解码单元可被配置成基于该三个或更多个经修改的缩混信号来确定该第一估计音频对象信号中的一个或更多个音频对象信号。
在一个实施例中,例如,缩混修改单元可被配置成通过从该三个或更多个原始缩混信号中移除该多个原始音频对象信号中的一个或更多个来修改该三个或更多个原始缩混信号以获得该三个或更多个经修改的缩混信号。
在另一个实施例中,例如,缩混修改单元可被配置成:通过基于该估计音频对象信号中的一个或更多个并且基于残差信号中的一个或更多个来产生一个或更多个经修改的音频对象信号,以及通过从该三个或更多个原始缩混信号中移除经修改的音频对象信号,来修改该三个或更多个原始缩混信号,以获得该三个或更多个经修改的缩混信号。例如,该一个或更多个经修改的音频对象信号中的每一个可由缩混修改单元通过修改估计音频对象信号中的一个来产生,其中,该缩混修改单元可适合于根据一个或更多个残差信号中的一个来修改所述估计音频对象信号。
在上述两个实施例中,例如,缩混修改单元可适合于应用公式其中X是要修改的缩混,其中D指示缩混信息,其中Seao包括要移除的原始音频对象信号或经修改的音频对象信号,其中指示要移除的信号的位置,且其中是经修改的缩混信号。例如,音频对象信号的位置(方位)对应于其音频对象在所有对象的清单中的位置(方位)。
根据一个实施例,残差信号产生器可适合于进行两个或更多个迭代步骤。针对每一迭代步骤,参数解码单元可适合于确定该多个估计音频对象信号中的确切的一个音频对象信号。此外,针对所述迭代步骤,残差估计单元可适合于通过修改该多个估计音频对象信号中的所述音频对象信号来确定该多个残差信号中的确切的一个残差信号。此外,针对所述迭代步骤,缩混修改单元可适合于修改该三个或更多个缩混信号。在所述迭代步骤之后的下一迭代步骤中,参数解码单元可适合于基于已修改的该三个或更多个缩混信号来确定该多个估计音频对象信号中的确切的一个音频对象信号。
在一个实施例中,提供了一种编码器,该编码器用于通过产生三个或更多个缩混信号,通过产生参数旁侧信息以及通过产生多个残差信号来对多个原始音频对象信号进行编码。该编码器包括缩混产生器,该缩混产生器用于提供指示该多个原始音频对象信号的缩混的三个或更多个缩混信号。此外,该编码器包括参数旁侧信息估计器,该参数旁侧信息估计器用于产生指示关于多个原始音频对象信号的信息的参数旁侧信息,以获得该参数旁侧信息。此外,该编码器包括根据上述实施例中的一个的残差信号产生器。该残差信号产生器的参数解码单元适合于通过升混由该缩混产生器提供的三个或更多个缩混信号来产生多个估计音频对象信号,其中该缩混信号对多个原始音频对象信号进行编码。该参数解码单元被配置成根据由该参数旁侧信息估计器产生的该参数旁侧信息来升混该三个或更多个缩混信号。该残差信号产生器的残差估计单元适合于基于多个原始音频对象信号且基于多个估计音频对象信号来产生多个残差信号,使得多个残差信号中的每一个指示在多个原始音频对象信号中的一个与多个估计音频对象信号中的一个之间的差。
在一个实施例中,编码器可为SAOC编码器。
此外,提供了一种系统。该系统包括根据上述实施例中的一个的编码器,该编码器用于通过产生三个或更多个缩混信号,通过产生参数旁侧信息以及通过产生多个残差信号来对多个原始音频对象信号进行编码。此外,该系统包括根据上述实施例中的一个的解码器,其中,该解码器被配置成基于由该编码器产生的三个或更多个缩混信号,基于由该编码器产生的该参数旁侧信息以及基于由该编码器产生的多个残差信号来产生多个音频输出声道。
此外,提供了一种编码音频信号。该编码音频信号包括三个或更多个缩混信号、参数旁侧信息以及多个残差信号。该三个或更多个缩混信号是多个原始音频对象信号的缩混。该参数旁侧信息包括指示关于多个原始音频对象信号的旁侧信息的参数。多个残差信号中的每一个是差信号,该差信号指示多个原始音频信号中的一个与多个估计音频对象信号中的一个之间的差。
此外,提供一种方法。该方法包括:
-通过升混三个或更多个缩混信号来产生多个第一估计音频对象信号,其中该三个或更多个缩混信号对多个原始音频对象信号进行编码,其中产生多个第一估计音频对象信号包括根据参数旁侧信息来升混该三个或更多个缩混信号,该参数旁侧信息指示关于多个原始音频对象信号的信息,以及
-通过修改第一估计音频对象信号中的一个或更多个来产生多个第二估计音频对象信号,其中,产生多个第二估计音频对象信号包括根据一个或更多个残差信号来修改第一估计音频对象信号中的一个或更多个。
此外,提供另一种方法。该方法包括:
-通过升混三个或更多个缩混信号来产生多个估计音频对象信号,其中,三个或更多个缩混信号对多个原始音频对象信号进行编码,其中,产生多个估计音频对象信号包括根据参数旁侧信息来升混该三个或更多个缩混信号,该参数旁侧信息指示关于多个原始音频对象信号的信息,以及
-基于多个原始音频对象信号并且基于多个估计音频对象信号来产生多个残差信号,使得多个残差信号中的每一个是差信号,该差信号指示这些多个原始音频对象信号中的一个与多个估计音频对象信号中的一个之间的差。
此外,提供一种计算机程序,该计算机程序在计算机或信号处理器上被执行时用于实现上述方法中的一种。
附图说明
以下参考诸图来更详细地描述本发明的实施例,其中:
图1a例示了根据一个实施例的解码器,
图1b例示了根据另一个实施例的解码器,其中该解码器进一步包括再现器,
图2a例示了根据一个实施例的残差信号产生器,
图2b例示了根据一个实施例的编码器,
图3例示了根据一个实施例的系统,
图4例示了根据一个实施例的编码音频信号,
图5描绘了SAOC系统概况,其例示了使用MPEG SAOC的实例的这种参数系统的原理,
图6描绘了在编码器侧的残差估计,其示意性地例示了针对每一EAO对残差信号的计算,
图7描绘了具有EAO支持的SAOC解码器的基本结构,其例示了整合于SAOC解码/转码链中的EAO处理方案的概念性概述,
图8描绘了根据一个实施例的基于所提供的参数和残差的音频对象编码方案的概念性概述,
图9描绘了根据一个实施例的用于在编码器侧针对每一EAO信号联合估计残差信号的概念,
图10例示了根据一个实施例的在解码器侧的联合残差解码的概念,
图11例示了根据一个实施例的残差信号产生器,其中该残差信号产生器进一步包括缩混修改单元,
图12例示了根据一个实施例的解码器,其中该解码器进一步包括缩混修改单元,
图13例示了根据一个实施例的在编码器侧以串行方式计算残差分量的概念,
图14例示了根据一个实施例的在解码器侧结合串行残差计算来使用的串行“RSI解码”单元,
图15例示了根据一个实施例的使用串行概念的残差信号产生器,以及
图16例示了根据一个实施例的使用串行概念的解码器。
具体实施方式
图2a例示了根据一个实施例的残差信号产生器200。
残差信号产生器200包括参数解码单元230,该参数解码单元230用于通过升混三个或更多个缩混信号(缩混信号#1、缩混信号#2、缩混信号#3,…,缩混信号#N)来产生多个估计音频对象信号(估计音频对象信号#1,…估计音频对象信号#M)。三个或更多个缩混信号(缩混信号#1、缩混信号#2、缩混信号#3,…,缩混信号#N)对多个原始音频对象信号(原始音频对象信号#1,…,原始音频对象信号#M)进行编码。参数解码单元230被配置成根据参数旁侧信息来升混三个或更多个缩混信号(缩混信号#1、缩混信号#2、缩混信号#3,…,缩混信号#N),该参数旁侧信息指示关于多个原始音频对象信号(原始音频对象信号#1,…,原始音频对象信号#M)的信息。
此外,残差信号产生器200包括残差估计单元240,该残差估计单元240用于基于多个原始音频对象信号(原始音频对象信号#1,…,原始音频对象信号#M)且基于多个估计音频对象信号(估计音频对象信号#1,…估计音频对象信号#M)来产生多个残差信号(残差信号#1,…,残差信号#M),使得多个残差信号(残差信号#1,…,残差信号#M)中每一个是一个差信号,该差信号指示多个原始音频对象信号(原始音频对象信号#1,…,原始音频对象信号#M)中的一个与多个估计音频对象信号(估计音频对象信号#1,…估计音频对象信号#M)中的一个之间的差。
根据上述实施例的编码器克服了现有技术的SAOC局限(参见[SAOC])。
目前的SAOC系统通过使用一个或更多个2至1方框或一个或多个3至1方框来进行缩混。由于这些潜在的局限以及其它原因,目前的SAOC系统可将音频对象信号缩混成至多两个缩混通道/两个缩混信号。
提供了残差信号产生器的概念和编码器的概念,其允许克服SAOC的局限,因此音频对象编码现在有利于使用超过两个传输声道的传输系统。
在一个实施例中,残差估计单元240适合于基于多个原始音频对象信号中的至少五个原始音频对象信号且基于多个估计音频对象信号中的至少五个估计音频对象信号来产生至少五个残差信号。
图2b例示了根据一个实施例的编码器。图2b的编码器包括残差信号产生器200。
此外,该编码器包括缩混产生器210,该缩混产生器210用于提供指示多个原始音频对象信号(原始音频对象信号#1,…,原始音频对象信号#M、另外的原始音频对象信号)的缩混的三个或更多个缩混信号(缩混信号#1、缩混信号#2、缩混信号#3,…,缩混信号#N)。
关于原始音频对象信号#1,…,原始音频对象信号#M,残差估计单元240产生残差信号(残差信号#1,…,残差信号#M)。因此,原始音频对象信号#1,…,原始音频对象信号#M代表增强式音频对象(EAO)。
然而,如图2b中可看出,另外的原始音频对象信号可以以选择的方式存在,其可被缩混,但并不针对其产生残差信号。因此,这些另外的原始音频对象信号代表非增强式音频对象(非EAO)。
图2b的编码器进一步包括参数旁侧信息估计器220,该参数旁侧信息估计器220用于产生指示关于多个原始音频对象信号(原始音频对象信号#1,…,原始音频对象信号#M、另外的原始音频对象信号)的信息的参数旁侧信息,以获得该参数旁侧信息。在图2b的实施例中,参数旁侧信息估计器还考虑指非EAO的原始音频对象信号(另外的原始音频对象信号)。
在一个实施例中,例如,当原始音频对象信号指EAO时,原始音频对象信号的数目可等于残差信号的数目。
然而在其它实施例中,例如,当原始音频对象信号代表非EAO时,残差信号的数目可不同于原始音频对象信号的数目和/或可不同于估计音频对象信号的数目。
在一些实施例中,该编码器是SAOC编码器。
图1a例示了根据一个实施例的解码器。
该解码器包括参数解码单元110,该参数解码单元110用于通过升混三个或更多个缩混信号(缩混信号#1、缩混信号#2、缩混信号#3,…,缩混信号#N)来产生多个第一估计音频对象信号(第一估计音频对象信号#1,…第一估计音频对象信号#M),其中三个或更多个缩混信号(缩混信号#1、缩混信号#2、缩混信号#3,…,缩混信号#N)对多个原始音频对象信号进行编码,其中参数解码单元110被配置成根据参数旁侧信息来升混三个或更多个缩混信号(缩混信号#1、缩混信号#2、缩混信号#3,…,缩混信号#N),该参数旁侧信息指示关于多个原始音频对象信号的信息。
此外,该解码器包括残差处理单元120,该残差处理单元120用于通过修改第一估计音频对象信号(第一估计音频对象信号#1,…第一估计音频对象信号#M)中的一个或更多个来产生多个第二估计音频对象信号(第二估计音频对象信号#1,…第二估计音频对象信号#M),其中残差处理单元120被配置成根据一个或更多个残差信号(残差信号#1,…,残差信号#M)来修改第一估计音频对象信号(第一估计音频对象信号#1,…第一估计音频对象信号#M)中的所述一个或更多个。
根据上述实施例的解码器克服了现有技术的SAOC局限(参见[SAOC])。
此外,目前的SAOC系统通过使用一个或更多个1至2方框(OTT方框)或一个或更多个2至3方框(TTT方框)来进行升混。此外,由于这些局限以及其它原因,通过现有技术的SAOC解码器无法升混由超过两个缩混信号/缩混声道来编码的音频对象信号。
提供针对解码器的概念,其允许克服SAOC的局限,使得音频对象编码现在有利于使用超过两个传输声道的传输系统。
图1b例示了根据另一个实施例的解码器,其中该解码器进一步包括再现单元130,该再现单元130用于根据再现信息从第二估计音频对象信号(第二估计音频对象信号#1,…第二估计音频对象信号#M)产生多个音频输出声道(音频输出声道#1,…,音频输出声道#R)。例如,再现信息可为再现矩阵和/或再现矩阵的系数,且再现单元130可被配置成对第二估计音频对象信号(第二估计音频对象信号#1,…第二估计音频对象信号#M)应用该再现矩阵以获得多个音频输出声道(音频输出声道#1,…,音频输出声道#R)。
根据一个实施例,残差处理单元120被配置成根据至少三个残差信号来修改第一估计音频对象信号中的所述一个或更多个。该解码器适合于基于多个第二估计音频对象信号来产生至少三个音频输出声道。
在另一个实施例中,一个或更多个残差信号中的每一个指示多个原始音频对象信号中的一个与一个或更多个第一估计音频对象信号中的一个之间的差。
根据一个实施例,残差处理单元120适合于通过修改第一估计音频对象信号中的五个或更多个来产生多个第二估计音频对象信号。残差处理单元120适合于根据五个或更多个残差信号来修改第一估计音频对象信号中的所述五个或更多个。
在另一个实施例中,该解码器被配置成基于多个第二估计音频对象信号来产生七个或更多个音频输出声道。
根据另一个实施例,该解码器适合于不确定声道预测系数就确定多个第二估计音频对象信号。
在另一个实施例中,该解码器是SAOC解码器。
图3例示了根据一个实施例的系统。该系统包括根据上述实施例中的一个的编码器310,该编码器310用于通过产生三个或更多个缩混信号,通过产生参数旁侧信息以及通过产生多个残差信号来对多个原始音频对象信号(原始音频对象信号#1,…,原始音频对象信号#M)进行编码。此外,该系统包括根据上述实施例中的一个的解码器320,解码器320被配置成基于由编码器310产生的三个或更多个缩混信号,基于由编码器310产生的参数旁侧信息以及基于由编码器310产生的多个残差信号来产生多个第二估计音频对象信号。
图4例示了根据一个实施例的编码音频信号。该编码音频信号包括三个或更多个缩混信号410、参数旁侧信息420以及多个残差信号430。三个或更多个缩混信号410是多个原始音频对象信号的缩混。参数旁侧信息420包括指示关于多个原始音频对象信号的旁侧信息的参数。多个残差信号430中的每一个是差信号,该差信号指示多个原始音频对象信号中的一个与多个估计音频对象信号中的一个之间的差。
以下提供根据一个实施例的概念概述。
图8描绘了根据一个实施例的基于所提供的参数和残差的音频对象编码方案的概念性概述,其中该编码方案展现出高级的缩混信号和高级的EAO支持。
在编码器侧,参数旁侧信息估计器(“PSI产生单元”)220计算PSI,用于在解码器处利用与源和缩混相关的特性来估计对象信号。RSI产生单元245通过分析估计对象信号与原始对象信号之间的差来针对要增强的每一对象信号计算残差信息。RSI产生单元245可例如包括参数解码单元230及残差估计单元240。
在解码器侧,参数解码单元(“PSI解码”单元)110使用给定的PSI从缩混信号估计对象信号。在第二步骤中,残差处理单元(“RSI解码”单元)120使用RSI来改善要增强的估计对象信号的质量。例如,可将所有对象信号(增强式和非增强式音频对象)传递至再现单元130来产生目标输出场景。
应注意,不必考虑所有缩混信号。若缩混信号对估计或/和估计并且增强对象信号的贡献可被忽略,则可省略这些缩混信号。
为了容易理解,将图8中的处理步骤及以下诸图示出为分开的处理单元。在实践中,可将它们有效地合并以减少计算复杂性。
以下提供联合残差编码/解码概念。
图9描绘了根据一个实施例的用于在编码器侧针对每一EAO信号联合估计残差信号的概念。
参数解码单元(“PSI解码”单元)230在给定估计的PSI和缩混信号作为输入的情况下产生对音频对象信号的估计(估计音频对象信号sest,PSI,{1,…,M})。在残差估计单元(“RSI估计”单元)240中将估计的音频对象信号sest,PSI,{1,…,M}与原始未改变的源信号s1,…,sM相比较。残差估计单元240针对要增强的每一音频对象提供残差/误差信号项sres,RSI,{1,…,M}
图10显示了在解码器中结合联合残差计算来使用的“RSI解码”单元。具体地,图10例示了根据一个实施例的在解码器侧的联合残差解码的概念。
来自参数解码单元(“PSI解码”单元)110的(第一)估计音频对象信号sest,PSI,{1,…,M}与残差信息(“残差旁侧信息”)一起被馈送至残差处理单元(“RSI解码”)120中。残差处理单元120从残差(旁侧)信息及估计音频对象信号sest,PSI,{1,…,M}计算第二估计音频对象信号sest,RSI,{1,…,M},例如,增强式及非增强式音频对象信号,且产生第二估计音频对象信号sest,RSI,{1,…,M},例如,增强式及非增强式音频对象信号,来作为残差处理单元120的输出。
另外,可进行对非EAO的重新估计(图10中未例示出)。从信号混合中移除EAO,且从该混合重新估计剩余的非EAO。与根据包括所有对象信号的信号混合的估计相比,这就产生了对这些对象的改进的估计。若目标仅是处理混合中的增强式对象信号,则可省略此重新估计。
图11例示了根据一个实施例的残差信号产生器,其中。
在图11中,残差信号产生器200进一步包括缩混修改单元250,该缩混修改单元250适合于修改三个或更多个缩混信号以获得三个或更多个经修改的缩混信号。
参数解码单元230被配置成基于三个或更多个经修改的缩混信号来确定第一估计音频对象信号中的一个或更多个音频对象信号。
然后,残差估计单元240可例如基于第一估计音频对象信号中的所述一个或更多个音频对象信号来确定一个或更多个残差信号。
在一个实施例中,例如,缩混修改单元250可被配置成:通过从三个或更多个原始缩混信号中移除多个原始音频对象信号中的一个或更多个,来修改该三个或更多个原始缩混信号以获得三个或更多个经修改的缩混信号。
在另一实施例中,例如,缩混修改单元250可被配置成:通过基于估计音频对象信号中的一个或更多个并且基于残差信号中的一个或更多个来产生一个或更多个经修改的音频对象信号,以及通过从三个或更多个原始缩混信号中移除一个或更多个经修改的音频对象信号,来修改这三个或更多个原始缩混信号以获得这三个或更多个经修改的缩混信号。例如,可由缩混修改单元通过修改估计音频对象信号中的一个来产生一个或更多个经修改的音频对象信号,其中缩混修改单元可适合于根据该一个或更多个残差信号中的一个来修改所述估计音频对象信号。
在上述两个实施例中,例如,缩混修改单元可适合于应用公式 X ~ = X - DZ eao * S eao ,
其中,X是要修改的缩混,
其中,D指示相关缩混信息,
其中,Seao包括要移除的原始音频对象信号或要移除的经修改的音频对象信号,
其中,指示要移除的信号的位置,以及
其中,是经修改的缩混信号。
例如,音频对象信号的位置(方位)对应于其音频对象在所有对象的清单中的位置(方位)。
图12例示了根据一个实施例的解码器。
在图12的实施例中,该解码器进一步包括缩混修改单元140。
残差处理单元120确定多个第二估计音频对象信号中的一个或更多个音频对象信号。
缩混修改单元140适合于从该三个或更多个缩混信号中移除一个或更多个第二估计音频对象信号,以获得三个或更多个经修改的缩混信号。
参数解码单元110被配置成基于三个或更多个经修改的缩混信号来确定第一估计音频对象信号中的一个或更多个音频对象信号。
例如,残差处理单元120然后可基于第一估计音频对象信号中的经确定的一个或更多个音频对象信号来确定一个或更多个另外的第二估计音频对象信号。
在一个特定实施例中,例如,缩混修改单元130可适合于应用公式:
X ~ nonEAO = X - DZ eao * S eao ,
以从三个或更多个缩混信号中移除由残差处理单元120确定的多个第二估计音频对象信号中的一个或更多个音频对象信号,以获得三个或更多个经修改的缩混信号,其中,
X指示修改之前的三个或更多个缩混信号
指示三个或更多个经修改的缩混信号
D指示缩混矩阵
Zeao指示表示EAO的方位(位置)的映射子矩阵
(关于此实施例的特定变型的更多细节,参见以下描述)。
以下给出串行残差编码/解码概念。
图13例示了根据一个实施例的在编码器侧以串行方式计算残差分量的概念。与联合残差计算概念相比,串行方法在每一迭代步骤中减少了残差能量的能量,其代价为计算复杂性更高。在每一步骤中,在将信号混合(缩混)传递至下一处理单元2452之前,从信号混合(缩混)中移除增强式音频对象的原始音频对象信号中的一个(sM)(或者,在替代性实施例中,估计音频对象信号;参见虚线箭头2461、2462)。以此方式,信号混合(缩混)中的对象信号的数目随着每个处理步骤减小。下一步骤中对增强式音频对象信号(第二估计音频对象信号)的估计因此改良,从而连续减少残差信号的能量。
(应注意,在其中在每一迭代步骤中从信号混合中移除估计对象信号的替代性实施例中,缩混修改子单元2501、2502不需要接收原始音频对象信号sM
相反,在其中在每一迭代步骤中从信号混合中移除原始音频对象信号的实施例中,缩混修改子单元2501、2502不需要接收估计音频对象信号。)
更详细而言,图13例示了多个RSI产生子单元2451、2452。这些多个RSI产生子单元2451、2452共同形成RSI产生单元。
多个RSI产生子单元2451、2452中的每一个包括参数解码子单元2301。多个参数解码子单元2301共同形成参数解码单元。参数解码子单元2301产生第一估计音频对象信号sest,PSI,{1,…,M}
多个RSI产生子单元2451、2452中的每一个包括残差估计子单元2401。多个残差估计子单元2401共同形成残差估计单元。这些残差估计子单元2401产生第二估计音频对象信号sest,RSI,M、sest,RSI,M-1
此外,图13例示了多个缩混修改子单元2501、2502。这些缩混修改子单元2501、2502中每一个共同形成缩混修改单元。
图14显示了根据一个实施例的在解码器侧结合串行残差计算来使用的串行“RSI解码”单元。
在每一步骤中,由参数解码子单元(“PSI解码”)1101估计要增强的对象信号中的一个(以获得第一估计音频对象信号中的一个sest,PSI,M),然后,由残差处理子单元(“RSI处理”)1201将第一估计音频对象信号中的一个sest,PSI,M与对应的残差信号sres,RSI,M一起处理,以产生对象信号(第二估计音频对象信号中的一个)的增强式版本sest,RSI,M。在将经修改的缩混信号馈送至下一残差解码子单元(“残差解码”1252)之前,由缩混修改子单元(“缩混修改”)1401从缩混信号删除该增强式对象信号sest,RSI,M
与联合残差编码/解码概念相同,另外可重新估计非EAO。
更详细而言,图14例示例多个残差解码子单元1251、1252。该多个残差解码子单元1251、1252共同形成残差解码单元。
多个残差解码子单元1251、1252中的每一个包括参数解码子单元1101。多个参数解码子单元1101共同形成参数解码单元。参数解码子单元1101产生第一估计音频对象信号sest,PSI,{1,…,M}
多个残差解码子单元1251、1252中的每一个包括残差处理子单元1201。多个残差处理子单元1201共同形成残差处理单元。残差处理子单元1201产生第二估计音频对象信号sest,RSI,M、sest,RSI,M-1
此外,图14例示了多个缩混修改子单元1401、1402。缩混修改子单元1401、1402中的每一个共同形成缩混修改单元。
图15例示了根据一个实施例的使用串行概念的残差信号产生器。
在图15中,残差信号产生器包括缩混修改单元250。
残差信号产生器200适合于进行两个或更多个迭代步骤。
针对每一迭代步骤,参数解码单元230适合于确定多个估计音频对象信号中的确切的一个音频对象信号。
此外,针对所述迭代步骤,残差估计单元240适合于通过修改多个估计音频对象信号中的所述音频对象信号来确定这些多个残差信号中的确切的一个残差信号。
此外,针对所述迭代步骤,缩混修改单元250适合于修改三个或更多个缩混信号。
在所述迭代步骤之后的下一迭代步骤中,参数解码单元230适合于基于已修改的三个或更多个缩混信号来确定多个估计音频对象信号中的确切的一个音频对象信号。
图16例示了根据一个实施例的使用串行概念的解码器。在图16中,该解码器再次包括缩混修改单元140。
图16的解码器适合于进行两个或更多个迭代步骤:
针对每一迭代步骤,参数解码单元110适合于确定多个第一估计音频对象信号中的确切的一个音频对象信号。
此外,针对所述迭代步骤,残差处理单元120适合于通过修改多个第一估计音频对象信号中的所述音频对象信号来确定多个第二估计音频对象信号中的确切的一个音频对象信号。
此外,针对所述迭代步骤,缩混修改单元140适合于从三个或更多个缩混信号中移除多个第二估计音频对象信号中的所述音频对象信号,以修改三个或更多个缩混信号。
在所述迭代步骤之后的下一迭代步骤中,参数解码单元110适合于基于已修改的这些三个或更多个缩混信号来确定多个第一估计音频对象信号中的确切的一个音频对象信号。
以下描述对联合残差编码/解码概念的实例的数学推导。
下文使用以下标记法:
维度:
NObjects-音频对象信号的数目
NDmxCh-缩混信号的数目
NUpmixCh-升混通道的数目
NSamples-已处理数据的数目
NEAO-EAO的数目
项目:
Z*-星号运算子(*)表示给定矩阵的共轭转置
S-提供给编码器的原始音频对象信号(大小为NObjects×NSamples)
D-缩混矩阵(大小为NDmxCh×NObjects)
R-再现矩阵(大小为NUpmixCh×NObjects)
X-缩混音频信号X=DS(大小为NDmxCh×NSamples)
Y-理想音频输出信号Y=RS(大小为NUpmixCh×NSamples)
Sest-经参数重建的对象信号估计Sest;S系定义为Sest=GX(大小为NObjects×NSamples)
-解码器输出,其包括所有非EAO(参数估计)和EAO(参数加残差)信号估计,大小为NObjects×NSamples
-升混音频输出信号估计Y定义为(大小为NUpmixCh×NSamples)
ZnonEao;Zeao-表示非EAO和EAO在所有对象的清单中的位置的映射子矩阵。注意,(大小为(NObjects-NEAO)×NObjects;NEAO×NObjects)。非EAO的ZnonEao和对应的Zeao映射矩阵系定义为
例如,针对NObjects=5且对象编号2和4是EAO,则这些矩阵是
Z nonEao = 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 , Z eao = 0 1 0 0 0 0 0 0 1 0 .
DnonEao-对应于非EAO的缩混子矩阵;定义为(大小为NDmxCh×(NObjects-NEAO))
Deao-对应于EAO的缩混子矩阵;定义为(大小为NDmxCh×NEAO)
G-参数源估计矩阵(大小为NObjects×NDmxCh)
E-对象协方差矩阵(大小为NObjects×NObjects)
EnonEao-对应于非EAO的协方差子矩阵;定义为(大小为(NObjects-NEAO)×(NObjects-NEAO))
Seao-包括EAO的重建的EAO信号(大小为NEAO×NSamples)
SnonEao-包括非EAO的重建的非EAO信号(大小为(NObjects-NEAO)×NSamples)
Sres-EAO的残差信号(大小为NEAO×NSamples)
-仅包括非EAO信号的经修改的缩混信号;计算为SAOC缩混与重建的EAO的缩混之间的差(大小为NDmxCh×NSamples)
所介绍的所有矩阵(通常)随时间和频率变化。
现在,考虑在解码器侧使用非EAO信号重新估计的一般方法:
该一般方法可描述为两步方法,其中,首先从对应的缩混信号提取所有EAO信号,且然后在考虑这些EAO的情况下重建所有非EAO信号。使用PSI(E,D)和并入的残差信号(Sres)从缩混信号(X)恢复对象信号。
认为,给出最终再现的输出信号为:
Y ^ est = R S ^ est .
解码器输出对象信号可表示为以下总和:
S ^ est = Z eao * S eao + Z nonEao * S nonEao .
借助于参数EAO重建矩阵Geao和对应的EAO残差Sres,从缩混X计算EAO信号Seao,如下:
Seao=GeaoX+Sres
借助于参数非EAO重建矩阵从经修改的缩混计算非EAO信号SnonEao,如下:
S nonEao = G ~ nonEao X ~ nonEao .
经修改的缩混信号在下面被确定为缩混X与经重建的EAO的对应缩混之间的差,因此从缩混信号X删除了EAO:
X ~ nonEAO = X - DZ eao * S eao .
此处,使用PSI(E,D)确定EAO的参数对象重建矩阵Geao和非如下:
Geao=ZeaoED*J,J≈(DED*)-1
G ~ nonEao = E nonEao D nonEao * J nonEao , J nonEao ≈ ( D nonEao E nonEao D nonEao * ) - 1 .
下文描述在解码器侧的没有非EAO信号重新估计的简化方法“A”:
若仅处理信号混合中的EAO,则目标场景可理解为缩混信号与EAO信号的线性组合。因此可省略对非EAO信号的附加重新估计。具有非EAO信号重新估计的一般方法可简化成单步程序:
S ^ est = S est + X dif .
信号Xdif=f(Sres,D)包括EAO的传输残差信号和残差补偿项,因此以下定义成立:
D S ^ est = X .
此条件足以再现局限于仅处理EAO的任何声响场景。
且DSest=X的情况下,必须满足针对项目Xdif的以下约束:
DXdif=0。
项目Xdif包括由编码器确定(且所传输或储存)的分量Sres和要使用此等式来确定的分量XnonEao
使用缩混矩阵的定义(D=DeaoZeao+DnonEaoZnonEao)和补偿项 ( X dif = Z eao * S res + Z nonEao * X nonEao ) , 可导出以下等式:
DX dif = D eao Z eao Z eao * S res + D nonEao Z nonEao Z nonEao * X nonEao + D eao Z eao Z nonEao * X nonEao + D nonEao Z nonEao Z eao * S res = 0
其中, Z eao Z eao * = I , Z nonEao Z nonEao * = I 并且 Z nonEao Z eao * = [ 0 ] , Z eao Z nonEao * = [ 0 ] , 这些式可简化为:
DeaoSres+DnonEaoXnonEao=0。
对XnonEao的线性等式求解,得出:
X nonEao = - ( D nonEao * D nonEao ) - 1 D nonEao * D eao S res
在对此线性等式系统求解后,期望的目标场景可计算为参数预测项和残差增强项的以下总和:
Y ^ est = R S ^ est , S ^ est = S est + X dif , X dif = Z eao * S res - Z nonEao * ( D nonEao * D nonEao ) - 1 D nonEao * D eao S res .
下文提供在解码器侧的没有非EAO信号重新估计的简化方法“B”:
针对参数信号预测Sest考虑如上补偿项且将其表示为残差信号Sres的以下函数从而得出:
S ^ est = S est + H enh Z eao * S res
替代性公式化包含以下三个部分,其包括缩混信号(HdmxX)、增强式对象与非增强式对象(HestSest)的适当的线性组合,因此得出:
S ^ est = H dmx X + H enh Z eao * Z eao S enh + H est S est .
矩阵的大小为Hdmx:NObjects×NDmxCh、Henh:NObjects×NObjects、Senh:NObjects×NSamples及Hest:NObjects×NObjects
假设DSest=X且定义可将此写成:
S ^ est = ( H dmx D + H enh Z eao * Z eao + H est ) S est + H enh Z eao * S res .
将此与经重建的信号的较早定义相比较,得出:
H dmx D + H enh Z eao * Z eao + H est = I .
可导出项Hest为:
Hest=I-HextDext
当非增强式信号的贡献减至最低时,最终重建中的误差将减至最低。因此,Hest□0的目标允许从线性等式系统对项Hext求解:
H ext = D ext * ( D ext D ext * ) - 1 ,
其中扩展的缩混矩阵Dext及升混矩阵Hext被定义为串连矩阵:
D ext = D Z eao * Z eao 和Hext=[Hdmx Hech],因此 H enh = H ext 0 N DmxCh × N Objects I N Objects × N Objects
在对此线性等式系统求解后,可获得期望的校正项Xdif
X dif = D * ext ( D ext D * ext ) - 1 0 N DmxCh × N Objects I N Objects × N Objects Z eao * S res ,
从而得出最终输出 Y ^ est = R S ^ est , S ^ est = S est + X dif .
下文考虑简化方法“C”:
若以任意方式仅处理EAO,则可通过缩混信号与EAO的线性组合来产生任何目标场景。注意,还可使用删除了EAO的缩混来代替缩混。若残差处理完美地恢复EAO,则可完美地产生目标场景。可使用找到针对缩混和EAO重建的两个分量再现矩阵RD和Reao来完成任何目标场景的再现。这些矩阵的大小为RD:NUpmixCh×NDmxCh和Reao:NUpmixCh×NEAO。目标再现矩阵R可表示为组合的再现矩阵与缩混矩阵的乘积
R = R D R eao D Z eao * Z eao = R ext D ext
由此,可通过下式解出Rext
R ext = RD ext * ( D ext D ext * ) - 1
并且可从该解提取子矩阵RD和Reao,其中,
R D = R ext 0 N DmxCh × N DmxCh I N Objects × N DmxCh 并且 R eao = R ext 0 ( N Objects × N DmxCh - N EAO ) × N EAO I N EAO × N EAO
现在可将目标场景计算为:
Y ^ est = R D X + R eao S eao ,
其中,Seao包括对EAO的完全重建并且定义为(如同先前)Seao=GeaoX+Sres
可公式化类似的等式,以使用缩混来再现目标,其中通过从缩混中减去DeaoSeao而从混合删除了EAO。
下文描述另一数学推导和关于联合残差编码/解码概念的进一步细节,且提供一般方法与简化“A”之间的一致性。
从现在开始,在描述中,以下标记法适用。若针对一些元素,以下标记法与以上提供的标记法不一致,则从现在开始,在描述中,仅以下标记法适用于这些元素。
定义:
S是大小为NObjects×NSamples的对象信号
E=SS*是大小为NObjects×NObjects的对象协方差矩阵
D是大小为NDmxCh×NObjects的缩混矩阵
X=DS是大小为NDmxCh×NSamples的缩混信号
G=ED*J是大小为NObjects×NDmxCh的升混矩阵
Mren是大小为NUpmixCh×NObjects的再现矩阵
Xres是大小为NEAO×NSamples的残差信号
Reao是大小为NEAO×NObjects的矩阵,其表示EAO的方位(位置),其定义为
RnonEao是大小为(NObjects-NEAO)×NObjects的矩阵,其表示非EAO的方位(位置),其定义为
借助于选择矩阵RnonEao,可将对应于非EAO的以上一些矩阵的子矩阵规定为:
E nonEao = R nonEao ER nonEao *
D nonEao = DR nonEao *
D nonEao = E nonEao D nonEao * J nonEao = E nonEao D nonEao * ( D nonEao E nonEao D nonEao * ) - 1 = R nonEao E R nonEao * R nonEao D * ( D R nonEao * R nonEao E R nonEao * R nonEao D * ) - 1
下文提供对一般方法(在解码器处有非EAO信号重新估计)的另一详细数学描述:
使用旁侧信息和并入的残差信号从缩混恢复对象信号。产生来自解码器的输出如下:
X ^ = M ren R eao * X eao + M ren R nonEao * X nonEao .
有EAO的情况下,计算大小为NEAO的EAO项Xeao,如下:
X eao = R eao E D * JX + X res ,
其中,大小为NEAO的残差信号项Xres包括针对EAO的残差信号。
包括非EAO的大小为NObjects-NEAO的非EAO项XnonEao计算为
X nonEao = E nonEao D nonEao * J nonEao X ~ nonEao , J nonEao ≈ ( D nonEao E nonEao D nonEao * ) - 1
其中,仅包括非EAO信号的经修改的缩混信号被计算为SAOC缩混与重建的EAO的缩混之间的差
X ~ nonEao = X - D R eao * X eao .
对应于非EAO的、大小为(NObjects-NEAO)×(NObjects-NEAO)的协方差子矩阵EnonEao被计算为
E nonEao = R nonEao E R nonEao * .
对应于非EAO的大小为NDmxCh×(NObjects-NEAO)的缩混子矩阵DnonEao被计算为
D nonEao = D R nonEao * .
下文提供对简化方法“A”(在解码器处没有非EAO信号重新估计)的另一详细数学描述:
使用旁侧信息和并入的残差信号从缩混恢复对象信号。产生来自解码器的最终输出如下:
X ^ = M ren ( E D * JX + X dif ) .
大小为NObjects的项Xdif并入了EAO的NEAO个残差信号Xres和非EAO的预测项XnonEao,如下
X dif = R eao * X res + R nonEao * X nonEao .
估计预测项XnonEao如下
X nonEao = - ( D nonEao * D nonEao ) - 1 D nonEao * D eao X res
对应于EAO的缩混子矩阵Deao和对应于普通对象的DnonEao定义为
D=DeaoReao+RnonEaoDnonEao
下文考虑再现矩阵的特殊情况1:
考虑大小为NDmxCh×NObjects的缩混类似再现矩阵MD的以下特殊情况,其中对EAO进行了任意修改且对非EAO仅进行了一致的缩放(与缩混相比较)
M D = M R eao * R eao + aD R nonEao * R nonEao
现在提供一般方法的详细数学描述:
X ^ = M D ( R eao * X eao + R nonEao * X nonEao ) = M D R eao * ( R eao ED * JX + X res ) + M D R nonEao * G nonEao ( X - DR eao * X eao ) = M D R eao * ( R eao ED * JX + X res ) + M D R nonEao * G nonEao ( X - DR eao * ( R eao ED * JX + X res ) ) = MR eao * ( R eao ED * JX + X res ) + a DR nonEao * G nonEao ( X - DR eao * ( R eao ED * JX + X res ) ) = MR eao * ( R eao ED * JX + X res ) + a DR nonEao * R nonEao ER nonEao * R nonEao D * ( D R nonEao * R nonEao ER nonEao * R nonEao D * ) 1 ( X - DR eao * ( R eao ED * JX + X res ) ) = MR eao * ( R eao ED * JX + X res ) + a ( X - DR eao * ( R eao ED * JX + X res ) ) = MR eao * X eao + a ( X - DR eao * X eao )
现在提供简化方法“A”的详细数学描述:
X ^ = M D ( GX + X dif ) = M D ( GX + R eao * X res + R nonEao * X nonEes ) = M D ( GX + R eao * X res - R nonEao * ( D nonEao * D nonEao ) - 1 D nonEao * D eao X res ) = M D ( GX + R eao * X res - R nonEao * D nonEao * ( D nonEao D nonEao * ) - 1 D eao X res ) = M D ( R eao * R eao GX + R eao * X res + R nonEao * R nonEao GX - R nonEao * D nonEao * ( D nonEao D nonEao * ) - 1 D eao X res ) = M D ( R eao * X eao + R nonEao * ( R nonEao GX - D nonEao * ( D nonEao D nonEao * ) - 1 D eao X res ) ) = M R eao * X eao + aD R nonEao * R nonEao R nonEao * ( R nonEao GX - D nonEao * ( D nonEao D nonEao * ) - 1 D eao X res ) = M R eao * X eao + aD R nonEao * R nonEao GX - a D nonEao D nonEao * ( D nonEao D nonEao * ) - 1 D eao X res = M R eao * X eao + aD R nonEao * R nonEao GX - a D eao X res = M R eao * X eao + a ( X - D R eao * R eao GX ) - a D eao X res = M R eao * X eao + a ( X - D R eao * X eao )
可看出,当再现矩阵的假设成立时,两个结果相同。
现在考虑再现矩阵的特殊情况2:
包括对大小为NDmxCh×NObjects的再现矩阵MS的结构的附加约束:与缩混相比较,仅通过共同缩放因子a来修改所有非EAO,且与缩混相比较,也仅通过共同缩放因子b来修改所有EAO。
M D = bD R eao * R eao + aD R nonEao * R nonEao = D ( b R eao * R eao + a R nonEao * R nonEao ) .
从先前结果继续,系统的输出将为
X ^ = bD R eao * X eao + a ( X - D R eao * X eao ) = aX + ( b - a ) D R eao * X eao = aX + ( b - a ) D R eao * ( R eao E D * JX + X res )
虽然已在设备的情境中描述一些方面,但是,显然这些方面还表示对相应方法的描述,其中,块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的情境中描述的方面也表示对相应设备的相应块或项目或特征的描述。
本发明的已分解信号可储存于数字储存媒体上,或者可在诸如无线传输媒体或有线储存媒体(诸如因特网)的传输媒体上传输。
根据某些实施方案要求,本发明的实施例可以硬件或软件来实行。可使用数字储存媒体(例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实施方案,该数字储存媒体上储存有电子可读控制信号,该数字储存媒体与(或能够与)可编程计算机系统协作,从而执行相应方法。
根据本发明的一些实施例包括具有电可读控制信号的非暂时性数据载体,该非暂时性数据载体信号与(或能够与)可编程计算机系统协作,从而执行本文中描述的这些方法中的一种方法。
通常可将本发明的实施例实现为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码起作用以执行这些方法中的一种方法。该程序代码可例如储存于机器可读载体上。
其它实施例包括用于执行本文中描述的这些方法中的一种方法的计算机程序,所述计算机程序储存于机器可读载体上。
换言的,因此,本发明的方法的一个实施例是具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该计算机程序用于执行本文中描述的这些方法中的一种方法。
因此,本发明的方法的另一实施例是数据载体(或数字储存介质,或计算机可读介质),其包括记录于其上的用于执行本文中描述的这些方法中的一种方法的计算机程序。
因此,本发明的方法的另一实施例是数据流或信号序列,该数据流或信号序列表示用于执行本文中描述的这些方法中中的一种方法的计算机程序。例如,数据串流或信号序列可被配置成经由数据通信连接(例如,经由因特网)来传送。
另一实施例包括处理装置(例如,计算机)或可编程逻辑器件,它们被配置成或适合于执行本文中描述的这些方法中中一种方法。
另一实施例包括计算机,该计算机上安装有用于执行本文所描述的这些方法中的一种方法的计算机程序。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可用来执行本文所描述的这些方法中的一些功能或所有功能。在一些实施例中,现场可编程门阵列可与微处理器合作,以执行本文所描述的这些方法中的一种方法。通常通过任何硬件设备完美地执行这些方法。
上述实施例仅例示了本发明的原理。应理解的是,本文所描述的配置和细节的修改和变化对本领域的技术人员是明显的。因此,本发明意在仅受待审专利权利要求的范围的限制,而不受通过对本文的实施例的描述和解释而给出的特定细节的限制。
参考文献
[BCC]C.Faller and F.Baumgarte,“Binaural Cue Coding-Part II:Schemes and applications,”IEEE Trans.on Speech and Audio Proc.,vol.11,no.6,Nov.2003
[JSC]C.Faller,“Parametric Joint-Coding of Audio Sources”,120thAES Convention,Paris,2006
[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:“From SAC ToSAOC-Recent Developments in Parametric Coding of Spatial Audio”,22nd Regional UK AES Conference,Cambridge,UK,April 2007
[SAOC2]J.B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:“Spatial Audio Object Coding(SAOC)–The UpcomingMPEG Standard on Parametric Object Based Audio Coding”,124th AESConvention,Amsterdam 2008
[SAOC]ISO/IEC,“MPEG audio technologies–Part 2:Spatial AudioObject Coding(SAOC),”ISO/IEC JTC1/SC29/WG11(MPEG)International Standard 23003-2:2010.
[ISS1]M.Parvaix and L.Girin:“Informed Source Separation ofunderdetermined instantaneous Stereo Mixtures using Source IndexEmbedding”,IEEE ICASSP,2010
[ISS2]M.Parvaix,L.Girin,J.-M.Brossier:“A watermarking-basedmethod for informed source separation of audio signals with a singlesensor”,IEEE Transactions on Audio,Speech and Language Processing,2010
[ISS3]A.Liutkus and J.Pinel and R.Badeau and L.Girin and G.Richard:“Informed source separation through spectrogram coding anddata embedding”,Signal Processing Journal,2011
[ISS4]A.Ozerov,A.Liutkus,R.Badeau,G.Richard:“Informed sourceseparation:source coding meets source separation”,IEEE Workshop onApplications of Signal Processing to Audio and Acoustics,2011
[ISS5]Shuhua Zhang and Laurent Girin:“An Informed SourceSeparation System for Speech Signals”,INTERSPEECH,2011
[ISS6]L.Girin and J.Pinel:“Informed Audio Source Separation fromCompressed Linear Stereo Mixtures”,AES 42nd International Conference:Semantic Audio,2011
[Dfx]C.Falch and L.Terentiev and J.Herre:“Spatial Audio ObjectCoding with Enhanced Audio Object Separation”,10th InternationalConference on Digital Audio Effects,2010

Claims (25)

1.一种解码器,包括:
参数解码单元(110),所述参数解码单元(110)用于通过升混三个或更多个缩混信号来产生多个第一估计音频对象信号,其中,所述三个或更多个缩混信号对多个原始音频对象信号进行编码,其中,所述参数解码单元(110)被配置成根据参数旁侧信息来升混所述三个或更多个缩混信号,所述参数旁侧信息指示关于所述多个原始音频对象信号的信息,以及
残差处理单元(120),所述残差处理单元(120)用于通过修改所述第一估计音频对象信号中的一个或更多个来产生多个第二估计音频对象信号,其中,所述残差处理单元(120)被配置成根据一个或更多个残差信号来修改所述第一估计音频对象信号中的所述一个或更多个。
2.根据权利要求1所述的解码器,
其中,所述残差处理单元(120)被配置成根据至少三个残差信号来修改所述第一估计音频对象信号中的所述一个或更多个,以及
其中,所述解码器适合于基于所述多个第二估计音频对象信号产生至少三个音频输出声道。
3.根据前述权利要求中的任意一项所述的解码器,
其中,所述解码器进一步包括缩混修改单元(140),所述缩混修改单元(140)适合于从所述三个或更多个缩混信号中移除由所述残差处理单元(120)确定的所述多个第二估计音频对象信号中的一个或更多个音频对象信号,以获得三个或更多个经修改的缩混信号,以及
其中,所述参数解码单元(110)被配置成基于所述三个或更多个经修改的缩混信号来确定所述第一估计音频对象信号中的一个或更多个音频对象信号。
4.根据权利要求3所述的解码器,
其中,所述缩混修改单元(140)适合于应用公式
X ~ nonEAO = X - DZ eao * S eao
以从所述三个或更多个缩混信号中移除由所述残差处理单元(120)确定的所述多个第二估计音频对象信号中的一个或更多个音频对象信号,以获得三个或更多个经修改的缩混信号,
其中,
X指示修改之前的所述三个或更多个缩混信号,
指示所述三个或更多个经修改的缩混信号,
D指示缩混信息,
Seao包括所述多个第二估计音频对象信号中的所述一个或更多个音频对象信号,以及
指示所述多个第二估计音频对象信号中的所述一个或更多个音频对象信号的位置。
5.根据权利要求3或4所述的解码器,
其中,所述解码器适合于进行两个或更多个迭代步骤,
其中,针对每一迭代步骤,所述参数解码单元(110)适合于确定所述多个第一估计音频对象信号中的确切的一个音频对象信号,
其中,针对所述迭代步骤,所述残差处理单元(120)适合于通过修改所述多个第一估计音频对象信号中的所述音频对象信号来确定所述多个第二估计音频对象信号中的确切的一个音频对象信号,
其中,针对所述迭代步骤,所述缩混修改单元(140)适合于从所述三个或更多个缩混信号中移除所述多个第二估计音频对象信号中的所述音频对象信号,以修改所述三个或更多个缩混信号,以及
其中,针对所述迭代步骤之后的下一迭代步骤,所述参数解码单元(110)适合于基于已修改的所述三个或更多个缩混信号来确定所述多个第一估计音频对象信号中的确切的一个音频对象信号。
6.根据前述权利要求中的任意一项所述的解码器,其中,所述一个或更多个残差信号中的每一个指示所述多个原始音频对象信号中的一个与所述一个或更多个第一估计音频对象信号中的一个之间的差。
7.根据权利要求1或2所述的解码器,
其中,所述残差处理单元(120)适合于通过修改所述第一估计音频对象信号中的五个或更多个来产生所述多个第二估计音频对象信号,
其中,所述残差处理单元(120)被配置成根据五个或更多个残差信号来修改所述第一估计音频对象信号中的所述五个或更多个。
8.根据权利要求1或2所述的解码器,其中,所述解码器被配置成基于所述多个第二估计音频对象信号来产生七个或更多个音频输出声道。
9.根据前述权利要求中的任意一项所述的解码器,其中,所述解码器适合于不确定声道预测系数就确定所述多个第二估计音频对象信号。
10.根据前述权利要求中的任意一项所述的解码器,其中,所述解码器是SAOC解码器。
11.一种残差信号产生器(200),包括:
参数解码单元(230),所述参数解码单元(230)用于通过升混三个或更多个缩混信号来产生多个估计音频对象信号,其中,所述三个或更多个缩混信号对多个原始音频对象信号进行编码,其中,所述参数解码单元(230)被配置成根据参数旁侧信息来升混所述三个或更多个缩混信号,所述参数旁侧信息指示关于所述多个原始音频对象信号的信息,以及
残差估计单元(240),所述残差估计单元(240)用于基于所述多个原始音频对象信号并且基于所述多个估计音频对象信号来产生多个残差信号,使得所述多个残差信号中的每一个是差信号,所述差信号指示所述多个原始音频对象信号中的一个与所述多个估计音频对象信号中的一个之间的差。
12.根据权利要求11所述的残差信号产生器(200),
其中,所述残差信号产生器(200)进一步包括缩混修改单元(250),所述缩混修改单元适合于修改所述三个或更多个缩混信号以获得三个或更多个经修改的缩混信号,以及
其中,所述参数解码单元(230)被配置成基于所述三个或更多个经修改的缩混信号来确定所述第一估计音频对象信号中的一个或更多个音频对象信号。
13.根据权利要求12所述的残差信号产生器(200),其中,所述缩混修改单元(250)被配置成通过从所述三个或更多个原始缩混信号中移除所述多个原始音频对象信号中的一个或更多个来修改所述三个或更多个原始缩混信号以获得所述三个或更多个经修改的缩混信号。
14.根据权利要求13所述的残差信号产生器,
其中,所述缩混修改单元(250)适合于应用公式
X ~ nonEAO = X - DZ eao * S eao
以从所述三个或更多个缩混信号中移除所述多个原始音频对象信号中的一个或更多个,以获得三个或更多个经修改的缩混信号,
其中,
X指示修改之前的所述三个或更多个缩混信号,
指示所述三个或更多个经修改的缩混信号,
D指示缩混信息,
Seao包括所述多个原始音频对象信号中的所述一个或更多个,以及
指示所述多个原始音频对象信号中的所述一个或更多个的位置。
15.根据权利要求12所述的残差信号产生器(200),其中,所述缩混修改单元(250)被配置成:通过基于所述估计音频对象信号中的一个或更多个并且基于所述残差信号中的一个或更多个来产生一个或更多个经修改的音频对象信号,以及通过从所述三个或更多个原始缩混信号中移除所述一个或更多个经修改的音频对象信号,来修改所述三个或更多个原始缩混信号,以获得所述三个或更多个经修改的缩混信号。
16.根据权利要求15所述的残差信号产生器,
其中,所述缩混修改单元(250)适合于应用公式
X ~ nonEAO = X - DZ eao * S eao
以从所述三个或更多个缩混信号中移除所述一个或更多个经修改的音频对象信号,以获得三个或更多个经修改的缩混信号,
其中,
X指示修改之前的所述三个或更多个缩混信号,
指示所述三个或更多个经修改的缩混信号,
D指示缩混信息,
Seao包括所述一个或更多个修改的音频对象信号,以及
指示所述一个或更多个修改的音频对象信号的位置。
17.根据权利要求12至16中任意一项所述的残差信号产生器(200),
其中,所述残差信号产生器(200)适合于进行两个或更多个迭代步骤,
其中,针对每一迭代步骤,所述参数解码单元(230)适合于确定所述多个估计音频对象信号中的确切的一个音频对象信号,
其中,针对所述迭代步骤,所述残差估计单元(240)适合于通过修改所述多个估计音频对象信号中的所述音频对象信号来确定所述多个残差信号中的确切的一个残差信号,
其中,针对所述迭代步骤,所述缩混修改单元(250)适合于修改所述三个或更多个缩混信号,以及
其中,针对所述迭代步骤之后的下一迭代步骤,所述参数解码单元(230)适合于基于已修改的所述三个或更多个缩混信号来确定所述多个估计音频对象信号中的确切的一个音频对象信号。
18.根据权利要求11至17中任意一项所述的残差信号产生器(200),其中,所述残差估计单元(240)适合于基于所述多个原始音频对象信号中的至少五个原始音频对象信号并且基于所述多个估计音频对象信号中的至少五个估计音频对象信号来产生至少五个残差信号。
19.一种编码器,所述编码器用于通过产生三个或更多个缩混信号,通过产生参数旁侧信息以及通过产生多个残差信号来对多个原始音频对象信号进行编码,其中,所述编码器包括:
缩混产生器(210),所述缩混产生器用于提供指示所述多个原始音频对象信号的缩混的所述三个或更多个缩混信号,
参数旁侧信息估计器(220),所述参数旁侧信息估计器用于产生指示关于多个原始音频对象信号的信息的所述参数旁侧信息,以获得所述参数旁侧信息,以及
根据权利要求11至18中任意一项所述的残差信号产生器(200),
其中,所述残差信号产生器(200)的所述参数解码单元(230)适合于通过升混由所述缩混产生器(210)提供的所述三个或更多个缩混信号来产生多个估计音频对象信号,其中,所述缩混信号对所述多个原始音频对象信号进行编码,其中,所述参数解码单元(230)被配置成根据由所述参数旁侧信息估计器(220)产生的所述参数旁侧信息来升混所述三个或更多个缩混信号,以及
其中,所述残差信号产生器(200)的所述残差估计单元(240)适合于基于所述多个原始音频对象信号并且基于所述多个估计音频对象信号来产生多个残差信号,使得所述多个残差信号中的每一个指示在所述多个原始音频对象信号中的一个与所述多个估计音频对象信号中的一个之间的差。
20.根据权利要求19所述的编码器,其中,所述编码器是SAOC编码器。
21.一种系统,包括:
根据权利要求19或20所述的编码器(310),所述编码器用于通过产生三个或更多个缩混信号,通过产生参数旁侧信息以及通过产生多个残差信号来对多个原始音频对象信号进行编码,以及
根据权利要求1至10中任意一项所述的解码器(320),其中,所述解码器(320)被配置成基于由所述编码器(310)产生的所述三个或更多个缩混信号,基于由所述编码器(310)产生的所述参数旁侧信息以及基于由所述编码器(310)产生的所述多个残差信号来产生多个第二估计音频对象信号。
22.一种编码音频信号,包括三个或更多个缩混信号(410)、参数旁侧信息(420)以及多个残差信号(430),
其中,所述三个或更多个缩混信号(410)是多个原始音频对象信号的缩混,
其中,所述参数旁侧信息(420)包括指示关于多个原始音频对象信号的旁侧信息的参数,
其中,所述多个残差信号(430)中的每一个是差信号,所述差信号指示所述多个原始音频信号中的一个与多个估计音频对象信号中的一个之间的差。
23.一种方法,所述方法包括:
通过升混三个或更多个缩混信号来产生多个第一估计音频对象信号,其中,所述三个或更多个缩混信号对多个原始音频对象信号进行编码,其中,产生所述多个第一估计音频对象信号包括根据参数旁侧信息来升混所述三个或更多个缩混信号,所述参数旁侧信息指示关于所述多个原始音频对象信号的信息,以及
通过修改所述第一估计音频对象信号中的一个或更多个来产生多个第二估计音频对象信号,其中,产生多个第二估计音频对象信号包括根据一个或更多个残差信号来修改所述第一估计音频对象信号中的所述一个或更多个。
24.一种方法,包括:
通过升混三个或更多个缩混信号来产生多个估计音频对象信号,其中,所述三个或更多个缩混信号对多个原始音频对象信号进行编码,其中,产生所述多个估计音频对象信号包括根据参数旁侧信息来升混所述三个或更多个缩混信号,所述参数旁侧信息指示关于所述多个原始音频对象信号的信息,以及
基于所述多个原始音频对象信号并且基于所述多个估计音频对象信号来产生多个残差信号,使得所述多个残差信号中的每一个是差信号,所述差信号指示所述多个原始音频对象信号中的一个与所述多个估计音频对象信号中的一个之间的差。
25.一种计算机程序,所述计算机程序在计算机或信号处理器上被执行时用于实现根据权利要求23或24所述的方法。
CN201380052536.1A 2012-08-10 2013-04-16 对参数音频对象编码运用残差概念的编码器、解码器、系统及方法 Active CN104769669B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261681730P 2012-08-10 2012-08-10
US61/681,730 2012-08-10
PCT/EP2013/057932 WO2014023443A1 (en) 2012-08-10 2013-04-16 Encoder, decoder, system and method employing a residual concept for parametric audio object coding

Publications (2)

Publication Number Publication Date
CN104769669A true CN104769669A (zh) 2015-07-08
CN104769669B CN104769669B (zh) 2020-09-29

Family

ID=48092997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380052536.1A Active CN104769669B (zh) 2012-08-10 2013-04-16 对参数音频对象编码运用残差概念的编码器、解码器、系统及方法

Country Status (20)

Country Link
US (1) US10818301B2 (zh)
EP (1) EP2883225B1 (zh)
JP (1) JP6113282B2 (zh)
KR (2) KR101903664B1 (zh)
CN (1) CN104769669B (zh)
AR (1) AR090703A1 (zh)
AU (1) AU2013301831B2 (zh)
BR (1) BR112015002793B1 (zh)
CA (1) CA2881065C (zh)
ES (1) ES2638391T3 (zh)
HK (1) HK1211734A1 (zh)
MX (1) MX351193B (zh)
MY (1) MY176406A (zh)
PL (1) PL2883225T3 (zh)
PT (1) PT2883225T (zh)
RU (1) RU2628900C2 (zh)
SG (1) SG11201500878PA (zh)
TW (1) TWI517141B (zh)
WO (1) WO2014023443A1 (zh)
ZA (1) ZA201501570B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2880653B1 (en) * 2012-08-03 2017-11-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
BR112015002793B1 (pt) 2012-08-10 2021-12-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V Codificador, decodificador, sistema e método empregando um conceito residual para codificação de objeto de áudio paramétrico
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
WO2015059154A1 (en) 2013-10-21 2015-04-30 Dolby International Ab Audio encoder and decoder
US9779739B2 (en) * 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
CN111556426B (zh) 2015-02-06 2022-03-25 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
US10893373B2 (en) 2017-05-09 2021-01-12 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
CN111630593B (zh) 2018-01-18 2021-12-28 杜比实验室特许公司 用于译码声场表示信号的方法和装置
EP3588495A1 (en) * 2018-06-22 2020-01-01 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Multichannel audio coding

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101006494A (zh) * 2004-08-25 2007-07-25 杜比实验室特许公司 利用频域维纳滤波对空间音频编码进行时间包络整形
CN101120615A (zh) * 2005-02-22 2008-02-06 弗劳恩霍夫应用研究促进协会 近透明或透明的多声道编码器/解码器方案
CN101160619A (zh) * 2005-04-15 2008-04-09 科丁技术公司 适应性残余音频编码
WO2012058805A1 (en) * 2010-11-03 2012-05-10 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal
CN102460573A (zh) * 2009-06-24 2012-05-16 弗兰霍菲尔运输应用研究公司 音频信号译码器、对音频信号译码的方法、以及使用级联音频对象处理级的计算机程序

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101617360B (zh) * 2006-09-29 2012-08-22 韩国电子通信研究院 用于编码和解码具有各种声道的多对象音频信号的设备和方法
MX2010004138A (es) * 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.
WO2009054665A1 (en) * 2007-10-22 2009-04-30 Electronics And Telecommunications Research Institute Multi-object audio encoding and decoding method and apparatus thereof
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
EP2345027B1 (en) * 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
KR101569702B1 (ko) * 2009-08-17 2015-11-17 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
KR101613975B1 (ko) * 2009-08-18 2016-05-02 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
EP2489038B1 (en) * 2009-11-20 2016-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
CA2793140C (en) * 2010-04-09 2016-05-31 Dolby International Ab Mdct-based complex prediction stereo coding
KR20110116079A (ko) * 2010-04-17 2011-10-25 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
CN103250206B (zh) * 2010-10-07 2015-07-15 弗朗霍夫应用科学研究促进协会 用于比特流域中的编码音频帧的强度估计的装置及方法
TWI800092B (zh) * 2010-12-03 2023-04-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
BR112015002793B1 (pt) 2012-08-10 2021-12-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V Codificador, decodificador, sistema e método empregando um conceito residual para codificação de objeto de áudio paramétrico

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101006494A (zh) * 2004-08-25 2007-07-25 杜比实验室特许公司 利用频域维纳滤波对空间音频编码进行时间包络整形
CN101120615A (zh) * 2005-02-22 2008-02-06 弗劳恩霍夫应用研究促进协会 近透明或透明的多声道编码器/解码器方案
CN101160619A (zh) * 2005-04-15 2008-04-09 科丁技术公司 适应性残余音频编码
CN102460573A (zh) * 2009-06-24 2012-05-16 弗兰霍菲尔运输应用研究公司 音频信号译码器、对音频信号译码的方法、以及使用级联音频对象处理级的计算机程序
WO2012058805A1 (en) * 2010-11-03 2012-05-10 Huawei Technologies Co., Ltd. Parametric encoder for encoding a multi-channel audio signal

Also Published As

Publication number Publication date
BR112015002793A2 (pt) 2020-04-22
AR090703A1 (es) 2014-12-03
HK1211734A1 (zh) 2016-05-27
KR101903664B1 (ko) 2018-11-22
US20150162012A1 (en) 2015-06-11
TWI517141B (zh) 2016-01-11
BR112015002793B1 (pt) 2021-12-07
RU2628900C2 (ru) 2017-08-22
ES2638391T3 (es) 2017-10-20
US10818301B2 (en) 2020-10-27
MY176406A (en) 2020-08-06
AU2013301831B2 (en) 2016-12-01
EP2883225B1 (en) 2017-06-07
SG11201500878PA (en) 2015-03-30
KR102050455B1 (ko) 2019-12-02
JP6113282B2 (ja) 2017-04-12
PL2883225T3 (pl) 2017-10-31
EP2883225A1 (en) 2015-06-17
JP2015529850A (ja) 2015-10-08
CN104769669B (zh) 2020-09-29
PT2883225T (pt) 2017-09-04
KR20170042809A (ko) 2017-04-19
RU2015107578A (ru) 2016-09-27
CA2881065C (en) 2020-03-10
ZA201501570B (en) 2018-05-30
TW201407603A (zh) 2014-02-16
MX351193B (es) 2017-10-04
WO2014023443A1 (en) 2014-02-13
KR20150040921A (ko) 2015-04-15
CA2881065A1 (en) 2014-02-13
MX2015001676A (es) 2015-04-10
AU2013301831A1 (en) 2015-02-26

Similar Documents

Publication Publication Date Title
CN104769669A (zh) 对参数音频对象编码运用残差概念的编码器、解码器、系统及方法
US7916873B2 (en) Stereo compatible multi-channel audio coding
KR101823278B1 (ko) 결합하여 인코딩된 잔류 신호들을 이용하는 오디오 인코더, 오디오 디코더, 방법들 및 컴퓨터 프로그램
CN102938253B (zh) 用于可伸缩声道解码的方法、介质和设备
US20070055510A1 (en) Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
US9514759B2 (en) Method and apparatus for performing an adaptive down- and up-mixing of a multi-channel audio signal
CN102577384A (zh) 用相位信息和残差信息进行编码/解码的设备和方法
CN102047325A (zh) 基于核心编码器性能进行选择性信号代码化的方法和装置
EP3201916B1 (en) Audio encoder and decoder
CN104838442A (zh) 用于反向兼容多重分辨率空间音频对象编码的编码器、译码器及方法
CN110648674B (zh) 多声道音频内容的编码
EP3201918B1 (en) Decoding method and decoder for dialog enhancement
JP6207739B2 (ja) 修正された出力信号を得るために符号化されたオーディオ信号を復号化するための装置および方法
KR20110116079A (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
KR101873771B1 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Munich, Germany

Applicant after: Fraunhofer Application and Research Promotion Association

Address before: Munich, Germany

Applicant before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant