CN111816194A - 多通道音频信号的参数编码和解码 - Google Patents

多通道音频信号的参数编码和解码 Download PDF

Info

Publication number
CN111816194A
CN111816194A CN202010517613.8A CN202010517613A CN111816194A CN 111816194 A CN111816194 A CN 111816194A CN 202010517613 A CN202010517613 A CN 202010517613A CN 111816194 A CN111816194 A CN 111816194A
Authority
CN
China
Prior art keywords
signal
channel
downmix
channels
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010517613.8A
Other languages
English (en)
Inventor
海科·普尔哈根
海迪-马里亚·莱赫托宁
雅努什·克莱萨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN111816194A publication Critical patent/CN111816194A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

控制部(1009)接收指示M通道音频信号(L,LS,LB,TFL,TBL)的至少两种编码格式(F1,F2,F3)之一的信令(S),所述编码格式与各个不同划分对应,所述划分将音频信号的通道分到相应的第一组和第二组(601,602)中,其中,在所指示的编码格式下,下混信号的第一通道和第二通道(L1,L2)分别与第一组的线性组合和第二组的线性组合对应;并且解码部(900)基于下混信号和相关联的上混参数(αL)来重构音频信号。在该解码部中:基于下混信号和所指示的编码格式来确定去相关输入信号(D1,D2,D3);并且基于上混参数和所指示的编码格式来确定控制下混信号的线性映射和基于去相关输入信号生成的去相关信号的线性映射的湿上混系数和干上混系数。

Description

多通道音频信号的参数编码和解码
本申请是申请日为2015年10月29日、申请号为“201580059276.X”、发明名称为“多通道音频信号的参数编码和解码”的中国发明专利申请的分案申请。
相关申请的交叉引用
本申请要求于2014年10月31日提交的美国临时专利申请No.62/073,642和2015年3月4日提交的美国临时专利申请No.62/128,425的优先权,其每一个的全部内容通过引用合并入本文。
技术领域
本文公开的发明一般性涉及音频信号的参数编码和解码,并且特别涉及基于通道的音频信号的参数编码和解码。
背景技术
包括多个扬声器的音频回放系统经常用于再现由多通道音频信号表示的音频场景,其中,所述多通道音频信号的各个通道在相应的扬声器上回放。例如,多通道音频信号可以经由多个声换能器被记录,或者可以由音频创作设备生成。在许多情况下,存在对于将音频信号发送至回放设备的带宽限制和/或对于用于将音频信号存储在计算机存储器中或便携式存储装置中的有限空间。存在用于音频信号的参数编码的音频编码系统,以便减少带宽或存储大小。在编码器侧,这些系统通常将多通道音频信号下混合成通常是单通道(单通道)或立体声(双通道)下混合的下混信号,并且借助于参数像电平差和互相关来提取描述通道特性的边信息。然后,下混合和边信息被编码并发送至解码器侧。在解码器侧,在边信息的参数的控制下,从下混合重构即近似多通道音频信号。
鉴于可用于包括针对家庭中终端用户的新兴领域的回放多通道音频内容的广泛的不同类型的装置和系统,需要新的和替代的方式来对多通道音频内容进行高效地编码,以便减少带宽要求和/或存储所需的存储大小,便于在解码器侧重构多通道音频信号,以及/或者增加如在解码器侧重构的多通道音频信号的保真度。
附图说明
在下文中,将更详细地并参照附图描述示例实施方式,在附图中:
图1和图2是根据示例实施方式的用于将M通道音频信号编码为双通道下混信号和相关联的上混参数的编码部的一般性框图;
图3是根据示例实施方式的包括图1所示的编码部的音频编码系统的一般性框图;
图4和图5是根据示例实施方式的用于将M通道音频信号编码为双通道下混信号和相关联的上混参数的音频编码方法的流程图;
图6至图8示出了根据示例实施方式的将11.1通道(或7.1+4通道或7.1.4通道)音频信号划分成由各个下混通道表示的通道组的替选方式;
图9是根据示例实施方式的用于基于双通道下混信号和相关联的上混参数来重构M通道音频信号的解码部的一般性框图。
图10是根据示例实施方式的包括图9所示的解码部的音频解码系统的一般性框图;
图11是根据示例实施方式的包括在图9所示的解码部中的混合部的一般性框图;
图12是根据示例实施方式的用于基于双通道下混信号和相关联的上混参数来重构M通道音频信号的音频解码方法的流程图;
图13是根据示例实施方式的用于基于5.1通道信号和相关联的上混参数重构13.1通道音频信号的解码部的一般性框图;
图14是编码部的一般性框图,所述编码部被配置成:确定要用于对M通道音频信号(以及可能的另外的通道)进行编码的适当编码格式,并且对于所选择的格式将M通道音频信号表示为双通道下混信号和相关联的上混参数;
图15是图14所示的编码部中的双模式下混部的细节;
图16是图14所示的编码部中的双模式分析部的细节;以及
图17是可以由图14至图16所示的部件执行的音频编码方法的流程图。
所有附图是示意性的,并且通常仅示出了为了阐明本发明所必需的部分,而可以省略其或仅暗示他部分。
具体实施方式
如本文所使用的,“音频信号”可以是独立音频信号、视听信号或多媒体信号的音频部分、或者与元数据结合的任意一个。如本文所使用的,“通道”是与预定义/固定的空间位置/取向或未定义的空间位置如“左”或“右”相关联的音频信号。
一、概述——解码器侧
根据第一方面,示例实施方式提出了一种音频解码系统、音频解码方法以及相关联的计算机程序产品。根据第一方面的提出的解码系统、方法和计算机程序产品通常可以共有相同的特征和优点。
根据示例实施方式,提供了一种音频解码方法,其包括接收双通道下混信号和用于基于下混信号进行M通道音频信号的参数重构的上混参数,其中M≥4。音频解码方法包括接收指示M通道音频信号的至少两种编码格式中的所选择的一种编码格式的信令,其中,编码格式与各个不同划分对应,所述划分将M通道音频信号的通道分到相应的第一组和第二组的一个或更多个通道中。在所指示的编码格式下,下混信号的第一通道与M通道音频信号的第一组的一个或更多个通道的线性组合对应,并且下混信号的第二通道与M通道音频信号的第二组的一个或更多个通道的线性组合对应。音频解码方法还包括:基于所指示的编码格式确定预去相关系数集合;将去相关输入信号计算为下混信号的线性映射,其中,所述预去相关系数集合被应用于下混信号;基于去相关输入信号生成去相关信号;基于所接收的上混参数和所指示的编码格式,确定第一类型上混系数(本文中被称为湿上混系数)集和第二类型上混系数(本文中被称为干上混系数)集;将第一类型上混信号(本文中被称为干上混信号)计算为下混信号的线性映射,其中,所述干上混系数集合被应用于下混信号;将第二类型上混信号(本文中被称为湿上混信号)计算为去相关信号的线性映射,其中,所述湿上混系数集合被应用于去相关信号;以及组合干上混信号和湿上混信号以获得与要重构的M通道音频信号对应的多维重构信号。
取决于M通道音频信号的音频内容,将M通道音频信号的通道分到第一组和第二组(其中,每个组对下混信号的通道有贡献)中的不同划分可以适合于:例如有利于从下混信号重构M通道音频信号,提高从下混信号重构的M通道音频信号的(感知)保真度,以及/或者提高下混信号的编码效率。音频解码方法接收指示编码格式中的所选择的一种编码格式的信令以及使预去相关系数以及湿上混系数和干上混系数的确定适应于所指示的编码格式的能力,允许例如基于M通道音频信号的音频内容在编码器侧选择编码格式,以用于利用采用该特定编码格式的比较优势来表示M通道音频信号。
特别地,基于所指示的编码格式确定预去相关系数可以允许在生成去相关的信号之前,基于所指示的编码格式来选择和/或衡量从其生成去相关信号的下混信号的通道或多个通道。因此,音频解码方法对于不同的编码格式不同地确定预去相关系数的能力可以允许提高如重构的M通道音频信号的保真度。
下混信号的第一通道可以例如根据所指示的编码格式例如在编码器侧形成为第一组的一个或更多个通道的线性组合。类似地,下混信号的第二通道可以例如根据所指示的编码格式在编码器侧形成为第二组的一个或更多个通道的线性组合。
M通道音频信号的通道可以例如形成一起表示声场的较大量通道的子集。
去相关信号用于增加如收听者所感知的下混信号的音频内容的维度。生成去相关信号可以例如包括将线性滤波器应用于去相关输入信号。
将去相关输入信号计算为下混信号的线性映射指的是通过对下混信号应用第一线性变换来获得去相关输入信号。该第一线性变换采用下混信号的两个通道作为输入,并且提供去相关输入信号的通道作为输出,并且预去相关系数是限定该第一线性变换的定量性质的系数。
将干上混信号计算为下混信号的线性映射指的是通过对下混信号应用第二线性变换来获得干上混信号。该第二线性变换采用下混信号的两个通道作为输入,并且提供M个通道作为输出,并且干上混系数是限定该第二线性变换的定量性质的系数。
将湿上混信号计算为去相关信号的线性映射指的是通过对去相关信号应用第三线性变换来获得湿上混信号。该第三线性变换采用去相关信号的通道作为输入,并且提供M个通道作为输出,并且湿上混系数是限定该第三线性变换的定量性质的系数。
组合干上混信号和湿上混信号可以包括将来自干上混信号的各个通道的音频内容添加至湿上混信号的各个对应通道的音频内容,例如在逐样本或逐变换系数的基础上采用加法混合。
信令可以例如与下混信号和/或上混参数一起被接收。下混信号、上混参数和信令可以例如从比特流中提取。
在示例实施方式中,可以保持M=5,即,M通道音频信号可以是五通道音频信号。本示例实施方式的音频解码方法可以例如用于从这五个通道的双通道下混合重构当前建立的5.1音频格式之一的五个常规通道,或用于从这五个通道的双通道下混合重构11.1多通道音频信号中的左侧或右侧的五个通道。可替选地,可以保持M=4或M≥6。
在示例实施方式中,去相关输入信号和去相关信号可以各自包括M-2个通道。在本示例实施方式中,可以基于去相关输入信号的不超过一个的通道来生成去相关信号的通道。例如,可以基于去相关输入信号的不超过一个的通道来生成去相关信号的每个通道,但是可以例如基于去相关输入信号的不同通道来生成去相关信号的不同通道。
在本示例实施方式中,预去相关系数可以被确定成使得在每种编码格式下,去相关输入信号的通道接收来自下混信号的不超过一个的通道的贡献。例如,预去相关系数可以被确定成使得在每种编码格式下,去相关输入信号的每个通道与下混信号的通道一致。然而,应当理解,去相关输入信号的通道的至少一些可以例如在给定的编码格式中和/或在不同的编码格式中与下混信号的不同通道一致。
由于在每个给定的编码格式中,下混信号的两个通道表示不相交的第一组的一个或更多个通道和第二组的一个或更多个通道,所以第一组可以从下混信号的第一通道重构,例如采用基于下混信号的第一通道生成的去相关信号的一个或更多个通道,而第二组可以从下混信号的第二通道重构,例如采用基于下混信号的第二通道生成的去相关信号的一个或更多个通道。在本示例实施方式中,在每种编码格式中可以避免从第二组的一个或更多个通道经由去相关信号对第一组的一个或更多个通道的重构版本的贡献。类似地,在每种编码格式中可以避免从第一组的一个或更多个通道经由去相关信号对第二组的一个或更多个通道的重构版本的贡献。因此,本示例实施方式可以允许增加所重构的M通道音频信号的保真度。
在示例实施方式中,预去相关系数可以被确定成使得在编码格式的至少两种编码格式中M通道音频信号的第一通道经由下混信号对去相关输入信号的第一固定通道产生贡献。也就是说,在这两种编码格式中M通道音频信号的第一通道可以经由下混信号对去相关输入信号的同一通道产生贡献。应当理解,在本示例实施方式中,在给定的编码格式中M通道音频信号的第一通道可以例如经由下混信号对去相关输入信号的多个通道产生贡献。
在本示例实施方式中,如果所指示的编码格式在两种编码格式之间切换,则在切换期间保持去相关输入信号的第一固定通道的至少一部分。这可以允许如由收听者在重构的M通道音频信号的回放期间所感知的编码格式之间的较平滑和/或较不突然的转变。特别地,发明人认识到,由于去相关信号可能例如基于下混信号的与在其期间可能在下混信号中发生编码格式之间的切换的若干时间帧对应的一部分来生成,所以由于编码格式之间切换可能潜在地在去相关信号中生成可听见的失真。即使响应于编码格式之间的切换来对湿上混系数和干上混系数进行插值,在去相关信号中生成的失真仍然可以被存留在如重构的M通道音频信号中。提供根据本示例实施方式的去相关输入信号允许抑制由编码格式之间的切换引起的去相关信号中的这样的失真,并且可以提高重构的M通道音频信号的回放质量。
在示例实施方式中,预去相关系数可以被确定成使得另外地,在编码格式中的至少两种编码格式中,M通道音频信号的第二通道经由下混信号对去相关输入信号的第二固定通道产生贡献。也就是说,在这两种编码格式中,M通道音频信号的第二通道经由下混信号对去相关输入信号的同一通道产生贡献。在本示例实施方式中,如果所指示的编码格式在两种编码格式之间切换,则在切换期间保持第二固定去相关输入信号的至少一部分。因此,仅单个去相关器馈送受编码格式之间的转变的影响。这可以允许如由收听者在重构的M通道音频信号的回放期间所感知的编码格式之间的较平滑和/或较不突然的转变。
M通道音频信号的第一通道和第二通道可以例如彼此不同。去相关输入信号的第一固定通道和第二固定通道可以例如彼此不同。
在示例实施方式中,所接收的信令可以指示至少三种编码格式中的所选择的一种编码格式,并且预去相关系数可以被确定成使得在编码格式中的至少三种编码格式中M通道音频信号的第一通道经由下混信号对去相关输入信号的第一固定通道产生贡献。也就是说,在这三种编码格式中M通道音频信号的第一通道经由下混信号对去相关输入信号的同一通道产生贡献。在本示例实施方式中,如果所指示的编码格式在三种编码格式中的任意之间变化,则在切换期间保持去相关输入信号的第一固定通道的至少一部分,这允许如由收听者在重构的M通道音频信号的回放期间所感知的编码格式之间的较平滑和/或较不突然的转变。
在示例实施方式中,预去相关系数可以被确定成使得在编码格式中的至少两种编码格式中M通道音频信号的通道对经由下混信号对去相关输入信号的第三固定通道产生贡献。也就是说,在这两种编码格式中M通道音频信号的这对通道经由下混信号对去相关输入信号的同一通道产生贡献。在本示例实施方式中,如果所指示的编码格式在两种编码格式之间切换,则在切换期间保持去相关输入信号的第三固定通道的至少一部分,这允许如由收听者在重构的M通道音频信号的回放期间所感知的编码格式之间的较平滑和/或较不突然的转变。
这对通道可以例如与M通道音频信号的第一通道和第二通道不同。去相关输入信号的第三固定通道可以例如与去相关输入信号的第一固定通道和第二固定通道不同。
在示例实施方式中,音频解码方法还可以包括:响应于检测到所指示的编码格式从第一编码格式到第二编码格式的切换,执行从与第一编码格式相关联的预去相关系数值到与第二编码格式相关联的预去相关系数值的逐渐转变。在编码格式之间的切换期间采用在预去相关系数之间的逐渐转变允许如由收听者在重构的M通道音频信号的回放期间所感知的编码格式之间的较平滑和/或较不突然的转变。特别地,发明人认识到,由于去相关信号可能例如基于下混信号的与在其期间可能在下混信号中发生编码格式之间的切换的若干时间帧对应的一部分来生成,所以由于编码格式之间切换可能潜在地在去相关信号中生成可听见的失真。即使响应于编码格式之间的切换来对湿上混系数和干上混系数进行插值,在去相关信号中生成的失真仍然可以被存留在重构的M通道音频信号中。提供根据本示例实施方式的去相关输入信号允许抑制由编码格式之间的切换引起的去相关信号中的这样的失真,并且可以提高如重构的M通道音频信号的回放质量。
可以例如经由线性或连续插值来执行逐渐转变。可以例如经由具有有限变化率的插值来执行逐渐转变。
在示例实施方式中,音频解码方法还可以包括:响应于检测到所指示的编码格式从第一编码格式到第二编码格式的切换,执行从与第一编码格式相关联的包括零值系数的湿上混系数值和干上混系数值到与第二编码格式相关联的再次包括零值系数的湿上混系数值和干上混系数值的插值。注意,下混通道对应于来自原始编码的M通道音频信号的通道的不同组合,使得在第一编码格式下为零值的上混系数不需要在第二编码格式下为零值,反之在第二编码格式下为零值的上混系数也不需要在第一编码格式下为零值。优选地,插值作用于上混系数,而不是系数的紧凑表示——例如下面讨论的表示。
上混系数值之间的线性或连续插值可以例如用于提供如由收听者在重构的M通道音频信号的回放期间所感知的编码格式之间的较平滑的转变。
在与编码格式之间的切换相关联的特定时间点处用新的上混系数值代替旧的上混系数值的陡峭插值(steep interpolation)可以例如允许提高重构的M通道音频信号的保真度,例如,在M通道音频信号的音频内容快速变化并且在编码器侧编码格式被切换的情况下,响应于这些改变,用于提高重构的M通道音频信号的保真度。
在示例实施方式中,音频解码方法还可以包括:接收指示要用于一种编码格式内的湿上混参数和干上混参数的插值(即,当在未出现编码格式变化的时间段内新值被分配给上混系数时)的多个插值方案之一的信令;以及使用所指示的插值方案。指示多个插值方案之一的信令可以例如与下混信号和/或上混参数一起被接收。优选地,由信令指示的插值方案还可以用于编码格式之间的转变。
在原始M通道音频信号可用的编码器侧,可以例如选择特别适合于M通道音频信号的实际音频内容的插值方案。例如,在平滑切换对于重构的M通道音频信号的总体效果而言是重要的的情况下,可以使用线性或连续插值;而当快速切换对于重构的M通道音频信号的总体效果而言是重要的的情况下,可以采用陡峭插值,即在与编码格式之间的转变相关联的特定时间点处用新的上混系数值代替旧的上混系数值。
在示例实施方式中,所述至少两种编码格式可以包括第一编码格式和第二编码格式。在每种编码格式中存在控制M通道音频信号的通道对下混信号的通道对应的线性组合之一的贡献的增益。在本示例实施方式中,在第一编码格式下的增益可以与在第二编码格式下控制M通道音频信号的相同通道的贡献的增益一致。
在第一编码格式和第二编码格式中采用相同的增益可以例如增加第一编码格式下的下混信号的通道的组合音频内容与第二编码格式下的下混信号的通道的组成音频内容之间的相似度。由于下混信号的通道用于重构M通道下混信号,所以这可以有助于如收听者所感知的这两种编码格式之间的较平滑的转变。
在第一编码格式和第二编码格式中采用相同的增益可以例如允许第一编码格式下的下混信号的相应第一通道和第二通道的音频内容分别与第二编码格式下的下混信号的相应第一通道和第二通道的音频内容更加类似。这可以有助于如收听者所感知的这两种编码格式之间的较平滑的转变。
在本示例实施方式中,可以例如对M通道音频信号的不同通道采用不同的增益。在第一示例中,第一编码格式和第二编码格式下的所有增益可以具有值1。在第一示例中,在第一编码格式和第二编码格式两者下,下混信号的第一通道和第二通道可以分别与第一组的非加权和和第二组的非加权和对应。在第二示例中,至少一些增益可以具有与1不同的值。在第二示例中,下混信号的第一通道和第二通道可以分别与第一组的加权和和第二组的加权和对应。
在示例实施方式中,M通道音频信号可以包括:表示M通道音频信号的回放环境中的不同水平方向的三个通道,以及表示与回放环境中的三个通道的方向垂直分离的方向的两个通道。换句话说,M通道音频信号可以包括:旨在用于由位于与收听者(或收听者的耳朵)基本上相同的高度处的音频源的回放和/或基本上水平地传播的三个通道;以及旨在用于由位于其他高度的音频源的回放和/或(基本上)非水平地传播的两个通道。所述两个通道可以例如表示升高的方向。
在示例实施方式中,在第一编码格式下,第二组通道可以包括表示与回放环境中的三个通道的方向垂直分离的方向的两个通道。在回放环境中的竖直维度对于M通道音频信号的总体效果是重要的的情况下,使这两个通道在第二组中并且采用下混信号的相同通道来表示这两个通道可以例如提高重构的M通道音频信号的保真度。
在示例实施方式中,在第一编码格式下,第一组的一个或更多个通道可以包括表示M通道音频信号的回放环境中的不同水平方向的三个通道,并且第二组的一个或更多个通道可以包括表示与回放环境中的三个通道的方向垂直分离的方向的两个通道。在本示例实施方式中,第一编码格式允许下混信号的第一通道表示上述三个通道并且允许下混信号的第二通道表示上述两个通道,例如在回放环境中的竖直维度对于M通道音频信号的总体效果是重要的的情况下,这可以提高重构的M通道音频信号的保真度。
在示例实施方式中,在第二编码格式下,第一组和第二组中的每一个可以包括表示与M通道音频信号的回放环境中的三个通道的方向垂直分离的方向的两个通道之一。使这两个通道在不同组中并且采用下混信号的不同通道来表示这两个通道,例如在回放环境中的竖直维度对M通道音频信号的总体效果不像那么重要的情况下,可以提高重构的M通道音频信号的保真度。
在示例实施方式中,在编码格式(本文称为特定编码格式)下,第一组的一个或更多个通道可以由N个通道组成,其中N≥3。在本示例实施方式中,响应于所指示的编码格式为特定编码格式,预去相关系数可以被确定成使得基于下混信号的第一通道生成去相关信号的N-1个通道;并且干上混系数和湿上混系数可以被确定成使得将第一组的一个或更多个通道重构为下混信号的第一通道和去相关信号的N-1个通道的线性映射,其中,干上混系数的子集被应用于下混信号的第一通道,并且湿上混系数的子集被应用于去相关信号的N-1个通道。
预去相关系数可以例如被确定成使得去相关输入信号的N-1个通道与下混信号的第一通道一致。可以例如通过处理去相关输入信号的这些N-1个通道来生成去相关信号的N-1个通道。
将第一组的一个或更多个通道重构为下混信号的第一通道和去相关信号的N-1个通道的线性映射指的是通过对下混信号的第一通道和去相关信号的N-1个通道应用线性变换来获得第一组的一个或更多个通道的重构版本。该线性变换采用N个通道作为输入,并且提供N个通道作为输出,其中,干上混系数的子集和湿上混系数的子集一起由限定该线性变换的定量性质的系数组成。
在示例实施方式中,接收的上混参数可以包括第一类型上混参数(本文中被称为湿上混参数)以及第二类型上混参数(本文中被称为干上混参数)。在本示例实施方式中,在特定编码格式下确定湿上混系数集合和干上混系数集合可以包括:基于干上混参数确定干上混系数的子集;基于所接收的湿上混参数填充具有比接收到的湿上混参数的数量多的元素的中间矩阵,并且确信该中间矩阵属于预定义矩阵类;以及通过将中间矩阵乘以预定义矩阵来获得湿上混系数的子集,其中,所述湿上混系数的子集与由上述相乘产生的矩阵对应,并且包括比中间矩阵中的元素的数量多的系数。
在本示例实施方式中,湿上混系数子集中的湿上混系数的数量大于接收到的湿上混参数的数量。通过利用预定义矩阵和预定义矩阵类的知识从所接收的湿上混参数获得湿上混系数的子集,可以减少对第一组的一个或更多个通道的参数重构所需的信息量,从而允许减少与来自编码器侧的下混信号一起发送的元数据量。通过减少参数重构所需的数据量,可以减少用于传输M通道音频信号的参数表示所需的带宽和/或用于存储这样的表示的所需的存储大小。
预定义矩阵类可以与对于类中的所有矩阵有效的至少一些矩阵元素的已知属性(如一些矩阵元素之间的某些关系,或者一些矩阵元素为零)相关联。这些属性的知识允许基于比中间矩阵中的矩阵元素的全部数量少的湿上混参数来填充中间矩阵。解码器侧具有至少以下知识:基于较少的湿上混参数计算所有矩阵元素所需的元素的特性,和基于较少的湿上混参数计算所有矩阵元素所需的元素之间的关系。
在美国临时专利申请No.61/974,544中的第16页第15行至第20页第2行更详细地描述了如何确定和使用预定义矩阵和预定义矩阵类;第一署名发明人:Lars Villemoes;申请日期:2014年4月3日。具体参见其中具体式(9)中的预定义矩阵的示例。
在示例实施方式中,所接收的上混参数可以包括N(N-1)/2个湿上混参数。在本示例实施方式中,填充中间矩阵可以包括:基于所接收的N(N-1)/2湿上混参数获得(N-1)2矩阵元素的值,并且确信中间矩阵属于预定义矩阵类。这可以包括:将湿上混参数的值立即插入为矩阵元素,或以合适的方式处理湿上混参数以导出矩阵元素的值。在本示例实施方式中,预定义矩阵可以包括N(N-1)个元素,并且湿上混系数的子集可以包括N(N-1)个系数。例如,所接收的上混参数可以包括不超过N(N-1)/2个独立可分配的湿上混参数,并且/或者湿上混参数的数量可以不超过湿上混系数子集中的湿上混系数的数量的一半。
在示例实施方式中,所接收的上混参数可以包括(N-1)个干上混参数。在本示例实施方式中,干上混系数的子集可以包括N个系数,并且可以基于所接收的(N-1)个干上混参数以及基于干上混系数的子集中的系数之间的预定义关系来确定干上混系数的子集。例如,所接收的上混参数可以包括不超过(N-1)个独立可分配的干上混参数。
在示例实施方式中,预定义矩阵类可以是以下之一:下三角矩阵或上三角矩阵,其中,该类中的所有矩阵的已知属性包括:预定义矩阵元素为零;对称矩阵,其中,该类中的所有矩阵的已知属性包括预定义矩阵元素(主对角线的任一侧)相等;以及正交矩阵与对角矩阵的乘积,其中,该类中所有矩阵的已知属性包括预定义矩阵元素之间的已知关系。换句话说,预定义矩阵类可以是下三角矩阵类、上三角矩阵的类、对称矩阵类或正交矩阵与对角矩阵的乘积类。上述类中的每一个的共同属性是其维数小于矩阵元素的全部数量。
在示例实施方式中,预定义矩阵和/或预定义矩阵类可以与所指示的编码格式相关联,例如,使得解码方法能够相应地调整湿上混系数集合的确定。
根据示例实施方式,提供了一种音频解码方法,其包括:接收指示至少两个预定义通道配置之一的信令;响应于检测到指示第一预定义通道配置的所接收的信令,执行第一方面的任意音频解码方法。音频解码方法可以包括响应于检测到指示第二预定义通道配置的所接收的信令:接收双通道下混信号和相关联的上混参数;基于下混信号的第一通道和上混参数中的至少一些上混参数来执行第一三通道音频信号的参数重构;以及基于下混信号的第二通道和上混参数中的至少一些来执行第二三通道音频信号的参数重构。
第一预定义通道配置可以与由所接收的双通道下混信号和相关联的上混参数表示的M通道音频信号对应。第二预定义通道配置可以与分别由所接收的下混信号的第一通道和第二通道以及由相关联的上混参数表示的第一三通道音频信号和第二三通道音频信号对应。
接收指示至少两个预定义通道配置之一的信令并基于所指示的通道配置执行参数重构的能力,可以允许将公共格式用于携载M通道音频信号或两个三通道音频信号的从编码器侧到解码器侧的参数表示的计算机可读介质。
根据示例实施方式,提供了一种音频解码系统,其包括:解码部,其被配置成基于双通道下混信号和相关联的上混参数来重构M通道音频信号,其中M≥4。音频解码系统包括控制部,其被配置成接收指示M通道音频信号的至少两种编码格式中的所选择的一种编码格式的信令。编码格式与各个不同划分对应,所述划分将M通道音频信号的通道分到相应的第一组和第二组的一个或更多个通道中。在所指示的编码格式下,下混信号的第一通道与M通道音频信号的第一组的一个或更多个通道的线性组合对应,并且下混信号的第二通道与M通道音频信号的第二组的一个或更多个通道的线性组合对应。解码部包括:预去相关部,其被配置成基于所指示的编码格式来确定预去相关系数集合,并且将去相关输入信号计算为下混信号的线性映射,其中,所述预去相关系数集合被应用于下混信号;以及去相关部,其被配置成基于去相关输入信号生成去相关信号。解码部包括混合部,其被配置成:基于所接收的上混参数和所指示的编码格式来确定湿上混系数集合和干上混系数集合;将干上混信号计算为下混信号的线性映射,其中,所述干上混系数集合被应用于下混信号;将湿上混信号计算为去相关信号的线性映射,其中,所述湿上混系数集合被应用于去相关信号;并且组合干上混信号和湿上混信号以获得与要重构的M通道音频信号对应的多维重构信号。
在示例实施方式中,音频解码系统还可以包括另外的解码部,其被配置成基于另外的双通道下混信号和相关联的另外的上混参数来重构另外的M通道音频信号。控制部可以被配置成接收指示另外的M通道音频信号的至少两种编码格式中的所选择的一种编码格式的信令。另外的M通道音频信号的编码格式可以与各个不同划分对应,所述划分将另外的M通道音频信号的通道分到相应的第一组和第二组的一个或更多个通道中。在另外的M通道音频信号的所指示的编码格式下,另外的下混信号的第一通道可以与另外的M通道音频信号的第一组的一个或更多个通道的线性组合对应,并且另外的下混信号的第二通道可以与另外的M通道音频信号的第二组的一个或更多个通道的线性组合对应。另外的解码部可以包括:另外的预去相关部,其被配置成基于另外的M通道音频信号的所指示的编码格式来确定另外的预去相关系数集合,并且将另外的去相关输入信号计算为另外的下混信号的线性映射,其中,所述另外的预去相关系数集合被应用于另外的下混信号;以及另外的去相关部,其被配置成基于附加的去相关输入信号来生成另外的去相关信号。另外的解码部还可以包括另外的混合部,其被配置成:基于所接收的另外的上混参数和另外的M通道音频信号的所指示的编码格式来确定另外的湿上混系数集合和干上混系数集合;将另外的干上混信号计算为另外的下混信号的线性映射,其中,另外的干上混系数集合被应用于另外的下混信号;将另外的湿上混信号计算为另外的去相关信号的线性映射,其中,另外的湿上混系数集合被应用于另外的去相关信号;并且组合另外的干上混信号和湿上混信号以获得与要重构的另外的M通道音频信号对应的另外的多维重构信号。
在本示例实施方式中,另外的解码部、另外的预去相关部、另外的去相关部和另外的混合部可以例如可以独立于解码部、预去相关部、去相关部和混合部来操作。
在本示例实施方式中,另外的解码部、另外的预去相关部、另外的去相关部和另外的混合部可以分别例如在功能上等同于(或类似地被配置成)解码部、预去相关部、去相关部和混合部。可替选地,与由解码部、预去相关部、去相关部和混合部的对应部分执行相比,另外的解码部、另外的预去相关部、另外的去相关部和另外的混合部中的至少一个可以例如被配置成执行至少一种不同的插值类型。
例如,所接收的信令可以指示用于M通道音频信号和另外的M通道音频信号的不同编码格式。可替选地,两个M通道音频信号的编码格式可以例如总是一致,并且所接收的信令可以指示用于两个M通道音频信号的至少两种公共编码格式中的所选择的一种编码格式。
用于响应于M通道音频信号的编码格式之间的切换的预去相关系数之间的逐渐转变的插值方案可以与用于响应于另外的M通道音频信号的编码格式之间切换的另外的预去相关系数之间的逐渐转变的插值方案一致或不同。
类似地,用于响应于M通道音频信号的编码格式之间的切换的湿上混系数和干上混系数的值的插值的插值方案可以与用于响应于另外的M通道音频信号的编码格式之间的切换的另外的湿上混系数和干上混系数的值的插值的插值方案一致或不同。
在示例实施方式中,音频解码系统还可以包括解复用器,其被配置成从比特流提取下混信号、与下混信号相关联的上混参数、以及离散编码的音频通道。解码系统还可以包括可操作以对离散编码的音频通道进行解码的单通道解码部。离散编码的音频通道可以例如使用感知音频编解码器如杜比数字、MPEG AAC或其演变被编码在比特流中,并且单通道解码部可以例如包括用于对离散编码的音频通道进行解码的核心解码器。单通道解码部可以例如可操作以独立于解码部对离散编码的音频通道进行解码。
根据示例实施方式,提供了一种计算机程序产品,其包括具有用于执行第一方面的任意方法的指令的计算机可读介质。
二、概述——编码器侧
根据第二方面,示例实施方式提出了一种音频编码系统和音频编码方法以及相关联的计算机程序产品。根据第二方面的提出的编码系统、方法和计算机程序产品通常可以共有相同的特征和优点。此外,上文根据第一方面针对解码系统、方法和计算机程序产品的特征呈现的优点通常可以对根据第二方面的编码系统、方法和计算机程序产品的对应特征有效。
根据示例实施方式,提供了一种音频编码方法,其包括:接收M通道音频信号,其中M≥4。音频编码方法包括基于任何合适的选择标准例如信号属性、系统负载、用户偏好、网络条件来重复地选择至少两种编码格式之一。可以对音频信号的每个时间帧重复一次选择,或者对每n个时间帧重复一次选择,从而可能导致选择与最初选择的格式不同的格式;可替选地,选择可以是事件驱动的。编码格式与各个不同划分对应,所述划分将M通道音频信号的通道分到相应的第一组和第二组的一个或更多个通道中。在每种编码格式下,双通道下混信号包括:形成为M通道音频信号的第一组的一个或更多个通道的线性组合的第一通道,和形成为M通道音频信号的第二组的一个或更多个通道的线性组合的第二通道。对于选择的编码格式,基于M通道音频信号来计算下混通道。一旦计算,则输出当前选择的编码格式的下混信号以及指示当前选择的编码格式的信令和能够实现M通道音频信号的参数重构的边信息。如果选择导致从第一选择的编码格式到第二不同选择的编码格式的改变,则可以启动转变,由此输出根据第一选择的编码格式的下混信号和根据第二选择的编码格式的下混信号的交叉衰落。在这种情况下,交叉衰落可以是两个信号的线性或非线性时间插值。例如,
y(t)=tx1(t)+(1-t)x2(t),t∈[0,1]
提供随时间从函数x2到函数x1的线性交叉衰落y,其中,x1,x2可以是表示根据相应编码格式的下混信号的时间的向量值函数。为了简化符号,执行交叉衰落的时间间隔已被重新调整至[0,1],其中,t=0表示交叉衰落的开始,而t=1表示交叉衰落完成的时间点。
物理单位中点t=0和t=1的位置可能对重构的音频的感知输出质量是重要的。作为用于定位交叉衰落的可行准则,可以在确定了不同格式的需求之后尽可能早地进行开始,以及/或者交叉衰落可以在感知上不明显的最短可能时间内完成。因此,对于实现每帧重复选择编码格式,一些示例实施方式提供:交叉衰落在帧的开始处开始(t=0),并且其末端点(t=1)尽可能近,但又足够远以使得平均收听者不能注意到由于基于两种不同编码格式的公共M通道音频信号(具有典型内容)的两次重构之间的转变而引起的失真或劣化。在一种示例实施方式中,由音频编码方法输出的下混信号被分割成时间帧,并且交叉衰落可以占据一帧。在另一种示例实施方式中,由音频编码方法输出的下混信号被分割成交叠的时间帧,并且交叉衰落的持续时间与从一个时间帧到下一个时间帧的步幅对应。
在示例实施方式中,指示当前选择的编码格式的信令可以逐帧地被编码。可替选地,信令可能是时间微分,意义在于如果所选择的编码格式没有变化就可以在一个或更多个连续帧中省略这样的信令。在解码器侧,这样的帧序列可以被解读为意味着最近发出的编码格式保持为所选择的编码格式。
取决于M通道音频信号的音频内容,将M通道音频信号的通道分到由下混信号的相应通道表示的第一组和第二组的不同划分可以是合适的,以便对M通道音频信号进行捕捉和有效地编码,并且当根据下混信号和相关联的上混参数重构该信号时保持保真度。因此,可以通过选择适当的编码格式(即多种预定义编码格式中最适合的)来增加重构的M通道音频信号的保真度。
在示例实施方式中,边信息包括干上混系数和湿上混系数,与上文在本公开内容中已经使用的这些术语具有相同的意思。除非出于具体的实施原因,否则为当前选择的编码格式计算边信息(特别是干上混系数和湿上混系数)通常是足够的。特别地,干上混系数集合(其可以表示为M×2维的矩阵)可以限定近似M通道音频信号的各个的下混信号的线性映射。湿上混系数集合(可以表示为M×P维的矩阵,其中,去相关器的数量P可以被设置为P=M-2)限定去相关信号的线性映射,使得通过去相关信号的所述线性映射获得的信号的协方差补充通过所选择的编码格式的下混信号的线性映射近似的M通道音频信号的协方差。湿上混系数集合限定的去相关信号的映射将补充(所近似的)M通道音频信号的协方差,意义在于使M通道音频信号和去相关信号的映射之和的协方差通常更接近于所接收的M通道音频信号的协方差。添加辅助协方差的效果可以提高解码器侧的重构信号的保真度。
下混信号的线性映射提供了M通道音频信号的近似。当在解码器侧重构M通道音频信号时,采用去相关信号来增加下混信号的音频内容的维数,并且通过去相关信号的线性映射获得的信号与通过下混信号的线性映射获得的信号组合以提高M通道音频信号的近似的保真度。由于去相关信号基于下混信号的至少一个通道确定,并且不包括来自下混信号中尚不可用的M通道音频信号的任何音频内容,因此所接收的M通道音频信号的协方差与通过下混信号的线性映射近似的M通道音频信号的协方差之间的差不仅可以指示通过下混信号的线性映射近似的M通道音频信号的保真度,而且可以指示使用下混信号和去相关信号两者重构的M通道音频信号的保真度。特别地,所接收的M通道音频信号的协方差与通过下混信号的线性映射近似的M通道音频信号的协方差之间的减小的差可以指示重构的M通道音频信号的提高的保真度。湿上混系数集合限定的去相关信号的映射补充(从下混信号获得)M通道音频信号的协方差,意义在于M通道音频信号和去相关信号的映射之和的协方差更接近于所接收的M通道音频信号的协方差。因此,基于相应的计算的差选择编码格式之一允许提高重构的M通道音频信号的保真度。
应当理解,可以例如直接基于计算的差,或基于根据所计算的差确定的系数和/或值来选择编码格式。
还应当理解,除相应的计算的差之外,可以基于例如相应的计算的干上混参数来选择编码格式。
在假设仅下混信号可用于重构的情况下,即在假设不采用去相关信号进行重构的情况下,干上混系数集合可以例如经由最小均方误差近似来确定。
所计算的差可以例如是所接收的M通道音频信号的协方差矩阵与由不同编码格式的下混信号的各个线性映射所近似的M通道音频信号的协方差矩阵之间的差。选择编码格式之一可以例如包括:计算用于协方差矩阵之间的相应差的矩阵范数,以及基于所计算的矩阵范数来选择编码格式之一,例如选择与所计算的矩阵范数中的最小一个相关联的编码格式。
去相关信号可以例如包括至少一个通道且至多M-2个通道。
干上混系数集合限定近似M通道下混信号的下混信号的线性映射指的是通过对下混信号应用线性变换来获得M通道下混信号的近似。该线性变换采用下混信号的两个通道作为输入,并且提供M个通道作为输出,并且干上混系数是定义该线性变换的定量性质的系数。
类似地,湿上混参数限定以去相关信号的通道为输入的线性变换的定量性质,并提供M个通道作为输出。
在示例实施方式中,可以确定湿上混参数,使得通过去相关信号的线性映射(其由湿上混参数限定)获得的信号的协方差近似所接收的M通道音频信号的协方差与通过所选择的编码格式的下混信号的线性映射近似的M通道音频信号的协方差之间的差。换句话说,下混信号的(由干上混参数限定的)第一线性映射和去相关信号的(根据该示例实施方式确定的由湿上混参数限定的)第二线性映射之和的协方差将接近于构成上文讨论的音频编码方法的输入的M通道音频信号的协方差。根据本示例实施方式的确定湿上混系数可以提高重构的M通道音频信号的保真度。
可替选地,可以确定湿上混参数,使得通过去相关信号的线性映射获得的信号的协方差近似所接收的M通道音频信号的协方差与通过所选择的编码格式的下混信号的线性映射所近似的M通道音频信号的协方差之间的差的一部分。例如,如果有限数量的去相关器在解码器侧可用,则可能不可能完全恢复所接收的M通道音频信号的协方差。在这样的示例中,可以在编码器侧确定适用于使用减少数量的去相关器的M通道音频信号的协方差的部分重构的湿上混参数。
在示例实施方式中,对于至少两种编码格式中的每一种,音频编码方法还可以包括:确定湿上混系数集合,其与(该编码格式的)干上混系数一起允许从(该编码格式的)下混信号并从基于(该编码格式的)确定的去相关信号进行M通道音频信号的参数重构,其中,湿上混系数集合限定去相关信号的线性映射,使得通过去相关信号的线性映射获得的信号的协方差近似所接收的M通道音频信号的协方差与通过(该格式的)下混信号的线性映射近似的M通道音频信号的协方差之间的差。在本示例实施方式中,可以基于各个确定的湿上混系数集合的值来选择所选择的编码格式。
例如,可以基于确定的湿上混系数来获得重构的M通道音频信号的保真度的指示。编码格式的选择可以例如基于所确定的湿上混系数的加权和或非加权和,基于所确定的湿上混系数的量级的加权和或非加权和,以及/或者基于所确定的湿上混系数的加权平方和或非加权平方和,例如还基于相应的计算的干上混系数的对应的和。
可以例如针对M通道信号的多个频带计算湿上混参数,并且编码格式的选择可以例如基于各个频带中相应确定的湿上混系数集合的值。
在示例实施方式中,第一编码格式与第二编码格式之间的转变包括输出一个时间帧中的第一编码格式的干上混系数和湿上混系数的离散值,以及后续时间帧中的第二编码格式的干上混系数和湿上混系数的离散值。解码器中最终重构M通道信号的功能可以包括输出离散值之间的上混系数的插值。凭借这样的解码器侧功能,将有效地产生从第一编码格式到第二编码格式的交叉衰落。如上所述,像应用于下混信号的交叉衰落一样,当重构M通道音频信号时,这样的交叉衰落可以引起编码格式之间的较不可感知的转变。
应当理解,用于基于M通道音频信号计算下混信号的系数可以被插值,即从与根据第一编码格式计算下混信号的帧相关联的值至与根据第二编码格式计算下混信号的帧相关联的值。至少如果下混合发生在时域中,则由所概述类型的系数插值产生的下混交叉衰落将相当于由直接对各个下混信号执行的插值产生的交叉衰落。应当记住,用于计算下混信号的系数的值通常不是信号相关的,而是可以针对可用编码格式中的每一种来预定义。
回到下混信号和上混系数的交叉衰落,认为有利的是确保两个交叉衰落之间的同步性。优选地,下混信号和上混系数的各个转变周期可以一致。特别地,负责相应交叉衰落的实体可以由公共控制数据流来控制。这样的控制数据可以包括交叉衰落的起点和终点,以及可选的交叉衰落波形,如线性、非线性等。在上混系数的情况下,可以通过管理解码装置的行为的预定插值规则给出交叉衰落波形;然而,可以通过限定和/或输出上混系数的离散值的位置来隐含地控制交叉衰落的起点和终点。两个交叉衰落过程的时间相关的相似性确保了下混信号与为其重构所提供的参数之间的良好匹配,这可以导致解码器侧的失真减少。
在示例实施方式中,编码格式的选择基于将所接收的M通道信号与基于下混信号重构的M通道信号在协方差方面的差进行比较。特别地,重构可以等于由仅干上混系数限定的下混信号的线性映射,即,没有来自使用去相关确定的信号的贡献(例如,以增加下混信号的音频内容的维数)。特别地,在比较中不考虑由任意湿上混系数集合限定的线性映射的贡献。换句话说,进行比较,就像没有去相关的信号可用。该选择的基础可能有利于当前允许较多忠实再现的编码格式。可选地,在执行该比较并且对编码格式的选择作出决定之后,确定湿上混系数集合。与该过程相关联的优点是,对于所接收的M通道音频信号的给定部分,不存在湿上混系数的重复确定。
在前面段落中描述的示例实施方式的变型中,针对所有编码格式计算干上混系数和湿上混系数,并且将湿上混系数的定量测量用作选择编码格式的基础。实际上,基于所确定的湿上混系数计算的量可以提供重构的M通道音频信号的保真度的(反)指示。编码格式的选择可以例如基于所确定的湿上混系数的加权和或非加权和,基于所确定的湿上混系数的量级的加权和或非加权和,以及/或者基于所确定的湿上混系数的加权平方和或非加权平方和。这些选项中的每一个可以与相应的计算干上混系数的相应和进行组合。可以例如针对M通道信号的多个频带计算湿上混参数,并且编码格式的选择可以例如基于各个频带中相应确定的湿上混系数集合的值。
在示例实施方式中,音频编码方法还可以包括:对于至少两种编码格式中的每一种,计算相应的湿上混系数的平方和和相应的干上混系数的平方和。在本示例实施方式中,可以基于计算的平方和来选择所选择的编码格式。发明人认识到,所计算的平方和可以提供由收听者感知到的当基于湿贡献和干贡献的混合来重构M通道音频信号时出现的保真度损失的特别良好的指示。
例如,可以基于所计算的各个编码格式的平方和形成针对每种编码格式的比率,并且所选择的编码格式可以与所形成的比率中的最小比率或最大比率相关联。形成比率可以例如包括将湿上混系数的平方和除以干上混系数的平方和和湿上混系数的平方和之和。可替选地,该比率可以通过将湿上混系数的平方和除以干上混系数的平方和来形成。
在示例实施方式中,该方法提供对M通道音频信号和至少一个相关联的(M2通道)音频信号的编码。音频信号可以被关联,意义在于它们例如通过已被同时记录或在公共创作过程中生成来描述公共音频场景。音频信号不需要借助于公共下混信号进行编码,而是可以在单独的过程中进行编码。在这样的设置中,对编码格式之一的选择还考虑与所述至少一个另外的音频通道有关的数据,并且因此选择的编码格式将用于对M通道音频信号和相关联的(M2通道)音频信号两者进行编码。
在示例实施方式中,通过音频编码方法输出的下混信号可以被分割成时间帧,编码格式的选择可以每帧执行一次,并且在选择不同的编码格式之前,所选择的编码格式可以被保持多达至少预定数量的时间帧。帧的编码格式的选择可以通过以上概述的任意方法(例如通过考虑协方差之间的差,考虑可用编码格式的湿上混系数的值等)来执行。通过将所选择的编码格式保持多达最小数量的时间帧,可以例如避免编码格式之间来回重复的跳跃。本示例实施方式可以例如提高由收听者所感知的重构的M通道音频信号的回放质量。
时间帧的最小数量可以例如为10。
所接收的M通道音频信号可以例如缓冲最小数量的时间帧,并且编码格式的选择可以例如基于通过移动窗口的多数决定来执行,所述移动窗口包括鉴于所选择的编码格式将被维护的所述最小帧数而选择的多个时间帧。这样的稳定功能的实现可以包括各种平滑滤波器中的一个,特别是数字信号处理中已知的有限脉冲响应平滑滤波器。替代该方法,当发现新的编码格式被选择用于所述最小数量的按顺序的帧时,编码格式可以切换至新的编码格式。为了强制实施这个标准,具有最小数量的连续帧的移动时间窗可以被应用于例如用于缓冲帧的过去的编码格式选择。如果在第一编码格式的帧序列之后,对于移动窗口中的每个帧仍然选择了第二编码格式,则第二编码格式的转变被确认,并且从移动窗口开始就向前起作用。上述稳定功能的实现可以包括状态机。
在示例实施方式中,提供了干上混参数和湿上混参数的紧凑表示,其特别地包括生成中间矩阵,所述中间矩阵借助于属于预定义矩阵类由比矩阵中的元素少的参数数量唯一确定。在本公开内容的早些部分描述了该紧凑表示的各个方面,并且具体参考美国临时专利申请No 61/974,544,第一署名发明人:Lars Villemoes;申请日期:2014年4月3日。
在示例实施方式中,在所选择的编码格式下,M通道音频信号的第一组的一个或更多个通道可以由N个通道组成,其中N≥3。第一组的一个或更多个通道可以通过应用湿上混系数和干上混系数的至少一些来根据下混信号的第一通道和去相关信号的N-1个通道重构。
在本示例实施方式中,确定所选择的编码格式的干上混系数集合可以包括确定所选择的编码格式的干上混系数的子集,以便限定所选择的编码格式的下混信号的第一通道的线性映射,所述所述线性映射近似所选择的编码格式的第一组的一个或更多个通道。
在本示例实施方式中,确定所选择的编码格式的湿上混系数集合可以包括:基于所接收的所选择的编码格式的第一组的一个或更多个通道的协方差与通过所选择的编码格式的下混信号的第一通道的线性映射近似的所选择的编码格式的第一组的一个或更多个通道的协方差之间的差来确定中间矩阵。当乘以预定矩阵时,中间矩阵可以与所选择的编码格式的湿上混系数的子集对应,所述选择的编码格式的湿上混系数的子集限定去相关信号的N-1个通道的线性映射作为所选择的编码格式的第一组的一个或更多个通道的参数重构的一部分。所选择的编码格式的湿上混系数的子集可以包括比中间矩阵中的元素的数量多的系数。
在本示例实施方式中,输出上混参数可以包括第一类型上混参数(本文中被称为干上混参数,干上混系数的子集可从所述第一类型上混参数得到)集,以及第二类型上混参数(本文中被称为湿上混参数,假如中间矩阵属于预定义矩阵类则唯一地限定中间矩阵)集。中间矩阵可以具有比所选择的编码格式的湿上混参数的子集中的元素的数量多的元素。
在本示例实施方式中,解码器侧的第一组的一个或更多个通道的参数重构副本包括:作为一个贡献的通过下混信号的第一通道的线性映射形成的干上混信号,以及作为另外的贡献的通过去相关信号的N-1个通道的线性映射形成的湿上混信号。干上混系数的子集限定下混信号的第一通道的线性映射,而湿上混系数的子集限定去相关信号的线性映射。通过输出少于湿上混系数子集中的系数数量的湿上混参数,并且根据基于预定义矩阵和预定义矩阵类从中可得到湿上混系数的子集的湿上混系数,可以减少发送给解码器侧能够重构M通道音频信号的信息量。通过减少参数重构所需的数据量,可以减少用于传输M通道音频信号的参数表示所需的带宽和/或用于存储这样的表示所需的存储大小。
中间矩阵可以例如被确定成使得通过去相关信号的N-1个通道的线性映射获得的信号的协方差补充由下混信号的第一通道的线性映射近似的第一组的一个或更多个通道的协方差。
上面提到的美国临时专利申请No.61/974,544中第16页第15行至第20页第2行更详细地描述了如何确定和使用预定义矩阵和预定义矩阵类。具体参见其中的具体式(9)中的预定义矩阵的示例。
在示例实施方式中,确定中间矩阵可以包括将中间矩阵确定成使得通过由湿上混系数子集定义的去相关信号的N-1个通道的线性映射获得的信号的协方差近似接收的第一组的一个或更多个通道的协方差与通过下混信号的第一通道的线性映射近似的第一组的一个或更多个通道的协方差之间的差或基本上与其一致。换句话说,中间矩阵可以被确定成使得由通过下混信号的第一通道的线性映射形成的干上混信号与通过去相关信号的N-1个通道的线性映射完全或至少近似地形成湿上混信号之和得到的第一组的一个或更多个通道的重构副本使所接收的第一组的一个或更多个通道的协方差恢复。
在示例实施方式中,湿上混参数可以包括不超过N(N-1)/2个独立可分配的湿上混参数。在本示例实施方式中,中间矩阵可以具有(N-1)2个矩阵元素,并且假如中间矩阵属于预定义矩阵类,则可以由湿上混参数唯一地限定。在本示例实施方式中,湿上混系数的子集可以包括N(N-1)个系数。
在示例实施方式中,干上混系数的子集可以包括N个系数。在本示例实施方式中,干上混参数可以包括不超过N-1个干上混参数,并且干上混系数的子集可以使用预定义规则从N-1个干上混参数得到。
在示例实施方式中,所确定的干上混系数子集可以限定与第一组的一个或更多个通道的最小均方差近似对应的下混信号的第一通道的线性映射,即在下混信号的第一通道的线性映射集之间,所确定的干上混系数集合可以限定在最小均方意义上最近似第一组的一个或更多个通道的线性映射。
在示例实施方式中,提供了一种音频编码系统,其包括:编码部,其被配置成将M通道音频信号编码为双通道音频信号和相关联的上混参数,其中M≥4。编码部包括:下混部,其被配置成对于与将M通道音频信号的通道分到相应的第一组和第二组的一个或更多个通道中的各个不同划分对应的两种编码格式中的至少一种,根据编码格式基于M通道音频信号计算双通道下混信号。下混信号的第一通道形成为M通道音频信号的第一组的一个或更多个通道的线性组合,并且下混信号的第二通道形成为M通道音频信号的第二组的一个或多个通道的线性组合。
音频编码系统还包括控制部,其被配置成基于任意合适的标准例如信号属性、系统负载、用户偏好、网络条件来选择编码格式之一。音频编码系统还包括下混插值器,其在转变已被控制部排序时,使两种编码格式之间的下混信号进行交叉衰落。在这样的转变期间,可以计算两种编码格式的下混信号。除了下混信号之外或者当其交叉衰落适用时,音频编码系统至少输出指示当前选择的编码格式的信令以及基于下混信号实现M通道音频信号的参数重构的边信息。如果系统包括并行操作的多个编码部,例如以对各组音频通道进行编码,则控制部可以从这些编码部中的每一个自主实现,并且负责选择要由每个编码部使用的公共编码格式。
在示例实施方式中,提供了一种计算机程序产品,其包括具有用于执行本节中描述的任意方法的指令的计算机可读介质。
三、示例实施方式
图6至图8示出了将11.1通道音频信号划分成通道组以用于将11.1通道音频信号参数编码为5.1通道音频信号的替代方法。11.1通道音频信号包括通道L(左边)、LS(左侧)、LB(左后)、TFL(左前上方)、TBL(左后上方)、R(右边)、RS(右侧)、RB(右后)、TFR(右前上方)、TBR(右后上方)、C(中心)和LFE(低频效果)。五个通道L、LS、LB、TFL和TBL形成表示11.1通道音频信号的回放环境中的左半空间的五通道音频信号。三个通道L、LS和LB表示回放环境中的不同的水平方向,并且两个通道TFL和TBL表示与三个通道L、LS和LB的方向垂直分离的方向。两个通道TFL和TBL可以例如旨在用于在天花板扬声器中回放。类似地,五个通道R、RS、RB、TFR和TBR形成表示回放环境的右半空间的另外的五通道音频信号,即表示回放环境中的不同水平方向的三个通道R、RS和RB以及表示与三个通道R、RS和RB的方向垂直分离的方向的两个通道TFR和TBR。
为了将11.1通道音频信号表示为5.1通道音频信号,可以将通道L、LS、LB、TFL、TBL、R、RS、RB、TFR、TBR、C和LFE的集合划分为由各自的下混通道和相关联的上混参数表示的通道组。五通道音频信号L,LS,LB,TFL,TBL可以由双通道下混信号L1,L2和相关联的上混参数表示,而另外的五通道音频信号R,RS,RB,TFR,TBR可以由另外的双通道下混信号R1,R2和相关联的另外的上混参数来表示。通道C和LFE在11.1通道音频信号的5.1通道表示中仍可以保持为单独的通道。
图6示出了第一编码格式F1,其中,五通道音频信号L,LS,LB,TFL,TBL被划分成通道L,LS,LB的第一组601和通道TFL,TBL的第二组602,并且其中,另外的五通道音频信号R,RS,RB,TFR,TBR被划分成通道R,RS,RB的另外的第一组603以及通道TFR,TBR的另外的第二组604。在第一编码格式F1下,第一通道组601由双通道下混信号的第一通道L1表示,并且第二通道组602由双通道下混信号的第二通道L2表示。下混信号的第一通道L1可以按照L1=L+LS+LB而与第一组601的通道之和对应,并且下混信号的第二通道L2可以按照L2=TFL+TBL而与第二组602的通道之和对应。
在一些示例实施方式中,可以在求和之前将一些或全部通道重新调整,使得下混信号的第一通道L1可以根据L1=c1L+c2LS+c3LB而与第一组601的通道的线性组合对应,并且下混信号的第二通道L2可以根据L2=c4TFL+c5TBL而与第二组602的通道的线性组合对应。增益c2,c3,c4,c5可以例如相一致,而增益c1可以例如具有不同的值;例如,c1可以与根本没有重新调整相对应。例如,可以使用值c1=1且
Figure BDA0002530742420000251
如果例如在第一编码格式F1下应用于各自通道L,LS,LB,TFL,TBL的增益c1,...,c5与下面参照图7和图8描述的在其他编码格式F2和F3下应用于这些通道的增益一致,则当在不同编码格式F1,F2,F3之间切换时这些增益不会影响下混信号如何改变,并且因此经重新调整的通道c1L,c2LS,c3LB,c4TFL,c5TBL可以被视为好像它们是原始通道L,LS,LB,TFL,TBL一样。另一方面,如果在不同的编码格式中采用不同的增益以用于同一通道的重新调整,则这些编码格式之间的切换可能例如导致下混信号中的通道L,LS,LB,TFL,TBL的被不同地调整的版本之间的突变,这可能潜在地在解码器侧引起可听见的失真。如下面关于等式(3)和等式(4)所述的,这样的失真可以例如通过使用从在编码格式的切换之前被采用以形成下混信号的系数到在编码格式的切换之后被采用以形成下混信号的系数进行插值、以及/或者通过使用预去相关系数的插值来抑制。
类似地,另外的第一通道组603由另外的下混信号的第一通道R1表示,并且另外的第二通道组604由另外的下混信号的第二通道R2表示。
第一编码格式F1提供用于表示天花板通道TFL、TBL、TFR和TBR的专用下混通道L2和R2。因此,在例如回放环境中的竖直维度对于11.1通道音频信号的总体效果而言是重要的的情况下,第一编码格式F1的使用可以允许具有较高保真度的11.1通道音频信号的参数重构。
图7示出了第二编码格式F2,其中,五通道音频信号L,LS,LB,TFL,TBL被划分成由下混信号的相应通道L1,L2表示的第一通道组701和第二通道组702,其中,通道L1和L2对应于各自组701和702的通道之和,或者如在第一编码格式F1中那样采用相同的增益c1,...,c5以用于重新调整各自的通道L,LS,LB,TFL,TBL的各自组701和702的通道的线性组合。类似地,另外的五通道音频信号R,RS,RB,TFR,TBR被划分成由各自的通道R1和R2表示的另外的第一通道组703和另外的第二通道组704。
第二编码格式F2不提供用于表示天花板通道TFL,TBL,TFR和TBR的专用下混通道,但是例如在回放环境中的竖直维度对11.1通道音频信号的总体效果不那么重要的情况下,可以允许具有相对高保真度的11.1通道音频信号的参数重构。
图8示出了第三编码格式F3,其中,五通道音频信号L,LS,LB,TFL,TBL被划分成由下混信号的相应通道L1和L2表示的的第一组的一个或更多个通道801和第二组的一个或更多个通道802,其中,通道L1和L2信号对应于各自组801和802的一个或更多个通道之和,或者如在第一编码格式F1中那样采用相同的系数c1,...,c5以用于重新调整各自的通道L,LS,LB,TFL,TBL的各自组801和802的一个或更多个通道的线性组合。类似地,另外的五通道信号R,RS,RB,TFR,TBR被划分成由各自的通道R1和R2表示的另外的第一通道组803和另外的第二通道组804。在第三编码格式F3中,仅通道L由下混信号的第一通道L1表示,而四个通道LS、LB、TFL和TBL由下混信号的第二通道L2表示。
在将参照图1至图5描述的编码器侧,根据下式将双通道下混信号L1,L2计算为五通道音频信号X=[L LS LB TFL TBL]T的线性映射:
Figure BDA0002530742420000261
其中,dn,m,n=1,2,m=1...,5是由下混矩阵D表示的下混系数。在将参照图9至图13描述的解码器侧,根据下式执行五通道音频信号[L LS LB TFL TBL]T的参数重构:
Figure BDA0002530742420000262
其中,cn,m,n=1,...,5,m=1,2是由干上混矩阵表示的干上混系数βL,pn,k,n=1,...,5,k=1,2,3是由湿上混矩阵表示的湿上混系数γL,并且zk,k=1,2,3是基于下混信号L1,L2生成的三通道去相关信号Z的通道。
图1是根据示例实施方式的用于将M通道音频信号编码为双通道下混信号和相关联的上混参数的编码部100的一般性框图。
M通道音频信号在本文中由参照图6至图8描述的五通道音频信号L、LS、LB、TFL和TBL来举例说明。还可以设想以下示例实施方式,其中,编码部100基于M通道音频信号计算双通道下混信号,其中M=4或M≥6。
编码部100包括下混部110和分析部120。对于参照图6至图8描述的编码格式F1,F2,F3中的每一个,下混部110基于五通道音频信号L,LS,LB,TFL,TBL根据编码格式来计算双通道下混信号L1,L2。在例如第一编码格式F1中,下混信号的第一通道L1形成为五通道音频信号L,LS,LB,TFL,TBL中的第一组601的通道的线性组合(例如,五通道音频信号L,LS,LB,TFL,TBL中的第一组601的通道之和),并且下混信号的第二通道L2形成为五通道音频信号L,LS,LB,TFL,TBL中的第二组602的通道的线性组合(例如,五通道音频信号L,LS,LB,TFL,TBL中的第二组602的通道之和)。由下混部110执行的操作可以例如表示为式(1)。
对于编码格式F1,F2,F3中的每一个,分析部120确定限定近似五通道音频信号L,LS,LB,TFL,TBL的各下混信号L1,L2的线性映射的干上混系数集合βL,并且计算所接收的五通道音频信号L,LS,LB,TFL,TBL的协方差与通过各下混信号L1,L2的相应线性映射所近似的五通道音频信号的协方差之间的差。计算的差在本文中通过所接收的五通道音频信号L,LS,LB,TFL,TBL的协方差矩阵与通过各下混信号L1,L2的相应线性映射所近似的五通道音频信号的协方差矩阵之间的差来举例说明。对于编码格式F1,F2,F3中的每一个,分析部120基于相应的计算的差来确定湿上混系数γL集合,湿上混系数γL与干上混系数βL一起允许从下混信号L1,L2以及从基于下混信号L1,L2在解码器侧确定的三通道去相关信号进行五通道音频信号L,LS,LB,TFL,TBL的根据式(2)的参数重构。湿上混系数γL集合限定去相关信号的线性映射,使得通过去相关信号的线性映射获得的信号的协方差矩阵近似所接收的五通道音频信号L,LS,LB,TFL,TBL的协方差矩阵与通过下混信号L1,L2的线性映射所近似的五通道音频信号的协方差矩阵之间的差。
下混部110可以例如在时域中即基于五通道音频信号L,LS,LB,TFL,TBL的时域表示计算下混信号L1,L2,或者在频域中即基于五通道音频信号L,LS,LB,TFL,TBL的频域表示来计算下混信号L1,L2
分析部120可以例如基于五通道音频信号L,LS,LB,TFL,TBL的频域分析来确定干上混系数βL和湿上混系数γL。分析部120可以例如接收由下混部110计算的下混信号L1,L2,或者可以计算其自身版本的下混信号L1,L2以用于确定干上混系数βL和湿上混系数γL
图3是根据示例实施方式的包括参照图1描述的编码部100的音频编码系统300的一般性框图。在本示例实施方式中,例如由一个或更多个声换能器301记录或由音频创作设备301生成的音频内容以参照图6至图8描述的11.1通道音频信号的形式提供。正交镜像滤波器(QMF)分析部302(或滤波器组)将五通道音频信号L,LS,LB,TFL,TBL逐时间段地变换为QMF域以供编码部100以时间片/频率片的形式对五通道音频信号L,LS,LB,TFL,TBL进行处理。(如下文将进一步解释的,QMF分析部302及其对应物、QMF合成部305是可选的。)音频编码系统300包括另外的编码部303,其与编码部100类似,并且适用于将另外的五通道音频信号R、RS、RB、TFR和TBR编码为另外的双通道下混信号R1,R2以及相关联的另外的干上混参数βR和另外的湿上混参数γR。QMF分析部302还将另外的五通道音频信号R、RS、RB、TFR和TBR变换成QMF域以供另外的编码部303处理。
控制部304基于编码部100和另外的编码部303针对各自的编码格式F1,F2,F3确定的湿上混系数γLR和干上混系数βLR来选择编码格式F1,F2,F3之一。例如,对于编码格式F1,F2,F3中的每一个,控制部304可以计算以下比率:
Figure BDA0002530742420000281
其中,Ewet是湿上混系数γL和γR的平方和,并且Edry是干上混系数的平方和。所选择的编码格式可以与编码格式F1,F2,F3的比率E中的最小比率相关联,即,控制部304可以选择与最小比率E对应的编码格式。发明人认识到,比率E的减小的值可以指示根据相关联的编码格式所重构的11.1通道音频信号的增加的保真度。
在一些示例实施方式中,干上混系数βLR的平方和Edry可以例如包括值为1的附加项,对应于以下事实:通道C被发送至解码器侧,并且可以在没有任何去相关的情况下例如仅采用值为1的干上混系数被重构。
在一些示例实施方式中,控制部304可以分别基于湿上混系数γL和干上混系数βL以及另外的湿上混系数γR和另外的干上混系数βR来彼此独立地选择两个五通道音频信号L,LS,LB,TFL,TBL和R,RS,RB,TFR,TBR的编码格式。
然后,音频编码系统300可以输出:所选择的编码格式的下混信号L1,L2和另外的下混信号R1,R2;上混参数α,从上混参数α可得到与所选择的编码格式相关联的干上混系数βL和湿上混系数γL以及另外的干上混系数βR和另外的湿上混系数γR;以及指示所选择的编码格式的信令S。
在本示例实施方式中,控制部304输出:所选择的编码格式的下混信号L1,L2和另外的下混信号R1,R2、上混参数α,从上混参数α可得到与所选择的编码格式相关联的干上混系数βL和湿上混系数γL以及另外的干上混系数βR和另外的湿上混系数γR;以及指示所选择的编码格式的信令S。下混信号L1,L2和另外的下混信号R1,R2由QMF合成部305(或滤波器组)从QMF域变换回来,并且由变换部306变换成改进的离散余弦变换(MDCT)域。量化部307对上混参数进行量化。例如,可以使用步长为0.1或0.2(无量纲)的均匀量化,接着以霍夫曼编码的形式进行熵编码。可以例如采用步长为0.2的较粗略量化来节省传输带宽,并且可以例如采用步长为0.1的较精细量化来提高解码器侧的重构的保真度。通道C和LFE也被变换部308变换成MDCT域。然后,通过复用器309将MDCT变换的下混信号和通道、量化的上混参数和信令组合成比特流B,用于传输至解码器侧。音频编码系统300还可以包括核心编码器(图3中未示出),其被配置成在下混信号以及通道C和LFE被提供给复用器309之前使用感知音频编解码器如杜比数字、MPEG AAC或其演变来对下混信号L1,L2、另外的下混信号R1,R2以及通道C和LFE进行编码。例如可以在形成比特流B之前将例如与-8.7dB对应的修剪增益应用于下混信号L1,L2、另外的下混信号R1,R2和通道C。可替选地,由于参数独立于绝对电平,所以也可以在形成与L1,L2对应的线性组合之前将修剪增益应用于所有输入通道。
还可以设想以下实施方式,其中,控制部304仅接收不同编码格式F1,F2,F3的湿上混系数γLR和干上混系数βLR(或者不同的编码格式的湿上混系数和干上混系数的平方和)以用于选择编码格式,即控制部304不一定需要接收不同编码格式的下混信号L1,L2,R1,R2。在这样的实施方式中,控制部304可以例如控制编码部100,303来将所选择的编码格式的下混信号L1,L2,R1,R2、干上混系数βLR和湿上混系数γLR传送为音频编码系统300的输出或者传送为复用器309的输入。
如果选择的编码格式在编码格式之间切换,则可以例如在编码格式切换之前使用的下混系数值与编码格式切换之后使用的下混系数值之间进行插值,以根据式(1)形成下混信号。这通常相当于根据各自下混系数值集合产生的下混信号的插值。
虽然图3示出了下混信号可以如何在QMF域中生成以及然后接着变换回到时域,但是可以在没有QMF部302,305的情况下实现满足相同任务的替选编码器,由此其直接在时域中计算下混信号。这在下混系数不是频率相关的情况下(这通常成立)是可行的。利用替选编码器,编码格式转变可以通过在相应编码格式的两个下混信号之间进行交叉衰落来处理,或者通过在产生下混信号的下混系数(包括格式之一中的为零值的系数)之间进行插值来处理。这样的替选编码器可以具有较低的延迟/等待时间和/或较低的计算复杂度。
图2是根据示例实施方式的与参照图1描述的编码部100类似的编码部200的一般性框图。编码部200包括下混部210和分析部220。如在参照图1描述的编码部100中,对于编码格式F1,F2,F3中的每一个,下混部210基于五通道音频信号L,LS,LB,TFL,TBL来计算双通道下混信号L1,L2并且分析部220确定相应的干上混系数βL集合,并且计算所接收的五通道音频信号L,LS,LB,TFL,TBL的协方差矩阵与通过各下混信号的相应线性映射近似的五通道音频信号的协方差矩阵之间的差ΔL
与参照图1描述的编码部100中的分析部120相比,分析部220不计算所有编码格式的湿上混参数。相对地,计算的差ΔL被提供给控制部304(参见图3)以用于选择编码格式。一旦基于所计算的差ΔL选择了编码格式,则可以由控制部304确定用于所选择的编码格式的湿上混系数(将被包括在上混参数集合中)。可替选地,控制部304负责基于上面讨论的协方差矩阵之间的计算的差ΔL来选择编码格式,但是经由上行方向的信令来指示分析部220计算湿上混系数γL;根据该替选(未示出),分析部220具有输出差和湿上混系数两者的能力。
在本示例实施方式中,湿上混系数集合被确定成使得通过由湿上混系数限定的通过去相关信号的线性映射获得的信号的协方差矩阵补充通过所选择的编码格式的下混信号的线性映射所近似的五通道音频信号的协方差矩阵。换句话说,当在解码器侧重构五通道音频信号L,LS,LB,TFL,TBL时,湿上混参数不一定需要被确定成实现全协方差重构。湿上混参数可以被确定成提高重构的五通道音频信号的保真度,但是,如果例如解码器侧的去相关器的数量受到限制,则湿上混参数可以被确定成允许五通道音频信号L,LS,LB,TFL,TBL的尽可能多的协方差矩阵的重构。
可以设想以下实施方式,其中,与参照图3描述的音频编码系统300类似的音频编码系统包括参照图2描述的类型的一个或更多个编码部200。
图4是根据示例实施例的用于将M通道音频信号编码为双通道下混信号和相关联的上混参数的音频编码方法400的流程图。音频编码方法400在本文中通过由包括参照图2描述的编码部200的音频编码系统执行的方法举例说明。
音频编码方法400包括:接收410五通道音频信号L,LS,LB,TFL,TBL;根据参照图6至图8描述的编码格式F1,F2,F3中的第一种,基于五通道音频信号L,LS,LB,TFL,TBL来计算420双通道下混信号L1,L2;根据编码格式确定430干上混系数βL集;以及根据编码格式计算440差ΔL。音频编码方法400包括:确定450是否对于编码格式F1,F2,F3中的每一种计算差ΔL。只要对于至少一种编码格式仍然要计算差ΔL,则音频编码方法400方法返回至根据下一个编码格式计算420下混信号L1,L2,这由流程图中的N指示。
如果由流程图中的Y所指示的已经对于编码格式F1,F2,F3中的每一种计算了差ΔL,则方法400继续进行为:基于相应的计算的差ΔL选择460编码格式F1,F2,F3之一;以及确定470湿上混系数集合,湿上混系数与所选择的编码格式的干上混系数βL一起允许五通道音频信号L,LS,LB,TFL,TBL的根据式(2)的参数重构。音频编码方法400还包括:输出480所选择的编码格式的下混信号L1,L2、以及上混参数,从上混参数可得到与所选择的编码格式相关联的干上混系数和湿上混系数;以及输出490指示所选择的编码格式的信令S。
图5是根据示例实施方式的用于将M通道音频信号编码为双通道下混信号和相关联的上混参数的音频编码方法500的流程图。音频编码方法500在本文中通过由参照图3描述的音频编码系统300执行的方法来举例说明。
与参照图4描述的音频编码方法400类似,音频编码方法500包括:接收410五通道音频信号L,LS,LB,TFL,TBL;根据编码格式F1,F2,F3中的第一编码格式,基于五通道音频信号L,LS,LB,TFL,TBL来计算420双通道下混信号L1,L2;根据编码格式确定430干上混系数βL集;以及根据编码格式计算440差ΔL。音频编码方法500还包括确定560湿上混系数γL集,湿上混系数γL与编码格式的干上混系数βL一起允许M通道音频信号的根据式(2)的参数重构。音频编码方法500包括:确定550是否对于编码格式F1,F2,F3中的每一个计算了湿上混系数γL和干上混系数βL。只要对于至少一种编码格式仍然要计算湿上混系数γL和干上混系数βL,则音频编码方法500返回至根据下一个编码格式计算420下混信号L1,L2,这由流程图中的N来指示。
如果由流程图中的Y所指示的已经对于编码格式F1,F2,F3中的每一个计算了湿上混系数γL和干上混系数βL,则音频编码方法500继续进行为:基于相应的计算的湿上混系数γL和干上混系数βL来选择570编码格式F1,F2,F3之一;输出480所选择的编码格式的下混信号L1,L2、以及上混参数,从上混参数可得到与所选择的编码格式相关联的干上混系数βL和湿上混系数γL;以及输出490指示所选择的编码格式的信令。
图9是根据示例实施方式的用于基于双通道下混信号和相关联的上混参数αL重构M通道音频信号的解码部900的一般性框图。
在本示例实施方式中,下混信号通过由参照图1描述的编码部100输出的下混信号L1,L2举例说明。在本示例实施方式中,由编码部100输出且适用于五通道音频信号L,LS,LB,TFL,TBL的参数重构的干上混参数βL和湿上混参数γL可从上混参数αL中得到。然而,也可以设想以下实施方式,其中,上混参数αL适用于M通道音频信号的参数重构,其中M=4或M≥6。
解码部900包括预去相关部910、去相关部920和混合部930。预去相关部910基于在编码器侧被采用来对五通道音频信号L,LS,LB,TFL,TBL进行编码的所选择的编码格式来确定预去相关系数集合。如下面参照图10所述,可以经由来自编码器侧的信令来指示所选择的编码格式。预去相关部910将去相关输入信号D1,D2,D3计算为下混信号L1,L2的线性映射,其中,预去相关系数组被应用于下混信号L1,L2
去相关部920基于去相关输入信号D1,D2,D3生成去相关信号。去相关信号在本文中由三通道举例说明,均通过在去相关部920的去相关器921至923中对去相关输入信号的通道之一进行处理而生成,该处理例如包括将线性滤波器应用于去相关输入信号D1,D2,D3的各自通道。
混合部930基于所接收的上混参数αL和在编码器侧被采用来对五通道音频信号L,LS,LB,TFL,TBL进行编码的选择的编码格式来确定湿上混系数γL集和干上混系数βL集。混合部930根据式(2)执行五通道音频信号L,LS,LB,TFL,TBL的参数重构,即,混合部930将干上混信号计算为下混信号L1,L2的线性映射,其中,所述干上混系数βL集被应用于下混信号L1,L2;将湿上混信号计算为去相关信号的线性映射,其中,湿上混系数γL集被应用于去相关信号;以及组合干上混信号和湿上混信号以获得与要重构的五通道音频信号L,LS,LB,TFL,TBL对应的多维重构信号
Figure BDA0002530742420000331
在一些示例实施方式中,接收的上混参数αL可以本身就包括湿上混系数和干上混系数βLL,或者可以对应于较紧凑的形式,基于所使用的特定紧凑形式的知识而包括与在解码器侧从上混参数αL可以得到湿上混系数γL和干上混系数βL的湿上混系数γL和干上混系数βL的数量相比较少的参数。
图11示出了在下混信号L1,L2表示根据参照图6描述的第一编码格式F1的五通道音频信号L,LS,LB,TFL,TBL的示例场景中参照图9描述的混合部930的操作。应当理解,混合部930的操作可以与在下混信号L1,L2表示根据第二编码格式F2和第三编码格式F3中的任意编码格式的五通道音频信号L,LS,LB,TFL,TBL的示例场景中的类似。特别地,混合部930可以暂时激活将马上描述的上混部和组合部的另外的实例,以实现两种编码格式之间的交叉衰落,这可能需要所计算的下混信号的同时可用性。
在本示例场景中,下混信号的第一通道L1表示三个通道L,LS,LB,并且下混信号的第二通道L2表示两个通道TFL,TBL。预去相关部910将预去相关系数确定成:使得基于下混信号的第一通道L1生成去相关信号的两个通道;以及使得基于下混信号的第二通道L2生成去相关信号的一个通道。
第一干上混部931提供三通道干上混信号X1作为下混信号的第一通道L1的线性映射,其中,从接收的上混参数αL可得到的干上混系数的子集被应用于下混信号的第一通道L1。第一湿上混部932提供三通道湿上混信号Y1作为去相关信号的两个通道的线性映射,其中,从接收的上混参数αL可得到的湿上混系数的子集被应用于去相关信号的两个通道。第一组合部933将第一干上混信号X1和第一湿上混信号Y1组合成通道L,LS,LB的重构版本
Figure BDA0002530742420000332
类似地,第二干上混部934提供双通道干上混信号X2作为下混信号的第二通道L2的线性映射,并且第二湿上混部935提供双通道湿上混信号Y2作为去相关信号的一个通道的线性组合。第二组合部936将第二干上混信号X2和第二湿上混信号Y2组合成通道TFL,TBL的重构版本
Figure BDA0002530742420000341
图10是根据示例实施方式的包括参照图9描述的解码部900的音频解码系统1000的一般性框图。例如包括解复用器的接收部1001接收从参照图3描述的音频编码系统300发送的比特流B,并且从比特流B中提取下混信号L1,L2、另外的下混信号R1,R2和上混参数α以及通道C和LFE。上混参数α可以例如包括与要重构的11.1通道音频信号L,LS,LB,TFL,TBL,R,RS,RB,TFR,TBR,C,LFE的左手边和右手边分别相关联的第一子集αL和第二子集αR
在使用感知音频编解码器如杜比数字、MPEG AAC或其演变将下混信号L1,L2、另外的下混信号R1,R2和/或通道C和LFE编码在比特流B中的情况下,音频解码系统1000可以包括核心解码器(图10中未示出),其被配置成当从比特流B提取时对各个信号和通道进行解码。
变换部1002通过执行逆MDCT来变换下混信号L1,L2,并且QMF分析部1003将下混信号L1,L2变换为QMF域以供解码部900以时间片/频率片的形式对下混信号L1,L2进行处理。去量化部1004在将第一子集αL的上混参数提供给解码部900之前,对例如熵编码格式的第一子集αL的上混参数进行去量化。如参照图3所述,可以使用两种不同步长之一例如0.1或0.2执行量化。所采用的实际步长可以被预定义,或者可以从编码器侧例如经由比特流B用信号传递给音频解码系统1000。
在本示例实施方式中,音频解码系统1000包括与解码部900类似的另外的解码部1005。另外的解码部1005被配置成:接收参照图3描述的另外的双通道下混信号R1,R2和第二子集αR的上混参数,并且基于另外的下混信号R1,R2和第二子集αR的上混参数提供另外的五通道音频信号R,RS,RB,TFR,TBR的重构版本
Figure BDA0002530742420000342
变换部1006通过执行逆MDCT来变换另外的下混信号R1,R2,并且QMF分析部1007将另外的下混信号R1,R2变换为QMF域以供另外的解码部1005以时间片/频率片的形式对另外的下混信号R1,R2进行处理。去量化部1008在将第二子集αR的上混参数提供给另外的解码部1005之前,对例如熵编码格式的第二子集αR的上混参数进行去量化。
在在编码器侧修剪增益被应用于下混信号L1,L2、另外的下混信号R1,R2和的通道C的示例实施方式中,可以在音频解码系统1000中将例如与8.7dB对应的相应的增益应用于这些信号以补偿修剪增益。
控制部1009接收指示在编码器侧被采用来将11.1通道音频信号编码为下混信号L1,L2和另外的下混信号R1,R2以及相关联的上混参数α的编码格式F1,F2,F3中的所选择的一种编码格式的信令S。控制部1009控制解码部900(例如解码部900中的去相关部910和混合部920)和另外的解码部(1005)来根据指示的编码格式执行参数重构。
在本示例实施方式中,由解码部900和另外的解码部1005分别输出的五通道音频信号L,LS,LB,TFL,TBL和另外的五通道音频信号R,RS,RB,TFL,TBL的重构版本在与通道C和LFE一起被提供为音频解码系统1000的输出以用于多扬声器系统1012上的回放的之前,由QMF合成部1011从QMF域变换回来。在通道C和LFE被包括在音频解码系统1000的输出中之前,变换部1010通过执行逆MDCT将通道C和LFE变换成时域。
通道C和LFE可以例如以离散编码的形式从比特流B中提取,并且音频解码系统1000可以例如包括被配置成对相应的离散编码通道进行解码的单通道解码部(图10中未示出)。单通道解码部可以例如包括用于使用感知音频编解码器如杜比数字、MPEG AAC或其演变对编码的音频内容进行解码的核心解码器。
在本示例实施方式中,预去相关系数由预去相关部910被确定成使得在编码格式F1,F2,F3中的每一种下,去相关输入信号D1,D2,D3的通道的每一个根据表1与下混信号L1,L2的通道一致。
Figure BDA0002530742420000351
从表1可以看出,在所有三种编码格式F1,F2,F3中通道TBL经由下混信号L1,L2对去相关输入信号的第三通道D3产生贡献,而在编码格式中的至少两种编码格式中通道对LS,LB和通道对TFL,TBL中的每一对分别经由下混信号L1,L2对去相关输入信号的第三通道D3产生贡献。
表1示出了在两种编码格式中通道L和TFL中的每一个分别经由下混信号L1,L2对去相关输入信号的第一通道D1产生贡献,并且在编码格式中的至少两种编码格式中通道对LS,LB经由下混信号L1,L2对去相关输入信号的第一通道D1产生贡献。
表1还示出了在第二编码格式F2和第三编码格式F3两者中三个通道LS,LB,TBL经由下混信号L1,L2对去相关输入信号的第二通道D2产生贡献,而在所有三种编码格式F1,F2,F3中通道对LS,LB经由下混信号L1,L2对去相关输入信号的第二通道D2产生贡献。
当指示的编码格式在不同的编码格式之间切换时,去相关器921至923的输入改变。在本示例实施方式中,在切换期间去相关输入信号D1,D2,D3的至少一些部分将被保持,即,在编码格式F1,F2,F3中的两种之间的任意切换中五通道音频信号L,LS,LB,TFL,TBL中的至少一个通道将保持在去相关输入信号D1,D2,D3的每个通道中,这允许如由收听者在重构的M通道音频信号的回放期间感知的编码格式之间的较平滑的转变。
发明人认识到,由于去相关信号可能基于下混信号L1,L2的与在其期间可能发生编码格式的切换的若干时间帧对应的区段来生成,所以由于编码格式的切换在去相关信号中可能潜在地生成可听见的失真。即使响应于编码格式之间的转变对湿上混系数γL和干上混系数βL进行插值,在去相关信号中引起的失真仍然可能存留在重构的五通道音频信号L,LS,LB,TFL,TBL中。假设根据表1的去相关输入信号D1,D2,D3可以抑制由编码格式的切换引起的去相关信号中的可听见的失真,并且可以提高重构的五通道音频信号L,LS,LB,TFL,TBL的回放质量。
尽管表1依据编码格式F1,F2,F3表示,针对所述编码格式F1,F2,F3下混信号L1,L2的通道分别被生成为第一组通道之和和第二组通道之和,但是当下混信号的通道分别被形成为第一组通道的线性组合和第二组通道的线性组合时,可以例如采用预去相关系数的相同值,使得去相关输入信号D1,D2,D3的通道根据表1与下混信号L1,L2的通道一致。应当理解,当下混信号的通道分别被形成为第一组通道的线性组合和第二通道组的线性组合时,也可以以该方式提高重构的五通道音频信号的回放质量。
为了进一步提高重构的五通道音频信号的回放质量,可以例如响应于编码格式的切换来执行预去相关系数的值的插值。在第一编码格式F1下,去相关输入信号D1,D2,D3可以被确定为
Figure BDA0002530742420000371
而在第二编码格式F2中,去相关输入信号D1,D2,D3可以被确定为
Figure BDA0002530742420000372
响应于从第一编码格式F1到第二编码格式F2的切换,可以例如在式(3)中的预去相关矩阵与式(4)中的预去相关矩阵之间执行连续或线性插值。
式(3)和(4)中的下混信号L1,L2可以例如在QMF域中,并且当在编码格式之间切换时,可以在例如32个QMF时隙期间对在编码器侧被采用以根据式(1)计算下混信号L1,L2的下混系数进行插值。预去相关系数(或矩阵)的插值可以例如与下混系数的插值同步,例如,预去相关系数(或矩阵)的插值可以在相同的32个QMF时隙期间执行。预去相关系数的插值可以例如是例如用于由音频解码系统1000解码的所有频带的宽带插值。
干上混系数βL和湿上混系数γL也可以被插值。可以例如经由来自编码器侧的信令S来控制干上混系数βL和湿上混系数γL的插值以提高转变处理。在编码格式的切换的情况下,在编码器侧选择的用于在解码器侧对干上混系数βL和湿上混系数γL进行插值的插值方案可以例如是适用于编码格式的切换的插值方案,其可以与在未发生编码格式的切换时用于干上混系数和湿上混系数的插值方案不同。
在一些示例实施方式中,与在另外的解码部1005中相比,在解码部900中可以采用至少一种不同的插值方案。
图12是根据示例实施方式的用于基于双通道下混信号和相关联的上混参数重构M通道音频信号的音频解码方法1200的流程图。解码方法1200在本文中通过可以由参照图10描述的音频解码系统1000执行的解码方法举例说明。
音频解码方法1200包括:接收1201双通道下混信号L1,L2和用于基于下混信号L1,L2进行参照图6至图8描述的五通道音频信号L,LS,LB,TFL,TBL的参数重构的上混参数αL;接收1202指示参照图6至图8描述的编码格式F1,F2,F3中选择的一种的信令S;以及基于所指示的编码格式确定1203预去相关系数集合。
音频解码方法1200包括检测1204所指示的格式是否从一种编码格式切换至另一编码格式。如果没有检测到切换——由流程图中的N指示,则下一步骤是将去相关输入信号D1,D2,D3计算1205为下混信号L1,L2的线性映射,其中,预去相关系数集合被应用于下混信号。另一方面,如果检测到编码格式的切换——由流程图中的Y指示,则下一步骤是以从一种编码格式的预去相关系数值到另一编码格式的预去相关系数值的逐渐转变的形式执行1206插值,以及然后使用插值的预去相关系数值来计算1205去相关输入信号D1,D2,D3
音频解码方法1200包括基于去相关输入信号D1,D2,D3生成1207去相关信号,并且基于所接收的上混参数和所指示的编码格式来确定1208湿上混系数γL集和干上混系数βL集。
如果没有检测到编码格式的切换——由来自判定框1209的分支N指示,则方法1200继续为:将干上混信号计算1210为下混信号的线性映射,其中,干上混系数βL集被应用于下混信号L1,L2;并且将湿上混信号计算1211为去相关信号的线性映射,其中,湿上混系数γL集被应用于去相关信号。另一方面,如果指示的编码格式从一种编码格式切换至另一编码格式——由来自判定框1209的分支Y指示,则该方法代替地继续为:执行1212从适用于一种编码格式的干上混系数和湿上混系数(包括零值系数)的值到适用于另一种编码格式的干上混系数和湿上混系数(包括零值系数)的值的插值;将干上混信号计算1210为下混信号L1,L2的线性映射,其中,经插值的干上混系数集合被应用于下混信号L1,L2;并且将湿上混信号计算1211为去相关信号的线性映射,其中,经插值的湿上混系数集合被应用于去相关信号。该方法还包括:组合1213干上混信号和湿上混信号,以获得与要重构的五通道音频信号对应的多维重构信号
Figure BDA0002530742420000381
图13是根据示例实施方式的用于基于5.1通道音频信号和相关联的上混参数α重构13.1通道音频信号的解码部1300的一般性框图。
在本示例实施方式中,13.1通道音频信号由通道LW(左宽)、LSCRN(左屏幕)、TFL(左前上方)、LS(左侧)、LB(左后)、TBL(左后上方)、RW(右宽)、RSCRN(右屏幕)、TFR(右前上方)、RS(右侧)、RB(右后)、TBR(右后上方)、C(中心)和LFE(低频效果)。5.1通道信号包括:下混信号L1,L2,其第一通道L1与通道LW,LSCRN,TFL的线性组合对应,并且其第二通道L2与通道LS,LB,TBL的线性组合对应;另外的下混信号R1,R2,其第一通道R1与通道RW,RSCRN,TFR的线性组合对应,并且其第二通道R2与通道RS,RB,TBR的线性组合对应;以及通道C和LFE。
第一上混部1310在上混参数的至少一些的控制下基于下混信号的第一通道L1来重构通道LW、LSCRN和TFL;第二上混部1320在上混参数α的至少一些的控制下基于下混信号的第二通道L2来重构通道LS,LB,TBL;第三上混部1330在上混参数α的至少一些的控制下基于另外的下混信号的第一通道R1来重构通道RW,RSCRN,TFR,并且第四上混部1340在上混参数α的至少一些的控制下基于下混信号的第二通道R2来重构通道RS,RB,TBR。13.1通道音频信号的重构版本
Figure BDA0002530742420000391
可以被提供为解码部1310的输出。
在示例实施方式中,参照图10描述的音频解码系统1000除解码部900和1005之外还可以包括解码部1300,或者可以至少能够通过与由解码部1300执行的方法类似的方法来重构13.1通道信号。从比特流B提取的信令S可以例如指示所接收的5.1通道音频信号L1,L2,R1,R2,C,LFE和相关联的上混参数是否表示如参照图10描述的11.1通道信号,或者所接收的5.1通道音频信号L1,L2,R1,R2,C,LFE和相关联的上混参数是否表示如参照图13描述的13.1通道音频信号。
控制部1009可以检测所接收的信令S是指示11.1通道配置还是指示13.1通道配置,并且可以控制音频解码系统1000的其他部分执行如参照图10描述的11.1通道音频信号的参数重构或如参照图13描述的13.1通道音频信号的参数重构。对于13.1通道配置可以例如采用单个编码格式,而非如对于11.1通道配置的两种或三种编码格式。在信令S指示13.1通道配置的情况下,编码格式因此可以被隐含地指示,并且信令S不需要明确地指示所选择的编码格式。
应当理解,尽管根据参照图6至图8描述的11.1通道音频信号来制定参照图1至图5描述的示例实施方式,但是可以设想以下编码系统,其可以包括任意数量的编码部,并且其可以被配置成对任意数量的M个通道音频信号进行编码,其中M≥4。类似地,应当理解,尽管根据参照图6至图8描述的11.1通道音频信号来制定参照图9至图12描述的示例实施方式,但是可以设想以下解码系统,其可以包括任意数量的解码部,并且其可以被配置成重构任意数量的M通道音频信号,其中M≥4。
在一些示例实施方式中,编码器侧可以在所有三种编码格式F1,F2,F3之间进行选择。在其他示例实施方式中,编码器侧可以在仅两种编码格式例如第一编码格式F1和第二编码格式F2之间进行选择。
图14是根据示例实施方式的用于将M通道音频信号编码为双通道下混信号以及相关联的干上混系数和湿上混系数的编码部1400的一般性框图。编码部1400可以被布置在图3所示类型的音频编码系统中。更准确地说,它可以被布置在由编码部100占据的位置中。如当描述所示部件的内部工作时将变得清楚的,编码部1400可以以两种不同的编码格式操作;然而,可以在不脱离本发明的范围的情况下实现能够以三种或更多种编码格式操作的类似的编码部。
编码部1400包括下混部1410和分析部1420。对于可以是参照图6至图7描述的编码格式之一或者可以是不同的格式的编码格式F1,F2中的至少选择的一种(参见编码部1400的控制部1430的下文描述),下混部1410根据编码格式基于五通道音频信号L,LS,LB,TFL,TBL计算双通道下混信号L1,L2。在例如第一编码格式F1中,下混信号的第一通道L1形成为五通道音频信号L,LS,LB,TFL,TBL的第一组通道的线性组合(例如,五通道音频信号L,LS,LB,TFL,TBL的第一组通道之和),并且下混信号的第二通道L2形成为五通道音频信号L,LS,LB,TFL,TBL的第二组通道的线性组合(例如,五通道音频信号L,LS,LB,TFL,TBL的第二组通道之和)。由下混部1410执行的操作可以例如表示为式(1)。
对于编码格式F1,F2中的至少所述选择的一种,分析部1420确定限定近似五通道音频信号L,LS,LB,TFL,TBL的相应下混信号L1,L2的线性映射的干上混系数βL集合。对于编码格式F1,F2中的每一个,分析部1420基于各自的计算的差进一步确定湿上混系数γL集合,湿上混系数γL与干上混系数βL一起允许从下混信号L1,L2以及从在解码器侧基于下混信号L1,L2确定的三通道去相关信号来进行五通道音频信号L,LS,LB,TFL,TBL的根据式(2)的参数重构。湿上混系数集合γL限定去相关信号的线性映射,使得通过去相关信号的线性映射获得的信号的协方差矩阵近似如接收的五通道音频信号L,LS,LB,TFL,TBL的协方差矩阵与通过下混信号L1,L2的线性映射近似的五通道音频信号的协方差矩阵之间的差。
下混部1410可以例如在时域中即基于五通道音频信号L,LS,LB,TFL,TBL的时域表示来计算下混信号L1,L2,或在频域中即基于五通道音频信号L,LS,LB,TFL,TBL的频域表示来计算下混信号L1,L2。至少在对编码格式的决定不是频率选择性并且因此适用于M通道音频信号的所有频率分量的情况下,可以在时域中计算L1,L2;这是当前优选的情况。
分析部1420可以例如基于五通道音频信号L,LS,LB,TFL,TBL的频域分析来确定干上混系数βL和湿上混系数γL。频域分析可以在M通道音频信号的窗口部分上执行。对于窗口,可以例如使用不相交的矩形或交叠的三角形窗口。出于确定干上混系数βL和湿上混系数γL的特定目的,分析部1420可以例如接收由下混部1410(图14中未示出)计算的下混信号L1,L2,或者可以计算其自身版本的下混信号L1,L2
编码部1400还包括控制部1430,其负责选择当前使用的编码格式。控制部1430利用特定标准或特定理由来决定要选择的编码格式不是必须的。由控制部1430生成的信令S的值指示控制部1430对M通道音频信号的当前考虑部分(例如,时间帧)的决策的结果。信令S可以被包括在由其中包括编码部1400的编码系统300产生的比特流B中,以便于编码音频信号的重构。此外,信令S被馈送到下混部1410和分析部1420中的每一个,以通知这些部分要使用的编码格式。与分析部1420类似,控制部1430可以考虑M通道信号的窗口部分。出于完整性注意到,下混部1410可以相对于控制部1430以1帧或2帧的延迟和可能的另外的前瞻进行操作。可选地,信令S还可以包含下混部1410产生的与下混信号的交叉衰落相关的信息和/或分析部1420提供的与干上混系数和湿上混系数的离散值的解码器侧插值相关的信息,以便确保子帧时间尺度上的同步性。
作为可选部件,编码部1400可以包括稳定器1440,其紧邻控制部1430的下游布置,并且在控制部1430的输出信号被其他部件处理之前立即作用于控制部1430的输出信号。基于该输出信号,稳定器1440将边信息S提供给下游部件。稳定器1440可以实现不过于频繁地改变所选择的编码格式的期望目的。为此,稳定器1440可以考虑针对M通道音频信号的过去时间帧的大量代码格式选择,并且确保所选择的编码格式被保持多达至少预定义数量的时间帧。可替选地,稳定器可以对多个过去的编码格式选择(例如,表示为离散变量)应用平均滤波器,这可以产生平滑效果。作为另一替选方案,稳定器1440可以包括状态机,其被配置成如果状态机确定由控制部1430提供的编码格式选择贯穿移动时间窗口保持稳定,则为移动时间窗口中的所有时间帧提供边信息S。移动时间窗口可以与存储多个过去时间帧的编码格式选择的缓冲器对应。如研究本公开内容的技术人员容易实现的,这样的稳定功能可能需要伴随有稳定器1440与至少下混部1410和分析部1420之间的操作延迟的增加。该延迟可以借助于M通道音频信号的缓冲部来实现。
需注意的是,图14是图3中的编码系统的局部视图。尽管图14所示的部件仅涉及左侧通道L,LS,LB,TFL,TBL的处理,但是编码系统也处理至少右侧通道R,RS,RB,TFR,TBR。例如,编码部1400的另外的实例(例如,功能上等同的副本)可以并行操作,以对包括所述通道R,RS,RB,TFR,TBR的右侧信号进行编码。尽管左侧通道和右侧通道对两个分离的下混信号(或至少对公共下混信号的分离的通道组产生贡献)产生贡献,但是优选使用所有通道的公共编码格式。也就是说,左侧编码部1400内的控制部1430可以负责决定用于左侧通道和右侧通道两者的公共编码格式;那么优选地,控制部1430也访问右侧通道R,RS,RB,TFR,TBR,或者访问从这些信号得到的量如协方差、下混信号等,并且可以在决定要使用的编码格式时考虑这些。然后,信令S不仅被提供给(左侧)控制部1430的下混部1410和分析部1420,而且还提供给右侧编码部(未示出)的等效部分。可替选地,可以通过使控制部1430本身对于编码部1400的左侧实例和其右侧实例都是公共的来实现对所有通道使用公共编码格式的目的。在图3所示类型的布局中,编码部1430可以设置在分别负责左侧通道和右侧通道的编码部100和另外的编码部303两者外部,以接收所有左侧通道L,LS,LB,TFL,TBL和右侧通道R,RS,RB,TFR,TBR并且输出信令S,所述信令S指示编码格式的选择并且至少被提供给编码部100和另外的编码部303。
图15示意性地示出了下混部1410的可能实现,其被配置成根据信令S在两个预定义编码格式F1,F2之间交替并且提供这些编码格式的交叉衰落。下混部1410包括两个下混子部1411,1412,其被配置成接收M通道音频信号并且输出两通道下混信号。两个下混子部1411,1412尽管配置有不同的下混设置(例如,用于基于M通道音频信号产生下混信号L1,L2的系数值),但仍可以是一个设计的功能上等同的副本。在正常操作中,两个下混子部1411,1412一起根据第一编码格式F1提供一个下混信号L1(F1),L2(F1)以及/或者根据第二编码格式F2提供一个下混信号L1(F2),L2(F2)。下混子部1411,1412的下游设置有第一下混插值部1413和第二下混插值部1414。第一下混插值部1413被配置成对下混信号的第一通道L1进行插值(包括交叉衰落),并且第二下混插值部1414被配置成对下混信号的第二通道L2进行插值(包括交叉衰落)。第一下混插值部1413可以在至少以下状态中进行操作:
a)仅第一编码格式(L1=L1(F1)),如可以在第一编码格式下的稳态操作中使用的;
b)仅第二编码格式(L1=L1(F2)),如可以在第二编码格式下的稳态操作中使用的;以及
c)根据两种编码格式的混合的下混通道(L1=α1L1(F1)+α2L1(F2),其中0<α1<1和0<α2<1),如可以在从第一编码格式到第二编码格式的转变或者从第二编码格式到第一编码格式的转变中使用的。混合状态(c)可以要求下混信号可从第一下混子部1411和第二下混子部1412两者获得。优选地,第一下混插值部1413可以在多种混合状态(c)下操作,使得精细子步骤中的转变,或甚至准连续的交叉衰落是可行的。这具有使交叉衰落较不可感知的优点。例如,在α12=1的插值器设计中,如果(α12)的以下值被定义为:(0.2,0.8)、(0.4,0.6)、(0.6,0.4)、(0.8,0.2),则五步交叉衰落是可行的。第二下混插值部1414可以具有相同或相似的能力。
在上述混合部1410的实施方式的变形例中,如由图15中的虚线所示,信令S也可以被馈送到第一下混子部1411和第二下混子部1412。如上面解释的,然后可以抑制与未选择的编码格式相关联的下混信号的生成。这会降低平均计算负荷。
该变化另外地或可替代地,两种不同编码格式的下混信号之间的交叉衰落可以通过使下混系数交叉衰落来实现。第一下混子部1411然后可以被馈送有经插值的下混系数并且接收信令S作为输入,所述经插值的下混系数由存储要在可用编码格式F1,F2中使用的下混系数的预定义值系数插值器(未示出)产生。在该配置中,所有第二下混子部1412以及第一插值子部1413和第二插值子部1414可以被消除或永久地去激活。
下混部1410接收的信令S至少被提供给下混插值部1413,1414,但不一定提供给下混子部1411,1412。如果期望交替操作,即如果在编码格式之间的转变之外要减少下混合的冗余量,则需要将信令S提供给下混子部1411,1412。信令可以是例如参考下混插值部1413,1414的不同操作模式的低级命令,或者可以涉及高级指令,如在指定的起点处执行预定义交叉衰落程序的命令(例如,各自具有预定义持续时间的一系列操作模式)。
转到图16,示出了被配置成根据信令S在两个预定义编码格式F1,F2之间交替的分析部1420的可能实现。分析部1420包括被配置成接收M通道音频信号并输出干上混系数和湿上混系数的两个分析子部1421,1422。两个分析子部1421,1422可以是一个设计的功能上等同的副本。在正常操作中,两个分析子部1421,1422一起提供根据第一编码格式F1的一个干上混系数βL(F1)和湿上混系数γL(F1)集合以及/或者提供根据第二编码格式F2的一个干上混系数βL(F2)和湿上混系数γL(F2)集合。
如上文对于分析部1420整体所解释的,可以从下混部1410接收当前的下混信号,或者可以在分析部1420中产生该信号的副本。更准确地说,第一分析子部1421可以从下混部1410中的第一下混子部1411接收根据第一编码格式F1的下混信号L1(F1),L2(F1),或者可以自己产生一个副本。类似地,第二分析子部1422可以从第二下混子部1412接收根据第二编码格式F2的下混信号L1(F2),L2(F2),或者可以自己产生该信号的副本。
分析部1421,1422的下游布置有干上混系数选择器1423和湿上混系数选择器1424。干上混系数选择器1423被配置成从第一分析子部1421或第二分析子部1422中转发干上混系数βL集合,并且湿上混系数选择器1424被配置成从第一分析子部1421或第二分析子部1422转发湿上混系数γL集合。干上混系数选择器1423可以在至少上面针对第一下混插值部1413所讨论的状态(a)和(b)下进行处理。然而,如果图3的编码系统——其一部分在此被描述——被配置成与解码系统协作,所述解码系统像图9所示的解码系统一样基于其接收的上混系数的插值离散值执行参数重构,则不需要配置如针对下混插值部1413,1414所限定的混合状态(c)。湿上混系数选择器1424可以具有类似的功能。
分析部1420接收的信令S至少被提供给湿上混系数选择器1423和干上混系数选择器1424。分析子部1421,1422不需要接收信令,尽管这有利于避免转变之外的上混系数的冗余计算。信令可以是例如参考干上混系数选择器1423和湿上混系数选择器1424的不同操作模式的低级命令,或者可以涉及高级指令,如在给定时间帧内从一种编码格式转变到另一种编码格式的命令。如上所述,这优选地不涉及交叉衰落操作,但是可以相当于对合适的时间点限定上混系数的值,或者限定这些值在合适的时间点处应用。
现在将描述根据示例实施方式的作为用于将M通道音频信号编码为双通道下混信号的方法的变型的方法1700,其被示意性地示出为图17中的流程图。在此所举例说明的方法可以由包括上面参照图14至图16描述的编码部1400的音频编码系统来执行。
音频编码方法1700包括:接收1710M通道音频信号L,LS,LB,TFL,TBL;选择1720参照图6至图8描述的编码格式F1,F2,F3中的至少两种之一;针对选择的编码格式基于M通道音频信号L,LS,LB,TFL,TBL计算1730双通道下混信号L1,L2;输出1740所选择的编码格式的下混信号L1,L2和基于下混信号实现M通道音频信号的参数重构的边信息;并且输出1750指示所选择的编码格式的信令S。该方法例如针对M通道音频信号的每个时间帧重复。如果选择1720的结果是与紧接着之前所选择的编码格式不同的编码格式,则下混信号在合适的持续时间内通过根据先前的及当前的编码格式的下混信号之间的交叉衰落来代替。如已经讨论的,不需要或不可能对可能经受固有的解码器侧插值的边信息进行交叉衰落。
注意,在此描述的方法可以在没有图4所示的四个步骤430、440、450和470中的一个或更多个的情况下实现。
四、等同、扩展、替选和其他
即使本公开内容描述和示出了具体示例实施方式,但是本发明不限于这些具体示例。在不脱离由仅所附权利要求限定的本发明的范围的情况下,可以对上述示例实施方式进行修改和变化。
在权利要求中,“包括(comprising)”一词并不排除其他元件或步骤,并且不定冠词“一(a)”或“一个(an)”不排除多个。在相互不同的从属权利要求中记载某些措施的事实并不指示这些措施的组合不能有利地使用。权利要求中出现的任何附图标记不应被理解为限制其范围。
以上公开的装置和方法可以被实现为软件、固件、硬件或其组合。在硬件实现中,在上述描述中提及的功能单元之间的任务划分不一定与物理单元的划分对应;相反,一个物理部件可以具有多个功能,并且一个任务可以通过合作的几个物理部件以分布式方式来执行。某些部件或所有部件可以被实现为由数字处理器、信号处理器或微处理器执行的软件,或被实现为硬件或专用集成电路。这样的软件可以分布在可以包括计算机存储介质(或非暂态介质)和通信介质(或暂态介质)的计算机可读介质上。如本领域技术人员所熟知的,术语“计算机存储介质”包括以用于存储如计算机可读指令、数据结构、程序模块或其他数据的信息的任意方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁存储这种或者可用于存储所需信息并可由计算机访问的任何其他介质。此外,本领域技术人员众所周知的是,通信介质通常在如载波或其他传输机制的调制数据信号中体现计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传递介质。
本公开内容还包括以下方案。
1.一种音频解码方法(1200),包括:
接收(1201)双通道下混信号(L1,L2)和用于基于所述下混信号进行M通道音频信号(L,LS,LB,TFL,TBL)的参数重构的上混参数(αL),其中M≥4;
接收(1202)指示所述M通道音频信号的至少两种编码格式(F1,F2,F3)中的所选择的一种编码格式的信令(S),所述编码格式与各个不同划分对应,所述划分将所述M通道音频信号的通道分到相应的第一组和第二组(601,602)的一个或更多个通道中,其中,在所指示的编码格式下,所述下混信号的第一通道与所述M通道音频信号的第一组的一个或更多个通道的线性组合对应,并且所述下混信号的第二通道与所述M通道音频信号的第二组的一个或更多个通道的线性组合对应;
基于所指示的编码格式确定(1203)预去相关系数集合;
将去相关输入信号(D1,D2,D3)计算(1205)为所述下混信号的线性映射,其中,所述预去相关系数集合被应用于所述下混信号;
基于所述去相关输入信号生成(1207)去相关信号;
基于所接收的上混参数和所指示的编码格式确定(1208)湿上混系数集合和干上混系数集合(γLL);
将干上混信号(X1,X2)计算(1210)为所述下混信号的线性映射,其中,所述干上混系数集合被应用于所述下混信号;
将湿上混信号(Y1,Y2)计算(1211)为所述去相关信号的线性映射,其中,所述湿上混系数集合被应用于所述去相关信号;以及
组合(1213)干上混信号和湿上混信号,以获得与要重构的所述M通道音频信号对应的多维重构信号
Figure BDA0002530742420000471
2.根据方案1所述的音频解码方法,其中M=5。
3.根据方案1所述的音频解码方法,其中,所述去相关输入信号和所述去相关信号各自包括M-2个通道,其中,基于所述去相关输入信号的不超过一个的通道生成所述去相关信号的通道,并且其中,所述预去相关系数被确定成使得在每种所述编码格式中,所述去相关输入信号的通道接收来自所述下混信号的不超过一个的通道的贡献。
4.根据前述方案中任一项所述的音频解码方法,其中,所述预去相关系数被确定成使得在所述编码格式的至少两种编码格式中,所述M通道音频信号的第一通道(TBL)经由所述下混信号对所述去相关输入信号的第一固定通道(D3)产生贡献。
5.根据方案4所述的音频解码方法,其中,所述预去相关系数被确定成使得另外地,在所述编码格式的至少两种编码格式中,所述M通道音频信号的第二通道(L)经由所述下混信号对所述去相关输入信号的第二固定通道(D1)产生贡献。
6.根据方案4至5中任一项所述的音频解码方法,其中,所接收的信令指示至少三种编码格式中的所选择的一种编码格式,并且其中,所述预去相关系数被确定成使得在所述编码格式的至少三种编码格式中,所述M通道音频信号的所述第一通道经由所述下混信号对所述去相关输入信号的所述第一固定通道产生贡献。
7.根据前述方案中任一项所述的音频解码方法,其中,所述预去相关系数被确定成使得在所述编码格式的至少两种编码格式中,所述M通道音频信号的通道对(LS,LB)经由所述下混信号对所述去相关输入信号的第三固定通道(D2)产生贡献。
8.根据前述方案中任一项所述的音频解码方法,还包括:
响应于检测到所指示的编码格式从第一编码格式到第二编码格式的切换,执行(1206)从与所述第一编码格式相关联的预去相关系数值到与所述第二编码格式相关联的预去相关系数值的逐渐转变。
9.根据前述方案中任一项所述的音频解码方法,还包括:
响应于检测到所指示的编码格式从第一编码格式到第二编码格式的切换,执行(1212)从与所述第一编码格式相关联的湿上混系数值和干上混系数值到与所述第二编码格式相关联的湿上混系数值和干上混系数值的插值。
10.根据方案9所述的音频解码方法,还包括接收指示用于湿上混参数和干上混参数的插值的多个插值方案之一的信令(S),以及采用所指示的插值方案。
11.根据前述方案中任一项所述的音频解码方法,其中,所述至少两种编码格式包括第一编码格式和第二编码格式,其中,在所述第一编码格式下控制所述M通道音频信号的通道对所述下混信号的通道所对应的所述线性组合之一的贡献的每个增益与在所述第二编码格式下控制所述M通道音频信号的所述通道对所述下混信号的通道所对应的所述线性组合之一的贡献的增益一致。
12.根据前述方案中任一项所述的音频解码方法,其中,所述M通道音频信号包括:表示所述M通道音频信号的回放环境中的不同水平方向的三个通道(L,LS,LB),以及表示与所述回放环境中的所述三个通道的方向垂直分离的方向的两个通道(TFL,TBL)。
13.根据方案12所述的音频解码方法,其中,在第一编码格式(F1)中,所述第二组包括所述两个通道。
14.根据方案12至13中任一项所述的音频解码方法,其中,在第一编码格式(F1)中,所述第一组包括所述三个通道,并且所述第二组包括所述两个通道。
15.根据方案12至14中任一项所述的音频解码方法,其中,在第二编码格式(F2)中,所述第一组和所述第二组中的每个组包括所述两个通道之一。
16.根据前述方案中任一项所述的音频解码方法,其中,在特定编码格式(F1,F2)中,所述第一组由N个通道组成,其中N≥3,并且其中,响应于所指示的编码格式为所述特定编码格式:
所述预去相关系数被确定成使得基于所述下混信号的所述第一通道生成所述去相关信号的N-1个通道;以及
所述干上混系数和所述湿上混系数被确定成使得所述第一组被重构为所述下混信号的第一通道和所述去相关信号的所述N-1个通道的线性映射,其中,所述干上混系数的子集被应用于所述下混信号的所述第一通道并且所述湿上混系数的子集被应用于所述去相关信号的所述N-1个通道。
17.根据方案16所述的音频解码方法,其中,所接收的上混参数包括湿上混参数和干上混参数,并且其中,确定所述湿上混系数集合和所述干上混系数集合包括:
基于所述干上混参数,确定所述干上混系数的所述子集;
基于所接收的湿上混参数来填充具有比所接收的湿上混参数的数量多的元素的中间矩阵,并且得知所述中间矩阵属于预定义矩阵类;以及
通过将所述中间矩阵乘以预定义矩阵来获得所述湿上混系数的所述子集,其中,所述湿上混系数的所述子集与由所述相乘得到的矩阵对应,并且包括比所述中间矩阵中的元素的数量更多的系数。
18.根据方案17所述的音频解码方法,其中,所述预定义矩阵和/或所述预定义矩阵类与所指示的编码格式相关联。
19.一种音频解码方法,包括:
接收指示至少两个预定义通道配置之一的信令(S);
响应于检测到指示第一预定义通道配置(L,LS,LB,TFL,TBL)的所接收的信令,执行前述方案中任一项所述的音频解码方法;以及
响应于检测到指示第二预定义通道配置(LW,LSCRN,TFL,LS,LB,TBL)的所接收的信令,
接收双通道下混信号(L1,L2)和相关联的上混参数(α),
基于所述下混信号的第一通道(L1)和所述上混参数中的至少一些上混参数来执行第一三通道音频信号(LW,LSCRN,TFL)的参数重构,以及
基于所述下混信号的第二通道(L2)和所述上混参数中的至少一些上混参数来执行第二三通道音频信号(LS,LB,TBL)的参数重构。
20.一种音频解码系统(1000),包括:
解码部(900),其被配置成基于双通道下混信号(L1,L2)和相关联的上混参数(αL)来重构M通道音频信号(L,LS,LB,TFL,TBL),其中M≥4;以及
控制部(1009),其被配置成接收指示所述M通道音频信号的至少两种编码格式(F1,F2,F3)中的所选择的一种编码格式的信令(S),所述编码格式与各个不同划分对应,所述划分将所述M通道音频信号的通道分到相应的第一组和第二组(601,602)的一个或更多个通道中,其中,在所指示的编码格式下,所述下混信号的第一通道与所述M通道音频信号的第一组的一个或更多个通道的线性组合对应,并且所述下混信号的第二通道与所述M通道音频信号的第二组的一个或更多个通道的线性组合对应,
其中,所述解码部包括:
预去相关部(910),其被配置成:基于所指示的编码格式来确定预去相关系数集合,并且将去相关输入信号(D1,D2,D3)计算为所述下混信号的线性映射,其中,所述预去相关系数集合被应用于所述下混信号;
去相关部(920),其被配置成基于所述去相关输入信号生成去相关信号;以及
混合部(930),其被配置成:
基于所接收的上混参数和所指示的编码格式来确定湿上混系数集合和干上混系数集合;
将干上混信号(X1,X2)计算为所述下混信号的线性映射,其中,所述干上混系数集合被应用于所述下混信号;
将湿上混信号(Y1,Y2)计算为所述去相关信号的线性映射,其中,所述湿上混系数集合被应用于所述去相关信号;以及
组合所述干上混信号和所述湿上混信号,以获得与要重构的所述M通道音频信号对应的多维重构信号
Figure BDA0002530742420000501
21.根据方案20所述的音频解码系统,还包括另外的解码部(1005),其被配置成基于另外的双通道下混信号(R1,R2)和相关联的另外的上混参数(αR)来重构另外的M通道音频信号(R,RS,RB,TFR,TBR),
其中,所述控制部被配置成接收指示所述另外的M通道音频信号的至少两种编码格式中的所选择的一种编码格式的信令(S),所述另外的M通道音频信号的编码格式与各个不同划分对应,所述划分将所述另外的M通道音频信号的通道分到相应的第一组和第二组(603,604)的一个或更多个通道中,其中,在所述另外的M通道音频信号的所指示的编码格式下,所述另外的下混信号的第一通道(R1)与所述另外的M通道音频信号的第一组的一个或更多个通道的线性组合对应,并且所述另外的下混信号的第二通道(R2)与所述另外的M通道音频信号的第二组的一个或更多个通道的线性组合对应,
其中,所述另外的解码部包括:
另外的预去相关部,其被配置成:基于所述另外的M通道音频信号的所指示的编码格式来确定另外的预去相关系数集合,并且将另外的去相关输入信号计算为所述另外的下混信号的线性映射,其中,所述另外的预去相关系数集合被应用于所述另外的下混信号;
另外的去相关部,其被配置成基于所述另外的去相关输入信号生成另外的去相关信号;以及
另外的混合部,其被配置成:
基于所接收的另外的上混参数和所述另外的M通道音频信号的所指示的编码格式来确定另外的湿上混系数集合和另外的干上混系数集合;
将另外的干上混信号计算为所述另外的下混信号的线性映射,其中,所述另外的干上混系数集合被应用于所述另外的下混信号;
将另外的湿上混信号计算为所述另外的去相关信号的线性映射,其中,所述另外的湿上混系数集合被应用于所述另外的去相关信号;以及
组合所述另外的干上混信号和所述另外的湿上混信号,以获得与要重构的所述另外的M通道音频信号对应的另外的多维重构信号
Figure BDA0002530742420000511
22.根据方案20至21中任一项所述的音频解码系统,还包括:
解复用器(1001),其被配置成从比特流(B)中提取所述下混信号、与所述下混信号相关联的所述上混参数和离散编码音频通道(C);以及
单通道解码部,其能够操作以对所述离散编码的音频通道进行解码。
23.一种音频编码方法(1700),包括:
接收(1710)M通道音频信号(L,LS,LB,TFL,TBL),其中M≥4;
重复地选择(1720)至少两种编码格式(F1,F2,F3)中的一种编码格式,所述编码格式与各个不同划分对应,所述划分将所述M通道音频信号的通道分到相应的第一组和第二组(601,602)的一个或更多个通道中,其中,每种编码格式定义双通道下混信号(L1,L2),其中,所述下混信号的第一通道(L1)被形成为所述M通道音频信号的第一组的一个或更多个通道的线性组合,并且其中,所述下混信号的第二通道(L2)被形成为所述M通道音频信号的第二组的一个或更多个通道的线性组合;
根据当前选择的编码格式,基于所述M通道音频信号来计算(1730)双通道下混信号(L1,L2);
输出(1740)所述当前选择的编码格式的下混信号,和使得能够基于下混信号进行所述M通道音频信号的参数重构的边信息;以及
输出(1750)指示所述当前选择的编码格式的信令(S),
其中,响应于从选择的第一编码格式到不同的选择的第二编码格式的改变,计算根据所述选择的第二编码格式的下混信号,并且输出根据所述选择的第一编码格式的下混信号和根据所述选择的第二编码格式的下混信号的交叉衰落来代替下混信号。
24.根据方案23所述的音频编码方法,还包括:对于所述当前选择的编码格式,根据所述选择的编码格式的下混信号和基于所述选择的编码格式的下混信号的至少一个通道确定的去相关信号,确定均包括在所述边信息中的干上混系数(βL)集合和湿上混系数(γL)集合,所述边信息使得能够进行所述M通道音频信号的参数重构。
25.根据方案24所述的音频编码方法,其中:
通过所述音频编码方法输出的所述下混信号被分割成时间帧;以及
所述边信息包括所述干上混系数集合和湿上混系数集合(βLL)的离散值,其中,输出每个时间帧的至少一个离散值。
26.根据方案25所述的音频编码方法,其中,所述离散值之间的所述M通道音频信号的参数重构将基于所述干上混系数集合和湿上混系数集合(βLL)的根据预定义插值规则的插值,其中,所述下混信号交叉衰落与所述干上混系数集合和所述湿上混系数集合的离散值以使得所述交叉衰落和插值同步的方式被输出。
27.根据方案24至26中任一项所述的音频编码方法,其中:
所述干上混系数集合限定近似所述M通道音频信号的相应下混信号的线性映射;以及
所述湿上混系数集合限定所述去相关信号的线性映射,使得通过所述去相关信号的所述线性映射获得的所述信号的协方差补充通过所述选择的编码格式的下混信号的线性映射所近似的所述M通道音频信号的协方差。
28.根据方案23至27中任一项所述的音频编码方法,还包括:
对于所述至少两种编码格式中的每一种,确定干上混参数集合,所述干上混参数集合限定近似所述M通道音频信号的相应下混信号的线性映射,
其中,所述选择所述编码格式之一包括:
对于每种所述编码格式,计算接收的所述M通道音频信号的协方差与通过由所述相应的干上混参数集合确定的所述线性映射所近似的所述M通道音频信号的协方差之间的差(ΔL),并且作用于相应下混信号;以及
基于各个计算的差来选择所述编码格式之一。
29.根据方案28所述的音频编码方法,
还包括确定湿上混参数集合,其限定基于所述选择的编码格式的下混信号的至少一个通道确定的去相关信号的线性映射,使得通过所述去相关信号的线性映射获得的信号的协方差近似于所接收的所述M通道音频信号的协方差与通过所选择的编码格式的下混信号的所述线性映射所近似的所述M通道音频信号的协方差之间的差,
其中,所选择的编码格式的所述干上混参数集合和所述湿上混参数集合被包括在所述边信息中,所述边信息使得能够根据所述选择的编码格式的下混信号和基于所选择的编码格式的下混信号的至少一个通道确定的所述去相关信号来进行所述M通道音频信号的参数重构。
30.根据方案23至27中任一项所述的音频编码方法,还包括:对于所述至少两种编码格式中的每一种编码格式,
确定干上混参数集合,所述干上混参数集合限定近似所述M通道音频信号的相应下混信号的线性映射;以及
确定湿上混系数集合(γL),所述湿上混系数与所述干上混系数一起允许根据所述下混信号和基于所述下混信号确定的去相关信号进行所述M通道音频信号的参数重构,其中,所述湿上混系数集合限定所述去相关信号的线性映射,使得通过所述去相关信号的线性映射获得的信号的协方差近似于所接收到的所述M通道音频信号的协方差与通过所述下混信号的线性映射所近似的所述M通道音频信号的协方差之间的差,
其中,所述选择所述编码格式之一包括比较各个所确定的湿上混系数集合的值。
31.根据方案30所述的音频编码方法,
还包括对于所述至少两种编码格式中的每一种编码格式,计算对应的湿上混系数的平方和以及对应的干上混系数的平方和,
其中,所述选择所述编码格式之一包括针对所述至少两种编码格式中的每一种比较各个计算的平方和的值。
32.根据方案31所述的音频编码方法,其中,所述选择所述编码格式之一包括:对于所述至少两种编码格式中的每一种编码格式,比较对应的湿上混系数的平方和与对应的干上混系数的平方和和对应的湿上混系数的平方和之和的比率的值。
33.根据方案23至32中任一项所述的音频编码方法,其中,所述M通道音频信号与至少一个另外的音频通道相关联,其中:
所述选择所述编码格式之一还考虑与所述至少一个另外的音频通道有关的数据;以及
所述选择的编码格式用于对所述M通道音频信号和所述另外的音频通道进行编码。
34.根据方案23至33中任一项所述的音频编码方法,其中,通过所述音频编码方法输出的所述下混信号被分割成时间帧,并且其中,所选择的编码格式在选择不同的编码格式之前被保持多达至少预定数量的时间帧。
35.根据方案24至32中任一项所述的音频编码方法,其中,在所述选择的编码格式下,所述M通道音频信号的第一组的一个或更多个通道由N个通道组成,其中N≥3,所述第一组的一个或更多个通道能够通过应用所述湿上混系数和所述干上混系数中的至少一些来根据所述下混信号的第一通道和所述去相关信号的N-1个通道来重构,
其中,确定所述选择的编码格式的干上混系数集合包括确定所述选择的编码格式的干上混系数的子集,以便限定所选择的编码格式的下混信号的第一通道的线性映射,所述线性映射近似所述选择的编码格式的第一组的一个或更多个通道,
其中,确定所选择的编码格式的所述湿上混系数集合包括:基于所接收的所选择的编码格式的第一组的一个或更多个通道的协方差与通过所选择的编码格式的下混信号的第一通道的所述线性映射所近似的所选择的编码格式的第一组的一个或更多个通道的协方差来确定中间矩阵,其中,所述中间矩阵当乘以预定义矩阵时与所选择的编码格式的所述湿上混系数的子集对应,所选择的编码格式的所述湿上混系数的所述子集限定所述去相关信号的所述N-1个通道的线性映射,作为所述选择的编码格式的第一组的一个或更多个通道的参数重构的一部分,其中,所选择的编码格式的湿上混系数的所述子集包括比所述中间矩阵中的元素的数量多的系数,以及
其中,所述边信息包括:干上混参数集合,根据所述干上混参数集合能够得到所述干上混系数的所述子集;以及湿上混参数集合,在所述中间矩阵属于预定义矩阵类的情况下,所述湿上混参数集合唯一地限定所述中间矩阵,其中,所述中间矩阵具有比所选择的编码格式的所述湿上混参数的所述子集中的元素的数量的多的元素。
36.一种音频编码系统(300),所述音频编码系统(300)包括编码部(1400),其被配置成将M通道音频信号(L,LS,LB,TFL,TBL)编码为双通道下混信号和相关联的上混参数,其中M≥4,所述编码部包括:
下混部(1411,1412),其被配置成:对于至少两种编码格式(F1,F2,F3)中的至少一种,根据所述编码格式基于所述M通道音频信号计算双通道下混信号(L1,L2),其中,所述至少两种编码格式与各个不同划分对应,所述划分将所述M通道音频信号的通道分到相应的第一组和第二组(601,602)的一个或更多个通道中,所述下混信号的第一通道(L1)被形成为所述M通道音频信号的第一组的一个或更多个通道的线性组合,并且所述下混信号的第二通道(L2)被形成为所述M通道音频信号的第二组的一个或更多个通道的线性组合;
控制部(1430),其被配置成重复选择所述编码格式之一;
下混插值器(1413,1414),其被配置成产生根据由所述控制部选择的第一编码格式的所述下混信号和根据紧接在所述第一编码格式之后由所述控制部选择的第二编码格式的所述下混信号的交叉衰落,
其中,所述音频编码系统被配置成输出指示当前选择的编码格式的信令(S)和使得能够基于所述下混信号进行所述M通道音频信号的参数重构的边信息(α)。
37.根据方案36所述的音频编码系统,被配置成还对M2通道音频信号(R,RS,RB,TFR,TBR)进行编码,
其中,所述控制部被配置成重复选择对所述M通道音频信号和所述M2通道音频信号有效的编码格式之一,
所述系统还包括另外的编码部,其通信地耦合至所述控制部,并且被配置成根据由所述控制部选择的所述编码格式对所述M2通道音频信号进行编码。
38.一种计算机程序产品,包括具有用于执行方案1至19和方案23至35中任一项所述的方法的指令的计算机可读介质。
39.一种计算机可读介质,所述计算机可读介质存储表示M通道音频信号的信息,其中,所述音频信号根据多个预定义编码格式中选择的一种来表示,所述预定义编码格式中的至少两种预定义编码格式与各个不同划分对应,所述划分将所述M通道音频信号的通道分到相应的第一组和第二组的一个或更多个通道中,
所述信息包括:
指示当前选择的编码格式的信令(S);
双通道下混信号(L1,L2),其具有与根据所述当前选择的编码格式的所述划分中的所述第一组和所述第二组对应的通道;以及
使得能够基于所述下混信号进行所述M通道音频信号的参数重构的边信息,
其中,所述M通道音频信号的两个时间连续的部分根据不同的编码格式来表示,并且由转变段连接,其中,下混信号被根据选择的第一编码格式的下混信号和根据选择的第二编码格式的下混信号的交叉衰落替代。

Claims (11)

1.一种音频解码方法(1200),包括:
接收(1201)双通道下混信号(L1,L2)和用于基于所述下混信号重构M通道音频信号的的上混参数;
接收(1202)指示所述M通道音频信号的至少两种编码格式中的选择的一种编码格式的信令(S),其中,所述至少两种编码格式与划分到相应的一个或更多个通道的第一组和第二组(601,602)的所述M通道音频信号的通道对应,其中,在所指示的编码格式下,所述下混信号的第一通道与所述M通道音频信号的一个或更多个通道的第一线性组合对应,并且所述下混信号的第二通道与所述M通道音频信号的一个或更多个通道的第二线性组合对应;
将第一上混信号计算为所述下混信号的线性映射,其中,第一上混系数集合被应用于所述下混信号;
将第二上混信号计算为所述下混信号的线性映射,其中,第二上混系数集合被应用于所述下混信号;以及
组合(1213)所述第一上混信号和所述第二上混信号,以获得与要重构的所述M通道音频信号对应的多维重构信号,
其特征在于
所述M通道音频信号具有预定义通道配置,并且所指示的选择的编码格式在所述至少两个编码格式之间切换。
2.一种音频解码系统(1000),包括被配置成执行根据权利要求1所述的方法的一个或更多个部件。
3.根据权利要求1所述的音频解码方法或根据权利要求2所述的音频解码系统,还包括基于所指示的编码格式确定系数集合的存在。
4.根据权利要求1及3中的任一项所述的音频解码方法或根据权利要求2至3中的任一项所述的音频解码系统,其中,基于所述M通道音频信号调适所述系数集合。
5.根据权利要求1及3至4中的任一项所述的音频解码方法或根据权利要求2至4中的任一项所述的音频解码系统,还包括:
基于所指示的编码格式确定(1203)预去相关系数集合;
将去相关输入信号(D1,D2,D3)计算(1205)为所述下混信号的线性映射,其中,所述预去相关系数集合被应用于所述下混信号,其中,所述预去相关系数被确定成使得在所述编码格式的至少两种编码格式中,所述M通道音频信号的第一通道(TBL)经由所述下混信号对所述去相关输入信号的第一固定通道(D3)产生贡献;
基于所述去相关输入信号生成(1207)去相关信号;以及
将所述第二上混信号确定为所述去相关信号的线性映射。
6.根据权利要求1及3至5中的任一项所述的音频解码方法或根据权利要求2至5中的任一项所述的音频解码系统,其中,所述去相关输入信号和所述去相关信号各自包括M-2个通道,其中,基于所述去相关输入信号的不超过一个的通道生成所述去相关信号的通道,并且其中,所述预去相关系数被确定成使得在每种所述编码格式中,所述去相关输入信号的通道接收来自所述下混信号的不超过一个的通道的贡献。
7.根据权利要求1及3至6中的任一项所述的音频解码方法或根据权利要求2至6中的任一项所述的音频解码系统,其中,所述预去相关系数被确定成使得另外地,在所述编码格式的至少两种编码格式中,所述M通道音频信号的第二通道(L)经由所述下混信号对所述去相关输入信号的第二固定通道(D1)产生贡献;并且/或所述预去相关系数被确定成使得在所述编码格式的至少两种编码格式中,所述M通道音频信号的通道对(LS,LB)经由所述下混信号对所述去相关输入信号的第三固定通道(D2)产生贡献。
8.根据权利要求1及3至7中的任一项所述的音频解码方法或根据权利要求2至8中的任一项所述的音频解码系统,还包括:
响应于检测到所指示的编码格式从第一编码格式到第二编码格式的切换,执行(1206)从与所述第一编码格式相关联的预去相关系数值到与所述第二编码格式相关联的预去相关系数值的逐渐转变。
9.根据权利要求1及3至8中的任一项所述的音频解码方法或根据权利要求2至8中的任一项所述的音频解码系统,还包括:
接收双通道下混信号(L1,L2)和相关联的上混参数(α);以及
基于所述下混信号的第一通道(L1)和所述上混参数中的至少一些上混参数来执行第一音频信号的参数重构。
10.根据权利要求1及3至9中的任一项所述的音频解码方法或根据权利要求2至9中的任一项所述的音频解码系统,还包括:响应于检测到指示所述第一预定义通道配置的所接收的信令,基于所述下混信号的第二通道(L2)执行第二音频信号的参数重构。
11.一种计算机可读介质,具有用于执行权利要求1至9中的任一项所述的方法的指令。
CN202010517613.8A 2014-10-31 2015-10-29 多通道音频信号的参数编码和解码 Pending CN111816194A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462073642P 2014-10-31 2014-10-31
US62/073,642 2014-10-31
US201562128425P 2015-03-04 2015-03-04
US62/128,425 2015-03-04
CN201580059276.XA CN107004421B (zh) 2014-10-31 2015-10-29 多通道音频信号的参数编码和解码

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580059276.XA Division CN107004421B (zh) 2014-10-31 2015-10-29 多通道音频信号的参数编码和解码

Publications (1)

Publication Number Publication Date
CN111816194A true CN111816194A (zh) 2020-10-23

Family

ID=54705555

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202010517613.8A Pending CN111816194A (zh) 2014-10-31 2015-10-29 多通道音频信号的参数编码和解码
CN201580059276.XA Active CN107004421B (zh) 2014-10-31 2015-10-29 多通道音频信号的参数编码和解码

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201580059276.XA Active CN107004421B (zh) 2014-10-31 2015-10-29 多通道音频信号的参数编码和解码

Country Status (9)

Country Link
US (1) US9955276B2 (zh)
EP (2) EP3540732B1 (zh)
JP (2) JP6640849B2 (zh)
KR (1) KR102486338B1 (zh)
CN (2) CN111816194A (zh)
BR (1) BR112017008015B1 (zh)
ES (1) ES2709661T3 (zh)
RU (1) RU2704266C2 (zh)
WO (1) WO2016066743A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107636757B (zh) * 2015-05-20 2021-04-09 瑞典爱立信有限公司 多声道音频信号的编码
EP3337066B1 (en) 2016-12-14 2020-09-23 Nokia Technologies Oy Distributed audio mixing
CN107576933B (zh) * 2017-08-17 2020-10-30 电子科技大学 多维拟合的信源定位方法
US20200388292A1 (en) * 2019-06-10 2020-12-10 Google Llc Audio channel mixing

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
CN1910655A (zh) * 2004-01-20 2007-02-07 弗劳恩霍夫应用研究促进协会 构造多通道输出信号或生成下混信号的设备和方法
US20080255856A1 (en) * 2005-07-14 2008-10-16 Koninklijke Philips Electroncis N.V. Audio Encoding and Decoding
CN101849257A (zh) * 2007-10-17 2010-09-29 弗劳恩霍夫应用研究促进协会 使用下混合的音频编码
US20110013790A1 (en) * 2006-10-16 2011-01-20 Johannes Hilpert Apparatus and Method for Multi-Channel Parameter Transformation
CN103119647A (zh) * 2010-04-09 2013-05-22 杜比国际公司 基于改进型离散余弦变换的复数预测立体声编码
CN103201792A (zh) * 2010-11-12 2013-07-10 杜比实验室特许公司 降混限制
WO2013124446A1 (en) * 2012-02-24 2013-08-29 Dolby International Ab Audio processing

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
FR2862799B1 (fr) 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
US20060165247A1 (en) 2005-01-24 2006-07-27 Thx, Ltd. Ambient and direct surround sound system
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
CN101253556B (zh) 2005-09-02 2011-06-22 松下电器产业株式会社 能量整形装置以及能量整形方法
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
JP4396683B2 (ja) * 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
KR101312470B1 (ko) * 2007-04-26 2013-09-27 돌비 인터네셔널 에이비 출력 신호 합성 장치 및 방법
CN102037507B (zh) * 2008-05-23 2013-02-06 皇家飞利浦电子股份有限公司 参数立体声上混合设备、参数立体声译码器、参数立体声下混合设备、参数立体声编码器
US9330671B2 (en) 2008-10-10 2016-05-03 Telefonaktiebolaget L M Ericsson (Publ) Energy conservative multi-channel audio coding
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
BRPI1004215B1 (pt) 2009-04-08 2021-08-17 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para upmixagem de sinal de áudio downmix utilizando uma atenuação de valor de fase
KR20120006060A (ko) * 2009-04-21 2012-01-17 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 합성
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
EP2360681A1 (en) 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
US9219972B2 (en) 2010-11-19 2015-12-22 Nokia Technologies Oy Efficient audio coding having reduced bit rate for ambient signals and decoding using same
US9088858B2 (en) 2011-01-04 2015-07-21 Dts Llc Immersive audio rendering system
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
TWI651005B (zh) 2011-07-01 2019-02-11 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
WO2013122388A1 (en) 2012-02-15 2013-08-22 Samsung Electronics Co., Ltd. Data transmission apparatus, data receiving apparatus, data transceiving system, data transmission method and data receiving method
WO2013149672A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
US9437198B2 (en) 2012-07-02 2016-09-06 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
CN104604257B (zh) 2012-08-31 2016-05-25 杜比实验室特许公司 用于在各种收听环境中渲染并且回放基于对象的音频的系统
EP2891335B1 (en) 2012-08-31 2019-11-27 Dolby Laboratories Licensing Corporation Reflected and direct rendering of upmixed content to individually addressable drivers
RU2635884C2 (ru) 2012-09-12 2017-11-16 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио
WO2014068583A1 (en) 2012-11-02 2014-05-08 Pulz Electronics Pvt. Ltd. Multi platform 4 layer and x, y, z axis audio recording, mixing and playback process
US9913064B2 (en) 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers
IN2015MN01952A (zh) * 2013-02-14 2015-08-28 Dolby Lab Licensing Corp
KR20230020553A (ko) * 2013-04-05 2023-02-10 돌비 인터네셔널 에이비 스테레오 오디오 인코더 및 디코더
BR112016008817B1 (pt) 2013-10-21 2022-03-22 Dolby International Ab Método para reconstruir um sinal de áudio de n canais, sistema de decodificação de áudio, método para codificar um sinal de áudio de n canais e sistema de codificação de áudio
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1910655A (zh) * 2004-01-20 2007-02-07 弗劳恩霍夫应用研究促进协会 构造多通道输出信号或生成下混信号的设备和方法
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US20080255856A1 (en) * 2005-07-14 2008-10-16 Koninklijke Philips Electroncis N.V. Audio Encoding and Decoding
US20110013790A1 (en) * 2006-10-16 2011-01-20 Johannes Hilpert Apparatus and Method for Multi-Channel Parameter Transformation
CN101849257A (zh) * 2007-10-17 2010-09-29 弗劳恩霍夫应用研究促进协会 使用下混合的音频编码
CN103119647A (zh) * 2010-04-09 2013-05-22 杜比国际公司 基于改进型离散余弦变换的复数预测立体声编码
CN103201792A (zh) * 2010-11-12 2013-07-10 杜比实验室特许公司 降混限制
WO2013124446A1 (en) * 2012-02-24 2013-08-29 Dolby International Ab Audio processing

Also Published As

Publication number Publication date
US20170339505A1 (en) 2017-11-23
KR20170078648A (ko) 2017-07-07
RU2019131327A (ru) 2019-11-25
JP6640849B2 (ja) 2020-02-05
EP3213323A1 (en) 2017-09-06
RU2704266C2 (ru) 2019-10-25
ES2709661T3 (es) 2019-04-17
JP7009437B2 (ja) 2022-01-25
JP2020074007A (ja) 2020-05-14
RU2017114642A3 (zh) 2019-05-24
KR102486338B1 (ko) 2023-01-10
EP3213323B1 (en) 2018-12-12
JP2017536756A (ja) 2017-12-07
EP3540732B1 (en) 2023-07-26
CN107004421B (zh) 2020-07-07
WO2016066743A1 (en) 2016-05-06
RU2017114642A (ru) 2018-10-31
US9955276B2 (en) 2018-04-24
BR112017008015B1 (pt) 2023-11-14
CN107004421A (zh) 2017-08-01
EP3540732A1 (en) 2019-09-18
BR112017008015A2 (pt) 2017-12-19

Similar Documents

Publication Publication Date Title
JP7193603B2 (ja) デコーダシステム、復号方法及びコンピュータプログラム
RU2625444C2 (ru) Система обработки аудио
JP5185337B2 (ja) レベル・パラメータを生成する装置と方法、及びマルチチャネル表示を生成する装置と方法
RU2618383C2 (ru) Кодирование и декодирование аудиообъектов
KR100933548B1 (ko) 비상관 신호의 시간적 엔벨로프 정형화
US7974847B2 (en) Advanced methods for interpolation and parameter signalling
US8249883B2 (en) Channel extension coding for multi-channel source
JP7009437B2 (ja) マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
CN106463125B (zh) 基于空间元数据的音频分割
KR101795324B1 (ko) 렌더러 제어 공간 업믹스
CN110085239B (zh) 对音频场景进行解码的方法、解码器及计算机可读介质
CN107077861B (zh) 音频编码器和解码器
KR20200116968A (ko) 하이브리드 인코더/디코더 공간 분석을 사용한 오디오 장면 인코더, 오디오 장면 디코더 및 관련 방법들
CN107112020B (zh) 音频信号的参数化混合
RU2798759C2 (ru) Параметрическое кодирование и декодирование многоканальных аудиосигналов

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination