CN105981411A - 用于高声道计数的多声道音频的基于多元组的矩阵混合 - Google Patents

用于高声道计数的多声道音频的基于多元组的矩阵混合 Download PDF

Info

Publication number
CN105981411A
CN105981411A CN201480072584.1A CN201480072584A CN105981411A CN 105981411 A CN105981411 A CN 105981411A CN 201480072584 A CN201480072584 A CN 201480072584A CN 105981411 A CN105981411 A CN 105981411A
Authority
CN
China
Prior art keywords
sound channel
sound
channel
theta
tuple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480072584.1A
Other languages
English (en)
Other versions
CN105981411B (zh
Inventor
J·汤普森
Z·菲左
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS BVI Ltd
Original Assignee
DTS BVI Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/447,516 external-priority patent/US9338573B2/en
Application filed by DTS BVI Ltd filed Critical DTS BVI Ltd
Publication of CN105981411A publication Critical patent/CN105981411A/zh
Application granted granted Critical
Publication of CN105981411B publication Critical patent/CN105981411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Abstract

提供了基于多元组的空间矩阵化编解码器和方法,其用于减少高声道计数(七个或更多个声道)的多声道音频的声道数(以及因此减小位速率),通过启用空间准确性与基本音频质量之间的折中来优化音频质量,并且将音频信号格式转换成回放环境配置。最初的N声道计数通过利用多元组平移法则空间矩阵混合到较低数量的声道而被减少到M个声道。多元组平移法则包括二元组、三元组和四元组平移法则。例如,利用四元组平移法则,N个声道中的一个可以被下混到M个声道中的四个,以创建四元组声道。空间信息以及音频内容被包含在多元组声道中。在上混期间,利用对应的多元组平移法则从多元组声道中提取出下混的声道。然后,提取出的声道在回放环境中的任意位置被呈现。

Description

用于高声道计数的多声道音频的基于多元组的矩阵混合
对相关申请的交叉引用
本申请要求于2014年11月26日提交的标题为“MULTIPLET-BASED MATRIX MIXINGFOR HIGH-CHANNEL COUNT MULTICHANNEL AUDIO”的美国专利申请14/555,324的权益,该申请是于2013年11月27日提交的标题为“MULTIPLET-BASED MATRIX MIXING FOR HIGH-CHANNEL COUNT MULTICHANNEL AUDIO”的美国临时专利申请序列No.61/909,841和于2014年7月30日提交的标题为“MATRIX DECODER WITH CONSTANT-POWER PAIRWISE PANNING”的美国专利申请序列No.14/447,516的非临时申请,所有这些的全部内容都通过引用被结合于此。
背景技术
许多音频再现系统能够记录、发送和回放同步的多声道音频,有时被称为“环绕声”。虽然娱乐音频以简单的单声道系统开始,但是它很快就发展成双声道(立体声)和高声道计数的格式(环绕声),以努力捕捉收听者沉浸的令人信服的空间形象和感觉。环绕声是用于通过使用多于两个音频声道增强音频信号的再现的技术。内容在多个离散的音频声道上被输送,并利用喇叭(或扬声器)的阵列再现。附加的音频声道或者“环绕声道”为收听者提供身临其境的听觉体验。
环绕声系统通常具有定位在收听者周围的扬声器,以便给收听者以声音定位和包络感。仅具有少数声道的许多环绕声系统(诸如5.1格式)具有定位在围绕收听者的360度弧的特定位置的扬声器。这些扬声器也被布置成使得所有扬声器都在彼此和收听者的耳朵相同的平面内。许多更高声道计数的环绕声系统(诸如7.1、11.1,等等)还包括被定位在收听者耳朵的平面上方的高度或高程(elevation)扬声器,以给予音频内容高度感。这些环绕声配置常常包括提供附加的低频低音音频的离散的低频效果(LFE)声道,以补充其它主音频声道中的低音音频。因为这个LFE声道仅需要其它音频声道的带宽的一部分,所以它被指定为“.X”声道,其中X是包括零的任何正整数(诸如在5.1或7.1环绕声中)。
在理想的情况下,环绕声音频被混合到离散的声道中并且那些声道通过向收听者回放而保持离散。但是,在现实中,存储和传输限制决定了环绕声音频的文件大小被减小以最小化存储空间和传输带宽。而且,与具有多于两个声道的音频内容相比,双声道音频内容通常与更多种的广播和再现系统兼容。
矩阵化被开发以解决这些需求。矩阵化涉及将具有多于两个离散音频声道的原始信号“下混”成双声道音频信号。超过两个声道的附加声道根据预先确定的处理被下混以生成包括来自所有音频声道的信息的双声道下混。附加的音频声道可以稍后利用“上混”处理从双声道下混中提取并合成,使得原始声道混合可以恢复到某种程度的近似。上混接收双声道音频信号作为输入并生成更大数量的声道以用于回放。这种回放是原始信号的音频声道的可接受的近似。
几种上混技术使用恒定功率平移(panning)。“平移”的概念得自运动画面并且具体而言是单词“全景图(panorama)”。全景图是指在每个方向上都具有给定区域的完整视觉视图。在音频领域中,音频可在立体声场中平移以使得音频被感知为定位在物理空间中,使得表演中的所有声音都在其合适的位置和维度被收听者听到。对于音乐录音,通常的做法是将乐器放在它们在真实舞台上将被物理放置的地方。例如,舞台左侧的乐器向左平移并且舞台右侧的乐器向右平移。这个想法设法在回放过程中为收听者复制现实生活中的表演。
因为输入音频信号分布在音频声道中,所以恒定功率平移跨音频声道维持恒定的信号功率。虽然恒定功率平移很普遍,但是目前的下混和上混技术努力保留和恢复在原始混音中存在的精确平移行为和定位。此外,一些技术容易产生伪像,并且全都具有有限的能力来分开在时间和频率上重叠但是源自不同空间方向的独立信号。
例如,一些流行的上混技术使用压控放大器来将两个输入声道规格化到大致相同的水平。然后,这两个信号以特设方式被组合以产生输出声道。但是,由于这种特设的办法,最终的输出难以实现期望的平移行为并且包括串扰问题并且最多近似离散的环绕声音频。
其它类型的上混技术只在几个平移位置精确,而在远离那些位置的地方不精确。作为示例,一些上混技术定义有限数量的平移位置,在这些位置,上混导致精确和可预测的行为。显性矢量分析被用来在处于精确平移位置点的有限数量的反矩阵化系数的预定义集合之间进行插值。落在这些点之间的任何平移位置都使用插值来找到反矩阵化系数值。由于这种插值,落在精确点之间的平移位置会是不精确的并且不利地影响音频质量。
发明内容
本发明内容的提供是为了以简化的形式介绍下面在具体实施方式中进一步描述的概念的选择。本发明内容并不意在识别要求保护的主题的关键特征或必要特征,也不意在被用来限制要求保护的主题的范围。
基于多元组(multiplet)的空间矩阵化编解码器和方法的实施例减少了高声道计数(七个或更多个声道)的多声道音频的声道计数(以及因此减小位速率)。此外,编解码器和方法的实施例通过启用空间准确性与基本音频质量之间的折中来优化音频质量,并将音频信号格式转换成回放环境配置。这部分地是通过确定目标位速率和该位速率将支持的声道(或存留声道(surviving channel))的数量来实现的。其余的声道(非存留声道)被下混到存留声道的多元组上。这可以是一对声道(或二元组(doublet))、声道的三元组(triplet)、声道的四元组(quadruplet)或声道的任何更高阶多元组。
例如,第五非存留声道可被下混到四个其它存留声道上。在上混期间,第五声道从四个其它声道中被提取出来并在回放环境中被呈现(render)。那编码的四个声道以各种方式被进一步配置和组合,用于与现有解码器的向后兼容,然后利用有损或无损位速率压缩进行压缩。解码器具有编码的四个编码音频声道以及相关的元数据,从而使得能够正确地解码回原始的源扬声器布局(诸如11.x布局)。
为了让解码器正确地解码声道减少的信号,解码器必须被告知在编码过程中使用的布局、参数和系数。例如,如果编码器将11.2声道基本混合编码成7.1声道减少的信号,则描述原始布局、声道减少的布局、有贡献的下混声道以及下混系数的信息将被发送到解码器,以便使得能够正确解码回原始的11.2声道计数布局。这种类型的信息是在位流的数据结构中提供的。当这种性质的信息被提供并用来重构原始信号时,编解码器在元数据模式下工作。
编解码器和方法也可以被用作用于传统内容的盲上混合器,以便创建匹配回放环境的收听布局的输出声道布局。盲上混用例中的区别在于,编解码器基于布局和信号假设而不是已知的编码处理来配置信号处理模块。因此,当它不具有或不使用明确的元数据信息时,编解码器在盲模式下工作。
本文描述的基于多元组的空间矩阵化编解码器和方法是尝试以这样一种方式解决当混合、输送和再现具有多个声道的多声道音频时发生的多个相关问题,该方式使得对于混合或呈现技术的向后兼容性和灵活性给予适当考虑。本领域技术人员将认识到,众多空间布置对于声音源、麦克风或扬声器是可能的;并且最终消费者拥有的扬声器是艺术家、工程师或娱乐影音的分销商无法完全可预见的。编解码器和方法的实施例还解决了要实现在数据带宽、声道计数和质量之间的对大声道计数更可行的功能和实用的折中的需求。
基于多元组的空间矩阵化编解码器和方法被设计为减少声道计数(以及因此减小位速率),通过启用空间准确性与基本音频质量之间的折中来优化音频质量,并且将音频信号格式转换到回放环境配置。相应地,编解码器和方法的实施例使用矩阵化和离散声道压缩的组合来创建并回放来自具有M个声道(和LFE声道)的基本混合的具有N个声道的多声道混合,其中N大于M并且其中N和M都大于二。当N大时,例如在10至50的范围内并且包括高度声道以及环绕声道;以及当期望提供诸如5.1或7.1环绕混合的向后兼容的基本混合时,这种技术特别有利。
给定包括基本声道(诸如5.1或7.1)和附加声道的声音混合,本发明使用基于按对、三元组以及四元组的矩阵规则的组合,以便以这样一种方式将附加声道混合到基本声道中,该方式将允许互补的上混,所述上混能够清晰明确地恢复附加声道,连同用于每个附加声道的空间既定声音源的令人信服的错觉。使传统解码器能够解码基本混合,而通过编解码器和方法的实施例使较新的解码器能够执行分离附加声道(诸如高度声道)的上混。
应当注意,依赖于特定的实施例,备选实施例是可能的,并且本文所讨论的步骤和元素可以改变、添加或消除。在不背离本发明的范围的情况下,这些备选实施例包括可以被使用的备选步骤和备选元素,以及可以做出的结构变化。
附图说明
现在参考附图,在附图中相同的附图标记在全文表示对应的部分:
图1是示出术语“源”、“波形”与“音频对象”之间的差别的图。
图2是术语“声床混合”、“对象”和“基本混合”之间的差别的图示。
图3是在与收听者耳朵同一平面内具有L个扬声器并且在比收听者耳朵高的高度环周围设置了P个扬声器的内容创建环境扬声器布局的概念的图示。
图4是示出基于多元组的空间矩阵化编解码器和方法的实施例的一般概述的框图。
图5是示出图4中所示的基于多元组的空间矩阵化编码器的非传统实施例的细节的框图。
图6是示出图4中所示的基于多元组的空间矩阵化解码器的非传统实施例的细节的框图。
图7是示出图4中所示的基于多元组的空间矩阵化编码器的向后兼容实施例的细节的框图。
图8是示出图4中所示的基于多元组的空间矩阵化解码器的向后兼容实施例的细节的框图。
图9是示出图5和图7中所示的基于多元组的矩阵下混系统的示例性实施例的细节的框图。
图10是示出图6和图8中所示的基于多元组的矩阵上混系统的示例性实施例的细节的框图。
图11是示出图4中所示的基于多元组的空间矩阵化编解码器和方法的实施例的一般操作的流程图。
图12示出了对于正弦/余弦平移法则作为平移角度(θ)的函数的平移权重。
图13示出了对应于中心输出声道的同相曲线图的平移行为。
图14示出了对应于中心输出声道的异相曲线图的平移行为。
图15示出了对应于左环绕输出声道的同相曲线图的平移行为。
图16示出了对应于下混方程的两个特定角度,其中左环绕和右环绕声道被离散地编码和解码。
图17示出了对应于修改的左输出声道的同相曲线图的平移行为。
图18示出了对应于修改的左输出声道的异相曲线图的平移行为。
图19是示出信号源S到声道三元组上的平移的图。
图20是示出已被平移到三元组上的非存留第四声道的提取的图。
图21是示出信号源S到声道四元组上的平移的图。
图22是示出已被平移到四元组上的非存留第四声道的提取的图。
图23是回放环境和扩展的呈现技术的图示。
图24示出了利用扩展的呈现技术在单位球体上和在单位球体中的音频源的呈现。
图25-图28是规定用于输入布局中在存留布局中不存在的任何扬声器的矩阵多元组的映射的查找表。
具体实施方式
在以下基于多元组的空间矩阵化编解码器和方法的实施例的描述中,对附图进行了参考。这些附图以说明的方式示出了基于多元组的空间矩阵化编解码器和方法的实施例可以被如何实践的具体示例。应当理解,在不背离要求保护的主题的范围的情况下,可以使用其它实施例并且可以进行结构改变。
I.术语
以下是本文档中使用的一些基本术语和概念。应当注意,这些术语和概念中的一些可能具有与在它们和其它音频技术一起使用时所具有的含义稍微不同的含义。
本文档讨论基于声道的音频和基于对象的音频二者。音乐或音轨传统上是通过以下操作来创建:在录音棚中将多个不同的声音混合到一起,决定那些声音应当在哪里被听到,以及创建要在扬声器系统中的每个单独扬声器上播放的输出声道。在这种基于声道的音频中,声道意味着既定的、标准的扬声器配置。如果使用不同的扬声器配置,则声音不能在它们预期去往的地方或者以正确的再现水平结束。
在基于对象的音频中,所有不同的声音与描述声音应当怎样被再现(包括其在三维(3D)空间中的位置)的信息或元数据组合。然后轮到回放系统来为给定的扬声器系统呈现对象以使得对象如预期的那样被再现并放在正确的位置。对于基于对象的音频,音乐或音轨在具有不同数量的扬声器或具有相对于收听者处于不同位置的扬声器的系统上应当听起来是基本相同的。这种方法有助于保留艺术家的真正意图。
图1是示出术语“源”、“波形”和“音频对象”之间的差别的图。如图1中所示,术语“源”被用来指表示声床混合的一个声道或一个音频对象的声音的单个声波。当源被分配三维空间中的特定位置时,那个声音及其在3D空间中的位置的组合被称为“波形”。当波形与其它元数据(诸如声道集合、音频展现层次结构等等)组合并存储在增强的位流的数据结构中时创建“音频对象”(或“对象”)。“增强的位流”不仅包含音频数据而且包含空间数据和其它类型的元数据。“音频展现”是最终从基于多元组的空间矩阵化解码器的实施例出来的音频。
短语“增益系数”是音频信号的水平被调整以增加或减小其音量的量。术语“呈现”指示将给定的音频分发格式转换为正被使用的特定回放扬声器配置的处理。给定回放系统和环境的参数和限制,呈现尝试尽可能接近原始空间声学空间地重建回放空间声学空间。
当环绕或升高的扬声器从回放环境中的扬声器布置中缺失时,则意在用于这些缺失的扬声器的音频对象可以被重映射到回放环境中物理存在的其它扬声器。为了启用这个功能,可以定义在回放环境中使用但不与输出声道直接关联的“虚拟扬声器”。相反,它们的信号通过使用下混映射被重新路由到物理扬声器声道。
图2是术语“声床混合”、“对象”和“基本混合”之间的差别的图示。“声床混合”和“基本混合”都是指基于声道的音频混合(诸如5.1、7.1、11.1,等等),其可以或者作为声道或者作为基于声道的对象被包含在增强的位流中。这两个术语之间的差别在于声床混合不包含任何包含在位流中的音频对象。基本混合包含以基于声道的形式为标准扬声器布局(诸如5.1、7.1,等等)展现的完整音频展现。在基本混合中,所展现的任何对象都被混入声道混合。这在图2中示出,该图示出了基本混合包括声床混合和任何音频对象二者。
如本文档中所使用的,术语“多元组”是指具有平移到其上的信号的多个声道的分组。例如,一种类型的多元组是“二元组”,由此信号被平移到两个声道上。类似地,另一种类型的多元组是“三元组”,由此信号被平移到三个声道上。当信号被平移到四个声道上时,结果所得的多元组被称为“四元组”。多元组可以包括信号被平移到其上的两个或更多个(包括五个声道、六个声道、七个声道,等等)声道的分组。为了教学目的,本文档只讨论二元组、三元组和四元组的情况。但是,应当注意的是,本文所教导的原理可以被扩展到包含五个或更多个声道的多元组。
基于多元组的空间矩阵化编解码器和方法的实施例或其各方面被用在用于输送和记录多声道音频的系统中,尤其是当大量的声道要被发送或记录时。如本文档中所使用的,“高声道计数的”多声道音频意味着存在七个或更多个音频声道。例如,在一个这样的系统中,大量声道被记录并假设被配置在已知的回放几何形状中,该回放几何形状具有设置在收听者周围耳朵水平的L个声道,设置在高度环(设置得比耳朵水平高)周围的P个声道,以及可选地位于收听者之上的顶点(zenith)处或顶点附近的中心声道(其中L和P是大于1的正整数)。
图3是内容创建环境扬声器(或声道)布局300的概念的图示,该布局300在与收听者的耳朵同一平面内具有L个扬声器并且在比收听者的耳朵高的高度环周围设置有P个扬声器。如图3中所示,收听者100在收听混合到内容创建环境扬声器布局300上的内容。内容创建环境扬声器布局300是11.1布局,具有可选的头顶扬声器305。包含与收听者的耳朵同一平面内的L个扬声器的L平面310包括左扬声器315、中心扬声器320、右扬声器325、左环绕扬声器330和右环绕扬声器335。所示的11.1布局还包括低频效果(LFE或“低音炮”)扬声器340。L平面310还包括环绕后左扬声器345和环绕后右扬声器350。收听者的耳朵355中的每个也位于L平面310中。
P(或高度)平面360包含左前高度扬声器365和右前高度扬声器370。P平面360还包括左环绕高度扬声器375和右环绕高度扬声器380。可选的头顶扬声器305被示为位于P平面360中。作为替代,可选的头顶扬声器305可以位于P平面360上方在内容创建环境的顶点处。L平面310和P平面360隔开距离d。
虽然在图3中示出了11.1内容创建环境扬声器布局300(连同可选的头顶扬声器305一起),但是基于多元组的空间矩阵化编解码器和方法的实施例可以被一般化以使得内容可以在包含七个或更多个音频声道的高声道计数环境中被混合。而且,应当注意的是,在图3中,内容创建环境扬声器布局300中的扬声器以及收听者的头部和耳朵不相互成比例。特别地,收听者的头部和耳朵以更大的比例示出以说明每个扬声器和收听者的耳朵在与L平面310同一水平面中的概念。
P平面360中的扬声器可以根据各种常规的几何形状布置,并且假设的几何形状对于混合工程师或唱片艺术家/工程师是已知的。根据基于多元组的空间矩阵化编解码器和方法的实施例,(L+P)声道计数通过新颖的矩阵混合方法减少到较低的声道数(例如,(L+P)个声道被映射到仅L个声道上)。然后,减少计数的声道通过保留减少计数的声道的离散性质的已知方法被编码和压缩。
关于解码,编解码器和方法的实施例的操作依赖于解码器的能力。在传统的解码器中,其中混合有P个声道的减少计数(L)的声道被再现。在更先进的解码器中,(L+P)个声道的完全协同可以通过上混并将每个路由到(L+P)个扬声器中对应的一个来恢复。
根据本发明,上混和下混操作(矩阵化/反矩阵化)二者包括多元组平移法则(诸如按对、三元组和四元组平移法则)的组合以便在再现时将感知到的声音源放成接近地对应于唱片艺术家或工程师预期的假设位置。矩阵化操作(声道布局减少)可以在以下方面应用到声床混合声道:(a)增强的位流的声床混合加对象组成;(b)增强的位流的仅基于声道的组成。此外,矩阵化操作可以应用到静止对象(不四处移动的对象)并且在反矩阵化之后仍然实现充分的对象分离,这将允许对单个对象的独立的水平修改和呈现;或(c)对基于声道的对象应用矩阵化操作。
II.系统概述
基于多元组的空间矩阵化编解码器和方法的实施例通过将某些声道平移到其余声道的多元组上来减少高声道计数的多声道音频和位速率。这用来通过启用空间准确性与基本音频质量之间的折中来优化音频质量。编解码器和方法的实施例还将音频信号格式转换到回放环境配置。
图4是示出基于多元组的空间矩阵化编解码器400和方法的实施例的一般概述的框图。参照图4,编解码器400包括基于多元组的空间矩阵化编码器410和基于多元组的空间矩阵化解码器420。最初,音频内容(诸如音乐曲目)在内容创建环境430中被创建。这种环境430可以包括多个麦克风435(或其它声音捕获设备)以记录音频源。作为替代,音频源可以已经是数字信号,使得没有必要使用麦克风来记录源。无论创建声音的方法是什么,每个音频源都被混入作为内容创建环境430的输出的最终的混合。
内容创建者选择最能代表创建者的空间意图的N.x基本混合,其中N表示常规的声道数并且x表示低频声道数。而且,N是大于1的正整数,并且x是非负整数。例如,在11.1环绕系统中,N=11并且x=1。这当然受限于声道的最大数,使得N+x≤MAX,其中MAX是表示容许声道的最大数的正整数。
在图4中,最终的混合是N.x混合440,使得每个音频源被混入N+x个声道中。然后最终的N.x混合440利用基于多元组的空间矩阵化编码器410被编码和下混。编码器410通常位于具有一个或多个处理设备的计算设备上。编码器410将最终的N.x混合编码和下混成具有M个常规声道和x个低频声道的M.x混合450,其中M是大于1的正整数并且M小于N。
M.x 450下混通过输送环境460输送以供收听者消费。几个输送选项可供选择,包括通过网络465流化输送。作为替代,M.x 450下混可被记录在介质470(诸如光盘)上以供收听者消费。此外,有许多其它未在这里列举的可用来输送M.x 450下混的输送选项。
输送环境的输出是M.x流475,其被输入到基于多元组的空间矩阵化解码器420。解码器420解码和上混M.x流475以获得重构的N.x内容480。解码器420的实施例通常位于具有一个或多个处理设备的计算设备上。
解码器420的实施例从存储在M.x流475中的压缩音频提取PCM音频。所使用的解码器420基于哪种音频压缩方案被用来压缩数据。几种类型的音频压缩方案可以在M.x流中使用,包括有损压缩、低位速率编码以及无损压缩。
解码器420解码M.x流475的每个声道并将其扩展成由N.x输出480表示的离散输出声道。这种重构的N.x输出480在包括回放扬声器(或声道)布局的回放环境485中被再现。回放扬声器布局可以或可以不与内容创建扬声器布局相同。图4中所示的回放扬声器布局是11.2布局。在其它实施例中,回放扬声器布局可以是耳机,使得扬声器仅仅是在回放环境485中声音似乎是来自该扬声器的虚拟扬声器。例如,收听者100可以通过耳机收听重构的N.x混合。在这种情况下,扬声器不是实际的物理扬声器,但声音似乎是源自回放环境485中对应于例如11.2环绕声扬声器配置的不同的空间位置。
编码器的后向不兼容的实施例
图5是示出图4中所示的基于多元组的空间矩阵化编码器410的非传统实施例的细节的框图。在这些非传统实施例中,编码器410不编码内容以使得传统解码器维持向后兼容性。而且,编码器410的实施例利用包含在位流中的各种类型的元数据连同音频数据。如图5中所示,编码器410包括基于多元组的矩阵混合系统500以及压缩和位流填充模块510。来自内容创建环境430的输出包括N.x脉码调制(PCM)声床混合520(其包含基于声道的音频信息)以及基于对象的音频信息,该基于对象的音频信息包括对象PCM数据530和关联的对象元数据540。应当注意,在图5-图8中,空心箭头指示时域数据而实心箭头指示空间数据。例如,从N.x PCM声床混合520到基于多元组的矩阵混合系统500的箭头是空心箭头并且指示时域数据。从内容创建环境430到对象PCM 530的箭头是实心箭头并且指示空间数据。
N.x PCM声床混合520被输入到基于多元组的矩阵混合系统500。系统500处理N.xPCM声床混合520(如以下详细说明的)并将N.x PCM声床混合的声道计数减少到M.x PCM声床混合550。此外,系统500输出各类信息,包括M.x布局元数据560,其是关于M.x PCM声床混合550的空间布局的数据。系统500还输出关于原始声道布局和矩阵化元数据570的信息。原始声道布局是关于原始声道在内容创建环境430中的布局的空间信息。矩阵化元数据包含关于在下混期间使用的不同系数的信息。特别地,它包含关于声道如何被编码成下混的信息以使得解码器知道上混的正确方法。
如在图5中所示,对象PCM 530、对象元数据540、M.x PCM声床混合550、M.x布局元数据560以及原始声道布局和矩阵化元数据570全都被输入到压缩和位流填充模块510。模块510取得这个信息,将其压缩,并将其打包成M.x增强位流580。位流之所以被称为增强的是因为除了音频数据之外它还包含空间和其它类型的元数据。
基于多元组的矩阵混合系统500的实施例通过检查诸如总可用位速率、每声道最小位速率、离散的音频声道等等变量来减少声道计数。基于这些变量,系统500取得原始N个声道并将其下混成M个声道。数M依赖于数据速率。作为示例,如果N等于22个原始声道并且可用的位速率是500千位/秒,则系统500可以确定M必须是8以便实现位速率和编码内容。这意味着仅有足够的带宽来编码8个音频声道。这8个声道然后将被编码和发送。
解码器420将知道这8个声道来自原始的22个声道,并且我们将这8个声道上混回22个声道。当然,为了实现位速率,会丢失某种程度的空间保真度。例如,假设每个声道给定的最小位速率是32千位/声道。如果总位速率是128位/秒,则4个声道可以以32千位/声道被编码。在另一个示例中,假设到编码器410的输入是11.1基本混合,给定的位速率是128千位/秒,且每个声道的最小位速率是32千位/秒。这意味着,编解码器400和方法将取得那11个原始声道并将它们下混成4个声道,发送这4个声道,并且在解码侧将那4个声道上混回11个声道。
解码器的后向不兼容实施例
M.x增强位流580被输送到包含解码器420的接收设备以用于呈现。图6是示出图4中所示基于多元组的空间矩阵化解码器的非传统实施例的细节的框图。在这些非传统实施例中,解码器420不保留与以前类型的位流的向后兼容并且不能对它们进行解码。如图6中所示,解码器420包括基于多元组的矩阵上混系统600、解压缩和位流解包模块610、延迟模块620、对象包含呈现引擎630以及下混器和扬声器重映射模块640。
如图6中所示,到解码器420的输入是M.x增强位流580。解压缩和位流解包模块610然后将位流580解包和解压缩回PCM信号(包括声床混合和音频对象)和关联的元数据。来自模块610的输出是M.x PCM声床混合645。此外,原始(N.x)声道布局和矩阵化元数据650(包括矩阵化系数)、对象PCM 655以及对象元数据660从模块610输出。
M.x PCM声床混合645由基于多元组的矩阵上混系统600处理并上混。基于多元组的矩阵上混系统600在下面进一步讨论。系统600的输出是N.x PCM声床混合670,其与原始布局处于相同的声道(或扬声器)布局配置。N.x PCM声床混合670由下混器和扬声器重映射模块640处理以便将N.x声床混合670映射到收听者的回放扬声器布局。例如,如果N=22并且M=11,则这22个声道将由编码器410下混成11个声道。然后解码器420将取得该11个声道并将它们上混回22个声道。但是,如果收听者仅具有5.1回放扬声器布局,则模块640将下混那22个声道并将它们重映射到回放扬声器布局以供收听者回放。
下混器和扬声器重映射模块640负责使存储在位流580中的内容适应给定的输出扬声器配置。从理论上讲,音频可以对任何任意回放扬声器布局格式化。回放扬声器布局由收听者或系统选择。基于这种选择,解码器420选择需要被解码的声道集合并且确定是否必须执行扬声器重映射和下混。输出扬声器布局的选择是利用应用编程接口(API)调用执行的。
当预期的回放扬声器布局不匹配回放环境485(或收听空间)的实际回放喇叭布局时,音频展现的整体印象可能会受到损害。为了优化在多种流行的扬声器配置中的音频展现质量,M.x增强位流可以包含喇叭重映射系数。
对于下混器和扬声器重映射模块640的实施例存在两种操作模式。第一是“直接模式”,由此解码器420配置空间重映射器以在给定的输出扬声器配置之上尽可能接近地产生原始编码的声道布局。第二是“非直接模式”,由此解码器的实施例将会把内容转换成选择的输出声道配置,而不管源配置如何。
对象PCM 655被延迟模块620延迟以使得在M.x PCM声床混合645被基于多元组的矩阵上混系统600处理时存在某种程度的延迟。延迟模块620的输出是延迟的对象PCM 680。这个延迟的对象PCM680和对象元数据660相加并通过对象包含呈现引擎630呈现。
对象包含呈现引擎630和对象去除呈现引擎(在下面讨论)是用于执行基于3D对象的音频呈现的主引擎。这些呈现引擎的主要工作是向基本混合添加或从中减去登记的音频对象。每个对象都附带规定其在3D空间中的位置的信息,包括其方位、高度、距离、增益以及规定该对象是否应当被允许抓取到最近的扬声器位置的标志。对象呈现执行必要的处理以便将对象放在所指示的位置。呈现引擎支持点和扩展源二者。点源听起来就好像是来自空间中一个特的定点,而扩展源听起来具有“度宽”、“高度”或者两者都有。
呈现引擎使用球面坐标系表示。如果内容创建环境430中的创作工具将房间表示为鞋盒,则从同心盒子到同心球以及返回来的变换可以在创作工具中的hood下执行。以这种方式,源在墙上的放置映射到源在单位球上的放置。
来自下混器和扬声器重映射模块的声床混合和来自对象包含呈现引擎630的输出被组合以提供N.x音频展现690。N.x音频展现690从解码器420输出并在回放扬声器布局(未示出)上回放。
应当注意,解码器420的一些模块可以是可选的。例如,如果N=M,则基于多元组的矩阵上混系统600是不需要的。类似地,如果N=M,则下混和扬声器重映射模块640是不需要的。并且,如果在M.x增强位流中不存在对象并且信号仅仅是基于声道的信号,则对象包含呈现引擎630是不需要的。
编码器的向后兼容实施例
图7是示出图4中所示的基于多元组的空间矩阵化编码器410的传统实施例的细节的框图。在这些传统实施例中,编码器410编码内容以使得传统解码器维持向后兼容性。许多部件与向后不兼容实施例是相同的。具体而言,基于多元组的矩阵混合系统500仍然将N.x PCM声床混合520下混成M.x PCM声床混合550。编码器410取得对象PCM 530和对象元数据540并将它们混合到M.x PCM声床混合550中以创建嵌入式下混。这种嵌入式下混可由传统解码器解码。在这些向后兼容的实施例中,嵌入式下混包括M.x声床混合和对象二者以创建传统解码器可以解码的传统下混。
如图7中所示,编码器410包括对象包含呈现引擎700和下混嵌入器710。为了向后兼容性的目的,存储在音频对象中的任何音频信息也被混入M.x声床混合550中以创建传统解码器可以使用的基本混合。如果解码器系统可以呈现对象,则对象必须从基本混合中去除以使得它们不会被加倍再现。解码的对象被呈现到专用于这个目的的适当声床混合并且然后被从基本混合减去。
对象PCM 530和对象元数据540被输入到引擎700并与M.x PCM声床混合550混合。结果去往创建嵌入式下混的下混嵌入器710。这种嵌入式下混、下混元数据720、M.x布局元数据560、原始声道布局和矩阵化元数据570、对象PCM 530以及对象元数据540被压缩和位流填充模块510压缩并打包成位流。输出是向后兼容的M.x增强位流580。
解码器的向后兼容实施例
向后兼容的M.x增强位流580被输送到包含解码器420的接收设备以供呈现。图8是示出图4中所示的基于多元组的空间矩阵化解码器420的向后兼容实施例的细节的框图。在这些向后兼容的实施例中,解码器420与先前类型的位流保持向后兼容性以便使解码器420能够对它们进行解码。
除了存在对象去除部分之外,解码器420的向后兼容实施例类似于图6中所示的非向后兼容实施例。这些向后兼容的实施例处理编解码器的传统问题,其中期望的是提供传统解码器仍可以解码的位流。在这些情况下,解码器420从嵌入式下混去除对象并且然后上混以获得原始上混。
如图8中所示,解压缩和位流解包模块610输出原始声道布局和矩阵化系数650、对象PCM 655以及对象元数据660。模块610的输出还撤消嵌入式下混的嵌入式下混800以获得M.x PCM声床混合645。这基本上彼此分开了声道和对象。
在编码后,新的、较小的声道布局可能仍然具有太多声道存储在被传统解码器使用的位流的一部分中。在这些情况下,如以上参照图7所指出的,执行附加的嵌入式下混以确保来自在较旧的解码器中不被支持的声道的音频包括在向后兼容的混合中。存在的额外声道被下混到向后兼容的混合中并被单独发送。当位流对于将支持比向后兼容的混合更多声道的扬声器输出格式被解码时,来自额外声道的音频被从混合中去除并且代替地使用离散的声道。撤消嵌入式下混800的这种操作在上混之前发生。
模块610的输出还包括M.x布局元数据810。M.x布局元数据810和对象PCM 655被对象去除呈现引擎820用来将去除的对象呈现到M.x PCM声床混合645中。对象PCM 655还通过延迟模块620并进入对象包含呈现引擎630。引擎630取得对象元数据660、延迟的对象PCM655并将对象和N.x声床混合670呈现成用于在回放扬声器布局(未示出)上回放的N.x音频展现690。
III.系统细节
现在将讨论基于多元组的空间矩阵化编解码器和方法的实施例的部件的系统细节。应当注意,以下仅详细描述模块、系统和编解码器可以被实现的少数几种方式。根据图9和图10中所示的,许多变体是可能的。
图9是示出图5和图7中所示基于多元组的矩阵下混系统500的示例性实施例的细节的框图。如图9中所示,N.x PCM声床混合520被输入到系统500。该系统包括如下的单独模块:该单独模块确定输入声道将下混到的声道数以及哪些输入声道是存留声道和哪些是非存留声道。存留声道是被保留的声道并且非存留声道是被下混到存留声道的多元组上的输入声道。
系统500还包括混合系数矩阵下混器910。图9中的空心箭头指示信号是时域信号。下混器910取得存留声道920并且在不处理的情况下传递它们。非存留声道基于接近性被下混到多元组上。特别地,一些非存留声道可以被下混到存留对(或二元组)930上。一些非存留声道可以被下混到存留声道的存留三元组940上。一些非存留声道可以被下混到存留声道的存留四元组950上。这可以对任何Y的多元组继续,其中Y是大于2的正整数。例如,如果Y=8,则非存留声道可被下混到存留声道的存留八元组上。这在图9中由省略号960示出。应当注意,多元组的一些、全部或任何组合可以被用来下混N.x PCM声床混合520。
从下混器910得到的结果M.x下混进入响度规格化模块980。规格化处理在下面更详细地讨论。N.x PCM声床混合520被用来规格化M.x下混并且输出是规格化的M.x PCM声床混合550。
图10是示出图6和图8中所示的基于多元组的矩阵上混系统600的示例性实施例的细节的框图。在图10中,粗箭头表示时域信号并且虚线箭头表示子带域信号。如图10中所示,M.x PCM声床混合645被输入到系统600。M.x PCM声床混合645被过采样分析滤波器组1000处理以获得被下混到存留声道Y-元组的各种非存留声道。在第一遍中,对Y元组1010执行空间分析以获得诸如在非存留声道的空间中的半径和角度之类的空间信息。接下来,从存留声道1015的Y-元组提取非存留声道。然后,这个首先被重新捕获的声道C1被输入到子带功率规格化模块1020。然后,在这一遍中所涉及的声道被重新平移1025。
如由省略号1030所指示的,这些遍继续通过Y个多元组当中的每一个。然后,这些遍依次继续直到Y-多元组当中的每一个已被处理。图10示出了对四元组1040执行空间分析以获得诸如在被下混到四元组的非存留声道的空间中的半径和角度之类的空间信息。接下来,从存留声道1045的四元组提取非存留声道。然后,提取出的声道C(Y-3)被输入到子带功率规格化模块1020。然后,这一遍中所涉及的声道被重新平移1050。
在下一遍中,对三元组1060执行空间分析以获得诸如在被下混到三元组的非存留声道的空间中的半径和角度之类的空间信息。接下来,从存留声道1065的三元组提取非存留声道。然后,提取出的声道C(Y-2)被输入到模块1020。然后,这一遍中所涉及的声道被重新平移1070。类似地,在最后一遍中,对二元组1080执行空间分析以获得诸如在被下混到二元组的非存留声道的空间中的半径和角度之类的空间信息。接下来,从存留声道1085的二元组提取非存留声道。然后,提取出的声道C(Y-1)被输入到模块1020。然后,这一遍中所涉及的声道被重新平移1090。
然后,每个声道被模块1020处理以获得N.x上混。这个N.x上混由过采样合成滤波器组1095处理以将它们组合成N.x PCM声床混合670。如图6和图8中所示,N.x PCM声床混合然后被输入到下混器和扬声器重映射模块640。
IV.操作概述
基于多元组的空间矩阵化编解码器400和方法的实施例是减少声道计数(并因此减小位速率)、通过启用空间准确性与基本音频质量之间的折中来优化音频质量并且将音频信号格式转换成回放环境配置的空间编码和解码技术。
编码器410和解码器420的实施例有两个主要用例。第一个用例是元数据用例,其中基于多元组的空间矩阵化编解码器400和方法的实施例被用来将高声道计数音频信号编码成较低数量的声道。此外,这个用例包括较低数量的声道的解码以便恢复原始高声道计数音频的准确近似。第二个用例是盲上混用例,其执行标准单声道、立体声或多声道布局(诸如5.1或7.1)中的传统内容到由水平和升高的声道位置组成的3D布局的盲上混。
元数据用例
用于编解码器400和方法的实施例的第一个用例是作为位速率减小工具。其中编解码器400和方法可以用于位速率减小的一个示例场景是每声道可用的位速率低于由编解码器400支持的每声道的最小位速率的情况。在这种场景中,编解码器400和方法的实施例可被用来减少编码的声道的数量,从而对存留声道启用更高的位速率分配。这些声道需要以足够高的位速率进行编码以防止在反矩阵化之后伪像的揭露。
在这种场景中,编码器410可以依赖于下列因素当中的一个或多个对位速率减小使用矩阵化。一个因素是离散声道编码所需的每声道的最小位速率(指定为MinBR_Discr)。另一个因素是矩阵式声道编码所需的每声道的最小位速率(指定为MinBR_Mtrx)。还有一个因素是总的可用位速率(指定为BR_Tot)。
编码器410是否参与(当(M<N)时矩阵化或者当(M=N)时不矩阵化)是基于以下公式决定的:
此外,原始声道布局和描述矩阵化过程的元数据在位流中携带。而且,MinBR_Mtrx的值被选择为足够高(对于每种相应的编解码器技术)以防止在反矩阵化之后伪像的揭露。
在解码器420侧,执行上混仅仅是将格式带至原始的N.x布局或N.x布局的某个适当子集。上混对于进一步的格式转换是需要的。假设在原始N.x布局中携带的空间分辨率是预期的空间分辨率,因此任何进一步的格式转换都将仅仅包括下混和可能的扬声器重映射。在仅仅基于声道的流的情况下,存留的M.x布局可以被直接使用(不应用反矩阵化)作为用于在解码器侧得出期望下混K.x(K<M)的起点(M、N是整数,N大于M)。
其中编解码器400和方法可被用于位速率减小的另一示例场景是当原始高声道计数布局具有高空间准确性(诸如22.2)并且可用位速率足以离散地编码所有声道但不足以充分提供近乎透明的基本音频质量水平时。在这种场景中,编解码器400和方法的实施例可被用来通过稍微牺牲空间准确性来优化整体性能,但作为回报允许基本音频质量的提高。这是通过以下操作来实现的:将原始布局转换成具有较少声道、足够的空间准确性(诸如11.2)的布局并且将所有位池分配给存留声道以便在对空间准确性没有大的影响的同时将基本音频质量带至更高的水平。
在这个示例中,编码器410使用矩阵化作为工具以通过稍微牺牲空间准确性来优化整体质量,但作为回报允许基本音频质量的提高。存留声道被选择成以最小数量的编码声道保留原始空间准确性。此外,原始声道布局和描述矩阵化过程的元数据在流中被携带。
编码器410选择可以足够高以允许将对象包括到存留布局以及进一步下混嵌入中的每声道的位速率。而且,或者M.x或者关联的嵌入式下混可以在5.1/7.1系统上可直接回放。
这个示例中的解码器420使用上混仅仅是将格式带到原始N.x布局或N.x布局的某个适当子集。不需要进一步的格式转换。假设原始N.x布局中携带的空间分辨率是预期的空间分辨率,由此任何进一步的格式转换将仅仅包括下混和可能的扬声器重映射。
对于上述场景,本文描述的编码和方法可以以对象加基本混合格式应用到基于声道的格式或基本混合声道。对应的解码操作将把声道减少的布局带回到原始高声道计数布局。
为了让声道减少的信号被适当地解码,本文描述的解码器420必须被告知在编码过程中使用的布局、参数和系数。编解码器400和方法定义用于从编码器410向解码器420传送这种信息的位流语法。例如,如果编码器410将22.2声道基本混合编码成11.2声道减少的信号,则描述原始布局、声道减少的布局、有贡献的下混声道和下混系数的信息将被发送到解码器420以便使得能够正确解码回原始的22.2声道计数布局。
盲上混用例
用于编解码器400和方法的实施例的第二用例是执行传统内容的盲上混。这个能力允许编解码器400和方法将传统内容转换为3D布局,其包括匹配回放环境485的喇叭位置的水平和升高的声道。盲上混可以对标准布局(诸如单声道、立体声、5.1、7.1和其它)执行。
总体概述
图11是示出图4中所示的基于多元组的空间矩阵化编解码器400和方法的实施例的一般操作的流程图。操作以选择M个声道包括在下混的输出音频信号中开始(方框1100)。如上所述,这种选择是基于期望的位速率的。应当注意,N和M是非零正整数并且N大于M。
接下来,N个声道利用多元组平移法则的组合被下混并编码成M个声道,以获得包含M个多元组编码的声道的PCM声床混合(方框1110)。然后,该方法经网络以等于或低于期望的位速率的位速率发送PCM声床混合(方框1120)。PCM声床混合被接收并分离成多个M个多元组编码的声道(方框1130)。
然后,该方法利用多元组平移法则的组合上混并解码M个多元组编码的声道当中每一个,以便从M个多元组编码的声道提取N个声道并获得具有N个声道的结果输出音频信号(方框1140)。这个结果输出音频信号在具有回放声道布局的回放环境中被呈现(方框1150)。
编解码器400和方法的实施例或者其各方面用在用于多声道音频的输送和记录的系统中,尤其是当大量声道(超过7个)要被发送或记录时。例如,在一个这样的系统中,多个声道被记录并且假设在已知的回放几何形状中进行配置,该几何形状具有围绕收听者设置在耳朵水平的L个声道、设置在高于耳朵水平的高度环周围设置的P个声道以及可选地在收听者上方的顶点处或其附近的中心声道(其中L和P是大于1的任意整数)。P个声道可以根据各种常规的几何形状进行布置,并且假设的几何形状对于混合工程师或唱片艺术家/工程师是已知的。根据本发明,L加P声道计数通过矩阵混合的新颖方法减小到更小数量的声道(例如L+P个映射到仅L个)。然后,减少计数的声道通过保留减少计数的声道的离散性质的已知方法被编码和压缩。
关于解码,系统的操作依赖于解码器的能力。在传统解码器中,其中混合有P个声道的减少计数(L)的声道被再现。在根据本发明的更高级的解码器中,L+P个声道的完全协同可以通过上混并且将每一个路由到L+P个扬声器中对应的一个来恢复。
根据本发明,上混和下混操作(矩阵化/反矩阵化)二者包括按对、三元组和优选地四元组平移法则的组合以便在再现时将感知到的声音源放成接近地对应于唱片艺术家或工程师预期的假设位置。
矩阵化操作(声道布局减少)可以在以下方面应用到声床混合声道:a)流的声床混合+对象组成;或b)流的仅基于声道的组成。
此外,矩阵化操作可以应用到静止对象(不四处移动的对象)并且在反矩阵化之后仍然实现充分的对象分离,这将允许对单个对象的水平修改。
V.操作细节
现在将讨论基于多元组的空间矩阵化编解码器400和方法的实施例的操作细节。
V.A.下混体系架构
在基于多元组的矩阵下混系统500的示例性实施例中,系统500接受N声道的音频信号并且输出M声道的音频信号,其中N和M是整数并且N大于M。系统500可以利用内容创建环境(原始)声道布局、下混声道布局以及描述每个原始声道将对每个下混声道做贡献的混合权重的混合系数的知识来进行配置。例如,混合系数可以由尺寸为M×N的矩阵C来定义,其中行对应于输出声道并且列对应于输入声道,诸如:
在一些实施例中,系统500可以然后如下执行下混操作:
y i &lsqb; n &rsqb; = &Sigma; j = 1 N c i j &CenterDot; x j &lsqb; n &rsqb; , 1 &le; i &le; M
其中xj[n]是输入音频信号的第j个声道,其中1≤j≤N,yi[n]是输出音频信号的第i个声道,其中1≤i≤M并且cij是对应于矩阵C的ij条目的混合系数。
响度规格化
系统500的一些实施例还包括响度规格化模块980(在图9中示出)。响度规格化处理被设计为将感知到的下混信号的响度规格化为原始信号的响度。虽然矩阵C的混合系数通常被选择为保留单个原始信号分量的功率,例如,标准的正弦/余弦平移法则将保留单个分量的功率,但是对于更复杂的信号材料,功率保留特性将不会保持。因为下混处理在幅度域而不是功率域中组合音频信号,所以结果得到的下混信号的信号功率是不可预测的并且是依信号而定的。此外,由于响度是更相关的感知特性,因此可能期望保留感知到的下混音频信号的响度而不是信号功率。
响度规格化处理通过比较输入响度与下混响度的比来执行。输入响度经由以下等式来估计:
L i n = &Sigma; j = 1 N ( h j &lsqb; n &rsqb; * x j &lsqb; n &rsqb; ) 2
其中,Lin是输入响度的估计,hj[n]是频率加权滤波器,诸如在ITU-R BS.1770-3响度测量标准中所描述的“K”频率加权滤波器,并且(*)表示卷积。
如可以观察到的,输入响度本质上是频率加权输入声道的均方根(RMS)量度,其中频率加权被设计为提高与人类的响度感知的相关性。同样,输出响度是经由以下等式估计的:
L o u t = &Sigma; i = 1 M ( h i &lsqb; n &rsqb; * y i &lsqb; n &rsqb; ) 2
其中Lout是输出响度估计。
现在,输入和输出感知响度二者的估计都已计算出,我们可以经由以下规格化等式来规格化下混音频信号以使得下混信号的响度将大致等于原始信号的响度:
y i &prime; &lsqb; n &rsqb; = L i n L o u t y i &lsqb; n &rsqb; , 1 &le; i &le; M
在以上等式中,可以观察到响度规格化处理致使以输入响度与输出响度之比缩放所有的下混声道。
静态下混
对于给定的输出声道yi[n]的静态下混:
yi[n]=ci,1x1[n]+ci,2x2[n]+…+ci,NxN[n]
其中xj[n]是输入声道并且ci,j是用于输出声道i和输入声道j的下混系数。
每声道响度规格化
利用每声道响度规格化的动态下混:
yi′[n]=di[n]·yi[n]
其中di[n]是依声道而定的增益,给出如下
d i &lsqb; n &rsqb; = ( c i , 1 L ( x 1 &lsqb; n &rsqb; ) ) 2 + ( c i , 2 L ( x 2 &lsqb; n &rsqb; ) ) 2 + ... + ( c i , N L ( x N &lsqb; n &rsqb; ) ) 2 ( L ( y i &lsqb; n &rsqb; ) ) 2
并且L(x)是诸如在BS.1770中定义的响度估计函数。
直观地,随时间变化的每声道增益可以被看作每个输入声道的累加响度(通过适当的下混系数加权)与每个静态下混声道的响度之比。
总响度规格化
利用总响度规格化的动态下混:
yi″[n]=g[n]·yi′[n]
其中g[n]是独立于声道的增益,给出如下
g &lsqb; n &rsqb; = ( L ( x 1 &lsqb; n &rsqb; ) ) 2 + ( L ( x 2 &lsqb; n &rsqb; ) ) 2 + ... + ( L ( x N &lsqb; n &rsqb; ) ) 2 ( L ( y 1 &prime; &lsqb; n &rsqb; ) ) 2 + ( L ( y 2 &prime; &lsqb; n &rsqb; ) ) 2 + ... + ( L ( y M &prime; &lsqb; n &rsqb; ) ) 2
直观地,随时间变化的独立于声道的增益可以被看作输入声道的累加响度与下混声道的累加响度之比。
V.B.上混体系架构
在图6中所示的基于多元组的矩阵上混系统600的示例性实施例中,系统600接受M声道音频信号并输出N声道音频信号,其中M和N是整数并且N大于M。在一些实施例中,系统600将以与如由下混器处理的原始声道布局相同的输出声道布局为目标。在一些实施例中,上混处理在频域中执行,其中包括分析和合成滤波器组。在频域中执行上混处理允许对多个频带进行单独处理。单独处理多个频带允许上混器处理其中不同频带从声场中不同位置同时发出的情况。但是,应当注意,还有可能对宽带时域信号执行上混处理。
在输入音频信号被转换为频域表示后,对剩余声道已经遵循本文先前描述的四元组数学框架进行矩阵化的任何四元组声道集合执行空间分析。基于四元组空间分析,再次遵循先前描述的四元组框架从四元组集合提取输出声道。提取的声道对应于在下混系统500中被原始矩阵化到四元组集合上的剩余声道。然后,再次遵循先前描述的四元组框架,四元组集合基于提取的声道被适当地重新平移。
在已经执行四元组处理之后,下混声道被传递到三元组处理模块,在那里,对剩余声道已经遵循本文先前描述的三元组数学框架进行矩阵化的任何三元组声道集合执行空间分析。基于三元组空间分析,再次遵循先前描述的三元组框架从三元组集合提取输出声道。提取的声道对应于在下混系统500中被原始矩阵化到三元组集合的剩余声道。然后,再次遵循先前描述的三元组框架,三元组集合基于提取的声道被适当地重新平移。
在已经执行三元组处理之后,下混声道被传递到按对处理模块,在那里,对剩余声道已经遵循本文先前描述的按对数学框架进行矩阵化的任何三元组声道集合执行空间分析。基于按对空间分析,再次遵循先前描述的按对框架从按对集合提取输出声道。提取的声道对应于在下混系统500中被原始矩阵化到按对集合的剩余声道。然后,再次遵循先前描述的按对框架,按对集合基于提取出的声道被适当地重新平移。
在这个时候,N声道输出信号已经生成(在频域中)并且由所有从四元组、三元组和按对集合提取的声道以及重新平移的下混声道组成。在将声道转换回时域之前,上混系统600的一些实施例可以执行子带功率规格化,其被设计为将每个输出子带内的总功率规格化到每个输入下混子带的总功率。每个输入下混子带的总功率可以被估计为:
P i n &lsqb; m , k &rsqb; = &Sigma; i = 1 M | Y i &lsqb; m , k &rsqb; | 2
其中Yi[m,k]是频域中的第i个输入下混声道,Pin[m,k]是子带总下混功率估计,m是时间索引(有可能由于滤波器组结构而被抽取),并且k是子带索引。
类似地,每个输出子带的总功率可以被估计为:
P o u t &lsqb; m , k &rsqb; = &Sigma; j = 1 N | Z j &lsqb; m , k &rsqb; | 2
其中Zj[m,k]是频域中的第j个输出声道并且Pout[m,k]是子带总输出功率估计。
现在输入和输出子带功率二者的估计都已经计算出,我们可以经由以下规格化等式规格化输出音频信号以使得每个子带的输出信号的功率将大致等于每个子带的输入下混信号的功率:
Z j &prime; &lsqb; m , k &rsqb; = P i n &lsqb; m , k &rsqb; P o u t &lsqb; m , k &rsqb; Z j &lsqb; m , k &rsqb; , 1 &le; j &le; N
在以上的等式中,可以观察到,子带功率规格化处理致使以每个子带的输入功率与输出功率之比缩放所有输出声道。如果上混器不在频域中执行,则代替类似于在下混体系架构中描述的子带功率规格化处理,可以执行响度规格化处理。
一旦所有输出声道都已经被生成并且子带功率已被规格化,频域输出声道就被发送到将频域声道转换回时域声道的合成滤波器组模块。
V.C.混合、平移和上混法则
依赖于扬声器的配置,根据编解码器400和方法的实施例的实际矩阵下混和互补上混是利用按对、三元组以及优选地还有四元组混合法则的组合来执行的。换句话说,如果在记录/混合中,特定的扬声器通过下混要被消除或虚拟化,则确定位置是否是如下情况:a)在一对存留扬声器之间的线段上或其附近,b)在由3个存留声道/扬声器定义的三角形内,或c)在由四个声道扬声器定义的四边形内,每个扬声器位于一个顶点处。
例如,这最后一种情况对于矩阵化设置在顶点的高度声道是有利的。还应当注意,在编解码器400和方法的其它实施例中,如果原始和下混声道布局的几何形状需要,则矩阵化可以被扩展超出四元组声道集合,诸如扩展成五元组或六元组。
在编解码器400和方法的一些实施例中,每个音频声道中的信号被过滤到多个子带中,例如感知相关的频带,诸如“Bark带”。这可以有利地通过正交镜像滤波器的带或通过多相滤波器来实现,随后可选地进行抽取以减少在每个子带中所需的样本数(在本领域中已知)。在滤波后,应当在音频声道的每个耦合集合(对、三元组或四元组)中的每个感知显著的子带中独立地执行矩阵下混分析。然后,子带的每个耦合集合优选地通过以下阐述的等式和方法进行分析和处理以提供适当的下混,通过在解码器的每个子带声道集合中执行互补的上混,可以从该适当的下混恢复原始的离散子带声道集合。
根据编解码器400和方法的实施例,以下讨论阐述用于将N个声道下混(和互补的上混)成M个声道(反之亦然)的优选方法,其中剩余声道当中每一个被混合到声道对(二元组)、三元组或四元组。无论是在每个子带中还是在宽带信号声道中混合,相同的等式和原理可适用。
在解码器上混的情况下,操作的次序是重要的,因为,根据编解码器400和方法的优选实施例,非常优选地首先处理四元组集合、然后三元组集合、然后声道对。这可以扩展到有Y-多元组的情况以使得最大的多元组被首先处理,接下来是下一个最大的多元组,以此类推。首先处理具有最大声道数的声道集合允许上混器分析最广泛和最普遍的声道关系。通过在三元组或按对集合之前处理四元组集合,上混器可以准确地分析跨包括在四元组集合中的所有声道共同的相关信号分量。在最广泛的声道关系经由四元组处理被分析和处理之后,下一个最广泛的声道关系可以经由三元组处理被分析和处理。最有限的声道关系(按对关系)被最后处理。如果三元组或按对集合碰巧在四元组集合之前被处理,则虽然一些有意义的声道关系可以跨三元组或按对声道被观察到,但是那些观察到的声道关系将只是实际声道关系的子集。
作为示例,考虑一个场景,其中原始音频信号的给定声道(称其为声道A)被下混到四元组集合上。在上混器处,四元组处理将能够跨四元组集合分析声道A的共同信号分量并提取原始音频声道A的近似。任何后续的三元组或按对处理将如预期的那样被执行,并且没有进一步的分析或提取将对声道A信号分量执行,因为它们已经被提取了。相反,如果三元组处理在四元组处理之前被执行(并且三元组集合是四元组集合的子集),则三元组处理将跨三元组集合分析声道A的共同信号分量并将音频信号提取到不同的输出声道(即,不是输出声道A)。然后,如果四元组处理在三元组处理之后被执行,则原始音频声道A将不能够被提取,因为仅声道A信号分量的一部分将仍然跨四元组声道集合存在(即,声道A信号分量的一部分已经在三元组处理期间被提取)。
如上面所解释的,首先处理四元组集合、接着处理三元组集合、接着最后处理按对集合是优选的处理顺序。应当注意的是,虽然以上讨论处理按对(二元组)、三元组和四元组集合,但是任何数量的集合都是可能的。对于按对集合,形成线,对于三元组集合,形成三角形,并且对于四元组集合,形成正方形。但是,其它类型的多边形也是可能的。
V.D.按对矩阵化例
根据编解码器400和方法的实施例,当非存留(或剩余)声道的位置位于由两个存留声道(或存留声道中对应的子带)的位置限定的二元组之间时,如下所述的,要被下混的声道应当根据一组二元组(或按对)声道关系进行矩阵化。
基于多元组的空间矩阵化编解码器400和方法的实施例计算左和右声道之间的声道间水平差。这个计算在下面详细示出。而且,编解码器400和方法使用声道间水平差来计算估计的平移角度。此外,声道间相位差由该方法利用左和右输入声道来计算。这个声道间相位差确定左和右输入声道之间的相对相位差,该相对相位差指示双声道输入音频信号的左和右信号是同相还是异相。
编解码器400和方法的一些实施例利用平移角度(θ)来从双声道下混确定下混处理和随后的上混处理。而且,一些实施例采用正弦/余弦平移法则。在这些情况下,双声道下混是作为平移角度的函数来计算的:
L = &PlusMinus; c o s ( &theta; &pi; 2 ) X i
R = &PlusMinus; s i n ( &theta; &pi; 2 ) X i
其中Xi是输入声道,L和R是下混声道,θ是平移角度(在0和1之间规格化),并且平移权重的极性由输入声道Xi的位置确定。在传统的矩阵化系统中,位于收听者前面的输入声道利用同相信号分量被下混(换句话说,与平移权重具有相等的极性)并且位于收听者后面的输出声道利用异相信号分量被下混(换句话说,与平移权重具有相反的极性)是很常见的。
图12示出了对于正弦/余弦平移法则作为平移角度(θ)的函数的平移权重。第一曲线图1200表示用于右声道的平移权重(WR)。第二曲线图1210表示用于左声道的权重(WL)。作为示例并且参照图12,中心声道可以使用0.5的平移角度,从而得到下混函数:
L=0.707·C
R=0.707·C
为了从双声道下混合成附加的音频声道,平移角度的估计(或估计的平移角度,表示为)可以从声道间水平差(表示为ICLD)来计算。令ICLD被定义为:
I C L D = L 2 L 2 + R 2
假设信号分量是利用正弦/余弦平移法则经由强度平移生成的,则ICLD可以表示为平移角度估计的函数:
I C L D = cos 2 ( &theta; ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + sin 2 ( &theta; ^ &pi; 2 ) = cos 2 ( &theta; ^ &pi; 2 )
然后,平移角度估计可以表示为ICLD的函数:
&theta; ^ = 2 &CenterDot; cos - 1 ( I C L D ) &pi;
下列角度和与差恒等式将贯穿剩余的推导被使用:
sin(α±β)=sin(α)cos(β)±cos(α)sin(β)
而且,下面的推导假设5.1环绕声输出配置。但是,这种分析可以容易地应用到附加的声道。
中心声道合成
中心声道是利用以下等式从双声道下混生成的:
C=aL+bR
其中a和b系数是基于平移角度估计确定的,以实现某些预定义的目标。
同相分量
对于中心声道的同相分量,期望的平移行为在图13中示出。图13示出了对应于由下式给出的同相曲线图1300的平移行为:
C = sin ( &theta; ^ &pi; )
代入用于同相分量的期望的中心声道平移行为和假设的正弦/余弦下混函数产生:
s i n ( &theta; ^ &pi; ) = a &CenterDot; c o s ( &theta; ^ &pi; 2 ) + b &CenterDot; s i n ( &theta; ^ &pi; 2 )
利用角度和恒等式,反矩阵化系数,包括第一反矩阵化系数(表示为α)和第二反矩阵化系数(表示为b),可被推导为:
a = s i n ( &theta; ^ &pi; 2 )
b = c o s ( &theta; ^ &pi; 2 )
异相分量
对于中心声道的异相分量,期望的平移行为在图14中示出。图14示出了对应于由下式给出的异相曲线图1400的平移行为:
C=0
代入用于异相分量的期望的中心声道平移行为和假设的正弦/余弦下混函数得出:
0 = s i n ( 0 ) = a &CenterDot; c o s ( &theta; ^ &pi; 2 ) + b &CenterDot; - s i n ( &theta; ^ &pi; 2 )
利用角度和恒等式,a和b系数可以被推导为:
a = s i n ( &theta; ^ &pi; 2 )
b = c o s ( &theta; ^ &pi; 2 )
环绕声道合成
环绕声道是利用以下等式从双声道下混生成的:
Ls=aL-bR
Rs=aR-bL
其中Ls是左环绕声道并且Rs是右环绕声道。
而且,a和b系数是基于估计的平移角度确定的,以实现某些预先定义的目标。
同相分量
用于左环绕声道的同相分量的理想平移行为在图15中示出。图15示出了对应于由下式给出的同相曲线图1500的平移行为:
Ls=0
代入用于同相分量的期望的左环绕声道平移行为和假设的正弦/余弦下混函数得出:
0 = s i n ( 0 ) = a &CenterDot; c o s ( &theta; ^ &pi; 2 ) - b &CenterDot; s i n ( &theta; ^ &pi; 2 )
利用角度和恒等式,a和b系数可以被推导为:
a = s i n ( &theta; ^ &pi; 2 )
b = c o s ( &theta; ^ &pi; 2 )
异相分量
对用于异相分量的左环绕声道的目标是实现如由图16中的异相曲线图1600所示的平移行为。图16示出了对应于下混等式的两个特定角度,其中左环绕和右环绕声道被离散地编码和解码(这些角度在图16中的异相曲线图1600上大约为0.25和0.75(对应于45°和135°))。这些角度被称为:
θLS=左环绕编码角度(约0.25)
θRS=右环绕编码角度(约0.75)
由于期望的输出的分段行为,用于左环绕声道的a和b系数经由分段函数生成。对于用于左环绕声道的期望平移行为对应于:
L s = s i n ( &theta; ^ &theta; L s &pi; 2 )
代入用于异相分量的期望左环绕声道平移行为和假设的正弦/余弦下混函数得出:
s i n ( &theta; ^ &theta; L s &pi; 2 ) = a &CenterDot; c o s ( &theta; ^ &pi; 2 ) - b &CenterDot; - s i n ( &theta; ^ &pi; 2 )
利用角度和恒等式,a和b系数可以被推导为:
a = s i n ( &theta; ^ &theta; L s &pi; 2 - &theta; ^ &pi; 2 )
b = c o s ( &theta; ^ &theta; L s &pi; 2 - &theta; ^ &pi; 2 )
对于用于左环绕声道的期望平移行为对应于:
L s = c o s ( &theta; ^ - &theta; L s &theta; R s - &theta; L s &pi; 2 )
代入用于异相分量的期望的左环绕声道平移行为和假设的正弦/余弦下混函数得出:
c o s ( &theta; ^ - &theta; L s &theta; R s - &theta; L s &pi; 2 ) = a &CenterDot; c o s ( &theta; ^ &pi; 2 ) - b &CenterDot; - s i n ( &theta; ^ &pi; 2 )
利用角度和恒等式,a和b系数可以被推导为:
a = c o s ( &theta; ^ - &theta; L s &theta; R s - &theta; L s &pi; 2 - &theta; ^ &pi; 2 )
b = - s i n ( &theta; ^ - &theta; L s &theta; R s - &theta; L s &pi; 2 - &theta; ^ &pi; 2 )
对于用于左环绕声道的期望平移行为对应于:
Ls=0
代入用于异相分量的期望的左环绕声道平移行为和假设的正弦/余弦下混函数得出:
0 = s i n ( 0 ) = a &CenterDot; c o s ( &theta; ^ &pi; 2 ) - b &CenterDot; - s i n ( &theta; ^ &pi; 2 )
利用角度和恒等式,a和b系数可以被推导为:
a = s i n ( &theta; ^ &pi; 2 )
b = - c o s ( &theta; ^ &pi; 2 )
用于右环绕声道生成的a和b系数与如上所述的用于左环绕声道生成的那些类似地计算。
修改的左声道和修改的右声道合成
左声道和右声道利用以下等式被修改以去除(或者全部或者部分)在中心和环绕声道中生成的那些分量:
L′=aL-bR
R′=aR-bL
其中a和b系数是基于平移角度估计确定的,以实现某些预定义的目标,并且L’是修改的左声道并且R’是修改的右声道。
同相分量
用于同相分量的修改的左声道的目标是实现如由图17中的同相曲线图1700所示的平移行为。在图17中,0.5的平移角度θ对应于离散的中心声道。由于期望的输出的分段行为,用于修改的左声道的a和b系数经由分段函数生成。
对于用于修改的左声道的期望平移行为对应于:
L &prime; = c o s ( &theta; ^ 0.5 &pi; 2 )
代入用于同相分量的期望的修改的左声道平移行为和假设的正弦/余弦下混函数得出:
c o s ( &theta; ^ 0.5 &pi; 2 ) = a &CenterDot; c o s ( &theta; ^ &pi; 2 ) - b &CenterDot; s i n ( &theta; ^ &pi; 2 )
利用角度和恒等式,a和b系数可以被推导为:
a = c o s ( &theta; ^ 0.5 &pi; 2 - &theta; ^ &pi; 2 )
b = s i n ( &theta; ^ 0.5 &pi; 2 - &theta; ^ &pi; 2 )
对于用于修改的左声道的期望平移行为对应于:
L′=0
代入用于同相分量的期望的修改的左声道平移行为和假设的正弦/余弦下混函数得出:
0 = s i n ( 0 ) = a &CenterDot; c o s ( &theta; ^ &pi; 2 ) - b &CenterDot; s i n ( &theta; ^ &pi; 2 ) .
利用角度和恒等式,a和b系数可以被推导为:
a = s i n ( &theta; ^ &pi; 2 )
b = c o s ( &theta; ^ &pi; 2 ) .
异相分量
用于异相分量的修改的左声道的目标是实现如由图18中的异相曲线图1800所示的平移行为。在图18中,平移角度θ=θLS对应于用于左环绕声道的编码角度。由于期望的输出的分段行为,用于修改的左声道的a和b系数经由分段函数生成。
对于用于修改的左声道的期望平移行为对应于:
L &prime; = c o s ( &theta; ^ &theta; L s &pi; 2 ) .
代入用于异相分量的期望的修改的左声道平移行为和假设的正弦/余弦下混函数得出:
c o s ( &theta; ^ &theta; L s &pi; 2 ) = a &CenterDot; c o s ( &theta; ^ &pi; 2 ) - b &CenterDot; - s i n ( &theta; ^ &pi; 2 ) .
利用角度和恒等式,a和b系数可以被推导为:
a = c o s ( &theta; ^ &theta; L s &pi; 2 - &theta; ^ &pi; 2 )
b = - s i n ( &theta; ^ &theta; L s &pi; 2 - &theta; ^ &pi; 2 ) .
对于用于于修改的左声道的期望平移行为对应于:
L′=0。
代入用于异相分量的期望的修改的左声道平移行为和假设的正弦/余弦下混函数得出:
0 = s i n ( 0 ) = a &CenterDot; c o s ( &theta; ^ &pi; 2 ) - b &CenterDot; - s i n ( &theta; ^ &pi; 2 ) ..
利用角度和恒等式,a和b系数可以被推导为:
a = s i n ( &theta; ^ &pi; 2 )
b = - c o s ( &theta; ^ &pi; 2 )
用于修改的右声道生成的a和b系数与如上所述的用于修改的左声道生成的那些类似地计算。
系数插值
上面给出的声道合成推导是基于对同相或者异相的源内容实现期望的平移行为。源内容的相对相位差可以通过被定义为的声道间相位差(ICPD)特性来确定,其中*表示复共轭。
ICPD值在范围[-1,1]中被界定,其中值-1指示分量是异相的并且值1指示分量是同相的。然后,ICPD特性可被用来确定最终的a和b系数,以便在利用线性插值的声道合成等式中使用。但是,代替直接插值a和b系数,应当注意的是,所有的a和b系数是利用平移角度估计的三角函数生成的。
因此线性插值是对三角函数的角度自变量执行的。以这种方式执行线性插值有两个主要优点。首先,它对任何平移角度和ICPD值保留了a2+b2=1特性。其次,它减少了所需的三角函数的调用的次数从而减少了处理要求。
角度插值使用规格化到范围[0,1]的修改的ICPD值,其被计算为:
ICPD &prime; = I C P D + 1 2 .
中心输出声道
中心输出声道是利用修改的ICPD值生成的,该中心输出声道被定义为:
C=aL+bR
其中
a=sin(ICPD′·α+(1-ICPD′)·β)
b=cos(ICPD′·α+(1-ICPD′)·β)。
以上正弦函数的自变量的第一项表示第一反矩阵化系数的同相分量,而第二项表示异相分量。因此,α表示同相系数并且β表示异相系数。同相系数和异相系数一起被称为相位系数。
对于每个输出声道,编解码器400和方法的实施例基于估计的平移角度计算相位系数。对于中心输出声道,同相系数和异相系数如下给出:
&alpha; = &theta; ^ &pi; 2
&beta; = &theta; ^ &pi; 2 .
左环绕输出声道
左环绕输出声道是利用修改的ICPD值生成的,其被定义为:
Ls=aL-bR
其中
a=sin(ICPD′·α+(1-ICPD′)·β)
b=cos(ICPD′·α+(1-ICPD′)·β)
并且
&alpha; = &theta; ^ &pi; 2
&beta; = { &theta; ^ &theta; L s &pi; 2 - &theta; ^ &pi; 2 , &theta; ^ &le; &theta; L s &theta; ^ - &theta; L s &theta; R s - &theta; L s &pi; 2 - &theta; ^ &pi; 2 + &pi; 2 , &theta; L s < &theta; ^ &le; &theta; R s &pi; - &theta; ^ &pi; 2 , &theta; ^ > &theta; R s .
注意,一些三角恒等式和相位缠绕(wrapping)特性被应用以便将α和β系数简化成上面给出的等式。
右环绕输出声道
右环绕输出声道是利用修改的ICPD值生成的,其被定义为:
Rs=aR-bL
其中
a=sin(ICPD′·α+(1-ICPD′)·β)
b=cos(ICPD′·α+(1-ICPD′)·β)
并且
&alpha; = ( 1 - &theta; ^ ) &pi; 2
&beta; = ( 1 - &theta; ^ ) &theta; L s &pi; 2 - ( 1 - &theta; ^ ) &pi; 2 , ( 1 - &theta; ^ ) &le; &theta; L s ( 1 - &theta; ^ ) - &theta; L s &theta; R s - &theta; L s &pi; 2 - ( 1 - &theta; ^ ) &pi; 2 + &pi; 2 , &theta; L s < ( 1 - &theta; ^ ) &le; &theta; R s &pi; - ( 1 - &theta; ^ ) &pi; 2 , ( 1 - &theta; ^ ) > &theta; R s .
应当,除了代替利用作为平移角度,类似于左环绕声道地生成用于右环绕声道的α和β系数。
修改的左输出声道
修改的左输出声道是利用修改的ICPD值如下生成的:
L′=aL-bR
其中
a=sin(ICPD′·α+(1-ICPD′)·β)
b=cos(ICPD′·α+(1-ICPD′)·β)
并且
&alpha; = &pi; 2 - &theta; ^ 0.5 &pi; 2 + &theta; ^ &pi; 2 , &theta; ^ &le; 0.5 &theta; ^ &pi; 2 , &theta; ^ > 0.5
&beta; = { &theta; ^ &theta; L s &pi; 2 - &theta; ^ &pi; 2 + &pi; 2 , &theta; ^ &le; &theta; L s &pi; - &theta; ^ &pi; 2 , &theta; ^ > &theta; L s .
修改的右输出声道
修改的右输出声道是利用修改的ICPD值如下生成的:
R′=aR-bL
其中
a=sin(ICPD′·α+(1-ICPD′)·β)
b=cos(ICPD′·α+(1-ICPD′)·β)
并且
&alpha; = &pi; 2 - ( 1 - &theta; ^ ) 0.5 &pi; 2 + ( 1 - &theta; ^ ) &pi; 2 , ( 1 - &theta; ^ ) &le; 0.5 ( 1 - &theta; ^ ) &pi; 2 , ( 1 - &theta; ^ ) > 0.5
&beta; = ( 1 - &theta; ^ ) &theta; L s &pi; 2 - ( 1 - &theta; ^ ) &pi; 2 + &pi; 2 , ( 1 - &theta; ^ ) &le; &theta; L s &pi; - ( 1 - &theta; ^ ) &pi; 2 , ( 1 - &theta; ^ ) > &theta; L s .
注意,除了代替利用作为平移角度,类似于左声道地生成用于右声道的α和β系数。
上面讨论的主题是用于从双声道下混生成中心、左环绕、右环绕、左和右声道的系统。但是,通过定义附加的平移行为,该系统可以容易地被修改为生成其它附加的音频声道。
V.E.三元组矩阵化例
根据编解码器400和方法的实施例,当非存留(或剩余)声道的位置位于由三个存留声道(或存留声道中对应的子带)的位置限定的三角形内时,如下所述的,要被下混的声道应当根据一组三元组声道关系来矩阵化。
下混例
非存留声道被下混到构成三角形的三个存留声道上。在数学上,信号S被幅度平移到声道三元组C1/C2/C3上。图19是示出信号源S平移到声道三元组上的图。参照图19,对于位于声道C1和C2之间的信号源S,假设声道C1/C2/C3是根据下列信号模型生成的:
C 1 = sin 2 ( r &pi; 2 ) cos 2 ( &theta; &pi; 2 ) + cos 2 ( r &pi; 2 ) ( 3 3 ) 2 S
C 2 = sin 2 ( r &pi; 2 ) sin 2 ( &theta; &pi; 2 ) + cos 2 ( r &pi; 2 ) ( 3 3 ) 2 S
C 3 = cos 2 ( r &pi; 2 ) ( 3 3 ) 2 S
其中r是信号源离原点的距离(规格化到范围[0,1])并且θ是信号源在声道C1和C2之间的角度(规格化到范围[0,1])。注意,以上用于声道C1/C2/C3的声道平移权重被设计为保持当其平移到C1/C2/C3上时的信号S的功率。
上混例
当上混三元组时,目标是通过从输入的三元组C1/C2/C3创建四个输出声道C1′/C2′/C3′/C4来获得被下混到三元组上的非存留声道。图20是示出已被平移到三元组上的非存留第四声道的提取的图。参照图20,第四输出声道C4的位置被假设为在原点,而其它三个输出声道C1′/C2′/C3′的位置被假设为与输入声道C1/C2/C3相同。基于多元组的空间矩阵化解码器420的实施例生成四个输出声道以使得原始信号分量S的空间位置和信号能量被保留。
声源S的原始位置不被发送到基于多元组的空间矩阵化解码器420的实施例,并且它只能从输入声道C1/C2/C3自己估计。解码器420的实施例能够适当地生成用于S的任意位置的四个输出声道。对于本节的剩余部分,可以假设原始信号分量S具有单位能量(即,|S|=1)以简化推导而不失一般性。
从声道能量推导 估计
r ^ = 2 &pi; &CenterDot; cos - 1 ( 3 C 3 2 C 1 2 + C 2 2 + C 3 2 )
&theta; ^ = 2 &pi; &CenterDot; cos - 1 ( C 1 2 - C 3 2 C 1 2 + C 2 2 - 2 C 3 2 )
声道能量比
以下的能量比将贯穿本节的剩余部分被使用:
&mu; i 2 = C i 2 &Sigma; j C j 2
这三个能量比在范围[0,1]中并且总和为1。
C 4 声道合成
输出声道C4将经由下面的等式生成:
C4=aC1+bC2+cC3
其中a、b和c系数将基于估计的角度和半径来确定。
目标是:
sin 2 ( r ^ &pi; 2 ) &CenterDot; 0 + cos 2 ( r ^ &pi; 2 ) &CenterDot; 1 = a sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 + b sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 + c cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
令a=da′、b=db′并且c=dc′,其中:
a &prime; = sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
b &prime; = sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
c &prime; = cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
以上代入得出:
cos ( r ^ &pi; 2 ) = d ( sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 ) + d ( sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 ) + d ( cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 )
求解d产生:
d = c o s ( r ^ &pi; 2 )
因此α、b和c系数是:
a = cos ( r ^ &pi; 2 ) sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
b = cos ( r ^ &pi; 2 ) sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
c = c o s ( r ^ &pi; 2 ) cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
此外,最终的a、b和c系数可以被简化为仅由声道能量比组成的表达式:
a = 3 &mu; 1 &mu; 3
b = 3 &mu; 2 &mu; 3
c = 3 &mu; 3 &mu; 3
C 1 ′/C 2 ′/C 3 ′声道合成
输出声道C1′/C2′/C3′将从输入声道C1/C2/C3生成以使得已经在输出声道C4中生成的信号分量从输入声道C1/C2/C3中被适当地“去除”。
C 1 ′声道合成
C1′=aC1-bC2-cC3
目标是:
sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) &CenterDot; 0 = a sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - b sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - c cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
令a系数等于:
a = sin 2 ( r ^ &pi; 2 ) &CenterDot; 1 + cos 2 ( r ^ &pi; 2 ) ( 1 1.5 ) 2
令b=db′并且c=dc′,其中:
b &prime; = sin 2 ( r ^ &pi; 2 ) &CenterDot; 0 + cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2
c &prime; = sin 2 ( r ^ &pi; 2 ) &CenterDot; 0 + cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2
以上代入得出:
sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 1 1.5 ) 2 sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - d cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2 sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - d cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2 cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
求解d产生:
d = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 1 1.5 ) 2 sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2 ( sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 )
最终的a、b和c系数可以被简化为仅由声道能量比组成的表达式:
a = 1 - &mu; 3 2
b = &mu; 1 1 - &mu; 3 2 - &mu; 1 2 - &mu; 3 2 &mu; 2 + &mu; 3
c = &mu; 1 1 - &mu; 3 2 - &mu; 1 2 - &mu; 3 2 &mu; 2 + &mu; 3
C 2 ′声道合成
C2′=aC2-bC1-cC3
目标是:
sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) &CenterDot; 0 = a sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - b sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - c cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
令a系数等于:
a = sin 2 ( r ^ &pi; 2 ) &CenterDot; 1 + cos 2 ( r ^ &pi; 2 ) ( 1 1.5 ) 2
令b=db′并且c=dc′,其中:
b &prime; = sin 2 ( r ^ &pi; 2 ) &CenterDot; 0 + cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2
c &prime; = sin 2 ( r ^ &pi; 2 ) &CenterDot; 0 + cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2
以上代入得出:
sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 1 1.5 ) 2 sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - d cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2 sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - d cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2 cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
求解d产生:
d = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 1 1.5 ) 2 sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2 ( sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 )
最终的a、b和c系数可以被简化为仅由声道能量比组成的表达式:
a = 1 - &mu; 3 2
b = &mu; 2 1 - &mu; 3 2 - &mu; 2 2 - &mu; 3 2 &mu; 1 + &mu; 3
c = &mu; 2 1 - &mu; 3 2 - &mu; 2 2 - &mu; 3 2 &mu; 1 + &mu; 3
C 3 ′声道合成
C3′=aC3-bC1-cC2
目标是:
0 = a cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - b sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - c sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
令a系数等于:
a = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 1 1.5 ) 2
令b=db′并且c=dc′,其中:
b &prime; = sin 2 ( r ^ &pi; 2 ) &CenterDot; 0 + cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2
c &prime; = sin 2 ( r ^ &pi; 2 ) &CenterDot; 0 + cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2
以上代入得出:
0 = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 1 1.5 ) 2 cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - d cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2 sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 - d cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2 sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2
求解d产生:
d = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 1 1.5 ) 2 cos 2 ( 3 3 ) 2 cos 2 ( r ^ &pi; 2 ) ( 0.5 1.5 ) 2 ( sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 + sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 3 ) 2 )
最终的a、b和c系数可以被简化为仅由声道能量比组成的表达式:
a = 1 - &mu; 3 2
b = &mu; 3 1 - &mu; 3 2 &mu; 1 + &mu; 2
c = &mu; 3 1 - &mu; 3 2 &mu; 1 + &mu; 2
三元组声道间相位差(ICPD)
可以从底层的(underlying)按对ICPD值计算三元组的声道间相位差(ICPD)空间特性:
I C P D = | C 1 | | C 2 | ICPD 12 + | C 1 | | C 3 | ICPD 13 + | C 2 | | C 3 | ICPD 23 | C 1 | | C 2 | + | C 1 | | C 3 | + | C 2 | | C 3 |
其中底层按对ICPD值是利用下面的等式计算的:
ICPD i j = Re { &Sigma; C i &CenterDot; C j * } &Sigma; | C i | 2 &Sigma; | C j | 2 .
注意,三元组信号模型假设声源已被幅度平移到三元组声道上,这意味着三个声道完全相关。三元组ICPD测量可被用来估计三个声道的总相关性。当三元组声道完全相关(或接近完全相关)时,三元组框架可以被用来生成具有高度可预测结果的四个输出声道。当三元组声道不相关时,可能期望使用不同的框架或方法,因为不相关的三元组声道违反假设的信号模型,这可能导致不可预测的结果。
V.F.四元组矩阵化例
根据编解码器400和方法的实施例,当某些对称条件占优势(prevail)时,剩余声道(或声道子带)可以有利地被认为位于四边形内。在这种情况下,编解码器400和方法的实施例包括根据以下描述的四元组例关系集合的下混(和互补的上混)。
下混例
非存留声道被下混到构成四边形的四个存留声道上。在数学上,信号源S被幅度平移到声道四元组C1/C2/C3/C4上。图21是示出信号源S平移到声道四元组上的图。参照图21,对于位于声道C1和C2之间的信号源S,假设声道C1/C2/C3/C4是根据下列信号模型生成的:
C 1 = sin 2 ( r &pi; 2 ) cos 2 ( &theta; &pi; 2 ) + cos 2 ( r &pi; 2 ) ( 4 4 ) 2 S
C 2 = sin 2 ( r &pi; 2 ) sin 2 ( &theta; &pi; 2 ) + cos 2 ( r &pi; 2 ) ( 4 4 ) 2 S
C 3 = cos 2 ( r &pi; 2 ) ( 4 4 ) 2 S
C 4 = cos 2 ( r &pi; 2 ) ( 4 4 ) 2 S
其中r是信号源离原点的距离(规格化到范围[0,1])并且θ是信号源在声道C1和C2之间的角度(规格化到范围[0,1])。注意,以上用于声道C1/C2/C3/C4的声道平移权重被设计为当其平移到C1/C2/C3/C4上时保留信号S的功率。
上混例
当上混四元组时,目标是通过从输入四元组C1/C2/C3/C4创建五个输出声道C1′/C2′/C3′/C4′/C5来获得被下混到四元组上的非存留声道。图22是示出已被平移到四元组上的非存留第五声道的提取的图。参照图22,第五输出声道C5的位置被假设为在原点,而其它四个输出声道C1′/C2′/C3′/C4′的位置被假设为与输入声道C1/C2/C3/C4相同。基于多元组的空间矩阵化解码器420的实施例生成五个输出声道以使得原始信号分量S的空间位置和信号能量被保留。
声源S的原始位置不被发送到解码器420的实施例,并且只能从输入声道C1/C2/C3/C4自己估计。解码器420的实施例必须能够对于S的任何任意位置适当地生成五个输出声道。
对于本节的剩余部分,可以假设原始信号分量S具有单位能量(换句话说,|S|=1)以简化推导而不失一般性。解码器首先从声道能量C1 2/C2 2/C3 2/C4 2推导
r ^ = 2 &pi; &CenterDot; cos - 1 ( 4 min ( C 3 2 , C 4 2 ) C 1 2 + C 2 2 + C 3 2 + C 4 2 ) = 2 &pi; &CenterDot; cos - 1 ( C 1 2 - min ( C 3 2 , C 4 2 ) C 1 2 + C 2 2 + C 3 2 + C 4 2 - 4 min ( C 3 2 , C 4 2 ) )
注意,在上述等式中使用C3和C4声道的最小能量(换句话说,min(C3 2,C4 2)以处理当输入四元组C1/C2/C3/C4打破先前识别出的信号模型假设的情况。信号模型假设C3和C4的能量水平将彼此相等。但是,如果对任意输入信号情况不是这样并且C3和C4不相等,则可能期望跨输出声道C1′/C2′/C3′/C4′/C5限制输入信号的重新平移。这可以通过合成最小输出声道C5并尽可能类似于其对应的输入声道C1/C2/C3/C4地保留输出声道C1′/C2′/C3′/C4′来实现。在本节中,对C3和C4声道最小功能的使用尝试实现这个目标。
声道能量比
下面的能量比将贯穿本节的剩余部分使用:
&mu; i 2 = C i 2 &Sigma; j C j 2
这四个能量比在范围[0,1]中并且总和为1。
C 5 声道合成
输出声道C5将通过下面的等式来生成:
C5=aC1+bC2+cC3+dC4
其中a、b、c和d系数将基于估计的角度和半径来确定。
目标:
cos 2 ( r ^ &pi; 2 ) = a sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 + b sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 + c cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 + d cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
令a=ea′、b=eb′、c=ec′并且d=ed′,其中
a &prime; = sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
b &prime; = sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
c &prime; = cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
d &prime; = cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
以上代入得出:
cos ( r ^ &pi; 2 ) = e ( sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 ) + e ( sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 ) + e ( cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 ) + e ( cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 )
求解e产生:
e = c o s ( r ^ &pi; 2 )
因此a、b、c和d系数是:
a = cos ( r ^ &pi; 2 ) sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
b = cos ( r ^ &pi; 2 ) sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos ( r ^ &pi; 2 ) ( 4 4 ) 2
c = c o s ( r ^ &pi; 2 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
d = c o s ( r ^ &pi; 2 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
此外,最终的a、b、c和d系数可以被简化为仅由声道能量比组成的表达式:
a=2μ1min(μ3,μ4)
b=2μ2min(μ3,μ4)
c=2min(μ3,μ4min(μ3,μ4)
d=2min(μ3,μ4)min(μ3,μ4)
C 1 ′/C 2 ′/C 3 ′/C 4 ′声道合成
输出声道C1′/C2′/C3′/C4′将从输入声道C1/C2/C3/C4生成以使得已经在输出声道C5中生成的信号分量将从输入声道C1/C2/C3/C4被适当地“去除”。
C 1 ′声道合成
C1′=aC1-bC2-cC3-dC4
目标:
sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) = a sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - b sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - c cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - d cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
令a系数等于
a = sin 2 ( r ^ &pi; 2 ) + cos 2 ( &theta; ^ &pi; 2 ) 3 4 2
令b=eb′、c=ec′并且d=ed′,其中
b &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
c &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
d &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
以上代入得出:
sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 4 ) sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
求解e产生:
e = sin 2 ( r ^ &pi; 2 ) + 3 cos 2 ( r ^ &pi; 2 ) 4 sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) 4 - sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) cos 2 ( r ^ &pi; 2 ) 12 ( sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) 4 + cos 2 ( r ^ &pi; 2 ) )
最终的a、b、c和d系数可以被简化为仅由声道能量比组成的表达式:
a = 1 - m i n ( &mu; 3 2 , &mu; 4 2 )
b = &mu; 1 1 - m i n ( &mu; 3 2 , &mu; 4 2 ) - &mu; 1 2 - m i n ( &mu; 3 2 , &mu; 4 2 ) &mu; 2 + 2 m i n ( &mu; 3 , &mu; 4 )
c = &mu; 1 1 - m i n ( &mu; 3 2 , &mu; 4 2 ) - &mu; 1 2 - m i n ( &mu; 3 2 , &mu; 4 2 ) &mu; 2 + 2 min ( &mu; 3 , &mu; 4 )
d = &mu; 1 1 - min ( &mu; 3 2 , &mu; 4 2 ) - &mu; 1 2 - min ( &mu; 3 2 , &mu; 4 2 ) &mu; 2 + 2 min ( &mu; 3 , &mu; 4 )
C 2 ′声道合成
C2′=aC2-bC1-cC3-dC4
目标:
sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) = a sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - b sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - c cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - d cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
令a系数等于
a = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) 3 4 2
令b=eb′、c=ec′并且d=ed′,其中
b &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
c &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
d &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
以上代入得出:
sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 4 ) sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
求解e产生:
e = sin 2 ( r ^ &pi; 2 ) + 3 cos 2 ( r ^ &pi; 2 ) 4 sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) 4 - sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) cos 2 ( r ^ &pi; 2 ) 12 ( sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) 4 + cos 2 ( r ^ &pi; 2 ) )
最终的a、b、c和d系数可以被简化为仅由声道能量比组成的表达式:
a = 1 - m i n ( &mu; 3 2 , &mu; 4 2 )
b = &mu; 2 1 - m i n ( &mu; 3 2 , &mu; 4 2 ) - &mu; 2 2 - m i n ( &mu; 3 2 , &mu; 4 2 ) &mu; 1 + 2 min ( &mu; 3 , &mu; 4 )
c = &mu; 2 1 - min ( &mu; 3 2 , &mu; 4 2 ) - &mu; 2 2 - min ( &mu; 3 2 , &mu; 4 2 ) &mu; 1 + 2 min ( &mu; 3 , &mu; 4 )
d = &mu; 2 1 - min ( &mu; 3 2 , &mu; 4 2 ) - &mu; 2 2 - min ( &mu; 3 2 , &mu; 4 2 ) &mu; 1 + 2 min ( &mu; 3 , &mu; 4 )
C 3 ′声道合成
C3′=aC3-bC1-cC2-dC4
目标:
0 = a cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - b sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - c sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - d cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
令a系数等于
a = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) 3 4 2
令b=eb′、c=ec′并且d=ed′,其中
b &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
c &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
d &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
以上代入得出:
0 = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 4 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
求解e产生:
e = sin 2 ( r ^ &pi; 2 ) + 3 cos 2 ( r ^ &pi; 2 ) 4 cos 2 ( r ^ &pi; 2 ) 4 cos 2 ( r ^ &pi; 2 ) 12 ( sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) 4 + sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) 4 + cos 2 ( r ^ &pi; 2 ) 4 )
最终的a、b、c和d系数可以被简化为仅由声道能量比组成的表达式:
a = 1 - min ( &mu; 3 2 , &mu; 4 2 )
b = m i n ( &mu; 3 , &mu; 4 ) 1 - m i n ( &mu; 3 2 , &mu; 4 2 ) &mu; 1 + &mu; 2 + m i n ( &mu; 3 , &mu; 4 )
c = m i n ( &mu; 3 , &mu; 4 ) 1 - m i n ( &mu; 3 2 , &mu; 4 2 ) &mu; 1 + &mu; 2 + m i n ( &mu; 3 , &mu; 4 )
d = m i n ( &mu; 3 , &mu; 4 ) 1 - m i n ( &mu; 3 2 , &mu; 4 2 ) &mu; 1 + &mu; 2 + m i n ( &mu; 3 , &mu; 4 )
C 4 ′声道合成
C4′=aC4-bC1-cC2-dC3
目标:
0 = a cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - b sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - c sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - d cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
令a系数等于
a = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) 3 4 2
令b=eb′、c=ec′并且d=ed′,其中
b &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
c &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
d &prime; = cos 2 ( r ^ &pi; 2 ) 1 12 2
以上代入得出:
0 = sin 2 ( r ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 3 4 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2 - e cos 2 ( r ^ &pi; 2 ) ( 1 12 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
求解e产生:
e = sin 2 ( r ^ &pi; 2 ) + 3 cos 2 ( r ^ &pi; 2 ) 4 cos 2 ( r ^ &pi; 2 ) 4 cos 2 ( r ^ &pi; 2 ) 12 ( sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) 4 + sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) 4 + cos 2 ( r ^ &pi; 2 ) 4 )
最终的a、b、c和d系数可以被简化为仅由声道能量比组成的表达式:
a = 1 - m i n ( &mu; 3 2 , &mu; 4 2 )
b = m i n ( &mu; 3 , &mu; 4 ) 1 - m i n ( &mu; 3 2 , &mu; 4 2 ) &mu; 1 + &mu; 2 + m i n ( &mu; 3 , &mu; 4 )
c = m i n ( &mu; 3 , &mu; 4 ) 1 - m i n ( &mu; 3 2 , &mu; 4 2 ) &mu; 1 + &mu; 2 + m i n ( &mu; 3 , &mu; 4 )
d = m i n ( &mu; 3 , &mu; 4 ) 1 - m i n ( &mu; 3 2 , &mu; 4 2 ) &mu; 1 + &mu; 2 + m i n ( &mu; 3 , &mu; 4 )
四元组声道间相位差(ICPD)
可以从底层按对ICPD值计算四元组的声道间相位差(ICPD)空间特性:
I C P D = | C 1 | | C 2 | ICPD 12 + | C 1 | | C 3 | ICPD 13 + | C 1 | | C 4 | ICPD 14 + | C 2 | | C 3 | ICPD 23 + | C 2 | | C 4 | ICPD 24 + | C 3 | | C 4 | ICPD 34 | C 1 | | C 2 | + | C 1 | | C 3 | + | C 1 | | C 4 | + | C 2 | | C 3 | + | C 2 | | C 4 | + | C 3 | | C 4 |
其中底层按对ICPD值利用下面的等式计算:
ICPD i j = Re { &Sigma; C i &CenterDot; C j * } &Sigma; | C i | 2 &Sigma; | C j | 2 .
注意,四元组信号模型假设声源已被幅度平移到四元组声道上,这意味着四个声道完全相关。四元组ICPD测量可以被用来估计四个声道的总相关性。当四元组声道完全相关(或接近完全相关)时,四元组框架可以被用来生成具有高度可预测结果的五个输出声道。当四元组声道不相关时,可能期望使用不同的框架或方法,因为不相关的四元组声道违反了假设的信号模型,这可能导致不可预测的结果。
V.G.扩展的呈现
编解码器400和方法的实施例利用基于矢量的幅度平移(VBAP)技术的新颖扩展来经扬声器阵列呈现音频对象波形。传统的VBAP技术利用在单位球体上任意数量的任意放置的喇叭创建三维声场。单位球体上的半球在收听者上方创建圆顶。利用VBAP,可被创建的最可定位的声音来自构成某个三角形布置的最多3个声道。如果碰巧声音来自位于两个扬声器之间的线上的点,则VBAP将只使用那两个扬声器。如果假定声音是来自扬声器所在的位置,则VBAP将只使用一个扬声器。所以VBAP使用最多3个扬声器和最少1个扬声器来再现声音。回放环境可能具有3个以上的扬声器,但VBAP技术仅利用那些扬声器当中的3个再现声音。
由编解码器400和方法的实施例使用的扩展呈现技术将离开单位球体的音频对象呈现到该单位球体内的任意点。例如,假设利用三个扬声器创建三角形。通过扩展在沿一条线的点定位源的传统VBAP方法并且将那些方法扩展到使用三个扬声器,源可以位于由那三个扬声器构成的三角形内的任意地方。呈现引擎的目标是找到增益阵列,该增益阵列在沿着由该几何形状创建的3D矢量的正确位置创建声音,同时到相邻的扬声器的泄漏量最小。
图23是回放环境485和扩展的呈现技术的图示。收听者100位于单位球体2300内。应当注意的是,虽然只示出了单位球体2300的一半(半球),但是扩展的呈现技术支持整个单位球体2300上和其中的呈现。图23还示出了所使用的球体坐标系x-y-z,包括径向距离r、方位角q和极角j。
多元组和球体应当覆盖位流中所有波形的位置。如果需要,则这个想法可以扩展到四个或更多个扬声器,从而创建在其中工作的矩形或其它多边形,以准确地实现在单位球体2300的半球上的空间中的正确位置。
DTS-UHD呈现引擎执行点的3D平移并且将源扩展到任意喇叭布局。点源听起来就好像是来自空间中一个特定的点,而扩展源是具有“宽度”和/或“高度”的声音。对源的空间扩展的支持是通过覆盖扩展声音的区域的虚拟源的建模贡献来完成的。
图24示出了利用扩展的呈现技术在单位球体2300上和其中的音频源的呈现。音频源可以位于这个单位球体2300上或其中的任意地方。例如,通过使用扩展的呈现技术,第一音频源可以位于单位球体2400上,而第二音频源2410和第三音频源可以位于单位球体内。
扩展的呈现技术呈现围绕收听者100的单位球体2300上的点或扩展源。但是,对于在单位球体2300内部的点源,源必须从单位球体2300移开。扩展的呈现技术使用三种方法将对象移开单位球体2300。
第一,一旦波形利用VBAP(或类似)的技术被定位在单元球体2300上,其关于定位在单位球体2300的中心处的源交叉衰落(cross-fade),以便沿半径r拉入声音。系统中的所有扬声器都被用来执行交叉衰落。
第二,对于升高的源,声音在垂直平面中被扩展以便给予收听者100其正在移近的印象。只使用垂直延伸声音所需的扬声器。第三,对于在可以或可以不具有零升高的水平面中的源,声音被再次水平扩展以给出它正在向收听者100移近的印象。唯一活动的扬声器是进行扩展所需的那些扬声器。
V.H.存留声道的示例性选择
给出输入布局的类别,存留声道的选择的个数(M)以及下述规则以唯一的方式指定每个非存留声道的矩阵化,而不管实际的输入布局如何。图22-图25是规定用于输入布局中在存留布局中不存在的任何扬声器的矩阵多元组的查找表。
注意,以下规则适用于图25-图28。输入布局被分成5类:
1.没有高度声道的布局;
2.只在前面具有高度声道的布局;
3.具有包围高度声道的布局(两个高度扬声器之间的间隔不>180°);
4.具有包围高度声道和头顶声道的布局;
5.具有包围高度声道、头顶声道和收听者平面之下的声道的布局。
此外,每个非存留声道在一对存留声道之间被按对矩阵化。在一些场景中,三元组、四元组或更大的存留声道组可被用于矩阵化单个非存留声道。而且,在任何可能的时候,一对存留声道被用于矩阵化一个且只有一个非存留声道。
如果高度声道在输入声道布局中存在,则至少一个高度声道将在存留声道之间存在。在任何适当的时候,每个喇叭环中应当使用至少3个包围存留声道(适用于收听者平面环和升高的平面环)。
当不需要对象包含或嵌入式下混时,存在所提出的方法的优化的其它可能性。首先,非存留声道(在这种场景中,其中N-M个将被称为“准存留声道”)可以利用非常有限的带宽进行编码(比如,Fc=3kHz)。其次,高于Fc的“准存留声道”中的内容应当被矩阵化到选择的存留声道上。第三,“准存留的声道”的低频带和存留声道的所有频带被编码并打包到流中。
上述优化允许对空间准确性的最小影响,同时仍然显著较小位速率。为了管理解码器MIPS,需要对用于反矩阵化的时间-频率表示进行仔细选择以使得解码器子带样本可被插入到反矩阵合成滤波器组中。另一方面,由于反矩阵化低于Fc不适用,因此用于反矩阵化的所需频率分辨率的放松是可能的。
V.I.更多信息
在上面的讨论中,应当认识到,“重新平移”是指上混操作,通过该操作超过下混声道(N>M)的离散声道编号从每个声道集合中的下混恢复。优选地,这针对每个集合在多个感知临界子带的每一个中执行。
应当认识到的是,当声道几何形状被唱片艺术家或工程师假设时(显式地或经由软件或硬件隐式地)以及当另外地几何形状和假设的声道配置和下混参数通过相同的方式被传送到解码器/接收器时,根据这种方法的最佳或接近最佳结果将得到最佳近似。换句话说,如果原始记录使用22声道离散混合,基于根据上述矩阵化方法被下混到7.1声道下混的某种麦克风/扬声器几何形状,则这些假设应当通过某些方式被传送到接收器/解码器以允许互补的上混。
一种方法将是在文件头中传送假设的原始几何形状和下混配置(22,在配置中具有高度声道X--下混到常规布置中的7.1)。这要求仅最小量的数据带宽和不经常的实时更新。例如,参数可以被多路复用到现有音频格式中的保留字段。其它方法是可用的,包括云存储、网站访问、用户输入,等等。
在编解码器400和方法的一些实施例中,上混系统600(或解码器)意识到原始音频信号和声道减少的音频信号二者的混合系数和声道布局。声道布局和混合系数的知识允许上混系统600准确地将声道减少的音频信号解码回原始音频信号的适当近似。没有声道布局和混合系数的知识,上混器将无法确定目标输出声道布局或生成原始音频声道的适当近似所需的正确解码器功能。
作为示例,原始音频信号可以包括对应于以下声道位置的15个声道:1)中心,2)左前,3)右前,4)左侧环绕,5)右侧环绕,6)左后环绕,7)右后环绕,8)中心向左,9)中心向右,10)中心高,11)左高,12)右高,13)中心高后,14)左后高,和15)右后高。由于带宽限制(或一些其它动机),可能期望将这个高声道计数的音频信号减小成包括8个声道的声道减少的音频信号。
下混系统500可被配置成将原始的15个声道编码为包括以下声道位置的8声道音频信号:1)中心,2)左前,3)右前,4)左环绕,5)右环绕,6)左高,7)右高,和8)中心高后。下混系统500还可被配置成在下混原始的15声道音频信号时使用以下混合系数:
其中最上面的行对应于原始声道,最左边的列对应于下混合声道,并且数字系数对应于每个原始声道有助于每个下混声道的混合权重。
对于以上示例场景,为了让上混系统600最佳地或者接近最佳地解码来自声道减少的信号的原始音频信号的近似,上混系统600可以具有原始和下混声道布局的知识(即,分别为C、FL、FR、LSS、RSS、LSR、RSR、LoC、RoC、CH、LH、RH、CHR、LHR、RHR和C、FL、FR、LS、RS、LH、RH、CHR)和在下混过程中使用的混合系数(即,上述混合系数矩阵)。利用这种信息的知识,上混系统600可以利用以上阐述的矩阵化/反矩阵化数学框架准确地确定每个输出声道所需要的解码功能,因为它完全意识到所使用的实际下混配置。例如,上混系统600将知道从下混的LS和RS声道解码输出LSRS声道,并且它还将知道LS和RS声道之间将暗示离散LSR声道输出的相对声道水平(即,分别0.924和0.383)。
如果上混系统600无法获得关于原始和声道减少的音频信号的混合系数的信息以及相关声道布局,例如,如果数据声道不可用于从下混系统500向上混器发送这种信息或者如果接收到的音频信号是其中这种信息不确定或未知的传统或非下混信号,则它仍然有可能通过使用试探法选择用于上混系统600的合适的解码功能来执行满意的上混。在这些“盲上混”情况下,有可能使用声道减少的布局和目标上混布局的几何形状来确定合适的解码功能。
作为示例,用于给定输出声道的解码功能可以通过比较输出声道相对于一对输入声道之间的最近线段的位置来确定。例如,如果给定的输出声道直接位于一对输入声道之间,则可以确定将来自那对的等强度共同信号分量提取到输出声道中。同样,如果给定的输出声道位于更靠近其中一个输入声道,则解码功能可以结合这种几何形状并且为较近声道给予更大强度。作为替代,有可能使用关于音频信号的记录、混合或生产技术的假设来确定合适的解码功能。例如,作出关于某些声道之间的关系的假设可能是合适的,诸如假设高度声道部件可以诸如在电影中的“天桥”效果期间跨7.1音频信号的前和后声道对(即,L-Lsr和R-Rsr)被平移。
还应当认识到,在下混系统500和上混系统600中使用的音频声道不一定符合预期用于特定扬声器位置的实际扬声器馈送信号。编解码器400和方法的实施例也适用于所谓的“对象音频”格式,其中音频对象对应于独立存储并伴随诸如空间位置、增益、均衡、混响、扩散等等的元数据信息发送的区别声音信号。通常,对象音频格式将包括需要同时从编码器发送到解码器的许多同步的音频对象。
在数据带宽有限的场景中,由于需要单独地编码每个区别音频对象波形,因此众多同时音频对象的存在会造成问题。在这种情况下,编解码器400和方法的实施例可适用于减少需要被编码的音频目标波形的数目。例如,如果在基于对象的信号中存在N个音频对象,则编解码器400和方法的实施例的下混过程可被用来将对象的数量减少至M,其中N大于M。然后,压缩方案可以编码那M个对象,从而需要比原始N个对象将会需要的数据带宽更小的数据带宽。
在解码器侧,上混处理可被用来恢复原始N个音频对象的近似。然后,呈现系统可以利用伴随的元数据信息将那些音频对象呈现成基于声道的音频信号,在基于声道的音频信号中每个声道对应于实际回放环境中的扬声器位置。例如,常见的呈现方法是基于矢量的幅度平移或VBAP。
VI.替代实施例和示例性操作环境
与本文所述的那些不同的许多其它变体根据本文档将是清楚的。例如,依赖于实施例,本文所述的任何方法和算法的某些动作、事件或功能可以以不同的顺序来执行,可以被添加、合并或完全漏掉(诸如,不是所有描述的动作或事件对于方法和算法的实践都是必须的)。而且,在某些实施例中,动作或事件可以同时执行,诸如通过多线程处理、中断处理来执行或者通过多个处理器或处理器核心或者在其它并行体系架构上,而不是顺序地执行。此外,不同的任务或过程可以由可以一起发挥作用的不同机器和计算系统来执行。
结合本文公开的实施例描述的各种说明性逻辑块、模块、方法和算法过程和序列可被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,各种说明性部件、块、模块和过程操作已经在上面就其功能性一般地进行了描述。这种功能被实现为硬件还是软件依赖于强加到整个系统上的特定应用和设计限制。所描述的功能可以对每个特定的应用以不同的方式来实现,但是这种实现决定不应当被解释为造成从本文档的范围的背离。
联系本文公开的实施例描述的各种说明性逻辑块和模块可以由机器实现或执行,诸如通用处理器、处理设备、具有一个或多个处理设备的计算设备、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、离散门或晶体管逻辑、离散硬件部件或者被设计为执行本文描述的功能的其任意组合。通用处理器和处理设备可以是微处理器,但在备选方案中,处理器可以是控制器、微控制器或状态机、它们的组合,等等。处理器也可以被实现为诸如DSP和微处理器的组合之类的计算设备的组合、多个微处理器、与DSP核心结合的一个或多个微处理器或者任何其它此类配置。
本文描述的基于多元组的空间矩阵化编解码器400和方法的实施例可在多种类型的通用或专用计算系统环境或配置中进行操作。一般而言,计算环境可以包括任何类型的计算机系统,包括但不限于基于一个或多个微处理器的计算机系统、大型计算机、数字信号处理器、便携式计算设备、个人组织器、设备控制器、器具中的计算引擎、移动电话、台式计算机、移动计算机、平板计算机、智能电话以及具有嵌入式计算机的器具,这仅仅是举了几例。
这种计算设备通常可以在具有至少某个最小计算能力的设备中找到,包括但不限于个人计算机、服务器计算机、手持式计算设备、膝上型或移动计算机、诸如手机和PDA的通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、音频或视频媒体播放器,等等。在一些实施例中,计算设备将包括一个或多个处理器。每个处理器可以是专用微处理器,诸如数字信号处理器(DSP)、非常长指令字(VLIW)或其它微控制器,或者可以是具有一个或多个处理核心的常规中央处理单元(CPU),包括多核CPU中基于专用图形处理单元(GPU)的核心。
联系本文公开的实施例描述的方法、过程或算法的处理动作可以直接体现在硬件中、在由处理器执行的软件模块中,或者在这两者的任意组合中。软件模块可以包含在能够由计算设备访问的计算机可读介质中。计算机可读介质既包括易失性又包括非易失性介质,或者是可移动的、或者是不可移动的,或者是其某种组合。计算机可读介质被用来存储信息,诸如计算机可读或计算机可执行指令、数据结构、程序模块或其它数据。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。
计算机存储介质包括,但不限于,计算机或机器可读介质或存储设备,诸如蓝光盘(BD)、数字多功能盘(DVD)、压缩盘(CD)、软盘,带式驱动器、硬驱、光驱、固态存储器设备、RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器、闪速存储器或其它存储器技术、磁带盒、磁带、磁盘存储或其它磁存储设备,或者可被用来存储期望的信息并可被一个或多个计算设备访问的任何其它设备。
软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM,或任何其它形式的非临时性计算机可读存储介质、媒体,或本领域中已知的物理计算机储存器。示例性存储介质可以耦合到处理器,使得处理器可以从存储介质读取信息,并将信息写入到其中。在备选方案中,存储介质可以是处理器的组成部分。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在用户终端中。作为替代,处理器和存储介质可以作为离散元件驻留在用户终端中。
如在本文档中所使用的,短语“非临时性”是指“持久或长寿的”。短语“非临时性计算机可读介质”包括任何和所有计算机可读介质,具有过渡性传播信号的唯一例外。作为示例而非限制,这包括非临时性计算机可读介质,诸如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)。
诸如计算机可读或计算机可执行指令、数据结构、程序模块等等信息的保持也可以通过使用多种通信介质来编码一个或多个调制的数据信号、电磁波(诸如载波波)或其它传输机制或通信协议,并且包括任何有线或无线信息输送机制。一般而言,这些通信介质指的是其一个或多个特征以这样一种方式被设置或改变的信号,使得在信号中编码信息或指令。例如,通信介质包括有线介质,诸如有线网络或携带一个或多个调制的数据信号的直接连线连接,以及无线介质,诸如声学、射频(RF)、红外线、激光,以及用于发送、接收,或两者一个或多个调制的数据信号或电磁波的其它无线介质。以上所述的任意组合也应当包括在通信介质的范围内。
另外,体现本文描述的基于多元组的空间矩阵化编解码器400和方法的各种实施例的一个或任意组合,或者其部分,可以从计算机或机器可读介质或存储设备以及形式为计算机可执行指令或其它数据结构的通信介质的任何期望的组合存储、接收、发送或读取。
本文描述的基于多元组的空间矩阵化编解码器400和方法的实施例可以在由计算设备执行的计算机可执行指令,诸如程序模块,的一般上下文中进一步描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件、数据结构,等等。本文描述的实施例还可以在其中任务由一个或多个远程处理设备执行的分布式计算环境中,或者在通过一个或多个通信网络链接的一个或多个设备的云,当中实践。在分布式计算环境中,程序模块可以位于包括介质存储设备的本地和远程计算机存储介质中。更进一步,上述指令可以部分或全部地被实现为硬件逻辑电路,其可以或可以不包括处理器。
除非另有说明或者如所使用的以其它方式在上下文中被理解,否则本文所使用的条件性语言,诸如除其它之外还有“能够”、“可能”、“可以”、“例如”等,一般意在传达某些实施例包括,而其它实施例不包括,某些特征、元件和/或状态。因此,这种条件语言一般不意在暗示特征、元件和/或状态以任何方式是一个或多个实施例所需的或者一个或多个实施例必需包括用于在有或没有作者输入或提示的情况下决定这些特征、元件和/或状态包括在或者要在任何特定实施例中执行的逻辑。术语“包括”、“具有”等是同义的并且以开放的方式被包含性地使用,并且不排除附加的元件、特征、动作、操作,等等。而且,术语“或者”是在其包含的意义上(而不是在其排他的意义上)使用的,使得在用于,例如,连接元件的列表时,术语“或”是指列表中的一个、一些或所有元素。
虽然以上详细描述已经示出、描述并指出了如应用到各种实施例的新颖特征,但是应当理解,在不背离本公开内容的精神的情况下,可以进行所示出的设备或算法的形式和细节的各种省略、替换和变化。如将认识到的,本文描述的本发明的某些实施例可以在不提供本文阐述的所述特征和优点的形式中体现,因为一些特征可以与其它特征分开使用或实践。
而且,虽然本主题已经在特定于结构特征和方法动作的语言中进行了描述,但是应当理解,在所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求书的示例形式被公开的。

Claims (20)

1.一种由一个或多个处理设备执行的用于发送具有N个声道的输入音频信号的方法,包括:
基于期望的位速率选择用于下混的输出音频信号的M个声道,其中N和M是非零正整数并且N大于M;
利用一个或多个处理设备以及多元组平移法则的组合将N个声道下混并编码成M个声道以获得包含M个多元组编码的声道的脉码调制PCM声床混合;
以等于或低于期望的位速率的位速率发送PCM声床混合;
分离多个M个多元组编码的声道;
利用一个或多个处理设备以及多元组平移法则的组合上混并解码M个多元组编码的声道中的每一个以从M个多元组编码的声道提取N个声道并获得具有N个声道的结果输出音频信号;以及
在具有回放声道布局的回放环境中呈现结果输出音频信号。
2.如权利要求1所述的方法,其中下混和编码进一步包括使用四元组平移法则将N个声道中的一个下混并编码到M个声道中的四个上以获得四元组编码的声道。
3.如权利要求1所述的方法,其中下混和编码进一步包括使用四元组平移法则将N个声道中的一个下混和编码到M个声道中的四个上以获得四元组编码的声道,结合使用三元组平移法则将N个声道中的一个下混并编码到M个声道中的三个上以获得三元组编码的声道。
4.如权利要求3所述的方法,其中在四元组编码的声道中使用的四个M个声道中的至少一些与在三元组编码的声道中使用的三个M个声道相同。
5.如权利要求1所述的方法,还包括:
在具有内容创建环境声道布局的内容创建环境中混合音频内容;以及
将内容创建环境声道布局和包含M个多元组编码的声道的PCM声床混合多路复用到位流中并且以等于或低于期望的位速率的位速率发送该位流。
6.如权利要求1所述的方法,还包括:
分类输入音频信号的N个声道的内容创建环境声道布局以获得用于内容创建环境声道布局的分类;以及
基于分类和查找表将提取出的多元组编码的声道映射到回放声道布局。
7.如权利要求6所述的方法,还包括将内容创建环境声道布局分类成以下五类中的一个或多个:(a)没有高度声道的布局;(b)仅在前面具有高度声道的布局;(c)具有包围高度声道的布局;(d)具有包围高度声道和头顶声道的布局;(e)具有包围高度声道、头顶声道和收听者耳朵的平面之下的声道的布局。
8.如权利要求1所述的方法,还包括利用以下特性选择M,
其中,MinBR_Mtrx是矩阵化的声道编码所需的每声道的最小位速率,BR_Tot是总的可用位速率,并且MinBR_Discr是离散声道编码所需的每声道的最小位速率。
9.如权利要求1所述的方法,还包括以输入响度与输出响度之比来缩放M个声道中的每一个以实现响度规格化。
10.如权利要求9所述的方法,其中响度规格化是每声道响度规格化,并且还包括:
将给定的输出声道定义为yi[n];
将每声道响度规格化定义为
yi′[n]=di[n]·yi[n]
其中di[n]是依声道而定的增益,给出如下
d i &lsqb; n &rsqb; = ( c i , 1 L ( x 1 &lsqb; n &rsqb; ) ) 2 + ( c i , 2 L ( x 2 &lsqb; n &rsqb; ) ) 2 + ... + ( c i , N L ( x N &lsqb; n &rsqb; ) ) 2 ( L ( y i &lsqb; n &rsqb; ) ) 2
并且L(x)是响度估计函数。
11.如权利要求10所述的方法,其中响度规格化也是总响度规格化,并且还包括:
将总响度规格化定义为:
yi″[n]=g[n]·yi′[n]
其中g[n]是独立于声道的增益,给出如下
g &lsqb; n &rsqb; = ( L ( x 1 &lsqb; n &rsqb; ) ) 2 + ( L ( x 2 &lsqb; n &rsqb; ) ) 2 + ... + ( L ( x N &lsqb; n &rsqb; ) ) 2 ( L ( y 1 &prime; &lsqb; n &rsqb; ) ) 2 + ( L ( y 2 &prime; &lsqb; n &rsqb; ) ) 2 + ... + ( L ( y M &prime; &lsqb; n &rsqb; ) ) 2
12.一种由计算设备执行的用于矩阵下混具有N个声道的音频信号的方法,包括:
选择N个声道中哪些是存留声道以及哪些是非存留声道以使得存留声道总共是M个声道,其中N和M是非零正整数并且N大于M;
利用计算设备和多元组平移法则将非存留声道中的每个下混到存留声道的多元组上以获得平移权重,下混进一步包括:
利用二元组平移法则将一些非存留声道下混到存留声道二元组上;
利用三元组平移法则将一些非存留声道下混到存留声道三元组上;
利用四元组平移法则将一些非存留声道下混到存留声道四元组上;及
将存留声道二元组、三元组和四元组编码并多路复用到具有M个声道的位流中并且发送该位流以供在回放环境中呈现。
13.如权利要求12所述的方法,其中四元组平移权重是基于以下项生成的:(a)信号源S距离回放环境中的原点的距离r;和(b)信号源S在存留声道四元组中的第一声道和第二声道之间的角度θ。
14.如权利要求13所述的方法,还包括利用以下等式生成用于存留声道四元组C1,C2,C3和C4的平移权重:
C 1 = sin 2 ( r &pi; 2 ) cos 2 ( &theta; &pi; 2 ) + cos 2 ( r &pi; 2 ) ( 4 4 ) 2 S ;
C 2 = sin 2 ( r &pi; 2 ) sin 2 ( &theta; &pi; 2 ) + cos 2 ( r &pi; 2 ) ( 4 4 ) 2 S ;
C 4 = cos 2 ( r &pi; 2 ) ( 4 4 ) 2 S .
15.一种由计算设备执行的用于矩阵上混具有M个声道的音频信号的方法,包括:
将M个声道分离成二元组声道、三元组声道和四元组声道;
利用计算设备和四元组平移法则从四元组声道提取第一声道;
在提取第一声道之后,利用三元组平移法则从三元组声道提取第二声道;
在提取第二声道之后,利用二元组平移法则从二元组声道提取第三声道;
将第一声道、第二声道、第三声道和M个声道多路复用到一起以获得具有N个声道的输出信号;以及
在回放环境中呈现输出信号。
16.如权利要求15所述的方法,其中提取第一声道进一步包括获得第一声道作为四元组声道的四个声道的和,每个声道由系数加权。
17.如权利要求16所述的方法,还包括利用以下等式获得第一声道C5
C5=aC1+bC2+cC3+dC4
其中a、b、c和d系数由以下等式给出,
a = c o s ( r ^ &pi; 2 ) sin 2 ( r ^ &pi; 2 ) cos 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
b = c o s ( r ^ &pi; 2 ) sin 2 ( r ^ &pi; 2 ) sin 2 ( &theta; ^ &pi; 2 ) + cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
c = c o s ( r ^ &pi; 2 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
d = c o s ( r ^ &pi; 2 ) cos 2 ( r ^ &pi; 2 ) ( 4 4 ) 2
其中是C5在C1和C2之间的估计角度,并且是C5距离回放环境中的原点的距离。
18.如权利要求15所述的方法,还包括:
定义回放环境中收听者周围的假想单位球体,其中收听者处于该单位球体的中心;
在该单位球体上定义假想的球面坐标系,包括半径距离r、方位角q和极角j;以及
将第一声道重新平移到该单位球体内的位置。
19.如权利要求18所述的方法,还包括:
利用呈现技术在单位球体上定位第一声道;以及
利用回放环境中的所有扬声器关于位于单位球体中心的源使第一声道交叉衰落以便沿着径向距离r拉入第一声道。
20.如权利要求15所述的方法,还包括从音频信号中提取阐述被用来混合在音频信号中编码的音频内容的扬声器布局的内容创建环境扬声器布局。
CN201480072584.1A 2013-11-27 2014-11-26 用于高声道计数的多声道音频的基于多元组的矩阵混合 Active CN105981411B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361909841P 2013-11-27 2013-11-27
US61/909,841 2013-11-27
US14/447,516 2014-07-30
US14/447,516 US9338573B2 (en) 2013-07-30 2014-07-30 Matrix decoder with constant-power pairwise panning
PCT/US2014/067763 WO2015081293A1 (en) 2013-11-27 2014-11-26 Multiplet-based matrix mixing for high-channel count multichannel audio

Publications (2)

Publication Number Publication Date
CN105981411A true CN105981411A (zh) 2016-09-28
CN105981411B CN105981411B (zh) 2018-11-30

Family

ID=56797954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480072584.1A Active CN105981411B (zh) 2013-11-27 2014-11-26 用于高声道计数的多声道音频的基于多元组的矩阵混合

Country Status (8)

Country Link
US (1) US9552819B2 (zh)
EP (2) EP3074969B1 (zh)
JP (1) JP6612753B2 (zh)
KR (1) KR102294767B1 (zh)
CN (1) CN105981411B (zh)
ES (2) ES2710774T3 (zh)
PL (2) PL3074969T3 (zh)
WO (1) WO2015081293A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506409A (zh) * 2017-08-09 2017-12-22 浪潮金融信息技术有限公司 一种多音频数据的处理方法
CN110192397A (zh) * 2016-11-16 2019-08-30 Dts公司 用于扬声器位置估计的系统和方法
CN111316354A (zh) * 2017-11-06 2020-06-19 诺基亚技术有限公司 目标空间音频参数和相关联的空间音频播放的确定
CN112216310A (zh) * 2019-07-09 2021-01-12 海信视像科技股份有限公司 音频处理方法与装置、以及多声道系统
CN113438595A (zh) * 2021-06-24 2021-09-24 深圳市叡扬声学设计研发有限公司 Kas音频处理系统
CN113838470A (zh) * 2021-09-15 2021-12-24 Oppo广东移动通信有限公司 音频处理方法、装置、电子设备及计算机可读介质及产品

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9875751B2 (en) * 2014-07-31 2018-01-23 Dolby Laboratories Licensing Corporation Audio processing systems and methods
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
US9590580B1 (en) * 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
EP3378241B1 (en) * 2015-11-20 2020-05-13 Dolby International AB Improved rendering of immersive audio content
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
JP6703884B2 (ja) * 2016-04-13 2020-06-03 日本放送協会 チャンネル数変換装置、放送受信機およびプログラム
CN106774930A (zh) * 2016-12-30 2017-05-31 中兴通讯股份有限公司 一种数据处理方法、装置及采集设备
US10366695B2 (en) * 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
EP3625974B1 (en) 2017-05-15 2020-12-23 Dolby Laboratories Licensing Corporation Methods, systems and apparatus for conversion of spatial audio format(s) to speaker signals
KR102468799B1 (ko) 2017-08-11 2022-11-18 삼성전자 주식회사 전자장치, 그 제어방법 및 그 컴퓨터프로그램제품
JP7024794B2 (ja) * 2017-09-06 2022-02-24 ヤマハ株式会社 オーディオシステム、オーディオ機器、及びオーディオ機器の制御方法
US11102601B2 (en) * 2017-09-29 2021-08-24 Apple Inc. Spatial audio upmixing
US10652686B2 (en) 2018-02-06 2020-05-12 Sony Interactive Entertainment Inc. Method of improving localization of surround sound
US10523171B2 (en) 2018-02-06 2019-12-31 Sony Interactive Entertainment Inc. Method for dynamic sound equalization
US11330370B2 (en) 2018-02-15 2022-05-10 Dolby Laboratories Licensing Corporation Loudness control methods and devices
EP3550561A1 (en) * 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
SG11202007629UA (en) * 2018-07-02 2020-09-29 Dolby Laboratories Licensing Corp Methods and devices for encoding and/or decoding immersive audio signals
US10887717B2 (en) 2018-07-12 2021-01-05 Sony Interactive Entertainment Inc. Method for acoustically rendering the size of sound a source
TWI688280B (zh) 2018-09-06 2020-03-11 宏碁股份有限公司 正交基底修正之音效控制方法及音效輸出裝置
US11304021B2 (en) 2018-11-29 2022-04-12 Sony Interactive Entertainment Inc. Deferred audio rendering
US11327802B2 (en) * 2019-07-31 2022-05-10 Microsoft Technology Licensing, Llc System and method for exporting logical object metadata
GB2586214A (en) * 2019-07-31 2021-02-17 Nokia Technologies Oy Quantization of spatial audio direction parameters
WO2022124620A1 (en) * 2020-12-08 2022-06-16 Samsung Electronics Co., Ltd. Method and system to render n-channel audio on m number of output speakers based on preserving audio-intensities of n-channel audio in real-time
WO2023210978A1 (ko) * 2022-04-28 2023-11-02 삼성전자 주식회사 다채널 오디오 신호 처리 장치 및 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050267763A1 (en) * 2004-05-28 2005-12-01 Nokia Corporation Multichannel audio extension
US20060115100A1 (en) * 2004-11-30 2006-06-01 Christof Faller Parametric coding of spatial audio with cues based on transmitted channels
CN101964202A (zh) * 2010-09-09 2011-02-02 南京中兴特种软件有限责任公司 一种混合多种编码格式的音频数据文件播放处理方法
CN102158881A (zh) * 2011-04-28 2011-08-17 武汉虹信通信技术有限责任公司 一种全面评估3g视频电话质量的方法和装置
US20110249822A1 (en) * 2008-12-15 2011-10-13 France Telecom Advanced encoding of multi-channel digital audio signals
WO2013006338A2 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
CN102984642A (zh) * 2012-12-18 2013-03-20 武汉大学 一种五个扬声器的三维平移方法
WO2013173314A1 (en) * 2012-05-15 2013-11-21 Dolby Laboratories Licensing Corporation Efficient encoding and decoding of multi-channel audio signal with multiple substreams

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291557A (en) 1992-10-13 1994-03-01 Dolby Laboratories Licensing Corporation Adaptive rematrixing of matrixed audio signals
US5319713A (en) 1992-11-12 1994-06-07 Rocktron Corporation Multi dimensional sound circuit
US5638452A (en) 1995-04-21 1997-06-10 Rocktron Corporation Expandable multi-dimensional sound circuit
US5771295A (en) 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
US5870480A (en) 1996-07-19 1999-02-09 Lexicon Multichannel active matrix encoder and decoder with maximum lateral separation
US6665407B1 (en) * 1998-09-28 2003-12-16 Creative Technology Ltd. Three channel panning system
US6507658B1 (en) * 1999-01-27 2003-01-14 Kind Of Loud Technologies, Llc Surround sound panner
US7003467B1 (en) 2000-10-06 2006-02-21 Digital Theater Systems, Inc. Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
DE60311794C5 (de) 2002-04-22 2022-11-10 Koninklijke Philips N.V. Signalsynthese
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
US20050052457A1 (en) 2003-02-27 2005-03-10 Neil Muncy Apparatus for generating and displaying images for determining the quality of audio reproduction
US7283684B1 (en) 2003-05-20 2007-10-16 Sandia Corporation Spectral compression algorithms for the analysis of very large multivariate images
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
US8340306B2 (en) * 2004-11-30 2012-12-25 Agere Systems Llc Parametric coding of spatial audio with object-based side information
EP1866912B1 (en) * 2005-03-30 2010-07-07 Koninklijke Philips Electronics N.V. Multi-channel audio coding
US8345899B2 (en) 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
WO2008039038A1 (en) * 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
US8385556B1 (en) 2007-08-17 2013-02-26 Dts, Inc. Parametric stereo conversion system and method
WO2010097748A1 (en) 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Parametric stereo encoding and decoding
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
KR101710113B1 (ko) 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
KR101410575B1 (ko) 2010-02-24 2014-06-23 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 강화 다운믹스 신호를 생성하는 장치, 강화 다운믹스 신호를 생성하는 방법 및 컴퓨터 프로그램
EP2686654A4 (en) * 2011-03-16 2015-03-11 Dts Inc CODING AND PLAYING THREE-DIMENSIONAL AUDIOSPURES
CN104781877A (zh) * 2012-10-31 2015-07-15 株式会社索思未来 音频信号编码装置以及音频信号解码装置
EP2979467B1 (en) 2013-03-28 2019-12-18 Dolby Laboratories Licensing Corporation Rendering audio using speakers organized as a mesh of arbitrary n-gons
EP4379714A2 (en) 2013-09-12 2024-06-05 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050267763A1 (en) * 2004-05-28 2005-12-01 Nokia Corporation Multichannel audio extension
US20060115100A1 (en) * 2004-11-30 2006-06-01 Christof Faller Parametric coding of spatial audio with cues based on transmitted channels
EP1817768A2 (en) * 2004-11-30 2007-08-15 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
US20110249822A1 (en) * 2008-12-15 2011-10-13 France Telecom Advanced encoding of multi-channel digital audio signals
EP2374124B1 (fr) * 2008-12-15 2013-05-29 France Telecom Codage perfectionne de signaux audionumériques multicanaux
CN101964202A (zh) * 2010-09-09 2011-02-02 南京中兴特种软件有限责任公司 一种混合多种编码格式的音频数据文件播放处理方法
CN102158881A (zh) * 2011-04-28 2011-08-17 武汉虹信通信技术有限责任公司 一种全面评估3g视频电话质量的方法和装置
WO2013006338A2 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
WO2013173314A1 (en) * 2012-05-15 2013-11-21 Dolby Laboratories Licensing Corporation Efficient encoding and decoding of multi-channel audio signal with multiple substreams
CN102984642A (zh) * 2012-12-18 2013-03-20 武汉大学 一种五个扬声器的三维平移方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PULKKI: "spatial sound generation and perception by amplitude panning techniques", 《AUDIO SIGNAL PROCESSING》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110192397A (zh) * 2016-11-16 2019-08-30 Dts公司 用于扬声器位置估计的系统和方法
CN107506409A (zh) * 2017-08-09 2017-12-22 浪潮金融信息技术有限公司 一种多音频数据的处理方法
CN111316354A (zh) * 2017-11-06 2020-06-19 诺基亚技术有限公司 目标空间音频参数和相关联的空间音频播放的确定
US11785408B2 (en) 2017-11-06 2023-10-10 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
CN111316354B (zh) * 2017-11-06 2023-12-08 诺基亚技术有限公司 目标空间音频参数和相关联的空间音频播放的确定
CN112216310A (zh) * 2019-07-09 2021-01-12 海信视像科技股份有限公司 音频处理方法与装置、以及多声道系统
CN112216310B (zh) * 2019-07-09 2021-10-26 海信视像科技股份有限公司 音频处理方法与装置、以及多声道系统
CN113438595A (zh) * 2021-06-24 2021-09-24 深圳市叡扬声学设计研发有限公司 Kas音频处理系统
CN113838470A (zh) * 2021-09-15 2021-12-24 Oppo广东移动通信有限公司 音频处理方法、装置、电子设备及计算机可读介质及产品
CN113838470B (zh) * 2021-09-15 2023-10-03 Oppo广东移动通信有限公司 音频处理方法、装置、电子设备及计算机可读介质及产品

Also Published As

Publication number Publication date
PL3444815T3 (pl) 2020-11-30
EP3074969B1 (en) 2018-11-21
ES2710774T3 (es) 2019-04-26
KR102294767B1 (ko) 2021-08-27
CN105981411B (zh) 2018-11-30
JP2017501438A (ja) 2017-01-12
KR20160090869A (ko) 2016-08-01
EP3444815A1 (en) 2019-02-20
JP6612753B2 (ja) 2019-11-27
US20150170657A1 (en) 2015-06-18
EP3074969A1 (en) 2016-10-05
PL3074969T3 (pl) 2019-05-31
WO2015081293A1 (en) 2015-06-04
US9552819B2 (en) 2017-01-24
EP3074969A4 (en) 2017-08-30
ES2772851T3 (es) 2020-07-08
EP3444815B1 (en) 2020-01-08

Similar Documents

Publication Publication Date Title
CN105981411B (zh) 用于高声道计数的多声道音频的基于多元组的矩阵混合
JP7342091B2 (ja) 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置
TWI744341B (zh) 使用近場/遠場渲染之距離聲相偏移
ES2729624T3 (es) Reducción de la correlación entre canales de fondo ambisónicos de orden superior (HOA)
CN105723453B (zh) 用于对降混合矩阵解码及编码的方法、编码器及解码器
CN105027199B (zh) 在位流中指定球谐系数和/或高阶立体混响系数
AU2011325335B8 (en) Data structure for Higher Order Ambisonics audio data
ES2635327T3 (es) Compresión de las representaciones descompuestas de un campo sonoro
CN108924729B (zh) 采用几何距离定义的音频呈现装置和方法
CN109166587B (zh) 处理信道信号的编码/解码装置及方法
ES2841419T3 (es) Canales de señalización para codificación escalable de datos de audio ambisónico de orden superior
CN107533843A (zh) 用于捕获、编码、分布和解码沉浸式音频的系统和方法
CN106664500B (zh) 用于渲染声音信号的方法和设备以及计算机可读记录介质
CN104054126A (zh) 空间音频渲染和编码
CN106575506A (zh) 高阶立体混响音频数据的中间压缩
CN104428835A (zh) 音频信号的编码和解码
BR112020000759A2 (pt) aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro
CN105308680A (zh) 音频编码器和解码器
KR102357924B1 (ko) 채널 신호를 처리하는 부호화/복호화 장치 및 방법
JP2023551016A (ja) オーディオ符号化及び復号方法並びに装置
Paterson et al. Producing 3-D audio
WO2022262758A1 (zh) 音频渲染系统、方法和电子设备
BR112016001141B1 (pt) Codificador de áudio, decodificador de áudio e métodos que usam sinais residuais codificados em conjunto

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1226889

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant