CN108141689B - 从基于对象的音频转换到hoa - Google Patents

从基于对象的音频转换到hoa Download PDF

Info

Publication number
CN108141689B
CN108141689B CN201680058050.2A CN201680058050A CN108141689B CN 108141689 B CN108141689 B CN 108141689B CN 201680058050 A CN201680058050 A CN 201680058050A CN 108141689 B CN108141689 B CN 108141689B
Authority
CN
China
Prior art keywords
audio
loudspeaker
vector
spatial
spatial vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680058050.2A
Other languages
English (en)
Other versions
CN108141689A (zh
Inventor
金墨永
迪潘让·森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN108141689A publication Critical patent/CN108141689A/zh
Application granted granted Critical
Publication of CN108141689B publication Critical patent/CN108141689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种装置获得音频对象的音频信号的基于对象的表示。所述音频信号对应于时间间隔。此外,所述装置获得所述音频对象的空间向量的表示,其中所述空间向量在高阶立体混响HOA域中限定且基于第一多个扩音器位置。所述装置基于所述音频对象的所述音频信号和所述空间向量产生多个音频信号。所述多个音频信号的每一相应音频信号对应于不同于所述第一多个扩音器位置的第二多个扩音器位置处的多个局部扩音器中的相应扩音器。

Description

从基于对象的音频转换到HOA
本申请主张2015年10月8日提交的美国临时专利申请62/239,043的权益,所述申请的全部内容以引用的方式并入本文中。
技术领域
本公开涉及音频数据,并且更具体地说涉及高阶立体混响音频数据的译码。
背景技术
高阶立体混响(HOA)信号(常常由多个球面谐波系数(SHC)或其它分层元素表示)是声场的三维表示。HOA或SHC表示可以独立于用以重放从SHC信号渲染的多通道音频信号的局部扬声器几何布置的方式来表示声场。SHC信号还可有助于向后兼容性,因为SHC信号可被渲染为众所周知的且被高度采用的多通道格式(例如,5.1音频通道格式或7.1音频通道格式)。因此,所述SHC表示可实现还适应向后兼容性的对声场的更好表示。
发明内容
在一个实例中,本公开描述一种用于解码经译码音频位流的装置,所述装置包括:存储器,其经配置以存储经译码音频位流;以及一或多个处理器,其电耦合到所述存储器,所述一或多个处理器经配置以:从经译码音频位流获得音频对象的音频信号的基于对象的表示,所述音频信号对应于时间间隔;从经译码音频位流获得音频对象的空间向量的表示,其中所述空间向量在高阶立体混响(HOA)域中限定且基于第一多个扩音器位置;基于音频对象的音频信号和所述空间向量产生多个音频信号,其中所述多个音频信号的每一相应音频信号对应于不同于所述第一多个扩音器位置的第二多个扩音器位置处的多个局部扩音器中的相应扩音器。
在另一实例中,本公开描述一种用于编码经译码音频位流的装置,所述装置包括:存储器,其经配置以存储音频对象的音频信号和指示音频对象的虚拟源位置的数据,所述音频信号对应于时间间隔;以及一或多个处理器,其电耦合到所述存储器,所述一或多个处理器经配置以:接收音频对象的所述音频信号和指示音频对象的虚拟源位置的所述数据;基于指示音频对象的虚拟源位置的所述数据和指示多个扩音器位置的数据确定高阶立体混响(HOA)域中音频对象的空间向量;以及在经译码音频位流包含所述音频信号的基于对象的表示和表示空间向量的数据。
在另一实例中,本公开描述一种用于解码经译码音频位流的方法,所述方法包括:从经译码音频位流获得音频对象的音频信号的基于对象的表示,所述音频信号对应于时间间隔;从经译码音频位流获得音频对象的空间向量的表示,其中所述空间向量在高阶立体混响(HOA)域中限定且基于第一多个扩音器位置;基于音频对象的音频信号和所述空间向量产生多个音频信号,其中所述多个音频信号的每一相应音频信号对应于不同于所述第一多个扩音器位置的第二多个扩音器位置处的多个局部扩音器中的相应扩音器。
在另一实例中,本公开描述一种用于编码经译码音频位流的方法,所述方法包括:接收音频对象的音频信号和指示音频对象的虚拟源位置的数据,所述音频信号对应于时间间隔;基于指示音频对象的虚拟源位置的所述数据和指示多个扩音器位置的数据确定高阶立体混响(HOA)域中音频对象的空间向量;以及在经译码音频位流中包含音频信号的基于对象的表示和表示空间向量的数据。
在另一实例中,本公开描述一种用于解码经译码音频位流的装置,所述装置包括:用于从经译码音频位流获得音频对象的音频信号的基于对象的表示的装置,所述音频信号对应于时间间隔;用于从经译码音频位流获得音频对象的空间向量的表示的装置,其中所述空间向量在高阶立体混响(HOA)域中限定且基于第一多个扩音器位置;以及用于基于音频对象的音频信号和所述空间向量产生多个音频信号的装置,其中所述多个音频信号的每一相应音频信号对应于不同于所述第一多个扩音器位置的第二多个扩音器位置处的多个局部扩音器中的相应扩音器。
在另一实例中,本公开描述一种用于编码经译码音频位流的装置,所述装置包括:用于接收音频对象的音频信号和指示音频对象的虚拟源位置的数据的装置,所述音频信号对应于时间间隔;以及用于基于指示音频对象的虚拟源位置的所述数据和指示多个扩音器位置的数据确定高阶立体混响(HOA)域中音频对象的空间向量的装置。
在另一实例中,本公开描述一种存储指令的计算机可读存储媒体,所述指令在执行时致使装置的一或多个处理器:从经译码音频位流获得音频对象的音频信号的基于对象的表示,所述音频信号对应于时间间隔;从经译码音频位流获得音频对象的空间向量的表示,其中所述空间向量在高阶立体混响(HOA)域中限定且基于第一多个扩音器位置;以及基于音频对象的音频信号和所述空间向量产生多个音频信号,其中所述多个音频信号的每一相应音频信号对应于不同于所述第一多个扩音器位置的第二多个扩音器位置处的多个局部扩音器中的相应扩音器。
在另一实例中,本公开描述一种存储指令的计算机可读存储媒体,所述指令在执行时致使装置的一或多个处理器:接收音频对象的音频信号和指示音频对象的虚拟源位置的数据,所述音频信号对应于时间间隔;基于指示音频对象的虚拟源位置的所述数据和指示多个扩音器位置的数据确定高阶立体混响(HOA)域中音频对象的空间向量;以及在经译码音频位流中包含音频信号的基于对象的表示和表示空间向量的数据。
在附图和以下描述中阐明本公开的一或多个实例的细节。其它特征、目标和优点将从所述描述、图式以及权利要求书而显而易见。
附图说明
图1是说明可执行本公开中所描述的技术的各个方面的系统的图式。
图2是说明具有各种阶数和子阶数的球面谐波基底函数的图式。
图3是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图。
图4是说明根据本公开的一或多种技术的用于与图3中展示的音频编码装置的实例实施方案一起使用的音频解码装置的实例实施方案的框图。
图5是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图。
图6是说明根据本公开的一或多种技术的向量编码单元的实例实施方案的图式。
图7是展示理想球面设计位置的实例集合的表。
图8是展示理想球面设计位置的另一实例集合的表。
图9是说明根据本公开的一或多种技术的向量编码单元的实例实施方案的框图。
图10是说明根据本公开的一或多种技术的音频解码装置的实例实施方案的框图。
图11是说明根据本公开的一或多种技术的向量解码单元的实例实施方案的框图。
图12是说明根据本公开的一或多种技术的向量解码单元的替代实施方案的框图。
图13是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图,其中所述音频编码装置经配置以编码基于对象的音频数据。
图14是说明根据本公开的一或多种技术的用于基于对象的音频数据的向量编码单元68C的实例实施方案的框图。
图15是说明VBAP的概念图。
图16是说明根据本公开的一或多种技术的音频解码装置的实例实施方案的框图,其中所述音频解码装置经配置以解码基于对象的音频数据。
图17是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图,其中所述音频编码装置经配置以量化空间向量。
图18是说明根据本公开的一或多种技术的用于与图17中展示的音频编码装置的实例实施方案一起使用的音频解码装置的实例实施方案的框图。
图19是说明根据本公开的一或多种技术的渲染单元210的实例实施方案的框图。
图20说明根据本公开的一或多种技术的汽车扬声器重放环境。
图21是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。
图22是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。
图23是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。
图24是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。
图25是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。
图26是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。
图27是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。
图28是说明根据本公开的技术用于解码经译码音频位流的实例操作的流程图。
图29是说明根据本公开的技术用于解码经译码音频位流的实例操作的流程图。
具体实施方式
环绕声的演变现今已使用于娱乐的许多输出格式可用。此等消费者环绕声格式的实例大部分为“通道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈送。消费者环绕声格式包含流行的5.1格式(其包含以下六个通道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,及低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式及22.2格式(例如,用于供超高清电视标准使用)。非消费者格式可以跨越任何数目的扬声器(成对称和非对称几何布置),其往往被称为“环绕阵列”。此阵列的一个实例包含定位在截头二十面体的拐角上的坐标处的32个扩音器。
音频编码器可接收三种可能格式中的一个的输入:(i)传统基于通道的音频(如上文所论述),其意图经由预先指定位置处的扩音器播放;(ii)基于对象的音频,其涉及针对单一音频对象的离散脉码调制(PCM)数据,具有含有其位置坐标的相关联元数据(及其它信息);以及(iii)基于场景的音频,其涉及使用球面谐波基底函数(也被称为“球面谐波系数”或SHC、“高阶立体混响”或HOA和“HOA系数”)的系数表示声场。在一些实例中,音频对象的位置坐标可指定方位角和仰角。在一些实例中,音频对象的位置坐标可指定方位角、仰角和半径。
在一些实例中,编码器可以其接收格式编码所接收的音频数据。举例来说,接收传统的7.1基于通道的音频的编码器可将基于通道的音频编码成可由解码器重放的位流。然而,在一些实例中,为在具有5.1重放能力(但不具有7.1重放能力)的解码器处实现重放,编码器还可在位流中包含7.1基于通道的音频的5.1版本。在一些实例中,编码器在位流中包含多个音频版本可能并不合乎需要。作为一个实例,在位流中包含多个音频版本可能会增大位流的大小,且因此增大发射所需的带宽量和/或存储位流所需的存储量。作为另一实例,内容创建者(例如,好莱坞影城)将希望一次产生电影的声轨,而不希望花费精力来针对每一扬声器配置再混合声轨。因而,可能需要提供编码成标准化位流,以及针对重放位置(涉及渲染器)处的扬声器几何布置(和数量)及声学条件可调适且对于所述布置和条件来说具有不可知性的后续解码。
在一些实例中,为使音频解码器能够以任意扬声器配置重放音频,音频编码器可以单个格式转换输入音频以供编码。举例来说,音频编码器可将多通道音频数据和/或音频对象转换成分层元素集合,并将所得元素集合编码成位流。所述分层元素集合可指代元素被排序以使得低阶元素的基础集合提供模型化声场的完整表示的元素集合。在所述集合扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
分层元素集合的一个实例是球面谐波系数(SHC)的集合,其也可被称作高阶立体混响(HOA)系数。下文的等式(1)使用SHC展现声场的描述或表示。
Figure GDA0002328444590000051
等式(1)展示在时间t在声场的任何点
Figure GDA0002328444590000052
处的压力pi可由SHC,
Figure GDA0002328444590000053
唯一地表示。此处,
Figure GDA0002328444590000054
c为声速(~343m/s),
Figure GDA0002328444590000055
为参考点(或观察点),jn(·)为阶n的球面贝塞尔函数,且
Figure GDA0002328444590000056
为阶n和子阶m的球面谐波基底函数。可认识到,方括号中的术语为信号的频域表示(即,
Figure GDA0002328444590000057
),其可由各种时频变换近似表示,例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其它实例包含小波变换系数的集合和多分辨率基底函数的系数的其它集合。出于简单的目的,本公开在下文参考HOA系数进行描述。然而,应了解,所述技术可同样适用于其它分层集合。
然而,在一些实例中,将所有所接收音频数据转换成HOA系数可能并不合乎需要。举例来说,如果音频编码器将所有所接收音频数据转换成HOA系数,那么所得位流可能与不能够处理HOA系数的音频解码器(例如,仅可处理多通道音频数据和音频对象中的一个或两个的音频解码器)并不后向兼容。因而,可能合乎需要是,音频编码器编码所接收音频数据,使得所得位流使音频解码器能够以任意扬声器配置重放音频数据,同时还实现与不能够处理HOA系数的内容消费者系统的后向兼容性。
根据本公开的一或多种技术,与将所接收音频数据转换成HOA系数并将所得HOA系数编码在位流中相比,音频编码器可在位流中以其原始格式编码所接收音频数据,连同实现经编码音频数据到HOA系数的转换的信息。举例来说,音频编码器可确定实现经编码音频数据到HOA系数的转换的一或多个空间定位向量(SPV),并将所述一或多个SPV的表示和所接收音频数据的表示编码在位流中。在一些实例中,所述一或多个SPV中的特定SPV的表示可为对应于码簿中的特定SPV的索引。可基于源扩音器配置(即,所接收音频数据预期针对其重放的扩音器配置)确定空间定位向量。以此方式,音频编码器可输出使音频解码器能够以任意扬声器配置重放所接收音频数据同时还实现与不能够处理HOA系数的音频解码器的后向兼容性的位流。
音频解码器可接收包含呈其原始格式的音频数据连同实现经编码音频数据到HOA系数的转换的信息的位流。举例来说,音频解码器可接收呈5.1格式的多通道音频数据和一或多个空间定位向量(SPV)。使用所述一或多个空间定位向量,音频解码器可从呈5.1格式的音频数据产生HOA声场。举例来说,音频解码器可基于多通道音频信号和空间定位向量产生HOA系数的集合。音频解码器可基于局部扩音器配置渲染HOA声场或使另一装置能够渲染HOA声场。以此方式,能够处理HOA系数的音频解码器可以任意扬声器配置重放多通道音频数据,同时还能实现与不能够处理HOA系数的音频解码器的后向兼容性。
如上文所论述,音频编码器可确定并编码实现经编码音频数据到HOA系数的转换的一或多个空间定位向量(SPV)。然而,在一些实例中,可能需要音频解码器在位流并不包含所述一或多个空间定位向量的指示时以任意扬声器配置重放所接收音频数据。
根据本公开的一或多种技术,音频解码器可接收经编码音频数据和源扩音器配置的指示(即,预期对于其重放经编码音频数据的扩音器配置的指示),并基于源扩音器配置的指示产生实现经编码音频数据到HOA系数的转换的空间定位向量(SPV)。在一些实例中,例如在经编码音频数据是呈5.1格式的多通道音频数据的情况下,源扩音器配置的指示可指示经编码音频数据是呈5.1格式的多通道音频数据。
使用空间定位向量,音频解码器可从音频数据产生HOA声场。举例来说,音频解码器可基于多通道音频信号和空间定位向量产生HOA系数的集合。音频解码器可基于局部扩音器配置渲染HOA声场或使另一装置能够渲染HOA声场。以此方式,音频解码器可输出使音频解码器能够以任意扬声器配置重放所接收音频数据同时还实现与可能并不产生和编码空间定位向量的音频编码器的后向兼容性的位流。
如上文所论述,音频译码器(即,音频编码器或音频解码器)可获得(即,产生、确定、检索、接收等)实现经编码音频数据到HOA声场的转换的空间定位向量。在一些实例中,可以实现对音频数据的近似“完美”重建为目标来获得空间定位向量。空间定位向量可被视为实现对音频数据的近似“完美”重建,其中空间定位向量用于将输入N通道音频数据转换成HOA声场,所述HOA声场在转换回到N通道音频数据时与输入N通道音频数据近似等效。
为获得实现近似“完美”重建的空间定位向量,音频译码器可确定用于每一向量的系数数目NHOA。如果根据等式(2)和(3)表达HOA声场,且根据等式(4)和(5)表达由用渲染矩阵D渲染HOA声场产生的N通道音频,那么在选择的系数数目大于或等于输入N通道音频数据中的通道数目的情况下,近似“完美”重建有可能实现。
Figure GDA0002328444590000071
Figure GDA0002328444590000072
Figure GDA0002328444590000075
Figure GDA0002328444590000073
换句话说,如果满足等式(6),那么近似“完美”重建有可能实现。
N≤NHOA (6)
换句话说,如果输入通道N的数目小于或等于用于每一空间定位向量的系数数目NHOA,那么近似“完美”重建有可能实现。
音频译码器可用选定数目个系数获得空间定位向量。可根据等式(7)表达HOA声场H。
Figure GDA0002328444590000074
在等式(7)中,通道i的Hi可以是通道i的音频通道Ci和通道i的空间定位向量Vi的转置的乘积,如等式(8)中所展示。
Figure GDA0002328444590000081
Hi可经渲染以产生基于通道的音频信号
Figure GDA0002328444590000082
如等式(9)中所展示。
Figure GDA0002328444590000083
如果等式(10)或等式(11)为真,那么等式(9)可保持为真,其中等式(11)的第二解由于为单数已被去除。
Figure GDA0002328444590000084
Figure GDA0002328444590000085
如果等式(10)或等式(11)为真,那么基于通道的音频信号
Figure GDA0002328444590000086
可根据等式(12)-(14)来表示。
Figure GDA0002328444590000087
Figure GDA0002328444590000088
Figure GDA0002328444590000089
因而,为实现近似“完美”重建,音频译码器可获得满足等式(15)和(16)的空间定位向量。
Figure GDA00023284445900000810
N≤NHOA (16)
出于完整性,以下是满足上文等式的空间定位向量实现近似“完美”重建的证明。对于根据等式(17)表达的给定N通道音频,音频译码器可获得可根据等式(18)和(19)表达的空间定位向量,其中D为基于N通道音频数据的源扩音器配置确定的源渲染矩阵,[0,…,1,…,0]包含N个元素,且第i元素为1且其它元素为0。
Γ=[C1,C2,…,CN] (17)
{Vi}i=1,…,N (18)
Vi=[[0,…,1,…,0](DDT)-1D]T (19)
音频译码器可根据等式(20)基于空间定位向量和N通道音频数据产生HOA声场H。
Figure GDA0002328444590000091
音频译码器可根据等式(21)将HOA声场H转换回到N通道音频数据
Figure GDA0002328444590000092
其中D为基于N通道音频数据的源扩音器配置确定的源渲染矩阵。
Figure GDA0002328444590000093
如上文所论述,如果
Figure GDA0002328444590000094
近似等效于Γ,那么实现“完美”重建。如下文等式(22)-(26)中展示,
Figure GDA0002328444590000095
近似等效于Γ,因此有可能实现近似“完美”重建:
Figure GDA0002328444590000096
Figure GDA0002328444590000097
Figure GDA0002328444590000098
Figure GDA0002328444590000099
Figure GDA00023284445900000910
可以不同方式处理例如渲染矩阵等矩阵。举例来说,可将矩阵处理(例如,存储、添加、乘以、检索等)为行、列、向量或以其它方式处理。
图1是说明可执行本公开中所描述的技术的各个方面的系统2的图式。如图1的实例中展示,系统2包含内容创建者系统4和内容消费者系统6。虽然在内容创建者系统4和内容消费者系统6的上下文中进行描述,但所述技术可实施于编码音频数据以形成音频数据的位流表示的任何上下文中。此外,内容创建者系统4可包含能够实施本公开中描述的技术的一或多个任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话或台式计算机(提供几个实例)。同样,内容消费者系统6可包含能够实施本公开中描述的技术的一或多个任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒、AV接收器、无线扬声器或台式计算机(提供几个实例)。
内容创建者系统4可由各种内容创建者操作,例如电影工作室、电视工作室、因特网串流服务或其它可产生音频内容以供例如内容消费者系统6等内容消费者系统的操作员消费的实体。常常,内容创建者产生音频内容连同视频内容。内容消费者系统6可由个人操作。一般来说,内容消费者系统6可指代能够输出多通道音频内容的任何形式的音频重放系统。
内容创建者系统4包含音频编码装置14,其可能够将所接收音频数据编码成位流。音频编码装置14可从各种源接收音频数据。举例来说,音频编码装置14可获得实况音频数据10和/或预产生音频数据12。音频编码装置14可接收呈各种格式的实况音频数据10和/或预产生音频数据12。作为一个实例,音频编码装置14可从一或多个麦克风8接收作为HOA系数、音频对象或多通道音频数据的实况音频数据10。作为另一实例,音频编码装置14可接收作为HOA系数、音频对象或多通道音频数据的预产生音频数据12。
如上文所陈述,音频编码装置14可将所接收音频数据编码成例如位流20等位流,作为一个实例,所述位流供跨越发射信道发射,所述发射信道可为有线或无线信道、数据存储装置等。在一些实例中,内容创建者系统4将经编码位流20直接发射到内容消费者系统6。在其它实例中,经编码位流还可存储到存储媒体或文件服务器上,以供稍后由内容消费者系统6访问以进行解码和/或重放。
如上文所论述,在一些实例中,所接收音频数据可包含HOA系数。然而,在一些实例中,所接收音频数据可包含呈除HOA系数以外的格式的音频数据,例如多通道音频数据和/或基于对象的音频数据。在一些实例中,音频编码装置14可以单个格式转换所接收音频数据以供编码。举例来说,如上文所论述,音频编码装置14可将多通道音频数据和/或音频对象转换成HOA系数,并将所得HOA系数编码在位流20中。以此方式,音频编码装置14可使内容消费者系统能以任意扬声器配置重放音频数据。
然而,在一些实例中,将所有所接收音频数据转换成HOA系数可能并不合乎需要。举例来说,如果音频编码装置14将所有所接收音频数据转换成HOA系数,那么所得位流可能与不能够处理HOA系数的内容消费者系统(例如,仅可处理多通道音频数据和音频对象中的一个或两个的内容消费者系统)并不后向兼容。因而,可能合乎需要的是,音频编码装置14编码所接收音频数据,使得所得位流使内容消费者系统能够以任意扬声器配置重放音频数据,同时还实现与不能够处理HOA系数的内容消费者系统的后向兼容性。
根据本公开的一或多种技术,与将所接收音频数据转换成HOA系数并将所得HOA系数编码在位流中相比,音频编码装置14可在位流20中以其原始格式编码所接收音频数据,连同实现经编码音频数据到HOA系数的转换的信息。举例来说,音频编码装置14可确定实现经编码音频数据到HOA系数的转换的一或多个空间定位向量(SPV),并将所述一或多个SPV的表示和所接收音频数据的表示编码在位流20中。在一些实例中,音频编码装置14可确定满足上文等式(15)和(16)的一或多个空间定位向量。通过这种方式,音频编码装置14可输出使内容消费者系统能够以任意扬声器配置重放所接收音频数据同时还实现与不能够处理HOA系数的内容消费者系统的后向兼容性的位流。
内容消费者系统6可基于位流20产生扩音器馈送26。如图1中所示,内容消费者系统6可包含音频解码装置22和扩音器24。扩音器24还可被称作局部扩音器。音频解码装置22可能够解码位流20。作为一个实例,音频解码装置22可解码位流20以重建音频数据和实现将经解码音频数据转换为HOA系数的信息。作为另一实例,音频解码装置22可解码位流20以重建音频数据,且可局部确定实现将经解码音频数据转换为HOA系数的信息。举例来说,音频解码装置22可确定满足上文等式(15)和(16)的一或多个空间定位向量。
在任何情况下,音频解码装置22可使用所述信息将经解码音频数据转换为HOA系数。举例来说,音频解码装置22可使用SPV将经解码音频数据转换为HOA系数,且渲染所述HOA系数。在一些实例中,音频解码装置可渲染所得HOA系数以输出可驱动扩音器24中的一个或多个的扩音器馈送26。在一些实例中,音频解码装置可将所得HOA系数输出到外部渲染器(未图示),所述外部渲染器可渲染HOA系数以输出可驱动扩音器24中的一个或多个的扩音器馈送26。换句话说,HOA声场由扩音器24重放。在各种实例中,扩音器24可以是车辆、家、电影院、音乐会场所或其它位置。
音频编码装置14和音频解码装置22各自可被实施为多种合适的电路中的任一个,例如一或多个集成电路,包含微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分地在软件中实施时,装置可将用所述软件的指令存储在合适的非暂时性计算机可读媒体中,且可使用执行本公开的技术的一或多个处理器在例如集成电路等硬件中执行所述指令。
图2是说明从零阶(n=0)到第四阶(n=4)的球面谐波基底函数的图式。如可看出,对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图1的实例中展示所述子阶但未明确注释。
所述SHC
Figure GDA0002328444590000121
可由各种麦克风阵列配置物理上获取(例如,记录),或者,其可从声场的基于通道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音频编码器以获得经编码SHC,所述经编码SHC可促进更高效的发射或存储。举例来说,可使用涉及(1+4)2个(25,且因此为四阶)系数的四阶表示。
如上文所指出,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于Poletti,M的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004-1025页)中。
为说明可如何从基于对象的描述导出SHC,考虑以下等式。对应于个别音频对象的声场的系数
Figure GDA0002328444590000122
可表达为如等式(27)中展示,其中i为
Figure GDA0002328444590000123
Figure GDA0002328444590000124
是阶n的(第二种)球面汉克尔函数,且
Figure GDA0002328444590000125
是对象的位置。
Figure GDA0002328444590000126
知晓对象源能量g(ω)作为频率的函数(例如,使用时频分析技术,例如对PCM流执行快速傅立叶变换)允许我们将每一PCM对象和对应位置转换为SHC
Figure GDA0002328444590000127
此外,可展示(因为以上是线性且正交分解),每一对象的
Figure GDA0002328444590000128
系数为加性的。以此方式,许多PCM对象可由
Figure GDA0002328444590000129
系数表示(例如,表示为个别对象的系数向量的总和)。实质上,所述系数含有关于声场的信息(随3D坐标而变的压力),且以上情形表示在观察点
Figure GDA00023284445900001210
附近的从个别对象到整体声场的表示的变换。
图3是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图。图3中展示的音频编码装置14的实例实施方案标记为音频编码装置14A。音频编码装置14A包含音频编码单元51、位流产生单元52A和存储器54。在其它实例中,音频编码装置14A可包含更多、更少或不同的单元。举例来说,音频编码装置14A可不包含音频编码单元51,或音频编码单元51可实施在单独装置中,所述单独装置可经由一或多个有线或无线连接连接到音频编码装置14A。
音频信号50可表示由音频编码装置14A接收的输入音频信号。在一些实例中,音频信号50可以是针对源扩音器配置的多通道音频信号。举例来说,如图3所示,音频信号50可包含N个音频数据通道,表示为通道C1到通道CN。作为一个实例,音频信号50可以是针对5.1的源扩音器配置的六通道音频信号(即,左前通道、中心通道、右前通道、环绕左后通道、环绕右后通道,和低频效应(LFE)通道)。作为另一实例,音频信号50可以是针对7.1的源扩音器配置的八通道音频信号(即,左前通道、中心通道、右前通道、环绕左后通道、环绕左通道、环绕右后通道,环绕右通道,和低频效应(LFE)通道)。其它实例是可能的,例如二十四通道音频信号(例如,22.2)、九通道音频信号(例如,8.1)和任何其它通道的组合。
在一些实例中,音频编码装置14A可包含音频编码单元51,其可经配置以将音频信号50编码到经译码音频信号62中。举例来说,音频编码单元51可量化、格式化或以其它方式压缩音频信号50以产生音频信号62。如图3的实例中所展示,音频编码单元51可将音频信号50的通道C1-CN编码到经译码音频信号62的通道C'1-C'N中。在一些实例中,音频编码单元51可被称为音频CODEC。
扩音器位置信息48可指定源扩音器设置中的扩音器的数目(例如,N)和源扩音器设置中扩音器的位置。在一些实例中,扩音器位置信息48可以方位角和仰角的形式(例如,{θii}i=1,…,N)指示源扩音器的位置。在一些实例中,扩音器位置信息48可以预定义设置(例如,5.1、7.1、22.2)的形式指示源扩音器的位置。在一些实例中,音频编码装置14A可基于扩音器位置信息48确定源渲染格式D。在一些实例中,源渲染格式D可表示为矩阵。
位流产生单元52A可经配置以基于一或多个输入产生位流。在图3的实例中,位流产生单元52A可经配置以将扩音器位置信息48和音频信号50编码到位流56A中。在一些实例中,位流产生单元52A可在不压缩的情况下编码音频信号。举例来说,位流产生单元52A可将音频信号50编码到位流56A中。在一些实例中,位流产生单元52A可在压缩的情况下编码音频信号。举例来说,位流产生单元52A可将经译码音频信号62编码到位流56A中。
在一些实例中,为使扩音器位置信息48到位流56A中,位流产生单元52A可编码(例如,以信号传送)源扩音器设置中的扩音器的数目(例如,N)和呈方位角和仰角(例如,{θii}i=1,…,N)的形式的源扩音器设置的扩音器的位置。此外,在一些实例中,位流产生单元52A可确定和编码多少HOA系数将在将音频信号50转换为HOA声场时使用(例如,NHOA)的指示。在一些实例中,音频信号50可划分成帧。在一些实例中,位流产生单元52A可针对每一帧以信号传送源扩音器设置中扩音器的数目和源扩音器设置的扩音器的位置。在一些实例中,例如在当前帧的源扩音器设置与先前帧的源扩音器设置相同的情况下,位流产生单元52A可省略针对当前帧以信号传送源扩音器设置中的扩音器的数目和源扩音器设置的扩音器的位置。
在操作中,音频编码装置14A可接收音频信号50作为六通道多通道音频信号,且接收扩音器位置信息48作为呈5.1预定义设置的形式的源扩音器的位置的指示。如上文所论述,位流产生单元52A可将扩音器位置信息48和音频信号50编码到位流56A中。举例来说,位流产生单元52A可将六通道多通道的表示(音频信号50)和经编码音频信号为5.1音频信号的指示(源扩音器位置信息48)编码到位流56A中。
如上文所论述,在一些实例中,音频编码装置14A可将经编码音频数据(即,位流56A)直接发射到音频解码装置。在其它实例中,音频编码装置14A可将经编码音频数据(即,位流56A)存储到存储媒体或文件服务器上以供稍后由音频解码装置访问用于解码和/或重放。在图3的实例中,存储器54可在由音频编码装置14A输出之前存储位流56A的至少一部分。换句话说,存储器54可存储所有位流56A或位流56A的一部分。
因此,音频编码装置14A可包含一或多个处理器,其经配置以:接收针对源扩音器配置的多通道音频信号(例如,针对扩音器位置信息48的多通道音频信号50);基于源扩音器配置获得高阶立体混响(HOA)域中的多个空间定位向量,所述空间定位向量与多通道音频信号组合表示表示多通道音频信号的高阶立体混响(HOA)系数的集合;以及在经译码音频位流(例如,位流56A)中编码多通道音频信号的表示(例如,经译码音频信号62)和所述多个空间定位向量的指示(例如,扩音器位置信息48)。此外,音频编码装置14A可包含存储器(例如,存储器54),其电耦合到所述一或多个处理器且经配置以存储经译码音频位流。
图4是说明根据本公开的一或多种技术的用于与图3中展示的音频编码装置14A的实例实施方案一起使用的音频解码装置22的实例实施方案的框图。图4中展示的音频解码装置22的实例实施方案标记为22A。图4中的音频解码装置22的实施方案包含存储器200、多路分用单元202A、音频解码单元204、向量创建单元206、HOA产生单元208A和渲染单元210。在其它实例中,音频解码装置22A可包含更多、更少或不同的单元。举例来说,渲染单元210可实施在例如扩音器、头戴式耳机单元或音频基座或卫星装置等单独装置中,且可经由一或多个有线或无线连接连接到音频解码装置22A。
存储器200可获得经编码音频数据,例如位流56A。在一些实例中,存储器200可从音频编码装置直接接收经编码音频数据(即,位流56A)。在其它实例中,经编码音频数据可被存储,且存储器200可从存储媒体或文件服务器获得经编码音频数据(即,位流56A)。存储器200可向例如多路分用单元202等音频解码装置22A的一或多个组件提供对位流56A的访问权。
多路分用单元202A可将位流56A多路分用以获得经译码音频数据62和扩音器位置信息48。多路分用单元202A可将所获得数据提供到音频解码装置22A的一或多个组件。举例来说,多路分用单元202A可将经译码音频数据62提供到音频解码单元204,且将扩音器位置信息48提供到向量创建单元206。
音频解码单元204可经配置以将经译码音频信号62解码为音频信号70。举例来说,音频解码单元204可解量化、解格式化、或以其它方式解压缩音频信号62以产生音频信号70。如图4的实例中所展示,音频解码单元204可将音频信号62的通道C'1-C'N解码为经解码音频信号70的通道C'1-C'N。在一些实例中,例如在使用无损译码技术对音频信号62译码的情况下,音频信号70可近似等于图3的音频信号50。在一些实例中,音频解码单元204可被称为音频CODEC。音频解码单元204可将经解码音频信号70提供到音频解码装置22A的一或多个组件,例如HOA产生单元208A。
向量创建单元206可经配置以产生一或多个空间定位向量。举例来说,如图4的实例中所展示,向量创建单元206可基于扩音器位置信息48产生空间定位向量72。在一些实例中,空间定位向量72可在高阶立体混响(HOA)域中。在一些实例中,为产生空间定位向量72,向量创建单元206可基于扩音器位置信息48确定源渲染格式D。使用所确定的源渲染格式D,向量创建单元206可确定空间定位向量72以满足以上等式(15)和(16)。向量创建单元206可将空间定位向量72提供到音频解码装置22A的一或多个组件,例如HOA产生单元208A。
HOA产生单元208A可经配置以基于多通道音频数据和空间定位向量产生HOA声场。举例来说,如图4的实例中所展示,HOA产生单元208A可基于经解码音频信号70和空间定位向量72产生HOA系数212A的集合。在一些实例中,HOA产生单元208A可根据下文等式(28)产生HOA系数212A的集合,其中H表示HOA系数212A,Ci表示经解码音频信号70,且
Figure GDA0002328444590000151
表示空间定位向量72的转置。
Figure GDA0002328444590000152
HOA产生单元208A可将所产生的HOA声场提供到一或多个其它组件。举例来说,如图4的实例中所展示,HOA产生单元208A可将HOA系数212A提供到渲染单元210。
渲染单元210可经配置以渲染HOA声场以产生多个音频信号。在一些实例中,渲染单元210可渲染HOA声场的HOA系数212A以产生音频信号26A以供在多个局部扩音器(例如图1的扩音器24)处重放。在所述多个局部扩音器包含L个扩音器的情况下,音频信号26A可包含分别按下以供经由扩音器1到L重放的通道C1到CL
渲染单元210可基于局部扩音器设置信息28产生音频信号26A,局部扩音器设置信息28可表示所述多个局部扩音器的位置。在一些实例中,局部扩音器设置信息28可呈局部渲染格式
Figure GDA0002328444590000161
的形式。在一些实例中,局部渲染格式
Figure GDA0002328444590000162
可以是局部渲染矩阵。在一些实例中,例如在局部扩音器设置信息28呈局部扩音器中的每一个的方位角和仰角的形式的情况下,渲染单元210可基于局部扩音器设置信息28确定局部渲染格式
Figure GDA0002328444590000163
在一些实例中,渲染单元210可根据等式(29)基于局部扩音器设置信息28产生音频信号26A,其中
Figure GDA0002328444590000164
表示音频信号26A,H表示HOA系数212A,且
Figure GDA0002328444590000165
表示局部渲染格式
Figure GDA0002328444590000166
的转置。
Figure GDA0002328444590000167
在一些实例中,局部渲染格式
Figure GDA0002328444590000168
可不同于用于确定空间定位向量72的源渲染格式D。作为一个实例,所述多个局部扩音器的位置可不同于所述多个源扩音器的位置。作为另一实例,所述多个局部扩音器中的扩音器的数目可不同于所述多个源扩音器中的扩音器的数目。作为另一实例,所述多个局部扩音器的位置可不同于所述多个源扩音器的位置,并且所述多个局部扩音器中的扩音器的数目可不同于所述多个源扩音器中的扩音器的数目。
因此,音频解码装置22A可包含经配置以存储经译码音频位流的存储器(例如,存储器200)。音频解码装置22A可进一步包含一或多个处理器,其电耦合到所述存储器且经配置以:从经译码音频位流获得针对源扩音器配置的多通道音频信号的表示(例如,针对扩音器位置信息48的经译码音频信号62);获得高阶立体混响(HOA)域中基于源扩音器配置的多个空间定位向量(SPV)的表示(例如,空间定位向量72);以及基于多通道音频信号和所述多个空间定位向量产生HOA声场(例如,HOA系数212A)。
图5是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图。图5中展示的音频编码装置14的实例实施方案标记为音频编码装置14B。音频编码装置14B包含音频编码单元51、位流产生单元52B和存储器54。在其它实例中,音频编码装置14B可包含更多、更少或不同的单元。举例来说,音频编码装置14B可不包含音频编码单元51,或音频编码单元51可实施在单独装置中,所述单独装置可经由一或多个有线或无线连接连接到音频编码装置14B。
与可编码经译码音频信号62和扩音器位置信息48而不编码空间定位向量的指示的图3的音频编码装置14A相比,音频编码装置14B包含可确定空间定位向量的向量编码单元68。在一些实例中,向量编码单元68可基于扩音器位置信息48确定空间定位向量,且输出空间向量表示数据71A以供由位流产生单元52B编码到位流56B中。
在一些实例中,向量编码单元68可产生向量表示数据71A作为码簿中的索引。作为一个实例,向量编码单元68可产生向量表示数据71A作为动态地创建(例如,基于扩音器位置信息48)的码簿中的索引。下文参看图6-8论述产生向量表示数据71A作为动态地创建的码簿中的索引的向量编码单元68的一个实例的额外细节。作为另一实例,向量编码单元68可产生向量表示数据71A作为包含针对预定源扩音器设置的空间定位向量的码簿中的索引。下文参看图9论述产生向量表示数据71A作为包含针对预定源扩音器设置的空间定位向量的码簿中的索引的向量编码单元68的一个实例的额外细节。
位流产生单元52B可在位流56B中包含表示经译码音频信号60和空间向量表示数据71A的数据。在一些实例中,位流产生单元52B还可在位流56B中包含表示扩音器位置信息48的数据。在图5的实例中,存储器54可在由音频编码装置14B输出之前存储位流56B的至少一部分。
因此,音频编码装置14B可包含一或多个处理器,其经配置以:接收针对源扩音器配置的多通道音频信号(例如,针对扩音器位置信息48的多通道音频信号50);基于源扩音器配置获得高阶立体混响(HOA)域中的多个空间定位向量,所述空间定位向量与多通道音频信号组合表示表示多通道音频信号的高阶立体混响(HOA)系数的集合;以及在经译码音频位流(例如,位流56B)中编码多通道音频信号的表示(例如,经译码音频信号62)和所述多个空间定位向量的指示(例如,空间向量表示数据71A)。此外,音频编码装置14B可包含存储器(例如,存储器54),其电耦合到所述一或多个处理器且经配置以存储经译码音频位流。
图6是说明根据本公开的一或多种技术的向量编码单元68的实例实施方案的图式。在图6的实例中,向量编码单元68的实例实施方案标记为向量编码单元68A。在图6的实例中,向量编码单元68A包括渲染格式单元110、向量创建单元112、存储器114和表示单元115。此外,如图6的实例中所示,渲染格式单元110接收扩音器位置信息48。
渲染格式单元110使用扩音器位置信息48确定源渲染格式116。源渲染格式116可为用于将HOA系数集合渲染到扩音器馈送集合中以用于以扩音器位置信息48描述的方式布置的扩音器的渲染矩阵。110可以各种方式确定源渲染格式116。举例来说,渲染格式单元110可使用以下中描述的技术:ISO/IEC 23008-3,“信息技术-在异构环境中的高效率译码和媒体递送-第3部分:3D音频(Information technology-High efficiency coding andmedia delivery in heterogeneous environments-Part 3:3D audio)”第一版本,2015年(在iso.org处可得)。
在其中渲染格式单元110使用ISO/IEC 23008-3中描述的技术的一实例中,扩音器位置信息48包含规定源扩音器设置中的扩音器的方向的信息。为便于说明,本公开可指源扩音器设置中的作为“源扩音器”的扩音器。因此,扩音器位置信息48可包含规定L扩音器方向的数据,其中L是源扩音器的数目。规定L扩音器方向的数据可标示为
Figure GDA0002328444590000181
规定源扩音器的方向的数据可表达为成对的球面坐标。因此,
Figure GDA0002328444590000182
具有球面角
Figure GDA0002328444590000183
Figure GDA0002328444590000184
指示倾斜角,且
Figure GDA0002328444590000185
指示方位角角度,其可以弧度表达。在此实例中,渲染格式单元110可假设源扩音器具有球面布置,中心定在听觉最优点(acoustic sweet spot)。
在此实例中,渲染格式单元110可基于HOA次序和理想球面设计位置集合确定模式矩阵,标示为
Figure GDA0002328444590000186
图7展示一实例组理想球面设计位置。图8是展示另一实例组理想球面设计位置的表。理想球面设计位置可标示为
Figure GDA0002328444590000187
其中S是理想球面设计位置的数目,且Ωs=[θss]。模式矩阵可被标示为使得
Figure GDA0002328444590000188
其中
Figure GDA0002328444590000189
其中ys保持实值球面谐波系数
Figure GDA00023284445900001810
一般来说,实值球面谐波系数
Figure GDA00023284445900001811
可根据等式(30)和(31)表示。
Figure GDA00023284445900001812
其中
Figure GDA00023284445900001813
在等式(30)和(31)中,勒让德(Legendre)函数Pn,m(x)可根据如下的等式(32)定义,具有勒让德多项式Pn(x)且不具有康登-肖特莱(Condon-Shortley)相项(-1)m
Figure GDA00023284445900001814
图7提供具有对应于理想球面设计位置的条目的实例表130。在图7的实例中,表130的每一行是对应于预定义扩音器位置的条目。表130的列131规定以度表示的扩音器的理想方位角。表130的列132规定以度表示的扩音器的理想仰角。表130的列133和134规定以度表示的扩音器的方位角角度的可接受范围。表130的列135和136规定以度表示的扩音器的仰角角度的可接受范围。
图8提供具有对应于理想球面设计位置的条目的另一实例表140的一部分。虽然图8中未展示,表140包含900条目,每一条目规定扩音器位置的不同方位角
Figure GDA00023284445900001815
和仰角θ。在图8的实例中,音频编码装置14可通过用信号传送表140中的条目的索引规定源扩音器设置中的扩音器的位置。举例来说,音频编码装置14可通过用信号传送索引值46规定源扩音器设置中的扩音器的方位角为1.967778弧度且仰角为0.428967弧度。
返回到图6的实例,向量创建单元112可获得源渲染格式116。向量创建单元112可基于源渲染格式116确定空间向量118的集合。在一些实例中,由向量创建单元112产生的空间向量的数目等于源扩音器设置中的扩音器的数目。举例来说,如果在源扩音器设置中存在N扩音器,那么向量创建单元112可确定N空间向量。对于源扩音器设置中的每一扩音器n,其中n在1到N的范围内,扩音器的空间向量可等于Vn=[An(DDT)-1D]T。在此等式中,D是表示为矩阵的源渲染格式且An是由单行数目等于N的元素组成的矩阵(即,An是N维向量)。除了An中的一个元素值等于1以外,An中的每一元素等于0。An内的等于1的元素的位置的索引等于n。因此,当n等于1时,An等于[1,0,0,…,0];当n等于2时,An等于[0,1,0,…,0];等等。
存储器114可存储码簿120。存储器114可与向量编码单元68A分离且可形成音频编码装置14的通用存储器的部分。码簿120包含条目的集合,所述条目中的每一个将相应代码向量索引映射到所述空间向量集合118中的相应空间向量。下表是实例码簿。在此表中,每一相应行对应于相应条目,N指示扩音器的数目,且D表示表示为矩阵的源渲染格式。
代码向量索引 空间向量
1 V<sub>1</sub>=[[1,0,0,…,0,…,0](DD<sup>T</sup>)<sup>-1</sup>D]<sup>T</sup>
2 V<sub>2</sub>=[[0,1,0,…,0,…,0](DD<sup>T</sup>)<sup>-1</sup>D]<sup>T</sup>
N V<sub>N</sub>=[[0,0,…,0,…,1](DD<sup>T</sup>)<sup>-1</sup>D]<sup>T</sup>
对于源扩音器设置的每一相应扩音器,表示单元115输出对应于相应扩音器的代码向量索引。举例来说,表示单元115可输出指示对应于第一通道的代码向量索引是2,对应于第二通道的代码向量索引等于4等等的数据。具有码簿120的复本的解码装置能够使用代码向量索引确定源扩音器设置的扩音器的空间向量。因此,代码向量索引是一种类型的表示数据的空间向量。如上文所论述,位流产生单元52B可包含表示位流56B中的数据71A的空间向量。
此外,在一些实例中,表示单元115可获得扩音器位置信息48且可包含指示空间向量表示数据71A中的源扩音器的位置的数据。在其它实例中,表示单元115不包含指示空间向量表示数据71A中的源扩音器的位置的数据。实际上,在至少一些此类实例中,源扩音器的位置可预配置在音频解码装置22处。
在其中表示单元115包含指示空间向量表示数据71A中的源扩音器的位置的实例中,表示单元115可以各种方式指示源扩音器的位置。在一个实例中,扩音器位置信息48规定环绕声格式,例如5.1格式、7.1格式或22.2格式。在此实例中,源扩音器设置的扩音器中的每一个在预定义位置处。因此,表示单元115可在空间表示数据115中包含指示预定义环绕声格式的数据。因为预定义环绕声格式的扩音器在预定义位置处,所以指示预定义环绕声格式的数据对于音频解码装置22来说可足以产生匹配码簿120的码簿。
在另一实例中,ISO/IEC 23008-3定义针对不同扩音器布局的多个CICP扬声器布局索引值。在此实例中,扩音器位置信息48规定如ISO/IEC 23008-3中规定的CICP扬声器布局索引(CICPspeakerLayoutIdx)。渲染格式单元110可基于此CICP扬声器布局索引确定源扩音器设置中的扩音器的位置。因此,表示单元115可在空间向量表示数据71A中包含CICP扬声器布局索引的指示。
在另一实例中,扩音器位置信息48规定源扩音器设置中的扩音器的任意数目和源扩音器设置中的扩音器的任意位置。在此实例中,渲染格式单元110可基于源扩音器设置中的扩音器任意数目和源扩音器设置中的扩音器的任意位置确定源渲染格式。在此实例中,源扩音器设置中的扩音器的任意位置可以各种方式表达。举例来说,表示单元115可在空间向量表示数据71A中包含源扩音器设置中的扩音器的球面坐标。在另一实例中,音频编码装置20和音频解码装置24经配置以有具有对应于多个预定义扩音器位置的条目的表。图7和图8是此类表的实例。在此实例中,并非空间向量表示数据71A进一步规定扩音器的球面坐标,而是空间向量表示数据71A可替代地包含指示表中的条目的索引值的数据。用信号传送索引值可比用信号传送球面坐标更高效。
图9是说明根据本公开的一或多种技术的向量编码单元68的实例实施方案的框图。在图9的实例中,向量编码单元68的实例实施方案标记为向量编码单元68B。在图9的实例中,空间向量单元68B包含码簿库150和选择单元154。码簿库150可使用存储器实施。码簿库150包含一或多个预定义码簿152A-152N(统称为“码簿152”)。码簿152中的每一相应者包含一或多个条目的集合。每一相应条目将相应代码向量索引映射到相应空间向量。
码簿152中的每一相应者对应于不同的预定义源扩音器设置。举例来说,码簿库150中的第一码簿可对应于由两个扩音器组成的源扩音器设置。在此实例中,码簿库150中的第二码簿对应于由布置在用于5.1环绕声格式的标准位置处的五个扩音器组成的源扩音器设置。此外,在此实例中,码簿库150中的第三码簿对应于由布置在用于7.1环绕声格式的标准位置处的七个扩音器组成的源扩音器设置。在此实例中,码簿库100中的第四码簿对应于由布置在用于22.2环绕声格式的标准位置处的22扩音器组成的源扩音器设置。其它实例可包含先前实例中提及的码簿更多、更少或不同的码簿。
在图9的实例中,选择单元154接收扩音器位置信息48。在一个实例中,源扩音器信息48可由识别预定义环绕声格式(例如5.1、7.1、22.2等)的信息组成或包括所述信息。在另一实例中,源扩音器信息48由识别扩音器的另一类型的预定义数目和布置的信息组成或包括所述信息。
选择单元154基于源扩音器设置信息识别哪些码簿152适用于音频解码装置24接收的音频信号。在图9的实例中,选择单元154输出指示哪些音频信号50对应于识别的码簿中的哪些条目的空间向量表示数据71A。举例来说,选择单元154可输出用于音频信号50中的每一个的代码向量索引。
在一些实例中,向量编码单元68采用图6的预定义码簿方法和图9的动态码簿方法的混合。举例来说,如在本公开中的其中使用基于通道的音频的其它处所描述,每一相应通道对应于源扩音器设置的相应扩音器,且向量编码单元68确定源扩音器设置的每一相应扩音器的相应空间向量。在此类实例中的例如其中使用基于通道的音频的一些中,向量编码单元68可使用一或多个预定义码簿确定源扩音器设置的特定扩音器的空间向量。向量编码单元68可基于源扩音器设置确定源渲染格式,并且使用源渲染格式确定源扩音器设置的其它扩音器的空间向量。
图10是说明根据本公开的一或多种技术的音频解码装置22的实例实施方案的框图。图5中展示的音频解码装置22的实例实施方案标记为音频解码装置22B。图10中的音频解码装置22的实施方案包含存储器200、多路分用单元202B、音频解码单元204、向量解码单元207、HOA产生单元208A和渲染单元210。在其它实例中,音频解码装置22B可包含更多、更少或不同单元。举例来说,渲染单元210可实施于单独装置(例如扩音器、头戴式耳机单元或音频基或卫星装置)中,并且可通过一或多个有线或无线连接连接到音频解码装置22B。
与可基于扩音器位置信息48产生空间定位向量72而无需接收对空间定位向量的指示的图4的音频解码装置22A相比,音频解码装置22B包含可基于接收的空间向量表示数据71A确定空间定位向量72的向量解码单元207。
在一些实例中,向量解码单元207可基于由空间向量表示数据71A表示的码簿索引确定空间定位向量72。作为一个实例,向量解码单元207可从(例如,基于扩音器位置信息48)动态地产生的码簿中的索引确定空间定位向量72。下文参考图11论述从动态地产生的码簿中的索引确定空间定位向量的向量解码单元207的一个实例的额外细节。作为另一实例,向量解码单元207可从包含用于预定源扩音器设置的空间定位向量的码簿中的索引确定空间定位向量72。下文参考图12论述从包含用于预定源扩音器设置的空间定位向量的码簿中的索引确定空间定位向量的向量解码单元207的一个实例的额外细节。
在任何情况下,向量解码单元207可将空间定位向量72提供到音频解码装置22B的一或多个其它组件,例如HOA产生单元208A。
因此,音频解码装置22B可包含经配置以存储经译码音频位流的存储器(例如,存储器200)。音频解码装置22B可进一步包含一或多个处理器,所述处理器电耦合到存储器并且经配置以:从经译码音频位流获得源扩音器配置的多通道音频信号(例如,扩音器位置信息48的经译码音频信号62)的表示;获得高阶立体混响(HOA)域中的基于源扩音器配置的多个空间定位向量(SPV)(例如,空间定位向量72)的表示;和基于多通道音频信号和多个空间定位向量产生HOA声场(例如,HOA系数212A)。
图11是说明根据本公开的一或多种技术的向量解码单元207的实例实施方案的框图。在图11的实例中,向量解码单元207的实例实施方案标记为向量解码单元207A。在图11的实例中,向量解码单元207包含渲染格式单元250、向量创建单元252、存储器254和重建单元256。在其它实例中,向量解码单元207可包含更多、更少或不同组件。
渲染格式单元250可以类似于图6的渲染格式单元110的方式的方式操作。如同渲染格式单元110一样,渲染格式单元250可接收扩音器位置信息48。在一些实例中,从位流获得扩音器位置信息48。在其它实例中,扩音器位置信息48预配置于音频解码装置22处。此外,类似于渲染格式单元110,渲染格式单元250可产生源渲染格式258。源渲染格式258可匹配由渲染格式单元110产生的源渲染格式116。
向量创建单元252可以类似于图6的向量创建单元112的方式的方式操作。向量创建单元252可使用源渲染格式258确定空间向量260的集合。空间向量260可匹配由向量产生单元112产生的空间向量118。存储器254可存储码簿262。存储器254可与向量解码206分离并且可形成音频解码装置22的通用存储器的部分。码簿262包含条目的集合,所述条目中的每一个将相应代码向量索引映射到所述空间向量集合260中的相应空间向量。码簿262可匹配图6的码簿120。
重建单元256可输出识别为对应于源扩音器设置的特定扩音器的空间向量。举例来说,重建单元256可输出空间向量72。
图12是说明根据本公开的一或多种技术的向量解码单元207的替代性实施方案的框图。在图12的实例中,向量解码单元207的实例实施方案标记为向量解码单元207B。向量解码单元207包含码簿库300和重建单元304。码簿库300可使用存储器实施。码簿库300包含一或多个预定义码簿302A-302N(统称为“码簿302”)。码簿302中的每一相应者包含一或多个条目的集合。每一相应条目将相应代码向量索引映射到相应空间向量。码簿库300可匹配图9的码簿库150。
在图12的实例中,重建单元304获得扩音器位置信息48。以与图9的选择单元154的方式类似的方式,重建单元304可使用扩音器位置信息48识别码簿库300中的适用码簿。重建单元304可输出适用码簿中规定的用于源扩音器设置信息的扩音器的空间向量。
图13是说明根据本公开的一或多种技术的其中音频编码装置14经配置以编码基于对象的音频数据的音频编码装置14的实例实施方案的框图。图13中展示的音频编码装置14的实例实施方案标记为14C。在图13的实例中,音频编码装置14C包含向量编码单元68C、位流产生单元52C和存储器54。
在图13的实例中,向量编码单元68C获得扩音器位置信息48。另外,向量编码单元58C获得音频对象位置信息350。音频对象位置信息350规定音频对象的虚拟位置。向量编码单元68B使用扩音器位置信息48和音频对象位置信息350确定音频对象的空间向量表示数据71B。下文详细描述的图14描述向量编码单元68C的实例实施方案。
位流产生单元52C获得音频对象的音频信号50B。位流产生单元52C可包含表示音频信号50C的数据和位流56C中的空间向量表示数据71B。在一些实例中,位流产生单元52C可使用已知音频压缩格式(例如MP3、AAC、Vorbis、FLAC和Opus)编码音频信号50B。在一些例子中,位流产生单元52C可将音频信号50B从一个压缩格式转码成另一压缩格式。在一些实例中,音频编码装置14C可包含音频编码单元(例如图3和5的音频编码单元51)以压缩和/或转码音频信号50B。在图13的实例中,存储器54存储位流56C的至少部分,之后由音频编码装置14C输出。
因此,音频编码装置14C包含经配置以存储针对时间间隔的音频对象的音频信号(例如,音频信号50B)和指示音频对象的虚拟源位置的数据(例如,音频对象位置信息350)的存储器。此外,音频编码装置14C包含电耦合到存储器的一或多个处理器。一或多个处理器经配置以基于指示音频对象的虚拟源位置的数据和指示多个扩音器位置的数据(例如,扩音器位置信息48)确定HOA域中的音频对象的空间向量。此外,在一些实例中,音频编码装置14C可在位流中包含表示音频信号的数据和表示空间向量的数据。在一些实例中,表示音频信号的数据不是HOA域中的数据的表示。此外,在一些实例中,描述在所述时间间隔期间含有音频信号的声场的HOA系数集合等于音频信号乘以空间向量的转置。
另外,在一些实例中,空间向量表示数据71B可包含指示源扩音器设置中的扩音器的位置的数据。位流产生单元52C可包含表示位流56C中的源扩音器设置的扩音器的位置的数据。在其它实例中,位流产生单元52C不包含指示位流56C中的源扩音器设置的扩音器的位置的数据。
图14是说明根据本公开的一或多种技术的基于对象音频数据的向量编码单元68C的实例实施方案的框图。在图14的实例中,向量编码单元68C包含渲染格式单元400、中间向量单元402、向量最终单元404、增益确定单元406和量化单元408。
在图14的实例中,渲染格式单元400获得扩音器位置信息48。渲染格式单元400基于扩音器位置信息48确定源渲染格式410。渲染格式单元400可根据本公开中其它处提供的实例中的一或多个确定源渲染格式410。
在图14的实例中,中间向量单元402基于源渲染格式410确定中间空间向量412的集合。所述中间空间向量集合412的每一相应中间空间向量对应于源扩音器设置的相应扩音器。举例来说,如果在源扩音器设置中存在N扩音器,那么中间向量单元402确定N中间空间向量。对于源扩音器设置中的每一扩音器n,其中n在1到N的范围内,扩音器的中间空间向量可等于Vn=[An(DDT)-1D]T。在此等式中,D是表示为矩阵的源渲染格式且An是由单行数目等于N的元素组成的矩阵。除了An中的一个元素值等于1以外,An中的每一元素等于0。An内的等于1的元素的位置的索引等于n。
此外,在图14的实例中,增益确定单元406获得扩音器位置信息48和音频对象位置数据49。音频对象位置数据49规定音频对象的虚拟位置。举例来说,音频对象位置数据49可规定音频对象的球面坐标。在图14的实例中,增益确定单元406确定增益因数416的集合。所述增益因数集合416中的每一相应增益因数对应于源扩音器设置的相应扩音器。增益确定单元406可使用向量基础振幅平移(VBAP)确定增益因数416。VBAP可用以在假设扩音器距收听位置的距离相同的情况下放置具有任意扩音器设置的虚拟音频源。Pulkki的“使用向量基础振幅平移进行虚拟声源定位(Virtual Sound Source Positioning Using VectorBase Amplitude Panning)”(音频工程协会期刊,第45卷,第6号,1997年6月(Journal ofAudio Engineering Society,Vol.45,No.6,June 1997))提供对VBAP的描述。
图15是说明VBAP的概念图。在VBAP中,应用于由三个扬声器输出的音频信号的增益因数诱使收听者感知到音频信号来自定位于三个扩音器之间的活动三角形452内的虚拟源位置450。虚拟源位置450可为音频对象的位置坐标指示的位置。举例来说,在图15的实例中,虚拟源位置450比扩音器454B更接近于扩音器454A。因此,扩音器454A的增益因数可大于扩音器454B的增益因数。具有更大数目个扩音器或具有两个扩音器的其它实例是可能的。
VBAP使用几何方法计算增益因数416。在其中三个扩音器用于每一音频对象的实例(例如图15)中,三个扩音器布置成三角形以形成向量基。每一向量基由扩音器编号k、m、n和在归一化为单位长度的笛卡尔坐标中给定的扩音器位置向量Ik、Im和In识别。扩音器k、m和n的向量基可由以下定义:
Ik,m,n=(Ik,Im,In) (33)
音频对象的所需方向
Figure GDA0002328444590000251
可给定为方位角角度
Figure GDA0002328444590000252
和仰角角度θ。θ、
Figure GDA0002328444590000253
可为音频对象的位置坐标。笛卡尔坐标中的虚拟源的单位长度位置向量p(Ω)因而由以下定义:
Figure GDA0002328444590000254
虚拟源位置可由向量基和增益因数
Figure GDA0002328444590000255
表示,如
Figure GDA0002328444590000256
通过倒置向量基矩阵,可通过以下计算所需的增益因数:
Figure GDA0002328444590000257
根据等式(36)确定待使用的向量基。首先,根据等式(36)计算所有向量基的增益。随后,对于每一向量基,由
Figure GDA0002328444590000258
评估超过增益因数的最小值。使用其中
Figure GDA0002328444590000259
具有最高值的向量基。一般来说,不准许增益因数为负。取决于收听房间声学,可归一化增益因数以用于能量保存。
在图14的实例中,向量最终单元404获得增益因数416。向量最终单元404基于中间空间向量412和增益因数416产生音频对象的空间向量418。在一些实例中,向量最终单元404使用以下等式确定空间向量:
Figure GDA00023284445900002510
在以上等式中,V是空间向量,N是源扩音器设置中的扩音器的数目,gi是扩音器i的增益因数,且Ii是扩音器i的中间空间向量。在其中增益确定单元406使用具有三个扩音器的VBAP的一些实例中,增益因数gi中的仅三个增益因数是非零的。
因此,在其中向量最终单元404使用等式(37)确定空间向量418的一实例中,空间向量418等于多个操作数的总和。所述多个操作数中的每一相应操作数对应于多个扩音器位置中的相应扩音器位置。对于多个扩音器位置中的每一相应扩音器位置,多个扩音器位置向量包含相应扩音器位置的扩音器位置向量。此外,对于多个扩音器位置中的每一相应扩音器位置,对应于相应扩音器位置的操作数等于相应扩音器位置的增益因数乘以相应扩音器位置的扩音器位置向量。在此实例中,相应扩音器位置的增益因数指示相应扩音器位置处的音频信号的相应增益。
因此,在此实例中,空间向量418等于多个操作数的总和。多个操作数中的每一相应操作数对应于多个扩音器位置中的相应扩音器位置。对于多个扩音器位置中的每一相应扩音器位置,多个扩音器位置向量包含相应扩音器位置的扩音器位置向量。此外,对应于相应扩音器位置的操作数等于相应扩音器位置的增益因数乘以相应扩音器位置的扩音器位置向量。在此实例中,相应扩音器位置的增益因数指示相应扩音器位置处的音频信号的相应增益。
综上所述,在一些实例中,视频编码单元68C的渲染格式单元400可确定用于将HOA系数集合渲染到源扩音器位置处的扩音器的扩音器馈送中的渲染格式。另外,向量最终单元404可确定多个扩音器位置向量。所述多个扩音器位置向量中的每一相应扩音器位置向量可对应于多个扩音器位置中的相应扩音器位置。为了确定多个扩音器位置向量,对于多个扩音器位置中的每一相应扩音器位置,增益确定单元406可基于音频对象的位置坐标确定所述相应扩音器位置的增益因数。相应扩音器位置的增益因数可指示相应扩音器位置处的音频信号的相应增益。另外,对于多个扩音器位置中的每一相应扩音器位置,基于音频对象的位置坐标进行确定,中间向量单元402可基于渲染格式确定对应于相应扩音器位置的扩音器位置向量。向量最终单元404可确定所述空间向量作为多个操作数的总和,所述多个操作数中的每一相应操作数对应于多个扩音器位置中的相应扩音器位置。对于所述多个扩音器位置中的每一相应扩音器位置,对应于相应扩音器位置的操作数等于相应扩音器位置的增益因数乘以对应于相应扩音器位置的扩音器位置向量。
量化单元408量化音频对象的空间向量。举例来说,量化单元408可根据本公开中其它处描述的向量量化技术量化空间向量。举例来说,量化单元408可使用标量量化、通过霍夫曼(Huffman)译码的标量量化或关于图17描述的向量量化技术量化空间向量418。因此,表示包含在位流70C中的空间向量的数据是经量化空间向量。
如上文所论述,空间向量418可等于或等效于多个操作数的总和。出于本公开的目的,在以下中的任一个为真的情况下,第一元素可被视为等于第二元素:(1)第一元素的值在数学上等于第二元素的值,(2)第一元素的值当四舍五入(例如,归因于位深度、寄存器限制、浮点表示、固定点表示、经二进制译码十进制表示等)时与第二元素的值当四舍五入(例如,归因于位深度、寄存器限制、浮点表示、固定点表示、经二进制译码十进制表示等)时相同,或(3)第一元素的值与第二元素的值相同。
图16是说明根据本公开的一或多种技术的其中音频解码装置22经配置以解码基于对象的音频数据的音频解码装置22的实例实施方案的框图。图16中展示的音频解码装置22的实例实施方案标记为22C。在图16的实例中,音频解码装置22C包含存储器200、多路分用单元202C、音频解码单元66、向量解码单元209、HOA产生单元208B和渲染单元210。大体来说,存储器200、多路分用单元202C、音频解码单元66、HOA产生单元208B和渲染单元210可以类似于关于图10的实例的存储器200、多路分用单元202B、音频解码单元204、HOA产生单元208A和渲染单元210描述的方式的方式操作。在其它实例中,关于图14描述的音频解码装置22的实施方案可包含更多、更少或不同单元。举例来说,渲染单元210可实施于单独装置(例如扩音器、头戴式耳机单元或音频基或卫星装置)中。
在图16的实例中,音频解码装置22C获得位流56C。位流56C可包含音频对象的经编码的基于对象的音频信号和表示音频对象的空间向量的数据。在图16的实例中,基于对象的音频信号不基于HOA域中的数据、不从HOA域中的数据导出或不表示HOA域中的数据。然而,音频对象的空间向量处于HOA域在。在图16的实例中,存储器200经配置以存储位流56C的至少部分,并且因此经配置以存储表示音频对象的音频信号的数据和表示音频对象的空间向量的数据。
多路分用单元202C可从位流56C获得空间向量表示数据71B。空间向量表示数据71B包含表示每一音频对象的空间向量的数据。因此,多路分用单元202C可从位流56C获得表示音频对象的音频信号的数据,并且可从位流56C获得表示音频对象的空间向量的数据。在例如其中表示空间向量的数据经量化的实例中,向量解码单元209可反量化空间向量以确定音频对象的空间向量72。
HOA产生单元208B接着可以关于图10描述的方式使用空间向量72。举例来说,HOA产生单元208B可基于空间向量72和音频信号70产生HOA声场,如HOA系数212B。
因此,音频解码装置22B包含经配置以存储位流的存储器58。另外,音频解码装置22B包含电耦合到存储器的一或多个处理器。一或多个处理器经配置以基于位流中的数据确定音频对象的音频信号,所述音频信号对应于时间间隔。此外,一或多个处理器经配置以基于位流中的数据确定音频对象的空间向量。在此实例中,空间向量定义于HOA域中。此外,在一些实例中,一或多个处理器将音频对象的音频信号和空间向量转换成在时间间隔期间描述声场的HOA系数212B的集合。如在本公开中其它处所描述,HOA产生单元208B可确定所述HOA系数集合使得所述HOA系数集合等效于音频信号乘以空间向量的转置。
在图16的实例中,渲染单元210可以与图10的渲染单元210的方式类似的方式操作。举例来说,渲染单元210可通过将渲染格式(例如,局部渲染矩阵)应用于HOA系数212B产生多个音频信号26。多个音频信号26的每一相应音频信号可对应于多个扩音器中的相应扩音器,例如图1的扩音器24。
在一些实例中,渲染单元210B可基于指示局部扩音器设置的位置的信息28调整局部渲染格式。渲染单元210B可以下文关于图19描述的方式调整局部渲染格式。
图17是说明根据本公开的一或多种技术的其中音频编码装置14经配置以量化空间向量的音频编码装置14的实例实施方案的框图。图17中展示的音频编码装置14的实例实施方案标记为14D。在图17的实例中,音频编码装置14D包含向量编码单元68D、量化单元500、位流产生单元52D和存储器54。
在图17的实例中,向量编码单元68D可以类似于上文关于图5和/或图13所描述的方式的方式操作。举例来说,如果音频编码装置14D编码基于通道的音频,那么向量编码单元68D可获得扩音器位置信息48。向量编码单元68可基于扩音器位置信息48规定的扩音器的位置确定空间向量的集合。如果音频编码装置14D编码基于对象的音频,那么除了扩音器位置信息48之外,向量编码单元68D还可获得音频对象位置信息350。音频对象位置信息49可规定音频对象的虚拟源位置。在此实例中,空间向量单元68D可以与图13的实例中展示的向量编码单元68C确定音频对象的空间向量的方式大体相同的方式确定音频对象的空间向量。在一些实例中,空间向量单元68D经配置以确定基于通道的音频和基于对象的音频的空间向量。在其它实例中,向量编码单元68D经配置以确定基于通道的音频或基于对象的音频中的仅一个的空间向量。
音频编码装置14D的量化单元500量化向量编码单元68C确定的空间向量。量化单元500可使用各种量化技术量化空间向量。量化单元500可经配置以执行仅单一量化技术或可经配置以执行多种量化技术。在其中量化单元500经配置以执行多种量化技术的实例中,量化单元500可接收指示将使用哪些量化技术的数据或可内部确定将应用哪些量化技术。
在一种实例量化技术中,向量编码单元68D可产生通道或对象i的空间向量,标示为Vi。在此实例中,量化单元500可计算中间空间向量
Figure GDA0002328444590000281
使得
Figure GDA0002328444590000282
等于Vi/‖Vi‖,其中‖Vi‖可为量化步长大小。此外,在此实例中,量化单元500可量化中间空间向量
Figure GDA0002328444590000283
中间空间向量
Figure GDA0002328444590000291
的经量化版本可被标示为
Figure GDA0002328444590000292
另外,量化单元500可量化‖Vi‖。‖Vi‖的经量化版本可被标示为
Figure GDA0002328444590000293
量化单元500可输出
Figure GDA0002328444590000294
Figure GDA0002328444590000295
以包含于位流56D中。因此,量化单元500可输出音频信号50D的经量化向量数据的集合。音频信号50C的所述经量化向量数据集合可包含
Figure GDA0002328444590000296
Figure GDA0002328444590000297
量化单元500可以各种方式量化中间空间向量
Figure GDA0002328444590000298
在一个实例中,量化单元500可将标量量化(SQ)应用于中间空间向量
Figure GDA0002328444590000299
在另一实例量化技术中,量化单元200可将通过霍夫曼译码的标量量化应用于中间空间向量
Figure GDA00023284445900002910
在另一实例量化技术中,量化单元200可将向量量化应用于中间空间向量
Figure GDA00023284445900002911
在其中量化单元200应用标量量化技术、标量量化加霍夫曼译码技术或向量量化技术的实例中,音频解码装置22可反量化经量化空间向量。
在概念上,在标量量化中,实数直线划分成多个带,每一带对应于不同标量值。当量化单元500将标量量化应用于中间空间向量
Figure GDA00023284445900002912
时,量化单元500将中间空间向量
Figure GDA00023284445900002913
的每一相应元素替换为对应于含有所述相应元素规定的值的带的标量值。为便于说明,本公开可将对应于含有空间向量的元素规定的值的带的标量值称为“经量化值”。在此实例中,量化单元500可输出包含经量化值的经量化空间向量
Figure GDA00023284445900002914
标量量化加霍夫曼译码技术可类似于标量量化技术。然而,量化单元500另外确定经量化值中的每一个的霍夫曼代码。量化单元500将空间向量的经量化值替换为对应霍夫曼代码。因此,经量化空间向量
Figure GDA00023284445900002915
的每一元素规定霍夫曼代码。霍夫曼译码允许所述元素中的每一个表示为可变长度值而非固定长度值,这可增加数据压缩。音频解码装置22D可通过确定对应于霍夫曼代码的经量化值并将经量化值恢复为其原始位深来确定空间向量的经反量化版本。
在其中量化单元500将向量量化应用于中间空间向量
Figure GDA00023284445900002916
的至少一些实例中,量化单元500可将中间空间向量
Figure GDA00023284445900002917
变换成较低尺寸的离散子空间中的值的集合。为便于说明,本公开可将较低尺寸的离散子空间的尺寸称为“减小的尺寸集”并将空间向量的原始尺寸称为“全尺寸集”。举例来说,全尺寸集可由二十两个尺寸组成,且减小的尺寸集可由八个尺寸组成。因此,在此实例中,量化单元500将中间空间向量
Figure GDA00023284445900002918
从二十二个值的集合变换为八个值的集合。此变换可采取从空间向量的较高尺寸空间到较低尺寸的子空间的投影的形式。
在其中量化单元500应用向量量化的至少一些实例中,量化单元500经配置以具有包含条目的集合的码簿。所述码簿可被预定义或动态地确定。所述码簿可基于空间向量的统计分析。码簿中的每一条目指示较低尺寸子空间中的点。在将空间向量从全尺寸集变换到减小的尺寸集之后,量化单元500可确定对应于经变换空间向量的码簿条目。在码簿中的码簿条目当中,对应于经变换空间向量的码簿条目规定最接近于经变换空间向量规定的点的点。在一个实例中,量化单元500输出经识别码簿条目规定的向量作为经量化空间向量。在另一实例中,量化单元200输出呈规定对应于经变换空间向量的码簿条目的索引的代码向量索引形式的经量化空间向量。举例来说,如果对应于经变换空间向量的码簿条目是码簿中的第8条目,那么代码向量索引可等于8。在此实例中,音频解码装置22可通过查找码簿中的对应条目来反量化代码向量索引。音频解码装置22D可通过假设全尺寸集中而非减小的尺寸集中的空间向量的分量等于零,来确定空间向量的经反量化版本。
在图17的实例中,音频编码装置14D的位流产生单元52D从量化单元200获得经量化空间向量204,获得音频信号50C,并且输出位流56D。在其中音频编码装置14D编码基于通道的音频的实例中,位流产生单元52D可获得每一相应通道的音频信号和经量化空间向量。在其中音频编码装置14编码基于对象的音频的实例中,位流产生单元52D可获得每一相应音频对象的音频信号和经量化空间向量。在一些实例中,位流产生单元52D可编码音频信号50C以用于较大数据压缩。举例来说,位流产生单元52D可使用已知音频压缩格式(例如MP3、AAC、Vorbis、FLAC和Opus)编码音频信号50C中的每一个。在一些例子中,位流产生单元52C可将音频信号50C从一个压缩格式转码成另一压缩格式。位流产生单元52D可包含位流56C中的经量化空间向量作为伴随经编码音频信号的元数据。
因此,音频编码装置14D可包含一或多个处理器,其经配置以:接收源扩音器配置的多通道音频信号(例如,扩音器位置信息48的多通道音频信号50);基于源扩音器配置获得高阶立体混响(HOA)域中的多个空间定位向量,所述空间定位向量与多通道音频信号组合表示高阶立体混响(HOA)系数的集合,所述系数表示多通道音频信号;和在经译码音频位流(例如,位流56D)中编码多通道音频信号(例如,音频信号50C)的表示和对多个空间定位向量(例如,经量化向量数据554)的指示。此外,音频编码装置14A可包含电耦合到一或多个处理器并且经配置以存储经译码音频位流的存储器(例如,存储器54)。
图18是说明根据本公开的一或多种技术的供与图17中展示的音频编码装置14的实例实施方案一起使用的音频解码装置22的实例实施方案的框图。图18中展示的音频解码装置22的实施方案标记为音频解码装置22D。类似于关于图10描述的音频解码装置22的实施方案,图18中的音频解码装置22的实施方案包含存储器200、多路分用单元202D、音频解码单元204、HOA产生单元208C和渲染单元210。
与关于图10描述的音频解码装置22的实施方案相比,关于图18描述的音频解码装置22的实施方案可包含反量化单元550,而非向量解码单元207。在其它实例中,音频解码装置22D可包含更多、更少或不同单元。举例来说,渲染单元210可实施于单独装置(例如扩音器、头戴式耳机单元或音频基或卫星装置)中。
存储器200、多路分用单元202D、音频解码单元204、HOA产生单元208C和渲染单元210可以与本公开中其它处关于图10的实例所描述的方式相同的方式操作。然而,多路分用单元202D可从位流56D获得成组的经量化向量数据554。每一相应组经量化向量数据对应于音频信号70中的相应者。在图18的实例中,成组的经量化向量数据554标示为V'1到V'N。反量化单元550可使用成组的经量化向量数据554确定经反量化空间向量72。反量化单元550可将经反量化空间向量72提供到音频解码装置22D的一或多个组件,例如HOA产生单元208C。
反量化单元550可以各种方式使用成组的经量化向量数据554确定经反量化向量。在一个实例中,每一经量化向量数据的集合包含音频信号
Figure GDA0002328444590000311
的经量化空间向量
Figure GDA0002328444590000312
和经量化量化步长大小
Figure GDA0002328444590000313
在此实例中,反量化单元550可基于经量化空间向量
Figure GDA0002328444590000314
和经量化量化步长大小
Figure GDA0002328444590000315
确定经反量化空间向量
Figure GDA0002328444590000316
举例来说,反量化单元550可确定经反量化空间向量
Figure GDA0002328444590000317
使得
Figure GDA0002328444590000318
基于经反量化空间向量
Figure GDA0002328444590000319
和音频信号
Figure GDA00023284445900003110
HOA产生单元208C可将HOA域表示确定为
Figure GDA00023284445900003111
如在本公开中其它处所描述,渲染单元210可获得局部渲染格式
Figure GDA00023284445900003112
另外,扩音器馈送80可标示为
Figure GDA00023284445900003113
渲染单元210C可产生扩音器馈送26为
Figure GDA00023284445900003114
因此,音频解码装置22D可包含经配置以存储经译码音频位流(例如,位流56D)的存储器(例如,存储器200)。音频解码装置22D可进一步包含一或多个处理器,所述处理器电耦合到存储器并且经配置以:从经译码音频位流获得源扩音器配置的多通道音频信号(例如,扩音器位置信息48的经译码音频信号62)的表示;获得高阶立体混响(HOA)域中的基于源扩音器配置的多个空间定位向量(SPV)(例如,空间定位向量72)的表示;和基于多通道音频信号和多个空间定位向量产生HOA声场(例如,HOA系数212C)。
图19是说明根据本公开的一或多种技术的渲染单元210的实例实施方案的框图。如图19中所说明,渲染单元210可包含收听者位置单元610、扩音器位置单元612、渲染格式单元614、存储器615和扩音器馈送产生单元616。
收听者位置单元610可经配置以确定多个扩音器(例如图1的扩音器24)的收听者的位置。在一些实例中,收听者位置单元610可定期(例如,每1秒、5秒、10秒、30秒、1分钟、5分钟、10分钟等)确定收听者的位置。在一些实例中,收听者位置单元610可基于由收听者定位的装置产生的信号而确定收听者的位置。可供收听者位置单元610用以确定收听者的位置的装置的一些实例包含(但不限于)移动计算装置、视频游戏控制器、远程控件、或任何其它可指示收听者的位置的装置。在一些实例中,收听者位置单元610可基于一或多个传感器确定收听者的位置。可供收听者位置单元610用以确定收听者的位置的传感器的一些实例包含(但不限于)摄像机、麦克风、压力传感器(例如,嵌入于或附接到家具、车辆座椅)、安全带传感器、或任何其它可指示收听者的位置的传感器。收听者位置单元610可将收听者的位置的指示618提供到渲染单元210的一或多个其它组件,例如渲染格式单元614。
扩音器位置单元612可经配置以获得多个局部扩音器(例如图1的扩音器24)的位置的表示。在一些实例中,扩音器位置单元612可基于局部扩音器设置信息28确定多个局部扩音器的位置的表示。扩音器位置单元612可从多种源获得局部扩音器设置信息28。作为一个实例,用户/收听者可通过音频解码单元22的用户接口手动地键入局部扩音器设置信息28。作为另一实例,扩音器位置单元612可致使多个局部扩音器发出各种音调并且基于所述音调使用麦克风确定局部扩音器设置信息28。作为另一实例,扩音器位置单元612可从一或多个摄像机接收图像,并且执行图像辨识以基于所述图像确定局部扩音器设置信息28。扩音器位置单元612可将多个局部扩音器的位置的表示620提供到渲染单元210的一或多个其它组件,例如渲染格式单元614。作为另一实例,局部扩音器设置信息28可预编程(例如,在工厂)到音频解码单元22中。举例来说,在扩音器24集成到车辆中的情况下,局部扩音器设置信息28可由车辆的制造商和/或扩音器24安装者预编程到音频解码单元22中。
渲染格式单元614可经配置以基于多个局部扩音器的位置(例如,局部再现布局)和多个局部扩音器的收听者的位置的表示产生局部渲染格式622。在一些实例中,渲染格式单元614可产生局部渲染格式622使得当HOA系数212渲染到扩音器馈送中并且通过多个局部扩音器重放时,听觉“最优点”位于收听者的位置处或附近。在一些实例中,为了产生局部渲染格式622,渲染格式单元614可产生局部渲染矩阵
Figure GDA0002328444590000321
渲染格式单元614可将局部渲染格式622提供到渲染单元210的一或多个其它组件,例如扩音器馈送产生单元616和/或存储器615。
存储器615可经配置以存储局部渲染格式,例如局部渲染格式622。在局部渲染格式622包括局部渲染矩阵
Figure GDA0002328444590000323
的情况下,存储器615可经配置以存储局部渲染矩阵
Figure GDA0002328444590000322
扩音器馈送产生单元616可经配置以将HOA系数渲染到多个输出音频信号中,所述输出音频信号各自对应于多个局部扩音器中的相应局部扩音器。在图19的实例中,扩音器馈送产生单元616可基于局部渲染格式622渲染HOA系数,使得当所得扩音器馈送26通过多个局部扩音器重放时,听觉“最优点”位于收听者位置单元610确定的收听者的位置处或附近。在一些实例中,扩音器馈送产生单元616可根据等式(35)产生扩音器馈送26,其中
Figure GDA0002328444590000331
表示扩音器馈送26,H是HOA系数212,且
Figure GDA0002328444590000332
是局部渲染矩阵的转置。
Figure GDA0002328444590000333
图20说明根据本公开的一或多种技术的汽车扬声器重放环境。如图20中所说明,在一些实例中,音频解码装置22可包含在车辆(例如汽车2000)中。在一些实例中,车辆2000可包含一或多个乘客传感器。可包含在车辆2000中的乘客传感器的实例包含(但不必限于)安全带传感器,和集成到车辆2000的座椅中的压力传感器。
图21是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。图21的技术可由音频编码装置(例如图1、3、5、13和17的音频编码装置14)的一或多个处理器执行,但具有除音频编码装置14以外的配置的音频编码装置也可执行图21的技术。
根据本公开的一或多种技术,音频编码装置14可接收源扩音器配置的多通道音频信号(2102)。举例来说,音频编码装置14可接收5.1环绕声格式的音频数据的六通道(即,针对5.1的源扩音器配置)。如上文所论述,音频编码装置14接收的多通道音频信号可包含现场音频数据10和/或图1的预产生的音频数据12。
音频编码装置14可基于源扩音器配置获得高阶立体混响(HOA)域中的多个空间定位向量,所述空间定位向量可与多通道音频信号组合以产生表示多通道音频信号的HOA声场(2104)。在一些实例中,多个空间定位向量可与多通道音频信号组合以根据上述等式(20)产生表示多通道音频信号的HOA声场。
音频编码装置14可在经译码音频位流中编码多通道音频信号的表示和多个空间定位向量的指示(2016)。作为一个实例,音频编码装置14A的位流产生单元52A可在位流56A中编码经译码音频数据62的表示和扩音器位置信息48的表示。作为另一实例,音频编码装置14B的位流产生单元52B可在位流56B中编码经译码音频数据62和空间向量表示数据71A的表示。作为另一实例,音频编码装置14D的位流产生单元52D可在位流56D中编码音频信号50C的表示和经量化向量数据554的表示。
图22是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。图22的技术可由音频解码装置(例如图1、4、10、16和18的音频解码装置22)的一或多个处理器执行,但具有除音频编码装置14以外的配置的音频编码装置也可执行图22的技术。
根据本公开的一或多种技术,音频解码装置22可获得经译码音频位流(2202)。作为一个实例,音频解码装置22可经由传输通道(其可为有线或无线通道、数据存储装置等)获得位流。作为另一实例,音频解码装置22可从存储媒体或文件服务器获得位流。
音频解码装置22可从经译码音频位流获得源扩音器配置的多通道音频信号的表示(2204)。举例来说,音频解码单元204可从位流获得5.1环绕声格式的音频数据的六个通道(即,针对5.1的源扩音器配置)。
音频解码装置22可获得高阶立体混响(HOA)域中的基于源扩音器配置的多个空间定位向量的表示(2206)。作为一个实例,音频解码装置22A的向量创建单元206可基于扩音器位置信息48产生空间定位向量72。作为另一实例,音频解码装置22B的向量解码单元207可从空间向量表示数据71A解码基于扩音器位置信息48的空间定位向量72。作为另一实例,音频解码装置22D的反量化单元550可反量化经量化向量数据554以产生基于扩音器位置信息48的空间定位向量72。
音频解码装置22可基于多通道音频信号和多个空间定位向量产生HOA声场(2208)。举例来说,HOA产生单元208A可根据上述等式(20)基于多通道音频信号70和空间定位向量72产生HOA系数212A。
音频解码装置22可渲染HOA声场以产生多个音频信号(2210)。举例来说,渲染单元210(其可或可不包含在音频解码装置22中)可渲染所述HOA系数集合以基于局部渲染配置(例如,局部渲染格式)产生多个音频信号。在一些实例中,渲染单元210可根据上述等式(21)渲染所述HOA系数集合。
图23是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。图23的技术可由音频编码装置(例如图1、3、5、13和17的音频编码装置14)的一或多个处理器执行,但具有除音频编码装置14以外的配置的音频编码装置也可执行图23的技术。
根据本公开的一或多种技术,音频编码装置14可接收音频对象的音频信号和指示音频对象的虚拟源位置的数据(2230)。另外,音频编码装置14可基于指示音频对象的虚拟源位置的数据和指示多个扩音器位置的数据确定HOA域中的音频对象的空间向量(2232)。另外,在图23的实例中,音频编码装置14可在经译码音频位流中包含音频信号的的基于对象的表示和表示空间向量的数据。
图24是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。图24的技术可由音频解码装置(例如图1、4、10、16和18的音频解码装置22)的一或多个处理器执行,但具有除音频编码装置14以外的配置的音频编码装置可执行图24的技术。
根据本公开的一或多种技术,音频解码装置22可从经译码音频位流获得音频对象的音频信号的基于对象的表示(2250)。在此实例中,音频信号对应于时间间隔。另外,音频解码装置22可从经译码音频位流获得音频对象的空间向量的表示(2252)。在此实例中,空间向量定义于HOA域中并且基于第一多个扩音器位置。
此外,HOA产生单元208B(或音频解码装置22的另一单元)可将音频对象的音频信号和空间向量转换成在所述时间间隔期间描述声场的HOA系数的集合(2254)。此外,在图24的实例中,音频解码装置22可通过将渲染格式应用于所述HOA系数集合产生多个音频信号(2256)。在此实例中,多个音频信号中的每一相应音频信号对应于不同于第一多个扩音器位置的第二多个扩音器位置处的多个局部扩音器中的相应扩音器。
图25是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。图25的技术可由音频编码装置(例如图1、3、5、13和17的音频编码装置14)的一或多个处理器执行,但具有除音频编码装置14以外的配置的音频编码装置也可执行图25的技术。
根据本公开的一或多种技术,音频编码装置14可在经译码音频位流中包含针对时间间隔的一或多个音频信号的集合的基于对象或基于通道的表示(2300)。此外,音频编码装置14可基于扩音器位置的集合确定HOA域中的一或多个空间向量的集合(2302)。在此实例中,所述空间向量集合中的每一相应空间向量对应于所述音频信号集合中的相应音频信号。此外,在此实例中,音频编码装置14可产生表示空间向量的经量化版本的数据(2304)。另外,在此实例中,音频编码装置14可在经译码音频位流中包含表示空间向量的经量化版本的数据(2306)。
图26是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。图26的技术可由音频解码装置(例如图1、4、10、16和18的音频解码装置22)的一或多个处理器执行,但具有除音频解码装置22以外的配置的音频解码装置可执行图26的技术。
根据本公开的一或多种技术,音频解码装置22可从经译码音频位流获得针对时间间隔的一或多个音频信号的集合的基于对象或基于通道的表示(2400)。另外,音频解码装置22可从经译码音频位流获得表示一或多个空间向量的集合的经量化版本的数据(2402)。在此实例中,所述空间向量集合中的每一相应空间向量对应于所述音频信号集合中的相应音频信号。此外,在此实例中,所述空间向量中的每一个处于HOA域并且是基于扩音器位置的集合计算的。
图27是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。图27的技术可由音频解码装置(例如,图1、4、10、16和18的音频解码装置22)的一或多个处理器执行,但具有除音频解码装置22以外的配置的音频解码装置可执行图27的技术。
根据本公开的一或多种技术,音频解码装置22可获得高阶立体混响(HOA)声场(2702)。举例来说,音频解码装置22的HOA产生单元(例如,HOA产生单元208A/208B/208C)可将HOA系数的集合(例如,HOA系数212A/212B/212C)提供到音频解码装置22的渲染单元210。
音频解码装置22可获得多个局部扩音器的位置的表示(2704)。举例来说,音频解码装置22的渲染单元210的扩音器位置单元612可基于局部扩音器设置信息(例如,局部扩音器设置信息28)确定多个局部扩音器的位置的表示。如上文所论述,扩音器位置单元612可从多种源获得局部扩音器设置信息28。
音频解码装置22可定期确定收听者的位置(2706)。举例来说,在一些实例中,音频解码装置22的渲染单元210的收听者位置单元610可基于由收听者定位的装置产生的信号确定收听者的位置。可供收听者位置单元610用以确定收听者的位置的装置的一些实例包含(但不限于)移动计算装置、视频游戏控制器、远程控件或任何其它可指示收听者的位置的装置。在一些实例中,收听者位置单元610可基于一或多个传感器确定收听者的位置。可供收听者位置单元610用以确定收听者的位置的传感器的一些实例包含(但不限于)摄像机、麦克风、压力传感器(例如,嵌入于或附接到家具、车辆座椅)、安全带传感器、或任何其它可指示收听者的位置的传感器。
音频解码装置22可基于收听者的位置和多个局部扩音器位置定期确定局部渲染格式(2708)。举例来说,音频解码装置22的渲染单元210的渲染格式单元614可产生局部渲染格式使得当HOA声场渲染到扩音器馈送中并且通过多个局部扩音器重放时,听觉“最优点”位于收听者的位置处或附近。在一些实例中,为产生局部渲染格式,渲染配置单元614可产生局部渲染矩阵
Figure GDA0002328444590000361
音频解码装置22可基于局部渲染格式将HOA声场渲染到多个输出音频信号中,所述输出音频信号各自对应于多个局部扩音器中的相应局部扩音器(2710)。举例来说,扩音器馈送产生单元616可渲染HOA系数以根据上述等式(35)产生扩音器馈送26。
在一个实例中,为了编码多通道音频信号(例如,{Ci}i=1,…,N),音频编码装置14可确定源扩音器配置中的扩音器的数目(例如,N)、当基于多通道音频信号产生HOA声场时使用的HOA系数的数目(例如,NHOA)以及源扩音器配置中的扩音器的位置(例如,{θi,φi}i=1,...,N)。在此实例中,音频编码装置14可在位流中编码N、NHOA和{θi,φi}i=1,...,N。在一些实例中,音频编码装置14可在位流中针对每一帧编码N、NHOA和{θi,φi}i=1,...,N。在一些实例中,如果前一帧使用相同的N、NHOA和{θi,φi}i=1,...,N,那么音频编码装置14省略在位流中针对当前帧编码N、NHOA和{θi,φi}i=1,...,N。在一些实例中,音频编码装置14可基于N、NHOA和{θi,φi}i=1,...,N产生渲染矩阵D1。在一些实例中,如果需要,则音频编码装置14可产生和使用一或多个空间定位向量(例如,Vi=[[0,...,0,1,0,...,0](D1D1 T)-1D1]T)。在一些实例中,音频编码装置14可量化多通道音频信号(例如,{Ci}i=1,...,N),以产生经量化多通道音频信号(例如,
Figure GDA0002328444590000371
),并且在位流中编码经量化多通道音频信号。
音频解码装置22可接收位流。基于所接收的源扩音器配置中的扩音器的数目(例如,N)、当基于多通道音频信号产生HOA声场时使用的HOA系数的数目(例如,NHOA)以及源扩音器配置中的扩音器的位置(例如,{θi,φi}i=1,...,N),音频解码装置22可产生渲染矩阵D2。在一些实例中,D2可不与D1相同,只要D2是基于所接收的N、NHOA和{θi,φi}i=1,...,N(即,源扩音器配置)产生的即可。基于D2,音频解码装置22可计算一或多个空间定位向量(例如,
Figure GDA0002328444590000372
)。基于一或多个空间定位向量和所接收的音频信号(例如,
Figure GDA0002328444590000373
),音频解码装置22可产生HOA域表示为
Figure GDA0002328444590000374
基于局部扩音器配置(即,解码器处的扩音器的数目和位置)(例如,
Figure GDA0002328444590000375
Figure GDA0002328444590000376
音频解码装置22可产生局部渲染矩阵D3。音频解码装置22可通过使局部渲染矩阵乘以产生的HOA域表示(例如,
Figure GDA0002328444590000377
)产生针对局部扩音器的扬声器馈送(例如,
Figure GDA0002328444590000378
)。
在另一实例中,为了编码多通道音频信号(例如,{Ci}i=1,...,N),音频编码装置14可确定源扩音器配置中的扩音器的数目(例如,N)、当基于多通道音频信号产生HOA声场时使用的HOA系数的数目(例如,NHOA)以及源扩音器配置中的扩音器的位置(例如,{θi,φi}i=1,...,N)。在一些实例中,音频编码装置14可基于N、NHOA和{θi,φi}i=1,...,N产生渲染矩阵D1。在一些实例中,音频编码装置14可计算一或多个空间定位向量(例如,Vi=[[0,...,0,1,0,...,0](D1D1 T)-1D1]T)。在一些实例中,音频编码装置14可将空间定位向量归一化为
Figure GDA0002328444590000379
并且将
Figure GDA00023284445900003710
量化为
Figure GDA00023284445900003711
SQ+Huff、VQ的向量量化方法),并且在位流中编码
Figure GDA00023284445900003712
和||Vi||。在一些实例中,音频编码装置14可量化多通道音频信号(例如,{Ci}i=1,…,N),以产生经量化多通道音频信号(例如,
Figure GDA0002328444590000381
),并且在位流中编码所述经量化多通道音频信号。
音频解码装置22可接收位流。基于
Figure GDA0002328444590000382
和‖Vi‖,音频解码装置22可通过
Figure GDA0002328444590000383
重建空间定位向量。基于一或多个空间定位向量(例如,
Figure GDA0002328444590000384
)和所接收的音频信号(例如,
Figure GDA0002328444590000385
),音频解码装置22可产生HOA域表示为
Figure GDA0002328444590000386
基于局部扩音器配置(即,解码器处的扩音器的数目和位置)(例如,
Figure GDA0002328444590000387
Figure GDA0002328444590000388
音频解码装置22可产生局部渲染矩阵D3。音频解码装置22可通过使局部渲染矩阵乘以产生的HOA域表示(例如,
Figure GDA0002328444590000389
)产生针对局部扩音器的扬声器馈送(例如,
Figure GDA00023284445900003810
)。
图28是说明根据本公开的技术的用于解码经译码音频位流的实例操作的流程图。在图28的实例中,音频解码装置22从经译码音频位流获得音频对象的音频信号的基于对象的表示,所述音频信号对应于时间间隔(2800)。另外,音频解码装置22从经译码音频位流获得音频对象的空间向量的表示(2802)。空间向量定义在HOA域中并且基于多个扩音器位置。
在图28的实例中,音频解码装置22基于音频对象的音频信号和空间向量产生多个音频信号(2804)。多个音频信号中的每一相应音频信号对应于不同于第一多个扩音器位置的第二多个扩音器位置处的多个局部扩音器中的相应扩音器。在一些实例中,音频解码装置22从一或多个摄像机获得图像并且基于所述图像确定局部扩音器设置信息,所述局部扩音器设置信息表示多个局部扩音器的位置。
作为产生多个音频信号的部分,音频解码装置22可将音频对象的音频信号和空间向量转换成在所述时间间隔期间描述声场的HOA系数的集合。另外,音频解码装置22可通过将渲染格式应用于所述HOA系数集合产生多个音频信号。基于图像确定的局部扩音器设置信息可呈渲染格式的形式。在一些实例中,多个扩音器位置是第一多个扩音器位置,且所述渲染格式是用于将成组的HOA系数渲染到不同于第一多个扩音器位置的第二多个扩音器位置处的扩音器的音频信号中。
图29是说明根据本公开的技术的用于解码经译码音频位流的实例操作的流程图。在图28的实例中,音频解码装置22从经译码音频位流获得音频对象的音频信号的基于对象的表示,所述音频信号对应于时间间隔(2900)。另外,音频解码装置22从经译码音频位流获得音频对象的空间向量的表示(2902)。空间向量定义在HOA域中并且基于多个扩音器位置。
在图29的实例中,音频解码装置22基于音频对象的音频信号和音频对象的空间向量产生HOA声场(2904)。音频解码装置22可根据本公开中其它处提供的实例产生HOA声场。在一些实例中,多个扩音器位置是源扩音器配置。在一些实例中,多个扩音器位置是局部扩音器配置。此外,在一些实例中,HOA声场通过多个局部扩音器重放。
在上文所描述的各种例子中的每一个,应理解,音频编码装置14可执行方法或另外包括用于执行音频编码装置14经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令被配置的专用处理器。换句话说,编码实例的集合中的每一个中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器执行音频编码装置14已经配置以执行的方法。
在一或多个实例中,所描述功能可用硬件、软件、固件或其任何组合来实施。如果在软件中实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体。数据存储媒体可为可由一或多个计算机或者一或多个处理器访问以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样地,在上文所描述的各种例子中的每一个中,应理解,音频解码装置22可执行方法或另外包括用于执行音频解码装置22经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令被配置的专用处理器。换句话说,编码实例的集合中的每一个中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时使所述一或多个处理器执行音频解码装置24已被配置以执行的方法。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机访问的任何其它媒体。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
指令可以由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代上述结构或适用于实施本文中所描述的技术的任何其它结构中的任一个。另外,在一些方面中,本文中所描述的功能性可在经配置以用于编码和解码的专用硬件和/或软件模块内提供,或并入在组合编解码器中。并且,所述技术可完全实施于一或多个电路或逻辑元件中。
本公开的技术可实施于多种装置或设备中,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本公开中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。确切地,如上文所描述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或由互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已经描述了所述技术的各种方面。所述技术的这些和其它方面在所附权利要求书的范围内。

Claims (30)

1.一种用于解码经译码音频位流的装置,所述装置包括:
存储器,其经配置以存储经译码音频位流;以及
一或多个处理器,其电耦合到所述存储器,所述一或多个处理器经配置以:
从所述经译码音频位流获得音频对象的音频信号的基于对象的表示,所述音频信号对应于时间间隔;
从所述经译码音频位流获得所述音频对象的空间向量的表示,其中所述空间向量在高阶立体混响HOA域中限定且基于第一多个扩音器位置;以及
基于所述音频对象的所述音频信号和所述空间向量产生多个音频信号,其中所述多个音频信号的每一相应音频信号对应于不同于所述第一多个扩音器位置的第二多个扩音器位置处的多个局部扩音器中的相应扩音器。
2.根据权利要求1所述的装置,其中所述一或多个处理器经配置以:
从一或多个相机获得图像;以及
基于所述图像确定局部扩音器设置信息,所述局部扩音器设置信息表示所述多个局部扩音器的位置。
3.根据权利要求2所述的装置,其中所述一或多个处理器经配置以:
将所述音频对象的所述音频信号和所述空间向量转换为描述所述时间间隔期间的声场的HOA系数的集合;以及
通过将渲染格式施加到所述HOA系数集合产生所述多个音频信号,所述局部扩音器设置信息呈所述渲染格式的形式。
4.根据权利要求1所述的装置,其中所述一或多个处理器经配置以:
将所述音频对象的所述音频信号和所述空间向量转换为描述所述时间间隔期间的声场的HOA系数的集合;以及
通过将渲染格式施加到所述HOA系数集合产生所述多个音频信号。
5.根据权利要求4所述的装置,其中所述一或多个处理器经配置使得,作为将所述音频信号和所述空间向量转换为所述HOA系数集合的一部分,所述一或多个处理器确定所述HOA系数集合使得所述HOA系数集合等效于所述音频信号乘以所述空间向量的转置。
6.根据权利要求4所述的装置,其中所述音频对象为第一音频对象,所述空间向量为第一空间向量,且所述一或多个处理器经配置以:
从所述经译码音频位流获得多个基于对象的表示,所述多个基于对象的表示的每一相应基于对象的表示是多个音频对象的相应音频对象的相应表示,所述多个音频对象包含所述第一音频对象;
从所述经译码音频位流获得多个空间向量表示,所述多个表示的每一相应空间向量表示是所述多个音频对象的相应音频对象的空间向量的相应表示,所述多个空间向量表示的每一相应空间向量表示在所述HOA域中限定且基于所述第一多个扩音器位置,所述多个空间向量表示包含所述第一音频对象的所述空间向量的所述表示;
针对所述多个音频对象的每一相应音频对象,确定所述相应音频对象的相应HOA系数集合使得所述相应音频对象的所述HOA系数集合等效于所述相应音频对象的音频信号乘以所述相应音频对象的所述空间向量的转置;以及
基于所述多个音频对象的所述HOA系数集合的总和确定描述所述声场的所述HOA系数集合。
7.根据权利要求4所述的装置,其中:
所述空间向量等效于多个操作数的总和,
所述多个操作数的每一相应操作数对应于所述第一多个扩音器位置的相应扩音器位置,
针对所述第一多个扩音器位置的每一相应扩音器位置:
多个扩音器位置向量包含所述相应扩音器位置的扩音器位置向量,
对应于所述相应扩音器位置的所述操作数等效于所述相应扩音器位置的增益因数乘以所述相应扩音器位置的所述扩音器位置向量,且
所述相应扩音器位置的所述增益因数指示所述相应扩音器位置处所述音频信号的相应增益。
8.根据权利要求7所述的装置,其中,针对范围从1到N的每一值n,所述第一多个扩音器位置的第n扩音器位置向量等效于通过第一矩阵、第二矩阵和第三矩阵的相乘产生的矩阵的转置,所述第一矩阵由与所述多个扩音器位置中的扩音器位置的数目等效的数目的单一相应行元素组成,所述相应行元素的第n元素等效于1,且所述相应行的所述第n元素以外的元素等效于0,所述第二矩阵是通过渲染矩阵和所述渲染矩阵的转置的相乘产生的矩阵的逆矩阵,所述第三矩阵等效于所述渲染矩阵,所述渲染矩阵基于所述第一多个扩音器位置,且N等效于所述第一多个扩音器位置中的扩音器位置的数目。
9.一种用于编码经译码音频位流的装置,所述装置包括:
存储器,其经配置以存储音频对象的音频信号和指示所述音频对象的虚拟源位置的数据,所述音频信号对应于时间间隔;以及
一或多个处理器,其电耦合到所述存储器,所述一或多个处理器经配置以:
接收所述音频对象的所述音频信号和指示所述音频对象的所述虚拟源位置的所述数据;
基于指示所述音频对象的所述虚拟源位置的所述数据和指示多个扩音器位置的数据确定高阶立体混响HOA域中所述音频对象的空间向量;以及
在经译码音频位流中包含所述音频信号的基于对象的表示和表示所述空间向量的数据。
10.根据权利要求9所述的装置,其中所述一或多个处理器经配置以:
从一或多个相机获得图像;以及
基于所述图像确定所述扩音器位置。
11.根据权利要求9所述的装置,其中:
所述一或多个处理器经配置以量化所述空间向量,且
表示所述空间向量的所述数据包括所述经量化空间向量。
12.根据权利要求9所述的装置,其中描述所述时间间隔期间含有所述音频信号的声场的高阶立体混响HOA系数的集合等效于所述音频信号乘以所述空间向量的转置。
13.根据权利要求9所述的装置,其中所述音频对象为第一音频对象,所述空间向量为第一空间向量,且所述一或多个处理器经配置以:
在所述经译码音频位流中包含多个基于对象的表示,所述多个基于对象的表示的每一相应基于对象的表示是多个音频对象的相应音频对象的相应表示,所述多个音频对象包含所述第一音频对象;以及
针对所述多个音频对象的每一相应音频对象:
基于指示所述相应音频对象的相应虚拟源位置的数据和指示所述多个扩音器位置的所述数据确定所述相应音频对象的相应空间向量的表示,所述相应音频对象的所述相应空间向量在所述HOA域中限定,其中所述相应音频对象的相应HOA系数集合等效于所述相应音频对象的所述音频信号乘以所述相应音频对象的所述相应空间向量的转置;以及
在所述经译码音频位流中包含所述相应音频对象的所述相应空间向量的所述表示。
14.根据权利要求9所述的装置,其中所述一或多个处理器经配置使得,作为确定所述空间向量的一部分,所述一或多个处理器:
确定用于将高阶立体混响HOA系数的集合渲染到针对所述扩音器位置处的扩音器的扩音器馈送中的渲染格式;
确定多个扩音器位置向量,其中:
所述多个扩音器位置向量的每一相应扩音器位置向量对应于所述多个扩音器位置的相应扩音器位置,且
所述一或多个处理器经配置使得,作为确定所述多个扩音器位置向量的一部分,针对所述多个扩音器位置的每一相应扩音器位置,所述一或多个处理器:
基于所述音频对象的位置坐标确定所述相应扩音器位置的增益因数,所述相应扩音器位置的所述增益因数指示所述相应扩音器位置处的所述音频信号的相应增益;以及
基于所述渲染格式确定对应于所述相应扩音器位置的所述扩音器位置向量;以及
将所述空间向量确定为多个操作数的总和,所述多个操作数的每一相应操作数对应于所述多个扩音器位置的相应扩音器位置,其中针对所述多个扩音器位置的每一相应扩音器位置,对应于所述相应扩音器位置的所述操作数等效于所述相应扩音器位置的所述增益因数乘以对应于所述相应扩音器位置的所述扩音器位置向量。
15.根据权利要求14所述的装置,其中,针对所述多个扩音器位置的每一相应扩音器位置,所述一或多个处理器经配置以使用基于向量的振幅规划VBAP来确定所述相应扩音器位置的所述增益因数。
16.根据权利要求9所述的装置,其中,针对范围从1到N的每一值n,所述多个扩音器位置的第n扩音器位置向量等效于通过第一矩阵、第二矩阵和第三矩阵的相乘产生的矩阵的转置,所述第一矩阵由与所述多个扩音器位置中的扩音器位置的数目等效的数目的单一相应行元素组成,所述相应行元素的第n元素等效于1,且所述相应行的所述第n元素以外的元素等效于0,所述第二矩阵是通过渲染矩阵和所述渲染矩阵的转置的相乘产生的矩阵的逆矩阵,所述第三矩阵等效于所述渲染矩阵,所述渲染矩阵基于所述多个扩音器位置,且N等效于所述多个扩音器位置中的扩音器位置的数目。
17.根据权利要求9所述的装置,其进一步包括经配置以捕获所述音频信号的麦克风。
18.一种用于解码经译码音频位流的方法,所述方法包括:
从所述经译码音频位流获得音频对象的音频信号的基于对象的表示,所述音频信号对应于时间间隔;
从所述经译码音频位流获得所述音频对象的空间向量的表示,其中所述空间向量在高阶立体混响HOA域中限定且基于第一多个扩音器位置;
基于所述音频对象的所述音频信号和所述空间向量产生多个音频信号,其中所述多个音频信号的每一相应音频信号对应于不同于所述第一多个扩音器位置的第二多个扩音器位置处的多个局部扩音器中的相应扩音器。
19.根据权利要求18所述的方法,其进一步包括:
从一或多个相机获得图像;以及
基于所述图像确定局部扩音器设置信息,所述局部扩音器设置信息表示所述多个局部扩音器的位置。
20.根据权利要求19所述的方法,其进一步包括:
将所述音频对象的所述音频信号和所述空间向量转换为描述所述时间间隔期间的声场的HOA系数的集合;以及
通过将渲染格式施加到所述HOA系数集合产生所述多个音频信号,所述局部扩音器设置信息呈所述渲染格式的形式。
21.根据权利要求18所述的方法,
其中所述方法进一步包括将所述音频对象的所述音频信号和所述空间向量转换为描述所述时间间隔期间的声场的HOA系数的集合;以及
其中产生所述多个音频信号包括将渲染格式施加到所述HOA系数集合。
22.根据权利要求21所述的方法,其中将所述音频信号和所述空间向量转换为所述HOA系数集合包括确定所述HOA系数集合使得所述HOA系数集合等效于所述音频信号乘以所述空间向量的转置。
23.根据权利要求21所述的方法,其中所述音频对象为第一音频对象,所述空间向量为第一空间向量,且所述方法进一步包括:
从所述经译码音频位流获得多个基于对象的表示,所述多个基于对象的表示的每一相应基于对象的表示是多个音频对象的相应音频对象的相应表示,所述多个音频对象包含所述第一音频对象;
从所述经译码音频位流获得多个空间向量表示,所述多个表示的每一相应空间向量表示是所述多个音频对象的相应音频对象的空间向量的相应表示,所述多个空间向量表示的每一相应空间向量表示在所述HOA域中限定且基于所述第一多个扩音器位置,所述多个空间向量表示包含所述第一音频对象的所述空间向量的所述表示;
针对所述多个音频对象的每一相应音频对象,确定所述相应音频对象的相应HOA系数集合使得所述相应音频对象的所述HOA系数集合等效于所述相应音频对象的音频信号乘以所述相应音频对象的所述空间向量的转置;以及
基于所述多个音频对象的所述HOA系数集合的总和确定描述所述声场的所述HOA系数集合。
24.根据权利要求21所述的方法,其中:
所述空间向量等效于多个操作数的总和,
所述多个操作数的每一相应操作数对应于所述第一多个扩音器位置的相应扩音器位置,
针对所述第一多个扩音器位置的每一相应扩音器位置:
多个扩音器位置向量包含所述相应扩音器位置的扩音器位置向量,
对应于所述相应扩音器位置的所述操作数等效于所述相应扩音器位置的增益因数乘以所述相应扩音器位置的所述扩音器位置向量,且
所述相应扩音器位置的所述增益因数指示所述相应扩音器位置处所述音频信号的相应增益。
25.根据权利要求18所述的方法,其中,针对范围从1到N的每一值n,所述第一多个扩音器位置的第n扩音器位置向量等效于通过第一矩阵、第二矩阵和第三矩阵的相乘产生的矩阵的转置,所述第一矩阵由与所述多个扩音器位置中的扩音器位置的数目等效的数目的单一相应行元素组成,所述相应行元素的第n元素等效于1,且所述相应行的所述第n元素以外的元素等效于0,所述第二矩阵是通过渲染矩阵和所述渲染矩阵的转置的相乘产生的矩阵的逆矩阵,所述第三矩阵等效于所述渲染矩阵,所述渲染矩阵基于所述第一多个扩音器位置,且N等效于所述第一多个扩音器位置中的扩音器位置的数目。
26.一种用于编码经译码音频位流的方法,所述方法包括:
接收音频对象的音频信号和指示所述音频对象的虚拟源位置的数据,所述音频信号对应于时间间隔;
基于指示所述音频对象的所述虚拟源位置的所述数据和指示多个扩音器位置的数据确定高阶立体混响HOA域中所述音频对象的空间向量;以及
在所述经译码音频位流中包含所述音频信号的基于对象的表示和表示所述空间向量的数据。
27.根据权利要求26所述的方法,其进一步包括:
从一或多个相机获得图像;以及
基于所述图像确定所述扩音器位置。
28.根据权利要求26所述的方法,其中描述所述时间间隔期间含有所述音频信号的声场的高阶立体混响HOA系数的集合等效于所述音频信号乘以所述空间向量的转置。
29.根据权利要求26所述的方法,其中所述音频对象为第一音频对象,所述空间向量为第一空间向量,且所述方法进一步包括:
在所述经译码音频位流中包含多个基于对象的表示,所述多个基于对象的表示的每一相应基于对象的表示是多个音频对象的相应音频对象的相应表示,所述多个音频对象包含所述第一音频对象;以及
针对所述多个音频对象的每一相应音频对象:
基于指示所述相应音频对象的相应虚拟源位置的数据和指示所述多个扩音器位置的所述数据确定所述相应音频对象的相应空间向量的表示,所述相应音频对象的所述相应空间向量在所述HOA域中限定,其中所述相应音频对象的相应HOA系数集合等效于所述相应音频对象的所述音频信号乘以所述相应音频对象的所述相应空间向量的转置;以及
在所述经译码音频位流中包含所述相应音频对象的所述相应空间向量的所述表示。
30.根据权利要求26所述的方法,其中确定所述空间向量包括:
确定用于将高阶立体混响HOA系数的集合渲染到针对所述扩音器位置处的扩音器的扩音器馈送中的渲染格式;
确定多个扩音器位置向量,其中:
所述多个扩音器位置向量的每一相应扩音器位置向量对应于所述多个扩音器位置的相应扩音器位置,且
确定所述多个扩音器位置向量包括针对所述多个扩音器位置的每一相应扩音器位置:
基于所述音频对象的位置坐标确定所述相应扩音器位置的增益因数,所述相应扩音器位置的所述增益因数指示所述相应扩音器位置处的所述音频信号的相应增益;以及
基于所述渲染格式确定对应于所述相应扩音器位置的所述扩音器位置向量;以及
将所述空间向量确定为多个操作数的总和,所述多个操作数的每一相应操作数对应于所述多个扩音器位置的相应扩音器位置,其中针对所述多个扩音器位置的每一相应扩音器位置,对应于所述相应扩音器位置的所述操作数等效于所述相应扩音器位置的所述增益因数乘以对应于所述相应扩音器位置的所述扩音器位置向量。
CN201680058050.2A 2015-10-08 2016-09-16 从基于对象的音频转换到hoa Active CN108141689B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562239043P 2015-10-08 2015-10-08
US62/239,043 2015-10-08
US15/266,910 US9961475B2 (en) 2015-10-08 2016-09-15 Conversion from object-based audio to HOA
US15/266,910 2016-09-15
PCT/US2016/052251 WO2017062160A1 (en) 2015-10-08 2016-09-16 Conversion from object-based audio to hoa

Publications (2)

Publication Number Publication Date
CN108141689A CN108141689A (zh) 2018-06-08
CN108141689B true CN108141689B (zh) 2020-06-23

Family

ID=57043009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680058050.2A Active CN108141689B (zh) 2015-10-08 2016-09-16 从基于对象的音频转换到hoa

Country Status (6)

Country Link
US (1) US9961475B2 (zh)
EP (1) EP3360343B1 (zh)
JP (1) JP2018534848A (zh)
KR (1) KR102032072B1 (zh)
CN (1) CN108141689B (zh)
WO (1) WO2017062160A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12087311B2 (en) * 2015-07-30 2024-09-10 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding an HOA representation
US10332530B2 (en) * 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
KR102490786B1 (ko) * 2017-04-13 2023-01-20 소니그룹주식회사 신호 처리 장치 및 방법, 그리고 프로그램
CN110800048B (zh) 2017-05-09 2023-07-28 杜比实验室特许公司 多通道空间音频格式输入信号的处理
US10674301B2 (en) * 2017-08-25 2020-06-02 Google Llc Fast and memory efficient encoding of sound objects using spherical harmonic symmetries
US10999693B2 (en) 2018-06-25 2021-05-04 Qualcomm Incorporated Rendering different portions of audio data using different renderers
KR20220117282A (ko) * 2019-12-18 2022-08-23 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 디바이스 자동-로케이션
US20230088922A1 (en) 2020-03-10 2023-03-23 Telefonaktiebolaget Lm Ericsson (Publ) Representation and rendering of audio objects
CN118138980A (zh) * 2022-12-02 2024-06-04 华为技术有限公司 场景音频解码方法及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103313182A (zh) * 2012-03-06 2013-09-18 汤姆逊许可公司 用于回放更高阶立体混响音频信号的方法和设备
CN104471641A (zh) * 2012-07-19 2015-03-25 汤姆逊许可公司 用于改善对多声道音频信号的呈现的方法和设备

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
EP2094032A1 (en) 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
US8964994B2 (en) 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
GB2476747B (en) * 2009-02-04 2011-12-21 Richard Furse Sound system
EP2389016B1 (en) 2010-05-18 2013-07-10 Harman Becker Automotive Systems GmbH Individualization of sound signals
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
KR101642208B1 (ko) 2011-12-23 2016-07-22 인텔 코포레이션 동적 메모리 성능 스로틀링
US20140086416A1 (en) 2012-07-15 2014-03-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
KR102213895B1 (ko) * 2013-01-15 2021-02-08 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
US9609452B2 (en) * 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
US10178489B2 (en) * 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US10075795B2 (en) 2013-04-19 2018-09-11 Electronics And Telecommunications Research Institute Apparatus and method for processing multi-channel audio signal
BR112015028337B1 (pt) * 2013-05-16 2022-03-22 Koninklijke Philips N.V. Aparelho de processamento de áudio e método
KR102280461B1 (ko) * 2013-05-24 2021-07-22 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
US20140355769A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
JP6377730B2 (ja) 2013-06-05 2018-08-22 ドルビー・インターナショナル・アーベー オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置
CN105900455B (zh) * 2013-10-22 2018-04-06 延世大学工业学术合作社 用于处理音频信号的方法和设备
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US20150243292A1 (en) * 2014-02-25 2015-08-27 Qualcomm Incorporated Order format signaling for higher-order ambisonic audio data
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
US10134403B2 (en) * 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
CN107077861B (zh) * 2014-10-01 2020-12-18 杜比国际公司 音频编码器和解码器
US9875745B2 (en) 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
JP7039494B2 (ja) * 2016-06-17 2022-03-22 ディーティーエス・インコーポレイテッド 近/遠距離レンダリングを用いた距離パニング

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103313182A (zh) * 2012-03-06 2013-09-18 汤姆逊许可公司 用于回放更高阶立体混响音频信号的方法和设备
CN104471641A (zh) * 2012-07-19 2015-03-25 汤姆逊许可公司 用于改善对多声道音频信号的呈现的方法和设备

Also Published As

Publication number Publication date
KR20180061218A (ko) 2018-06-07
US20170105085A1 (en) 2017-04-13
KR102032072B1 (ko) 2019-10-14
US9961475B2 (en) 2018-05-01
CN108141689A (zh) 2018-06-08
EP3360343B1 (en) 2019-12-11
WO2017062160A1 (en) 2017-04-13
EP3360343A1 (en) 2018-08-15
JP2018534848A (ja) 2018-11-22

Similar Documents

Publication Publication Date Title
EP3360132B1 (en) Quantization of spatial vectors
CN108141689B (zh) 从基于对象的音频转换到hoa
US9747911B2 (en) Reuse of syntax element indicating vector quantization codebook used in compressing vectors
CN108780647B (zh) 用于音频信号译码的方法和设备
CN108141688B (zh) 从以信道为基础的音频到高阶立体混响的转换
WO2015175998A1 (en) Spatial relation coding for higher order ambisonic coefficients
CN110827839A (zh) 用于渲染高阶立体混响系数的装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant