CN108780647B - 用于音频信号译码的方法和设备 - Google Patents

用于音频信号译码的方法和设备 Download PDF

Info

Publication number
CN108780647B
CN108780647B CN201680076226.7A CN201680076226A CN108780647B CN 108780647 B CN108780647 B CN 108780647B CN 201680076226 A CN201680076226 A CN 201680076226A CN 108780647 B CN108780647 B CN 108780647B
Authority
CN
China
Prior art keywords
hoa
audio
audio signal
elements
higher order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680076226.7A
Other languages
English (en)
Other versions
CN108780647A (zh
Inventor
金墨永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN108780647A publication Critical patent/CN108780647A/zh
Application granted granted Critical
Publication of CN108780647B publication Critical patent/CN108780647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

在一个实例中,一种方法包含获得包括多个元素的音频信号;产生表示所述音频信号的第一高阶立体混响HOA声场;选择所述音频信号的用于在非高阶立体混响HOA域中编码的元素的集合;基于所述所选择的元素的集合和空间定位向量的集合,产生表示所述所选择的元素的集合的第二HOA声场;产生表示所述第一HOA声场与所述第二HOA声场之间的差的第三HOA声场;和产生包含所述非HOA域中的所述所选择的元素的集合的表示、所述空间定位向量的集合的指示和所述第三HOA声场的表示的经译码音频位流。

Description

用于音频信号译码的方法和设备
本申请案主张2016年1月5日申请的第62/274,898号美国临时专利申请案的权益,所述美国临时专利申请案的整个内容以引用的方式并入本文中。
技术领域
本公开涉及音频数据,并且更具体地说,涉及高阶立体混响音频数据的译码。
背景技术
高阶立体混响(HOA)信号(常常由多个球面谐波系数(SHC)或其它分层元素表示)是声场的三维表示。HOA或SHC表示可以独立于用以重放从SHC信号显现的多通道音频信号的局部扬声器几何布置的方式来表示声场。SHC信号还可有助于向后兼容性,这是因为所述SHC信号可被显现为众所周知的且被高度采用的多通道格式(例如,5.1音频通道格式或7.1音频通道格式)。因此,所述SHC表示可实现也适应向后兼容性的对声场的更好表示。
发明内容
在一个实例中,一种装置包含一或多个处理器,其被配置成:获得包括多个元素的音频信号;产生表示所述音频信号的第一高阶立体混响(HOA)声场;选择所述音频信号的用于在非高阶立体混响(HOA)域中编码的元素的集合;基于所述所选择的元素的集合和空间定位向量的集合,产生表示所述所选择的元素的集合的第二HOA声场;产生表示所述第一HOA声场与所述第二HOA声场之间的差的第三HOA声场;和产生包含所述非HOA域中的所述所选择的元素的集合的表示、所述空间定位向量的集合的指示和所述第三HOA声场的表示的经译码音频位流。在此实例中,所述装置另外包含存储器,其电耦合到所述一或多个处理器,被配置成存储所述经译码音频位流的至少一部分。
在另一实例中,一种装置包含存储器,其被配置成存储经译码音频位流的至少一部分;和一或多个处理器。在此实例中,一或多个处理器被配置成:从所述经译码音频位流获得非高阶立体混响(HOA)域中的音频信号的元素的第一集合和HOA域中的所述音频信号的元素的第二集合;针对所述元素的第一集合的每一相应元素,获得所述HOA域中的空间定位向量的集合的相应空间定位向量;基于所述空间定位向量的集合和所述元素的第一集合,产生第一HOA声场,其中所述第一HOA声场表示所述元素的第一集合;产生表示所述元素的第二集合的第二HOA声场;组合所述第一HOA声场与所述第二HOA声场以产生第三HOA声场,所述第三HOA声场表示所述音频信号;确定表示多个局部扩音器的配置的局部显现格式;和基于所述局部显现格式,将所述第三HOA声场显现成各自对应于所述多个局部扩音器中的相应局部扩音器的多个输出音频信号。
在另一实例中,一种方法包含获得包括多个元素的音频信号;产生表示所述音频信号的第一高阶立体混响(HOA)声场;选择所述音频信号的用于在非高阶立体混响(HOA)域中编码的元素的集合;基于所述所选择的元素的集合和空间定位向量的集合,产生表示所述所选择的元素的集合的第二HOA声场;产生表示所述第一HOA声场与所述第二HOA声场之间的差的第三HOA声场;和产生包含所述非HOA域中的所述所选择的元素的集合的表示、所述空间定位向量的集合的指示和所述第三HOA声场的表示的经译码音频位流。
在另一实例中,一种方法包含从经译码音频位流获得非高阶立体混响(HOA)域中的音频信号的元素的第一集合和HOA域中的所述音频信号的元素的第二集合;针对所述元素的第一集合的每一相应元素,获得所述HOA域中的空间定位向量的集合的相应空间定位向量;基于所述空间定位向量的集合和所述元素的第一集合,产生第一HOA声场,其中所述第一HOA声场表示所述元素的第一集合;产生表示所述元素的第二集合的第二HOA声场;组合所述第一HOA声场与所述第二HOA声场以产生第三HOA声场,所述第三HOA声场表示所述音频信号;确定表示多个局部扩音器的配置的局部显现格式;和基于所述局部显现格式,将所述第三HOA声场显现成各自对应于所述多个局部扩音器中的相应局部扩音器的多个输出音频信号。
在附图和以下描述中阐述本公开的一或多个方面的细节。本公开中所描述的技术的其它特征、目标和优点将从描述和图式以及从权利要求书显而易见。
附图说明
图1是说明可执行本公开中描述的技术的各种方面的系统的图式。
图2是说明具有各种阶数和子阶数的球面谐波基底函数的图式。
图3是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图。
图4是说明根据本发明的一或多种技术的用于与图3中示出的音频编码装置的实例实施方案一起使用的音频解码装置的实例实施方案的框图。
图5是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图。
图6是说明根据本公开的一或多种技术的向量编码单元的实例实施方案的图式。
图7是示出理想球面设计位置的实例集合的表。
图8是示出理想球面设计位置的另一实例集合的表。
图9是说明根据本公开的一或多种技术的向量编码单元的实例实施方案的框图。
图10是说明根据本公开的一或多种技术的音频解码装置的实例实施方案的框图。
图11是说明根据本公开的一或多种技术的向量解码单元的实例实施方案的框图。
图12是说明根据本公开的一或多种技术的向量解码单元的替代实施方案的框图。
图13是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图,其中所述音频编码装置被配置成编码基于对象的音频数据。
图14是说明根据本公开的一或多种技术的用于基于对象的音频数据的向量编码单元68C的实例实施方案的框图。
图15是说明VBAP的概念图。
图16是说明根据本公开的一或多种技术的音频解码装置的实例实施方案的框图,其中所述音频解码装置被配置成解码基于对象的音频数据。
图17是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图,其中所述音频编码装置被配置成量化空间向量。
图18是说明根据本公开的一或多种技术的用于与图17中示出的音频编码装置的实例实施方案一起使用的音频解码装置的实例实施方案的框图。
图19是说明根据本公开的一或多种技术的显现单元210的实例实施方案的框图。
图20是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图。
图21是说明根据本公开的一或多种技术的用于与图20和/或图22中示出的音频编码装置的实例实施方案一起使用的音频解码装置的实例实施方案的框图。
图22是说明根据本公开的一或多种技术的音频编码装置的实例实施方案的框图。
图23说明根据本公开的一或多种技术的汽车扬声器重放环境。
图24是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。
图25是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。
图26是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。
具体实施方式
环绕声的演变现今已使用于娱乐的许多输出格式可用。这些消费型环绕声格式的实例大部分为‘通道’式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含普遍的5.1格式(其包含以下六个通道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,以及低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式和22.2格式(例如,用于供超高清电视标准使用)。非消费型格式可以跨越任何数量的扬声器(成对称和非对称几何布置),其往往被称为“环绕阵列”。此阵列的一个实例包含定位在截头二十面体的拐角上的坐标处的32个扩音器。
音频编码器可接收呈三种可能格式中的一个的输入:(i)传统的基于通道的音频(如上文所论述),其意图通过在预指定位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单个音频对象的离散脉码调制(PCM)数据以及含有其位置坐标的相关联元数据(以及其它信息);和(iii)基于场景的音频,其涉及使用球面谐波基底函数的系数(也被称为“球面谐波系数”或SHC,“高阶立体混响”或HOA和“HOA系数”)来表示声场。
在一些实例中,编码器可以其被接收的格式编码所接收的音频数据。举例来说,接收传统的7.1基于通道的音频的编码器可将基于通道的音频编码到可由解码器重放的位流中。然而,在一些实例中,为在具有5.1重放能力(但不具有7.1重放能力)的解码器处实现重放,编码器还可在位流中包含7.1基于通道的音频的5.1版本。在一些实例中,编码器在位流中包含多个音频版本可能并不合乎需要。作为一个实例,在位流中包含多个音频版本可能会增加位流的大小,且因此可能会增加传输所需的带宽量和/或存储位流所需的存储量。作为另一实例,内容创建者(例如,好莱坞影城)将希望一次产生电影的声轨,而不希望花费精力来针对每一扬声器配置再混合声轨。因而,提供编码成标准化位流,并提供针对重放位置(涉及显现器)处的扬声器几何布置(和数目)和声学条件可调适且不可知所述布置与条件的后续解码可能合乎需要。
在一些实例中,为使音频解码器能以任意扬声器配置重放音频,音频编码器可以单个格式转换输入音频以供编码。举例来说,音频编码器可将多通道音频数据和/或音频对象转换成分层元素集合,并将所得元素集合编码到位流中。所述分层元素集合可指元素被排序以使得较低阶元素的基础集合提供模型化声场的完整表示的一组元素。在所述集合扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
分层元素集合的一个实例是球面谐波系数(SHC)的集合,其也可被称作高阶立体混响(HOA)系数。下文的方程式(1)使用SHC展现声场的描述或表示。
Figure GDA0002644187620000051
方程式(1)展示声场的任何点{rrr,
Figure GDA0002644187620000052
}处时间t处的压力pi可由SHC
Figure GDA0002644187620000053
唯一性表示。此处,
Figure GDA0002644187620000054
c是声音的速度(~343m/s),{rrr,
Figure GDA0002644187620000055
}是参考点(或观测点),jn(·)是阶n的球面贝塞尔函数,且
Figure GDA0002644187620000056
是阶n和子阶m的球面谐波基底函数。可认识到,方括号中的项是信号(即,S(ω,rrr,
Figure GDA0002644187620000057
))的频域表示,其可由例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换的各种时频变换近似表示。分层集合的其它实例包含小波变换系数的集合和多分辨率基底函数的系数的其它集合。出于简单的目的,本公开在下文参考HOA系数进行描述。然而,应了解,所述技术可同样适用于其它分层集合。
然而,在一些实例中,将所有所接收音频数据转换成HOA系数可能并不合乎需要。举例来说,如果音频编码器将所有所接收音频数据转换成HOA系数,那么所得位流可能不向后兼容不能够处理HOA系数的音频解码器(例如,仅可处理多通道音频数据和音频对象中的一个或两个的音频解码器)。因而,可能合乎需要是,音频编码器编码所接收音频数据,使得所得位流使音频解码器能够以任意扬声器配置重放音频数据,同时还实现向后兼容不能够处理HOA系数的内容消费者系统。
根据本公开的一或多种技术,与将所接收音频数据转换成HOA系数并将所得HOA系数编码在位流中相比,音频编码器可在位流中以其原始格式编码所接收音频数据,连同实现将经编码音频数据转换成HOA系数的的信息。举例来说,音频编码器可确定实现将经编码音频数据转换成HOA系数的一或多个空间定位向量(SPV),并将所述一或多个SPV的表示和所接收音频数据的表示编码在位流中。在一些实例中,所述一或多个SPV中的特定SPV的表示可为对应于码本中的特定SPV的索引。可基于源扩音器配置(即,预期重放所接收音频数据的扩音器配置)确定空间定位向量。以此方式,音频编码器可输出使音频解码器能够以任意扬声器配置重放所接收音频数据同时还实现向后兼容不能够处理HOA系数的音频解码器的位流。
音频解码器可接收包含呈其原始格式的音频数据,连同实现将经编码音频数据转换成HOA系数的信息的位流。举例来说,音频解码器可接收呈5.1格式的多通道音频数据和一或多个空间定位向量(SPV)。使用所述一或多个空间定位向量,音频解码器可从呈5.1格式的音频数据产生HOA声场。举例来说,音频解码器可基于多通道音频信号和空间定位向量产生HOA系数的集合。音频解码器可基于局部扩音器配置显现HOA声场或使另一装置能够显现HOA声场。以此方式,能够处理HOA系数的音频解码器可以任意扬声器配置重放多通道音频数据,同时还能实现向后兼容不能够处理HOA系数的音频解码器。
如上文所论述,音频编码器可确定并编码实现将经编码音频数据转换成HOA系数的一或多个空间定位向量(SPV)。然而,在一些实例中,当位流不包含一或多个空间定位向量的指示时,音频解码器可能需要以任意扬声器配置重放所接收的音频数据。
根据本公开的一或多种技术,音频解码器可接收经编码音频数据和源扩音器配置的指示(即,预期重放经编码音频数据的扩音器配置的指示),并基于源扩音器配置的指示产生实现将经编码音频数据转换成HOA系数的空间定位向量(SPV)。在一些实例中,例如在经编码音频数据是呈5.1格式的多通道音频数据的情况下,源扩音器配置的指示可指示经编码音频数据是呈5.1格式的多通道音频数据。
在使用空间定位向量的情况下,音频解码器可从音频数据产生HOA声场。举例来说,音频解码器可基于多通道音频信号和空间定位向量产生HOA系数的集合。音频解码器可基于局部扩音器配置显现HOA声场或使另一装置能够显现HOA声场。以此方式,音频解码器可输出使音频解码器能够以任意扬声器配置重放所接收音频数据同时还实现向后兼容可能不产生和编码空间定位向量的音频编码器的位流。
如上文所论述,音频译码器(即,音频编码器或音频解码器)可获得(即,产生、确定、检索、接收等)实现将经编码音频数据转换成HOA声场的空间定位向量。在一些实例中,可以实现对音频数据的近乎“完美的”重构建为目标来获得空间定位向量。空间定位向量可被视为能实现对音频数据的近乎“完美的”重构建,其中空间定位向量用于将输入N通道音频数据转换成HOA声场,所述HOA声场在转换回成N通道音频数据时与输入N通道音频数据近似等同。
为获得实现近乎“完美的”重构建的空间定位向量,音频译码器可确定用于每一向量的系数数目NHOA。如果根据方程式(2)和(3)表示HOA声场,且根据方程式(4)和(5)表示由用显现矩阵D显现HOA声场所产生的N通道音频,那么在选择的系数数目大于或等于输入N通道音频数据中的通道数目的情况下,近乎“完美的”重构建可为可能的。
Figure GDA0002644187620000061
Figure GDA0002644187620000062
Figure GDA0002644187620000063
Figure GDA0002644187620000071
换句话说,如果满足方程式(6),那么近乎“完美的”重构建可为可能的。
N≤NHOA (6)
换句话说,如果输入通道N的数目小于或等于用于每一空间定位向量的系数NHOA的数目,那么近乎“完美的”重构建可为可能的。
音频译码器可用选定数目个系数获得空间定位向量。可根据方程式(7)表达HOA声场H。
Figure GDA0002644187620000072
在方程式(7)中,通道i的Hi可为通道i的音频通道Ci与通道i的空间定位向量Vi的转置的乘积,如方程式(8)中所示出。
Figure GDA0002644187620000073
Hi可显现为产生基于通道的音频信号
Figure GDA0002644187620000074
如方程式(9)中所示出。
Figure GDA0002644187620000075
如果方程式(10)或方程式(11)为真,那么方程式(9)可保持为真,其中方程式(11)的第二解由于为单数已被去除。
Figure GDA0002644187620000076
或者
Figure GDA0002644187620000077
如果方程式(10)或方程式(11)为真,那么可根据方程式(12)-(14)表示基于通道的音频信号
Figure GDA0002644187620000081
Figure GDA0002644187620000082
Figure GDA0002644187620000083
Figure GDA0002644187620000084
因而,为实现近乎“完美的”重构建,音频译码器可获得满足方程式(15)和(16)的空间定位向量。
Figure GDA0002644187620000085
N≤NHOA (16)
出于完整性,以下是满足上文方程式的空间定位向量实现近乎“完美的”重构建的证明。对于根据方程式(17)表示的给定N通道音频,音频译码器可获得可根据方程式(18)和(19)表示的空间定位向量,其中D是基于N通道音频数据的源扩音器配置确定的源显现矩阵,[0,…,1,…,0]包含N个元素,且第i元素为1且其它元素为0。
Γ=[C1,C2,…,CN] (17)
{Vi}i=1,…,N (18)
Vi=[[0,…,1,…,0](DDT)-1D]T (19)
音频译码器可根据方程式(20)基于空间定位向量和N通道音频数据产生HOA声场H。
Figure GDA0002644187620000086
音频译码器可根据方程式(21)将HOA声场H转换回成N通道音频数据
Figure GDA0002644187620000087
其中D是基于N通道音频数据的源扩音器配置确定的源显现矩阵。
Figure GDA0002644187620000088
如上文所论述,在
Figure GDA0002644187620000091
近似等同于Γ的情况下实现“完美的”重构建。如下文在方程式(22)-(26)中所示,
Figure GDA0002644187620000092
近似等同于Γ,因而近乎“完美的”重构建可为可能的:
Figure GDA0002644187620000093
Figure GDA0002644187620000094
Figure GDA0002644187620000095
Figure GDA0002644187620000096
Figure GDA0002644187620000097
可以不同方式处理例如显现矩阵等矩阵。举例来说,可将矩阵处理(例如,存储、相加、相乘、检索等)为行、列、向量或以其它方式进行处理。
图1是说明可执行本公开中描述的技术的各个方面的系统2的图式。如图1的实例中所示,系统2包含内容创建者系统4和内容消费者系统6。虽然在内容创建者系统4和内容消费者系统6的上下文中进行描述,但所述技术可实施于编码音频数据以形成音频数据的位流表示的任何上下文中。此外,内容创建者系统4可包含能够实施本公开中描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话或台式计算机(提供几个实例)。同样,内容消费者系统6可包含能够实施本公开中描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒、AV接收器、无线扬声器或台式计算机(提供几个实例)。
内容创建者系统4可由各种内容创建者操作,例如电影工作室、电视工作室、因特网流服务,或其它可产生音频内容以供例如内容消费者系统6的内容消费者系统的操作者消费的实体。内容创建者往往结合视频内容产生音频内容。内容消费者系统6可由个人操作。一般来说,内容消费者系统6可指能够输出多通道音频内容的任何形式的音频重放系统。
内容创建者系统4包含音频编码装置14,其可能能够将所接收音频数据编码到位流中。音频编码装置14可从各种源接收音频数据。举例来说,音频编码装置14可获得现时音频数据10和/或预产生的音频数据12。音频编码装置14可接收呈各种格式的现时音频数据10和/或预产生的音频数据12。作为一个实例,音频编码装置14可从一或多个麦克风8接收作为HOA系数、音频对象或多通道音频数据的现时音频数据10。作为另一实例,音频编码装置14可接收作为HOA系数、音频对象或多通道音频数据的预产生的音频数据12。
如上文所陈述,音频编码装置14可将所接收音频数据编码到例如位流20的位流中以用于作为一个实例跨越传输通道传输,所述传输通道可为有线或无线通道、数据存储装置等。在一些实例中,内容创建者系统4将经编码位流20直接传输到内容消费者系统6。在其它实例中,经编码位流也可存储到存储媒体或文件服务器上以供稍后由内容消费者系统6存取以进行解码和/或重放。
如上文所论述,在一些实例中,所接收音频数据可包含HOA系数。然而,在一些实例中,所接收音频数据可包含呈除HOA系数以外的格式的音频数据,例如多通道音频数据和/或基于对象的音频数据。在一些实例中,音频编码装置14可以单个格式转换所接收音频数据以供编码。举例来说,如上文所论述,音频编码装置14可将多通道音频数据和/或音频对象转换成HOA系数,并将所得HOA系数编码到位流20中。以此方式,音频编码装置14可使内容消费者系统能以任意扬声器配置重放音频数据。
然而,在一些实例中,将所有所接收音频数据转换成HOA系数可能并不合乎需要。举例来说,如果音频编码装置14将所有所接收音频数据转换成HOA系数,那么所得位流可能不向后兼容不能够处理HOA系数的内容消费者系统(即,仅可处理多通道音频数据和音频对象中的一个或两个的内容消费者系统)。因而,可能合乎需要的是,音频编码装置14编码所接收音频数据,使得所得位流使内容消费者系统能够以任意扬声器配置重放音频数据,同时还实现向后兼容不能够处理HOA系数的内容消费者系统。
根据本公开的一或多种技术,与将所接收音频数据转换成HOA系数并将所得HOA系数编码在位流中相比,音频编码装置14可在位流20中以其原始格式编码所接收音频数据,连同实现将经编码音频数据转换成HOA系数的信息。举例来说,音频编码装置14可确定实现将经编码音频数据转换成HOA系数的一或多个空间定位向量(SPV),并将所述一或多个SPV的表示和所接收音频数据的表示编码在位流20中。在一些实例中,音频编码装置14可确定符合上文方程式(15)和(16)的一或多个空间定位向量。以此方式,音频编码装置14可输出如下位流:使内容消费者系统能以任意扬声器配置重放所接收音频数据,同时还实现向后兼容不能够处理HOA系数的内容消费者系统。
内容消费者系统6可基于位流20产生扩音器馈给26。如图1中所示出,内容消费者系统6可包含音频解码装置22和扩音器24。扩音器24还可被称作局部扩音器。音频解码装置22可能够解码位流20。作为一个实例,音频解码装置22可解码位流20以重构建音频数据和实现将经解码音频数据转换成HOA系数的信息。作为另一实例,音频解码装置22可解码位流20以重构建音频数据,且可局部确定实现将经解码音频数据转换成HOA系数的信息。举例来说,音频解码装置22可确定符合上文方程式(15)和(16)的一或多个空间定位向量。
在任何情况下,音频解码装置22可使用所述信息将经解码音频数据转换成HOA系数。举例来说,音频解码装置22可使用SPV将经解码音频数据转换成HOA系数,并显现所述HOA系数。在一些实例中,音频解码装置可显现所得HOA系数,以输出可驱动扩音器24中的一或多个的扩音器馈给26。在一些实例中,音频解码装置可将所得HOA系数输出到外部显现器(未示出),所述外部显现器可显现HOA系数以输出可驱动扩音器24中的一或多个的扩音器馈给26。换句话说,扩音器24重放HOA声场。在各种实例中,扩音器24可为车辆、住宅、电影院、音乐会场馆或其它地点。
音频编码装置14和音频解码装置22各自可被实施为多种合适的电路中的任一个,例如一或多个集成电路,包含微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分地在软件中实施时,装置可将用所述软件的指令存储在合适的非暂时性计算机可读媒体中,且可使用执行本公开的技术的一或多个处理器在例如集成电路的硬件中执行所述指令。
图2是说明从零阶(n=0)到四阶(n=4)的球面谐波基底函数的图式。如可见,对于每一阶,存在子阶数m的扩展,出于易于说明的目的,在图1的实例中展示所述子阶数但未明确注解。
SHC
Figure GDA0002644187620000111
可由各种麦克风阵列配置物理获取(例如,记录),或替代地,其可从声场的基于通道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音频编码器以获得经编码SHC,所述经编码SHC可促进更高效的传输或存储。举例来说,可使用涉及(1+4)2个(25,且因此为四阶)系数的四阶表示。
如上文所指出,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于波莱蒂·M(Poletti,M.)的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004到1025页)中。
为说明可如何从基于对象的描述导出SHC,考虑以下方程式。如在方程式(27)中所示,可表示对应于个别音频对象的声场的系数
Figure GDA0002644187620000112
其中i是
Figure GDA0002644187620000113
是阶n的(第二种)球面汉克尔函数,且{rss,
Figure GDA0002644187620000114
}是对象的位置。
Figure GDA0002644187620000121
知道对象源能量g(ω)为频率的函数(例如,使用时间-频率分析技术,例如对PCM流执行快速傅里叶变换)允许将每一PCM对象和对应位置转换成SHC
Figure GDA0002644187620000122
此外,可示出(由于以上是线性正交分解)每一对象的
Figure GDA0002644187620000123
系数是可相加的。以此方式,可由
Figure GDA0002644187620000124
系数表示多个PCM对象(例如,作为个别对象的系数向量的总和)。基本上,所述系数含有关于声场(随3D坐标而变的压力)的信息,且以上表示在观测点{rrr,
Figure GDA0002644187620000125
}附近从个别对象变换为总体声场的表示。
图3是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图。图3中所示的音频编码装置14的实例实施方案标记为音频编码装置14A。音频编码装置14A包含音频编码单元51、位流产生单元52A和存储器54。在其它实例中,音频编码装置14A可包含更多、更少或不同的单元。举例来说,音频编码装置14A可不包含音频编码单元51,或音频编码单元51可实施于单独装置中,所述单独装置可经由一或多个有线或无线连接连接到音频编码装置14A。
音频信号50可表示由音频编码装置14A接收的输入音频信号。在一些实例中,音频信号50可为源扩音器配置的多通道音频信号。举例来说,如图3中所示,音频信号50可包含N个音频数据通道,表示为通道C1到通道CN。作为一个实例,音频信号50可为5.1的源扩音器配置的六通道音频信号(即,左前通道、中心通道、右前通道、环绕左后通道、环绕右后通道,和低频效应(LFE)通道)。作为另一实例,音频信号50可为7.1的源扩音器配置的八通道音频信号(即,左前通道、中心通道、右前通道、环绕左后通道、环绕左通道、环绕右后通道,环绕右通道,和低频效应(LFE)通道)。其它实例是可能的,例如二十四通道音频信号(例如,22.2)、九通道音频信号(例如,8.1),以及任何其它通道组合。
在一些实例中,音频编码装置14A可包含音频编码单元51,其可被配置成将音频信号50编码成经译码音频信号62。举例来说,音频编码单元51可量化、格式化或以其它方式压缩音频信号50以产生音频信号62。如在图3的实例中所示出,音频编码单元51可将音频信号50的通道C1-CN编码成经译码音频信号62的通道C'1-C'N。在一些实例中,音频编码单元51可被称为音频编解码器。
源扩音器设置信息48可指定源扩音器设置中的扩音器的数目(例如,N)和源扩音器设置中扩音器的位置。在一些实例中,源扩音器设置信息48可指示呈方位角和仰角(例如,{θii}i=1,…,N)形式的源扩音器位置。在一些实例中,源扩音器设置信息48可指示呈预定义设置(例如,5.1、7.1、22.2)形式的源扩音器的位置。在一些实例中,音频编码装置14A可基于源扩音器设置信息48确定源显现格式D。在一些实例中,源显现格式D可表示为矩阵。
位流产生单元52A可被配置成基于一或多个输入产生位流。在图3的实例中,位流产生单元52A可被配置成将扩音器位置信息48和音频信号50编码到位流56A中。在一些实例中,位流产生单元52A可在不进行压缩的情况下编码音频信号。举例来说,位流产生单元52A可将音频信号50编码到位流56A中。在一些实例中,位流产生单元52A可在进行压缩的情况下编码音频信号。举例来说,位流产生单元52A可将经译码音频信号62编码到位流56A中。
在一些实例中,为将扩音器位置信息48编码到位流56A中,位流产生单元52A可编码(例如,用信号传送)源扩音器设置中的扩音器数目(例如,N)和呈方位角和仰角形式(例如,{θii}i=1,…,N)的源扩音器设置的扩音器位置。此外,在一些实例中,位流产生单元52A可确定和编码将当将音频信号50转换成HOA声场时使用多少HOA系数(例如,NHOA)的指示。在一些实例中,音频信号50可划分成帧。在一些实例中,位流产生单元52A可针对每一帧用信号传送源扩音器设置中的扩音器数目和源扩音器设置中的扩音器位置。在一些实例中,例如在当前帧的源扩音器设置与先前帧的源扩音器设置相同的情况下,位流产生单元52A可省略针对当前帧用信号传送源扩音器设置中的扩音器数目和源扩音器设置的扩音器位置。
在操作中,音频编码装置14A可接收音频信号50作为六通道多通道音频信号,且接收扩音器位置信息48作为呈5.1预定义设置的形式的源扩音器位置的指示。如上文所论述,位流产生单元52A可将扩音器位置信息48和音频信号50编码到位流56A中。举例来说,位流产生单元52A可将六通道多通道的表示(音频信号50)和经编码音频信号为5.1音频信号的指示(源扩音器位置信息48)编码到位流56A中。
如上文所论述,在一些实例中,音频编码装置14A可将经编码音频数据(即,位流56A)直接传输到音频解码装置。在其它实例中,音频编码装置14A可将经编码音频数据(即,位流56A)存储到存储媒体或文件服务器上以供稍后由音频解码装置存取以进行解码和/或重放。在图3的实例中,存储器54可在由音频编码装置14A输出之前存储位流56A的至少一部分。换句话说,存储器54可存储所有位流56A或位流56A的一部分。
因此,音频编码装置14A可包含一或多个处理器,其被配置成:接收源扩音器配置的多通道音频信号(例如,扩音器位置信息48的多通道音频信号50);基于所述源扩音器配置,获得高阶立体混响(HOA)域中的多个空间定位向量,其结合多通道音频信号来表示高阶立体混响(HOA)系数的集合,所述系数表示多通道音频信号;和在经译码音频位流(例如,位流56A)中编码多通道音频信号(例如,经译码音频信号62)的表示和多个空间定位向量的指示(例如,扩音器位置信息48)。此外,音频编码装置14A可包含电耦合到一或多个处理器的存储器(例如,存储器54),其被配置成存储经译码音频位流。
图4是说明根据本公开的一或多种技术的用于与图3中示出的音频编码装置14A的实例实施方案一起使用的音频解码装置22的实例实施方案的框图。图4中示出的音频解码装置22的实例实施方案被标记为22A。图4中的音频解码装置22的实施方案包含存储器200、多路分用单元202A、音频解码单元204、向量创建单元206、HOA产生单元208A和显现单元210。在其它实例中,音频解码装置22A可包含更多、更少或不同的单元。举例来说,显现单元210可实施于例如扩音器、头戴式耳机单元或音频基座或卫星装置的单独装置中,且可经由一或多个有线或无线连接连接到音频解码装置22A。
存储器200可获得经编码音频数据,例如位流56A。在一些实例中,存储器200可直接从音频编码装置接收经编码音频数据(即,位流56A)。在其它实例中,可存储经编码音频数据,且存储器200可从存储媒体或文件服务器获得经编码音频数据(即,位流56A)。存储器200可向音频解码装置22A的例如多路分用单元202的一或多个组件提供对位流56A的存取。
多路分用单元202A可将位流56A多路分用以获得经译码音频数据62和源扩音器设置信息48。多路分用单元202A可将所获得数据提供到音频解码装置22A的一或多个组件。举例来说,多路分用单元202A可将经译码音频数据62提供到音频解码单元204,并将源扩音器设置信息48提供到向量创建单元206。
音频解码单元204可被配置成将经译码音频信号62解码成音频信号70。举例来说,音频解码单元204可解量化、解格式化或以其它方式解压缩音频信号62以产生音频信号70。如图4的实例中所示出,音频解码单元204可将音频信号62的通道C'1-C'N解码成经解码音频信号70的通道C'1-C'N。在一些实例中,例如在音频信号62使用无损译码技术经译码的情况下,音频信号70可近似等于或近似等同于图3的音频信号50。在一些实例中,音频解码单元204可被称为音频编解码器。音频解码单元204可将经解码音频信号70提供到音频解码装置22A的一或多个组件,例如HOA产生单元208A。
向量创建单元206可被配置成产生一或多个空间定位向量。举例来说,如图4的实例中所示出,向量创建单元206可基于源扩音器设置信息48产生空间定位向量72。在一些实例中,空间定位向量72可在高阶立体混响(HOA)域中。在一些实例中,为产生空间定位向量72,向量创建单元206可基于源扩音器设置信息48确定源显现格式D。使用所确定的源显现格式D,向量创建单元206可确定空间定位向量72满足以上方程式(15)和(16)。向量创建单元206可将空间定位向量72提供到音频解码装置22A的一或多个组件,例如HOA产生单元208A。
HOA产生单元208A可被配置成基于多通道音频数据和空间定位向量产生HOA声场。举例来说,如图4的实例中所示出,HOA产生单元208A可基于经解码音频信号70和空间定位向量72产生HOA系数212A的集合。在一些实例中,HOA产生单元208A可根据下文方程式(28)产生HOA系数212A的集合,其中H表示HOA系数212A,Ci表示经解码音频信号70,且
Figure GDA0002644187620000151
表示空间定位向量72的转置。
Figure GDA0002644187620000152
HOA产生单元208A可将所产生的HOA声场提供到一或多个其它组件。举例来说,如在图4的实例中所示,HOA产生单元208A可将HOA系数212A提供到显现单元210。
显现单元210可被配置成显现HOA声场以产生多个音频信号。在一些实例中,显现单元210可显现HOA声场的HOA系数212A,以产生用于在多个局部扩音器(例如图1的扩音器24)处重放的音频信号26A。在多个局部扩音器包含L个扩音器的情况下,音频信号26A可包含分别预期通过扩音器1到L重放的通道C1到CL
显现单元210可基于局部扩音器设置信息28产生音频信号26A,所述局部扩音器设置信息可表示多个局部扩音器的位置。在一些实例中,局部扩音器设置信息28可呈局部显现格式
Figure GDA0002644187620000153
的形式。在一些实例中,局部显现格式
Figure GDA0002644187620000154
可为局部显现矩阵。在一些实例中,例如在局部扩音器设置信息28呈局部扩音器中的每一个的方位角和仰角的形式的情况下,显现单元210可基于局部扩音器设置信息28确定局部显现格式
Figure GDA0002644187620000155
在一些实例中,显现单元210可根据方程式(29)基于局部扩音器设置信息28产生音频信号26A,其中
Figure GDA0002644187620000156
表示音频信号26A,H表示HOA系数212A,且
Figure GDA0002644187620000157
表示局部显现格式
Figure GDA0002644187620000158
的转置。
Figure GDA0002644187620000159
在一些实例中,局部显现格式
Figure GDA00026441876200001510
可不同于用于确定空间定位向量72的源显现格式D。作为一个实例,多个局部扩音器的位置可不同于多个源扩音器的位置。作为另一实例,所述多个局部扩音器中的扩音器数目可不同于所述多个源扩音器中的扩音器数目。作为另一实例,所述多个局部扩音器的位置可不同于所述多个源扩音器的位置,且同时所述多个局部扩音器中的扩音器数目可不同于所述多个源扩音器中的扩音器数目。
因此,音频解码装置22A可包含被配置成存储经译码音频位流的存储器(例如,存储器200)。音频解码装置22A可另外包含一或多个处理器,其电耦合到存储器并且被配置成:从经译码音频位流获得源扩音器配置的多通道音频信号(例如,扩音器位置信息48的经译码音频信号62)的表示;获得高阶立体混响(HOA)域中的基于源扩音器配置的多个空间定位向量(SPV)(例如,空间定位向量72)的表示;和基于多通道音频信号和多个空间定位向量产生HOA声场(例如,HOA系数212A)。
图5是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图。图5中所示的音频编码装置14的实例实施方案标记为音频编码装置14B。音频编码装置14B包含音频编码单元51、位流产生单元52A和存储器54。在其它实例中,音频编码装置14B可包含更多、更少或不同的单元。举例来说,音频编码装置14B可不包含音频编码单元51,或音频编码单元51可实施于单独装置中,所述单独装置可经由一或多个有线或无线连接连接到音频编码装置14B。
与可编码经译码音频信号62和扩音器位置信息48而不编码空间定位向量的指示的图3的音频编码装置14A相比,音频编码装置14B包含可确定空间定位向量的向量编码单元68。在一些实例中,向量编码单元68可基于扩音器位置信息48,确定空间定位向量,且输出空间向量表示数据71A以供位流产生单元52B编码到位流56B中。
在一些实例中,向量编码单元68可产生向量表示数据71A作为码本中的索引。作为一个实例,向量编码单元68可产生向量表示数据71A作为(例如,基于扩音器位置信息48)动态创建的码本中的索引。下文参考图6-8论述产生向量表示数据71A作为动态创建的码本中的索引的向量编码单元68的一个实例的额外细节。作为另一实例,向量编码单元68可将向量表示数据71A产生为包含预定源扩音器设置的空间定位向量的码本中的索引。下文参看图9论述产生向量表示数据71A作为包含预定源扩音器设置的空间定位向量的码本中的索引的向量编码单元68的一个实例的额外细节。
位流产生单元52B可在位流56B中包含表示经译码音频信号60和空间向量表示数据71A的数据。在一些实例中,位流产生单元52B还可在位流56B中包含表示扩音器位置信息48的数据。在图5的实例中,存储器54可存储位流56B的至少一部分,之后由音频编码装置14B输出。
因此,音频编码装置14B可包含一或多个处理器,其被配置成:接收源扩音器配置的多通道音频信号(例如,扩音器位置信息48的多通道音频信号50);基于所述源扩音器配置,获得高阶立体混响(HOA)域中的多个空间定位向量,其结合多通道音频信号来表示HOA系数的集合,所述系数表示多通道音频信号;和在经译码音频位流(例如,位流56B)中编码多通道音频信号(例如,经译码音频信号62)的表示和多个空间定位向量的指示(例如,空间向量表示数据71A)。此外,音频编码装置14B可包含电耦合到一或多个处理器的存储器(例如,存储器54),其被配置成存储经译码音频位流。
图6是说明根据本公开的一或多种技术的向量编码单元68的实例实施方案的图式。在图6的实例中,向量编码单元68的实例实施方案被标记为向量编码单元68A。在图6的实例中,向量编码单元68A包括显现格式单元110、向量创建单元112、存储器114和表示单元115。此外,如图6的实例中所示出,显现格式单元110接收源扩音器设置信息48。
显现格式单元110使用源扩音器设置信息48确定源显现格式116。源显现格式116可为用于将HOA系数的集合显现成用于以由源扩音器设置信息48描述的方式布置的扩音器的扩音器馈给的集合的显现矩阵。显现格式单元110可以各种方式确定源显现格式116。举例来说,显现格式单元110可使用ISO/IEC 23008-3,“信息技术-异构环境中的高效译码和媒体递送-部分3:3D音频(Information technology-High efficiency coding and mediadelivery in heterogeneous environments-Part 3:3D audio)”(第一版,2015年(在iso.org处可得))中所描述的技术。
在显现格式单元110使用ISO/IEC 23008-3中所描述的技术的实例中,源扩音器设置信息48包含指定源扩音器设置中的扩音器方向的信息。为便于解释,本公开可将源扩音器设置中的扩音器称为“源扩音器”。因此,源扩音器设置信息48可包含指定L个扩音器方向的数据,其中L是源扩音器的数目。指定L个扩音器方向的数据可表示为
Figure GDA0002644187620000171
指定源扩音器方向的数据可表示为成对的球面坐标。因而,
Figure GDA0002644187620000172
具有球面角度
Figure GDA0002644187620000173
指示倾斜角,且
Figure GDA0002644187620000174
指示方位角的角度,其可以弧度为单位表示。在此实例中,显现格式单元110可假设源扩音器具有中心定在声学最有效点处的球面布置。
在此实例中,显现格式单元110可基于HOA阶和理想球面设计位置的集合确定模式矩阵,标示为
Figure GDA0002644187620000175
图7示出理想球面设计位置的实例集合。图8是示出理想球面设计位置的另一实例集合的表。理想球面设计位置可标示为
Figure GDA0002644187620000176
其中S是理想球面设计位置的数目且Ωs=[θss]。模式矩阵可被定义成使得
Figure GDA0002644187620000177
其中
Figure GDA0002644187620000178
其中ys保持实值球面谐波系数
Figure GDA0002644187620000179
一般来说,可根据方程式(30)和(31)表示实值球面谐波系数
Figure GDA0002644187620000181
Figure GDA0002644187620000182
其中
Figure GDA0002644187620000183
在方程式(30)和(31)中,可根据以下方程式(32)定义勒让德函数Pn,m(x),具有勒让德多项式Pn(x)且不具有康登-肖特莱相项(-1)m
Figure GDA0002644187620000184
图7呈现具有对应于理想球面设计位置的项的实例表130。在图7的实例中,表130的每一行是对应于预定义扩音器位置的项。表130的列131以度为单位指定扩音器的理想方位角。表130的列132以度为单位指定扩音器的理想仰角。表130的列133和134以度为单位指定扩音器的可接受方位角角度范围。表130的列135和136以度为单位指定扩音器的可接受仰角范围。
图8呈现具有对应于理想球面设计位置的项的另一实例表140的一部分。尽管图8中未示出,但表140包含900个项,每一项指定扩音器位置的不同方位角
Figure GDA0002644187620000185
和仰角θ。在图8的实例中,音频编码装置14可通过用信号传送表140中的项的索引来指定源扩音器设置中的扩音器位置。举例来说,音频编码装置14可通过用信号传送索引值46来指定源扩音器设置中的扩音器处于方位角1.967778弧度和仰角0.428967弧度。
返回到图6的实例,向量创建单元112可获得源显现格式116。向量创建单元112可基于源显现格式116确定空间向量118的集合。在一些实例中,由向量创建单元112产生的空间向量的数目等于源扩音器设置中的扩音器数目。举例来说,如果源扩音器设置中存在N个扩音器,那么向量创建单元112可确定N个空间向量。对于源扩音器设置中的每一扩音器n,在n在1到N的范围内的情况下,扩音器的空间向量可等于或等同于Vn=[An(DDT)-1D]T。在此方程式中,D是表示为矩阵的源显现格式且An是由数目等于N的元素单行组成的矩阵(即,An是N维向量)。除了一个元素的值等于1之外,An中的每一元素都等于0。等于1的元素在An内的位置的索引等于n。因此,当n等于1时,An等于[1,0,0,…,0];当n等于2时,An等于[0,1,0,…,0];等等。
存储器114可存储码本120。存储器114可与向量编码单元68A分离且可形成音频编码装置14的通用存储器的部分。码本120包含项的集合,所述项中的每一个将相应代码向量索引映射到空间向量118的集合中的相应空间向量。下表是实例码本。在此表中,每一相应行对应于相应项,N指示扩音器的数目,且D表示表示为矩阵的源显现格式。
代码向量索引 空间向量
1 V<sub>1</sub>=[[1,0,0,…,0,…,0](DD<sup>T</sup>)<sup>-1</sup>D]<sup>T</sup>
2 V<sub>2</sub>=[[0,1,0,…,0,…,0](DD<sup>T</sup>)<sup>-1</sup>D]<sup>T</sup>
N V<sub>N</sub>=[[0,0,…,0,…,1](DD<sup>T</sup>)<sup>-1</sup>D]<sup>T</sup>
对于源扩音器设置中的每一相应扩音器,表示单元115输出对应于相应扩音器的代码向量索引。举例来说,表示单元115可输出指示对应于第一通道的代码向量索引为2,对应于第二通道的代码向量索引等于4等等的数据。具有码本120的复本的解码装置能够使用代码向量索引来确定源扩音器设置中的扩音器的空间向量。因此,代码向量索引为一种类型的空间向量表示数据。如上文所论述,位流产生单元52B可在位流56B中包含空间向量表示数据71A。
此外,在一些实例中,表示单元115可获得源扩音器设置信息48且可在空间向量表示数据71A中包含指示源扩音器位置的数据。在其它实例中,表示单元115并不在空间向量表示数据71A中包含指示源扩音器位置的数据。确切地说,在至少一些此类实例中,源扩音器位置可被预配置在音频解码装置22处。
在表示单元115在空间向量表示数据71A中包含指示源扩音器位置的数据的实例中,表示单元115可以不同方式指示源扩音器位置。在一个实例中,源扩音器设置信息48指定环绕声格式,例如5.1格式、7.1格式或22.2格式。在此实例中,源扩音器设置中的扩音器中的每一个处在预定义位置。因此,表示单元115可在空间表示数据115中包含指示预定义环绕声格式的数据。因为预定义环绕声格式的扩音器处在预定义位置,所以指示预定义环绕声格式的数据可足够用于音频解码装置22产生码本匹配码本120。
在另一实例中,ISO/IEC 23008-3定义用于不同扩音器布局的多个CICP扬声器布局索引值。在此实例中,源扩音器设置信息48指定如ISO/IEC 23008-3中所指定的CICP扬声器布局索引(CICPspeakerLayoutIdx)。显现格式单元110可基于此CICP扬声器布局索引确定源扩音器设置中的扩音器位置。因此,表示单元115可在空间向量表示数据71A中包含CICP扬声器布局索引的指示。
在另一实例中,源扩音器设置信息48指定源扩音器设置中的任意扩音器数目和源扩音器设置中的任意扩音器位置。在此实例中,显现格式单元110可基于源扩音器设置中的任意扩音器数目和源扩音器设置中的任意扩音器位置确定源显现格式。在此实例中,可以不同方式表示源扩音器设置中的任意扩音器位置。举例来说,表示单元115可在空间向量表示数据71A中包含源扩音器设置中的扩音器的球面坐标。在另一实例中,音频编码装置14和音频解码装置22配置有表,所述表具有对应于多个预定义扩音器位置的项。图7和图8为此类表的实例。在此实例中,并非空间向量表示数据71A进一步指定扩音器的球面坐标,而是空间向量表示数据71A可替代地包含指示表中的项的索引值的数据。用信号传送索引值可比用信号传送球面坐标更高效。
图9是说明根据本公开的一或多种技术的向量编码单元68的实例实施方案的框图。在图9的实例中,向量编码单元68的实例实施方案被标记为向量编码单元68B。在图9的实例中,空间向量单元68B包含码本库150和选择单元154。可使用存储器来实施码本库150。码本库150包含一或多个预定义的码本152A-152N(统称为“码本152”)。码本152中的每一相应码本包含一或多个项的集合。每一相应项将相应代码向量索引映射到相应空间向量。
码本152中的每一相应码本对应于不同的预定义源扩音器设置。举例来说,码本库150中的第一码本可对应于由两个扩音器构成的源扩音器设置。在此实例中,码本库150中的第二码本对应于由布置在5.1环绕声格式的标准位置处的五个扩音器构成的源扩音器设置。此外,在此实例中,码本库150中的第三码本对应于由布置在7.1环绕声格式的标准位置处的七个扩音器构成的源扩音器设置。在此实例中,码本库100中的第四码本对应于由布置在22.2环绕声格式的标准位置处的22个扩音器构成的源扩音器设置。其它实例可包含更多、更少或不同于先前实例中所提到的那些码本的码本。
在图9的实例中,选择单元154接收源扩音器设置信息48。在一个实例中,源扩音器信息48可由识别预定义环绕声格式(例如5.1、7.1、22.2和其它)的信息构成或包括所述信息。在另一实例中,源扩音器信息48由识别另一类型的预定义扩音器数目和布置的信息构成或包括所述信息。
选择单元154基于源扩音器设置信息识别哪个码本152适用于由音频解码装置22接收的音频信号。在图9的实例中,选择单元154输出指示哪个音频信号50对应于所识别码本中的哪些项的空间向量表示数据71A。举例来说,选择单元154可针对音频信号50中的每一个输出代码向量索引。
在一些实例中,向量编码单元68利用图6的预定义码本方法和图9的动态码本方法的混合体。举例来说,如本公开在别处所描述,在使用基于通道的音频的情况下,每一相应通道对应于源扩音器设置的相应扩音器,且向量编码单元68确定源扩音器设置的每一相应扩音器的相应空间向量。在此类实例中的一些中,例如在使用基于通道的音频的情况下,向量编码单元68可使用一或多个预定义码本来确定源扩音器设置的特定扩音器的空间向量。向量编码单元68可基于源扩音器设置确定源显现格式,并使用源显现格式来确定源扩音器设置的其它扩音器的空间向量。
图10是说明根据本公开的一或多种技术的音频解码装置22的实例实施方案的框图。图5中所示的音频解码装置22的实例实施方案标记为音频解码装置22B。图10中的音频解码装置22的实施方案包含存储器200、多路分用单元202B、音频解码单元204、向量解码单元207、HOA产生单元208A和显现单元210。在其它实例中,音频解码装置22B可包含更多、更少或不同的单元。举例来说,显现单元210可实施于例如扩音器、头戴式耳机单元或音频基座或卫星装置的单独装置中,且可经由一或多个有线或无线连接连接到音频解码装置22B。
与可基于扩音器位置信息48产生空间定位向量72而无需接收对空间定位向量的指示的图4的音频解码装置22A相比,音频解码装置22B包含可基于接收的空间向量表示数据71A确定空间定位向量72的向量解码单元207。
在一些实例中,向量解码单元207可基于由空间向量表示数据71A表示的码本索引确定空间定位向量72。作为一个实例,向量解码单元207可从(例如,基于扩音器位置信息48)动态创建的码本中索引确定空间定位向量72。下文参考图11论述从动态创建的码本中的索引确定空间定位向量的向量解码单元207的一个实例的额外细节。作为另一实例,向量解码单元207可从包含预定源扩音器设置的空间定位向量的码本中的索引确定空间定位向量72。下文参考图12论述从包含预定源扩音器设置的空间定位向量的码本中的索引确定空间定位向量的向量解码单元207的一个实例的额外细节。
在任何情况下,向量解码单元207可将空间定位向量72提供到音频解码装置22B的一或多个其它组件,例如HOA产生单元208A。
因此,音频解码装置22B可包含被配置成存储经译码音频位流的存储器(例如,存储器200)。音频解码装置22B可另外包含一或多个处理器,其电耦合到存储器并且被配置成:从经译码音频位流获得源扩音器配置的多通道音频信号(例如,扩音器位置信息48的经译码音频信号62)的表示;获得HOA域中的基于源扩音器配置的多个SPV(例如,空间定位向量72)的表示;和基于多通道音频信号和多个空间定位向量产生HOA声场(例如,HOA系数212A)。
图11是说明根据本公开的一或多种技术的向量解码单元207的实例实施方案的框图。在图11的实例中,向量解码单元207的实例实施方案被标记为向量解码单元207A。在图11的实例中,向量解码单元207包含显现格式单元250、向量创建单元252、存储器254和重构建单元256。在其它实例中,向量解码单元207可包含更多、更少或不同的组件。
显现格式单元250可以类似于图6的显现格式单元110的方式操作。如同显现格式单元110,显现格式单元250可接收源扩音器设置信息48。在一些实例中,源扩音器设置信息48是从位流获得。在其它实例中,源扩音器设置信息48预配置在音频解码装置22处。此外,类似于显现格式单元110,显现格式单元250可产生源显现格式258。源显现格式258可匹配由显现格式单元110产生的源显现格式116。
向量创建单元252可以类似于图6的向量创建单元112的方式操作。向量创建单元252可使用源显现格式258确定空间向量260的集合。空间向量260可匹配由向量生成单元112产生的空间向量118。存储器254可存储码本262。存储器254可与向量解码206分离且可形成音频解码装置22的通用存储器的部分。码本262包含项的集合,所述项中的每一个将相应代码向量索引映射到空间向量260的集合中的相应空间向量。码本262可匹配图6的码本120。
重构建单元256可输出识别为对应于源扩音器设置的特定扩音器的空间向量。举例来说,重构建单元256可输出空间向量72。
图12是说明根据本公开的一或多种技术的向量解码单元207的替代实施方案的框图。在图12的实例中,向量解码单元207的实例实施方案被标记为向量解码单元207B。向量解码单元207包含码本库300和重构建单元304。可使用存储器实施码本库300。码本库300包含一或多个预定义码本302A-302N(统称为“码本302”)。码本302中的每一相应码本包含一或多个项的集合。每一相应项将相应代码向量索引映射到相应空间向量。码本库300可匹配图9的码本库150。
在图12的实例中,重构建单元304获得源扩音器设置信息48。以类似于图9的选择单元154的方式,重构建单元304可使用源扩音器设置信息48识别码本库300中的适用码本。重构建单元304可输出在源扩音器设置信息的扩音器的适用码本中指定的空间向量。
图13是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图,其中所述音频编码装置14被配置成编码基于对象的音频数据。图13中示出的音频编码装置14的实例实施方案被标记为14C。在图13的实例中,音频编码装置14C包含向量编码单元68C、位流产生单元52C和存储器54。
在图13的实例中,向量编码单元68C获得源扩音器设置信息48。另外,向量编码单元58C获得音频对象位置信息350。音频对象位置信息350指定音频对象的虚拟位置。向量编码单元68B使用源扩音器设置信息48和音频对象位置信息350确定音频对象的空间向量表示数据71B。下文详细描述的图14描述向量编码单元68C的实例实施方案。
位流产生单元52C获得音频对象的音频信号50B。位流产生单元52C可在位流56C中包含表示音频信号50C的数据和空间向量表示数据71B。在一些实例中,位流产生单元52C可使用已知音频压缩格式(例如MP3、AAC、Vorbis、FLAC和Opus)编码音频信号50B。在一些情况下,位流产生单元52C可将音频信号50B从一种压缩格式转码成另一压缩格式。在一些实例中,音频编码装置14C可包含例如图3和5的音频编码单元51的音频编码单元,以压缩和/或转码音频信号50B。在图13的实例中,存储器54存储位流56C的至少部分,之后由音频编码装置14C输出。
因此,音频编码装置14C包含存储器,其被配置成存储音频对象在时间间隔内的音频信号(例如,音频信号50B)和指示音频对象的虚拟源位置的数据(例如,音频对象位置信息350)。此外,音频编码装置14C包含电耦合到存储器的一或多个处理器。一或多个处理器被配置成基于指示音频对象的虚拟源位置的数据和指示多个扩音器位置的数据(例如,源扩音器设置信息48)确定HOA域中的音频对象的空间向量。此外,在一些实例中,音频编码装置14C可在位流中包含表示音频信号的数据和表示空间向量的数据。在一些实例中,表示音频信号的数据并非数据在HOA域中的表示。此外,在一些实例中,描述含有在时间间隔期间的音频信号的声场的HOA系数的集合等于或等同于音频信号乘以空间向量的转置。
另外,在一些实例中,空间向量表示数据71B可包含指示源扩音器设置中的扩音器位置的数据。位流产生单元52C可在位流56C中包含表示源扩音器设置的扩音器位置的数据。在其它实例中,位流产生单元52C并不在位流56C中包含指示源扩音器设置的扩音器位置的数据。
图14是说明根据本公开的一或多种技术的用于基于对象的音频数据的向量编码单元68C的实例实施方案的框图。在图14的实例中,向量编码单元68C包含显现格式单元400、中间向量单元402、向量最终单元404、增益确定单元406和量化单元408。
在图14的实例中,显现格式单元400获得源扩音器设置信息48。显现格式单元400基于源扩音器设置信息48确定源显现格式410。显现格式单元400可根据本公开中在别处提供的实例中的一或多个确定源显现格式410。
在图14的实例中,中间向量单元402基于源显现格式410确定中间空间向量412的集合。中间空间向量412的集合中的每一相应中间空间向量对应于源扩音器设置的相应扩音器。举例来说,如果源扩音器设置中存在N个扩音器,那么中间向量单元402确定N个中间空间向量。对于源扩音器设置中的每一扩音器n,在n在1到N的范围内的情况下,扩音器的中间空间向量可等于或等同于Vn=[An(DDT)-1D]T。在此方程式中,D是表示为矩阵的源显现格式且An是由数目等于N的元素的单行组成的矩阵。除了一个元素的值等于1之外,An中的每一元素都等于0。等于1的元素在An内的位置的索引等于n。
此外,在图14的实例中,增益确定单元406获得源扩音器设置信息48和音频对象位置数据49。音频对象位置数据49指定音频对象的虚拟位置。举例来说,音频对象位置数据49可指定音频对象的球面坐标。在图14的实例中,增益确定单元406确定增益因数416的集合。增益因数416的集合中的每一相应增益因数对应于源扩音器设置的相应扩音器。增益确定单元406可使用向量基振幅平移(VBAP)确定增益因数416。VBAP可用于放置具有任意扩音器设置的虚拟音频源,其中假设扩音器距收听位置相同距离。普尔基(Pulkki)的“使用向量基振幅平移的虚拟声音源定位(Virtual Sound Source Positioning Using Vector BaseAmplitude Panning)”(音频工程师协会期刊,第45卷,第6期,1997年6月)提供对VBAP的描述。
图15是说明VBAP的概念图。在VBAP中,应用到三个扬声器输出的音频信号的增益因数会使收听者感到音频信号是来自定位于三个扩音器之间的作用中三角形452内的虚拟源位置450。虚拟源位置450可为音频对象的位置坐标指示的位置。举例来说,在图15的实例中,相比扩音器454B,虚拟源位置450更接近扩音器454A。因此,用于扩音器454A的增益因数可大于用于扩音器454B的增益因数。在较大扩音器数目或两个扩音器的情况下,其它实例是可能的。
VBAP使用几何方法计算增益因数416。在例如图15的实例中,在三个扩音器用于每一音频对象的情况下,将三个扩音器布置成三角形以形成向量基。通过扩音器编号k、m、n和标准化为单位长度的以笛卡尔坐标给出的扩音器位置向量Ik、Im和In来识别每一向量基。可通过下式定义扩音器k、m和n的向量基:
Ik,m,n=(Ik,Im,In) (33)
音频对象的所要方向Ω=(θ,
Figure GDA0002644187620000241
)可给定为方位角
Figure GDA0002644187620000242
和仰角θ。θ、
Figure GDA0002644187620000243
可为音频对象的位置坐标。虚拟源以笛卡尔坐标的单位长度位置向量p(Ω)因此通过下式定义:
Figure GDA0002644187620000251
可用下式的向量基和增益因数
Figure GDA0002644187620000252
表示虚拟源位置
Figure GDA0002644187620000253
通过倒置向量基矩阵,可通过下式计算所需增益因数:
Figure GDA0002644187620000254
根据方程式(36)确定待使用的向量基。首先,针对所有向量基,根据方程式(36)计算增益。随后,针对每一向量基,通过
Figure GDA0002644187620000255
评估增益因数内的最小值。使用其中
Figure GDA0002644187620000256
具有最高值的向量基。一般来说,增益因数不允许为负。取决于收听室声学,可标准化增益因数以保存能量。
在图14的实例中,向量最终单元404获得增益因数416。向量最终单元404基于中间空间向量412和增益因数416产生音频对象的空间向量418。在一些实例中,向量最终单元404使用以下方程式确定空间向量:
Figure GDA0002644187620000257
在以上方程式中,V是空间向量,N是源扩音器设置中的扩音器的数目,gi是扩音器i的增益因数,且Ii是扩音器i的中间空间向量。在其中增益确定单元406使用具有三个扩音器的VBAP的一些实例中,增益因数gi中的仅三个增益因数是非零的。
因此,在向量最终单元404使用方程式(37)确定空间向量418的实例中,空间向量418等于或等同于多个操作数的总和。多个操作数中的每一相应操作数对应于多个扩音器位置中的相应扩音器位置。对于多个扩音器位置中的每一相应扩音器位置,多个扩音器位置向量包含相应扩音器位置的扩音器位置向量。此外,对于多个扩音器位置中的每一相应扩音器位置,对应于相应扩音器位置的操作数等于或等同于相应扩音器位置的增益因数乘以相应扩音器位置的扩音器位置向量。在此实例中,相应扩音器位置的增益因数指示用于相应扩音器位置处的音频信号的相应增益。
因此,在此实例中,空间向量418等于或等同于多个操作数的总和。多个操作数中的每一相应操作数对应于多个扩音器位置中的相应扩音器位置。对于多个扩音器位置中的每一相应扩音器位置,多个扩音器位置向量包含相应扩音器位置的扩音器位置向量。此外,对应于相应扩音器位置的操作数等于或等同于相应扩音器位置的增益因数乘以相应扩音器位置的扩音器位置向量。在此实例中,相应扩音器位置的增益因数指示用于相应扩音器位置处的音频信号的相应增益。
概括来说,在一些实例中,视频编码单元68C的显现格式单元400可确定用于将HOA系数的集合显现成源扩音器位置处的扩音器的扩音器馈给的显现格式。另外,向量最终单元404可确定多个扩音器位置向量。所述多个扩音器位置向量的每一相应扩音器位置向量可对应于所述多个扩音器位置的相应扩音器位置。为确定多个扩音器位置向量,对于多个扩音器位置中的每一相应扩音器位置,增益确定单元406可基于音频对象的位置坐标确定相应扩音器位置的增益因数。相应扩音器位置的增益因数可指示相应扩音器位置处音频信号的相应增益。另外,对于基于音频对象的位置坐标确定的多个扩音器位置中的每一相应扩音器位置,中间向量单元402可基于显现格式确定对应于相应扩音器位置的扩音器位置向量。向量最终单元404可确定空间向量为多个操作数的总和,所述多个操作数中的每一相应操作数对应于多个扩音器位置中的相应扩音器位置。对于多个扩音器位置中的每一相应扩音器位置,对应于相应扩音器位置的操作数等于或等同于相应扩音器位置的增益因数乘以对应于相应扩音器位置的扩音器位置向量。
量化单元408量化音频对象的空间向量。举例来说,量化单元408可根据本公开中在别处描述的向量量化技术量化空间向量。举例来说,量化单元408可使用标量量化、标量量化与霍夫曼译码或关于图17描述的向量量化技术来量化空间向量418。因此,包含在位流70C中的表示空间向量的数据是经量化空间向量。
如上文所论述,空间向量418可等于或等同于多个操作数的总和。出于本公开的目的,第一元素在以下条件中的任一个为真的情况下可被视为等于第二元素:(1)第一元素的值在数学上等于第二元素的值,(2)第一元素的值当四舍五入时(例如,由于位深度、寄存器限制、浮点表示、固定点表示、经二进制译码十进制表示等)与第二元素的值当四舍五入时(例如,由于位深度、寄存器限制、浮点表示、固定点表示、经二进制译码十进制表示等)相同,或(3)第一元素的值相同于第二元素的值。
图16是说明根据本公开的一或多种技术的音频解码装置22的实例实施方案的框图,其中所述音频解码装置22被配置成解码基于对象的音频数据。图16中示出的音频解码装置22的实例实施方案被标记为22C。在图16的实例中,音频解码装置22C包含存储器200、多路分用单元202C、音频解码单元66、向量解码单元209、HOA产生单元208B和显现单元210。一般来说,存储器200、多路分用单元202C、音频解码单元66、HOA产生单元208B和显现单元210可以类似于关于图10的实例的存储器200、多路分用单元202B、音频解码单元204、HOA产生单元208A和显现单元210所描述的方式操作。在其它实例中,关于图14所描述的音频解码装置22的实施方案可包含更多、更少或不同的单元。举例来说,显现单元210可实施于例如扩音器、头戴式耳机单元或音频基座或卫星装置的单独装置中。
在图16的实例中,音频解码装置22C获得位流56C。位流56C可包含音频对象的基于对象的经编码音频信号和表示音频对象的空间向量的数据。在图16的实例中,基于对象的音频信号并非基于HOA域中的数据,并非从所述数据导出或并非表示所述数据。然而,音频对象的空间向量处在HOA域中。在图16的实例中,存储器200被配置成存储位流56C的至少部分,且因此被配置成存储表示音频对象的音频信号的数据和表示音频对象的空间向量的数据。
多路分用单元202C可从位流56C获得空间向量表示数据71B。空间向量表示数据71B包含表示每一音频对象的空间向量的数据。因此,多路分用单元202C可从位流56C获得表示音频对象的音频信号的数据,且可从位流56C获得表示音频对象的空间向量的数据。在例如表示空间向量的数据被量化的实例中,向量解码单元209可反量化空间向量以确定音频对象的空间向量72。
HOA产生单元208B接着可以关于图10所描述的方式使用空间向量72。举例来说,HOA产生单元208B可基于空间向量72和音频信号70产生HOA声场,例如HOA系数212B。
因此,音频解码装置22B包含被配置成存储位流的存储器58。另外,音频解码装置22B包含电耦合到存储器的一或多个处理器。一或多个处理器被配置成基于位流中的数据确定音频对象的音频信号,所述音频信号对应于时间间隔。此外,一或多个处理器被配置成基于位流中的数据确定音频对象的空间向量。在此实例中,空间向量被定义于HOA域中。此外,在一些实例中,一或多个处理器将音频对象的音频信号和空间向量转换成描述在时间间隔期间的声场的HOA系数212B的集合。如本公开中在别处所描述,HOA产生单元208B可确定HOA系数的集合,使得HOA系数的集合等于音频信号乘以空间向量的转置。
在图16的实例中,显现单元210可以类似于图10的显现单元210的方式操作。举例来说,显现单元210可通过将显现格式(例如,局部显现矩阵)应用到HOA系数212B,产生多个音频信号26。多个音频信号26中的每一相应音频信号可对应于多个扩音器中的相应扩音器,例如图1的扩音器24。
在一些实例中,显现单元210B可基于指示局部扩音器设置的位置的信息28调适局部显现格式。显现单元210B可以下文关于图19描述的方式调适局部显现格式。
图17是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图,其中所述音频编码装置14被配置成量化空间向量。图17中示出的音频编码装置14的实例实施方案被标记为14D。在图17的实例中,音频编码装置14D包含向量编码单元68D、量化单元500、位流产生单元52D和存储器54。
在图17的实例中,向量编码单元68D可以类似于上文关于图5和/或图13所描述的方式操作。举例来说,如果音频编码装置14D正编码基于通道的音频,那么向量编码单元68D可获得源扩音器设置信息48。向量编码单元68可基于由源扩音器设置信息48指定的扩音器位置确定空间向量的集合。如果音频编码装置14D正编码基于对象的音频,那么除了源扩音器设置信息48之外,向量编码单元68D还可获得音频对象位置信息350。音频对象位置信息49可指定音频对象的虚拟源位置。在此实例中,空间向量单元68D可以与图13的实例中示出的向量编码单元68C确定音频对象的空间向量的方式相同的方式确定音频对象的空间向量。在一些实例中,空间向量单元68D被配置成确定基于通道的音频和基于对象的音频两者的空间向量。在其它实例中,向量编码单元68D被配置成确定基于通道的音频或基于对象的音频中的仅一个的空间向量。
音频编码装置14D的量化单元500量化由向量编码单元68C所确定的空间向量。量化单元500可使用各种量化技术来量化空间向量。量化单元500可被配置成仅执行单一种量化技术或可被配置成执行多种量化技术。在量化单元500被配置成执行多种量化技术的实例中,量化单元500可接收指示使用哪种量化技术的数据或可在内部确定应用哪种量化技术。
在一种实例量化技术中,可由向量编码单元68D针对通道或对象i产生的空间向量被表示为Vi。在此实例中,量化单元500可计算中间空间向量
Figure GDA0002644187620000281
使得
Figure GDA0002644187620000282
等于Vi/‖Vi‖,其中‖Vi‖可为量化步长大小。此外,在此实例中,量化单元500可量化中间空间向量
Figure GDA0002644187620000283
中间空间向量的经量化版本
Figure GDA0002644187620000284
可标示为
Figure GDA0002644187620000285
另外,量化单元500可量化‖Vi‖,‖Vi‖的经量化版本可标示为
Figure GDA0002644187620000286
量化单元500可输出
Figure GDA0002644187620000287
Figure GDA0002644187620000288
以包含于位流56D中。因此,量化单元500可输出音频信号50D的经量化向量数据的集合。音频信号50C的经量化向量数据的集合可包含
Figure GDA0002644187620000289
Figure GDA00026441876200002810
量化单元500可以各种方式量化中间空间向量
Figure GDA00026441876200002811
在一个实例中,量化单元500可将标量量化(SQ)应用于中间空间向量
Figure GDA0002644187620000291
在另一实例量化技术中,量化单元200可将标量量化与霍夫曼译码应用于中间空间向量
Figure GDA0002644187620000292
在另一实例量化技术中,量化单元200可将向量量化应用于中间空间向量
Figure GDA0002644187620000293
在量化单元200应用标量量化技术、标量量化加霍夫曼译码技术或向量量化技术的实例中,音频解码装置22可反量化经量化空间向量。
在概念上,在标量量化中,将数线划分成多个带,每一带对应于不同标量值。当量化单元500将标量量化应用于中间空间向量时
Figure GDA0002644187620000294
量化单元500将中间空间向量
Figure GDA0002644187620000295
的每一相应元素替换为对应于含有相应元素指定的值的带的标量值。为便于解释,本公开可将对应于含有空间向量的元素指定的值的带的标量值称为“经量化值”。在此实例中,量化单元500可输出包含经量化值的经量化空间向量
Figure GDA0002644187620000296
标量量化加霍夫曼译码技术可类似于标量量化技术。然而,量化单元500另外确定用于经量化值中的每一个的霍夫曼码。量化单元500用对应霍夫曼码替换空间向量的经量化值。因此,经量化空间向量
Figure GDA00026441876200002910
的每一元素指定霍夫曼码。霍夫曼译码允许元素中的每一个被表示为可变长度值而非固定长度值,这可增强数据压缩。音频解码装置22D可通过确定对应于霍夫曼码的经量化值并将经量化值复原到其原始位深度,确定空间向量的经反量化版本。
在其中量化单元500将向量量化应用于中间空间向量
Figure GDA0002644187620000297
的至少一些实例中,量化单元500可将中间空间向量
Figure GDA0002644187620000298
变换为较低维度的离散子空间中的值的集合。为便于解释,本公开可将较低维度的离散子空间的维度称为“减小的维度集”,并将空间向量的原始维度称为“全维度集”。举例来说,全维度集可由二十二个维度组成,且减小的维度集可由八个维度组成。因此,在此实例中,量化单元500将中间空间向量
Figure GDA0002644187620000299
从二十二个值的集合变换成八个值的集合。此变换可呈从空间向量的较高维度空间投影到较低维度的子空间的形式。
在量化单元500应用向量量化的至少一些实例中,量化单元500配置有包含项集合的码本。码本可为预定义或动态确定的。码本可为基于空间向量的统计分析。码本中的每一项指示较低维度子空间中的点。在将空间向量从全维度集变换到减小的维度集之后,量化单元500可确定对应于经变换空间向量的码本项。在码本中的码本项当中,对应于经变换空间向量的码本项指定最接近于经变换空间向量所指定的点的点。在一个实例中,量化单元500输出由所识别码本项指定为经量化空间向量的向量。在另一实例中,量化单元200输出呈代码向量索引形式的经量化空间向量,所述索引指定对应于经变换空间向量的码本项的索引。举例来说,如果对应于经变换空间向量的码本项是码本中的第8项,那么代码向量索引可等于8。在此实例中,音频解码装置22可通过查找码本中的对应项来反量化代码向量索引。音频解码装置22D可通过假设空间向量的在全维度集但不在减小的维度集中的分量等于零,确定空间向量的经反量化版本。
在图17的实例中,音频编码装置14D的位流产生单元52D从量化单元200获得经量化空间向量204,获得音频信号50C,并输出位流56D。在音频编码装置14D正编码基于通道的音频的实例中,位流产生单元52D可获得音频信号和每一相应通道的经量化空间向量。在音频编码装置14正编码基于对象的音频的实例中,位流产生单元52D可获得音频信号和每一相应音频对象的经量化空间向量。在一些实例中,位流产生单元52D可编码音频信号50C以用于较大数据压缩。举例来说,位流产生单元52D可使用已知音频压缩格式(例如MP3、AAC、Vorbis、FLAC和Opus)编码音频信号50C中的每一个。在一些情况下,位流产生单元52C可将音频信号50C从一种压缩格式转码成另一压缩格式。位流产生单元52D可在位流56C中包含经量化空间向量和经编码音频信号伴有的元数据。
因此,音频编码装置14D可包含一或多个处理器,其被配置成:接收源扩音器配置的多通道音频信号(例如,扩音器位置信息48的多通道音频信号50);基于所述源扩音器配置,获得高阶立体混响(HOA)域中的多个空间定位向量,其结合多通道音频信号来表示高阶立体混响(HOA)系数的集合,所述系数表示多通道音频信号;和在经译码音频位流(例如,位流56D)中编码多通道音频信号(例如,音频信号50C)的表示和多个空间定位向量的指示(例如,经量化向量数据554)。此外,音频编码装置14A可包含电耦合到一或多个处理器的存储器(例如,存储器54),其被配置成存储经译码音频位流。
图18是说明根据本公开的一或多种技术的用于与图17中示出的音频编码装置14的实例实施方案一起使用的音频解码装置22的实例实施方案的框图。图18中所示的音频解码装置22的实施方案标记为音频解码装置22D。类似于关于图10所描述的音频解码装置22的实施方案,图18中的音频解码装置22的实施方案包含存储器200、多路分用单元202D、音频解码单元204、HOA产生单元208C和显现单元210。
与关于图10所描述的音频解码装置22的实施方案相比,关于图18所描述的音频解码装置22的实施方案可包含反量化单元550而非向量解码单元207。在其它实例中,音频解码装置22D可包含更多、更少或不同的单元。举例来说,显现单元210可实施于例如扩音器、头戴式耳机单元或音频基座或卫星装置的单独装置中。
存储器200、多路分用单元202D、音频解码单元204、HOA产生单元208C和显现单元210可以与如本公开中在别处关于图10的实例所描述的相同方式操作。然而,多路分用单元202D可从位流56D获得经量化向量数据554的集合。经量化向量数据的每一相应集合对应于音频信号70中的相应一个。在图18的实例中,经量化向量数据554的集合被表示为V'1到V'N。反量化单元550可使用经量化向量数据554的集合来确定经反量化空间向量72。反量化单元550可将经反量化空间向量72提供到音频解码装置22D的一或多个组件,例如HOA产生单元208C。
反量化单元550可以不同方式使用经量化向量数据554的集合来确定经反量化向量。在一个实例中,经量化向量数据的每一集合包含音频信号
Figure GDA0002644187620000311
的经量化空间向量
Figure GDA0002644187620000312
和经量化的量化步长大小
Figure GDA0002644187620000313
在此实例中,反量化单元550可基于经量化空间向量
Figure GDA0002644187620000314
和经量化的量化步长大小
Figure GDA0002644187620000315
确定经反量化空间向量
Figure GDA0002644187620000316
举例来说,反量化单元550可确定经反量化空间向量
Figure GDA0002644187620000317
使得
Figure GDA0002644187620000318
基于经反量化空间向量
Figure GDA0002644187620000319
和音频信号
Figure GDA00026441876200003110
HOA产生单元208C可将HOA域表示确定为
Figure GDA00026441876200003111
如在本公开中其它处所描述,显现单元210可获得局部显现格式
Figure GDA00026441876200003112
另外,扩音器馈给80可标示为
Figure GDA00026441876200003113
显现单元210C可产生扩音器馈给26为
Figure GDA00026441876200003114
因此,音频解码装置22D可包含被配置成存储经译码音频位流(例如,位流56D)的存储器(例如,存储器200)。音频解码装置22D可另外包含一或多个处理器,其电耦合到存储器并且被配置成:从经译码音频位流获得源扩音器配置的多通道音频信号(例如,扩音器位置信息48的经译码音频信号62)的表示;获得高阶立体混响(HOA)域中的基于源扩音器配置的多个空间定位向量(SPV)(例如,空间定位向量72)的表示;和基于多通道音频信号和多个空间定位向量产生HOA声场(例如,HOA系数212C)。
图19是说明根据本公开的一或多种技术的显现单元210的实例实施方案的框图。如图19中所说明,显现单元210可包含收听者位置单元610、扩音器位置单元612、显现格式单元614、存储器615和扩音器馈给产生单元616。
收听者位置单元610可被配置成确定多个扩音器(例如图1的扩音器24)的收听者的位置。在一些实例中,收听者位置单元610可定期(例如,每1秒、5秒、10秒、30秒、1分钟、5分钟、10分钟等)确定收听者的位置。在一些实例中,收听者位置单元610可基于由收听者定位的装置产生的信号确定收听者的位置。可由收听者位置单元610使用以确定收听者位置的装置的一些实例包含(但不限于)移动计算装置、视频游戏控制器、远程控制或任何其它可指示收听者位置的装置。在一些实例中,收听者位置单元610可基于一或多个传感器确定收听者的位置。可由收听者位置单元610使用以确定收听者位置的传感器的一些实例包含(但不限于)相机、麦克风、压力传感器(例如,嵌入于或附接到家具、车辆座位)、座位安全带传感器或任何其它可指示收听者位置的传感器。收听者位置单元610可将收听者位置的指示618提供到显现单元210的一或多个其它组件,例如显现格式单元614。
扩音器位置单元612可被配置成获得多个局部扩音器(例如图1的扩音器24)的位置的表示。在一些实例中,扩音器位置单元612可基于局部扩音器设置信息28确定多个局部扩音器的位置的表示。扩音器位置单元612可从多种源获得局部扩音器设置信息28。作为一个实例,用户/收听者可经由音频解码单元22的用户接口手动地键入局部扩音器设置信息28。作为另一实例,扩音器位置单元612可致使多个局部扩音器发出各种音调,并利用麦克风基于所述音调确定局部扩音器设置信息28。作为另一实例,扩音器位置单元612可从一或多个相机接收图像,并执行图像辨识来基于所述图像确定局部扩音器设置信息28。扩音器位置单元612可将多个局部扩音器的位置的表示620提供到显现单元210的一或多个其它组件,例如显现格式单元614。作为另一实例,可将局部扩音器设置信息28预编程(例如,在工厂)到音频解码单元22。举例来说,在扩音器24集成到车辆中的情况下,可由车辆的制造商和/或扩音器24的安装者将局部扩音器设置信息28预编程到音频解码单元22中。
显现格式单元614可被配置成基于多个局部扩音器的位置的表示(例如,局部再现布局)和多个局部扩音器的收听者的位置产生本地显现格式622。在一些实例中,显现格式单元614可产生局部显现格式622,使得当HOA系数212被显现成扩音器馈给且通过多个局部扩音器进行重放时,声学“最有效点”位于收听者的位置处或附近。在一些实例中,为产生局部显现格式622,显现格式单元614可产生局部显现矩阵
Figure GDA0002644187620000321
显现格式单元614可将局部显现格式622提供到显现单元210的一或多个其它组件,例如扩音器馈给产生单元616和/或存储器615。
存储器615可被配置成存储局部显现格式,例如局部显现格式622。在局部显现格式622包括局部显现矩阵
Figure GDA0002644187620000322
的情况下,存储器615可被配置成存储局部显现格式
Figure GDA0002644187620000323
扩音器馈给产生单元616可被配置成将HOA系数显现成各自对应于多个局部扩音器中的相应局部扩音器的多个输出音频信号。在图19的实例中,扩音器馈给产生单元616可基于局部显现格式622显现HOA系数,使得当通过多个局部扩音器重放所得扩音器馈给26时,声学“最有效点”位于如由收听者位置单元610所确定的收听者位置处或附近。在一些实例中,扩音器馈给产生单元616可根据方程式(35)产生扩音器馈给26,其中
Figure GDA0002644187620000324
表示扩音器馈给26,H是HOA系数212,且
Figure GDA0002644187620000325
是局部显现矩阵的转置。
Figure GDA0002644187620000326
图20是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图。图20中所示的音频编码装置14的实例实施方案标记为音频编码装置14E。音频编码装置14E包含一或多个HOA产生单元208E1和208E2(统称为“HOA产生单元208E”)、求和器700、减法器702、元素选择单元704、音频编码单元51、音频解码单元204、向量编码单元68、HOA编码单元708、位流产生单元52E和存储器54。在其它实例中,音频编码装置14E可包含更多、更少或不同的单元。举例来说,音频编码装置14E可不包含音频编码单元51,或音频编码单元51可实施于单独装置中,所述单独装置可经由一或多个有线或无线连接连接到音频编码装置14E。
一般来说,音频编码装置14E可被配置成将输入音频信号710的表示编码到经译码音频位流56E中。在图20的实例中,输入音频信号710可包含一或多个元件E1-EN。在一些实例中,输入音频信号710可为多通道音频信号,且一或多个元素E1-EN可各自表示多通道音频信号的通道。在一些实例中,输入音频信号710可包含一或多个音频对象,且一或多个元素E1-EN可各自表示一或多个音频对象的音频对象。在一些实例中,输入音频信号710可为第一输入音频信号,且音频编码装置14E可被配置成获得HOA域中的第二输入音频信号,例如HOA声场717,并且将第二输入音频信号的表示与第一音频信号的表示组合编码于经译码音频位流56E中。在一些实例中,HOA声场717可包含多个HOA系数。
在一些实例中,音频编码装置14E可获得输入音频信号710的每一元素的空间定位向量712的相应空间定位向量。举例来说,空间定位向量712的空间定位向量V1可对应于输入音频信号710的元素E1,空间定位向量712的空间定位向量V2可对应于输入音频信号710的元素E2,……,且空间定位向量712的空间定位向量VN可对应于输入音频信号710的元素EN
在一些实例中,音频编码装置14E可根据上文所论述的技术获得空间定位向量712。作为一个实例,在输入音频信号710是多通道音频信号的情况下,音频编码装置14E可基于输入音频信号710的源扩音器设置信息获得空间定位向量712。举例来说,音频编码装置14E可获得空间定位向量712使得空间定位向量712符合以上方程式(15)和(16)。作为另一实例,在输入音频信号710包含一或多个音频对象的情况下,音频编码装置14E可基于输入音频信号710的音频对象位置信息获得空间定位向量712。举例来说,音频编码装置14E可获得空间定位向量712使得空间定位向量712的每一空间定位向量满足以上方程式(37)。
音频编码装置14E可包含一或多个HOA产生单元208E。如图20中所示出,音频编码装置14E可包含HOA产生单元208E1,其可被配置成基于输入音频信号710和空间定位向量712产生HOA声场714(即,表示包括多个元素的输入音频信号的第一HOA声场)。举例来说,HOA产生单元208E1可根据以上方程式(20)基于输入音频信号710和空间定位向量712产生HOA声场714。在一些实例中,HOA声场714可包含多个HOA系数。HOA产生单元208E1可将HOA声场714输出到音频编码装置14E的一或多个其它组件,例如求和器700和/或元素选择单元704。
求和器700可被配置成组合一或多个HOA声场以产生输出HOA声场。举例来说,求和器700可被配置成将HOA声场717与HOA声场714组合以产生HOA声场716。在一些实例中,求和器700可通过将声场717和HOA声场714的系数加在一起产生HOA声场716。求和器700可将HOA声场716到输出音频编码装置14E的一或多个其它组件,例如元素选择单元704和减法器702。
在一些实例中,可能需要将输入音频信号的每个元素编码于非HOA域中。然而,在一些实例中,将一些元素编码于非HOA域中可导致与将那些元素编码于HOA域中相比较大的位流(即,因为可能需要较大位数来表示元素)。
根据本公开的一或多种技术且与可将输入音频信号的每个元素编码于其原始非HOA域中的图3的音频编码装置14A、图5的音频编码装置14B、图13的音频编码装置14C、图17的音频编码装置14D相比,音频编码装置14E包含可从输入音频信号710选择用于在非HOA域中编码的元素的第一集合的元素选择单元704。作为一个实例,元素选择单元704可分析输入音频信号710的元素的相应能级并选择具有大于用于在非HOA域中编码的阈值能级的相应能级的元素。作为另一实例,元素选择单元704可分析输入音频信号710的元素的相应能级并选择具有用于在非HOA域中编码的最高相应能级的一定数量的元素。举例来说,元素选择单元704可选择输入音频信号710的具有用于在非HOA域中编码的五个最高相应能级的元素。元素选择单元704可将输入音频信号710的所选择的元素的指示输出到音频编码单元14E的一或多个其它组件,例如音频编码单元51和/或HOA产生单元208E2。在一些实例中,元素选择单元704可以被称作基于存量的空间编码器。
音频编码单元51可将元素选择单元704指示的元素的集合编码于非HOA域中。举例来说,在图20的实例中,在元素选择单元704指示输入音频信号710的元素E1、E4和E5(统称为“所选择的元素718”)的情况下,音频编码单元51可量化、格式化或以其它方式压缩所选择的元素718以产生可处于非HOA域中的经编码元素720。在一些实例中,音频编码单元51可被称为音频编解码器。
在一些实例中,除了将所选择的元素718编码于非HOA域中之外,音频编码装置14E可编码对应于所选择的元素718的空间定位向量722的表示。举例来说,在图20的实例中,音频编码装置14E可包含向量编码单元68,其可量化、格式化或以其它方式压缩空间定位向量V1、V4和V5以产生经编码空间定位向量724。向量编码单元68可将经编码元素720和经编码空间定位向量724输出到音频编码装置14E的一或多个其它组件,例如位流产生单元52E。作为另一实例,在输入音频信号710是多通道音频信号的情况下,音频编码单元51可将输入音频信号710的扩音器位置信息48输出到音频编码装置14E的一或多个其它组件,例如位流产生单元52E。作为另一实例,在输入音频信号710包含多个音频对象的情况下,音频编码单元51可将多个音频对象的音频对象位置信息350输出到音频编码装置14E的一或多个其它组件,例如位流产生单元52E。
HOA产生单元208E2可被配置成基于输入音频信号710的所选择的元素718和空间定位向量712中的对应于所选择的元素718的空间定位向量722产生HOA声场726(即,表示元素的所选择集合的第二HOA声场)。举例来说,HOA产生单元208E2可根据以上方程式(20)基于输入音频信号710和空间定位向量712产生HOA声场726。在一些实例中,HOA声场726可包含多个HOA系数。HOA产生单元208E2可将HOA声场726输出到音频编码装置14E的一或多个其它组件,例如减法器702。
减法器702可被配置成产生表示两个或更多个HOA声场之间的差的输出HOA声场。举例来说,减法器702可被配置成产生表示HOA声场716与HOA声场726之间的差的HOA声场728(即,第三HOA声场)。在一些实例中,减法器702可通过从HOA声场716的系数减去声场726的系数产生HOA声场728。减法器702可将HOA声场728输出到音频编码装置14E的一或多个其它组件,例如HOA编码单元708。
HOA编码单元708可被配置成编码HOA声场。在一些实例中,HOA编码单元708可量化、格式化或以其它方式压缩HOA声场728以产生可处于HOA域中的经编码HOA声场730。在一些实例中,为产生经编码HOA声场730,HOA编码单元708可将HOA声场728分离成前景声场(例如,如下文所论述的一或多个nFG信号)、背景声场(例如,如下文所论述的一或多个环境HOA系数),以及指示前景声场的位置和形状信息的一或多个向量(例如,如下文所论述的一或多个V[k]向量)。在一些实例中,HOA编码单元708可以被称作音频编解码器。下文参考图X描述HOA编码单元708的一个实例的另外细节。HOA编码单元708可将经编码HOA声场730输出到音频编码装置14E的一或多个其它组件,例如位流产生单元52E。
位流产生单元52E可被配置成基于一或多个输入产生位流。在图20的实例中,位流产生单元52E可被配置成将经编码元素720、经编码空间定位向量724和经编码HOA声场730编码到位流56E中。位流产生单元52E可将经译码音频位流56E输出到音频编码装置14E的一或多个其它组件,例如存储器54。
如上文所论述,在一些实例中,音频编码装置14E可将经编码音频数据(即,位流56E)直接传输到音频解码装置。在其它实例中,音频编码装置14E可将经编码音频数据(即,位流56E)存储到存储媒体一文件服务器上以供稍后由音频解码装置存取以进行解码和/或重放。在图20的实例中,存储器54可在由音频编码装置14E输出之前存储位流56E的至少一部分。换句话说,存储器54可存储所有位流56E或位流56E的一部分。
图21是说明根据本公开的一或多种技术的音频解码装置22的实例实施方案的框图。图21中示出的音频解码装置22的实例实施方案标记为音频解码装置22E。图10中的音频解码装置22的实施方案包含存储器200、多路分用单元202E、音频解码单元204、向量解码单元207、HOA解码单元802、HOA产生单元208E、求和器806和显现单元210。在其它实例中,音频解码装置22E可包含更多、更少或不同单元。作为一个实例,显现单元210可实施于例如扩音器、头戴式耳机单元或音频基座或卫星装置的单独装置中,且可经由一或多个有线或无线连接连接到音频解码装置22E。作为另一实例,除了向量解码单元207之外或替代地,音频解码装置22E可包含向量创建单元,例如图4的向量创建单元206。
与可接收非HOA域中的音频信号的图4的音频解码装置22A、图10的音频解码装置22B、图16的音频解码装置22C和图18的音频解码装置22D相比,音频解码装置22E可接收HOA域中的音频信号和非HOA域中的音频信号。在一些实例中,HOA域中的音频信号和非HOA域中的音频信号可为单一音频信号的部分。举例来说,非HOA域中的音频信号可表示特定音频信号的元素的第一集合,且HOA域中的音频信号可表示特定音频信号的元素的第二集合。在一些实例中,HOA域中的音频信号和非HOA域中的音频信号可为不同音频信号。
存储器200可获得经编码音频数据,例如位流56E。在一些实例中,存储器200可直接从音频编码装置接收经编码音频数据(即,位流56E)。在其它实例中,可存储经编码音频数据,且存储器200可从存储媒体或文件服务器获得经编码音频数据(即,位流56E)。存储器200可向音频解码装置22E的例如多路分用单元202E的一或多个组件提供对位流56E的存取。
多路分用单元202E可将位流56E多路分用以获得经编码元素720、经编码空间定位向量724和经编码HOA声场730。多路分用单元202E可将所获得数据提供到音频解码装置22E的一或多个组件。举例来说,多路分用单元202E可将经编码元素720、经编码空间定位向量724提供到音频解码单元204,并将经编码HOA声场730提供到HOA解码单元802。
音频解码单元204可被配置成将经编码元素720解码成经重构建元素718'。举例来说,音频解码单元204可解量化、解格式化或以其它方式解压缩经编码元素720成经重构建元素718'。音频解码单元204可将经重构建元素718'输出到音频解码装置22E的一或多个其它组件,例如HOA产生单元208E。
向量解码单元207可被配置成将经编码空间定位向量724解码成经重构建空间定位向量722'。举例来说,向量解码单元207可解量化、解格式化或以其它方式解压缩经编码空间定位向量724以产生经重构建空间定位向量722'。向量解码单元207可将经重构建空间定位向量722'输出到音频解码装置22E的一或多个其它组件,例如HOA产生单元208E。
HOA产生单元208E可被配置成基于经重构建元素718'和经重构建空间定位向量722'产生HOA声场804。举例来说,HOA产生单元208E可根据以上方程式(20)基于经重构建元素718'和经重构建空间定位向量722'产生HOA声场804。在一些实例中,HOA声场804可包含多个HOA系数。HOA产生单元208E可将HOA声场804输出到音频解码装置22E的一或多个其它组件,例如求和器806。
HOA解码单元802可被配置成解码HOA声场。在一些实例中,HOA解码单元802可解量化、解格式化或以其它方式解压缩经编码HOA声场730以产生可处于HOA域中的经重构建HOA声场808。在一些实例中,HOA解码单元802可以被称作音频编解码器。下文参考图X描述HOA解码单元802的一个实例的另外细节。HOA编码单元802可将经重构建HOA声场808输出到音频解码装置22E的一或多个其它组件,例如求和器806。
求和器806可被配置成组合一或多个HOA声场以产生输出HOA声场。举例来说,求和器806可被配置成将HOA声场804与经重构建HOA声场808组合以产生HOA声场810。在一些实例中,求和器806可通过将HOA声场804和经重构建HOA声场808的系数加在一起产生HOA声场810。求和器806可将HOA声场810输出到音频解码装置22E的一或多个其它组件,例如显现单元210。
显现单元210可被配置成显现HOA声场以产生多个音频信号。在一些实例中,显现单元210可显现HOA声场810以产生音频信号26E以供在多个局部扩音器(例如图1的扩音器24)处重放。在多个局部扩音器包含L个扩音器的情况下,音频信号26E可包含分别预期通过扩音器1到L重放的通道C1到CL
显现单元210可基于局部扩音器设置信息28产生音频信号26E,所述局部扩音器设置信息可表示多个局部扩音器的位置。在一些实例中,局部扩音器设置信息28可呈局部显现格式
Figure GDA0002644187620000381
的形式。在一些实例中,局部显现格式
Figure GDA0002644187620000382
可为局部显现矩阵。在一些实例中,例如在局部扩音器设置信息28呈局部扩音器中的每一个的方位角和仰角的形式的情况下,显现单元210可基于局部扩音器设置信息28确定局部显现格式
Figure GDA0002644187620000383
在一些实例中,显现单元210可根据以上方程式(29)基于局部扩音器设置信息28产生音频信号26E,其中
Figure GDA0002644187620000384
表示音频信号26E,H表示HOA声场810,且
Figure GDA0002644187620000385
表示局部显现格式
Figure GDA0002644187620000386
的转置。
在一些实例中,局部显现格式
Figure GDA0002644187620000387
可不同于用于确定空间定位向量722'的源显现格式D。作为一个实例,多个局部扩音器的位置可不同于多个源扩音器的位置。作为另一实例,所述多个局部扩音器中的扩音器数目可不同于所述多个源扩音器中的扩音器数目。作为另一实例,所述多个局部扩音器的位置可不同于所述多个源扩音器的位置,且同时所述多个局部扩音器中的扩音器数目可不同于所述多个源扩音器中的扩音器数目。
在一些实例中,例如在音频解码单元204执行的译码过程为无损的情况下,HOA声场810可近似等于图20的HOA声场716。举例来说,在音频解码单元204执行的译码过程为无损的情况下,经重构建元素718'可近似等于图20的元素718,这可致使HOA声场804近似等于图20的HOA声场726。然而,在一些实例中,例如在音频解码单元204执行的译码过程为无损的情况下,HOA声场810可不同于图20的HOA声场716。举例来说,在音频解码单元204执行的译码过程为有损的情况下,经重构建元素718'可不同于图20的元素718,这可致使HOA声场804不同于图20的HOA声场726。一般来说,可能需要音频解码装置尽可能准确地再现音频信号。
根据本公开的一或多种技术,音频编码装置可通过实施考虑译码损失的闭环编码技术改进音频信号的音频解码装置的再现的准确度。下文参考图22描述此类音频编码装置的实例。
图22是说明根据本公开的一或多种技术的音频编码装置14的实例实施方案的框图。图20中示出的音频编码装置14的实例实施方案标记为音频编码装置14F。音频编码装置14F包含HOA产生单元208E1、HOA产生单元208F、求和器700、减法器702、元素选择单元704、音频编码单元51、向量编码单元68、音频解码单元204、向量解码单元207、HOA编码单元708、位流产生单元52F和存储器54。在其它实例中,音频编码装置14F可包含更多、更少或不同单元。举例来说,音频编码装置14F可不包含音频编码单元51或音频编码单元51可实施于经由一或多个有线或无线连接连接到音频编码装置14E的单独装置中。
根据本公开的一或多种技术且与可确定HOA声场716的剩余部分编码于HOA域中而不考虑译码影响(例如,损失、失真等)的图20的音频编码装置14E相比,音频编码装置14F包含可使得音频解码装置14F能够确定HOA声场716的剩余部分编码于HOA域中同时考虑译码影响(例如,损失、失真等)的音频解码单元204。音频解码单元204可被配置成将经编码元素720解码成经重构建元素718'。举例来说,音频解码单元204可解量化、解格式化或以其它方式解压缩经编码元素720成经重构建元素718'。音频解码单元204可将经重构建元素718'输出到音频编码装置14F的一或多个其它组件,例如HOA产生单元208F。以此方式,音频编码装置14F可执行综合分析。
向量解码单元207可被配置成将经编码空间定位向量724解码成经重构建空间定位向量722'。举例来说,向量解码单元207可解量化、解格式化或以其它方式解压缩经编码空间定位向量724以产生经重构建空间定位向量722'。向量解码单元207可将经重构建空间定位向量722'输出到音频编码装置14F的一或多个其它组件,例如HOA产生单元208F。
HOA产生单元208F可被配置成基于经重构建元素718'和经重构建空间定位向量722'产生HOA声场820(即,表示元素的所选择的集合的第二HOA声场)。举例来说,HOA产生单元208F可根据以上方程式(20)基于经重构建元素718'和经重构建空间定位向量722'产生HOA声场820。在一些实例中,HOA声场820可包含多个HOA系数。HOA产生单元208F可将HOA声场804输出到音频编码装置14F的一或多个其它组件,例如减法器702。
减法器702可被配置成产生表示两个或更多个HOA声场之间的差的输出HOA声场。举例来说,减法器702可被配置成产生表示HOA声场716与HOA声场820之间的差的HOA声场728(即,第三HOA声场)。在一些实例中,减法器702可通过从HOA声场716的系数减去声场820的系数产生HOA声场728。在一些实例中,由于声场820的系数可包含归因于正被编码和解码的经重构建元素718'和经重构建空间定位向量722'引起的一或多个误差,因此产生表示HOA声场716与HOA声场820之间的差的HOA声场728可包括执行综合分析。减法器702可将HOA声场728输出到音频编码装置14F的一或多个其它组件,例如HOA编码单元708。
HOA编码单元708可被配置成编码HOA声场。在一些实例中,HOA编码单元708可量化、格式化或以其它方式压缩HOA声场728以产生可处于HOA域中的经编码HOA声场730。在一些实例中,为产生经编码HOA声场730,HOA编码单元708可将HOA声场728分离成前景声场(例如,如下文所论述的一或多个nFG信号)、背景声场(例如,如下文所论述的一或多个环境HOA系数),以及指示前景声场的位置和形状信息的一或多个向量(例如,如下文所论述的一或多个V[k]向量)。在一些实例中,HOA编码单元708可以被称作音频编解码器。下文参考图X描述HOA编码单元708的一个实例的另外细节。HOA编码单元708可将经编码HOA声场730输出到音频编码装置14F的一或多个其它组件,例如位流产生单元52F。
位流产生单元52E可被配置成基于一或多个输入产生位流。在图22的实例中,位流产生单元52F可被配置成将经编码元素720、经编码空间定位向量724和经编码HOA声场730编码到位流56F中。位流产生单元52F可输出经译码音频位流56F到音频编码装置14F的一或多个其它组件,例如存储器54。
如上文所论述,在一些实例中,音频编码装置14F可将经编码音频数据(即,位流56F)直接传输到音频解码装置。在其它实例中,音频编码装置14F可将经编码音频数据(即,位流56F)存储到存储媒体或文件服务器上以供稍后由音频解码装置存取以进行解码和/或重放。在图22的实例中,存储器54可在由音频编码装置14F输出之前存储位流56F的至少一部分。换句话说,存储器54可存储所有位流56F或位流56F的一部分。
图23说明根据本公开的一或多种技术的汽车扬声器重放环境。如图23中所说明,在一些实例中,音频解码装置22可包含在例如汽车2000的车辆中。在一些实例中,车辆2000可包含一或多个乘客传感器。可包含在车辆2000中的乘客传感器的实例包含(但未必限于)集成到车辆2000的座位中的座位安全带传感器和压力传感器。
图24是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。图24的技术可由音频解码装置(例如图21的音频解码装置22)的一或多个处理器执行,但具有除音频编码装置14以外的配置的音频编码装置可执行图24的技术。
根据本公开的一或多种技术,音频解码装置22可从经译码音频位流获得包括非高阶立体混响(HOA)域中的多个元素的第一音频信号的表示(2402)。举例来说,图21的音频解码装置22E的音频解码单元204可解码经编码元素720以获得处于非HOA域中的经重构建元素718'。
音频解码装置22可针对多个元素中的每一相应元素,获得处于HOA域中的空间定位向量的集合的相应空间定位向量(2404)。举例来说,图21的音频解码装置22E的向量解码单元207可解码经编码空间定位向量724以获得对应于经重构建元素718'的经重构建空间定位向量722。
音频解码装置22可基于空间定位向量的集合和所获得的第一音频信号的表示,产生表示第一音频信号的第一HOA声场(2406)。举例来说,HOA产生单元208E可基于经重构建元素718'和经重构建空间定位向量722产生HOA声场804。如上文所论述,在一些实例中,HOA声场804可包含表示HOA声场的数据,例如HOA系数。
音频解码装置22可从经译码音频位流获得HOA域中的第二音频信号的表示(2408)。举例来说,图21的音频解码装置22E的HOA解码单元802可从多路分用单元202E获得经编码HOA声场730。
音频解码装置22可基于所获得的第二音频信号的表示,产生表示第二音频信号的第二HOA声场(2410)。举例来说,图21的音频解码装置22E的HOA解码单元802可基于经编码HOA声场730产生HOA经重构建声场808。
音频解码装置22可组合第一HOA声场与第二HOA声场以产生表示第一音频信号和第二音频信号的第三HOA声场(2412)。举例来说,图21的音频解码装置22E的求和器806可将HOA声场804与经重构建HOA声场808组合以产生HOA声场810。
音频解码装置22可显现第三HOA声场以产生多个音频信号(2414)。举例来说,显现单元210(其可或可不包含在音频解码装置22中)可显现HOA系数的集合以基于局部显现配置(例如,局部显现格式)产生多个音频信号。在一些实例中,显现单元210可根据以上方程式(21)显现HOA系数的集合。
图25是说明根据本公开的一或多种技术的音频解码装置的实例操作的流程图。图25的技术可由音频解码装置(例如图21的音频解码装置22)的一或多个处理器执行,但具有除音频编码装置14以外的配置的音频编码装置可执行图25的技术。
根据本公开的一或多种技术,音频解码装置22可从经译码音频位流获得非高阶立体混响(HOA)域中的输入音频信号的元素的第一集合(2502)。举例来说,图21的音频解码装置22E的音频解码单元204可解码经编码元素720以获得处于非HOA域中的经重构建元素718'。
音频解码装置22可从经译码音频位流获得HOA域中的输入音频信号的元素的第二集合(2504)。举例来说,图21的音频解码装置22E的HOA解码单元802可基于经编码HOA声场730产生HOA经重构建声场808。作为一个实例,在输入音频信号是多通道音频信号的情况下,音频解码装置22可获得非HOA域中的通道的第一集合和HOA域中的通道的第二集合。
音频解码装置22可基于输入音频信号的元素的第一集合和输入音频信号的元素的第二集合,产生共同表示输入音频信号的多个音频信号(2414)。举例来说,显现单元210(其可或可不包含在音频解码装置22中)可显现HOA系数的集合以基于局部显现配置产生多个音频信号(例如,局部显现格式)。在一些实例中,显现单元210可根据以上方程式(21)显现HOA系数的集合。
图26是说明根据本公开的一或多种技术的音频编码装置的实例操作的流程图。图26的技术可由音频编码装置(例如图20和22的音频编码装置14)的一或多个处理器执行,但具有除音频编码装置14以外的配置的音频编码装置也可执行图26的技术。
根据本公开的一或多种技术,音频编码装置14可获得输入音频信号(2602)。举例来说,图20的音频编码装置14E的HOA产生单元208E1可获得输入音频信号710。
音频编码装置14可选择输入音频信号的用于在非HOA域中编码的元素的第一集合(2604)。举例来说,图20的音频编码装置14E的元素选择单元704可基于输入音频信号710的元素的相应能量选择输入音频信号710的用于在非HOA域中编码的元素718。
音频编码装置14可在经译码音频位流中编码非HOA域中的输入音频信号的元素的第一集合的表示和HOA域中的输入音频信号的元素的第二集合的表示(2606)。举例来说,图20的音频编码装置14E的音频编码单元51和位流产生单元52E可在位流56E中将所选择的元素718编码为经编码元素720,且HOA编码单元708和位流产生单元52E可在位流56E中将HOA声场728编码为经编码HOA声场730。
以下编号实例可说明本公开的一或多个方面:
实例1.一种用于编码音频数据的装置,所述装置包括:一或多个处理器,其被配置成:获得包括多个元素的音频信号;产生表示所述音频信号的第一高阶立体混响(HOA)声场;选择所述音频信号的用于在非高阶立体混响(HOA)域中编码的元素的集合;基于所述所选择的元素的集合和空间定位向量的集合,产生表示所述所选择的元素的集合的第二HOA声场;产生表示所述第一HOA声场与所述第二HOA声场之间的差的第三HOA声场;和产生包含所述非HOA域中的所述所选择的元素的集合的表示、所述空间定位向量的集合的指示和所述第三HOA声场的表示的经译码音频位流;和存储器,其电耦合到所述一或多个处理器,被配置成存储所述经译码音频位流的至少一部分。
实例2.根据实例1所述的装置,其中为产生所述第二HOA声场,所述一或多个处理器被配置成:解码所述所选择的元素的集合的所述经编码表示和所述空间定位向量的集合的所述经编码指示;和将所述空间定位向量的经解码集合与所述所选择的元素的集合的所述经解码表示组合以产生所述第二HOA声场。
实例3.根据实例2所述的装置,其中为产生表示所述第一HOA声场与所述第二HOA声场之间的所述差的所述第三HOA声场,所述一或多个处理器执行综合分析。
实例4.根据实例1到3的任一组合所述的装置,其中为选择所述音频信号的用于在所述非HOA域中编码的所述一或多个元素,所述一或多个处理器被配置成:选择所述音频信号的用于在所述非HOA域中编码的具有最高能级的数个元素。
实例5.根据实例1到4的任一组合所述的装置,其中为选择所述音频信号的用于在所述非HOA域中编码的所述一或多个元素,所述一或多个处理器被配置成:选择所述音频信号的用于在所述非HOA域中编码的具有大于阈值能级的相应能级的相应元素。
实例6.根据实例1到5的任一组合所述的装置,其中所述音频信号的每一元素包括多通道音频信号的通道或音频对象。
实例7.根据实例所述的装置,其中所述音频信号另外包括输入HOA声场。
实例8根据实例1到7的任一组合所述的装置,其另外包括:一或多个麦克风,其被配置成捕获所述音频信号。
实例9.一种用于解码音频数据的装置,所述装置包括:存储器,其被配置成存储经译码音频位流的至少一部分;和一或多个处理器,其被配置成:从所述经译码音频位流获得非高阶立体混响(HOA)域中的音频信号的元素的第一集合和HOA域中的所述音频信号的元素的第二集合;针对所述元素的第一集合的每一相应元素,获得所述HOA域中的空间定位向量的集合的相应空间定位向量;基于所述空间定位向量的集合和所述元素的第一集合,产生第一HOA声场,其中所述第一HOA声场表示所述元素的第一集合;产生表示所述元素的第二集合的第二HOA声场;组合所述第一HOA声场与所述第二HOA声场以产生第三HOA声场,所述第三HOA声场表示所述音频信号;确定表示多个局部扩音器的配置的局部显现格式;和基于所述局部显现格式,将所述第三HOA声场显现成各自对应于所述多个局部扩音器中的相应局部扩音器的多个输出音频信号。
实例10.根据实例9所述的装置,其中所述音频信号包括多通道音频信号,其中所述元素的第一集合包括所述多通道音频信号的通道的第一集合,其中所述元素的第二集合包括第二HOA声场,所述第二HOA声场表示所述多通道音频信号的通道的第二集合。
实例11.根据实例9所述的装置,其中所述音频信号包括多个音频对象,其中所述元素的第一集合包括所述多个音频对象的音频对象的第一集合,其中所述元素的第二集合包括第二HOA声场,所述第二HOA声场表示所述多个音频对象的音频对象的第二集合。
实例12.根据实例9所述的装置,其中所述音频信号的所述元素包括多通道音频信号的通道和一或多个音频对象。
实例13.根据实例9到12的任一组合所述的装置,其中所述装置包含所述多个局部扩音器中的一或多个。
实例14.一种用于编码音频数据的方法,所述方法包括:获得包括多个元素的音频信号;产生表示所述音频信号的第一高阶立体混响(HOA)声场;选择所述音频信号的用于在非高阶立体混响(HOA)域中编码的元素的集合;基于所述所选择的元素的集合和空间定位向量的集合,产生表示所述所选择的元素的集合的第二HOA声场;产生表示所述第一HOA声场与所述第二HOA声场之间的差的第三HOA声场;和产生包含所述非HOA域中的所述所选择的元素的集合的表示、所述空间定位向量的集合的指示和所述第三HOA声场的表示的经译码音频位流。
实例15.根据实例14所述的方法,其中产生所述第二HOA声场包括:解码所述所选择的元素的集合的所述经编码表示和所述空间定位向量的集合的所述经编码指示;和将所述空间定位向量的经解码集合与所述所选择的元素的集合的所述经解码表示组合以产生所述第二HOA声场。
实例16.根据实例14到15的任一组合所述的方法,其中选择所述音频信号的用于在所述非HOA域中编码的所述一或多个元素包括:选择所述音频信号的用于在所述非HOA域中编码的具有最高能级的数个元素。
实例17.根据实例14到16的任一组合所述的方法,其中选择所述音频信号的用于在所述非HOA域中编码的所述一或多个元素包括:选择所述音频信号的用于在所述非HOA域中编码的具有大于阈值能级的相应能级的相应元素。
实例18.根据实例14到17的任一组合所述的方法,其中所述音频信号的每一元素包括多通道音频信号的通道或音频对象。
实例19.根据实例18所述的方法,其中所述音频信号另外包括输入HOA声场。
实例20.一种用于解码音频数据的方法,所述方法包括:从经译码音频位流获得非高阶立体混响(HOA)域中的音频信号的元素的第一集合和HOA域中的所述音频信号的元素的第二集合;针对所述元素的第一集合的每一相应元素,获得所述HOA域中的空间定位向量的集合的相应空间定位向量;基于所述空间定位向量的集合和所述元素的第一集合,产生第一HOA声场,其中所述第一HOA声场表示所述元素的第一集合;产生表示所述元素的第二集合的第二HOA声场;组合所述第一HOA声场与所述第二HOA声场以产生第三HOA声场,所述第三HOA声场表示所述音频信号;确定表示多个局部扩音器的配置的局部显现格式;和基于所述局部显现格式,将所述第三HOA声场显现成各自对应于所述多个局部扩音器中的相应局部扩音器的多个输出音频信号。
实例21.根据实例20所述的方法,其中所述音频信号包括多通道音频信号,其中所述元素的第一集合包括所述多通道音频信号的通道的第一集合,其中所述元素的第二集合包括第二HOA声场,所述第二HOA声场表示所述多通道音频信号的通道的第二集合。
实例22.根据实例20所述的方法,其中所述音频信号包括多个音频对象,其中所述元素的第一集合包括所述多个音频对象的音频对象的第一集合,其中所述元素的第二集合包括第二HOA声场,所述第二HOA声场表示所述多个音频对象的音频对象的第二集合。
实例23.根据实例20所述的方法,其中所述音频信号的所述元素包括多通道音频信号的通道和一或多个音频对象。
实例24.一种存储指令的计算机可读存储媒体,所述指令在被执行时致使音频编码或音频解码装置的一或多个处理器执行实例14到23的任何组合的方法。
实例25.一种音频编码或音频解码装置,其包括用于执行实例14到23的任何组合的方法的装置。
在上文所描述的各种例子中的每一个,应理解,音频编码装置14可执行方法或另外包括用于执行音频编码装置14被配置成执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令被配置的专用处理器。换句话说,编码实例的集合中的每一个中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器执行音频编码装置14已被配置成执行的方法。
在一或多个实例中,所描述功能可用硬件、软件、固件或其任何组合来实施。如果用软件实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体。数据存储媒体可为可由一或多个计算机或者一或多个处理器存取以检索用于实施本公开中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样地,在上文所描述的各种例子中的每一个中,应理解,音频解码装置22可执行方法或另外包括用于执行音频解码装置22被配置成执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令被配置的专用处理器。换句话说,编码实例的集合中的每一个中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时使所述一或多个处理器执行音频解码装置22已被配置成执行的方法。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。然而,应理解,所述计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各项的组合也应包含于计算机可读媒体的范围内。
指令可以由一或多个处理器执行,所述一或多个处理器例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代上述结构或适用于实施本文中所描述的技术的任何其它结构中的任一个。另外,在一些方面中,本文中所描述的功能性可在被配置成用于编码和解码的专用硬件和/或软件模块内提供,或并入于组合编解码器中。并且,所述技术可完全实施于一或多个电路或逻辑元件中。
本公开的技术可实施于多种装置或设备中,包含无线手持机、集成电路(IC)或IC的集合(例如,芯片组)。本公开中描述各种组件、模块或单元是为了强调被配置成执行所公开的技术的装置的功能方面,但未必需要通过不同硬件单元实现。确切地,如上文所描述,各种单元可结合合适的软件和/或固件组合在编解码器硬件单元中,或由互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已描述所述技术的各种方面。所述技术的这些和其它方面在所附权利要求书的范围内。

Claims (23)

1.一种用于编码音频数据的装置,所述装置包括:
一或多个处理器,其被配置成:
获得包括多个元素的音频信号;
产生表示所述音频信号的第一高阶立体混响HOA声场;
选择所述音频信号的用于在非高阶立体混响HOA域中编码的元素的集合;
基于所选择的元素的集合和空间定位向量的集合,产生表示所述所选择的元素的集合的第二高阶立体混响HOA声场;
产生表示所述第一高阶立体混响HOA声场与所述第二高阶立体混响HOA声场之间的差的第三高阶立体混响HOA声场;和
产生包含所述非高阶立体混响HOA域中的所述所选择的元素的集合的表示、所述空间定位向量的集合的指示和所述第三高阶立体混响HOA声场的表示的经译码音频位流;和
存储器,其电耦合到所述一或多个处理器,被配置成存储所述经译码音频位流的至少一部分。
2.根据权利要求1所述的装置,其中为产生所述第二高阶立体混响HOA声场,所述一或多个处理器被配置成:
解码所述所选择的元素的集合的经编码表示和所述空间定位向量的集合的经编码指示;和
将所述空间定位向量的经解码集合与所述所选择的元素的集合的所述经解码表示组合以产生所述第二高阶立体混响HOA声场。
3.根据权利要求2所述的装置,其中为产生表示所述第一高阶立体混响HOA声场与所述第二高阶立体混响HOA声场之间的所述差的所述第三高阶立体混响HOA声场,所述一或多个处理器执行综合分析。
4.根据权利要求1所述的装置,其中为选择所述音频信号的用于在所述非高阶立体混响HOA域中编码的所述元素的集合,所述一或多个处理器被配置成:
选择所述音频信号的用于在所述非高阶立体混响HOA域中编码的具有最高能级的数个元素。
5.根据权利要求1所述的装置,其中为选择所述音频信号的用于在所述非高阶立体混响HOA域中编码的所述元素的集合,所述一或多个处理器被配置成:
选择所述音频信号的用于在所述非高阶立体混响HOA域中编码的具有大于阈值能级的相应能级的相应元素。
6.根据权利要求1所述的装置,其中所述音频信号的每一元素包括多通道音频信号的通道或音频对象。
7.根据权利要求6所述的装置,其中所述音频信号另外包括输入高阶立体混响HOA声场。
8.根据权利要求1所述的装置,其另外包括:
一或多个麦克风,其被配置成捕获所述音频信号。
9.一种用于解码音频数据的装置,所述装置包括:
存储器,其被配置成存储经译码音频位流的至少一部分;和
一或多个处理器,其被配置成:
从所述经译码音频位流获得非高阶立体混响HOA域中的音频信号的元素的第一集合和HOA域中的所述音频信号的元素的第二集合;
针对所述元素的第一集合的每一相应元素,获得所述HOA域中的空间定位向量的集合的相应空间定位向量;
基于所述空间定位向量的集合和所述元素的第一集合,产生第一高阶立体混响HOA声场,其中所述第一高阶立体混响HOA声场表示所述元素的第一集合;
产生表示所述元素的第二集合的第二高阶立体混响HOA声场;
组合所述第一高阶立体混响HOA声场与所述第二高阶立体混响HOA声场以产生第三高阶立体混响HOA声场,所述第三高阶立体混响HOA声场表示所述音频信号;
确定表示多个局部扩音器的配置的局部显现格式;和
基于所述局部显现格式,将所述第三高阶立体混响HOA声场显现成各自对应于所述多个局部扩音器中的相应局部扩音器的多个输出音频信号。
10.根据权利要求9所述的装置,其中所述音频信号包括多通道音频信号,其中所述元素的第一集合包括所述多通道音频信号的通道的第一集合,其中所述元素的第二集合包括第二高阶立体混响HOA声场,所述第二高阶立体混响HOA声场表示所述多通道音频信号的通道的第二集合。
11.根据权利要求9所述的装置,其中所述音频信号包括多个音频对象,其中所述元素的第一集合包括所述多个音频对象的音频对象的第一集合,其中所述元素的第二集合包括第二高阶立体混响HOA声场,所述第二高阶立体混响HOA声场表示所述多个音频对象的音频对象的第二集合。
12.根据权利要求9所述的装置,其中所述音频信号的所述元素包括多通道音频信号的通道和一或多个音频对象。
13.根据权利要求9所述的装置,其中所述装置包含所述多个局部扩音器中的一或多个。
14.一种用于编码音频数据的方法,所述方法包括:
获得包括多个元素的音频信号;
产生表示所述音频信号的第一高阶立体混响HOA声场;
选择所述音频信号的用于在非高阶立体混响HOA域中编码的元素的集合;
基于所选择的元素的集合和空间定位向量的集合,产生表示所述所选择的元素的集合的第二高阶立体混响HOA声场;
产生表示所述第一高阶立体混响HOA声场与所述第二高阶立体混响HOA声场之间的差的第三高阶立体混响HOA声场;和
产生包含所述非高阶立体混响HOA域中的所述所选择的元素的集合的表示、所述空间定位向量的集合的指示和所述第三高阶立体混响HOA声场的表示的经译码音频位流。
15.根据权利要求14所述的方法,其中产生所述第二高阶立体混响HOA声场包括:
解码所述所选择的元素的集合的经编码表示和所述空间定位向量的集合的经编码指示;和
将所述空间定位向量的经解码集合与所述所选择的元素的集合的所述经解码表示组合以产生所述第二高阶立体混响HOA声场。
16.根据权利要求14所述的方法,其中选择所述音频信号的用于在所述非高阶立体混响HOA域中编码的所述元素的集合包括:
选择所述音频信号的用于在所述非高阶立体混响HOA域中编码的具有最高能级的数个元素。
17.根据权利要求14所述的方法,其中选择所述音频信号的用于在所述非高阶立体混响HOA域中编码的所述元素的集合包括:
选择所述音频信号的用于在所述非高阶立体混响HOA域中编码的具有大于阈值能级的相应能级的相应元素。
18.根据权利要求14所述的方法,其中所述音频信号的每一元素包括多通道音频信号的通道或音频对象。
19.根据权利要求18所述的方法,其中所述音频信号另外包括输入高阶立体混响HOA声场。
20.一种用于解码音频数据的方法,所述方法包括:
从经译码音频位流获得非高阶立体混响HOA域中的音频信号的元素的第一集合和HOA域中的所述音频信号的元素的第二集合;
针对所述元素的第一集合的每一相应元素,获得所述HOA域中的空间定位向量的集合的相应空间定位向量;
基于所述空间定位向量的集合和所述元素的第一集合,产生第一高阶立体混响HOA声场,其中所述第一高阶立体混响HOA声场表示所述元素的第一集合;
产生表示所述元素的第二集合的第二高阶立体混响HOA声场;
组合所述第一高阶立体混响HOA声场与所述第二高阶立体混响HOA声场以产生第三高阶立体混响HOA声场,所述第三高阶立体混响HOA声场表示所述音频信号;
确定表示多个局部扩音器的配置的局部显现格式;和
基于所述局部显现格式,将所述第三高阶立体混响HOA声场显现成各自对应于所述多个局部扩音器中的相应局部扩音器的多个输出音频信号。
21.根据权利要求20所述的方法,其中所述音频信号包括多通道音频信号,其中所述元素的第一集合包括所述多通道音频信号的通道的第一集合,其中所述元素的第二集合包括第二高阶立体混响HOA声场,所述第二高阶立体混响HOA声场表示所述多通道音频信号的通道的第二集合。
22.根据权利要求20所述的方法,其中所述音频信号包括多个音频对象,其中所述元素的第一集合包括所述多个音频对象的音频对象的第一集合,其中所述元素的第二集合包括第二高阶立体混响HOA声场,所述第二高阶立体混响HOA声场表示所述多个音频对象的音频对象的第二集合。
23.根据权利要求20所述的方法,其中所述音频信号的所述元素包括多通道音频信号的通道和一或多个音频对象。
CN201680076226.7A 2016-01-05 2016-11-16 用于音频信号译码的方法和设备 Active CN108780647B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662274898P 2016-01-05 2016-01-05
US62/274,898 2016-01-05
US15/266,929 US9881628B2 (en) 2016-01-05 2016-09-15 Mixed domain coding of audio
US15/266,929 2016-09-15
PCT/US2016/062283 WO2017119953A1 (en) 2016-01-05 2016-11-16 Mixed domain coding of audio

Publications (2)

Publication Number Publication Date
CN108780647A CN108780647A (zh) 2018-11-09
CN108780647B true CN108780647B (zh) 2020-12-15

Family

ID=59226618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680076226.7A Active CN108780647B (zh) 2016-01-05 2016-11-16 用于音频信号译码的方法和设备

Country Status (4)

Country Link
US (1) US9881628B2 (zh)
EP (1) EP3400598B1 (zh)
CN (1) CN108780647B (zh)
WO (1) WO2017119953A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2563635A (en) 2017-06-21 2018-12-26 Nokia Technologies Oy Recording and rendering audio signals
GB2566992A (en) 2017-09-29 2019-04-03 Nokia Technologies Oy Recording and rendering spatial audio signals
US10854209B2 (en) * 2017-10-03 2020-12-01 Qualcomm Incorporated Multi-stream audio coding
US11704717B2 (en) * 2020-09-24 2023-07-18 Ncr Corporation Item affinity processing
CN114582357A (zh) * 2020-11-30 2022-06-03 华为技术有限公司 一种音频编解码方法和装置
CN114582356A (zh) * 2020-11-30 2022-06-03 华为技术有限公司 一种音频编解码方法和装置
KR20230165855A (ko) * 2021-04-08 2023-12-05 노키아 테크놀로지스 오와이 공간 오디오 객체 분리

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置
CN104854655A (zh) * 2012-12-12 2015-08-19 汤姆逊许可公司 对声场的高阶立体混响表示进行压缩和解压缩的方法和设备
CN105144752A (zh) * 2013-04-29 2015-12-09 汤姆逊许可公司 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2094032A1 (en) 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
US20140086416A1 (en) 2012-07-15 2014-03-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9589571B2 (en) * 2012-07-19 2017-03-07 Dolby Laboratories Licensing Corporation Method and device for improving the rendering of multi-channel audio signals
JP6377730B2 (ja) 2013-06-05 2018-08-22 ドルビー・インターナショナル・アーベー オーディオ信号を符号化する方法及び装置並びにオーディオ信号を復号する方法及び装置
EP2879408A1 (en) * 2013-11-28 2015-06-03 Thomson Licensing Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置
CN104854655A (zh) * 2012-12-12 2015-08-19 汤姆逊许可公司 对声场的高阶立体混响表示进行压缩和解压缩的方法和设备
CN105144752A (zh) * 2013-04-29 2015-12-09 汤姆逊许可公司 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Also Published As

Publication number Publication date
WO2017119953A1 (en) 2017-07-13
CN108780647A (zh) 2018-11-09
WO2017119953A9 (en) 2018-09-20
US20170194014A1 (en) 2017-07-06
EP3400598B1 (en) 2019-10-30
US9881628B2 (en) 2018-01-30
EP3400598A1 (en) 2018-11-14

Similar Documents

Publication Publication Date Title
EP3360132B1 (en) Quantization of spatial vectors
CN108141689B (zh) 从基于对象的音频转换到hoa
CN108780647B (zh) 用于音频信号译码的方法和设备
CN105917408B (zh) 指示用于译码向量的帧参数可重用性
CN106663433B (zh) 用于处理音频数据的方法和装置
US20150332682A1 (en) Spatial relation coding for higher order ambisonic coefficients
CN108141688B (zh) 从以信道为基础的音频到高阶立体混响的转换
CN108141690B (zh) 在多个转变期间译码高阶立体混响系数

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant