CN116508098A - 量化空间音频参数 - Google Patents

量化空间音频参数 Download PDF

Info

Publication number
CN116508098A
CN116508098A CN202180076948.3A CN202180076948A CN116508098A CN 116508098 A CN116508098 A CN 116508098A CN 202180076948 A CN202180076948 A CN 202180076948A CN 116508098 A CN116508098 A CN 116508098A
Authority
CN
China
Prior art keywords
direct
total energy
energy ratios
ratios
energy ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180076948.3A
Other languages
English (en)
Inventor
T·皮拉亚库亚
A·瓦西拉切
M-V·莱蒂南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN116508098A publication Critical patent/CN116508098A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

尤其公开了一种用于空间音频编码的装置,该装置被配置为将与一个或多个音频信号的时频块关联的两个或更多个能量比转换为与两个或更多个能量比相关的另外的能量比参数;使用第一量化器量化该另外的能量比参数;依赖于两个或更多个能量比中的第一能量比与两个或更多个能量比之和的比率来确定能量比的分布因子;使用经量化的该另外的能量比参数从多个另外的量化器中选择另外的量化器;并且使用所选择的该另外的量化器来量化能量比的分布因子。

Description

量化空间音频参数
技术领域
本申请涉及用于声场相关参数编码的装置和方法,但是并非专用于音频编码器和解码器的时频域方向相关参数编码。
背景技术
参数空间音频处理是音频信号处理的一个领域,其中使用一组参数来描述声音的空间方面。例如,在麦克风阵列的参数空间音频捕获中,从麦克风阵列信号中估计一组参数(诸如频带中的声音的方向,以及频带中所捕获的声音的方向性和非方向性部分之间的比率)是一种通常的且有效的选择。众所周知,这些参数可以很好地描述麦克风阵列的位置处所捕获的声音的感知空间属性。这些参数可以相应地被利用在空间声音的合成中,用于双耳耳机、扬声器或诸如立体声之类的其它格式。
因此,频带中的方向和直接与总能量比是对空间音频捕获特别有效的参数化。
由频带中的方向参数和频带中的能量比参数(指示声音的方向性)组成的参数集也可以被利用作为音频编解码器的空间元数据(其还可以包括其它参数,诸如环境相干性、扩散相干性、方向数量、距离等)。例如,能够从麦克风阵列捕获的音频信号中估计这些参数,并且例如能够从麦克风阵列信号中生成立体声或单通道信号以与空间元数据一起传达。例如,可以用AAC编码器对立体声信号进行编码,并且可以用EVS编码器对单通道信号进行编码。解码器可以将音频信号解码为PCM信号并(使用空间元数据)处理频带中的声音以获得空间输出,例如双耳输出。
上述解决方案特别适合于对从麦克风阵列(例如,手机、VR相机、独立麦克风阵列)捕获的空间声音进行编码。然而,可能希望这样的编码器还具有除了麦克风阵列所捕获的信号以外的其它输入类型,例如扬声器信号、音频对象信号或立体声信号。
分析用于空间元数据提取的一阶立体声(FOA)输入已经在与定向音频编码(DirAC)和谐波平面波扩展(Harpex)相关的科学文献中得到详尽记录。这是因为存在直接提供FOA信号(更准确地说:其变型,B格式信号)的麦克风阵列,并且因此分析此类输入已成为该领域的研究重点。此外,在与高阶定向音频编码(HO-DirAC)相关的科学文献中也记录了用于多方向空间元数据提取的高阶立体声(HOA)输入分析。
编码器的另外的输入也是多通道扬声器输入,诸如5.1或7.1通道环绕输入和音频对象。
然而,关于空间元数据的组分,空间音频参数(诸如直接与总能量比)的压缩和编码具有相当大的意义以使得表示空间音频参数所需的总比特数最小化。
发明内容
根据第一方面,存在一种用于空间音频编码的装置,包括:部件,该部件用于:将与一个或多个音频信号的时频块关联的两个或更多个个能量比转换为与两个或更多个个能量比相关的另外的能量比参数;使用第一量化器量化该另外的能量比参数;取决于两个或更多个能量比中的第一能量比与两个或更多个能量比之和的比率来确定能量比的分布因子;使用经量化的该另外的能量比参数从多个另外的量化器中选择另外的量化器;并且使用所选择的另外的量化器量化能量比的分布因子。
两个或更多个能量比可以是两个直接与总能量比;
另外的能量比参数可以是扩散与总能量比。
扩散与总能量比可以包括一减去两个直接与总能量比之和。
另外的能量比参数可以是两个直接与总能量比之和。
能量比的分布因子可以包括两个直接与总能量比中的第一直接与总能量比与两个直接与总能量比之和的比率。
用于使用经量化的该另外的能量比参数从多个另外的量化器中选择另外的量化器的部件可以包括部件,其用于:将量化的该另外的能量比参数与阈值进行比较;并且基于该比较,从多个另外的量化器中选择另外的量化器。
两个直接与总能量比中的第一直接与总能量比可以与声波的第一方向关联并且两个直接与总能量比中的第二直接与总能量比可以与声波的第二方向关联,其中该装置还可以包括继续进行部件,用于:确定两个直接与总能量比中的第二直接与总能量比大于两个直接与总能量比中的第一直接与总能量比;将两个直接与总能量比中的第一直接与总能量比交换为与第二方向关联;并且将两个直接与总能量比中的第二直接与总能量比交换为与第一方向关联。
与时频块关联的第一方向索引、第一扩展相干性和第一距离可以各自与声波的第一方向关联,并且与时频块关联的第二方向索引、第二扩展相干性和第二距离各自与声波的第二方向关联,如果确定两个直接与总能量比中的第二直接与总能量比大于两个直接与总能量比中的第一直接与总能量比,则该装置可以还包括用于以下至少之一的部件:将第一方向索引交换为与第二方向关联并且将第二方向索引交换为与第一方向关联;将第一距离交换为与第二方向关联并且将第二距离交换为与第一方向关联;以及将第一扩展相干性交换为与第二方向关联并且将第二扩展相干性交换为与第一方向关联。
根据第二个方面,存在一种用于空间音频编码的方法,包括:将与一个或多个音频信号的时频块关联的两个或更多个能量比转换为与两个或更多个能量比相关的另外的能量比参数;使用第一量化器量化另外的能量比参数;取决于两个或更多个能量比中的第一能量比与两个或更多个能量比之和的比率来确定能量比的分布因子;使用经量化的该另外的能量比参数从多个另外的量化器中选择另外的量化器;并且使用所选择的另外的量化器量化能量比的分布因子。
两个或更多个能量比可以是两个直接与总能量比;
另外的能量比参数可以是扩散与总能量比。
扩散与总能量比可以包括一减去两个直接与总能量比之和。
另外的能量比参数可以是两个直接与总能量比之和。
能量比的分布因子可以包括两个直接与总能量比中的第一直接与总能量比与两个直接与总能量比之和的比率。
使用经量化的该另外的能量比参数从多个另外的量化器中选择另外的量化器可以包括:将量化的该另外的能量比参数与阈值进行比较;并且基于该比较,从多个另外的量化器中选择另外的量化器。
两个直接与总能量比中的第一直接与总能量比可以与声波的第一方向关联并且两个直接与总能量比中的第二直接与总能量比可以与声波的第二方向关联,其中该方法还包括以下处理步骤:确定两个直接与总能量比中的第二直接与总能量比大于两个直接与总能量比中的第一直接与总能量比;将两个直接与总能量比中的第一直接与总能量比交换为与第二方向关联;并且将两个直接与总能量比中的第二直接与总能量比交换为与第一个方向关联。
与时频块关联的第一方向索引、第一扩展相干性和第一距离也可以各自与声波的第一方向关联,并且其中与时频块关联的第二方向索引、第二扩展相干性和第二距离也各自与声波的第一方向关联,其中如果确定两个直接与总能量比中的第二直接与总能量比大于两个直接与总能量比中的第一直接与总能量比,则该方法还可以包括以下至少之一:将第一方向索引交换为与第二方向关联并且将第二方向索引交换为与第一方向关联;将第一距离交换为与第二方向关联并且将第二距离交换为与第一方向关联;以及将第一扩展相干性交换为与第二方向关联并且将第二扩展相干性交换为与第一方向关联。
根据第三方面,存在一种用于空间音频编码的装置,包括至少一个处理器和至少一个存储器,该存储器包括计算机程序代码,该至少一个存储器和计算机程序代码被配置为与该至少一个处理器一起使得装置至少执行:将与一个或多个音频信号的时频块关联的两个或更多个能量比转换为与两个或更多个能量比相关的另外的能量比参数;使用第一量化器量化另外的能量比参数;取决于两个或更多个能量比中的第一能量比与两个或更多个能量比之和的比率来确定能量比的分布因子;使用经量化的该另外的能量比参数从多个另外的量化器中选择另外的量化器;并且使用所选择的另外的量化器量化能量比的分布因子。
存储在介质上的计算机程序产品可以使装置执行本文所描述的方法。
电子设备可以包括如本文所描述的装置。
芯片组可以包括如本文所描述的装置。
本申请的实施例旨在解决与现有技术相关联的问题。
附图说明
为了更好地理解本申请,现在将通过示例的方式对附图进行参考,其中:
图1示意性地示出了适合于实现一些实施例的装置的系统;
图2示意性地示出了根据一些实施例的元数据编码器;
图3示出了根据一些实施例的如图2中所示的元数据编码器的操作的流程图;和
图4示意性地示出了适合于实现所示装置的示例设备。
具体实施方式
下面更详细地描述了用于提供有效空间分析所导出的元数据参数的合适的装置和可能的机制。在下面的讨论中,多通道系统是针对多通道麦克风实现来进行讨论的。然而,如上面所讨论的,输入格式可以是任何合适的输入格式,诸如多通道扬声器、立体声(FOA/HOA)等。此外,示例系统的输出是多通道扬声器布置。然而,应当理解,可以通过除扬声器之外的方式将输出渲染给用户。此外,多通道扬声器信号可以被概括为两个或更多个播放音频信号。此类系统目前正由3GPP标准化机构标准化为沉浸式语音和音频服务(IVAS)。IVAS旨在成为现有3GPP增强型语音服务(EVS)编解码器的扩展,以便促进现有的和未来的移动(蜂窝)和固定线路网络上的沉浸式语音和音频服务。IVAS的一个应用可能是通过3GPP第四代(4G)和第五代(5G)网络提供沉浸式语音和音频服务。此外,作为EVS扩展的IVAS编解码器可以被用于存储和转发应用中,其中音频和话音内容被编码并存储在文件中以供播放。应当了解,IVAS可以与具有对音频和话音信号的样本进行编码的功能性的其它音频和语音编码技术结合使用。
对于每个考虑的时频(TF)块或区块(换句话说,时间/频率子带),元数据可以至少包括球面方向(仰角、方位角)、结果方向的至少一个能量比、扩展相干性以及与方向无关的周围相干性。总的来说,IVAS对于每个时频(TF)区块可能有许多不同类型的元数据参数。可以构成IVAS的元数据的空间音频参数类型如下表1中所示。
该数据可以由编码器编码和传输(或存储)以便能够在解码器处重建空间信号。
此外,在一些实例中,元数据辅助空间音频(MASA)可以支持每个TF区块最多2个方向,这将需要在每个TF区块的基础上针对每个方向对上述参数进行编码和传输。根据下面的表1,从而可能使所需的比特率加倍。
该数据可以由编码器编码和传输(或存储)以便能够在解码器处重建空间信号。
在实际的沉浸式音频通信编解码器中为元数据所分配的比特率可能会有很大不同。编解码器的典型整体操作比特率可能只留下2到10kbps用于空间元数据的传输/存储。然而,一些另外的实现可能允许高达30kbps或更高的空间元数据的传输/存储。之前已经检查了方向参数和能量比分量的编码以及相干性数据的编码。然而,无论为空间元数据所指派的传输/存储比特率如何,总是需要使用尽可能少的比特来表示这些参数,尤其是当TF区块可以支持对应于空间音频场景中的不同声源的多个方向时。
下文所讨论的概念是量化所有方向的直接与总能量比,形式为TF区块的扩散与总能量比以及基于直接与总能量比的比率。
因此,本发明从以下考虑出发:通过使用尽可能少的比特以便促进编码音频信号的传输和存储,通过在TF区块的基础上量化与每个方向相对应的直接与总能量比,可以降低传输MASA数据(或空间元数据空间音频参数)所需的比特率。
在这方面,图1描绘了用于实现本申请的实施例的示例装置和系统。系统100被示为具有“分析”部分121和“合成”部分131。“分析”部分121是从接收多通道信号到元数据和缩混(downmix)信号的编码的部分,并且“合成”部分131是从编码的元数据和缩混信号的解码到重新生成的信号(例如以多通道扬声器的形式)的呈现的部分。
系统100和“分析”部分121的输入是多通道信号102。在以下示例中,描述了麦克风通道信号输入,但是任何合适的输入(或合成多通道)格式都可以在其它实施例中被实现。例如,在一些实施例中,空间分析器和空间分析可以被实现在编码器外部。例如,在一些实施例中,与音频信号相关联的空间元数据可以作为单独的比特流而被提供给编码器。在一些实施例中,空间元数据可以作为一组空间(方向)索引值而被提供。这些是基于元数据的音频输入格式的示例。
多通道信号被传递到传输信号生成器103和分析处理器105。
在一些实施例中,传输信号生成器103被配置为接收多通道信号并生成包括确定数量的通道的合适的传输信号并输出传输信号104。例如,传输信号生成器103可以被配置为生成多通道信号的2音频通道缩混。所确定的通道数量可以是任何合适数量的通道。在一些实施例中,传输信号生成器被配置为以其它方式进行选择或组合,例如通过波束成形技术将输入音频信号选择或组合到确定数量的通道,并将这些作为传输信号输出。
在一些实施例中,传输信号生成器103是可选的并且多通道信号以与该示例中的传输信号相同的方式未经处理地传递到编码器107。
在一些实施例中,分析处理器105还被配置为接收多通道信号并分析信号以产生与多通道信号相关联并因此与传输信号104相关联的元数据106。分析处理器105可以被配置为生成元数据,对于每个时频分析区间,该元数据可以包括方向参数108和能量比参数110(包括每个方向的直接与总能量比以及扩散与总能量比)和相干性参数112。方向、能量比和相干性参数在一些实施例中可以被认为是空间音频参数。换句话说,空间音频参数包括旨在表征由多通道信号(或一般来说是两个或更多个音频信号)所创建/捕获的声场的参数。
在一些实施例中,所生成的参数可能因频带而异。因此,例如在频带X中生成并传输所有参数,而在频带Y中仅生成并传输参数之一,并且此外在频带Z中不生成或传输任何参数。这方面的一个实际示例可以是:对于一些频带,诸如最高频带,出于感知原因不需要某些参数。传输信号104和元数据106可以被传递到编码器107。
编码器107可以包括音频编码器核心109,其被配置为接收传送(例如缩混)信号104并且生成这些音频信号的适当编码。在一些实施例中,编码器107可以是计算机(运行存储在存储器上和至少一个处理器上的适当软件),或者替代地是利用例如FPGA或ASIC的特定设备。可以使用任何合适的方案来实现编码。编码器107还可以包括元数据编码器/量化器111,其被配置为接收元数据并输出编码或压缩形式的信息。在一些实施例中,编码器107可以进一步交织、多路复用到单个数据流或者在传输或存储之前将元数据嵌入在编码的缩混信号内,如图1中的虚线所示。可以使用任何合适的方案来实现多路复用。
在解码器侧,接收或检索的数据(流)可以由解码器/解复用器133接收。解码器/解复用器133可以将编码流解复用并且将音频编码流传递到传输提取器135,其被配置为对音频信号进行解码以获得传输信号。类似地,解码器/解复用器133可以包括元数据提取器137,其被配置为接收编码的元数据并生成元数据。在一些实施例中,解码器/解复用器133可以是计算机(运行存储在存储器和至少一个处理器上的适当软件),或者替代地是利用例如FPGA或ASIC的特定设备。
经解码的元数据和传送音频信号可以被传递到合成处理器139。
系统100的“合成”部分131还示出了合成处理器139,其被配置为接收传输信号和元数据,并基于传输信号和元数据以任何合适的格式重新创建多通道信号110形式的合成空间音频(取决于使用情况,这些可以是多通道扬声器格式或者在一些实施例中是任何合适的输出格式,诸如双耳或立体声信号)。
因此,总而言之,首先系统(分析部分)被配置为接收多通道音频信号。
然后系统(分析部分)被配置为生成合适的传送音频信号(例如通过选择或缩混音频信号通道中的一些)和空间音频参数作为元数据。
系统然后被配置为对传输信号和元数据进行编码以用于存储/传输。
此后,系统可以存储/传输编码的传输信号和元数据。
系统可以检索/接收编码的传输信号和元数据。
然后系统被配置为从编码的传输信号和元数据参数中提取传输信号和元数据,例如对编码的传输信号和元数据参数进行解复用和解码。
系统(合成部分)被配置为基于提取的传送音频信号和元数据来合成输出多通道音频信号。
关于图2,进一步详细描述了根据一些实施例的示例分析处理器105和元数据编码器/量化器111(如图1中所示)。
图1和图2描绘了耦合在一起的元数据编码器/量化器111和分析处理器105。然而,应当了解,一些实施例可能不会如此紧密地耦合这两个相应的处理实体,因此分析处理器105可以存在于与元数据编码器/量化器111不同的设备上。因此,包括元数据编码器/量化器的设备111可以与传输信号和元数据流一起被呈现,以独立于捕获和分析过程进行处理和编码。
在一些实施例中,分析处理器105包括时频域变换器201。
在一些实施例中,时频域变换器201被配置为接收多通道信号102并应用合适的时域到频域变换,诸如短时傅立叶变换(STFT),以便将输入时域信号转换成合适的时频信号。这些时频信号可以被传递到空间分析器203。
因此,例如,时频信号202可以在时频域表示中被表示为
si(b,n),
其中b是频率柱条索引(frequency bin index),n是时频块(帧)索引,并且i是通道索引。换一种表达说,n可以被认为是时间索引,其采样率低于原始时域信号的采样率。这些频率柱条可以被分组到子带中,子带将一个或多个柱条归组到频带索引的子带中,k=0,…,K-1。每个子带k都具有最低的bk,low和最高的bk,high,并且子带包含从bk,low到bk,high的所有柱条。子带的宽度可以近似于任何合适的分布。例如,等效矩形带宽(ERB)标度或Bark标度。
因此,时频(TF)块(或区块)是帧的子帧内的特定子带。
可以了解,表示空间音频参数所需的比特数量可以至少部分地取决于TF(时间-频率)区块分辨率(即,TF子帧或块的数量)。例如,一个20ms的音频帧可以被划分为4个每片5ms的时域子帧,并且每个时域子帧可以具有根据Bark标度及其近似在频域中划分的多达24个频率子带,或者任何其它合适划分。在此特定示例中,音频帧可以被划分为96个TF子帧/区块,换言之,4个时域子帧具有24个频率子带。因此,表示音频帧的空间音频参数所需的比特数可能取决于TF区块分辨率。例如,如果要根据上表1的分布对每个TF区块进行编码,那么每个TF区块将需要64比特(对于每个TF区块为一个声源方向)和104比特(对于每个TF区块为两个声源方向,考虑到与声源方向无关的参数)。
在实施例中,分析处理器105可以包括空间分析器203。空间分析器203可以被配置为接收时频信号202并且基于这些信号来估计方向参数108。方向参数可以基于任何基于音频的“方向”确定来确定。
例如,在一些实施例中,空间分析器203被配置为利用两个或更多个信号输入来估计声源的方向。
空间分析器203因此可以被配置成为音频信号的帧内的每个频带和时间时频块提供至少一个方位角和仰角,被标示为方位角φ(k,n)和仰角θ(k,n)。时间子帧的方向参数108也可以被传递到空间参数集编码器207。
空间分析器203还可以被配置为确定能量比参数110。能量比可以被认为是对可以被认为是从一个方向到达的音频信号的能量的确定。例如使用方向估计的稳定性度量,或者使用任何相关度量或获得比率参数的任何其它合适的方法,可以估计直接与总能量比r(k,n)。每个直接与总能量比对应于特定空间方向,并描述了:与总能量相比,来自特定空间方向的能量有多少。该值也可以针对每个时频块而被单独地表示。空间方向参数和直接与总能量比描述了针对每个时频块的总能量中有多少来自特定方向。一般来说,空间方向参数也可以被认为是到达方向(DOA)。
在实施例中,可以基于在频带k处的麦克风对之间的归一化互相关参数cor′(k,n)来估计直接与总能量比参数,互相关参数的值介于-1和1之间。直接与总能量比参数r(k,n)可以通过比较归一化互相关参数和扩散场归一化互相关参数cor′D(k,n)而被确定为在通过引用并入本文的PCT公开WO2017/005978中进一步解释了直接与总能量比。能量比可以被传递到空间参数集编码器207。
空间分析器203此外还可以被配置为确定多个相干性参数112,其可以包括周围相干性(γ(k,n))和扩散相干性(ζ(k,n)),两者均在时频域中被分析。
术语音频源可以涉及传播声波的主导方向,其可以涵盖声源的实际方向。
因此,对于每个子带k,将存在与子带和子帧n相关联的空间音频参数的集合(或集)。在这种实例中,每个子带k和子帧n(换句话说,TF区块)在每个音频源方向的基础上可以具有与其相关联的以下空间音频参数;至少一个方位角和仰角,被标示为方位角φ(k,n)和仰角θ(k,n),以及扩散相干性(ζ(k,n))和直接与总能量比参数r(k,n)。很显然,如果每个TF区块存在一个以上的方向,那么TF区块可以具有与每个声源方向关联的上面列出的每个参数。另外的,空间音频参数的集合还可以包括周围相干性(γ(k,n))。参数还可以包括扩散与总能量比rdiff(k,n)。
在实施例中,扩散与总能量比rdiff(k,n)是非方向性声音相对于周围方向的能量比,并且通常每个TF区块存在单个扩散与总能量比(以及周围相干性(γ(k,n))。扩散与总能量比可以被认为是从一中减去直接与总能量比(对于每个方向)后剩下的能量比。向前看,以上参数可以被称为针对特定TF区块的一组空间音频参数(或空间音频参数集)。
在实施例中,除了方向参数108和相干性参数112之外,空间参数集编码器207可以被布置成量化能量比参数110。包括针对每个方向的直接与总能量比参数r(k,n)的能量比参数110可以基于扩散与总能量比rdiff(k,n)和另外的参数对每个方向来进行量化。另外的参数可以包括直接与总能量比参数中的一个与所有方向的直接与总能量比之和的比率,另外的参数可以被称为dr(k,n)。
在一些替代实施例中,可以量化直接与总能量比之和而不是量化扩散与总能量比rdiff(k,n),其中直接与总能量比之和可以被表达为:
rsum(k,n)=∑drd(k,n)
对于向它们指派有两个音频源方向的TF区块,对于TF区块(k,n)的第一方向的直接与总能量比参数r1(k,n)和第二方向的直接与总能量比参数r2(k,n)可以以TF区块的扩散与总能量比rdiff(k,n)和dr(k,n)的形式而被量化。
在实施例中,第一直接与总能量比参数r1(k,n)和第二直接与总能量比参数r2(k,n)可以通过确定扩散与总能量比rdiff(k,n)而被量化为
rdiff(k,n)=1-r1(k,n)-r2(k,n)
在一些替代实施例中,扩散与总能量比rdiff(k,n)可以作为MASA输入元数据的一部分而被提供,而不是如上文概述的那样在运行中进行计算。在这种情况下,空间参数集编码器207可以获得与时频块的两个或更多个能量比相关联的另外的能量比参数(或扩散与总能量比)。
确定扩散与总能量比rdiff(k,n)的步骤如图3中的处理步骤301所示。
rdiff(k,n)的值然后可以被标量量化以给出在实施例中,这可以使用非均匀标量量化器来执行。
量化rdiff(k,n)的步骤如图3中的处理步骤305所示。
在一些实施例中,扩散与总能量比参数rdiff(k,n)的值可以被用来确定随后在过程中使用的量化器的尺寸。例如,如果rdiff(k,n)高于选择值,那么可以选择第一尺寸的量化器,然而如果rdiff(k,n)小于选择值,那么可以选择第二尺寸的量化器。在实施例中,该步骤可以被写成
如果rdiff(k,n)>Nq
a.Quant_size=Q1(比特数,值1)
否则
b.Quant_size=Q2(比特数,值2)
结束
换言之,如果rdiff(k,n)>Nq,(其中Nq是选择值),那么选择量化器尺寸Q1,否则选择量化器尺寸Q2。Q1和Q2可以根据比特数来表达量化器尺寸。
在实施例中,发现Nq介于值0和1之间。例如,发现Nq的一个操作点为0.6。
在一个实施例的具体示例中,上述步骤可以具有以下数值
如果rdiff(k,n)>0.6
a.Quant_size=2(比特数,值1)
否则
b.Quant_size=3(比特数,值2)
结束
在一些实施例中,可以在上述处理步骤中使用经量化的扩散与总能量比参数这可以具有不需要将量化器尺寸(Quant_size)作为比特流的一部分用信号发送的优点。相反,可以在解码器处通过检查/>的值来确定量化器尺寸。
使用确定量化器的尺寸的步骤如图3中的处理步骤303所示。
然后实施例可以确定第一直接与总能量比参数与第一和第二直接与总能量比参数之和的比率,换言之,确定能量比的分布因子
这个能量比的分布因子可以被表达为
确定上述比率dr的步骤被描述为图3中的处理步骤307。
对于每个TF区块的三个直接与总能量比参数的情况,扩散与总能量比rdiff(k,n)可以被表达为
rdiff(k,n)=1-(r1(k,n)+r2(k,n)+r3(k,n))
并且能量比的分布因子可以被给出为
自然地,上述方案可以被扩展到每个TF区块的一般数量的直接与总能量比参数。
现在可以使用标量量化器来量化比率dr(k,n)的值。在实施例中,可以选择数个量化器中的一个来量化dr(k,n)。
如上所述,可以基于上述处理步骤303的结果来选择被用来量化比率dr的量化器。换言之,处理步骤303可以被用来确定被用来量化dr(k,n)以给出的标量量化器的尺寸。
选择用于量化dr(k,n)的量化器的处理步骤如图3中的步骤309所示。
在一些实施例中,dr(k,n)可以使用从数个均匀标量量化器中选择的量化器来量化。在上面的示例中,dr可以使用两个均匀标量量化器之一而被量化为如Quant_size比特所示。以实施例的上述特定示例为例,可以使用2比特或3比特标量量化器来量化dr(k,n)。
量化dr(k,n)的处理步骤如图3中的步骤311所示。
对应于两个量化参数和/>的索引可以使用固定或可变速率编码方案来进行编码。
替代地,可以将与两个量化参数和/>相对应的索引进行联合编码,形成主索引,然后使用熵编码(诸如Golomb Rice或Huffman编码)来对主索引进行编码。
在一些实施例中,直接与总能量比参数的上述量化可以包括附加的预处理步骤,其中对于每个TF块,检查实际上是否存在两个直接与总能量比r1(k,n)、r2(k,n)(与第一和第二方向关联)。第二直接与总能量比的存在指示TF区块(k,n)至少具有两个并发方向。
如果确定TF区块具有两个并发方向,那么如果第一方向的直接与总能量比r1(k,n)小于第二方向的直接与总能量比r2(k,n),则可以交换与两个方向中的每一个相关联的空间音频参数。在实施例中,与特定音频方向关联的空间音频参数可以包括参数(来自上面的表1);方向索引、直接与总能量比、扩散相干性和距离。换句话说,预处理步骤可以具有以下形式。
1.检查TF区块是否具有两个并发方向,即检查第二直接与总能量比r2(k,n)。
2.如果存在并发方向,那么检查是否r1(k,n)<r2(k,n)。
3.如果r1(k,n)<r2(k,n),那么将与第一方向关联的空间音频参数与第二方向关联的空间音频参数交换。因此,该步骤可以包括交换与TF区块的第一方向关联的方向索引、直接与总能量比r1(k,n)、扩展相干性(ζ1(k,n))和距离中的至少一个的值与TF区块的第二方向关联的方向索引、直接与总能量比r2(k,n)、扩散相干ζ2(k,n)和距离的值。
上述过程有效地对方向进行排序,使得较大的直接与总能量比的方向始终是第一方向,而较小的直接与总能量比的方向始终是第二方向。
上述预处理步骤的优点具有实现更有效的量化器优势,使得dr始终在0.5和1之间(与在不执行上述交换机制的情况下具有0和1之间的值相比)。因此,可以用大约一半的码字数量获得了相同的准确度。
由空间参数集编码器207进行的任何进一步处理可以使用从和/>获得的量化的直接与总能量比。
上述量化方案已根据TF区块的能量比进行了描述。然而,本领域技术人员将了解,以上可以同样地被应用于对信号进行量化的其它参数,诸如幅度比、振幅比和功率比。
元数据编码器/量化器111还可以包括方向编码器。方向编码器被配置为接收方向参数(诸如方位角φ和仰角θ)(以及在一些实施例中的预期比特分配)并且由此生成合适的编码输出。在一些实施例中,编码基于形成球形网格的球体布置,球形网格布置在“表面”球体上的环中,其由查找表来定义,查找表由所确定的量化分辨率来定义。换句话说,球形网格使用的想法是用较小的球体覆盖一个球体,并将较小的球体的中心视为定义几乎等距方向的网格的点。因此,较小的球体定义了围绕中心点的圆锥或立体角,可以根据任何合适的索引算法对其进行索引处理。尽管在这里描述了球形量化,但是可以使用任何合适的线性或非线性量化。
类似地,元数据编码器/量化器111还可以包括相干编码器,其被配置为接收周围相干值γ和扩展相干值ζ并且确定用于压缩周围和扩展相干值的合适的编码。
编码的方向、能量比和相干值可以被传递给组合器。组合器可以被配置为接收编码的(或量化的/压缩的)方向参数、能量比参数和相干参数并且组合这些以生成合适的输出(例如元数据比特流,其可以与传输信号进行组合或单独从传输信号传输或存储)。
在一些实施例中,编码的数据流被传递给解码器/解复用器133。解码器/解复用器133对帧的编码的量化空间音频参数集进行解复用,并将它们传递给元数据提取器137,并且解码器/解复用器133也可以在一些实施例中将传送音频信号提取到传输提取器以用于解码和提取。
在实施例中,元数据提取器137可以被布置为针对每个TF区块提取的索引。
可以读取与相关联的索引以给出对应的量化值。
的值然后可以被用来(从多个量化器中)确定特定量化器(或量化表),其可以在解码器处被使用以对/>的值进行解量化。换言之,/>被用来在解码器处(从多个量化表中)选择量化表。/>的值然后可以通过使用与相关联的索引而从所选择的量化表中被读取。然后可以通过使用与在编码器处应用的过程相反的过程来确定直接与总能量比的值。由上例可以获得r1(k,n)、r2(k,n)的量化值为:
经解码的空间音频参数然后可以形成从元数据提取器137输出的经解码的元数据并将其传递到合成处理器139以便形成多通道信号110。
关于图4,示出了可以被用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1400是移动设备、用户设备、平板电脑、计算机、音频播放装置等。
在一些实施例中,设备1400包括至少一个处理器或中央处理单元1407。处理器1407可以被配置为执行各种程序代码,诸如本文所描述的方法。
在一些实施例中,设备1400包括存储器1411。在一些实施例中,至少一个处理器1407耦合到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中,存储器1411包括用于存储可在处理器1407上实现的程序代码的程序代码部分。此外,在一些实施例中,存储器1411还可以包括用于存储数据的存储数据部分,例如根据本文所描述的实施例已经处理或待处理的数据。存储在程序代码部分内的已实现的程序代码和存储在存储数据部分中的数据可以在需要时经由存储器-处理器耦合而由处理器1407检索。
在一些实施例中,设备1400包括用户界面1405。在一些实施例中,用户界面1405可以耦合到处理器1407。在一些实施例中,处理器1407可以控制用户界面1405的操作并从用户界面1405接收输入。在一些实施例中,用户界面1405可以使得用户能够例如经由小键盘向设备1400输入命令。在一些实施例中,用户界面1405可以使得用户能够从设备1400获得信息。例如,用户界面1405可以包括被配置为向用户显示来自设备1400的信息的显示器。在一些实施例中,用户界面1405可以包括能够将信息输入到设备1400并进一步向设备1400的用户显示信息的触摸屏或触摸界面。在一些实施例中,用户界面1405可以是用于与本文所描述的位置确定器进行通信的用户界面。
在一些实施例中,设备1400包括输入/输出端口1409。在一些实施例中,输入/输出端口1409包括收发器。这样的实施例中的收发器可以耦合到处理器1407并且被配置为使得能够例如经由无线通信网络来与其它装置或电子设备进行通信。在一些实施例中,收发器或任何合适的收发器或发射器和/或接收器部件可以被配置为经由有线或有线耦合来与其它电子设备或装置通信。
收发器可以通过任何合适的已知通信协议来与另外的装置通信。例如,在一些实施例中,收发器可以使用合适的通用移动电信系统(UMTS)协议、无线局域网(WLAN)协议(诸如IEEE 802.X)、合适的短程射频通信协议(诸如蓝牙)或红外数据通信通路(IRDA)。
收发器输入/输出端口1409可以被配置为接收信号并且在一些实施例中通过使用处理器1407执行合适的代码来确定本文所描述的参数。此外,设备可以生成合适的缩混信号和参数输出以被传输到合成设备。
在一些实施例中,设备1400可以被用作合成设备的至少一部分。如此,输入/输出端口1409可以被配置为接收缩混信号,并且在一些实施例中接收在如本文所描述的捕获设备或处理设备处确定的参数,并且通过使用处理器1407执行合适的代码来生成合适的音频信号格式输出。输入/输出端口1409可以耦合到任何合适的音频输出,例如耦合到多通道扬声器系统和/或耳机或类似物。
一般来说,本发明的各种实施例可以以硬件或专用电路、软件、逻辑或其任意组合来实现。例如,一些方面可以以硬件来实现,而其它方面可以以固件或软件来实现,固件或软件可以由控制器、微处理器或其它计算设备执行,但是本发明不限于此。虽然可以将本发明的各个方面图示和描述为框图、流程图或使用一些其它图形表示,但是应该理解,作为非限制示例,本文所描述的这些块、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或其某种组合来实现。
本发明的实施例可以通过诸如在处理器实体中移动设备的数据处理器可执行的计算机软件、或者通过硬件、或者通过软件和硬件的组合来实现。进一步在这方面,应当注意,如附图中的逻辑流程的任何块可以表示程序步骤、或互连的逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可以被存储在诸如存储器芯片或在处理器内实现的存储器块之类的物理介质、诸如硬盘或软盘之类的磁性介质以及诸如DVD及其数据变型CD之类的光学介质上。
存储器可以是适合本地技术环境的任何类型,并且可以使用任何合适的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可移动存储器。数据处理器可以是适合本地技术环境的任何类型,并且作为非限制性示例,可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一种或多种。
本发明的实施例可以在诸如集成电路模块之类的各种组件中被实践。集成电路的设计基本上是一个高度自动化的过程。复杂而强大的软件工具可用于将逻辑级设计转换为准备好在半导体衬底上蚀刻和形成的半导体电路设计。
程序可以使用完善的设计规则以及预先存储的设计模块库而在半导体芯片上布线导体和定位组件。一旦完成了针对半导体电路的设计,就可以将标准化电子格式的最终设计传输到半导体制造设施或“制造厂”进行制造。
前面的描述已经通过示例性和非限制性示例的方式提供了对本发明的示例性实施例的完整并且信息丰富的描述。然而,当结合附图和所附权利要求阅读时,鉴于前述描述,各种修改和改编对于相关领域的技术人员而言将变得显而易见。然而,对本发明教导的所有此类和类似修改仍将落入所附权利要求中所限定的本发明的范围内。

Claims (18)

1.一种用于空间音频编码的装置,包括部件,所述部件用于:
将与一个或多个音频信号的时频块相关联的两个或更多个能量比,转换为与所述两个或更多个能量比相关的另外的能量比参数;
使用第一量化器来量化所述另外的能量比参数;
取决于所述两个或更多个能量比中的第一能量比与所述两个或更多个能量比之和的比率,确定能量比的分布因子;
使用经量化的所述另外的能量比参数,从多个另外的量化器中选择另外的量化器;以及
使用所选择的所述另外的量化器来量化能量比的所述分布因子。
2.根据权利要求1所述的装置,其中所述两个或更多个能量比是两个直接与总能量比。
3.根据权利要求1和2所述的装置,其中所述另外的能量比参数是扩散与总能量比。
4.根据权利要求3所述的装置,其中所述扩散与总能量比包括一减去所述两个直接与总能量比之和。
5.根据权利要求2所述的装置,其中所述另外的能量比参数是所述两个直接与总能量比之和。
6.根据权利要求2至5所述的装置,其中能量比的所述分布因子包括:所述两个直接与总能量比中的第一直接与总能量比与所述两个直接与总能量比之和的比率。
7.根据权利要求2至6所述的装置,其中用于使用经量化的所述另外的能量比参数从多个另外的量化器中选择另外的量化器的所述部件包括用于以下项的部件:
将经量化的所述另外的能量比参数与阈值进行比较;以及
基于所述比较,从多个另外的量化器中选择所述另外的量化器。
8.根据权利要求2至7所述的装置,其中所述两个直接与总能量比中的第一直接与总能量比与声波的第一方向关联,并且所述两个直接与总能量比中的第二直接与总能量比与声波的第二方向关联,其中所述装置还包括继续进行部件,所述继续进行部件用于:
确定所述两个直接与总能量比中的第二直接与总能量比大于所述两个直接与总能量比中的第一直接与总能量比;
将所述两个直接与总能量比中的所述第一直接与总能量比交换为与所述第二方向关联;以及
将所述两个直接与总能量比中的所述第二直接与总能量比交换为与所述第一方向关联。
9.根据权利要求8所述的装置,其中与所述时频块关联的第一方向索引、第一扩展相干性和第一距离各自与所述声波的第一方向关联,并且其中与所述时频块关联的第二方向索引、第二扩展相干性和第二距离各自与所述声波的所述第二方向关联,其中确定了所述两个直接与总能量比中的所述第二直接与总能量比大于所述两个直接与总能量比中的所述第一直接与总能量比,所述装置还包括用于以下项中的至少一项的部件:
将所述第一方向索引交换为与所述第二方向关联,并且将所述第二方向索引交换为与所述第一方向关联;
将所述第一距离交换为与所述第二方向关联,并且将所述第二距离交换为与所述第一方向关联;以及
将所述第一扩展相干性交换为与所述第二方向关联,并且将所述第二扩展相干性交换为与所述第一方向关联。
10.一种用于空间音频编码的方法,包括:
将与一个或多个音频信号的时频块关联的两个或更多个能量比,转换为与所述两个或更多个能量比相关的另外的能量比参数;
使用第一量化器来量化所述另外的能量比参数;
取决于所述两个或更多个能量比中的第一能量比与所述两个或更多个能量比之和的比率,确定能量比的分布因子;
使用经量化的所述另外的能量比参数,从多个另外的量化器中选择另外的量化器;以及
使用所选择的所述另外的量化器来量化能量比的所述分布因子。
11.根据权利要求10所述的方法,其中所述两个或更多个能量比是两个直接与总能量比。
12.根据权利要求10和11所述的方法,其中所述另外的能量比参数是扩散与总能量比。
13.根据权利要求12所述的方法,其中所述扩散与总能量比包括一减去所述两个直接与总能量比之和。
14.根据权利要求11所述的方法,其中所述另外的能量比参数是所述两个直接与总能量比之和。
15.根据权利要求11至14所述的方法,其中能量比的所述分布因子包括:所述两个直接与总能量比中的第一直接与总能量比与所述两个直接与总能量比之和的比率。
16.根据权利要求11至15所述的方法,其中使用经量化的所述另外的能量比参数从多个另外的量化器中选择另外的量化器包括:
将量化的所述另外的能量比参数与阈值进行比较;以及
基于所述比较,从多个另外的量化器中选择所述另外的量化器。
17.根据权利要求11至16所述的方法,其中所述两个直接与总能量比中的第一直接与总能量比与声波的第一方向关联,并且所述两个直接与总能量比中的第二直接与总能量比与声波的第二方向关联,其中所述方法还包括上述处理步骤:
确定所述两个直接与总能量比中的第二直接与总能量比大于所述两个直接与总能量比中的第一直接与总能量比;
将所述两个直接与总能量比中的所述第一直接与总能量比交换为与所述第二方向关联;以及
将所述两个直接与总能量比中的所述第二直接与总能量比交换为与所述第一方向关联。
18.根据权利要求17所述的方法,其中与所述时频块关联的第一方向索引、第一扩展相干性和第一距离各自与所述声波的第一方向关联,并且其中与所述时频块关联的第二方向索引、第二扩展相干性和第二距离各自与所述声波的所述第二方向关联,其中确定了所述两个直接与总能量比中的所述第二直接与总能量比大于所述两个直接与总能量比中的所述第一直接与总能量比,所述方法还包括以下项中的至少一项:
将所述第一方向索引交换为与所述第二方向关联,并且将所述第二方向索引交换为与所述第一方向关联;
将所述第一距离交换为与所述第二方向关联,并且将所述第二距离交换为与所述第一方向关联;以及
将所述第一扩展相干性交换为与所述第二方向关联,并且将所述第二扩展相干性交换为与所述第一方向关联。
CN202180076948.3A 2020-09-14 2021-08-19 量化空间音频参数 Pending CN116508098A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB2014392.1A GB2598773A (en) 2020-09-14 2020-09-14 Quantizing spatial audio parameters
GB2014392.1 2020-09-14
PCT/FI2021/050557 WO2022053738A1 (en) 2020-09-14 2021-08-19 Quantizing spatial audio parameters

Publications (1)

Publication Number Publication Date
CN116508098A true CN116508098A (zh) 2023-07-28

Family

ID=73149732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180076948.3A Pending CN116508098A (zh) 2020-09-14 2021-08-19 量化空间音频参数

Country Status (6)

Country Link
US (1) US20230335143A1 (zh)
EP (1) EP4211684A1 (zh)
KR (1) KR20230069173A (zh)
CN (1) CN116508098A (zh)
GB (1) GB2598773A (zh)
WO (1) WO2022053738A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1079851A (en) * 1911-06-28 1913-11-25 Bernhard Fried Changeable sign.
MX2020005045A (es) * 2017-11-17 2020-08-20 Fraunhofer Ges Forschung Aparato y metodo para codificar o decodificar parametros de codificacion de audio direccional utilizando cuantificacion y codificacion entropica.
EP3762923A1 (en) * 2018-03-08 2021-01-13 Nokia Technologies Oy Audio coding
GB2572650A (en) * 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2572761A (en) * 2018-04-09 2019-10-16 Nokia Technologies Oy Quantization of spatial audio parameters
GB2575305A (en) * 2018-07-05 2020-01-08 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding

Also Published As

Publication number Publication date
US20230335143A1 (en) 2023-10-19
KR20230069173A (ko) 2023-05-18
WO2022053738A1 (en) 2022-03-17
EP4211684A1 (en) 2023-07-19
GB2598773A (en) 2022-03-16
GB202014392D0 (en) 2020-10-28

Similar Documents

Publication Publication Date Title
CN112639966A (zh) 空间音频参数编码和关联解码的确定
KR102587641B1 (ko) 공간적 오디오 파라미터 인코딩 및 연관된 디코딩의 결정
WO2021130404A1 (en) The merging of spatial audio parameters
US20240185869A1 (en) Combining spatial audio streams
CN114365218A (zh) 空间音频参数编码和相关联的解码的确定
EP4082010A1 (en) Combining of spatial audio parameters
CN114945982A (zh) 空间音频参数编码和相关联的解码
US20240046939A1 (en) Quantizing spatial audio parameters
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
GB2595871A (en) The reduction of spatial audio parameters
US20230335143A1 (en) Quantizing spatial audio parameters
US20240079014A1 (en) Transforming spatial audio parameters
CN113678199A (zh) 空间音频参数的重要性的确定及相关联的编码
WO2024115052A1 (en) Parametric spatial audio encoding
CN116508332A (zh) 空间音频参数编码和相关解码

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination