CN116547749A - 音频参数的量化 - Google Patents

音频参数的量化 Download PDF

Info

Publication number
CN116547749A
CN116547749A CN202080107712.7A CN202080107712A CN116547749A CN 116547749 A CN116547749 A CN 116547749A CN 202080107712 A CN202080107712 A CN 202080107712A CN 116547749 A CN116547749 A CN 116547749A
Authority
CN
China
Prior art keywords
audio parameter
value
parameter
quantized
previously
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080107712.7A
Other languages
English (en)
Inventor
A·拉莫
M-V·莱蒂南
L·拉克索南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN116547749A publication Critical patent/CN116547749A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

本发明尤其公开了一种用于音频编码的装置,该装置被配置为将音频参数与阈值以及取决于先前量化的音频参数的值相比较;将量化的音频参数计算为先前量化的音频参数增加预定值;以及将量化的音频参数计算为先前量化的音频参数乘以因子值。

Description

音频参数的量化
技术领域
本申请涉及用于量化低频音频声道的装置和方法,但不专用于量化音频编码器和解码器内的低频音频。
背景技术
用于多声道再现(诸如5.1)的典型扬声器布局包括“正常”扬声器声道和低频效果(LFE)声道。正常扬声器声道(例如,第5部分)包括宽带信号。使用这些声道,音频工程师可以例如将听觉对象定位到期望的方向。LFE声道(例如,第1部分)仅包括低频信号(<120Hz),它们通常使用低音扬声器(subwoofer)再现。LFE最初是为了再现单独的低频效果而开发的,但是也已经用于将声场的低频能量的一部分路由到低音扬声器。
所有常见的多声道扬声器布局,诸如5.1、7.1、7.1+4以及22.2,包括至少一个LFE声道。因此,期望具有扬声器再现的任何空间音频处理系统利用LFE声道。
如果到系统的输入是多声道混合(例如,5.1),并且输出是到多声道扬声器的设置(例如,5.1),则LFE声道不需要任何特定的处理,它可以直接路由到输出,然而,多声道信号可以被发送,通常音频信号要求压缩以便具有合理的比特率。
参数空间音频处理是音频信号处理领域,其中使用一组参数来描述声音的空间方面。例如,在从麦克风阵列捕获参数空间音频时,通常和有效的选择是从麦克风阵列信号中估计诸如在频带中的声音方向,以及频带中所捕获的声音的有向和非有向部分之间的比率的一组参数。已知这些参数能够很好的描述麦克风阵列位置处捕获的声音的感知空间属性,因此这些参数可以在空间声音的合成中被利用,用于双耳耳机,用于扬声器,或用于其它格式,如Ambisonics。
发明内容
根本第一方面,本发明提供了用于编码音频参数的装置,包括:用于将音频参数与阈值以及取决于先前量化的音频参数的值相比较的部件;用于当音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化的音频参数增加预定值的部件;以及用于当音频参数小于阈值或小于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化参数乘以因子值的部件。
装置还可以包括:用于将对以下的指示编码为比特流的部件:将音频参数大于阈值且大于取决于先前量化的音频参数的值;用于将对以下的指示编码为比特流的部件:音频参数小于阈值或小于取决于先前量化的音频参数的值。
装置还可以包括:用于确定先前量化的音频参数也已经通过增加了预定值而被确定的部件;以及用于当音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化的音频参数增加预定值的部件可以包括:用于当音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化参数增加乘以了增益因子的预定值的部件增益因子可以具有大于1的绝对值。
取决于先前量化的音频参数的值可以包括先前量化的音频参数增加预定值和先前量化的音频参数乘以阻尼因子的组合。
阻尼因子可以具有小于1的绝对值。
音频参数可以是空间音频参数。
音频参数可以是低频效果与总能量比率。
根据第二方面,用于解码音频参数的装置包括:用于从比特流解码指示的部件;用于当指示符指示音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化的音频参数增加预定值的部件;以及用于当指示符指示音频参数小于阈值或小于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化参数乘以因子值的部件。
装置还可以包括:用于从比特流解码与先前音频参数相关的指示的部件;用于确定与先前音频参数相关的指示指明量化的先前音频参数也已经通过增加预定值而被确定的部件;以及用于当音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化的音频参数增加预定值的部件可以包括:用于当音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化参数增加乘以了增益因子的预定值的部件
增益因子可以具有大于1的绝对值。
取决于先前量化的音频参数的值可以包括:增加了预定值的先前量化的音频参数和乘以了阻尼因子的先前量化的音频参数的组合。
阻尼因子可以具有小于1的绝对值。
音频参数可以是空间音频参数。
音频参数可以是低频效果与总能量比率。
根据第三方面,用于编码音频参数的方法包括:将音频参数与阈值以及取决于先前量化的音频参数的值进行比较;当音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化的音频参数增加预定值;以及当音频参数小于阈值或小于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化参数乘以因子值。
方法还可以包括,将对以下的指示编码为比特流:音频参数大于阈值且大于取决于先前量化的音频参数的值;将对以下的指示编码为比特流:音频参数小于阈值或小于取决于先前量化的音频参数的值
方法还可以包括:确定先前量化的音频参数也已经通过增加了预定值而被确定;以及当音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化的音频参数增加预定值可以包括:当音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化参数增加乘以了增益因子的预定值。
增益因子可以具有大于1的绝对值。
取决于先前量化的音频参数的值可以包括:增加了预定值的先前量化的音频参数和乘以了阻尼因子的先前量化的音频参数的组合。
阻尼因子可以具有小于1的绝对值。
音频参数可以是空间音频参数。
音频参数可以是低频效果与总能量比率。
根据第四方面,用于解码音频参数的方法包括:从比特流解码指示;当指示符指示音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化的音频参数增加预定值的;以及当指示符指示音频参数小于阈值或小于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化参数乘以因子值。
方法还可以包括:从比特流解码与先前音频参数相关的指示;确定与先前音频参数相关的指示指明量化的先前音频参数也已经通过增加预定值来确定;以及当音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化的音频参数增加预定值的部件可以包括用于当音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化参数增加乘以了增益因子的预定值的部件。
增益因子可以具有大于1的绝对值。
取决于先前量化的音频参数的值可以包括:增加了预定值的先前量化的音频参数和乘以了阻尼因子的先前量化的音频参数的组合。
阻尼因子可以具有小于1的绝对值。
音频参数可以是空间音频参数。
音频参数可以是低频效果与总能量比率。
根据第五方面,提供了一种用于解码音频参数的装置,其包括至少一个处理器和包括计算机代码的至少一个存储器,至少一个存储器和计算机代码被配置为,与至少一个处理器一起,使得装置至少执行:将音频参数与阈值以及取决于先前量化的音频参数的值的值进行比较;当音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化的音频参数增加预定值;以及当音频参数小于阈值或小于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化参数乘以因子值。
根据第六方面,提供了一种用于解码音频参数的装置,其包括至少一个处理器和包括计算机代码的至少一个存储器,至少一个存储器和计算机代码被配置为,与至少一个处理器一起,使得装置至少执行:从比特流解码指示;当指示符指示音频参数大于阈值并且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化的音频参数增加预定值;以及当指示符指示音频参数小于阈值或小于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化参数乘以因子值。
一种计算机程序,包括用于使计算机执行上述方法的程序指令。
存储在介质上的计算机程序产品可以使装置执行这里描述的方法。
电子设备可以包括如本文的装置。
芯片组可以包括这里描述的装置。
本申请的实施例旨在解决与现有技术相关联的问题。
附图说明
为了更好地理解本申请,现在将通过示例的方式参考附图,其中:
图1示意性地示出了适于实现一些实施例的装置的系统;
图2示出了根据一些实施例的如图1所示的系统的操作的流程图;
图3示意性地示出了适于实现一些实施例的捕获/编码装置;
图4示意性地示出了适于实现一些实施例的如图3所示的低频效果声道分析器装置;
图5示出了根据一些实施例的低频效果量化器装置的操作的流程图;
图6示意性地示出了适于实现一些实施例的再现装置;以及
图7示意性地示出了适于实现所示装置的示例设备。
具体实施方式
下面更详细的描述针对麦克风阵列和其他输入格式音频信号提供有效分析导出元数据参数的适当装置和可能机制。
装置已被设计为使用N(通常为2或在一些情况下N可以是单声道)传输音频信号和空间元数据来发送声场的空间音频模型。传输音频信号通常使用合适的音频编码机制(例如高级音频编码AAC或增强语音服务EVS编解码器)来压缩。空间元数据可以包括诸如在时间-频率域上的方向(例如方位角、仰角),以及在时间-频率域上的直接与总能量的比率(或能量或比率参数)之类的参数。
在下面的公开中,这种参数化可以表示为声场相关的参数化。在下面的公开中,使用方向和直接与总能量的比率(direction and the direct-to-total energy ratio)可以表示为方向比率参数化。除了这些参数之外,还可以使用其他参数(例如,扩散性不是直接与总能量的比率或者将距离参数添加到方向参数)。使用这种声场相关的参数化,类似于出现在始声场中的空间感知可以被再现。结果,收听者可以感知多个源的方向和距离,以及周围物理空间的属性,以及其它空间声音特征。
以下公开内容提出了如何与(方向和比率)空间参数化一起传送LFE信息的方法。因此,例如在多声道扬声器输入的情况下,实施例旨在忠实地再现原始LFE信号的感知。在一些实施例中,在麦克风阵列或Ambisonics输入的情况下,提出确定合理的LFE相关信号的装置和方法。
由于方向和直接与总能量的比率参数化(换言之方向比率参数化)涉及声场的人类感知,因此其目的在于传达可用于再现与原始声场一样感知的声场的信息。参数化对于再现系统是通用的,因为它可以被设计为适用于具有任何扬声器设置的扬声器再现以及耳机再现。因此,这种参数化对于通用音频编解码器是有用的,其中输入可以来自各种源(麦克风阵列、多声道扬声器、Ambisonics)并且输出可以到各种再现系统(耳机、各种扬声器设置)。
然而,由于方向比率参数化独立于再现系统,这也意味着不存在对应该从某个扬声器再现什么音频的直接控制。方向比率参数化确定要再现的声音的方向分布,这对于宽带扬声器通常是足够的。然而,LFE声道通常不具有任何“方向”。相反,它仅仅是音频工程师已经决定放置一定量的低频能量(和/或某一低频信号)的声道。
在下面的实施例中,可以生成LFE信息。在涉及多声道输入(例如,5.1)的实施例中,可随时获得LFE声道信息。然而,在一些实施例中,例如麦克风阵列输入,不存在LFE声道信息(因为麦克风正在捕捉真实的声音场景)。因此,在一些实施例中LFE声道信息被生成或合成(除了编码和传送该信息之外)。
实现LFE的生成或合成的实施例使得再现系统能够避免仅使用宽带扬声器来再现低频,并且使得能够使用低音炮或类似的输出设备。而且,这些实施例可以允许再现或合成系统避免使用低频的固定能量部分利用LFE扬声器进行再现,由于通常只有一个LFE扬声器,所以LFE扬声器可能在那些频率处失去所有方向性。然而,利用这里描述的实施例,可以利用LFE扬声器再现LFE信号(其不具有方向性),并且可以利用宽带扬声器再现信号的其它部分(其可以具有方向性),从而保持方向性。
类似的观察结果对于诸如Ambisonics输入的其它输入也是有效的。
下文实施例中所表达的概念涉及使用声场相关参数化(例如,频带中的方向和直接与总能量的比率)的音频编码和解码,其中实施例利用此参数化来传送(产生或接收)除(宽带)音频信号之外的低频效果(LFE)声道信息。在一些实施例中,可以通过获得音频信号来实现LFE声道(和宽带音频信号)信息的传输;计算一个或多个频带中的音频信号的LFE能量与总能量的比率;使用音频信号确定方向参数、能量比率参数110(包括每个方向的直接与总能量的比率和扩散与总能量的比率)和相干性参数112;将这些LFE与总能量的比率(换言之,LFE元数据)连同相关联的音频信号和方向以及直接与总能量的比率参数一起量化和传输。此外,在这样的实施例中,可以使用LFE与总能量的比率和相关联的音频信号为LFE声道合成音频;以及使用LFE与总能量的比率(LFE元数据)、方向、直接与总能量的比率和相干性参数以及相关联的音频信号来合成其他声道的音频。
本文所公开的实施例还呈现用于使用低比特速率表示来量化与LFE声道相关联的LFE与总能量的比率的装置和方法。这使得LFE声道能够与以相对低比特率操作的编码多声道音频信号一起被发送。例如,以大约13kb/s的总比特率操作的多声道音频编码系统可能要求在50-200b/s的范围内量化LFE声道。
在一些实施例中,系统的输入音频信号可以是多声道音频信号、麦克风阵列信号或Ambisonic音频信号。
所传送的相关音频信号(1-N,例如2个音频信号)可以通过任何适当的手段来获得,例如通过对输入音频信号进行缩减混音、选择或处理。
可以使用任何合适的方法或装置来确定方向和直接与总能量的比率参数。
如上,在输入是多声道音频输入的一些实施例中,可以直接从多声道信号估计LFE能量和总能量。然而,在一些实施例中,公开了用于确定LFE与总能量的比率的装置和方法,其中LFE与总能量的比率可用于在没有接收到LFE声道信息的情况下生成合适的LFE信息,例如麦克风阵列或Ambisonics输入。因此,这可以基于所分析的直接与总能量比:如果声音是有向的,则LFE与总能量的比率较小;如果声音是非有向的,则LFE与总能量的比率较大。
在一些实施例中,提供了用于从多声道信号连同Ambisonic信号一起传送LFE信息的装置和方法。这基于以下详细讨论的方法,其中与声场相关的参数化和相关联的音频信号一起执行传输,但是在这种情况下,使用Ambisonic信号来传送空间方面,并且使用LFE与总能量的比率来传送LFE信息。
此外,在一些实施例中,提供了用于将第一数据流(音频和元数据)(其中元数据不包含LFE与总能量的比率)转码为第二数据流(音频和元数据)(其中将合成的LFE与总能量的比率注入到元数据中)的装置和方法。
参考图1,示出了用于实现本申请的实施例的示例装置和系统。系统171被示为具有‘分析’部分121和‘合成’部分131。‘分析’部分121是从接收输入(多声道扬声器、麦克风阵列、高保真度立体声像复制)音频信号100直到对可以被传送或存储104的元数据和传输信号102进行编码的部分。‘合成’部分131可以是从编码的元数据和传输信号104的解码到再生信号的呈现的部分(例如,经由扬声器107以多声道扬声器形式106)。
系统171和‘分析’部分121的输入因此是音频信号100。这些可以是合适的输入多声道扬声器音频信号、麦克风阵列音频信号或高保真度立体声像复制音频信号。
输入音频信号100可以被传递到分析处理器101。分析处理器101可以被配置为接收输入音频信号并生成包括合适的传输信号的合适的数据流104。传输音频信号也可以被称为相关音频信号并且基于的是该音频信号。例如,在一些实施例中,传输信号发生器301被配置为例如通过波束成形技术将输入音频信号降混或以其他方式选择或组合到确定数量的声道,并将这些作为传输信号输出。在一些实施例中,分析处理器被配置为生成麦克风阵列音频信号的2音频声道输出。所确定的声道数目可以是两个或任何合适的声道数目。
在一些实施例中,分析处理器被配置为以与传输信号相同的方式将接收到的未经处理的输入音频信号100传递到编码器。在一些实施例中,分析处理器101被配置为选择麦克风音频信号中的一个或多个并输出该选择用于传输或存储104。在一些实施例中,分析处理器101被配置为对传输音频信号应用任何合适的编码或量化。
在一些实施例中,分析处理器101还被配置为分析输入音频信号100以产生与输入音频信号相关联(并且因此与传输信号相关联)的元数据。分析处理器101例如可以是计算机(运行存储在存储器和至少一个处理器上的适当软件)、移动设备、或者可替换地可以是利用例如FPGA或ASIC的特定设备。如在这里更详细地示出的,对于每个时间-频率分析间隔,元数据可以包括方向参数、能量比率参数和低频效果声道参数(并且在一些实施例中还包括周围相干性参数,以及扩展相干性参数和其它参数)。在一些实施例中,方向参数和能量比率参数可以被认为是空间音频参数。换言之,空间音频参数包括旨在表征输入音频信号的声场的参数。
在一些实施例中,分析处理器101包括时间-频率域变换器。
在一些实施例中,时间-频率域变换器被配置为接收输入多声道信号,并应用适当的时间-频率域变换,例如短时傅立叶变换(STFT),以便将输入时域信号转换为适当的时间-频率信号。这些时间-频率信号可以被传递到空间分析器303。
因此,例如,时间-频率信号可以在时间-频率域表示中表示为
si(b,n),
其中b是频点索引,n是时间-频率块(帧)索引,i是声道索引。在另一个表达式中,n可以被认为是采样速率低于原始时域信号的采样速率的时间索引。这些频点可以被分组成子频带,该子频带将一个或多个点分组成频带索引k=0,...,K-1.的子频带。每个子带k具有最低的点bk,low和最高的点bk,high,并且子带包含从bk,low到bk,high的所有点。子带的宽度可以近似于任何合适的分布。例如,等效矩形带宽(ERB)标度或Bark标度。
因此,时间频率(TF)分块(tile)(或块)是帧的子帧内的特定子带。
可以理解,表示空间音频参数的所需比特数目可以至少部分的取决于TF(时间频率)分块分辨率(即,TF子帧或者分块的数目)。例如,20ms音频帧可以被分为5ms一片的4个时域子帧,且每个时域子帧可以具有根据Bark标度、其近似值或任何其他合适的划分在频域中划分的多达24个频率子带。在此特定实例中,音频帧可划分为96个TF子帧/分块,换句话说,具有24个频率子带的4个时域子帧。因此,表示音频帧的空间音频参数所需的比特数可取决于TF分块分辨率。
在一些实施例中,所生成的参数可以随频带而不同,并且可以特别地取决于传输比特速率。因此,例如在频带X中所有参数被生成和发送,而在频带Y中仅一个参数被生成和发送,此外在频带Z中没有参数被生成和发送。这种情况的实际示例可以是,对于诸如最高频带的一些频带,出于感知原因不需要一些参数。
传输信号和元数据102可以被发送或存储,这在图1中由虚线104示出。在传输信号和元数据被传送或存储之前,在一些实施例中,它们可以被编码以降低比特率,并被复用为一个流。可以使用任何适当的方案来实现编码和复用。
在解码器侧131,接收或获取的数据(流)可输入到合成处理器105。合成处理器105可以被配置为将数据(流)解复用为编码传输和元数据。合成处理器105然后可以解码任何编码流,以便获得传输信号和元数据。
合成处理器105然后可以被配置为接收传输信号和元数据,并基于传输信号和元数据创建合适的多声道音频信号输出106(其可以是任何合适的输出格式,诸如双声道、多声道扬声器或Ambisonics信号,取决于使用情况)。在具有扬声器再现的一些实施例中,(使用扬声器107)再现具有期望的感知特性的实际物理声场。在其他实施例中,声场的再现可以被理解为是指通过除了再现空间中的实际物理声场之外的其他方式来再现声场的感知特性。例如,可以使用这里描述的双耳再现方法在耳机上再现声场的期望感知特性。在另一示例中,声场的感知特性可被再现为Ambisonic输出信号,并且这些Ambisonic信号可用Ambisonic解码方法来再现,以提供例如具有期望感知特性的双耳输出。
在一些实施例中,合成处理器105可以是计算机(运行存储在存储器和至少一个处理器上的适当软件)、移动设备,或者可替换地,可以是利用例如FPGA或ASIC的特定设备。
关于图2,示出了图1所示的概观的示例流程图。
首先,系统(分析部分)被配置为接收输入音频信号或合适的多声道输入,如图2的步骤201所示。
然后,系统(分析部分)被配置为生成传输信号声道或传输信号(例如基于多声道输入音频信号的声道缩减混音/选择/波束成形),如图2的步骤203所示
系统(分析部分)还被配置为分析音频信号以生成元数据:方向;能量比率,LFE比率(以及在一些实施例中其他元数据诸如周围一致性;传播相干性),如图2的步骤205所示。
然后,系统被配置为(可选地)编码传输信号和具有相干参数的元数据以用于存储/传输,如图2的步骤207所示。
此后,系统可存储/发送传输信号和元数据(可包括相干参数),如图2的步骤209所示。
系统可以获取/接收传输信号和元数据,如图2的步骤211所示。
然后,系统被配置成从传输信号和元数据中提取,如图2的步骤213所示。
系统(合成部分)被配置成基于所提取的音频信号和元数据来合成输出空间音频信号(如先前所讨论的,其可以是任何合适的输出格式,诸如双声道、多声道扬声器或Ambisonics信号,取决于使用情况),如图2中步骤215所示。
参考图3,示出了根据一些实施例的示例分析处理器101,其中输入音频信号是多声道扬声器输入。在该示例中,多声道扬声器信号300被传递到传输音频信号发生器301。传输音频信号发生器301被配置为根据前述任一项选项生成传输音频信号。例如,传输音频信号可以从输入信号缩减混音。传输音频信号的数量可以是任何数目,并且可以是2或多于或少于2。
在图3所示的示例中,多声道扬声器信号300也被输入到空间分析器303。空间分析器303可以被配置为生成适当的空间元数据输出,诸如方向304和直接与总能量的比率306所示。分析的实现可以是任何合适的实现,只要它可以提供方向,例如方位角θ(k,n)和在时间-频率域中的直接与总能量的比率ratio r(k,n)(k是频带索引,n是时间帧索引)。
例如,在一些实施例中,空间分析器303将多声道扬声器信号变换为一阶Ambisonics(FOA)信号,并且在时间-频率域中执行方向和比率估计。
一个FOA信号由四个信号组成:全向的w(t)和三个8字形图案x(t)、y(t)和z(t)正交排列。让我们假设它们是时间-频率中的变换形式:w(k,n)、x(k,n)、y(k,n)、z(k,n)。使用SN3D归一化方案,其中每个模式的最大方向响应是1。
从FOA信号,可以估计指向到达方向的矢量:
该矢量的方向是方向θ(k,n)。括号<.>表示在时间和/或频率上的电位平均。注意,当进行平均时,对于每个时间和频率,方向数据可以不需要被表示或存储。
比率参数可以通过以下获得:
为了将上述公式用于扬声器输入,则扬声器信号Si(t)(其中i是声道索引)可以被变换成FOA信号:
w、x、y和z信号是为具有其自身的方位角和仰角方向的每个扬声器信号si生成的。组合所有这些信号的输出信号是
还可以将多声道扬声器信号300输入到LFE分析器305。LFE分析器305可被配置为产生LFE与总能量的比率308(其通常也可称为低或较低频率效果与总能量的比率)。
可以将LFE分析器305的输出传递到LFE量化器309,以便LFE与总能量之比率308可以被量化,以提供量化的LFE与总能量的比率311。
空间分析器还可以包括多路复用器307,其被配置为组合和编码传输音频信号302、方向304、直接与总能量的比率306、相干性310和量化的LFE与总能量的比率311,以生成数据流102。多路复用器307可被配置成使用合适的编解码器(例如,AAC或EVS)来压缩音频信号,此外,如上所述压缩元数据。
对于图4,示出了如先前图3所示的示例LFE分析器305。
示例LFE分析器305可以包括时间-频率变换器401,其被配置为接收多声道扬声器信号并使用适当的变换(例如短时傅立叶变换(STFT)、复调制正交镜像滤波器组(QMF)或混合QMF,该混合QMF是在最低频带处具有级联频带分割滤波器的复QMF组,以提高频率分辨率)将多声道扬声器信号变换到时间-频率域中。所得到的信号可以被表示为Si(b,n),其中i是扬声器声道,b是频率点索引和n是时间帧索引。
在一些实施例中,LFE分析器305可以包括能量(对于每个声道)确定器403,其被配置为接收时间-频率音频信号并通过以下方式确定每个声道的能量:
Ei(b,n)=Si(b,n)2
频率点的能量可以被分组成频带,该频带将一个或多个点分组成频带索引k=0,...,k-1
每个频带k具有最低的点bk,low和最高的点bk,high,并且该频带包含从bk,low到bk,high的所有点。频带的宽度可以近似于任何合适的分布。例如,在空间音频处理中通常使用等效矩形带宽(ERB)标度或Bark标度。
在一些实施例中,LFE分析器305可包括被配置成从能量确定器403接收能量404的比率(在LFE声道和所有声道之间)确定器405。比率(在LFE声道和所有声道之间)确定器405可以被配置为通过以保持LFE感知的方式选择低频频带来确定LFE与总能量的比率。例如,在一些实施例中,可以在低频(0-60和60-120Hz)选择两个频带,或者如果期望最小比特率,则可以仅使用一个频带(0-120Hz)。在一些实施例中,可以使用大量的频带,频带的频率边界可以不同或者可以部分重叠。此外,在一些实施例中,可以在时间轴上对能量估计进行平均。
然后,LFE与总能量的比率Ξ(k,n)可以被计算为LFE声道的能量之和与所有声道的能量之和的比率,例如通过使用以下计算:
然后,可以输出LFE与总能量的比率Ξ(k,n)308并将其传递给LFE量化器309。有时LFE信号可能与声道子集缩减混音。在这种情况下,上述表达式可以写为LFE声道的能量之和与声道子集的能量之和的比率的形式。
在实施例中,LFE量化器309可被安排成具有多量化器方法,由此特定量化器可用于根据LFE声道的工作比特率和对LFE与总能量的比率本身执行的分析结果来量化LFE与总能量的比率。
例如,LFE量化器309可以被安排成具有以下功能:
o确定帧的最大LFE与总能量的比率,记住每个帧可以被划分成多个TF分块。即,帧中所有LFE与总能量的比率的最大LFE与总能量的比率,由此帧中的每个TF分块(k,n)可以具有计算出的LFE与总能量的比率Ξ(k,n)。
o如果所确定的帧的最大LFE与总能量的比率低于预定阈值,则发送一比特(用于该帧)指示该帧没有量化的LFE与总能量的比率。
o如果所确定的帧的最大LFE与总能量的比率高于预定阈值,则确定该帧的TF分块上的平均LFE与总能量的比率。
o根据编码比特率,使用多个比特率之一来量化和发送平均LFE与总能量的比率。例如,平均LFE与总能量的比率可以根据多个不同的比率被标量量化。然后可以从一组矢量量化器(VQ)中选择基于量化的平均LFE与总能量的比率的矢量量化器(VQ)。所选择的矢量量化器然后可被用于量化每个子帧的平均去除LFE与总能量的比率。
图5示出了如何将LFE量化器309配置成具有能够根据多种不同量化方案来量化LFE与总能量的比率的LFE与总能量的比率的量化方案。在这种情况下,存在LFE与总能量的比率量化方案,该方案结合了一个判决环,该判决环允许对帧中的LFE与总能量的比率进行标量或矢量量化。
图5示出了最初基于编码比特率做出的决定,其中如果可用编码比特率高于阈值比特率值(Thresh_bitrate),则可以选择用于帧的LFE与总能量的比率的量化的较高速率方案。较高速率方案可以基于标量或矢量量化或两者。该判定路径在图5中被示为502。然而,如果帧的可用编码比特率小于阈值比特率值,则基于跟踪与LFE声道相关联的能量的量的低速率量化方案,目的是保持对原始声音(在LFE声道内)的感知。该路径在图5中示为504。
使用低速率量化方法(根据图5中的503)对LFE与总能量的比率进行编码的一种解决方案是简单地使用比特来表示子帧或帧的LFE与总能量的比率是否高于预定阈值。该方法可以使用每子帧1比特来发信号通知/量化LFE与总能量的比率。
在低速率处进行编码/量化LFE与总能量的比率的另一解决方案(根据图5中的503)是使用三角积分类型的方法,由此使用单个比特来调制从一帧到下一帧(或从一个子帧到下一个子帧)的LFE与总能量的比率的值。
在编码侧,这可以通过将当前LFE与总能量的比率(当前帧或子帧的LFE与总能量的比率)与预定阈值以及从先前量化的LFE与总能量的比率导出的值进行比较来实现。导出的值可以是将先前(存储的)量化的LFE与总能量的比率增加固定量(β)的一个项与增加一定滞后程度的第二项的组合,该滞后程度消除了当前量化的LFE与总能量的比率的任何突然变化。第二项可以通过将先前量化的LFE与总能量的比率乘以阻尼因子(α)来公式化。
在编码侧,当当前LFE与总能量的比率大于预定阈值以及从先前量化的LFE与总能量的比率导出的值时,LFE量化器309可被设置为将先前量化的LFE与总能量的比率增加固定量β。该增加的先前量化的LFE与总能量的比率变成当前帧的量化的LFE与总能量的比率,其被存储以准备用作下一帧的先前量化的LFE与总能量的比率。应用于先前量化的LFE与总能量的比率的增加(通过量β)可以通过单个比特的状态来表示。例如,状态“1”可以表示先前量化的LFE与总能量的比率的增加。
相反地,在编码侧,当当前LFE与总能量的比率小于(或等于)预定阈值或从先前量化的LFE与总能量的比率导出的值时,则LFE量化器309可被布置为不将先前量化的LFE与总能量的比率增加固定量β。在这种情况下,先前量化的LFE与总能量比可由阻尼因子α阻尼。换言之,下一帧的先前量化的LFE与总能量的比率是当前帧的量化的LFE与总能量的比率乘以因子α。对先前量化的LFE与总能量比(其形成当前量化的LFE与总能量比)的有效降低也可以通过单个比特的状态来表示。例如,状态“0”可以表示先前量化的LFE与总能量比的减小。
在时刻t的用于量化当前帧LFE与总能量的比率的上述算法可由以下伪代码表示:
伪代码:
/>
在另外的实施例中,可能需要在逐帧的基础上更快地对LFE与总能量的比率的变化作出反应。这可以通过存储先前采取的是增加还是减少先前帧的先前量化的LFE与总能量的比率的来安排。即,在时刻t,在当前帧进行决定的情况下,上述先前决定可以指对时刻t-1的帧进行的决定。然后,是否需要对LFE与总能量的比率的变化作出更快的反应的结果可以基于先前更新决定和当前更新决定两者是否都指示量化的LFE与总能量的比率应该增加。
换句话说,如果先前的更新决定表明量化的LFE与总能量的比率增加,则当前帧的更新决定也表明量化的LFE与总能量的比率增加。然后可以确定量化的LFE与总能量的比率应该增加较大的量,例如由β*θ给出的量,其中θ大于1。
就上述伪码而言,量化的LFE与总能量的比率的增加(变化率)的条件是由为当前帧发送“1”的决定连同为前一帧发送“1”的决定一起产生的。这个进一步的实施例可以在伪代码中反映为
伪代码:
/>
回到图5,如果LFE与总能量的比率的可用编码率大于阈值比特率(Thresh_bitrate),则可以采用路径502。路径502使用可以是标量和矢量量化的组合的较高速率量化方案来编码帧的每个子帧的LFE与总能量的比率。最初,针对LFE活动阈值检查子帧的LFE与总能量的比率(图5,505)。如果超过该阈值,则进入量化过程以量化每个(子)帧的LFE与总能量的比率(图5,506)。然而,如果不超过阈值,则整个帧的LFE与总能量的比率不被量化(图5,507)。
在进入用于量化每个子帧的LFE与总能量的比率的量化过程后(路径506,图5),该过程可以使用log2域中的标量量化器来量化该帧的平均LFE与总能量的比率。这在图5中被示为处理块509。
然后过程可检查可用编码率是否高于较高阈值比特率(H_Thresh_Bitrate,511,图5)。如果在511处的检查指示(帧的)可用编码率高于较高阈值比特率,则帧的所有子帧的LFE与总能量的比率的量化可进入进一步的处理阶段。进一步的处理阶段可以包括形成每个帧的残余LFE与总能量的比率向量,由此通过从对应于该帧中每个子帧的LFE与总能量的比率中减去量化的平均LFE与总能量的比率(在框509中形成)来形成向量的每个分量。图5中还描绘了处理块513,其表示当帧的可用编码率低于较高阈值比特率时,没有进一步的量化。
然后可以使用多个不同码本中的一个来量化LFE与总能量的比率向量。用于量化LFE与总能量的比率向量的码本的大小可以取决于量化的平均LFE与总能量的比率的大小。因此,从低值量化平均LFE与总能量的比率导出的LFE与总能量的比率向量可使用较小大小的码本来编码LFE与总能量的比率向量,且从高值量化平均LFE与总能量的比率导出的LFE与总能量的比率向量可使用较大大小的码本来编码LFE与总能量的比率向量。处理块515描绘了形成图5中的残余LFE与总能量的比率向量的步骤。
关于图5,根据实际实现来布置根据量化的平均LFE与总能量的比率的大小的选择码本大小的过程。在此实例中,量化平均LFE与总能量的比率的索引用于选择码本。然后使用所选择的码本量化LFE与总能量的比率矢量。在此实例中,低值索引1将对应于最低量化平均LFE与总能量的比率,这反过来导致最小1比特码本的选择(在图5中描绘为处理块517、519)。然而,相反,“4及以上”的量化平均LFE与总能量的比率索引将对应于较高量化平均LFE与总能量的比率,其又导致最大4比特码本的选择(在图5中描绘为处理块529、531)。在这两个极端之间是对应于用2比特码本量化LFE与总能量的比率矢量的处理块521和523,以及对应于用3比特码本量化LFE与总能量的比率矢量的处理块525、527。
应当理解,图5中描述的每个量化例程可以实现为用于量化帧的LFE与总能量的比率的独立过程,并且需要如图5的处理流程所描绘的那样耦合在一起。换言之,这意味着图5503的低速率量化方案可以被实现为独立的独立例程,而不必根据路径502进入矢量量化方案。因此,在503的上下文中描述的三角积分类型方法可以实现为用于量化帧的LFE与总能量的比率的独立特征。
关于图6,示出了根据一些实施例的适于处理复用器的输出的示例合成处理器105。
如图6所示的合成处理器105示出了解复用器600。解复用器600被配置为接收数据流102,并且对音频信号和/或元数据进行解复用和/或解压缩或解码。方向604、直接与总能量的比率606和相干性614也可从解复用器600解复用并传递到空间合成器605。
然后可以将传输音频信号602输出到滤波器组603。滤波器组603可以被配置为执行时间-频率变换(例如STFT或复QMF)。滤波器组603被配置为在低频具有足够的频率分辨率,使得可以根据LFE与总能量的比率的频率分辨率来处理音频。例如,在复杂QMF滤波器组实现的情况下,如果频率分辨率不够好(即,频率点在频率上太宽),则可以使用级联滤波器将频率点进一步在低频上划分到较窄频带,并且可以相应地延迟高频。因此,在一些实施例中,混合QMF可以实现该方法。
在一些实施例中,由解多路复用器601输出的LFE与总能量的比率608用于两个频带(与滤波器组频带b0和b1相关联)。滤波器组转换信号,使得时间-频率域传输音频信号Ti(b,n)两个(或识别LFE频率范围的任何定义的数字)最低频点对应于这些频带,并被输入到LFE确定器609。
确定器609可以被配置为接收传输音频信号Ti(b,n)的(两个或其他定义数目的)最低频点以及LFE与总能量的比率索引。然后,LFE确定器609可被配置成从LFE对总能量的比率指数形成量化的LFE对总能量的比率。在实施例中,这可以通过解量化操作来执行。对于采用三角积分方法来量化LFE与总能量的比率的实施例,LFE确定器609可被安排成接收指示当前帧的量化的LFE与总能量的比率的值是通过增大先前帧量化的LFE与总能量还是减小先前帧量化的LFE与总能量来形成的比特(或指示)。
在接收到指示当前帧的量化的LFE与总能量的比率是通过增加先前帧量化的LFE与总能量来计算的比特的情况下,在上述伪代码的上下文中,信令比特被接收为“1”。当前帧的量化的LFE与总能量的比率可以通过从先前帧获得存储的量化的LFE与总能量的比率并将其值增加β的值来计算。
在另一实施例中,由此在计算当前帧的量化LFE与总能量的比率期间也考虑前一帧的信令比特。在前一帧的信令比特也指示“1”(即前一帧也具有量化的LFE与总能量的比率的增加)的情况下。然后,当前帧的量化的LFE与总能量的比率可以通过从先前帧获得存储的量化的LFE与总能量的比率并将其值增加β*θ的较大值来计算。
在接收到指示当前帧的量化的LFE与总能量的比率是通过减小前一帧量化的LF与总能量来计算的比特的情况下,在上述伪代码的上下文中,信令比特被接收为“0”。当前帧的量化的LFE与总能量的比率可以通过从先前帧取得存储的量化的LFE与总能量的比率并通过阻尼因子α对其值进行阻尼来计算。
用于在LFE确定器609处对当前帧在时刻t解量化LFE与总能量的比率的过程可由以下伪代码表示:
然后LFE确定器可以例如通过如下计算来生成LFE信道:
其中p例如为0.5。在一些实施例中,逆滤波器组611被配置成接收来自空间合成器605的多声道扬声器信号和从LFE确定器609输出的LFE信号时间-频率信号610。这些信号可以被组合或合并,并且进一步被转换到时域。
在一些实施例中,传输信号可以在被馈送到空间合成器605之前被修改。对于每个声道i,修改可以采取以下形式:
T′i(b,n)=(1-Ξ(b,n))pTi(b,n)
可以使用扬声器设置来再现所得到的多声道扬声器信号(例如5.1)612。
关于图7,示出了可以用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1400是移动设备、用户设备、平板计算机、计算机、音频回放装置等。
在一些实施例中,设备1400包括至少一个处理器或中央处理单元1407。处理器1407可以被配置为执行各种程序代码,例如这里描述的方法。
在一些实施例中,设备1400包括存储器1411。在一些实施例中,至少一个处理器1407被耦合到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中,存储器1411包括用于存储可在处理器1407上实现的程序代码的程序代码段。此外,在一些实施例中,存储器1411还可以包括用于存储数据的存储数据段,例如已经根据在此描述的实施例处理或将要处理的数据。每当需要时,处理器1407可以经由存储器-处理器耦合来检索存储在程序代码段内的所实现的程序代码和存储在所存储的数据段内的数据。
在一些实施例中,设备1400包括用户接口1405。在一些实施例中,用户接口1405可以耦合到处理器1407。在一些实施例中,处理器1407可以控制用户接口1405的操作并且从用户接口1405接收输入。在一些实施例中,用户接口1405可以使用户能够例如经由键盘向设备1400输入命令。在一些实施例中,用户接口1405可以使用户能够从设备1400获得信息。例如,用户接口1405可以包括被配置为向用户显示来自设备1400的信息的显示器。在一些实施例中,用户接口1405可以包括触摸屏或触摸接口,该触摸屏或触摸接口均能够使信息能够被输入到设备1400并且进一步向设备1400的用户显示信息。
在一些实施例中,设备1400包括输入/输出端口1409。在一些实施例中,输入/输出端口1409包括收发器。这样的实施例中的收发器可以耦合到处理器1407,并且被配置为例如经由无线通信网络实现与其他装置或电子设备的通信。在一些实施例中,收发器或任何合适的收发器或发射器和/或接收器装置可以被配置为经由有线或有线耦合与其他电子设备或装置通信。
收发器可以通过任何合适的已知通信协议与其它装置通信。例如,在一些实施例中,收发器或收发器装置可以使用合适的通用移动电信系统(UMTS)协议,诸如IEEE 802.X的无线局域网(WLAN)协议,诸如蓝牙的合适的短距离射频通信协议,或红外数据通信路径(IRDA)。
收发器输入/输出端口1409可以被配置成接收扬声器信号并且在一些实施例中通过使用执行适当代码的处理器1407来确定如在此描述的参数。此外,该设备可以生成适当的传输信号和参数输出,以传输到合成设备。
在一些实施例中,设备1400可用作合成设备的至少一部分。这样,输入/输出端口1409可以被配置为接收传输信号,并且在一些实施例中接收在如本文的捕获设备或处理设备处确定的参数,并且通过使用处理器1407执行合适的代码来生成合适的音频信号格式输出。输入/输出端口1409可以耦合到任何合适的音频输出,例如耦合到多声道扬声器系统和/或耳机等。
通常,本发明的各种实施例可以用硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以用硬件来实现,而其他方面可以用固件或软件来实现,这些固件或软件可以由控制器、微处理器或其他计算设备来执行,但是本发明不限于此。虽然本发明的各方面可被示为和描述为框图、流程图,或使用一些其它图形表示,但很好理解,本文描述的这些框、装置、系统、技术或方法可作为非限制性示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或其一些组合中实现。
本发明的实施例可以通过可由移动设备的数据处理器(例如在处理器实体中)执行的计算机软件,或者通过硬件,或者通过软件和硬件的组合来实现。此外,在这点上,应当注意,图中的逻辑流程的任何框可以表示程序步骤,或互连的逻辑电路、框和功能,或程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储器块之类的物理介质上,诸如硬盘或软盘之类的磁介质、以及诸如DVD及其数据变体、CD之类的光介质上。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何合适的数据存储技术来实现,例如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器。作为非限制性示例,数据处理器可以是适合于本地技术环境的任何类型,并且可以包括通用计算机、专用计算机、微处理器,数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一个或多个。
本发明的实施例可以在诸如集成电路模块的各种组件中实现。集成电路的设计大体上是高度自动化的过程。复杂且强大的软件工具可用于将逻辑级设计转换成准备在半导体衬底上蚀刻和形成的半导体电路设计。
诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的CadenceDesign所提供的程序,使用良好建立的设计规则以及预存储的设计模块库在半导体芯片上自动地路由导体和定位组件。一旦完成了半导体电路的设计,就可以将标准化电子格式(例如Opus、GDSII等)的所得设计传输到半导体制造设施或半导体制造厂的“晶圆厂”。
前面的描述已经通过示例性和非限制性的示例提供了本发明的示例性实施例的完整和信息性的描述。然而,当结合附图和所附权利要求书阅读时,鉴于前述描述,各种修改和调适对于相关领域的技术人员可变得显而易见。然而,本发明教导的所有这些和类似修改仍将落入所附权利要求限定的本发明的范围内。

Claims (30)

1.一种用于编码音频参数的装置,包括:
用于将所述音频参数与阈值以及与取决于先前量化的音频参数的值相比较的部件;
用于当所述音频参数大于所述阈值、并且大于取决于所述先前量化的音频参数的值时将量化的音频参数计算为所述先前量化的音频参数增加预定值的部件;以及
用于当所述音频参数小于所述阈值、或小于取决于所述先前量化的音频参数的值时将所述量化的音频参数计算为所述先前量化的音频参数乘以因子值的部件。
2.根据权利要求1所述的装置,其中所述装置还包括:
用于将对以下的指示编码为比特流的部件:所述音频参数大于所述阈值、且大于取决于所述先前经量化的音频参数的值;以及
用于将对以下的指示编码为比特流的部件:所述音频参数小于所述阈值、或小于取决于所述先前量化的音频参数的值。
3.根据权利要求1和2所述的装置,其中所述装置还包括:
用于确定所述先前量化的音频参数也已经通过增加了所述预定值而被确定的部件;以及
其中用于当所述音频参数大于所述阈值、并且大于取决于所述先前量化的音频参数的值时将所述量化的音频参数计算为所述先前量化的音频参数增加所述预定值的部件包括:用于当所述音频参数大于所述阈值、并且大于取决于所述先前量化的音频参数的值时将所述量化的音频参数计算为所述先前量化的音频参数增加乘以了增益因子所述预定值的部件。
4.根据权利要求3所述的装置,其中所述增益因子具有大于1的绝对值。
5.根据权利要求1至4所述的装置,其中取决于所述先前量化的音频参数的值包括:增加了预定值的所述先前量化的音频参数和乘以了阻尼因子的所述先前量化的音频参数的组合。
6.根据权利要求5所述的装置,其中所述阻尼因子具有小于1的绝对值。
7.根据权利要求1至6所述的装置,其中所述音频参数是空间音频参数。
8.根据权利要求1至6所述的装置,其中所述音频参数是低频效果与总能量比率。
9.一种用于解码音频参数的装置,包括:
用于从比特流解码指示的部件;
用于当指示符指示所述音频参数大于阈值、且大于取决于先前量化的音频参数的值时将量化的音频参数计算为的先前量化的音频参数增加预定值的部件;以及
用于当所述指示符指示所述音频参数小于所述阈值、或小于取决于所述先前量化的音频参数的值时将所述量化的音频参数计算为所述先前量化的音频参数乘以因子值的部件。
10.根据权利要求9所述的装置,其中所述装置还包括:
用于从所述比特流解码与先前音频参数有关的指示的部件;
用于确定与所述先前音频参数相关的所述指示指明量化的先前音频参数也已经通过增加所述预定值而被确定的部件;以及
其中用于当所述音频参数大于所述阈值、并且大于取决于所述先前量化参数的值时将所述量化的音频参数计算为所述先前量化的音频参数增加所述预定值的部件包括:用于当所述音频参数大于所述阈值、并且大于取决于所述先前量化的音频参数的值时将所述量化的音频参数计算为所述先前量化的音频参数增加乘以了增益因子的所述预定值的部件。
11.根据权利要求10所述的装置,其中所述增益因子具有大于1的绝对值。
12.根据权利要求9至11所述的装置,其中取决于所述先前量化的音频参数的值包括:增加了预定值的先前量化的音频参数和乘以了阻尼因子的所述先前量化的音频参数的组合。
13.根据权利要求12所述的装置,其中所述阻尼因子具有小于1的绝对值。
14.根据权利要求9至13所述的装置,其中所述音频参数是空间音频参数。
15.根据权利要求9至13所述的装置,其中所述音频参数是低频效果与总能量比率。
16.一种用于编码音频参数的方法,包括:
将所述音频参数与阈值以及与取决于先前量化的音频参数的值进行比较;
当所述音频参数大于所述阈值、并且大于取决于所述先前量化的音频参数的值时,将量化的音频参数计算为所述先前量化的音频参数增加预定值;以及
当所述音频参数小于所述阈值、或小于取决于所述先前量化的音频参数的值时,将所述量化的音频参数计算为所述先前量化的音频参数乘以因子值。
17.根据权利要求16所述的方法,其中所述方法还包括:
将对以下的指示编码为比特流:所述音频参数大于所述阈值、并且大于取决于所述先前量化的音频参数的值;以及
将对以下的指示编码为比特流:所述音频参数小于所述阈值、或小于取决于所述先前量化的音频参数的值。
18.根据权利要求16和17所述的方法,其中所述方法还包括:
确定所述先前量化的音频参数也已经通过增加了所述预定值而被确定;并且
其中当所述音频参数大于所述阈值、并且大于取决于所述先前量化的音频参数的值时,将所述量化的音频参数计算为所述先前量化的音频参数增加所述预定值包括:当所述音频参数大于所述阈值、并且大于取决于所述先前量化的音频参数的值时,将所述量化的音频参数计算为所述先前量化的音频参数增加乘以了增益因子的所述预定值。
19.根据权利要求18所述的方法,其中所述增益因子具有大于1的绝对值。
20.根据权利要求16至19所述的方法,其中取决于先前量化的音频参数的值包括:增加了预定值的所述先前量化的音频参数和乘以了阻尼因子的所述先前量化的音频参数的组合。
21.根据权利要求20所述的方法,其中所述阻尼因子具有小于1的绝对值。
22.根据权利要求16至21所述的方法,其中所述音频参数是空间音频参数。
23.根据权利要求16至21所述的方法,其中所述音频参数是低频效果与总能量比率。
24.一种用于解码音频参数的方法,包括:
从比特流解码指示;
当指示符指示音频参数大于阈值、且大于取决于先前量化的音频参数的值时,将量化的音频参数计算为先前量化的音频参数增加预定值;以及
当所述指示符指示所述音频参数小于所述阈值、或小于取决于所述先前量化的音频参数的值时,将所述量化的音频参数计算为所述先前量化的音频参数乘以因子值。
25.根据权利要求24所述的方法,其中所述方法还包括:
从所述比特流解码与先前音频参数相关的指示;
确定与所述先前音频参数相关的所述指示指明所述量化的先前音频参数也已经通过增加所述预定值而被确定;以及
其中当所述音频参数大于所述阈值、并且大于取决于所述先前量化的参数的值时,将所述量化的音频参数计算为所述先前量化的音频参数增加所述预定值包括:当所述音频参数大于所述阈值、并且大于依赖于所述先前量化的音频参数的值时,将所述量化的音频参数计算为所述先前量化的音频参数增加乘以了增益因子的所述预定值。
26.根据权利要求25所述的方法,其中所述增益因子具有大于1的绝对值。
27.根据权利要求24至26所述的方法,其中取决于所述先前量化的音频参数的值包括:增加了预定值的所述先前量化的音频参数和乘以了阻尼因子的所述先前量化的音频参数的组合。
28.根据权利要求27所述的方法,其中所述阻尼因子具有小于1的绝对值。
29.根据权利要求24至28所述的方法,其中所述音频参数是空间音频参数。
30.根据权利要求24至28所述的方法,其中所述音频参数是低频效果与总能量比率。
CN202080107712.7A 2020-10-05 2020-10-05 音频参数的量化 Pending CN116547749A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FI2020/050657 WO2022074283A1 (en) 2020-10-05 2020-10-05 Quantisation of audio parameters

Publications (1)

Publication Number Publication Date
CN116547749A true CN116547749A (zh) 2023-08-04

Family

ID=81126477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080107712.7A Pending CN116547749A (zh) 2020-10-05 2020-10-05 音频参数的量化

Country Status (6)

Country Link
US (1) US20230377587A1 (zh)
EP (1) EP4226368A4 (zh)
KR (1) KR20230084232A (zh)
CN (1) CN116547749A (zh)
CA (1) CA3194906A1 (zh)
WO (1) WO2022074283A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2624874A (en) * 2022-11-29 2024-06-05 Nokia Technologies Oy Parametric spatial audio encoding

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2712077A1 (en) * 2012-09-20 2014-03-26 Alcatel-Lucent Modulation
US9336789B2 (en) 2013-02-21 2016-05-10 Qualcomm Incorporated Systems and methods for determining an interpolation factor set for synthesizing a speech signal
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
US9349378B2 (en) 2013-11-19 2016-05-24 Dolby Laboratories Licensing Corporation Haptic signal synthesis and transport in a bit stream
GB2574667A (en) * 2018-06-15 2019-12-18 Nokia Technologies Oy Spatial audio capture, transmission and reproduction

Also Published As

Publication number Publication date
US20230377587A1 (en) 2023-11-23
KR20230084232A (ko) 2023-06-12
CA3194906A1 (en) 2022-04-14
WO2022074283A1 (en) 2022-04-14
EP4226368A1 (en) 2023-08-16
EP4226368A4 (en) 2024-04-03

Similar Documents

Publication Publication Date Title
CN112219236A (zh) 空间音频参数和相关联的空间音频播放
CN111316353A (zh) 确定空间音频参数编码和相关联的解码
US20220369061A1 (en) Spatial Audio Representation and Rendering
US20210319799A1 (en) Spatial parameter signalling
US20240185869A1 (en) Combining spatial audio streams
CN114365218A (zh) 空间音频参数编码和相关联的解码的确定
CN114945982A (zh) 空间音频参数编码和相关联的解码
CN112567765B (zh) 空间音频捕获、传输和再现
US11096002B2 (en) Energy-ratio signalling and synthesis
US20230335141A1 (en) Spatial audio parameter encoding and associated decoding
US20220174443A1 (en) Sound Field Related Rendering
CN116547749A (zh) 音频参数的量化
WO2022038307A1 (en) Discontinuous transmission operation for spatial audio parameters
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
JP7223872B2 (ja) 空間音声パラメータの重要度の決定および関連符号化
US20230197087A1 (en) Spatial audio parameter encoding and associated decoding
WO2022258876A1 (en) Parametric spatial audio rendering
WO2020201619A1 (en) Spatial audio representation and associated rendering
CA3208666A1 (en) Transforming spatial audio parameters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination