CN105074818A - 用于参数化多声道编码的方法 - Google Patents

用于参数化多声道编码的方法 Download PDF

Info

Publication number
CN105074818A
CN105074818A CN201480010021.XA CN201480010021A CN105074818A CN 105074818 A CN105074818 A CN 105074818A CN 201480010021 A CN201480010021 A CN 201480010021A CN 105074818 A CN105074818 A CN 105074818A
Authority
CN
China
Prior art keywords
frame
parameter
metadata
input signal
channel input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480010021.XA
Other languages
English (en)
Other versions
CN105074818B (zh
Inventor
T·弗瑞尔德里驰
A·米勒
K·林泽梅儿
C-C·司鹏格尔
T·R·万格布拉斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Priority to CN202310791753.8A priority Critical patent/CN116665683A/zh
Priority to CN201910673941.4A priority patent/CN110379434B/zh
Publication of CN105074818A publication Critical patent/CN105074818A/zh
Application granted granted Critical
Publication of CN105074818B publication Critical patent/CN105074818B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Abstract

本文档涉及音频编码系统。具体地说,本文档涉及用于参数化多声道音频编码的高效方法和系统。描述了音频编码系统(500),其被配置为产生指示下混信号和空间元数据的比特流(564),所述空间元数据用于从下混信号产生多声道上混信号。系统(500)包括下混处理单元(510),其被配置为从多声道输入信号(561)产生下混信号;其中,下混信号包括m个声道,并且其中,多声道输入信号(561)包括n个声道;n、m是整数,其中,m<n。此外,系统(500)包括参数处理单元(520),其被配置为从多声道输入信号(561)确定空间元数据。另外,系统(500)包括配置单元(540),其被配置为基于一个或多个外部设置确定对于参数处理单元(520)的一个或多个控制设置;其中,所述一个或多个外部设置包括比特流(564)的目标数据速率,并且其中,所述一个或多个控制设置包括空间元数据的最大数据速率。

Description

用于参数化多声道编码的方法
相关申请的交叉引用
本申请要求2013年2月21日提交的美国临时专利申请No.61/767,673的优先权,该申请的全部内容特此通过引用并入。
技术领域
本文档涉及音频编码系统。具体地说,本文档涉及用于参数化多声道音频编码的高效方法和系统。
背景技术
参数化多声道音频编码系统可以用于以特别低的数据速率提供提高的收听质量。尽管如此,仍需要进一步改进这样的参数化多声道音频编码系统,尤其是针对带宽效率、计算效率和/或鲁棒性。
发明内容
根据一方面,描述了一种被配置为产生指示下混信号和空间元数据的比特流的音频编码系统。空间元数据可以被相应的解码系统用于从下混信号产生多声道上混信号。下混信号可以包括m个声道,多声道上混信号可以包括n个声道,其中,n、m是整数,并且m<n。在示例中,n=6,m=2。空间元数据可以使得相应的解码系统可以从下混信号的m个声道产生多声道上混信号的n个声道。
音频编码系统可以被配置为对下混信号和空间元数据进行量化和/或编码并且将量化的/编码的数据插入到比特流中。具体地说,下混信号可以使用DolbyDigitalPlus编码器进行编码,比特流可以对应于DolbyDigitalPlus比特流。量化的/编码的空间元数据可以被插入到DolbyDigitalPlus比特流的数据字段中。
音频编码系统可以包括被配置为从多声道输入信号产生下混信号的下混处理单元。下混处理单元在本文中也被称为下混编码单元。多声道输入信号可以包括n个声道,比如基于下混信号重新产生的多声道上混信号。具体地说,多声道上混信号可以提供多声道输入信号的逼近。下混单元可以包括以上提及的DolbyDigitalPlus编码器。多声道上混信号和多声道输入信号可以是5.1或7.1信号,下混信号可以是立体声信号。
音频编码系统可以包括被配置为从多声道输入信号确定空间元数据的参数处理单元。具体地说,参数处理单元(其在本文档中也被称为参数编码单元)可以被配置为确定一个或多个空间参数,例如,空间参数集合,这些空间参数可以基于多声道输入信号的声道的不同组合来确定。空间参数集合的空间参数可以指示多声道输入信号的不同声道之间的互相关。参数处理单元可以被配置为确定称为空间元数据帧的多声道输入信号的帧的空间元数据。多声道输入信号的帧通常包括多声道输入信号的预定数量的(例如,1536个)采样。每个空间元数据帧可以包括一个或多个空间参数集合。
音频编码系统还可以包括配置单元,其被配置为基于一个或多个外部设置来确定对于参数处理单元的一个或多个控制设置。所述一个或多个外部设置可以包括比特流的目标数据速率。可替代地或者另外地,所述一个或多个外部设置可以包括以下中的一个或多个:多声道输入信号的采样速率、下混信号的声道的数量m、多声道输入信号的声道的数量n、和/或指示相应的解码系统与比特流同步所需的时间段的更新时段。所述一个或多个控制设置可以包括空间元数据的最大数据速率。在空间元数据帧的情况下,空间元数据的最大数据速率可以指示空间元数据帧的元数据比特的最大数量。可替代地或者另外地,所述一个或多个控制设置可以包括以下中的一个或多个:时间分辨率设置,其指示将被确定的每一空间元数据帧的空间参数集合的数量;频率分辨率设置,其指示将对其确定空间参数的频带的数量;量化器设置,其指示将用于对空间元数据进行量化的量化器的类型;以及多声道输入信号的当前帧是否将作为独立帧被编码的指示。
参数处理单元可以被配置为确定根据所述一个或多个控制设置确定的空间元数据帧的比特的数量是否超过元数据比特的最大数量。此外,参数处理单元可以被配置为,如果确定特定的空间元数据帧的比特的数量超过元数据比特的最大数量,则减少该特定空间元数据帧的比特的数量。这个比特数量减少可以以资源(处理能力)高效的方式执行。具体地说,这个比特数量减少可以在不需要重新计算整个空间元数据帧的情况下执行。
如以上所指示的,空间元数据帧可以包括一个或多个空间参数集合。所述一个或多个控制设置可以包括时间分辨率设置,其指示将由参数处理单元确定的每一空间元数据帧的空间参数集合的数量。参数处理单元可以被配置为确定如时间分辨率设置所指示的、用于当前空间元数据帧的许多空间参数集合。通常,时间分辨率设置取1或2的值。此外,参数处理单元可以被配置为,如果当前空间元数据帧包括多个空间参数集合,以及如果确定当前空间元数据帧的比特的数量超过元数据比特的最大数量,则从当前空间元数据帧丢弃空间参数集合。参数处理单元可以被配置为对于每一空间元数据帧保留至少一个空间参数集合。通过从空间元数据帧丢弃空间参数集合,可以以很少的计算工作量而且不会显著地影响多声道上混信号的感知收听质量地减少空间元数据帧的比特的数量。
所述一个或多个空间参数集合通常与相应的一个或多个采样点相关联。所述一个或多个采样点可以指示相应的一个或多个时刻。具体地说,采样点可以指示解码系统应充分地应用相应的空间参数集合的时刻。换句话说,采样点可以指示已经对其确定了相应的空间参数集合的时刻。
参数处理单元可以被配置为,如果当前元数据帧的多个采样点与多声道输入信号的瞬变(transient)不相关联,则从当前空间元数据帧丢弃第一空间参数集合,其中,第一空间参数集合与第二采样点之前的第一采样点相关联。另一方面,参数处理单元可以被配置为,如果当前元数据帧的多个采样点与多声道输入信号的瞬变相关联,则从当前空间元数据帧丢弃第二(通常是最后一个)空间参数集合。通过这样做,参数处理单元可以被配置为减小丢弃空间参数集合对多声道上混信号的收听质量的影响。
所述一个或多个控制设置可以包括量化器设置,其指示多个预定类型的量化器中的第一类型的量化器。所述多个预定类型的量化器可以分别提供不同的量化器分辨率。具体地说,所述多个预定类型的量化器可以包括细量化和粗量化。参数处理单元可以被配置为根据第一类型的量化器对当前空间元数据帧的一个或多个空间参数集合进行量化。此外,参数处理单元可以被配置为,如果确定当前空间元数据帧的比特的数量超过元数据比特的最大数量,则根据具有低于第一类型的量化器的分辨率的第二类型的量化器重新对所述一个或多个空间参数集合的空间参数中的一个、一些或全部进行量化。通过这样做,可以减少当前空间元数据帧的比特的数量,同时仅有限程度地影响上混信号的质量,并且不显著地提高音频编码系统的计算复杂度。
参数处理单元可以被配置为基于当前空间参数集合相对于紧靠前的空间参数集合的差来确定时间差参数集合。具体地说,可以通过确定当前空间参数集合的参数和紧靠前的空间参数集合的相应参数的差来确定时间差参数。空间参数集合可以包括例如本文档中所描述的参数α1、α2、α3、β1、β2、β3、g、k1、k2。通常,参数k1、k2中只有一个可能需要被发送,因为这些参数可以用关系k1 2+k2 2=1相关。仅举例来说,只有参数k1可以被发送,参数k2可以在接收器处计算。时间差参数可以与以上提及的参数中的相应的参数的差相关。
参数处理单元可以被配置为使用熵编码(例如,使用哈夫曼码)来对时间差参数集合进行编码。此外,参数处理单元可以被配置为将编码的时间差参数集合插入在当前空间元数据帧中。另外,参数处理单元可以被配置为,如果确定当前空间元数据帧的比特的数量超过元数据比特的最大数量,则减小时间差参数集合的熵。其结果是,可以减少对时间差参数进行熵编码所需的比特的数量,从而减少用于当前空间元数据帧的比特的数量。举例来说,参数处理单元可以被配置为将时间差参数集合的时间差参数中的一个、一些或全部设置为等于时间差参数的可能值中的具有增大(例如,最高)概率的值,以便减小时间差参数集合的熵。具体地说,与设置操作之前的时间差参数的概率相比,概率可以增大。通常,时间差参数的可能值中的具有最高概率的值对应于零。
应注意,空间参数集合的时间差编码通常不可以用于独立帧。这样,参数处理单元可以被配置为验证当前空间元数据帧是否是独立帧,如果当前空间元数据帧不是独立帧,才应用时间差编码。另一方面,下述频率差编码也可以用于独立帧。
所述一个或多个控制设置可以包括频率分辨率设置,其中,频率分辨率设置指示将对其确定各自的空间参数(被称为带参数)的不同频带的数量。参数处理单元可以被配置为确定用于不同频带的不同的相应的空间参数(带参数)。具体地说,可以确定用于不同频带的不同参数α1、α2、α3、β1、β2、β3、g、k1、k2。空间参数集合因此可以包括用于不同频带的相应的带参数。举例来说,空间参数集合可以包括用于T个频带的T个相应的带参数,T是整数,例如,T=7、9、12或15。
参数处理单元可以被配置为基于第一频带中的一个或多个带参数相对于相邻的第二频带中的相应的一个或多个带参数的差来确定频率差参数集合。此外,参数处理单元可以被配置为使用熵编码(例如,基于哈夫曼码)来对频率差参数集合进行编码。另外,参数处理单元可以被配置为将编码的频率差参数集合插入在当前空间元数据帧中。此外,参数处理单元可以被配置为,如果确定当前空间元数据帧的比特的数量超过元数据比特的最大数量,则减小频率差参数集合的熵。具体地说,参数处理单元可以被配置为将频率差参数集合的频率差参数中的一个、一些或全部设置为等于频率差参数的可能值中的具有增大概率的值(例如,零),以便减小频率差参数集合的熵。具体地说,与设置操作之前的频率差参数的概率相比,概率可以增大。
可替代地或者另外地,参数处理单元可以被配置为,如果确定当前空间元数据帧的比特的数量超过元数据比特的最大数量,则减少频带的数量。另外,参数处理单元可以被配置为使用减少的频带的数量来重新确定用于当前空间元数据帧的一个或多个空间参数集合中的一些或全部。通常,频带数量的改变主要影响高频带。结果,多个频率之一的带参数可能不受影响,使得参数处理单元可能不需要重新计算所有的带参数。
如以上所指示的,所述一个或多个外部设置可以包括更新时段,其指示相应的解码系统与比特流同步所需的时间段。此外,所述一个或多个控制设置可以包括当前空间元数据帧是否将作为独立帧被编码的指示。参数处理单元可以被配置为确定用于多声道输入信号的相应的帧序列的空间元数据帧序列。配置单元可以被配置为基于更新时段来从空间元数据帧序列确定将作为独立帧被编码的一个或多个空间元数据帧。
具体地说,所述一个或多个独立的空间元数据帧可以被确定为使得满足更新时段(平均来说)。为了这个目的,配置单元可以被配置为确定多声道输入信号的帧序列的当前帧是否包括作为更新时段的整数倍的时刻的采样(相对于多声道输入信号的起始点)。此外,配置单元可以被配置为确定与当前帧对应的当前空间元数据帧是独立帧(因为它包括作为更新时段的整数的时刻的采样)。参数处理单元可以被配置为,如果当前空间元数据帧将作为独立帧被编码,则与前一(和/或未来的)空间元数据帧中所包括的数据相独立地对当前空间元数据帧的一个或多个空间参数集合进行编码。通常,如果当前空间元数据帧将作为独立帧被编码,则与前一(和/或未来的)空间元数据帧中所包括的数据相独立地对当前空间元数据的所有的空间参数集合进行编码。
根据另一方面,描述了一种参数处理单元,其被配置为确定用于从下混信号的相应帧产生多声道上混信号的帧的空间元数据帧。下混信号可以包括m个声道,多声道上混信号可以包括n个声道;n、m是整数,其中,m<n。如以上所概述的,空间元数据帧可以包括一个或多个空间参数集合。
参数处理单元可以包括变换单元,其被配置为从多声道输入信号的声道的当前帧和紧跟帧(其被称为前视帧)确定多个频谱。变换单元可以使用滤波器组,例如,QMF滤波器组。所述多个频谱中的频谱可以包括相应的预定数量的频率区间(bin)中的预定数量的变换系数。所述多个频谱可以与相应的多个时间区间(或时刻)相关联。这样,变换单元可以被配置为提供当前帧和前视帧的时间/频率表示。举例来说,当前帧和前视帧均可以包括K个采样。变换单元可以被配置为确定2倍的K/Q个频谱,每个频谱包括Q个变换系数。
参数处理单元可以包括参数确定单元,其被配置为通过使用窗函数对所述多个频谱进行加权来确定用于多声道输入信号的声道的当前帧的空间元数据帧。窗函数可以用于调整所述多个频谱中的频谱对特定的空间参数或特定的空间参数集合的影响。举例来说,窗函数可以取0和1之间的值。
窗函数可以取决于以下中的一个或多个:空间元数据帧内所包括的空间参数集合的数量、多声道输入信号的当前帧中或紧跟帧中的一个或多个瞬变的存在、和/或瞬变的时刻。换句话说,窗函数可以根据当前帧和/或前视帧的性质而改动。具体地说,用于确定空间参数集合的窗函数(其被称为集合相关的窗函数)可以取决于当前帧和/或前视帧的性质。
这样,窗函数可以包括集合相关的窗函数。具体地说,用于确定空间元数据帧的空间参数的窗函数可以包括分别用于一个或多个空间参数集合的一个或多个集合相关的窗函数(或者可以由这些集合相关的窗函数构成)。参数确定单元可以被配置为通过使用集合相关的窗函数对所述多个频谱进行加权来确定用于多声道输入信号的声道的当前帧(即,用于当前空间元数据帧)的空间参数集合。如以上所概述的,集合相关的窗函数可以取决于当前帧的一个或多个性质。具体地说,集合相关的窗函数可以取决于空间参数集合是否与瞬变相关联。
举例来说,如果空间参数集合与瞬变不相关联,则集合相关的窗函数可以被配置为提供所述多个频谱从前一空间参数集合的采样点直至所述空间参数集合的采样点的渐涨(phase-in)。渐涨可以由从0转变到1的窗函数提供。可替代地或者另外地,如果空间参数集合与瞬变不相关联,则集合相关的窗函数可以包括从所述空间参数集合的采样点开始、直至所述多个频谱中的在后一空间参数集合的采样点前面的频谱的多个频谱(或者可以充分地考虑这些频谱,或者可以使这些频谱不受影响),如果所述后一空间参数集合与瞬变相关联的话。这可以通过具有值1的窗函数来实现。可替代地或者另外地,如果空间参数集合与瞬变不相关联,则集合相关的窗函数可以从后一空间参数集合的采样点开始消除(cancelout)所述多个频谱(或者可以排除这些频谱,或者可以使这些频谱衰减),如果所述后一空间参数集合与瞬变相关联的话。这可以通过具有值0的窗函数来实现。可替代地或者另外地,如果空间参数集合与瞬变不相关联,则集合相关的窗函数可以使所述多个频谱从所述空间参数集合的采样点直至所述多个频谱中的在后一空间参数集合的采样点前面的频谱渐消(phase-out),如果所述后一空间参数集合与瞬变不相关联的话。渐涨可以由从1转变到0的窗函数提供。另一方面,如果空间参数集合与瞬变相关联,则集合相关的窗函数可以消除所述多个频谱中的在所述空间参数集合的采样点前面的频谱(或者可以排除这些频谱,或者可以使这些频谱衰减)。可替代地或者另外地,如果空间参数集合与瞬变相关联,则集合相关的窗函数可以包括所述多个频谱中的从所述空间参数集合的采样点开始直至所述多个频谱中的在后一空间参数集合的采样点前面的频谱的频谱(或者可以使这些频谱不受影响),并且可以消除所述多个频谱中的从后一空间参数集合的采样点开始的频谱(或者可以排除这些频谱,或者可以使这些频谱衰减),如果所述后一空间参数集合的采样点与瞬变相关联的话。可替代地或者另外地,如果空间参数集合与瞬变相关联,则集合相关的窗函数可以包括所述多个频谱中的从所述空间参数集合的采样点直至所述多个频谱中的在当前帧的结束处的频谱的频谱(或者可以使这些频谱不受影响),并且可以提供所述多个频谱中的从紧跟帧的起始直至后一空间参数集合的采样点的频谱的渐消(或者可以使这些频谱逐渐衰减),如果所述后一空间参数集合与瞬变不相关联的话。
根据另一方面,描述了一种参数处理单元,其被配置为确定用于从下混信号的相应帧产生多声道上混信号的帧的空间元数据帧。下混信号可以包括m个声道,多声道上混信号可以包括n个声道;n、m是整数,其中,m<n。如以上所讨论的,空间元数据帧可以包括空间参数集合。
如以上所概述的,参数处理单元可以包括变换单元。变换单元可以被配置为从多声道输入信号的第一声道的帧确定第一多个变换系数。此外,变换单元可以被配置为从多声道输入信号的第二声道的相应帧确定第二多个变换系数。第一声道和第二声道可以是不同的。这样,第一多个变换系数和第二多个变换系数分别提供第一声道和第二声道的相应帧的第一时间/频率表示和第二时间/频率表示。如以上所概述的,第一时间/频率表示和第二时间/频率表示包括多个频率区间和多个时间区间。
此外,参数处理单元可以包括参数确定单元,其被配置为使用定点算术,基于第一多个变换系数和第二多个变换系数来确定空间参数集合。如以上所指示的,空间参数集合通常包括用于不同频带的相应的带参数,其中,所述不同频带可以包括不同数量的频率区间。可以基于特定频带的第一多个变换系数和第二多个变换系数中的变换系数来确定用于该特定频带的特定带参数(通常,不考虑其它频带的变换系数)。参数确定单元可以被配置为确定定点算术使用的用于确定依赖于特定频带的特定带参数的移位。尤其是,定点算术使用的用于确定用于特定频带的特定带参数的移位可以取决于该特定频带内所包括的频率区间的数量。可替代地或者另外地,定点算术使用的用于确定用于特定频带的特定带参数的移位可以取决于确定特定带参数将考虑的时间区间的数量。
参数确定单元可以被配置为确定用于特定频带的移位以使得特定带参数的精度最大化。这可以通过确定特定带参数的确定处理的每个乘法和加法运算所需的移位来实现。
参数确定单元可以被配置为通过基于第一多个变换系数中的落入特定频带p中的变换系数确定第一能量(或能量估计)E1,1(p)来确定用于特定频带p的特定带参数。此外,可以基于第二多个变换系数中的落入特定频带p中的变换系数来确定第二能量(或能量估计)E2,2(p)。另外,可以基于第一多个变换系数和第二多个变换系数中的落入特定频带p中的变换系数来确定叉积或协方差E1,2(p)。参数确定单元可以被配置为基于第一能量估计E1,1(p)、第二能量估计E2,2(p)和协方差E1,2(p)的绝对值中的最大值来确定用于特定频带参数p的移位zp
根据另一方面,描述了一种音频编码系统,其被配置为产生比特流,该比特流指示下混信号的帧序列和相应的空间元数据帧序列,所述相应的空间元数据帧序列用于从下混信号的帧序列产生多声道上混信号的相应的帧序列。所述系统可以包括下混处理单元,其被配置为从多声道输入信号的相应的帧序列产生下混信号的帧序列。如以上所指示的,下混信号可以包括m个声道,多声道输入信号可以包括n个声道;n、m是整数,其中,m<n。此外,音频编码系统可以包括参数处理单元,其被配置为从多声道输入信号的帧序列确定空间元数据帧序列。
另外,音频编码系统可以包括比特流产生单元,其被配置为产生包括比特流帧序列的比特流,其中,比特流帧指示下混信号的与多声道输入信号的第一帧对应的帧以及与多声道输入信号的第二帧对应的空间元数据帧。第二帧可以不同于第一帧。具体地说,第一帧可以在第二帧的前面。通过这样做,用于当前帧的空间元数据帧可以与后一帧的帧一起发送。这确保空间元数据帧仅在它被需要时才到达相应的解码系统。解码系统通常对下混信号的当前帧进行解码,并且基于下混信号的当前帧来产生解相关的帧。该处理引入了算法延迟,并且通过使用于当前帧的空间元数据帧延迟,确保一旦解码的当前帧和解相关的帧被提供,空间元数据帧才到达解码系统。结果,可以降低解码系统的处理能力和存储器要求。
换句话说,描述了一种音频编码系统,其被配置为基于多声道输入信号来产生比特流。如以上所概述的,所述系统可以包括下混处理单元,其被配置为从多声道输入信号的相应的第一帧序列产生下混信号的帧序列。下混信号可以包括m个声道,多声道输入信号可以包括n个声道;n、m是整数,其中,m<n。此外,音频编码系统可以包括参数处理单元,其被配置为从多声道输入信号的第二帧序列产生空间元数据帧序列。下混信号的帧序列和空间元数据帧序列可以被相应的解码系统用于产生包括n个声道的多声道上混信号。
音频编码系统还可以包括比特流产生单元,其被配置为产生包括比特流帧序列的比特流,其中,比特流帧可以指示下混信号的与多声道输入信号的第一帧序列的第一帧对应的帧以及与多声道输入信号的第二帧序列的第二帧对应的空间元数据帧。第二帧可以不同于第一帧。换句话说,用于确定空间元数据帧的组帧(framing)和用于确定下混信号的帧的组帧可以是不同的。如以上所概述的,不同组帧可以用于确保数据在相应的解码系统处对齐。
第一帧和第二帧通常包括相同数量的采样(例如,1536个采样)。第一帧的采样中的一些可以领先第二帧的采样。具体地说,第一帧可以领先于第二帧预定数量的采样。所述预定数量的采样可以例如对应于帧的采样数量的一小部分。举例来说,所述预定数量的采样可以对应于帧的采样数量的50%或更多。在特定示例中,所述预定数量的采样对应于928个采样。如本文档中所示,这个特定数量的采样为音频编码和解码系统的特定实现提供最小的总延迟和最佳的对齐。
根据另一方面,描述了一种音频编码系统,其被配置为基于多声道输入信号来产生比特流。所述系统可以包括下混处理单元,其被配置为确定用于多声道输入信号的相应的帧序列的修剪(clip)保护增益(在本文档中,其也被称为修剪-增益和/或DRC2参数)序列。当前修剪保护增益可以指示将应用于多声道输入信号的当前帧以防止下混信号的相应的当前帧修剪的衰减。以类似的方式,修剪保护增益序列可以指示将应用于多声道输入信号的帧序列的帧以防止下混信号的帧序列的相应帧修剪的各自的衰减。
下混处理单元可以被配置为内插当前修剪保护增益和多声道输入信号的前一帧的前一修剪保护增益以得到修剪保护增益曲线。这可以以与修剪保护增益序列类似的方式执行。此外,下混处理单元可以被配置为将修剪保护增益曲线应用于多声道输入信号的当前帧以得到多声道输入信号的衰减的当前帧。再次,这可以以与多声道输入信号的帧序列类似的方式执行。此外,下混处理单元可以被配置为从多声道输入信号的衰减的当前帧产生下混信号的帧序列的当前帧。以类似的方式,可以产生下混信号的帧序列。
音频处理系统还可以包括参数处理单元,其被配置为从多声道输入信号确定空间元数据帧序列。下混信号的帧序列和空间元数据帧序列可以用于产生包括n个声道的多声道上混信号,以使得多声道上混信号是多声道输入信号的逼近。另外,音频处理系统可以包括比特流产生单元,其被配置为产生指示修剪保护增益序列、下混信号的帧序列和空间元数据帧序列的比特流,以使得相应的解码系统能够产生多声道上混信号。
修剪保护增益曲线可以包括过渡段和平坦段,过渡段提供从前一修剪保护增益到当前修剪保护增益的平滑过渡,平坦段在当前修剪保护增益处保持平坦。过渡段可以跨过多声道输入信号的当前帧的预定数量的采样而延伸。所述预定数量的采样可以是多声道输入信号的当前帧的多于一个且少于总数的采样。具体地说,所述预定数量的采样可以对应于采样块(其中,帧可以包括多个块)或帧。在特定示例中,帧可以包括1536个采样,块可以包括256个采样。
根据另一方面,描述了一种音频编码系统,其被配置为产生比特流,该比特流指示下混信号以及用于从下混信号产生多声道上混信号的空间元数据。所述系统可以包括下混处理单元,其被配置为从多声道输入信号产生下混信号。此外,所述系统可以包括参数处理单元,其被配置为确定用于多声道输入信号的相应的帧序列的空间元数据帧序列。
此外,音频编码系统可以包括配置单元,其被配置为基于一个或多个外部设置来确定对于参数处理单元的一个或多个控制设置。所述一个或多个外部设置可以包括更新时段,其指示相应的解码系统与比特流同步所需的时间段。配置单元可以被配置为基于更新时段来从空间元数据帧序列确定将被独立地编码的一个或多个独立的空间元数据帧。
根据另一方面,描述了一种用于产生比特流的方法,所述比特流指示下混信号以及用于从下混信号产生多声道上混信号的空间元数据。所述方法可以从多声道输入信号产生下混信号。此外,所述方法可以包括基于一个或多个外部设置来确定一个或多个控制设置;其中,所述一个或多个外部设置包括比特流的目标数据速率,并且其中,所述一个或多个控制设置包括空间元数据的最大数据速率。另外,所述方法可以包括根据所述一个或多个控制设置从多声道输入信号确定空间元数据。
根据另一方面,描述了一种用于确定空间元数据帧的方法,所述空间元数据帧用于从下混信号的相应帧产生多声道上混信号的帧。所述方法可以包括从多声道输入信号的声道的当前帧和紧跟帧确定多个频谱。此外,所述方法可以包括使用窗函数对所述多个频谱进行加权以得到多个加权的频谱。另外,所述方法可以包括基于所述多个加权的频谱来确定用于多声道输入信号的所述声道的当前帧的空间元数据帧。窗函数可以取决于以下中的一个或多个:空间元数据帧内所包括的空间参数集合的数量、多声道输入信号的当前帧中或紧跟帧中的瞬变的存在、和/或该瞬变的时刻。
根据另一方面,描述了一种用于确定空间元数据帧的方法,所述空间元数据帧用于从下混信号的相应帧产生多声道上混信号的帧。所述方法可以包括:从多声道输入信号的第一声道的帧确定第一多个变换系数,并且从多声道输入信号的第二声道的相应帧确定第二多个变换系数。如以上所概述的,第一多个变换系数和第二多个变换系数通常分别提供第一声道和第二声道的相应帧的第一时间/频率表示和第二时间/频率表示。第一时间/频率表示和第二时间/频率表示可以包括多个频率区间和多个时间区间。空间参数集合可以包括分别用于包括不同数量的频率区间的不同频带的相应的带参数。所述方法还可以包括确定当使用定点算术确定用于特定频带的特定带参数时将应用的移位。此外,可以基于确定特定带参数将考虑的时间区间的数量来确定移位。另外,所述方法可以包括使用定点算术和所确定的移位、基于落在特定频带中的第一多个变换系数和第二多个变换系数来确定特定带参数。
描述了一种用于基于多声道输入信号产生比特流的方法。所述方法可以包括从多声道输入信号的相应的第一帧序列产生下混信号的帧序列。此外,所述方法可以包括从多声道输入信号的第二帧序列确定空间元数据帧序列。下混信号的帧序列和空间元数据帧序列可以用于产生多声道上混信号。另外,所述方法可以包括产生包括比特流帧序列的比特流。比特流帧可以指示下混信号的与多声道输入信号的第一帧序列的第一帧对应的帧以及与多声道输入信号的第二帧序列的第二帧对应的空间元数据帧。第二帧可以不同于第一帧。
根据另一方面,描述了一种用于基于多声道输入信号产生比特流的方法。所述方法可以包括确定用于多声道输入信号的相应的帧序列的修剪保护增益序列。当前修剪保护增益可以指示将应用于多声道输入信号的当前帧以防止下混信号的相应的当前帧修剪的衰减。所述方法可以继续内插当前修剪保护增益和多声道输入信号的前一帧的前一修剪保护增益以得到修剪保护增益曲线。此外,所述方法可以包括将修剪保护增益曲线应用于多声道输入信号的当前帧以得到多声道输入信号的衰减的当前帧。下混信号的帧序列的当前帧可以从多声道输入信号的衰减的当前帧产生。另外,所述方法可以包括从多声道输入信号确定空间元数据帧序列。下混信号的帧序列和空间元数据帧序列可以用于产生多声道上混信号。比特流可以被产生为使得该比特流指示修剪保护增益序列、下混信号的帧序列以及空间元数据帧序列,以使得能够基于该比特流产生多声道上混信号。
根据另一方面,描述了一种用于产生比特流的方法,所述比特流指示下混信号和空间元数据,所述空间元数据用于从下混信号产生多声道上混信号。所述方法可以包括从多声道输入信号产生下混信号。此外,所述方法可以包括基于一个或多个外部设置来确定一个或多个控制设置,其中,所述一个或多个外部设置包括更新时段,其指示解码系统与比特流同步所需的时间段。所述方法还可以包括根据一个或多个控制设置确定用于多声道输入信号的相应的帧序列的空间元数据帧序列。另外,所述方法可以包括根据更新时段对空间元数据帧序列中的一个或多个空间元数据帧作为独立帧进行编码。
根据另一方面,描述了一种软件程序。该软件程序可以适于在处理器上执行,并且适于当在处理器上被执行时执行本文档中所概述的方法步骤。
根据另一方面,描述了一种存储介质。该存储介质可以包括软件程序,该软件程序可以适于在处理器上执行,并且适于当在处理器上被执行时执行本文档中所概述的方法步骤。
根据另一方面,描述了一种计算机程序产品。该计算机程序产品可以包括用于当在计算机上被执行时执行本文档中所概述的方法步骤的可执行指令。
应注意,包括其在本专利申请中概述的优选实施例的方法和系统可以独立使用或者与本文档中所公开的其它方法和系统组合使用。此外,本专利申请中所概述的方法和系统的所有方面可以被任意组合。具体地说,权利要求的特征可以以任意的方式彼此组合。
附图说明
下面以示例性的方式参照附图来说明本发明,其中,
图1示出用于执行空间合成的示例音频处理系统的一般化框图;
图2示出图1的系统的示例细节;
图3类似于图1示出用于执行空间合成的示例音频处理系统;
图4示出用于执行空间分析的示例音频处理系统;
图5a示出示例参数化多声道音频编码系统的框图;
图5b示出示例空间分析和编码系统的框图;
图5c例示多声道音频信号的声道的帧的示例时间-频率表示;
图5d例示多声道音频信号的多个声道的示例时间-频率表示;
图5e示出图5b所示的空间分析和编码系统的变换单元所应用的示例加窗;
图6示出用于降低空间元数据的数据速率的示例方法的流程图;
图7a例示用于在解码系统处执行的用于空间元数据的示例过渡方案;
图7b至7d例示为确定空间元数据而应用的示例窗函数;
图8示出参数化多声道编解码系统的示例处理路径的框图;
图9a和9b示出被配置为执行修剪保护和/或动态范围控制的示例参数化多声道音频编码系统的框图;
图10例示用于补偿DRC参数的示例方法;和
图11示出用于修剪保护的示例内插曲线。
具体实施方式
如引言部分中所概述的,本文档涉及使用参数化多声道表示的多声道音频编码系统。以下,描述示例多声道音频编码和解码(编解码)系统。在图1至3的上下文中,描述音频编解码系统的解码器可以如何使用所接收的参数化多声道表示来从所接收的m声道下混信号X(例如,m=2)产生n声道上混信号Y(通常,n>2)。随后,描述多声道音频编解码系统的编码器相关的处理。具体地说,描述可以如何从n声道输入信号产生参数化多声道表示和m声道下混信号。
图1例示被配置为从下混信号X和混合参数集合产生上混信号Y的示例音频处理系统100的框图。具体地说,音频处理系统100被配置为仅基于下混信号X和所述混合参数集合产生上混信号。从比特流P,音频解码器140提取下混信号X=[l0r0]T和混合参数集合。在所例示的示例中,所述混合参数集合包括参数α1、α2、α3、β1、β2、β3、g、k1、k2。混合参数可以以量化和/或熵编码形式包括在比特流P中的各混合参数数据字段中。混合参数可以被称为元数据(或空间元数据),该元数据连同编码的下混信号X一起被发送。在本公开的一些实例中,已明确地指示,一些连接线适于发送多声道信号,其中,这些线被提供与各数量的声道相邻的交叉线。在图1所示的系统100中,下混信号X包括m=2个声道,并且以下将定义的上混信号Y包括n=6个声道(例如,5.1声道)。
其动作参数化地取决于混合参数的上混级110接收下混信号。下混修改处理器120通过非线性处理并且通过形成下混声道的线性组合来修改下混信号,以便获得修改的下混信号D=[d1d2]T。第一混合矩阵130接收下混信号X和修改的下混信号D,并且通过形成以下线性组合来输出上混信号Y=[lflsrfrsclfe]T
l f l s r f r s c l f e = ( g - ( α 3 + β 3 ) ) ( 1 + α 1 ) / 2 - ( α 3 - β 3 ) ( 1 + α 1 ) / 2 β 1 / 2 0 ( g - ( α 3 + β 3 ) ) ( 1 - α 1 ) / 2 - ( α 3 - β 3 ) ( 1 - α 1 ) / 2 - β 1 / 2 0 - ( α 3 + β 3 ) ( 1 + α 1 ) / 2 ( g - ( α 3 + β 3 ) ) ( 1 + α 2 ) / 2 0 β 2 / 2 - ( α 3 + β 3 ) ( 1 - α 1 ) / 2 ( g - ( α 3 + β 3 ) ) ( 1 - α 2 ) / 2 0 - β 2 / 2 ( α 3 + β 3 ) k 1 ( α 3 - β 3 ) k 1 0 0 ( α 3 + β 3 ) k 2 ( α 3 - β 3 ) k 2 0 0 · l o r o d 1 d 2
在以上线性组合中,混合参数α3控制从下混信号形成的中间类型信号(与l0+r0成比例)对上混信号中的所有声道的贡献。混合参数β3控制侧边类型信号(与l0-r0成比例)对上混信号中的所有声道的贡献。因此,在使用情况下,可以合理地预期,混合参数α3和β3将具有不同的统计性质,这使得能够更高效地编码。(作为比较考虑参考参数化(其中,独立的混合参数控制下混信号对上混信号中的空间左声道和空间右声道的各左声道贡献和右声道贡献),注意,这样的混合参数的统计可观察量可能没有明显不同。)
返回到以上方程所示的线性组合,进一步注意,增益参数k1、k2可以取决于比特流P中的共用的单个混合参数。此外,增益参数可以被规范化以使得k1 2+k2 2=1。
修改的下混信号对上混信号中的空间左声道和空间右声道的贡献可以分别由参数β1(第一修改声道对左声道的贡献)和β2(第二修改声道对右声道的贡献)控制。此外,下混信号中的每个声道对其上混信号中的空间上对应的声道的贡献可以单独地通过改变独立的混合参数g控制。优选地,增益参数g被不均匀地量化以便避免大的量化误差。
现在另外参照图2,下混修改处理器120可以在第二混合矩阵121中执行下混声道的以下线性组合(其是交叉混合):
z 1 z 2 = g - ( α 3 + β 3 ) - ( α 3 - β 3 ) - ( α 3 + β 3 ) g - ( α 3 - β 3 ) · l 0 r 0
如该公式所指示的,填充第二混合矩阵的增益可以参数化地取决于比特流P中所编码的混合参数中的一些。由第二混合矩阵121执行的处理得到中间信号Z=[z1z2]T,该中间信号被供给到解相关器122。图1示出了解相关器122包括两个子解相关器123、124的示例,子解相关器123、124可以被相同地配置(即,响应于相同的输入,提供相同的输出)或者被不同地配置。作为此的替代方案,图2示出了所有的解相关相关的操作由单个单元122执行的示例,单元122输出初步修改的下混信号D’。图2中的下混修改处理器120还可以包括伪像(artifact)衰减器125。在示例实施例中,如以上所概述的,伪像衰减器125被配置为检测中间信号Z中的尾音、并且通过基于检测的尾音的位置使该信号中的非期望的伪像衰减来采取校正动作。该衰减生成修改的下混信号D,该信号从下混修改处理器120输出。
图3示出了与图1所示的类似类型的第一混合矩阵130及其相关联的变换级301、302和逆变换级311、312、313、314、315、316。变换级可以例如包括滤波器组,诸如正交镜像滤波器组(QMF)。因此,位于变换级301、302的上游的信号是时域中的表示,如位于逆变换级311、312、313、314、315、316的下游的信号一样。其它信号是频域表示。其它信号的时间依赖性可以例如被表达为与该信号被分割到的时间块相关的块值或离散值。注意,图3使用与以上矩阵方程相比的替代记号;一个可以例如具有对应关系XL0~l0、XR0~r0、YL~lf、YLS~lS等。此外,图3中的记号强调信号的时域表示XL0(t)和同一信号的频域表示XL0(f)之间的区别。理解的是,频域表示被分割为时间帧;因此,它是时间和频率变量两者的函数。
图4示出了音频处理系统400,其用于产生下混信号X以及控制上混级110所应用的增益的混合参数α1、α2、α3、β1、β2、β3、g、k1、k2。该音频处理系统400通常位于编码器侧,例如,广播或记录设备中,而图1所示的系统100通常将被部署在解码器侧,例如,回放设备中。下混级410基于n声道信号Y生成m声道信号X。优选地,下混级410对这些信号的时域表示进行操作。参数提取器420可以通过分析n声道信号Y并且考虑下混级410的定量和定性的性质来生成混合参数α1、α2、α3、β1、β2、β3、g、k1、k2的值。混合参数可以如图4中的记号所表明的那样是频率块值的矢量,并且可以被进一步分割为时间块。在示例实现中,下混级410是时间不变的和/或频率不变的。由于时间不变性和/或频率不变性,在下混级410和参数提取器420之间通常不需要通信连接,但是参数提取可以独立地进行。这为实现提供很大的自由。它还给予了缩短系统的总延时的可能性,因为几个处理步骤可以并行执行。作为一个示例,DolbyDigitalPlus格式(或EnhancedAC-3)可以用于对下混信号X进行编码。
参数提取器420可以通过访问下混规范来了解下混级410的定量的和/或定性的性质,所述下混规范可以指定以下之一:增益值集合、识别对其预定义增益的预定义下混模式的索引等。下混规范可以是被预先加载到下混级410和参数提取器420中的每一个中的存储器中的数据。可替代地或者另外地,下混规范可以通过连接这些单元的通信线路从下混级410发送到参数提取器420。作为另一替代方案,下混级410至参数提取器420中的每一个均可以从共用的数据源访问下混规范,所述共用的数据源诸如音频处理系统中的或者与输入信号Y相关联的元数据流中的(例如,图5a所示的配置单元540的)存储器。
图5a示出了示例多声道编码系统500,其用于使用下混信号X(包括m个声道,其中,m<n)和参数化表示来对多声道音频输入信号Y561(包括n个声道)进行编码。系统500包括下混编码单元510,其包括例如图4的下混级410。下混编码单元510可以被配置为提供下混信号X的编码版本。下混编码单元510可以例如使用DolbyDigitalPlus编码器来对下混信号X进行编码。此外,系统500包括参数编码单元510,其可以包括图4的参数提取器420。参数编码单元510可以被配置为对所述混合参数集合α1、α2、α3、β1、β2、β3、g、k1(也被称为空间参数)进行量化和编码以得到编码的空间参数562。如以上所指示的,参数k2可以从参数k1确定。另外,系统500可以包括比特流产生单元530,其被配置为从编码的下混信号563和编码的空间参数562产生比特流P564。比特流564可以根据预定的比特流语法进行编码。具体地说,比特流564可以以符合DolbyDigitalPlus(DD+或E-AC-3,EnhancedAC-3)的格式进行编码。
系统500可以包括配置单元540,其被配置为确定对于参数编码单元520和/或下混编码单元510的一个或多个控制设置552、554。可以基于系统500的一个或多个外部设置551来确定所述一个或多个控制设置552、554。举例来说,所述一个或多个外部设置551可以包括比特流564的总(最大或固定)数据速率。配置单元540可以被配置为根据所述一个或多个外部设置551来确定一个或多个控制设置552。对于参数编码单元520的所述一个或多个控制设置552可以包括以下中的一个或多个:
●编码的空间参数562的最大数据速率。该控制设置在本文中被称为元数据数据速率设置。
●将由参数编码单元520对音频信号561的每一帧确定的参数集合的最大数量和/或特定数量。该控制设置在本文中被称为时间分辨率设置,因为它允许影响空间参数的时间分辨率。
●参数编码单元520将对其确定空间参数的参数带的数量。该控制设置在本文中被称为频率分辨率设置,因为它允许影响空间参数的频率分辨率。
●用于对空间参数进行量化的量化器的分辨率。该控制设置在本文中被称为量化器设置。
参数编码单元520可以使用以上提及的用于确定和/或编码将被包括到比特流564中的空间参数的控制设置552中的一个或多个。通常,输入音频信号Y561被分割为帧序列,其中,每个帧包括输入音频信号Y561的预定数量的采样。元数据数据速率设置可以指示可供用于对输入音频信号561的帧的空间参数进行编码的比特的最大数量。用于对帧的空间参数562进行编码的比特的实际数量可以低于元数据数据速率设置所分配的比特的数量。参数编码单元520可以被配置为通知配置单元540关于实际使用的比特数量553,从而使得配置单元540能够确定可供用于对下混信号X进行编码的比特的数量。该比特数量可以被作为控制设置554传送到下混编码单元510。下混编码单元510可以被配置为(例如,使用多声道编码器,诸如DolbyDigitalPlus)基于控制设置554对下混信号X进行编码。这样,尚未用于对空间参数进行编码的比特可以用于对下混信号进行编码。
图5b示出了示例参数编码单元520的框图。参数编码单元520可以包括变换单元521,其被配置为确定输入信号561的频率表示。具体地说,变换单元521可以被配置为将输入信号561的帧变换为一个或多个频谱,每个频谱包括多个频率区间。举例来说,变换单元521可以被配置为将滤波器组(例如,QMF滤波器组)应用于输入信号561。滤波器组可以是临界采样滤波器组。滤波器组可以包括预定数量Q个滤波器(例如,Q=64个滤波器)。这样,变换单元521可以被配置为从输入信号561确定Q个子带信号,其中,每个子带信号与相应的频率区间571相关联。举例来说,输入信号561的K个采样的帧可以被变换为Q个子带信号,其中,每一子带信号K/Q个频率系数。换句话说,输入信号561的K个采样的帧被变换为K/Q个频谱,其中,每个频谱包括Q个频率区间。在特定示例中,帧长度为K=1536,频率区间的数量为Q=64,并且频谱的数量K/Q=24。
参数编码单元520可以包括分带(banding)单元522,其被配置为将一个或多个频率区间571分组为频带572。频率区间571到频带572的分组可以取决于频率分辨率设置552。表1例示了频率区间571到频带572的示例映射,其中,该映射可以由分带单元522基于频率分辨率设置552应用。在所例示的示例中,频率分辨率设置552可以指示频率区间571到7、9、12或15个频带的分带。分带通常对人耳的心理声学行为进行建模。其结果是,每一频带572的频率区间571的数量通常随频率增加而增加。
表1
参数编码单元520(以及具体地,参数提取器420)的参数确定单元523可以被配置为确定用于每个频带572的一个或多个混合参数集合α1、α2、α3、β1、β2、β3、g、k1、k2。由于此,频带572也可以被称为参数带。用于频带572的混合参数α1、α2、α3、β1、β2、β3、g、k1、k2可以被称为带参数。这样,整个混合参数集合通常包括用于每个频带572的带参数。带参数可以被应用于图3的混合矩阵130中以确定解码的上混信号的子带版本。
将由参数确定单元523确定的每一帧的混合参数集合的数量可以由时间分辨率设置552指示。举例来说,时间分辨率设置552可以指示一个或两个混合参数集合将每一帧地确定。
图5c中例示了包括用于多个频带572的带参数的混合参数集合的确定。图5c例示了从输入信号561的帧导出的示例变换系数集合580。变换系数580对应于特定时刻582和特定频率区间571。频带572可以包括来自一个或多个频率区间571的多个变换系数580。从图5c可以看出的,输入信号561的时域采样的变换提供输入信号561的帧的时间-频率表示。
应注意,可以基于当前帧的变换系数580并且可能还基于紧跟帧(其也被称为前视(look-ahead)帧)的变换系数580来确定用于当前帧的所述混合参数集合。
参数确定单元523可以被配置为确定用于每个频带572的混合参数α1、α2、α3、β1、β2、β3、g、k1、k2。如果时间分辨率设置被设置为1,则特定频带572的(当前帧和前视帧的)所有的变换系数580可以被考虑用于确定用于特定频带572的混合参数。另一方面,参数确定单元523可以被配置为确定每一频带572的两个混合参数集合(例如,当时间分辨率设置被设置为2时)。在这种情况下,特定频带572的变换系数580的第一个时间半(对应于例如当前帧的变换系数580)可以被用于确定第一个混合参数集合,而特定频带572的变换系数580的第二个时间半(对应于例如前视帧的变换系数580)可以被考虑用于确定第二个混合参数集合。
一般来说,参数确定单元523可以被配置为基于当前帧和前视帧的变换系数580来确定一个或多个混合参数集合。窗函数可以用于限定变换系数580对所述一个或多个混合参数集合的影响。窗函数的形状可以取决于每一频带572的混合参数集合的数量和/或当前帧和/或前视帧的性质(例如,一个或多个瞬变的存在)。将在图5e和图7b至7d的上下文中描述示例窗函数。
应注意,以上可以适用于输入信号561的帧不包括瞬变信号部分的情况。系统500(例如,参数确定单元523)可以被配置为基于输入信号561来执行瞬变检测。在一个或多个瞬变被检测到的情况下,可以设置一个或多个瞬变指示符583、584,其中,瞬变指示符583、584可以识别相应瞬变的时刻582。瞬变指示符583、584也可以被称为各混合参数集合的采样点。在瞬变的情况下,参数确定单元523可以被配置为基于从瞬变的时刻开始的变换系数580来确定混合参数集合(这由图5c的加不同阴影线的区域例示)。另一方面,可以忽略在瞬变的时刻之前的变换系数580,从而确保混合参数集合反映瞬变之后的多声道情况。
图5c例示了多声道输入信号Y561的声道的变换系数580。参数编码单元520通常被配置为确定用于多声道输入信号561的多个声道的变换系数580。图5d示出了输入信号561的第一561-1声道和第二561-2声道的示例变换系数。频带p572包括从频率索引i至j的范围内的频率区间571。第一声道561-1在时刻(或者在频谱)q、在频率区间i中的变换系数580可以被称为aq,i。以类似的方式,第二声道561-2在时刻(或者在频谱)q、在频率区间i中的变换系数580可以被称为bq,i。变换系数580可以是复数。用于频带p的混合参数的确定可以涉及基于变换系数580对第一声道561-1和第二声道561-2的能量和/或协方差的确定。举例来说,第一声道561-1和第二声道561-2在频带p中、对于时间间隔[q,v]的变换系数580的协方差可以被确定为:
E 1 , 2 ( p ) = Σ t = q v Σ f = i j Re { a t , f } Re { b t , f } + Im { a t , f } Im ( b t , f )
第一声道561-1在频带p中、对于时间间隔[q,v]的变换系数580的能量估计可以被确定为:
E 1 , 1 ( p ) = Σ t = q v Σ f = i j Re { a t , f } Re ( a t , f ) + Im { a t , f } Im { a t , f }
第二声道561-2在频带p中、对于时间间隔[q,v]的变换系数580的能量估计E2,2(p)可以以类似的方式确定。
这样,参数确定单元523可以被配置为确定用于不同频带572的一个或多个带参数集合573。频带572的数量通常取决于频率分辨率设置552,而每一帧的混合参数集合的数量通常取决于时间分辨率设置552。举例来说,频率分辨率设置552可以指示15个频带572的使用,而时间分辨率设置552可以指示2个混合参数集合的使用。在这种情况下,参数确定单元523可以被配置为确定两个时间上不同的混合参数集合,其中,每个混合参数集合包括15个带参数集合573(即,用于不同频带572的混合参数)。
如以上所指示的,可以基于当前帧的变换系数580并且基于跟随的前视帧的变换系数580来确定用于当前帧的混合参数。参数确定单元523可以将窗应用于变换系数580,以便确保帧序列的连续帧的混合参数之间的平滑过渡,和/或以便考虑输入信号561内的破坏性部分(例如,瞬变)。这在图5e中被例示,图5e示出了输入音频信号561的当前帧585和紧跟帧590在相应的K/Q个连续的时刻582的K/Q个频谱589。此外,图5e示出了参数确定单元523所使用的示例窗586。窗586反映了当前帧585和紧跟帧590(其被称为前视帧)的K/Q个频谱589对混合参数的影响。如下面将更详细地概述的,窗586反映了当前帧585和前视帧590不包括任何瞬变的情况。在这种情况下,窗586分别确保当前帧585和前视帧590的频谱589的平滑渐涨和渐消,从而允许空间参数的平滑演变。此外,图5e示出了示例窗587和588。虚线窗587反映了当前帧585的K/Q个频谱589对前一帧的混合参数的影响。另外,虚线窗588反映了紧跟帧590的K/Q个频谱589对紧跟帧590的混合参数的影响(在平滑内插的情况下)。
随后可以使用参数编码单元520的编码单元524来对所述一个或多个混合参数集合进行量化和编码。编码单元524可以应用各种编码方案。举例来说,编码单元524可以被配置为执行混合参数的差分编码。差分编码可以基于时间差(对于同一频带572,当前混合参数和相应的前一混合参数之间的时间差)或频率差(第一频带572的当前混合参数和相邻的第二频带572的相应的当前混合参数之间的频率差)。
此外,编码单元524可以被配置为对混合参数集合和/或混合参数的时间差或频率差进行量化。混合参数的量化可以取决于量化器设置552。举例来说,量化器设置552可以取两个值,指示细量化的第一个值和指示粗量化的第二个值。这样,编码单元524可以被配置为基于量化器设置552所指示的量化类型来执行细量化(具有相对低的量化误差)或粗量化(具有相对增加的量化误差)。然后可以使用基于熵的码(诸如哈夫曼码)来对量化的参数或参数差进行编码。结果,获得编码的空间参数562。用于编码的空间参数562的比特数量553可以被传送到配置单元540。
在实施例中,编码单元524可以被配置为首先对不同的混合参数进行量化(在量化器设置552的考虑下),以得到量化的混合参数。然后可以对量化的混合参数进行熵编码(通过使用例如哈夫曼码)。熵编码然后可以对帧的量化的混合参数(不考虑前面的帧)、量化的混合参数的频率差或量化的混合参数的时间差进行编码。时间差的编码可能不被用于所谓的独立帧的情况,所谓的独立帧独立于前面的帧而被编码。
因此,参数编码单元520可以使用差分编码和哈夫曼编码的组合来确定编码的空间参数562。如以上所概述的,编码的空间参数562可以作为元数据(其也被称为空间元数据)与编码的下混信号563一起包括在比特流564中。差分编码和哈夫曼编码可以用于空间元数据的发送,以便降低冗余度,并因此增加可供用于对下混信号563进行编码的备用比特速率。因为哈夫曼码是可变长度码,所以空间元数据的大小可以很大程度地取决于将被发送的编码的空间参数562的统计而变化。发送空间元数据所需的数据速率从可供核心编解码器(例如,DolbyDigitalPlus)使用的数据速率扣除以对立体声下混信号进行编码。为了不损害下混信号的音频质量,发送每一帧的空间元数据可能花费的字节的数量通常是有限的。限值可以受制于编码器调谐考虑,其中,编码器调谐考虑可以由配置单元540考虑。然而,由于空间参数的基本差分/哈夫曼编码的可变长度特性,在没有任何进一步的手段的情况下,通常不能保证数据速率上限(例如在元数据数据速率设置552中反映)将不被超过。
在本文档中,描述了一种用于对编码的空间参数562和/或包括编码的空间参数562的空间元数据进行后处理的方法。在图6的上下文中描述用于对空间元数据进行后处理的方法600。当确定空间元数据的一个帧的总大小超过例如元数据数据速率设置552所指示的预定义限值时,可以应用方法600。方法600旨在逐步地减少元数据的量。空间元数据的大小的减小通常还降低了空间元数据的精度,并因此损害了再现的音频信号的空间图像的质量。然而,方法600通常保证,空间元数据的总量不超过预定义限值,并因此允许确定空间元数据(用于重新产生m声道多声道信号)和音频编解码元数据(用于对编码的下混信号563进行解码)之间的就总体音频质量而言的改进的权衡。此外,用于对空间元数据进行后处理的方法600可以以相对低的计算复杂度来实现(与用修改的控制设置552完全地重新计算编码的空间参数相比)。
用于对空间元数据进行后处理的方法600可以包括以下步骤中的一个或多个。如以上所概述的,空间元数据帧可以每一帧包括多个(例如,一个或两个)参数集合,其中,附加参数集合的使用允许增加混合参数的时间分辨率。每一帧多个参数集合的使用可以改进音频质量,尤其是在攻击(attack)丰富(即,瞬变)信号的情况下。即使是在具有相当缓慢变化的空间图像的音频信号的情况下,采样点的密集网格(grid)两倍大的空间参数更新也可以改进音频质量。然而,每一帧多个参数集合的发送导致数据速率增加大约2倍。因此,如果确定空间元数据的数据速率超过元数据数据速率设置552(步骤601),则可以检查空间元数据帧是否包括多于一个的混合参数集合。具体地说,可以检查元数据帧是否包括理应被发送的两个混合参数集合(步骤602)。如果确定空间元数据包括多个混合参数集合,则可以丢弃超过单个混合参数集合的集合中的一个或多个(步骤603)。其结果是,可以显著降低空间元数据的数据速率(在两个混合参数集合的情况下,通常降低一半),同时仅相对低程度地损害音频质量。
两个(或更多个)混合参数集合中的哪一个要丢掉的决定可以取决于编码系统500是否检测到输入信号561的被当前帧覆盖的部分中的瞬变位置(“攻击”):如果在当前帧中存在多个瞬变,则因为每单个攻击的心理声学的后掩蔽效应,较早的瞬变通常比较晚的瞬变更重要。因此,如果瞬变存在,则可以建议丢弃较晚的混合参数集合(例如,两个中的第二个)。另一方面,在不存在攻击的情况下,可以丢弃较早的混合参数集合(例如,两个中的第一个)。这可能是由于当计算空间参数时所使用的加窗(如图5e所示)。用于窗掉(windowout)输入信号561的用于计算用于第二个混合参数集合的空间参数的部分的窗586通常在上混级130放置用于参数重构的采样点的时间点(即,在当前帧结束时)具有其最大影响。另一方面,第一个混合参数集合通常对该时间点得到帧的一半的偏移。因此,通过丢掉第一个混合参数集合而产生的误差最可能低于通过丢掉第二个混合参数集合而产生的误差。这在图5e中被示出,在图5e中,可以看出,用于确定第二个混合参数集合的当前帧585的频谱589的第二半受当前帧585的采样的影响程度高于当前帧585的频谱589的第一半(对于第一半,窗函数586的值低于对于频谱589的第二半的值)。
在编码系统500中计算的空间线索(cue)(即,混合参数)经由比特流562(其可以是编码的立体声下混信号563在其中被递送的比特流564的一部分)被发送到相应的解码器100。在空间线索的计算及其在比特流562中的表示之间,编码单元524通常应用两步编码方法:第一步量化是有损步骤,因为它对空间线索增加了误差;第二步差分/哈夫曼编码是无损步骤。如以上所概述的,编码器500可以在不同类型的量化(例如,两种类型的量化)之间选择:高分辨率量化方案,其增加相对少的误差,但是导致较大量的潜在量化索引,因此需要较大的哈夫曼码字;以及低分辨率量化方案,其增加相对较多的误差,但是导致较低量的量化索引,因此不需要如此大的哈夫曼码字。应注意,不同类型的量化可以应用于一些或全部混合参数。举例来说,不同类型的量化可以应用于混合参数α1、α2、α3、β1、β2、β3、k1。另一方面,增益g可以用固定类型的量化进行量化。
方法600可以包括验证哪种类型的量化已经用于对空间参数进行量化的步骤604。如果确定使用了相对精细的量化分辨率,则编码单元524可以被配置为将量化分辨率降低至更低类型的量化605。结果,空间参数被再一次量化。然而,这没有增加显著的计算开销(与使用不同的控制设置552重新确定空间参数相比)。应注意,不同类型的量化可以用于不同的空间参数α1、α2、α3、β1、β2、β3、g、k1。因此,编码单元524可以被配置为单独地对每种类型的空间参数选择量化器分辨率,从而调整空间元数据的数据速率。
方法600可以包括降低空间参数的频率分辨率的步骤(图6中未示出)。如以上所概述的,帧的混合参数集合通常被聚类到频带或参数带572中。每个参数带表示某一频率范围,并且对于每个带,确定单独的空间线索集合。根据可供用于发送空间元数据的数据速率,可以逐步地改变参数带572的数量(例如,7、9、12或15个带)。参数带572的数量与数据速率大致成线性关系,并因此频率分辨率的降低可以显著降低空间元数据的数据速率,同时仅适度地影响音频质量。然而,这样的频率分辨率降低通常需要使用改变的频率分辨率来重新计算混合参数集合,并因此将增加计算复杂度。
如以上所概述的,编码单元524可以使用(量化的)空间参数的差分编码。配置单元551可以被配置为施加输入音频信号561的帧的空间参数的直接编码,以便确保发送误差不在无限数量的帧上传播,并且以便允许解码器在中间时刻与所接收的比特流562同步。这样,帧的某一小部分可以沿着时间线不使用差分编码。不使用差分编码的这样的帧可以被称为独立帧。方法600可以包括验证当前帧是否是独立帧和/或独立帧是否是强迫(force)独立帧的步骤606。空间参数的编码可以取决于步骤606的结果。
如以上所概述的,差分编码通常被设计为使得在时间后继者之间或者在量化的空间线索的相邻频带之间计算差。在这两种情况下,空间线索的统计使得小的差比大的差更经常地发生,因此,与大的差相比,小的差用较短的哈夫曼码字表示。在本文档中,提出了执行量化的空间参数的平滑(在时间上或者在频率上)。在时间上或者在频率上平滑空间参数通常导致较小的差,并因此导致数据速率的降低。由于心理声学考虑,时间平滑通常优于频率方向上的平滑。如果确定当前帧不是强迫独立帧,则方法600可以继续执行时间差分编码(步骤607),可能与时间上的平滑结合。另一方面,如果当前帧被确定为独立帧,则方法600可以继续执行频率差分编码(步骤608),并且可能沿着频率平滑。
步骤607中的差分编码可以被提交给时间上的平滑处理,以便降低数据速率。平滑程度可以根据数据速率将被降低的量而改变。最严重种类的时间“平滑”对应于保持未改变的前一混合参数集合,这对应于仅发送等于零的增量值。差分编码的时间平滑可以对空间参数中的一个或多个(例如,对全部)执行。
以与时间平滑类似的方式,可以执行频率上的平滑。在其最极端的形式中,频率上的平滑对应于对输入信号561的完整频率范围发送相同的量化的空间参数。虽然保证元数据数据速率设置所设置的限值不被超过,但是频率上的平滑可能对可以使用空间元数据再现的空间图像的质量具有相对高的影响。因此可能优选的是,仅在时间平滑不被允许的情况下应用频率上的平滑(例如,如果当前帧是对其不可使用对于前一帧的时间差分编码的强迫独立帧)。
如以上所概述的,系统500可以受制于一个或多个外部设置551而操作,外部设置551诸如比特流564的总体目标数据速率或输入音频信号561的采样速率。通常不存在对于外部设置的所有组合的单个最佳操作点。配置单元540可以被配置为将外部设置551的有效组合映射到控制设置552、554的组合。举例来说,配置单元540可以依赖于心理声学收听测试的结果。具体地说,配置单元540可以被配置为确定确保对于外部设置551的特定组合的(平均上)最佳的心理声学编码结果的控制设置552、554的组合。
如以上所概述的,解码系统100应能够在给定时间段内与所接收的比特流564同步。为了确保这一点,编码系统500可以定期地对所谓的独立帧(即,不取决于关于它们的前身的知识的帧)进行编码。两个独立帧之间的帧中的平均距离可以由给予同步的最大时滞和一个帧的持续时间之间的比率给出。该比率不一定必须是整数,其中,两个独立帧之间的距离总是帧的整数。
编码系统500(例如,配置单元540)可以被配置为接收作为外部设置551的用于同步的最大时滞或期望的更新时间段。此外,编码系统500(例如,配置单元540)可以包括计时器模块,其被配置为跟踪自从比特流564的第一个编码帧以后已过去的绝对时间量。比特流564的第一个编码帧按照定义是独立帧。编码系统500(例如,配置单元540)可以被配置为确定下一个被编码帧是否包括与作为期望的更新时段的整数倍的时刻相应的采样。每当下一个被编码帧包括作为期望的更新时段的整数倍的时间点的采样时,编码系统500(例如,配置单元540)可以被配置为确保下一个被编码帧被作为独立帧进行编码。通过这样做,可以确保,即使期望的更新时间段和帧长度的比率不是整数,也维持期望的更新时间段。
如以上所概述的,参数确定单元523被配置为基于多声道输入信号561的时间/频率表示来计算空间线索。可以基于当前帧的K/Q个(例如,24个)频谱589(例如,QMF频谱)和/或基于前视帧的K/Q个(例如,24个)频谱589(例如,QMF频谱)来确定空间元数据帧,其中,每个频谱589可以具有Q个(例如,64个)频率区间571的频率分辨率。根据编码系统500在输入信号561中是否检测到瞬变,用于计算单个空间线索集合的信号部分的时间长度可以包括不同数量的频谱589(例如,1个频谱直至K/Q个频谱的2倍)。如图5c所示,每个频谱589被划分为某一数量的频带572(例如,7、9、12或15个频带),这些频带572由于心理声学考虑包括不同数量的频率区间571(例如,1个频率区间直至41个频率)。不同频带p572和不同时间分段[q,v]限定输入信号561的当前帧和前视帧的时间/频率表示上的网格。对于该网格中的不同“框(box)”,可以分别基于不同“框”内的输入声道中的至少一些的能量和/或协方差的估计来计算不同的空间线索集合。如以上所概述的,可以通过对一个声道的变换系数580的平方进行求和和/或通过分别对不同声道的变换系数580的乘积进行求和来计算能量估计和/或协方差(如以上提供的公式所指示的那样)。可以根据用于确定空间参数的窗函数586来对不同的变换系数580进行加权。
能量估计E1,1(p)、E2,2(p)和/或协方差E1,2(p)的计算可以以定点算术来实现。在这种情况下,时间/频率网格的不同大小的“框”对针对空间参数确定的值的算术精度可能具有影响。如以上所概述的,每一频带572的频率区间(j-i+1)571的数量和/或时间/频率网格的“框”的时间间隔[q,v]的长度可以显著改变(例如,在1×1×2和48×41×2变换系数580(例如,复数QMF系数的实数部分和复数部分)之间)。结果,为确定能量E1,1(p)/协方差E1,2(p)而需要求和的乘积Re{at,f}Re{bt,f}和Im{at,f}Im{bt,f}的数量可以显著改变。为了防止计算结果超过可以以定点算术表示的数量范围,信号可以按比例缩小最大比特数量(例如,由于26·26=4096≥48·41·2,按比例缩小6个比特)。然而,对于较小的“框”和/或对于仅包括相对低的信号能量的“框”,该方法导致算术精度的显著降低。
在本文档中,提出了时间/频率网格的每一“框”使用单独的缩放(scale)。单独的缩放可以取决于时间/频率网格的“框”内所包括的变换系数580的数量。通常,用于时间频率网格的特定“框”(即,用于特定频带572和用于特定时间间隔[q,v])的空间参数仅基于来自该特定“框”的变换系数580来确定(而不取决于来自其它“框”的变换系数580)。此外,空间参数通常仅基于能量估计和/或协方差比率来确定(而通常不受绝对能量估计和/或协方差影响)。换句话说,单个空间线索通常不使用来自一单个时间/频率“框”的能量估计和/或交叉声道乘积。此外,空间线索通常不受绝对能量估计/协方差影响,而是仅受能量估计/协方差比率影响。因此,可以在每单个“框”中使用单独的缩放。该缩放应针对对特定空间线索有贡献的声道进行匹配。
对于频带p572并且对于时间间隔[q,v],第一声道561-1和第二声道561-2的能量估计E1,1(p)、E2,2(p)以及第一声道561-1和第二声道561-2之间的协方差E1,2(p)可以例如如以上公式所指示的那样确定。能量估计和协方差可以按缩放因子sp进行缩放,以提供缩放的能量和协方差:sp·E1,1(p)、sp·E2,2(p)和sp·E1,2(p)。基于能量估计E1,1(p)、E2,2(p)和协方差E1,2(p)导出的空间参数P(p)通常取决于能量和/或协方差的比率,以使得空间参数P(p)的值独立于缩放因子sp。结果,不同的缩放因子sp、sp+1、sp+2可以用于不同的频带p、p+1、p+2。
应注意,空间参数中的一个或多个可以取决于多于两个的不同输入声道(例如,三个不同声道)。在这种情况下,可以基于不同声道的能量估计E1,1(p)、E2,2(p)......,以及基于不同对声道之间的各协方差(即,E1,2(p)、E1,3(p)、E2,3(p)等)来导出所述一个或多个空间参数。并且,在这种情况下,所述一个或多个空间参数的值独立于应用于能量估计和/或协方差的缩放因子。
具体地说,用于特定频带p的缩放因子sp=2-zp(其中,zp是指示定点算术中的移位的正整数)可以被确定为使得
0.5<sp·max{|E1,1(p)|,|E2,2(p)|,|E1,2(p)|}≤1.0
并且使得移位zp最小。通过对于每个频带p和/或对于对其确定混合参数的每个时间间隔[q,v]单独地确保这一点,可以实现定点算术中的增加的(例如,最大的)精度,同时确保有效的值范围。
举例来说,可以通过对每单个MAC(乘积累加)运算检查MAC运算的结果是否可以超过+/-1来实现单独的缩放。只有情况如此,用于“框”的单独缩放才可以增加一个比特。一旦对所有声道都进行了这一点,就可以确定用于每个“框”的最大缩放,并且可以相应地调适“框”的所有的偏离缩放。
如以上所概述的,空间元数据可以每一帧包括一个或多个(例如,两个)空间参数集合。这样,编码系统500可以将每一帧一个或多个空间参数集合发送到相应的解码系统100。这些空间参数集合中的每个对应于空间元数据帧的K/Q个时间上接续的频谱289中的一个特定频谱。该特定频谱对应于特定时刻,并且该特定时刻可以被称为采样点。图5c分别示出了两个空间参数集合的两个示例采样点583、584。采样点583、584可以与输入音频信号561内所包括的特定事件相关联。可替代地,采样点可以是预定的。
采样点583、584指示相应的空间参数应被解码系统100充分应用的时刻。换句话说,解码系统100可以被配置为在采样点583、584根据发送的空间参数集合来更新空间参数。此外,解码系统100可以被配置为在两个随后的采样点之间内插空间参数。空间元数据可以指示在连续的空间参数集合之间将执行的过渡类型。过渡类型的示例是空间参数之间的“平滑”和“陡峭”过渡,这意味着空间参数可以分别地以平滑的(例如,线性的)方式内插或者可以突然地更新。
在“平滑”过渡的情况下,采样点可以是固定的(即,预定的),并因此不需要在比特流564中被用信号发送。如果空间元数据帧递送单个空间参数集合,则预定采样点可以是帧的最末尾处的位置,即,采样点可以对应于第(K/Q)个频谱589。如果空间元数据帧递送两个空间参数集合,则第一个采样点可以对应于第(K/2Q)个频谱589,第二个采样点可以对应于第(K/Q)个频谱589。
在“陡峭”过渡的情况下,采样点583、584可以是可变的,并且可以在比特流562中被用信号发送。比特流562的携带以下信息的部分可以被称为比特流562的“组帧”部分:关于一个帧中所使用的空间参数集合的数量的信息、关于“平滑”和“陡峭”过渡之间的选择的信息、以及关于“陡峭”过渡情况下的采样点的位置的信息。图7a示出了可以由解码系统100根据所接收的比特流562内所包括的组帧信息应用的示例过渡方案。
举例来说,对于特定帧的组帧信息可以指示“平滑”过渡和单个空间参数集合711。在这种情况下,解码系统100(例如,第一混合矩阵130)可以假定空间参数集合711的采样点对应于特定帧的最后一个频谱。此外,解码系统100可以被配置为在最后所接收的用于紧靠前的帧的空间参数集合710和用于所述特定帧的空间参数集合711之间进行(例如,线性)内插701。在另一个示例中,对于特定帧的组帧信息可以指示“平滑”过渡和两个空间参数集合711、712。在这种情况下,解码系统100(例如,第一混合矩阵130)可以假定第一个空间参数集合711的采样点对应于所述特定帧的第一半的最后一个频谱,并且第二个空间参数集合712的采样点对应于所述特定帧的第二半的最后一个频谱。此外,解码系统100可以被配置为在最后所接收的用于紧靠前的帧的空间参数集合710和第一个空间参数集合711之间以及在第一个空间参数集合711和第二个空间参数集合712之间进行(例如,线性)内插702。
在另一个示例中,对于特定帧的组帧信息可以指示“陡峭”过渡、单个空间参数集合711以及该单个空间参数集合711的采样点583。在这种情况下,解码系统100(例如,第一混合矩阵130)可以被配置为将最后所接收的空间参数集合710应用于紧靠前的帧直到采样点583,并且从采样点583开始应用空间参数集合711(如曲线703所示)。在另一个示例中,对于特定帧的组帧信息可以指示“陡峭”过渡、两个空间参数集合711、712以及分别对于两个空间参数集合711、712的两个对应的采样点583、584。在这种情况下,解码系统100(例如,第一混合矩阵130)可以被配置为将最后所接收的空间参数集合710应用于紧靠前的帧直到第一采样点583,并且从第一采样点583开始直至第二采样点584应用第一空间参数集合711,并且从第二采样点584开始至少直到所述特定帧的结束应用第二空间参数集合712(如曲线704所示)。
编码系统500应确保,组帧信息与信号特性匹配,并且输入信号561的合适部分被选择以计算所述一个或多个空间参数集合711、712。为了这个目的,编码系统500可以包括检测器,其被配置为检测一个或多个声道中的信号能量突然增大的信号位置。如果找到至少一个这样的信号位置,则编码系统500可以被配置为从“平滑”过渡切换到“陡峭”过渡,否则编码系统500可以继续“平滑”过渡。
如以上所概述的,编码系统500(例如,参数确定单元523)可以被配置为基于输入音频信号561的多个帧585、590(例如,基于当前帧585并且基于紧靠后的帧590(即,所谓的前视帧))来计算用于当前帧的空间参数。这样,参数确定单元523可以被配置为基于两倍的K/Q个频谱589来确定空间参数(如图5e所示)。如图5e所示,频谱589可以用窗586加窗。在本文档中,提出了基于将被确定的空间参数集合711、712的数量、基于过渡类型和/或基于采样点583、584的位置来调适窗586。通过这样做,可以确保,组帧信息与信号特性匹配,并且输入信号561的合适部分被选择以计算所述一个或多个空间参数集合711、712。
以下,描述用于不同编码器/信号情况的示例窗函数:
a)情况:单个空间参数集合711、平滑过渡、在前视帧590中没有瞬变;
窗函数586:在前一帧的最后频谱和第(K/Q)个频谱589之间,窗函数586可以从0线性地上升到1。在第(K/Q)个频谱589和第48个频谱589之间,窗函数586可以从1线性地降到0(参见图5e)。
b)情况:单个空间参数集合711、平滑过渡、在第N个频谱(N>K/Q)中存在瞬变,即,在前视帧590中存在瞬变;
如图7b所示的窗函数721:在前一帧的最后一个频谱和第(K/Q)个频谱之间,窗函数721从0线性地上升到1。在第(K/Q)个频谱和第(N-1)个频谱之间,窗函数721恒定地保持为1。在第N个频谱和第(2*K/Q)个频谱之间,窗函数恒定地保持为0。第N个频谱处的瞬变用瞬变点724(其对应于用于紧跟帧590的空间参数集合的采样点)表示。此外,图7b中示出了互补窗函数722(当确定用于前一帧的所述一个或多个空间参数集合时,互补窗函数722被应用于当前帧585的频谱)和窗函数723(当确定用于后一帧的所述一个或多个空间参数集合时,窗函数723被应用于后一帧590的频谱)。总的说来,窗函数721确保,在前视帧590中的一个或多个瞬变的情况下,第一瞬变点724前面的前视帧的频谱被充分地考虑用于确定用于当前帧585的空间参数集合711。另一方面,忽略瞬变点724后面的前视帧590的频谱。
c)情况:单个空间参数集合711、陡峭过渡、第N个频谱中存在瞬变(N<=K/Q)、在后续帧590中不存在瞬变。
如图7c所示的窗函数731:在第1个频谱和第(N-1)个频谱之间,窗函数731恒定地保持为0。在第N个频谱和第(K/Q)个频谱之间,窗函数731恒定地保持为1。在第(K/Q)个频谱和第(2*K/Q)个频谱之间,窗函数731从1线性地降到0。图7c指示第N个频谱处的瞬变点734(其对应于单个空间参数集合711的采样点)。此外,图7c示出了窗函数732和窗函数733,窗函数732在确定用于前一帧的所述一个或多个空间参数集合时被应用于当前帧585的频谱,窗函数733在确定用于后一帧的所述一个或多个空间参数集合时被应用于后一帧590的频谱。
d)情况:单个空间参数集合、陡峭过渡、在第N个频谱和第M个频谱中存在瞬变(N<=K/Q,M>K/Q);
图7d中的窗函数741:在第1个频谱和第(N-1)个频谱之间,窗函数741恒定地保持为0。在第N个频谱和第(M-1)个频谱之间,窗函数741恒定地保持为1。在第M个频谱和第48个频谱之间,窗函数恒定地保持为0。图7d指示第N个频谱处的瞬变点744(即空间参数集合的采样点)和第M个频谱处的瞬变点745。此外,图7d示出了窗函数742和窗函数743,窗函数742在确定用于前一帧的所述一个或多个空间参数集合时被应用于当前帧585的频谱,窗函数743在确定用于后一帧的所述一个或多个空间参数集合时被应用于后一帧590的频谱。
e)情况:两个空间参数集合、平滑过渡、在后续帧中不存在瞬变;
窗函数:
i.)第1个空间参数集合:在前一帧的最后一个频谱和第(K/2Q)个频谱之间,窗从0线性地上升到1。在第(K/2Q)个频谱和第(K/Q)个频谱之间,窗从1线性地降到0。在第(K/Q)个频谱和第(2*K/Q)个频谱之间,窗恒定地保持为0。
ii.)第2个空间参数集合:在第1个频谱和第(K/2Q)个频谱之间,窗恒定地保持为0。在第(K/2Q)个频谱和第(K/Q)个频谱之间,窗从0线性地上升到1。在第(K/Q)个频谱和第(3*K/2Q)个频谱之间,窗从1线性地降到0。在第(3*K/2Q)个频谱和第(2*K/Q)个频谱之间,窗恒定地保持为0。
f)情况:两个空间参数集合、平滑过渡、在第N个频谱中存在瞬变(N>K/Q);
窗函数:
i.)第1个空间参数集合:在前一帧的最后一个频谱和第(K/2Q)个频谱之间,窗从0线性地上升到1。在第(K/2Q)个频谱和第(K/Q)个频谱之间,窗从1线性地降到0。在第(K/Q)个频谱和第(2*K/Q)个频谱之间,窗恒定地保持为0。
ii.)第2个空间参数集合:在第1个频谱和第(K/2Q)个频谱之间,窗恒定地保持为0。在第(K/2Q)个频谱和第(K/Q)个频谱之间,窗从0线性地上升到1。在第(K/Q)个频谱和第(N-1)个频谱之间,窗恒定地保持为1。在第N个频谱和第(2*K/Q)个频谱之间,窗恒定地保持为0。
g)情况:两个空间参数集合、陡峭过渡、在第N个频谱和第M个频谱中存在瞬变(N<M<=K/Q)、在后续帧中不存在瞬变;
窗函数:
i.)第1个空间参数集合:在第1个频谱和第(N-1)个频谱之间,窗恒定地保持为0。在第N个频谱和第(M-1)个频谱之间,窗恒定地保持为1。在第M个频谱和第(2*K/Q)个频谱之间,窗恒定地保持为0。
ii.)第2个空间参数集合:在第1个频谱和第(M-1)个频谱之间,窗恒定地保持为0。在第M个频谱和第(K/Q)个频谱之间,窗恒定地保持为1。在第(K/Q)个频谱和第(2*K/Q)个频谱之间,窗从1线性地降到0。
h)情况:两个空间参数集合、陡峭过渡、在第N个、第M个和第O个频谱中存在瞬变(N<M<=K/Q,O>K/Q);
窗函数:
i.)第1个空间参数集合:在第1个频谱和第(N-1)个频谱之间,窗恒定地保持为0。在第N个频谱和第(M-1)个频谱之间,窗恒定地保持为1。在第M个频谱和第(2*K/Q)个频谱之间,窗恒定地保持为0。
ii.)第2个空间参数集合:在第1个频谱和第(M-1)个频谱之间,窗恒定地保持为0。在第M个频谱和第(O-1)个频谱之间,窗恒定地保持为1。在第O个频谱和第(2*K/Q)个频谱之间,窗恒定地保持为0。
总的说来,可以规定用于确定当前空间参数集合的窗函数的以下示例规则:
●如果当前空间参数集合与瞬变不相关联,
-窗函数提供从前一空间参数集合的采样点直至当前空间参数集合的采样点的频谱的平滑渐涨;
-窗函数提供从当前空间参数集合的采样点直至后一空间参数集合的采样点的频谱的平滑渐消,如果该后一空间参数集合与瞬变不相关联的话;
-窗函数充分地考虑从当前空间参数集合的采样点直至后一空间参数集合的采样点前面的频谱的频谱,并且消除从后一空间参数集合的采样点开始的频谱,如果该后一空间参数集合与瞬变相关联的话;
●如果当前空间参数集合与瞬变相关联,
-窗函数消除当前空间参数集合的采样点前面的频谱;
-窗函数充分地考虑从当前空间参数集合的采样点直至后一空间参数集合的采样点前面的频谱的频谱,并且消除从后一空间参数集合的采样点开始的频谱,如果后一空间参数集合的采样点与瞬变相关联的话;
-窗函数充分地考虑从当前空间参数集合的采样点直至当前帧的结束处的频谱的频谱,并且提供从前视帧的开始直至后一空间参数集合的采样点的频谱的平滑渐消,如果后一空间参数集合与瞬变不相关联的话。
以下,描述了一种用于减小包括编码系统500和解码系统100的参数化多声道编解码系统中的延迟的方法。如以上所概述的,编码系统500包括数个处理路径,诸如下混信号产生和编码以及参数确定和编码。解码系统100通常执行编码的下混信号的解码和解相关的下混信号的产生。此外,解码系统100执行编码的空间元数据的解码。随后,解码的空间元数据被应用于解码的下混信号和解相关的下混信号,以在第一上混矩阵130中产生上混信号。
期望的是提供编码系统500,其被配置为提供使得解码系统100能够以减小的延迟和/或减小的缓冲存储器产生上混信号Y的比特流564。如以上所概述的,编码系统500包括数个不同的路径,这些不同的路径可以被对齐以使得比特流564内的提供给解码系统100的编码数据在解码时正确地匹配。如以上所概述的,编码系统500执行PCM信号561的下混和编码。此外,编码系统500从PCM信号561确定空间元数据。另外,编码系统500可以被配置为确定一个或多个修剪增益(通常,每一帧一个修剪增益)。修剪增益指示已应用于下混信号X以便确保下混信号X不修剪的修剪防止增益。所述一个或多个修剪增益可以在比特流564内(通常,在空间元数据帧内)被发送,以便使得解码系统100能够重新产生上混信号Y。另外,编码系统500可以被配置为确定一个或多个动态范围控制(DRC)值(例如,每一帧一个或多个DRC值)。所述一个或多个DRC值可以被解码系统100使用以执行上混信号Y的动态范围控制。具体地说,所述一个或多个DRC值可以确保本文档中所描述的参数化多声道编解码系统的DRC性能类似于(或者等于)旧有的多声道编解码系统(诸如DolbyDigitalPlus)的DRC性能。所述一个或多个DRC值可以在下混音频帧内(例如,在DolbyDigitalPlus比特流的合适字段内)被发送。
这样,编码系统500可以包括至少四个信号处理路径。为了对齐这四个路径,编码系统500还可以考虑与编码系统500不直接相关的不同处理组件引入到系统中的延迟,诸如核心编码器延迟、核心解码器延迟、空间元数据解码器延迟、LFE滤波器延迟(用于对LFE声道进行滤波)和/或QMF分析延迟。
为了对齐不同的路径,可以考虑DRC处理路径的延迟。DRC处理延迟通常仅可以被对齐到帧,而不是基于逐个时间采样而对齐。这样,DRC处理延迟通常仅取决于可以向上舍入(roundup)到下一帧对齐的核心编码器延迟,即,DRC处理延迟=roundup(核心编码器延迟/帧大小)。基于此,可以确定用于产生下混信号的下混处理延迟,因为下混处理延迟可以基于时间采样而延迟,即,下混处理延迟=DRC延迟*帧大小-核心编码器延迟。如图8所示,可以通过对单个的延迟线进行求和并且通过确保延迟在解码器级匹配来计算其余延迟。
通过考虑当写比特流564时的不同处理延迟,当使所得的空间元数据延迟一个帧(存储器减小输入声道的数量*1536*4字节-245个字节)、而不是使编码的PCM数据延迟1536个采样时,可以降低解码系统100处的处理能力(复制操作减少输入声道的数量-1*1536)和存储器。作为延迟的结果,所有的信号路径通过时间采样准确地对齐,而不仅仅是大致匹配。
如以上所概述的,图8例示了由示例编码系统500引发的不同延迟。图8的括号中的数字指示以输入信号561的采样数量的示例延迟。编码系统500通常包括由对多声道输入信号561的LFE声道进行滤波而引起的延迟801。此外,延迟802(其被称为“clipgainpcmdelayline”)可由确定修剪增益(即,下述DRC2参数)引起,所述修剪增益将被应用于输入信号561,以便防止下混信号修剪。具体地说,该延迟802可以被引入以使编码系统500中的修剪增益应用与解码系统100中的修剪增益应用同步。为了这个目的,可以使下混计算(由下混处理单元510执行)的输入延迟等于下混信号的解码器140的延迟811(其被称为“coredecdelay”)的量。这意味着,在所例示的示例中,clipgainpcmdelayline=coredecdelay=288个采样。
下混处理单元510(其包括例如DolbyDigitalPlus编码器)使音频数据(例如,下混信号)的处理路径延迟,但是下混处理单元510不使空间元数据的处理路径和用于DRC/修剪增益数据的处理路径延迟。因此,下混处理单元510应使所计算的DRC增益、修剪增益和空间元数据延迟。对于DRC增益,该延迟通常需要是一个帧的倍数。DRC延迟线的延迟807(其被称为“drcdelayline”)可以被计算为drcdelayline=ceil((corencdelay+clipgainpcmdelayline)/frame_size)=2个帧;其中,“coreencdelay”指的是下混信号的编码器的延迟810。
DRC增益的延迟通常仅可以是帧大小的倍数。由于此,可能在下混处理路径中需要增加附加的延迟,以便补偿这并且向上舍入到帧大小的下一个倍数。附加的下混延迟806(其被称为“dmxdelayline”)可以由dmxdelayline+coreencdelay+clipgainpcmdelayline=drcdelayline*frame_size确定;并且dmxdelayline=drcdelayline*frame_size-coreencdelay-clipgainpcmdelayline,以使得dmxdelayline=100。
当空间参数在解码器侧被应用于频域中(例如,QMF域中)时,空间参数应与下混信号同步。为了补偿下混信号的编码器不使空间元数据帧延迟、而是使下混处理路径延迟的事实,应使参数提取器420的输入延迟,以使得以下条件适用:dmxdelayline+coreencdelay+coredecdelay+aspdecanadelay=aspdelayline+qmfanadelay+framingdelay。在以上公式中,“qmfanadelay”指定由变换单元521引起的延迟804,“framingdelay”指定由变换系数580的加窗和空间参数的确定引起的延迟805。如以上所概述的,组帧计算使用两个帧(当前帧和前视帧)作为输入。由于前视,组帧引入了恰好一个帧长度的延迟805。此外,延迟804是已知的,以使得将被应用于用于确定空间元数据的处理路径的附加延迟为aspdelayline=dmxdelayline+coreencdelay+coredecdelay+aspdecanadelay-qmfanadelay-framingdelay=1856。因为该延迟大于一个帧,所以可以通过使所计算的比特流延迟、而不是使输PCM数据延迟来减小延迟线的存储器大小,从而提供aspbsdelayline=floor(aspdelayline/frame_size)=1个帧(延迟809)并且asppcmdelayline=aspdelayline-aspbsdelayline*frame_size=320(延迟803)。
在计算所述一个或多个修剪增益之后,将所述一个或多个修剪增益提供给比特流产生单元530。因此,所述一个或多个修剪增益经历由aspbsdelayline809应用于最终比特流上的延迟。这样,用于修剪增益的附加延迟808应为:clipgainbsdelayline+aspbsdelayline=dmxdelayline+coreencdelay+coredecdelay,这提供:clipgainbsdelayline=dmxdelayline+coreencdelay+coredecdelay-aspbsdelayline=1个帧。换句话说,应确保,所述一个或多个修剪增益在紧接在下混信号的相应帧解码之后提供给解码系统500,以使得所述一个或多个修剪增益可以在上混级130中执行上混之前被应用于下混信号。
图8示出了在解码系统100处引发的进一步的延迟,诸如由解码系统100的时域到频域变换301、302引起的延迟812(其被称为“aspdecanadelay”)、由频域到时域变换311至316引起的延迟813(其被称为“aspdecsyndelay”)以及进一步的延迟814。
如可从图8看出的,编解码系统的不同处理路径包括处理相关的延迟或对齐延迟,这些延迟确保在需要时来自不同处理路径的不同输出数据在解码系统100处可供使用。在编码系统500内提供对齐延迟(例如,延迟803、809、807、808、806),从而减小解码系统100处所需的处理能力和存储器。用于不同处理路径的总延迟(不包括可应用于所有处理路径的LFE滤波器延迟801)如下:
●下混处理路径:延迟802、806、810的和=3072,即,两个帧;
●DRC处理路径:延迟807=3072,即,两个帧;
●修剪增益处理路径:延迟808、809、802的和=3360,除了下混信号的解码器的延迟811之外,这还对应于下混处理路径的延迟;
●空间元数据处理路径:延迟802、803、804、805、809的和=4000,除了下混信号的解码器的延迟811之外,并且除了由时域到频域变换级301、302引起的延迟812之外,这还对应于下混处理路径的延迟。
因此,确保了,DRC数据在时刻821在解码系统100处可供使用,修剪增益数据在时刻822可供使用,并且空间元数据在时刻823可供使用。
此外,从图8可以看出,比特流产生单元530可以组合编码的音频数据和可能与输入音频信号561的不同节选相关的空间元数据。具体地说,可以看出,下混处理路径、DRC处理路径和修剪增益处理路径具有恰好两个帧(3072个采样)直至编码系统500的输出的延迟(由接口831、832、833指示)(当忽略延迟801时)。编码的下混信号由接口831提供,DRC增益数据由接口832提供,并且空间元数据和修剪增益数据由接口833提供。通常,编码的下混信号和DRC增益数据在传统的DolbyDigitalPlus帧中提供,而修剪增益数据和空间元数据可以在空间元数据帧中(例如,在DolbyDigitalPlus帧的辅助字段中)提供。
可以看出,接口833处的空间元数据处理路径具有4000个采样的延迟(当忽略延迟801时),该延迟不同于其它处理路径的延迟(3072个采样)。这意味着,空间元数据帧可能与输入信号561的不同于下混信号的帧的节选相关。具体地说,可以看出,为了确保解码系统100处的对齐,比特流产生单元530应被配置为产生包括比特流帧序列的比特流564,其中,比特流帧指示下混信号的与多声道输入信号561的第一帧对应的帧以及与多声道输入信号561的第二帧对应的空间元数据帧。多声道输入信号561的第一帧和第二帧可以包括相同数量的采样。尽管如此,多声道输入信号561的第一帧和第二帧可以彼此不同。具体地说,第一帧和第二帧可以对应于多声道输入信号561的不同节选。更具体地说,第一帧可以包括在第二帧的采样前面的采样。举例来说,第一帧可以包括多声道输入信号561的如下采样:这些采样领先于多声道输入信号561的第二帧的采样预定数量的采样(例如,928个采样)。
如以上所概述的,编码系统500可以被配置为确定动态范围控制(DRC)和/或修剪增益数据。具体地说,编码系统500可以被配置为确保下混信号X不修剪。此外,编码系统500可以被配置为提供动态范围控制(DRC)参数,该参数确保使用以上提及的参数化编码方案进行编码的多声道信号Y的DRC行为类似于或等于使用参考多声道编码系统(诸如DolbyDigitalPlus)进行编码的多声道信号Y的DRC行为。
图9a示出了示例双模编码系统900的框图。应注意,双模编码系统900的部分930、931通常单独提供。n声道输入信号Y561被提供给上面部分930和下面部分931中的每一个,上面部分930至少在编码系统900的多声道编码模式下是有效的,下面部分931至少在系统900的参数化编码模式下是有效的。编码系统900的下面部分931可以对应于或者可以包括例如编码系统500。上面部分930可以对应于参考多声道编码器(诸如DolbyDigitalPlus编码器)。上面部分930一般包括与编码器911并行布置的离散模式DRC分析器910,编码器911和离散模式DRC分析器910二者都接收作为输入的音频信号Y561。基于该输入信号561,编码器911输出编码的n声道信号而DRC分析器910输出量化将应用的解码器侧DRC的一个或多个后处理DRC参数DRC1。DRC参数DRC1可以是“compr”增益(压缩器增益)和/或“dynrng”增益(动态范围增益)参数。两个单元910、911的并行输出由离散模式复用器912采集,离散模式复用器912输出比特流P。比特流P可以具有预定语法,例如,DolbyDigitalPlus语法。
编码系统900的下面部分931包括与参数化模式DRC分析器921并行布置的参数化分析级922,参数化模式DRC分析器921如参数化分析级922一样接收n声道输入信号Y。参数化分析级922可以包括参数提取器420。基于n声道音频信号Y,参数化分析级922输出一个或多个混合参数(如以上概述的那样)(在图9a和9b中共同用a表示)和m声道(1<m<n)下混信号X,该m声道下混信号X接着被核心信号编码器923(例如,DolbyDigitalPlus编码器)处理,核心信号编码器923基于此输出编码的下混信号参数化分析级922影响输入信号的时间块或帧中的动态范围限制,在这可能需要的情况下。控制何时应用动态范围限制的可能的条件可以是“非修剪条件”或“范围内条件”,这些条件暗示在其中下混信号具有高幅度的时间块或帧分段中,信号被处理以使得它适合限定的范围内。可以基于一个时间块或包括数个时间块的一个时间帧来实施该条件。举例来说,输入信号561的帧可以包括预定数量的(例如,6个)块。优选地,通过应用广频谱增益减小、而不是仅截断峰值或使用类似的方法来实施该条件。
图9b示出了参数化分析级922的可能实现,参数化分析级922包括预处理器927和参数化分析处理器928。预处理器927负责对n声道输入信号561执行动态范围限制,由此它输出动态范围限制的n声道信号,该信号被供给到参数化分析处理器928。预处理器527进一步输出预处理DRC参数DRC2的逐块或逐帧值。与来自参数化分析处理器928的m声道下混信号X和混合参数α一起,参数DRC2被包括在来自参数分析级922的输出中。
参数DRC2也可以被称为修剪增益。参数DRC2可以指示已应用于多声道输入信号561以便确保下混信号X不修剪的增益。可以通过确定输入信号Y的声道中的一些或全部的线性组合来从输入信号Y的声道确定下混信号X的所述一个或多个声道。举例来说,输入信号Y可以是5.1多声道信号,并且下混信号可以是立体声信号。可以基于5.1多声道输入信号的采样的不同线性组合来产生下混信号的左声道和右声道的采样。
DRC2参数可以被确定为使得下混信号的声道的最大幅度不超过预定阈值。这可以逐块地或逐帧地确保。每块或帧的单个增益(修剪增益)可以被应用于多声道输入信号Y的声道,以便确保满足以上提及的条件。DRC2参数可以指示该增益(例如,该增益的逆)。
参照图9a,注意,离散模式DRC分析器910与参数化模式DRC分析器921类似地工作,因为它输出量化将应用的解码器侧DRC的一个或多个后处理DRC参数DRC1。这样,参数化模式DRC分析器921可以被配置为模拟由参考多声道编码器930执行的DRC处理。由参数化模式DRC分析器921提供的参数DRC1在参数化编码模式下通常不包括比特流P中,而是经历补偿以使得由参数化分析级922实现的动态范围限制被考虑。为了这个目的,DRC上补偿器(up-compensator)924接收后处理DRC参数DRC1和预处理DRC参数DRC2。对于每个块或帧,DRC上补偿器924导出一个或多个经补偿的后处理DRC参数DRC3的值,其使得经补偿的后处理DRC参数DRC3和预处理DRC参数DRC2的组合作用定量地等同于由后处理DRC参数DRC1量化的DRC。换句话说,DRC上补偿器924被配置为使DRC分析器921输出的后处理DRC参数减小其份额(如果有的话),该份额已经由参数化分析级922实现。它是可以包括在比特流P中的经补偿的后处理DRC参数DRC3。
参照系统900的下面部分931,参数化模式复用器925收集经补偿的后处理DRC参数DRC3、预处理DRC参数DRC2、混合参数α以及编码的下混信号X,并且基于此形成比特流P。这样,参数化模式复用器925可以包括或者可以对应于比特流产生单元530。在可能的实现中,经补偿的后处理DRC参数DRC3和预处理DRC参数DRC2可以以对数形式被编码为影响解码器侧的幅度放大或缩小的dB值。经补偿的后处理DRC参数DRC3可以具有任何符号。然而,源自实施“非修剪条件”等的预处理DRC参数DRC2通常将始终由非负dB值表示。
图10示出了可以例如在参数化模式DRC分析器921中和DRC上补偿器924中执行以便确定修改的DRC参数DRC3(例如,修改的“dynrng增益(dynrnggain)”和/或“compr增益(comprgain)”参数)的示例处理。
DRC2和DRC3参数可以用于确保解码系统100以一致的响度级回放不同的音频比特流。此外,可以确保由参数化编码系统500产生的比特流相对于由旧有和/或参考编码系统(诸如DolbyDigitalPlus)产生的比特流具有一致的响度级。如以上所概述的,这可以通过在编码系统500处产生不修剪的下混信号(通过使用DRC2参数)、并且通过在比特流内提供DRC2参数(例如,已被应用于防止下混信号修剪的衰减的逆)、以便使得解码系统100能够重新创建原始响度(当产生上混信号时)来确保。
如以上所概述的,通常基于多声道输入信号561的声道中的一些或全部的线性组合来产生下混信号。这样,应用于多声道输入信号561的声道的缩放因子(或衰减)可以取决于多声道输入信号561的对下混信号有贡献的所有声道。具体地说,可以基于多声道输入信号561的LFE声道来确定下混信号的所述一个或多个声道。因此,应用于修剪保护的缩放因子(或衰减)还应考虑LFE声道。这不同于其中LFE声道通常不被考虑用于修剪保护的其它多声道编码系统(诸如DolbyDigitalPlus)。通过考虑LFE声道和/或对下混信号有贡献的所有声道,可以改进修剪保护的质量。
这样,提供给相应的解码系统100的所述一个或多个DRC2参数可以取决于输入信号561的对下混信号有贡献的所有声道,具体地说,DRC2参数可以取决于LFE声道。通过这样做,可以改进修剪保护的质量。
应注意,对白归一(dialnorm)参数可以不被考虑用于计算缩放因子和/或DRC2参数(如图10所示)。
如以上所概述的,编码系统500可以被配置为将所谓的“修剪增益”(即,DRC2参数)写入指示哪些增益已被应用在输入信号561上的空间元数据帧中,以便防止下混信号中的修剪。相应的解码系统100可以被配置为准确地逆算(invert)在编码系统500中应用的修剪增益。然而,只有修剪增益的采样点在比特流中被发送。换句话说,修剪增益参数通常仅每一帧地或每一块地确定。解码系统100可以被配置为在相邻的采样点之间的采样点之间内插修剪增益值(即,所接收的DRC2参数)。
图11中例示了用于内插用于相邻帧的DRC2参数的示例内插曲线。具体地说,图11示出了用于第一帧的第一DRC2参数953和用于后面的第二帧950的第二DRC2参数954。解码系统100可以被配置为在第一DRC2参数953和第二DRC2参数954之间进行内插。内插可以在第二帧950的采样子集951内(例如,在第二帧950的第一块951内)执行(如内插曲线952所示)。DRC2参数的内插确保相邻的音频帧之间的平滑过渡,并且从而避免可能由随后的DRC2参数953、954之间的差引起的可听伪像。
编码系统500(具体地说,下混处理单元510)可以被配置为当产生下混信号时将相应的修剪增益内插应用于由解码系统500执行的DRC2内插952。这确保当产生上混信号时下混信号的修剪增益保护被一致地移除。换句话说,编码系统500可以被配置为模拟源自解码系统100应用的DRC2内插952的DRC2值的曲线。此外,编码系统500可以被配置为当产生下混信号时将该DRC2值的曲线的准确(即,逐采样)逆应用于多声道输入信号561。
本文档中所描述的方法和系统可以实现为软件、固件和/或硬件。某些组件可以例如实现为在数字信号处理器或微处理器上运行的软件。其它组件可以例如实现为硬件或专用集成电路。在所描述的方法和系统中遇到的信号可以被存储在诸如随机存取存储器或光学存储介质上。它们可以经由网络传送,所述网络诸如无线电网络、卫星网络、无线网络或有线网络(例如,互联网)。使用本文档中所描述的方法和系统的典型装置是便携式电子装置或用于存储和/或呈现音频信号的其它消费类设备。

Claims (44)

1.一种音频编码系统(500),所述音频编码系统(500)被配置为产生指示下混信号和空间元数据的比特流(564),所述空间元数据用于从所述下混信号产生多声道上混信号;所述系统(500)包括:
-下混处理单元(510),所述下混处理单元(510)被配置为从多声道输入信号(561)产生所述下混信号;其中,所述下混信号包括m个声道,并且其中,所述多声道输入信号(561)包括n个声道;n、m为整数,其中m<n;
-参数处理单元(520),所述参数处理单元(520)被配置为从多声道输入信号(561)确定所述空间元数据;以及
-配置单元(540),所述配置单元(540)被配置为基于一个或多个外部设置来确定对于所述参数处理单元(520)的一个或多个控制设置;
其中,所述一个或多个外部设置包括所述比特流(564)的目标数据速率,并且其中,所述一个或多个控制设置包括所述空间元数据的最大数据速率。
2.根据权利要求1所述的音频编码系统(500),其中,
-所述参数处理单元(520)被配置为确定称为空间元数据帧的所述多声道输入信号(561)的帧的空间元数据;
-所述多声道输入信号(561)的帧包括所述多声道输入信号(561)的预定数量的采样;并且
-所述空间元数据的最大数据速率指示空间元数据帧的元数据比特的最大数量。
3.根据权利要求2所述的音频编码系统(500),其中,所述参数处理单元(520)被配置为确定基于所述一个或多个控制设置所确定的空间元数据帧的比特的数量是否超过所述元数据比特的最大数量。
4.根据权利要求3所述的音频编码系统(500),其中,
-空间元数据帧包括一个或多个空间参数集合(711、712);
-所述一个或多个控制设置包括时间分辨率设置,所述时间分辨率设置指示要由所述参数处理单元(520)确定的每一空间元数据帧的空间参数集合(711、712)的数量;
-所述参数处理单元(520)被配置为:如果当前空间元数据帧包括多个空间参数集合(711、712)并且如果确定所述当前空间元数据帧的比特的数量超过元数据比特的最大数量,则从所述当前空间元数据帧丢弃空间参数集合(711)。
5.根据权利要求4所述的音频编码系统(500),其中,
-所述一个或多个空间参数集合(711、712)与相应的一个或多个采样点(583、584)相关联;
-所述一个或多个采样点(583、584)指示相应的一个或多个时刻;
-所述参数处理单元(520)被配置为:如果当前元数据帧的所述多个采样点(583、584)与所述多声道输入信号(561)的瞬变不相关联,则从所述当前空间元数据帧丢弃第一空间参数集合(711),其中,所述第一空间参数集合(711)与第二采样点(584)之前的第一采样点(583)相关联;并且
-所述参数处理单元(520)被配置为:如果当前元数据帧的所述多个采样点(583、584)与所述多声道输入信号(561)的瞬变相关联,则从所述当前空间元数据帧丢弃第二空间参数集合(712)。
6.根据权利要求4至5中的任一项所述的音频编码系统(500),其中,
-所述一个或多个控制设置包括量化器设置,所述量化器设置指示多个预定类型的量化器中的第一类型的量化器;
-所述参数处理单元(520)被配置为根据所述第一类型的量化器对所述一个或多个空间参数集合(711、712)进行量化;
-所述多个预定类型的量化器分别提供不同的量化器分辨率;
-所述参数处理单元(520)被配置为:如果确定所述当前空间元数据帧的比特的数量超过元数据比特的最大数量,则根据具有低于所述第一类型的量化器的分辨率的第二类型的量化器重新对所述一个或多个空间参数集合(711、712)的空间参数中的一个、一些或全部进行量化。
7.根据权利要求6所述的音频编码系统(500),其中,所述多个预定类型的量化器包括细量化和粗量化。
8.根据权利要求4至7中的任一项所述的音频编码系统(500),其中,所述参数处理单元(520)被配置为:
-基于当前空间参数集合(712)相对于紧靠前的空间参数集合(711)的差来确定时间差参数集合;
-使用熵编码对所述时间差参数集合进行编码;
-将经编码的时间差参数集合插入在所述当前空间元数据帧中;以及
-如果确定所述当前空间元数据帧的比特的数量超过元数据比特的最大数量,则减小所述时间差参数集合的熵。
9.根据权利要求8所述的音频编码系统(500),其中,所述参数处理单元(520)被配置为将所述时间差参数集合的时间差参数中的一个、一些或全部设置为等于所述时间差参数的可能值中的具有增大概率的值,以便减小所述时间差参数集合的熵。
10.根据权利要求4至9中的任一项所述的音频编码系统(500),其中,
-所述一个或多个控制设置包括频率分辨率设置;
-所述频率分辨率设置指示不同频带(572)的数量;
-所述参数处理单元(520)被配置为确定用于所述不同频带(572)的不同空间参数,所述空间参数被称为带参数;并且
-空间参数集合包括用于不同频带(572)的相应的带参数。
11.根据权利要求10所述的音频编码系统(500),其中,所述参数处理单元(520)被配置为:
-基于第一频带(572)中的一个或多个带参数相对于相邻的第二频带(572)中的相应的一个或多个带参数的差来确定频率差参数集合;
-使用熵编码对所述频率差参数集合进行编码;
-将经编码的频率差参数集合插入在所述当前空间元数据帧中;以及
-如果确定所述当前空间元数据帧的比特的数量超过元数据比特的最大数量,则减小所述频率差参数集合的熵。
12.根据权利要求11所述的音频编码系统(500),其中,所述参数处理单元(520)被配置为:将所述频率差参数集合的频率差参数中的一个、一些或全部设置为等于所述频率差参数的可能值中的具有增大概率的值,以便减小所述频率差参数集合的熵。
13.根据权利要求10至12中的任一项所述的音频编码系统(500),其中,所述参数处理单元(520)被配置为:
-如果确定所述当前空间元数据帧的比特的数量超过元数据比特的最大数量,则减小频带(572)的数量;以及
-使用经减小的频带(572)的数量来重新确定用于所述当前空间元数据帧的所述一个或多个空间参数集合。
14.根据前面的任一项权利要求所述的音频编码系统(500),其中,
-所述一个或多个外部设置还包括以下中的一个或多个:所述多声道输入信号(561)的采样速率、所述下混信号的声道的数量m、所述多声道输入信号(561)的声道的数量n、以及指示相应的解码系统(100)与所述比特流(564)同步所需的时间段的更新时段;并且
-所述一个或多个控制设置还包括以下中的一个或多个:指示要被确定的每一空间元数据帧的空间参数集合(711、712)的数量的时间分辨率设置、指示要对其确定空间参数的频带(572)的数量的频率分辨率设置、指示要用于对空间元数据进行量化的量化器的类型的量化器设置、以及所述多声道输入信号(561)的当前帧是否要作为独立帧被编码的指示。
15.根据权利要求2至14中的任一项所述的音频编码系统(500),其中,
-所述一个或多个外部设置还包括更新时段,所述更新时段指示相应的解码系统(100)与所述比特流(564)同步所需的时间段;
-所述一个或多个控制设置还包括当前空间元数据帧是否要作为独立帧被编码的指示;
-所述参数处理单元(520)被配置为确定用于所述多声道输入信号(561)的相应帧序列的空间元数据帧序列;
-所述配置单元(540)被配置为基于所述更新时段来从所述空间元数据帧序列确定要作为独立帧被编码的所述一个或多个空间元数据帧。
16.根据权利要求15所述的音频编码系统(500),其中,所述配置单元(540)被配置为:
-确定所述多声道输入信号(561)的帧序列的当前帧是否包括作为所述更新时段的整数倍的时刻的采样;以及
-确定与所述当前帧对应的当前空间元数据帧为独立帧。
17.根据权利要求15所述的音频编码系统(500),其中,所述参数处理单元(520)被配置为:如果所述当前空间元数据帧要作为独立帧被编码,则与前一空间元数据帧中所包括的数据相独立地对当前空间元数据帧的一个或多个空间参数集合进行编码。
18.根据前面的任一项权利要求所述的音频编码系统(500),其中,
-n=6,并且m=2;和/或
-所述多声道上混信号为5.1信号;和/或
-所述下混信号为立体声信号;和/或
-所述多声道输入信号为5.1信号。
19.根据前面的任一项权利要求所述的音频编码系统(500),其中,
-所述下混处理单元(510)被配置为使用DolbyDigitalPlus编码器对所述下混信号进行编码;
-所述比特流(564)对应于DolbyDigitalPlus比特流;并且
-所述空间元数据包括在所述DolbyDigitalPlus比特流的数据字段内。
20.根据前面的任一项权利要求所述的音频编码系统(500),其中,
-所述空间元数据包括一个或多个空间参数集合;并且
-所述空间参数集合的空间参数指示所述多声道输入信号(561)的不同声道之间的互相关。
21.一种参数处理单元(520),所述参数处理单元(520)被配置为确定用于从下混信号的相应帧产生多声道上混信号的帧的空间元数据帧;其中,所述下混信号包括m个声道,并且其中,所述多声道上混信号包括n个声道;n、m为整数,其中m<n;其中,所述空间元数据帧包括一个或多个空间参数集合(711、712);所述参数处理单元(520)包括:
-变换单元(521),所述变换单元(521)被配置为从多声道输入信号(561)的声道的当前帧(585)和紧跟帧(590)确定多个频谱(589);以及
-参数确定单元(523),所述参数确定单元(523)被配置为通过使用窗函数(586)对所述多个频谱(589)进行加权来确定用于所述多声道输入信号(561)的所述声道的当前帧的空间元数据帧;
其中,所述窗函数(586)取决于以下中的一个或多个:所述空间元数据帧内所包括的空间参数集合(711、712)的数量、所述多声道输入信号(561)的当前帧中或紧跟帧中的一个或多个瞬变的存在、和/或所述瞬变的时刻。
22.根据权利要求21所述的参数处理单元(520),其中,
-所述窗函数(586)包括集合相关的窗函数(586);
-所述参数确定单元(523)被配置为通过使用所述集合相关的窗函数(586)对所述多个频谱(589)进行加权来确定用于所述多声道输入信号(561)的所述声道的当前帧的空间参数集合(711);并且
-所述集合相关的窗函数(586)取决于所述空间参数集合(711)是否与瞬变相关联。
23.根据权利要求22所述的参数处理单元(520),如果所述空间参数集合(711)与瞬变不相关联,则
-所述集合相关的窗函数(586)提供所述多个频谱从前一空间参数集合(710)的采样点直至所述空间参数集合(711)的采样点的渐涨;和/或
-所述集合相关的窗函数(586)包括从所述空间参数集合(711)的采样点直至所述多个频谱中的在后一空间参数集合(712)的采样点前面的频谱的多个频谱,并且从所述后一空间参数集合(712)的采样点开始消除多个频谱,如果所述后一空间参数集合与瞬变相关联的话。
24.根据权利要求22所述的参数处理单元(520),如果所述空间参数集合(711)与瞬变相关联,则
-所述集合相关的窗函数(586)消除来自所述多个频谱的、在所述空间参数集合(711)的采样点前面的频谱;和/或
-所述集合相关的窗函数(586)包括来自所述多个频谱的、从所述空间参数集合(711)的采样点开始直至所述多个频谱中的在所述后一空间参数集合(712)的采样点前面的频谱的频谱,并且消除来自所述多个频谱的、从所述后一空间参数集合(712)的采样点开始的频谱,如果所述后一空间参数集合(712)的采样点与瞬变相关联的话;和/或
-所述集合相关的窗函数(586)包括所述多个频谱中的从所述空间参数集合(711)的采样点直至所述多个频谱中的在当前帧(585)的结束处的频谱的频谱,并且提供所述多个频谱中的从紧跟帧(590)的起始直至所述后一空间参数集合(712)的采样点的频谱的渐消,如果所述后一空间参数集合(712)与瞬变不相关联的话。
25.一种参数处理单元(520),所述参数处理单元(520)被配置为确定用于从下混信号的相应帧产生多声道上混信号的帧的空间元数据帧;其中,所述下混信号包括m个声道,并且其中,所述多声道上混信号包括n个声道;n、m为整数,其中m<n;其中,所述空间元数据帧包括空间参数集合(711);所述参数处理单元(520)包括:
-变换单元(521),所述变换单元(521)被配置为:从多声道输入信号(561)的第一声道(561-1)的帧(585)确定第一多个变换系数(580),并且从所述多声道输入信号(561)的第二(561-2)声道的相应帧确定第二多个变换系数(580);其中,所述第一声道(561-1)和所述第二声道(561-2)是不同的;其中,所述第一多个变换系数(580)和所述第二多个变换系数(580)分别提供所述第一声道和所述第二声道的帧(585)的第一时间/频率表示和第二时间/频率表示;其中,所述第一时间/频率表示和所述第二时间/频率表示包括多个频率区间(571)和多个时间区间(582);以及
-参数确定单元(523),所述参数确定单元(523)被配置为使用定点算术、基于所述第一多个变换系数(580)和所述第二多个变换系数(580)来确定所述空间参数集合(711);其中,所述空间参数集合(711)包括用于包括不同数量的频率区间(571)的不同频带(572)的相应的带参数;其中,基于来自特定频带(572)的所述第一多个变换系数(580)和所述第二多个变换系数(580)的变换系数(580)来确定用于所述特定频带(572)的特定带参数;并且其中,所述定点算术使用的用于确定所述特定带参数的移位取决于所述特定频带(572)。
26.根据权利要求25所述的参数处理单元(520),其中,所述定点算术使用的用于确定用于所述特定频带(572)的特定带参数的移位取决于所述特定频带(572)内所包括的频率区间(571)的数量。
27.根据权利要求25至26中的任一项所述的参数处理单元(520),其中,所述定点算术使用的用于确定用于所述特定频带(572)的特定带参数的移位取决于用于确定所述特定带参数的时间区间(582)的数量。
28.根据权利要求25至27中的任一项所述的参数处理单元(520),其中,所述参数确定单元(523)被配置为对于所述特定频带(572)确定使所述特定带参数的精度最大化的相应移位。
29.根据权利要求25至28中的任一项所述的参数处理单元(520),其中,所述参数确定单元(523)被配置为通过以下方式来确定用于所述特定频带(572)的特定带参数:
-基于来自所述第一多个变换系数(580)的落入所述特定频带(572)中的变换系数(580)来确定第一能量估计;
-基于来自所述第二多个变换系数(580)的落入所述特定频带(572)中的变换系数(580)来确定第二能量估计;和
-基于来自所述第一多个变换系数(580)和所述第二多个变换系数(580)的落入所述特定频带(572)中的变换系数(580)来确定协方差;以及
-基于所述第一能量估计、第二能量估计和协方差中的最大值来确定用于所述特定带参数的移位。
30.一种音频编码系统(500),所述音频编码系统(500)被配置为基于多声道输入信号(561)产生比特流(564);所述系统(500)包括:
-下混处理单元(510),所述下混处理单元(510)被配置为从所述多声道输入信号(561)的相应的第一帧序列产生下混信号的帧序列;其中,所述下混信号包括m个声道,并且其中,所述多声道输入信号(561)包括n个声道;n、m为整数,其中m<n;
-参数处理单元(520),所述参数处理单元(520)被配置为从所述多声道输入信号(561)的第二帧序列确定空间元数据帧序列;其中,所述下混信号的帧序列和所述空间元数据帧序列用于产生包括n个声道的多声道上混信号;以及
-比特流产生单元(503),所述比特流产生单元(503)被配置为产生包括比特流帧序列的比特流(564),其中,比特流帧指示所述下混信号的与所述多声道输入信号(561)的第一帧序列的第一帧对应的帧和与所述多声道输入信号(561)的第二帧序列的第二帧对应的空间元数据帧;其中,所述第二帧不同于所述第一帧。
31.根据权利要求30所述的音频编码系统(500),其中,
-所述第一帧和所述第二帧包括相同数量的采样;和/或
-所述第一帧的采样领先所述第二帧的采样。
32.根据权利要求30至31中的任一项所述的音频编码系统(500),其中,所述第一帧领先于所述第二帧预定数量的采样。
33.根据权利要求32所述的音频编码系统(500),其中,所述预定数量的采样为928个采样。
34.一种音频编码系统(500),所述音频编码系统(500)被配置为基于多声道输入信号(561)产生比特流(564);所述系统(500)包括:
-下混处理单元(510),所述下混处理单元(510)被配置为:
-确定用于所述多声道输入信号(561)的相应的帧序列的修剪保护增益序列;其中,当前修剪保护增益(954)指示要应用于所述多声道输入信号(561)的当前帧(950)以防止下混信号的相应的当前帧修剪的衰减;
-对所述当前修剪保护增益(954)和所述多声道输入信号(561)的前一帧的前一修剪保护增益(953)进行内插以得到修剪保护增益曲线(952);
-将所述修剪保护增益曲线(952)应用于所述多声道输入信号(561)的当前帧以得到所述多声道输入信号(561)的经衰减的当前帧;以及
-从所述多声道输入信号(561)的经衰减的当前帧产生所述下混信号的帧序列的当前帧;
其中,所述下混信号包括m个声道,并且其中,所述多声道输入信号(561)包括n个声道;n、m为整数,其中m<n;
-参数处理单元(520),所述参数处理单元(520)被配置为从所述多声道输入信号(561)确定空间元数据帧序列;其中,所述下混信号的帧序列和所述空间元数据帧序列用于产生包括n个声道的多声道上混信号;以及
-比特流产生单元(503),所述比特流产生单元(503)被配置为产生指示所述修剪保护增益序列、所述下混信号的帧序列和所述空间元数据帧序列的比特流,以使得相应的解码系统(100)能够产生所述多声道上混信号。
35.根据权利要求34所述的音频编码系统(500),其中,所述修剪保护增益曲线(952)包括:
-过渡段,所述过渡段提供从所述前一修剪保护增益(953)到当前修剪保护增益(954)的平滑过渡;和
-平坦段,所述平坦段在当前修剪保护增益(954)处保持平坦。
36.根据权利要求35所述的音频编码系统(500),其中,
-所述过渡段跨过所述多声道输入信号(561)的当前帧的预定数量的采样而延伸;
-所述预定数量的采样是所述多声道输入信号(561)的当前帧的多于一个且少于总数的采样。
37.一种音频编码系统(500),所述音频编码系统(500)被配置为产生指示下混信号和空间元数据的比特流(564),所述空间元数据用于从所述下混信号产生多声道上混信号;所述系统(500)包括:
-下混处理单元(510),所述下混处理单元(510)被配置为从多声道输入信号(561)产生所述下混信号;其中,所述下混信号包括m个声道,并且其中,所述多声道输入信号(561)包括n个声道;n、m为整数,其中m<n;
-参数处理单元(520),所述参数处理单元(520)被配置为确定用于所述多声道输入信号(561)的相应的帧序列的空间元数据帧序列;以及
-配置单元(540),所述配置单元(540)被配置为基于一个或多个外部设置来确定对于参数处理单元(520)的一个或多个控制设置;其中,所述一个或多个外部设置包括更新时段,所述更新时段指示相应的解码系统(100)与所述比特流(564)同步所需的时间段;并且其中,所述配置单元(540)被配置为基于所述更新时段来从所述空间元数据帧序列确定要作为独立帧被编码的一个或多个空间元数据帧。
38.一种用于产生比特流(564)的方法,所述比特流(564)指示下混信号和用于从所述下混信号产生多声道上混信号的空间元数据;所述方法包括:
-从多声道输入信号(561)产生所述下混信号;其中,所述下混信号包括m个声道,并且其中,所述多声道输入信号(561)包括n个声道;n、m为整数,其中m<n;
-基于一个或多个外部设置来确定一个或多个控制设置;其中,所述一个或多个外部设置包括所述比特流(564)的目标数据速率,并且其中,所述一个或多个控制设置包括所述空间元数据的最大数据速率;以及
-根据所述一个或多个控制设置从所述多声道输入信号(561)确定所述空间元数据。
39.一种用于确定空间元数据帧的方法,所述空间元数据帧用于从下混信号的相应帧产生多声道上混信号的帧;其中,所述下混信号包括m个声道,并且其中,所述多声道上混信号包括n个声道;n、m为整数,其中m<n;其中,所述空间元数据帧包括一个或多个空间参数集合(711、712);所述方法包括:
-从多声道输入信号(561)的声道的当前帧(585)和紧跟帧(590)确定多个频谱(589);
-使用窗函数(586)对所述多个频谱(589)进行加权以得到多个经加权的频谱;以及
-基于所述多个经加权的频谱来确定用于所述多声道输入信号(561)的所述声道的当前帧的空间元数据帧;
其中,所述窗函数(586)取决于以下中的一个或多个:所述空间元数据帧内所包括的空间参数集合(711、712)的数量、所述多声道输入信号(561)的当前帧中或紧跟帧中的一个或多个瞬变的存在、和/或所述瞬变的时刻。
40.一种用于确定空间元数据帧的方法,所述空间元数据帧用于从下混信号的相应帧产生多声道上混信号的帧;其中,所述下混信号包括m个声道,并且其中,所述多声道上混信号包括n个声道;n、m为整数,其中m<n;其中,所述空间元数据帧包括空间参数集合(711);所述方法包括:
-从多声道输入信号(561)的第一声道(561-1)的帧(585)确定第一多个变换系数(580);
-从所述多声道输入信号(561)的第二(561-2)声道的相应帧确定第二多个变换系数(580);其中,所述第一声道(561-1)和所述第二声道(561-2)是不同的;
其中,所述第一多个变换系数(580)和所述第二多个变换系数(580)分别提供所述第一声道和所述第二声道的帧(585)的第一时间/频率表示和第二时间/频率表示;其中,所述第一时间/频率表示和所述第二时间/频率表示包括多个频率区间(571)和多个时间区间(582);其中,所述空间参数集合(711)包括用于包括不同数量的频率区间(571)的不同频带(572)的相应的带参数;
-确定当使用定点算术确定用于特定频带(572)的特定带参数时要应用的移位;其中,所述移位基于所述特定频带(572)来确定;以及
-使用定点算术和所确定的移位、基于落在所述特定频带(572)中的所述第一多个变换系数(580)和所述第二多个变换系数(580)来确定所述特定带参数。
41.一种用于基于多声道输入信号(561)产生比特流(564)的方法;所述方法包括:
-从所述多声道输入信号(561)的相应的第一帧序列产生下混信号的帧序列;其中,所述下混信号包括m个声道,并且其中,所述多声道输入信号(561)包括n个声道;n、m为整数,其中m<n;
-从所述多声道输入信号(561)的第二帧序列确定空间元数据帧序列;其中,所述下混信号的帧序列和所述空间元数据帧序列用于产生包括n个声道的多声道上混信号;以及
-产生包括比特流帧序列的比特流(564);其中,比特流帧指示所述下混信号的与所述多声道输入信号(561)的第一帧序列的第一帧对应的帧和与所述多声道输入信号(561)的第二帧序列的第二帧对应的空间元数据帧;其中,所述第二帧不同于所述第一帧。
42.一种用于基于多声道输入信号(561)产生比特流(564)的方法;所述方法包括:
-确定用于所述多声道输入信号(561)的相应的帧序列的修剪保护增益序列;其中,当前修剪保护增益(954)指示要应用于所述多声道输入信号(561)的当前帧(950)以防止下混信号的相应的当前帧修剪的衰减;
-对所述当前修剪保护增益(954)和所述多声道输入信号(561)的前一帧的前一修剪保护增益(953)进行内插以得到修剪保护增益曲线(952、954);
-将所述修剪保护增益曲线(952、954)应用于所述多声道输入信号(561)的当前帧以得到所述多声道输入信号(561)的经衰减的当前帧;
-从所述多声道输入信号(561)的经衰减的当前帧产生所述下混信号的帧序列的当前帧;其中,所述下混信号包括m个声道,并且其中,所述多声道输入信号(561)包括n个声道;n、m为整数,其中m<n;
-从所述多声道输入信号(561)确定空间元数据帧序列;其中,所述下混信号的帧序列和所述空间元数据帧序列用于产生包括n个声道的多声道上混信号;以及
-产生指示所述修剪保护增益序列、所述下混信号的帧序列和所述空间元数据帧序列的比特流(564),以使得能够基于所述比特流(564)产生所述多声道上混信号。
43.一种用于产生比特流(564)的方法,所述比特流(564)指示下混信号和空间元数据,所述空间元数据用于从所述下混信号产生多声道上混信号;所述方法包括:
-从多声道输入信号(561)产生所述下混信号;其中,所述下混信号包括m个声道,并且其中,所述多声道输入信号(561)包括n个声道;n、m为整数,其中m<n;
-基于一个或多个外部设置来确定一个或多个控制设置;其中,所述一个或多个外部设置包括更新时段,所述更新时段指示解码系统(100)与所述比特流(564)同步所需的时间段;
-根据一个或多个控制设置,确定用于所述多声道输入信号(561)的相应的帧序列的空间元数据帧序列;以及
-基于所述更新时段对来自所述空间元数据帧序列的一个或多个空间元数据帧作为独立帧进行编码。
44.一种音频解码器(140),所述音频解码器(140)被配置为对通过权利要求38、41-43中的任一项产生的比特流进行解码。
CN201480010021.XA 2013-02-21 2014-02-21 音频编码系统、用于产生比特流的方法以及音频解码器 Active CN105074818B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310791753.8A CN116665683A (zh) 2013-02-21 2014-02-21 用于参数化多声道编码的方法
CN201910673941.4A CN110379434B (zh) 2013-02-21 2014-02-21 用于参数化多声道编码的方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361767673P 2013-02-21 2013-02-21
US61/767,673 2013-02-21
PCT/EP2014/053475 WO2014128275A1 (en) 2013-02-21 2014-02-21 Methods for parametric multi-channel encoding

Related Child Applications (2)

Application Number Title Priority Date Filing Date
CN202310791753.8A Division CN116665683A (zh) 2013-02-21 2014-02-21 用于参数化多声道编码的方法
CN201910673941.4A Division CN110379434B (zh) 2013-02-21 2014-02-21 用于参数化多声道编码的方法

Publications (2)

Publication Number Publication Date
CN105074818A true CN105074818A (zh) 2015-11-18
CN105074818B CN105074818B (zh) 2019-08-13

Family

ID=50151293

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201480010021.XA Active CN105074818B (zh) 2013-02-21 2014-02-21 音频编码系统、用于产生比特流的方法以及音频解码器
CN202310791753.8A Pending CN116665683A (zh) 2013-02-21 2014-02-21 用于参数化多声道编码的方法
CN201910673941.4A Active CN110379434B (zh) 2013-02-21 2014-02-21 用于参数化多声道编码的方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN202310791753.8A Pending CN116665683A (zh) 2013-02-21 2014-02-21 用于参数化多声道编码的方法
CN201910673941.4A Active CN110379434B (zh) 2013-02-21 2014-02-21 用于参数化多声道编码的方法

Country Status (5)

Country Link
US (6) US9715880B2 (zh)
EP (2) EP3582218A1 (zh)
JP (5) JP6250071B2 (zh)
CN (3) CN105074818B (zh)
WO (1) WO2014128275A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885879A (zh) * 2016-01-22 2018-11-23 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
WO2019029737A1 (zh) * 2017-08-10 2019-02-14 华为技术有限公司 音频编解码模式确定方法和相关产品
CN112447166A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 一种针对目标频谱矩阵的处理方法及装置

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105531761B (zh) 2013-09-12 2019-04-30 杜比国际公司 音频解码系统和音频编码系统
MX358483B (es) * 2013-10-22 2018-08-22 Fraunhofer Ges Forschung Concepto para la comprensión combinada del rango dinámico y prevención guiada de recortes para dispositivos de audio.
CN107112024B (zh) * 2014-10-24 2020-07-14 杜比国际公司 音频信号的编码和解码
CA2982017A1 (en) * 2015-04-10 2016-10-13 Thomson Licensing Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals
CN108701463B (zh) * 2016-02-03 2020-03-10 杜比国际公司 音频译码中的高效格式转换
DE102016104665A1 (de) * 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
US10015612B2 (en) 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
GB2551780A (en) 2016-06-30 2018-01-03 Nokia Technologies Oy An apparatus, method and computer program for obtaining audio signals
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
CN108665902B (zh) * 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
US10699723B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using variable alphabet size
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
US10169852B1 (en) * 2018-07-03 2019-01-01 Nanotronics Imaging, Inc. Systems, devices, and methods for providing feedback on and improving the accuracy of super-resolution imaging
US10755722B2 (en) * 2018-08-29 2020-08-25 Guoguang Electric Company Limited Multiband audio signal dynamic range compression with overshoot suppression
GB2576769A (en) * 2018-08-31 2020-03-04 Nokia Technologies Oy Spatial parameter signalling
GB2577698A (en) 2018-10-02 2020-04-08 Nokia Technologies Oy Selection of quantisation schemes for spatial audio parameter encoding
GB2582916A (en) * 2019-04-05 2020-10-14 Nokia Technologies Oy Spatial audio representation and associated rendering
US11361776B2 (en) * 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
GB2585187A (en) * 2019-06-25 2021-01-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CN112151045A (zh) * 2019-06-29 2020-12-29 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
GB2586586A (en) * 2019-08-16 2021-03-03 Nokia Technologies Oy Quantization of spatial audio direction parameters
GB2587196A (en) * 2019-09-13 2021-03-24 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
GB2592896A (en) * 2020-01-13 2021-09-15 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
EP4264603A1 (en) * 2020-12-15 2023-10-25 Nokia Technologies Oy Quantizing spatial audio parameters
BR112023017361A2 (pt) * 2021-03-11 2023-10-03 Dolby Int Ab Audio codec com controle de ganho adaptativo de sinais via downmix

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101297353A (zh) * 2005-10-26 2008-10-29 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
CN101326726A (zh) * 2005-11-21 2008-12-17 三星电子株式会社 对多声道音频信号进行编码/解码的系统、介质和方法
US20110002393A1 (en) * 2009-07-03 2011-01-06 Fujitsu Limited Audio encoding device, audio encoding method, and video transmission device
US7979282B2 (en) * 2006-09-29 2011-07-12 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN102138177A (zh) * 2008-07-30 2011-07-27 法国电信 多通道音频数据的重构

Family Cites Families (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100496144B1 (ko) * 1997-03-25 2005-11-23 삼성전자주식회사 디브이디 오디오 디스크 및 이를 재생하는 장치 및 방법
CN1305063C (zh) * 1997-11-21 2007-03-14 日本胜利株式会社 盘重放装置以及盘记录重放方法
US6757396B1 (en) * 1998-11-16 2004-06-29 Texas Instruments Incorporated Digital audio dynamic range compressor and method
GB2373975B (en) 2001-03-30 2005-04-13 Sony Uk Ltd Digital audio signal processing
US7072477B1 (en) 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
JP4547965B2 (ja) * 2004-04-02 2010-09-22 カシオ計算機株式会社 音声符号化装置、方法及びプログラム
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
DE102004042819A1 (de) * 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
US8744862B2 (en) 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
US7729673B2 (en) 2004-12-30 2010-06-01 Sony Ericsson Mobile Communications Ab Method and apparatus for multichannel signal limiting
US20060235683A1 (en) 2005-04-13 2006-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Lossless encoding of information with guaranteed maximum bitrate
CN1993733B (zh) 2005-04-19 2010-12-08 杜比国际公司 空间音频参数量化器、去量化器及参数量化、去量化方法
KR20070003546A (ko) * 2005-06-30 2007-01-05 엘지전자 주식회사 멀티채널 오디오 코딩에서 클리핑복원정보를 이용한 클리핑복원방법
US8494667B2 (en) 2005-06-30 2013-07-23 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US20070055510A1 (en) 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
US7761289B2 (en) 2005-10-24 2010-07-20 Lg Electronics Inc. Removing time delays in signal paths
US20080025530A1 (en) 2006-07-26 2008-01-31 Sony Ericsson Mobile Communications Ab Method and apparatus for normalizing sound playback loudness
BRPI0718614A2 (pt) * 2006-11-15 2014-02-25 Lg Electronics Inc Método e aparelho para decodificar sinal de áudio.
US8200351B2 (en) 2007-01-05 2012-06-12 STMicroelectronics Asia PTE., Ltd. Low power downmix energy equalization in parametric stereo encoders
KR101401964B1 (ko) * 2007-08-13 2014-05-30 삼성전자주식회사 메타데이터 인코딩/디코딩 방법 및 장치
US8229159B2 (en) 2007-09-28 2012-07-24 Dolby Laboratories Licensing Corporation Multimedia coding and decoding with additional information capability
US8239210B2 (en) * 2007-12-19 2012-08-07 Dts, Inc. Lossless multi-channel audio codec
US20090253457A1 (en) 2008-04-04 2009-10-08 Apple Inc. Audio signal processing for certification enhancement in a handheld wireless communications device
PL2346030T3 (pl) 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
BRPI0919880B1 (pt) 2008-10-29 2020-03-03 Dolby International Ab Método e aparelho para prover proteção contra o ceifamento de sinal de um sinal de áudio derivado de dados de áudio digital e transcodificador
JP2010135906A (ja) 2008-12-02 2010-06-17 Sony Corp クリップ防止装置及びクリップ防止方法
BRPI1009467B1 (pt) * 2009-03-17 2020-08-18 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
JP5531486B2 (ja) * 2009-07-29 2014-06-25 ヤマハ株式会社 オーディオ機器
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
BR112012025878B1 (pt) * 2010-04-09 2021-01-05 Dolby International Ab sistema decodificador, sistema codificador, método de decodificação e método de codificação.
ES2526761T3 (es) 2010-04-22 2015-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para modificar una señal de audio de entrada
JP5903758B2 (ja) 2010-09-08 2016-04-13 ソニー株式会社 信号処理装置および方法、プログラム、並びにデータ記録媒体
US8989884B2 (en) 2011-01-11 2015-03-24 Apple Inc. Automatic audio configuration based on an audio output device
BR112013020588B1 (pt) 2011-02-14 2021-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparelho e método para codificação de uma parte de um sinal de áudio utilizando uma detecção transiente e um resultado de qualidade
MX2013010537A (es) 2011-03-18 2014-03-21 Koninkl Philips Nv Codificador y decodificador de audio con funcionalidad de configuracion.
JP2012235310A (ja) 2011-04-28 2012-11-29 Sony Corp 信号処理装置および方法、プログラム、並びにデータ記録媒体
US8965774B2 (en) 2011-08-23 2015-02-24 Apple Inc. Automatic detection of audio compression parameters
JP5845760B2 (ja) 2011-09-15 2016-01-20 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2013102411A (ja) 2011-10-14 2013-05-23 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
KR101594480B1 (ko) 2011-12-15 2016-02-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 클립핑 아티팩트를 피하기 위한 장치, 방법 및 컴퓨터 프로그램
US8622251B2 (en) 2011-12-21 2014-01-07 John OREN System of delivering and storing proppant for use at a well site and container for such proppant
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
BR122021011658B1 (pt) 2013-01-28 2023-02-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V Método e aparelho para reprodução de áudio normalizado de mídia com e sem metadados de ruído integrado em novos dispositivos de mídia
US9607624B2 (en) 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
JP2015050685A (ja) 2013-09-03 2015-03-16 ソニー株式会社 オーディオ信号処理装置および方法、並びにプログラム
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
US9300268B2 (en) 2013-10-18 2016-03-29 Apple Inc. Content aware audio ducking
MX358483B (es) 2013-10-22 2018-08-22 Fraunhofer Ges Forschung Concepto para la comprensión combinada del rango dinámico y prevención guiada de recortes para dispositivos de audio.
US9240763B2 (en) 2013-11-25 2016-01-19 Apple Inc. Loudness normalization based on user feedback
US9276544B2 (en) 2013-12-10 2016-03-01 Apple Inc. Dynamic range control gain encoding
RU2764260C2 (ru) 2013-12-27 2022-01-14 Сони Корпорейшн Устройство и способ декодирования
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
EP3123469B1 (en) 2014-03-25 2018-04-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
RU2653858C1 (ru) 2014-05-28 2018-05-15 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Процессор данных и транспорт данных пользовательского управления на устройства декодирования и воспроизведения аудио
KR20170012229A (ko) 2014-05-30 2017-02-02 소니 주식회사 정보 처리 장치 및 정보 처리 방법
KR102422493B1 (ko) 2014-06-30 2022-07-20 소니그룹주식회사 정보 처리 장치 및 정보 처리 방법
TWI631835B (zh) 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
US20160315722A1 (en) 2015-04-22 2016-10-27 Apple Inc. Audio stem delivery and control
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
KR102066422B1 (ko) 2015-05-29 2020-02-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 볼륨 제어를 위한 장치 및 방법
PL3311379T3 (pl) 2015-06-17 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kontrola głośności dla interaktywności użytkownika w systemach kodowania audio
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101297353A (zh) * 2005-10-26 2008-10-29 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
CN101326726A (zh) * 2005-11-21 2008-12-17 三星电子株式会社 对多声道音频信号进行编码/解码的系统、介质和方法
US7979282B2 (en) * 2006-09-29 2011-07-12 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN102138177A (zh) * 2008-07-30 2011-07-27 法国电信 多通道音频数据的重构
US20110002393A1 (en) * 2009-07-03 2011-01-06 Fujitsu Limited Audio encoding device, audio encoding method, and video transmission device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JONAS R ET AL: "A study of the MPEG surround quality versus bit-rate curve", 《AES CONVENTION 123》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108885879A (zh) * 2016-01-22 2018-11-23 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
CN108885879B (zh) * 2016-01-22 2023-09-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
US11887609B2 (en) 2016-01-22 2024-01-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
WO2019029737A1 (zh) * 2017-08-10 2019-02-14 华为技术有限公司 音频编解码模式确定方法和相关产品
TWI697892B (zh) * 2017-08-10 2020-07-01 大陸商華為技術有限公司 音訊編解碼模式確定方法和相關產品
US11120807B2 (en) 2017-08-10 2021-09-14 Huawei Technologies Co., Ltd. Method for determining audio coding/decoding mode and related product
US11935547B2 (en) 2017-08-10 2024-03-19 Huawei Technologies Co., Ltd. Method for determining audio coding/decoding mode and related product
CN112447166A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 一种针对目标频谱矩阵的处理方法及装置

Also Published As

Publication number Publication date
US20170309280A1 (en) 2017-10-26
US20210249022A1 (en) 2021-08-12
US10360919B2 (en) 2019-07-23
US20200321011A1 (en) 2020-10-08
JP6250071B2 (ja) 2017-12-20
US9715880B2 (en) 2017-07-25
US11817108B2 (en) 2023-11-14
US20190348052A1 (en) 2019-11-14
EP2959479B1 (en) 2019-07-03
US20160005407A1 (en) 2016-01-07
JP2020170188A (ja) 2020-10-15
JP2019080347A (ja) 2019-05-23
CN105074818B (zh) 2019-08-13
EP3582218A1 (en) 2019-12-18
JP2018049287A (ja) 2018-03-29
CN110379434B (zh) 2023-07-04
JP2022172286A (ja) 2022-11-15
US11488611B2 (en) 2022-11-01
JP2016509260A (ja) 2016-03-24
JP6728416B2 (ja) 2020-07-22
JP7138140B2 (ja) 2022-09-15
JP6472863B2 (ja) 2019-02-20
EP2959479A1 (en) 2015-12-30
CN110379434A (zh) 2019-10-25
US10930291B2 (en) 2021-02-23
WO2014128275A1 (en) 2014-08-28
US10643626B2 (en) 2020-05-05
US20230123244A1 (en) 2023-04-20
CN116665683A (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN105074818A (zh) 用于参数化多声道编码的方法
CN101006494B (zh) 利用频域维纳滤波对空间音频编码进行时间包络整形
EP2028648B1 (en) Multi-channel audio encoding and decoding
EP1878011B1 (en) Method and system for operating audio encoders in parallel
EP2279562B1 (en) Factorization of overlapping transforms into two block transforms
CN100489965C (zh) 音频编码系统
CN101290774B (zh) 音频编码和解码系统
EP2242047B1 (en) Method and apparatus for identifying frame type
KR100932790B1 (ko) 음원 간 상호상관을 이용한 멀티트랙 다운믹싱 장치 및 그방법
US20240144941A1 (en) Methods for parametric multi-channel encoding
CN103733256A (zh) 音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant