CN103262158A - 对解码的多声道音频信号或立体声信号进行后处理的装置和方法 - Google Patents

对解码的多声道音频信号或立体声信号进行后处理的装置和方法 Download PDF

Info

Publication number
CN103262158A
CN103262158A CN2010800693448A CN201080069344A CN103262158A CN 103262158 A CN103262158 A CN 103262158A CN 2010800693448 A CN2010800693448 A CN 2010800693448A CN 201080069344 A CN201080069344 A CN 201080069344A CN 103262158 A CN103262158 A CN 103262158A
Authority
CN
China
Prior art keywords
signal
sound channel
audio signal
channel
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800693448A
Other languages
English (en)
Other versions
CN103262158B (zh
Inventor
郎玥
大卫·维雷特
苗磊
吴文海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN103262158A publication Critical patent/CN103262158A/zh
Application granted granted Critical
Publication of CN103262158B publication Critical patent/CN103262158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility

Abstract

根据本发明,描述了一种用于后处理多声道信号的多个声道信号的至少一个声道信号的装置(101’;201’),该至少一个声道信号由低比特率音频编码/解码系统从解码的下混音信号中生成,该装置(101’;201’)包括:接收机(103’),用于接收从该解码的下混音信号中生成的该至少一个声道信号、该解码的下混音信号的时域包络、该声道信号和该下混音信号之间的声道间时间差异、以及指明该下混音信号的瞬态类型的分类标识;以及后处理器(105’,213’,215’),用于基于由相应的加权因子加权的该解码的下混音信号的时域包络和根据该分类标识和该声道间时间差异后处理该至少一个声道。

Description

对解码的多声道音频信号或立体声信号进行后处理的装置和方法
技术领域
本发明涉及解码的多声道音频信号与解码的立体声音频信号的后处理,对该立体声音频信号的后处理代表对解码的多声道音频信号后处理的具体例子。
背景技术
在传统的语音编解码器中,通常进行语音信号的分类以提高语音信号的编码效率。在解码器侧,根据发送的语音信号分类来使用不同类型的信号处理工具。
一种分类是为了在正常语音信号和瞬态语音信号之间进行区分。瞬态信号是持续时间短的信号,且具有信号功率和幅值方面的快速变化的特点。这些瞬态信号例如与正常或非瞬态的信号(如具有更长的持续时间和/或信号功率和幅值方面的仅仅微小变化的信号)相区别。这种分类不限于语音信号,而是可一般地应用于音频信号。
对瞬态信号而言,通常的方法是在编码器中提取输入信号的时域包络,将其作为边信息(side information)发送给解码器,解码器将其应用于后处理。
对立体声信号而言,这样的后处理通常是必须的,但是现有技术没有足够的比特来编码两个声道的时域包络。
参见参考文献[1],基于立体声图像的参数表示的提取和量化的低比特率立体声编码。然后,将这些参数作为边信息与由核心编码器编码的单声道下混音信号一起发送。在解码器处,可以根据该单声道的下混音信号和该边信息来重现该立体声信号,即该立体声参数包含立体声信号的空间(左和右)信息。
对立体声编解码器而言,如果将该单声道下混音信号分类为瞬态的,则可能在重现的立体声信号中存在预回声失真。可以进行后处理来改善这类信号(其两个声道均是瞬态的或仅一个声道是瞬态的)的质量。但对于参数立体声编解码器而言,通常缺少足够的比特来编码两个声道的时域包络。
根据参考文献[2]和[3],在编码器中将输入的单声道信号分类成瞬态和正常的类别。然后,在解码器侧,基于发送的分类信息,使用时间缩放合成算法来提高质量。所有这类算法均被应用于该单声道下混音信号。
可用于发送信号的带宽方面的限制不仅出现在立体声语音或音频信号的发送中,而且该限制对于多声道音频信号发送而言构成了一般性的问题,该立体声音频编码代表多声道音频编码的具体例子。
发明内容
本发明要实现的一个目标是提供改进的低比特率参数多声道或参数立体声音频编码方法,该方法允许以带宽有效率的方式减少瞬态音频信号中的预回声失真。
根据第一个方面,提出用于后处理立体声信号的左和右声道信号中的至少一个的装置,该左和右声道信号由低比特率音频编码/解码系统从解码的下混音信号中产生,其中该装置具有接收机和后处理器。该接收机用于接收从解码的下混音信号中产生的该左声道信号和该右声道信号,解码的下混音信号的时域包络,立体声信号的左声道信号和右声道信号之间的声道间时间差异,以及指明该下混音信号或该立体声信号属于瞬态类型的分类标识。该后处理器用于基于由相应的加权因子加权的解码下混音信号的时域包络和根据该声道间时间差异和该分类标识来后处理该左和右声道信号中的至少一个。
在编码器侧,也可被称为单声道下混音信号或(立体声音频编码情况下的)单声道信号的该下混音信号可选地从左和右声道信号中产生。可选地,该产生的编码下混音信号可以连同该边信息通过音频声道或一般地通过发送链路而被传送到用于后处理的该装置。所述用于后处理的装置可以是解码器的一部分。
而且,可选地,在编码器中存在瞬态检测模型或实体,用于为该后处理装置提供指明该下混音信号是否为瞬态的指示。具体地,如果该下混音信号由该瞬态检测模型分类成瞬态的,则该单声道下混音信号的时域包络可选地被提取和作为额外的边信息被发送到解码器,该解码器可包括用于后处理的所述装置。
根据该第一个方面的第一实施形式,该装置可以还具有用于决定立体声信号的左声道信号和右声道信号中的哪一个先到来的决定器,该决定器用于根据所述声道间时间差异来进行决定。
换言之,根据该第一个方面的第一实施形式,该装置可以还具有决定器,该决定器适于取决于或根据声道间时间差异来决定该立体声信号的左声道信号和右声道信号中的哪一个相对于立体声信号的另一个声道信号发生延迟。
根据该第一个方面的第二个实施形式,该装置可以还具有决定器,该决定器适于根据该声道间时间差异来决定该立体声信号的左声道信号和右声道信号中之一是否相对于另一个声道信号发生延迟,以及,如果该立体声信号的左声道信号和右声道信号中之一相对于另一个声道信号发生了延迟,则延迟该下混音信号的时域包络来获得延迟的时域包络,以后处理该立体声信号的延迟的声道信号。该后处理器适于通过使用由相应的加权因子加权的延迟的时域包络来后处理该延迟的声道信号(如通过将该延迟的声道信号与由该相应的加权因子加权的延迟的时域包络相乘)。
根据该第一个方面的第三实施形式,该装置可以还具有决定器,该决定器适于根据该声道间时间差异来决定该立体声信号的左声道信号和右声道信号中之一是否相对于另一个声道信号发生延迟,以及,如果该立体声信号的左声道信号和右声道信号中之一相对于另一个声道信号发生了延迟,则延迟该下混音信号的时域包络来获得延迟的时域包络,以后处理该立体声信号的延迟的声道信号,其中该决定器适于延迟该下混音信号的时域包络,使得该延迟的声道信号和该下混音信号的时域包络之间的延迟或时间差异被减小。
根据该第一个方面的第四实施形式,该装置可以还具有决定器,该决定器适于根据该声道间时间差异来决定该立体声信号的左声道信号和右声道信号中之一是否相对于另一个声道信号发生延迟,以及,如果该立体声信号的左声道信号和右声道信号中之一相对于另一个声道信号发生了延迟,则延迟该下混音信号的时域包络来获得延迟的时域包络,以后处理该立体声信号的延迟的声道信号,其中该决定器适于将该下混音信号的时域包络延迟该声道间时间差异。
根据该第一个方面的第五实施形式,该装置可以还具有决定器,该决定器适于根据该声道间时间差异来决定该立体声信号的左声道信号和右声道信号中之一是否相对于另一个声道信号发生延迟,以及,如果该立体声信号的左声道信号和右声道信号中之一相对于另一个声道信号发生了延迟,则使用由相应的加权因子加权的解码的下混音信号的延迟的时域包络来后处理该立体声信号的延迟的声道信号。
根据该第一个方面的第六实施形式,该装置可以还具有决定器,该决定器适于根据该声道间时间差异来决定该立体声信号的左声道信号和右声道信号中之一是否相对于另一个声道信号发生延迟,以及,如果该立体声信号的左声道信号和右声道信号中之一相对于另一个声道信号发生了延迟,则使用由相应的加权因子加权的解码的下混音信号的延迟的时域包络来后处理该立体声信号的延迟的声道信号,以及
使用由相应的加权因子加权的解码的下混音信号的时域包络来后处理该立体声信号的另一个未延迟的声道信号。
根据该第一个方面的第七实施形式,该分类标识是指明该下混音信号为瞬态类型的分类标识。
根据该第一个方面的第八实施形式,该分类标识是指明该立体声信号为瞬态类型的分类标识。
根据该第一个方面的第九实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于根据指明该下混音信号为瞬态类型的分类标识或根据指明该立体声信号为瞬态类型的分类类型来进行决定。
根据该第一个方面的第十实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于根据指明该下混音信号为瞬态类型的分类标识来决定该左和右声道信号中的哪一个或哪些被后处理。
根据该第一个方面的第十一实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于如果该分类标识指明该下混音信号不是单声道瞬态的则决定不后处理该左和右声道信号。
根据该第一个方面的第十二实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于如果该分类标识指明该下混音信号是单声道瞬态的则决定后处理该左和右声道信号中的至少一个。
根据该第一个方面的第十三实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于如果该分类标识指明该下混音信号是单声道瞬态的则决定后处理该左和右声道信号中的至少一个,其中该决定器还适于根据该声道间时间差异来决定该立体声信号的左声道信号和右声道信号中之一是否相对于该立体声信号的另一个声道信号发生延迟,以及,如果该立体声信号的左声道信号和右声道信号中之一相对于另一个声道信号发生了延迟,则使用由相应的加权因子加权的解码的下混音信号的延迟的时域包络来后处理该立体声信号的延迟的声道信号。
根据该第一个方面的第十三实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于如果该分类标识指明该下混音信号是单声道瞬态的则决定后处理该左和右声道信号中的至少一个,其中该决定器还适于根据该声道间时间差异来决定该立体声信号的左声道信号和右声道信号中之一是否相对于该立体声信号的另一个声道信号发生延迟,以及,如果该立体声信号的左声道信号和右声道信号中之一相对于另一个声道信号发生了延迟,则使用由相应的加权因子加权的解码的下混音信号的延迟的时域包络来后处理该立体声信号的延迟的声道信号,以及使用由相应的加权因子加权的解码的下混音信号的时域包络来后处理另一个未延迟的声道信号。
根据该第一个方面的第十五实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于根据指明该立体声信号为瞬态类型的分类标识来决定该左和右声道信号中的哪一个或哪些被后处理。
根据该第一个方面的第十六实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于如果该分类标识指明该下混音信号是立体声瞬态的则决定仅后处理该左和右声道信号中的一个。
根据该第一个方面的第十七实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于如果该分类标识指明该下混音信号是立体声瞬态的则决定仅后处理该左和右声道信号中的一个,其中该决定器还适于决定该左和右声道信号中的具有较高信号能量的一个将被后处理。
该左和右声道信号的信号能量能由例如编码器确定,并作为下混音信号的边信息发送到该装置或解码器。
根据该第一个方面的第十八实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于如果该分类标识指明该下混音信号是立体声瞬态的则决定仅后处理该左和右声道信号中的一个,其中该决定器还适于求出该左和右声道之间的声道电平差异(CLD),以及根据该声道电平差异来决定该左和右声道信号中的具有较高信号能量的一个将被后处理。
该声道电平差异能够例如由编码器确定且作为该下混音信号的边信息被发送到该装置或解码器。
根据该第一个方面的第十九实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于如果该分类标识指明该下混音信号是立体声瞬态的则决定仅后处理该左和右声道信号中的一个,其中该决定器还适于求出该左和右声道之间的声道电平差异(CLD),以及决定将通过使用由该加权因子加权的该下混音信号的时域包络和不延迟该时域包络来后处理该左和右声道信号中的具有较高信号能量的一个。
根据该第一个方面的第二十实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于根据指明该下混音信号为瞬态类型的分类标识和根据另一个指明该立体声信号为瞬态类型的分类标识来进行决定。
根据该第一个方面的第二十一实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于如果该分类标识指明该下混音信号是单声道瞬态的且另一个分类标识指明该立体声信号不是立体声瞬态的则后处理该左和右声道信号这两种声道信号。
根据该第一个方面的第二十二实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于如果该分类标识指明该下混音信号是单声道瞬态的且另一个分类标识指明该立体声信号不是立体声瞬态的则后处理该左和右声道信号这两种声道信号,且其中该决定器还适于根据该声道间时间差异来决定该立体声信号的左声道信号和右声道信号中之一是否相对于该立体声信号的另一个声道信号发生延迟,以及,如果该立体声信号的左声道信号和右声道信号中之一相对于另一个声道信号发生了延迟,则使用由相应的加权因子加权的解码的下混音信号的延迟的时域包络来后处理该立体声信号的延迟的声道信号。
根据该第一个方面的第二十二实施形式,该装置可以还具有决定器,该决定器适于决定该左和右声道信号中的哪一个或哪些被后处理,其中该决定器用于如果该分类标识指明该下混音信号是单声道瞬态的且另一个分类标识指明该立体声信号不是立体声瞬态的则后处理该左和右声道信号这两种声道信号,且其中该决定器还适于根据该声道间时间差异来决定该立体声信号的左声道信号和右声道信号中之一是否相对于该立体声信号的另一个声道信号发生延迟,以及,如果该立体声信号的左声道信号和右声道信号中之一相对于另一个声道信号发生了延迟,则使用由相应的加权因子加权的解码的下混音信号的延迟的时域包络来后处理该立体声信号的延迟的声道信号,以及使用由相应的加权因子加权的解码的下混音信号的时域包络来后处理另一个未延迟的声道信号。
根据该第一个方面的第二十四实施形式,该分类标识指明,如果该立体声信号的右声道信号的能量与左声道信号的能量之间的关系随时间的变化超过预定的阈值,则该立体声信号是立体声瞬态的。
根据该第一个方面的第二十五实施形式,该分类标识指明,如果该立体声信号的右声道信号与左声道信号之间的确定的声道电平差异(CLD)随时间的变化超过预定的阈值,则该立体声信号是立体声瞬态的。
根据该第一个方面的第二十六实施形式,该另一个分类标识指明,如果该下混音信号的能量随时间的变化超过预定的阈值,则该下混音信号是下混音瞬态的。如果该下混音信号是单声道下混音信号,则如果该下混音信号的能量随时间的变化超过预定的阈值,该下混音信号也可被称为单声道瞬态的。
根据第二十七实施形式,该后处理器可适于使用由第一加权因子加权的该解码的下混音信号的被可选地延迟的时域包络来后处理该左声道信号,以及使用由第二加权因子加权的该解码的下混音信号的被可选地延迟的时域包络来后处理该右声道信号。该第一加权因子和第二加权因子是不同的。
根据第二十八实施形式,该后处理器包括用于后处理该左和/或右声道信号的第一和第二后处理实体。该第一后处理实体可以用于使用由第一加权因子加权的该解码的下混音信号的被可选地延迟的时域包络来后处理该左声道信号。该第二后处理实体可以用于使用由第二加权因子加权的该解码的下混音信号的被可选地延迟的时域包络来后处理该右声道信号。
根据该第一个方面的第二十九实施形式,该装置还可以具有用于决定该立体声信号的左声道信号和右声道信号中的哪一个先到来的决定器,该决定器被配置为根据该声道间时间差异来进行决定,其中该后处理器具有两个用于后处理被复原的左和右声道信号的后处理实体,其中该两个后处理实体用于使用由第一加权因子加权的该解码的下混音信号的时域包络来后处理该复原的左和右声道信号中先到达的一个,以及使用由第二加权因子加权的、并被延迟该声道间时间差异的该解码的下混音信号的时域包络来后处理该复原的左和右声道信号中的另一个。
根据该第一个方面的第三十实施形式,该装置还可以具有决定器、第一后处理实体和第二后处理实体,所述决定器被配置为决定该立体声信号的左声道信号和右声道信号中的哪一个先到来,所述决定器被配置为根据该声道间时间差异进行决定,其中如果该左声道信号先到来,则该第一后处理实体用于使用由第一加权因子加权的该解码的下混音信号的时域包络来后处理该左声道信号,且该第二后处理实体用于使用由第二加权因子加权的、并被延迟该声道间时间差异的该解码的下混音信号的时域包络来后处理该右声道信号。
根据该第一个方面的第三十一实施形式,该装置还可以具有决定器、第一后处理实体和第二后处理实体,所述决定器被配置为决定该立体声信号的左声道信号和右声道信号中的哪一个先到来,所述决定器被配置为根据该声道间时间差异进行决定,其中如果该右声道信号先到来,则该第一后处理实体用于使用由第一加权因子加权的、并被延迟该声道间时间差异的该解码的下混音信号的时域包络来后处理该左声道信号,且该第二后处理实体用于使用由第二加权因子加权的该解码的下混音信号的时域包络来后处理该右声道信号。
根据该第一个方面的第三十二实施形式,该后处理器可以用于根据由相应的加权因子加权的解码的下混音信号的时域包络和根据该声道间时间差异来后处理该复原的左和右声道信号,如果该分类标识指明了该立体声信号的非瞬态类型。
根据该第一个方面的第三十三实施形式,该后处理器可以用于根据由相应的加权因子加权的解码的下混音信号的时域包络和根据该声道间时间差异以及根据指明该立体声信号为瞬态类型的分类标识来后处理该左和右声道信号中的至少一个。
根据该第一个方面的第三十五实施形式,该后处理器可以用于根据由相应的加权因子加权的解码的下混音信号的时域包络和根据该声道间时间差异来后处理该复原的左和右声道信号,如果该分类标识指明了非瞬态类型,且其中该后处理器还用于根据由相应的加权因子加权的解码的下混音信号的时域包络和根据该分类标识来后处理该左和右声道信号中的至少一个,如果该分类标识指明了该立体声信号的瞬态类型。
根据该第一个方面的第三十六实施形式,该后处理器可以用于后处理该左和右声道信号中具有较高信号能量的一个,如果该分类标识指明了该立体声信号的瞬态类型。
根据该第一个方面的第三十七实施形式,该装置可以还具有决定器,该决定器用于决定该左和右声道信号中的哪一个或哪些被后处理,如果该分类标识指明了该立体声信号的瞬态类型,所述决定器用于根据指明该立体声信号为瞬态类型的分类标识和根据指明该解码的下混音信号的瞬态类型的另一个分类标识来进行决定。
根据该第一个方面的第三十八实施形式,该装置可以还具有决定器,该决定器用于决定该左和右声道信号中的哪一个或哪些被后处理,如果该分类标识指明了该立体声信号的瞬态类型,所述决定器用于根据指明该立体声信号为瞬态类型的分类标识和根据指明该解码的下混音信号的瞬态类型的另一个分类标识来进行决定,其中该决定器用于控制该第一后处理实体和该第二后处理实体。
根据该第一个方面的第三十九实施形式,该装置可以还具有决定器,该决定器用于决定该左和右声道信号中的哪一个或哪些被后处理,如果该分类标识指明了该立体声信号的瞬态类型,其中所述决定器用于决定该左和右声道信号中具有较高信号能量的一个被后处理。
除ITD之外,该决定器可选地可以接收和使用声道电平差异(CLD)和其他立体声参数。该CLD和其他立体声参数可选地可以由编码器提供。
根据一些实施形式,该装置可选地可以具有决定器,用于决定该左和右声道信号中的哪一个或哪些被后处理,所述决定器用于根据指明该立体声信号为瞬态类型的分类标识来进行决定,其中该决定器可选地可以用于如果该分类标识指明该立体声信号为非瞬态类型则决定该右和左声道信号被后处理。
从而,如果该下混音信号是瞬态类型的,且该立体声信号是非瞬态类型的,则可选地左和右声道信号两者均被后处理。为后处理该右和左声道信号,可以不同地使用和用不同的加权因子来加权该解码的下混音信号的时域包络(也称为单声道时域包络)。
根据一些实施形式,该装置可选地可以具有决定器、第一后处理实体和第二后处理实体。该决定器可选地可以用于决定该左和右声道信号中的哪一个或哪些被后处理,所述决定器可选地可以用于根据该分类标识来进行决定。该第一后处理实体可选地可以用于使用由第一加权因子加权的该解码的下混音信号的接收的时域包络来后处理该左声道信号。该第二后处理实体可选地可以用于使用由第二加权因子加权的该解码的下混音信号的接收的时域包络来后处理该右声道信号。
该决定器可选地可以用于根据该立体声信号的左和右声道的接收的声道电平差异(CLD)来计算该第一加权因子和该第二加权因子。
根据一些实施形式,该装置可选地可以具有决定器、第一后处理实体和第二后处理实体。该决定器可选地可以用于决定该左和右声道信号中的哪一个或哪些被后处理,所述决定器可以用于根据该分类标识来进行决定。该第一后处理实体可选地可以用于使用由第一加权因子加权的该解码的下混音信号的接收的时域包络来后处理该左声道信号。该第二后处理实体可选地可以用于使用由第二加权因子加权的该解码的下混音信号的接收的时域包络来后处理该右声道信号。该决定器可选地可以用于通过
Figure BDA00002982906900111
来计算该第一加权因子aleft和通过 a right = 2 1 + c 来计算该第二加权因子aright,其中
c = 10 cld 20
cld = 1 N Σ b = 0 b = N CLD [ b ]
具体地,通过使用以下公式,在编码器侧可选地可以从该左和右声道信号中提取出该声道电平差异(CLD):
CLD [ b ] = 10 log 10 Σ k = k b k b + 1 - 1 X 1 [ k ] X 1 * [ k ] Σ k = k b k b + 1 - 1 X 2 [ k ] X 2 * [ k ] - - - ( 1 )
其中k是频率仓的指数,b是频带的指数,kb是频带b的起始仓,且X1和X2分别是左和右声道的频谱。
而且,可选地,根据CLD监视可以生成该分类标识。如果检测到两个连续的帧之间的CLD的快速变化,则可选地将该立体声信号分类为立体声瞬态的。
可以使用称为CLD_dq的参数来决定两个声道的能量关系。可选地,可以使用上述的公式(2)将其计算为所有较高频带CLD的平均值。而且,较高频带中的第一个频带的CLD可被用作CLD_dq。
如果CLD_dq大于0,则左声道的能量大于右声道的能量。
可选地,可以以以下方式计算作用于该单声道时域包络的加权因子。可选地,第一步可以是计算CLD平均值
cld = 1 N Σ b = 0 b = N CLD [ b ] - - - ( 2 )
第二步可以是计算c
c = 10 cld 20
(3)
可选地,最后一步可以是计算左声道信号的加权因子aleft和右声道信号的加权因子aright
a left = 2 c 1 + c
(4)
a right = 2 1 + c
(5)
在将来自该单声道解码过程的时域包络应用于左和右声道之前,可选地,该时域包络与相应的计算的加权因子相乘。
根据另一个实施形式,该决定器适于根据前述实施形式中的任何一种控制该后处理器(或该第一和第二后处理实体)来后处理或不后处理该左和右声道信号。
可以将该第一个方面的任何实施形式与该第一个方面的任何其他实施形式结合,以得到该第一个方面的另一实施形式。
根据第二个方面,建议了一种解码器,其用于解码由低比特率音频编码系统从立体声信号处理得来的下混音信号,该解码器具有单声道解码器,其用于解码通过音频声道接收的该下混音信号,以及上述用于后处理该解码的下混音信号的上述装置。
根据该第二个方面的第一实施形式,该解码器可以具有上混音器(upmixer),其用于根据该下混音信号以及该立体声信号的该左声道信号和该右声道信号之间的声道间时间差异来生成该立体声信号的该左和右声道信号。
该解码器可选地可以是任何解码装置。此外,该后处理器可选地可以是任何后处理装置。而且,该上混音器可选地可以是任何上混音装置。
这些各自的装置,具体的是该解码器、该后处理器和该上混音器,可选地可以用硬件或软件来实施。如果所述装置用硬件实施,则可选地它可以被实施为装置,如实施为计算机或处理器或系统(如计算机系统)的一部分。如果所述装置用软件实施,则可选地它可以被实施为计算机程序产品,实施为功能、惯用程序、程序代码或可执行对象。
该第二个方面的任何实施形式可以与该第二个方面的任何实施形式结合来获得该第二个方面的另一实施形式。
根据第三个方面,建议了一种方法,其用于后处理由低比特率音频系统从立体声信号处理得来的解码的立体声信号。该方法用于后处理该立体声信号的左和右声道信号中的至少一个,该左和右声道信号由低比特率音频编码/解码系统从解码的下混音信号中生成。该方法具有具有接收从该解码的下混音信号生成的该左声道信号和该右声道信号、该解码的下混音信号的时域包络、该立体声信号的该左声道信号和该右声道信号之间的声道间时间差异以及指明该下混音信号或该立体声信号的瞬态类型的分类标识的步骤,以及根据由相应的加权因子加权的解码的下混音信号的时域包络和根据该声道间时间差异和根据该分类标识后处理该左和右声道信号中的至少一个的步骤。
该第三个方面的任何实施形式可以根据该第一个或第二个方面的任何实施形式来实施,以获得该第三个方面的相应的实施形式。
根据第四个方面,该发明涉及计算机程序,其包括当在至少一台计算机上运行时执行一种方法的程序代码,该方法用于后处理由低比特率音频编码系统从立体声信号处理得出的解码的瞬态下混音信号。
根据第五个方面,本发明涉及一种装置,其用于后处理多声道信号的多个声道信号中的至少一个声道信号,该至少一个声道信号由低比特率音频编码/解码系统从解码的下混音信号中生成,该装置包括接收机和后处理器。该接收机适于接收从该解码的下混音信号中生成的该至少一个声道信号,该下混音信号的时域包络,该声道信号和该下混音信号之间的声道间时间差异,以及指明该下混音信号为瞬态类型的分类标识。该后处理器适于根据由相应的加权因子加权的解码的下混音信号的时域包络以及根据该分类标识和该声道间时间差异来后处理该至少一个声道信号。
可以将具有超过两个声道信号的多声道信号下混音,使得该多声道信号由仅仅一个单独的下混音信号和相应的一组空间音频参数来表示,所述音频参数能够从该单独的下混音信号中重新构造出该超过两个的声道信号。该单个下混音信号也称为单声道下混音信号。换言之,对单声道下混音而言,具有例如五个声道信号如前声道信号、左声道信号、右声道信号、左后声道信号和右后声道信号的多声道信号被下混音为一个单独的单声道下混音信号,将立体声信号下混音成一个单独的下混音信号是多声道信号的单声道下混音的具体例子。
然而,具有超过两个声道信号(即M>2)的多声道信号能够被下混音,使得该多声道信号由两个或更多个(但通常少于M)下混音信号和相应的空间音频参数的组来表示,所述空间音频参数的组能够从该两个或更多个下混音信号中重构该超过两个声道信号。每个下混音信号从该多声道信号的该超过两个声道信号中的至少两个信号中得出。如果用来自左侧和中央信号(如安排在左和右侧之间的中间的前声道信号)的声道信号来获得第一下混音信号,且用来自右侧和中央信号的声道信号来获得第二下混音信号,则两种下混音信号也被称为立体声下混音信号,即左和右立体声下混音信号。换言之,对立体声下混音而言,具有例如五个声道信号如前声道信号、左声道信号、右声道信号、左后声道信号和右后声道信号的多声道信号被下混音为左立体声下混音信号和右立体声下混音信号。下混音为超过一个下混音信号不限于立体声下混音信号,且能包括因该多声道信号的多个声道信号的任何组合得到的任何数目的下混音信号。因此,该相应的下混音信号也可以被称为第一、第二等下混音声道信号,它们全体形成了总体的下混音信号。
根据该第五个方面的第一实施形式,该装置在参数多声道音频解码器中使用。
根据该第五个方面的第二实施形式,使用与该下混音信号相关的参数边信息从该下混音信号的解码的和上混音的版本中生成该多个多声道信号。
根据该第五个方面的第三实施形式,该分类指明,如果该下混音信号的能量随时间的变化超过预定的阈值,则该下混音信号是下混音瞬态的。如果该下混音信号是单声道的下混音信号,且如果该下混音信号的能量随时间的变化超过预定的阈值,则该下混音信号也能被称为单声道瞬态的。
根据该第五个方面的第四实施形式,该装置还包括决定器,其用于决定该多个声道信号中的至少一个声道信号是否被后处理,其中该决定器用于根据指明该下混音信号为瞬态类型的分类标识来进行决定。
根据该第五个方面的第五实施形式,该装置还包括决定器,其适于决定该多个声道信号中的至少一个声道信号是否被后处理,其中该决定器用于如果该分类标识指明该下混音信号不是下混音瞬态的则不后处理该至少一个声道信号。
根据该第五个方面的第六实施形式,该接收机适于接收该多个声道信号,且该装置还包括决定器,其适于决定该多个声道信号中的哪一个或哪些声道信号被后处理,其中该决定器用于根据该下混音信号来进行决定。
根据该第五个方面的第七实施形式,该接收机适于接收该多个声道信号,且该装置还包括决定器,其适于决定该多个声道信号中的哪一个或哪些声道信号被后处理,其中该决定器用于如果该分类标识指明该下混音信号不是下混音瞬态的则不后处理该多个声道信号。
根据该第五个方面的第八实施形式,该接收机适于接收该多个声道信号和多个声道间时间差异,其中每个声道间时间差异与该多个声道信号中的声道信号相关联,且其中每个声道间时间差异至少指明相应的声道信号相对于该下混音信号是否被延迟,且该装置还包括决定器,其适于根据该分类标识来决定该多个声道信号中的哪一个或哪些声道信号被后处理,以及根据该声道间时间差异来决定相应的声道信号是否通过由相应的加权因子加权的该下混音信号的延迟的时域包络来后处理。
根据该第五个方面的第九实施形式,该装置可以还具有决定器,其适于根据该声道间时间差异来决定该多个声道信号中的至少一个声道信号是否相对于该下混音信号被延迟。
根据该第五个方面的第十实施形式,该装置可以还具有决定器,其适于根据该声道间时间差异来决定至少一个声道信号是否相对于该下混音信号而被延迟,以及,如果该至少一个声道信号相对于另一声道信号被延迟,则延迟该下混音信号的时域包络以获得延迟的时域包络来处理该延迟的声道信号。
根据该第五个方面的第十一实施形式,该装置可以还具有决定器,其适于根据该声道间时间差异来决定至少一个声道信号中的一个是否相对于该下混音信号而被延迟,以及,如果该至少一个声道信号相对于另一声道信号被延迟,则延迟该下混音信号的时域包络以获得延迟的时域包络来处理该延迟的声道信号,其中该决定器适于延迟该下混音信号的时域包络,使得该延迟的至少一个声道信号和该下混音信号的时域包络之间的延迟或时间差异被减少。
根据该第五个方面的第二十二实施形式,该装置可以还具有决定器,其适于根据该声道间时间差异来决定该至少一个声道信号是否相对于该下混音信号而被延迟,以及,如果该至少一个声道信号相对于该下混音信号被延迟,则延迟该下混音信号的时域包络来获得延迟的时域包络,以后处理该延迟的声道信号,其中该决定器适于将该下混音信号的时域包络延迟该声道间时间差异。
根据该第五个方面的第十三实施形式,该装置可以还具有决定器,其适于根据该声道间时间差异来决定该至少一个声道信号是否相对于该下混音信号被延迟,以及,如果该至少一个声道信号未相对于该下混音信号而被延迟且该下混音信号是下混音瞬态的,则控制该后处理器以使用由加权因子加权的时域包络来后处理该至少一个声道信号。
根据该第五个方面的第十四实施形式,该接收机适于接收该多个声道信号,该多个声道间时间差异,以及多个其他分类标识,其中每个其他分类标识与该多个声道信号中的声道信号相关联,且其中每个其他分类标识指明与其关联的声道信号的瞬态类型。该装置还包括决定器,其适于决定该多个声道信号中的哪一个或哪些被后处理,其中该决定器用于根据指明该下混音信号为瞬态类型的分类标识和根据指明相应声道信号的瞬态类型的其他分类标识来进行决定。
根据该第五个方面的第十五实施形式,该分类标识指明如果该声道信号的能量和参考信号的能量的关系随时间的变化超过预定的阈值则该声道是声道瞬态的。
根据该第五个方面的第十六实施形式,该分类指明如果为相应的声道信号和参考信号确定的声道电平差(CLD)异随时间的变化超过预定的阈值,则该声道是声道瞬态的。
根据该第五个方面的第十七实施形式,用于确定该声道分类标识和/或CLD的该参考信号是下混音信号、该多个声道信号中之一或从声道信号中的至少一个得出的信号。
因为该声道信号的分类标识、该下混音信号的分类标识和其他编码参数(如CLD)在编码器侧被确定,以定义该多声道信号的时间和空间特性并在解码器处从单声道下混音信号重构出该多声道信号的各个声道信号,该声道信号的分类标识、该下混音信号的分类标识、该声道信号的声道间时间差异和其他编码参数不仅规定了原声道信号(在编码前)的特性以及它们彼此之间的关系,也同样地规定了重构的声道信号(在解码后)的相应特性和它们彼此之间的关系。
根据该第五个方面的第十八实施形式,该决定器适于为该多个声道信号中的每一个接收与相应的声道信号相关联的声道特定的声道电平差异CLDm
根据该第五个方面的第十九实施形式,该决定器用于,如果该分类标识指明该下混音信号是下混音瞬态的,且与至少一个多声道信号关联的该其他声道特定的分类标识指明该至少一个声道不是声道瞬态的,则控制该后处理器以后处理该至少一个声道信号。
根据该第五个方面的第二十实施形式,该决定器用于,如果该分类标识指明该下混音信号是下混音瞬态的,且与至少一个多声道信号关联的该其他声道特定的分类标识指明该至少一个声道不是声道瞬态的,以及该声道特定的声道间时间差异指明该声道信号相对于该下混音信号被延迟,则控制该后处理器以使用由加权因子加权的该下混音信号的延迟的时域包络来后处理该至少一个声道信号。
根据该第五个方面的第二十一实施形式,该决定器用于,如果该分类标识指明该下混音信号是下混音瞬态的,且与至少一个多声道信号关联的该其他声道特定的分类标识指明该至少一个声道不是声道瞬态的,以及该声道特定的声道间时间差异指明该声道信号相对于该下混音信号未被延迟,则控制该后处理器以使用由加权因子加权的该下混音信号的时域包络(但未被延迟)来后处理该至少一个声道信号。
根据该第五个方面的第二十实施形式,该决定器用于,如果该分类标识指明该下混音信号是下混音瞬态的,且与至少一个多声道信号关联的该其他声道特定的分类标识指明该至少一个声道不是声道瞬态的,以及该声道特定的声道间时间差异指明该声道信号相对于该下混音信号被延迟,则控制该后处理器以使用由加权因子加权的该下混音信号的延迟的时域包络来后处理该至少一个声道信号。
根据该第五个方面的第二十二实施形式,该决定器用于根据至少一个声道信号m和参考信号之间的接收的声道电平差异CLDm来确定该声道特定的加权因子,为了后处理该至少一个声道信号,该下混音信号的时域包络将用该加权因子进行加权。
根据该第五个方面的第二十三实施形式,该决定器用于该声道特定的加权因子am
a m = 2 1 + c , 其中c是由 c = 10 acld m 20 , 其中acldm通过 acld m = 1 N Σ b = 0 b = N CLD m [ b ] 确定,其中CLDm[b]通过 CLD m [ b ] = 10 log 10 Σ k = k b k b + 1 - 1 X ref [ k ] X ref * [ k ] Σ k = k b k b + 1 - 1 X m [ k ] X m * [ k ] 确定,以及其中m是声道指数,k是频率仓的指数,b是频带的指数,kb是频带b的起始仓,且Xref是参考信号的频谱,以及Xm是该多声道信号的每个声道的频谱。
根据该第五个方面的第二十四实施形式,该多声道信号是立体声信号,其中该立体声信号包括第一声道和第二声道。
根据该第五个方面的第二十六实施形式,该多声道信号是立体声信号,其中该第一声道信号是左声道信号且该第二声道信号是该立体声信号的右声道信号,或反之亦然。
根据该第五个方面的第二十七实施形式,该多声道信号是立体声信号,其中该立体声信号包括第一声道信号和第二声道信号,且其中该参考信号是该第一或第二声道信号或该下混音信号或该立体声信号。
可以将该第五个方面的任何实施形式与该第四个方面的任何其他实施形式结合,以得到该第五个方面的另一实施形式。
根据第六个方面,提供了用于参数多声道音频解码的解码器,该解码器包括下混音解码器、上混音器和根据第五个方面的实施形式中的任何一个的装置。该下混音解码器用于接收代表多声道信号的编码的下混音信号和解码该编码的下混音信号以生成解码的下混音信号。该上混音器用于从该下混音解码器接收该解码的下混音信号和与该解码的下混音信号关联的多声道参数,以及生成该下混音信号的上混音的解码版本,该下混音信号的该上混音解码版本形成该多声道信号。
根据该第六个方面的第一实施形式,该解码器还包括去复用器,其适于接收复用的音频信号和从该复用的音频信号提取该编码的下混音信号和该多声道参数,其中该多声道参数至少包括该下混音信号的分类标识、该下混音信号的时域包络、该至少一个声道信号的声道间时间差异、以及可选地指明该至少一个声道信号的瞬态类型的至少该分类标识。
根据该第六个方面的第二实施形式,该去复用器适于为每个声道信号提取指明该相应的声道信号的瞬态类型的声道特定的分类标识。
根据该第六个方面的第三实施形式,该多声道参数对于该多个声道信号中的每个声道信号,或至少对于该多个声道信号的子集的声道信号,包括与该相应声道关联的声道特定的声道电平差异。
该第六个方面的任何实施形式可以与该第六个方面的任何其他实施形式结合,以获得该第六个方面的另一实施形式。
根据第七个方面,提供了一种后处理多声道信号的多个声道信号中的至少一个声道信号的方法,该至少一个声道信号由低比特率音频编码/解码系统从解码的下混音信号中生成。该方法包括以下步骤。接收从该解码的下混音信号生成的该至少一个声道信号,该解码的下混音信号的时域包络,该声道信号和该下混音信号之间的声道间时间差异,以及指明该下混音信号为瞬态类型的分类标识,其中该声道间时间差异与该至少一个声道信号关联。根据由相应的加权因子加权的该解码的下混音信号的时间包括和根据该分类标识以及该声道间时间差异来后处理该至少一个声道信号。
该第七个方面的任何实施形式可以根据第五或第六个方面的任何实施形式进行1实施,以获得该第七个方面的相应实施形式。
根据第八个方面,本发明涉及包括程序代码的计算机程序,当该程序代码在至少一台计算机上运行时,执行根据该第七个方面的任何实施形式的、用于后处理由低比特率音频编码系统处理的解码的多声道信号的方法。
对本领域技术人员来说,显而易见,该各种装置,具体为该解码器、该接收机、该决定器、该后处理器、以及该后处理实体是功能实体,且能够用硬件、用软件或它们两者的组合来实施。如果所述装置用硬件来实施,则它可以被实施为装置,如计算机或处理器或系统(如计算机系统)的一部分。如果所述装置用软件来实施,则它可以被实施为计算机程序产品、功能、惯用程序、程序代码或可执行对象。
该第五至第八个方面的立体声实施形式形成了该多声道编码/解码的具体实施形式,因为立体声信号仅仅包括两个声道信号(M=2),左和右声道信号,而该多声道信号可以包括两个或更多个声道信号(M>=2)。
再次地,该第一至第四个方面的立体声实施形式可以被视为根据将该声道信号中之一(即该立体声信号的左或右声道信号)作为用于确定另一声道信号的声道瞬态类型的参考信号(而不是将该下混音信号用作参考信号)的该第五至第八个方面的该立体声/多声道立体声实施形式的进一步发展。该第一至第四个方面的立体声实施形式还利用了这样的事实:因为立体声信号仅包括两个声道,同时为该两个声道中之一相对于该两个声道信号中的另一个确定的“声道瞬态分类标识”(以及CLDm)包括参考声道信号的瞬态信息(或能量信息)。因此,能够将该立体声瞬态分类视为(多声道方面的)声道瞬态分类的具体例子,其不仅与一个声道信号m关联,也与该立体声信号的两个声道信号(左和右声道信号)关联。
从而该第一至第四个方面的实施形式使得能更进一步地减少发送该立体声信息所需的带宽,具体为该瞬态信息和该能量信息(如CLD),因为仅仅需要发送一个立体声分类,而在将下混音信号用作参考的情况下,该第五至第八个方面的实施形式需要两个个体的声道分类标识(用于两个声道中的每一个)。
回到多声道方面的实施形式,如果将该多个声道信号之一用作参考信号,则需要仅仅M-1(M是形成该多声道信号的多个声道信号的数目)个声道信号的声道瞬态分类标识。该参考信号本身的瞬态分类被隐含地包含在其他M-1个声道信号的声道瞬态分类中的任何一个之中,且在根据第一至第四个方面的立体声编码的实施形式中,可以类似地决定参考声道的后处理。相应地,该决定(后处理该参考声道信号是否能够进行)取决于该M-1个声道瞬态分类中的一个,或取决于该下混音信号的下混音瞬态分类信息以及该M-1个声道瞬态分类中的一个。
在其他实施形式中,可以像对下混音信号那样(即像该下混音瞬态分类一样和不估计与另一信号的关系),为参考信号本身进行参考信号的瞬态分类。
附图说明
将结合以下附图描述本发明的其他实施例,其中:
图1示出了用于后处理解码的立体声信号的装置的实施例,
图2示出了包括用于后处理解码的立体声信号的解码器的第一个实施例,
图3示出了能够与图2的解码器耦合的编码器的第一个实施例,
图4示出了用于后处理解码的立体声信号的方法的第一个实施例,
图5示出了用于后处理解码的立体声信号的方法的第二个实施例,
图6示出了能够与图7的解码器耦合的编码器的第二个实施例,
图7示出了包括用于后处理解码的立体声信号的装置的第二个实施例,
图8示出了用于后处理解码的立体声信号的方法的第三个实施例,
图9示出了图示其两个声道为瞬态的原立体声信号的示意图,
图10示出了图示输出立体声信号的示意图,该立体声信号具有使用加权的单声道时域包络的两个后处理的声道,
图11示出了图示具有基于ITD的后处理的输出声道信号的示意图,
图12示出了图示原立体声信号的示意图,该立体声信号具有一个瞬态声道和一个正常声道,
图13示出了图示不具有后处理的输出立体声信号示意图,
图14示出了图示具有两个声道的后处理的输出立体声信号的示意图,
图15示出了图示仅其瞬态的左声道被后处理的输出立体声信号的示意图,
图16示出了图示左声道信号和右声道信号之间的ITD的示意图,
图17示出了用于后处理解码的多声道信号的装置的实施例,
图18示出了解码器的第三个实施例,该解码器包括用于后处理解码的多声道信号的装置,
图19示出了能够与图18的解码器耦合的编码器的第三个实施例,
图20示出了用于后处理解码的多声道信号的方法的第一个实施例,
图21示出了用于后处理解码的多声道信号的方法的第二个实施例,
图22示出了用于后处理解码的多声道信号的方法的第三个实施例。
具体实施方式
在图1中,示出了用于后处理由低比特率音频编码系统处理的解码的立体声信号的装置101的实施例。该装置101适于后处理立体声信号的左和右声道信号中的至少一个,该左和右声道信号由低比特率音频编码/解码系统从解码的下混音信号中生成的。如之前解释的,与代表该立体声图像的参数相关的下混音信号,在其编码和解码的版本中,代表该立体声信号。
该装置101具有接收机103和后处理器105。
该接收机103用于接收从该解码的下混音信号中生成的左声道信号和右声道信号、该解码的下混音信号的时域包络、该立体声信号的左声道信号和右声道信号之间的声道间时间差异和指明该下混音信号为瞬态类型的分类标识。
而且,该后处理器105适于基于由相应的加权因子加权的解码的下混音信号的时域包络和根据该声道间时间差异和根据该分类标识来后处理该左和右声道信号中的至少一个。将基于图5更具体地描述由例如该装置执行的相应方法的一个具体实施例。
具体地,该声道间时间差异可以控制是否使用该下混音信号的延迟的时域包络来后处理声道信号或可以控制使用该下混音信号的延迟的时域包络来后处理哪种声道信号。而且,该解码的下混音信号的加权的时域包络可以是用于后处理该选择的声道信号工具。
在该装置的另一个实施例中,该接收机103用于接收从该解码的下混音信号生成的左声道信号和右声道信号、该解码的下混音信号的时域包络、该立体声信号的左声道信号和右声道信号之间的声道间时间差异,以及指明该立体声信号为瞬态类型的分类标识。在该另一个实施例中,该后处理器适于基于由相应的加权因子加权的的该解码的下混音信号的时域包络和根据该声道间时间差异和根据指明该立体声信号为瞬态类型的分类标识来后处理该左和右声道信号中的至少一个。执行了相应方法的一个具体实施例。
在该装置的另一个实施例中,该接收机103用于接收从该解码的下混音信号中生成的左声道信号和右声道信号、该解码的下混音信号的时域包络、该立体声信号的左声道信号和右声道信号之间的声道间时间差异、指明该下混音信号为瞬态类型的分类标识和指明该立体声信号为瞬态类型的另一分类标识。在该另一实施例中,该后处理器适于基于由相应的加权因子加权的的该解码的下混音信号的时域包络和根据该声道间时间差异、根据指明该下混音信号为瞬态类型的分类标识、根据指明该立体声信号为瞬态类型的该另一个分类标识来后处理该左和右声道信号中的至少一个。将基于图8更具体地描述由例如该装置执行的相应方法的一个具体实施例。
图2示出了解码器201的第一个实施例。该解码器201具有去复用器203、单声道解码器205、上混音器207和用于后处理的装置209。用于后处理的该装置209具有决定器211、第一后处理实体213和第二后处理实体215。
该去复用器203提供了接收的下混音信号207(如下混音比特流217)和另一个信号219(如包括该立体声信号的左声道信号和右声道信号之间的声道间时间差异(ITD)、声道间电平差异(CLD)和可能另外的立体声参数的一组参数219)。
该单声道解码器205用于接收该下混音信号217和解码的下混音信号221提供给上混音器207和该装置209。
该上混音器207接收该解码的下混音信号221和信号219,以用于输出该立体声信号的左声道信号223和右声道信号225。
该装置209的决定器211用于接收信号231(如包括该解码的下混音信号的时域包络和指明该解码的下混音信号的瞬态类型的分类标识的一组参数231)。该分类标识指明该解码的下混音信号是瞬态的还是正常的。该装置209的决定器211还接收该信号219,其包括指明该立体声信号为瞬态类型的的分类标识。
该决定器211用于决定该左和右声道信号223和225中的哪一个或哪一些被后处理以及它们是如何被后处理的(如果它们被后处理)。具体地,所述决定器211用于根据ITD和特别地根据指明该下混音信号为瞬态类型的分类标识和指明该立体声信号为瞬态类型的分类标识来进行决定。该分类标识可被包括信号219中。而且,所述决定器211可用于通过第一控制信号227来控制该第一处理实体213和通过第二控制信号229来控制该第二后处理实体215。
该第一后处理实体213用于使用该解码的下混音信号的接收的时域包络231来后处理该左声道信号223,其中所述时域包络由第一加权因子进行加权。
以类似的方式,所述第二后处理实体215用于使用该解码的下混音信号的接收的时域包络231来后处理该右声道信号225,所述时域包络然后由第二加权因子进行加权。而且,用于并非先到的或换言之相对于该立体声信号的另一声道信号被延迟的声道信号的加权的时域包络在后处理之前被延迟。
在这方面,决定器211可以用于根据该立体声信号的该左和右声道的信号219的接收的声道电平差异来计算该第一加权因子和第二加权因子。
相对于图2,图3示出了能够与图2的解码器201耦合的编码器301的第一个实施例。图3的该编码器301和图2的该解码器201可以由传输信道或任何其他通信链路(如有线的或无线的通信链路)来耦合。
该编码器301具有下混音器303、下混音瞬态检测器305、编码实体307、提取器309和复用器313。
所述下混音器303接收立体声信号的左声道315和右声道317。该下混音器303输出下混音信号319,所述下混音信号319被提供给该下混音瞬态检测器305和该编码实体307。
因为该下混音器303适于将该左和右声道下混音成仅仅一个单独的单声道下混音信号,该下混音器303也能被称为单声道下混音器303,且该下混音瞬态检测器305能被称为单声道瞬态检测器305或单声道下混音瞬态检测器。
该单声道下混音检测器305适于检测该单声道下混音信号是否是瞬态的和输出指明该单声道下混音信号319是否是瞬态的分类标识325。该单声道瞬态检测器能适于求取该单声道下混音信号的连续帧的能量和当该单声道下混音信号从一个帧到连续帧的能量变化超过预定的阈值时检测到该单声道下混音信号是瞬态的。
就该检测而言,求取了该单声道下混音信号(或一般地,该下混音信号本身)的动态情形或随时间的变化(相对于后面解释的该立体声瞬态分类和该声道瞬态分类,其中求取了两个信号的能量的动态情形)。该瞬态分类也称为单声道瞬态分类(或一般地,下混音瞬态分类),且如果以上条件被满足,例如该单声道下混音信号(或一般地,该下混音信号)从一个帧到连续帧的能量变化超过预定的阈值,则该单声道下混音也称为单声道瞬态的(或一般地,下混音瞬态的)。
因此,指明该(单声道)下混音信号的瞬态类型的分类标识325(其是单声道瞬态检测器305的输出)也可以被称为单声道瞬态分类标识或指明该单声道下混音信号的单声道瞬态类型(即指明该单声道下混音信号是否是单声道瞬态的)的瞬态分类标识。
该编码实体307输出编码的下混音信号321,如编码的下混音比特流,以及该下混音信号的时域包络323。该编码实体能适于仅在该单声道瞬态检测器检测到该单声道下混音信号是单声道瞬态的情况下才提起该单声道下混音信号的时域包络。该编码实体适于例如将整个帧分成四个子帧,计算每个子帧的能量和编码这四个子帧的能量的平方根以代表该下混音信号的时域包络。
该提取器309用于从该立体声信号提取ITD、CLD和其他立体声参数。来自该立体声信号的该提取的ITD、CLD和其他立体声参数可以通过例如比特流307的信号307传输。
而且,该检测器311用于提供立体声瞬态检测和输出指明该立体声信号为瞬态类型的分类标识329。该检测器能被实施成计算用于该立体声信号的连续帧的该左和右声道信号之间的声道电平差异CLD,以及在该立体声信号的(即该立体声信号的左和右声道信号之间的)CLD从一个帧到连续帧的变化超过预定阈值的情况下检测该立体声信号是瞬态的。
就该检测而言,求取了该左和右声道信号(即两个信号)的能量的关系的动态情形或随时间的变化(相对于上述的单声道瞬态分类或后述的一半下混音瞬态分类,其中求取了仅一个信号的能量的动态情形),如果以上条件被满足,如该立体声信号的CLD从一个帧到连续帧的变化大小超过预定阈值,该瞬态分类也被称为立体声瞬态分类以及该立体声信号也被称为立体声瞬态的。
因此,该提取器309也可以被称作立体声瞬态检测器且指明该立体声信号为瞬态类型的该分类标识(被包括在信号327中)也被称作立体声瞬态分类标识或指明该立体声信号为立体声瞬态类型(如指明该立体声信号是否是立体声瞬态的)的分类标识。
图3的编码器的其他实施例可以适于仅仅确定指明该下混音信号为瞬态类型的分类标识(且非指明该立体声信号为瞬态类型的分类标识)或仅仅确定指明该立体声信号为瞬态类型的分类标识(且非指明该下混音信号为瞬态类型的分类标识)。
相应地,图2的解码器的其他实施例可以适于仅仅求取指明该下混音信号为瞬态类型的分类标识(且非指明该立体声信号为瞬态类型的分类标识)或仅仅求取指明该立体声信号为瞬态类型的分类标识(且非指明该下混音信号为瞬态类型的分类标识)。
在图4中,描绘了用于后处理解码的立体声信号的方法的第一个实施例。该用于后处理的方法适于后处理该立体声信号的左和右声道信号中的至少一个,该左和右声道信号由低比特率音频编码/解码系统从解码的下混音信号中产生。
在步骤401中,接收了从该解码的下混音信号中产生的左声道信号和右声道信号、该解码的下混音信号的时域包络、该立体声信号的左声道信号和右声道信号之间的声道间时间差异(ITD)、以及指明该下混音信号为瞬态类型的分类标识和/或指明该立体声信号为瞬态类型的分类标识。
在步骤403中,基于由相应的加权因子加权的该解码的下混音信号的时域包络和根据该ITD以及根据该分类标识对该左和右声道信号中的至少一个进行后处理。
结合图1的解说,具体地对于使用仅仅指明下混音信号的瞬态类型的分类标识的实施例的解说,对于使用仅仅指明立体声信号的瞬态类型的分类标识的实施例的解说(或者这两者),同样适用于不同实施例。
另外,图5示出了用于处理解码的立体声信号的第二实施例,其中仅求取了指明该下混音信号为瞬态类型的分类标识(但非指明该立体声信号为瞬态类型的分类标识)。该后处理方法适于后处理该立体声信号的左和右声道信号中的至少一个,该左和右声道信号由低比特率音频编码/解码系统从解码的下混音信号中产生。
在步骤501中,检查该解码的下混音信号是否是瞬态的。
如果该解码的下混音信号是非瞬态的,即不是瞬态的,则例如在步骤503中仅仅更新该存储器,且不使用加权的时域包络来后处理该左和右声道信号。因为如果左和右声道信号中的一个或两个是瞬态的则该单声道下混音信号通常是瞬态的,可以假设,如果指明该下混音信号为瞬态类型的分类标识指明该下混音信号不是瞬态的,即该单声道下混音信号不是单声道瞬态的,则左和右声道信号无一是瞬态的,因此不需要后处理。
如果该解码的下混音信号是瞬态的,该方法行进到步骤505。
在步骤505中,检查左和右声道信号中的哪一个先到。或者,换言之,基于该声道间时间差异(ITD)检查该左和右声道信号中之一是否相对于该立体声信号的另一声道信号发生延迟。
该ITD或声道间时间差异代表两个声道之间的延迟,且能够被从立体声信号中提取出来(但是也来自多声道信号,如多声道信号的一个声道相对于该多声道信号的参考声道信号的ITD)。该ITD通常将该延迟表示为样本的数目,且可以基于例如以下公式计算:
ITD = arg max d { IC ( d ) }
其中IC(d)是正规化的互相关,其被定义为
IC [ d ] = Σ n = 0 N - 1 x 1 [ n ] x 2 [ n - d ] Σ n = 0 N - 1 x 1 2 [ n ] Σ n = 0 N - 1 x 2 2 [ n ]
其中x1和x2表示要被相关的第一信号和第二信号,d表示该延迟或时间差异,n表示时间指数,且N表示最大的时间指数。
应当注意,可以逐个频带地计算该互相关。在这种情况下,每个x1和x2表示带限时域信号。为避免ITD的伪检测,该最大相关可以与阈值比较。如果该最大相关高于该阈值,则该检测的延迟对应于该ITD。否则,该检测的延迟不代表ITD,以及为了避免引入错误的ITD,其值被变为0。从而,ITD=0可以表明,两个例如瞬态信号在同一时点到达(即互相没有延迟),或该两个信号的相似度(即相关性)不足够显著。
或者,可以基于其他互相关如非正规化的互相关来计算该ITD。此外,如“Estimation of Interchannel Time Difference in Frequency Subbands Basedon Nonuniform Discrete Fourier Transform”(Bo Qiu,Yong Xu,Yadong Lu,和Jun Yang,EURASIP杂志,有关音频、语音和音乐处理,2008卷(2008年))中提出的,例如也可以用相位差计算来估计该声道间时间差异。
对立体声信号而言,如果x1和x2分别对应左和右声道信号,ITD<0意味着左声道信号先到达(即右声道信号相对于左声道信号发生延迟)且ITD>0意味着右声道信号先到达(即左声道信号相对于右声道信号发生延迟)。当然,可以为ITD计算采用不同的约定。在这种情况下,与阈值0的比较被颠倒。也就是说,如果x1和x2分别对应右和左声道信号,ITD<0意味着右声道信号先到达(即左声道信号相对于右声道信号发生延迟)且ITD>0意味着左声道信号先到达(即右声道信号相对于左声道信号发生延迟)。对于互相关的以上两种计算,ITD=0意味着两个信号,即左和右声道信号没有相对于彼此发生延迟或不是足够的相似。
使用以上用于计算ITD的公式,在x1对应左声道信号和x2对应右声道信号的情况下,定义如果ITD<0则左声道信号先到达,且如果ITD>0则右声道信号先到达。在参考文献[4]中更详细地描述了用于计算ITD的例子。
基于前述对ITD的计算(x1对应左声道信号和x2对应右声道信号),在步骤505中求出ITD是否小于0,即ITD<0。如果ITD<0(即右声道相对于左声道发生延迟),则方法行进到步骤507。
在步骤507中,该单声道时域包络被延迟ITD个样本,以处理该右声道信号。
然后,在步骤509中,使用延迟的和加权的单声道时域包络恢复了右声道信号的时域包络。
此外,在步骤511中,使用加权的单声道时域包络恢复了左声道信号的时域包络。具体地,在步骤511中,不存在时移。
如果在步骤505中结果是ITD不小于0,即ITD》0(这包括ITD>0的情形,即左声道信号相对于右声道信号发生延迟,以及ITD=0的情形,即两个声道信号之间无延迟),则该方法行进到步骤513。
在步骤513中,该单声道时域包络被延迟ITD个样本,以后处理该左声道信号。这包括如果ITD为0,则延迟时域包络零个样本,即实际上不延迟该时域包络。然后,在步骤515中,使用延迟的和加权的单声道时域包络恢复该左声道信号的时域包络。
此外,在步骤517中,使用该加权的单声道时域包络恢复该右声道信号的时域包络。具体地,在步骤517中,不存在加权的单声道时域包络的时移。
其他实施例可包括在步骤505评估是否(1)ITD>0,(2)ITD<0,和(3)ITD=0,且可以包括对于ITD=0的第三分支(而非步骤505处的图5的仅仅两个分支(是和否)),其中该分支包括使用由第一声道特定的加权因子加权的单声道时域包络恢复左声道信号的时域包络,但是不延迟该单声道时域包络,以及使用由第二声道特定的加权因子加权的单声道时域包络恢复右声道信号的时域包络,但是不延迟该单声道时域包络。
以上示出了计算用于加权解码的下混音信号的时域包络的相应加权因子的例子。
在步骤811中,使用该解码的降婚姻信号的加权的时域包络恢复了右声道的时域包络,且使用该加权的时域包络后处理该右声道信号。
参见步骤807至811,因为左声道信号是用于CLD计算的参考信号,即是定义CLD的公式(1)的分子位置的声道信号,所以如果该左声道信号的能量大于右声道信号的能量则解码的CLD大于0。因为瞬态信号通常具有比非瞬态信号更高的能量,CLD能够被用作指示符来决定两者中的哪一个是瞬态声道信号。
相应地,如果解码的CLD大于0则假设左声道信号为瞬态声道信号且使用相应的加权时域包络对其进行后处理(步骤809)。如果解码的CLD小于0则假设右声道信号是瞬态声道信号,且使用相应的加权时域包络对其进行后处理(811)。
在另外的实施例中,可以将右声道用作参考信号且可以用其他尺度来确定两个信号中的哪一个是瞬态的。
在步骤813中,检查左和右声道信号中的哪一个先到达。如上所述,可以定义如果ITD<0则左声道信号先到达。如果ITD>0,则右声道信号先到达。
如果ITD<0(即右声道相对于左声道信号发生延迟),该方法行进到步骤815。在步骤815中,将单声道时域包络延迟ITD个样本,以后处理该右声道信号。
然后,在步骤817中,使用该延迟的和加权的单声道时域包络恢复右声道信号的时域包络。
此外,在步骤819中,使用该加权的单声道时域包络恢复该左声道信号的时域包络。具体地,在步骤819中,不存在时移。
如果在步骤813中该结果是ITD》0(这包括ITD>0的情形,即左声道信号相对于右声道信号发生延迟,以及ITD=0的情形,即两个声道信号之间无延迟),然后该方法行进到步骤821。
在步骤821中,该单声道时域包络被延迟ITD个样本以后处理该左声道信号。这包括将时域包络延迟0个样本,即实际上不延迟该时域包络,如果ITD=0。
其他实施例(如上结合图5所述)可包括在步骤813求取是否(1)ITD>0,(2)ITD<0,以及(3)ITD=0,且可以包括对于ITD=0的第三分支(而非步骤813的图8的仅仅两个分支(是和否),其中该分支包括使用由第一声道特定的加权因子加权的单声道时域包络恢复该左声道信号的时域包络,但是不延迟该单声道时域包络,以及使用使用由第二声道特定的加权因子加权的单声道时域包络恢复该右声道信号的时域包络,但是不延迟该单声道时域包络。
根据图8(仅两个分支是和否),然后,在步骤823中,使用延迟的和加权的单声道时域包络恢复该左声道信号的时域包络。
此外,在步骤825中,使用加权的单声道时域包络来恢复该右声道信号的时域包络。具体地,在步骤825中,不存在加权的单声道时域包络的时移。
而且,如果将当前帧的立体声信号分类为立体声瞬态的,或如果前一帧的下混音信号是瞬态的且该立体声信号在前一帧被分类为立体声瞬态的,可能需要基于CLD_dq的另外的确定(见关于步骤807的讨论)。否则,这样的其他决定可能基于ITD(见关于步骤813的讨论)。
可以使用上述的公式(2)将CLD_dq计算为所有更高频带CLD的平均值。此外,可以将更高频带的第一频带的CLD用作CLD_dq。
如果仅一个声道是瞬态的,则该声道的能量高于另一声道的能量。因此,结合该立体声瞬态分类,该能量信息可以被用来识别哪个声道是瞬态的。
如果解码的CLD是正的,该左声道的能量大于右声道的能量,则使用加权的单声道时域包络可以将后处理仅应用于左声道。如果解码的CLD是负的,该左声道的能量小于右声道的能量,则使用加权的单声道时域包络可以将后处理仅应用于右声道。
当这样的附加决定基于ITD时,可以将两个声道均分类为瞬态的,且它们中的一个具有ITD个样本的延迟。
根据以上定义,如果ITD<0,则该左声道信号先到达。如果ITD>0,则该右声道信号先到达。
如果ITD>0,在将其应用于左声道信号之前,可以将加权的单声道时域包络延迟ITD个样本。通过仅使用该加权的单声道时域包络可以恢复该右声道信号的时域包络。
如果ITD<0,在将其应用于右声道信号之前,可以将加权的单声道时域包络延迟ITD个样本。通过仅使用该加权的单声道时域包络可以恢复该左声道信号的时域包络。
可通过分别使用上述的公式(4)和(5)计算两个声道的加权因子。
可以消除其两个声道均为瞬态的立体声信号的预回声失真。在这方面,图9描绘了其两个声道均为瞬态的原始立体声信号。而且,在图10中示出具有使用加权的单声道时域包络(无延迟)的两个后处理声道的输出立体声信号。在图11中,示出了具有基于ITD的后处理的输出立体声信号。图9-11的上部的图表描绘了左声道信号,且底部的图表描绘了右声道信号。可以从图9看出,左声道信号先到达,或者换言之,该右声道信号相对于左声道信号发生延迟。
从以上的图9至11,可以得出,如果不加延迟地将该加权的单声道时域包络直接应用于该左和右声道信号,显然对于延迟的右声道信号可以观察到明显的前回声失真,如图10中的圆圈所示。上述算法可以用针对两个声道的更佳的重构时域包络改善这种情形(具体地见改善的右声道信号),尤其是当两个声道间存在延迟时(见图11)。
图12至15示出了一些表现,其表示,根据跟发明的实施方式,可以消除具有至少一个瞬态声道的立体声信号的预回声失真。在这方面,图12示出了一个示意图,其图示具有一个瞬态声道(左声道信号,图12顶部)和一个正常声道(右声道信号,图12底部)的原始立体声信号。图13示出了一个示意图,其图示不具有后处理的输出立体声信号。图14示出了一个示意图,其图示具有对于两个声道的后处理的输出立体声信号,且图15示出了一个示意图,其图示具有仅针对瞬态的左声道的后处理的输出立体声信号。图12至15的顶部的图表描绘了该左声道信号,且底部的图表描绘了该右声道信号。
就图13而言,如果不将后处理应用于重构的立体声信号,则在左声道信号中可以观察到明显的预回声失真(见图13的圆圈)。如果将后处理应用于两个声道,可以在右声道中观察到噪声(见图14中的圆圈)。如果仅将后处理应用于左声道信号(无延迟),则至少减少或甚至完全消除了左声道信号中的预回声失真。
因此,可以从图9至图15中看出,在瞬态信号的所有组合中(即左和右声道、仅左声道、仅右声道),本算法可以用针对两个声道的更佳的重构时域包络改善该情形。
图16示出了一个示意图,其图示左声道信号1603和右声道信号1605之间的ITD1601。
此外,图16示出了左声道信号1603的时域包络1607和右声道信号1605的时域包络1609。可以如参考文献[4]中所述的那样计算ITD1601。而且,图16示出了从左声道信号1603和右声道信号1605中生成的下混音信号的时域包络1611。可以从图11中看出,瞬态左声道信号的包络1607的起始与下混音信号的时域包络1611的起始重合。换言之,无需延迟下混音信号的包络信号即可恢复该瞬态左声道信号的时域包络。然而,也可以从图16中看出,瞬态右声道信号的包络1609的起始相对于下混音信号的时域包络的起始发生延迟,其中该延迟对应于该左和右声道信号之间的延迟。从而,将下混音信号的时域包络信号用于恢复右声道信号的时域包络而不延迟该下混音信号的时域包络导致了预回声失真。将下混音信号的时域包络信号用于恢复右声道信号的时域包络且延迟该下混音信号的时域包络减少了预回声失真。与不应用延迟相比,下混音信号的时域包络的任何延迟,其减少了延迟的左声道信号的时域包络与下混音信号的时域包络之间的时间差异,也已减少了所述预回声失真,从而提高了重构的右声道信号的质量。与不应用延迟相比,将下混音信号的时域包络延迟声道间时间差异ITD,即将其延迟由该ITD规定的样本数目,将该预回声失真减少到最小,从而最大地提高了重构的右声道信号的质量。
在图17中,示出了用于后处理由低比特率音频编码系统处理的解码的多声道信号的装置101’的实施例。该装置101’适于后处理该多声道信号的多个声道信号中的至少一个声道信号,该至少一个声道信号由该低比特率音频编码/解码系统从解码的下混音信号生成。如所述的,该下混音信号(在其编码和解码的版本中)表示该多声道信号。
该装置101’具有接收机103’和后处理器105’。
该接收机103’用于接收该多声道信号的M个声道信号中的至少一个声道信号、该解码的下混音信号的时域包络、该至少一个声道信号和该下混音信号之间的声道间时间差异(ITD)、以及指明该下混音信号为瞬态类型的至少一个分类标识,该至少一个声道信号从该解码的下混音信号中生成。
该后处理器105’适于基于由加权因子加权的该解码的下混音信号的时域包络和根据该分类标识和该声道间时间差异(ITD)后处理该至少一个声道信号。该分类标识由该后处理器用来控制是否该至少一个声道信号被后处理。该ITD可以被该后处理器用于确定是否延迟该下混音信号的时域包络以后处理该至少一个声道信号。
该M大于1,即M>1。以下m被用作描述该M个声道信号中的特定声道信号的指数。
另一个实施例可以包括接收机103’,其用于接收该多声道信号的多个声道信号中的一些或全部、该解码的下混音信号的时域包络、以及每个声道信号的(或至少该声道信号的每个子集的)声道间时间差异,每个声道信号从解码的下混音信号中生成,且每个声道特定的声道间时间差异指明相应声道信号相对于该下混音信号的延迟。该ITD可以取从负值到正值,并包括0。0(ITD=0)指明,该声道信号具有为0的延迟,例如0个样本。换言之ITD=0指明该声道信号m被延迟0,即实际上相对于该下混音信号未被延迟。该另一个实施例的后处理器105’适于基于该解码的下混音信号的加权的时域包络和根据该下混音信号的该分类标识和该声道间时间差异(ITD)后处理该多个声道信号中的至少一个声道信号。该分类标识被用来控制是否该多个声道信号被后处理。该声道特定的ITD可以被用于确定是否延迟该下混音信号的时域包络以后处理该至少一个声道信号。
另一个实施例可以包括接收机103’,其用于为每个声道信号(或至少为该声道信号的每个子集)额外地接收分类标识,每个声道特定的分类标识指明相应声道信号的相应的瞬态类型。该另一个实施例的后处理器105’适于基于该解码的下混音信号的加权的时域包络和根据指明该下混音信号为瞬态类型的下混音分类标识以及指明相应声道信号的瞬态类型的该另外或额外的声道分类标识后处理该多个声道信号中的至少一个声道信号。该下混音分类标识和该另外的声道分类标识可被用于控制该多个声道信号中的哪一个被后处理。而且,该决定器可适于根据该声道特定的声道间时间差异来控制该后处理器是否应用延迟的加权时域包络以后处理相应的声道信号。
根据另一个实施例,该装置还包括决定器。该决定器适于接收识别该下混音信号的瞬态类型的分类标识和该声道间时间差异(或者可选地还有该声道特定的另外的分类标识,其指明该声道的瞬态类型),以及根据该分类标识(可选地还根据该另外的分类标识)控制该后处理器是否使用该声道特定的加权时域包络来后处理该至少一个声道信号,以及根据该声道间时间差异确定是否应用延迟的加权时域包络。
在另一个实施例中,该后处理器105’适于接收该解码的下混音信号的时域包络和声道特定的加权因子,以及通过将该时域包络与该声道特定的加权因子相乘来生成该加权的时域包络。
该后处理器的实施例可以包括仅一个后处理实体,其适于后处理该声道信号中的一个、几个或全部。关于该多个声道信号中的哪一个被后处理的决定是由决定器控制的。其他实施例可以包括超过一个后处理实体(例如对于每个声道信号专用一个或几个后处理实体,其适于根据该决定器的控制来后处理超过一个声道信号)。
图18示出了解码器201’的第三实施例(即用于参数多声道音频解码的解码器)。该解码器201’具有去复用器203’、下混音解码器205’、上混音器207’和用于后处理的装置209’。该用于后处理的装置209’具有决定器211’、第一处理实体213’和第二处理实体215’。
该去复用器203’适于接收复用的音频信号(其包括该下混音信号和该多声道参数),以及去复用该接收的下混音信号217’(如下混音比特流217’)以及与接收的下混音信号217’关联的多声道音频编码参数219’。该多声道音频编码参数219’包括由该下混音信号表示的该多声道信号的每个声道信号的声道间时间差异(ITD)和声道电平差异(CLD)。该声道特定的声道间时间差异也可以被称为ITDm,且该声道特定的声道电平差异也可以被称为CLDm,其中m表示指定该多声道信号的M个声道信号中的声道的声道指数。
该下混音解码器205’用于接收编码的下混音信号217’和将解码的下混音信号221’提供给上混音器207’和该用于后处理的装置209’。
该上混音器207’适于接收该解码的下混音信号221’和该声道特定的声道电平差异CLDm,以及根据前述的解码的下混音信号221’和该声道特定的CLDm来作为输出生成该多声道信号的M个声道信号(由该示范的两个附图标记223’和225’指示)。信号线之间的以参考记号223’和225’标记的点指明,该多声道信号可具有多于M=2个声道信号。
该装置209’的决定器211’用于接收信号231’,其包括该解码的下混音信号的时域包络和指明该解码的下混音信号的瞬态类型的分类标识。该分类标识指明该解码的下混音信号是瞬态的还是正常的,如非瞬态的。该装置209’的决定器211’还适于接收声道特定的声道间时间差异ITDm、声道特定的声道电平差异CLDm以及该声道特定的分类信息(见信号219)。
该决定器211’用于决定该M个声道信号223’、225’中的哪一个或哪一些被后处理。换言之,该决定器211’用于决定是否这些声道信号无一被后处理,是否该M个声道信号全部被后处理,或是否仅这些声道信号的一个子集被后处理。该决定器211’用于根据为每个声道信号指明相应声道信号的瞬态类型(即为每个声道信号指明相应的声道信号是瞬态的还是正常的)的分类标识来进行决定。可以将该分类标识包括在信号219’中。该决定器也适于决定是否要使用该下混音信号的时域包络的延迟版本来进行对声道信号m的后处理。
此外,该决定器211可用于通过相应的控制信号控制后处理实体213’和215’。在图14中,示出了用于控制后处理实体213’的控制信号227’以及用于控制后处理实体215’的控制信号229’。该后处理实体213’用于使用该解码的下混音信号的接收的时域包络231’来后处理该声道信号223’,其中时域包络由与声道信号223’关联的、且被声道特定地延迟(如果这样指示)相应的ITDm的声道特定的加权因子加权。
以类似方式,该后处理实体215’用于使用该解码的下混音信号的接收的时域包络231’来后处理该声道信号225’,其中该时域包络由与该声道信号关联的、且被声道特定地延迟(如果这样指示)相应的ITDm的声道特定的加权因子加权。
该决定器211’能用于根据相应的接收的声道电平差异CLDm219’计算或确定与声道信号223’关联的该加权因子以及与声道信号225’关联的该加权因子。
相对于图18,图19示出了音频编码器的第三实施例,例如用于提供要被图18的解码器解码的编码的多声道音频信号的参数多声道音频编码器301’。可以通过传输信道如有线或无线的通信链路将图18的编码器201’连接到图19的编码器301’。
该编码器301’具有下混音器303’、下混音瞬态检测器305’、编码实体307’、提取器309’和复用器313’。
该下混音器303’接收该多声道信号的M个声道信号。为简单起见,在图19中仅示出该M个声道信号中的两个代表性的声道信号315’和317’。该下混音器303’还适于生成和输出下混音信号319’,该下混音信号319’被提供给该下混音瞬态检测器305’和该下混音编码实体307’。可选地,如果将该下混音信号用作用于确定该声道信号的声道瞬态指示和/或该声道信号的声道电平差异CLD的参考信号,也可以将该下混音信号提供给提取器309’。
该下混音瞬态检测器305’适于检测该下混音信号是否是瞬态的,以及输出指明该下混音信号319’是否是瞬态的分类标识325’。该下混音瞬态检测器能适于求取该下混音信号的连续帧的能量和当该下混音信号的能量从一个帧到连续帧的变化超过预定的阈值时检测该下混音信号是瞬态的。
就该检测而言,求取了该下混音信号本身的动态特性或随时间的变化(相对于该立体声瞬态分类和该声道瞬态分类,其中求取了两个信号的能量的动态特性),该瞬态分类也被称为下混音瞬态分类,且如果以上条件被满足,如该下混音信号的能量从一个帧到连续帧的变化超过预定的阈值,该下混音信号也被称为下混音瞬态的。
因此指明该下混音信号为瞬态类型的分类标识325’(其由该下混音瞬态检测器305’输出)也可以被称为下混音瞬态分类标识或指明该下混音信号的下混音瞬态类型的瞬态分类,即指明该下混音信号是否是下混音瞬态的。
该编码实体307’适于输出该编码的下混音信号321’和该下混音信号的时域包络323’(如作为该下混音信号321’的一部分)。该编码实体307’能适于仅在下混音瞬态检测器检测到该下混音信号为下混音瞬态的情况下才提取该下混音信号的时域包络。该编码实体能适于例如将整个帧分成四个子帧,计算每个子帧的能量和将这四个子帧的能量的平方根编码,以表示该下混音信号的时域包络。
类似于时域包络323’,该分类标识305’与下混音信号一起(例如作为其一部分)被发送给解码器。
该提取器309’用于接收该多声道信号的该M个声道信号,并为该多声道信号的每个声道m从该多声道信号中提取声道特定的声道间时间差异ITDm、声道特定的声道电平差异CLDm和其他多声道音频编码参数。该提取的ITDm、CLDm和来自该多声道信号的其他多声道编码参数被作为边信息通过信号327’传送给解码器。
该解码器309’还适于为每个声道信号提供声道瞬态检测以及为每个声道信号输出指明相应声道信号的瞬态类型的声道特定的分类标识,其通过信号327’作为边信息到达解码器。因此,该提取器309’也能被称为检测器309’。
可以实施该提取器309’以便为该多声道信号的连续帧的每个声道信号计算声道电平差异CLDm,以及在与声道信号m关联的CLD(如声道信号m和参考信号之间计算的CLD)从一个帧到连续帧的变化超过预定阈值的情况下检测该声道信号m是瞬态的。该参考信号可以是该多声道信号的下混音信号、任何声道信号或从至少一个声道信号中得出的任何其他信号,如从多个声道信号的子集中生成的额外的下混音信号。
就该检测而言,求取了两个信号,该实际的声道信号m和该参考信号的能量的关系的动态特性或随时间的变化(相对于该下混音瞬态分类和该单声道瞬态分类,其中求取了仅一个信号的能量的动态特性)。该瞬态分类也被称为声道瞬态分类,以将其与单声道或下混音瞬态分类和立体声瞬态分类区分开来。相应地,如果以上条件被满足,如与该声道信号m关联的CLDm从一个帧到连续帧的变化超过预定阈值,该声道信号也被称为声道瞬态的。
因此,该提取器309也可以被称为声道瞬态检测器309且指明该声道信号的瞬态类型的分类标识也可以被称为声道瞬态分类标识或指明该声道信号的声道瞬态类型的分类标识,即指明该声道信号是否是声道瞬态的。
根据一个实施例,该下混音瞬态检测器305’适于控制(见从305’至307’的箭头)该编码实体307’,使得在该下混音瞬态检测器305’检测到该下混音信号为下混音瞬态的情况下该编码实体仅确定该下混音信号的时域包络323’。
在其他实施例中,该编码实体307′能适于确定该时域包络323′,不管是否该下混音瞬态检测器已经检测到该下混音信号为下混音瞬态的。
图18和19示出了用于单声道下混音编码的实施例。因此,该编码器(图19)包括单声道下混音器303′,其适于将多个声道信号下混音为仅一个单独的单声道下混音信号319′,单声道下混音编码实体307′,其适于编码该单声道下混音信号319′,以及单声道瞬态检测器305′,用于检测该单声道下混音信号是否是下混音瞬态的。相应地,该解码器(图18)包括单声道下混音解码器205′,其适于解码该接收的编码的单声道下混音信号205′,以及单声道上混音器207′,其适于从该一个解码的单声道下混音信号221′生成M个声道信号213′、215′。
可以实施该编码器和解码器的其他实施例,以执行多声道或立体声下混音编码,例如可以被实施以下混音多声道信号,使得该多声道信号由两个或更多个下混音信号(但是通常小于M)表示,且空间音频参数的相应集合能够从该多于两个下混音信号中重构该声道信号。每个下混音信号从该多声道信号的该超过两个声道信号中的至少两个得出。在这样的实施例中,该编码器包括下混音器,其适于将该多个声道信号下混音为该两个或更多个下混音信号,一个或更多个下混音编码实体,其适于编码该下混音信号,以及一个或更多个下混音瞬态检测器,其适于检测至少一个下混音信号是否是下混音瞬态的。相应地,该解码器包括一个或更多个下混音解码器,其适于解码该接收的编码的下混音信号,上混音器207′,其适于从该两个或更多个解码的下混音信号中生成该M个声道信号213′,215′,以及决定器,其适于为至少一个下混音信号求取是否该信号被分类为下混音瞬态的。
图20示出了用于后处理解码的多声道信号的方法的第一实施例的流程图。该用于后处理的方法适于后处理该多声道信号的多个声道信号的至少一个声道信号,该至少一个声道信号由低比特率音频编码/解码系统从解码的下混音信号中生成。如所述的,该下混音信号,在其编码和解码的版本中,表示该多声道信号。该方法包括以下步骤。
接收401′从该解码的下混音信号生成的至少一个声道信号、该解码的下混音信号的时域包络、该声道信号和该下混音信号之间的声道间时间差异、以及指明该下混音信号为瞬态类型的分类标识,其中该声道间时间差异与该至少一个声道信号关联。
基于由相应的加权因子加权的解码的下混音信号的时域包络和根据该分类标识以及该声道间时间差异后处理403′该至少一个声道信号。
图21示出了用于后处理解码的多声道信号的方法的第二实施例的流程图,其中该下混音信号被用作参考信号。该用于后处理的方法适于后处理该多声道信号的多个声道信号中的至少一个声道信号,该至少一个声道信号由低比特率音频编码/解码系统从解码的下混音信号中生成。如所述的,该下混音信号,在其编码和解码的版本中,表示该多声道信号。该方法包括以下步骤。
步骤501′包括检查该下混音信号是否是瞬态的。
如果该下混音信号不是瞬态的,则在步骤503′中例如仅更新该存储器。不进行使用该下混音信号的声道特定的加权时域包络的任何多声道信号的后处理。因为如果从其中得出下混音信号的多声道信号的至少一个声道信号是瞬态的则该下混音信号通常是瞬态的,因此可以假设如果指明该下混音信号为瞬态类型的分类标识符指明该下混音信号是非瞬态的,即该下混音信号不是下混音瞬态的,则声道信号无一是瞬态的,以及因此不需要后处理。
如果该解码的下混音信号是瞬态的,该方法行进到步骤505′。在步骤505′中,检查该声道信号m和该下混音信号中的哪一个先到达。或者,换言之,在步骤505′中,基于该声道间时间差异(ITD)检查该声道信号是否相对于该下混音信号发生延迟。
该ITD或声道间时间差异表示两个声道信号间的延迟,且能从该多声道信号的两个信号中的任一个中提取出,或用于任何声道信号m以及该多声道信号的参考信号,如此处使用的下混音信号。在图21中描述的实施例中,例如在编码器确定了声道信号m相对于该下混音信号的ITD,且在解码器求取了该ITD。该ITD通常将该延迟表达为样本数,且例如能够基于以下公式计算:
ITD = arg max d { IC ( d ) }
IC(d)是正规化的互相关,其被定义为
IC [ d ] = Σ n = 0 N - 1 x 1 [ n ] x 2 [ n - d ] Σ n = 0 N - 1 x 1 2 [ n ] Σ n = 0 N - 1 x 2 2 [ n ]
其中x1和x2表示要被关联的第一信号和第二信号,d表示该延迟或时间差异,n代表该时间指数,且N代表该最大的时间指数。
应当注意,可以逐个频带地计算该互相关。为避免ITD的伪检测,该最大相关可以与阈值比较。如果该最大相关高于该阈值,则该检测的延迟对应于该ITD。否则,该检测的延迟不代表ITD,以及为了避免引入错误的ITD,其值被变为0。从而,ITD=0可以表明,瞬态声道信号和瞬态下混音信号相对于彼此没有延迟,或该两个信号的相似度(即相关性)不足够显著。
或者,可以基于其他互相关如非正规化的互相关来计算该ITD。此外,如“Estimation of Interchannel Time Difference in Frequency Subbands Basedon Nonuniform Discrete Fourier Transform”(Bo Qiu,Yong Xu,Yadong Lu,和Jun Yang,EURASIP杂志,有关音频、语音和音乐处理,2008卷(2008年))中提出的,例如也可以用相位差计算来估计该声道间时间差异。
对立体声信号而言,如果x1和x2分别对应该下混音信号和该声道信号m,ITD<0意味着该下混音信号先到达(即声道信号m相对于下混音声道信号发生延迟)且ITD>0意味着下混音信号相对于声道信号m发生延迟)。当然,可以为ITD计算采用不同的约定。在这种情况下,与阈值0的比较被颠倒。也就是说,如果x1和x2分别对应声道信号m和下混音信号,ITD<0意味着声道信号m先到达(即下混音信号相对于声道信号m发生延迟)且ITD>0意味着声道信号m相对于下混音信号发生延迟。对于互相关的以上两种计算,ITD=0意味着两个信号,即下混音信号和声道信号m没有相对于彼此发生延迟或不是足够的相似。
使用以上用于计算ITD的公式,在x1对应将下混音信号和x2对应声道信号m的情况下,定义如果ITD<0则下混音信号先到达,且如果ITD>0则声道信号m先到达。在参考文献[4]中更详细地描述了用于计算ITD的例子。
基于前述对ITD的计算(x1对应下混音信号和x2对应声道信号m),在步骤505′中求出ITD是否小于0,即ITD<0。如果ITD<0(即声道信号m相对于下混音信号发生延迟),则方法行进到步骤507′。
在步骤507′中,该单声道时域包络被延迟ITD个样本,以处理该声道信号m。
然后,在步骤509中,使用延迟的和加权的单声道时域包络恢复了声道信号m的时域包络。
如果在步骤505′中结果是ITD不小于0,即ITD》0(这包括ITD>0的情形,即下混音信号相对于声道信号m发生延迟,以及ITD=0的情形,即两个信号之间无延迟),则该方法行进到步骤515′。
然后,根据图21,在步骤515′中,无延迟地使用加权的单声道时域包络恢复该声道信号的时域包络。
另外的实施例可以包括在步骤5051’求取是否(1)ITD>0,(2)ITD<0,和(3)ITD=0,且可以在(1)和(3)的情形中使用下混音信号的(未延迟)的加权时域包络执行声道信号m的后处理,以及在(2)的情形中使用下混音信号的延迟的加权时域包络执行声道信号m的后处理。
以上示出了计算用于加权解码的下混音信号的时域包络的相应加权因子的例子。
图22示出了用于后处理解码的多声道信号的方法的第三实施例的流程图,其中该下混音信号被用作参考信号。该用于后处理的方法适于后处理该多声道信号的多个声道信号中的至少一个声道信号,该至少一个声道信号由低比特率音频编码/解码系统从解码的下混音信号中生成。如所述的,该下混音信号,在其编码和解码的版本中,表示该多声道信号。该方法包括以下步骤。
步骤801′包括检查该下混音信号是否是瞬态的。
在该下混音信号不是瞬态的情况下,则在步骤803′中例如仅更新该存储器。不进行使用该下混音信号的声道特定的加权时域包络的任何多声道信号的后处理。因为如果从其中得出下混音信号的多声道信号的至少一个声道信号是瞬态的则该下混音信号通常是瞬态的,因此可以假设如果指明该下混音信号为瞬态类型的分类标识符指明该下混音信号是非瞬态的,即该下混音信号不是下混音瞬态的,则声道信号无一是瞬态的,以及因此不需要后处理。
如果解码的下混音信号是瞬态的,该方法行进到步骤805′。步骤805′包括检查声道m是否是瞬态的。该声道瞬态分类标识可被视为指示符,与该参考信号相比该声道m是否具有不同的动态特性,即是否声道信号m和参考信号具有不同的随时间的进程。因为求取了声道信号m和参考信号的进程的关系,例如基于CLD,因此在两个信号中的仅仅一个是瞬态的或两者均为瞬态但不以相同或相似的方式的情况下(例如该声道信号m和参考声道信号的能量随时间在不同方向上变化(增加或减少)或该能量变化不同数量),该声道信号将通常被分类为声道瞬态的。将声道信号分类为声道瞬态的必要的差异程度取决于使用的尺度,例如能量,以及该预定阈值。有鉴于前述,如果该下混音信号被分类为下混音瞬态的(见步骤801′)且该声道信号不是声道瞬态的,则假设两个信号,该声道信号m和参考信号以类似的方式呈现瞬态。而且,有鉴于前述,如果该下混音信号被分类为下混音瞬态的(见步骤801′)且该声道信号是声道瞬态的,则假设该声道信号m不是瞬态的。
如果声道信号m是声道瞬态的,则该方法行进到步骤807′,其中不进行声道信号m的后处理。
然而,如果该声道信号m不是声道瞬态的,该方法行进到步骤813′,且使用由声道特定的加权因子加权的且可能被延迟ITD的下混音信号的时域包络后处理声道m。
步骤813′至821′对应于图21的步骤505′至515′。
因此,在步骤813′中,类似于图21的步骤505′,检查声道信号m和下混音信号中的哪一个先到达。或者,换言之,在步骤505′,基于声道间时间差异(ITD)检查该声道信号是否相对于该下混音信号发生延迟。
基于结合图21给出的ITD的计算(x1对应于下混音信号和x2对应于声道信号m),在步骤813′中求出该ITD是否小于0,即ITD<0。如果ITD<0(即声道信号m相对于下混音信号发生延迟),则该方法行进(是)到步骤815′。
在步骤815′中,该单声道时域包络被延迟ITD个样本,以后处理该声道信号m。
然后,在步骤817′中,使用延迟的和加权的单声道时域包络恢复该声道信号m的时域包络。
如果在步骤813′中该结果是ITD不小于0,即ITD》0(这包括ITD>0的情形,即下混音信号相对于声道信号m发生延迟,以及ITD=0的情形,即两个信号之间无延迟),然后该方法行进到(否)步骤821′。
然后,在步骤821′中,无延迟地使用加权的单声道时域包络恢复该声道信号的时域包络。
相对于其他实施例,结合图21给出的考虑同样适用于图22。
在步骤805’(声道瞬态评估)的另一个实施例中,声道信号之一被用作参考信号。在这种情况下,仅需要M-1个声道瞬态分类标识来用于决定是否后处理该M个声道信号。对于该决定,是否后处理该参考声道信号,可以使用与所述的用于立体声编码的方法(基于图5或图8)相同或相似的方法。
在另一个实施例中,由数目大于1和小于M的一些下混音信号形成总体的下混音信号。在这种情况下,该参考信号可以是下混音信号中之一,且指明该下混音信号是否为瞬态的下混音瞬态指示与该下混音信号相关联。
参考图18、19和22,该多声道音频编码和解码可以如下进行。
首先,在编码器(见图19)处,从形成该多声道信号的M个声道信号C1至CM(对应于参考信号315’和317’)中生成该下混音信号,且将其用作下混音编码器307’的输入。在下混音编码器中存在瞬态检测模型。如果将该下混音信号319’分类为下混音瞬态的,该下混音信号的时域包络323’将被该下混音编码器307’提取和发送到解码器。
CLD由提取器309’使用以下公式从多声道信号中提取出来。
CLD m [ b ] = 10 log 10 Σ k = k b k b + 1 - 1 X ref [ k ] X ref * [ k ] Σ k = k b k b + 1 - 1 X m [ k ] X m * [ k ] - - - ( 1 )
其中k为频率仓指数,b是频带指数,kb是频带b的起始仓,且Xref是参考信号的谱,以及Xm是该多声道信号的每个声道的谱。该参考信号的谱Xref可以是下混音信号的谱D319’或声道之一的谱Xm(对于[1,M]中的m)。
也需要检测声道瞬态。这种检测例如基于CLDm监视,且也由提取器309’进行。如果检测到两个连续帧之间的CLDm的快速变化(也称为突发),则将声道m分类为声道瞬态的。
而且,对于每个声道m,由提取器309’基于以下公式从多声道信号计算声道间时间差异(表示声道信号m与下混音信号之间的延迟)
ITD = arg max d { IC ( d ) }
其中IC(d)是正规化的互相关,其被定义为
IC [ d ] = Σ n = 0 N - 1 x 1 [ n ] x 2 [ n - d ] Σ n = 0 N - 1 x 1 2 [ n ] Σ n = 0 N - 1 x 2 2 [ n ]
其中x1表示下混音信号且x2表示声道信号m。为防止ITD的伪检测,可以将最大相关与阈值比较。如果该最大相关高于该阈值,则检测的延迟对应于ITD。否则,检测的延迟不对应ITD,为避免引入错误的ITD,其值被变为0。
在解码器处(见图18),可以通过解码的下混音信号和与该下混音信号关联的多声道参数重构该多声道信号。
如果来自解码的下混音信号的所接收分类是下混音瞬态的,则本发明的实施例使用额外的处理模型来提高该瞬态多声道信号的质量。
通过决定器211’以以下方式计算应用于该下混音信号的下混音时域包络的加权因子。该第一步是计算CLDm的平均值
acld m = 1 N Σ b = 0 b = N CLD m [ b ] - - - ( 2 )
第二步是计算c
c = 10 acld m 20 - - - ( 3 )
在最后一步中,通过以下公式计算了声道m的加权因子
a m = 2 1 + c - - - ( 4 )
在将来自下混音解码过程的时域包络应用于声道m之前,首先将该时域包络与相应的加权因子am相乘。
可以为每个声道或为该多个声道信号中的仅仅一个或几个进行为多声道编码描述的该确定(m是否是声道瞬态的且它是否相对于下混音信号的时域包络发生延迟)、声道特定的加权因子am的计算、基于下混音信号的时域包络和声道特定的加权因子am的声道特定的加权时域包络的生成、该加权时域包络的延迟、以及基于该声道特定的时域包络的声道信号的后处理,且这些处理可以并列地或依次地进行。
尽管描述了主要的实施例,其中该多声道信号的所有M个(或M-1个,如果一个声道信号被用作参考信号)被分类为声道瞬态的,可以实施编码器、装置和解码器的其他实施例,使得M个声道信号的仅仅一个子集被编码和解码或声道分类和后处理。应当注意,可以象处理立体声信号的左和右声道信号那样处理具有M>2个声道的多声道信号的两个声道信号,使得对于这些信号用于立体声处理的实施例(如具有立体声瞬态分类或声道瞬态分类)可以被应用。

Claims (19)

1.一种用于后处理多声道信号的多个声道信号的至少一个声道信号的装置(101’;201’),该至少一个声道信号由低比特率音频编码/解码系统从解码的下混音信号中生成,该装置(101’;201’)包括:
接收机(103’),用于接收从该解码的下混音信号中生成的该至少一个声道信号、该解码的下混音信号的时域包络、该至少一个声道信号和该下混音信号之间的声道间时间差异、以及指明该下混音信号为瞬态类型的分类标识;以及
后处理器(105’,213’,215’),用于基于由相应的加权因子加权的该解码的下混音信号的时域包络和根据该分类标识和该声道间时间差异后处理该至少一个声道信号。
2.如权利要求1所述的装置,其中该接收机(103’)适于接收该多个声道信号和多个声道间时间差异,其中每个声道间时间差异与该多个声道信号中的声道信号相关联,并包括关于相应声道信号和该下混音信号之间的时间差异的信息;以及其中该装置还包括:
决定器(211’),其适于控制该后处理器和根据该分类标识决定该多个声道信号中的至少一个是否被后处理,以及根据该声道间时间差异决定相应声道信号是否通过由相应加权因子加权的该下混音信号的延迟的时域包络而被后处理。
3.如权利要求1或2所述的装置,其中该装置包括决定器(211’),其适于在该分类标识指明该下混音信号是下混音瞬态的且与该至少一个多声道信号相关联的该声道特定的声道间时间差异指明该至少一个声道信号相对于该下混音信号发生延迟的情况下,控制该后处理器来使用由相应加权因子加权的该下混音信号的延迟的时域包络后处理该至少一个声道信号。
4.如权利要求1-3中之一所述的装置,其中所述装置包括决定器(211’),其适于根据指明该下混音信号为瞬态类型的分类标识和根据指明该声道信号的瞬态类型的另外指示决定该多个声道信号中的该至少一个是否被后处理,以及根据该声道间时间差异决定该至少一个声道信号是否通过由相应加权因子加权的该下混音信号的延迟的时域包络来后处理。
5.如权利要求4所述的装置,其中该决定器(211’)用于,在该分类标识指明该下混音信号是下混音瞬态的且与该至少一个声道信号关联的该另外的分类标识指明该至少一个声道不是声道瞬态的,以及于该至少一个多声道信号关联的该声道特定的声道间时间差异指明该至少一个声道信号相对于该下混音信号发生延迟的情况下,控制该后处理器以使用由相应加权因子加权的该下混音信号的延迟的时域包络来后处理该至少一个声道信号。
6.如权利要求4或5所述的装置,其中该装置(211’)用于,在该分类标识指明该下混音信号是下混音瞬态的且与该至少一个多声道信号关联的的该另外的分类标识指明该该至少一个声道是声道瞬态的情况下,控制该后处理器不处理该至少一个声道信号。
7.如权利要求4至6中之一所述的装置,其中该分类标识指明,在声道信号的能量和参考信号的能量之间的关系随时间的变化超过预定阈值的情况下,该声道是声道瞬态的。
8.如权利要求7所述的装置,其中该下混音信号形成该参考信号。
9.如权利要求1至8中之一所述的装置,其中该分类标识指明,在该下混音信号的能量随时间的变化超过预定阈值的情况下,该下混音信号是下混音瞬态的。
10.如权利要求1至9中之一所述的装置,其中该装置具有决定器(211’),其适于基于该声道间时间差异决定该至少一个声道信号是否相对于该下混音信号发生延迟,以及如果该至少一个声道信号相对于该下混音信号发生了延迟,则延迟该下混音信号的时域包络以得到用于后处理该延迟的声道信号的延迟的时域包络,其中该决定器适于将该下混音信号的时域包络延迟该声道间时间差异。
11.一种用于参数多声道音频解码的解码器(201’),该编码器包括下混音解码器(205’)、上混音器(207’)和根据权利要求1至10中任一项的装置(209’),其中该下混音解码器(205’)用于接收表示该多声道信号的编码的下混音信号和将该编码的下混音信号解码,以生成解码的下混音信号,其中该上混音器(207’)用于从该下混音解码器(205’)接收该解码的下混音信号以及与该下混音信号关联的多声道参数,并基于该多声道参数上混音该解码的下混音信号,以生成该多声道信号的该多个声道信号。
12.一种用于后处理多声道信号的多个声道信号的至少一个声道信号的方法,该至少一个声道信号由低比特率音频编码/解码系统从解码的下混音信号中生成,该方法包括以下步骤:
接收(401’)从该解码的下混音信号生成的至少一个声道信号、该下混音信号的时域包络、该至少一个声道信号和该下混音信号之间的声道间时间差异、以及指明该下混音信号为瞬态类型的分类标识;以及
基于由相应加权因子加权的该解码的下混音信号的时域包络和根据该分类标识和该声道间时间差异后处理(403’)该至少一个声道信号。
13.一种用于后处理立体声信号的左和右声道信号中的至少一个的装置(101,201,713),该左和右声道信号由低比特率音频编码/解码系统从解码的下混音信号中生成,该装置(101,201,713)包括:
接收机(103),用于接收从该解码的下混音信号生成的该左声道信号和该右声道信号、该下混音信号的时域包络、该左声道信号和该右声道信号之间的声道间时间差异、以及指明该下混音信号或该立体声信号的瞬态类型的分类标识;以及
后处理器(105,213,215,717,719),其基于由相应加权因子加权的该解码的下混音信号的时域包络和根据该分类标识和该声道间时间差异后处理该左和右声道信号中的至少一个。
14.如权利要求13所述的装置,其中该装置包括决定器(211),其适于根据指明该下混音信号为瞬态类型的该分类标识决定该立体声道信号中的哪一个或哪些被后处理,以及根据该声道间时间差异决定该左或右声道信号是否通过由相应加权因子加权的该下混音信号的延迟的时域包络而被后处理。
15.如权利要求13或14所述的装置,其中该装置包括决定器(211),其适于根据指明该下混音信号为瞬态类型的该分类标识和指明该立体声信号为瞬态类型的另外的分类标识决定该立体声道信号中的哪一个或哪些被后处理,以及根据该声道间时间差异决定该左或右声道信号是否通过由相应加权因子加权的该下混音信号的延迟的时域包络而被后处理。
16.如权利要求14或15所述的装置,其中该决定其适于基于该声道间时间差异决定该立体声信号的左声道信号和右声道信号中的一个是否相对于另一声道信号发生延迟,以及如果该立体声信号的左声道信号和右声道信号中的一个相对于另一声道信号发生延迟,使用由相应加权因子加权的该解码的下混音信号的延迟的时域包络后处理该立体声信号的该延迟的声道信号,并使用由相应加权因子加权的该解码的下混音信号的时域包络后处理另一未延迟的声道信号。
17.一种用于解码由低比特率音频编码系统从立体声信号中处理的下混音信号的解码器(201,701),该解码器(201,701)包括单声道解码器(205,705),用于解码在音频声道声接收的该下混音信号,以及权利要求13至16中之一所述的装置(213,215,717,719),用于后处理该解码的下混音信号。
18.一种用于后处理立体声信号的左和右声道信号中的至少一个的方法,该左和右声道信号由低比特率编码/解码系统从解码的下混音信号中生成,该方法包括:
接收(401)从该解码的下混音信号生成的该左声道信号和该右声道信号、该解码的下混音信号的时域包络、该左声道信号和该右声道信号之间的声道间时间差异、以及指明该下混音信号或该立体声信号的瞬态类型的分类标识;以及
基于由相应加权因子加权的该解码的下混音信号的时域包络和根据该分类标识和该声道间时间差异后处理(403)该左和右声道信号中的至少一个。
19.一种计算机程序,其包括当在计算机上运行时执行权利要求12或18的方法的程序代码。
CN201080069344.8A 2010-09-28 2010-09-28 对解码的多声道音频信号或立体声信号进行后处理的装置和方法 Active CN103262158B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/077388 WO2012040898A1 (en) 2010-09-28 2010-09-28 Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal

Publications (2)

Publication Number Publication Date
CN103262158A true CN103262158A (zh) 2013-08-21
CN103262158B CN103262158B (zh) 2015-07-29

Family

ID=45891798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080069344.8A Active CN103262158B (zh) 2010-09-28 2010-09-28 对解码的多声道音频信号或立体声信号进行后处理的装置和方法

Country Status (5)

Country Link
US (1) US9767811B2 (zh)
EP (1) EP2612321B1 (zh)
JP (1) JP5681290B2 (zh)
CN (1) CN103262158B (zh)
WO (1) WO2012040898A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105405445A (zh) * 2015-12-10 2016-03-16 北京大学 一种基于声道间传递函数的参数立体声编码、解码方法
CN107592937A (zh) * 2015-03-09 2018-01-16 弗劳恩霍夫应用研究促进协会 用于对多声道信号进行编码或解码的装置与方法
CN107749299A (zh) * 2017-09-28 2018-03-02 福州瑞芯微电子股份有限公司 一种多音频输出方法和装置
CN108431890A (zh) * 2015-12-18 2018-08-21 高通股份有限公司 多音频信号的编码
CN109844858A (zh) * 2016-10-31 2019-06-04 高通股份有限公司 多个音频信号的解码

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886523B2 (en) * 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
CN105247613B (zh) 2013-04-05 2019-01-18 杜比国际公司 音频处理系统
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
EP4120250A4 (en) * 2020-03-09 2024-03-27 Nippon Telegraph & Telephone SOUND SIGNAL REDUCING MIXING METHOD, SOUND SIGNAL CODING METHOD, SOUND SIGNAL REDUCING MIXING DEVICE, SOUND SIGNAL CODING DEVICE, PROGRAM AND RECORDING MEDIUM

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1926607A (zh) * 2004-03-01 2007-03-07 杜比实验室特许公司 多信道音频编码
CN1947172A (zh) * 2004-04-05 2007-04-11 皇家飞利浦电子股份有限公司 方法、装置、编码器设备、解码器设备以及音频系统
CN101044794A (zh) * 2004-10-20 2007-09-26 弗劳恩霍夫应用研究促进协会 用于双声道提示码编码方案和类似方案的散射声音整形
CN101120615A (zh) * 2005-02-22 2008-02-06 弗劳恩霍夫应用研究促进协会 近透明或透明的多声道编码器/解码器方案
US20080199014A1 (en) * 2007-01-05 2008-08-21 Stmicroelectronics Asia Pacific Pte Ltd Low power downmix energy equalization in parametric stereo encoders
CN101460997A (zh) * 2006-06-02 2009-06-17 杜比瑞典公司 非节能上混规则脉络立体多声道解码器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
ATE387000T1 (de) 2001-05-10 2008-03-15 Dolby Lab Licensing Corp Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches
WO2004072956A1 (en) * 2003-02-11 2004-08-26 Koninklijke Philips Electronics N.V. Audio coding
RU2390857C2 (ru) 2004-04-05 2010-05-27 Конинклейке Филипс Электроникс Н.В. Многоканальный кодировщик
AU2006340728B2 (en) 2006-03-28 2010-08-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Enhanced method for signal shaping in multi-channel audio reconstruction
EP2924687B1 (en) * 2010-08-25 2016-11-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for encoding an audio signal having a plurality of channels

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1926607A (zh) * 2004-03-01 2007-03-07 杜比实验室特许公司 多信道音频编码
CN1947172A (zh) * 2004-04-05 2007-04-11 皇家飞利浦电子股份有限公司 方法、装置、编码器设备、解码器设备以及音频系统
CN101044794A (zh) * 2004-10-20 2007-09-26 弗劳恩霍夫应用研究促进协会 用于双声道提示码编码方案和类似方案的散射声音整形
CN101120615A (zh) * 2005-02-22 2008-02-06 弗劳恩霍夫应用研究促进协会 近透明或透明的多声道编码器/解码器方案
CN101460997A (zh) * 2006-06-02 2009-06-17 杜比瑞典公司 非节能上混规则脉络立体多声道解码器
US20080199014A1 (en) * 2007-01-05 2008-08-21 Stmicroelectronics Asia Pacific Pte Ltd Low power downmix energy equalization in parametric stereo encoders

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107592937A (zh) * 2015-03-09 2018-01-16 弗劳恩霍夫应用研究促进协会 用于对多声道信号进行编码或解码的装置与方法
US10762909B2 (en) 2015-03-09 2020-09-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
CN107592937B (zh) * 2015-03-09 2021-02-23 弗劳恩霍夫应用研究促进协会 用于对多声道信号进行编码或解码的装置与方法
US11508384B2 (en) 2015-03-09 2022-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
US11955131B2 (en) 2015-03-09 2024-04-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal
CN105405445A (zh) * 2015-12-10 2016-03-16 北京大学 一种基于声道间传递函数的参数立体声编码、解码方法
CN105405445B (zh) * 2015-12-10 2019-03-22 北京大学 一种基于声道间传递函数的参数立体声编码、解码方法
CN108431890A (zh) * 2015-12-18 2018-08-21 高通股份有限公司 多音频信号的编码
CN108431890B (zh) * 2015-12-18 2020-03-24 高通股份有限公司 多音频信号的编码
CN109844858A (zh) * 2016-10-31 2019-06-04 高通股份有限公司 多个音频信号的解码
CN109844858B (zh) * 2016-10-31 2023-06-02 高通股份有限公司 多个音频信号的解码
CN107749299A (zh) * 2017-09-28 2018-03-02 福州瑞芯微电子股份有限公司 一种多音频输出方法和装置

Also Published As

Publication number Publication date
EP2612321A4 (en) 2014-08-27
WO2012040898A1 (en) 2012-04-05
JP2013540283A (ja) 2013-10-31
CN103262158B (zh) 2015-07-29
US9767811B2 (en) 2017-09-19
EP2612321B1 (en) 2016-01-06
JP5681290B2 (ja) 2015-03-04
US20130279702A1 (en) 2013-10-24
EP2612321A1 (en) 2013-07-10

Similar Documents

Publication Publication Date Title
CN103262158A (zh) 对解码的多声道音频信号或立体声信号进行后处理的装置和方法
CN101933086B (zh) 处理音频信号的方法和设备
CN1748247B (zh) 音频编码
RU2560790C2 (ru) Параметрическое кодирование и декодирование
EP1865497B1 (en) Acoustic signal decoding
CN103026406B (zh) 用于对已解码多通道音频信号或已解码立体声信号进行后处理的装置和方法
US8798276B2 (en) Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal
US9105265B2 (en) Stereo coding method and apparatus
CN103650537B (zh) 采用分解器产生输出信号的装置和方法
CN103229234B (zh) 音频编码装置、方法以及音频解码装置、方法
CN101010725A (zh) 多信道信号编码装置以及多信道信号解码装置
CN101488344B (zh) 一种量化噪声泄漏控制方法及装置
CN101809655A (zh) 用于编码多信道音频信号的设备和方法
CN101002261A (zh) 使用虚拟源位置信息编码和解码多声道音频信号的方法和装置
MXPA06011359A (es) Codificador de canales multiples.
EP2702587B1 (en) Method for inter-channel difference estimation and spatial audio coding device
EP4213147A1 (en) Directional loudness map based audio processing
EP2296143B1 (en) Audio signal decoding device and balance adjustment method for audio signal decoding device
CN102272830B (zh) 音响信号解码装置及平衡调整方法
CN109300480B (zh) 立体声信号的编解码方法和编解码装置
US20080161952A1 (en) Audio data processing apparatus
CN103366748A (zh) 立体声编码的方法、装置
KR100932790B1 (ko) 음원 간 상호상관을 이용한 멀티트랙 다운믹싱 장치 및 그방법
KR20070037977A (ko) 다채널 오디오 신호의 인코딩 방법 및 장치 그리고인코딩된 신호의 디코딩 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210508

Address after: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040

Patentee after: Honor Device Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters building, Longgang District, Shenzhen City, Guangdong Province, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right