CN105900168B - 使用估计的空间参数的音频信号增强 - Google Patents

使用估计的空间参数的音频信号增强 Download PDF

Info

Publication number
CN105900168B
CN105900168B CN201480008591.5A CN201480008591A CN105900168B CN 105900168 B CN105900168 B CN 105900168B CN 201480008591 A CN201480008591 A CN 201480008591A CN 105900168 B CN105900168 B CN 105900168B
Authority
CN
China
Prior art keywords
channel
audio data
frequency
coefficients
decorrelation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480008591.5A
Other languages
English (en)
Other versions
CN105900168A (zh
Inventor
M·费勒斯
V·麦尔考特
颜冠傑
G·A·戴维森
M·F·戴维斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN105900168A publication Critical patent/CN105900168A/zh
Application granted granted Critical
Publication of CN105900168B publication Critical patent/CN105900168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Abstract

所接收的音频数据可包括第一组频率系数和第二组频率系数。可至少部分地基于所述第一组频率系数的至少一部分来估计用于所述第二组频率系数的至少一部分的空间参数。所估计的空间参数可应用于所述第二组频率系数以生成经修正的第二组频率系数。所述第一组频率系数可对应于第一频率范围(例如,单独通道频率范围),而所述第二组频率系数可对应于第二频率范围(例如,耦合通道频率范围)。复合耦合通道的组合频率系数可基于两个或更多个通道的频率系数。第一通道的频率系数与组合频率系数之间的互相关系数可被计算。

Description

使用估计的空间参数的音频信号增强
技术领域
本公开涉及信号处理。
背景技术
用于音频和视频数据的数字编码和解码处理的开发持续地对于娱乐内容的输送具有显著影响。尽管存储设备的容量增加并且海量可用数据以增加的高带宽被输送,但是对于最小化要被存储的和/或传送的数据量仍持续地存在压力。音频和视频数据往往被一起输送,并且音频数据的带宽常常受到视频部分的要求的约束。
因此,音频数据常常被以高压缩因子编码,有时以30:1或更高的压缩因子编码。由于信号畸变随着所应用的压缩量而增大,在解码的音频数据的保真度与存储和/或发送编码数据的效率之间进行折中。
此外,希望减少编码和解码算法的复杂度。对关于编码处理的额外数据进行编码可简化该解码处理,但是代价是存储和/或发送额外的编码数据。尽管已有的音频编码和解码方法一般令人满意,但是改进的方法是希望的。
发明内容
本公开中所描述的主旨的一些方面可在音频处理方法中被实现。一些这样的方法可包含接收对应于多个音频通道的音频数据。该音频数据可包括对应于音频编码或处理系统的滤波器组系数的频域表示。该方法可包含将去相关处理应用于音频数据中的至少一些。在一些实现中,去相关处理可利用与由音频编码或处理系统使用的滤波器组系数相同的滤波器组系数被执行。
在一些实现中,去相关处理可在没有将该频域表示的系数转换到另一频域或时域表示的情况下被执行。该频域表示可以是应用完美重构、临界采样的滤波器组的结果。该去相关处理可包含通过对于该频域表示的至少一部分应用线性滤波器来生成混响信号或去相关信号。该频域表示可以是将修正离散正弦变换、修正离散余弦变换、或者重叠正交变换应用于时域中的音频数据的结果。该去相关处理可包含应用完全对实数值系数进行操作的去相关算法。
根据一些实现,去相关处理可包含特定通道的选择性或信号自适应的去相关。作为替代的或者附加地,该去相关处理可包含特定频带的选择性或信号自适应的去相关。该去相关处理可包含将去相关滤波器应用于该接收的音频数据的一部分以产生经滤波的音频数据。该去相关处理可包含使用非分层(non-hierarchal)混合器以根据空间参数将所接收的音频数据的直接部分与经滤波的音频数据进行组合。
在一些实现中,去相关信息可随音频数据被接收或者被以另外方式接收。去相关处理可包含根据所接收的去相关信息将音频数据中的至少一些进行去相关。所接收的去相关信息可包括单独离散通道与耦合通道之间的相关系数、单独离散通道之间的相关系数、显式(explicit)音调信息和/或瞬态(transient)信息。
该方法可包含基于所接收的音频数据确定去相关信息。该去相关处理可包含根据所确定的去相关信息将音频数据中的至少一些进行去相关。该方法可包含接收随音频数据的编码的去相关信息。该去相关处理可包含根据所接收的去相关信息或所确定的去相关信息中的至少一个将音频数据中的至少一些进行去相关。
根据一些实现,音频编码或处理系统可以是传统音频编码或处理系统。该方法可包含接收由传统音频编码或处理系统产生的位流中的控制机构元素。该去相关处理至少部分地基于所述控制机构元素。
在一些实现中,一种装置可包括接口以及逻辑系统,该逻辑系统被配置为经由所述接口接收对应于多个音频通道的音频数据。所述音频数据可包括对应于音频编码或处理系统的滤波器组系数的频域表示。该逻辑系统可被配置为将去相关处理应用于音频数据中的至少一些。在一些实现中,该去相关处理可利用与由音频编码或处理系统使用的滤波器组系数相同的滤波器组系数被执行。该逻辑系统可包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑设备、离散门或晶体管逻辑、或者离散硬件组件中的至少一个。
在一些实现中,该去相关处理可是在没有将该频域表示的系数转换到另一频域或时域表示的情况下被执行。该频域表示可以是应用临界采样的滤波器组的结果。该去相关处理可包含通过对于该频域表示的至少一部分应用线性滤波器来生成混响信号或去相关信号。该频域表示可以是将修正离散正弦变换、修正离散余弦变换、或者重叠正交变换应用于时域中的音频数据的结果。该去相关处理可包含应用完全对实数值系数进行操作的去相关算法。
该去相关处理可包含特定通道的选择性或信号自适应的去相关。该去相关处理可包含特定频带的选择性或信号自适应的去相关。该去相关处理可包含将去相关滤波器应用于该接收的音频数据的一部分以产生经滤波的音频数据。在一些实现中,该去相关处理可包含使用非分层混合器以根据空间参数将所接收的音频数据的直接部分与经滤波的音频数据进行组合。
该装置可包括存储设备。在一些实现中,该接口可包括所述逻辑系统和所述存储设备之间的接口。作为替代,该接口可包括网络接口。
在一些实现中,该音频编码或处理系统可以是传统音频编码或处理系统。在一些实现中,该逻辑系统可进一步配置为经由接口接收由传统音频编码或处理系统产生的位流中的控制机构元素。该去相关处理可至少部分地基于所述控制机构元素。
本发明的一些方面可在其上存储有软件的非暂态介质中实现。该软件可包括用于控制装置接收对应于多个音频通道的音频数据的指令。所述音频数据可包括对应于音频编码或处理系统的滤波器组系数的频域表示。该软件可包括用于控制该装置将去相关处理应用于音频数据中的至少一些的指令。在一些实现中,所述去相关处理利用与由音频编码或处理系统使用的滤波器组系数相同的滤波器组系数被执行。
在一些实现中,该去相关处理可以是在没有将该频域表示的系数转换到另一频域或时域表示的情况下被执行。该频域表示可以是应用临界采样的滤波器组的结果。该去相关处理可包含通过对于该频域表示的至少一部分应用线性滤波器来生成混响信号或去相关信号。该频域表示可以是将修正离散正弦变换、修正离散余弦变换、或者重叠正交变换应用于时域中的音频数据的结果。该去相关处理可包含应用完全对实数值系数进行操作的去相关算法。
一些方法可包含接收对应于多个音频通道的音频数据并且确定音频数据的音频特性。所述音频特性可包括瞬态信息(transient information)。该方法可包含至少部分地基于所述音频特性确定音频数据的去相关量,并且根据所确定的去相关量来处理音频数据。
在一些实例中,可能没有随音频数据接收到显式瞬态信息。在一些实现中,确定瞬态信息的处理可包含检测软瞬态事件(soft transient event)。
确定瞬态信息的处理可包含评估瞬态事件的可能性和/或严重性(severity)。确定瞬态信息的处理可包含评估音频数据中的时间功率变化。
确定音频特性的处理可包含随音频数据接收显式瞬态信息。该显式瞬态信息可包括对应于明确瞬态事件(definite transient event)的瞬态控制值、对应于明确非瞬态事件的瞬态控制值、或者中间瞬态控制值中的至少一个。显式瞬态信息可包括中间瞬态控制值或对应于明确瞬态事件的瞬态控制值。该瞬态控制值可经受指数衰减函数。
显式瞬态信息可指示明确瞬态事件。处理音频数据可包含临时暂停或减慢去相关处理。显式瞬态信息可包括中间瞬态值或者对应于明确非瞬态事件的瞬态控制值。确定瞬态信息的处理可包含检测软瞬态事件。检测软瞬态事件的处理可包含评估瞬态事件的可能性和/或严重性中的至少一个。
所确定的瞬态信息可以是所确定的对应于软瞬态事件的瞬态控制值。该方法可包含将所确定的瞬态控制值与所接收的瞬态控制值相组合以获得新的瞬态控制值。将所确定的瞬态控制值与所接收的瞬态控制值相组合的处理可包含确定所确定的瞬态控制值与所接收的瞬态控制值的最大值。
检测软瞬态事件的处理可包含检测音频数据的时间功率变化。检测时间功率变化可包含确定对数平均功率的变化。该对数平均功率可以是频带加权的对数平均功率。确定对数平均功率的变化可包含确定时间不对称功率差分。不对称功率差分可强化增加的功率并且弱化减小的功率。该方法可包含基于非对称功率差分来确定原始瞬态度量(rawtransient measure)。确定原始瞬态度量可包含基于时间非对称功率差分根据高斯分布来分布的假设来计算瞬态事件的似然函数。该方法可包含基于所述原始瞬态度量确定瞬态控制值。该方法可包含将指数衰减函数应用于瞬态控制值。
一些方法可包含将去相关滤波器应用于音频数据的一部分,以产生经滤波的音频数据,并且根据混合比将经滤波的音频数据与所接收的音频数据的一部分进行混合。确定去相关量的处理可包含至少部分地基于该瞬态控制值来修正该混合比。
一些方法可包含将去相关滤波器应用于音频数据的一部分,以产生经滤波的音频数据。确定音频数据的去相关量的处理可包含基于该瞬态控制值来衰减去相关滤波器的输入。确定音频数据的去相关量的处理可包含响应于检测到软瞬态事件而减小去相关量。
处理音频数据可包含将去相关滤波器应用于音频数据的一部分,以产生经滤波的音频数据,并且根据混合比将经滤波的音频数据与所接收的音频数据的一部分进行混合。减小去相关量的处理可包含修正混合比。
处理音频数据可包含将去相关滤波器应用于音频数据的一部分以产生经滤波的音频数据,估计要被应用于经滤波的音频数据的增益,将该增益应用于经滤波的音频数据并且将经滤波的音频数据与所接收的音频数据的一部分混合。
估计处理可包含将经滤波的音频数据的功率与所接收的音频数据的功率进行匹配。在一些实现中,估计并应用增益的处理可由一组闪避器(a bank of ducker)执行。该组闪避器可包括缓冲器。固定的延迟可被应用于经滤波的音频数据并且同样的延迟可被应用于缓冲器。
用于闪避器的功率估计平滑窗口或者要被应用于经滤波的音频数据的增益中的至少一个可至少部分地基于所确定的瞬态信息。在一些实现中,当瞬态事件是相对更可能的或者相对更强的瞬态事件被检测到时,较短的平滑窗口可被应用,并且当瞬态事件是相对更不可能的时、相对更弱的瞬态事件被检测到时或者没有检测到瞬态事件时,较长的平滑窗口可被应用。
一些方法可包含将去相关滤波器应用于音频数据的一部分以产生经滤波的音频数据,估计要被应用于经滤波的音频数据的闪避器增益,将该闪避器增益应用于经滤波的音频数据并且根据混合比将经滤波的音频数据与所接收的音频数据的一部分混合。确定去相关量的处理可包含基于瞬态信息或闪避器增益中的至少一个修正该混合比。
确定音频特性的处理可包含确定通道被块切换(block switch)、通道脱离耦合或者通道耦合未被使用中的至少之一。确定音频数据的去相关量可包含确定去相关处理应被减慢或者暂停。
处理音频数据可包含去相关滤波器抖动(dithering)处理。该方法可包含至少部分地基于瞬态信息确定去相关滤波器抖动处理应被修正或暂停。根据一些方法,可确定去相关滤波器抖动处理将通过改变用于抖动去相关滤波器的极点的最大步幅(stride)值被修正。
根据一些实现,一种装置可包括接口以及逻辑系统,该逻辑系统被配置为从所述接口接收对应于多个音频通道的音频数据并且确定音频数据的音频特性。音频特性可包括瞬态信息。该逻辑系统可被配置为至少部分地基于音频特性来确定音频数据的去相关量,并且根据所确定的去相关量来处理音频数据。
在一些实现中,可能没有随音频数据接收到显式瞬态信息。确定瞬态信息的处理可包含检测软瞬态事件。确定瞬态信息的处理可包含评估瞬态事件的可能性或严重性中的至少一个。确定瞬态信息的处理可包含评估音频数据中的时间功率变化。
在一些实现中,确定音频特性可包含随音频数据接收显式瞬态信息。该显式瞬态信息可指示对应于明确瞬态事件的瞬态控制值、对应于明确非瞬态事件的瞬态控制值、或者中间瞬态控制值中的至少一个。显式瞬态信息可包括中间瞬态控制值或对应于明确瞬态事件的瞬态控制值。该瞬态控制值可经受指数衰减函数。
如果显式瞬态信息指示明确瞬态事件,处理音频数据可包含临时减慢或暂停去相关处理。如果显式瞬态信息可包括中间瞬态值或者对应于明确非瞬态事件的瞬态控制值,确定瞬态信息的处理可包含检测软瞬态事件。所确定的瞬态信息可以是所确定的对应于软瞬态事件的瞬态控制值。
逻辑系统可进一步被配置为将所确定的瞬态控制值与所接收的瞬态控制值相组合以获得新的瞬态控制值。在一些实现中,将所确定的瞬态控制值与所接收的瞬态控制值相组合的处理可包含确定所确定的瞬态控制值与所接收的瞬态控制值的最大值。
检测软瞬态事件的处理可包含评估瞬态事件的可能性或严重性中的至少之一。检测软瞬态事件的处理可包含检测音频数据中的时间功率变化。
在一些实现中,逻辑系统可进一步被配置为将去相关滤波器应用于音频数据的一部分,以产生经滤波的音频数据,并且根据混合比将经滤波的音频数据与所接收的音频数据的一部分进行混合。确定去相关量的处理可包含至少部分地基于该瞬态信息来修正该混合比。
确定音频数据的去相关量的处理可包含响应于检测到软瞬态事件而减小去相关量。处理音频数据可包含将去相关滤波器应用于音频数据的一部分,以产生经滤波的音频数据,并且根据混合比将经滤波的音频数据与所接收的音频数据的一部分进行混合。减小去相关量的处理可包含修正混合比。
处理音频数据可包含将去相关滤波器应用于音频数据的一部分以产生经滤波的音频数据,估计要被应用于经滤波的音频数据的增益,将该增益应用于经滤波的音频数据并且将经滤波的音频数据与所接收的音频数据的一部分混合。估计处理可包含将经滤波的音频数据的功率与所接收的音频数据的功率相匹配。逻辑系统可包括被配置为执行估计和应用增益的处理的闪避器组。
本发明的一些方面可在其上存储有软件的非暂态介质中实现。该软件可包括用于控制装置接收对应于多个音频通道的音频数据并且确定音频数据的音频特性的指令。在一些实现中,音频特性可包括瞬态信息。该软件可包含控制装置以至少部分地基于音频特性来确定音频数据的去相关量,并且根据所确定的去相关量来处理音频数据的指令。
在一些实现中,可能没有随音频数据接收到显式瞬态信息。确定瞬态信息的处理可包含检测软瞬态事件。确定瞬态信息的处理可包含评估瞬态事件的可能性或严重性中的至少一个。确定瞬态信息的处理可包含评估音频数据中的时间功率变化。
但是,在一些实现中,确定音频特性可包含随音频数据接收显式瞬态信息。该显式瞬态信息可指示对应于明确瞬态事件的瞬态控制值、对应于明确非瞬态事件的瞬态控制值、和/或者中间瞬态控制值。如果显式瞬态信息指示明确瞬态事件,处理音频数据可包含暂停或减慢去相关处理。
如果显式瞬态信息可包括中间瞬态值或者对应于明确非瞬态事件的瞬态控制值,确定瞬态信息的处理可包含检测软瞬态事件。所确定的瞬态信息可以是所确定的对应于软瞬态事件的瞬态控制值。确定瞬态信息的处理可包含将所确定的瞬态控制值与所接收的瞬态控制值相组合以获得新的瞬态控制值。将所确定的瞬态控制值与所接收的瞬态控制值相组合的处理可包含确定所确定的瞬态控制值与所接收的瞬态控制值的最大值。
检测软瞬态事件的处理可包含评估瞬态事件的可能性或严重性中的至少之一。检测软瞬态事件的处理可包含检测音频数据的时间功率变化。
该软件可包括如下指令,该指令控制装置以将去相关滤波器应用于音频数据的一部分,以产生经滤波的音频数据,并且根据混合比将经滤波的音频数据与所接收的音频数据的一部分进行混合。确定去相关量的处理可包含至少部分地基于该瞬态信息来修正该混合比。确定音频数据的去相关量的处理可包含响应于检测到软瞬态事件而减小去相关量。
处理音频数据可包含将去相关滤波器应用于音频数据的一部分,以产生经滤波的音频数据,并且根据混合比将经滤波的音频数据与所接收的音频数据的一部分进行混合。减小去相关量的处理可包含修正混合比。
处理音频数据可包含将去相关滤波器应用于音频数据的一部分以产生经滤波的音频数据,估计要被应用于经滤波的音频数据的增益,将该增益应用于经滤波的音频数据并且将经滤波的音频数据与所接收的音频数据的一部分混合。估计处理可包含将经滤波的音频数据的功率与所接收的音频数据的功率相匹配。
一些方法可包含接收对应于多个音频通道的音频数据并且确定音频数据的音频特性。音频特性可包括瞬态信息。瞬态信息可包括指示明确瞬态事件和明确非瞬态事件之间的瞬态值的中间瞬态控制值。这样的方法还可包含形成包括编码瞬态信息的编码音频数据帧。
编码瞬态信息可包括一个或多个控制标记。该方法可包含将音频数据的两个或更多个通道中的至少一部分耦合成至少一个耦合通道。该控制标记可包括通道块切换标记、通道脱离耦合标记或耦合使用标记中的至少一个。该方法可包含确定该控制标记中的一个或更多个的组合以形成指示明确瞬态事件、明确非瞬态事件、瞬态事件的可能性或瞬态事件的严重性中的至少一个的编码瞬态信息。
确定瞬态信息的处理可包含评估瞬态事件的可能性或严重性中的至少之一。编码瞬态信息可指示明确瞬态事件、明确非瞬态事件、瞬态事件的可能性或瞬态事件的严重性中的至少一个。确定瞬态信息的处理可包含评估音频数据的时间功率变化。
编码瞬态信息可包括对应于瞬态事件的瞬态控制值。瞬态控制值可经受指数衰减函数。瞬态信息可指示去相关处理应被暂时减慢或暂停。
瞬态信息可指示去相关处理的混合比应被修正。例如,瞬态信息可指示去相关处理中的去相关量应被暂时减小。
一些方法可包含接收对应于多个音频通道的音频数据并且确定音频数据的音频特性。音频特性可包括空间参数数据。该方法可包含至少部分地基于该音频特性确定用于音频数据的至少两个去相关滤波处理。去相关滤波处理可在至少一对通道的通道特定去相关信号之间导致特定的去相关信号间相干性(inter-decorrelation signal coherence,“IDC”)。去相关滤波处理可包括将去相关滤波器应用于音频数据的至少一部分以产生经滤波的音频数据,通道特定去相关信号可通过对经滤波的音频数据执行操作而产生。
该方法可包含将去相关滤波处理应用于音频数据的至少一部分以产生通道特定去相关信号,至少部分地基于所述音频特性确定混合参数;以及根据所述混合参数将通道特定去相关信号与音频数据的直接部分(direct portion)进行混合。该直接部分可对应于被应用去相关滤波器的所述部分。
该方法还可包含接收关于输出通道的数量的信息。确定用于音频数据的至少两个去相关滤波处理的处理可至少部分地基于所述输出通道的数量。所述接收处理可包含确定N个输入音频通道的音频数据将被下混或上混为K个输出音频通道的音频数据,并且产生对应于所述K个输出音频通道的去相关音频数据。
该方法可包含将N个输入音频通道的音频数据下混或上混为M个中间音频通道的音频数据,产生所述M个中间音频通道的去相关音频数据,以及将所述M个中间音频通道的去相关音频数据下混或上混为K个输出音频通道的去相关音频数据。确定用于音频数据的至少两个去相关滤波处理可至少部分地基于中间输出通道的数量M。去相关滤波处理可至少部分地基于N到K、M到K或N到M混合方程被确定。
该方法还可包含控制多个音频通道对之间的通道间相干性(“ICC”)。控制ICC的处理可包含接收ICC值或者至少部分地基于空间参数数据确定ICC值中的至少之一。
控制ICC的处理可包含接收一组ICC值或者至少部分地基于空间参数数据确定该组ICC值中的至少之一。该方法还可包含至少部分地基于该组ICC值确定一组IDC值,以及通过对经滤波的音频数据执行操作来将与该组IDC值对应的一组通道特定去相关信号进行合成。
该方法还可包含在空间参数数据的第一表示和所述空间参数数据的第二表示之间进行转换的处理。所述空间参数数据的第一表示可包括单独离散通道与耦合通道之间的相干性的表示。所述空间参数数据的第二表示可包括单独离散通道之间的相干性的表示。
将去相关滤波处理应用于音频数据的至少一部分可包含将同一去相关滤波器应用于多个通道的音频数据以产生经滤波的音频数据,并且将与左通道或右通道对应的经滤波的音频数据乘以-1。该方法还可包含参照对应于左通道的经滤波的音频数据来反转对应于左环绕通道的经滤波的音频数据的极性,以及参照对应于右通道的经滤波的音频数据来反转对应于右环绕通道的经滤波的音频数据的极性。
将去相关滤波处理应用于音频数据的至少一部分可包含将第一去相关滤波器应用于第一通道和第二通道的音频数据以产生第一通道经滤波数据和第二通道经滤波数据,以及将第二去相关滤波器应用于第三通道和第四通道的音频数据以产生第三通道经滤波数据和第四通道经滤波数据。第一通道可以是左通道,第二通道可以是右通道,第三通道可以是左环绕通道,并且第四通道可以是右环绕通道。该方法还可包含相对于第二通道经滤波数据来反转第一通道经滤波数据的极性,以及相对于第四通道经滤波数据来反转第三通道经滤波数据的极性。确定用于音频数据的至少两个去相关滤波处理的处理可包含确定不同的去相关滤波器将被应用于中央通道的音频数据或者确定去相关滤波器将不被应用于中央通道的音频数据。
该方法还可包含接收对应于多个耦合通道的耦合通道信号和通道特定缩放因子。所述应用处理可包含将至少一个去相关滤波处理应用于耦合通道以生成通道特定经滤波音频数据,并且将通道特定缩放因子应用于通道特定经滤波音频数据以产生通道特定去相关信号。
该方法还可包含至少部分地基于空间参数数据来确定去相关信号合成参数。去相关信号合成参数可以是输出通道特定去相关信号合成参数。该方法还可包含接收对应于多个耦合通道的耦合通道信号和通道特定缩放因子。确定用于音频数据的至少两个去相关滤波处理的处理和将去相关滤波处理应用于音频数据的一部分的处理中的至少之一可包含通过将一组去相关滤波器应用于耦合通道信号生成一组种子去相关信号,将种子去相关信号发送至合成器,将输出通道特定去相关信号合成参数应用于合成器所接收的种子去相关信号以产生通道特定合成去相关信号,将通道特定合成去相关信号乘以适合于每个通道的通道特定缩放因子以产生经缩放的通道特定合成去相关信号,以及输出经缩放的通道特定合成去相关信号至直接信号和去相关信号混合器。
该方法还可包含接收通道特定缩放因子。确定用于音频数据的至少两个去相关滤波处理的处理和将去相关滤波处理应用于音频数据的一部分的处理中的至少之一可包含通过将一组去相关滤波器应用于音频数据生成一组通道特定种子去相关信号,将通道特定种子去相关信号发送至合成器,至少部分地基于通道特定缩放因子确定一组通道对特定水平调整参数,将输出通道特定去相关信号合成参数和通道对特定水平调整参数应用于合成器所接收的通道特定种子去相关信号以产生通道特定合成去相关信号,以及输出通道特定合成去相关信号至直接信号和去相关信号混合器。
确定输出通道特定去相关信号合成参数可包含至少部分地基于空间参数数据确定一组IDC值,以及确定与该组IDC值对应的输出通道特定去相关信号合成参数。该组IDC值可至少部分地根据单独离散通道和耦合通道之间的相干性以及单独离散通道的对之间的相干性被确定。
混合处理可包含使用非分层混合器以将通道特定去相关信号与音频数据的直接部分相组合。确定音频特性可包含随同音频数据接收显式音频特性信息。确定音频特性可包含基于音频数据的一个或多个属性确定音频特性信息。所述空间参数数据可包括单独离散通道与耦合通道之间的相干性的表示和/或单独离散通道之间的相干性的表示。音频特性可包括音调信息或瞬态信息中的至少一个。
确定所述混合参数可至少部分地基于空间参数数据。该方法可进一步包含提供混合参数至所述直接信号和去相关信号混合器。所述混合参数可以是输出通道特定混合参数。该方法可进一步包含至少部分地基于输出通道特定混合参数和瞬态控制信息确定经修正的输出通道特定混合参数。
根据一些实现,一种装置可包括接口和逻辑系统,该逻辑系统可被配置为接收对应于多个音频通道的音频数据并且确定音频数据的音频特性。音频特性可包括空间参数数据。该逻辑系统可配置为至少部分地基于该音频特性确定用于音频数据的至少两个去相关滤波处理。去相关滤波处理可在至少一对通道的通道特定去相关信号之间导致特定的IDC。去相关滤波处理可包括将去相关滤波器应用于音频数据的至少一部分以产生经滤波的音频数据,通道特定去相关信号可通过对经滤波的音频数据执行操作而产生。
该逻辑系统可被配置为将去相关滤波处理应用于音频数据的至少一部分以产生通道特定去相关信号,至少部分地基于所述音频特性确定混合参数;以及根据所述混合参数将通道特定去相关信号与音频数据的直接部分进行混合。该直接部分可对应于被应用去相关滤波器的所述部分。
接收处理可包含接收关于输出通道的数量的信息。确定用于音频数据的至少两个去相关滤波处理的处理可至少部分地基于所述输出通道的数量。例如,所述接收处理可包含接收对应于N个输入通道的音频数据,并且逻辑系统可被配置为确定N个输入音频通道的音频数据将被下混或上混为K个输出音频通道的音频数据,并且产生对应于所述K个输出音频通道的去相关音频数据。
该逻辑系统可进一步被配置为将N个输入音频通道的音频数据下混或上混为M个中间音频通道的音频数据;产生所述M个中间音频通道的去相关音频数据,以及将所述M个中间音频通道的去相关音频数据下混或上混为K个输出音频通道的去相关音频数据。
去相关滤波处理可至少部分地基于N到K混合方程被确定。确定用于音频数据的至少两个去相关滤波处理可至少部分地基于中间输出通道的数量M。去相关滤波处理可至少部分地基于M到K或N到M混合方程被确定。
该逻辑系统还可被配置为控制多个音频通道对之间的ICC。控制ICC的处理可包含接收ICC值或者至少部分地基于空间参数数据确定ICC值中的至少之一。该逻辑系统还可被配置为至少部分地基于该组ICC值确定一组IDC值,以及通过对经滤波的音频数据执行操作来将与该组IDC值对应的一组通道特定去相关信号进行合成。
该逻辑系统还可被配置为在空间参数数据的第一表示和所述空间参数数据的第二表示之间进行转换的处理。所述空间参数数据的第一表示可包括单独离散通道与耦合通道之间的相干性的表示。所述空间参数数据的第二表示可包括单独离散通道之间的相干性的表示。
将去相关滤波处理应用于音频数据的至少一部分可包含将同一去相关滤波器应用于多个通道的音频数据以产生经滤波的音频数据,并且将与左通道或右通道对应的经滤波的音频数据乘以-1。该逻辑系统还可被配置为参照对应于左侧通道的经滤波的音频数据来反转对应于左环绕通道的经滤波的音频数据的极性,以及参照对应于右侧通道的经滤波的音频数据来反转对应于右环绕通道的经滤波的音频数据的极性。
将去相关滤波处理应用于音频数据的至少一部分可包含将第一去相关滤波器应用于第一通道和第二通道的音频数据以产生第一通道经滤波数据和第二通道经滤波数据,以及将第二去相关滤波器应用于第三通道和第四通道的音频数据以产生第三通道经滤波数据和第四通道经滤波数据。第一通道可以是左侧通道,第二通道可以是右侧通道,第三通道可以是左环绕通道,并且第四通道可以是右环绕通道。
该逻辑系统还可被配置为相对于第二通道经滤波数据来反转第一通道经滤波数据的极性,以及相对于第四通道经滤波数据来反转第三通道经滤波数据的极性。确定用于音频数据的至少两个去相关滤波处理的处理可包含确定不同的去相关滤波器将被应用于中央通道的音频数据或者确定去相关滤波器将不被应用于中央通道的音频数据。
该逻辑系统还可被配置为从接口接收对应于多个耦合通道的耦合通道信号和通道特定缩放因子。所述应用处理可包含将至少一个去相关滤波处理应用于耦合通道以生成通道特定经滤波音频数据,并且将通道特定缩放因子应用于通道特定经滤波音频数据以产生通道特定去相关信号。
该逻辑系统还可被配置为至少部分地基于空间参数数据来确定去相关信号合成参数。去相关信号合成参数可以是输出通道特定去相关信号合成参数。该逻辑系统还可被配置为从接口接收对应于多个耦合通道的耦合通道信号和通道特定缩放因子。
确定用于音频数据的至少两个去相关滤波处理的处理和将去相关滤波处理应用于音频数据的一部分的处理中的至少之一可包含:通过将一组去相关滤波器应用于耦合通道信号生成一组种子去相关信号,将种子去相关信号发送至合成器,将输出通道特定去相关信号合成参数应用于合成器所接收的种子去相关信号以产生通道特定合成去相关信号;将通道特定合成去相关信号乘以适合于每个通道的通道特定缩放因子以产生经缩放的通道特定合成去相关信号;以及输出经缩放的通道特定合成去相关信号至直接信号和去相关信号混合器。
确定用于音频数据的至少两个去相关滤波处理的处理和将去相关滤波处理应用于音频数据的一部分的处理中的至少之一可包含:通过将一组通道特定去相关滤波器应用于音频数据生成一组通道特定种子去相关信号,将通道特定种子去相关信号发送至合成器,至少部分地基于通道特定缩放因子确定通道对特定水平调整参数,将输出通道特定去相关信号合成参数和通道对特定水平调整参数应用于合成器所接收的通道特定种子去相关信号以产生通道特定合成去相关信号,以及输出通道特定合成去相关信号至直接信号和去相关信号混合器。
确定输出通道特定去相关信号合成参数可包含至少部分地基于空间参数数据确定一组IDC值,以及确定与该组IDC值对应的输出通道特定去相关信号合成参数。该组IDC值可至少部分地根据单独离散通道和耦合通道之间的相干性以及单独离散通道的对之间的相干性被确定。
混合处理可包含使用非分层混合器以将通道特定去相关信号与音频数据的直接部分相组合。确定音频特性可包含随同音频数据接收显式音频特性信息。确定音频特性可包含基于音频数据的一个或多个属性确定音频特性信息。该音频特性可包括音调信息和/或瞬态信息。
所述空间参数数据可包括单独离散通道与耦合通道之间的相干性的表示和/或单独离散通道的对之间的相干性的表示。确定所述混合参数可至少部分地基于空间参数数据。
该逻辑系统还可被配置为提供混合参数至所述直接信号和去相关信号混合器。所述混合参数可以是输出通道特定混合参数。该逻辑系统还可被配置为至少部分地基于输出通道特定混合参数和瞬态控制信息确定经修正的输出通道特定混合参数。
该装置可包括存储设备。在一些实现中,该接口可以是所述逻辑系统和所述存储设备之间的接口。作为替代,该接口可包括网络接口。
本发明的一些方面可在其上存储有软件的非暂态介质中实现。软件可包括控制装置以接收对应于多个音频通道的音频数据并且确定音频数据的音频特性的指令。音频特性可包括空间参数数据。该软件可包括控制该装置以至少部分地基于该音频特性确定用于音频数据的至少两个去相关滤波处理的指令。去相关滤波处理可在至少一对通道的通道特定去相关信号之间导致特定的IDC。去相关滤波处理可包括将去相关滤波器应用于音频数据的至少一部分以产生经滤波的音频数据,通道特定去相关信号可通过对经滤波的音频数据执行操作而产生。
该软件可包括控制该装置以进行如下操作的指令:将去相关滤波处理应用于音频数据的至少一部分以产生通道特定去相关信号,至少部分地基于所述音频特性确定混合参数;以及根据所述混合参数将通道特定去相关信号与音频数据的直接部分进行混合。该直接部分可对应于被应用去相关滤波器的所述部分。
该软件可包括控制该装置以接收关于输出通道的数量的信息的指令。确定用于音频数据的至少两个去相关滤波处理的处理可至少部分地基于所述输出通道的数量。例如,所述接收处理可包含接收对应于N个输入通道的音频数据。该软件可包括控制该装置以确定N个输入音频通道的音频数据将被下混或上混为K个输出音频通道的音频数据,并且产生对应于所述K个输出音频通道的去相关音频数据的指令。
该软件可包括控制该装置以进行如下操作的指令:将N个输入音频通道的音频数据下混或上混为M个中间音频通道的音频数据;产生所述M个中间音频通道的去相关音频数据,以及将所述M个中间音频通道的去相关音频数据下混或上混为K个输出音频通道的去相关音频数据。
确定用于音频数据的至少两个去相关滤波处理可至少部分地基于中间输出通道的数量M。去相关滤波处理可至少部分地基于N到K、M到K或N到M混合方程被确定。
该软件可包括控制该装置以执行控制多个音频通道对之间的ICC的处理的指令。控制ICC的处理可包含接收ICC值和/或至少部分地基于空间参数数据确定ICC值。控制ICC的处理可包含接收一组ICC值或至少部分地基于空间参数数据确定该组ICC值中的至少之一。该软件可包括控制该装置以执行至少部分地基于该组ICC值确定一组IDC值,以及通过对经滤波的音频数据执行操作来将与该组IDC值对应的一组通道特定去相关信号进行合成的处理的指令。
将去相关滤波处理应用于音频数据的至少一部分可包含将同一去相关滤波器应用于多个通道的音频数据以产生经滤波的音频数据,并且将与左通道或右通道对应的经滤波的音频数据乘以-1。该软件可包括控制该装置以进行如下处理的指令:参照对应于左侧通道的经滤波的音频数据来反转对应于左环绕通道的经滤波的音频数据的极性,以及参照对应于右侧通道的经滤波的音频数据来反转对应于右环绕通道的经滤波的音频数据的极性。
将去相关滤波处理应用于音频数据的至少一部分可包含将第一去相关滤波器应用于第一通道和第二通道的音频数据以产生第一通道经滤波数据和第二通道经滤波数据,以及将第二去相关滤波器应用于第三通道和第四通道的音频数据以产生第三通道经滤波数据和第四通道经滤波数据。第一通道可以是左侧通道,第二通道可以是右侧通道,第三通道可以是左环绕通道,并且第四通道可以是右环绕通道。
该软件可包括控制该装置以执行如下处理的指令:相对于第二通道经滤波数据来反转第一通道经滤波数据的极性,以及相对于第四通道经滤波数据来反转第三通道经滤波数据的极性。确定用于音频数据的至少两个去相关滤波处理的处理可包含确定不同的去相关滤波器将被应用于中央通道的音频数据或者确定去相关滤波器将不被应用于中央通道的音频数据。
该软件可包括控制装置以接收对应于多个耦合通道的耦合通道信号和通道特定缩放因子的指令。所述应用处理可包含将至少一个去相关滤波处理应用于耦合通道以生成通道特定经滤波音频数据,并且将通道特定缩放因子应用于通道特定经滤波音频数据以产生通道特定去相关信号。
该软件可包括控制该装置以至少部分地基于空间参数数据来确定去相关信号合成参数的指令。去相关信号合成参数可以是输出通道特定去相关信号合成参数。该软件可包括控制该装置以接收对应于多个耦合通道的耦合通道信号和通道特定缩放因子的指令。确定用于音频数据的至少两个去相关滤波处理的处理和将去相关滤波处理应用于音频数据的一部分的处理中的至少之一可包含:通过将一组去相关滤波器应用于耦合通道信号生成一组种子去相关信号,将种子去相关信号发送至合成器,将输出通道特定去相关信号合成参数应用于合成器所接收的种子去相关信号以产生通道特定合成去相关信号;将通道特定合成去相关信号乘以适合于每个通道的通道特定缩放因子以产生经缩放的通道特定合成去相关信号;以及输出经缩放的通道特定合成去相关信号至直接信号和去相关信号混合器。
该软件可包括控制该装置以接收对应于多个耦合通道的耦合通道信号和通道特定缩放因子的指令。确定用于音频数据的至少两个去相关滤波处理的处理和将去相关滤波处理应用于音频数据的一部分的处理中的至少之一可包含:通过将一组通道特定去相关滤波器应用于音频数据生成一组通道特定种子去相关信号,将通道特定种子去相关信号发送至合成器,至少部分地基于通道特定缩放因子确定通道对特定水平调整参数,将输出通道特定去相关信号合成参数和通道对特定水平调整参数应用于合成器所接收的通道特定种子去相关信号以产生通道特定合成去相关信号,以及输出通道特定合成去相关信号至直接信号和去相关信号混合器。
确定输出通道特定去相关信号合成参数可包含至少部分地基于空间参数数据确定一组IDC值,以及确定与该组IDC值对应的输出通道特定去相关信号合成参数。该组IDC值可至少部分地根据单独离散通道和耦合通道之间的相干性以及单独离散通道的对之间的相干性被确定。
在一些实现中,一种方法可包含:接收包括第一组频率系数和第二组频率系数的音频数据;基于所述第一组频率系数的至少一部分来估计用于所述第二组频率系数的至少一部分的空间参数;以及将所估计的空间参数应用于所述第二组频率系数以生成经修正的第二组频率系数。所述第一组频率系数可对应于第一频率范围,所述第二组频率系数可对应于第二频率范围。所述第一频率范围可低于所述第二频率范围。
音频数据可包括对应于单独通道和耦合通道的数据。所述第一频率范围可对应于单独通道频率范围,所述第二频率范围可对应于耦合通道频率范围。该应用处理可包含在每个通道的基础上应用所估计的空间参数。
音频数据可包括用于两个或更多个通道的第一频率范围中的频率系数。该估计处理可包含基于所述两个或更多个通道的频率系数计算复合耦合通道的组合频率系数,以及对于至少第一通道,计算用于第一通道的频率系数与组合频率系数之间的互相关系数。所述组合频率系数可对应于所述第一频率范围。
该互相关系数可以是归一化的互相关系数。第一组频率系数可包括多个通道的音频数据。该估计处理可包含估计用于所述多个通道中的数个通道的归一化的互相关系数。该估计处理可包含将第一频率范围中的至少一部分分割成第一频率范围带,并且计算用于每个第一频率范围带的归一化的互相关系数。
在一些实现中,该估计处理可包含在通道的所有第一频率范围带上对归一化的互相关系数进行平均,以及将缩放因子应用于归一化的互相关系数的平均值以获得所估计的用于该通道的空间参数。对归一化的互相关系数进行平均的处理可包含在通道的时间段上进行平均。所述缩放因子可随频率增加而减小。
该方法可包含添加噪声以对所估计的空间参数的方差进行建模。该添加的噪声的方差可至少部分地基于归一化的互相关系数中的方差。该添加的噪声的方差可至少部分地依赖于频带上的空间参数的预测,方差对于所述预测的依赖性是基于经验数据的。
该方法可包含接收或确定关于所述第二组频率系数的音调信息。所应用的噪声可根据所述音调信息而改变。
该方法可包含测量所述第一组频率系数的带和所述第二组频率系数的带之间的每个带的能量比。所估计的空间参数根据所述每个带的能量比改变。在一些实现中,所估计的空间参数根据输入音频信号的时间变化而改变。该估计处理可包含仅对实数值频率系数的操作。
将所估计的空间参数应用于第二组频率系数的处理可以是去相关处理的一部分。在一些实现中,该去相关处理可包含生成混响信号或去相关信号并且将其应用于所述第二组频率系数。该去相关处理可包含应用完全对实数值系数进行操作的去相关算法。该去相关处理可包含特定通道的选择性或信号自适应的去相关。该去相关处理可包含特定频带的选择性或信号自适应的去相关。在一些实现中,第一组频率系数和第二组频率系数可以是将修正离散正弦变换、修正离散余弦变换、或者重叠正交变换应用于时域中的音频数据的结果。
该估计处理可至少部分地基于估计理论。例如,该估计处理可至少部分地基于最大似然法、贝式估计、矩估计方法、最小均方误差估计、或者最小方差无偏估计中的至少一个。
在一些实现中,音频数据可在根据传统编码处理编码的位流中被接收。该传统编码处理可例如是AC-3音频编解码器或增强AC-3音频编解码器的处理。与通过根据对应于所述传统编码处理的传统解码处理对位流进行解码而获得的音频再现相比,应用所述空间参数可获得更加空间准确的音频再现。
一些实现包含一种装置,该装置包括接口以及逻辑系统。该逻辑系统可被配置为:接收包括第一组频率系数和第二组频率系数的音频数据;基于所述第一组频率系数中的至少一部分来估计用于所述第二组频率系数的至少一部分的空间参数;以及将所估计的空间参数应用于所述第二组频率系数以生成经修正的第二组频率系数。
该装置可包括存储设备。该接口可包括所述逻辑系统与所述存储设备之间的接口。但是,该接口可包括网络接口。
该第一组频率系数可对应于第一频率范围。该第二组频率系数可对应于第二频率范围。该第一频率范围可低于该第二频率范围。音频数据可包括对应于单独通道和耦合通道的数据。第一频率范围可对应于单独通道频率范围。第二频率范围可对应于耦合通道频率范围。
该应用处理可包含在每个通道的基础上应用所估计的空间参数。该音频数据可包括用于两个或更多个通道的第一频率范围中的频率系数。该估计处理可包含基于所述两个或更多个通道的频率系数计算复合耦合通道的组合频率系数;以及对于至少第一通道,计算第一通道的频率系数与组合频率系数之间的互相关系数。
该组合频率系数可对应于第一频率范围。该互相关系数可以是归一化的互相关系数。该第一组频率系数可包括多个通道的音频数据。该估计处理可包含估计所述多个通道中的数个通道的归一化的互相关系数。
该估计处理可包含将第二频率范围分割成第二频率范围带并且计算用于每个第二频率范围带的归一化的互相关系数。该估计处理可包含将第一频率范围分割成第一频率范围带,在所有第一频率范围带上将归一化的互相关系数进行平均,并且将缩放因子应用于归一化的互相关系数的平均值以获得所估计的空间参数。
对归一化的互相关系数进行平均的处理可包含在通道的时间段上进行平均。该逻辑系统可进一步被配置为向修正的第二组频率系数添加噪声。噪声可被添加以对所估计的空间参数的方差进行建模。通过该逻辑系统添加的噪声的方差可至少部分地基于归一化的互相关系数中的方差。该逻辑系统可进一步被配置为接收或确定关于第二组频率系数的音调信息;以及根据所述音调信息而改变所应用的噪声。
在一些实现中,该音频数据可在根据传统编码处理编码的位流中被接收。例如,该传统编码处理可包括AC-3音频编解码器或增强AC-3音频编解码器的处理。
本公开的一些方面可在其上存储有软件的非暂态介质中被实现。该软件可包括用于控制装置执行以下操作的指令:接收包括第一组频率系数和第二组频率系数的音频数据;至少部分地基于所述第一组频率系数来估计用于所述第二组频率系数的至少一部分的空间参数;以及将所估计的空间参数应用于所述第二组频率系数以生成经修正的第二组频率系数。
该第一组频率系数可对应于第一频率范围,该第二组频率系数可对应于第二频率范围。该音频数据可包括对应于单独通道和耦合通道的数据。该第一频率范围可对应于单独通道频率范围,该第二频率范围对应于耦合通道频率范围。该第一频率范围可低于第二频率范围。
该应用处理可包含在每个通道的基础上应用所估计的空间参数。该音频数据可包括用于两个或更多个通道的第一频率范围中的频率系数。该估计处理可包含基于所述两个或更多个通道的频率系数计算复合耦合通道的组合频率系数,以及对于至少第一通道,计算第一通道的频率系数与组合频率系数之间的互相关系数。
该组合频率系数可对应于第一频率范围。该互相关系数可以是归一化的互相关系数。该第一组频率系数可包括多个通道的音频数据。该估计处理可包含估计所述多个通道中的数个通道的归一化的互相关系数。该估计处理可包含将第二频率范围分割成第二频率范围带并且计算用于每个第二频率范围带的归一化的互相关系数。
该估计处理可包含将第一频率范围分割成第一频率范围带;在所有第一频率范围带上对归一化的互相关系数进行平均;以及将缩放因子应用于归一化的互相关系数的平均值以获得所估计的空间参数。对归一化的互相关系数进行平均的处理可包含在通道的时间段上进行平均。
该软件还可包括用于控制解码装置以向经修正的第二组频率系数添加噪声以对所估计的空间参数的方差进行建模的指令。该添加的噪声的方差可至少部分地基于归一化的互相关系数中的方差。该软件还可包括用于控制解码装置以接收或确定关于第二组频率系数的音调信息的指令。所应用的噪声根据所述音调信息而改变。
在一些实现中,该音频数据可在根据传统编码处理编码的位流中被接收。例如,该传统编码处理可包括AC-3音频编解码器或增强AC-3音频编解码器的处理。
根据一些实现,一种方法可包含接收对应于多个音频通道的音频数据;确定音频数据的音频特性;至少部分基于所述音频特性确定用于音频数据的去相关滤波器参数;根据所述去相关滤波器参数形成去相关滤波器;并且将所述去相关滤波器应用于音频数据中的至少一些。例如,所述音频特性可包括音调信息和/或瞬态信息。
确定音频特性可包含随音频数据接收显式音调信息或瞬态信息。确定音频特性可包含基于音频数据的一个或多个属性确定音调信息或瞬态信息。
在一些实现中,去相关滤波器可包括具有至少一个延迟元件的线性滤波器。去相关滤波器可包括全通滤波器。
去相关滤波器参数可包括用于该全通滤波器的至少一个极点的抖动参数或者随机选择的极点位置(pole location)。例如,抖动参数或者极点位置可包含极点移动的最大步幅值。最大步幅值可对于音频数据的高音调信号基本为0。抖动参数或极点位置可由极点移动被约束于其中的约束区域限界。在一些实现中,约束区域可以是圆形或者环形。在一些实现中,约束区域可以是固定的。在一些实现中,音频数据的不同通道可共享同一约束区域。
根据一些实现,极点可对于每个通道被独立地抖动。在一些实现中,极点的运动可不被约束区域限界。在一些实现中,极点可含有基本一致的相对于彼此的空间或角度关系。根据一些实现,极点到Z平面圆圈的中心的距离可以是音频数据频率的函数。
在一些实现中,一种装置可包括接口和逻辑系统。在一些实现中,该逻辑系统可包括通用单芯片或多芯片处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑设备、离散门或晶体管逻辑、和/或离散硬件组件。
该逻辑系统可被配置为从接口接收对应于多个音频通道的音频数据,并且确定音频数据的音频特性。在一些实现中,所述音频特性可包括音调信息和/或瞬态信息。该逻辑系统可被配置为至少部分基于该音频特性确定用于音频数据的去相关滤波器参数,根据所述去相关滤波器参数形成去相关滤波器,并且将所述去相关滤波器应用于音频数据中的至少一些。
该去相关滤波器可包括具有至少一个延迟元件的线性滤波器。该去相关滤波器参数可包括用于该去相关滤波器的至少一个极点的抖动参数或者随机选择的极点位置。抖动参数或极点位置可由极点移动被约束于其中的约束区域限界。该抖动参数或极点位置可参照极点移动的最大步幅值被确定。最大步幅值可对于音频数据的高音调信号基本为0。
该装置可包括存储设备。该接口可包括所述逻辑系统与所述存储设备之间的接口。但是,该接口可包括网络接口。
此公开的一些方面可在其上存储有软件的非暂态介质中实现。该软件可包括用于控制装置以进行如下操作的指令:接收对应于多个音频通道的音频数据;确定音频数据的音频特性,所述音频特性包括音调信息或瞬态信息中的至少一个;至少部分基于该音频特性确定用于音频数据的去相关滤波器参数;根据所述去相关滤波器参数形成去相关滤波器;并且将所述去相关滤波器应用于音频数据中的至少一些。该去相关滤波器可包括具有至少一个延迟元件的线性滤波器。
该去相关滤波器参数可包括用于该去相关滤波器的至少一个极点的抖动参数或者随机选择的极点位置。抖动参数或极点位置可由极点移动被约束于其中的约束区域限界。该抖动参数或极点位置可参照极点移动的最大步幅值被确定。最大步幅值可对于音频数据的高音调信号基本为0。
根据一些实现,一种方法可包含:接收对应于多个音频通道的音频数据;确定对应于去相关滤波器的最大极点位移的去相关滤波器控制信息;至少部分基于所述去相关滤波器控制信息确定用于音频数据的去相关滤波器参数;根据所述去相关滤波器参数形成去相关滤波器;并且将所述去相关滤波器应用于音频数据中的至少一些。
音频数据可在时域中或者在频域中。确定去相关滤波器控制信息可包含接收最大极点位移的明示指示(express indication)。
确定去相关滤波器控制信息可包含确定音频特性信息并且至少部分地基于音频特性信息来确定最大极点位移。在一些实现中,音频特性信息可包括音调信息或瞬态信息中的至少一个。
本说明书中描述的主题的一个或多个实现的细节在附图和以下描述中被阐述。其它特征、方面和优点将从描述、附图和权利要求变得清楚。应指出,附图的相对尺寸可能不是按比例绘制的。
附图说明
图1A和1B是示出音频编码处理期间的通道耦合的示例的图。
图2A是示出音频处理系统的元件的框图。
图2B提供了可由图2A的音频处理系统执行的操作的概图。
图2C是示出作为替代的音频处理系统的元件的框图。
图2D是示出可在音频处理系统中如何使用去相关器的示例的框图。
图2E是示出作为替代的音频处理系统的元件的框图。
图2F是示出去相关器元件的示例的框图。
图3是示出去相关处理的示例的流程图。
图4是可被配置为执行图3的去相关处理的去相关器组件的示例的框图。
图5A是示出移动全通滤波器的极点的示例的图。
图5B和5C是示出移动全通滤波器的极点的作为替代的示例的图。
图5D和5E是示出在移动全通滤波器的极点时可应用的约束区域的示例的图。
图6A是示出去相关器的作为替代的实现的框图。
图6B是示出去相关器的另一实现的框图。
图6C示出音频处理系统的作为替代的实现。
图7A和7B示出提供了空间参数的简化图示的矢量图。
图8A是示出文中提供的一些去相关方法的块的流程图。
图8B是示出横向符号取反方法(lateral sign-flip method)的块的流程图。
图8C和8D是示出可用于实现一些符号取反方法的组件的框图。
图8E是示出从空间参数数据确定合成系数和混合系数的方法的块的流程图。
图8F是示出混合器组件的示例的框图。
图9是概述在多通道情况中合成去相关信号的处理的流程图。
图10A是提供了用于估计空间参数的方法的概略的流程图。
图10B是提供了用于估计空间参数的作为替代的方法的概略的流程图。
图10C是指示缩放项VB和带索引l之间的关系的图。
图10D是指示变量VM和q之间的关系的图。
图11A是概述瞬态确定和瞬态相关控制的一些方法的流程图。
图11B是包括用于瞬态确定和瞬态相关控制的各种组件的示例的框图。
图11C是概述至少部分地基于音频数据的时间功率变化确定瞬态控制值的一些方法的流程图。
图11D是示出将原始瞬态值映射到瞬态控制值的示例的图。
图11E是概述对瞬态信息进行编码的方法的流程图。
图12是提供可被配置为实现文中所描述的处理的各方面的装置的组件的示例的框图。
各种附图中的相似附图标记和名称指示相似的元件。
具体实施方式
以下的描述针对出于描述本公开的一些创新方面的目的的某些实现以及在其中可实现这些创新方面的上下文的示例。但是,文中的教导可被以多种不同的方式应用。尽管本申请中提供的示例主要在AC-3音频编解码器和增强AC-3音频编解码器(还已知为E-AC-3)的方面被描述,但是文中所提供的概念可应用于其它音频编解码器,包括但是不限于MPEG-2 AAC和MPEG-4 AAC。此外,所描述的实现可被体现在各种音频处理设备中,包括但不限于编码器和/或解码器,其可包含于移动电话、智能电话、平板电脑、立体声系统、电视、DVD播放器、数字记录设备和各种其它设备中。因此,此公开的教导预期不被局限于附图中和/或文中所示的实现,而是具有广泛的适用性。
包括AC-3和E-AC-3音频编解码器的一些音频编解码器(被许可为“DolbyDigital”和“Dolby Digital Plus”的专有实现)采用了一些形式的通道耦合来利用通道之间的冗余,更高效地编码数据,并且减小编码位率。例如,对于AC-3和E-AC-3编解码器,在超出特定“耦合开始频率”的耦合通道频率范围中,离散通道(下文还被称为“单独通道”)的修正离散余弦变换(MDCT)系数被下混至单声通道,其在文中可被称为“复合通道”或“耦合通道”。一些编解码器可形成两个或更多个耦合通道。
AC-3和E-AC-3解码器使用基于在位流中发送的耦合坐标(coupling coordinate)的缩放因子将耦合通道的单声信号上混到离散通道。这样,解码器复原每个通道的耦合通道频率范围中的音频数据的高频包络,而不是相位。
图1A和1B是示出音频编码处理期间的通道耦合的示例的图。图1的曲线图102指示在通道耦合之前对应于左通道的音频信号。曲线图104指示在通道耦合之前对应于右通道的音频信号。图1B示出包括通道耦合的编码和解码之后的左通道和右通道。在此简化示例中,曲线图106指示左通道的音频数据基本未改变,而曲线图108指示右通道的音频数据现在与左通道的音频数据同相。
如图1A和1B所示,耦合开始频率之外的解码信号可在通道之间相干。因此,与原始信号相比,耦合开始频率之外的解码信号可听上去空间崩溃。当例如关于经由耳机虚拟化的双耳呈现或者立体声扬声器的重放编码通道被下混时,耦合通道可相干地累加。与原始参考信号相比,这可能导致音色不匹配。当解码信号在耳机上被双耳呈现时,通道耦合的负面影响可能尤其明显。
文中描述的各种实现可至少部分地缓解这些影响。一些这样的实现包含新颖的音频编码和/或解码工具。这样的实现可被配置为复原通过通道耦合编码的频率区域中的输出通道的相位差异。根据各种实现,去相关信号可被从每个输出通道的耦合通道频率范围中的解码谱系数合成。
但是,文中描述了许多其它类型的音频处理设备和方法。图2A是示出音频处理系统的元件的框图。在此实现中,音频处理系统200包括缓冲器201、开关203、去相关器205和逆变换模块255。开关203可例如是交叉点开关。缓冲器201接收音频数据元素220a到220n,将音频数据元素220a到220n转发至开关203并且将音频数据元素220a到220n的副本发送至去相关器205。
在此示例中,音频数据元素220a到220n对应于多个音频通道1到N。这里,音频数据元素220a到220n包括对应于音频编码或处理系统(其可以是传统音频编码或处理系统)的滤波器组系数的频域表示。但是,在作为替代的实现中,音频数据元素220a到220n可对应于多个频带1到N。
在此实现中,所有音频数据元素220a到220n被开关203和去相关器205两者接收。这里,所有音频数据元素220a到220n被去相关器205处理以产生去相关音频数据元素230a到230n。此外,所有去相关音频数据元素230a到230n被开关203接收。
但是,不是所有去相关音频数据元素230a到230n都被逆变换模块255接收并且转换成时域音频数据260。相反,开关203选择去相关音频数据元素230a到230n中的哪些将被逆变换模块255接收。在此示例中,开关203根据通道选择音频数据元素230a到230n中的哪些将被逆变换模块255接收。这里,例如,音频数据元素230a被逆变换模块255接收,而音频数据元素230n没有被逆变换模块255接收。作为替代,开关203将没有被去相关器205处理的音频数据元素220n发送至逆变换模块255。
在一些实现中,开关203可根据与通道1到N对应的预定设置确定是将直接音频数据元素220还是去相关音频数据元素230发送至逆变换模块255。作为替代或者附加地,开关203可根据可被本地生成或存储的或者随音频数据220被接收的选择信息207的通道特定分量来确定是将直接音频数据元素220还是去相关音频数据元素230发送至逆变换模块255。因此,音频处理系统200可提供特定音频通道的选择性去相关。
作为替代或者附加地,开关203可根据音频数据220中的变化确定是将直接音频数据元素220还是去相关音频数据元素230发送至逆变换模块255。例如,开关203可根据选择信息207的信号自适应分量(可指示音频数据220中的瞬态或音调变化)确定去相关音频数据元素203中的哪些(如果有的话)被发送至逆变换模块255。在作为替代的实现中,开关203可接收来自去相关器205的这样的信号自适应信息。在还另外的实现中,开关203可被配置为确定音频数据中的变化,诸如瞬态或音调变化。因此,音频处理系统200可提供特定音频通道的信号自适应去相关。
如上所述,在一些实现中,音频数据元素220a到220n可对应于多个频带1到N。在一些实现中,开关203可根据与频带对应的特定设置和/或所接收的选择信息207,确定是将直接音频数据元素220还是去相关音频数据元素230发送至逆变换模块255。因此,音频处理系统200可提供特定频带的选择性去相关。
作为替代或附加地,开关203可根据音频数据220中的变化确定是将直接音频数据元素220还是去相关音频数据元素230发送至逆变换模块255,该变化可由选择信息207指示和/或由从去相关器205接收的信息指示。在一些实现中,开关203可被配置为确定音频数据中的变化。因此,音频处理系统200可提供特定频带的信号自适应去相关。
图2B提供了可由图2A的音频处理系统执行的操作的概述。在此示例中,方法270以接收对应于多个音频通道的音频数据的处理(块272)开始。音频数据可包括对应于音频编码或处理系统的滤波器组系数的频域表示。该音频编码或处理系统可例如是传统音频编码或处理系统,诸如AC-3或E-AC-3。一些实现可包含接收由传统音频编码或处理系统产生的位流中的控制机构元素,诸如块切换的指示等。去相关处理可至少部分地基于该控制机构元素。以下提供详细示例。在此示例中,方法270还包含将去相关处理应用于音频数据中的至少一些(块274)。该去相关处理可利用与由音频编码或处理系统使用的滤波器组系数相同的滤波器组系数被执行。
再次参照图2A,去相关器205可根据特定实现执行各种类型的去相关操作。文中提供许多示例。在一些实现中,该去相关处理是在没有将音频数据元素220的频域表示的系数转换到另一频域或时域表示的情况下被执行。该去相关处理可包含通过对于该频域表示的至少一部分应用线性滤波器来生成混响信号或去相关信号。在一些实现中,该去相关处理可包含应用完全对实数值系数进行操作的去相关算法。如文中使用的,“实数值”指的是仅使用余弦或正弦调制滤波器组之一。
该去相关处理可包含将去相关滤波器应用于所接收的音频数据元素220a到220n的一部分以产生经滤波的音频数据。该去相关处理可包含使用非分层混合器以根据空间参数将所接收的音频数据的直接部分(没有被应用去相关滤波器)与经滤波的音频数据进行组合。例如,音频数据元素220a的直接部分可被以输出通道特定方式与音频数据元素220a的经滤波部分进行组合。一些实现可包括去相关或混响信号的输出通道特定组合器(例如,线性组合器)。下文描述各种示例。
在一些实现中,空间参数可由音频处理系统200依据所接收的音频数据220的分析被确定。作为替代或附加地,空间参数可随同音频数据220作为去相关信息240的一部分或全部在位流中被接收。在一些实现中,去相关信息240可包括单独离散通道与耦合通道之间的相关系数、单独离散通道之间的相关系数、显式音调信息和/或瞬态信息。去相关处理可包含至少部分地基于去相关信息240将音频数据220中的至少一部分进行去相关。一些实现可被配置为使用局部确定的和接收的空间参数和/或其它去相关信息两者。下文描述各种示例。
图2C是示出作为替代的音频处理系统的元件的框图。在此示例中,音频数据元素220a到220n包括N个音频通道的音频数据。音频数据元素220a到220n包括对应于音频编码或处理系统的滤波器组系数的频域表示。在此实现中,该频域表示是应用完美重构、临界采样的滤波器组的结果。例如,该频域表示可以是将修正离散正弦变换、修正离散余弦变换、或者重叠正交变换应用于时域中的音频数据的结果。
去相关器205将去相关处理应用于音频数据元素220a到220n中的至少一部分。例如,该去相关处理可包含通过对于音频数据元素220a到220n中的至少一部分应用线性滤波器来生成混响信号或去相关信号。去相关处理可至少部分地根据去相关器205所接收的去相关信息240来执行。例如,去相关信息240可随同音频数据元素220a到220n的频域表示在位流中被接收。作为替代或附加地,至少一些去相关信息可例如由去相关器205在本地确定。
逆变换模块255可应用逆变换以产生时域音频数据260。在此示例中,逆变换模块255应用等同于完美重构、临界采样的滤波器组的逆变换。该完美重构、临界采样的滤波器组可对应于(例如,通过编码设备)被应用于时域中的音频数据以产生音频数据元素220a到220n的频域表示。
图2D是示出在音频处理系统中可以如何使用去相关器的示例的框图。在此示例中,音频处理系统200可以是包括去相关器205的解码器。在一些实现中,解码器可被配置为根据AC-3或E-AC-3音频编解码器起作用。但是,在一些实现中,音频处理系统可被配置为处理其它音频编解码器的音频数据。去相关器205可包括各种子组件,诸如文中别处描述的那些。在此示例中,上混器225接收音频数据210,其包括耦合通道的音频数据的频域表示。在此示例中,频域表示是MDCT系数。
上混器225还接收用于每个通道和耦合通道频域范围的耦合坐标212。在此实现中,为耦合坐标212的形式的缩放信息已经在Dolby Digital或Dolby Digital Plus编码器中以指数尾数形式被计算。对于每一输出通道,上混器225可通过将耦合通道频率坐标乘以用于该通道的耦合坐标来计算用于该输出通道的频率系数。
在此实现中,上混器225将耦合通道频域范围中的单独通道的去耦合MDCT系数输出到去相关器205。因此,在此示例中,作为去相关器205的输出的音频数据220包括MDCT系数。
在图2D中所示的示例中,去相关器250输出的去相关音频数据230包括去相关器MDCT系数。在此示例中,不是音频处理系统200所接收的所有音频数据都也被去相关器205去相关。例如,针对低于耦合通道频率范围的频率的音频数据245a的频域表示、以及针对高于耦合通道频率范围的频率的音频数据245b的频域表示没有被去相关器205去相关。这些数据连同从去相关器205输出的去相关MDCT系数230一起被输入逆MDCT处理255。在此示例中,音频数据245b包括由E-AC-3编解码器的音频带宽扩展工具、谱扩展工具确定的MDCT系数。
在此示例中,去相关信息240被去相关器205接收。所接收的去相关信息240的类型可根据实现而改变。在一些实现中,去相关信息240可包括显式、去相关器特定控制信息和/或可形成这样的控制信息的基础的显式信息。去相关信息240可例如包括空间参数,诸如单独离散通道与耦合通道之间的相关系数和/或单独离散通道之间的相关系数。这样的显式去相关信息240还可包括显式音调信息和/或瞬态信息。此信息可被用于至少部分地确定去相关器205的去相关滤波器参数。
但是,在作为替代的实现中,去相关器205没有接收这样的显式去相关信息240。根据一些这样的实现,去相关信息240可包括来自传统音频编解码器的位流的信息。例如,去相关信息240可包括在根据AC-3音频编解码器或E-AC-3音频编解码器编码的位流中可获得的时间段信息。去相关信息240可包括通道使用信息、块切换信息、指数信息、指数策略信息等。这样的信息可已由音频处理系统在位流中随同音频数据210一起被接收。
在一些实现中,去相关器205(或者音频处理系统200的其它元件)可基于音频数据的一个或多个属性确定空间参数、音调信息和/或瞬态信息。例如,音频处理系统200可基于耦合通道频率范围之外的音频数据245a或245b确定针对耦合通道频率范围中的频率的空间参数。作为替代或附加地,音频处理系统200可基于来自传统音频编解码器的位流的信息确定音调信息。下文将描述一些这样的实现。
图2E是示出作为替代的音频处理系统的元件的框图。在这样的实现中,音频处理系统200包括N到M上混器/下混器262和M到K上混器/下混器264。这里,包括用于N个音频通道的变换系数的音频数据元素220a到220n被N到M上混器/下混器262和去相关器205接收。
在此示例中,N到M上混器/下混器262可被配置为根据混合信息266将N个通道的音频数据上混或下混为M个通道的音频数据。但是,在一些实现中,N到M上混器/下混器262可以是直通(pass-through)元件。在这样的实现中,N=M。混合信息266可包括N到M混合方程(mixing equation)。混合信息266可例如被音频处理系统200在位流中随同去相关信息240、对应于耦合通道的频域表示等一起被接收。在此示例中,去相关器205接收的去相关信息240指示去相关器205应将去相关音频数据230的M个通道输出到开关203。
开关203可根据选择信息207确定来自N到M上混器/下混器262的直接音频数据或者去相关音频数据230将被转发至M到K上混器/下混器264。M到K上混器/下混器264可被配置为根据混合信息268将M个通道的音频数据上混或下混为K个通道的音频数据。在这样的实现中,混合信息268可包括M到K混合方程。对于其中N=M的实现,M到K上混器/下混器264可根据混合信息268将N个通道的音频数据上混或下混为K个通道的音频数据。在这样的实现中,混合信息268可包括N到K混合方程。混合信息268可例如被音频处理系统200在位流中随同去相关信息240和其它数据一起被接收。
N到M、M到K或N到K混合方程可以是上混或下混方程。N到M、M到K或N到K混合方程可以是将输入音频信号映射到输出音频信号的一组线性组合系数。根据一些这样的实现,M到K混合方程可以是立体声下混方程。例如,M到K上混器/下混器264可以被配置为根据混合信息268中的M到K混合方程将4、5、6或更多个通道的音频数据下混到2个通道的音频数据。在一些这样的实现中,左通道(“L”)、中央通道(“C”)和左环绕通道(“Ls”)的音频数据可根据M到K混合方程被组合成左立体声输出通道Lo。右通道(“R”)、中央通道(“C”)和右环绕通道(“Rs”)的音频数据可根据M到K混合方程被组合成右立体声输出通道Ro。例如,M到K混合方程可以如下:
Lo=L+0.707C+0.707Ls
Ro=R+0.707C+0.707Rs
作为替代,M到K混合方程可以如下:
Lo=L+-3dB*C+att*Ls
Ro=R+-3dB*C+att*Rs,
其中,att可例如表示诸如-3dB、-6dB、-9dB或者0的值。对于其中N=M的实现,前述方程可被认为是N到K混合方程。
在此示例中,去相关器205接收的去相关信息240指示M个通道的音频数据将随后被上混或下混到K个通道。去相关器205可被配置为根据M个通道的数据随后将被上混还是下混到K个通道的音频数据而使用不同的去相关处理。因此,去相关器205可被配置为至少部分地基于M到K混合方程确定去相关滤波处理。例如,如果M个通道将随后被下混到K个通道,不同的去相关滤波器可被用于在随后的下混中将被组合的通道。根据一个这样的示例,如果去相关信息240指示L、R、Ls和Rs通道的音频数据将被下混到2个通道,一个去相关滤波器可被用于L和R通道两者,另一去相关滤波器可被用于Ls和Rs通道两者。
在一些实现中,M=K。在这样的实现中,M到K上混器/下混器264可以是直通元件。
但是,在其他实现中,M>K。在这样的实现中,M到K上混器/下混器264可用作下混器。根据一些这样的实现,可使用生成去相关下混的计算较不密集的方法。例如,去相关器205可被配置为仅对于开关203将发送至逆变换模块255的通道生成去相关音频信号230。例如,如果N=6,M=2,则去相关器205可被配置为仅对于两个下混通道生成去相关音频数据230。在此实现中,去相关器205可仅对于2个通道使用去相关滤波器,而不是6个通道,降低了复杂度。对应的混合信息可被包含在去相关信息240、混合信息266和混合信息268中。因此,去相关器205可被配置为至少部分地基于N到M、M到K或N到K混合方程来确定去相关滤波处理。
图2F是示出去相关器元件的示例的框图。图2F中所示的元件例如可在解码装置(例如,下文参照图12描述的装置)的逻辑系统中被实现。图2F示出去相关器205,其包括去相关信号生成器218和混合器215。在一些实施例中,去相关器205可包括其它元件。去相关器205的其它元件以及它们可如何起作用的示例在文中其它地方被阐述。
在此示例中,音频数据220被输入去相关信号生成器218和混合器215。音频数据220可对应于多个音频通道。例如,音频数据220可包括在被去相关器205接收之前已经被上混的音频编码处理期间的通道耦合所得到的数据。在一些实施例中,音频数据220可在时域中,而在其它实施例中,音频数据220可包括变换系数的时间序列。
去相关信号生成器218可形成一个或多个去相关滤波器,将去相关滤波器应用于音频数据220,并且提供得到的去相关信号227至混合器215。在此示例中,混合器将音频数据220与去相关信号227相组合以产生去相关音频数据230。
在一些实施例中,去相关信号生成器218可确定用于去相关滤波器的去相关滤波器控制信息。根据一些这样的实施例,去相关滤波器控制器信息可对应于去相关滤波器的最大极点位移。去相关信号生成器218可至少部分地基于去相关滤波器控制信息确定用于音频数据220的去相关滤波器参数。
在一些实施例中,确定去相关滤波器控制信息可包含接收伴随音频数据220的去相关滤波器控制信息的明示指示(最大极点位移的明示指示)。在作为替代的实现中,确定去相关滤波器控制信息可包含确定音频特性信息,并且至少部分地基于音频特性信息来确定去相关滤波器参数(诸如,最大极点位移)。在一些实现中,音频特性信息可包括空间信息、音调信息和/或瞬态信息。
现在将参照图3到5E更详细地描述去相关器205的一些实现。图3是示出去相关处理的示例的流程图。图4是示出可被配置为执行图3的去相关处理的去相关器组件的示例的框图。图3的去相关处理300可至少部分地在解码装置(诸如下文参照图12所描述的)中执行。
在此示例中,处理300在去相关器接收音频数据时开始(块305).如上文参照图2F描述的,音频数据可由去相关器205的去相关信号生成器218和混合器215接收。这里,音频数据中的至少一些被从上混器(诸如,图2D的上混器225)接收。因而,音频数据对应于许多音频通道。在一些实现中,去相关器接收的音频数据可包括每个通道的耦合通道频率范围中的音频数据的频域表示(诸如,MDCT系数)的时间序列。在作为替代的实现中,音频数据可在时域中。
在块310中,确定去相关滤波器控制信息。去相关滤波器控制信息可例如根据音频数据的音频特性被确定。在一些实现中,诸如图4中所示的示例,这样的音频特性可包括随音频数据被编码的空间信息、音调信息和/或瞬态信息。
在图4中所示的实施例中,去相关滤波器410包括固定延迟415和时间变化部分420。在此示例中,去相关信号生成器218包括用于控制的去相关滤波器410的时间变化部分420的去相关滤波器控制模块405。在此示例中,去相关滤波器控制模块405接收为音调标记的形式的显式音调信息425。在此实现中,去相关滤波器控制模块405还接收显式瞬态信息430。在一些实现中,显式音调信息425和/或显式瞬态信息430可随着音频数据(例如,作为去相关信息240的一部分)被接收。在一些实现中,显式音调信息425和/或显式瞬态信息430可在本地生成。
在一些实现中,去相关器205没有接收显式空间信息、音调信息和/或瞬态信息。在一些这样的实现中,去相关器205的瞬态控制模块(或者音频处理系统的其它元件)可被配置为基于音频数据的一个或多个属性确定瞬态信息。去相关器205的空间参数模块可被配置为基于音频数据的一个或多个属性确定空间参数。文中别处描述了一些示例。
在图3的块315中,至少部分地基于块310中所确定的去相关滤波器控制信息来确定用于音频数据的去相关滤波器参数。如块320中所示,去相关滤波器然后可根据去相关滤波器参数而形成。滤波器可例如是具有至少一个延迟元件的线性滤波器。在一些实现中,滤波器可至少部分地基于亚纯函数。例如,滤波器可包括全通滤波器。
在图4所示的实现中,去相关滤波器控制模块405可至少部分地基于在位流中由去相关器205接收的音调标记425和/或显式瞬态信息430控制去相关滤波器410的时间变化部分420。下文描述了一些示例。在此示例中,去相关滤波器410仅被应用于耦合通道频率范围中的音频数据。
在此实施例中,去相关滤波器410包括固定延迟415,其后是时间变化部分420,其在此示例中是全通滤波器。在一些实施例中,去相关信号生成器218可包括全通滤波器组。例如,在音频数据220在频域中的一些实施例中,去相关信号生成器218可包括用于多个频段中的每一个的全通滤波器。但是,在作为替代的实现中,相同滤波器可被应用于每个频段。作为替代,频段可被分组并且相同滤波器可被应用于每一组。例如,频段可被分组为频带,可按通道分组和/或可按频带和通道分组。
固定延迟的量可例如由逻辑设备和/或根据用户输入被选择。为了在去相关信号227中引入受控的混乱(chaos),去相关滤波器控制405可应用去相关滤波器参数以控制全通滤波器的极点,从而极点中的一个或多个极点在受约束的区域中随机或伪随机地移动。
因此,去相关滤波器参数可包括用于移动全通滤波器的至少一个极点的参数。这样的参数可包括用于抖动全通滤波器的一个或多个极点的参数。作为替代,去相关滤波器参数可包括用于对于全通滤波器的每个极点从多个预定极点位置选择极点位置的参数。每隔预定的时间间隔(例如,每个Dolby Digital Plus块一次),全通滤波器的每个极点的新位置可被随机或伪随机地选择。
现在将参照图5A到5E描述一些这样的实现。图5A示出移动全通滤波器的极点的示例的图。曲线图500是3阶全通滤波器的极点图。在此示例中,滤波器具有两个复极点(极点505a和505c)以及一个实极点(极点505b)。大的圆圈是单位圆圈515。随着时间,极点位置可被抖动(或者以其它方式改变),从而它们在约束区域510a、510b和510c中移动,该约束区域分别约束了极点505a、505b和505c的可能的路径。
在此示例中,约束区域510a、510b和510c是圆形的。极点505a、505b和505c的初始(“种子(seed)”)位置由约束区域510a、510b和510c的中心的圆圈指示。在图5A的示例中,约束区域510a、510b和510c是以初始极点位置为圆心的半径为0.2的圆。极点505a和505c对应于复共轭对,而极点505b是实极点。
但是,其它实现可包括更多或更少的极点。作为替代的实现还可包括不同大小或形状的约束区域。一些示例在图5D和5E中被示出,并且在下文被描述。
在一些实现中,音频数据的不同通道共享相同的约束区域。但是,在作为替代的实现中,音频数据的通道不共享相同的约束区域。不管音频数据的通道是否共享相同的约束区域,极点可对于每一音频通道独立地被抖动(或者以其它方式移动)。
极点505a的样本轨迹由约束区域510a内的箭头指示。每个箭头代表极点505a的移动或“步幅”520。尽管在图5A中未示出,复共轭对的两个极点,极点505a和505c,连接在一起地移动,从而极点保持它们的共轭关系。
在一些实现中,极点的移动可通过改变最大步幅值而被控制。最大步幅值可对应于自最近极点位置起的最大极点位移。最大步幅值可定义其半径等于最大步幅值的圆圈。
图5A中示出了一个这样的示例。极点505a从其初始位置以步幅520a位移至位置505a’。步幅520a可根据先前的最大步幅值(例如,初始最大步幅值)被约束。在极点505a从其初始位置移动到位置505a’之后,确定新的最大步幅值。最大步幅值定义了其半径等于最大步幅值的最大步幅圆圈525。在图5A中所示的示例中,下一步幅(步幅520b)正好等于最大步幅值。因此,步幅520b使极点在最大步幅圆圈525的圆周上移动到位置505a”。但是,步幅520可通常小于最大步幅值。
在一些实现中,最大步幅值可在每一步之后被重置。在其它实现中,最大步幅值可在多个步之后和/或根据音频数据中的改变而被重置。
最大步幅值可被以多种方式确定和/或控制。在一些实现中,最大步幅值可至少部分地基于将被应用去相关滤波器的音频数据的一个或多个属性。
例如,最大步幅值可至少部分地基于音调信息和/或瞬态信息。根据一些这样的实现,对于音频数据的高音调信号(例如,风琴管、大键琴等的音频数据),最大步幅值可为0或者接近0,这导致极点发生很少变化或者不发生变化。在一些实现中,在瞬态信号(诸如,爆炸、摔门等的音频数据)中的启动时刻,最大步幅值可为0或者接近0。随后(例如,经过数个块的时间段),最大步幅值可斜上升至较大值。
在一些实现中,音调和/或瞬态信息可基于音频数据的一个或多个属性在解码器处被检测。例如,音调和/或瞬态信息可根据音频数据的一个或多个属性由诸如控制信息接收器/生成器640(以下参照图6B和6C来描述)的模块被确定。作为替代,显式音调和/或瞬态信息可被从编码器传送,并且例如经由音调和/或瞬态标记在被解码器接收的位流中接收。
在此实现中,极点的移动可根据抖动参数被控制。因此,尽管移动的移动可根据最大步幅值被约束,但是极点移动的方向和/或程度可包括随机或拟随机分量。例如,极点的移动可至少部分地基于随机数生成器或以软件实现的伪随机数生成算法的输出。这样的软件可被存储在非暂态介质上并且由逻辑系统执行。
但是,在作为替代的实现中,去相关滤波器参数可能不包含抖动参数。相反,极点移动可被限制于预定极点位置。例如,数个预定极点位置可位于最大步幅值所限定的半径中。逻辑系统可随机或伪随机地选择这些预定极点位置之一作为下一极点位置。
各种其它的方法可被采用以控制极点移动。在一些实现中,如果极点正接近约束区域的边界,极点移动的选择可被偏向于更接近约束区域的中心的新极点位置。例如,如果极点505a朝约束区域510a的边界移动,则最大步幅圆圈525的中心可朝约束区域510a的中心向内偏移,从而最大步幅圆圈525总是位于约束区域510a的边界内。
在一些这样的实现中,加权函数可被应用以便创建趋向于移动极点位置远离约束区域边界的偏向。例如,最大步幅圆圈525内的预定极点位置可能不被分配相等的被选择作为下一极点位置的概率。相反,与距离约束区域的中心相对较远的预定极点位置相比,更接近约束区域的中心的预定极点位置可被分配更高概率。根据一些这样的实现,当极点505a接近约束区域510a的边界时,下一极点移动更可能朝向约束区域510a的中心。
在此示例中,极点505b的位置也改变,但是被控制为使得极点505b继续保持实值。因此,极点505b的位置被约束为沿约束区域510b的直径530。但是,在作为替代的实现中,极点505b可被移动至具有虚数分量的位置。
在还另外的实现中,所有极点的位置可被约束为仅沿半径移动。在一些这样的实现中,极点位置的改变仅增大或者减小极点(在幅值方面),而不影响它们的相位。这样的实现例如对于给予所选择的混响时间常数可能是有用的。
与对应于较低频率的频率系数的极点相比,对应于较高频率的频率系数的极点可更接近单位圆515的中心。将使用图5B(图5A的变型)来说明示例性实现。这里,在给定的时刻,三角形505a”、505b”和505c”指示在抖动或一些其它处理之后获得的频率f0处的极点位置,描述它们的时间变化。设505a”处的极点由z1指示,505b”处的极点由z2指示。505c”处的极点是505a”处的极点的复共轭,因此可被由z1 *指示,这里,*指示复共轭。
在任何其它频率f处使用的滤波器的极点在此示例中通过以因子a(f)/a(f0)缩放极点z1,z2和z1 *来获得,这里a(f)是随着音频数据频率f而减小的函数。当f=f0时,缩放因子等于1,并且极点在所希望的位置处。根据一些这样的实现,与对应于较低频率的频率系数相比,对于对应于较高频率的频率系数可应用较小的组延迟。在这里描述的实施例中,极点在一个频率被抖动,并且被缩放以获得用于其它频率的极点位置。频率f0可例如为耦合开始频率。在作为替代的实现中,极点可在每个频率处被单独地抖动,并且约束区域(510a、510b和510c)可基本上在较高频率处比较低频率处更接近原点。
根据文中描述的各种实现,极点505可移动,但是可相对于彼此保持基本一致的空间或角关系。在一些这样的实现中,极点505的移动可能不根据约束区域被限制。
图5c示出了一个这样的示例。在此示例中,复共轭极点505a和505c可在单位圆515内沿顺时针或逆时针方向移动。当极点505a和505c被移动(例如,以预定的时间间隔)时,这两个极点可选择角度θ,该角度θ可被随机或拟随机地选择。在一些实现中,此角运动可根据最大角步幅值被约束。在图5C所示的示例中,极点505a已经沿顺时针方向移动角度θ。因此,极点505c已经沿逆时针方向移动角度θ,以便在极点505a和极点505c之间保持复共轭关系。
在此示例中,极点505b被约束为沿实数轴移动。在一些这样的实现中,极点505a和505c也可朝向或者远离单位圆515的中心移动,例如如上文参照图5B描述的。在作为替代的实现中,极点505b可能不移动。在还另外的实现中,极点505b可从实数轴移动。
在图5A和5B所示的示例中,约束区域510a、510b和510c是圆形。但是,发明人预想到了各种其它的约束区域形状。例如,图5D的约束区域510d的形状基本为椭圆形。极点505d可以位于椭圆形约束区域510d内的各个位置。在图5E的示例中,约束区域510e是环形。极点505e可位于约束区域510d的环形内的各个位置。
现在返回图3,在块325中,将去相关滤波器应用于音频数据中的至少一些。例如,图4的去相关信号生成器218可将去相关滤波器应用于输入的音频数据220中的至少一些。去相关滤波器227的输出可与输入的音频数据220不相关。此外,去相关滤波器的输出可与输入信号具有基本相同的功率谱密度。因此,去相关滤波器227的输出可听起来自然。在块330中,去相关滤波器的输出与输入的音频数据进行混合。在块335中,去相关音频数据被输出。在图4的示例中,在块330中,混合215将去相关滤波器227的输出(可被称为“经滤波的音频数据”)与输入的音频数据220(可被称为“直接音频数据”)进行混合。在块335中,混合器215输出去相关音频数据230。如果在块340中确定将处理更多的音频数据,去相关处理300返回到块305。否则,去相关处理300结束(块345)。
图6A是示出去相关器的可替代实现的框图。在此示例中,混合器215和去相关信号生成器218接收对应于多个通道的音频数据元素220。音频数据元素220中的至少一些可例如被从上混器(诸如图2D的上混器225)输出。
这里,混合器215和去相关信号生成器218还接收各种类型的去相关信息。在一些实现中,去相关信息中的至少一些可连同音频数据元素220一起在位流中被接收。作为替代或附加地,去相关信息中的至少一些可例如通过去相关器205的其它组件或者音频处理系统200的一个或多个其它组件被本地确定。
在此示例中,所接收的去相关信息包括去相关信号生成器控制信息625。去相关信号生成器控制信息625可包括去相关滤波信息、增益信息、输入控制信息等。去相关信号生成器至少部分地基于去相关信号生成器控制信息625产生去相关信号227。
这里,所接收的去相关信息还包括瞬态控制信息430。在本公开中其它地方提供了去相关器205可如何使用和/或生成瞬态控制信息430的各种示例。
在此实现中,混合器215包括合成器605以及直接信号和去相关信号混合器610。在此示例中,合成器605是去相关或混响信号(诸如从去相关信号生成器218接收的去相关信号227)的输出通道特定组合器。根据一些这样的实现,合成器605可以是去相关或混响信号的线性组合器。在此示例中,去相关信号227对应于已经由去相关信号生成器应用了一个或多个去相关滤波器的多个通道的音频数据元素220。因此,去相关信号227在文中也可被称为“经滤波的音频数据”或者“经滤波的音频数据元素”。
这里,直接信号和去相关信号混合器610是经滤波的音频数据元素与对应于多个通道的“直接”音频数据元素220的输出通道特定组合器,以产生去相关音频数据230。因此,去相关器205可提供音频数据的通道特定和非分层去相关。
在此示例中,合成器605根据去相关信号合成参数615组合去相关信号227,其也可在文中被称为“去相关信号合成系数”。类似地,直接信号和去相关信号混合器610根据混合系数620组合直接和经过滤的音频数据元素。去相关信号合成参数615和混合系数620可至少部分地基于所接收的去相关信息。
这里,所接收的去相关信息包括空间参数信息630,其在此示例中是通道特定的。在一些实现中,混合器215可被配置为至少部分地基于空间参数信息630来确定去相关信号合成参数615和/或混合系数620。在此示例中,所接收的去相关信息还包括下混/上混信息635。例如,下混/上混信息635可指示音频数据的多少通道被组合以产生下混音频数据,该下混音频数据可对应于耦合通道频率范围中的一个或多个耦合通道。下混/上混信息635也可指示所希望的输出通道的数量和/或输出通道的特性。如上文参照图2E描述的,在一些实现中,下混/上混信息635可包括对应于由N到M上混器/下混器262接收的混合信息266和/或由M到K上混器/下混器264接收的混合信息268的信息。
图6B是示出去相关器的另一实现的框图。在此示例中,去相关器205包括控制信息接收器/生成器640。这里,控制信息接收器/生成器640接收音频数据元素220和245。在此示例中,对应的音频数据元素220也可由混合器215和去相关信号生成器218接收。在一些实现中,音频数据元素220可对应于耦合通道频率范围中的音频数据,而音频数据元素245可对应于耦合通道频率范围之外的一个或多个频率范围中的音频数据。
在此实现中,控制信息接收器/生成器640根据去相关信息240和/或音频数据元素220和/或245确定去相关信号生成器控制信息625和混合器控制信号645。控制信息接收器/生成器640的一些示例以及它们的功能在下文被描述。
图6C示出了音频处理系统的作为替代的实现。在此示例中,音频处理系统200包括去相关器205、开关203和逆变换模块255。在一些实现中,开关203和逆变换器255可基本如上文参照图2A所述的那样。类似的,混合器215和去相关信号生成器可基本如文中别处所描述的那样。
控制信息接收器/生成器640可根据特定实现具有不同的功能。在此实现中,控制信息接收器/生成器640包括滤波器控制模块650、瞬态控制模块655、混合器控制模块660和空间参数模块665。与音频处理系统200的其它组件一样,控制信息接收器/生成器640的元件可经由硬件、固件、非暂态介质上存储的软件和/或它们的组合实现。在一些实现中,这些组件可通过诸如本公开中别处描述的逻辑系统实现。
滤波器控制模块650可例如被配置为控制上文参照图2E到5E描述的和/或下文参照图11B描述的去相关信号生成器。瞬态控制模块655和混合器控制模块660的功能的各种示例在下文被提供。
在此示例中,控制信息接收器/生成器640接收音频数据元素220和245,该音频数据元素220和245可至少包括通过开关203和/或去相关器205接收的音频数据的一部分。音频数据元素220由混合器215和去相关信号生成器218接收。在一些实现中,音频数据元素220可对应于耦合通道频率范围中的音频数据。而音频数据元素245可对应于耦合通道频率范围之上和/或之下的频率范围中的音频数据。
在此实现中,控制信息接收器/生成器640根据去相关信息240、音频数据元素220和/或245确定去相关信号生成器控制信息625和混合器控制信号645。控制信息接收器/生成器640分别将去相关信号生成器控制信息625和混合器控制信号645提供给去相关信号生成器218和混合器215。
在一些实现中,控制信息接收器/生成器640可被配置为确定音调信息,并且至少部分地基于该音调信息确定去相关信号生成器控制信息625和混合器控制信号645。例如,控制信息接收器/生成器640可被配置为经由作为去相关信息240的一部分的显式音调信息(诸如音调标记)接收显式音调信息。控制信息接收器/生成器640可被配置为处理所接收的显式音调信息并且确定音调控制信息。
例如,如果控制信息接收器/生成器640确定耦合通道频率范围中的音频数据为高音调,控制信息接收器/生成器640可被配置为提供去相关信号生成器控制信息625,该去相关信号生成器控制信息625指示最大步幅值可被设定为0或接近0,这导致极点发生很少变化或者不发生变化。随后(例如,经过数个块的时间段),最大步幅值可斜上升至较大值。在一些实现中,如果控制信息接收器/生成器640确定耦合通道频率范围中的音频数据为高音调,控制信息接收器/生成器640可被配置为向空间参数模块665指示相对较高程度的平滑可被用于计算各种量,诸如空间参数估计中所使用的能量。文中别处提供了对于确定了高音调音频数据的响应的其它示例。
在一些实现中,控制信息接收器/生成器640可被配置为根据音频数据220的一个或多个属性和/或根据经由诸如指数信息和/或指数策略信息的去相关信息240接收的来自传统音频代码的位流的信息,确定音调信息。
例如,在根据E-AC-3音频编解码器编码的音频数据的位流中,用于变换系数的指数被差分编码。频率范围中的绝对指数差的总和是沿在对数幅度域中信号的谱包络行进的距离的度量。诸如风琴管和大键琴的信号具有栅栏谱,因此沿其测量此距离的路径的特征在于许多峰和谷。因而,对于这样的信号,沿同一频率范围中的谱包络行进的距离大于对应于例如掌声或雨声的音频数据的信号(其具有相对平坦的谱)。
因此,在一些实现中,控制信息接收器/生成器640可被配置为至少部分地根据耦合通道频率范围中的指数差来确定音调度量。例如,控制信息接收器/生成器640可被配置为基于耦合通道频率范围中的平均绝对指数差来确定音调度量。根据一些这样的实现,音调度量仅在耦合指数策略被所有块共享时才被计算,而不指示指数频率共享,在此情况中定义一个频段与下一频段的指数差是有意义的。根据一些实现,音调度量仅在E-AC-3自适应混合变换(“AHT”)标记对于耦合通道被设定时才被计算。
如果音调度量被确定为E-AC-3音频数据的绝对指数差,在一些实施例中,音调度量可取得0和2之间的值,因为-2、-1、0、1和2仅是根据E-AC-3被允许的指数差。一个或多个音调阈值可被设置以便将音调信号和非音调信号区分开。例如,一些实现包含设置用于进入音调状态的一个阈值和用于离开音调状态的另一阈值。用于离开音调状态的阈值可低于用于进入音调状态的阈值。这样的实现提供了一定程度的滞后,从而稍微低于上阈值的音调值将不会无意地导致音调状态改变。在一个示例中,用于离开音调状态的阈值是0.40,而用于进入音调状态的阈值是0.45。但是,其它实现可包括更多或更少阈值,并且阈值可具有不同的值。
在一些实现中,音调度量计算可根据信号中存在的能量被加权。此能量可直接从指数导出。对数能量度量可与指数成反比,因为在E-AC-3中指数被表达为2的负幂。根据这样的实现,与谱的能量高的那些部分相比,谱的能量低的那些部分对于总音调度量的贡献较小。在一些实现中,音调度量计算可仅对于帧的块0计算。
在图6C所示的示例中,来自混合器215的去相关音频数据230被提供给开关203。在一些实现中,开关203可确定直接音频数据220和去相关音频数据230的哪些分量将被发送给逆变换模块255。因此,在一些实现中,音频处理系统200可提供音频数据分量的选择性或信号自适应去相关。例如,在一些实现中,音频处理系统200可提供音频数据的特定通道的选择性或信号自适应去相关。作为替代或附加地,在一些实现中,音频处理系统200可提供音频数据的特定频带的选择性或信号自适应去相关。
在音频处理系统200的各种实现中,控制信息接收器/生成器640可被配置为确定音频数据220的一种或多种空间参数。在一些实现中,至少一些这样的功能可由图6C中所示的空间参数模块665提供。一些这样的空间参数可以是单独离散通道与耦合通道之间的相关系数,其在文中也被称为“α”。例如,如果耦合通道包括四个通道的音频数据,则可存在四个α,每个通道各1个α。在一些这样的实现中,四个通道可以是左通道(“L”)、右通道(“R”)、左环绕通道(“Ls”)和右环绕通道(“Rs”)。在一些实现中,耦合通道可包括上述通道和中央通道的音频数据。根据中央通道是否将被去相关,对于中央通道可以计算α或者不计算α。其它实现可包含更大数量或更小数量的通道。
其它空间参数可能是通道间相关系数,其指示成对的单独离散通道之间的相关性。这样的参数有时在文中被称为反映“通道间相关性”或“ICC”。在上文提及的四通道示例中,可包含有6个ICC,分别针对L-R对、L-Ls对、L-Rs对、R-Ls对、R-Rs对和Ls-Rs对。
在一些实现中,控制信息接收器/生成器640对空间参数的确定可包含例如经由去相关信息240接收位流中的显式空间参数。作为替代或附加地,控制信息接收器/生成器640可被配置为估计至少一些空间参数。控制信息接收器/生成器640可被配置为至少部分地基于空间参数来确定混合参数。因此,在一些实现中,与空间参数的确定和处理有关的功能可至少部分地由混合器控制模块600执行。
图7A和7B是提供空间参数的简化图示的矢量图。图7A和7B可以被认为是N维矢量空间中的信号的3-D概念表示。每个N维矢量可表示实数值或虚数值随机变量,其的N个坐标对应于任何N个独立试验。例如,N个坐标可对应于频率范围中和/或时间间隔(例如,在若干音频块期间)中的信号的N个频域系数的集合。
首先参照图7A的左侧图,此矢量图代表左输入通道lin、右输入通道rin和耦合通道xmono(通过对lin和rin求和而形成的单声道下混)之间的空间关系。图7A是形成耦合通道的简化示例,这可由编码装置执行。左输入通道lin和耦合通道xmono之间的相关系数是αL,右输入通道rin和耦合通道之间的相关系数是αR。因此,代表左输入通道lin和耦合通道xmono的矢量之间的角度θL等于across(αL),并且代表右输入通道rin和耦合通道xmono的矢量之间的角度θR等于across(αR)。
图7A的右侧图示出将单独输出通道与耦合通道去相关的简化示例。此类型的去相 关处理可例如由解码装置执行。通过生成与耦合通道xmono不相关(与其正交)的去相关信号 yL并且使用合适的权重将该去相关信号与耦合通道xmono混合,单独输出通道的振幅(在此示 例中,lout)以及其与耦合通道xmono的角距可准确反映单独输出通道的振幅以及其与耦合通 道的空间关系。去相关信号yL的功率分布(由矢量长度表示)应与耦合通道xmono的相同。在此 示例中,通过指示
但是,复原单独离散通道与耦合通道的空间关系不能保证复原了离散通道之间的空间关系(由ICC表示)。图7B中示出此事实。图7B的两个图示出了两种极端情况。如图7B中的左侧图所示,在去相关信号yL和yR分开180°时,lout和rout之间的间隔最大。在此情况中,左通道和右通道之间的ICC最小,并且lout和rout之间的相位差异最大。相反,如图7B中的右侧图所示,在去相关信号yL和yR分开0°时,lout和rout之间的间隔最小。在此情况中,左通道和右通道之间的ICC最大,并且lout和rout之间的相位差异最小。
在图7B所示的示例中,所有示出的矢量在同一平面中。在其它示例中,yL和yR可相对于彼此以其它角度被定位。但是,优选地,yL和yR与耦合通道xmono垂直或者至少基本垂直。在一些示例中,yL或yR可至少部分地延伸到与图7B的平面正交的平面中。
由于离散通道最终被再现和呈现给听众,离散通道之间的空间关系(ICC)的正确复原可显著改进音频数据的空间特性的复原。如图7B的示例可见,ICC的准确复原依赖于创建彼此具有正确空间关系的去相关信号(这里,yL和yR)。去相关信号之间的此关系在文中可被称为去相关信号间相干性或者“IDC”。
在图7B的左侧图中,yL和yR之间的IDC是-1。如上文指出的,此IDC对应于左通道和右通道之间的最小ICC。通过比较图7B的左侧图与图7A的左侧图,可观察到,在具有两个耦合通道的此示例中,lout和rout之间的空间关系准确反映了lin和rin之间的空间关系。在图7B的右侧图中,yL和yR之间的IDC是1。通过比较图7B的右侧图与图7A的左侧图,可观察到,在此示例中,lout和rout之间的空间关系没有准确反映lin和rin之间的空间关系。
因此,通过将空间相邻的单独通道之间的IDC设定为-1,当这些通道占主导时,这些通道之间的ICC可被最小化,并且通道之间的空间关系被接近地复原。这导致整体声像在感知上接近于原始音频信号的声像。这样的方法在文中可被称为“符号取反”方法。在这样的方法中,不需要知晓真实的ICC。
图8A是示出文中提供的一些去相关方法的块的流程图。如同文中所述的其它方法一样,方法800的块不一定按所示的顺序执行。此外,方法800和其它方法的一些实现可包括比所指示的或所描述的块更多或更少的块。方法800以块802开始,其中接收对应于多个音频通道的音频数据。音频数据可例如由音频解码系统的组件接收。在一些实现中,音频数据可由音频解码系统的去相关器(诸如文中所述的去相关器205的实现之一)接收。音频数据可包括通过上混对应于耦合通道的音频信号而产生的多个音频通道的音频数据元素。根据一些实现,音频数据可已经通过将通道特定、时间变化缩放因子应用于对应于耦合通道的音频数据而被上混。下文描述一些示例。
在此示例中,块804包含确定音频数据的音频特性。这里该音频特性包括空间参数数据。空间参数数据可包括α,单独音频通道和耦合通道之间的相关系数。块804可包含例如经由上文参照图2A描述的去相关信息240等等接收空间参数数据。作为替代或者附加地,块804可包含例如通过控制信息接收器/生成器640(见例如图6B或6C)在本地估计空间参数。在一些实现中,块804可包含确定其它音频特性,诸如瞬态特性或音调特性。
这里,块806包含至少部分地基于所述音频特性确定用于音频数据的至少两个去相关滤波处理。该去相关滤波处理可以是通道特定去相关滤波处理。根据一些实现,在块806中确定的去相关滤波处理中的每一个包括与去相关有关的操作的序列。
应用在块806中确定的至少两个去相关滤波处理可产生通道特定去相关信号。例如,应用在块806中确定的去相关滤波处理可在至少一对通道的通道特定去相关信号之间导致特定的去相关信号间相干性(“IDC”)。一些这样的去相关滤波处理可包括将至少一个去相关滤波器应用于音频数据的至少一部分(例如,如下文参照图8B或8E的块820所描述的)以产生经滤波的音频数据,在文中也被称为去相关信号。可对经滤波的音频数据执行另外的操作以产生通道特定去相关信号。一些这样的去相关滤波处理可包含横向符号取反处理,诸如下文参照图8B到8D所描述的横向符号取反处理之一。
在一些实现中,在块806中可确定,相同去相关滤波器将被用于产生对应于所有将被去相关的通道的经滤波的音频数据,而在其它实现中,在块806中可确定,对于至少一些将被去相关的通道将使用不同的去相关滤波器以产生经滤波的音频数据。在一些实现中,在块806中可确定,对应于中央通道的音频数据将不被去相关,而在其它实现中,块806可包含对于中央通道的音频数据确定不同的去相关滤波器。此外,尽管在一些实现中,块806中确定的去相关滤波处理中的每一个包括与去相关有关的操作的序列,但是在作为替代的实现中,块806中确定的去相关滤波处理中的每一个可对应于整体去相关处理的特定阶段。例如,在作为替代的实现中,块806中确定的去相关滤波处理中的每一个可对应于与生成用于至少两个通道的去相关信号有关的操作序列中的特定操作(或者一组关联操作)。
在块808中,在块806中确定的去相关滤波处理将被实现。例如,块808可包含将一个或多个去相关滤波器应用于所接收的音频数据的至少一部分以产生经滤波的音频数据。该经滤波的音频数据可例如对应于通过去相关信号生成器218产生的去相关信号227(如上文参照图2F、4和/或6A到6C描述的)。块808还可包含各种其它操作,下提供它们的示例。
这里,块810包含至少部分地基于音频特性确定混合参数。块810可至少部分地由控制信息接收器/生成器640的混合器控制模块660(见图6C)执行。在一些实现中,混合参数可以是输出通道特定混合参数。例如,块810可包含接收或估计用于将被去相关的音频通道中的每一个通道的α值,并且至少部分地基于α来确定混合参数。在一些实现中,α可根据瞬态控制信息被修正,该瞬态控制信息可由瞬态控制模块655(见图6C)确定。在812中,可根据混合参数将滤波的音频数据与音频数据的直接部分进行混合。
图8B是示出横向符号取反方法的块的流程图。在一些实现中,图8B中所示的块是图8A的“确定”块806和“应用”块808的示例。因此,这些块在图8B中被标记为“806a”和“808a”。在此示例中,块806a包含确定用于至少两个相邻通道的去相关信号的去相关滤波器和极性以在该对通道的去相关信号之间导致特定IDC。在此实现中,块820包含将块806a中确定的去相关滤波器中的一个或多个应用于所接收的音频数据的至少一部分以产生经滤波的音频数据。该经滤波的音频数据可例如对应于通过去相关信号生成器218产生的去相关信号227(如上文参照图2E和4描述的)。
在一些四通道示例中,块820可包含将第一去相关滤波器应用于第一通道和第二通道的音频数据以产生第一通道经滤波数据和第二通道经滤波数据,以及将第二去相关滤波器应用于第三通道和第四通道的音频数据以产生第三通道经滤波数据和第四通道经滤波数据。例如,第一通道可以是左通道,第二通道可以是右通道,第三通道可以是左环绕通道,而第四通道可以是右环绕通道。
根据特定实现,去相关滤波器可在音频信号被上混之前或之后被应用。在一些实现中,例如,去相关滤波器可被应用于音频数据的耦合通道。随后,适合于每个通道的缩放因子可被应用。下文参照图8C描述一些示例。
图8C和8D是示出可用于实现一些符号取反方法的组件的框图。首先参照图8B,在此实现中,在块820中,去相关滤波器可被应用于输入音频数据的耦合通道。在图8C所示的示例中,去相关信号生成器218接收去相关信号生成器控制信息625和音频数据210(其包括对应于耦合通道的频域表示)。在此示例中,去相关信号生成器218生成对于所有将被去相关的通道相同的去相关信号227。
图8B的处理808a可包含对经滤波的音频数据执行操作以产生去相关信号,该去相关信号具有用于至少一对通道的去相关信号之间的特定去相关信号间相干性IDC。在此实现中,块825包含向块820中所产生的经滤波的音频数据施加极性。在此实现中,块820中施加的极性在块806a中被确定。在一些实现中,块825包含在相邻通道的经过滤的音频数据之间反转极性。例如,块825可包含将对应于左侧通道或右侧通道的经过滤的音频数据乘以-1。块825可包含参照对应于左侧通道的经滤波的音频数据来反转对应于左环绕通道的经滤波的音频数据的极性。块825还可包含参照对应于右侧通道的经滤波的音频数据来反转对应于右环绕通道的经滤波的音频数据的极性。在上述四通道示例中,块825可包含相对于第二通道经滤波数据来反转第一通道经滤波数据的极性,并且相对于第四通道经滤波数据来反转第三通道经滤波数据的极性。
在图8C所示的示例中,还被指示为y的去相关信号227由极性反转模块840接收。极性反转模块840可被配置为反转相邻通道的去相关信号的极性。在此示例中,极性反转模块840被配置为反转右通道和左环绕通道的去相关信号的极性。但是,在其它实现中,极性反转模块840可被配置为反转其它通道的去相关信号的极性。例如,极性反转模块840可被配置为左通道和右环绕通道的去相关信号的极性。依赖于所涉及的通道的数量以及它们的空间关系,其它实现可包含反转其它通道的去相关信号的极性。
极性反转模块840将去相关信号227(包含符号取反的去相关信号227)提供给通道特定混合器215a到215d。通道特定混合器215a到215d还接收耦合通道的直接的、未滤波的音频数据210以及输出通道特定空间参数信息630a到630d。作为替代或附加地,在一些实现中,通道特定混合器215a到215d可接收下文参照图8F描述的修正的混合系数890。在此示例中,输出通道特定空间参数信息630a到630d已经根据瞬态数据(例如,根据来自如图6C中所示的瞬态控制模块的输入)被修正。下文提供根据瞬态数据修正空间参数的示例。
在此实现中,通道特定混合器215a到215d根据输出通道特定空间参数信息630a到630d将耦合通道的直接音频数据210与去相关信号227进行混合,并且将所得到的输出通道特定混合音频数据845a到845d输出到增益控制模块850a到850d。在此示例中,增益控制模块850a到850d被配置为将输出通道特定增益(文中还被称为缩放因子)应用于输出通道特定混合音频数据845a到845d。
现在将参照图8D描述作为替代的符号取反方法。在此示例中,至少部分地基于通道特定去相关控制信息847a到847d的通道特定去相关滤波器被去相关信号生成器218a到218d应用于音频数据210a到210d。在一些实现中,去相关信号生成器控制信息847a到847d可随音频数据一起在位流中被接收,而在其它实现中,去相关信号生成器控制信息847a到847d可例如由去相关滤波器控制模块405(至少部分地)在本地生成。这里,去相关信号生成器218a到218d还可根据从去相关滤波器控制模块405接收的去相关滤波器系数信息生成通道特定去相关滤波器。在一些实现中,单个滤波器描述可由所有通道共享的去相关滤波器控制模块405生成。
在此示例中,在音频数据210a到210d被去相关信号生成器218a到218d接收之前,通道特定增益/缩放因子已被应用于音频数据210a到210d。例如,如果音频数据已经根据AC-3和E-AC-3音频编解码器被编码,则缩放因子可能是通过音频处理系统(诸如解码设备)随音频数据的其余部分被编码并且在位流中被接收的耦合坐标或“cplcoords”。在一些实现中,cplcoords还可以是由增益控制模块850a到850d应用于输出通道特定混合音频数据845a到845d的输出通道特定缩放因子(见图8C)的基础。
因此,去相关信号生成器218a到218d输出所有将被去相关的通道的通道特定去相关信号227a到227d。去相关信号227a到227d在图8D中还被标示为yL、yR、yLS和yRS
去相关信号227a到227d由极性反转模块840接收。极性反转模块840被配置为使相邻通道的去相关信号的极性反转。在此示例中,极性反转模块840被配置为反转右通道和左环绕通道的去相关信号的极性。但是,在其它实现中,极性反转模块840可被配置为反转其它通道的去相关信号的极性。例如,极性反转模块840可被配置为左通道和右环绕通道的去相关信号的极性。依赖于所涉及的通道的数量以及它们的空间关系,其它实现可包含反转其它通道的去相关信号的极性。
极性反转模块840将去相关信号227a到227d(包含符号取反的去相关信号227b和227c)提供给通道特定混合器215a到215d。通道特定混合器215a到215d还接收直接音频数据210a到210d以及输出通道特定空间参数信息630a到630d。在此示例中,输出通道特定空间参数信息630a到630d已经根据瞬态数据被修正。
在此实现中,通道特定混合器215a到215d根据输出通道特定空间参数信息630a到630d将直接音频数据210a到210d与去相关信号227进行混合,并且将输出通道特定混合音频数据845a到845d输出。
文中提供了作为替代的用于复原离散输入通道之间的空间关系的方法。该方法可包含系统性地确定合成系数以确定去相关信号或混响信号将如何合成。根据一些这样的方法,从α和目标ICC确定最优IDC。这样的方法可包含根据被确定为最优的IDC系统性地合成一组通道特定去相关信号。
现在将参照图8E和8F描述一些这样的系统性方法的概述。稍后将描述包含一些示例的基础数学公式的另外的细节。
图8E是示出从空间参数数据确定合成系数和混合系数的方法的块的流程图。图8F是示出混合器组件的示例的框图。在此示例中,方法851在图8A的块802和804之后开始。因此,图8E中所示的块可被认为是图8A的“确定”块806和“应用”块808的另外的示例。因此,图8E中的块855到865被标记为“860b”,而块820和870被标记为“808b”。
但是,在此示例中,块806中确定的去相关处理可包含根据合成系数对经滤波的音频数据执行操作。以下提供一些示例。
可选块855可包含从空间参数的一种形式转换为等同的表示。参照图8F,例如,合成和混合系数生成模块880可接收空间参数信息630b,其包含描述N个输入通道之间的空间关系或者这些空间参数的子集的信息。模块880可被配置为将空间参数信息630b中的至少一些从空间参数的一种形式转换为等同表示。例如,α可被转换为ICC,反之亦然。
在作为替代的音频处理系统实现中,合成和混合系数生成模块880的功能中的至少一些可由除混合器215之外的元件执行。例如,在一些作为替代的实现中,合成和混合系数生成模块880的功能中的至少一些可由诸如图6C中所示的并且上文所描述的控制信息接收器/生成器640执行。
在此实现中,块860包含在空间参数表示方面确定输出通道之间的希望的空间关系。如图8F所示,在一些实现中,合成和混合系数生成模块880可接收下混/上混信息635,该下混/上混信息635可包括对应于图2E的通过N到M上混器/下混器262接收的混合信息266和/或通过M到K上混器/下混器264接收的混合信息268的信息。合成和混合系数生成模块880还可接收空间参数信息630a,该空间参数信息630a包括描述K个输出通道之间的空间关系或者这些空间参数的子集的信息。如上文参照图2E描述的,输入通道的数量可等于或者不同于输出通道的数量。模块880可被配置为计算K个输出通道中的至少一些对之间的希望的空间关系(例如,ICC)。
在此示例中,块865包含基于希望的空间关系确定合成系数。混合系数也可至少部分地基于希望的空间关系被确定。再次参照8F,在块865中,合成和混合系数生成模块880可根据输出通道之间的希望的空间关系来确定去相关信号合成参数615。合成和混合系数生成模块880还可根据输出通道之间的希望的空间关系来确定混合系数620。
合成和混合系数生成模块880可将去相关信号合成参数615提供给合成器605。在一些实现中,去相关信号合成参数615可以是输出通道特定的。在此示例中,合成器605还接收可通过诸如图6A中所示的去相关信号生成器218产生的去相关信号227。
在此示例中,块820包含将一个或多个去相关滤波器应用于所接收的音频数据的至少一部分,以产生经滤波的音频数据。经滤波的音频数据可例如对应于如上文参照图2E和4描述的去相关信号生成器218产生的去相关信号227。
块870可包含根据合成系数来合成去相关信号。在一些实现中,块870可包含通过对块820中产生的经滤波的音频数据执行操作来合成去相关信号。因而,合成后的去相关信号可被认为是经滤波的音频数据的修正版本。在图8F中所示的示例中,合成器605可被配置为根据去相关信号合成参数615对去相关信号227执行操作,并且将合成后的去相关信号886输出到直接信号和去相关信号混合器610。这里,合成后的去相关信号886是通道特定的合成去相关信号。在一些这样的实现中,块870可包含将通道特定的合成去相关信号乘以适合于每个通道的缩放因子以产生经缩放的通道特定的合成去相关信号886。在此示例中,合成器605根据去相关信号合成参数615进行去相关信号227的线性组合。
合成和混合系数生成模块880可将混合系数620提供给混合器瞬态控制模块888。在此实现中,混合系数620是输出通道特定的混合系数。混合器瞬态控制模块888可接收瞬态控制信息430。瞬态控制信息430可随同音频数据被接收,或者可例如由瞬态控制模块(诸如,图6C中所示的瞬态控制模块655)在本地被确定。混合器瞬态控制模块888可至少部分地基于瞬态控制信息430产生修正的混合系数890,并且可将修正的混合系数890提供到直接信号和去相关信号混合器610。
直接信号和去相关信号混合器610可将合成去相关信号886与直接、未滤波音频数据220进行混合。在此示例中,音频数据220包括对应于N个输入通道的音频数据元素。直接信号和去相关信号混合器610在输出通道特定基础上混合音频数据元素和通道特定的合成去相关信号886,并且依赖于特定实现输出对于N个或M个输出通道的去相关音频数据230(见例如图2E和对应描述)。
以下是方法851的一些处理的详细示例。尽管参照AC-3和E-AC-3音频编解码器至少部分地描述了这些方法,但是这些方法可广泛地应用于许多其它音频编解码器。
一些这样的方法的目标是精确地再现所有ICC(或者所选择的一组ICC),以便复原可能由于通道耦合而丢失的源音频数据的空间特性。混合器的功能可表达为:
(式1)
在式1中,x代表耦合通道信号,αi代表通道I的空间参数α,gi代表通道I的“cplcoord”(对应于缩放因子),yi代表去相关信号,并且Di(x)代表从去相关滤波器Di生成的去相关信号。希望去相关滤波器的输出的谱功率分布与输入音频数据相同,但是与输入音频数据不相关。根据AC-3和E-AC-3音频编解码器,cplcoord和α是每个耦合通道频带的,而信号和滤波器是每个频段的。而且,信号的采样对应于滤波器组系数的块。这里为了简便起见省略了这些时间和频率索引。
α值代表耦合通道和源音频数据的离散通道之间的关联性,其可表达为如下:
(式2)
在式2中,E代表波形括号内的项的预期值,x*代表x的复共轭,并且si代表通道I的离散信号。
一对去相关信号之间的通道间相干性或ICC可被如下地导出:
(式3)
在式3中,IDCi1,i2代表Di1(x)和Di2(x)之间的去相关信号间相干性(“IDC”)。在α固定的情况下,ICC在IDC为+1时最大,并且在IDC为-1时最小。当源音频数据的ICC已知时,复制其所需的最优IDC可被求解如下:
(式4)
去相关信号之间的ICC可通过选择满足式4的最优IDC条件的去相关信号而被控制。下文讨论生成这样的去相关信号的一些方法。在讨论之前,描述这些空间参数中的一些之间的、尤其是ICC和α之间的关系可能是有用的。
如上文参照方法851的可选块855提及的,文中提供的一些实现可包含从空间参数的一种形式转换到等同表示。在一些这样的实现中,可选块855可包含从α转换到ICC,反之亦然。例如,如果cplcoord(或者可比的缩放因子)和ICC两者是已知的,因此α可被唯一地确定。
耦合通道可被如下地生成:
(式5)
在式5中,si代表参与耦合的通道i的离散信号,并且gx代表x上应用的随机增益调整。通过使式2的x项由式5的等同表达替换,则通道i的α可被如下地表达:
每个离散通道的功率可由耦合通道的功率以及对应的cplcoord的功率如下地表示。
互相关项可被如下地替代:
E{sisj *}=gigjE{|x|2}ICCi,j
因此,α可被以此方式表达:
基于式5,x的功率可被如下地表达:
因此,增益调整gx可被如下地表达:
因而,如果所有cplcoord和ICC是已知的,则α可根据以下表达式被计算:
(式6)
如上所指示的,去相关信号之间的ICC可通过选择满足式4的去相关信号而被控制。在立体声情况中,单个去相关滤波器可被形成为生成与耦合通道信号不相关的去相关信号。最优的IDC-1可通过简单的符号取反来实现,例如根据上文所述的符号取反方法之一来实现。
但是,对于多通道情况控制ICC的任务更加复杂。除了确保所有去相关信号基本与耦合通道不相关之外,去相关信号之中的IDC还应该满足式4。
为了生成具有所希望的IDC的去相关性信号,可首先生成一组相互不相关的“种子”去相关信号。例如,去相关信号227可根据文中别处描述的方法被生成。随后,可通过以合适的权重来线性组合这些种子以合成所希望的去相关信号。上文参照图8E和8F描述了一些示例的概述。
从一个下混生成许多高质量和相互不相关(例如,正交)的去相关信号可能是充满挑战的。此外,计算合适的组合权重可包含矩阵求逆,该矩阵求逆可在复杂性和稳定性方面带来挑战。
因此,在文中提供的一些示例中,“锚定和扩展(anchor and expand)”处理可被实现。在一些实现中,一些IDC(以及ICC)可被其它更重要。例如,横向ICC可比对角线ICC在感知上更重要。在Dolby 5.1通道示例中,用于L-R、L-Ls、R-Rs和Ls-Rs通道对的ICC可在感知上比用于L-Rs和R-Ls通道对的ICC更重要。前通道可在感知上被后通道或环绕通道更重要。
在一些这样的实现中,可首先通过组合两个正交(种子)去相关信号以合成用于所涉及的两个通道的去相关信号来满足针对最重要的IDC的式4的项。然后,使用这些合成去相关信号作为锚点并且添加新的种子,可满足针对次要IDC的式4的项,并且对应的去相关信号可被合成。此处理可被重复进行,直到式4的项对于所有IDC被满足。这样的实现允许使用高质量的去相关信号来控制相对更关键的ICC。
图9是概述在多通道情况中合成去相关信号的处理的流程图。方法900的块可被认为是图8A的块806的“确定”处理和块808的“应用”处理的另外的示例。因此,在图9中,块905到915被标记为“860c”,而块920和925被标记为“808c”。方法900提供了在5.1通道的情境中的示例。但是,方法900可广泛地适用于其它情境。
在此示例中,块905到915包含计算将被应用于在块920中生成的一组相互不相关的种子去相关信号Dni(x)的合成参数。在一些5.1通道实现中,i={1,2,3,4}。如果中央通道将被去相关,则第五种子去相关信号可被包含。在一些实现中,不相关(正交)的去相关信号Dni(x)可通过将单声道下混信号输入若干不同的去相关滤波器而被生成。作为替代,初始上混信号可被输入唯一的去相关滤波器。以下提供各种示例。
如上所述,前通道可在感知上比后通道或环绕声通道更重要。因此,在方法900中,用于L通道和R通道的去相关信号可联合锚定在前两个种子上,然后用于Ls通道和Rs通道的去相关信号通过使用这些锚点和剩余的种子被合成。
在此示例中,块905包含计算用于前L通道和R通道的合成参数ρ和ρr。这里,ρ和ρr如下地从L-R IDC导出:
(式7)
因此,块905还包含从式4计算L-R IDC。因此,在此示例中,ICC信息被用于计算L-RIDC。该方法的其它处理还可使用ICC值作为输入。ICC值可从编码位流获得,或者通过在编码器侧的例如基于去耦低频或高频频带、cplcoord、α等的估计被获得。
合成参数ρ和ρr可被用于在块925中合成L和R通道的去相关信号。Ls和Rs通道的去相关信号可通过使用L和R通道的去相关信号作为锚点被合成。
在一些实现中,可能希望的是控制Ls-Rs ICC。根据方法900,利用种子去相关信号中的两个来合成中间去相关信号D’Ls(x)和D’Rs(x)包含计算合成参数σ和σr。因此,可选块910包含对于环绕声通道计算合成参数σ和σr。可得出,中间去相关信号D’Ls(x)和D’Rs(x)之间的所需要的相关系数可被如下地表达:
变量σ和σr可被由它们的相关系数得出:
因此,D’Ls(x)和D’Rs(x)可被定义为:
D′Ls(x)=σDn3(x)+σrDn4(x)
D′Rs(x)=σDn4(x)+σrDn3(x)
但是,如果Ls-Rs ICC不是问题,D’Ls(x)和D’Rs(x)之间的相关系数可被设定为-1。因此,这两个信号可仅仅是通过其余的种子去相关信号构建的彼此的符号取反版本。
根据特定实现,中央通道可以被去相关或者不被去相关。因此,对于中央通道计算合成参数t1和t2的块915的处理是可选的。用于中央通道的合成参数可例如在控制L-C和R-CICC是希望的情况下被计算。在此情况下,可添加第五种子Dn5(x),并且C通道的去相关信号可被表达如下:
为了实现所希望的L-C和R-C ICC,式4应对于L-C和R-C IDC被满足:
IDCL,C=ρt1 *rt2 *
IDCR,C=ρrt1 *+ρt2 *
*指示复共轭。因此,用于中央通道的合成参数t1和t2可被表达如下:
在块920中,可生成一组相互不相关的种子去相关信号Dni(x),i={1,2,3,4}。如果中央通道将被去相关,则在块920中可生成第五去相关信号。这些不相关(正交)的去相关信号Dni(x)可通过将单声道下混信号输入若干不同的去相关滤波器而被生成。
在此示例中,块925包含应用以上得出的项以合成去相关信号,如下:
DL(x)=ρDn1(x)+ρrDn2(x)
DR(x)=ρDn2(x)+ρrDn1(x)
在此示例中,用于合成Ls和Rs通道的去相关信号(DLs(x)和DRs(x))的式子可依赖于用于合成L和R通道的去相关信号(DL(x)和DR(x))的式子。在方法900中,L和R通道的去相关信号被联合锚定以缓解由于不完美的去相关信号而导致的潜在的左右偏置。
在以上的示例中,在块920中,从单声道下混信号x生成种子去相关信号。作为替代,种子去相关信号可通过将每个初始上混信号输入唯一的去相关滤波器而被生成。在此情况中,所生成的种子去相关信号将是通道特定的:Dni(gix),i={L,R,Ls,Rs,C}。这些通道特定种子去相关信号将由于上混处理而通常具有不同的功率水平。因此,希望在对这些种子进行组合时在这些种子之中对齐功率水平。为了实现这一点,用于块925的合成式可被如下地修正:
DL(x)=ρDnL(gLx)+ρrλL,RDnR(gRx)
DR(x)=ρDnR(gRx)+ρrλR,LDnL(gLx)
在修正的合成式中,所有合成参数保持相同。但是,需要水平调整参数λi,j以在使用从通道j生成的种子去相关信号来合成通道i的去相关信号时对齐功率水平。这些通道对特定水平调整参数可基于所估计的通道水平差被计算,诸如:
此外,由于在此情况中,通道特定缩放因子已经被合并到合成去相关信号中,因此块812(图8A)的混合器式子应被从式1如下地修正:
如文中别处所提及的,在一些实现中,空间参数可随音频数据一起被接收。该空间参数可例如已随音频数据被编码。编码的空间参数和音频数据可由音频处理系统(例如,如上文参照图2D所描述的)位流中接收。在该示例中,空间参数由去相关器205经由显式去相关信息240被接收。
但是,在作为替代的实现中,未编码空间参数(例如,未完成的一组空间参数)由去相关器205接收。根据一些这样的实现,上文参照图6B和6C描述的控制信息接收器/生成器460(或者音频处系统200的其它元件)可被配置为基于音频数据的一个或多个属性估计空间参数。在一些实现中,控制信息接收器/生成器640可包括空间参数模块665,其被配置用于文中所描述的空间参数估计和相关的功能。例如,空间参数模块665可基于在耦合通道频率范围之外的音频数据的特性估计耦合通道频率范围中的频率的空间参数。现在将参照图10A等来描述一些这样的实现。
图10A是提供用于估计空间参数的方法的概述的流程图。在块1005中,包含第一组频率系数和第二组频率系数的音频数据被音频处理系统接收。例如,第一组频率系数和第二组频率系数可以是将修正离散正弦变换、修正离散余弦变换、或者重叠正交变换应用于时域中的音频数据的结果。在一些实现中,音频数据可能已经根据传统编码处理被编码。例如,传统编码处理可能是AC-3音频编解码器或增强AC-3音频编解码器的处理。因此,在一些实现中,第一组频率系数和第二组频率系数可以是实数值频率系数。但是,方法1000不局限于应用于这些编解码器,而是可广泛应用于许多音频编解码器。
第一组频率系数可对应于第一频率范围,第二组频率系数可对应于第二频率范围。例如,第一组频率系数可对应于单独通道频率范围,第二组频率系数可对应于所接收的耦合通道频率范围。在一些实现中,第一频率范围可低于第二频率范围。但是,在作为替代的实现中,第一频率范围可在第二频率范围之上。
参照图2D,在一些实现中,第一组频率系数可对应于音频数据245a或245b,其包括耦合通道频率范围之外的音频数据的频域表示。音频数据245a和245b在此示例中是不相关的,但是仍可用作去相关器205执行的空间参数估计的输入。第二组频率系数可对应于音频数据210或220,其包括对应于耦合通道的频域表示。但是,不同于图2D的示例,方法1000可不包含连同耦合通道的频率系数一起接收空间参数数据。
在块1010中,估计用于第二组频率系数中的至少一部分的空间参数。在一些实现中,该估计是基于一个或多个方面的估计理论的。例如,估计处理可至少部分地基于最大似然法、贝式估计、矩估计方法、最小均方误差估计、和/或最小方差无偏估计。
一些这样的实现可包含估计低频和高频的空间参数的联合概率密度函数(“PDF”)。例如,设具有两个通道L和R,在每个通道中具有在单独通道频率范围中的低频带和耦合通道频率范围中的高频带。因此可具有代表单独通道频率范围中的L和R通道之间的通道间相干性的ICC_lo,和存在于耦合通道频率范围中的ICC_hi。
如果具有大的音频信号训练集,可将它们分段,并且可对于每一分段计算ICC_lo和ICC_hi。因此,可具有大的ICC对(ICC_lo,ICC_hi)的训练集。此参数对的PDF可作为直方图被计算和/或经由参数模型(例如,高斯混合模型)被建模。此模型可以是在解码器已知的时不变模型。作为替代,模型参数可经由位流被定期发送到解码器。
在解码器处,用于所接收的音频数据的特定分段的ICC_lo可例如根据文中所描述的单独通道和复合耦合通道之间的互相关系数被如何计算而被计算。给定ICC_lo的此值以及该参数的联合PDF的模型,解码器可尝试估计ICC_hi。一种这样的估计是最大似然(“ML”)估计,其中在给定ICC_lo的值的情况下,解码器可计算ICC_hi的条件PDF。此条件PDF目前本质上是可在x-y轴上被表示的正实数值函数,x轴表示ICC_hi值的闭联集,而y轴代表每个这样的值的条件概率。ML估计可包含选择在该处此函数为峰值的值作为ICC_hi的估计。另一方面,最小均方误差(“MMSE”)估计是此条件PDF的均值,其是ICC_hi的另一有效估计。估计理论提供了许多这样的工具以提供ICC_hi的估计。
上述两个参数的示例是非常简单的情况。在一些实现中,可存在更大数量的通道以及频带。空间参数可以是α或ICC。此外,PDF模型可以根据信号类型被调整。例如,对于瞬态可存在不同的模型、对于音调信号可存在不同的模型等。
在此示例中,块1010的估计可至少部分地基于第一组频率系数。例如,第一组频率系数可包括第一频率范围中的两个或更多个通道的音频数据,该第一频率范围在所接收的耦合通道频率范围之外。该估计处理可包含基于所述两个或更多个通道的频率系数计算第一频率范围内的复合耦合通道的组合频率系数。该估计处理还可包含计算第一频率范围内的单独通道的频率系数与组合频率系数之间的互相关系数。该估计处理的结果可根据输入音频信号的时间变化而改变。
在块1015中,所估计的空间参数可被应用于第二组频率系数,以生成修正的第二组频率系数。在一些实现中,将所估计的空间参数应用于第二组频率系数的处理可以是去相关处理的一部分。该去相关处理可包含生成混响信号或去相关信号并且将其应用于所述第二组频率系数。在一些实现中,该去相关处理可包含应用完全对实数值系数进行操作的去相关算法。该去相关处理可包含特定通道和/或特定频带的选择性或信号自适应的去相关。
现在将参照图10B描述更详细的示例。图10B是用于估计空间参数的作为替代的方法的概述的流程图。方法1020可由音频处理系统(诸如解码器)执行。例如,方法1020可至少部分地由控制信息接收器/生成器640(诸如图6C中所示的)来执行。
在此示例中,第一组频率系数是在单独通道频率范围中。第二组频率系数对应于由音频处理系统接收的耦合通道。第二组频率系数是在接收的耦合通道频率范围中,在此示例中,该接收的耦合通道频率范围在单独通道频率范围之上。
因此,块1022包含接收单独通道的以及所接收的耦合通道的音频数据。在一些实现中,音频数据可能已经根据传统编码处理被编码。与通过根据与传统编码处理对应的传统解码处理对所接收的音频数据进行解码相比,将根据方法1000或方法1020被估计的空间参数应用于所接收的耦合通道的音频数据可得到更加空间准确的音频再现。在一些实现中,传统编码处理可能是AC-3音频编解码器或增强AC-3音频编解码器的处理。因此,在一些实现中,块1022可包含接收实数值频率系数,而不是具有虚数值的频率系数。但是,方法1020不局限于这些编解码器,而是可广泛应用于许多音频编解码器。
在方法1020的块1025中,单独通道频率范围中的至少一部分被分割成多个频带。例如,单独通道频率范围可被分成2、3、4或更多个频带。在一些实现中,每个频带可包含预定数量的连续频率系数,例如6、8、10、12或更多个连续频率系数。在一些实现中,仅单独通道频率范围的一部分可被分成频带。例如,一些实现可包含仅将单独通道频率范围的高频部分(更接近于所接收的耦合通道频率范围)分成频带。根据一些基于E-AC-3的示例,单独通道频率范围的高频部分可被分成2或3个频带,每个频带可包含12个MDCT系数。根据一些这样的实现,仅单独通道频率范围的在1kHz之上、1.5kHz之上等的部分可被分成频带。
在此示例中,块1030包含计算单独通道频带中的能量。在此示例中,如果单独通道已经被排除进行耦合,则被排除的通道的被分带的能量在块1030中将不被计算。在一些实现中,块1030中计算的能量值可被平滑化。
在此实现中,在块1035中创建基于单独通道频率范围中的单独通道的音频数据的复合耦合通道。块1035可包含计算用于复合耦合通道的频率系数,其在文中可被称为“组合频率系数”。该组合频率系数可使用单独通道频率范围中的两个或更多个通道的频率系数被创建。例如,如果音频数据已经根据E-AC-3编解码器被编码,则块1035可包含计算低于“耦合开始频率”的MDCT系数的局部下混,该耦合开始频率是所接收的耦合通道频率范围中的最低频率。
单独通道频率范围中的每个频带内的复合耦合通道的能量可在块1040中被确定。在一些实现中,块1040中计算的能量值可被平滑化。
在此示例中,块1045包含确定互相关系数,该互相关系数对应于单独通道的频带与复合耦合通道的对应频带之间的相关性。这里,在块1045中计算互相关系数还包括计算每个单独通道的频带中的能量以及复合耦合通道的对应频带中的能量。该互相关系数可以被归一化。根据一些实现,如果单独通道已经被排除进行耦合,则所排除的通道的频率系数将不用于计算互相关系数。
块1050包含估计已经耦合成所接收的耦合通道的每个通道的空间参数。在此实现中,块1050包含基于互相关系数估计空间参数。该估计处理可包含所有单独通道频带上对归一化的互相关系数进行平均。该估计处理还可包含将缩放因子应用于归一化的互相关系数的平均值以获得用于已经耦合成所接收的耦合通道的单独通道的所估计的空间参数。在一些实现中,该缩放因子可随频率增加而减小。
在此示例中,块1055包含向所估计的空间参数添加噪声。噪声被添加以对所估计的空间参数的方差进行建模。噪声可根据对应于频带上的空间参数的期望预测的一组规则被添加。规则可基于经验数据。该经验数据可对应于从大量音频数据样本得出的观察和/或测量。在一些实现中,该添加的噪声的方差可基于所估计的频带的空间参数、频带索引和/或归一化的互相关系数的方差。
一些实现可包含接收或确定关于第一组或第二组频率系数的音调信息。根据一些这样的实现,块1050和/或块1055的处理可根据音调信息而改变。例如,如果图6B或图6C的控制信息接收器/生成器640确定耦合通道频率范围中的音频数据是高音调,控制信息接收器/生成器640可被配置为暂时减小在块1055中添加的噪声的量。
在一些实现中,所估计的空间参数可以是对于所接收的耦合通道频率带估计的α。一些这样的实现可包含将α应用于对应于耦合通道的音频数据,例如作为去相关处理的一部分。
现在将描述方法1020的更详细的示例。这些示例是在E-AC-3音频编解码器的情境中被提供的。但是,这些示例所示出的概念不局限于E-AC-3音频编解码器的情境,相反可广泛地应用于许多音频编解码器。
在此示例中,复合耦合通道作为离散源的混合被计算:
(式8)
在式8中,其中sDi代表通道i的特定频率范围(kstart…kend)的解码MDCT变换的行矢量,其中kend=KCPL,区段索引对应于E-AC-3耦合开始频率(所接收的耦合通道频率范围的最低频率)。这里,gx代表不影响估计处理的归一化项。在一些实现中,gx可被设为1。
关于在kstart和kend之间分析的区段的数量的判定可基于复杂性约束和希望的估计α的精度之间的折中。在一些实现中,kstart可对应于特定阈值(例如,1kHz)处或者高于特定阈值处的频率,从而使用相对更接近所接收的耦合通道频率范围的频率范围中的音频数据,以便改进α值的估计。频率范围(kstart…kend)可被分成频带。在一些实现中,这些频带的互相关系数可被如下计算:
(式9)
在式9中,sDi(l)代表对应于低频范围的频带l的sDi的分段,xD(l)代表xD的对应分段。在一些实现中,期望值E{}可使用简单的零极点无限脉冲响应(“IIR”)滤波器来近似,例如如下所示:
(式10)
在式10中,代表使用直至块n的样本的E{y}的估计。在此示例中,cci(l)仅对于在针对当前块的耦合中的这些通道被计算。出于在给定仅基于实数值的MDCT系数的情况对功率估计继续平滑的目的,发现值α=0.2是足够的。对于除了MDCT之外的变换,并且具体地对于复变换,可使用α的较大值。在这样的情况中,在0.2<α<0.5的范围中的α的值将是合理的。一些复杂性较低的实现可包含所计算的相关系数cci(l)的时间平滑,而不是功率和互相关系数的时间平滑。尽管不在数学上等同于分别估计分子和分母,但是已发现,这样的复杂性较低的平滑提供互相关系数的足够准确的估计。作为一阶IIR滤波器的估计函数的特定实现没有排除经由其它方案的实现,诸如基于先去后出(“FILO”)缓冲器的实现。在这样的实现中,缓冲器中的最旧的样本可被从当前估计E{}减去,而最新的样本可被添加到当前估计E{}。
在一些实现中,平滑处理考虑了对于先前块系数sDi是否在耦合。例如,如果在先前块中,通道i没有在耦合,则对于当前块,α可被设为1.0,因为用于先前块的MDCT系数不将被包含在耦合通道中。而且,先前MDCT变换已经使用E-AC-3短块模式被编码,这进一步证实在此情况中将α设定为1.0。
在此阶段,单独通道和复合耦合通道之间的互相关系数已被确定。在图10B的示例中,对应于块1022到1045的处理已经被执行。以下的处理是基于互相关系数估计空间参数的示例。这些处理是方法1020的块1050的示例。
在一个例子中,使用低于KCPL(所接收的耦合通道频率范围的最低频率)的频带的互相关系数,要用于高于KCPL的MDCT系数的去相关的α的估计可被生成。根据一种这样的实现的用于从cci(l)的值计算所估计的α的伪代码如下:
生成α的上述外插处理的主输入是CCm,其代表当前区域上的相关系数(cci(l))的均值。“区域”可以是连续E-AC-3块的任意分组。E-AC-3帧可由一个以上的区域构成。但是,在一些实现中,区域没有跨越帧边界。CCm可被如下地计算(在上述伪代码中指示为函数MeanRegion()):
(式11)
在式11中,i代表通道索引,L代表用于估计的(低于KCPL)低频带的数量,并且N代表当前区域中的块的数量。这里,对记号cci(l)进行扩展以包括块索引n。接下来,经由重复应用上述缩放操作以对于每个耦合通道频带生成预测的α值,可将平均互相关系数外插至所接收的耦合通道频率范围:
fAlphaRho=fAlphaRho*MAPPED_VAR_RHO (式12)
当应用式12时,第一耦合通道频带的fAlphaRho可以是CCm(i)*MAPPED_VAR_RHO。在伪代码示例中,变量MAPPED_VAR_RHO是通过观察到平均α值趋向于随着频带索引增大而减小而启发式地得出。因而,MAPPED_VAR_RHO被设定为小于1.0。在一些实现中,MAPPED_VAR_RHO被设定为0.98。
在此阶段,空间参数(在此示例中,α)已经被估计。在图10B的示例中,对应于块1022到1050的处理已经被执行。以下处理是向所估计的空间参数添加噪声或者使之“抖动”的示例。这些处理是方法1020的块1055的示例。
基于对于不同类型的多通道输入信号的大的集合的关于预测误差如何随频率变化的分析,发明人已经制定了启发式规则,该规则控制在所估计的α值上施加的随机化的程度。当所有单独通道可用而没有进行耦合时,所估计的耦合通道频率范围中的空间参数(通过来自较低频率的相关性计算获得,随后进行外插)可最终具有如同这些参数已经在耦合通道频率范围中被从原始信号直接计算一样的相同的统计量。添加噪声的目的是施加与被经验观察到的变化类似的统计变化。在上述伪代码中,VB代表指示方差如何作为频带索引的函数而改变的经验得出的缩放项。VM代表基于合成方差被应用之前的α的预测的经验得出的特征。这解释了以下事实:预测误差的方差实际上作为预测的函数。例如,当对于频带的α的线性预测误差接近于1.0时,方差非常低。项CCν代表对于当前共享块区域的基于计算的cci值的局部方差的控制。CCν可被如下地计算(在上述伪代码中由VarRegion()指示):
(式13)
在此示例中,VB根据频带索引控制抖动方差。VB是通过检查从源计算的α预测误差的跨频带方差而经验得出的。发明人发现:归一化方差和频带索引l之间的关系可根据以下方程被建模:
图10C是指示缩放项VB和频带索引l之间的关系的图。图10C示出VB特征的并入将得到估计的α,该估计的α将具有作为频带索引的函数逐渐越大的方差。在式13中,频带索引l≦3对应于低于3.42kHz(E-AC-3音频编解码器的最低耦合开始频率)的区域。因此,这些频带索引的VB的值是不重要的。
VM参数是通过检查作为预测本身的函数的α预测误差的行为而被得出的。特别地,发明人通过分析多通道内容的大的集合而发现:当预测α值为负时,预测误差的方差增大,峰值在α=-0.59375处。这意味着当处于分析的当前通道与下混xD负相关时,所估计的α将通常更加混乱。但是,图14建模了所希望的行为:
(式14)
在式14中,q代表预测(在伪代码中由fAlphaRho指示)的量化版本,并且可根据下式被计算:
q=floor(fAlphaRho*128)
图10D是指示变量VM和q之间的关系的图。应指出,VM被以在q=0时的值进行归一化,从而VM修正了对于预测误差方差有贡献的其它因子。因此,项VM仅影响对于除q=0之外的值的总预测误差方差。在伪代码中,符号iAlphaRho被设定为q+128。此映射避免了对于iAlphaRho的负值的需要,并且允许直接从数据结构(例如,表)读取VM(q)的值。
在此实现中,下一步是以三个因子VM、Vb和CCν缩放随机变量w。VM和CCν之间的几何均值可被计算并且作为缩放因子应用于该随机变量。在一些实现中,w可被实现为具有零均值单位方差高斯分布的非常大的随机数的表。
在缩放处理之后,可应用平滑处理。例如,经抖动的估计的空间参数可例如通过使用简单的零极点或FILO平滑器在时间上被平滑。如果先前块没有在耦合或者如果当前块是块区域中的第一块,则平滑系数可被设定为1.0。因此,来自噪声记录w的缩放的随机数可以被低通滤波,这被发现为使估计的α值的方差更好地匹配源中的α的方差。在一些实现中,与用于cci(l)的平滑相比,此平滑处理可较不具侵略性(即,具有较短脉冲响应的IIR)。
如上指出的,估计α和/或其他空间参数所涉及的处理可至少部分地由诸如图6C中所示的控制信息接收器/生成器640执行。在一些实现中,控制信息接收器/生成器640的瞬态控制模块655(或者音频处理系统的一个或多个其它组件)可被配置为提供瞬态相关功能。现在将参照图11A等描述瞬态检测的一些示例以及相应地控制去相关处理的一些示例。
图11A是概述瞬态确定和瞬态相关控制的一些方法的流程图。在块1105中,例如通过解码设备或其它这样的音频处理系统接收对应于多个音频通道的音频数据。如下文所述,类似的处理可由编码设备执行。
图11B是包括用于瞬态确定和瞬态相关控制的各种组件的示例的框图。在一些实现中,块1105可包含通过包括瞬态控制模块655的音频处理系统接收音频数据220和音频数据245。音频数据220和245可包括音频信号的频域表示。音频数据220可包括耦合通道频率范围中的音频数据元素,而音频数据245可包括耦合通道频率范围之外的音频数据。音频数据元素220和/或245可被路由至包括瞬态控制模块655的去相关器。
除了音频数据元素220和245之外,瞬态控制模块655可在块1105中接收其它相关联的音频信息,诸如去相关信息240a和240b。在此示例中,去相关信息240a可包括显式去相关器特定控制信息。例如,去相关信息240a可包括诸如下文所述的显式瞬态信息。去相关信息240b可包括来自传统音频编解码器的位流的信息。例如,去相关信息240b可包括在根据AC-3音频编解码器或E-AC-3音频编解码器编码的位流中可获得的时间分割信息。例如,去相关信息240b可包括耦合使用信息、块切换信息、指数信息、指数策略信息等。这样的信息可在位流中随同音频数据20一起被音频处理系统接收。
块1110包含确定音频数据的音频特性。在各种实现中,块1110包含例如通过瞬态控制模块655确定瞬态信息。块1115包含至少部分地基于音频特性确定用于音频数据的去相关量。例如,块1115可包含至少部分地基于瞬态信息确定去相关控制信息。
在块1115中,图11B的瞬态控制模块655可将去相关信号生成器控制信息625提供给去相关信号生成器,诸如文中别处描述的去相关信号生成器218。在块1115中,瞬态控制模块655还可混合器控制信息645提供给混合器,诸如混合器215。在块1120中,可根据块1115中进行确定来对音频数据进行处理。例如,去相关信号生成器218和混合器215的操作可至少部分地根据瞬态控制模块655提供的去相关控制信息被执行。
在一些实现中,图11A的块1110可包含随同音频数据接收显式瞬态信息并且至少部分地根据该显式瞬态信息确定瞬态信息。
在一些实现中,显式瞬态信息可指示对应于明确瞬态事件的瞬态值。这样的瞬态值可以是相对高(或者最大)瞬态值。高瞬态值可对应于瞬态事件的高可能性和/或高严重性。例如,如果可能的瞬态值在0到1的范围内,在0.9和1之间的瞬态值的范围可对应于明确的和/或严重的瞬态事件。但是,可使用瞬态值的任何合适的范围,例如0到9,1到100等。
显式瞬态信息可指示对应于明确非瞬态事件的瞬态值。例如,如果可能的瞬态值在1到100的范围内,在范围1到5中的值可对应于明确非瞬态事件或非常温和的瞬态事件。
在一些实现中,显式瞬态信息可具有二值表示,例如0或者1。例如,值1可对应于明确瞬态事件。但是,值0可能不指示明确非瞬态事件。相反,在一些这样的实现中,值0可仅仅指示缺少明确的和/或严重的瞬态事件。
但是,在一些实现中,显式瞬态信息可包括在最小瞬态值(例如,0)和最大瞬态值(例如,1)之间的中间瞬态值。中间瞬态值可对应于瞬态事件的中间可能性和/或中间严重性。
图11B的去相关滤波器输入控制模块1125可根据经由去相关信息240a接收的显式瞬态信息来在块1110中确定瞬态信息。作为替代地或者附加地,去相关滤波器输入控制模块1125可根据来自传统音频编解码器的位流的信息来在块1110中确定瞬态信息。例如,基于去相关信息240b,去相关滤波器输入控制模块1125可确定对于当前块没有使用通道耦合,在当前块中通道脱离耦合,和/或在当前块中通道被块切换。
基于去相关信息240a和/或240b,去相关滤波器输入控制模块1125可有时在块1110中确定对应于明确瞬态事件的瞬态值。如果是这样,则在一些实现中,去相关滤波器输入控制模块1125可在块1115中确定去相关处理(和/或去相关滤波器抖动处理)应被暂停。因此,在块1120中,去相关滤波器输入控制模块1125可生成去相关信号生成器控制信息625e,其指示去相关处理(和/或去相关滤波器抖动处理)应被暂停。作为替代或者附加地,在块1120中,软瞬态计算器1130可生成去相关信号生成器控制信息625f,其指示去相关滤波器抖动处理应被暂停或减慢。
在作为替代的实现中,块1110可包含随同音频数据接收显式瞬态信息。但是,不管是否接收到显式瞬态信息,方法1100的一些实现可包含根据音频数据220的分析检测瞬态事件。例如,在一些实现中,即使显式瞬态信息没有指示瞬态事件,在块1110中仍可检测到瞬态事件。根据音频数据220的分析由解码器或者类似的音频处理系统确定的瞬态事件可在文中被称为“软瞬态事件”。
在一些实现中,不管瞬态值被作为显式瞬态值提供还是被确定为软瞬态值,瞬态值可经受指数衰减函数。例如,指数衰减函数可使得瞬态值经过一段时间从初始值平滑地衰减到0。使瞬态值经受指数衰减函数可防止与突然切换相关联的伪像。
在一些实现中,检测软瞬态事件可包含评估瞬态事件的可能性和/或严重性。这样的评估可包含计算音频数据220中的时间功率变化。
图11C是概述至少部分地基于音频数据的时间功率变化确定瞬态控制值的一些方法的流程图。在一些实现中,方法1150可至少部分地由瞬态控制模块655的软瞬态计算器1130执行。但是,在一些实现中,方法1150可由编码设备执行。在一些这样的实现中,显式瞬态信息可由编码设备根据方法1150确定,并且被与其它音频数据一起包含在位流中。
方法1150从块1152开始,其中,耦合通道频率范围中的上混音频数据被接收。在图11B中,例如,在块1152中,上混的音频数据元素220可由软瞬态计算器1130接收。在块1154中,所接收的耦合通道频率范围被分割成一个或多个频带,其在文中也可被称为“功率带”。
块1156包含对于上混音频数据的每个通道和块计算频带加权对数功率(“WLP”)。为了计算WLP,可确定每个功率带的功率。这些功率可被转换为对数值,然后在功率带上被求平均。在一些实现中,块1156可根据以下表达式被执行:
WLP[ch][blk]=meanpwr_bnd{log(P[ch][blk][pwr_bnd])} (式15)
在式15中,WLP[ch][blk]代表对于通道和块的加权对数功率,[pwr_bnd]代表所接收的耦合通道频率范围被分割成的频带或“功率带”,meanpwr_bnd{log(P[ch][blk][pwr_bnd])}代表通道和块的功率带上的功率的对数均值。
出于以下原因,频带化可预先强调较高频率中的功率变化。如果整个耦合通道频率范围是一个频带,则P[ch][blk][pwr_bnd]将是耦合通道频率范围中的每个频率处的功率的算术均值,典型地具有较高功率的较低频率将趋向于使P[ch][blk][pwr_bnd]的值并因此使log(P[ch][blk][pwr_bnd])的值无效(swamp)。(在此情况中,由于仅有一个频带,log(P[ch][blk][pwr_bnd])将具有与平均log(P[ch][blk][pwr_bnd])相同的值)。因此,瞬态检测将在很大程度上依赖于较低频率中的时间变化。将耦合通道频率范围分割成例如较低频带和较高频带然后在对数域中对这两个频带的功率求平均等同于计算较低频带的功率和较高频带的功率的几何均值。与算术均值相比,这样的几何均值将更接近于较高频带的功率。因此,频带化、确定对数(功率)、然后确定均值将趋向于得到对于在较高频率的时间变化更敏感的量。
在此实现中,块1158包含基于WLP确定非对称功率差分(“APD”)。例如,APD可被如下地确定:
(式16)
在式16中,dWLP[ch][blk]代表对于通道和块的差分加权对数功率,WLP[ch][blk][blk-2]代表在两个块之前对于该通道的加权对数功率。式16的示例对于处理经由音频编解码器(例如,E-AC-3和AC-3)编码的音频数据(其中在连续块之间存在50%的重叠)是有用的。因此,当前块的WLP与两个块之前的WLP相比较。如果在连续块之间不存在重叠,则当前块的WLP可与前一个块的WLP相比较。
此示例利用了先前块的可能的时间遮蔽效果。因此,如果当前块的WLP大于或等于先前块的WLP(在此示例中,两个块之前的WLP),则APD被设定为实际WLP差分。但是,如果当前块的WLP小于先前块的WLP,则APD被设定为实际WLP差分的一半。因此,APD强调了增加的功率,而弱化了减小的功率。在其它实现中,实际WLP差分的不同比例可被使用,例如实际WLP差分的1/4。
块1160可包含基于APD确定原始瞬态度量(“RTM”)。在此实现中,确定原始瞬态度量包含基于时间非对称功率差分根据高斯分布被分布的假设而计算瞬态事件的似然函数:
(式17)
在式17中,RTM[ch][blk]代表对于通道和块的原始瞬态度量,SAPD代表调谐参数。在此示例中,当SAPD增加时,为了产生相同的RTM值,将需要相对较大的功率差分。
在块1162中,可从RTM确定在文中也可被称为“瞬态度量”的瞬态控制值。在此示例中,瞬态控制值根据式18被确定:
(式18)
在式18中,TM[ch][blk]代表对于通道和块的瞬态度量,TH代表上阈值,TL代表下阈值。图11D提供了应用式18以及如何使用阈值的TH和TL示例。其它实现可包含从RTM到TM的其它类型的线性或非线性映射。根据一些这样的实现,TM是RTM的不减小函数。
图11D是示出将原始瞬态值映射到瞬态控制值的示例的图。这里,原始瞬态值和瞬态控制值两者为0.0到1.0,但是其它实现可包含其它范围的值。如式18以及图11D所示,如果原始瞬态值大于或者等于上阈值TH,则瞬态控制值被设定为其最大值,在此示例中为1.0。在一些实现中,最大瞬态控制值可对应于明确瞬态事件。
如果原始瞬态值小于或者等于下阈值TL,则瞬态控制值被设定为其最小值,在此示例中为0.0。在一些实现中,最小瞬态控制值可对应于明确非瞬态事件。
但是,如果原始瞬态值位于在下阈值TL和上阈值TH之间的范围1166中,瞬态控制值可被缩放到中间瞬态控制值,其在此示例中在0.0和1.0之间。中间瞬态控制值可对应于瞬态事件的相对可能性和/或相对严重性。
再次参照图11C,在块1164中,可将指数衰减函数应用于在块1162中确定的瞬态控制值。例如,指数衰减函数可使得瞬态值经过一段时间从初始值平滑地衰减到0。使瞬态值经受指数衰减函数可防止与突然切换相关联的伪像。在一些实现中,每个当前块的瞬时控制值可被计算并且与先前块的瞬态控制值的指数衰减版本相比。当前块的最终瞬态控制值可被设定为这两个瞬态控制值的最大值。
不管是随着其它音频数据被接收还是由解码器确定,瞬态信息都可被用于控制去相关处理。瞬态信息可包含诸如上文所描述的那些瞬态控制值。在一些实现中,用于音频数据的去相关量可至少部分地基于这样的瞬态信息被修正(例如,被减小)。
如上所述,这样去相关处理可包含将去相关滤波器应用于音频数据的一部分以产生经滤波的音频数据,并且根据混合比将经滤波的音频数据与所接收的音频数据进行混合。一些实现可包含根据瞬态信息控制混合器215。例如,这样的实现可包含至少部分地基于瞬态信息对混合比进行修正。这样的瞬态信息可例如通过混合器瞬态控制模块1145被包含在混合器控制信息645中(参见图11B)。
根据一些这样的实现,瞬态控制值可被混合器215使用以修正α,以便在瞬态事件期间推迟或减小去相关。例如,α可根据以下伪代码被修正:
在前述伪代码中,alpha[ch][bnd]代表一个通道的频带的α值。项decorrelationDecayArray[ch]代表指数衰减值,其的值为0到1。在一些示例中,在瞬态事件期间,α可被朝+/-1修正。修正程度可与decorrelationDecayArray[ch]成比例,这样使得用于去相关信号的混合权重朝0减小,从而推迟或减小去相关。decorrelationDecayArray[ch]的指数衰减缓慢复原正常去相关处理。
在一些实现中,软瞬态计算器1130可向空间参数模块665提供软瞬态信息。至少部分地基于该软瞬态信息,空间参数模块665可选择用于对在位流中接收的空间参数进行平滑或者对空间参数估计中所涉及的能量或其它量进行平滑的平滑器。
一些实现可包含根据瞬态信息控制去相关信号生成器218。例如,这样的实现可包含至少部分地基于瞬态信息修正或暂停去相关滤波器抖动处理。这可能是有利的,因为在瞬态事件期间抖动全通滤波器的极点可能导致不希望的振铃伪像(ringing artifact)。在一些这样的实现中,可至少部分地基于瞬态信息来修正用于抖动去相关滤波器的极点的最大步幅(stride)值。
例如,软瞬态计算器1130可向去相关信号生成器218的去相关滤波器控制模块405(还参见图4)提供去相关信号生成器控制信息625f。去相关滤波器控制模块405可响应于去相关信号生成器控制信息625f生成时变滤波器1127。根据一些实现,去相关信号生成器控制信息625f可包括用于诸如如下地根据指数衰减变量的最大值控制最大步幅值的信息:
例如,当在任何通道中检测到瞬态事件时,最大步幅值可乘以钱数表达式。因此,抖动处理可被暂停或减慢。
在一些实现中,可至少部分地基于瞬态信息将增益应用于经过滤的音频数据。例如,经过滤的音频数据的功率可被与直接音频数据的功率匹配。在一些实现中,这样的功能可由图11B的闪避器模块1135提供。
闪避器模块1135可从软瞬态计算器1130接收瞬态信息,诸如瞬态控制值。闪避器模块1135可根据瞬态控制值确定去相关信号生成器控制信息625h。闪避器模块1135可将去相关信号生成器控制信息625h提供到去相关信号生成器218。例如,去相关信号生成器控制信息625h包括如下增益,去相关信号生成器218可向去相关信号217应用该增益以将经滤波的音频数据的功率保持为小于或等于直接音频信号的功率的水平。闪避器模块1135可通过对于每个接收的在耦合的通道计算耦合通道频率范围中的每个频带的能量来确定去相关信号生成器控制信息625h。
闪避器模块1135可例如包括一组闪避器。在一些这样的实现中,该闪避器可包括缓冲器,用于暂时存储由闪避器模块1135确定的耦合通道频率范围中的每个频带的能量。固定的延迟可被应用于经滤波的音频数据并且同样的延迟可被应用于缓冲器。
闪避器模块1135还可确定混合器相关信息,并且可将混合器相关信息提供给混合器瞬态控制模块1145。在一些实现中,闪避器模块1135可提供如下信息,该信息用于控制混合器215以基于要被施加到经滤波的音频数据的增益来修正混合比。根据一些这样的实现,闪避器模块1135可提供如下信息,该信息用于控制混合器215以在瞬态事件期间推迟或减少去相关。例如,闪避器模块1135可提供如下的混合器相关信息:
在前述伪代码中,TransCtrlFlag代表瞬态控制值,而DecorrGain[ch][bnd]代表要被应用于经滤波的音频数据的通道的频带的增益。
在一些实现中,用于闪避器的功率估计平滑窗口可至少部分地基于瞬态信息。例如,当瞬态事件是相对更可能的或者相对更强的瞬态事件被检测到时,较短的平滑窗口可被应用。当瞬态事件是相对更不可能的时、相对更弱的瞬态事件被检测到时或者没有检测到瞬态事件时,较长的平滑窗口可被应用。例如,平滑窗口长度可基于瞬时控制值被动态调整,从而窗口长度在标记值接近最大值(例如,1.0)时更短并且在标记值接近最小值(例如,0)时更长。这样的实现可帮助避免瞬态事件期间的时间拖尾,同时在非瞬态情况期间得到平滑的增益因子。
如上所述,在一些实现中,瞬态信息可由编码设备确定。图11E是概述对瞬态信息进行编码的方法的路程图。在块1172中,对应于多个音频通道的音频数据被接收。在此示例中,音频数据由编码设备接收。在一些实现中,音频数据可被从时域变换到频域(可选块1174)。
在块1176,确定音频数据的音频特性,该音频特性包括瞬态信息。例如,瞬态信息可如上文参照图11A到11D所描述地那样被确定。例如,块176可包含评估音频数据中的时间功率变化。块1176可包含根据音频数据中的时间功率变化确定瞬态控制值。这样的瞬态控制值可指示明确瞬态事件、明确非瞬态事件、瞬态事件的可能性或瞬态事件的严重性。块1176可包含将指数衰减函数应用于瞬态控制值。
在一些实现中,块1176中确定的音频特性可包括空间参数,其可基本上如文中别处描述地那样被确定。但是,不是计算耦合通道频率范围之外的相关性,空间参数可通过计算耦合通道频率范围内的相关性被确定。例如,将随着耦合被编码的单独通道的α可通过在频带基础上计算该通道与耦合通道的变换系数之间的相关性被确定。在一些实现中,编码器可通过使用音频数据的复频率表示来确定空间参数。
块1178包含将音频数据的两个或更多个通道中的至少一部分耦合成耦合通道。例如,在耦合通道频率范围中的耦合通道的音频数据的频域表示可在块1178中被组合。在一些实现中,可在块1178中形成多于一个的耦合通道。
在块1180中,形成编码音频数据帧。在此示例中,编码音频数据帧包括对应于耦合通道的数据以及在块1176中确定的编码瞬态信息。例如,编码瞬态信息可包括一个或多个控制标记。该控制标记可包括通道块切换标记、通道脱离耦合标记和/或耦合使用标记。块1180可包含确定控制标记中的一个或多个的组合以形成编码瞬态信息,该编码瞬态信息指示明确瞬态事件、明确非瞬态事件、瞬态事件的可能性或瞬态事件的严重性。
不管是否通过组合控制标记被形成,编码瞬态信息都包括用于控制去相关处理的信息。例如,瞬态信息可指示去相关处理应被暂停。瞬态信息可指示去相关处理中的去相关量应被暂时减小。瞬态信息可指示去相关处理的混合比应被修正。
编码音频数据帧还可包含各种其它类型的音频数据,包括在耦合通道频率范围之外的单独通道的音频数据、未耦合的通道的音频数据等等。在一些实现中,诸如文中别处描述的,编码音频数据帧可包括空间参数、耦合坐标、和/或其它类型的附带信息。
图12是提供可被配置为实现文中描述的处理的各方面的装置的组件的示例的框图。设备1200可以是移动电话、智能电话、台式计算机、手提式或便携式计算机、上网本、笔记本电脑、电子书、平板电脑、立体声系统、电视、DVD播放器、数字记录设备、或者多种其它设备中的任一种。设备1200可包括编码工具和/或解码工具。但是,图12中所示的组件仅是示例。特定设备可被配置为实现文中描述的各种实施例,但是可以包括或者可以不包括所有组件。例如,一些实现可以不包括扬声器或者麦克风。
在此示例中,设备可包括接口系统1205。接口系统1205可包括网络接口,诸如无线网络接口。作为替代或者附加地,接口系统1205可包括通用串行总线(USB)接口或者另一这样的接口。
设备1200包括逻辑系统1210。逻辑系统1210可包括处理器,例如通用单芯片或多芯片处理器。逻辑系统1210可包括数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑设备、离散门或晶体管逻辑、离散硬件组件或它们的组合。逻辑系统1210可被配置为控制设备1200的其它组件。尽管在图12中没有示出在设备1200的组件之间的接口,但是逻辑系统1210可被配置为与其它组件通信。视情况而定,其它组件可以配置为或者可以不配置为相互通信。
逻辑系统1210可被配置为执行各种类型的音频处理功能,诸如编码器和/或解码器功能。这样的编码器和/或解码器功能可包括但不限于文中描述的各类型的编码器和/或解码器功能。例如,逻辑系统1210可被配置为提供文中描述的去相关器有关的功能。在一些这样的实现中,逻辑系统1210可被配置为根据一个或多个非暂态介质上存储的软件(至少部分地)操作。非暂态介质可包括与逻辑系统1210相关联的存储器,例如随机存取存储器(RAM)和/或只读存储器(ROM)。非暂态介质可包括存储系统1215的存储器。存储系统1215可包括一种或多种合适类型的非暂态存储介质,诸如闪存、硬盘驱动器等。
例如,逻辑系统1210可被配置为经由接口系统1205接收编码音频数据的帧,并且根据文中描述的方法将编码音频数据解码。作为替代或附加地,逻辑系统1210可被配置为经由存储系统1215和逻辑系统1210之间的接口接收编码音频数据的帧。逻辑系统1210可被配置为根据编码音频数据控制扬声器1220。在一些实现中,逻辑系统1210可被配置为根据常规编码方法和/或根据文中所述的编码方法对音频数据进行编码。逻辑系统1210可被配置为经由麦克风1225、经由接口系统1205等接收这样的音频数据。
根据设备1200的表现,显示系统1230可包括一种或多种合适类型的显示器。例如,显示系统1230可包括液晶显示器、等离子显示器、双稳态显示器等。
用户输入系统1235可包括被配置为接收来自用户的输入的一个或多个设备。在一些实现中,用户输入系统1235可包括覆盖显示系统1230的显示器的触摸屏。用户输入系统1235可包括按钮、键盘、开关等。在一些实现中,用户输入系统1235可包括麦克风1225:用户可经由麦克风1225向设备1200提供语音命令。逻辑系统可被配置用于语音识别以及根据这样的语音命令控制设备1200的至少一些操作。
电源系统1240可包括一个或多个合适的能量存储设备,诸如镍镉电池或锂离子电池。电源系统1240可被配置为从电插座接收电力。
对于本领域普通技术人员而言,此公开中描述的实现的各种变型是显见的。文中所描述的总体原理可被应用于其它实现,而不会背离本公开的精神或范围。例如,尽管依照Dolby Digital和Dolby Digital Plus描述了各种实现,文中所描述的方法可结合其它音频编解码器实现。因此,权利要求预期不局限于文中所示的实现,而是应被给予与本公开、文中公开的原理和新颖特征一致的最宽泛的范围。

Claims (64)

1.一种音频处理方法,包括:
接收包括第一组频率系数和第二组频率系数的音频数据;
基于所述第一组频率系数的至少一部分来估计用于所述第二组频率系数的至少一部分的空间参数;以及
将所估计的空间参数应用于所述第二组频率系数以生成经修正的第二组频率系数,
其中,所述第一组频率系数对应于第一频率范围,而所述第二组频率系数对应于第二频率范围,
其中,所述音频数据包括对应于单独通道和耦合通道的数据,并且其中,所述第一频率范围对应于单独通道频率范围,而所述第二频率范围对应于耦合通道频率范围;
其中,所述音频数据包括用于两个或更多个通道的第一频率范围中的频率系数,并且
其中,所述估计处理包含:
基于所述第一频率范围中的单独通道的音频数据创建复合耦合通道,其包含基于所述第一频率范围中的所述两个或更多个通道的频率系数计算所述复合耦合通道的组合频率系数;以及
对于至少第一通道,计算用于第一通道的频率系数与组合频率系数之间的互相关系数。
2.根据权利要求1所述的方法,其中,所述应用处理包含在每个通道的基础上应用所估计的空间参数。
3.根据权利要求1所述的方法,其中,所述第一频率范围低于所述第二频率范围。
4.根据权利要求1所述的方法,其中,所述组合频率系数对应于所述第一频率范围。
5.根据权利要求1所述的方法,其中,所述互相关系数是归一化的互相关系数。
6.根据权利要求5所述的方法,其中,所述第一组频率系数包括多个通道的音频数据,并且其中,所述估计处理包含估计用于所述多个通道中的数个通道的归一化的互相关系数。
7.根据权利要求5所述的方法,其中,所述估计处理包含将所述第一频率范围中的至少一部分分割成第一频率范围带并且计算用于每个第一频率范围带的归一化的互相关系数。
8.根据权利要求7所述的方法,其中,所述估计处理包括:
在通道的所有第一频率范围带上对归一化的互相关系数进行平均;以及
将缩放因子应用于归一化的互相关系数的平均值以获得所估计的用于该通道的空间参数。
9.根据权利要求8所述的方法,其中,对归一化的互相关系数进行平均的处理包含在通道的时间段上进行平均。
10.根据权利要求8所述的方法,其中,所述缩放因子随频率增加而减小。
11.根据权利要求8所述的方法,进一步包括添加噪声以对所估计的空间参数的方差进行建模。
12.根据权利要求11所述的方法,其中,所添加的噪声的方差至少部分地基于归一化的互相关系数中的方差。
13.根据权利要求11所述的方法,进一步包括接收或确定关于所述第二组频率系数的音调信息,其中所应用的噪声根据所述音调信息而改变。
14.根据权利要求11所述的方法,其中,所添加的噪声的方差至少部分地依赖于频带上的空间参数的预测,方差对于所述预测的依赖性是基于经验数据的。
15.根据权利要求1-14中任一项所述的方法,进一步包括测量所述第一组频率系数的带和所述第二组频率系数的带之间的每个带的能量比,并且所估计的空间参数根据所述每个带的能量比改变。
16.根据权利要求1-14中任一项所述的方法,其中,所估计的空间参数根据输入音频信号的时间变化而改变。
17.根据权利要求1-14中任一项所述的方法,其中,所述估计处理包含仅对实数值频率系数的操作。
18.根据权利要求1-14中任一项所述的方法,其中,将所估计的空间参数应用于所述第二组频率系数的处理是去相关处理的一部分。
19.根据权利要求18所述的方法,其中,所述去相关处理包含生成混响信号或去相关信号并且将其应用于所述第二组频率系数。
20.根据权利要求18所述的方法,其中,所述去相关处理包含应用完全对实数值系数进行操作的去相关算法。
21.根据权利要求18所述的方法,其中,所述去相关处理包含特定通道的选择性或信号自适应的去相关。
22.根据权利要求18所述的方法,其中,所述去相关处理包含特定频带的选择性或信号自适应的去相关。
23.根据权利要求1-14中任一项所述的方法,其中,所述第一组频率系数和所述第二组频率系数是将修正离散正弦变换、修正离散余弦变换、或者重叠正交变换应用于时域中的音频数据的结果。
24.根据权利要求23所述的方法,其中,所述估计处理至少部分地基于最大似然法、贝式估计、矩估计方法、最小均方误差估计、或者最小方差无偏估计中的至少一个。
25.根据权利要求1-14中任一项所述的方法,其中,所述音频数据在根据传统编码处理编码的位流中被接收。
26.根据权利要求25所述的方法,其中,所述传统编码处理包括AC-3音频编解码器或增强AC-3音频编解码器的处理。
27.根据权利要求25所述的方法,其中,与通过根据对应于所述传统编码处理的传统解码处理对位流进行解码而获得的音频再现相比,应用所述空间参数获得更加空间准确的音频再现。
28.一种音频处理装置,包括:
接口;以及
逻辑系统,被配置为:
接收包括第一组频率系数和第二组频率系数的音频数据;
基于所述第一组频率系数的至少一部分来估计用于所述第二组频率系数的至少一部分的空间参数;以及
将所估计的空间参数应用于所述第二组频率系数以生成经修正的第二组频率系数,
其中,所述第一组频率系数对应于第一频率范围,而所述第二组频率系数对应于第二频率范围;
其中,所述音频数据包括对应于单独通道和耦合通道的数据,并且其中,所述第一频率范围对应于单独通道频率范围,而所述第二频率范围对应于耦合通道频率范围;
其中,所述音频数据包括用于两个或更多个通道的第一频率范围中的频率系数,并且
其中,所述估计处理包含:
基于所述第一频率范围中的单独通道的音频数据创建复合耦合通道,其包含基于所述第一频率范围中的所述两个或更多个通道的频率系数计算所述复合耦合通道的组合频率系数;以及
对于至少第一通道,计算用于第一通道的频率系数与组合频率系数之间的互相关系数。
29.根据权利要求28所述的装置,进一步包括存储设备,其中所述接口包括所述逻辑系统与所述存储设备之间的接口。
30.根据权利要求28所述的装置,其中,所述接口包括网络接口。
31.根据权利要求28所述的装置,其中,所述应用处理包含在每个通道的基础上应用所估计的空间参数。
32.根据权利要求28所述的装置,其中,所述第一频率范围低于所述第二频率范围。
33.根据权利要求28所述的装置,其中,所述音频数据包括用于两个或更多个通道的第一频率范围中的频率系数,并且所述估计处理包含:
基于所述两个或更多个通道的频率系数计算复合耦合通道的组合频率系数;以及
对于至少第一通道,计算用于第一通道的频率系数与组合频率系数之间的互相关系数。
34.根据权利要求33所述的装置,其中,所述组合频率系数对应于所述第一频率范围。
35.根据权利要求33所述的装置,其中,所述互相关系数是归一化的互相关系数。
36.根据权利要求35所述的装置,其中,所述第一组频率系数包括多个通道的音频数据,并且其中,所述估计处理包含估计用于所述多个通道中的数个通道的归一化的互相关系数。
37.根据权利要求35所述的装置,其中,所述估计处理包含将所述第二频率范围分割成第二频率范围带并且计算用于每个第二频率范围带的归一化的互相关系数。
38.根据权利要求37所述的装置,其中,所述估计处理包括:
将所述第一频率范围分割成第一频率范围带;
将所有第一频率范围带上的归一化的互相关系数进行平均;以及
将缩放因子应用于归一化的互相关系数的平均值以获得所估计的空间参数。
39.根据权利要求38所述的装置,其中,对归一化的互相关系数进行平均的处理包含在通道的时间段上进行平均。
40.根据权利要求38所述的装置,其中,所述逻辑系统进一步被配置为向修正的第二组频率系数添加噪声,噪声被添加以对所估计的空间参数的方差进行建模。
41.根据权利要求40所述的装置,其中,通过所述逻辑系统添加的噪声的方差至少部分地基于归一化的互相关系数中的方差。
42.根据权利要求40所述的装置,其中,所述逻辑系统进一步被配置为:
接收或确定关于所述第二组频率系数的音调信息;以及
根据所述音调信息而改变所应用的噪声。
43.根据权利要求28-42中任一项所述的装置,其中,所述音频数据在根据传统编码处理编码的位流中被接收。
44.根据权利要求43所述的装置,其中,所述传统编码处理包括AC-3音频编解码器或增强AC-3音频编解码器的处理。
45.一种非暂态介质,在所述非暂态介质上存储有软件,所述软件包括用于控制音频处理装置执行以下处理的指令:
接收包括第一组频率系数和第二组频率系数的音频数据;
基于所述第一组频率系数的至少一部分来估计用于所述第二组频率系数的至少一部分的空间参数;以及
将所估计的空间参数应用于所述第二组频率系数以生成经修正的第二组频率系数,
其中,所述第一组频率系数对应于第一频率范围,而所述第二组频率系数对应于第二频率范围;
其中,所述音频数据包括对应于单独通道和耦合通道的数据,并且其中,所述第一频率范围对应于单独通道频率范围,而所述第二频率范围对应于耦合通道频率范围;
其中,所述音频数据包括用于两个或更多个通道的第一频率范围中的频率系数,并且
其中,所述估计处理包含:
基于所述第一频率范围中的单独通道的音频数据创建复合耦合通道,其包含基于所述第一频率范围中的所述两个或更多个通道的频率系数计算所述复合耦合通道的组合频率系数;以及
对于至少第一通道,计算用于第一通道的频率系数与组合频率系数之间的互相关系数。
46.根据权利要求45所述的非暂态介质,其中,所述应用处理包含在每个通道的基础上应用所估计的空间参数。
47.根据权利要求45所述的非暂态介质,其中,所述第一频率范围低于所述第二频率范围。
48.根据权利要求45所述的非暂态介质,其中,所述音频数据包括用于两个或更多个通道的第一频率范围中的频率系数,并且所述估计处理包含:
基于所述两个或更多个通道的频率系数计算复合耦合通道的组合频率系数;以及对于至少第一通道,计算用于第一通道的频率系数与组合频率系数之间的互相关系数。
49.根据权利要求48所述的非暂态介质,其中,所述组合频率系数对应于所述第一频率范围。
50.根据权利要求48所述的非暂态介质,其中,所述互相关系数是归一化的互相关系数。
51.根据权利要求50所述的非暂态介质,其中,所述第一组频率系数包括多个通道的音频数据,并且其中,所述估计处理包含估计用于所述多个通道中的数个通道的归一化的互相关系数。
52.根据权利要求50所述的非暂态介质,其中,所述估计处理包含将所述第二频率范围分割成第二频率范围带并且计算用于每个第二频率范围带的归一化的互相关系数。
53.根据权利要求52所述的非暂态介质,其中,所述估计处理包括:
将所述第一频率范围分割成第一频率范围带;
在所有第一频率范围带上将归一化的互相关系数进行平均;以及
将缩放因子应用于归一化的互相关系数的平均值以获得所估计的空间参数。
54.根据权利要求53所述的非暂态介质,其中,对归一化的互相关系数进行平均的处理包含在通道的时间段上进行平均。
55.根据权利要求53所述的非暂态介质,其中,所述软件还包括用于控制解码装置以向经修正的第二组频率系数添加噪声以对所估计的空间参数的方差进行建模的指令。
56.根据权利要求55所述的非暂态介质,其中,该添加的噪声的方差至少部分地基于归一化的互相关系数中的方差。
57.根据权利要求55所述的非暂态介质,其中,所述软件还包括用于控制解码装置以接收或确定关于所述第二组频率系数的音调信息的指令,其中所应用的噪声根据所述音调信息而改变。
58.根据权利要求45-57中任一项所述的非暂态介质,其中,所述音频数据在根据传统编码处理编码的位流中被接收。
59.根据权利要求58所述的非暂态介质,其中,所述传统编码处理包括AC-3音频编解码器或增强AC-3音频编解码器的处理。
60.一种音频处理装置,包括:
用于接收包括第一组频率系数和第二组频率系数的音频数据的部件;
用于至少部分地基于所述第一组频率系数来估计用于所述第二组频率系数的至少一部分的空间参数的部件;以及
用于将所估计的空间参数应用于所述第二组频率系数以生成经修正的第二组频率系数的部件,
其中,所述第一组频率系数对应于第一频率范围,而所述第二组频率系数对应于第二频率范围;
其中,所述音频数据包括对应于单独通道和耦合通道的数据,并且其中,所述第一频率范围对应于单独通道频率范围,而所述第二频率范围对应于耦合通道频率范围;
其中,所述音频数据包括用于两个或更多个通道的第一频率范围中的频率系数,并且
其中,所述估计处理包含:
基于所述第一频率范围中的单独通道的音频数据创建复合耦合通道,其包含基于所述第一频率范围中的所述两个或更多个通道的频率系数计算所述复合耦合通道的组合频率系数;以及
对于至少第一通道,计算用于第一通道的频率系数与组合频率系数之间的互相关系数。
61.根据权利要求60所述的装置,其中,所述应用部件包括在每个通道的基础上应用所估计的空间参数的部件。
62.根据权利要求60所述的装置,其中,所述第一频率范围低于所述第二频率范围。
63.根据权利要求60-62中任一项所述的装置,其中,所述音频数据在根据传统编码处理编码的位流中被接收。
64.根据权利要求63所述的装置,其中,所述传统编码处理包括AC-3音频编解码器或增强AC-3音频编解码器的处理。
CN201480008591.5A 2013-02-14 2014-01-22 使用估计的空间参数的音频信号增强 Active CN105900168B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361764869P 2013-02-14 2013-02-14
US61/764,869 2013-02-14
PCT/US2014/012457 WO2014126683A1 (en) 2013-02-14 2014-01-22 Audio signal enhancement using estimated spatial parameters

Publications (2)

Publication Number Publication Date
CN105900168A CN105900168A (zh) 2016-08-24
CN105900168B true CN105900168B (zh) 2019-12-06

Family

ID=50069321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480008591.5A Active CN105900168B (zh) 2013-02-14 2014-01-22 使用估计的空间参数的音频信号增强

Country Status (22)

Country Link
US (1) US9489956B2 (zh)
EP (1) EP2956934B1 (zh)
JP (1) JP6138279B2 (zh)
KR (1) KR101724319B1 (zh)
CN (1) CN105900168B (zh)
AR (1) AR094775A1 (zh)
AU (1) AU2014216732B2 (zh)
BR (1) BR112015019525B1 (zh)
CA (1) CA2898271C (zh)
CL (1) CL2015002277A1 (zh)
DK (1) DK2956934T3 (zh)
HK (1) HK1218674A1 (zh)
HU (1) HUE032018T2 (zh)
IL (1) IL239945B (zh)
IN (1) IN2015MN01955A (zh)
MX (1) MX344170B (zh)
PL (1) PL2956934T3 (zh)
RU (1) RU2620714C2 (zh)
SG (1) SG11201506129PA (zh)
TW (1) TWI618051B (zh)
UA (1) UA113682C2 (zh)
WO (1) WO2014126683A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9564144B2 (en) * 2014-07-24 2017-02-07 Conexant Systems, Inc. System and method for multichannel on-line unsupervised bayesian spectral filtering of real-world acoustic noise
TWI628454B (zh) 2014-09-30 2018-07-01 財團法人工業技術研究院 基於聲波的空間狀態偵測裝置、系統與方法
WO2016082875A1 (en) * 2014-11-26 2016-06-02 Kone Corporation Local navigation system
TWI573133B (zh) * 2015-04-15 2017-03-01 國立中央大學 音訊處理系統及方法
CN105931648B (zh) * 2016-06-24 2019-05-03 百度在线网络技术(北京)有限公司 音频信号解混响方法和装置
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
US10254121B2 (en) * 2017-01-23 2019-04-09 Uber Technologies, Inc. Dynamic routing for self-driving vehicles
CN108268695B (zh) * 2017-12-13 2021-06-29 杨娇丽 一种放大电路的设计方法及放大电路
EP3724876B1 (en) * 2018-02-01 2022-05-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis
TWI691955B (zh) * 2018-03-05 2020-04-21 國立中央大學 多通道之多重音頻串流方法以及使用該方法之系統
GB2576769A (en) * 2018-08-31 2020-03-04 Nokia Technologies Oy Spatial parameter signalling
CN110047503B (zh) * 2018-09-25 2021-04-16 上海无线通信研究中心 一种声波的多径效应抑制方法
WO2020178322A1 (en) * 2019-03-06 2020-09-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for converting a spectral resolution
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH572650A5 (zh) * 1972-12-21 1976-02-13 Gretag Ag
GB8308843D0 (en) 1983-03-30 1983-05-11 Clark A P Apparatus for adjusting receivers of data transmission channels
ES2236999T3 (es) * 1993-11-18 2005-07-16 Digimarc Corporation Video con informacion digital oculta en banda.
US6134521A (en) * 1994-02-17 2000-10-17 Motorola, Inc. Method and apparatus for mitigating audio degradation in a communication system
EP0976306A1 (en) 1998-02-13 2000-02-02 Koninklijke Philips Electronics N.V. Surround sound reproduction system, sound/visual reproduction system, surround signal processing unit and method for processing an input surround signal
US6175631B1 (en) 1999-07-09 2001-01-16 Stephen A. Davis Method and apparatus for decorrelating audio signals
US7218665B2 (en) 2003-04-25 2007-05-15 Bae Systems Information And Electronic Systems Integration Inc. Deferred decorrelating decision-feedback detector for supersaturated communications
SE0301273D0 (sv) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
ATE390683T1 (de) * 2004-03-01 2008-04-15 Dolby Lab Licensing Corp Mehrkanalige audiocodierung
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
BRPI0513255B1 (pt) 2004-07-14 2019-06-25 Koninklijke Philips Electronics N.V. Dispositivo e método para converter um primeiro número de canais de áudio de entrada em um segundo número de canais de áudio de saída, sistema de áudio, e, meio de armazenamento legível por computador
TWI393121B (zh) 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
CN101040322A (zh) 2004-10-15 2007-09-19 皇家飞利浦电子股份有限公司 处理音频数据以便生成交混回响的系统和方法
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
US7961890B2 (en) 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
WO2006132857A2 (en) 2005-06-03 2006-12-14 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
JP4944029B2 (ja) 2005-07-15 2012-05-30 パナソニック株式会社 オーディオデコーダおよびオーディオ信号の復号方法
US7765104B2 (en) * 2005-08-30 2010-07-27 Lg Electronics Inc. Slot position coding of residual signals of spatial audio coding application
RU2383942C2 (ru) * 2005-08-30 2010-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования аудиосигнала
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US8208641B2 (en) 2006-01-19 2012-06-26 Lg Electronics Inc. Method and apparatus for processing a media signal
TW200742275A (en) * 2006-03-21 2007-11-01 Dolby Lab Licensing Corp Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information
ES2362920T3 (es) 2006-03-28 2011-07-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Método mejorado para la conformación de señales en reconstrucción de audio multicanal.
EP1845699B1 (en) 2006-04-13 2009-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decorrelator
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
EP1883067A1 (en) 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
WO2008032255A2 (en) 2006-09-14 2008-03-20 Koninklijke Philips Electronics N.V. Sweet spot manipulation for a multi-channel signal
RU2406166C2 (ru) * 2007-02-14 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
DE102007018032B4 (de) 2007-04-17 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung dekorrelierter Signale
US8015368B2 (en) 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
AU2008243406B2 (en) 2007-04-26 2011-08-25 Dolby International Ab Apparatus and method for synthesizing an output signal
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US20100040243A1 (en) 2008-08-14 2010-02-18 Johnston James D Sound Field Widening and Phase Decorrelation System and Method
US8374883B2 (en) * 2007-10-31 2013-02-12 Panasonic Corporation Encoder and decoder using inter channel prediction based on optimally determined signals
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
JP5326465B2 (ja) 2008-09-26 2013-10-30 富士通株式会社 オーディオ復号方法、装置、及びプログラム
TWI413109B (zh) 2008-10-01 2013-10-21 Dolby Lab Licensing Corp 用於上混系統之解相關器
EP2214162A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
EP2234103B1 (en) 2009-03-26 2011-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for manipulating an audio signal
US8497467B2 (en) 2009-04-13 2013-07-30 Telcordia Technologies, Inc. Optical filter control
DE102009035230A1 (de) 2009-07-29 2011-02-17 Wagner & Co. Solartechnik Gmbh Solaranlage zur Warmwasseraufbereitung
GEP20146081B (en) * 2009-12-07 2014-04-25 Dolby Laboratories Licensing Corp Decoding of multichannel aufio encoded bit streams using adaptive hybrid transformation
TWI444989B (zh) 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
TWI516138B (zh) 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
SG187950A1 (en) 2010-08-25 2013-03-28 Fraunhofer Ges Forschung Apparatus for generating a decorrelated signal using transmitted phase information
EP2477188A1 (en) 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
EP2686848A1 (en) * 2011-03-18 2014-01-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frame element positioning in frames of a bitstream representing audio content
US8527264B2 (en) 2012-01-09 2013-09-03 Dolby Laboratories Licensing Corporation Method and system for encoding audio data with adaptive low frequency compensation
ES2549953T3 (es) 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada

Also Published As

Publication number Publication date
IN2015MN01955A (zh) 2015-08-28
BR112015019525A2 (pt) 2017-07-18
JP6138279B2 (ja) 2017-05-31
DK2956934T3 (en) 2017-02-27
EP2956934B1 (en) 2017-01-04
CA2898271C (en) 2019-02-19
CA2898271A1 (en) 2014-08-21
IL239945B (en) 2019-02-28
TWI618051B (zh) 2018-03-11
KR20150109400A (ko) 2015-10-01
RU2015133584A (ru) 2017-02-21
IL239945A0 (en) 2015-08-31
MX2015010166A (es) 2015-12-09
RU2620714C2 (ru) 2017-05-29
SG11201506129PA (en) 2015-09-29
KR101724319B1 (ko) 2017-04-07
PL2956934T3 (pl) 2017-05-31
BR112015019525B1 (pt) 2021-12-14
CL2015002277A1 (es) 2016-02-05
JP2016510569A (ja) 2016-04-07
WO2014126683A1 (en) 2014-08-21
UA113682C2 (xx) 2017-02-27
AR094775A1 (es) 2015-08-26
EP2956934A1 (en) 2015-12-23
HK1218674A1 (zh) 2017-03-03
AU2014216732A1 (en) 2015-07-30
HUE032018T2 (en) 2017-08-28
AU2014216732B2 (en) 2017-04-20
MX344170B (es) 2016-12-07
US9489956B2 (en) 2016-11-08
US20160005413A1 (en) 2016-01-07
CN105900168A (zh) 2016-08-24
TW201447867A (zh) 2014-12-16

Similar Documents

Publication Publication Date Title
CN105900168B (zh) 使用估计的空间参数的音频信号增强
EP2956933B1 (en) Signal decorrelation in an audio processing system
EP2956935B1 (en) Controlling the inter-channel coherence of upmixed audio signals
US9830917B2 (en) Methods for audio signal transient detection and decorrelation control
US20150371646A1 (en) Time-Varying Filters for Generating Decorrelation Signals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant