CN103119648A - 用于音频编码系统中的去相关和其他应用的相移滤波的有效实现方式 - Google Patents

用于音频编码系统中的去相关和其他应用的相移滤波的有效实现方式 Download PDF

Info

Publication number
CN103119648A
CN103119648A CN2011800455976A CN201180045597A CN103119648A CN 103119648 A CN103119648 A CN 103119648A CN 2011800455976 A CN2011800455976 A CN 2011800455976A CN 201180045597 A CN201180045597 A CN 201180045597A CN 103119648 A CN103119648 A CN 103119648A
Authority
CN
China
Prior art keywords
basis function
audio
signal
group
sound signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800455976A
Other languages
English (en)
Other versions
CN103119648B (zh
Inventor
斯蒂芬·D·弗农
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN103119648A publication Critical patent/CN103119648A/zh
Application granted granted Critical
Publication of CN103119648B publication Critical patent/CN103119648B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种分析/合成系统使用音频编码系统中现有的分析和合成滤波器组来实现需要很少(如果有的话)额外处理的相移滤波器。使用单个处理路径的一种实现方式能够获得零度或九十度的相移。使用两条处理路径的另一种实现方式能够获得基本上任何希望角度的相移。

Description

用于音频编码系统中的去相关和其他应用的相移滤波的有效实现方式
相关申请的交叉引用
本申请要求2010年9月22日递交的美国临时专利申请第61/385,487号的优先权,该美国临时专利申请的全部内容通过引用并入于此。
技术领域
本发明一般地涉及可在音频编码系统中使用的信号处理方法,并且更具体地涉及可用来有效实现相移滤波器的处理方法。
背景技术
存在能够在回放环境中呈现五个或更多个声音声道的各种音频编码系统标准。一些示例包括在由高级电视系统委员会出版的“数字音频压缩标准(AC-3,E-AC-3)”修订本B,文档A/52B,2005年6月14日(这里称作“ATSC标准”)中、以及在由国际标准组织(ISO)出版的ISO/IEC13818-7,高级音频编码(AAC)(这里称作“MPEG-2AAC标准”)和ISO/IEC14496-3,第4子部分(这里称作“MPEG-4音频标准”)中描述的那些。符合ATSC标准和这些MPEG标准的系统例如能够在所谓的5.1声道配置中呈现六声道音频,所谓的5.1声道配置包括左、右、中央、左环绕、右环绕(L、R、C、LS、RS)声道以及低频效果(LFE)声道。
许多消费者不具有能够再现这些标准所支持的所有声道的系统。结果,这些系统中的回放单元通常提供用于将能够单独呈现的所有声道下混频为更少数目声道(比如两个声道)以供传统立体声再现的装置。
如果结果得到的信号将由现有声道扩展技术来适当处理,则这些声道被下混频的方式是重要的。这些声道扩展技术能够将两声道立体声节目素材扩展到四个或更多个声道。这种技术的一个示例被用在
Figure BDA00002949588900021
Pro
Figure BDA00002949588900022
II解码器中,该解码器在2001年5月第19届AES会议上Gundry的“A New Active Matrix Decoder for SurroundSound”中被描述。这些扩展技术中的许多使用两声道立体声信号中的相位差来将输出信号导向到不同声道中以供回放。例如,左和右声道中的彼此同相且具有相等振幅的信号被导向到中央声道中,仅在左声道中或仅在右声道中的信号分别被导向到左声道或右声道中,并且左和右声道中的具有相反相位和相等振幅的信号被导向到环绕声道中。
优选地,多声道音频系统应当能够将其节目素材下混频为与现有的声道扩展技术相兼容的两声道立体声格式。下混频等式通常类似于如下式子:
Lt=L+0.707*C+0.707*(Ls+Rs)
Rt=R+0.707*C-0.707*(Ls+Rs)
其中Lt=用于左声道的下混频后的素材;并且
Rt=用于右声道的下混频后的素材。
这些等式确保意欲用于特定回放声道的信号被以声音扩展正确工作所需的相位和振幅关系来编码。
这些下混频等式还会产生不希望的副作用。如果在中央声道信号和两个环绕声道信号的和之间存在高的相关量,则下混频等式会导致不希望的抵消。例如,根据项0.707*C–0.707*(Ls+Rs)发生的信号混频会导致中央声道和环绕声道信号彼此抵消。在此情况下,意欲产生声音从收听区域的前方移至后方的听觉效果的信号可能转而产生了声音在前方开始然后陡转至收听区域的左手侧的印象。
避免此副作用的一种传统的解决方案是在环绕声声道中使用相位去相关滤波器。在理想情况下,理想的九十度相移滤波器被用来处理环绕声声道。这允许从前至后以电子方式平移(pan)的声音在Lt/Rt下混频中保持平衡,从而避免上述的抵消现象。
遗憾的是,需要大量计算资源来实现传统的九十度相移滤波器。利用有限脉冲响应滤波器的实现方式通常需要每秒执行多达3000万次指令并且会引入13毫秒或更长的信号处理延迟。诸如基于互补的无限脉冲响应滤波器或基于滤波器和延迟的组合的那些实现方式之类的简化实现方式也是可行的,但是这些方法通常引入非线性特性,其导致在某些频率处的差的频率响应或差的去相关性并且会需要相当大量的计算资源。
需要一种能够在典型多声道编码系统中实现音频信号声道间的良好信号去相关性而不引起由其他已知技术所致的问题的有效技术。
发明内容
本发明的目的之一是提供一种在各种音频信号处理系统中的相移滤波器的有效实现方式。
本发明可被有利地用于实现这样的滤波器,该滤波器在使用各种变换中的任一种来将音频信号转换为频域或频谱域表示或进行相反转换的音频编码系统中实现九十度相移或其他量的相移。
根据本发明的提供相移的一方面,正向变换被应用于源音频信号以生成该信号的频谱域表示,并且逆向变换被应用于等于或得自于频谱域表示的音频信息,以生成近似被相移了九十度的源音频信号的输出信号。正向变换根据第一组基函数来进行操作而逆向变换根据第二组基函数来进行操作,在第二组基函数中,各基函数与第一组基函数中的相应基函数相差四分之一周期。在优选实现方式中,高通滤波器被插入到在源信号与输出信号之间的信号处理路径中的某处以去除最低频率频谱成分。
本发明的其他方面在以下公开中被讨论。
通过参考以下讨论及附图,本发明的各个特征及其优选实现方式可被更好地理解,在附图中类似标号指代若干图示中的类似元件。以下讨论及附图的内容仅作为示例被提出并且不应被理解为表示对本发明范围的限制。
附图说明
图1是可并入本发明各方面的音频编码系统中的发送器的示意性框图。
图2是可并入本发明各方面的音频编码系统中的接收器的示意性框图。
图3是根据本发明教导实现的相移滤波器的总谐波失真加噪声的图示。
图4A是接收器中的使用两个合成滤波器组来获得零度或九十度相移的部分的示意性框图。
图4B是示出零度和九十度相移的极坐标图。
图5A是接收器中的使用两个合成滤波器组来获得基本上任何量的相移的部分的示意性框图。
图5B是示出四个象限的相移的极坐标图。
图6是可用来实现本发明各方面的设备的示意性框图。
具体实施方式
A.概述
图1示出适于并入本发明各方面的音频编码系统中的示例性发送器。在此发送器中,分析滤波器组11被应用于从路径1接收到的第一源音频信号以生成代表第一源音频信号的频谱内容的第一音频信息。编码器20被应用于第一音频信息以生成第一编码信息。格式化器30将第一编码信息组装到沿路径4传递的输出信号中。
在两声道应用中,发送器将分析滤波器组12应用于从路径2接收到的第二源音频信号以生成代表第二源音频信号的频谱内容的第二音频信息。编码器20被应用于第二音频信息以生成第二编码信息。格式化器30将第二编码信息组装到输出信号中。
可根据需要通过将更多分析滤波器组应用于更多源音频信号,来处理更多音频声道。为了说明清楚,仅在图中示出两个声道。
分析滤波器组11是通过第一正向变换实现的,并且分析滤波器组12是通过第二正向变换实现的。更多细节随后讨论。
编码器20可采用可能希望的基本上任何的编码处理。在优选实现方式中,编码器20应用编码处理以生成符合多种国际标准(比如上述的ATSC标准、MPEG-2AAC标准以及MPEG-4音频标准)或其他所谓的感知音频编码系统中的任一种的编码信息。对本发明而言,没有任何特定编码处理是必需的。本发明的原理可与符合其他规范的编码系统一同使用。例如,编码器20可采用仅将第一音频信息编码为适于发送或存储的数字表示的编码处理。
格式化器30可将输出信号组装为适于发送或存储的任何形式。没有任何特定组装处理是必需的。例如,格式化器30可将具有编码器元数据的编码信息、误差检测码或误差纠正码、数据库取回密钥、或通信信道同步码复用到串行比特流中,该串行比特流可被存储并且随后被取回或发送并且被适当的接收器接收以解码。
图2示出适于并入本发明各方面的音频编码系统中的示例性接收器。在此接收器中,反格式化器40被应用于从路径5接收到的编码输入信号以获得第一编码信息。解码器50被应用于第一编码信息以获得代表第一源音频信号的频谱内容的第一音频信息。合成滤波器组61被应用于第一音频信息以沿路径8生成第一源音频信号的复制品。
沿路径8生成的信号是第一音频信号的复制品,然而由于因编码处理所致的信息丢失或者由于因用于实现滤波器组的有限精度运算所致的误差,所以它可能不是精确的复制品。
在两声道应用中,反格式化器40还从编码输入信号获得第二编码信息,并且解码器50被应用于第二编码信息以获得代表第二源音频信号的频谱内容的第二音频信息。合成滤波器组62被应用于第二音频信息以沿路径9生成第二源音频信号的复制品。
可以根据需要通过将更多合成滤波器组应用于自编码输入信号获得的编码信息的更多声道,来处理更多音频声道。为了说明清楚,仅在图中示出两个声道。
反格式化器40利用解组装(disassemble)处理来将编码输入信号解组装为编码信息及其他数据。没有任何特定解组装处理是必需的,但是它应当与用于将信息组装为编码信号的组装处理是互补的。例如,编码输入信号可以是包含编码器元数据、误差检测码或误差纠正码或者通信信道同步码的比特流,并且反格式化器40将比特流解复用(demultiplex)为其相应部分。
解码器50可采用可能希望的基本上任何的解码处理。在优选实现方式中,解码器50应用处理以对符合像上文中提及的那些的标准或系统的编码信息进行解码。对本发明而言,没有任何特定解码处理是必需的,然而解码器50通常应当采用与编码器20所应用的处理互补的解码处理,以将编码信息转换为适于合成滤波器组的后续处理的另一格式。
合成滤波器组61是通过第一逆向变换实现的,并且合成滤波器组62是通过第二逆向变换实现的。更多细节随后讨论。
本发明可用在各种音频信号处理系统(比如实现不使用编码处理的多频带音频均衡器的系统)中。编码器20和解码器50所代表的处理和功能对于实践本发明而言不是必需的并且在需要时可被省略。
B.分析和合成滤波器组
1、介绍
以上讨论的分析和合成滤波器组可通过各种变换来实现。特定分析/合成系统的实现方式可将正向变换用于分析滤波器组并且将互补的或逆向的变换用于合成滤波器组。没有任何特定的变换的选择对于本发明是必需的。诸如离散余弦变换(DCT)和改进的离散余弦变换(MDCT)之类的正向变换是可使用的变换的示例。
诸如Type-II DCT和奇数堆叠的MDCT之类的正向变换生成由代表基函数的各自的权重或比例的一组系数组成的源信号的频谱内容的表示。这些基函数限定变换的运算特性。用于DCT和MDCT的基函数组是一组谐波相关的(harmonically-related)余弦函数,该余弦函数是非复数函数,因为它们可通过纯实数来表示。
诸如与Type-III DCT对应的Type-II逆DCT(IDCT)和奇数堆叠的逆MDCT(IMDCT)之类的互补逆向变换从源信号的频谱表示合成其复制品。在传统的使用中,逆向变换在不改变相位的情况下合成源信号的复制品,因为它根据与用于生成频谱表示的正向变换的那些基函数相同的基函数的组来进行操作。
本发明使用不根据相同基函数来进行操作的正向变换和逆向变换的组合。相反,逆向变换的基函数与正向变换的相应基函数相差四分之一周期。例如,如果正向变换基函数是谐波相关的余弦函数,则逆向变换基函数可以是谐波相关的正弦函数。通过以这种方式使用变换,逆向变换能够合成几乎与源信号相差四分之一周期的信号。此处理技术可有利地用在现有编码系统中以获得源信号的九十度相移版本的近似。需要非常少的(如果有的话)额外处理,因为相移处理的计算密集部分已经由编码系统执行以实现分析和合成滤波器组。可能需要的仅有的额外处理是用于将正向变换或逆向变换调整为根据不同的一组基函数来进行操作的处理。
以下讨论示出可用来调整用于通过奇数堆叠的MDCT和IMDCT实现的分析/合成系统的基函数的原理。相同的原理适用于由诸如DCT和IDCT之类的其它变换实现的分析/合成系统。
2、改进的离散余弦变换
本发明能够在传统编码系统中实现达成近乎理想的九十度相移的相移去相关滤波器。例如,符合前述ATSC标准和MPEG-2AAC标准的编码系统使用奇数堆叠的MDCT来实现发送器中的分析滤波器组并且使用奇数堆叠的IMDCT来实现接收器中的合成滤波器组。发送器将MDCT应用于源信号以生成源信号的频谱表示。频谱表示由一组变换系数组成,这一组变换系数根据心理声学原理被量化并且被组装到编码的输出信号中。伴随(companion)接收器从其编码输入信号获得该组经量化的变换系数,对其进行去量化以获得源信号的频谱表示,并且将IMDCT应用于频谱表示以获得源信号的复制品。
如之前提到的,MDCT和IMDCT根据作为谐波相关的余弦函数的一组基函数来进行操作。
虽然存在与MDCT对应的改进的离散正弦变换(MDST),但它根据作为谐波相关的正弦函数的一组基函数来进行操作。类似地,存在作为MDST的逆的并且与IMDCT对应的改进的逆离散正弦变换(IMDST),但它根据作为谐波相关的正弦函数的一组基函数来进行操作。
如果诸如前述那些之类的传统编码系统被调整以在发送器中保持MDCT而在接收器中用IMDST来替换IMDCT,则由接收器生成的输出信号近乎与源信号相差四分之一周期。类似地,如果诸如前述那些之类的传统编码系统被调整以在发送器中用MDST来替换MDCT而在接收器中保持IMDCT,则由接收器生成的输出信号近乎与源信号相差四分之一周期。
由此分析/合成处理技术实现的相移是不完美的。在接近零和接近Nyquist频率的频率处生成噪声和失真;然而,这不是此特定技术的独有的不足。对于许多其他类型的九十度相移滤波器,同样存在此相同情形。幸运的是,对于接近零频率的频谱成分的相位不显著(如果有的话)并且在接近Nyquist频率的频谱成分的振幅不显著的许多应用而言,此特性不引起任何严重的问题。对于这些类型的应用而言可接受的结果可通过在沿着源信号的接收和其复制品的输出之间的信号处理路径上的某处引入带通滤波器来实现。在许多应用中,高通滤波器是足够的,因为基本上没有频谱能量存在于Nyquist频率附近。
在编码系统的一种实现方式中,发送器被修改以具有通过MDST实现的分析滤波器组和适当的高通滤波器。该方法允许系统利用本发明的益处而无需对现有接收器进行任何修改。此外,如果相移滤波被实现以对信号进行去相关,发送器可通过分析源信号来判定两声道中的信号是否充分相关,利用接收器不可用的关于其输入源信号的信息来调整或控制相移。如果信号不是充分相关的,则发送器可以传统方式使用MDCT来针对两声道二者实现分析滤波器组。如果信号是充分相关的,则发送器可使用MDST来针对声道之一实现分析滤波器组。
在编码系统的另一种实现方式中,接收器被修改以具有通过IMDST实现的合成滤波器组和适当的高通滤波器。该方法允许接收器仅在信号被下混频时或在受益于相移的另一处理被执行时执行相移滤波。该方法还可提高发送器中的编码处理的编码效率,该编码处理关于相关信号的性能更佳。所谓的中侧(mid-side)编码和声道耦合处理是两个示例。如果需要,发送器可分析其输入信号来确定其输入源信号相关的程度并将代表此确定的控制信息组装到其编码的输出信号中。接收器可通过控制是否执行相移滤波来对此控制信息进行响应。
如之前提到的,带通滤波器或高通滤波器可在任一点处被插入到信号处理路径中。例如,在编码系统的又一实现方式中,发送器实现高通滤波器并且接收器用IMDST滤波器组替换其IMDCT合成滤波器组。
不论实现方式如何,本发明都利用了如下事实:执行MDCT和MDST及其相应的逆向变换所需的处理如此密切相关以至于在它们之间进行切换需要极少(如果有的话)额外计算资源。这一点可以从以下讨论的下面的信号处理等式的回顾看出。
3、处理等式
以下的段落讨论奇数堆叠的MDCT及其逆向变换。这些变换首次是在Princen等人的“Subband/Transform Coding Using Filter BankDesigns Based on Time Domain Aliasing Cancellation”,ICASSP1987Conf.Proc.,May1987,pp.2161-64中讨论的。此篇论文将这些变换描述为奇数堆叠且严格采样的单边带分析/合成系统的时域等同物。
奇数堆叠的MDCT可被表达为如下式所示:
X C ( k ) = 1 N &Sigma; n = 0 N - 1 x ( n ) w ( n ) cos ( 2 &pi; ( n + n 0 ) ( k + k 0 ) N ) , 对于0≤k<N(1)
其中,x(n)=源信号x的样本n;
w(n)=窗函数w的样本n;
n0=0.25N+0.5;
k0=0.5;
N=以样本数计的变换长度;以及
XC(k)=代表频谱成分k的变换系数XC。
此变换根据作为谐波相关的余弦函数的一组基函数进行操作。
根据与MDCT的基函数相差四分之一周期的一组基函数进行操作的变换可被表达为如下式所示:
X S ( k ) = 1 N &Sigma; n = 0 N - 1 x ( n ) w ( n ) sin ( 2 &pi; ( n + n 0 ) ( k + k 0 ) N ) 对于0≤k<N(2)
其中XS(k)=代表频谱成分k的变换系数XS。
此变换在此被称作改进的离散正弦变换(MDST)并且它根据作为谐波相关的正弦函数的一组基函数进行操作。
作为以上示出的MDCT的逆的IMDCT可被表达为如下式所示: x C ( n ) = 4 w ( n ) &Sigma; k = 0 N 2 - 1 X C ( k ) cos ( 2 &pi; ( n + n 0 ) ( k + k 0 ) N ) 对于0≤n<N(3)
其中xC(n)=通过IMDCT恢复的信号xC的样本n。
此变换根据作为谐波相关的余弦函数的一组基函数进行操作。
作为MDST的逆的改进的逆离散正弦变换(IMDST)根据与IMDCT的基函数相差四分之一周期的一组基函数进行操作。IMDST可被表达为如下式所示:
x S ( n ) = 4 w ( n ) &Sigma; k = 0 N 2 - 1 X S ( k ) sin ( 2 &pi; ( n + n 0 ) ( k + k 0 ) N ) 对于0≤n<N(4)
其中xS(n)=通过IMDST恢复的信号xS的样本n。
此变换根据作为谐波相关的正弦函数的一组基函数进行操作。
本发明的原理可通过考虑如下形式的正弦曲线源信号来说明:
x ( n ) = sin ( 2 &pi;fn F S + &phi; ) - - - ( 5 )
其中f=源信号x的频率;
FS=源信号的样本速率;以及
φ=源信号的相位。
定义了两个术语来简化以下讨论的推导。这些术语是:
&alpha; = 2 &pi;fn F S + &phi; - - - ( 6 )
&beta; = 2 &pi; ( n + n 0 ) ( k + k 0 ) N - - - ( 7 )
如果理想的九十度相移滤波器被应用于源信号x(n),则所获得的信号y(n)可被表达为:
y ( n ) = sin ( 2 &pi;fn F S + &phi; + &pi; 2 ) = cos ( 2 &pi;fn F S + &phi; ) - - - ( 8 )
如果MDCT被应用于信号y(n),则得到的频谱表示YC(k)可被表达为:
Y C ( k ) = 1 N &Sigma; n = 0 N - 1 w ( n ) cos ( &alpha; ) cos ( &beta; ) - - - ( 9 )
通过使用已知的三角恒等式,此表达式可被写为:
Y C ( k ) = 1 N &Sigma; n = 0 N - 1 w ( n ) cos ( &alpha; ) cos ( &beta; )
= 1 N &Sigma; n = 0 N - 1 w ( n ) [ sin ( &alpha; ) sin ( &beta; ) + cos ( &alpha; + &beta; ) ]
= 1 N &Sigma; n = 0 N - 1 w ( n ) sin ( &alpha; ) sin ( &beta; ) + 1 N &Sigma; n = 0 N - 1 w ( n ) cos ( &alpha; + &beta; )
= X S + 1 N &Sigma; n = 0 N - 1 w ( n ) cos ( &alpha; + &beta; ) - - - ( 10 )
此最后的表达式示出:通过将MDCT应用于九十度相移信号y(n)而获得的频谱表示YC(k)与通过将MDST应用于源信号x(n)而获得的频谱表示YS(k)几乎相同。两个频谱表示间的差可被表达为误差项E(k):
E ( k ) = 1 N &Sigma; n = 0 N - 1 w ( n ) cos [ 2 &pi; ( fn F S + &phi; + ( n + n 0 ) ( k + k 0 ) N ) ] - - - ( 11 )
4、误差分析
评价此误差项的显著性的一种方式是,将IMDCT应用于频谱表示YC(k)和YS(k)二者,从而获得两个信号yCC(n)和xSC(n),并且比较这些信号来计算代表总谐波失真加噪声(THD+N)的值。对于此分析而言,信号yCC(n)是希望得到的无噪声信号而信号xSC(n)是包含如表达式11所示的失真和噪声E(k)的信号。
应用IMDCT来获得两个信号可被表达为:
y CC ( n ) = 4 w ( n ) &Sigma; k = 0 N 2 - 1 Y C ( k ) cos ( 2 &pi; ( n + n 0 ) ( k + k 0 ) N ) - - - ( 12 )
x SC ( n ) = 4 w ( n ) &Sigma; k = 0 N 2 - 1 X S ( k ) cos ( 2 &pi; ( n + n 0 ) ( k + k 0 ) N ) - - - ( 13 )
THD+N的规格化的(normalized)值可被计算如下:
THD + N = &Sigma; n = 0 N - 1 ( x SC ( n ) - y CC ( n ) ) 2 &Sigma; n = 0 N - 1 ( y CC ( n ) ) 2 - - - ( 14 )
图3示出以上在表达式1-3中示出的变换的此规格化的误差值,其中具有在表达式5中所示形态的正弦曲线源信号x(n)的N=512并且FS=48kHz。该图表示出针对一定范围内的频率f和一定范围内的初始相位角φ的误差值。该图表示出:低于大约200Hz的低频信号的THD+N大于10%,然而大于约1kHz的频率的THD+N小于0.1%。该图表未示出针对Nyquist频率附近的频率THD+N增大到约10%。
如从图3中可见,MDST/IMDCT分析/合成系统在频谱的大部分上作为九十度相移滤波器十分良好地操作,并且通过将相移输出限制为除了最低和最高频率外的所有频率,它可用在许多应用中。类似结果可从MDCT/IMDST系统获得。如上所述,对于许多应用而言,对于Nyquist频率附近的频率没有可感知的信号能量;故,高通滤波器对于这些应用而言是足够的。收听实验指示出高通滤波器的合适的截止频率fHPF可作为样本频率FS和MDCT长度N的函数被计算如下:
f HPF = 4 F S N - - - ( 15 )
对于其中N=512并且FS=48kHz的实现方式而言,截止频率为375Hz。滤波器通带内的最大THD+N为0.4%。
注意到对于上述分析/合成系统所实现的结果不限于正弦曲线源信号而是可应用于任何源信号,这可能是有帮助的。通过认识到这些变换是线性的并且任何信号都可通过正弦曲线信号的线性组合来表示,这一点可能是容易理解的。
C.实现方式的变体
上述的分析/合成系统可以各种方式来实现,滤波器组可响应于信号特性或其他因素而被调整,并且额外的滤波器组可被并入系统中以提供任何角度的相移。这些变体在以下段落中被讨论。
1、一个声道
以上呈现的单声道分析/系统在此被结合图1和图2讨论。对于这些实现方式不需要分析滤波器组12和合成滤波器组62。单声道分析/合成系统可被并入到处理任何数目的其他声道的编码系统中。例如,根据本发明实现的单声道分析/合成系统可被应用于如上所述的5.1声道编码系统中的声道之一而所有其他声道可以传统方式进行处理。
参考图1所示的示例性发送器,第一源音频信号从路径1被接收。实现分析滤波器组11的第一正向变换被应用于第一音频信号以生成代表第一源音频信号的频谱内容的第一音频信息。第一正向变换根据第一组基函数进行操作。第一组基函数中的基函数可以是非复数函数。
编码器20对分析滤波器组11的输出进行编码并且格式化器30将此编码信息组装到沿路径4传递的编码输出信号中。编码输出信号去往被诸如图2所示的示例性接收器之类的接收器解码。
分析滤波器组11的实现方式可以响应于控制信号而被调整。例如,滤波器组可响应于以可能希望的任何方式获得的控制信号而由MDCT或MDST来实现。控制信号可从操作者接收或者可通过对源信号进行分析的组件而被生成。一个示例对两声道中的信号进行分析以确定它们之间的相关的程度。如果相关的程度超出阈值,则滤波器组可被调整为提供相移滤波。
参考图2所示的示例性接收器,第一音频信息被从自路径5接收到的编码输入信号获得。第一音频信息代表通过将第一正向变换应用于第一源音频信号而生成的第一源音频信号的频谱内容。第一正向变换是根据第一组基函数来进行操作的。第一组基函数中的基函数可以是非复数函数。实现合成滤波器组61的第一逆向变换被应用于第一音频信息以获得沿路径8传递的第一音频信号。第一逆向变换根据其中各基函数与第一组基函数中的相应基函数相差四分之一周期的第二组基函数来进行操作。
合成滤波器组61的实现方式可响应于控制信号而被调整。例如,滤波器组可响应于以可能希望的任何方式获得的控制信号而由IMDCT或IMDST来实现。控制信号可从操作者接收,可通过对自编码输入信号获得的音频信息进行分析的组件而被生成,或者可从发送器所提供的编码输入信号中的信息获得。
用于以上讨论的分析/合成系统以及以下将讨论的分析/合成系统的基函数可以是余弦和正弦函数。各种滤波器组可通过MDCT、MDST、IMDCT和IMDST的各种组合来实现。其他变换可被使用,包括所有类型的DCT和DST及其相应的逆向变换。
2、两声道
以上讨论的单声道分析/合成系统可被扩展为利用分析滤波器组12和合成滤波器组62处理另一声道。多声道编码系统可包含此两声道分析/合成系统以及处理一个或多个其他声道所需的组件。
两声道分析/合成系统执行以上针对单声道系统所提及的所有处理。发送器和接收器还执行针对第二声道的额外处理。
除了上述处理之外,发送器还从路径2接收第二源音频信号。实现分析滤波器组12的第二正向变换被应用于第二源音频信号以生成第二音频信息。第二音频信息代表第二源音频信号的频谱内容。编码器20对第二音频信息进行编码并且格式化器30将此编码信息组装到编码输出信号中。
除了上述处理之外,接收器还从编码输入信号获得编码信息并且将解码器50应用于此编码信息以获得第二音频信息。实现合成滤波器组62的第二逆向变换被应用于第二音频信息以获得沿路径9传递的第二音频信号。
此两声道分析/合成系统可以至少两种方式实现。
在一种实现方式中,第一正向变换根据第一组基函数进行操作,第二正向变换根据其中各基函数与第一组基函数中的相应基函数相差四分之一周期的第二组基函数进行操作,并且第一逆向变换和第二逆向变换二者根据第二组基函数进行操作。此实现方式与上述的其中发送器被修改为与现有未修改的接收器一起工作的方法相对应。分析滤波器组11的实现方式可响应于如上所述的控制信号而被调整以根据第一或第二组基函数来进行操作。
在另一种实现方式中,第一和第二正向变换根据第一组基函数进行操作,第一逆向变换根据其中各基函数与第一组基函数中的相应基函数相差四分之一周期的第二组基函数进行操作,并且第二逆向变换根据第一组基函数进行操作。此实现方式与上述的其中接收器被修改为与现有未修改的发送器一起工作的方法相对应。合成滤波器组61的实现方式可响应于如上所述的控制信号而被调整以根据第一或第二组基函数来进行操作。
这两种实现方式中的任一者可用来在下混频其声道中的两个或更多个声道的编码系统中对声道进行去相关。例如,两声道分析/合成系统中的两个声道可对应于5.1声道编码系统中的左环绕声道和右环绕声道。环绕声道之一被将其信号移相九十度的分析/合成系统处理从而使一个环绕声声道相对于另一个去相关。这两个声道然后可被组合或下混频而不产生上文中提及的不希望的副作用。
3、任意相移
图2中的接收器的实现方式还可用来实现可提供基本上任何所希望的相移角度的滤波器。在此实现方式中,合成滤波器组61和合成滤波器组62被应用于同一音频声道的音频信息。合成滤波器组61通过根据第一组基函数进行操作的第一逆向变换来实现。合成滤波器组62通过根据第二组基函数进行操作的第二逆向变换来实现,在第二组基函数中,各基函数与第一组基函数中的相应基函数相差四分之一周期。音频信息是通过对源音频信号应用正向变换而生成的。正向变换可以是根据第一或第二组基函数来进行操作的。
第一逆向变换根据与控制了正向变换的操作的基函数组相同的基函数组来进行操作。结果,第一逆向变换在没有任何相移的情况下恢复了源音频信号的复制品。第二逆向变换根据与正向变换的基函数相差四分之一周期的基函数的组来进行操作。结果,第二逆向变换生成具有九十度相移的源信号的近似,如以上所说明的那样。
接收器可通过在两个逆向变换的输出之间进行切换来提供代表无相位变化或九十度相移的输出信号。这由图4A中的示图以及图4B中示出的极坐标图示意性示出。当第二逆向变换的输出连接到图中所示的输出信号路径99时,输出信号的相位相对于源音频信号被移位了九十度,如图4B中的相量82所示。当第一逆向变换的输出连接到输出信号路径99时,输出信号的相位相对于源音频信号为零度,如图4B中的相量81所示。
图5A中示出的接收器的另一种实现方式能够产生相对于源音频信号具有基本上任何希望相位的输出信号。这通过获得来自第一逆向变换的零度相移信号和来自第二逆向变换的九十度相移信号的加权组合来实现。图5A所示的实现方式通过将各逆向变换的输出乘以适当因子然后将相乘后的信号相加来获得加权组合。获得特定相移角度θ所需的加权组合可被表达为:
xO(n)=sinθ·x1(n)+cosθ·x2(n)  (16)
其中x1(n)=由第一逆向变换生成的信号;
x2(n)=由第二逆向变换生成的信号;以及
xO(n)=经过了所希望的相移后的输出信号。
通过将逆向变换的输入乘以相同因子并组合其输出,可实现相同的结果。
上述任一种实现方式都能够实现如图5B所示的极坐标图的四个象限I到IV中任一个中的相移。例如,象限II中的150度的相移可通过针对信号x1(n)使用权重sin(150)=0.500并且针对信号x2(n)使用权重cos(150)=-0.866获得信号的加权组合来获得。
D.实现方式
并入本发明各方面的设备可以各种方式来实现,包括供计算机或者含有诸如耦合到与在通用计算机中找到的那些组件类似的组件的数字信号处理器(DSP)电路之类的更专用组件的一些其他设备执行的软件。图6是可用来实现本发明各方面的设备70的示意性框图。处理器72提供计算资源。RAM73是由处理器72用于进行处理的系统随机存取存储器(RAM)。ROM74代表一些形式的永久存储器,比如用于存储操作设备70所需且可能用于执行本发明各方面的程序的只读存储器(ROM)。I/O控制75代表经由通信信道76、77收发信号的接口电路。在所示实施例中,所有的主要系统组件连接到总线71,其可代表不止一条物理或逻辑总线;然而,总线体系架构不是实现本发明必需的。
在通过通用计算机系统实现的实施例中,额外的组件可被包括,用于连接到诸如键盘或鼠标以及显示器之类的设备,并且用于控制具有诸如磁带或盘、光介质或固态信息存储介质之类的存储介质的存储设备。存储介质可被用来记录操作系统、工具和应用的指令程序,并且可包括实现本发明各方面的程序。
实践本发明各方面所需的功能可由以各种方式实现的组件来执行,包括分立的逻辑组件、集成电路、一个或多个ASIC和/或程序控制的处理器。实现这些组件的方式对本发明而言是不重要的。
本发明的软件实现方式可通过各种机器可读媒介来传达,例如包括从超声波到紫外频率的频谱上的基带或经调制的通信路径,或者通过存储介质来传达,存储介质利用包括磁带、卡或盘、光学的卡或盘、固态设备、及包括纸张在内的介质上的可检测标记在内的基本上任何记录技术来传达信息。

Claims (13)

1.一种方法,包括:
接收传达第一音频信息的输入信号,第一音频信息代表第一源音频信号的频谱内容,并且第一音频信息是通过将第一正向变换应用于第一源音频信号而生成的,其中,第一正向变换根据第一组基函数来进行操作;
将第一逆向变换应用于第一音频信息以获得第一音频信号,其中,第一逆向变换根据第二组基函数来进行操作,在第二组基函数中,各基函数与第一组基函数中的相应基函数相差四分之一周期;以及
生成代表第一音频信号的输出信号。
2.根据权利要求1所述的方法,包括:
从代表第二源音频信号的频谱内容的输入信号获得第二音频信息,其中,第二音频信息是通过将第一正向变换应用于第二源音频信号而生成的;
将第二逆向变换应用于第二音频信息以获得第二音频信号,其中第二逆向变换根据第一组基函数来进行操作;以及
生成代表第二音频信号的第二输出信号。
3.根据权利要求1到2中的任一项所述的方法,包括:
从输入信号获得控制信息;以及
响应于控制信息将第一逆向变换调整为根据第一组基函数来进行操作。
4.根据权利要求1所述的方法,包括:
从代表第二源音频信号的频谱内容的输入信号获得第二音频信息,其中,第二音频信息是通过将第二正向变换应用于第二源音频信号而生成的,其中,第二正向变换是根据第二组基函数来进行操作的;
将第一逆向变换应用于第二音频信息以获得第二音频信号;以及
生成代表第二音频信号的第二输出信号。
5.根据权利要求2或4所述的方法,包括:对第一输出信号和第二输出信号进行组合。
6.根据权利要求1所述的方法,包括:
将第二逆向变换应用于第一音频信息以获得第二音频信号,其中第二逆向变换根据第一组基函数来进行操作;以及
根据第一音频信号和第二音频信号的组合来生成输出信号。
7.一种方法,包括:
接收第一源音频信号;
将第一正向变换应用于第一源音频信号以生成代表第一源音频信号的频谱内容的第一音频信息,其中,第一正向变换根据第一组基函数来进行操作;以及
将第一音频信息组装到去往接收器的输出信号中,接收器将从输出信号获得第一音频信息的表示,并且接收器将逆向变换应用于第一音频信息的表示,其中,逆向变换根据第二组基函数来进行操作,在第二组基函数中,各基函数与第一组基函数中的相应基函数相差四分之一周期。
8.根据权利要求7所述的方法,包括:
接收第二源音频信号;
将第二正向变换应用于第二源音频信号以生成代表第二源音频信号的频谱内容的第二音频信息,其中,第二正向变换根据第二组基函数来进行操作;以及
将第二音频信息组装到输出信号中。
9.根据权利要求7或8所述的方法,包括:
接收控制信号;以及
响应于控制信号将第一正向变换调整为根据第二组基函数来进行操作。
10.根据权利要求1到9中的任一项所述的方法,其中:
第一组基函数中的基函数是余弦函数并且第二组基函数中的基函数是正弦函数;或者
第一组基函数中的基函数是正弦函数并且第二组基函数中的基函数是余弦函数。
11.根据权利要求10所述的方法,其中:
根据作为余弦函数的基函数来进行操作的正向变换是改进的离散余弦变换;
根据作为正弦函数的基函数来进行操作的正向变换是改进的离散正弦变换;
根据作为余弦函数的基函数来进行操作的逆向变换是改进的逆离散余弦变换;以及
根据作为正弦函数的基函数来进行操作的逆向变换是改进的逆离散正弦变换。
12.一种装置,包括用于执行根据权利要求1到11中的任一项所述的方法中所有步骤中的每个步骤的相应装置。
13.一种计算机可读存储介质,记录有计算机可执行来执行根据权利要求1到11中的任一项所述的方法中所有步骤的指令程序。
CN201180045597.6A 2010-09-22 2011-09-06 用于音频编码系统中的去相关和其他应用的相移滤波的有效实现方式 Expired - Fee Related CN103119648B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US38548710P 2010-09-22 2010-09-22
US61/385,487 2010-09-22
PCT/US2011/050557 WO2012039920A1 (en) 2010-09-22 2011-09-06 Efficient implementation of phase shift filtering for decorrelation and other applications in an audio coding system

Publications (2)

Publication Number Publication Date
CN103119648A true CN103119648A (zh) 2013-05-22
CN103119648B CN103119648B (zh) 2015-06-17

Family

ID=44681421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180045597.6A Expired - Fee Related CN103119648B (zh) 2010-09-22 2011-09-06 用于音频编码系统中的去相关和其他应用的相移滤波的有效实现方式

Country Status (3)

Country Link
US (1) US20130166307A1 (zh)
CN (1) CN103119648B (zh)
WO (1) WO2012039920A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739540A (zh) * 2020-07-20 2020-10-02 天域全感音科技有限公司 一种音频信号采集装置、计算机设备及方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2939443B1 (en) * 2012-12-27 2018-02-14 DTS, Inc. System and method for variable decorrelation of audio signals
WO2015038578A2 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation System aspects of an audio codec
EP3067889A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for signal-adaptive transform kernel switching in audio coding
FR3051573B1 (fr) 2016-05-18 2018-06-15 Thales Dispositif de generation d'un signal electrique aleatoire et architecture associee

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1055830A (zh) * 1990-04-12 1991-10-30 多尔拜实验特许公司 用于产生高质量声音信号的自适应块长、自适应变换、及自适应窗变换代码、解码和编码/解码
CN1853344A (zh) * 2003-07-17 2006-10-25 Ess技术公司 信号处理装置和方法
CN101133552A (zh) * 2004-12-30 2008-02-27 索尼爱立信移动通讯股份有限公司 对于多声道信号限制的方法和设备
CN101276587A (zh) * 2007-03-27 2008-10-01 北京天籁传音数字技术有限公司 声音编码装置及其方法和声音解码装置及其方法
US20090099844A1 (en) * 2007-10-16 2009-04-16 Qualcomm Incorporated Efficient implementation of analysis and synthesis filterbanks for mpeg aac and mpeg aac eld encoders/decoders

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1055830A (zh) * 1990-04-12 1991-10-30 多尔拜实验特许公司 用于产生高质量声音信号的自适应块长、自适应变换、及自适应窗变换代码、解码和编码/解码
CN1853344A (zh) * 2003-07-17 2006-10-25 Ess技术公司 信号处理装置和方法
CN101133552A (zh) * 2004-12-30 2008-02-27 索尼爱立信移动通讯股份有限公司 对于多声道信号限制的方法和设备
CN101276587A (zh) * 2007-03-27 2008-10-01 北京天籁传音数字技术有限公司 声音编码装置及其方法和声音解码装置及其方法
US20090099844A1 (en) * 2007-10-16 2009-04-16 Qualcomm Incorporated Efficient implementation of analysis and synthesis filterbanks for mpeg aac and mpeg aac eld encoders/decoders

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739540A (zh) * 2020-07-20 2020-10-02 天域全感音科技有限公司 一种音频信号采集装置、计算机设备及方法

Also Published As

Publication number Publication date
CN103119648B (zh) 2015-06-17
US20130166307A1 (en) 2013-06-27
WO2012039920A1 (en) 2012-03-29

Similar Documents

Publication Publication Date Title
RU2645271C2 (ru) Стереофонический кодер и декодер аудиосигналов
CA2613731C (en) Apparatus for encoding and decoding audio signal and method thereof
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
KR100737302B1 (ko) 호환성 다중-채널 코딩/디코딩
EP2850753B1 (en) Method and apparatus for compressing and decompressing a higher order ambisonics signal representation
US8494667B2 (en) Apparatus for encoding and decoding audio signal and method thereof
JP2020064311A (ja) デコーダシステム及び復号方法
CN101385075B (zh) 用于编码/解码信号的装置和方法
KR101444102B1 (ko) 스테레오 오디오의 부호화, 복호화 방법 및 장치
RU2420814C2 (ru) Аудиодекодирование
EP1881486A1 (en) Parametric representation of spatial audio
CN104681030A (zh) 用于编码/解码信号的装置和方法
JP2007526691A (ja) 信号解析及び合成のための適応型混合変換
CN103119648B (zh) 用于音频编码系统中的去相关和其他应用的相移滤波的有效实现方式
CN102915739A (zh) 用于对高频信号进行编码和解码的方法和设备
CN101243491A (zh) 用于编码和解码音频信号的装置及其方法
KR20070037984A (ko) 다채널 오디오 신호의 디코딩 방법 및 그 장치
Purnhagen et al. Synthetic ambience in parametric stereo coding
RU2798009C2 (ru) Стереофонический кодер и декодер аудиосигналов
AU2012238001B2 (en) Reduced complexity transform for a low-frequency-effects channel
Lee et al. Low Complexity Binaural Rendering for Multichannel Sound
Alexandre et al. Efficient Model Performing a Multilevel Structure of Auditory Information Applied to Audio Coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150617

Termination date: 20170906