CN102124516A - 音频信号格式变换 - Google Patents

音频信号格式变换 Download PDF

Info

Publication number
CN102124516A
CN102124516A CN2009801315646A CN200980131564A CN102124516A CN 102124516 A CN102124516 A CN 102124516A CN 2009801315646 A CN2009801315646 A CN 2009801315646A CN 200980131564 A CN200980131564 A CN 200980131564A CN 102124516 A CN102124516 A CN 102124516A
Authority
CN
China
Prior art keywords
matrix
signal
abstract
input
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801315646A
Other languages
English (en)
Other versions
CN102124516B (zh
Inventor
大卫·S·麦克格拉斯
格伦·N·迪金斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN102124516A publication Critical patent/CN102124516A/zh
Application granted granted Critical
Publication of CN102124516B publication Critical patent/CN102124516B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及通过将多个音频输入信号应用于动态改变的格式变换矩阵,将多个音频输入信号从第一格式重定格式为第二格式。特别地,本发明获得可归于一个或多个方向信号分量的方向和强度的信息,基于第一和第二规则计算格式变换矩阵,并且将音频输入信号应用于格式变换矩阵以便产生输出信号。

Description

音频信号格式变换
相关申请的交叉引用
本申请要求提交于2008年8月14日的美国专利临时申请No.61/189,087的优先权,通过引用将其完整结合在此。
技术领域
本发明一般地涉及音频信号处理。特别地,本发明涉及这样的方法,该方法用于通过将多个音频输入信号应用于动态改变的格式变换矩阵(transformatting matrix)来将多个音频输入信号从第一格式重定格式(reformat)为第二格式。本发明还涉及用于执行这样的方法的装置以及计算机程序。
发明内容
根据本发明的各方面,一种用于通过将多个[NI]音频输入信号[Input1(t)...InputNI(t)]应用于动态改变的格式变换矩阵[M]来将所述多个[NI]音频输入信号[Input1(t)...InputNI(t)]从第一格式重定格式为第二格式的方法,其中多个抽象源信号[Source1(t)...SourceNS(t)]应用于编码矩阵[I],每个抽象源信号与关于自身的信息相关联,所述编码矩阵根据第一规则处理抽象源信号,所述第一规则根据与各抽象源信号相关联的抽象信息来处理各抽象源信号,所述格式变换矩阵被控制以使得减小由所述格式变换矩阵产生的多个[NO]输出信号[Output1(t)...OutputNO(t)]与被假定为已通过将抽象源信号应用于理想解码矩阵[O]被得出的多个[NO]抽象理想输出信号[IdealOut1(t)...IdealOutNO(t)]之间的差,所述解码矩阵根据第二规则处理抽象源信号,所述第二规则根据与各抽象源信号相关联的抽象信息处理各抽象源信号,所述方法包括:
响应多个频率和时间段中的每一个中的音频输入信号,获得可归于漫射、无方向信号分量的方向和强度的信息,
基于第一规则和第二规则计算格式变换矩阵,所述计算包括(a)估计(i)所述多个频率和时间段中的至少一个中的音频输入信号的协方差矩阵,以及(ii)所述多个频率和时间段中的相同的至少一个中的音频输入信号和抽象理想输出信号的互协方差矩阵,(i)方向信号分量的方向和强度,和(ii)漫射、无方向信号分量的强度,以及
将音频输入信号应用于所述格式变换矩阵以产生输出信号。
可作为所述协方差矩阵和互协方差矩阵的函数计算格式变换矩阵的特性。可以通过以协方差矩阵的逆矩阵在右侧对互协方差矩阵进行运算来获得格式变换矩阵[M]的元素,
M=Cov([IdealOutput],[Input]){Cov([Input],[Input])}-1
可以假设多个抽象源信号彼此相互不相关,由此抽象源信号的协方差矩阵被对角线化,因此简化了计算,该协方差矩阵的计算是M的计算所固有的。可通过最陡下降法确定解码器矩阵[M]。最陡下降法可以是基于前一时间间隔的M的前一估计计算格式变换矩阵的迭代估计的梯度下降法。
根据本发明的方面,一种用于通过将多个[NI]音频输入信号[Input1(t)...InputNI(t)]应用于动态改变的格式变换矩阵[M]来将所述多个[NI]音频输入信号[Input1(t)...InputNI(t)]从第一格式重定格式为第二格式的方法,其中所述多个音频输入信号被假定为已通过将多个抽象源信号[Source1(t)...SourceNS(t)]应用于编码矩阵[I]被得出,各抽象源信号被假设彼此相互不相关并且与关于自身的信息相关联,所述编码矩阵根据第一规则处理抽象源信号,所述第一规则根据与各抽象源信号相关联的抽象信息来处理各抽象源信号,所述格式变换矩阵被控制以使得减小由所述格式变换矩阵产生的多个[NO]输出信号[Output1(t)...OutputNO(t)]与被假定为已通过将抽象源信号应用于理想解码矩阵[O]被得出的多个[NO]抽象理想输出信号[IdealOut1(t)...IdealOutNO(t)]之间的差,所述解码矩阵根据第二规则处理抽象源信号,所述第二规则根据与各抽象源信号相关联的抽象信息处理各抽象源信号,所述方法包括:
响应多个频率和时间段中的每一个中的音频输入信号,获得可归于一个或多个方向信号分量的方向和强度的以及可归于漫射、无方向信号分量的强度的信息,
计算格式变换矩阵M,所述计算包括(a)在多个所述频率和时间段内组合(i)方向信号分量的方向和强度和(ii)漫射、无方向信号分量的强度,所述组合的结果构成源信号的协方差矩阵的估计[S×S],(b)计算ISSI=I×(S×S)×I和OSSI=O×(S×S)×I,和(c)计算M=(OSSI)×(ISSI)-1,以及
将音频输入信号应用于所述格式变换矩阵以产生输出信号。
抽象信息可以包括索引,并且根据与特定索引相关联的第一规则的处理可以与根据与相同索引相关联的第二规则的处理配对。第一和第二规则可被实现为第一和第二查找表,它们的表的条目被通过公共索引彼此配对。
抽象信息可以是抽象方向信息。抽象方向信息可以是抽象三维方向信息。抽象三维方向信息可以包括相对于抽象收听位置的抽象方位角和高度关系。抽象方向信息可以是抽象二维方向信息。抽象二维方向信息可以包括相对于抽象收听位置的抽象方位角关系。
第一规则可以是输入调移规则,并且第二规则可以是输出调移规则。
响应多个频率和时间段中的每一个中的音频输入信号,获得可归于一个或多个方向信号分量的方向和强度的以及可归于漫射、无方向信号分量的强度的信息,可以包括计算多个频率和时间段中的每一个内音频输入信号的协方差矩阵。可以基于协方差矩阵计算的结果,估计对于每个频率和时间段的一个或多个方向信号分量的方向和强度以及漫射、无方向信号分量的强度。可由协方差矩阵计算中的最小特征值的值形成对于每个频率和时间段的漫射、无方向信号分量的估计。
格式变换矩阵可以是具有可变系数的可变矩阵,或具有固定系数和可变输出的可变矩阵,并且可以通过改变可变系数或通过改变可变输出来控制格式变换矩阵。
解码器矩阵[M]可以是频率相关的解码器矩阵[MB]的加权和,M=∑BWBMB,其中频率相关性与频带B相关联。
本发明的各方面还包括适于实现上述方法中的任一个的装置。
本发明的各方面还包括适于实施上述方法中的任一个的计算机程序。
附图说明
图1是可用于解释根据本发明的格式变换器以及可识别(identify)这种格式变换器的方式的各方面的功能框图。
图2是分布在收听者周围的多个音频源的例子。
图3是诸如可用于定义涉及根据本发明的格式变换器的输入的规则的集合的“I”矩阵编码器的例子。
图4是诸如可用于定义涉及根据本发明的格式变换器的理想输出的规则的集合的“O”矩阵解码器的例子。
图5是对比方位角被绘制的I和O矩阵的行的例子,其中I矩阵具有两个输出,并且O矩阵具有五个输出。
图6是示出了根据本发明的各方面的M格式变换器的例子的功能图。
图7是可用于理解本发明的各方面的作为方位角位置的函数的源功率的抽象(notional)图示。
图8是可用于理解本发明的各方面的短时傅立叶变换(STFT)空间的概念图。
图9示出了具有3个时隙的时间长度和2个区间(bin)的频率高度的频率和时间段(frequency and time segment)的STFT空间中的例子。
图10示出了多个频率和时间段的例子,其中时间/频率分辨率以类似于人类感知频带的方式在低频率和高频率之间改变。
图11概念性地示出了从频率和时间段提取受操纵(steered)信号分量、漫射信号分量和源方位角方向的估计。
图12概念性地示出了从多个频率和时间段组合受操纵信号分量、漫射信号分量和源方位角方向的估计。
图13示出了图12的变型,其中漫射信号分量估计与受操纵信号分量和源方位角方向估计分离地被组合。
图14示出了图13的变型,其中通过包括估计抽象源信号的协方差矩阵的步骤计算M矩阵,所述估计包括通过对角线化该协方差矩阵来简化估计。
图15示出了图14的变型,其中图14的例子的步骤被重新布置。
图16是示出了根据本发明的各方面的多频带解码器的例子的功能框图。
图17是示出了通过对于各输出处理频带定义适当的混合矩阵Mb,将较大的频带集合合并入较小集合的例子的抽象表示。
图18概念性地示出了在根据本发明的各方面的多频带解码器中计算分析频带数据的例子。
具体实施方式
根据本发明的各方面,格式变换处理或设备(格式变换器)接收多个音频输入信号,并且将它们从第一格式重定格式为第二格式。为了表述的清晰性,该处理和设备在此被不同地称为“格式变换器”。格式变换器可以是动态改变的格式变换矩阵或矩阵化处理(例如,线性矩阵或线性矩阵化处理)。这种矩阵或矩阵化处理在本领域中常常被称为“主动矩阵”或“自适应矩阵”。
虽然本发明的各方面原则上可被在模拟域或数字域(或两者的某种组合)中实现,但是在本发明的实际实施例中,音频信号被以数据块中的时间样本表示,并且处理在数字域中进行。各种音频信号中的每一个可以是可从模拟信号得出的或将被转换为模拟音频信号的时间样本。各种时间采样信号可被以任何适合的方式或多个方式编码,诸如例如为线性脉冲编码调制(PCM)信号的形式。
第一格式的例子是一对立体声音频信号(通常被称为Lt(左总体(left total))和Rt(右总体(right total))声道(channel)),它们是或被假设是对5个离散音频信号或“声道”进行矩阵编码的结果,各离散音频信号或“声道”与相对于收听者的方位角方向抽象地相关联,诸如左(“L”)、中央(“C”)、右(“R”)、左环绕(“LS”)和右环绕(“RS”)。与空间方向抽象地相关联的音频信号通常被称为“声道”。这种矩阵编码可通过被动矩阵编码器被完成,该被动矩阵编码器根据定义的调移(panning)规则将5个方向声道映射到2个方向声道,诸如例如均是本领域公知的MP矩阵编码器或Prologic II矩阵编码器。这种编码器的细节对于本发明不是至关重要的或必需的。
第二格式的例子是5个音频信号或声道的集合,各音频信号或声道与相对于收听者的方位角方向抽象地相关联,诸如左(“L”)、中央(“C”)、右(“R”)、左环绕(“LS”)和右环绕(“RS”)声道。典型地,假设这些信号被以给处于适合位置的收听者提供这样的感受的方式再现,即每个声道如果被孤立地激励则从与其相关联的方向到达。
虽然此处描述了具有诸如上文所述的两个输入声道和诸如上文所述的五个输出声道的示例性格式变换器,但是根据本发明的格式变换器可以具有不同于两个的输入声道和不同于五个的输出声道。输入声道数目可以多于或少于输出声道数目,或它们的数目可以相等。根据本发明的格式变换器提供的格式变换可以不仅涉及声道数目,而且涉及声道的抽象方向的改变。
一种可用于描述根据本发明的各方面的格式变换器的方式是在诸如图1的环境的环境中。参考图1,假设在线路2上接收到可被以矢量“S”表示的多个(NS)抽象音频源信号(Source1(t)...SourceNS(t))。S可被定义为:
S = Source 1 ( t ) . . . Source NS ( t ) - - - ( 1.1 ) ,
其中Source1(t)到SourceNS(t)是NS个抽象音频源信号或信号分量。抽象音频源信号是抽象的(它们可以存在或可以不存在或已经存在),并且在计算格式变换器矩阵时是未知的。然而,如此处解释的,抽象源信号的某些属性的估计对于本发明的各方面是有用的。
可以假设存在固定数目的抽象源信号。例如,可以假设存在12个输入源(在下面的例子中),或可以假设存在360个源信号(例如,在围绕收听者的水平面上以例如1度的方位角增量被隔开),应理解可以存在任何数目(NS)的源。关于各音频源信号自身的信息、诸如其相对于抽象收听者的方位角或方位角和高度与各音频信号相关联。见下面描述的图2的例子。
出于表述清楚起见,在此文档的全文中,承载多个信号(或具有多个信号分量的矢量)的线路被示出为单线。在实际的硬件实施例中并且类似地在软件实施例中,这些线路可被实现为多个物理线路,或实现为在其上信号以多路复用方式被承载的一个或多个物理线路。
返回图1的描述,抽象音频源信号被施加到两个路径。在第一路径(图1所示的上部路径)中,抽象音频源信号被应用于“I”编码器或编码处理(“编码器”)4。如下面进一步解释的,I编码器4可以是根据第一规则的集合操作的静态(非时变)编码矩阵处理或矩阵编码器(例如,线性混合处理或线性混合器)I。该规则可以使得I编码器矩阵根据与各抽象源信号相关联的抽象信息处理各抽象源信号。例如,如果一方向与一源信号相关联,则该源信号可根据与该方向相关联的调移规则或系数被编码。第一规则集合的一个例子是下面描述的输入调移规则。
响应施加的NS个源信号,I编码器4输出多个(NI)音频信号,这些音频信号在线路6上作为音频输入信号(Input1(t)...InputNI(t))被施加到格式变换器。NS个音频输入信号可由矢量“Input”表示,矢量“Input”可被定义如下:
Input = Input 1 ( t ) . . . Input NI ( t ) = I × S - - - ( 1.2 ) ,
其中Input1(t)到InputNI(t)是NI个音频输入信号或信号分量。
NI个音频输入信号被应用于格式变换处理或格式变换器(格式变换器M)8。如下面进一步解释的,格式变换器M可以是可控的动态改变的格式变换矩阵或矩阵化处理。图1未示出格式变换器的控制。下面最初结合图6来解释格式变换器M的控制。格式变换器M在线路10上输出多个(NO)输出信号(Output1(t)...OutputNO(t)),它们可被以矢量“Output”表示,矢量“Output”又可被定义为:
Output = Output 1 ( t ) . . . Output NO ( t ) = M × Input = M × I × S - - - ( 1 . 3 ) ,
其中Output1(t)到OutputNO(t)是NO个音频输出信号或信号分量。
如上所述,抽象音频源信号(Source1(t)...SourceNS(t))被施加到两个路径。在第二路径(图1所示的下部路径)中,抽象音频源信号被施加到编码器或编码处理(“理想解码器‘O’”)10。如下面进一步解释的,理想解码器O可以是根据第二规则操作的静态(非时变)解码矩阵处理或矩阵解码器(例如,线性混合处理或线性混合器)O。该规则可以使得解码器矩阵O根据与各抽象源信号相关联的抽象信息处理各抽象源信号。例如,如果一方向与一源信号相关联,该源信号可根据与该方向相关联的调移系数被解码。第二规则的一个例子是下面描述的输出调移规则。
理想解码器在线路14上输出多个(NO)理想输出信号(IdealOut1(t)...IdealOutNO(t)),它们可被以矢量“IdealOut”表示,矢量“IdealOut”又可被定义为:
IdealOut = IdealOut 1 ( t ) . . . IdealOut NO ( t ) = O × S - - - ( 1 . 4 ) .
其中IdealOut1(t)到IdealOutNO(t)是NO个理想输出信号或信号分量。
假设采用根据本发明的各方面的格式变换器M以便给收听者提供尽可能近地接近图2所示状况的体验可以是有用的,在图2中存在围绕收听者20定位的若干离散虚拟声源。在图2的例子中,存在8个声源,应理解可以存在如上所述的任何数目(NS)的源。每个声源与关于该声源的信息、诸如其相对于抽象收听者的方位角或方位角和高度相关联。
原则上,当Input表示仅仅NI个离散源时,根据本发明的各方面操作的格式变换器M可以提供完美结果(Output到IdealOut的完美匹配)。例如,在从两个Source信号得出两个Input信号(NI=2)的情况下,对于多个信号条件每个Source信号被调移到不同的方位角,格式变换器M能够在其Output声道中分离这两个源并且将它们调移到它们的适当方向。
如上所述,输入源信号Source1(t),Source2(t),...SourceNS(t)是抽象的并且是未知的。作为替代,已被通过矩阵编码器I从NS个源信号下混合的输入信号的较小集合(NI)是已知的。假设通过使用已知的静态混合矩阵I(NI×NS矩阵)来执行这些输入信号的创建。如有必要,矩阵I可以包含复数值,以便指示在混合处理中应用的相移。
假设来自格式变换器M的输出信号驱动或预期驱动一组扬声器,所述扬声器的数目是已知的,并且扬声器不必须被定位在相应于原始源信号方向的角度位置。格式变换器M的目标是得到其输入信号并且创建输出信号,该输出信号在被应用于扬声器时给收听者提供尽可能近地模拟诸如图2的例子的情景(scenario)的体验。
如果假设已被提供原始源信号Source1(t),Source2(t),...SourceNS(t),则可以假定(postulate)存在产生“理想”扬声器信号的最佳混合处理。理想解码器矩阵O(NO×NS矩阵)混合源信号以创建这种理想扬声器馈送。假设来自格式变换器M的输出信号和来自理想解码器矩阵O的理想输出信号被馈送或预期馈送到相对一个或多个收听者以相同方式布置的相同扬声器集合。
格式变换器M被提供NI个输入信号。其使用线性矩阵混合器M(其中M可以是时变的)产生NO个输出信号。M是NO×NI矩阵。格式变换器的一目标是产生尽可能近地匹配理想解码器的输出(但是理想输出信号是未知的)的输出。然而,格式变换器确实知道I和O矩阵混合器的系数(例如可从如下所述的输入和输出调移表获得),并且它可以使用此知识在确定其混合特性时进行指导。当然,“理想解码器”不是格式变换器的实际部分,但是由于如下文解释的其输出被使用以与格式变换器的性能进行理论比较,因此其在图1中示出。
虽然格式变换矩阵M的输入和输出的数目(NI和NO)对于给定的格式变换器可以是固定的,但是输入源的数目一般是未知的,并且一种十分有效的方法是“猜测”源的数目NS大(诸如NS=360)。一般地,如果NS被选择为太小,则格式变换器中可能存在一些精确度损失,从而NS的理想值涉及精确度和效率之间的折中。NS=360的选择可用于提醒读者(a)源的数目优选地应是大的,并且典型地(b)源在围绕收听者的水平面上跨越360度。在实际系统中,NS可被选择为小得多(诸如NS=12,如下面的例子中解释的),或对于某些实现可以按以下方式操作,即将源音频当作角度的连续函数,而不是被量化到固定角位置(仿佛NS=∞)。
可以采用调移表来表达输入调移规则和输出调移规则。这种调移表可被布置为使得例如该表的行相应于声源方位角。等同地,可以用具有成对条目的输入到输出重定格式规则的形式定义调移规则,而不参照任何具体声源方位角。
可以定义具有相同数目的条目的一对查找表,第一个查找表是输入调移表,并且第二个查找表是输出调移表。例如,下面的表1示出了用于矩阵编码器的输入调移表,其中该表中的12行相应于12种可能的输入调移情景(在这种情况下,它们相应于水平环绕声再现系统的12个方位角)。下面的表2示出了输出调移表,其指示用于相同的12种情景的希望的输出调移规则。输入调移表和输出调移表可以具有相同数目的行,从而输入调移表的各行可以与输出调移表中的相应行配对。
虽然在文中的例子中涉及调移表,还可以将它们表征为调移函数。主要的差别为通过以作为整数的索引寻址表的一行来使用调移表,而以连续输入(诸如方位角)来索引调移函数。调移函数的操作十分类似于无限大小的调移表,其必须依赖调移值的某些类型的算法计算(例如,在矩阵编码输入的情况下,sin()和cos()函数)。
调移表的每行可以相应于一情景。情景的总数是NS,其还等于表的行数。在此处的例子中,NS=12。一般地,可以将输入和输出调移表结合为下面表3中所示的组合输入输出调移表。
图3示出了I编码器4、12输入2输出的矩阵编码器30的例子。这种矩阵编码器可被认为是具有RS(右环绕)、R(右)、C(中央)、L(左)和LS(左环绕)输入的常规5输入2输出(Lt和Rt)编码器的超集。如下面表1中所示,标称到达角的方位角值可以与12个输入声道(情景)中的每一个相关联。这个例子中的增益值被选择为相应于简单角度的余弦,以便简化后续数学运算。可以使用其它值。特定增益值对于本发明不是至关重要的。
Figure BDA0000046721830000111
表1输入调移表
因此,根据这个例子,输入调移矩阵I是2×12矩阵,并且被定义如下:
Figure BDA0000046721830000122
Figure BDA0000046721830000123
Figure BDA0000046721830000124
其中:
Figure BDA0000046721830000125
1.2
Figure BDA0000046721830000126
这些增益值遵从通常接受的用于矩阵编码的规则:
1)当信号被调移到90°时(到左侧),左声道的增益应为1.0,并且右声道的增益应为0.0;
2)当信号被调移到-90°时(到右侧),左声道的增益应为0.0,并且右声道的增益应为1.0;
3)当信号被调移到0°时(到中央),左声道的增益应为
Figure BDA0000046721830000127
并且右声道的增益应为
Figure BDA0000046721830000128
4)当信号被调移到180°时(到后面),左声道和右声道增益应异相;以及
5)不论角度θ如何,两个增益值的平方的总和应为1.0:
(GLt,θ)2+(GRt,θ)2=1。
图4示出了O理想解码器12、12输入5输出矩阵解码器40的例子。输出预期用于分别位于相对于收听者被指示的标称方向的5个扬声器。如下面表2中所示,标称到达角的值可以与12个输入声道(情景)中的每一个相关联。这个例子中的增益值被选择为相应于简单角度的余弦,以便简化后续数学运算。可以使用其它值。特定增益值对于本发明不是至关重要的。
Figure BDA0000046721830000131
表2输出调移表
表2中的调移系数有效地定义了一示例性O矩阵,即,
O = 0 0 0 0 0 0 0 1 / 3 2 / 3 1 1 / 2 0 0 0 0 0 1 / 3 2 / 3 1 2 / 3 1 / 3 0 0 0 0 0 1 / 2 1 2 / 3 1 / 3 0 0 0 0 0 0 - 1 / 2 0 0 0 0 0 0 0 0 0 1 / 2 1 1 / 2 1 1 / 2 0 0 0 0 0 0 0 0 0 - - - 1.3
可替换地,在等式1.4中给出了恒定功率(constant power)输出调移矩阵:
O = 0 0 0 0 0 0 0 1 / 3 2 / 3 1 1 / 2 0 0 0 0 0 1 / 3 2 / 3 1 2 / 3 1 / 3 0 0 0 0 0 1 / 2 1 2 / 3 1 / 3 0 0 0 0 0 0 - 1 / 2 0 0 0 0 0 0 0 0 0 1 / 2 1 1 / 2 1 1 / 2 0 0 0 0 0 0 0 0 0 - - - 1.4
恒定功率调移矩阵具有这样的特性,即O矩阵的每列内的调移增益的平方合计为1的属性。虽然输入编码矩阵I典型地是预定义的矩阵,但是输出混合矩阵O可在某种程度上被“手工制作”,从而允许进行调移规则的某些修改。已被发现有利的调移矩阵是下面示出的一个矩阵,其中L-LS和R-RS扬声器对之间的调移是恒定功率调移,并且所有其它扬声器对以恒定振幅调移被调移。
O = 0 0 0 0 0 0 0 1 / 3 2 / 3 1 1 / 2 0 0 0 0 0 1 / 3 2 / 3 1 2 / 3 1 / 3 0 0 0 0 0 1 / 2 1 2 / 3 1 / 3 0 0 0 0 0 0 - 1 / 2 0 0 0 0 0 0 0 0 0 1 / 2 1 1 / 2 1 1 / 2 0 0 0 0 0 0 0 0 0 - - - 1.5
图5示出了相对方位角被绘制的I和O矩阵的行(I矩阵具有2行,并且O矩阵具有5行,从而绘制了总共7条曲线)。这些绘制图实际上示出了具有比上面所示的矩阵更大的分辨率的调移曲线(使用是在收听者周围的72个方位点处、而不是12个点处被量化的角度)。注意,此处示出的输出调移曲线基于L-Ls和R-Rs之间的恒定功率调移、以及其它扬声器对之间的恒定振幅调移的混合(如等式1.5所示)。
实际上,用于矩阵编码器(或类似地用于解码器)的调移表在θ=180°处包含不连续,在该处Lt和Rt增益“翻转(flip)”。可以通过在环绕声道中引入相移来克服此相位翻转,并且这然后将导致表2的最后两行中的增益值为复数而不是实数。
如上所述,可以将输入和输出调移表一起组合成组合输入-输出调移表。表3中示出了具有成对的条目并且被行号索引的这种表。
Figure BDA0000046721830000151
表3组合输入-输出调移表
可以假设根据输入调移表内展示的混合规则创建输入信号。还可以假设输入信号的创建器通过根据输入调移表内的情景混合多个原始源信号来产生这些输入信号。例如,如果根据输入调移表内的情景3和8混合两个原始源信号Source3和Source8,则然后输入信号为:
Inputi=Ii,3×Source3+Ii,8×Source8(1.6)
因此,通过根据如输入调移表的行3和8中定义的增益系数Ii,3和Ii,8将原始源信号Source3和Source8混合在一起来创建各输入信号(i=1...NI)。
理想地,格式变换器产生尽可能近地匹配理想的输出(NO个声道):
IdealOutput0=Oo,3×Source3+Oo,8×Source8   (1.7)
因此,通过根据如输出调移表的行3和8中定义的增益系数Oo,3和Oo,8将原始源信号Source3和Source8混合在一起来定义各理想输出声道(o=1...NO)。
不论用于创建输入信号的原始源信号的实际数目如何(在上面的例子中两个信号),如果假设对于调移表中的每种情景存在一个原始源信号,则数学运算被简化(因此,尽管原始源信号中的某些可以是零,但是原始源信号的数目等于NS)。在该情况下,等式1.6和1.7成为:
Input i = Σ s = 1 NS I i , s × Source s (1.8)
IdealOutput o = Σ s = 1 NS O o , s × Source s
参考图1,M格式变换器的一个目标是最小化其输出与O理想解码器的输出之间的幅值平方误差(error):
Error=Output-IdealOut
(1.9)   =M×I×S-O×S
||Error||2=(Output1-IdealOut1)2+…+(OutputNO-IdealOutNO)2
(1.10)
=trace((Output-IdealOut)×(Output-IdealOut)*)
其中“*”运算符指示矩阵或矢量的共轭转置。
在等式(1.10)展开时:
||Error||2=trace((M×I×S-O×S)×(M×I×S-O×S)*)
=trace((M×I×S-O×S)×(S*×I*×M*-S*×O*))(1.11)
=trace(M×I×S×S*×I*×M*-M×I×S×S*×O*
-O×S×S*×I*×M*+O×S×S*×O*)
该目标是通过使得上述函数的梯度等于零来最小化等式1.9。
Figure BDA0000046721830000163
使用通常已知的矩阵恒等式:
∂ trace ( A × X × B ) ∂ X = ∂ trace ( B * × X * × A * ) ∂ X = B × A - - - ( 1.13 )
∂ trace ( A × X × B × X * × C ) ∂ X = B × X * × C × A + B * × X * × A * × C * - - - ( 1.14 )
可以简化等式1.12:
∂ | | Error | | 2 ∂ M = 2 × I × S × S * × I * × M * - 2 × I × S × S * × O * - - - ( 1.15 )
使得1.15等于零得到:
I×S×S*×I*×M*=I×S×S*×O*   (1.16)
将等式1.16的两边转置产生:
M×I×S×S*×I*=O×S×S*×I*   (1.17)
如等式(1.17)指示的,矩阵M的最优值依赖于两个矩阵I和O以及S×S。如上所述,I和O已知,因此可以通过估计S×S、源信号的协方差来实现优化M格式变换器。源协方差矩阵可被表述为:
Figure BDA0000046721830000171
Figure BDA0000046721830000172
原则上,格式变换器可以每个采样周期生成协方差S×S的新估计,从而可以每个采样周期计算新矩阵M。虽然这可以产生最小误差,但是其还可能在采用M格式变换器的系统所产生的音频中导致不希望的失真。为了减少或消除这种失真,可以对M的时间更新应用平滑化。因此,可以采用S×S的缓慢改变并且被较不频繁地更新的确定。
实际上,可以通过在时间窗口上进行时间平均来构造源协方差矩阵:
Figure BDA0000046721830000173
可以使用简化符号:
Figure BDA0000046721830000175
Figure BDA0000046721830000176
理想地,时间平均处理应在时间中前后观察(按照等式(1.19)),但是实际系统可能不可使用输入信号的未来样本。因此,实际系统可被限制为使用过去的输入样本进行统计分析。然而,可以在该系统中在别处增加延迟以便提供“预见”效果(见图6中的“延迟”块)。
ISSI和OSSI矩阵
等式1.19包括项I×S×S×I和O×S×S×I。作为一种简化命名形式,ISSI和OSSI被用于指代这些矩阵。对于2声道输入到5声道输出的格式变换器,ISSI是2×2矩阵,并且OSSI是5×2矩阵。因而,不管S矢量(其可以非常大)的大小如何,ISSI和OSSI矩阵相对小。本发明的一方面为不仅ISSI和OSSI矩阵的大小与S的大小无关,而且不必具有知道S的直接知识。
存在可以解释ISSI和OSSI矩阵的含义的若干方式。如果已形成源协方差(S×S)的估计,则可以将ISSI和OSSI看作:
ISSI=I×(S×S*)×I*=I×cov(S)×I*
(1.21)
OSSI=O×(S×S*)×I*=O×cov(S)×I*
上面的等式揭示可以使用源协方差S×S计算ISSI和OSSI。本发明的一方面是为了计算M的最优值,不必知道实际的源信号S,而仅需要知道源协方差S×S
可替换地,ISSI和OSSI可被解释如下:
Figure BDA0000046721830000181
Figure BDA0000046721830000182
Figure BDA0000046721830000183
(1.22)
Figure BDA0000046721830000184
Figure BDA0000046721830000185
Figure BDA0000046721830000186
(1.23)
Figure BDA0000046721830000188
因此,根据本发明的其它方面:
●ISSI矩阵是格式变换器的Input信号的协方差,并且可以在没有源信号S的任何知识的情况下被确定。
●OSSI矩阵是IdealOut信号和格式变换器的Input信号之间的互协方差。不同于ISSI矩阵,必须知道(a)为了计算OSSI矩阵的值的源信号的协方差S×S,或(b)IdealOut信号的估计(Input信号是已知的)。
根据本发明的各方面,例如可以用下列方式完成控制M格式变换器以便最小化Output信号和IdealOutput信号之间的差的近似(诸如,最小均方近似):
得到M格式变换器的Input信号(Input1,Input2,...InputNI),并且计算它们的协方差(ISSI矩阵)。通过协方差数据的检查,估计输入调移表的哪些行被用于创建输入数据(原始源信号的功率估计)。然后,使用Input和Output调移表估计Input到IdealOutput的互协方差。然后,使用Input协方差和Input-IdealOutput互协方差计算混合矩阵M,并且然后将这个矩阵应用于输入信号以产生Output信号。如下面进一步讨论的,如果假设原始源信号彼此相互不相关,可以在不参考调移表的情况下获得Input-IdealOutput互协方差的估计。
可以用新的ISSI和OSSI表取代Input和Output调移表。例如,如果原始输入/输出调移表如表3中所示,则ISSI/OSSI查找表将类似表4。
Figure BDA0000046721830000191
表4-ISSI/OSSI查找表
通过使用ISSI/OSSI查找表,根据本发明的各方面,例如可以用下列方式完成控制M格式变换器以便最小化Output信号和IdealOutput信号之间的差的近似(诸如,最小均方近似):
得到输入信号(Input1,Input2,...InputNI)并且计算它们的协方差(ISSI矩阵)。通过使计算出的输入协方差与ISSI/OSSI查找表中的LookupISSI值匹配,估计ISSI/OSSI查找表的哪些行被用于创建输入协方差数据(原始源信号的功率估计)。然后,使用LookupOSSI值来计算相应的Input到IdealOutput的互协方差。然后,使用输入协方差和输入-输出互协方差计算混合矩阵M,并且然后将这个矩阵应用于输入信号以产生输出信号。
图6的功能图示出了根据本发明的各方面的M格式变换器的例子。M格式变换器的核心操作器、第一路径62(信号路径)中的混合器或混合功能(“混合器(M)”)60通过任选的延迟64接收NI个输入信号,并且输出NO个输出信号。M混合器60包括NO×NI矩阵M,以便根据等式1.3将NI个输入信号映射到NO个输出信号。通过第二路径或“支链”(控制路径)的处理可使M混合器60的系数M时变,第二路径具有三个设备或功能:
●由设备或功能66(“分析输入并估计S×S”)分析输入信号,以便建立对源信号S的协方差的估计。
●在设备或功能68(“计算ISSI和OSSI”)中使用源协方差估计计算ISSI和OSSI矩阵。
●由设备或功能70(“计算M”)使用ISSI和OSSI矩阵计算矩阵系数M。
支链通过尝试找到S×S的可能估计以试图进行关于源信号的推断。可以通过得到输入音频的开窗块以使得可以在合理大小的数据集合上进行统计分析,来帮助该处理。另外,可以在S×S、ISSI、OSSI和/或M的计算中应用某些时间平滑。作为块处理和平滑操作的结果,混合器M的系数的计算可滞后于音频数据,并且因此可有利地如图6中的任选的延迟64所指示地延迟混合器的输入。矩阵M具有NO行和NI列,并且定义NI个输入信号和NO个输出信号之间的线性映射。由于其被随时间持续更新以基于输入信号的当前观察到的属性提供适当的映射函数,它还可被称为“主动矩阵解码器”。
对源协方差S×S 的更进一步的调查
如果使用若干(NS)个预先定义的源位置来表示收听体验,则理论上,可通过创建源位置之间的假想(经调移的)图像以给收听者呈现声音从任何任意方向到达的感觉。然而,如果源位置的数目(NS)足够大,可以避免对假想图像的需要,并且可以假设源信号Source1,...SourceNS相互不相关。虽然在一般情况中是不真实的,但是经验已示出该算法执行得很好,而可以不管此简化。以假设源信号互相不相关的方式计算根据本发明的各方面的格式变换器。
此假设的最显著的副作用是源协方差矩阵变为对角线的:
Figure BDA0000046721830000211
因而,ISSI和OSSI矩阵的估计被缩减为更简单的任务:估计如图2的例子中所示的收听者周围的不同方位角位置处源信号Source1,Source2,...SourceNS的相对功率。因此,如等式1.24中,可以用源功率列矢量(NS×1)来考虑源协方差矩阵(NS×NS),其中作为方位角位置的函数的源功率的抽象图示可例如如图7所示。诸如301处的强度分布中的峰值指示以302指示的角度处的提高的源功率(图7)。
到达方向估计
如图6的框图所示,输入信号的分析包括对源协方差(S×S)的估计。如上所述,可通过利用输入信号的协方差确定功率相对于方位角的分布来获得S×S的估计。这可以使用所谓的短时傅立叶变换或STFT来实现。图8示出了STFT空间的概念,其中垂直轴是被划分为n个频带或区间的频率(直到大约20kHz),并且水平轴是被划分为m个时间间隔的时间。示出了任意频率-时间段Fi(m,n)。时隙m之后的时隙被以时隙m+1和m+2示出。
时间相关的傅立叶变换数据可被隔离为邻接频带Δf,并且被在改变的时间间隔Δt上积分,从而积Δf×Δt被保持为预定的(但是不必是固定的)值,最简单的情况是其被保持恒定。通过从与每个频带相关联的数据提取信息,可以推断功率级和估计的方位角源角度。所有频带上的这种信息的全体可以提供诸如图7的例子中的源功率相对于方位角角度分布的相对完整的估计。
图8、9和10示出了STFT方法。在改变的时间间隔Δt上对各种频带Δf积分。一般来说,与较高频率相比,较低频率可被在较长时间上积分。STFT提供了在每个时间间隔和每个频率区间的复数傅立叶系数的集合。
STFT将经时间采样的输入信号的原始矢量变换为经采样的傅立叶系数的集合:
STFT Input ( m , n ) = F 1 ( m , n ) . . . F NI ( m , n ) - - - ( 1.25 )
然后确定这样的时间/频率间隔上的输入信号的协方差。由于它们仅被从输入信号的一部分被确定,因此它们被称为PartialISSI(m,n,Δm,Δn)。
PartialISSI ( m , n , Δm , Δn ) =
Σ m ′ = 0 Δm - 1 Σ n ′ = 0 Δn - 1 ( STFT Input ( m - m ′ , n + n ′ ) × STFT Input ( m - m ′ , n + n ′ ) * ) - - - ( 1.26 )
其中m指开始时间索引并且Δm指其持续时间。类似地,n指初始频率区间并且Δn指其范围。图9示出了Δm=3并且Δn=2的情况。
可以用若干方式进行时间/频率块的分组。虽然对于本发明不是至关重要的,但下面的例子被发现是有用的:
●在PartialISSI(m,n,Δm,Δn)的计算中组合的傅立叶系数的数目等于Δm×Δn。为了计算协方差的合理的无偏估计,Δm×Δn应当至少为10。实际上,已经发现使用较大的块是有益的,从而Δm×Δn=32。
●在较低频率范围中,常常有利的是设定Δn=1和Δm=32,以增加的时间拖尾为代价有效地提供了较低频率处的较高频率选择性。
●在较高频率范围中,常常有利的是设定Δn=32和Δm=1,有效地提供了较高频率处的较低频率选择性,而且具有改进的时间分辨率的优点。这种概念在图10中示出,其中时间/频率分辨率以类似于人类感知频带的方式在低频率和高频率之间改变。
可以使用经时间采样的Inputi(t)信号完成PartialISSI协方差计算。然而,STFT系数的使用允许在不同频带上更容易地计算PartialISSI,并且提供了从PartialISSI计算提取相位信息的附加能力。
矩阵解码器的到达方向分布
下面对于两个(NI=2)输入声道的情况举例说明从各PartialISSI矩阵提取源方位角。假设输入信号由两个信号分量构成:
Input=SteeredSignal+DiffuseSignal    (1.27)
Figure BDA0000046721830000231
DiffuseSignal = Noise L ( t ) Noise R ( t ) - - - ( 1.29 )
其中分量信号的RMS功率由下式给出:
rms ( Noise L ( t ) ) = rms ( Noise L ( t ) ) = σ noise 2 - - - ( 1.30 )
rms(Sig(t))=σsig
换言之,方向或“受操纵”信号由基于源方向θ被调移到输入声道内的源信号(Sig(t))构成,而漫射信号由在两个输入声道中平等地散布的不相关噪声构成。
协方差矩阵是:
Figure BDA0000046721830000241
Figure BDA0000046721830000242
Figure BDA0000046721830000243
此协方差矩阵具有两个特征值:
λ 1 = σ noise 2 2 (1.34)
λ 2 = σ noise 2 2 + σ sig 2
对协方差矩阵的特征值的检查展示了漫射信号分量σnoise和受操纵信号分量σsig的振幅。另外,可以使用适合的三角操作处理来提取角度θ,如下:
Cov 1,1 = σ noise 2 2 + σ sig 2 ( 1 2 + 1 2 sin ( θ ) )
Cov 2,2 = σ noise 2 2 + σ sig 2 ( 1 2 - 1 2 sin ( θ ) )
Cov 1,2 = Cov 2,1 = σ sig 2 1 2 cos ( θ ) - - - ( 1.35 )
· · · cos ( θ ) = Cov 1,2 + Cov 2,1 σ sig 2 , sin ( θ ) = Cov 1,1 - Cov 2,2 σ sig 2
· · · θ = tan - 1 ( Cov 1,1 - Cov 2,2 , Cov 1,2 + Cov 2,1 )
这样,分析各PartialISSI矩阵以提取受操纵信号分量、漫射信号分量和源方位角方向的估计,如图11所示。然后,可以将来自PartialISSI的完整集合的全体数据组合在一起以形成单个合成分布,如图12所示。实际上,优选地保持受操纵分布数据与漫射分布数据分离,如图13所示。在图14的信号流中,由于每个PartialISSI计算产生其自己的受操纵和漫射分布数据,并且这些分布数据被线性累加在一起以便形成最终分布,因此从被提取信号统计形成分布是线性操作。另外,使用最终分布通过也是线性的处理来创建ISSI和OSSI。由于这些步骤是线性的,因此可以重新布置这些步骤以便简化计算,如图15所示。
计算受操纵和漫射ISSI和OSSI矩阵
如下计算FinalISSI和FinalOSSI:
FinalISSI=ISSIdiff+ISSIsteered
(1.36)
FinalOSSI=OSSIdiff+OSSIsteered
其中使用PartialISSI矩阵的分析以计算对于每个分量的参数。ISSI和OSSI矩阵的总的受操纵分量是:
ISSI steered = Σ p ISSI steered , p (1.37)
OSSI steered = Σ p OSSI steered , p
其中在p上的求和指示对所有相应的PartialISSI和PartialOSSI贡献进行累加。
从每个PartialISSI矩阵的分析,可以获得信号功率振幅σsig、漫射功率振幅σnoise和相关联的源方位角θ。每个PartialISSI矩阵可被重写如下:
Figure BDA0000046721830000253
其中上面等式中的第一项是漫射分量,并且第二项是受操纵分量。重要的是注意如下方面:
●漫射分量ISSIdiff,p是一标量和单位矩阵的乘积。其与方位角θ无关。
●受操纵分量ISSIsteered,p是一标量和具有仅依赖方位角θ的元素的矩阵的乘积。后者被方便地存储在预先计算的查找表内,被最接近的邻近方位角索引。
可以类似地定义OSSIdiff,p和OSSIsteered,p矩阵。
受操纵(“方向”)分量
受操纵项可被写为如下:
ISSI steered , p = σ sig , p 2 × Lookup ISSI ( θ )
(1.39)
OSSI steered , p = σ sig , p 2 × Lookup OSSI ( θ )
其中,对于当前例子:
Lookup ISSI ( θ ) = I 1 , θ × I 1 , θ * I 1 , θ × I 2 , θ * I 2 , θ × I 1 , θ * I 2 , θ × I 2 , θ * - - - ( 1.40 )
Lookup OSSI ( θ ) = O 1 , θ × I 1 , θ * O 1 , θ × I 2 , θ * O 2 , θ × I 1 , θ * O 2 , θ × I 2 , θ * O 3 , θ × I 1 , θ * O 3 , θ × I 2 , θ * O 4 , θ × I 1 , θ * O 4 , θ × I 2 , θ * O 5 , θ × I 1 , θ * O 5 , θ × I 2 , θ * - - - ( 1.41 )
Ik,θ的一个例子为:
Figure BDA0000046721830000265
(1.42)
Figure BDA0000046721830000266
并且类似地对于Ok,θ
Figure BDA0000046721830000267
Figure BDA0000046721830000268
O 3 , θ = cos ( θ 2 ) - - - ( 1.43 )
Figure BDA00000467218300002610
Figure BDA00000467218300002611
漫射分量
总DiffuseISSI和总DiffuseOSSI矩阵可被写为:
ISSI diff = ( Σ p σ noise , p 2 ) × DesiredDiffuseISSI (1.44)
OSSI diff = ( Σ p σ noise , p 2 ) × DesiredDiffuseOSSI
其中DesiredDiffuseISSI和DesiredDiffuseOSSI是预先计算的矩阵,其被设计为以与一组均匀散布的受操纵信号相同的方式解码漫射输入信号。实际上,已经发现基于诸如例如响应于受操纵信号的主观响度的主观评估修改DesiredDiffuseISSI和DesiredDiffuseOSSI矩阵是有利的。
作为例子,DesiredDiffuseISSI和DesiredDiffuseOSSI的一种选择如下:
DesiredDiffuseISSI = 1 / 2 0 0 1 / 2 - - - ( 1.45 )
DesiredDiffuseOSSI = 0.370 0 . 000 0.262 0.262 0.000 0.370 0.380 - 0.085 - 0.085 0.380 - - - ( 1.46 )
混合矩阵M的计算
解码器中最后的步骤是计算混合矩阵M的系数。理论上,M预期是以下等式的最小均方解:
M×ISSI=OSSI    (1.47)
实际上,ISSI矩阵总是正定(positive definite)的。因此这样产生了两种可能的用于高效地计算M的方法:
●由于是正定的,ISSI是不可逆的。所以可以通过等式M=ISSI×OSSI-1计算M。
●由于ISSI是正定的,因此使用梯度下降算法迭代地计算M是相当直接的。梯度下降法可以如下操作:
Mi+1=Mi+δ×(OSSI-Mi×ISSI)            (1.48)
其中δ被选择以便调整梯度下降算法的收敛速率。δ的值可被故意地选择为小,以便减慢M的更新,由此平滑化混合系数的时间改变,并且避免作为迅速改变系数的结果而产生的失真伪像。
格式变换器的多频带版本
前文一般涉及使用单个矩阵M处理输入信号以产生输出信号。由于以相同方式处理输入信号的所有频率分量,这可被称为宽度矩阵。然而,多频带版本使得解码器可以将不同矩阵运算应用于不同频带。
一般来说,所有多频带技术可以表现出下面的重要特征:
●输入信号被划分到多个(P)频带内,从而可以在频带内推断出操纵信息。数目P指的是在其中推断或计算操纵信息的频带的数目。
●输入到输出处理操作不是宽带混合M,而是随着频率改变,粗略等同于各个混合操作的数目B,每个混合操作操作被应用于不同的频率范围。B指的是用于输出信号的处理的频带的数目。
如同图16的例子的方式,多频带解码器可以通过将输入信号分割成多个单独频带并且然后在每个频带上使用宽带矩阵解码器而被实现。
在这个例子中,输入信号被分割为3个频带。如同在扬声器分频器(crossover)中使用的,可以通过使用分频滤波器或滤波处理(“分频器”)160和162实现“分割”处理。分频器160接收第一输入信号Input1,并且分频器162接收第二输入信号Input2。然后,从这两个输入得出的低频、中频和高频信号被分别提供给三个宽带矩阵解码器或解码器功能(“宽带矩阵解码器”)164、166和168,并且然后这三个解码器的输出被相加性并合器或并合功能(它们中的每一个分别被以“+”符号象征性地示出)加在一起,以便产生最终的5个输出声道(L,C,R,Ls,Rs)。
这三个宽带解码器164、166和168中的每一个在不同频带上操作,并且因此它们中的每一个能够做出关于其相应频带内的经调移音频的主要方向的不同判定。结果,通过以不同方式对不同频带解码,多频带解码器可以实现更好的结果。例如,多频带解码器能够通过将大号和短笛操纵到不同输出声道,由此利用它们不同的频率范围,来对大号和短笛的矩阵编码录音进行解码。
在图16的例子中,三个宽带解码器在三个频带上有效地执行分析,并且随后在相同三个频带上处理输出音频。因此,在这个例子中,P=B=3。
本发明的一个方面是格式变换器在P>B时能够操作。即,当得出(P)个声道的操纵信息(PartrialISSI统计提取),并且对较小数目(B)的较宽频带应用输出处理时,本发明的方面通过定义用于各输出处理频带的适当的混合矩阵Mb定义了将较大集合合并入较小集合的方式。图17的例子中示出了这种状况。如图中分组大括号指示的,输出处理频带(Hb:b=1...B)中的每一个与相应的输入分析频带的集合重叠。
为了在P个分析频带上操作并且随后在B个处理频带上处理音频,格式变换器的多频带版本如接下来描述的那样从计算P个分析数据集合开始。这可被与图16的上半部分比较。分析数据表示用于一个分析频带的数据集合。对于每个输出频带,b=1...B,分析数据被如下地组合(与等式(1.35)、(1.36)、(1.43)和(1.46)比较):
FinalISSI(b)=ISSIdiff(b)+ISSIsteered(b)
(1.49)
FinalOSSI(b)=OSSIdiff(b)+OSSIsteered(b)
其中
ISSI steered ( b ) = Σ p ( BandWeight b , p × ISSI steered , p ) (1.50)
ISSI steered ( b ) + Σ p ( BandWeight b , p × OSSI steered , p )
ISSI diff ( b ) = ( Σ p BandWeight b , p × σ noise , p 2 ) × DesiredDiffuseISSI ( b ) (1.51)
OSSI diff ( b ) = ( Σ p BandWeight b , p × σ noise , p 2 ) × DesiredDiffuseOSSI ( b )
最终,
Mb=FinalOSSI(b)×FinalISSI(b)-1  (1.52)
除了对于每个处理频带(b=1...B)计算M矩阵、FinalISSI和FinalOSSI矩阵,并且以BandWeightb,p对PartialISSI的分析数据(ISSIS,p、OSSIS,p和σp)加权之外,上述计算与用于宽带解码器的计算相同。使用加权因子以使得每个输出处理频带仅受来自重叠分析频带的分析数据影响。
每个输出处理频带(b)可能与少量输入分析频带重叠。因此,许多BandWeightb,p权重可能是零。可以使用BandWeight数据的稀疏性减少等式(1.50)和(1.51)中所示求和操作所需的项数。
一旦已经计算了Mb矩阵(对于b=1...B),可以使用多种不同技术计算输出信号:
●可将输入信号分割为B个频带,并且可以通过相应矩阵Mb处理各频带(b)以产生NO个输出声道。在该情况下,产生B×NO个中间信号。随后可以将NO个输出声道的B个集合加到一起以产生NO个宽带输出信号。该技术非常类似于图18所示的技术。
输入信号可被在频域中混合在一起。在该情况下,混合系数可以作为频率的平滑函数改变。例如,假设中间FFT区间相应于位于处理频带b和b+1的中心频率之间的频率,可以通过在矩阵Mb和Mb+1的系数之间进行插值来计算用于中间FFT区间的混合系数。
实现
本发明可在硬件或软件或这两者的组合(例如,可编程逻辑阵列)中实现。除非另外说明,被包括为本发明的一部分的算法不固有地与任何特定的计算机或其它装置有关。特别地,各种通用机器可与根据此处的教导编写的程序一起使用,或可更方便地构造更为专用的装置(例如,集成电路)以执行所需的方法步骤。因此,本发明可在运行在一个或多个可编程计算机系统上的一个或多个计算机程序中实现,每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备或端口、以及至少一个输出设备或端口。程序代码被应用于输入数据以执行此处描述的功能,并且产生输出信息。输出信息被以已知方式应用于一个或多个输出设备。
这样的程序中的每一个可被以任何所希望的计算机语言(包括机器、汇编或高级过程、逻辑或面向对象编程语言)实现以与计算机系统通信。在任何情况下,所述语言可以是经编译或解释的语言。
这样的计算机程序中的每一个优选地被存储或下载到可被通用或专用可编程计算机读取的存储介质或设备(例如,固态存储器或介质,或磁介质或光学介质)上,以便当计算机系统读取该存储介质或设备时配置和操作该计算机,以执行此处描述的过程。本发明的创造性系统还可被认为被实现为配置有计算机程序的计算机可读存储介质,其中这样配置的存储介质使得计算机系统以具体的和预定的方式操作以执行此处描述的功能。已经描述了本发明的若干实施例。然而,应当理解,可以在不脱离本发明的精神和范围的情况下做出各种修改。例如,此处描述的某些步骤可以是顺序无关的,并且因此可被以不同于所描述的顺序的顺序执行。

Claims (22)

1.一种用于通过将多个[NI]音频输入信号[Input1(t)...InputNI(t)]应用于动态改变的格式变换矩阵[M]来将所述多个[NI]音频输入信号[Input1(t)...InputNI(t)]从第一格式重定格式为第二格式的方法,其中所述多个音频输入信号被假定为已通过将多个抽象源信号[Source1(t)...SourceNS(t)]应用于编码矩阵[I]被得出,每个抽象源信号与关于自身的信息相关联,所述编码矩阵根据第一规则处理抽象源信号,所述第一规则根据与各抽象源信号相关联的抽象信息来处理各抽象源信号,所述格式变换矩阵被控制以使得减小由所述格式变换矩阵产生的多个[NO]输出信号[Output1(t)...OutputNO(t)]与被假定为已通过将抽象源信号应用于理想解码矩阵[O]被得出的多个[NO]抽象理想输出信号[IdealOut1(t)...IdealOutNO(t)]之间的差,所述解码矩阵根据第二规则处理抽象源信号,所述第二规则根据与各抽象源信号相关联的抽象信息处理各抽象源信号,所述方法包括:
响应多个频率和时间段中的每一个中的音频输入信号,获得可归于一个或多个方向信号分量的方向和强度的以及可归于漫射、无方向信号分量的强度的信息,
基于第一规则和第二规则计算格式变换矩阵,所述计算包括(a)估计(i)所述多个频率和时间段中的至少一个中的音频输入信号的协方差矩阵,以及(ii)所述多个频率和时间段中的相同的至少一个中的音频输入信号和抽象理想输出信号的互协方差矩阵,并且(b)在多个所述频率和时间段中组合(i)主要信号分量的所述方向和强度,和(ii)漫射、无方向信号分量的所述强度,以及
将音频输入信号应用于所述格式变换矩阵以产生所述输出信号。
2.一种用于通过将多个[NI]音频输入信号[Input1(t)...InputNI(t)]应用于动态改变的格式变换矩阵[M]来将所述多个[NI]音频输入信号[Input1(t)...InputNI(t)]从第一格式重定格式为第二格式的方法,其中所述多个音频输入信号被假定为已通过将多个抽象源信号[Source1(t)...SourceNS(t)]应用于编码矩阵[I]被得出,各抽象源信号被假设彼此相互不相关并且与关于自身的信息相关联,所述编码矩阵根据第一规则处理抽象源信号,所述第一规则根据与各抽象源信号相关联的抽象信息来处理各抽象源信号,所述格式变换矩阵被控制以使得减小由所述格式变换矩阵产生的多个[NO]输出信号[Output1(t)...OutputNO(t)]与被假定为已通过将抽象源信号应用于理想解码矩阵[O]被得出的多个[NO]抽象理想输出信号[IdealOut1(t)...IdealOutNO(t)]之间的差,所述解码矩阵根据第二规则处理抽象源信号,所述第二规则根据与各抽象源信号相关联的抽象信息处理各抽象源信号,所述方法包括:
响应多个频率和时间段中的每一个中的音频输入信号,获得可归于一个或多个方向信号分量的方向和强度的以及可归于漫射、无方向信号分量的强度的信息,
计算格式变换矩阵M,所述计算包括(a)在多个所述频率和时间段内组合(i)主要信号分量的所述方向和强度以及(ii)漫射、无方向信号分量的所述强度,所述组合的结果构成所述源信号的协方差矩阵的估计,(b)计算ISSI=I×[cov(Source)]×I和OSSI=O×[cov(Source)]×I,和(c)计算M=OSSI×ISSI-1,以及
将音频输入信号应用于所述格式变换矩阵以产生所述输出信号。
3.如权利要求1或权利要求2所述的方法,其中所述抽象信息包括索引,并且根据与特定索引相关联的第一规则的处理与根据与相同索引相关联的第二规则的处理配对。
4.如权利要求3所述的方法,其中所述抽象信息是抽象方向信息。
5.如权利要求4所述的方法,其中所述抽象方向信息是抽象三维方向信息。
6.如权利要求5所述的方法,其中所述抽象三维方向信息包括相对于抽象收听位置的抽象方位角和高度关系。
7.如权利要求4所述的方法,其中所述抽象方向信息是抽象二维方向信息。
8.如权利要求7所述的方法,其中所述抽象二维方向信息包括相对于抽象收听位置的抽象方位角关系。
9.如权利要求1-8中任一个所述的方法,其中所述第一规则是输入调移规则,并且所述第二规则是输出调移规则。
10.如权利要求1或权利要求2所述的方法,其中所述获得包括计算所述多个频率和时间段中的所述每一个中的音频输入信号的协方差矩阵。
11.如权利要求10所述的方法,其中基于所述协方差矩阵计算的结果,估计对于每个频率和时间段的一个或多个主要信号分量的所述方向和强度以及漫射、无方向信号分量的强度。
12.如权利要求11所述的方法,其中从协方差矩阵计算中的最小特征值的值形成对于每个频率和时间段的漫射、无方向信号分量的估计。
13.如权利要求1和从属于权利要求1的权利要求3-12中任一个所述的方法,其中作为所述协方差矩阵和所述互协方差矩阵的函数,计算格式变换矩阵的特性。
14.如权利要求13所述的方法,其中通过以协方差矩阵的逆在右侧对互协方差矩阵进行运算来获得格式变换矩阵[M]的元素,
M=Cov([IdealOutput],[Input]){Cov([Input],[Input])}-1
15.如权利要求14所述的方法,其中假设所述多个抽象源信号彼此相互不相关,从而将抽象源信号的协方差矩阵对角线化,由此简化了计算,所述协方差矩阵的计算是M的计算所固有的。
16.如权利要求14或权利要求15所述的方法,其中以最陡下降法确定解码器矩阵[M]。
17.如权利要求16所述的方法,其中最陡下降法是基于前一时间间隔的M的先前估计计算格式变换矩阵的迭代估计的梯度下降法。
18.如权利要求1-17中任一个所述的方法,其中所述格式变换矩阵是具有可变系数的可变矩阵,或具有固定系数和可变输出的可变矩阵,并且通过改变可变系数或通过改变可变输出来控制所述格式变换矩阵。
19.如权利要求3-18中任一个所述的主动音频解码方法,其中所述第一规则和第二规则被实现为第一查找表和第二查找表,表的条目通过公共索引相互配对。
20.如权利要求1-19中任一个所述的方法,其中所述解码器矩阵[M]是频率相关的解码器矩阵[MB]的加权和,
M=∑B WB MB
并且其中所述频率相关性与频带B相关联。
21.适于实现权利要求1-20中任一个所述的方法的装置。
22.适于实现权利要求1-20中任一个所述的方法的计算机程序。
CN2009801315646A 2008-08-14 2009-08-13 音频信号格式变换 Expired - Fee Related CN102124516B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US18908708P 2008-08-14 2008-08-14
US61/189,087 2008-08-14
PCT/US2009/053664 WO2010019750A1 (en) 2008-08-14 2009-08-13 Audio signal transformatting

Publications (2)

Publication Number Publication Date
CN102124516A true CN102124516A (zh) 2011-07-13
CN102124516B CN102124516B (zh) 2012-08-29

Family

ID=41347772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009801315646A Expired - Fee Related CN102124516B (zh) 2008-08-14 2009-08-13 音频信号格式变换

Country Status (6)

Country Link
US (1) US8705749B2 (zh)
EP (1) EP2327072B1 (zh)
JP (1) JP5298196B2 (zh)
KR (2) KR20110049863A (zh)
CN (1) CN102124516B (zh)
WO (1) WO2010019750A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106604199A (zh) * 2016-12-23 2017-04-26 湖南国科微电子股份有限公司 一种数字音频信号的矩阵处理方法及装置
CN110800048A (zh) * 2017-05-09 2020-02-14 杜比实验室特许公司 多通道空间音频格式输入信号的处理
US10659905B1 (en) 2019-02-01 2020-05-19 Acer Incorporated Method, system, and processing device for correcting energy distributions of audio signal

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102017402B (zh) 2007-12-21 2015-01-07 Dts有限责任公司 用于调节音频信号的感知响度的系统
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
AU2012279349B2 (en) 2011-07-01 2016-02-18 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
KR101871234B1 (ko) 2012-01-02 2018-08-02 삼성전자주식회사 사운드 파노라마 생성 장치 및 방법
US9064503B2 (en) 2012-03-23 2015-06-23 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
EP2645748A1 (en) 2012-03-28 2013-10-02 Thomson Licensing Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
US9640163B2 (en) 2013-03-15 2017-05-02 Dts, Inc. Automatic multi-channel music mix from multiple audio stems
TWI557724B (zh) * 2013-09-27 2016-11-11 杜比實驗室特許公司 用於將 n 聲道音頻節目編碼之方法、用於恢復 n 聲道音頻節目的 m 個聲道之方法、被配置成將 n 聲道音頻節目編碼之音頻編碼器及被配置成執行 n 聲道音頻節目的恢復之解碼器
CN105336332A (zh) 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
CN105139859B (zh) * 2015-08-18 2019-03-01 杭州士兰微电子股份有限公司 音频数据的解码方法和装置以及应用其的片上系统
WO2017143003A1 (en) * 2016-02-18 2017-08-24 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
KR102617476B1 (ko) * 2016-02-29 2023-12-26 한국전자통신연구원 분리 음원을 합성하는 장치 및 방법
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
KR102411811B1 (ko) 2018-02-26 2022-06-23 한국전자통신연구원 오디오 입력 처리 지연 축소를 위한 버퍼 컨트롤 장치 및 방법
MX2022001150A (es) * 2019-08-01 2022-02-22 Dolby Laboratories Licensing Corp Sistemas y metodos para suavizacion de covarianza.

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5046098A (en) 1985-03-07 1991-09-03 Dolby Laboratories Licensing Corporation Variable matrix decoder with three output channels
US4799260A (en) 1985-03-07 1989-01-17 Dolby Laboratories Licensing Corporation Variable matrix decoder
US4941177A (en) 1985-03-07 1990-07-10 Dolby Laboratories Licensing Corporation Variable matrix decoder
US6920223B1 (en) 1999-12-03 2005-07-19 Dolby Laboratories Licensing Corporation Method for deriving at least three audio signals from two input audio signals
ATE546018T1 (de) 2000-08-31 2012-03-15 Dolby Lab Licensing Corp Verfahren und anordnung zur audiomatrixdekodierung
US7660424B2 (en) * 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
CN1666572A (zh) * 2002-04-05 2005-09-07 皇家飞利浦电子股份有限公司 信号处理
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7283634B2 (en) * 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
KR101283741B1 (ko) * 2004-10-28 2013-07-08 디티에스 워싱턴, 엘엘씨 N채널 오디오 시스템으로부터 m채널 오디오 시스템으로 변환하는 오디오 공간 환경 엔진 및 그 방법
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
WO2006054360A1 (ja) * 2004-11-22 2006-05-26 Mitsubishi Denki Kabushiki Kaisha 音像生成装置及び音像生成プログラム
CN101065988B (zh) * 2004-11-23 2011-03-02 皇家飞利浦电子股份有限公司 处理音频数据的设备和方法
US8111830B2 (en) * 2005-12-19 2012-02-07 Samsung Electronics Co., Ltd. Method and apparatus to provide active audio matrix decoding based on the positions of speakers and a listener
JP4875142B2 (ja) 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
CA2874454C (en) * 2006-10-16 2017-05-02 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
JP4963973B2 (ja) * 2007-01-17 2012-06-27 日本電信電話株式会社 マルチチャネル信号符号化方法、それを使った符号化装置、その方法によるプログラムとその記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106604199A (zh) * 2016-12-23 2017-04-26 湖南国科微电子股份有限公司 一种数字音频信号的矩阵处理方法及装置
CN106604199B (zh) * 2016-12-23 2018-09-18 湖南国科微电子股份有限公司 一种数字音频信号的矩阵处理方法及装置
CN110800048A (zh) * 2017-05-09 2020-02-14 杜比实验室特许公司 多通道空间音频格式输入信号的处理
CN110800048B (zh) * 2017-05-09 2023-07-28 杜比实验室特许公司 多通道空间音频格式输入信号的处理
US10659905B1 (en) 2019-02-01 2020-05-19 Acer Incorporated Method, system, and processing device for correcting energy distributions of audio signal

Also Published As

Publication number Publication date
EP2327072B1 (en) 2013-03-20
KR101335975B1 (ko) 2013-12-04
KR20130034060A (ko) 2013-04-04
EP2327072A1 (en) 2011-06-01
WO2010019750A1 (en) 2010-02-18
JP5298196B2 (ja) 2013-09-25
CN102124516B (zh) 2012-08-29
US8705749B2 (en) 2014-04-22
US20110137662A1 (en) 2011-06-09
JP2012500532A (ja) 2012-01-05
KR20110049863A (ko) 2011-05-12

Similar Documents

Publication Publication Date Title
CN102124516B (zh) 音频信号格式变换
CN103355001B (zh) 用以利用下变频混频器来分解输入信号的装置和方法
CN101681625B (zh) 用于从两个输入的音频信号获得两个环绕声音频通道的方法和设备
CN102892070B (zh) 多声道下混对象编码的增强编码和参数表示
Zotter et al. Energy-preserving ambisonic decoding
CN1910655B (zh) 构造多通道输出信号或生成下混信号的设备和方法
US9009057B2 (en) Audio encoding and decoding to generate binaural virtual spatial signals
CN101853660B (zh) 用于双声道提示码编码方案和类似方案的散射声音整形
CN102124513A (zh) 用于确定转换的空间音频信号的装置
US10567899B2 (en) Method and device for applying dynamic range compression to a higher order ambisonics signal
CN103650537A (zh) 采用分解器产生输出信号的装置和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120829

Termination date: 20180813

CF01 Termination of patent right due to non-payment of annual fee