CN1160702C - 使用多通道音频信号的编码方法及装置 - Google Patents

使用多通道音频信号的编码方法及装置 Download PDF

Info

Publication number
CN1160702C
CN1160702C CNB961211423A CN96121142A CN1160702C CN 1160702 C CN1160702 C CN 1160702C CN B961211423 A CNB961211423 A CN B961211423A CN 96121142 A CN96121142 A CN 96121142A CN 1160702 C CN1160702 C CN 1160702C
Authority
CN
China
Prior art keywords
signal
gain control
waveform
waveform signal
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB961211423A
Other languages
English (en)
Other versions
CN1153369A (zh
Inventor
��Ұ���
上野正俊
宫森慎二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1153369A publication Critical patent/CN1153369A/zh
Application granted granted Critical
Publication of CN1160702C publication Critical patent/CN1160702C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供了一种编码方法和装置,它有效地避免产生前/后回波并执行应用了一个心理听觉模型的编码。其装置检测波形信号的起始和释放部分,利用所计算的增益控制量对起始部分之前的波形信号和释放部分的波形信号执行增益控制。根据对波形信号进行变换获得的频率分量,心理听觉模型应用电路的窗口电路计算一个掩蔽电平,且量化精度确定电路确定一个量化精度。窗口电路和变换电路将波形信号变换成多个频率分量。量化电路量化多个频率分量。

Description

使用多通道音频信号的编码方法及装置
技术领域
本发明涉及一种用于声音信号的编码方法和编码装置,在该装置中,使用所谓的高频编码方法对诸如数字数据的声音信号进行编码。
背景技术
通常使用各种类型的方法和装置对音频或声音信号进行高频编码。例如,使用所谓的变换编码方案(将在下面描述)。即:在一个时间轴上的信号被成帧为具有预定时间周期的多个单元,从而将在每一帧的时间轴上的信号变换成频率轴上的信号(频谱变换),然后将其分成多个频带,借此以在每个频带内执行编码操作。另外,还有所谓的带分编码(子频带编码:SBC),在这种编码中,不对时间轴上的音频信号等进行成帧处理,但将其分成将被编码的多个频带。
建议了一种通过将带分编码方案和变换编码方案相结合而获得的高效编码方法和装置。在这种情况下,例如在利用带分编码方案执行带分以后,将每个频带的信号进行频谱变换以成为频率轴上的信号,且对每个频带内进行频谱变换后的信号进行编码。
在这种情况下,作为用于带分编码方案中的带分滤波器,例如使用了诸如QMF(正交镜像滤波器)一类的滤波器。在R.E.Cvochiere,Bell Syst.Teeh.J.,Vol.55,No.81976的文章“子频带中语音的数字编码”中对其进行了描述。使用这种QMF将一个频带分成两个具有相等带宽的频带。这种滤波器具有下述特点:即当对被细分的频带进行合成时不会发生所谓的混叠。
Joseph H.Rothweiler ICASSP 83,BOSTON的文章“多相正交滤波器-新的子频带编码技术”描述了一种用于将一个频带分成具有相等带宽的多个频带的滤波器划分方法。这种多相正交滤波器具有下述的特征,即:一个信号可以被同时分成多个具有相等带宽的频带。
当执行上面描述的频谱变换时,将执行下述操作:例如,一个输入音频信号被成帧为具有预定时间周期的多个单元,并在每个帧内执行离散付里叶变换(DFT)、离散余弦变换(DCT)、修改的离散余弦变换(MDCT)或类似变换,借此以将时间轴变换成频率轴。J.P.Princen A.B.Bradley,Univ.ofSurrey Royal Melboume Inst.of Tech.ICASSP 1987的文章“在消除时间域混叠的基础上使用滤波器频带设计的子频带/变换编码”描述了所述的MDCT。
当对如上所述利用滤波器或频谱变换划分成多个频带单元的信号进行量化时,使用所述掩蔽效果或类似效果的特性,可以控制其中产生量化噪声的频带并执行音频的高效编码。另外,当在量化之前利用每个频带内信号分量的最大绝对值来执行规范化时,可以更加有效地执行编码。
在这种情况下,对一个频率划分宽度,当被分成多个频带的多个频率分量(此后称之为频谱分量)被量化时,经常使用考虑到人类心理声学特征的带宽。更具体地说,一个音频信号可以被分成多个频带(例如25个频带),这些频带中每一个的带宽等于一个临界频带的带宽,所述临界频带的带宽通常随着频率的增加而增加。当此时对每个频带中的信号进行编码时,利用每个频带中的预定比特分布或自适应比特分配来执行编码。例如,当利用所述的比特分配对通过执行MDCT处理所获得的因数数据(coefficientdata)进行编码时,在一定数量的自适应分配比特处对在每个帧内通过执行MDCT处理所获得的每个频带中的MDCT因数数据进行编码。作为比特分布方法,下述的两种方法是已知的。例如,在R.Zelinski,P.Noll.IEEETransactions of Acoustics.Speech,and Signal Processing,Vol.ASSP-25,No.4,August 1977的文章“语音信号的自适应变换编码”中,以每个频带信号的尺寸为基础执行比特分配。在这个方案中,量化噪声频谱是平滑的,且噪声能量是最小的。但是,由于没有在听觉上使用掩蔽效果,噪声的听力感觉实际上没有被最佳化。
另外,例如,在M.A.Kransner MIT ICASSP 1980的文章“临界频带编码器-听觉系统感知要求的数字编码”中描述了一种方法,在该方法中,通过使用听觉掩蔽来获得每个频带所需的信噪比以执行一个固定的比特分配。但是,在该方案中,即使是利用一个正弦波输入来测量多个特性,但由于所述的比特分配是固定的,所以其特征值也并不总是很好。
为了解决这些问题,提出了一种具有下述配置的高效编码装置,即在比特分配中可以被使用的全部比特根据每个数据块内信号的尺寸被单独地用于在对每一个上述数据块划分所获得的每个子数据块中预定的固定分配格式和比特分布,并根据与一个输入信号相关的信号确定一个划分比率。例如,当信号的频谱分布很平滑时,对于固定比特分配格式的划分比就可以被设置得较大。
根据这个方法,当能量被集中于一个特定频谱分量上以形成一个正弦波而被输入时,整个的信噪特征可以被认为是得到了显著改善,这样,大量的比特就可以被分配给包括所述频谱分量在内的一个块中。通常,人类的听力感觉对于具有尖锐频谱分布的信号是非常敏感的。由于这个原因,当利用所述方法使信噪特性获得改善时,不仅在测量时使数字值得到改善,而且可以使听到的声音质量也得到了有效地改善。
除了上述的方法以外,还提出了各种用于进行比特分配的方法,在精确地设置一个与听觉相关的模型时和当改善了编码装置的能力时,可以执行在听觉上是有效的编码。
在这种情况下,当使用DFT或DCT作为一种方法对包括诸如在时间区域内的数字音频信号的波形单元(取样数据)的波形信号执行频谱变换时,以M个取样数据为单位构成数据块,并执行用于DFT或DCT的频谱变换。当对这样的数据块进行频谱变换时,可以获得M个独立实数数据(DFT因数数据或DCT因数数据)。如上所获得的M实数数据被量化并被编码成编码数据。
当通过对编码数据进行译码而再现再现波形信号时,编码数据被逆量化以进行译码,并通过逆DFT或逆DCT对与在编码操作中的数据块相对应的数据块单元中所获得的实数数据执行逆频谱变换,以获得波形单元信号。由波形单元信号构成的所述多个数据块被彼此连接以再现所述的波形信号。
如上所产生的再现波形信号在数据块连接过程中会产生连接失真,并且在听觉上不能是最佳。为此,为了减少在数据块之间的连接失真,当在实际编码过程中使用DFT或DCT来执行频谱变换时,对取相邻数据块的M1个取样数据加以重叠,并且这些取样数据必须经过所述的频谱变换。
当执行频谱变换以使相邻块的M1个取样数据相重叠时,根据(M-M1)(平均数)取样数据来获得M个实数数据。其结果是利用频谱变换所获得的实数数据的数量大于在频谱变换中实际使用的原始取样数据的数量。由于所述的实数数据将被量化然后进行编码,如上所述地利用频谱变换获得的实数数据的数量要大于原始取样数据的数量,这在编码效率上是不可取的。
与此相反,当使用MDCT作为执行频谱变换的方法以对由诸如数字音频信号的取样数据构成的波形信号进行频谱变换时,使用通过使相邻块的M个取样数据相互重叠所获得的2M个取样数据来执行频谱变换以减少所述数据块之间的连接失真,借此以获得M个独立实数数据(MDCT因数数据)。为此,在由MDCT执行的频谱的变换中,根据M个(平均数)取样数据获得M个实数数据。因此,可执行比使用DFT或DCT来进行频谱变换更加有效的编码。
当对使用MDCT频谱变换来对所获得的实数数据进行量化和编码所获得的编码数据进行译码以产生再现波形信号时,通过逆量化对编码数据进行解码。利用逆MDCT对所获得的实数数据执行逆频谱变换以获得所述多个数据块中的波形单元,并且这些数据块内的波形单元被彼此相加,同时彼此干涉,以重新构成所述的波形信号。
在这种情况下,当用于频谱变换的一个数据块的长度(维数方向上的块的维数)增加时,频率分辨率得到改善。当在这样的一个长度的数据块内对诸如数字音频信号的波形信号进行频谱变换时,能量被集中在一个特定的频谱成分上。如上所述,当对覆盖一个很大长度的相邻数据块执行频谱变换时,可以有效地减少波形信号数据块之间的失真。
另外,当对相邻数据块的一半数量的取样数据中相互重叠的数据块执行频谱变换并且使用其中由所述频谱变换所获得的实数数据的量不随原始波形信号取样数据量的增加而增加的MDCT时,可以执行比使用DFT或DCT进行频谱变换更加有效的编码。
当使用其中所述波形信号被划分成多个数据块的方法时,每个数据块被分成多个频谱成分(在上述例中用频谱变换获得的实数数据),且当使用所获得的频谱成分被量化和编码时,在所获得的波形信号中将产生量化噪声,这样在每个块中由频谱成分所组成的信号就必须经过译码和合成。
如果所述原始波形信号包括有其中信号成分有急剧变化的部分(波形单元电平急剧改变的转换部分)并且所述波形信号被暂时编码后译码,那么由于这种转换部分而引起大量的量化噪声,就会除了在转换部分外还在原始波形信号的一部分中扩展。
假设波形信号SW1被用作编码的音频信号。即:如图1A所示,在波形信号SW1中,其中作为转换部分的声音急剧增加的起始部分AT紧靠着其中仅有轻微变化并且有较低电平的准稳态信号FL,并且其中的每一个都具有较高电平的多个信号都跟在所述起始部分AT之后。所述的波形信号SW1被分成其中的每一个都具有单位时间宽度的多个数据块,且在每个数据块中的信号成分都要经过频谱变换。当所获得的频谱成分被进行量化和编码并随后进行逆频谱变换、译码和逆量化时,如图1C所示,再现的波形信号SW1包括由在所有数据块中的起始部分AT所引起的很大的量化噪声QN1。
为此,如图1C所示,在起始部分AT之前的准稳态信号FL中,出现了由所述起始部分AT引起的大的(例如,比所述准稳态信号FL电平高的)量化噪声QN1。由于在起始部分AT之前的准稳态信号FL中产生的量化噪声QN1未被由所述起始部分AT所执行的同步掩蔽所屏蔽,所以所述的量化噪声形成了听觉障碍,如上所述,在其中声音急剧增加的所述起始部分之前出现的量化噪声通常被称之为前回波。
当对所述多个数据块内的信号成分进行频谱变换时,先将所述多个数据块乘以一个具有特征曲线的变换窗口函数(窗口函数)TW后再执行频谱变换,所述窗口函数的结尾部分如图1B所示具有适度的改变。利用这种方式,可以避免在一个较宽区域内扩展频谱分布。
具体地讲,当在一个较长的数据块内对一个信号进行频谱变换以改善频率分辨率(如上所述)时,时间分辨率将被降低,且在一个很长的时间周期内会产生前回波。
在这种情况下,频谱变换中的块被缩短,产生量化噪声的时间周期也被缩短。为此,例如,如果靠近所述起始部分被进行频谱变换的一个数据块的长度减少,那么产生前回波的时间周期将被缩短,由所述前回波引起的听觉障碍也将减少。
更具体讲,下面将描述利用缩短靠近起始部分的数据块的长度来避免前回波的情况。靠近其中在像图2A所示的包括准稳态信号FL和起始部分AT的波形信号SW中声音信号急剧变化的起始部分AT一样的转换部分,用于频谱变换的一个数据块被缩短,并对在一个短数据块内的信号成分进行频谱变换。其结果是在一个短数据块内产生前回波的时间周期可以被有效地缩短。
如果在所述数据块内产生前回波的时间周期可以被有效地缩短,那么,就可以利用通过起始部分AT获得的所谓逆掩蔽效果来减少听觉障碍。在这个短的块内,当要对这个短数据块的信号成分进行频谱变换时,首先将这个信号成分乘以一个短的变换窗口函数(短变换窗口函数TWS)如图2B所示,然后再对该信号成分进行频谱变换。
当用于频谱转换的所述数据块相对于包含准稳态信号FL的部分和所述起始部分的信号部分被缩短时,频率分辨率就被降低,且该部分内的编码效率也降低。为此,当用于频谱变换的这个块的长度相对于这些部分被增加时,能量被集中在一个特定的频谱成分上。其结果是可以如所希望地改善编码效率。
为此原因,事实上,用于频谱转换的所述数据块的长度可以根据所述波形信号SW的每个部分进行有选择地转换。当所述数据块的长度如上所述的那样有选择地进行转换时,变换窗口函数TW也根据所述数据块长度的选择而转换。例如,执行下述的选择转换操作,即如图2B所示,一个长的变换窗口函数(长变换窗口函数TWL)被用于由除靠近所述起始部分AT以外的准稳态信号FL组成的数据块,而一个短的变换窗口函数(短变换窗口函数TWS)被用于靠近所述起始部分AT的一个短数据块。
但是,如上所述,当在实际配置中实现了根据所述波形信号每一部分的性质(特性)对频谱变换中的数据块的长度进行转换的方法时,必须在所述编码装置中配置能够处理在具有不同长度的数据块中的频谱变换的频谱变换装置。另外,必须在译码装置中配置能够对具有不同长度的数据块执行逆频谱变换的逆频谱变换装置。
在频谱变换过程中一个数据块的长度是可以改变的,通过频谱变换所获得的频谱成分的数量正比于所述数据块的长度。这些频谱成分以临界频带为单位进行编码,包括在每个临界频带内的频谱成分的数量根据数据块的长度而改变。为此原因,在下面将要描述的编码处理和译码处理将变得非常复杂。
利用这种方式,在一个数据块的长度在频谱变换中可以变化的方法中,编码装置和译码装置都很不利地变得复杂。
为此,当使用诸如DFT或DCT的频谱变换把一个数据块分解成频谱成分时,美国专利5,117,228公开了一种方法,在该方法中,在保持频谱变换过程中的数据块的长度为常数以保证足够高的频率分辨率的同时,可以有效地避免产生前回波。即:在编码装置中,一个输入信号波形被分割成由多个取样数据构成的多个数据块,且这多个数据块被乘以一个窗口函数。然后,检测一个起始部分,放大紧靠在所述起始部分之前的小幅值波形信号(即准稳态信号),然后使用DFT或DCT通过频谱变换获得频谱成分(实数数据)。然后,该频谱成分被编码。
在与上述编码过程相对应的译码过程中,译码后的频谱成分通过利用逆DFT(=IDFT)或逆DCT(=IDCT)来进行逆频谱变换,并执行在编码过程中紧靠在起始部分之前的一个信号的校正放大处理。利用这种方式,可以避免产生前回波。由于使用上述方法可以使经过频谱变换的一个数据块的长度保持为常数,所以可以简化编码和译码装置的配置。
根据在公开文献中所描述的技术,通过利用一种在编码过程中执行的、用于紧靠在所述起始部分之前的小幅值信号的增益控制处理和一种在译码过程中执行的、对应于在编码过程中对紧靠在所述起始部分之前的信号所进行的增益控制而执行的增益控制校正处理,可以在保持在频谱变换过程中数据块的长度为常数的同时,避免产生前回波。
例如,在由本申请人申请的U.S.P SN 08/604,479(申请日:96,2,21)的说明书和附图中,本申请人建议了一种不仅可以避免前回波,而且可以避免后回波的方法。在这个说明书和附图中,作出了如下建议,即在用于对波形信号进行编码的方法和装置中,检测其中波形信号的波形单元的电平急剧升高的起始部分,并检测其中波形信号的波形单元的电平急剧降低的释放部分。从与至少是在附加部分之前的波形单元和释放部分的波形单元相关的多个增益控制量中,根据波形信号的特征选择自适应增益控制量,并使用选择的增益控制量对至少是起始部分之前的波形单元和释放部分的波形单元执行增益控制。波形信号被变换成多个频率分量(频谱分量),并对用于所述增益控制的控制信息和所述的多个频率成分进行编码。
特别是,根据这种编码方法和装置,从波形信号中检测起始部分和释放部分,利用根据波形信号的特征而自适应地选择增益控制量来对起始部分之前的部分和释放部分的波形单元执行增益控制,并对起始部分之前的部分和释放部分的波形单元进行编码。在译码过程中,对在编码过程中进行了增益控制的部分执行增益控制校正。为此,当在波形信号被编码和译码时在起始部分之前的部分和释放部分中所产生的噪声的能量就可以下降到使人们不容易感觉噪声存在的一个水平上。
但是,在使用增益控制和增益控制校正以防止产生前回波和后回波的方法中,在编码过程中使用了通过在起始部分前后放大小幅值波形信号而获得的波形信号。由于这个原因,可以认为经过编码和增益控制的频谱分量不同于实际再现声音的频谱分量。
例如,作为一个其中产生了前回波和后回波的波形信号,下面将要解释一个类似于图3A所示的波形信号SW的波形信号,在该信号中,起始部分AT跟在一个准稳态信号FL之后,其电平急剧降低的一个释放部分跟在准稳态信号FL之后。在图3B所示的增益控制函数GC中,假设对紧靠在所述起始部分AT之前的部分的信号分量(波形信号FL)执行增益控制量为Ra倍的增益控制,并假设对在起始部分AT之后的释放部分RE执行增益控制量为Rr倍的增益控制。其结果是实际上如图3C所示的波形信号SW′被进行编码。
另一方面,假设通过对图3A所示波形信号SW执行变换获得的频谱分量采用一种心理听觉模型来计算掩蔽曲线,且它是由图4A虚线所示的曲线MCa。在这种情况下,使用相同的心理听觉模型来计算实际用于编码的波形信号SW′的频谱成分和掩蔽曲线之间的关系。其结果是,例如,可以获得如图4B所示的掩蔽曲线MCb。
特别是,当根据对如图4A所示波形信号SW进行变换所获得的频谱分量将两种掩蔽曲线MCa和MCb彼此进行比较时,如图4C的掩蔽曲线所示,这两种掩蔽曲线MCa和MCb在某些部分是不同的。在图4C中,由虚线表示的曲线表示掩蔽曲线MCa,由实线表示的曲线表示掩蔽曲线MCb。图4C示出了如下情况,即:当通过增益控制使紧靠在起始部分之前的信号FL的电平和释放部分的信号RE的电平升高时,所述频谱成分的电平在一个宽频带范围内被均匀放大,并计算了一个掩蔽曲线,该掩蔽曲线的电平部分地不同于利用所述波形信号SW所实际执行的掩蔽电平,且该掩蔽曲线不适于用作一个心理听觉模型。其结果是当使用掩蔽曲线MCb编码的信号被利用译码装置进行译码时,将会产生不同于前回波或后回波的另一种量化噪声。
发明内容
本发明是考虑到上述的情况下而作出的。本发明的目的就是要提供一种编码方法和编码装置,这种方法和装置通过使用心理听觉模型能够避免产生前回波和后回波,并能执行有效的编码。
按照本发明的一个方面,提供一种对声音信号进行编码的方法,包括如下步骤:检测波形信号的波形单元的电平急剧升高的起始部分;检测波形信号的波形单元的电平急剧降低的释放部分;根据波形信号的特性从多个增益控制量中自适应地选择一个增益控制量,以用于在起始部分之前的波形单元和释放部分的波形单元;通过使用所选择的增益控制量对是在起始部分之前的波形单元和释放部分的波形单元执行增益控制;将所述的波形信号变换成多个频率分量;从所述波形信号根据心理听觉模型计算掩蔽电平;和通过使用所述掩蔽电平,对所述多个频率分量进行编码,和对用于增益控制的控制信息进行编码。
按照本发明的另一个方面,提供一种用于对声音信号进行编码的设备,包括:起始部分检测装置,用于检测波形信号波形单元的电平急剧升高的起始部分;释放部分检测装置,用于检测波形信号波形单元的电平急剧降低的释放部分;选择装置,用于根据波形信号的特性从多个增益控制量中自适应选择一个增益控制量,以用于在起始部分之前的波形单元和释放部分的波形单元;增益控制装置,用于通过使用所选择的增益控制量对在起始部分之前的波形单元和释放部分的波形单元执行增益控制;变换装置,用于将所述的波形信号变换成多个频率分量;掩蔽电平计算装置,用于在一个心理听觉模型的基础上从波形信号中计算掩蔽电平;和编码装置,用于使用所述掩蔽电平对多个频率分量进行编码和对增益控制的控制信息进行编码。
根据本发明的编码方法和装置利用下述方式解决了上述问题。即:检测其中波形信号的波形单元的电平急剧上升的起始部分和波形信号的波形单元的电平急剧下降的释放部分,并利用从多个增益控制量中根据波形信号的特性而自适应选择的增益控制量对至少是在所述起始部分之前的波形单元和释放部分的波形单元来执行增益控制。根据所述的波形信号计算以心理听觉模型为基础的掩蔽电平,使用所述的掩蔽电平对多个频率分量进行编码,并对用于增益控制的控制信息进行编码。
特别是,根据本发明,执行所述的增益控制以避免产生前回波和后回波。当通过对所述波形信号进行变换而获得多个频率分量时,使用以心理听觉模型为基础所获得的掩蔽电平可以避免使用通过增益控制所获得的不适当的掩蔽曲线来执行编码。
附图说明
图1A到1C的简图用于介绍由于变换编码而产生前回波的工作原理。
图2A和2B的简图用于解释为避免产生前回波的传统的窗口处理技术;
图3A到3C的简图用于解释用于避免产生前回波的传统的增益控制处理技术;
图4A到4C的简图表示在用于避免产生前回波的传统处理技术中一个心理听觉模型的状态;
图5的方框图示出了根据本发明一个实施例的编码装置的配置;
图6的方框图示出了根据本发明一个实施例的信号译码装置的配置;
图7A到7D的简图用于介绍在本发明该实施例中用于处理一个心理听觉模型窗口电路的技术;
图8A到8J的简图用于解释在本发明及该实施例中用于处理一个心理听觉模型应用电路的技术;
图9的方框图示出了根据本发明另一个实施例的编码装置的配置;
图10A到10H的简图用于介绍在图5所示的实施例中用于处理心理听觉模型分析的波形产生电路;
图11A到11J的简图用于介绍在图5所示的实施例中用于处理心理听觉模型应用电路的技术。
具体实施方式
下面将结合附图来描述本发明的最佳实施例。
图5示出了一个根据本发明的一个实施例应用了本发明编码方法的编码装置。
具体地讲,本发明的编码装置具有用于将输入信号分成多个频带的带分滤波器101;用于在多个划分后的频带单元内将所述信号分量分成多个数据块以在多个数据块单元内将所述信号分量乘以一个变换窗口函数的窗口电路102a到102d;用于在多个划分后的频带单元内计算增益控制函数以执行增益控制处理的增益控制电路103a到103d;用于将经过增益控制的信号分量变换成频率分量的变换电路104a到104d;用于使所述频带内频率分量规范化的规范化电路105a到105d;用于切断仅与心理听觉模型相关的输入信号以使所述输入信号乘以所述变换窗口函数的心理听觉模型窗口电路108;用于将来自所述心理听觉模型窗口电路108的输出信号变换成频率分量的心理听觉模型变换电路109;用于将一个心理听觉模型应用到来自所述心理听觉模型变换电路109的频率分量上以输出分析结果的心理听觉模型应用电路110;用于在变换成频率分量的信号的基础上使用心理听觉模型的分析结果确定量化精度的量化精度确定电路111;用于以所确定的量化精度对量化后的频率分量进行量化的量化电路106a到106d;和用于在量化后的频率分量、通过规范化获得的规范化系数信息和量化精度信息的基础上产生代码串信号的代码串产生电路107。
图5示出了当由所述编码装置产生的代码串信号被记录在一个用作信息记录介质的光盘115上时所使用的配置,还示出了用于执行误差校正编码的ECC编码器112;用于对ECC编码器112的输出数据执行预定调制以形成将要被记录在光盘115上的记录信号的调制电路113;和用于将记录信号记录到光盘115上的记录头114。
参看图5,一个诸如数字音频信号的声音数据(波形信号的取样数据)被提供给端点100。利用提供有多相正交滤波器的带分滤波器101将该声音信号分成例如4个频带的信号分量。利用所述带分滤波器101划分的4个频带的信号分量被分别提供给窗口电路102a到102d。在窗口电路102a到102d中,所提供的频带信号被切割成多个数据块,所述多个数据块中的每一个都具有预定长度、相邻数据块的信号分量被互相重叠、且每个数据块被乘以一个变换窗口函数。此时,当信号被分成如图5所示的4个频带时,其带宽是提供给端点100的信号带宽的1/4,且来自端点100的信号变细到1/4。在图5中,从带分滤波器101输出输入的听觉波形信号,以使该听觉波形信号被分成4个频带。划分后的频带数量当然也可增加或减少。
接下来,增益控制电路103a和103d利用与所述频带相对应的窗口电路102a到102d检测在乘以变换窗口函数的数据块中是否存在有起始部分或释放部分,并计算与检测到的起始部分或释放部分相应的增益控制函数,以计算最后的增益控制函数。执行用于放大在相应数据块中所述起始部分之前的小幅值信号分量(准稳态信号)的增益控制处理或执行用于放大在相应数据块中所述释放部分的信号分量的增益控制处理。
如果增益控制电路103a到103d没有检测到起始部分或释放部分,那么就不对这些数据块的信号分量执行信号放大处理。通过增益控制电路103a到103d提供的数据块的信号分量(即波形单元)被提供给变换电路104a到104d,同时还被提供给心理听觉模型应用电路110。增益控制电路103a到103d不仅输出多个数据块的信号分量(波形单元),而且还要输出表示在所述数据块内存在有起始或释放部分的起始/释放部分检测标记,表示所述起始/释放部分检测标记的位置信息、增益控制信息和增益控制函数。
变换电路104a到104d对多个数据块的信号分量进行诸如DFT、DCT或MDCT的频谱变换。通过频谱变换获得的频谱分量被以频带为单位进行分组。在这种情况下,均匀的带宽或不均匀的带宽都可以被用作为在所述滤波器内进行频带划分所获得的带宽、或在以频带为单位对频谱变换后的频谱成分进行分组时使用的宽度、即带宽,所述不均匀的带宽与考虑到人的心理声学特性所获得的所谓临界带宽相匹配。
另一方面,提供给端点100的声音信号还被提供给心理听觉模型窗口电路108。在心理听觉模型窗口电路108中,所提供的声音信号被切割成多个数据块的分量,所述多个数据块中的每一个都具有等于或不等于窗口电路102a到102d中每一个数据块的预定长度,且相邻数据块之间的取样数据被相互重叠。每个数据块被乘以一个变换窗口函数。提供给心理听觉模型窗口电路108的声音信号不是一个其频带被带分滤波器101进行划分的信号而是一个提供给端点100的声音信号,这是因为当频带被划分时,由于产生了混叠噪声,所以可能错误地计算了一个心理听觉模型。为了避免这个问题,来自端100的声音信号被直接提供给心理听觉模型窗口电路108。
在心理听觉模型变换电路109中,对通过心理听觉模型窗口电路108乘以窗口变换函数的多个数据块的信号分量执行诸如DFT或DCT的频谱变换。由于可以采用随同编码的心理听觉模型,所以可以将以在变换电路104a到104d中相同的方式所执行的变换适用于作频谱变换。利用频谱变换获得的频谱分量被提供给心理听觉模型应用电路110。
在心理听觉模型应用电路110中,通过使用增益控制信息和来自增益控制电路103a到103d输出的增益控制函数,一个心理听觉模型被应用到来自心理听觉模型变换电路109的频谱成分上,从而由此计算出频谱分量的一个合适的掩蔽电平。
特别是,在心理听觉模型应用电路110中,在最小可听电平或所提供频谱分量的基础上使用掩蔽特性或响度特性计算的掩蔽电平是以与使用心理听觉模型变换电路109获得的信号频率的频谱分量相应的频率为单位或以其中信号频率被进行了划分的频带为单位来进行计算的,另外,当使用被提供的增益控制信息和增益控制函数对掩蔽电平进行变换时,计算用于所述频谱分量的适当的掩蔽电平。在心理听觉模型应用电路110中计算的掩蔽电平的信息被提供给量化精度确定电路111。
下面来描述所述心理听觉模型应用电路110的详细处理。在上述情况下,在心理听觉模型应用电路110中,使用增益控制电路103a到103d的输出来计算掩蔽电平。但是,如在图5中用虚线指出的通路那样,通过使用所获得的频谱分量由增益控制电路103a到103d进行增益控制所获得的信号分量被变换电路104a到104d进行变换,借此可以计算掩蔽电平。
在规范化电路105a到105d中,由变换电路104a到104d提供的频谱分量被规范成预定的频带,规范化后的频谱分量被分别提供给量化电路106a到106d。
在量化精度确定电路111中,使用由变换电路104a到104d提供的频谱分量和由心理听觉模型应用电路110提供的掩蔽电平信息来确定量化精度,且量化精度信息被提供给与所述频带相对应的量化电路106a到106d。如在图5中用虚线表示的通路一样,当使用来自变换电路104a到104d的频谱分量在心理听觉模型应用电路110中计算掩蔽电平信息可以被提供给量化精度确定电路111。
在量化电路106a到106d中,在由量化精度确定电路111计算的量化精度的基础上对来自规范化电路105a到105d的信号执行量化,量化后的信号、规范化系数信息和量化精度信息被提供给代码串产生电路(多路转换器)107。
多路转换器107根据由量化电路106a到106d提供的量化后的频带信号、规范化系数信息和规范化精度信息来产生和输出代码串信号。特别是,多路转换器107的输出信号除了包括由量化电路106a到106d量化的信号以外,还包括在规范化电路105a到105d中的规范化系数信息、在量化精度确定电路111中的量化精度信息、表示在所述多个数据块中存在有起始部分或释放部分的起始/释放部分检测标记、表示起始/释放部分检测标记位置的位置信息、增益控制信息和增益控制函数。
由多路转换器107产生的代码串信号被提供给ECC编码器112。在ECC编码器112中,执行一个用于把一个误差校正码加到由多路转换器107提供的代码串信号上的误差校正编码处理。ECC编码器112的输出由调制电路113进行诸如所谓8到14调制的调制。调制后的信号被提供给记录头114以用作记录信号,记录头114将调制电路113的输出信号记录在光盘115上。例如,磁光盘、相变光盘都可以用作所述光盘115。诸如磁带或IC卡的半导体存贮器也可被用来代替光盘115,记录信号被记录在诸如一个盘的记录介质上,也可利用一个发送通路进行通信和发送。
图6示出了一个译码装置的基本配置,在该装置中,由图5所示编码装置产生并记录在信息记录介质上或发送给所述传送介质的代码串信号被进行译码,从而对数字音频信号进行译码。
图6所示的译码电路具有作为主要构成元件的代码串分离电路(多路分配器)204,用于从所述的代码串信号中抽取量化信号、量化精度信息和规范化系数信息;信号分量构成电路205a到205d,用于根据所获得的量化信号、量化精度信息和规范化系数信息构成频带的信号分量;增益控制校正电路206a到206d,用于对所述频带的信号分量执行增益控制校正处理;和波形信号合成电路207,用于根据所述频带的信号分量合成一个波形信号。图6也示出了作为一个构成元件用于从用作信息记录介质的光盘上再现代码串信号的装置,包括再现头201、用于执行对来自再现头201的再现信号进行与在图5中调制电路113中的调制相对应的解调的解调电路202、和用于对由解调获得的信号执行误差校正处理的ECC译码器203。
参看图6,例如,由所述再现头201从用作信息记录介质的光盘115上再现的信号被送给解调电路202。由于由再现头201从光盘115上再现的信号被调制,所以解调电路202对调制的信号进行解调。由解调电路202输出的信号被传送给译码器203。所述ECC译码器203对所述信号执行误差校正。经过误差校正的信号是一个代码串信号,该代码串信号被送给多路分配器204。所述代码串信号包括量化信号、规范化系数信息和量化精度信息。
多路分配器204使与图5所述4个频带相应的频带的多个量化信号、多段规范化系数信息和多段量化精度信息彼此分离,并将这些信号和信息段分别送给信号分量构成电路205a到205d。
信号分量构成电路205a到205d使用这些量化精度信息去逆量化所述量化的信号,并使用所述规范化系数信息消除规范化。另外,信号分量构成电路205a到205d执行一个与在图5中的编码装置执行的处理(即频谱变换)相对应的再构成处理(即逆频谱变换),以便通过取消规范化将一个信号分解成信号的频率分量,借此以复原所述频带的信号分量(取样数据)。来自信号分量构成电路205a到205d的所述频带的信号分量被传送给相应的增益控制校正电路206a到206d。
增益控制校正电路206a到206d以表示在由代码串分离电路所分离的数据块内存在有起始或释放部分的起始/释放部分的检测标记、表示所述起始/释放部分检测标记位置的位置信息和增益控制信息为基础,从而执行增益控制校正处理以便衰减在起始部分之前的小幅值准稳态信号分量和释放部分的信号分量。在增益控制校正电路206a到206d中执行的增益控制校正处理是用作在编码过程中使用的增益控制函数的相反数的增益控制校正函数的乘法处理。
当如上所述地衰减在编码过程中被放大的信号分量时,当通过上述的信号分量构成电路205a到205d执行从频率区域到时间区域的逆频谱变换时,量化噪声总是在数据块内均匀扩展,这其中,在起始部分前后产生的量化噪声可以被抑制到一个很低的电平。由于这个原因,由前回波或后回波引起的听觉障碍也可以被抑制。另一方面,增益控制校正电路206a到206d不对数据块内的信号分量执行信号衰减处理,在这些数据块内,不存在有起始和释放部分。并且这些数据块在编码过程中不进行放大处理。通过增益控制校正电路206a到206d的数据块的信号成份被送给波形信号合成电路207。
波形信号合成电路207对被分成4个的频带进行合成处理。利用这种方式,从波形信号合成电路207输出经过频带合成的数字音频信号。数字音频信号从输出端208输出、由D/A转换器(未示出)转换成模拟信号、然后由放大器进行放大。放大后的信号被送给诸如扬声器、耳机或耳塞的声音产生装置或由音频线输出端或类似装置输出。
下面描述心理听觉模型应用电路110的处理。
在信号的编码和译码过程中,对其中产生了前回波和后回波的波形信号利用增益控制电路103在起始部分的前后进行增益控制,并利用增益控制校正电路206进行增益控制校正。不仅可以避免在起始部分之前的前回波,而且可以避免在释放部分之后的后回波的产生。在本申请人的日本专利申请No.7-38266的说明书和附图中提出了用于在被检测的起始部分AT之前之后的部分的数据块中检测起始部分AT的方法和选择增益控制函数的方法。
在本发明中,为了避免使用通过增益控制获得的不适当的掩蔽曲线进行编码,单独设置了用于心理听觉模型的心理听觉模型窗口电路108、心理听觉模型变换电路109、和心理听觉模型应用电路110。利用这些电路执行与由增益控制引起的频率分量的变化相对应的掩蔽电平的计算。
在这种情况下,假设由L表示由窗口电路102a到102d执行解析时所使用的解析长度的和,即:将被编码具有重叠的被切割的输入信号的长度。在这种情况下,心理听觉模型窗口108使用L/2^n(n:自然数)长度作为解析长度在多个区域内单独解析输入信号。
特别是,如图7A、7B、7C和7D所示,在窗口电路102a到102d中施加给输入信号上的一个窗口的长度被设置为如图7A所示的L,且具有重叠区域的解析数据块由W0、W1和W2表示,如图7A所示。例如,当对W1表示的部分进行编码时,心理听觉模型窗口电路108将具有如图7B、7C和7D所示的L/2^n解析长度的窗口应用到部分W1,使用随后的心理听觉模型的计算被执行以解析相应的数据块。例如,图7B示出了一种情况,在这种情况下,利用三个步骤来解析心理听觉模型,从而应用了具有L/2解析长度的窗口。类似地,图7C示出了一种情况,在这种情况下,利用7个步骤来解析心理听觉模型,从而应用了具有L/4解析长度的一个窗口,图7D示出了一种情况,在这种情况下,以15个步骤来解析心理听觉模型,从而应用了一个具有解析长度为L/8的窗口。
心理听觉模型变换电路109对经过心理听觉模型窗口电路108分解的数据块执行频谱变换。在心理听觉模型窗口电路108中以1/2^n为单位执行分解(n是自然数)以使得在这种情况下执行频谱变换变得容易。
心理听觉模型应用电路110使用来自增益控制电路103a到103d的增益控制信息和增益控制函数把心理听觉模型应用到来自心理听觉模型变换电路109的频谱分量上。特别是,可以考虑下述情况,即:一个如图8A所示的输入信号SW被用于对紧靠在所述起始部分AT之前的部分的信号分量执行具有是Ra倍的增益控制量的增益控制,从而使得该信号分量被乘以如图8B所示的增益控制函数GC。在图8B中,多个输入信号的幅值具有正电平和负电平,但在图8B中仅示出了正电平。
此时,应用了三个其中的每一个都具有如图8C所示L/2解析长度的窗口,并且从心理听觉模型变换电路109的输出中获得如图8D、8E和8F所示的三种频谱分布。
诸如最小可听电平、掩蔽特性或响度特性的心理听觉模型被应用到每个频谱分布,并且计算被划分的数据块的掩蔽电平。在这种情况下,可以获得在图8D、8E和8F中因虚线表示的掩蔽曲线mcD、mcE和mcF。由于所述被划分数据块的掩蔽电平没有经过增益控制,所以在图8D、8E和8F中的划分后的数据块的掩蔽电平降低,而在图8F中划分后数据块的掩蔽电平升高。
利用相应数据块信号部分的增益控制电平的最小值(或平均值,最好是最小值)放大每个划分后数据块的掩蔽电平。例如,在图8D和8E中所述掩蔽电平被放大Ra倍(×Ra),在图8F中,所述掩蔽电平是一个相等放大值(×1)的值。特别是,由于将被编码的信号具有由所述增益控制以相应的倍率放大的电平,所以与该信号相应的划分后数据块的掩蔽曲线也被相同电平放大。通过利用所述增益控制的值对图8D、8E、8F中划分后数据块的掩蔽曲线mcD,mcE和mcF的电平进行升级可以获得在图8G到8I虚线所示的划分后数据块的掩蔽曲线mcG、mcH和mcI。
因此,由于在图8G、8H和8I中用虚线表示的三个掩蔽曲线mcG、mcH和mcI分别表示了划分后数据块的掩蔽电平,所以,划分后数据块掩蔽电平的最小值可以适当地被用作所有编码数据块的掩蔽电平。由于这个原因,可以通过选择在图8G、8H和8I中掩蔽曲线mcG、mcH和mcI的任一个最小值获得如图8J虚线所示的掩蔽曲线mcJ。
如上所述获得的掩蔽电平被提供给量化精度确定电路111。在量化精度确定电路111中,通过使用由变换电路104a到104d提供的频带的频谱量和心理听觉模型应用电路110提供的掩蔽电平信息来计算每个编码数据块的量化精度。在量化电路106a到106d中,使用量化精度信息对来自规范化电路105a到105d的信号进行量化。特别是,在量化电路106a到106d中能够执行应用了心理听觉模型的编码。
在最后划分的解析长度中,掩蔽的每个划分后的解析长度最好被减少到增益控制的解析长度。但是,由于使用精细的划分使掩蔽解析的频率分辨率随着解析长度的减少而减少,所以最好执行精细划分以避免干扰掩蔽的解析。当所述最小值没有被用作提供给每个划分后数据块掩蔽电平的增益控制的电平,而是所述掩蔽电平被乘以一个平均值时,增益控制电平被乘以这个位置的窗口函数以获得一个平均值,并且可以使用通过利用1电平处的一个值对所述平均值规范化所获得的一个值。但是,当所述窗口的形状是对称的时,可以仅使用平均值执行计算以减少计算值。
如上所述地描述了用于删除在作为波形信号的一个音频信号被量化时所产生的量化噪声的计算掩蔽电平的方法,本发明的方法对于删除其它典型信号量化噪声也是非常有效的。特别是,由于在音频信号的起始部分内的前回波或后回波会引起听觉障碍,所以本发明可以有效地应用于音频信号。当然本发明还可以应用于多通道音频信号。
下面参考图9描述本发明其它的编码方法。
在具有如图6所示上述配置的编码装置中,信号分量被划分成多个相互重叠的解析区域,并计算所述解析区域的掩蔽电平,然后编码。在计算划分后解析区域的掩蔽电平时,使用了在所述解析区域内的增益控制量。在这种情况下,由于增益控制电平转换的位置并不总是和解析区域被划分的位置相一致,所以当两者位置相互不一致时,使用了增益控制量的最小值(或平均值)。另外,当划分解析区域的数量增加以减少所述数据块的长度时,可以减少在增益控制电平被转换的位置和解析区域的划分位置之间的差异概率。
与此相反,根据本发明的另一种编码方法,在使用与增益控制位置无关的解析区域的增益控制量对掩蔽电平进行变换时,可以在不降低频率分辨率的情况下计算与增益控制量相应的最佳掩蔽电平,从而实现最佳的编码。
图9示出一个应用了上述编码方法的编码装置。与图5相同的标号在图9中表示相同的部分并且除了需要解释的部分以外,关于它们的描述将予省略。具体讲,本发明的该装置不使用图5中心理听觉模型窗口电路108到心理听觉模型应用电路110的配置。它包括:一个用于在输入信号的基础上产生心理听觉模型解析波形信号的心理听觉模型波形产生电路118、用于将所述心理听觉模型解析信号变换成频率分量的心理听觉模型变换电路119、和一个用于将心理听觉模型应用到心理听觉模型解析频率分量上以输出解析结果的心理听觉模型应用电路120。
下面描述图9所示实施例的编码装置。
提供给输入端100的声音信号被送给位于带分滤波器101之后的配置,同时还送给心理听觉模型波形产生电路118。由增益控制电路103a到103d计算的增益控制函数也被送给心理听觉模型波形产生电路118。心理听觉模型产生电路118将通过输入端100提供的声音信号分割成块单元,其中的每个数据块都具有预定长度,并使相邻数据块相重叠,对每个数据块乘以变换窗口函数。在由增益控制电路103a到103d传送的增益控制函数的基础上,产生用于解析心理听觉模型的多个波形信号。所述多个波形信号被独立地传送给心理听觉模型变换电路119。
此时,由端100提供的声音信号不通过带分滤波器101,并且也不具有被划分的频带。当由增益控制电路103a到103d传送的增益控制函数不经过信号放大处理时,在声音信号以数据块为单位被切割以后,心理听觉模型波形产生电路118使所述的声音信号乘以变换窗口函数,并与所述的波形信号增益控制电平一起直接将声音信号传送给心理听觉模型变换电路119。后面将详细描述心理听觉模型波形产生电路118的处理。
在心理听觉模型变换电路119中,通过使用与在电路104a到104d中相同或不同的方法,对一个心理听觉模型解析波形信号或多个心理听觉模型解析波形信号执行频谱变换。由该频谱变换获得的频谱分量被传送给心理听觉模型应用电路120。增益控制电平是直接传送的。
在心理听觉模型应用电路120中,心理听觉模型被应用到来自所述心理模型变换电路119的一个或多个频谱分量上以计算用于每个频谱分量的适当的掩蔽电平。具体讲,在心理听觉模型应用电路120中,以对应于通过心理听觉模型变换电路119获得的信号频率的频谱分量的频率为单位或以通过划分所述信号频率所获得的频带为单位来计算通过使用掩蔽特性或响度特性从最小可听电平或所提供的频谱分量来计算的掩蔽电平。当多个信号的频谱分量被从所述心理听觉模型变换电路119中送出时,利用从心理听觉模型变换电路119传送的增益控制电平以频带为单位对所述信号的频频分量进行变换以获得多个掩蔽电平,并选择所述多个掩蔽电平的最小值。被选择的掩蔽电平的信息被送给量化精度确定电路111。有关心理听觉模型应用电路120的详细处理将在下面描述。
量化精度确定电路111通过使用由变换电路104a到104d提供的所述频带的频率分量和由心理听觉模型应用电路120提供的掩蔽电平信息确定一个量化精度,并将该量化精度信息分别传送给对应于所述频带的量化电路106a到106d。
在图9所示的配置内,如同图5所示配置一样,变换电路104a到104d的输出可以沿着图9虚线所示的路径被提供给心理听觉模型应用电路120。由于所述译码装置的基本配置与图6所示的配置相同,所以其描述予以省略,在所述的译码装置中,由图8所示编码装置产生并记录在信息记录介质上或传送给所述传送介质的代码串信号被译码,从而对数字音频信号进行译码。
下面将描述心理听觉模型波形产生电路118的处理。
在图9所示的本发明的配置中,通过应用一个用于形成处于增益控制电平的波形信号的窗口来划分一个波形信号以解析一个心理听觉模型并且以波形信号为单位来计算掩蔽电平。与多个波形信号相对应的增益控制电平被用于计算编码数据块的掩蔽电平,并且在心理听觉模型产生电路118中只涉及增益控制电平的变化。
在这种情况下,假设被切割用于解析的来自输入给输入端100的波形信号的输入信号SW如图10A所示,并且与该波形信号SW相对应和由增益控制电路103a到103d所确定的增益控制函数GC,如图10B所示,具有如下的系数,即该系数在准稳态信号的FL部分被放大Ra倍(×Ra)、在作为起始部分的AT部分具有相等的倍数(×1)和在作为释放部分的RE部分是Rr倍。在此时,心理听觉模型波形产生电路118分割来自输入信号的一个相应数据块,并使相邻数据块的信号分量相重叠,然后使变换窗口函数同每一数据块相乘,借此以切割一个如图10A所示的波形信号SW的信号分量。信号分量被乘以划分后的窗口函数,如图10C、10D和10E所示。
特别是,其中增益控制函数的变化部分的位置与窗口电平变化部分的位置相一致的划分后的窗口函数彼此相乘。根据划分后的窗口函数,在图10C所示的用于划分FL部分的窗口中,FL部分是不变化的,除FL部分以外的部分,即AT部分和RE部分被抑制到0电平。类似的,用于划分在如图10D所示的AT部分和图10E所示的RE部分的窗口中,除AT或RE部分以外的其它部分被抑制到0电平。窗口电平变化点被设置,以便使增益控制函数的变化开始位置与窗口电平变化开始点相一致、增益控制函数变化结束位置与窗口电平变化结束位置相一致。其结果是划分后的波形信号被分别表示为如图10F、10G和10H所示的三个波形信号SWF、SWG和SWH。在这种情况下,当划分后的波形信号是如图10F、10G和10H中所示的三个波形信号SWF、SWG和SWH时,通过在每个波形单元中划分窗口,除相应部分以外的部分的电平得到了抑制。由于这个原因,当信号被变换为具有大数据块长度的频谱分量时,其整个大数据块长度内,所述电平降低。
因此,如图10A到10H所示,整个数据块的长度由Ls表示,所述FL部分的长度由Lf表示,所述RE部分的长度由Lr表示。在这种情况下,执行电平校正,从而使得所述信号电平在FL部分是Ls/Lf倍、在AT部分的信号电平是Ls/La倍、在RE部分的信号电平是Ls/Lr倍。当在一个数据块内存在具有不同声音的波形信号时,即当所述数据块第一半部分的声音完全不同于该数据块的第二半部分的声音时,在所述数据块内最好不执行电平校正。由于这个原因,当在一个数据块内存在具有不同声音的波形信号时,不执行电平校正。如上所计算的多个波形分量与波形信号的增益控制电平一起被传送给心理听觉模型变换电路119。
当通过应用一个划分窗口并以增益控制电平为单位对一个心理听觉模型解析信号进行划分以校正所述电平时,在不考虑输入信号增益控制电平转换位置的情况下可以计算该增益控制量的信号的掩蔽电平。
当借助于图9所示带分滤波器使所述的波形信号被一分为4并进行编码时,在四个频带中增益控制电平的变化彼此是不同的。在这种情况下,在所有的频带增益控制电平发生变化的位置处,所述的波形信号被划分。
下面描述所述心理听觉模型应用电路120的处理。
在心理听觉模型变换电路119中,对通过心理听觉模型波形产生电路118获得的一个或多个波形信号进行频谱变换。所产生的信号被送给心理听觉模型应用电路120。与该波形信号对应的增益控制电平被直接传送给心理听觉模型应用电路120。
心理听觉模型应用电路120将一个心理听觉模型应用到由心理听觉模型变换电路119传送来的一个或多个频谱分量。特别是,例如如果根据其如图11A、11B和11C所示的每个增益控制电平处的三个划分后的波形信号SWA、SWB和SWC(这些波形信号与图10F、10G和10H所示SWF、SWG和SWH相同)获得如图11D、11E和11F所示的频谱分量,那么一个心理听觉模型被应用到这些频谱分量上,以计算掩蔽电平。假设在所计算掩蔽曲线的基础上,可以获得图11D、11E和11F中虚线表示的掩蔽曲线mcd、mce和mcf。
来自心理听觉模型变换电路119的增益控制电平被乘以掩蔽曲线。特别是,由于该部分被乘以与在编码过程中的增益控制电平相反的数,所以与该增益控制电平相应的信号可以将所述掩蔽电平放大一个与所述相反数对应的值。由于这个原因,在图11A所示FL部分掩蔽电平的放大倍率为Ra,在如图11B所示的AT部分,该掩蔽电平的放大倍率为1,而在如图11C所示的RE部分,掩蔽电平的放大倍率是Rr。因此,从与波形信号SWA、SWB和SWC相对应的掩蔽电平中获得了如图11G、11H和11I中虚线所示的掩蔽曲线mcg、mch和mci。由于具有划分后波形的掩蔽电平的最小值被适当地用作整个数据块的掩蔽电平,所以可以获得由图11J所示并具有图11G、11H和11I中掩蔽曲线mcg、mch和mci中最小值的掩蔽曲线mcj,以用于需要被放大的如图11j所示的受增益控制的一个频谱。
如上计算的掩蔽电平被送给量化精度确定电路111,计算与所述掩蔽电平相应的编码数据块的量化精度,并在量化电路106a到106d中执行量化。特别是,量化电路106a到106d可以执行应用了心理听觉模型的编码。
如上所述,在图9的配置中,根据每个增益控制电平的一个频谱分量计算掩蔽电平,并在该增益电平的基础上执行变换,这样,就可以在不考虑输入信号增益控制电平转换位置的情况下对掩蔽电平进行适当的变换。
当输入信号被带分滤波器分成如图9所示的4个频带并进行编码时,在这4个频带中的增益控制电平可能彼此是不同的。在这种情况下,当图11D、11E和11F中的掩蔽电平被放大成如图11G、11H和11I所示的掩蔽电平时,根据增益控制电平以相应的频带为单位放大所述的掩蔽电平。
上面描述了在图9所示的配置中,用于减少当音频信号被量化成一个波形信号时所产生量化噪声的计算掩蔽电平的方法。但是,本发明的方法对于减少其它类型信号的量化噪声也是有效的。例如,本发明还可以应用于图像信号。但是,由于在音频信号起始部分中的前回波或后回波是一严重的听觉干扰,所以本发明应用于音频信号是特别有效的。本发明的方法还可以应用于多通道音频信号中。
根据本发明,检测一个起始部分和释放部分,并使用根据波形信号特征从多个增益控制量中自适应选择的一个增益控制量对至少是在起始部分之前的波形单元和释放部分的波形单元执行增益控制。由此,可以避免产生前回波和后回波。
根据本发明,当需要对通过变换波形信号而获得的多个频率分量进行编码时,通过在心理听觉模型基础上使用根据波形信号计算的掩蔽电平来对所述的多个频率分量进行编码,而避免由增益控制使用不适当的掩蔽曲线的编码。由此,可以执行应用了所述心理听觉模型的有效编码。

Claims (16)

1、一种对声音信号进行编码的方法,包括如下步骤:
检测波形信号的波形单元的电平急剧升高的起始部分;
检测波形信号的波形单元的电平急剧降低的释放部分;
根据波形信号的特性从多个增益控制量中自适应地选择一个增益控制量,以用于在起始部分之前的波形单元和释放部分的波形单元;
通过使用所选择的增益控制量对是在起始部分之前的波形单元和释放部分的波形单元执行增益控制;
将所述的波形信号变换成多个频率分量;
从所述波形信号根据心理听觉模型计算掩蔽电平;和
通过使用所述掩蔽电平,对所述多个频率分量进行编码,和对用于增益控制的控制信息进行编码。
2、如权利要求1所述的对声音信号进行编码的方法,其中,在通过对所述波形信号执行频谱变换所获得频率分量的基础上来计算所述掩蔽电平。
3、如权利要求2所述的对声音信号进行编码的方法,其中,所述的频率分量是对波形信号执行频谱变换获得的一个全频带的分量。
4、如权利要求1所述的对声音信号进行编码的方法,其中,所述波形信号被分成多个相互重叠的解析区域,并且所述掩蔽电平是从解析区域的掩蔽电平中选择的。
5、如权利要求4所述的对声音信号进行编码的方法,其中,利用所选择的增益控制量来变换解析区域的掩蔽电平。
6、如权利要求1所述的对声音信号进行编码的方法,其中在所述的心理听觉模型内,以增益控制量为单位计算频率分量。
7、如权利要求6所述的对声音信号进行编码的方法,其中,所述波形信号被分成与选择后的增益控制量相关的多个波形信号,且从划分后波形信号的掩蔽电平中选择所述掩蔽电平。
8、如权利要求7所述的对声音信号进行编码的方法,其中,利用所选择的增益控制量变换划分后的波形信号的掩蔽电平。
9、一种用于对声音信号进行编码的设备,包括:
起始部分检测装置,用于检测波形信号波形单元的电平急剧升高的起始部分;
释放部分检测装置,用于检测波形信号波形单元的电平急剧降低的释放部分;
选择装置,用于根据波形信号的特性从多个增益控制量中自适应选择一个增益控制量,以用于在起始部分之前的波形单元和释放部分的波形单元;
增益控制装置,用于通过使用所选择的增益控制量对在起始部分之前的波形单元和释放部分的波形单元执行增益控制;
变换装置,用于将所述的波形信号变换成多个频率分量;
掩蔽电平计算装置,用于在一个心理听觉模型的基础上从波形信号中计算掩蔽电平;和
编码装置,用于使用所述掩蔽电平对多个频率分量进行编码和对增益控制的控制信息进行编码。
10、如权利要求9所述的对声音信号进行编码的设备,其中,在对波形信号执行频谱变换所获得的频率分量的基础上来计算所述掩蔽电平。
11、如权利要求10所述的对声音信号进行编码的设备,其中,所述的频率分量是通过对所述波形信号执行频谱变换获得的一个全频带的分量。
12、如权利要求9所述的对声音信号进行编码的设备,其中,所述波形信号被分成多个相互重叠的解析区域,并且从解析区域的掩蔽电平中选择所述掩蔽电平。
13、如权利要求12所述的对声音信号进行编码的的装置,其中,利用所选择的增益控制量对所述解析区域的掩蔽电平进行变换。
14、如权利要求9所述的对声音信号进行编码的设备,其中,在所述心理听觉模型中,以增益控制量为单位来计算频率分量。
15、如权利要求14所述的对声音信号进行编码的设备,其中,所述波形信号被分成多个与所选择的增益控制量相关的波形信号,且从划分后的波形信号的掩蔽电平中选择所述掩蔽电平。
16、如权利要求15所述的对声音信号进行编码的设备,其中,利用所选择的增益控制量对划分后的波形信号的掩蔽电平进行变换。
CNB961211423A 1995-10-05 1996-10-05 使用多通道音频信号的编码方法及装置 Expired - Fee Related CN1160702C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP258655/95 1995-10-05
JP258655/1995 1995-10-05
JP25865595 1995-10-05

Publications (2)

Publication Number Publication Date
CN1153369A CN1153369A (zh) 1997-07-02
CN1160702C true CN1160702C (zh) 2004-08-04

Family

ID=17323274

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB961211423A Expired - Fee Related CN1160702C (zh) 1995-10-05 1996-10-05 使用多通道音频信号的编码方法及装置

Country Status (2)

Country Link
US (1) US5960390A (zh)
CN (1) CN1160702C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010078816A1 (zh) * 2008-12-29 2010-07-15 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
CN101061534B (zh) * 2004-11-18 2011-04-06 佳能株式会社 音频信号编码装置及方法

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6345100B1 (en) 1998-10-14 2002-02-05 Liquid Audio, Inc. Robust watermark method and apparatus for digital signals
US6320965B1 (en) 1998-10-14 2001-11-20 Liquid Audio, Inc. Secure watermark method and apparatus for digital signals
US6219634B1 (en) * 1998-10-14 2001-04-17 Liquid Audio, Inc. Efficient watermark method and apparatus for digital signals
US6330673B1 (en) 1998-10-14 2001-12-11 Liquid Audio, Inc. Determination of a best offset to detect an embedded pattern
US6209094B1 (en) 1998-10-14 2001-03-27 Liquid Audio Inc. Robust watermark method and apparatus for digital signals
US6308155B1 (en) * 1999-01-20 2001-10-23 International Computer Science Institute Feature extraction for automatic speech recognition
JP3507743B2 (ja) * 1999-12-22 2004-03-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 圧縮オーディオデータへの電子透かし方法およびそのシステム
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
DE60225130T2 (de) * 2001-05-10 2009-02-26 Dolby Laboratories Licensing Corp., San Francisco Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches
JP4265401B2 (ja) * 2001-06-15 2009-05-20 ソニー株式会社 符号化装置および符号化方法
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20030220801A1 (en) * 2002-05-22 2003-11-27 Spurrier Thomas E. Audio compression method and apparatus
JP4676140B2 (ja) 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US6965859B2 (en) * 2003-02-28 2005-11-15 Xvd Corporation Method and apparatus for audio compression
FR2852779B1 (fr) * 2003-03-20 2008-08-01 Procede pour traiter un signal electrique de son
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
KR100668319B1 (ko) * 2004-12-07 2007-01-12 삼성전자주식회사 오디오 신호의 변환방법 및 장치와 오디오 신호에적응적인 부호화방법 및 장치, 오디오 신호의 역변환 방법및 장치와 오디오 신호에 적응적인 복호화 방법 및 장치
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US7539612B2 (en) 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
CN101228574A (zh) * 2005-09-08 2008-07-23 北京阜国数字技术有限公司 一种控制前回声的编码和解码装置及方法
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
CN101473347B (zh) * 2006-04-21 2012-05-30 皇家飞利浦电子股份有限公司 增加精度平滑分布的画面增强
US8788264B2 (en) * 2007-06-27 2014-07-22 Nec Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
JPWO2011048741A1 (ja) * 2009-10-20 2013-03-07 日本電気株式会社 マルチバンドコンプレッサ
CN108694955B (zh) 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4002841A (en) * 1976-01-21 1977-01-11 Bell Telephone Laboratories, Incorporated Data compression using nearly instantaneous companding in a digital speech interpolation system
US4485483A (en) * 1983-03-18 1984-11-27 Torick Emil L FM Stereophonic system incorporating companding of difference signal
US4696040A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with energy normalization and silence suppression
US4704726A (en) * 1984-03-30 1987-11-03 Rca Corporation Filter arrangement for an audio companding system
DE3506912A1 (de) * 1985-02-27 1986-08-28 Telefunken Fernseh Und Rundfunk Gmbh, 3000 Hannover Verfahren zur uebertragung eines audiosignals
JP2792853B2 (ja) * 1986-06-27 1998-09-03 トムソン コンシューマー エレクトロニクス セイルズ ゲゼルシャフト ミット ベシュレンクテル ハフツング オーディオ信号の伝送方法及び装置
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
US5384891A (en) * 1988-09-28 1995-01-24 Hitachi, Ltd. Vector quantizing apparatus and speech analysis-synthesis system using the apparatus
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5142656A (en) * 1989-01-27 1992-08-25 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
JPH03132228A (ja) * 1989-10-18 1991-06-05 Victor Co Of Japan Ltd 直交変換信号符号化復号化方式
US5235623A (en) * 1989-11-14 1993-08-10 Nec Corporation Adaptive transform coding by selecting optimum block lengths according to variatons between successive blocks
US5274711A (en) * 1989-11-14 1993-12-28 Rutledge Janet C Apparatus and method for modifying a speech waveform to compensate for recruitment of loudness
US5502789A (en) * 1990-03-07 1996-03-26 Sony Corporation Apparatus for encoding digital data with reduction of perceptible noise
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP2861238B2 (ja) * 1990-04-20 1999-02-24 ソニー株式会社 ディジタル信号符号化方法
JP2751564B2 (ja) * 1990-05-25 1998-05-18 ソニー株式会社 ディジタル信号符号化装置
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
US5134658A (en) * 1990-09-27 1992-07-28 Advanced Micro Devices, Inc. Apparatus for discriminating information signals from noise signals in a communication signal
JP3134338B2 (ja) * 1991-03-30 2001-02-13 ソニー株式会社 ディジタル音声信号符号化方法
JP3134337B2 (ja) * 1991-03-30 2001-02-13 ソニー株式会社 ディジタル信号符号化方法
KR100268623B1 (ko) * 1991-06-28 2000-10-16 이데이 노부유끼 압축 데이타 기록 재생 장치 및 신호 처리 방법
JP3141450B2 (ja) * 1991-09-30 2001-03-05 ソニー株式会社 オーディオ信号処理方法
JP3104400B2 (ja) * 1992-04-27 2000-10-30 ソニー株式会社 オーディオ信号符号化装置及び方法
JP3185413B2 (ja) * 1992-11-25 2001-07-09 ソニー株式会社 直交変換演算並びに逆直交変換演算方法及びその装置、ディジタル信号符号化及び/又は復号化装置
US5410741A (en) * 1993-03-23 1995-04-25 Motorola Inc. Automatic gain control of transponded supervisory audio tone
JP3513178B2 (ja) * 1993-05-25 2004-03-31 ソニー株式会社 情報符号化又は復号化方法、並びに装置
US5581654A (en) * 1993-05-25 1996-12-03 Sony Corporation Method and apparatus for information encoding and decoding
EP0653846B1 (en) * 1993-05-31 2001-12-19 Sony Corporation Apparatus and method for coding or decoding signals, and recording medium
DE69417296T2 (de) * 1993-06-28 1999-11-04 Suisse Electronique Microtech Schaltung zur Verarbeitung von Signalen mit einer Eingangsstufe mit veränderbarer Verstärkung
EP0707763B1 (en) * 1993-07-07 2001-08-29 Picturetel Corporation Reduction of background noise for speech enhancement
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
JP3555149B2 (ja) * 1993-10-28 2004-08-18 ソニー株式会社 オーディオ信号符号化方法及び装置、記録媒体、オーディオ信号復号化方法及び装置、
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
US5625743A (en) * 1994-10-07 1997-04-29 Motorola, Inc. Determining a masking level for a subband in a subband audio encoder

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101061534B (zh) * 2004-11-18 2011-04-06 佳能株式会社 音频信号编码装置及方法
WO2010078816A1 (zh) * 2008-12-29 2010-07-15 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
US8063809B2 (en) 2008-12-29 2011-11-22 Huawei Technologies Co., Ltd. Transient signal encoding method and device, decoding method and device, and processing system

Also Published As

Publication number Publication date
CN1153369A (zh) 1997-07-02
US5960390A (en) 1999-09-28

Similar Documents

Publication Publication Date Title
CN1160702C (zh) 使用多通道音频信号的编码方法及装置
Davis The AC-3 multichannel coder
CN1154087C (zh) 提高低比特率音频编码系统音质的方法、编码器和译码器
CN1281006C (zh) 信息编码/译码方法和装置和信息传输方法
US7292901B2 (en) Hybrid multi-channel/cue coding/decoding of audio signals
AU2005226536B2 (en) Frequency-based coding of audio channels in parametric multi-channel coding systems
Fielder et al. AC-2 and AC-3: Low-complexity transform-based audio coding
JP4856641B2 (ja) 符号化されたマルチチャネル信号を発生するための装置および方法並びに符号化されたマルチチャネル信号を復号化するための装置および方法
US6424939B1 (en) Method for coding an audio signal
CN1099777C (zh) 数字信号的编码装置、解码装置和编码方法
CN1947172A (zh) 方法、装置、编码器设备、解码器设备以及音频系统
CN1639770A (zh) 根据频率变换重建具有不完全频谱的音频信号的频谱
CN1068689A (zh) 高效数字数据编码和译码装置
CN1295778A (zh) 低位率空间编码方法和系统
EP1503370A1 (en) Coding method, coding device, decoding method, and decoding device
CN1137546C (zh) 对一组数字信息信号进行编码的装置和方法
CN101379554A (zh) 用于编码/解码信号的装置和方法
CN1106967A (zh) 数字声频信号低比特率编译码器、和编译码方法及其编码记录媒体
CN1161750C (zh) 语音编码译码方法和装置、电话装置、音调变换方法和介质
CN1234896A (zh) 信息解码方法和装置、信息编码方法和装置以及供应媒体
Johnston et al. AT&T perceptual audio coding (PAC)
CN1236164A (zh) 再现和记录装置、译码装置、记录装置、及其相应方法
JP3572090B2 (ja) ディジタル伝達システムにおける送信機,受信機及び記録担体
Bosi et al. High-quality, low-rate audio transform coding for transmission and multimedia applications
CN1139805A (zh) 数据记录方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040804

Termination date: 20151005

EXPY Termination of patent right or utility model