CN1849649A - 瞬态音频信号分量的编码 - Google Patents
瞬态音频信号分量的编码 Download PDFInfo
- Publication number
- CN1849649A CN1849649A CNA2004800258234A CN200480025823A CN1849649A CN 1849649 A CN1849649 A CN 1849649A CN A2004800258234 A CNA2004800258234 A CN A2004800258234A CN 200480025823 A CN200480025823 A CN 200480025823A CN 1849649 A CN1849649 A CN 1849649A
- Authority
- CN
- China
- Prior art keywords
- transient
- component
- sinusoidal
- noise
- modeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
Abstract
公开了一种编码(1)音频信号(x(t))的方法。估算(110)音频信号的瞬态信号分量的位置。用第一组多个正弦分量对所述瞬态信号分量的第一部分(ti)建模(111)。估算瞬态信号分量的第一部分(ti)和瞬态信号分量之间的差值(d)。用所述差值的能量量度(E)对所述差值建模;并将所述量度(E)包含在音频流(AS)中。
Description
本发明涉及编码以及解码音频信号。
现参见图1,在美国公开申请No.2001/0032087A1中描述了参数编码方案,具体而言是正弦编码器。在该编码器(1)中,从信道10提供的输入音频信号x(t)被分成多个(重叠)段或帧,一般长20ms。通常每段由连续的编码级11、13和14分解为瞬态(CT)、正弦(CS)和噪声(CN)分量(还可能导出输入音频信号的其它分量,例如谐波合成,但是这些与本发明的目的不相关)。
编码器第一级包括:瞬态编码器11,其包括瞬态检测器(TD)110、瞬态分析器(TA)111以及瞬态合成器(TS)112。检测器110估算是否存在瞬态信号分量及其位置。此信息被馈给瞬态分析器111。如果瞬态信号分量的位置被确定,则瞬态分析器111试图提取瞬态信号分量(的主要部分)。它通过采用例如若干(少量)的正弦分量,将形状函数匹配于最好在所估算的开始位置处开始的信号段,并确定形状函数之下的内容。该信息被包含在瞬态码CT中。
瞬态码CT被提供给瞬态合成器112。所合成的瞬态信号分量在减法器16从输入信号x(t)中减去,结果为信号x2。
信号x2被提供给正弦编码器13,其中,在正弦分析器(SA)130中对其进行分析,而正弦分析器(SA)130确定了(确定性的)正弦分量。正弦编码的最终结果是正弦编码CS,而在PCT专利申请No.WO00/79519A1中,提供了说明常规生成示范性正弦编码CS的更为详细的示例。
正弦信号分量由正弦合成器(SS)131从用正弦编码器生成的正弦码CS中来重构。该信号在减法器17中从到正弦编码器13的输入信号x2中被减去,结果为剩余的信号x3,而信号x3缺少(巨大的)瞬态信号分量和(主要的)确定性正弦分量。
假定剩余的信号x3主要包括噪声,并且噪声分析器14产生表示该噪声的噪声编码CN,例如在PCT专利申请No.WO01/89086A1中所描述的那样。
在多路复用器15中,组成包括码CT、CS和CN的音频流AS。
在瞬态编码器11中,如果发生在时间上被定位的事件,例如响板或踏钹(high-hats)的冲击(attack),则音频信号的一部分被标记为瞬态。
在美国公开申请No.2001/0032087A1中,用专用瞬态窗口(即Meixner窗)窗口化的若干正弦曲线对瞬态建模。在图2中,示出了音频信号(实线)的估算Meixner窗口(虚线)。瞬态估算过程包括三个步骤:
-瞬态位置估算:音频信号中的瞬态位置由瞬态检测器110确定;
-瞬态包络估算:在Meixner瞬态情况下,描述瞬态时间包络的Meixner窗由瞬态分析器111估算;
-正弦内容估算:利用估算的Meixner窗,分析器111估算若干正弦曲线来描述瞬态。正弦曲线由频率和三个复数的、多项式幅度来表示。
在7个正弦曲线用于Meixner瞬态的实现中,瞬态模型所需的比特率范围一般在0.5与2.0kbit/s之间,取决于音频信号中检测到的瞬态的数量。
通过利用如上所述的瞬态建模,就获得了包含瞬态选段(excerpt)的良好音频质量。然而,音频质量可通过增加用于对瞬态建模的正弦曲线的数量来改善。在此情形下,瞬态的冲击被更好地定义,并且获得了瞬态的更多“真实感”。例如,可以发现,通过正弦曲线的数量从7增加到25,可以获得好的结果。
参见图3,分别示出了由7个正弦曲线(虚线)和25个正弦曲线(实线)建模的瞬态的频谱。由25个正弦曲线建模的瞬态频谱类似于原始瞬态频谱,然而由7个正弦曲线建模的瞬态在频谱中具有一些清晰的洞,尽管这7个正弦曲线模拟了频谱中重要的峰值。
然而,利用25个正弦曲线,瞬态模型11所需要的比特率(从使用7个正弦曲线的2kbit/s)显著增加到约6kbit/s。瞬态部分比特率的此增加必须被存储在编码器的正弦和/或噪声建模元件13、14中,因此降低了总的音频质量。
根据本发明,提供根据权利要求1的方法。
本发明通过将噪声分量的参数包括在瞬态描述中,扩展了目前的瞬态模型。因此,代替仅仅使用正弦的是,正弦和噪声都用于描述瞬态。
在优选实施例中,由正弦和噪声建模的瞬态时间间隔可以不同。
瞬态噪声分量的参数导致了比特率的较小增加,但却提高了瞬态的感觉(perceptual)质量。
因此,本发明反而降低了由附加正弦曲线所需的比特率,同时保持了音频质量。这是因为附加正弦曲线没有对频谱中的清晰峰值建模,正如原始正弦曲线那样,相反,附加正弦曲线或多或少地填补了原始正弦曲线之间的间隙。在时域中,由附加正弦描述的信号是类噪声,从而已经发现频谱的这些部分用噪声参数建模更加有效。
现在参见附图通过示例,将描述本发明的实施例,其中:
图1是音频编码器的框图;
图2示出了用于响板选段(实线)的瞬态包络(虚线)的示例;
图3分别示出了由7个正弦曲线(虚线)和25个正弦曲线(实线)建模的瞬态频谱的示例。
图4示出了根据本发明优选实施例的用噪声扩展的瞬态频谱的示例(虚线),其与由25个正弦曲线(实线)建模的瞬态频谱相比;
图5示出了根据本发明优选实施例建模的瞬态分量;
图6是音频解码器的框图;以及
图7是根据本发明优选实施例的瞬态合成器的详图。
根据本发明的优选实施例,替代地,通过定位的(localized)突发噪声对上述附加(18)正弦曲线建模,而该突发噪声具有与附加正弦相同的能量。突发噪声被置于瞬态的开始,而且固定的时间窗口用于成形突发噪声。只有突发噪声的能量必须在已编码的信号(AS)的瞬态编码(CT)内传输,所以仅仅稍微增加了实现本实施例所需的比特率。图4示出了瞬态的频谱,其中突发噪声已经被附加到由7个正弦曲线(虚线)建模的频谱。可以发现,该频谱可以与由25正弦曲线(实线)建模的频谱进行比较。
更具体而言,在优选实施例的编码器中,瞬态分析器111以常规方式使用众多正弦曲线(例如25个)来估算Meixner瞬态并对瞬态建模。该信号用th来标注,并且(在44.1kHz采样速率)具有长度U=720个采样。最相关的正弦曲线(例如7个)被用于生成另一瞬态信号t1。对最相关的正弦曲线的选择,例如可以利用基于能量的费用(cost)函数或任何其他的常规标准。在任何情况下,信号t1然后从信号th中减去,以便提供差值信号d=th-t1,用于生成突发噪声。
突发噪声被置于瞬态的开始,并且优选地,具有比该瞬态更短的长度L。在优选实施例中,(在44.1kHZ采样速率)L=150采样。差值信号根据下列函数来窗口化:
dw(n)=d(n)w0(n),for n=1,...,L,
其中w0是窗,具有渐弱斜率,其被定义为:
渐弱是汉宁(Hanning)窗的第二部分。然而,可对于窗给出不同的定义。
窗口化的段dw的能量量度如下:
并且,能量E连同包含信号t1的正弦曲线参数一起被量化,并作为瞬态码CT的一部分被发送到解码器。因此,涉及差值信号d的(附加)正弦曲线的信息被丢弃,并用突发噪声参数替代。
信号th由合成器112进行合成,如同在常规编码器中那样,并且信号th从输入信号x(t)中减去(16),以便生成剩下的信号x2,信号x2象以前一样在正弦分析模块13中被馈给。可替换地,瞬态码CT在从输入信号x(t)中被减去之前,可由合成器112合成,如同在解码器(下面说明)中一样,以便生成剩下的信号x2。
按照这种方式,可通过音频编码器的正弦曲线模块13和噪声模块14,对瞬态部分更好地建模。
现在参见图6,根据本发明的优选实施例的解码器一般具有与美国公开申请No.2001/0032087A1的解码器相同的形式。这里,音频流AS’,例如由根据图1的编码器生成的,从诸如数据总线、天线系统、存储介质等之类的信道获得。音频流AS在解复用器30中被解复用,以获得码CT、CS和CN。这些码被分别提供给瞬态合成器31、正弦合成器32和噪声合成器33。
在本发明的优选实施例中,在瞬态合成器31中,包含原始正弦的信号t1的参数用于在图7合成器TSS中重构正弦曲线。然后,根据Meixner函数的参数b、ξ,以常规方式窗口化(MDW)该信号。
同时,重构已编码的能量值,结果是能量
。白噪声发生器(WNG)提供长度为L的高通滤波器噪声段。优选地,高通滤波器具有300Hz的截止频率,以便避免通过噪声进行超低频率的建模。利用窗口w来窗口化(WDW)已滤波的噪声信号,优选地,窗口w是长度L的汉宁窗。然而,其他窗也可以(例如,非对称的汉宁窗)。
该窗口化噪声信号用rw表示。此信号通过增益g1比例缩放,g1根据下列等式来计算:
最终生成的能量突发,在加法器39中被添加上瞬态的合成正弦分量,因而完成了瞬态信号yT的合成,信号yT在被添加了信号y(t)的其他合成分量时,可以象以前一样进行处理。
在图5中,示出了已建模的瞬态的正弦和噪声分量。上面的迹线示出了瞬态的时间信号。第二条迹线示出了已建模的瞬态正弦分量,而下面的迹线示出了置于在瞬态起始处的突发噪声。应该看到,大多数瞬态被正弦分量描述,然而在瞬态的重要冲击中,添加了噪声分量。
返回参见图6,正弦码CS用于生成信号yS,如指定段上的正弦和所描述的。同时,噪声码CN被馈给噪声合成器NS33,其主要是滤波器,具有近似于噪声频谱的频率响应。NS33通过噪声码CN滤除白噪声信号,生成重构的噪声yN。
总信号y(t)包括瞬态信号yT和任意幅度分解(g)的生成物之和,以及正弦信号yS和噪声信号yN之和。音频播放器包含两个加法器36和37,以便计算对应信号的和。总信号被提供给输出单元35,例如扬声器。
本发明可被用于音频编码器中,其中,瞬态通过窗口化正弦曲线来描述。
Claims (15)
1.一种编码(1)音频信号(x(t))的方法,包括步骤:
-估算(110)音频信号的瞬态信号分量的位置;
-用第一组多个正弦分量对所述瞬态信号分量的第一部分(t1)建模(111);
-估算瞬态信号分量的第一部分(t1)和瞬态信号分量之间的差值(d);
-用所述差值的能量量度(E)对所述差值建模(111);以及
-将所述量度(E)包含在音频流(AS)中。
2.如权利要求1所述的方法,其中,对所述第一部分建模的步骤包括:
-用第二组多个正弦分量(tb)对所述瞬态信号分量建模;以及
-按照标准从所述第二组多个正弦分量中选择所述第一组多个正弦分量。
3.如权利要求2所述的方法,其中,所述标准与正弦分量的能量有关。
4.如权利要求2所述的方法,其中,所述估算步骤还包括:从用所述第二组多个正弦分量建模的瞬态中减去用所述第一组多个正弦分量建模的瞬态,以便提供所述差值(d)。
5.如权利要求4所述的方法,其中,所述估算步骤还包括:在时域中窗口化所述差值,以使差值渐弱。
6.如权利要求5所述的方法,其中,所述窗口在时间上小于所述瞬态信号分量。
7.如权利要求5所述的方法,其中,对所述差值建模的所述步骤包括确定所述窗口化的差值(d(w))的能量。
8.一种解码音频流(AS)的方法,包括:
-读取包括一个或多个瞬态码(CT)的已编码的音频流(AS’),每个瞬态码(CT)包括第一组多个正弦分量和能量量度(E);
-用所述第一组多个正弦分量合成(TSS)瞬态信号分量的第一部分;
-合成(WNG)所述瞬态信号分量时间周期的噪声;
-根据所述能量量度(E)修改(g)所述合成的噪声;以及
-将所述合成的第一部分和所述修改的噪声相加,以生成音频信号(y(t))的合成瞬态分量(yT)。
9.如权利要求8所述的方法,还包括高通滤波所述合成噪声的步骤。
10.如权利要求8所述的方法,还包括窗口化(WDW)所述合成噪声的步骤,以使所述噪声在所述时间周期上渐弱。
11.如权利要求8所述的方法,其中,所述修改步骤包括通过所述能量量度比例缩放(g)所述合成的噪声。
12.一种包括一个或多个瞬态码(CT)的音频流(AS),每个瞬态码(CT)包括第一组多个正弦分量和能量量度(E),正弦分量代表音频信号瞬态分量的第一部分(t1),能量量度(E)代表瞬态信号分量的第一部分(t1)和相应瞬态信号分量之间的差值(d)。
13.一种音频编码器(1),包括:
-分析器(110),用于估算音频信号的瞬态信号分量的位置;
-第一建模元件(111),用于用第一组多个正弦分量对所述瞬态信号分量的第一部分(t1)建模;
-用于估算瞬态信号分量的第一部分(t1)和瞬态信号分量之间差值(d)的装置;
-第二建模元件(111),用于用所述差值的能量量度(E)对所述差值建模;以及
-比特流发生器,被安排成将所述量度(E)包含在音频流(AS)中。
14.一种音频播放器(3),包括:
-用于读取包括一个或多个瞬态码(CT)的已编码的音频流(AS’)的装置,每个瞬态码(CT)包括第一组多个正弦分量和能量量度(E);
-合成器(TSS),用于用所述第一组多个正弦分量合成瞬态信号分量的第一部分;
-合成器(WNG),用于合成所述瞬态信号分量时间周期的噪声;
-用于根据所述能量量度(E)修改(g)所述合成的噪声的装置;以及
-加法器,用于将所述合成的第一部分和所述修改的噪声相加,以生成音频信号(y(t))的合成瞬态分量(yT)。
15.一种包括根据权利要求13的音频编码器和根据权利要求14的音频播放器的音频系统。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03103325.1 | 2003-09-09 | ||
EP03103325 | 2003-09-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1849649A true CN1849649A (zh) | 2006-10-18 |
Family
ID=34259265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2004800258234A Pending CN1849649A (zh) | 2003-09-09 | 2004-08-26 | 瞬态音频信号分量的编码 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20070033014A1 (zh) |
EP (1) | EP1665233A1 (zh) |
JP (1) | JP2007505346A (zh) |
KR (1) | KR20060131729A (zh) |
CN (1) | CN1849649A (zh) |
WO (1) | WO2005024784A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222505A (zh) * | 2010-04-13 | 2011-10-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006017280A1 (de) | 2006-04-12 | 2007-10-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals |
US8990094B2 (en) * | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5886276A (en) * | 1997-01-16 | 1999-03-23 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for multiresolution scalable audio signal encoding |
US6266644B1 (en) * | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
ES2292581T3 (es) * | 2000-03-15 | 2008-03-16 | Koninklijke Philips Electronics N.V. | Funcion laguerre para la codificacion de audio. |
JP2004513557A (ja) * | 2000-11-03 | 2004-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号のパラメトリック符号化方法及び装置 |
PL365018A1 (en) * | 2001-04-18 | 2004-12-27 | Koninklijke Philips Electronics N.V. | Audio coding |
WO2002087241A1 (en) * | 2001-04-18 | 2002-10-31 | Koninklijke Philips Electronics N.V. | Audio coding with partial encryption |
CN1319043C (zh) * | 2001-10-26 | 2007-05-30 | 皇家飞利浦电子股份有限公司 | 用于编码和解码音频信号的方法与设备以及包括这样的设备的系统 |
SG108862A1 (en) * | 2002-07-24 | 2005-02-28 | St Microelectronics Asia | Method and system for parametric characterization of transient audio signals |
-
2004
- 2004-08-26 WO PCT/IB2004/051572 patent/WO2005024784A1/en not_active Application Discontinuation
- 2004-08-26 KR KR1020067004867A patent/KR20060131729A/ko not_active Application Discontinuation
- 2004-08-26 CN CNA2004800258234A patent/CN1849649A/zh active Pending
- 2004-08-26 US US10/570,438 patent/US20070033014A1/en not_active Abandoned
- 2004-08-26 JP JP2006525944A patent/JP2007505346A/ja active Pending
- 2004-08-26 EP EP04769859A patent/EP1665233A1/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222505A (zh) * | 2010-04-13 | 2011-10-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
WO2011127757A1 (zh) * | 2010-04-13 | 2011-10-20 | 中兴通讯股份有限公司 | 可分层音频编解码方法和系统及瞬态信号可分层编解码方法 |
CN102222505B (zh) * | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
US8874450B2 (en) | 2010-04-13 | 2014-10-28 | Zte Corporation | Hierarchical audio frequency encoding and decoding method and system, hierarchical frequency encoding and decoding method for transient signal |
Also Published As
Publication number | Publication date |
---|---|
KR20060131729A (ko) | 2006-12-20 |
WO2005024784A1 (en) | 2005-03-17 |
EP1665233A1 (en) | 2006-06-07 |
JP2007505346A (ja) | 2007-03-08 |
US20070033014A1 (en) | 2007-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102089758B (zh) | 用于对采样音频信号的帧进行编码和解码的音频编码器和解码器 | |
CN102592602B (zh) | 对音频信号的时间伸缩改进变换编码 | |
CN101903944A (zh) | 用于处理音频信号的方法和装置 | |
EP0926660B1 (en) | Speech encoding/decoding method | |
KR970050107A (ko) | 음성 주파수 신호의 선형예측 분석 코딩 및 디코딩방법과 그 응용 | |
CN1188832C (zh) | 过滤语言帧的多脉冲内插编码 | |
CN1965352B (zh) | 音频编码 | |
CN1237507C (zh) | 音频信号的编辑 | |
CN104919524A (zh) | 用于确定编码模式的方法和设备、用于对音频信号进行编码的方法和设备以及用于对音频信号进行解码的方法和设备 | |
EP0766230A2 (en) | Method and apparatus for coding speech | |
CN1240048C (zh) | 音频编码 | |
CN101099199A (zh) | 音频编码和解码 | |
CN101171626B (zh) | 通过修改残余对声码器内的帧进行时间扭曲 | |
CN101573751A (zh) | 过浊音度的衰减,特别对于信息缺失时解码器激励的产生 | |
Zhu et al. | Sound texture modeling and time-frequency LPC | |
JP3558031B2 (ja) | 音声復号化装置 | |
EP1057172A1 (en) | Apparatus and method for hybrid excited linear prediction speech encoding | |
CN1849649A (zh) | 瞬态音频信号分量的编码 | |
CN1886783A (zh) | 音频编码 | |
CN100343895C (zh) | 音频编码方法和装置,音频解码方法和装置 | |
CN1689071A (zh) | 使用相位更新进行正弦音频编码 | |
JP2000132193A (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JPH07101358B2 (ja) | マルチパルス符号化方法および装置 | |
CN1729509A (zh) | 在音频编码中正弦波选择 | |
Skoglund | Analysis and quantization of glottal pulse shapes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20061018 |