CN1826634A - 低比特率音频编码 - Google Patents
低比特率音频编码 Download PDFInfo
- Publication number
- CN1826634A CN1826634A CNA2004800206738A CN200480020673A CN1826634A CN 1826634 A CN1826634 A CN 1826634A CN A2004800206738 A CNA2004800206738 A CN A2004800206738A CN 200480020673 A CN200480020673 A CN 200480020673A CN 1826634 A CN1826634 A CN 1826634A
- Authority
- CN
- China
- Prior art keywords
- sinusoidal
- frequency
- value
- phase
- phase value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 24
- 230000001052 transient effect Effects 0.000 claims description 24
- 230000005236 sound signal Effects 0.000 claims description 16
- 238000005259 measurement Methods 0.000 claims description 14
- 238000011002 quantification Methods 0.000 claims description 14
- 238000013139 quantization Methods 0.000 claims description 12
- 230000010354 integration Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 3
- 239000002131 composite material Substances 0.000 claims description 3
- 208000035126 Facies Diseases 0.000 claims 2
- 230000006872 improvement Effects 0.000 abstract description 2
- 230000001419 dependent effect Effects 0.000 abstract 1
- 230000005540 biological transmission Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000002459 sustained effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/093—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
在正弦音频编码器中,每个音频段对一些正弦曲线进行估计。一个正弦曲线由频率、幅度和相位表示。通常,相位按独立于频率的方式来量化。本发明利用了对相位的频率相关的量化,具体地说对低频采用比在高频更小的量化间隔量化。这样,低频的去约束的相位得以按比高频相位更加准确的方式量化,可能采用较小的量化范围。本发明将解码信号质量显著提高,特别是对于低比特率量化器而言。
Description
本发明涉及诸如特定音频信号的宽带信号的编码和解码。
当传输宽带信号,例如诸如语音之类的音频信号的时候,压缩或编码技术被用于降低信号的带宽或比特率。
图1示意的是一个已知的参数编码方案,具体来说是一个正弦编码器,该正弦编码器在本发明中采用并且描述在WO01/69593。在该编码器中,输入音频信号x(t)被分离为数个(可能重叠的)时间段(segment)或帧,通常每帧的持续时间20ms。每段被分解为瞬变、正弦和噪声分量。也有可能提取输入音频信号的其它分量,比如谐波组合(harmonics complex),但是这些与本发明的目的并不相关。
在正弦分析器130中,每段的信号x2利用一些由幅度、频率和相位参数表示的正弦曲线模拟。这一信息通常是利用傅立叶变换(FT)对一个分析时间间隔(interval)提取而出的,傅立叶变换提供了该时间段的谱表示,包括:频率、每个频率的幅度、每个频率的相位,这里每个相位是有“约束(wrap)”的,即在范围{-π,π}内。一旦某段的正弦信息被估计,则启动跟踪算法(track)。该算法使用了一个费用(cost)函数,在逐段的基础上将不同段中的正弦曲线链接起来,而获得所谓的轨迹(track)。跟踪算法因此得到了由正弦轨迹构成的正弦代码Cs,所述正弦轨迹自某个时刻开始,在多个时间段上发展达一定的持续时间然后结束。
在这样的正弦编码中,通常传输形成在编码器中的轨迹的频率信息。这可以采用较为简单且代价较低的方式实现,因为轨迹仅具有缓慢变化的频率。频率信息因此可以采用时间差分编码加以有效传输。一般而言,幅度也可以随着时间加以差分编码。
和频率相反,相位随着时间变化较快。如果频率是恒定的,相位将随着时间线性变化,并且频率变化将导致相位相应地偏离线性轨道。作为轨道段指数的函数,相位将具有大致线性的性质。编码相位的传输因此变得更为复杂。但是,当传输的时候,相位限制在傅立叶变换规定的范围{-π,π}内,即相位被“约束”。由于这种模2π的相位表示法,相位的结构性帧内关系被丢弃,并且乍看起来似乎是随机变量。
但是,由于相位是频率的积分(integral),相位是多余的并且原则上是不必传输的。这被称为相位连续(continuation),显著降低了比特率。
在相位连续中,仅每个轨迹的第一正弦被传输以便节省比特率。每个后续的相位基于初始相位和轨迹的频率计算得到。由于频率是量化的,并且并不能总是非常准确地加以估价,连续相位将偏离测量相位。实验表明相位连续降低了音频信号的品质。
传输每个正弦曲线的相位提高了在接收机端的解码信号的质量,但是它显著提高了比特率/带宽。因此,一种联合式的频率/相位量化器,其中一个正弦轨迹的数值在-π和π之间的测量相位利用测量频率和链接信息加以去约束(unwrapped),导致沿一个轨迹去约束后的相位单调递增。在该编码器中,去约束的相位利用自适应差分脉冲码调制(ADPCM)量化器量化并且传输给解码器。解码器从去约束的相位轨线(trajectory)提取正弦轨迹的频率和相位。
在相位连续中,仅有编码频率被传输,而相位则是在解码器处通过利用相位和频率之间的积分关系,根据频率数据加以恢复。但是,公知的是当利用相位连续的时候,相位不能完美恢复。如果频率误差出现,例如由于频率中的测量误差或者由于量化噪声,利用积分关系重构的相位将通常呈现出漂移特征的误差。这是因为频率误差具有大致随机的特征。低频误差由积分放大,其后果是恢复的相位趋向于偏离实际测量的相位。这导致可听缺陷(artifact)的出现。
这一点示意在图2a中,其中Ω和Ψ分别是一个轨迹的实频率和实相位。在编码器和解码器中频率和相位具有由字母“I”表示的积分关系。编码器中的量化过程模拟为增加的噪声n。在解码器中,恢复的相位Ψ由此包括两个分量:实相位Ψ和噪声分量ε2,这里噪声ε2的恢复后的相位和功率谱密度函数具有显著的低频特征。
因此,可以看到在相位连续中,由于恢复相位是低频信号的积分,恢复后的相位是低频信号自身。但是,在重构过程中引入的噪声也显性存在于该低频段中。因此,难以将这些源分离,以期滤除编码过程中引入的噪声n。
在常规量化方法中,频率和相位是彼此独立被量化的。一般而言,均匀的标量量化器被应用于相位参数。出于与感知有关的原因,对低频的量化应当比高频更准确。因此,利用ERB或巴克(Bark)函数将频率转换为非均匀的表示然后再均匀量化,其结果是非均匀的量化器。此外,物理理由也可以找到:在谐波组合,较高的谐波频率趋向于有比低频更高的频率变化。
当频率和相位共同量化的时候,依赖于频率的量化准确性并不是那么简单明了(straightforward)。采用均匀量化办法,导致低质量的声音重构。此外,对于量化精度可以降低的高频率,可以发展需要比特数较少的量化器。对于去约束的相位,类似的机制将是值得的。
本发明提供了采用低比特率编码宽带信号,特别是诸如语音信号之类的音频信号的方法。在正弦编码器中,每个音频段对一些正弦曲线进行估计。一个正弦曲线由频率、幅度和相位表示。通常,相位按独立于频率的方式来量化。本发明利用了对相位的频率相关的量化,具体地说对低频采用比在高频更小的量化间隔量化。这样,低频的去约束的相位得以按比高频相位更加准确的方式量化,可能是采用较小的量化范围。本发明将解码信号质量显著提高,特别是对于低比特率量化器而言。
本发明允许在同样具有非均匀频率量化的同时共同量化频率和相位。这带来传输具有低比特率的相位信息的优点,同时保持在所有频率,特别是在低频处的良好相位精度和信号质量。
本发明方法的优点是相位准确度得以提高,特别是在较低频率处,和高频率处相比,相位误差对应一个较大的时间误差。这很重要,因为人耳不仅对频率和相位敏感,而且还对瞬变现象中的绝对时序敏感。本发明的方法改进了声音质量,特别是在仅有少量比特用于量化相位和频率值的时候。另一方面,所需要的声音质量可以利用较少的比特获得。由于低频变化缓慢,量化范围可以给予更多的限制,获得更准确的量化。此外,调整为更精细的量化的速度也快多了。
本发明可以应用于采用正弦曲线的音频编码器。本发明涉及编码器和解码器。
图1是现有技术的音频编码器,本发明的一个实施方案实现在该编码器中;
图2a示意了在现有技术系统中相位和频率之间的关系;
图2b示意了在根据本发明的音频系统中相位和频率之间的关系;
图3a和3b是图1的音频编码器的正弦编码器部件的优选实施方案;
图4是本发明的一个实施方案得以实现在其中的一个音频播放器;和
图5a和5b是图4的音频播放器的正弦合成器部件的一个优选
实施方案;和
图6是包括根据本发明的音频编码器和音频播放器的系统。
下文结合附图描述本发明的优选实施方案,其中同样的部件采用同样的参考标号,并且实现同样的功能,除非另行规定。在本发明的一个优选实施方案中,编码器1是WO01/69593的图1所描述类型的正弦编码器。该现有技术编码器和其对应的解码器的操作已经被充分描述,这里仅对与本发明相关的内容进行描述。
在现有技术和本发明的所述优选实施方案中,音频编码器1按照一定的采样频率对输入音频信号采样,获得音频信号的数字表示x(t)。编码器1然后将采样的输入信号分离为三个分量:瞬变信号分量,持续不变的确定性(deterministic)的分量,和持续不变的随机(stochastic)分量。音频编码器1包括瞬变编码器11、正弦编码器13和噪声编码器14。
瞬变编码器11包括瞬变检测器(TD)110、瞬变分析器(TA)111和瞬变合成器(TS)112。首先,信号x(t)进入瞬变检测器110。该检测器110估计是否有瞬变信号分量及其位置。该信息馈送给瞬变分析器111。如果瞬变信号分量的位置被确定,瞬变分析器111试图提取瞬变信号分量(的主要部分)。它匹配一个形状函数给信号段,该信号段优选开始于一个估计开始位置,并且通过采用例如(小)数量的正弦分量,确定形状函数下的内容。该信息包含在瞬变代码CT中,有关产生瞬变代码CT的详细信息参见WO01/69593。
瞬变代码CT被提供给瞬变合成器112。在减法器16中合成的瞬变信号分量从输入信号x(t)中减去,得到信号x1。采用一个增益控制机制GC(12),根据x1得到x2。
信号x2被提供给正弦编码器13,在该编码器13中信号在正弦分析器(SA)130中分析,后者确定(确定性的)正弦分量。因此,将会看到尽管瞬变分析器的存在是需要的,但是本发明可以在没有这样的分析器的情况下加以实施。或者,如上所述,本发明也可以采用谐波组合分析器加以实施。简言之,正弦编码器将输入信号x2编码为从一帧段链接到下一帧段的正弦分量的轨迹。
现在按照和现有技术中相同的方式参看图3a。在优选实施方案中,在傅立叶变换(FT)单元40中输入信号x2的每一段被变换到频域中。对于每一段,FT单元提供了测量幅度A、相位φ和频率ω。如前文所提到,傅立叶变换所提供的相位范围被限制在-π≤φ<π。一个跟踪算法(TA)单元42取每一段的信息,并且通过采用适当的费用函数,将正弦曲线从一段链接到下一段,从而为每一轨迹产生一个测量相位φ(k)和频率ω(k)的序列。
与现有技术相反,分析器130最终产生的正弦代码Cs包括相位信息,并且频率在解码器中从该信息重构而得。
但是,如前文所提,测量相位被约束(wrap),这意味着它被限制到一个模2π表示法。因此,在优选实施方案中,分析器包括一个相位去约束(unwrapper)器(PU)44。在该去约束器中模2π表示被去约束,暴露了一个轨迹的结构性帧内相位特性(behaviour)Ψ。由于正弦轨迹中的频率几近恒定,将会看到去约束相位Ψ通常是几乎线性增加(或递减)函数,而这使得廉价的相位传输,即低比特率,成为可能。去约束的相位Ψ被提供作为相位编码器(PE)46的输入。相位编码器46输出适于传输的量化后的表示水平r。
现在参看相位去约束器44的操作,如前文所说,一个轨迹的瞬时相位Ψ和瞬时频率Ω由下列关系式关联:
这里T0是参考时刻。
帧k=K,K+1...K+L-1中的正弦轨迹具有测得的频率ω(k)(表示为单位每秒弧度)和测得相位φ(k)(用单位弧度表示)。帧中心之间的距离由U给出(用秒表示的更新速率)。测得的频率被设定为具有ω(k)=Ω(kU)的假定在下面(underlying)连续时间频率轨迹Ω的样本,并且类似地,测得相位是具有(k)=Ψ(kU)mod(2π)的相关连续时间相位轨迹Ψ的样本。对于正弦编码,假定Ω是近乎恒定的函数。
假定在一段内频率近乎恒定,方程1可以近似表达如下:
因此,将会看到,在得知给定段的相位和频率与下一段的频率的情况下,有可能估计下一段的去约束相位值,乃至一个轨迹内的每段的去约束相位值。
在优选实施方案中,相位去约束器确定时刻k的去约束因子m(k):
Ψ(kU)=φ(k)+m(k)2π
(3)
去约束因子m(k)告诉相位去约束器44获得去约束相位所要增加的周期数。
组合方程2和3,相位去约束器确定增量去约束因子e(k)如下:
2πe(k)=2π{m(k)-m(k-1)}={ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}
这里e应当是整数。但是,由于测量和模型误差,增量去约束因子将不严格为整数,因此:
e(k)=round([{ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}]/(2π))
假定模型和测量误差较小。
在具有增量去约束因子e的情况下,方程(3)的m(k)以累计和的形式计算,这里在不损失一般性的情况下,相位去约束器在第一帧K以m(K)=0开始,并且根据m(k)和φ(k)确定(去约束)相位Ψ(kU)。
实践中,采样数据Ψ(kU)和Ω(kU)因测量误差而发生失真:
φ(k)=ψ(kU)+ε1(k),
ω(k)=Ω(kU)+ε2(k),
这里ε1和ε2分别是相位和频率误差。为了避免对去约束因子的确定变得不清楚,测量数据需要以充分的准确性加以确定。因此,在优选实施方案中,跟踪被限制使得:
δ(k)=e(k)-[{ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}](2π)<δ0
这里δ是取整操作中的误差。误差δ主要由ω中由于与U的乘法而导致的误差确定。假定ω是由采样频率为Fs的输入信号的采样样本的傅立叶变换的绝对值的最大值确定并且傅立叶变换的分辨率是2π/La,La是分析尺寸。为了位于所考虑的边界内,我们有下列关系:
这意味着分析尺寸应当数倍于更新尺寸,以便去约束准确,例如设定δ0=1/4,分析尺寸应当4倍于更新尺寸(忽略相位测量中的误差ε1)。
这意味着分析尺寸应当被更新尺寸大数倍,以便去约束准确,例如设定δ0=1/4,分析尺寸应当4倍于更新尺寸(忽略相位测量中的误差ε1)。
为避免取整操作中的决定误差而可采取的第二预设条件是恰当地定义轨迹。在跟踪单元42中,正弦轨迹通常是通过考虑幅值和频率差来定义的。此外,也有可能计入链接准则中的相位信息。例如,我们可以根据
将相位预测误差ε定义为测量值和预测值φ之间的差。这里预测值可以取值
这样,优选的是跟踪单元42禁止ε大于某个值的轨迹(例如ε>π/2),得到一个对e(k)的明确定义。
此外,编码器可以计算相位和频率,比如将在解码器处可利用的相位和频率。如果将在解码器处可利用的相位和频率与比如当前在编码器处的相位和频率相差过大的话,可以决定中断一个轨迹,即表明一个轨迹的结束并且利用当前频率和相位以及它们链接的正弦数据开始新的轨迹。
相位去约束器(PU)44所产生的采样去约束相位Ψ(kU)被作为输入提供给相位编码器(PE)46,以便产生一组表示水平r。对一般单调改变的特征比如去约束相位进行有效传输的技术是已知的。在优选实施方案中,图3b,采用了自适应差分脉冲编码调制(ADPCM)。这里,预测器(PF)48被用于估计下一轨迹段的相位,并且仅在量化器(Q)50中编码该差值。由于Ψ被预期是一个近似线性的函数并且出于简化的考虑,预测器48被选择为具有下列形式的二阶滤波器:
y(k+1)=2x(k)-x(k-1)
这里,x是输入,y是输出。但是,将会看到也有可能采取其它的函数关系(包括高阶关系)并且引入对滤波器系数的自适应(后向或前向)调整。在优选实施方案中,一个后向自适应控制机制(QC)52出于简化的考虑,被用于控制量化器50。前向自适应控制同样也是可行的,但是将需要额外的比特率开销。
将要看到的是,编码器(和解码器)对一个轨迹的初始化开始于有关开始相位φ(0)和频率ω(0)的了解。它们由另一个机制量化和传输。另外,图5b编码器的量化控制器52和解码器中的相应控制器62中所使用的初始量化步长要么被传输,要么在编码器和解码器中被设为某个值。最后,一个轨迹的结束点可以用一个单独的侧流来通知,要么表示为在相位的比特流中的独特的码元。
去约束相位的开始频率在编码器和解码器中都是已知的。基于该频率,选择了量化精度。对于开始于低频率的去约束相位轨线而言,选择一个比开始于高频的去约束相位轨线更准确的量化栅格,即更高的分辨率。
在ADPCM量化器中,去约束的相位Ψ(k)根据该轨迹中的在前相位进行预测/估计,这里k表示轨迹中的数目。然后,预测相位Ψ(k)和去约束相位Ψ(k)之间的差被量化和传输。量化器对轨迹中的每个去约束相位进行了调整。当预测误差小的时候,量化器限制可能数值的范围,量化可以变得更准确。在另一方面,当量化误差大的时候,量化器采用更粗略的量化。
量化器Q(在图3b中)量化预测误差Δ,该误差由
计算得到。
预测误差Δ可以利用查找表加以量化。为此,表Q被维持。例如,对于一个2比特的ADPCM量化器,Q的初始表可以类似于表1所示的表。
索引I | 下边界bl | 上边界bu |
0 | -∞ | -3.0 |
1 | -3.0 | 0 |
2 | 0 | 3.0 |
3 | 3.0 | ∞ |
表1:第一连续所用的量化表Q
量化按如下方式完成。预测误差Δ和边界b比较,使得下列公式得到满足:
bli<Δ≤bui
从满足以上关系式的i值出发,通过r=i计算表示等级r。
相关的表示等级存储在表示表R中,该表如表2所示。
表示等级r | 表示表R | 等级类型 |
0 | -3.0 | 外部等级 |
1 | -0.75 | 内部等级 |
2 | 0.75 | 内部等级 |
3 | 3.0 | 外部等级 |
表2:第一连续所用的表示表R
对于轨迹的下一正弦分量的量化,表Q的各条目乘以因子c。
Q(k+1)=Q(k)*c
R(k+1)=R(k)*c
在一个轨迹的解码期间,两个表根据所产生的表示等级r缩放。如果对于当前子帧r是1或2(内部等级),那么量化表的缩放因子c被设为
C=2-1/4
由于c<1,一个轨迹中下一正弦曲线的频率和相位变得更加准确。如果r是0或3(外部等级),那么缩放因子被设置为
C=21/2
由于c>1,一个轨迹的下一正弦的量化准确度下降。利用这些因子,可以利用两次缩小撤消(undone)一次放大。放大和缩小因子的差异导致放大快速开始,而相应的缩小则需要两步。
为了避免量化表中的条目过小或过大,仅在内部等级的绝对值在π/64和3π/4之间的情况下才进行所述调整。在那种情况下c设为1。
在解码器中仅表R必须保持,以便根据量化预测误差转换为所接收的表示等级r。该去量化操作由图5b中的模块DQ完成。
利用以上设置,重构的声音质量需要改进。根据本发明,为去约束的相位轨迹采用不同的初始表,这取决于开始频率。由此得到更好的声音质量。这按以下方式完成。初始表Q和R基于轨迹的第一频率进行缩放。在表3,给出缩放因子和频率范围。如果一个轨迹的第一频率落在某个频率范围内,则选择适当的缩放因子,表R和Q除以该缩放因子。端点也可以取决于该轨迹的第一频率。在解码器中,一个相应的过程被执行,以便从正确的初始表R开始。
频率范围 | 缩放因子 | 初始表Q | 初始表R |
0-500Hz | 8 | -∞-0.19 0 0.19∞ | -0.38 -0.090.09 0.38 |
500-1000Hz | 4 | -∞-0.37 0 0.37∞ | -0.75 -0.190.19 0.75 |
1000-4000Hz | 2 | -∞-0.75 0 0.75∞ | -1.5 -0.38 0.381.5 |
4000-22050Hz | 1 | -∞-1.5 0 1.5∞ | -3 -0.75 0.75 3 |
表3:和频率有关的缩放因子和初始表
表3给出了一个2比特ADPCM量化器的频率相关缩放因子和相应的初始表Q和R的一个例子。音频频率范围0-22050Hz被分为四个子频段。可以看到相对高频段而言,低频段的相位精度得到改善。
子频段的数量和与频率有关的缩放因子可以改变并且可以经过选择,以配合各个目的和要求。如上所述,表3中的和频率有关的初始表Q和R可以动态放大和缩小,以便适应相位从一个时间段到下一个时间段的进展。
在例如一个3比特ADPCM量化器中,3比特所定义的八个量化间隔的初始边界可以作如下定义:Q={-∞ -1.41 -0.707 -0.35 0 0.350.707 1.41 ∞},并且可以具有最小栅格大小π/64,最大栅格大小π/2。表示表R可以看作:R={-2.117,-1.0585,-0.5285,-0.1750,0.1750,0.5285,1.0585,2.117}。一个如表3所示的表Q和R的类似的与频率有关的初始化可以在该例子中使用。
从正弦编码器产生的正弦码Cs,正弦信号分量由正弦合成器(SS)131按照与下文对于解码器的正弦合成器(SS)32描述的相同方式重构。该信号在减法器17中去减正弦编码器13的输入x2,得到剩余信号x3。正弦编码器13所产生的剩余信号x3被送给优选实施方案的噪声分析器14,后者产生表征该噪声的噪声码CN,参见如国际专利申请PCT/EP00/04599的描述。
最后,在多路复用器15中,音频流AS被构成,它包括码CT,CS和CN。音频流AS被提供给例如数据总线,天线系统,存储介质等等。
图4给出一个音频播放器3,它适用于对从数据总线、天线系统、存储介质等获得的例如由图1的编码器1产生的音频流AS’解码。音频流AS’被多路分解器30多路分解,获得码CT、CS、CN。这些码被分别提供给瞬变合成器31、正弦合成器32和噪声合成器33。根据瞬变码CT,在瞬变合成器31中计算瞬变信号分量。在瞬变码指明一个形状函数的情况下,基于所接收的参数计算该形状。进而,基于正弦分量的频率和幅度计算形状内容。如果瞬变码CT指明一个步长(step),那么不计算瞬变。总瞬变信号yT是所有瞬变的总和。
包含有分析器130编码的信息的正弦码Cs被正弦合成器32用来产生信号ys。现在参看图5a和b,正弦合成器32包括相位解码器(PD)56,它和相位编码器46兼容。这里,去量化器(DQ)60和二阶预测滤波器(PF)64相结合,根据表示等级r,提供给预测滤波器(PF)64的初始信息φ(0),ω(0)和量化控制器(QC)62的初始量化步长,产生去约束相位Ψ(的估计值)。
如图2b示意,可以通过差分从去约束相位Ψ恢复频率。假定解码器处的相位误差近似为白的,并且由于差分放大了高频,差分可以和低通滤波器结合,降低噪声,并且因此在解码器获得频率的准确估计。
在优选实施方案中,滤波单元(FR)58通过诸如前向、后向或中间(central)误差的过程逼近差分,该差分是从去约束相位获得频率ω所必要的。这使得解码器产生可在常规方式下用于合成编码信号的正弦分量的相位Ψ和频率ω,作为输出。
同时,当信号的正弦分量正在被合成的时候,噪声码CN被馈送给噪声合成器NS33,该合成器主要是一个滤波器,具有逼近噪声的频谱的频率响应。NS33通过用噪声码CN滤波白噪声信号产生重构噪声yN。总信号y(t)包括瞬变信号yT与一乘积的总和,该乘积是任意幅度解压缩(g)与正弦信号ys和噪声信号yN的总和的乘积。音频播放器包括两个加法器36和37,对相应的信号求和。总信号被提供给输出单元35,该单元例如是扬声器。
图6示意了根据本发明的音频系统,它包括图1所示的音频编码器1和图4所示的音频播放器3。这样的系统提供了播放和纪录特征。音频流AS从音频编码器通过通信通道2提供给音频播放器,通信通道2可以是无线连接,数据总线20或存储介质。在通信通道2是存储介质的情况下,存储介质可以固定在系统中,或者可以是可移出的盘,记忆棒等。通信通道12可以是音频系统的一部分,但是通常在音频系统之外。
来自一些连续段的编码数据被链接。这按下列方式完成。对于每段,一些正弦曲线被确定(例如利用FFT)。一个正弦曲线由频率、幅度和相位构成。每段的正弦曲线的数目是可变的。一旦对于一个段确定了正弦曲线,便分析以便连接到来自在前段的各正弦曲线。这被称作“链接”或“跟踪”。分析是基于当前段的正弦曲线和在前段的所有正弦曲线之间的差进行的。链接/跟踪是与在先段中具有最小差的正弦曲线进行的。如果甚至这一最小差也大于某个阈值,那么无需连接到在前段的正弦曲线。这样,一个新的正弦曲线得以产生或“诞生”。
正弦曲线之间的差利用“费用函数”确定,该函数利用正弦曲线的频率、幅度和相位。该分析是对每段进行的。结果是一个音频信号有数量较大的轨迹。一个轨迹有一个诞生点,这是一个与在前段的各正弦曲线之间没有连接的正弦曲线。诞生正弦曲线以非差分的方式编码。连接到在前段正弦曲线的正弦曲线被称作连续,它们相对于在前段的正弦曲线以差分方式编码。这节约了大量的比特,因为仅仅差而不是绝对值被编码。
如果f(n-1)是来自在前段的正弦曲线的频率并且f(n)是来自当前段的连接正弦曲线,那么f(n)-f(n-1)传输给解码器。数n表示轨迹中的数,n=1是诞生,n=2是第一连续等等。对于幅度,这同样成立。初始正弦曲线(诞生正弦曲线)的相位值被传输,而对于一个连续,没有相位被传输,但是相位可以从频率检索。如果一个轨迹在下一段中没有连续,则该轨迹结束或“死亡”。
Claims (19)
1.一种编码信号的方法,所述方法包括下列步骤:对于多个序列段的每一段提供相应的一组采样信号值(x(t));分析所述采样的信号值(x(t)),来确定所述多个序列段的每段的一个或多个正弦分量,每个正弦分量包含频率值(Ω)和相位值(ψ);在多个序列段上链接正弦分量,以提供正弦轨迹;对于所述多个序列段的每段中的每个正弦轨迹,按照至少一个在前段的相位值的函数确定预测相位值(ψ(k));对于每个正弦轨迹,确定测量相位值(ψ),包括一般单调变化的值;按照预测相位值(ψ(k))和该段的测量相位值(ψ)的函数量化正弦码(Cs),这里正弦码(Cs)是依赖于相应正弦轨迹的至少一个频率值(Ω)而量化的;和产生包括代表频率和相位和链接信息的正弦码(Cs)的编码信号(AS)。
2.如权利要求1所述的方法,其特征在于,在包含具有第一频率值的第一正弦分量的第一正弦轨迹中,利用第一量化精度对正弦码(Cs)量化;在包含具有比第一频率值高的第二频率值的第二正弦分量的第二正弦轨迹中,利用低于或等于第一量化精度的第二量化精度对正弦码(Cs)量化。
3.如权利要求1所述的方法,其特征在于一个轨迹的正弦码(Cs)包括初始相位值和初始频率值,预测步骤采用初始频率值和初始相位值来提供第一预测。
4.如权利要求1所述的方法,其特征在于每个链接的段的相位值是按照下列参数的函数确定的,所述参数包括在前段的频率和链接段的频率的积分(integral);和在前段的相位;其中正弦分量包括在范围{-π,π}内的相位值(ψ)。
5.如权利要求1所述的方法,其特征在于正弦码的量化包括确定在每个预测相位值(ψ(k))和相应观测相位值(ψ)之间的相位差。
6.如权利要求4所述的方法,其特征在于所述产生步骤包括按照量化正弦码(Cs)的函数控制所述量化步骤。
7.如权利要求6所述的方法,其特征在于正弦码(Cs)包括轨迹的端点的指示符。
8.如权利要求1所述的方法,其特征在于所述方法包括下列步骤:利用正弦码(Cs)合成正弦分量;从采样信号值(x(t))减去合成信号值,以提供一组表示音频信号的残余分量的值(x3);通过确定参数来模制(model)音频信号的残余分量,逼近所述残余分量;以及在音频流(AS)中包含所述参数。
9.如权利要求1所述的方法,其特征在于采样的信号值(x1)表示已经从中除去瞬变分量的音频信号。
10.一种解码音频流(AS’)的方法,所述音频流包括代表频率、相位和链接信息的正弦码(Cs),所述方法包括下列步骤:接收包含该音频流(AS’)的信号;去量化正弦码(Cs),由此获得去约束的去量化的相位值(ψ),这里正弦码(Cs)是依赖于相应正弦轨迹的至少一个频率值(Ω)而去量化的;根据该去约束的去量化的相位值(ψ)计算频率值(Ω),并且采用去量化的频率和相位值(Ω,ψ)来合成音频信号(y(t))的正弦分量。
11.如权利要求10所述的方法,其特征在于,在包含具有第一频率值的第一正弦分量的第一正弦轨迹中,利用第一量化精度对正弦码去量化;在包含具有比第一频率值高的第二频率值的第二正弦分量的第二正弦轨迹中,利用低于或等于第一量化精度的第二量化精度对正弦码去量化。
12.如权利要求10所述的方法,其特征在于每个链接的正弦分量的相位值是按照下列参数的函数确定的,所述参数包括在前段的频率和链接段的频率的积分;和在前段的相位;其中正弦分量包括在范围{-π,π}内的相位值。
13.如权利要求12所述的方法,其特征在于所述量化精度是按照量化正弦码的函数控制的。
14.一种音频编码器,用于处理对于多个序列段的每一段而言的一组相应采样信号值,所述编码器包括:分析器,分析所述采样信号值,来确定所述多个序列段的每段的一个或多个正弦分量,每个正弦分量包含频率值和相位值;链接器(13),在多个序列段上链接正弦分量,以提供正弦轨迹;相位去约束器(44),对于所述多个序列段的每段中的每个正弦轨迹,按照至少一个在前段的相位值的函数确定预测相位值(ψ(k)),并且对于每个正弦轨迹,确定测量相位值(ψ),包括一般单调变化的值;量化器(50),按照预测相位值(ψ(k))和该段的测量相位值(ψ)的函数量化正弦码(Cs),这里正弦码(Cs)是依赖于相应正弦轨迹的至少一个频率值而量化的;和提供包括代表频率和相位的正弦码(Cs)的编码信号的装置(15)。
15.如权利要求14所述的音频编码器,其特征在于所述量化器(15)经调整,用于在包含具有第一频率值的第一正弦分量的第一正弦轨迹中,利用第一量化精度对正弦码(Cs)量化;在包含具有比第一频率值高的第二频率值的第二正弦分量的第二正弦轨迹中,利用低于或等于第一量化精度的第二量化精度对正弦码(Cs)量化。
16.一种音频播放器,包括:读取编码音频信号的装置,所述信号包括表示每个链接正弦分量的轨迹的频率和相位的正弦码;去量化器,产生相位值,和根据相位值产生频率值;和,合成器,用于采用所产生的相位和频率值来合成音频信号的正弦分量。
17.音频系统,包括如权利要求14所述的音频编码器和如权利要求16所述的音频播放器。
18.一种音频流,包括表示在音频信号的多个序列段上链接的正弦分量轨迹的正弦码,所述码表示按照至少一个在前段的相位值的函数的预测相位值,一个测量相位值包括一般单调变化的值;正弦码(Cs)是按照预测相位值(ψ(k))和该段的测量相位值(ψ)的函数量化的,这里正弦码(Cs)是依赖于相应正弦轨迹的至少一个频率值(Ω)而量化的。
19.一种存储介质,其上存储有如权利要求18所述的音频流。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03102225 | 2003-07-18 | ||
EP03102225.4 | 2003-07-18 | ||
PCT/IB2004/051172 WO2005008628A1 (en) | 2003-07-18 | 2004-07-08 | Low bit-rate audio encoding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1826634A true CN1826634A (zh) | 2006-08-30 |
CN1826634B CN1826634B (zh) | 2010-12-01 |
Family
ID=34072659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2004800206738A Expired - Fee Related CN1826634B (zh) | 2003-07-18 | 2004-07-08 | 低比特率音频编码 |
Country Status (11)
Country | Link |
---|---|
US (1) | US7640156B2 (zh) |
EP (1) | EP1649453B1 (zh) |
JP (1) | JP4782006B2 (zh) |
KR (1) | KR101058064B1 (zh) |
CN (1) | CN1826634B (zh) |
AT (1) | ATE425533T1 (zh) |
BR (1) | BRPI0412717A (zh) |
DE (1) | DE602004019928D1 (zh) |
ES (1) | ES2322264T3 (zh) |
RU (1) | RU2368018C2 (zh) |
WO (1) | WO2005008628A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7649135B2 (en) * | 2005-02-10 | 2010-01-19 | Koninklijke Philips Electronics N.V. | Sound synthesis |
DE102006022346B4 (de) * | 2006-05-12 | 2008-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalcodierung |
KR20080073925A (ko) * | 2007-02-07 | 2008-08-12 | 삼성전자주식회사 | 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치 |
KR101149448B1 (ko) * | 2007-02-12 | 2012-05-25 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 |
KR101317269B1 (ko) * | 2007-06-07 | 2013-10-14 | 삼성전자주식회사 | 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치 |
KR20090008611A (ko) * | 2007-07-18 | 2009-01-22 | 삼성전자주식회사 | 오디오 신호의 인코딩 방법 및 장치 |
KR101410229B1 (ko) * | 2007-08-20 | 2014-06-23 | 삼성전자주식회사 | 오디오 신호의 연속 정현파 신호 정보를 인코딩하는 방법및 장치와 디코딩 방법 및 장치 |
KR101425355B1 (ko) * | 2007-09-05 | 2014-08-06 | 삼성전자주식회사 | 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법 |
EP2212884B1 (en) * | 2007-11-06 | 2013-01-02 | Nokia Corporation | An encoder |
KR101325760B1 (ko) * | 2009-12-17 | 2013-11-08 | 한국전자통신연구원 | 오디오/음성 신호 처리 장치의 복부호화 장치 및 방법 |
ES2613747T3 (es) | 2013-01-08 | 2017-05-25 | Dolby International Ab | Predicción basada en modelo en un banco de filtros críticamente muestreado |
KR20160087827A (ko) * | 2013-11-22 | 2016-07-22 | 퀄컴 인코포레이티드 | 고대역 코딩에서의 선택적 위상 보상 |
PL232466B1 (pl) | 2015-01-19 | 2019-06-28 | Zylia Spolka Z Ograniczona Odpowiedzialnoscia | Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio |
WO2017064264A1 (en) * | 2015-10-15 | 2017-04-20 | Huawei Technologies Co., Ltd. | Method and appratus for sinusoidal encoding and decoding |
EP3483886A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
US10847172B2 (en) | 2018-12-17 | 2020-11-24 | Microsoft Technology Licensing, Llc | Phase quantization in a speech encoder |
US10957331B2 (en) | 2018-12-17 | 2021-03-23 | Microsoft Technology Licensing, Llc | Phase reconstruction in a speech decoder |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
JPH11224099A (ja) * | 1998-02-06 | 1999-08-17 | Sony Corp | 位相量子化装置及び方法 |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6418408B1 (en) * | 1999-04-05 | 2002-07-09 | Hughes Electronics Corporation | Frequency domain interpolative speech codec system |
CN1154975C (zh) | 2000-03-15 | 2004-06-23 | 皇家菲利浦电子有限公司 | 用于声频编码的拉盖尔函数 |
KR100363259B1 (ko) * | 2000-05-16 | 2002-11-30 | 삼성전자 주식회사 | 인지 특성 가중 함수를 이용한 음성신호의 위상 양자화장치 및 방법 |
WO2001099097A1 (en) * | 2000-06-20 | 2001-12-27 | Koninklijke Philips Electronics N.V. | Sinusoidal coding |
ATE330309T1 (de) * | 2001-01-16 | 2006-07-15 | Koninkl Philips Electronics Nv | Verknüpfen von signalkomponenten bei der parametrischen codierung |
WO2002056299A1 (en) * | 2001-01-16 | 2002-07-18 | Koninklijke Philips Electronics N.V. | Parametric coding of an audio or speech signal |
KR20030011912A (ko) * | 2001-04-18 | 2003-02-11 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
EP1399917B1 (en) * | 2001-06-08 | 2005-09-21 | Philips Electronics N.V. | Editing of audio signals |
CN1771533A (zh) * | 2003-05-27 | 2006-05-10 | 皇家飞利浦电子股份有限公司 | 音频编码 |
-
2004
- 2004-07-08 US US10/564,656 patent/US7640156B2/en not_active Expired - Fee Related
- 2004-07-08 RU RU2006105017/09A patent/RU2368018C2/ru not_active IP Right Cessation
- 2004-07-08 AT AT04744533T patent/ATE425533T1/de not_active IP Right Cessation
- 2004-07-08 ES ES04744533T patent/ES2322264T3/es not_active Expired - Lifetime
- 2004-07-08 WO PCT/IB2004/051172 patent/WO2005008628A1/en active Application Filing
- 2004-07-08 KR KR1020067001232A patent/KR101058064B1/ko active IP Right Grant
- 2004-07-08 DE DE602004019928T patent/DE602004019928D1/de not_active Expired - Lifetime
- 2004-07-08 JP JP2006520077A patent/JP4782006B2/ja not_active Expired - Fee Related
- 2004-07-08 BR BRPI0412717-0A patent/BRPI0412717A/pt not_active IP Right Cessation
- 2004-07-08 EP EP04744533A patent/EP1649453B1/en not_active Expired - Lifetime
- 2004-07-08 CN CN2004800206738A patent/CN1826634B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1649453B1 (en) | 2009-03-11 |
RU2006105017A (ru) | 2006-06-27 |
CN1826634B (zh) | 2010-12-01 |
ES2322264T3 (es) | 2009-06-18 |
ATE425533T1 (de) | 2009-03-15 |
US7640156B2 (en) | 2009-12-29 |
WO2005008628A1 (en) | 2005-01-27 |
RU2368018C2 (ru) | 2009-09-20 |
KR101058064B1 (ko) | 2011-08-22 |
KR20060037375A (ko) | 2006-05-03 |
JP4782006B2 (ja) | 2011-09-28 |
BRPI0412717A (pt) | 2006-09-26 |
JP2007519027A (ja) | 2007-07-12 |
EP1649453A1 (en) | 2006-04-26 |
US20070112560A1 (en) | 2007-05-17 |
DE602004019928D1 (de) | 2009-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1826634A (zh) | 低比特率音频编码 | |
EP1222659B1 (en) | Lpc-harmonic vocoder with superframe structure | |
EP2313887B1 (en) | Variable bit rate lpc filter quantizing and inverse quantizing device and method | |
CN103733258B (zh) | 编码装置和方法、解码装置和方法 | |
KR101698905B1 (ko) | 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법 | |
EP2981961B1 (en) | Advanced quantizer | |
WO2008049221A1 (en) | Method and device for coding transition frames in speech signals | |
MY141174A (en) | Method and device for robust predictiving vector quantization of linear prediction parameters in variable bit rate speech coding | |
JP2004310088A (ja) | 半レート・ボコーダ | |
CN1846253A (zh) | 低比特率音频编码 | |
US6687667B1 (en) | Method for quantizing speech coder parameters | |
EP3614384B1 (en) | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals | |
JP2002544551A (ja) | 遷移音声フレームのマルチパルス補間的符号化 | |
CN1867969B (zh) | 用于对音频信号进行编码或解码的方法和设备 | |
Chatterjee et al. | Optimum switched split vector quantization of LSF parameters | |
CN117476022A (zh) | 声音编解码方法以及相关装置、系统 | |
WO2002025639A1 (en) | Speech coding exploiting a power ratio of different speech signal components | |
CN105122358A (zh) | 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法 | |
JPH08129400A (ja) | 音声符号化方式 | |
JP3715417B2 (ja) | 音声圧縮符号化装置,音声圧縮符号化方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101201 Termination date: 20210708 |
|
CF01 | Termination of patent right due to non-payment of annual fee |