CN1846253B - 低比特率音频编码 - Google Patents

低比特率音频编码 Download PDF

Info

Publication number
CN1846253B
CN1846253B CN2004800254939A CN200480025493A CN1846253B CN 1846253 B CN1846253 B CN 1846253B CN 2004800254939 A CN2004800254939 A CN 2004800254939A CN 200480025493 A CN200480025493 A CN 200480025493A CN 1846253 B CN1846253 B CN 1846253B
Authority
CN
China
Prior art keywords
sinusoidal
frequency
grid
phase
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2004800254939A
Other languages
English (en)
Other versions
CN1846253A (zh
Inventor
G·H·霍托
A·J·格里特斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1846253A publication Critical patent/CN1846253A/zh
Application granted granted Critical
Publication of CN1846253B publication Critical patent/CN1846253B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Abstract

在正弦音频编码器中,每个音频分段估计多条正弦曲线。利用频率、幅度和相位来表示正弦曲线。本发明使用轨迹相关的相位量化。使用从一组可能的初始网格中选择的适当的初始(例如,频率相关的)量化网格来编码轨迹,这些可能的初始网格可以从细到粗改变。如果在一系列的时间段中,特定轨迹内的频率变化小于预定值,则使用更细的量化网格来量化该轨迹。本发明显著改进了解码的信号质量,特别是对于低比特率量化器。

Description

低比特率音频编码
技术领域
本发明涉及宽带信号的编码和解码,更具体地,本发明涉及音频信号的编码和解码。本发明涉及编码器和解码器,还涉及根据本发明编码的音频流以及其上存储有这样的音频流的数据存储媒体。
背景技术
当发射宽带信号例如诸如语音的音频信号时,使用压缩或编码技术来降低信号的带宽或比特率。
图1显示了一种已知的参数编码方案,特别地,显示了在本发明中使用的并描述在WO 01/69593中的正弦编码器。在该编码器中,将输入音频信号x(t)分成若干(可能重叠)时间段或帧,通常每个具有20ms(毫秒)的持续时间。每个段被分解成瞬态的正弦和噪声分量。还有可能导出输入音频信号的其他分量,诸如谐波复合波,虽然这些和本发明的目的并不相关。
在图1的正弦分析器130内,使用利用幅度、频率和相位参数表示的多条正弦曲线来模拟每个段的信号x2。通常通过执行提供时间间隔的谱表示的傅立叶变换(FT)来提取这个信息,用于分析时间间隔,其中谱表示包括:频率,每个频率的幅度,以及每个频率的相位,其中每个相位被“环绕(wrap)”即在范围{-π,π}内。一旦估计了段的正弦信息,则启动跟踪算法。这个算法使用价格函数(cost function)将不同段中的正弦曲线在逐个段的基础上相互链接,以获得所谓的轨迹。因此,跟踪算法得到正弦码Cs,其包括在特定时刻开始、在多个时间段上对于某个持续时间展开、并且随后停止的正弦轨迹。
在这样的正弦编码中,通常发射在编码器中形成的轨迹的频率信息。这可以利用非常简单的方式并利用相对低的成本来实现,因为轨迹仅具有缓慢变化的频率。因此,通过时间差分编码,能够有效地传输频率信息。通常,也能在时间上差分编码幅度。
与频率相对照,相位随时间更快速变化。如果频率是恒定的,则相位将随时间线性变化,并且频率变化会导致相应的相位偏离线性航线。作为轨迹分段索引的函数,相位将具有近似线性的行为。因此,编码相位的传输是更加复杂的。然而,当发送时,相位被限制到{-π,π}范围,即相位被环绕,正如利用傅立叶变换所提供的一样。因为相位的这个模2π表示,相位的结构的帧间关系被丢失,并且初看起来仿佛是随机可变的。
然而,因为相位是频率的积分(integral),所以相位是冗余的,并且原则上无需发送。这被称为相位连续并显著降低了比特率。
在相位连续中,仅发送每个轨迹的第一条正弦曲线,以节省比特率。从轨迹的初始相位以及频率中,计算每个后续的相位。由于频率被量化并且不总是非常精确估计的,所以连续相位将偏离测量的相位。实验表明:相位连续恶化了音频信号的质量。
发送每个正弦曲线的相位能够增加在接收机端上解码信号的质量,但这也导致比特率/带宽的显著增加。因此,联合(joint)频率/相位量化器导致沿着轨迹单调增加展开的相位,其中在该量化器中,使用测量的频率以及链接信息展开具有在-π和π之间的值的正弦轨迹的测量相位。在这样的编码器中,使用自适应差分脉码调制(ADPCM)量化器来量化展开的相位,并将其传输到解码器。解码器从展开的相位轨迹中得到正弦曲线的频率以及相位。
在相位连续中,仅发送编码的频率,并且在解码器上利用相位和频率之间的积分关系从频率数据中恢复相位。然而,已知的是:当使用相位连续时,不能完美地恢复相位。如果例如由于频率内的测量误差或由于量化噪声而出现频率误差,使用积分关系重建的相位通常将显示具有漂移特性的误差。这是因为频率误差具有近似随机的特性。低频率误差被积分放大,并因此恢复的相位将趋向漂移偏离实际测量的相位。这导致可听见的假象。
这显示在图2a中,其中Ω和Ψ分别是轨迹的真实频率和真实相位。在编码器和解码器中,频率和相位具有用字母“I”表示的积分关系。编码器中的量化处理被模拟为添加的噪声n。在解码器中,恢复的相位
Figure G2004800254939D00021
因此包括两个分量:真实相位Ψ和噪声相位ε2,其中恢复相位的频谱以及噪声ε2的功率谱密度函数具有明显的低频特性。
因此,可以看出:在相位连续中,由于恢复的相位是低频信号的积分,所以恢复的相位本身是低频信号。然而,在重建处理中引入的噪声在这个低频范围内也是主要的。因此,难以为了过滤在编码期间引入的噪声n而分离这些源。
在常规的量化方法中,频率和相位相互独立地进行量化。通常,对相位参数应用统一的标量量化器。由于知觉原因,应当比较高频率更准确地量化较低频率。因此,使用ERB或Bark函数将频率转换成非均匀表示,并然后均匀地进行量化,得到非均匀量化器。同样,能够发现物理原因:在谐波复合波中,较高谐波频率比较低频率更趋向于具有较高的频率变化。
当联合量化频率和相位时,频率相关的量化准确性不是直接的。均匀量化方案的使用导致低质量声音重建。
在相位ADPCM量化器中使用的用于量化轨迹的第一元素的初始量化准确度(即,量化准确度,也被称为量化网格(quantization grid))的选择是下面两种情形之间的平衡:
-能够跟随难以预测的展开相位的速度。这样的一个例子是其频率正在快速变化的轨迹;以及
-能够跟随易于预测的展开相位的准确度。这样的一个例子是其频率几乎恒定的轨迹。
如果初始量化网格太细,相位ADPCM量化器可能不能跟随难以预测的展开相位。如果是这种情形,则在轨迹内产生大的量化误差,并引入可听到的失真。这导致比特率的增加。如果另一方面初始量化网格太粗,则在易于预测的轨迹内会出现接通振荡(switching-onoscillation),如在图7中所示的那样,其中原始轨迹的频率类似阶梯改变。在该图中,使用大约1.9Hz的精确度来估计原始频率。估计频率的振荡可能是可听见的,而这是不希望的。
发明内容
本发明提供一种使用低比特率编码宽带信号特别是诸如语音信号的音频信号的方法。在正弦编码器中,每个音频段估计多条正弦曲线。利用频率、幅度和相位表示正弦曲线。通常,独立于频率来量化相位。特别地,对于低比特率量化器,本发明显著地改进了解码信号质量。
根据本发明,利用合适的初始量化网格来编码轨迹,其中在一组可能的初始网格中选择合适的初始量化网格。这些初始网格从细到粗变化。仅使用两个可能的初始网格获得好的结果,但是也能够使用几个网格。如果在一系列时间段中特定轨迹内的频率变化小于预定值,则使用更细的量化网格来量化该轨迹。该方法避免了图7中的振荡问题。关于选择初始网格的信息需要被发送到解码器。
这得到了利用低比特率发送相位信息的优点,同时保持了在所有频率上好的相位准确度和信号质量。这个方法的优点是改进了相位准确度,并因此改进了声音质量,特别是在仅使用小数目的比特来量化相位和频率值时。另一方面,使用较少的比特,能够获得所要求的声音质量。
附图说明
图1显示了其中实施本发明的实施例的现有技术的音频编码器;
图2a显示了现有技术系统中相位和频率之间的关系;
图2b显示了根据本发明的音频系统中相位和频率之间的关系;
图3a和3b显示了图1的音频编码器的正弦编码器组成元件的优选实施例;
图4显示了其中实施本发明的实施例的音频播放器;和
图5a和5b显示了图4的音频播放器的正弦合成器组成元件的优选实施例;
图6显示了包括根据本发明的音频编码器和音频播放器的系统;和
图7显示了原始频率轨迹以及利用不同量化网格由相位ADPCM量化器进行的两个估算的例子。
具体实施方式
现在,将参考附图说明本发明的优选实施例,其中相同的组成元件用相同的标号来表示并执行相同的功能,除非另有指明。在本发明的优选实施例中,编码器1是在WO 01/69593、图1中所述类型的正弦编码器。这个现有技术编码器及其相应解码器的操作已被充分说明,并且在此仅提供涉及本发明的说明。
在现有技术和本发明的优选实施例中,音频编码器1以某种抽样频率来抽样输入的音频信号,得到音频信号的数字表示x(t)。然后,编码器1将抽样的输入信号分成三个分量:瞬态信号分量,持续的确定分量,以及持续的随机分量。音频编码器1包括瞬态编码器11、持续编码器13以及噪声编码器14。
瞬态编码器11包括瞬态检测器(TD)110、瞬态分析器(TA)111以及瞬态合成器(TS)112。首先,信号x(t)进入瞬态检测器110。该检测器110估计是否存在瞬态信号分量及其位置。这个信息被馈送到瞬态分析器111。如果确定了瞬态信号分量的位置,瞬态分析器111试图提取瞬态信号分量(主要部分)。这优选地在估计的开始位置处开始匹配形状函数与信号分段,并且通过采用例如多个(少量)正弦分量来确定在形状函数下面的内容。在瞬态码CT中包含这个信息,并且在WO 01/69593中提供了更具体的关于产生瞬态码CT的详细信息。
瞬态码CT被提供给瞬态合成器112。在减法器16中从输入信号x(t)中减去合成的瞬态信号分量,得到信号x1。使用增益控制机制GC(12)来从x1中产生x2。
信号x2被提供给正弦编码器13,其中在正弦分析器(SA)130中分析该信号,确定(确定的)正弦分量。因此,能够看出,虽然瞬态分析器的存在是需要的,但不是必要的,并且没有这样的分析器也能实施本发明。可选地,如上所述,本发明还能够例如使用谐波复分析器来实现。简单地说,正弦编码器将输入信号x2编码为从一个帧分段链接到下一个帧分段的正弦分量的轨迹。
现在参考图3a,以和现有技术中相同的方式,在优选实施例中,输入信号x2的每个分段在傅立叶变换(FT)单元40中被变换到频域。对于每个分段,FT单元提供测量的幅度A、相位φ以及频率ω。如前所述,利用傅立叶变换提供的相位的范围被限制在-π≤φ<π。跟踪算法(TA)单元42提取每个段的信息,并通过采用适当的价格函数,将正弦曲线从一个分段链接到下一个分段,于是产生每个轨迹的一系列测量的相位φ(k)和频率ω(k)。
和现有技术相对照,分析器130所最终产生的正弦码Cs包括相位信息,并且在解码器中从这个信息中重建频率。
然而,如上所述,测量的相位被环绕,这意味着它被限制到模2π表示(形式)。因此,在优选实施例中,分析器包括相位展开器(PU)44,其中模2π相位表示被展开,以揭示轨迹的结构帧间相位行为Ψ。因为正弦轨迹中的频率是几乎恒定的,所以将明白,展开相位Ψ通常将是近似线性增加(或降低)函数,并且这使得相位的便宜传输即利用低比特率是可能的。将展开相位Ψ作为输入提供给相位编码器(PE)46,其作为输出提供适于传输的量化的表示电平r。
现在,参考相位展开器44的操作,如上所述,轨迹的瞬时相位Ψ和瞬时频率Ω利用下式相关:
ψ ( t ) = ∫ T 0 l Ω ( τ ) dτ + ψ ( T 0 ) - - - ( 1 )
其中T0是基准时刻。
在帧k=K,K+1...K+L-1中的正弦轨迹具有测量的频率ω(k)(以每秒弧度来表示)和测量的相位φ(k)(用弧度来表示)。帧的中心之间的距离利用U(以秒表示的更新速率)来给出。假定测量的频率是假定的基本连续的时间频率轨迹Ω的抽样,ω(k)=Ω(kU),并类似地,测量的相位是相关联的连续时间相位轨迹Ψ的抽样,φ(k)=Ψ(kU)mod(2π)。对于正弦编码,假定Ω是近似恒定的函数。
假定频率在分段内是几乎恒定的,则等式1可近似为下面:
ψ ( kU ) = ∫ ( k - 1 ) U kU Ω ( t ) dt + ψ ( ( k - 1 ) U )
≈ { ω ( k ) + ω ( k - 1 ) } U / 2 + ψ ( ( k - 1 ) U ) - - - ( 2 )
因此,可以看出,如果已知给定分段的相位和频率以及下一分段的频率,则有可能估计下一分段的展开相位值,并且对于轨迹内的每一分段,以此类推。
在优选实施例中,相位展开器确定在时刻k的展开因子m(k):
ψ(kU)=φ(k)+m(k)2π               (3)
展开因子m(k)将必须添加以获得展开相位的循环的数目告诉展开器44。
组合等式2和3,相位展开器如下确定递增式展开因子e(k):
2πe(k)=2π{m(k)-m(k-1)}={ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}
其中e应是整数。然而,由于测量和模型误差,递增式展开因子将不确切地是整数,于是:
e(k)=round([{ω(k)+ω(k-1)}U/2-{φ(k)-φ(k-1)}]/(2π))
假定:模型和测量误差是小的。
如果具有递增展开因子e,则根据等式(3)的m(k)被计算为累加和,其中不丧失一般性,相位展开器从m(k)=0的第一帧K开始,并从m(k)和φ(k)中确定(展开)相位Ψ(kU)。
实际上,抽样数据Ψ(kU)和Ω(kU)由于测量误差而失真:
φ(k)=ψ(kU)+ε1(k),
ω(k)=Ω(kU)+ε2(k),
其中ε1和ε2分别是相位误差和频率误差。为了防止展开因子的确定变得模糊,需要利用足够精确度来确定测量数据。因此,在优选实施例中,限制跟踪,以致于:
δ(k)=e(k)-[{ω(k)+ω(k-1)]U/2-{φ(k)-φ(k-1)}]/(2π)<δ0
其中δ是舍入运算中的误差。误差δ主要是由与U相乘引起的ω中的误差来确定。假定从具有抽样频率Fs的输入信号的抽样版本的傅立叶变换的最大绝对值中确定ω,并且该傅立叶变换的解析度是2π/La,La是分析量值。为了在考虑的限制之内,我们得到:
L a U = δ 0
这意味着,分析量值应当大于更新量值的几倍,以使展开是精确的,例如设定δ0=1/4,分析量值应当是更新量值的四倍(忽略相位测量中的误差ε1)。
可以采取以避免舍入运算中的判决误差的第二预防措施是适当地定义轨迹。在跟踪单元42中,正弦轨迹通常通过考虑幅度和频率差来定义。此外,还有可能考虑链接标准中的相位信息。例如,我们可根据下式将相位预测误差ε定义为测量值和预测值
Figure G2004800254939D00072
之间的差值:
ϵ = { φ ( k ) - φ ~ ( k ) } mod 2 π
其中预测值可取为:
φ ~ ( k ) = φ ( k - 1 ) + { ω ( k ) - ω ( k - 1 ) } U / 2
因此,优选地跟踪单元42禁止其中ε大于某个值(例如,ε>π/2)的轨迹,得到e(k)的明确定义。
此外,编码器能够计算诸如在解码器中将是可利用的相位和频率。如果在解码器中将变得可用的相位或频率和例如在编码器中出现的相位和/或频率相差太大,则能够决定中断轨迹,即,发信号表示轨迹的结束,并使用当前的频率和相位及其链接的正弦数据开始新的轨迹。
相位展开器(PU)44产生的抽样的展开相位Ψ(kU)被作为输入提供给相位编码器(PE)46,以产生一组表示电平r。具有单调变化特征诸如展开相位的有效传输的技术通常是已知的。在优选实施例中,图3b,采用自适应差分脉码调制(ADPCM)。在此,使用预测器(PF)48来估计下一轨迹分段的相位,并且只在量化器(Q)50中编码差值。由于期望Ψ是近似线性的函数,并且为了简单起见,选择预测器48为二阶滤波器的形式:
y(k+1)=2x(k)-x(k-1)
其中x是输入,而y是输出。然而,可以看出,也有可能采取其他的函数关系(包括更高阶关系),并包括滤波器系数的自适应(前向或后向)适配。在优选实施例中,为了简便,使用后向自适应控制机制(QC)52来控制量化器50。也有可能使用前向自适应控制,但这将需要额外的比特率开销。
如将明白的,用于轨迹的编码器(和解码器)的初始化从知道开始相位φ(0)和频率ω(0)开始。这些利用独立的机制进行量化和传输。此外,在编码器的量化控制器52以及解码器内的对应控制器62内使用的初始量化步骤(图5b)是在编码器和解码器中进行传输或设定到特定值。最后,轨迹的结束可以在独立的支流中发信号通知,或作为相位的比特流中的唯一符号来通知。
展开相位的开始频率在编码器以及解码器中都是已知的。基于这个频率,选择量化精度。对于以较低频率开始的展开相位轨迹,和以较高频率开始的展开相位轨迹相比,选择更精确的量化网格,即,更高的清晰度。
在ADPCM量化器中,从轨迹内在前相位中预测/估计展开相位Ψ(k),其中k表示轨迹内的数目。然后,量化并传输预测相位
Figure G2004800254939D00091
和展开相位Ψ(k)之间的差值。量化器适用于轨迹内的每个展开相位。当预测误差小时,量化器限制可能值的范围,并且量化能够变得更为精确。另一方面,当量化误差大时,量化器使用更粗的量化。
图3b中的量化器Q量化预测误差Δ,这利用下式来计算:
Δ ( k ) = ψ ( k ) - ψ ~ ( k )
可使用查询表来量化预测误差Δ。为此,保持一个表Q。例如,对于2比特ADPCM量化器,Q的初始表可以类似于表1所示的表格。
  索引I   下限b1   上限bu
  1   -∞   -3.0
  2   -3.0   0
  3   0   3.0
  4   3.0   ∞
表1:用于第一连续的量化表Q
如下完成量化。将预测误差Δ和边界b进行比较,以满足下式:
bli<Δ≤bui
从满足上述关系的i的值中,利用r=i计算表示电平r。
在表示表R中存储相关的表示电平r,这显示在表2中。
  表示电平r   表示表R   电平类型
  0   -3.0   外部电平
  1   -0.75   内部电平
  2   0.75   内部电平
  3   3.0   外部电平
表2:用于第一连续的表示表R
为了轨迹中下一正弦分量的量化,表Q和R的表项利用因子c来相乘。
Q(k+1)=Q(k)·c
R(k+1)=R(k)·c
在解码轨迹期间,根据生成的表示电平r来定标两个表。如果对于当前子帧,r是1或2(内部电平),则量化表的比例因子c被设定为:
c=2-1/4
由于c<1,轨迹中下一正弦曲线的频率和相位变得更准确。如果r是0或3(外部电平),则比例因子被设定为:
c=21/2
由于c>1,轨迹中下一正弦曲线的量化精确度降低。使用这些因子,通过两个按比例缩小,可以取消一个按比例放大。按比例放大和按比例缩小之间的差异导致按比例放大的快速开始,而对应的按比例缩小需要两步。
为了避免量化表中非常小或非常大的表项,只在内部电平的绝对值在π/64和3π/4之间,才进行自适应。在此一种情况中,c被设定为1。
在解码器中,仅保持表R,以便将接收的表示电平r转换为量化的预测误差。这个解量化操作是由图5b中的块DQ执行的。
使用上述设定,重建声音的质量需要改进。根据本发明,使用基于开始频率的用于展开相位轨迹的不同的初始表。借此,获得更好的声音质量。这是如下完成的。基于轨迹的第一频率,定标初始表Q和R。在表3中,和频率范围一起给出比例因子。如果轨迹的第一频率位于某个频率范围内,则选择适当的比例因子,并且利用这个比例因子来划分表R和Q。端点也能够取决于轨迹的第一频率。在解码器中,执行相应的处理,以便从正确的初始表R开始。
  频率范围   比例因子   初始表Q   初始表R
  0一500Hz   8   -∞-0.19 0 0.19 ∞   -0.38 -0.09 0.09 0.38
  500-1000Hz   4   -∞-0.37 0 0.37 ∞   -0.75 -0.19 0.19 0.75
  频率范围   比例因子   初始表Q   初始表R
  1000-4000Hz   2   -∞-0.75 0 0.75 ∞   -1.5 -0.38 0.38 1.5
  4000-22050Hz   1   -∞-1.5 0 1.5 ∞   -3 -0.75 0.75 3
表3:频率相关的比例因子和初始表
表3显示了用于2比特ADPCM量化器的频率相关的比例因子以及对应的初始表Q和R的示例。音频频率范围0-22050Hz被分成四个频率子范围。可以看出,相对于较高的频率范围,在较低的频率范围范围中相位精度改善了。
频率子范围以及频率相关的比例因子的数目可以变化,并可以进行选择以适应不同目的和要求。如上所述,表3中的频率相关的初始表Q和R能够动态地按比例放大和缩小,以适应从一个时间段到下一个时间段的相位的演化。
在例如3比特ADPCM量化器中,用3比特定义的8个量化间隔的初始边界可定义为如下:
Q={-∞ -1.41 -0.707 -0.35 0 0.35 0.707 1.41 ∞},并可以具有最小网格尺寸π/64和最大网格尺寸π/2。表示表R可能看上去类似:
R={-2.117,-1.0585,-0.5285,-0.1750,0.1750,0.5285,1.0585,2.117}。在这种情况中也可以使用如表3所示的类似的频率相关的表Q和R的初始化。
根据利用正弦编码器生成的正弦码Cs,由正弦合成器(SS)131以与对于解码器中的正弦合成器(SS)132所述的相同方式重建正弦信号分量。在减法器17中从正弦编码器13的输入x2中减去这个信号,得到剩余信号x3。正弦编码器13产生的剩余信号x3被传送到优选实施例的噪声分析器14,其产生表示这个噪声的噪声码CN,例如,如在国际专利申请号PCT/EP00/04599中所描述的。
最后,在多路复用器15中,构成音频流AS,其包括码CT、Cs和CN。音频流AS被提供给例如数据总线、天线系统、存储媒体等。
图4显示了适于解码音频流AS’的音频播放器3,该音频流例如是由图1的编码器1产生的,从数据总线、天线系统、存储媒体等获得的。在解多路复用器30中解多路复用音频流AS’,以获得码CT、Cs和CN。这些码分别被提供给瞬态合成器31、正弦合成器32以及噪声合成器33。根据瞬态码CT,在瞬态合成器31中计算瞬态信号分量。在瞬态码表示形状函数的情形中,根据接收参数,计算形状。此外,根据正弦分量的频率和幅度,计算形状内容。如果瞬态码CT指示步(间隔),则不计算任何瞬态值。总的瞬态信号yT是所有瞬态值的和。
包括分析器130编码的信息的正弦码Cs由正弦合成器32用于生成信号y。现在,参考图5a和5b,正弦合成器32包括和相位编码器46相兼容的相位解码器(PD)56。在此,解量化器(DQ)60和二阶预测滤波器(PF)64一起根据以下内容产生展开相位
Figure G2004800254939D00121
(的估计):表示电平r;提供给预测滤波器(PF)64的初始信息(0)和
Figure G2004800254939D00123
以及用于量化控制器(QC)62的初始量化步长。
如图2b所示,可以从展开相位
Figure G2004800254939D00124
通过差分恢复出频率。假定解码器中的相位误差是近似白的,并且由于差分放大了高频,所以差分可以与低通滤波器组合,以降低噪声,并因此在解码器上获得频率的准确估计。
在优选实施例中,滤波单元(FR)58近似差分,这对于通过诸如前向、后向或中央差的处理从展开相位中获得频率
Figure G2004800254939D00125
是必需的。这允许解码器产生相位
Figure G2004800254939D00126
和频率
Figure G2004800254939D00127
作为输出,这两个值可以常规方式用于合成编码信号的正弦分量。
同时,因为信号的正弦分量正被合成,所以将噪声码CN送入噪声合成器NS33,该合成器主要是滤波器,具有近似噪声频谱的频率响应。NS33通过用噪声码CN滤波白噪声信号,产生重建噪声yN。总的信号y(t)包括瞬态信号yT和任一幅度分解(g)与正弦信号y,和噪声信号yN之和的乘积的和。音频播放器包括两个加法器36和37,以便将相应的信号相加。总的信号被提供给诸如是扬声器的输出单元35。
图6显示了根据本发明的包括图1所示的音频编码器1和图4所示的音频播放器3的音频系统。这样的系统提供以及记录特征。通过可以是无线连接、数据总线20或存储媒体的通信信道2,从音频编码器提供音频流AS给音频播放器。在通信信道2是存储媒体的情况中,该存储媒体可以固定在系统中,或者也可以是可拆卸的盘、存储卡或芯片或其他固态存储器。通信信道2可以是音频系统的一部分,然而通常是在音频系统的外部。
来自若干相继分段的编码数据被链接。这是如下完成的。对于每个分段,确定多条正弦曲线(例如,使用FFT)。正弦曲线包括频率、幅度和相位。每个分段正弦曲线的数目是变化的。一旦确定了分段的正弦曲线,则进行分析,以连接到前一分段中的正弦曲线。这称为“链接”或“跟踪”。该分析基于当前分段的正弦曲线和在前分段的所有正弦曲线之间的差别。和在前分段中具有最小差别的正弦曲线进行链接/跟踪。如果即使最小差别也大于某个阈值,则不进行到前一分段的正弦曲线的连接。以这样的方式,创建或“诞生”新的正弦曲线。
正弦曲线之间的差别使用“价格函数”来确定,该函数使用正弦曲线的频率、幅度或相位。对于每个分段,执行这个分析。结果是用于音频信号的大量轨迹。轨迹具有这样的起源(birth),其是与在前分段的正弦曲线没有连接的正弦曲线。无差别地编码起源正弦曲线。连接到在前分段的正弦曲线的正弦曲线被称为连续部分,并且它们相对于在前分段的正弦曲线有差别地进行编码。这节省了大量比特,因为仅仅编码差别而不是绝对值。
根据本发明,如果例如对于每个轨迹使用一组两个可能的初始网格,则必须发送指示实际使用两个初始网格之中哪一个的一个比特给解码器。在编码器中,检查沿着轨迹的频率,以确定和预定阈值相比较的频率差别。如果该差别超过了阈值,则选择粗的网格,否则选择更细的网格。该频率差可以在频率之间的数字差或另一个不是差别的统计数量,诸如标准偏差。
这改进了音频质量。相应地,如果对于每个轨迹使用一组四个可能的初始网格,必须传送指示使用四个初始网格之中哪一个的两个比特给解码器。通常,300比特/秒的比特率与该方法相关联,对于在[1]中所述的编码器,操作在比特率12500比特/秒上。然而,可通过使用下面本发明的方法来降低比特率,同时保持音频质量。
在编码器中,利用更精细的初始量化网格(例如,比用于不满足下述两个条件a)和b)的剩余轨迹的初始量化网格细两倍)来编码是如下的轨迹:
a)至少预定数目的帧(例如5帧)长,和
b)在第二往上至第五帧中,最高和最低频率之间的差值小于预定值。
优选地,在至少具有一个至少预定数目帧(例如,5帧)长的轨迹的初始化的帧中,下面的条件之一将应用:
-帧内没有轨迹使用细的量化网格来编码。在这种情况中,发送“0”到解码器,并且无需发送进一步的信息给解码器;或
-至少一个轨迹使用细的量化网格来编码。在这种情况中,发送“1”给解码器,并对于是至少预定数目帧(例如,5帧)长的每个轨迹,指示它是使用细的还是粗的初始量化网格来编码。解码器可使用跟踪信息来确定哪一些轨迹具有至少预定数目帧的长度。
在编码器中使用上述编码方法,允许解码器确定轨迹是利用细的或粗的初始量化网格来编码。
当应用本发明的方法到[1]中所述的编码器时,在总的比特率12500比特/秒上要求大约100比特/秒。当采用多于两个的初始网格时,本发明方法的比特率降低版本(100比特/秒)和常规版本(300比特/秒)之间的比特率的增益实际上能够显著增加。
参考文献:
[1]Gerard Hotho and Rob Sluijter.A low bit rate audio and speech sinusoidalcoder for narrowband signals.In Proc.lst IEEE Benelux workshop on MPCA-2002,pages 1-4,Leuven,Belgium,November 15,2002.

Claims (8)

1.一种解码音频流(AS’)的方法,该音频流(AS’)包括表示频率与相位的正弦码(Cs)的轨迹和链接信息以及关于量化网格的信息,该方法包括以下步骤:
接收包括音频流(AS’)的信号;
解量化正弦码(Cs),从而获得展开的解量化的相位值其中正弦码(Cs)基于有关量化网格的信息被解量化;
从解量化的展开的相位值(Ψ)中,计算频率值
Figure F2004800254939C00012
以及
采用解量化的频率和相位值
Figure F2004800254939C00013
来合成音频信号的正弦分量(y(t))。
2.根据权利要求1的方法,其中有关量化网格的信息包括指示在一系列预定数目的时间段中是否使用除默认量化网格之外的量化网格来量化正弦码(Cs)的一个或多个轨迹的代码,该方法进一步包括使用链接信息来确定哪些轨迹使用除默认量化网格之外的量化网格来量化。
3.根据权利要求1的方法,其中将每个链接的正弦分量的相位值确定为以下的函数:在前分段的频率和链接分段的频率的积分;在前分段的相位,以及其中正弦分量包括在范围{-π;π}内的相位值。
4.根据权利要求1的方法,其中量化网格被控制为量化的正弦码(Cs)的函数。
5.一种音频编码器,用于处理多个顺序时间段中的每一个的相应组的抽样信号值,该编码器包括:
分析器,用于分析抽样信号值,以确定多个顺序分段中的每一个的一个或多个正弦分量,每个正弦分量包括频率值和相位值;
链接器(13),用于跨越多个顺序分段来链接正弦分量,以提供正弦轨迹;
相位展开器(44),用于对于多个顺序分段的每一个中的每一个正弦轨迹确定预测相位值
Figure F2004800254939C00014
作为至少在前分段的相位值的函数,并且用于对于每个正弦轨迹确定具有单调变化特征的测量的展开的相位值(Ψ);
量化器(50),用于将正弦码(Cs)量化为分段的预测相位值和展开的相位值(Ψ)的函数,其中基于第一时间段内的第一频率值(Ω)以及第二时间段内的第二频率值(Ω)来量化正弦码(Cs),在一系列预定数目的时间段中选择第一和第二时间段;和
用于提供包括表示频率和相位的正弦码(Cs)的编码信号(AS)的装置(15)。
6.根据权利要求5的音频编码器,其中量化器(50)适于:
在所述正弦轨迹的第一正弦轨迹中,其中当前分段的正弦曲线与在前分段的正弦曲线之中的第一正弦曲线的频率值和当前分段的正弦曲线与在前分段的正弦曲线之中的第二正弦曲线的频率值具有第一差值,使用第一量化网格来量化正弦码(Cs),以及
在所述正弦轨迹的第二正弦轨迹中,其中当前分段的正弦曲线与在前分段的正弦曲线之中的第一正弦曲线的频率值和当前分段的正弦曲线与在前分段的正弦曲线之中的第二正弦曲线的频率值具有小于第一差值的第二差值,使用比第一量化网格更精细或等于第一量化网格的第二量化网格来量化正弦码(Cs)。
7.一种音频播放器,包括:
用于读取编码的音频信号(AS’)的装置,其中编码的音频信号包括表示链接正弦分量的每个轨迹的频率和相位的正弦码(Cs)的轨迹、相位和链接信息以及关于量化网格的信息,
解量化器,用于解量化正弦码(Cs),从而获得展开的解量化的相位值其中基于有关量化网格的信息来解量化正弦码(Cs);并用于从解量化的展开的相位值(Ψ)中计算频率值
合成器,用于采用生成的相位值和频率值来合成音频信号的正弦分量(y(t))。
8.一种音频系统,包括如权利要求5所述的音频编码器以及如权利要求7所述的音频播放器。
CN2004800254939A 2003-09-05 2004-08-25 低比特率音频编码 Expired - Fee Related CN1846253B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03103308 2003-09-05
EP03103308.7 2003-09-05
PCT/IB2004/051564 WO2005024783A1 (en) 2003-09-05 2004-08-25 Low bit-rate audio encoding

Publications (2)

Publication Number Publication Date
CN1846253A CN1846253A (zh) 2006-10-11
CN1846253B true CN1846253B (zh) 2010-06-16

Family

ID=34259257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800254939A Expired - Fee Related CN1846253B (zh) 2003-09-05 2004-08-25 低比特率音频编码

Country Status (6)

Country Link
US (1) US7596490B2 (zh)
EP (1) EP1665232A1 (zh)
JP (1) JP2007504503A (zh)
KR (1) KR20060083202A (zh)
CN (1) CN1846253B (zh)
WO (1) WO2005024783A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2298568T3 (es) * 2002-11-29 2008-05-16 Koninklijke Philips Electronics N.V. Descodificacion de audio.
DE102006022346B4 (de) 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
KR101080421B1 (ko) * 2007-03-16 2011-11-04 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치
KR101418248B1 (ko) 2007-04-12 2014-07-24 삼성전자주식회사 정현파 성분의 진폭 코딩 및 디코딩 방법과 그 장치
KR101317269B1 (ko) * 2007-06-07 2013-10-14 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치
KR20090008611A (ko) * 2007-07-18 2009-01-22 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치
KR101410229B1 (ko) * 2007-08-20 2014-06-23 삼성전자주식회사 오디오 신호의 연속 정현파 신호 정보를 인코딩하는 방법및 장치와 디코딩 방법 및 장치
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
KR101425355B1 (ko) * 2007-09-05 2014-08-06 삼성전자주식회사 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법
CN102460574A (zh) * 2009-05-19 2012-05-16 韩国电子通信研究院 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备
US20110153337A1 (en) * 2009-12-17 2011-06-23 Electronics And Telecommunications Research Institute Encoding apparatus and method and decoding apparatus and method of audio/voice signal processing apparatus
EP2519283B1 (en) 2009-12-28 2017-10-04 Gambro Lundia AB Apparatus and method for prediction of rapid symptomatic blood pressure decrease
US8620660B2 (en) 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
US9087260B1 (en) * 2012-01-03 2015-07-21 Google Inc. Hierarchical randomized quantization of multi-dimensional features
KR20140072995A (ko) * 2012-12-05 2014-06-16 한국전자통신연구원 Ofdm 신호의 송수신 장치 및 방법
EP2963645A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Calculator and method for determining phase correction data for an audio signal
US10249319B1 (en) 2017-10-26 2019-04-02 The Nielsen Company (Us), Llc Methods and apparatus to reduce noise from harmonic noise sources

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1320257A (zh) * 1999-06-18 2001-10-31 皇家菲利浦电子有限公司 带有改进的编码器的音频传输系统
CN1383546A (zh) * 2000-06-20 2002-12-04 皇家菲利浦电子有限公司 正弦编码

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
CA1332982C (en) * 1987-04-02 1994-11-08 Robert J. Mcauley Coding of acoustic waveforms
US5680336A (en) * 1994-04-19 1997-10-21 Northrop Grumman Corporation Continuous wave synthesis from a finite periodic waveform
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
CN1154975C (zh) 2000-03-15 2004-06-23 皇家菲利浦电子有限公司 用于声频编码的拉盖尔函数
JP4714416B2 (ja) * 2002-04-22 2011-06-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 空間的オーディオのパラメータ表示
JP2006503319A (ja) * 2002-10-14 2006-01-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号フィルタリング
ES2298568T3 (es) * 2002-11-29 2008-05-16 Koninklijke Philips Electronics N.V. Descodificacion de audio.

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1320257A (zh) * 1999-06-18 2001-10-31 皇家菲利浦电子有限公司 带有改进的编码器的音频传输系统
CN1383546A (zh) * 2000-06-20 2002-12-04 皇家菲利浦电子有限公司 正弦编码

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BRINKER DEN A C ET AL.PARAMETRIC CODING FOR HIGH-QUALITY AUDIO.PREPRINTS OF PAPERS PRESENTED AT THE AES CONVENTION.2002,1-10. *
MARQUES J S ET AL.Harmonic coding at 4.8kb/s.INTERNATIONAL CONFERENCE ON ACOUSTICS SPEED AND SIGNAL.1990,17-20. *

Also Published As

Publication number Publication date
CN1846253A (zh) 2006-10-11
US20070027678A1 (en) 2007-02-01
WO2005024783A8 (en) 2005-05-26
KR20060083202A (ko) 2006-07-20
EP1665232A1 (en) 2006-06-07
JP2007504503A (ja) 2007-03-01
US7596490B2 (en) 2009-09-29
WO2005024783A1 (en) 2005-03-17

Similar Documents

Publication Publication Date Title
CN1846253B (zh) 低比特率音频编码
AU2021215252B2 (en) Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN105210149A (zh) 用于音频信号解码或编码的时域电平调整
CN101790756A (zh) 瞬态检测器以及用于支持音频信号的编码的方法
CN1826634B (zh) 低比特率音频编码
CN100578618C (zh) 一种解码方法及装置
CN103081366A (zh) 在数字音频信号编码器中控制噪声整形反馈环路
KR20210125534A (ko) 전 프레임 손실 은닉 및 부분 프레임 손실 은닉을 포함하는 lc3 은닉을 위한 디코더 및 디코딩 방법
EP3624347B1 (en) Split gain shape vector coding
CN1867969B (zh) 用于对音频信号进行编码或解码的方法和设备
EP3128513B1 (en) Encoder, decoder, encoding method, decoding method, and program
CN100559467C (zh) 音频编码
CN101091207A (zh) 用于确定ltp编码系统中的基音延迟的系统和方法
US20120123788A1 (en) Coding method, decoding method, and device and program using the methods
WO2016142357A1 (en) Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100616

Termination date: 20120825