CN105684078B - 音频信号重采样方法/装置以及音频信号编/解码器 - Google Patents

音频信号重采样方法/装置以及音频信号编/解码器 Download PDF

Info

Publication number
CN105684078B
CN105684078B CN201480053813.5A CN201480053813A CN105684078B CN 105684078 B CN105684078 B CN 105684078B CN 201480053813 A CN201480053813 A CN 201480053813A CN 105684078 B CN105684078 B CN 105684078B
Authority
CN
China
Prior art keywords
resampling
samples
signal
filter
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480053813.5A
Other languages
English (en)
Other versions
CN105684078A (zh
Inventor
B.科维西
S.拉戈特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Priority to CN201710730282.4A priority Critical patent/CN107481726B/zh
Publication of CN105684078A publication Critical patent/CN105684078A/zh
Application granted granted Critical
Publication of CN105684078B publication Critical patent/CN105684078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/06Non-recursive filters
    • H03H17/0621Non-recursive filters with input-sampling frequency and output-delivery frequency which differ, e.g. extrapolation; Anti-aliasing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

本发明涉及一种用于在音频信号编码或解码中对音频信号重采样的方法。该方法针对每个有待重采样的信号块包括以下步骤:‑通过自适应线性预测来确定(E401)未来信号样本的数量,此数量是根据所选择的重采样延迟来限定的;‑至少根据该当前块的多个样本以及所确定的多个未来信号样本而构建(E402)重采样支持向量;‑将重采样滤波器应用(E403)于该重采样支持向量的多个样本。本发明还涉及一种实现所描述的方法的重采样装置、包括至少一个装置的编码器和解码器。

Description

音频信号重采样方法/装置以及音频信号编/解码器
技术领域
本发明涉及对音频信号进行处理以便对其进行传输或存储。更具体地,本发明涉及在对音频信号进行编码或解码时采样频率的变化。
背景技术
存在许多技术用于压缩(有损耗)音频信号(如语音或音乐)。编码可以直接在输入信号的采样频率下进行,如例如在ITU-T建议G.711或G.729 中那样,其中,在8kHz下对输入信号进行采样,并且编码器和解码器在此同一个频率下进行操作。
然而,一些编码方法使用采样频率的变化来例如降低编码的复杂度、根据不同的有待编码的频率子带对编码进行适配、或者对输入信号进行转换以使其与编码器的预定义内部采样频率相对应。
在ITU-T建议G.722中定义的子带编码中,在16kHz上的输入信号被划分成由ADPCM(自适应差分脉冲编码调制)型编码器单独编码的2个子带(在8kHz下进行采样)。这种划分成两个子带是由23阶的具有有限脉冲响应的二次模镜像滤波器组所实施的,其理论上产生16毫秒23个样本的分析合成延迟(编码器+解码器);该滤波器组是用多相实现方式来实现的。 G.722中划分成两个子带使得可以根据其先验感知重要性来以预定方式向这两个子带分配不同的比特率,并且还通过在较低频率下执行两个ADPCM型编码器来降低总体编码复杂度。然而,与直接ADPCM编码相比较,其引起了算法延迟。
已知各种用于通过使用(例如并且以非详尽的方式)FIR(有限脉冲响应)滤波器、IIR(无限脉冲响应)滤波器或多项式插值(包括样条)来改变数字信号的采样频率(又称为重采样)的方法。可以在例如R.W.沙费尔 (R.W.Schafer)、L.R罗宾纳(L.R.Rabiner)的文章“Digital Signal Processing Approach to Interpolation(插值的数字信号处理法)”电气与电子工程师协会会报,第61卷,第6期,1973年6月,692-702页中找到对常规重采样方法的综述。
FIR滤波器(对称型)的优点在于其简化的实现方式并且——受制于某些条件——在于确保线性相位的可能性。线性相位滤波使得可以保存输入信号的波形,但其还可能伴有可能在瞬态产生前回波型伪信号的时间扩展(或振荡)。本方法引起一般大约1毫秒到几毫秒的延迟(其取决于脉冲响应的长度)以确保适当的滤波特性(带宽中的纹波、足以消除混叠图像或频谱图像的抑制水平……)。
通过IIR滤波器进行采样的替代方案一般产生非线性相位,除非通过如在例如P.A.雷加利亚(P.A.Regalia)、S.K.密特拉(S.K.Mitra)、P.P.威德亚纳森(P.P.Vaidyanathan)的以下文章中所描述的附加全通滤波级与 MATLAB软件的“iirgrpdelay”例程的示例性实现方式一起对相位进行补偿:“The Digital All-PassFilter:A Versatile Signal Processing Building Block”(数字全通滤波器:通用信号处理构造块),电气与电子工程师协会会报,第76 卷,第1期,1988年1月;IIR滤波器一般具有较低阶但在定点表示法中实现起来更加复杂,滤波器的状态(或记忆)针对递归部分能够达到较高的动态值,并且如果采用通过全通滤波进行相位补偿,则这个问题被放大。
图1展示了通过在64kHz下具有2*60+1=121个系数长度的FIR滤波器按照4/5的比率从16kHz变化到12.8kHz进行下采样的示例。x轴表示时间(基于毫秒以表示在不同频率下计时的信号),并且y轴表示振幅。顶部的正方形表示在16kHz下的输入信号的样本的时间位置;这里,假设这些样本与20毫秒的帧的末尾相对应。实竖直线标记在16kHz下的相应采样时刻。在该图的底部,虚竖直线标记在12.8kHz下的相应采样时刻,并且星形表示在12.8kHz下的输出样本。还表示了FIR滤波器在64kHz下的121个系数的脉冲响应(对称型),这个响应被定位成用于计算当前帧在12.8kHz 下的最后的样本(脉冲响应最大值的位置与这个样本相对准)。那些圆形示出了多相表示中所使用的值(与输入采样时刻相对应);为了获得输出样本,这些值乘以相应的输入样本,并且将这些结果加在一起。在这个图中应注意的是,无法确切地计算在12.8kHz下的12个样本(直到输入帧的末尾),因为当前帧的末尾(下一个帧的开头)之后的输入样本还未知;图1的情况中的下采样延迟是12个样本,即,12/12.8=0.9375毫秒。
有多种技术用于减小由FIR类型的采样频率的变化所引起的延迟。
在3GPP AMR-WB标准(还被定义为ITU-T建议G.722.2)中,在应用 CELP型的编码之前,以12.8kHz的内部频率对在16kHz下采样的输入信号进行下采样;然后,在16kHz下对在12.8kHz下解码的信号进行重采样,并且将其与高频带信号进行组合。
穿过12.8kHz的中频频率的优点在于其使得可以降低CELP编码的复杂度并且还具有是2的幂次方的倍数的帧长度,这方便了对某些CELP参数的编码。所使用的方法是通过FIR滤波器(在64kHz下具有121个系数)按照因数4/5进行的常规重采样,其中,通过多相实现方式来最小化复杂度。
理论上,这种在编码器上以及在AMR-WB解码器上进行的重采样应当以与图1中所表示的处理相类似的方式产生延迟。在AMR-WB编解码器的情况下,具有121个系数的FIR滤波器,总延迟理论上应当是在64kHz下2 ×60个样本,即,在16kHz下2×15个样本或者1.875毫秒;实际上,在 AMR-WB编码器上实现一种特定技术从而仅消除(补偿)在编码器部分中的相关联延迟并且因此将有效延迟除以2。
在3GPP标准TS 26.190条款5.1以及ITU-T建议G.722.2条款5.1中描述了这种补偿方法。这种用于补偿FIR滤波延迟的方法在于:为在16kHz 下采样的有待转换到12.8kHz的每个新帧在当前帧的末尾添加预定数量的零。在输入采样频率下对这些零进行定义,并且它们的数量与重采样FIR滤波器在此频率下的延迟相对应(即,在16kHz下添加15个零)。每个20毫秒帧(320个样本)实施一次重采样。因此,AMR-WB编码器中的重采样相当于在左侧(朝过去)用从前一个帧的末尾开始的30个样本(重采样记忆) 并且在右侧用15个零来补充具有320个样本的输入帧,从而形成具有30+ 320+15=365个样本的向量,然后,以因数4/5对该向量进行重采样。因此,由于添加了空的未来信号,可以用零相位来实现FIR滤波器,因此没有延迟;理论上,根据以下步骤进行按因数4/5进行的FIR重采样:
-通过在每个输入样本之后在0处添加3个样本进行4倍的上采样(从 16kHz到64kHz)
-120阶的对称FIR型传递函数H抽选(z)在64kHz下进行低通滤波
-通过仅将来自经低通滤波的信号的五个样本中的一个样本排除在外的 5倍下采样(从64kHz到12.8kHz)。
实际上,这种重采样是根据优化的多相实现方式以等效方式实现的,而无需计算在64kHz下的中间信号并且无需将有待转换的信号与多个零进行连结(参见AMR-WB编解码器的源代码的“decim54.c”文件);针对每个“相位”的FIR滤波相当于在12.8kHz下具有12个样本延迟(即,0.9375 毫秒)的12.8kHz下的24阶FIR滤波器。
从16kHz到12.8kHz的每个20毫秒帧的FIR重采样的结果与在“完整的”输入信号(即,未被切割成多个帧)上所形成的重采样完全相同,而在 12.8kHz下每个产生的帧的最后12个样本除外,由于将零块用作未来信号而不是仅在下一个帧上可用的“真实”未来信号,这些样本中包括误差。实际上,所引入的这些零模拟了在下一个帧中的空输入信号的情况。
图2中在20毫秒帧的末尾处展示了这种处理,该图通过在顶部的正方形表示在16kHz下的最后的输入样本;竖直线标记在16kHz下的相应采样时刻。在图的底部,星形表示在12.8kHz下的输出样本,这些输出样本可以通过以12个样本的延迟进行的常规下采样来获得。然后,在底部的三角形与通过使用在帧的末尾添加的至少一个空值样本以便能够继续进行滤波并减小延迟而获得的在12.8kHz下的12个样本相对应。根据这些样本相对于用常规滤波所获得的输出的末尾的位置从#1到#12对它们进行编号。还表示了在与12.8kHz下的最后输出样本相对应的位置中所使用的滤波器在64 kHz的脉冲响应(该脉冲响应最大值与这个样本相对准)。那些圆形示出了多相表示中所使用的值(与输入采样时刻相对应);为了获得输出样本,这些值乘以相应的输入样本或者对于在帧的末尾之后的值乘以0,并且将这些结果加在一起。这里可以看出,针对这个最后样本,自脉冲响应开始使用的几乎一半样本乘以所添加的零,这因此引起显著的估计误差。还将理解到,在常规滤波之后所生成的这些第一样本的误差(也就是说只有真实输入信号)较小(在其末尾处脉冲响应的权重较低),并且误差随着与常规滤波的距离增大而变大(于是,脉冲响应的权重更大)。在图7的结果中将能够观察到这种情况。
AMR-WB编解码器中所使用的延迟补偿方法(其中,在每个有待重采样的20毫秒块(或帧)的末尾添加零)使得可以消除编码器上的重采样延迟,但是当一旦已知下一个帧的输入信号则对在当前帧的末尾处所生成的值 (在输入上添加零)直接进行编码并且未用真值对其进行替代时,一般是不令人满意的。实际上,在每个帧的末尾的这些规则误差在向下一个帧的开头处的真实输出信号过渡时产生周期性间断。这些间断经常是可听见的并且非常令人讨厌。这就是延迟补偿仅应用于编码器上并且仅应用于未来信号部分 (被称为前瞻)而不应用于AMR-WB解码器上的原因。
实际上,在AMR-WB编码器中,16kHz下的每个新的20毫秒输入帧与对应于当前帧的有待通过ACELP模型进行编码的最后15毫秒以及未来信号的5毫秒(或前瞻)相对应的时间段。当前帧的有待编码的前5毫秒已经被接收并且被存储为前一段的“前瞻”。因此,在编码器上从16kHz到12.8 kHz进行重采样之后所获得的最后12个样本与5毫秒未来信号在12.8kHz 下的最后样本相对应。因此,用过去的原始信号的5毫秒(环回)来补充在 12.8kHz下的当前20毫秒帧(即,256个样本)和未来信号的5毫秒(即, 64个样本),以便形成384个样本(30毫秒)的LPC分析缓冲区,通过具有相同长度的LPC分析窗口对该分析缓冲区进行加权。
12.8kHz下的“前瞻”的包括重采样误差的最后12个样本在用于线性预测(LPC)的窗口中具有非常低的相对权重,并且更不必说它们仅对估计的LPC包络有影响,并且这种影响非常微不足道。重要的是要注意到,12 个错误样本被下一个帧上的“确切”重采样值替代,因此,误差仅暂时存在于未来信号(前瞻)的当前帧中并且只影响LPC分析。从而,AMR-WB编码器的延迟补偿技术并不影响AMR-WB编解码器中当前帧中的信号波形的编码。这种模式在下文中将被称为:“在具有未来信号的帧之前使用”。如此生成的样本仅暂时用于中间计算(LPC分析)并且当已知下一个帧的信号时被正确采样的样本替代。将注意的是,在这种配置中,对于针对每个帧的长度为lg_out的输出帧,lg_out+12个样本通过重采样来生成。
在AMR-WB编码器上使用的这种延迟补偿技术并不适用于AMR-WB 解码器。
从而,由于编码器(20毫秒帧+5毫秒前瞻)以及在解码器上的重采样(0.9375毫秒),编解码器(编码器+解码器)具有25.9375毫秒的总算法延迟。
AMR-WB编码器的延迟补偿技术不能用于减小G.722编解码器的QMF 滤波延迟,因为其将大大降低编码信号的质量。实际上,在G.722编解码器中,滤波产生的样本(低频带信号和高频带信号)直接构成这两个ADPCM 子编解码器的输入信号,这些子编解码器在没有“前瞻”的情况下操作并且并不使得可以从一个帧到另一个帧对这些值进行校正。这种模式在下文中将被称为:“连续逐帧使用”。
发明内容
本发明改善了现有技术的情况。
为此,本发明提出了一种用于在音频信号编码或解码中对音频信号进行重采样的方法。该方法为使得其针对每个有待重采样的信号块包括以下步骤:
-通过自适应线性预测来确定未来信号样本的数量,此数量是根据所选择的重采样延迟来限定的;
-至少根据该当前块的多个样本以及所确定的多个未来信号样本而构建重采样支持向量;
-将重采样滤波器应用于该重采样支持向量中的这些样本。
因此,根据本发明的重采样使得可以通过滤波器减少重采样延迟(每块或每帧),同时保持性能水平非常接近于连续重采样。每个块或帧中对未来信号的预测使得可以使样本比这些未来样本被设定为空值的情况下更接近于实际样本。因此,针对这些后面的样本的重采样过程的性能更好。
这种重采样方法也是自适应的,因为可以根据所希望的延迟来适配有待考虑的未来信号样本的数量。那么,针对没有延迟的重采样,有待确定的未来信号样本的数量与重采样滤波器的延迟相对应。如果容忍比滤波器的延迟更低的延迟,则未来信号样本的数量可以仅与重采样滤波器的延迟的一部分相对应。
那么,在对重采样延迟的适配是每个信号块进行一次的情况下,可以通过重采样在不同的重采样配置(包括用于此目的的FIR滤波器)之间容易地从一个块切换到另一个块或从一个帧切换到另一个帧或者从在某一采样频率下的给定帧的直接编码切换到下一个帧的编码,或者反之亦然。
以下提及的各个具体实施例可以被单独地或彼此组合地添加至以上所定义的重采样方法的各个步骤中。
在一个简单实施例中,通过自适应线性预测进行确定的步骤包括以下步骤:
-获得具有预定阶数的线性预测滤波器的多个系数;
-通过将所获得的该预测滤波器应用于为空值的激励信号来获得多个未来信号样本。
在一个具体实施例中,该线性预测滤波器的这些系数是通过读取在编码步骤或解码步骤中所存储的多个参数而获得的。
因此,当编码模块(独立于重采样装置)包括已经确定预测滤波器的参数的LPC分析时,不需要在重采样方法中重新计算这些参数。仅足以读取已经存储(已量化或未量化)的参数。
在另一个实施例中,线性预测滤波器的这些系数是通过分析至少根据该当前块中的多个样本中获得的。
然后,在重采样装置中直接完成LPC分析。
在一个示例性实施例中,对已经执行了预加重处理的音频信号执行该线性预测。
该预加重使得可以确保定点表示法实现方式中的更好的数字稳定性,尤其是对于具有较强斜率动态和频谱动态的信号。其减小了信号的频谱动态,从而,信号的功率在频带上的分布在预加重之后变得更加均匀。后预加重建模参数具有较低动态,并且更容易确保系统的稳定性并且还更容易使用具有定点表示算术的这个模型来实现该算法。
在可能的实施例中,该自适应线性预测是来自以下方法之一的预测:
-短期线性预测;
-长期线性预测;
-短期线性预测与长期线性预测的组合;
-擦除帧隐藏过程。
因此,任何更加精确或更不精确的预测类型对于该方法的实现方式而言是可能的,同时确保了就有利的信噪比而言的有效性。
本发明目标还在于一种用于在音频信号编码器或解码器中对音频信号进行重采样的装置。该装置为使得其包括:
-自适应线性预测模块,该自适应线性预测模块适用于针对每个信号块确定根据所选择的重采样延迟限定的未来信号样本的数量;
-模块,该模块用于至少根据该当前块的多个样本以及所确定的多个未来信号样本而构建重采样支持向量;
-重采样滤波器,该重采样滤波器应用于该重采样支持向量中的这些样本。
这种装置提供了与其所实现的前述方法相同的优点。
在一个具体实施例中,该自适应线性预测模块与包括在该编码器或解码器的预测编码或解码模块中的预测分析模块相协作。
从而,该重采样装置的复杂度得到降低,因为不需要包括任何LPC分析模块。从编码模块或解码模块的分析模块中所获得的参数在编码或解码中被存储并且从而可以用于重采样。
本发明目标还在于一种包括至少一个如所述的重采样装置的音频信号编码器和解码器。
在一个具体实施例中,该编码器或该解码器包括重采样装置,该重采样装置使用至少两个具有不同延迟的重采样滤波器,这些滤波器中的至少一个滤波器是根据如前所述的方法实现的,对于该方法,所述确定该未来信号样本的数量是根据所使用的这两个重采样滤波器的延迟差来进行的。
由于重采样滤波器经常与不同的编码模式相关联,本实施例使得可以容易地从一种编码模式切换到另一种编码模式,而没有任何可听到的伪信号。
本发明的目标在于一种包括代码指令的计算机程序,当由处理器执行这些指令时,这些代码指令用于实现如所述的重采样方法的各个步骤。
最后,本发明涉及一种处理器可读存储介质,该处理器可读存储介质合并到或不合并到该重采样装置中、可能地可移除的、存储实现如前述的重采样方法的计算机程序。
附图说明
通过阅读以下仅作为非限制性示例给出并且参照这些附图所作出的描述,本发明的其他特征和优点将变得更清晰明显,在附图中:
-图1展示了如前所述的现有技术方法中的重采样滤波器的脉冲响应;
-图2展示了如前所述的用零补偿延迟的现有技术方法中的重采样滤波器的脉冲响应;
-图3展示了根据本发明的实施例的包括重采样装置的示例性音频信号编码器;
-图4a以流程图的形式展示了根据本发明的实施例的重采样方法的步骤;
-图4b以流程图的形式展示了根据本发明的重采样方法的变体实施例的步骤;
-图5a以流程图的形式展示了根据本发明的实施例的预加重因数的确定步骤的细节;
-图5b以流程图的形式展示了根据本发明的实施例的线性预测步骤的细节;
-图6展示了本发明的实施例中所使用的分析窗口的形式;
-图7a至图7l针对有待重采样的当前信号帧之后的不同样本位置示出了通过应用于在AMR-WB编码器中实现的现有技术采样方法的测试信号与根据本发明的第一和第二实施例的重采样方法的测试信号而获得的根据中心频率变化的信噪比的比较;
-图8a至图8c针对有待重采样的当前信号帧之后的不同样本位置示出了根据在AMR-WB编码器中实现的现有技术采样方法的三种不同的重采样频率变化情况与根据本发明的第一和第二实施例的重采样方法的三种不同重采样频率变化情况的信噪比的比较;并且
-图9展示了根据本发明的实施例的音频信号解码器的包括重采样装置的示例;
-图10展示了根据本发明的实施例的重采样装置的物理表示。
具体实施方式
图3展示了根据本发明的实施例的音频编码器的包括重采样装置300的示例。
这里所展示的编解码器是在8kHz、16kHz、32kHz或48kHz的输入和输出采样频率下操作的音频信号(单)、多比特率(其中,比特率设定为从 7.2kbit/s至128kbit/s)的编码器。首先,兴趣集中在图3中所表示的编码器部分,稍后结合图9描述相关联的解码器。
输入信号被分成多个20毫秒帧(块310),每个帧可以在被多路复用模块313多路复用之前根据CELP类型(309)的时域(TD)方式或根据MDCT 类型(块312)类型的频域(FD)方式来进行编码。这里,认为CELP和 MDCT类型的编码对于本领域的技术人员而言是已知的。这里没有详述对模式的选择(块311)——其包括对内部编码频率的选择。
在这个就比特率和采样频率而言比较灵活的编解码器中,在频率“fOut” (Out代表输出)下对频率“fIn”(In代表输入)的多种重采样配置是必要的。在这里所描述的实施例中,下面在表1中列出了所使用的各种配置:
Figure BDA0000953014160000101
表1
在这个表中,粗体频率值指示编解码器的“外部”频率(也就是说,输入和/或输出频率),而其他频率值是用于以与仅具有一个16kHz上的外部频率和一个12.8kHz上的内部频率的AMR-WB编码相类似的方式来对信号的低频带进行编码的“内部”采样频率。“filt_lenin”表示滤波器的长度,“fac_num”表示上采样因数,而“fac_den”表示下采样因数。
不失一般性地,因为被称为“窗口方法”的常规方法涉及到基数正弦 (sin(x)/x)的加窗,所以根据该常规方法在这里所展示的示例中设计FIR滤波器。例如,按照以下所解释的那样来设计FIR滤波器。
例如,用以下matlab命令获得滤波器f_5_8_129:
f_5_8_129=[0 0 0 0 fir1(248,(3775/32000),hanning(249))*4.999895 0 00 0];
其中,在64KHz下的截止频率(-6dB)为3775Hz。
这些系数在8000Hz被用作具有16个系数的滤波器(即,在64000Hz 下128个系数)并且在12800Hz下被用作具有24个系数的滤波器(即,在 64000Hz下120个系数,忽略最后的那些值)
用以下matlab命令获得滤波器f_12_180:
ftmp=fir1(358,1/12,hanning(359));
f_12_180=[0ftmp/ftmp(180)0];
其中,在192kHz下的截止频率(-6dB)为8000Hz。
用以下matlab命令获得滤波器f_15_180:
ftmp=fir1(358,1/15,hanning(359));
f_12_180=[0ftmp/ftmp(180)0];
其中,在192kHz下的截止频率(-6dB)为6400Hz。
当然,在本发明的变体中,可以使用其他FIR滤波器设计方法。
不失一般性地,这里通过在编码算法中使用2个内部频率(12.8kHz和 16kHz)来证明这些转换配置是合理的。这里既没有详述选择内部采样频率 (12.8kHz或16kHz)的方,也没有详述选择有待采用的编码类型(块311) 的方式。这超出了本发明的范围。然而,应牢记的是,针对编解码器的同一个输入和/或输出频率,可以在每个帧内独立地进行对内部频率的选择,例如,这意味着可以在帧N处使用根据配置i重采样,可以在帧N+1处使用根据不同于i的配置j(但具有相同的“外部”频率)重采样,并且在帧N+2处可以不使用重采样,这意味着在输入频率fIn下对帧进行直接编码——实际上,在优选实施例中,最后这种情况仅在以下情形下才是有可能的:
如果所选择的编码方式是FD类型的编码,其始终在频率fIn下操作。
如果所选择的编码模式是TD编码并且输入频率fIn与内部TD编码频率相对应。
然而,在本发明的变体中,将能够强制FD类型的编码在与TD编码相同的内部编码频率下操作,以方便其切换。
应注意的是,此处未描述TD编码到FD编码的转变(反之亦然),因为这超出了本发明的范围。
当输入频率fIn的采样频率大于内部编码采样频率时,编码算法TD COD 或FC COD提供对高频带(频率大于6.4kHz或7kHz)中的信号的编码,此处未详述对高频带的这种编码。
从而,编码器包括重采样装置300,该重采样装置包括可参数化的重采样滤波器,因为该重采样滤波器可以使用多种FIR滤波器系数配置(块305) 操作。在下文所描述的实施例中,重采样滤波器是多相滤波器。本发明还适用于通过FIR滤波器进行的其他类型的重采样实现方式,如例如不涉及多相表示的具有非最优复杂度的重采样滤波器。而且,本发明还适用于其他采样频率转换比。
除了前三种配置(1号至3号)以外,所有其他配置使用具有0.9375毫秒延迟(在12.8kHz下12个样本、在16kHz下15个样本、在32kHz下30 个样本、和在48kHz下45个样本)的FIR类型的多相滤波器。
配置4至13中的多相重采样滤波(块305)是根据源自ITU-T G.718编解码器(参见“modify_fs.c”文件中G.718源代码的实现方式)中所定义的通过FIR进行多相重采样的算法执行的。
这里,兴趣集中在涉及8000Hz的“外部”采样频率的前3种配置上。对于这些配置,较长的FIR滤波器对具有充分的滤波性能而言是有必要的,特别是保证对可以在耳朵非常敏感的频率下发生的频谱图像或频谱混叠的充分抑制。
在不使用本发明的重采样方法的实现方式的情况下,这3种配置针对从 8000Hz至12800Hz的重采样情况在12.8kHz通常将产生25个样本延迟、针对从12800Hz至8000Hz的重采样以及从16000Hz至8000Hz的重采样情况在8kHz通常将产生15个样本延迟。一般而言,在输出采样频率下的延迟被四舍五入成低于filt_len*fac_num/fac_den的整数,其中filt_len是滤波器的长度,fac_num是上采样因数,并且fac_den是下采样因数(同样参见表1),但其还将有可能考虑具有半个样本的一小部分的延迟。
根据本发明并且在下文参照图4a和图4b所描述的重采样方法在重采样装置300中的实现方式使得在这个编码器情况下可以:
-限制配置1至3的有效延迟以获得与其他转换配置4至13(其具有 0.9375毫秒延迟)完全相同的延迟。为此,该重采样装置包括自适应线性预测模块(301),该自适应线性预测模块适用于针对每个信号帧确定根据所选择的重采样延迟限定的未来信号样本的数量。将注意的是,样本的数量理论上是可参数化的,但是实际上,其对于所定义的编解码器配置保持不变。
-能够对所定义的所有重采样配置进行切换,即使相关联的理论延迟不同。
在表1中没有描述的本发明的具体实施例中,编码器可以包括产生不同延迟的多个(至少两个)多相FIR重采样滤波器。例如,在多比特率编码器中,对于始终在16000Hz下的输入,可以根据以下比特率使用2个不同的内部频率编码核心:对于较低比特率为8000Hz,而对于较高的比特率为 12800Hz。为了具有足够的滤波性能水平,特别是保证对频谱图像或频率混叠的充分抑制,从16000Hz至8000Hz的重采样需要比从16000Hz至12800 Hz的重采样更长的FIR滤波器。因此,这两种滤波具有不同的延迟。为了能够在这两个编码模式之间进行无伪信号切换(在比特率变化的情况下),这些延迟必须是调谐的(使得相等)。如果重采样FIR滤波器的长度从16000 Hz减少到8000Hz,则质量通常降低,因为频谱混叠将不会得到足够好的减弱并且将变得可听见。如果重采样FIR滤波器的长度从16000Hz增加到12800Hz,或者额外延迟被应用于重采样的样本,则编码/解码的总延迟增加,这会妨碍交互性。
与原始滤波相比,通过使用本发明的重采样方法,可以将较长的FIR滤波的延迟减少到较短的滤波延迟的水平,而没有显著的质量损失。实际上,模拟结果表明正常滤波与根据本发明的低延迟滤波之间信噪比非常高。通过听测试还证实了:使用正常滤波与根据本发明的低延迟滤波所获得的信号之间的差异是不可听到的。
从而,在这里所呈现的情况下,编码器(或甚至解码器)包括两个具有不同延迟的多相重采样滤波器。这些重采样滤波器中的至少一者是如先前根据本发明所描述的那样实现的滤波器,其中,未来信号样本的数量是根据在这两个装置中使用的这两个重采样滤波器的延迟差确定的。
例如,在表1中,配置3至7可以用于16000Hz的外部频率以及8000Hz 和12800Hz的内部频率。在这种情况下,可以看出,在输入频率下的延迟 (filt_len)分别是30和15个样本;因此,需要对差异(即,在16000Hz 下15个样本)进行预测以便能够将配置3的延迟减小到配置7的延迟的水平。稍后详述的本发明将能够用来减小配置3的延迟并且能够在配置3与7 之间互通地交替,因为它们当时具有相同的15个样本的延迟。
为了还原到图3的编码器以及表1中所列出的配置的示例:
在从8000Hz到12800Hz的重采样的情况下,需要将延迟从25个样本减小到12个样本,即,在12800Hz下生成plus_sample_out=13个额外样本,这使得在8000Hz下的plus_sample_in=8个样本的外插成为必要。
针对从12800Hz到8000Hz的重采样的情况,需要将延迟从15个样本减小到7个样本,即,在8000Hz下生成plus_sample_out=8个额外样本,这使得在12800Hz下的plus_sample_in=12个样本的外插成为必要。
针对从16000Hz到8000Hz的重采样的情况,需要将延迟从15个样本减小到7个样本,即,在8000Hz下生成plus_sample_out=8个额外样本,这使得在16000Hz下的plus_sample_in=15个样本的外插成为必要。应注意的是,在8000Hz下,0.9375毫秒对应于已经向下取整为7个样本的7.5个样本。
图3中所展示的重采样装置300接收音频信号块作为输入,并且在本实施例中,它们是由块310所接收的20毫秒帧,该块在存储器中还具有来自过去帧的一组样本。
此重采样装置包括自适应线性预测模块(301),该自适应线性预测模块适用于针对每个信号块或信号帧确定根据所选择的重采样延迟限定的多个未来信号样本。
此预测数量的未来信号样本用来确定由模块304所定义的用于构建重采样支持向量的重采样支持。此重新采样支持向量是例如可能的过去信号样本、来自当前块或当前帧的样本以及由模块301预测的未来信号样本的连结。过去信号样本充当重采样FIR滤波器的存储器。
虽然如此,此支持向量的构造还包括以下实现方式:
-过去信号可以存储在重采样FIR滤波器的存储器中并且因此不直接与当前帧中的样本连结(但是当前帧的信号确实是包含过去信号的这些存储器的延续)
-只要正确地更新必要的存储器,所预测的未来信号还可以存储在单独的向量中并且其重采样可以与当前帧中的信号的重采样分开来完成。在对未来信号分开进行重采样情况下,重采样滤波器的存储器被当前帧中的最新样本初始化。再一次地,尽管存在这种分离,所预测的未来信号确实是当前帧中的信号的延续。
在本文件中,不失一般性地,术语“支持向量的构造”还涵盖在信号没有在同一向量中相继被实际拷贝而是存储在不同的向量中的情况。
然后,滤波器305应用于此重采样支持向量以获得在所希望的输出频率下重采样的信号。
线性预测模块301可以包括短期预测分析模块302(LPC),该短期预测分析模块适用于确定稍后关于图4a进行描述的线性预测滤波器的系数。在另一个有利实施例中,这种LPC分析模块(302b)可以包括在TD类型的时间编码(例如,CELP编码)的预测编码模块309中。从而,同一分析模块既可以用来预测对于重采样装置有用的未来样本,也可以用于在传输之前对信号进行编码。因此,这降低了与编码模块的分析模块相协作的重采样装置的复杂度。
模块301进一步包括预测滤波模块303,通过对空信号进行1/A(z)滤波来获得一组未来样本buffut
图4a因此展示了根据本发明的实施例的重采样方法的主要步骤。
这种方法的步骤使用在输入采样频率fIn下的lg个样本的帧(作为输入 (BufIn))来实现。还存在通过存储器对此输入信号中的过去样本的访问。从此输入信号开始,步骤E401根据所希望的延迟确定有待预测的样本数量 plus_sample_in,并且通过线性预测预测未来信号样本的这个数量。这种预测的结果在构建重采样支持向量的步骤E402中连结在输入信号上(用于存储器的当前帧和过去帧)。因此,在一个实施例中,这个支持向量是过去信号的多个样本、当前帧的多个样本以及所确定的多个未来信号样本的连结。
在步骤E403中,通过将例如具有有限脉冲响应(FIR)的重采样滤波器应用于重采样支持向量的样本上来执行重采样滤波,并且重采样的信号bufout作为在输出重采样频率fout下的输出而被供应。
于是,多种情况是有可能的:
-在连续逐帧使用情况下(lg个样本,作为输入),仅计算最后的lg_out= lg*fac_num/fac_den样本。
-在必须获得更多样本的情况下(每个具有未来信号的帧使用一次)(作为输入的lg+plus_sample_in个样本),与在AMR-WB标准的编码器中的情况一样,计算lg_out+plus_sample_out个样本,其中 plus_sample_out=plus_sample_in*fac_num/fac_den。实际上,在AMR-WB编码器中,重采样当前20毫秒帧并且重采样15个额外样本;第一步骤替代来自在第二步骤中所执行的重采样的误差。在本示例中,lg=320, plus_sample_in=15。
-例如,在两种编码模式之间切换的情况下,当对例如存储器(信号的一片或一块)进行重采样时,该用法还可以是一次性的。在这种情况下,重采样输入不是帧(例如,20毫秒)而是信号块。为了应用本发明,重要的是应注意,具有或者有待转换的块的过去或者已经从过去预计算得到的LPC 模型是至关重要的——将注意的是,在已经使用线性预测进行了TD类型的编码的情况下,通常可以将在TD编码器和/或解码器中所计算和/或编码的参数(LPC或等效系数)存储在每个帧中。因此,在本发明的变体中,这些 LPC参数将能够得到重新使用,这简化了块302的实现方式,因为其当时涉及到存储值(可能已量化)的简单查找。
并行地,在E405中更新重采样滤波器的存储器。再一次地,多种情况是有可能的:
-在连续使用更多有待生成的样本的情况下,与AMR-WB标准中的情况一样,对输入帧中的最后的mem_len个样本进行存储,而没有预测的样本: mem_sig(0…mem_len-1)=帧(lg-mem_len…lg-1),
当重新开始重采样后,在输出采样频率下获得样本替代通过使用所预测的输入信号获得的样本。
-在连续逐帧使用的情况下,通过使用所预测的输入信号获得的样本没有被替代,在输出采样频率下仅计算lg_out样本。如果认为新的帧在索引为 lg+plus_sample_in的样本处开始,则重采样FIR滤波的存储器由过去的索引样本(lg+plus_sample_in-mem_len…lg+plus_sample_in-1)组成,其中,这个存储器的一部分、索引(lg…lg+plus_sample_in-1)的一部分可以是真实信号或预测的信号。通过使用真实信号,第一样本等于使用使用无预测的滤波(结果被认为是最优的)所获得的那些样本,但在前一个帧期间使用预测所获得的最后样本与使用真实信号所获得的第一样本之间,可以具有较小间断。在使用存储器中的预测信号的情况下,没有间断,但微小误差遍布于其他filt_len样本。在优选实施例中,使用第一解决方案,因为这个微小的间断是听不到的。
-在一次性使用的情况下,在重采样之后,不必对存储器进行更新,但在重采样操作之前必须使用相应的过去输入信号来初始化重采样存储器。
在一个变体中,不对直接在当前帧中的信号而是对从通过形式为1-μ.z-1的滤波器对当前帧进行的滤波所获得的预加重信号进行用来预测未来信号的LPC分析,其中,μ被自适应地计算或者被设定为预定值。图4b中展示了本变体。与图4a相比,增加了确定预加重因数μ的步骤E406。通过使用此因数μ,在此步骤E407中通过1-μ.z-1滤波对输入信号进行预加重。应注意的是,这种滤波使得存储器样本成为必要,因此,在本变体中,存储器的大小要增加1。预加重信号是步骤E401和E402的输入。然后,通过1/(1-μz-1) 滤波通过使用步骤E408中的相同因数μ来对连结的信号进行去加重。应注意的是,对于给定信号,LPC分析之前的去加重之后接着通过相同的因数μ进行的去加重的排序是互通的,也就是说,精确地检索输入信号。因此,如果在预加重之前存储信号,则仅预测部分必须被去加重,以便降低计算复杂度。然后,此去加重预测部分连结在所存储的信号上以形成重采样支持向量。
存在多种技术用于确定预加重因数μ,该因数的值在-1与1之间。
-μ可以是不变的,例如,μ=0.68
-μ可以是不变的,取决于输入采样频率
-μ根据对频谱的倾斜的分析可以是自适应的(从现有技术已知的方法)。
图5a展示了图4b中的此确定预加重因数的步骤E406。在步骤E501中,通过分析窗口对该信号进行加窗。在步骤E502,计算阶数M=1(r(0))和r(1)) 的自相关,并且在步骤E503中将噪声阈值(或本底噪声)应用于r(0),以避免低水平输入信号的算术问题。
例如,在ITU-T建议G.729第3.2.1节中描述了这些噪声阈值的应用步骤、自相关步骤。
针对移位k=0,…,M,具有长度为L的窗口的自相关r(k)的计算形式如下:
Figure BDA0000953014160000171
其中,如果长度L大于当前帧的长度,sw(n)=s(n).w(n)和s(n)对应于当前帧中的信号的和可能过去信号的最后L个样本。
在优选实施例中,使用LPC窗口w(n)长度L=240,图6中展示了其示例。
可以看出,这个窗口的形式是对称的,其中,权重连结在其支持的末尾 (在最近的样本上)。例如,以下给出了构建这个L=240的窗口的matlab 命令:
L1=L-8;
for i=0:(L1-1)
w(i+1)=0.54-0.46*cos(2*i*pi/(2*L1-1));
end
for i=L1:(L-1)
w(i+1)=cos((i–L1)*2*pi/(31));
end
在本发明的各个变体中,在不改变本发明的性质的情况下,将能够使用 LPC阶数M的其他值、LPC窗口的其他形式和长度。将能够通过将第一相关系数乘以一个大于1的因数或者通过将这个第一系数的值限制为最小值来以常规方式来使用“本底噪声”。
最后,在步骤E504中,按照μ=r(1)/r(0)计算该因数。
图5b更详细地描述了根据本发明的图4的进行线性预测以确定特征样本的步骤E401的实施例。
例如,此步骤E401可以包括:从当前帧中的样本以及前一帧的可能样本中的那些样本计算具有预定阶数的线性预测滤波器的步骤E506;以及通过将所计算的预测滤波器应用于为空值的激励信号来获得未来信号样本的步骤E507。
图5a和图5b的步骤E501、E502和E503相类似,但是具有不同的预测阶数M。其他参数(如分析窗口的形式或长度或甚至“噪声本底”)也可以是不同的。在这两种情况下,常见的模块可以用来降低复杂度。
更确切地,在步骤E501中,对输入信号(预加重的或未预加重的)进行加窗。例如,可以使用与图6中所展示的窗口相同类型的窗口。如例如在 G.729标准的第3.2节中所描述的那样,在E502中以所选择的阶数(在该示例中,M=10)计算自相关函数,并且在步骤E503中将本底噪声应用于r(0)。
在步骤E505中,执行被称为“滞后加窗”(本领域的技术人员已知的一种方法)的步骤,其在G.729标准的第3.2.1节中同样进行了特别描述。
此针对输入采样频率(fIn)进行“滞后加窗”的步骤形式如下:
r(i)=r(i)*wlag(i),i=0,…,M
其中,系数wlag(i)定义如下:
Figure BDA0000953014160000191
其中,fs=fIn是有待采样的信号的频率,并且其中,例如f0=60Hz。
在步骤E506中,(由图3中的模块302实现),阶数为M的线性预测滤波器A(z)的系数A[i](i=0,…,M)通过如参照G.729的第3.2.2节或AMR-WB 标准的第6.4.3节所描述的莱文森-德宾算法进行计算。在优选实施例中,使用LPC阶数M=10。
在步骤E507(由图3的模块303实现)中,合成滤波器1/A(z)应用于空信号从而得出对未来信号样本的预测。
针对在长度为lg(i=lg…lg+plus_sample_in-1)的帧的末尾的 plus_sample_in个样本,通过使用空输入(滤波器激励信号)的1/A(z)滤波以递归方式执行这种预测:
Figure BDA0000953014160000192
在本发明的变体中,将能够使用其他用于计算线性预测系数的方法,例如,将可以使用例如在从现有技术已知的SILK编码器中实现的伯格法。
在另一个变体中,将能够通过LMS(最小均方)或RLS(递归式最小二乘)型自适应滤波方法来估计线性预测系数。
在另一个替代方案中,将能够直接从使用LPC预测(302b)对TD类型的编码器(309)中甚至在FD编码器中的信号执行的对相关联参数的分析和/或量化中获得LPC系数,假定在FD编码器中执行线性预测。
例如,在AMR-WB编解码器的CELP解码器中,每个子帧中存在多个 LPC系数(具有阶数16)并且尤其可以使用在最后的子帧中解码的LPC系数来预测未来解码信号并且从而消除CELP解码器的重采样延迟。
在另一个变体中,步骤E507中的空激励(空输入)可以被例如通过激励域中的基音预测来预测的激励所替代。
在本发明的其他变体中,(短期)线性预测将被信号域中的(长期)基音预测所替代,这种预测可以是分级的或多抽头的。
将注意的是,替代时间方式,将可以在频域中执行预测;然而,频率域中的这种替代性方式需要分析变换(例如,FFT)、未来频谱预测,例如,通过最重要的频谱射线的相位的振幅和连续性的重复以及逆向合成变换或正弦合成;这种替代方案通常比前述时间方法更加复杂,由于频率分析必须具有足够长以具备足以标识频谱射线(音调)的频率分辨率的时间支持,情况更是如此。当目的是外插有限数量的样本(小于帧长度)时,这种方法并不理想。
在又另一个实施例中,前述自适应线性预测可以由擦除帧隐藏法所替代,以便通过更成熟的信号模型来外插未来信号。例如,在以EP1 316087 编号公开的欧洲专利中描述了这类技术。
在本发明的其他变体中,通过FIR滤波器进行重采样将能够由其他IIR 滤波或多项式插值重采样方法所替代。在这种情况下,原理依然相同:预测未来信号,并且通过考虑未来信号来应用重采样。在一个实施例中,考虑2 种具有不同延迟的重采样配置的情况,并且本发明使得可以将最长延迟变成最低延迟值。
为了能够证实先前在从8000Hz重采样至12800Hz的示例中所述的根据本发明的方法的低延迟重采样的有效性,使用由10条正弦曲线的混合所组成的测试信号,其频率每秒都在发生变化。对于第i秒的信号,已经在区间[fe中心(i)-600,fe中心(i)+600]和fe中心(i)=500+100*i Hz(i=1…28)中围绕中心频率fe中心(i)随机选择了这些正弦曲线的频率。
图7a至图7l表示AMR-WB中现有技术的重采样方法(虚线)、根据本发明的使用具有20个样本的分析窗口的阶数为M=4的预测滤波器的方法的重采样(点划线)与根据本发明的使用具有240个样本分析窗口的阶数为 10的线性预测滤波器的方法的重采样(实线)之间的比较结果。
这些图表示根据测试信号的中心频率的信噪比。
每张图与样本相对于使用常规滤波获得常规帧的末尾的不同位置相对应(其对应于图2中的编号#1,…,#12)。例如,图7a表示在常规帧的末尾之后的第二位置上的样本的信噪比(SNR)。图7b表示在当前帧之后的第3 位置上的所预测的样本的信噪比等。因此,图7l表示在当前帧之后的第13 位置上的所预测的样本的信噪比。
可以观察到,SNR随着位置的增加而减小,因为在滤波过程,越来越多地使用预测样本,并且对于同一位置,SNR随着中心频率的增加而减小,因为高频率不是那么可预测的。然而,在所有情况下,观察到的是,根据本发明的方法(甚至使用较低预测阶数)比AMR-WB编码器中所使用的方法明显更高效。
使用低阶预测的优点是其复杂度较低并且计算的实现方式容易,尤其是用定点表示算术法时。阶数越高,复杂度增加越大,同时,确保滤波器的稳定性变得约困难。
图8a至图8c在非常宽的语言信号基础上示出了相同类型的结果。其中,针对以下三种不同的情况,SNR被视为样本的位置的函数:图8a中从8000 Hz至12800Hz、图8b中从12800Hz至8000Hz、并且图8c中从16000Hz 至8000Hz。再一次地,根据本发明的算法比起现有技术(AMR-WB)中所使用的算法明显更高效,即使是使用较短窗口使用较低预测阶数。
图9展示了根据本发明的包括重采样装置300的音频解码器的示例。该重采样装置与参照图3所描述的重采样装置相同。
这里展示的解码器是在8kHz、16kHz、32kHz或48kHz的输出采样频率下操作的(单)音频信号、多比特率(其中,比特率设定为从7.2kbit/s 至128kbit/s)的解码器。
基于接收并多路复用(块901)的帧,输出在使用线性预测(902b)的 CELP类型(902)的时分解码器(TD DEC)的输出与频域解码器(FD DEC) 的输出之间切换(904)。
图10表示根据本发明的重采样装置300的硬件实施例的示例。后者可以被制成音频信号编码器、解码器的集成部分或者接收音频信号的设备项的集成部分。
这种类型的装置包括与存储器框BM协同操作的处理器PROC,该储存框包括存储设备和/或工作存储器MEM。
这类装置包括适用于接收采样频率fIn下的音频信号帧BufIn的输入模块 E。
其包括适用于传输在采样频率fout下的采样音频信号帧Bufout的输出模块S。
存储器块可以有利地包括计算机程序,该计算机程序包括多条代码指令,当这些指令被处理器PROC执行时,这些代码指令用于实现在本发明的意义内的重采样方法的步骤,并且特别是以下步骤:通过自适应线性预测确定未来信号样本的数量,此数量是根据所选择的重采样延迟所限定的;至少根据该当前块的多个样本以及所确定的多个未来信号样本而构建重采样支持向量;将重采样滤波器应用至重采样支持向量中的样本。
通常,对图4a的描述重复了这类计算机程序的算法的这些步骤。计算机程序还可以被存储在存储介质上,其可以由装置的读取器进行读取或者可以被下载到其存储空间中。
通常,存储器MEM存储实现该方法所必需的所有数据。

Claims (11)

1.一种用于在音频信号编码或解码装置中对音频信号进行重采样的方法,其特征在于,该方法针对每个有待重采样的信号块包括以下步骤:
通过自适应线性预测来确定未来信号样本的数量,此数量是根据所选择的重采样延迟来限定的;
至少根据当前信号块的多个样本以及所确定的多个未来信号样本而构建重采样支持向量;
将重采样滤波器应用于该重采样支持向量的多个样本以形成被重采样的音频信号;以及
输出被重采样的音频信号以用于传输和在存储器中存储中的至少之一。
2.如权利要求1所述的方法,其特征在于,进行确定的步骤包括以下步骤:
获得具有预定阶数的线性预测滤波器的多个系数;
通过将线性预测滤波器应用于为空值的激励信号来获得多个未来信号样本。
3.如权利要求2所述的方法,其特征在于,获得线性预测滤波器的这些系数的步骤包括读取在对音频信号进行编码或解码期间由编码或解码装置存储的多个参数的步骤。
4.如权利要求2所述的方法,其特征在于,获得线性预测滤波器的这些系数的步骤包括分析至少当前信号块的多个样本的步骤。
5.如权利要求1所述的方法,其特征在于,进一步包括如下的步骤:对音频信号执行预加重处理以获得被处理的音频信号,其中对被处理的信号音频信号执行自适应线性预测。
6.如权利要求1所述的方法,其特征在于,自适应线性预测是从以下方法之一选择的预测方法:
短期线性预测;
长期线性预测;
短期线性预测与长期线性预测的组合;
擦除帧隐藏过程。
7.一种用于在音频信号编码器或解码器中对音频信号进行重采样的装置,其特征在于,该装置包括:
自适应线性预测模块,自适应线性预测模块适用于针对信号块确定根据所选择的重采样延迟限定的未来信号样本数量;
模块,该模块用于至少根据当前信号块的多个样本以及所确定的多个未来信号样本而构建重采样支持向量;
重采样滤波器,该重采样滤波器应用于该重采样支持向量的这些样本以形成被重采样的音频信号;以及
存储器,被配置为存储被重采样的音频信号。
8.如权利要求7所述的装置,其特征在于,自适应线性预测模块与包括在该编码器或解码器的该预测编码或解码模块中的预测分析模块相协作。
9.如权利要求7所述的装置,其特征在于,进一步包括进一步的重采样滤波器以包括-两个重采样滤波器,该两个重采样滤波器包括所述重采样滤波器和所述进一步的重采样滤波器,该两个重采样滤波器具有不同的延迟,对该两个重采样滤波器中的至少一个滤波器进行实现以使得未来信号样本的数量是根据该两个重采样滤波器的延迟差来确定的。
10.如权利要求7所述的装置,其特征在于,编码器和解码器中的至少一个包括进一步的重采样滤波器,所述重采样滤波器和所述进一步的重采样滤波器具有不同的延迟,对所述重采样滤波器和所述进一步的重采样滤波器进行实现以使得未来信号样本的数量是根据所述重采样滤波器和所述进一步的重采样滤波器的延迟差来确定的。
11.一种非暂态处理器可读存储介质,该非暂态处理器可读存储介质上存储有包括多条代码指令的计算机程序,代码指令用于当所述指令被由音频信号编码或解码装置的处理器执行时执行重采样方法,其中代码指令配置所述处理器以执行如下步骤:
对音频信号进行重采样,针对每个有待重采样的信号块包括以下步骤:
通过自适应线性预测来确定未来信号样本的数量,此数量是根据所选择的重采样延迟来限定的;
至少根据当前信号块的多个样本以及所确定的多个未来信号样本而构建重采样支持向量;以及
将重采样滤波器应用于该重采样支持向量的多个样本以形成被重采样的音频信号;以及
输出被重采样的音频信号以用于传输和在存储器中存储中的至少之一。
CN201480053813.5A 2013-09-30 2014-09-26 音频信号重采样方法/装置以及音频信号编/解码器 Active CN105684078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710730282.4A CN107481726B (zh) 2013-09-30 2014-09-26 对音频信号进行重采样以用于低延迟编码/解码

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1359456 2013-09-30
FR1359456A FR3011408A1 (fr) 2013-09-30 2013-09-30 Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
PCT/FR2014/052430 WO2015044609A1 (fr) 2013-09-30 2014-09-26 Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201710730282.4A Division CN107481726B (zh) 2013-09-30 2014-09-26 对音频信号进行重采样以用于低延迟编码/解码

Publications (2)

Publication Number Publication Date
CN105684078A CN105684078A (zh) 2016-06-15
CN105684078B true CN105684078B (zh) 2020-03-27

Family

ID=50101931

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201480053813.5A Active CN105684078B (zh) 2013-09-30 2014-09-26 音频信号重采样方法/装置以及音频信号编/解码器
CN201710730282.4A Active CN107481726B (zh) 2013-09-30 2014-09-26 对音频信号进行重采样以用于低延迟编码/解码

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201710730282.4A Active CN107481726B (zh) 2013-09-30 2014-09-26 对音频信号进行重采样以用于低延迟编码/解码

Country Status (21)

Country Link
US (2) US10403296B2 (zh)
EP (2) EP3330964B1 (zh)
JP (2) JP6559658B2 (zh)
KR (5) KR102505501B1 (zh)
CN (2) CN105684078B (zh)
BR (2) BR122017018551B1 (zh)
DK (2) DK3330964T3 (zh)
ES (2) ES2934671T3 (zh)
FI (2) FI3330964T3 (zh)
FR (1) FR3011408A1 (zh)
HR (2) HRP20230094T1 (zh)
HU (2) HUE061442T2 (zh)
LT (2) LT3053163T (zh)
MX (1) MX355959B (zh)
PL (2) PL3330964T3 (zh)
PT (2) PT3053163T (zh)
RS (2) RS63936B1 (zh)
RU (2) RU2756042C2 (zh)
SI (2) SI3053163T1 (zh)
WO (1) WO2015044609A1 (zh)
ZA (1) ZA201602919B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
PL3155617T3 (pl) * 2014-06-10 2022-04-19 Mqa Limited Cyfrowa enkapsulacja sygnałów audio
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
FR3025923A1 (fr) * 2014-09-12 2016-03-18 Orange Discrimination et attenuation de pre-echos dans un signal audionumerique
JP6517924B2 (ja) * 2015-04-13 2019-05-22 日本電信電話株式会社 線形予測符号化装置、方法、プログラム及び記録媒体
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals
WO2017126853A1 (en) 2016-01-21 2017-07-27 Lg Electronics Inc. Display device
US10587294B1 (en) * 2018-09-14 2020-03-10 Viasat, Inc. Digital signal conditioner system
US20210224024A1 (en) * 2020-01-21 2021-07-22 Audiowise Technology Inc. Bluetooth audio system with low latency, and audio source and audio sink thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079296A (zh) * 2006-05-22 2007-11-28 上海奇码数字信息有限公司 音频解码器和音频解码方法
CN101086845A (zh) * 2006-06-08 2007-12-12 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
CN101714379A (zh) * 2008-10-08 2010-05-26 安凯(广州)软件技术有限公司 一种音频重采样方法
CN101743585A (zh) * 2008-04-04 2010-06-16 弗劳恩霍夫应用研究促进协会 采用高质量音高校正的音频处理
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
WO2012103686A1 (en) * 2011-02-01 2012-08-09 Huawei Technologies Co., Ltd. Method and apparatus for providing signal processing coefficients

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6363345B1 (en) * 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
GB2352949A (en) * 1999-08-02 2001-02-07 Motorola Ltd Speech coder for communications unit
FR2813722B1 (fr) 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
WO2002021526A1 (en) * 2000-09-08 2002-03-14 Koninklijke Philips Electronics N.V. Audio signal processing with adaptive noise-shaping modulation
CA2397080C (en) * 2001-08-07 2007-06-12 Dspfactory Ltd. Sub-band adaptive signal processing in an oversampled filterbank
CN1989693B (zh) * 2004-07-23 2012-03-14 天龙马兰士集团有限公司 音频信号输出装置
US7848921B2 (en) * 2004-08-31 2010-12-07 Panasonic Corporation Low-frequency-band component and high-frequency-band audio encoding/decoding apparatus, and communication apparatus thereof
CN101385079B (zh) * 2006-02-14 2012-08-29 法国电信公司 在音频编码/解码中用于知觉加权的设备
CN100485342C (zh) * 2006-03-03 2009-05-06 西安交通大学 机械故障的集成支持向量机混合智能诊断方法
DE602006013359D1 (de) * 2006-09-13 2010-05-12 Ericsson Telefon Ab L M Ender und empfänger
JP2008139447A (ja) * 2006-11-30 2008-06-19 Mitsubishi Electric Corp 音声符号化装置及び音声復号装置
ATE518224T1 (de) * 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
KR20100089772A (ko) * 2009-02-03 2010-08-12 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
CA3209167A1 (en) * 2009-03-17 2010-09-23 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
RU2591661C2 (ru) * 2009-10-08 2016-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Многорежимный декодировщик аудио сигнала, многорежимный кодировщик аудио сигналов, способы и компьютерные программы с использованием кодирования с линейным предсказанием на основе ограничения шума
MY166169A (en) * 2009-10-20 2018-06-07 Fraunhofer Ges Forschung Audio signal encoder,audio signal decoder,method for encoding or decoding an audio signal using an aliasing-cancellation
PL3723090T3 (pl) * 2009-10-21 2022-03-21 Dolby International Ab Nadrpóbkowanie w połączonym banku modułu transpozycji
TR201908598T4 (tr) * 2011-02-14 2019-07-22 Fraunhofer Ges Forschung Bir ses sinyalinin hizalı bir ileriye dönük kısımdan faydalanılarak enkode edilmesi için cihaz ve yöntem.
CN102324229B (zh) * 2011-09-08 2012-11-28 中国科学院自动化研究所 语音输入设备使用异常的检测方法及系统
WO2013056388A1 (en) * 2011-10-18 2013-04-25 Telefonaktiebolaget L M Ericsson (Publ) An improved method and apparatus for adaptive multi rate codec
CN102419981B (zh) * 2011-11-02 2013-04-03 展讯通信(上海)有限公司 音频信号时间尺度和频率尺度缩放处理方法及设备
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
CN103227917B (zh) * 2012-01-31 2016-12-14 华为技术有限公司 解码方法和装置
US20130211846A1 (en) * 2012-02-14 2013-08-15 Motorola Mobility, Inc. All-pass filter phase linearization of elliptic filters in signal decimation and interpolation for an audio codec
EP2830063A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for decoding an encoded audio signal
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
US9620134B2 (en) * 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
CN105765655A (zh) * 2013-11-22 2016-07-13 高通股份有限公司 高频带译码中的选择性相位补偿
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
FR3023036A1 (fr) * 2014-06-27 2016-01-01 Orange Re-echantillonnage par interpolation d'un signal audio pour un codage / decodage a bas retard
US10236006B1 (en) * 2016-08-05 2019-03-19 Digimarc Corporation Digital watermarks adapted to compensate for time scaling, pitch shifting and mixing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079296A (zh) * 2006-05-22 2007-11-28 上海奇码数字信息有限公司 音频解码器和音频解码方法
CN101086845A (zh) * 2006-06-08 2007-12-12 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
CN101743585A (zh) * 2008-04-04 2010-06-16 弗劳恩霍夫应用研究促进协会 采用高质量音高校正的音频处理
CN101714379A (zh) * 2008-10-08 2010-05-26 安凯(广州)软件技术有限公司 一种音频重采样方法
WO2012103686A1 (en) * 2011-02-01 2012-08-09 Huawei Technologies Co., Ltd. Method and apparatus for providing signal processing coefficients
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统

Also Published As

Publication number Publication date
SI3053163T1 (sl) 2023-01-31
BR112016006447B1 (pt) 2021-12-28
FR3011408A1 (fr) 2015-04-03
RU2016117073A (ru) 2017-11-10
JP2018025783A (ja) 2018-02-15
BR112016006447A2 (pt) 2017-08-01
ZA201602919B (en) 2019-04-24
EP3053163B1 (fr) 2022-11-09
KR102514983B1 (ko) 2023-03-29
SI3330964T1 (sl) 2023-01-31
RU2756042C2 (ru) 2021-09-24
HUE061442T2 (hu) 2023-06-28
DK3053163T3 (da) 2023-01-16
KR20170103027A (ko) 2017-09-12
US10403296B2 (en) 2019-09-03
DK3330964T3 (da) 2023-02-06
HUE061430T2 (hu) 2023-06-28
KR20160061420A (ko) 2016-05-31
JP6559741B2 (ja) 2019-08-14
HRP20230101T1 (hr) 2023-03-17
US20170372714A1 (en) 2017-12-28
RU2016117073A3 (zh) 2018-07-06
LT3053163T (lt) 2023-01-10
FI3053163T3 (fi) 2023-03-01
EP3330964A1 (fr) 2018-06-06
KR20230009516A (ko) 2023-01-17
CN107481726A (zh) 2017-12-15
FI3330964T3 (fi) 2023-02-22
BR122017018551B1 (pt) 2022-03-03
MX2016003902A (es) 2016-06-17
RS63936B1 (sr) 2023-02-28
RU2017144520A3 (zh) 2021-04-09
HRP20230094T1 (hr) 2023-03-17
KR102638785B1 (ko) 2024-02-21
LT3330964T (lt) 2023-01-10
KR20210142766A (ko) 2021-11-25
PL3330964T3 (pl) 2023-04-11
KR102505502B1 (ko) 2023-03-03
RS63937B1 (sr) 2023-02-28
JP6559658B2 (ja) 2019-08-14
EP3330964B1 (fr) 2022-11-09
PT3330964T (pt) 2023-01-20
PT3053163T (pt) 2023-01-19
US20160232907A1 (en) 2016-08-11
EP3053163A1 (fr) 2016-08-10
PL3053163T3 (pl) 2023-04-11
ES2935337T3 (es) 2023-03-06
CN107481726B (zh) 2021-07-30
WO2015044609A1 (fr) 2015-04-02
JP2016541004A (ja) 2016-12-28
CN105684078A (zh) 2016-06-15
US10566004B2 (en) 2020-02-18
KR20210142765A (ko) 2021-11-25
KR102505501B1 (ko) 2023-03-03
ES2934671T3 (es) 2023-02-23
MX355959B (es) 2018-05-07
RU2679228C2 (ru) 2019-02-06
RU2017144520A (ru) 2019-02-15

Similar Documents

Publication Publication Date Title
CN105684078B (zh) 音频信号重采样方法/装置以及音频信号编/解码器
JP3954495B2 (ja) 適応ろ波による高周波復元符号化方法の知覚性能の強化方法
JP6641302B2 (ja) 低遅延符号化/復号のための補間による音声信号のリサンプリング
RU2502138C2 (ru) Кодирующее устройство, декодирующее устройство и способ
JP2016541004A5 (zh)
JP5449133B2 (ja) 符号化装置、復号装置およびこれらの方法
KR102557066B1 (ko) 시간적으로 불일치된 신호들에 대한 오디오 프로세싱
EP0592151B1 (en) Time-frequency interpolation with application to low rate speech coding
JP2005528647A (ja) 合成発話の周波数選択的ピッチ強調方法およびデバイス
KR20070121254A (ko) 광대역 부호화 및 복호화 방법 및 장치
CN106031038B (zh) 根据帧对由可变采样频率中断的音频信号进行重采样
JP3749838B2 (ja) 音響信号符号化方法、音響信号復号方法、これらの装置、これらのプログラム及びその記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170801

Address after: Holland Ian Deho Finn

Applicant after: Koninkl Philips Electronics NV

Address before: France

Applicant before: Ao Lanzhi

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant