CN110047500A - 音频编码器、音频译码器及其方法 - Google Patents

音频编码器、音频译码器及其方法 Download PDF

Info

Publication number
CN110047500A
CN110047500A CN201910222132.1A CN201910222132A CN110047500A CN 110047500 A CN110047500 A CN 110047500A CN 201910222132 A CN201910222132 A CN 201910222132A CN 110047500 A CN110047500 A CN 110047500A
Authority
CN
China
Prior art keywords
frequency
spectrum
frequency spectrum
line
spectrum line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910222132.1A
Other languages
English (en)
Other versions
CN110047500B (zh
Inventor
斯特凡·德勒
伯恩哈德·格里尔
克里斯蒂安·黑尔姆里希
尼古劳斯·雷特尔巴赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to CN201910222132.1A priority Critical patent/CN110047500B/zh
Publication of CN110047500A publication Critical patent/CN110047500A/zh
Application granted granted Critical
Publication of CN110047500B publication Critical patent/CN110047500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Abstract

提供一种用于对非语音音频信号进行编码以便依据该非语音音频信号产生比特流的音频编码器及方法。音频编码器包括:线性预测编码滤波器和时间‑频率转换器的组合,线性预测编码滤波器具有多个线性预测编码系数,该组合被配置成基于音频信号的帧并且基于线性预测编码系数将音频信号的帧进行滤波且转换进频域以便输出频谱;低频增强器,被配置成基于该频谱来计算经处理的频谱,该经处理的频谱中的表示比参考频谱线更低的频率的频谱线被增强;以及控制装置,被配置成根据线性预测编码系数来控制由低频增强器进行的对经处理的频谱的计算。还提供了用于对包含量化频谱和多个线性预测编码系数的比特流进行译码的音频译码器及方法。

Description

音频编码器、音频译码器及其方法
本申请是申请日为2014年1月28日、申请号为“201480006543.2”、发明名称为“频域中基于LPC进行编码的低频增强”的发明专利申请(其是国际申请号为PCT/EP2014/051585的PCT申请进入中国国家阶段之后的申请)的分案申请。
技术领域
本发明涉及用于对非语音音频信号进行编码以便依据该非语音音频信号产生比特流的音频编码器及方法、用于基于非语音音频信号对比特流进行译码以便依据比特流产生非语音音频输出信号的音频译码器及方法用于对包含量化频谱和多个线性预测编码系数的比特流进行译码的一种对应音频译码器、系统、以及计算机程序。
背景技术
众所周知,非语音信号例如音乐声音在处理上会比人类声带声音更复杂,从而占用更宽的频带。现有技术中最新的音频编码系统诸如AMR-WB+[3]和xHE-AAC[4]为音乐及其它一般非语音信号提供了变换编码工具。此工具通常被称为变换码激励(TCX,transformcoded excitation)并且是基于在频域内被量化且被熵编码的线性预测编码(LPC,linearpredictive coding)残差的称为激发的传输原理。然而,由于在LPC级中使用的有限阶的预测器,在译码信号中,尤其在人类听觉极其灵敏的低频处的译码信号中,会出现伪影。为此,在[1-3]中介绍低频增强及还原(de-emphasis)方案。
所述现有技术的适应性低频增强(ALFE,adaptive low-frequency emphasis)方案将低频谱线在编码器中进行量化之前对其进行放大。具体而言,低频线被分组为频带,计算每一频带的能量,并且找到局部能量最大的频带。基于能量最大的值和位置,使最大能量频带以下的频带被增大,以使得这些频带在后续量化中更精确地被量化。
低频还原——被执行以使ALFE在对应的译码器中逆变(invert)——在概念上极其类似。如在编码器中所进行的,建立低频频带并且确定具有最大能量的频带。与在编码器中不同的是,现在使能量高峰以下的频带衰减。此过程大致恢复初始频谱的线能量。
值得注意的是,在现有技术中,在编码器中频带能量计算是在量化之前执行,即,在输入频谱上执行,然而在译码器中该频带能量计算是在经逆变量化的线上执行,即,在译码频谱上执行。尽管量化运算可被设计成使得频谱能量保持为平均值,但是对于单个频谱线无法保证保持精确的能量。因此,无法使ALFE理想地逆变。此外,在现有技术ALFE的优选实现方式中,在编码器和译码器中都需要平方根运算。期望避免这种相对复杂的运算。
发明内容
本发明的目标在于提供用于音频信号处理的改进理念。更具体地,本发明的目标在于提供用于适应性低频增强和还原的改进理念。
在一个方面中,本发明提供了一种音频编码器,其用于对非语音音频信号进行编码以便依据该非语音音频信号产生比特流,该音频编码器包含:
线性预测编码滤波器和时间-频率转换器的组合,该线性预测编码滤波器具有多个线性预测编码系数,其中该组合被配置成基于该音频信号的帧并且基于该线性预测编码系数将该音频信号的帧进行滤波并且转换进频域,以便输出频谱;
低频增强器,其被配置成基于该频谱来计算经处理的频谱,其中该经处理的频谱中的表示比参考频谱线更低的频率的频谱线被增强;以及
控制装置,其被配置成根据该线性预测编码滤波器的线性预测编码系数来控制由该低频增强器进行的对该经处理的频谱的计算。
线性预测编码滤波器(LPC滤波器)是使用线性预测模型的信息的在音频信号处理和语音处理中使用的用于表示压缩形式的声音的成帧数字信号的频谱包络的工具。
时间-频率转换器是用于尤其将成帧的数字信号从时域转换进频域以便估计信号的频谱的工具。时间-频率转换器可使用改进型离散余弦变换(MDCT,modified discretecosine transform),该改进型离散余弦变换是基于第四型离散余弦变换(DCT-IV)的重叠变换,具有重叠的附加性质:该改进型离散余弦变换被设计成对较大数据集的连续帧执行变换,其中后续帧重叠使得一个帧的后半部分与下一个帧的前半部分重合。除DCT的能量聚集品质之外,此重叠还使得MDCT对于信号压缩应用尤其具有吸引力,这是因为该重叠有助于避免源于帧边界的伪影。
低频增强器被配置成基于频谱来计算经处理的频谱,其中经处理的频谱中的表示比参考频谱线更低的频率的频谱线被增强,使得仅经处理的频谱中所包含的低频被增强。该参考频谱线可基于经验实验来预定义。
控制装置被配置成根据该线性预测编码滤波器的线性预测编码系数来控制由该低频增强器进行的对经处理的频谱的计算。因此,根据本发明的编码器不需要为了低频增强目的而分析音频信号的频谱。此外,因为相同的线性预测编码系数可在编码器中并且在后续译码器中使用,所以适应性低频增强是完全可逆的,而与频谱量化无关,只要线性预测编码系数在由编码器或由任何其它装置产生的比特流中传输至译码器即可。一般而言,线性预测编码系数无论如何必须在比特流中传输,以达到通过相应译码器从比特流重建音频输出信号的目的。因此,比特流的比特率将不会通过如本文所述的低频增强而增加。
本文所述的适应性低频增强系统可以在能够基于每一帧在时域编码与MDCT域编码之间切换的xHE-AAC[4]的低延迟变体、LD-USAC(EVS)的TCX核心编码器中实现。
根据本发明的优选实施例,该音频信号的帧输入至该线性预测编码滤波器,其中经滤波的帧由该线性预测编码滤波器输出,并且其中该时间-频率转换器被配置成基于该经滤波的帧来估计该频谱。因此,线性预测编码滤波器可在时域中操作,以音频信号作为其输入。
根据本发明的优选实施例,该音频信号的帧输入至该时间-频率转换器,其中经转换的帧由该时间-频率转换器输出,且其中该线性预测编码滤波器被配置成基于该经转换的帧来估计该频谱。可选地,但与发明的编码器的具有低频增强器的第一实施例等效地,编码器可基于借助于频域噪声整型(FDNS,frequency-domain noise shaping)产生的帧的频谱来计算经处理的频谱,如例如在[5]中所公开的。更具体地,此处修改工具次序:时间-频率转换器诸如上面所提及的时间-频率转换器可被配置成基于音频信号的帧来估计经转换的帧,并且线性预测编码滤波器被配置成基于经转换的帧来估计音频频谱,该经转换的帧由时间-频率转换器输出。因此,线性预测编码滤波器可在频域(而非时域)中操作,以经转换的帧作为其输入,其中经由乘以线性预测编码系数的频谱表示来应用线性预测编码滤波器。
对于本领域的技术人员明显的是,可以实现这两种方法——在时域中的线性滤波之后进行时间-频率转换与在时间-频率转换之后进行在频域中的经由频谱加权的线性滤波,使得该两种方法是等效的。
根据本发明的优选实施例,该音频编码器包含:量化装置,其被配置成基于该经处理的频谱产生量化频谱;以及比特流产生器,其被配置成将该量化频谱和线性预测编码系数嵌入该比特流中。量化在数字信号处理中是将一大组输入值映射至(可计数的)较小组例如将值舍位至某个精度单位的处理。执行量化的装置或算法函数被称为量化装置。比特流产生器可以是能够将来自不同源的数字数据嵌入整体的比特流中的任何装置。通过这些特征,可容易地产生使用适应性低频增强产生的比特流,其中通过后续译码器仅使用比特流中所包含的信息,适应性低频增强是完全可逆的。
在本发明的优选实施例中,该控制装置包括:频谱分析仪,其被配置成估计线性预测编码系数的频谱表示;最小-最大分析仪,其被配置成估计在另一参考频谱线以下的该频谱表示的最小值和该频谱表示的最大值;以及增强因子计算器,其被配置成基于该最小值并且基于该最大值来计算频谱线增强因子,该频谱线增强因子用于计算该经处理的频谱中的表示比该参考频谱线更低的频率的频谱线,其中经处理的频谱的频谱线是通过将频谱线增强因子施加于该经滤波的帧的频谱的频谱线来增强。频谱分析仪可以是如上所述的时间-频率转换器。频谱表示是线性预测编码滤波器的转移函数,并且可以是但不必一定是与如以上所述用于FDNS的频谱表示相同的频谱表示。频谱表示可根据线性预测编码系数的奇数离散傅立叶变换(ODFT,odd discrete Fourier transform)来计算。在xHE-AAC和LD-USAC中,转移函数可通过覆盖整个频谱表示的32个或64个MDCT域增益来近似。
在本发明的优选实施例中,增强因子计算器系进行配置的方式为在从该参考频谱线至表示频谱的最低频率的频谱线的方向上频谱线增强因子增大。这意味着表示最低频率的频谱线被放大得最多,而与参考频谱线相邻的频谱线被放大得最少。参考频谱线和表示比参考频谱线更高的频率的频谱线根本不增强。这样降低了计算复杂性而未听闻任何缺点。
在本发明的优选实施例中,该增强因子计算器包括第一级,该第一级被配置成根据第一公式γ=(α·min/max)β来计算基础增强因子,其中,α为第一预设值,α>1,β为第二预设值,0<β≤1,min为该频谱表示的最小值,max为该频谱表示的最大值,且γ为该基础增强因子,并且其中该增强因子计算器包括第二级,该第二级被配置成根据第二公式εi=γi’-i来计算频谱线增强因子,其中i’为要增强的频谱线的数目,i为相应频谱线的索引,该索引随着该频谱线的频率而增大,从i=0至i’-1,γ为该基础增强因子且εi为索引为i的该频谱线增强因子。基础增强因子以容易的方式通过第一公式根据最小值与最大值的比率来计算。基础增强因子用作所有频谱线增强因子的计算的基础,其中第二公式确保在从参考频谱线至表示频谱的最低频率的频谱线的方向上频谱线增强因子增大。与现有技术解决方案相比,所提出的解决方案不需要对每一频谱带进行平方根或类似的复杂运算。仅需要2个除法算子和2个幂算子,其中一个算子在编码器侧,一个算子在译码器侧。
在本发明的优选实施例中,该第一预设值小于42且大于22,具体地小于38且大于26,更具体地小于34且大于30。上述区间是基于经验实验。当第一预设值设定为32时可达到最佳结果。
在本发明的优选实施例中,该第二预设值是根据公式β=1/(θ·i’)来确定,其中i’为正被增强的频谱线的数目,θ为介于3与5之间的因子,具体地,介于3,4与4,6之间的因子,更具体地,介于3,8与4,2之间的因子。这些区间也是基于经验实验。已发现,当第二预设值设定为4时可达到最佳结果。
在本发明的优选实施例中,该参考频谱线表示介于600Hz与1000Hz之间的频率,具体地,介于700Hz与900Hz之间的频率,更具体地,介于750Hz与850Hz之间的频率。这些凭经验找到的区间确保充分的低频增强和系统的低计算复杂性。这些区间尤其确保在密集占用的频谱中以足够的精确度对较低频率线进行编码。在优选实施例中,参考频谱线表示800Hz,其中32个频谱线被增强。
在本发明的优选实施例中,该另一参考频谱线表示与该参考频谱线相同的频率或比该参考频谱线更高的频率。这些特征确保了在相关频率范围中进行对最小值和最大值的估计。
在本发明的优选实施例中,该控制装置进行配置的方式为仅在该最大值小于该最小值乘以该第一预设值α时经处理的频谱中的表示比该参考频率更低的频率的频谱线被增强。这些特征确保了低频增强仅在需要时执行,使得可使编码器的工作负载最小化并且在频谱量化期间不会将比特浪费在感觉上不重要的区域上。
在一个方面中,本发明提供了一种音频译码器,其用于基于非语音音频信号来对比特流进行译码,以便依据该比特流产生经译码的非语音音频输出信号,尤其用于对根据本发明的音频编码器所产生的比特流进行译码,该比特流包含量化频谱和多个线性预测编码系数,该音频译码器包括:
比特流接收器,其被配置成从该比特流提取该量化频谱和线性预测编码系数;
解量化装置,其被配置成基于该量化频谱产生解量化频谱;
低频还原器,其被配置成基于该解量化频谱来计算经逆处理的频谱,其中该经逆处理的频谱中的表示比参考频谱线更低的频率的频谱线被还原;以及
控制装置,其被配置成根据比特流中所包含的线性预测编码系数来控制由该低频还原器进行的对该经逆处理的频谱的计算。
比特流接收器可以是能够经来自整体的比特流的数字数据进行分类以便将分类数据发送至适当的后续处理级的任何装置。具体地,比特流接收器被配置成从比特流提取量化频谱和线性预测编码系数,该量化频谱然后被转发至解量化装置,该线性预测编码系数然后被转发至控制装置。
解量化装置被配置成基于量化频谱产生解量化频谱,其中解量化为相对于如以上解释的量化的逆处理。
低频还原器被配置成基于解量化频谱来计算经逆处理的频谱,其中经逆处理的频谱中的表示比参考频谱线更低的频率的频谱线被还原,使得仅经逆处理的频谱中所包含的低频被还原。该参考频谱线可基于经验实验来预定义。必须注意,译码器的参考频谱线应表示与如以上解释的编码器的参考频谱线相同的频率。然而,参考频谱线表示的频率可储存在译码器侧,使得不必在比特流中传输此频率。
控制装置被配置成根据该线性预测编码滤波器的线性预测编码系数来控制由该低频还原器进行的对经逆处理的频谱的计算。因为相同的线性预测编码系数可在产生比特流的编码器中并且在译码器中使用,所以适应性低频增强系是完全可逆的,而与频谱量化无关,只要线性预测编码系数在比特流中传输至译码器即可。一般而言,线性预测编码系数无论如何必须在比特流中传输,以达到通过译码器从比特流重建音频输出信号的目的。因此,比特流的比特率将不会通过如本文所述的低频增强和低频还原而增加。
本文所述的适应性低频还原系统可以在能够在时域编码与MDCT域编码之间切换的xHE-AAC[4]的低延迟变体和LD-USAC的TCX核心编码器中实现。
通过这些特征,可容易地对使用适应性低频增强产生的比特流进行译码,其中可仅使用比特流中已含有的信息由译码器来进行适应性低频还原。
根据本发明的优选实施例,该音频译码器包括频率-时间转换器和逆线性预测编码滤波器的组合,该逆线性预测编码滤波器接收该比特流中所包含的多个线性预测编码系数,其中该组合被配置成基于经逆处理的频谱并且基于线性预测编码系数来对经逆处理的频谱进行逆滤波并且将经逆处理的频谱转换进时域,以便输出该输出信号。
频率-时间转换器是用于执行如以上解释的时间-频率转换器的操作的逆操作的工具。频率-时间转换器是用于尤其将频域中的信号的频谱转换进时域的成帧的数字信号以便估计原始信号的工具。频率-时间转换器可使用逆改进型离散余弦变换(逆MDCT),其中改进型离散余弦变换是基于第四型离散余弦变换(DCT-IV)的重叠变换,具有重叠的附加性质:该改进型离散余弦变换被设计成对较大数据集的连续帧执行变换,其中后续帧重叠以使得一个帧的后半部分与下一个帧的前半部分重合。除DCT的能量聚集品质之外,此重叠使得MDCT对于信号压缩应用尤其具有吸引力,因为该重叠有助于避免源于帧边界的伪影。本领域的技术人员将理解的是,其它变换是可能的。然而,译码器中的变换应是编码器中的变换的逆变换。
逆线性预测编码滤波器是用于执行如以上解释的由线性预测编码滤波器(LPC滤波器)进行的操作的逆操作的工具。逆线性预测编码滤波器是使用线性预测模型的信息的在音频信号处理和语音处理中使用的用于对成帧的数字信号的频谱包络进行译码以便重建数字信号的工具。只要使用相同的线性预测编码系数,线性预测编码和译码即是完全可逆的,这一点可通过将被嵌入如本文所述的比特流中的线性预测编码系数从编码器传输至译码器来确保。
通过这些特征,可以以容易的方式处理输出信号。
根据本发明的优选实施例,该频率-时间转换器被配置成基于经逆处理的频谱来估计时间信号,其中该逆线性预测编码滤波器被配置成基于该时间信号来输出该输出信号。因此,该逆线性预测编码滤波器可在时域中操作,以时间信号作为其输入。
根据本发明的优选实施例,该逆线性预测编码滤波器被配置成基于该经逆处理的频谱来估计经逆滤波的信号,其中该频率-时间转换器被配置成基于该经逆滤波的信号来输出该输出信号。
可选地并且等效地,并且类似于在编码器侧上执行的上述FDNS程序,可使频率-时间转换器和逆线性预测编码滤波器次序反过来,使得后者先操作并且在频域(而非时域)中操作。更具体地,逆线性预测编码滤波器可基于经逆处理的频谱输出经逆滤波的信号,其中经由乘以(或除以)线性预测编码系数的频谱表示来应用逆线性预测编码滤波器,如在[5]中。因此,频率-时间转换器诸如以上提及的频率-时间转换器可被配置成基于输入至频率-时间转换器的经逆滤波的信号来估计输出信号的帧。
对于本领域的技术人员应为明显的是,可以实现这两种方法——在频域中的经由频谱加权的线性逆滤波之后可以进行频率-时间转换与在频率-时间转换之后进行在时域中的线性逆滤波,使得该两种方法是等效的。
在本发明的优选实施例中,该控制装置包括:频谱分析仪,其被配置成估计线性预测编码系数的频谱表示;最小-最大分析仪,其被配置成估计在另一参考频谱线以下的频谱表示的最小值该频谱表示的最大值;以及还原因子计算器,其被配置成基于该最小值并且基于该最大值来计算频谱线还原因子,该频谱线还原因子用于计算该经逆处理的频谱中表示的比该参考频谱线更低的频率的频谱线,其中该经逆处理的频谱的频谱线通过将频谱线还原因子施加于该解量化频谱的频谱线来还原。频谱分析仪可是如上所述的时间-频率转换器。频谱表示是线性预测编码滤波器的转移函数,并且可以是但不必一定是与如以上所述用于FDNS的频谱表示相同的频谱表示。频谱表示可根据线性预测编码系数的奇数离散傅立叶变换(ODFT)来计算。在xHE-AAC和LD-USAC中,转移函数可通过覆盖整个频谱表示的32个或64个MDCT域增益来近似。
在本发明的优选实施例中,该还原因子计算器进行配置的方式为在从该参考频谱线至表示经逆处理的频谱的最低频率的频谱线的方向上频谱线还原因子减小。这意味着表示最低频率的频谱线被衰减得最多,而与参考频谱线相邻的频谱线被衰减得最少。参考频谱线和表示比参考频谱线更高的频率的频谱线根本不被还原。这样降低了计算复杂性而未听闻任何缺点。
在本发明的优选实施例中,该还原因子计算器包含第一级,该第一级被配置成根据第一公式δ=(α·min/max)来计算基础还原因子,其中,α为第一预设值,α>1,β为第二预设值,0<β≤1,min为该频谱表示的最小值,max为该频谱表示的最大值,且δ为该基础还原因子,且其中该还原因子计算器包含第二级,该第二级被配置成根据第二公式ζi=δi’-i来计算频谱线还原因子,其中i’为要还原的频谱线的数目,i为相应频谱线的索引,该索引随着频谱线的频率而增大,从i=0至i’-1,δ为基础还原因子并且ζi为索引为i的频谱线还原因子。还原因子计算器的运算与如以上所述的增强因子计算器的运算相逆。基础还原因子以容易的方式通过第一公式根据最小值与最大值的比率来计算。基础还原因子用作所有频谱线还原因子的计算的基础,其中第二公式确保在从参考频谱线至表示经逆处理的频谱的最低频率的频谱线的方向上频谱线还原因子减小。与现有技术解决方案相比,所提出的解决方案不需要对每一频谱带进行平方根或类似的复杂运算。仅需要2个除法算子和2个幂算子,其中一个算子在编码器侧,一个算子在译码器侧。
在本发明的优选实施例中,该第一预设值小于42且大于22,具体地小于38且大于26,更具体地小于34且大于30。上述区间是基于经验实验。当第一预设值设定为32时可达到最佳结果。请注意,译码器的第一预设值应与编码器的第一预设值相同。
在本发明的优选实施例中,该第二预设值根据公式β=1/(θ·i’)来确定,其中i’为正被还原的频谱线的该数目,θ为介于3与5之间的因子,具体地,介于3,4与4,6之间的因子,更具体地,介于3,8与4.2之间的因子。当第二预设值设定为4时可达到最佳结果。请注意,译码器的第二预设值应与编码器的第二预设值相同。
在本发明的优选实施例中,该参考频谱线表示介于600Hz与1000Hz之间的频率,具体地,介于700Hz与900Hz之间的频率,更具体地,介于750Hz与850Hz之间的频率。这些凭经验找到的区间确保了充分的低频增强和系统的低计算复杂性。这些区间尤其确保在密集占用的频谱中以足够的精确度对较低频率线进行编码。在优选实施例中,参考频谱线表示800Hz,其中32个频谱线被还原。显然,译码器的参考频谱线应表示与编码器的参考频谱线相同的频率。
在本发明的优选实施例中,该另一参考频谱线表示与该参考频谱线相同的频率或比该参考频谱线更高的频率。这些特征确保了在相关频率范围中进行对最小值和最大值的估计,如编码器中的状况一样。
在本发明的优选实施例中,控制装置进行配置的方式为仅在该最大值小于该最小值乘以该第一预设值α时该经逆处理的频谱中的表示比该参考频谱线更低的频率的频谱线被还原。这些特征确保低频还原仅在需要时被执行,使得可使译码器的工作负载最小化并且在量化期间不会将比特浪费在感觉上无关的区域上。
在一个方面中,本发明提供了一种系统,其包括译码器和编码器,其中编码器根据本发明来设计和/或译码器根据本发明来设计。
在一个方面中,本发明提供一种用于对非语音音频信号进行编码以便依据该非语音音频信号产生比特流的方法,该方法包括以下步骤:
使用具有多个线性预测编码系数的线性预测编码滤波器基于音频信号的帧并且基于线性预测编码系数将该音频信号的帧进行滤波并且转换进频域,以便输出频谱;
基于该经滤波的帧的频谱来计算经处理的频谱,其中经处理的频谱中的表示比参考频谱线更低的频率的频谱线被增强;以及
根据该线性预测编码滤波器的线性预测编码系数来控制对经处理的频谱的计算。
在一方面中,本发明提供一种用于基于非语音音频信号对比特流进行译码以便依据该比特流产生非语音音频输出信号,尤其用于对由根据前述权利要求的方法产生的比特流进行译码的方法,该比特流包含量化频谱和多个线性预测编码系数,该方法包含以下步骤:
从该比特流提取该量化频谱和线性预测编码系数;
基于该量化频谱产生解量化频谱;
基于该解量化频谱来计算经处理的频谱,其中经逆处理的频谱中的表示比参考频谱线更低的频率的频谱线被还原;以及
根据比特流中所包含的线性预测编码系数阿里控制对该经逆处理的频谱的计算。
在一个方面中,本发明提供一种计算机程序,其用于在计算机或处理器上运行时执行发明方法。
附图说明
随后对照附图论述本发明的优选实施例,在附图中:
图1A图示了根据本发明的音频编码器的第一实施例;
图1B图示了根据本发明的音频编码器的第二实施例;
图2图示了由根据本发明的音频编码器执行的低频增强的第一实例;
图3图示了由根据本发明的音频编码器执行的低频增强的第二实例;
图4图示了由根据本发明的音频编码器执行的低频增强的第三实例;
图5A图示了根据本发明的音频译码器的第一实施例;
图5B图示了根据本发明的音频译码器的第二实施例;
图6图示了由根据本发明的音频译码器执行的低频还原的第一实例;
图7图示了由根据本发明的音频译码器执行的低频还原的第二实例;
以及
图8图示了由根据本发明的音频译码器执行的低频还原的第三实例。
具体实施方式
图1A图示了根据本发明的音频编码器1的第一实施例。用于对非语音音频信号AS进行编码以便依据该非语音音频信号产生比特流BS的音频编码器1包括:
线性预测编码滤波器2和时间-频率转换器3的组合2、3,该线性预测编码滤波器具有多个线性预测编码系数LC,其中组合2、3被配置成基于音频信号AS的帧FI并且基于线性预测编码系数LC来将音频信号AS的帧FI进行滤波并且转换进频域,以便输出频谱SP;
低频增强器4,其被配置成基于频谱SP来计算经处理的频谱PS,其中经处理的频谱PS中的表示比参考频谱线RSL(参见图2)更低的频率的频谱线SL(参见图2)被增强;以及
控制装置5,其被配置成根据线性预测编码滤波器2的线性预测编码系数LC来控制由低频增强器4进行的对经处理的频谱PS的计算。
线性预测编码滤波器(LPC滤波器)2是使用线性预测模型的信息的在音频信号处理和语音处理中使用的用于表示压缩形式的声音的成帧的数字信号的频谱包络的工具。
时间-频率转换器3是用于尤其将成帧的数字信号从时域转换进频域以便估计信号的频谱的工具。时间-频率转换器3可使用改进型离散余弦变换(MDCT),该改进型离散余弦变换是基于第四型离散余弦变换(DCT-IV)的重叠变换,具有重叠的附加性质:该改进型离散余弦变换被设计成对较大数据集的连续帧执行变换,其中后续帧重叠使得一个帧的后半部分与下一个帧的前半部分重合。除DCT的能量聚集品质之外,此重叠还使得MDCT对于信号压缩应用尤其具有吸引力,这是因为该重叠有助于避免源于帧边界的伪影。
低频增强器4被配置成基于经滤波的帧FF的频谱SP来计算经处理的频谱PS,其中经处理的频谱PS中的表示比参考频谱线RSL更低的频率的频谱线SL被增强,使得仅经处理的频谱PS中所包含的低频被增强。参考频谱线RSL可基于经验实验来预定义。
控制装置5被配置成根据线性预测编码滤波器2的线性预测编码系数LC来控制由低频增强器4进行的对经处理的频谱SP的计算。因此,根据本发明的编码器1不需要为了低频增强目而分析音频信号AS的频谱SP。此外,因为相同的线性预测编码系数LC可在编码器1中和后续译码器12(参见图5)中使用,所以适应性低频增强是完全可逆的,而与频谱量化无关,只要线性预测编码系数LC在由编码器1或由任何其它装置产生的比特流BS中传输至译码器12即可。一般而言,线性预测编码系数LC无论如何必须在比特流BS中传输,以达到通过相应译码器12从比特流BS重建音频输出信号OS(参见图5)的目的。因此,比特流BS的比特率将不会通过如本文所述的低频增强而增加。
本文所述的适应性低频增强系统可以在能够基于每一帧在时域编码与MDCT域编码之间切换的xHE-AAC[4]的低延迟变体、LD-USAC的TCX核心编码器中实现。
根据本发明的优选实施例,音频信号AS的帧FI输入至线性预测编码滤波器2,其中经滤波的帧FF由线性预测编码滤波器2输出,并且其中时间-频率转换器3被配置成基于经滤波的帧FF来估计频谱SP。因此,线性预测编码滤波器2可在时域中操作,以音频信号AS作为其输入。
根据本发明的优选实施例,音频编码器1包括:量化装置6,其被配置成基于经处理的频谱BS产生量化频谱QS;以及比特流产生器7,其被配置成将量化频谱QS及线性预测编码系数LC嵌入比特流BS中。量化在数字信号处理中是将一大组输入值映射至(可计数的)较小组例如将值舍位至某个精度单位的处理。执行量化的装置或算法函数被称为量化装置6。比特流产生器7可以是能够将来自不同源2、6的数字数据嵌入整体的比特流BS中的任何装置。通过这些特征,可容易地产生使用适应性低频增强产生的比特流BS,其中通过后续译码器12仅使用比特流BS中所包含的信息,适应性低频增强是完全可逆的。
在本发明的优选实施例中,控制装置5包括:频谱分析仪8,其被配置成估计线性预测编码系数LC的频谱表示SR;最小-最大分析仪9,其被配置成估计在另一参考频谱线以下的频谱表示SR的最小值MI和频谱表示SR的最大值MA;以及增强因子计算器10、11,其被配置成基于最小值MI并且基于最大值MA来计算频谱线增强因子SEF,该频谱线增强因子SEF用于计算经处理的频谱PS中的表示比参考频谱线RSL更低的频率的频谱线SL,其中经处理的频谱PS的频谱线SL是通过将频谱线增强因子SL施加至经滤波的帧FF的频谱SP的频谱线来增强。频谱分析仪可是如以上所述的时间-频率转换器。频谱表示SR是线性预测编码滤波器2的转移函数。频谱表示SR可根据线性预测编码系数的奇数离散傅立叶变换(ODFT)来计算。在xHE-AAC和LD-USAC中,转移函数可通过覆盖整个频谱表示SR的32个或64个MDCT域增益来近似。
在本发明的优选实施例中,增强因子计算器10、11进行配置的方式为在从参考频谱线RSL至表示经处理的频谱PS的最低频率的频谱线SL0的方向上频谱线增强因子SEF增大。这意味表示最低频率的频谱线SL0被放大得最多,而与参考频谱线相邻的频谱线SLi’-1被放大得最少。参考频谱线RSL和表示比参考频谱线RSL更高的频率的频谱线SLi’+1根本不增强。这样降低计算复杂性而未听闻任何缺点。
在本发明的优选实施例中,增强因子计算器10、11包含第一级10,该第一级被配置成根据第一公式γ=(α·min/max)β来计算基础增强因子BEF,其中α为第一预设值,并且α>1,β为第二预设值,并且0<β≤1,min为频谱表示SR的最小值MI,max为频谱表示SR是最大值MA,并且γ是基础增强因子BEF,并且其中增强因子计算器10、11包含第二级11,该第二级被配置成根据第二公式εi=γi’-i来计算频谱线增强因子SEF,其中i’为要增强的频谱线SL的数目,i为相应频谱线SL的索引,索引随着频谱线SL的频率而增大,从i=0至i’-1,γ为基础增强因子BEF且εi为索引为i的频谱线增强因子SEF。基础增强因子以容易的方式通过第一公式根据最小值与最大值的比率来计算。基础增强因子BEF用作所有频谱线增强因子SEF的计算的基础,其中第二公式确保在从参考频谱线RSL至表示频谱PS的最低频率的频谱线SL0的方向上频谱线增强因子SEF增大。与现有技术解决方案相比,所提出的解决方案不需要对每一频谱带进行平方根或类似的复杂运算。仅需要2个除法算子和2个幂算子,其中一个算子在编码器侧,一个算子在译码器侧。
在本发明的优选实施例中,第一预设值小于42且大于22,具体地,小于38且大于26,更具体地,小于34且大于30。上述区间是基于经验实验。当第一预设值设定为32时可达到最佳结果。
在本发明的优选实施例中,第二预设值是根据公式β=1/(θ·i’)来确定,其中i’为正被增强的频谱线SL的数目,θ为介于3与5之间的因子,具体地,介于3,4与4,6之间的因子,更具体地,介于3,8与4,2之间的因子。这些区间也是基于经验实验。已发现,当第二预设值设定为4时可达到最佳结果。
在本发明的优选实施例中,参考频谱线RSL表示介于600Hz与1000Hz之间的频率,具体地,介于700Hz与900Hz之间的频率,更具体地,介于750Hz与850Hz之间的频率。这些凭经验找到的区间确保充分的低频增强和系统的低计算复杂性。这些区间尤其确保在密集占用的频谱中以足够的精确度对较低频率线进行编码。在优选实施例中,参考频谱线表示800Hz,其中32条频谱线被增强。
对频谱线增强因子SEF的计算可通过对程序代码的以下输入来进行:
在本发明的优选实施例中,另一参考频谱线表示比参考频谱线RSL更高的频率。这些特征确保了在相关频率范围中进行对最小值MI和最大值MA的估计。
图1B图示了根据本发明的音频编码器1的第二实施例。第二实施例是基于第一实施例。在以下描述中,将仅解释两个实施例之间的差异。
根据本发明的优选实施例,音频信号AS的帧FI输入至时间-频率转换器3,其中经转换的帧FC由时间-频率转换器3输出,且其中线性预测编码滤波器2被配置成基于经转换的帧FC来估计频谱SP。可选地,但与本发明编码器1的具有低频增强器的第一实施例等效地,编码器1可基于借助于频域噪声整型(FDNS)产生的帧FI的频谱SP来计算经处理的频谱PS,如例如在[5]中所公开的。更具体地,此处修改工具次序:时间-频率转换器3诸如上面所提及的时间-频率转换器可被配置成基于音频信号AS的帧FI来估计经转换的帧FC,并且线性预测编码滤波器2被配置成基于经转换的帧FC来估计音频频谱SP,该经转换的帧由时间-频率转换器3输出。因此,线性预测编码滤波器2可在频域(而非时域)中操作,以经转换的帧FC作为其输入,其中经由乘以线性预测编码系数LC的频谱表示来应用线性预测编码滤波器2。
对于本领域的技术人员明显的是,可实现第一实施例和第二实施例——在时域中的线性滤波之后进行时间-频率转换与在时间-频率转换之后进行在频域中的经由频谱加权的线性滤波,使得该第一实施例和该第二实施例是等效的。
图2图示了由根据本发明的编码器执行的低频增强的第一实例。图2在共同坐标系统中示出了示例性频谱SP、示例性频谱线增强因子SEF以及示例性经处理的频谱SP,其中在x-轴标示频率并且在y-轴标示取决于频率的振幅。表示比参考频谱线RSL更低的频率的频谱线SL0至SLi’-1被放大,而参考频谱线RSL和表示比参考频谱RSL更高的频率的频谱线Li’+1不被放大。图2描绘线性预测编码系数LC的频谱表示SR的最小值MI与最大值MA的比率接近1的情形。因此,用于频谱线SL0的最大频谱线增强因子SEF为约2.5。
图3图示了由根据本发明的编码器执行的低频增强的第二实例。与如图2中所述的低频增强的差异在于线性预测编码系数LC的频谱表示SR的最小值MI与最大值MA的比率较小。因此,用于频谱线SL0的最大频谱线增强因子SEF较小,例如低于2.0。
图4图示了由根据本发明的编码器执行的低频增强的第三实例。在本发明的优选实施例中,控制装置5进行配置的方式为仅在最大值小于最小值乘以第一预设值时经处理的频谱SP中的表示比参考频谱RSL更低的频率的频谱线SL被增强。这些特征确保了低频增强仅在需要时执行,使得可使编码器的工作负载最小化。在图4中,这些条件满足,使得不执行低频增强。
图5A图示了根据本发明的译码器的实施例。音频译码器12被配置成用于基于非语音音频信号对比特流BS进行译码,以便从比特流BS产生非语音音频输出信号OS,尤其用于对由根据本发明的音频编码器1产生的比特流BS进行译码,其中比特流BS包含量化频谱QS和多个线性预测编码系数LC。音频译码器12包括:
比特流接收器13,其被配置成从比特流BS提取量化频谱QS和线性预测编码系数LC;
解量化装置14,其被配置成基于量化频谱QS产生解量化频谱DQ;
低频还原器15,其被配置成基于解量化频谱DQ来计算经逆处理的频谱,其中经逆处理的频谱RS中的表示比参考频谱线RSLD更低的频率的频谱线SLD被还原;以及
控制装置16,其被配置成根据比特流BS中含有的线性预测编码系数LC来控制由低频还原器15进行的对经逆处理的频谱RS的计算。
比特流接收器13可以是能够将来自整体的比特流BS的数字数据进行分类以便将分类数据发送至适当的后续处理级的任何装置。具体地,比特流接收器13被配置成从比特流BS提取量化频谱QS及线性预测编码系数LC,该量化频谱然后被转发至解量化装置14,该线性预测编码系数LC然后被转发至控制装置16。
解量化装置16被配置成基于量化频谱QS产生解量化频谱DQ,其中解量化为相对于如以上解释的量化的逆处理。
低频还原器15被配置成基于解量化频谱QS来计算经逆处理的频谱RS,其中经逆处理的频谱RS中的表示比参考频谱线RSLD更低的频率的频谱线SLD被还原,使得仅经逆处理的频谱RS中所包含的低频被还原。参考频谱线RSLD可基于经验实验来预定义。必须注意,译码器12的参考频谱线RSLD应表示与如以上解释的编码器1的参考频谱线RSL相同的频率。然而,参考频谱线RSLD表示的频率可储存在译码器侧,使得不必在比特流BS中传输此频率。
控制装置16被配置成根据线性预测编码滤波器2的线性预测编码系数LS来控制由低频还原器15进行的对经逆处理的频谱RS的计算。因为相同的线性预测编码系数LC可在产生比特流BS的编码器1中并且在译码器12中使用,所以适应性低频增强是完全可逆的,而与频谱量化无关,只要线性预测编码系数在比特流BS中传输至译码器12即可。一般而言,线性预测编码系数LC无论如何必须在比特流BS中传输,以达到通过译码器12从比特流BS重建音频输出信号的目的。因此,比特流BS的比特率将不会通过如本文所述的低频增强和低频还原而增加。
本文所述的适应性低频还原系统可以在能够基于每一帧在时域编码与MDCT域编码之间切换的xHE-AAC[4]的低延迟变体、LD-USAC的TCX核心编码器中实现。
通过这些特征,可容易地对使用适应性低频增强产生的比特流BS进行译码,其中可仅使用比特流BS中含有的信息由译码器12来进行适应性低频还原。
根据本发明的优选实施例,音频译码器12包括频率-时间转换器17和逆线性预测编码滤波器18的组合17、18,该逆线性预测编码滤波器接收比特流BS中包含的多个线性预测编码系数LC,其中组合17、18被配置成基于经逆处理的频谱RS并且基于线性预测编码系数LC来对经逆处理的频谱RS进行逆滤波且将该经逆处理的频谱转换进时域,以便输出输出信号OS。
频率-时间转换器17是用于执行如以上解释的时间-频率转换器3的操作的逆操作的工具。频率-时间转换器是用于尤其将频域中的信号的频谱转换进时域的成帧的数字信号以便估计原始信号的工具。频率-时间转换器可使用逆改进型离散余弦变换(逆MDCT),其中改进型离散余弦变换是基于第四型离散余弦变换(DCT-IV)的重叠变换,具有重叠的附加性质:该改进型离散余弦变换被设计成对较大数据集的连续帧执行变换,其中后续帧重叠使得一个帧的后半部分与下一个帧的前半部分重合。除DCT的能量聚集品质之外,此重叠使得MDCT对于信号压缩应用尤其具有吸引力,因为该重叠有助于避免源于帧边界的伪影。本领域的技术人员将理解的是,其它变换是可能的。然而,译码器12中的变换应是编码器1中的变换的逆变换。
逆线性预测编码滤波器18是用于执行如以上解释的由线性预测编码滤波器(LPC滤波器)2进行的操作的逆操作的工具。逆线性预测编码滤波器是使用线性预测模型的信息的在音频信号处理和语音信号处理中使用的用于对成帧的数字信号的频谱包络进行译码以便重建数字信号的工具。只要使用相同的线性预测编码系数,线性预测编码和译码即是完全可逆的,这一点可通过将被嵌入如本文所述的比特流BS中的线性预测编码系数LC从编码器1传输至译码器12来确保。
通过这些特征,可以以容易的方式处理输出信号OS。
根据本发明的优选实施例,频率-时间转换器17被配置成基于经逆处理的频谱RS来估计时间信号TS,其中逆线性预测编码滤波器18被配置成基于时间信号TS来输出输出信号OS。因此,逆线性预测编码滤波器18可在时域中操作,以时间信号TS作为其输入。
在本发明的优选实施例中,控制装置16包括:频谱分析仪19,其被配置成估计线性预测编码系数LC的频谱表示SR;最小-最大分析仪20,其被配置成估计在另一参考频谱线以下的频谱表示SR的最小值MI和频谱表示SR的最大值MA;以及还原因子计算器21、22,其被配置成基于最小值MI并且基于最大值MA来计算频谱线还原因子SDF,该频谱线还原因子SDF用于计算经逆处理的频谱RS中的表示比参考频谱线RSLD更低的频率的频谱线SLD,其中经逆处理的频谱RS的频谱线SLD是通过将频谱线还原因子SDF施加至解量化频谱DQ的频谱线来还原。频谱分析仪可为如以上所述的时间-频率转换器。频谱表示是线性预测编码滤波器是转移函数。频谱表示可根据线性预测编码系数的奇数离散傅立叶变换(ODFT)来计算。在xHE-AAC和LD-USAC中,转移函数可通过覆盖整个频谱表示的32个或64个MDCT域增益来近似。
在本发明的优选实施例中,还原因子计算器进行配置的方式为在从参考频谱线至表示经逆处理的频谱的最低频率的频谱线的方向上频谱线还原因子减小。这意味着表示最低频率的频谱线被衰减得最多,而与参考频谱线相邻的频谱线被衰减得最少。参考频谱线和表示比参考频谱线更高的频率的频谱线根本不被还原。这样降低了计算复杂性而未听闻任何缺点。
在本发明的优选实施例中,还原因子计算器21、22包含第一级21,该第一级被配置成根据第一公式δ=(α·min/max)来计算基础还原因子BDF,其中,α为第一预设值,α>1,β为第二预设值,0<β≤1,min为频谱表示SR的最小值MI,max为频谱表示SR的最大值MA并且δ为基础还原因子BDF,并且其中还原因子计算器21、22包含第二级22,该第二级被配置成根据第二公式ζi=δi’-i来计算频谱线还原因子SDF,其中i’为要还原的频谱线SLD的数目,i为相应频谱线SLD的索引,索引随着频谱线SLD的频率增大,从i=0至i’-1,δ为基础还原因子并且ζi为索引为i的该频谱线还原因子SDF。还原因子计算器21、22的运算与如以上所述的增强因子计算器10、11的运算相逆。基础还原因子BDF以容易的方式通过第一公式根据最小值MI与最大值MA的比率来计算。基础还原因子BDF用作所有频谱线还原因子SDF的计算的基础,其中第二公式确保在从参考频谱线RSLD至表示经逆处理的频谱RS的最低频率的频谱线SL0的方向上频谱线还原因子SDF减小。与现有技术解决方案相比,所提出的解决方案不需要对每一频谱带进行平方根或类似的复杂运算。仅需要2个除法算子和2个幂算子,其中一个算子在编码器侧一个算子在译码器侧。
在本发明的优选实施例中,第一预设值小于42且大于22,具体地,小于38且大于26,更具体地,小于34且大于30。上述区间是基于经验实验。当第一预设值设定为32时可达到最佳结果。请注意,译码器12的第一预设值应与编码器1的第一预设值相同。
在本发明的优选实施例中,第二预设值根据公式β=1/(θ·i’)来确定,其中i’为正被还原的频谱线的数目,θ为介于3与5之间的因子,具体地,介于3,4与4,6之间的因子,更具体地,介于3,8与4,2之间的因子。当第二预设值设定为4时可达到最佳结果。请注意,译码器12的第二预设值应与编码器1的第二预设值相同。
在本发明的优选实施例中,参考频谱线表示RSLD介于600Hz与1000Hz之间的频率,具体地,介于700Hz与900Hz之间的频率,更具体地,介于750Hz与850Hz之间的频率。这些凭经验找到的区间确保了充分的低频增强和系统的低计算复杂性。这些区间尤其确保在密集占用的频谱中以足够的精确度对较低频率线进行编码。在优选实施例中,参考频谱线RSLD表示800Hz,其中32条频谱线SL被还原。显然,译码器12的参考频谱线RSLD应表示与编码器的参考频谱线RSL相同的频率。
对频谱线增强因子SEF的计算可通过对程序代码的以下输入来进行:
在本发明的优选实施例中,另一参考频谱线表示与参考频谱线RSLD相同的频率或比参考频谱线RSLD更高的频率。这些特征确保了在相关频率范围中进行对最小值MI和最大值MA的估计。
图5B图示了根据本发明的音频译码器12的第二实施例。第二实施例是基于第一实施例。在以下描述中,将仅解释两个实施例之间的差异。
根据本发明的优选实施例,逆线性预测编码滤波器18被配置成基于经逆处理的频谱RS来估计经逆滤波的信号IFS,其中频率-时间转换器17被配置成基于经逆滤波的信号IFS来输出输出信号OS。
可选地并且等效地,且类似于在编码器端上执行的上述FDNS程序,可使频率-时间17转换器和逆线性预测编码滤波器18的次序反过来,以使得后者先操作且在频域(而非时域)中操作。更具体地,逆线性预测编码滤波器18可基于经逆处理的频谱RS来输出经逆滤波的信号IFS,其中经由乘以(或除以)线性预测编码系数LC的频谱表示来应用逆线性预测编码滤波器2,如在[5]中。因此,频率-时间转换器17例如以上提及的频率-时间转换器可被配置成基于输入至时间-频率转换器17的经逆滤波的信号IFS来估计输出信号OS的帧。
对于本领域的技术人员明显的是,可实现这两种方法——频域中的线性逆滤波之后进行频率-时间转换与频率-时间转换之后进行在时域中的经由频谱加权的线性滤波,使得该两种方法是等效的。
图6图示了由根据本发明的译码器执行的低频还原的第一实例。图2在公共坐标系统中示出了解量化频谱DQ、示例性频谱线还原因子SDF以及示例性的经逆处理的频谱RS,其中在x-轴标示频率并且在y-轴标示取决于频率的振幅。表示比参考频谱线RSLD更低的频率的频谱线SLD0至SLDi’-1被还原,而参考频谱线RSLD和表示比参考频谱RSLD更高的频率的频谱线SLDi’+1不被还原。图6描绘线性预测编码系数LC的频谱表示SR的最小值MI与最大值MA的比率接近1的情形。因此,用于频谱线SL0的最大频谱线增强因子SEF为约0.4。另外图6示出了取决于频率的量化误差QE。由于强烈的低频还原,量化误差QE在较低频率处极低。
图7图示了由根据本发明的译码器执行的低频还原的第二实例。与如图6中所述的低频增强的差异在于线性预测编码系数LC的频谱表示SR的最小值MI与最大值MA的比率较小。因此,用于频谱线SL0的最大频谱线还原因子SDF为发射器(launcher),例如,0.5以上。量化误差QE在这种情况下较高,但这并非是关键的,因为该量化误差远低于经逆处理的频谱RS的振幅。
图8图示了由根据本发明的译码器执行的低频还原的第三实例。在本发明的优选实施例中,控制装置16进行配置的方式为仅在最大值MA小于最小值MI乘以第一预设值时经逆处理的频谱RS中的表示比参考频谱线RSLD更低的频率的频谱线SLD被还原。这些特征确保了低频还原仅在需要时执行,使得可使译码器12的工作负载最小化。这些特征确保了低频还原仅在需要时执行,使得可使编码器的工作负载最小化。在图8中,这些条件满足,使得不执行低频增强。
作为对现有技术ALFE方法的复杂性相对较高(有可能在低功率移动装置上引起实现问题)并且缺乏完美的可逆性(有很大的保真度风险)的以上提及问题的解决方案,提出了改进型适应性低频增强(ALFE,adaptive low-frequency emphasis)设计,该改进型适应性低频增强(ALFE)设计
■不需要对每一频谱带进行平方根或类似的复杂运算。仅需要2个除法算子和2个幂算子,一个算子在编码器侧,一个算子在译码器侧。
■利用LPC滤波系数的频谱表示而非频谱自身作为增强(还原)的控制信息。因为相同的LPC系数用在编码器和译码器中,所以ALFE是完全可逆的,而与频谱量化无关。
本文所述的ALFE系统在能够基于每一帧在时域编码与MDCT域编码之间切换的xHE-AAC[4]的低延迟变体、LD-USAC的TCX核心编码器中实现。编码器和译码器中的处理总结如下:
1.在编码器中,找到在某一频率以下的LPC系数的频谱表示的最小值和最大值。在信号处理中通常采用的滤波器的频谱表示是滤波器的转移函数。在xHE-AAC和LD-USAC中,转移函数通过覆盖整个频谱的32个或64个MDCT域增益来近似,根据滤波系数的奇数DFT(ODFT)来计算。
2.若最大值大于某一全局最小值(例如0)且小于最小值的α倍,其中α>1(例如32),则执行以下2个ALFE步骤。
3.低频增强因子γ根据最小值与最大值之间的比率被计算为γ=(α·最小值/最大值)β,其中0<β≤1,且β取决于α。
4.索引为i(索引i低于表示某一频率的索引i')的MDCT线(即,所有线皆低于该频率,优选地在步骤1中使用的同一频率)现在乘以γi'–i。这意味着,最接近i'的线被放大得最少,而第一线即最接近直流的线被放大得最多。优选地,i'=32。
5.在译码器中,如在编码器中一般(相同频率界限)执行步骤1和步骤2。
6.类似于步骤3,低频还原因子即增强因子γ的逆被计算为δ=(α·最小值/最大值)–β=(最大值/(α·最小值))β。
7.索引为比索引i'低的索引i的MDCT线最终乘以δi'–i,其中i'如在编码器中所选。结果为,最接近i'的线被衰减得最少,第一线被衰减得最多,且总体上使编码器侧ALFE完全反过来。
实质上,所提出的ALFE系统确保了在密集占用的频谱中以足够的精确度对较低频率线编码。如图8中所描绘的三种情况可用来例示出此情形。当最大值大于最小值的α倍时,不执行ALFE。当低频LPC形状含有可能源自输入信号中的强烈孤立低音调的强峰时,此情况发生。LPC编码器通常能够比较好地再生此信号,因此ALFE是不必要的。
在LPC形状平坦即最大值接近最小值的情况下,ALFE如图6中所描绘的是最强烈的并且可避免如音乐噪声一样的编码伪影。
当LPC形状既非完全平坦也非有高峰时,例如在语调间隔小的谐波信号上,如图7中所描绘的,仅执行平缓ALFE。必须注意到,在步骤4中的指数因子γ和在步骤7中的指数因子δ的应用不需要幂指令,而可仅使用乘法增量式地执行。因此,本发明ALFE方案需要的每一频谱线复杂性极低。
尽管已在设备的环境中描述一些方面,但是应明白的是,这些方面还表示对对应方法的描述,其中框或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的环境中所述的方面还表示对对应设备的对应框或项目或特征的描述。方法步骤中的一些步骤或全部步骤可由(或使用)硬设备像例如微处理器、可编程计算机或电子电路来执行。在一些实施例中,最重要的方法步骤中的某个步骤或更多个步骤可由这样的设备来执行。
根据特定的实现要求,本发明的实施例可在硬件或软件中实现。可使用非易失性储存介质诸如数字储存介质来执行实现方式,该数字储存介质例如是软盘、DVD、蓝光、CD、ROM、PROM及EPROM、EEPROM或闪存,该非易失性储存介质上储存有电可读控制信号,与可编程计算机系统合作(或能够与可编程计算机系统合作),使得执行相应方法。因此,数字储存介质可为计算机可读的。
根据本发明的一些实施例包括数据载体,该数据载体具有电可读控制信号,这些数据载体能够与可编程计算机系统合作,使得本文所述方法之一被执行。
通常,本发明的实施例可实行为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,该程序代码为操作性的,以执行方法之一。程序代码可例如储存在机器可读载体上。
其它实施例包括用于执行本文所述方法之一的计算机程序,该计算机程序储存在机器可读载体上。
换言之,发明方法的实施例因此为具有程序代码的计算机程序,当计算机程序在计算机上运行时,该计算机程序执行本文所述方法之一。
发明方法的另一实施例因此为数据载体(或数字储存介质,或计算机可读介质),其包括记录在该数据载体上的用于执行本文所述方法之一的计算机程序。数据载体、数字储存介质或记录介质通常为有形的和/或非暂时性的。
发明方法的又一实施例因此为表示用于执行本文所述方法之一的计算机程序的数据串流或信号序列。该数据串流或信号序列可例如被配置成经由数据通讯连接例如经由因特网传输。
又一实施例包括处理构件,例如,计算机或可编程逻辑器件,该处理构件被配置成或适合于执行本文所述方法之一。
另一实施例包括计算机,该计算机上安装有用于执行本文所述方法之一的计算机程序。
根据本发明的又一实施例包括设备或系统,该设备或系统被配置成将用于执行本文所述方法之一的计算机程序(例如,以电的方式或以光的方式)传输至接收器。接收器可例如为计算机、移动装置、内存装置等等。该设备或系统可例如包括用于将计算机程序转输至接收器的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可用来执行本文所述方法的功能中的一些功能或全部功能。在一些实施例中,现场可编程门阵列可与微处理器合作,以便执行本文所述方法之一。通常,这些方法优选地由任何硬设备来执行。
以上所述实施例仅用于对本发明的原理的说明。应理解的是,本文所述的布置及细节的修改及变化对本领域的技术人员是明显的。因此,本发明意在仅受待审权利要求的范围的限制且不受由本文实施例的描述和解释给出的特定细节的限制。
关于包括以上各实施例的实施方式,还公开下述附记:
附记:
1.一种音频编码器,所述音频编码器用于对非语音音频信号(AS)进行编码以便依据所述非语音音频信号产生比特流(BS),所述音频编码器(1)包括:
线性预测编码滤波器(2)和时间-频率转换器(3)的组合(2,3),所述线性预测编码滤波器(2)具有多个线性预测编码系数(LC),其中所述组合(2,3)被配置成基于所述音频信号(AS)的帧(FI)并且基于所述线性预测编码系数(LC)将所述音频信号(AS)的所述帧(FI)进行滤波并且转换进频域,以便输出频谱(SP);
低频增强器(4),所述低频增强器(4)被配置成基于所述频谱(SP)来计算经处理的频谱(PS),其中所述经处理的频谱(PS)中的表示比参考频谱线(RSL)更低的频率的频谱线(SL)被增强;以及
控制装置(5),所述控制装置(5)被配置成根据所述线性预测编码滤波器(2)的线性预测编码系数(LC)来控制由所述低频增强器(4)进行的对所述经处理的频谱(PS)的计算。
2.根据前一附记所述的音频编码器,其中所述音频信号(AS)的帧(FI)输入至所述线性预测编码滤波器(2),其中由所述线性预测编码滤波器(2)输出经滤波的帧(FF)并且其中所述时间-频率转换器(3)被配置成基于所述经滤波的帧(FF)来估计所述频谱(SP)。
3.根据附记1所述的音频编码器,其中所述音频信号(AS)的帧(FI)输入至所述时间-频率转换器(3),其中由所述时间-频率转换器(3)输出经转换的帧(FC)并且其中所述线性预测编码滤波器(2)被配置成基于所述经转换的帧(FC)来估计所述频谱(SP)。
4.根据前述附记中任一项所述的音频编码器,其中所述音频编码器(1)包括:量化装置(6),所述量化装置(6)被配置成基于所述经处理的频谱(PS)来产生量化频谱(QS);以及比特流产生器(7),所述比特流产生器(7)被配置成将所述量化频谱(QS)和所述线性预测编码系数(LC)嵌入所述比特流(BS)中。
5.根据前述附记中的一项所述的音频编码器,其中所述控制装置(5)包括:频谱分析仪(8),所述频谱分析仪(8)被配置成估计所述线性预测编码系数(LC)的频谱表示(SR);最小-最大分析仪(9),所述最小-最大分析仪(9)被配置成估计在另一参考频谱线以下的所述频谱表示(SR)的最小值(MI)和所述频谱表示(SR)的最大值(MA);以及增强因子计算器(10,11),所述增强因子计算器(10,11)被配置成基于所述最小值(MI)并且基于所述最大值(MA)来计算频谱线增强因子(SEF),所述频谱线增强因子(SEF)用于计算所述经处理的频谱(PS)中的表示比参考频谱线(RSL)更低的频率的所述频谱线(SL),其中所述经处理的频谱(PS)的所述频谱线(SL)通过将所述频谱线增强因子(SEF)施加于所述经滤波的帧的频谱的频谱线来增强。
6.根据前一附记所述的音频编码器,其中所述增强因子计算器(10,11)进行配置的方式为在从所述参考频谱线(RSL)至表示所述频谱(SP)的最低频率的所述频谱线(SL)的方向上所述频谱线增强因子(SEF)增大。
7.根据附记5或6所述的音频编码器,其中所述增强因子计算器(10,11)包括第一级(10),所述第一级(10)被配置成根据第一公式γ=(α·min/max)β来计算基础增强因子(BEF),其中,α为第一预设值,α>1,β为第二预设值,0<β≤1,min为所述频谱表示(SR)的最小值(MI),max为所述频谱表示(SR)最大值(MA),并且γ为所述基础增强因子(BEF),并且其中所述增强因子计算器(10,11)包括第二级(11),所述第二级(11)被配置成根据第二公式εi=γi’-i来计算频谱线增强因子(SEF),其中i’为要增强的所述频谱线(SL)的数目,i为相应频谱线(SL)的索引,所述索引随着所述频谱线的频率而增大,从i=0至i’-1,γ为所述基础增强因子(BEF)且εi为索引为i的所述频谱线增强因子(SEF)。
8.根据前一附记所述的音频编码器,其中所述第一预设值小于42且大于22,具体地,小于38且大于26,更具体地,小于34且大于30。
9.根据附记7或8所述的音频编码器,其中所述第二预设值根据公式β=1/(θ·i’)来确定,其中i’为正被增强的频谱线的数目,θ为介于3与5之间的因子,具体地,介于3,4与4,6之间的因子,更具体地,介于3,8与4,2之间的因子。
10.根据前述附记中的一项所述的音频编码器,其中所述参考频谱线(RSL)表示介于600Hz与1000Hz之间的频率,具体地,介于700Hz与900Hz之间的频率,更具体地,介于750Hz与850Hz之间的频率。
11.根据附记5至10中的一项所述的音频编码器,其中所述另一参考频谱线表示与所述参考频谱线(RSL)相同的频率或比所述参考频谱线(RSL)更高的频率。
12.根据前述附记中的一项所述的音频编码器,其中所述控制装置(5)进行配置的方式为仅在所述最大值(MA)小于所述最小值(MI)乘以所述第一预设值时所述经处理的频谱(PS)中的表示比该参考频谱线(RSL)更低的频率的所述频谱线(SL)被增强。
13.一种音频译码器,所述音频译码器用于基于非语音音频信号(AS)对比特流(BS)进行译码,以便依据所述比特流(BS)产生非语音音频输出信号(OS),尤其用于对根据附记1至12的音频编码器所产生的比特流进行译码,所述比特流(BS)包含量化频谱(QS)和多个线性预测编码系数(LC),所述音频译码器(12)包括:
比特流接收器(13),所述比特流接收器(13)被配置成从所述比特流(BS)提取所述量化频谱(QS)和所述线性预测编码系数(LC);
解量化装置(14),所述解量化装置(14)被配置成基于所述量化频谱(QS)产生解量化频谱(DQ);
低频还原器(15),所述低频还原器(15)被配置成基于所述解量化频谱(DQ)来计算经逆处理的频谱(RS),其中所述经逆处理的频谱(RS)中的表示比参考频谱线(RSLD)更低的频率的频谱线(SLD)被还原;以及
控制装置(16),所述控制装置(16)被配置成根据所述比特流(BS)中所包含的所述线性预测编码系数(LC)来控制由所述低频还原器(15)进行的对所述经逆处理的频谱(RS)的计算。
14.根据前一附记所述的音频译码器,其中所述音频译码器(12)包括频率-时间转换器(17)和逆线性预测编码滤波器(18)的组合(17,18),所述逆线性预测编码滤波器(18)接收所述比特流(BS)中包含的所述多个线性预测编码系数(LC),其中所述组合(17,18)被配置成基于所述经逆处理的频谱(RS)并且基于所述线性预测编码系数(LC)将所述经逆处理的频谱(RS)进行逆滤波并且转换进时域,以输出所述输出信号(OS)。
15.根据前一附记所述的音频译码器,其中所述频率-时间转换器(17)被配置成基于所述经逆处理的频谱(RS)来估计时间信号(TS),并且其中所述逆线性预测编码滤波器(18)被配置成基于所述时间信号(TS)来输出所述输出信号(OS)。
16.根据附记14所述的音频译码器,其中所述逆线性预测编码滤波器(18)被配置成基于所述经逆处理的频谱(RS)来估计经逆滤波的信号(IFS),并且其中所述频率-时间转换器(17)被配置成基于所述经逆滤波的信号(IFS)来输出所述输出信号(OS)。
17.根据附记13至16中的一项所述的音频译码器,其中所述控制装置(16)包括:频谱分析仪(19),所述频谱分析仪(19)被配置成估计所述线性预测编码系数(LC)的频谱表示(SR);最小-最大分析仪(20),所述最小-最大分析仪(20)被配置成估计在另一参考频谱线以下的所述频谱表示(SR)的最小值(MI)和所述频谱表示(SR)的最大值(MA);以及还原因子计算器(21,22),所述还原因子计算器(21,22)被配置成基于所述最小值(MI)并且基于所述最大值(MA)来计算频谱线还原因子(SDF),所述频谱线还原因子(SDF)用于计算所述经逆处理的频谱(RS)中的表示比参考频谱线(RSLD)更低的频率的所述频谱线(SLD),其中所述经逆处理的频谱(RS)的所述频谱线(SLD)通过将所述频谱线还原因子(SDF)施加于所述解量化频谱(DQ)的频谱的频谱线来还原。
18.根据前一附记所述的音频译码器,其中所述还原因子计算器(21,22)进行配置的方式为在从所述参考频谱线(RSLD)至表示所述经逆处理的频谱(RS)的最低频率的频谱线(SL)的方向上所述频谱线还原因子(SDF)减小。
19.根据附记17或18所述的音频译码器,其中所述还原因子计算器(21,22)包含第一级(21),所述第一级(21)被配置成根据第一公式δ=(α·min/max)来计算基础还原因子(BDF),其中,α为第一预设值,α>1,β为第二预设值,0<β≤1,min为所述频谱表示(SR)的最小值(MI),max为所述频谱表示(SR)的最大值(MA),并且δ为基础还原因子(BDF),并且其中该还原因子计算器(21,22)包含第二级(22),所述第二级(22)被配置成根据第二公式ζi=δi’-i来计算频谱线还原因子(SDF),其中i’为要还原的所述频谱线(SLD)的数目,i为相应频谱线(SLD)的索引,所述索引随着所述频谱线的频率而增大,从i=0至i’-1,δ为基础还原因子(BDF)且ζi为索引为i的所述频谱线还原因子(SDF)。
20.根据前一附记所述的音频译码器,其中所述第一预设值小于42且大于22,具体地,小于38且大于26,更具体地,小于34且大于30。
21.根据附记19或20所述的音频译码器,其中所述第二预设值根据公式β=1/(θ·i’)来确定,其中i’为正被还原的所述频谱线(SLD)的数目,θ为介于3与5之间的因子,具体地,介于3,4与4,6之间的因子,更具体地,介于3,8与4,2之间的因子。
22.根据附记13至21中的一项所述的音频译码器,其中所述参考频谱线(RSLD)表示介于600Hz与1000Hz之间的频率,具体地,介于700Hz与900Hz之间的频率,更具体地,介于750Hz与850Hz之间的频率。
23.根据附记17至22中的一项所述的音频译码器,其中所述另一参考频谱线表示与所述参考频谱线(RSLD)相同的频率或比所述参考频谱线(RSLD)更高的频率。
24.根据附记13至23中的一项所述的音频译码器,其中所述控制装置(16)进行配置的方式为仅在所述最大值(MA)小于所述最小值(MI)乘以所述第一预设值时所述经逆处理的频谱(RS)中的表示比所述参考频谱线(RSLD)更低的频率的频谱线(SLD)被还原。
25.一种系统,所述系统包括译码器(1)和编码器(12),其中所述编码器(1)根据附记1至12中的一项来设计,和/或所述译码器根据附记13至24中的一项来设计。
26.一种用于对非语音音频信号(AS)进行编码以便依据所述非语音音频信号产生比特流(BS)的方法,所述方法包括以下步骤:
使用具有多个线性预测编码系数(LC)的线性预测编码滤波器(2)基于所述音频信号(AS)的帧(FI)并且基于所述线性预测编码系数(LC)来将所述音频信号(AS)的帧(FI)进行滤波并且转换进频域,以便输出频谱(SP);
基于所述频谱(SP)来计算经处理的频谱(PS),其中所述经处理的频谱(PS)中的表示比参考频谱线(RSL)更低的频率的频谱线(SL)被增强;以及
根据所述线性预测编码滤波器(2)的线性预测编码系数(LC)来控制对所述经处理的频谱(PS)的计算。
27.一种用于基于非语音音频信号(AS)对比特流(BS)进行译码,以便依据所述比特流(BS)产生非语音音频输出信号(OS),尤其用于对由根据前一附记的方法产生的比特流(BS)进行译码的方法,所述比特流(BS)包含量化频谱(QS)和多个线性预测编码系数(LC),所述方法包括以下步骤:
从所述比特流(BS)提取所述量化频谱(QS)和所述线性预测编码系数(LC);
基于所述量化频谱(QS)产生解量化频谱(DQ);
基于所述解量化频谱(DQ)来计算经逆处理的频谱(RS),其中所述经逆处理的频谱(RS)中的表示比参考频谱线(RSLD)更低的频率的频谱线(SLD)被还原;以及
根据所述比特流(BS)中所包含的所述线性预测编码系数(LC)来控制对所述经逆处理的频谱(RS)的计算。
28.一种计算机程序,所述计算机程序用于在计算机或处理器上运行时执行根据附记26或27的方法。
附图标记
1 音频编码器
2 线性预测编码滤波器
3 时间-频率转换器
4 低频增强器
5 控制装置
6 量化装置
7 比特流产生器
8 频谱分析仪
9 最小-最大分析仪
10 增强因子计算器的第一级
11 增强因子计算器的第二级
12 音频译码器
13 比特流接收器
14 解量化装置
15 低频还原器
16 控制装置
17 频率-时间转换器
18 逆线性预测编码滤波器
19 频谱分析仪
20 最小-最大分析仪
21 还原因子计算器的第一级
22 还原因子计算器的第二级
AS 音频信号
LC 线性预测编码系数
FF 经滤波的帧
FI 帧
SP 频谱
PS 经处理的频谱
QS 量化频谱
SR 频谱表示
MI 频谱表示的最小值
MA 频谱表示的最大值
SEF 频谱线增强因子
BEF 相位增强因子
FC 转换进时域的帧
RSL 参考频谱线
SL 频谱线
DQ 解量化频谱
RS 经逆处理的频谱
TS 时间信号
SDF 频谱线还原因子
BDF 基础还原因子
IFS 经逆滤波的信号
SLD 频谱线
RSLD 参考频谱线
QE 量化误差
参考文献
[1]3GPP TS 26.290,“Extended AMR Wideband Codec-TranscodingFunctions”,2004年12月。
[2]B.Bessette,美国专利7,933,769B2,“Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX”,2011年4月。
[3]J.M kinen等人,会刊ICASSP 2005中的“AMR-WB+:ANew Audio CodingStandard for 3rd Generation Mobile Audio Services”,美国费城,2005年3月。
[4]M.Neuendorf等人,第132届AES会议会刊中的“MPEG Unified Speech andAudio Coding–The ISO/MPEG Standard for High-Efficiency Audio Coding of AllContent Types”,匈牙利布达佩斯,2012年4月。还发表在2013年AES期刊中。
[5]T.Baeckstroem等人,欧洲专利EP 2 471 061B1,“Multi-mode audio signaldecoder,multi-mode audio signal encoder,methods and computer program usinglinear prediction coding based noise shaping”。

Claims (27)

1.一种音频编码器,所述音频编码器用于对非语音音频信号(AS)进行编码以便依据所述非语音音频信号产生比特流(BS),所述音频编码器(1)包括:
线性预测编码滤波器(2)和时间-频率转换器(3)的组合(2,3),所述线性预测编码滤波器(2)具有多个线性预测编码系数(LC),其中所述组合(2,3)被配置成基于所述音频信号(AS)的帧(FI)并且基于所述线性预测编码系数(LC)将所述音频信号(AS)的所述帧(FI)进行滤波并且转换进频域,以便输出频谱(SP);
低频增强器(4),所述低频增强器(4)被配置成基于所述频谱(SP)来计算经处理的频谱(PS),其中所述经处理的频谱(PS)中的表示比参考频谱线(RSL)更低的频率的频谱线(SL)被增强;
控制装置(5),所述控制装置(5)被配置成根据所述线性预测编码滤波器(2)的线性预测编码系数(LC)来控制由所述低频增强器(4)进行的对所述经处理的频谱(PS)的计算;
量化装置(6),所述量化装置(6)被配置成基于所述经处理的频谱(PS)来产生量化频谱(QS);以及
比特流产生器(7),所述比特流产生器(7)被配置成将所述量化频谱(QS)和所述线性预测编码系数(LC)嵌入所述比特流(BS)中。
2.根据前一权利要求所述的音频编码器,其中所述音频信号(AS)的帧(FI)输入至所述线性预测编码滤波器(2),其中由所述线性预测编码滤波器(2)输出经滤波的帧(FF)并且其中所述时间-频率转换器(3)被配置成基于所述经滤波的帧(FF)来估计所述频谱(SP)。
3.根据权利要求1所述的音频编码器,其中所述音频信号(AS)的帧(FI)输入至所述时间-频率转换器(3),其中由所述时间-频率转换器(3)输出经转换的帧(FC)并且其中所述线性预测编码滤波器(2)被配置成基于所述经转换的帧(FC)来估计所述频谱(SP)。
4.根据前述权利要求中的一项所述的音频编码器,其中所述控制装置(5)包括:频谱分析仪(8),所述频谱分析仪(8)被配置成估计所述线性预测编码系数(LC)的频谱表示(SR);最小-最大分析仪(9),所述最小-最大分析仪(9)被配置成估计在另一参考频谱线以下的所述频谱表示(SR)的最小值(MI)和所述频谱表示(SR)的最大值(MA);以及增强因子计算器(10,11),所述增强因子计算器(10,11)被配置成基于所述最小值(MI)并且基于所述最大值(MA)来计算频谱线增强因子(SEF),所述频谱线增强因子(SEF)用于计算所述经处理的频谱(PS)中的表示比参考频谱线(RSL)更低的频率的所述频谱线(SL),其中所述经处理的频谱(PS)的所述频谱线(SL)通过将所述频谱线增强因子(SEF)施加于所述经滤波的帧的频谱的频谱线来增强。
5.根据前一权利要求所述的音频编码器,其中所述增强因子计算器(10,11)进行配置的方式为在从所述参考频谱线(RSL)至表示所述频谱(SP)的最低频率的所述频谱线(SL)的方向上所述频谱线增强因子(SEF)增大。
6.根据权利要求4或5所述的音频编码器,其中所述增强因子计算器(10,11)包括第一级(10),所述第一级(10)被配置成根据第一公式γ=(α·min/max)β来计算基础增强因子(BEF),其中,α为第一预设值,α>1,β为第二预设值,0<β≤1,min为所述频谱表示(SR)的最小值(MI),max为所述频谱表示(SR)最大值(MA),并且γ为所述基础增强因子(BEF),并且其中所述增强因子计算器(10,11)包括第二级(11),所述第二级(11)被配置成根据第二公式εi=γi’-i来计算频谱线增强因子(SEF),其中i’为要增强的所述频谱线(SL)的数目,i为相应频谱线(SL)的索引,所述索引随着所述频谱线的频率而增大,从i=0至i’-1,γ为所述基础增强因子(BEF)且εi为索引为i的所述频谱线增强因子(SEF)。
7.根据前一权利要求所述的音频编码器,其中所述第一预设值小于42且大于22,具体地,小于38且大于26,更具体地,小于34且大于30。
8.根据权利要求6或7所述的音频编码器,其中所述第二预设值根据公式β=1/(θ·i’)来确定,其中i’为正被增强的频谱线的数目,θ为介于3与5之间的因子,具体地,介于3,4与4,6之间的因子,更具体地,介于3,8与4,2之间的因子。
9.根据前述权利要求中的一项所述的音频编码器,其中所述参考频谱线(RSL)表示介于600Hz与1000Hz之间的频率,具体地,介于700Hz与900Hz之间的频率,更具体地,介于750Hz与850Hz之间的频率。
10.根据权利要求4至9中的一项所述的音频编码器,其中所述另一参考频谱线表示与所述参考频谱线(RSL)相同的频率或比所述参考频谱线(RSL)更高的频率。
11.根据前述权利要求中的一项所述的音频编码器,其中所述控制装置(5)进行配置的方式为仅在所述最大值(MA)小于所述最小值(MI)乘以所述第一预设值时所述经处理的频谱(PS)中的表示比该参考频谱线(RSL)更低的频率的所述频谱线(SL)被增强。
12.一种音频译码器,所述音频译码器用于基于非语音音频信号(AS)对比特流(BS)进行译码,以便依据所述比特流(BS)产生非语音音频输出信号(OS),尤其用于对根据权利要求1至12的音频编码器所产生的比特流进行译码,所述比特流(BS)包含量化频谱(QS)和多个线性预测编码系数(LC),所述音频译码器(12)包括:
比特流接收器(13),所述比特流接收器(13)被配置成从所述比特流(BS)提取所述量化频谱(QS)和所述线性预测编码系数(LC);
解量化装置(14),所述解量化装置(14)被配置成基于所述量化频谱(QS)产生解量化频谱(DQ);
低频还原器(15),所述低频还原器(15)被配置成基于所述解量化频谱(DQ)来计算经逆处理的频谱(RS),其中所述经逆处理的频谱(RS)中的表示比参考频谱线(RSLD)更低的频率的频谱线(SLD)被还原;以及
控制装置(16),所述控制装置(16)被配置成根据所述比特流(BS)中所包含的所述线性预测编码系数(LC)来控制由所述低频还原器(15)进行的对所述经逆处理的频谱(RS)的计算。
13.根据前一权利要求所述的音频译码器,其中所述音频译码器(12)包括频率-时间转换器(17)和逆线性预测编码滤波器(18)的组合(17,18),所述逆线性预测编码滤波器(18)接收所述比特流(BS)中包含的所述多个线性预测编码系数(LC),其中所述组合(17,18)被配置成基于所述经逆处理的频谱(RS)并且基于所述线性预测编码系数(LC)将所述经逆处理的频谱(RS)进行逆滤波并且转换进时域,以输出所述输出信号(OS)。
14.根据前一权利要求所述的音频译码器,其中所述频率-时间转换器(17)被配置成基于所述经逆处理的频谱(RS)来估计时间信号(TS),并且其中所述逆线性预测编码滤波器(18)被配置成基于所述时间信号(TS)来输出所述输出信号(OS)。
15.根据权利要求13所述的音频译码器,其中所述逆线性预测编码滤波器(18)被配置成基于所述经逆处理的频谱(RS)来估计经逆滤波的信号(IFS),并且其中所述频率-时间转换器(17)被配置成基于所述经逆滤波的信号(IFS)来输出所述输出信号(OS)。
16.根据权利要求12至15中的一项所述的音频译码器,其中所述控制装置(16)包括:频谱分析仪(19),所述频谱分析仪(19)被配置成估计所述线性预测编码系数(LC)的频谱表示(SR);最小-最大分析仪(20),所述最小-最大分析仪(20)被配置成估计在另一参考频谱线以下的所述频谱表示(SR)的最小值(MI)和所述频谱表示(SR)的最大值(MA);以及还原因子计算器(21,22),所述还原因子计算器(21,22)被配置成基于所述最小值(MI)并且基于所述最大值(MA)来计算频谱线还原因子(SDF),所述频谱线还原因子(SDF)用于计算所述经逆处理的频谱(RS)中的表示比参考频谱线(RSLD)更低的频率的所述频谱线(SLD),其中所述经逆处理的频谱(RS)的所述频谱线(SLD)通过将所述频谱线还原因子(SDF)施加于所述解量化频谱(DQ)的频谱的频谱线来还原。
17.根据前一权利要求所述的音频译码器,其中所述还原因子计算器(21,22)进行配置的方式为在从所述参考频谱线(RSLD)至表示所述经逆处理的频谱(RS)的最低频率的频谱线(SL)的方向上所述频谱线还原因子(SDF)减小。
18.根据权利要求16或17所述的音频译码器,其中所述还原因子计算器(21,22)包含第一级(21),所述第一级(21)被配置成根据第一公式δ=(α·min/max)来计算基础还原因子(BDF),其中,α为第一预设值,α>1,β为第二预设值,0<β≤1,min为所述频谱表示(SR)的最小值(MI),max为所述频谱表示(SR)的最大值(MA),并且δ为基础还原因子(BDF),并且其中该还原因子计算器(21,22)包含第二级(22),所述第二级(22)被配置成根据第二公式ζi=δi’-i来计算频谱线还原因子(SDF),其中i’为要还原的所述频谱线(SLD)的数目,i为相应频谱线(SLD)的索引,所述索引随着所述频谱线的频率而增大,从i=0至i’-1,δ为基础还原因子(BDF)且ζi为索引为i的所述频谱线还原因子(SDF)。
19.根据前一权利要求所述的音频译码器,其中所述第一预设值小于42且大于22,具体地,小于38且大于26,更具体地,小于34且大于30。
20.根据权利要求18或19所述的音频译码器,其中所述第二预设值根据公式β=1/(θ·i’)来确定,其中i’为正被还原的所述频谱线(SLD)的数目,θ为介于3与5之间的因子,具体地,介于3,4与4,6之间的因子,更具体地,介于3,8与4,2之间的因子。
21.根据权利要求12至20中的一项所述的音频译码器,其中所述参考频谱线(RSLD)表示介于600Hz与1000Hz之间的频率,具体地,介于700Hz与900Hz之间的频率,更具体地,介于750Hz与850Hz之间的频率。
22.根据权利要求16至21中的一项所述的音频译码器,其中所述另一参考频谱线表示与所述参考频谱线(RSLD)相同的频率或比所述参考频谱线(RSLD)更高的频率。
23.根据权利要求12至22中的一项所述的音频译码器,其中所述控制装置(16)进行配置的方式为仅在所述最大值(MA)小于所述最小值(MI)乘以所述第一预设值时所述经逆处理的频谱(RS)中的表示比所述参考频谱线(RSLD)更低的频率的频谱线(SLD)被还原。
24.一种系统,所述系统包括译码器(1)和编码器(12),其中所述编码器(1)根据权利要求1至11中的一项来设计,和/或所述译码器根据权利要求12至23中的一项来设计。
25.一种用于对非语音音频信号(AS)进行编码以便依据所述非语音音频信号产生比特流(BS)的方法,所述方法包括以下步骤:
使用具有多个线性预测编码系数(LC)的线性预测编码滤波器(2)基于所述音频信号(AS)的帧(FI)并且基于所述线性预测编码系数(LC)来将所述音频信号(AS)的帧(FI)进行滤波并且转换进频域,以便输出频谱(SP);
基于所述频谱(SP)来计算经处理的频谱(PS),其中所述经处理的频谱(PS)中的表示比参考频谱线(RSL)更低的频率的频谱线(SL)被增强;以及
根据所述线性预测编码滤波器(2)的线性预测编码系数(LC)来控制对所述经处理的频谱(PS)的计算;
基于所述经处理的频谱(PS)来产生量化频谱(QS);以及
将所述量化频谱(QS)和所述线性预测编码系数(LC)嵌入所述比特流(BS)中。
26.一种用于基于非语音音频信号(AS)对比特流(BS)进行译码,以便依据所述比特流(BS)产生非语音音频输出信号(OS),尤其用于对由根据前一权利要求的方法产生的比特流(BS)进行译码的方法,所述比特流(BS)包含量化频谱(QS)和多个线性预测编码系数(LC),所述方法包括以下步骤:
从所述比特流(BS)提取所述量化频谱(QS)和所述线性预测编码系数(LC);
基于所述量化频谱(QS)产生解量化频谱(DQ);
基于所述解量化频谱(DQ)来计算经逆处理的频谱(RS),其中所述经逆处理的频谱(RS)中的表示比参考频谱线(RSLD)更低的频率的频谱线(SLD)被还原;以及
根据所述比特流(BS)中所包含的所述线性预测编码系数(LC)来控制对所述经逆处理的频谱(RS)的计算。
27.一种计算机可读存储介质,其上存储有用于在计算机或处理器上运行时执行根据权利要求25或26的方法的程序。
CN201910222132.1A 2013-01-29 2014-01-28 音频编码器、音频译码器及其方法 Active CN110047500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910222132.1A CN110047500B (zh) 2013-01-29 2014-01-28 音频编码器、音频译码器及其方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361758103P 2013-01-29 2013-01-29
US61/758,103 2013-01-29
CN201480006543.2A CN105122357B (zh) 2013-01-29 2014-01-28 频域中基于lpc进行编码的低频增强
CN201910222132.1A CN110047500B (zh) 2013-01-29 2014-01-28 音频编码器、音频译码器及其方法
PCT/EP2014/051585 WO2014118152A1 (en) 2013-01-29 2014-01-28 Low-frequency emphasis for lpc-based coding in frequency domain

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480006543.2A Division CN105122357B (zh) 2013-01-29 2014-01-28 频域中基于lpc进行编码的低频增强

Publications (2)

Publication Number Publication Date
CN110047500A true CN110047500A (zh) 2019-07-23
CN110047500B CN110047500B (zh) 2023-09-05

Family

ID=50030281

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201480006543.2A Active CN105122357B (zh) 2013-01-29 2014-01-28 频域中基于lpc进行编码的低频增强
CN201910222132.1A Active CN110047500B (zh) 2013-01-29 2014-01-28 音频编码器、音频译码器及其方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201480006543.2A Active CN105122357B (zh) 2013-01-29 2014-01-28 频域中基于lpc进行编码的低频增强

Country Status (20)

Country Link
US (5) US10176817B2 (zh)
EP (1) EP2951814B1 (zh)
JP (1) JP6148811B2 (zh)
KR (1) KR101792712B1 (zh)
CN (2) CN105122357B (zh)
AR (2) AR094682A1 (zh)
AU (1) AU2014211520B2 (zh)
BR (1) BR112015018040B1 (zh)
CA (1) CA2898677C (zh)
ES (1) ES2635142T3 (zh)
HK (1) HK1218018A1 (zh)
MX (1) MX346927B (zh)
MY (1) MY178306A (zh)
PL (1) PL2951814T3 (zh)
PT (1) PT2951814T (zh)
RU (1) RU2612589C2 (zh)
SG (1) SG11201505911SA (zh)
TW (1) TWI536369B (zh)
WO (1) WO2014118152A1 (zh)
ZA (1) ZA201506314B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014118152A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-frequency emphasis for lpc-based coding in frequency domain
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
US9338627B1 (en) 2015-01-28 2016-05-10 Arati P Singh Portable device for indicating emergency events
WO2018049279A1 (en) * 2016-09-09 2018-03-15 Dts, Inc. System and method for long-term prediction in audio codecs
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
CN111386568B (zh) * 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
WO2020146870A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
TWI789577B (zh) * 2020-04-01 2023-01-11 同響科技股份有限公司 音訊資料重建方法及系統

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4139732A (en) * 1975-01-24 1979-02-13 Larynogograph Limited Apparatus for speech pattern derivation
CN1275228A (zh) * 1998-08-21 2000-11-29 松下电器产业株式会社 多模式语音编码装置及解码装置
JP2007525707A (ja) * 2004-02-18 2007-09-06 ヴォイスエイジ・コーポレーション Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
WO2008100503A2 (en) * 2007-02-12 2008-08-21 Dolby Laboratories Licensing Corporation Improved ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
EP2214164A2 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
CN102648494A (zh) * 2009-10-08 2012-08-22 弗兰霍菲尔运输应用研究公司 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序
CN105122357B (zh) * 2013-01-29 2019-04-23 弗劳恩霍夫应用研究促进协会 频域中基于lpc进行编码的低频增强

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0738118B2 (ja) * 1987-02-04 1995-04-26 日本電気株式会社 マルチパルス符号化装置
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US4890327A (en) * 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US5173941A (en) * 1991-05-31 1992-12-22 Motorola, Inc. Reduced codebook search arrangement for CELP vocoders
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3360423B2 (ja) * 1994-06-21 2002-12-24 三菱電機株式会社 音声強調装置
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
DE69628103T2 (de) * 1995-09-14 2004-04-01 Kabushiki Kaisha Toshiba, Kawasaki Verfahren und Filter zur Hervorbebung von Formanten
JPH09230896A (ja) * 1996-02-28 1997-09-05 Sony Corp 音声合成装置
JP3357795B2 (ja) * 1996-08-16 2002-12-16 株式会社東芝 音声符号化方法および装置
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
JP3580777B2 (ja) * 1998-12-28 2004-10-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号又はビットストリームの符号化又は復号化のための方法及び装置
US6278972B1 (en) * 1999-01-04 2001-08-21 Qualcomm Incorporated System and method for segmentation and recognition of speech signals
JP3526776B2 (ja) * 1999-03-26 2004-05-17 ローム株式会社 音源装置及び携帯機器
US6782361B1 (en) * 1999-06-18 2004-08-24 Mcgill University Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system
JP2001117573A (ja) * 1999-10-20 2001-04-27 Toshiba Corp 音声スペクトル強調方法/装置及び音声復号化装置
US6754618B1 (en) * 2000-06-07 2004-06-22 Cirrus Logic, Inc. Fast implementation of MPEG audio coding
US6748363B1 (en) * 2000-06-28 2004-06-08 Texas Instruments Incorporated TI window compression/expansion method
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
JP2002318594A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
CN1529882A (zh) * 2001-05-11 2004-09-15 西门子公司 用于扩展窄带滤波的语音信号、特别是由通信设备发送的语音信号的带宽的方法
AU2002352182A1 (en) * 2001-11-29 2003-06-10 Coding Technologies Ab Methods for improving high frequency reconstruction
RU2321901C2 (ru) * 2002-07-16 2008-04-10 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
US8019598B2 (en) * 2002-11-15 2011-09-13 Texas Instruments Incorporated Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition
SG135920A1 (en) * 2003-03-07 2007-10-29 St Microelectronics Asia Device and process for use in encoding audio data
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
EP1619666B1 (en) * 2003-05-01 2009-12-23 Fujitsu Limited Speech decoder, speech decoding method, program, recording medium
DE10321983A1 (de) * 2003-05-15 2004-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Einbetten einer binären Nutzinformation in ein Trägersignal
US7640157B2 (en) * 2003-09-26 2009-12-29 Ittiam Systems (P) Ltd. Systems and methods for low bit rate audio coders
DE602004008973T2 (de) * 2004-05-14 2008-05-15 Loquendo-Società per Azioni Rauschminderung für die automatische spracherkennung
US7536302B2 (en) * 2004-07-13 2009-05-19 Industrial Technology Research Institute Method, process and device for coding audio signals
ATE534990T1 (de) * 2004-09-17 2011-12-15 Panasonic Corp Skalierbare sprachcodierungsvorrichtung, skalierbare sprachdecodierungsvorrichtung, skalierbares sprachcodierungsverfahren, skalierbares sprachdecodierungsverfahren, kommunikationsendgerät und basisstationsgerät
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
EP1859531A4 (en) * 2005-03-11 2008-04-09 Agency Science Tech & Res predictor
US7599833B2 (en) * 2005-05-30 2009-10-06 Electronics And Telecommunications Research Institute Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
RU2414009C2 (ru) * 2006-01-18 2011-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования и декодирования сигнала
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
KR101439205B1 (ko) * 2007-12-21 2014-09-11 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
BR122021009252B1 (pt) * 2008-07-11 2022-03-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados
RU2536679C2 (ru) * 2008-07-11 2014-12-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы
MY178597A (en) * 2008-07-11 2020-10-16 Fraunhofer Ges Forschung Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program
EP3693964B1 (en) * 2009-10-15 2021-07-28 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
MY166169A (en) * 2009-10-20 2018-06-07 Fraunhofer Ges Forschung Audio signal encoder,audio signal decoder,method for encoding or decoding an audio signal using an aliasing-cancellation
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
JP5648123B2 (ja) * 2011-04-20 2015-01-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声音響符号化装置、音声音響復号装置、およびこれらの方法
US9934780B2 (en) * 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
WO2013107602A1 (en) * 2012-01-20 2013-07-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio encoding and decoding employing sinusoidal substitution
US20140358529A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Systems, Devices and Methods for Processing Speech Signals

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4139732A (en) * 1975-01-24 1979-02-13 Larynogograph Limited Apparatus for speech pattern derivation
CN1275228A (zh) * 1998-08-21 2000-11-29 松下电器产业株式会社 多模式语音编码装置及解码装置
JP2007525707A (ja) * 2004-02-18 2007-09-06 ヴォイスエイジ・コーポレーション Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
US7933769B2 (en) * 2004-02-18 2011-04-26 Voiceage Corporation Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
WO2008100503A2 (en) * 2007-02-12 2008-08-21 Dolby Laboratories Licensing Corporation Improved ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
EP2214164A2 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
CN102648494A (zh) * 2009-10-08 2012-08-22 弗兰霍菲尔运输应用研究公司 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序
CN105122357B (zh) * 2013-01-29 2019-04-23 弗劳恩霍夫应用研究促进协会 频域中基于lpc进行编码的低频增强

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J.M KINEN 等: "AMR-WB+: A New Audio Coding Standard for 3rd Generation Mobile Audio Services", 《ICASSP 2005》 *
白燕宁 等: "码激励线性预测语音编码器中的非均匀和部分搜索域代数码书", 《电子与信息学报》 *

Also Published As

Publication number Publication date
US20180293993A9 (en) 2018-10-11
PT2951814T (pt) 2017-07-25
CN105122357A (zh) 2015-12-02
CN105122357B (zh) 2019-04-23
AR094682A1 (es) 2015-08-19
CN110047500B (zh) 2023-09-05
CA2898677C (en) 2017-12-05
AR115901A2 (es) 2021-03-10
MX2015009752A (es) 2015-11-06
US10176817B2 (en) 2019-01-08
ZA201506314B (en) 2016-07-27
JP6148811B2 (ja) 2017-06-14
KR101792712B1 (ko) 2017-11-02
US11854561B2 (en) 2023-12-26
US20150332695A1 (en) 2015-11-19
ES2635142T3 (es) 2017-10-02
JP2016508618A (ja) 2016-03-22
AU2014211520A1 (en) 2015-09-17
KR20150110708A (ko) 2015-10-02
TW201435861A (zh) 2014-09-16
WO2014118152A1 (en) 2014-08-07
EP2951814A1 (en) 2015-12-09
US20230087652A1 (en) 2023-03-23
PL2951814T3 (pl) 2017-10-31
TWI536369B (zh) 2016-06-01
US20180240467A1 (en) 2018-08-23
BR112015018040B1 (pt) 2022-01-18
CA2898677A1 (en) 2014-08-07
MX346927B (es) 2017-04-05
EP2951814B1 (en) 2017-05-10
RU2612589C2 (ru) 2017-03-09
AU2014211520B2 (en) 2017-04-06
US20200327896A1 (en) 2020-10-15
US10692513B2 (en) 2020-06-23
BR112015018040A2 (zh) 2017-07-11
US11568883B2 (en) 2023-01-31
SG11201505911SA (en) 2015-08-28
US20240119953A1 (en) 2024-04-11
RU2015136223A (ru) 2017-03-06
HK1218018A1 (zh) 2017-01-27
MY178306A (en) 2020-10-07

Similar Documents

Publication Publication Date Title
CN105122357B (zh) 频域中基于lpc进行编码的低频增强
KR100958144B1 (ko) 오디오 압축
CN107077858B (zh) 使用具有全带隙填充的频域处理器以及时域处理器的音频编码器和解码器
US9595262B2 (en) Linear prediction based coding scheme using spectral domain noise shaping
KR20080101873A (ko) 부호화/복호화 장치 및 방법
EP3175449B1 (en) Apparatus and method for generating an enhanced signal using independent noise-filling
EP2939235B1 (en) Low-complexity tonality-adaptive audio signal quantization
US9390722B2 (en) Method and device for quantizing voice signals in a band-selective manner
WO2009077950A1 (en) An adaptive time/frequency-based audio encoding method
KR20080034817A (ko) 부호화/복호화 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant