CN103477386B - 音频编解码器中的噪声产生 - Google Patents

音频编解码器中的噪声产生 Download PDF

Info

Publication number
CN103477386B
CN103477386B CN201280018251.1A CN201280018251A CN103477386B CN 103477386 B CN103477386 B CN 103477386B CN 201280018251 A CN201280018251 A CN 201280018251A CN 103477386 B CN103477386 B CN 103477386B
Authority
CN
China
Prior art keywords
audio signal
input audio
ground unrest
parameter
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280018251.1A
Other languages
English (en)
Other versions
CN103477386A (zh
Inventor
潘基·塞蒂亚万
斯特凡·维尔德
安东尼·隆巴尔多
马丁·迪茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN103477386A publication Critical patent/CN103477386A/zh
Application granted granted Critical
Publication of CN103477386B publication Critical patent/CN103477386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/13Residual excited linear prediction [RELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/02Synthesis of acoustic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Abstract

频谱域被有效使用以参数化背景噪声,从而获得背景噪声合成,该背景噪声合成更真实因而导致更透明的活动阶段至非活动阶段切换。

Description

音频编解码器中的噪声产生
技术领域
本发明涉及在非活动阶段期间支持噪声合成的音频编解码器。
背景技术
利用语音或其它噪声源的非活动周期来缩小传输带宽的可能性在本领域中是已知的。这样的方案一般使用某个检测形式来区别非活动(或无声)阶段与活动(或非无声)阶段。在非活动阶段期间,通过中止精准地编码记录信号的普通数据流的传输,而只发送无声插入描述(SID)更新而达成较低位率。SID更新可以常规间隔传输,或当检测到背景噪声特性改变时传输。然后SID帧可用在解码侧来产生具有类似在活动阶段期间的背景噪声的特性的背景噪声,从而使得中止编码记录信号的普通数据流的传输在接收者侧不会导致从活动阶段至非活动阶段令人不愉悦的过渡情况。
然而,仍然需要进一步降低传输率。位率使用者数量的增加,诸如移动电话数目的增加,及或多或少位率密集应用数量的增加,诸如无线传输广播,要求稳定地减少耗用的位率。
另一方面,合成噪声须密切地仿真真实噪声,使得该合成对使用者而言为透明可见的。
发明内容
据此,本发明的一个目的在于提供一种使得能够降低传输位率和/或有助于提高可获得的噪声产生质量的在非活动阶段期间支持噪声产生的音频编解码器方案。
该目的通过未决的独立权利要求的一部分主题而获得。
本发明的一个目的在于提出一种在非活动阶段期间支持合成噪声产生的音频编解码器,就例如位率和/或运算复杂度而言,所述音频编解码器以适度的开销产生更真实感的噪声。
后者的目的也可通过本申请的独立权利要求的另一部分的主题来获得。
具体地,本发明的基本构想在于,频谱域可极为有效地用来参数化背景噪声,从而获得更真实的背景噪声的合成,并因此导致活动阶段切换至非活动阶段更透明可见。此外,已经发现,在频谱域中参数化背景噪声,使得能够从有用信号中分离噪声及据此,在频谱域中参数化背景噪声当与在活动阶段期间参数背景噪声估计值的前述连续更新结合时具有优点,原因在于,频谱域中可获得噪声与有用信号间之间的更好的分离,从而使得当组合本申请的两个优势方面时,无需从一个域至另一域的额外的转换。
根据特定实施方式,通过在活动阶段期间连续地更新参数背景噪声估计值,使得一旦活动阶段之后进入非活动阶段可即刻地开始噪声的生成,可节省有价值的位率以维持噪声产生质量。例如,连续更新可在解码侧进行,无需在非活动阶段的检测之后紧接的热身阶段(warm-upphase)期间对解码侧初步地提供背景噪声的编码表示型态,所述提供将耗用有价值的位率,原因在于,解码侧已经在活动阶段期间连续地更新参数背景噪声估计值,及如此,随时准备即刻地进入非活动阶段,伴以适当的噪声产生。同样,若该参数背景噪声估计值在编码侧进行,则可避免这样的热身阶段。替代当检测得进入非活动阶段时初步地继续对解码侧提供传统的背景噪声的编码表示型态以了解该背景噪声,并在据此了解阶段后通知该解码侧,所述编码器能够立即在检测到进入非活动阶段时,通过返回到在过去活动阶段期间所连续地更新的参数背景噪声估计值,对解码器提供所需的参数背景噪声估计值,从而避免额外执行询查式编码背景噪声而初步耗用位率。
本发明的实施方式的其他优点细节为未决权利要求书的从属权利要求的主题。
附图说明
图1为示出了根据实施方式的音频编码器的框图;
图2示出了编码引擎14的可能的实施;
图3示出了根据实施方式的音频解码器的框图;
图4示出了根据实施方式的图3的解码引擎的可能的实施;
图5示出了根据实施方式的另外的更具体的描述的音频编码器的框图;
图6示出了根据实施方式的能够与图5中的编码器结合使用的解码器的框图;
图7示出了根据实施方式的另外的更具体的描述的音频解码器的框图;
图8示出了根据实施方式的音频编码器的频谱带宽扩展部分的框图;
图9示出根据实施方式的图8的CNG频谱带宽扩展编码器的实施;
图10示出了根据使用频谱带宽扩展的实施方式的音频解码器的框图;
图11示出了使用频谱带宽扩展的音频解码器的另一实施方式的可能的更具体的描述的框图;
图12示出了根据使用频谱带宽扩展的另一实施方式的音频编码器的框图;以及
图13示出了音频编码器的另一实施方式的框图。
具体实施方式
图1示出了本发明实施方式的音频编码器。图1的音频编码器包含背景噪声估算器12、编码引擎14、检测器16、音频信号输入18及数据流输出20。提供器12、编码引擎14及检测器16分别地具有连接至音频信号输入18的输入。估算器12及编码引擎14的输出分别经由开关22连接至数据流输出20。开关22、估算器12及编码引擎14分别具有连接至检测器16的输出的控制输入。
编码器14在活动阶段24期间将输入音频信号编码成数据流30,及检测器16被配置为基于输入信号检测跟随在活动阶段24之后的非活动阶段28的进入34。由编码引擎14输出的数据流30的部分被标示为44。
背景噪声估算器12被配置为基于输入音频信号的频谱分解表示型态而确定参数背景噪声估计值,从而使得参数背景噪声估计值频谱描述输入音频信号的背景噪声的频谱波封。确定可始于进入非活动阶段38时,即,恰在检测器16检测到非活动性时的时间瞬间34之后。在这种情况下,数据流30的正常部分44将略微扩展至非活动阶段,即,将持续另一个短的时间段足够让背景噪声估算器12从输入信号了解/估算背景噪声,假设输入信号只由背景噪声组成。
然而,下述实施方式采用另一种方式。根据以下进一步描述的可选实施方式,在活动阶段期间可连续地执行确定来更新供当进入非活动阶段时即刻使用的估计值。
总而言之,音频编码器10被配置为在非活动阶段28期间,诸如使用SID帧32及38来将参数背景噪声估计至编码成数据流30。
因此,尽管后续说明的多个实施方式指在活动阶段期间连续地执行噪声估算以能够即刻地开始噪声合成,但非必要为此种情况,实施可以与此不同。通常,在这些优选实施方式中呈现的所有细节应该被理解为也说明或披露例如相应的噪声估算在检测到所述噪声估计值时进行的实施方式。
因此,背景噪声估算器12被配置为基于在输入18处进入音频编码器10的输入音频信号,在活动阶段24期间连续地更新参数背景噪声估计值。尽管图1示出背景噪声估算器12可基于在输入18处所输入的音频信号而导出参数背景噪声估计值的连续更新,但非必要为此种情况。背景噪声估算器12可可选地或另外地从编码引擎14获得音频信号的版本,如虚线26所示。在这种情况下,背景噪声估算器12可选地或另外地分别经由连接线26及编码引擎14而间接地连接至输入18。更具体地,对于背景噪声估算器12,存在连续地更新背景噪声估计值的不同的可能性,在下文中进一步描述这些可能性中的一些。
编码引擎14被配置为在活动阶段24期间将到达输入18的输入音频信号编码成为数据流。活动阶段应涵盖有用的信息含在诸如语音或其它噪声源的有用声音的音频信号内的全部时间。另一方面,具有几乎时间不变特性的声音诸如于扬声器背景中由雨声或交通声所引起的时间不变频谱须归类为背景噪声,每当只存在有此种背景噪声时,相应的时间段应归类为非活动阶段28。检测器16负责基于在输入18的输入音频信号而检测跟随在活动阶段24后的非活动阶段28的进入。换言之,检测器16区别两个阶段,即,活动阶段及非活动阶段,其中,检测器16确定目前存在哪个阶段。检测器16通知编码引擎14有关目前存在的阶段,及如前文已述,编码引擎14在活动阶段24期间执行将输入音频信号编码成为数据流。检测器16据此控制开关22,从而使得由编码引擎14输出的数据流在输出20处输出。在非活动阶段期间,编码引擎14可停止对输入音频信号的编码。至少在输出20处输出的数据流不再由可能通过编码引擎14所输出的任何数据流而馈入。此外,编码引擎14可只执行最少处理来支持估算器12而只有若干状态变量更新。该动作将很大程度上降低运算功率。例如,开关22被设定为使得估算器12的输出被连接至输出20,而非连接至编码引擎的输出。从而减少用以传输在输出20处输出的位流的有用的传输位率。
在背景噪声估算器12被配置为在活动阶段24期间基于如前文已述的输入音频信号18而连续地更新参数背景噪声估计值的情况下,恰在从活动阶段24过渡至非活动阶段28后,即,恰在进入非活动阶段28时,估算器12能够将在活动阶段24期间所连续地更新的参数背景噪声估计值插入在输出20处所输出的数据流30中。紧接在活动阶段24结束后,及紧接在检测器16检测到进入非活动阶段28的时间瞬间34后,背景噪声估算器12例如可将无声插入描述符(SID)帧32插入数据流30内。换言之,由于在活动阶段24期间背景噪声估算器对参数背景噪声估计值的连续更新,故非活动阶段28的进入的检测器检测与SID32的插入之间无需时间间隙。
因此,总结根据实施图1的实施方式的优选项的图1的音频编码器10的以上描述可操作如下。用于例示说明目的,假设目前存在活动阶段24。在这种情况下,编码引擎14当前将在输入18处的输入音频信号编码成数据流20。开关22将编码引擎14的输出连接至输出20。编码引擎14可使用参数编码及变换编码来将输入音频信号18编码成数据流。更具体地,编码引擎14可以帧为单位编码该输入音频信号,各个帧编码该输入音频信号的连续-部分彼此重迭-的时间间隔中的一个。编码引擎14额外地可在数据流的连续帧间,在不同编码模式间切换。例如,某些帧可使用预测编码诸如CELP编码而编码,而一些其它帧可使用变换编码诸如TCX或AAC编码而编码。请参考例如在2010年9月24日的ISO/IECCD23003-3中描述的USAC及其编码模式。
在活动阶段24期间,背景噪声估算器12连续地更新参数背景噪声估计值。据此,背景噪声估算器12可被配置为区别输入音频信号内的噪声成分与有用信号成分,以只从噪声成分中确定参数背景噪声估计值。背景噪声估算器12在频谱域中执行该更新,所述频谱域诸如为也可用在编码引擎14内的变换编码的频谱域。此外,在例如变换编码输入信号的以LPC为基础的滤波版本,而非进入输入18或遗漏编码成数据流的音频信号期间,背景噪声估算器12可基于作为中间结果在编码引擎14内获得的激励信号或残差信号而执行更新。由此,输入音频信号内的大量有用信号成分已经被移除,从而使得对于背景噪声估算器12,噪声成分的检测更容易。作为频谱域,可使用重迭变换域诸如MDCT域,或滤波器组域诸如复数值滤波器组域诸如QMF域。
在活动阶段24期间,检测器16也连续地运行以检测非活动阶段28的进入。检测器16可具体实施为语音/声音活动检测器(VAD/SAD)或一些其它装置,所述装置确定有用的信号成分目前是否存在于输入音频信号中。检测器16决定活动阶段24是否继续的基本标准可以是:检查输入音频信号的低通滤波功率是否保持低于某个临界值,假设一旦超过所述临界值则进入非活动阶段。
与检测器16执行检测在活动阶段24之后进入非活动阶段28的确切方式独立无关地,检测器16即刻地通知其它实体12、14及22进入非活动阶段28。在活动阶段24期间背景噪声估算器的连续更新参数背景噪声估计值的情况下,在输出20处输出的数据流30可即刻避免进一步从编码引擎14馈入。反而,当被通知进入非活动阶段28时即刻,背景噪声估算器12将以SID帧32形式,将参数背景噪声估计值的最新更新的信息插入数据流30内。换言之,SID帧32可以紧接在编码引擎的最末帧之后,该最末帧编码有关检测器16检测非活动阶段进入的时间间隔的音频信号的帧。
一般而言,背景噪声不常改变。在大部分情况下,背景噪声倾向于随时间不变。据此,恰在检测器16检测到非活动阶段28的起始后即刻,在背景噪声估算器12插入SID帧32后,任何数据流的传输可被中断,从而使得在该中断阶段34中,数据流30并不耗用任何位率,或只耗用一些传输目的所要求的最小位率。为了维持最小位率,背景噪声估算器12可间歇地重复SID32的输出。
然而,尽管背景噪声倾向于不随时间而改变,但是,可能出现背景噪声改变。例如,假设在用户打电话过程中,移动电话用户离开汽车,从而背景噪声从马达噪声改变成车外的交通噪声。为了追踪这样的背景噪声的改变,背景噪声估算器12可被配置为来连续地测量背景噪声,即便在非活动阶段28期间亦是如此。每当背景噪声估算器12确定参数背景噪声估计值的改变量超过某个临界值时,背景估算器12可经由另一个SID38而将参数背景噪声估计值的更新版本插入数据流20中,其中,随后可接着另一个中断阶段40,直到例如检测器16检测到另一个活动阶段42开始为止等。当然,揭露目前已更新参数背景噪声估计值的SID帧可选地或此外地,以中间方式散布在非活动阶段内,而与参数背景噪声估计值的改变独立无关。
显然,由编码引擎14输出且通过使用阴影线在图1中示出的数据流44比在非活动阶段28期间将被传输的数据流片段32及38耗用更多传输位率,因而位率的节省相当显著。
此外,在背景噪声估算器12能够通过前述可选的连续估计值更新而即刻地开始进行至进一步馈进数据流30的情况下,超过时间上非活动阶段检测点34即无需初步继续传输编码引擎14的数据流44,因而更进一步降低了总耗用位率。
如以下关于更特定的实施方式进一步具体说明的,在输入音频信号的编码中,编码引擎14可被配置为将输入音频信号预测编码成线性预测系数和激励信号,分别将激励信号变换编码数据流30以及将线性预测系数编码成数据流44。图2中示出了一种可能的实施。根据图2,编码引擎14包含依次串联连接在编码引擎的音频信号输入56和数据流输出58之间的变换器50、频域噪声整形器(frequencydomainnoiseshaper,FDNS)52、及量化器54。此外,图2的编码引擎14包括线性预测分析模块60,模块60被配置为通过音频信号的部分的相应的分析窗口及在窗口部分上施加自相关性来从音频信号56确定线性预测系数,或基于由变换器50输出的输入音频信号的变换域中的变换而确定自相关性(autocorrelation),确定方式使用其功率频谱,及施加反DFT于其上,因而确定自相关性,随后基于该自相关性诸如使用(韦-)李-杜算法执行线性预测编码(LPC)估算。
基于由线性预测分析模块60确定的线性预测系数,于输出58所输出的数据流被馈以关于LPC的相应信息,及频域噪声整形器被控制为根据对应于由通过模块60所输出的线性预测系数所确定的线性预测分析滤波器的转移函数而频谱整形音频信号的频谱图。用于在数据流中传输的LPC的量化可在LSP/LSF域及使用内插法进行,以相比较分析器60中的分析速率,减低传输速率。此外,在FDNS中所执行的LPC至频谱加权转换可涉及施加ODFT至LPC上,及施加所得加权值至变换器的频谱作为除数。
然后,量化器54量化频谱形成的(平坦化)频谱图的变换系数。例如,变换器50使用重迭变换诸如MDCT来将该音频信号从时域转换成频谱域,从而获得对应于输入音频信号的重迭窗口部分的连续变换,然后根据LP分析滤波器的转移函数,通过加权这些变换而通过频域噪声整形器52频谱形成所述窗口部分。
已整形的频谱图可被解释为激励信号,如虚箭头62所示,背景噪声估算器12可被配置为使用该激励信号来更新参数背景噪声估计值。可选地,如虚箭头64所指示的,背景噪声估算器12可利用作为变换器50输出的重迭变换表示型态作为直接更新的基础,即,无需通过噪声整形器52进行频域噪声整形。
有关图1至图2中示出的组件的可能实施的其他细节可从随后的更具体的实施方式中导出,且注意,全部这些细节都可单独地转用至图1和图2的组件。
然而,在描述这些更具体的实施方式之前,参照图3,其另外地或可选地示出了可在解码器侧执行参数背景噪声估计值更新。
图3的音频解码器80被配置为解码在解码器80的输入82处进入的数据流,以从所述数据流重建将在解码器80的输出处被输出的音频信号。数据流包括至少一个活动阶段86,在活动阶段之后接着非活动阶段88。音频解码器80内包括背景噪声估算器90、解码引擎92、参数随机产生器94以及背景噪声产生器96。解码引擎92连接在输入82与输出84之间,同样,背景噪声估算器90、背景噪声产生器96及参数随机产生器94串联连接在输入82与输出84之间。解码器92被配置为在活动阶段期间从数据流重建音频信号,从而使得作为输出84处的输出的音频信号98包括噪声及适当质量的有用声音。
背景噪声估算器90被配置为基于从数据流获得的输入音频信号的频谱分解表示型态而确定参数背景噪声估计值,从而使得所述参数背景噪声估计值频谱描述输入音频信号的背景噪声的频谱波封。参数随机产生器94及背景噪声产生器96被配置为通过在非活动阶段期间,使用参数背景噪声估计值控制参数随机产生器而在非活动阶段期间重建音频信号。
然而,如图3中的虚线所指示的,音频解码器80可以不包括估算器90。而是,如前文所示,数据流可以具有编码在其中的参数背景噪声估计值,所述参数背景噪声估计值频谱描述背景噪声的频谱波封。在这种情况下,解码器92可以被配置为在活动阶段期间从数据流重建音频信号,同时参数随机产生器94及背景噪声产生器96协作,从而使得产生器96通过在非活动阶段88期间,根据参数背景噪声估计值控制参数随机产生器94而在非活动阶段期间合成音频信号。
然而,如果存在估算器90,则图3的解码器80可在非活动阶段106的进入106时通过数据流88诸如利用启动不活动旗标而被通知。然后,解码器92可进行继续解码初步额外馈给部分102,及背景噪声估算器可以在时间瞬间106之后的初步时间以内了解/估计背景噪声。然而,根据上述图1和图2的实施方式,背景噪声估算器90可以被配置为在活动阶段期间从数据流连续地更新参数背景噪声估计值。
背景噪声估算器90可以不直接而是经由解码引擎92连接至输入82,如虚线100所示,以从解码引擎92获得音频信号的某个重建版本。原理上,背景噪声估算器90可被配置为与背景噪声估算器12极其类似地操作,但下述事实除外,背景噪声估算器90只访问音频信号的可重建版本,即,包括在编码侧由量化所造成的损耗。
参数随机产生器94可包括一个或多个真或伪随机数产生器,通过所述产生器输出的数值序列可符合统计分布,所述统计分布可经由背景噪声产生器96而参数地设定。
背景噪声产生器96被配置为通过在非活动阶段88期间根据从背景噪声估算器90获得的参数背景噪声估计值控制参数随机产生器94,而在非活动阶段88期间合成音频信号98。尽管两个实体96及94被显示为串联连接,但串联连接不应该被解释为限制性的。产生器96与94可以交联。实际上,产生器94可以被解释为产生器96的一部分。
因此,根据图3的有利的实施,图3的音频解码器80的操作模式可以是如下。在活动阶段86期间,输入82被连续地提供以数据流部分102,该部分102在活动阶段86期间将由解码引擎92处理。然后,在某个时间瞬间106,在输入82处进入的数据流104停止专用于解码引擎92的数据流部分102的传输。换言之,对于通过引擎92的解码,在时间瞬间106不再有额外的数据流部分的帧是可用的。非活动阶段88的进入的传讯(signalization)可以是数据流部分102传输的中断,或可通过紧接排列在非活动阶段88起点处的一些信息108而被信号通知。
总而言之,非活动阶段88的进入发生的极为突然,但这并不是问题,因为在活动阶段86期间,背景噪声估算器90已经基于数据流部分102连续地更新了参数背景噪声估计值。由此,一旦非活动阶段88在106开始时,背景噪声估算器90能够对背景噪声产生器96提供以参数背景噪声估计值的最新版本。因此,从时间瞬间106开始,由于解码引擎92不再被馈以数据流部分102,所以解码引擎92停止输出任何音频信号重建,但参数随机产生器94由背景噪声产生器96根据参数背景噪声估计值加以控制,从而使得在时间瞬间106之后即刻可在输出84处输出背景噪声的仿真,以无缝地跟随如由解码引擎92所输出的重建音频信号直到时间瞬间106。交叉衰减可用来从如由引擎92所输出的活动阶段的最末重建帧转变至如通过最近更新的参数背景噪声估计值版本所确定的背景噪声。
背景噪声估算器90被配置为在活动阶段86期间,连续地更新来自数据流104的参数背景噪声估计值,背景噪声估算器90可被配置为区别在音频信号版本内在活动阶段86从数据流104所重建的噪声成分与有用信号成分,并只从噪声成分而不从有用信号成分确定参数背景噪声估计值。背景噪声估算器90执行该区别/分离的方式对应于上述相对于背景噪声估算器12的所述的方式。例如,可使用解码引擎92内从数据流104所内部重建的激励信号或残差信号。
类似图2,图4示出了解码引擎92的可能的实施。根据图4,解码引擎92包括用以接收数据流部分102的输入110,及用以输出在活动阶段86内的重建音频信号的输出112。串联连接在它们之间,解码引擎92包括去量化器114、频域噪声整形器(FDNS)116及逆变换器(inversetransformer)118,它们依次连接在输入110与输出112之间。到达输出110处的数据流部分102包括:激励信号的变换编码版本,即,表示该激励信号的之变换系数等级,所述变换系数等级被馈至去量化器114的输入;以及关于线性预测系数的信息,该信息被馈至频域噪声整形器116。去量化器114去量化激励信号的频谱表示型态并将其转发至频域噪声整形器116,频域噪声整形器116转而根据对应于线性预测合成滤波器的转移函数而频谱形成激励信号(连同平坦量化噪声)的频谱图,从而形成量化噪声。原则上,图4的FDNS116的作用类似于图2图的FDNS:LPC提取自数据流,及然后例如通过施加ODFT至所提取的LPC,然后施加所得频谱加权至得自去量化器114的去量化频谱上作为乘数,LPC受到频谱加权转换。然后重新变换器118将由此得到的音频信号重建从频谱域转变至时域,及在音频信号112输出如此所得的重建音频信号。重迭变换可由逆变换器118诸如由IMDCT使用。如虚线箭头120所示,激励信号的频谱图可由背景噪声估算器90用于参数背景噪声更新。可选地,可以使用音频信号本身的频谱图,如虚线箭头122所指示。
关于图2和图4,应该注意的是,用以体现编码/解码引擎的这些实施方式并不被解释为限制性的。其它实施方式也是可行的。此外,编码/解码引擎可以为多模式编解码器类型,其中,图2和图4的部分仅假设只负责编码/解码具有特定帧编码模式与其相相关联的帧,而其它帧由图2和图4中为示出的编码引擎/解码引擎的其他部分负责。这样的另一种帧编码模式也可以是例如使用线性预测编码的预测编码模式,但编码在时域编码而非使用变换编码。
图5示出了图1的更具体的实施方式。更具体地,根据特定实施方式,背景噪声估算器12在图5中被进一步详细示出。
根据图5,背景噪声估算器12包括变换器140、FDNS142、LP分析模块144、噪声估算器146、参数估算器148、平稳性测量器150、以及量化器152。上述提及的一些组件部分地或全部地可由编码引擎14所共同拥有。例如,变换器140与图2的变换器50可以相同,线性预测分析模块60与144可以相同,FDNS52与142可以相同,和/或量化器54与量化器152可在一个模块内实施。
图5还示出了位流封装器154,其被动地负责图1中开关22的操作。更具体地,例如,作为图5的编码器的检测器的VAD16,只是确定须采用哪一路径,音频编码14路径或背景噪声估算器12路径。更精确地,编码引擎14和背景噪声估算器12都并联连接在输入18与封装器154之间,其中,在背景噪声估算器12内,变换器140、FDNS142、LP分析模块144、噪声估算器146、参数估算器148以及量化器152串联连接在输入18与封装器154之间(以上述顺序),而LP分析模块144分别连接在输入18与FDNS模块142的LPC输入与量化器152的另一输入之间,以及平稳性测量器150另外地连接在LP分析模块144与量化器152的控制输入之间。位流封装器154仅在接收到来自与其输入连接至的任一个实体的输入时执行封装。
在传输零帧的情况下,即,在非活动阶段的中断阶段期间,检测器16通知背景噪声估算器12,尤其是量化器152,以停止处理且不发送任何输入给位流封装器154。
根据图5,检测器16可在时域和/或变换域/频谱域中操作以检测活动阶段/非活动阶段。
图5的编码器的操作模式如下。如将更明了,图5的编码器能够改善舒适噪声的质量,诸如通常为静态噪声,诸如汽车噪声、许多人讲话的喃喃噪声、某些乐器、及特别富含和谐的噪声诸如雨滴声。
更具体地,图5的编码器控制在解码侧的随机产生器,以激励变换系数,从而使得仿真在编码侧检测的噪声。据此,在讨论图5的编码器的功能性之前,主要参照图6,图6示出了解码器的一个可能的实施方式,所述解码器能够如由图5图的编码器指示而在解码侧仿真舒适的噪声。通常,图6示出了匹配图1的编码器的解码器的可能的实施。
更具体地,图6的解码器包括解码引擎160以在活动阶段期间解码数据流部分44,以及舒适噪声产生部分162,用以基于在有关非活动阶段28的数据流中提供的信息32和38产生舒适的噪声。舒适噪声产生部分162包括参数随机产生器164、FDNS166及逆变换器(或合成器)168。模块164至168彼此串联连接,从而使得在合成器168的输出处,产生舒适噪声,该舒适噪声填补相对于图1讨论的在非活动阶段28期间通过解码引擎160所输出的重建音频信号之间的间隙。处理器FDNS166及逆变换器168可以是解码引擎160的一部分。更具体地,例如,可以与图4的FDNS116及118相同。
图5和图6的各模块的操作模式及功能性从后文讨论将更为明了。
更具体地,,变换器140诸如通过使用重迭变换将输入信号频谱分解成频谱图。噪声估算器146被配置为从频谱图中确定噪声参数。同时,语音或声音活动检测器16评估从输入信号导出的特征,以检测是否发生从活动阶段过渡至非活动阶段,反之亦然。由检测器16所利用的特征可以呈瞬时/起始检测器、音调测量以及LPC残差测量的形式。瞬时/起始检测器可以被用来检测于干净环境或去噪声化信号中活动语音的攻击(能量的突增)或起始;音调测量可用来区别有用的背景噪声,诸如警笛声、电话铃声及音乐声;LPC残差可用来获得信号中存在有语音的指示。基于这些特征,检测器16能粗略地给出目前帧是否可归类为例如语音、无声、音乐或噪音的信息。
尽管噪声估算器146可负责区别频谱图内部的噪声与其中的有用信号成分,诸如在[R.Martin,NoisePowerSpectralDensityEstimationBasedonOptimalSmoothingandMinimumStatistics,2001(R.Martin,基于最佳平滑化及最小统计数据之噪声功率频谱密度估计,2001)]中所提出的,参数估算器148可负责统计分析噪声成分,并例如基于噪声成分而确定各个频谱成分的参数。
噪声估算器146例如可被配置为搜寻频谱图中的局部最小值,及参数估算器148可被配置为确定在这些部分处的噪声统计,假设频谱图中的最小值主要由于背景噪声而非前景声音所促成。
作为中间注释,要强调的是,也可以通过没有FDNS142的噪声估算器进行估算,因为最小值确实也出现在未经整形的频谱中。图5的大部分描述维持不变。
参数量化器152转而可被配置为参数化由参数估算器148所估算的参数。例如,只要考虑噪声成分,参数可描述频谱值在输入信号的频谱图内的频谱值的分布的平均幅值及一次幂或更高次幂动量。为了节省位率,参数可以被转发至数据流用来以比变换器140所提供的频谱分辨率更低的频谱分辨率而插入SID帧内部。
平稳性测量器150可以被配置为为噪声信号导出平稳性度量。参数估算器148转而可使用该平稳性测量,以确定是否应通过发送另一个SID帧诸如图1的帧38而开始参数更新,或影响参数的估算方式。
模块152量化由参数估算器148及LP分析模块144所计算的参数,并将此信号通知至解码侧。更具体地,在量化前,频谱成分可分成多组。这样的分组可依据心理声学方面而选择,诸如符合咆哮定标等。检测器16通知量化器152是否需执行量化。在无需量化的情况下,零帧应该跟随。
当将描述转用至从活动阶段切换至非活动阶段的具体情况时,图5的模块操作如下。
在活动阶段期间,编码引擎14经由封装器保持将音频信号编码成数据流。编码可以逐帧进行。数据流的各个帧可表示音频信号的时间部分/时间间隔。音频编码器14可被配置为使用LPC编码而编码全部帧。音频编码器14可以被配置为如相对于图2中所描述的编码一些帧,例如称作TCX帧编码模式。剩余的可使用代码激励线性预测(CELP)编码诸如ACELP编码模式被编码。换言之,数据流的部分44可包括利用等于或大于帧率某个LPC传输率LPC系数的连续的更新。
并行地,噪声估算器146检查LPC平坦化(被滤波的LPC分析)频谱,以识别TCX频谱图内由这些频谱序列所表示的最小值kmin。当然,这些最小值可随时间t而改变,即,kmin(t)。然而,最小值可在由FDNS142所输出的频谱图形成迹线,因此,对于在时间ti的各个连续频谱i,最小值可分别地与在先前频谱及后续频谱的最小值相关联。
然后,参数估算器从其中导出背景噪声估计值参数,诸如不同频谱成分或频带的取中倾向(平均值、中数等)m和/或分散性(标准偏差、变量等)d。所述导出可涉及频谱图的在该最小值处的频谱的连续频谱系数的统计分析,从而产生在kmin处的各个最小值的m及d。前述频谱最小值之间的沿频谱维度的内插可以被执行,以获得其它预定频谱成分或频带的m及d。导出和/或取中倾向(平均值)的内插及分散性(标准偏差、变量等)的导出的频谱分辨率可能各异。
刚才提及的参数例如根据由FDNS142输出的频谱而被连续地更新。
一旦检测器16检测到进入非活动阶段,检测器16可据此通知编码引擎14,从而使得不再有活动帧被转发至封装器154。然而,量化器152在非活动阶段内输出在第一SID帧中的刚才提及的统计噪声参数。SID帧可以或可不包括LPC的更新。如果存在LPC更新,则可以部分44,即,在活动阶段期间所使用的格式在SID帧32的数据流内部传递,诸如使用于LSF/LSP定义域的量化,或不同地,诸如使用相对应于LPC分析滤波器或LPC合成滤波器的转移函数的频谱权值,诸如在进行活动阶段中已经由FDNS142施加在编码引擎14的框架内的这些频谱权值。
在非活动阶段期间,噪声估算器146、参数估算器148及平稳性测量器150保持共同协作,以保持解码侧的更新跟得上背景噪声的变化。更具体地,测量器150检查由LPC限定的频谱权值,以识别改变并通知估算器148何时SID帧须被发送给解码器。例如,每当前述平稳性度量指示LPC的波动度超过某个量时,测量器150可据此而激活估算器。另外或可选地,估算器可被触发来以规则基础发送更新的参数。在这些SID更新帧40之间,在数据流中不发送任何信息,即,“零帧”。
在解码器端,在活动阶段期间,解码引擎160假设负责重建音频信号。一旦非活动阶段开始,适应性参数随机产生器164使用在非活动阶段期间由参数量化器150所发送的在数据流内的去量化随机产生器参数来产生随机频谱成分,从而形成随机频谱图,其在频谱能处理器166内频谱形成,合成器168然后执行从频谱域再度变换成时域。对于FDNS166内的频谱形成,可使用得自最近活动帧的最近LPC系数,或可通过外推法而从其中导出由FDNS166施加的频谱加权,或SID帧32本身可传递信息。通过该测量,在非活动阶段开始处,FDNS166继续根据LPC合成滤波器的转移函数而频谱地加权输入频谱,限定LPC合成滤波器的LPS从活动数据部分44或SID帧32被导出。然而,随着非活动阶段开始,通过FDNS166整形的频谱为随机产生的频谱而非如同TCX帧编码模式的变换编码。此外,在166处施加的频谱整形仅通过使用SID帧38非连续地更新。在中断阶段36期间,可执行内插或衰减来从一个频谱整形定义逐渐切换至下一个。
如图6所示,适应性参数随机产生器164可额外地选择性地使用如含在数据流中的最近活动阶段的最近部分内,即,含在恰在进入非活动阶段前的数据流部分44内的去量化变换系数。例如,用途为从活动阶段内的频谱图平滑地变迁成非活动阶段内的随机频谱图。
大致参照图1和图3,根据图5和图6(及后文说明的图7)的实施方式,在编码器和/或解码器内产生的参数背景噪声估计值可包括关于不同的频谱部分诸如咆哮带或不同频谱成分的时间上连续频谱值的分配的统计信息。对于每个这样的频谱部分,例如,统计信息可含有分散性测量。据此,分散性测量可以频谱解析方式限定在频谱信息中,即,在/对于频谱部分取样。频谱分辨率,即,沿频谱轴展开的分散性及取中倾向的测量数目可在例如分散性测量与选择性地存在的平均值或取中倾向度量之间不同。统计信息包含在SID帧内。参照整形频谱诸如LPC分析滤波(即,LPC平坦化)频谱,诸如整形MDCT频谱,其使得能够根据统计频谱合成随机频谱来进行合成,及根据LPC合成滤波器的转移函数而解除其整形。在这种情况下,频谱整形信息可存在于SID帧内,尽管例如可于第一SID帧32离开。然而,如后所示,该统计信息可可选地参照非整形频谱。此外,替代使用实数值频谱表示型态诸如MDCT,可使用复数值滤波器组频谱诸如音频信号的QMF频谱。例如,非整形形式的音频信号的QMF频谱可以被使用并由统计信息统计地描述,在这种情况下,除了含在统计信息本身之外并无频谱整形。
类似于图3的实施方式相对于图1的实施方式间的关系,图7示出图3的解码器的可能实施。如使用图5的相同组件符号所示,图7的解码器可包括噪声估算器146、参数估算器148及平稳性测量器150,其操作类似图5的相同组件,然而,图7的噪声估算器146对传输的且去量化的频谱图诸如图4的120或122进行操作。然后噪声估算器146的操作类似图5中所讨论的。同理适用于参数估算器148,其在揭示在活动阶段期间如经由/从数据流传输的且去量化的LPC分析滤波器的(或LPC合成滤波器的)频谱的时间展频的能量和频谱值或LPC数据上操作。
尽管组件146、148及150用作图3的背景噪声估算器90,但图7的解码器也包括适应性参数随机产生器164及FDNS166,以及逆变换器168,与图6中类似,它们彼此串联连接,以在合成器168的输出处输出舒适噪声。模块164、166及168用作图3的背景噪声产生器96,模块164负责参数随机产生器94的功能性。适应性参数随机产生器94或164根据由参数估算器148所确定的参数而随机地产生频谱图的频谱成分,该频谱成分又转而使用由平稳性测量器150所输出的平稳性测量而被触发。然后,处理器166频谱整形由此产生的频谱图,逆变换器168然后执行从频谱域至时域的变换。注意当在非活动阶段88期间,解码器接收信息108,背景噪声估算器90执行噪声估计值的更新,接着进行某种内插手段。否则,若接收到零帧,则将仅进行诸如内插和/或衰减的处理。
总结图5至图7,这些实施方式示出技术上可以施加控制的随机产生器164来激励TCX系数,可以是诸如MDCT中的实数或诸如FFT中的复数。也可有利地施加随机产生器164至通常通过滤波器组获得的多组系数。
随机产生器164优选地被控制使得噪声类型尽可能接近同样的模型。如果目标噪声为事前已知则可达成。有些应用许可此点。在个体可能遇到不同类型的噪声的许多实际应用中,要求适应性方法,如图5至图7所示。从而,使用适应性参数随机产生器164,可简短地定义为g=f(x),其中,x=(x1,x2,…)为分别地由参数估算器146及150所提供的随机产生器参数集合。
为了让参数随机产生器变成适应性,随机产生器参数估算器146适当控制随机产生器。可包括偏移补偿来补偿数据被视为统计上不足的情况。进行这点来基于过去帧产生统计上匹配的噪声模型,将经常性地更新估计参数。给出提出随机产生器164产生高斯噪声的实例。在这种情况下,例如,只需平均和变量参数,且偏移值可以被计算并施加至这些参数。更先进的方法可处理任一类型的噪声或分布,且参数并非必要为分布力矩(momentsofadistribution)。
对于非稳态噪声,需要平稳性测量,则可使用较少适应性参数随机产生器。通过测量器148确定的平稳性测量可使用多种方法从输入信号的频谱形状导出,例如,板仓(Itakura)距离测量、库李(Kullback-Leibler)距离测量等。
为了处理通过诸如图1中的38所示的SID帧发送的噪声更新的非连续特性,通常发送另外的信息,诸如噪声的能量和频谱形状。该信息可用来在解码器产生具有平滑过渡的噪声,即便在非活动阶段内的不连续期间也是如此。最后,可以应用各种平滑或过滤技术以帮助改善舒适噪声仿真器的质量。
如上所述,一方面图5和图6,另一方面图7属于不同情况。在对应于图5和图6的情况中,参数背景噪声估算在编码器中基于已处理输入信号进行,随后参数被传输给编码器。图7对应于另一种情况,其中,解码器可基于活动阶段内的过去接收帧而处理参数背景噪声估计值。使用语音/信号活动检测器或噪声估算器有利于提取噪声成分,例如即便在活动语音期间也是如此。
在图5至图7所示的情况中,图7的情况是优选的,因为该情况导致以较低位率传输。然而,图5和图6的情况具有更准确的可用噪声估计值的优点。
以上全部实施方式可组合带宽扩展技术,诸如频带复制(SBR),尽管一般可用带宽扩展。
为了示出这点,参照图8。图8示出了这样的模块,通过该模块图1至图5的编码器可被扩展为相对于输入信号的高频部分执行参数编码。更明具体地,根据图8,时域输入音频信号被分析滤波器组200诸如图8中所示的QMF分析滤波器组作频谱分解。然后,上述图1至图5的实施方式只施加至由滤波器组200所产生的频谱分解的低频部分。为了将高频部分的信息传递至解码器侧,还使用参数编码。为此,常规频带复制编码器202被配置为在活动阶段期间,参数化高频部分,及在数据流内以频带复制信息形式馈送关于高频部分的信息给解码侧。开关204可设在QMF滤波器组200的输出与频带复制编码器202的输入之间以将滤波器组200的输出与并联连接至编码器202的频带复制编码器206的输入连接,以负责在非活动阶段期间的带宽扩展。换言之,开关204可类似图1的开关22被控制。如以下具体描述的,频带复制编码器模块206可被配置为类似于频带复制编码器202操作:二者可被配置为参数化高频部分内的输入音频信号的频谱波封,即,剩余高频部分不经受通过例如编码引擎的核心编码。然而,频带复制编码器模块206可使用最低时/频分辨率,频谱波封在数据流内被参数化并被传递,而频带复制编码器202可被配置为调整时/频分辨率以适应输入音频信号,诸如取决于音频信号内的转变的发生。
图9示出了频带复制编码器模块206的可能的实施。时/频方阵设定器(time/frequencygridsetter)208、能量计算器210、及能量编码器212彼此串联连接在编码模块206的输入与输出之间。时/频方阵设定器208可被配置为设定时/频分辨率,在此高频部分的波封被确定。例如,最小容许时/频分辨率由编码模块206连续使用。然后能量计算器210确定在对应于时/频分辨率的时/频拼贴的高频部分内部通过滤波器组200输出的频谱图的高频部的能量,在非活动阶段期间,诸如SID帧内诸如SID帧38,能量编码器212可使用例如熵编码来将由计算器210所计算的能量插入数据流40(参考图1)。
应该注意的是,根据图8和9的实施方式所产生的带宽扩展信息也可与根据前述任一实施方式(诸如图3、图4和图7)使用解码器结合使用。
因此,图8和图9清楚地示出如相对于图1至图7所说明的舒适噪声产生也可以与频带复制结合使用。例如,前述音频编码器及音频解码器可以不同操作模式操作,其中有些操作模式包括频带复制,有些则否。超宽带操作模式例如可涉及频带复制。总而言之,示出用来产生舒适噪声的图1至图7的上述实施方式可以与以相对于图8和图9的方式描述的带宽扩展技术结合。负责在非活动阶段期间的带宽扩展的频带复制编码器模块206可被配置为基于极低时间及频率分辨率操作。比较常规频带复制处理,编码器206可以不同频率分辨率操作,其需要额外频带表,该频带表具有极低频率分辨率连同针对每个舒适噪声产生定标因子(该定标因子内插在非活动阶段期间施加于波封调整器的能定标因子)在解码器内的IIR平滑化滤波器。如刚才所述,时/频方阵可被配置为对应于最低可能时间分辨率。
换言之,带宽扩展编码可取决于存在无声阶段或活动阶段而在QMF域或频谱域差异执行。在活动阶段中,即,在活动帧期间,通过编码器202进行常规SBR编码,导致正常SBR数据流分别地伴随数据流44及102。在非活动阶段中或在归类为SID帧的帧期间,只有表示为能量定标因子的有关频谱波封信息可通过施加时/频方阵提取,其具有极低频率分辨率,及例如最低可能时间分辨率。所得的定标因子可通过编码器212有效编码并被写至数据流。在零帧中或在中断阶段36期间,并无任何侧边信息通过频带复制编码器模块206写至该数据流,因此,并没有通过计算器210执行能量计算。
与图8一致,图10示出了图3和图7的解码器实施方式的可能扩展至带宽扩展编码技术。更具体地,图10示出了根据本申请的音频解码器可能的实施方式。核心解码器92并联连接至舒适噪声产生器,舒适噪声产生器以组件符号220标示,及包括例如舒适噪声产生模块162或图3的模块90、94及96。开关222被示出为取决于帧类型,即,该帧攸关或属于活动阶段,或攸关或属于非活动阶段,诸如有关中断阶段的SID帧或零帧,分配数据流104及30内的帧至核心解码器92或舒适噪声产生器220上。核心解码器92及舒适噪声产生器220的输出连接至带宽扩展解码器224的输入,其输出示出重建音频信号。
图11示出带宽扩展解码器224的可能实施的更具体的实施方式。
如图11中所示,根据图11的实施方式的带宽扩展解码器224包括输入226,该输入226用以接收欲重建的完整音频信号的低频部分的时域重建。输入226连接带宽扩展解码器224与核心解码器92及舒适噪声产生器220的输出,使得在输入226处的时域输入可以是包括噪声及有用成分二者的音频信号的已重建低频部,或用以桥接活动阶段间的时间的舒适噪声。
根据图11的实施方式,带宽扩展解码器224被构建为执行频谱带宽复制,故解码器224于后文中称作SBR解码器。然而,相对于图8至图10,强调这些实施方式并非限于频谱带宽复制。而是,更为一般性的带宽扩展的替代方式也可相对于这些实施方式使用。
此外,图11的SBR解码器224包含时域输出228,用以输出最终重建音频信号,即,在活动阶段或非活动阶段。在输入228与输出228之间,SBR解码器224依次串联连接的频谱分解器230(如图11所示,其可以是分析滤波器组诸如QMF分析滤波器组)、HF产生器232、波封调整器234及频谱至时域转换器236,如图11所示,其可以被实施为合成滤波器组,诸如QMF合成滤波器组。
模块230至236操作如下。频谱分解器230频谱分解时域输入信号因而获得重建低频部分。HF产生器232基于重建低频部分而产生高频复制部分,及波封调整器234利用经由SBR数据流部传递的及通过前文尚未讨论但在图11中显示在波封调整器234上方的模块提供的高频部分的频谱波封表示型态来频谱形成或整形高频复制部分。因此,波封调整器234根据所传输高频波封的时/频方阵表示型态调整高频复制部分的波封,并转发由此所得的高频部分给频谱至时域转换器236,用以将整个频谱,即,频谱形成高频部分连同重建低频部分变换成在输出228处的重建时域信号。
如相对于图8至图10已经提及的,高频部分频谱波封可以能量定标因子形式在数据流内传递,SBR解码器224包括输入238,以接收关于高频部分频谱波封的该信息。如图11所示,在活动阶段的情况下,即,活动帧在活动阶段期间存在于数据流中,输入238可经由相应的开关240直接连接至波封调整器234的频谱波封输入。然而,SBR解码器224另外地包括定标因子组合器242、定标因子数据储存模块244、内插滤波单元246诸如IIR滤波单元,及增益调整器248。模块242、244、246及248在输入238与波封调整器234的频谱波封输入之间彼此串联连接,开关240被连接在增益调整器248与波封调整器234之间,另一开关250被连接在定标因子数据储存模块244与滤波单元246之间。开关250被配置为连接该定标因子数据储存模块244与滤波单元246的输入,或连接定标因子数据恢复器252。在非活动阶段期间的SID帧的情况下,及选择性地在活动帧的情况下,高频部分频谱波封的极为粗略表示型态为可接受的情况下,开关250及240连接输入238和波封调整器234之间的模块序列242至248。定标因子组合器242调整适应高频部分频谱波封已经经由数据流传输的频率分辨率成为波封调整器234预期接收的分辨率,及定标因子数据储存模块244存储所得频谱波封直到下次更新。滤波单元246在时间和/或频谱维度滤波该频谱波封,及增益调整器248调整适应高频部分的频谱波封的增益。为此,增益调整器可组合如通过单元246获得的波封数据与从QMF滤波器组输出导出的实际波封。定标因子数据恢复器252再现如通过定标因子数据储存模块244所存储的表示在中断阶段或零帧内的频谱波封的定标因子数据。
因此,在解码器侧可进行下列处理。在活动帧内或在活动阶段期间,可施加常规频带复制处理。在这些活动周期期间,来自数据流的定标因子其典型地比较舒适噪声产生处理可用在更高数目的定标因子频带,这些定标因子通过定标因子组合器242被变换成舒适噪声产生频率分辨率。定标因子组合器组合较高频率分辨率的定标因子来获得多个定标因子,通过探勘不同频带表的共享频带边界而符合舒适噪声产生(CNG)。在定标因子组合单元242的输出端的所得定标因子值被存储来供零帧再度使用,及后来通过恢复器(restorer)252再现,及随后用在更新用于CNG操作模式的滤波单元246。在SID帧中,施加已修改的SBR数据流读取器,其从数据流提取定标因子信息。SBR处理的其余组态以预定值被初始化,时/频方阵被初始化成为编码器内使用的相同时/频分辨率。所提取的定标因子被馈至滤波单元246,其中,例如一个IIR平滑滤波器内插一个低分辨率定标因子带随时间的能量进展。在零帧的情况下,从位流未读取有效负载,包含时/频方阵的SBR组态与SID帧使用者相同。在零帧中,滤波单元246中的平滑滤波器被馈以从定标因子组合单元242输出的定标因子值,该定标因子值已经存储在包含有效定标因子信息的最末帧。在目前帧被归类为不活动帧或SID帧的情况下,舒适噪声在TCX域产生,并变换回时域。随后,包含舒适噪声的时域信号馈进SBR模块224的QMF分析滤波器组230。在QMF域中,舒适噪声的带宽扩展利用HF产生器232内的拷贝转位进行,最后,人工产生的高频部分的频谱波封通过施加能量定标因子信息于波封调整器234而调整。这些能量定标因子通过滤波单元246的输出而获得,并在施用于波封调整器234前通过增益调整单元248定标。在增益调整单元248中,用以定标定标因子的增益值被计算及施加来补偿该信号的低频部分与高频部分之间边界的巨大能量差。前述实施方式常用在图12和图13的实施方式。图12示出了根据本申请的实施方式的音频编码器的实施方式,图13示出了音频解码器的实施方式。关于这些图的所披露的细节同样可以应用与先前分别提及的组件。
图12的音频编码器包括用以频谱分解输入音频信号的QMF分析滤波器组200。检测器270及噪声估算器262连接至QMF分析滤波器组200的输出。噪声估算器262负责背景噪声估算器12的功能性。在活动阶段期间,来自QMF分析滤波器组的QMF频谱通过频带复制参数估算器260的并联连接处理,接着一方面为某个SBR编码器264,及另一方面为QMF合成滤波器组272接着核心编码器14的级联(concatenation)。两个并联路径连接至位流封装器266的相应的输入。在输出SID帧的情况下,SID帧编码器274从噪声估算器262接收数据,并输出SID帧给位流封装器266。
由估算器260所输出的频谱带宽扩展数据描述频谱图的高频部分的频谱波封或由QMF分析滤波器组200所输出的频谱,然后通过SBR编码器264编码,诸如通过熵编码而编码。数据流多路复用器266将活动阶段的频谱带宽扩展数据插入在多路复用器266的输出268处的数据流输出内。
检测器270检测目前是否活动阶段或非活动阶段为作用态。基于该检测,目前将输出活动帧、SID帧或零帧,即,不活动帧。换言之,模块270决定是否活动阶段或非活动阶段为作用态,及若非活动阶段为作用态,则决定是否将输出SID帧。该决定指示于图12中,I表示零帧,A表示活动帧,及S表示SID帧。对应于存在有活动阶段的输入信号的时间间隔帧也转发给QMF合成滤波器组272与核心编码器14的级联。比较QMF分析滤波器组200时,QMF合成滤波器组272具有较低频率分辨率,或在较低数目QMF子带操作,因而在再度转移输入信号的活动帧部至时域中,通过子带数目比而达成相对应缩减取样率。更具体地,QMF合成滤波器组272被施加至活动帧内QMF分析滤波器组频谱图的低频部分或低频子带。由此核心编码器14接收输入信号的缩减取样版本,因此只涵盖原先输入QMF分析滤波器组200的输入信号的低频部分。其余高频部分通过模块260及264参数编码。
SID帧(或更精确地,将通过SID帧传递的信息)被转发至SID编码器274,其例如负责图5的模块152的功能性。唯一差异:模块262在输入信号频谱上直接操作,未经LPC整形。此外,因使用QMF分析滤波,故模块262的操作与通过核心编码器所选帧模式或频谱带宽扩展选项的施加与否独立无关。图5的模块148及150的功能可在模块274内体现。
多路复用器266在输出268处将相应的编码信息多路复用成为数据流。
图13的音频解码器能在如由图12的编码器所输出的数据流上操作。换言之,模块280被配置为接收数据流,及归类数据流内帧成为例如活动帧、SID帧及零帧,即,数据流不含任何帧。活动帧被转发至核心解码器92、QMF分析滤波器组282及频谱带宽扩展模块284的级联。选择性地,噪声估算器286连接至QMF分析滤波器组的输出。噪声估算器286的操作类似例如图3的背景噪声估算器90且负责背景噪声估算器90的功能性,但噪声估算器在未经整形的频谱上操作而非激励频谱。模块92、282及284的级联连接至QMF合成滤波器组288的输入端。SID帧被转发至SID帧解码器290,其例如负责图3的背景噪声产生器96的功能性。舒适噪声产生参数更新器292通过来自解码器290及噪声估算器286的信息馈给,该更新器292操纵随机产生器294,随机产生器294负责图3的参数随机产生器功能性。因遗漏不活动帧或零帧,故无需转发至任何处所,反而触发随机产生器294的另一随机产生循环。随机产生器294的输出被连接至QMF合成滤波器组288,其输出显示无声的重建音频信号及时域的活动阶段。
如此,在活动阶段期间,核心解码器92重建音频信号的低频部分,包括噪声成分及有用信号二成分。QMF分析滤波器组282频谱分解重建信号,频谱带宽扩展模块284分别地使用数据流及活动帧内的频谱带宽扩展信息来加上高频部分。噪声估算器286若存在时基于如通过核心解码器重建的频谱部,即,低频部执行噪声估算。在非活动阶段中,SID帧传递信息,该信息描述在编码器端由噪声估算器262所导出的背景噪声估计值。参数更新器292主要使用编码器信息来更新其参数背景噪声估计值,在有关SID帧传输损耗的情况下,使用由噪声估算器286所提供的信息主要作为后退位置(fallbackposition)。QMF合成滤波器组288变换在活动阶段由频谱带宽扩展模块284所输出的频谱分解信号及在时域的舒适噪声产生信号频谱。因此,图12和图13清楚地示出QMF滤波器组框架可用作为以QMF为主的舒适噪声产生的基础。QMF框架提供方便方式来在编码器重新取样输入信号缩减至核心编码器的取样率,或运用QMF合成滤波器组288在解码器端向上取样核心解码器92的核心解码器输出信号。同时,QMF框架也可组合带宽扩展来提取及处理由核心编码器14及核心解码器92两个模块所留下的信号的频率成分。据此,QMF滤波器组可对各种信号处理工具提供共享框架。根据图12和图13的实施方式,舒适噪声产生成功地包含在此框架内。
更具体地,根据图12和图13的实施方式,可知,在QMF分析后可能在解码器端产生舒适噪声,但在QMF分析前,通过施加随机产生器294来激励例如QMF合成滤波器组288的各个QMF系数的实数部分及虚数部分。随机序列的幅值为例如在各个QMF带计算,使得产生舒适噪声的频谱类似实际输入背景噪声信号的频谱。这可在编码端在QMF分析后使用噪声估算器而在各个QMF带达成。然后这些参数可经由SID帧传输来更新在解码器侧,在各个QMF带施加的随机序列的幅值。
理想地,注意施加于编码器端的噪声估算器262应可在不活动(即,只有噪音)及活动周期(典型地含有嘈杂语音)二者期间操作,使得在各个活动周期结束后即刻更新舒适噪声参数。此外,噪声估算也可用在解码器侧。因在以DTX为基础的编码/解码系统中抛弃只有噪音的帧,在解码器端的噪声估算有利地能够对嘈杂语音内容操作。除了编码器端之外,在解码器端执行噪声估算的优点是舒适噪声的频谱形状可被更新,即便后一段活动周期后,第一个SID帧封包从编码器传输至解码器失败也是如此。
噪声估算须能准确地且快速地遵循背景噪声的频谱内容变化,及理想上,如前记,在活动及不活动二帧期间须能执行。达成此项目标的一个方式如在[R.Martin,NoisePowerSpectralDensityEstimationBasedonOptimalSmoothingandMinimumStatistics,2001(R.Martin,基于最佳平滑化及最小统计数据之噪声功率频谱密度估计,2001)]中所提出的,使用有限长度的滑动窗追踪通过功率频谱在各带取最小值。其背后的构思是嘈杂语音频谱的功率经常地衰减至背景噪声的功率,例如在各字间或在各音节间。追踪功率频谱的最小值因而提供在各频带中的固有噪声位准(noisefloor)的估计值,即便于语音活动期间也是如此。然而,通常这些固有噪声位准被低估。此外,不允许捕捉频谱功率的快速起伏,特别在能量突增时尤为如此。
然而,在各频带中如前述计算的固有噪声位准提供极为有用的侧边信息来施加噪声估算的第二阶段。实际上,发明人可预期噪声频谱的功率接近在不活动期间估算的固有噪声位准,而频谱功率将远高于活动期间的固有噪声位准。因此在各频带分开计算的固有噪声位准可用作为各频带的粗略活动检测器。基于该知识,容易估计背景噪声功率为功率频谱的递归地平滑化版本,如下:σN 2(m,k)=β(m,k)·σN 2(m-1,k)+(1-β(m,k))·σx 2(m,k),
其中σx 2(m,k)表示在帧m及频带k的功率频谱密度,σN 2(m,k)表示噪声功率估计值,及β(m,k)为忘记因子(需为0至1),分开地控制各频带及各帧的平滑因子。使用固有噪声位准信息来反映活动状态,在不活动周期期间须为小值(即,此时功率频谱接近固有噪声位准),而在活动帧期间,须选用高值来施加更多平滑化(理想上保持σN 2(m,k)为常数)。为了达成此,通过如下计算忘记因子可做出软性确定:
β ( m , k ) = 1 - e - α ( σx 2 ( m , k ) σNF 2 ( m , k ) - 1 ) ,
其中,σNF 2为固有噪声功率位准及α为控制参数。α的较高值导致较大忘记因子,因而造成总体更平滑。
由此,已经描述舒适噪声产生(CNG)构想,其中,人工噪声在变换域在解码器端产生。前述实施方式可组合将时域信号分解成多个频谱带的实质上任何类型的频-时分析工具(即,变换或滤波器组)应用。
再次,须注意单独使用频谱域提供背景噪声的更精确估计值,并不使用前述在活动阶段期间连续地更新该估计值的可能性而达成优点。据此,据此若干额外实施方式与前述实施方式的差异在于不使用连续地更新该参数背景噪声估计值的该特征。但这些其它实施方式利用频谱域来参数地确定该噪声估计值。
因此,在另一实施方式中,背景噪声估算器12可被配置为基于输入音频信号的频谱分解表示型态而确定参数背景噪声估计值,使得该参数背景噪声估计值频谱地描述该输入音频信号的背景噪声的频谱波封。该确定可始于进入非活动阶段时,或可共同运用前述优势,及可在活动阶段期间连续地执行确定来更新该估计值供当进入非活动阶段时即刻使用。编码器14在活动阶段期间将该输入音频信号编码成数据流,及检测器16可被配置为基于该输入信号而检测在活动阶段后进入非活动阶段。编码器进一步可被配置为将该参数背景噪声估计值编码成数据流。背景噪声估算器可被配置为执行在活动阶段确定该参数背景噪声估计值,区别在该输入音频信号的频谱分解表示型态内部的噪声成分及有用信号成分,及只从该噪声成分确定该参数背景噪声估计值。在另一个实施方式中,编码器可被配置为在编码该输入音频信号中,将该输入音频信号预测地编码成线性预测系数及激励信号,及变换编码该激励信号的频谱分解,及将该线性预测系数编码成数据流,其中该背景噪声估算器被配置为在确定该参数背景噪声估计值时,使用该激励信号的频谱分解作为该输入音频信号的频谱分解表示型态。
此外,背景噪声估算器可被配置为识别该激励信号的频谱表示型态中的局部最小值,及使用作为支撑点的所识别的局部最小值之间的内插来估计该输入音频信号的背景噪声的频谱波封。
在又一个实施方式中,一种用来解码数据流以从其中重建音频信号的音频解码器,该数据流包含至少一个活动阶段,在所述活动阶段之后接着为一个非活动阶段。该音频解码器包含背景噪声估算器90,其被配置为基于从数据流的该输入音频信号获得的频谱分解表示型态而确定参数背景噪声估计值,从而使得该参数背景噪声估计值频谱描述输入音频信号的背景噪声的频谱波封。解码器92可以被配置为在该活动阶段期间从数据流重建音频信号。参数随机产生器94及背景噪声产生器96可被配置为在非活动阶段期间,利用该参数背景噪声估计值通过控制该参数随机产生器而在非活动阶段期间重建该音频信号。
根据另一实施方式,背景噪声估算器可被配置为在活动阶段中执行确定参数背景噪声估计值定,并区别输入音频信号的频谱分解表示型态内的噪声成分和有用信号成分,及仅从该噪声成分中确定参数背景噪声估计值。
在又一个实施方式中,解码器可被配置为在从数据流重建该音频信号中,根据也已被编码为数据的线性预测系数而施加整形已被变换编码成数据流的激励信号的频谱分解。该背景噪声估算器可进一步被配置为在确定参数背景噪声估计值中,使用激励信号的频谱分解作为输入音频信号的频谱分解表示型态。
根据又一实施方式,背景噪声估算器可被配置为识别所述激励信号的频谱表示型态中的局部最小值,及使用作为支撑点的所识别的局部最小值之间的内插来估计所述输入音频信号的背景噪声的所述频谱波封。
因此,前述实施方式描述以TCX为基础的CNG,其中,基本舒适噪声产生器采用随机脉冲来模型化残差。
尽管以装置的上下文描述了一些方面,但清楚的是这些方面也表示对应的方法的描述,其中,模块或装置对应于方法步骤或方法步骤的特征。同理,以方法步骤的上下文描述的方面也表示对应装置的对应模块或项或特征的描述。部分或全部方法步骤可通过(或使用)硬件设备例如微处理器、可编程计算机或电子电路执行。在一些实施方式中,最重要的方法步骤的某一步或多步可通过这样的装置执行。
根据某些实施的要求,本发明的实施方式可以硬件或软件来实施。所述实施可以使用具有存储在其上的电可读信号的数字存储介质,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存来执行,所述控制信号与(或可与)可编程计算机系统协作,从而执行相应的方法。因而,所述数字存储介质可以是计算机可读的。
根据本发明的一些实施方式包含具有电可读控制信号的数据载体,所述控制信号可与可可编程计算机系统协作,从而执行本文所述方法中的一种。
通常,本发明的实施方式可实施为具有程序代码的计算机程序产品,该程序代码当计算机程序产品在计算机上运行时可执行所述方法中的一种。该程序代码例如可存储在机器可读载体上。
其它实施方式包含存储在机器可读载体上的用以执行本文所述方法中的一种的计算机程序。
换言之,本发明方法实施方式因此为一种具有程序代码计算机程序,该程序代码当该计算机程序在计算机上运行时用以执行本文所述方法中的一种。
因此,本发明方法的又一实施方式为数据载体(或数字存储介质或计算机可读介质)包含记录在其上的用以执行本文所述方法中的一种的计算机程序。数据载体、数字存储介质或记录介质通常为具体有形和/或非过渡的。
因此,本发明方法的又一实施方式为表示用以执行本文所述方法中的一种的计算机程序的数据流或信号序列。数据流或信号序列例如可被配置为经由数据通信连接,例如经由因特网来传输。
又一实施方式包含处理装置,例如计算机或可编程逻辑装置,其被配置为或适用于执行本文所述方法中的一种。
又一实施方式包括计算机,具有安装在其上的用来执行本文所述方法中的一种的计算机程序。
根据本发明的又一实施方式包含被配置为向接收器传输(例如,电学地或光学地)用来执行本文所述方法中的一种的计算机程序的装置或系统。接收器例如可以是计算机、移动设备、存储设备等。装置或系统包含用将计算机程序传输至接收器的文档服务器。
在一些实施方式中,可编程逻辑装置(例如,现场可编程门阵列)可用来执行本文所述的方法的一些或全部功能。在一些实施方式中,现场可编程门阵列可与微处理器协作来执行本文所述方法中的一种。通常,所述方法优选由任意硬件装置来执行。
前述实施方式仅示出了本发明的原理。应该理解,本文所描述的设置和细节的变形和修改对本领域技术人员来说是显而易见。因此,意在仅受所附专利权利要求的范围的限制而不受通过本文的实施方式的描述和说明的方式表示的具体细节的限制。

Claims (12)

1.一种音频编码器,包含
背景噪声估算器(12),被配置为基于输入音频信号的频谱分解表示型态而确定参数背景噪声估计值,使得所述参数背景噪声估计值频谱描述所述输入音频信号的背景噪声的频谱波封;
编码器(14),用于在活动阶段期间将所述输入音频信号编码成数据流;以及
检测器(16),被配置为基于所述输入信号检测跟随在所述活动阶段后的非活动阶段的进入,
其中,所述音频编码器被配置为在所述非活动阶段中将所述参数背景噪声估计值编码到所述数据流中,
其中,
所述背景噪声估算器被配置为识别所述输入音频信号的所述频谱分解表示型态中的局部最小值,以及使用作为支撑点的所识别的局部最小值之间的内插来估计所述输入音频信号的所述背景噪声的所述频谱波封,或者,
所述编码器被配置为在编码所述输入音频信号中,将所述输入音频信号预测地编码成线性预测系数及激励信号,并变换编码所述激励信号的频谱分解,以及将所述线性预测系数编码成所述数据流,其中,所述背景噪声估算器被配置为在确定所述参数背景噪声估计值中,使用所述激励信号的所述频谱分解作为所述输入音频信号的所述频谱分解表示型态。
2.根据权利要求1所述的音频编码器,其中,所述背景噪声估算器被配置为执行在所述活动阶段中确定所述参数背景噪声估计值,区别在所述输入音频信号的所述频谱分解表示型态内的噪声成分和有用信号成分,以及被配置为只从所述噪声成分确定所述参数背景噪声估计值。
3.根据权利要求1或2所述的音频编码器,其中,所述背景噪声估算器被配置为识别所述激励信号的所述频谱表示型态中的局部最小值,并使用作为支撑点的所识别的局部最小值之间的内插来估计所述输入音频信号的背景噪声的所述频谱波封。
4.根据权利要求1所述的音频编码器,其中,所述编码器被配置为在编码所述输入音频信号中,使用预测和/或变换编码来编码所述输入音频信号的所述频谱分解表示型态的低频部分,并使用参数编码来编码所述输入音频信号的所述频谱分解表示型态的高频部分的频谱波封。
5.根据权利要求1所述的音频编码器,其中,所述编码器被配置为在编码所述输入音频信号中,使用预测和/或变换编码来编码所述输入音频信号的所述频谱分解表示型态的低频部分,并在使用参数编码来编码所述输入音频信号的所述频谱分解表示型态的高频部分的频谱波封或使得所述输入音频信号的所述高频部分不经编码之间进行选择。
6.根据权利要求4所述的音频编码器,其中,所述编码器被配置为在非活动阶段中,中断所述预测和/或变换编码及所述参数编码,或被配置为中断所述预测和/或变换编码以及相比于在所述活动阶段中所述参数编码的使用以更低的时/频分辨率来对所述输入音频信号的所述频谱分解表示型态的所述高频部分的所述频谱波封执行所述参数编码。
7.根据权利要求4所述的音频编码器,其中,所述编码器使用滤波器组来将所述输入音频信号频谱分解成为形成所述低频部分的子带集合及形成所述高频部分的子带集合。
8.一种用于解码数据流以从中重建输入音频信号的音频解码器,所述数据流包含至少一个活动阶段,在所述活动阶段之后接着为非活动阶段,所述音频解码器包含
背景噪声估算器(90),被配置为基于从所述数据流获得的所述输入音频信号的频谱分解表示型态来确定参数背景噪声估计值,使得所述参数背景噪声估计值频谱描述所述输入音频信号的背景噪声的频谱波封;
解码器(92),被配置为在所述活动阶段期间从所述数据流重建所述输入音频信号;
参数随机产生器(94);以及
背景噪声产生器(96),被配置为使用所述参数背景噪声估计值,在所述非活动阶段期间通过控制所述参数随机产生器而在所述非活动阶段期间重建所述输入音频信号,
其中,所述背景噪声估算器被配置为识别所述输入音频信号的所述频谱分解表示型态中的局部最小值,并使用作为支撑点的所识别的局部最小值之间的内插来估计所述输入音频信号的所述背景噪声的所述频谱波封。
9.根据权利要求8所述的音频解码器,其中,所述背景噪声估算器被配置为在所述活动阶段中执行确定所述参数背景噪声估计值,并区别所述输入音频信号的所述频谱分解表示型态内的噪声成分和有用信号成分,以及仅从所述噪声成分中确定所述参数背景噪声估计值。
10.根据权利要求9所述的音频解码器,其中,所述解码器被配置为在从所述数据流重建该输入音频信号中,根据也已被编码为数据的线性预测系数而施加整形被变换编码成所述数据流的激励信号的频谱分解,其中,所述背景噪声估算器被配置为在确定所述参数背景噪声估计值中,通过识别所述激励信号的所述频谱表示型态中的局部最小值并使用作为支撑点的所述激励信号的所述频谱表示型态中的所识别的局部最小值之间的内插来估计所述输入音频信号的所述背景噪声的所述频谱波封,使用所述激励信号的所述频谱分解作为所述输入音频信号的所述频谱分解表示型态。
11.一种音频编码方法,包含
基于输入音频信号的频谱分解表示型态而确定参数背景噪声估计值,使得所述参数背景噪声估计值频谱描述所述输入音频信号的背景噪声的频谱波封;
在活动阶段期间将所述输入音频信号编码成数据流;以及
基于所述输入信号检测跟随在所述活动阶段之后的非活动阶段的进入;以及
在所述非活动阶段中,将所述参数背景噪声估计值编码成所述数据流,
其中,
所述确定参数背景噪声估计值包括识别所述输入音频信号的所述频谱分解表示型态中的局部最小值,并使用作为支撑点的所识别的局部最小值之间的内插来估计所述输入音频信号的所述背景噪声的所述频谱波封,或者,
编码所述输入音频信号包括将所述输入音频信号预测地编码成线性预测系数及激励信号,并变换编码所述激励信号的频谱分解,以及将所述线性预测系数编码成所述数据流,其中,所述确定参数背景噪声估计值包括,在确定所述参数背景噪声估计值中,使用所述激励信号的所述频谱分解作为所述输入音频信号的所述频谱分解表示型态。
12.一种用于解码数据流以从中重建输入音频信号的方法,所述数据流包含至少一个活动阶段,在所述活动阶段之后接着为非活动阶段,所述方法包含
基于从所述数据流获得的所述输入音频信号的频谱分解表示型态而确定参数背景噪声估计值,使得所述参数背景噪声估计值频谱描述所述输入音频信号的背景噪声的频谱波封;
在所述活动阶段期间从所述数据流重建所述输入音频信号;
使用所述参数背景噪声估计值,在所述非活动阶段期间通过控制参数随机产生器而在所述非活动阶段期间重建所述输入音频信号,
其中,所述确定参数背景噪声估计值包括识别所述输入音频信号的所述频谱分解表示型态中的局部最小值,并使用作为支撑点的所识别的局部最小值之间的内插来估计所述输入音频信号的所述背景噪声的所述频谱波封。
CN201280018251.1A 2011-02-14 2012-02-14 音频编解码器中的噪声产生 Active CN103477386B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161442632P 2011-02-14 2011-02-14
US61/442,632 2011-02-14
PCT/EP2012/052464 WO2012110482A2 (en) 2011-02-14 2012-02-14 Noise generation in audio codecs

Publications (2)

Publication Number Publication Date
CN103477386A CN103477386A (zh) 2013-12-25
CN103477386B true CN103477386B (zh) 2016-06-01

Family

ID=71943600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280018251.1A Active CN103477386B (zh) 2011-02-14 2012-02-14 音频编解码器中的噪声产生

Country Status (16)

Country Link
US (1) US8825496B2 (zh)
EP (2) EP2676262B1 (zh)
JP (3) JP5934259B2 (zh)
KR (1) KR101624019B1 (zh)
CN (1) CN103477386B (zh)
AR (2) AR085895A1 (zh)
AU (1) AU2012217162B2 (zh)
CA (2) CA2968699C (zh)
ES (1) ES2681429T3 (zh)
MX (1) MX2013009305A (zh)
MY (1) MY167776A (zh)
RU (1) RU2585999C2 (zh)
SG (1) SG192745A1 (zh)
TW (1) TWI480856B (zh)
WO (1) WO2012110482A2 (zh)
ZA (1) ZA201306874B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TR201903388T4 (tr) 2011-02-14 2019-04-22 Fraunhofer Ges Forschung Bir ses sinyalinin parçalarının darbe konumlarının şifrelenmesi ve çözülmesi.
WO2012110448A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
PL2661745T3 (pl) 2011-02-14 2015-09-30 Fraunhofer Ges Forschung Urządzenie i sposób do ukrywania błędów w zunifikowanym kodowaniu mowy i audio
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
SG192746A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
CN103918029B (zh) * 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
CN103295578B (zh) 2012-03-01 2016-05-18 华为技术有限公司 一种语音频信号处理方法和装置
US9640190B2 (en) * 2012-08-29 2017-05-02 Nippon Telegraph And Telephone Corporation Decoding method, decoding apparatus, program, and recording medium therefor
RU2640743C1 (ru) * 2012-11-15 2018-01-11 Нтт Докомо, Инк. Устройство кодирования аудио, способ кодирования аудио, программа кодирования аудио, устройство декодирования аудио, способ декодирования аудио и программа декодирования аудио
RU2650025C2 (ru) * 2012-12-21 2018-04-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Генерирование комфортного шума с высоким спектрально-временным разрешением при прерывистой передаче аудиосигналов
CA2895391C (en) 2012-12-21 2019-08-06 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
CN106847297B (zh) * 2013-01-29 2020-07-07 华为技术有限公司 高频带信号的预测方法、编/解码设备
KR101897092B1 (ko) * 2013-01-29 2018-09-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 노이즈 채움 개념
CN106169297B (zh) 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
WO2014192604A1 (ja) * 2013-05-31 2014-12-04 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
US10715833B2 (en) * 2014-05-28 2020-07-14 Apple Inc. Adaptive syntax grouping and compression in video data using a default value and an exception value
CN106409304B (zh) * 2014-06-12 2020-08-25 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
EP2980790A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
CN106971741B (zh) * 2016-01-14 2020-12-01 芋头科技(杭州)有限公司 实时将语音进行分离的语音降噪的方法及系统
JP7011449B2 (ja) 2017-11-21 2022-01-26 ソニーセミコンダクタソリューションズ株式会社 画素回路、表示装置および電子機器
US10650834B2 (en) * 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0843301B1 (en) * 1996-11-15 2003-09-10 Nokia Corporation Methods for generating comfort noise during discontinous transmission
CN101366077A (zh) * 2005-08-31 2009-02-11 摩托罗拉公司 在语音通信系统中产生舒适噪声的方法和设备

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
JPH10326100A (ja) * 1997-05-26 1998-12-08 Kokusai Electric Co Ltd 音声録音方法及び音声再生方法及び音声録音再生装置
JP3223966B2 (ja) * 1997-07-25 2001-10-29 日本電気株式会社 音声符号化/復号化装置
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US7124079B1 (en) * 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
CN1145928C (zh) * 1999-06-07 2004-04-14 艾利森公司 用参数噪声模型统计量产生舒适噪声的方法及装置
JP2002118517A (ja) 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
US20050130321A1 (en) * 2001-04-23 2005-06-16 Nicholson Jeremy K. Methods for analysis of spectral data and their applications
US20020184009A1 (en) * 2001-05-31 2002-12-05 Heikkinen Ari P. Method and apparatus for improved voicing determination in speech signals containing high levels of jitter
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
WO2005096274A1 (fr) 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US7649988B2 (en) * 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
US8160274B2 (en) 2006-02-07 2012-04-17 Bongiovi Acoustics Llc. System and method for digital signal processing
EP1846921B1 (en) * 2005-01-31 2017-10-04 Skype Method for concatenating frames in communication system
JP4519169B2 (ja) * 2005-02-02 2010-08-04 富士通株式会社 信号処理方法および信号処理装置
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
WO2006107837A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Methods and apparatus for encoding and decoding an highband portion of a speech signal
RU2296377C2 (ru) * 2005-06-14 2007-03-27 Михаил Николаевич Гусев Способ анализа и синтеза речи
RU2312405C2 (ru) * 2005-09-13 2007-12-10 Михаил Николаевич Гусев Способ осуществления машинной оценки качества звуковых сигналов
US7720677B2 (en) 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
FR2897733A1 (fr) 2006-02-20 2007-08-24 France Telecom Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
JP4810335B2 (ja) 2006-07-06 2011-11-09 株式会社東芝 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置
US7933770B2 (en) * 2006-07-14 2011-04-26 Siemens Audiologische Technik Gmbh Method and device for coding audio data based on vector quantisation
KR101016224B1 (ko) 2006-12-12 2011-02-25 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법
FR2911426A1 (fr) * 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
US8185381B2 (en) 2007-07-19 2012-05-22 Qualcomm Incorporated Unified filter bank for performing signal conversions
MX2010001763A (es) 2007-08-27 2010-03-10 Ericsson Telefon Ab L M Analisis/sintesis espectral de baja complejidad utilizando la resolucion temporal seleccionable.
JP4886715B2 (ja) * 2007-08-28 2012-02-29 日本電信電話株式会社 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
US8000487B2 (en) * 2008-03-06 2011-08-16 Starkey Laboratories, Inc. Frequency translation by high-frequency spectral envelope warping in hearing assistance devices
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
JP5551693B2 (ja) 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ エイリアシングスイッチスキームを用いてオーディオ信号を符号化/復号化するための装置および方法
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
US8352279B2 (en) * 2008-09-06 2013-01-08 Huawei Technologies Co., Ltd. Efficient temporal envelope coding approach by prediction between low band signal and high band signal
CA2739736C (en) 2008-10-08 2015-12-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-resolution switched audio encoding/decoding scheme
CA2763793C (en) 2009-06-23 2017-05-09 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
TWI455114B (zh) 2009-10-20 2014-10-01 Fraunhofer Ges Forschung 多模式音訊編解碼器及其適用碼簿激發線性預測編碼技術

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0843301B1 (en) * 1996-11-15 2003-09-10 Nokia Corporation Methods for generating comfort noise during discontinous transmission
CN101366077A (zh) * 2005-08-31 2009-02-11 摩托罗拉公司 在语音通信系统中产生舒适噪声的方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
3rd generation partnership project.3rd generation partnership project technical specification group service and system aspects audio codec processing functions extended AMR wideband codec;Transcoding functions(Release 6).《3GPP》.2004, *
A voice activity detection algorithm for communication systems with dynamically varying background acoustic noise;Ick Don Lee et al;《VTC98》;19980518;1214-1218 *

Also Published As

Publication number Publication date
RU2585999C2 (ru) 2016-06-10
CN103477386A (zh) 2013-12-25
EP3373296A1 (en) 2018-09-12
CA2827305C (en) 2018-02-06
MX2013009305A (es) 2013-10-03
JP5934259B2 (ja) 2016-06-15
AR102715A2 (es) 2017-03-22
JP6185029B2 (ja) 2017-08-23
CA2968699C (en) 2020-12-22
CA2827305A1 (en) 2012-08-23
TWI480856B (zh) 2015-04-11
AR085895A1 (es) 2013-11-06
WO2012110482A2 (en) 2012-08-23
JP2016026319A (ja) 2016-02-12
US8825496B2 (en) 2014-09-02
JP6643285B2 (ja) 2020-02-12
MY167776A (en) 2018-09-24
KR101624019B1 (ko) 2016-06-07
CA2968699A1 (en) 2012-08-23
ZA201306874B (en) 2014-05-28
AU2012217162B2 (en) 2015-11-26
JP2017223968A (ja) 2017-12-21
EP2676262B1 (en) 2018-04-25
TW201248615A (en) 2012-12-01
US20130332176A1 (en) 2013-12-12
SG192745A1 (en) 2013-09-30
RU2013142079A (ru) 2015-03-27
BR112013020239A2 (pt) 2020-11-24
JP2014510307A (ja) 2014-04-24
WO2012110482A3 (en) 2012-12-20
AU2012217162A1 (en) 2013-08-29
ES2681429T3 (es) 2018-09-13
KR20130126711A (ko) 2013-11-20
EP2676262A2 (en) 2013-12-25

Similar Documents

Publication Publication Date Title
CN103477386B (zh) 音频编解码器中的噪声产生
CN103534754B (zh) 在不活动阶段期间利用噪声合成的音频编解码器
JP2019109531A (ja) 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器
KR20110038029A (ko) 스펙트럼 포락선의 수효를 산출하기 위한 장치 및 그 방법
US7197454B2 (en) Audio coding
EP2866228B1 (en) Audio decoder comprising a background noise estimator
AU2012217161B9 (en) Audio codec using noise synthesis during inactive phases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Munich, Germany

Applicant after: Fraunhofer Application and Research Promotion Association

Address before: Munich, Germany

Applicant before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant