CN105009210B - 合成音频信号的装置与方法、解码器、编码器、系统以及计算机程序 - Google Patents

合成音频信号的装置与方法、解码器、编码器、系统以及计算机程序 Download PDF

Info

Publication number
CN105009210B
CN105009210B CN201480006383.1A CN201480006383A CN105009210B CN 105009210 B CN105009210 B CN 105009210B CN 201480006383 A CN201480006383 A CN 201480006383A CN 105009210 B CN105009210 B CN 105009210B
Authority
CN
China
Prior art keywords
mrow
code
audio signal
spectral tilt
present frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480006383.1A
Other languages
English (en)
Other versions
CN105009210A (zh
Inventor
纪尧姆·福克斯
汤姆·巴克斯特伦
拉尔夫·盖格尔
沃尔夫冈·耶格斯
以马利·拉韦利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN105009210A publication Critical patent/CN105009210A/zh
Application granted granted Critical
Publication of CN105009210B publication Critical patent/CN105009210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Abstract

描述了用于合成音频信号的方法和装置。将频谱倾斜应用于用于合成所述音频信号的当前帧的码本(202)的码。所述频谱倾斜基于所述音频信号的当前帧的频谱倾斜。此外,描述了根据本发明的方法进行操作的音频解码器。

Description

合成音频信号的装置与方法、解码器、编码器、系统以及计算 机程序
技术领域
本发明涉及音频编码领域,更具体地,涉及合成音频信号领域。实施例涉及语音编码,具体地,涉及称为码激发线性预测编码(CELP)的语音编码技术。实施例提供用于在新颖或固定码本中形成CELP的码的过程中进行自适应倾斜补偿的方法。
背景技术
CELP编码方案广泛地用于语音通信中,且是对语音进行编码的高效方式。CELP通过将两个激发的和传递至线性预测滤波器(例如,LPC合成滤波器1/A(z))来合成音频信号。一个激发来自经过解码的过去(其被称为自适应码本),且另一贡献来自由固定码填充的固定或新颖码本。CELP编码方案的一个问题在于,在低比特率下,新颖码本未被充分地填充以用于高效地对语音的精细结构进行模型化(modeling),从而感知的质量降级且所合成的输出信号听起来嘈杂。
为了减轻编码伪像,在参考文献[1]中和参考文献[2]中已经提出和描述了不同的解决方案。在这些参考中,通过增强对应于音频信号的当前帧的共振峰(formant)的频谱区域来自适应地且频谱地(spectrally)形成新颖码本的码。共振峰位置及形状可直接根据LPC系数来推断,LPC系数为在编码器及解码器两者处都可用的系数。对新颖码本的码c(n)的共振峰增强是通过以下简单滤波操作实现的:
c(n)*fe(n)。
在此滤波过程中,fe(n)是具有以下转移函数的滤波器的脉冲响应:
其中w1及w2为两个加权常数,其或多或少地强调转移函数Fe(z)的共振峰结构。新颖码本的所得的所形成的码继承了语音信号的一个特性且所合成的信号听起来噪声较少。
在CELP编码方案中,通常还将向新颖码本的码添加频谱倾斜,这是通过如下对来自新颖码本的码进行如下滤波来实现的:
Ft(z)=1-βz-1
因子β与先前音频帧的发声有关,且可根据来自自适应码本的能量贡献估计发声。举例而言,若先前帧有声,则预期当前帧亦有声,并且码将在低频中具有更多能量,即,频谱具有负倾斜。
发明内容
本发明的目的是提供一种用于合成音频信号的改进方法。
此目的是通过根据权利要求1的装置及通过根据权利要求19的方法来实现的。
本发明提供一种用于合成音频信号的装置,所述装置包括处理单元,该处理单元被配置为将频谱倾斜应用于用于合成所述音频信号的当前帧的码本的码,其中所述频谱倾斜基于所述音频信号的当前帧的频谱倾斜。
本发明提供一种用于合成音频信号的方法,所述方法包括将频谱倾斜应用于用于合成所述音频信号的当前帧的码本的码,其中所述频谱倾斜是基于所述音频信号的当前帧的频谱倾斜确定的。
本申请的发明人发现,通过在合成信号时利用音频信号的频谱倾斜的性质来改进可实现的编码增益,可以在低比特率及较高比特率处都进一步改进音频信号的合成。根据实施例,本发明涉及语音编码,例如,使用CELP语音编码技术,该CELP语音编码技术允许增强CELP的编码增益,从而增强经过解码或合成的信号的感知质量。本发明的方法是基于发明人的以下发现:可通过根据当前处理的实际输入信号的频谱倾斜的函数,适配码本的码(例如,CELP新颖码本的码)的频谱倾斜,来实现这一改进。本发明的方法是有利的,这是因为,除了增强的编码增益外,在低比特率下(其中新颖码本未被充分填充以用于高效地模型化语音的精细结构),其还允许进一步的共振峰增强。在较高比特率下(其中新颖码本被充分填充),应用本发明的方法将增强编码增益。更具体地,在较高比特率下,可不需要共振峰增强,这是因为新颖码本对于适当地模型化语音的精细结构来讲足够大,且进一步增强共振峰将使所合成的信号听起来过于合成。然而,最佳码并非在频谱上平坦的,且添加频谱倾斜将增强编码增益。根据实施例,对将要应用于新颖码本的码的最佳倾斜的估计越准确,其与输入信号的当前帧的倾斜关联越清晰(specifically)。
根据实施例,基于针对音频信号的当前帧的频谱包络信息确定音频信号的当前帧的频谱倾斜,其中频谱包络信息可由LPC系数定义。此实施例是有利的,因为其允许基于已经在编码器及解码器两者处可用的信息(即,LPC系数)确定当前帧的频谱倾斜。
根据另外实施例,可基于LPC合成滤波器的截断无限脉冲响应确定基于LPC系数的音频信号的当前帧的频谱倾斜。根据实施例,截断可由新颖码本的大小(亦即,新颖码本中的码的数目)确定。此方法是有利的,因为其允许使频谱倾斜的确定与新颖码本的实际大小直接有关。
根据另外实施例,无限脉冲响应可以是具有未加权的转移函数或加权的转移函数的LPC合成滤波器的无限脉冲响应。使用未加权的转移函数允许对频谱倾斜进行简化确定,而使用加权的转移函数是有利的,这是因为其允许具有更接近最佳倾斜的斜率的频谱倾斜。
根据实施例,通过基于包括频谱倾斜的转移函数对来自码本的码进行滤波,将所确定的频谱倾斜应用于各个码。此实施例是有利的,因为可通过简单的滤波过程实现增强。
根据又一实施例,可将当前帧的频谱倾斜与同音频信号的先前帧的发声有关的因子进行组合,例如,通过基于包括频谱倾斜及该因子的转移函数对来自码本的码滤波来实现。此方法是有利的,因为其提供获得最佳倾斜的更好估计的可能性。
本发明提供一种包括用于合成音频信号的本发明装置的音频解码器。
本发明提供一种用于解码音频信号的音频解码器,其中音频解码器被配置为将频谱倾斜应用于用于合成所述音频信号的当前帧的码本的码,其中所述频谱倾斜基于所述音频信号的当前帧的频谱倾斜。
本发明提供一种用于对音频信号进行编码的编码器,其中所述音频编码器被配置为根据所述音频信号的当前帧的频谱倾斜确定针对表示所述音频信号的当前帧的码本的码的频谱倾斜。
本发明提供一种系统,所述系统包括本发明的音频解码器及本发明的音频编码器。
本发明提供一种存储指令的非瞬时计算机介质,所述指令当在计算机上运行时执行用于合成音频信号的本发明方法。
附图说明
现将结合附图进一步详细地描述本发明的实施例,其中:
图1示出了根据第一实施例的用于合成音频信号的本发明的装置的示意性表示;
图2示出了根据本发明的第二实施例的信号合成器的简化框图,该信号合成器基于CELP方案进行操作;
图3示出了根据本发明的另一实施例的信号合成器的简化框图,其再次应用加入了先前帧的发声的CELP编码方案;
图4示出了根据本发明的教导进行操作的解码器(例如,语音解码器)的实施例;以及
图5示出了根据本发明的教导进行操作的编码器(例如,语音编码器)的实施例。
具体实施方式
在下文中,将描述本发明的方法的实施例。注意,在随后描述中,类似的元素/步骤通过同样的附图标记来指代。
图1示出了根据第一实施例的用于合成音频信号的本发明装置的示意性表示。装置100在输入端102处接收经过编码的信号,例如,经过编码的音频信号,如语音信号。为了解码音频信号,装置100包括具有多个码的码本104。为了合成信号,当基于在输入端102处接收的经过编码的信号来处理当前帧时,从码本104选择适当的码或码字且将其供应给合成器或合成滤波器106。根据本发明,该装置包括处理单元108,处理单元108基于音频信号的当前帧(亦即,当前由装置100处理的音频信号的帧)的频谱倾斜确定将应用于从码本104读取的码c(n)的频谱倾斜,如示意性地在110处所表示。将经过修改的码c(n)*γ应用到合成滤波器106,该合成滤波器106基于经过修改的码来产生被提供给装置100的输出端112的合成信号。处理单元108可基于当前帧的频谱包络信息(例如,在装置100处可用的针对合成滤波器106的滤波器系数)确定频谱倾斜。
根据另外实施例,将描述用于形成CELP新颖码本的码的自适应倾斜补偿。图2示出了根据本发明的第二实施例的信号合成器200的简化框图,该信号合成器200基于CELP方案操作。根据CELP方案,合成器200包括固定或新颖码本202及自适应码本204。根据经过编码的信号,对于当前由合成器200处理的当前帧,从各个码本202及204输出码。合成器200包括加法器或组合器206,以组合从各个码本202及204接收的码。加法器206的输出端连接至LPC合成滤波器208,以用于合成实际音频信号以及将其在输出端210处输出。根据实施例,合成器200可包括第一放大器212,用于使用期望的码增益来倍增来自固定码本202的贡献。另外,可提供第二放大器214,以根据音调增益来倍增来自自适应码本204的贡献,这是因为来自自适应码本的贡献对语音的音调进行模型化。根据另一实施例,还可提供LPC系数存储器216(如存储器或类似者),以用于存储在包括合成器200的解码器处可用的LPC系数。将LPC系数提供至合成滤波器208,以提供所要的LPC合成滤波。
合成器200包括连接在固定码本202与第一放大器212之间的滤波器218。滤波器218从存储器216接收针对当前帧的LPC系数。通过本发明的结构,从存储于存储器216中的已发送的LPC系数恢复当前处理的音频帧的倾斜。根据图2的实施例,假定fs(n)为具有转移函数Fs(z)=1/A(z)的LPC合成滤波器208的脉冲响应,且倾斜由滤波器208如下确定:
其中N为无限脉冲响应fs(n)的截断的大小。根据一实施例,N等于新颖码本的大小,亦即,N等于存储于新颖码本中的码或码字的数目。根据图2的实施例,通过在滤波器218中提供的滤波操作,将频谱倾斜应用于从固定码本202获取的码c(n)。滤波操作定义如下:
c(n)*ft1(n),
其中ft1(n)为以下转移函数的脉冲响应:
Ft1(z)=1-γz-1
图2的实施例是有利的,因为其允许通过增强编码增益来增强经过解码的信号的感知质量。编码增益的增强是通过由转移函数对从固定码本202获取的码字或码进行滤波实现的,该转移函数包括基于LPC合成滤波器208的转移函数的脉冲响应确定的频谱倾斜。
根据第三实施例,为了进一步改进频谱倾斜以更接近最佳倾斜(亦即,更接近输入信号的当前帧的实际倾斜),LPC合成滤波器208具有以下转移函数:
其中w1=0.8且w2=0.9。在此情况下,频谱倾斜定义如下:
加权常数w1及w2用来控制频谱包络的动态。举例而言,若w1=0且w2=1,则Fe(z)很紧密地遵循真实信号包络。所得频谱倾斜γ将示出高动态且可过多波动。这可以是针对码本明确缺乏倾斜结构的非常低比特率的解决方案。然而,已发现,在感知上,从频谱包络的平滑版本推断频谱倾斜γ更好。发现通过以上值w1=0.8且w2=0.9可实现良好的平滑,其示出了对于大范围的比特率的良好折衷。根据实施例,w1及w2是依赖于比特率。在非常高的速率下,若码本足够大且能够模型化任何频谱倾斜γ,则可通过设定w1=w2=1来切断频谱倾斜γ的影响。
当与产生具有比最佳倾斜将具有的斜率更陡的斜率的第二实施例比较时,使用“加权的”转移函数的第三实施例提供的倾斜更接近当前帧的实际倾斜。
图3示出了根据本发明的第四实施例的信号合成器200′的另一简化框图,其再次应用CELP编码方案。当与关于图2描述的实施例相比时,关于图3描述的实施例进一步应用以上提到的同先前帧的发声有关的因子。从图3可见,合成器200′的结构实质上与图2的合成器200的结构相同,只不过其还提供了发声估计器220,该发声估计器220接收放大器214的输出以及由加法器206输出的来自新颖码本以及自适应码本的组合贡献。发声估计器将信号输出至滤波器280,使得基于与发声因子进行组合的所确定的倾斜(参见图2及以上描述)来修改从新颖码本202获得的码或码字。更具体地,根据图3的实施例,将确定的频谱倾斜与同先前帧的发声有关的因子β组合。结合图3描述的方法是有利的,这是因为与结合图1及图2描述的实施例相比,其允许获得将要应用于码字的倾斜的更好估计。对码或码形成的修改可再次被视为使用如下的转移函数的滤波操作:
Ft2(z)=1-(a·β+b·γ)z-1
其中a及b为常数。在优选实施例中,a=0.5且b=0.25。可如下根据先前帧的发声来推断因子β:
且实际因子β可被确定如下:
β=常数·(1+发声)
应用常数a及b,以控制发声倾斜β与频谱倾斜γ的混合。如上关于加权常数w1及w2所述,对于低比特率和中等比特率,其可通过基于频谱倾斜γ锐化低频率或高频率来与码本形成相关。还注意到,信号的发声愈多,对高频率进行锐化就越好。常数a及b可用来归一化倾斜因子β及γ,且对其强度加权以便按需要组合两个效应。根据实施例,可通过评估感知质量来经验地确定常数a及b。这使得两个因子具有大约相同强度:γ限于-1与1之间,因此b·γ介于-0.25与0.25之间,且β限于0与0.5之间,因此a·β限于0与0.25之间。至于加权常数w1及w2,同样可使常数a及b取决于比特率。
根据第四实施例,图3中所示的音频合成使得使用被称为音调增益的增益来倍增自适应码本贡献(因为该贡献对语音的音调进行模型化)。新颖码首先由Ft2(z)滤波,以用于将频谱倾斜添加至该码,其中该倾斜(如上所述)与将要合成的信号的当前帧的倾斜相关。滤波器218的输出是使用码增益来倍增的,且该两个贡献(来自自适应码本的倍增贡献及来自新颖码本的倍增修改贡献)被加法器206相加,然后由合成滤波器滤波,以用于在输出端210处产生合成的输出信号。
图4示出了根据本发明的教导进行操作的解码器(例如,语音解码器)的实施例。解码器300包括根据以上描述的实施例之一的合成器100、200、200′。该解码器具有接收由解码器处理的经过编码的信号的输入端302及用于在解码器300的输出端304处产生经过解码的信号的合成器。
图5示出了根据本发明的教导进行操作的编码器(例如,语音编码器)的实施例。编码器400包括用于对音频信号进行编码的处理单元402。另外,该处理单元根据音频信号的当前帧的频谱倾斜(例如,根据在编码器处可用的LPC系数)确定表示解码器处的码本的码(表示音频信号的当前帧)的频谱倾斜的信息。此信息可与编码音频信号一起发送至解码器侧,在解码器侧,其可在合成音频信号时加以应用。可根据如上文结合图1至图3描述的方式在编码器处确定频谱倾斜,且可根据如上文结合图1至图3的描述,在解码器处对其加以应用。因此,本发明的实施例提供如图5所示的上述音频编码器以及用于解码音频信号的音频解码器,其中音频解码器未必需要确定频谱倾斜,相反,其被配置为将从编码器接收的频谱倾斜应用于用于合成音频信号的当前帧的码本的码。举例而言,解码器可具有如图1至图3的合成器的合成器,只不过处理单元108或滤波器218接收在编码器处计算并从编码器发送的倾斜。所接收的倾斜可存储于(例如)存储器216中或另一存储器中。
虽然已在装置的上下文中描述了一些方面,但显然,这些方面还表示对应方法的描述,其中区块或器件对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面还表示对应装置的对应区块或项目或特征的描述。所述方法步骤中的一些或全部可由硬件装置(例如,微处理器、可编程计算机或电子电路)来执行(或使用硬件装置)。在一些实施例中,最重要的方法步骤中的一个或多个步骤可由此装置执行。
根据某些实施要求,本发明的实施例可以通过硬件或以软件实施。可使用存储有电子可读控制信号的非瞬时存储介质(诸如,数字存储介质,例如软盘、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或FLASH存储器)执行该实施,这种电子可读控制信号与(或能够与)可编程计算机系统合作从而执行各个方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,所述电子可读控制信号能够与可编程计算机系统合作,从而执行本文中描述的方法之一。
通常,可将本发明的实施例实施为具有程序代码的计算机程序产品,该程序代码可操作为当计算机程序产品在计算机上运行时执行所述方法之一。程序代码可(例如)存储于机器可读载体上。
其他实施例包括存储于机器可读载体上的用于执行本文中描述的方法之一的计算机程序。
换言之,本发明方法的实施例因此为具有程序代码的计算机程序,该程序代码用于当计算机程序在计算机上运行时执行本文中描述的方法之一。
本发明方法的再一实施例因此为数据载体(或数字存储介质或计算机可读介质),其包括(记录有)用于执行本文中描述的方法之一的计算机程序。数据载体、数字存储介质或记录介质通常为有形的和/或非瞬时的。
本发明方法的再一实施例因此为表示用于执行本文中描述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可(例如)被配置为经由数据通信连接(例如,经由因特网)传送。
再一实施例包括一种处理装置(例如,计算机或可编程逻辑器件),其被配置或编程为执行本文中描述的方法之一。
再一实施例包括一种计算机,其上安装有用于执行本文中描述的方法之一的计算机程序。
根据本发明的再一实施例包括被配置为将用于执行本文中描述的方法之一的计算机程序传送(例如,以电子方式或以光学方式)至接收机的装置或系统。接收机可(例如)为计算机、移动设备、存储器设备等。装置或系统可(例如)包括用于将计算机程序传送至接收机的文件服务器。
在一些实施例中,可使用可编程逻辑器件(例如,场可编程门阵列)执行本文中描述的方法的一些或全部功能。在一些实施例中,场可编程门阵列可与微处理器合作以便执行本文中描述的方法之一。通常,所述方法优选地由任一硬件装置执行。
上述实施例仅例示本发明的原理。应理解,本文中描述的布置及细节的修改及改变将对本领域技术人员显而易见。因此,本申请只受随附的专利权利要求的范围限制,而不受由本文中的实施例的描述及解释呈现的具体细节限制。
参考文献
[1]Recommendation ITU-T G.718:“Frame error robust narrow-band andwideband embedded variable bit-rate coding of speech and audio from 8-32kbit/s”
[2]US Patent 6,678,651 B2,“Short-Term Enhancement in CELP SpeechCoding”

Claims (27)

1.一种用于合成音频信号的装置,包括:
处理单元(108,110,218),被配置为将频谱倾斜应用于用于合成所述音频信号的当前帧的码本(104,202)的码,
其中所述频谱倾斜基于所述音频信号的当前帧的频谱倾斜,
其中所述装置被配置为基于针对所述音频信号的当前帧的频谱包络信息确定所述音频信号的当前帧的频谱倾斜,以及
其中所述处理单元(108,110,218)被配置为通过基于对所述频谱倾斜进行模型化的转移函数对来自所述码本(104,202)的码进行滤波来应用所述频谱倾斜。
2.根据权利要求1所述的装置,其中所述频谱包络信息是由LPC系数定义的,以及所述音频信号的当前帧的频谱倾斜定义如下:
<mrow> <mi>&amp;gamma;</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <mrow> <msub> <mi>f</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>f</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>f</mi> <mi>s</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中:
fs(n)是具有转移函数Fs(z)=1/A(z)的LPC合成滤波器(106,208)的无限脉冲响应,以及
N是所述无限脉冲响应fs(n)的截断的大小。
3.根据权利要求1所述的装置,其中所述频谱包络信息是由LPC系数定义的,以及所述音频信号的当前帧的频谱倾斜定义如下:
<mrow> <mi>&amp;gamma;</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <mrow> <msub> <mi>f</mi> <mi>e</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>f</mi> <mi>e</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>f</mi> <mi>e</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中:
fe(n)是具有转移函数的LPC合成滤波器(106,208)的无限脉冲响应,
N是所述无限脉冲响应fs(n)的截断的大小,以及
w1、w2是用于定义转移函数Fe(z)的共振峰结构的加权常数。
4.根据权利要求2所述的装置,其中N等于所述码本(104,202)中的码的数目。
5.根据权利要求1所述的装置,其中对所述频谱倾斜进行模型化的转移函数定义如下:
Ft1(z)=1-γz-1,其中γ是频谱倾斜。
6.根据权利要求1所述的装置,其中所述处理单元(108,110,218)还被配置为:将所确定的所述音频信号的当前帧的频谱倾斜与同所述音频信号的先前帧的发声有关的因子进行组合。
7.根据权利要求6所述的装置,其中所述处理单元(108,110,218)被配置为:通过基于对与和所述音频信号的先前帧的发声有关的因子组合的所述频谱倾斜进行模型化的转移函数对来自码本(104,202)的码进行滤波来应用所述频谱倾斜。
8.根据权利要求7所述的装置,其中同所述音频信号的先前帧的发声有关的因子定义如下:
β=常数·(1+发声)
其中:
9.根据权利要求8所述的装置,其中对所述频谱倾斜进行模型化的转移函数定义如下:
Ft2(z)=1-(a·β+b·γ)z-1,其中a、b是常数。
10.根据权利要求1所述的装置,其中所述音频信号是语音信号,其中用于应用所述频谱倾斜的处理单元包括滤波器(218),且其中所述装置还包括:
自适应码本(204),
固定码本(202),
所述滤波器(218),与所述固定码本(202)耦合,所述滤波器(218)被配置为将所确定的频谱倾斜应用于固定码本(202)的码,以获得固定码本(202)的经过滤波的码,
加法器(206),与自适应码本(204)和所述滤波器(218)耦合,所述加法器(206)被配置为对来自所述自适应码本(204)的码和所述固定码本(202)的经过滤波的码进行组合,以获得经过组合的码,以及
LPC合成滤波器(208),与所述加法器(206)耦合。
11.根据权利要求10所述的装置,还包括:
音调增益放大器(214),耦合在所述自适应码本(204)和所述加法器(206)之间,所述音调增益放大器(214)被配置为使用音调增益来倍增来自所述自适应码本(204)的码,以及
码增益放大器(212),耦合在所述滤波器(218)和所述加法器(206)之间,所述码增益放大器(212)被配置为使用码增益来倍增所述固定码本(202)的经过滤波的码。
12.根据权利要求10所述的装置,还包括:
发声估计器(220),与所述自适应码本(204)和所述加法器(206)耦合,所述发声估计器(220)被配置为将同所述音频信号的先前帧的发声有关的因子输出到所述滤波器(218),以及
存储器(216),被配置为存储描述所述音频信号的当前帧的频谱包络信息的LPC系数,所述存储器(216)与所述滤波器(218)耦合。
13.一种音频解码器,包括根据权利要求1所述的用于合成音频信号的装置。
14.一种用于处理音频信号的系统,所述系统包括:
根据权利要求13所述的音频解码器;以及
音频编码器,被配置为根据所述音频信号的当前帧的频谱倾斜确定针对表示所述音频信号的当前帧的码本(104,202)的码的频谱倾斜。
15.一种用于合成音频信号的方法,所述方法包括:
将频谱倾斜应用于用于合成所述音频信号的当前帧的码本(104,202)的码,
其中所述频谱倾斜是基于所述音频信号的当前帧的频谱倾斜确定的,
其中所述音频信号的当前帧的频谱倾斜是基于所述音频信号的当前帧的频谱包络信息确定的,以及
其中应用所述频谱倾斜包括:基于对所述频谱倾斜进行模型化的转移函数对来自所述码本(104,202)的码进行滤波。
16.根据权利要求15所述的方法,其中所述频谱包络信息是由LPC系数定义的,以及所述音频信号的当前帧的频谱倾斜定义如下:
<mrow> <mi>&amp;gamma;</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <mrow> <msub> <mi>f</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>f</mi> <mi>s</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>f</mi> <mi>s</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中:
fs(n)是具有转移函数Fs(z)=1/A(z)的LPC合成滤波器(106,208)的无限脉冲响应,以及
N是所述无限脉冲响应fs(n)的截断的大小。
17.根据权利要求15所述的方法,其中所述频谱包络信息是由LPC系数定义的,以及所述音频信号的当前帧的频谱倾斜定义如下:
<mrow> <mi>&amp;gamma;</mi> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>N</mi> </munderover> <mfrac> <mrow> <msub> <mi>f</mi> <mi>e</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>f</mi> <mi>e</mi> </msub> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>f</mi> <mi>e</mi> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
其中:
fe(n)是具有转移函数的LPC合成滤波器(106,208)的无限脉冲响应,
N是所述无限脉冲响应fs(n)的截断的大小,以及
w1、w2是用于定义转移函数Fe(z)的共振峰结构的加权常数。
18.根据权利要求16所述的方法,其中N等于所述码本(104,202)中的码的数目。
19.根据权利要求15所述的方法,其中对所述频谱倾斜进行模型化的转移函数定义如下:
Ft1(z)=1-γz-1,其中γ是频谱倾斜。
20.根据权利要求15所述的方法,还包括:将所确定的所述音频信号的当前帧的频谱倾斜与同所述音频信号的先前帧的发声有关的因子进行组合。
21.根据权利要求20所述的方法,其中应用所述频谱倾斜包括:
基于对与和所述音频信号的先前帧的发声有关的因子组合的所述频谱倾斜进行模型化的转移函数对来自码本(104,202)的码进行滤波。
22.根据权利要求21所述的方法,其中同所述音频信号的先前帧的发声有关的因子定义如下:
β=常数·(1+发声)
其中:
23.根据权利要求22所述的方法,其中对所述频谱倾斜进行模型化的转移函数定义如下:
Ft2(z)=1-(a·β+b·γ)z-1,其中a、b是常数。
24.根据权利要求15所述的方法,其中所述音频信号是语音信号,并且其中合成所述音频信号包括,针对所述音频信号中的帧:
将所确定的频谱倾斜应用于固定码本(202)的码,以获得固定码本(202)的经过滤波的码,
将来自自适应码本(204)的码与所述固定码本(202)的经过滤波的码进行组合,以获得经过组合的码,以及
通过LPC合成滤波器(208)对所述经过组合的码进行滤波。
25.根据权利要求24所述的方法,还包括:使用音调增益来倍增来自所述自适应码本(204)的码,以及使用码增益来倍增所述固定码本(202)的经过滤波的码。
26.根据权利要求24所述的方法,还包括:
基于来自所述自适应码本(204)的码和所述经过组合的码,生成同所述音频信号的先前帧的发声有关的因子,以及
存储描述针对所述音频信号的当前帧的频谱包络信息的LPC系数。
27.一种存储指令的非瞬时计算机介质,所述指令当在计算机上运行时执行根据权利要求15所述的用于合成音频信号的方法。
CN201480006383.1A 2013-01-29 2014-01-28 合成音频信号的装置与方法、解码器、编码器、系统以及计算机程序 Active CN105009210B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361758098P 2013-01-29 2013-01-29
US61/758,098 2013-01-29
PCT/EP2014/051592 WO2014118156A1 (en) 2013-01-29 2014-01-28 Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program

Publications (2)

Publication Number Publication Date
CN105009210A CN105009210A (zh) 2015-10-28
CN105009210B true CN105009210B (zh) 2018-04-10

Family

ID=50033504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480006383.1A Active CN105009210B (zh) 2013-01-29 2014-01-28 合成音频信号的装置与方法、解码器、编码器、系统以及计算机程序

Country Status (20)

Country Link
US (3) US10431232B2 (zh)
EP (1) EP2951819B1 (zh)
JP (1) JP6082126B2 (zh)
KR (1) KR101737254B1 (zh)
CN (1) CN105009210B (zh)
AR (1) AR094683A1 (zh)
AU (1) AU2014211524B2 (zh)
BR (1) BR112015018023B1 (zh)
CA (1) CA2899059C (zh)
ES (1) ES2626977T3 (zh)
HK (1) HK1217564A1 (zh)
MX (1) MX347316B (zh)
MY (1) MY183444A (zh)
PL (1) PL2951819T3 (zh)
PT (1) PT2951819T (zh)
RU (1) RU2618919C2 (zh)
SG (1) SG11201505903UA (zh)
TW (1) TWI544481B (zh)
WO (1) WO2014118156A1 (zh)
ZA (1) ZA201506318B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2618919C2 (ru) * 2013-01-29 2017-05-12 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для синтезирования аудиосигнала, декодер, кодер, система и компьютерная программа

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678651B2 (en) * 2000-09-15 2004-01-13 Mindspeed Technologies, Inc. Short-term enhancement in CELP speech coding
CN1468427A (zh) * 2000-05-19 2004-01-14 �����ɭ��ϵͳ��˾ 一种码激励线性预测语音编码器的增益量化
CN101199004A (zh) * 2005-04-22 2008-06-11 高通股份有限公司 用于增益因数平滑的系统、方法及设备
CN101836253A (zh) * 2008-07-11 2010-09-15 弗劳恩霍夫应用研究促进协会 一种使用频谱倾斜控制成帧技术来计算带宽扩展数据的装置及方法

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
JP3522012B2 (ja) * 1995-08-23 2004-04-26 沖電気工業株式会社 コード励振線形予測符号化装置
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6463410B1 (en) * 1998-10-13 2002-10-08 Victor Company Of Japan, Ltd. Audio signal processing apparatus
CA2252170A1 (en) 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6242748B1 (en) 1999-08-10 2001-06-05 Edax, Inc. Methods and apparatus for mounting an X-ray detecting unit to an electron microscope
US6996523B1 (en) 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
WO2003097258A1 (fr) 2002-05-20 2003-11-27 Matsushita Electric Industrial Co., Ltd. Procede et dispositif de lavage
US20060089836A1 (en) * 2004-10-21 2006-04-27 Motorola, Inc. System and method of signal pre-conditioning with adaptive spectral tilt compensation for audio equalization
US7475103B2 (en) 2005-03-17 2009-01-06 Qualcomm Incorporated Efficient check node message transform approximation for LDPC decoder
WO2006107833A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for vector quantizing of a spectral envelope representation
EP1722360B1 (en) 2005-05-13 2014-03-19 Harman Becker Automotive Systems GmbH Audio enhancement system and method
US7454335B2 (en) * 2006-03-20 2008-11-18 Mindspeed Technologies, Inc. Method and system for reducing effects of noise producing artifacts in a voice codec
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
EP2063418A4 (en) * 2006-09-15 2010-12-15 Panasonic Corp AUDIO CODING DEVICE AND AUDIO CODING METHOD
CN101743586B (zh) * 2007-06-11 2012-10-17 弗劳恩霍夫应用研究促进协会 音频编码器、编码方法、解码器、解码方法
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
CA2778240C (en) * 2009-10-20 2016-09-06 Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio codec and celp coding adapted therefore
CN102844810B (zh) * 2010-04-14 2017-05-03 沃伊斯亚吉公司 用于在码激励线性预测编码器和解码器中使用的灵活和可缩放的组合式创新代码本
RU2552184C2 (ru) * 2010-05-25 2015-06-10 Нокиа Корпорейшн Устройство для расширения полосы частот
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
US9706314B2 (en) * 2010-11-29 2017-07-11 Wisconsin Alumni Research Foundation System and method for selective enhancement of speech signals
JP5328883B2 (ja) * 2011-12-02 2013-10-30 パナソニック株式会社 Celp型音声復号化装置およびcelp型音声復号化方法
TR201908919T4 (tr) * 2013-01-29 2019-07-22 Fraunhofer Ges Forschung Celp benzeri kodlayıcılar için yan bilgi olmadan gürültü doldurumu.
PL3054446T3 (pl) * 2013-01-29 2024-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder audio, dekoder audio, sposób dostarczania kodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i kodowana reprezentacja, stosujące adaptacyjne względem sygnału rozszerzenie szerokości pasma
KR101926651B1 (ko) * 2013-01-29 2019-03-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 노이즈 채움 개념
RU2618919C2 (ru) * 2013-01-29 2017-05-12 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для синтезирования аудиосигнала, декодер, кодер, система и компьютерная программа
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
JP6366705B2 (ja) * 2013-10-18 2018-08-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 確定的及びノイズ状情報を用いてオーディオ信号を符号化/復号化する概念
CN105745705B (zh) * 2013-10-18 2020-03-20 弗朗霍夫应用科学研究促进协会 编码和解码音频信号的编码器、解码器及相关方法
CN104751849B (zh) * 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
FR3017484A1 (fr) * 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
US9672843B2 (en) * 2014-05-29 2017-06-06 Apple Inc. Apparatus and method for improving an audio signal in the spectral domain
US9373342B2 (en) * 2014-06-23 2016-06-21 Nuance Communications, Inc. System and method for speech enhancement on compressed speech
CN105225671B (zh) * 2014-06-26 2016-10-26 华为技术有限公司 编解码方法、装置及系统
CN106486129B (zh) * 2014-06-27 2019-10-25 华为技术有限公司 一种音频编码方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1468427A (zh) * 2000-05-19 2004-01-14 �����ɭ��ϵͳ��˾ 一种码激励线性预测语音编码器的增益量化
US6678651B2 (en) * 2000-09-15 2004-01-13 Mindspeed Technologies, Inc. Short-term enhancement in CELP speech coding
CN101199004A (zh) * 2005-04-22 2008-06-11 高通股份有限公司 用于增益因数平滑的系统、方法及设备
CN101836253A (zh) * 2008-07-11 2010-09-15 弗劳恩霍夫应用研究促进协会 一种使用频谱倾斜控制成帧技术来计算带宽扩展数据的装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s;ITU;《ITU-T TELECOMMUNICATION STANDARIZATION SECTOR OF ITU》;20080630;1-246 *

Also Published As

Publication number Publication date
CA2899059C (en) 2018-05-15
BR112015018023A2 (zh) 2017-08-22
MX2015009749A (es) 2015-11-06
MX347316B (es) 2017-04-21
KR101737254B1 (ko) 2017-05-17
SG11201505903UA (en) 2015-08-28
BR112015018023B1 (pt) 2022-06-07
EP2951819A1 (en) 2015-12-09
ES2626977T3 (es) 2017-07-26
KR20150112028A (ko) 2015-10-06
EP2951819B1 (en) 2017-03-01
WO2014118156A1 (en) 2014-08-07
CA2899059A1 (en) 2014-08-07
JP2016509694A (ja) 2016-03-31
HK1217564A1 (zh) 2017-01-13
RU2015136788A (ru) 2017-03-06
CN105009210A (zh) 2015-10-28
TW201435862A (zh) 2014-09-16
AR094683A1 (es) 2015-08-19
RU2618919C2 (ru) 2017-05-12
AU2014211524A1 (en) 2015-09-17
PL2951819T3 (pl) 2017-08-31
MY183444A (en) 2021-02-18
US10431232B2 (en) 2019-10-01
US20150332694A1 (en) 2015-11-19
US11373664B2 (en) 2022-06-28
AU2014211524B2 (en) 2016-07-07
JP6082126B2 (ja) 2017-02-15
US20190378528A1 (en) 2019-12-12
US20220293114A1 (en) 2022-09-15
TWI544481B (zh) 2016-08-01
ZA201506318B (en) 2016-07-27
PT2951819T (pt) 2017-06-06

Similar Documents

Publication Publication Date Title
CN101836252B (zh) 用于在音频代码化系统中生成增强层的方法和装置
JP5374418B2 (ja) 音声符号化用適応符号帳ゲインの制御
US5946651A (en) Speech synthesizer employing post-processing for enhancing the quality of the synthesized speech
US20140207445A1 (en) System and Method for Correcting for Lost Data in a Digital Audio Signal
JP6366706B2 (ja) スピーチ関連のスペクトル整形情報を使用したオーディオ信号符号化と復号化の概念
US20220293114A1 (en) Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program
JP4438280B2 (ja) トランスコーダ及び符号変換方法
JP3490325B2 (ja) 音声信号符号化方法、復号方法およびその符号化器、復号器
JP3578933B2 (ja) 重み符号帳の作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体
JP2004151423A (ja) 帯域拡張装置及び方法
JP5127170B2 (ja) 復号装置およびスペクトル整形方法
WO2005045808A1 (en) Harmonic noise weighting in digital speech coders
JP3576805B2 (ja) 音声符号化方法及びシステム並びに音声復号化方法及びシステム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant