CN105009210A - 合成音频信号的装置与方法、解码器、编码器、系统以及计算机程序 - Google Patents
合成音频信号的装置与方法、解码器、编码器、系统以及计算机程序 Download PDFInfo
- Publication number
- CN105009210A CN105009210A CN201480006383.1A CN201480006383A CN105009210A CN 105009210 A CN105009210 A CN 105009210A CN 201480006383 A CN201480006383 A CN 201480006383A CN 105009210 A CN105009210 A CN 105009210A
- Authority
- CN
- China
- Prior art keywords
- code
- sound signal
- spectral tilt
- present frame
- transfer function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000002194 synthesizing effect Effects 0.000 title abstract description 4
- 238000004590 computer program Methods 0.000 title description 12
- 230000003595 spectral effect Effects 0.000 claims abstract description 84
- 238000012546 transfer Methods 0.000 claims description 30
- 238000001914 filtration Methods 0.000 claims description 24
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 239000002131 composite material Substances 0.000 claims description 22
- 238000003786 synthesis reaction Methods 0.000 claims description 22
- 230000003044 adaptive effect Effects 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 230000000903 blocking effect Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims 2
- 238000010168 coupling process Methods 0.000 claims 2
- 238000005859 coupling reaction Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 18
- 230000002349 favourable effect Effects 0.000 description 8
- 238000005728 strengthening Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002203 pretreatment Methods 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
描述了用于合成音频信号的方法和装置。将频谱倾斜应用于合成所述音频信号的当前帧的码本(202)的码。所述频谱倾斜基于所述音频信号的当前帧的频谱倾斜。此外,描述了根据本发明的方法进行操作的音频解码器。
Description
技术领域
本发明涉及音频编码领域,更具体地,涉及合成音频信号领域。实施例涉及语音编码,具体地,涉及称为码激发线性预测编码(CELP)的语音编码技术。实施例提供用于在新颖或固定码本中形成CELP的码的过程中进行自适应倾斜补偿的方法。
背景技术
CELP编码方案广泛地用于语音通信中,且是对语音进行编码的高效方式。CELP通过将两个激发的和传递至线性预测滤波器(例如,LPC合成滤波器1/A(z))来合成音频信号。一个激发来自经过解码的过去(其被称为自适应码本),且另一贡献来自由固定码填充的固定或新颖码本。CELP编码方案的一个问题在于,在低比特率下,新颖码本未被充分地填充以用于高效地对语音的精细结构进行模型化(modeling),从而感知的质量降级且所合成的输出信号听起来嘈杂。
为了减轻编码伪像,在参考文献[1]中和参考文献[2]中已经提出和描述了不同的解决方案。在这些参考中,通过增强对应于音频信号的当前帧的共振峰(formant)的频谱区域来自适应地且频谱地(spectrally)形成新颖码本的码。共振峰位置及形状可直接根据LPC系数来推断,LPC系数为在编码器及解码器两者处都可用的系数。对新颖码本的码c(n)的共振峰增强是通过以下简单滤波操作实现的:
c(n)*fe(n)。
在此滤波过程中,fe(n)是具有以下转移函数的滤波器的脉冲响应:
其中w1及w2为两个加权常数,其或多或少地强调转移函数Fe(z)的共振峰结构。新颖码本的所得的所形成的码继承了语音信号的一个特性且所合成的信号听起来噪声较少。
在CELP编码方案中,通常还将向新颖码本的码添加频谱倾斜,这是通过如下对来自新颖码本的码进行如下滤波来实现的:
Ft(z)=1-βz-1。
因子β与先前音频帧的发声有关,且可根据来自自适应码本的能量贡献估计发声。举例而言,若先前帧有声,则预期当前帧亦有声,并且码将在低频中具有更多能量,即,频谱具有负倾斜。
发明内容
本发明的目的是提供一种用于合成音频信号的改进方法。
此目的是通过根据权利要求1的装置及通过根据权利要求19的方法来实现的。
本发明提供一种用于合成音频信号的装置,所述装置包括处理单元,该处理单元被配置为将频谱倾斜应用于用于合成所述音频信号的当前帧的码本的码,其中所述频谱倾斜基于所述音频信号的当前帧的频谱倾斜。
本发明提供一种用于合成音频信号的方法,所述方法包括将频谱倾斜应用于用于合成所述音频信号的当前帧的码本的码,其中所述频谱倾斜是基于所述音频信号的当前帧的频谱倾斜确定的。
本申请的发明人发现,通过在合成信号时利用音频信号的频谱倾斜的性质来改进可实现的编码增益,可以在低比特率及较高比特率处都进一步改进音频信号的合成。根据实施例,本发明涉及语音编码,例如,使用CELP语音编码技术,该CELP语音编码技术允许增强CELP的编码增益,从而增强经过解码或合成的信号的感知质量。本发明的方法是基于发明人的以下发现:可通过根据当前处理的实际输入信号的频谱倾斜的函数,适配码本的码(例如,CELP新颖码本的码)的频谱倾斜,来实现这一改进。本发明的方法是有利的,这是因为,除了增强的编码增益外,在低比特率下(其中新颖码本未被充分填充以用于高效地模型化语音的精细结构),其还允许进一步的共振峰增强。在较高比特率下(其中新颖码本被充分填充),应用本发明的方法将增强编码增益。更具体地,在较高比特率下,可不需要共振峰增强,这是因为新颖码本对于适当地模型化语音的精细结构来讲足够大,且进一步增强共振峰将使所合成的信号听起来过于合成。然而,最佳码并非在频谱上平坦的,且添加频谱倾斜将增强编码增益。根据实施例,对将要应用于新颖码本的码的最佳倾斜的估计越准确,其与输入信号的当前帧的倾斜关联越清晰(specifically)。
根据实施例,基于针对音频信号的当前帧的频谱包络信息确定音频信号的当前帧的频谱倾斜,其中频谱包络信息可由LPC系数定义。此实施例是有利的,因为其允许基于已经在编码器及解码器两者处可用的信息(即,LPC系数)确定当前帧的频谱倾斜。
根据另外实施例,可基于LPC合成滤波器的截断无限脉冲响应确定基于LPC系数的音频信号的当前帧的频谱倾斜。根据实施例,截断可由新颖码本的大小(亦即,新颖码本中的码的数目)确定。此方法是有利的,因为其允许使频谱倾斜的确定与新颖码本的实际大小直接有关。
根据另外实施例,无限脉冲响应可以是具有未加权的转移函数或加权的转移函数的LPC合成滤波器的无限脉冲响应。使用未加权的转移函数允许对频谱倾斜进行简化确定,而使用加权的转移函数是有利的,这是因为其允许具有更接近最佳倾斜的斜率的频谱倾斜。
根据实施例,通过基于包括频谱倾斜的转移函数对来自码本的码进行滤波,将所确定的频谱倾斜应用于各个码。此实施例是有利的,因为可通过简单的滤波过程实现增强。
根据又一实施例,可将当前帧的频谱倾斜与同音频信号的先前帧的发声有关的因子进行组合,例如,通过基于包括频谱倾斜及该因子的转移函数对来自码本的码滤波来实现。此方法是有利的,因为其提供获得最佳倾斜的更好估计的可能性。
本发明提供一种包括用于合成音频信号的本发明装置的音频解码器。
本发明提供一种用于解码音频信号的音频解码器,其中音频解码器被配置为将频谱倾斜应用于用于合成所述音频信号的当前帧的码本的码,其中所述频谱倾斜基于所述音频信号的当前帧的频谱倾斜。
本发明提供一种用于对音频信号进行编码的编码器,其中所述音频编码器被配置为根据所述音频信号的当前帧的频谱倾斜确定针对表示所述音频信号的当前帧的码本的码的频谱倾斜。
本发明提供一种系统,所述系统包括本发明的音频解码器及本发明的音频编码器。
本发明提供一种存储指令的非瞬时计算机介质,所述指令当在计算机上运行时执行用于合成音频信号的本发明方法。
附图说明
现将结合附图进一步详细地描述本发明的实施例,其中:
图1示出了根据第一实施例的用于合成音频信号的本发明的装置的示意性表示;
图2示出了根据本发明的第二实施例的信号合成器的简化框图,该信号合成器基于CELP方案进行操作;
图3示出了根据本发明的另一实施例的信号合成器的简化框图,其再次应用加入了先前帧的发声的CELP编码方案;
图4示出了根据本发明的教导进行操作的解码器(例如,语音解码器)的实施例;以及
图5示出了根据本发明的教导进行操作的编码器(例如,语音编码器)的实施例。
具体实施方式
在下文中,将描述本发明的方法的实施例。注意,在随后描述中,类似的元素/步骤通过同样的附图标记来指代。
图1示出了根据第一实施例的用于合成音频信号的本发明装置的示意性表示。装置100在输入端102处接收经过编码的信号,例如,经过编码的音频信号,如语音信号。为了解码音频信号,装置100包括具有多个码的码本104。为了合成信号,当基于在输入端102处接收的经过编码的信号来处理当前帧时,从码本104选择适当的码或码字且将其供应给合成器或合成滤波器106。根据本发明,该装置包括处理单元108,处理单元108基于音频信号的当前帧(亦即,当前由装置100处理的音频信号的帧)的频谱倾斜确定将应用于从码本104读取的码c(n)的频谱倾斜,如示意性地在110处所表示。将经过修改的码c(n)*γ应用到合成滤波器106,该合成滤波器106基于经过修改的码来产生被提供给装置100的输出端112的合成信号。处理单元108可基于当前帧的频谱包络信息(例如,在装置100处可用的针对合成滤波器106的滤波器系数)确定频谱倾斜。
根据另外实施例,将描述用于形成CELP新颖码本的码的自适应倾斜补偿。图2示出了根据本发明的第二实施例的信号合成器200的简化框图,该信号合成器200基于CELP方案操作。根据CELP方案,合成器200包括固定或新颖码本202及自适应码本204。根据经过编码的信号,对于当前由合成器200处理的当前帧,从各个码本202及204输出码。合成器200包括加法器或组合器206,以组合从各个码本202及204接收的码。加法器206的输出端连接至LPC合成滤波器208,以用于合成实际音频信号以及将其在输出端210处输出。根据实施例,合成器200可包括第一放大器212,用于使用期望的码增益来倍增来自固定码本202的贡献。另外,可提供第二放大器214,以根据音调增益来倍增来自自适应码本204的贡献,这是因为来自自适应码本的贡献对语音的音调进行模型化。根据另一实施例,还可提供LPC系数存储器216(如存储器或类似者),以用于存储在包括合成器200的解码器处可用的LPC系数。将LPC系数提供至合成滤波器208,以提供所要的LPC合成滤波。
合成器200包括连接在固定码本202与第一放大器212之间的滤波器218。滤波器218从存储器216接收针对当前帧的LPC系数。通过本发明的结构,从存储于存储器216中的已发送的LPC系数恢复当前处理的音频帧的倾斜。根据图2的实施例,假定fs(n)为具有转移函数Fs(z)=1/A(z)的LPC合成滤波器208的脉冲响应,且倾斜由滤波器208如下确定:
其中N为无限脉冲响应fs(n)的截断的大小。根据一实施例,N等于新颖码本的大小,亦即,N等于存储于新颖码本中的码或码字的数目。根据图2的实施例,通过在滤波器218中提供的滤波操作,将频谱倾斜应用于从固定码本202获取的码c(n)。滤波操作定义如下:
c(n)*ft1(n),
其中ft1(n)为以下转移函数的脉冲响应:
Ft1(z)=1-γz-1。
图2的实施例是有利的,因为其允许通过增强编码增益来增强经过解码的信号的感知质量。编码增益的增强是通过由转移函数对从固定码本202获取的码字或码进行滤波实现的,该转移函数包括基于LPC合成滤波器208的转移函数的脉冲响应确定的频谱倾斜。
根据第三实施例,为了进一步改进频谱倾斜以更接近最佳倾斜(亦即,更接近输入信号的当前帧的实际倾斜),LPC合成滤波器208具有以下转移函数:
其中w1=0.8且w2=0.9。在此情况下,频谱倾斜定义如下:
加权常数w1及w2用来控制频谱包络的动态。举例而言,若w1=0且w2=1,则Fe(z)很紧密地遵循真实信号包络。所得频谱倾斜γ将示出高动态且可过多波动。这可以是针对码本明确缺乏倾斜结构的非常低比特率的解决方案。然而,已发现,在感知上,从频谱包络的平滑版本推断频谱倾斜γ更好。发现通过以上值w1=0.8且w2=0.9可实现良好的平滑,其示出了对于大范围的比特率的良好折衷。根据实施例,w1及w2是依赖于比特率。在非常高的速率下,若码本足够大且能够模型化任何频谱倾斜γ,则可通过设定w1=w2=1来切断频谱倾斜γ的影响。
当与产生具有比最佳倾斜将具有的斜率更陡的斜率的第二实施例比较时,使用“加权的”转移函数的第三实施例提供的倾斜更接近当前帧的实际倾斜。
图3示出了根据本发明的第四实施例的信号合成器200′的另一简化框图,其再次应用CELP编码方案。当与关于图2描述的实施例相比时,关于图3描述的实施例进一步应用以上提到的同先前帧的发声有关的因子。从图3可见,合成器200′的结构实质上与图2的合成器200的结构相同,只不过其还提供了发声估计器220,该发声估计器220接收放大器214的输出以及由加法器206输出的来自新颖码本以及自适应码本的组合贡献。发声估计器将信号输出至滤波器280,使得基于与发声因子进行组合的所确定的倾斜(参见图2及以上描述)来修改从新颖码本202获得的码或码字。更具体地,根据图3的实施例,将确定的频谱倾斜与同先前帧的发声有关的因子β组合。结合图3描述的方法是有利的,这是因为与结合图1及图2描述的实施例相比,其允许获得将要应用于码字的倾斜的更好估计。对码或码形成的修改可再次被视为使用如下的转移函数的滤波操作:
Ft2(z)=1-(a·β+b·γ)z-1
其中a及b为常数。在优选实施例中,a=0.5且b=0.25。可如下根据先前帧的发声来推断因子β:
且实际因子β可被确定如下:
β=常数·(1+发声)
应用常数a及b,以控制发声倾斜β与频谱倾斜γ的混合。如上关于加权常数w1及w2所述,对于低比特率和中等比特率,其可通过基于频谱倾斜γ锐化低频率或高频率来与码本形成相关。还注意到,信号的发声愈多,对高频率进行锐化就越好。常数a及b可用来归一化倾斜因子β及γ,且对其强度加权以便按需要组合两个效应。根据实施例,可通过评估感知质量来经验地确定常数a及b。这使得两个因子具有大约相同强度:γ限于-1与1之间,因此b·γ介于-0.25与0.25之间,且β限于0与0.5之间,因此a·β限于0与0.25之间。至于加权常数w1及w2,同样可使常数a及b取决于比特率。
根据第四实施例,图3中所示的音频合成使得使用被称为音调增益的增益来倍增自适应码本贡献(因为该贡献对语音的音调进行模型化)。新颖码首先由Ft2(z)滤波,以用于将频谱倾斜添加至该码,其中该倾斜(如上所述)与将要合成的信号的当前帧的倾斜相关。滤波器218的输出是使用码增益来倍增的,且该两个贡献(来自自适应码本的倍增贡献及来自新颖码本的倍增修改贡献)被加法器206相加,然后由合成滤波器滤波,以用于在输出端210处产生合成的输出信号。
图4示出了根据本发明的教导进行操作的解码器(例如,语音解码器)的实施例。解码器300包括根据以上描述的实施例之一的合成器100、200、200′。该解码器具有接收由解码器处理的经过编码的信号的输入端302及用于在解码器300的输出端304处产生经过解码的信号的合成器。
图5示出了根据本发明的教导进行操作的编码器(例如,语音编码器)的实施例。编码器400包括用于对音频信号进行编码的处理单元402。另外,该处理单元根据音频信号的当前帧的频谱倾斜(例如,根据在编码器处可用的LPC系数)确定表示解码器处的码本的码(表示音频信号的当前帧)的频谱倾斜的信息。此信息可与编码音频信号一起发送至解码器侧,在解码器侧,其可在合成音频信号时加以应用。可根据如上文结合图1至图3描述的方式在编码器处确定频谱倾斜,且可根据如上文结合图1至图3的描述,在解码器处对其加以应用。因此,本发明的实施例提供如图5所示的上述音频编码器以及用于解码音频信号的音频解码器,其中音频解码器未必需要确定频谱倾斜,相反,其被配置为将从编码器接收的频谱倾斜应用于用于合成音频信号的当前帧的码本的码。举例而言,解码器可具有如图1至图3的合成器的合成器,只不过处理单元108或滤波器218接收在编码器处计算并从编码器发送的倾斜。所接收的倾斜可存储于(例如)存储器216中或另一存储器中。
虽然已在装置的上下文中描述了一些方面,但显然,这些方面还表示对应方法的描述,其中区块或器件对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面还表示对应装置的对应区块或项目或特征的描述。所述方法步骤中的一些或全部可由硬件装置(例如,微处理器、可编程计算机或电子电路)来执行(或使用硬件装置)。在一些实施例中,最重要的方法步骤中的一个或多个步骤可由此装置执行。
根据某些实施要求,本发明的实施例可以通过硬件或以软件实施。可使用存储有电子可读控制信号的非瞬时存储介质(诸如,数字存储介质,例如软盘、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或FLASH存储器)执行该实施,这种电子可读控制信号与(或能够与)可编程计算机系统合作从而执行各个方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,所述电子可读控制信号能够与可编程计算机系统合作,从而执行本文中描述的方法之一。
通常,可将本发明的实施例实施为具有程序代码的计算机程序产品,该程序代码可操作为当计算机程序产品在计算机上运行时执行所述方法之一。程序代码可(例如)存储于机器可读载体上。
其他实施例包括存储于机器可读载体上的用于执行本文中描述的方法之一的计算机程序。
换言之,本发明方法的实施例因此为具有程序代码的计算机程序,该程序代码用于当计算机程序在计算机上运行时执行本文中描述的方法之一。
本发明方法的再一实施例因此为数据载体(或数字存储介质或计算机可读介质),其包括(记录有)用于执行本文中描述的方法之一的计算机程序。数据载体、数字存储介质或记录介质通常为有形的和/或非瞬时的。
本发明方法的再一实施例因此为表示用于执行本文中描述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可(例如)被配置为经由数据通信连接(例如,经由因特网)传送。
再一实施例包括一种处理装置(例如,计算机或可编程逻辑器件),其被配置或编程为执行本文中描述的方法之一。
再一实施例包括一种计算机,其上安装有用于执行本文中描述的方法之一的计算机程序。
根据本发明的再一实施例包括被配置为将用于执行本文中描述的方法之一的计算机程序传送(例如,以电子方式或以光学方式)至接收机的装置或系统。接收机可(例如)为计算机、移动设备、存储器设备等。装置或系统可(例如)包括用于将计算机程序传送至接收机的文件服务器。
在一些实施例中,可使用可编程逻辑器件(例如,场可编程门阵列)执行本文中描述的方法的一些或全部功能。在一些实施例中,场可编程门阵列可与微处理器合作以便执行本文中描述的方法之一。通常,所述方法优选地由任一硬件装置执行。
上述实施例仅例示本发明的原理。应理解,本文中描述的布置及细节的修改及改变将对本领域技术人员显而易见。因此,本申请只受随附的专利权利要求的范围限制,而不受由本文中的实施例的描述及解释呈现的具体细节限制。
参考文献
[1]Recommendation ITU-T G.718:“Frame error robustnarrow-band and wideband embedded variable bit-rate coding of speechand audio from 8-32 kbit/s”
[2]US Patent 6,678,651 B2,“Short-Term Enhancement in CELPSpeech Coding”
Claims (33)
1.一种用于合成音频信号的装置,包括:
处理单元(108,110,218),被配置为将频谱倾斜应用于用于合成所述音频信号的当前帧的码本(104,202)的码,
其中所述频谱倾斜基于所述音频信号的当前帧的频谱倾斜。
2.根据权利要求1所述的装置,被配置为:基于针对所述音频信号的当前帧的频谱包络信息确定所述音频信号的当前帧的频谱倾斜。
3.根据权利要求2所述的装置,其中所述频谱包络信息是由LPC系数定义的,以及所述音频信号的当前帧的频谱倾斜定义如下:
其中:
fS(n)是具有转移函数FS(z)=1/A(z)的LPC合成滤波器(106,208)的无限脉冲响应,以及
N是所述无限脉冲响应fS(n)的截断的大小。
4.根据权利要求2所述的装置,其中所述频谱包络信息是由LPC系数定义的,以及所述音频信号的当前帧的频谱倾斜定义如下:
其中:
fe(n)是具有转移函数的LPC合成滤波器(106,208)的无限脉冲响应,
N是所述无限脉冲响应fS(n)的截断的大小,以及
w1、w2是用于定义转移函数Fe(z)的共振峰结构的加权常数。
5.根据权利要求3或4所述的装置,其中N等于所述码本(104,202)中的码的数目。
6.根据权利要求1-5中的任一项所述的装置,其中所述处理单元(108,110,218)被配置为:通过基于包括所述频谱倾斜的转移函数对来自所述码本(104,202)的码进行滤波来应用所述频谱倾斜。
7.根据权利要求6所述的装置,其中包括所述频谱倾斜的转移函数定义如下:
Ft1(z)=1-γz-1。
8.根据权利要求1-5中的任一项所述的装置,其中所述处理单元(108,110,218)还被配置为:将所确定的所述音频信号的当前帧的频谱倾斜与同所述音频信号的先前帧的发声有关的因子进行组合。
9.根据权利要求8所述的装置,其中同所述音频信号的先前帧的发声有关的因子定义如下:
β=常数·(1+发声)
其中:
10.根据权利要求8或9所述的装置,其中所述处理单元(108,110,218)被配置为:通过基于包括所述频谱倾斜和同所述音频信号的先前帧的发声有关的因子的转移函数对来自码本(104,202)的码进行滤波来应用所述频谱倾斜。
11.根据权利要求10所述的装置,其中包括频谱倾斜的转移函数定义如下:
Ft2(z)=1-(a·β+b·γ)z-1,其中a、b是常数。
12.根据权利要求1-11中的任一项所述的装置,其中所述音频信号是语音信号,其中用于应用所述频谱倾斜的处理单元包括滤波器(218),且其中所述装置还包括:
自适应码本(204),
固定码本(202),
所述滤波器(218),与所述固定码本(202)耦合,所述滤波器(218)被配置为将所确定的频谱倾斜应用于固定码本(202)的码,以获得固定码本(202)的经过滤波的码,
加法器(206),与自适应码本(204)和所述滤波器(218)耦合,所述加法器(206)被配置为对来自所述自适应码本(204)的码和所述固定码本(202)的经过滤波的码进行组合,以获得经过组合的码,以及
LPC合成滤波器(208),与所述加法器(206)耦合。
13.根据权利要求12所述的装置,还包括:
音调增益放大器(214),耦合在所述自适应码本(204)和所述加法器(206)之间,所述音调增益放大器(214)被配置为使用音调增益来倍增来自所述自适应码本(204)的码,以及
码增益放大器(212),耦合在所述滤波器(218)和所述加法器(206)之间,所述码增益放大器(212)被配置为使用码增益来倍增所述固定码本(202)的经过滤波的码。
14.根据权利要求12或13所述的装置,还包括:
发声估计器(220),与所述自适应码本(204)和所述加法器(206)耦合,所述发声估计器(220)被配置为将同所述音频信号的先前帧的发声有关的因子输出到所述滤波器(218),以及
存储器(216),被配置为存储描述所述音频信号的当前帧的频谱包络信息的LPC系数,所述存储器(216)与所述滤波器(218)耦合。
15.一种音频解码器,包括根据权利要求1或14中的任一项所述的用于合成音频信号的装置。
16.一种用于对音频信号进行解码的音频解码器,其中所述音频解码器被配置为将频谱倾斜应用于用于合成所述音频信号的当前帧的码本(104,202)的码,其中所述频谱倾斜基于所述音频信号的当前帧的频谱倾斜。
17.一种用于对音频信号进行编码的音频编码器,其中所述音频编码器被配置为根据所述音频信号的当前帧的频谱倾斜确定针对表示所述音频信号的当前帧的码本(104,202)的码的频谱倾斜。
18.一种系统,包括:
根据权利要求15所述的音频解码器;以及
根据权利要求16所述的音频编码器。
19.一种用于合成音频信号的方法,所述方法包括:
将频谱倾斜应用于用于合成所述音频信号的当前帧的码本(104,202)的码,
其中所述频谱倾斜是基于所述音频信号的当前帧的频谱倾斜确定的。
20.根据权利要求19所述的方法,其中所述音频信号的当前帧的频谱倾斜是基于所述音频信号的当前帧的频谱包络信息确定的。
21.根据权利要求20所述的方法,其中所述频谱包络信息是由LPC系数定义的,以及所述音频信号的当前帧的频谱倾斜定义如下:
其中:
fS(n)是具有转移函数FS(z)=1/A(z)的LPC合成滤波器(106,208)的无限脉冲响应,以及
N是所述无限脉冲响应fS(n)的截断的大小。
22.根据权利要求20所述的方法,其中所述频谱包络信息是由LPC系数定义的,以及所述音频信号的当前帧的频谱倾斜定义如下:
其中:
fe(n)是具有转移函数的LPC合成滤波器(106,208)的无限脉冲响应,
N是所述无限脉冲响应fS(n)的截断的大小,以及
w1、w2是用于定义转移函数Fe(z)的共振峰结构的加权常数。
23.根据权利要求21或22所述的方法,其中N等于所述码本(104,202)中的码的数目。
24.根据权利要求19-23中的任一项所述的方法,其中应用所述频谱倾斜包括:基于包括所述频谱倾斜的转移函数对来自所述码本(104,202)的码进行滤波。
25.根据权利要求24所述的方法,其中包括所述频谱倾斜的转移函数定义如下:
Ft1(z)=1-γz-1。
26.根据权利要求19-23中的任一项所述的方法,还包括:将所确定的所述音频信号的当前帧的频谱倾斜与同所述音频信号的先前帧的发声有关的因子进行组合。
27.根据权利要求26所述的方法,其中同所述音频信号的先前帧的发声有关的因子定义如下:
β=常数·(1+发声)
其中:
28.根据权利要求26或27所述的方法,其中应用所述频谱倾斜包括:基于包括所述频谱倾斜和同所述音频信号的先前帧的发声有关的因子的转移函数对来自码本(104,202)的码进行滤波。
29.根据权利要求28所述的方法,其中包括频谱倾斜的转移函数定义如下:
Ft2(z)=1-(a·β+b·γ)z-1,其中a、b是常数。
30.根据权利要求19-29中的任一项所述的方法,其中所述音频信号是语音信号,并且其中合成所述音频信号包括,针对所述音频信号中的帧:
将所确定的频谱倾斜应用于固定码本(202)的码,以获得固定码本(202)的经过滤波的码,
将来自自适应码本(204)的码与所述固定码本(202)的经过滤波的码进行组合,以获得经过组合的码,以及
通过LPC合成滤波器(208)对所述经过组合的码进行滤波。
31.根据权利要求30所述的方法,还包括:使用音调增益来倍增来自所述自适应码本(204)的码,以及使用码增益来倍增所述固定码本(202)的经过滤波的码。
32.根据权利要求30或31所述的方法,还包括:
基于来自所述自适应码本(204)的码和所述经过组合的码,生成同所述音频信号的先前帧的发声有关的因子,以及
存储描述针对所述音频信号的当前帧的频谱包络信息的LPC系数。
33.一种存储指令的非瞬时计算机介质,所述指令当在计算机上运行时执行根据权利要求19至32中任一项所述的用于合成音频信号的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758098P | 2013-01-29 | 2013-01-29 | |
US61/758,098 | 2013-01-29 | ||
PCT/EP2014/051592 WO2014118156A1 (en) | 2013-01-29 | 2014-01-28 | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105009210A true CN105009210A (zh) | 2015-10-28 |
CN105009210B CN105009210B (zh) | 2018-04-10 |
Family
ID=50033504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480006383.1A Active CN105009210B (zh) | 2013-01-29 | 2014-01-28 | 合成音频信号的装置与方法、解码器、编码器、系统以及计算机程序 |
Country Status (20)
Country | Link |
---|---|
US (3) | US10431232B2 (zh) |
EP (1) | EP2951819B1 (zh) |
JP (1) | JP6082126B2 (zh) |
KR (1) | KR101737254B1 (zh) |
CN (1) | CN105009210B (zh) |
AR (1) | AR094683A1 (zh) |
AU (1) | AU2014211524B2 (zh) |
BR (1) | BR112015018023B1 (zh) |
CA (1) | CA2899059C (zh) |
ES (1) | ES2626977T3 (zh) |
HK (1) | HK1217564A1 (zh) |
MX (1) | MX347316B (zh) |
MY (1) | MY183444A (zh) |
PL (1) | PL2951819T3 (zh) |
PT (1) | PT2951819T (zh) |
RU (1) | RU2618919C2 (zh) |
SG (1) | SG11201505903UA (zh) |
TW (1) | TWI544481B (zh) |
WO (1) | WO2014118156A1 (zh) |
ZA (1) | ZA201506318B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2618919C2 (ru) * | 2013-01-29 | 2017-05-12 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для синтезирования аудиосигнала, декодер, кодер, система и компьютерная программа |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000011655A1 (en) * | 1998-08-24 | 2000-03-02 | Conexant Systems, Inc. | Low complexity random codebook structure |
US6678651B2 (en) * | 2000-09-15 | 2004-01-13 | Mindspeed Technologies, Inc. | Short-term enhancement in CELP speech coding |
CN1468427A (zh) * | 2000-05-19 | 2004-01-14 | �����ɭ��ϵͳ��˾ | 一种码激励线性预测语音编码器的增益量化 |
CN101199004A (zh) * | 2005-04-22 | 2008-06-11 | 高通股份有限公司 | 用于增益因数平滑的系统、方法及设备 |
CN101836253A (zh) * | 2008-07-11 | 2010-09-15 | 弗劳恩霍夫应用研究促进协会 | 一种使用频谱倾斜控制成帧技术来计算带宽扩展数据的装置及方法 |
WO2011148230A1 (en) * | 2010-05-25 | 2011-12-01 | Nokia Corporation | A bandwidth extender |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5664055A (en) * | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
JP3522012B2 (ja) * | 1995-08-23 | 2004-04-26 | 沖電気工業株式会社 | コード励振線形予測符号化装置 |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
US6385573B1 (en) * | 1998-08-24 | 2002-05-07 | Conexant Systems, Inc. | Adaptive tilt compensation for synthesized speech residual |
US6240386B1 (en) | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6463410B1 (en) * | 1998-10-13 | 2002-10-08 | Victor Company Of Japan, Ltd. | Audio signal processing apparatus |
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6242748B1 (en) | 1999-08-10 | 2001-06-05 | Edax, Inc. | Methods and apparatus for mounting an X-ray detecting unit to an electron microscope |
US6996523B1 (en) | 2001-02-13 | 2006-02-07 | Hughes Electronics Corporation | Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system |
CN1320966C (zh) | 2002-05-20 | 2007-06-13 | 松下电器产业株式会社 | 清洗方法及清洗装置 |
US20060089836A1 (en) * | 2004-10-21 | 2006-04-27 | Motorola, Inc. | System and method of signal pre-conditioning with adaptive spectral tilt compensation for audio equalization |
US7475103B2 (en) | 2005-03-17 | 2009-01-06 | Qualcomm Incorporated | Efficient check node message transform approximation for LDPC decoder |
ATE485582T1 (de) * | 2005-04-01 | 2010-11-15 | Qualcomm Inc | Verfahren und vorrichtung zur vektorquantisierung einer spektralenvelop-repräsentation |
EP1722360B1 (en) | 2005-05-13 | 2014-03-19 | Harman Becker Automotive Systems GmbH | Audio enhancement system and method |
US7454335B2 (en) * | 2006-03-20 | 2008-11-18 | Mindspeed Technologies, Inc. | Method and system for reducing effects of noise producing artifacts in a voice codec |
US8725499B2 (en) * | 2006-07-31 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, and apparatus for signal change detection |
JP5061111B2 (ja) * | 2006-09-15 | 2012-10-31 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
EP2165328B1 (en) * | 2007-06-11 | 2018-01-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of an audio signal having an impulse-like portion and a stationary portion |
US8209190B2 (en) * | 2007-10-25 | 2012-06-26 | Motorola Mobility, Inc. | Method and apparatus for generating an enhancement layer within an audio coding system |
RU2586841C2 (ru) * | 2009-10-20 | 2016-06-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Многорежимный аудио кодировщик и celp кодирование, адаптированное к нему |
EP2559028B1 (en) * | 2010-04-14 | 2015-09-16 | VoiceAge Corporation | Flexible and scalable combined innovation codebook for use in celp coder and decoder |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
US9706314B2 (en) * | 2010-11-29 | 2017-07-11 | Wisconsin Alumni Research Foundation | System and method for selective enhancement of speech signals |
JP5328883B2 (ja) * | 2011-12-02 | 2013-10-30 | パナソニック株式会社 | Celp型音声復号化装置およびcelp型音声復号化方法 |
ES2732560T3 (es) * | 2013-01-29 | 2019-11-25 | Fraunhofer Ges Forschung | Llenado de ruido sin información secundaria para codificadores tipo celp |
EP3054446B1 (en) * | 2013-01-29 | 2023-08-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension |
RU2618919C2 (ru) * | 2013-01-29 | 2017-05-12 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для синтезирования аудиосигнала, декодер, кодер, система и компьютерная программа |
PT3451334T (pt) * | 2013-01-29 | 2020-06-29 | Fraunhofer Ges Forschung | Conceito de preenchimento de ruído |
US9842598B2 (en) * | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
CN105723456B (zh) * | 2013-10-18 | 2019-12-13 | 弗朗霍夫应用科学研究促进协会 | 自适应编码及解码音频信号的编码器、解码器、编码和解码方法 |
PL3058568T3 (pl) * | 2013-10-18 | 2021-07-05 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Koncepcja kodowania sygnału audio i dekodowania sygnału audio z wykorzystaniem związanych z mową informacji kształtowania widmowego |
CN104751849B (zh) * | 2013-12-31 | 2017-04-19 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
FR3017484A1 (fr) * | 2014-02-07 | 2015-08-14 | Orange | Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences |
US9672843B2 (en) * | 2014-05-29 | 2017-06-06 | Apple Inc. | Apparatus and method for improving an audio signal in the spectral domain |
US9373342B2 (en) * | 2014-06-23 | 2016-06-21 | Nuance Communications, Inc. | System and method for speech enhancement on compressed speech |
CN106228991B (zh) * | 2014-06-26 | 2019-08-20 | 华为技术有限公司 | 编解码方法、装置及系统 |
CN105225670B (zh) * | 2014-06-27 | 2016-12-28 | 华为技术有限公司 | 一种音频编码方法和装置 |
-
2014
- 2014-01-28 RU RU2015136788A patent/RU2618919C2/ru active
- 2014-01-28 SG SG11201505903UA patent/SG11201505903UA/en unknown
- 2014-01-28 BR BR112015018023-0A patent/BR112015018023B1/pt active IP Right Grant
- 2014-01-28 KR KR1020157023505A patent/KR101737254B1/ko active IP Right Grant
- 2014-01-28 EP EP14702511.8A patent/EP2951819B1/en active Active
- 2014-01-28 CN CN201480006383.1A patent/CN105009210B/zh active Active
- 2014-01-28 PT PT147025118T patent/PT2951819T/pt unknown
- 2014-01-28 JP JP2015554194A patent/JP6082126B2/ja active Active
- 2014-01-28 MY MYPI2015001903A patent/MY183444A/en unknown
- 2014-01-28 CA CA2899059A patent/CA2899059C/en active Active
- 2014-01-28 MX MX2015009749A patent/MX347316B/es active IP Right Grant
- 2014-01-28 PL PL14702511T patent/PL2951819T3/pl unknown
- 2014-01-28 WO PCT/EP2014/051592 patent/WO2014118156A1/en active Application Filing
- 2014-01-28 ES ES14702511.8T patent/ES2626977T3/es active Active
- 2014-01-28 AU AU2014211524A patent/AU2014211524B2/en active Active
- 2014-01-29 TW TW103103523A patent/TWI544481B/zh active
- 2014-01-29 AR ARP140100299A patent/AR094683A1/es active IP Right Grant
-
2015
- 2015-07-28 US US14/811,386 patent/US10431232B2/en active Active
- 2015-08-28 ZA ZA2015/06318A patent/ZA201506318B/en unknown
-
2016
- 2016-05-11 HK HK16105397.0A patent/HK1217564A1/zh unknown
-
2019
- 2019-08-23 US US16/549,878 patent/US11373664B2/en active Active
-
2022
- 2022-05-27 US US17/827,316 patent/US11996110B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000011655A1 (en) * | 1998-08-24 | 2000-03-02 | Conexant Systems, Inc. | Low complexity random codebook structure |
CN1468427A (zh) * | 2000-05-19 | 2004-01-14 | �����ɭ��ϵͳ��˾ | 一种码激励线性预测语音编码器的增益量化 |
US6678651B2 (en) * | 2000-09-15 | 2004-01-13 | Mindspeed Technologies, Inc. | Short-term enhancement in CELP speech coding |
CN101199004A (zh) * | 2005-04-22 | 2008-06-11 | 高通股份有限公司 | 用于增益因数平滑的系统、方法及设备 |
CN101836253A (zh) * | 2008-07-11 | 2010-09-15 | 弗劳恩霍夫应用研究促进协会 | 一种使用频谱倾斜控制成帧技术来计算带宽扩展数据的装置及方法 |
WO2011148230A1 (en) * | 2010-05-25 | 2011-12-01 | Nokia Corporation | A bandwidth extender |
Non-Patent Citations (1)
Title |
---|
ITU: "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s", 《ITU-T TELECOMMUNICATION STANDARIZATION SECTOR OF ITU》 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6658383B2 (en) | Method for coding speech and music signals | |
US8209190B2 (en) | Method and apparatus for generating an enhancement layer within an audio coding system | |
US7124077B2 (en) | Frequency domain postfiltering for quality enhancement of coded speech | |
CN101903945B (zh) | 编码装置、解码装置以及编码方法 | |
CN101548319B (zh) | 后置滤波器以及滤波方法 | |
US20140207445A1 (en) | System and Method for Correcting for Lost Data in a Digital Audio Signal | |
JP5192630B2 (ja) | 符号化音響信号の知覚的に改善した増強 | |
CN104123946A (zh) | 用于在与语音信号相关联的包中包含识别符的系统及方法 | |
JP3343082B2 (ja) | Celp型音声符号化装置 | |
US11996110B2 (en) | Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program | |
JP2017207774A (ja) | ベクトル量子化装置及びベクトル量子化方法 | |
US6983241B2 (en) | Method and apparatus for performing harmonic noise weighting in digital speech coders | |
JP3092436B2 (ja) | 音声符号化装置 | |
CN114556470A (zh) | 利用生成模型对音频信号进行波形编码的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |