CN1652207A - 语音编码器 - Google Patents
语音编码器 Download PDFInfo
- Publication number
- CN1652207A CN1652207A CN200510052904.XA CN200510052904A CN1652207A CN 1652207 A CN1652207 A CN 1652207A CN 200510052904 A CN200510052904 A CN 200510052904A CN 1652207 A CN1652207 A CN 1652207A
- Authority
- CN
- China
- Prior art keywords
- signal
- code book
- compositor
- zoom factor
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 33
- 230000003044 adaptive effect Effects 0.000 claims abstract description 13
- 238000005086 pumping Methods 0.000 claims description 80
- 238000012937 correction Methods 0.000 claims description 23
- 230000008447 perception Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 230000005284 excitation Effects 0.000 abstract description 61
- 230000002708 enhancing effect Effects 0.000 abstract description 12
- 238000012545 processing Methods 0.000 abstract description 6
- 239000002131 composite material Substances 0.000 description 24
- 230000004913 activation Effects 0.000 description 23
- 238000012805 post-processing Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011045 prefiltration Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission And Conversion Of Sensor Element Output (AREA)
- Analogue/Digital Conversion (AREA)
- Magnetically Actuated Valves (AREA)
- Telephonic Communication Services (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
一种主要用于增强合成语音的后处理器(317)和方法被描述。后处理器(317)处理从一般包括一个固定码书(203)和一个自适应码书(204)的激励产生器(211)中得出的信号ex(n),其中信号ex(n)由已被缩放的来自于固定码书(203)和自适应码书(204)的输出相加构成。后处理器通过将一个得自适应码书(204)的已缩放信号pv(n)加入到ex(n)中来处理ex(n)。增益或缩放因子P通过输入到激励产生器(211)的语音系数决定。在被输入到音频处理单元(219)中之前,组合的信号ex(n)+pr(n)通过单元(316)被归一化并被输入到LPC或语音合成滤波器(208)。
Description
该发明涉及一种用于压缩的数字编码音频或语音信号的音频或语音合成器,尤其涉及到一种用于处理得自LPC类型语音解码器的激励码书和自适应码书的信号的后处理器。
在数字无线电话系统中,信息,即语音在通过空气传送之前被数字化编码。编码的语音在接收器处被解码。首先,模拟语音信号被例如利用脉冲码调制(PCM)来数字化编码。然后,PCM语音(或原始语音)的语音编码和解码由语音编码器和解码器完成。由于无线电话系统使用的增加,用于这种系统的射频谱变得拥挤。为了尽可能地利用可得的射频谱,无线电话系统使用语音编码技术。这种技术需要用少量的比特来编码语音以降低传输所需的带宽。(人们)持续不断地努力降低语音编码所需的比特数以进一步降低语音传输所需的带宽。
一种已知的语音编码/解码方法是基于线性预测编码(LPC)技术并利用合成分析的激励编码。在利用该方法的编码器中,语音样本首先被分析以获得表示语音样本特征如波形信息(LPC)的参数。这些参数被用做短时合成滤波器的输入:短时合成滤波器由得自信号码书的信号来激励。这些激励信号可能是随机的,例如随机码书,或者是为了用于语音编码而自适应的或特别优化的,典型地,码书包括两部分,固定码书和自适应码书。各自码书的激励输出被组合,总的激励输入到短时合成滤波器。每一个总激励信号被滤波,其结果被用来与原始语音样本(PCM编码的)比较以获得“误差”或合成语音样本与原始语音样本之间的差值。导致最小误差的总激励被选取用做表示语音样本的激励。在固定码书和自适应码书中的各自部分最优激励信号的位置的码书索引或地址以及LPC参数或系数被传送给接收器。一个相同于发送器处的组合码书也被置于接收器处。传送来的码书索引和参数被用于从接收器的码书中产生适当的总激励信号。该总激励信号然后被输入到一个相同于发送器中的短时合成滤波器,并把传送来的LPC系数做为各自的输入。短时合成滤波器的输出是合成的语音帧,它与合成分析方法在发送器中产生的语音帧相同。
由于数字编码的本质,尽管合成语音客观上清晰,听起来却不自然。而且,由于量化效果和其它源于电子处理过程的异常,衰减、失真和不自然也被引入到合成语音中。这种不自然尤其发生在低比特率编码时,因为(此时)没有足够的信息来精确地再生原始语音信号。因此有人尝试来提高合成语音的感知质量。这一点通过使用后滤波器而尝试,该滤波器处理合成的语音样本以增强它的感知质量。已知的后滤波器被放置在解码器的输出处并处理合成语音以强调或削弱语音中通常被认为是最重要的频率域。语音频率不同区域的重要性主要利用所产生语音信号对人耳的(听觉)质量的主观测量来分析。语音可以被分为两个基本部分,谱包络(共振峰结构)或谱谐波结构(谱线结构)。典型地,后滤波器加重语音信号的其中的一个或两个部分。后滤波器的系数根据语音信号的特征等自适应地匹配语音声音。加重或削弱谐波结构的滤波器一般地被称为长时或音调或长延迟后滤波器,加重谱包络结构的滤波器被一般地称为短延时后滤波器或短时后滤波器。
另一种用于提高合成语音感知质量的滤波器技术在国际专利申请WO91/06091中被揭示。一种音调预滤波器在WO91/06091中被揭示,该滤波器包括一个音调增强滤波器,它通常被安排在语音合成或LPC滤波器之后的位置,但在该专利中它被移到语音合成或LPC滤波器之前的位置,在该处滤除包含在输入到语音合成或LPC滤波器的激励信号中的音调信息。
然而,仍然需要产生具有更好感知质量的合成语音。
根据该发明的第一个方面,有一个用于语音合成的合成器,它包括一个用于处理包括语音周期信息并得自于激励源的第一信号的后处理装置,其中,后处理装置被调整根据可从激励源得出的第二信号来修正第一信号的语音周期信息值。
根据该发明的第二个方面,它提供了一种用来增强合成语音的方法,包括
从激励源得出包括语音周期信息的第一信号
从激励源得出第二信号,及
根据第二信号修正第一信号的语音周期信息值。
该发明的优越之处是第一信号被一个与第一信号有相同来源的第二信号修正,因此没有引入另外的失真或不自然的来源,例如额外滤波器。仅有产生于激励源的信号被利用。语音合成器中的激励产生器所固有的信号的相对作用被修正,没有人工加入的信号,以重新缩放合成的信号。
如果激励的后处理是基于修正从语音合成器自身的激励产生器中得到的激励成分的相对作用,就会获得好的语音增强。
处理激励时通过滤波总激励ex(n)而不考虑或修正激励产生器固有信号即r(n),(n)的相对作用一般不会给出最佳可能的增强。根据来自同一激励源的第二信号修正第一信号可提高激励和产生的合成语音信号中的波形连续性,因此可提高它的感知质量。
在一个优选实施方案中,激励源包括一个固定码书和一个自适应码书,第一信号可从第一和第二部分激励信号组合中得出,而第一和第二部分激励信号可以分别从固定和自适应码书中选出,这对语音合成器来说是一个尤其方便的激励源。
最佳地,应有一个增益元素用于根据从涉及来自激励源的第一信号的音调信息中得出的缩放因子(p)来缩放第二信号,它的优越之处是第一信号语音周期信息内容被修正,这比其它修正对感知语音质量具有更大的影响。
适当地,缩放因子(P)可从自适应码书缩放因子(b)中导出,缩放因子(P)根据下面公式导出
b<THlow then p=0.0
THlow≤b<TH2 then p=aenh1f1(b)
TH2≤b<TH3 then p=aenh2f2(b)
if . .
. .
. .
THN-1≤b≤THupper then p=aenhN-1fN-1(b)
b>THupper then p=aenhNfN(b)
其中TH表示阈值,b是自适应码书增益因子,P是后处理器装置缩放因子,aenh是线性标量,f(b)是增益b的函数。
在一个特定的实施方案中,缩放因子(P)根据下式导出。
b<THlow then p=0.0
if THlow≤b≤THupper then p=aenhb2
b>THupper then p=aenhb
其中aenh是控制增强作用强度的常数,b是自适应码书增益,TH是阈值,P是后处理缩放因子,该因子利用了这样的知识,即语音增强对其中b一般具有高值的浊音语音最有效,而对于其中b具有低值的清音,需要不太强的增强作用。
第二信号可能起源于自适应码书,而且也可能基本上与第二部分激励信号相同。另一方面,第二信号可能起源于固定码书,而且也可能基本上与第一部分激励信号相同。
对于起源于固定码书的第二信号,根据第二缩放因子(P′),增益控制装置被调整以缩放第二信号,其中
g是固定码书缩放因子,b是自适应码书缩放因子,P是第一缩放因子。
第一信号可能是适合于输入到语音合成滤波器的第一激励信号,第二信号可能是适合于输入到语音合成滤波器的第二激励信号。第二激励信号可能基本上与第二部分激励信号相同。
作为可选方案,第一信号可以是从第一语音合成滤波器输出的第一合成语音信号并可从第一激励信号导出,第二信号可能是从第二语音合成滤波器输出的并可从第二激励信号导出。这样的优点是语音增强只针对实际合成的语音,这样在信号变得可听之前,有更少的电子成分给信号引入失真。
比较有利地,这里提供一种自适应能量控制装置被调整来根据下面的关系来缩放修正后的第一信号。
其中N是适当选取的调整周期,ex(n)是第一信号,ew′(n)是修正后的第一信号,K是能量缩放因子,它将产生的增强信号归一化为语音合成器的功率输入。
根据该发明的第三方面,这里提供一种无线电设备,包括
一个用于接收无线电信号并恢复包括在无线电信号中的编码信息的射频装置,及
与射频装置耦合的用于根据编码信息产生包括语音周期信息的第一信号的激励源,其中该无线电设备还包括一个在操作上耦合于激励源以接收第一信号并被调整来根据得自激励源的第二信号来修正第一信号的语音周期信息内容的后处理装置,及被耦合来接收来自后处理装置的修正的第一信号并用来相应于此产生合成语音的语音合成滤波器。
该发明的第4个方面中,提供了一种用于语音合成的合成器,包括用于分别产生第一和第二激励信号的第一和第二激励源,及用于根据可从与第一激励信号相关的音调信息中得出的缩放因子来修正第一激励信号的修正装置。
该发明的第五个方面中提供了一种用于语音合成的合成器。包括用于分别产生第一和第二激励信号的第一和第二激励源,及用于根据可从与第一激励信号相关的音调信息中得出的缩放因子来修正第二激励信号的修正装置。
该发明的第四和第五方面比较有利地将激励信号的缩放结合在激励产生器自身之中。
现仅通过例子并参考附图,下面将描述根据该发明的实施方案。在附图中:
图1是一种已知的码激励线性预测(CELP)编码器的简图。
图2是一种已知的CELP解码器的简图。
图3是根据该发明的第一实施方案的一种CELP解码器的简图。
图4表示了根据该发明的第二实施方案。
图5表示了根据该发明的第三实施方案。
图6表示了根据该发明的第四实施方案。
图7表示了根据该发明的第五实施方案。
图1表示了一种已知的CELP编码器100。原始的语音信号在102处输入到编码器,长时预测(LTP)系数T,b利用自适应码书104被判定。针对一般包括40个样本,长5ms的一个语音段判定LTP预测系数,LTP系数涉及到原始语音的周期性特性,这包括原始语音中的任何周期性,并不仅仅是对应于由于发出原始语音的人的声带的振动而引起的原始语音音调的周期性。
长时预测通过使用自适应码书104和增益单元114而进行,它包括一部分图1中由点线表示出的激励信号(ex(n))产生器126。以前的激励信号ex(n)通过反馈回路122被存贮在自适应码书104中。在LTP处理中,通过改变已知为延迟或滞后且指向以前激励信号ex(n)的地址的T值来搜索自适应码书。这些信号顺序输出,并在与得自固定码书112且在增益单元116处被因子g缩放的激励信号c1(n)在118处相加之前,在增益单元114处以缩放因子b放大来形成信号v(n)。语音样本的线性预测系数(LPC)在106处被计算。这些LPC系数之后在108处被量化,这些量化后的LPC系数于是可被用于通过空气传输并被输入到短时滤波器110。对于包括在20ms长度上有160个样本的语音段计算LPC系数(r(i),i=1…其中m是预测阶数)。所有进一步的处理一般都在40个样本的语音段也就是说长5m的激励帧上进行,LPC系数涉及原始语音信号的谱包络。
激励产生器126实际上包括一个组成码书104、112。该码书包括一系列用于激励短时合成滤波器110的码字,这些码字包括具有一定电压幅度的若干序列,每一个电压幅度对应于语音帧中的一个语音样本。
每一个总激励信号ex(n)被输入到短时或LPC合成滤波器110以形成合成的语音样本s(n),合成的语音样本s(n)被输入到加法器120的负输入端,原始语音样本作为正输入。加法器120输出原始语音样本和合成语音样本之间的差值,该差值被称为客观误差。该客观误差被输入到最佳激励选择单元124,该单元挑选出产生具有最小客观误差的合成语音帧s(n)的总激励ex(n)。在选择过程中客观误差一般被进一步进行谱加权以加强那些对于人类感知重要的语音信号的谱区域。给出最佳激励信号ex(n)的自适应和固定码书的各自参数(增益b和延迟T,增益g和索引i),连同LPC滤波器系数r(i)一起被传送到用来合成语音帧以重构原始语音信号的接收器中。
一种适合于解码由参考图1描述的编码器产生的语音参数的解码器在图2中被表示出。射频单元201通过天线212接收编码的语音信号。在RF单元201中,接收到的射频信号被降频变换为基带频率并被解调以恢复语音信号。通常,在被传送之前,编码语音被进一步编码以包括信道编码和误差校正编码。在语音编码可以被存取或恢复之前,这些信道编码和误差校正编码必须在接收器中被解码。语音编码参数被参数解码器202恢复。
LPC语音编码中的语音编码参数是一系列的LPC合成滤波器系数r(i),i=……m(其中m是预测阶数)、固定码书索引i和增益g,自适应码书语音编码参数延迟T和增益b也被恢复。
语音解码器200使用了上面提到的语音编码参数,从激励产生器211构造一个激励信号ex(n),用来输入到LPC合成滤波器208,该滤波器在其输出处提供一个合成的语音帧信号s(n)做为对激励信号ex(n)的响应。合成的语音帧信号s(n)在音频处理单元209被进一步处理并且通过一个适当的音频换能器210而被变得可听。
在一般的线性预测语音解码器中,用于LPC合成滤波器208的激励信号ex(n)在包括产生激励序列C1(n)的固定码书203和自适应码书204的激励产生器211中形成。码书激励序列ex(n)分别在码书203,204中的位置由语音编码参数i和延迟T来指示。部分用来形成激励信号ex(n)的固定码书激励序列C1(n)被从固定激励码书203中由索引i指定的位置得出,之后在缩放单元205中被传送来的增益因子g适当地缩放。类似的,也是部分用于形成激励信号ex(n)的自适应码书激励序列v(n)通过使用自适应码书固有的选择逻辑被从自适应码书204中由延迟T指示的位置得出,之后在缩放单元206中被传送来的增益因子b适当地缩放。
通过将第二个部分激励分量v(n)加到码书激励序列gc1(n)上,自适应码书204对固定码书激励序列c1(n)进行处理。第二分量以参考图1已经描述过的方式从过去的激励信号中得出,并且利用适当地包括在自适应码书中的选择逻辑从自适应码书204中选出。分量v(n)在缩放单元206中被传送来的自适应码书增益b适当地缩放,然后在加法器207中被加到gc1(n)上以形成总激励信号ex(n)
ex(n)=gc1(n)+bv(n) (1)
于是,通过利用总激励信号ex(n)自适应码书204被更改。
在自适应码书204中的第二个部分激励分量v(n)的位置由语音编码参数T来指示。通过使用语音编码参数T和包括在自适应码书中的选择逻辑,该自适应激励分量被从自适应码书中挑选出。
根据该发明的LPC语音合成解码器300在图3中被表示出,按照图3的语音合成处理与图2中的是相同的,除了总激励信号ex(n)在被用做LPC合成滤波器208的激励之前在激励后处理单元317中被处理以外。图3中电路单元201到212的处理与那些在图2中有相同数字的单元的处理相同。
根据该发明的一个方面,用于总激励ex(n)的后处理单元317被应用到语音解码器300中。后处理单元317包括一个加法器313用于将第三分量加在总激励ex(n)上。增益单元315适当地缩放所产生的信号ew′(n)以形成信号ew(n),该信号被用来激励LPC合成滤波器208以产生合成的语音信号Sew(n)。与由图2中表示的应用以前技术的语音合成解码器合成的语音信号s(n)相比,根据该发明合成的语音已经提高了感知质量。
后处理单元317有总激励ex(n)做为它的输入,并输出感知增强的激励ew(n),后处理单元317还有自适应码书增益b,以及从自适应码书204中由语音编码参数指示的位置得出的未缩放的部分激励分量v(n)做为另外的输入。部分激励分量v(n)在适当情况下可以是应用在激励产生器211内部来形成第二激励分量bv(n)的相同分量,其中bv(n)被加在缩放后的码书激励gci(n)上来形成总激励ex(n)。通过使用从自适应码书204中得到的激励序列,没有其他的不自然的源被加进语音处理的电子设备中,象已知的使用附加滤波器的后或前滤波器技术情形中一样。激励后处理单元317也包括通过缩放因子P来缩放部分激励成分v(n)的缩放单元314,缩放后的分量pv(n)被加法器313加在总激励分量ex(n)上。加法器313的输出是中间总激励信号ew′(n),它的形式为:
ew′(n)=gc1(n)+bv(n)+pv(n) (2)
=gc1(n)+(b+p)v(n)
缩放单元314的缩放因子P在使用自适应码书增益b的感知增强增益控制单元312中被判定。缩放因子P重缩放分别来自固定和自适应码书的两个激励分量c1(n)和v(n)的作用。缩放因子P被调整使得在具有高的自适应码书增益值b的合成语音帧样本期间,缩放因子P被加大,在具有低的自适应码书增益值b的语音期间,缩放因子P被减小。此外,当b小于一个阈值(b<THlovo)时,缩放因子P被置为0,感知增强增益控制单元314根据下面给出的等式(3)操作。
b<THlow then p=0.0
if THlow≤b≤THupper then p=aenhb2
b>THupper then p=aenhb
(3)
其中aenh是控制增强处理强度的常数。该专利的申请者发现aenh的较佳值是0.25,THlow和THupper的较佳值分别为0.5和1.0。
等式3可以是一个更通用的形式,增强函数的一个通用公式在下面等式(4)中表示出。在通常情况下,增强增益b可以有多于2个的阈值。而且,该增益可以被定义为b的一个更通用的函数
b<THlow then p=0.0
THlow≤b<TH2 then p=aenh1f1(b)
TH2≤b<TH3 then p=aenh2f2(b)
if . .
. . (4)
. .
THN-1≤b≤THupper then p=aenhN-1fN-1(b)
b>THupper then p=aenhNfN(b)
在前面描述的优选实施方案中,N=2,THlow=0.5,TH2=1.0,TH3=X,aenh1=0.25,aenh2=0.25f1(b)=b2,f2(b)=b
阈值(TH),增强值(aenh)及增益函数(f(b))根据经验得到。由于感知语音质量的唯一现实测量只能通过人听到该语音并给出他们对语音质量的主观意见来获得,等式(3)和(4)中所用的值是实验判定的。各种用于增强阈值和增益函数的不同值被试用过,那些导致最佳发音语音的值被选出。该专利的申请者应用了这样的知识:使用这种方法对语音质量的增强,对其中b一般具有高值的浊音语音尤其有效,而对于具有一个低的b值的清音,并不需要如此强的增强。因此,增益值P被控制使得它对于其中失真最易被听到的浊音的作用加强,对于清音的作用减弱或者根据不起作用。因此,做为通用规则,增益函数(fn)应被选取的使得对于高b值比对于低b值有更强的作用。这加大了语音的音调分量和其它分量之间的差值。
在按照等式(3)运行的优选实施方案中,对增益值b处理的函数对中间范围b值是一种平方依赖关系;对于较高范围的b值是一种线性依赖关系。该专利的申请者现在认为这给出好的语音质量,因为对于高的b值,即高度浊音化的,语音有更强的作用,而对于较低的b值有较弱的作用,这是因为b一般位于范围-1<b<1中,因此b2<b。
为了保证输入信号ex(n)和激励后处理单元317的输出信号ew(n)之间的单位功率增益,一个缩放因子被计算出并被用来缩放缩放单元315中的中间激励信号ew′(n)以形成后处理的激励信号ew(n)。缩放因子k被给出为:
其中N是一个被适当选取的调整周期,一般地N被置成与LPC语音码的激励帧长度相等。
在编码器的自适应码书中,对于小于帧长度或激励长度的T值,一部分激励序列是未知的。对于这些未知部分,通过采用适当的选择逻辑,在自适应码书中本地产生一个代替序列。根据当前技术,已知几种产生这种代替序列的自适应码书技术。一般地,一部分已知激励的复本被复制到未知部分所在的位置,因而产生一个完全的激励序列。复制的部分可以被按照某种方式修正以提高所产生的语音信号的质量。当进行这种拷贝时,延迟值T没有被使用,因为它会指向未知部分。相反的,一种导致修正的T值的特殊选择逻辑被使用(例如,使用乘以一个整数因子的T值使得,它总是指向已知信号部分)。因此解码器与编码器同步,同样的修正在解码器的自适应码书中被应用。通过使用这样一种选择逻辑来在自适应码书中产生一个替代序列,自适应码书能够为高音调声音例如女性和小孩声音做调整,从而导致有效的激励并提高这些声音的语音质量。
为了获得好的感知增强,自适应码书固有的所有的修正,例如对于小于帧长的T值的修正都在增强后处理中被考虑。根据该发明,这一点通过使用来自自适应码书v(n)的部分激励序列和语音合成器的激励产生器的固有激励分量的重缩放来实现。
总之,根据等式(2)、(3)、(4)和(5),通过自适应地缩放从码书203和自适应码书204中得出的部分激励分量的作用,该方法增强了合成语音的感知质量并降低了听觉的不自然。
图4表示了根据该发明的第二实施方案,其中,象图解说明的一样,激励后处理单元417被放置在LPC合成滤波器208之后。在该实施方案中,从自适应码书204得到的第三激励分量需要一个附加的LPC合成滤波器408。在图4中与图2和3中单元具有相同功能的单元也具有相同的数字。
在图4中表示的第二实施方案中,LPC合成的语音被后处理器417在感知上增强,从码书203和自适应码书204得到的总激励信号ex(n)被输入到LPC合成滤波器208并根据LPC系数r(i)以传统的方式处理。从自适应码书204中以参照图3描述的方式得到的附加的或第三部分激励分量v(n)被不加缩放地输入到第二LPC合成滤波器408中并且根据LPC系数r(i)来处理,LPC滤波器208,408的输出s(n)和sv(n)被输入到后处理器417,并在加法器413处被加在一起。在输入到加法器413之前,信号sv(n)被缩放因子P缩放,如参照图3描述的,用来处理缩放因子或增益P的值可以按经验得到。此外,第三部分激励分量可以从固定码书203和从语音信号s(n)中得到的缩放后的语音信号p′sv(n)中得出。
产生的感知增强输出sw(n)然后被输入到音频处理单元209。
可选地,通过将图4中的缩放单元414移到LPC合成滤波器408之前,增强系统的进一步修正可以被形成。将后处理器417放置在LPC或短时合成滤波器208、408之后,可以对语音信号的增强给出更好的控制,因为它直接针对语音信号而不是激励信号。因此,可能产生更少的失真。
任选地,可以通过修正分别参照图3和图4描述的实施方案来实现增强,这样使得附加(第三)激励分量由固定码书2093中获取而不是从自适应码书204中获取。于是,需要使用一个负的缩放因子来替代原来的正增益因子P以减小来自固定码书的激励序列c1(n)的增益。这导致了与图3、4中实施方案所实现的语音合成类似的对部分激励信号c1(n)和v(n)的相对作用的修正。
图5表示了根据该发明的一个实施方案,它通过使用缩放因子P和来自自适应码书的附加激励分量可能达到的同样结果。在该实施方案中,固定码书激励序列c1(n)被输入到缩放单元314,该单元根据从感知增强增益控制2,512输出的缩放因子P′来操作。缩放后的固定码书激励P′c1(n),从缩放单元314输出,并被输入到加法器313,在该处被加进包括分别来自固定码书203和自适应码书204的分量c1(n)和v(n)的总激励序列ex(n)中。
当增加来自自适应码书204的激励序列信号v(n)的增益时,总激励(在自适应能量控制316之前)由等式(2)给出
ew′(n)=g ci(n)+(b+p)v(n) (2)
当降低来自固定码书203的激励序列c1(n)的增益时总激励(在自适应能量控制316之前)被给出为:
ew′(n)=(g+p′)ci(n)+bv(n) (6)
其中P′是由图5中表示的感知增强增益控制2,512得到的缩放因子,选取等式(2)并将之重新公式化为类似于等式(6)的形式,给出:
因此,选择
在图5的实施方案中,一种类似于图3中实施方案获得的增强会被实现。当中间总激励信号ew′(n)被自适应能量控制316缩放到与ex(n)相同的能量值时,图3和图5中的实施方案两者会导致相同的总激励信号ew(n)。
感知增强增益控制2512因此可以利用参照图3和4中实施方案所应用的同样的处理来产生“P”,并且利用等式(8)来得到P′。
按照上面参照第一和第二实施方案描述的类似方式,在自适应能量控制316的控制下,从加法器313输出的中间总激励信号ew(n)在缩放单元315中被缩放。
现在参照图4,LPC合成的语音可能被后处理器417通过得自固定码书的附加激励信号的合成语音在感知上增强。
图4中的点线420表示了一个其中固定码书激励信号ci(n)被耦合到LPC合成滤波器408的实施方案。LPC合成滤波器408的输出SCi(n)被根据得自感知增强增益控制512的缩放因子P′在单元414中缩放并在加法器413中被加入到合成的信号s(n)中以产生中间合成信号s′w(n)。经过在缩放单元415中的归一化后,产生的合成信号sw(n)被送到音频处理单元209。
前面的实施方案包括将得自自适应码书204或固定码书的203的分量加进激励ex(n)或合成的s(n)中,来形成中间激励ew(n)或合成信号s′w(n)。
任选地,后处理可以被省去,并且自适应码书v(n)或固定码书ci(n)激励信号可以被缩放并直接合并在一起。因此,可以省去将分量添加到未缩放的组合的固定和自适应码书信号的操作。
图6表示了一个根据该发明一个方面的实施方案,在其中自适应码书激励信号v(n)被缩放,然后与固定码书激励信号c1(n)合并以直接形成中间信号ew′(n)。
感知增强增益控制612输出参数“a”来控制缩放单元614。缩放单元614对自适应码书激励信号v(n)处理以在用于获得标准激励的增益因子b上增大或放大激励信号v(n),标准激励ex(n)也被形成并耦合到自适应码书204和自适应能量控制316。加法器613合并增大后的激励信号av(n)和固定码书激励ci(n)来形成中间信号。
ew′(n)=g ci(n)+av(n) (9)
如果a=b+p,那么如同等式(2)给出的同样处理可以被实现。
图7表示了一个以类似于图6中方式运行的实施方案,但是它缩小或削弱固定码书激励信号c1(n)。对于该实施方案,中间激励信号ew′(n)由下式给出。
ew′(n)=(g+p′)ci(n)+bv(n)
=a′ci(n)+bv(n) (10).
其中
根据等式(11),感知增强增益控制712输出一个控制信号a′来根据等式(8)获得类似于等式(6)的结果。缩小的固定码书激励信号a′ci(n)在加法器713中与自适应码书激励信号v(n)相加以形成中间激励信号ew′(n),剩下的过程按前面描述的那样完成,以归一化激励信号和所形成合成信号saw(n)。
参照图6和7描述的实施方案执行激励产生器中的,并且直接来自于码书的激励信号的缩放。
参照图5、6和7描述的实施方案的缩放因子“P”可以根据上面描述的等式(3)或(4)来判定。
多种控制增强力度(aenh)的方法可以被应用。除了自适应码书增益b,增强的量可以是自适应码书204的滞后或延迟值T的函数,例如,当在高音调范围内运行或当自适应码书参数T比激励块长度(虚拟滞后范围小时,后处理可以被打开或加强。结果是,该发明对其来说是最有益的女人和小孩的声音将是必被后处理的。
后处理控制也可以基于浊音/清音的语音判定。例如,对于浊音,增强可以更强,当语音被划分为清音时,增强作用可以被完全关掉。这一点可以从自适应码书增益值b得出,该值本身就是浊/清语音的一个简单测量,也就是说,值b越高,原始语音信号里的浊音语音越多。
根据该发明的实施方案可以被修正,使得第三部分激励序列不与根据传统语音合成法从自适应码书或固定码书中得出的部分激励序列一样,但是却是通过一般包括在各自码书中用来选取另外的第3部分激励序列的选择逻辑可选的。第三部分激励序列可以被选为刚刚用过的激励序列或者是存贮在固定码书中的总是相同的激励序列。这将会减小语音帧之间的差异并且因而增强语音的连续性。任选地,b和/或T可以在解码器中从合成语音中重新计算出并用来得出一个第三部分激励序列。另外,固定增益P和/或固定激励序列可以依据后处理器的位置而适当地加进总激励序列ex(n)或语音信号s(n)中,或者从中减去。
从前面的描述看来,对于本领域内的技术人员明显的是,可以在本发明的范围内进行各种修正。例如,可变帧率编码,快速码书搜索,颠倒音调预测和LPC预测的顺序都可以被应用在解码中。此外,根据该发明的后处理也可以被包括在编码器中而不仅仅是解码器中。另外,参照附图描述的各个实施方案的(所有)方面可以被合并以提供根据该发明的另一个实施方案。
该发明的范围包括任何新特征或在其中明确或隐含说明的特征的组合,或是其任何实现方案,而不管它是否涉及到所声明的发明,或者是否解决该发明提出的任何或所有问题。本申请者因此在这里提请注意在该申请或从中得出的任何这样的进一步申请的执行期间,新的权利要求可以表述为这些特征。
Claims (50)
1.一种用于语音合成的合成器,包括一个用于处理包括语音周期信息并且从激励源得到的第一信号的后处理装置,其中,后处理装置适合根据可从激励源得到的第二信号来修正第一信号的语音周期信息内容。
2.根据权利要求1的合成器,其中后处理装置包括用于根据可从与第一信号相关的音调信息中得出的第一缩放因子(P)来缩放第二信号的增益控制装置。
3.根据权利要求2的合成器,其中激励源包括一个固定码书和一个自适应码书,第一信号包括分别来源于固定码书和自适应码书的第一和第二部分激励信号的组合。
4.根据权利要求3的合成器,其中第一缩放因子(P)可从自适应码书缩放因子(b)中得出。
5.根据权利要求4的合成器,其中第一缩放因子(P)可以根据下述关系得出:
b<THlow 则p=0.0
THlow≤b<TH2 则p=aenh1f1(b)
TH2≤b<TH3 则p=aenh2f2(b)
如果
THN-1≤b≤THupper 则p=aenhN-1fN-1(b)
b>THupper 则p=aenhNfN(b)
其中,TH表示阈值,b是自适应码书增益因子,P是第一后处理器装置缩放因子,aenh是一个线性标量,f(b)是增益b的函数。
6.根据权利要求4或权利要求5的合成器,其中缩放因子(P)可以根据下式得出:
b<THlow 则p=0.0
如果THlow≤b≤THupper 则p=aenhb2
b>THupper 则p=aenhb
其中aenh是一个控制增强处理强度的常数,b是自适应码书增益,TH是阈值,P是第一后处理缩放因子。
7.根据权利要求3到6中任何一个的合成器,其中第二信号来源于自适应码书。
8.根据权利要求7的合成器,其中第二信号基本上与第二部分激励信号相同。
9.根据权利要求3到6中的任何一个的合成器,其中第二信号来源于固定码书。
10.根据权利要求9的合成器,其中第二信号基本上与第一部分激励信号相同。
11.根据权利要求9或权利要求10的合成器,其中增益控制装置适合根据第二缩放因子(P′)来缩放第二信号,其中
g是固定码书缩放因子,b是自适应码书缩放因子,P是第一缩放因子。
12.根据前面任何一个权利要求的合成器,其中第一信号是适合于输入到语音合成滤波器的第一激励信号,第二信号是适合于输入到语音合成滤波器的第二激励信号。
13.根据权利要求1到11中任何一个的合成器,其中第一信号是从第一语音合成滤波器输出的第一合成语音信号,第二信号是第二语音合成滤波器的输出。
14.根据权利要求13的合成器,其中增益控制装置可处理输入到第二语音合成滤波器的信号。
15.根据前面任何一个权利要求用于通过组合第一和第二信号来修正第一信号的合成器。
16.根据权利要求15的信号,其中后处理装置还包括一个适合根据下面的关系缩放已修正的第一信号的自适应能量控制装置:
其中N是一个适当选取的调整周期值,ex(n)是第一信号,ew′(n)是一个已修正的第一信号,k是能量缩放因子。
17.一种基本上如前面描述的并分别参照图3和图4的合成器。
18.一种用于增强合成语音的方法,包括:
从激励源得到一个包括语音周期信息的第一信号;
从激励源得到一个第二信号,并且
根据第二信号修正第一信号的语音周期信息内容。
19.根据权利要求18的方法,它还包括根据从与第一信号相关的音调信息中得到的第一缩放因子(P)来缩放第二信号。
20.根据权利要求19的方法,其中激励源包括一个固定码书和一个自适应码书,第一信号包括分别来源于固定码书和自适应码书的第一和第二部分激励信号的组合。
21.根据权利要求20的方法,其中第一缩放因子(P)可从用于第一信号音调信息的增益因子(b)中得出。
22.根据权利要求21的方法,其中第一缩放因子可以根据下面公式得出:
b<THlow 则p=0.0
THlow≤b<TH2 则p=aenh1f1(b)
TH2≤b<TH3 则p=aenh2f2(b)
如果
THN-1≤b≤THupper则p=aenhN-1fN-1(b)
b>THupper 则p=aenhNfN(b)
其中TH表示阈值,b是用于第一信号音调信息的增益因子,P是第一信号缩放因子,aenh是一个线性标量,f(b)是b的函数。
23.根据权利要求21或22的方法,其中缩放因子(P)可以根据(下式)得出,
b<THlow 则p=0.0
如果THlow≤b≤THupper 则p=aenhb2
b>THupper 则p=aenhb
其中aenh是一个控制增强处理强度的常数,b是用于第一信号的音调信息的增益因子,TH是阈值,P是第二信号缩放因子。
24.根据权利要求20到23中任何一个的方法,其中第二信号来源于自适应码书。
25.根据权利要求24的方法,其中第二信号基本上与第二部分激励信号相同。
26.根据权利要求20到23中任何一个的方法,其中第二信号来源于固定码书。
27.根据权利要求26的方法,其中第二信号基本上与第一部分激励信号相同。
28.根据权利要求26或27的方法,其中第二信号根据第二缩放因子(P′)来缩放,其中
g是固定码书缩放因子,b是自适应码书缩放因子,P是第一缩放因子。
29.根据权利要求18到28中任何一个的方法,其中第一信号是适合于输入到第一语音合成滤波器的第一激励信号,第二信号是适合于输入到第二语音合成滤波器的第二激励信号。
30.根据权利要求18到28中任何一个的方法,其中第一信号是从第一语音合成滤波器输出的第一合成语音信号,第二信号是第二语音合成滤波器的输出。
31.根据权利要求18到30中任何一个的方法,用于通过组合第二信号和第一信号来修正第一信号。
32.根据权利要求31的方法,其中已修正的第一信号根据下面的关系式被归一化:
其中N是一个适当选取的调整周期,ex(n)是第一信号,ew′(n)是一个已修正的第一信号,k是能量缩放因子。
33.一种基本上如同前面根据各个实施方案描述的方法。
34.一种无线电设备,包括:
一种用于接收无线电信号并恢复包括在该无线电信号中的编码信息的射频装置,及
一种包括一个耦合到射频装置的激励源的合成器,该射频装置用于根据编码信息来产生包括音调信息的第一信号,其中合成器还包括一个耦合到激励源来接收第一信号并被调整来根据得自激励源的第二信号修正第一信号的音调信息的后处理装置,以及一个被耦合来从后处理装置接收已修正的第一信号的语音合成滤波器,以便响应于此产生合成语音。
35.包括根据权利要求2到17中任何一个合成器的无线电设备。
36.根据相应于权利要求18到33中任何一个的方法的可操作来增强合成的语音的无线电设备。
37.用于语音合成的合成器,它包括用于分别产生第一和第二激励信号的第一和第二激励源,及用于根据从与第一激励信号相关的音调信息中得出的缩放因子来修正第一信号的修正装置。
38.一种用于语音合成的合成器,它包括用于分别产生第一和第二激励信号的第一和第二激励源,以及用于根据从与第一激励信号相关的音调信息中得出的缩放因子来修正第二激励信号的修正装置。
39.根据权利要求37的合成器,其中修正装置适合根据从与第一信号相关的音调信息中得出的第一缩放因子(a)来缩放第一激励信号。
40.根据权利要求39的合成器,其中第一激励源是一个自适应码书,第二激励源是一个固定码书。
41.根据权利要求40的合成器,其中第一缩放因子(a)的形式为:a=b+p,其中b是自适应码书增益,P是根据下面的关系式得出的感知增强增益因子:
b<THlow 则p=0.0
THlow≤b<TH2 则p=aenh1f1(b)
TH2≤b<TH3 则p=aenh2f2(b)
如果
THN-1≤b≤THupper 则p=aenhN-1fN-1(b)
b>THupper 则p=aenhNfN(b)
其中TH表示阈值,b是自适应码书增益因子,P是感知增强增益因子,aenh是线性标量,f(b)是增益b的函数。
42.根据权利要求41的合成器,其中感知增强增益因子P可以根据以下定义得出:
b<THlow 则p=0.0
如果THlow≤b≤THupper 则p=aenhb2
b>THupper 则p=aenhb
其中P是感知增强增益因子。
43.根据权利要求38到43且基于权利要求38的合成器,其中修正装置适合根据从与第一信号相关的音调信息中得出的第二缩放因子(a′)来缩放第二激励信号。
44.根据权利要求43的合成器,其中第一激励源是自适应码书,第二激励源是固定码书。
45.根据权利要求44的合成器,其中第二缩放因子(a′)满足下面关系:
其中g是固定码书增益因子,b是自适应码书增益因子,P是可以根据下式得出的感知增强增益因子:
b<THlow 则p=0.0
THlow≤b<TH2 则p=aenh1f1(b)
TH2≤b<TH3 则p=aenh2f2(b)
如果
THN-1≤b≤THupper 则p=aenhN-1fN-1(b)
b>THupper 则p=aenhNfN(b)
其中TH表示阈值,b是自适应码书增益因子,P是感知增强增益因子,aenh是线性标量,f(b)是增益b的函数。
46.根据权利要求45的合成器,其中感知增强增益因子可根据下式及P为感知增强增益因子时的定义得出:
b<THlow 则p=0.0
如果THlow≤b≤THupper 则p=aenhb2
b>THupper 则p=aenhb。
47.根据权利要求37到46中任何一个的合成器,其中第一和第二激励信号在修正后被组合。
48根据权利要求47的合成器,还包括一个用于根据下面关系式来修正组合的已缩放的第一和第二信号的自适应能量控制装置:
其中N是适当选取的调整周期,ex(n)是组合的第一和第二信号,ew′(n)是组合的已缩放的第一和第二信号,K是能量缩放因子。
49.一种用于语音合成的方法,它包括产生第一和第二激励信号,根据其中相关联的增益因子来修正第一激励信号,并且根据可从与第一激励信号相关的音调信息得出的缩放因子来修正第一激励信号。
50.一种用于语音合成的方法,它包括产生第一和第二激励信号,根据其中相关联的增益因子来修正第一激励信号,并根据可从与第一激励信号相关的音调信息得出的缩放因子来修正第二激励信号。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB9512284.2 | 1995-06-16 | ||
GBGB9512284.2A GB9512284D0 (en) | 1995-06-16 | 1995-06-16 | Speech Synthesiser |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN96196226.7A Division CN1199151C (zh) | 1995-06-16 | 1996-06-13 | 语音编码器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1652207A true CN1652207A (zh) | 2005-08-10 |
Family
ID=10776197
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200510052904.XA Pending CN1652207A (zh) | 1995-06-16 | 1996-06-13 | 语音编码器 |
CN96196226.7A Expired - Lifetime CN1199151C (zh) | 1995-06-16 | 1996-06-13 | 语音编码器 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN96196226.7A Expired - Lifetime CN1199151C (zh) | 1995-06-16 | 1996-06-13 | 语音编码器 |
Country Status (12)
Country | Link |
---|---|
US (2) | US6029128A (zh) |
EP (1) | EP0832482B1 (zh) |
JP (1) | JP3483891B2 (zh) |
CN (2) | CN1652207A (zh) |
AT (1) | ATE206843T1 (zh) |
AU (1) | AU714752B2 (zh) |
BR (1) | BR9608479A (zh) |
DE (1) | DE69615839T2 (zh) |
ES (1) | ES2146155B1 (zh) |
GB (1) | GB9512284D0 (zh) |
RU (1) | RU2181481C2 (zh) |
WO (1) | WO1997000516A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009071018A1 (fr) * | 2007-11-12 | 2009-06-11 | Huawei Technologies Co., Ltd. | Dispositif et procédé de recherche dans un répertoire codé de séquences fixes |
CN101286319B (zh) * | 2006-12-26 | 2013-05-01 | 华为技术有限公司 | 改进语音丢包修补质量的语音编码方法 |
US9336790B2 (en) | 2006-12-26 | 2016-05-10 | Huawei Technologies Co., Ltd | Packet loss concealment for speech coding |
CN110444192A (zh) * | 2019-08-15 | 2019-11-12 | 广州科粤信息科技有限公司 | 一种基于语音技术的智能语音机器人 |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5913187A (en) * | 1997-08-29 | 1999-06-15 | Nortel Networks Corporation | Nonlinear filter for noise suppression in linear prediction speech processing devices |
US7117146B2 (en) * | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
JP3365360B2 (ja) * | 1999-07-28 | 2003-01-08 | 日本電気株式会社 | 音声信号復号方法および音声信号符号化復号方法とその装置 |
US6480827B1 (en) * | 2000-03-07 | 2002-11-12 | Motorola, Inc. | Method and apparatus for voice communication |
US6581030B1 (en) * | 2000-04-13 | 2003-06-17 | Conexant Systems, Inc. | Target signal reference shifting employed in code-excited linear prediction speech coding |
US6466904B1 (en) * | 2000-07-25 | 2002-10-15 | Conexant Systems, Inc. | Method and apparatus using harmonic modeling in an improved speech decoder |
EP1308927B9 (en) * | 2000-08-09 | 2009-02-25 | Sony Corporation | Voice data processing device and processing method |
US7283961B2 (en) * | 2000-08-09 | 2007-10-16 | Sony Corporation | High-quality speech synthesis device and method by classification and prediction processing of synthesized sound |
JP3558031B2 (ja) * | 2000-11-06 | 2004-08-25 | 日本電気株式会社 | 音声復号化装置 |
US7103539B2 (en) * | 2001-11-08 | 2006-09-05 | Global Ip Sound Europe Ab | Enhanced coded speech |
CA2388352A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for frequency-selective pitch enhancement of synthesized speed |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
US7516067B2 (en) * | 2003-08-25 | 2009-04-07 | Microsoft Corporation | Method and apparatus using harmonic-model-based front end for robust speech recognition |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
JP4398323B2 (ja) * | 2004-08-09 | 2010-01-13 | ユニデン株式会社 | デジタル無線通信装置 |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US20060217988A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for adaptive level control |
US20060217983A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for injecting comfort noise in a communications system |
US20060217972A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
US20060215683A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for voice quality enhancement |
US20060217970A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for noise reduction |
US7562021B2 (en) * | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
US7590523B2 (en) * | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
US8005671B2 (en) * | 2006-12-04 | 2011-08-23 | Qualcomm Incorporated | Systems and methods for dynamic normalization to reduce loss in precision for low-level signals |
BRPI0720266A2 (pt) * | 2006-12-13 | 2014-01-28 | Panasonic Corp | Dispositivo de decodificação de aúdio e método de ajuste de potência |
CN101548317B (zh) * | 2006-12-15 | 2012-01-18 | 松下电器产业株式会社 | 自适应激励矢量量化装置和自适应激励矢量量化方法 |
CN101266797B (zh) * | 2007-03-16 | 2011-06-01 | 展讯通信(上海)有限公司 | 语音信号后处理滤波方法 |
US8209190B2 (en) * | 2007-10-25 | 2012-06-26 | Motorola Mobility, Inc. | Method and apparatus for generating an enhancement layer within an audio coding system |
CN101179716B (zh) * | 2007-11-30 | 2011-12-07 | 华南理工大学 | 一种压缩域的传输数据流音频自动增益控制方法 |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
US8442837B2 (en) * | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
US8990094B2 (en) * | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
US8862465B2 (en) * | 2010-09-17 | 2014-10-14 | Qualcomm Incorporated | Determining pitch cycle energy and scaling an excitation signal |
US8706509B2 (en) | 2011-04-15 | 2014-04-22 | Telefonaktiebolaget L M Ericsson (Publ) | Method and a decoder for attenuation of signal regions reconstructed with low accuracy |
PL2737479T3 (pl) * | 2011-07-29 | 2017-07-31 | Dts Llc | Adaptacyjna poprawa zrozumiałości głosu |
EP2704142B1 (en) * | 2012-08-27 | 2015-09-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal |
CN107818789B (zh) | 2013-07-16 | 2020-11-17 | 华为技术有限公司 | 解码方法和解码装置 |
US9620134B2 (en) * | 2013-10-10 | 2017-04-11 | Qualcomm Incorporated | Gain shape estimation for improved tracking of high-band temporal characteristics |
CN111370009B (zh) * | 2013-10-18 | 2023-12-22 | 弗朗霍夫应用科学研究促进协会 | 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念 |
EP3058569B1 (en) * | 2013-10-18 | 2020-12-09 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
CN113241082B (zh) * | 2021-04-22 | 2024-02-20 | 杭州网易智企科技有限公司 | 变声方法、装置、设备和介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5681900A (en) * | 1979-12-10 | 1981-07-04 | Nippon Electric Co | Voice synthesizer |
US4815135A (en) * | 1984-07-10 | 1989-03-21 | Nec Corporation | Speech signal processor |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
GB8806185D0 (en) * | 1988-03-16 | 1988-04-13 | Univ Surrey | Speech coding |
US5029211A (en) * | 1988-05-30 | 1991-07-02 | Nec Corporation | Speech analysis and synthesis system |
US5247357A (en) * | 1989-05-31 | 1993-09-21 | Scientific Atlanta, Inc. | Image compression method and apparatus employing distortion adaptive tree search vector quantization with avoidance of transmission of redundant image data |
CA2066568A1 (en) * | 1989-10-17 | 1991-04-18 | Ira A. Gerson | Lpc based speech synthesis with adaptive pitch prefilter |
US5241650A (en) * | 1989-10-17 | 1993-08-31 | Motorola, Inc. | Digital speech decoder having a postfilter with reduced spectral distortion |
CA2010830C (en) * | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
JP3102015B2 (ja) * | 1990-05-28 | 2000-10-23 | 日本電気株式会社 | 音声復号化方法 |
ATE294441T1 (de) * | 1991-06-11 | 2005-05-15 | Qualcomm Inc | Vocoder mit veränderlicher bitrate |
JP3076086B2 (ja) * | 1991-06-28 | 2000-08-14 | シャープ株式会社 | 音声合成装置用ポストフィルタ |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
FI91345C (fi) * | 1992-06-24 | 1994-06-10 | Nokia Mobile Phones Ltd | Menetelmä kanavanvaihdon tehostamiseksi |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
WO1994025959A1 (en) * | 1993-04-29 | 1994-11-10 | Unisearch Limited | Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems |
US5664055A (en) * | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
-
1995
- 1995-06-16 GB GBGB9512284.2A patent/GB9512284D0/en active Pending
-
1996
- 1996-06-13 CN CN200510052904.XA patent/CN1652207A/zh active Pending
- 1996-06-13 JP JP50280997A patent/JP3483891B2/ja not_active Expired - Lifetime
- 1996-06-13 WO PCT/GB1996/001428 patent/WO1997000516A1/en active IP Right Grant
- 1996-06-13 BR BR9608479-0A patent/BR9608479A/pt not_active IP Right Cessation
- 1996-06-13 US US08/662,991 patent/US6029128A/en not_active Expired - Lifetime
- 1996-06-13 AT AT96920925T patent/ATE206843T1/de not_active IP Right Cessation
- 1996-06-13 ES ES009750009A patent/ES2146155B1/es not_active Expired - Fee Related
- 1996-06-13 CN CN96196226.7A patent/CN1199151C/zh not_active Expired - Lifetime
- 1996-06-13 AU AU62309/96A patent/AU714752B2/en not_active Expired
- 1996-06-13 DE DE69615839T patent/DE69615839T2/de not_active Expired - Lifetime
- 1996-06-13 RU RU98101107/28A patent/RU2181481C2/ru active
- 1996-06-13 EP EP96920925A patent/EP0832482B1/en not_active Expired - Lifetime
-
1998
- 1998-08-18 US US09/135,936 patent/US5946651A/en not_active Expired - Lifetime
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101286319B (zh) * | 2006-12-26 | 2013-05-01 | 华为技术有限公司 | 改进语音丢包修补质量的语音编码方法 |
US9336790B2 (en) | 2006-12-26 | 2016-05-10 | Huawei Technologies Co., Ltd | Packet loss concealment for speech coding |
US9767810B2 (en) | 2006-12-26 | 2017-09-19 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
US10083698B2 (en) | 2006-12-26 | 2018-09-25 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
WO2009071018A1 (fr) * | 2007-11-12 | 2009-06-11 | Huawei Technologies Co., Ltd. | Dispositif et procédé de recherche dans un répertoire codé de séquences fixes |
US7908136B2 (en) | 2007-11-12 | 2011-03-15 | Huawei Technologies Co., Ltd. | Fixed codebook search method and searcher |
US7941314B2 (en) | 2007-11-12 | 2011-05-10 | Huawei Technologies Co., Ltd. | Fixed codebook search method and searcher |
CN110444192A (zh) * | 2019-08-15 | 2019-11-12 | 广州科粤信息科技有限公司 | 一种基于语音技术的智能语音机器人 |
Also Published As
Publication number | Publication date |
---|---|
DE69615839D1 (de) | 2001-11-15 |
JP3483891B2 (ja) | 2004-01-06 |
RU2181481C2 (ru) | 2002-04-20 |
JPH11507739A (ja) | 1999-07-06 |
BR9608479A (pt) | 1999-07-06 |
CN1192817A (zh) | 1998-09-09 |
US6029128A (en) | 2000-02-22 |
EP0832482B1 (en) | 2001-10-10 |
ES2146155B1 (es) | 2001-02-01 |
DE69615839T2 (de) | 2002-05-16 |
AU6230996A (en) | 1997-01-15 |
WO1997000516A1 (en) | 1997-01-03 |
CN1199151C (zh) | 2005-04-27 |
US5946651A (en) | 1999-08-31 |
ATE206843T1 (de) | 2001-10-15 |
AU714752B2 (en) | 2000-01-13 |
ES2146155A1 (es) | 2000-07-16 |
EP0832482A1 (en) | 1998-04-01 |
GB9512284D0 (en) | 1995-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1199151C (zh) | 语音编码器 | |
CN1244907C (zh) | 宽带语音编解码器中的高频增强层编码方法和装置 | |
CN1132153C (zh) | 改善增强语声的滤波器,用该滤波器的装置、系统和方法 | |
CN1152776A (zh) | 复制语言信号、解码语音、合成语音的方法和装置 | |
CN1104710C (zh) | 在语音数字传输系统中产生悦耳噪声的方法与装置 | |
CN1150516C (zh) | 语音编码方法和语音编码器 | |
CN1379899A (zh) | 语音可变速率编码方法与设备 | |
CN1265217A (zh) | 在语音通信系统中语音增强的方法和装置 | |
CN1159691A (zh) | 用于声频信号线性预测分析的方法 | |
CN1441950A (zh) | 处理丢失帧的语音通信系统及方法 | |
CN1410970A (zh) | 用于语音快速编码的被选信号脉冲幅度的代数码本 | |
CN1735926A (zh) | 语音处理中用于人工扩展带宽的方法和设备 | |
CN1950883A (zh) | 可伸缩性解码装置及增强层丢失的隐藏方法 | |
CN1692408A (zh) | 码分多址无线系统的可变比特率宽带语音编码中的有效带内半空白-突发序列信令及半速率最大操作的方法和装置 | |
CN1795495A (zh) | 音频编码设备、音频解码设备、音频编码方法和音频解码方法 | |
CN1167048C (zh) | 语音编码设备和语音解码设备 | |
CN1210685C (zh) | 语音编码中噪音鲁棒分类方法 | |
CN1152164A (zh) | 码激励线性预测编码装置 | |
CN1174457A (zh) | 语音信号传输方法及语音编码和解码系统 | |
CN1161750C (zh) | 语音编码译码方法和装置、电话装置、音调变换方法和介质 | |
CN1112672C (zh) | 多脉冲分析语言处理系统及其方法 | |
CN1192357C (zh) | 用于语音编码的自适应规则 | |
CN1293535C (zh) | 声音编码设备和方法以及声音解码设备和方法 | |
CN1841499A (zh) | 代码转换装置和方法 | |
JPWO2003071522A1 (ja) | 固定音源ベクトルの生成方法及び固定音源符号帳 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |