CN1244907C - 宽带语音编解码器中的高频增强层编码方法和装置 - Google Patents
宽带语音编解码器中的高频增强层编码方法和装置 Download PDFInfo
- Publication number
- CN1244907C CN1244907C CNB018175996A CN01817599A CN1244907C CN 1244907 C CN1244907 C CN 1244907C CN B018175996 A CNB018175996 A CN B018175996A CN 01817599 A CN01817599 A CN 01817599A CN 1244907 C CN1244907 C CN 1244907C
- Authority
- CN
- China
- Prior art keywords
- signal
- zoom factor
- input signal
- voice
- frequency band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001914 filtration Methods 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 31
- 239000002131 composite material Substances 0.000 claims description 22
- 206010019133 Hangover Diseases 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 10
- 238000013139 quantization Methods 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims 1
- 230000000153 supplemental effect Effects 0.000 claims 1
- 238000004040 coloring Methods 0.000 abstract description 3
- 230000005284 excitation Effects 0.000 description 15
- 238000005070 sampling Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000012546 transfer Methods 0.000 description 9
- 230000007704 transition Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000011002 quantification Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Displays For Variable Information Using Movable Means (AREA)
Abstract
用于编码和解码输入信号(100)和提供合成的语音(110)的语音编码方法和设备,其中通过对仿真信号(150)高通滤波和着色获得合成语音(110)的高频部分(160)来提供处理过的仿真信号(154)。处理过的仿真信号(154)在输入信号(100)的激活语音周期通过第一缩放因子(114,144)进行缩放(530.540),在非激活语音周期通过第二缩放因子(114和115,144和145)进行缩放,其中第一缩放因子(114,144)具有输入信号(100)的高频带特性,并且第二缩放因子(114和115,144和145)具有输入信号(100)的低频带特性。特别地,第二缩放因子(114和115,144和145)基于合成语音(110)的低频部分进行估算,并且仿真信号(150)的着色是基于具有输入信号(100)低频特性的线性预测编码系数(104)的。
Description
技术领域
本发明通常涉及编码和解码合成语音的领域,尤其是涉及自适应多速率宽带语音编解码器。
背景技术
当前很多语音编码方法都是基于线性预测(LP)编码,感性地直接从时间波形而不是从语音信号的频谱(正如所谓的信道声码器或所谓的共振峰声码器一样)中提取语音信号的有效特征。在LP编码中,首先分析语音波形(LP分析)以确定一个随时间变化的产生语音信号的声道激励模型,以及转换函数。解码器(如果通过电信传输编码的语音信号则在接收终端中)然后使用合成器(为了进行LP合成)通过一个用参数表示的模拟声道的系统传递激励以便重新生成原始语音。随着说话者产生语音信号,声道模型参数和模型激励均周期性地更新以适合说话者相应的变化。但是在更新之间,也就是说,在任何特定的间隔之间,激励和系统参数保持不变,因此模型执行的处理是线性的不随时间变化的处理。整个编码和解码(分布式的)系统被称为编解码器。
在一个使用LP编码产生语音的编解码器中,解码器需要编码器提供三种输入:如果激励是有声的,则提供音调周期,增益因子和预测系数。(在某些编解码器中,还要提供激励种类,也就是说是有声的还是无声的,但对于代数码激励线性预测(ACELP)编解码器通常并不需要。例如。在前向估计处理中,LP编码是预测型的,因为它使用基于实际输入的应用参数的语音波形片断(在一段特定间隔内)的预测参数。
基本的LP编码和解码可用于使用相对低的数据速率以数字方式传输语音,但因为它使用非常简单的激励系统,它产生合成的发声的语音。一个所谓的码激励线性预测(CELP)编解码器是一种增强的激励编解码器。它基于″冗余″编码。模拟声道是根据参数被编码成压缩语音的数字滤波器。这些滤波器是由表示原始说话者的声带震动的信号所驱动,即″激励″。音频语音信号的冗余是较少地数字滤波的(原始)音频语音信号。在所谓的″冗余脉冲激励″中,CELP编解码器对冗余编码并将它作为激励的基础,但是,CELP使用从预设的一套波形模板中选择的波形模板来表示冗余样本块而不是根据样本不同情况分别编码冗余波形。码字是由编码器决定的并提供给解码器,解码器然后使用码字以选择冗余序列表示原始的冗余样本。
依据奈奎斯特定理,采样率Fs的语音信号可以表示一个从0到0.5Fs的频带。当前,大多语音编解码器(编码器-解码器)使用8kHz的采样速率。如果采样速率从8kHz增加,语音的逼真度也会改进因为可以表示更高的频率。现在,语音信号的采样率通常为8kHz,但是开发中的移动电话基站将使用16kHz的采样率。依据奈奎斯特定理,16kHz的采样率在频带0-8kHz表示语音。然后对采样的语音进行编码以使用发射机进行通信,然后被接收机解码。使用16kHz的采样速率采样的语音的语音编码被称为宽带语音编码。
当语音采样率增加时,编码复杂性也增加了。对于某些算法,随着采样率增加,编码复杂性甚至达到指数级增长。因此,编码复杂性经常是确定宽带语音编码算法的一个限制性因素。例如,移动电话基站的功耗,可用的处理功率和内存要求严重影响算法的应用。
在现有技术的宽带编解码器中,如图1所示,预处理阶段用于低通过滤和从原始的16kHz到12.8kHz采样频率下抽样输入语音信号。下抽样信号然后减少十分之一以使得在20ms内320个样本数减少到256。在有效的0到6.4kHz频率带宽内,下抽样和减少了十分之一的信号使用合成分析(A-b-S)循环以提取LPC,音调和激励参数进行编码,并量化成编码的比特流以发送到接收端进行解码。在A-b-S循环中,本地合成信号进一步上抽样并以内插值替换以符合原始样本频率。编码处理之后,6.4kHz到8.0kHz的频带为空。宽带编解码器在这个空频率范围生成随机噪声并利用如下所述的合成滤波使用LPC参数着色(colors)随机噪声。随机噪声首先根据下式进行缩放
escaled=sqrt[{extT(n)exc(n)exc(n)}/{eT(n)e(n)}]e(n)(1)
其中e(n)表示随机噪声exc(n)表示LPC激励。上标T表示向量转置。缩放的随机噪声使用着色(coloring)LPC合成滤波器和6.0-7.0kHz带通滤波器进行滤波。这种着色(colored)的高频部分进一步使用关于合成信号的频谱倾斜的信息进行缩放。频谱倾斜可以通过首先使用下列公式计算自相关系数,r,来估计:
r={sT(i)s(i-1)}/{sT(i)s(i)}
(2)
其中s(i)是合成语音信号。相应地,估计的增益fest由下面决定
fest=1.0-r
(3)
并限制0.2≤fest≤1.0。
在接收端,在核心解码处理后,对合成信号进行进一步的后续处理以通过上抽样信号来满足输入信号采样频率,以便生成实际的输出。因为高频噪声电平是基于从合成信号的低频带和频谱倾斜获取的LPC参数估算出的,缩放和着色随机噪声可以在编码器端或解码器端实现。
在现有技术的编解码器中,基于基层信号电平以及频谱倾斜估算高频噪声电平。因而,合成信号的高频部分被滤波掉。因此,噪声电平与在6.4-8.0kRz频率范围的实际输入信号特性不相一致。这样,现有技术的编解码不能提供高质量合成信号。
考虑到在高频范围的实际输入信号的特性,提供能够提供高质量合成信号的方法和系统是有利和值得的。
发明内容
本发明的主要目的是在分布式语音处理系统中提高合成语音的质量。这个目的可以通过使用具有在6.0至7.0kHZ频率范围的原始语音信号中的高频部分的输入信号特性,例如,在激活语音周期,确定在合成合成语音的高频部分中的着色的(colored)高通滤波仿真信号的缩放因子来实现。在非激活语音周期,可以通过合成语音信号的低频部分确定缩放因子。
因此,本发明的第一个方面是一种语音编码方法,用于编码和解码具有激活语音周期和非激活语音周期的输入信号,并且用于提供一种具有高频部分和低频部分的合成语音信号,其中该输入信号在编码和语音合成过程中被分成高频带部分和低频带部分,并且其中具有低频部分特性的语音相关参数被用来处理用于提供合成语音信号高频部分的仿真信号。该方法包括步骤:
在激活语音周期中,以第一缩放因子缩放处理过的仿真信号,以及
在非激活语音周期中,以第二缩放因子缩放处理过的仿真信号,其中第一缩放因子是输入信号的高频带特性,并且第二缩放因子是合成信号的低频部分的特性。
优选地,输入信号被高通滤波以便在在合成语音的高频部分的频率范围特性中提供滤波过的信号,其中第一缩放因子从滤波过的信号中估算出来的,并且其中当非激活语音周期包括语音释放延迟周期和舒适噪声周期时,从滤波过的信号中估算出在语音释放延迟周期中缩放处理过的仿真信号的第二缩放因子。
优选地,用于在语音释放延迟周期中缩放处理过的仿真信号的第二缩放因子也是从合成语音信号的低频部分中估算出来的,并且用于在舒适噪声周期中缩放处理过的仿真信号的第二缩放因子从合成语音信号的低频部分中估算出来。
优选地,第一缩放因子在流向接收端的已编码比特流中编码和发送,并且用于语音释放延迟周期的第二缩放因子也包括在已编码的比特流中。
用于语音释放延迟周期的第二缩放因子可以在接收端确定。
优选地,第二缩放因子也可以从频谱倾斜因子(spectral tilt)中估算出,该频谱倾斜因子由合成语音的低频部分确定。
优选地,第一缩放因子进一步从处理过的仿真信号中估算出。
本发明的第二方面是用于编码和解码具有激活语音周期和非激活语音周期的输入信号并且用于提供一种具有高频部分和低频部分的合成语音信号的语音信号发射机和接收机系统,其中该输入信号在编码和语音合成过程中被分成高频带部分和低频带部分,其中输入信号的低频带的语音相关参数被用来在接收机中处理仿真信号来提供合成语音信号的高频部分。该系统包括:
接收机中的解码器,用于从发射机中接收已编码的比特流,其中已编码的比特流包括语音相关参数;
发射机中的第一模块,响应输入信号,提供用于在激活周期中缩放处理过的仿真信号的第一缩放因子,以及
接收机中的第二模决,响应已编码的比特流,提供在非激活周期中缩放处理过的仿真信号的第二缩放因子,其中第一缩放因子是输入信号高频带的特性,并且第二缩放因子是合成信号低频部分的特性。
优选地,本发明的第一模块包括一个滤波器,用于高通滤波输入信号,并且提供滤波过的输入信号,该信号具有相应于合成语音的高频部分的频率范围,以便允许从滤波过的输入信号中估算出第一缩放因子。
优选地,在发射机中使用第三模块来在相应于合成信号的频率范围内提供着色的高通滤波的随机噪声,以便可以基于着色的高通滤波随机噪声修改第一缩放因子。
本发明的第三方面是编码器,用于编码具有激活语音周期和非激活语音周期的输入信号,该输入信号被分为高频带和低频带,用于提供包括具有输入信号低频带特性的语音相关参数的已编码比特流,以便允许解码器基于语音相关参数再现合成语音的低频部分并且基于语音相关参数处理仿真信号来提供合成语音高频部分,其中在非激活语音周期中,使用基于合成语音低频部分的缩放因子缩放处理过的仿真信号。该编码器包括:
滤波器,响应输入信号,用于对相应于合成语音的高频部分的频率范围中的输入信号高通滤波,并且提供指示高通滤波过的输入信号的第一信号;
装置,响应第一信号,用于基于高通滤波的输入信号以及合成语音的低频部分提供另一个缩放因子,并且提供指示另一个缩放因子的第二信号;以及
量化模块,响应第二信号,用于在已编码比特流中提供指示另一个缩放因子的已编码信号,以便允许解码器在激活语音周期基于另一个缩放因子缩放处理过的仿真信号。
本发明的第四方面是一个移动站,其被设置来发送已编码比特流至解码器以便提供具有高频部分和低频部分的合成信号,其中已编码比特流包括语音数据,该语音数据指示具有激活语音周期和非激活语音周期的输入信号,并且输入信号被分成高频带和低频带,其中语音数据包括具有输入信号低频带特性的语音相关参数,以便允许解码器基于语音相关参数提供合成语音的低频部分,并且基于语音相关参数着色仿真信号,同时基于合成语音的低频部分使用缩放因子缩放着色的仿真信号以便在非激活语音周期中提供合成语音的高频部分。移动站包括:
滤波器,响应输入信号,用于高通滤波相应于合成语音高频部分的频率范围的输入信号,并且用于基于高通滤波过的输入信号提供另一个缩放因子;以及
量化模块,响应该缩放因子和另一个缩放因子,用于在已编码比特流中提供指示另一个缩放因子的已编码信号,以便允许解码器在激活语音周期中基于另一个缩放因子缩放着色的仿真信号。
本发明的第五方面是电信网络中的元件,其被设置来接收用于提供具有高频部分和低频部分的合成语音的已编码比特流,该比特流包括指示来自移动站的输入信号的语音数据,其中具有激活语音周期和非激活语音周期的输入信号被分为高频带和低频带,同时语音数据包括具有输入信号的低频带特性的语音相关参数以及具有输入信号高频带特性的增益参数,其中基于语音相关参数提供合成语音的低频部分,所述元件包括:
第一机构,响应增益参数,用于提供第一缩放因子;
第二机构,响应语音相关参数,用于合成和高通滤波的仿真信号用以提供一个合成和高通滤波过的仿真信号;
第三机构,响应第一缩放因子和语音数据,用于提供组合的缩放因子,该组合的缩放因子包括具有输入信号高频带特性的第一缩放因子和基于第一缩放因子和具有合成语音低频部分特性的另一个语音相关参数的第二缩放因子;以及
第四机构,响应合成和高通仿真信号以及合成缩放因子,用于在激活语音周期和非激活语音周期中,分别使用第一和第二缩放因子缩放合成和高通滤波过的仿真信号。
在结合图2至8阅读说明书后,本发明将变得更加清楚。
附图说明
图1是说明现有技术的宽带语音编解码器的框图。
图2是说明根据本发明的宽带语音编解码器的框图。
图3是说明本发明的宽带语音编解码器的后端处理功能的框图。
图4是说明本发明的宽带语音解码器的结构的框图。
图5是说明宽带语音编解码器的后端处理功能的框图。
图6是说明根据本发明的移动站的框图。
图7是说明根据本发明的电信网络的框图。
图8是说明根据本发明的语音编码方法的流程图。
具体实施方式
如图2所示,根据本发明,宽带语音编解码器1包括用于对输入信号100进行预处理的预处理部件2。如背景技术部分所述,与现有技术中的编解码器相类似,预处理部件2下抽样并且从输入信号100中抽取十分之一,使其变为有效带宽为0-6.4kHz的语音信号102。为了提取出一套线性预测编码(LPC)音调以及激励参数或系数104,使用传统ACELP技术的合成分析编码部件(analysisi-by-synthesis encoding block)4对处理过的语音信号102进行编码。可以使用相同的编码参数,以及高通滤波模块将仿真信号或伪随机噪声处理成着色的高通滤波随机噪声(134,图3;154,图5)。编码部件4也可以为后端处理部件(post-processing block)6提供局部合成信号106。
与现有技术中的宽带编解码器相比,将后端处理部件6的后端处理功能修改成包括增益缩放和增益量化108,其相应于具有原始语音信号100的高频部分特性的输入信号。更具体地,可以使用原始语音信号100的高频部分,以及着色的高通滤波随机噪声134,154来确定如图3所示的与语音编码器结合起来进行描述的如方程4所示的高带信号缩放因子。后端处理部件6的输出内容为后端处理语音信号110。
图3说明了根据本发明的语音编码器10中的后端处理功能的详细结构。如图所示,使用随机噪声发生器20来提供16kHz仿真信号130。LPC合成滤波器22使用LPC参数104对随机噪声130进行着色,此LPC参数104基于语音信号100的低频带特性由合成分析编码部件4(图2)中的编码比特流来提供。从着色的随机噪声132和高通滤波器24抽取出频率为6.0-7.0kHz的着色的高频部分134。在原始语音样本100中频率范围为6.0-7.0kHz的高频部分112也可以通过高通滤波器12提取。使用高频部分112和134的能量来确定增益平衡部件14的高带信号缩放因子gscaled,根据以下方程:
gxcaled=sqrt{(shp Tshp)/(ehp Tehp)}
(4)
其中,shp为6.0-7.0kHz带通滤波原始语音信号112,ehp为LPC合成(着色)及带通滤波随机噪声134。由参考标号114所表示的缩放因子gscaled可通过增益量化模块18进行量化,并且在编码比特流中进行传输,从而接收端可以使用缩放因子对随机噪声进行缩放以实现语音信号的再现。
当前的GSM语音编解码器中,非语音周期中的无线电传输过程由不连续传输(DTX)函数中止。DTX函数将会帮助减少不同部分之间的干扰,同时提高通信系统的容量。DTX函数依赖于话音激活检测(VAD)算法来确定输入信号100代表语音还是噪声,从而防止在激活语音周期内关闭发射机。VAD算法由参考标号98表示。此外,当发射机在非激活语音周期内被关闭时,为了消除连接失败的影响,由接收机提供数量较小的称为“舒适噪声”(CN)的背景噪声。VAD算法这样来设计,以便当监测到非激活语音周期之后,允许有一个称之为释放延迟或保持延迟的时间段。
根据本发明,激活语音中的缩放因子gscaled可以根据方程4进行估算。然而,完成激活语音到非激活语音的自适应之后,由于比特速率的限制以及传输系统本身,增益参数不能够在舒适噪声比特流中进行传输。因此,同现有技术中的宽带编解码器的实现方式一样,在非激活语音中,在接收端不使用原始语音信号来确定缩放因子。因而,可以从非激活语音中的基层信号中可以隐含地估算出增益值。与之相反,在基于高频增强层中信号的语音周期中使用显式增益量化。在激活语音转换到非激活语音的过程中,不同缩放因子之间的转换可能会导致合成信号中的声音瞬变(audible transients)。为了降低这些声音瞬变,可以使用增益自适应模块16来改变缩放因子。根据本发明,当话音激活确定(VAD)算法的释放延迟周期开始时,自适应开始启动。为了该目的,为增益自适应模块16提供表示VAD判决的信号190。此外,不连续传输(DTX)的释放延迟周期也将被用来完成增益自适应。DTX的释放延迟周期之后,可以使用不通过原始语音信号确定的缩放因子。用来调整缩放因子的整个增益自适应过程可以根据以下方程得以实现:
gtotal=αgscaled+(1.0-α)fest
(5)
其中,fest由方程3来确定并由参考标号115表示,α为自适应参数,由以下方程给出:
α=(DTXhangovercount)/7
(6)
因而,在激活语音中,α等于1.0,原因在于DTX释放延迟计数等于7。在从激活到非激活语音的瞬变过程中,DTX释放延迟计数从7降低到0。
从而,在该瞬变中,0<α<1.0。在非激活语音中,或者是接收到第一舒适噪声参数之后,α=0。
在此情形下,由话音激活监测和源编码比特速率所驱动的增强层编码将依照不同的输入信号周期进行缩放。在激活语音中,增益量化由增强层明显地确定,该增强层包括随机噪声增益参数确定和自适应。在瞬变周期内,显式确定的增益值将向隐式估算值进行自适应。在非激活语音中,增益值由基层信号进行隐式估算。因而,高频增益层参数将不会传输到非激活语音的接收端上。
增益值自适应的好处在于可以获得从激活到非激活语音处理过程完成缩放的高频部分的平滑瞬变。由增益自适应模决16所确定且由参考编号116所表示的自适应缩放增益值gtotal,将由增益量化模块18作为一套量化增益参数118进行量化。此套增益参数118可以被加入到编码比特流中去,并传输到接收端进行解码。需要注意到的是,量化增益参数118可以作为查表存储起来,从而可以通过增益索引访问(未示出)。
对于自适应后的缩放增益值gtotal,为了降低从激活语音到非激活语音转换过程中合成信号的瞬变,可以对解码过程中的高频随机噪声进行缩放。最后,合成的高频部分加入到从编码器的A-b-S环路所接收到的上抽样和内插信号中。在每个5毫秒子帧中,彼此独立地实现能量缩放的后端处理。随着4比特电报密码本被用来对高频随机部分增益值进行量化,整个比特率为0.8kbit/s。
显式确定的增益值(来自高频增强层上)和隐式估算的增益值(来自基层,或仅在低频带,信号)之间的增益自适应可以在增益值量化之前在编码器中完成,如图3中所示。在这种情况下,根据方程5,进行编码并且传输到接收端的增益值参数为gtotal。可替换地,增益值自适应可仅仅在VAD标记显式非语音信号已经开始之后于DTX释放延迟周期内的解码器中实现。在这种情况下,增益参数的量化在编码器中实现,同时在解码器中实现增益值自适应,传输到接收端上的增益参数可以根据方程4简化为gscaled。估算的增益值fest值可以在解码器中通过使用合成语音信号得以确定。增益值自适应也可以在解码器接收到第一无声描述(SIDfirst)之前在舒适噪声周期的初始阶段于解码器中实现。如同前面的情况一样,gscaled在编码器中量化同时在编码比特流中进行传输。
本发明中解码器30如图4所示。如图所示,解码器30用来合成来自编码参数140的语音信号110,该编码参数140包括LPC、音调和激励参数104以及增益参数118(见图3)。,解码模块32从编码参数140提供一套量化LPC参数142。后端处理模决34从所接收的语音信号低带部分的LPC、音调和激励参数142产生合成低带语音信号,如同在现有技术中的解码器一样。后端处理模块34由局部产生的随机噪声产生合成高频部分,它是基于包括语音高频部分的输入信号特性的增益参数之上的。
图5给出了解码器30的通用后端处理结构。如图5所示,增益参数118通过增益去量化(dequantilization)部件38进行去量化处理。如果增益自适应已经在编码器中完成,如图3中所示,那么接下来解码器中的相关增益自适应功能将会在舒适噪声周期初期将去量化之后的增益值144(gtotal,α=1.0以及α=0.5)自适应为所估算的缩放增益值fest(a=0),而无需VAD判决信号190。然而,如果仅仅在信号190提供的VAD标记指示非语音信号开始之后,在DTX释放延迟周期内的解码器中进行增益值自适应,那么增益值自适应部件40将根据方程5来确定缩放因子gtotal。因此,当未接收到增益参数118时,在不连续传输过程的初始阶段,增益值自适应部件40将使用估算缩放增益值fest消除瞬变,如参考标号145表示。因而,如增益自适应模式40所提供的那样,根据方程5确定缩放因子146。
如图4所示的后端处理单元34中的随机噪声部分的着色和高通过滤类似于图3中所示编码器10的后端处理操作。如图所示,随机噪声发生器50用来提供仿真信号150,它根据所接收到的LPC参数104由LPG合成滤波器52着色。着色的仿真信号152由高通滤波器54进行滤波操作。然而,在编码器10(图3)中提供着色的、高通滤波随机噪声134的目的在于产生ehp(方程4)。在后端处理模块34中,着色的、高通滤波仿真信号154在被基于增益值自适应模块40所提供的自适应高带缩放因子146上的增益调整模块56缩放之后,被用来产生出合成高频信号160。最后,高频增强层的输出部分160被加入到由基解码器(未示出)所接收到的16kHz合成信号上。16kHz合成信号在本领域是众所周知的。
需要注意到来自解码器的合成信号可以用来实现频谱倾斜(tilt)估算。可以使用方程2和3由解码器后端处理部分估算出参数值fest。当出现由于各种原因,如信道带宽限制以及解码器没有接收高带增益值,而导致解码器或传输信道忽略了高带增益参数的情况时,可以缩放着色的、高通滤波随机噪声从而提供合成语音的高频部分。
总之,在宽带语音编解码器中实现高频增强层编码工作的后端处理步骤可以在编码器或者是解码器中来完成。
当后端处理步骤在编码器中完成时,高带信号缩放因子gscaled从频率范围为6.0-7.0kHz的原始语音样本和LPC彩色以及带通滤波随机噪声中的高频部分中获得。另外,所估算的增益因子fest从编码器中低带合成信号的频谱倾斜值获得。使用VAD判定信号来表明输入信号是处于激活语音周期内还是处于非激活语音周期内。针对不同语音周期的所有缩放因子gtotal由缩放因子gscaled和估算出的增益因子fest运算出。可缩放的高频带信号缩放因子在编码比特流中进行量化和传输。在接收端,全部缩放因子gtotal从所接收到的编码比特流(编码参数)中抽取出来。使用这一全部缩放因子来缩放解码器中所产生的着色的高通滤波随机噪声。
当在解码器中完成后端处理步骤时,所估算的增益因子fest可以从解码器中的低频带合成语音中获得。这一估算出的增益因子可以用来缩放激活语音内解码器中的着色的高通滤波随机噪声。
图6所示为根据本发明的一个实施例所得出的移动台200的框图。移动台包括此设备的特有部分,如麦克风201,数字键盘207,显示器206,耳机214,发送/接收开关208,天线209和控制单元205。并且,图中给出了此移动台所特有的发送和接收部件204和211。发送部件204包括用于编码语音信号的编码器221。编码器221包括图3中所示编码器10的后端处理功能。发送部件204还包括实现信道编码、解密和调制以及RF功能的操作,而为了更清楚的表述,这些在图5中未给出。接收部件211还包括依照本发明的解码部件220。解码部件220包括类似于图5中所示解码器34的后端处理单元222。来源于麦克风201的信号在放大级上放大,然后在A/D转换器中进行数字化处理,然后发送到发送部件204上,尤其是发送到发送部件所包括的语音编码设备上。发送部件的发送,信号处理、调制以及放大,通过发送/接收开关208传输到天线209。从天线得到的所要接收的信号通过发送/接收开关208传输到接收部件211,接收部件211能够解调所接收的信号以及解码解密和信道编码。所得到的语音信号将通过D/A转换器212传输到放大器213上,进一步地传输到耳机214。控制单元205控制移动台200的操作,读取用户通过键盘207给出的控制命令,同时通过显示器206向用户发送信息。
根据本发明,图3所示的编码器10以及图5所示的解码器34的后端处理功能也可以用在电信网络300上,如通常的电话网和移动台网络,如GSM网络。图7给出了这种电信网络的框图举例。例如,电信网络300可以包括电话交换机或相应的交换系统360,电信网络中的普通电话370,基站340,基站控制器350以及其它中心设备355都可以连接到其上。移动台330可以通过基站340建立到电信网络的连接。例如,包括类似于图5中所示的后端处理部分322的解码部件320,可方便地放置于基站340中。然而,解码部件320例如也可以置于基站控制器350或者示其它中心或交换设备355中。例如,如果移动台系统在基站和基站控制器之间使用的是分开的代码转换器,,为了将由无线电信道接收的编码信号转换成在电信系统中传送的标准的64千比特/秒信号并且反之亦然,解码部件320也可以放置在这种代码转换器之中。通常,包括后端处理部分322的解码部件320可以放置于能够将编码数据流转换成非编码数据流的电信网络300中的任意一个元件中。解码部件320对来源于移动台330的编码语音信号进行解码和过滤,然后语音信号可依照通常在电信网络300中解压缩的方式进行转换。
图8为说明根据本发明所得语音编码方法500的流程图。如所示,由于输入语音信号100在步骤510上被接收,话音激活监测算法98将在步骤520上被使用来确定在当前周期中输入信号110是代表语音还是噪声。在语音周期中,处理完的仿真噪声152在步骤530上以第一缩放因子114进行缩放。在噪声或非语音周期中,处理完的仿真信号152在步骤540上以第二缩放因子进行缩放。下一个周期在步骤520上重复此操作过程。
为了提供合成语音的更高频段部分,仿真信号或随机噪声在频率范围为6.0-7.0kHz上进行过滤。然而,过滤之后的频率范围例如可以基于编解码器的采样速率而有所不同。
虽然已相对于本发明的优选实施例描述了本发明,本领域的技术人员可以理解在不偏离本发明的精神和范围的情况下,可以在其形式和细节上做出上述的以及不同的变化,省略和偏移。
Claims (25)
1.一种对输入信号(100)进行语音信号处理的方法,该输入信号(100)具有激活语音周期和非激活语音周期,并且用于提供一种具有高频部分和低频部分的合成语音信号(110),其中该输入信号在编码和语音合成过程中被分成高频带部分和低频带部分,并且其中具有低频带特性的语音相关参数(104)被用来处理仿真信号(150),用以提供处理过的仿真信号(152),处理过的仿真信号(152)用于进一步提供合成语音的高频部分(160),所述方法包括步骤:
在激活语音周期中,以第一缩放因子(114,144)缩放(530)处理过的仿真信号(152),以及
在非激活语音周期中,以第二缩放因子(114&115,144&145)缩放(540)处理过的仿真信号(152),其中第一缩放因子具有输入信号高频带的特性,同时第二缩放因子具有输入信号低频带部分的特性。
2.权利要求1所述的方法,其中处理过的仿真信号(152)被高通滤波,用于在具有合成语音的高频部分的特性的频率范围中提供滤波过的信号(154)。
3.权利要求1所述的方法,其中输入信号(100)被高通滤波,用于在具有合成语音高频部分特性的频率范围中提供滤波过的信号(112),并且其中第一缩放因子(114,144)是从滤波过的信号(112)中估算出来的。
4.权利要求3所述的方法,其中非激活语音周期包括语音释放延迟周期和舒适噪声周期,其中用于在语音释放延迟周期中缩放处理过的仿真信号(152)的第二缩放因子(114&115,144&145)是从滤波过的信号(112)中估算出来的。
5.权利要求4所述的方法,其中合成语音信号的低频部分从输入信号(100)的已编码低频带(106)中再现,并且其中用于在语音释放延迟周期中缩放处理过的仿真信号(152)的第二缩放因子(114&115,144&145)也是从合成语音的低频部分中估算出来的。
6.权利要求5所述的方法,其中用于在舒适噪声周期中缩放处理过的仿真信号(152)的第二缩放因子(114&115,144&145)是从合成语音信号的低频部分中估算出来的。
7.权利要求5所述的方法,进一步包括向接收端发送已编码比特流,用于解码的步骤,其中已编码比特流包括指示第一缩放因子(114,144)的数据。
8.权利要求7所述的方法,其中已编码比特流包括数据(118),该数据(118)指示用于在语音释放延迟周期中缩放处理过的仿真信号(152)的第二缩放因子(114&115)。
9.权利要求7所述的方法,其中用于缩放处理过的仿真信号的第二缩放因子(114&115,144&145)在接收端(34)中提供。
10.权利要求5所述的方法,其中第二缩放因子(114&115,144&145)指示从合成语音的低频部分中确定的频谱倾斜因子。
11.权利要求6所述的方法,其中用于在舒适噪声周期中缩放处理过的仿真信号的第二缩放因子(114&115,144&145)指示从合成语音的低频部分中确定的频谱倾斜因子。
12.权利要求3所述的方法,其中第一缩放因子(114,144)进一步从处理过的仿真信号(152)中估算出。
13.权利要求1所述的方法,进一步包括基于输入信号(100)提供用于监视激活语音周期和非激活语音周期的话音激活信息(190)的步骤。
14.权利要求1所述的方法,其中语音相关参数包括具有输入信号低频带特性的线性预测编码系数。
15.一个语音信号发射机和接收机系统,用于编码和解码具有激活语音周期和非激活语音周期的输入信号(100),并且用于提供一种具有高频部分和低频部分的合成语音信号(110),其中该输入信号在编码和语音合成过程中被分成高频带部分和低频带部分,其中具有输入信号低频带部分特性的语音相关参数(118,104,140,145)被用来在接收机(30)中处理仿真信号(150)来提供合成语音高频部分(160),所述系统包括:
发射机中的第一装置(12,14),响应输入信号(100),用于提供具有输入信号高频带特性的第一缩放因子(114,144);
接收机中的解码器(34),用于从发射机接收已编码的比特流,其中已编码的比特流包括语音相关参数,该相关参数包括指示第一缩放因子(114,144)的数据;以及
接收机中的第二装置(40,56),响应语音相关参数(118,145),用于提供第二缩放因子(144&145),以及在非激活语音周期中使用第二缩放因子(144&145)缩放处理过的仿真信号(152),并且在激活语音周期中使用第一缩放因子(114&144)缩放处理过的仿真信号(152),其中第一缩放因子具有输入信号高频带的特性,同时第二缩放因子具有输入信号低频带的特性。
16.权利要求15所述的系统,其中第一装置包括一个滤波装置(12),用于高通滤波输入信号,并且提供滤波过的输入信号(112),该信号具有相应于合成语音的高频部分的频率范围,同时其中从滤波过的输入信号(112)中估算出第一缩放因子(114,144)。
17.权利要求16所述的系统,进一步包括在发射机中的第三装置(16,24),用于在相应于合成信号的高频部分的频率范围内提供高通滤波的随机噪声(134),同时用于基于高通滤波随机噪声改变第一缩放因子(114,144)。
18.权利要求15所述的系统,进一步包括发射机中的话音激活检测模块(98),响应输入信号(100),用于监视激活和非激活语音周期。
19.权利要求15或17所述的系统,进一步包括发射机中的增益量化模块(18),响应第一缩放因子(114,144),用于提供已编码的第一缩放因子(118),并且将指示已编码的第一缩放因子的数据包括到用于发送的已编码比特流中。
20.一个编码器(10),用于编码具有激活语音周期和非激活语音周期的输入信号(100),并且该输入信号被分为高频带和低频带,同时用于提供已编码比特流,该已编码比特流包括具有输入信号低频带特性的语音相关参数(104),以便允许解码器(34)使用语音相关参数处理仿真信号(150),用以提供合成语音的高频部分(160),并且其中在非激活语音周期中,使用基于输入信号的低频带的第一缩放因子(114&115,144&145)缩放处理过的仿真信号(152),所述编码器包括:
高通滤波器(12),响应输入信号(100),用于对输入信号(100)进行高通滤波,用以在相应于合成语音(110)的高频部分的频率范围中提供高通滤波过的信号(112),并且基于高通滤波过的信号(112)进一步提供第二缩放因子(114,144);以及
增益量化模块(18),响应第二缩放因子(114,144),用于在已编码比特流中提供指示第二缩放因子(114,144)的已编码信号(118),以便允许解码器(34)在激活语音周期接收已编码信号,并使用第二缩放因子(114,144)缩放处理过的仿真信号(152)。
21.一个移动站(200),其被设置来发送已编码比特流至解码器(34,220),用以提供具有高频部分和低频部分的合成语音(110),其中已编码比特流包括指示输入信号(100)的语音数据,该输入信号具有激活语音周期和非激活语音周期并且被划分成高频带和低频带,其中语音数据包括具有输入信号低频带特性的语音相关参数(104),以便允许解码器(34)基于语音相关参数提供合成语音的低频部分,并且基于语音相关参数(104)着色仿真信号(150),同时基于合成语音的低频部分使用第一缩放因子(144&145)缩放着色的仿真信号(154),用于在非激活语音周期中提供合成语音的高频部分(160),所述移动站包括:
滤波器(12),响应输入信号(100),用于高通滤波相应于合成语音高频部分的频率范围的输入信号,并且用于基于高通滤波过的输入信号(112)提供第二缩放因子(114,144);以及
量化模块(18),响应第二缩放因子(114,144),用于在已编码比特流中提供指示第二缩放因子(114,144)的已编码信号(118),以便允许解码器(34)在激活语音周期中基于第二缩放因子(114,144)缩放着色的仿真信号(154)。
22.一种电信网络(300)中的元件(34,320),其被设置来接收包括指示来自移动站(330)的输入信号的语音数据的已编码的比特流,用以提供具有高频部分和低频部分的合成语音,其中输入信号具有激活语音周期和非激活语音周期,并且输入信号被分为高频带和低频带,其中语音数据(104,118,145,190)包括具有输入信号低频带特性的语音相关参数(104)和具有输入信号高频带特性的增益参数(118),并且基于语音相关参数(104)提供合成语音的低频部分,所述元件包括:
第一机构(38),响应增益参数(118),用于提供第一缩放因子(144);
第二机构(52,54),响应语音相关参数(104),用于合成和高通滤波仿真信号(150),用以提供一个合成和高通滤波过的仿真信号(154);
第三机构(40),响应第一缩放因子(144)和语音数据(145,190),用于提供组合的缩放因子(146),该组合的缩放因子包括具有输入信号高频带特性的第一缩放因子(144)、以及基于第一缩放因子(144)和具有合成语音低频部分特性的另一个语音相关参数(145)的第二缩放因子(144&145);以及
第四机构,响应于合成和高通滤波过的仿真信号(154)以及组合的缩放因子(146),用于在激活语音周期和非激活语音周期中,分别使用第一(144)和第二缩放因子(144&145)缩放合成和高通滤波过的仿真信号(154)。
23.一种解码已编码的比特流的解码器,该已编码比特流表示具有激活语音周期和非激活语音周期的输入信号,用于提供一合成语音信号,该合成语音信号具有高频部分和低频部分,其中该高频部分用仿真信号合成,并且其中该输入信号在编码和语音合成过程中被分成高频带和低频带,并且已编码比特流包括表示具有输入信号的高频带特性的语音相关参数的第一数据和具有输入信号的低频带特性的第二数据,所述解码器包括:
处理装置,用于基于第二数据处理仿真信号,以提供处理过的仿真信号;以及
缩放装置,用于在激活语音周期中以基于第一数据的第一缩放因子缩放处理过的仿真信号,以及用于在非激活语音周期中,以基于第二参数数据的第二缩放因子缩放处理过的仿真信号。
24.权利要求23的解码器,还包括:
滤波装置,响应处理过的仿真信号,用于提供具有合成语音信号的高频部分特性的频率范围内的高通滤波信号。
25.权利要求23的解码器,其中合成语音信号的低频部分从输入信号的已编码低频带中再现,并且其中用于缩放处理过的仿真信号的第二缩放因子从合成语音信号的低频部分中估算出来。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/691,440 | 2000-10-18 | ||
US09/691,440 US6615169B1 (en) | 2000-10-18 | 2000-10-18 | High frequency enhancement layer coding in wideband speech codec |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1470052A CN1470052A (zh) | 2004-01-21 |
CN1244907C true CN1244907C (zh) | 2006-03-08 |
Family
ID=24776540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB018175996A Expired - Lifetime CN1244907C (zh) | 2000-10-18 | 2001-10-17 | 宽带语音编解码器中的高频增强层编码方法和装置 |
Country Status (14)
Country | Link |
---|---|
US (1) | US6615169B1 (zh) |
EP (1) | EP1328928B1 (zh) |
JP (1) | JP2004512562A (zh) |
KR (1) | KR100547235B1 (zh) |
CN (1) | CN1244907C (zh) |
AT (1) | ATE330311T1 (zh) |
AU (1) | AU2001294125A1 (zh) |
BR (1) | BR0114669A (zh) |
CA (1) | CA2425926C (zh) |
DE (1) | DE60120734T2 (zh) |
ES (1) | ES2265442T3 (zh) |
PT (1) | PT1328928E (zh) |
WO (1) | WO2002033697A2 (zh) |
ZA (1) | ZA200302468B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105074820A (zh) * | 2013-02-21 | 2015-11-18 | 高通股份有限公司 | 用于确定内插因数组的系统和方法 |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7113522B2 (en) * | 2001-01-24 | 2006-09-26 | Qualcomm, Incorporated | Enhanced conversion of wideband signals to narrowband signals |
US7522586B2 (en) * | 2002-05-22 | 2009-04-21 | Broadcom Corporation | Method and system for tunneling wideband telephony through the PSTN |
GB2389217A (en) * | 2002-05-27 | 2003-12-03 | Canon Kk | Speech recognition system |
DE60327039D1 (de) * | 2002-07-19 | 2009-05-20 | Nec Corp | Audiodekodierungseinrichtung, dekodierungsverfahren und programm |
DE10252070B4 (de) * | 2002-11-08 | 2010-07-15 | Palm, Inc. (n.d.Ges. d. Staates Delaware), Sunnyvale | Kommunikationsendgerät mit parametrierter Bandbreitenerweiterung und Verfahren zur Bandbreitenerweiterung dafür |
US7406096B2 (en) * | 2002-12-06 | 2008-07-29 | Qualcomm Incorporated | Tandem-free intersystem voice communication |
FR2867649A1 (fr) * | 2003-12-10 | 2005-09-16 | France Telecom | Procede de codage multiple optimise |
KR100587953B1 (ko) | 2003-12-26 | 2006-06-08 | 한국전자통신연구원 | 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템 |
FI118834B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
JP4529492B2 (ja) * | 2004-03-11 | 2010-08-25 | 株式会社デンソー | 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム |
FI119533B (fi) * | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
EP1742202B1 (en) * | 2004-05-19 | 2008-05-07 | Matsushita Electric Industrial Co., Ltd. | Encoding device, decoding device, and method thereof |
EP1782419A1 (en) * | 2004-08-17 | 2007-05-09 | Koninklijke Philips Electronics N.V. | Scalable audio coding |
JP4771674B2 (ja) * | 2004-09-02 | 2011-09-14 | パナソニック株式会社 | 音声符号化装置、音声復号化装置及びこれらの方法 |
EP1806737A4 (en) * | 2004-10-27 | 2010-08-04 | Panasonic Corp | TONE CODIER AND TONE CODING METHOD |
US7386445B2 (en) * | 2005-01-18 | 2008-06-10 | Nokia Corporation | Compensation of transient effects in transform coding |
CN101180676B (zh) * | 2005-04-01 | 2011-12-14 | 高通股份有限公司 | 用于谱包络表示的向量量化的方法和设备 |
US8086451B2 (en) | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
US8249861B2 (en) * | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
US7813931B2 (en) * | 2005-04-20 | 2010-10-12 | QNX Software Systems, Co. | System for improving speech quality and intelligibility with bandwidth compression/expansion |
US8311840B2 (en) * | 2005-06-28 | 2012-11-13 | Qnx Software Systems Limited | Frequency extension of harmonic signals |
US7991611B2 (en) * | 2005-10-14 | 2011-08-02 | Panasonic Corporation | Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals |
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
JP5061111B2 (ja) * | 2006-09-15 | 2012-10-31 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
WO2008053970A1 (fr) * | 2006-11-02 | 2008-05-08 | Panasonic Corporation | Dispositif de codage de la voix, dispositif de décodage de la voix et leurs procédés |
EP2096632A4 (en) * | 2006-11-29 | 2012-06-27 | Panasonic Corp | DECODING DEVICE AND AUDIO DECODING METHOD |
CN101246688B (zh) * | 2007-02-14 | 2011-01-12 | 华为技术有限公司 | 一种对背景噪声信号进行编解码的方法、系统和装置 |
US7912729B2 (en) | 2007-02-23 | 2011-03-22 | Qnx Software Systems Co. | High-frequency bandwidth extension in the time domain |
JP5530720B2 (ja) * | 2007-02-26 | 2014-06-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 |
US20080208575A1 (en) * | 2007-02-27 | 2008-08-28 | Nokia Corporation | Split-band encoding and decoding of an audio signal |
PL2186090T3 (pl) | 2007-08-27 | 2017-06-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Detektor stanów przejściowych i sposób wspierający kodowanie sygnału audio |
CN101483495B (zh) * | 2008-03-20 | 2012-02-15 | 华为技术有限公司 | 一种背景噪声生成方法以及噪声处理装置 |
JP5010743B2 (ja) * | 2008-07-11 | 2012-08-29 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | スペクトル傾斜で制御されたフレーミングを使用して帯域拡張データを計算するための装置及び方法 |
CN101751926B (zh) * | 2008-12-10 | 2012-07-04 | 华为技术有限公司 | 信号编码、解码方法及装置、编解码系统 |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8798290B1 (en) * | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
WO2012000882A1 (en) * | 2010-07-02 | 2012-01-05 | Dolby International Ab | Selective bass post filter |
JP5552988B2 (ja) * | 2010-09-27 | 2014-07-16 | 富士通株式会社 | 音声帯域拡張装置および音声帯域拡張方法 |
EP2681734B1 (en) * | 2011-03-04 | 2017-06-21 | Telefonaktiebolaget LM Ericsson (publ) | Post-quantization gain correction in audio coding |
JP5596618B2 (ja) * | 2011-05-17 | 2014-09-24 | 日本電信電話株式会社 | 擬似広帯域音声信号生成装置、擬似広帯域音声信号生成方法、及びそのプログラム |
CN102800317B (zh) * | 2011-05-25 | 2014-09-17 | 华为技术有限公司 | 信号分类方法及设备、编解码方法及设备 |
CN103187065B (zh) | 2011-12-30 | 2015-12-16 | 华为技术有限公司 | 音频数据的处理方法、装置和系统 |
US9460729B2 (en) | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
CA2894625C (en) * | 2012-12-21 | 2017-11-07 | Anthony LOMBARD | Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals |
MY178710A (en) | 2012-12-21 | 2020-10-20 | Fraunhofer Ges Forschung | Comfort noise addition for modeling background noise at low bit-rates |
CN105976830B (zh) * | 2013-01-11 | 2019-09-20 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
US9812144B2 (en) * | 2013-04-25 | 2017-11-07 | Nokia Solutions And Networks Oy | Speech transcoding in packet networks |
US9570093B2 (en) * | 2013-09-09 | 2017-02-14 | Huawei Technologies Co., Ltd. | Unvoiced/voiced decision for speech processing |
MY180722A (en) * | 2013-10-18 | 2020-12-07 | Fraunhofer Ges Forschung | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
CA2927722C (en) * | 2013-10-18 | 2018-08-07 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
EP2980790A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for comfort noise generation mode selection |
DE112016000545B4 (de) | 2015-01-30 | 2019-08-22 | Knowles Electronics, Llc | Kontextabhängiges schalten von mikrofonen |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6011360B2 (ja) * | 1981-12-15 | 1985-03-25 | ケイディディ株式会社 | 音声符号化方式 |
JP2779886B2 (ja) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
EP0732687B2 (en) * | 1995-03-13 | 2005-10-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for expanding speech bandwidth |
DE69620967T2 (de) * | 1995-09-19 | 2002-11-07 | At & T Corp., New York | Synthese von Sprachsignalen in Abwesenheit kodierter Parameter |
KR20000047944A (ko) | 1998-12-11 | 2000-07-25 | 이데이 노부유끼 | 수신장치 및 방법과 통신장치 및 방법 |
-
2000
- 2000-10-18 US US09/691,440 patent/US6615169B1/en not_active Expired - Lifetime
-
2001
- 2001-10-17 ES ES01974612T patent/ES2265442T3/es not_active Expired - Lifetime
- 2001-10-17 BR BR0114669-6A patent/BR0114669A/pt active IP Right Grant
- 2001-10-17 CA CA002425926A patent/CA2425926C/en not_active Expired - Lifetime
- 2001-10-17 WO PCT/IB2001/001947 patent/WO2002033697A2/en active IP Right Grant
- 2001-10-17 CN CNB018175996A patent/CN1244907C/zh not_active Expired - Lifetime
- 2001-10-17 JP JP2002537004A patent/JP2004512562A/ja active Pending
- 2001-10-17 AT AT01974612T patent/ATE330311T1/de not_active IP Right Cessation
- 2001-10-17 EP EP01974612A patent/EP1328928B1/en not_active Expired - Lifetime
- 2001-10-17 KR KR1020037005299A patent/KR100547235B1/ko active IP Right Grant
- 2001-10-17 AU AU2001294125A patent/AU2001294125A1/en not_active Abandoned
- 2001-10-17 DE DE60120734T patent/DE60120734T2/de not_active Expired - Lifetime
- 2001-10-17 PT PT01974612T patent/PT1328928E/pt unknown
-
2003
- 2003-03-28 ZA ZA200302468A patent/ZA200302468B/en unknown
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105074820A (zh) * | 2013-02-21 | 2015-11-18 | 高通股份有限公司 | 用于确定内插因数组的系统和方法 |
CN105074820B (zh) * | 2013-02-21 | 2019-01-15 | 高通股份有限公司 | 用于确定内插因数组的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
US6615169B1 (en) | 2003-09-02 |
CN1470052A (zh) | 2004-01-21 |
KR20030046510A (ko) | 2003-06-12 |
AU2001294125A1 (en) | 2002-04-29 |
EP1328928A2 (en) | 2003-07-23 |
ES2265442T3 (es) | 2007-02-16 |
KR100547235B1 (ko) | 2006-01-26 |
PT1328928E (pt) | 2006-09-29 |
DE60120734T2 (de) | 2007-06-14 |
CA2425926A1 (en) | 2002-04-25 |
WO2002033697A3 (en) | 2002-07-11 |
ATE330311T1 (de) | 2006-07-15 |
DE60120734D1 (de) | 2006-07-27 |
BR0114669A (pt) | 2004-02-17 |
WO2002033697A2 (en) | 2002-04-25 |
CA2425926C (en) | 2009-01-27 |
JP2004512562A (ja) | 2004-04-22 |
ZA200302468B (en) | 2004-03-29 |
EP1328928B1 (en) | 2006-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1244907C (zh) | 宽带语音编解码器中的高频增强层编码方法和装置 | |
JP4390803B2 (ja) | 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置 | |
CN1154086C (zh) | Celp转发 | |
CA2923218C (en) | Adaptive bandwidth extension and apparatus for the same | |
JP2006525533A5 (zh) | ||
CN1334952A (zh) | 用于改善编码通信信号性能的编码增强特性 | |
CN1152776A (zh) | 复制语言信号、解码语音、合成语音的方法和装置 | |
KR20030046451A (ko) | 음성 코딩을 위한 코드북 구조 및 탐색 방법 | |
CN1692408A (zh) | 码分多址无线系统的可变比特率宽带语音编码中的有效带内半空白-突发序列信令及半速率最大操作的方法和装置 | |
CN1470050A (zh) | 可感知地改善的编码声信号的增强 | |
EP2132731B1 (en) | Method and arrangement for smoothing of stationary background noise | |
CN101281749A (zh) | 可分级的语音和乐音联合编码装置和解码装置 | |
CN104517612A (zh) | 基于amr-nb语音信号的可变码率编码器和解码器及其编码和解码方法 | |
CN112614495A (zh) | 一种软件无线电多制式语音编解码器 | |
EP2951824A2 (en) | Adaptive high-pass post-filter | |
CN102254562B (zh) | 一种相邻高低速率编码模式间切换的变速率音频编码方法 | |
EP1397655A1 (en) | Method and device for coding speech in analysis-by-synthesis speech coders | |
KR100718487B1 (ko) | 디지털 음성 코더들에서의 고조파 잡음 가중 | |
JP2002169595A (ja) | 固定音源符号帳及び音声符号化/復号化装置 | |
JPH08160996A (ja) | 音声符号化装置 | |
KR100389898B1 (ko) | 음성부호화에 있어서 선스펙트럼쌍 계수의 양자화 방법 | |
KR100296409B1 (ko) | 다중펄스여기음성부호화방법 | |
Liang et al. | A new 1.2 kb/s speech coding algorithm and its real-time implementation on TMS320LC548 | |
Al-Akaidi | Simulation support in the search for an efficient speech coder | |
JPH09269798A (ja) | 音声符号化方法および音声復号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20160120 Address after: Espoo, Finland Patentee after: Technology Co., Ltd. of Nokia Address before: Espoo, Finland Patentee before: Nokia Oyj |
|
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20060308 |