CN1118914A - 激励参数判定方法 - Google Patents
激励参数判定方法 Download PDFInfo
- Publication number
- CN1118914A CN1118914A CN95103849A CN95103849A CN1118914A CN 1118914 A CN1118914 A CN 1118914A CN 95103849 A CN95103849 A CN 95103849A CN 95103849 A CN95103849 A CN 95103849A CN 1118914 A CN1118914 A CN 1118914A
- Authority
- CN
- China
- Prior art keywords
- band signal
- signal
- correction
- sounding
- band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005284 excitation Effects 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000012937 correction Methods 0.000 claims description 71
- 239000002131 composite material Substances 0.000 claims description 14
- 239000012141 concentrate Substances 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 18
- 238000005070 sampling Methods 0.000 description 15
- 230000009466 transformation Effects 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000009897 systematic effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- BWDHKWDASNPZLC-GQCTYLIASA-N (1E)-2-methylpropanal O-methyloxime Chemical compound CO\N=C\C(C)C BWDHKWDASNPZLC-GQCTYLIASA-N 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 235000018084 Garcinia livingstonei Nutrition 0.000 description 1
- 240000007471 Garcinia livingstonei Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明是一种通过分析数字化语言信号以确定其激励参数的语音编码的方法,该方法包括将该数字化语言信号分成至少两个频带,对至少一个频带执行非线性运算,以产生一修正的频带,和对该修正的频带是发声或是不发声进行判决。该方法应用在语言编码中。
Description
本发明涉及语言分析与合成中一种改进的估计数字化语言信号激励参数的方法,特别涉及对其估计准确度的改进。
语言分析与合成被广泛地使用在诸如电信和话音识别等各种应用中。声码器,是一个典型的语言分析/合成系统,根据系统在短时间间隔期间对激励的响应建立语言模型。声码器系统的例子包括线性预测声码器,同态声码器,信道声码器,正弦变换编码器(“STC”),多频带激励(“MBE”)声码器,和改进的多频带激励(“IMBE”)声码器。
典型地,声码器根据激励参数和系统参数来合成语言。例如,利用汉明窗对输入信号进行分段。然后,对每个分段确定其系统参数和激励参数。系统参数包括频谱包络或系统的脉冲响应。激励参数包括发声/不发声判定,用来表示输入信号是否具有音调和基频(或音调)。在把语言分成多个频带的声码器中,例如IBME(TM)声码器,激励参数还可以包括用于每个频带的发声/不发声判定,而不是一个单一的发声/不发声判定。准确的激励参数是高质量语言合成的基础。
激励参数也可以应用在其它方面,例如可使用在无需语言合成的语言识别中。同样地,激励参数的准确度直接影响到这类系统的性能。
本发明的目的在于对语言信号提供一种非线性运算,以强调该语言信号的基频,从而改进判定基频和其它激励参数的准确度。在判定激励参数的典型方法中,模拟语言信号S(t)被取样以生成语言信号S(n)。然后该语言信号与一个窗函数W(n)相乘生成一个加窗信号Sw(n),通常它被称作一个语言段或一个语言帧。然后对加窗信号Sw(n)执行付里叶变换以生成频谱Sw(ω),根据该频谱对激励参数进行制定。
当语言信号S(n)是周期性的具有基频ω0或音调周期n0(这里n0=2π/ω0)时,语言信号S(n)的频谱应是在ω0和在其谐波(ω0的整数倍)处具有能量的线状谱。正如所料,Sw(ω)具有以ω0和其谐波为中心的频峰。然而,由于开窗运算,该谱峰包括一定宽度,该宽度取决于窗W(n)的长度和形状,并随着窗W(n)的长度的增长而趋于减小。这种窗致差错降低了激励参数的准确度。于是,为了减小谱峰的宽度,和由此增加该激励参数的准确度,窗W(n)的长度应该做的要可能长些。
窗W(n)的最大有用长度受到限制。语言信号并不是标准信号,而是具有在整个时间变化的多个基频。为了获得有意义的激励参数,一个被分析的语言段必须具有一个基本上不变的基频。这样,窗W(n)的长度必须短到足以确保该基频在该窗口内将不会较大地改变。
除了对窗W(n)的最大长度进行限制外,变化的基频有助于加宽该谱峰。这种加宽效果随着提高频率而增加。例如,如果在该窗期间该基频变化△ω0,则第m次谐波的频率(具有频率mω0)变化m△ω0,以使相应于mω0的谱峰被展宽超过相应于ω0的频峰。这种增加的较高次谐波的展宽降低了较高次谐波在基频估计中和在高频段发声/不发声判定的产生中的有效性。
本发明通过采用非线性运算,使对变化基频的较高次谐波增加的影响被降低或消除,使较高次谐波较好地实现基频的估计和对发声/不发声判决的确定。合适的非线性运算从复数(或实数)变换到实数值,并产生作为复数(或实数)值大小的非减函数的输出。这样的运算例如包括绝对值,绝对值平方,绝对值若干次方,或绝对值的对数。
非线性运算趋于在它们的输入信号的基频处产生具有谱峰的输出信号。这是符合实际的,即使当输入信号在该基频没有谱峰时。例如,如果一个仅通过ω0的第三和第五次谐波之间区域的频率的带通滤波器被用到一个语言信号S(n)上,该带通滤波器的输出X(n)在3ω0、4ω0和5ω0处将具有谱峰。
虽然X(n)在ω0并不具有谱峰,但|X(n)|2将有这样一个峰值。实信号X(n),|X(n)|2相等于X2(n)。正如所知,X2(n)的付里叶变换是X(ω)的卷积,X(n)的付里叶变换,用X(ω)表示: X(ω)与X(ω)的卷积在这样一些频率处具有谱峰,即这些频率相等于使X(ω)具有谱峰的各频率之间的频率差。一个周期信号的谱峰之间的差是基频和它的倍频。于是,在其中X(ω)在3ω0、4ω0和5ω0具有谱峰的例子中,与X(ω)卷积的X(ω)在ω0(4ω0-3ω0,5ω0-4ω0)处具有一个谱峰。对于典型的周期信号来说,在基频处的谱峰可能将是最显著的。
以上讨论也适用于复数信号。对于一个复数信号X(n),|X(n)|2的付里叶变换为: 这是X(ω)与X*(ω)的自相关,并且还具有按nω0分开的谱峰在nω0产生峰值的性质。
即使|X(n)|,对于某一实数“a”的|X(n)|a和log|X(n)|与|X(n)|2不同,但上述对|X(n)|2的讨论在性质上近似地适用。例如,对于|X(n)|=Y(n)0.5,这里Y(n)=|X(n)|2,则Y(n)的泰勒级数展开可表示为: 图为相乘是相关的,所以信号Yk(n)的付里叶变换是Yk-1(n)的付里叶变换与Y(ω)的卷积。不同于|X(n)|2的非线性运算的性质可以通过观察Y(ω)与其自身的多重卷积的性质从|X(n)|2中推导出。如果Y(ω)在nω0有峰值,则Y(ω)与其自身的多重卷积在nω0也具有峰值。
正如所示,非线性运算强调周期信号的基频,并且当该周期信号在较高次谐波处具有很大能量时特别有用。
按照本发明的方法,输入信号的激励参数通过把该输入信号分成至少两个频带信号来产生。之后,在至少一个频带信号上执行非线性运算,以产生至少一个修正的频带信号。最后,对每个修正的频带信号作出关于其是发声或是不发声的判决。典型地,定期作出发声/不发声判决。
为了判决一修正的频带信号是发声或是不发声,对发声的能量(典型地,全部能量的一部分可归因于该修正的频带信号的基频和该被估计基频的任何谐波)和该修正的频带信号的全部能量进行计算。通常0.5ω0以下的频率不包括在全部能量之内,因为包括这些频率会降低其性能。当修正的频带信号的发声能量超过该修正的频带信号的全部能量的一预定百分比时,则认为该修正的频带信号发声,否则,认为不发声。当该修正的频带信号被认为是发声的时,根据发声能量与全部能量的比率对发声的程度进行估计。该发声能量也可根据该修正的频带信号与其自身的相关,或与另一修正的频带信号的相关来判定。
为了减少计算总量或为了减小参数的数量,在作出发声/不发声判决之前可将一集(set)修正的频带信号转换成典型较小的另一集修正的频带信号。例如,来自第一集的两个修正的频带信号能被组合成在第二集中的一个单一的修正的频带信号。
本发明能够对数字化语言的基频进行估计。这种估计经常包括将一修正的频带信号与至少一另外的频带信号(它可以被修正或未被修正)相组合,和对该合成组合信号的基频进行估计。于是,例如当对至少两个频带信号执行非线性运算以产生至少两个修正的频带信号时,该修正的频带信号能被组合成一个信号,并能产生该信号基频的一个估计。修正的频带信号可通过求和进行组合。在本发明另一种方法中,能对每个修正的频带信号确定其信噪比,并能产生一个加权组合,以使具有高信噪比的修正的频带信号对该信号的影响比具有低信噪比的修正的频带信号要大。
本发明的方法在于使用了非线性运算,以改进基频估计的准确度。对输入信号执行非线性运算,以产生一个修正的信号,根据该修正的信号对基频进行估计。在本发明的方法中,该输入信号被至少分成两个频带信号。接着,对这些频带信号执行非线性运算以产生修正的频带信号。最后,将修正的频带信号组合产生一个组合信号,根据该组合信号对基频进行估计。
通过下面对最佳实施例结合附图的详细说明使本发明的其它特征和优点将变得更明显。
附图简要说明
图1是一个用于判定一个信号的频带是否发声的系统的方框图。
图2~3是基频估计单元的方框图。
图4是图1的系统的一个信道处理单元的方框图。
图5是另一个用于判定一信号的频带是发声或不发声的系统的方框图。
图1~5示出一个用于判定一信号的频带是发声或不发声的系统的结构,图中的各个方框和单元最好用软件实现。
参考图1,在发声/不发声判定系统10中,取样单元12对模拟语言信号S(t)取样,以生成语言信号S(n)。对于典型的语言编码应用,该取样速率范围在6KHz和10KHz之间。
信道处理单元14将语言信号S(n)分成至少两个频带,并对这些频带进行处理以生成第一集被标记为T0ω......TIω的频带信号。如下所述,各信道处理单元14的差别在于每个信道单元14的第一级中使用的一个带通滤波器的参数。在该最佳实施例中,有16个信道处理单元(I=15)。
一个二次变换单元16对第一集频带信号进行转换以生成第二集频带信号,被标记为U0(ω)......UK(ω)。在该优选实施例中,第二集频带信号中具有11个频带信号(K=10)。于是,二次变换单元16把来自16个信道处理单元14的频带信号变换成11个频带信号。二次变换单元16是这样做的,即把第一集(set)频带信号的低频成分T0(ω)......T5(ω)直接变换成第二集频带信号U0(ω)......U5(ω)。然后,二次变换单元16把来自第一集的其余数对频带信号组合成第二集中的单一的频带信号。例如,T6(ω)和T7(ω)组合生成U6(ω)。而T14(ω)和T15(ω)组合生成U10(ω)。其它二次变换的方法也可以使用。
接着,发声/不发声判决单元18(它们每个与来自第二集的一个频带信号相关联)判决各频带信号是发声或是不发声,并产生表示这些判决结果的输出信号(V/UV0......V/UVk)。每个判决单元18计算其相关联的频带信号的发声能量与该频带信号的全部能量的比率。当该比率超过一预定阀值时,判决单元18认为该频带信号发声。否则,判决单元18认为该频带信号不发声。
各判决单元18按下式计算与其相关联的频带信号的发声能量: 其中 In=[(n-0.25)ω0,(n+0.25)ω0],ω0是基频的一个估计值(按如下描述产生),N是所考虑的基频ω0的谐波的数量。各判决单元18按下式计算与其相关联的频带信号的全部能量:
在本发明的方法中,不同于仅判决频带信号是发声或是不发声,判决单元18判决频带信号发声的等级。类似于上述发声/不发声判决,发声的等级是发声能量与全部能量之比率的函数,当该比率接近于1时,该频带信号完全发声;当该比率小于或等于1/2小时,该频带信号完全不发声;而当该比率是在1/2与1之间时,该频带信号发声达到一由该比率所指示的等级。
参考图2,一个基频估计单元20包括组合单元22和估计器24。组合单元22对各信道处理单元14(图1)的Ti(ω)输出求和,以产生X(ω)。在一个可替换的方案中,组合单元22能够对每个信道处理单元14的输出估计信噪比(SNR)和对各个输出加权,以使具有较高SNR的输出比具有较低SNR的输出对X(ω)的贡献大。
然后,估计器24通过选择使X(ω0)在整个从ωmin到ωmax期间最大的ω0的值对基频(ω0)进行估计。因为X(ω)仅在ω的离散取样处有效,所以X(ω0)接近ω0的抛物型内插被用来改进估计的准确度。估计器24通过组合靠近X(ω)的带宽内之ω0的N个谐波的峰值的抛物型估计,进一步改进了基频估计的准确度。一旦基频的一个估计被确定,发声能量Ev(ω0)按下式计算: 其中 In=[(n-0.25)ω0,(n+0.25)ω0].随后,计算发声能量Ev(0.5ω0)将其与Ev(ω0)比较,以在ω0与0.5ω0之间选择作为该基频的最终估计。
参考图3,一个替换的基频估计单元26包括一个非线性运算单元28,一个开窗和快速种里叶变换(FFT)单元30,和一个估计器32。非线性运算单元28对S(n)执行非线性运算,绝对值平方,以强调(emphasize)S(n)的基频,和当估计ω0时便于发声能量的判决。
开窗和FFT单元30乘以非线性运算单元28的输出,以将其分段并计算该结果乘积的FFT,Xω0。最后,估计器32(它与估计器24一样地工作)生成基频的一个估计。
参考图4,当语言信号S(n)进入一信道处理单元14时,属于一特定频带的成分Si(n)由带通滤波器34隔离。带通滤波器34利用了下降取样(downsampling)以减少计算上的要求,并且这样做不会对系统性能有任何显著的影响。带通滤波器34可按有限脉冲响应(FIR)或无限脉冲响应(IIR)滤波器实现,或利用FFT来实现。带通滤波器34利用32点实数输入FFT来实现,以计算一个32点FIR滤波器在17个频率处的输出,和通过每次计算FFT移动输入语言取样完成下降取样。例如,如果第一次FFT使用了取样1至32,则在第二次FFT中通过使用取样11至42可获得下降取样因子为10。
第一非线性运算单元36然后对隔离的频带Si(n)执行一非线性运算,以强调该隔离的频带Si(n)的基频。例如,使用了Si(n)(i大于0)的值,绝对值,|Si(n)|。对于S0(n)的实数值,如果S0(n)大于零,则使用S0(n),如果S0(n)小于或等于零,则使用零。
非线性运算单元36的输出通过一个低通滤波和下降取样单元38,以降低数据速率,从而降低该系统后面各部件计算上的要求。该低通滤波和下降取样单元38使用了对于下降取样因子为2计算每隔一个取样的一个7点FIR滤波器。
开窗和FFT单元40通过一个窗口乘以低通滤波和下降取样单元38的输出,并计算该乘积的一个实数输入FFT,Si(ω)。
最后,第二非线性运算单元42对Si(ω)执行一非线性运算,以利于对发声或全部能量的估计和如果使用在基频估计中时以确保各信道处理单元14的输出,Ti(ω)构成性地组合。使用了求绝对值平方是因为它会使Ti(ω)的所有成份都变为实数且为正数。
其它实施例包括进下列的权利要求中。例如,参考图5,一个替换的发声/不发声判决系统44包括一个取样单元12,多个信道处理单元14,一个二次变换单元16,和多个与发声/不发声判决系统10中相应单元同样工作的发声/不发声判决单元18。然而,因为非线性运算最有利地适用于高频带,所以判决系统44仅在与各高频对应的频带使用了信道处理单元14,和在与各低频对应的频带使用了信道转换单元46。不同于对输入信号实施非线性运算的情况,信道转换单元46按照产生频带信号的公知技术处理输入信号。例如,一个信道转换单元46可以包括一个带通滤波器和一个开窗和FFT单元。
在一个可替换的方案中,图4的开窗和FFT单元40和非线性运算单元42能够由一个开窗和自相关单元所取代,然后,根据该自相关计算发声能量和全部能量。
Claims (35)
1、一种分析数字化语言信号以确定该数字化语言信号的激励参数的方法,其特征在于,包括下列步骤:
将所述数字化语言信号分成至少两个频带信号;
对至少一个频带信号执行一非线性运算以产生至少一个修正的频带信号;和
对于至少一个修正的频带信号,判决其是发声或是不发声。
2、根据权利要求1的方法,其特征在于,所述判决步骤以定期的时间间隔执行。
3、根据权利要求1的方法,其特征在于,按照编码语言中的步骤对所述数字化语言信号进行分析。
4、根据权利要求1的方法,其特征在于,进一步包括对所述数字化语言的基频进行估计的步骤。
5、根据权利要求1的方法,其特征在于,进一步包括对至少一个所述修正的频带信号的基频进行估计的步骤。
6、根据权利要求1的方法,其特征在于,进一步包括下列步骤:
把一所述修正的频带信号与至少一个另外的频带信号相组合以产生一组合信号;和
对所述组合信号的基频进行估计。
7、根据权利要求1的方法,其特征在于,执行步骤至少在两个频带信号上执行以产生至少两个修正的频带信号,和所述组合步骤包括组合至少两个修正的频带信号。
8、根据权利要求6的方法,其特征在于,所述组合步骤包括对修正的频带信号和至少一个另外的频带信号求和以产生组合信号。
9、根据权利要求6的方法,其特征在于,进一步包括判决修正的频带信号和至少一个另外的频带信号的信噪比的步骤,和其中所述组合步骤包括对所述修正的频带信号和至少一个另外的频带信号进行加权以产生组合信号,以使具有高信噪比的频带信号比具有低信噪比的频带信号对组合信号的贡献大。
10、根据权利要求6的方法,其特征在于,所述判决步骤包括:
判决所述修正的频带信号的发声能量;
判决所述修正的频带信号的全部能量;
当所述修正的频带信号的发声能量超过其全部能量的一个预定百分比时,认为所述修正的频带信号为发声的;和
当所述修正的频带信号的发声能量等于或小于其全部能量的所述预定百分比时,认为所述修正的频带信号是不发声的。
11、根据权利要求10的方法,其特征在于,所述发声能量被归因于所述修正的频带信号的被估计的基频和所述被估计的基频的任何谐波的总能量的一部分。
12、根据权利要求1的方法,其特征在于,所述判决步骤包括:
判决所述修正的频带信号的发声能量;
判决所述修正的频带信号的全部能量;
当所述修正的频带信号的发声能量超过其全部能量的一个预定百分比时,认为所述修正的频带信号为发声的;和
当所述修正的频带信号的发声能量等于或小于其全部能量的所述预定的百分比时,认为所述修正的频带信号是不发声的。
13、根据权利要求12的方法,其特征在于,所述修正的频带信号的发声能量是从所述修正的频带信号与其自身的相关或与另一修正的频带信号的相关中被导出。
14、根据权利要求12的方法,其特征在于,当所述修正的频带信号被认为是发声的时,所述判决步骤进一步包括通过把所述修正的频带信号的发声能量与修正频带信号的总能量相比较对所述修正的频带信号的发声程度进行估计。
15、根据权利要求1的方法,其特征在于,所述执行步骤包括对所有频带信号执行一非线性运算,以使由所述执行步骤产生的修正的频带信号的数量等于由所述分开步骤产生的频带信号的数量。
16、根据权利要求1的方法,其特征在于,所述执行步骤包括仅对一部分频带信号执行一非线性运算,以使由所述执行步骤产生的修正的频带信号的数量小于由分开步骤产生的频带信号的数量。
17、根据权利要求16的方法,其特征在于,执行非线性运算的频带信号与未执行非线性运算的频带信号相比较,前者对应于高的频率。
18、根据权利要求17的方法,其特征在于,进一步包括对于未对其执行非线性运算的频带信号,判决所述频带信号是发声或是不发声的步骤。
19、根据权利要求1的方法,其特征在于,所述非线性运算是绝对值。
20、根据权利要求1的方法,其特征在于,所述非线性运算是绝对值平方。
21、根据权利要求1的方法,其特征在于,所述非线性运算是相应于实数的绝对值平方。
22、根据权利要求1的方法,其特征在于,进一步包括下列步骤:
对至少两个频带信号执行非线性运算,以产生第一集修正的频带信号;
把第一集修正的频带信号转换成第二集中至少一个修正的频带信号;
对于第二集中的至少一个修正的频带信号,判决所述修正的频带信号是发声或是不发声。
23、根据权利要求22的方法,其特征在于,所述转换步骤包括组合来自第一集的至少两个修正的频带信号,以生成第二集中的一个单一修正的频带信号。
24、根据权利要求22的方法,其特征在于,进一步包括估计数字化语言的基频的步骤。
25、根据权利要求22的方法,其特征在于,进一步包括下列步骤:
把来自第二集的修正的频带信号的一个修正的频带信号与至少一个另外的频带信号组合,以生成一个组合信号;和
估计所述组合信号的基频。
26、根据权利要求22的方法,其特征在于,所述判决步骤包括:
判决所述修正的频带信号的发声能量;
判决所述修正的频带信号的全部能量;
当所述修正的频带信号的发声能量超过修正频带信号全部能量的一个预定百分比时,认为所述修正的频带信号为发声的,和
当所述修正的频带信号的发声能量等于或小于修正频带信号全部能量的所述预定百分比时,认为所述修正的频带信号是不发声的。
27、根据权利要求26的方法,其特征在于,当所述修正的频带信号被认为是发声的时,所述判决步骤进一步包括通过把所述修正的频带信号的发声能量与修正频带信号总能量相比较对所述修正的频带信号的发声程度进行估计。
28、根据权利要求1的方法,其特征在于,进一步包括对激励参数中的一部分编码的步骤。
29、一种分析数字化语言信号以确定所述数字化语言信号的激励参数的方法,其特征在于,包括下列步骤:
将输入信号分成至少两个频带信号;
对至少一个频带信号执行一非线性运算,以产生第一修正的频带信号;
把所述第一修正的频带信号与至少一个另外的频带信号组合,以生成一个组合的频带信号,和
对所述组合的频带信号的基频进行估计。
30、一种分析数字化语言信号以确定所述数字化语言信号的激励参数的方法,其特征在于,包括下列步骤:
将所述数字化语言信号分成至少两个频带信号;
对至少一个频带信号执行一非线性运算,以产生至少一个修正的频带信号,
对至少一个修正的频带信号的基频进行估计。
31、一种分析数字化语言信号以确定所述数字化语言信号的基频的方法,其特征在于,包括下列步骤:
将所述数字化语言信号分成至少两个频带信号;
对至少两个频带信号执行一非线性运算,以生成至少两个修正的频带信号;
对所述至少两个修正的频带信号组合,以产生一个组合信号;和
对所述组合信号的基频进行估计。
32、一种语言编码系统,其通过分析数字化语言信号以确定其激励参数,其特征在于,包括:
用于将所述数字化语言信号分成至少两个频带信号的装置;
用于对至少一个频带信号执行一非线性运算以产生至少一个修正的频带信号的装置;和
对于至少一修正的频带信号,判决其是发声或是不发声的装置。
33、根据权利要求32的系统,其特征在于,进一步包括:
用于把至少一个所述修正的频带信号与至少一个另外的频带信号组合以生成一个组合信号的装置;和
用于对所述组合信号的基频进行估计的装置。
34、根据权利要求32的系统,其特征在于,执行装置包括仅对所述频带信号中的一部分执行非线性运算的装置,以使由执行装置产生的修正的频带信号的数量小于由分开装置产生的频带信号的数量。
35、根据权利要求34的系统,其特征在于,执行装置对其执行非线性运算的频带信号对应于此执行装置未对其执行非线性运算的频带信号有着高的频率。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/222,119 | 1994-04-04 | ||
US08/222,119 US5715365A (en) | 1994-04-04 | 1994-04-04 | Estimation of excitation parameters |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1118914A true CN1118914A (zh) | 1996-03-20 |
CN1113333C CN1113333C (zh) | 2003-07-02 |
Family
ID=22830914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN95103849A Expired - Lifetime CN1113333C (zh) | 1994-04-04 | 1995-04-03 | 激励参数判定方法及其语言编码系统 |
Country Status (9)
Country | Link |
---|---|
US (1) | US5715365A (zh) |
EP (1) | EP0676744B1 (zh) |
JP (1) | JP4100721B2 (zh) |
KR (1) | KR100367202B1 (zh) |
CN (1) | CN1113333C (zh) |
CA (1) | CA2144823C (zh) |
DE (1) | DE69518454T2 (zh) |
DK (1) | DK0676744T3 (zh) |
NO (1) | NO308635B1 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
JP4121578B2 (ja) * | 1996-10-18 | 2008-07-23 | ソニー株式会社 | 音声分析方法、音声符号化方法および装置 |
US5839098A (en) | 1996-12-19 | 1998-11-17 | Lucent Technologies Inc. | Speech coder methods and systems |
US6070137A (en) * | 1998-01-07 | 2000-05-30 | Ericsson Inc. | Integrated frequency-domain voice coding using an adaptive spectral enhancement filter |
US6192335B1 (en) * | 1998-09-01 | 2001-02-20 | Telefonaktieboiaget Lm Ericsson (Publ) | Adaptive combining of multi-mode coding for voiced speech and noise-like signals |
US6604071B1 (en) * | 1999-02-09 | 2003-08-05 | At&T Corp. | Speech enhancement with gain limitations based on speech activity |
US6253171B1 (en) * | 1999-02-23 | 2001-06-26 | Comsat Corporation | Method of determining the voicing probability of speech signals |
US6975984B2 (en) * | 2000-02-08 | 2005-12-13 | Speech Technology And Applied Research Corporation | Electrolaryngeal speech enhancement for telephony |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
US7970606B2 (en) | 2002-11-13 | 2011-06-28 | Digital Voice Systems, Inc. | Interoperable vocoder |
US7634399B2 (en) * | 2003-01-30 | 2009-12-15 | Digital Voice Systems, Inc. | Voice transcoder |
US8359197B2 (en) | 2003-04-01 | 2013-01-22 | Digital Voice Systems, Inc. | Half-rate vocoder |
US7698949B2 (en) * | 2005-09-09 | 2010-04-20 | The Boeing Company | Active washers for monitoring bolted joints |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
US8036886B2 (en) * | 2006-12-22 | 2011-10-11 | Digital Voice Systems, Inc. | Estimation of pulsed speech model parameters |
GB0822537D0 (en) * | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
GB2466201B (en) * | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
US8600737B2 (en) | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
JP5552988B2 (ja) * | 2010-09-27 | 2014-07-16 | 富士通株式会社 | 音声帯域拡張装置および音声帯域拡張方法 |
US11295751B2 (en) * | 2019-09-20 | 2022-04-05 | Tencent America LLC | Multi-band synchronized neural vocoder |
US11270714B2 (en) | 2020-01-08 | 2022-03-08 | Digital Voice Systems, Inc. | Speech coding using time-varying interpolation |
US11990144B2 (en) | 2021-07-28 | 2024-05-21 | Digital Voice Systems, Inc. | Reducing perceived effects of non-voice data in digital speech |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3706929A (en) * | 1971-01-04 | 1972-12-19 | Philco Ford Corp | Combined modem and vocoder pipeline processor |
US3982070A (en) * | 1974-06-05 | 1976-09-21 | Bell Telephone Laboratories, Incorporated | Phase vocoder speech synthesis system |
US3975587A (en) * | 1974-09-13 | 1976-08-17 | International Telephone And Telegraph Corporation | Digital vocoder |
US3995116A (en) * | 1974-11-18 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Emphasis controlled speech synthesizer |
US4004096A (en) * | 1975-02-18 | 1977-01-18 | The United States Of America As Represented By The Secretary Of The Army | Process for extracting pitch information |
JPS6051720B2 (ja) * | 1975-08-22 | 1985-11-15 | 日本電信電話株式会社 | 音声の基本周期抽出装置 |
US4091237A (en) * | 1975-10-06 | 1978-05-23 | Lockheed Missiles & Space Company, Inc. | Bi-Phase harmonic histogram pitch extractor |
US4015088A (en) * | 1975-10-31 | 1977-03-29 | Bell Telephone Laboratories, Incorporated | Real-time speech analyzer |
JPS597120B2 (ja) * | 1978-11-24 | 1984-02-16 | 日本電気株式会社 | 音声分析装置 |
FR2494017B1 (fr) * | 1980-11-07 | 1985-10-25 | Thomson Csf | Procede de detection de la frequence de melodie dans un signal de parole et dispositif destine a la mise en oeuvre de ce procede |
ATE15415T1 (de) * | 1981-09-24 | 1985-09-15 | Gretag Ag | Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung. |
US4441200A (en) * | 1981-10-08 | 1984-04-03 | Motorola Inc. | Digital voice processing system |
US4509186A (en) * | 1981-12-31 | 1985-04-02 | Matsushita Electric Works, Ltd. | Method and apparatus for speech message recognition |
EP0092612B1 (en) * | 1982-04-27 | 1987-07-08 | Koninklijke Philips Electronics N.V. | Speech analysis system |
FR2544901B1 (fr) * | 1983-04-20 | 1986-02-21 | Zurcher Jean Frederic | Vocodeur a canaux muni de moyens de compensation des modulations parasites du signal de parole synthetise |
AU2944684A (en) * | 1983-06-17 | 1984-12-20 | University Of Melbourne, The | Speech recognition |
NL8400552A (nl) * | 1984-02-22 | 1985-09-16 | Philips Nv | Systeem voor het analyseren van menselijke spraak. |
NL8400728A (nl) * | 1984-03-07 | 1985-10-01 | Philips Nv | Digitale spraakcoder met basisband residucodering. |
US4622680A (en) * | 1984-10-17 | 1986-11-11 | General Electric Company | Hybrid subband coder/decoder method and apparatus |
US4879748A (en) * | 1985-08-28 | 1989-11-07 | American Telephone And Telegraph Company | Parallel processing pitch detector |
US4720861A (en) * | 1985-12-24 | 1988-01-19 | Itt Defense Communications A Division Of Itt Corporation | Digital speech coding circuit |
US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
WO1990013112A1 (en) * | 1989-04-25 | 1990-11-01 | Kabushiki Kaisha Toshiba | Voice encoder |
US5081681B1 (en) * | 1989-11-30 | 1995-08-15 | Digital Voice Systems Inc | Method and apparatus for phase synthesis for speech processing |
EP0459362B1 (en) * | 1990-05-28 | 1997-01-08 | Matsushita Electric Industrial Co., Ltd. | Voice signal processor |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5247579A (en) * | 1990-12-05 | 1993-09-21 | Digital Voice Systems, Inc. | Methods for speech transmission |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
US5450522A (en) * | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
-
1994
- 1994-04-04 US US08/222,119 patent/US5715365A/en not_active Expired - Lifetime
-
1995
- 1995-03-16 CA CA002144823A patent/CA2144823C/en not_active Expired - Lifetime
- 1995-04-03 NO NO951287A patent/NO308635B1/no not_active IP Right Cessation
- 1995-04-03 CN CN95103849A patent/CN1113333C/zh not_active Expired - Lifetime
- 1995-04-03 JP JP07782995A patent/JP4100721B2/ja not_active Expired - Lifetime
- 1995-04-04 DK DK95302290T patent/DK0676744T3/da active
- 1995-04-04 EP EP95302290A patent/EP0676744B1/en not_active Expired - Lifetime
- 1995-04-04 DE DE69518454T patent/DE69518454T2/de not_active Expired - Lifetime
- 1995-04-04 KR KR1019950007903A patent/KR100367202B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
JP4100721B2 (ja) | 2008-06-11 |
NO951287L (no) | 1995-10-05 |
EP0676744B1 (en) | 2000-08-23 |
DK0676744T3 (da) | 2000-12-18 |
NO951287D0 (no) | 1995-04-03 |
EP0676744A1 (en) | 1995-10-11 |
KR950034055A (ko) | 1995-12-26 |
US5715365A (en) | 1998-02-03 |
KR100367202B1 (ko) | 2003-03-04 |
CN1113333C (zh) | 2003-07-02 |
CA2144823C (en) | 2006-01-17 |
DE69518454D1 (de) | 2000-09-28 |
CA2144823A1 (en) | 1995-10-05 |
NO308635B1 (no) | 2000-10-02 |
DE69518454T2 (de) | 2001-04-12 |
JPH0844394A (ja) | 1996-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1113333C (zh) | 激励参数判定方法及其语言编码系统 | |
US5826222A (en) | Estimation of excitation parameters | |
DE69322313T2 (de) | C.E.L.P. - Vocoder | |
DE69529356T2 (de) | Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile | |
DE69608947T2 (de) | Verfahren zur Analyse eines Audiofrequenzsignals durch lineare Prädiktion, und Anwendung auf ein Verfahren zur Kodierung und Dekodierung eines Audiofrequenzsignals | |
DE69625875T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung und -dekodierung | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
US6526376B1 (en) | Split band linear prediction vocoder with pitch extraction | |
DE69332994T2 (de) | Hocheffizientes Kodierverfahren | |
US6608877B1 (en) | Reduced complexity signal transmission system | |
CA2209417C (en) | Method and apparatus for signal analysis | |
DE69602421T2 (de) | Verfahren zur sprachkodierung mittels analyse durch synthese | |
CN101882442A (zh) | 历史音频噪声检测与消除方法 | |
CA1061906A (en) | Speech signal fundamental period extractor | |
KR100257775B1 (ko) | 다중 펄스분석 음성처리 시스템과 방법 | |
US6456965B1 (en) | Multi-stage pitch and mixed voicing estimation for harmonic speech coders | |
US6535847B1 (en) | Audio signal processing | |
Mousset et al. | A comparison of several recent methods of fundamental frequency and voicing decision estimation | |
US8433562B2 (en) | Speech coder that determines pulsed parameters | |
Chang et al. | Pitch estimation of speech signal based on adaptive lattice notch filter | |
US6438517B1 (en) | Multi-stage pitch and mixed voicing estimation for harmonic speech coders | |
Friedman | Multidimensional pseudo-maximum-likelihood pitch estimation | |
Varho et al. | Separated linear prediction—A new all-pole modelling technique for speech analysis | |
JP3019603B2 (ja) | 音声の基本周波数の抽出装置 | |
Akamine et al. | ARMA model based speech coding at 8 kb/s |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CX01 | Expiry of patent term |
Expiration termination date: 20150403 Granted publication date: 20030702 |