CN102612712B - 低频带音频信号的带宽扩展 - Google Patents

低频带音频信号的带宽扩展 Download PDF

Info

Publication number
CN102612712B
CN102612712B CN201080052278.3A CN201080052278A CN102612712B CN 102612712 B CN102612712 B CN 102612712B CN 201080052278 A CN201080052278 A CN 201080052278A CN 102612712 B CN102612712 B CN 102612712B
Authority
CN
China
Prior art keywords
audio signal
frequency band
low band
high frequency
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080052278.3A
Other languages
English (en)
Other versions
CN102612712A (zh
Inventor
沃洛佳·格兰恰诺夫
斯特凡·布鲁恩
哈拉尔德·波布洛斯
西格德尔·斯维里森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN102612712A publication Critical patent/CN102612712A/zh
Application granted granted Critical
Publication of CN102612712B publication Critical patent/CN102612712B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

低频带音频信号的高频带扩展的估计包括下述步骤:提取(S1)低频带音频信号的特征集合;利用广义加性模型将提取的特征映射(S2)到至少一个高频带参数;将低频带音频信号的副本频移(S3)到高频带;通过所述至少一个高频带参数来控制(S4)低频带音频信号的频移后副本的包络。

Description

低频带音频信号的带宽扩展
技术领域
本发明涉及音频编码,更具体地,涉及低频带音频信号的带宽扩展。
背景技术
本发明涉及音频信号的带宽扩展(BWE)。在语音和音频编码/解码中越来越多地使用BWE方案来提高在给定比特率下的感知质量。BWE所基于的主要理念在于:不发送一部分音频信号,而是在解码器处根据接收到的信号分量来重建(估计)该部分音频信号。
因此,在BWE方案中,在解码器处重建信号频谱的一部分。使用已经利用传统编码方法实际发送的信号频谱的特定特征来执行该重建。通常,根据特定的低频带(LB)音频信号特征来重建信号的高频带(HB)。
通常通过高斯混合模型(GMM)或隐马尔科夫模型(HMM)对LB特征与HB信号特性之间的依赖关系进行建模(例如,[1-2])。最常预测的HB特性与频谱包络和/或时间包络有关。
存在两种主要类型的BWE方案:
●在第一方案中,完全根据特定的LB特征来预测HB信号特性。
这些BWE解决方案在重建的HB中引入了伪音(artifact),在一些情况下这导致与带宽受限信号相比的降低的质量。复杂映射(例如,基于GMM或HMM)容易导致未知数据的劣化。
一般的经验是:映射越复杂(训练参数的数目越大),对于训练集合中不存在的数据类型,出现伪音的可能性就越高。找到将给出在整体预测精度与少量异常数据(outlier,明显偏离训练集合中的数据的数据,即不能够被很好建模的分量)之间的最佳平衡具有复杂度的映射是不容易的。
●第二方案([3]中描述的示例)是根据LB特征和少量发送的HB信息的组合来重建HB信号。利用发送的HB信息的BWE方案倾向于提高性能(代价是增大的比特预算),但是没有提供对发送的参数和预测的参数加以组合的一般方法。通常,发送HB参数的一个集合,而预测HB参数的另一个集合,其意味着所发送的信息不能够补偿预测的参数中的故障。
发明内容
本发明的目的是实现改进的BWE方案。
根据所附的权利要求实现了该目的。
根据第一方面,本发明涉及估计低频带音频信号的高频带扩展的方法。该方法包括以下步骤。提取低频带音频信号的特征集合。利用广义加性模型(generalized additive modeling)将提取的特征映射到至少一个高频带参数。将低频带音频信号的副本频移到高频带。通过所述至少一个高频带参数来控制低频带音频信号的频移后副本的包络。
根据第二方面,本发明涉及用于估计低频带音频信号的高频带扩展的装置。特征提取块配置为提取低频带音频信号的特征集合。映射块包括下述单元:广义加性模型映射器,配置为利用广义加性模型将提取的特征映射到至少一个高频带参数;频移器,配置为将低频带音频信号的副本频移到高频带;包络控制器,配置为通过所述至少一个高频带参数来控制频移后副本的包络。
根据第三方面,本发明涉及包括根据第二方面的装置在内的语音解码器。
根据第四方面,本发明涉及包括根据第三方面的语音解码器在内的网络节点。
所提出的BWE方案的优点在于:其在复杂映射方案(良好的平均性能,但是大量的异常数据)与更多约束的映射方案(较低的平均性能,但是更鲁棒)之间提供良好的平衡。
附图说明
通过结合附图来参考下面的描述,可以最佳地理解本发明及其其他目的和优点,在附图中:
图1是示出了包括根据本发明的实施例的语音解码器的编码/解码布置的实施例的框图;
图2A-C是示出了广义加性模型的原理的图;
图3是示出了根据本发明的用于生成HB扩展的装置的实施例的框图;
图4是示出了根据本发明的实施例的通过广义加性模型获得的高频带参数的示例的图;
图5是示出了根据本发明的另一实施例的适合提取的特征的定义的图;
图6是示出了根据本发明的适合基于图5所示特征来生成HB扩展的装置的实施例的框图;
图7是示出了根据本发明的实施例的通过广义加性模型基于图5所示的特征获得的高频带参数的示例的示图;
图8是示出了包括根据本发明的另一实施例的语音解码器的编码/解码布置的另一实施例的框图;
图9是示出了包括根据本发明的又一实施例的语音解码器的编码/解码布置的又一实施例的框图;
图10是示出了根据本发明的用于生成HB扩展的装置的另一实施例的框图;
图11是示出了根据本发明的用于生成HB扩展的装置的又一实施例的框图;
图12是示出了包括根据本发明的语音解码器的实施例的网络节点的实施例的框图;
图13是示出了根据本发明的语音解码器的实施例的框图;
图14是示出了根据本发明的方法的实施例的流程图。
具体实施方式
在附图中,对具有相同或相似功能的单元提供相同的引用标记。
在下文中,解释了LB特征集合及其借助映射来估计信号的HB部分的用法。此外,还解释了发送的HB信息可以如何用于控制映射。
图1是示出了包括根据本发明的实施例的语音解码器在内的编码/解码布置的实施例的框图。语音编码器1接收源音频信号s(通常接收它的帧),将其转发给分析滤波器组10,分析滤波器组10将音频信号分成低频带部分sLB和高频带部分sHB。在该实施例中,HB部分被丢弃(其意味着分析滤波器组可以仅包括低通滤波器)。音频信号的LB部分sLB在LB编码器12(通常是码激励线性预测(CELP)编码器,例如代数码激励线性预测(ACELP)编码器)中进行编码,并且码被发送给语音解码器2。在[4]中可以找到ACELP编码/解码的示例。语音解码器2接收到的码在LB解码器14(通常是CELP解码器,例如ACELP解码器)中进行解码,LB解码器14给出与sLB对应的低频带音频信号
Figure BDA00001655406600041
该低频带音频信号
Figure BDA00001655406600042
被转发给特征提取块16,特征提取块16提取信号
Figure BDA00001655406600043
的特征FLB的集合(下文描述)。提取的特征FLB被转发给映射块18,映射块18利用广义加性模型(下文描述)将提取的特征FLB映射到至少一个高频带参数(下文描述)。HB参数被用于控制LB音频信号
Figure BDA00001655406600044
的已经频移到高频带的副本的包络,其中该包络给出对丢弃的HB部分sHB的估计
Figure BDA00001655406600045
信号
Figure BDA00001655406600047
被转发给合成滤波器组20,合成滤波器组20重建对原始源音频信号的估计特征提取块16和映射块18一起形成用于生成HB扩展的装置30(下文进一步描述)。
下文介绍的示例性LB音频信号特征(称为局部特征)被用于预测特定的HB信号特性。可以使用所示例的特征中的所有特征或子集。逐帧计算所有这些局部特征,局部特征动态还包括来自之前帧的信息。在下文中,n是帧索引,l是样本索引,以及s(n,l)是语音样本。
头两个示例特征与频谱倾斜和倾斜动态有关。它们测量能量的频率分布:
Ψ 1 ( n ) = Σ l = 1 L s ( n , l ) s ( n , l - 1 ) Σ l = 1 L s 2 ( n , l ) - - - ( 1 )
Ψ 2 ( n ) = | Ψ 1 ( n ) - Ψ 1 ( n - 1 ) | Ψ 1 ( n ) + Ψ 1 ( n - 1 ) - - - ( 2 )
接下来的两个示例特征测量音高(语音基本频率)以及音高动态。通过τMIN和τMAX将针对最佳延迟的搜索限制在有意义的音高范围,例如50-400Hz:
&Psi; 3 ( n ) = arg max &tau; MIN < &tau; < &tau; MAX &Sigma; l = 1 L s ( n , l ) s ( n , l + &tau; ) &Sigma; l = 1 L s 2 ( n , l ) &Sigma; l = 1 L s 2 ( n , l + &tau; ) - - - ( 3 )
&Psi; 4 ( n ) = | &Psi; 3 ( n ) - &Psi; 3 ( n - 1 ) | &Psi; 3 ( n ) + &Psi; 3 ( n - 1 ) - - - ( 4 )
第五和第六示例特征反映了信号中的音调分量与类噪声分量之间的平衡。此处,
Figure BDA00001655406600054
Figure BDA00001655406600055
是CELP编解码(例如ACELP编解码)中的自适应和固定码本的能量,以及
Figure BDA00001655406600056
是激励信号的能量:
&Psi; 5 ( n ) = &sigma; ACB 2 ( n ) - &sigma; FCB 2 ( n ) &sigma; e 2 ( n ) - - - ( 5 )
&Psi; 6 ( n ) = | &Psi; 5 ( n ) - &Psi; 5 ( n - 1 ) | &Psi; 5 ( n ) + &Psi; 5 ( n - 1 ) - - - ( 6 )
该示例集合中的最后一个局部特征逐帧地捕捉能量动态。此处,是语音帧的能量:
&Psi; 7 ( n ) = | lo g 10 ( &sigma; s 2 ( n ) ) - lo g 10 ( &sigma; s 2 ( n - 1 ) ) | lo g 10 ( &sigma; s 2 ( n ) ) + lo g 10 ( &sigma; s 2 ( n - 1 ) ) - - - ( 7 )
在映射中使用的所有这些局部特征在映射之前进行如下缩放:
&Psi; ~ ( n ) = &Psi; ( n ) - &Psi; MIN &Psi; MAX - &Psi; MIN - - - ( 8 )
其中ΨMIN和ΨMAX是与给定特征的最小值和最大值对应的预定常数。这给出了所提取的特征集合
Figure BDA000016554066000512
根据本发明,根据局部特征来估计HB扩展是基于广义加性模型的。出于该原因,将参考图2A-C来简要描述该概念。可以在例如[5]中找到关于广义加性模型的进一步细节。
在统计学中,经常使用回归模型来估计参数的行为。一种简单模型是线性模型:
Y ^ = &omega; 0 + &Sigma; m = 1 M &omega; m X m - - - ( 9 )
其中
Figure BDA00001655406600062
是对取决于(随机)变量X1,...,XM的变量Y的估计。在图2A中示出了其在M=2时的情形。在该情况下,
Figure BDA00001655406600063
将是平坦表面。
线性模型的特性特征是和的每一项仅线性依赖于一个变量。该特征的推广是将这些线性函数(中的至少一个)修改成非线性函数(其仍然是每一项仅依赖于一个变量)。这导致加性模型:
Y ^ = &omega; 0 + &Sigma; m = 1 M f m ( X m ) - - - ( 10 ) .
在图2B中示出了该加性模型在M=2时的情形。在该情况下,代表
Figure BDA00001655406600065
的表面是弯曲的。函数fm(Xm)典型地是S形(sigmoid)函数(一般是“S”形函数),如图2B所示。S形函数的示例是对数函数、Compertz曲线、反弧(ogee)曲线以及双曲正切函数。通过改变定义S形函数的参数,S形形状可以从最小值与最大值之间的近似线性形状连续改变到在相同最小值与最大值之间的近似阶梯函数。
通过下面的广义加性模型获得进一步的推广:
g ( Y ^ ) = &omega; 0 + &Sigma; m = 1 M f m ( X m ) - - - ( 11 )
其中g(·)被称为链接(link)函数。在图2C中示出了该函数,其中,表面
Figure BDA00001655406600067
被进一步修改(通过对方程(11)两边取逆g-1(·),得到
Figure BDA00001655406600068
其中g-1(·)通常也是S形函数)。在链接函数g(·)是恒等函数的特殊情况下,方程(11)简化成方程(10)。因为这两种情况都很重要,出于本发明的目的,“广义加性模型”还将包括恒等链接函数的情形。然而,如上面提到的,至少一个fm(Xm)是非线性的,其使得模型是非线性的(表面
Figure BDA00001655406600069
是弯曲的)。
在本发明的实施例中,根据方程(1)至(8)获得的7个(归一化的)特征
Figure BDA000016554066000610
被用于估计压缩(感知推动的)域中的HB能量和LB能量之间的比Y(n)。该比率可以与时间包络或频谱包络的特定部分对应,或者与整体增益对应,下文将进行进一步描述。一个示例如下:
Y ( n ) = ( E HB ( m ) E LB ( n ) ) &beta; - - - ( 12 )
其中β例如可以选择为β=0.2。另一示例如下:
Y ( n ) = lo g 10 ( E HB ( n ) E LB ( n ) ) - - - ( 13 )
在方程(12)和(13)中,参数β和log10函数用于将能量比转换成压缩的“感知推动的”域。执行该转换以考虑人耳的近似对数的敏感性特性。
因为在解码器处能量EHB(n)不可用,所以预测或估计比率Y(n)。这通过基于提取的LB特征和广义加性模型对Y(n)的估计
Figure BDA00001655406600073
进行建模来完成。一个示例给出如下:
Y ^ ( n ) &omega; 0 + &Sigma; m = 1 M ( w 1 m 1 + e - w 2 m &Psi; ~ m ( n ) + w 3 m ) - - - ( 14 )
其中,M=7,且给定提取的局部特征(较少的特征也是可行的)。与方程(11)比较,显然
Figure BDA00001655406600075
与变量X1,...,XP对应,并且函数fk与和中的项对应,其是由模型参数
Figure BDA00001655406600076
和恒等链接函数定义的S形函数。该广义加性模型参数ω0和ω存储在解码器中,并且已经通过在语音帧的数据库上进行训练来获得。该训练过程通过最小化由方程(14)估计的比率
Figure BDA00001655406600077
与由方程(12)(或(13))给出的实际比率Y(n)之间的误差来找到合适的参数ω0和ω。一种合适的方法(特别对于S形参数)是例如[6]中描述的Levenberg-Marquardt方法。
图3是示出了根据本发明的用于生成HB扩展的装置30的实施例的框图。装置30包括特征提取块16,其配置为提取低频带音频信号的特征集合
Figure BDA00001655406600078
映射块18,连接到特征提取块16,包括广义加性模型映射器32,其配置为利用广义加性模型将提取的特征映射到高频带参数在所示实施例中,在映射块18中包括配置为将低频带音频信号
Figure BDA000016554066000710
的副本频移到高频带的频移器34。在所示实施例中,映射块18还包括包络控制器36,其配置为通过高频带参数来控制频移后副本的包络。
图4是示出了根据本发明的实施例的通过广义加性模型获得的高频带参数的示例的图。其示出了如何使用估计的比率(增益)
Figure BDA00001655406600081
来控制LB信号的频移后副本的包络(在该情况下是在频域中)。虚线表示LB信号的没变更的增益(1.0)。因此,在该实施例中,通过将单个估计增益应用到LB信号的频移后副本来获得HB扩展。
图5是示出了根据本发明的另一实施例的适合提取的特征的定义的图。该实施例仅提取2个LB信号特征F1,F2
在图5所示实施例中,特征F1定义如下:
F 1 = E 10.0 - 11.6 E 8.0 - 11.6 - - - ( 15 )
其中,
E10.0-11.6是对低频带音频信号在频带10.0-11.6kHz中的能量的估计,
E8.0-11.6是对低频带音频信号在频带8.0-11.6kHz中的能量的估计。
此外,在图5所示实施例中,特征F2定义如下:
F 2 = E 8.0 - 11.6 E 0.0 - 11.6 - - - ( 16 )
其中,
E8.0-11.6是对低频带音频信号在频带8.0-11.6kHz中的能量的估计,
E0.0-11.6是对低频带音频信号在频带0.0-11.6kHz中的能量的估计。
特征F1,F2表示频谱倾斜,并且与上面的特征
Figure BDA00001655406600085
类似,但是它们是在频域而不是在时域中确定的。此外,在LB信号的其他频率间隔上确定特征F1,F2是可行的。然而,在本发明的该实施例中,要点在于F1,F2描述了低频带音频信号频谱的不同部分之间的能量比。
使用提取的特征F1,F2,映射器32现在可以通过使用如下广义加性模型将它们映射到HB参数
Figure BDA00001655406600086
E ^ k = w 0 k + &Sigma; m = 1 2 w 1 mk 1 + exp ( - w 2 mk F m + w 3 mk ) - - - ( 17 )
其中,
Figure BDA00001655406600088
k=1,...,K是定义增益的高频带参数,该增益控制低频带音频信号的频移后副本的K个预定频带的包络,
{w0k,w1mk,w2mk,w3mk}是针对每个高频带参数
Figure BDA00001655406600091
定义S形函数的映射系数集合,
Fm,m=1,2,是描述低频带音频信号频谱的不同部分之间的能量比的低频带音频信号的特征。
图6是示出了根据本发明的适合基于图5所示特征来生成HB扩展的装置的实施例的框图。该实施例包括与图3的实施例类似的单元,但是在该实施例中,它们配置为将特征F1,F2映射到K个增益而不是单个增益
图7是示出了根据本发明的实施例的通过广义加性模型基于图5所示特征所获得的高频带参数的示例的图。在该示例中,存在K=4个增益这四个增益
Figure BDA00001655406600095
控制低频带音频信号的频移后副本的4个预定频带的包络。因此,在该示例中,通过4个参数
Figure BDA00001655406600096
来控制HB包络,而不是如参考图4的示例中那样使用单个参数
Figure BDA00001655406600097
来控制HB包络。更少和更多的参数也是可行的。
图8是示出了包括根据本发明的另一实施例的解码器在内的编码/解码布置的另一实施例的框图。该实施例与图1的实施例的不同之处在于:未丢弃HB信号sHB。相反,HB信号被转发给HB信息块22,HB信息块22对HB信号进行分类,并且向语音解码器2发送N比特分类索引。如果允许发送HB信息(如图8所示),则映射利用发送提供的簇(cluster)来分段进行,其中分类数目取决于可用比特的量。如下文所述,分类索引由映射块18使用。
图9是示出了包括根据本发明的又一实施例的解码器在内的编码/解码布置的又一实施例的框图。该实施例与图8的实施例类似,但是使用HB信号sHB以及LB信号sLB一起来形成分类索引。在该示例中,N=1比特,但是通过包括更多比特,还可以具有多于2个类别。
图10是示出了根据本发明的用于生成HB扩展的装置的另一实施例的框图。该实施例与图3的实施例的不同之处在于:其包括映射系数选择器38,映射系数选择器38配置为基于接收到的信号分类索引C来选择映射系数集合
Figure BDA00001655406600098
在该实施例中,根据低频带特征的集合
Figure BDA00001655406600101
和预存储的映射系数ωC来预测高频带参数
Figure BDA00001655406600102
分类索引C选择映射系数的集合,所述映射系数的集合通过用以拟合簇中的数据的离线训练过程来确定。可以将其视为从纯粹预测HB的状态(无分类)到纯粹量化HB的状态(有分类)的平滑过渡。后者是下述事实的结果:在簇的数目增加的情况下,映射将趋向于预测簇的平均值。
图11是示出了根据本发明的用于生成HB扩展的装置的又一实施例的框图。该实施例与图10的实施例类似,但是该实施例是基于参考图5描述的特征F1,F2。此外,在该实施例中,通过下述分类(也参考图5的上部)给出信号分类C:
Figure BDA00001655406600103
其中,
Figure BDA00001655406600104
是对源音频信号在频带8.0-11.6kHz中的能量的估计,
Figure BDA00001655406600105
是对源音频信号在频带11.6-16.0kHz中的能量的估计。
在该示例中,C对声音进行分类(粗略地讲,给出该示例分类所表示的内容的心理图片),分成“语音”(分类1)和“非语音”(分类2)。
基于该分类,映射块18可以配置为根据以下公式(广义加性模型32)来执行映射:
E ^ k C = w 0 k C + &Sigma; m = 1 2 w 1 mk C 1 + exp ( - w 2 mk C F m + w 3 mk C )
其中,
Figure BDA00001655406600107
k=1,...,K是高频带参数,该高频带参数定义与信号分类C关联的增益,并且控制低频带音频信号的频移后副本的K个预定频带的包络,其中所述信号分类C对由低频带音频信号
Figure BDA00001655406600108
表示的源音频信号进行分类,
是信号分类C中的、针对每个高频带参数
Figure BDA000016554066001010
定义S形函数的映射系数集合,
Fm,m=1,2,是描述低频带音频信号频谱的不同部分之间的能量比的低频带音频信号的特征。
作为示例,K=4并且可以通过(15)和(16)来定义F1,F2
图8-11的实施例的优点是它们实现了从提取的特征到已编码的声音的类型的映射的“微调”。
图12是示出了包括根据本发明的语音解码器2的实施例在内的网络节点的实施例的框图。该实施例示出了无线终端,但是其他网络节点也是可行的。例如,如果在网络中使用基于IP(网际协议)的语音,则节点可以包括计算机。
在图12的网络节点中,天线接收已编码的语音信号。解调器和信道解码器50将该信号转换成低频带语音参数(可选地信号分类C,如通过(分类C)和虚信号线所指示的),并且将它们转发给语音解码器2,以生成语音信号
Figure BDA00001655406600111
如参考上面各个实施例所描述的。
本文描述的步骤、函数、过程和/或块可以用使用任何传统技术的硬件来实现,所述传统技术例如是分立电路或集成电路技术,包括通用电路和专用电路。
备选地,本文描述的步骤、函数、过程和/或块中的至少一些可以用由合适的处理设备执行的软件来实现,所述处理设备例如是微处理器、数字信号处理器(DSP)、和/或任何合适的可编程逻辑器件,如现场可编程门阵列(FPGA)器件。
还应该理解,重用网络节点的通用处理能力是可能的。这可以例如通过对现有软件重新编程或者通过添加新的软件组件来实现。
作为一个实现示例,图13是示出根据本发明的语音解码器2的示例实施例的框图。该实施例基于处理器100(如微处理器),其执行:软件组件110,用于估计低频带语音信号
Figure BDA00001655406600112
软件组件120,用于估计高频带语音信号
Figure BDA00001655406600113
以及软件组件130,用于根据
Figure BDA00001655406600115
生成语音信号
Figure BDA00001655406600116
该软件存储在存储器150中。处理器100通过系统总线与存储器通信。由控制与处理器100和存储150相连的I/O总线的输入/输出(I/O)控制器160来接收低频带语音参数(可选地,信号分类C)。在该实施例中,I/O控制器150接收的参数被存储在存储器150中,其中它们由软件组件进行处理。软件组件110可以实现上面描述的实施例中的块14的功能。软件组件120可以实现上面描述的实施例中的块30的功能。软件组件130可以实现上面描述的实施例中的块20的功能。由I/O控制器160通过I/O总线,从存储器150输出获取自软件组件130的语音信号。
在图13的实施例中,由I/O控制器160接收语音参数,并且假设将在接收网络节点中的其他地方处理其他任务,如无线终端中的解调和信道解码。然而,备选方案是让存储器150中的其他软件组件也处理用于从接收信号中提取语音参数的数字信号处理中的全部或部分。在这样的实施例中,可以直接从存储器150中检索语音参数。
在接收网络节点是接收基于IP分组的语音的计算机的情况下,IP分组通常被转发给I/O控制器160,并且由存储器150中的另一软件组件来提取语音参数。
上面描述的软件组件中的一些或全部组件可以在计算机可读介质(例如CD、DVD或硬盘)上携带,以及加载进存储器供处理器执行。
图14是示出了根据本发明的方法的实施例的流程图。步骤S1提取低频带音频信号的特征集合
Figure BDA00001655406600121
步骤S2利用广义加性模型将提取的特征映射到至少一个高频带参数
Figure BDA00001655406600122
步骤S3将低频带音频信号
Figure BDA00001655406600123
的副本频移到高频带。步骤S4通过高频带参数来控制低频带音频信号的频移后副本的包络。
本领域普通技术人员应该理解,在不脱离本发明的由所附权利要求限定的范围的情况下,可以对本发明进行各种修改和改变。
缩写
ACELP  代数码激励线性预测
BWE    带宽扩展
CELP   码激励线性预测
DSP    数字信号处理器
FPGA   现场可编程门阵列
GMM    高斯混合模型
HB     高频带
HMM   隐马尔科夫模型
IP    网际协议
LB    低频带
参考文献
[1]M.Nilsson and W.B.Kleijn,“Avoiding over-estimation inbandwidth extension of telephony speech”,Proc.IEEE Int.Conf.Acoust.Speech Sign.Process.,2001.
[2]P.Jax and P.Vary,“Wideband extension of telephone speechusing a hidden Markov model”,IEEE Workshop on Speech Coding,2000.
[3]ITU-T Rec.G.729.1,“G.729-based embedded variable bit-ratecoder:An 8-32kbit/s scalable wideband coder bitstream interoperablewith G.729”,2006.
[4]3GPP  TS  26.190,“Adaptive  Multi-Rate-Wideband(AMR-WB)speech codec;Transcoding functions”,2008.
[5]“New Approaches to Regression by Generalized AdditiveModels and Continuous Optimizationfor Modern Applications in Finance,Science and Technology”,Pakize Taylan,Gerhard-Wilhelm Weber,AmirBeck,http://www3.iam.metu.edu.tr/iam/images/1/10/Preprint56.pdf
[6]Numerical Recipes in C++:The Art of Scientific Computing,2nd edition,reprinted 2003,W. Press,S.Teukolsky,W.Vetterling,B.Flannery

Claims (19)

1.一种估计低频带音频信号
Figure FDA0000382771140000011
的高频带扩展
Figure FDA0000382771140000012
的方法,包括提取(S1)低频带音频信号的特征集合的步骤,所述方法的特征在于:
利用广义加性模型,将所提取的特征映射(S2)到至少一个高频带参数
Figure FDA0000382771140000014
将低频带音频信号的副本频移(S3)到高频带;
通过所述至少一个高频带参数来控制(S4)低频带音频信号的频移后副本的包络。
2.根据权利要求1所述的方法,其中,所述映射基于所提取的特征
Figure FDA0000382771140000016
的S形函数的和。
3.根据权利要求2所述的方法,其中,所述映射通过下式给出:
E ^ k = w 0 k + &Sigma; m = 1 2 w 1 mk 1 + exp ( - w 2 mk F m + w 3 mk )
其中,
Figure FDA0000382771140000018
是定义增益的高频带参数,所述增益控制低频带音频信号的频移后副本的K个预定频带的包络,
{w0k,w1mk,w2mk,w3mk}是定义针对每个高频带参数
Figure FDA0000382771140000019
的S形函数的映射系数集合,
Fm,m=1,2,是描述低频带音频信号频谱的不同部分之间的能量比的低频带音频信号的特征。
4.根据权利要求2所述的方法,其中,所述映射通过下式给出:
E ^ k C = w 0 k C + &Sigma; m = 1 2 w 1 mk C 1 + exp ( - w 2 mk C F m + w 3 mk C )
其中,
Figure FDA00003827711400000111
是高频带参数,该高频带参数定义与信号分类C关联的增益,并且控制低频带音频信号的频移后副本的K个预定频带的包络,其中,所述信号分类C对由低频带音频信号
Figure FDA00003827711400000112
表示的源音频信号进行分类,
Figure FDA0000382771140000021
是定义针对信号分类C中的每个高频带参数
Figure FDA0000382771140000022
的S形函数的映射系数集合,
Fm,m=1,2,是描述低频带音频信号频谱的不同部分之间的能量比的低频带音频信号的特征。
5.根据权利要求3或4所述的方法,其中,所述特征F1通过下式给出:
F 1 = E 10.0 - 11.6 E 8.0 - 11.6
其中,
E10.0-11.6是对低频带音频信号在频带10.0-11.6kHz中的能量的估计,
E8.0-11.6是对低频带音频信号在频带8.0-11.6kHz中的能量的估计。
6.根据权利要求3或4所述的方法,其中,所述特征F2通过下式给出:
F 2 = E 8.0 - 11.6 E 0.0 - 11.6
其中,
E8.0-11.6是对低频带音频信号在频带8.0-11.6kHz中的能量的估计,
E0.0-11.6是对低频带音频信号在频带0.0-11.6kHz中的能量的估计。
7.根据权利要求3或4所述的方法,其中,K=4。
8.根据权利要求4所述的方法,包括以下步骤:选择与信号分类C对应的映射系数集合
Figure FDA0000382771140000025
其中,C由下式给出:
Figure FDA0000382771140000026
其中,
Figure FDA0000382771140000027
是对源音频信号在频带8.0-11.6kHz中的能量的估计,以及
Figure FDA0000382771140000028
是对源音频信号在频带11.6-16.0kHz中的能量的估计。
9.一种用于估计低频带音频信号
Figure FDA0000382771140000029
的高频带扩展
Figure FDA00003827711400000210
的设备(30),包括被配置为提取低频带音频信号的特征集合
Figure FDA0000382771140000031
的特征提取块(16),所述设备的特征在于:
映射块(18),包括:
广义加性模型映射器(32),配置为利用广义加性模型,将所提取的特征映射到至少一个高频带参数
Figure FDA0000382771140000032
频移器(34),配置为将低频带音频信号
Figure FDA0000382771140000033
的副本频移到高频带;
包络控制器(36),配置为通过所述至少一个高频带参数来控制频移后副本的包络。
10.根据权利要求9所述的设备,其中,所述广义加性模型映射器(32)配置为使所述映射基于所提取的特征
Figure FDA0000382771140000034
的S形函数的和。
11.根据权利要求10所述的设备,其中,所述广义加性模型映射器(32)配置为根据下式执行映射:
E ^ k = w 0 k + &Sigma; m = 1 2 w 1 mk 1 + exp ( - w 2 mk F m + w 3 mk )
其中,
Figure FDA0000382771140000036
是定义增益的高频带参数,该增益控制低频带音频信号的频移后副本的K个预定频带的包络,
{w0k,w1mk,w2mk,w3mk}是定义针对每个高频带参数
Figure FDA0000382771140000037
的S形函数的映射系数集合,
Fm,m=1,2,是描述低频带音频信号频谱的不同部分之间的能量比的低频带音频信号的特征。
12.根据权利要求10所述的设备,其中,所述广义加性模型映射器(32)配置为根据下式执行映射:
E ^ k C = w 0 k C + &Sigma; m = 1 2 w 1 mk C 1 + exp ( - w 2 mk C F m + w 3 mk C )
其中,
Figure FDA0000382771140000039
是高频带参数,该高频带参数定义与信号分类C关联的增益,并且控制低频带音频信号的频移后副本的K个预定频带的包络,其中,所述信号分类C对由低频带音频信号
Figure FDA0000382771140000041
表示的源音频信号进行分类,
Figure FDA0000382771140000042
是定义针对信号分类C中的每个高频带参数
Figure FDA0000382771140000043
的S形函数的映射系数集合,
Fm,m=1,2,是描述低频带音频信号频谱的不同部分之间的能量比的低频带音频信号的特征。
13.根据权利要求11或12所述的设备,其中,所述特征提取块(16)配置为通过下式提取特征F1
F 1 = E 10.0 - 11.6 E 8.0 - 11.6
其中,
E10.0-11.6是对低频带音频信号在频带10.0-11.6kHz中的能量的估计,
E8.0-11.6是对低频带音频信号在频带8.0-11.6kHz中的能量的估计。
14.根据权利要求11或12所述的设备,其中,所述特征提取块(16)配置为通过下式提取特征F2
F 2 = E 8.0 - 11.6 E 0.0 - 11.6
其中,
E8.0-11.6是对低频带音频信号在频带8.0-11.6kHz中的能量的估计,
E0.0-11.6是对低频带音频信号在频带0.0-11.6kHz中的能量的估计。
15.根据权利要求11或12所述的设备,其中,所述广义加性模型映射器(32)配置为将所提取的特征映射到K=4个高频带参数
Figure FDA0000382771140000046
16.根据权利要求12所述的设备,包括映射系数集合选择器(38),其配置为选择与信号分类C对应的映射系数集合
Figure FDA0000382771140000047
其中C由下式给出:
Figure FDA0000382771140000048
其中,
Figure FDA0000382771140000051
是对源音频信号在频带8.0-11.6kHz中的能量的估计,以及
Figure FDA0000382771140000052
是对源音频信号在频带11.6-16.0kHz中的能量的估计。
17.一种语音解码器,包括根据前述权利要求9至16中任一项所述的设备(30)。
18.一种网络节点,包括根据权利要求17所述的语音解码器。
19.根据权利要求18所述的网络节点,其中,所述网络节点是无线终端。
CN201080052278.3A 2009-11-19 2010-09-14 低频带音频信号的带宽扩展 Expired - Fee Related CN102612712B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US26259309P 2009-11-19 2009-11-19
US61/262,593 2009-11-19
PCT/SE2010/050984 WO2011062538A1 (en) 2009-11-19 2010-09-14 Bandwidth extension of a low band audio signal

Publications (2)

Publication Number Publication Date
CN102612712A CN102612712A (zh) 2012-07-25
CN102612712B true CN102612712B (zh) 2014-03-12

Family

ID=44059836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080052278.3A Expired - Fee Related CN102612712B (zh) 2009-11-19 2010-09-14 低频带音频信号的带宽扩展

Country Status (7)

Country Link
US (1) US8929568B2 (zh)
EP (1) EP2502231B1 (zh)
JP (1) JP5619177B2 (zh)
CN (1) CN102612712B (zh)
BR (1) BR112012012119A2 (zh)
RU (1) RU2568278C2 (zh)
WO (1) WO2011062538A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447617B2 (en) * 2009-12-21 2013-05-21 Mindspeed Technologies, Inc. Method and system for speech bandwidth extension
PL2831875T3 (pl) 2012-03-29 2016-05-31 Ericsson Telefon Ab L M Rozszerzenie pasma harmonicznego sygnału audio
CN105551497B (zh) 2013-01-15 2019-03-19 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
RU2641461C2 (ru) * 2013-01-29 2018-01-17 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Аудиокодер, аудиодекодер, способ обеспечения кодированной аудиоинформации, способ обеспечения декодированной аудиоинформации, компьютерная программа и кодированное представление с использованием сигнально-адаптивного расширения полосы пропускания
BR112015017632B1 (pt) 2013-01-29 2022-06-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para gerar um sinal melhorado da frequência utilizando nivelamento temporal de sub-bandas
CN108172239B (zh) 2013-09-26 2021-01-12 华为技术有限公司 频带扩展的方法及装置
FR3017484A1 (fr) 2014-02-07 2015-08-14 Orange Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
JP2016038435A (ja) * 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837094B2 (en) * 2015-08-18 2017-12-05 Qualcomm Incorporated Signal re-use during bandwidth transition period
JP2022523564A (ja) 2019-03-04 2022-04-25 アイオーカレンツ, インコーポレイテッド 機械学習を使用するデータ圧縮および通信

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1300833A2 (en) * 2001-10-04 2003-04-09 AT&T Corp. A method of bandwidth extension for narrow-band speech
US20060277039A1 (en) * 2005-04-22 2006-12-07 Vos Koen B Systems, methods, and apparatus for gain factor smoothing
US20070067163A1 (en) * 2005-09-02 2007-03-22 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69619284T3 (de) 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US20040002856A1 (en) 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP3861770B2 (ja) * 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US20080260048A1 (en) * 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
ATE429698T1 (de) 2004-09-17 2009-05-15 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten tonsignalen
US8484036B2 (en) * 2005-04-01 2013-07-09 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
KR20070037945A (ko) * 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
TWI591625B (zh) * 2009-05-27 2017-07-11 杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1300833A2 (en) * 2001-10-04 2003-04-09 AT&T Corp. A method of bandwidth extension for narrow-band speech
US20060277039A1 (en) * 2005-04-22 2006-12-07 Vos Koen B Systems, methods, and apparatus for gain factor smoothing
US20070067163A1 (en) * 2005-09-02 2007-03-22 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
New Approaches to Regression by Generalized Additive Models and Continuous Optimization for Modern Applications in Finance, Science and Technology;PAKIZE TAYLAN ET AL;《THE ART OF SCIENTIFIC COMPUTING》;20031231;第1.3节,第2节 *
PAKIZETAYLANETAL.NewApproachestoRegressionbyGeneralizedAdditiveModelsandContinuousOptimizationforModernApplicationsinFinance Science and Technology.《THE ART OF SCIENTIFIC COMPUTING》.2003
附图2,3.

Also Published As

Publication number Publication date
JP5619177B2 (ja) 2014-11-05
RU2568278C2 (ru) 2015-11-20
EP2502231A1 (en) 2012-09-26
US20120230515A1 (en) 2012-09-13
JP2013511743A (ja) 2013-04-04
CN102612712A (zh) 2012-07-25
EP2502231B1 (en) 2014-06-04
US8929568B2 (en) 2015-01-06
EP2502231A4 (en) 2013-07-10
BR112012012119A2 (pt) 2021-01-05
WO2011062538A9 (en) 2011-06-30
WO2011062538A1 (en) 2011-05-26
RU2012125251A (ru) 2013-12-27

Similar Documents

Publication Publication Date Title
CN102612712B (zh) 低频带音频信号的带宽扩展
KR100949232B1 (ko) 인코딩 장치, 디코딩 장치 및 그 방법
US7660720B2 (en) Lossless audio coding/decoding method and apparatus
JP4810422B2 (ja) 符号化装置、復号化装置、およびこれらの方法
KR100986152B1 (ko) 합성된 스펙트럼 성분을 적용하기 위하여 디코딩된 신호의 특성을 사용하는 오디오 코딩 시스템
TWI405187B (zh) 可縮放語音及音訊編碼解碼器、包括可縮放語音及音訊編碼解碼器之處理器、及用於可縮放語音及音訊編碼解碼器之方法及機器可讀媒體
TWI480856B (zh) 音訊編解碼器中之雜訊產生技術
CN110556123A (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
WO2024051412A1 (zh) 语音编码、解码方法、装置、计算机设备和存储介质
EP3550563B1 (en) Encoder, decoder, encoding method, decoding method, and associated programs
JP2011075936A (ja) オーディオエンコーダ及びデコーダ
US7426462B2 (en) Fast codebook selection method in audio encoding
Ohidujjaman et al. Packet Loss Compensation for VoIP through Bone‐Conducted Speech Using Modified Linear Prediction
KR102308077B1 (ko) 학습 모델 기반의 인공 대역 변환장치 및 방법
CN112530446A (zh) 频带扩展方法、装置、电子设备及计算机可读存储介质
Hosoda et al. Speech bandwidth extension using data hiding based on discrete hartley transform domain
Oh et al. A new spectral enhancement algorithm in MP3 audio
Singh et al. Design of Medium to Low Bitrate Neural Audio Codec
Kleijn Principles of speech coding
Gunjal et al. Traditional Psychoacoustic Model and Daubechies Wavelets for Enhanced Speech Coder Performance
Lu et al. An MELP Vocoder Based on UVS and MVF
Kemper et al. MPEG-1 psychoacoustic model emulation using multiscale convolutional neural networks
Songsriboonsit et al. Robustness Improvement against G. 726 Speech Codec for Semi-fragile Watermarking in Speech Signals with Singular Spectrum Analysis and Quantization Index Modulation
Dasen Bridging Image and Audio Compression: A Spectrogram-based Neural Approach
Hoang et al. Embedded transform coding of audio signals by model-based bit plane coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140312