CN1985304B

CN1985304B - 用于增强型人工带宽扩展的系统和方法

Info

Publication number: CN1985304B
Application number: CN2005800234287A
Authority: CN
Inventors: 洛拉·拉阿克索南; 佩维·瓦尔弗
Original assignee: Nokia Oyj
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2004-05-25
Filing date: 2005-05-25
Publication date: 2011-06-22
Anticipated expiration: 2025-05-25
Also published as: KR100909679B1; CN1985304A; EP1766615B1; US8712768B2; KR20070022338A; WO2005115077A3; ATE437432T1; ES2329060T3; US20050267741A1; DE602005015588D1; EP1766615A2; WO2005115077A2; BRPI0512160A

Abstract

一种方法、设备、系统和计算机程序产品将窄带语音信号扩展成宽带语音信号。该方法包括：根据信号确定信号类型信息；使用所确定的信号类型信息来获得用于形成上频带信号的特征；确定信号噪声信息；使用所确定的信号噪声信息来修改所获得的用于形成上频带信号的特征；以及使用所修改的特征来形成上频带信号。

Description

用于增强型人工带宽扩展的系统和方法

技术领域

本发明涉及用于在电再现语音信号中进行质量改进的系统和方法。更特别地，本发明涉及一种用于信号质量改进的增强型人工带宽扩展的系统和方法。

背景技术

通常在电信系统如GSM(全球移动通信系统)网络中利用有限的带宽来发送语音信号。虽然语音包含高达10kHz的频率分量，但是在这种系统中用于语音信号的传统带宽不足4kHz(0.3-3.4kHz)。有限的带宽导致质量和可懂度的性能都不佳。如果语音信号的频率带是宽带即高达8kHz，则人们就感知到更佳的质量和可懂度。

噪声的特征可能变化很大。噪声例如可以是平静的办公室噪声、嘈杂的汽车噪声、街道噪声或者谈话杂音(babble)噪声(谈话杂音的声音、盘碟的丁当声等)。除不同的特征之外，噪声还可能出现在近端的移动电话用户周围(tx-噪声)或者出现在远端的其它对话方周围(rx-噪声)。rx-噪声破坏了语音信号，因此该噪声也变得与语音一起扩展到高频带。这一点在具有高rx-噪声电平的情形中颇成问题，因为噪声开始由于人为生成的高频分量而听起来令人厌烦。tx-噪声通过掩盖收到的语音信号而使可懂度降级。

现有技术中的人工带宽扩展(ABE)解决方案受困于有噪声的情形下的不良表现。一种现有的ABE解决方案在美国专利申请第10/341,332号中有描述，该申请的标题为“Method and Apparatus forArtificial Bandwidth Expansion in Speech Processing”，转让给与本申请相同的受让人，而且将该申请通过参考整体引入于此。这一较早开发的ABE算法的优点在于它对于有噪声和编码的语音而言显著地更加鲁棒。然而，此算法尚有问题，包括存在人为成分(artifact)，这使得所感知的质量的总体自然度降级。扩展语音高频带的骤变可能造成听得到的人为成分。另外，这一先前算法包括0-4kHz的频率带宽。

遗漏的频率分量对于语音发声如摩擦音(例如/s/和/z/)尤为重要，因为频率分量的相当大的部分都在4kHz以上。即使这些发声的主要信息是在较低频率中，爆破音(/t/、/p/等)的可懂度也受困于高频的匮乏。对于浊音，频率的欠缺主要导致所感知的自然度降级。由于高频分量的重要性在语音发声之间有所不同，所以应当为每个音素组不同地执行扩展信号高频带的生成。

因此，对于不同音素组的分类就需要鲁棒的计算方法。还需要一种防止误分类以及由此防止在先前的算法中依然存在的听得到的人为成分的改进方法。进而需要一种用于信号质量改进的增强型人工带宽扩展的改进系统和方法。

发明内容

本发明涉及一种用于通过插入没有与语音信号一起发送的频率分量来扩展该语音信号的带宽的方法、设备、系统和计算机程序产品。该系统将噪声依赖性包括于人工带宽扩展算法。此特征考虑了噪声条件而且自动地调整该算法，使得在保持良好的感知质量同时语音的可懂度变得最大化。

简而言之，一个示例性实施例涉及一种用于将窄带语音信号扩展成宽带语音信号的方法。该方法包括：根据信号确定信号类型信息；使用所确定的信号类型信息来获得用于形成上频带信号的特征；确定信号噪声信息；使用所确定的信号噪声信息来修改所获得的用于形成上频带信号的特征；以及使用所修改的特征来形成上频带信号。

另一示例性实施例涉及一种被配置用以接收宽带信号的终端设备。该设备包括：与无线网络通信的接口；以及编程的指令，存储于存储器中并且被配置用以通过基于噪声条件调整人工带宽扩展算法将收到的窄带信号扩展成宽带信号。

另一示例性实施例涉及一种在通信网络中将窄带语音信号扩展成宽带语音信号的网络设备或者模块。该设备包括：窄带编码解码器，在网络中接收窄带语音信号；宽带编码解码器，将宽带语音信号传送到与网络通信的宽带终端；以及编程的指令，通过基于噪声条件调整人为宽带扩展算法将窄带语音信号扩展成宽带语音信号。

又一示例性实施例涉及一种用于将窄带语音信号扩展成宽带语音信号的系统。该系统包括：用于根据信号确定信号类型信息的装置；用于使用所确定的信号类型信息来获得用于形成上频带信号的特征的装置；用于确定信号噪声信息的装置；用于使用所确定的信号噪声信息来修改所获得的用于形成上频带信号的特征的装置；以及用于使用所修改的特征来形成上频带信号的装置。

又一示例性实施例涉及一种将窄带语音信号扩展成宽带语音信号的计算机程序产品。该计算机程序产品包括用以执行以下操作的计算机代码：根据信号确定信号类型信息；使用所确定的信号类型信息来获得用于形成上频带信号的特征；确定信号噪声信息；使用所确定的信号噪声信息来修改所获得的用于形成上频带信号的特征；以及使用所修改的特征来形成上频带信号。

通过察阅所附权利要求书、具体实施方式和附图，本发明的其它主要特征和优点对于本领域技术人员将变得明显。

附图说明

下文将参照附图来描述示例性实施例。

图1是描绘了根据示例性实施例的噪声划分的图。

图2是描绘了根据示例性实施例在帧分类过程中的操作的图。

图3是描绘了rx-SNR估计对于控制浊音处理的浊音系数所具有的影响的图。

图4是描绘了在已经考虑了rx-SNR的影响之后tx-SNR估计对于浊音系数的影响的图。

图5是描绘了在已经定义了浊音系数之后齿擦音帧恒定衰减的定义的曲线图。

图6是描绘了根据示例性实施例在网络中应用的人工带宽扩展的图。

图7是描绘了根据示例性实施例在宽带终端处应用的人工带宽扩展的图。

具体实施方式

图1图示了根据帧分类算法将来自通信信号的帧12的噪声示例性地划分成谈话杂音噪声14和平稳噪声17。谈话杂音噪声14可以划分成浊音帧15和闭塞辅音16。平稳噪声17可以划分成浊音帧18、闭塞辅音19和齿擦音帧20。谈话杂音噪声检测是基于对频率分量的谱分布有所反映的特征的，因此区分了在低频噪声与具有更多高频分量的谈话杂音噪声。

对噪声条件有所考虑可以在保持感知质量的同时改进语音可懂度。噪声依赖性可以划分成rx-噪声(远端)依赖性和tx-噪声(近端)依赖性。rx-噪声依赖性使得有可能通过在谈话杂音噪声和嘈杂的平稳噪声期间避免对高频带产生干扰噪声来增加音频质量。通过基于噪声模式和rx-噪声电平估计对算法进行调整来增加音频质量。另一方面，tx-噪声依赖性使得有可能调节算法使得可以最大化可懂度。在嘈杂的tx-噪声环境中，该算法可能非常激进(aggressive)，因为噪声掩盖了可能有的人为成分。在静默的tx-噪声环境中，通过最小化人为成分的量来最大化音频质量。

图2描绘了在示例性的帧分类过程中的操作，该过程示出了在识别不同音素组时使用的特征。在示例性实施例中，将帧分类成不同音素组的示例性的帧分类算法包括有助于分类准确性以及因此有助于增加所感知的音频质量的七个特征。这七个特征涉及对齿擦音的更佳检测以及特别地涉及从齿擦音帧中更佳地排除闭塞辅音。

帧分类过程基于这一特征矢量来执行分类判决。在示例性实施例中，为每个特征预定义有阈值，而且通过测试满足了哪一条件来进行判决。七个特征可以包括(1)梯度指数、(2)rx-背景噪声电平估计、(3)rx-SNR估计、(4)梯度指数的总体水平、(4)窄带频谱的斜率(5)连续帧的能量比、(6)关于如何对先前帧进行处理的信息和(7)算法运用于其中的噪声模式。

梯度指数是对语音信号在每次方向改变时的梯度量值之和的测量。在齿擦音检测中使用它是因为齿擦音的波形比周期性的浊音波形更为经常和突然地改变方向。作为例子，对于齿擦音帧而言，梯度指数的值应当大于阈值。

该梯度指数可以定义为：

x_{gi} = \frac{1}{10} \frac{Σ_{k = 1}^{N_{κ} - 1} Ψ (κ) | s_{nb} (κ) - s_{nb} (κ - 1) |}{\sqrt{Σ_{κ = 0}^{N_{κ} - 1} {(s_{nb} (κ))}^{2}}},

其中ψ(k)＝1/2|ψ(k)-ψ(k-1)|和ψ(k)是梯度s_nb(k)-s_nb(k-1)的符号。

rx-背景噪声电平估计可以基于一种被称作最小值统计的方法。最小值统计涉及到对信号的能量进行滤波以及在短的子帧中搜寻它的最小值。每帧的背景噪声电平估计被选择为四个前子帧的多个最小值中的最小值。此估计方法规定，即使有人在说话，在仅含背景噪声的词语与音节之间仍然有一些短的停顿。因此通过搜索信号能量的最小值，可以找到那些停顿瞬间。将具有高背景噪声电平的信号作为浊音来处理，因为高频带的放大也会通过使噪声听起来令人厌烦来影响该噪声。

根据平均帧能量和背景噪声电平估计来计算rx-SNR估计：

需要一种表现梯度指数总体水平的特征以防止在静默时段期间的错误齿擦音检测。如果梯度指数的总体水平高，例如高于75％或者先前20帧具有大于0.6的梯度指数，则认为该帧仅含高通特征的背景噪声而没有进行齿擦音检测。在这一特征之后的原因是语音不是常常含有这样的摩擦音的。

窄带幅度谱的斜率在齿擦音期间为正，而它对于浊音而言为负。窄带斜率这一特征在这里被定义为在频率0.3kHz和3.0kH处的幅度谱之差。

能量比被定义为当前帧的能量与前一帧的能量之商。齿擦音检测要求当前帧和先前两帧没有太高的能量比。另一方面，在爆破音的情况下，能量比为高的，因为爆破音通常由寂静阶段以及随后的猝发音和送气音构成。

称为last_frame的参数包含与如何对前一帧进行处理有关的信息。之所以需要此参数是因为要对视为齿擦音帧的第一帧和第二帧进行相对于其余帧而言不同的处理。从浊音到齿擦音的转变应当平稳。另一方面，对于前两个检测到的帧实际上就是齿擦音这一点并不确信，因此对它们仔细地进行处理以避免可听到的人为成分这一点可能至关重要。摩擦音的持续时间通常长于其它辅音的持续时间。为了甚至更为精确，其它摩擦音的持续时间常常短于齿擦音的持续时间。

参数noise_mode包含与算法运用于其中的噪声模式有关的信息。优选地，正如参照图1所述的，有平稳噪声模式和谈话杂音噪声模式这两种噪声模式。

浊音帧的修改函数的最大衰减量一般应当在相邻帧之间被限制于仅2dB范围。此条件确保了高频带中的平稳变化，以及由此减少可听到的人为成分。齿擦音高频带的变化率也受到控制。被视为齿擦音的第一帧具有15dB的额外衰减，而第二帧具有10dB的额外衰减。这些额外衰减确保了从浊音音素到齿擦音的平稳转变。

具体参照图2，使用了if then语句和基于if-then判断的判断方块来描绘根据本发明一个实施例的帧分类过程的示例过程。如果能量比为零，则语音信号被判断为闭塞辅音(方块22)。否则语音信号是浊音帧(方块24)。一旦已经进行了能量比检查，可以针对预设的限制来进行噪声和梯度指数的检查。例如，如果rx_bgnoise大于预定的限制，梯度索引大于预定的限制，能量比为零，梯度计数小于预定的限制，而且nb_slope大于预定的限制，则语音信号被视为适度齿擦音(方框25)而last_frame参数被设置为零。否则last_frame被设置为一并且再次检查能量比。

其它的if-then语句也可以用来判断语音信号是否被视为适度齿擦音(方框26)、齿擦音(方块27)或者齿擦音(方块28)，而last_frame参数被改变为反映如何对前一帧进行处理。

如前所述，噪声可以划分成平稳噪声和谈话杂音噪声。谈话杂音噪声检测基于三个特征：基于梯度指数的特征、基于能量信息的特征和背景噪声电平估计。能量信息E_i可以被定义为：

E_{i} = \frac{E [{s^{''}}_{nb} (n)]}{E [s_{nb} (n)]}

其中s(n)是时域信号，E[s”_nb]是该信号二次导数的能量，而E[s_nb]是信号的能量。对于谈话杂音噪声检测而言，基本信息不是E_i的准确值而是它的值有多么频繁地处于相当高的值。因而，在谈话杂音噪声检测中使用的实际特征不是E_i而是它有多么频繁地超过某一阈值。此外，由于长期趋势引人关注，所以对E_i的值是否为高的这一信息进行滤波。实施这一点使得如果能量信息的值大于阈值，则对IIR滤波器的输入是一，否则是零。IIR滤波器可以表达为：

H (z) = \frac{1 - a}{1 - {az}^{- 1}},

其中α是依赖于能量信息变化方向的冲击(attack)或者释放(release)常数。

在当前语音声音具有高通特征如例如/s/时，能量信息也可以具有高的值。为了将这些情况从IIR滤波器输入中排除，只有在帧未被视为可能的齿擦音时(即梯度指数小于预定义的阈值)才更新经IIR滤波的能量信息。

梯度指数是在谈话杂音噪声检测中使用的另一特征。在谈话杂音噪声检测中，梯度指数可以利用与针对能量信息特征而使用的滤波器种类相同的滤波器来进行IIR滤波。背景噪声估计可以基于一种上文所描述的、被称为最小值统计的方法。

如果所有三个特征(经IIR滤波的能量信息、经IIR滤波的梯度指数和背景噪声电平估计)超过某些阈值，则该帧被视为包含谈话杂音噪声。在至少一个实施例中，为了使谈话杂音噪声检测算法更为鲁棒，使用十五个连续平稳帧来进行对于该算法运用于平稳噪声模式中的这一最后判决。另一方面，从平稳噪声模式到谈话杂音噪声模式的转变只需一帧。

对于噪声依赖性而言，可以使用三个参数。这些参数包括rx-噪声模式判决、rx-信噪比(rx-SNR)和tx-信噪比(tx-SNR)。可以使用最小值统计方法来计算背景噪声电平的估计。可以根据背景噪声电平估计和帧信号的平均能量来估计SNR：

为了避免SNR估计中的骤跳，可以用如下滤波器对它们进行IIR滤波，该滤波器与在谈话杂音噪声检测中使用的滤波器相似但是具有不同的冲击常数和释放常数。

针对浊音帧可以定义新的参数voiced_const。该参数可以包括用于浊音帧的以分贝为单位的额外恒定增益，以及由此确定对窄带信号的镜像进行修改的量。较大的负值表示较大的衰减和较保守的人工带宽扩展(ABE)信号。参数voiced_const的值可以依赖于rx-SNR和tx-SNR。先可以根据在图3中描绘的曲线图来计算voiced_const的值，此后可以向它添加tx-SNR、tx_factor的效应(图4)。参数tx_factor在tx噪声出现时变成正值，因此减少了衰减量而且使算法更为激进。

为了提供用于对算法进行简易调节的手段，可以利用三个其它的新参数来控制voiced_const的计算以及由此控制算法的整个表现，这三个参数为：abe_control、rx_control和tx_control。下面描述它们之中的每个参数所具有的效果。

参数abe_control改变了浊音const-曲线的总体水平以及由此改变了算法的总体保守度/激进度。最大值(1)表示很激进的表现。另一方面，最小值(0)表示最保守的表现。值范围是[0，1]，而缺省值在两个噪声模式中都是0.5，如图3中所示。

参数rx_control改变voiced_const-曲线的斜率。最大值(1)表示了rx-噪声水平不影响算法。另一方面最小值(0)表示最强的依赖性。值范围是[0，1]，而缺省值在两个噪声模式中都是0.5，如图3中所示。

参数tx_control改变tx-factor的步长大小。最大值(1)表示最强的依赖性。另一方面，最小值(0)表示了tx-噪声电平不影响算法。值范围是[0，1]，并且缺省值在平稳噪声模式中是0.5而在谈话杂音噪声模式中是0.4，如图4中所示。

齿擦音的处理也依赖于噪声模式和SNR估计。在谈话杂音噪声模式中，所有帧都被作为浊音帧来处理，因此不执行齿擦音检测，因为在谈话杂音噪声期间该检测可能生成错误的齿擦音检测，这是由于背景噪声包含类似齿擦音的帧。

在平稳噪声模式中，具有高背景噪声电平的信号也可以作为浊音来处理，因为高频带的放大也通过使噪声听起来令人厌烦来影响该噪声。另一方面，在具有低电平平稳噪声的信号情况下，可以检测齿擦音，而且通过参数const_att来控制用于齿擦音的修改函数。此参数对于齿擦音而言是额外的恒定增益，使得如果浊音帧被强烈地衰减，则齿擦音也具有较大的额外恒定衰减。换而言之，const_att的值依赖于voiced_const的值，就如同图5所示那样。

为了提供用于对算法进行简易调节的手段，还有用于齿擦音帧的可调参数，该参数控制齿擦音的总体处理。sibilant_const参数改变恒定衰减-曲线的总体水平。最大值(1)表示很激进的齿擦音。另一方面，最小值(0)表示最保守的表现。值范围是[0，1]，而缺省值是0.5，如图5中所示。

图6图示了如何在网络中应用人工带宽扩展(ABE)。在应用于网络中时，ABE可以实施于使用窄带编码解码器和宽带编码解码器这二者的网络中。图7图示了如何在终端中应用人工带宽扩展(ABE)。如所应用于终端中的，ABE设置于终端而且从网络接收窄带通信。ABE将通信扩展成用于终端的宽带。ABE算法在终端中可以利用数字信号处理器(DSP)来实施。

所述算法减少了由帧的误分类所造成的人为成分的数目。另外，rx-噪声和tx-噪声依赖性使得有可能在不同的噪声情形中不同地调节该算法，使得在每个情形中都将音频质量和可懂度最大化。所述ABE的其它优点包括不需要附加的传送信息以便改进语音质量的自然度。不需要存储代码簿。另外，可以用合理的计算成本实时地实施ABE。使用鲁棒频域方法来计算对混淆频率分量的调整。这减少了由于较高频率分量的不充分衰减而造成质量恶化这一风险。

此具体描述概括了用于信号质量改进的增强型人工带宽扩展的一种方法、设备和系统的示例性实施例。在以上的描述中出于说明的目的而阐述了许多具体细节以便提供对本发明的透彻理解。然而对于本领域技术人员是明显的，示例性实施例即使没有这些具体细节仍然可以付诸实践。在其它实例中，以框图形式示出了结构和设备以便有助于对示例性实施例的描述。

尽管在图中图示的和在上文中描述的示例性实施是当前优选的，但是应当理解这些实施例仅以例子的方式来提供。其它实施例例如可以包括用于执行相同操作的不同技术。本发明不拘泥于特定实施例而是延及依然落入所附权利要求书的范围和精神之内的各种修改、组合和变换。

Claims

1.一种用于将窄带语音信号扩展成宽带语音信号的方法，所述方法包括：

根据信号确定信号类型信息；

使用所述确定的信号类型信息来获得用于形成上频带信号的特征；

确定信号噪声信息，包括估计近端信噪比和使用与所述信号的部分的能量有关的信息和背景噪声电平估计来估计远端信噪比；

使用所述确定的信号噪声信息来修改所述获得的用于形成所述上频带信号的特征；以及

使用所述修改的特征来形成所述上频带信号。

2.根据权利要求1所述的方法，其中所述信号类型信息基于信号梯度指数、信号远端信噪比和信号近端信噪比来确定。

3.根据权利要求2所述的方法，还包括基于所述梯度指数和所述远端信噪比将所述信号分类成不同的音素组。

4.根据权利要求1所述的方法，还包括检测所述信号中的谈话杂音噪声。

5.根据权利要求4所述的方法，其中基于所述梯度指数、能量信息和噪声电平估计来检测所述谈话杂音噪声。

6.根据权利要求4所述的方法，其中根据所述信号的期望值与所述信号的二次导数的期望值之比来获得能量信息。

7.一种被配置用以接收宽带信号的通信设备，所述设备包括：

用于与无线网络通信的装置；以及

扩展装置，用以通过基于噪声条件调整人工带宽扩展算法将收到的窄带信号扩展成宽带信号，其中所述噪声条件包括远端信噪比和近端信噪比。

8.根据权利要求7所述的设备，其中所述扩展装置进一步配置用以基于梯度指数、能量信息和噪声电平估计来检测谈话杂音噪声。

9.根据权利要求7所述的设备，其中所述扩展装置包括数字信号处理器(DSP)。

10.一种在通信网络中将窄带语音信号扩展成宽带语音信号的设备，所述设备包括：

用于在网络中接收窄带语音信号的装置；

用于将宽带语音信号传送到与所述网络通信的宽带终端的装置；以及

扩展装置，用于通过基于噪声条件调整人为带宽扩展算法将所述窄带语音信号扩展成宽带语音信号，其中所述噪声条件包括远端信噪比和近端信噪比。

11.根据权利要求10所述的设备，其中所述扩展装置还被配置用以基于梯度指数、能量信息和噪声电平估计来检测谈话杂音噪声。

12.一种用于将窄带语音信号扩展成宽带语音信号的系统，所述系统包括：

用于根据信号确定信号类型信息的装置；

用于使用所述确定的信号类型信息来获得用于形成上频带信号的特征的装置；

用于确定信号噪声信息的装置，其中确定信号噪声信息包括估计近端信噪比和使用与所述信号的部分的能量有关的信息和背景噪声电平估计来估计远端信噪比；

用于使用所述确定的信号噪声信息来修改所述获得的用于形成所述上频带信号的特征的装置；以及

用于使用所述修改的特征来形成所述上频带信号的装置。

13.根据权利要求12所述的系统，其中所述信号类型信息基于信号梯度指数、信号远端信噪比和信号近端信噪比来确定。

14.根据权利要求12所述的系统，还包括检测所述信号中的谈话杂音噪声。