CN108198571A

CN108198571A - 一种基于自适应带宽判断的带宽扩展方法及系统

Info

Publication number: CN108198571A
Application number: CN201711394223.0A
Authority: CN
Inventors: 白海钏; 张鹏远; 颜永红; 郭亮; 王天宝
Original assignee: Institute of Acoustics CAS; Tencent Technology Beijing Co Ltd
Current assignee: Institute of Acoustics CAS; Tencent Technology Beijing Co Ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-06-22
Anticipated expiration: 2037-12-21
Also published as: CN108198571B

Abstract

本发明公开了一种基于自适应带宽判断的带宽扩展方法，所述方法包括：步骤1)根据设置的语音信号的输入采样率和输出采样率，对输入语音信号x(n)进行采样率转换，输出信号y(n)，其采样率为输出采样率；步骤2)计算信号y(n)的帧能量值，依次对信号y(n)进行低通、带通和高通滤波处理，计算处理后信号与信号y(n)的帧能量值的比值，将比值与相应阈值进行比较，从而判定信号的有效频带宽度是否存在，并根据判定结果进一步判定是否需要对信号y(n)进行带宽扩展，如果需要，转入步骤3)，否则，直接将输入信号y(n)进行输出；步骤3)对信号y(n)的进行带宽扩展，然后输出。本发明的方法及系统在可变采样率、可变带宽条件下，能够稳健地实现对语音带宽的扩展。

Description

一种基于自适应带宽判断的带宽扩展方法及系统

技术领域

本发明涉及语音信号的带宽扩展方法，更具体地说，涉及一种基于自适应带宽判断的带宽扩展方法及系统。

背景技术

根据人们对语音质量的实际需求，数字语音技术所重现信号的带宽会受到一定的限制。为此，语音可以分为窄带、宽带、超宽带和全带四种。其中全带信号的有效带宽覆盖了人耳能感知全部频率范围(20Hz～20kHz)，这类音频主要用于音乐信号的高保真重现，所需要的网络传输速率和终端计算能力相对较高，不适合语音信号的即时通信。传统电话语音通常采用窄带语音信号，其频率分布在300Hz～3.4kHz内，采样率为8kHz，可以满足人们基本通话需求，但存在语音主观感知质量不高等缺陷。电话语音通信领域中，采样率16kHz、有效带宽为50Hz～7kHz宽带音频的引入可以获得更好的语音可懂度。此外，与宽带语音信号相比，32kHz采样的超宽带语音频带范围进一步扩大到50Hz～14kHz，其重现声音具有更好的自然度和表现力。

鉴于较高带宽的语音信号具有良好的听觉质量，宽带、超宽带语音处理技术日益成为电视电话会议、网络流媒体等通信传输市场的热点。然而，信号带宽的提高必然导致处理数据量的增加，而数据量增加所导致网络服务器在传输、运算、存储能力方面的设备改动将会十分繁琐，对基站设备的大规模升级也将会耗资巨大。与此同时，超宽带语音传输需要终端设备至少包含更加先进的前端声电器件和数模转换器，同时还要具备新的超宽带语音编码器以及向下兼容宽窄带通信的处理能力。而要求大多数用户为终端设备的更新进行投资也是不切实际的。并且在复杂的语音通信传输系统中，由于受到码率限制、设备缺陷等方面影响，输入信号带宽不够稳定，存在可变带宽的现象。因此，受到历史、经济、技术等诸多问题的限制，在不同带宽设备长期共存的过渡时期中，如何最小代价地改善现有宽带通信设备的兼容性使其能够较为稳定地达到宽带甚至超宽带处理能力就成为现代通信系统亟待解决的问题。

作为一种有效的语音增强方法，语音带宽扩展(Bandwidth Extension，BE)日臻成为过渡时期宽带、超宽带语音处理领域研究的最新热点。它在不影响网络传输和宽带信号信源编码的前提下，通过分析原始全带语音的信号特点，在接收端对重建的窄带或者宽带语音人为增加一定的频率信息，恢复其截去的高频带成分，从而达到增强听觉质量、重现宽带或者超宽带语音的目的。在目前网络传输条件下，该技术的引入对于缓解通信设备兼容性不足和用户高质量语音需求间的矛盾具有十分重要的现实意义，因此近几年来国内外学者针对带宽扩展技术进行了广泛而深入的研究。然而，目前传统的音频带宽扩展方法一般仅针对具有固定频带宽度的信号进行处理，能够在固定采样率和固定带宽条件下，对高频部分进行较好的重建。但在实际语音通信系统中，输入语音信号的采样率和带宽通常并不满足固定传输的条件，针对可变带宽语音通信，现有的带宽扩展方法中难以找到合适的解决方案。

发明内容

本发明的目的在于克服目前带宽扩展方法无法满足可变带宽语音通信的问题,提出了一种基于自适应带宽判断的带宽扩展方法,该方法对于不同带宽的语音,根据采样率和帧能量判断其是否能够进行带宽扩展，对于满足带宽扩展条件的进行后续的带宽扩展处理，否则，直接输出原语音信号。

为了实现上述目的，本发明提供了一种基于自适应带宽判断的带宽扩展方法，所述方法包括：

步骤1)根据设置的语音信号的输入采样率和输出采样率，对输入语音信号x(n)进行采样率转换，输出信号y(n)，其采样率为输出采样率；

步骤2)计算信号y(n)的帧能量值，依次对信号y(n)进行低通、带通和高通滤波处理，计算处理后信号与信号y(n)的帧能量值的比值，将比值与相应阈值进行比较，从而判定信号的有效频带宽度是否存在，并根据判定结果进一步判定是否需要对信号y(n)进行带宽扩展，如果需要，转入步骤3)，否则，直接将输入信号y(n)进行输出；

步骤3)对信号y(n)的进行带宽扩展，然后输出。

作为上述方法的一种改进，所述步骤1)具体为：

设输入采样率为SR_in，输出采样率为SR_out；

当满足SR_out＝SR_in条件时，输出信号y(n)为输入语音信号x(n)；

当满足SR_out＝2*SR_in条件时，对输入语音信号x(n)进行上二采样和低通滤波处理，得到采样率加倍而带宽不变的信号y(n)。

作为上述方法的一种改进，所述步骤2)具体包括：

步骤2-1)计算信号y(n)的帧能量值E；

步骤2-2)将信号y(n)采用截止频率为F_L的低通滤波器进行处理，得到滤波后的信号，计算该信号y(n)的帧能量值E_LW，然后，计算能量比例R_L＝E_LW/E，将R_L与第一阈值R₁进行比较，若大于第一阈值R₁，则判定该带宽成分存在，然后，转入步骤2-3)；否则，直接将信号y(n)进行输出；其中，F_L表示较低带宽频率值；

步骤2-3)将信号y(n)采用上下截止频率分别为F_L和F_H的带通滤波器进行处理，得到滤波后的信号，计算该信号的帧能量值E_BW，然后计算能量比例R_B＝E_BW/E，将R_B与第二阈值R₂进行比较，若大于第二阈值R₂，则判定该带宽成分存在，然后转入步骤2-4)；否则，转入步骤3)，进行当前采样率下F_L～F_H的带宽扩展；其中，F_H表示较高带宽频率值；

步骤2-4)将信号y(n)采用截止频率为F_H，F_H<F_MAX的高通滤波器进行处理，得到滤波后的信号；计算该信号的帧能量值E_HW，然后计算能量比例R_H＝E_HW/E，将R_H与第三阈值R₃进行比较，若大于第三阈值R₃，则判定该带宽成分存在，直接将信号y(n)进行输出；否则，转入步骤3)，进行当前采样率下F_H～F_MAX的带宽扩展处理；F_MAX表示在某一固定采样率下语音信号所能达到的最大带宽频率值。

作为上述方法的一种改进，所述F_L和F_H是根据信号输出采样率和需求设定的经验值。

作为上述方法的一种改进，所述第一阈值R₁、第二阈值R₂和第三阈值R₃采用概率统计方法进行确定。

作为上述方法的一种改进，所述步骤3)之前还包括：

根据不同采样率和带宽的训练样本数据，采用线性预测分析、高斯混合模型、隐马尔可夫模型或深度神经网络，训练出固定采样率下针对带宽F_L～F_H范围进行扩展的中频带宽扩展模型和固定采样率下针对带宽F_H～F_MAX范围进行扩展的高频带宽扩展模型。

作为上述方法的一种改进，所述步骤3)具体包括：

若y(n)已包含0～F_L带宽成分但不包含F_L～F_H带宽成分，采用中频带宽扩展模型进行扩展；

若y(n)已包含0～F_L带宽成分和F_L～F_H带宽成分但不包含F_H～F_MAX带宽成分，则采用高频带宽扩展模型进行扩展；

最后，将带宽扩展后的信号进行输出。

一种基于自适应带宽判断的带宽扩展系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法的步骤。

本发明的优势在于：

本发明的方法及系统不仅可以保证原始输入语音信号的质量，而且在可变采样率、可变带宽条件下，能够稳健地实现对语音带宽的扩展，从而获得更加饱满、音质更加清晰透亮的宽带或超宽带语音信号。

附图说明

图1为本发明的基于自适应带宽判断的带宽扩展方法的流程图；

图2为本发明的采样率转换框图；

图3为本发明的基于滤波器和能量比例的带宽判断原理框图；

图4为本发明的基于源-滤波器模型的带宽扩展方法框图。

具体实施方式

如图1所示，本发明的基于自适应带宽判断的带宽扩展方法，首先，将输入语音信号分帧，依照给定的输入输出采样率对其进行采样率转换，并计算该信号的有效频带宽度。然后，根据BE控制开关(标识符置为1表示打开BE模块，置为0表示关闭)、输入输出采样率和实际语音带宽，判断输入语音是否需要进行BE。具体判断策略如表1所示。

表1输入参数与BE配置对应表

当判断语音无需进行BE时，直接输出原始语音或采样率加倍、带宽不变的语音信号；当判断语音需要进行BE时，针对不同情况对输入语音进行相应的带宽扩展，BE的不同情况如下：

1、超宽带语音BE：采样率32kHz带宽12kHz的超宽带语音扩展为采样率32kHz带宽16kHz的超宽带语音信号(采样率不变)。

2、宽带语音BE：采样率16kHz带宽6kHz的宽带语音扩展为采样率16kHz带宽8kHz的宽带语音信号(采样率不变)、采样率16kHz带宽8kHz的宽带语音扩展为采样率32kHz带宽16kHz的超宽带语音信号(采样率加倍、带宽加倍)。

3、窄带语音BE：采样率8kHz带宽4kHz的窄带语音扩展为采样率16kHz带宽8kHz的宽带语音信号(采样率加倍、带宽加倍)。

对语音带宽进行扩展后，为避免频谱混叠对扩展后频谱采用高通滤波得到纯净的高频成分；下一步，根据系统输入的BE程度控制参数以及模糊映射软判决等方法对重建高频成分进行增益调整，最后结合原始低频成分，恢复重建具有更高带宽的语音信号。

综上所述，基于自适应带宽判断的BE系统主要包括带宽判断、带宽扩展和高频增益调整，下面主要针对前两部分进行详细介绍。

带宽判断模块主要包括采样率转换和带宽判断两部分内容，如图2和3所示：

如图2所示，当输入输出采样率满足SR_out＝SR_in条件时，直接输出原始语音信号；当输入输出采样率满足SR_out＝2*SR_in条件时，系统对输入语音进行上2采样和低通滤波处理，得到采样率加倍而带宽不变的语音信号并输出。无论采样率是否变化，本发明将经过采样率转换模块处理后的语音信号一律采用y(n)表示。经过采样率转换之后，系统开始对信号y(n)的带宽进行判断，如图3所示。

如图3所示，第一步，根据输入的每帧信号y(n)，计算其帧能量E。然后，根据采样率转换之前的原始输入采样率SR_in对信号y(n)的有效带宽进行判断，分为以下三种情况：

(1)当SR_in＝8kHz时，直接判定y(n)有效带宽为4kHz；

(2)当SR_in＝16kHz时，首先将y(n)通过截止频率为6kHz的高通滤波器，得到滤波后的信号y_h(n)；然后计算y_h(n)信号能量值E_w及其占帧能量E的比例值R_w；最后将R_w与统计方法得到的阈值R_T进行比较，若R_w大于R_T，则判定原始宽带语音信号的6kHz～8kHz高频成分存在，带宽输出结果为8kHz；否则判定这部分不存在，带宽输出结果为6kHz。

(3)当SR_in为32kHz时，首先将y(n)通过截止频率为12kHz的高通滤波器，得到滤波后的信号y’_h(n)；然后计算y’_h(n)信号能量值E_sw及其占帧能量E的比例值R_sw；最后将R_sw与阈值R’_T进行比较，若R_sw大于R’_T，则判定原始超宽带语音信号的12kHz～16kHz高频成分存在，带宽输出结果为16kHz；否则判定该部分不存在，带宽输出结果为12kHz。

另外，上述带宽判断方法具有很大程度的推广性。根据原始语音信号的输入采样率SR_in，本发明方法不仅可以判断宽带语音信号带宽为6kHz～8kHz或超宽带语音带宽为12kHz～16kHz的高频部分是否存在，同样也可以对原始窄带、宽带、超宽带和全带语音信号的低频带宽成分、中频带宽成分甚至是任意频率范围带宽成分的存在情况进行判定。具体方法可分为以下三类：

其中，F_L表示较低带宽频率值，F_H表示较高带宽频率值，F_MAX表示在某一固定采样率下所能达到的最大带宽频率值：

步骤2-1)计算信号y(n)的帧能量值E；

步骤2-2)将信号y(n)采用截止频率为F_L的低通滤波器进行处理，得到滤波后的信号，计算该信号的帧能量值E_LW，然后计算能量比例R_L＝E_LW/E，将R_L与第一阈值R₁进行比较，若大于第一阈值R₁，则判定该带宽成分存在，然后转入步骤2-3)；否则，直接将信号y(n)进行输出；

步骤2-3)将信号y(n)采用上下截止频率分别为F_L和F_H的带通滤波器进行处理，得到滤波后的信号，计算该信号的帧能量值E_BW，然后计算能量比例R_B＝E_BW/E，将R_B与第二阈值R₂进行比较，若大于第二阈值R₂，则判定该带宽成分存在，然后转入步骤2-4)；否则，进行当前采样率下F_L～F_H的带宽扩展；

步骤2-4)将信号y(n)采用截止频率为F_H，F_H<F_MAX的高通滤波器进行处理，得到滤波后的信号；计算该信号的帧能量值E_HW，然后计算能量比例R_H＝E_HW/E，将R_H与第三阈值R₃进行比较，若大于第三阈值R₃，则判定该带宽成分存在，直接将信号y(n)进行输出；否则，进行当前采样率下F_H～F_MAX的带宽扩展处理；

通过带宽判断处理得到原始输入语音的带宽情况后，系统根据BE控制开关标识符、输入采样率SR_in和输出采样率SR_out这三个输入参数的设定情况，结合带宽判断结果进一步判断是否将对输入语音进行BE处理，具体分析如表1所示。

若系统已判定需要对输入语音进行BE，则算法开始进行下面的带宽扩展。

BE具体步骤如图4所示，如图4所示，基于线性源-滤波器模型的带宽扩展理论，BE方法主要分为清浊判决、线性预测分析、包络扩展、激励扩展、线性预测合成和高通滤波等步骤。该方法首先对经过采样率转换和带宽判断处理后的语音y(n)进行清浊判决，包括预处理(去均值、低通滤波、数值滤波)、对数能量计算、互相关函数计算和最优基音延迟计算等步骤，得到语音清浊音标识符号；同时，对y(n)进行线性预测分析，得到较低带宽的谱包络特征(采用线谱频率参数Line Spectrum Frequency，即LSF来表示)和激励信号；然后根据清浊判决结果，采用码书映射、高斯混合模型、隐马尔科夫模型或者神经网络等方法分别针对信号y(n)的清、浊音较高带宽谱包络部分进行估计；同时采用频谱复制、频谱折叠、非线性计算或综合多带激励等方法实现对激励信号的扩展，在较大程度上保持了较高带宽语音信号的本质规律，还原了重建高频信号的音色；最后，采用线性预测合成对较高带宽的包络和激励进行重建，并通过高通滤波处理，得到重建较高带宽语音的纯净高频成分。

通过上述带宽判断和带宽扩展处理后，系统可以得到重建较高带宽语音的高频成分，然后采用模糊映射软判决和输入参数中的BE程度控制标识符(范围0～1：数值越接近于1，高频能量越接近于BE系统重建的高频成分；当标识符置为0时，语音带宽无扩展)对重建语音高频进行增益调整；最后结合经过采样率转换后语音信号的低频成分，恢复重建具有更高带宽的语音信号。

根据不同采样率和带宽的训练样本数据，采用线性预测分析、高斯混合模型、隐马尔可夫模型或深度神经网络训练出固定采样率下针对带宽F_L～F_H范围进行扩展的中频带宽扩展模型和固定采样率下针对带宽F_H～F_MAX范围进行扩展的高频带宽扩展模型。所以带宽扩展模块包含不同的中频、高频带宽扩展模型。根据上述带宽判断过程，本专利可以自适应匹配不同的带宽扩展模型进行带宽扩展，重建不同采样率条件下的高频成分。

不同采样率条件下，带宽扩展模块包含不同的中频带宽扩展模型和不同的高频带宽扩展模型，原因在于训练模型样本不同，所得到的带宽扩展模型各项参数均有所差异。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于自适应带宽判断的带宽扩展方法，所述方法包括：

步骤3)对信号y(n)的进行带宽扩展，然后输出。

2.根据权利要求1所述的基于自适应带宽判断的带宽扩展方法，其特征在于，所述步骤1)具体为：

设输入采样率为SR_in，输出采样率为SR_out；

当满足SR_out＝SR_in条件时，输出信号y(n)为输入语音信号x(n)；

3.根据权利要求1所述的基于自适应带宽判断的带宽扩展方法，其特征在于，所述步骤2)具体包括：

步骤2-1)计算信号y(n)的帧能量值E；

4.根据权利要求3所述的基于自适应带宽判断的带宽扩展方法，其特征在于，所述F_L和F_H是根据信号输出采样率和需求设定的经验值。

5.根据权利要求3所述的基于自适应带宽判断的带宽扩展方法，其特征在于，其中，所述第一阈值R₁、第二阈值R₂和第三阈值R₃采用概率统计方法进行确定。

6.根据权利要求1所述的基于自适应带宽判断的带宽扩展方法，其特征在于，所述步骤3)之前还包括：

7.根据权利要求6所述的基于自适应带宽判断的带宽扩展方法，其特征在于，所述步骤3)具体包括：

最后，将带宽扩展后的信号进行输出。

8.一种基于自适应带宽判断的带宽扩展系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～7之一所述方法的步骤。