CN108831500A

CN108831500A - 语音增强方法、装置、计算机设备及存储介质

Info

Publication number: CN108831500A
Application number: CN201810528830.XA
Authority: CN
Inventors: 涂宏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-29
Filing date: 2018-05-29
Publication date: 2018-11-16
Anticipated expiration: 2038-05-29
Also published as: WO2019227590A1; CN108831500B

Abstract

本发明公开了一种语音增强方法、装置、计算机设备及存储介质。该语音增强方法包括：获取待处理语音数据，所述待处理语音数据包括待处理语音信号和待处理噪声信号；分别对所述待处理语音信号和所述待处理噪声信号进行预处理，获取语音信号频谱和噪声信号频谱；获取所述语音信号频谱和所述噪声信号频谱的频谱差值，若所述频谱差值小于预设阈值，则采用谱减法对所述语音信号频谱和所述噪声信号频谱进行谱减处理，获取原始语音信号；采用带通滤波器对所述原始语音信号进行过滤处理，获取中间语音信号；对所述中间语音信号进行傅里叶逆变换，获取目标语音信号。该语音增强方法进行语音增强，具有实现简单和精度高的优点。

Description

语音增强方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音增强方法、装置、计算机设备及存储介质。

背景技术

随着语音识别技术的广泛使用，语音信号处理技术的需求也随之扩大。目前，在语音识别或声纹识别过程中，由前端设备采集到的语音信号一般都带有噪声，包括背景环境中的噪声以及前端设备录音过程中产生的噪声。这些携带噪声的语音信号在进行语音识别时，会影响语音识别的准确性，因此，需要对语音信号进行语音增强处理(即对语音信号进行降噪处理)，以从该语音信号中尽可能提取到更纯净的语音信号，以使语音识别更加准确。当前对语音信号进行语音增强处理后提取的语音信号精度不高，不利于后续进行语音识别。

发明内容

基于此，有必要针对上述技术问题，提供一种可以提升语音增强处理后语音信号精度的语音增强方法、装置、计算机设备及存储介质。

一种语音增强方法，包括：

获取待处理语音数据，所述待处理语音数据包括待处理语音信号和待处理噪声信号；

分别对所述待处理语音信号和所述待处理噪声信号进行预处理，获取语音信号频谱和噪声信号频谱；

获取所述语音信号频谱和所述噪声信号频谱的频谱差值，若所述频谱差值小于预设阈值，则采用谱减法对所述语音信号频谱和所述噪声信号频谱进行谱减处理，获取原始语音信号；

采用带通滤波器对所述原始语音信号进行过滤处理，获取中间语音信号；

对所述中间语音信号进行傅里叶逆变换，获取目标语音信号。

一种语音增强装置，包括:

待处理语音数据获取模块，用于获取待处理语音数据，所述待处理语音数据包括待处理语音信号和待处理噪声信号；

信号频谱获取模块，用于分别对所述待处理语音信号和所述待处理噪声信号进行预处理，获取语音信号频谱和噪声信号频谱；

原始语音信号获取模块，用于获取所述语音信号频谱和所述噪声信号频谱的频谱差值，若所述频谱差值小于预设阈值，则采用谱减法对所述语音信号频谱和所述噪声信号频谱进行谱减处理，获取原始语音信号；

中间语音信号获取模块，用于采用带通滤波器对所述原始语音信号进行过滤处理，获取中间语音信号；

目标语音信号获取模块，用于对所述中间语音信号进行傅里叶逆变换，获取目标语音信号。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音增强方法的步骤。

一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音增强方法的步骤。

上述语音增强方法、装置、计算机设备及存储介质，先获取待处理语音数据，待处理语音数据包括待处理语音信号和待处理噪声信号，以便获取语音信号频谱和噪声信号频谱的频谱差值，并将频谱差值与预设阈值进行判断，采用局部谱减方式对语音信号频谱和噪声信号频谱进行谱减运算，以去除背景环境噪声，获取原始语音信号，该谱减运算的计算过程简单，提高了运算效率。再采用带通滤波器对原始语音信号进行过滤处理，只保留说话人的语音信息，进一步提高语音增强的精度。最后，对中间语音信号进行傅里叶逆变换，获取目标语音信号，以实现语音增强的目的。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音增强方法的一应用环境图；

图2是本发明一实施例中语音增强方法的一流程图；

图3是图2中步骤S20的一具体流程图；

图4是图2中步骤S30的一具体流程图；

图5是图2中步骤S40的一具体流程图；

图6是本发明一实施例中语音增强装置的一示意图；

图7是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的语音增强方法，可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。

图1示出本发明一实施例中的应用环境图。该语音增强方法可应用在银行、证券、保险等金融机构或者其他机构配置的计算机设备上，用于在语音识别或声纹识别过程中对语音信号进行语音增强，以提高识别的准确率。

在一个实施例中，如图2所示，以该方法应用于图1中的服务器为例进行说明，包括如下步骤：

S10：获取待处理语音数据，待处理语音数据包括待处理语音信号和待处理噪声信号。

其中，待处理语音数据是前端设备的录音模块采集到的说话人的语音数据。具体地，该待处理语音数据可以是wav、mp3或其他格式的语音数据。待处理语音数据包括待处理语音信号和待处理噪声信号。待处理语音信号是前端设备的录音模块采集到的夹杂噪声的语音信号。待处理噪声信号是指待处理语音数据中的静音段，该静音段包括背景环境噪声对应的噪声信号。背景环境噪声是说话人所处环境的环境噪声。

具体地，服务器通过采用VAD(Voice Activity Detection，语音活动检测)算法对待处理语音数据进行端点检测，以获取静音段的语音数据，该静音段的语音数据即为待处理噪声信号；待处理语音数据中除静音段以外的语音数据即为待处理语音信号。VAD算法是用于实现在带有噪声的语音中准确的定位出语音的开始和结束的算法，可用于识别语音数据的信号流中长时间的静音段。本实施例中，服务器通过采用VAD算法对待处理语音数据进行端点检测，以获取待处理语音数据中的静音段，从而区分待处理语音信号和待处理噪声信号。

S20：分别对待处理语音信号和待处理噪声信号进行预处理，获取语音信号频谱和噪声信号频谱。

其中，语音信号频谱是待处理语音信号进行预处理后获取的信号频谱。语音信号频谱体现了不同信号频率下待处理语音信号的幅值变化。噪声信号频谱是待处理噪声信号进行预处理后获取的信号频谱。噪声信号频谱体现了不同信号频率下待处理噪声信号的幅值变化。幅值是在信号频谱中不同信号频率对应的数值。由于语音增强是基于语音信号的帧级进行运算的，不能直接对语音信号(噪声信号)进行语音增强处理，有助于提取目标语音信号(即噪声含量较低的语音信号)，因此，需要对待处理语音信号和待处理噪声信号进行预处理，为后续进行语音增强处理提供技术基础。

S30：获取语音信号频谱和噪声信号频谱的频谱差值，若频谱差值小于预设阈值，则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理，获取原始语音信号。

其中，原始语音信号是采用谱减法对语音信号频谱和噪声信号频谱进行处理后获取的语音信号。频谱差值是在同一信号频率下语音信号频谱对应的幅值和噪声信号频谱对应的幅值的差值。预设阈值是预先定义好的用于判断是否进行谱减处理的阈值。谱减法是利用噪声的统计平稳性以及加性噪声信号与语音信号不相关的特点而提出的一种语音增强方法。可以理解地，谱减法的基本思想是通过噪声段估计含噪语音信号中的噪声成分，然后将含噪声语音信号减去估计的噪声部分就得到了纯净的语音信号。谱减法具有计算简单、运算量小的优点，能够获得较高的信噪比。信噪比是指一个电子设备或者电子系统中信号与噪声的比例。

本实施例中，服务器采用局部谱减的方式对语音信号频谱和噪声信号频谱进行谱减运算，即先获取同一信号频率下的语音信号频谱和噪声信号频谱的频谱差值，然后将频谱差值与预设阈值进行判断，若频谱差值大于预设阈值时，则说明语音信号突出，则无需进行语音增强；若频谱差值小于预设阈值，则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理，获取原始语音信号。该过程无需对所有频率下的语音信号频谱和噪声信号频谱进行谱减处理，减少谱减运算的计算量，提高谱减处理效率。

S40：采用带通滤波器对原始语音信号进行过滤处理，获取中间语音信号。

其中，中间语音信号是采用带通滤波器对原始语音信号进行过滤处理获取到的以频域形式表示的语音信号。带通滤波器是指能通过某一频率范围内的频率分量，将该频率范围以外的频率分量衰减到极低水平的滤波器。通过采用带通滤波器过原始语音信号进行过滤，只保留说话人的语音，进一步提高了语音增强的精度。

S50：对中间语音信号进行傅里叶逆变换，获取目标语音信号。

其中，目标语音信号是将频域表示形式的中间语音信号转换为时域表示形式的语音信号。傅里叶逆变换是将一个信号从频域的表示形式映射到时域的表示形式的一种数字变换。具体地，傅里叶逆变换公式为其中，X(k)为中间语音信号，X(n)为目标语音信号，N为中间语音信号所包含的采样点数，为旋转因子。

本实施例所提供的语音增强方法中，服务器先获取待处理语音数据，待处理语音数据包括待处理语音信号和待处理噪声信号，并对待处理语音信号和待处理噪声信号进行预处理，获取语音信号频谱和噪声信号频谱，以便获取语音信号频谱和噪声信号频谱的频谱差值。采用局部谱减的方式对语音信号频谱和噪声信号频谱进行谱减运算，即需先将频谱差值与预设阈值进行比较判断，若频谱差值小于预设阈值，则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理，有效抑制背景环境噪声，获取原始语音信号，该谱减运算的计算过程简单，提高了运算效率。再采用带通滤波器对原始语音信号进行过滤处理，只保留说话人的语音，进一步提高了语音增强的精度。最后，对中间语音信号进行傅里叶逆变换，获取目标语音信号，以实现语音增强的目的。

在一实施例中，如图2所示，步骤S20中，即分别对待处理语音信号和待处理噪声信号进行预处理，获取语音信号频谱和噪声信号频谱，具体包括如下步骤：

S21：分别对待处理语音信号和待处理噪声信号进行分帧，获取至少两帧单帧语音信号和至少两帧单帧噪声信号。

由于待处理语音信号和待处理噪声信号整体上看不是平稳的，但是在局部上可以看作是平稳的。在语音识别或声纹识别过程中需要输入的是平稳信号，所以需要对待处理语音信号和待处理噪声信号进行分帧。

分帧是将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，涵盖的时间约为20-30ms左右。为避免相邻两帧的变化过大，通过使相邻两帧之间有一段重叠区域，此重叠区域包含了M个采样点，通常M的值约为N的1/2或1/3，此过程称为分帧。其中，每一帧单帧语音信号或每一帧单帧噪声信号包括N个采样点数(N为正整数)。由于单帧语音信号和单帧噪声信号的帧长相同，使得每一帧单帧语音信号包含的采样点数与每一帧单帧噪声信号包含的采样点数的数量相同。

具体地，由于每一帧的起始段和末尾端会出现不连续的地方，分帧越多会导致分帧后的语音信号与待处理语音信号的误差越大，或者导致分帧后的噪声信号与待处理噪声信号的误差越大。为了使分帧后的信号变得连续，每一帧都可以表现出周期函数的特征，因此，还需要对分帧后的信号进行加窗处理。

加窗是每一帧乘以汉明窗(即Hamming Window)，由于汉明窗的幅频特性是旁瓣衰减较大，通过加窗处理，可增加帧左端和帧右端的连续性。即通过分帧和加窗处理，可将非平稳语音信号转变为短时平稳信号。设分帧后的信号为S(n),n＝0,1…,N-1,N为帧的大小，乘以汉明窗的信号W(n)，则加窗后的信号为S'(n)＝S(n)×W(n)，其中，不同的a值会产生不同的汉明窗，一般情况下a取0.46。

S22：采用快速傅里叶变换公式分别对每一帧单帧语音信号和每一帧单帧噪声信号进行快速傅里叶变换，获取语音信号频谱和噪声信号频谱。

其中，语音信号频谱是语音信号在频域上的能量谱。噪声信号频谱是噪声信号在频域上的能量谱。具体地，由于后续谱减法是基于频域进行操作的，因此需采用快速傅里叶变换将时域信号转换为频域能量谱分析。

快速傅里叶变换(Fast Fourier Transform，以下简称FFT)是由离散傅里叶变换(Discrete Fourier Transform，以下简称DFT)的快速计算的统称。快速傅里叶变换用于将时域信号转换为频域能量谱。由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧信号还需进行快速傅里叶变换以得到在频谱上的能量分布。

对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧频谱(即能量谱)。快速傅里叶变换公式具体为x_i(w)＝FFT{x_i(k)}和n_i(w)＝FFT{n_i(k)}；其中，x_i(k)为第i帧的单帧语音信号，x_i(w)为第i帧的语音信号频谱，n_i(k)为第i帧的单帧噪音信号，n_i(w)为第i帧的噪声信号频谱。具体地，离散傅里叶变换的计算公式为其中，M为每一帧单帧语音信号或每一帧单帧噪声信号所包含的采样点数。由于在数据量较大时，DFT的算法复杂度高，计算量较大，耗费时间，因此采用快速傅里叶变换进行计算，以加快计算速度，节省时间。具体地，快速傅里叶变换是利用离散傅里叶变换公式中的旋转因子的特性，即周期性、对称性和可约性，采用蝶形运算对上述公式进行转换，以降低算法复杂度。

具体地，N个采样点的DFT运算称为蝶形运算,而FFT运算就由若干级迭代的蝶形运算组成。假设每一帧语音信号或每一帧噪声信号的采样点数为2^L个，L为正整数，若采样点不足2^L个，可以用0补位，起到满足帧内采样点数在2^L个，则蝶形运算的公式为其中，X'(k)'为偶数项分支的离散傅立叶变换，x”(k)”为奇数项分支的离散傅立叶变换。通过蝶形运算将N点的DFT运算转换为奇数项离散傅里叶变换或偶数项离散傅里叶变换进行计算，降低算法复杂度，实现高效运算的目的。

本实施例中，由于待处理语音信号或待处理噪声信号整体上看不是平稳的，但是在局部上可以看作是平稳的。在声纹识别过程中需要输入的是平稳信号，所以需要对待处理语音信号或待处理噪声信号进行分帧。分别对待处理语音信号和待处理噪声信号进行分帧，获取至少两帧单帧语音信号和至少两帧单帧噪声信号。并且，由于每一帧的起始段和末尾端会出现不连续的地方，分帧越多会导致分帧后的语音信号(或噪声信号)与待处理语音信号(或待处理噪声信号)的误差越大。为了使分帧后的信号变得连续，每一帧都可以表现出周期函数的特征，因此还需要对分帧后的信号进行加窗处理，以获取至少两帧单帧语音信号和至少两帧单帧噪声信号，以便采用快速傅里叶变换公式分别对每一帧单帧语音信号和每一帧单帧噪声信号进行快速傅里叶变换，获取语音信号频谱和噪声信号频谱，以降低运算复杂度加快计算速度，节省时间。

在一实施例中，如图3所示，步骤S30中，即获取语音信号频谱和噪声信号频谱的频谱差值，若频谱差值小于预设阈值，则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理，获取原始语音信号中，具体包括如下步骤：

S31：获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值的幅值差值。

具体地，频谱是由信号频率(横坐标)和对应的幅值(纵坐标)组成。谱减法的计算是将含噪声的语音信号频谱直接减去噪声信号频谱的估计值，以达到语音增强的效果，但这会导致语音增强的精度不够，语音增强效果不佳。因此，服务器先获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值，再计算同一信号频率下语音信号频谱对应的幅值与噪声信号频谱对应的幅值的幅值差值，并将该幅值差值与预设阈值进行比较，以确定是否进行谱减处理，以使谱减法由线到点，更加细致。

S32：若幅值差值小于预设阈值，则采用谱减法对同一信号频率下的语音信号频谱和噪声信号频谱进行谱减处理，获取原始语音信号。

具体地，若语音信号频谱中每一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值的幅值差值大于预设阈值，则说明语音信号突出，则无需进行语音增强。若同一信号频率对应的幅值的幅值差值小于预设阈值，则采用谱减法对同一信号频率下的语音信号频谱和噪声信号频谱进行谱减处理，获取原始语音信号，从线到点进行谱减运算，以使谱减运算更加细致化，有效抑制了背景环境噪声的干扰，达到语音增强的目的。

谱减法的计算公式为其中，其中，N为帧的数量，μ为噪声频谱的均值，s_i(W)为原始语音信号，x_i(w)为第i帧的语音信号频谱，n_i(w)为第i帧的噪声信号频谱。

本实施例中，由于谱减法的计算是将含噪声的语音信号频谱减去噪声信号频谱的估计值，以达到语音增强的效果，但这会导致语音增强精度不够，语音增强效果不佳。因此，服务器先获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中与同一信号频率对应的幅值的幅值差值，并与预设阈值进行比较，若幅值差值大于预设阈值时，则说明语音信号突出，则无需进行语音增强。若幅值差值小于预设阈值，则采用谱减法对同一信号频率下的语音信号频谱和噪声信号频谱进行谱减处理，获取原始语音信号，以使语音增强方法由线到点，更加细致，提高语音增强的精度。

在一实施例中，如图4所示，步骤S40中，即采用带通滤波器对原始语音信号进行过滤处理，获取中间语音信号，具体包括如下步骤：

S41：获取带通滤波器的频谱范围。

其中，带通滤波器的频谱范围是预先设定好的。本实施例中的带通滤波器的频谱范围为500HZ-3000HZ。具体地，由于人类的言语频率(人正常说话的频谱)主要在500HZ-3000HZ之间，低于500HZ和高于3000HZ的频谱范围可以默认为非说话人的声音频谱范围，因此采用带通滤波器过滤掉非说话人语音的频谱，只选择频谱范围在500-3000HZ的的原始语音信号(即只保留说话人的声音频谱范围)，以达到语音增强的目的。

S42：采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理，获取中间语音信号。

具体地，采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理，即只选择频谱范围在500HZ-3000HZ的的原始语音信号，以获取中间语音信号，以保留说话人语音，达到语音增强的目的。

本实施例中，先获取预先设定的带通滤波器的频谱范围，采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理，以获取中间语音信号，进一步提取说话人语音部分，提高了语音增强的精度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，图5示出与上述实施例中语音增强方法一一对应的语音增强装置的原理框图。如图5所示，该语音增强装置包括待处理语音数据获取模块10、信号频谱获取模块20、原始语音信号获取模块30、中间语音信号获取模块40和目标语音信号获取模块50。其中，待处理语音数据获取模块10、信号频谱获取模块20、原始语音信号获取模块30、中间语音信号获取模块40和目标语音信号获取模块50的实现功能与上述实施例中语音增强方法对应的步骤一一对应，为避免赘述，本实施例不一一详述。

待处理语音数据获取模块10，用于获取待处理语音数据，待处理语音数据包括待处理语音信号和待处理噪声信号。

信号频谱获取模块20，用于分别对待处理语音信号和待处理噪声信号进行预处理，获取语音信号频谱和噪声信号频谱。

原始语音信号获取模块30，用于获取语音信号频谱和噪声信号频谱的频谱差值，若频谱差值小于预设阈值，则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理，获取原始语音信号。

中间语音信号获取模块40，用于采用带通滤波器对原始语音信号进行过滤处理，获取中间语音信号。

目标语音信号获取模块50，用于对中间语音信号进行傅里叶逆变换，获取目标语音信号。

具体地，信号频谱获取模块20包括单帧信号获取单元21和信号频谱获取单元22。

单帧信号获取单元21，用于分别对待处理语音信号和待处理噪声信号进行分帧，获取至少两帧单帧语音信号和至少两帧单帧噪声信号；

信号频谱获取单元22，用于采用快速傅里叶变换公式分别对每一帧单帧语音信号和每一帧单帧噪声信号进行快速傅里叶变换，获取语音信号频谱和噪声信号频谱。

具体地，快速傅里叶变换公式具体为x_i(w)＝FFT{x_i(k)}和n_i(w)＝FFT{n_i(k)}；其中，x_i(k)为第i帧的单帧语音信号，x_i(w)为第i帧的语音信号频谱，n_i(k)为第i帧的单帧噪音信号，n_i(w)为第i帧的噪声信号频谱。

具体地，原始语音信号获取模块30包括幅值差值获取单元31和原始语音信号获取单元32。

幅值差值获取单元31，用于获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值的幅值差值。

原始语音信号获取单元32，用于若幅值差值小于预设阈值，则采用谱减法对同一信号频率下的语音信号频谱对应的幅值和噪声信号频谱对应的幅值进行谱减处理，获取原始语音信号。

具体地，谱减法的计算公式为

其中，

其中，N为帧的数量，μ为噪声频谱的均值，s_i(W)为原始语音信号，x_i(w)为第i帧的语音信号频谱，n_i(w)为第i帧的噪声信号频谱。

具体地，中间语音信号获取模块40包括频谱范围获取单元41和中间语音信号获取单元42。

频谱范围获取单元41，用于获取带通滤波器的频谱范围；

中间语音信号获取单元42，用于采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理，获取中间语音信号。

关于语音增强装置的具体限定可以参见上文中对于语音增强方法的限定，在此不再赘述。上述语音增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于用于存储执行语音增强方法过程中生成或获取的数据，如目标语音信号。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音增强方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取待处理语音数据，待处理语音数据包括待处理语音信号和待处理噪声信号；分别对待处理语音信号和待处理噪声信号进行预处理，获取语音信号频谱和噪声信号频谱；获取语音信号频谱和噪声信号频谱的频谱差值，若频谱差值小于预设阈值，则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理，获取原始语音信号；采用带通滤波器对原始语音信号进行过滤处理，获取中间语音信号；对中间语音信号进行傅里叶逆变换，获取目标语音信号。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：分别对待处理语音信号和待处理噪声信号进行分帧，获取至少两单帧语音信号和至少两帧单帧噪声信号；采用快速傅里叶变换公式分别对每一帧单帧语音信号和每一帧单帧噪声信号进行快速傅里叶变换，获取语音信号频谱和噪声信号频谱。具体地，快速傅里叶变换公式具体为x_i(w)＝FFT{x_i(k)}和n_i(w)＝FFT{n_i(k)}；其中，x_i(k)为第i帧的单帧语音信号，x_i(w)为第i帧的语音信号频谱，n_i(k)为第i帧的单帧噪音信号，n_i(w)为第i帧的噪声信号频谱。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值的幅值差值；若幅值差值小于预设阈值，则采用谱减法对同一信号频率下的语音信号频谱和噪声信号频谱进行谱减处理，获取原始语音信号。具体地，谱减法的计算公式为其中，其中，N为帧的数量，μ为噪声频谱的均值，s_i(W)为原始语音信号，x_i(w)为第i帧的语音信号频谱，n_i(w)为第i帧的噪声信号频谱。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取带通滤波器的频谱范围；采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理，获取中间语音信号。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待处理语音数据，待处理语音数据包括待处理语音信号和待处理噪声信号；分别对待处理语音信号和待处理噪声信号进行预处理，获取语音信号频谱和噪声信号频谱；获取语音信号频谱和噪声信号频谱的频谱差值，若频谱差值小于预设阈值，则采用谱减法对语音信号频谱和噪声信号频谱进行谱减处理，获取原始语音信号；采用带通滤波器对原始语音信号进行过滤处理，获取中间语音信号；对中间语音信号进行傅里叶逆变换，获取目标语音信号。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：分别对待处理语音信号和待处理噪声信号进行分帧，获取至少两单帧语音信号和至少两帧单帧噪声信号；采用快速傅里叶变换公式分别对每一帧单帧语音信号和每一帧单帧噪声信号进行快速傅里叶变换，获取语音信号频谱和噪声信号频谱。具体地，快速傅里叶变换公式具体为x_i(w)＝FFT{x_i(k)}和n_i(w)＝FFT{n_i(k)}；其中，x_i(k)为第i帧的单帧语音信号，x_i(w)为第i帧的语音信号频谱，n_i(k)为第i帧的单帧噪音信号，n_i(w)为第i帧的噪声信号频谱。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一信号频率对应的幅值的幅值差值；若幅值差值小于预设阈值，则采用谱减法对同一信号频率下的语音信号频谱和噪声信号频谱进行谱减处理，获取原始语音信号。具体地，谱减法的计算公式为其中，其中，N为帧的数量，μ为噪声频谱的均值，s_i(W)为原始语音信号，x_i(w)为第i帧的语音信号频谱，n_i(w)为第i帧的噪声信号频谱。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取带通滤波器的频谱范围；采用带通滤波器将原始语音信号的信号频率不在频谱范围内的原始语音信号进行过滤处理，获取中间语音信号。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音增强方法，其特征在于，包括：

2.如权利要求1所述的语音增强方法，其特征在于，所述分别对所述待处理语音信号和所述待处理噪声信号进行预处理，获取语音信号频谱和噪声信号频谱，包括：

分别对所述待处理语音信号和所述待处理噪声信号进行分帧，获取至少两单帧语音信号和至少两帧单帧噪声信号；

采用快速傅里叶变换公式分别对每一帧所述单帧语音信号和每一帧所述单帧噪声信号进行快速傅里叶变换，获取语音信号频谱和噪声信号频谱。

3.如权利要求2所述的语音增强方法，其特征在于，所述快速傅里叶变换公式具体为x_i(w)＝FFT{x_i(k)}和n_i(w)＝FFT{n_i(k)}；其中，x_i(k)为第i帧的单帧语音信号，x_i(w)为第i帧的语音信号频谱，n_i(k)为第i帧的单帧噪音信号，n_i(w)为第i帧的噪声信号频谱。

4.如权利要求1所述的语音增强方法，其特征在于，所述获取所述语音信号频谱和所述噪声信号频谱的频谱差值，若所述频谱差值小于预设阈值，则采用谱减法对所述语音信号频谱和所述噪声信号频谱进行谱减处理，获取原始语音信号，包括：

获取所述语音信号频谱中任一信号频率对应的幅值与噪声信号频谱中同一所述信号频率对应的幅值的幅值差值；

若所述幅值差值小于预设阈值，则采用谱减法对同一所述信号频率下的所述语音信号频谱和所述噪声信号频谱进行谱减处理，获取原始语音信号。

5.如权利要求1所述的语音增强方法，其特征在于，所述谱减法的计算公式为其中，

其中，N为帧的数量，μ为所述噪声频谱的均值，s_i(W)为所述原始语音信号，x_i(w)为第i帧的语音信号频谱，n_i(w)为第i帧的噪声信号频谱。

6.如权利要求1所述的语音增强方法，其特征在于，所述采用带通滤波器对所述原始语音信号进行过滤处理，获取中间语音信号，包括：

获取带通滤波器的频谱范围；

采用带通滤波器将所述原始语音信号的信号频率不在所述频谱范围内的原始语音信号进行过滤处理，获取中间语音信号。

7.一种语音增强装置，其特征在于，包括：

8.如权利要求7所述的语音增强装置，其特征在于，所述信号频谱获取模块，包括：

单帧信号获取单元，用于分别对所述待处理语音信号和所述待处理噪声信号进行分帧，获取至少两帧单帧语音信号和至少两帧单帧噪声信号；

信号频谱获取单元，用于采用快速傅里叶变换公式分别对每一帧所述单帧语音信号和每一帧所述单帧噪声信号进行快速傅里叶变换，获取语音信号频谱和噪声信号频谱。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音增强方法的步骤。

10.一种非易失性存储介质，所述非易失性存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音增强方法的步骤。