CN112767962A

CN112767962A - 一种语音增强方法及系统

Info

Publication number: CN112767962A
Application number: CN202110225559.4A
Authority: CN
Inventors: 文彬; 杨涛
Original assignee: Beijing Telecom Easiness Information Technology Co Ltd
Current assignee: Beijing Telecom Easiness Information Technology Co Ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-05-07
Anticipated expiration: 2041-03-01
Also published as: CN112767962B

Abstract

本发明提供一种语音增强方法及系统，所述方法包括：对待增强语音进行分帧、加窗、快速傅里叶变换(Fast Fourier Transformation，FFT)，将每一帧数据通过FFT转换到频域；采用直接判决法对当前帧先验信噪比进行初次估计；利用初次估计的先验信噪比对当前帧的纯净语音进行初次估计；利用所述当前帧的纯净语音初次估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计；利用二次估计的先验信噪比对纯净语音进行二次估计，并将二次估计的纯净语音进行反傅里叶变换转换到时域，作为最终的语音增强结果。本发明采用直接判决法和维纳滤波法结合，得到最终的语音增强结果，降低了混响效应。

Description

一种语音增强方法及系统

技术领域

本发明涉及语音处理技术领域，具体而言，涉及一种语音增强方法及系统。

背景技术

麦克风采集到的语音信号包含多种噪声，如鸣笛声、风扇声等，严重影响采集到的目标语音质量及可懂度，因此，对麦克风采集到的语音信号进行降噪处理至关重要。麦克风语音信号的降噪又称语音增强，根据信道数的不同，语音增强方法可分为单麦克风语音增强方法和多麦克风语音增强方法。其中，单麦克风语音增强技术仅需要一路语音信号即可实现语音增强，对麦克风的尺寸、功耗具有较低的要求。传统的单麦克风语音增强技术有多种，包括谱减法、最小均方误差法、维纳滤波法等，这些方法各有优缺点，在应用过程中需要根据实际需求灵活选取。

在使用单麦克风语音增强方法进行语音增强时，往往需要对不含语音的纯噪声段进行估计，并根据语音段每一帧信号的信噪比进行噪声去除。信噪比包括先验信噪比和后验信噪比，两者都可用于语音增强，但很多实践表明，基于先验信噪比的语音增强方法具有更优的效果。目前，先验信噪比的估计一般采用直接判决法(Decision Directed，DD)进行，但该方法由于在先验信噪比估计过程中使用了当前帧前一帧的数据，因此会引入混响效应。

发明内容

鉴于此，本发明提出一种基于先验信噪比优化估计的单麦克风语音增强方法。在语音增强过程中，首先利用传统的直接判决法对当前帧先验信噪比进行初次估计，并利用维纳滤波器对当前帧纯净语音进行初次估计；之后利用当前帧的纯净语音估计对当前帧先验信噪比进行二次估计，并结合维纳滤波器得到纯净语音的二次估计。最后，将二次估计的纯净语音转换到时域，得到的语音增强结果降低了混响效应。

本发明提供一种语音增强方法，包括以下步骤：

S1、对待增强语音进行分帧、加窗以及FFT，将每一帧数据通过FFT转换到频域；

S2、采用直接判决法对所述每一帧数据的先验信噪比进行初次估计；

所述每一帧的先验信噪比初次估计的方法为：

其中，

是先验信噪比的初次估计值，S(p-1，k)为当前帧前一帧的纯净语音估计值，γ_n(p)为噪声能量谱，p为帧序号，k为频率，β是判决因子，一般取0.98，P代表半波整流算子，SNR_post(p，k)为当前帧的后验信噪比，其计算公式为：

其中，X(p，k)为含噪语音信号；

S3、利用步骤S2中初次估计的当前帧的先验信噪比对当前帧的纯净语音进行初次估计；

得到当前帧的纯净语音的初次估计值后，根据式(3)得到对应的初次维纳滤波器增益函数：

其中，

是初次维纳滤波器增益函数；

根据式(3)得到的初次维纳滤波器增益函数，通过式(4)得到当前帧的纯净语音的初次估计值；

其中，S^1st(p，k)是纯净语音的初次估计值；

S4、利用所述当前帧的纯净语音的初次估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计；

利用步骤S3中计算的初次维纳滤波器增益函数

对当前帧的后一帧进行先验信噪比估计，并将其作为当前帧的先验信噪比的二次估计值，具体计算公式为：

其中，

是先验信噪比的二次估计值，β′是第二判决因子；

将β′的值取为1，上式变为：

式(6)记为先验信噪比的二次估计公式；

S5、利用步骤S4中二次估计的先验信噪比对纯净语音进行二次估计，并将二次估计的纯净语音进行反傅里叶变换转换到时域，作为最终的语音增强结果；

所述二次估计后，根据式(7)得到对应的二次维纳滤波器增益函数：

其中，

是二次维纳滤波器增益函数；

根据式(7)得到的二次维纳滤波器增益函数，通过式(8)得到纯净语音的二次估计值，作为最终的频域增强语音：

其中，S^2nd(p，k)是纯净语音的二次估计值；

将所述最终的频域增强语音进行反傅里叶变换转换到时域，通过式(9)得到时域增强语音：

S_enhonce(t)＝ifft(S^2nd(p，k)) (9)

其中，S_enhance(t)是时域增强语音，ifft是快速傅里叶逆变换。

进一步地，所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为：

帧长：19.95-20.05ms；

帧移：9.95-10.05ms；

窗函数：hanning窗；

FFT点数：1024。

帧长：19.98-20.02ms；

帧移：9.98-10.02ms；

窗函数：hanning窗；

FFT点数：1024。

帧长：20ms；

帧移：10ms；

窗函数：hanning窗；

FFT点数：1024。

本发明还提供一种语音增强系统，使用如上述所述的语音增强方法，包括：

预处理模块：用于对待增强语音进行分帧、加窗、FFT，将每一帧数据通过FFT转换到频域；

先验信噪比初次估计模块：用于采用直接判决法对当前帧先验信噪比进行初次估计；

纯净语音初次估计模块：用于利用步骤S2中估计的先验信噪比对当前帧的纯净语音进行初次估计；

先验信噪比二次估计模块：用于利用所述当前帧的纯净语音估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计；

纯净语音二次估计及反傅里叶变换模块：利用步骤S4中估计的先验信噪比对纯净语音进行二次估计，并将二次估计的纯净语音进行反傅里叶变换转换到时域，作为最终的语音增强结果。

与现有技术相比，本发明的有益效果是：

采用直接判决法和维纳滤波法结合，在语音增强过程中，首先利用传统的直接判决法对当前帧先验信噪比进行初次估计，并利用维纳滤波器对当前帧纯净语音进行初次估计；之后利用当前帧的纯净语音估计对当前帧先验信噪比进行二次估计，并结合维纳滤波器得到纯净语音的二次估计。最后，将二次估计的纯净语音转换到时域，得到最终的语音增强结果，降低了混响效应。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

在附图中：

图1是本发明实施例的SNR＝5dB仿真去噪效果图；

图2是本发明实施例的SNR＝10dB仿真去噪效果图；

图3是本发明一种语音增强方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本发明基于证书技术、基于属性的细粒度访问控制技术，针对虚拟机、容器等联合部署的云数据中心，构建云服务统一控制系统，包括密码模块、服务发现模块、安全处理模块、访问代理、访问信息数据库、规则管理模块，以及云数据中心设计部署的服务发现代理，并通过权威的证书颁发机构(Certificate Authority，简称CA)的配合，保障数据中心不同层面的云服务能够被云服务统一控制系统自动发现，且统一控制，只允许被授权用户合法访问，实现云服务统一控制系统与云操作系统的联动。

本发明实施例一种语音增强方法，参见图3所示，包括以下步骤：

所述每一帧的先验信噪比初次估计的方法为：

其中，

其中，X(p，k)为含噪语音信号；

其中，

是初次维纳滤波器增益函数；

其中，S^1st(p，k)是纯净语音的初次估计值；

利用步骤S3中计算的初次维纳滤波器增益函数

其中，

是先验信噪比的二次估计值，β′是第二判决因子；

将β′的值取为1，上式变为：

式(6)记为先验信噪比的二次估计公式；

其中，

是二次维纳滤波器增益函数；

其中，S^2nd(p，k)是纯净语音的二次估计值；

S_enhance(t)＝ifft(S^2nd(p，k)) (9)

其中，S_enhance(t)是时域增强语音，ifft是快速傅里叶逆变换。

所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为：

帧长：19.95-20.05ms；

帧移：9.95-10.05ms；

窗函数：hanning窗；

FFT点数：1024。

帧长：19.98-20.02ms；

帧移：9.98-10.02ms；

窗函数：hanning窗；

FFT点数：1024。

帧长：20ms；

帧移：10ms；

窗函数：hanning窗；

FFT点数：1024。

本实施例为验证上述语音增强方法的实际效果，采用一段2.6s的纯净语音对其去噪性能进行了仿真验证。仿真过程中，分别向纯净语音中添加信噪比(Signal to NoiseRatio，SNR)为5dB、10dB的白噪声，之后采用上述语音增强方法对含噪语音进行语音增强。图1、图2分别展示了5dB、10dB信噪比情况下的纯净语音信号、含噪语音信号以及增强语音信号的时域波形图。由图1和图2可知，在两种信噪比条件下，采用上述语音增强方法得到的增强语音与原始纯净语音具有十分相似的时域波形，验证了该方法的有效性。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。