CN110211602A

CN110211602A - 智能语音增强通信方法及装置

Info

Publication number: CN110211602A
Application number: CN201910409462.1A
Authority: CN
Inventors: 魏星华; 史敬; 张黎; 王东辉; 潘兆军; 吴旭
Original assignee: Beijing Hua Chong Chong Nanjing Information Technology Co Ltd
Current assignee: Nanjing Huakong Chuangwei Information Technology Co ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-09-06
Anticipated expiration: 2039-05-17
Also published as: CN110211602B

Abstract

本发明公开一种智能语音增强通信方法及装置，在接收待增强的语音数据后，通过先对待增强的语音数据进行时域降噪处理，保证语音不失真，再对时域降噪处理后的语音数据进行频域降噪处理，消除少部分影响大的噪音，之后对频域降噪处理后的语音数据进行回声消除处理，解决声学和回声噪音问题，最后利用深度神经网络算法，对回声消除处理后的语音数据进行音质智能修复，使语音质量达到最佳，经过本发明的多种语音增强技术融合处理后的通信语音质量比单一语音增强技术处理的语音质量有大幅提高，且计算量小。

Description

智能语音增强通信方法及装置

技术领域

本发明涉及语音增强技术领域，尤其涉及一种智能语音增强通信方法及装置。

背景技术

语音增强技术是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰，从含噪语音中提取尽可能纯净的原始语音的技术。根据语音和噪声的特点，语音增强算法有多种，目前主要的语音增强方法有噪声对消法、谱相减法、维纳滤波法以及卡尔曼滤波法等。

其中，噪声对消法是通过在时域或频域中直接从带噪语音中将噪声分量减去的方法来实现的。该方法中采用背景信号作为参考信号，参考信号准确与否直接决定该方法的性能。谱相减法就是从输入信号的幅度谱中减去估计得来的噪声平均幅度谱，其效果相当于在变换域对带噪声信号进行了某种均衡化处理，即将含噪语音信号和有声/无声判别得到的纯噪声信号进行FFT变化，从含噪语音幅度谱的平方中减去纯噪声的幅度谱的平方，然后开方，得原始语音谱幅度的估值，再借用含噪语音的相位，进行IFFT变化，得到增强的语音。背景音乐噪声会损伤语音的质量，降低了可懂度和清晰度，是该类方法最大的缺点。维纳滤波的最大缺点是必须用到无限过去的数据，不适用于实时处理。维纳滤波法的另一缺陷在于它是在平稳条件的最小均方误差意义下的最优估计，但语音是非平稳的，实际环境中的噪声也是非平稳的；而且在噪声比较强的情况下估计的全极点模型参数误差较大，而如果使用迭代方法计算结果能够有所改进，但仍然存在较大的误差，并且计算量也比较大，因此限制了此方法的应用。卡尔曼滤波法在平稳和非平稳情况下都能使用，能在不同程度上消除噪声，提高信噪比，其缺点是计算量大，需要假设生成模型的激励源为白噪声源并且只在清音段才成立，主观试听发现该方法对语音造成了一定的损伤。

发明内容

本发明提供一种智能语音增强通信方法及装置，以解决现有的语音增强方法得到的语音质量不高的问题。

第一方面，本发明提供一种智能语音增强通信方法，所述方法包括：

接收待增强的语音数据；

对所述待增强的语音数据进行时域降噪处理；

对时域降噪处理后的语音数据进行频域降噪处理；

对频域降噪处理后的语音数据进行回声消除处理；

利用深度神经网络算法，对回声消除处理后的语音数据进行音质智能修复。

结合第一方面，在第一方面的第一种可实现方式中，对所述语音数据进行时域降噪处理包括：

对所述待增强的语音数据进行采样，其中，采样率为8kHz，利用数字信号处理串行口或定时器中断，每隔125us中断一次，将所述待增强的语音数据分成两路原始语音数据；

利用自适应滤波器，采用最小均方算法或快速频域算法，对两路原始语音数据中的一路按照先入先出的顺序排列进行滤波处理；

利用两路原始语音数据中的另一路原始语音数据减去滤波处理后的语音数据，进行一次噪声消除，得到时域降噪处理后的语音数据。

结合第一方面，在第一方面的第二种可实现方式中，对时域降噪处理后的语音数据进行频域降噪处理包括：

采用谱相减法，将时域降噪处理后的语音数据进行离散傅里叶变换，从时域降噪处理后的语音数据谱幅度中减去纯噪声的谱幅度，得到原始语音谱幅度的估值数据；

借用时域降噪处理后的语音数据的相位，对所述原始语音谱幅度的估值数据进行离散傅里叶逆变换，得到频域降噪处理后的语音数据。

结合第一方面，在第一方面的第三种可实现方式中，对频域降噪处理后的语音数据进行回声消除处理包括：

采用声学回声消除算法，以频域降噪处理后的语音数据及其产生的多路径回声的相关性为基础，建立远端信号的语音模型；

利用所述远端信号的语音模型对回声进行估计，得到回声估计值，并不断地修改滤波器的系数，使得所述回声估计值更加逼近真实的回声；

从所述频域降噪处理后的语音数据中减去所述回声估计值，得到回声消除处理后的语音数据。

结合第一方面，在第一方面的第四种可实现方式中，利用深度神经网络算法，对回声消除处理后的语音数据进行音质智能修复包括：

根据已有的音频数据训练出语音声学模型；

利用所述声学模型和深度神经网络对回声消除处理后的语音数据进行声学估计，针对过度降噪部分，根据声学模型作平滑填充，以修复降噪过程中过度处理的音频部分，使整段语音数据更加平滑。

第二方面，本发明提供一种智能语音增强通信装置，所述装置包括：

接收单元，用于接收待增强的语音数据；

时域降噪单元，用于对所述待增强的语音数据进行时域降噪处理；

频域降噪单元，用于对时域降噪处理后的语音数据进行频域降噪处理；

回声消除单元，用于对频域降噪处理后的语音数据进行回声消除处理；

修复单元，用于利用深度神经网络算法，对回声消除处理后的语音数据进行音质智能修复。

结合第二方面，在第二方面的第一种可实现方式中，所述时域降噪单元包括：

采样单元，用于对所述待增强的语音数据进行采样，其中，采样率为8kHz，利用数字信号处理串行口或定时器中断，每隔125us中断一次，将所述待增强的语音数据分成两路原始语音数据；

滤波单元，用于利用自适应滤波器，采用最小均方算法或快速频域算法，对两路原始语音数据中的一路按照先入先出的顺序排列进行滤波处理；

噪声消除单元，用于利用两路原始语音数据中的另一路原始语音数据减去滤波处理后的语音数据，进行一次噪声消除，得到时域降噪处理后的语音数据。

结合第二方面，在第二方面的第二种可实现方式中，所述频域降噪单元包括：

第一变换单元，用于采用谱相减法，将时域降噪处理后的语音数据进行离散傅里叶变换，从时域降噪处理后的语音数据谱幅度中减去纯噪声的谱幅度，得到原始语音谱幅度的估值数据；

第二变换单元，借用时域降噪处理后的语音数据的相位，对所述原始语音谱幅度的估值数据进行离散傅里叶逆变换，得到频域降噪处理后的语音数据。

结合第二方面，在第二方面的第三种可实现方式中，所述回声消除单元包括：

建立单元，用于采用声学回声消除算法，以频域降噪处理后的语音数据及其产生的多路径回声的相关性为基础，建立远端信号的语音模型；

估值单元，用于利用所述远端信号的语音模型对回声进行估计，得到回声估计值，并不断地修改滤波器的系数，使得所述回声估计值更加逼近真实的回声；

消减单元，用于从所述频域降噪处理后的语音数据中减去所述回声估计值，得到回声消除处理后的语音数据。

结合第二方面，在第二方面的第四种可实现方式中，所述修复单元包括：

训练单元，用于根据已有的音频数据训练出语音声学模型；

填充单元，用于利用所述声学模型和深度神经网络对回声消除处理后的语音数据进行声学估计，针对过度降噪部分，根据声学模型作平滑填充，以修复降噪过程中过度处理的音频部分，使整段语音数据更加平滑。

本发明具有如下有益效果：本发明提供的智能语音增强通信方法及装置，在接收待增强的语音数据后，通过先对待增强的语音数据进行时域降噪处理，保证语音不失真，再对时域降噪处理后的语音数据进行频域降噪处理，消除少部分影响大的噪音，之后对频域降噪处理后的语音数据进行回声消除处理，解决声学和回声噪音问题，最后利用深度神经网络算法，对回声消除处理后的语音数据进行音质智能修复，使语音质量达到最佳，经过本发明的多种语音增强技术融合处理后的通信语音质量比单一语音增强技术处理的语音质量有大幅提高，且计算量小。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的智能语音增强通信方法的流程图。

图2为本发明实施例提供的智能语音增强通信方法步骤S102一实施例的流程图。

图3为本发明实施例提供的智能语音增强通信方法步骤S103一实施例的流程图。

图4为本发明实施例提供的智能语音增强通信方法步骤S104一实施例的流程图。

图5为本发明实施例提供的智能语音增强通信方法步骤S105一实施例的流程图。

图6为本发明实施例提供的智能语音增强通信方法的原理图。

图7为本发明实施例提供的智能语音增强通信装置的示意图。

图8为本发明实施例提供的智能语音增强通信装置的时域降噪单元一实施例的示意图。

图9为本发明实施例提供的智能语音增强通信装置的频域降噪单元一实施例的示意图。

图10为本发明实施例提供的智能语音增强通信装置的回声消除单元一实施例的示意图。

图11为本发明实施例提供的智能语音增强通信装置的修复单元一实施例的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下结合附图，详细说明本发明各实施例提供的技术方案。

请参阅图1，为本发明实施例提供的一种智能语音增强通信方法的流程图，请同时结合图6，所述方法的执行主体可以是一种用于监听设备的多语音增强技术融合通信模块，所述方法可以包括如下步骤：

步骤S101，接收待增强的语音数据。

如图6所示，该用于监听设备的多语音增强技术融合通信模块设置有输入端口，可通过该输入端口接收待待增强的语音数据。

步骤S102，对所述待增强的语音数据进行时域降噪处理。

请参阅图2，在本实施例中，对所述语音数据进行时域降噪处理具体可以包括：

步骤S201，对所述待增强的语音数据进行采样，其中，采样率为8kHz，利用数字信号处理(英文：Digital Signal Processing，简称：DSP)串行口或定时器中断，每隔125us中断一次，将所述待增强的语音数据分成两路原始语音数据。

步骤S202，利用自适应(英文：Finite Impulse Response，简称：FIR)滤波器，采用最小均方(英文：Least mean square，简称：LMS)算法或快速频域算法(英文：Fast LeastMean Square，简称：FLMS)，对两路原始语音数据中的一路按照先入先出的顺序排列进行滤波处理。

其中，自适应滤波器是有限长单位冲激响应滤波器，又称为非递归型滤波器，是数字信号处理系统中最基本的元件，它可以在保证任意幅频特性的同时具有严格的线性相频特性，同时其单位抽样响应是有限长的，因而滤波器是稳定的系统。因此，FIR滤波器在音频降噪领域有着广泛的应用。最小均方算法在语音增强中具备广泛的应用，是最为常见的算法之一，该算法也是很多更为复杂算法的理论基础或组成部分。

步骤S203，利用两路原始语音数据中的另一路原始语音数据减去滤波处理后的语音数据，进行一次噪声消除，得到时域降噪处理后的语音数据。

步骤S103，对时域降噪处理后的语音数据进行频域降噪处理。

请参阅图3，在本实施例中，对时域降噪处理后的语音数据进行频域降噪处理具体可以包括：

步骤S301，采用谱相减法，将时域降噪处理后的语音数据进行离散傅里叶变换(英文：Discrete Fourier Transform，简称：DFT)，从时域降噪处理后的语音数据谱幅度中减去纯噪声的谱幅度，得到原始语音谱幅度的估值数据。

步骤S302，借用时域降噪处理后的语音数据的相位，对所述原始语音谱幅度的估值数据进行离散傅里叶逆变换(英文：Inverse Discrete Fourier Transform，简称：IDFT)，得到频域降噪处理后的语音数据。

本发明通过对音频同时在时域和频域进行降噪，使得降噪更加充分，避免单一算法降噪不充分的缺点。

步骤S104，对频域降噪处理后的语音数据进行回声消除处理。

请参阅图4，在本实施例中，对频域降噪处理后的语音数据进行回声消除处理具体可以包括：

步骤S401，采用声学回声消除(英文：Acoustic Echo Cancellation，简称：AEC)算法以频域降噪处理后的语音数据及其产生的多路径回声的相关性为基础，建立远端信号(s(n))的语音模型，采用业界信号处理通用的HMM模型。在采用声学回声消除算法的同时，还可以同时结合线路回声消除(英文：Line Echo Cancellation，，简称：LEC)算法。

语音数据产生回声的原因可以分为声学回音和线路回音，声学回音是由于在免提或者会议应用中，扬声器的声音多次反馈到麦克风引起的，而线路回音是由于物理电子线路的二四线匹配耦合引起的。

步骤S402，利用所述远端信号的语音模型对回声进行估计，得到回声估计值(e`(n))，并不断地修改滤波器的系数，使得所述回声估计值更加逼近真实的回声(e(n))。

具体地，对回声进行估计可以包括如下步骤：首先，对远端输入信号和近端输入信号分别进行降采样。然后将经过降采样的两种信号进行互相关运算。最后从互相关结果中搜索出回声有效部分，作为回声有效参数，根据该回声有效参数，使用自适应算法计算出回声估计值。通过上述过程，可以充分消除回声噪音。

进一步地，本实施例根据搜索出的回声有效部分的比例调整滤波器参数，比例越高，参数值越大，比例越小，参数值越小，从而可以自适应的根据回声噪音的多少动态调整滤波器大小，更逼真地接近真实的回声。

步骤S403，从所述频域降噪处理后的语音数据中减去所述回声估计值，得到回声消除处理后的语音数据。

本发明加入独特的回声消除算法加入，消除了声学回音和线路回音，可使得语音音质更加干净。

步骤S105，利用深度神经网络(英文：Deep Neural Networks，简称：DNN)算法，对回声消除处理后的语音数据进行音质智能修复。

请参阅图5，在本实施例中，利用深度神经网络算法，对回声消除处理后的语音数据进行音质智能修复具体可以包括：

步骤S501，根据已有的音频数据训练出语音声学模型。

步骤S502，利用所述声学模型和深度神经网络对回声消除处理后的语音数据进行声学估计，针对过度降噪部分，根据声学模型作平滑填充，以修复降噪过程中过度处理的音频部分，使整段语音数据更加平滑，从而提高音频的品质。请参阅图6，增强后得到的最终语音数据可以通过输出接口输出。

具体地，对回声消除处理后的语音数据进行声学估计可以包括如下步骤：首先用深度神经网络算法对降噪后的语音进行声学模型建模，然后和已训好的模型进行匹配度打分。在本实施例中，和已训练的模型的匹配度值超过0.5即判断为过度降噪部分。此外，具体可以在判断过度降噪的部分后，取其前后符合声学模型的数据之和做均值，然后填充到过度降噪部分实现平滑填充。

由以上实施例可知，本发明提供的智能语音增强通信方法，在接收待增强的语音数据后，通过先对待增强的语音数据进行时域降噪处理，保证语音不失真，再对时域降噪处理后的语音数据进行频域降噪处理，消除少部分影响大的噪音，之后对频域降噪处理后的语音数据进行回声消除处理，解决声学和回声噪音问题，最后利用深度神经网络算法，对回声消除处理后的语音数据进行音质智能修复，使语音质量达到最佳，经过本发明的多种语音增强技术融合处理后的通信语音质量比单一语音增强技术处理的语音质量有大幅提高。

此外，语音包含时域和频域两维度信息，对时域先行处理，可以保证语音不失真，再进行频域增强，可消除少部分影响大的噪音。再利用回声消除技术解决声学和回声噪音问题，最后修复使语音质量达到最佳。这种语音增强顺序既可以保证语音质量最终效果最好，又针对语音噪音的分布特点和计算量，先去除时域上的最多噪音，又减少后面处理频域噪音、回声消除和修复的计算量。

请参阅图7，本发明还提供一种智能语音增强通信装置，所述装置包括：

接收单元701，用于接收待增强的语音数据。

时域降噪单元702，用于对所述待增强的语音数据进行时域降噪处理。

频域降噪单元703，用于对时域降噪处理后的语音数据进行频域降噪处理。

回声消除单元704，用于对频域降噪处理后的语音数据进行回声消除处理。

修复单元705，用于利用深度神经网络算法，对回声消除处理后的语音数据进行音质智能修复。

请参阅图8，在本实施例中，所述时域降噪单元702具体可以包括：

采样单元801，用于对所述待增强的语音数据进行采样，其中，采样率为8kHz，利用DSP串行口或定时器中断，每隔125us中断一次，将所述待增强的语音数据分成两路原始语音数据。

滤波单元802，用于利用自适应滤波器，采用最小均方算法或快速频域算法，对两路原始语音数据中的一路按照先入先出的顺序排列进行滤波处理。

噪声消除单元803，用于利用两路原始语音数据中的另一路原始语音数据减去滤波处理后的语音数据，进行一次噪声消除，得到时域降噪处理后的语音数据。

请参阅图9，在本实施例中，所述频域降噪单元703具体可以包括：

第一变换单元901，用于采用谱相减法，将时域降噪处理后的语音数据进行离散傅里叶变换，从时域降噪处理后的语音数据谱幅度中减去纯噪声的谱幅度，得到原始语音谱幅度的估值数据。

第二变换单元902，借用时域降嗓处理后的语音数据的相位，对所述原始语音谱幅度的估值数据进行离散傅里叶逆变换，得到频域降噪处理后的语音数据。

请参阅图10，在本实施例中，所述回声消除单元704具体可以包括：

建立单元1001，用于采用声学回声消除算法，以频域降噪处理后的语音数据及其产生的多路径回声的相关性为基础，建立远端信号的语音模型。

估值单元1002，用于利用所述远端信号的语音模型对回声进行估计，得到回声估计值，并不断地修改滤波器的系数，使得所述回声估计值更加逼近真实的回声。

消减单元1003，用于从所述频域降噪处理后的语音数据中减去所述回声估计值，得到回声消除处理后的语音数据。

请参阅图11，在本实施例中，所述修复单元705具体可以包括：

训练单元1101，用于根据已有的音频数据训练出语音声学模型。

填充单元1102，用于利用所述声学模型和深度神经网络对回声消除处理后的语音数据进行声学估计，针对过度降噪部分，根据声学模型作平滑填充，以修复降噪过程中过度处理的音频部分，使整段语音数据更加平滑。

由上述实施例可知，本发明实施例提供的智能语音增强通信装置，能够在接收待增强的语音数据后，先对待增强的语音数据进行时域降噪处理，保证语音不失真，再对时域降噪处理后的语音数据进行频域降噪处理，消除少部分影响大的噪音，之后对频域降噪处理后的语音数据进行回声消除处理，解决声学和回声噪音问题，最后利用深度神经网络算法，对回声消除处理后的语音数据进行音质智能修复，使语音质量达到最佳，经过本发明的多种语音增强技术融合处理后的通信语音质量比单一语音增强技术处理的语音质量有大幅提高，且计算量小。

本发明实施例还提供一种存储介质，本发明实施例还提供一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现本发明提供的智能语音增强通信方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：Read-OnlyMemory，简称：ROM)或随机存储记忆体(英文：RandomAccessMemory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于智能语音增强通信装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims

1.一种智能语音增强通信方法，其特征在于，所述方法包括：

接收待增强的语音数据；

对所述待增强的语音数据进行时域降噪处理；

对时域降噪处理后的语音数据进行频域降噪处理；

对频域降噪处理后的语音数据进行回声消除处理；

2.如权利要求1所述的方法，其特征在于，对所述语音数据进行时域降噪处理包括：

3.如权利要求1所述的方法，其特征在于，对时域降噪处理后的语音数据进行频域降噪处理包括：

4.如权利要求1所述的方法，其特征在于，对频域降噪处理后的语音数据进行回声消除处理包括：

5.如权利要求1所述的方法，其特征在于，利用深度神经网络算法，对回声消除处理后的语音数据进行音质智能修复包括：

根据已有的音频数据训练出语音声学模型；

6.一种智能语音增强通信装置，其特征在于，所述装置包括：

接收单元，用于接收待增强的语音数据；

7.如权利要求6所述的装置，其特征在于，所述时域降噪单元包括：

8.如权利要求6所述的装置，其特征在于，所述频域降噪单元包括：

9.如权利要求6所述的装置，其特征在于，所述回声消除单元包括：

10.如权利要求6所述的装置，其特征在于，所述修复单元包括：

训练单元，用于根据已有的音频数据训练出语音声学模型；