CN111415674A

CN111415674A - 语音降噪方法及电子设备

Info

Publication number: CN111415674A
Application number: CN202010376975.XA
Authority: CN
Inventors: 张东魁; 冯大航; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-07-14

Abstract

本发明提供一种语音降噪方法及电子设备，所述方法包括：基于待处理语音获取第一语音，其中，所述待处理语音包括N帧信号，所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号，N和J均为正整数，i为1至N‑J中的任意值；将所述第一语音输入用于降噪的LSTM长短期记忆神经网络；基于所述LSTM神经网络的输出获取降噪处理后的语音。本发明实施例能够提高语音降噪效果。

Description

语音降噪方法及电子设备

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语音降噪方法及电子设备。

背景技术

自然语言是指通过自然进化产生的人类之间用于交流的语言。自然语言处理(Natural Language Processing，NLP)是计算机科学，人工智能，语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理技术可以采用网络模型对语音进行处理，满足各个使用场景的需求，例如，在语音识别使用场景，可以采用语音识别网络模型将语音处理为文字。

语音中通常包含噪声，在采用网络模型对语音进行处理之前，需要对语音进行降噪。现有技术中，通常采用滤波器对语音进行降噪，而滤波器对非线性噪声的抑制效果较差，使得降噪效果较差。

发明内容

本发明实施例提供一种语音降噪方法及电子设备，以解决现有技术中采用滤波器对语音进行降噪的降噪效果较差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音降噪方法，应用于电子设备，所述方法包括：

基于待处理语音获取第一语音，其中，所述待处理语音包括N帧信号，所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号，N和J均为正整数，i为1至N-J中的任意值；

将所述第一语音输入用于降噪的LSTM长短期记忆神经网络；

基于所述LSTM神经网络的输出获取降噪处理后的语音。

第二方面，本发明实施例提供了一种电子设备，所述电子设备包括：

第一获取模块，用于基于待处理语音获取第一语音，其中，所述待处理语音包括N帧信号，所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号，N和J均为正整数，i为1至N-J中的任意值；

输入模块，用于将所述第一语音输入用于降噪的LSTM长短期记忆神经网络；

第二获取模块，用于基于所述LSTM神经网络的输出获取降噪处理后的语音。

第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所述的语音降噪方法中的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音降噪方法中的步骤。

本发明实施例中，基于待处理语音获取第一语音，其中，所述待处理语音包括N帧信号，所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号，N和J均为正整数，i为1至N-J中的任意值；将所述第一语音输入用于降噪的LSTM长短期记忆神经网络；基于所述LSTM神经网络的输出获取降噪处理后的语音。这样，通过对待处理语音的连续M帧信号进行拼接处理，将拼接处理后的语音信号输入LSTM神经网络进行降噪处理，能够同时消除线性噪声和非线性噪声，从而能够提高降噪效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音降噪方法的流程图；

图2是本发明实施例提供的一种电子设备的结构示意图之一；

图3是本发明实施例提供的一种电子设备的结构示意图之二；

图4是本发明实施例提供的一种电子设备的结构示意图之三。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。

参见图1，图1是本发明实施例提供的一种语音降噪方法的流程图，所述方法应用于电子设备，如图1所示，包括以下步骤：

步骤101、基于待处理语音获取第一语音，其中，所述待处理语音包括N帧信号，所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号，N和J均为正整数，i为1至N-J中的任意值。

其中，所述基于待处理语音获取第一语音，可以是，基于待处理语音的时域信号获取第一语音的时域信号，或者，还可以是，基于待处理语音的频域信号获取第一语音的频域信号。J的值可以为预设值，J的值可以为2，或者可以为4，或者可以为6，等等，本发明实施例对此不进行限定。所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号，可以是，将待处理语音的每相邻的J+1帧信号拼接在一起，得到所述第一语音。以J的值为1为例，可以将待处理语音的每相邻的两帧信号拼接在一起，将拼接出来的N-1帧信号作为第一语音。在实际应用中，可以设置采样率为8000采样得到待处理语音，待处理语音的每帧长可以为16ms，待处理语音的每一帧时域信号可以包括128个短整型点。

步骤102、将所述第一语音输入用于降噪的LSTM长短期记忆神经网络。

其中，在基于待处理语音的频域信号获取第一语音的频域信号的情况下，可以将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络；在基于待处理语音的时域信号获取第一语音的时域信号的情况下，可以基于所述第一语音的时域信号获取所述第一语音的频域信号，所述将所述第一语音输入用于降噪的LSTM长短期记忆神经网络，可以包括：将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络。

步骤103、基于所述LSTM神经网络的输出获取降噪处理后的语音。

其中，所述基于所述LSTM神经网络的输出获取降噪处理后的语音，可以是，将所述LSTM神经网络的输出与所述第一语音的频域信号相乘，得到降噪处理后的语音的频域信号，基于所述降噪处理后的语音的频域信号获取所述降噪处理后的语音的时域信号；或者，还可以是，将所述LSTM神经网络的输出转化为时域信号，将转化的时域信号作为降噪处理后的语音。

在实际应用中，可以将所述LSTM神经网络的输出与所述第一语音的频域信号相乘，得到降噪处理后的语音的多帧频域信号，可以将降噪处理后的语音的每帧频域信号乘以32768，再进行逆快速傅里叶变换，可以得到降噪处理后的语音的时域信号。以降噪处理后的语音的每帧频域信号包括256维的向量为例，可以将向量中的每个分量乘以32768，再进行逆快速傅里叶变换，得到包括128个采样点的降噪处理后的语音的时域信号。

需要说明的是，LSTM神经网络可以预先训练获得，可以将纯净语音信号与噪声进行叠加，将叠加后的语音信号作为LSTM神经网络的训练样本，可以将纯净语音信号作为LSTM神经网络训练的目标输出；或者，还可以将纯净语音信号与噪声进行叠加，将叠加后的语音信号作为LSTM神经网络的训练样本，可以将叠加后的语音信号与纯净语音信号的比值作为LSTM神经网络训练的目标输出。在训练LSTM神经网络的过程中，还可以将纯净语音信号与噪声进行叠加，将叠加后的语音信号中的多帧连续信号进行拼接，将拼接后得到的语音信号作为LSTM神经网络的训练样本，并可以将纯净语音信号或者拼接后得到的语音信号与纯净语音信号的比值作为LSTM神经网络训练的目标输出。

可选的，所述基于待处理语音获取第一语音，包括：

基于待处理语音的时域信号获取第一语音的时域信号；

所述将所述第一语音输入用于降噪的LSTM长短期记忆神经网络之前，所述方法还包括：

基于所述第一语音的时域信号获取所述第一语音的频域信号；

所述将所述第一语音输入用于降噪的LSTM长短期记忆神经网络，包括：

将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络。

其中，可以在时域内对待处理语音的多帧信号进行拼接，得到第一语音。所述基于所述第一语音的时域信号获取所述第一语音的频域信号，可以是，采用傅里叶变换将所述第一语音的时域信号转换为频域信号，具体的，可以包括：将所述第一语音的时域信号中的每帧信号进行傅里叶变换，所述每帧信号包括多个采样点；计算进行傅里叶变换后的每帧信号中的每个采样点的复数的模值；分别对所述每帧信号中每个采样点的复数的模值进行取对数运算；将取对数运算后得到的值进行归一化处理，得到所述第一语音的频域信号。还可以采用其他方式将所述第一语音的时域信号转换为频域信号，本发明实施例对此不进行限定。

该实施方式中，基于待处理语音的时域信号获取第一语音的时域信号，基于所述第一语音的时域信号获取所述第一语音的频域信号，将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络，这样，在时域内对待处理语音的连续M帧信号进行拼接处理，并将拼接处理后的语音信号转化为频域信号，从时域信号转为频域信号，便于对待处理语音进行处理。

可选的，所述将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络，包括：

基于所述第一语音的频域信号获取第二语音的频域信号，其中，所述第二语音的第m帧频域信号包括所述第一语音的第m帧至第m+K帧频域信号，K为正整数，m为1至N-J-K中的任意值；

将所述第二语音的频域信号输入所述LSTM神经网络。

其中，K的值可以为预设值，K的值可以为2，或者可以为4，或者可以为6，等等，本发明实施例对此不进行限定。所述第二语音的第m帧频域信号包括所述第一语音的第m帧至第m+K帧频域信号，可以是，将第一语音的每相邻的K+1帧信号拼接在一起，得到所述第二语音。以K的值为1为例，可以将第一语音的每相邻的两帧信号拼接在一起，将拼接出来的N-J-1帧信号作为第一语音。所述将所述第二语音的频域信号输入所述LSTM神经网络，可以是，分别将所述第二语音的的每帧频域信号输入所述LSTM神经网络。

该实施方式中，基于所述第一语音的频域信号获取第二语音的频域信号，其中，所述第二语音的第m帧频域信号包括所述第一语音的第m帧至第m+K帧频域信号，K为正整数，m为1至N-J-K中的任意值；将所述第二语音的频域信号输入所述LSTM神经网络。这样，在时域内对待处理语音的连续M帧信号进行拼接处理后，在频域内对拼接处理后的语音信号的连续K帧信号再次进行拼接处理，使得输入LSTM神经网络的每帧信号包括待处理语音的多帧连续信号的特征，能够进一步提高降噪效果。

可选的，所述基于所述LSTM神经网络的输出获取降噪处理后的语音，包括：

将所述LSTM神经网络的输出与所述第一语音的频域信号相乘，得到降噪处理后的语音的频域信号；

基于所述降噪处理后的语音的频域信号获取所述降噪处理后的语音的时域信号。

其中，所述将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络，可以是，分别将所述第一语音的每帧频域信号输入所述LSTM神经网络。可以将第一语音的每帧频域信号对应的LSTM神经网络的输出与第一语音的每帧频域信号相乘，得到降噪处理后的语音的每帧频域信号。以第一语音的每帧频域信号包括129个采样点为例，所述第一语音的每帧频域信号可以用129维的第一向量表示，第一语音的每帧频域信号对应的LSTM神经网络的输出可以为129维的第二向量，可以将第一向量的每个分量与第二向量的每个分量对应相乘，得到129维的第三向量，该第三向量可以用于表示降噪处理后的语音的频域信号。

该实施方式中，将所述LSTM神经网络的输出与所述第一语音的频域信号相乘，得到降噪处理后的语音的频域信号，基于所述降噪处理后的语音的频域信号获取所述降噪处理后的语音的时域信号，从而能够得到降噪处理后的语音的时域信号。

可选的，所述基于所述第一语音的时域信号获取所述第一语音的频域信号，包括：

将所述第一语音的时域信号中的每帧信号进行傅里叶变换，所述每帧信号包括多个采样点；

计算进行傅里叶变换后的每帧信号中的每个采样点的复数的模值；

分别对所述每帧信号中每个采样点的复数的模值进行取对数运算；

将取对数运算后得到的值进行归一化处理，得到所述第一语音的频域信号。

其中，所述进行傅里叶变换，可以是，进行快速傅里叶变换。所述将所述第一语音的时域信号中的每帧信号进行傅里叶变换，可以是，将所述第一语音的时域信号中的每帧信号的每个采样点的幅值除以32768，用于将每个采样点的幅值转为十六进制的数值，转为十六进制后再进行傅里叶变换。例如，待处理语音的每一帧时域信号的采样点可以包括128个短整型点，可以将待处理语音的每相邻的两帧信号拼接在一起，得到的第一语音的每一帧时域信号可以包括256个短整型点，将256个短整型点中每个点的值除以32768，再进行傅里叶变换，可以由256个实数点生成129个复数点。可以计算每个复数点的模值，再对每个复数点的模值进行取对数运算，进行取对数运算后，可以进行归一化处理，生成129个实数点。

该实施方式中，将所述第一语音的时域信号中的每帧信号进行傅里叶变换，所述每帧信号包括多个采样点；计算进行傅里叶变换后的每帧信号中的每个采样点的复数的模值；分别对所述每帧信号中每个采样点的复数的模值进行取对数运算；将取对数运算后得到的值进行归一化处理，得到所述第一语音的频域信号。这样，能够实现将第一语音的时域信号转化为频域信号，较为便捷。

参见图2，图2是本发明实施例提供的一种电子设备的结构示意图之一，如图2所示，电子设备200包括：

第一获取模块201，用于基于待处理语音获取第一语音，其中，所述待处理语音包括N帧信号，所述第一语音的第i帧信号包括所述待处理语音的第i帧至第i+J帧信号，N和J均为正整数，i为1至N-J中的任意值；

输入模块202，用于将所述第一语音输入用于降噪的LSTM长短期记忆神经网络；

第二获取模块203，用于基于所述LSTM神经网络的输出获取降噪处理后的语音。

可选的，所述第一获取模块201具体用于：

基于待处理语音的时域信号获取第一语音的时域信号；

如图3所示，所述电子设备200还包括：

第三获取模块204，用于基于所述第一语音的时域信号获取所述第一语音的频域信号；

所述输入模块202具体用于：

可选的，所述输入模块202具体用于：

将所述第二语音的频域信号输入所述LSTM神经网络。

可选的，所述第二获取模块203具体用于：

可选的，所述第三获取模块204具体用于：

电子设备能够实现图1的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

请参见图4，图4是本发明实施例提供的一种电子设备的结构示意图之三，如图4所示，电子设备300包括：存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序，其中：

所述处理器301读取存储器302中的程序，用于执行：

将所述第一语音输入用于降噪的LSTM长短期记忆神经网络；

基于所述LSTM神经网络的输出获取降噪处理后的语音。

可选的，所述处理器301用于执行的所述基于待处理语音获取第一语音，包括：

基于待处理语音的时域信号获取第一语音的时域信号；

所述处理器301还用于执行：

所述处理器301用于执行的所述将所述第一语音输入用于降噪的LSTM长短期记忆神经网络，包括：

可选的，所述处理器301用于执行的所述将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络，包括：

将所述第二语音的频域信号输入所述LSTM神经网络。

可选的，所述处理器301用于执行的所述基于所述LSTM神经网络的输出获取降噪处理后的语音，包括：

可选的，所述处理器301用于执行的所述基于所述第一语音的时域信号获取所述第一语音的频域信号，包括：

在图4中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器301代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器301负责管理总线架构和通常的处理，存储器302可以存储处理器301在执行操作时所使用的数据。

需要说明的是，本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音降噪方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音降噪方法，应用于电子设备，其特征在于，所述方法包括：

将所述第一语音输入用于降噪的LSTM长短期记忆神经网络；

基于所述LSTM神经网络的输出获取降噪处理后的语音。

2.根据权利要求1所述的方法，其特征在于，所述基于待处理语音获取第一语音，包括：

基于待处理语音的时域信号获取第一语音的时域信号；

3.根据权利要求2所述的方法，其特征在于，所述将所述第一语音的频域信号输入用于降噪的LSTM长短期记忆神经网络，包括：

将所述第二语音的频域信号输入所述LSTM神经网络。

4.根据权利要求2所述的方法，其特征在于，所述基于所述LSTM神经网络的输出获取降噪处理后的语音，包括：

5.根据权利要求2所述的方法，其特征在于，所述基于所述第一语音的时域信号获取所述第一语音的频域信号，包括：

6.一种电子设备，其特征在于，所述电子设备包括：

7.根据权利要求6所述的电子设备，其特征在于，所述第一获取模块具体用于：

基于待处理语音的时域信号获取第一语音的时域信号；

所述电子设备还包括：

第三获取模块，用于基于所述第一语音的时域信号获取所述第一语音的频域信号；

所述输入模块具体用于：

8.根据权利要求7所述的电子设备，其特征在于，所述输入模块具体用于：

将所述第二语音的频域信号输入所述LSTM神经网络。

9.根据权利要求7所述的电子设备，其特征在于，所述第二获取模块具体用于：

10.根据权利要求7所述的电子设备，其特征在于，所述第三获取模块具体用于：

11.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音降噪方法中的步骤。