CN109448746A

CN109448746A - 语音降噪方法及装置

Info

Publication number: CN109448746A
Application number: CN201811137411.XA
Authority: CN
Inventors: 成学军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-03-08
Anticipated expiration: 2038-09-28
Also published as: CN109448746B

Abstract

本发明实施例提供一种语音降噪方法及装置，将待处理的带噪语音转换为至少一个带噪图像，将各所述带噪图像输入至经过训练的生成模型中，所述生成模型用于生成各所述带噪图像对应的降噪图像，根据所述生成模型输出的各所述带噪图像对应的降噪图像，获取所述待处理的带噪语音对应的降噪语音；通过将带噪语音先转换为带噪图像，然后采用训练好的生成模型对带噪图像进行降噪处理，能够提高语音降噪效果；另外，由于采用图像形式进行降噪，实现了同时对多个语音帧进行降噪处理，与现有技术相比，还提高了语音降噪的效率。

Description

语音降噪方法及装置

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种语音降噪方法及装置。

背景技术

随着人机交互技术的发展，语音识别技术显示出其重要性。在语音识别系统中，语音降噪技术是非常重要的一项技术，通常也称为语音去噪技术。通过语音降噪技术可以消除语音信号中的高频噪声、低频噪声、白噪声以及各种其他噪声，从而提高语音识别的效果。

现有技术中，语音降噪技术主要集中在两个方面，一方面是传统的信号处理方法，例如，采用滤波算法对语音信号进行降噪；另一方面是采用传统的机器学习方法对语音信号进行降噪，例如，深度神经网络(Deep Neural Network，DNN)中，利用单帧或者多帧带噪信息输出单帧降噪信息。

然而，现有的语音降噪方法存在降噪效果不佳的问题。

发明内容

本发明实施例提供一种语音降噪方法及装置，以提高语音降噪效果。

第一方面，本发明实施例提供一种语音降噪方法，包括：

将待处理的带噪语音转换为至少一个带噪图像；

将各所述带噪图像输入至经过训练的生成模型中，所述生成模型用于生成各所述带噪图像对应的降噪图像；

根据所述生成模型输出的各所述带噪图像对应的降噪图像，获取所述待处理的带噪语音对应的降噪语音。

可选的，所述将待处理的带噪语音转换为至少一个带噪图像，包括：

对待处理的带噪语音进行分帧处理，得到M个带噪语音帧；

获取各所述带噪语音帧的N维声学特征；

根据预设的帧间隔K和各所述带噪语音帧的N维声学特征，获取所述待处理的带噪语音对应的至少一个带噪图像，所述图像的维度为N*K。

可选的，若n*K<M<(n+1)*K，则所述根据预设的帧间隔K和各所述带噪语音帧的N维声学特征，获取所述待处理的带噪语音对应的至少一个带噪图像，包括：

根据预设的帧间隔K和前n*K个所述语音帧的N维声学特征，获取所述待处理的带噪语音对应的n个带噪图像，并根据所述M个语音帧中最后K个语音帧的N维声学特征，获取所述待处理的带噪语音对应的第n+1个带噪图像。

可选的，若M＝n*K，则所述根据预设的帧间隔K和各所述带噪语音帧的N维声学特征，获取所述待处理的带噪语音对应的至少一个带噪图像，包括：

根据预设的帧间隔K和各所述带噪语音帧的N维声学特征，获取所述待处理的带噪语音对应的n个带噪图像。

可选的，所述根据所述生成模型输出的各所述带噪图像对应的降噪图像，获取所述待处理的带噪语音对应的降噪语音，包括：

根据所述生成模型输出的前n-1个带噪图像对应的降噪图像，获取前(n-1)*K个降噪语音帧；

根据所述生成模型输出的第n个带噪图像对应的降噪图像和第n+1个带噪图像对应的降噪图像，获取第(n-1)*K+1至M个降噪语音帧；

根据所述前(n-1)*K个降噪语音帧和所述第(n-1)*K+1至M个降噪语音帧，获取所述待处理的带噪语音对应的降噪语音。

根据所述生成模型输出的n个带噪图像对应的降噪图像，获取n*K个降噪语音帧；

根据所述n*K个降噪语音帧，获取所述待处理的带噪语音对应的降噪语音。

可选的，所述将各所述带噪图像输入至经过训练的生成模型中之前，还包括：

获取至少一个待训练的加噪语音，所述加噪语音是向干净语音中添加预设分布的噪声得到的；

将各所述加噪语音转换为至少一个加噪图像，将各所述干净语音转换为至少一个干净图像；

根据各所述加噪图像和所述干净图像，对待训练的生成模型和判别模型进行训练，得到训练后的生成模型和判别模型；其中，所述生成模型用于根据所述加噪图像生成降噪图像，所述判别模型用于判断所述降噪图像为所述干净图像的概率。

可选的，所述根据各所述加噪图像和所述干净图像，对待训练的生成模型和判别模型进行训练，包括：

将所述加噪图像输入至待训练的生成模型中，获取所述生成模型输出的降噪图像；

将所述干净图像和所述降噪图像输入至待训练的判别模型中，获取所述判别模型输出的判别结果；

根据所述判别结果，对所述生成模型和所述判别模型进行训练，得到训练后的生成模型和判别模型。

可选的，所述生成模型为卷积神经网络模型。

第二方面，本发明实施例提供一种语音降噪装置，包括：

第一转换模块，用于将待处理的带噪语音转换为至少一个带噪图像；

降噪模块，用于将各所述带噪图像输入至经过训练的生成模型中，所述生成模型用于生成各所述带噪图像对应的降噪图像；

第二转换模块，用于根据所述生成模型输出的各所述带噪图像对应的降噪图像，获取所述待处理的带噪语音对应的降噪语音。

可选的，所述第一转换模块具体用于：

对待处理的带噪语音进行分帧处理，得到M个带噪语音帧；

获取各所述带噪语音帧的N维声学特征；

可选的，所述第一转换模块具体用于：

若n*K<M<(n+1)*K，则根据预设的帧间隔K和前n*K个所述语音帧的N维声学特征，获取所述待处理的带噪语音对应的n个带噪图像，并根据所述M个语音帧中最后K个语音帧的N维声学特征，获取所述待处理的带噪语音对应的第n+1个带噪图像。

可选的，所述第一转换模块具体用于：

若M＝n*K，则根据预设的帧间隔K和各所述带噪语音帧的N维声学特征，获取所述待处理的带噪语音对应的n个带噪图像。

可选的，所述第二转换模块具体用于：

可选的，所述装置还包括：训练模块，所述训练模块用于：

可选的，所述训练模块具体用于：

可选的，所述生成模型为卷积神经网络模型。

第三方面，本发明实施例提供一种语音降噪设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的方法。

本发明实施例提供的语音降噪方法及装置，将待处理的带噪语音转换为至少一个带噪图像，将各所述带噪图像输入至经过训练的生成模型中，所述生成模型用于生成各所述带噪图像对应的降噪图像，根据所述生成模型输出的各所述带噪图像对应的降噪图像，获取所述待处理的带噪语音对应的降噪语音；通过将带噪语音先转换为带噪图像，然后采用训练好的生成模型对带噪图像进行降噪处理，能够提高语音降噪效果；另外，由于采用图像形式进行降噪，实现了同时对多个语音帧进行降噪处理，与现有技术相比，还提高了语音降噪的效率。进一步的，由于生成模型具有深度学习能力，在训练过程中学习了各种分布的噪声，使得本实施例的方法对于具有复杂分布噪声的语音，也能达到较好的降噪效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别系统的语音识别原理示意图；

图2为本发明实施例提供的生成模型的获取方法的流程图；

图3为本发明实施例提供的对抗网络的训练方法流程图；

图4为本发明实施例提供的对抗网络的训练过程示意图；

图5为本发明实施例提供的将语音转换为图像的方法流程图；

图6A和图6B为本发明实施例提供的语音转换为图像过程的示意图一；

图7为本发明实施例提供的语音降噪方法的流程示意图；

图8A和图8B为本发明实施例提供的语音转换为图像过程的示意图二；

图9A和图9B为本发明实施例提供的语音转换为图像过程的示意图三；

图10为本发明实施例提供的语音降噪装置的结构示意图一；

图11为本发明实施例提供的语音降噪装置的结构示意图二；

图12为本发明实施例提供的语音降噪设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为本发明实施例提供的语音识别系统的语音识别原理示意图。语音识别(Automatic Speech Recognition，ASR)所要解决的问题是让计算机能够"听懂"人类的语音，将语音转化成文本。如图1所示，该语音识别系统的识别过程包括前端处理过程和后端处理过程。其中，前端可以为能够与用户进行语音交互的各种智能终端，例如智能手机、智能音箱、智能电视、智能冰箱等，本实施例对智能终端的实现方式不做特别限制。后端可以为能够进行数据逻辑处理的服务器，本领域技术人员可以理解，该后端也可以为智能终端的处理器。预先训练好声学模型和语言模型可以存储到后端。其中，声学模型对应于语音到音节概率的计算，语音模型对应于音节到字概率的计算。

在具体实现过程中，前端在接收到语音之后，对接收到的语音进行分帧处理，然后进行端点检测，在检测到语音段的起点和终点后，对起点和终点之间的语音帧进行降噪处理，以消除环境噪声对语音的影响，使得降噪后的语音更能反映语音的本质特征。然后对语音进行特征提取，根据提取到的声学特征、声学模型、语音模型进行解码，得到识别结果。在一种可能的实现方式中，解码是将声学模型、词典以及语言模型编译成一个网络。解码就是在这个动态网络空间中，基于最大后验概率，选择一条或多条最优路径作为识别结果(最优的输出字符序列)。

由此可见，在此过程中语音降噪过程尤其重要，决定了语音识别系统的准确度。然而现有的语音降噪技术主要集中在两个方面，一方面是传统的信号处理方法，例如，采用滤波算法对语音信号进行降噪；另一方面是采用传统的机器学习方法对语音信号进行降噪，例如，深度神经网络(Deep Neural Network，DNN)中，利用单帧或者多帧带噪信息输出单帧降噪信息。但是现有的降噪技术针对含有复杂的噪声分布的语音信号，降噪效果不佳。基于此，本发明实施例提供一种语音降噪方法，以提升语音降噪效果。

在本实施例中，通过将语音信号转换为图像形式，采用对抗网络模型中的生成模型来对语音信号进行降噪，以提升语音降噪效果。下面分别从使用模型和训练模型两方面分别进行详细说明。

图2为本发明实施例提供的生成模型的获取方法的流程图，如图2所示，本实施例的方法，包括：

S201：获取至少一个待训练的加噪语音，所述加噪语音是向干净语音中添加预设分布的噪声得到的。

其中，干净语音是指未包含任何噪声的语音。加噪语音是向所述干净语音中添加预设分布的噪声得到的语音。本实施例中将干净语音和加噪语音作为待训练的语音。

具体的，在生成加噪语音时，可以通过向干净语音中添加各种不同分布的噪声得到该干净语音对应的多个加噪语音。例如：向干净语音1中添加第一分布的噪声得到加噪语音1，向干净语音2中添加第二分布的噪声得到加噪语音2，向干净语音1中添加第三分布的噪声得到加噪语音3，依次类推。经过上述加噪过程，可以得到多个干净语音和加噪语音的数据对，例如：{干净语音1，加噪语音1}，{干净语音1，加噪语音2}，{干净语音1，加噪语音3}等等。

实际训练过程中，可以先获取多个干净语音，并且向每个干净语音中添加多种不同分布的噪声，从而得到海量的{干净语音，加噪语音}的数据对。将这些数据对作为待训练的语音。

可以理解的，向干净语音中添加噪声时，添加的噪声种类越多，使得待训练的语音越完备，进而经过训练后得到的生成模型的降噪能力更强。

S202：将各所述加噪语音转换为至少一个加噪图像，将各所述干净语音转换为至少一个干净图像。

其中，对加噪语音进行转换的方法和对干净语音进行转换的方法相同，下面仅以加噪语音为例进行说明。

具体的，由于语音为一维信号，而图像为二维信号，本实施例中，将加噪语音转换为至少一个加噪图像时，可以先将加噪语音转换为二维信号，然后再对转换后的二维信号进行切割得到多个加噪图像。

其中，将加噪语音转换为二维信号的方法有多种，一种可选的实施方式中，通过对加噪语音按帧进行特征提取，从而转换为二维信号。另一种可选的实施方式中，通过对加噪语音采用预设算法进行变换，使之变换为二维信号。本发明实施例对此不作具体限定。

将加噪语音转换为二维信号后，可以通过对二维信号进行切割得到多个加噪图像。可以理解的，所述至少一个加噪图像的大小可以相同也可以不同。可选的，为了方便后续训练处理，所述至少一个加噪图像的大小相同。

可以理解的，对于某一个{干净语音，加噪语音}的数据对来说，例如{干净语音1，加噪语音1}，假设干净语音1经过转换后得到3个干净图像，分别为【干净图像1，干净图像2，干净图像3】，加噪语音1经过转换后得到3个加噪图像，分别为【加噪图像1，加噪图像2，加噪图像3】，则可以得到3个干净图像与加噪图像的数据对，分别为{干净图像1，加噪图像1}，{干净图像2，加噪图像2}，{干净图像3，加噪图像3}。

S203：根据各所述加噪图像和所述干净图像，对待训练的生成模型和判别模型进行训练，得到训练后的生成模型和判别模型；其中，所述生成模型用于根据所述加噪图像生成降噪图像，所述判别模型用于判断所述降噪图像是否为所述干净图像。

通过S201和S202的处理后，可以生成海量的待训练的{干净图像，加噪图像}的数据对，根据这些数据对对待训练的生成模型和判别模型进行训练，得到训练后的生成模型和判别模型。

其中，所述生成模型用于根据所述加噪图像生成降噪图像，所述判别模型用于判断所述降噪图像为所述干净图像的概率。生成模型和判别模型构成一个对抗网络，

下面简单介绍对抗网络的基本原理。假设对抗网络包括生成模型G和判别模型D，G是一个生成模型，它接收加噪图像z，根据这个加噪图像生成降噪图像G(z)。D是一个判别模型，判别一张图像是不是干净图像。它的输入参数是x，x代表一个图像，输出D(x)代表x为干净图像的概率，如果为1，就代表100％是干净图像，而输出为0，就代表不可能是干净图像。

在训练过程中，生成模型G的目标就是尽量生成与干净图像接近的降噪图像去欺骗判别模型D。而D的目标就是尽量把G生成的降噪图像和干净图像区分开来。这样，G和D构成了一个动态的“博弈过程”。在最理想的状态下，G可以生成足以“以假乱真”的降噪图像G(z)。对于D来说，它难以判定G生成的降噪图像究竟是不是干净图像，因此D(G(z))＝0.5。

当训练收敛后，就得到了一个生成模型G，可以用于对输入的加噪图像进行降噪，输出对应的降噪图像。

图3为本发明实施例提供的对抗网络的训练方法流程图，图4为本发明实施例提供的对抗网络的训练过程示意图，如图3和图4所示，包括：

S2031：将所述加噪图像输入至待训练的生成模型中，获取所述生成模型输出的降噪图像。

S2032：将所述干净图像和所述降噪图像输入至待训练的判别模型中，获取所述判别模型输出的判别结果。

S2033：根据所述判别结果，对所述生成模型和所述判别模型进行训练，得到训练后的生成模型和判别模型。

具体的，对于一个{干净图像，加噪图像}的数据对，在训练时，将该数据对中的加噪图像输入至生成模型，得到降噪图像，然后再将该降噪图像和数据对中的干净图像输入至判别模型，得到判别结果。所述判别结果用于指示该降噪图像为所述干净图像的概率，若该判别结果不准确(判别结果不接近0.5)，则对生成模型和判别模型中的参数进行调整，重新进行上述训练过程，直至判别模型的判别结果满足预设的训练终止条件。

本实施例中，生成模型和判别模型可以为卷积神经网络模型，卷积神经网络具有局部相关性，利用卷积神经网络进行语音去噪与现有技术相比具有独特的优势。其中，生成模型可以具体为U-net模型，即自编码器模型(AutoEncoder)的结构加skip连接；判别模型可以为二层卷积网络。损失函数采用传统的GAN损失加L1正则损失。

具体训练过程中，有多种训练方式，例如，可以先对生成模型进行一轮训练，然后对判别模型进行一次训练，还可以先对生成模型进行多轮训练，然后对判别模型进行多轮训练。本发明实施例不作具体限定。

本实施例，将待训练的干净语音和加噪语音转换为图像形式，然后利用干净图像和加噪图像进行对抗网络的训练，得到生成模型，使得该生成模型可用于根据输入的加噪图像生成降噪图像。本实施例的训练数据中，通过向干净语音中增加各种不同分布的噪声得到加噪语音，使得训练后的生成模型可适用于消除语音中的各种不同分布的噪声，尤其针对复杂分布的噪声，也能取得较好的降噪效果。

下面采用一个具体的实施例详细描述将语音转换为图像的方法，该方法适用于训练阶段，可以作为上述实施例中S202的一种可选实施方式。

图5为本发明实施例提供的将语音转换为图像的方法流程图，为了描述方便，本实施例以将加噪语音转换为加噪图像的过程为例进行说明，可以理解的，将干净语音转换为干净图像的过程是类似的。如图5所示，该方法包括：

S501：对加噪语音进行分帧处理，得到M个加噪语音帧。

在具体实现过程中，针对每个加噪语音，进行分帧处理，得到多个加噪语音帧。

具体的，可以根据预设帧长和预设帧移来进行分帧处理，例如帧长为25ms，帧移为10ms。由此，每帧之间在时序上存在部分重叠。本领域技术人员可以理解，此处的帧长和帧移仅为示例性的，本实施例此处不做特别限制。

S502：获取各所述加噪语音帧的N维声学特征。

在得到分帧结果后，提取每个加噪语音帧的N维声学特征。其中，该声学特征可以为filer bank的80维的特征，梅尔滤波64维的特征，该声学特征还可以为梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征，还可以为感知线性预测(Perceptual Linear Predict ive，PLP)特征等，本实施例对声学特征的类型不做特别限制。本实施例以及后续实施例以filer bank的80维的特征为例进行描述。

S503：根据预设的帧间隔K和各所述加噪语音帧的N维声学特征，获取所述加噪语音对应的至少一个加噪图像，所述图像的维度为N*K。

图6A和图6B为本发明实施例提供的语音转换为图像过程的示意图一，可以理解的，对M个加噪语音帧提取filer bank的80维的特征后，得到如图6A所述的图像，该图像包括M(560)列，每一列对应一个加噪语音帧，每一列的维度为80，对应的是该加噪语音帧的80维filer bank特征。

本实施例中，假设帧间隔K＝80，按照80帧一个图像，每次移动40帧进行图像提取，得到至少一个加噪图像，由此，相邻加噪图像之间存在部分重叠。本领域技术人员可以理解，此处的帧间隔和帧移仅为示例性的，本实施例此处不做特别限制。如图6B所述，最终得到14个加噪图像。需要说明的是，当最后除不尽时，可以舍弃剩余图像，使得得到的加噪图像的维度均为80*80。

图7为本发明实施例提供的语音降噪方法的流程示意图，如图7所示，本实施例的方法，包括：

S701：将待处理的带噪语音转换为至少一个带噪图像。

本实施例的S701的具体实施方式与图2所示的实施例中的S202类似。具体的，对待处理的带噪语音进行分帧处理，得到M个带噪语音帧；获取各所述带噪语音帧的N维声学特征；根据预设的帧间隔K和各所述带噪语音帧的N维声学特征，获取所述待处理的带噪语音对应的至少一个带噪图像，所述图像的维度为N*K。

S702：将各所述带噪图像输入至经过训练的生成模型中，所述生成模型用于生成各所述带噪图像对应的降噪图像。

其中，所述生成模型是事先已经训练好的网络模型，用于根据输入的带噪图像，输出该带噪图像对应的降噪图像。该生成模型为具有深度学习能力的机器学习模型，该生成模型具体为对抗网络中的生成模型，采用对抗网络的训练方法进行训练。具体的训练过程，可以参考图2所示实施例。

S703：根据所述生成模型输出的各所述带噪图像对应的降噪图像，获取所述待处理的带噪语音对应的降噪语音。

具体的，生成模型输出各带噪图像对应的降噪图像后，可以将这些降噪图像转换为降噪语音。

可以理解的，将图像转换为语音的方法，可以看到是将语音转换为图像的逆过程，可以采用与S701对应的转换方法。此处也不作特别赘述。

本实施例中，将待处理的带噪语音转换为至少一个带噪图像，将各所述带噪图像输入至经过训练的生成模型中，所述生成模型用于生成各所述带噪图像对应的降噪图像，根据所述生成模型输出的各所述带噪图像对应的降噪图像，获取所述待处理的带噪语音对应的降噪语音；通过将带噪语音先转换为带噪图像，然后采用训练好的生成模型对带噪图像进行降噪处理，能够提高语音降噪效果；另外，由于采用图像形式进行降噪，实现了同时对多个语音帧进行降噪处理，与现有技术相比，还提高了语音降噪的效率。进一步的，由于生成模型具有深度学习能力，在训练过程中学习了各种分布的噪声，使得本实施例的方法对于具有复杂分布噪声的语音，也能达到较好的降噪效果。

可以理解的，图7所示实施例中，在将语音转换为图像时的过程中，会出现两种情况，一种情况为K能够整除M，一种情况为K不能整除M。下面分别描述两种情况下的不同实施方式。

针对第一种情况：K能够整除M。

即当M＝n*K，根据预设的帧间隔K和各所述带噪语音帧的N维声学特征，获取所述待处理的带噪语音对应的n个带噪图像，其中，n为自然数。

图8A和图8B为本发明实施例提供的语音转换为图像过程的示意图二，如图8A所示，待处理的语音包括M＝560个带噪语音帧，预设帧间隔K＝80时，得到如图8B所示的7个带噪图像。也就是说，按照560个带噪语音帧的顺序，每80个带噪语音帧提取为一个带噪图像，每次移动80个带噪语音帧，从而得到7个互不重叠的带噪图像。

该情况下，S703的具体实施方式可以为：根据所述生成模型输出的7个带噪图像对应的降噪图像，获取7*80＝560个降噪语音帧；根据所述560个降噪语音帧，获取所述待处理的带噪语音对应的降噪语音。

针对第二种情况：K不能够整除M。

即当n*K<M<(n+1)*K时，根据预设的帧间隔K和前n*K个所述语音帧的N维声学特征，获取所述待处理的带噪语音对应的n个带噪图像，并根据所述M个语音帧中最后K个语音帧的N维声学特征，获取所述待处理的带噪语音对应的第n+1个带噪图像。

图9A和图9B为本发明实施例提供的语音转换为图像过程的示意图三，如图9A所示，待处理语音包括M＝525个带噪语音帧，预设帧间隔K＝80时，得到如图9B所示的7个带噪图像。具体的，按照525个带噪语音帧的顺序，每80个带噪语音帧提取为一个带噪图像，每次移动80个带噪语音帧，得到6个互不重叠的带噪图像后，再从最后一个带噪语音帧开始，将最后80个带噪语音帧提取为第7个带噪图像，从而，第6个带噪图像和第7个带噪图像存在重叠部分。

该情况下，S703的具体实施方式可以为：根据所述生成模型输出的前5个带噪图像对应的降噪图像，获取前400(5*80)个降噪语音帧；根据所述生成模型输出的第6个降噪图像和第7个降噪图像，获取最后125个降噪语音帧；具体的，如图9B所示，对于存在重叠部分的第6个降噪图像和第7个降噪图像(重叠部分为第446至480个降噪语音帧)，可以对两个降噪图像中的重叠语音帧求取平均值或者加权平均，得到最后125个降噪语音帧。进而，根据所述前400个降噪语音帧和所述最后125个降噪语音帧，获取所述待处理的带噪语音对应的降噪语音。

本实施例中，在将带噪语音转换为带噪图像的过程中，对于不能整除的情况，并不直接舍弃剩余部分，而是从最后一个语音帧开始，将最后K个带噪语音帧作为最后一个带噪图像，使得提取到的带噪图像满足大小相等的条件下，能够覆盖完整的带噪语音，从而经过生成模型的降噪处理后，能够得到完整的带噪语音对应的降噪语音，进一步提高了语音降噪效果。

图10为本发明实施例提供的语音降噪装置的结构示意图一，如图10所示，本实施例的语音降噪装置1000，包括：第一转换模块1001、降噪模块1002和第二转换模块1003。

其中，第一转换模块1001，用于将待处理的带噪语音转换为至少一个带噪图像；

降噪模块1002，用于将各所述带噪图像输入至经过训练的生成模型中，所述生成模型用于生成各所述带噪图像对应的降噪图像；

第二转换模块1003，用于根据所述生成模型输出的各所述带噪图像对应的降噪图像，获取所述待处理的带噪语音对应的降噪语音。

本实施例的装置，可用于执行如图7所示的方法实施例的技术方案，其实现原理和技术效果类似，此处不作赘述。

图11为本发明实施例提供的语音降噪装置的结构示意图二，如图11所示，在图10所示实施例的基础上，本实施例提供的语音降噪装置1000，还包括训练模块1004。

可选的，所述第一转换模块1001具体用于：

对待处理的带噪语音进行分帧处理，得到M个带噪语音帧；

获取各所述带噪语音帧的N维声学特征；

可选的，所述第一转换模块1001具体用于：

可选的，所述第二转换模块1003具体用于：

可选的，所述训练模块1004用于：

可选的，所述训练模块1004具体用于：

可选的，所述生成模型为卷积神经网络模型。

本实施例的装置，可用于执行上述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不作赘述。

图12为本发明实施例提供的语音降噪设备的硬件结构示意图。如图12所示，本实施例的语音降噪设备1200，包括：至少一个处理器1201和存储器1202。其中，处理器1201、存储器1202通过总线1203连接。

在具体实现过程中，至少一个处理器1201执行所述存储器1202存储的计算机执行指令，使得至少一个处理器1201执行上述任一方法实施例的技术方案。

处理器1201的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述的图12所示的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现上述任一方法实施例的技术方案。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音降噪方法，其特征在于，包括：

将待处理的带噪语音转换为至少一个带噪图像；

2.根据权利要求1所述的方法，其特征在于，所述将待处理的带噪语音转换为至少一个带噪图像，包括：

对待处理的带噪语音进行分帧处理，得到M个带噪语音帧；

获取各所述带噪语音帧的N维声学特征；

3.根据权利要求2所述的方法，其特征在于，若n*K<M<(n+1)*K，则所述根据预设的帧间隔K和各所述带噪语音帧的N维声学特征，获取所述待处理的带噪语音对应的至少一个带噪图像，包括：

4.根据权利要求2所述的方法，其特征在于，若M＝n*K，则所述根据预设的帧间隔K和各所述带噪语音帧的N维声学特征，获取所述待处理的带噪语音对应的至少一个带噪图像，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述生成模型输出的各所述带噪图像对应的降噪图像，获取所述待处理的带噪语音对应的降噪语音，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述生成模型输出的各所述带噪图像对应的降噪图像，获取所述待处理的带噪语音对应的降噪语音，包括：

7.根据权利要求1所述的方法，其特征在于，所述将各所述带噪图像输入至经过训练的生成模型中之前，还包括：

8.根据权利要求7所述的方法，其特征在于，所述根据各所述加噪图像和所述干净图像，对待训练的生成模型和判别模型进行训练，包括：

9.根据权利要求1-8任一项所述的方法，其特征在于，所述生成模型为卷积神经网络模型。

10.一种语音降噪装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述第一转换模块具体用于：

对待处理的带噪语音进行分帧处理，得到M个带噪语音帧；

获取各所述带噪语音帧的N维声学特征；

12.根据权利要求11所述的装置，其特征在于，所述第一转换模块具体用于：

13.根据权利要求11所述的装置，其特征在于，所述第一转换模块具体用于：

14.根据权利要求12所述的装置，其特征在于，所述第二转换模块具体用于：

15.根据权利要求13所述的装置，其特征在于，所述第二转换模块具体用于：

16.根据权利要求10所述的装置，其特征在于，还包括：训练模块，所述训练模块用于：

17.根据权利要求16所述的装置，其特征在于，所述训练模块具体用于：

18.根据权利要求10-17任一项所述的装置，其特征在于，所述生成模型为卷积神经网络模型。

19.一种语音降噪设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至9任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至9任一项所述的方法。