CN111276132A

CN111276132A - 一种语音处理方法、电子设备及计算机可读存储介质

Info

Publication number: CN111276132A
Application number: CN202010079658.1A
Authority: CN
Inventors: 邱广; 冯大航; 陈孝良; 常乐
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-02-04
Filing date: 2020-02-04
Publication date: 2020-06-12

Abstract

本发明提供一种语音处理方法、电子设备及计算机可读存储介质，涉及语音处理技术领域，所述方法包括：获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于纯净语音信号训练得到；将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，得到处理后的语音信号。本发明实施例能够提高语音信号处理效果。

Description

一种语音处理方法、电子设备及计算机可读存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音处理方法、电子设备及计算机可读存储介质。

背景技术

语音通信是人类传播信息，进行交流使用最多、最自然且最基本的手段。语音信号是语音通信的信息载体，语音信号是一种时变的、非平稳的信号，而且，在自然环境条件下，语音信号会受到不同程度的噪声污染。电子设备可以对接收到的语音信号进行增强处理，并利用增强处理后的语音信号实现自动语音识别以及说话人识别等功能。目前，通常采用维纳滤波算法对语音信号进行增强处理，然而，维纳滤波算法是在平稳条件下的基于最小均方误差的最优估计，对时变的、非平稳的语音信号处理效果较差。

发明内容

本发明实施例提供一种语音处理方法、电子设备及计算机可读存储介质，以解决现有技术中采用维纳滤波算法对时变的、非平稳的语音信号处理效果较差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音处理方法，所述方法包括：

获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于纯净语音信号训练得到；

将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，得到处理后的语音信号。

第二方面，本发明实施例提供了一种电子设备，所述电子设备包括：

获取模块，用于获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于纯净语音信号训练得到；

输入模块，用于将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，得到处理后的语音信号。

第三方面，本发明实施例提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的语音处理方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的语音处理方法的步骤。

本发明实施例中，获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于纯净语音信号训练得到；将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，得到处理后的语音信号。这样，因为训练过程中的纯净语音信号也为时变的、非平稳的语音信号，所以基于纯净语音信号训练得到的生成对抗网络模型适用于时变的、非平稳的语音信号的处理，且处理后的语音信号为较纯净的语音信号，能够实现提高语音信号处理效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音处理方法的流程图；

图2是本发明实施例提供的一种生成对抗网络模型的结构示意图；

图3是本发明实施例提供的电子设备的结构示意图之一；

图4是本发明实施例提供的电子设备的结构示意图之二；

图5是本发明实施例提供的电子设备的结构示意图之三；

图6是本发明实施例提供的电子设备的结构示意图之四；

图7是本发明实施例提供的电子设备的结构示意图之五。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。

参见图1，图1是本发明实施例提供的一种语音处理方法的流程图，如图1所示，所述方法包括以下步骤：

步骤101、获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于纯净语音信号训练得到；

步骤102、将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，得到处理后的语音信号。

其中，如图2所示，生成对抗网络模型GAN的结构可以包括一个生成器G(Generator)和一个判别器D(Discriminator)。生成器和判别器可以由包含卷积和/或全连接层的多层网络构成。生成器尽可能生成逼真样本，判别器尽可能去判别输入的样本是真实样本，还是生成器生成的逼真样本。

另外，如图2所示，生成器的输入可以为隐变量，在实际应用中，隐变量可以采用服从高斯分布的随机噪声，输入的隐变量通过生成器生成逼真样本,判别器负责判别输入的数据是生成器生成的逼真样本还是真实样本。生成器和判别器可以均采用全连接网络结构模型，可以通过反向传播方式训练生成对抗网络。理论上，生成对抗网络模型能训练任何一种生成器网络，生成对抗网络模型无需利用马尔科夫链反复采样，无需在学习过程中进行推断，没有复杂的变分下界，避开了近似计算棘手的概率的难题。

进一步的，所述生成对抗网络模型可以基于第一向量和第二向量训练得到，所述第一向量为对所述纯净语音信号进行特征提取得到的向量，所述第二向量为对添加预设信息后的纯净语音信号进行特征提取得到的向量，在训练所述生成对抗网络模型的过程中，所述第一向量为所述生成对抗网络模型中的判别器的第一输入，所述第二向量为所述生成对抗网络模型中的生成器的输入，所述生成器的输出为所述判别器的第二输入；

或者，所述生成对抗网络模型可以基于第四向量和第五向量训练得到，所述第四向量为对所述纯净语音信号进行数字化后得到的向量，所述第五向量为对添加预设信息后的纯净语音信号进行数字化后得到的向量，在训练所述生成对抗网络模型的过程中，所述第四向量为所述生成对抗网络模型中的判别器的第一输入，所述第五向量为所述生成对抗网络模型中的生成器的输入，所述生成器的输出为所述判别器的第二输入；

或者，所述生成对抗网络模型可以基于第六向量和第七向量训练得到，所述第六向量为对所述纯净语音信号进行短时傅里叶变换后得到的向量，所述第七向量为对添加预设信息后的纯净语音信号进行短时傅里叶变换后得到的向量，在训练所述生成对抗网络模型的过程中，所述第六向量为所述生成对抗网络模型中的判别器的第一输入，所述第七向量为所述生成对抗网络模型中的生成器的输入，所述生成器的输出为所述判别器的第二输入。

例如，所述纯净语音信号可以为一段时域语音信号，可以通过模数转换进行数字化得到数字化后的语音信号，可以用第四向量表示该数字化后的语音信号。或者可以对所述纯净语音信号进行短时傅里叶变换，可以得到语音信号的频谱图，该语音信号的频谱图可以包含多帧的一个矩阵，一帧可以用一个向量表示，该语音信号的频谱图可以包括多个向量，可以用第六向量表示该语音信号的频谱图。

需要说明的是，在所述生成对抗网络模型基于第一向量和第二向量训练得到的情况下，所述将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，可以是，对待处理的语音信号进行特征提取，得到第三向量，将所述第三向量输入所述预先训练的生成对抗网络模型中的生成器。

在所述生成对抗网络模型基于第四向量和第五向量训练得到的情况下，所述将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，可以是，对待处理的语音信号进行数字化，将数字化后得到的向量输入所述预先训练的生成对抗网络模型中的生成器。

在所述生成对抗网络模型基于第六向量和第七向量训练得到的情况下，所述将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，可以是，对待处理的语音信号进行短时傅里叶变换，将短时傅里叶变换后得到的向量输入所述预先训练的生成对抗网络模型中的生成器。

可选的，所述生成对抗网络模型基于第一向量和第二向量训练得到，所述第一向量为对所述纯净语音信号进行特征提取得到的向量，所述第二向量为对添加预设信息后的纯净语音信号进行特征提取得到的向量；

在训练所述生成对抗网络模型的过程中，所述第一向量为所述生成对抗网络模型中的判别器的第一输入，所述第二向量为所述生成对抗网络模型中的生成器的输入，所述生成器的输出为所述判别器的第二输入。

其中，所述预设信息可以包括噪音信息和/或信道信息，和/或还可以包括其它语音背景信息。通过将纯净语音信号加入各种噪声或信道信息对生成对抗网络模型进行训练，可以增强生成对抗网络模型的泛化能力。判别器的第一输入可以是真实样本的输入，判别器的第二输入可以是生成器生成的逼真样本的输入。

另外，在声纹识别使用场景中，可以是对纯净语音信号进行短时傅里叶变化，得到频谱图，对所述频谱图进行声纹特征提取，得到所述第一向量；可以是对添加预设信息后的纯净语音信号进行短时傅里叶变化，得到频谱图，对所述频谱图进行声纹特征提取，得到所述第二向量。在语音识别使用场景中，可以是对纯净语音信号进行分帧，采用声学模型对分帧后的语音信号进行特征提取，得到所述第一向量；可以是对添加预设信息后的纯净语音信号进行分帧，采用声学模型对分帧后的语音信号进行特征提取，得到所述第二向量。

该实施方式中，所述生成对抗网络模型基于第一向量和第二向量训练得到，所述第一向量为对所述纯净语音信号进行特征提取得到的向量，所述第二向量为对添加预设信息后的纯净语音信号进行特征提取得到的向量；在训练所述生成对抗网络模型的过程中，所述第一向量为所述生成对抗网络模型中的判别器的第一输入，所述第二向量为所述生成对抗网络模型中的生成器的输入，所述生成器的输出为所述判别器的第二输入。这样，采用纯净语音信号进行特征提取后得到的向量对生成对抗网络模型进行训练，训练后的生成对抗网络模型的生成器可以实现对特征提取后的向量进行去噪或去信道，进一步提高语音处理效果。

可选的，所述将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，包括：

对待处理的语音信号进行特征提取，得到第三向量；

将所述第三向量输入所述预先训练的生成对抗网络模型中的生成器。

其中，在声纹识别使用场景中，所述将待处理的语音信号进行特征提取，得到第三向量，可以包括：对待处理的语音信号进行短时傅里叶变化，得到频谱图，对所述频谱图进行声纹特征提取，得到所述第三向量；或者，还可以采用其他方式进行声纹特征提取，得到所述第三向量。在语音识别使用场景中，所述将待处理的语音信号进行特征提取，得到第三向量，可以包括：对待处理的语音信号进行分帧，对分帧后的语音信号进行语音特征提取，得到所述第三向量；或者，还可以采用其他方式进行语音识别的特征提取，得到第三向量。

需要说明的是，所述第三向量不仅可以应用于声纹识别使用场景和语音识别使用场景，还可以应用于其他使用场景，在不同的使用场景中，进行特征提取的方式不同，从而得到的第三向量不同。

另外，在声纹识别使用场景中，将所述第三向量输入所述预先训练的生成对抗网络模型中的生成器，得到处理后的语音信号，可以基于所述处理后的语音信号进行声纹识别；在语音识别使用场景中，将所述第三向量输入所述预先训练的生成对抗网络模型中的生成器，得到处理后的语音信号，可以基于所述处理后的语音信号进行语音识别；或者，在其他使用场景，处理后的语音信号可以进行与使用场景对应的应用。

该实施方式中，对待处理的语音信号进行特征提取，得到第三向量；将所述第三向量输入所述预先训练的生成对抗网络模型中的生成器。这样，能够实现对特征提取后的向量进行去噪或去信道，适用于需要使用特征提取的场景，针对性较强，能够进一步提高语音处理的效果。

可选的，所述将待处理的语音信号进行特征提取，得到第三向量，包括：

对待处理的语音信号进行短时傅里叶变化，得到频谱图；

对所述频谱图进行声纹特征提取，得到所述第三向量；

所述方法还包括：

基于所述处理后的语音信号进行声纹识别。

其中，可以通过神经网络算法或者其他算法对频谱图进行声纹特征提取，得到第三向量，该第三向量可以用于表征说话人。基于所述处理后的语音信号进行声纹识别，例如，可以将处理后的语音信号与预先存储的声纹特征进行匹配，用于验证语音信号对应的说话人是否是预先存储的声纹特征对应的说话对象。所述处理后的语音信号为较为纯净的声纹特征，能够提高声纹识别的准确性。

该实施方式中，对待处理的语音信号进行短时傅里叶变化，得到频谱图；对所述频谱图进行声纹特征提取，得到所述第三向量，将所述第三向量输入所述预先训练的生成对抗网络模型中的生成器，得到处理后的语音信号，基于所述处理后的语音信号进行声纹识别。这样，能够对声纹特征进行去噪或去信道，并可以将去噪或去信道后的声纹特征用于声纹识别，适用于声纹识别使用场景，针对性较强，能够提高声纹识别场景中语音处理的效果。

对待处理的语音信号进行分帧；

对分帧后的语音信号进行语音特征提取，得到所述第三向量；

所述方法还包括：

基于所述处理后的语音信号进行语音识别。

其中，可以采用线性预测倒谱系数(LPCC)或者Mel倒谱系数(MFCC)等语音特征提取算法对分帧后的语音信号进行语音特征提取。第三向量可以包括多个向量，所述多个向量的数量可以与分帧处理后的帧数相同。基于所述处理后的语音信号进行语音识别，例如，可以采用声学模型和语言模型对处理后的语音信号进行分析，并通过解码得到文字输出。所述处理后的语音信号为较为纯净的语音特征，能够提高语音识别的准确性。

该实施方式中，对对待处理的语音信号进行分帧，对分帧后的语音信号进行语音特征提取，得到所述第三向量，将所述第三向量输入所述预先训练的生成对抗网络模型中的生成器，得到处理后的语音信号，基于所述处理后的语音信号进行语音识别。这样，能够对语音信号的特征向量进行去噪或去信道，并可以将去噪或去信道后的特征向量用于语音识别，适用于语音识别使用场景，针对性较强，能够提高语音识别场景中语音处理的效果。

参见图3，图3是本发明实施例提供的一种电子设备的结构示意图，如图3所示，所述电子设备200包括：

获取模块201，用于获取预先训练的生成对抗网络模型，所述生成对抗网络模型基于纯净语音信号训练得到；

输入模块202，用于将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，得到处理后的语音信号。

可选的，如图4所示，所述输入模块202包括：

提取单元2021，用于对待处理的语音信号进行特征提取，得到第三向量；

输入单元2022，用于将所述第三向量输入所述预先训练的生成对抗网络模型中的生成器。

可选的，所述输入单元2022具体用于：

对待处理的语音信号进行短时傅里叶变化，得到频谱图；

对所述频谱图进行声纹特征提取，得到所述第三向量；

如图5所示，所述电子设备200还包括：

第一识别模块203，用于基于所述处理后的语音信号进行声纹识别。

可选的，所述输入单元2022具体用于：

对待处理的语音信号进行分帧；

如图6所示，所述电子设备200还包括：

第二识别模块204，用于基于所述处理后的语音信号进行语音识别。

电子设备能够实现图1的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

请参见图7，图7是本发明实施例提供的另一种电子设备的结构示意图，如图7所示，电子设备300包括：存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序，其中：

所述处理器301读取存储器302中的程序，用于执行：

可选的，所述处理器301用于执行的所述将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，包括：

对待处理的语音信号进行特征提取，得到第三向量；

可选的，所述处理器301用于执行的所述将待处理的语音信号进行特征提取，得到第三向量，包括：

对待处理的语音信号进行短时傅里叶变化，得到频谱图；

对所述频谱图进行声纹特征提取，得到所述第三向量；

所述处理器301还用于执行：

基于所述处理后的语音信号进行声纹识别。

对待处理的语音信号进行分帧；

所述处理器301还用于执行：

基于所述处理后的语音信号进行语音识别。

在图7中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器301代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。

处理器301负责管理总线架构和通常的处理，存储器302可以存储处理器301在执行操作时所使用的数据。

需要说明的是，本发明实施例中图1所示的方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述生成对抗网络模型基于第一向量和第二向量训练得到，所述第一向量为对所述纯净语音信号进行特征提取得到的向量，所述第二向量为对添加预设信息后的纯净语音信号进行特征提取得到的向量；

3.根据权利要求1所述的方法，其特征在于，所述将待处理的语音信号输入所述预先训练的生成对抗网络模型中的生成器，包括：

对待处理的语音信号进行特征提取，得到第三向量；

4.根据权利要求3所述的方法，其特征在于，所述将待处理的语音信号进行特征提取，得到第三向量，包括：

对待处理的语音信号进行短时傅里叶变化，得到频谱图；

对所述频谱图进行声纹特征提取，得到所述第三向量；

所述方法还包括：

基于所述处理后的语音信号进行声纹识别。

5.根据权利要求3所述的方法，其特征在于，所述将待处理的语音信号进行特征提取，得到第三向量，包括：

对待处理的语音信号进行分帧；

所述方法还包括：

基于所述处理后的语音信号进行语音识别。

6.一种电子设备，其特征在于，所述电子设备包括：

7.根据权利要求6所述的电子设备，其特征在于，所述生成对抗网络模型基于第一向量和第二向量训练得到，所述第一向量为对所述纯净语音信号进行特征提取得到的向量，所述第二向量为对添加预设信息后的纯净语音信号进行特征提取得到的向量；

8.根据权利要求6所述的电子设备，其特征在于，所述输入模块包括：

提取单元，用于对待处理的语音信号进行特征提取，得到第三向量；

输入单元，用于将所述第三向量输入所述预先训练的生成对抗网络模型中的生成器。

9.根据权利要求8所述的电子设备，其特征在于，所述输入单元具体用于：

对待处理的语音信号进行短时傅里叶变化，得到频谱图；

对所述频谱图进行声纹特征提取，得到所述第三向量；

所述电子设备还包括：

第一识别模块，用于基于所述处理后的语音信号进行声纹识别。

10.根据权利要求8所述的电子设备，其特征在于，所述输入单元具体用于：

对待处理的语音信号进行分帧；

所述电子设备还包括：

第二识别模块，用于基于所述处理后的语音信号进行语音识别。

11.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的语音处理方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的语音处理方法的步骤。