CN111754983A

CN111754983A - 一种语音去噪方法、装置、电子设备及存储介质

Info

Publication number: CN111754983A
Application number: CN202010421248.0A
Authority: CN
Inventors: 邹佳宏
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-10-09

Abstract

本申请提供了一种语音去噪方法、装置、电子设备及存储介质，该方法包括：获取待去噪语音数据；提取待去噪语音数据的频谱图信息；将频谱图信息输入到预先训练好的神经网络模型中，得到频谱图信息对应的信噪比，其中，神经网络模型是基于标注有已知噪音数据的样本语音数据的样本频谱图信息和样本频谱图信息对应的样本信噪比训练得到的；基于频谱图信息对应的信噪比对待去噪语音数据进行去噪处理，得到去噪后的语音数据。训练神经网络模型时，所采用的样本语音数据中的噪音数据是已知的，从而训练后的神经网络模型可以准确地确定待去噪语音数据的频谱图信息对应的信噪比，且在不同语音环境中具有很强的鲁棒性，进而可以大大提高语音去噪效果。

Description

一种语音去噪方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，特别是涉及一种语音去噪方法、装置、电子设备及存储介质。

背景技术

随着科技的不断发展，语音识别已经进入了人们生活的方方面面，例如语音助手和智能音箱等。但是，由于环境中噪音的存在，严重影响了语音识别的准确性。为了更好的提升语音识别的性能，需要有相应的语音去噪方法予以支持。

相关技术中的语音去噪方法一般是基于语音中各频段的功率和噪声功率的比值计算各频段的噪声抑制因子，以将各频段的幅值乘以对应的噪音抑制因子，从而达到语音去噪的目的。

但是，由于噪音的多样性，相关技术无法准确地确定一段语音中包含哪些种类噪音，以及噪音的频谱和噪音在语音中的位置，从而导致信噪比计算不准确，进而严重影响语音去噪效果。

发明内容

为了解决相关技术存在的因无法准确地判断一段语音中包含哪些种类噪音，以及噪音的频谱和噪音在语音中的位置，从而导致信噪比计算不准确，进而严重影响语音去噪效果的技术问题。本申请实施例提供了一种语音去噪方法、装置、电子设备及存储介质。

第一方面，本申请示出了一种语音去噪方法，所述方法包括：

获取待去噪语音数据；

提取所述待去噪语音数据的频谱图信息；

将所述频谱图信息输入到预先训练好的神经网络模型中，得到所述频谱图信息对应的信噪比，其中，所述神经网络模型是基于标注有已知噪音数据的样本语音数据的样本频谱图信息和所述样本频谱图信息对应的样本信噪比训练得到的；

基于所述频谱图信息对应的信噪比对所述待去噪语音数据进行去噪处理，得到去噪后的语音数据。

可选的，所述神经网络模型的训练过程包括：

获取样本语音数据，其中，所述样本语音数据是将无噪音的语音数据与已知噪音数据混合所得到的语音数据；

提取所述样本语音数据的样本频谱图信息，并计算所述样本频谱图信息对应的信噪比；

将所述样本频谱图信息输入预设模型中，对所述预设模型进行训练，直至从所述预设模型输出的信噪比为所述样本频谱图信息对应的信噪比时，将所述训练后的预设模型确定为所述神经网络模型。

可选的，所述提取所述待去噪语音数据的频谱图信息，包括：

将所述待去噪语音数据进行短时傅里叶变换，得到所述待去噪语音数据的频谱图信息，其中，所述频谱图信息包括幅度和相位。

可选的，所述基于所述频谱图信息对应的信噪比，对所述待去噪语音数据进行去噪处理，得到去噪后的语音数据，包括：

根据所述频谱图信息对应的信噪比和所述频谱图信息所包括的幅度，计算所述去噪后的语音数据的幅度；

将所述去噪后的语音数据的幅度和所述频谱图信息所包括的相位进行反短时傅里叶变换，得到去噪后的语音数据。

第二方面，本申请示出了一种语音去噪装置，所述装置包括：

语音数据获取模块，用于获取待去噪语音数据；

频谱图信息提取模块，用于提取所述待去噪语音数据的频谱图信息；

信噪比获取模块，用于将所述频谱图信息输入到预先训练好的神经网络模型中，得到所述频谱图信息对应的信噪比，其中，所述神经网络模型是基于标注有已知噪音数据的样本语音数据的样本频谱图信息和所述样本频谱图信息对应的样本信噪比训练得到的；

语音去噪模块，用于基于所述频谱图信息对应的信噪比对所述待去噪语音数据进行去噪处理，得到去噪后的语音数据。

可选的，所述装置还包括：神经网络模型训练模块，所述神经网络模型训练模块，具体用于：

可选的，所述频谱图信息提取模块，具体用于：

可选的，所述语音去噪模块，具体用于：

第三方面，本申请示出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的语音去噪方法的步骤。

第四方面，本申请示出了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的语音去噪方法的步骤。

本申请实施例提供的技术方案，在对待去噪语音数据进行去噪时，获取待去噪语音数据；提取待去噪语音数据的频谱图信息；将频谱图信息输入到预先训练好的神经网络模型中，得到频谱图信息对应的信噪比，基于频谱图信息对应的信噪比对待去噪语音数据进行去噪处理，得到去噪后的语音数据。由于神经网络模型是基于标注有已知噪音数据的样本语音数据的样本频谱图信息和样本频谱图信息对应的样本信噪比训练得到的，也就是说，训练神经网络模型时，所采用的样本语音数据中的噪音数据是已知的，因此，样本语音数据的功率和样本语音数据中的噪音数据的功率都是可以确定的，进而可以准确地计算出样本频谱信息对应的样本信噪比，从而训练后的神经网络模型可以准确地确定待去噪语音数据的频谱图信息对应的信噪比，且在不同语音环境中具有很强的鲁棒性，进而可以大大提高语音去噪效果。

附图说明

图1是本申请提供的一种语音去噪方法的步骤流程图；

图2是本申请提供的一种神经网络模型的训练过程的步骤流程图；

图3是本申请提供的一种语音去噪方法的步骤流程图；

图4是本申请提供的一种语音去噪装置的结构框图；

图5是本申请提供的一种电子设备的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

第一方面，首先对本申请实施例所提供的语音去噪方法进行详细阐述。

需要说明的是，本申请实施例所提供的语音去噪方法的执行主体可以为语音去噪装置，该语音去噪装置可以运行于电子设备中，该电子设备可以为终端或者服务器等电子设备，本申请实施例对电子设备不做具体限定。

如图1所示，本申请实施例所提供的语音去噪方法，具体可以包括如下步骤：

S110，获取待去噪语音数据。

具体的，由于待识别语音数据中通常存在有噪音，因此，可以将任一存在噪音的待识别语音数据作为待去噪语音数据。电子设备如手机在进行语音识别之前，可以获取待识别语音数据即待去噪语音数据。

S120，提取待去噪语音数据的频谱图信息。

具体的，在获取到待去噪语音数据之后，可以提取待去噪语音数据的频谱图信息，其中，频谱图信息可以包括待去噪语音数据的幅度，以及待去噪语音数据的相位等，本申请实施例对频谱图信息不做具体限定。

在一种实施方式中，提取待去噪语音数据的频谱图信息，可以包括如下步骤a：

步骤a，将待去噪语音数据进行短时傅里叶变换，得到待去噪语音数据的频谱图信息，其中，频谱图信息包括幅度和相位。

在该实施方式中，在提取待去噪语音数据的频谱图信息时，可以将待去噪语音数据进行短时傅里叶变换STFT，得到待去噪语音数据的频谱图信息，该频谱图信息可以包括待去噪语音数据的幅度和相位等。

可以理解的是，待去噪语音数据通常是一段时长的语音数据，可以将待去噪语音数据看作是由多个待去噪子语音数据组成的。每一待去噪子语音数据对应的子频谱图信息可以为频谱图信息的一个频段，也就是说，待去噪语音数据的频谱图信息可以包括多个频段。

S130，将频谱图信息输入到预先训练好的神经网络模型中，得到频谱图信息对应的信噪比。

其中，神经网络模型是基于标注有已知噪音数据的样本语音数据的样本频谱图信息和样本频谱图信息对应的样本信噪比训练得到的。

在得到待去噪语音数据的频谱图信息后，可以将待去噪语音数据的频谱图信息输入到预先训练好的神经网络模型中，神经网络模型接收到待去噪语音数据的频谱图信息后，输出频谱图信息对应的信噪比。

需要说明的，神经网络模型是基于标注有已知噪音数据的样本语音数据的样本频谱图信息和样本频谱图信息对应的样本信噪比训练得到的。也就是说，训练神经网络模型时，所采用的样本语音数据中的噪音数据是已知的，因此，样本语音数据中的噪音数据的种类以及噪音数据在样本语音数据中的位置均是确定的，且样本语音数据的功率和样本语音数据中的噪音数据的功率都是可以确定的，通过计算样本语音数据的功率和样本语音数据中的噪音数据的功率的比值，可以准确地计算出样本频谱信息对应的信噪比，为了方案描述清楚，可以将样本频谱信息对应的信噪比称为样本信噪比。

通过将样本语音数据的样本频谱图信息作为神经网络模型的输入，将样本频谱图信息对应的样本信噪比作为目标输出，训练后的神经网络模型可以准确地确定待去噪语音数据的频谱图信息对应的信噪比。

由上述描述可知，频谱图信息可以包括多个频段，每一频段可以对应一个信噪比。在实际应用中，频谱图信息的每一频段所对应的信噪比可以相同，也可以不同，本申请实施例对此不做具体限定。

为了方案描述清楚，将在下面实施例中对神经网络模型的训练过程进行详细阐述。

S140，基于频谱图信息对应的信噪比对待去噪语音数据进行去噪处理，得到去噪后的语音数据。

具体的，在将频谱图信息输入到预先训练好的神经网络模型中，得到频谱图信息对应的信噪比之后，可以根据频谱图信息对应的信噪比对待去噪语音数据进行去噪处理，从而得到去噪后的语音数据，去噪后的语音数据的去噪效果较好。电子设备对该去噪后的语音数据进行语音识别，可以大大提高语音识别的准确率。

在一种实施方式中，S140，基于频谱图信息对应的信噪比，对待去噪语音数据进行去噪处理，得到去噪后的语音数据，可以包括如下步骤，分别为步骤b1和步骤b2：

步骤b1，根据频谱图信息对应的信噪比和频谱图信息所包括的幅度，计算去噪后的语音数据的幅度。

具体的，可以将频谱图信息对应的信噪比和频谱图信息所包括的待去噪语音数据的幅度相乘，得到去噪后的语音数据的幅度。

可以理解的，频谱图信息可以包括多个频段，在计算去噪后的语音数据的幅度时，可以将每个频段对应的信噪比和该频段所包括的待去噪语音数据的幅度相乘，将计算所得的各个幅度作为去噪后的语音数据的幅度；

步骤b2，将去噪后的语音数据的幅度和频谱图信息所包括的相位进行反短时傅里叶变换，得到去噪后的语音数据。

具体的，在得到去噪后的语音数据的幅度之后，可以将去噪后的语音数据的幅度和频谱图信息所包括的相位进行反短时傅里叶变换ISTFT，得到去噪后的语音数据。在进行反短时傅里叶变换时，对于频谱图信息的每一频段，可以获取该频段对应的相位；对该频段对应的相位和幅值进行ISTFT，得到去噪后的语音数据。其中，本领域技术人员可以理解ISTFT的具体实施方式，本申请实施例在此不做赘述。

如图2所示，神经网络模型的训练过程，可以包括如下步骤，分别为：

S210，获取样本语音数据。

其中，样本语音数据是将无噪音的语音数据与已知噪音数据混合所得到的语音数据。

具体的，训练神经网络模型需要大量的样本语音数据，因此，在训练神经网络模型时，可以获取样本语音数据。为了后续步骤中能够准确地计算信噪比，可以通过大量正常语音即无噪音的语音数据与已知噪音数据进行混合，得到样本语音数据。

可以理解的是，已知噪音的种类是可以确定的，在将无噪音的语音数据与已知噪音数据进行混合时，已知噪音数据在无噪音的语音数据中的位置也是可以确定的，且样本语音数据的功率和样本语音数据中的噪音数据的功率都是可以确定的，因此，后续步骤中，通过计算样本语音数据的功率和样本语音数据中的噪音数据的功率的比值，可以准确地计算出样本频谱信息对应的信噪比。

S220，提取样本语音数据的样本频谱图信息，并计算样本频谱图信息对应的信噪比。

在获取到样本语音数据后，可以将样本语音数据进行短时傅里叶变换，得到样本语音数据的样本频谱图信息，其中，样本频谱图信息可以包括样本语音数据的幅度和相位。并且，样本语音数据的功率和样本语音数据中的噪音数据的功率都是可以确定的，通过计算样本语音数据的功率和样本语音数据中的噪音数据的功率的比值，可以准确地计算出样本频谱信息对应的信噪比。

并且，样本频谱图信息可以包括多个频段，每个频段可以对应一个信噪比，在实际应用中，每个频段对应的信噪比可以相同，也可以不同，本申请实施例对此不做具体限定。

S230，将样本频谱图信息输入预设模型中，对预设模型进行训练，直至从预设模型输出的信噪比为样本频谱图信息对应的信噪比时，将训练后的预设模型确定为神经网络模型。

具体的，在得到样本语音数据的样本频谱图信息和样本频谱图信息对应的信噪比之后，可以将样本频谱图信息作为预设模型的输入，将样本频谱图信息对应的信噪比作为预设模型的目标输出，对预设模型进行训练。在训练预设模型的过程中，通过不断调整预设模型的模型参数，在从预设模型输出的信噪比为样本频谱图信息对应的信噪比时，将训练后的预设模型确定为神经网络模型，可见，神经网络模型可以准确地得到待去噪语音数据的频谱图信息对应的信噪比。

为了方案描述清楚，下面将结合具体的实例对本申请实施例提供的语音去噪方法进行详细阐述。

如图3所示，本申请实施例提供的语音去噪方法可以包括如下步骤：

S310，获取待去噪语音数据。

S320，对待去噪语音数据进行短时傅里叶变换，得到待去噪语音数据的频谱图信息。

S330，将待去噪语音数据的频谱图信息输入神经网络模型，得到频谱图信息对应的信噪比。

S340，将所得到的频谱图信息对应的信噪比与频谱图信息所包括的幅度相乘，得到去噪后的语音数据的幅度；

S350，将频谱图信息所包括的相位与去噪后的语音数据的幅度进行反短时傅里叶变换，得到去噪后语音数据。

需要说明的是，由于在图1和图2所示实施例中，已经对步骤S310至S350进行了详细阐述，在此，不再对步骤S310至S350进行赘述。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作并不一定是本申请所必须的。

第二方面，本申请示出了一种语音去噪装置，如图4所示，所述装置包括：

语音数据获取模块410，用于获取待去噪语音数据；

频谱图信息提取模块420，用于提取所述待去噪语音数据的频谱图信息；

信噪比获取模块430，用于将所述频谱图信息输入到预先训练好的神经网络模型中，得到所述频谱图信息对应的信噪比，其中，所述神经网络模型是基于标注有已知噪音数据的样本语音数据的样本频谱图信息和所述样本频谱图信息对应的样本信噪比训练得到的；

语音去噪模块440，用于基于所述频谱图信息对应的信噪比对所述待去噪语音数据进行去噪处理，得到去噪后的语音数据。

可选的，所述频谱图信息提取模块，具体用于：

可选的，所述语音去噪模块，具体用于：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

第三方面，本申请示出了一种电子设备，如图5所示，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的语音去噪方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种语音去噪方法、装置、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音去噪方法，其特征在于，所述方法包括：

获取待去噪语音数据；

提取所述待去噪语音数据的频谱图信息；

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型的训练过程包括：

3.根据权利要求1或2所述的方法，其特征在于，所述提取所述待去噪语音数据的频谱图信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述频谱图信息对应的信噪比，对所述待去噪语音数据进行去噪处理，得到去噪后的语音数据，包括：

5.一种语音去噪装置，其特征在于，所述装置包括：

语音数据获取模块，用于获取待去噪语音数据；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：神经网络模型训练模块，所述神经网络模型训练模块，具体用于：

7.根据权利要求5或6所述的装置，其特征在于，所述频谱图信息提取模块，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述语音去噪模块，具体用于：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4中任一项所述的语音去噪方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的语音去噪方法的步骤。