CN110517708A

CN110517708A - 一种音频处理方法、装置及计算机存储介质

Info

Publication number: CN110517708A
Application number: CN201910826023.0A
Authority: CN
Inventors: 王涛
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2019-11-29
Anticipated expiration: 2039-09-02
Also published as: WO2021042538A1; CN110517708B

Abstract

本申请公开了一种音频处理方法、装置及计算机存储介质，其中该方法包括：采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号，N个加噪音频信号是对目标音频信号加噪后得到的音频信号，N个加噪音频信号中的任意两个加噪音频信号的信噪比、噪声类型或者噪声功率中的任意一项不同，N为大于等于1的整数；根据N个加噪音频信号与目标音频信号，得到N个加噪音频信号的PESQ分数；根据N个降噪音频信号与目标音频信号，得到N个降噪音频信号的PESQ分数；根据N个降噪音频信号的PESQ分数与N个加噪音频信号的PESQ分数的差值对第一降噪模型的降噪效果进行评估。采用本申请，可以对降噪模型的降噪效果进行评估。

Description

一种音频处理方法、装置及计算机存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种音频处理方法、装置及计算机存储介质。

背景技术

音频消噪是指降低音频中的无效音频，以达到有效音频更清晰的效果。随着科技的发展，目前有多种对含有噪音的音频进行降噪的算法，因此也诞生了多种降噪模型。不同噪声通过不同的降噪模型，会有不同的降噪效果，针对多种降噪模型，目前没有对降噪模型的降噪效果进行评估的方法，因此，如何对降噪模型的降噪效果进行评估是目前亟待解决的问题。

发明内容

本申请实施例提供一种音频处理方法、装置及计算机存储介质，可以对降噪模型的降噪效果进行评估。

第一方面，本申请实施例提供了一种音频处理方法，该方法包括：

电子设备采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号，所述N个加噪音频信号是对目标音频信号加噪后得到的音频信号，所述N个加噪音频信号中的任意两个加噪音频信号的信噪比、噪声类型或者噪声功率中的任意一项不同，N为大于等于1的整数；

所述电子设备根据所述N个加噪音频信号与所述目标音频信号，得到所述N个加噪音频信号的主观语音质量评估(Perceptual evaluation of speech quality，PESQ)分数；

所述电子设备根据所述N个降噪音频信号与所述目标音频信号，得到所述N个降噪音频信号的PESQ分数；

所述电子设备根据所述N个降噪音频信号的PESQ分数与所述N个加噪音频信号的PESQ分数的差值对所述第一降噪模型的降噪效果进行评估。

实施本发明实施例，电子设备可以根据目标音频在加噪后通过降噪模型降噪的PESQ指标分值可以快速对降噪模型的降噪效果进行评估。

在一种实现方式中，所述N个加噪音频信号包括第一加噪音频信号和第二加噪音频信号，所述N个降噪音频信号包括第一降噪音频信号和第二降噪音频信号，所述第一降噪音频信号是所述电子设备采用所述第一降噪模型对所述第一加噪音频信号进行降噪得到的，所述第二降噪音频信号是所述电子设备采用所述第一降噪模型对所述第二加噪音频信号进行降噪得到的，所述第一加噪音频信号的信噪比为第一信噪比，所述第二加噪音频信号的信噪比为第二信噪比，所述第一信噪比和所述第二信噪比不同，所述第一加噪音频信号和所述第二加噪音频信号的噪声类型和噪声功率相同；

所述电子设备根据所述N个降噪音频信号的PESQ分数与所述N个加噪音频信号的PESQ分数的差值对所述第一降噪模型的降噪效果进行评估，包括：

若所述第一降噪音频信号的PESQ分数与所述第一加噪音频信号的PESQ分数的差值大于所述第二降噪音频信号的PESQ分数与所述第二加噪音频信号的PESQ分数的差值，则所述电子设备确定所述第一降噪模型对所述第一信噪比的信号的降噪效果强于对所述第二信噪比的信号的降噪效果。

实施本发明实施例，通过限定多个加噪音频信号的信噪比不同且其他参数(例如噪声类型和噪声功率)相同，根据降噪后的PESQ分数与降噪前的PESQ分数的差值来识别降噪模型对哪一种信噪比的信号的降噪效果好。

在一种实现方式中，所述N个加噪音频信号包括第一加噪音频信号和第二加噪音频信号，所述N个降噪音频信号包括第一降噪音频信号和第二降噪音频信号，所述第一降噪音频信号是所述电子设备采用所述第一降噪模型对所述第一加噪音频信号进行降噪得到的，所述第二降噪音频信号是所述电子设备采用所述第一降噪模型对所述第二加噪音频信号进行降噪得到的，所述第一加噪音频信号的噪声类型为第一噪声类型，所述第二加噪音频信号的噪声类型为第二噪声类型，所述第一噪声类型和所述第二噪声类型不同，所述第一加噪音频信号和所述第二加噪音频信号的信噪比和噪声功率相同；

若所述第一降噪音频信号的PESQ分数与所述第一加噪音频信号的PESQ分数的差值大于所述第二降噪音频信号的PESQ分数与所述第二加噪音频信号的PESQ分数的差值，则所述电子设备确定所述第一降噪模型对所述第一噪声类型的信号的降噪效果强于对所述第二噪声类型的信号的降噪效果。

实施本发明实施例，通过限定多个加噪音频信号的噪声类型不同且其他参数(例如信噪比和噪声功率)相同，根据降噪后的PESQ分数与降噪前的PESQ分数的差值来识别降噪模型对哪一种噪声类型的信号的降噪效果好。

在一种实现方式中，所述N个加噪音频信号包括第一加噪音频信号和第二加噪音频信号，所述N个降噪音频信号包括第一降噪音频信号和第二降噪音频信号，所述第一降噪音频信号是所述电子设备采用所述第一降噪模型对所述第一加噪音频信号进行降噪得到的，所述第二降噪音频信号是所述电子设备采用所述第一降噪模型对所述第二加噪音频信号进行降噪得到的，所述第一加噪音频信号的噪声功率为第一噪声功率，所述第二加噪音频信号的噪声功率为第二噪声功率，所述第一噪声功率和所述第二噪声功率不同，所述第一加噪音频信号和所述第二加噪音频信号的信噪比和噪声类型相同；

若所述第一降噪音频信号的PESQ分数与所述第一加噪音频信号的PESQ分数的差值大于所述第二降噪音频信号的PESQ分数与所述第二加噪音频信号的PESQ分数的差值，则所述电子设备确定所述第一降噪模型对信号功率为所述第一噪声功率的信号的降噪效果强于对信号功率为所述第二噪声功率的信号的降噪效果。

实施本发明实施例，通过限定多个加噪音频信号的噪声功率不同且其他参数(例如信噪比和噪声类型)相同，根据降噪后的PESQ分数与降噪前的PESQ分数的差值来识别降噪模型对哪一种噪声功率的信号的降噪效果好。

在一种实现方式中，所述N个加噪音频信号包括第一加噪音频信号和第二加噪音频信号，所述N个降噪音频信号包括第一降噪音频信号和第二降噪音频信号，所述第一降噪音频信号是所述电子设备采用所述第一降噪模型对所述第一加噪音频信号进行降噪得到的，所述第二降噪音频信号是所述电子设备采用所述第一降噪模型对所述第二加噪音频信号进行降噪得到的，所述第一加噪音频信号的噪声类型包括至少两种，所述第二加噪音频信号的噪声类型包括至少两种，所述第一加噪音频信号中的所述至少两种噪声类型的噪声比例为第一比例，所述第二加噪音频信号中的所述至少两种噪声类型的噪声比例为第二比例，所述第一比例和所述第二比例不同，所述第一加噪音频信号和所述第二加噪音频信号的信噪比和噪声功率相同；

若所述第一降噪音频信号的PESQ分数与所述第一加噪音频信号的PESQ分数的差值大于所述第二降噪音频信号的PESQ分数与所述第二加噪音频信号的PESQ分数的差值，则所述电子设备确定所述第一降噪模型对噪声类型的比例为所述第一比例的信号的降噪效果强于对噪声类型的比例为所述第二比例的信号的降噪效果。

实施本发明实施例，通过限定多个加噪音频信号的噪声比例不同且其他参数(例如信噪比、噪声类型和噪声功率)相同，根据降噪后的PESQ分数与降噪前的PESQ分数的差值来识别降噪模型对哪一种噪声比例的信号的降噪效果好。

在一种实现方式中，所述电子设备采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号之前，还包括：

所述电子设备将所述第一加噪音频信号所需添加的噪声信号的功率按照所述第一比例分配给所述至少两种噪声信号中的每种噪声信号；

所述电子设备根据所述至少两种噪声信号中每种噪声信号被分配的功率调整所述每种噪声信号的的功率；

所述电子设备将功率调整后的所述至少两种噪声信号与所述第一加噪音频信号进行混合。

实施本发明实施例，可以针对一个音频信号一次性混合多个噪声类型的噪声，并且能够根据预设比例来得到加噪后的音频信号。

所述电子设备将所述第二加噪音频信号所需添加的噪声信号的功率按照所述第二比例分配给所述至少两种噪声信号中的每种噪声信号；

所述电子设备将功率调整后的所述至少两种噪声信号与所述第二加噪音频信号进行混合。

在一种实现方式中，所述音频信号包括所述用户通过语音输入设备输入至所述电子设备的音频信号。例如，实施语音输入设备可以是麦克风。

在一种实现方式中，所述噪声信号包括所述用户通过语音输入设备输入至所述电子设备的噪声信号。例如，所述噪声信号可以是用户录制的水流声、鸟叫声等等。可选的，所述噪声信号还可以是白噪声、分红噪声等等，这种噪声可以由信号生成设备生成。

第二方面，本申请实施例提供了一种音频处理装置，包括：

降噪单元，用于采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号，所述N个加噪音频信号是对目标音频信号加噪后得到的音频信号，所述N个加噪音频信号中的任意两个加噪音频信号的信噪比、噪声类型或者噪声功率中的任意一项不同，N为大于等于1的整数；

计算单元，用于根据所述N个加噪音频信号与所述目标音频信号，得到所述N个加噪音频信号的PESQ分数；

所述计算单元，还用于根据所述N个降噪音频信号与所述目标音频信号，得到所述N个降噪音频信号的PESQ分数；

评估单元，用于根据所述N个降噪音频信号的PESQ分数与所述N个加噪音频信号的PESQ分数的差值对所述第一降噪模型的降噪效果进行评估。

所述评估单元具体用于：

若所述第一降噪音频信号的PESQ分数与所述第一加噪音频信号的PESQ分数的差值大于所述第二降噪音频信号的PESQ分数与所述第二加噪音频信号的PESQ分数的差值，则确定所述第一降噪模型对所述第一信噪比的信号的降噪效果强于对所述第二信噪比的信号的降噪效果。

所述评估单元具体用于：

若所述第一降噪音频信号的PESQ分数与所述第一加噪音频信号的PESQ分数的差值大于所述第二降噪音频信号的PESQ分数与所述第二加噪音频信号的PESQ分数的差值，则确定所述第一降噪模型对所述第一噪声类型的信号的降噪效果强于对所述第二噪声类型的信号的降噪效果。

所述评估单元具体用于：

若所述第一降噪音频信号的PESQ分数与所述第一加噪音频信号的PESQ分数的差值大于所述第二降噪音频信号的PESQ分数与所述第二加噪音频信号的PESQ分数的差值，则确定所述第一降噪模型对信号功率为所述第一噪声功率的信号的降噪效果强于对信号功率为所述第二噪声功率的信号的降噪效果。

所述评估单元具体用于：

若所述第一降噪音频信号的PESQ分数与所述第一加噪音频信号的PESQ分数的差值大于所述第二降噪音频信号的PESQ分数与所述第二加噪音频信号的PESQ分数的差值，则确定所述第一降噪模型对噪声类型的比例为所述第一比例的信号的降噪效果强于对噪声类型的比例为所述第二比例的信号的降噪效果。

在一种实现方式中，所述音频处理装置还包括：

分配单元，用于在所述降噪单元采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号之前，将所述第一加噪音频信号所需添加的噪声信号的功率按照所述第一比例分配给所述至少两种噪声信号中的每种噪声信号；

调整单元，用于根据所述至少两种噪声信号中每种噪声信号被分配的功率调整所述每种噪声信号的的功率；

加噪单元，用于将功率调整后的所述至少两种噪声信号与所述第一加噪音频信号进行混合。

在一种实现方式中，所述音频处理装置还包括：

分配单元，用于在所述降噪单元采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号之前，将所述第二加噪音频信号所需添加的噪声信号的功率按照所述第二比例分配给所述至少两种噪声信号中的每种噪声信号；

加噪单元，用于将功率调整后的所述至少两种噪声信号与所述第二加噪音频信号进行混合。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、输入装置、输出装置和存储器，处理器、输入装置、输出装置和存储器相互连接。其中，通信接口用于与其它电子设备(例如电子设备)进行通信，存储器用于存储第一方面所提供的音频处理方法的实现代码，处理器用于执行存储器中存储的程序代码，即执行第一方面所提供的音频处理方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，可读存储介质上存储有指令，当其在处理器上运行时，使得处理器执行上述第一方面描述的音频处理方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当其在处理器上运行时，使得处理器执行上述第一方面描述的音频处理方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种电子设备的硬件结构示意图；

图2为本发明实施例提供的一种音频处理方法的流程示意图；

图3为本发明实施例提供的一种用户输入界面的示意图；

图4为本发明实施例提供的另一种用户输入界面的示意图；

图5为本发明实施例提供的另一种用户输入界面的示意图；

图6为本发明实施例提供的另一种用户输入界面的示意图；

图7为本发明实施例提供的另一种用户输入界面的示意图；

图8为本发明实施例提供的另一种用户输入界面的示意图；

图9为本发明实施例提供的一种音频处理装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例所涉及到的电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminaldevice)等等。例如，可以为智能手机、平板电脑等移动终端，还可以为其他终端，此处不做限制。为方便描述，上面提到的设备统称为电子设备。下面结合附图对本发明实施例进行介绍。

请参见图1，图1是本发明实施例提供的一种电子设备的结构示意图，如图1所示，该电子设备100包括：至少一个处理器101，至少一个输入装置102，至少一个输出装置103，存储器104，至少一个总线105。其中，总线105用于实现这些组件之间的连接通信。

本发明实施例中，处理器101可为中央处理器(Central Processing Unit，CPU)或图形处理器(Graphics Processing Unit，GPU)，在一些实施方式中，还可以被称为应用处理器(Application processor，AP)，以与基带处理器进行区分。该处理器101还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、摄像头、麦克风等，则输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。处理器101可用于读取和执行计算机可读指令。具体的，处理器101可用于调用存储于存储器104中的数据。存储器104的一部分还可以包括非易失性随机存取存储器。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行下述图2所示音频处理方法涉及的部分或全部流程。

可选的，电子设备100还可以包括通信接口。通信接口可以是收发器、收发电路等，其中，通信接口是统称，可以包括一个或多个接口，例如电子设备与服务器之间的接口。通信接口可以包括有线接口和无线接口，例如标准接口、以太网、多机同步接口。可选地，当处理器101接收任何消息或数据时，其具体通过驱动或控制通信接口做接收。因此，处理器101可以被视为是执行发送或接收的控制中心，通信接口是发送和接收操作的具体执行者。

本发明实施例中，电子设备100可以是具备计算或处理能力的终端、服务器、电脑、视频播放设备等。

基于图1所示的电子设备的结构，图2提供了本发明实施例涉及的一种音频处理方法，该音频处理方法包括但不限于如下步骤S201-S204。

S201：电子设备采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号，N个加噪音频信号是对目标音频信号加噪后得到的音频信号，N个加噪音频信号中的任意两个加噪音频信号的信噪比、噪声类型或者噪声功率中的任意一项不同，N为大于等于1的整数；

其中，第一降噪模型可以是某一种降噪模型。可选的，所述降噪模型可以包括基于深度神经网络的音频降噪模型、基于matlab普减法音频降噪等降噪模型。

可选的，电子设备可以获取用户输入的降噪评估指令，所述降噪评估指令用于指示所述电子设备对第一降噪模型进行评估，在获取到用户输入的降噪评估指令后，电子设备执行步骤S201。例如，用户可以在用户界面中选择第一降噪模型，例如，可以参见图3所示，是一种用户输入界面示意图。在用户输入界面中，包括降噪模型输入框301，该降噪模型输入框可以是下拉菜单形式，用户可以点击降噪模型输入框301查看具体的降噪模型，之后从中选择一种降噪模型进行降噪效果的评估。用户界面中还可以包括音频信号输入框302，噪声信号输入框303，噪声比例输入框304，噪声功率输入框305，信噪比输入框306，确认按钮307以及取消按钮308。用户可以点击音频信号输入框302输入上述目标音频信号，点击噪声信号输入框303输入目标音频信号中所需添加的噪声，点击噪声比例输入框304可以设置目标音频信号中添加的不同噪声信号的比例，点击噪声功率输入框305可以设置目标音频信号所需添加的噪声功率值，点击信噪比输入框306可以设置目标音频信号在加噪后的信噪比，用户设置完上述各个参数后，可以点击确认按钮307触发输入降噪评估指令。

需要说明的是，图3所示的用户输入界面中的内容仅作为一种示例，在实际应用中，用户输入界面中可以包括比图3更多的内容或更少的内容，本发明实施例对此不进行限定。可选的，所述目标音频信号包括所述用户通过语音输入设备输入至所述电子设备的音频信号。例如，所述语音输入设备可以是麦克风。可选的，所述目标音频信号还可以是电子设备本地存储的音频信号。所述噪声信号包括所述用户通过语音输入设备输入至所述电子设备的噪声信号。例如，所述噪声信号可以是用户录制的水流声、鸟叫声等等。可选的，所述噪声信号还可以是白噪声、分红噪声等等，这种噪声可以由信号生成设备生成。

针对目标音频信号，用户可以设置多种信噪比，得到多个加噪音频信号。例如，参见图4，用户输入的目标音频信号的音频信号1，用户可以设置为音频信号1添加的噪声信号均为噪声信号1，且用户设置音频信号1添加了这种噪声信号后的3个信噪比分别为信噪比1、信噪比2和信噪比3，且用户设置音频信号1添加的噪声信号的功率均为功率1。电子设备接收到用户输入的指令后，对音频信号1进行加噪，得到3个加噪音频信号，分别为加噪音频信号1、加噪音频信号2和加噪音频信号3，这三个加噪音频信号的信噪比不同且噪声类型和噪声功率均相同。

针对目标音频信号，用户可以设置多种噪声类型，得到多个加噪音频信号。例如，参见图5，用户输入的目标音频信号的音频信号1，用户可以设置为音频信号1添加的噪声信号分别为噪声信号1、噪声信号2和噪声信号3，且用户设置音频信号1添加了这三种噪声信号后的信噪比均为信噪比1，且用户设置音频信号1添加的噪声信号的功率均为功率1。电子设备接收到用户输入的指令后，对音频信号1进行加噪，得到3个加噪音频信号，分别为加噪音频信号1、加噪音频信号2和加噪音频信号3，这三个加噪音频信号的噪声类型不同且信噪比和噪声功率均相同。

针对目标音频信号，用户可以设置多种噪声功率，得到多个加噪音频信号。例如，参见图6，用户输入的目标音频信号的音频信号1，用户可以设置为音频信号1添加的噪声信号均为噪声信号1，且用户设置音频信号1添加了噪声信号后的信噪比均为信噪比1，且用户设置音频信号1添加的噪声信号的功率分别为功率1、功率2和功率3。电子设备接收到用户输入的指令后，对音频信号1进行加噪，得到3个加噪音频信号，分别为加噪音频信号1、加噪音频信号2和加噪音频信号3，这三个加噪音频信号的噪声功率不同且信噪比和噪声类型均相同。

可选的，针对目标音频信号，用户还可以设置同时添加多种不同类型的噪声信号，得到多个加噪音频信号。例如，参见图7，用户输入的目标音频信号的音频信号1，用户可以设置为音频信号1添加的噪声信号均为噪声信号1和噪声信号2，且用户设置音频信号1添加了噪声信号后的信噪比均为信噪比1，且用户设置音频信号1添加的噪声信号的功率均为功率1，且用户设置的噪声信号1和噪声信号2的比例分别为比例1(比如1:2)、比例2(比如2:1)和比例3(比如1:1)。电子设备接收到用户输入的指令后，对音频信号1进行加噪，得到3个加噪音频信号，分别为加噪音频信号1、加噪音频信号2和加噪音频信号3，这三个加噪音频信号的噪声比例不同且信噪比、噪声类型和噪声功率均相同。

电子设备在对目标音频信号加噪后，得到多个已加噪音频信号。

之后，电子设备将这多个已加噪信号分别输入第一降噪模型，得到多个降噪音频信号。

可选的，第一降噪模型可以是一个降噪模型，也可以是多个降噪模型。如果第一降噪模型为一个降噪模型，则通过本发明实施例可以评估出该降噪模型对哪一种信噪比、哪一种噪声类型、哪一种噪声功率以及哪一种噪声比例的信号的降噪效果好。如果第一降噪模型为多个降噪模型，则通过本发明实施例可以识别出每一个降噪模型具体对哪一种信噪比、哪一种噪声类型、哪一种噪声功率以及哪一种噪声比例的信号的降噪效果好。

S202：电子设备根据N个加噪音频信号与目标音频信号，得到N个加噪音频信号的PESQ分数；

其中，PESQ算法是一种客观评价语音质量的方法，PESQ算法可在有背景噪声、模拟滤波和时延变化的条件下对语音质量给出精确评测，但PESQ算法需以原始语音信号为参考，通过对比原始语音信号和失真语音信号的损伤来评价体验质量，PESQ算法就是用经过处理后的语音文件(加噪声、语音压缩、重构等)与原始语音进行比较。目标音频信号即为原始语音信号，N个加噪音频信号即是对原始语音信号经过处理后得到的N个失真信号(或噪声信号)，加噪音频信号的PESQ分数即用来表征该加噪音频信号相较于原始语音信号的语音质量。语音质量例如可以划分为几个维度：清晰、较清晰、较模糊、模糊等，具体可以通过PESQ分数进行区分，例如N个加噪音频信号的PESQ分数得分在1.0和4.5之间，语音质量越差，PESQ分数越低，语音质量越好，则PESQ分数越高。

因此，上述目标音频信号即为原始音频，电子设备将步骤S201得到的N个加噪音频信号与目标音频信号进行比较，利用PESQ算法可以计算得到N个加噪音频信号中每个加噪音频信号的PESQ分数。

例如，N为3，3个加噪音频信号分别为加噪音频信号1、加噪音频信号2和加噪音频信号3，利用PESQ算法可以计算得到加噪音频信号1的PESQ分数、加噪音频信号2的PESQ分数和加噪音频信号3的PESQ分数，假设加噪音频信号1的PESQ分数为1、加噪音频信号2的PESQ分数为1.2，加噪音频信号3的PESQ分数为1.5。

S203：电子设备根据N个降噪音频信号与目标音频信号，得到N个降噪音频信号的PESQ分数；

电子设备将步骤S201得到的N个降噪音频信号与目标音频信号进行比较，利用PESQ算法可以计算得到N个降噪音频信号中每个降噪音频信号的PESQ分数。目标音频信号即为原始语音信号，N个降噪音频信号即是对上述步骤S202得到的N个加噪音频信号分别经过降噪模型处理后得到的N个改善信号(或降噪信号)，降噪音频信号的PESQ分数即用来表征该降噪音频信号相较于原始语音信号的语音质量。语音质量例如可以划分为几个维度：清晰、较清晰、较模糊、模糊等，具体可以通过PESQ分数进行区分，例如N个降噪音频信号PESQ分数得分在1.0和4.5之间，语音质量越差，PESQ分数越低，语音质量越好，则PESQ分数越高。

例如，N为3，3个加噪音频信号分别为加噪音频信号1、加噪音频信号2和加噪音频信号3，电子设备采用降噪模型1对这3个加噪音频信号进行降噪，分别得到降噪音频信号1、降噪音频信号2和降噪音频信号3，利用PESQ算法可以计算得到降噪音频信号1的PESQ分数、降噪音频信号2的PESQ分数和降噪音频信号3的PESQ分数，假设降噪音频信号1的PESQ分数为4、降噪音频信号2的PESQ分数为3.5、降噪音频信号3的PESQ分数为4.3。

S204：电子设备根据N个降噪音频信号的PESQ分数与N个加噪音频信号的PESQ分数的差值对第一降噪模型的降噪效果进行评估。

在得到了N个加噪音频信号的PESQ分数以及N个降噪音频信号的PESQ分数之后，电子设备依次计算每个降噪音频信号的PESQ分数与其对应的加噪音频信号的PESQ分数的差值。通过降噪音频信号的PESQ分数与加噪音频信号的PESQ分数的差值可以确定降噪模型是否对加噪音频信号起到降噪的效果以及降噪效果具体是好还是坏。差值为正数，则表明降噪模型对加噪音频信号起到了降噪的效果，并且差值越大，则表明降噪效果越好，差值越小，则表明降噪效果越差。

例如，N为3，3个加噪音频信号分别为加噪音频信号1、加噪音频信号2和加噪音频信号3，电子设备采用降噪模型1对这3个加噪音频信号进行降噪，分别得到降噪音频信号1、降噪音频信号2和降噪音频信号3，利用PESQ算法计算得到加噪音频信号1的PESQ分数、加噪音频信号2的PESQ分数、加噪音频信号3的PESQ分数、降噪音频信号1的PESQ分数、降噪音频信号2的PESQ分数和降噪音频信号3的PESQ分数之后，计算降噪音频信号1的PESQ分数与加噪音频信号1的PESQ分数之差，假设为4-1＝3，降噪音频信号2的PESQ分数与加噪音频信号2的PESQ分数之差，假设为3.8-1.2＝2.6，降噪音频信号3的PESQ分数与加噪音频信号3的PESQ分数之差，假设为4.3-1.5＝2.8。

在得到了每个降噪音频信号与其对应的加噪音频信号的PESQ分数之差后，电子设备可以通过分数之差来识别每个降噪模型的降噪效果。

实施本发明实施例，电子设备可以根据目标音频在加噪后通过降噪模型降噪的PESQ指标分数可以快速对降噪模型的降噪效果进行评估。

例如，N为3，第一降噪模型为降噪模型1，加噪音频信号1的信噪比为10dB，加噪音频信号2的信噪比为20dB，加噪音频信号3的信噪比为15dB，除信噪比不同以外，这3个加噪音频信号的其他参数相同，而降噪音频信号1的PESQ分数与加噪音频信号1的PESQ分数之差为4-1＝3，降噪音频信号2的PESQ分数与加噪音频信号2的PESQ分数之差为3.8-1.2＝2.6，降噪音频信号3的PESQ分数与加噪音频信号3的PESQ分数之差为4.3-1.5＝2.8，则可以识别出降噪模型1对信噪比10dB的音频信号的降噪效果更好。

例如，N为3，第一降噪模型为降噪模型1，加噪音频信号1的噪声类型为白噪声，加噪音频信号2的噪声类型为粉红噪声，加噪音频信号3的噪声类型为红噪声，除噪声类型不同以外，这3个加噪音频信号的其他参数相同，而降噪音频信号1的PESQ分数与加噪音频信号1的PESQ分数之差为4-1＝3，降噪音频信号2的PESQ分数与加噪音频信号2的PESQ分数之差为3.8-1.2＝2.6，降噪音频信号3的PESQ分数与加噪音频信号3的PESQ分数之差为4.3-1.5＝2.8，则可以识别出降噪模型1对白噪声的降噪效果更好。

例如，N为3，第一降噪模型为降噪模型1，加噪音频信号1的噪声功率为6W，加噪音频信号2的噪声功率为4W，加噪音频信号3的噪声功率为10W，除噪声功率不同以外，这3个加噪音频信号的其他参数相同，而降噪音频信号1的PESQ分数与加噪音频信号1的PESQ分数之差为4-1＝3，降噪音频信号2的PESQ分数与加噪音频信号2的PESQ分数之差为3.8-1.2＝2.6，降噪音频信号3的PESQ分数与加噪音频信号3的PESQ分数之差为4.3-1.5＝2.8，则可以识别出降噪模型1对噪声功率为6W的音频信号的降噪效果更好。

例如，N为3，第一降噪模型为降噪模型1，加噪音频信号1的噪声类型为白噪声和粉红噪声，加噪音频信号2的噪声类型为白噪声和粉红噪声，加噪音频信号3的噪声类型为白噪声和粉红噪声，且加噪音频信号1中两种噪声信号的比例为1:2，加噪音频信号2中两种噪声信号的比例为2:1，加噪音频信号3中两种噪声信号的比例为1:1，除噪声比例不同以外，这3个加噪音频信号的其他参数相同，而降噪音频信号1的PESQ分数与加噪音频信号1的PESQ分数之差为4-1＝3，降噪音频信号2的PESQ分数与加噪音频信号2的PESQ分数之差为3.8-1.2＝2.6，降噪音频信号3的PESQ分数与加噪音频信号3的PESQ分数之差为4.3-1.5＝2.8，则可以识别出降噪模型1对白噪声与粉红噪声的比例为1:2的降噪效果更好。

具体的，为目标音频信号可以同时增加多个噪声类型，这种情况下，用户在用户输入界面中还需要输入这多个噪声类型的比例。例如，参见图8所示，用户输入的噪声类型包括白噪声和粉红噪声，且白噪声和粉红噪声对应的比例分别为1:2、2:1和1:1。则电子设备根据所述多个噪声类型的比例确定所述多个噪声信号中每个噪声信号对应的噪声信号功率。

以图8为例，噪声类型包括白噪声和粉红噪声，以白噪声和粉红噪声对应的比例为1:2为例，若用户输入的噪声总的信号功率为10W，因此根据噪声对应的比例，得到白噪声的信号功率为6W，粉红噪声的信号功率为4W。电子设备确定了每种噪声类型对应的噪声信号功率之后，对每种噪声信号的功率进行调整。例如，用户输入的噪声为：信号功率为9W的白噪声和信号功率为5W的粉红噪声，则电子设备将白噪声的功率调整为6W，将粉红噪声的信号功率调整为4W。在将每种噪声信号的功率进行调整后，将噪声信号和目标音频信号进行混合，得到加噪音频信号1。同样的，以白噪声和粉红噪声对应的比例为2:1为例，由于噪声总的信号功率为10W，因此根据噪声对应的比例，得到白噪声的信号功率为4W，粉红噪声的信号功率为6W。电子设备确定了每种噪声类型对应的噪声信号功率之后，对每种噪声信号的功率进行调整。例如，用户输入的噪声为：信号功率为9W的白噪声和信号功率为5W的粉红噪声，则电子设备将白噪声的功率调整为4W，将粉红噪声的信号功率调整为6W。在将每种噪声信号的功率进行调整后，将噪声信号和目标音频信号进行混合，得到加噪音频信号2。以白噪声和粉红噪声对应的比例为1:1为例，若噪声总的信号功率为10W，因此根据噪声对应的比例，得到白噪声的信号功率为5W，粉红噪声的信号功率为5W。电子设备确定了每种噪声类型对应的噪声信号功率之后，对每种噪声信号的功率进行调整。例如，用户输入的噪声为：信号功率为5W的白噪声和信号功率为5W的粉红噪声，则电子设备将白噪声的功率调整为5W，将粉红噪声的信号功率调整为5W。在将每种噪声信号的功率进行调整后，将噪声信号和目标音频信号进行混合，得到加噪音频信号3。

可选的，若第一降噪模型包括M个，则可以将同一加噪音频信号依次输入这M个降噪模型，分别得到M个降噪音频信号，之后可以利用这M个降噪音频信号的PESQ分数各自与该加噪音频信号的PESQ分数之差来对这M个降噪模型进行降噪等级判定，差值最大的降噪模型的降噪级别最高，差值最下的降噪模型的降噪级别最低，降噪级别越高，则表明降噪效果越好，降噪级别越低，则表明降噪效果越差。

可选的，所述电子设备对所述第一降噪模型的降噪效果进行评估之后，还包括：

所述电子设备将PESQ分数差值最大的信噪比确定为所述第一降噪模型降噪效果最好的最佳信噪比。

或者，所述电子设备将PESQ分数差值最大的噪声类型确定为所述第一降噪模型降噪效果最好的最佳噪声类型。

或者，所述电子设备将PESQ分数差值最大的噪声功率确定为所述第一降噪模型降噪效果最好的最佳噪声功率。

或者，所述电子设备将PESQ分数差值最大的噪声比例确定为所述第一降噪模型降噪效果最好的最佳噪声比例。

以降噪模型1为例，若降噪音频信号1与加噪音频信号1的PESQ分值差最大，则可以确定出降噪模型1的最佳信噪比为10dB，或者最佳噪声类型为白噪声，或者，最佳噪声功率比为6W。

实施本发明实施例，服务器根据音频在加噪后通过降噪模型降噪的PESQ指标分数可以快速对降噪模型的降噪效果进行评估，并且可以根据降噪效果确定降噪模型对哪种信噪比、哪种噪声类型、哪一种噪声功率或者哪一种噪声比例的降噪效果好。

参见图9，图9示给出了一种音频处理装置的结构示意图，如图9所示，该音频处理装置900包括：降噪单元901、计算单元902和评估单元903。

其中，降噪单元901，用于采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号，所述N个加噪音频信号是对目标音频信号加噪后得到的音频信号，所述N个加噪音频信号中的任意两个加噪音频信号的信噪比、噪声类型或者噪声功率中的任意一项不同，N为大于等于1的整数；

计算单元902，用于根据所述N个加噪音频信号与所述目标音频信号，得到所述N个加噪音频信号的PESQ分数；

所述计算单元902，还用于根据所述N个降噪音频信号与所述目标音频信号，得到所述N个降噪音频信号的PESQ分数；

评估单元903，用于根据所述N个降噪音频信号的PESQ分数与所述N个加噪音频信号的PESQ分数的差值对所述第一降噪模型的降噪效果进行评估。

所述评估单元903具体用于：

在一种实现方式中，所述音频处理装置900还包括：

分配单元，用于在所述降噪单元901采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号之前，将所述第一加噪音频信号所需添加的噪声信号的功率按照所述第一比例分配给所述至少两种噪声信号中的每种噪声信号；

在一种实现方式中，所述音频处理装置900还包括：

分配单元，用于在所述降噪单元901采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号之前，将所述第二加噪音频信号所需添加的噪声信号的功率按照所述第二比例分配给所述至少两种噪声信号中的每种噪声信号；

需要说明的是，音频处理装置900中各个单元的功能和实现可以参考前述图2所示方法实施例中的相关描述，此次不再赘述。

在本申请的另一实施例中提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如数字多功能光盘(digital versatile disc，DVD)、半导体介质(例如固态硬盘solid state disk，SSD)等。

以上所述的具体实施方式，对本发明实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明实施例的具体实施方式而已，并不用于限定本发明实施例的保护范围，凡在本发明实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明实施例的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，包括：

所述电子设备根据所述N个加噪音频信号与所述目标音频信号，得到所述N个加噪音频信号的PESQ分数；

2.根据权利要求1所述的方法，其特征在于，所述N个加噪音频信号包括第一加噪音频信号和第二加噪音频信号，所述N个降噪音频信号包括第一降噪音频信号和第二降噪音频信号，所述第一降噪音频信号是所述电子设备采用所述第一降噪模型对所述第一加噪音频信号进行降噪得到的，所述第二降噪音频信号是所述电子设备采用所述第一降噪模型对所述第二加噪音频信号进行降噪得到的，所述第一加噪音频信号的信噪比为第一信噪比，所述第二加噪音频信号的信噪比为第二信噪比，所述第一信噪比和所述第二信噪比不同，所述第一加噪音频信号和所述第二加噪音频信号的噪声类型和噪声功率相同；

3.根据权利要求1所述的方法，其特征在于，所述N个加噪音频信号包括第一加噪音频信号和第二加噪音频信号，所述N个降噪音频信号包括第一降噪音频信号和第二降噪音频信号，所述第一降噪音频信号是所述电子设备采用所述第一降噪模型对所述第一加噪音频信号进行降噪得到的，所述第二降噪音频信号是所述电子设备采用所述第一降噪模型对所述第二加噪音频信号进行降噪得到的，所述第一加噪音频信号的噪声类型为第一噪声类型，所述第二加噪音频信号的噪声类型为第二噪声类型，所述第一噪声类型和所述第二噪声类型不同，所述第一加噪音频信号和所述第二加噪音频信号的信噪比和噪声功率相同；

4.根据权利要求1所述的方法，其特征在于，所述N个加噪音频信号包括第一加噪音频信号和第二加噪音频信号，所述N个降噪音频信号包括第一降噪音频信号和第二降噪音频信号，所述第一降噪音频信号是所述电子设备采用所述第一降噪模型对所述第一加噪音频信号进行降噪得到的，所述第二降噪音频信号是所述电子设备采用所述第一降噪模型对所述第二加噪音频信号进行降噪得到的，所述第一加噪音频信号的噪声功率为第一噪声功率，所述第二加噪音频信号的噪声功率为第二噪声功率，所述第一噪声功率和所述第二噪声功率不同，所述第一加噪音频信号和所述第二加噪音频信号的信噪比和噪声类型相同；

5.根据权利要求1所述的方法，其特征在于，所述N个加噪音频信号包括第一加噪音频信号和第二加噪音频信号，所述N个降噪音频信号包括第一降噪音频信号和第二降噪音频信号，所述第一降噪音频信号是所述电子设备采用所述第一降噪模型对所述第一加噪音频信号进行降噪得到的，所述第二降噪音频信号是所述电子设备采用所述第一降噪模型对所述第二加噪音频信号进行降噪得到的，所述第一加噪音频信号的噪声类型包括至少两种，所述第二加噪音频信号的噪声类型包括至少两种，所述第一加噪音频信号中的所述至少两种噪声类型的噪声比例为第一比例，所述第二加噪音频信号中的所述至少两种噪声类型的噪声比例为第二比例，所述第一比例和所述第二比例不同，所述第一加噪音频信号和所述第二加噪音频信号的信噪比和噪声功率相同；

6.根据权利要求5所述的方法，其特征在于，所述电子设备采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号之前，还包括：

7.根据权利要求5所述的方法，其特征在于，所述电子设备采用第一降噪模型对N个加噪音频信号进行降噪得到N个降噪音频信号之前，还包括：

8.一种音频处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器、输入装置、输出装置和存储器，所述处理器分别与所述输入装置、所述输出装置和所述存储器连接，其中，所述存储器用于存储计算机程序或数据，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。