CN113286047B

CN113286047B - 语音信号处理方法、装置及电子设备

Info

Publication number: CN113286047B
Application number: CN202110437992.4A
Authority: CN
Inventors: 王少华
Original assignee: Vivo Mobile Communication Hangzhou Co Ltd
Current assignee: Vivo Mobile Communication Hangzhou Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2023-02-21
Anticipated expiration: 2041-04-22
Also published as: CN113286047A

Abstract

本申请公开了一种语音信号处理方法、装置及电子设备，属于通信技术领域。该方法包括：对第一语音信号进行信号处理，得到第二语音信号，该第二语音信号中包括纯净语音信号、第一噪声信号和偏噪声成分，该偏噪声成分为第一语音信号的回声信号中的噪声成分；基于第二语音信号、第一噪声信号和偏噪声成分，确定目标增益补偿参数；采用目标增益补偿参数，对第二语音信号进行降噪处理。

Description

语音信号处理方法、装置及电子设备

技术领域

本申请属于通信技术领域，具体涉及一种语音信号处理方法、装置及电子设备。

背景技术

通常，在用户使用电子设备进行通话的过程中，电子设备可以实时采集通话过程中的语音信号；由于采集的语音信号中会包含有远端回声信号和噪声信号，电子设备可以先采用线性回声消除技术对采集的语音信号进行回声信号消除处理和降噪处理，从而得到用户的纯净语音信号。

然而，由于电子设备采用线性回声消除技术仅能减少采集的语音信号中的回声信号，采集的语音信号中仍然存在残留的回声信号，而电子设备进行降噪处理是对采集的语音信号中的噪声信号进行处理的，因此电子设备最终获取的语音信号中会存在回声信号，从而电子设备无法获取到纯净的语音信号。

发明内容

本申请实施例的目的是提供一种语音信号处理方法、装置及电子设备，能够解决电子设备无法获取到纯净的语音信号的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种语音信号处理方法，该语音信号处理方法包括：对第一语音信号进行信号处理，得到第二语音信号，该第二语音信号中包括纯净语音信号、第一噪声信号和偏噪声成分，该偏噪声成分为第一语音信号的回声信号中的噪声成分；基于第二语音信号、第一噪声信号和偏噪声成分，确定目标增益补偿参数；采用目标增益补偿参数，对第二语音信号进行降噪处理。

第二方面，本申请实施例提供了一种语音信号处理装置，该语音信号处理装置包括：处理模块和确定模块。其中，处理模块，用于对第一语音信号进行信号处理，得到第二语音信号，该第二语音信号中包括纯净语音信号、第一噪声信号和偏噪声成分，该偏噪声成分为第一语音信号的回声信号中的噪声成分。确定模块，用于基于处理模块得到的第二语音信号、第一噪声信号和偏噪声成分，确定目标增益补偿参数。处理模块，还用于采用确定模块确定的目标增益补偿参数对第二语音信号进行降噪处理。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，电子设备可以对实时采集的第一语音信号进行信号处理以得到第二语音信号，该第二语音信号包括纯净语音信号、噪声信号和第一语音信号的回声信号中的偏噪声成分，从而电子设备可以基于第二语音信号、噪声信号和偏噪声成分，计算得到目标增益补偿参数，并采用该目标增益补偿参数对第二语音信号进行降噪处理。由于在进行信号处理的过程中，电子设备可以对采集的语音信号中的回声信号进行处理，以使得采集的语音信号中的回声信号的特征接近于噪声，即得到回声信号中的偏噪声成分，从而使得处理后的语音信号中包含的信号为纯净语音信号和含有噪声成分的信号(即偏噪声成分和采集的语音信号中的噪声信号统一当作噪声)，因此电子设备根据处理后的语音信号计算出的降噪增益是针对采集的语音信号中的所有噪声的，如此电子设备基于该降噪增益对处理后的语音信号进行降噪处理后，能够消除采集的语音信号中的含有噪声成分的信号，从而使得电子设备能够获取到用户的纯净语音信号。

附图说明

图1是本申请实施例提供的一种语音信号处理方法的示意图；

图2是本申请实施例提供的一种语音信号处理装置的结构示意图；

图3是本申请实施例提供的一种电子设备的硬件结构示意图之一；

图4是本申请实施例提供的一种电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音信号处理方法进行详细地说明。

回声消除技术和降噪技术在电子设备进行免提通话、会议系统和车载通话系统等场景中应用十分广泛。远端回声信号经过扬声器，在空气中经过传播和环境反射等，混合了用户的纯净语音信号和环境噪声信号被麦克风采集。近端采集的信号(即麦克风采集到的远端回声信号、纯净语音信号和环境噪声信号)通过回声消除技术和降噪技术进行处理后，得到用户的纯净语音信号，然后通过网络传输。

回声消除技术的目的是尽可能多的消除近端采集的信号中的远端回声信号，同时尽可能多的保留纯净语音信号，尤其是在双讲(即两端说话人同时说话)的情况。降噪技术的目的是尽可能多的抑制近端采集的信号中的噪声信号，同时尽可能多的保留纯净语音信号。在实际场景中，纯净语音信号、远端回声信号和噪声信号往往是同时存在的，如何同时较好地去除远端回声信号和噪声信号而保留纯净语音信号是一个难题。

传统的信号处理方法进行回声消除处理和降噪处理一般可以分为两类：(1)先进行线性回声消除处理，再对残留回声信号进行估计和抑制，然后再对噪声信号进行估计和抑制；(2)先进行线性回声消除处理，再同时对残留回声信号和噪声信号进行估计和抑制。

近些年，基于深度学习的回声消除技术和基于深度学习的降噪技术被越来越多的人重视。基于深度的回声消除技术和基于深度学习的降噪技术大致也分为两种方案：(1)将远端回声信号和近端采集的信号(包括远端回声信号、纯净语音信号和噪声信号)作为特征，训练目标为纯净语音信号等信息，这种方案完全摒除了传统的线性回声消除技术；(2)先对近端采集的信号进行线性回声消除处理，然后将残留信号(包括残留回声信号、纯净语音信号和噪声信号)和远端回声信号作为特征，训练目标为纯净语音信号等信息，这种方案保留了传统的线性回声消除技术，在一定程度上降低了网络学习的难度。

然而，采用传统的信号处理方法进行回声消除处理和降噪处理，一般都要先进行线性回声消除处理，然后再对线性回声消除处理之后的残留信号进行残留回声抑制和噪声抑制，由于残留回声信号中的非线性成分较复杂，且噪声信号中可能存在非平稳噪声等，因此采用传统的信号处理方法进行回声消除处理和降噪处理十分困难。

并且，采用基于深度学习的方法进行回声消除处理和降噪处理虽然目前取得了较好的效果，但是其网络模型较大，工程化面临挑战。基于深度学习的方法想要同时解决去除回声信号和降噪这两个问题，就要考虑两种不同性质的学习任务，一种是区分纯净语音信号和远端回声信号的任务，另一种是区分纯净语音信号和噪声信号的任务，而远端回声信号和噪声信号是两种完全不同特征的信号，这样导致网络模型的特征要考虑远端回声信号和近端采集的信号，网络的学习内容包括区分远端回声信号和区分噪声信号，使得网络模型的特征维度较大，网络的学习任务较困难，最终导致网络模型的尺寸较大，工程化十分困难。另外，基于深度学习的方法也可以分别对回声消除处理和降噪处理进行建模，但这样会导致一套语音增强代码里面有两套深度学习模型，这两套深度学习模型难以耦合，而且两套深度学习模型的复杂度也较大。

综上所述，由于近端采集的信号中的成分较为复杂，包括纯净语音信号、噪声信号和近端采集的回声信号，其中噪声信号和近端采集的回声信号(既包含偏语音成分，又包含偏噪声成分)均具有噪声特征。而电子设备采用线性回声消除技术和残留回声抑制技术无法准确地确定出近端采集的信号中的噪声成分，因此电子设备无法准确地确定降噪增益，从而导致电子设备最终获取的纯净语音信号的质量较差。

本申请实施例中，电子设备可以预先从语音数据集中随机选择纯净语音信号、背景噪声信号和远端回声信号，并对远端回声信号进行模拟非线性处理(即模拟实际场景中的回声信号)，以将该远端回声信号处理为电子设备最终获取的回声信号，然后电子设备可以先对获取的信号(包括纯净语音信号、背景噪声信号和最终获取的回声信号)进行线性回声消除处理，得到残留信号，该残留信号包括纯净语音信号、背景噪声信号和最终获取的回声信号中剩余的回声信号(即残留回声信号)，电子设备再对残留信号中的残留回声信号进行残留回声抑制处理，以抑制残留回声信号中的偏语音成分，使得残留回声信号中剩余的残留回声成分更倾向于噪声，即得到残留回声信号中的偏噪声成分。经过线性回声消除处理和残留回声抑制处理之后，电子设备得到的信号包括纯净语音信号、背景噪声信号和残留回声信号中的偏噪声成分，然后将背景噪声信号和残留回声信号中的偏噪声成分统一当作噪声信号进行处理，对其建立深度网络降噪模型。具体的，根据电子设备得到的信号提取特征，训练标签设置为理想掩码(已知)，由于模型的特征和标签已知，因此电子设备可以选择合适的网络进行网络模型训练即可得到模型训练参数，从而实现深度网络降噪模型的建立。在实际场景中，电子设备可以对麦克风采集到的语音信号进行上述线性回声消除处理和残留回声抑制处理(即抑制残留回声信号中的偏语音成分)，得到剩余的语音信号(包括纯净语音信号、噪声信号和残留回声信号中的偏噪声成分)，然后将该剩余的语音信号的特征输入到预先建立的模型中，得到估计的理想掩码，电子设备可以根据该估计的理想掩码确定剩余的语音信号中存在噪声成分的信号(即底噪，包括噪声信号和残留回声信号中的偏噪声成分)，以基于该底噪和该剩余的语音信号计算降噪增益，并采用该降噪增益对剩余的语音信号进行降噪处理，从而电子设备可以获取到纯净语音信号，并输出该纯净语音信号。

通过本方案，由于在进行信号处理的过程中，电子设备可以对采集的语音信号中的回声信号进行处理，以使得采集的语音信号中的回声信号的特征接近于噪声，即得到回声信号中的偏噪声成分，从而使得处理后的语音信号中包含的信号为纯净语音信号和含有噪声成分的信号(即偏噪声成分和采集的语音信号中的噪声信号统一当作噪声)，因此电子设备根据处理后的语音信号计算出的降噪增益是针对采集的语音信号中的所有噪声的，如此电子设备基于该降噪增益对处理后的语音信号进行降噪处理后，能够消除采集的语音信号中的含有噪声成分的信号，从而使得电子设备能够获取到用户的纯净语音信号。

本申请实施例提供一种语音信号处理方法，图1示出了本申请实施例提供的一种语音信号处理方法的流程图，该方法可以应用于电子设备。如图1所示，本申请实施例提供的语音信号处理方法可以包括下述的步骤201至步骤203。

步骤201、电子设备对第一语音信号进行信号处理，得到第二语音信号。

本申请实施例中，上述第二语音信号中包括纯净语音信号、第一噪声信号和偏噪声成分，上述偏噪声成分为第一语音信号的回声信号中的噪声成分。

本申请实施例中，在用户通过电子设备进行语音通话的过程中，电子设备可以实时采集语音通话过程中的语音信号(例如第一语音信号)，并对该第一语音信号进行信号处理(例如线性回声消除处理和残留回声抑制处理)，以得到处理后的语音信号(例如第二语音信号)。

本申请实施例中，电子设备通过麦克风采集到的信号(例如第一语音信号)为y(n)＝s(n)+v(n)+d(n)，该信号包括三个部分，分别是纯净语音信号s(n)、噪声信号v(n)和最终采集到的回声信号d(n)，其中d(n)＝h(n)*x(n)，h(n)为真实的远端回声信号到近端采集的回声信号的传递函数，x(n)为远端回声信号。

需要说明的是，上述第一语音信号的回声信号不仅包含偏语音特征的回声成分(以下简称为偏语音成分)，而且还包含偏噪声特征的回声成分(以下简称为偏噪声成分)。

可以理解，电子设备对第一语音信号进行信号处理，可以将第一语音信号中的回声信号的偏语音成分进行处理(例如消除、抑制处理)，以使得得到的第二语音信号中的回声信号不包含偏语音成分，即第二语音信号中的回声信号仅包含偏噪声成分。

可选地，本申请实施例中，上述步骤201具体可以通过下述的步骤201a和步骤201b实现。

步骤201a、电子设备对第一语音信号进行线性回声消除处理，得到第三语音信号。

本申请实施例中，上述第三语音信号中包括纯净语音信号、第一噪声信号和第一回声信号。

本申请实施例中，电子设备可以对麦克风采集到的信号(例如第一语音信号)进行线性回声消除处理，以减小采集到的信号中的回声信号，从而得到残留信号(例如第三语音信号)。

需要说明的是，上述第一回声信号为对第一语音信号中的回声信号进行线性回声消除处理后剩余的回声信号(即残留回声信号)，该第一回声信号包含偏语音成分和偏噪声成分。

可选地，本申请实施例中，电子设备可以采用基于归一化最小均方(normalizedleast mean square，NLMS)的回声消除处理方法对第一语音信号进行处理。示例性的，假设估计的回声信号为

其中，

是根据基于NLMS的回声消除处理方法估计得到的远端回声信号到近端采集的回声信号的传递函数，x(n)为远端回声信号，则进行回声消除处理之后的残留信号为

此时，残留信号e(n)包括纯净语音信号s(n)，噪声信号v(n)和残留回声信号(例如第一回声信号)

残留回声信号可以分为两个部分，即Δd(n)＝Δd1(n)+Δd2(n)，其中Δd1(n)是残留回声信号中的的偏语音成分，Δd2(n)是残留回声信号中的的偏噪声成分。

步骤201b、电子设备对第三语音信号进行残留回声抑制处理，得到第二语音信号。

本申请实施例中，上述残留回声抑制处理用于抑制第一回声信号中的偏语音成分。

本申请实施例中，在进行线性回声消除处理得到残留信号e(n)(即第三语音信号)之后，电子设备可以对残留信号进行一定程度的残留回声抑制，以抑制残留回声信号Δd(n)中的偏语音成分Δd1(n)，使得残留回声信号中剩余的回声成分接近于噪声(即具有偏噪声特征的回声成分)，从而得到第二语音信号。

本申请实施例中，由于实际过程中受到线性回声消除的滤波器长度的限制、收敛时间和扬声器导致的非线性等原因，残留信号e(n)中仍然存在大量的回声成分Δd(n)，因此残留信号e(n)和远端回声信号x(n)或者估计的回声信号

具有较强的相关性。此时，电子设备可以根据这个特征，利用传统的信号处理方法对残留信号e(n)进行一定程度的残留回声抑制处理，此时，残留回声信号中待抑制的部分更倾向于具有与远端回声信号或者估计的回声信号具有相关性的那一部分，即残留回声信号中的偏语音成分Δd1(n)。其中，残留回声抑制方法可以为频域维纳滤波方法，本申请实施例不作限制。由于残留回声抑制处理是对残留信号E(m,k)中的较为确定的回声成分Δd1(n)进行去除，所以对纯净语音信号的损伤较小，而且使得残留信号E(m,k)中剩余的残留回声信号Δd2(n)更倾向于噪声，比如回声信号的语音谐波成分不明显了。

本申请实施例中，由于在进行残留回声抑制处理的过程中，电子设备可以对残留回声信号进行处理，以抑制残留回声信号中的偏语音成分，使得抑制处理之后的残留回声信号的特征接近于噪声，因此电子设备可以将去除回声信号和降低噪声信号简化为一个降噪的任务，此时残留回声信号中的偏噪声成分和噪声信号与纯净语音信号具有明显的区别，从而在后续进行降噪处理时，电子设备可以对噪声信号和残留回声信号中的偏噪声成分统一进行常规的降噪处理。

而传统方案中，在进行残留回声抑制处理时是对整个残留回声信号进行处理的，由于其不能很好的区分残留回声信号中的偏语音成分和纯净语音信号(均具有语音特征)，且不能很好的区分残留回声信号中的偏噪声成分和偏语音成分，最终导致抑制处理之后的信号中的纯净语音信号损伤严重(即抑制的过多)，或者抑制处理之后的信号中的回声信号或者噪声信号残余较多(即抑制的过少)，如此无法做到既足够好的保留语音信号，又足够多的抑制回声信号和噪声信号，使得电子设备无法得到较好的纯净语音信号。因此，本方案获取的纯净语音信号的质量高于传统方案获取的纯净语音信号的质量。

可选地，本申请实施例中，在上述步骤201b之前，本申请实施例提供的语音信号处理方法还包括下述的步骤301和步骤302，并且上述步骤201b具体可以通过下述的步骤303实现。

步骤301、电子设备对第三语音信号进行分帧、加窗、时频变换处理，得到第三语音信号的频域信号。

本申请实施例中，电子设备可以对残留信号e(n)进行分帧、加窗、时频变换处理，从而实现将时域信号转换到频域信号E(m,k)，其中m表示时间，k表示频点。

步骤302、电子设备根据第三语音信号的频域信号和第一回声信号，确定回声抑制增益。

本申请实施例中，电子设备可以根据残留信号(例如第三语音信号)E(m,k)、残留回声信号(例如第一回声信号)ΔD(m,k)、远端回声信号x(n)(不限制这些信息)等信息，估计残留信号的回声抑制增益G(m,k)。具体的，电子设备可以根据残留信号的频谱、残留回声信号的频谱和回声抑制增益来定义频域均方误差，并采用频域均方误差对回声抑制增益求极值，以得到回声抑制增益对应的极值点，再对该极值点求共轭，从而可以得到回声抑制增益。

步骤303、电子设备采用回声抑制增益，对第三语音信号进行残留回声抑制处理，得到第二语音信号。

本申请实施例中，电子设备可以根据残留信号的回声抑制增益G(m,k)，采用预设算法，对第一回声信号中的偏语音成分进行抑制，得到残留回声抑制处理后的信号E₂(m,k)，该预设算法为E₂(m,k)＝G(m,k)*E(m,k)。

本申请实施例中，电子设备通过对残留信号进行分帧、加窗、时频变换处理，以将时域信号转换到频域信号，然后根据残留信号、残留回声信号等信息，估计残留信号的回声抑制增益，并采用回声抑制增益对残留回声信号中的偏语音成分进行抑制，使得残留信号中剩余的残留回声信号的特征更倾向于噪声，以便于电子设备在后续降噪处理时，可以将去除回声信号和降低噪声信号简化为一个降噪的任务，即对噪声信号和残留回声信号中的偏噪声成分统一进行常规的降噪处理。

步骤202、电子设备基于第二语音信号、第一噪声信号和偏噪声成分，确定目标增益补偿参数。

可选地，本申请实施例中，在上述步骤202之前，本申请实施例提供的语音信号处理方法还包括下述的步骤401和步骤402。

步骤401、电子设备将第二语音信号输入到预设模型中，得到目标理想掩码。

本申请实施例中，上述目标理想掩码用于指示第二语音信号中存在噪声成分的信号。

本申请实施例中，由于第二语音信号中包括纯净语音信号、噪声信号和残留回声信号中的偏噪声成分，因此电子设备可以通过对第二语音信号的每帧信号进行估计，以确定第二语音信号中的纯净语音信号和存在噪声成分的信号，即第二语音信号中哪些帧的信号是纯净语音信号，哪些帧的信号是存在噪声成分的信号。

步骤402、电子设备根据目标理想掩码，从第二语音信号中，确定第一噪声信号和偏噪声成分。

本申请实施例中，电子设备可以根据目标理想掩码

控制更新噪声估计，以得到估计的底噪

由于通过预设模型(例如深度网络降噪模型)得到的

已经学习了噪声信号和第二语音信号E₂(m,k)中剩余的残留回声信号(即残留回声信号中的偏噪声成分)，因此估计得到的底噪

包括了该频点处的剩余的残留回声成分和噪声信号(例如第一噪声信号)等。

本申请实施例中，电子设备通过将第二语音信号输入到预先建立好的模型中，可以确定出第二语音信号中的纯净语音信号和存在噪声成分的信号，此时存在噪声成分的信号包括噪声信号和残留回声信号中的偏噪声信号，因此电子设备后续计算出的降噪增益是针对采集的语音信号中的所有噪声的，如此基于该降噪增益降噪处理后，能够消除采集的语音信号中的含有噪声成分的信号，即电子设备不仅可以对原本的噪声信号进行降噪处理，而且还可以对回声信号中的偏噪声成分进行降噪处理，因此极大地降低了采集的语音信号中的噪声成分，从而使得电子设备能够获取到用户的纯净语音信号。

可选地，本申请实施中，在上述步骤201之前，本申请实施例提供的语音信号处理方法还包括下述的步骤501和步骤502。

步骤501、电子设备基于预设理想掩码模型，对预设语音信号中的噪声信号和偏噪声成分进行训练，得到模型训练参数。

本申请实施例中，上述预设语音信号包含三个部分，分别是纯净语音信号、背景噪声信号和残留回声信号中的偏噪声成分。电子设备将背景噪声信号和残留回声信号中的偏噪声成分统一当作噪声信号进行处理，对该噪声信号进行深度网络降噪模型建模。具体的，电子设备从预设语音信号中提取特征，训练标签设置为理想掩码

(即预设理想掩码模型，不限于此类训练标签)，此时模型的特征和标签已知，然后电子设备可以选择合适的网络进行网络模型训练等，得到模型训练参数，从而实现深度网络降噪模型的建立。

可选地，本申请实施例中，电子设备可以从语音数据集中确定目标语音信号，该目标语音信号由纯净语音信号s(n)、远端回声信号x(n)和背景噪声信号v(n)构成，通过对目标语音信号中的远端回声信号进行模拟非线性处理得到近端采集的回声信号，然后对该回声信号进行上述实施例所述的线性回声消除处理和残留回声抑制处理，得到残留回声信号中的偏噪声成分，从而得到预设语音信号。

可选地，本申请实施例中，上述语音数据集中的信号可以通过麦克风实际录制、网络下载或者人工合成得到，具体的可以根据实际使用需求确定，本申请实施例不作限制。

在实际情况下，远端回声信号x(n)需要经过扬声器和声学传递路径耦合等过程才能被麦克风采集，所以需要对远端回声信号x(n)进行模拟非线性处理，以将远端回声信号处理为实际场景中麦克风采集到的回声信号d(n)。上述模拟非线性处理的具体过程为：(a)先对远端回声信号x(n)进行不同程度的截顶，以模拟非线性；(b)然后将其通过一些不同程度的非线性函数处理，例如无记忆的S型生长曲线(sigmoid)函数等，以模拟扬声器引起的非线性；(c)然后再将其卷积上随机产生的房间脉冲冲击响应(room impulse response，RIR)函数，以模拟房间的声学路径引起的非线性等。

步骤502、电子设备根据模型训练参数、预设语音信号中的噪声信号和偏噪声成分，建立预设模型。

本申请实施例中，电子设备可以根据训练得到的模型训练参数、预设语音信号中的噪声信号和偏噪声成分，建立预设模型(例如深度网络降噪模型)，以使得电子设备基于该预设模型确定语音信号中存在噪声成分的信号。

本申请实施例中，通过将去除回声和降噪两个任务合并为一个降噪的任务，避免了去除回声和降噪两个任务的建模，简化了网络的学习过程，从而提高了网络学习的效率。并且，由于将噪声信号和残留回声信号中的偏噪声成分统一当作噪声进行处理，避免了使用远端回声信号作为特征，减少了输入特征的维度，且简化了去除回声和降噪的耦合处理。

可选地，本申请实施例中，上述步骤202具体可以通过下述的步骤202a至步骤202c实现。

步骤202a、电子设备根据第二语音信号的功率谱和目标功率谱，确定第二语音信号对应的后验信噪比。

本申请实施例中，上述目标功率谱为第一噪声信号和偏噪声成分的功率谱。

可以理解，上述第二语音信号为带噪语音信号，其中带噪语音信号中的噪声信号(也可以称为底噪

)包括第一噪声信号和偏噪声成分，此时可以不再区分噪声信号和残留回声信号中的偏噪声成分。电子设备可以根据底噪和第二语音信号，采用第一预设算法，得到第二语音信号对应的后验信噪比，该第一预设算法为γ(m,k)＝P_yy(m,k)/P_nn(m,k)，其中，P_nn(m,k)为带噪语音信号中的噪声信号的功率谱，P_yy(m,k)为第二语音信号的功率谱。

步骤202b、电子设备对后验信噪比进行递归平滑处理，得到第二语音信号对应的先验信噪比。

本申请实施例中，第二语音信号对应的先验信噪比为ξ(m,k)＝α*ξ(m,k-1)+(1-α)*max(0,γ(m,k)-1)，其中，α为平滑因子，例如α的取值可以为0.7。

步骤202c、电子设备根据后验信噪比和先验信噪比，确定目标增益补偿参数。

本申请实施例中，电子设备可以根据后验信噪比和先验信噪比，采用第二预设算法，计算得到时间为m、频点为k的目标增益补偿参数G₂(m,k)，该第二预设算法可以为

其中，

本申请实施例中，电子设备可以根据第二语音信号的功率谱和第二语音信号中底噪的功率谱，确定第二语音信号对应的后验信噪比，并对后验信噪比进行递归平滑处理得到第二语音信号对应的先验信噪比，以根据该后验信噪比和该先验信噪比，计算得到目标增益补偿参数。如此，由于电子设备是根据第二语音信号和第二语音信号中的所有噪声成分，计算得到第二语音信号的降噪增益的，即电子设备不仅可以对原本的噪声信号进行降噪处理，而且还可以对回声信号中的偏噪声成分进行降噪处理，因此极大地降低了采集的语音信号中的噪声成分，从而保证电子设备可以获取到用户的纯净语音信号。

步骤203、电子设备采用目标增益补偿参数，对第二语音信号进行降噪处理。

本申请实施例中，电子设备可以根据该第二语音信号的频谱和计算得到的目标增益补偿参数，采用第三预设算法，对第二语音信号进行降噪处理，得到降噪处理后的语音信号

该第三预设算法为

本申请实施例提供一种语音信号处理方法，电子设备可以对实时采集的第一语音信号进行信号处理以得到第二语音信号，该第二语音信号包括纯净语音信号、噪声信号和第一语音信号的回声信号中的偏噪声成分，从而电子设备可以基于第二语音信号、噪声信号和偏噪声成分，计算得到目标增益补偿参数，并采用该目标增益补偿参数对第二语音信号进行降噪处理。由于在进行信号处理的过程中，电子设备可以对采集的语音信号中的回声信号进行处理，以使得采集的语音信号中的回声信号的特征接近于噪声，即得到回声信号中的偏噪声成分，从而使得处理后的语音信号中包含的信号为纯净语音信号和含有噪声成分的信号(即偏噪声成分和采集的语音信号中的噪声信号统一当作噪声)，因此电子设备根据处理后的语音信号计算出的降噪增益是针对采集的语音信号中的噪声的，如此电子设备基于该降噪增益对处理后的语音信号进行降噪处理后，能够消除采集的语音信号中的含有噪声成分的信号，从而使得电子设备能够获取到用户的纯净语音信号。

可选地，本申请实施例中，在上述步骤202之后，本申请实施例提供的语音信号处理方法还包括下述的步骤601和步骤602。

步骤601、电子设备对降噪处理后的第二语音信号进行时频反变换处理，得到目标时域信号。

本申请实施例中，电子设备通过对降噪处理后的第二语音信号进行时频反变换处理，以得到语音增强后的时域信号(即降噪处理后的第二语音信号的时域信号)。

步骤602、电子设备输出目标时域信号。

可选地，本申请实施例中，经过时频反变换处理得到语音增强后的时域信号后，在一种场景下，电子设备在接收到一个语音消息之后，可以通过扬声器播放该语音消息(即目标时域信号)；在另一种场景下，在电子设备与其他设备进行语音通话或视频通话的情况下，电子设备可以向其它设备发送通话过程中产生的语音信号(即目标时域信号)。

下面对本申请实施例提供的语音信号处理方法的具体过程进行描述：

1.训练阶段：电子设备从预先存储的语音数据集中随机选择纯净语音信号s(n)，背景噪声信号v(n)和远端回声信号x(n)，在实际情况下，远端回声信号x(n)需要经过扬声器和声学传递路径耦合等过程才能被麦克风接收，因此电子设备需要对远端回声信号x(n)进行模拟非线性处理，以模拟麦克风实际采集到的回声信号d(n)。具体的，(a)可以对远端回声信号x(n)进行不同程度的截顶/削顶，以模拟非线性；(b)然后对其通过一些不同程度的非线性函数，例如无记忆的sigmoid函数，以模拟扬声器引起的非线性；(c)然后再将其卷积上随机产生的房间脉冲冲击响应函数，以模拟房间的声学路径引起的非线性等。经过上述过程，麦克风实际采集到的语音信号为y(n)＝s(n)+v(n)+d(n)，该语音信号包括三个部分，分别是纯净语音信号s(n)，背景噪声信号v(n)和实际采集到的回声信号d(n)，其中d(n)＝h(n)*x(n)，h(n)为真实的远端回声信号到近端采集的回声信号的传递函数，x(n)为远端回声信号。电子设备可以对采集到的语音信号进行线性回声消除处理，假设估计的回声信号为

则残留信号(进行线性回声消除处理之后的信号)为

此时残留信号e(n)包括纯净语音信号s(n)，背景噪声信号v(n)和残留回声信号

然后电子设备可以对残留信号e(n)中的残留回声信号进行一定程度的残留回声抑制，由于实际受到线性回声消除过程中滤波器的长度限制、收敛时间和扬声器导致的非线性等原因，残留信号e(n)中仍然存在大量的回声成分Δd(n)，因此残留信号e(n)和远端回声信号x(n)或者估计的回声信号

具有较强的相关性。因此，电子设备可以根据这个特征，利用传统的信号处理方法对残留信号e(n)进行一定程度的残留回声抑制，此时，残留回声信号中待抑制的部分更倾向于具有与远端回声信号或者估计的回声信号具有相关性的那一部分，即残留回声信号中的偏语音成分。以常见的频域维纳滤波为例，对残留信号e(n)进行分帧、加窗、时频变换处理，以实现将时域信号转换到频域信号E(m,k)，其中m表示时间，k表示频点。然后电子设备按照频点根据残留信号E(m,k)、残留回声信号ΔD(m,k)、远端回声信号x(n)(不限制这些信息)等信息估计残留信号的回声抑制增益G(m,k)，从而得到残留回声抑制后的信号E₂(m,k)＝G(m,k)*E(m,k)。由于残留回声抑制处理是对残留信号E(m,k)中较为确定的回声成分(即残留回声信号中的偏语音成分)进行去除，所以对纯净语音信号的损伤较小，而且使得残留回声抑制处理后得到的信号E₂(m,k)中剩余的残留回声成分更倾向于噪声，比如回声的语音谐波成分不明显了。至此，通过对回声信号进行线性回声消除处理和残留回声部分抑制处理，得到信号E₂(m,k)，该信号E₂(m,k)中包括纯净语音信号、背景噪声信号和残留信号中类噪声的回声成分，电子设备可以将背景噪声信号和残留的类噪声的回声成分统一当作噪声进行处理，对其进行深度网络降噪模型建模。具体的，电子设备可以从信号E₂(m,k)中提取特征，训练标签设置为理想掩码(已知)，由于模型的特征和标签已知，因此电子设备可以选择合适的网络进行网络模型训练等得到模型训练参数，根据该模型训练参数、噪声信号和类噪声的回声成分，从而建立网络模型。

2.测试阶段：在实际场景中，电子设备对麦克风采集到的语音信号进行上述线性回声消除处理，得到残留信号e(n)，然后对残留信号e(n)中的残留回声进行一定程度的残留回声抑制，得到信号E₂(m,k)，电子设备可以提取信号E₂(m,k)的特征输入到预先建立的模型中，从而得到估计的理想掩码

3.深度学习和传统方法耦合降噪阶段：此时，信号E₂(m,k)可以称为带噪语音信号，这里可以不再区分背景噪声信号和残留回声信号中类噪声的回声成分。电子设备可以根据估计的理想掩码

这个先验信息，控制更新噪声估计，得到估计的底噪

由于深度学习得到的

这个先验信息已经学习了信号E₂(m,k)中剩余的残留回声信号，也学习了背景噪声信号，所以估计得到的底噪

包括该频点处剩余的残留回声成分(即类噪声的回声成分)、背景噪声信号等。根据估计的底噪

和带噪语音信号E₂(m,k)，计算得到带噪语音信号对应的后验信噪比，再根据该后验信噪比计算得到带噪语音信号对应的先验信噪比，最后根据该先验信噪比和后验信噪比得到时间为m，频点为k的降噪增益G₂(m,k)，电子设备可以采用该降噪增益对带噪语音信号E₂(m,k)进行降噪处理，得到降噪处理后的信号

对该降噪处理后的信号

进行时频反变换处理，得到增强后的时域信号。

需要说明的是，本申请实施例提供的语音信号处理方法，执行主体可以为语音信号处理装置，或者该语音信号处理装置中的用于执行语音信号处理方法的控制模块。本申请实施例中以语音信号处理装置执行语音信号处理方法为例，说明本申请实施例提供的语音信号处理装置。

图2示出了本申请实施例中涉及的语音信号处理装置的一种可能的结构示意图。如图2所示，该语音信号处理装置70可以包括：处理模块71和确定模块72。

其中，处理模块71，用于对第一语音信号进行信号处理，得到第二语音信号，该第二语音信号中包括纯净语音信号、第一噪声信号和偏噪声成分，该偏噪声成分为第一语音信号的回声信号中的噪声成分。确定模块72，用于基于处理模块71得到的第二语音信号、第一噪声信号和偏噪声成分，确定目标增益补偿参数。处理模块71，还用于采用确定模块72确定的目标增益补偿参数，对第二语音信号进行降噪处理。

本申请实施例提供一种语音信号处理装置，由于在进行信号处理的过程中，可以对采集的语音信号中的回声信号进行处理，以使得采集的语音信号中的回声信号的特征接近于噪声，即得到回声信号中的偏噪声成分，从而使得处理后的语音信号中包含的信号为纯净语音信号和含有噪声成分的信号(即偏噪声成分和采集的语音信号中的噪声信号统一当作噪声)，因此根据处理后的语音信号计算出的降噪增益是针对采集的语音信号中的噪声的，如此基于该降噪增益对处理后的语音信号进行降噪处理后，能够消除采集的语音信号中的含有噪声成分的信号，从而能够获取到用户的纯净语音信号。

在一种可能的实现方式中，上述处理模块71，具体用于对第一语音信号进行线性回声消除处理，得到第三语音信号，该第三语音信号中包括纯净语音信号、第一噪声信号和第一回声信号；并对第三语音信号进行残留回声抑制处理，得到第二语音信号，该残留回声抑制处理用于抑制第一回声信号中的偏语音成分。

在一种可能的实现方式中，上述处理模块71，还用于对第三语音信号进行残留回声抑制处理之前，对第三语音信号进行分帧、加窗、时频变换处理，得到第三语音信号的频域信号。上述确定模块72，还用于根据处理模块71得到的第三语音信号的频域信号和第一回声信号，确定回声抑制增益。上述处理模块71，具体用于采用确定模块72确定的回声抑制增益，对第三语音信号进行残留回声抑制处理。

在一种可能的实现方式中，本申请实施例提供的语音信号处理装置70还包括输入模块。输入模块，用于确定模块72基于第二语音信号、第一噪声信号和偏噪声成分，确定目标增益补偿参数之前，将第二语音信号输入到预设模型中，得到目标理想掩码，该目标理想掩码用于指示第二语音信号中存在噪声成分的信号。上述确定模块72，还用于根据输入模块得到的目标理想掩码，从第二语音信号中，确定第一噪声信号和偏噪声成分。

在一种可能的实现方式中，本申请实施例提供的语音信号处理装置70还包括训练模块和建立模块。训练模块，用于处理模块71对第一语音信号进行信号处理，得到第二语音信号之前，基于预设理想掩码模型，对预设语音信号中的噪声信号和偏噪声成分进行训练，得到模型训练参数。建立模块，用于根据训练模块得到的模型训练参数、预设语音信号中的噪声信号和偏噪声成分，建立预设模型。

在一种可能的实现方式中，上述确定模块72，具体用于根据第二语音信号的功率谱和目标功率谱，确定第二语音信号对应的后验信噪比，该目标功率谱为第一噪声信号和偏噪声成分的功率谱；并对后验信噪比进行递归平滑处理，得到第二语音信号对应的先验信噪比；以及根据后验信噪比和先验信噪比，确定目标增益补偿参数。

在一种可能的实现方式中，本申请实施例提供的语音信号处理装置70还包括输出模块。上述处理模块71，还用于采用目标增益补偿参数，对第二语音信号进行降噪处理之后，对降噪处理后的第二语音信号进行时频反变换处理，得到目标时域信号。输出模块，用于输出处理模块71得到的目标时域信号。

本申请实施例中的语音信号处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的语音信号处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的语音信号处理装置能够实现上述方法实施例实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选地，如图3所示，本申请实施例还提供一种电子设备90，包括处理器91，存储器92，存储在存储器92上并可在所述处理器91上运行的程序或指令，该程序或指令被处理器91执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图4为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器110，用于对第一语音信号进行信号处理，得到第二语音信号，该第二语音信号中包括纯净语音信号、第一噪声信号和偏噪声成分，该偏噪声成分为第一语音信号的回声信号中的噪声成分；并基于第二语音信号、第一噪声信号和偏噪声成分，确定目标增益补偿参数；以及采用目标增益补偿参数，对第二语音信号进行降噪处理。

本申请实施例提供一种电子设备，由于在进行信号处理的过程中，电子设备可以对采集的语音信号中的回声信号进行处理，以使得采集的语音信号中的回声信号的特征接近于噪声，即得到回声信号中的偏噪声成分，从而使得处理后的语音信号中包含的信号为纯净语音信号和含有噪声成分的信号(即偏噪声成分和采集的语音信号中的噪声信号统一当作噪声)，因此电子设备根据处理后的语音信号计算出的降噪增益是针对采集的语音信号中的噪声的，如此电子设备基于该降噪增益对处理后的语音信号进行降噪处理后，能够消除采集的语音信号中的含有噪声成分的信号，从而使得电子设备能够获取到用户的纯净语音信号。

可选地，本申请实施例中，处理器110，具体用于对第一语音信号进行线性回声消除处理，得到第三语音信号，该第三语音信号中包括纯净语音信号、第一噪声信号和第一回声信号；并对第三语音信号进行残留回声抑制处理，得到第二语音信号，该残留回声抑制处理用于抑制第一回声信号中的偏语音成分。

可选地，本申请实施例中，处理器110，还用于对第三语音信号进行残留回声抑制处理之前，对第三语音信号进行分帧、加窗、时频变换处理，得到第三语音信号的频域信号，并根据第三语音信号的频域信号和第一回声信号，确定回声抑制增益；具体用于采用回声抑制增益，对第三语音信号进行残留回声抑制处理。

可选地，本申请实施例中，处理器110，还用于基于第二语音信号、第一噪声信号和偏噪声成分，确定目标增益补偿参数之前，将第二语音信号输入到预设模型中，得到目标理想掩码，该目标理想掩码用于指示第二语音信号中存在噪声成分的信号；并根据目标理想掩码，从第二语音信号中，确定第一噪声信号和偏噪声成分。

可选地，本申请实施例中，处理器110，还用于对第一语音信号进行信号处理，得到第二语音信号之前，基于预设理想掩码模型，对预设语音信号中的噪声信号和偏噪声成分进行训练，得到模型训练参数；并根据模型训练参数、预设语音信号中的噪声信号和偏噪声成分，建立预设模型。

可选地，本申请实施例中，处理器110，具体用于根据第二语音信号的功率谱和目标功率谱，确定第二语音信号对应的后验信噪比，该目标功率谱为第一噪声信号和偏噪声成分的功率谱；并对后验信噪比进行递归平滑处理，得到第二语音信号对应的先验信噪比；以及根据后验信噪比和先验信噪比，确定目标增益补偿参数。

可选地，本申请实施例中，处理器110，还用于采用目标增益补偿参数，对第二语音信号进行降噪处理之后，对降噪处理后的第二语音信号进行时频反变换处理，得到目标时域信号。射频单元101，用于输出目标时域信号。

本申请实施例提供的电子设备能够实现上述方法实施例实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器109可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种语音信号处理方法，其特征在于，所述方法包括：

对第一语音信号进行信号处理，得到第二语音信号，所述第二语音信号中包括纯净语音信号、第一噪声信号和偏噪声成分，所述偏噪声成分为所述第一语音信号的回声信号中的噪声成分；

基于所述第二语音信号、所述第一噪声信号和所述偏噪声成分，确定目标增益补偿参数；

采用所述目标增益补偿参数，对所述第二语音信号进行降噪处理。

2.根据权利要求1所述的方法，其特征在于，所述对第一语音信号进行信号处理，得到第二语音信号，包括：

对所述第一语音信号进行线性回声消除处理，得到第三语音信号，所述第三语音信号中包括所述纯净语音信号、所述第一噪声信号和第一回声信号；

对所述第三语音信号进行残留回声抑制处理，得到所述第二语音信号，所述残留回声抑制处理用于抑制所述第一回声信号中的偏语音成分。

3.根据权利要求2所述的方法，其特征在于，所述对所述第三语音信号进行残留回声抑制处理之前，所述方法还包括：

对所述第三语音信号进行分帧、加窗、时频变换处理，得到所述第三语音信号的频域信号；

根据所述第三语音信号的频域信号和所述第一回声信号，确定回声抑制增益；

所述对所述第三语音信号进行残留回声抑制处理，包括：

采用所述回声抑制增益，对所述第三语音信号进行残留回声抑制处理。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于所述第二语音信号、所述第一噪声信号和所述偏噪声成分，确定目标增益补偿参数之前，所述方法还包括：

将所述第二语音信号输入到预设模型中，得到目标理想掩码，所述目标理想掩码用于指示所述第二语音信号中存在噪声成分的信号；

根据所述目标理想掩码，从所述第二语音信号中，确定所述第一噪声信号和所述偏噪声成分。

5.根据权利要求4所述的方法，其特征在于，所述对第一语音信号进行信号处理，得到第二语音信号之前，所述方法还包括：

基于预设理想掩码模型，对预设语音信号中的噪声信号和偏噪声成分进行训练，得到模型训练参数；

根据所述模型训练参数、所述预设语音信号中的噪声信号和偏噪声成分，建立所述预设模型。

6.根据权利要求1所述的方法，其特征在于，所述基于所述第二语音信号、所述第一噪声信号和所述偏噪声成分，确定目标增益补偿参数，包括：

根据所述第二语音信号的功率谱和目标功率谱，确定所述第二语音信号对应的后验信噪比，所述目标功率谱为所述第一噪声信号和所述偏噪声成分的功率谱；

对所述后验信噪比进行递归平滑处理，得到所述第二语音信号对应的先验信噪比；

根据所述后验信噪比和所述先验信噪比，确定所述目标增益补偿参数。

7.根据权利要求1所述的方法，其特征在于，所述采用所述目标增益补偿参数，对所述第二语音信号进行降噪处理之后，所述方法还包括：

对降噪处理后的所述第二语音信号进行时频反变换处理，得到目标时域信号；

输出所述目标时域信号。

8.一种语音信号处理装置，其特征在于，所述装置包括：处理模块和确定模块；

所述处理模块，用于对第一语音信号进行信号处理，得到第二语音信号，所述第二语音信号中包括纯净语音信号、第一噪声信号和偏噪声成分，所述偏噪声成分为所述第一语音信号的回声信号中的噪声成分；

所述确定模块，用于基于所述处理模块得到的所述第二语音信号、所述第一噪声信号和所述偏噪声成分，确定目标增益补偿参数；

所述处理模块，还用于采用所述确定模块确定的所述目标增益补偿参数，对所述第二语音信号进行降噪处理。

9.根据权利要求8所述的装置，其特征在于，所述处理模块，具体用于对所述第一语音信号进行线性回声消除处理，得到第三语音信号，所述第三语音信号中包括所述纯净语音信号、所述第一噪声信号和第一回声信号；并对所述第三语音信号进行残留回声抑制处理，得到所述第二语音信号，所述残留回声抑制处理用于抑制所述第一回声信号中的偏语音成分。

10.根据权利要求9所述的装置，其特征在于，所述处理模块，还用于对所述第三语音信号进行残留回声抑制处理之前，对所述第三语音信号进行分帧、加窗、时频变换处理，得到所述第三语音信号的频域信号；

所述确定模块，还用于根据所述处理模块得到的所述第三语音信号的频域信号和所述第一回声信号，确定回声抑制增益；

所述处理模块，具体用于采用所述确定模块确定的所述回声抑制增益，对所述第三语音信号进行残留回声抑制处理。

11.根据权利要求8至10中任一项所述的装置，其特征在于，所述装置还包括：输入模块；

所述输入模块，用于所述确定模块基于所述第二语音信号、所述第一噪声信号和所述偏噪声成分，确定所述目标增益补偿参数之前，将所述第二语音信号输入到预设模型中，得到目标理想掩码，所述目标理想掩码用于指示所述第二语音信号中存在噪声成分的信号；

所述确定模块，还用于根据所述输入模块得到的所述目标理想掩码，从所述第二语音信号中，确定所述第一噪声信号和所述偏噪声成分。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：训练模块和建立模块；

所述训练模块，用于所述处理模块对所述第一语音信号进行信号处理，得到所述第二语音信号之前，基于预设理想掩码模型，对预设语音信号中的噪声信号和偏噪声成分进行训练，得到模型训练参数；

所述建立模块，用于根据所述训练模块得到的所述模型训练参数、所述预设语音信号中的噪声信号和偏噪声成分，建立所述预设模型。

13.根据权利要求8所述的装置，其特征在于，所述确定模块，具体用于根据所述第二语音信号的功率谱和目标功率谱，确定所述第二语音信号对应的后验信噪比，所述目标功率谱为所述第一噪声信号和所述偏噪声成分的功率谱；并对所述后验信噪比进行递归平滑处理，得到所述第二语音信号对应的先验信噪比；以及根据所述后验信噪比和所述先验信噪比，确定所述目标增益补偿参数。

14.根据权利要求8所述的装置，其特征在于，所述装置还包括：输出模块；

所述处理模块，还用于采用所述目标增益补偿参数，对所述第二语音信号进行降噪处理之后，对降噪处理后的所述第二语音信号进行时频反变换处理，得到目标时域信号；

所述输出模块，用于输出所述处理模块得到的所述目标时域信号。

15.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的语音信号处理方法的步骤。

16.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的语音信号处理方法的步骤。