CN111768796A

CN111768796A - 一种声学回波消除与去混响方法及装置

Info

Publication number: CN111768796A
Application number: CN202010676232.4A
Authority: CN
Inventors: 栾书明; 李军锋; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2020-10-13
Anticipated expiration: 2040-07-14

Abstract

本发明实施例公开了一种声学回波消除与去混响方法及装置，方法包括：根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号，确定与其对应的频域信号；根据麦克风拾取语音频域信号、远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络，确定估计掩蔽；根据估计掩蔽、麦克风拾取语音频域信号的幅度谱及预置的级联网络中的去混响阶段神经网络，确定隐掩蔽；根据麦克风拾取语音频域信号的幅度谱、估计掩蔽、隐掩蔽与麦克风拾取语音频域信号的相位，确定估计目标语音时域信号。本发明实施例通过预置的级联网络既抑制麦克风拾取语音时域信号中的回波，又抑制混响，增强了麦克风拾取语音时域信号，保持目标语音的完整。

Description

一种声学回波消除与去混响方法及装置

技术领域

本发明涉及语音信号处理领域。尤其涉及一种声学回波消除与去混响方法及装置。

背景技术

在现代通信系统中，例如电话会议、免提通话等，由于信号传输过程表面反射的存在以及扬声器与麦克风之间耦合作用的存在，远端说话人往往会听到一种混合信号，其中包含了回波(即滞后了的自己的声音)与带混响的近端语音。回波与混响都会严重降低目标语音的质量，因此，如何去除回波与混响成为了语音信号处理领域的重要挑战。

在最近几年，基于深度学习的方法已经被广泛应用到语音信号处理当中，比如基于深度学习的语音分离与语音增强。诸多研究表明，基于深度学习的算法可以获得比传统信号处理方法更优异的处理效果。目前已经有大量的研究在利用深度学习进行回波消除或去混响，相较于传统的信号处理算法，基于神经网络的算法性能在单独回波消除或去混响任务上都有了极大的提高。然而这些算法仅仅考虑了环境中单独存在回波或混响时的情况，因此当两种干扰同时存在时，以上算法并不能很好的对麦克风拾取语音信号进行增强。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种声学回波消除与去混响方法及装置。

第一方面，本发明实施例提出一种声学回波消除与去混响方法，包括：

根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号，确定麦克风拾取语音频域信号与远端说话人语音频域信号；其中，所述麦克风拾取语音时域信号包括：近端说话人语音时域信号、回波和混响；

根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络，确定估计掩蔽；

根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络，确定隐掩蔽；

根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位，确定估计目标语音时域信号。

在另一个可能的实现中，所述根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号，确定麦克风拾取语音频域信号与远端说话人语音频域信号，包括：

对麦克风拾取语音时域信号与远端说话人语音时域信号每次分别取预设个数采样点作为一帧信号；

对每一帧信号进行加窗；

对加窗后的每一帧信号进行傅里叶变换，得到所述麦克风拾取语音频域信号与所述远端说话人语音频域信号。

在另一个可能的实现中，所述根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及所述预置的级联网络中的回波消除阶段神经网络，确定估计掩蔽，包括：

将所述麦克风拾取语音频域信号的幅度谱和所述远端说话人语音频域信号的幅度谱分别进行对数压缩，得到第一对数幅度谱和第二对数幅度谱；

将所述第一对数幅度谱与所述第二对数幅度谱逐帧拼接，并将逐帧拼接结果输入到所述预置的级联网络中的回波消除阶段神经网络，输出为所述估计掩蔽。

在另一个可能的实现中，所述根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络，确定隐掩蔽，包括：

将所述估计掩蔽与所述麦克风拾取语音频域信号的幅度谱相乘，并将相乘结果输入到所述预置的级联网络中的去混响阶段神经网络，输出为所述隐掩蔽。

在另一个可能的实现中，所述根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位，确定估计目标语音时域信号，包括：

根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽，确定估计目标语音频域信号的幅度谱；

根据所述估计目标语音频域信号的幅度谱与所述麦克风拾取语音频域信号的相位，确定估计目标语音时域信号。

在另一个可能的实现中，所述根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽，确定估计目标语音频域信号的幅度谱，包括：

将所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽相乘，得到估计目标语音频域信号的幅度谱。

在另一个可能的实现中，所述预置的级联网络通过以下步骤获取：

将两个神经网络级联，并利用预置的回波消除阶段神经网络和预置的去混响阶段神经网络对级联后的两个神经网络分别进行初始化；

根据所述麦克风拾取语音频域信号的幅度谱和远端说话人语音频域信号的幅度谱，确定初始化后的两个神经网络的输入特征，并以目标语音频域信号的幅度谱为训练目标，对所述初始化后的两个神经网络进行联合训练；其中，所述目标语音频域信号为保留早期混响的近端说话人语音频域信号。

第二方面，本发明实施例提出一种声学回波消除与去混响装置，包括：

确定模块，用于根据麦克风拾取语音时域信号与远端说话人语音时域信号，确定麦克风拾取语音频域信号与远端说话人语音频域信号；

所述确定模块，还用于根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络，确定估计掩蔽；

所述确定模块，还用于根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络，确定隐掩蔽；

所述确定模块，还用于根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位，确定估计目标语音时域信号。

在另一个可能的实现中，所述确定模块，具体用于：

对每一帧信号进行加窗；

在另一个可能的实现中，所述确定模块，还具体用于：

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下步骤：

根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号，确定麦克风拾取语音频域信号与远端说话人语音频域信号；其中，所述麦克风拾取语音时域信号包括：近端说话人语音时域信号、回波和混响；根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络，确定估计掩蔽；根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络，确定隐掩蔽；根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位，确定估计目标语音时域信号。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如下步骤：

由上述技术方案可知，本发明实施例通过预置的级联网络中的回波消除阶段神经网络和去混响阶段神经网络共同抑制麦克风拾取语音时域信号中的回波和混响，恢复出了估计目标语音时域信号，增强了麦克风拾取语音时域信号，能够完整地保留目标信号，从而提高了目标信号的清晰度、可懂度和舒适度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明实施例提供的两个人进行免提通话的场景示意图；

图2为本发明实施例提供的一种声学回波消除与去混响方法的流程示意图；

图3为本发明实施例提供的一种声学回波消除与去混响装置的结构示意图；

图4为本发明实施例提供的电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1为本发明实施例提供的两个人进行免提通话的场景示意图。在本发明实施例中，将A端作为近端，B端作为远端。相应地，A端麦克风拾取语音时域信号为受到回波与混响干扰的语音时域信号，包括了A端说话人语音时域信号、回波(即A端麦克风拾取的滞后了的B端说话人语音时域信号，其中B端说话人语音时域信号由A端扬声器传出)及混响(即A端说话人语音时域信号经反射与衰减后到达麦克风的信号)。

在本发明实施例中，采集麦克风拾取语音时域信号和远端说话人语音时域信号。然后对麦克风拾取语音时域信号与远端说话人语音时域信号每次分别取预设个数采样点作为一帧信号；对每一帧信号进行加窗，加窗函数采用布莱克曼窗；对加窗后的每一帧信号进行傅里叶变换，得到所述麦克风拾取语音频域信号与所述远端说话人语音频域信号；其中，上述麦克风拾取语音频域信号表示为：

Y(n，f)＝H₁(n，f)S(n，f)+H₂(n，f)X(n，f)＝R(n，f)+D(n，f)，

其中，n为语音帧，f为频点，H₁(n，f)为近端说话人与麦克风之间的传输函数，H₂(n，f)为扬声器与麦克风之间的传输函数，S(n，f)为近端说话人语音频域信号，X(n，f)为远端说话人语音频域信号，R(n，f)为无回波干扰的混响语音频域信号，D(n，f)为回波干扰语音频域信号。接下来，将上述麦克风拾取语音频域信号的幅度谱和上述远端说话人语音频域信号的幅度谱分别进行对数压缩，得到对应的对数幅度谱，即第一对数幅度谱和第二对数幅度谱；将上述第一对数幅度谱与上述第二对数幅度谱逐帧拼接，并将逐帧拼接结果作为回波消除阶段神经网络的输入特征；其中，上述回波消除阶段神经网络的输入特征表示为：

I^AEC(n)＝[log(|Y(n，1)|)，...，log(|Y(n，F)|)，log(|X(n，1)|)，...，log(|X(n，F)|)]，

其中，F为最大频点数，|Y(n，f)|为麦克风拾取语音频域信号的幅度谱，|X(n，f)|为远端说话人语音频域信号的幅度谱。利用上述输入特征作为先验信息，以每个时频点处无回波的混响语音能量占麦克风拾取语音能量的主导概率为训练目标，使用双向长短时记忆网络(Bidirectional Long Short-Term Memory,BLSTM)作为神经网络监督学习机进行训练学习，利用神经网络输出与训练目标计算损失函数，至此，完成回波消除阶段神经网络的训练，得到预置的回波消除阶段神经网络。其中，上述每个时频点处无回波的混响语音能量占麦克风拾取语音能量的主导概率可定义为理想比率掩蔽(ideal ratio mask,IRM)。上述回波消除阶段的IRM表示为：

其中，|R(n，f)|为无回波干扰的混响语音频域信号的幅度谱，|D(n，f)|为回波干扰语音频域信号的幅度谱。上述回波消除阶段的损失函数表示为：

其中，

为神经网络输出的估计掩蔽，MSE为均方误差(Mean SquareError)。接下来，将上述回波消除阶段神经网络输出的估计掩蔽，与上述麦克风拾取语音频域信号的幅度谱相乘，得到无回波干扰的混响语音频域信号的幅度谱。上述无回波干扰的混响语音频域信号的幅度谱表示为：

其中，

为神经网络输出的估计掩蔽，|Y(n，f)|为麦克风拾取语音频域信号的幅度谱。接下来，对无回波干扰的混响语音频域信号进行对数压缩，得到无回波干扰的混响语音频域信号的对数幅度谱，作为去混响阶段神经网络的输入特征。上述去混响阶段神经网络的输入特征表示为：

I^DEV(n)＝[log(|S^REV(n，1)|)，...，log(|S^REV(n，F)|)]，

其中，|SRE(n，F)|为无回波干扰的混响语音频域信号的幅度谱。利用上述去混响阶段神经网络的输入特征作为先验信息，以目标语音频域信号的幅度谱为训练目标，使用BLSTM作为神经网络监督学习机进行训练学习，至此，完成去混响阶段神经网络的训练，得到预置的去混响阶段神经网络。其中，上述目标语音频域信号为保留早期混响的近端说话人语音频域信号，上述BLSTM的直接输出为一个掩蔽值，即“隐掩蔽”，上述隐掩蔽与上述无回波干扰的混响语音频域信号的幅度谱相乘，得到估计的保留早期混响的近端语音频域信号的幅度谱，上述估计的保留早期混响的近端语音频域信号的幅度谱再与上述目标语音频域信号的幅度谱计算损失函数。上述估计的保留早期混响的近端语音频域信号的幅度谱表示为：

其中，

为上述“隐掩蔽”。上述去混响阶段神经网络的损失函数为：

其中，

为上述目标语音频域信号的幅度谱，即上述保留早期混响的近端说话人语音频域信号的幅度谱。将两个BLSTM级联，利用预置的回波消除阶段神经网络与预置的去混响阶段神经网络对级联的两个BLSTM分别进行初始化，构成一个先去回波再去混响的级联网络。利用所述麦克风拾取语音频域信号的对数幅度谱及远端说话人语音频域信号的对数幅度谱逐帧拼接的结果作为输入特征，所述目标语音频域信号的幅度谱为训练目标，对所述级联网络进行联合训练，其中，所述级联网络的直接输出为“隐掩蔽”，所述隐掩蔽与所述级联网络中的第一阶段，即所述回波消除阶段神经网络的输出结果及所述麦克风拾取语音频域信号的幅度谱依次相乘，所述相乘结果再与所述目标语音频域信号的幅度谱计算损失函数。将麦克风拾取语音频域信号的幅度谱依次与训练好的级联网络中回波消除阶段神经网络的输出结果及去混响阶段神经网络的输出结果相乘，得到估计目标语音频域信号的幅度谱，结合麦克风拾取语音频域信号的相位，通过逆傅里叶变换，得到估计目标语音时域信号。至此，完成级联网络的训练，得到预置的级联网络；其中，预置的级联网络分为两个阶段，第一阶段为回波消除阶段神经网络，第二阶段为去混响阶段神经网络。

需要说明的是，本发明实施例充分利用回波与混响的声学特性以及深度学习的特性，鉴于回波信号与混响的特性不同，即回波为加性信号，混响为卷积过程，应用了一种两阶段处理的方案。同时，对回波消除网络应用掩蔽为训练目标，对去混响网络则使用谱映射的方法，并将掩蔽的思想通过一个“隐掩蔽”融入到谱映射中，以期利用掩蔽的优点获得更优的性能；进一步对两个预训练好的模型进行联合训练，提升两阶段的耦合度，从而获得更好的回波消除与去混响效果。

图2为本发明实施例提供的一种声学回波消除与去混响方法的流程示意图，该流程示意图包括：

S201，根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号，确定麦克风拾取语音频域信号与远端说话人语音频域信号；其中，所述麦克风拾取语音时域信号包括：近端说话人语音时域信号、回波和混响。

在一种可能的实现中，为获得麦克风拾取语音频域信号与远端说话人语音频域信号，需要对麦克风拾取语音时域信号与远端说话人语音时域信号每次分别取预设个数采样点作为一帧信号；然后，对每一帧信号进行加窗，加窗函数采用布莱克曼窗；最后，对加窗后的每一帧信号进行傅里叶变换。其中，麦克风拾取语音时域信号是受到回波与混响干扰的近端说话人语音时域信号。

S202，根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络，确定估计掩蔽。

在一种可能的实现中，将所述麦克风拾取语音频域信号的幅度谱和所述远端说话人语音频域信号的幅度谱分别进行对数压缩，得到相应的对数幅度谱。在本发明实施例中，称为第一对数幅度谱和第二对数幅度谱。将第一对数幅度谱与第二对数幅度谱逐帧拼接，并将逐帧拼接结果输入到预置的级联网络中的回波消除阶段神经网络，输出为估计掩蔽。

S203，根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络，确定隐掩蔽。

在一种可能的实现中，将S202中得到的估计掩蔽与麦克风拾取语音频域信号的幅度谱相乘，并将相乘结果输入到预置的级联网络中的去混响阶段神经网络，输出为隐掩蔽。

S204，根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位，确定估计目标语音时域信号。

在一种可能的实现中，将麦克风拾取语音频域信号的幅度谱、S202中得到的估计掩蔽和S203中得到的隐掩蔽相乘，可以确定估计目标语音频域信号的幅度谱。再根据估计目标语音频域信号的幅度谱和麦克风拾取语音频域信号的相位，及逆傅里叶变换，可以确定估计目标语音时域信号。

本发明实施例通过预置的级联网络中的回波消除阶段神经网络和去混响阶段神经网络共同抑制麦克风拾取语音时域信号中的回波和混响，恢复出了估计目标语音时域信号，增强了麦克风拾取语音时域信号。

需要说明的是，本发明实施例首先在第一阶段(回波消除阶段神经网络)，利用基于掩蔽的方法，对与目标语音不相关的加性回波信号进行消除；对于剩余的与目标语音高度相关的混响干扰，在第二阶段(去混响阶段神经网络)使用基于“隐掩蔽”的谱映射方法对其进行去除。首先各自单独训练预置的级联网络中的回波消除阶段神经网络和去混响阶段神经网络，之后进行联合训练以提升两阶段的耦合度，从而获得更好的回波消除与去混响效果。

图3为本发明实施例提供的一种声学回波消除与去混响装置的结构示意图，该结构示意图包括：确定模块301；

确定模块301，用于根据麦克风拾取语音时域信号与远端说话人语音时域信号，确定麦克风拾取语音频域信号与远端说话人语音频域信号；

所述确定模块301，还用于根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络，确定估计掩蔽；

所述确定模块301，还用于根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络，确定隐掩蔽；

所述确定模块301，还用于根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位，确定估计目标语音时域信号。

在另一个可能的实现中，所述确定模块301，具体用于：

对每一帧信号进行加窗；

在另一个可能的实现中，所述确定模块301，还具体用于：

本发明实施例所述的一种声学回波消除与去混响装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

参照图4，所述电子设备，包括：处理器(processor)401、存储器(memory)402和总线403；

其中，

所述处理器401和存储器402通过所述总线403完成相互间的通信；

所述处理器401用于调用所述存储器402中的程序指令，以执行如下步骤：

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下步骤：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声学回波消除与去混响方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号，确定麦克风拾取语音频域信号与远端说话人语音频域信号，包括：

对每一帧信号进行加窗；

3.根据权利要求1所述的方法，其特征在于，所述根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及所述预置的级联网络中的回波消除阶段神经网络，确定估计掩蔽，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络，确定隐掩蔽，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位，确定估计目标语音时域信号，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽，确定估计目标语音频域信号的幅度谱，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述预置的级联网络通过以下步骤获取：

8.一种声学回波消除与去混响装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一所述的声学回波消除与去混响方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一所述的声学回波消除与去混响方法。