CN114827363A

CN114827363A - 用于通话过程中消除回声的方法、设备和可读存储介质

Info

Publication number: CN114827363A
Application number: CN202210388034.7A
Authority: CN
Inventors: 李平; 蒋升
Original assignee: Suirui Technology Group Co Ltd
Current assignee: Suirui Technology Group Co Ltd
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-07-29

Abstract

本发明公开了一种用于通话过程中消除回声的方法、设备和可读存储介质。该方法包括：对通话过程中的麦克风信号进行特征提取，以获得麦克风语音特征；对通话过程中的远端信号进行特征提取，以获得远端语音特征；基于所述麦克风语音特征和所述远端语音特征，预测所述麦克风信号中近端信号的比率掩码；以及根据所述比率掩码，确定所述麦克风信号中的近端信号，以根据所述近端信号消除回声。通过本发明的方案，可以将近端信号从麦克风信号中分离出来，以便实现对通话过程中回声信号的消除。

Description

用于通话过程中消除回声的方法、设备和可读存储介质

技术领域

本发明一般地涉及消除回声领域。更具体地，本发明涉及一种用于通话过程中消除回声的方法、设备和可读存储介质。

背景技术

当扬声器和麦克风在通信系统中耦合时，会使得麦克风拾取扬声器产生的语音信号及其混响，进而产生回声信号。若对产生的回声信号处理不当，则回声信号会与来自通信系统中近端的目标语音信号混合成为麦克风信号，并且可以传递至通信系统中远端的用户设备，使得远端用户在通话过程中听到自己的声音，这会极大地降低用户体验。

现有技术中用于消除回声信号的方式是使用回声消除器(AEC)来估计回声信号，然后从麦克风信号中减去这个估计的回声信号。然而，利用回声消除器估计回声信号的方法在双重通话(近端和远端扬声器都在通话)场景下、具有背景噪声场景下(特别是非平稳噪声)和非线性失真的场景下都会受到限制。鉴于此，亟需一种能够解决上述技术问题的消除回声信号的方法。

发明内容

为了至少解决上述背景技术中的一个或多个技术问题，本发明提出了一种用于通话过程中消除回声的方法、设备和可读存储介质。通过本发明的方案，可以根据比率掩码确定麦克风信号中的近端信号，以便根据近端信号消除回声信号。

在第一方面中，本发明公开了一种用于通话过程中消除回声的方法，该方法包括：对通话过程中的麦克风信号进行特征提取，以获得麦克风语音特征；对通话过程中的远端信号进行特征提取，以获得远端语音特征；基于所述麦克风语音特征和所述远端语音特征，预测所述麦克风信号中近端信号的比率掩码；以及根据所述比率掩码，确定所述麦克风信号中的近端信号，以根据所述近端信号消除回声。

在一个实施例中，对通话过程中的麦克风信号进行特征提取包括：对所述麦克风信号进行频谱分析，以获得所述麦克风信号的第一频谱特征；利用梅尔频域滤波器对第一频谱特征进行处理，以获得所述麦克风信号的第一梅尔频谱特征；对所述第一频谱特征中的频带进行倒谱分析，以获得所述麦克风信号的第一幅值特征；对所述第一梅尔频谱特征进行倒谱分析，以获得所述麦克风信号的第一倒谱特征；以及基于所述第一幅值特征和所述第一倒谱特征，确定所述麦克风语音特征。

在另一个实施例中，对通话过程中的远端信号进行特征提取包括：对所述远端信号进行频谱分析，以获得所述远端信号的第二频谱特征；利用梅尔频域滤波器对第二频谱特征进行处理，以获得所述远端信号的第二梅尔频谱特征；对所述第二频谱特征中的频带进行倒谱分析，以获得所述远端信号的第二幅值特征；对所述第二梅尔频谱特征进行倒谱分析，以获得所述远端信号的第二倒谱特征；以及基于所述第二幅值特征和所述第二倒谱特征，确定所述远端语音特征。

在又一个实施例中，在进行频谱分析之前，所述方法还包括：对待频谱分析的信号进行预处理，所述预处理包括预加重、分帧和加窗中的至少一项；和/或所述频谱分析包括短时傅里叶变换；和/或所述倒谱分析包括取对数或者逆变换。

在一个实施例中，预测所述麦克风信号中近端信号的比率掩码包括：基于所述麦克风语音特征和所述远端语音特征形成的拼接特征，利用基于深度神经网络的掩码预测模型进行预测。

在另一个实施例中，所述方法包括：基于所述拼接特征的维数，确定所述掩码预测模型中每个隐藏层包含的单元数。

在又一个实施例中，根据所述比率掩码确定近端信号包括：根据所述比率掩码和所述麦克风信号，确定所述近端信号的时频谱图；以及基于所述时频谱图，确定所述近端信号。

在一个实施例中，根据比率掩码和麦克风信号确定近端信号的时频谱图包括：根据所述麦克风信号的第一频谱特征与所述比率掩码，确定所述近端信号的幅度谱图；以及基于所述幅度谱图和所述麦克风信号的相位，确定所述时频谱图。

在另一个实施例中，基于所述时频谱图确定近端信号包括：对所述时频谱图进行短时傅里叶逆变换，以确定所述近端信号。

在第二方面中，本发明公开了一种用于通话过程中消除回声的设备，包括：处理器；存储器，其存储有用于通话过程中消除回声的程序指令，当所述程序指令由所述处理器执行时，实现上述的方法步骤。

在第三方面中，本发明公开了一种计算机可读存储介质，存储有一种用于通话过程中消除回声的程序指令，当所述程序指令由处理器执行时，实现上述的方法步骤。

通过利用本发明上述及其多个实施例中所描述的方法，本发明可以基于获得的麦克风语音特征和远端语音特征预测比率掩码，进而可以根据预测出的比率掩码将近端信号从麦克风信号分离出来，以实现回声信号的消除。通过利用比率掩码来实现近端信号的分离，可以使得本发明实施例的方法在双重通话、背景噪声以及非线性失真的情况下仍然可以进行回声信号的消除，即通用性较高。

在一些实施例中，可以基于麦克风语音特征和远端语音特征形成的拼接特征，利用基于深度神经网络的掩码预测模型进行预测比率掩码，通过使用基于深度神经网络模型的掩码预测模型可以使得本发明的实施例具有良好的语音分离和语音增强性能。同时，通过将提取的麦克风语音特征和远端语音特征进行拼接，可以获得更多维度的拼接特征，进而可以利用掩码预测模型根据该多维度的拼接特征预测更加接近理想值的比率掩码，使得从麦克风信号中分离出的近端信号不失真，以便于提高通话系统中消除回声的质量。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本发明实施例的用于通话过程中消除回声的方法流程图；

图2是示出根据本发明实施例的获得麦克风语音特征的方法流程图；

图3是示出根据本发明实施例的获得远端语音特征的方法流程图；

图4是示出根据本发明实施例的用于特征提取的方法流程图；

图5是示出根据本发明实施例的双向LSTM递归神经网络结构图；

图6是示出根据本发明实施例的根据比率掩码确定近端信号的方法流程图；

图7是示出根据本发明实施例的用于通话过程中消除回声的详细流程示意图；以及

图8是示出根据本发明实施例的用于通话过程中消除回声的系统示意框图。

具体实施方式

现在将参考附图描述实施例。应当理解，为了说明的简单和清楚，在认为合适的情况下，可以在附图中重复附图标记以指示对应或类似的元件。另外，本发明阐述了许多具体细节以便提供对本文所述实施例的透彻理解。然而，本领域普通技术人员将理解，可以在没有这些具体细节的情况下实践本文描述的实施例。在其他情况下，没有详细描述公知的方法、过程和组件，以免模糊本文描述的实施例。另外，该描述不应被视为限制本文描述的实施例的范围。

用于消除回声信号的AEC其最终目标是完全消除远端信号所产生的回声信号和背景噪声，以便能将近端信号发送到远端，其中远端是通话过程中通话两端距离AEC较远的一端，而近端信号是通话过程中通话两端距离AEC较近的一端所接受到的目标语音信号。

从语音分离的角度来看，消除回声信号可以被视为一个分离问题，其中近端信号是要与麦克风信号分离并发送到远端的源，以实现回声信号的消除。基于此，本发明提供了一种能够通过分离麦克风信号中的近端信号来实现回声信号消除的方法。下面将结合附图对本发明的方案进行详细的描述。

图1是示出根据本发明实施例的用于通话过程中消除回声的方法流程图。如图1中所示，方法100可以包括：在步骤S102处，可以对通话过程中的麦克风信号进行特征提取，以获得麦克风语音特征。在一个实施例中，通话双方或多方利用通讯设备进行远程通话时，可以利用通讯设备中的麦克风装置拾取由语音信号中的近端信号、回声信号以及噪声信号混合组成的麦克风信号。

在一些实施例中，可以通过使用例如特征提取模型来对通话过程中的麦克风信号进行特征提取。在另一些实施例中，可以通过例如语音信号谱图分析等技术进行特征提取。在一个实施例中，麦克风语音特征可以包括频谱特征、梅尔频谱特征、幅值特征以及倒谱特征等，其中频谱特征可以是频域下的信号特征，并且通过频域下的信号特征可以使得对麦克风信号的分析更加深刻和便捷。在另一个实施例中，梅尔频谱特征可以将频谱特征经过梅尔刻度转换后输入梅尔频域滤波器组而得到的特征。可以理解的是，梅尔频域滤波器是一种带通滤波器，其中每个滤波器具有三角形滤波器的特性，并且使用梅尔频域滤波器可以像人类的听觉感知系统一样，只关注某些特定的频率分量。

在另一个实施例中，幅值特征可以代表麦克风信号的共振峰点所连接的平滑曲线，其中共振峰表示语音信号的主要频率成分，进而可以根据共振峰来识别不同的声音。在一个实施例中，倒谱特征可以是Fbank特征，其中Fbank特征可以较大程度地表示声音信号的本质，并且可以拟合人耳的接收特性。同时，Fbank特征的特征相关性较高，进而可以使用Fbank特征来实现语音信号的分离。

接着，在步骤S104处，可以对通话过程中的远端信号进行特征提取，以获得远端语音特征。在一个实施例中，通话双方或多方利用通讯设备进行远程通话时，可以利用通讯设备中的扬声器输出远端信号，并且远端信号可以与室内冲击响应进行卷积操作生成回声信号。在一些实施例中，可以通过使用例如特征提取模型来对通话过程中的远端信号进行特征提取。在另一些实施例中，可以通过例如语音信号谱图分析等技术进行远端信号的特征提取。在又一个实施例中，也可以提取远端信号中的频谱特征、梅尔频谱特征、幅值特征以及倒谱特征等作为远端语音特征。

之后，在步骤S106处，可以基于麦克风语音特征和远端语音特征，来共同预测麦克风信号中近端信号的比率掩码。相比于仅基于麦克风语音特征和远端语音特征中的一个进行预测，通过本发明实施例的同时基于麦克风语音特征和远端语音特征进行预测可以使得预测的比率掩码更加接近于理想值，并且可以使得从麦克风信号中分离出来的近端信号减少失真现象的发生。在一个实施例中，预测的近端信号的比率掩码可以是一种概率值，而理想的比率掩码可以通过如下所示的公式来表示：

其中，IRM(t,c)表示比率掩码；Y²(t,c)表示频谱特征中t时刻，频率为c的频谱图中的近端能量；D²(t,c)表示频谱特征中t时刻，频率为c的频谱图中的回声能量；V²(t,c)表示频谱特征中t时刻，频率为c的频谱图中的背景噪声能量，并且上述公式一表示的是比率掩码的物理意义。

在一个实施例中，预测麦克风信号中近端信号的比率掩码可以包括基于麦克风语音特征和远端语音特征形成的拼接特征，利用基于深度神经网络的掩码预测模型进行预测。在一个实施例中，拼接特征可以是将麦克风语音特征和远端语音特征进行拼接而形成，其中拼接可以是通过将麦克风语音特征和远端语音特征的维数进行拼接，进而可以获得多维的拼接特征。进一步，多维的拼接特征可以包含更全面的特征，以便可以更精确地从麦克风信号中分离出近端信号。

在另一个实施例中，可以将多维的拼接特征输入基于深度神经网络的掩码预测模型，以便可以获得接近理想值的比率掩码。在一个实施例中，可以利用基于双向LSTM(LongShort-Term Memory，长短期记忆)递归神经网络的掩码预测模型进行预测比率掩码。关于双向LSTM递归神经网络稍后将结合图5进行详细描述。

返回到图1所示的流程中，在步骤S108处，可以根据比率掩码，确定麦克风信号中的近端信号，以根据近端信号消除回声。通过上述公式一可以看出，比率掩码可以反映近端信号与回声信号、噪声信号之间的关系，或者可以理解为近端信号与麦克风信号之间的关系，因此通过预测的比率掩码和麦克风信号，可以通过逆运算等方式还原近端信号，从而实现从麦克风信号中分离出近端信号的目的。

以上结合图1对根据本发明实施例的用于通话过程中消除回声的方法进行了示例性的描述，本领域技术人员可以理解的是，上面的描述是示例性的而非限制性地。例如步骤S102中获得麦克风语音特征和步骤S104中获得远端语音特征可以不限于图示中箭头所示的顺序执行，在另一个实施例中，步骤S102可以在步骤S104之后执行。在又一个实施例中，步骤S102可以与步骤S104同时执行。步骤S102和步骤S104的执行顺序可以根据需要进行设置。为了更进一步理解根据本发明实施例的获得麦克风语音特征的方法，下面将结合图2进行示例性的描述。

图2是示出根据本发明实施例的获得麦克风语音特征的方法流程图，通过下面的描述可知，图2中所示的方法200可以是前文中结合图1所描述的方法100中步骤S102的一个具体化表现形式，因此前文中关于方法100中步骤S102的描述也可以适用于下文对方法200的描述中。

如图2中所示，方法200可以包括：在步骤S202处，可以对麦克风信号进行频谱分析，以获得麦克风信号的第一频谱特征。在一个实施例中，在进行频谱分析之前，还可以包括对待频谱分析的信号进行预处理，通过进行预处理，可以使得待频谱分析的信号更均匀和平滑，进而可以为语音特征提取提供优质的参数，同时提高语音处理的质量。需要理解的是，待频谱分析的信号可以是任何需要进行频谱分析的信号。在本实施例中，待频谱分析的信号可以是麦克风信号。在另一个实施例中，待频谱分析的信号可以是远端信号。

在一个实施例中，预处理可以包括预加重操作，其中预加重可以用于平衡频谱，并且可以通过提升待频谱分析信号中高频部分的幅度来实现平衡频谱。在另一个实施例中，预处理可以包括分帧操作。具体地，为减少待频谱分析的信号整体的非稳态、时变的影响，可以对待频谱分析的信号进行分帧操作，通过分帧操作可以将待频谱分析的信号进行分段，其中每一段称为一帧。在一个实施例中，分帧可以采用交叠分段的方法，并且通过对待频谱分析的信号进行交叠分段处理，可以使得帧与帧之间平滑过渡，且保持其连续性。

在又一个实施例中，预处理还可以包括加窗操作。具体地，可以在待频谱分析的信号分割成帧后，对每一帧信号乘以一个窗函数，以增加各个帧左右两端的连续性。在一个实施例中，可以使用汉明窗作为窗函数，来实现对分帧后的待频谱分析的信号进行加窗操作。

在一个实施例中，频谱分析可以包括短时傅里叶变换。在一个实施例中，在对待频谱分析的信号(本实施例中是指麦克风信号)进行完预处理之后，可以对麦克风信号进行短时傅里叶变换，进而可以获得麦克风信号的第一频谱特征，其中第一频谱特征可以包括一个或多个频带。在一个实施例中，第一频谱特征可以包括129个频带。在一个实施例中，可以对麦克风信号的每个采样点进行短时傅里叶变换，其中采样点可以是基于麦克风信号的每一帧信号所进行的样点采集而获得。在一个实施例中，麦克风信号每一帧的采样点数可以为256个，进而可以对每帧的256个采样点进行短时傅里叶变换，其中对麦克风信号的采样点进行短时傅里叶变换的公式如下所示：

其中，STFT是短时傅里叶变换；Y(t,c)表示麦克风信号的第一频谱特征；y(n)为麦克风信号；w(n)为窗函数，其在时域上反转，具有N/2偏移量；m表示窗滑动的次数；N表示采样点数，n表示每个采样点。

返回到图2的流程中，在步骤S204处，可以利用梅尔频域滤波器对第一频谱特征进行处理，以获得麦克风信号的第一梅尔频谱特征。在一个实施例中，第一梅尔频谱特征可以是关于麦克风信号的具有特定频率的频带。可以理解的是，人的听觉系统在进行语音信号的提取上不仅可以提取出语义信息，还可以提取出说话人的个人特征，其中人的听觉系统是一种非线性系统，需要接收的是非线性频谱。因此，输入模仿人的听觉系统的语音识别系统的语音信号需要将其线性频谱转换为非线性频谱，其中梅尔频域滤波器的作用就是用于线性频谱和非线性频谱的转换。

在一个实施例中，将第一频谱特征的转换为第一梅尔频谱特征可以通过如下所示的公式进行转换：

其中，f是指第一频谱特征中的某个频带，Mel(f)表示f频带的第一梅尔频谱特征。在一个实施中，可以利用上述公式三的原理来构造梅尔频域滤波器组，以便可以实现利用梅尔频域滤波器将第一频谱特征转换为第一梅尔频谱特征。

接着，在步骤S206处，可以对第一频谱特征中的频带进行倒谱分析，以获得麦克风信号的第一幅值特征。在一个实施例中，第一幅值特征可以代表麦克风信号中共振峰点所连接的平滑曲线，其中共振峰表示麦克风信号的主要频率成分。在一个实施例中，倒谱分析可以包括取对数，其中取对数是为了实现同态信号处理，以便于去除卷积信道噪声。进一步，可以对第一频谱特征中的频带进行取对数，以获得第一幅值特征，其中第一幅值特征可以根据获得的第一频谱特征中的频带数确定维度数。作为举例，根据第一频谱特征中129个频带可以获得129维的第一幅值特征。

之后，在步骤S208处，可以对第一梅尔频谱特征进行倒谱分析，以获得麦克风信号的第一倒谱特征。在一个实施例中，可以对第一梅尔频谱特征进行取对数，以便可以获得Fbank特征，其中Fbank特征可以较大程度地表示声音信号的本质。在一个实施例中，获得的Fbank特征可以为40维。在另一个实施例中，可以对第一梅尔频谱特征进行逆变换，并且可以通过利用离散余弦变换对经由取对数操作后的第一梅尔频谱特征进行逆变换，以便可以获得梅尔频率倒谱系数，进而可以将梅尔频率倒谱系数作为第一倒谱特征。

进一步，在步骤S210处，可以基于第一幅值特征和第一倒谱特征，确定麦克风语音特征。在一个实施例中，可以基于麦克风信号中由共振峰点连接形成的平滑曲线和Fbank特征，来确定麦克风语音特征。在另一个实施例中，可以将第一幅值特征和第一倒谱特征拼接在一起，以获得麦克风语音特征。在另一个实施例中，可以将第一幅值特征和第一倒谱特征的维数拼接在一起，以获得多维的麦克风语音特征。作为举例，麦克风语音特征中的第一幅值特征的维数可以为129维，第一倒谱特征的维数可以为40维，经过拼接操作，可以获得129+40＝169维的麦克风语音特征。

以上结合图2对根据本发明实施例的获得麦克风语音特征的方法进行了详细描述，下面将结合图3对根据本发明实施例的获得远端语音特征的方法进行示例性的描述。

图3是示出根据本发明实施例的获得远端语音特征的方法流程图。如图3中所示，方法300可以包括：在步骤S302处，可以对远端信号进行频谱分析，以获得远端信号的第二频谱特征。在一个实施例中，在进行频谱分析之前，还可以包括对待频谱分析的信号(本实施例中是指远端信号)进行预处理，其中预处理可以包括预加重、分帧和加窗中的至少一项。在上述的对获取麦克风语音特征的描述中，已经对预加重、分帧和加窗进行了详细的描述，此处不再赘述。

在一个实施例中，可以对远端信号进行短时傅里叶变换，以获得频域下的远端信号，即第二频谱特征，其中第二频谱特征可以包括一个或多个频带。在一个实施例中，第二频谱特征可以包括129个频带。在一个实施例中，可以对远端信号中每帧的采样点进行短时傅里叶变换，其中每帧的采样点数可以为256个。在另一个实施例中，对采样点进行短时傅里叶变换的公式如下所示：

其中，STFT是短时傅里叶变换；X(t,c)表示远端信号的第二频谱特征；x(n)为远端信号；w(n)为窗函数，其在时域上反转，具有N/2偏移量；m表示窗滑动的次数；N表示采样点数，例如可以为256个，n表示第n个采样点。

接着，在步骤S304处，可以利用梅尔频域滤波器对第二频谱特征进行处理，以获得远端信号的第二梅尔频谱特征。在一个实施例中，第二梅尔频谱特征可以是关于远端信号的具有特定频率的频带。需要理解的是，步骤S304中的梅尔频域滤波器与上述步骤S204中描述的梅尔频域滤波器可以相同，此处不再赘述。

之后，流程可以前进到步骤S306处。在步骤S306处，可以对第二频谱特征中的频带进行倒谱分析，以获得远端信号的第二幅值特征。在一个实施例中，第二幅值特征可以代表远端信号的共振峰点所连接的平滑曲线。步骤S306中的倒谱分析与上述步骤S206中的操作可以相同，此处不再赘述。在一个实施例中，获得的第二幅值特征的维度可以为129维。

在执行完上述步骤S306后，流程前进到步骤S308。在步骤S308处，可以对第二梅尔频谱特征进行倒谱分析，以获得远端信号的第二倒谱特征。在一个实施例中，第二倒谱特征可以为Fbank特征。在另一个实施例中，Fbank特征可以为40维。在又一个实施例中，第二倒谱特征可以为梅尔频率倒谱系数。

接着，在步骤S310处，可以基于第二幅值特征和第二倒谱特征，确定远端语音特征。在一个实施例中，可以将第二幅值特征和第二倒谱特征拼接在一起以获得多维的远端语音特征。作为举例，远端语音特征中的幅值特征的维数也可以为129，倒谱特征也可以为40维，经过拼接操作，可以获得129+40＝169维的远端语音特征。在一个实施例中，可以基于远端信号中由共振峰点连接形成的平滑曲线和关于远端信号的Fbank特征，来确定远端语音特征。

为了进一步理解本文上述获得麦克风语音特征和远端语音特征的方法，下文将结合图4对获得麦克风语音特征和远端语音特征的方法进行示例性地描述。

图4是示出根据本发明实施例的用于特征提取的方法流程图。如图4中所示，方法400可以包括：在步骤S402处，可以输入语音信号，其中语音信号可以是麦克风信号或远端信号。接着，在步骤S404处，可以对输入的语音信号进行分帧加窗，以便可以获得稳态的、且具有周期性的信号。在一个实施例中，可以对具有16kHz采样率的语音信号进行分帧，其中帧长可以为16ms，帧移可以为8ms。之后，在步骤S406处，可以对经由分帧加窗处理后的语音信号进行短时傅里叶变换，以获得频域下的语音信号。在一个实施例中，可以对语音信号中每一帧的256个采样点进行短时傅里叶变换。

在执行完步骤S406后，流程可以前进到步骤S408。在步骤S408处，可以得到129个频带。同时，流程也可以前进到步骤S410。在步骤S410处，可以利用梅尔频域滤波器对频域下的语音信号进行处理，以便可以实现线性频谱和非线性频谱的转换，以获得梅尔频谱特征。接着，在步骤S412处，可以进行取对数操作。具体地，可以对步骤S408中的129个频带进行取对数操作，以获得幅值特征；还可以对步骤S410中的梅尔频谱特征进行取对数操作，以获得Fbank特征，进而可以将获得的幅值特征和Fbank特征进行拼接，以作为语音信号的特征。之后，在步骤S414处，可以将拼接后的特征输入双向LSTM递归神经网络中。

图5是示出根据本发明实施例的双向LSTM递归神经网络结构图。如图5中所示，双向LSTM递归神经网络可以包括输入层、隐藏层和输出层，其中输出层是全连接层。在一个实施例中，可以使用sigmoid函数作为输出层的激活函数，其中Sigmoid函数表达式如下所示：

其中，x表示从双向LSTM递归神经网络中的输出层输出的值；active_function(x)表示满足取值范围[0，1]的值(即比率掩码)。

进一步，双向LSTM网络框架内部可以由两个单向LSTM上下叠加在一起组成，其中一个可以处理前向方向的信号，并且可以将左边作为序列的起始输入，称为前向LSTM，其中前向LSTM在时刻t+1可以通过如下所示的公式进行表示：

其中，x_t+1为信号t+1时刻的输入；

为前向LSTM在t+1时刻的隐藏状态输出结果。而另一个处理后向方向的信号，并且将右边作为序列的起始输入，称为后向LSTM，其中后向LSTM在时刻t+1可以通过如下所示的公式进行表示：

其中

为后向LSTM在t+1时刻的隐藏状态输出结果。进一步，可以将

和

连接在一起作为LSTM在时刻t+1的隐藏层状态的输出结果y_t+1。通过上述对网络结构的布置，可以使得该网络构成了一个无环图，进而可以使得网络的输出是同时考虑了前后的因素得到的，因此更具有鲁棒性。

在一个实施例中，可以对双向LSTM递归神经网络进行训练，以获得掩码预测模型。在一个实施例中，可以利用获得的麦克风信号样本和远端信号样本训练双向LSTM递归神经网络，并且可以对每次训练样本数进行设置，例如设置为30个。在一个实施例中，可以将均方误差作为训练的代价函数，进而可以通过代价函数来决定是否继续训练双向LSTM递归神经网络，其中均方误差可以通过如下所示的公式进行表示：

其中，m为每次训练的样本数，yⁱ为预测的比率掩码，

为理想的比率掩码。在一个实施例中，可以通过Adam优化算法来调整训练过程双向LSTM递归神经网络的参数，直至双向LSTM递归神经网络的学习率达到预定值，其中Adam优化算法计算高效，所需的内存少且适合解决大规模数据和参数优化问题。在一个实施例中，预定值可以设置为0.0005。

在一个实施例中，可以基于拼接特征的维数，确定掩码预测模型中每个隐藏层包含的单元数。在一些实施例中，可以将每个隐藏层包含的单元数设置为与拼接特征的维数接近，且小于拼接特征的维数的数量。例如，在另一个实施例中，拼接特征的维数为338维，可以确定掩码预测模型中每个隐藏层包含的单元数为300，其中掩码预测模型的隐藏层可以为5个。根据上述对单元数的设置，可以在保证掩码预测模型能够最大程度的接收拼接特征的前提下，使得掩码预测模型的运行速度最快。

图6是示出根据本发明实施例的根据比率掩码确定近端信号的方法流程图。如图6中所示，方法600可以包括：在步骤S602处，可以根据比率掩码和麦克风信号，确定近端信号的时频谱图。可以理解的是，时频谱图是显示声音中各频率成分如何随时间变化的图。在一个实施例中，根据比率掩码和麦克风信号确定近端信号的时频谱图可以包括根据麦克风信号的第一频谱特征与比率掩码确定近端信号的幅度谱图；以及基于幅度谱图和麦克风信号的相位，确定时频谱图。

在一个实施例中，可以将麦克风信号转换为频域信号，以获得麦克风信号的第一频谱特征。在另一个实施例中，将麦克风信号转换到频域上之后，对信号进行取相位角操作即可获取麦克风信号的相位。在一个实施例中，根据麦克风信号的第一频谱特征与比率掩码确定近端信号的幅度谱图可以通过将比率掩码与麦克风信号的第一频谱特征逐点相乘，以得到近端信号的幅度谱图，表达式如下所示：

S_a(t,n)＝IRM(t,c)*Y(t,c) (公式九)

其中，t表示时间；n表示采样点；c表示频率；S_a(t,n)表示得到近端信号的幅值谱图；IRM(t,c)是经由掩码预测模型预测出来的比率掩码；Y(t,c)表示麦克风信号的第一频谱特征。

在一个实施例中，基于幅度谱图和麦克风信号的相位，确定时频谱图可以从麦克风信号的相位和由公式一得到的近端信号的幅度谱图中重新合成近端信号的时频谱图，表达式如下所示：

S(t,n)＝S_a(t,n)*Y_p(t,n)(公式十)

其中，S(t,n)是恢复出来的近端信号的时频谱图；Y_p(t,n)是麦克风信号的相位；S_a(t,n)对应的是近端信号的幅度谱图。

接着，在步骤S604处，可以基于时频谱图，确定近端信号。在一个实施例中，基于时频谱图确定近端信号可以包括对近端信号的时频谱图进行短时傅里叶逆变换，以确定近端信号，表达式如下所示：

其中，s(n)是经过短时傅里叶逆变换重构后的近端信号；S(t,n)是恢复的近端信号的时频谱图。

图7是示出根据本发明实施例的用于通话过程中消除回声的详细流程示意图。如图7中所示，方法700可以包括：在步骤S702处，可以对输入的麦克风信号和远端信号提取特征，以便可以基于麦克风语音特征和远端语音特征形成拼接特征，其中拼接特征的维数可以为(129+40)x2＝338维，其中(129+40)可以表示麦克风语音特征或远端语音特征的维度，(129+40)x2可以表示麦克风语音特征和远端语音特征拼接后的维度。

接着，在步骤S704，可以将拼接特征作为输入特征输入基于双向LSTM递归神经网络的掩码预测模型，以用于进行预测比率掩码。具体地，可以在输入层接收338维的拼接特征，并且可以依次经过5个隐藏层进行处理，最后可以从输出层输出比率掩码。之后，在步骤S706处，可以接收掩码预测模型预测的比率掩码，并且流程可以前进到步骤S708处。在步骤S708处，可以根据获得的比率掩码将麦克风信号中近端信号分离出来，进而可以得到近端信号的时频谱图。进一步，可以将近端信号的时频谱图恢复至时域下的近端信号，以便于后续的信号处理。

上面结合图1-图7对根据本发明实施例的方法及多个实施例进行了描述，可以理解的是，本发明实施例的方法基于麦克风语音特征和远端语音特征共同预测麦克风信号中近端信号的比率掩码，相比于单独利用麦克风信号或远端信号进行预测比率掩码，可以使得从麦克风信号分离出来的近端信号更加准确，且不易失真，以便于更好地消除通话过程中的回声信号。进一步，在本发明的一些实施例中，可以通过将麦克风语音特征和远端语音特征进行拼接来获得多维的拼接特征，以便可以根据多维的拼接特征来预测更加接近理想值的比率掩码，且可以使得本发明实施例中预测的比率掩码更接近理想值，且预测方式更加便捷。进一步地，通过基于深度神经网络的掩码预测模型预测比率掩码，可以使得本发明在双重通话、背景噪声以及非线性失真的情况仍然可以适用。

在本发明的第二方面中，提供了一种用于通话过程中消除回声的设备，包括：处理器；存储器，其存储有用于通话过程中消除回声的程序指令，当程序指令由处理器执行时，实现上述的方法步骤。下面将结合图8进行示例性的描述。

图8是示出根据本发明实施例的用于通话过程中消除回声的系统示意框图。该系统800可以包括用于通话过程中消除回声的设备801以及其外围设备和外部网络，以实现前述结合图1-图7所描述的根据本发明实施例的利用巡检机器进行数据自动采集的方法。

如图8中所示，用于通话过程中消除回声的设备801可以包括CPU8011，其可以是通用CPU、专用CPU或者其他信息处理以及程序运行的执行单元。进一步，用于通话过程中消除回声的设备801还可以包括大容量存储器8012和只读存储器ROM 8013，其中大容量存储器8012可以配置用于存储各类数据。在本发明实施例中，可以包括麦克风语音特征、远端语音特征、比率掩码和/或本发明实施例中使用到的相关数据等。另外，ROM 8013可以配置成用于通话过程中消除回声的设备801中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统所需的数据。

进一步，系统800还可以包括其他的硬件平台或组件，例如示出的张量处理单元(TPU)8014、图像处理单元(GPU)8015、现场可编程门阵列(FPGA)8016和机器学习单元(MLU)8017。可以理解的是，尽管在系统800中示出了多种硬件平台或组件，但这里仅仅是示例性的而非限制性的，本领域技术人员可以根据实际需要增加或移除相应的硬件。

用于通话过程中消除回声的设备801还包括通信接口8018，从而可以通过该通信接口8018连接到局域网/无线局域网(LAN/WLAN)805，进而可以通过LAN/WLAN连接到本地服务器806或连接到因特网(“Internet”)805。替代地或附加地，本发明实施例的用于通话过程中消除回声的设备801还可以通过通信接口8018基于无线通信技术直接连接到因特网或蜂窝网络，例如基于第三代(“3G”)、第四代(“4G”)或第五代(“5G”)的无线通信技术。在一些应用场景中，用于通话过程中消除回声的设备801还可以根据需要访问外部网络的服务器808以及可能的数据库809，以便获得各种已知可以例如本发明的双向LSTM递归神经网络模型，并且可以远程地存储经由公式计算出的各种数据。

用于通话过程中消除回声的设备801的外围设备可以包括显示装置802、输入装置803以及数据传输接口804。在一个实施例中，显示装置802可以例如包括一个或多个扬声器和/或一个或多个视觉显示器，其配置用于对本发明测试设备的运算过程或者最终结果进行语音提示和/或图像视频显示。输入装置803可以包括例如键盘、鼠标、麦克风、姿势捕捉相机，或其他输入按钮或控件，其配置用于接收检测通话状态的输入或用户指令。数据传输接口804可以包括例如串行接口、并行接口或通用串行总线接口(“USB”)、小型计算机系统接口(“SCSI”)、串行ATA、火线(“FireWire”)、PCI Express和高清多媒体接口(“HDMI”)等，其配置用于与其他设备或系统的数据传输和交互。根据本发明的方案，该数据传输接口804可以接收麦克风信号和/或远端信号。本发明的用于通话过程中消除回声的设备801的CPU8011、大容量存储器8012、只读存储器ROM 8013、TPU 8014、GPU 8015、FPGA 8016、MLU 8017和通信接口8018可以通过总线8019相互连接，并且通过该总线与外围设备实现数据交互。在一个实施例中，通过该总线8019，CPU 8011可以控制用于通话过程中消除回声的设备801中的其他硬件组件及其外围设备。

还应当理解，本发明示例的执行指令的任何模块、单元、组件、服务器、计算机、终端或设备可以包括或以其他方式访问计算机可读介质，诸如存储介质、计算机存储介质或数据存储设备(可移除的)和/或不可移动的)例如磁盘、光盘或磁带。计算机存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性，可移动和不可移动介质，例如计算机可读指令、数据结构、程序模块或其他数据。

本发明还公开了一种计算机可读存储介质，其中存储有程序指令，程序指令适于由处理器加载并执行：对通话过程中的麦克风信号进行特征提取，以获得麦克风语音特征；对通话过程中的远端信号进行特征提取，以获得远端语音特征；基于麦克风语音特征和远端语音特征，预测麦克风信号中近端信号的比率掩码；以及根据比率掩码，确定麦克风信号中的近端信号，以根据近端信号消除回声。基于此，当本发明的方案以软件产品(计算机可读存储介质)的形式体现时，该软件产品可以存储在存储器中，其可以包括若干指令用以使得计算机设备(例如个人计算机、服务器或者网络设备等)执行本发明实施例所述方法的部分或全部步骤。前述的存储器可以包括但不限于U盘、闪存盘、只读存储器ROM、随机存取存储器(“Random Access Memory”，简写为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

应当理解，本发明披露的权利要求、说明书及附图中的可能术语“第一”或“第二”等是用于区别不同对象，而不是用于描述特定顺序。本发明披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本发明披露。如在本发明披露说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本发明披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

虽然本发明的实施方式如上，但所述内容只是为便于理解本发明而采用的实施例，并非用以限定本发明的范围和应用场景。任何本发明所述技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种用于通话过程中消除回声的方法，其特征在于，包括：

对通话过程中的麦克风信号进行特征提取，以获得麦克风语音特征；

对通话过程中的远端信号进行特征提取，以获得远端语音特征；

基于所述麦克风语音特征和所述远端语音特征，预测所述麦克风信号中近端信号的比率掩码；以及

根据所述比率掩码，确定所述麦克风信号中的近端信号，以根据所述近端信号消除回声。

2.根据权利要求1所述的方法，其特征在于，对通话过程中的麦克风信号进行特征提取包括：

对所述麦克风信号进行频谱分析，以获得所述麦克风信号的第一频谱特征；

利用梅尔频域滤波器对第一频谱特征进行处理，以获得所述麦克风信号的第一梅尔频谱特征；

对所述第一频谱特征中的频带进行倒谱分析，以获得所述麦克风信号的第一幅值特征；

对所述第一梅尔频谱特征进行倒谱分析，以获得所述麦克风信号的第一倒谱特征；以及

基于所述第一幅值特征和所述第一倒谱特征，确定所述麦克风语音特征。

3.根据权利要求1所述的方法，其特征在于，对通话过程中的远端信号进行特征提取包括：

对所述远端信号进行频谱分析，以获得所述远端信号的第二频谱特征；

利用梅尔频域滤波器对第二频谱特征进行处理，以获得所述远端信号的第二梅尔频谱特征；

对所述第二频谱特征中的频带进行倒谱分析，以获得所述远端信号的第二幅值特征；

对所述第二梅尔频谱特征进行倒谱分析，以获得所述远端信号的第二倒谱特征；以及

基于所述第二幅值特征和所述第二倒谱特征，确定所述远端语音特征。

4.根据权利要求2或3所述的方法，其特征在于，在进行频谱分析之前，所述方法还包括：对待频谱分析的信号进行预处理，所述预处理包括预加重、分帧和加窗中的至少一项；和/或

所述频谱分析包括短时傅里叶变换；和/或

所述倒谱分析包括取对数或者逆变换。

5.根据权利要求1所述的方法，其中预测所述麦克风信号中近端信号的比率掩码包括：

基于所述麦克风语音特征和所述远端语音特征形成的拼接特征，利用基于深度神经网络的掩码预测模型进行预测。

6.根据权利要求5所述的方法，其特征在于，还包括：

基于所述拼接特征的维数，确定所述掩码预测模型中每个隐藏层包含的单元数。

7.根据权利要求1所述的方法，其特征在于，根据所述比率掩码确定近端信号包括：

根据所述比率掩码和所述麦克风信号，确定所述近端信号的时频谱图；以及

基于所述时频谱图，确定所述近端信号。

8.根据权利要求7所述的方法，其特征在于，根据比率掩码和麦克风信号确定近端信号的时频谱图包括：

根据所述麦克风信号的第一频谱特征与所述比率掩码，确定所述近端信号的幅度谱图；以及

基于所述幅度谱图和所述麦克风信号的相位，确定所述时频谱图；和/或

基于所述时频谱图确定近端信号包括：

对所述时频谱图进行短时傅里叶逆变换，以确定所述近端信号。

9.一种用于通话过程中消除回声的设备，其特征在于，包括：

处理器；

存储器，其存储有用于通话过程中消除回声的程序指令，当所述程序指令由所述处理器执行时，实现根据权利要求1-8的任意一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，存储有用于通话过程中消除回声的程序指令，当所述程序指令由处理器执行时，实现根据权利要求1-8的任意一项所述的方法。