CN116612778A

CN116612778A - 回声及噪声抑制方法、相关装置和介质

Info

Publication number: CN116612778A
Application number: CN202310882138.8A
Authority: CN
Inventors: 周健全; 高毅; 陈静聪; 罗程; 李斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-08-18
Anticipated expiration: 2043-07-18
Also published as: CN116612778B

Abstract

本公开提供了一种回声及噪声抑制方法、相关装置和介质。该回声及噪声抑制方法包括：获取来自第二终端的第一音频信号，第一语音基于第一音频信号生成；获取第一终端收集的第二音频信号；对第一音频信号进行线性滤波得到第三音频信号，线性滤波模拟第一语音到达话筒的线性衰减；用第三音频信号抵减第二音频信号得到抵减了线性衰减的回声的第四音频信号；基于第一音频信号、第二音频信号、和第三音频信号中的至少一个、以及第四音频信号，利用回声及噪声抑制神经网络，得到抑制了回声的非线性部分和噪声的抑制后音频信号。本公开实施例提高了语音通信中的噪声和回声抑制效果，从而提高了语音通话质量。本公开实施例可应用于多终端语音通话等场景。

Description

回声及噪声抑制方法、相关装置和介质

技术领域

本公开涉及语音通信领域，特别是涉及一种回声及噪声抑制方法、相关装置和介质。

背景技术

目前的语音通信，已经发展到超清语音通信阶段。相对于一般语音信号的8kHz带宽，超清语音信号的带宽为16kHz、24kHz等。提升语音带宽的同时，语音处理的复杂度提高，处理开销变大。且超清语音通信中的回声和噪声消除一直是业界难点。回声是指近端将从远端接收到的远端人声信号播放后，播放的远端人声信号又重新进入近端话筒，形成与收集的近端人声信号的混杂。

目前的超清语音通信中，采取线性滤波器过滤掉回声的线性部分，用后滤波电路过滤掉回声的非线性部分，再用额外的噪声抑制电路进行噪声抑制。这种方法对于非平稳的噪声和回声抑制效果不理想。

发明内容

本公开实施例提供了一种回声及噪声抑制方法、相关装置和介质，它能够提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

根据本公开的一方面，提供了一种回声及噪声抑制方法，所述回声及噪声抑制方法用于抑制与第二终端通信的第一终端处的回声和噪声，所述回声由来自所述第二终端的第一语音在所述第一终端播放后重新进入所述第一终端的话筒引起，所述回声及噪声抑制方法包括：

获取来自所述第二终端的第一音频信号，其中，所述第一语音基于所述第一音频信号生成；

获取所述第一终端的话筒处收集的第二音频信号；

对所述第一音频信号进行线性滤波，得到第三音频信号，其中，所述线性滤波模拟所述第一语音到达所述话筒的线性衰减；

用所述第三音频信号抵减所述第二音频信号，得到抵减了所述线性衰减的所述回声的第四音频信号；

基于所述第一音频信号、所述第二音频信号、和所述第三音频信号中的至少一个、以及所述第四音频信号，利用回声及噪声抑制神经网络，得到抑制了所述回声的非线性部分和所述噪声的抑制后音频信号。

根据本公开的一方面，提供了一种回声及噪声抑制装置，所述回声及噪声抑制装置位于与第二终端通信的第一终端中，用于抑制第一终端处的回声和噪声，所述回声由来自所述第二终端的第一语音在所述第一终端播放后重新进入所述第一终端引起，所述回声及噪声抑制装置包括：

话筒，用于收集所述第一终端处的第二音频信号；

线性滤波器，用于对来自所述第二终端的第一音频信号进行线性滤波，得到第三音频信号，其中，所述第一语音基于所述第一音频信号生成，所述线性滤波模拟所述第一语音到达所述话筒的线性衰减；

减法器，用于用所述第三音频信号抵减所述第二音频信号，得到抵减了所述线性衰减的所述回声的第四音频信号；

回声及噪声抑制神经网络，用于基于所述第一音频信号、所述第二音频信号、和所述第三音频信号中的至少一个、以及所述第四音频信号，生成抑制了所述回声的非线性部分和所述噪声的抑制后音频信号。

可选地，回声及噪声抑制神经网络包括：

频域转换器，用于将第一音频信号、第二音频信号、第三音频信号、以及第四音频信号进行频域转换，得到第一频谱信号、第二频谱信号、第三频谱信号、以及第四频谱信号，其中，第一频谱信号、第二频谱信号、第三频谱信号、以及第四频谱信号各自具有第一数目个频点；

回声及噪声抑制神经模型，用于基于第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号，得到第一数目个频点各自的第一频点增益；

乘法器，用于基于第四频谱信号中的每个频点的第一频点值、和与频点对应的第一频点增益，确定每个频点的第一调整后频点值，以得到第四调整后频谱信号；

时域转换器，用于将第四调整后频谱信号进行时域转换，得到抑制后音频信号。

可选地，回声及噪声抑制神经网络还包括：特征提取器，用于针对第一频谱信号、第二频谱信号、第三频谱信号、和第四频谱信号中的每个频谱信号，基于频谱信号中各频点的第一频点值，确定语音特征向量；

所述回声及噪声抑制神经模型具体用于：基于第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量，得到第一数目个频点各自的第一频点增益。

可选地，语音特征向量中的特征包括：巴克频率倒数系数、巴克频率倒数系数的一阶和二阶差分、基因相关度、基因周期和基因平稳度；

特征提取器具体用于：

基于每帧的频谱信号中各频点的第一频点值，确定该帧的各个心理声学频带的巴克频率倒数系数；

对前预定数目个心理声学频带的巴克频率倒数系数，求一阶差分和二阶差分；

基于前预定数目个心理声学频带中的各频点的第一频点值，确定前预定数目个心理声学频带的基因相关度；

基于频谱信号中各频点的第一频点值，确定帧内的基因周期；

基于频谱信号中各频点的第一频点值，确定帧内的基因平稳度。

可选地，回声及噪声抑制神经模型具体用于：

将第一数目个频点划分成多个频点组，每个频点组包括一个或多个相邻的频点；

基于第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量，得到多个频点组各自的第一频点组增益，并将频点组的第一频点组增益作为频点组中每个频点的第一频点增益。

可选地，回声及噪声抑制神经模型包括顺序连接的输入层、多个隐藏层、以及第一输出层，其中，输入层的节点数与语音特征向量中的特征数相同，第一输出层的节点数与频点组的数目相同，隐藏层的数目、以及每个隐藏层的节点数通过以下方式确定：

获取回声及噪声抑制神经网络的训练样本数；

获取第一终端的计算资源量；

基于训练样本数和计算资源量，确定隐藏层的数目、以及每个隐藏层的节点数的乘积；

将乘积分解成隐藏层的数目、以及每个隐藏层的节点数。

可选地，输入层为第一全连接层，隐藏层为循环神经网络层，第一输出层为串联的第二全连接层和指数归一化函数；

回声及噪声抑制神经模型具体用于：

将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量输入第一全连接层，第一全连接层的各节点的输出输入到第一个循环神经网络层的各节点；

将每个循环神经网络层的各节点的输出输入到下一个循环神经网络层的各节点，将最后一个循环神经网络层的各节点的输出输入到第二全连接层的各节点，由指数归一化函数得到多个频点组各自的第一频点组增益。

可选地，基于训练样本数和计算资源量，确定隐藏层的数目、以及每个隐藏层的节点数的乘积，包括：

基于训练样本数，确定第一分数；

基于计算资源量，确定第二分数；

基于第一分数和第二分数，确定总分数；

基于总分数，确定乘积。

可选地，将乘积分解成隐藏层的数目、以及每个隐藏层的节点数，包括：

获取每个隐藏层的节点数与隐藏层的数目的倍数因子；

通过将乘积除以倍数因子后开平方，确定隐藏层的数目；

基于倍数因子、和隐藏层的数目，确定每个隐藏层的节点数。

可选地，回声及噪声抑制神经模型具体用于：

在第一频谱信号、第二频谱信号、第三频谱信号和第四频谱信号中，选取目标频谱信号；

在多个隐藏层中，选择目标频谱信号对应的目标隐藏层；

在将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量输入输入层的同时，将目标频谱信号输入目标隐藏层，得到多个频点组各自的第一频点组增益。

可选地，回声及噪声抑制神经模型具体用于：

获取第一频谱信号与第二频谱信号之间的第一频谱差信号、第一频谱信号与第三频谱信号之间的第二频谱差信号、和第一频谱信号与第四频谱信号之间的第三频谱差信号；

基于第一频谱差信号、第二频谱差信号、和第三频谱差信号，选取目标频谱信号。

可选地，回声及噪声抑制神经模型具体用于：

如果第一频谱差信号的各频点的频点值的绝对值之和大于预定阈值，将第二频谱信号作为目标频谱信号；

如果第二频谱差信号的各频点的频点值的绝对值之和大于预定阈值，将第三频谱信号作为目标频谱信号；

如果第三频谱差信号的各频点的频点值的绝对值之和大于预定阈值，将第四频谱信号作为目标频谱信号；

如果第一频谱差信号的各频点的频点值的绝对值之和、第二频谱差信号的各频点的频点值的绝对值之和、以及第三频谱差信号的各频点的频点值的绝对值之和都不大于预定阈值，将第一频谱信号作为目标频谱信号。

可选地，回声及噪声抑制神经模型具体用于：

获取和与目标隐藏层的对照表；

在第一频谱差信号、第二频谱差信号、或第三频谱差信号的各频点的频点值的绝对值之和大于预定阈值的情况下，基于和，参照对照表，确定目标隐藏层。

可选地，回声及噪声抑制神经模型还包括在多个隐藏层中第一个隐藏层之后引出的第二输出层，用于基于每个帧中的第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号，输出第一标志，第一标志表示帧是否是语音帧；

回声及噪声抑制神经模型具体用于通过以下方式训练：

获取训练样本集，训练样本集中的训练样本的每个帧中包括第一样本频谱信号、第二样本频谱信号、第三样本频谱信号、和第四样本频谱信号，并具有帧的频点组增益标签；

将第一样本频谱信号、第二样本频谱信号、和第三样本频谱信号中的至少一个、以及第四样本频谱信号的语音特征向量输入回声及噪声抑制神经模型，由第一输出层输出帧中多个频点组各自的第一样本频点组增益，由第二输出层输出帧的第一标志；

基于各个帧的第一样本频点组增益、各个帧的第一标志、和各个帧的频点组增益标签，生成第一损失函数，用于训练回声及噪声抑制神经模型。

可选地，回声及噪声抑制神经模型还包括在多个隐藏层中第一个隐藏层之后引出的第三输出层，用于输出多个频点组各自的第二频点组增益；

回声及噪声抑制神经模型具体用于通过以下方式训练：

获取训练样本集，训练样本集中的训练样本包括第一样本频谱信号、第二样本频谱信号、第三样本频谱信号、和第四样本频谱信号，并具有频点组增益标签；

将第一样本频谱信号、第二样本频谱信号、和第三样本频谱信号中的至少一个、以及第四样本频谱信号的语音特征向量输入回声及噪声抑制神经模型，由第一输出层输出多个频点组各自的第一样本频点组增益，由第三输出层输出多个频点组各自的第二样本频点组增益；

基于第一样本频点组增益、第二样本频点组增益、和频点组增益标签，生成第二损失函数，用于训练回声及噪声抑制神经模型。

可选地，第一数目通过以下方式确定：

获取第一终端的环境视频；

从环境视频，获取环境干扰等级；

获取目标语音清晰度；

基于环境干扰等级、和目标语音清晰度，确定第一数目。

可选地，频域转换器具体用于：

基于第一数目，确定频域采样的采样点数；

基于采样点数，对第一音频信号、第二音频信号、第三音频信号、以及第四音频信号进行采样，以进行频域转换。

可选地，回声及噪声抑制装置还包括：信号分解器，用于将来自第二终端的音频信号分解为第一音频信号和第五音频信号，第一音频信号具有第一频段，第五音频信号具有第二频段，第一频段的频率小于第二频段的频率；

频域转换器还用于：将第五音频信号进行频域转换，得到第五频谱信号；

乘法器还用于：基于第四频谱信号中各个频点对应的第一频点增益，确定第五频谱信号中各个频点对应的第二频点增益；基于第五频谱信号中的每个频点的第二频点值、和与频点对应的第二频点增益，确定每个频点的第二调整后频点值，以得到第五调整后频谱信号；

频谱信号整合器，用于将第四调整后频谱信号、和第五调整后频谱信号整合，得到整合后信号；

时域转换器具体用于对整合后信号进行时域转换，得到抑制后音频信号。

可选地，第五音频信号包括第一音频子信号和第二音频子信号，第一音频子信号具有属于第二频段的第一子频段，第二音频子信号具有属于第二频段的第二子频段，第一子频段的频率小于第二子频段的频率；

乘法器具体用于：

将第四频谱信号中各个频点对应的第一频点增益的均值，作为第一子频段中各个频点对应的第二频点增益；

将第四频谱信号中各个频点对应的第一频点增益的最小值，作为第二子频段中各个频点对应的第二频点增益。

根据本公开的一方面，提供了一种电子设备，包括如上所述的回声及噪声抑制装置。

根据本公开的一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被第一终端执行时，基于第一音频信号、第二音频信号、和第三音频信号中的至少一个、以及第四音频信号，利用回声及噪声抑制神经网络，生成所述第二音频信号抑制了回声的非线性部分和噪声后的抑制后音频信号，所述回声由来自第二终端的第一语音在所述第一终端播放后重新进入所述第一终端引起，所述第二终端与所述第一终端通信，所述第一终端包括：

话筒，用于收集所述第一终端处的所述第二音频信号；

线性滤波器，用于对来自所述第二终端的所述第一音频信号进行线性滤波，得到所述第三音频信号，其中，所述第一语音基于所述第一音频信号生成，所述线性滤波模拟所述第一语音到达所述话筒的线性衰减；

减法器，用于用所述第三音频信号抵减所述第二音频信号，得到抵减了所述线性衰减的所述回声的所述第四音频信号。

根据本公开的一方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，所述计算机程序被第一终端的处理器读取并执行，使得该第一终端基于第一音频信号、第二音频信号、和第三音频信号中的至少一个、以及第四音频信号，利用回声及噪声抑制神经网络，生成所述第二音频信号抑制了回声的非线性部分和噪声后的抑制后音频信号，所述回声由来自第二终端的第一语音在所述第一终端播放后重新进入所述第一终端引起，所述第二终端与所述第一终端通信，所述第一终端包括：

话筒，用于收集所述第一终端处的所述第二音频信号；

本公开实施例未采用后滤波电路和噪声抑制电路，而是利用回声及噪声抑制神经网络连接在线性滤波器的后面，达到对线性滤波器未能滤除的回声的非线性部分和噪声进行一次性去除的效果。回声及噪声抑制神经网络能够通过机器学习滤除非平稳的噪声和回声，提高了噪声和回声的抑制效果，且降低处理开销。另外，回声及噪声抑制神经网络输入的是代表远端人声的第一音频信号、近端话筒收集的第二音频信号、和对远端人声进行线性滤波以模拟远端人声播放后到达话筒的衰减的第三音频信号中的至少一个、以及表示近端话筒收集的声音信号中抵减线性滤波后的衰减回声形成的第四音频信号。第一音频信号、第二音频信号、和第三音频信号是产生待抑制噪声的第四音频信号的过程中用到的各种信号，把多种信号同时输入到回声及噪声抑制神经网络，有利于回声及噪声抑制神经网络发现线性滤波、近端声音收集、以及环境噪声中的各种异常，与单一输入相比，能够更好地抑制非线性回声和噪声，提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

本公开的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本公开技术方案的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开的技术方案，并不构成对本公开技术方案的限制。

图1是根据本公开的实施例的回声及噪声抑制方法应用的体系架构图；

图2是根据本公开的实施例的回声及噪声抑制方法应用于一对一双对象语音通话场景下的示意图；

图3是根据本公开的一个实施例的回声及噪声抑制方法的流程图；

图4是根据本公开的实施例的回声及噪声抑制方法的一个整体电路图；

图5A是根据本公开的一个实施例的第一音频信号的波形示意图；

图5B是根据本公开的一个实施例的第一音频信号到达话筒时衰减后的回声信号的波形示意图；

图5C是根据本公开的一个实施例的噪声信号的波形示意图；

图5D是根据本公开的一个实施例的近端人声信号的波形示意图；

图5E是根据本公开的一个实施例的第二音频信号的波形示意图；

图5F是根据本公开的一个实施例的第三音频信号的波形示意图；

图5G是根据本公开的一个实施例的第四音频信号的波形示意图；

图5H是根据本公开的一个实施例的抑制后音频信号的波形示意图；

图6示出了图3的步骤350的一种具体流程图；

图7是根据本公开的一个实施例结合频域转换和时域转换的波形示意图；

图8示出了图6的步骤610的确定第一数目的一种具体流程图；

图9示出了图6的步骤610的一种具体流程图；

图10示出了图6的步骤620的一种具体流程图；

图11示出了图10的步骤1020的一种具体流程图；

图12A是根据本公开的一个实施例的频点组划分的频谱示意图；

图12B是根据本公开的一个实施例的各个频点组中各个频点的第一频点增益的频谱示意图；

图12C示出了根据图12B的各个频点组中各个频点的第一频点增益对图12A的频点组划分后的各个频点增益后的频谱示意图；

图13是根据本公开的一个实施例的回声及噪声抑制神经网络的节点结构示意图；

图14是根据本公开的一个实施例的回声及噪声抑制神经网络的模型结构示意图；

图15示出了本公开的一个实施例的回声及噪声抑制神经网络确定隐藏层的数目、以及每个隐藏层的节点数的一种具体流程图；

图16示出了本公开的一个实施例的确定隐藏层的数目、以及每个隐藏层的节点数的乘积的一种具体流程图；

图17示出了图11的步骤1120的一种具体流程图；

图18是根据本公开的一个实施例的回声及噪声抑制神经网络的第一种模型结构示意图；

图19示出了图17的步骤1710的一种具体流程图；

图20是根据本公开的一个实施例的三种频谱差信号的频谱示意图；

图21示出了图17的步骤1720的一种具体流程图；

图22A是根据本公开的一个实施例的回声及噪声抑制神经网络的第二种模型结构示意图；

图22B是根据本公开的一个实施例的回声及噪声抑制神经网络的第三种模型结构示意图；

图23是根据本公开的一个实施例的训练回声及噪声抑制神经网络的第一种具体流程图；

图24是根据本公开的一个实施例的回声及噪声抑制神经网络的第四种模型结构示意图；

图25是根据本公开的一个实施例的训练回声及噪声抑制神经网络的第二种具体流程图；

图26A示出了图3的步骤310的一种具体流程图；

图26B示出了图6的步骤640的一种具体流程图；

图27A是根据本公开的一个实施例的音频信号的频带分解的波形示意图；

图27B是根据本公开的一个实施例对音频信号频带分解后的第五音频信号进行频谱调整的波形示意图；

图28是根据本公开的一个实施例对第五频谱信号的不同子频段采用不同增益进行频谱调整的波形示意图；

图29是根据本公开的实施例图2所示的回声及噪声抑制方法的第一终端或第二终端的结构图；

图30是根据本公开的实施例的回声及噪声抑制方法的服务器结构图。

具体实施方式

为了使本公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本公开，并不用于限定本公开。

对本公开实施例进行进一步详细说明之前，对本公开实施例中涉及的名词和术语进行说明，本公开实施例中涉及的名词和术语适用于如下的解释：

人工智能：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得目标结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、数字人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

超清语音：是指语音的清晰度达到了非常高的水平，听起来非常清晰、自然、真实。与传统的语音相比，超清语音能够更准确地还原人声的细节和音质，使得听者能够更好地理解和感受语音内容。超清语音技术在通信、语音识别、语音合成等领域有着广泛的应用，能够提升用户体验和交流效果。在语音通信系统中，例如蜂窝通讯或者基于互联网的基于IP的语音传输（Voice over Internet Protocol，VoIP）通讯，语音的音频信号已经逐步提升到10kHz以上带宽的超清信号，能够有效提升通话的语音保真度。

语音保真度：是指语音的音频信号在传输或处理过程中保持原始声音的真实度和清晰度的程度。它是衡量语音质量的重要指标之一。

音频信号：是指由声音产生的一种电信号。它是通过将声音的振动转换为电信号，从而可以被电子设备接收、处理和播放。音频信号可以分为模拟音频信号和数字音频信号两种类型。模拟音频信号是一种连续的电压信号，它直接反映了声音的振动波形。模拟音频信号的幅值表示声音的强度，频率表示声音的音调，相位表示声音的相对位置。模拟音频信号可以通过麦克风等设备采集，并通过放大器、混音器等设备进行处理和放大，最终通过扬声器等设备输出为声音。

带宽：是指在一定的时间内，信号传输或数据传输的能力或速率。它通常用于描述信号或数据传输的频率范围或传输速度。在信号传输中，带宽表示信号能够传输的频率范围。对于模拟音频信号，带宽是指信号的频率范围，通常以赫兹（Hz）为单位。例如，一个声音信号的带宽为20Hz到20kHz，表示它可以传输从20Hz到20kHz的声音频率范围。带宽越宽，信号中包含的频率范围越广，可以传输更多的信息。

本公开实施例应用的系统体系构架及场景说明

图1是根据本公开的实施例的回声及噪声抑制方法所应用的系统构架图。它包括第一终端110、第二终端120等。

第二终端（远端）120是用来将收集的远端人声的第一音频信号传输到与第二终端120通信的第一终端110的设备。它包括桌面电脑、膝上型电脑、PDA（个人数字助理）、手机、车载终端、家庭影院终端、专用终端等多种形式。第二终端120中包括远端话筒121和远端扬声器122。远端话筒121是用来收集远端人声的第一音频信号的器件。远端扬声器122是用来播放第二终端120接收到的音频信号的器件。

第一终端（近端）110是用来将收集的近端人声的第二音频信号传输到与第一终端110通信的第二终端120的设备。它包括桌面电脑、膝上型电脑、PDA（个人数字助理）、手机、车载终端、家庭影院终端、专用终端等多种形式。第一终端110中包括近端扬声器111、近端话筒112、和回声及噪声抑制装置113。近端话筒112是用来收集近端人声的第二音频信号的器件。近端扬声器111是用来播放第一终端110接收到的音频信号的器件。回声及噪声抑制装置113是用于消除近端话筒112接收到的音频信号中远端人声的回声、以及近端的噪声的装置。远端人声的回声是指近端接收到的远端人声信号播放后，播放的远端人声信号又重新进入近端话筒121的声音。它对收集的近端人声信号造成干扰。近端的噪声是指近端环境干扰和空气啸动形成的声音。

为了更好地抑制从近端接收到的远端人声信号播放后，播放的远端人声信号又重新进入近端话筒111，形成与收集的近端人声信号混杂后的回声和环境噪声，回声及噪声抑制装置113基于代表远端人声的第一音频信号、近端收集的第二音频信号、和对第一音频信号进行线性滤波以模拟远端人声播放后到达近端话筒111的衰减的第三音频信号中的至少一个，以及表示近端话筒111收集的声音信号中抵减线性滤波后的衰减回声形成的第四音频信号，进行回声及噪声抑制，传输到与第二终端120通信的第一终端110的设备。

本公开实施例可以应用在多种场景下，例如图2所示的在一对一双对象语音通话的场景等。

双对象语音通话是指两个对象之间通过语音的音频信号进行实时的沟通和交流的通信方式。在双对象语音通话中，每个对象使用自己终端的话筒将声音转换为对应的音频信号，然后通过自己的终端将对应的音频信号传输到对方。对方接收到音频信号后，通过扬声器或耳机将信号转换回声音，实现双方的实时交流。

图2示出了近端对象130通过第一终端110与远端对象140的第二终端120进行实时交流的应用场景图。当远端对象140在第二终端120通过远端话筒121发出语音，如“今天去哪里玩呀”，远端话筒121将收集的语音转换为第一音频信号。第一终端110接收到第二终端120发送的第一音频信号后，通过第一终端的近端话筒112播放第一音频信号对应的语音。近端扬声器111播放第一音频信号的语音后，第一音频信号在第一终端110所在的环境中将经过信号衰减重新进入近端话筒112。近端对象130在第一终端110通过近端话筒112发出回复语音，如“今天去游乐场吧”，则近端话筒112将收集的回复语音转换为近端人声信号。由于第一终端110所在的环境还包括很多的环境噪声，近端话筒112在进行语音收集时也会收集到噪声信号。另外，近端接收到的远端人声的第一音频信号播放后，播放的第一音频信号衰减后又重新进入近端话筒112，形成与收集的近端人声信号混杂后的回声。近端话筒112最终收集的第二音频信号为经过信号衰减重新进入近端话筒112的回声信号、噪声信号、近端人声信号的混杂。近端话筒112收集的第二音频信号经过回声及噪声抑制后，得到抑制了回声和噪声的抑制后音频信号，并将该抑制后音频信号传输到第二终端120的远端扬声器122进行播放。

因此，超清语音通信中，对非平稳的回声和噪声的有效抑制是十分重要的。本公开实施例能够更好地抑制非线性回声和噪声，提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

本公开实施例的总体说明

根据本公开的一个实施例，提供了一种回声及噪声抑制方法。

回声及噪声抑制方法是指抑制由来自第二终端120的第一语音在第一终端播放后重新进入第一终端110的近端话筒111引起的回声，以及外部环境的噪声的过程。本公开实施例的回声及噪声抑制方法能够通过机器学习滤除非平稳的噪声和回声，提高噪声和回声的抑制效果，且降低处理开销。另外，本公开实施例的回声及噪声抑制方法用于把多种信号同时输入到回声及噪声抑制神经网络，有利于回声及噪声抑制神经网络发现线性滤波、近端声音收集、以及环境噪声中的各种异常，与单一输入相比，能够更好地抑制非线性回声和噪声，提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

本公开实施例的回声及噪声抑制方法可以由第一终端110的回声及噪声抑制装置113执行。虽然图1和图2中示出，回声及噪声抑制装置113在第一终端110中，但本领域技术人员应当理解，回声及噪声抑制装置113也可以作为单独的服务器实现，即回声及噪声抑制服务器。

如图3所示，根据本公开的一个实施例，回声及噪声抑制方法包括：

步骤310、获取来自第二终端的第一音频信号，其中，第一语音基于第一音频信号生成；

步骤320、获取第一终端的话筒处收集的第二音频信号；

步骤330、对第一音频信号进行线性滤波，得到第三音频信号，其中，线性滤波模拟第一语音到达话筒的线性衰减；

步骤340、用第三音频信号抵减第二音频信号，得到抵减了线性衰减的回声的第四音频信号；

步骤350、基于第一音频信号、第二音频信号、和第三音频信号中的至少一个、以及第四音频信号，利用回声及噪声抑制神经网络，得到抑制了回声的非线性部分和噪声的抑制后音频信号。

首先，结合图4对上述步骤310-350进行整体描述，图4所示的是本公开实施例的回声及噪声抑制方法的整体电路图。

在步骤310中，获取来自第二终端的第一音频信号，其中，第一语音基于第一音频信号生成。本公开实施例的回声及噪声抑制方法用于抑制与第二终端通信的第一终端处的回声和噪声，该回声由来自第二终端的第一语音在第一终端播放后重新进入第一终端的话筒引起。这里的第一语音的语音内容和第一音频信号对应的语音内容相同。

第一终端110是指当前需要进行回声及噪声抑制的近端设备。第二终端120是指与第一终端110进行语音通信的远端设备。在第一终端110和第二终端120进行语音通信的过程中，第一终端110接收到第二终端传输的第一音频信号。

第一音频信号是指通过第二终端120的远端话筒121将收集的语音转换为的、可以被电子设备接收、处理和播放的电信号。远端对象140是指能够发出语音的人或机器人。图5A示出了第一音频信号的信号波形示意图。在时域中，音频信号的信号波形图的横坐标为语音时间，纵坐标为信号的变化，即振幅。第一音频信号是由非线性部分和线性部分组成的非平稳信号。

例如，第一音频信号的时间和振幅变化过程可以如下公式1所示：

（公式1）。

在公式1中，表示语音时间点，单位为毫秒，/>表示第一音频信号对应语音时间点的振幅，单位为分贝，/>表示线性偏移参数，/>表示第一音频信号的线性部分的振幅，/>表示非线性振幅系数，/>表示圆周率，/>表示第一音频信号的非线性部分的振幅。例如，/>的数值为3，/>的数值为3，当语音时间点/>毫秒时，第一音频信号的振幅为/>=4分贝。

第一语音是指第一终端110基于第一音频信号可以转换的真实声音，它可以体现为随时间变化幅度不断变化的语音波形。

在步骤320中，获取第一终端的话筒处收集的第二音频信号。这里的第一终端的话筒为上述的近端话筒111。

在第一终端110和第二终端120进行语音通信的过程中，第一终端110先接收到第二终端传输的第一音频信号。然后，第一终端110的近端扬声器112将该第一音频信号对应的第一语音进行播放，同时，近端扬声器112播放出的声音会通过空气传播进入近端话筒111中。然而，第一音频信号在根据空气中的回声路径传播到近端话筒111的过程中会发生信号衰减，则第一终端的近端话筒会收集到衰减后的回声信号。图5B示出了第一音频信号到达近端话筒111时衰减后的回声信号的波形示意图。

例如，衰减后的回声信号的时间和振幅变化过程可以如下公式2所示：

（公式2）。

在公式2中，表示衰减后的回声信号对应语音时间点的振幅，单位为分贝，/>表示衰减后的回声信号的非线性振幅系数，/>表示衰减后的回声信号的线性部分的振幅，且/>的数值小于/>。例如，/>的数值为0.5，当语音时间点/>毫秒时，衰减后的回声信号的振幅为/>分贝。

功率谱密度是指能够反映音频信号随机振动的功率关于频率的分布密度。当音频信号在一段时间内的幅值变化是均匀的，该音频信号对应的功率密度近似为一个常数。图5C示出了第一终端110周围环境的噪声信号波形示意图。由于在一段时间内，第一终端110周围环境的噪声信号通常是稳定的，则第一终端110周围环境的噪声信号的功率谱密度近似为一个常数。例如，噪声信号可以为功率谱密度为瓦特/赫兹的白噪声等，且/>为大于0的任一数值。白噪声是指功率谱密度在整个频域内是常数的噪声。

近端人声信号是指通过近端话筒111将近端对象130说出的语音转换为可以被电子设备接收、处理和播放的电信号。图5D示出了近端话筒111收集的近端人声信号的波形示意图。近端人声信号为非平稳的音频信号。

例如，近端人声信号的时间和振幅变化过程可以如下公式3所示：

（公式3）。

在公式3中，表示近端人声信号对应语音时间点的振幅，单位为分贝，/>表示近端人声信号的非线性振幅系数，/>表示近端人声信号的振幅。例如，/>的数值为3，当语音时间点/>毫秒时，近端人声信号的振幅为/>分贝。

近端对象130在近端话筒111收录到的语音包括3个部分：近端用户说的语音、近端噪声、第一音频信号在近端播出后又收录到近端话筒111形成的回声。因此，第二音频信号是指通过近端话筒111收集的第一音频信号经过衰减后的回声信号、第一终端110周围环境的噪声信号、近端对象130的近端人声信号的混杂信号，且该混杂信号是可以被电子设备接收、处理和播放的电信号。图5E示出了第二音频信号的波形示意图。当第一音频信号经过衰减后的回声信号的波形图如图5B所示、第一终端110周围环境的噪声信号如图5C所示、近端对象130的近端人声信号如图5D所示，第二音频信号的时间和振幅变化过程可以如下公式4所示：

（公式4）。

在公式4中，表示噪声信号对应语音时间点的振幅，/>表示第二音频信号对应语音时间点的振幅，单位为分贝，/>表示第二音频信号的非线性振幅系数，且/>。例如，/>的数值为0.5，/>的数值为4，噪声信号的振幅/>的数值为2，当语音时间点/>毫秒时，第二音频信号对应的振幅为/>分贝。

在步骤330中，对第一音频信号进行线性滤波，得到第三音频信号，其中，线性滤波模拟第一语音到达话筒的线性衰减。由于第一音频信号包括线性部分和非线性部分，第一音频信号通过近端扬声器112在第一终端110的环境中播放时，会产生线性衰减和非线性衰减，则近端话筒111再次收集的是第一音频信号经过线性衰减和非线性衰减后的回声信号。

第三音频信号是指模拟第一音频信号经过线性衰减后进入近端话筒111，且可以被电子设备接收、处理和播放的电信号。音频信号的线性衰减是指在传输过程中，音频信号的幅度随着距离的增加而线性减小。图5F示出了第三音频信号的信号波形示意图。在时域中，当第一音频信号经过线性衰减后的线性部分全部衰减，这时的第三音频信号是由非线性部分构成的非平稳信号。

例如，第三音频信号的时间和振幅变化过程可以如下公式5所示：

（公式5）。

在公式5中，表示语音时间点，单位为毫秒，/>表示第三音频信号对应语音时间点的振幅，单位为分贝。例如，/>的数值为4，当语音时间点/>毫秒时，第三音频信号的振幅为/>分贝。

在步骤340中，第三音频信号抵减第二音频信号，得到抵减了线性衰减的回声的第四音频信号。在得到第一音频信号经过线性衰减后的第三信号后，为了使进入近端话筒111的回声信号不会被传回到第二终端120，让远端对象140又听到自己的声音，减法器会将对应时间点的第二音频信号和第三音频信号的幅值相减。这时的第四音频信号包括第一终端110周围环境的噪声信号和衰减后的回声信号的非线性部分。

第四音频信号是指消除了第二音频信号中经过衰减后的回声信号的线性部分后，剩余的可以被电子设备接收、处理和播放的电信号。图5G示出了第四音频信号的信号波形示意图。在时域中，当第四音频信号经过线性衰减后的线性部分全部衰减，这时的第四音频信号是第一终端110周围环境的噪声信号、近端对象130的近端人声信号、以及衰减后的回声信号的非线性部分构成的非平稳信号。

例如，第四音频信号的时间和振幅变化过程可以如下公式6所示：

（公式6）。

在公式6中，表示语音时间点，单位为毫秒，/>表示第四音频信号对应语音时间点的振幅，单位为分贝，/>表示第四音频信号的非线性振幅系数，且/>。例如，/>的数值为4，/>的数值为5，噪声信号的振幅/>的数值为2，当语音时间点/>毫秒时，第四音频信号的振幅为/>分贝。

在步骤350中，基于第一音频信号、第二音频信号、和第三音频信号中的至少一个、以及第四音频信号，利用回声及噪声抑制神经网络，得到抑制了回声的非线性部分和噪声的抑制后音频信号。由于第一音频信号经过衰减后的回声信号还包括非线性部分，本公开实施例利用回声及噪声抑制神经网络，能够将第一终端中的第一音频信号经过衰减后的回声信号、第一终端110周围环境的噪声信号进行有效抑制，得到抑制了回声的非线性部分和噪声的抑制后音频信号。

抑制后音频信号是指抑制了第四音频信号中回声的非线性部分和噪声，且可以被电子设备接收、处理和播放的电信号。图5H示出了抑制后音频信号的波形示意图。这时的抑制后噪声信号与近端人声信号相同。抑制后音频信号的时间和振幅变化过程与上述公式3相同，为节约篇幅，不再赘述。

上述步骤310-350中，本公开实施例未采用后滤波电路和噪声抑制电路，而是利用回声及噪声抑制神经网络连接在线性滤波器的后面，达到对线性滤波器未能滤除的回声的非线性部分和噪声进行一次性去除的效果。回声及噪声抑制神经网络能够通过机器学习滤除非平稳的噪声和回声，提高了噪声和回声的抑制效果，且降低处理开销。另外，回声及噪声抑制神经网络输入的是代表远端人声的第一音频信号、近端话筒收集的第二音频信号、和对远端人声进行线性滤波以模拟远端人声播放后到达话筒的衰减的第三音频信号中的至少一个、以及表示近端话筒收集的声音信号中抵减线性滤波后的衰减回声形成的第四音频信号。第一音频信号、第二音频信号、和第三音频信号是产生待抑制噪声的第四音频信号的过程中用到的各种信号，把多种信号同时输入到回声及噪声抑制神经网络，有利于回声及噪声抑制神经网络发现线性滤波、近端声音收集、以及环境噪声中的各种异常，与单一输入相比，能够更好地抑制非线性回声和噪声，提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

由于上面的过程已对步骤310-340作出了比较清晰的描述，下面单独对上述步骤350进行详细描述。

步骤350的详细描述

在一个实施例中，利用回声及噪声抑制神经网络对线性滤波器未能滤除的回声的非线性部分和噪声进行去除时，第一音频信号、第二音频信号、和第三音频信号中的至少一个、以及第四音频信号可以直接输入到回声及噪声抑制神经网络。本公开实施例把多种信号同时直接输入到回声及噪声抑制神经网络，有利于回声及噪声抑制神经网络发现线性滤波、近端声音收集、以及环境噪声中的各种异常，与单一输入相比，能够更好地抑制非线性回声和噪声，提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

在另一个实施例中，利用回声及噪声抑制神经网络对线性滤波器未能滤除的回声的非线性部分和噪声进行去除时，频域转换器可以将第一音频信号、第二音频信号、和第三音频信号、以及第四音频信号从时域转换到频域，得到第一频谱信号、第二频谱信号、第三频谱信号、以及第四频谱信号。该实施例得到的第一频谱信号、第二频谱信号、第三频谱信号、以及第四频谱信号各自具有第一数目个频点。然后，在频域的处理过程中，基于第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号，利用回声及噪声抑制神经网络，得到第一数目个频点各自的第一频点增益。之后，基于第四频谱信号中的每个频点的第一频点值、和与频点对应的第一频点增益，确定每个频点的第一调整后频点值，以得到第四调整后频谱信号。最后，为了重新变换回原来的时域中，时域转换器将第四调整后频谱信号进行时域转换，得到抑制后音频信号。

频域转换是指将信号从时域转换到频域进行处理和变换的操作。频域转换可以将信号表示为频谱分布，从而更直观地展示信号的频率成分和能量分布。同时，本公开实施例通过结合频域转换可以有效提高语音通信中的噪声和回声抑制的效率。

该实施例中，如图6所示，基于第一音频信号、第二音频信号、和第三音频信号中的至少一个、以及第四音频信号，利用回声及噪声抑制神经网络，得到抑制了回声的非线性部分和噪声的抑制后音频信号，包括：

步骤610，将第一音频信号、第二音频信号、第三音频信号、以及第四音频信号进行频域转换，得到第一频谱信号、第二频谱信号、第三频谱信号、以及第四频谱信号，其中，第一频谱信号、第二频谱信号、第三频谱信号、以及第四频谱信号各自具有第一数目个频点；

步骤620，基于第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号，利用回声及噪声抑制神经网络，得到第一数目个频点各自的第一频点增益；

步骤630，基于第四频谱信号中的每个频点的第一频点值、和与频点对应的第一频点增益，确定每个频点的第一调整后频点值，以得到第四调整后频谱信号；

步骤640，将第四调整后频谱信号进行时域转换，得到抑制后音频信号。

下面结合图7对步骤610-640进行展开描述，图7示出了本公开实施例的音频信号在时域和频域转换过程的波形示意图。

在步骤610中，第一频谱信号可以表示第一音频信号经过频域转换器生成的频域成分和能量的分布情况。例如，第一音频信号的信号波形变化如上公式1所示，第一音频信号经过频域转换后的频点数目为12，则第一频谱信号中根据每个频点从小到大的排序得到对应的频点值依次为：15，18，17，16，15，11，7，6，5，4，5，20。在频谱信号对应的信号波形图中，每个频点对应于一个特定的频率。例如，第一频谱信号对应的频率范围是0-8千赫兹，则第一频谱信号中的这些频点可以是信号的基频、谐波或其他频率成分。这些频点的位置和幅度可以用于分析信号的频率特性、频率成分的强度等。

第一数目是指频谱信号中包含的频点的数目。本公开实施例中第一频谱信号、第二频谱信号、第三频谱信号、以及第四频谱信号所包含的频点的数量相同。例如，频谱信号中的频点数可以为129、257等。

第二频谱信号可以表示第二音频信号经过频域转换器生成的频域成分和能量的分布情况。例如，第二音频信号的信号波形变化如上公式4所示，第二音频信号经过频域转换后的频点数目为12，则第二频谱信号中根据每个频点从小到大的排序得到对应的频点值依次为：22，30，29，27，24，22，20，12，10，8，18，25。

第三频谱信号可以表示第三音频信号经过频域转换器生成的频域成分和能量的分布情况。例如，第三音频信号的信号波形变化如上公式5所示，第三音频信号经过频域转换后的频点数目为12，则第三频谱信号中根据每个频点从小到大的排序得到对应的频点值依次为：4，6，7，6，4，0，-4，-6，-7，-6，-4，0。

第四频谱信号可以表示第四音频信号经过频域转换器生成的频域成分和能量的分布情况。例如，第四音频信号的信号波形变化如上公式6所示，第四音频信号经过频域转换后的频点数目为12，则第四频谱信号中每个频点对应的频点值为第二频谱信号中每个频点对应的频点值减去第三频谱信号中根据每个频点从小到大的排序得到对应的频点值依次为：18，24，22，21，20，22，24，18，17，14，22，25。

在一个实施例中，如图8所示，第一数目通过以下方式确定：

步骤810，获取第一终端的环境视频；

步骤820，从环境视频，获取环境干扰等级；

步骤830，获取目标语音清晰度；

步骤840，基于环境干扰等级、和目标语音清晰度，确定第一数目。

在步骤810中，第一终端的环境视频是指以第一终端位于的特定环境或场景为主题进行环绕拍摄采集的视频内容。

在步骤820中，环境干扰等级是指对环境视频中的环境情况进行噪声判断后得到的判断结果。环境视频进行环境干扰等级的判断时，将环境视频输入一个预先训练好的环境干扰等级判断模型，输出该环境视频对应的环境干扰等级。该环境干扰等级判断模型为一个具有学习能力的机器学习模型或神经网络模型，为节约篇幅，不再赘述。本公开实施例可以将环境干扰等级划分为1级、2级、3级等，环境干扰等级的数值越大，它对应的环境越嘈杂。环境视频中的环境越嘈杂，则需要采集更多样本点，以形成更多的频点，提高了回声及噪声抑制神经网络的抗干扰能力。

在步骤830中，目标语音清晰度是指音频信号中的语音部分能够被清晰地听到和理解的程度。本公开实施例可以将目标语音清晰度划分为1级、2级、3级等，目标语音清晰度的数值越大，它对应的可以被清晰地听到和理解的程度越低。如果要求的目标语音清晰度越高，则需要采集更多样本点，以形成更多的频点，以使最后利用回声及噪声抑制神经网络得到的语音更清晰。

在步骤840中，基于环境干扰等级、和目标语音清晰度，确定第一数目，可以通过基于环境干扰等级确定第一分数，基于目标语音清晰度确定第二分数，基于第一分数和第二分数确定总分数，再根据总分数确定第一数目的方式。

基于环境干扰等级确定第一分数可以通过第一对照表。表1所示的是一个第一对照表的例子。

表1

基于上例，环境干扰等级为1级，查找表1，得到对应的第一分数为40；环境干扰等级为3级，查找表1得到对应的第一分数为80。

基于目标语音清晰度确定第二分数可以通过第二对照表。表2所示的是一个第二对照表的例子。

表2

基于上例，目标语音清晰度为1级，查找表2，得到对应的第二分数为100；目标语音清晰度为3级，查找表2，得到对应的第二分数为80。

在一个实施例中，使用第一分数与第二分数的平均数的方式确定总分数。例如，根据环境干扰等级确定的第一分数为90，根据目标语音清晰度确定的第二分数为100，那么总分数为（90+100）/2=95。利用平均数的方式计算总分数的优点是，使得环境干扰等级和目标语音清晰度对于计算第一数目的影响是相同的，提高了确定第一数目的公平性。

在另一个实施例中，使用第一分数与第二分数的加权平均数的方式计算总分数。在本实施例中，首先需要为环境干扰等级对应的第一分数和目标语音清晰度对应的第二分数分别设置权重。例如，第一分数的权重为0.6，第二分数的权重为0.4，第一分数为90，第二分数为100，那么总分数为90*0.6+100*0.4=94。利用加权平均数的方式计算总分数的优点是，可以根据实际应用的需要灵活地为环境干扰等级对应的第一分数和目标语音清晰度对应的第二分数设置不同的权重，提高了确定第一数目的灵活性。

根据总分数确定第一数目，总分数越高，代表需要采集更多样本点，以形成更多的频点，第一数目越高。

在一个实施例中，可以通过总分数与对应设置的第一数目之间的第三对照表确定第一数目。表3所示的是一个第三对照表的例子。

表3

基于上例，总分数为84，查找表3，得到对应的第一数目为257；总分数为78，查找表3，得到对应的第一数目为129。

步骤810-840的实施例的优点在于，基于环境干扰等级和目标语音清晰度确定第一数目，可根据实际应用的需要调整环境干扰等级和目标语音清晰度对应的分数，从而调整第一数目，提高了确定第一数目的灵活性。

在一个实施例中，如图9所示，将第一音频信号、第二音频信号、第三音频信号、以及第四音频信号进行频域转换，包括：

步骤910，基于第一数目，确定频域采样的采样点数；

步骤920，基于采样点数，对第一音频信号、第二音频信号、第三音频信号、以及第四音频信号进行采样，以进行频域转换。

在步骤910中，频域采样的采样点数是指在频域上对频谱信号进行采样时采样点的数量。频域采样是指将时域信号转换为频域信号的过程。频域采样方法包括傅里叶变换、快速傅里叶变换、频域滤波等中的任一种。第一数目越大，频域采样的采样点数越大，则可以提供更高的频率分辨率，从而可以更好地捕捉到信号的频域细节。

对象语音是对象通过话筒说出的一种时间变化的连续信号，由一系列声音波形组成。为了对对象语音进行分析和处理，需要将连续的对象语音划分为离散的语音的帧。语音的帧是指在时间上相邻的一段短时音频信号，通常采用固定长度的时间窗口来进行分割。本公开实施例中第一音频信号、第二音频信号、第三音频信号、以及第四音频信号都是其中一帧语音的音频信号。在进行频域采样时，频域采样的采样点数是根据频点数进行确定。例如，对每一帧语音对应的音频信号的N个频域采样点采用傅里叶变换的方式进行频域转换时，每一帧的音频信号对应的频谱信号X(k)包括N/2+1个频点。已知频点数为第一数目，第一数目即为K。当K为129，频域采样的采样点数N=2×K-1=256；当K为257，频域采样的采样点数N=2×K-1=512。

在步骤920中，第一音频信号、第二音频信号、第三音频信号、以及第四音频信号的采样点数都相同，对每个音频信号在每个频域采样点的信号进行频域转换。当每个音频信号在每个频域采样点的信号频域转换完成后，根据对应频点转换后的频点值得到每个音频信号的频谱信号。

步骤910-920的实施例的优点在于，根据灵活确定的第一数目可以提高确定频域采样的采样点数的灵活性。

在步骤620中，基于第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号，利用回声及噪声抑制神经网络，得到第一数目个频点各自的第一频点增益。这时的第一频谱信号、第二频谱信号、和第三频谱信号是产生待抑制噪声的第四频谱信号的过程中用到的各种信号，把多种信号同时输入到回声及噪声抑制神经网络，有利于回声及噪声抑制神经网络发现线性滤波、近端声音收集、以及环境噪声中的各种异常。

频点增益是指在音频信号处理中，可以对频率信号中特定频率范围内对应频点的信号进行增益或衰减的参数。本公开实施例通过调整频点增益，可以改变频点对应的音频信号的频率响应，达到增强或削弱特定频谱信号的效果。回声及噪声抑制神经网络输出第一数目个频点各自的第一频点增益，从而可以根据每个频点对应的第一频点增益对对应的频点进行频域信号调整。

在一个实施例中，如图10所示，基于第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号，利用回声及噪声抑制神经网络，得到第一数目个频点各自的第一频点增益，包括：

步骤1010，针对第一频谱信号、第二频谱信号、第三频谱信号、和第四频谱信号中的每个频谱信号，基于频谱信号中各频点的第一频点值，确定语音特征向量；

步骤1020，将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量输入回声及噪声抑制神经网络，得到第一数目个频点各自的第一频点增益。

在步骤1010中，第一频点值是指频点在频域信号中对应的幅值，单位是分贝。语音特征是指语音本身具有的特征。语音的构成要素包括音高、音强、音长、音色。音高是指声波频率，即每秒钟振动次数的多少；音强指声波振幅的大小；音长指声波振动持续时间的长短，也称为“时长”；音色指声音的特色和本质，也称作“音质”。在实际应用中，可以选择不同的语音要素提取语音特征。例如，语音特征可以包括频谱幅度值、频谱对数能量值、梅尔倒谱系数、巴克频率倒数系数、巴克频率倒数系数的一阶和二阶差分、基因相关度、基因周期、基因平稳度、以及其中某些特征的向量的时域一阶或二阶差分以反映特征随时间的动态变化特性等多种类型。其中，每种类型的语音特征对应的向量维度不一定相同。例如，一帧语音信号的频点数为129个，该帧对应的基因周期为一个一维数值，则基因周期对应的特征向量的维度为129×1；该帧对应的频谱幅度值的数量与频点数相同，则基因周期对应的特征向量的维度为129×129。

在一个实施例中，语音特征向量为根据至少一种类型的语音特征构成的向量。例如，语音特征向量中的特征包括：巴克频率倒数系数、巴克频率倒数系数的一阶和二阶差分、基因相关度、基因周期和基因平稳度。基于频谱信号中各频点的第一频点值，确定语音特征向量，包括：

心理声学频带是指人类对声音的感知范围。例如，正常的听觉范围通常在20赫兹到20千赫兹之间。心理声学频带是根据心理声学模型输出的数据。心理声学模型是指一种基于人类听觉特性和心理感知的数学模型，用于模拟人类对声音的感知和理解过程。巴克频率倒数系数是一种用于描述人类听觉感知频率的心理声学尺度。它是根据人类对声音的感知特性而设计的，以反映人类听觉系统对不同频率的敏感程度。巴克频率倒数系数将人类听觉范围（如20赫兹到20千赫兹）分为多个频带，每个频带宽度不等，频率范围也不等。在较低频率区间，每个巴克单位代表大约100赫兹的频率范围，而在较高频率区间，每个巴克单位代表的频率范围较窄。因此，基于每帧的频谱信号中各频点的第一频点值，确定该帧的各个心理声学频带的巴克频率倒数系数，一个心理声学频带对应一个巴克频率倒数系数。

前预定数目是指将划分的心理声学频带从低频到高频依次选取的频带数目。前预定数目小于心理声学频带的数量。例如，心理声学频带的数量为18，前预定数目为6，则表示从频率最低的心理声学频带开始选择，按照频带频率的不断增高，选取出6个心理声学频带作为前预定数目个心理声学频带。

巴克频率倒数系数的一阶差分是指通过计算相邻巴克频率倒数系数之间的差值来衡量每帧的频谱信号的变化程度。一阶差分可以有效观察到每帧的频谱信号的变化趋势和突变点。巴克频率倒数系数的二阶差分是指通过计算巴克频率倒数系数的一阶差分的差值来衡量每帧的频谱信号的变化程度。这时的巴克频率倒数系数的一阶差分和二阶差分的总数量为两倍的前预定数目。例如，心理声学频带的数量为18，前预定数目为6，选取出6个心理声学频带作为前预定数目个心理声学频带。然后，对前预定数目个心理声学频带的巴克频率倒数系数，求一阶差分和二阶差分，得到每个心理声学频带对应的一阶差分和二阶差分。这时语音特征向量中对应一阶差分和二阶差分的特征总数为6+6=12。

心理声学频带的基因相关度是指在基因表达数据中，不同心理声学频带的基因表达量之间的相关性。基因表达数据是指记录了不同基因在不同条件下的表达水平的数据。基因相关度的计算方法包括互信息、皮尔逊相关系数、斯皮尔曼等级相关系数等。基于前预定数目个心理声学频带中的各频点的第一频点值，确定前预定数目个心理声学频带的基因相关度。这时的基因相关度的特征数量与前预定数目相同。

基音周期是指声音波形中声带振动的周期，也就是声音的频率。它表示声音波形中重复出现的最小时间间隔，通常用毫秒（ms）作为单位。基音周期是声带振动的周期性特征，决定了声音的音高。基音周期的计算方法包括自相关函数法和互相关函数法。自相关函数法是通过计算信号与其自身的延迟版本之间的相似度来确定基音周期。互相关函数法是通过计算信号与其延迟版本之间的相似度来确定基音周期。基于频谱信号中各频点的第一频点值，确定帧内的基因周期，则一帧语音信号对应一个基因周期。

基因平稳度是指基因组在遗传传递过程中保持稳定性的能力。基于频谱信号中各频点的第一频点值，确定帧内的基因平稳度，则一帧语音信号对应一个基因平稳度。例如，语音特征向量中的特征包括：巴克频率倒数系数、巴克频率倒数系数的一阶和二阶差分、基因相关度、基因周期和基因平稳度，心理声学频带的数量为18，前预定数目为6，这时一帧的语音信号对应的语音特征向量中包含的特征数量等于：18（巴克频率倒数系数的数量）+6（前预定数目个巴克频率倒数系数的一阶差分的数量）+6（前预定数目个巴克频率倒数系数的二阶差分的数量）+6（前预定数目个基因相关度的数量）+1（基因周期的数量）+1（基因平稳度的数量）=38个。这时的输入特征的构造方式能够有效提高回声及噪声抑制神经网络的抑制效果。

在步骤1020中，第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号，根据所设定的特征类型对多种频谱信号进行向量计算，构成对应的语音特征向量。然后，将该语音特征向量输入回声及噪声抑制神经网络，这时的回声及噪声抑制神经网络输出了第一数目个频点各自的第一频点增益。之后，各个频点经过对应频点的第一频点增益进行增益调节，得到每个频点的第一调整后频点值。

步骤1010-1020的实施例的优点在于，通过特征提取器设定选择多种不同类型的特征，并根据所选择的特征类型对多种信号进行向量计算。之后，特征提取器的输出端将得到的语音特征向量输入回声及噪声抑制神经网络，与单一输入相比，能够更好地抑制非线性回声和噪声，提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

在另一个实施例中，可以将输入的第一数目个频点进行频点组划分，然后基于划分后的频点组输入回声及噪声抑制神经网络进行非线性回声和噪声抑制。这时的回声及噪声抑制神经网络中输出的增益值为每个频点组对应的增益值，且这时回声及噪声抑制神经网络的输出的增益值的数量小于第一数目的增益值，能够提高回声及噪声抑制神经网络的抑制效率。

在该实施例中，如图11所示，将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量输入回声及噪声抑制神经网络，得到第一数目个频点各自的第一频点增益，包括：

步骤1110，将第一数目个频点划分成多个频点组，每个频点组包括一个或多个相邻的频点；

步骤1120，将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量输入回声及噪声抑制神经网络，得到多个频点组各自的第一频点组增益，并将频点组的第一频点组增益作为频点组中每个频点的第一频点增益。

在步骤1110中，频点组是指将频率范围内的频点划分为不同的子区间的一种方式。频点组的划分方式可以为均匀划分、不均匀划分等。例如，一个频谱信号中包括8个频点，均匀划分的方式就是划分后的每个频点组中包含的频点数量相同。不均匀划分的方式就是划分后的每个频点组中包含的频点数量不相同。

图12A示出了均匀划分多个频点组的示意图。图中的频谱信号包括12个频点，每个频点对应的频点值从左到右依次可以为：4，6，7，6，4，0，-4，-6，-7，-6，-4，0。例如，当划分后的频点组的数量为4，均匀划分的方式就是将相邻的三个频点划分为一个频点组，得到第一频点组（4，6，7），第二频点组（6，4，0），第三频点组（-4，-6，-7），第四频点组（-6，-4，0）。

在步骤1120中，将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量输入回声及噪声抑制神经网络，得到多个频点组各自的第一频点组增益。

图12B示出了各个频点组的第一频点组增益的示意图。将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量输入回声及噪声抑制神经网络，得到第一频点组的第一频点组增益为2，第二频点组的第一频点组增益为4，第三频点组第一频点组增益为1，第四频点组的第一频点组增益为2。由此可知，第一频点组中每个频点对应的第一频点增益都是2，第二频点组中每个频点对应的第一频点增益都是4，第三频点组中每个频点对应的第一频点增益都是1，第四频点组中每个频点对应的第一频点增益都是2。

图12C示出了每个第一频点值经过各个频点组的第一频点组增益调节后得到的第一调整后频点值。第一频点组中每个频点的频点值（4，6，7）分别与对应的第一频点组增益进行增益操作，得到第一频点组中的每个频点第一调整后频点值（8，12，14）。第二频点组中每个频点的频点值（6，4，0）分别与对应的第一频点组增益进行增益操作，得到第一频点组中的每个频点第一调整后频点值（24，16，0）。第三频点组中每个频点的频点值（-4，-6，-7）分别与对应的第一频点组增益进行增益操作，得到第三频点组中的每个频点第一调整后频点值（-4，-6，-7）。第四频点组中每个频点的频点值（-6，-4，0）分别与对应的第一频点组增益进行增益操作，得到第四频点组中的每个频点第一调整后频点值（-12，-8，0）。

步骤1110-1120的实施例的优点在于，通过将输入的第一数目个频点进行频点组划分的方式，能够提高回声及噪声抑制神经网络的抑制效率。

在一个实施例中，如图13所示，频域转换器将第一音频信号、第二音频信号、第三音频信号、以及第四音频信号进行频域转换，得到第一频谱信号、第二频谱信号、第三频谱信号中、以及第四频谱信号。特征提取器将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号进行特征提取，并将得到的语音特征向量输入回声及噪声抑制神经网络1310，得到各个频点各自的第一频点增益。乘法器将第四频谱信号中的每个频点的第一频点值、和与频点对应的第一频点增益进行增益计算，确定每个频点的第一调整后频点值，并将得到的每个频点的第一调整后频点值输入时域转换器。

图14示出了回声及噪声抑制神经网络的网络层连接示意图。回声及噪声抑制神经网络1310包括顺序连接的输入层1410、多个隐藏层1420、以及第一输出层1430。第一输出层1430输出可以确定各个频点各自的第一频点增益的频点增益图。输入层具有多个处理节点1311，每个处理节点1311具有权重矩阵（卷积核）。每个隐藏层1420也具有多个处理节点1311，每个处理节点1311也具有权重矩阵（卷积核）。第一输出层1430也具有多个处理节点1311，每个处理节点1311也具有权重矩阵（卷积核）。输入层1410的各处理节点1311将语音特征向量与自身的卷积核卷积，得到该处理节点的输出，作为下一层的隐藏层1420的各处理节点1311的输入。下一层的隐藏层1420的各处理节点1311将上一层各处理节点1311的输出与自身的卷积层卷积，得到该处理节点1311的输出，作为更下一层的隐藏层1420的各处理节点1311的输入。以此类推，直到第一输出层1430的各处理节点1311将最后一层的隐藏层1420的各处理节点1311的输出与自身的卷积层卷积，得到包含各个频点各自的第一频点增益的频点增益图。

处理节点1311是用于执行输入向量或上一个处理层的输出向量与自身卷积核的卷积。

输入层1410为第一全连接层，输入层1410可以为深度神经网络(Deep NeuralNetworks, DNN)层、卷积神经网络（Convolutional Neural Network，CNN）层、循环神经网络（Recurrent Neural Network，RNN）层等。输入层1410的节点数与语音特征向量中的特征数相同。例如，一帧的语音信号对应的语音特征向量中包含的特征数量等于：18（巴克频率倒数系数的数量）+6（前预定数目个巴克频率倒数系数的一阶差分的数量）+6（前预定数目个巴克频率倒数系数的二阶差分的数量）+6（前预定数目个基因相关度的数量）+1（基因周期的数量）+1（基因平稳度的数量）=38个。这时的输入层1410的节点数也是38。

隐藏层1420是神经网络中介于输入层1410和第一输出层1430之间的层，主要负责对输入数据进行非线性变换和特征提取。每个隐藏层1420的处理节点1311接收来自上一层的输入，并将处理的结果输出到下一层。隐藏层1420可以为门控循环单元（GatedRecurrent Unit，GRU）层、长短时记忆网络（Long Short-Term Memory，LSTM）层等。其中，不同的隐藏层可以设置为不同类型的网络层。

第一输出层1430是指回声及噪声抑制神经网络的最后一层，用于将网络学到的特征转换为最终的输出。第一输出层1430为串联的第二全连接层和指数归一化函数。第二全连接层可以为RNN、CNN等。指数归一化函数是对输入数据进行了非线性的变换，将较大的值映射到[0, 1]之间，同时保留了较小值的差异性，能够有效缩小不同数值之间的差距，使得数据更适合进行模型训练。

在一个实施例中，将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量输入回声及噪声抑制神经网络，得到多个频点组各自的第一频点组增益，包括：

在一个实施例中，当输入的第一数目个频点采用频点组划分的方式，第一输出层1430的节点数与频点组的数目相同。当输入的第一数目个频点未采用频点组划分的方式，第一输出层1430的节点数与频点的数目相同，即为第一数目。

在一个实施例中，如图15所示，隐藏层的数目、以及每个隐藏层的节点数通过以下方式确定：

步骤1510，获取回声及噪声抑制神经网络的训练样本数；

步骤1520，获取第一终端的计算资源量；

步骤1530，基于训练样本数和计算资源量，确定隐藏层的数目、以及每个隐藏层的节点数的乘积；

步骤1540，将乘积分解成隐藏层的数目、以及每个隐藏层的节点数。

在步骤1510中，训练样本数是指在对回声及噪声抑制神经网络训练中实用的样本数量。训练样本数越大，可以为模型的训练提供更多的数据信息，有助于模型更准确地学习输入数据的特征和模式。同时，训练样本数越大，需要采用较大的网络规模才能取得更好的效果，则隐藏层的数目、以及每个隐藏层的节点数的乘积越大。

在步骤1520中，第一终端的计算资源量是指第一终端（如计算机、智能手机、平板电脑等）上可用于执行计算任务的硬件资源的数量和能力。如果需要占用第一终端的较小的计算资源量，则采用较少的隐藏层和每个隐藏层较少的的节点数。

在步骤1530中，如图16所示，基于训练样本数和计算资源量，确定隐藏层的数目、以及每个隐藏层的节点数的乘积，包括：

步骤1610，基于训练样本数，确定第三分数；

步骤1620，基于计算资源量，确定第四分数；

步骤1630，基于第三分数和第四分数，确定总分数；

步骤1640，基于总分数，确定乘积。

在步骤1610中，基于训练样本数确定第三分数可以通过第四对照表。表4所示的是一个第四对照表的例子。

表4

基于上例，训练样本数为200，查找表4，得到对应的第三分数为60；训练样本数为550，查找表4，得到对应的第三分数为80。

在步骤1620中，基于计算资源量确定第四分数可以通过第五对照表。例如，计算资源量的单位是兆，表5所示的是一个第五对照表的例子。

表5

基于上例，计算资源量为8兆，查找表5，得到对应的第四分数为40；计算资源量为80兆，查找表5，得到对应的第四分数为60。

在步骤1630中，基于第三分数和第四分数，确定总分数可以通过平均数或者加权平均数的方式。

在一个实施例中，使用第三分数与第四分数的平均数的方式确定总分数。例如，根据训练样本数确定的第三分数为60，根据计算资源量确定的第四分数为80，那么总分数为（60+80）/2=70。利用平均数的方式计算总分数的优点是，使得训练样本数和计算资源量对于计算第三分数或第四分数的影响是相同的，提高了确定乘积的公平性。

在另一个实施例中，使用第三分数与第四分数的加权平均数的方式计算总分数。在本实施例中，首先需要为训练样本数对应的第三分数和计算资源量对应的第四分数分别设置权重。例如，第三分数的权重为0.6，第四分数的权重为0.4，第三分数为60，第四分数为80，那么总分数为60*0.6+80*0.4=68。利用加权平均数的方式计算总分数的优点是，可以根据实际应用的需要灵活地为训练样本数对应的第三分数和计算资源量对应的第四分数设置不同的权重，提高了确定乘积的灵活性。

在步骤1640中，基于总分数，确定乘积。总分数越高，代表隐藏层的数目、以及每个隐藏层的节点数的乘积越高。

可以通过总分数与对应设置的乘积之间的第六对照表确定乘积。表6所示的是一个第六对照表的例子。

表6

基于上例，总分数为84，查找表6，得到对应的乘积为25000；总分数为78，查找表6，得到对应的乘积为2500。

步骤1610-1640的实施例的优点在于，基于训练样本数和计算资源量确定总分数，可根据实际应用的需要调整训练样本数和计算资源量对应的分数，从而调整乘积，提高了确定乘积的灵活性。

在步骤1540中，将乘积分解成隐藏层的数目、以及每个隐藏层的节点数，包括：

获取每个隐藏层的节点数与隐藏层的数目的倍数因子；

通过将乘积除以倍数因子后开平方，确定隐藏层的数目；

隐藏层的数目指的是回声及噪声抑制神经网络中在输入层和第一输出层之间的中间层的数量。隐藏层的数目的增加可以增加模型的复杂度和非线性表达能力。每个隐藏层的节点数是指每个隐藏层中神经元（处理节点）的数量。隐藏层的节点数的增加可以提高回声及噪声抑制神经网络模型的表示能力。

倍数因子是指每个隐藏层的节点数与隐藏层的数目的比值。例如，每个隐藏层的节点数为5000，隐藏层的数目为5，那么倍数因子为5000/5=1000。由于乘积=每个隐藏层的节点数*隐藏层的数目，每个隐藏层的节点数=倍数因子*隐藏层的数目，那么乘积=倍数因子*隐藏层的数目*隐藏层的数目。通过将乘积除以倍数因子后开平方，确定隐藏层的数目。例如，乘积为25000，倍数因子为1000，那么隐藏层的数目为。这时的隐藏层的数目为5。之后，将隐藏层的数目乘以倍数因子可以得到每个隐藏层的节点数。例如，隐藏层的数目为5，倍数因子为1000，那么每个隐藏层的节点数为5*1000=5000。

步骤1510-1540的实施例的优点在于，基于训练样本数和计算资源量可以灵活地隐藏层的数目、以及每个隐藏层的节点数的乘积，然后，可根据实际应用的需要调整每个隐藏层的节点数与隐藏层的数目的倍数因子，从而调整隐藏层的数目、以及每个隐藏层的节点数，提高了确定隐藏层的数目、以及每个隐藏层的节点数的灵活性。

在步骤630中，第四音频信号是指抵减了线性衰减的回声，且只保留了非线性衰减的回声、近端噪声、以及近端人声的信号。为了进一步消除回声的非线性部分和噪声，将基于第四频谱信号中的每个频点的第一频点值、和与频点对应的第一频点增益，确定每个频点的第一调整后频点值，以得到第四调整后频谱信号。

第一调整后频点值是指消除了第二音频信号中回声的线性和非线性部分、第一终端的噪声，只保留近端人声的每个频点对应的数值。第四调整后频谱信号可以表示第四音频信号经过回声及噪声抑制神经网络输出的各个频点的第一频点增益调整后，生成的频域成分和能量的分布情况。例如，第四频谱信号中根据每个频点从小到大的排序得到对应的频点值依次为：18，24，22，21，20，22，24，18，17，14，22，25。回声及噪声抑制神经网络得到了第一数目个频点各自的第一频点增益，根据每个频点从小到大的排序得到对应的第一频点增益依次为：0.5，0.5，0.6，0.8，0.6，0，-0.5，-0.8，-0.9，-0.5，-0.8，0。将第四频谱信号中每个频点的第一频点值、和与频点对应的第一频点增益进行频点增益，根据每个频点从小到大的排序得到对应的第一调整后频点值依次为：9，12，13.2，16.8，12，0，-12，14.4，-15.3，-7，-17.6，0。

步骤640，在得到第四调整后频谱信号后，将第四调整后频谱信号进行时域转换，得到抑制后音频信号。这时的抑制后音频信号是只保留近端人声的信号。

时域转换是指将信号从频率域表示转换回时域表示的过程。将信号从频域转换回时域的方法包括傅里叶逆变换、拉普拉斯逆变换和Z逆变换等。

步骤610-640的实施例的优点在于，通过对时域的音频信号进行频域转换，可以提供信号在频率上的特性和成分信息表示，从而将复杂的时域信号简化为频率成分的叠加，更好地理解信号的频率结构。基于第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号，把多种信号同时输入到利用回声及噪声抑制神经网络，有利于回声及噪声抑制神经网络发现线性滤波、近端声音收集、以及环境噪声中的各种异常，与单一输入相比，能够更好地抑制非线性回声和噪声，提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

回声及噪声抑制神经网络的多种结构描述

在一个实施例中，如图17所示，将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量输入回声及噪声抑制神经网络，得到多个频点组各自的第一频点组增益，包括：

步骤1710，在第一频谱信号、第二频谱信号、第三频谱信号和第四频谱信号中，选取目标频谱信号；

步骤1720，在多个隐藏层中，选择目标频谱信号对应的目标隐藏层；

步骤1730，在将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量输入输入层的同时，将目标频谱信号输入目标隐藏层，得到多个频点组各自的第一频点组增益。

在步骤1710中，图18示出了回声及噪声抑制神经网络中输入目标频谱信号的结构示意图。输入层为第一全连接层，第一个隐藏层为循环神经网络层，将第一个隐藏层之后连接的两个隐藏层作为目标隐藏层，且每个目标隐藏层可以采用不同的网络结构。在第二个目标隐藏层之后连接第一输出层，以输出多个频点组各自的第一频点组增益。

目标频谱信号是指需要重点学习的音频信号的频域成分和能量的分布情况。目标频谱信号可以为第一频谱信号、第二频谱信号、第三频谱信号和第四频谱信号中的任一个或多个的组合信号。

在一个实施例中，如图19所示，在第一频谱信号、第二频谱信号、第三频谱信号和第四频谱信号中，选取目标频谱信号，包括：

步骤1910，获取第一频谱信号与第二频谱信号之间的第一频谱差信号、第一频谱信号与第三频谱信号之间的第二频谱差信号、和第一频谱信号与第四频谱信号之间的第三频谱差信号；

步骤1920，基于第一频谱差信号、第二频谱差信号、和第三频谱差信号，选取目标频谱信号。

在步骤1910中，在确定目标频谱信号时，如果第二音频信号和第一音频信号差得远，说明收集到的信号噪声及回声可能很大，需要着重强调一下第二音频信号，即将第二音频信号作为目标频谱信号让神经网络再次学习。如果第三音频信号和第一音频信号差得远，说明回声路径很长，导致回声可能有很大的衰减，需要着重强调下第三音频信号，即将第三音频信号作为目标频谱信号让神经网络再次学习。如果第四音频信号和第一音频信号差得远，说明噪声和非线性回声很大，导致消除了线性回声后对噪声和非线性回声的抑制仍然没有起到太大作用，需要着重强调第四音频信号，即将第四音频信号作为目标频谱信号让神经网络再次学习。因此，第一频谱差信号用于表示第二音频信号和第一音频信号之间的差异程度。第二频谱差信号用于表示第三音频信号和第一音频信号之间的差异程度。第三频谱差信号用于表示第四音频信号和第一音频信号之间的差异程度。

图20示出了计算三个频谱差信号的频谱示意图。例如，第一频谱信号根据每个频点从小到大的排序得到对应的第一频点值依次为：15，18，17，16，15，11，7，6，5，4，5，20，第二频谱信号根据每个频点从小到大的排序得到对应的第一频点值依次为：28，30，28，25，22，20，18，15，12，10，12，25。将第一频谱信号与第二频谱信号在对应频点的第一频点值进行相减，得到第一频谱差信号在对应频点的频点值。这时的第一频谱差信号根据每个频点从小到大的排序得到对应的频点值依次为：-13，-12，-11，-9，-7，-9，-11，-9，-7，-6，-7，-5。第三频谱信号根据每个频点从小到大的排序得到对应的第一频点值依次为：4，6，7，6，4，0，-4，-6，-7，-6，-4，0。将第一频谱信号与第三频谱信号在对应频点的第一频点值进行相减，得到第二频谱差信号在对应频点的频点值。这时的第二频谱差信号根据每个频点从小到大的排序得到对应的频点值依次为：11，12，10，10，11，11，11，12，12，10，11，20。第四频谱信号根据每个频点从小到大的排序得到对应的第一频点值依次为：18，24，22，21，20，22，24，18，17，14，22，25。将第一频谱信号与第四频谱信号在对应频点的第一频点值进行相减，得到第三频谱差信号在对应频点的频点值。这时的第三频谱差信号根据每个频点从小到大的排序得到对应的频点值依次为：-3，-6，-5，-5，-5，-11，-17，-12，-12，-10，-17，-5。

在步骤1720中，在得到第一频谱差信号、第二频谱差信号、和第三频谱差信号后，基于第一频谱差信号、第二频谱差信号、和第三频谱差信号，选取目标频谱信号。

在一个实施例中，如图21所示，基于第一频谱差信号、第二频谱差信号、和第三频谱差信号，选取目标频谱信号，包括：

步骤2110，如果第一频谱差信号的各频点的频点值的绝对值之和大于预定阈值，将第二频谱信号作为目标频谱信号；

步骤2120，如果第二频谱差信号的各频点的频点值的绝对值之和大于预定阈值，将第三频谱信号作为目标频谱信号；

步骤2130，如果第三频谱差信号的各频点的频点值的绝对值之和大于预定阈值，将第四频谱信号作为目标频谱信号；

步骤2140，如果第一频谱差信号的各频点的频点值的绝对值之和、第二频谱差信号的各频点的频点值的绝对值之和、以及第三频谱差信号的各频点的频点值的绝对值之和都不大于预定阈值，将第一频谱信号作为目标频谱信号。

在步骤2110中，如果第一频谱差信号的各频点的频点值的绝对值之和大于预定阈值，说明收集到的信号噪声及回声可能很大，需要强调一下第二音频信号，将第二频谱信号作为目标频谱信号。如果第一频谱差信号的各频点的频点值的绝对值之和小于或等于预定阈值，说明目前的回声及噪声抑制神经网络可以将收集到的信号噪声和回声进行有效抑制。例如，第一频谱差信号根据每个频点从小到大的排序得到对应的频点值依次为：-13，-12，-11，-9，-7，-9，-11，-9，-7，-6，-7，-5。第一频谱差信号的各频点的频点值的绝对值之和为|-13|+|-12|+|-11|+|-9|+|-7|+|-9|+|-11|+|-9|+|-7|+|-6|+|-7|+|-5|=106。当预定阈值为90，106大于90，将第二频谱信号作为目标频谱信号。其中，预定阈值是指根据实际对回声及噪声抑制网络的抑制程度设置的数值。

在步骤2120中，如果第二频谱差信号的各频点的频点值的绝对值之和大于预定阈值，说明回声路径很长，导致回声可能有很大的衰减，需要着重强调下第三音频信号，将第三频谱信号作为目标频谱信号。如果第三频谱差信号的各频点的频点值的绝对值之和小于或等于预定阈值，说明第一终端的回声路径不是很长，不会对回声产生很大的衰减。例如，第二频谱差信号根据每个频点从小到大的排序得到对应的频点值依次为：11，12，10，10，11，11，11，12，12，10，11，20。这时的第二频谱差信号的各频点的频点值的绝对值之和为|11|+|12|+|10|+|10|+|11|+|11|+|11|+|12|+|12|+|10|+|11|+|20|=130。当预定阈值为90，130大于90，将第三频谱信号作为目标频谱信号。

在步骤2130中，如果第三频谱差信号的各频点的频点值的绝对值之和大于预定阈值，说明噪声和非线性回声很大，导致消除了线性回声后对噪声和非线性回声的抑制仍然没有起到太大作用，需要着重强调第四音频信号，将第四频谱信号作为目标频谱信号。如果第三频谱差信号的各频点的频点值的绝对值之和小于或等于预定阈值，说明噪声和非线性回声不是很大，消除了线性回声后对噪声和非线性回声的抑制有很大作用。例如，第三频谱差信号根据每个频点从小到大的排序得到对应的频点值依次为：-3，-6，-5，-5，-5，-11，-17，-12，-12，-10，-17，-5。这时的第三频谱差信号的各频点的频点值的绝对值之和为|-3|+|-6|+|-5|+|-5|+|-5|+|-11|+|-17|+|-12|+|-12|+|-10|+|-17|+

|-5|=108。当预定阈值为90，108大于90，将第四频谱信号作为目标频谱信号。

在步骤2140中，如果第一频谱差信号的各频点的频点值的绝对值之和、第二频谱差信号的各频点的频点值的绝对值之和、以及第三频谱差信号的各频点的频点值的绝对值之和都不大于预定阈值，将第一频谱信号作为目标频谱信号，能够更好地抑制远端人声，提高语音通话质量。

步骤2110-2140的实施例的优点在于，通过比较第一频谱差信号的各频点的频点值的绝对值之和大于预定阈值，确定需要着重强调的频谱信号，能够提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

在步骤1720中，目标频谱信号选取后，在多个隐藏层中，选择目标频谱信号对应输入的目标隐藏层。

在一个实施例中，如图21所示，在多个隐藏层中，选择目标频谱信号对应的目标隐藏层，包括：

步骤2110，获取和与目标隐藏层的对照表；

步骤2120，在第一频谱差信号、第二频谱差信号、或第三频谱差信号的各频点的频点值的绝对值之和大于预定阈值的情况下，基于和，参照对照表，确定目标隐藏层。

在步骤2110中，对照表是指根据回声及噪声抑制神经网络所包含的隐藏层的个数和各频点的频点值的绝对值之和的对应关系表。当和越大，表示超过预定阈值越多，则需要强调的力度较大，这时就需要将对应的目标频谱信号输入到靠近第一输出层的隐藏层中。

在步骤2120中，基于各频点的频点值的绝对值之和确定目标隐藏层的对照表可以通过第七对照表。表7所示的是一个第七对照表的例子，例如，当前的回声及噪声抑制神经网络包括5个隐藏层，按照依次执行的顺序标记为第一隐藏层、第二隐藏层、第三隐藏层、第四隐藏层、第五隐藏层，预定阈值为90。

表7

基于上例，和为98，查找表7，得到对应的目标隐藏层为第一隐藏层；和为130，查找表7，得到对应的目标隐藏层为第三隐藏层。

步骤2110-2140的实施例的优点在于，通过设置和与目标隐藏层的对照表，能够根据和确定该目标频谱信号强调的力度，从而将目标频谱信号输入对应的目标隐藏层，能够提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

在步骤1730中，在将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量输入输入层的同时，将目标频谱信号输入目标隐藏层。目标隐藏层同时对上一隐藏层或输入层输出的特征向量和目标频谱信号进行处理，并将输出的特征向量输入第一输出层或下一隐藏层，得到多个频点组各自的第一频点组增益。

在一个实施例中，回声及噪声抑制神经网络还包括在多个隐藏层中第一个隐藏层之后引出的第二输出层，用于基于每个帧中的第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号，输出第一标志，第一标志表示帧是否是语音帧。第一标志用于对回声及噪声抑制神经网络进行模型训练。

在一个实施例中，将第一数目个频点划分成多个频点组，回声及噪声抑制神经网络输出的是多个频点组各自的第一频点组增益。如图22A所示，这时的回声及噪声抑制神经网络包括三个隐藏层，第二个隐藏层和第三个隐藏层为目标隐藏层，输入层为第一全连接层。第一全连接层将输出的特征向量同时输入到下一隐藏层和第一个目标隐藏层，第一个隐藏层将输出的特征向量同时输入到第一个目标隐藏层和第二输出层。第二输出层输出第一标志，第一个目标隐藏层根据输入的目标频谱信号、第一全连接层输出的特征向量、以及第一个隐藏层输出的特征向量，将输出的特征向量输入到第二个目标隐藏层。第二个目标隐藏层根据输入的目标频谱信号、第一个隐藏层输出的特征向量、以及第一个目标隐藏层输出的特征向量，将输出的特征向量输入到第一输出层。第一输出层输出多个频点组各自的第一频点组增益。

在另一个实施例中，将第一数目个频点未划分成多个频点组，回声及噪声抑制神经网络输出的是多个频点各自的第一频点增益。如图22B所示，这时的回声及噪声抑制神经网络包括三个隐藏层，第二个隐藏层和第三个隐藏层为目标隐藏层，输入层为第一全连接层。第一全连接层将输出的特征向量同时输入到下一隐藏层和第一个目标隐藏层，第一个隐藏层将输出的特征向量同时输入到第一个目标隐藏层和第二输出层。第二输出层输出第一标志，第一个目标隐藏层根据输入的目标频谱信号、第一全连接层输出的特征向量、以及第一个隐藏层输出的特征向量，将输出的特征向量输入到第二个目标隐藏层。第二个目标隐藏层根据输入的目标频谱信号、第一个隐藏层输出的特征向量、以及第一个目标隐藏层输出的特征向量，将输出的特征向量输入到第一输出层。第一输出层输出多个频点各自的第一频点增益。

步骤1710-1730的实施例的优点在于，通过选取目标频谱信号和目标隐藏层，能够对导致回声和噪声抑制效果不好的频谱信号进行再次输入，将目标频谱信号输入对应的目标隐藏层，提高语音通信中的噪声和回声抑制效果，从而提高语音通话质量。

在一个实施例中，第二输出层输出帧的第一标志。如图23所示，回声及噪声抑制神经网络通过以下方式训练：

步骤2310，获取训练样本集，训练样本集中的训练样本的每个帧中包括第一样本频谱信号、第二样本频谱信号、第三样本频谱信号、和第四样本频谱信号，并具有帧的频点组增益标签；

步骤2320，将第一样本频谱信号、第二样本频谱信号、和第三样本频谱信号中的至少一个、以及第四样本频谱信号的语音特征向量输入回声及噪声抑制神经网络，由第一输出层输出帧中多个频点组各自的第一样本频点组增益，由第二输出层输出帧的第一标志；

步骤2330，基于各个帧的第一样本频点组增益、各个帧的第一标志、和各个帧的频点组增益标签，生成第一损失函数，用于训练回声及噪声抑制神经网络。

在步骤2310中，训练样本集中包括多个训练样本，每个训练样本包含每个帧中包括的第一样本频谱信号、第二样本频谱信号、第三样本频谱信号、和第四样本频谱信号，并具有帧的频点组增益标签。第一样本频谱信号、第二样本频谱信号、第三样本频谱信号、和第四样本频谱信号，分别与上述实施例中的第一频谱信号、第二频谱信号、第三频谱信号、和第四频谱信号相似，只是这里作为训练的样本存在，在此不再赘述。

在步骤2320中，对于每个训练样本，将第一样本频谱信号、第二样本频谱信号、和第三样本频谱信号中的至少一个、以及第四样本频谱信号的语音特征向量输入回声及噪声抑制神经网络，由第一输出层输出帧中多个频点组各自的第一样本频点组增益，由第二输出层输出帧的第一标志。这时样本的语音特征向量与上述实施例中步骤1010-1020相似，只是将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号替换为第一样本频谱信号、第二样本频谱信号、和第三样本频谱信号中的至少一个、以及第四样本频谱信号，在此不再赘述。

注意，在获取训练样本的样本频谱信号和样本的语音特征向量时，要事先征求训练样本对象的同意。而且，对训练样本的样本频谱信号和样本的语音特征向量的收集、使用和处理等，都会遵守相关法律法规和标准。在征求训练样本对象的同意时，可以通过弹窗或者跳转到确认页面等方式获得训练样本对象的单独许可或者单独同意。

在步骤2330中，第一损失函数用于表示各个帧的第一样本频点组增益、和各个帧的频点组增益标签的偏离程度。第一损失函数包括均方误差函数、交叉熵损失函数、平均绝对误差函数等。当第一标志表示帧不是语音帧，对于模型的训练影响不大，为该帧分配权重系数0。当第一标志表示帧是语音帧，对于模型的训练影响不大，为该帧分配权重系数1。第一损失函数对各个帧的第一样本频点组增益、和各个帧的频点组增益标签，在对应频点组的频点组增益进行损失计算，得到各个帧中多个频点组的增益损失值。根据各个帧中多个频点组的增益损失值，确定各个帧的增益损失值。基于各个帧的第一标志为各个帧分配的权重系数、和各个帧的增益损失值，得到用于训练回声及噪声抑制神经网络的模型损失值。

计算第一损失函数的过程如下公式7所示：

（公式7）。

在公式7中，表示第一损失函数，/>表示根据第/>帧的第一标志确定的权重系数，/>表示所采用的损失函数，如均方误差函数、交叉熵损失函数、平均绝对误差函数等，表示各个帧的第一样本频点组增益，/>表示各个帧的频点组增益标签，表示第/>帧的损失值。例如，语音包含2个帧，第一个帧不是语音帧，对应的权重系数为0，第二个帧是语音帧，对应的权重系数为1，/>的损失值为2，/>的损失值为3，得到第一损失函数的值为0*2+1*3=3。

步骤2310-2330的实施例的优点在于，基于各个帧的第一样本频点组增益、各个帧的第一标志、和各个帧的频点组增益标签，生成第一损失函数，用于训练回声及噪声抑制神经网络，能够提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

在另一个实施例中，如图24所示，回声及噪声抑制神经网络还包括在多个隐藏层中第一个隐藏层之后引出的第三输出层，用于输出多个频点组各自的第二频点组增益。这时的回声及噪声抑制神经网络包括三个隐藏层，第二个隐藏层和第三个隐藏层为目标隐藏层，输入层为第一全连接层。第一全连接层将输出的特征向量同时输入到下一隐藏层和第一个目标隐藏层，第一个隐藏层将输出的特征向量同时输入到第一个目标隐藏层和第二输出层。第三输出层输出多个频点组各自的第二样本频点组增益。第一个目标隐藏层根据输入的目标频谱信号、第一全连接层输出的特征向量、以及第一个隐藏层输出的特征向量，将输出的特征向量输入到第二个目标隐藏层。第二个目标隐藏层根据输入的目标频谱信号、第一个隐藏层输出的特征向量、以及第一个目标隐藏层输出的特征向量，将输出的特征向量输入到第一输出层。第一输出层输出多个频点各自的第一样本频点组增益。

在该实施例中，如图25所示，这时的回声及噪声抑制神经网络通过以下方式训练：

步骤2510，获取训练样本集，训练样本集中的训练样本包括第一样本频谱信号、第二样本频谱信号、第三样本频谱信号、和第四样本频谱信号，并具有频点组增益标签；

步骤2520，将第一样本频谱信号、第二样本频谱信号、和第三样本频谱信号中的至少一个、以及第四样本频谱信号的语音特征向量输入回声及噪声抑制神经网络，由第一输出层输出多个频点组各自的第一样本频点组增益，由第三输出层输出多个频点组各自的第二样本频点组增益；

步骤2530，基于第一样本频点组增益、第二样本频点组增益、和频点组增益标签，生成第二损失函数，用于训练回声及噪声抑制神经网络。

在步骤2510中，训练样本集中包括多个训练样本，每个训练样本包含每个帧中包括的第一样本频谱信号、第二样本频谱信号、第三样本频谱信号、和第四样本频谱信号，并具有帧的频点组增益标签。第一样本频谱信号、第二样本频谱信号、第三样本频谱信号、和第四样本频谱信号，分别与上述实施例中的第一频谱信号、第二频谱信号、第三频谱信号、和第四频谱信号相似，只是这里作为训练的样本存在，在此不再赘述。

在步骤2520中，对于每个训练样本，将第一样本频谱信号、第二样本频谱信号、和第三样本频谱信号中的至少一个、以及第四样本频谱信号的语音特征向量输入回声及噪声抑制神经网络，由第一输出层输出帧中多个频点组各自的第一样本频点组增益，由第二输出层输出帧的第一标志。这时样本的语音特征向量与上述实施例中步骤1010-1020相似，只是将第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号替换为第一样本频谱信号、第二样本频谱信号、和第三样本频谱信号中的至少一个、以及第四样本频谱信号，在此不再赘述。

步骤2530，本公开实施例可以将第二样本频点组增益、和频点组增益标签进行损失计算，得到第一损失值。将第一样本频点组增益和频点组增益标签进行损失计算，得到第二损失值。然后，第二损失函数为第一损失值和第二损失值的加权计算，用于训练回声及噪声抑制神经网络。由于第一样本频点组增益为能够学习到更深层频谱信息的增益数据，第一损失值可以获得较高的权重，第二损失值可以获得较低的权重。例如，第一损失值的权重为0.7，第二损失值的权重为0.3，第一损失值为3，第二损失值为1，则第二损失函数的值为3*0.7+1*0.3=2.4。

步骤2510-2530的实施例的优点在于，基于第一样本频点组增益、第二样本频点组增益、和频点组增益标签，生成第二损失函数，用于训练回声及噪声抑制神经网络，能够提高语音通信中的噪声和回声抑制效果，提高语音通话质量。

本公开实施例结合频带分解的回声及噪声抑制描述

在超清语音通信中，高频段的频率包含的信息较少。为了提高语音通信中的噪声和回声抑制效率，频带分解可以将信号分解为不同频率范围的子信号，以便对信号的不同频段的频率特征进行分析和处理。

在一个实施例中，如图26A所示，获取来自第二终端的第一音频信号，包括：

步骤2611，获取来自第二终端的音频信号；

步骤2612，将音频信号分解为第一音频信号和第五音频信号，第一音频信号具有第一频段，第五音频信号具有第二频段，第一频段的频率小于第二频段的频率。

在步骤2611中，第一终端的近端扬声器接收第二终端的音频信号。

在步骤2612中，音频信号先进行频域转换，得到频谱信号。根据频谱信号的频段范围将频谱信号分为第一频段和第二频段。第一频段对应的音频信号为第一音频信号，第二频段的音频信号为第五音频信号。例如，频谱信号的频段范围为0千赫兹至16千赫兹，进行频带划分后，第一频段为0千赫兹至8千赫兹，第二频段为8千赫兹至16千赫兹。

步骤2611-2612的实施例的优点在于，对第二终端的音频信号进行信号分解得到第一音频信号和第五音频信号，将包含信息较多的第一音频信号进行重点分析，能够提高语音通信中的噪声和回声抑制效率。

在一个实施例中，如图26B所示，将音频信号分解得到第一音频信号和第五音频信号后，将第四调整后频谱信号进行时域转换，得到抑制后音频信号，包括：

步骤2621，将第五音频信号进行频域转换，得到第五频谱信号；

步骤2622，基于第四频谱信号中各个频点对应的第一频点增益，确定第五频谱信号中各个频点对应的第二频点增益；

步骤2623，基于第五频谱信号中的每个频点的第二频点值、和与频点对应的第二频点增益，确定每个频点的第二调整后频点值，以得到第五调整后频谱信号；

步骤2624，将第四调整后频谱信号、和第五调整后频谱信号整合后进行时域转换，得到抑制后音频信号。

在步骤2621中，第五音频信号为音频信号中高频段对应的信号。第五频谱信号可以表示第五音频信号经过频域转换器生成的频域成分和能量的分布情况。

图27A示出了音频信号进行频段划分的示意图。信号分解器包括频域转换器、频带分解器、和时域转换器。音频信号先利用频域转换器进行频域转换，得到频谱信号。该频谱信号中包括在多个频率点和每个频率点对应的频点值。根据频带分解器对频谱信号进行划分，得到第一频段和第二频段。例如，频谱信号的频段范围为0千赫兹至12千赫兹，进行频带划分后，第一频段为0千赫兹至8千赫兹，第二频段为8千赫兹至12千赫兹。时域转换器分别对第一频段和第二频段进行时域转换，得到第一频段对应的第一音频信号和第二频段对应的第五音频信号。

在步骤2622中，如图27B所示，基于第四频谱信号中各个频点对应的第一频点增益，确定第五频谱信号中各个频点对应的第二频点增益。例如，第五频谱信号中各个频点对应的第二频点增益可以为第四频谱信号中各个频点对应的第一频点增益的均值；第五频谱信号中各个频点对应的第二频点增益还可以为第四频谱信号中各个频点对应的第一频点增益的最小值。

在步骤2623中，当第五频谱信号中各个频点对应的第二频点增益为第四频谱信号中各个频点对应的第一频点增益的均值。例如，第四频谱信号中各个频点对应的第一频点增益根据每个频点从小到大的排序依次为：0.5，1，2，1，1，0，-0.5，-1，-1，-1，-0.8，0。第四频谱信号中各个频点对应的第一频点增益的均值计算为0.1。将第五频谱信号中的每个频点的第二频点值、和与频点对应的第二频点增益进行增益计算，确定每个频点的第二调整后频点值。

在步骤2624中，根据将第四调整后频谱信号对应的第一频段在频谱信息的位置、和第五调整后频谱信号对应的第二频段在频谱信息进行频谱整合，并将整合后的频谱信号进行时域转换，得到抑制后音频信号。

在一个实施例中，高频段的频谱信号中也包含信息更少的超高频段，且频率越高对应的增益越小。因此，对于第二频段对应的第五频谱信号中不同的频点可以采用不同的频点增益。第五音频信号包括第一音频子信号和第二音频子信号，第一音频子信号具有属于第二频段的第一子频段，第二音频子信号具有属于第二频段的第二子频段，第一子频段的频率小于第二子频段的频率。如图28所示，基于第四频谱信号中各个频点对应的第一频点增益，确定第五频谱信号中各个频点对应的第二频点增益，包括：

例如，第五频谱信号中各个频点对应的第二频点值根据每个频点从小到大的排序依次为：15，-20，20，-18，25，-20，-5，5。第一音频子信号对应的第一子频段中包含的第二频点值依次为：15，-20，20，-18，第二音频子信号对应的第二子频段中包含的第二频点值依次为：25，-20，-5，5。第四频谱信号中各个频点对应的第一频点增益的均值为0.1，最小值为0，将第四频谱信号中各个频点对应的第一频点增益的均值，作为第一子频段中各个频点对应的第二频点增益。根据第一子频段中各个频点对应的第二频点增益和第一子频段中各个频点对应的第二频点值，得到第五调整后频谱信号在第一子频段中包含的第二频点值依次为：1.5，-2，2，-1.8。根据第二子频段中各个频点对应的第二频点增益和第二子频段中各个频点对应的第二频点值，得到第五调整后频谱信号在第二子频段中包含的第二频点值依次为：0，0，0，0。

本公开实施例的装置和设备描述

可以理解的是，虽然上述各个流程图中的各个步骤按照箭头的表征依次显示，但是这些步骤并不是必然按照箭头表征的顺序依次执行。除非本实施例中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间执行完成，而是可以在不同的时间执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，在本申请的各个具体实施方式中，当涉及到需要根据任务内容属性信息或属性信息集合等与任务内容特性相关的数据进行相关处理时，都会先获得任务内容的许可或者同意，而且，对这些数据的收集、使用和处理等，都会遵守相关法律法规和标准。此外，当本申请实施例需要获取任务内容属性信息时，会通过弹窗或者跳转到确认页面等方式获得任务内容的单独许可或者单独同意，在明确获得任务内容的单独许可或者单独同意之后，再获取用于使本申请实施例能够正常运行的必要的任务内容相关数据。

本公开实施例提供的回声及噪声抑制装置113位于与第二终端120通信的第一终端110中，用于抑制第一终端110处的回声和噪声，回声由来自第二终端120的第一语音在第一终端110播放后重新进入第一终端110引起。如图4所示，该回声及噪声抑制装置113包括：

话筒112，用于收集第一终端110处的第二音频信号；

线性滤波器1131，用于对来自第二终端120的第一音频信号进行线性滤波，得到第三音频信号，其中，第一语音基于第一音频信号生成，线性滤波模拟第一语音到达话筒112的线性衰减；

减法器1132，用于用第三音频信号抵减第二音频信号，得到抵减了线性衰减的回声的第四音频信号；

回声及噪声抑制神经网络1134，用于基于第一音频信号、第二音频信号、和第三音频信号中的至少一个、以及第四音频信号，生成抑制了回声的非线性部分和噪声的抑制后音频信号。

可选地，回声及噪声抑制神经网络1134包括：

频域转换器117，用于将第一音频信号、第二音频信号、第三音频信号、以及第四音频信号进行频域转换，得到第一频谱信号、第二频谱信号、第三频谱信号、以及第四频谱信号，其中，第一频谱信号、第二频谱信号、第三频谱信号、以及第四频谱信号各自具有第一数目个频点；

所述回声及噪声抑制神经模型1139，用于基于第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号，得到第一数目个频点各自的第一频点增益；

乘法器1138，用于基于第四频谱信号中的每个频点的第一频点值、和与频点对应的第一频点增益，确定每个频点的第一调整后频点值，以得到第四调整后频谱信号；

时域转换器1137将第四调整后频谱信号进行时域转换，得到抑制后音频信号。

可选地，回声及噪声抑制神经网络1134还包括：特征提取器1135，用于针对第一频谱信号、第二频谱信号、第三频谱信号、和第四频谱信号中的每个频谱信号，基于频谱信号中各频点的第一频点值，确定语音特征向量；

所述回声及噪声抑制神经模型1139具体用于：基于第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号的语音特征向量，得到第一数目个频点各自的第一频点增益。

特征提取器1135具体用于：

可选地，回声及噪声抑制神经模型1139具体用于：

可选地，回声及噪声抑制神经模型1139包括顺序连接的输入层、多个隐藏层、以及第一输出层，其中，输入层的节点数与语音特征向量中的特征数相同，第一输出层的节点数与频点组的数目相同，隐藏层的数目、以及每个隐藏层的节点数通过以下方式确定：

获取回声及噪声抑制神经网络的训练样本数；

获取第一终端110的计算资源量；

将乘积分解成隐藏层的数目、以及每个隐藏层的节点数。

回声及噪声抑制神经模型1139具体用于：

基于训练样本数，确定第一分数；

基于计算资源量，确定第二分数；

基于第一分数和第二分数，确定总分数；

基于总分数，确定乘积。

获取每个隐藏层的节点数与隐藏层的数目的倍数因子；

通过将乘积除以倍数因子后开平方，确定隐藏层的数目；

可选地，回声及噪声抑制神经模型1139具体用于：

在多个隐藏层中，选择目标频谱信号对应的目标隐藏层；

可选地，回声及噪声抑制神经模型1139具体用于：

获取和与目标隐藏层的对照表；

可选地，回声及噪声抑制神经模型1139还包括在多个隐藏层中第一个隐藏层之后引出的第二输出层，用于基于每个帧中的第一频谱信号、第二频谱信号、和第三频谱信号中的至少一个、以及第四频谱信号，输出第一标志，第一标志表示帧是否是语音帧；

回声及噪声抑制神经模型1139具体用于通过以下方式训练：

将第一样本频谱信号、第二样本频谱信号、和第三样本频谱信号中的至少一个、以及第四样本频谱信号的语音特征向量输入回声及噪声抑制神经模型1139，由第一输出层输出帧中多个频点组各自的第一样本频点组增益，由第二输出层输出帧的第一标志；

基于各个帧的第一样本频点组增益、各个帧的第一标志、和各个帧的频点组增益标签，生成第一损失函数，用于训练回声及噪声抑制神经模型1139。

可选地，回声及噪声抑制神经模型1139还包括在多个隐藏层中第一个隐藏层之后引出的第三输出层，用于输出多个频点组各自的第二频点组增益；

回声及噪声抑制神经模型1139具体用于通过以下方式训练：

将第一样本频谱信号、第二样本频谱信号、和第三样本频谱信号中的至少一个、以及第四样本频谱信号的语音特征向量输入回声及噪声抑制神经模型1139，由第一输出层输出多个频点组各自的第一样本频点组增益，由第三输出层输出多个频点组各自的第二样本频点组增益；

基于第一样本频点组增益、第二样本频点组增益、和频点组增益标签，生成第二损失函数，用于训练回声及噪声抑制神经模型1139。

可选地，第一数目通过以下方式确定：

获取第一终端的环境视频；

从环境视频，获取环境干扰等级；

获取目标语音清晰度；

基于环境干扰等级、和目标语音清晰度，确定第一数目。

可选地，频域转换器117具体用于：

基于第一数目，确定频域采样的采样点数；

可选地，回声及噪声抑制装置113还包括：信号分解器1133，用于将来自第二终端120的音频信号分解为第一音频信号和第五音频信号，第一音频信号具有第一频段，第五音频信号具有第二频段，第一频段的频率小于第二频段的频率；

频域转换器117还用于：将第五音频信号进行频域转换，得到第五频谱信号；

乘法器1138还用于：基于第四频谱信号中各个频点对应的第一频点增益，确定第五频谱信号中各个频点对应的第二频点增益；基于第五频谱信号中的每个频点的第二频点值、和与频点对应的第二频点增益，确定每个频点的第二调整后频点值，以得到第五调整后频谱信号；

频谱信号整合器1136，用于将第四调整后频谱信号、和第五调整后频谱信号整合，得到整合后信号；

时域转换器1137具体用于对整合后信号进行时域转换，得到抑制后音频信号。

乘法器1138具体用于：

参照图29，图29为实现本公开实施例的回声及噪声抑制方法的第一终端110的部分的结构框图。该第一终端110包括：射频(Radio Frequency，简称RF)电路2910、存储器2915、输入单元2930、显示单元2940、传感器2950、音频电路2960、无线保真(wirelessfidelity，简称WiFi)模块2970、处理器2980、以及电源2990等部件。本领域技术人员可以理解，图29示出的终端结构并不构成对手机或电脑的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

RF电路2910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器2980处理；另外，将设计上行的数据发送给基站。

存储器2915可用于存储软件程序以及模块，处理器2980通过运行存储在存储器2915的软件程序以及模块，从而执行内容终端的各种功能应用以及数据处理。

输入单元2930可用于接收输入的数字或字符信息，以及产生与内容终端的设置以及功能控制有关的键信号输入。具体地，输入单元2930可包括触控面板2931以及其他输入装置2932。

显示单元2940可用于显示输入的信息或提供的信息以及内容终端的各种菜单。显示单元2940可包括显示面板2941。

音频电路2960、扬声器2961，传声器2962可提供音频接口。

在本实施例中，该终端所包括的处理器2980可以执行前面实施例的回声及噪声抑制方法。

本公开实施例的终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。本发明实施例可应用于各种场景，包括但不限于人工智能、大数据等。

图30为实施本公开实施例的回声及噪声抑制方法的回声及噪声抑制服务器3010的部分的结构框图。回声及噪声抑制服务器3010可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU) 3022(例如，一个或一个以上处理器)和存储器3032，一个或一个以上存储应用程序3042或数据3044的存储介质3030(例如一个或一个以上海量存储装置)。其中，存储器3032和存储介质3030可以是短暂存储或持久存储。存储在存储介质3030的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对回声及噪声抑制服务器3010中的一系列指令操作。更进一步地，中央处理器3022可以设置为与存储介质3030通信，在回声及噪声抑制服务器3010上执行存储介质3030中的一系列指令操作。

回声及噪声抑制服务器3010还可以包括一个或一个以上电源3026，一个或一个以上有线或无线网络接口3050，一个或一个以上输入输出接口3058，和/或，一个或一个以上操作系统3041，例如Windows ServerTM，Mac OS XTM，UnixTM ，LinuxTM，FreeBSDTM等等。

回声及噪声抑制服务器3010中的中央处理器3022可以用于执行本公开实施例的回声及噪声抑制方法。

本公开实施例还提供一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行前述各个实施例的回声及噪声抑制方法。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序。计算机设备的处理器读取该计算机程序并执行，使得该计算机设备执行实现上述的回声及噪声抑制方法。

本公开的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的内容，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“包含”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。

应当理解，在本公开中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联内容的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联内容是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

应了解，在本公开实施例的描述中，多个（或多项）的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。

在本公开所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，口型驱动服务器3010，或者网络装置等)执行本公开各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

还应了解，本公开实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

以上是对本公开的实施方式的具体说明，但本公开并不局限于上述实施方式，熟悉本领域的技术人员在不违背本公开精神的条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本公开权利要求所限定的范围内。

Claims

1.一种回声及噪声抑制方法，其特征在于，所述回声及噪声抑制方法用于抑制与第二终端通信的第一终端处的回声和噪声，所述回声由来自所述第二终端的第一语音在所述第一终端播放后重新进入所述第一终端的话筒引起，所述回声及噪声抑制方法包括：

获取所述第一终端的话筒处收集的第二音频信号；

2.根据权利要求1所述的回声及噪声抑制方法，其特征在于，所述基于所述第一音频信号、所述第二音频信号、和所述第三音频信号中的至少一个、以及所述第四音频信号，利用回声及噪声抑制神经网络，得到抑制了所述回声的非线性部分和所述噪声的抑制后音频信号，包括：

将所述第一音频信号、所述第二音频信号、所述第三音频信号、以及所述第四音频信号进行频域转换，得到第一频谱信号、第二频谱信号、第三频谱信号、以及第四频谱信号，其中，所述第一频谱信号、所述第二频谱信号、所述第三频谱信号、以及所述第四频谱信号各自具有第一数目个频点；

基于所述第一频谱信号、所述第二频谱信号、和所述第三频谱信号中的至少一个、以及所述第四频谱信号，利用所述回声及噪声抑制神经网络，得到第一数目个所述频点各自的第一频点增益；

基于所述第四频谱信号中的每个所述频点的第一频点值、和与所述频点对应的所述第一频点增益，确定每个所述频点的第一调整后频点值，以得到第四调整后频谱信号；

将所述第四调整后频谱信号进行时域转换，得到所述抑制后音频信号。

3.根据权利要求2所述的回声及噪声抑制方法，其特征在于，所述基于所述第一频谱信号、所述第二频谱信号、和所述第三频谱信号中的至少一个、以及所述第四频谱信号，利用所述回声及噪声抑制神经网络，得到第一数目个所述频点各自的第一频点增益，包括：

针对所述第一频谱信号、所述第二频谱信号、所述第三频谱信号、和所述第四频谱信号中的每个频谱信号，基于所述频谱信号中各频点的所述第一频点值，确定语音特征向量；

将所述第一频谱信号、所述第二频谱信号、和所述第三频谱信号中的至少一个、以及所述第四频谱信号的所述语音特征向量输入所述回声及噪声抑制神经网络，得到第一数目个所述频点各自的所述第一频点增益。

4.根据权利要求3所述的回声及噪声抑制方法，其特征在于，所述语音特征向量中的特征包括：巴克频率倒数系数、巴克频率倒数系数的一阶和二阶差分、基因相关度、基因周期和基因平稳度；

所述基于所述频谱信号中各频点的所述第一频点值，确定语音特征向量，包括：

基于每帧的所述频谱信号中各频点的所述第一频点值，确定该帧的各个心理声学频带的所述巴克频率倒数系数；

对前预定数目个所述心理声学频带的所述巴克频率倒数系数，求一阶差分和二阶差分；

基于前预定数目个所述心理声学频带中的各频点的所述第一频点值，确定前预定数目个所述心理声学频带的所述基因相关度；

基于所述频谱信号中各频点的所述第一频点值，确定所述帧内的基因周期；

基于所述频谱信号中各频点的所述第一频点值，确定所述帧内的基因平稳度。

5.根据权利要求3所述的回声及噪声抑制方法，其特征在于，所述将所述第一频谱信号、所述第二频谱信号、和所述第三频谱信号中的至少一个、以及所述第四频谱信号的所述语音特征向量输入所述回声及噪声抑制神经网络，得到第一数目个所述频点各自的第一频点增益，包括：

将第一数目个所述频点划分成多个频点组，每个所述频点组包括一个或多个相邻的所述频点；

将所述第一频谱信号、所述第二频谱信号、和所述第三频谱信号中的至少一个、以及所述第四频谱信号的所述语音特征向量输入所述回声及噪声抑制神经网络，得到多个频点组各自的第一频点组增益，并将所述频点组的所述第一频点组增益作为所述频点组中每个所述频点的所述第一频点增益。

6.根据权利要求5所述的回声及噪声抑制方法，其特征在于，所述回声及噪声抑制神经网络包括顺序连接的输入层、多个隐藏层、以及第一输出层，其中，所述输入层的节点数与所述语音特征向量中的特征数相同，所述第一输出层的节点数与所述频点组的数目相同，所述隐藏层的数目、以及每个所述隐藏层的节点数通过以下方式确定：

获取所述回声及噪声抑制神经网络的训练样本数；

获取所述第一终端的计算资源量；

基于所述训练样本数和所述计算资源量，确定所述隐藏层的数目、以及每个所述隐藏层的节点数的乘积；

将所述乘积分解成所述隐藏层的数目、以及每个所述隐藏层的节点数。

7.根据权利要求6所述的回声及噪声抑制方法，其特征在于，所述输入层为第一全连接层，所述隐藏层为循环神经网络层，所述第一输出层为串联的第二全连接层和指数归一化函数；

所述将所述第一频谱信号、所述第二频谱信号、和所述第三频谱信号中的至少一个、以及所述第四频谱信号的所述语音特征向量输入所述回声及噪声抑制神经网络，得到多个频点组各自的第一频点组增益，包括：

将所述第一频谱信号、所述第二频谱信号、和所述第三频谱信号中的至少一个、以及所述第四频谱信号的所述语音特征向量输入所述第一全连接层，所述第一全连接层的各节点的输出输入到第一个所述循环神经网络层的各节点；

将每个所述循环神经网络层的各节点的输出输入到下一个所述循环神经网络层的各节点，将最后一个所述循环神经网络层的各节点的输出输入到所述第二全连接层的各节点，由所述指数归一化函数得到多个频点组各自的第一频点组增益。

8.根据权利要求6所述的回声及噪声抑制方法，其特征在于，所述将所述第一频谱信号、所述第二频谱信号、和所述第三频谱信号中的至少一个、以及所述第四频谱信号的所述语音特征向量输入所述回声及噪声抑制神经网络，得到多个频点组各自的第一频点组增益，包括：

在所述第一频谱信号、所述第二频谱信号、所述第三频谱信号和所述第四频谱信号中，选取目标频谱信号；

在多个所述隐藏层中，选择所述目标频谱信号对应的目标隐藏层；

在将所述第一频谱信号、所述第二频谱信号、和所述第三频谱信号中的至少一个、以及所述第四频谱信号的所述语音特征向量输入所述输入层的同时，将所述目标频谱信号输入所述目标隐藏层，得到多个频点组各自的所述第一频点组增益。

9.根据权利要求8所述的回声及噪声抑制方法，其特征在于，所述在所述第一频谱信号、所述第二频谱信号、所述第三频谱信号和所述第四频谱信号中，选取目标频谱信号，包括：

获取所述第一频谱信号与所述第二频谱信号之间的第一频谱差信号、所述第一频谱信号与所述第三频谱信号之间的第二频谱差信号、和所述第一频谱信号与所述第四频谱信号之间的第三频谱差信号；

基于所述第一频谱差信号、所述第二频谱差信号、和所述第三频谱差信号，选取所述目标频谱信号。

10.根据权利要求9所述的回声及噪声抑制方法，其特征在于，所述基于所述第一频谱差信号、所述第二频谱差信号、和所述第三频谱差信号，选取所述目标频谱信号，包括：

如果所述第一频谱差信号的各频点的频点值的绝对值之和大于预定阈值，将所述第二频谱信号作为所述目标频谱信号；

如果所述第二频谱差信号的各频点的频点值的绝对值之和大于所述预定阈值，将所述第三频谱信号作为所述目标频谱信号；

如果所述第三频谱差信号的各频点的频点值的绝对值之和大于所述预定阈值，将所述第四频谱信号作为所述目标频谱信号；

如果所述第一频谱差信号的各频点的频点值的绝对值之和、所述第二频谱差信号的各频点的频点值的绝对值之和、以及所述第三频谱差信号的各频点的频点值的绝对值之和都不大于所述预定阈值，将所述第一频谱信号作为所述目标频谱信号。

11.根据权利要求10所述的回声及噪声抑制方法，其特征在于，所述在多个所述隐藏层中，选择所述目标频谱信号对应的目标隐藏层，包括：

获取所述和与所述目标隐藏层的对照表；

在所述第一频谱差信号、所述第二频谱差信号、或所述第三频谱差信号的各频点的频点值的绝对值之和大于预定阈值的情况下，基于所述和，参照所述对照表，确定所述目标隐藏层。

12.根据权利要求8所述的回声及噪声抑制方法，其特征在于，所述回声及噪声抑制神经网络还包括在多个所述隐藏层中第一个所述隐藏层之后引出的第二输出层，用于基于每个帧中的所述第一频谱信号、所述第二频谱信号、和所述第三频谱信号中的至少一个、以及所述第四频谱信号，输出第一标志，所述第一标志表示所述帧是否是语音帧；

所述回声及噪声抑制神经网络通过以下方式训练：

获取训练样本集，所述训练样本集中的训练样本的每个帧中包括第一样本频谱信号、第二样本频谱信号、第三样本频谱信号、和第四样本频谱信号，并具有所述帧的频点组增益标签；

将所述第一样本频谱信号、所述第二样本频谱信号、和所述第三样本频谱信号中的至少一个、以及所述第四样本频谱信号的语音特征向量输入所述回声及噪声抑制神经网络，由所述第一输出层输出所述帧中多个所述频点组各自的第一样本频点组增益，由所述第二输出层输出所述帧的所述第一标志；

基于各个所述帧的第一样本频点组增益、各个所述帧的所述第一标志、和各个所述帧的所述频点组增益标签，生成第一损失函数，用于训练所述回声及噪声抑制神经网络。

13.根据权利要求8所述的回声及噪声抑制方法，其特征在于，所述回声及噪声抑制神经网络还包括在多个所述隐藏层中第一个所述隐藏层之后引出的第三输出层，用于输出多个所述频点组各自的第二频点组增益；

所述回声及噪声抑制神经网络通过以下方式训练：

获取训练样本集，所述训练样本集中的训练样本包括第一样本频谱信号、第二样本频谱信号、第三样本频谱信号、和第四样本频谱信号，并具有频点组增益标签；

将所述第一样本频谱信号、所述第二样本频谱信号、和所述第三样本频谱信号中的至少一个、以及所述第四样本频谱信号的语音特征向量输入所述回声及噪声抑制神经网络，由所述第一输出层输出多个所述频点组各自的第一样本频点组增益，由所述第三输出层输出多个所述频点组各自的第二样本频点组增益；

基于所述第一样本频点组增益、所述第二样本频点组增益、和所述频点组增益标签，生成第二损失函数，用于训练所述回声及噪声抑制神经网络。

14.根据权利要求2所述的回声及噪声抑制方法，其特征在于，所述第一数目通过以下方式确定：

获取所述第一终端的环境视频；

从所述环境视频，获取环境干扰等级；

获取目标语音清晰度；

基于所述环境干扰等级、和所述目标语音清晰度，确定所述第一数目。

15.根据权利要求2所述的回声及噪声抑制方法，其特征在于，

所述获取来自所述第二终端的第一音频信号，包括：

获取来自所述第二终端的音频信号；

将所述音频信号分解为所述第一音频信号和第五音频信号，所述第一音频信号具有第一频段，所述第五音频信号具有第二频段，所述第一频段的频率小于所述第二频段的频率；

所述将所述第四调整后频谱信号进行时域转换，得到所述抑制后音频信号，包括：

将第五音频信号进行频域转换，得到第五频谱信号；

基于所述第四频谱信号中各个所述频点对应的第一频点增益，确定所述第五频谱信号中各个所述频点对应的第二频点增益；

基于所述第五频谱信号中的每个所述频点的第二频点值、和与所述频点对应的所述第二频点增益，确定每个所述频点的第二调整后频点值，以得到第五调整后频谱信号；

将所述第四调整后频谱信号、和所述第五调整后频谱信号整合后进行时域转换，得到所述抑制后音频信号。

16.根据权利要求15所述的回声及噪声抑制方法，其特征在于，所述第五音频信号包括第一音频子信号和第二音频子信号，所述第一音频子信号具有属于所述第二频段的第一子频段，所述第二音频子信号具有属于所述第二频段的第二子频段，所述第一子频段的频率小于所述第二子频段的频率；

所述基于所述第四频谱信号中各个所述频点对应的第一频点增益，确定所述第五频谱信号中各个所述频点对应的第二频点增益，包括：

将所述第四频谱信号中各个所述频点对应的第一频点增益的均值，作为所述第一子频段中各个所述频点对应的所述第二频点增益；

将所述第四频谱信号中各个所述频点对应的第一频点增益的最小值，作为所述第二子频段中各个所述频点对应的所述第二频点增益。

17.一种回声及噪声抑制装置，其特征在于，所述回声及噪声抑制装置位于与第二终端通信的第一终端中，用于抑制第一终端处的回声和噪声，所述回声由来自所述第二终端的第一语音在所述第一终端播放后重新进入所述第一终端引起，所述回声及噪声抑制装置包括：

话筒，用于收集所述第一终端处的第二音频信号；

18.一种电子设备，其特征在于，包括根据权利要求17所示的回声及噪声抑制装置。

19.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被第一终端执行时，基于第一音频信号、第二音频信号、和第三音频信号中的至少一个、以及第四音频信号，利用回声及噪声抑制神经网络，生成所述第二音频信号抑制了回声的非线性部分和噪声后的抑制后音频信号，所述回声由来自第二终端的第一语音在所述第一终端播放后重新进入所述第一终端引起，所述第二终端与所述第一终端通信，所述第一终端包括：

话筒，用于收集所述第一终端处的所述第二音频信号；

20.一种计算机程序产品，该计算机程序产品包括计算机程序，其特征在于，所述计算机程序被第一终端的处理器读取并执行，使得该第一终端基于第一音频信号、第二音频信号、和第三音频信号中的至少一个、以及第四音频信号，利用回声及噪声抑制神经网络，生成所述第二音频信号抑制了回声的非线性部分和噪声后的抑制后音频信号，所述回声由来自第二终端的第一语音在所述第一终端播放后重新进入所述第一终端引起，所述第二终端与所述第一终端通信，所述第一终端包括：

话筒，用于收集所述第一终端处的所述第二音频信号；