CN108696648A

CN108696648A - 一种短时语音信号处理的方法、装置、设备及存储介质

Info

Publication number: CN108696648A
Application number: CN201810469603.4A
Authority: CN
Inventors: 陈超; 邓滨; 宋晨枫
Original assignee: Beijing Fish In Home Technology Co Ltd
Current assignee: Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-05-16
Filing date: 2018-05-16
Publication date: 2018-10-23
Anticipated expiration: 2038-05-16
Also published as: CN108696648B

Abstract

本发明实施例公开了一种短时语音信号处理的方法、装置、设备及存储介质。其中，该方法包括：获取近端时域信号，并确定与近端时域信号匹配的远端时域信号以及误差时域信号；确定与近端时域信号匹配的音频采集状态，音频采集状态包括：单讲状态或者双讲状态；根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱；根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号。本发明实施例的技术方案可以在回声场景下，有效抑制语音信号中的残留回声和环境噪声，提高语音信号清晰度。

Description

一种短时语音信号处理的方法、装置、设备及存储介质

技术领域

本发明实施例涉及音频处理技术，尤其涉及一种短时语音信号处理的方法、装置、设备及存储介质。

背景技术

随着终端的不断发展，越来越多的终端具备音频输入与音频输出的功能，并由于输出音频再次被音频输入设备拾取，形成回声。例如，具有扬声器和麦克风的智能设备。回声信号的存在会对音频信号的质量造成影响。

现有技术中，对终端的回声的处理一般是采用自适应滤波器构造回声消除器，来对回声进行消除。从麦克风拾取的近端音频信号中减去自适应滤波器输出估计回声信号，其相减结果称之为误差信号。理想情况下认为误差信号是使用者的有效语音信号。

现有技术存在以下缺陷：在终端同时使用音频输入与音频输出功能的情况下，例如，智能设备的扬声器和麦克风同时工作时，经过预处理的声音信号中的回声信号消除不干净，仍包含残留回声和环境噪声。在终端的短时语音信号处理系统中，短时的语音信号中的残留回声和环境噪声会降低语音信号清晰度，会对系统的正常工作造成影响。例如，在语音短消息应用场景中，残留回声和环境噪声会影响语音质量；对于小词量的语音识别系统，残留回声和环境噪声会影响识别率。

发明内容

本发明提供一种短时语音信号处理的方法、装置、设备及存储介质，以实现在回声场景下，有效抑制语音信号中的残留回声和环境噪声，提高语音信号清晰度。

第一方面，本发明实施例提供了一种短时语音信号处理的方法，包括：

获取近端时域信号，并确定与近端时域信号匹配的远端时域信号以及误差时域信号；

根据与近端时域信号、远端时域信号以及误差时域信号分别对应的频域信号，确定与近端时域信号匹配的音频采集状态，音频采集状态包括：单讲状态或者双讲状态；

根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱；

根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号。

第二方面，本发明实施例还提供了一种短时语音信号处理的装置，包括：

信号获取模块，用于获取近端时域信号，并确定与近端时域信号匹配的远端时域信号以及误差时域信号；

状态确定模块，用于根据与近端时域信号、远端时域信号以及误差时域信号分别对应的频域信号，确定与近端时域信号匹配的音频采集状态，音频采集状态包括：单讲状态或者双讲状态；

幅度谱确定模块，用于根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱；

信号生成模块，用于根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号。

第三方面，本发明实施例还提供了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当一个或多个程序被所述一个或多个处理器执行，使得一个或多个处理器实现本发明实施例所提供的短时语音信号处理的方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例所提供的短时语音信号处理的方法。

本发明实施例的技术方案，通过根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱，并根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号，增加了对可以在回声场景下有效抑制语音信号中的残留回声和环境噪声，提高语音信号清晰度。

附图说明

图1为本发明实施例一提供的一种短时语音信号处理的方法的流程图；

图2为本发明实施例二提供的一种短时语音信号处理的方法的流程图；

图3为本发明实施例三提供的一种短时语音信号处理的方法的流程图；

图4为本发明实施例四提供的一种短时语音信号处理的装置的结构框图；

图5为本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种短时语音信号处理的方法的流程图，本实施例可适用于对语音信号进行处理的情况，该方法可以由语音信号处理的装置来执行，所述装置由软件和/或硬件来执行，并一般可集成在语音信号处理的设备中。语音信号处理的设备包括但不限定于计算机等。示例性的，语音信号处理的设备包括具有扬声器-麦克风回路的终端设备，可以是智能手机、智能手环等音频采集设备、智能音箱或者智能电视等。尤其是针对语音信号处理的设备的短时语音信号处理系统，该方法可以有效抑制短时语音信号中的残留回声和环境噪声，提高短时语音信号清晰度，保证系统的正常工作。例如，在语音短消息应用场景中，该方法可以有效抑制短时语音信号中的残留回声和环境噪声，残留回声和环境噪声会影响语音质量。针对语音信号处理的设备的小词量的语音识别系统，该方法可以有效抑制短时语音信号中的残留回声和环境噪声，提高短时语音信号清晰度，提高识别率。如图1所示，其具体包括如下步骤：

步骤101、获取近端时域信号，并确定与近端时域信号匹配的远端时域信号以及误差时域信号。

其中，远端时域信号指的是语音信号处理的设备的信号接收模块接收的，用于播放的音频信号。近端时域信号指的是语音信号处理的设备的信号采集模块采集的音频信号。可选的，近端时域信号可以包括用户的近端语音信号、环境噪声信号以及终端播放远端信号时被再次采集的回声信号。

获取信号采集模块采集的近端时域信号，并确定在信号采集模块采集近端时域信号的同时，接收模块接收并播放的音频信号，即与近端时域信号匹配的远端时域信号。

误差时域信号与远端时域信号和近端时域信号相关。根据近端时域信号和远端时域信号确定与近端时域信号匹配的误差时域信号。可选的，基于自适应滤波器对远端时域信号进行滤波处理，得到时域估计回声信号，将近端时域信号与时域估计回声信号的差值确定为误差时域信号。可选的，误差时域信号可以包含残留回声信号、用户的近端语音信号以及环境噪声信号。

对于语音识别系统来说，只有用户的近端语音信号是有效的，残留回声信号和环境噪声信号都是干扰信息，需要对误差时域信号进行后处理，尽可能地保留用户的近端语音信号，抑制残留回声信号和环境噪声信号。

步骤102、根据与近端时域信号、远端时域信号以及误差时域信号分别对应的频域信号，确定与近端时域信号匹配的音频采集状态，音频采集状态包括：单讲状态或者双讲状态。

其中，将近端时域信号、远端时域信号以及误差时域信号在时域上分成帧的形式。可以通过对每一帧近端时域信号、远端时域信号以及误差时域信号进行傅里叶变换得到对应的频域信号，即近端频域信号、远端频域信号和误差频域信号。对当前帧的近端时域信号、远端时域信号以及误差时域信号进行傅里叶变换得到对应的频域信号，即当前帧的近端频域信号、远端频域信号和误差频域信号。

获取当前帧的近端频域信号、远端频域信号和误差频域信号之后，根据近端频域信号、远端频域信号和误差频域信号确定近端频域信号与误差频域信号的第一相干系数和远端频域信号与误差频域信号的第二相干系数。然后，根据第一相干系数与第二相干系数确定当前帧的相干性差值和差值跟踪值，其中，当前帧的差值跟踪值根据当前帧的相干性差值和前一帧的差值跟踪值确定。然后，根据当前帧的相干性差值与差值跟踪值确定双讲概率。可选的，双讲概率等于相干性差值与差值跟踪值的差值。确定当前帧的双讲概率后，获取预设的概率判决阈值，根据概率判决阈值和当前帧的双讲概率确定当前帧的音频采集状态。具体的，若双讲概率大于概率判决阈值，则确定当前帧的音频采集状态为双讲状态；若双讲概率小于等于所述概率判决阈值，则确定当前帧的音频采集状态为单讲状态。

当前帧的音频采集状态为双讲状态，表示当前帧的近端频域信号中有用户的近端语音信号，即输出时域信号，需要有效抑制近端语音信号中的残留回声和环境噪声，提高语音信号清晰度；当前帧的音频采集状态为单讲状态，表示当前帧的近端频域信号中没有用户的近端语音信号。

步骤103、根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱。

其中，根据与近端时域信号对应的误差时域信号和音频采集状态确定与近端时域信号对应的误差时域信号的噪声阈值。噪声阈值是指误差时域信号中的噪声的估计值。噪声包括残留回声和环境噪声。获取与近端时域信号对应的误差时域信号的噪声阈值后，根据与近端时域信号对应的误差时域信号、远端时域信号、音频采集状态以及噪声阈值确定近端时域信号中的残留回声的幅度谱，即残留回声幅度谱，并根据误差时域信号、音频采集状态以及噪声阈值确定近端时域信号中的环境噪声的幅度谱，即环境噪声幅度谱。

步骤104、根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号。

其中，通过谱减法，从误差时域信号中消除残留回声信号和环境噪声信号。谱减法是语音去噪中常用的方法，其基本思想是通过估计语音中的噪声成分，然后用含噪声语音减去估计的噪声就得到了纯净的语音。

可选的，根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号，包括：对误差时域信号进行短时傅里叶变换，得到误差频域信号；根据以下公式，计算与近端时域信号匹配的输出频域信号：

S(f,i)＝E(f,i)-N(f,i)-Y(f,i)，

其中，S(f,i)为输出频域信号，E(f,i)为误差频域信号，N(f,i)为环境噪声幅度谱，Y(f,i)为残留回声幅度谱；对输出频域信号进行短时傅里叶逆变换，得到输出时域信号。

可选的，为了防止音乐噪声，可以进一步限定：

S(f,i)＝max(0,S(f,i))，

其中，S(f,i)为输出频域信号。

残留回声幅度谱是残留回声信号对应的频域信号的估计值。环境噪声幅度谱是环境噪声信号对应的频域信号的估计值。对误差时域信号进行短时傅里叶变换，得到误差频域信号，然后用误差频域信号减去残留回声幅度谱和环境噪声幅度谱，从而在频域上消除误差时域信号中的残留回声信号和环境噪声信号，得到输出频域信号，即用户的近端语音信号对应的频域信号。再对输出频域信号进行快速傅里叶逆变换即可得到输出时域信号，即用户的近端语音信号。

经过实验证明，本实施例提供的一种短时语音信号处理的方法应用于回声场景下存在残余回声的情况，可以提高语音识别系统的识别率，同时具有计算量小，效率高的特点。此外，本实施例提供的一种短时语音信号处理的方法不需要获取大量数据来优化语音识别系统的模型和参数。

本实施例提供的一种短时语音信号处理的方法，通过根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱，并根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号，可以在回声场景下有效抑制语音信号中的残留回声和环境噪声，提高语音信号清晰度。

实施例二

图2为本发明实施例二提供的一种短时语音信号处理的方法的流程图，本实施例在上述各实施例的基础上，对步骤102进行优化：根据与近端时域信号、远端时域信号以及误差时域信号分别对应的频域信号，确定与近端时域信号匹配的音频采集状态，音频采集状态包括：单讲状态或者双讲状态，包括：获取当前帧的近端频域信号和远端频域信号，并根据近端频域信号和远端频域信号确定误差频域信号，其中，近端频域信号、远端频域信号和误差频域信号为与近端时域信号、远端时域语音信号以及误差时域信号分别对应的频域信号；根据近端频域信号、远端频域信号和误差频域信号确定近端频域信号与误差频域信号的第一相干系数和远端频域信号与误差频域信号的第二相干系数；根据第一相干系数与第二相干系数确定当前帧的相干性差值和差值跟踪值，其中当前帧的差值跟踪值根据当前帧的相干性差值和前一帧的差值跟踪值确定；根据所述相干性差值与所述差值跟踪值确定双讲概率；若双讲概率大于概率判决阈值，则确定当前帧的音频采集状态为双讲状态；若双讲概率小于等于概率判决阈值，则确定当前帧的音频采集状态为单讲状态。

如图2所示，该方法包括：

步骤201、获取近端时域信号，并确定与近端时域信号匹配的远端时域信号以及误差时域信号。

步骤202、获取当前帧的近端频域信号、远端频域信号和误差频域信号，其中，近端频域信号、远端频域信号和误差频域信号为与近端时域信号、远端时域语音信号以及误差时域信号分别对应的频域信号。

步骤203、根据近端频域信号、远端频域信号和误差频域信号确定近端频域信号与误差频域信号的第一相干系数和远端频域信号与误差频域信号的第二相干系数。

其中，相干系数用于表征两个信号的相干性，相干系数越大，表明对应两信号的相干性越高。

可选的，计算近端频域信号的自功率谱、误差频域信号的自功率谱，以及近端频域信号与误差频域信号的互功率谱；计算近端频域信号与误差频域信号的互功率谱的平方值，即第一平方值；计算近端频域信号的自功率谱与误差频域信号的自功率谱的乘积，即第一乘积；近端频域信号与误差频域信号的相干系数等于第一平方值和第一乘积的比值，即第一相干系数。

可选的，计算远端频域信号的自功率谱、误差频域信号的自功率谱，以及远端频域信号与误差频域信号的互功率谱；计算远端频域信号与误差频域信号的互功率谱的平方值，即第二平方值；计算远端频域信号的自功率谱与误差频域信号的自功率谱的乘积，即第二乘积；远端频域信号与误差频域信号的相干系数等于第二平方值和第二乘积的比值，即第二相干系数。

第一相干系数用于表征近端频域信号与误差频域信号的相干性，第二相干系数用于表征远端频域信号与误差频域信号的相干性，示例性的，第一相干系数越大，表明近端频域信号与误差频域信号的相干性越高，若第一相干系数为1，则表明不存在远端频域信号；同理，第二相干系数越大，表明远端频域信号与误差频域信号的相干性越高，若第二相干系数为1，则表明不存在近端频域信号。

步骤204、根据第一相干系数与第二相干系数确定当前帧的相干性差值和差值跟踪值，其中，当前帧的差值跟踪值根据当前帧的相干性差值和前一帧的差值跟踪值确定。

其中，相干性差值与第一相干系数和第二相干系数的差值成正比，示例性的，相干性差值为当前帧的各频率的第一相干系数平均值和第二相干系数平均值的差值。

差值跟踪值用于表征各帧信号的相干性差值的变化情况，当前帧的差值跟踪值根据当前帧的相干性差值和前一帧的差值跟踪值确定，且与当前帧的相干性差值的变化趋势相关。

可选的，根据以下公式，计算第i帧的差值跟踪值：

其中，ξ_s(i)为第i帧的差值跟踪值，α_s3u为上升判据平滑因子，α_s3d为下降判据平滑因子，且0<α_s3u<α_s3d<1，ξ_s(i-1)为第i-1帧的差值跟踪值，ξ_s(i)可以是0。

步骤205、根据当前帧的相干性差值与差值跟踪值确定双讲概率。

其中，当前帧的双讲概率等于当前帧的相干性差值与差值跟踪值的差值。

步骤206、若双讲概率大于概率判决阈值，则确定当前帧的音频采集状态为双讲状态。

其中，确定当前帧的双讲概率后，获取预设的概率判决阈值，根据概率判决阈值和当前帧的双讲概率确定当前帧的音频采集状态。若双讲概率大于概率判决阈值，则确定当前帧的音频采集状态为双讲状态。当前帧的音频采集状态为双讲状态，表示当前帧的近端频域信号中有用户的近端语音信号，即输出时域信号，需要有效抑制近端语音信号中的残留回声和环境噪声，提高语音信号清晰度。

可选的，若双讲概率小于等于概率判决阈值，则确定当前帧的音频采集状态为单讲状态。

其中，当前帧的音频采集状态为单讲状态，表示当前帧的近端频域信号中没有用户的近端语音信号。

可选的，根据双讲概率与概率判决阈值确定双讲标志。用双讲标志表示当前帧的音频采集状态。具体的，根据以下公式，计算第i帧的双讲标志：

其中，η_d(i)为第i帧的双讲标志，p_d(i)为第i帧的双讲概率，η为概率判决阈值。经过上述公式计算之后，会形成二值化的双讲标志。

双讲标志为1，则表示当前帧的近端频域信号中有用户的近端语音信号，即输出时域信号；双讲标志为0，则表示当前帧的近端频域信号中没有用户的近端语音信号。

步骤207、根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱。

步骤208、根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号。

本实施例提供的一种短时语音信号处理的方法，通过根据近端频域信号与误差频域信号的第一相干系数和远端频域信号与误差频域信号的第二相干系数确定当前帧的相干性差值和差值跟踪值，然后根据当前帧的相干性差值与差值跟踪值确定双讲概率，并根据双讲概率确定当前帧的音频采集状态，可以在回声场景下确定每一帧音频信号的音频采集状态，从而准确判断当前帧的近端频域信号中是否包含用户的近端语音信号。

实施例三

图3为本发明实施例三提供的一种短时语音信号处理的方法的流程图，本实施例在上述实施例的基础上，对步骤103进行优化：根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱，包括：根据误差时域信号和音频采集状态确定误差时域信号的噪声阈值，其中，噪声包括残留回声和环境噪声；根据误差时域信号、远端时域信号、音频采集状态以及噪声阈值确定残留回声幅度谱；根据误差时域信号、音频采集状态以及噪声阈值确定所述环境噪声幅度谱。

如图3所示，该方法包括：

步骤301、获取近端时域信号，并确定与近端时域信号匹配的远端时域信号以及误差时域信号。

步骤302、根据与近端时域信号、远端时域信号以及误差时域信号分别对应的频域信号，确定与近端时域信号匹配的音频采集状态，音频采集状态包括：单讲状态或者双讲状态。

步骤303、根据误差时域信号和音频采集状态确定误差时域信号的噪声阈值，其中，噪声包括残留回声和环境噪声。

可选的，根据误差时域信号和音频采集状态确定误差时域信号的噪声阈值，包括：根据误差时域信号确定误差时域信号能量；根据误差时域信号能量确定误差时域信号能量的包络值；根据误差时域信号能量、误差时域信号能量包络值以及音频采集状态确定误差时域信号的噪声阈值。

具体的，设误差时域信号为e(k)，在时域上将误差时域信号e(k)分成帧的形式。根据以下公式，计算第i帧误差时域信号的误差时域信号能量：

其中，E_e(i)为第i帧的误差时域信号的误差时域信号能量，e(k)为误差时域信号，k＝N_f*i-n。i代表帧序号，i＝1，2，…，I_f。N_f是预设的每帧信号的采样数。例如，在16kHz采样率下，以10ms为一帧，N_f的值即为160。n＝0，1，2，…，N_f-1。

具体的，根据以下公式，计算第i帧的误差时域信号的误差时域信号能量的包络值：

其中，EV_e(i)为第i帧的误差时域信号能量的包络值，EV_e(i-1)为第i-1帧的误差时域信号能量的包络值，E_e(i)为第i帧的误差时域信号能量，α_ep为预设的包络值计算系数，0<α_ep<1。

可选的，设第i帧误差时域信号能量最小值为E_e′(i)。为了保证E_e′(i)不陷入谷底，添加一个数值较小的常数，即常小数。具体的，根据以下公式，计算第i帧误差时域信号能量最小值：

E_e′(i)＝min(E_e′(i-1),E_e(i-1))+ε_e，

其中，E_e′(i)为第i帧的误差时域信号能量最小值，E_e′(i-1)为第i-1帧的误差时域信号能量最小值，E_e(i-1)为第i-1帧的误差时域信号能量，ε_e为预设的常小数。

具体的，根据误差时域信号能量、误差时域信号能量包络值以及音频采集状态，计算第i帧的误差时域信号的初始噪声阈值，之后根据第i帧的误差时域信号的初始噪声阈值计算第i帧的误差时域信号的对数域噪声阈值，对数域噪声阈值加入非线性修正，将修正后的对数域噪声阈值作为第i帧的误差时域信号的噪声阈值。

其中，根据以下公式，计算第i帧的误差时域信号的初始噪声阈值：

其中，T_e(i)为第i帧的误差时域信号的初始噪声阈值，T_e(i-1)为第i-1帧的误差时域信号的原始噪声阈值，E_e(i)为第i帧的误差时域信号能量，E_e′(i)为第i帧的误差时域信号能量最小值，η_d(i)为第i帧的双讲标志，α_s21、α_s22、α_s23和α_s24为预设的包络值计算系数，1>α_s21>α_s22>α_s23>α_s24>0。

其中，ηd(i)＝0表示当前帧的近端频域信号中没有用户的近端语音信号。T_e(i)对近端频域信号中的残留回声信号和环境噪声信号进行跟踪。可选的，当残留回声信号和环境噪声信号的能量大的时候，可以更新α_s21、α_s22、α_s23和α_s24，以使T_e(i)的跟踪速度会相应的快一些。其他情况下，α_s21、α_s22、α_s23和α_s24不更新。

获取第i帧的误差时域信号的初始噪声阈值T_e(i)后，根据以下公式，计算第i帧的误差时域信号的对数域噪声阈值：

其中，L_Te(i)为第i帧的误差时域信号的对数域噪声阈值，T_e(i)为第i帧的误差时域信号的初始噪声阈值，N_f是预设的每帧信号的采样数。

获取第i帧的误差时域信号的对数域噪声阈值L_Te(i)后，对L_Te(i)加入非线性修正，让L_Te(i)尽量集中到35到45dB的能量区间，将修正后的对数域噪声阈值作为第i帧的误差时域信号的噪声阈值。

具体的，根据以下公式，计算第i帧的误差时域信号的噪声阈值：

其中，L′_Te(i)为第i帧的误差时域信号的噪声阈值，L_Te(i)为第i帧的误差时域信号的对数域噪声阈值。

步骤304、根据误差时域信号、远端时域信号、音频采集状态以及噪声阈值确定残留回声幅度谱。

可选的，根据误差时域信号、远端时域信号、音频采集状态以及噪声阈值确定残留回声幅度谱，包括：根据误差时域信号确定误差时域信号能量；根据远端时域信号确定远端时域信号能量；将远端时域信号能量与预设阈值进行比较，若远端时域信号能量大于等于预设阈值，则根据误差时域信号、误差时域信号能量、远端时域信号、音频采集状态以及噪声阈值确定残留回声幅度谱。

具体的，根据以下公式，计算第i帧误差时域信号的误差时域信号能量：

具体的，设远端时域信号为x(k)，在时域上将远端时域信号为x(k)分成帧的形式。根据以下公式，计算第i帧的远端时域信号的远端时域信号能量：

其中，E_x(i)为第i帧的远端时域信号的远端时域信号能量，x(k)为远端时域信号，k＝N_f*i-n。i代表帧序号。N_f是预设的每帧信号的采样数。n＝0，1，2，…，N_f-1。

具体的，设T_x为预设阈值。预设阈值为一个比较小的值。将第i帧的远端时域信号能量E_x(i)与T_x进行比较。其中，若E_x(i)大于等于T_x，则认为第i帧的近端时域信号中包含残留回声信号，则根据第i帧的误差时域信号、误差时域信号能量、远端时域信号、音频采集状态以及噪声阈值确定第i帧的残留回声幅度谱；若E_x(i)小于T_x，则认为第i帧的近端时域信号中不包含残留回声信号，不再进行进一步计算。

其中，若E_x(i)大于等于T_x，则根据误差时域信号、误差时域信号能量、远端时域信号、音频采集状态以及噪声阈值计算第i帧的回声抑制系数和回声修正系数，然后对远端时域信号进行傅里叶变换得到第i帧的远端频域信号，并根据第i帧的回声抑制系数、回声修正系数和远端频域信号确定第i帧的残留回声幅度谱。

具体的，根据以下公式，计算第i帧的回声抑制系数：

w(f,i)＝α_s7(i)w(f,i-1)+(1-α_s7(i))r_ex(f,i)，

其中，w(f,i)为第i帧的回声抑制系数，w(i-1)为第i-1帧的回声抑制系数，r_ex(i)为第i帧的频域上的误差信号能量和频域上的远端时域信号能量的比值，α_s7(i)为用于估计回声抑制系数的系数，α_s7(i)由误差时域信号的信噪比的大小决定。具体的，第i帧的误差时域信号的信噪比为：10log₁₀(E_e(i))-L′_Te(i)。E_e(i)为第i帧的误差时域信号能量，L′_Te(i)为第i帧的噪声阈值。

具体的，根据以下公式，对误差时域信号进行短时傅里叶变换，得到误差频域信号：

E(f,i)＝|STFT(e(k))|，

其中，E(f,i)为第i帧的误差频域信号，e(k)为误差时域信号，f是频率，i是帧数。

具体的，根据以下公式，对远端时域信号进行短时傅里叶变换，得到第i帧的远端频域信号：

X(f,i)＝|STFT(x(k))|，

其中，X(f,i)为第i帧的远端频域信号，x(k)为远端时域信号。

具体的，根据以下公式，计算第i帧的频域上的误差信号能量和频域上的远端时域信号能量的比值r_ex(i)：

其中，r_ex(f,i)为第i帧的频域上的误差信号能量和频域上的远端时域信号能量的比值，E²(f,i)为频域上的误差信号能量，E(f,i)为第i帧的误差频域信号，X²(f,i)为频域上的远端时域信号能量，X(f,i)为第i帧的远端频域信号。r_ex(f,i)粗略表示了残留回声的大小。

具体的，根据以下公式，计算用于估计回声抑制系数的参数α_s7(i)：

其中，α_s7(i)为用于第i帧的估计回声抑制系数的系数，α_s7(i-1)为用于第i-1帧的估计回声抑制系数的系数，η_d(i)为第i帧的双讲标志，E_e(i)为第i帧的误差时域信号能量，L′_Te(i)为第i帧的噪声阈值，w_c1、w_c2、w_c3和w_c4为预设参数，1>w_c1>w_c4>w_c3>w_c2>0。根据第i帧的误差时域信号的信噪比来调节用于估计回声抑制系数的系数，遵循信噪比大的时候，系数跟踪慢的原则。

具体的，根据以下公式，计算第i帧的回声修正系数：

其中，α_s8(i)为第i帧的回声修正系数，α_s8(i-1)为第i-1的帧回声修正系数，η_d(k)为第i帧的双讲标志，E_e(i)为第i帧的误差时域信号能量，L′_Te(i)为第i帧的噪声阈值，w_nc1、w_nc2、w_nc3和w_nc4为预设参数，1>w_nc1>w_nc4>w_nc3>w_nc2>0。根据第i帧的误差时域信号的信噪比来调节回声修正系数，遵循信噪比大的时候，回声修正系数小的原则。

具体的，根据以下公式，计算第i帧的残留回声幅度谱：

Y(f,i)＝α_s8(i)X(f,i)w(f,i)，

其中，Y(f,i)为第i帧的残留回声幅度谱，α_s8(i)为第i帧的回声修正系数，X(f,i)为第i帧的远端频域信号，w(f,i)为第i帧的回声抑制系数。

步骤305、根据误差时域信号、音频采集状态以及噪声阈值确定环境噪声幅度谱。

可选的，根据误差时域信号、音频采集状态以及噪声阈值确定环境噪声幅度谱，包括：根据误差时域信号确定误差时域信号能量；根据误差时域信号确定误差时域信号绝对值，并根据误差时域信号绝对值确定误差时域信号绝对值的包络值；根据噪声阈值确定噪声阈值上界和噪声阈值下界；根据音频采集状态、误差时域信号绝对值的包络值、噪声阈值上界以及噪声阈值下界确定环境噪声抑制系数；根据环境噪声抑制系数对误差时域信号进行噪声抑制，得到抑制后误差时域信号；对抑制后误差时域信号进行短时傅里叶变换，得到抑制后误差频域信号；根据抑制后误差频域信号、误差时域信号能量、噪声阈值以及环境噪声抑制系数确定环境噪声幅度谱。

具体的，通过对误差时域信号取绝对值，确定误差时域信号绝对值。根据以下公式，计算误差时域信号绝对值的包络值：

其中，EV_|e|(k)为当前处理时刻的误差时域信号绝对值的包络值，EV_|e|(k-1)为当前处理时刻的前一时刻的误差时域信号绝对值的包络值，|e(k)|为当前处理时刻的误差时域信号绝对值，α_s3为预设参数，0<α_s3<1。

具体的，根据以下公式，计算噪声阈值上界：

其中，为第i帧的噪声阈值上界，L′_Te(i)为第i帧的噪声阈值。

具体的，根据以下公式，计算噪声阈值下界：

其中，为第i帧的噪声阈值下界，L′_Te(i)为第i帧的噪声阈值。

具体的，根据第i帧的音频采集状态η_d(i)、误差时域信号绝对值的包络值EV_|e|(k)、噪声阈值上界以及噪声阈值下界确定环境噪声抑制系数。

其中，若η_d(i)＝0，则根据以下公式，计算环境噪声抑制系数：

g_m(k)＝α_s41g_m(k-1)+(1-α_s41)T₄₁；

若η_d(i)＝1，则根据以下公式，计算环境噪声抑制系数：

g_m(k)＝α_s42g_m(k-1)+(1-α_s42)T₄₂；

若η_d(i)＝1，则根据以下公式，计算环境噪声抑制系数：

g_m(k)＝α_s44g_m(k-1)+(1-α_s44)；

若η_d(i)＝1，则根据以下公式，计算环境噪声抑制系数：

g_m(k)＝1；

其中，g_m(k)为当前处理时刻的环境噪声抑制系数，g_m(k-1)为当前处理时刻的前一时刻的环境噪声抑制系数，η_d(i)为当前处理时刻的音频采集状态，EV_|e|(k)为当前处理时刻的误差时域信号绝对值的包络值，为与当前处理时刻对应的第i帧噪声阈值上界，与当前处理时刻对应的第i帧噪声阈值下界，α_s41、α_s42、α_s43和α_s44为预设参数，其中，0<α_s44<α_s43<α_s42<1，T₄₁、T₄₂和T₄₃为预设的用于调节跟踪速度的系数，0<T₄₁<1，0<T₄₂<1，0<T₄₃<1。

通过环境噪声抑制系数g_m(k)对环境噪声信号进行初步抑制。其中，当η_d(i)＝0时，表明此时没有用户的近端语音信号，g_m(k)值最小；当η_d(i)＝1,时，表明此时有用户的近端语音，同时噪声很大，g_m(k)值次小；当η_d(i)＝1，时，有用户的近端语音信号，噪声较大，g_m(k)值中等；当η_d(i)＝1,时，有用户的近端语音信号，噪声较小，g_m(k)值次大；当ηd(k)＝1,EV_|e|(k)时，有用户的近端语音信号，噪声很小：g_m(k)值最大。

具体的，根据以下公式，对误差时域信号进行噪声抑制，得到抑制后误差时域信号：

e′(k)＝g_m(k)e(k)，

其中，e′(k)为抑制后误差时域信号，e(k)为误差时域信号，g_m(k)为环境噪声抑制系数。

具体的，根据以下公式，对抑制后误差时域信号进行短时傅里叶变换，得到抑制后误差频域信号：

E′(f,i)＝|STFT(e′(k))|，

其中，E′(f,i)为第i帧的抑制后误差频域信号，e′(k)为抑制后误差时域信号。

根据环境噪声抑制系数g_m(k)确定当前帧的环境噪声帧抑制系数g_m1(i)。具体的，第i帧的误差时域信号对应N_f个环境噪声抑制系数g_m(k)，k＝1，2，…N_f，将第N_f个环境噪声抑制系数g_m(N_f)确定为第i帧的环境噪声帧抑制系数g_m1(i)。例如，第i帧的误差时域信号对应1024个环境噪声抑制系数g_m(k)，k＝1，2，…1024，将第1024个环境噪声抑制系数g_m(1024)确定为第i帧的环境噪声帧抑制系数g_m1(i)。

具体的，通过第i帧的抑制后误差频域信号E′(f,i)、误差时域信号能量E_e(i)，噪声阈值L′_Te(i)，以及环境噪声帧抑制系数g_m1(i)来对环境噪声幅度谱N(f,i)进行估计。

当第i帧的双讲标志η_d(i)取1时，根据下述公式，计算第i帧的环境噪声幅度谱：

若L′_Te(i)≤18，则根据以下公式，计算第i帧的环境噪声幅度谱：

N(f,i)＝0；

若18<L′_Te(i)≤42，(L′_Te(i)-10log₁₀(E_e(i)))<3.5，则根据以下公式，计算第i帧的环境噪声幅度谱：

若42<L′_Te(i)≤45，(L′_Te(i)-10log₁₀(E_e(i)))<4，则根据以下公式，计算第i帧的环境噪声幅度谱：

若45<L′_Te(i)≤48，(L′_Te(i)-10log₁₀(E_e(i)))<4.5，则根据以下公式，计算第i帧的环境噪声幅度谱：

若48<L′_Te(i)，(L′_Te(i)-10log₁₀(E_e(i)))<5，则根据以下公式，计算第i帧的环境噪声幅度谱：

其中，N(f,i)为第i帧的环境噪声幅度谱，N(f,i-1)为第i-1帧的环境噪声幅度谱，L′_Te(i)为第i帧的噪声阈值，E_e(i)为第i帧的误差时域信号能量，E′(f,i)为第i帧的抑制后误差频域信号，g_m1(i)为第i帧的环境噪声帧抑制系数，α_s51、α_s52、α_s53和α_s54为预设参数，其中，0<α_s51<1，0<α_s52<1，0<α_s53<1，0<α_s54<1。上述公式式中的(L′_Te(i)-10log₁₀(E_e(i)))条件保证环境噪声幅度谱跟踪的是噪声。

当第i帧的双讲标志η_d(i)取0时，无需考虑能量条件，因为此时的误差时域信号包含的都是无用信号(残留回声信号和环境噪声信号)，根据下述公式，计算第i帧的环境噪声幅度谱：

N(f,i)＝0；

若18<L′_Te(i)≤42，则根据以下公式，计算第i帧的环境噪声幅度谱：

若42<L′_Te(i)≤45，则根据以下公式，计算第i帧的环境噪声幅度谱：

若45<L′_Te(i)≤48，则根据以下公式，计算第i帧的环境噪声幅度谱：

若48<L′_Te(i)，则根据以下公式，计算第i帧的环境噪声幅度谱：

其中，N(f,i)为第i帧的环境噪声幅度谱，N(f,i-1)为第i-1帧的环境噪声幅度谱，L′_Te(i)为第i帧的噪声阈值，E′(f,i)为第i帧的抑制后误差频域信号，g_m1(i)为第i帧的环境噪声帧抑制系数，α_s51、α_s52、α_s53和α_s54为预设参数，其中，0<α_s51<1，0<α_s52<1，0<α_s53<1，0<α_s54<1。

可选的，对于当前时刻，如果环境噪声幅度谱N(f,i)大于抑制后误差频域信号，则表示噪声估计过大，需要进行进一步修正，再根据修正后的环境噪声幅度谱去除近端时域信号中的噪声信号。具体的，根据以下公式，计算修正后的环境噪声幅度谱N⁰(f,i)：

其中，N⁰(f,i)为第i帧的修正后的环境噪声幅度谱，N(f,i)为第i帧的环境噪声幅度谱，E(f,i)为第i帧的误差频域信号，α_s6为预设参数，其中，0<α_s6<1，

步骤306、根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号。

本实施例提供的一种短时语音信号处理的方法，通过根据误差时域信号和音频采集状态确定误差时域信号的噪声阈值，然后根据误差时域信号、远端时域信号、音频采集状态以及噪声阈值确定残留回声幅度谱，并根据误差时域信号、音频采集状态以及噪声阈值确定环境噪声幅度谱，可以在回声场景下确定每一帧近端频域信号对应的残留回声幅度谱和环境噪声幅度谱，从而估计出近端频域信号中的环境噪声和残留回声。

实施例四

图4为本发明实施例四提供的一种短时语音信号处理的装置的结构框图。如图4所示，该装置包括：

信号获取模块401、状态确定模块402、幅度谱确定模块403和信号生成模块404。

其中，信号获取模块401，用于获取近端时域信号，并确定与近端时域信号匹配的远端时域信号以及误差时域信号；状态确定模块402，用于根据与近端时域信号、远端时域信号以及误差时域信号分别对应的频域信号，确定与近端时域信号匹配的音频采集状态，音频采集状态包括：单讲状态或者双讲状态；幅度谱确定模块403，用于根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱；信号生成模块404，用于根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号。

本实施例提供的一种短时语音信号处理的装置，通过根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱，并根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号，可以在回声场景下有效抑制语音信号中的残留回声和环境噪声，提高语音信号清晰度。

在上述各实施例的基础上，状态确定模块402可以包括：

信号获取单元，用于获取当前帧的近端频域信号、远端频域信号和误差频域信号，其中，所述近端频域信号、所述远端频域信号和所述误差频域信号为与所述近端时域信号、所述远端时域语音信号以及所述误差时域信号分别对应的频域信号；

相干系数确定单元，用于根据近端频域信号、远端频域信号和误差频域信号确定近端频域信号与误差频域信号的第一相干系数和远端频域信号与误差频域信号的第二相干系数；

差值确定单元，用于根据第一相干系数与第二相干系数确定当前帧的相干性差值和差值跟踪值，其中当前帧的差值跟踪值根据当前帧的相干性差值和前一帧的差值跟踪值确定；

双讲概率确定单元，用于根据当前帧的相干性差值与差值跟踪值确定双讲概率；

第一状态确定单元，用于若双讲概率大于概率判决阈值，则确定当前帧的音频采集状态为双讲状态；

第二状态确定单元，用于若双讲概率小于等于概率判决阈值，则确定当前帧的音频采集状态为单讲状态。

在上述各实施例的基础上，幅度谱确定模块403可以包括：

阈值确定单元，用于根据误差时域信号和音频采集状态确定误差时域信号的噪声阈值，其中，噪声包括残留回声和环境噪声；

第一谱值确定单元，用于根据误差时域信号、远端时域信号、音频采集状态以及噪声阈值确定残留回声幅度谱；

第二谱值确定单元，用于根据误差时域信号、音频采集状态以及噪声阈值确定环境噪声幅度谱。

在上述各实施例的基础上，信号生成模块404可以包括：

第一变换单元，用于对误差时域信号进行短时傅里叶变换，得到误差频域信号；

第一计算单元，用于根据以下公式，计算与近端时域信号匹配的输出频域信号：

S(f,i)＝E(f,i)-N(f,i)-Y(f,i)，

其中，S(f,i)为输出频域信号，E(f,i)为误差频域信号，N(f,i)为环境噪声幅度谱，Y(f,i)为残留回声幅度谱；

第二变换单元，用于对输出频域信号进行短时傅里叶逆变换，得到输出时域信号。

在上述各实施例的基础上，阈值确定单元可以包括：

第一确定子单元，用于根据误差时域信号确定误差时域信号能量；

第二确定子单元，用于根据误差时域信号能量确定误差时域信号能量的包络值；

阈值确定子单元，用于根据误差时域信号能量、误差时域信号能量包络值以及音频采集状态确定误差时域信号的噪声阈值。

在上述各实施例的基础上，第一谱值确定单元可以包括：

第三确定子单元，用于根据误差时域信号确定误差时域信号能量；

第四确定子单元，用于根据远端时域信号确定远端时域信号能量；

第一谱值子单元，用于将远端时域信号能量与预设阈值进行比较，若远端时域信号能量大于等于预设阈值，则根据误差时域信号、误差时域信号能量、远端时域信号、音频采集状态以及噪声阈值确定残留回声幅度谱。

在上述各实施例的基础上，第二谱值确定单元可以包括：

第五确定子单元，用于根据误差时域信号确定误差时域信号能量；

第六确定子单元，用于根据误差时域信号确定误差时域信号绝对值，并根据误差时域信号绝对值确定误差时域信号绝对值的包络值；

第七确定子单元，用于根据噪声阈值确定噪声阈值上界和噪声阈值下界；

第八确定子单元，用于根据音频采集状态、误差时域信号绝对值的包络值、噪声阈值上界以及噪声阈值下界确定环境噪声抑制系数；

第九确定子单元，用于根据环境噪声抑制系数对误差时域信号进行噪声抑制，得到抑制后误差时域信号；

第三变换单元，用于对抑制后误差时域信号进行短时傅里叶变换，得到抑制后误差频域信号；

第二谱值子单元，用于根据抑制后误差频域信号、误差时域信号能量、噪声阈值以及环境噪声抑制系数确定残留回声幅度谱。

本发明实施例所提供的短时语音信号处理的装置可执行本发明任意实施例所提供的短时语音信号处理的方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备512的框图。图5显示的设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，设备512以通用计算设备的形式表现。设备512的组件可以包括但不限于：一个或者多个处理器或者处理单元516，系统存储器528，连接不同系统组件(包括系统存储器528和处理单元516)的总线518。

总线518表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备512访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器528可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)530和/或高速缓存存储器532。设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统534可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块542的程序/实用工具540，可以存储在例如存储器528中，这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。

设备512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信，还可与一个或者多个使得用户能与该设备512交互的设备通信，和/或与使得该设备812能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且，设备512还可以通过网络适配器520与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器520通过总线518与设备512的其它模块通信。应当明白，尽管图中未示出，可以结合设备512使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元516通过运行存储在系统存储器528中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的短时语音信号处理的方法。

也即：获取近端时域信号，并确定与近端时域信号匹配的远端时域信号以及误差时域信号；根据与近端时域信号、远端时域信号以及误差时域信号分别对应的频域信号，确定与近端时域信号匹配的音频采集状态，音频采集状态包括：单讲状态或者双讲状态；根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱；根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例所提供的短时语音信号处理的方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种短时语音信号处理的方法，其特征在于，包括：

获取近端时域信号，并确定与所述近端时域信号匹配的远端时域信号以及误差时域信号；

根据与所述近端时域信号、所述远端时域信号以及所述误差时域信号分别对应的频域信号，确定与所述近端时域信号匹配的音频采集状态，所述音频采集状态包括：单讲状态或者双讲状态；

根据所述远端时域信号、所述误差时域信号以及所述音频采集状态确定与所述近端时域信号对应的残留回声幅度谱和环境噪声幅度谱；

根据所述残留回声幅度谱、所述环境噪声幅度谱以及所述误差时域信号，生成与所述近端时域信号匹配的输出时域信号。

2.根据权利要求1所述的方法，其特征在于，根据与所述近端时域信号、所述远端时域信号以及所述误差时域信号分别对应的频域信号，确定与所述近端时域信号匹配的音频采集状态，所述音频采集状态包括：单讲状态或者双讲状态，包括：

获取当前帧的近端频域信号、远端频域信号和误差频域信号，其中，所述近端频域信号、所述远端频域信号和所述误差频域信号为与所述近端时域信号、所述远端时域语音信号以及所述误差时域信号分别对应的频域信号；

根据所述近端频域信号、所述远端频域信号和所述误差频域信号确定所述近端频域信号与所述误差频域信号的第一相干系数和所述远端频域信号与所述误差频域信号的第二相干系数；

根据所述第一相干系数与所述第二相干系数确定当前帧的相干性差值和差值跟踪值，其中，当前帧的差值跟踪值根据当前帧的相干性差值和前一帧的差值跟踪值确定；

根据当前帧的所述相干性差值与所述差值跟踪值确定双讲概率；

若所述双讲概率大于概率判决阈值，则确定所述当前帧的音频采集状态为双讲状态；

若所述双讲概率小于等于所述概率判决阈值，则确定所述当前帧的音频采集状态为单讲状态。

3.根据权利要求1所述的方法，其特征在于，根据所述远端时域信号、所述误差时域信号以及所述音频采集状态确定与所述近端时域信号对应的残留回声幅度谱和环境噪声幅度谱，包括：

根据所述误差时域信号和所述音频采集状态确定所述误差时域信号的噪声阈值，其中，所述噪声包括残留回声和环境噪声；

根据所述误差时域信号、所述远端时域信号、所述音频采集状态以及所述噪声阈值确定所述残留回声幅度谱；

根据所述误差时域信号、所述音频采集状态以及所述噪声阈值确定所述环境噪声幅度谱。

4.根据权利要求1所述的方法，其特征在于，根据所述残留回声幅度谱、所述环境噪声幅度谱以及所述误差时域信号，生成与所述近端时域信号匹配的输出时域信号，包括：

对所述误差时域信号进行短时傅里叶变换，得到误差频域信号；

根据以下公式，计算与所述近端时域信号匹配的输出频域信号：

S(f,i)＝E(f,i)-N(f,i)-Y(f,i)，

其中，S(f,i)为所述输出频域信号，E(f,i)为所述误差频域信号，N(f,i)为所述环境噪声幅度谱，Y(f,i)为所述残留回声幅度谱；

对所述输出频域信号进行短时傅里叶逆变换，得到输出时域信号。

5.根据权利要求3所述的方法，其特征在于，根据所述误差时域信号和所述音频采集状态确定所述误差时域信号的噪声阈值，包括：

根据所述误差时域信号确定误差时域信号能量；

根据所述误差时域信号能量确定误差时域信号能量的包络值；

根据所述误差时域信号能量、所述误差时域信号能量包络值以及所述音频采集状态确定所述误差时域信号的噪声阈值。

6.根据权利要求3所述的方法，其特征在于，根据所述误差时域信号、所述远端时域信号、所述音频采集状态以及所述噪声阈值确定所述残留回声幅度谱，包括：

根据所述误差时域信号确定误差时域信号能量；

根据所述远端时域信号确定所述远端时域信号能量；

将所述远端时域信号能量与预设阈值进行比较，若所述远端时域信号能量大于等于所述预设阈值，则根据所述误差时域信号、所述误差时域信号能量、所述远端时域信号、所述音频采集状态以及所述噪声阈值确定所述残留回声幅度谱。

7.根据权利要求3所述的方法，其特征在于，根据所述误差时域信号、所述音频采集状态以及所述噪声阈值确定所述环境噪声幅度谱，包括：

根据所述误差时域信号确定误差时域信号能量；

根据所述误差时域信号确定误差时域信号绝对值，并根据所述误差时域信号绝对值确定误差时域信号绝对值的包络值；

根据所述噪声阈值确定噪声阈值上界和噪声阈值下界；

根据所述音频采集状态、所述误差时域信号绝对值的包络值、所述噪声阈值上界以及所述噪声阈值下界确定环境噪声抑制系数；

根据所述环境噪声抑制系数对所述误差时域信号进行噪声抑制，得到抑制后误差时域信号；

对所述抑制后误差时域信号进行短时傅里叶变换，得到抑制后误差频域信号；

根据所述抑制后误差频域信号、所述误差时域信号能量、所述噪声阈值以及所述环境噪声抑制系数确定所述环境噪声幅度谱。

8.一种短时语音信号处理的装置，其特征在于，包括：

信号获取模块，用于获取近端时域信号，并确定与所述近端时域信号匹配的远端时域信号以及误差时域信号；

状态确定模块，用于根据与所述近端时域信号、所述远端时域信号以及所述误差时域信号分别对应的频域信号，确定与所述近端时域信号匹配的音频采集状态，所述音频采集状态包括：单讲状态或者双讲状态；

幅度谱确定模块，用于根据所述远端时域信号、所述误差时域信号以及所述音频采集状态确定与所述近端时域信号对应的残留回声幅度谱和环境噪声幅度谱；

信号生成模块，用于根据所述残留回声幅度谱、所述环境噪声幅度谱以及所述误差时域信号，生成与所述近端时域信号匹配的输出时域信号。

9.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的短时语音信号处理的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一所述的短时语音信号处理的方法。