CN109256145B

CN109256145B - 基于终端的音频处理方法、装置、终端和可读存储介质

Info

Publication number: CN109256145B
Application number: CN201710577066.0A
Authority: CN
Inventors: 纪璇; 李洋; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2017-07-14
Filing date: 2017-07-14
Publication date: 2021-11-02
Anticipated expiration: 2037-07-14
Also published as: CN109256145A

Abstract

本发明实施例提供了一种基于终端的音频处理方法、装置、终端和可读存储介质，该方法包括：对麦克风采集到的音频信号进行滤波处理，生成残差信号；依据所述音频信号的功率谱，确定滤波系数；依据所述滤波系数和所述残差信号，生成第一滤波信号；检测所述第一滤波信号的特定频段能量是否超过判决门限；若超过，则确定所述音频信号包含输入语音信号和回波信号，其中，所述输入语音信号为依据用户输入语音生成的。本发明实施例能够精确地区分出单讲和双讲这两种情况，提高双讲检测的准确性。

Description

基于终端的音频处理方法、装置、终端和可读存储介质

技术领域

本发明涉及通信技术领域，特别是涉及一种基于终端的音频处理方法、一种基于终端的音频处理装置、一种终端以及一种可读存储介质。

背景技术

随着通信技术的快速发展，诸如手机、平板电脑等终端越来越普及，给人们的生活、学习、工作带来了极大的便利。

在通信过程中，这些终端需要进行回波抵消，以保证通信质量。具体的，终端通常会打开麦克风(Microphone，Mic)进行自适应回波抵消(Adaptive Echo Cancellation，AEC)处理，以消除该Mic录音中扬声器的声音；并且采用AEC的中间结果进行单双讲检测，以区分出单讲和双讲的情形。其中，当只有扬声器播放声音时称为单讲，当扬声器和人同时发声时称为双讲；单双讲检测又称双讲检测，用于区分出只有扬声器播放声音和扬声器与人同时发声的这两情况。

目前，双讲检测主要是直接使用回波抵消中自适应滤波后的语音进行能量的判决来判断是否是双讲；或者，利用自适应滤波后的语音和参考的相关系数进行判断，如若相关系数大于门限则是单讲，否则为双讲。但是，自适应滤波的结果无法完全消除文本合成语音(Text To Speech，TTS)，因此现有双讲检测方案判断准确性低，缺乏鲁棒性。

发明内容

本发明实施例所要解决的技术问题是提供一种基于终端的音频处理方法，以解决现有双讲检测方案中判断准确性低、缺乏鲁棒性的问题。

相应的，本发明实施例还提供了一种基于终端的音频处理装置、一种终端和一种存储可读介质，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种基于终端的音频处理方法，包括：

对麦克风采集到的音频信号进行滤波处理，生成残差信号；

依据所述音频信号的功率谱，确定滤波系数；

依据所述滤波系数和所述残差信号，生成第一滤波信号；

检测所述第一滤波信号的特定频段能量是否超过判决门限；

若超过，则确定所述音频信号包含输入语音信号和回波信号，其中，所述输入语音信号为依据用户输入语音生成的。

可选地，还包括：在所述第一滤波信号的特定频段能量不超过当前帧的判决门限时，依据所述特定频段能量对所述判决门限进行更新，并将更新后的判决门限作为下一帧的判决门限。

可选地，所述方法还包括：收集预设帧数对应的第一滤波信号的特定频段能量；采用收集的特定频段能量，生成初始判决门限；

其中，所述依据所述特定频段能量对所述判决门限进行更新，包括：基于预置的回归系数，采用当前帧对应的特定频段能量对所述初始判决门限进行更新，得到更新后的判决门限。

可选地，所述确定所述音频信号包含输入语音信号和回波信号之后，还包括：依据所述残差信号进行第二次滤波处理，生成第二滤波信号；依据所述第二滤波信号进行语音识别，生成所述输入语音信号对应的文本信息。

可选地，所述对麦克风采集到的音频信号进行滤波处理，生成残差信号，包括：将扬声器将要播放语音的信号作为参考信号；采用所述参考信号对所述音频信号进行自适应滤波，得到估计回波信号；采用所述估计回波信号和所述音频信号，生成对应的残差信号。

可选地，所述依据所述音频信号的功率谱，确定滤波系数，包括：依据所述音频信号和所述参考信号，确定第一相关功率谱；采用所述音频信号的功率谱、所述参考信号的功率谱以及所述第一相关功率谱进行计算，得到第一相关系数；依据所述第一相关系数确定所述滤波系数。

可选地，还包括：依据所述参考信号和所述残差信号，确定第二相关功率谱；采用所述参考信号的功率谱、所述残差信号的功率谱以及所述第二相关功率谱进行计算，得到第二相关系数；

其中，所述依据所述第一相关系数确定所述滤波系数，包括：在所述第二相关系数大于所述第一相关系数时，将所述第一相关系数确定为所述滤波系数。

可选地，所述依据所述残差信号进行第二次滤波处理，得到第二滤波信号，包括：采用所述第二相关系数对所述残差信号进行滤波，得到所述第二滤波信号。

可选地，所述第二滤波信号用于输入至识别器，所述文本信息为所述识别器依据所述第二滤波信号进行语音识别生成的信息；其中，所述确定所述音频信号包含输入语音信号和回波信号之后，还包括：当检测到所述扬声器播放语音，控制所述扬声器停止播放所述语音。

本发明实施例还公开了一种基于终端的音频处理装置，包括：

残差信号生成模块，用于对麦克风采集到的音频信号进行滤波处理，生成残差信号；

滤波系数确定模块，用于依据所述音频信号的功率谱，确定滤波系数；

第一滤波生成模块，用于依据所述滤波系数和所述残差信号，生成第一滤波信号；

能量检测模块，用于检测所述第一滤波信号的特定频段能量是否超过判决门限；

音频信号确定模块，用于若所述特定频段能量超过所述判决门限，则确定所述音频信号包含输入语音信号和回波信号，其中，所述输入语音信号为依据用户输入语音生成的。

可选地，还包括：判决门限更新模块，用于在所述第一滤波信号的特定频段能量不超过当前帧的判决门限时，依据所述特定频段能量对所述判决门限进行更新，并将更新后的判决门限作为下一帧的判决门限。

可选地，所述装置还包括：

能量收集模块，用于收集预设帧数对应的第一滤波信号的特定频段能量；

判决门限生成模块，用于采用收集的特定频段能量，生成初始判决门限；

其中，所述判决门限更新模块，包括：初始门限更新子模块，用于基于预置的回归系数，采用当前帧对应的特定频段能量对所述初始判决门限进行更新，得到更新后的判决门限。

可选地，还包括：

第二滤波生成模块，用于在确定所述音频信号包含输入语音信号和回波信号之后，依据所述残差信号进行第二次滤波处理，生成第二滤波信号；

语音识别模块，用于依据所述第二滤波信号进行语音识别，生成所述输入语音信号对应的文本信息。

可选地，所述残差信号生成模块，包括：

参考信号子模块，用于将扬声器将要播放语音的信号作为参考信号；

滤波子模块，用于采用所述参考信号对所述音频信号进行自适应滤波，得到估计回波信号；

残差信号子模块，用于采用所述估计回波信号和所述音频信号，生成对应的残差信号。

可选地，所述滤波系数确定模块，包括：

功率谱子模块，用于依据所述音频信号和所述参考信号，确定第一相关功率谱；

相关系数子模块，用于采用所述音频信号的功率谱、所述参考信号的功率谱以及所述第一相关功率谱进行计算，得到第一相关系数；

滤波系数子模块，用于依据所述第一相关系数确定所述滤波系数。

可选地，还包括：

功率谱确定模块，用于依据所述参考信号和所述残差信号，确定第二相关功率谱；

相关系数确定模块，用于采用所述参考信号的功率谱、所述残差信号的功率谱以及所述第二相关功率谱进行计算，得到第二相关系数；

其中，所述滤波系数子模块，具体用于在所述第二相关系数大于所述第一相关系数时，将所述第一相关系数确定为所述滤波系数。

可选地，所述第二滤波生成模块，包括：

第二滤波子模块，用于采用所述第二相关系数对所述残差信号进行滤波，得到所述第二滤波信号。

可选地，所述第二滤波信号用于输入至识别器，所述文本信息为所述识别器依据所述第二滤波信号进行语音识别生成的信息；

其中，所述装置还包括：音频播放控制模块，用于确定所述音频信号包含输入语音信号之后，当检测到所述扬声器播放语音，控制所述扬声器停止播放所述语音。

本发明实施例还公开了一种终端，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：对麦克风采集到的音频信号进行滤波处理，生成残差信号；依据所述音频信号的功率谱，确定滤波系数；依据所述滤波系数和所述残差信号，生成第一滤波信号；检测所述第一滤波信号的特定频段能量是否超过判决门限；若超过，则确定所述音频信号包含输入语音信号和回波信号，其中，所述输入语音信号为依据用户输入语音生成的。

可选地，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：在所述第一滤波信号的特定频段能量不超过当前帧的判决门限时，依据所述特定频段能量对所述判决门限进行更新，并将更新后的判决门限作为下一帧的判决门限。

可选地，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：收集预设帧数对应的第一滤波信号的特定频段能量；采用收集的特定频段能量，生成初始判决门限。其中，所述依据所述特定频段能量对所述判决门限进行更新，包括：基于预置的回归系数，采用当前帧对应的特定频段能量对所述初始判决门限进行更新，得到更新后的判决门限。

可选地，所述确定所述音频信号包含输入语音信号和回波信号之后，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：依据所述残差信号进行第二次滤波处理，生成第二滤波信号；依据所述第二滤波信号进行语音识别，生成所述输入语音信号对应的文本信息。

可选地，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：依据所述参考信号和所述残差信号，确定第二相关功率谱；采用所述参考信号的功率谱、所述残差信号的功率谱以及所述第二相关功率谱进行计算，得到第二相关系数。其中，所述依据所述第一相关系数确定所述滤波系数，包括：在所述第二相关系数大于所述第一相关系数时，将所述第一相关系数确定为所述滤波系数。

可选地，所述第二滤波信号用于输入至识别器，所述文本信息为所述识别器依据所述第二滤波信号进行语音识别生成的信息；其中，所述确定所述音频信号包含输入语音信号和回波信号之后，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：当检测到所述扬声器播放语音，控制所述扬声器停止播放所述语音。

本发明实施例还公开了一种可读存储介质，其特征在于，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行本发明实施例中的一个或多个所述的基于终端的音频处理方法。

本发明实施例包括以下优点：

本发明实施例可依据麦克风当前采集到的音频信号的功率谱确定滤波系数；并且可依据该滤波系数和滤波处理后的残差信号，生成第一滤波信号，即使用滤波系数对残差信号进行强后滤波，以进一步抑制残差信号中的回波信号；以及可以判断该第一滤波信号的特定频段能量是否超过判决门限，在第一滤波信号的特定频段能量超过判决门限后，确定音频信号包含输入语音信号和回波信号，即麦克风处于双讲状态，其当前采集到的音频信号不仅包括回波信号，还包括了输入语音信号。本发明实施例不直接用自适应滤波后的残差信号的能量来检测双讲，而采用强后滤波的第一滤波信号的特定频段能量来检测双讲，能够精确地区分出单讲和双讲这两种情况，从而提高双讲检测的准确性。

附图说明

图1是本发明的一种基于终端的音频处理方法实施例的步骤流程图；

图2是本发明的另一种基于终端的音频处理方法实施例的步骤流程图；

图3是本发明一示例中终端进行音频处理的步骤流程示意图；

图4是本发明的一种基于终端的音频处理装置实施例的结构框图；

图5是根据一示例性实施例示出的一种用于音频处理的终端的结构框图；

图6是本发明实施例中服务器的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

当人和扬声器同时发出声时，人讲话的声音和扬声器播放的声音都会被Mic录进去，亦即生成Mic录音。终端通过回波抵消，即可去除Mic录音中扬声器的声音。例如，终端通常直接利用自适应滤波后的残差信号进行能量上的判决来检测双讲，或者自适应滤波后的语音和参考的相关系数进行判断。但是，自适应滤波的结果无法完全消除TTS，亦即此时的残差信号里面包含比较大的回波信号，因此此时的能量跟踪不准确，导致判断检测结果不准确，缺乏鲁棒性。

此外，为了实时性和节省计算复杂度，信号一帧点数不会太长，而相关系数需要比较长的一帧才能比较准确，因此现有双讲检测方案采用一帧点数，时间过短，导致采用相关系数判断也不准确。

本发明实施例的核心构思之一在于，对回波抵消中滤波后的语音先进行强滤波，然后对强后滤波的语音使用最小跟踪、估计，实时跟踪回波的大小；若当前语音帧的能量超过当前帧的判决门限，则可以确定当前语音帧是双讲，亦即，可以确定当前的音频信号包含输入语音信号和回波信号。

参照图1，示出了本发明的一种基于终端的音频处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102，对麦克风采集到的音频信号进行滤波处理，生成残差信号。

当用户讲话，和/或，在扬声器播放语音时，终端可以通过麦克风进行采集，生成对应的音频信号。其中，麦克风可以用于对语音进行采集，如可以用于录音。在获取麦克风采集到的音频信号后，终端可以对该音频信号进行滤波处理，得到该音频信号对应的残差信号，如可以依据自适应算法(Adaptation Algorithm)对麦克风采集到的音频信号进行滤波处理，得到估计回波信号和残差信号。该残差信号可以用于表示回波抵消中滤波后的语音。

步骤104，依据所述音频信号的功率谱，确定滤波系数。

具体的，终端在滤波处理时，可以获取扬声器将要播报语音的信号，作为当前需过滤的音频信号对应的参考信号；进而可以依据参考信号对麦克风采集到的音频信号进行自适应滤波，得到估计回波信号和残差信号；并且可依据参考信号的功率谱和音频信号的功率谱，确定该音频信号与参考信号的互相关功率谱，以及可以基于该互相关功率谱确定滤波系数。

步骤106，依据所述滤波系数和所述残差信号，生成第一滤波信号。

在确定滤波系数后，本发明实施例可以依据自适应滤波后的残差信号和该滤波系数，得到强后滤波的第一滤波信号。可选的，终端可以采用滤波系数对该残差信号进行强后滤波，得到强后滤波的语音的信号，亦即生成第一滤波信号，如第一滤波信号可等于残差信号与滤波系数的乘积，本发明实施例对此不作具体限制。

步骤108，检测所述第一滤波信号的特定频段能量是否超过判决门限。

在得到第一滤波信号后，本发明实施例可以对该第一滤波信号进行实时跟踪和判决，以动态估计残余回波能量，从而可以基于残余回波能量确定判决门限，以采用该判决门限确定麦克风采集到的音频信号是否包含用户输入的语音信号(简称输入语音信号)，亦即确定麦克风是否处于双讲状态。其中，判决门限可以依据当前跟踪到的回波能量进行确定。

具体的，本发明实施例在没有人说话时，亦即，在麦克风采集到的音频信号只有噪声和/或者回波时，可以通过收集预设帧数对应的第一滤波信号的能量，确定初始判决门限；从而在后续处理中，可根据每来一帧的第一滤波信号的能量进行实时更新，确定当前帧的判决门限，如可以将更新后得到的判决门限作为当前帧的判决门限。

当检测到第一滤波信号的特定频段能量超过判决门限，可以确定麦克风处于双讲状态，然后执行步骤110。当检测到第一滤波信号的特定频段能量不超过判决门限，可以确定麦克风没有采集用户讲话的声音，亦即可以确定麦克风采集到的音频信号不包含输入语音信号，麦克风处于单讲状态，如可将该麦克风采集到的音频信号确定为回波信号。可选的，当麦克风采集的音频信号包含输入语音信号时，如在有用户讲话时，可不对判决门限进行更新。

步骤110，若超过，则确定所述音频信号包含输入语音信号和回波信号，其中，所述输入语音信号为依据用户输入语音生成的。

当第一滤波信号的特定频段能量超过判决门限，可以确定当前帧的音频信号不仅包含了回波信号，还包含了其他语音信号，如输入语音信号。终端可以通过该输入语音进行语音识别，确定用户输入信息，进而可基于该用户输入信息进行响应，为用户提供相应服务，满足用户需求。

作为本发明的一个具体应用，在车载导航中，当用户向诸如手机等终端发出指令，终端可以针对该指令进行回答，如可以通过扬声器进行语音播报。这样，终端打开MIC进行AEC处理，自适应滤波或者强后滤波的结果都无法完全消除TTS，并且强后滤波结果对语音的失真非常大，此时送入识别器进行语音识别，通常会识别到乱码，即识别器可能会乱出字，无法保证语音识别结果的准确性，因此在前期需准确区分麦克风是处于双讲状态还是处于单讲状态，即确定麦克风采集到的音频信号是否包含输入语音信号。在用户不发出指令的时候，即在麦克风处于单讲状态时，麦克风采集到的录入的TTS完全不需要送入识别器，即此时麦克风采集到的音频信号不需要送入识别器进行语音识别；在用户发出指令的时候，如在用户说话时，终端需要检测到此时用户正在发出指令，即确定麦克风当前处于双讲状态，以通过对麦克风采集到的音频信号进行滤波处理，将用户的输入语音信号送入至识别器进行语音识别。

综上，本发明实施例可依据麦克风当前采集到的音频信号的功率谱确定滤波系数；并且可采用该滤波系数和滤波处理后的残差信号，生成第一滤波信号，即使用滤波系数对残差信号进行强后滤波，以进一步抑制残差信号中的回波信号；进而可以判断该第一滤波信号的特定频段能量是否超过判决门限，在第一滤波信号的特定频段能量超过判决门限后，确定音频信号包含输入语音信号和回波信号，即麦克风处于双讲状态，其当前采集到的音频信号不仅包括回波信号，还包括了输入语音信号。本发明实施例不直接用自适应滤波后的残差信号的能量来检测双讲，而采用强后滤波的第一滤波信号的特定频段能量来检测双讲，能够精确地区分出单讲和双讲这两种情况，从而提高双讲检测的准确性、鲁棒性。

参照图2，示出了本发明的另一种基于终端的音频处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤202，将扬声器将要播放语音的信号作为参考信号。

在本发明实施例中，麦克风采集到的音频信号可以包括输入语音信号、回波信号等；其中，输入语音信号可以包括终端依据用户输入语音生成的信号，如在用户讲话时，终端可以通过麦克风检测到用户讲话对应的输入语音信号；该回波信号可以包括终端依据麦克风当前播放语音生成的信号，如在扬声器播报TTS语音时，终端可通过麦克风录入该扬声器播报的语音，生成播报语音对应的回波信号。

终端在对麦克风采集到的音频信号进行滤波处理时，可以获取扬声器将要播放语音的信号，作为参考信号，以采用该参考信号对音频信号进行过滤处理。

步骤204，采用所述参考信号对所述音频信号进行自适应滤波，得到估计回波信号。

作为本发明的一个具体示例，在滤波处理时，终端可以获取扬声器将要播报语音的信号，作为当前需过滤的音频信号d(n)对应的参考信号x(n)；进而可以依据参考信号x(n)对麦克风采集到的音频信号d(n)进行自适应滤波，得到估计回波信号y(n)和残差信号e(n)，如图3所示。

例如，终端可以按照自适应算法对麦克风采集到的音频信号d(n)进行自适应滤波，得到估计回波信号y(n)，如估计回波信号y(n)的计算公式可以如下所示：

步骤206，采用所述估计回波信号和所述音频信号，生成对应的残差信号。

例如，结合上述示例，终端在得到估计回波信号y(n)后，可以采用麦克风当前采集到的音频信号减去该估计回波信号y(n)，得到当前对应的残差信号e(n)，如残差信号e(n)的计算公式可以如下所示：

e(n)＝d(n)-y(n)

步骤208，依据所述音频信号和所述参考信号，确定第一相关功率谱。

由于回波信号难以通过自适应滤波消除干净，因此本发明实施可使用后滤波再次对回波信号进行消除。具体的，本发明实施例可以根据相关系数确定一个增益值，以采用该增益值进一步抑制残余回波信号。例如，Mic采集的音频信号和扬声器播放语音信号之间的相关系数对后滤波中的回波有很强的抑制能力，并且在该音频信号仅包含残余回波信号的能量与该音频信号包含有输入语音信号和回波信号的能量时具有较大的区别，因此本发明实施例可依据音频信号和所述参考信号，确定滤波系数，且可采用滤波系数进行强后滤波，从而能够对强后滤波的语音使用最小跟踪、估计，实时跟踪回波的大小。

在本发明的一个示例中，可将诸如音频信号d(n)、参考信号x(n)、残差信号e(n)和/估计回波信号y(n)等时域信号转化为频域信号，以方便处理，如可以分别对音频信号d(n)、参考信号x(n)、残差信号e(n)以及估计回波信号y(n)进行傅里叶变换，生成音频信号频域信号D(ω)、参考信号频域信号X(ω)、残差信号频域信号E(ω)以及估计回波频域信号Y(ω)。其中，音频信号频域信号D(ω)为音频信号d(n)对应的频域信号；参考信号频域信号X(ω)为参考信号x(n)对应的频域信号；残差信号频域信号E(ω)为残差信号e(n)对应的频域信号；估计回波频域信号Y(ω)为估计回波信号y(n)对应的频域信号。

在将时域信号转换为频域信号后，本发明实施例可以通过计算频域信号在特定频带的能量，来确定时域信号的功率谱，进而可以依据该功率谱区分麦克风是处于双讲状态还是单讲状态，如可以根据音频信号频域信号D(ω)和参考信号频域信号X(ω)，确定计算音频信号d(n)和参考信号x(n)的互相关功率谱Sxd(ω)，并且可以将计算得到互相关功率谱Sxd(ω)确定为第一相关功率谱。

步骤210，采用所述音频信号的功率谱、所述参考信号的功率谱以及所述第一相关功率谱进行计算，得到第一相关系数。

在本发明实施例中，音频信号的功率谱可以用于表征音频信号的自相关功率谱；参考信号的功率谱可以用于表征参考信号的自相关功率谱。

作为本发明的一个示例，采用音频信号频域信号D(ω)计算音频信号d(n)的自相关功率谱Sdd(ω)，如音频信号d(n)的自相关功率谱Sdd(ω)的计算公式可以如下所示：

Sdd(ω)＝αSdd(ω)+(1-α)D(ω)^*，0＜α＜1；

其中，D(ω)^*是D(ω)的共轭。

同理，终端可以采用参考信号频域信号X(ω)确定所述参考信号x(n)的自相关功率谱Sxx(ω)，如参考信号x(n)的自相关功率谱Sxx(ω)的计算公式可以如下所示：

Sxx(ω)＝αSxx(ω)+(1-α)X(ω)^*，0＜α＜1；

其中，X(ω)^*是X(ω)的共轭。

同时，终端还可以根据采集信号频域信号D(ω)和参考信号频域信号X(ω)，计算所述音频信号d(n)和所述参考信号x(n)的互相关功率谱Sxd(ω)，如音频信号d(n)和所述参考信号x(n)的互相关功率谱Sxd(ω)的计算公式可以如下所示：

Sxd(ω)＝αSxd(ω)+(1-α)X(ω)D(ω)^*，0＜α＜1；

从而，终端可以根据音频信号d(n)的自相关功率谱Sdd(ω)、参考信号x(n)的自相关功率谱Sxx(ω)，以及音频信号d(n)和参考信号x(n)的互相关功率谱Sxd(ω)进行计算，得到音频信号d(n)和参考信号x(n)的相关系数rdx；以及，可以将计算得到的相关系数rdx作为第一相关系数。例如，音频信号d(n)和参考信号x(n)的相关系数rdx的计算公式可以如下所示：

步骤212，依据所述第一相关系数确定所述滤波系数。

在确定出第一相关系数后，终端可以依据该第一相关系数确定滤波系数，如可以将第一相关系数作为滤波系数。

在本发明的一个可选实施方式中，终端可以将该第一相关系数与其他信号之间的相关系数进行比较，以确定出对应的滤波系数，如可以将第一相关系数与第二相关系数进行比较，并可将最小的相关系数作为滤波系数。

可选的，该方法还可以包括：依据所述参考信号和所述残差信号，确定第二相关功率谱；采用所述参考信号的功率谱、所述残差信号的功率谱以及所述第二相关功率谱进行计算，得到第二相关系数。其中，所述依据所述第一相关系数确定所述滤波系数，具体可以包括：在所述第二相关系数大于所述第一相关系数时，将所述第一相关系数确定为所述滤波系数。

在本发明实施例中，终端可以根据参考信号频域信号X(ω)和残差信号频域信号E(ω)，确定计算参考信号x(n)和残差信号e(n)的互相关功率谱Sxe(ω)，并且可以将计算得到互相关功率谱Sxe(ω)确定为第二相关功率谱。其中，残差信号的功率谱可以用于表征残差信号的自相关功率谱。

作为本发明的一个示例，终端可以采用所述残差信号频域信号E(ω)确定残差信号e(n)的自相关功率谱See(ω)，如残差信号e(n)的自相关功率谱See(ω)的计算公式可以如下所示：

See(ω)＝αSee(ω)+(1-α)E(ω)E(ω)^*，0＜α＜1；

其中，E(ω)^*是E(ω)的共轭。

终端可以根据参考信号频域信号X(ω)和残差信号频域信号E(ω)，计算参考信号x(n)和残差信号e(n)的互相关功率谱Sxe(ω)，如参考信号x(n)和残差信号e(n)的互相关功率谱Sxe(ω)的计算公式可以如下所示：

Sxe(ω)＝αSxe(ω)+(1-α)X(ω)E(ω)^*，0＜α＜1；

从而，终端可以根据参考信号x(n)的自相关功率谱Sxx(ω)、残差信号e(n)的自相关功率谱See(ω)，以及参考信号x(n)和残差信号e(n)的互相关功率谱Sxe(ω)进行计算，得到音频信号x(n)和残差信号e(n)的相关系数rxe；以及，可以将计算得到的相关系数rxe作为第二相关系数。例如，参考信号x(n)和残差信号e(n)的相关系数rxe的计算公式可以如下所示：

进而，终端可以根据音频信号d(n)和参考信号x(n)的第一相关系数，以及参考信号x(n)和残差信号e(n)的第二相关系数，确定滤波系数scoff，如滤波系数scoff的确定公式可以如下所示：

scoff＝min(rdx,rxe)；

其中，min可以用于表示取最小值。

需要说明的是，终端也可以根据音频信号频域信号D(ω)和残差信号频域信号E(ω)，计算音频信号d(n)和残差信号e(n)的互相关功率谱Sde(ω)，本发明实施例对此不作限制。例如，音频信号d(n)和残差信号e(n)的互相关功率谱Sde(ω)的计算公式可以如下所示：

Sde(ω)＝αSde(ω)+(1-α)D(ω)E(ω)^*，0＜α＜1

步骤214，依据所述滤波系数和所述残差信号，生成第一滤波信号。

在本发明的一个示例中，如图3所示，终端可以根据自适应滤波后的残差信号e(n)和滤波系数scoff，得到强滤波后的语音y1(n)的频域信号Y1(w)，即生成强后滤波的第一滤波信号。其中，频域信号Y1(w)的确定公式可以如下所示：

Y1(w)＝scoff*E(w)。

步骤216，检测所述第一滤波信号的特定频段能量是否超过当前帧的判决门限。

本发明实施例可以依据强后滤波的第一滤波信号的能量进行跟踪判断，以确定麦克风当前采集到的音频信号是否包含输入语音信号。具体的，终端可对强后滤波的语音进行最小跟踪和估计，得到残余回波能量ener；并且可以基于残余回波能量ener确定判决门限。例如，可以将残余回波能量ener的γ倍作为判决门限；其中，γ可以大于1，本发明实施例对此不作具体限制。

若第一滤波信号的特定频段能量超过判决门限，则可以麦克风处于双讲状态，即在当前语音帧的能量超过实时跟踪回波能量的γ倍，可以确定当前语音帧是双讲，执行步骤220；否则，可以确定所述音频信号不包含输入语音信号，即在当前语音帧的能量不超过实时跟踪回波能量的γ倍，可以确定当前语音帧是单讲，如可以确定该麦克风采集到的音频信号为回波信号，执行步骤218。其中，特定频段能量可以用于表征在特定频带内的能量。

步骤218，在所述第一滤波信号的特定频段能量不超过当前帧的判决门限时，依据所述特定频段能量对所述判决门限进行更新，并将更新后的判决门限作为下一帧的判决门限。

若当前语音帧是单讲，则终端可以直接输出强后滤波后的语音，而不需要将语音送入至识别器，即可以不进行语音识别，如可以播放TTS。

在实际处理中，当前N帧没有人说话，亦即麦克风采集到的音频信号只有噪声或者回波，终端可以收集强滤波后的语音的频域信号Y1(w)在预设帧数内特定频带的能量，作为初始能量门限，且可以基于该初始能量门限确定初始判决门限；并且可以根据后续来的每一帧强滤波后的语音的频域信号Y1(w)进行实时更新，以采用更新后的判决门限检测麦克风是否处于双讲状态，即检测麦克风采集到的音频信号是否包含输入语音信号和回波信号。其中，N为整数，可以大于或等于预设帧数。

在本发明的一个可选实施例中，该方法还可以包括：收集预设帧数对应的第一滤波信号的特定频段能量；采用收集的特定频段能量，生成初始判决门限。其中，所述依据所述特定频段能量对所述判决门限进行更新，具体可以包括：基于预置的回归系数，采用当前帧对应的特定频段能量对所述初始判决门限进行更新，得到更新后的判决门限。

作为本发明的一个示例，当麦克风采集到的音频信号不包含输入语音信号时，终端可以获取强后滤波的第一滤波信号Y1(w)前N帧特定频带的能量作为初始能量门限；并且可以将该初始能量门限作为初始判决门限，即生成初始判决门限。其中，如初始能量门限ener0的计算公式可以如下所示：

其中，N可以用于表征预设帧数，如可以将预设帧数N设置为100；|Y1(w)|²可以用于表征第一滤波信号Y1(w)的特定频段能量。

在确定初始判决门限后，可以根据每来一帧第一滤波信号Y1(w)对残余回波能量ener进行实时更新，如残余回波能量ener的更新公式可以如下所示：

ener＝β*ener1+(1-β)*|Y1(w)|²，0<β<1；

其中，ener可以用于表征当前帧对应的残余回波能量；ener1可以用于表征上一帧对应的残余回波能量；β为预置的回归系数，可以用于表征保持之前残余回波能量所占的比例，且(1-β)可以用于表征依据当前帧的第一滤波信号更新残余回波能量所占的比例，如若回归系数β可以预设为0.9，则残余回波能量ener更新比例为0.1。

在更新残余回波能量ener后，可以将更新后的残余回波能量ener与γ的乘积(ener*γ)作为下一帧的判决门限，如γ可以设置为2。

例如，在当前帧的特定频段能量|Y1(w)|²没有超过判决门限(ener*2)时，可以确定当前帧的音频信号为回波信号，如图3所示，可以确定当前只有TTS播报，并且可以继续播报TTS语音，而不将强滤波后的语音送入识别器。

步骤220，在所述第一滤波信号的特定频段能量超过当前帧的判决门限时，确定所述音频信号包含输入语音信号和回波信号。

步骤222，依据所述残差信号进行第二次滤波处理，生成第二滤波信号。

本发明实施例在确定麦克风采集到的音频信号包含输入语音信号后，可针对麦克风当前采集到的音频信号，基于残差信号进行第二次滤波处理，得到弱后滤波信号，且可以将弱后滤波信号作为第二滤波信号。

可选的，在确定所述音频信号包含输入语音信号和回波信号之后，还可以包括：当检测到所述扬声器播放语音，控制所述扬声器停止播放语音。具体的，在双讲情况下，终端可以使用弱后滤波对自适应滤波的结果再进行一次后滤波输出，并且可将该结果送入识别器进行识别，以及可以打断TTS播报。如图3所示，在当前帧的特定频段能量|Y1(w)|²超过判决门限(ener*2)时，终端可以确定当前有用户输入语音信号，并可以打断TTS播报，以及对自适应滤波处理后的残差信号e(n)进行弱后滤波，得到弱后滤波的频域信号Y2(w)，即生成第二滤波信号。

步骤224，依据所述第二滤波信号进行语音识别，生成所述输入语音信号对应的文本信息。

在本发明实施例中，第二滤波信号可以用于输入至识别器；文本信息可以是识别器依据所述第二滤波信号进行语音识别生成的信息。具体的，第二滤波信号可以用于输入至识别器，使得识别器可以依据该第二滤波信号进行语音识别。识别器在接收到第二滤波信号后，可依据该第二滤波信号进行语音识别，得对应的文本信息，即将用户的输入语音信号转换为对应的文本信息。

在本发明的一个可选实施例中，依据所述残差信号进行第二次滤波处理，得到第二滤波信号，具体可以包括：采用所述第二相关系数对所述残差信号进行滤波，得到所述第二滤波信号。

作为本发明的一个示例，结合上述例子，终端可以通过计算残差信号频域信号E(ω)与第二相关系数rxe的乘积，得到弱后滤波的频域信号Y2(w)；其中，弱后滤波的频域信号Y2(w)的确定公式可以如下所示：

Y2(w)＝rxe*E(w)；

在语音识别时，终端可以将弱后滤波的频域信号Y2(w)变换为时域信号y2(n)，且可通过时域信号y2(n)将用户输入的语音送入识别器，如图3所示，将弱后滤波输出的语音送入识别器进行识别，从而生成对应的文本信息，即将该用户输入的语音识别为文本信息。

综上，本发明实施例对回波抵消中自适应滤波后的语音先进行过强的后滤波，对强后滤波的语音使用最小跟踪估计实时跟踪回波的大小，能够更好地跟踪残余回波能量的变化；并且可通过跟踪的残余回波能量区分单讲与双讲的情况，提高双讲检测的准确性。

由于采用麦克风采集到的音频信号和参考信号的相关系数进行强后滤波，可能会损失较大的输入语音信号，即造成输入语音信号的失真，因此本发明实施例在检测到强后滤波的语音的能量超过当前帧的判决门限时，即在当前语音帧的能量超过实时跟踪回波能量的γ倍时，可以依据残余信号进行弱后滤波，即进行第二遍滤波处理；并将弱后滤波的结果送入识别器进行语音识别，即不使用强后滤波的结果进行语音识别，从而提高识别器语音识别的准确率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种基于终端的音频处理装置实施例的结构框图，具体可以包括如下模块：

残差信号生成模块402，用于对麦克风采集到的音频信号进行滤波处理，生成残差信号；

滤波系数确定模块404，用于依据所述音频信号的功率谱，确定滤波系数；

第一滤波生成模块406，用于依据所述滤波系数和所述残差信号，生成第一滤波信号；

能量检测模块408，用于检测所述第一滤波信号的特定频段能量是否超过判决门限；

音频信号确定模块410，用于若所述第一滤波信号的特定频段能量超过所述判决门限，则确定所述音频信号包含输入语音信号和回波信号，其中，所述输入语音信号为依据用户输入语音生成的。

在本发明的一个可选实施例中，该装置还可以包括如下模块：

判决门限更新模块，用于在所述第一滤波信号的特定频段能量不超过当前帧的判决门限时，依据所述特定频段能量对所述判决门限进行更新，并将更新后的判决门限作为下一帧的判决门限。

在本发明实施例中，可选的，所述装置还可以包括如下模块：

其中，所述判决门限更新模块，可以包括：初始门限更新子模块。该初始门限更新子模块，用于基于预置的回归系数，采用当前帧对应的特定频段能量对所述初始判决门限进行更新，得到更新后的判决门限。

在本发明的一个可选实施例中，所述残差信号生成模块402，可以包括如下子模块：

在本发明的一个可选实施例中，所述滤波系数确定模块404，可以包括如下子模块：

在本发明的一个可选实施例中，所述第二滤波生成模块可以包括第二滤波子模块。该第二滤波子模块，可以用于采用所述第二相关系数对所述残差信号进行滤波，得到所述第二滤波信号。

在本发明实施例中，可选的，所述第二滤波信号用于输入至识别器，所述文本信息为所述识别器依据所述第二滤波信号进行语音识别生成的信息；

其中，所述装置还可以包括音频播放控制模块。该音频播放控制模块，用于确定所述音频信号包含输入语音信号之后，当检测到所述扬声器播放语音，控制所述扬声器停止播放语音。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图5是根据一示例性实施例示出的一种用于音频处理的终端500的结构框图。例如，终端500可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图5，终端500可以包括以下一个或多个组件：处理组件502，存储器504，电源组件506，多媒体组件508，音频组件510，输入/输出(I/O)的接口512，传感器组件514，以及通信组件516。

处理组件502通常控制终端500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理部件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在终端500的操作。这些数据的示例包括用于在终端500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件504为终端500的各种组件提供电力。电力组件504可以包括电源管理系统，一个或多个电源，及其他与为终端500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述终端500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当终端500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC)，当终端500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为终端500提供各个方面的状态评估。例如，传感器组件514可以检测到终端500的打开/关闭状态，组件的相对定位，例如所述组件为终端500的显示器和小键盘，传感器组件514还可以检测终端500或终端500一个组件的位置改变，用户与终端500接触的存在或不存在，终端500方位或加速/减速和终端500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于终端500和其他设备之间有线或无线方式的通信。终端500可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件514经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件514还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，终端500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由终端500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行一种基于终端的音频处理方法，所述方法包括：对麦克风采集到的音频信号进行滤波处理，生成残差信号；依据所述音频信号的功率谱，确定滤波系数；依据所述滤波系数和所述残差信号，生成第一滤波信号；检测所述第一滤波信号的特定频段能量是否超过判决门限；若超过，则确定所述音频信号包含输入语音信号和回波信号，其中，所述输入语音信号为依据用户输入语音生成的。

可选地，该方法还包括：在所述第一滤波信号的特定频段能量不超过所述判决门限时，依据所述特定频段能量对当前帧的判决门限进行更新，并将更新后的判决门限作为下一帧的判决门限。

可选地，所述方法还包括：收集预设帧数对应的第一滤波信号的特定频段能量；采用收集的特定频段能量，生成初始判决门限。其中，所述依据所述特定频段能量对所述判决门限进行更新，包括：基于预置的回归系数，采用当前帧对应的特定频段能量对所述初始判决门限进行更新，得到更新后的判决门限。

可选地，该方法还包括：依据所述参考信号和所述残差信号，确定第二相关功率谱；采用所述参考信号的功率谱、所述残差信号的功率谱以及所述第二相关功率谱进行计算，得到第二相关系数。其中，所述依据所述第一相关系数确定所述滤波系数，包括：在所述第二相关系数大于所述第一相关系数时，将所述第一相关系数确定为所述滤波系数。

可选地，所述第二滤波信号用于输入至识别器，所述文本信息为所述识别器依据所述第二滤波信号进行语音识别生成的信息。其中，所述确定所述音频信号包含输入语音信号和回波信号之后，还包括：当检测到所述扬声器播放语音，控制所述扬声器停止播放语音。

图6是本发明实施例中服务器的结构示意图。该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，一个或一个以上键盘656，和/或，一个或一个以上操作系统641，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种基于终端的音频处理方法和装置、一种终端以及一种可读存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于终端的音频处理方法，其特征在于，包括：

将扬声器将要播放语音的信号作为参考信号；

采用所述参考信号对音频信号进行自适应滤波，得到估计回波信号；

采用所述估计回波信号和所述音频信号，生成残差信号；

依据所述参考信号的功率谱和音频信号的功率谱，确定互相关功率谱，基于所述互相关功率谱确定滤波系数；

依据所述滤波系数和所述残差信号，生成第一滤波信号；

检测所述第一滤波信号的特定频段能量是否超过判决门限，所述特定频段能量用于表征在特定频带内的能量；

2.根据权利要求1所述的方法，其特征在于，还包括：

在所述第一滤波信号的特定频段能量不超过当前帧的判决门限时，依据所述特定频段能量对所述判决门限进行更新，并将更新后的判决门限作为下一帧的判决门限。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

收集预设帧数对应的第一滤波信号的特定频段能量；

采用收集的特定频段能量，生成初始判决门限；

其中，所述依据所述特定频段能量对所述判决门限进行更新，包括：

基于预置的回归系数，采用当前帧对应的特定频段能量对所述初始判决门限进行更新，得到更新后的判决门限。

4.根据权利要求1至3任一所述的方法，其特征在于，所述确定所述音频信号包含输入语音信号和回波信号之后，还包括：

依据所述残差信号进行第二次滤波处理，生成第二滤波信号；

依据所述第二滤波信号进行语音识别，生成所述输入语音信号对应的文本信息。

5.根据权利要求4所述的方法，其特征在于，所述依据所述参考信号的功率谱和音频信号的功率谱，确定互相关功率谱，基于所述互相关功率谱确定滤波系数，包括：

依据所述音频信号和所述参考信号，确定第一相关功率谱；

采用所述音频信号的功率谱、所述参考信号的功率谱以及所述第一相关功率谱进行计算，得到第一相关系数；

依据所述第一相关系数确定所述滤波系数。

6.根据权利要求5所述的方法，其特征在于，还包括：

依据所述参考信号和所述残差信号，确定第二相关功率谱；

采用所述参考信号的功率谱、所述残差信号的功率谱以及所述第二相关功率谱进行计算，得到第二相关系数；

7.根据权利要求6所述的方法，其特征在于，所述依据所述残差信号进行第二次滤波处理，得到第二滤波信号，包括：

采用所述第二相关系数对所述残差信号进行滤波，得到所述第二滤波信号。

8.根据权利要求7所述的方法，其特征在于，所述第二滤波信号用于输入至识别器，所述文本信息为所述识别器依据所述第二滤波信号进行语音识别生成的信息；

其中，所述确定所述音频信号包含输入语音信号和回波信号之后，还包括：

当检测到所述扬声器播放语音，控制所述扬声器停止播放所述语音。

9.一种基于终端的音频处理装置，其特征在于，包括：

滤波系数确定模块，用于依据参考信号的功率谱和所述音频信号的功率谱，确定互相关功率谱，基于所述互相关功率谱确定滤波系数；

能量检测模块，用于检测所述第一滤波信号的特定频段能量是否超过判决门限，所述特定频段能量用于表征在特定频带内的能量；

音频信号确定模块，用于若所述特定频段能量超过所述判决门限，则确定所述音频信号包含输入语音信号和回波信号，其中，所述输入语音信号为依据用户输入语音生成的；

所述残差信号生成模块，包括：

10.根据权利要求9所述的装置，其特征在于，还包括：

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

12.根据权利要求9至11任一所述的装置，其特征在于，还包括：

13.根据权利要求12所述的装置，其特征在于，所述滤波系数确定模块，包括：

14.根据权利要求13所述的装置，其特征在于，还包括：

15.根据权利要求14所述的装置，其特征在于，所述第二滤波生成模块，包括：

16.根据权利要求15所述的装置，其特征在于，所述第二滤波信号用于输入至识别器，所述文本信息为所述识别器依据所述第二滤波信号进行语音识别生成的信息；

17.一种终端，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

将扬声器将要播放语音的信号作为参考信号；

采用所述估计回波信号和所述音频信号，生成残差信号；

依据所述滤波系数和所述残差信号，生成第一滤波信号；

18.根据权利要求17所述的终端，其特征在于，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：

19.根据权利要求18所述的终端，其特征在于，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：

收集预设帧数对应的第一滤波信号的特定频段能量；

采用收集的特定频段能量，生成初始判决门限；

20.根据权利要求17-19任一所述的终端，其特征在于，所述确定所述音频信号包含输入语音信号和回波信号之后，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：

21.根据权利要求20所述的终端，其特征在于，所述依据所述参考信号的功率谱和音频信号的功率谱，确定互相关功率谱，基于所述互相关功率谱确定滤波系数，包括：

依据所述音频信号和所述参考信号，确定第一相关功率谱；

依据所述第一相关系数确定所述滤波系数。

22.根据权利要求21所述的终端，其特征在于，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：

依据所述参考信号和所述残差信号，确定第二相关功率谱；

23.根据权利要求22所述的终端，其特征在于，所述依据所述残差信号进行第二次滤波处理，得到第二滤波信号，包括：

24.根据权利要求23所述的终端，其特征在于，所述第二滤波信号用于输入至识别器，所述文本信息为所述识别器依据所述第二滤波信号进行语音识别生成的信息；

其中，所述确定所述音频信号包含输入语音信号和回波信号之后，所述由一个或者一个以上处理器执行所述一个或者一个以上程序包含还用于进行以下操作的指令：

25.一种可读存储介质，其特征在于，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行如方法权利要求1-8中的任一个所述的基于终端的音频处理方法。