CN115810361A

CN115810361A - 回声消除方法、终端设备及存储介质

Info

Publication number: CN115810361A
Application number: CN202111073754.6A
Authority: CN
Inventors: 王清泉
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2023-03-17
Also published as: WO2023040322A1

Abstract

本发明实施例提供了回声消除方法、终端设备及存储介质，该回声消除方法包括：第一终端设备获取来自第二终端设备的所输出的第一语音数据；通过时域音频分离模型对第一语音数据进行分离处理，得到多个分路语音数据；将多个分路语音数据中的每一个分路语音数据分别与多个不同时刻的参考信号进行相关度判定，确定残余回声信号；将第一语音数据中的残余回声信号进行过滤得到目标语音数据。通过时域音频分离模型对第一语音数据进行分离处理得到分路语音数据与参考信号进行判定能够得到残余回声信号，然后对该残余回声信号进行过滤，从而能够解决回声泄露的问题，可以提供更高质量的语音输出。

Description

回声消除方法、终端设备及存储介质

技术领域

本发明实施例涉及但不限于通信领域，尤其涉及回声消除方法、终端设备及存储介质。

背景技术

回声消除是实时语音传输的关键技术，没有回声消除，语音交互中，本端始终可以听到自己传输给对端的语音，极大地影响听觉效果，甚至无法有效地进行语音沟通。而传统回声消除算法受限于滤波器的长度，回声尾长超过滤波器支持的长度则无法有效消除回声，同时滤波器在延时抖动的过程中，滤波器参数收敛需要一定的时长，该过程会出现回声泄露的情况。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例的主要目的在于提出回声消除方法、终端设备及存储介质，能够解决回声泄露的问题。

第一方面，本发明实施例提供了回声消除方法，应用于第一终端设备，所述方法包括：

获取来自第二终端设备的所输出的第一语音数据，所述第一语音数据为所述第二终端设备在接收到来自所述第一终端设备的第二语音数据后所回复的语音数据；

通过时域音频分离模型对所述第一语音数据进行分离处理，得到多个分路语音数据；

将多个所述分路语音数据中的每一个所述分路语音数据分别与多个不同时刻的参考信号进行相关度判定，确定残余回声信号；

将所述第一语音数据中的所述残余回声信号进行过滤，得到目标语音数据。

第二方面，本发明实施例提供了回声消除装置，包括：

获取模块，用于获取来自第二终端设备的所输出的第一语音数据，所述第一语音数据为所述第二终端设备在接收到来自所述第一终端设备的第二语音数据后所回复的语音数据；

分离模块，用于通过时域音频分离模型对所述第一语音数据进行分离处理，得到多个分路语音数据；

判定模块，用于将多个所述分路语音数据分别与所述第一语音数据的参考信号进行相关度判定，确定残余回声信号；

过滤模块，用于将所述第一语音数据中的所述残余回声信号进行过滤，得到目标语音数据。

第三方面，本发明实施例提供了一种终端设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的回声消除方法。

第四方面，一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行第一方面所述的回声消除方法。

本发明实施例包括：第一终端设备获取来自第二终端设备的所输出的第一语音数据，第一语音数据为第二终端设备在接收到来自第一终端设备的第二语音数据后所回复的语音数据；通时域音频分离模型对第一语音数据进行分离处理，得到多个分路语音数据；将多个分路语音数据中的每一个分路语音数据分别与多个不同时刻的参考信号进行相关度判定，确定残余回声信号；将第一语音数据中的残余回声信号进行过滤，得到目标语音数据。通过时域音频分离模型对第一语音数据进行分离处理得到分路语音数据与参考信号进行判定能够得到残余回声信号，然后对该残余回声信号进行过滤，从而能够解决回声泄露的问题，可以提供更高质量的语音输出。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明一个实施例提供的用于执行回声消除方法的系统架构平台的示意图；

图2是本发明一个实施例提供的回声消除方法的流程图；

图3是本发明一个实施例提供的回声消除方法中确定残余回声信号的流程图；

图4是本发明一个实施例提供的回声消除方法的另一个流程图；

图5是本发明一个实施例提供的回声消除方法中自适应滤波的回声消除算法的流程图；

图6是本发明一个实施例提供的回声消除装置的示意图；

图7是本发明一个实施例提供的终端设备的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明实施例提供了回声消除方法、终端设备及存储介质，该回声消除方法包括但不限于如下步骤：第一终端设备第一终端设备获取来自第二终端设备的所输出的第一语音数据；通过时域音频分离模型对第一语音数据进行分离处理，得到多个分路语音数据；将多个分路语音数据中的每一个分路语音数据分别与多个不同时刻的参考信号进行相关度判定，确定残余回声信号；将第一语音数据中的残余回声信号进行过滤得到目标语音数据。通过时域音频分离模型对第一语音数据进行分离处理得到分路语音数据与参考信号进行判定能够得到残余回声信号，然后对该残余回声信号进行过滤，从而能够解决回声泄露的问题，可以提供更高质量的语音输出。通过实时、快速响应的时域音频分离模型对第一语音数据进行分离处理所得到的分路语音数据，与参考信号进行判定能够得到残余回声信号，然后对该残余回声信号进行过滤处理，能够更高质量的目标语音数据，从而能够解决回声泄露的问题。

下面结合附图，对本申请实施例的技术方案进行介绍。

图1是本申请实施例适用的一种系统架构平台100的功能框图。在一个实施例中，系统架构平台100包括第一终端设备110和第二终端设备120，第一终端设备110包括第一回声消除装置111，第二终端设备120包括扬声器121、拾音器122和第二回声消除装置123。

本发明实施例提供的回声消除方法应用于图1所示的系统架构平台100中，图1所示的终端设备(第一终端设备110和第二终端设备120)可以是个人计算机PC、移动电话、机顶盒、智能音箱、智能电视等设备。终端设备上还可以直接包括了扬声器121和拾音器122，如移动电话。终端设备也可以外接扬声器121和拾音器122，如个人计算机外接扬声器121和拾音器122，机顶盒外接电视机作为音视频播放设备。可以理解的是，第一终端设备110可以是相同的设备，也可以是不相同的设备，本实施例对其不作具体限定。

第一终端设备110用于向第二终端设备120发送音频信号(第二语音数据和/或参考信号)，第一终端设备110第一回声消除装置111用于对第二终端设备120所发送的第一语音信号的进行残余回声消除处理。

第二终端设备120用于输出来自第一终端设备110所发送的第二语音数据到扬声器121，还输出参考信号到扬声器121。参考信号通常为高频信号，其频率大于人耳可听见的声音的频率范围。一般人耳可听见的声音的频率范围为20赫兹到20,000赫兹，因此参考信号的频率可选择20,000赫兹以上。

第二终端设备120的第二回声消除装置123用于采集拾音器122的音频输入信号(包括第二扬声器121根据第二语音信号所输出的语音信号和用户的声音)，并进行处理，将音频输入信号中混入的回声进行消除处理，从而得到第一语音数据。

扬声器121用于播放第二终端设备120从第一终端设备110所获取的信号，包括第二语音信号和/或参考信号。播放出来的第二语音信号的声音可以供用户收听，而播放的音频参考信号的声音用户听不见，这样不会影响用户的使用体验。扬声器121输出的第二语音信号或音频参考信号的声音会传播到拾音器122中产生回声。

拾音器122用于接收混合语音信号，该混合的语音信号至少包括用户所发出的语音信号和第二终端设备120的扬声器121所输出的第二语音信号。拾音器122接收的声音中可能混入了扬声器121输出的第二语音信号的回声，或者参考信号的回声。

扬声器121输出的第二语音信号和参考信号会在拾音器122中产生回声，产生的原因包括声音的衍射、反射等。回声信号可以认为是音频信号经过回声信道后的声音信号。回声信道对声音的影响包括：时间上产生时延，能量上产生衰减。一般情况下，回声信道对音频内容信号的影响与对音频参考信号的影响相似。因此可以分析参考信号获得回声信道特性参数，包括时延和衰减系数，再利用这两个回声信道特性参数消除音频内容信号的回声。

本领域技术人员可以理解的是，该系统架构平台100可以应用于3G蜂窝通信；例如，码分多址(Code Division Multiple Access，简称CDMA)、EVD0、全球移动通信系统(Global System for Mobile Communications，简称GSM)/通用分组无线服务(GeneralPacket Radio Service，简称GPRS)，或者4G蜂窝通信，例如长期演进(Long TermEvolution，简称LTE)；或者，5G蜂窝通信；或者，后续演进的移动通信网络，本实施例对其不作具体限定。

本领域技术人员可以理解的是，图1中示出的系统架构平台100并不构成对本发明实施例的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

基于上述系统架构平台，下面提出本发明的回声消除方法的各个实施例。

如图2所示，图2是本发明一个实施例提供的回声消除方法的流程图，该回声消除方法应用于第一终端设备，并且该回声消除方法包括但不限于有步骤S100、步骤S200、步骤S300和步骤S400。

步骤S100，获取来自第二终端设备的所输出的第一语音数据，第一语音数据为第二终端设备在接收到来自第一终端设备的第二语音数据后所回复的语音数据。

具体地，第一终端设备和第二终端设备处于语音交互的过程中，第一终端设备向第二终端设备发送第二语音数据，第二终端设备接收到第二语音数据后会通过扬声器将第二语音数据进行播放，同时第二终端设备的拾音器会同时接收到扬声器播放的第二语音数据和其他声音，通常情况下，第二终端设备的第二回音消除装置会对拾音器中的回音信号进行过滤后，生成第一语音数据，并向第一终端设备进行发送，此时，第一终端设备会获取来自第二终端设备的所输出的第一语音数据。

步骤S200，通过时域音频分离模型对第一语音数据进行分离处理，得到多个分路语音数据。

具体地，由于第二终端设备的回声消除处理受限于滤波器的长度，回声尾长超过滤波器支持的长度则无法有效消除回声，同时滤波器在延时抖动的过程中，滤波器参数收敛需要一定的时长，该过程会出现回声泄露的情况，而产生残余回声信号，第二终端设备可以通过时域音频分离模型对第一语音数据进行分离处理，得到多个分路语音数据，由于时域音频分离模型具有时域音频分离的能力，通过时域音频分离模型分离得到的多个分路语音数据中包括残余回声信号。其中，时域音频分离模型是通过混合语音数据训练得到的。

需要说明的是，时域音频分离模型可以是时域音频分离网络(Time-domain AudioSeparation Network，简称TasNet)模型，可以是全卷积时域音频分离网络(ConvolutionTime-domain Audio Separation Network，简称Conv-TasNet)，还可以是其他时域音频分离模型，本实施例对其不作具体限定。

步骤S300，将多个分路语音数据中的每一个分路语音数据分别与多个不同时刻的参考信号进行相关度判定，确定残余回声信号。

具体地，为了从多个分路语音数据中识别出残余回声信号，第一终端设备可以将多个分路语音数据中的每一个分路语音数据分别与多个不同时刻的参考信号进行相关度判定，可以根据相关度结果确定残余回声信号。

步骤S400，将第一语音数据中的残余回声信号进行过滤，得到目标语音数据。

具体地，第一终端设备将第一语音数据中的残余回声信号进行过滤处理，从而可以得到目标语音数据，该目标语音数据是纯净语音数据，能够解决回声泄露的问题。

需要说明的是，将第一语音数据中的残余回声信号进行过滤的过滤方法可以是谱减法，也可以是其他过滤方法，本实施例对其不作唯一限定。

可以理解的是，谱减法是用带噪信号的频谱减去噪声信号的频谱。假设语音中的噪声有加性噪声，将带噪语音谱减去噪声频谱，能够得到纯净语音，其中噪声信号是平稳的或者缓慢变化的。公式如下：

let D(w)＝P_s(w)-P_n(w)

其中，Ps(w)是输入的带噪语音的频谱(第一语音数据)，Pn(w)是估计出的噪音的频谱(残余回声信号)，两者相减得到D(w)差值频谱。由于相减后可能会出现负值，可以加上一个判断条件，将负值全部置为0，那么得到的结果为最终输出去噪语音的频谱(目标语音数据)。

在一实施例中，参照图3所示，第一终端设备获取来自第二终端设备的所输出的第一语音数据，由于第一语音数据是第二终端设备的回声消除处理后的语音数据，而在第二终端设备中的回声消除处理方法受限于滤波器的长度，回声尾长超过滤波器支持的长度则无法有效消除回声，同时滤波器在延时抖动的过程中，滤波器参数收敛需要一定的时长，在该过程会中出现回声泄露的情况，产生残余回声信号，即第一语音数据是带有残余回声信号的数据，那么第二终端设备可以通过TasNet模型对第一语音数据进行分离处理，得到多个分路语音数据，由于TasNet模型具有时域音频分离的能力，通过TasNet模型分离得到的多个分路语音数据中包括残余回声信号，然后为了能够从多个分路语音数据中识别出残余回声信号，第一终端设备可以将多个分路语音数据分别与第一语音数据的参考信号进行相关度判定，可以根据相关度结果确定残余回声信号，再将第一语音数据中的残余回声信号进行过滤处理，从而可以得到目标语音数据，该目标语音数据是纯净语音数据，上述方法不仅可以利用传统回声消除的算法，覆盖大部分正常使用的场景，同时能够弥补传统回声消除的算法在延时变化与抖动过程中产生的回声泄露，同时，第一终端设备设置一种不依赖远端回声消除效果的本端回声消除机制，为本端的语音质量提供了保障，能够解决回声泄露的问题。

参照图4，在一实施例中，步骤S300包括但不限于步骤S410至步骤S430。

步骤S410，将多个分路语音数据中的每一个分路语音数据分别与多个不同时刻的参考信号进行相关度计算，得到最大相关度的参考信号；

步骤S420，当最大相关度大于预设阈值，确定最大相关度对应的参考信号为目标参考信号；

步骤S430，将目标参考信号所对应的分路语音数据确定为残余回声信号。

具体地，假设参考信号为s(t)，分路语音数据为yn(t),其中n表示第n路信号。由于yn(t)中的残余回声相较于s(t)会存在一定的延时，因此，可以在s(t)中需要保留历史信息，以si(t)表示相较于当前时刻的历史第i帧的参考信号。然后，通过语音帧的相关性，估计与yn(t)对应的si(t)，即通过遍历所有的si(t)，与yn(t)进行相关度计算，得到最大相关度的si(t)，若该相关度大于预设阈值cohne，则认为最大相关度的si(t)是有效的参考帧；然后使用最大相关度的si(t)与每个yn(t)进行遍历计算，得到相关度最高的yn(t)，即为残余回声信号。通过对si(t)与yn(t)进行i*n的遍历计算，求得相关度最高si(t)与yn(t)。

为了满足实时性的要求，相关度计算方法可以采用网页即时通信(Web Real-TimeCommunication，简称WebRTC)中互相关方法，该算法在算法度和性能上能够达到较好的平衡。具体来说，通过快速傅立叶变换(Fast Fourier Transform，简称FFT)将si(t)和yn(t)转换到频域，并对其均分为64个子频带，采用频谱中最重要的32个频段(即频段12-43)。然后通过该算法估计频谱的均值threshold_spectrum并设置该均值为门限值，当某个频段值大于门限值时，将其设置为1，反之将其设置为0。能够有效得到远端和近端信号二值化的频谱数值，将两数值进行按位异或运算，并计算其中的1的个数，即可以得到si(t)与yn(t)的相关度。

在一实施例中，通过该种快速计算相关度的方法，首先可以遍历计算si(t)与未分离的语音数据y(t)的相关度，并选出最高的相关度所对应的si(t)，然后使用si(t)与y(t)的分离各路语音数据yn(t)进行遍历，最终得到与si(t)相关度最高的yn(t)，将与si(t)相关度最高的yn(t)确定为残余回声信号。

参照图5，在一实施例中，第一语音数据为第二终端设备通过自适应滤波的回声消除算法对第二语音数据所产生的回声数据处理后的语音数据，其中，自适应滤波的回声消除算法包括但不限于步骤S510、步骤S520、步骤S530、步骤S550、步骤S550。

步骤S510，由第二终端设备根据第二语音数据和参考信号得到估计延时信息；

步骤S520，根据估计延时信息、预设的自适应滤波器系数以及参考信号得到估计回声信号；

步骤S530，将第二语音数据与估计回声信号进行相关度计算，得到不同时间点的相关系数；

步骤S540，根据相关系统确定回声输入信号；

步骤S550，对回声输入信号进行过滤处理，得到第一语音数据。

具体地，回声消除算法是由第二终端设备根据第二语音数据和参考信号得到估计延时信息，即可以利用第二语音数据和参考信号两路信号的相关性来计算延时，预设置一组初始的自适应滤波器系数，根据参考信号，使其不断迭代至均方误差最小，或者达到迭代步骤的上限，此步骤输出得到估计的回声信号，使用估计回声信号与输入信号进行相关性计算，得到不同时间点上的相关系数，并设置一定的策略，例如对相关系数取n次方(n>＝2)，对生成的相关系数与设置一定的阈值，相关系数高于阈值部分，可以判断为近端输入，而相关系数低于阈值部分可以判定为远端回声输入，根据随机数生成算法产生噪声源，并进行低频滤波处理以及幅度限制，从而生成舒适噪声，得到用于向第一终端设备发送的第一语音数据。

基于上述回声消除方法，下面分别提出本发明的回声消除装置、终端设备和计算机可读存储介质的各个实施例。

本发明的一个实施例还提供了一种回声消除装置，如图6所示，该回声消除装置包括：获取模块610、分离模块620、判定模块630和过滤模块640。其中获取模块610用于获取来自第二终端设备的所输出的第一语音数据，第一语音数据为第二终端设备在接收到来自第一终端设备的第二语音数据后所回复的语音数据；分离模块620用于通过时域音频分离模型对第一语音数据进行分离处理，得到多个分路语音数据；判定模块630用于将多个分路语音数据分别与第一语音数据的参考信号进行相关度判定，确定残余回声信号；过滤模块640用于将第一语音数据中的残余回声信号进行过滤，得到目标语音数据。

进一步，分离模块620还用于通过对根据混合语音数据训练得到的TasNet模型对第一语音数据进行分离处理，得到多个分路语音数据。

进一步，判定模块630还用于将多个分路语音数据分别与第一语音数据的参考信号进行相关度计算，得到多个与分路语音数据对应的相关度；当最大的相关度大于预设阈值，将最高的相关度所对应的分路语音数据确定为残余回声信号。

进一步，判定模块630还用于采用网页即时通信WebRTC的互相关函数对多个分路语音数据分别与第一语音数据的参考信号进行相关度计算。

进一步，过滤模块640还用于利用谱减法将第一语音数据中的残余回声信号进行过滤，得到目标语音数据。

需要说明的是，回声消除装置用于执行与上述实施例中回声消除方法相同的技术手段，与上述实施例中回声消除方法所解决的技术问题相同，与上述实施例中回声消除方法所达到的技术效果相同，此处对回声消除装置所采用的技术手段、解决的技术问题和达到的技术效果不作赘述。

本发明的一个实施例还提供了一种终端设备，如图7所示，终端设备700包括存储器720、处理器710及存储在存储器720上并可在处理器710上运行的计算机程序。

处理器710和存储器720可以通过总线或者其他方式连接。

存储器720作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器720可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器720可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述实施例的回声消除方法所需的非暂态软件程序以及指令存储在存储器720中，当被处理器710执行时，执行上述实施例中的回声消除方法，例如，执行以上描述的图2中的方法步骤S100至步骤S400、图4中的方法步骤S410至S430、图5中的方法步骤S510至S550。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述实施例中通信设备中的一个处理器执行，可使得处理器执行上述实施例中的对应于终端设备侧的回声消除方法，例如，执行以上描述的图2中的方法步骤S100至步骤S400、图4中的方法步骤S410至S430、图5中的方法步骤S510至S550。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种回声消除方法，应用于第一终端设备，所述方法包括：

2.根据权利要求1所述的回声消除方法，其特征在于，所述将多个所述分路语音数据中的每一个所述分路语音数据分别与多个不同时刻的参考信号进行相关度判定，确定残余回声信号，包括：

将多个所述分路语音数据中的每一个所述分路语音数据分别与多个不同时刻的参考信号进行相关度计算，得到最大相关度的所述参考信号；

当所述最大相关度大于预设阈值，确定所述最大相关度对应的所述参考信号为目标参考信号；

将所述目标参考信号所对应的所述分路语音数据确定为残余回声信号。

3.根据权利要求2所述的回声消除方法，其特征在于，所述将多个所述分路语音数据中的每一个所述分路语音数据分别与多个不同时刻的参考信号进行相关度判定，包括：

采用网页即时通信的互相关函数对多个所述分路语音数据中的每一个所述分路语音数据分别与多个不同时刻的参考信号进行相关度判定。

4.根据权利要求1所述的回声消除方法，其特征在于，所述第一语音数据为所述第二终端设备通过自适应滤波的回声消除算法对所述第二语音数据所产生的回声数据处理后的语音数据。

5.根据权利要求4所述的回声消除方法，其特征在于，自适应滤波的回声消除算法包括：

由所述第二终端设备根据所述第二语音数据和所述参考信号得到估计延时信息；

根据所述估计延时信息、预设的自适应滤波器系数以及所述参考信号得到估计回声信号；

将所述第二语音数据与所述估计回声信号进行相关度计算，得到不同时间点的相关系数；

根据所述相关系数确定回声输入信号；

对所述回声输入信号进行过滤处理，得到所述第一语音数据。

6.根据权利要求1所述的回声消除方法，其特征在于，所述时域音频分离模型为根据混合语音数据训练得到的TasNet模型。

7.根据权利要求1所述的回声消除方法，其特征在于，所述将所述第一语音数据中的所述残余回声信号进行过滤，得到目标语音数据包括：

利用谱减法将所述第一语音数据中的所述残余回声信号进行过滤，得到目标语音数据。

8.一种回声消除装置，其特征在于，包括：

判定模块，用于将多个所述分路语音数据中的每一个所述分路语音数据分别与多个不同时刻的参考信号进行相关度判定，确定残余回声信号；

9.一种终端设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的回声消除方法。

10.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行权利要求1至7任意一项所述的回声消除方法。