CN109087662A

CN109087662A - 一种回声消除方法及装置

Info

Publication number: CN109087662A
Application number: CN201811251321.3A
Authority: CN
Inventors: 李深安; 韩后岳; 王兴宝; 雷琴辉
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2018-12-25
Anticipated expiration: 2038-10-25
Also published as: CN109087662B

Abstract

本申请公开了一种回声消除方法及装置，该方法包括：在第一时刻利用第一参考信号更新云端回声消除系统的参数，第一参考信号是云端服务器对第一用户指令进行响应后的语音合成结果；在第一时刻之后的第二时刻，若接收到客户端上传的麦克风信号和目标参考信号，则通过云端回声消除系统，利用目标参考信号对麦克风信号进行回声消除。可见，由于云端回声消除可以使用比本地更复杂的回声消除算法以及提前预估计回声消除滤波器参数，在对麦克风信号进行回声消除时，可以具有较好的回声消除效果。

Description

一种回声消除方法及装置

技术领域

本申请涉及回声消除技术领域，尤其涉及一种回声消除方法及装置。

背景技术

在人机交互过程中，机器接收到用户请求(比如语音、文字、触摸等方式的请求)后，会根据用户请求信息作出相应处理，最后将处理结果反馈给用户。其中，提示语播报是机器向用户反馈信息的最有效最便捷的方式之一，在现有各类人机交互产品中，通过提示语播报来提示用户的应用最为广泛，尤其是在车载环境下，为了保证驾驶过程的安全性，用户在驾驶过程中，通过听觉形式接收反馈信息就显得尤为重要。

实际上，大部分提示语中包含了反馈信息详情，当提示语播报较长时，对提示系统熟悉的用户来说，往往听到提示语的前半段就可以做出二次交互。在这种情况下，用户往往会打断提示语的播报，向机器发出二次交互的指令。

然而，用户交互语音是由车机的麦克风录制的，与此同时，麦克风也会录制到提示语(即回声信号)，为了保证交互的成功率，需要将录制的提示语从麦克风录制的信号中去除，即进行回声消除，但是，提示语通常是通过从文本到语音(Text To Speech，简称TTS)的合成系统合成的音频，提示语所包含的频带信息相对较少，而且相对用户长时间的交互来说，提示语较短且是多变和突发的，因此，现有的回声消除技术，对于提示语的回声消除效果较差，这势必会导致用户二次交互的成功率下降。

发明内容

本申请实施例的主要目的在于提供一种回声消除方法及装置，能够提高回声消除的效果。

本申请实施例提供了一种回声消除方法，所述方法应用于一种服务器，所述服务器侧包括云端回声消除系统，所述方法包括：

在第一时刻利用第一参考信号更新所述云端回声消除系统的参数，所述第一参考信号是所述服务器对第一用户指令进行响应后的语音合成结果；

在所述第一时刻之后的第二时刻，若接收到客户端上传的麦克风信号和目标参考信号，则通过所述云端回声消除系统，利用所述目标参考信号对所述麦克风信号进行回声消除，所述麦克风信号包括第二用户指令和所述目标参考信号对应形成的回声信号。

可选的，所述目标参考信号为所述第一参考信号或第二参考信号，所述第二参考信号是所述客户端对所述第一用户指令进行响应后的语音合成结果。

可选的，所述服务器按照下述方式生成所述第一参考信号：

对所述第一用户指令进行响应，得到第一响应文本；

将所述第一响应文本进行语音合成，得到所述第一参考信号。

可选的，所述接收客户端上传的目标参考信号，包括：

将所述第一响应文本下发至所述客户端，其中，所述客户端用于从所述第一响应文本与第二响应文本中选择一个文本进行语音合成，得到目标参考信号，所述第二响应文本是所述客户端对所述第一用户指令进行响应得到的响应文本；

接收所述客户端上传的所述目标参考信号。

可选的，所述将所述第一响应文本下发至所述客户端，包括：

在将所述第一响应文本进行语音合成的同时，将所述第一响应文本下发至所述客户端。

可选的，所述利用所述目标参考信号对所述麦克风信号进行回声消除，包括：

若所述目标参考信号为所述第一参考信号，则将所述第一参考信号作为最终参考信号，对所述麦克风信号进行回声消除；

若所述目标参考信号为所述第二参考信号，则利用所述第一参考信号与所述第二参考信号生成最终参考信号，对所述麦克风信号进行回声消除。

可选的，所述利用所述第一参考信号与所述第二参考信号生成最终参考信号，包括：

将所述第一参考信号与所述第二参考信号进行加权平均，得到最终参考信号。

可选的，所述方法还包括：利用所述云端回声消除系统的参数，更新所述客户端侧的本地回声消除系统的参数。

可选的，所述第一参考信号与所述第二参考信号为TTS音频流。

本申请实施例还提供了一种回声消除装置，所述装置归属于一种服务器，所述服务器侧包括云端回声消除系统，所述装置包括：

参数更新单元，用于在第一时刻利用第一参考信号更新所述云端回声消除系统的参数，所述第一参考信号是所述服务器对第一用户指令进行响应后的语音合成结果；

回声消除单元，用于在所述第一时刻之后的第二时刻，若接收到客户端上传的麦克风信号和目标参考信号，则通过所述云端回声消除系统，利用所述目标参考信号对所述麦克风信号进行回声消除，所述麦克风信号包括第二用户指令和所述目标参考信号对应形成的回声信号。

可选的，所述装置还包括：

文本生成单元，用于对所述第一用户指令进行响应，得到第一响应文本；

信号合成单元，用于将所述第一响应文本进行语音合成，得到所述第一参考信号。

可选的，所述回声消除单元包括：

文本下发子单元，用于将所述第一响应文本下发至所述客户端，其中，所述客户端用于从所述第一响应文本与第二响应文本中选择一个文本进行语音合成，得到目标参考信号，所述第二响应文本是所述客户端对所述第一用户指令进行响应得到的响应文本；

信号接收子单元，用于接收所述客户端上传的所述目标参考信号。

可选的，所述文本下发子单元，具体用于在将所述第一响应文本进行语音合成的同时，将所述第一响应文本下发至所述客户端。

可选的，所述回声消除单元包括：

第一消除子单元，用于若所述目标参考信号为所述第一参考信号，则将所述第一参考信号作为最终参考信号，对所述麦克风信号进行回声消除；

第二消除子单元，用于若所述目标参考信号为所述第二参考信号，则利用所述第一参考信号与所述第二参考信号生成最终参考信号，对所述麦克风信号进行回声消除。

可选的，所述第二消除子单元，具体用于将所述第一参考信号与所述第二参考信号进行加权平均，得到最终参考信号。

可选的，所述装置还包括：

参数更新单元，用于利用所述云端回声消除系统的参数，更新所述客户端侧的本地回声消除系统的参数。

本申请实施例还提供了一种回声消除装置，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述回声消除方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述回声消除方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述回声消除方法中的任意一种实现方式。

本申请实施例提供的一种回声消除方法及装置，在第一时刻利用第一参考信号更新云端回声消除系统的参数，第一参考信号是云端服务器对第一用户指令进行响应后的语音合成结果；在第一时刻之后的第二时刻，若接收到客户端上传的麦克风信号和目标参考信号，则通过云端回声消除系统，利用目标参考信号对麦克风信号进行回声消除。可见，由于云端回声消除可以使用更复杂的算法和提前预估计回声消除滤波器参数，在对麦克风信号进行回声消除时，可以具有较好的回声消除效果，尤其能够提升TTS音这种短时回声信号的回声消除效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的回声消除原理示意图；

图2为本申请实施例提供的服务器与客户端的交互示意图；

图3为本申请实施例提供的回声消除系统架构示意图；

图4为本申请实施例提供的回声消除方法的流程示意图；

图5为本申请实施例提供的回声消除装置的组合示意图。

具体实施方式

参见图1所示的回声消除原理示意图，在图1中，将系统中的用户所在端称之为近端，将系统的另一端称之为远端，以车机系统为例，用户所在端包括麦克风和扬声器，将麦克风录制到的信号称为近端信号，该近端信号可以包括用户语音信号、环境噪声信号以及远端回声信号。其中，用户语音信号是用户表达真实请求的语音信号；环境噪声信号是系统内部环境和系统外部环境产生的噪声信号；远端回声信号是系统发出的从文本到语音(Text To Speech，TTS)音、音乐、电台等声音信号通过扬声器播报出来后被麦克风拾取到而成的有干扰的回声信号，关于系统发出的TTS音、音乐、电台等声音信号，这些声音信号在未经扬声器播放时被称为远端信号，又被称为参考信号。

远端回声信号与环境噪声信号不同的是，从理论上来说，只需要知道参考信号经过扬声器播放和空间传播之后的信号，就可以估计出近端信号中的远端回声信号的成分，从而将远端回声信号从近端信号中去除，从而实现回声消除。

如图1所示，近端信号u(k)＝s(k)*h(k)+y(k)+v(k)＝x(k)+b(k)，其中，s(k)为远端信号，也即参考信号，h(k)为参考信号s(k)经过空间传播的响应变化(即空间冲击响应)，x(k)＝s(k)*h(k)为远端回声信号，也即参考信号s(k)通过扬声器播放之后经过空间传播被麦克风录制到的信号。实际上，回声消除系统的主要工作就是对远端回声信号x(k)进行估计，得到估计信号x′(k)，使该估计信号x′(k)尽可能的接近远端回声信号x(k)，从而将远端回声信号x(k)从近端信号u(k)中去除。

现有的回声消除方案基本是利用近端信号和参考信号，基于最小均方误差等方法，估计空间回声参数，来达到消除近端信号中的远端回声信号的目的。然而，现有技术方案中并未针对参考信号为TTS音的情况进行特殊处理和优化，TTS音是经语音合成后的语音，比如TTS音可以是“明天天气预报”等用户指令响应结果，而在实际的车机系统中，尤其是在全双工交互过程中，车机系统给用户反馈的TTS音经过扬声器播报后被麦克风重新录制，若用户正在与车机系统进行交互，麦克风录制音频可能同用户交互语音混在一起，即麦克风同时获取到录制音频和用户语音，此时，需要通过回声消除将录制语音(远端回声信号)从麦克风接收信号(近端信号)中去除，如果回声消除效果较差，则会降低用户交互的成功率，同时残留的TTS音还可能被当成用户的请求指令，误触发车机系统的响应。

由于TTS音突发性强、时间较短，而且频带信息没有其他回声信号丰富，所以，现有的回声消除技术对TTS的消除效果较差。

具体地，现有回声消除技术有如下两个缺点：

1、与车机系统所播放的音乐、电台等长时间的连续的干扰信号相比，车机系统播报的TTS音与用户的请求相关、内容多变、相对持续时间较短，且由于TTS音是通过TTS系统合成的，频带信息没有音乐信号丰富，回声消除系统对TTS音的消除效果往往较差，这在很大程度上降低了用户交互的成功率，尤其是对车机系统使用熟悉而频繁打断TTS音的用户。

2、现有回声消除算法基本运行在车机的本地嵌入式设备上，由于嵌入式设备内存、中央处理器(CentralProcessing Unit，CPU)等资源有限，往往对回声消除算法的运行效率有很大的限制，不适用于时间复杂度要求较高的算法，比如TTS音这种频繁被打断的情况。

需要说明的是，由于上述近端信号即为麦克风接收到的信号，后续内容将近端信号统称为麦克风信号。

为解决上述缺陷，本申请实施例提供了一种回声消除方法，分别在本地和云端进行回声消除，云端在接收到本地上传的带有回声的麦克风信号和参考信号之前，已经利用云端合成的参考信号提前训练云端回声消除系统，使云端回声消除系统的滤波器参数提前收敛，可见，由于云端回声消除可以使用比本地更复杂的回声消除算法以及提前预估计回声消除滤波器参数，在对麦克风信号进行回声消除时，可以具有较好的回声消除效果，尤其能够提升TTS音这种短时回声信号的回声消除效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种回声消除方法，该方法应用于服务器，该服务器侧包括云端回声消除系统。需要说明的是，该服务器侧的回声消除方法，将结合图2所示的服务器与客户端的交互示意图以及图3所示的回声消除系统架构示意图进行介绍。

参见图4，为本申请实施例提供的回声消除方法的流程示意图，该方法包括以下步骤：

S401：服务器在第一时刻利用第一参考信号更新云端回声消除系统的参数，该第一参考信号是服务器对第一用户指令进行响应后的语音合成结果。

在本实施例中，当客户端的麦克风接收到第一用户指令后，会形成携带第一用户指令的麦克风信号1，但该麦克风信号1中除了包括第一用户指令，还可能包括远端回声信号和/或环境噪声信号，客户端会将该麦克风信号1上传至服务器，服务器对该麦克风信号1进行降噪和回声消除，以从中得到干净的第一用户指令，进而对该第一用户指令进行语音识别以及语义理解，最终通过语音合成得到第一用户指令的指令响应结果，这里，将该指令响应结果定义为第一参考信号。

在本实施例中的一种实现方式中，该第一参考信号可以为TTS音频流。

下面对第一参考信号的生成过程进行具体介绍。

在本实施例的一种实现方式中，服务器可以按照下述方式生成第一参考信号，需要说明的是，各个步骤的相关介绍均以人机交互结果为TTS音频流为例进行说明。本实现方式具体包括以下步骤A1-B1：

步骤A1：服务器对第一用户指令进行响应，得到第一响应文本。

本步骤A1由图2所示的步骤S201、S202、S205和S206实现。

在步骤S201中，客户端通过麦克风接收用户在t₀时刻发出语音请求指令，这里将该语音请求指令定义为第一用户指令，将麦克风接收的信号定义为麦克风信号1，该麦克风信号1中包括第一用户指令以及其它信号，比如环境噪声信号、远端回声信号等。

在步骤S202中，客户端将麦克风信号1发送至服务器，如果该麦克风信号1中包括远端回声信号，还需要将该远端回声信号对应的参考信号一并发送至服务器，即，u₀＝x₀+y₀+v₀，u₀为麦克风信号1，x₀为远端回声信号，y₀为第一用户指令的语音信号，v₀为环境噪声信号，远端回声信号x₀对应的参考信号为s₀。

在步骤S205中，服务器利用图3所示的云端回声消除系统消除麦克信号1中的远端回声信号x₀和环境噪声信号v₀，从中得到第一用户指令的语音信号y₀。

在步骤S206中，服务器将第一用户指令的语音信号y₀送入图3所示的云端语音识别模块进行语音识别，得到识别文本，再将该识别文本送入图3所示的云端语义理解模块，基于对该识别文本的语义理解结果，对第一用户指令进行响应，得到第一响应文本。例如，第一用户指令是询问“北京明天的天气预报”，第一响应文本则为北京明天天气预报的文本内容。

步骤B1：服务器将第一响应文本进行语音合成，得到第一参考信号。

本步骤C1由图2所示的步骤S208实现。具体地，图3所示的云端语义理解模块输出第一响应文本后，由云端TTS合成模块解析第一响应文本并对第一响应文本进行语音合成，合成TTS音频流，该TTS音频流即为第一参考信号。

在本实施例中，当生成了第一参考信号后，便可以利用第一参考信号对云端回声消除系统进行滤波器参数更新，即，可以通过最小均方误差等算法估计回声误差，迭代更新滤波器权重参数，使之收敛，即图2所示的步骤S209。

S402：服务器在第一时刻之后的第二时刻，若接收到客户端上传的麦克风信号和目标参考信号，则通过云端回声消除系统，利用目标参考信号对麦克风信号进行回声消除。

其中，本步骤S402中的麦克风信号是不同于上述麦克风信号1的麦克风信号2，该麦克风信号2包括第二用户指令(即第一用户指令后的用户指令)和目标参考信号对应形成的回声信号，该目标参考信号为第一参考信号或第二参考信号，第二参考信号是客户端对第一用户指令进行响应后的语音合成结果。

在本实施例中的一种实现方式中，第一参考信号与第二参考信号可以为TTS音频流。

为便于理解本实施例，首先对目标参考信号的形成过程进行介绍。

如S401中所述，服务器会对第一用户指令进行指令响应，从而形成第一响应文本，同样地，客户端也会对第一用户指令进行指令响应，从而形成第二响应文本，可以由图2所示的步骤S203和S204实现。

如步骤S202中所述，u₀＝x₀+y₀+v₀，其中，u₀为麦克风信号1，x₀为远端回声信号，y₀为第一用户指令的语音信号，v₀为环境噪声信号。在步骤S203中，客户端利用图3所示的本地回声消除系统消除麦克信号1中的远端回声信号x₀和环境噪声信号v₀，从中得到第一用户指令的语音信号y₀。

在步骤S204中，客户端将第一用户指令的语音信号y₀送入图3所示的本地语音识别模块进行语音识别，得到识别文本，再将该识别文本送入图3所示的本地语义理解模型，根据对该识别文本的语义理解结果，对第一用户指令进行响应，得到第二响应文本。

需要说明的是，假设客户端在t₁时刻得到第二响应文本，并假设服务器在t₂时刻得到第一响应文本，由于客户端先于服务器获取到麦克风信号1，因此，通常情况下，t₂时刻滞后于t₁时刻。

在本实施例中，服务器通过步骤A1生成第一响应文本后，会将第一响应文本下发至客户端，如图2所示的步骤S207，更具体地，服务器在通过S208将第一响应文本进行语音合成的同时，将第一响应文本下发至客户端，即步骤S207和S208同步执行。假设服务器在t₂时刻得到第一响应文本，那么，客户端在t₂+Δt时刻接收到第一响应文本，一般情况下，t₂+Δt＞t₁。

接下来，客户端会从第一响应文本与第二响应文本中选择一个文本进行语音合成，得到目标参考信号，并且，客户端会将该目标参考信号作为第一指令的响应结果，通过扬声器进行输出，即图2所示的步骤S210。例如，图3所示的本地TTS合成模型对被选择文本进行语音合成，合成TTS音频流，该TTS音频流即为目标参考信号，由于对第一响应文本进行语音合成后形成第一参考信号(即云端合成的TTS音频流)，而对第二响应文本进行语音合成后形成第二参考信号(即本地合成的TTS音频流)，因此，目标参考信号为第一参考信号或第二参考信号。

需要说明的是，客户端需要基于第一用户指令的指令内容，判断客户端与服务器的哪个指令响应文本(即第一响应文本与第二响应文本)更为准确，例如，如果第一用户指令触发的是导航、音乐等搜索业务时，则云端的搜索引擎的搜索效果相对于本地更准确，搜索的数据更可靠，可以选择云端的第一响应文本，作为指令响应结果进行语音合成并输出，如果第一用户指令触发的是车机状态、用户个性化参数、本地电话查询、车身控制等业务时，则本地的搜索引擎的搜索效果相对于云端更准确，搜索的数据更可靠，可以选择本地的第二响应文本，作为指令响应结果进行语音合成并输出。

在本实施例中，当客户端合成目标参考信号并使目标参考信号通过扬声器播放后，在t₃时刻，t₃＞max(t₁,t₂+Δt)，客户端侧的麦克风录制到用户新的语音请求，这里将该新的语音请求定义为第二用户指令，与此同时，麦克风还录制到扬声器对目标参考信号进行播放后的信号，此时有u₃＝x₃+y₃+v₃，其中，u₃为麦克风信号2，x₃为目标参考信号被扬声器播放并经空间传播后被麦克风录制而成的回声信号，y₃为第二用户指令的语音信号，v₃为环境噪声信号。

可以理解的是，如图3所示，假设扬声器只播放了TTS音频流，则目标参考信号即为该TTS音频流，如果还播放了音乐等其它媒体信号，则目标参考信号还包括该媒体信号，即，目标参考信号包括扬声器所要播放的所有信号。

接下来，客户端会利用图3所示的本地回声消除系统，基于目标参考信号对麦克风信号2进行回声消除，即图2所示的步骤S212。与此同时，客户端会将麦克风信号2和目标参考信号一同上传至服务器，即服务器会接收到客户端上传的麦克风信号2和目标参考信号，服务器会利用云端的回声消除系统(即利用第一参考信号进行滤波器参数更新后的系统)，基于目标参考信号对麦克风信号2进行回声消除，即图2所示的步骤S213，也即步骤S402。

在步骤S402中，由于服务器在第二时刻接收到麦克风信号2和目标参考信号，但在这之前即第一时刻，服务器已经获取到了第一参考信号，并在第一时刻与第二时刻之间这段时间对云端回声消除系统的滤波器参数进行了自适应迭代更新，这样，在第二时刻接收到麦克风信号2和目标参考信号时，便可以及时对麦克风信号2进行回声消除，因此可以达到很好的回声消除效果。

在本实施例的一种实现方式中，步骤S402中的“利用所述目标参考信号对所述麦克风信号进行回声消除”，具体可以包括：

S4021：若所述目标参考信号为所述第一参考信号，则将所述第一参考信号作为最终参考信号，对所述麦克风信号进行回声消除。

S4022：若所述目标参考信号为所述第二参考信号，则利用所述第一参考信号与所述第二参考信号生成最终参考信号，对所述麦克风信号进行回声消除。

需要说明的是，S4021和S4022中的最终参考信号，即为进行回声消除使用的参考信号，本实施例可以采用现有或未来出现的任一方法对麦克风信号2进行回声消除。

具体地，当S4022利用第一参考信号与第二参考信号生成最终参考信号时，可以将第一参考信号与第二参考信号进行加权平均，得到最终参考信号。其中，权重值可以基于经验进行设置，此外，加权平均的步骤可以由图3所示的云端回声消除系统实现，也可以由服务器的其它功能模块实现。

可以理解的是，参见图3，如前文所述，服务器经过语音识别和语义理解后得到第一响应文本，客户端经过语音识别和语义理解后得到第二响应文本，然后，客户端从第一响应文本和第二响应文本中选择一响应文本进行语音合成(比如TTS音频)进行播报，可以看出，服务器先于客户端获取到第一响应文本，因此，服务器通过云端语音合成模块可以提前对第一响应文本进行语音合成，从而得到第一参考信号，即，服务器在获取到客户端上传的混有回声信号的麦克风信号2和目标参考信号之前，便合成了第一参考信号，因此，可以提前利用第一参考信号对云端回声消除系统进行参数更新。

在进行参数更新时，由于回声信号的估计与滤波器的权重更新密切相关，从滤波器权重更新可知，如果提前拿到第一参考信号，可以通过最小均方误差算法等估计回声误差，迭代更新滤波器权重参数，使之收敛，那么，在麦克风信号2和目标参考信号上传到服务器的时候，服务器的自适应滤波器已收敛或者趋于收敛，这样，可以对麦克风信号2中的回声信号起到很好的消除作用。

此外，云端回声消除系统可以使用更复杂、效果更好的滤波器算法，这是因为，为了消除较长时间的回声，需要较高的滤波器阶数，但是由于本地硬件资源有限，本地回声消除系统的滤波器阶数往往不会设置的很高，但服务器可以使用较高阶数的滤波器，故而回声消除效果更好。

基于此，在本实施例中，还可以进一步利用云端回声消除系统的参数，更新客户端侧的本地回声消除系统的参数。在实际应用中，可以在云端回声消除系统的参数收敛到一定程度后，即能够起到很好的回声消除效果的情况下，利用云端回声消除系统的参数，更新本地回声消除系统的参数。

接下来，对步骤S402之后的处理过程进行介绍。

在本实施例中，如图3所示以及上文所述，客户端将麦克风录制的声音信号(即麦克风信号2)以及硬件电路采集的参考信号(即目标参考信号)，同时送到本地回声消除系统和云端回声消除系统中，在本地和云端分别做前端降噪处理和回声消除处理，然后分别进行语音识别和语义理解，客户端将得到本地对第二用户指令的响应文本以及云端对第二用户指令的响应文本，选择其中一个响应文本进行语音合成并通过扬声器输出，具体执行过程与第一用户指令的处理过程类似，如图2所示，此处不再赘述。

需要说明的是，本实施例中的麦克风信号2和目标参考信号对应于本地的一路麦克风，若本地具有N路麦克风，则每一路均对应一组麦克风信号2和目标参考信号。其中，麦克风信号2包含第二用户指令的语音信号、噪声信号和回声信号，其中，回声信号是目标参考信号经过扬声器播放和空间传播后被麦克风录制到的信号，比如，目标参考信号可以是车机播放的音乐、TTS音等经过扬声器播放和车内传播之前的信号(若车机未播放音乐，则目标参考信号中不包含音乐)，一般情况下，会取扬声器前级信号(也即在扬声器输出声音信号之前通过硬件电路取到的电信号，然后将该电信号通过模数转换后得到的数字信号)作为目标参考信号。

在通过本地回声消除系统和云端回声消除系统对麦克风信号2进行回声消除时，结合图1介绍回声消除算法，以车机为例(或其它应用终端)，车机麦克风除了录制到用户的语音信号之外，还包括环境噪声、扬声器播出的音乐、TTS音等回声，称之为远端回声信号。回声消除系统的目的就在于消除麦克风信号2中的环境噪声信号和远端回声信号，如图1所示，第二用户指令的语音信号为y(k)、环境噪声信号为v(k)、目标参考信号为s(k)，目标参考信号经过扬声器播放和空间传输后，空间冲击响应为h(k)，那么，麦克风信号2(由于本申请中不涉及到降噪，所以下面公式中均不涉及噪声信号)为：

u(k)＝s(k)*h(k)+y(k)＝x(k)+y(k)

其中，x(k)＝s(k)*h(k)为远端回声信号。

在回声消除系统中，通过估计空间冲击响应函数h′(k)，卷积上目标参考信号即可得到远端回声信号的估计x′(k)＝u(k)*w(k)，其中w(k)为自适应滤波器权重。从麦克风信号u(k)中减去该部分信号，即可得到带有噪声的用户语音信号。实际上，回声消除算法的目的就是使误差信号e(k)＝x(k)-x′(k)最小，通常是通过不断的迭代估计使误差的均方误差E(e²(k))变得最小，从而达到消除远端回声信号的目的。自适应滤波器权重的更新可用下式表示：

w(k+1)＝w(k)+μφ(k)

其中，φ(k)＝u(k)*e(k)，k表示信号的帧序号。

回声消除算法的基本原理是使用一个自适应的滤波器对未知的回声信号进行参数辨识，通过建立的远端信号模型，模拟回声路径，通过自适应算法调整，使模拟回声路径的冲击响应与真实回声路径的冲击响应相逼近，然后将麦克风信号u(k)减去估计值x′(k)，即可实现回声消除功能。

综上，本申请实施例提供的一种回声消除方法，在第一时刻利用第一参考信号更新云端回声消除系统的参数，第一参考信号是云端服务器对第一用户指令进行响应后的语音合成结果；在第一时刻之后的第二时刻，若接收到客户端上传的麦克风信号和目标参考信号，则通过云端回声消除系统，利用目标参考信号对麦克风信号进行回声消除。可见，由于云端回声消除可以使用比本地更复杂的回声消除算法以及提前预估计回声消除滤波器参数，在对麦克风信号进行回声消除时，可以具有较好的回声消除效果，尤其能够提升TTS音这种短时回声信号的回声消除效果。

参见图5，为本申请实施例提供的一种回声消除装置的组合示意图，该装置500归属于一种服务器，所述服务器侧包括云端回声消除系统，该装置500包括：

参数更新单元501，用于在第一时刻利用第一参考信号更新所述云端回声消除系统的参数，所述第一参考信号是所述服务器对第一用户指令进行响应后的语音合成结果；

回声消除单元502，用于在所述第一时刻之后的第二时刻，若接收到客户端上传的麦克风信号和目标参考信号，则通过所述云端回声消除系统，利用所述目标参考信号对所述麦克风信号进行回声消除，所述麦克风信号包括第二用户指令和所述目标参考信号对应形成的回声信号。

在本实施例的一种实现方式中，所述目标参考信号为所述第一参考信号或第二参考信号，所述第二参考信号是所述客户端对所述第一用户指令进行响应后的语音合成结果。

在本实施例的一种实现方式中，所述装置500还包括：

在本实施例的一种实现方式中，所述回声消除单元502包括：

在本实施例的一种实现方式中，所述文本下发子单元，具体用于在将所述第一响应文本进行语音合成的同时，将所述第一响应文本下发至所述客户端。

在本实施例的一种实现方式中，所述回声消除单元502包括：

在本实施例的一种实现方式中，所述第二消除子单元，具体用于将所述第一参考信号与所述第二参考信号进行加权平均，得到最终参考信号。

在本实施例的一种实现方式中，所述装置500还包括：

在本实施例的一种实现方式中，所述第一参考信号与所述第二参考信号为TTS音频流。

进一步地，本申请实施例还提供了一种回声消除装置，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述回声消除方法中的任意一种实现方式。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述回声消除方法中的任意一种实现方式。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种回声消除方法，其特征在于，所述方法应用于一种服务器，所述服务器侧包括云端回声消除系统，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标参考信号为所述第一参考信号或第二参考信号，所述第二参考信号是所述客户端对所述第一用户指令进行响应后的语音合成结果。

3.根据权利要求1所述的方法，其特征在于，所述服务器按照下述方式生成所述第一参考信号：

对所述第一用户指令进行响应，得到第一响应文本；

4.根据权利要求3所述的方法，其特征在于，所述接收客户端上传的目标参考信号，包括：

接收所述客户端上传的所述目标参考信号。

5.根据权利要求4所述的方法，其特征在于，所述将所述第一响应文本下发至所述客户端，包括：

6.根据权利要求2所述的方法，其特征在于，所述利用所述目标参考信号对所述麦克风信号进行回声消除，包括：

7.根据权利要求6所述的方法，其特征在于，所述利用所述第一参考信号与所述第二参考信号生成最终参考信号，包括：

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

利用所述云端回声消除系统的参数，更新所述客户端侧的本地回声消除系统的参数。

9.根据权利要求1至7任一项所述的方法，其特征在于，所述第一参考信号与所述第二参考信号为TTS音频流。

10.一种回声消除装置，其特征在于，所述装置归属于一种服务器，所述服务器侧包括云端回声消除系统，所述装置包括：

11.根据权利要求10所述的装置，其特征在于，所述目标参考信号为所述第一参考信号或第二参考信号，所述第二参考信号是所述客户端对所述第一用户指令进行响应后的语音合成结果。

12.根据权利要求10所述的装置，其特征在于，所述装置还包括：

13.根据权利要求12所述的装置，其特征在于，所述回声消除单元包括：

14.根据权利要求13所述的装置，其特征在于，所述文本下发子单元，具体用于在将所述第一响应文本进行语音合成的同时，将所述第一响应文本下发至所述客户端。

15.根据权利要求11所述的装置，其特征在于，所述回声消除单元包括：

16.根据权利要求10至15任一项所述的装置，其特征在于，所述装置还包括：

17.一种回声消除装置，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-9任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-9任一项所述的方法。

19.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-9任一项所述的方法。