CN111402910B

CN111402910B - 一种消除回声的方法和设备

Info

Publication number: CN111402910B
Application number: CN201811542603.9A
Authority: CN
Inventors: 张真赫; 刘安; 熊张亮
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2023-09-01
Anticipated expiration: 2038-12-17
Also published as: WO2020125325A1; CN111402910A

Abstract

本发明提供了一种消除回声的方法，应用于终端设备，包括：输出音频参考信号，采集音频输入信号，所述音频输入信号中包含了音频参考信号的回声；根据音频参考信号的回声确定回声信道的时延和衰减系数；根据所述时延和衰减系数对音频内容信号的回声进行消除。这样，消除了回声对用户语音输入的干扰，提高输入语音的质量。

Description

一种消除回声的方法和设备

技术领域

本发明涉及信息处理领域，尤其涉及一种消除回声的方法和设备。

背景技术

语音作为当前一种人机交互技术，使用越来越广泛。目前市场上有许多通过语音进行交互的终端设备，如移动电话、智能音箱、机顶盒、智能电视，智能遥控器等。

终端设备与用户通过语音进行交流，首先需要进行语音的获取与识别。终端设备在与用户进行语音交互的过程中，常常同时也播放着音视频内容，播放的声音会在麦克风中产生回声，影响用户的语音输入，进而影响语音识别的准确性。

现有技术中，有一些回声消除方法，如自适应滤波算法，可一定程度消除回声，但计算复杂，效果比较差。

发明内容

本发明实施例提供一种消除回声的方法和终端设备，减少回声对用户语音输入的干扰，提高输入语音的质量。

第一方面，本发明实施例提供一种消除回声的方法，应用于终端设备，包括：输出音频参考信号；采集音频输入信号，所述音频输入信号中包含了音频参考信号的回声；根据音频参考信号的回声确定回声信道的时延和衰减系数；根据所述时延和衰减系数消除音频输入信号中的音频内容信号的回声。

上述方法利用音频参考信号，得到回声信道的特征参数，从而消除回声，提高语音输入质量。

在一个可能的设计中，确定回声信道的衰减系数包括：对音频输入信号通过傅里叶变换计算出在音频参考信号频率上的回声信号幅值；所述音频参考信号频率上的回声信号幅值与所述输出的音频参考信号的信号幅值比值即为回声信号的衰减系数。

在另一个可能的设计中，上述方法还包括将音频输入信号通过带通滤波器进行滤波，获得所述音频参考信号的回声。

在另一个可能的设计中，确定回声信道的衰减系数包括：通过均方根值方式计算出在音频参考信号频率上的回声信号幅值；所述音频参考信号频率上的回声信号幅值与所述输出的音频参考信号的信号幅值比值即为回声信号的衰减系数。

在另一个可能的设计中，确定回声信道的时延包括：记录开始输出音频参考信号的第一时间，并记录检测到音频输入信号中开始出现音频参考信号的回声的第二时间；所述时延为所述第二时间与第一时间的时间差。

在另一个可能的设计中，所述音频参考信号的频率大于人耳可听见声音的频率范围。

在另一个可能的设计中，所述输出音频参考信号在所述终端设备开机时进行，或周期性地进行。

第二方面，本发明实施例提供了一种终端设备，具有实现上述方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元，如包括音频输出单元，音频输入单元，和处理单元。

在一个可能的设计中，终端设备的结构中包括处理器和存储器，所述存储器用于存储支持上述方法的应用程序代码，所述处理器被配置为用于执行所述存储器中存储的程序。

第三方面，本发明实施例提供了一种计算机存储介质，用于储存为上述终端设备所用的计算机软件指令，其包含用于执行上述方法所设计的程序。

本发明实施例提供的上述消除回声的方法和终端设备，通过输出音频回声参数并采集其回声，从而确定回声信道的特征参数，实现了回声消除。极大的减小了回声对用户语音输入的干扰，提高输入语音的质量。从而可以提高后续的语音处理，如语音识别等的质量和性能。

附图说明

图1为本发明实施例提供的一种消除回声的系统架构示意图；

图2为本发明实施例提供的一种消除回声方法的流程示意图；

图3为本发明实施例提供的一种终端设备的结构示意图；

图4为本发明实施例提供的另一种终端设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

终端设备与用户语音交互时，可能同时正在播放音视频内容，播放的声音会在麦克风中产生回声，用户的语音输入通常会被正在播放的语音产生的回声干扰，导致终端设备对语音输入的识别能力降低。

本发明实施例提供的回声消除方法应用于图1所示的系统中，系统包括：终端设备101、扬声器102、麦克风103。图1所示的终端设备可以是个人计算机PC、移动电话、机顶盒、智能音箱、智能电视等设备。终端设备上还可以直接包括了扬声器102和麦克风103，如移动电话。终端设备也可以外接扬声器和麦克风，如个人计算机外接扬声器和麦克风，机顶盒外接电视机作为音视频播放设备。

终端设备101用于输出音视频节目内容的音频内容信号到扬声器102，还输出音频参考信号到扬声器。音频参考信号通常为高频信号，其频率大于人耳可听见的声音的频率范围。一般人耳可听见的声音的频率范围为20赫兹到20,000赫兹，因此音频参考信号的频率可选择20,000赫兹以上。终端设备用于采集麦克风的音频输入信号，并进行处理，将音频输入信号中混入的回声消除掉，还原用户的语音输入。

扬声器102用于播放终端设备输出的音频信号，包括音频内容信号或者音频参考信号。播放出来的音频内容信号的声音可以供用户收听，而播放的音频参考信号的声音用户听不见，这样不会影响用户的使用体验。扬声器播放的音频内容信号的声音或音频参考信号的声音会传播到麦克风103中产生回声。

麦克风103用于接收用户与终端设备语音交互时的语音。麦克风接收的声音中可能混入了扬声器播放的音频内容信号的回声，或者音频参考信号的回声。

扬声器输出的声音会在麦克风中产生回声，产生的原因包括声音的衍射、反射等。回声信号可以认为是音频信号经过回声信道后的声音信号。回声信道对声音的影响包括：时间上产生了时延，能量上产生了衰减。一般情况下，回声信道对音频内容信号的影响与对音频参考信号的影响相似。因此可以分析音频参考信号获得回声信道特性参数，包括时延和衰减系数，再利用这两个回声信道特性参数消除音频内容信号的回声。

如图1中所示，设终端设备101输出音频信号到扬声器102，输出音频内容信号X₀(n)，或者输出音频参考信号C₀(n)。扬声器发出的声音会传播到麦克风中产生音频内容信号的回声信号X(n)，或者音频参考信号的回声信号C(n)。用户与系统交互时，用户的语音输入S₀(n)由麦克风103采集，采集到的语音信号S(n)中包含了用户的语音输入S₀(n)和可能的音频内容信号的回声信号X(n)。终端设备需要从采集的语音信号S(n)中消除回声信号X(n)。即进行如下公式1的计算：

S₀(n)＝S(n)-C(n) (1)

应用于上述图1所示的系统，本发明的实施例提供一种回声消除的方法。如图2所示，具体包括下列步骤。

201，输出音频参考信号。

如前所述，为了不影响用户的使用，音频参考信号C₀(n)的频率，通常选择人耳听不见的高频段，例如，可选20k赫兹。如果终端设备正在播放音视频节目内容，音频参考信号可与音频内容信号叠加在一起输出，不会影响用户收听音频节目内容。C₀(n)的一个示例为：

C₀(n)＝A₀*sin(2πf₀/f_s*n) (2)

其中，A₀是音频参考信号的幅值，f₀是音频参考信号的频率。fs是系统数字化的采样频率。

系统的采样频率需要大于音频参考信号频率的两倍。例如当音频参考信号的频率是20kHZ时，常用的44.1kHZ的采样频率可以满足这个要求。

可以在终端设备开机时输出音频参考信号并确定回声信道特征参数，确定特征参数完成后可停止输出音频参考信号。后续根据确定的参数进行语音输入的回声消除。

系统也可以周期性的输出音频参考信号并确定回声信道特征参数，不断更新回声信道特征参数以适应可能的终端设备周边环境的变化。

202，采集音频输入信号。

麦克风的音频输入信号S(n)中除了可能的终端设备用户的语音输入外，还包含了音频参考信号经过回声信道的回声C(n)。

203，根据音频参考信号的回声信号确定回声信道的时延和衰减系数。

在步骤201开始输出音频参考信号时，记录开始输出时间T₁。

对采集的麦克风的音频输入信号S(n)，进行循环的离散傅里叶变换(DiscreteFourier Transform，DFT)。例如，对于44.1kHZ采样的音频输入信号，采集的5.8ms的数据就可以进行一次256点的快速傅里叶变换FFT。这样，当FFT计算结果中的频域上包含了参考信号频率的数值，则认为采集的麦克风的音频输入信号中包含了音频参考信号的回声。由于音频参考信号的频率高于一般的声音信号，因此，播放的音频内容信号中不包含音频参考信号频率的信号，采集的音频输入信号中，音频参考信号频率的输入都是来自音频参考信号的回声。

记录下此时的时间T2，即麦克风开始收到音频参考信号回声的时刻。回声信道的时延为：

t＝T2-T1 (3)

音频参考信号的回声经过傅里叶变换，在频域上为脉冲函数：

|C(f)|＝∑A_i*δ(f-i*f₀) (4)

其中f₀为初始音频参考信号的频率，也就是傅里叶变换后的主频，A₁为主频f₀的幅值，其他为副频，由于扬声器、麦克风、以及环境的频谱响应特性，副频的幅值通常实际应用中可近似忽略。

这样，回声信道的衰减系数r，即音频参考信号回声的幅值与原始参考信号的幅值的比值，可表示为：

r＝A₁/A₀ (5)

204，根据所述时延和衰减系数消除音频输入信号中的音频内容信号的回声。

根据上述步骤确定回声信道的时延t和衰减系数r后，终端设备在后续与用户进行语音交互的过程中，从麦克风的输入语音信号中去除播放的音频内容信号的回声，就可以得到用户的语音输入。

即音频内容信号的回声X(n)可表达为：X(n)＝r*X₀(n–t*f_s)，用户语音输入为：

S₀(n)＝S(n)-r*X₀(n-t*f_s) (6)

其中，f_s为系统的采样频率。消除回音后的用户语音输入可作为语音识别的输入。

优选的，对上述步骤202采集的音频输入信号，可以先进行带通滤波，过滤出音频参考信号的回声信号。这样，步骤203中的离散傅里叶变换计算就只包含了音频参考信号的回声信号，将极大提高后续傅里叶变换的运算速度。

系统根据音频参考信号的频率f₀，可设定带通滤波器的带宽f_B。带通滤波可表示为：

C(n)＝bandpass(S(n),f₀,f_B) (7)

进一步，对带通滤波输出的音频参考信号的回声，可以直接在时域上计算滤波输出信号的均方根值(root-mean-square，RMS),从而算出音频参考信号回声的能量均值E₁。同样在时域上用均方根值计算出原始音频参考信号的能量均值E₀。则回声信道的衰减系数r，即音频参考信号回声的幅值与原始音频参考信号的幅值的比值，可表示为：

r＝(E₁/E₀)^1/2 (8)

而回声信道的时延仍然采用公式(3)的方法即可。

这样，回声消除可不必进行FFT计算，进一步提高了系统回声消除计算的速度。

本发明的上述实施例，通过音频参考信号确定回声信道特性参数，实现了回声消除，减少回声对用户语音输入的干扰，提高输入语音的质量。

本发明实施例还提供了一种终端设备的结构示意图，如图3所示，包括音频输出单元301，音频输入单元302，以及处理单元303；其中：

音频输出单元，用于输出音频参考信号；

音频输入单元，用于采集音频输入信号，所述音频输入信号中包含了音频参考信号的回声；

处理单元，用于根据音频参考信号的回声确定回声信道的时延和衰减系数，并根据所述时延和衰减系数消除音频输入信号中的音频内容信号的回声。

进一步，这些单元实现前述方法中的相关功能，不再赘述。

在本实施例中，终端设备是以功能单元的形式来呈现。这里的“单元”可以指特定应用集成电路(application-specific integrated circuit，ASIC)，电路，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。在一个简单的实施例中，本领域的技术人员可以想到终端设备采用处理器、存储器和通信接口来实现。

本发明实施例中的终端设备还可以以图4中的计算机设备(或系统)的方式来实现。图4所示为本发明实施例提供的计算机设备示意图。该计算机设备包括至少一个处理器401，通信总线402，存储器403以及至少一个通信接口404，还可以包括IO接口405。

处理器可以是一个通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。

通信总线可包括一通路，在上述组件之间传送信息。所述通信接口，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

存储器可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器用于存储执行本发明方案的应用程序代码，并由处理器来控制执行。所述处理器用于执行所述存储器中存储的应用程序代码。

在具体实现中，处理器可以包括一个或多个CPU，每个CPU可以是一个单核(single-core)处理器，也可以是一个多核(multi-Core)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，该计算机设备还可以包括输入/输出(I/O)接口。例如，输出设备可以是液晶显示器(liquid crystal display，LCD),发光二级管(lightemitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备可以是鼠标、键盘、触摸屏设备或传感设备，以及至少两个成像传感器等。

上述的计算机设备可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑(PersonalDigital Assistant，PDA)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备或有图4中类似结构的设备。本发明实施例不限定计算机设备的类型。

如图1中的终端设备可以为图4所示的设备，存储器中存储了一个或多个软件模块。终端设备可以通过处理器以及存储器中的程序代码来实现软件模块，完成上述方法。

本发明实施例还提供了一种计算机存储介质，用于储存为上述图3或图4所示的设备所用的计算机软件指令，其包含用于执行上述方法实施例所设计的程序。通过执行存储的程序，可以实现上述方法。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。在权利要求中，“包括”(comprising)一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

本领域技术人员应明白，本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中，与其它硬件一起提供或作为硬件的一部分，也可以采用其他分布形式，如通过Internet或其它有线或无线电信系统。

本发明是参照本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合具体特征及其实施例对本发明进行了描述，显而易见的，可对其进行各种修改和组合。相应地，本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明，且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种消除回声的方法，其特征在于，应用于终端设备，包括：

输出音频参考信号以及音频内容信号，其中，所述音频参考信号的频率大于人耳可听见的声音的频率范围；

采集音频输入信号，所述音频输入信号中包含了音频内容信号的回声、音频参考信号的回声以及用户的语音输入；

根据音频参考信号的回声确定回声信道的时延和衰减系数；

根据所述时延和衰减系数消除音频输入信号中的音频内容信号的回声，并还原用户的语音输入。

2.如权利要求1所述的方法，其特征在于,所述确定回声信道的衰减系数包括：

对音频输入信号通过傅里叶变换计算出在音频参考信号频率上的回声信号幅值；

所述音频参考信号频率上的回声信号幅值与所述输出的音频参考信号的信号幅值比值即为回声信号的衰减系数。

3.如权利要求1所述的方法，其特征在于,所述方法还包括将音频输入信号通过带通滤波器进行滤波，获得所述音频参考信号的回声。

4.如权利要求3所述的方法，其特征在于,所述确定回声信道的衰减系数包括：

通过均方根值方式计算出在音频参考信号频率上的回声信号幅值；

5.如权利要求1-4任一项所述的方法，其特征在于,所述确定回声信道的时延包括：

记录开始输出音频参考信号的第一时间，并记录检测到音频输入信号中开始出现音频参考信号的回声的第二时间；所述时延为所述第二时间与第一时间的时间差。

6.如权利要求1-5任一项所述的方法，其特征在于,所述音频参考信号的频率大于人耳可听见声音的频率范围。

7.如权利要求1-6任一项所述的方法，其特征在于,所述输出音频参考信号在所述终端设备开机时进行，或周期性地进行。

8.一种终端设备，其特征在于，包括：音频输出单元，音频输入单元和处理单元；其中：

所述音频输出单元，用于输出音频参考信号以及音频内容信号，其中，所述音频参考信号的频率大于人耳可听见的声音的频率范围；

所述音频输入单元，用于采集音频输入信号，所述音频输入信号中包含了音频内容信号的回声、音频参考信号的回声以及用户的语音输入；

所述处理单元，用于根据音频参考信号的回声确定回声信道的时延和衰减系数，并根据所述时延和衰减系数消除音频输入信号中的音频内容信号的回声，并还原用户的语音输入。

9.如权利要求8所述的终端设备，其特征在于,所述处理单元用于确定回声信道的衰减系数具体包括：

所述处理单元进一步用于对音频输入信号通过傅里叶变换计算出在音频参考信号频率上的回声信号幅值；

10.如权利要求8所述的终端设备，其特征在于,所述处理单元进一步用于将音频输入信号通过带通滤波器进行滤波，获得所述音频参考信号的回声。

11.如权利要求10所述的终端设备，其特征在于,所述处理单元用于确定回声信道的衰减系数具体包括：

所述处理单元进一步用于通过均方根值方式计算出在音频参考信号频率上的回声信号幅值；

12.如权利要求8-11任一项所述的终端设备，其特征在于,所述处理单元用于确定回声信道的时延包括：

所述处理单元进一步用于记录开始输出音频参考信号的第一时间，并记录检测到音频输入信号中开始出现音频参考信号的回声的第二时间；所述时延为所述第二时间与第一时间的时间差。

13.如权利要求8-12任一项所述的终端设备，其特征在于,所述音频参考信号的频率大于人耳可听见声音的频率范围。

14.如权利要求8-13任一项所述的终端设备，其特征在于,所述音频输出单元输出音频参考信号在所述终端设备开机时进行，或周期性地进行。