CN110177317B

CN110177317B - 回声消除方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN110177317B
Application number: CN201910409473.XA
Authority: CN
Inventors: 姜开宇; 范展; 简小征
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2020-12-22
Anticipated expiration: 2039-05-17
Also published as: CN110177317A

Abstract

本申请涉及一种回声消除方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取语音信号；根据预测的扬声器失真特性函数，确定所述语音信号的语音失真度与语音响度的均衡值；按照所述均衡值调整所述语音信号的播放增益；获取包含调整后的语音信号在播放时所产生回声的语音采集信号；对所获取的包含有所述回声的语音采集信号进行回声消除。本申请提供的方案可以有效地避免了语音信号在扬声器中的失真而导致语音质量差的问题，提高了对语音信号中的回声进行消除的效果。

Description

回声消除方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及语音信号处理技术领域，特别是涉及一种回声消除方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着语音信号处理技术的不断发展，用户对语音质量要求也越来越高，若语音中出现有回声将会严重影响语音质量。回声产生的原理：语音信号在扬声器中播放以及在封闭或半封闭环境中经过多次反射而导致信号失真，最后与本地语音一起被麦克风采集从而形成回声。

为了消除回声对语音质量的影响，传统的消除回声方法主要是直接通过回声消除系统对麦克风采集的语音信号进行回声消除。然而，采用上述回声消除方法，无法估计语音信号在扬声器中的失真情况，进而无法对麦克风采集的语音信号进行有效地消除回声，从而影响语音质量。

发明内容

基于此，有必要针对语音信号在扬声器中的失真而导致语音质量差的技术问题，提供一种回声消除方法、装置、计算机可读存储介质和计算机设备。

一种回声消除方法，包括：

获取语音信号；

根据预测的扬声器失真特性函数，确定所述语音信号的语音失真度与语音响度的均衡值；

按照所述均衡值调整所述语音信号的播放增益；

获取包含调整后的语音信号在播放时所产生回声的语音采集信号；

对所获取的包含有所述回声的语音采集信号进行回声消除。

一种回声消除装置，所述装置包括：

信号获取模块，用于获取语音信号；

均衡值确定模块，用于根据预测的扬声器失真特性函数，确定所述语音信号的语音失真度与语音响度的均衡值；

响度调整模块，用于按照所述均衡值调整所述语音信号的播放增益；

信号获取模块，用于获取包含调整后的语音信号在播放时所产生回声的语音采集信号；

回声消除模块，用于对所获取的包含有所述回声的语音采集信号进行回声消除。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述回声消除方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述回声消除方法的步骤。

上述回声消除方法、装置、计算机可读存储介质和计算机设备，通过预测的扬声器失真特性函数来确定语音信号的语音失真度与语音响度的均衡值，通过这个均衡值可以估算出语音信号的最适播放增益，并能保证语音信号的语音失真度在合理范围。在获取到携带回声的语音采集信号时，由于所携带的回声是在语音信号的最适播放增益下所得，在对语音采集信号中所包含的回声进行消除处理时，可以有效地消除语音采集信号中的回声，避免了语音信号在扬声器中的失真而导致语音质量差的问题，提高了对语音信号中的回声进行消除的效果。

附图说明

图1为一个实施例中回声消除方法的应用环境图；

图2为一个实施例中回声消除方法的流程示意图；

图3为一个实施例中计算语音信号的语音失真度和语音响度的均衡值步骤的流程示意图；

图4为一个实施例中计算总谐波失真函数的流程示意图；

图5为一个实施例中对语音采集信号进行回声消除步骤的流程示意图；

图6为另一个实施例中回声消除方法的流程示意图；

图7为一个实施例中回声消除装置的结构框图；

图8为另一个实施例中回声消除装置的结构框图；

图9为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中回声消除方法的应用环境图。参照图1，该回声消除方法应用于回声消除系统。该回声消除系统包括终端110、服务器120和终端130。终端110、终端130与服务器120通过网络连接。终端110和终端130具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。当终端110作为本地端时，终端130则为远端。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种回声消除方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2，该回声消除方法具体包括如下步骤：

S202，获取语音信号。

其中，本发明实施例中的回声消除方法，可以应用于语音通信的应用场景；也可以应用于带有扬声器播放的语音识别和语音唤醒的应用场景，如具有语音对话功能的智能机器人与用户之间交互的应用场景。需要说明的是，上述应用场景仅仅是举例而非穷举，包括但不限于上述应用场景。语音信号可以包括但不限于用户语音(包括通话语音)、音乐、其它背景音、合成语音和提示音等音频信号。

在一个实施例中，若回声消除方法应用于语音通信的应用场景时，S202具体可以包括：终端接收由远端发送的语音信号，该语音信号由远端采集环境语音所得的语音信号。例如，远端采集环境中的语音，根据采集的声音形成语音信号。具体地，远端根据奈奎斯特采样定理，通过内置的麦克风采集环境中的说话人语音，将采集到的语音进行傅里叶变换，获得频域下的语音信号。

在一个实施例中，远端采集到的语音信号可以是时域语音信号，远端对采集到的时域语音信号进行预处理，该预处理可以是预加重、端点检测、分帧和加窗处理。然后，终端将预处理后的时域声音信号进行傅里叶变换，得到频域下的语音信号。

在另一个实施例中，若回声消除方法应用于带有扬声器播放的语音识别和语音唤醒的应用场景时，S202具体可以包括：终端获取目标文本，根据该目标文本合成对应的具有说话人风格的语音信号，以便通过扬声器播放该语音信号。终端可以通过麦克风采集用户发出的控制语音得到语音采集信号，以便根据所得的语音采集信号进行语音识别，或者根据所得的语音采集信号进行语音识别后，根据识别所得识别文本中的关键词对应用程序或特定功能进行唤醒。

S204，根据预测的扬声器失真特性函数，确定语音信号的语音失真度与语音响度的均衡值。

其中，语音失真度可以是语音信号在扬声器中进行播放所导致的失真程度。语音响度可以是声级(即与用户对声音强弱的主观感觉相一致的物理量，单位为分贝)，与语音信号的频率和功率相关。不同的语音响度(例如，不同的频率和/或功率)下，语音信号在扬声器中所产生的语音失真度不同。均衡值可以是当前时刻的最优语音失真度值和最优语音响度值的组合。最优语音失真度值可以是语音失真度在预设的失真范围内，换句话说，最优语音失真度值可以表示语音信号在播放时所产生的非线性失真可以被有效地消除的失真值。最优语音响度值可以是语音响度在预设的响度范围内，也就是说响度值适合用户的最佳听觉效果。

扬声器在播放语音信号时，会产生以下几种语音失真：

(1)总谐波失真

当扬声器输入某一频率的语音信号时，扬声器的输出语音信号中，除了输入语音信号基波成分外，还出现了二次谐波、三次谐波……等，从而造成谐波失真的问题，总谐波失真函数可以通过以下计算式表示：

y＝f(x₁,x₂)

其中，x₁表示输入信号的频率，x₂表示输入信号的功率。

(2)互调失真

当输入基频f₁，f₂，……，f_n的语音信号时，输出各种和差频信号，从而形成互调制失真。

如f₁＝391.995，f₂＝587.330，由于非线性的原因，可能会出现以下分量：

f₂+f₁＝979.325 (a)

f₂-f₁＝195.335 (b)

f₂+2f₁＝1371.320 (c)

上述(a)、(b)和(c)三种频率对应的信号部分即为互调失真所产生的非线性失真信号，也即非线性回声。

(3)分谐波失真

给扬声器加上纯音后，由于膜的非线性会在中低声频段产生信号频率1/2或1/3的模糊声音，该模糊声音即为分谐波失真。

此外，还可能存在互调失真和瞬态失真。

在上述语音信号失真中，总谐波失真对语音信号的影响较大，在后续实施例中可以以总谐波失真为例进行说明。

对于一段语音信号，在播放过程中，由于扬声器的非线性特征导致出现非线性失真的情况，而且语音响度越大非线性失真越严重，从而可能会导致回声消除效果较差，为了降低语音信号在播放过程中所产生的失真、且保证语音响度符合用户的听觉效果，从而在语音失真度与语音响度进行折中。

在一个实施例中，终端获取用于预测扬声器失真特性的参考语言信号；确定参考语言信号的频率和功率并进行播放；获取参考语音信号在播放时所产生回声的参考语音采集信号；对比参考语音采集信号和参考语言信号，获得不同频率且不同功率下的扬声器失真特性函数。

其中，参考语音信号的播放可以是在理想环境下进行，当进行播放后，由于扬声器的非线性特性，从而导致在播放参考语音信号的过程中产生非线性失真，麦克风采集理想环境下的语音时，可以得到携带有因非线性失真而形成的回声的参考语音采集信号。需要说明的是，理想环境可以是只有扬声器的播放语音、且反射过程中信号无衰减，从而麦克风所采集到的参考语音采集信号既可以认为是扬声器播放的语音信号。此外，参考语音信号的播放也可以是在非理想环境下进行。

在一个实施例中，当语音信号的频率一定时，语音响度与语音信号的功率相关。终端在预测扬声器失真特性过程中得到扬声器失真特性函数之后，将扬声器失真特性函数进行保存，以便后续在播放语音信号时使用该扬声器失真特性函数对语音信号进行语音失真度与语音响度的折中权衡，以确保语音失真度和语音响度均处于一个合理的值或范围。

在一个实施例中，语音响度与语音信号的功率和频率相关，语音响度的函数表达式可以是：p＝h(x₁,x₂)，x₁为语音信号的频率，x₂为语音信号的功率。终端结合扬声器失真特性函数和语音响度函数，确定语音信号在语音响度区间内的语音失真度变化值。

S206，按照均衡值调整语音信号的播放增益。

其中，播放增益可以是指增大或降低扬声器播放语音信号的语音响度。

在一个实施例中，终端按照均衡值中的语音强度值来调整语音信号的播放增益，使扬声器在播放语音信号时，语音信号的响度值达到最优，即语音信号的语音响度值符合用户的最佳听觉效果、且语音信号的失真度较小。其中，均衡值可以是最优语音响度值和最优语音失真值的组合。

S208，获取包含调整后的语音信号在播放时所产生回声的语音采集信号。

其中，所产生的回声包括非线性回声和线性回声。非线性回声可以是因扬声器的非线性特性所导致的非线性失真语音信号。线性回声可以是所播放的语音信号在环境中反射等原因所产生的线性回声。由于回声的存在，使得语音采集信号的语音质量较差，需要对语音采集信号进行回声消除处理。

S210，对所获取的包含有回声的语音采集信号进行回声消除。

在一个实施例中，终端将所获取的语音信号输入自适应滤波模块，获得线性回声信号。终端根据线性回声信号对语音采集信号进行回声抑制处理，获得残差采集信号。其中，自适应滤波模块可以是自适应滤波器或具有滤波功能的软件模块。

在一个实施例中，终端根据线性回声信号对语音采集信号进行回声抑制处理的步骤具体可以包括：终端将线性回声信号与所获取的语音信号进行对齐，将对齐后的线性回声信号进行反相处理，将反相处理后的线性回声信号与语音采集信号进行叠加，从而消除语音采集信号中至少一部分回声，获得残差采集信号。

在一个实施例中，终端根据播放增益对应的语音失真度对残差采集信号中的非线性回声进行估计，得到非线性回声信号，根据非线性回声信号和语音采集信号之间的关联度确定衰减因子，根据该衰减因子对语音采集信号进行残留回声抑制处理。

其中，当非线性回声信号和语音采集信号之间的关联度的值较大时，表示语音采集信号携带有较多的回声，即在进行回声消除过程中有较多的回声未被消除。当非线性回声信号和语音采集信号之间的关联度的值较小时，表示语音采集信号携带有较少的回声信号，即在进行回声消除过程中只有较少的回声信号未被消除。

在一个实施例中，根据该衰减因子对语音采集信号进行残留回声抑制处理的步骤具体可以包括：终端将确定衰减因子乘以残留回声信号，从而可以将残留回声信号进行衰减处理。

作为一个示例，对许多消费电子产品而言，语音信号在扬声器播放过程中所产生的失真在大音量情况下不可避免、且难以准确的实时估计，本发明实施例中提出一种解决方案，通过对扬声器的失真特性进行测量并存储，当播放语音信号时，可以实时调节语音信号的播放增益来避免产生过于严重的失真，以此达到确保播放音质的同时，还能有效地消除回声。如图1所示，在回声消除系统中添加了一个针对语音信号的自动调整模块，通过该语音信号自动调整模块来调整语音信号的播放增益(其中，这个播放增益可以是按时间施加的增益，或者可以是按频率施加的增益，又或者可以是不同时间、不同频率施加的不同增益，也就是说不同时间、不同频率所对应的增益可以是不同的)，从而可以将语音失真度控制在一个有效的范围内，在进行回声消除和残留回声抑制处理的过程中，可以有效地将在扬声器中所产生的失真部分信号进行消除。

在一个实施例中，当回声消除方法应用于语音唤醒的应用场景时，在S210之后，该方法还可以包括：终端从消除回声后的语音采集信号中提取唤醒词；计算唤醒词的声学得分；声学得分用于指示唤醒词的真实性；当声学得分大于或等于语音唤醒阈值时，执行语音唤醒操作。此外，当回声消除方法应用于语音识别的应用场景时，在S210之后，该方法还可以包括：终端对消除回声后的语音采集信号进行识别，得到对应的识别文字。

例如，对于带语音唤醒和语音识别的投影仪产品，用户可以通过语音方式与投影仪进行交互，在交互过程中，投影仪可以实时地根据用户语音来进行答复和执行相应的唤醒操作。当投影仪播放用于答复用户语音的合成语音时，用户发出包括有唤醒关键词的语音时，麦克风采集到的语音采集信号中携带有回声，此时需要对语音采集信号进行回声消除，然后从消除回声的语音采集信号中提取唤醒关键词，并计算唤醒关键词的声学得分，当声学得分大于或等于90(假设语音唤醒阈值为90)时，则对某个应用程序或某项功能进行唤醒。此外，投影仪还可以实时地对消除回声的语音采集信号进行语音识别，得到对应的识别文字。如表1所示，当垂直距离为1米(m)时，传统方案中，直接对音量为6的语音信号进行播放，对应的唤醒率为68％；而本方案中将音量为6的语音信号输入图1中自动调整模块，实时调整语音信号不同频率的播放增益，可以看出，由于使用了自动调整模块对语音信号的播放增益进行调整，可以将语音信号的失真控制在一个较低的期望范围内，从而使得唤醒成功率和语音识别成功率(包括字准率和句准率)大大的提高。

表1传统方案与本方案在语音唤醒和语音识别应用的对比

上述实施例中，通过预测的扬声器失真特性函数来确定语音信号的语音失真度与语音响度的均衡值，通过这个均衡值可以估算出语音信号的最适播放增益，并能保证语音信号的语音失真度在合理范围。在获取到携带回声的语音采集信号时，由于所携带的回声是在语音信号的最适播放增益下所得，在对语音采集信号中所包含的回声进行消除处理时，可以有效地消除语音采集信号中的回声，避免了语音信号在扬声器中的失真而导致语音质量差的问题，提高了对语音信号中的回声进行消除的效果。

在一个实施例中，如图3所示，S204具体可以包括：

S302，获取通过预测扬声器失真特性所得的扬声器失真特性函数。

在一个实施例中，终端获取用于预测扬声器失真特性的参考语言信号；确定参考语言信号的频率和功率并进行播放；获取参考语音信号在播放时所产生回声的参考语音采集信号；对比参考语音采集信号和参考语言信号，获得不同频率且不同功率下的扬声器失真特性函数，然后对所获得的扬声器失真特性函数进行保存，以便在播放语音信号时获取该扬声器失真特性函数，执行S304。

作为一个示例，如图4所示，终端先获取用于测试扬声器失真特性的参考语音信号，然后，遍历参考语音信号中扬声器可能播放的主要频率成分和不同的功率，然后通过一个或多个扬声器播放该参考语音信号。由于扬声器的非线性特性，可能会使参考语音信号产生非线性失真(如总谐波失真)，从而，一个1个或多个麦克风采集环境中的语音，得到参考语音采集信号，该参考语音采集信号中包含有因总谐波失真的分量。终端将麦克风采集的参考语音采集信号与原始的参考语音信号进行对比，从而可以得到不同频率、不同功率参考语音信号所对应的总谐波失真函数，该函数表达式可以是y＝f(x₀₁,x₀₂)，x₀₁为参考语音信号的频率，x₀₂为参考语音信号的功率。

S304，根据扬声器失真特性函数，确定语音信号在语音响度区间内的语音失真度变化值。

其中，语音响度与语音信号的功率相关，此外语音响度还可以与语音信号的功率和频率相关，语音响度的函数表达式可以是：p＝h(x₁,x₂)，x₁为语音信号的频率，x₂为语音信号的功率。

在一个实施例中，终端结合扬声器失真特性函数和语音响度的函数，确定语音信号在语音响度区间内的语音失真度变化值。

S306，根据语音响度区间中的语音响度值和对应的语音失真度变化值，确定语音信号的语音失真度与语音响度的均衡值。

自动调节语音信号播放增益的具体实现中，对于语音失真度和语音响度之间的折中平衡方案，可以有多种选择，以下列举几种常见的方案：

在一个实施例中，S306具体可以包括：在语音响度区间中选取达到第一响度阈值的语音响度值；以及在语音失真度变化值中选取小于第一失真度阈值的语音失真度值；将所选取的语音响度值和语音失真度值，确定为语音信号的语音失真度与语音响度的均衡值。

例如，1)语音失真y_max＝Max(f(x₁，x₂))＜门限1，对于语音信号中各个频点均满足该条件；2)语音响度p_min＝Min(h(x₁，x₂))＞门限2，对于语音信号中各个频点均满足该条件。其中，x₁为语音信号的频率，x₂为语音信号的功率。然后将满足门限1的y_max和满足门限2的p_min作为折中权衡，以便按照p_min对语音信号的播放增益进行调整。

在另一个实施例中，S306具体可以包括：计算语音响度区间中各语音响度值的响度均值，以及语音失真度变化值中各语音失真度的失真度均值；当响度均值达到第二响度阈值、且失真度均值小于第二失真度阈值时，则将响度均值和失真度均值确定为语音信号的语音失真度与语音响度的均衡值。

例如，1)语音失真y_max＝Max(sum(f(x₁，x₂)))＜门限3，对于当前时刻语音信号中所有频率成分求和均满足该条件；2)语音响度p_min＝Min(sum(h(x₁，x₂)))＞门限4，对于当前时刻语音信号中所有频率成分求和均满足该条件。其中，x₁为语音信号的频率，x₂为语音信号的功率。然后根据满足门限3的y_max均值和满足门限4的p_min均值得到播放增益估算值，从而对语音信号的播放增益进行调整。

上述实施例中，通过扬声器失真特性函数来确定语音信号的语音失真度与语音响度的均衡值，通过均衡值来设置语音信号的播放增益，从而可以将语音信号的总谐波失真控制在特定范围或特定值(即语音失真度均衡值)，以便进行回声消除时，可以有效地将该播放失真信号消除掉，从而提高语音质量。

在一个实施例中，回声包括线性回声；如图5所示，S210具体可以包括：

S502，确定语音采集信号与所获取的语音信号之间的时延值。

由于语音采集信号中的至少一部分回声是所获取的语音信号通过扬声器播放后，经过室内环境的反射重新由终端所采集。由此可知，终端所获得语音采集信号中的回声与所获取的语音信号之间存在时间差，即时延值。上述的回声即为语音采集信号中所包含的回声信号部分。

具体地，终端根据延时查找算法，找出所获取的语音信号与语音采集信号中的回声之间的时间差，从而获得远语音采集信号与所获取的语音信号之间的时延值。

S504，按照时延值对语音采集信号与所获取的语音信号进行对齐。

在一个实施例中，终端根据时延值，对所获取的语音信号进行平移，从而使所获取的语音信号与语音采集信号对齐，从而确保所获取的语音信号与语音采集信号中的回声对齐。当根据对齐后的语音信号生成线性回声信号后，终端便可根据线性回声信号与语音采集信号中的回声进行抵消。

在一个实施例中，终端根据时延值对语音采集信号进行平移，从而使所获取的语音信号与语音采集信号对齐，进而使所获取的语音信号与语音采集信号中的回声对齐。当根据所获取的语音信号生成线性回声信号后，终端便可根据线性回声信号与对齐后语音采集信号中的回声进行抵消。

S506，将对齐后的语音信号输入回声模型，获得线性回声信号。

在一个实施例中，终端根据对齐后的所获取的语音信号与语音采集信号中线性回声之间的相关性，建立回声模型。终端将对齐后的语音信号输入回声模型，输出与语音采集信号中线性回声部分接近(即相似且相似度高)的线性回声信号。

在一个实施例中，终端以对齐后的语音信号作为训练输入，以语音采集信号中的线性回声部分作为训练目标，对回声模型进行训练，获得最终的回声模型。

例如，终端建立对齐后的语音信号与语音采集信号中线性回声之间的回声模型fe＝f(fs)，其中，fs为所获取的语音信号，fe为对语音采集信号中的线性回声进行估计的回声信号。终端以fs信号作为输入，以实际的回声信号作为训练目标对回声模型fe＝f(fs)进行训练。当回声模型稳定时，将所获取的语音信号输入回声模型，就可以输出高度逼近实际回声的线性回声信号。

S508，根据线性回声信号对语音采集信号中的线性回声进行回声消除处理，获得残差采集信号。

在一个实施例中，回声包括语音信号在扬声器中非线性失真引起的非线性回声，因此在残差采集信号中还可能携带有非线性回声；需要对非线性回声进行消除，消除方法包括：根据播放增益对应的语音失真度对残差采集信号中的非线性回声进行估计，得到非线性回声信号；对非线性回声信号进行反相处理；根据反相处理后的非线性回声信号对残差采集信号进行回声抑制处理，获得消除非线性回声后的语音采集信号。

在一个实施例中，终端将非线性回声信号输入反相滤波模块，以便通过反相滤波模块对非线性回声信号进行反相处理，获得反相的非线性回声信号。例如，假设所获取的语音信号为x(n)，对所获取的语音信号x(n)处理所得的非线性回声信号为h′(n)＝asin(2πnf+b)，通过反相滤波模块处理后，输出的反相非线性回声信号为h(n)＝asin(2πnf+b±π)＝-asin(2πnf+b)。

在一个实施例中，终端将非线性回声信号输入移相滤波模块，以便通过移相滤波模块对非线性回声信号移相kπ相位，获得反相的非线性回声信号。

在一个实施例中，终端将语音采集信号与反相处理后的非线性回声信号叠加，获得残差信号。其中，反相处理后的非线性回声信号是由对齐后的语音信号经过处理所得。

在一个实施例中，根据反相处理后的非线性回声信号对残差采集信号进行回声抑制处理，获得消除非线性回声后的语音采集信号的步骤，具体可以包括：确定非线性回声信号与语音采集信号之间的关联矩阵；根据关联矩阵获得衰减因子；计算衰减因子与反相处理后的非线性回声信号的乘积；将乘积衰减因子后所得的非线性回声信号与残差采集信号进行叠加，获得消除非线性回声后的语音采集信号。

在一个实施例中，终端消除残留回声信号的方法步骤可以包括：终端残差采集信号中的残留回声信号与高频线性回声信号之间的关联矩阵，根据该关联矩阵确定关联度，进而获得反映消除残留回声信号程度的衰减因子。终端根据衰减因子对残差采集信号中的残留回声信号进行衰减。

其中，通过关联矩阵可以计算出非线性回声信号与语音采集信号之间的关联度，关联度越大表明残差采集信号中的残留回声信号越多，需要对残留回声信号消除的程度越大。反之，关联度越小表明残差采集信号中的残留回声信号较少，需要对残留回声信号消除的程度越小。

在一个实施例中，终端将残差采集信号中的残留回声信号乘以衰减因子，从而消除残留回声信号。

在一个实施例中，终端通过获取的语音采集信号、消除非线性回声后的语音采集信号、残差采集信号和所获取的语音信号，估计实时谐波失真度，根据实时谐波失真度调整扬声器失真特性函数。

其中，实时谐波失真度的计算式y＝f(x₁,x₂,x₃,x₄)，x₁为原始的语音信号，x₂为播放语音信号时采集环境语音所得的语音采集信号，x₃为经过回声消除后的残差采集信号，x₄为残差采集信号经过残留回声抑制后所得的语音采集信号。

作为一个示例，如图6所示，终端获取的语音信号，该语音信号可以包括但不限于通话语音、音乐、电视节目音频、合成语音和提示音等音频信号。一方面，终端中的自动调整模块根据扬声器失真特性函数和响度函数确定语音信号失真度和语音响度之间的折中权衡，得到失真度小于门限1、语音响度大于门限2的一组均衡值，自动调整模块按照均衡值调整语音信号播放增益，从而使扬声器在播放语音信号时所产生的非线性失真处于较小的范围内，同时还可以确保语音信号的响度不至于过小，从而回声消除模块和残留回声抑制模块可以对麦克风所采集到的语音采集信号进行有效地消除回声，使得消除回声之后的语音采集信号可以用于语音识别或语音唤醒或语音通话等应用。另一方面，回声消除模块和残留回声抑制模块在对语音采集信号依次进行回声消除和残留回声抑制处理之后，将语音采集信号、消除非线性回声后的语音采集信号、残差采集信号和所获取的语音信号反馈至自动调整模块，根据语音采集信号、消除非线性回声后的语音采集信号、残差采集信号和所获取的语音信号估计实时谐波失真度，根据实时谐波失真度调整扬声器失真特性函数，以便指示自动调整模块实时对扬声器失真特性函数进行更新微调，更细致的对语音信号的播放增益进行调节，以期在语音信号失真度和语音响度上获得更理想的折中。

上述实施例中，对包含有回声的语音采集信号进行回声消除和残留回声抑制处理，由于播放语音信号时将播放增益进行了最优化调整，从而使语音采集信号中的非线性回声部分较小，通过回声消除和残留回声抑制处理可以有效地将语音采集信号中的非线性回声部分进行消除，提高了语音质量。

作为一个示例，对于许多消费电子产品而言，在大音量情况下，扬声器的失真不可避免且难以准确的实时估计。因此，本发明实施例提出一种解决方案，通过预先对扬声器的失真特性进行测量并进行存储，在播放语音信号时，可以根据检测的扬声器失真特性实时调节语音信号以避免产生过于严重的失真，以便同时确保播放音质和回声消除效果，具体内容如下所述：

(1)预测扬声器失真特性

如图4所示，先获取用于测试扬声器失真特征的参考语音信号，通过图中的模块402遍历参考语音信号的主要频率成分和不同的功率，可以确定参考语音信号的频率范围和对应的功率大小。其中，参考语音信号的信号类型包括但不限于：线性调频信号和对数扫频信号等。

通过图4中的模块408，可以对比参考语音信号和麦克风所采集的语音采集信号，得到总谐波失真函数：

y＝f(x₀₁,x₀₂) 公式(1)

其中，x₀₁为参考语音信号的频率，x₀₂为参考语音信号的功率。

语音响度的经验函数：

p＝h(x₀₁,x₀₂) 公式(2)

(2)根据扬声器失真特性自动调节语音信号不同频率的播放增益

获取待播放的语音信号，在播放语音信号之前，对不同频率语音信号的最大失真度和最小响度进行折中权衡，折中权衡的方式可以是：

1)语音失真y_max＝Max(f(x₁，x₂))＜门限1，对于语音信号中各个频点均满足该条件；其中，x₁为参考语音信号的频率，x₂为参考语音信号的功率。

语音响度p_min＝Min(h(x₁，x₂))＞门限2，对于语音信号中各个频点均满足该条件。

2)语音失真y_max＝Max(sum(f(x₁，x₂)))＜门限3，对于当前时刻语音信号中所有频率成分求和均满足该条件；

语音响度p_min＝Min(sum(h(x₁，x₂)))＞门限4，对于当前时刻语音信号中所有频率成分求和，或指定的频率范围求和均满足该条件。例如，通常情况下低频信号的失真更大，因而可以只对低频率段求和。

通过上述两种折中方式可以得到对语音失真度的期望要求以及对应的播放增益，其中播放增益可以表示为：

q＝J(x₁,x₂) 公式(3)

根据公式(3)进行图6中的语音信号进行自动调整，从而使得播放的失真量限制在期望范围以内，确保回声消除和残余回声抑制模块对语音采集信号进行有效地回声消除以得到稳定较好的输出结果，即既能比较彻底的消除回声，又能比较完整的保留所采集到的语音信号。

通过回声消除和残留回声抑制模块对语音采集信号进行回声消除后，可以使唤醒成功率和语音识别成功率(包括字准率和句准率)大大的提高，如上面的表1所示，当垂直距离为1米(m)时，传统方案中，直接对音量为6的语音信号进行播放，对应的唤醒率为68％；而本方案中将音量为6的语音信号输入图1中自动调整模块，实时调整语音信号不同频率的播放增益，由于使用了自动调整模块对语音信号的播放增益进行调整，可以将语音信号的失真控制在一个较低的期望范围内。

(3)反馈调节

如图6所示，通过图中虚线a表示的反馈路径实时的从回声消除和残余回声抑制模块中获取当前播放失真度的估算信息，根据估算信息对扬声器失真特性进行实时更新微调，以便更细致的对语音信号进行调节，以期在语音失真度和语音响度上获得更理想的折中权衡，并跟踪扬声器在播放时的轻微变化。

采用上述实施例的方案，以略微牺牲最大音量为代价换取有保证的语音音质和稳定的回声消除效果，不仅使播放声音听起来不会出现杂音给人带来不适感，同时也使得依赖于回声消除的应用功能如语音唤醒和识别等更加可靠和准确。

图1、3、5为一个实施例中回声消除方法的流程示意图。应该理解的是，虽然图1、3、5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1、3、5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图7所示，在一个实施例中，提供了一种回声消除装置，该回声消除装置具体包括：信号获取模块702、均衡值确定模块704、响度调整模块706、信号获取模块708和回声消除模块710；其中：

信号获取模块702，用于获取语音信号；

均衡值确定模块704，用于根据预测的扬声器失真特性函数，确定所述语音信号的语音失真度与语音响度的均衡值；

响度调整模块706，用于按照所述均衡值调整所述语音信号的播放增益；

信号获取模块708，用于获取包含调整后的语音信号在播放时所产生回声的语音采集信号；

回声消除模块710，用于对所获取的包含有所述回声的语音采集信号进行回声消除。

在一个实施例中，如图8所示，该装置还包括：处理模块712和信号对比模块714；其中：

信号获取模块702，还用于获取用于预测扬声器失真特性的参考语言信号；

处理模块712，用于确定参考语言信号的频率和功率并进行播放；

信号获取模块702，还用于获取参考语音信号在播放时所产生回声的参考语音采集信号；

信号对比模块714，用于对比参考语音采集信号和参考语言信号，获得不同频率且不同功率下的扬声器失真特性函数。

在一个实施例中，均衡值确定模块704，还用于：获取通过预测扬声器失真特性所得的扬声器失真特性函数；根据扬声器失真特性函数，确定语音信号在语音响度区间内的语音失真度变化值；根据语音响度区间中的语音响度值和对应的语音失真度变化值，确定语音信号的语音失真度与语音响度的均衡值。

在一个实施例中，均衡值确定模块704，还用于：在语音响度区间中选取达到第一响度阈值的语音响度值；以及在语音失真度变化值中选取小于第一失真度阈值的语音失真度值；将所选取的语音响度值和语音失真度值，确定为语音信号的语音失真度与语音响度的均衡值。

在一个实施例中，均衡值确定模块704，还用于：计算语音响度区间中各语音响度值的响度均值，以及语音失真度变化值中各语音失真度的失真度均值；当响度均值达到第二响度阈值、且失真度均值小于第二失真度阈值时，则将响度均值和失真度均值确定为语音信号的语音失真度与语音响度的均衡值。

在一个实施例中，回声包括线性回声；回声消除模块710还用于确定语音采集信号与所获取的语音信号之间的时延值；按照时延值对语音采集信号与所获取的语音信号进行对齐；将对齐后的语音信号输入回声模型，获得线性回声信号；根据线性回声信号对语音采集信号中的线性回声进行回声消除处理，获得残差采集信号。

在一个实施例中，回声包括语音信号在扬声器中非线性失真引起的非线性回声；回声消除模块710还用于根据播放增益对应的语音失真度对残差采集信号中的非线性回声进行估计，得到非线性回声信号；对非线性回声信号进行反相处理；根据反相处理后的非线性回声信号对残差采集信号进行回声抑制处理，获得消除非线性回声后的语音采集信号。

在一个实施例中，回声消除模块710还用于确定非线性回声信号与语音采集信号之间的关联矩阵；根据关联矩阵获得衰减因子；计算衰减因子与反相处理后的非线性回声信号的乘积；将乘积衰减因子后所得的非线性回声信号与残差采集信号进行叠加，获得消除非线性回声后的语音采集信号。

在一个实施例中，如图8所示，该装置还包括：调整模块716；其中：

调整模块716，用于通过获取的语音采集信号、消除非线性回声后的语音采集信号、残差采集信号和所获取的语音信号，估计实时谐波失真度；根据实时谐波失真度调整扬声器失真特性函数。

在一个实施例中，如图8所示，该装置还包括：唤醒模块718；其中：

唤醒模块718，用于从消除回声后的语音采集信号中提取唤醒词；计算唤醒词的声学得分；声学得分用于指示唤醒词的真实性；当声学得分大于或等于语音唤醒阈值时，执行语音唤醒操作。

图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图9所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现回声消除方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行回声消除方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的回声消除装置可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该回声消除装置的各个程序模块，比如，图7所示的信号获取模块702、均衡值确定模块704、响度调整模块706、信号获取模块708和回声消除模块710。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的回声消除方法中的步骤。

例如，图9所示的计算机设备可以通过如图7所示的回声消除装置中的信号获取模块702执行S202。计算机设备可通过均衡值确定模块704执行S204。计算机设备可通过响度调整模块706执行S206。计算机设备可通过信号获取模块708执行S208。计算机设备可通过回声消除模块710执行S210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述回声消除方法的步骤。此处回声消除方法的步骤可以是上述各个实施例的回声消除方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述回声消除方法的步骤。此处回声消除方法的步骤可以是上述各个实施例的回声消除方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种回声消除方法，包括：

获取语音信号；

根据预测的扬声器失真特性函数，确定所述语音信号的语音失真度与语音响度的均衡值；所述均衡值是最优语音失真度值和最优语音响度值的组合，所述最优语音失真度值为所述语音信号在播放时所产生的非线性失真能被有效地消除的失真值；

按照所述均衡值调整所述语音信号的播放增益；

根据所述语音信号和所述均衡值对所获取的包含有所述回声的语音采集信号进行回声消除；所述回声包括线性回声和非线性回声，所述非线性回声为所述语音信号在扬声器中非线性失真引起的。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用于预测扬声器失真特性的参考语言信号；

确定所述参考语言信号的频率和功率并进行播放；

获取所述参考语音信号在播放时所产生回声的参考语音采集信号；

对比所述参考语音采集信号和所述参考语言信号，获得不同频率且不同功率下的扬声器失真特性函数。

3.根据权利要求1所述的方法，其特征在于，所述根据预测的扬声器失真特性函数，确定所述语音信号的语音失真度与语音响度的均衡值包括：

获取通过预测扬声器失真特性所得的扬声器失真特性函数；

根据所述扬声器失真特性函数，确定所述语音信号在语音响度区间内的语音失真度变化值；

根据所述语音响度区间中的语音响度值和对应的所述语音失真度变化值，确定所述语音信号的语音失真度与语音响度的均衡值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述语音响度区间中的语音响度值和对应的所述语音失真度变化值，确定所述语音信号的语音失真度与语音响度的均衡值包括：

在所述语音响度区间中选取达到第一响度阈值的语音响度值；以及

在所述语音失真度变化值中选取小于第一失真度阈值的语音失真度值；

将所选取的语音响度值和语音失真度值，确定为所述语音信号的语音失真度与语音响度的均衡值。

5.根据权利要求3所述的方法，其特征在于，所述根据所述语音响度区间中的语音响度值和对应的所述语音失真度变化值，确定所述语音信号的语音失真度与语音响度的均衡值包括：

计算所述语音响度区间中各语音响度值的响度均值，以及所述语音失真度变化值中各语音失真度的失真度均值；

当所述响度均值达到第二响度阈值、且所述失真度均值小于第二失真度阈值时，则将所述响度均值和所述失真度均值确定为所述语音信号的语音失真度与语音响度的均衡值。

6.根据权利要求1所述的方法，其特征在于，所述根据所述语音信号和所述均衡值对所获取的包含有所述回声的语音采集信号进行回声消除包括：

确定所述语音采集信号与所获取的语音信号之间的时延值；

按照所述时延值对所述语音采集信号与所获取的语音信号进行对齐；

将对齐后的语音信号输入回声模型，获得线性回声信号；

根据所述线性回声信号对所述语音采集信号中的线性回声进行回声消除处理，获得残差采集信号。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据所述播放增益对应的语音失真度对所述残差采集信号中的非线性回声进行估计，得到非线性回声信号；

对所述非线性回声信号进行反相处理；

根据反相处理后的非线性回声信号对所述残差采集信号进行回声抑制处理，获得消除非线性回声后的语音采集信号。

8.根据权利要求7所述的方法，其特征在于，所述根据反相处理后的非线性回声信号对所述残差采集信号进行回声抑制处理，获得消除非线性回声后的语音采集信号包括：

确定所述非线性回声信号与所述语音采集信号之间的关联矩阵；

根据所述关联矩阵获得衰减因子；

计算所述衰减因子与反相处理后的非线性回声信号的乘积；

将乘积所述衰减因子后所得的非线性回声信号与所述残差采集信号进行叠加，获得消除非线性回声后的语音采集信号。

9.根据权利要求7或8所述的方法，其特征在于，所述方法还包括：

通过获取的语音采集信号、消除非线性回声后的语音采集信号、所述残差采集信号和所获取的语音信号，估计实时谐波失真度；

根据所述实时谐波失真度调整所述扬声器失真特性函数。

10.根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

从消除回声后的语音采集信号中提取唤醒词；

计算所述唤醒词的声学得分；所述声学得分用于指示所述唤醒词的真实性；

当所述声学得分大于或等于语音唤醒阈值时，执行语音唤醒操作。

11.一种回声消除装置，其特征在于，所述装置包括：

信号获取模块，用于获取语音信号；

均衡值确定模块，用于根据预测的扬声器失真特性函数，确定所述语音信号的语音失真度与语音响度的均衡值；所述均衡值是最优语音失真度值和最优语音响度值的组合，所述最优语音失真度值为所述语音信号在播放时所产生的非线性失真能被有效地消除的失真值；

回声消除模块，用于根据所述语音信号和所述均衡值对所获取的包含有所述回声的语音采集信号进行回声消除；所述回声包括线性回声和非线性回声，所述非线性回声为所述语音信号在扬声器中非线性失真引起的。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

所述信号获取模块，还用于获取用于预测扬声器失真特性的参考语言信号；

处理模块，用于确定所述参考语言信号的频率和功率并进行播放；

所述信号获取模块，还用于获取所述参考语音信号在播放时所产生回声的参考语音采集信号；

信号对比模块，用于对比所述参考语音采集信号和所述参考语言信号，获得不同频率且不同功率下的扬声器失真特性函数。

13.根据权利要求11所述的装置，其特征在于，均衡值确定模块，还用于：获取通过预测扬声器失真特性所得的扬声器失真特性函数；根据所述扬声器失真特性函数，确定所述语音信号在语音响度区间内的语音失真度变化值；根据所述语音响度区间中的语音响度值和对应的所述语音失真度变化值，确定所述语音信号的语音失真度与语音响度的均衡值。

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。