CN116962583B

CN116962583B - 一种回声控制的方法、装置、设备、存储介质及程序产品

Info

Publication number: CN116962583B
Application number: CN202311217347.7A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-12-08
Anticipated expiration: 2043-09-20
Also published as: CN116962583A

Abstract

本申请实施例公开了一种回声控制的方法、装置、设备、存储介质及程序产品，可应用于云技术、人工智能、智慧交通、辅助驾驶等场景。该方法能够在大回声情况下，减少回声信号的残留，且不会抑制参考信号，极大地提升通话质量。该方法包括：获取第一参考信号对应的第一回声信号；计算第一回声信号的第一回声能量值；在第一回声能量值大于预设门限时，计算第一参考信号的目标增益值；基于第一参考信号的目标增益值对第一参考信号进行调节，并对调节后的第一参考信号所对应的第二回声信号进行回声消除处理，第二回声信号所产生的回声能量小于第一回声信号所产生的回声能量。

Description

一种回声控制的方法、装置、设备、存储介质及程序产品

技术领域

本申请实施例涉及通信技术领域，具体涉及一种回声控制的方法、装置、设备、存储介质及程序产品。

背景技术

在通话场景下，对于具有扬声器和传声器的电子设备，当电子设备的扬声器工作时，扬声器播放的参考信号会被传声器采集到，从而形成回声。换句话说，回声信号为扬声器播放参考信号后被传声器采集到的声音信号。回声信号会对传声器需要传输的参考信号产生影响，极大地程度想扰乱本端的通话设备所采集的待播放语音。因此，有必要对通话场景下的回声信号进行消除处理。

在传统的回声消除方案中，通常是依赖于内置的回声消除单元（acoustic echocancellation，AEC）对采集信号以及采集信号中的回声信号进行线性滤波、非线性处理等处理，以抑制回声信号，从而解决回声的问题。但在出现回声较大的情况下，该方式在消除回声信号的过程中，不仅容易抑制近端的通话设备的参考信号，导致对端的通话设备无法连贯地接听到完整的语音；而且，由于大回声通常具备较多的非线性特征，会给当前的AEC单元带来较大挑战，因此仅依赖当前的AEC单元来消除回声信号，容易造成回声信号残留，影响通话质量。

发明内容

本申请实施例提供了一种回声控制的方法、装置、设备、存储介质及程序产品，能够在大回声情况下，减少回声信号的残留，且不会抑制参考信号，极大地提升通话质量。

第一方面，本申请实施例提供了一种回声抑制的方法。该方法包括：获取第一参考信号对应的第一回声信号，所述第一回声信号是对所述第一参考信号进行播放后产生的回声信号，所述第一参考信号是对待播放语音进行播放处理时所得到的数字信号；计算所述第一回声信号的第一回声能量值，所述第一回声能量值用于指示由所述第一回声信号产生的回声能量引起对所述第一参考信号的预测干扰程度；在所述第一回声能量值大于预设门限时，计算所述第一参考信号的目标增益值；基于所述第一参考信号的目标增益值对所述第一参考信号进行调节，并对调节后的第一参考信号所对应的第二回声信号进行回声消除处理，所述第二回声信号所产生的回声能量小于所述第一回声信号所产生的回声能量。

第二方面，本申请实施例提供一种回声控制装置。该回声控制装置包括获取单元和处理单元。其中，获取单元，用于获取第一参考信号对应的第一回声信号，所述第一回声信号是对所述第一参考信号进行播放后产生的回声信号，所述第一参考信号是对待播放语音进行播放处理时所得到的数字信号。处理单元，用于计算所述第一回声信号的第一回声能量值，所述第一回声能量值用于指示由所述第一回声信号产生的回声能量引起对所述第一参考信号的预测干扰程度。所述处理单元，用于在所述第一回声能量值大于预设门限时，计算所述第一参考信号的目标增益值。所述处理单元，用于基于所述第一参考信号的目标增益值对所述第一参考信号进行调节，并对调节后的第一参考信号所对应的第二回声信号进行回声消除处理，所述第二回声信号所产生的回声能量小于所述第一回声信号所产生的回声能量。

在一些可选的实施方式中，处理单元用于：在所述第一回声能量值大于所述预设门限时，确定多个子带信号中每个子带信号的目标增益值，所述第一参考信号包括所述多个子带信号；将多个所述子带信号的目标增益值进行求和，得到所述第一参考信号的增益值。

在另一些可选的实施方式中，所述多个子带信号包括多组不同的信号参数；处理单元用于：基于所述第一回声能量值和第二回声能量值，计算在每组所述信号参数下的第一信息，其中，所述第二回声能量值用于指示在每组所述信号参数下对所述第一参考信号进行子带能量调节后所产生的回声能量引起对所述第一参考信号的实际干扰程度，所述第一信息用于指示所述第二回声能量值与所述第一回声能量值之间的占比情况；基于第一听觉感知能量值和第二听觉感知能量值计算在每组所述信号参数下的第二信息，其中，所述第一听觉感知能量值用于指示由所述第一参考信号所引起的听觉感知程度，所述第二听觉感知能量值用于指示在每组所述信号参数下对所述第一参考信号进行子带能量调节后，由调节后的第一参考信号所引起的听觉感知程度，所述第二信息用于指示所述第二听觉感知能量值与所述第一听觉感知能量值之间的占比情况；基于在每组所述信号参数下的所述第一信息和所述第二信息、以及第一权值和第二权值，计算在每组所述信号参数下的增益损失值，所述第一权值用于指示所述第一回声信号的回声能量衰减权重，所述第二权值用于指示所述第一参考信号的听觉感知衰减权重；从多组所述信号参数下的增益损失值中选取目标损失值，以将所述目标损失值对应的目标信号参数组所对应的每个子带信号的增益值确定为多个子带信号中每个子带信号的目标增益值。

在另一些可选的实施方式中，处理单元还用于：所述在基于所述第一回声能量值和第二回声能量值，计算在每组所述信号参数下的第一信息之前，对每帧所述第一回声信号中多个采样样点的信号值进行平方和求解，得到所述第一回声能量值；在每组所述信号参数下对所述第一参考信号进行子带能量调节，确定每组所述信号参数下调节后的第一参考信号对应的第二回声信号；将每帧所第二回声信号中的多个采样样点的信号值进行平方和求解，得到所述第二回声能量值。处理单元，用于计算所述第二回声能量值与所述第一回声能量值之间的比值，得到每组所述信号参数下的第一信息。

在另一些可选的实施方式中，处理单元还用于：在基于第一听觉感知能量值和第二听觉感知能量值计算在每组所述信号参数下的第二信息之前，计算每帧所述第一参考信号中的每个频点的第一听觉系数和第一频点能量，所述第一听觉系数用于指示所述第一参考信号在对应频点上的听觉感知权重；基于每个所述频点的所述第一听觉系数对对应频点的所述第一频点能量进行加权求和处理，得到第一听觉感知能量值；在每组所述信号参数下对所述第一参考信号进行子带能量调节，确定每组所述信号参数下调节后的第一参考信号；计算每帧所述调节后的第一参考信号中每个频点的第二听觉系数和第二频点能量，所述第二听觉系数用于指示所述调节后的第一参考信号在对应频点上的听觉感知权重；基于每个所述频点的所述第二听觉系数对对应频点的所述第二频点能量进行加权求和处理，得到所述第二听觉感知能量值。处理单元，用于计算所述第二听觉感知能量值与所述第一听觉感知能量值之间的比值，得到每组所述信号参数下的第二信息。

在另一些可选的实施方式中，处理单元用于：基于所述第一参考信号中每个所述频点的频点值和至少两个相邻频率，确定对应所述频点的至少一个等响曲线信息；基于每个所述频点的所述至少一个等响曲线信息，计算对应所述频点的响度值；基于每个所述频点的响度值计算对应所述频点的第一听觉系数。

在另一些可选的实施方式中，处理单元用于：对每帧所述第一参考信号进行加窗处理，得到每帧加窗后的第一参考信号；对每帧所述加窗后的第一参考信号进行傅里叶变换处理，得到对应帧中的每个频点的功率信息；将每帧所述加窗后的第一参考信号中的每个所述频点的功率信息，作为对应帧所述第一参考信号中的对应频点的第一频点能量。

在另一些可选的实施方式中，处理单元用于：基于所述第一权值对每组所述信号参数下的第一信息进行加权处理，得到每组所述信号参数下加权后的第一信息；基于所述第二权值对每组所述信号参数下的第一信息进行加权处理，得到每组所述信号参数下加权后的第二信息；计算每组所述信号参数下加权后的第二信息与对应信号参数组下的所述加权后的第一信息之间的信息差异，得到每组所述信号参数下的增益损失值。

在另一些可选的实施方式中，处理单元用于：对所述第一参考信号进行傅里叶变换处理，得到频域信号；基于自适应滤波系数对所述频域信号进行复数乘积处理，得到滤波信号；对所述滤波信号进行反傅里叶变换处理，得到所述第一参考信号对应的第一回声信号。

在另一些可选的实施方式中，处理单元还用于：在所述第一回声能量值小于或等于所述预设门限时，对所述第一回声信号进行所述回声消除处理。

在另一些可选的实施方式中，处理单元用于：对所述调节后的第一参考信号和第一采集信号进行信号对齐处理，得到第一对齐信号，所述第一采集信号包括所述第二回声信号和所述调节后的第一参考信号；对所述第一对齐信号进行自适应滤波处理，得到滤波后的第一对齐信号；基于所述滤波后的第一对齐信号和所述第一采集信号，消除所述第二回声信号。

本申请实施例第三方面提供了一种回声控制设备，包括：存储器、输入/输出（I/O）接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令，以执行上述第一方面的实施方式对应的回声控制的方法。

本申请实施例第四方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行以执行上述第一方面的实施方式对应的方法。

本申请实施例第五方面提供了一种包含指令的计算机程序产品，当其在计算机或者处理器上运行时，使得计算机或者处理器执行上述以执行上述第一方面的实施方式对应的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，第一参考信号是对待播放语音进行播放处理时所得到的数字信号，并且第一回声信号是对第一参考信号进行播放后产生的回声信号，那么在获取到第一参考信号对应的第一回声信号后，通过计算第一回声信号的第一回声能量值，并比较第一回声能量值与预设门限之间的关系。所描述的第一回声能量值能够指示由第一回声信号所产生的回声能量引起对第一参考信号的预测干扰程度。这样，在比较第一回声能量值大于预设门限时，计算第一参考信号的目标增益值，并基于第一参考信号的目标增益值对第一参考信号进行调节，进而对调节后的第一参考信号所对应的第二回声信号进行回声消除处理。所提及的第二回声信号所产生的回声能量小于第一回声信号所产生的回声能量。通过上述方式，在进行回声消除处理之前，在判断当前的第一回声信号的第一回声能量值大于预设门限的情况下，先通过第一参考信号的目标增益值对第一参考信号进行能量调节，以提前抑制与调节后的第一参考信号所对应的第二回声信号的回声能量，使得第二回声信号所产生的回声能量小于第一回声信号所产生的回声能量。这样，相较于直接对第一回声信号进行回声消除处理，先预先通过目标增益值对第一参考信号进行能量调节，从而对相应的第二回声信号进行回声消除处理，能够在大回声情况下，减少回声信号的残留，且不会抑制参考信号，极大地提升通话质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种应用场景示意图；

图2示出了本申请实施例提供的语音通话的流程示意图；

图3示出了现有方案中消除回声信号的结构示意图；

图4示出了本申请实施例提供的消除回声信号的结构示意图；

图5示出了本申请实施例提供的回声控制的方法的一种流程图；

图6示出了本申请实施例提供的子带信号的目标增益值的计算流程示意图；

图7示出了本申请实施例提供的声学等响曲线图；

图8示出了本申请实施例提供的听觉系数的示意图；

图9示出了本申请实施例中提供的回声控制装置的一个实施例示意图；

图10示出了本申请实施例中提供的回声控制设备的硬件结构示意图。

实施方式

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

语音通话是一种通过通信网络连接两个或多个用户进行实时交流的技术，它可以让通话双方在通话过程中互相听到对方的声音，从而实现长距离交流。语音通话技术的实现主要借助于计算机网络，例如互联网、局域网、广域网等。语音通话技术具有实时性高、连接便捷、操作简单等优势，能够提供更加快速、直观的信息传输。随着终端设备等不断地改革和发展，用户可以通过通话设备，例如用户设备等终端设备进行语音通话，逐渐满足人们日常生活、商务活动、社交交流等方面的需要。

示例性地，图1示出了本申请实施例提供的一种应用场景示意图。如图1所示，该应用场景包括至少两个通话设备，例如通话设备1、通话设备2、......、通话设备N，N≥2、且N为整数。其中，针对每个通话设备，其均具备接收功能和发送功能。作为一个示意性的描述，用户1使用通话设备1，用户2使用通话设备2，并通过将通话设备1和通话设备2进行连接，以实现用户1与用户2之间的语音通话。同样地，通话设备1与通话设备N、通话设备2与通话设备N等进行连接，也可以实现对应用户之间的语音通话。譬如说，用户1可以通过点击通话设备1中安装的即时通讯应用程序（application，APP），例如APP1，以启动并登录该APP1。同样地，用户2通过点击通话设备2中安装的APP1，以启动并登录APP1。由用户1触发点击APP1中与用户2相关的信息，进而借助该APP1中配置的通话功能建立起与用户2之间的通话连接；或者，也可以由用户2触发点击APP1中与用户1相关的信息，并借助该APP1中配置的通话功能建立起与用户1之间的通话连接。

在图1示出的语音通话的基础上，图2示出了本申请实施例提供的语音通话的流程示意图。如图2所示，在通过网络实现语音通话的场景中，例如基于网际协议（Internetprotocol，IP）的语音传输（voice over Internet protocol，VOIP）等，通常是由发送侧的通话设备将待播放语音进行语音前处理，例如包括但不限于回声消除处理、降噪处理等。随后，发送侧的通话设备再将经过语音前处理得到的信号依次进行语音编码处理和信道编码处理，进而按照网络传输协议标准对编码后的信号进行打包。这样，发送侧的通话设备再经过IP网络等互联网将数据包发送至目的IP地址所对应的接收侧的通话设备中。接收侧的通话设备在接收到语音数据包后，对语音数据包依次进行信道解码处理和语音解码处理，进而解码得到的信号进行语音处理，从而恢复得到原来的声音信号，从而达到通过互联网传送语音信号的目的。

然而，在语音通话的过程中，通常会因为出现回声而导致通话质量也出现问题，例如对端用户无法清晰地接听本端用户所发出的语音等。所描述的回声，是指从本端的通话设备的扬声器发出的声音经过多次反馈到麦克风后传到对端的通话设备引起的回声现象。作为一个示意性的描述，在双人通话的场景中，回声是在通话过程中听到了自己说话的声音从对侧的通话设备传回来。由于回声在自己说话的同时，在较短时间内从对端的通话设备侧传回来，极大程度地扰乱了本端用户的发言。

针对语音通话过程中的回声问题，目前大部分通话设备都通过内部配置的回声消除单元来消除回声信号，以解决回声问题。例如，图3示出了现有方案中消除回声信号的结构示意图。如图3所示，在获取到待播放语音后，将该待播放语音进行模数转换处理，得到相应的参考信号。参考信号经过扬声器发出后被麦克风采集回来，从而得到相应的采集信号。在该采集信号中，包括参考信号和与参考信号对应的回声信号。这样，再通过AEC单元对采集信号中的回声信号进行消除处理。作为一个示意性的描述，该AEC单元中至少包括回声时延检测模块、自适应滤波模块以及非线性处理（non-linear processing，NLP）模块。具体地，在对回声信号进行消除处理的过程中，可以通过回声时延检测模块将参考信号和回声信号进行同步对齐，得到对齐后的参考信号。随后，再经过自适应滤波模块对对齐后的参考信号和采集信号进行处理，以抑制回声信号中的线性部分，并且再经过NLP模块对回声信号中的非线性部分进行抑制，以此完成对回声信号的消除处理。

也就是说，现有方案中对于回声信号的消除处理是依赖AEC单元来实现，但基于当前的AEC单元来消除回声信号，仅局限于回声较小的情况，并不适用于回声较大的情况。换句话说，在出现大回声的情况下，该方式在消除回声信号的过程中，不仅容易抑制近端的通话设备的参考信号，导致对端的通话设备无法连贯地接听到完整的语音；而且，由于大回声通常具备较多的非线性特征，会给当前的AEC单元带来较大挑战，因此仅依赖当前的AEC单元来消除回声信号，容易造成回声信号残留，影响通话质量。

因此，为了解决上述提及的技术问题，本申请实施例提供了一种回声控制的方法。该回声控制的方法可应用于图4示出的回声消除框架中。如图4所示，在前述图3的框架的基础上，增加子带能量调节模块。在本申请的回声消除框架中，先获取第一参考信号对应的第一回声信号，并计算第一回声信号的第一回声能量值，以通过该第一回声能量值来指示由该第一回声信号产生的回声能量所引起对第一参考信号的预测干扰程度。这样，再将第一回声能量值与预设门限进行比较，进而在判断出第一回声能量值大于预设门限的情况下，计算第一参考信号的目标增益值。这样，再经过子带能量调节模块基于第一参考信号的目标增益值对第一参考信号进行调节，得到调节后的第一参考信号。随后，经过回声时延检测模块、自适应滤波模块以及NLP模块实现对调节后的第一参考信号所对应的第二回声信号的回声消除处理。相较于直接对第一回声信号进行回声消除处理，先预先经由子带能量调节模块基于目标增益值对第一参考信号进行能量调节，从而对相应的第二回声信号进行回声消除处理，能够在大回声情况下，减少回声信号的残留，且不会抑制参考信号，极大地提升通话质量。

需说明，所描述的第二回声信号所产生的回声能量小于第一回声信号所产生的回声能量。另外，如何借助回声时延检测模块、自适应滤波模块以及NLP模块实现对调节后的第一参考信号所对应的第二回声信号的回声消除处理，其处理过程可以参照前述图3中示出的对回声信号进行消除处理的流程进行理解，此处不做赘述。

示例性地，本申请实施例提供的回声控制的方法，可以应用于各种语音通话的场景中，例如包括但不限于对讲机、语音会议、VoIP等，具体本申请实施例中不做限定。在另一些示例中，本申请实施例提供的回声控制的方法也可以应用于企业、家庭、教育、紧急救援、商务洽谈等各个需要借助语音通话的领域中；或者，本申请提供的回声控制的方法也可以应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等等，具体不做限定。

示例性地，本申请提供的回声控制的方法可以应用于具有数据处理能力的通话设备，如终端设备、问答机器人等。其中，终端设备可以包括但不限于智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、车载设备、智能手表、可穿戴智能设备、智能语音交互设备、智能家电、飞行器等，本申请不做具体限定。

下面结合附图对本申请实施例提供的一种回声控制的方法进行介绍。图5示出了本申请实施例提供的回声控制的方法的一种流程图。如图5所示，该回声控制的方法可以包括如下步骤：

501、获取第一参考信号对应的第一回声信号，第一回声信号是对第一参考信号进行播放后产生的回声信号，第一参考信号是对待播放语音进行播放处理时所得到的数字信号。

该示例中，本端用户欲想与远端的用户进行语音通话的时候，可以通过本端的通话设备与远端的通话设备进行通信。本端用户在说出待播放语音后，通过本端的通话设备对待播放语音进行模数转换处理，得到相应的第一参考信号。所描述的第一参考信号，可以理解成对待播放语音进行播放处理时所得到的数字信号。

这样，在得到第一参考信号后，本端的通话设备对第一参考信号进行傅里叶变换处理，得到频域信号。进一步地，本端的通话设备基于自适应滤波模块中的自适应滤波系数对频域信号进行复数乘积处理，得到滤波信号，并对滤波信号进行反傅里叶变换处理，得到该第一参考信号对应的第一回声信号。换句话说，第一回声信号是对第一参考信号进行播放后产生的回声信号。

502、计算第一回声信号的第一回声能量值，第一回声能量值用于指示由第一回声信号产生的回声能量引起对第一参考信号的预测干扰程度。

该示例中，第一回声信号所产生的回声能量越大，对第一参考信号的干扰程度则越严重；反之，第一回声信号所产生的回声能量越小，对第一参考信号的干扰程度则越小。基于此，在获得第一参考信号对应的第一回声信号后，还需要计算第一回声信号的第一回声能量值，以通过该第一回声能量值来指示第一回声信号产生的回声能量对第一参考信号的预测干扰程度。

作为一个示意性的描述，本端的通话设备可以对第一回声信号进行分帧处理，并获取每帧第一回声信号中的多个采样样点的信号值。这样，在获取得到每帧第一回声信号中的多个采样样点的信号值之后，本端的通话设备对每帧第一回声信号中的多个采样样本的信号值进行平方和求解，从而得到第一回声能量值。举例来说，若每帧第一回声信号中的多个采样样点包括样点1至样点4，并且获得相应的信号值为a₁至a₄。此时，本端的通话设备所计算得到的第一回声能量值为a₁ ²+a₂ ²+a₃ ²+a₄ ²。

需说明，上述所描述的采样样点包括样点1至样点4，在实际应用中还可以包括其他的样点，例如样点5、样点6等等，具体不限定样点的数目。

503、在第一回声能量值大于预设门限时，计算第一参考信号的目标增益值。

该示例中，在计算得到第一回声能量值后，通过比较第一回声能量值与预设门限之间的大小关系，进而基于比较结果来决定是否需要对第一参考信号进行能量调节处理。示例性地，可通过前述图4中提及的子带能量调节模块实现对第一参考信号的能量调节，能够在消除回声信号之前，先从源头处提前抑制回声信号所产生的回声能量。具体地，在计算第一回声能量值后，先判断第一回声能量值是否大于预设门限，进而在判断第一回声能量值大于预设门限的情况下，计算第一参考信号的目标增益值。举例来说，假设预设门限为10，若经过上述步骤502计算得到的第一回声能量值为20，通过比较得知第一回声能量值20大于预设门限10。由此，本端的通话设备需进一步计算第一参考信号的目标增益值。通过目标增益值，能够明确出第一参考信号所需调节的能量大小。

作为一个示意性的描述，可将第一参考信号的频带划分成多个连续的频段，每个频段称为子带。换句话说，第一参考信号中可包括多个子带信号。这样，在计算第一参考信号的目标增益值的过程中，可通过计算子带信号的目标增益值来实现。具体地，本端的通话设备可以在判断出第一回声能量值大于预设门限的情况下，确定该第一参考信号中多个子带信号中的每个子带信号的目标增益值。进一步地，本端的通话设备将多个子带信号的目标增益值进行求和，得到第一参考信号的目标增益值。

举例来说，假设将第一参考信号的频带划分成5个子带，得到子带信号1至子带信号5。若计算得到子带信号1的目标增益值、子带信号2的目标增益值、子带信号3的目标增益值、子带信号4的目标增益值以及子带信号5的目标增益值，此时可以将这子带信号1的目标增益值至子带信号5的目标增益值进行加法运算，由此计算得到第一参考信号的目标增益值。需说明，在实际应用中，对于第一参考信号划分成多少个子带，可以视情况而定，本申请不做具体限定。

作为一个示意性的描述，针对多个子带信号中的每个子带信号，其可以预先配置不同的信号参数，通过信号参数来反映对应子带信号的信号情况。换句话说，针对多个子带信号，其可以配置多组不同的信号参数。针对如何确定每个子带信号的目标增益值，具体可以通过构建损失函数来确定。具体地，其处理过程可以参照下述图6示出的流程示意图进行理解，即：

601、基于第一回声能量值和第二回声能量值，计算在每组信号参数下的第一信息，其中，第二回声能量值用于指示在每组信号参数下对第一参考信号进行子带能量调节后所产生的回声能量引起对第一参考信号的实际干扰程度，第一信息用于指示第二回声能量值与第一回声能量值之间的占比情况。

该示例中，针对如何计算第一回声能量值，其计算过程可以参照前述图5中步骤502所描述的内容进行理解，此处不做赘述。

另外，针对第二回声能量值，可以理解成在每组信号参数下对第一参考信号进行子带能量调节后所产生的回声能量引起对第一参考信号的实际干扰程度。针对如何计算第二回声能量值，本端的通话设备可以先在每组信号参数下对第一参考信号进行子带能量调节，从而确定每组信号参数下调节后的第一参考信号所对应的第二回声信号。这样，本端的通话设备再对每帧第二回声信号中的多个采样样点的信号值进行提取，进而对每帧第二回声信号中的多个采样样点的信号值进行平方和求解，以计算得到第二回声能量值。

这样，在计算出第一回声能量值和第二回声能量值后，计算第二回声能量值和第一回声能量值之间的比值，由此计算得到每组信号参数下的第一信息。换句话说，所描述的第一信息可以理解成第二回声能量值与第一回声能量值之间的占比情况，即。其中，/>表示第二回声能量值，En_echo表示第一回声能量值，rate_echo表示第一信息。

602、基于第一听觉感知能量值和第二听觉感知能量值计算在每组信号参数下的第二信息，其中，第一听觉感知能量值用于指示由第一参考信号所引起的听觉感知程度，第二听觉感知能量值用于指示在每组信号参数下对第一参考信号进行子带能量调节后，由调节后的第一参考信号所引起的听觉感知程度，第二信息用于指示第二听觉感知能量值与第一听觉感知能量值之间的占比情况。

该示例中，不同频率的声音对于不同的用户来说，有着不一样的听觉感知。听觉感知主要依赖于声音的响度。响度会随着声音的强度而变化，但也会受到频率的影响。也就是说，即便是相同强度、不同频率的声音对于用户也有不同的听觉感知。等响曲线是描述等响条件下声压级与声波频率的关系曲线，是听觉感知特征之一。即在不同频率下的声音需要达到何种声压级，才能获得对听者来说一致的听觉响度。为了说明该等响曲线的含义，具体可以参照图7示出了本申请实施例提供的声学等响曲线图进行理解。

图7所示的曲线，可以理解成上述提及的等响曲线。其中，从图7可以看出，中低频（例如1k Hz（赫兹）以下）频率越低，所需要的声压强度（听觉感知能量）则越大。换句话说，频率越低，则需要更大的听觉感知能量，才能让不同的用户有着相同的听觉感受。反之，中高频（例如1k Hz（赫兹）以上）频率越大，所需要的声压强度（听觉感知能量）则越小。即理解成频率越高，则需要更小的听觉感知能量，也可以使得用户有着相同的听觉感受。

另外，从图7还可以看出，针对频率在500Hz以下的信号，人耳感知是不够敏感的。相比中高频（例如3k Hz至4k Hz）的人耳敏感频段，低频部分的信号需要在物理绝对能量上比中高频的信号高很多倍才可能做到听感上有接近的感知效果。基于此，在对第一参考信号进行子带能量调节中，综合纳入考虑对第一参考信号进行听觉感知时所对应的听觉感知能量，便于准确地计算出第一参考信号的目标增益值，以实现对第一参考信号进行子带能量调节处理。

针对上述提及的第一听觉感知能量值，可理解成由第一参考信号所引起的听觉感知程度。针对如何计算第一听觉感知能量值，具体参照下述方式进行理解，即：

首先，计算每帧第一参考信号中每个频点的第一听觉系数和第一频点能量。所描述的第一听觉系数用于指示第一参考信号在对应频点上的听觉感知权重。

为了能够量化听觉感知的敏感程度，可以借助听觉感知加权系数（例如cof(k)）来描述，k为频点值。作为一个示意性的描述，在计算每帧第一参考信号中每个频点的第一听觉系数的过程中，本端的通话设备可以基于第一参考信号中每个频点的频点值和至少两个相邻频率，确定对应频点的至少一个等响曲线信息。更具体地，本端的通话设备将每个频点的频点值以及相邻的频率，借助BS3383标准《BS 3383 Specification for normal equal-loudness level contours for pure tones under free-field listening conditions》中公开的等响曲线数据表，确定相应的等响曲线数据，例如af(j-1)、ff(j-1)、af(j)、af(j)、bf(j-1)等，进而采用线性插值法等对所提取得到的等响曲线数据进行插值处理，得到对应频点的至少一个等响曲线信息，例如：

afy=af(j-1)+(k-ff(j-1))×(af(j)-af(j-1))/(ff(j)-ff(j-1))；

bfy=bf(j-1)+(k-ff(j-1))×(bf(j)-bf(j-1))/(ff(j)-ff(j-1))；

cfy=cf(j-1)+(k-ff(j-1))×(cf(j)-cf(j-1))/(ff(j)-ff(j-1))。

其中，k表示频点的频点值，j表示对应频点的频率。另外，ff、af、bf、cf对应于BS3383标准中公开的等响曲线数据表中的数据。

在计算得到每个频点的至少一个等响曲线信息后，本端的通话设备再基于每个频点的至少一个等响曲线信息计算对应频点的响度值loud，即loud=4.2+afy×(dB-cfy)/(1+bfy×(dB-cfy))，其中，dB为预设数值。这样，在计算出每个频点的响度值之后，本端的通话设备再基于每个频点的响度值计算对应频点的第一听觉系数，例如使用cof1(k)来表示。示例性地，cof1(k) = (10^loud/20)/1000。

作为一个示意性的描述，图8示出了本申请实施例提供的听觉系数的示意图。如图8所示，在以频率为横坐标、以听觉系数为纵坐标所构建的坐标系中，针对不用频率所对应的频点，其根据上述公式cof1(k) = (10^loud/20)/1000所计算得到的第一听觉系数也有所不同。譬如说，针对频率在7000Hz的信号，可以赋予例如0.65的第一听觉系数；针对频率在1000Hz的信号，可以赋予例如1的第一听觉系数等，具体本申请实施例中不做限定。

需说明，针对上述提及的第一听觉系数，在实际应用中也可以称为听觉感知加权系数，本申请不做具体名称限定。

针对如何计算上述提及的每个频点的第一频点能量，可以由本端的通话设备对每帧第一参考信号进行加窗处理，得到每帧加窗后的第一参考信号。所描述的加窗，可以包括但不限于汉宁窗或者汉明窗等。随后，本端的通话设备对每帧加窗后的第一参考信号进行傅里叶变换处理，得到对应帧中的每个频点的功率信息，例如第i帧中的第j个频点的功率信息表示为Enx(i,j)，j=0~K-1，K为总频点数，i为帧序号。这样，在得到每帧加窗后的第一参考信号中每个频点的功率信息后，本端的通话设备再将每帧加窗后的第一参考信号中的每个频点的功率信息，作为对应帧第一参考信号中的对应频点的第一频点能量。举例来说，针对第i帧第一参考信号，假设计算出第1个频点的功率信息为Enx(i,1)=25，此时则该第1个频点的第一频点能量则为25。

需说明，针对上述提及的功率能量，在实际应用中可以包括但不限于功能绝对值等，具体本申请实施例中不做限定。

这样，在计算得到每帧第一参考信号中每个频点的第一听觉系数和第一频点能量后，基于每个频点的第一听觉系数对对应频点的第一频点能量进行加权求和处理，得到对应帧的第一听觉感知能量值En_xpsy(i)。示例性地，，其中，cof1(k)表示第k个频点对应的第一听觉系数，Enx(i,k)表示第k个频点对应的第一频点能量。

这样，将所有帧的第一听觉感知能量值进行累加，便可得到该第一参考信号的第一听觉感知能量值，例如使用En_xpsy来表述。

另外，第二听觉感知能量值用于指示在每组信号参数下对第一参考信号进行子带能量调节后，由调节后的第一参考信号所引起的听觉感知程度。针对如何计算第二听觉感知能量值，也可以由本端的通话设备在每组信号参数下对第一参考信号进行子带能量调节，由此确定每组信号参数下调节后的第一参考信号。随后，本端的通话设备计算每帧调节后的第一参考信号中每个频点的第二听觉系数和第二频点能量。

作为一个示意性的描述，本端的通话设备可以先基于调节后的第一参考信号中每个频点的频点值和至少两个相邻频率，确定对应频点的至少一个等响曲线信息；进一步地，本端的通话设备基于每个频点的至少一个等响曲线信息，计算对应频点的响度值，进而基于每个频点的响度值计算对应频点的第二听觉系数。具体计算第二听觉系数的过程，也可以参照前述计算第一听觉系数的过程进行理解，此处不做赘述。另外，此处所提及的第二频点能量，其计算过程也可以参照前述第一频点能量的计算过程进行理解，此处不做赘述。

这样，在计算得到每帧调节后的第一参考信号中每个频点的第二听觉系数和第二频点能量后，再基于每个频点的第二听觉系数对对应频点的第二频点能量进行加权求和处理，由此计算得到对应帧的第二听觉感知能量值。进一步地，将所有帧的第二听觉感知能量值进行累加，便可得到该调节后的第一参考信号的第二听觉感知能量值，例如使用来表述。

这样，在按照上述方式分别计算得到第一听觉感知能量值和第二听觉感知能量值之后，再计算第二听觉感知能量值与第一听觉感知能量值之间的比值，从而得到每组信号参数下的第二信息。换句话说，第二信息用于指示第二听觉感知能量值与第一听觉感知能量值之间的占比情况，即，其中，/>表示第二听觉感知能量值，En_xpsy表示第一听觉感知能量值，rate_psy表示第二信息。

603、基于在每组信号参数下的第一信息和第二信息、以及第一权值和第二权值，计算在每组信号参数下的增益损失值，第一权值用于指示第一回声信号的回声能量衰减权重，第二权值用于指示第一参考信号的听觉感知衰减权重。

该示例中，第一权值能够用来指示第一回声信号的回声能量衰减权重，第二权值能够用来指示第一参考信号的听觉感知衰减权重。在实际应用中，可以基于通话需求来预先配置第一权值和第二权值。这样，在计算得到每组信号参数下的第一信息和第二信息后，可以基于每组信号参数下的第一信息和第二信息、以及第一权值和第二权值，计算每组信号参数下的增益损失值。

作为一个示意性的描述，本端的通话设备可以基于第一权值对每组信号参数下的第一信息进行加权处理，得到每组信号参数下加权后的第一信息。同样地，本端的通话设备还需要基于第二权值对每组信号参数下的第二信息进行加权处理，得到每组信号参数下加权后的第二信息。这样，再计算每组信号参数下加权后的第二信息与对应信号参数组下的加权后的第一信息之间的信息差异，从而计算得到每组信号参数下的增益损失值，即：lossfunc=a×rate_psy-b×rate_echo，其中，a表示第二权值，b表示第一权值。

举例来说，假设第一权值b=0.5，第二权值a=0.4，并且存在两组信号参数，即信号参数组A和信号参数组B。若在信号参数组A下，计算得到第一信息为0.9、第二信息为1.5，此时计算得到该信号参数组A下的增益损失值为lossfuncA=0.4×1.5-0.5×0.9=0.15。同样地，若在信号参数组B下，计算得到第一信息为1.2、第二信息为1，此时计算得到该信号参数组B下的增益损失值为lossfuncB=0.4×1-0.5×1.2=-0.2。

需说明，上述仅以两组信号参数组为例进行说明，在实际应用中，其他信号参数组的增益损失值，也可以参照lossfuncA、或lossfuncB的计算过程进行理解，此处不做赘述。

604、从多组信号参数下的增益损失值中选取目标损失值，以将目标损失值对应的目标信号参数组所对应的每个子带信号的增益值确定为多个子带信号中每个子带信号的目标增益值。

该示例中，对第一参考信号进行子带能量调节，其目的是为了使增益损失最大化。在实际应用中，会预先为每个子带信号配置不同大小的衰减增益值。基于此，在计算得到每组信号参数下的增益损失值后，可以通过遍历这多组信号参数下的增益损失值，以此从这多组信号参数下的增益损失值中选择目标损失值，例如选择最大的增益损失值。举例来说，以上述信号参数组A对应的lossfuncA、以及信号参数组B对应的lossfuncB为例，通过比较可知lossfuncA＞lossfuncB，由此可以选择lossfuncA作为目标损失值。这样，本端的通话设备再将目标损失值对应的目标信号参数组所对应的每个子带信号的增益值确定为多个子带信号中每个子带信号的目标增益值。举例来说，将lossfuncA对应的信号参数组A中的每个子带信号的增益值作为每个子带信号的目标增益值。

需说明，上述提及的增益值可以是小于或等于1的正数。应理解的是，所提及的增益值具体在实际应用中也可以是其他的取值，本申请实施例中不做限定。

在另一些可选的实施例中，还可以在判断出第一回声能量值小于或等于预设门限的情况下，对第一回声信号进行回声消除处理。其具体过程可以参照前述图3中提及消除处理的过程进行理解，此处不做赘述。

504、基于第一参考信号的目标增益值对第一参考信号进行调节，并对调节后的第一参考信号所对应的第二回声信号进行回声消除处理，第二回声信号所产生的回声能量小于第一回声信号所产生的回声能量。

该示例中，在计算得到第一参考信号的目标增益值后，还需要基于第一参考信号的目标增益值对第一参考信号进行调节，例如进行子带能量调节处理，以得到调节后的第一参考信号。这样，本端的通话设备再对调节后的第一参考信号所对应的第二回声信号进行回声消除处理。需说明，所描述的第二回声信号所产生的回声能量小于第一回声信号所产生的回声能量。

譬如说，本端的通话设备可以对调节后的第一参考信号和第一采集信号进行信号对齐处理，得到第一对齐信号。所描述的第一采集信号包括第二回声信号和调节后的第一参考信号。这样，本端的通话设备在得到第一对齐信号后，再通过前述图4中提及的自适应滤波模块对第一对齐信号进行自适应滤波处理，得到滤波后的第一对齐信号。进一步地，本端的通话设备再基于滤波后的第一对齐信号和第一采集信号，消除第二回声信号。其具体过程可以参照前述图3中提及的对第一回声信号进行消除处理的过程进行理解，此处不做赘述。

在本申请实施例中，在进行回声消除处理之前，在判断当前的第一回声信号的第一回声能量值大于预设门限的情况下，先通过第一参考信号的目标增益值对第一参考信号进行能量调节，以提前抑制与调节后的第一参考信号所对应的第二回声信号的回声能量，使得第二回声信号所产生的回声能量小于第一回声信号所产生的回声能量。这样，相较于直接对第一回声信号进行回声消除处理，先预先通过目标增益值对第一参考信号进行能量调节，从而对相应的第二回声信号进行回声消除处理，能够在大回声情况下，减少回声信号的残留，且不会抑制参考信号，极大地提升通话质量。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能，包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

下面对本申请实施例中的回声控制装置进行详细描述，图9为本申请实施例中提供的回声控制装置的一个实施例示意图。如图9所示，该回声控制装置可以包括获取单元901和处理单元902。

其中，获取单元901，用于获取第一参考信号对应的第一回声信号，第一回声信号是对第一参考信号进行播放后产生的回声信号，第一参考信号是对待播放语音进行播放处理时所得到的数字信号。具体可以参照前述图5中的步骤501所描述的内容进行理解，此处不做赘述。

处理单元902，用于计算第一回声信号的第一回声能量值，第一回声能量值用于指示由第一回声信号产生的回声能量引起对第一参考信号的预测干扰程度。具体可以参照前述图5中的步骤502所描述的内容进行理解，此处不做赘述。

处理单元902，用于在第一回声能量值大于预设门限时，计算第一参考信号的目标增益值。具体可以参照前述图5中的步骤503所描述的内容进行理解，此处不做赘述。

处理单元902，用于基于第一参考信号的目标增益值对第一参考信号进行调节，并对调节后的第一参考信号所对应的第二回声信号进行回声消除处理，第二回声信号所产生的回声能量小于第一回声信号所产生的回声能量。具体可以参照前述图5中的步骤504所描述的内容进行理解，此处不做赘述。

在一些可选的实施方式中，处理单元902用于：在第一回声能量值大于预设门限时，确定多个子带信号中每个子带信号的目标增益值，第一参考信号包括多个子带信号；将多个子带信号的目标增益值进行求和，得到第一参考信号的增益值。

在另一些可选的实施方式中，多个子带信号包括多组不同的信号参数；处理单元902用于：基于第一回声能量值和第二回声能量值，计算在每组信号参数下的第一信息，其中，第二回声能量值用于指示在每组信号参数下对第一参考信号进行子带能量调节后所产生的回声能量引起对第一参考信号的实际干扰程度，第一信息用于指示第二回声能量值与第一回声能量值之间的占比情况；基于第一听觉感知能量值和第二听觉感知能量值计算在每组信号参数下的第二信息，其中，第一听觉感知能量值用于指示由第一参考信号所引起的听觉感知程度，第二听觉感知能量值用于指示在每组信号参数下对第一参考信号进行子带能量调节后，由调节后的第一参考信号所引起的听觉感知程度，第二信息用于指示第二听觉感知能量值与第一听觉感知能量值之间的占比情况；基于在每组信号参数下的第一信息和第二信息、以及第一权值和第二权值，计算在每组信号参数下的增益损失值，第一权值用于指示第一回声信号的回声能量衰减权重，第二权值用于指示第一参考信号的听觉感知衰减权重；从多组信号参数下的增益损失值中选取目标损失值，以将目标损失值对应的目标信号参数组所对应的每个子带信号的增益值确定为多个子带信号中每个子带信号的目标增益值。具体可以参照前述图6中的步骤601至步骤604所描述的内容进行理解，此处不做赘述。

在另一些可选的实施方式中，处理单元902还用于：在基于第一回声能量值和第二回声能量值，计算在每组信号参数下的第一信息之前，对每帧第一回声信号中多个采样样点的信号值进行平方和求解，得到第一回声能量值；在每组信号参数下对第一参考信号进行子带能量调节，确定每组信号参数下调节后的第一参考信号对应的第二回声信号；将每帧所第二回声信号中的多个采样样点的信号值进行平方和求解，得到第二回声能量值。处理单元902，用于计算第二回声能量值与第一回声能量值之间的比值，得到每组信号参数下的第一信息。

在另一些可选的实施方式中，处理单元902还用于：在基于第一听觉感知能量值和第二听觉感知能量值计算在每组信号参数下的第二信息之前，计算每帧第一参考信号中的每个频点的第一听觉系数和第一频点能量，第一听觉系数用于指示第一参考信号在对应频点上的听觉感知权重；基于每个频点的第一听觉系数对对应频点的第一频点能量进行加权求和处理，得到第一听觉感知能量值；在每组信号参数下对第一参考信号进行子带能量调节，确定每组信号参数下调节后的第一参考信号；计算每帧调节后的第一参考信号中每个频点的第二听觉系数和第二频点能量，第二听觉系数用于指示调节后的第一参考信号在对应频点上的听觉感知权重；基于每个频点的第二听觉系数对对应频点的第二频点能量进行加权求和处理，得到第二听觉感知能量值。处理单元902，用于计算第二听觉感知能量值与第一听觉感知能量值之间的比值，得到每组信号参数下的第二信息。

在另一些可选的实施方式中，处理单元902用于：基于第一参考信号中每个频点的频点值和至少两个相邻频率，确定对应频点的至少一个等响曲线信息；基于每个频点的至少一个等响曲线信息，计算对应频点的响度值；基于每个频点的响度值计算对应频点的第一听觉系数。

在另一些可选的实施方式中，处理单元902用于：对每帧第一参考信号进行加窗处理，得到每帧加窗后的第一参考信号；对每帧加窗后的第一参考信号进行傅里叶变换处理，得到对应帧中的每个频点的功率信息；将每帧加窗后的第一参考信号中的每个频点的功率信息，作为对应帧第一参考信号中的对应频点的第一频点能量。

在另一些可选的实施方式中，处理单元902用于：基于第一权值对每组信号参数下的第一信息进行加权处理，得到每组信号参数下加权后的第一信息；基于第二权值对每组信号参数下的第一信息进行加权处理，得到每组信号参数下加权后的第二信息；计算每组信号参数下加权后的第二信息与对应信号参数组下的加权后的第一信息之间的信息差异，得到每组信号参数下的增益损失值。

在另一些可选的实施方式中，处理单元902用于：对第一参考信号进行傅里叶变换处理，得到频域信号；基于自适应滤波系数对频域信号进行复数乘积处理，得到滤波信号；对滤波信号进行反傅里叶变换处理，得到第一参考信号对应的第一回声信号。

在另一些可选的实施方式中，处理单元902还用于：在第一回声能量值小于或等于预设门限时，对第一回声信号进行回声消除处理。

在另一些可选的实施方式中，处理单元902用于：对调节后的第一参考信号和第一采集信号进行信号对齐处理，得到第一对齐信号，第一采集信号包括第二回声信号和调节后的第一参考信号；对第一对齐信号进行自适应滤波处理，得到滤波后的第一对齐信号；基于滤波后的第一对齐信号和第一采集信号，消除第二回声信号。

上面从模块化功能实体的角度对本申请实施例中的回声控制设备进行描述，下面从硬件处理的角度对本申请实施例中的回声控制设备进行描述。图10是本申请实施例提供的回声控制设备的结构示意图。该回声控制设备可因配置或性能不同而产生比较大的差异，包括但不限于前述图1至图6中提及的通话设备、或者图9中的回声控制装置等。该回声控制设备可以至少一个处理器1001，通信线路1007，存储器1003以及至少一个通信接口1004。

处理器1001可以是一个通用中央处理器（central processing unit，CPU），微处理器，特定应用集成电路（application-specific integrated circuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路1007可包括一通路，在上述组件之间传送信息。

通信接口1004，使用任何收发器一类的装置，用于与其他装置或通信网络通信，如以太网，无线接入网（radio access network，RAN），无线局域网(wireless local areanetworks，WLAN)等。

存储器1003可以是只读存储器（read-only memory，ROM) 或可存储静态信息和指令的其他类型的静态存储装置，随机存取存储器（random access memory，RAM) 或者可存储信息和指令的其他类型的动态存储装置，存储器可以是独立存在，通过通信线路1007与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器1003用于存储执行本申请方案的计算机执行指令，并由处理器1001来控制执行。处理器1001用于执行存储器1003中存储的计算机执行指令，从而实现本申请上述实施例提供的回声控制的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，该回声控制设备可以包括多个处理器，例如图10中的处理器1001和处理器1002。这些处理器中的每一个可以是一个单核（single-CPU）处理器，也可以是一个多核（multi-CPU）处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据（例如计算机程序指令）的处理核。

在具体实现中，作为一种实施例，该回声控制设备还可以包括输出设备1005和输入设备1006。输出设备1005和处理器1001通信，可以以多种方式来显示信息。输入设备1006和处理器1001通信，可以以多种方式接收目标对象的输入。例如，输入设备1006可以是鼠标、触摸屏装置或传感装置等。

上述的该回声控制设备可以是一个通用装置或者是一个专用装置。在具体实现中，该回声控制设备可以是服务器、终端等或有图10中类似结构的装置。本申请实施例不限定该回声控制设备的类型。

需说明，图10中的处理器1001可以通过调用存储器1003中存储的计算机执行指令，使得回声控制设备执行如图5或图6对应的方法实施例中的方法。

具体的，图9中的处理单元902的功能/实现过程可以通过图10中的处理器1001调用存储器1003中存储的计算机执行指令来实现。图9中的获取单元901的功能/实现过程可以通过图10中的通信接口1004来实现。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种回声控制的方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种回声控制的方法的部分或全部步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质（例如SSD)等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种回声控制的方法，其特征在于，包括：

获取第一参考信号对应的第一回声信号，所述第一回声信号是对所述第一参考信号进行播放后产生的回声信号，所述第一参考信号是对待播放语音进行播放处理时所得到的数字信号；

计算所述第一回声信号的第一回声能量值，所述第一回声能量值用于指示由所述第一回声信号产生的回声能量引起对所述第一参考信号的预测干扰程度；

在所述第一回声能量值大于预设门限时，计算所述第一参考信号的目标增益值；

基于所述第一参考信号的目标增益值对所述第一参考信号进行调节，并对调节后的第一参考信号所对应的第二回声信号进行回声消除处理，所述第二回声信号所产生的回声能量小于所述第一回声信号所产生的回声能量。

2.根据权利要求1所述的方法，其特征在于，在所述第一回声能量值大于预设门限时，计算所述第一参考信号的目标增益值，包括：

在所述第一回声能量值大于所述预设门限时，确定多个子带信号中每个子带信号的目标增益值，所述第一参考信号包括所述多个子带信号；

将多个所述子带信号的目标增益值进行求和，得到所述第一参考信号的增益值。

3.根据权利要求2所述的方法，其特征在于，所述多个子带信号包括多组不同的信号参数，所述确定多个子带信号中每个子带信号的目标增益值，包括：

基于所述第一回声能量值和第二回声能量值，计算在每组所述信号参数下的第一信息，其中，所述第二回声能量值用于指示在每组所述信号参数下对所述第一参考信号进行子带能量调节后所产生的回声能量引起对所述第一参考信号的实际干扰程度，所述第一信息用于指示所述第二回声能量值与所述第一回声能量值之间的占比情况；

基于第一听觉感知能量值和第二听觉感知能量值计算在每组所述信号参数下的第二信息，其中，所述第一听觉感知能量值用于指示由所述第一参考信号所引起的听觉感知程度，所述第二听觉感知能量值用于指示在每组所述信号参数下对所述第一参考信号进行子带能量调节后，由调节后的第一参考信号所引起的听觉感知程度，所述第二信息用于指示所述第二听觉感知能量值与所述第一听觉感知能量值之间的占比情况；

基于在每组所述信号参数下的所述第一信息和所述第二信息、以及第一权值和第二权值，计算在每组所述信号参数下的增益损失值，所述第一权值用于指示所述第一回声信号的回声能量衰减权重，所述第二权值用于指示所述第一参考信号的听觉感知衰减权重；

从多组所述信号参数下的增益损失值中选取目标损失值，以将所述目标损失值对应的目标信号参数组所对应的每个子带信号的增益值确定为多个子带信号中每个子带信号的目标增益值。

4.根据权利要求3所述的方法，其特征在于，在基于所述第一回声能量值和第二回声能量值，计算在每组所述信号参数下的第一信息之前，所述方法还包括：

对每帧所述第一回声信号中多个采样样点的信号值进行平方和求解，得到所述第一回声能量值；

在每组所述信号参数下对所述第一参考信号进行子带能量调节，确定每组所述信号参数下调节后的第一参考信号对应的第二回声信号；

将每帧所第二回声信号中的多个采样样点的信号值进行平方和求解，得到所述第二回声能量值；

基于所述第一回声能量值和第二回声能量值，计算在每组所述信号参数下的第一信息，包括：

计算所述第二回声能量值与所述第一回声能量值之间的比值，得到每组所述信号参数下的第一信息。

5.根据权利要求3所述的方法，其特征在于，在基于第一听觉感知能量值和第二听觉感知能量值计算在每组所述信号参数下的第二信息之前，所述方法还包括：

计算每帧所述第一参考信号中的每个频点的第一听觉系数和第一频点能量，所述第一听觉系数用于指示所述第一参考信号在对应频点上的听觉感知权重；

基于每个所述频点的所述第一听觉系数对对应频点的所述第一频点能量进行加权求和处理，得到第一听觉感知能量值；

在每组所述信号参数下对所述第一参考信号进行子带能量调节，确定每组所述信号参数下调节后的第一参考信号；

计算每帧所述调节后的第一参考信号中每个频点的第二听觉系数和第二频点能量，所述第二听觉系数用于指示所述调节后的第一参考信号在对应频点上的听觉感知权重；

基于每个所述频点的所述第二听觉系数对对应频点的所述第二频点能量进行加权求和处理，得到所述第二听觉感知能量值；

基于第一听觉感知能量值和第二听觉感知能量值计算在每组所述信号参数下的第二信息，包括：

计算所述第二听觉感知能量值与所述第一听觉感知能量值之间的比值，得到每组所述信号参数下的第二信息。

6.根据权利要求5所述的方法，其特征在于，所述计算每帧所述第一参考信号中的每个频点的第一听觉系数，包括：

基于所述第一参考信号中每个所述频点的频点值和至少两个相邻频率，确定对应所述频点的至少一个等响曲线信息；

基于每个所述频点的所述至少一个等响曲线信息，计算对应所述频点的响度值；

基于每个所述频点的响度值计算对应所述频点的第一听觉系数。

7.根据权利要求5至6中任一项所述的方法，其特征在于，所述计算每帧所述第一参考信号中的每个频点的第一频点能量，包括：

对每帧所述第一参考信号进行加窗处理，得到每帧加窗后的第一参考信号；

对每帧所述加窗后的第一参考信号进行傅里叶变换处理，得到对应帧中的每个频点的功率信息；

将每帧所述加窗后的第一参考信号中的每个所述频点的功率信息，作为对应帧所述第一参考信号中的对应频点的第一频点能量。

8.根据权利要求3至6中任一项所述的方法，其特征在于，所述基于在每组所述信号参数下的所述第一信息和所述第二信息、以及第一权值和第二权值，计算在每组所述信号参数下的增益损失值，包括：

基于所述第一权值对每组所述信号参数下的第一信息进行加权处理，得到每组所述信号参数下加权后的第一信息；

基于所述第二权值对每组所述信号参数下的第一信息进行加权处理，得到每组所述信号参数下加权后的第二信息；

计算每组所述信号参数下加权后的第二信息与对应信号参数组下的所述加权后的第一信息之间的信息差异，得到每组所述信号参数下的增益损失值。

9.根据权利要求1至6中任一项所述的方法，其特征在于，所述获取第一参考信号对应的第一回声信号，包括：

对所述第一参考信号进行傅里叶变换处理，得到频域信号；

基于自适应滤波系数对所述频域信号进行复数乘积处理，得到滤波信号；

对所述滤波信号进行反傅里叶变换处理，得到所述第一参考信号对应的第一回声信号。

10.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

在所述第一回声能量值小于或等于所述预设门限时，对所述第一回声信号进行所述回声消除处理。

11.根据权利要求1至6中任一项所述的方法，其特征在于，所述对调节后的第一参考信号所对应的第二回声信号进行回声消除处理，包括：

对所述调节后的第一参考信号和第一采集信号进行信号对齐处理，得到第一对齐信号，所述第一采集信号包括所述第二回声信号和所述调节后的第一参考信号；

对所述第一对齐信号进行自适应滤波处理，得到滤波后的第一对齐信号；

基于所述滤波后的第一对齐信号和所述第一采集信号，消除所述第二回声信号。

12.一种回声控制装置，其特征在于，包括：

获取单元，用于获取第一参考信号对应的第一回声信号，所述第一回声信号是对所述第一参考信号进行播放后产生的回声信号，所述第一参考信号是对待播放语音进行播放处理时所得到的数字信号；

处理单元，用于计算所述第一回声信号的第一回声能量值，所述第一回声能量值用于指示由所述第一回声信号产生的回声能量引起对所述第一参考信号的预测干扰程度；

所述处理单元，用于在所述第一回声能量值大于预设门限时，计算所述第一参考信号的目标增益值；

所述处理单元，用于基于所述第一参考信号的目标增益值对所述第一参考信号进行调节，并对调节后的第一参考信号所对应的第二回声信号进行回声消除处理，所述第二回声信号所产生的回声能量小于所述第一回声信号所产生的回声能量。

13.根据权利要求12所述的装置，其特征在于，所述处理单元用于：

在第一回声能量值大于预设门限时，确定多个子带信号中每个子带信号的目标增益值，第一参考信号包括多个子带信号；

将多个子带信号的目标增益值进行求和，得到第一参考信号的增益值。

14.根据权利要求13所述的装置，其特征在于，多个子带信号包括多组不同的信号参数；所述处理单元用于：

基于第一回声能量值和第二回声能量值，计算在每组信号参数下的第一信息，其中，第二回声能量值用于指示在每组信号参数下对第一参考信号进行子带能量调节后所产生的回声能量引起对第一参考信号的实际干扰程度，第一信息用于指示第二回声能量值与第一回声能量值之间的占比情况；

基于第一听觉感知能量值和第二听觉感知能量值计算在每组信号参数下的第二信息，其中，第一听觉感知能量值用于指示由第一参考信号所引起的听觉感知程度，第二听觉感知能量值用于指示在每组信号参数下对第一参考信号进行子带能量调节后，由调节后的第一参考信号所引起的听觉感知程度，第二信息用于指示第二听觉感知能量值与第一听觉感知能量值之间的占比情况；

基于在每组信号参数下的第一信息和第二信息、以及第一权值和第二权值，计算在每组信号参数下的增益损失值，第一权值用于指示第一回声信号的回声能量衰减权重，第二权值用于指示第一参考信号的听觉感知衰减权重；

从多组信号参数下的增益损失值中选取目标损失值，以将目标损失值对应的目标信号参数组所对应的每个子带信号的增益值确定为多个子带信号中每个子带信号的目标增益值。

15.根据权利要求14所述的装置，其特征在于，所述处理单元还用于：在基于第一回声能量值和第二回声能量值，计算在每组信号参数下的第一信息之前，对每帧第一回声信号中多个采样样点的信号值进行平方和求解，得到第一回声能量值；

在每组信号参数下对第一参考信号进行子带能量调节，确定每组信号参数下调节后的第一参考信号对应的第二回声信号；

将每帧所第二回声信号中的多个采样样点的信号值进行平方和求解，得到第二回声能量值；

所述处理单元，用于计算第二回声能量值与第一回声能量值之间的比值，得到每组信号参数下的第一信息。

16.根据权利要求14所述的装置，其特征在于，所述处理单元还用于：在基于第一听觉感知能量值和第二听觉感知能量值计算在每组信号参数下的第二信息之前，计算每帧第一参考信号中的每个频点的第一听觉系数和第一频点能量，第一听觉系数用于指示第一参考信号在对应频点上的听觉感知权重；

基于每个频点的第一听觉系数对对应频点的第一频点能量进行加权求和处理，得到第一听觉感知能量值；

在每组信号参数下对第一参考信号进行子带能量调节，确定每组信号参数下调节后的第一参考信号；

计算每帧调节后的第一参考信号中每个频点的第二听觉系数和第二频点能量，第二听觉系数用于指示调节后的第一参考信号在对应频点上的听觉感知权重；

基于每个频点的第二听觉系数对对应频点的第二频点能量进行加权求和处理，得到第二听觉感知能量值；

所述处理单元，用于计算第二听觉感知能量值与第一听觉感知能量值之间的比值，得到每组信号参数下的第二信息。

17.根据权利要求16所述的装置，其特征在于，所述处理单元用于：

基于第一参考信号中每个频点的频点值和至少两个相邻频率，确定对应频点的至少一个等响曲线信息；

基于每个频点的至少一个等响曲线信息，计算对应频点的响度值；

基于每个频点的响度值计算对应频点的第一听觉系数。

18.根据权利要求16至17任一所述的装置，其特征在于，所述处理单元用于：

对每帧第一参考信号进行加窗处理，得到每帧加窗后的第一参考信号；

对每帧加窗后的第一参考信号进行傅里叶变换处理，得到对应帧中的每个频点的功率信息；

将每帧加窗后的第一参考信号中的每个频点的功率信息，作为对应帧第一参考信号中的对应频点的第一频点能量。

19.根据权利要求13至17任一所述的装置，其特征在于，所述处理单元用于：

基于第一权值对每组信号参数下的第一信息进行加权处理，得到每组信号参数下加权后的第一信息；

基于第二权值对每组信号参数下的第一信息进行加权处理，得到每组信号参数下加权后的第二信息；

计算每组信号参数下加权后的第二信息与对应信号参数组下的加权后的第一信息之间的信息差异，得到每组信号参数下的增益损失值。

20.根据权利要求12至17任一所述的装置，其特征在于，所述处理单元用于：

对第一参考信号进行傅里叶变换处理，得到频域信号；

基于自适应滤波系数对频域信号进行复数乘积处理，得到滤波信号；

对滤波信号进行反傅里叶变换处理，得到第一参考信号对应的第一回声信号。

21.根据权利要求12至17任一所述的装置，其特征在于，所述处理单元用于：

所述处理单元还用于：在第一回声能量值小于或等于预设门限时，对第一回声信号进行回声消除处理。

22.根据权利要求12至17任一所述的装置，其特征在于，所述处理单元用于：

对调节后的第一参考信号和第一采集信号进行信号对齐处理，得到第一对齐信号，第一采集信号包括第二回声信号和调节后的第一参考信号；

对第一对齐信号进行自适应滤波处理，得到滤波后的第一对齐信号；

基于滤波后的第一对齐信号和第一采集信号，消除第二回声信号。

23.一种回声控制设备，其特征在于，包括：输入/输出接口、处理器和存储器，所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1至11中任一所述的方法。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至11中任一项所述的方法。