CN111052767B

CN111052767B - 音频处理装置、音频处理方法以及信息处理装置

Info

Publication number: CN111052767B
Application number: CN201880053951.1A
Authority: CN
Inventors: 立石和也
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-08-28
Filing date: 2018-07-06
Publication date: 2022-04-15
Anticipated expiration: 2038-07-06
Also published as: WO2019044176A1; CN111052767A; JPWO2019044176A1; US20210195324A1; US11245983B2

Abstract

提供一种用于执行对应于双方讲话的回波消除的音频处理装置、音频处理方法、信息处理装置以及计算机程序。音频处理装置设置有估计单元，用于估计表示直到从扬声器输出的基准信号环绕麦克风为止的传输特性的滤波器；调整单元，用于基于由估计单元估计的滤波器更新系数来调整步长；以及更新单元，用于根据更新系数和步长来更新滤波器。调整单元基于滤波器更新系数的功率与滤波器的最大功率之比来调整步长。

Description

音频处理装置、音频处理方法以及信息处理装置

技术领域

本说明书中公开的技术涉及一种执行对应于双方讲话的回波消除的音频处理装置、音频处理方法以及信息处理装置。

背景技术

如果从配备有扬声器和麦克风的装置再现音频或音乐，则音频或音乐潜入(sneak)到装置的麦克风中，并且不能正确地执行音频通话或音频识别。存在回波消除器，它是解决该问题的技术。回波消除器是这样一种技术，该技术估计生成直到从装置自身发出的音频传输穿过空间并到达麦克风的点处的信号反射路径的合成波的传输特性，将所估计的传输特性卷积为通过装置自身再现的信号，并且在将音频输入到麦克风之后减去所估计的传输特性。

即使人类移动，空间中的传输路径也会根据用户环境和变化而改变。由于音频通话和音频识别需要实时性，因此必须自适应地估计随时刻变化的传输特性。作为估计算法，具有较少计算量的最小均方(LMS)适合于实时应用。在这种估计算法中，自适应地学习传输特性滤波器，以便使回波处理之后的误差最小化。然而，如果在一定时间除了从装置自身发出的音频之外还同时包括用户话语等的双方讲话，则执行学习以便使误差最小化，并且因此，存在估计不正确的传输特性滤波器、导致传输特性的不匹配，并且发生其中回波保持未消除的(喷出)现象的问题。

为了抑制由双方讲话引起的回波消除性能的下降，已经提出了一种使用双方讲话确定装置的回波消除器(例如，参考专利文献1)。双方讲话确定装置具有在保持未消除的回波量增加时，识别用户话语并且快速降低传输特性滤波器的学习速度(步长)的功能。通过利用双方讲话确定装置来降低学习速度，可以减少双方讲话期间的错误学习。

引用列表

专利文献

专利文献1：日本专利申请特开公开第2008-98929号

专利文献2：日本专利申请特开公开第2008-141734号

发明内容

本发明要解决的问题

本说明书中公开的技术的目的是提供一种执行对应于双方讲话的回波消除的音频处理装置、音频处理方法以及信息处理装置。

问题的解决方案

本说明书中公开的技术的第一方面是一种音频处理装置，包括估计单元，其估计表示从输出基准信号的扬声器到基准信号潜入的麦克风的传输特性的滤波器；调整单元，其基于由估计单元估计的滤波器更新系数来调整步长；以及更新单元，其根据滤波器更新系数和步长来更新滤波器。

调整单元基于滤波器更新系数的功率与滤波器的最大功率之比来调整步长。即，当滤波器更新系数的功率与滤波器的最大功率之比增加时，调整单元使步长接近于0，并且当滤波器更新系数的功率与滤波器的最大功率之比减少时，调整单元使步长接近于1。

此外，本说明书中公开的技术的第二方面是一种音频处理方法，包括估计步骤，其估计表示从输出基准信号的扬声器到基准信号潜入的麦克风的传输特性的滤波器；调整步骤，其基于由估计步骤估计的滤波器更新系数来调整步长；以及更新步骤，其根据滤波器更新系数和步长来更新滤波器。

此外，本说明书中公开的技术的第三方面是一种音频处理装置，包括估计单元，其估计表示从输出基准信号的扬声器到基准信号潜入的麦克风的传输特性的滤波器；以及确定单元，其基于由估计单元估计的滤波器更新系数的功率与滤波器的最大功率之比来确定双方讲话。

此外，本说明书中公开的技术的第四方面是一种信息处理装置，包括扬声器，其输出音频信号；麦克风，其接收音频信号；估计单元，其估计表示从输出基准信号的扬声器到基准信号潜入的麦克风的传输特性的滤波器；调整单元，其基于由估计单元估计的滤波器更新系数来调整步长；更新单元，其根据滤波器更新系数和步长来更新滤波器；以及处理单元，其通过应用滤波器来执行回波消除或另一音频信号处理。

发明的效果

根据本说明书中公开的技术，可以提供一种执行对应于双方讲话的回波消除的音频处理装置、音频处理方法以及信息处理装置。

注意，本说明书中描述的效果仅是示例，并且本发明的效果不限于此。此外，还存在本发明除了上述效果之外还具有其他额外效果的情况。

从基于稍后描述的实施方式和附图的更详细的描述中，本说明书中公开的技术的其他目的、特征以及优点将变得显而易见。

附图说明

[图1]图1是示出回波消除器100的功能配置示例的示图。

[图2]图2是示出其中回波消除器100生成双方讲话问题的状态的示图。

[图3]图3是示出其中由双方讲话生成回波的状态的示图。

[图4]图4是示出其中由系统波动生成回波的状态的示图。

[图5]图5是示出针对每个抽头的传输特性W(n)的平方范数的变化的示例的示图。

[图6]图6是示出发生双方讲话时针对每个抽头的传输特性的滤波器更新系数ΔW(n)的平方范数的变化的示例的示图。

[图7]图7是示出发生双方讲话时针对每个抽头的传输特性的滤波器更新系数ΔW(n)的平方范数的变化的示例的示图。

[图8]图8是示出发生双方讲话时针对每个抽头的传输特性的滤波器更新系数ΔW(n)的平方范数的变化的示例的示图。

[图9]图9是示出系统波动时针对每个抽头的传输特性的滤波器更新系数ΔW(n)的平方范数的变化的示例的示图。

[图10]图10是示出系统波动时针对每个抽头的传输特性的滤波器更新系数ΔW(n)的平方范数的变化的示例的示图。

[图11]图11是示出系统波动时针对每个抽头的传输特性的滤波器更新系数ΔW(n)的平方范数的变化的示例的示图。

[图12]图12是示出发生双方讲话时针对每个抽头的传输特性的滤波器更新系数ΔW(n)的平方范数的变化的示例的示图。

[图13]图13是示出自适应滤波器103的具体配置的示图。

具体实施方式

在下文中，将参考附图详细描述本说明书中公开的技术的实施方式。

至于回波消除器，除了双方讲话之外，还应注意所谓的系统波动的问题。例如，系统波动是其中传输诸如用户靠近装置的声音、窗帘关闭的声音或装置自身移动的声音的声音的空间的环境的变化。如果空间的环境从自适应计算的传输特性突然改变，则导致传输特性的不匹配并且回波保持未消除。

为了抑制由系统波动引起的回波消除性能的下降，期望使所估计的传输特性尽可能快地接近改变后的空间的传输特性。为此，与双方讲话的情况相反，当发生系统波动时，有必要增加传输特性滤波器的学习速度(或保持诸如步长的设置值)。

然而，如果引入双方讲话确定装置，则当保持未消除的回波量较大时，减慢收敛速度的功能起作用，并且因此，随后环境不会在系统波动时快速地发展。可以说双方讲话对策与系统波动对策之间存在折衷关系，并且难以同时解决这些问题。

因此，在本说明书中，代替基于保持未消除的回波确定双方讲话的(上述)双方讲话确定装置，下面提出了基于另一标度确定双方讲话的确定装置和应用基于其他标度的确定装置的回波消除器。

本说明书中提出的回波消除器具有回波消除器在系统波动时作出反应并且增加传输特性滤波器的学习速度，而在双方讲话时减慢传输特性滤波器的学习速度并且在系统波动时不反应的效果。因此，根据本说明书中提出的回波消除器，可以消除双方讲话对策与系统波动对策之间的折衷关系。

针对本说明书中提出的回波消除器，通过聚焦于滤波器期望更新的传输特性的变化量，创建基于双方讲话时的行为与系统波动时的行为之间的差异仅对双方讲话或系统波动作出反应的确定装置。然后，通过使用这种确定装置，可以通过在双方讲话时减慢滤波器更新并且以系统波动时设置的快速滤波器更新速度来推进学习。

回波消除技术已经广泛地应用于可视电话等。在通信伙伴是人类的情况下，即使潜入由装置自身再现的音频，通信也是可能的。另一方面，近年来，配备有扬声器和麦克风的音频对话代理已经开始普及。例如，已经变得有必要将输入到麦克风的用户话语输入到连接到网络的音频识别引擎中，并且以低延迟将用户话语转换为文本。已经存在日益显而易见的问题，即空间的传输特性仅通过用户靠近装置而改变，并且如果装置自身在用户靠近装置时发出音频，则回波保持未消除，并且将音频错误地识别为用户话语并且输入到音频识别引擎中，从而导致错误操作。本说明书中提出的回波消除器可以通过适当地对应于双方讲话中的每一个并且在系统波动时以低延迟来更新传输特性滤波器，并且可以适当地应用于音频对话代理。

图1是示意性示出回波消除器100的功能配置示例的示图。在图中，当输入基准信号X(n)时，扬声器101再现基准信号，即，输出音频。同时，音频信号d(n)被输入到麦克风102。注意，n是抽头的数量，即，表示自适应滤波器103的抽头位置的自变量(注意，在下面的描述中，抽头的数量的固定长度被设置为L，并且由1(小写字母l)表示固定长度L的索引)。因此，l的范围是1≤l≤N。此外，由于L的选择是从最新索引n到过去的L中进行的，因此索引是高达(n-L+1)的值。在下文中，n还用于指采样时间的索引。

这里，麦克风102的输入信号d(n)包括来自扬声器101的潜入信号H^H(n)，即，回波信号。这里，H是实际传输特性并且是包括抽头的数量(具体地，H＝[h(1)，h(2)，…，h(L)]^T)的传输特性h(l)作为分量的实际传输特性向量。除了从扬声器101直接到达的直达波x(n)之外，潜入信号H^H(n)还包括来自环境的反射信号。反射信号是其中来自附近物体的反射信号与来自远距离物体的反射信号被混合的向量。通常，来自附近物体的反射信号的功率大，而来自远距离物体的反射信号的功率小。

自适应滤波器103自适应地改变自身滤波器特性，以便使自身输出信号变得接近目标信号。具体地，自适应滤波器103输出通过将输入到扬声器101的基准信号X(n)乘以所估计的传输特性W(n)而获得的伪回波信号。这里，X(n)是包括抽头的数量的基准信号x(l)作为分量的基准信号向量(参考下面的公式(6))，并且W(n)是包括抽头的数量的传输特性(l)作为分量的估计传输特性向量(参考下面的公式(7))。减法装置104计算到麦克风102的作为目标信号的输入信号d(n)与从自适应滤波器103输出的伪回波信号W(n)^HX(n)之间的差，即，计算误差信号e(n)(参考下面的公式(1))，并且然后将误差信号反馈到自适应滤波器103。

[数学公式1]

e(n)＝d(n)-W(n)^HX(n)…(1)

然后，自适应滤波器103调整自身滤波器特性，即，所估计的传输特性W(n)，使得误差信号e(n)的功率最小化。

当误差信号e(n)的功率最小化时，自适应滤波器103的滤波器系数W(n)表示实际传输特性H。如果目标信号d(n)与自适应滤波器103的输出信号W(n)^HX(n)之间的差异e(n)是0，则自适应滤波器的传输特性W(n)应等于实际传输特性H。

在自适应滤波器103中，根据预定估计算法来估计表示传输特性的滤波器。例如，在下面的公式(2)中示出了针对采用归一化LMS方法的归一化最小均方(归一化LMS(NLMS))的传输特性的估计公式(或滤波器的学习公式)。

[数学公式2]

W(n+1)＝W(n)+μe(n)^*X(n)…(2)

这里，在以上公式(2)中的μ是用于调整收敛速度或更新速度的常数，即，步长。如果步长μ大，则收敛速度快，并且容易跟随环境变化(系统波动等)。然而，如果步长μ过大，则容易发生发散。在本领域中已知优选将μ设置为0与2之间的值。

注意，除了上述LMS和NLMS之外，回波消除器可以采用诸如仿射投影算法(APA)或递归最小二乘(RLS)的方法。此外，可以通过使用机器学习来估计(学习)传输特性W(n)。在下面的表1中总结了每种方法的特征。

[表1]

尽管性能按照RLS、APA、NLMS以及LMS的顺序越来越高，但是性能越高，计算量越大。因此，也可以说NLMS、LMS等适合用于实时应用。

假设除了回波信号d(n)之外，麦克风102还采集来自近端讲话者的话语s(n)或诸如电视或另一AV装置的输出音频的不期望的噪音v(n)(参考图2)。如果自适应滤波器103在麦克风102的输入信号d(n)包括来自近端讲话者的话语s(n)的状态下进行针对传输特性的估计处理，则不能很好地学习真实传输特性并且发生(上述)双方讲话问题。例如，执行传输特性滤波器的学习以使回波处理后的误差最小化的诸如NLMS或LMS的估计算法执行学习，以便使误差最小化。因此，估计不正确的传输特性滤波器，并且发生其中回波保持未消除的现象。注意，在本说明书中，未提供关于不期望的噪音v(n)的抑制或移除的描述。

为此，当发生双方讲话时，优选通过检测双方讲话并且降低自适应滤波器103的学习速度来减少双方讲话期间的错误学习。例如，如下面的公式(3)所示，将以上公式(2)所示的针对传输特性的估计公式转换为用于在发生双方讲话时降低收敛速度的公式。

[数学公式3]

W(n+1)＝W(n)+μ_cμ_dte(n)^*X(n)…(3)

在以上公式(3)中，以上公式(2)中的步长μ被替换为μ_c·μ_dt。这里，μ_c是固定值，并且μ_dt是根据双方讲话的发生而变化的变量。因此，当发生双方讲话时，通过使系数μ_dt接近于0可以抑制诸如传输特性的不匹配或回波消除性能的下降的双方讲话的负面效应，以减小估计公式(3)中的步长μ，以降低收敛速度。

例如，已知当麦克风102的输入信号d(n)与自适应滤波器103的输出信号W(n)^HX(n)之间的差(即，误差信号e(n))大时，确定发生双方讲话的维纳型双方讲话确定装置(例如，参考专利文献2)。

可以通过用于计算系数μ_dt的下面的公式(4)来表达维纳型双方讲话确定装置。

[数学公式4]

在以上公式(4)的分母中，e(n)^*e(n)是误差信号e(n)的平方。当误差信号e(n)增加时，系数μ_dt的值变小。即，μ_dt是随着误差信号e(n)的增加而接近0的函数。因此，通过减小步长μ，可以降低自适应滤波器103的学习速度，并且可以减少双方讲话期间的错误学习。注意，在以上公式(4)的分母中，c_dt是用于调整双方讲话确定装置的反应速度的参数(灵敏度权重)。

如果发生(上述)双方讲话或不期望的噪音，则误差信号e(n)随着麦克风102的输入信号d(n)的增加而快速增加。因此，自适应滤波器103可以通过根据以上公式(3)和(4)调整步长μ(＝μ_c·μ_dt)来减少双方讲话期间的错误学习。

然而，存在除了双方讲话和不期望的噪音之外使误差信号e(n)增加的因素。具体地，在周围传输特性改变的情形中，即，由于系统波动，误差信号e(n)也会增加。例如，如果真实传输特性从H改变为H′，则通过自适应滤波器103估计的传输特性W(n)极大地偏离真实传输特性H′，由此使误差信号e(n)增加。

在双方讲话或不期望的噪音的情况下，误差信号e(n)随着以上公式(1)的右侧的第一项中的麦克风102的输入信号d(n)的增加而增加。另一方面，当发生系统波动时，误差信号e(n)随着以上公式(1)的右侧的第二项中的估计的传输特性W(n)极大地偏离真实传输特性而增加。在双方讲话、不期望的噪音以及系统波动的任何情况下，误差信号e(n)增加。如以上公式(4)中，通过使用基于误差信号e(n)来调整步长μ的方法难以从系统波动中区分双方讲话或不期望的噪音。

在双方讲话或不期望的噪音的情况下，应减少学习速度以抑制错误学习。另一方面，在系统波动的情况下，应增加学习速度以快速跟随变化的环境。如果自适应滤波器103根据以上公式(3)和(4)来调整学习速度，则针对双方讲话、不期望的噪音以及系统波动中的任何一个而降低学习速度。这是因为以上公式(4)的分母中的e(n)^*e(n)针对双方讲话、不期望的噪音以及系统波动中的任何一个而增加。

图3示出了其中通过双方讲话生成回波的状态的示例。此外，图4示出了其中通过系统波动生成回波的状态的示例。这里，在每个图中，横轴表示时间轴，并且纵轴表示功率。在图3所示的示例中，由于学习了用户话语s(n)，因此在紧随其后的系统话语中生成回波。同时，在图4所示的示例中，由于学习速度不足以跟随诸如人类的移动的系统波动，因此在紧随其后的系统话语中生成回波。

当误差信号e(n)增加时，由以上公式(4)表达的双方讲话确定装置对任何因素作出反应，无论因素是双方讲话还是系统波动。尽管构思了用于增加反应灵敏度调整参数c_dt以减少双方讲话确定装置的错误操作的方法，但是存在在系统波动时并不进行学习的折衷问题。

在发生双方讲话时，由于通过自适应滤波器103估计的传输特性W(n)的变化而生成回波。因此，在发生双方讲话时，期望停止自适应滤波器103的学习(或降低学习速度)。另一方面，在系统波动时，由于实际传输特性H的变化而生成回波。因此，期望在系统波动时增加自适应滤波器103的学习速度。

在发生双方讲话时，期望使μ_dt接近于0。在发生双方讲话时，通过增加反应灵敏度调整参数c_dt，可以利用以上公式(4)使μ_dt接近于0，降低自适应滤波器103的学习速度并且抑制回波。

然而，如果增加反应灵敏度调整参数c_dt，则降低系统波动时的学习速度。当发生系统波动时(例如，当人类在音频合成(文本转语言(TTS))期间移动时)，期望保持μ_dt固定为1，使得学习速度不降低。

在确定装置对误差信号的功率大小作出反应的情况下，由于双方讲话和系统波动两者都示出了其中误差信号增加的行为，因此仅可以解决双方讲话和系统波动中的一种。

在双方讲话和系统波动两者中，保持未消除的回波增加。为此，由以上公式(4)表达的双方讲话确定装置对双方讲话和系统波动两者作出反应并且不能将步长μ调整为适合于每种情形。如果存在仅在双方讲话时出现的现象或仅在系统波动时出现的现象，则期望创建一种检测该现象的双方讲话确定装置。

因此，聚焦于自适应滤波器103在发生双方讲话时的错误学习机制。

如下面的公式(5)所示，为了创建针对下一次的滤波器W(n+1)，将滤波器更新系数ΔW(n)添加到当前时间n的滤波器W(n)。即，通过将微小的变化量ΔW(n)添加到已经初始估计的估计滤波器W(n)来一点一点地更新估计滤波器W(n)。这里，滤波器更新系数ΔW(n)根据应用于执行表示传输特性的滤波器的学习的估计算法而不同。

[数学公式5]

W(n+1)＝W(n)+μΔW(n)…(5)

如下面的公式(6)所示，在时间n，将从扬声器101再现并且到达麦克风102的基准信号X(n)表达为包括其数量对应于自适应滤波器103的抽头长度L的分量的向量。这里，x(n)是从扬声器101直接到达麦克风102的直达波的分量。其他分量x(n-1)、x(n-2)、...、x(n-L+1)是从墙壁等反射的反射信号的分量。具有更长延迟时间的反射信号是来自更远的墙壁的反射信号。

[数学公式6]

X(n)＝[x(n),x(n-1),···,x(n-L+1)]^H…(6)

此外，如下面的公式(7)所示，表示传输特性的估计滤波器W包括乘以基准信号的每个分量x(n)、x(n-1)、x(n-2)、...、x(n-L+1)的系数。这里，w(1)是乘以直达信号x(n)的系数，并且其他系数w(2)、w(3)、...、w(L)是分别乘以反射信号x(n-1)、x(n-2)、...、x(n-L+1)的系数。

[数学公式7]

W＝[w(1),w(2),···,w(L)]^H…(7)

然后，在时间n，将估计传输特性后的信号y(n)(即，从自适应滤波器103输出的伪回波信号)表达为下面的公式(8)。

[数学公式8]

由以上公式(7)表达的估计滤波器W自身表示真实空间中的传输特性。在W的值中，接近w(L)的后半部分的值对应于乘以来自更远的墙壁的反射信号的分量。来自更远的墙壁的反射信号变为以比直达波的功率小得多的功率达到麦克风102的基准信号分量(基本上，音频信号的功率按照距离的平方衰减)。因此，接近w(L)的后半部分的系数具有较小的值。

双方讲话是从与麦克风102分离的除了扬声器101之外的声源发射的音频信号，并且换句话说，应该仅具有来自墙壁的小的反射分量的抽头作为具有强功率的音频信号被输入到麦克风102。为此，自适应滤波器103尝试相对于具有较大声音(实际上是来自远处墙壁的反射)输入的抽头较大地改变系数(即，校正系数，使得滤波器的形式变大)。

因此，在双方讲话时，捕捉到与原本应衰减的直达波后的反射波的传输特性功率有很大偏差的现象，并且由用于调整步长μ公式表达，以延迟此时的收敛速度。同时，在系统波动时，由于初始再现的扬声器101的功率没有改变，因此尽管由于滤波器的估计的反射路径的变化而存在相位变化，但是滤波器的功率的变化很小。

在发生双方讲话时，由自适应滤波器103估计的传输特性W(n)变化。另一方面，在系统波动时，所估计的传输特性W(n)变化不大，并且实际传输特性H变化。

因此，通过聚焦于双方讲话与系统波动之间的传输特性变化的差异，将滤波器更新系数ΔW(n)的平方范数的波动进行比较。根据下面的公式(9)计算滤波器更新系数ΔW(n)，并且分别根据下面的公式(10)和(11)计算传输特性W(n)的平方范数和滤波器更新系数ΔW(n)的平方范数。这里，1是抽头ID，并且k是频率窗口(对应于频率分辨率(窗口宽度)的离散值)(在下文中同样适用)。抽头ID指表示自适应滤波器103的抽头位置的自变量和采样时间的索引两者。

[数学公式9]

[数学公式10]

[数学公式11]

图5示出了针对每个抽头的传输特性W(n)的平方范数的变化的示例。这里，横轴表示抽头，并且纵轴表示滤波器W的平方范数。尽管图中所示的示例假设了其中不发生双方讲话或系统波动的情况，然而传输特性W(n)的平方范数在对应于固定延迟的抽头位置达到峰值，并且然后由于来自墙壁等的反射波的混响分量而缓慢地衰减。

图6至图8示出了发生双方讲话时针对每个抽头的传输特性的滤波器更新系数ΔW(n)的平方范数的变化的示例。这里，横轴表示抽头(这里，每个抽头为16毫秒)，并且纵轴表示滤波器更新系数ΔW的平方范数。用实线绘制滤波器更新系数ΔW的平方范数，并且作为参考，用虚线绘制滤波器W的平方范数。

从图6至图8中可以看出，在发生双方讲话时，滤波器更新系数ΔW的平方范数急剧地变化并且超过滤波器W的平方范数的最大值。例如，参考图8，在200毫秒的延迟下，比直达波的功率更大的功率被包括在滤波器更新系数ΔW中。这被认为是由于出现与空间特征(传输特性H)不相关的学习行为，因为在发生双方讲话时，如果误差信号e(n)增加，则执行传输特性滤波器W(n)的错误学习。

此外，图9至图11示出了发生系统波动时针对每个抽头的传输特性的滤波器更新系数ΔW(n)的平方范数的变化的示例。这里，横轴表示抽头(这里，每个抽头为16毫秒)，并且纵轴表示滤波器更新系数ΔW的平方范数。用实线绘制滤波器更新系数ΔW的平方范数，并且作为参考，用虚线绘制滤波器W的平方范数。

从图9至图11中可以看出，在系统波动时，滤波器更新系数ΔW的平方范数在低功率下缓慢变化。在系统波动时，尽管误差信号e(n)增加，但是执行传输特性滤波器W(n)的适当学习。此外，来自扬声器101的再现信号x(n)的功率是相同的。为此，可以认为滤波器更新系数ΔW的平方范数示出其中在维持传输特性滤波器W(n)的功率的同时仅波形稍微变化的行为。

从图6至图8、图9至图11等中，可以获得与滤波器形式相关的现有知识，即与原本在双方讲话时衰减，而在系统波动时滤波器的功率变化很小的直达波后的反射波的传输特性功率有很大地偏差。

参考图5还可以看出，在没有发生双方讲话的情形中，来自墙壁等的反射波的混响分量缓慢地衰减。因此，可以假设滤波器更新系数ΔW的平方范数不会变得与滤波器W的平方范数的最大值相当。另一方面，如图12中再次示出的，在发生图8所示的双方讲话的示例中，在固定延迟之后的抽头的数量之后，即经过固定延迟之后的时间之后，如由参考数字1201指示的，滤波器更新系数ΔW的平方范数变得与滤波器W的平方范数的最大值相当或超过滤波器W的平方范数的最大值。清楚的是，滤波器更新系数ΔW的平方范数不会由于混响分量而引起这种移动，并且认为由于出现与空间特征(传输特性H)不相关的学习行为而引起这种移动。

因此，在本说明书公开的技术中，如下面的公式(12)所示，在聚焦于形成针对每个抽头ID的滤波器(换句话说，根据时间的流逝)并且聚焦于在(上述)双方讲话与系统波动具有不同特征的同时，重新定义了根据双方讲话的发生而改变的变量μ_dt'。然后，针对滤波器的最终学习公式如下面的公式(13)所示。这里，l是抽头ID，并且k是频率窗口(frequencybin)(与以上相同)。

[数学公式12]

[数学公式13]

W(n+1)＝W(n)+μ_cμ_dt′ΔW(n)…(13)

注意，在以上公式(13)中，滤波器更新系数ΔW(n)如以上公式(9)所示。此外，在以上公式(12)中，w(l)的平方范数与Δw(l)的平方范数分别如以上公式(10)和(11)所示。注意，c_dt′是用于调整双方讲话确定装置的反应速度的参数(灵敏度权重)。

在针对滤波器的学习公式(13)中，用于调整收敛速度的步长μ被替换为μ_c·μ_dt′。这里，μ_c是固定值，并且μ_dt′是对双方讲话作出反应但对系统波动没有作出反应的变量。

以上公式(12)所示的μ_dt′使用滤波器W的平方范数的最大值与滤波器更新系数的平方范数的和作为分母，并且使用滤波器W的平方范数的最大值作为分子。因此，当滤波器更新系数的平方范数变大时，系数μ_dt′的值变小。即，μ_dt′是随着滤波器更新系数的平方范数增加而接近0的函数。

如图12(或图8)所示，假设滤波器更新系数ΔW的平方范数变得与滤波器W的平方范数的最大值相当或超过滤波器W的平方范数的最大值，则在发生双方讲话时，可以通过应用以μ_dt′表示步长的学习公式来降低自适应滤波器103的学习速度来减少双方讲话期间的错误学习。

此外，如图9至图11所示，在系统波动时，滤波器更新系数ΔW的平方范数缓慢地移动，并且保持μ_dt′固定为1。因此，通过应用以μ_dt′表示步长的学习公式，学习速度不会减慢。即，利用由以上公式(12)和(13)表达的学习公式，可以对应于系统波动。

将更详细地描述以上公式(12)和(13)。

针对滤波器更新系数ΔW，将对应于基准信号X的抽头长度的过去数据乘以回波分量d。在用作基准信号X的扬声器的再现音频源是文本转语言(TTS)等的情况下，当对音频进行傅里叶变换并且针对每个频率观看时，基准信号x在时间方向上变得稀疏(sparse)。为此，在包括对应于抽头长度的基准信号的基准信号向量X中，一些抽头周围存在强分量，然而，其余抽头部分中不存在信号，导致0。

根据以上公式(12)，确定双方讲话所必需的是滤波器更新系数ΔW的较大变化。然而，在TTS的情况下，一些抽头没有看到反应，并且因此，如果执行一些平均化，则双方讲话确定装置的精度降低。因此，为了纯粹地确定由于双方讲话而引起极大反应的抽头变化，针对每个抽头使用由以上公式(12)表达的双方讲话确定装置。然后，因此，针对每个抽头执行步长μ的微调。

此外，以上公式(12)通过用公式表达双方讲话确定装置而获得，并且包括滤波器W和滤波器更新系数ΔW的功率分量。这里，滤波器W和滤波器更新系数ΔW的功率分量的最大值根据输入信号x的大小、扬声器与麦克风之间的距离、麦克风的灵敏度、用户话语的音量等而变化，并且不能唯一确定。

在满足下面的(a)和(b)的情况下，可以说μ_dt′易于用作双方讲话确定装置。

(a)在针对滤波器的学习公式中，将μ_dt'乘以滤波器更新系数ΔW作为表示收敛速度(或更新速度)的步长μ。

(b)μ_dt'在0与1之间并且仅在发生双方讲话时接近0。

为此，有必要整合在特定状态下相对于某一基准值变化的值。以上公式(12)所示的针对μ_dt′的计算公式是参考估计的滤波器W的功率的所有抽头中的最大值将滤波器更新系数ΔW的功率反应为具体状态的公式。即，以上公式(12)使用所估计的滤波器W的功率的最大值基准作为分子，并且使用最大值基准与滤波器更新系数ΔW的功率乘以设置反应灵敏性的常数c_dt′的和作为分母。因此，当滤波器更新系数ΔW的功率变化是0时，即，当回波正确地消失时，分母和分子相等并且μ_dt′变为1。同时，当发生双方讲话时，滤波器更新系数ΔW的功率增加，使得μ_dt′的值接近0，并且最终可以延迟滤波器更新。

在到目前为止的描述中，目的是检测发生双方讲话的部分。因此，如以上公式(12)所示，对待处理的频带进行积分以计算μ_dt′。然而，由于针对每个频率的S/N比不同，因此存在灵敏度权重c_dt′的设计变得不合理的问题。因此，如下面的公式(14)所示，针对每个频率独立计算滤波器更新系数ΔW的平方范数，并且重新定义根据双方讲话的发生而变化的针对每个频率的变量μ_dt"。在这种情况下，如下面的公式(15)所示，除了滤波器更新系数ΔW之外，滤波器的平方范数的最大值也是针对每个频率独立计算的最大值。这里，1是抽头ID，并且k是频率窗口(与以上相同)。

[数学公式14]

[数学公式15]

此外，这种情况下的针对滤波器的最终学习公式如下面的公式(16)所示。这里，在公式(16)中，μ_dt"是对应于抽头长度的帧数的向量。

[数学公式16]

W(n+1)＝W(n)+μ_cμ_dt″ΔW(n)…(16)

也可以说，通过由公式表达双方讲话确定装置而获得由以上公式(14)表达的μ_dt"。

由以上公式(12)或(14)表达的双方讲话确定装置还可以说是滤波器更新系数ΔW的功率与滤波器W的最大功率之比。另一方面，可以重新定义如下面的公式(17)所示的sigmoid形双方讲话确定装置μ_dt ⁽³⁾。注意，公式(17)中的P_e(k，l)如下面的公式(18)所示。这里，1是抽头ID，并且k是频率窗口(与以上相同)。针对频率窗口k和抽头1，P_e(k，l)是滤波器的平方范数的最大值与滤波器更新系数的平方范数的每个分贝值之间的差。

[数学公式17]

[数学公式18]

P_e(k,l)＝10ln{||w_max(k)||²}-10ln{||Δw(k,l)||²}…(18)

此外，这种情况下的针对滤波器的最终学习公式如下面的公式(19)所示。这里，在公式(19)中，μ_dt ⁽³⁾是对应于抽头长度的帧数的向量。

[数学公式19]

w(n+1)＝w(n)+μ_cμ_dt ⁽³⁾Δw(n)…(19)

如已经描述的，在发生双方讲话时，期望使μ_dt ⁽³⁾接近0，而在系统波动时，期望保持μ_dt ⁽³⁾固定为1。sigmoid形具有其中μ_dt ⁽³⁾从0到1的变化可以易于被双极化以更接近0或1的特征。具体地，在由Sigmoid函数表达的以上公式(17)中，通过将增益设置为较大的值来进行双极化。

注意，如果可以适当地表达滤波器更新系数ΔW的功率与滤波器W的最大功率之比，则可以通过使用除了Sigmoid函数之外的各种函数来配置其他双方讲话确定装置。更优选容易进行双极化的函数。

尽管图1示意性地示出了回波消除器100的功能配置示例，但是图13示出了自适应滤波器103的具体配置。图13所示的自适应滤波器103包括滤波器单元1301、估计单元1302、调整单元1303以及更新单元1304。

滤波器单元1301将输入到扬声器101的基准信号乘以表示传输特性的估计滤波器，并且输出伪回波信号。

估计单元1302根据预定的估计算法估计表示从输出基准信号的扬声器到基准信号潜入的麦克风的传输特性的滤波器。如上所述，估计算法的示例包括LMS、NLMS、APA以及RLS。例如，在应用NLMS算法的情况下，估计单元1302估计滤波器，以使麦克风102的输入信号与由滤波器单元1301计算的伪回波信号之间的误差最小化，并且获得滤波器更新系数。

基于由估计单元1302估计的滤波器更新系数，调整单元1303利用针对滤波器的学习公式来确定用于确定收敛速度的步长μ。在该实施方式中，由对固定值μ_c和双方讲话作出反应但对系统波动没有作出反应的变量表示步长μ(即，μ＝μ_c·μ_dt′)，并且基于滤波器更新系数的功率与滤波器的最大功率之比来计算μ_dt′。

具体地，根据以上公式(12)，调整单元1303通过使用滤波器的功率的最大值基准作为分子，并且使用最大值基准与滤波器更新系数ΔW的功率乘以设置反应灵敏度的常数的和作为分母来计算变量μ_dt′。这里，调整单元1303计算针对滤波器的每个抽头的变量μ_dt′。调整单元1303也可以被称为由针对变量μ_dt′的计算公式表达的双方讲话确定装置。

可选地，根据以上公式(14)，调整单元1303可以通过使用针对每个频率独立计算的滤波器和滤波器更新系数来计算针对每个频率的变量μ_dt′。

可选地，根据以上公式(17)，调整单元1303可以根据滤波器更新系数的功率与滤波器的最大功率之比，通过使用Sigmoid函数来计算针对每个频率的变量μ_dt′。

然后，更新单元1304将滤波器更新系数乘以由计算出的变量μ_dt′表达的步长μ(＝μ_c·μ_dt′)来创建下一次的估计滤波器，并且将估计滤波器设置为滤波器单元1301。

本说明书中提出的双方讲话确定装置例如由以上公式(12)、(14)或(17)表达，并且被配置为相对于针对每个抽头的估计滤波器W的功率来监测针对每个抽头的滤波器更新系数ΔW的功率，并且当出现滤波器更新系数ΔW(来自估计滤波器W的极大功率)时，确定与装置自身的扬声器101的信号分量不同的信号分量(即，双方讲话)被混合。

即，本说明书中提出的双方讲话确定装置聚焦于更新表示空间的传输特性的估计滤波器W的滤波器更新系数ΔW，并且通过使用来自估计滤波器的平方范数的形式变化来确定双方讲话。本说明书中提出的双方讲话确定装置利用滤波器更新系数ΔW的变化方式在双方讲话或系统波动中示出不同的行为的事实。

因此，本说明书中提出的双方讲话确定装置具有通过捕获在发生双方讲话时通常的滤波器更新中不期望的ΔW的行为，能够仅对双方讲话作出反应，并且在系统波动时不太可能执行错误操作的特征。由于本说明书中提出的双方讲话确定装置在滤波器形式被干扰时立即作出反应，因此可以说，双方讲话确定装置例如对抗从沉默突然产生声音的TTS是强的。此外，在本说明书提出的双方讲话确定装置中，由于在不考虑再现音量、声源、频率以及扬声器101和麦克风102的位置的情况下，从滤波器的平方范数的最大值获取比率，因此用于确定双方讲话的阈值设置是简单的。

此外，通过使用以上公式(12)、(14)或(17)，可以参考针对滤波器W的每个抽头计算的功率的最大值，将确定针对滤波器的学习公式的收敛速度的步长μ根据滤波器更新系数ΔW的变化量归一化为在0与1之间变化的量。即，可以适当并且自动地调整用于确定针对滤波器的学习公式的收敛速度的步长μ。

注意，尽管以上公式(12)、(14)以及(17)全部是用于调整针对每个抽头的步长μ的计算公式，但是可以将所有的抽头进行平均化以获得一个步长μ。下面示出了用于将所有抽头进行平均化的计算公式。下面的公式(20)是以上公式(12)的变形。

[数学公式20]

因此，应用本说明书中公开的技术的回波消除器可以适当并且自动地调整确定自适应滤波器103的收敛速度的步长μ。此外，应用本说明书中公开的技术的回波消除器可以通过在发生双方讲话时延迟滤波器W的收敛，而通过在系统波动时维持原有的收敛速度并且推进滤波器W的学习来实现适当的滤波器学习。根据本说明书中公开的技术，可以通过较小的计算量来实现滤波器的收敛速度的改进。

工业适用性

在以上中，已经参考具体实施方式详细描述了本说明书中公开的技术。然而，显而易见的是，本领域技术人员可以在不脱离本说明书中公开的技术的范围的情况下对实施方式进行修改和替换。

本说明书中公开的技术不仅可以应用于诸如可视电话的已经广泛应用回波消除技术的领域，而且还可以应用于配备有扬声器和麦克风的音频对话代理等。在本说明书中公开的技术应用于音频对话代理的情况下，可以在双方讲话与系统波动时的每种情况下以低延迟自适应地更新传输特性滤波器，使得即使将音频输入到音频识别引擎中，音频对话代理也不太可能执行错误操作。

本说明书中公开的技术可以通过使用诸如数字信号处理器的硬件来实现，并且还可以通过使用软件来实现。在后者情况下，通过将本说明书中公开的技术应用于配备有扬声器和麦克风的各种信息装置，可以实现适当地对应于双方讲话和系统波动时中的每一个的回波消除。

总之，已经以示例的形式描述了本说明书中公开的技术，并且不应限制性地解释本说明书的描述内容。为了确定本说明书中公开的技术的要旨，应当考虑权利要求。

注意，本说明书中公开的技术还可以如下配置。

(1)一种音频处理装置，包括：

估计单元，估计表示从输出基准信号的扬声器到基准信号潜入的麦克风的传输特性的滤波器；

调整单元，基于由估计单元估计的滤波器更新系数来调整步长；以及

更新单元，根据滤波器更新系数和步长来更新滤波器。

(2)根据上述(1)的音频处理装置，

其中，调整单元基于滤波器更新系数的功率与滤波器的最大功率之比来调整步长。

(3)根据上述(1)或(2)的音频处理装置，

其中，当滤波器更新系数的功率与滤波器的最大功率之比增加时，调整单元使步长接近于0，并且当滤波器更新系数的功率与滤波器的最大功率之比减少时，调整单元使步长接近于1。

(4)根据上述(1)或(3)中任一项的音频处理装置，

其中，调整单元通过使用由估计单元估计的滤波器的功率的最大值基准作为分子，并且使用最大值基准与滤波器更新系数的功率乘以设置反应灵敏度的常数的和作为分母来计算步长。

(5)根据上述(1)或(4)中任一项的音频处理装置，

其中，调整单元针对滤波器的每个抽头调整步长。

(6)根据上述(1)或(5)中任一项的音频处理装置，

其中，调整单元通过使用针对每个频率独立计算的滤波器和滤波器更新系数来计算针对每个频率的步长。

(7)根据上述(1)或(3)中任一项的音频处理装置，

其中，调整单元根据滤波器更新系数的功率与滤波器的最大功率之比，通过使用使步长被双极化的函数来计算步长。

(8)根据上述(1)或(3)中任一项的音频处理装置，

其中，调整单元通过使用对应于滤波器更新系数的功率与滤波器的最大功率之比的Sigmoid函数来计算步长。

(9)根据上述(1)或(8)中任一项的音频处理装置，

其中，估计单元根据预定算法估计滤波器。

(10)根据上述(9)的音频处理装置，

其中，估计单元根据LMS、NLMS、APA和RLS中的任一种算法来估计滤波器。

(11)一种音频处理方法，包括：

估计步骤，估计表示从输出基准信号的扬声器到基准信号潜入的麦克风的传输特性的滤波器；

调整步骤，基于由估计步骤估计的滤波器更新系数来调整步长；以及

更新步骤，根据滤波器更新系数和步长来更新滤波器。

(12)一种音频处理装置，包括：

估计单元，估计表示从输出基准信号的扬声器到基准信号潜入的麦克风的传输特性的滤波器；以及

确定单元，基于由估计单元估计的滤波器更新系数的功率与滤波器的最大功率之比来确定双方讲话。

(13)根据上述(12)的音频处理装置，

其中，当滤波器更新系数的功率与滤波器的最大功率相当时，确定单元检测双方讲话。

(14)一种信息处理装置，包括：

扬声器，输出音频信号；

麦克风，输入音频信号；

调整单元，基于由估计单元估计的滤波器更新系数来调整步长；

更新单元，根据滤波器更新系数和步长来更新滤波器；以及

处理单元，通过应用滤波器来执行回波消除或另一音频信号处理。

(15)一种以计算机可读格式描述的计算机程序，用于使计算机用作：

更新单元，根据滤波器更新系数和步长来更新滤波器。

参考标记列表

100 回波消除器

101 扬声器、102麦克风

103 自适应滤波器、104减法装置

1301 滤波器单元、1302估计单元

1303 调整单元、1304更新单元。

Claims

1.一种音频处理装置，包括：

调整单元，基于由所述估计单元估计的滤波器更新系数来调整步长；以及

更新单元，根据所述滤波器更新系数和所述步长来更新所述滤波器，

其中，所述调整单元基于所述滤波器更新系数的功率与所述滤波器的最大功率之比来调整所述步长，

其中，所述步长为0与2之间的值，当所述滤波器更新系数的功率与所述滤波器的最大功率之比增加时，所述调整单元使所述步长接近于0，并且当所述滤波器更新系数的所述功率与所述滤波器的所述最大功率之比减少时，所述调整单元使所述步长接近于1。

2.根据权利要求1所述的音频处理装置，

其中，所述调整单元针对所述滤波器的每个抽头调整所述步长。

3.根据权利要求1所述的音频处理装置，

其中，所述调整单元通过使用针对每个频率独立计算的所述滤波器和所述滤波器更新系数来计算针对每个频率的所述步长。

4.根据权利要求1所述的音频处理装置，

其中，所述调整单元根据所述滤波器更新系数的功率与所述滤波器的最大功率之比，通过使用使所述步长被双极化的函数来计算所述步长。

5.根据权利要求1所述的音频处理装置，

其中，所述调整单元通过使用对应于所述滤波器更新系数的功率与所述滤波器的最大功率之比的Sigmoid函数来计算所述步长。

6.根据权利要求1所述的音频处理装置，

其中，所述估计单元根据预定算法估计所述滤波器。

7.根据权利要求6所述的音频处理装置，

其中，所述估计单元根据最小均方、归一化最小均方、仿射投影算法和递归最小二乘中的任一种算法来估计所述滤波器。

8.一种音频处理方法，包括：

调整步骤，基于由所述估计步骤估计的滤波器更新系数来调整步长；以及

更新步骤，根据所述滤波器更新系数和所述步长来更新所述滤波器，

其中，所述调整步骤基于所述滤波器更新系数的功率与所述滤波器的最大功率之比来调整所述步长，

其中，所述步长为0与2之间的值，当所述滤波器更新系数的功率与所述滤波器的最大功率之比增加时，所述调整步骤使所述步长接近于0，并且当所述滤波器更新系数的所述功率与所述滤波器的所述最大功率之比减少时，所述调整步骤使所述步长接近于1。

9.一种信息处理装置，包括：

扬声器，输出音频信号；

麦克风，输入所述音频信号；

调整单元，基于由所述估计单元估计的滤波器更新系数来调整步长；

更新单元，根据所述滤波器更新系数和所述步长来更新所述滤波器；以及

处理单元，通过应用所述滤波器来执行回波消除或另一音频信号处理，