CN103516921A - 通过隐藏音频信号的回声控制 - Google Patents

通过隐藏音频信号的回声控制 Download PDF

Info

Publication number
CN103516921A
CN103516921A CN201210224441.0A CN201210224441A CN103516921A CN 103516921 A CN103516921 A CN 103516921A CN 201210224441 A CN201210224441 A CN 201210224441A CN 103516921 A CN103516921 A CN 103516921A
Authority
CN
China
Prior art keywords
audio signal
echo
signal
auxiliary
electronic equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210224441.0A
Other languages
English (en)
Inventor
克雷格·约翰斯通
施栋
孙学京
格伦·迪金斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Priority to CN201210224441.0A priority Critical patent/CN103516921A/zh
Priority to US14/409,948 priority patent/US9552827B2/en
Priority to PCT/US2013/048123 priority patent/WO2014004790A1/en
Priority to EP13733538.6A priority patent/EP2868073B1/en
Publication of CN103516921A publication Critical patent/CN103516921A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本文涉及回声消除和/或回声抑制。特别地,本文涉及回声路径延迟的估计以及回声路径中的帧丢失和/或样本假信号的检测。描述了一种用于确定电子设备的回声路径的回声路径特性的估值的方法。电子设备被配置成使用扬声器呈现总音频信号,从而产生呈现的音频信号,并且电子设备被配置成使用麦克风记录呈现的音频信号的回声,从而产生记录的音频信号。该方法包括以不可听的方式将辅助音频信号插入到将由扬声器呈现的总音频信号中;其中辅助音频信号包括第一频率处的音调音频信号;使辅助音频信号的回声与记录的音频信号隔离;以及基于插入的辅助音频信号并且基于隔离的辅助音频信号的回声来确定回声路径特性的估值。

Description

通过隐藏音频信号的回声控制
技术领域
本文涉及回声消除和/或回声抑制。具体地,本文涉及估计回声路径延迟并且涉及检测可能包括参考路径的回声路径内的帧丢失和/或样本假信号。
背景技术
可以在免提模式下操作的诸如电话、智能电话等的电子通信设备典型地利用回声消除和/或回声抑制以便补偿由电子设备的扬声器呈现的音频信号的回声,其中回声可以由电子设备的麦克风捕获。确定电子通信设备的回声路径是用于有效交谈的信号处理的重要部分。当谈话者听到他/她的语音的回声时,该回声严重地扰乱谈话者自然交谈的能力。
回声消除和/或回声抑制的高效的和恰当的操作典型地取决于回声路径随时间的受限的和合理的变化,诸如预期在设备中或者物体附近随着移动而变化。系统中的硬件和/或软件失灵或故障可能导致包括扬声器输出、回声参考和输入麦克风信号的音频信号中的突然的不连续性或错误的可能性。这些不连续性创建了回声路径中的不自然的变化,这可能引起回声控制系统的不稳定和故障。本文的一个方面解决了估计这些失灵和不连续性事件的发生的问题。
在一些系统或应用中,在音频输出和被回声破坏的相关联的麦克风输入之间可能存在因系统硬件和/或软件出现的未知的散装延迟。在建模和回声路径中,没必要估计该散装延迟时段中存在的回声。本文的另一方面是解决用于估计该散装延迟的改进的方法,其导致改进的回声控制稳定性和较低的计算复杂度。
发明内容
根据一个方面,描述了一种用于确定电子设备的回声路径的有效回声路径特性的估值的方法。应注意,在本文中,术语“回声路径”指的是来自硬件和软件系统内的有效或表观回声路径。除了电子设备的扬声器和麦克风之间的声学回声路径之外,有效回声路径典型地包括电子设备的回放路径上的回放系统(包括扬声器)和/或电子设备的记录路径上的记录系统(包括麦克风)。换言之,有效回声路径可以包括电子设备内的、其中参考信号(其将由电子设备呈现)转向声学回声消除(AEC)单元和/或声学回声抑制(AES)单元的点与电子设备内的、其中记录的信号(已被电子设备的麦克风记录)进入AEC单元和/或AES单元的点之间的、在回放路径上和/或在记录路径上的电子设备的元件。位于这两个点之间的电子设备的元件可以被称为电子设备的参考路径。在一些情况下,可以假设声学回声路径是相对稳定的。
电子设备可以包括电话功能和/或音频会议功能。特别地,电子设备可以被配置成使用扬声器呈现总音频信号,从而产生呈现的音频信号。将被呈现的总音频信号典型地包括在电子设备处从远程方接收(例如,从包括电话功能的相似的远程电子设备接收或者从提供源自音频会议的其他参与者的音频信号的远程会议服务器接收)的参考音频信号。此外,电子设备可以被配置成使用麦克风记录呈现的音频信号的回声,从而产生记录的音频信号。记录的音频信号可以包括呈现的音频信号的回声。此外,记录的音频信号可以包括源自电子设备的用户的音频信号。在本文中记录的音频信号还被称为麦克风信号或者捕获信号。
估计的回声路径特性可以涉及回声路径的各方面。具体地,回声路径特性可以包括回声路径的延迟(还被称为回声路径延迟)。替选地或此外,回声路径特性可以包括将被呈现的总音频信号和包括在记录的音频信号中的该音频信号的回声之间的相移或者不连续性。回声路径上的这种不连续性或相移可以归因于如下任何一个或更多个:当呈现总音频信号时由电子设备引起的和/或当记录呈现的音频信号的回声时由电子设备引起的总音频信号的帧的丢失或重复;当呈现总音频信号时由电子设备引起的和/或当记录呈现的音频信号的回声时由电子设备引起的总音频信号的样本的假信号;将被呈现的总音频信号的采样速率和记录的音频信号的采样速率之间的失配(该失配可以归因于用于回放(即用于呈现)的时钟不同于用于记录的时钟);以及电子设备的运动或者影响回声路径的附近物体的运动(导致例如多普勒效应)。
该方法可以包括将辅助音频信号插入到将被扬声器呈现的总音频信号中。辅助音频信号可以被插入到总音频信号中,使得辅助音频信号是不可听的。将被呈现的总音频信号典型地包括参考音频信号(接收自远程方)和辅助音频信号(在电子设备处插入)。因此,电子设备结合辅助音频信号呈现(或回放)参考音频信号。选择辅助音频信号,使得辅助音频信号当在总音频信号(还包括参考音频信号)内回放时是不可听的。
辅助音频信号可以包括第一频率处的音调音频信号。第一频率可以位于人类可听的频率范围之外和/或音调音频信号的能量可以在第一频率的听力阈值以下。人类可听的频率范围可以依赖于年龄。这样,可以基于电子设备的用户的目标年龄范围(特别地目标最小年龄)来选择第一频率。作为示例,第一频率可以是16kHz或更高(例如,在17kHz处)。应当注意,例如17kHz处的第一频率可被视为在人类(20岁以下)的可能听力范围内。然而,该频率处的一般的听力灵敏度使得具有足以被电子设备的麦克风检测的能量的辅助音频信号能够在典型的附近用户或收听者的听力阈值以下。这样,可以选择第一频率,使得音调音频信号可以具有高到足以由电子设备的麦克风记录并且低到足以在人类的听力阈值以下的能量。
此外,音调音频信号可以具有与小于第一频率的5%对应的带宽。在示例中,音调音频信号的带宽在100至200Hz的范围中。在一些实施例中,通过使用应用到音调参考的平滑的包络线(诸如具有约5-20ms的宽度的高斯包络线)来实现中心频率周围(即第一频率周围)的该带宽。在一些实施例中,这种包络线的改变可以出现在大于预期的回声路径长度(或者回声路径延迟)的间隔处,预期的回声路径长度的范围是100-2000ms。在一些实施例中,除了恒定连续幅度之外,可以发生幅度调制,而在其他实施例中,幅度调制是完整的,在调制的音调信号或调制的音调脉冲之外不存在辅助音频信号。这样,音调音频信号是不可听的(由于第一频率和信号能量在人类的可感知范围之外),并且音调音频信号可以包括清楚约束的频谱内容,允许音调信号与总音频信号的可靠隔离以及音调信号的回声与呈现的音频信号的回声的可靠隔离。
该方法可以进一步包括使辅助音频信号的回声与记录的音频信号隔离。为此目的,可以考虑辅助音频信号是已知的。这样,通过考虑辅助音频信号的一个或更多个特性可以使辅助音频信号的回声隔离。辅助音频信号的一个或更多个特性可以涉及辅助音频信号的频率和/或辅助音频信号的频谱和/或辅助音频信号的信号水平。特别地,使辅助音频信号的回声隔离可以包括使用滤波器对记录的音频信号进行滤波。可以调节滤波器以适于辅助音频信号。作为示例,滤波器可以适于使辅助音频信号通过,同时阻挡辅助音频信号中不包括的频率分量。在示例中,滤波器包括第一频率处的通带(以及第一频率以外的其他频率处的至少一个阻带)。滤波方法可以包括数字实现的递归滤波器,其被称为无限脉冲响应(IIR)滤波器。IIR滤波器的有利之处在于相对低的计算复杂度。滤波器的其他适当的实现方案对于本领域技术人员是公知的。
该方法可以进一步包括基于插入的辅助音频信号的知识并且基于隔离的辅助音频信号的回声来确定回声路径特性的估值。作为示例,回声路径特性的估值可以包括回声路径延迟的估值。在这些情况下,第一频率处的音调音频信号可以具有预定的脉冲长度(例如,20ms或更小)。预定的脉冲长度可以被选择成比预期的回声路径延迟短。这样确定回声路径延迟的估值可以包括确定音调音频信号与隔离的辅助音频信号的回声中包括的音调音频信号的回声之间的时间偏移。例如通过在将辅助音频信号(包括音调信号脉冲)插入到总音频信号中时启动时间计数器,并且通过确定消逝的时间直至在记录的音频信号的经适当滤波的分量中首先检测到音调信号脉冲的回声,可以确定该时间偏移。
可以跨越音调音频信号的时间长度对音调音频信号进行幅度调制。音调音频信号的时间长度可以对应于预定的脉冲长度。特别地,音调音频信号可以具有音调音频信号的时间长度的时间中心处的幅度峰值。幅度调制以及特别地幅度峰值可用于增加回声路径延迟的估值的精度。在示例中,幅度调制对应于跨越音调音频信号的时间长度的正弦半波。
使用不可听的辅助音频信号,可以以计算高效的方式确定回声路径延迟的估值。回声路径延迟的估值可用于控制施加到参考音频信号的延迟,从而产生延迟的参考音频信号。特别地,参考音频信号可以被延迟回声路径延迟的估值(取整到参考音频信号的样本或适当的音频处理块长度的倍数)。换言之,如提供给AES单元和/或AEC单元的参考信号可以被延迟从回声路径延迟的估值得到的值。这样,从记录的音频信号得到的音频信号的声学回声消除(AEC)可以基于延迟的参考音频信号(而非原始的参考音频信号),从而允许使用具有减少的AEC滤波器长度的AEC单元,即,从而减少了AEC单元的计算复杂度。特别地,典型的AEC滤波器的具有基本上为零的系数的滤波器部分可以被省略,从而缩短AEC滤波器的长度(通过仅维持具有基本上非零的系数的滤波器部分)。
替选地或此外,回声路径特性的估值可以包括在回声路径上出现的相位偏移的估值。特别地,回声路径特性的估值可以被配置成检测在(有效)回声路径上出现的不连续性,该回声路径可能包括在回放路径上和/或在记录路径上的电子设备的元件。在这些情况下,第一频率处的音调音频信号可以具有预定的观察长度或者可以是连续的,其中预定的观察长度可以与在其上将检测不连续性的时间段的长度对应。观察长度可以包括借助于至少某个总是存在于辅助音频信号中的音调分量进行的连续监控,使得可以检测任何不连续性。确定不连续性的存在和/或潜在的采样频率移位可以包括确定隔离的辅助音频信号的回声中包括的音调音频信号的回声的估计的瞬间频率和第一频率之间的偏移。可以使用锁相环(PLL)单元确定频率偏移,该PLL单元被配置成锁定在第一频率周围的频率范围中。特别地,PLL单元可以被配置成指示隔离的音调音频信号的回声的频率相对于第一频率的偏移。这样,可以以计算高效的方式确定不连续性、相位偏移变化、频率移位或者在回声路径上出现的明显改变的估值。本文中使用的术语“相位偏移”可以指示如下一个或更多个:不连续性、相位偏移变化、频率移位和/或在回声路径上出现的明显改变。
如上文所指示的,电子设备可以包括声学回声消除(AEC)单元。典型的AEC单元在(有效)回声路径上(特别是在电子设备的参考路径上)出现不连续性的情况下具有劣化的性能。为了解决这些性能劣化,如果出现速率和/或不连续性的程度的估值超过预定的速率阈值和/或不连续性阈值,例如,如果检测到的不连续性的速率和/或PLL跟踪的偏离程度超过预定的速率和频率偏离阈值,则可以绕过AEC单元。
应当注意,可以并行地估计多个不同的回声路径特性。为此目的,辅助信号可以包括在多个不同频率处的多个音调信号。可以如本文中描述的那样选择各音调信号,从而允许并行地估计不同的回声路径特性。
如上文所指示的,呈现的音频信号典型地包括辅助音频信号和参考音频信号。辅助音频信号可以包括具有参考音频信号的掩蔽阈值以下的能量的信号分量。这样,可以基于参考音频信号确定辅助音频信号。掩蔽技术可用于结合参考音频信号呈现在回放时不可听的辅助音频信号。
如上文所指示的,电子设备可以包括AEC单元和/或声学回声抑制(AES)单元。AEC单元典型地利用信号或估计的回声减法的操作模式,由此估计的回声信号旨在准确地抵消记录的信号(或者AEC单元的输入信号)中存在的实际回声信号。AES单元利用频谱减法的操作模式,由此通过使被确定为包含由估计的回声引起的能量的相当大的部分的频谱带衰减来减少回声。AEC单元典型地可以产生具有不太期望的信号失真的回声减少输出,而AES单元典型地提供在回声路径或参考不确定性存在的情况下的改进的操作鲁棒性。可以从记录的音频信号去除辅助音频信号的回声,从而产生净音频信号。基于净音频信号并且基于从参考音频信号得到的信号,AEC单元可以执行声学回声消除和/或AES单元可以执行声学回声抑制。这样,AEC单元和/或AES单元可以不受辅助音频信号的插入的影响。为此目的,该方法可以利用具有辅助信号频率处的阻带以及至少一些其他频率的通带的阻挡滤波器(例如,陷波滤波器),从而减少麦克风捕获的记录信号中的回声或者辅助音频信号的存在的影响。
该方法可以进一步包括确定在特定时刻处(例如,在参考音频信号的特定样本处)的参考音频信号中包括的噪声或信号的量。特定时刻处的辅助音频信号的信号水平可以取决于在该特定时刻处的参考音频信号中包括的噪声或信号的量。特别地,辅助音频信号的信号水平可以随着噪声或信号的量的增加而增加,反之亦然。这允许辅助音频信号在通过(可能除了听力的听觉阈值以外的)能量掩蔽机制进行掩蔽的同时在较高的水平处注入。这种注入的辅助音频信号的调节可以被设计成,较之其他呈现的音频,维持关于辅助音频信号的预定的信噪比,并且因此维持回声路径特性的得到的估值的可靠性。
根据另一方面,描述了一种被配置成确定电子设备的回声路径的回声路径特性的估值的处理单元。处理单元可以是电子设备的一部分。电子设备可以被配置成使用扬声器呈现总音频信号,从而产生呈现的音频信号。此外,电子设备可以被配置成使用麦克风记录呈现的音频信号的回声,从而产生记录的音频信号。处理单元可以被配置成以不可听的方式将辅助音频信号插入到将由扬声器呈现的总音频信号中。辅助音频信号可以包括第一频率处的音调音频信号。此外,处理单元可以被配置成使辅助音频信号的回声与记录的音频信号隔离。此外,处理单元可以被配置成基于插入的辅助音频信号并且基于隔离的辅助音频信号的回声来确定回声路径特性的估值。
根据另一方面,描述了一种用于确定将AEC和/或AES单元链接到呈现的参考信号的路径的路径特性的估值的方法(以及相应的处理单元)。换言之,该方法可以在确定电子设备内的信号路径的路径特性的估值时执行,电子设备向AEC和/或AES单元提供用于回声补偿和/或回声抑制的将被呈现的参考信号。按照与回声路径特性相似的方式,路径特性可以包括路径延迟和/或不连续性(由例如帧丢失或样本假信号引起)。
如上文已概述的,电子设备可以被配置成使用扬声器呈现总音频信号,从而产生呈现的音频信号。总音频信号可以包括参考信号。此外,电子设备可以被配置成使用麦克风记录呈现的音频信号的回声,从而产生记录的音频信号。此外,电子设备可以包括AEC和/或AES单元,其被配置成补偿和/或抑制记录的音频信号中包括的参考信号的回声。出于该目的,电子设备可以包括用于向AEC和/或AES单元提供参考信号的信号路径。该方法可以在估计该特定信号路径的路径特性时执行。估计的路径特性可用于改进AEC和/或AES单元的性能和/或控制AEC和/或AES单元。作为示例,可以考虑估计的延迟以在AEC单元内施加散装延迟。替选地或此外,(例如由帧丢失和/或样本假信号引起的)不连续性的检测可用于禁用AEC单元和/或使能AES单元。
该方法可以包括以不可听的方式将辅助音频信号插入到将由扬声器呈现的总音频信号中。如上文概述的,辅助音频信号可以包括第一频率处的音调音频信号。总音频信号可以包括参考信号和辅助音频信号。总音频信号可以在电子设备的内部信号路径上传送到AEC单元和/或AES单元。此外,该方法可以包括使辅助音频信号与AEC单元和/或AES单元的输入处的总音频信号隔离。
此外,该方法可以包括基于插入的辅助音频信号(其在针对AEC和/或AES单元的信号路径的起点处插入)并且基于隔离的辅助音频信号(其在针对AEC和/或AES单元的信号路径的终点处隔离)来确定针对AEC和/或AES单元的信号路径的路径特性的估值。如本文中概述的,可以使用PLL单元(与连续的音调音频信号相结合)来检测信号路径上的不连续性和/或可以使用延迟估计单元(与具有预定脉冲长度的音调音频信号相结合)来确定路径延迟的估值。
总之,应当注意,本文中针对回声路径特性的估计描述的各方面同样适用于针对AEC和/或AES单元的信号路径的路径特性的估计。此外,应当注意,插入的辅助音频信号可并行地用于回声路径特性的估计和针对AEC和/或AES单元的信号路径的路径特性的估计。为此目的,电子设备可以包括各个延迟估计单元和/或PLL单元。
根据另一方面,描述了一种软件程序。该软件程序可以适于在处理器上执行并且当在处理器上执行时适于执行本文中概述的方法步骤。
根据另一方面,描述了一种存储介质。该存储介质可以包括软件程序,该软件程序适于在处理器上执行并且当在处理器上执行时适于执行本文中概述的方法步骤。
根据另一方面,描述了一种计算机程序。该计算机程序可以包括当在计算机上执行时用于执行本文中概述的方法步骤的可执行指令。
应当注意,如本专利申请中概述的包括其优选实施例的方法和系统可以单独地使用或者与本文中公开的其他方法和系统相结合地使用。此外,本专利申请中概述的方法和系统的所有方面可以任意组合。特别地,权利要求的特征可以以任意的方式彼此组合。
附图说明
下文参照附图以示例性方式说明本发明,其中
图1示出了包括跟随有可选的声学回声抑制单元的声学回声消除单元的示例电子设备;
图2a和2b示出了包括用于估计回声路径特性的装置的示例电子设备;
图3示出了包括用于估计回声路径特性的装置的另一示例电子设备;
图4图示了用于辅助单元的示例生成单元的框图;
图5图示了如图2b和3中所示的PLL单元提供的示例监控信号;
图6示出了包括用于估计回声路径特性的装置的示例电子设备的框图;
图7示出了用于确定回声路径延迟的估值的示例采样结果;以及
图8示出了用于估计回声路径特性的示例方法的流程图。
具体实施方式
如介绍性部分中指示的,电子通信设备典型地包括声学回声消除单元和/或声学回声抑制单元,以便减少由电子通信设备的麦克风捕获的呈现的音频信号的回声的影响。图1图示了包括声学回声消除(AEC)单元104并且可选地包括声学回声抑制(AES)单元105的示例电子通信设备100(还被称为电子设备100或设备100)。电子设备100从远程方接收音频信号x(n)111或者对应于期望的音频输出的音频信号x(n)111,其中音频信号111将由电子设备100的扬声器102使用回放系统101呈现。回放系统101可以被配置成允许呈现的音频信号的音量控制。呈现的音频信号可以经由回声路径120由电子设备的麦克风103捕获。回声路径120典型地取决于电子设备100的周围环境(例如,电子设备100置于其中的房间)。
电子设备100的麦克风103典型地与源自电子设备100处的谈话者的声学信号相结合,捕获呈现的音频信号111的回声。这样,捕获的音频信号d(n)112典型地包括源自电子设备100处的谈话者的声学信号(其将被发送到远程方)和呈现的音频信号111的回声(其将在电子设备100处去除以便防止远程方处的不合需要的回声)的组合。出于该目的,捕获的音频信号d(n)112可以由AEC单元104处理。
AEC单元104可以被配置成确定捕获的音频信号112中包括的呈现的音频信号111的回声的估值并且从捕获的音频信号112中去除(减去)该估值,从而产生经回声补偿的音频信号e(n)113。AEC单元104典型地包括线性估计器(例如,具有数目为N的滤波器系数的线性AEC滤波器),其被配置成基于接收到的音频信号x(n)111(其还可以被称为参考信号111)确定估值。作为示例,线性估计器可以将线性AEC滤波器应用到接收到的音频信号x(n)111以确定捕获的音频信号112中包括的呈现的音频信号111的回声的估值。通过针对随后的样本n重复地使经回声补偿的音频信号e(n)113的能量最小化,可以更新线性估计器。换言之,可以调节AEC单元104以适于逐个样本的或者基于其他间隔的回声路径120的改变。经回声补偿的音频信号e(n)113随后可以由电子设备100传送到远程方和/或可以用作期望的音频源。
AEC单元104应用线性估计技术,其被配置成补偿回声路径120上的线性效应。替选地或此外,电子设备100可以包括声学回声抑制(AES)单元105,其被配置成将增益,或者用于经回声补偿的音频信号的不同的滤波频带或分量的多个增益,应用到经回声补偿的音频信号e(n)113(或者捕获的音频信号d(n)112)。AES单元105可以被配置成抑制经回声补偿的音频信号e(n)113中包括的残余回声信号。如果确定经回声补偿的音频信号e(n)113仍包括信号中的或者适当的滤波频带中的相当大量的回声,则由AES单元105应用的增益或多个增益可用于使经回声补偿的音频信号e(n)113衰减。结果,获得了经回波抑制的音频信号
Figure BDA00001823501600091
114,其可以由电子设备100传送到远程方或者可以用作期望的音频源。通过将增益应用到经回声补偿的音频信号e(n)113,AES单元105被配置成考虑AEC单元之后的残余回声并且还考虑AEC单元104典型地不能处置的回声路径上的非线性效应。在一些模式或方法中,AES单元可以执行由条件引起的大部分回声去除,诸如可能引起AEC单元故障的不连续性和突然的回声路径改变。AES单元105可以被配置成执行接收到的音频信号111和经回声补偿的音频信号e(n)113的频谱分析,因此便于跨越相关联的频带应用多个增益。此外,AES单元105可以被配置成基于先前接收到的音频信号111和经回声补偿的音频信号e(n)113的频谱分析,确定经回声补偿的音频信号e(n)113中包括的回声量。
如上文概述的,AEC单元104典型地包括具有长度为N的滤波器系数的AEC滤波器。滤波器的长度N可以是相当大的,以便适当地对回声路径120(例如,以便对在回声路径120上招致的初始延迟进行建模并且补偿)和相关联的回声响应进行建模并且补偿。AEC滤波器的系数可以被分别分成零部(纯延迟)和非零部。零部(具有基本上为零的系数)可以明显长于非零部,并且针对零部进行滤波和系数更新典型地是没必要的和消耗功率的。期望减少AEC滤波器的所需长度N以便允许(自适应)回声消除的增加的鲁棒性并且减少计算复杂度。此外,AEC单元104典型地限于消除回声路径120上的线性效应。电子设备100(包括回放系统101、扬声器102和麦克风103)的呈现和捕获路径上的音频帧的损失或者样本假信号和不连续性的出现可能导致AEC单元104不能适当处置的回声路径120上的非线性效应。呈现路径还被称为回放路径并且捕获路径被称为记录路径。因此期望提供回声路径120上存在明显的非线性效应和/或不连续性的可靠的指示符,其中该指示符可用于在回声路径120上存在明显的非线性效应的情况下适当地调节电子设备100中的处理(例如,绕过AEC单元104)。
在本文中,提出了利用一个或更多个在感知上不可听的信号来确定电子设备100(例如音频会议设备)的特性,以便改进回声校正和/或回声抑制性能并且减少实现复杂度。如上文所指示的,回声消除和/或回声抑制的高效的和正确的操作典型地取决于回声路径特性的准确估计,其通常包括回声路径延迟的估计和/或帧丢失和/或样本假信号的检测。通过将一个或更多个隐藏的,即在感知上不可听的信号嵌入到AEC单元104和/或AES单元105的参考信号x(n)111中,可以鲁棒地和高效地确定上述回声路径特性。
被插入到参考信号x(n)111中的隐藏的或者在感知上不可听的音频信号在本文中被称为辅助信号。辅助信号包括位于人类可感知的频率范围之外(例如在17kHz的频率处或以上)的信号分量。替选地或此外,辅助信号的设计可以依赖于参考信号x(n)111。作为示例,辅助信号可以被设计成使得辅助信号被参考信号x(n)111掩蔽。替选地或此外,辅助信号可以被设计成使得辅助信号接近参考信号x(n)111的噪声本底或者在该噪声本底以下。替选地或此外,可以基于扩展频谱技术来设计辅助信号。
应当注意,为了使AEC单元104正确工作,AEC单元104的参考信号x(n)111应是准确的,即AEC单元104的参考信号x(n)111应尽可能接近实际呈现的音频信号。此外,为了准确地估计回声路径特性,AEC单元104施加的延迟应使用于消除的输入信号d(n)112和参考信号x(n)111的对准同步。
在当前的AEC单元104中,参考信号x(n)111和输入信号d(n)112的对准典型地通过相关来完成。这意味着AEC单元104可以基于参考信号x(n)111和输入信号d(n)112之间的相关函数来执行参考信号x(n)111和输入信号d(n)112的对准。相关函数(例如关于参考信号x(n)111和输入信号d(n)112之间的特定时间偏移的相关函数的最大值)可以提供在回声路径120上的由输入信号d(n)112招致的延迟的指示(该指示由例如提供最大相关的特定时间偏移给出)。关于音频信号的随后的样本或者关于音频信号的随后的帧的相关函数的确定牵涉高的计算复杂度,并且还需要预期待呈现的音频中不存在的一定程度的信号内容或者激励。本文的目的在于减少与确定回声路径延迟相关的计算复杂度。
AEC单元104的自适应滤波器长度典型地取决于最大预期回声路径延迟。当延迟路径120呈现针对回声响应的相当大的额外延迟时(例如几百毫秒),AEC单元104中的自适应滤波器的长度以及使滤波器与输入信号d(n)112相乘以及逐个帧地更新滤波器系数的计算复杂度可能是相当大的。另一方面,如果在回声路径120上招致的平均延迟经由分立的机制而是已知的,则可以减少自适应滤波器长度以仅适应已知的平均延迟周围的延迟变化(还被称为散装延迟)并且适应预期的回声响应。换言之,如果可以提供回声路径120的平均延迟的估值,则可以缺省地将平均延迟或者通常比该平均延迟略小以允许AEC单元的适当回声预测的某个延迟应用到输入信号d(n)112,并且AEC单元104可以限于估计并且补偿平均延迟周围的延迟变化,从而减少AEC单元104中包括的自适应滤波器的所需长度并且减少回声消除的计算复杂度。
在本文中,提出了通过将辅助信号,例如诸如20ms的音调突发的调制音调插入到参考信号x(n)111中来估计回声路径延迟。调制音调可以例如具有在感知上不可听的18kHz的中心频率。此外,调制音调可以具有100-200Hz的包络线。
图2a示出了包括用于基于(不可听)辅助信号的注入来估计回声路径延迟的装置的示例电子设备200的系统示图。特别地,调制音调ft(n)212可以被注入到参考信号x(n)111中。辅助信号ft(n)212可以具有17kHz的中心频率和200Hz的高斯包络线。辅助信号ft(n)212的时长可以是20ms。可以使用加法单元201将辅助信号ft(n)212插入到参考信号x(n)111中。组合信号211被提供给回放系统101,回放系统101结束于电子设备200的扬声器102并且呈现组合信号
Figure BDA00001823501600122
211。
电子设备200的麦克风103记录捕获的信号d(n)112(还被称为记录信号),其典型地包括呈现的音频信号的回声(并且可能包括源自在电子设备200处的谈话者或者关注的声源的音频信号)。按照与图1中的电子设备100相似的方式,捕获的信号d(n)112(还被称为针对AEC单元104的输入信号d(n)112)被提供给AEC单元104用于回声消除。在图示示例中,使用滤波器205对捕获的信号d(n)112进行滤波,滤波器205被配置成从捕获的信号d(n)112去除辅助信号ft(n)212(的回声)。滤波器205可以是被配置成切除捕获的信号112的辅助信号ft(n)212分量的带阻滤波器。此外,捕获的信号d(n)112被传递到延迟估计单元203,延迟估计单元203被配置成基于捕获的信号d(n)112中包括的(或者从捕获的信号112得到的信号中包括的)辅助信号ft(n)212并且基于辅助信号ft(n)212的回声确定回声路径延迟的估值。换言之,延迟估计单元203接受音调ft(n)212和麦克风信号d(n)112并且在麦克风信号d(n)112中识别与音调ft(n)212对应的信息。延迟估计单元203可以被配置成基于以上信息输出回声路径延迟
Figure BDA00001823501600123
215的估值。
电子设备200可以包括滤波器单元202(例如,带通滤波器),其用于从捕获的信号d(n)112中提取辅助信号ft(n)212的回声。滤波器单元202可以包括IIR陷波滤波器,其被配置成隔离辅助信号ft(n)212(的回声)。换言之,通过使麦克风信号d(n)112通过中心频率与音调ft(n)212的中心频率相同的(带通)滤波器202,可以实现识别麦克风信号d(n)112中的ft(n)212的回声信息。更一般地,电子设备200可以包括滤波器单元202,其被调节以适于辅助信号ft(n)212并且被配置成使辅助信号ft(n)212的回声与麦克风信号d(n)112隔离。
延迟估计单元203可以被配置成确定与关注的ft(n)212(直接来自插入的音调ft(n)212)对应的第一能量峰值和与捕获的音调ft(n)212的回声(来自经滤波的麦克风信号214)对应的第二能量峰值之间的延迟
Figure BDA00001823501600132
215。换言之,如果在延迟估计单元203中检测到能量峰值,则可以获得散装延迟
Figure BDA00001823501600133
215的估值。随后可以将回声路径延迟的估值
Figure BDA00001823501600134
215馈送到可变延迟单元204中,可变延迟单元204被配置成使参考信号x(n)111延迟
Figure BDA00001823501600135
或者
Figure BDA00001823501600136
个样本(其中D是延迟中的合理减少以确保AEC滤波器能够对所有回声行为进行因果预测)。换言之,延迟单元204施加的延迟可以被选择为小于回声路径延迟的估值
Figure BDA00001823501600137
215,以便允许AEC单元中的延迟变化和/或回声响应的因果预测。这样经延迟的参考信号
Figure BDA00001823501600138
213较好地在时间上与麦克风信号d(n)112中包括的回声对准。因此,AEC单元104现在可以集中于(微小)延迟变化的补偿以及回声响应的补偿。
参考信号x(n)111与麦克风信号d(n)112的对准(或同步)典型地提供了声学回声消除单元104中的计算复杂度的明显减少。这是因为AEC单元104中的自适应滤波器的长度可以明显减少,其直接结果是减少的乘法和加法以及因此的整体电子设备200的减少的功耗。此外,较短的自适应滤波器典型地具有较快的收敛时间以及相关联的稳定性的增加,这是所提出的用于延迟调整和回声滤波器长度减少的方法的另外的优点。
如上文所指示的,另一重要的回声路径特性涉及检测丢失的帧或样本假信号(即,涉及检测回声路径(可能包括电子设备的参考路径)中的不连续性)。这些丢失的帧或样本假信号典型地导致由回声路径120上的呈现的音频信号招致的意外的回声行为和非线性失真,从而使AEC单元104的性能劣化。丢失的帧和/或样本假信号的回声路径特性可以归因于电子设备的半可靠的输出链(例如,在回放系统101内)或者归因于回声路径120中的其他不稳定性。样本假信号和帧的丢失在低音频质量系统以及在回放路径(包括回放系统101和扬声器102)上和在记录路径(包括麦克风103和电子设备中包括的模数转换器)上使用不同时钟的系统中是相对常见的。如果电子设备检测到该不稳定的回声路径120,则电子设备可以选择从(AEC单元104中的)回声消除移至(AES单元105中的)回声抑制,后者对于不利的回声路径是更为弹性的(特别是对于在回声路径120上出现的非线性效应)。
在本文中,提出了将(不可听的)辅助信号212插入到参考信号111中,以便检测诸如丢失的帧和/或样本假信号的非线性效应。特别地,提出了在参考信号111中恒定地注入纯音调212,用于检测丢失的帧或样本假信号。
图2b图示了被配置成检测回声路径120上的诸如丢失的帧和/或样本假信号的非线性效应的电子设备250的系统示图。电子设备250可以被配置成基于帧丢失和/或样本假信号的检测,来使能和/或禁用AEC单元104。如上文所指示的,在回声路径120上的非线性效应的情况下,AEC单元104可能不能适当地处理并补偿呈现的音频信号的回声。这样声学回声抑制(AES)单元105可用于(进一步)抑制AEC单元104的输出e(n)113中包括的(残余)回声。特别地,对于应对回声路径120上的实时不稳定性,AES单元105典型地比AEC单元104更为鲁棒。
例如18.384kHz的频率处的纯音调ft(n)212可以被恒定地注入到参考信号x(n)111中。滤波器202可用于抑制麦克风信号d(n)112中包括的其他频率分量,从而使捕获的音调ft(n)212的回声留在经滤波的麦克风信号214中。锁相环(PLL)单元251可用于检测帧丢失或样本假信号。在不涉及帧丢失或样本假信号的稳定情形中,PLL单元251使原始纯音调ft(n)212与经滤波的麦克风信号
Figure BDA00001823501600142
214中包括的音调ft(n)212的回声对准。因此,在回声路径120中未出现帧丢失或样本假信号的情况下,PLL单元251将典型地输出具有零值(或另一恒定值)的控制信号
Figure BDA00001823501600143
261。另一方面,如果较之注入的音调ft(n)的频率和稳定性,在经滤波的麦克风信号
Figure BDA00001823501600144
214中存在频率和/或相位变化,则PLL单元251典型地输出关于控制信号
Figure BDA00001823501600145
261的非零值。相位和/或频率变化可以归因于沿回声路径120的帧的丢失或者归因于已移动的一个或更多个样本。
控制信号
Figure BDA00001823501600146
261可用于控制AEC单元104。特别地,控制信号
Figure BDA00001823501600147
261可用于禁用或使能AEC单元104。作为示例,非零控制信号261可用于禁用AEC单元104。因此,通过结合不可听的辅助信号ft(n)212使用PLL单元251,可以在不需要复杂的相关计算的情况下以高效的方式检测帧丢失和/或样本假信号的出现。因此,可以明显减少用于检测帧丢失和/或样本假信号的回声路径特性的实现复杂度。
应当注意,可以动态地调整辅助信号212的信号强度。特别地,可以基于参考信号111调整辅助信号212的信号强度。甚至更特别地,可以通过使用来自电子设备200、250的回放路径中包括的噪声抑制器和/或来自PLL单元251和/或来自延迟估计单元203的反馈环路来动态地调整辅助信号212的强度。作为示例,当在参考信号111中存在相对高的噪声量时,可以出于至少两个原因增加辅助信号212的功率。首先,辅助信号212的增加的功率/信号水平允许回声路径特性估计单元(例如PLL单元251和/或延迟估计单元203)克服参考信号111中包括的噪声并且继续适当操作。其次,用户的有效噪声本底是较高的,并且因此辅助信号212的功率/信号水平的增加将被相对高的噪声本底掩蔽。
这样,可以基于参考信号111中包括的噪声量来选择辅助信号212的信号水平和/或功率。这在图4中示出,其示出了示例辅助信号生成单元400的框图。辅助信号生成单元400包括噪声估计器401,其被配置成估计参考信号111中包括的噪声量。可以基于参考信号111沿时间线的频谱分析来确定参考信号111中包括的噪声量。噪声估计器401可以被进一步配置成确定噪声依赖增益A(n)411,其是参考信号111中包括的噪声量的函数。典型地,增益A(n)411随着参考信号111中包括的噪声量的增加而增加,反之亦然。噪声依赖增益A(n)411被应用于缺省辅助信号412,从而提供噪声依赖辅助信号212,其可以如图2a和2b的上下文中所述被插入到参考信号111中。
换言之,图4示出了基于参考信号111中包括的噪声功率来自增强隐藏的音频信号212。噪声估计器401估计参考信号111中包括的噪声本底并且输出噪声本底的幅度A(n)411的估值,其可以用作缺省辅助信号412的增益或缩放因子。在如图2a和2b的上下文中概述的将信号212注入到系统中之前,注入的信号212按缩放因子411进行缩放。结果,(辅助信号的)信噪比保持在恒定的(高)水平,即使在参考信号111中包括高的噪声量。
应当注意,替选地或此外,捕获的信号112中包括的噪声可以被估计并且用于估计噪声本底。这样,可以基于所估计的捕获的信号112中包括的噪声来确定注入的辅助信号212,从而考虑源自电子设备的环境的噪声量。
此外,应当注意,各个回声路径特性估计单元(例如PLL单元251和/或延迟估计单元203)可以根据系统需要,在组合的(单个)模块中或者在分离的模块中实现。此外,各个回声路径特性估计单元(例如PLL单元251和/或延迟估计单元203)可以依次地或并行地实现。例如,在并行实现方案中,可以将多个隐藏的辅助信号212注入到参考信号111中,其中多个辅助信号212中的一些可用于(延迟估计单元203中的)延迟估计并且其他辅助信号212可用于(PLL单元251中的)帧丢失和/或样本假信号检测。在依次实现方案中,可以首先(在延迟估计单元203中)估计回声路径延迟,并且随后,在一定时间段之后,可以(在PLL单元251中)执行帧丢失和/或样本假信号检测。
图3图示了包括用于检测帧丢失/样本假信号的PLL单元251的电子设备300。电子设备300包括辅助信号生成单元301(例如包括图4的生成单元400)。在图示示例中,辅助信号生成单元301包括振荡器,其被配置成在频率f_0处生成连续音调。辅助信号212被插入到参考信号111中。此外,图3示出了示例AES单元103的细节。可以看到,AES单元103包括滤波器组306,它们被配置成提供关于组合信号
Figure BDA00001823501600161
211以及关于麦克风信号112的频谱系数。在图示示例中,使用陷波滤波器302对麦克风信号112进行滤波,以便从麦克风信号去除辅助信号212的回声,从而提供不包括辅助信号212的回声的麦克风信号312。频谱系数可用于使用AES预测单元307和AES增益确定单元308确定AES增益。
此外,图3示出了示例PLL单元251的细节。在图示示例中,PLL单元包括滤波器单元303,其被配置成使辅助信号212(的回声)与麦克风信号112隔离(其中滤波器单元303是例如中心在振荡器频率f_0处的带通滤波器)。滤波器单元303对应于图2b中所示的滤波器单元202。此外,PLL单元251包括环路,该环路包括低通滤波器305和具有目标频率f_0的压控振荡器(VCO)304。VCO 304的控制电压提供可被监控指示沿表观系统回声路径的不同缺省模式的特征和变化的信号361。可以采取VCO 304的控制电压(即监控信号361)的适当处理以产生AEC控制信号261。在一些情况下,当VCO的控制电压361保持在相对注入的辅助信号的频率的中心或零偏移的表示10-20Hz的阈值内时,该处理可以使能AEC单元。
在一些系统中,输出和输入处理可能不出现在同一线程、处理空间或处理设备中。对于这些示例,在两个处理元件之间存在可能受到失灵困扰的信号路径,以便使信号211变为AEC 104和AEC 105的输入。应认识到,由于辅助信号已被注入到期望的呈现的信号211中,因此可以附加不连续性检测模块251的重复例示以监控在其中执行AES和AEC的输入处理线程或模块中接收到的信号211的复本。在其中将输入和输出处理附加到具有不同的时钟域的音频设备的一些示例中,处理可以是异步的,在该情况下应存在在回声参考路径中对其进行补偿的方法。尽管延迟极少是需要估计的问题,但是对于本领域技术人员应显见的是,本发明的实施例可以额外地包括PLL或者另一提出的监控方法,以检测在AEC单元和/或AES单元可用的信号中的误差或不连续性的引入。这样,应当注意,辅助信号212和/或待呈现的信号211的复本可以被提供给PLL单元251,以便考虑电子设备的回放路径和记录路径之间的可能的时钟偏差。
换言之,图3图示了使用嵌入的音调212和PLL单元251检测参考信号111中和/或回声路径120(可能包括参考路径,参考路径包括电子设备中的回放系统101、扬声器102和/或麦克风103)中的问题的示例系统300。音调212的频率f_0应在正常听力范围之外。此外,频率f_0不应有理地与典型的帧尺寸或者系统300的典型的处理单位的尺寸(以样本数目为单位)相关。其原因在于,如果辅助信号212包括与例如帧尺寸相关的频率,则不可能检测帧或样本的丢失/重排。作为说明性示例,使用20ms的帧和具有20ms的波长的音调212。如果帧丢失(没有插入零)或重排,则音调212将保持连续,没有相位改变。通过使用没有有理地与帧长度相关的音调,可以解决该问题。在音调频率是f_0=17.352334kHz的示例中,根据音频硬件响应,音调的适当的频率范围约为16-20kHz。f_0陷波滤波器302和带通滤波器303可以具有约500Hz的带宽,并且VCO 304中的低通滤波器305可以具有约1kHz的带宽。
图5图示了可以由PLL单元251生成的示例监控信号361。换言之,图5示出了VCO控制或回声参考监控361的随时间的示例轨迹。监控信号361的期望值周围的不同变化指示不同类别的问题。监控信号361的随机游动可以指示不存在回声或者可以指示回声信号没有通过滤波器303。
监控信号401是非零的并且示出了相对于振荡器频率f_0的偏移。该相对于振荡器频率f_0的(恒定)偏移可以指示电子设备250、300的回放路径和记录路径之间的样本速率回转(或时钟失配)。监控信号503的振荡指示帧丢失或帧重复,或者样本假信号。监控信号502示出了样本回转和帧丢失/重复的组合出现。监控信号504指示某种形式的瞬间频率移位,其可能归因于由移动的设备250、300引起的多普勒效应。监控信号505、506的略微变化指示与尝试重新采样的另一处理或阶段相关联的回归不稳定性,并且因此使参考信号和输入麦克风信号同步。
图6图示了包括延迟估计单元203的示例电子设备600的框图。在图示示例中,通过利用包络线生成单元603生成的包络线覆盖频率f_0处的振荡器信号(由振荡器604提供),可以生成频率f_0处的音调脉冲。作为示例,脉冲可以具有20ms的总长度并且可以具有正弦半波的形状(脉冲的峰值位于参考时刻零处)。该脉冲可以作为辅助信号212被注入到参考信号111中。这样,调制脉冲212被传递到频率f_0(f_0典型地约为17kHz)处的电子设备300的扬声器馈送中。
在记录路径上,电子设备600可以包括陷波滤波器601,其可以被配置成从麦克风信号112去除辅助信号212(的回声)。这样,AEC单元104和/或AES单元105(未示出)可以对已被去除辅助信号212的麦克风信号进行操作。此外,电子设备600可以包括带通滤波器602(例如具有500Hz的带宽),其被配置成使辅助信号212(的回声)(按照与图2a中的滤波器202相似的方式)与麦克风信号112隔离。延迟估计单元203可以包括矫正器单元605(被配置成例如使用绝对值函数或平方函数来矫正隔离的辅助信号的回声)、低通滤波器606(例如具有100Hz的截止频率)和采样单元607(例如具有200Hz的采样速率)。矫正器单元605和低通滤波器606可以一起形成幅度检测器。可以使用采样单元607对检测到的幅度采样,并且可以根据样本检测峰值和峰值的位置以提供延迟的估值。这样,带通滤波器602和包络滤波器可用于检测回声路径延迟。结果,在采样单元607的输出处获得样本序列701(如图7中所示)。可以看到(连同辅助信号212的回声的检测一起),样本具有非零幅度值。最大幅度值702指示辅助信号的回声的峰值的存在。辅助信号212的回声的峰值较之原始辅助信号212的峰值的时间偏移提供了回声路径延迟的估值215(在图示示例中是40ms)。应当注意,可以有规律地或者在适当的情况下执行回声路径延迟的估计。
图8图示了用于确定电子设备200、250、300、600的回声路径特性的估值的示例方法800的流程图。方法800包括将可听辅助信号212插入801到电子设备的回放路径中,其中将通过电子设备的扬声器102呈现辅助信号212。该方法800接着使用电子设备的麦克风103记录802麦克风信号112,其中麦克风信号112可以包括呈现的辅助信号212的回声。该方法800可以进一步包括使用隔离装置202、303、602(例如滤波器)使辅助信号212(的回声)与麦克风信号112隔离803,其中调节隔离装置以适于辅助信号212的特性。此外,该方法800包括基于隔离的辅助信号212的回声并且基于原始插入的辅助信号212来确定804回声路径特性的估值。
作为示例,回声路径特性可以涉及回声路径延迟。在这些情况下,可以使用人类不可听的频率范围内的频率f_0处的不可听的音调来确定回声路径延迟的估值。然而频率f_0可以接近人类可听的频率范围,以便确保估计的回声路径延迟与参考信号111招致的回声路径延迟相似。可以使用如本文中描述的延迟估计单元203来确定回声路径延迟的估值。替选地或此外,回声路径特性可以涉及样本丢失/重复或者样本假信号。可以使用频率f_0处的脉冲音调作为辅助信号来检测这些情形。此外,可以使用如本文中描述的PLL单元251来检测这些情形。
应当注意,本文中描述的方法和系统还可以应用于MIMO(多输入多输出)回声系统。在该MIMO回声系统中,可以存在多个扬声器102和/或多个麦克风103。多个扬声器102可以被配置成呈现多通道音频信号(例如立体声或5.1信号)的不同通道。通过相似的方式,多个麦克风103可以被配置成捕获多通道音频信号。在这些情况下,本文中描述的方法和系统可以被配置成以不可听的方式将各个辅助音频信号插入到将由多个扬声器的各个扬声器呈现的各个总音频信号中。作为示例,各个辅助音频信号可以被插入到多通道音频信号的多个通道中。各个辅助音频信号可以彼此不同。作为示例,各个辅助音频信号可以包括不同频带内(在不同的第一频率处)的各个音调信号。替选地或此外,各个辅助音频信号可以使用不同的扩频码。
此外,本文中描述的方法和系统可以被配置成使多个辅助音频信号的回声与一个或更多个记录的音频信号(使用相应的一个或更多个麦克风记录)隔离。在多个记录的音频信号的情况下,可以确定相应的多个回声集合。换言之,可以使多个辅助音频信号的回声与多个记录的音频信号中的每个隔离。可以基于多个插入的辅助音频信号并且基于隔离的多个辅助音频信号的回声(的集合)来确定回声路径特性的估值。为此目的,可以使用MIMO处理技术。
如上文已概述的,本文不限于声学回声路径的特性的估计。在电子设备的回放路径上和/或记录路径上可能出现失灵和不连续性,特别是在分离的路径被连结到不同步的音频元件时。此外,当向AEC单元或AES单元提供参考信号时可能出现失灵和不连续性。因此,可以将不连续性检测应用于进入的参考信号。尽管在信号路径上可能没有严格的“回声”,但是信号可以被延迟并且可以是理想的参考信号的修改的形式。针对理想参考检测该路径中的突然改变也是有价值的,并且可以通过本文中描述的方法和系统实现。
在本文中,已描述了用于确定回声路径特性的估值的方法和系统。这些方法和系统允许鲁棒地和高效地确定这些估值。特别地,这些方法和系统允许典型地与确定这些估值相关的计算复杂度的明显减少。此外,可以减少电子设备中的回声消除和/或回声抑制的计算复杂度,同时增加经回声补偿/抑制的音频信号的感知质量。
本文中描述的方法和系统可以被实现为软件、固件和/或硬件。某些元件可以例如被实现为在数字信号处理器或微处理器上运行的软件。其他元件可以例如被实现为硬件或者被实现为专用集成电路。所描述的方法和系统中遇到的信号可以存储在诸如随机存取存储器或者光存储介质的介质上。它们可以经由诸如无线电网络、卫星网络、无线网络或有线网络(例如互联网)的网络传输。利用本文中描述的方法和系统的典型设备是便携式电子设备或者用于存储和/或呈现音频信号的其他消费者设备。

Claims (17)

1.一种用于确定电子设备(200、250、300、600)的回声路径(120)的回声路径特性的估值(215、361)的方法(800),所述电子设备被配置成使用扬声器(102)呈现总音频信号,从而产生呈现的音频信号,并且被配置成使用麦克风(103)记录所述呈现的音频信号的回声,从而产生记录的音频信号(112);所述方法包括
-以不可听的方式将辅助音频信号(212)插入(801)到将由所述扬声器(102)呈现的所述总音频信号中;其中所述辅助音频信号(212)包括第一频率处的音调音频信号;
-使所述辅助音频信号(212)的回声与所述记录的音频信号(112)隔离(803);以及
-基于插入的辅助音频信号(212)并且基于隔离的辅助音频信号(212)的回声来确定(804)所述回声路径特性的估值(215、261)。
2.根据权利要求1所述的方法(800),其中
-所述第一频率位于人类可听的频率范围之外,例如其中所述第一频率在17kHz或更高频率处;和/或
-在所述第一频率处的所述音调音频信号的信号水平在人类的听力阈值以下。
3.根据任一前述权利要求所述的方法(800),其中
-所述呈现的音频信号包括所述辅助音频信号(212)和参考音频信号(111);以及
-所述辅助音频信号(212)包括具有所述参考音频信号(111)的掩蔽阈值以下的能量的信号分量。
4.根据权利要求3所述的方法(800),进一步包括
-从所述记录的音频信号(112)去除所述辅助音频信号(212)的回声,从而产生净音频信号(312);以及
-基于所述净音频信号(312)并且基于所述参考音频信号(111),执行声学回声消除和/或声学回声抑制。
5.根据权利要求3或4所述的方法(800),其中
-所述方法(800)进一步包括确定在特定时刻处的所述参考音频信号(111)中包括的噪声量;以及
-所述特定时刻处的所述辅助音频信号(212)的信号水平取决于在所述特定时刻处的所述参考音频信号(111)中包括的噪声量。
6.根据任一前述权利要求所述的方法(800),其中隔离(803)所述辅助音频信号(212)的回声包括使用具有所述第一频率处的通带的滤波器对所述记录的音频信号(112)进行滤波。
7.根据任一前述权利要求所述的方法(800),其中
-所述回声路径特性的估值(215、261)包括回声路径延迟的估值(215);
-所述第一频率处的所述音调音频信号具有预定的脉冲长度;以及
-确定(804)所述回声路径延迟的估值(215)包括确定所述音调音频信号与隔离的所述辅助音频信号(212)的回声中包括的音调音频信号的回声之间的时间偏移。
8.根据权利要求7所述的方法(800),其中
-所述预定的长度比预期的回声路径延迟短;和/或
-跨越所述音调音频信号的时间长度对所述音调音频信号进行幅度调制;和/或
-所述音调音频信号具有所述音调音频信号的时间长度的时间中心处的幅度峰值;和/或
-所述幅度调制对应于跨越所述音调音频信号的时间长度的正弦半波。
9.根据权利要求7或8所述的方法(800),进一步包括:
-基于所确定的所述回声路径延迟的估值(215),使待呈现的所述总音频信号中包括的参考音频信号(111)延迟,从而产生延迟的参考音频信号(213);以及
-基于所述延迟的参考音频信号(213),执行从所述记录的音频信号(112)得到的音频信号的声学回声消除。
10.根据权利要求1至6中任一项所述的方法,其中
-所述回声路径特性的估值(215、261)被配置成检测在所述回声路径(120)上出现的不连续性;以及
-确定(804)所述回声路径特性的估值(261)包括确定隔离的所述辅助音频信号(212)的回声中包括的所述音调音频信号的回声与所述第一频率之间的频率偏移。
11.根据权利要求10所述的方法(800),其中所述回声路径(120)上出现的不连续性归因于如下任何一个或更多个:
-当呈现所述总音频信号时和/或当记录所述呈现的音频信号的回声时由所述电子设备引起的所述总音频信号的帧的丢失或重复;
-当呈现所述总音频信号时和/或当记录所述呈现的音频信号的回声时由所述电子设备引起的所述总音频信号的样本的假信号;
-将被呈现的所述总音频信号的采样速率和所述记录的音频信号的采样速率之间的失配;以及
-影响所述回声路径(120)的所述电子设备的运动。
12.根据权利要求10或11所述的方法(800),其中使用被称为PLL单元的锁相环单元(251)来确定所述频率偏移,所述PLL单元被配置成锁定到所述第一频率。
13.根据权利要求10至12中任一项所述的方法(800),其中
-所述电子设备包括声学回声消除单元(104);以及
-如果所确定的频率偏移超过预定的频率偏移阈值,则所述方法进一步包括绕过所述声学回声消除单元(104)。
14.根据任一前述权利要求所述的方法(800),其中
-所述音调音频信号具有与小于所述第一频率的5%对应的带宽;和/或
-所述音调音频信号具有跨越其带宽的高斯频谱包络线。
15.根据任一前述权利要求所述的方法(800),其中所述辅助音频信号(212)包括多个不同频率处的多个音调信号。
16.一种被配置成确定电子设备(200、250、300、600)的回声路径(120)的回声路径特性的估值(215、261)的处理单元;其中所述电子设备被配置成使用扬声器(102)呈现总音频信号,从而产生呈现的音频信号,并且其中所述电子设备被配置成使用麦克风(103)记录呈现的音频信号的回声,从而产生记录的音频信号(112);其中所述处理单元被配置成
-以不可听的方式将辅助音频信号(212)插入(801)到将由所述扬声器(102)呈现的所述总音频信号中;其中所述辅助音频信号(212)包括第一频率处的音调音频信号;
-使所述辅助音频信号(212)的回声与所述记录的音频信号(112)隔离(803);以及
-基于插入的辅助音频信号(212)并且基于隔离的所述辅助音频信号(212)的回声来确定(804)所述回声路径特性的估值(215、261)。
17.一种存储介质,所述存储介质包括软件程序,所述软件程序适于在处理器上执行并且当在计算设备上执行时用于执行根据权利要求1至15中任一项所述的方法步骤。
CN201210224441.0A 2012-06-28 2012-06-28 通过隐藏音频信号的回声控制 Pending CN103516921A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201210224441.0A CN103516921A (zh) 2012-06-28 2012-06-28 通过隐藏音频信号的回声控制
US14/409,948 US9552827B2 (en) 2012-06-28 2013-06-27 Echo control through hidden audio signals
PCT/US2013/048123 WO2014004790A1 (en) 2012-06-28 2013-06-27 Echo control through hidden audio signals
EP13733538.6A EP2868073B1 (en) 2012-06-28 2013-06-27 Echo control through hidden audio signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210224441.0A CN103516921A (zh) 2012-06-28 2012-06-28 通过隐藏音频信号的回声控制

Publications (1)

Publication Number Publication Date
CN103516921A true CN103516921A (zh) 2014-01-15

Family

ID=49783852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210224441.0A Pending CN103516921A (zh) 2012-06-28 2012-06-28 通过隐藏音频信号的回声控制

Country Status (4)

Country Link
US (1) US9552827B2 (zh)
EP (1) EP2868073B1 (zh)
CN (1) CN103516921A (zh)
WO (1) WO2014004790A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105657610A (zh) * 2016-02-26 2016-06-08 北京小米移动软件有限公司 移动终端扩音方法及移动终端
CN106165015A (zh) * 2014-01-17 2016-11-23 英特尔公司 用于促进对于通信设备处的内容传输的基于加水印的回声管理的机制
CN107452395A (zh) * 2017-08-23 2017-12-08 深圳创维-Rgb电子有限公司 一种语音信号回声消除装置及电视机
CN108123902A (zh) * 2016-11-29 2018-06-05 晨星半导体股份有限公司 用来估计一影音信号的信道状态的估计方法及相关的估计电路与接收器
CN108476368A (zh) * 2015-12-29 2018-08-31 奥的斯电梯公司 声学电梯通信系统和这种系统的调整方法
CN109640223A (zh) * 2019-02-22 2019-04-16 昆腾微电子股份有限公司 一种啸叫抑制方法、装置、音响及扩音系统
CN110473562A (zh) * 2018-05-10 2019-11-19 杭州海康威视数字技术股份有限公司 音频数据处理方法、装置以及系统
CN112509595A (zh) * 2020-11-06 2021-03-16 广州小鹏汽车科技有限公司 音频数据处理方法、系统及存储介质
CN116506267A (zh) * 2023-06-30 2023-07-28 上海物骐微电子有限公司 滤波器系数确定方法、装置、电子设备及计算机存储介质

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9420114B2 (en) * 2013-08-06 2016-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Echo canceller for VOIP networks
US9620141B2 (en) * 2014-02-24 2017-04-11 Plantronics, Inc. Speech intelligibility measurement and open space noise masking
US20160171988A1 (en) * 2014-12-15 2016-06-16 Wire Swiss Gmbh Delay estimation for echo cancellation using ultrasonic markers
EP3354004B1 (en) * 2015-09-25 2021-10-27 Microsemi Semiconductor (U.S.) Inc. Acoustic echo path change detection apparatus and method
EP3223279B1 (en) * 2016-03-21 2019-01-09 Nxp B.V. A speech signal processing circuit
EP3469591B1 (en) 2016-06-08 2020-04-08 Dolby Laboratories Licensing Corporation Echo estimation and management with adaptation of sparse prediction filter set
GB2563092A (en) * 2017-06-02 2018-12-05 Cirrus Logic Int Semiconductor Ltd Audio amplifiers
EP3652867B1 (en) 2017-07-14 2021-05-26 Dolby Laboratories Licensing Corporation Mitigation of inaccurate echo prediction
US9947338B1 (en) * 2017-09-19 2018-04-17 Amazon Technologies, Inc. Echo latency estimation
US11238879B2 (en) * 2017-11-02 2022-02-01 Microsemi Semiconductor (U.S.) Inc. Acoustic delay measurement using adaptive filter with programmable delay buffer
US10992336B2 (en) 2018-09-18 2021-04-27 Roku, Inc. Identifying audio characteristics of a room using a spread code
US10958301B2 (en) 2018-09-18 2021-03-23 Roku, Inc. Audio synchronization of a dumb speaker and a smart speaker using a spread code
US10931909B2 (en) * 2018-09-18 2021-02-23 Roku, Inc. Wireless audio synchronization using a spread code
CN110166882B (zh) * 2018-09-29 2021-05-25 腾讯科技(深圳)有限公司 远场拾音设备、及远场拾音设备中采集人声信号的方法
US10943599B2 (en) 2018-10-26 2021-03-09 Spotify Ab Audio cancellation for voice recognition
US10796709B1 (en) 2019-05-16 2020-10-06 Microsoft Technology Licensing, Llc Acoustic echo cancellation bypass
CN111402868B (zh) * 2020-03-17 2023-10-24 阿波罗智联(北京)科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN113593589B (zh) * 2020-04-30 2022-06-28 阿波罗智联(北京)科技有限公司 回声时延检测方法、装置及电子设备
NO20201393A1 (en) * 2020-12-18 2022-06-20 Pexip AS Method and system for real time audio in multi-point video conferencing
US11539331B2 (en) 2021-04-12 2022-12-27 Cirrus Logic, Inc. Signal amplitude-selected signal predistortion in an amplifier

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3152292B2 (ja) 1997-04-15 2001-04-03 日本電気株式会社 多チャネルエコー除去方法及び装置
US6028929A (en) 1997-11-14 2000-02-22 Tellabs Operations, Inc. Echo canceller employing dual-H architecture having improved non-linear echo path detection
JP4417553B2 (ja) 1998-02-13 2010-02-17 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 雑音環境におけるフィルタ適応化の制御方法および装置
WO1999053673A1 (en) 1998-04-08 1999-10-21 British Telecommunications Public Limited Company Teleconferencing system
US7062039B1 (en) 1999-05-27 2006-06-13 Telefonaktiebolaget Lm Ericsson Methods and apparatus for improving adaptive filter performance by inclusion of inaudible information
US7920697B2 (en) * 1999-12-09 2011-04-05 Broadcom Corp. Interaction between echo canceller and packet voice processing
US7310425B1 (en) 1999-12-28 2007-12-18 Agere Systems Inc. Multi-channel frequency-domain adaptive filter method and apparatus
US6351531B1 (en) * 2000-01-21 2002-02-26 Motorola, Inc. Method and system for controlling echo cancellation using zero echo path, ringing, and off-hook detection
US6622030B1 (en) 2000-06-29 2003-09-16 Ericsson Inc. Echo suppression using adaptive gain based on residual echo energy
US6868116B2 (en) * 2001-02-16 2005-03-15 Nortel Networks Limited Universal telephony tones detector
GB2397990A (en) 2003-01-31 2004-08-04 Mitel Networks Corp Echo cancellation/suppression and double-talk detection in communication paths
DE602004016325D1 (de) * 2003-05-20 2008-10-16 Matsushita Electric Ind Co Ltd Diosignalbandes
US7903828B2 (en) 2005-02-25 2011-03-08 Polycom, Inc. Remote multipoint architecture for full-duplex audio
US8335311B2 (en) * 2005-07-28 2012-12-18 Kabushiki Kaisha Toshiba Communication apparatus capable of echo cancellation
US7817797B2 (en) 2006-06-07 2010-10-19 Mitel Networks Corporation Method and apparatus for detecting echo path changes in an acoustic echo canceller
US20080080702A1 (en) 2006-10-03 2008-04-03 Santera Systems, Inc. Method, System, and Computer-Readable Medium for Calculating an Echo Path Delay
US7860236B2 (en) 2007-02-01 2010-12-28 Hewlet-Packard Company Method and system for echo cancellation in a network switch
US8396206B2 (en) 2007-02-15 2013-03-12 Infineon Technologies Ag Multi-channel communication device and methods for reducing echoes by inserting a training sequence under a spectral mask
JP2008259032A (ja) * 2007-04-06 2008-10-23 Toshiba Corp 情報処理装置、およびプログラム
US8391472B2 (en) 2007-06-06 2013-03-05 Dreamworks Animation Llc Acoustic echo cancellation solution for video conferencing
US8923509B2 (en) 2007-10-23 2014-12-30 Cisco Technology, Inc. Controlling echo in a wideband voice conference
GB2456400B (en) 2008-01-21 2012-12-26 Skype Reducing echo in a signal to be transmitted in a communication system
DE102008039330A1 (de) 2008-01-31 2009-08-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen von Filterkoeffizienten zur Echounterdrückung
US8238548B2 (en) 2008-02-08 2012-08-07 Cisco Technology, Inc. Controlling echo during double-talk in a voice conference
US8411846B2 (en) 2008-05-09 2013-04-02 Agere Systems Llc Echo path change detection in telecommunications networks
US8488745B2 (en) 2009-06-17 2013-07-16 Microsoft Corporation Endpoint echo detection
FR2952263B1 (fr) 2009-10-29 2012-01-06 Univ Paris Descartes Procede et dispositif d'annulation d'echo acoustique par tatouage audio
JP5493817B2 (ja) 2009-12-17 2014-05-14 沖電気工業株式会社 エコーキャンセラ
US8964967B2 (en) * 2012-12-07 2015-02-24 Dialog Semiconductor B.V. Subband domain echo masking for improved duplexity of spectral domain echo suppressors

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106165015B (zh) * 2014-01-17 2020-03-20 英特尔公司 用于促进基于加水印的回声管理的装置和方法
CN106165015A (zh) * 2014-01-17 2016-11-23 英特尔公司 用于促进对于通信设备处的内容传输的基于加水印的回声管理的机制
CN108476368A (zh) * 2015-12-29 2018-08-31 奥的斯电梯公司 声学电梯通信系统和这种系统的调整方法
CN105657610A (zh) * 2016-02-26 2016-06-08 北京小米移动软件有限公司 移动终端扩音方法及移动终端
CN108123902A (zh) * 2016-11-29 2018-06-05 晨星半导体股份有限公司 用来估计一影音信号的信道状态的估计方法及相关的估计电路与接收器
CN108123902B (zh) * 2016-11-29 2021-05-25 联发科技股份有限公司 用来估计一影音信号的信道状态的估计方法及相关的估计电路与接收器
CN107452395A (zh) * 2017-08-23 2017-12-08 深圳创维-Rgb电子有限公司 一种语音信号回声消除装置及电视机
CN110473562A (zh) * 2018-05-10 2019-11-19 杭州海康威视数字技术股份有限公司 音频数据处理方法、装置以及系统
CN110473562B (zh) * 2018-05-10 2022-03-08 杭州海康威视数字技术股份有限公司 音频数据处理方法、装置以及系统
CN109640223B (zh) * 2019-02-22 2020-08-11 昆腾微电子股份有限公司 一种啸叫抑制方法、装置、音响及扩音系统
CN109640223A (zh) * 2019-02-22 2019-04-16 昆腾微电子股份有限公司 一种啸叫抑制方法、装置、音响及扩音系统
CN112509595A (zh) * 2020-11-06 2021-03-16 广州小鹏汽车科技有限公司 音频数据处理方法、系统及存储介质
CN116506267A (zh) * 2023-06-30 2023-07-28 上海物骐微电子有限公司 滤波器系数确定方法、装置、电子设备及计算机存储介质
CN116506267B (zh) * 2023-06-30 2023-09-19 上海物骐微电子有限公司 滤波器系数确定方法、装置、电子设备及计算机存储介质

Also Published As

Publication number Publication date
WO2014004790A1 (en) 2014-01-03
EP2868073A1 (en) 2015-05-06
EP2868073B1 (en) 2017-09-13
US9552827B2 (en) 2017-01-24
US20150371654A1 (en) 2015-12-24

Similar Documents

Publication Publication Date Title
CN103516921A (zh) 通过隐藏音频信号的回声控制
AU2017245314B2 (en) System and method for acoustic echo cancellation
US8143620B1 (en) System and method for adaptive classification of audio sources
US8781137B1 (en) Wind noise detection and suppression
US8965757B2 (en) System and method for multi-channel noise suppression based on closed-form solutions and estimation of time-varying complex statistics
US9386373B2 (en) System and method for estimating a reverberation time
US8515097B2 (en) Single microphone wind noise suppression
US7508948B2 (en) Reverberation removal
US9172817B2 (en) Communication system
US8340333B2 (en) Hearing aid noise reduction method, system, and apparatus
WO2009117084A2 (en) System and method for envelope-based acoustic echo cancellation
US6747581B2 (en) Techniques for variable sample rate conversion
US20120250872A1 (en) Method and System for Modeling External Volume Changes Within an Acoustic Echo Canceller
US9773510B1 (en) Correcting clock drift via embedded sine waves
US8194883B2 (en) Apparatus and method for designing sound compensation filter in portable terminal
US7711107B1 (en) Perceptual masking of residual echo
KR100754558B1 (ko) 주기 신호 향상 시스템
Ding et al. Drift-compensated adaptive filtering for improving speech intelligibility in cases with asynchronous inputs
Helffrich et al. The phase-locked loop as a tool for signal analysis
Lin et al. Real-time bayesian gsm buzz removal
KR20210021320A (ko) 사운드 교정을 위한 2-채널 공간 전달 함수의 지각적으로-투명한 추정
Mohammad Simple and efficient solutions to the problems associated with acoustic echo cancellation
Li et al. Challenges and solutions for designing software AEC on personal computers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140115