CN114008999B

CN114008999B - 声学回声消除

Info

Publication number: CN114008999B
Application number: CN201980098110.7A
Authority: CN
Inventors: S·库图鲁; S·巴里特卡尔; M·S·阿特雷亚
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2019-07-03
Filing date: 2019-07-03
Publication date: 2024-09-03
Anticipated expiration: 2039-07-03
Also published as: WO2021002862A1; CN114008999A; US11937076B2; EP3994874A1; US20220116733A1; EP3994874A4

Abstract

描述了用于视频会议系统的声学回声消除。可以确定房间中的人员的位置。可以使用波束成形来捕获从所述人员的位置接收到的音频信号。可以部分地基于从所述人员的位置捕获到的所述音频信号来确定声学回声消除参数。可以使用所述声学回声消除参数对所述音频信号执行声学回声消除。

Description

声学回声消除

背景技术

视频会议系统可以用于不同位置中的各方之间的通信。近端处的视频会议系统可以捕获近端处的音频-视频信息，并且将该音频-视频信息传输到远端。类似地，远端处的视频会议系统可以捕获远端处的音频-视觉信息，并且将该音频-视觉信息传输到近端。

附图说明

图1图示了根据本公开的包括多个人员的近端房间中的视频会议系统的示例；

图2图示了根据本公开的用于针对音频信号执行声学回声消除的技术的示例；

图3图示了根据本公开的用于执行声学回声消除的视频会议系统的示例；

图4是图示了根据本公开的在视频会议系统中执行声学回声消除的示例方法的流程图；

图5是图示了根据本公开的在视频会议系统中执行声学回声消除的另一个示例方法的流程图；

图6是提供了可以在本公开中采用的计算设备的示例图示的框图。

具体实施方式

本公开描述了一种机器可读存储介质、以及用于诸如视频会议系统中的声学回声消除的方法和系统。本公开的示例可以包括一种机器可读存储介质，所述机器可读存储介质包括指令，所述指令在由处理器执行时使得处理器确定房间中的人员的位置。所述指令在由处理器执行时可以使得处理器：使用波束成形来捕获从所述人员的位置接收到的音频信号。所述指令在由处理器执行时可以使得处理器：部分地基于从所述人员的位置捕获到的所述音频信号来确定声学回声消除参数。所述指令在由处理器执行时可以使得处理器：使用声学回声消除参数对所述音频信号执行声学回声消除。在一个示例中，所述指令使得处理器：将具有被消除的声学回声的所述音频信号传输到远端系统。在另一个示例中，声学回声消除参数包括房间脉冲响应。在仍另一个示例中，例如，执行波束成形以捕获所述音频信号的波束成形器的输出可以是去往回声消除器的输入，所述回声消除器对所述音频信号执行声学回声消除。可以使用固定延迟和波束成形器（fixed delay-sum beamformer）和一组波束成形参数利用麦克风阵列来执行波束成形。所述指令可以使得处理器：使用相机信息、压力传感器信息、信号功率信息或其组合来确定房间中的所述人员的位置。在另一个示例中，所述指令可以使得处理器：在从波束成形器输出的多个通道上执行声学回声消除，其中通道的数量对应于在房间中检测到的人员的数量。更详细地，所述指令可以使得处理器：在房间中的所述人员的位置改变时确定更新声学回声消除参数，以及在房间中的所述人员的位置没有改变时确定不更新声学回声消除参数。

本公开的另一个示例可以包括用于声学回声消除的方法。所述方法可以包括：部分地基于相机信息来确定房间中的人员的位置。所述方法可以包括：使用波束成形器来捕获从所述人员的位置接收到的音频信号。所述方法可以包括：部分地基于从所述人员的位置捕获到的所述音频信号来确定房间脉冲响应。所述方法可以包括：提供波束成形器的输出作为去往回声消除器的输入，所述回声消除器部分地基于所述房间脉冲响应对从所述人员的位置接收到的所述音频信号执行声学回声消除。所述方法可以包括：传输具有被消除的声学回声的所述音频信号。在一个示例中，声学回声消除可以在从波束成形器输出的多个通道上进行，其中通道的数量对应于部分地基于相机信息在房间中检测到的人员的数量。在另一个示例中，执行波束成形可以使用波束成形器和一组波束成形参数利用麦克风阵列而发生。

本公开的另一个示例可以包括用于声学回声消除的系统。所述系统可以包括相机，以捕获房间的相机信息。所述系统可以包括麦克风阵列，以捕获从房间中的人员的位置接收到的音频信号。所述系统可以包括处理器。处理器可以部分地基于相机信息来确定房间中的所述人员的位置。处理器可以使用麦克风阵列来执行波束成形，以捕获从所述人员的位置接收到的所述音频信号。处理器可以部分地基于从所述人员的位置捕获到的所述音频信号来确定声学回声消除参数。处理器可以使用声学回声消除参数对所述音频信号执行声学回声消除。处理器可以传输具有被消除的声学回声的所述音频信号。在一个示例中，处理器可以在从用于执行波束成形的波束成形器输出的多个通道上执行声学回声消除，其中通道的数量对应于部分地基于相机信息在房间中检测到的人员的数量。在另一个示例中，相机可以是立体相机、结构光传感器相机、飞行时间相机或其组合。在一个特定示例中，所述系统可以是视频会议系统。

在这些示例中，要注意的是，当讨论所述存储介质、方法或系统时，任何这种讨论都可以被认为适用于其他示例，无论它们是否在该示例的情境中被明确讨论。因此，例如，在所述存储介质的情境中讨论关于音频信号的细节时，这种讨论还涉及本文中描述的方法和系统，并且反之亦然。

现在转到附图，图1图示了包括多个人员110的近端房间120中的视频会议系统100的示例。视频会议系统100可以包括相机102，以捕获近端房间120的相机信息。例如，相机102可以捕获近端房间120中的人员110的视频。在近端房间120中捕获到的视频可以被转换成视频信号，并且该视频信号可以被传输到远端房间150。视频会议系统100可以包括扬声器（或扩音器）104。扬声器104可以接收来自远端房间150的音频信号，并且基于该音频信号产生声音。视频会议系统100可以包括麦克风106，以捕获近端房间120中的音频。例如，麦克风106可以捕获由近端房间120中的人员110说出的音频。在近端房间120中捕获到的音频可以被转换成音频信号，并且该音频信号可以被传输到远端房间150。此外，视频会议系统100可以包括显示器108，以显示从远端房间150接收到的视频信号。

在一个示例中，远端房间150可以包括视频会议系统130。视频会议系统130可以包括相机132，以捕获远端房间150的相机信息。例如，相机132可以捕获远端房间160中的人员140的视频。在远端房间150中捕获到的视频可以被转换成视频信号，并且该视频信号可以被传输到近端房间120。视频会议系统130可以包括扬声器134，扬声器134可以接收来自近端房间120的音频信号，并且基于该音频信号产生声音。视频会议系统130可以包括麦克风136，以捕获远端房间150中的音频。例如，麦克风136可以捕获由远端房间150中的人员140说出的音频。在远端房间150中捕获到的音频可以被转换成音频信号，并且该音频信号可以被传输到近端房间120。此外，视频会议系统130可以包括显示器138，以显示从近端房间120接收到的视频信号。

在图1所示的示例中，近端房间120中的视频会议系统100和远端房间150中的视频会议系统130可以使得近端房间120中的人员110与远端房间150中的人员140能够进行通信。例如，基于在近端房间120中的视频会议系统100与远端房间150中的视频会议系统130之间传送的音频-视频信息，近端房间120中的人员110可能能够看到和听到远端房间150中的人员140。在该非限制性示例中，近端房间120可以包括四个人员，并且远端房间150可以包括两个人员，但是在近端房间120和远端房间150中可以存在其他数量的人员。

在一个示例中，捕获由近端房间120中的人员110说出的音频的麦克风106可以是麦克风阵列。麦克风阵列可以包括放置在不同空间位置处的多个麦克风。麦克风阵列可以使用波束成形来捕获由近端房间120中的人员110说出的音频。捕获由人员110说出的音频的麦克风阵列中的麦克风的不同空间位置可以产生波束成形参数。可以基于波束成形参数来增加从近端房间120中的特定方向（诸如，近端房间120中的人员110的位置）发出的信号的信号强度。从近端房间120中的其他方向（诸如，与近端房间120中的人员110的位置不同的位置）发出的信号（例如，由于噪声）的信号强度可以基于波束成形参数以良性（benign）或破坏性的方式被组合，从而导致去往/来自与近端房间120中的人员110的位置不同的位置的信号的降级（degradation）。因此，通过使用声音传播原理，麦克风阵列可以提供基于特定方向的知识来增强从近端房间120中的该特定方向发出的信号的能力。

在一个示例中，使用麦克风阵列的波束成形技术可以自适应地跟踪活动人员，并且侦听活动人员的（一个或一个）方向上的声音，并且抑制来自其他方向的声音（或噪声）。使用麦克风阵列的波束成形可以通过增加活动人员方向上的音频信号的增益并且减少在麦克风阵列的（一个或一个）麦克风处接收到的远端扬声器回声的数量，来增强接收到的语音的声音质量。换句话说，通过改变麦克风阵列中的给定麦克风输出的增益和相位延迟，来自特定方向的声音信号可以通过相长干扰被放大，而其他方向上的声音信号可以通过相消干扰被衰减。麦克风阵列中的（一个或一个）麦克风的（一个或一个）增益和（一个或一个）相位延迟可以被视为波束成形参数。此外，由于给定麦克风输出的增益和相位延迟可以基于人员110的位置而变化，因此波束成形参数也可以取决于人员110的位置。

此外，使用麦克风阵列的波束成形技术可以被分类为数据无关的或固定的、或者数据相关的或自适应的。对于数据无关的或固定的波束成形技术而言，波束成形参数在操作期间可能是固定的。对于数据相关的或自适应的波束成形技术而言，可以基于接收到的信号来持续地更新波束成形参数。固定波束成形技术的示例可以包括延迟和波束成形、子阵列延迟和波束成形、超方向性波束成形、或近场超方向性波束成形。自适应波束成形技术的示例可以包括广义旁瓣对消器波束成形、自适应麦克风阵列降噪系统（AMNOR）波束成形、或滤波后波束成形。

在一个示例中，使用近端房间120中的视频会议系统100的麦克风106捕获到的音频可以作为音频信号被传输到远端房间150中的视频会议系统130。该音频信号可以用于在远端房间150中的视频会议系统130的扬声器134处产生声音。该声音可以在远端房间150周围反弹（bounce）达几分之一秒，并且可以由远端房间150中的视频会议系统100的麦克风136检测到，并且然后该声音可以被发送回到近端房间120中的视频会议系统100。在一些情况下，在远端房间150周围反弹的声音可能会产生在近端房间120中听到的分散注意力且不期望的回声。例如，近端房间120中的人员110可以讲话，并且当该声音在远端房间150周围反弹时，人员110可能会听到他们自己的话音的回声。

在一个示例中，声学回声消除可以用于消除或减少从近端房间120中的视频会议系统100传输到远端房间150中的视频会议系统130的音频信号中的声学回声。从近端房间120中的视频会议系统100传输的音频信号可以包括近端语音信号和远端回声语音信号。近端语音信号可以来源于（derive from）使用波束成形利用麦克风阵列在近端房间120处捕获到的音频信号，并且远端回声语音信号可以来源于从远端房间150接收到的音频信号。声学回声消除可以被应用在近端语音信号和远端回声语音信号两者上，使得从该音频信号中去除远端回声语音信号。包括近端语音信号的音频信号（即，其中声学回声已经被消除或减少的音频信号）可以被传输到远端房间150中的视频会议系统130。

图2图示了根据本公开的用于针对音频信号执行声学回声消除的技术的示例。可以使用近端房间220中的计算设备216来执行声学回声消除。计算设备216可以是捕获近端房间处的音频-视频并且将该音频-视频传输到远端房间230的视频会议系统的一部分。计算设备216可以包括或耦合到扬声器204（或扩音器）、相机206（诸如，立体相机、结构光传感器相机或飞行时间相机）以及麦克风阵列212。换句话说，扬声器204、相机206和麦克风阵列212可以与计算设备216集成，或者可以是耦合到计算设备216的分离单元。

在一个示例中，相机206可以捕获近端房间200的相机信息。相机信息可以是近端房间200的数字图像和/或数字视频。相机信息可以被提供给在计算设备216上操作的人员检测器和跟踪器单元208。人员检测器和跟踪器单元208可以使用对象检测来分析相机信息，该对象检测可以包括面部检测。基于相机信息，人员检测器和跟踪器单元208可以确定近端房间220中的人员数量、以及近端房间220中的人员的位置。基于相机信息在近端房间220中检测到的（一个或多个）人员可以包括当前正在讲话的人员、或当前没有讲话的人员（例如，近端房间220中的正在听正在讲话的另一个人员的人员）。

在一个示例中，人员的位置可以是相对于近端房间220中该数量的人员的相对位置。人员的相对位置可能暗示着一个或多个人员相对于麦克风阵列212中的麦克风的相对位置。可以基于确定相对于麦克风阵列212中的麦克风的相机位置来确定该相对位置。可以手动地或使用对象检测来确定相对于麦克风阵列212中的麦克风的相机位置。相机位置可以被确定一次或周期性地确定，因为相机206和麦克风阵列212中的麦克风可以是固定的或半固定的。

作为非限制性示例，基于使用相机206捕获到的相机信息，人员检测器和跟踪器单元208可以检测到在近端房间220中有四个人员。此外，基于相机信息，人员检测器和跟踪器单元208可以确定：第一人员在近端房间220中的第一位置处，第二人员在近端房间220中的第二位置处，第三人员在近端房间220中的第三位置处，并且第四人员在近端房间220中的第四位置处。

在一个示例中，人员检测器和跟踪器单元208可以在一时间段内跟踪近端房间220中的人员。当传入视频帧中的变化水平高于所定义的阈值时，人员检测器和跟踪器单元208可以运行。例如，当人员进入近端房间220并且在近端房间220中安顿下来（settledown）时，人员检测器和跟踪器单元208可以在视频会议呼叫开始期间运行，并且当人员不太可能在近端房间220中移动并且因此维持相对于麦克风阵列212的方向时，人员检测器和跟踪器单元208可以在简化模式（reduced mode）下运行。

在一个示例中，人员检测器和跟踪器单元208可以向在计算设备216上操作的波束成形器210提供人员位置信息。人员位置信息可以指示近端房间220中的人员的位置。波束成形器210可以是固定波束成形器（例如，执行延迟和波束成形的波束成形器）或自适应波束成形器。波束成形器210可以耦合到麦克风阵列212。波束成形器210和麦克风阵列212可以一起工作以执行波束成形。波束成形器210和麦克风阵列212可以捕获从近端房间220中的人员的位置接收到的音频信号。例如，当近端房间220中的人员讲话并且基于人员位置信息确定了该人员的位置时，波束成形器210和麦克风阵列212可以捕获从近端房间220中的该人员的位置接收到的音频信号。可以使用波束成形参数来捕获音频信号，其中可以基于近端房间中的该人员的位置来设置波束成形参数。

在一个示例中，波束成形器210可以向多方向声学回声消除器214提供使用波束成形参数从近端房间220中的该人员的位置接收到的音频信号。换句话说，波束成形器210的输出可以是去往声学回声消除器214的输入。声学回声消除器214可以在计算设备216上操作。声学回声消除器214还可以从远端房间230接收远端信号202。远端信号202可以被提供给近端房间220中的扬声器204，并且在近端房间220中产生可以被麦克风阵列212检测到的声学回声。声学回声消除器214可以基于与使用波束成形器210从近端房间220中的该人员的位置接收到的音频信号相关联的波束成形参数来确定声学回声消除参数。声学回声消除参数的一个示例可以是房间脉冲响应。房间脉冲响应可以对应于与使用波束成形器210从近端房间220中的该人员的位置接收到的音频信号相关联的波束成形参数、以及由远端信号202引起的声学回声。

在一个示例中，声学回声消除器214可以使用有限脉冲响应（FIR）滤波器对房间脉冲响应进行建模。更具体地，声学回声消除器214可以基于来自扬声器104的扬声器信号和来自麦克风106的麦克风信号使用FIR滤波器对房间脉冲响应进行建模。取决于扬声器信号和麦克风信号，可以使用FIR来估计房间脉冲响应。因此，FIR参数可以对应于声学回声消除参数。

在一个示例中，可以将声学回声消除参数应用于从近端房间220中的该人员的位置接收到的音频信号，从而产生具有被消除（或减少）的声学回声的音频信号。换句话说，可以应用声学回声消除参数来消除或减少在麦克风阵列212处检测到的、由远端信号202引起的声学回声，这可以产生不受由远端信号202引起的声学回声所影响的所得音频信号。该所得音频信号可以是被传输到远端房间230的近端信号218。由于声学回声消除已经被应用于近端信号218以去除或减少声学回声，所以近端信号218可以具有增加的声音质量。

在一个示例中，波束成形器210可以利用N个波束或N个通道进行操作，其中N是正整数。一个通道或一个波束可以对应于使用人员检测器和跟踪器单元208检测到的人员。类似地，可以关于N个波束或N个通道来执行声学回声消除。

作为非限制性示例，人员检测器和跟踪器单元208可以检测近端房间220中的三个人员。在该示例中，波束成形器210可以使用第一波束或通道来接收来自近端房间220中的第一人员的音频信号，使用第二波束或通道来接收来自近端房间220中的第二人员的音频信号，并且使用第三波束或通道来接收来自近端房间220中的第三人员的音频信号。然后，第一声学回声消除器可以对第一波束或通道执行声学回声消除，第二声学回声消除器可以对第二波束或通道执行声学回声消除，并且第三声学回声消除器可以对第三波束或通道执行声学回声消除。因此，在远端房间中标识的人员可以对应于波束或通道，并且声学回声消除可以被应用于该波束或通道。该技术可以具有增加的计算效率，这是因为它取决于近端房间220中的人员数量，而不是麦克风阵列212中的通道数量。

声学回声消除器的数量可能对应于麦克风阵列的通道数量，即使房间中的人员数量少于麦克风阵列中的通道数量。换句话说，可能执行逐通道的回声消除，其中一个麦克风信号将对应于一个通道。当麦克风阵列中的麦克风数量增加时，该解决方案将会变得更加计算密集。例如，在房间中有四个人员的情况下的16麦克风阵列将导致使用16个声学回声消除器来执行声学回声消除。因此，当房间中的人员数量少于麦克风阵列中的麦克风数量时，将会执行增加数量的计算。

此外，波束成形将在声学回声消除之后执行，以捕获来自房间中的所定义位置的音频。例如，16个声学回声消除器将用于针对在房间中有四个人员的情况下的16麦克风阵列执行声学回声消除，并且然后将针对房间中的四个人员来执行波束成形。

在本公开中，相机信息可以用于确定房间中的人员数量，并且波束成形器使用的波束或通道的数量可以对应于房间中的人员数量。此外，用于执行声学回声消除的回声消除器的数量可以对应于波束成形器使用的波束或通道的数量。因此，在本公开中，可以在波束成形之后执行声学回声消除。

在本公开中，即使当减少数量的人员处于房间中时，也可以在麦克风阵列中使用增加数量的麦克风，同时维持增加的计算效率。麦克风阵列中的增加数量的麦克风可以在感兴趣的方向上提供增加的方向性和增加的增益或信噪比（SNR）。因此，本公开提供了一种具有降低的复杂性的声学回声消除设置，同时维持了麦克风阵列中的增加数量的麦克风。

作为非限制性示例，在四个人员的情况下的16麦克风阵列可以产生四个波束或声道，并且可以产生用于执行声学回声消除的四个声学回声消除器。因此，在本公开中，可以增加计算效率，这是因为可以基于房间中的人员数量（以及波束或通道的对应数量）而不是基于麦克风阵列中的通道数量来执行声学回声消除。

图3图示了用于执行声学回声消除的视频会议系统300的示例。视频会议系统300可以是近端视频会议系统或远端视频会议系统。视频会议系统300可以包括相机310（诸如，立体相机、结构光传感器相机或飞行时间相机）、麦克风阵列320、（一个或多个）压力传感器330、扬声器335（或扩音器）、以及对音频信号322执行声学回声消除的处理器340。处理器340的一个非限制性示例可以是数字信号处理器（DSP）。

在一个示例中，相机310可以捕获房间的相机信息312。相机信息312可以包括房间的视频信息，该视频信息可以包括多个视频帧。相机310可以持续地或间歇地操作以捕获房间的相机信息312。例如，相机310可以在视频会议会话期间持续地操作，或者可以在视频会议会话期间间歇地操作（例如，在视频会议会话开始时、以及在视频会议会话期间的所定义的时段处操作）。

在一个示例中，麦克风阵列320可以捕获从房间中的人员的位置接收到的音频信号322。麦克风阵列320可以包括位于不同空间位置处的多个麦克风。麦克风阵列320中的麦克风可以是全向麦克风、定向麦克风、或全向和定向麦克风的组合。

在一个示例中，扬声器335可以产生声音，该声音可以被麦克风阵列320检测到。例如，该声音可以对应于在视频会议系统300处从远端接收到的音频信号。

在一个示例中，处理器340可以包括人员位置确定模块342。人员位置确定模块342可以基于相机信息312来确定房间中的该人员的位置。例如，人员位置确定模块342可以使用对象检测、面部识别或类似技术来分析相机信息312，以确定房间中的人员数量、以及房间中的该数量人员中的人员的位置。该人员的位置可以是相对于房间中的其他人员的位置的相对位置。

附加地，人员位置确定模块342可以使用来自（一个或多个）压力传感器330的压力传感器信息来确定房间中的该人员的位置。（一个或多个）压力传感器330可以安装在房间中的椅子或座位上，并且可以用于检测房间中的人员的存在。例如，安装在某个椅子上的压力传感器330可以基于由压力传感器330产生的压力传感器信息来检测人员是否坐在该椅子上。（一个或多个）压力传感器330可以发送压力传感器信息，这可以使得人员位置确定模块342能够确定房间中的人员数量。

附加地，人员位置确定模块342可以使用如在麦克风阵列320处确定的信号功率信息来确定房间中的该人员的位置。信号功率信息可以指示与使用麦克风阵列320检测到的音频信号322相关联的信号功率。与音频信号322相关联的信号功率可以用于确定房间中的该人员关于麦克风阵列320的距离和/或位置。可以提供信号功率信息以使得人员位置确定模块342能够确定房间中的该人员的位置。

在一个示例中，处理器可以包括波束成形模块344。波束成形模块344可以使用麦克风阵列320来执行波束成形以捕获从该人员的位置接收到的音频信号322。在一个示例中，波束成形模块344可以使用固定波束成形技术，诸如延迟和波束成形、子阵列延迟和波束成形、超方向性波束成形、或近场超方向性波束成形。在另一个示例中，波束成形模块344可以使用自适应波束成形技术，诸如广义旁瓣对消器波束成形、AMNOR波束成形、或滤波后波束成形。

在一个示例中，波束成形模块344可以使用波束成形参数346来捕获从该人员的位置接收到的音频信号322，其中波束成形参数346可以基于房间中的该人员的位置。换句话说，可以使用相机信息312来确定房间中的该人员的位置，并且可以使用该位置来设置或调整波束成形参数346。基于波束成形参数346，可以从该人员的位置捕获音频信号。

在一个示例中，处理器340可以包括声学回声消除模块348。声学回声消除模块348可以基于从该人员的位置捕获到的音频信号322来确定声学回声消除参数350。更具体地，声学回声消除模块348可以基于波束成形参数346来确定声学回声消除参数350，波束成形参数346可以基于房间中的该人员的检测到的位置来设置。因此，声学回声消除模块348可以从波束成形模块344接收音频信号322。在这种情况下，波束成形模块344的输出可以是去往声学回声消除模块348的输入。

在一个示例中，声学回声消除参数350可以是房间脉冲响应。房间脉冲响应可以对应于与从房间中的该人员的位置接收到的音频信号322相关联的波束成形参数346、以及由麦克风阵列320检测到的声学回声。声学回声可以从扬声器335所产生的声音中得到，该声音由麦克风阵列320检测到。该声音可以与在视频会议系统300处从远端接收到的音频信号相关联。房间脉冲响应可以特定于麦克风阵列320中的一个麦克风。换句话说，麦克风阵列320中的一个麦克风可以与一个房间脉冲响应相关联，而麦克风阵列320中的另一个麦克风可以与另一个房间脉冲响应相关联。

在一个示例中，可以使用FIR滤波器对房间脉冲响应进行建模。更具体地，可以基于来自扬声器335的扬声器信号以及在麦克风320处检测到的音频信号322使用FIR滤波器对房间脉冲响应进行建模。取决于扬声器信号和音频信号322，可以使用FIR来估计房间脉冲响应。因此，FIR参数可以对应于声学回声消除参数350。

在一个示例中，声学回声消除模块348可以使用诸如房间脉冲响应之类的声学回声消除参数350对音频信号322执行声学回声消除。声学回声消除模块348可以应用声学回声消除参数来消除或减少音频信号322中的声学回声。

在一个示例中，与当房间脉冲响应相对密集时相比，当房间脉冲响应相对稀疏时，声学回声消除模块348可以在减少的时间量内收敛（converge）到声学回声消除解决方案。在一个示例中，当产生来自扬声器335的声音时，可能会形成回声，该回声通过房间反射，并且然后到达麦克风阵列320。麦克风阵列320可能能够从多个方向接收声音。通过使用波束成形，可以捕获来自房间中的特定方向的声音。来自该特定方向的反射声音的数量可以被减少，在这种情况下，房间脉冲响应可以是相对稀疏的。声学回声消除模块348可以得知由于稀疏的房间脉冲响应所致的减少的反射，因此声学回声消除模块348可以在减少的时间量内收敛到声学回声消除解决方案。

在一个示例中，处理器340可以包括音频信号传输模块352。音频信号传输模块352可以从声学回声消除模块348接收具有被消除的声学回声的音频信号322。音频信号传输模块352可以将具有被消除的声学回声的音频信号传输到例如远程视频会议系统。

在一种配置中，波束成形模块344可以利用N个波束或N个通道进行操作，其中N是正整数。一个通道或一个波束可以对应于在房间中检测到的人员。类似地，声学回声消除模块348可以利用从波束成形模块344输出的N个波束或N个通道来执行声学回声消除。在本示例中，N个波束或N个通道可以对应于在房间中检测到的人员的数量。因此，声学回声消除模块348可以操作与在房间中检测到的人员的数量相等的（一个或多个）并行声学回声消除器，这可以导致增加的计算效率。

在一种配置中，声学回声消除模块348可以基于波束成形参数346来确定声学回声消除参数350，波束成形参数346可以基于房间中的该人员的检测到的位置来设置。在一个示例中，当房间中的该人员的位置改变时，声学回声消除模块348可以更新声学回声消除参数350。换句话说，房间中的该人员的改变的位置可能改变波束成形参数346，这进而可能使得声学回声消除参数350被更新。另一方面，当房间中的该人员的位置没有改变时，声学回声消除模块348可以确定不更新声学回声消除参数350。通过在房间中的该人员的位置改变时更新声学回声消除参数350并且在房间中的该人员的位置没有改变时不更新声学回声消除参数350，可以在处理器340处节省计算资源。

在一种配置中，可以使用空间音频技术以通过收集来自近端的信息从而在远端视频会议系统处创建定向声音。远端设备可以是能够为其创建定向声音的条形音箱（soundbar）或头带式耳机。对于条形音箱而言，可以使用波束成形来创建定向声音。对于头带式耳机而言，可以使用头部相关的传递函数（HTRF）来创建定向声音。可以通过使用相机信息312来估计近端处的人员方向，并且可以选择人员的平均位置以适应近端处的人员的轻微移动。关于人员方向和人员的平均位置的信息可以从近端处的视频会议系统300被发送到远端视频会议系统，以使得能够创建定向声音。通过选择人员的平均位置，远端视频会议系统处的扩音器波束成形器或HTRF空间音频渲染器（spatial audio renderer）可以不持续地改变参数，从而节省了远端视频会议系统处的计算。

图4是图示了在视频会议系统中执行声学回声消除的一个示例方法400的流程图。所述方法可以作为机器上的指令来执行，其中所述指令可以被包括在非暂时性机器可读存储介质上。所述方法可以包括：确定房间中的人员的位置，如在框410中那样。所述方法可以包括：使用波束成形来捕获从所述人员的位置接收到的音频信号，如在框420中那样。所述方法可以包括：部分地基于从所述人员的位置捕获到的所述音频信号来确定声学回声消除参数，如在框430中那样。所述方法可以包括：使用声学回声消除参数对所述音频信号执行声学回声消除，如在框440中那样。在一个示例中，方法400可以使用视频会议系统300来执行，但是方法400不限于使用视频会议系统300来执行。

图5是图示了在视频会议系统中执行声学回声消除的一个示例方法500的流程图。所述方法可以作为机器上的指令来执行，其中所述指令可以被包括在非暂时性机器可读存储介质上。所述方法可以包括：部分地基于相机信息来确定房间中的人员的位置，如在框510中那样。所述方法可以包括：使用波束成形器来捕获从所述人员的位置接收到的音频信号，如在框520中那样。所述方法可以包括：部分地基于从所述人员的位置捕获到的所述音频信号来确定房间脉冲响应，如在框530中那样。所述方法可以包括：提供波束成形器的输出作为去往回声消除器的输入，所述回声消除器部分地基于房间脉冲响应对从所述人员的位置接收到的所述音频信号执行声学回声消除，如在框540中那样。所述方法可以包括：传输具有被消除的声学回声的所述音频信号，如在框550中那样。在一个示例中，方法500可以使用视频会议系统300来执行，但是方法500不限于使用视频会议系统300来执行。

图6图示了可以在其上执行本公开的模块的计算设备610。图示了可以在其上执行本公开的高级示例的计算设备610。计算设备610可以包括与存储器设备620进行通信的（一个或多个）处理器612。该计算设备可以包括用于计算设备中的组件的本地通信接口618。例如，本地通信接口可以是本地数据总线和/或相关的地址或控制总线，如可能期望的那样。

存储器设备620可以包含可由（一个或多个）处理器612执行的模块624以及用于模块624的数据。模块624可以执行较早描述的功能，诸如：部分地基于相机信息来确定房间中的人员的位置；使用波束成形器来捕获从所述人员的位置接收到的音频信号；部分地基于从所述人员的位置捕获到的所述音频信号来确定房间脉冲响应；提供波束成形器的输出作为去往回声消除器的输入，所述回声消除器部分地基于房间脉冲响应对从所述人员的位置接收到的所述音频信号执行声学回声消除；以及传输具有被消除的声学回声的所述音频信号。

数据存储库622也可以位于存储器设备620中，以用于存储与模块624和其他应用、连同可由（一个或多个）处理器612执行的操作系统相关的数据。

其他应用也可以被存储在存储器设备620中，并且可以由（一个或多个）处理器612执行。可以使用高级编程语言以机器可读软件的形式来实现在本描述中讨论的组件或模块，该高级编程语言使用这些方法的混合来编译、解译或执行。

该计算设备还可以有权访问可由计算设备使用的I/O（输入/输出）设备614。I/O设备的示例是可用于显示来自计算设备的输出的显示屏。联网设备616和类似的通信设备可以被包括在该计算设备中。联网设备616可以是连接到互联网、局域网（LAN）、广域网（WAN）或其他计算网络的有线或无线联网设备。

被示为存储在存储器设备620中的组件或模块可以由处理器612执行。术语“可执行的”可以意指采用可以由处理器612执行的形式的程序文件。例如，采用更高级语言的程序可以被编译成采用可被加载到存储器设备620的随机存取部分中并由处理器612执行的形式的机器代码，或者源代码可以由另一个可执行程序加载并且被解译以在存储器的随机存取部分中生成将由处理器执行的指令。可执行程序可以被存储在存储器设备620的部分或组件中。例如，存储器设备620可以是随机存取存储器（RAM）、只读存储器（ROM）、闪速存储器、固态驱动器、存储卡、硬盘驱动器、光盘、软盘、磁带或其他存储器组件。

处理器612可以表示多个处理器，并且存储器620可以表示与处理电路并行操作的多个存储器单元。这可以为系统中的进程和数据提供并行处理通道。本地接口618可以用作网络，以便于多个处理器与多个存储器之间的通信。本地接口618可以使用针对协调通信而设计的附加系统，诸如负载平衡、批量数据传输（bulk data transfer）和类似系统。

虽然针对本公开呈现的流程图可以暗示特定的执行次序，但是执行次序可以不同于所图示的次序。例如，另外两个框的次序可以相对于所示的次序被重新布置。此外，连续示出的两个或更多个框可以并行地执行或以部分并行化的方式执行。在一些配置中，流程图中所示的（一个或多个）框可以被省略或跳过。出于增强实用性、记账（accounting）、性能、测量、故障诊断的目的或出于类似的原因，可以将多个计数器、状态变量、警告信号量（semaphore）或消息添加到逻辑流程。

本说明书中描述的一些功能单元已经被标记为模块，以便更具体地强调它们的实现独立性。例如，模块可以被实现为硬件电路，包括定制的超大规模集成（VLSI）电路或门阵列、现成的半导体，诸如逻辑芯片、晶体管或其他分立元件。模块也可以在可编程硬件设备中实现，该可编程硬件设备诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑器件等。

模块也可以在机器可读软件中实现，以用于由各种类型的处理器执行。可执行代码的所标识的模块可以例如包括可以被组织为对象、过程或函数的计算机指令的（一个或多个）块。然而，所标识的模块的可执行文件不需要在物理上定位在一起，而是可以包括存储在不同位置中的完全不同的指令，这些指令构成该模块，并且当在逻辑上结合在一起时实现该模块的所声明的目的。

实际上，可执行代码的模块可以是单个指令，或者是许多指令，并且甚至可以分布在若干个不同的代码段上、分布在不同的程序当中、以及跨若干个存储器设备而分布。类似地，操作数据在本文中可以在模块内被标识和说明，并且可以以合适的形式被体现并且被组织在合适类型的数据结构内。操作数据可以作为单个数据集来收集，或者可以分布在不同的位置上，包括分布不同的存储设备上。这些模块可以是被动的或主动的，包括可操作以执行期望功能的代理。

本文中描述的公开内容也可以存储在计算机可读存储介质上，该介质包括利用公开内容实现的易失性和非易失性、可移除和不可移除介质，以用于存储信息，诸如计算机可读指令、数据结构、程序模块或其他数据。计算机可读存储介质可以包括但不限于：RAM、ROM、电可擦除可编程只读存储器（EEPROM）、闪速存储器或其他存储器公开、光盘只读存储器（CD-ROM）、数字多功能盘（DVD）或其他光学存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备、或可以用于存储期望信息和所描述的公开内容的其他计算机存储介质。

本文中描述的设备还可以包含允许设备与其他设备进行通信的通信连接或联网装置和联网连接。通信连接可以是通信介质的示例。通信介质可以体现调制数据信号（诸如，载波或其他传输机制）中的计算机可读指令、数据结构、程序模块和其他数据，并且可以包括信息递送介质。作为示例而非限制，通信介质可以包括诸如有线网络或直接有线连接之类的有线介质，以及诸如声学、射频、红外和其他无线介质之类的无线介质。本文中使用的术语计算机可读介质可以包括通信介质。

参考了附图中所图示的示例，并且在本文中使用了具体语言来描述这些示例。然而，将理解的是，并不由此意图限制本公开的范围。本文中所说明的特征的更改和进一步修改、以及本文中所说明的示例的附加应用都被认为在本描述的范围内。

此外，所描述的特征、结构或特性可以以合适的方式来组合。在前面的描述中，提供了许多具体细节，诸如各种配置的示例，以提供对所描述的公开内容的示例的全面理解。本公开可以在没有具体细节中的一些的情况下实践、或者利用其他方法、组件、设备等来实践。在其他实例中，没有详细示出或描述一些结构或操作，以避免模糊本公开的方面。

尽管已经以特定于结构特征和/或操作的语言描述了本主题，但是要理解的是，所附权利要求中限定的主题不限于上面描述的特定特征和操作。而是，上面描述的特定特征和动作被公开为实现权利要求的示例形式。在不脱离所描述的公开内容的范围的情况下，可以设计出许多修改和替代布置。

Claims

1.一种包括指令的机器可读存储介质，所述指令在由处理器执行时使得所述处理器：

确定房间中的人员的位置；

使用波束成形来捕获从所述人员的位置接收到的音频信号；

部分地基于从所述人员的位置捕获到的所述音频信号来确定声学回声消除参数；以及

使用所述声学回声消除参数对所述音频信号执行声学回声消除；

其中所述指令使得所述处理器：在从波束成形器输出的多个通道上执行声学回声消除，其中通道的数量对应于在房间中检测到的人员的数量。

2.根据权利要求1所述的机器可读存储介质，其中所述指令使得所述处理器：将具有被消除的声学回声的所述音频信号传输到远端系统。

3.根据权利要求1所述的机器可读存储介质，其中所述声学回声消除参数包括房间脉冲响应。

4.根据权利要求1所述的机器可读存储介质，其中执行波束成形以捕获所述音频信号的波束成形器的输出是去往回声消除器的输入，所述回声消除器对所述音频信号执行声学回声消除。

5.根据权利要求1所述的机器可读存储介质，其中使用固定延迟和波束成形器和一组波束成形参数利用麦克风阵列来执行波束成形。

6.根据权利要求1所述的机器可读存储介质，其中所述指令使得所述处理器：使用相机信息、压力传感器信息、信号功率信息或其组合来确定房间中的所述人员的位置。

7.根据权利要求1所述的机器可读存储介质，其中所述指令使得所述处理器：

在房间中的所述人员的位置改变时确定更新所述声学回声消除参数；以及

在房间中的所述人员的位置没有改变时确定不更新所述声学回声消除参数。

8.一种用于声学回声消除的方法，包括：

部分地基于相机信息来确定房间中的人员的位置；

使用波束成形器来捕获从所述人员的位置接收到的音频信号；

部分地基于从所述人员的位置捕获到的所述音频信号来确定房间脉冲响应；

提供波束成形器的输出作为去往回声消除器的输入，所述回声消除器部分地基于所述房间脉冲响应对从所述人员的位置接收到的所述音频信号执行声学回声消除；

在从波束成形器输出的多个通道上执行声学回声消除，其中通道的数量对应于部分地基于所述相机信息在房间中检测到的人员的数量；以及

传输具有被消除的声学回声的所述音频信号。

9.根据权利要求8所述的方法，包括：使用波束成形器和一组波束成形参数利用麦克风阵列来执行波束成形。

10.一种用于声学回声消除的系统，包括：

相机，用于捕获房间的相机信息；

麦克风阵列，用于捕获从房间中的人员的位置接收到的音频信号；以及

处理器，用于：

部分地基于所述相机信息来确定房间中的所述人员的位置；

使用所述麦克风阵列来执行波束成形以捕获从所述人员的位置接收到的音频信号；

部分地基于从所述人员的位置捕获到的所述音频信号来确定声学回声消除参数；

使用所述声学回声消除参数对所述音频信号执行声学回声消除；以及

传输具有被消除的声学回声的所述音频信号；

其中所述处理器用于：在从用于执行波束成形的波束成形器输出的多个通道上执行声学回声消除，其中通道的数量对应于部分地基于所述相机信息在房间中检测到的人员的数量。

11.根据权利要求10所述的系统，其中所述相机是立体相机、结构光传感器相机、飞行时间相机或其组合。

12.根据权利要求10所述的系统，其中所述系统是视频会议系统。