CN112823531B

CN112823531B - 协作端点中的定向音频拾取

Info

Publication number: CN112823531B
Application number: CN201980066814.6A
Authority: CN
Inventors: 吉斯勒·兰根·恩斯塔德; 孙浩海; 约翰·卢德维格·尼尔森
Original assignee: Cisco Technology Inc
Current assignee: Cisco Technology Inc
Priority date: 2018-10-11
Filing date: 2019-10-03
Publication date: 2023-09-15
Anticipated expiration: 2039-10-03
Also published as: CN112823531A; EP3864858A1; US10491995B1; US20200275199A1; WO2020076592A1; EP3864858B1; US10687139B2; US20200120418A1

Abstract

麦克风阵列包括布置在协作端点的前表面上的一个或多个前置麦克风和布置在协作端点的第二表面上的多个辅助麦克风。将在一个或多个前置麦克风和多个辅助麦克风中的每一个麦克风处接收到的声音信号转换为麦克风信号。当声音信号的频率低于阈值频率时，从由一个或多个前置麦克风和多个辅助麦克风生成的麦克风信号来生成输出信号。当声音信号的频率等于或高于阈值频率时，仅从由一个或多个前置麦克风生成的麦克风信号来生成输出信号。

Description

协作端点中的定向音频拾取

技术领域

本公开涉及协作端点中的音频处理。

背景技术

当前，存在可从许多不同的供应商处获得的许多不同类型的音频和/或视频会议或协作端点(统称为“协作端点(collaboration endpoint)”)。这些协作端点可以包括例如视频端点、沉浸式端点等，并且通常包括集成麦克风系统。集成麦克风系统用于从声音环境(例如，会议室)内接收/捕获声音信号(音频)。所接收的声音信号可以在协作端点或另一设备处被进一步处理。

附图说明

图1A是示出根据示例实施例的放置于声音环境中的协作端点的简化框图。

图1B是图1A的协作端点的示意图。

图1C是图1A的协作端点的一部分的侧视图。

图2是示出根据示例实施例的图1A的协作端点的处理框的简化功能图。

图3是根据示例实施例的L形端射(endfire)麦克风阵列的简化图。

图4是示出根据示例实施例的方法的流程图。

图5是根据示例实施例的被配置成实现本文提出的技术的计算设备的简化框图。

具体实施方式

概述

在独立权利要求中阐述了本发明的各方面，并在从属权利要求中阐述了优选特征。一个方面的特征可以单独应用于每个方面或与其他方面进行组合。

本文提出了利用/经由协作端点的麦克风阵列来接收声音信号的技术。麦克风阵列包括布置在协作端点的前表面(即，面向一个或多个目标声源的表面)上的一个或多个前置麦克风(front-facing microphone)，以及布置在协作端点的第二表面(即，与前表面基本正交的表面)上的多个辅助麦克风。在一个或多个前置麦克风和多个辅助麦克风中的每一个麦克风处接收到的声音信号被转换为麦克风信号。当声音信号的频率低于阈值频率时，从由一个或多个前置麦克风和多个辅助麦克风生成的麦克风信号来生成输出信号。当声音信号的频率等于或高于阈值频率时，从仅由一个或多个前置麦克风生成的麦克风信号来生成输出信号。

示例实施例

如上所述，协作端点通常包括集成麦克风系统，该集成麦克风系统用于从音频环境(例如，会议室)内接收/捕获(即，拾取)声音信号(音频)。对于具有集成麦克风系统的协作端点，在许多情况下，可以通过使用定向(directional)麦克风或麦克风阵列来改善音频或声音(例如，语音质量)。在某些声音环境中，例如具有开放式楼层平面的办公室，可能需要避免从位于侧面和/或端点后面的源捕获声音。

解决此类问题的一种方案是在协作端点内使用诸如驻极体麦克风(electretmicrophone)或微电子机械系统(MEMS)麦克风之类的定向麦克风。然而，将这种定向麦克风集成在典型的协作端点中是有挑战性的和/或限于工业设计。例如，定向麦克风通常需要具有接近自由场的条件才能按预期工作。然而，把定向麦克风机械集成到协作端点的物理结构中可能会阻止麦克风经历近自由场条件，这因此会严重影响麦克风元件的定向特性。此外，定向麦克风通常比全向麦克风(omnidirectional microphone)对振动更敏感，这在所使用的具有集成扬声器的协作端点中则是一个重大缺陷。

由多个全向麦克风形成的麦克风阵列也可以实现定向灵敏度(定向拾取模式)。在这样的布置中，使用阵列处理技术对来自每个全向麦克风的麦克风信号进行组合。例如，在某些常规协作端点中，实现了宽边麦克风阵列，在该宽边麦克风阵列中多个全向麦克风都被放置在端点的前表面处，并且跨越端点的前表面的相当大的宽度。“前”协作表面是协作端点面向(即，朝向)声源可能所处的大致区域的表面。例如，如果协作端点沿着会议室的侧面、墙壁等放置，则协作端点的前表面通常会是协作端点面向会议室的其余部分的表面(即，面向目标声源(例如，会议参与者)的位置的表面)，而协作端点的“后”或“后方”表面是背向目标声源的表面(例如，朝向侧面、墙壁等)。协作端点的“顶”表面是基本正交于协作端点的前表面并因此正交于来自目标声源的声音信号的主要到达方向的表面。换句话说，顶表面是在给定的声音环境中通常面朝上的协作端点的表面。协作端点的“底”表面是基本正交于协作端点的前表面并因此正交于来自目标声源的声音信号的主要到达方向的表面。换句话说，底表面是在给定的声音环境中通常面朝下的协作端点的表面。

宽边阵列处理技术在紧凑型设计和两个或多个麦克风的前提下使用时具有局限性。例如，定向性在衰减水平和衰减频率范围方面都可能受到限制，可能需要使用更多的麦克风来改善定向性和有效频率范围等。作为另一示例，在具有集成扬声器的某些协作端点中，可能很难避免在扬声器附近放置麦克风。这可能导致从一个或多个扬声器到一个或多个麦克风的高反馈水平，这在双向通信系统中是一个缺点(例如，可能要对双向通话性能做出让步)。作为另一示例，对于宽边麦克风阵列，拾取模式具有围绕该阵列的旋转对称性，并且存在前后模糊性，因此阵列可能不会衰减来自端点的后背侧的声音。

本文提出了通过使用采用选择性频率处理的端射麦克风阵列来解决与现有技术的布置相关联的问题的技术。更具体地，本文呈现的技术使用采用选择性频率处理技术的“端射麦克风阵列”(即，其中至少一个麦克风位于协作端点的前表面上，并且多个麦克风位于协作端点的第二表面(例如，协作端点的顶表面或底表面)上的麦克风阵列)在整个语音频率范围内实现期望的定向性和音频拾取质量。对于端射阵列，位于协作端点的前表面上的麦克风在本文中有时被称为“前置”麦克风，而位于协作端点的第二表面上的麦克风在本文中有时被称为“辅助”麦克风。端射阵列及相关联的处理实现了在更宽的频率范围内以及对协作端点的后方和侧面的衰减。

端射阵列的一个问题在于，顶置麦克风(top-facing microphone)与位于协作端点前面的声源(例如，人)之间通常不会有视线关系。视线的这种缺乏导致顶置麦克风相对于声源的“遮蔽”。由于声波传播的物理特性，低频信号能够绕障碍物弯曲，因此顶置麦克风相对于声源的遮蔽不会极大地影响顶置麦克风接收声音信号的低频内容的能力。然而，高频信号绕障碍物弯曲的能力有限，这会影响顶置麦克风接收声音信号的高频内容的能力。即，由于端点的物理尺寸引起的遮蔽效应和声波传播的物理特性，声音信号的频率内容可能会衰减，并且声音信号可能会在远端变得低沉。使端点内部的体积在声学上透明以消除遮蔽效应在机械上具有挑战性。

本文的选择性频率处理技术可解决与端射阵列相关联的问题。更具体地，根据本文呈现的某些实施例，当在协作端点处接收到的声音信号的频率低于阈值频率时，从在前置麦克风处接收到的声音信号和在辅助麦克风处接收到的声音信号两者生成输出信号。然而，当声音信号的频率等于或高于阈值频率时，仅从在前置麦克风处接收到的声音信号来生成输出信号。

参考图1A，示出了根据本文呈现的实施例的协作端点110的简化框图。图1B是协作端点110的示意图，而图1C是协作端点110的一部分的侧视图。为了描述的方便起见，图1A-图1C一般将被一起描述。协作端点包括多个麦克风，包括一个或多个前置麦克风和多个辅助麦克风。辅助麦克风可以是顶置麦克风或底置麦克风(bottom-facing microphone)，取决于协作端点在给定声音环境中的安装/放置方式。

协作端点110是协作系统100的一部分，协作系统100放置在声音环境101中。协作系统100包括协作端点110和显示器120。协作端点110包括相机116和多个麦克风，这些麦克风包括前置麦克风112和多个顶置麦克风，被称为顶置麦克风114(1)、114(2)和114(3)。在该示例中，多个辅助麦克风被布置在协作端点110的顶表面117上，并且因此，关于图1A-图1C以及图2描述的辅助麦克风是“顶置”麦克风。然而，应当理解，在其他实施例中，多个辅助麦克风可以布置在协作端点110的底表面上。例如，如果协作端点110被安装/放置在显示器120下方，则多个辅助麦克风将被布置在协作端点110的底表面上。协作端点110电连接到显示器120。

前置麦克风112布置在协作端点110的前表面119上。顶置麦克风114(1)、114(2)和114(3)布置在协作端点110的顶表面117上。前表面119例如与顶表面117基本正交。在操作中，前置麦克风112和顶置麦克风114(1)、114(2)和114(3)形成麦克风阵列115，该麦克风阵列115被配置成从位于声音环境101中的声源接收/捕获声音信号(音频)。

在一些示例实施例中，前置麦克风112和顶置麦克风114(1)、114(2)和114(3)布置在协作端点上，使得这些麦克风形成L形端射麦克风阵列115。与所有麦克风都被遮蔽的相应线性阵列相比，L形端射麦克风阵列115中的前置麦克风112使得直至高得多的频率下，波束形成都能够很好地工作。此外，这种端射配置可以帮助最大化麦克风阵列与协作端点110的最近扬声器(如果端点110包括扬声器的话)之间的距离，这可以改善双向通话性能。

在图1A中还示出了本地参与者103(1)和103(2)。本地参与者103(1)和103(2)可以在协作系统100所在的会议室中，并且是麦克风阵列115的目标声源。如图1A所示，源自会议室参与者103(1)的声音信号105具有到前置麦克风112的“视线”111或直接音频路径。这样，当参与者103(1)讲话时，基本上整个来自参与者的语音的声波(“声音信号”、“声音”或“音频”)的频谱行进到前置麦克风112并被前置麦克风112检测到。然而，如下面更详细地解释的，源自协作端点110前面的声音信号(例如，声音信号105)的全频谱可能不会被顶置麦克风114(1)、114(2)和114(3)接收。例如，低频声音信号(例如，源自协作端点110的前方)可以被前置麦克风112和顶置麦克风114(1)、114(2)和114(3)接收，而高频声音信号(例如，源自协作端点110的前方)可以仅由前置麦克风112接收。这种高频声音信号可能由于“遮蔽效应”而被顶置麦克风114(1)、114(2)和114(3)阻止接收。

例如，如图1C所示，低频声音信号107由于其长波长而容易弯曲到协作端点110的顶表面。这样，低频声音信号107在很大程度上不受协作端点110的存在的影响。即，针对顶置麦克风114(1)、114(2)和114(3)，使协作端点110或多或少对源自协作端点的前面和/或下面的低频声音信号透明。因此，低频声音信号107可以被前置麦克风112以及顶置麦克风114(1)、114(2)和114(3)检测到。然而，高频声音信号109由于其较短的波长，倾向于被协作端点110反射。即，与低频声音信号107不同，高频声音信号109不会被顶置麦克风114(1)、114(2)和114(3)检测到。协作端点110(例如，协作端点110的前表面)有效地阻止了高频声音信号109到达顶置麦克风114(1)、114(2)和114(3)。因此，高频声音信号109可仅被前置麦克风112接收。

因此，如在本文中其他地方所描述的，协作端点110被配置成实现“选择性频率处理”技术。在本文提出的选择性频率处理技术中，针对具有等于或低于包括阈值频率(例如，高达大约八(8)千赫兹(kHz))的频率的声音信号，使用阵列处理(例如，一种或多种波束形成技术)从在前置麦克风112和多个顶置麦克风114(1)、114(2)和114(3)处接收到的声音信号来生成输出信号。然而，在这些选择性频率处理技术中，针对具有高于阈值频率的频率的声音信号，仅使用在前置麦克风处接收到的声音信号来生成输出信号。这改善了麦克风阵列115的高频性能，因为前置麦克风112可能没有高频损失，而顶置麦克风114(1)、114(2)和114(3)可能由于声源的遮蔽而具有明显的高频损耗。如上所述，由于(感兴趣的)声源通常位于系统100的前面，而没有到顶置麦克风114(1)、114(2)和114(3)的直接视线，因此会发生遮蔽。遮蔽效应取决于频率，并且电平损失可能会随着频率的增加而逐渐增加。采用选择性频率处理的麦克风阵列115允许高达阈值频率的良好定向性，衰减来自单元侧面和后方的声音。高于阈值频率，来自后方和侧面的声音可能会因协作端点110(可能还有显示器120，协作端点110可以安装在显示器120上)的物理尺寸所产生的遮蔽效应而衰减。由于协作端点110和可能的显示器120的前表面，这种相对衰减可能通过由来自前方或所需/期望方向的声波经历的压力区效应(pressure zone effect)而被增强。

在图1A的示例中，相机116是前置的，并且可以捕获会议参与者103(1)和103(2)。麦克风阵列115可以被配置成具有与相机116的视场(FOV)匹配或重合的定向性。例如，相机116的FOV可以是120度，并且麦克风阵列115的响应在相机FOV中在-6dB之内。对协作端点110的侧面(例如，90度)和后方(例如，180度)的消声理论上在-20dB的范围内。阵列处理的有效频率范围可以是例如200HZ至8kHz。

在某些实施例中，麦克风阵列115的端射配置还可以在麦克风处理中提供针对增强“智能”的选项。例如，可以检测到下述音频源的存在：该音频源具有不同于后面或侧面但在相机116的拾取扇区(pickup sector)之外的进入方向。该信息可以与相机处理中的面部跟踪相结合，并用于进一步衰减来自不想要方向的声音。

如果协作系统100和/或协作端点110位于开放空间中，则麦克风阵列115可以衰减来自端点110的侧面和后方的不想要的声音。在拥挤的房间或小型会议室中，由于通过定向拾取模式降低了混响水平，所以阵列115可以改善语音拾取质量。小型房间中的混响可能不利于麦克风拾取的语音的声音质量。例如，阵列115的定向性扩展了集成麦克风的有效的拾取范围，并且可能在许多场景中不需要外部麦克风。例如，这可以导致更高的用户或客户满意度。此外，增加的定向性对于自动语音识别可能是有益的。

虽然图1A和图1B将协作端点110示出为包括相机116，但是应当理解，协作端点110和相机116可以是单独的设备。此外，虽然图1A将协作端点110示出为与显示器120分离，但是应当理解，协作端点110和显示器120可以一起集成在单个设备中。此外，在一些示例实施例中，协作系统100可以不包括相机116和/或显示器120。

接下来参考图2，示出了根据示例实施例的功能框图，该功能框图示出了由协作端点110实现的处理框。在该示例中，协作端点110的处理框包括波束形成器130、前处理级131、低通滤波器160和输出模块170。前处理级131包括延迟单元140和高通滤波器150，而波束形成器130包括延迟单元132(1)、132(2)、132(3)和132(4)，滤波器134(1)、134(2)、134(3)和134(4)(例如，有限冲激响应滤波器)和组合器136。

如图2所示，麦克风112和114(1)-114(3)中的每一个麦克风接收声音信号。麦克风112和114(1)-114(3)的每一个被配置成把各自接收到的声音信号转换为数字信号，在本文中有时称为麦克风信号。由前置麦克风112生成的麦克风信号(在本文中有时称为前置麦克风信号)被提供给前处理级131。如前所述，前处理级131包括延迟单元140(其延迟前置麦克风信号)，并且包括高通滤波器150。这样，前处理级131产生前置麦克风信号的延迟的且经高通滤波的版本，在本文中有时称为经高通滤波的前置信号151。前置麦克风信号被适当地延迟，例如，使得前置麦克风信号的(一个或多个)相位与用于生成波束形成器信号/输出139的(交叉频率)前置麦克风信号的(一个或多个)相位匹配，这将在下面更详细地进行描述。

如图2所示，由顶置麦克风114(1)-114(3)生成的麦克风信号(在本文中有时称为顶置麦克风信号)被提供给波束形成器130。类似地，由前置麦克风112生成的前置麦克风信号也被提供给波束形成器130。波束形成器130被配置成使用至少一种波束形成技术来处理来自麦克风112和来自顶置麦克风114(1)-114(3)的麦克风信号。通常，波束形成器130可以被配置成对来自麦克风112以及来自顶置麦克风114(1)-114(3)的麦克风信号进行滤波和求和，以生成指向(聚焦于)特定方向的声束。如所指出的，波束形成器130包括延迟单元132(1)-132(4)和滤波器134(1)-134(4)，它们各自对相应的麦克风信号的集合进行操作。例如，延迟单元132(4)用于延迟前置麦克风信号，而每个延迟单元132(1)、132(2)和132(3)用于分别延迟来自顶置麦克风114(1)、114(2)和114(3)的麦克风信号。麦克风信号112和114(1)-114(3)中的每一个信号可以根据(基于)与期望的声音拾取的焦点/方向相对应的(一个或多个)目标声源的入射角而被延迟。例如，在麦克风阵列115的端射阵列配置中，可以根据(基于)(一个或多个)目标声源相对于麦克风阵列115的入射角来延迟麦克风信号112和114(1)-114(3)中的每一个信号。

此外，滤波器134(4)用于对延迟的前置麦克风信号进行滤波，而滤波器134(1)、134(2)和134(3)中的每一个用于分别对来自顶置麦克风114(1)、114(2)和114(3)的延迟的麦克风信号进行滤波(即，分别对延迟单元132(1)、132(2)和132(3)的输出进行滤波)。滤波器134(1)、134(2)、134(3)和134(4)的系数可以通过定义多约束优化问题来计算。约束可以包括例如阵列几何形状、期望的波束宽度、期望的频率范围、旁瓣(side lobe)的衰减、阵列输出功率等中的一项或多项。来自麦克风112和114(1)-114(3)中的每一个麦克风的延迟的且经滤波的麦克风信号被提供给组合器136。组合器136对延迟的且经滤波的麦克风信号进行组合以生成波束形成器信号/输出139。

如图2所示，将波束形成器信号139提供给低通滤波器160，该低通滤波器160生成经低通滤波的波束形成器信号161。经低通滤波的波束形成器信号161以及来自前处理级131的经高通滤波的前置信号151被提供给输出模块170。输出模块170从经低通滤波的波束形成器信号161和经高通滤波的前置信号151生成系统输出信号171。通常，当在给定时间帧内接收到的声音信号的频率低于预定阈值频率时，由(基于)在前置麦克风112处接收到的声音信号和在顶置麦克风114(1)-114(3)处接收到的声音信号来形成系统输出信号171。然而，当在给定时间帧内接收到的声音信号的频率等于或高于预定阈值频率时，仅由(基于)在前置麦克风112处接收到的声音信号来形成系统输出信号171。

更具体地，高通滤波器150和/或低通滤波器160可以基于预定阈值频率来对麦克风信号进行滤波。例如，高通滤波器150可以允许具有大于或等于阈值频率的频率的信号通过，同时阻挡较低频率的信号。相反，低通滤波器160可以允许具有小于阈值频率的频率的信号通过，同时阻挡较高频率的信号。因此，当在给定的时间帧期间，在麦克风112和114(1)-114(3)处接收到的声音信号具有较高的频率(即，等于或高于阈值频率)时，系统输出信号171通常对应于经高通滤波的前置信号151。然而，当在给定的时间帧期间，在麦克风112和114(1)-114(3)处接收到的声音信号具有较低的频率(即，低于阈值频率)时，系统输出信号171是经低通滤波的波束形成器信号161和经高通滤波的前置信号151的组合。波束形成器130的可用上限频率可以由(基于)麦克风阵列115的几何形状来决定。

综上，图2示出了其中声音信号由布置在协作端点110的前表面119上的至少一个前置麦克风112以及布置在协作端点110的顶表面117上的多个顶置麦克风114(1)-114(3)接收的示例布置。当(即，在给定时间段内)接收到的声音信号的频率低于阈值频率时，从由至少一个前置麦克风112生成的麦克风信号以及由多个顶置麦克风114(1)-114(3)生成的麦克风信号来生成输出信号。当(即，在给定时间段内)接收到的声音信号的频率等于或高于阈值频率时，仅由至少一个前置麦克风112生成的麦克风信号来生成输出信号。

图2仅是用于实现本文呈现的选择性频率处理技术的一种示例处理布置的说明。这样，应当理解，可以用不同的处理布置来实现本文呈现的技术，这些不同的处理布置包括处理框/模块的可以与图2所示的不同的其他组合。

可以在许多不同的麦克风中实现本文呈现的选择性频率处理技术。然而，在某些示例中，可以利用L形端射麦克风阵列来有利地实现选择性频率处理技术，其示例被示出在图3中。更具体地，图3是L形端射麦克风阵列315的简化图，该阵列包括第一麦克风312以及麦克风314(1)、314(2)和314(3)。为了便于说明，麦克风312以及314(1)、314(2)和314(3)被示出为与诸如协作端点之类的支撑结构分离。麦克风312以及314(1)、314(2)和314(3)各自为全向麦克风。

在图3的示例中，麦克风314(1)、314(2)和314(3)沿着第一细长轴线对准，并且有时被称为“在轴线上(on-axis)”。相反，麦克风312与麦克风314(1)、314(2)和314(3)不在同一轴线上，并且有时被称为“偏离轴线(off-axis)”。换句话说，麦克风314(1)、314(2)、314(3)基于公共轴线形成直列式(in-line)麦克风阵列，而麦克风312从公共轴线偏离。麦克风312、314(1)、314(2)和314(3)基于公共轴线彼此等距地间隔开距离“d”。如图3所示，基于公共轴线，麦克风312距麦克风314(1)的距离为“d”，麦克风314(1)距麦克风314(2)的距离为“d”，麦克风314(2)距麦克风314(3)的距离为“d”。麦克风312从公共轴线偏离距离“h”。

接下来参考图4，示出了根据本文呈现的实施例的示例方法476的流程图。方法476可以例如由诸如协作端点110之类的协作端点来执行。

方法476在478处开始，在478处，利用协作端点的麦克风阵列来接收声音信号。麦克风阵列包括布置在协作端点的前表面上的一个或多个前置麦克风和布置在协作端点的第二表面上(例如，在协作端点的顶表面或底表面上)的多个辅助麦克风(例如，顶置麦克风或底置麦克风)。

在480处，在一个或多个前置麦克风和多个顶置麦克风的每一个麦克风处接收到的声音信号被转换为麦克风信号。在482处，当声音信号的频率低于阈值频率时，从由一个或多个前置麦克风生成的麦克风信号以及由多个辅助麦克风生成的麦克风信号来生成输出信号。在484处，当声音信号的频率等于或高于阈值频率时，仅从由一个或多个前置麦克风生成的麦克风信号来生成输出信号。

图5是诸如协作端点之类的计算设备510的简化框图，该计算设备510被配置成实现本文呈现的选择性频率处理技术。更具体地，计算设备510包括麦克风阵列115，麦克风阵列115包括主麦克风512和多个辅助麦克风514(1)-514(N)。主麦克风512位于计算设备510的第一外表面519上/处，而多个辅助麦克风514(1)-514(N)位于计算设备510的第二外表面517处。第一外表面519与第二外表面517基本正交。

计算设备510还包括至少一个处理器590(例如，至少一个数字信号处理器(DSP)、至少一个UC核等)、至少一个存储器592以及多个接口或端口594(1)-594(N)。存储器592存储可执行指令、选择性频率处理逻辑596，其在由至少一个处理器590执行时使至少一个处理器代表计算设备510执行本文所述的选择性频率处理操作。

存储器592可以包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质设备、光存储介质设备、闪存设备、电子、光学或其他物理/有形存储器存储设备。因此，通常，存储器592可以包括一种或多种用包括计算机可执行指令的软件编码的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当(由至少一个处理器590)执行软件时，可以执行本文所述的操作。

综上，在一个实施例中，麦克风阵列包括布置在协作端点的前表面上的一个或多个前置麦克风以及布置在协作端点的第二表面上的多个辅助麦克风。在一个或多个前置麦克风和多个辅助麦克风中的每一个麦克风处接收到的声音信号被转换为麦克风信号。当声音信号的频率低于阈值频率时，从由一个或多个前置麦克风和多个辅助麦克风生成的麦克风信号来生成输出信号。当声音信号的频率等于或高于阈值频率时，从仅由一个或多个前置麦克风生成的麦克风信号来生成输出信号。

如上所述，本文呈现了用于对在包括位于计算设备(例如，协作端点)的不同表面上的麦克风的麦克风阵列处接收到的声音信号进行选择性频率处理的技术。例如，可以使用本文所述的技术来在紧凑型视频协作端点中实现端射麦克风阵列的高性能实现方式。本文呈现的技术可以提供对来自协作端点的侧面和后方的声音的抑制，同时在整个可听频率范围内(例如，在与相机的视场紧密匹配的区域中)提供高质量的语音拾取。这是通过将端射麦克风阵列物理集成在协作端点中，并与适于该物理阵列设计的选择性频率处理结合来实现的。

在一个方面，提供了一种方法。该方法包括：用协作端点的麦克风阵列来接收声音信号，其中，该麦克风阵列包括布置在协作端点的前表面上的一个或多个前置麦克风和布置在协作端点的顶表面上的多个顶置麦克风；将在一个或多个前置麦克风和多个顶置麦克风中的每一个麦克风处接收到的声音信号转换为麦克风信号；当声音信号的频率低于阈值频率时，从由一个或多个前置麦克风生成的麦克风信号以及由多个顶置麦克风生成的麦克风信号来生成输出信号；并且当声音信号的频率等于或高于阈值频率时，仅从由一个或多个前置麦克风生成的麦克风信号来生成输出信号。

在某些实施例中，协作端点的前表面与协作端点的顶表面基本正交。在某些实施例中，布置在协作端点的顶表面上的多个顶置麦克风形成直列式麦克风阵列。在其他实施例中，一个或多个前置麦克风中的至少一个前置麦克风从直列式麦克风阵列偏离，使得该至少一个前置麦克风和直列式麦克风阵列形成L形麦克风阵列。在某些实施例中，一个或多个前置麦克风中的至少一个前置麦克风和多个顶置麦克风中的至少两个形成L形端射麦克风阵列。在某些实施例中，多个顶置麦克风基于公共轴线基本上彼此等距间隔。在其他实施例中，一个或多个前置麦克风中的至少一个前置麦克风从公共轴线偏离。在某些实施例中，该方法包括：基于阈值频率来对由一个或多个前置麦克风生成的麦克风信号进行高通滤波，以生成经高通滤波的前置信号；使用波束形成技术，从由至少一个前置麦克风生成的麦克风信号和由多个顶置麦克风生成的麦克风信号来生成波束形成器信号；基于阈值频率来对波束形成器信号进行低通滤波，以去除等于或高于阈值频率的频率分量；并且组合波束形成器信号和经高通滤波的前置信号。

在某些实施例中，多个顶置麦克风基于公共轴线基本上彼此等距间隔。在其他实施例中，一个或多个前置麦克风中的至少一个前置麦克风从公共轴线偏离。

在一个方面，提供了一种装置。该装置包括：前表面和顶表面；麦克风阵列，包括位于前表面处的一个或多个前置麦克风和位于顶表面处的多个顶置麦克风，其中，一个或多个前置麦克风和多个顶置麦克风被配置成接收声音信号并将在一个或多个前置麦克风和多个顶置麦克风中的每一个麦克风处接收到的声音信号转换为麦克风信号；以及一个或多个处理器，被配置成：当声音信号的频率低于阈值频率时，从由一个或多个前置麦克风生成的麦克风信号以及由多个顶置麦克风生成的麦克风信号来生成输出信号，并且当声音信号的频率等于或高于阈值频率时，仅从由一个或多个前置麦克风生成的麦克风信号来生成输出信号。

在一个方面，提供了一种或多种编码有指令的非暂态计算机可读存储介质，这些指令由协作端点中的处理器执行，该协作端点包括被配置成接收声音信号的麦克风阵列，其中，麦克风阵列包括布置在协作端点的前表面上的一个或多个前置麦克风和布置在协作端点的顶表面上的多个顶置麦克风。当由处理器执行在一种或多种非暂态计算机可读存储介质中编码的指令时，处理器被配置成：当麦克风阵列接收到的声音信号的频率低于阈值频率时，从由一个或多个前置麦克风接收的声音信号以及由多个顶置麦克风接收的声音信号来生成输出信号；并且当在麦克风阵列处接收到的声音信号的频率等于或高于阈值频率时，仅从在一个或多个前置麦克风处接收到的声音信号来生成输出信号。

在某些实施例中，将在一个或多个前置麦克风中的每一个处接收到的声音信号转换为前置麦克风信号，并且将在多个顶置麦克风中的每一个处接收到的声音信号转换为顶置麦克风信号，并且其中，一种或多种非暂态计算机可读存储介质编码有指令，这些指令在由处理器执行时使处理器执行以下操作：基于阈值频率，对前置麦克风信号进行高通滤波以生成经高通滤波的前置信号；使用波束形成技术，从前置麦克风信号和顶置麦克风信号来生成波束形成器信号；基于阈值频率对波束形成器信号进行低通滤波，以去除等于或高于阈值频率的频率分量；并且组合波束形成器信号和经高通滤波的前置信号以生成输出信号。

在某些实施例中，其中，一种或多种非暂态计算机可读存储介质编码有指令，这些指令在由处理器执行时使处理器执行以下操作：在对前置麦克风信号进行高通滤波之前，延迟前置麦克风信号，使得用于生成经高通滤波的前置信号的前置麦克风信号的相位与用于生成波束形成器信号的前置麦克风信号的相位基本匹配。

在某些实施例中，用于从前置麦克风信号和顶置麦克风信号来生成波束形成器信号的指令包括：在由处理器执行时使处理器执行以下操作的指令：延迟前置麦克风信号和顶置麦克风信号中的每一个信号，其中延迟基于声音信号相对于目标方向的入射角。

为了进一步帮助技术人员，在以下编号的条款中列出了许多其他示例性实施例：

1.一种方法，包括：

利用装置的麦克风阵列来接收包括多个频率分量的声音信号，其中，该麦克风阵列包括布置在装置的前表面上的一个或多个前置麦克风和布置在装置的第二表面上的一个或多个辅助麦克风；

将在一个或多个前置麦克风和一个或多个辅助麦克风中的每一个麦克风处接收到的声音信号的频率分量转换为麦克风信号；

对于具有低于阈值频率的频率的声音信号的频率分量，从由一个或多个前置麦克风生成的麦克风信号以及由一个或多个辅助麦克风生成的麦克风信号来生成输出信号；并且

对于具有等于或高于阈值频率的频率的声音信号的频率分量，仅从由一个或多个前置麦克风生成的麦克风信号来生成输出信号。

2.根据条款1所述的方法，其中，装置的前表面与装置的第二表面基本正交。

3.根据条款1或2所述的方法，其中，布置在装置的第二表面上的一个或多个辅助麦克风包括多个辅助麦克风。

4.根据条款3所述的方法，其中，多个辅助麦克风形成直列式麦克风阵列，并且其中，一个或多个前置麦克风中的至少一个前置麦克风从直列式麦克风阵列偏离，使得一个或多个前置麦克风中的该至少一个前置麦克风和直列式麦克风阵列形成L形麦克风阵列。

5.根据条款3或4所述的方法，其中，一个或多个前置麦克风中的至少一个和多个辅助麦克风形成L形端射麦克风阵列。

6.根据条款3至5中的任一项所述的方法，其中，多个辅助麦克风基于公共轴线基本上彼此等距间隔。

7.根据条款6所述的方法，其中，一个或多个前置麦克风中的至少一个前置麦克风从公共轴线偏离。

8.根据条款1至7中的任一项所述的方法，还包括：

基于阈值频率，对由一个或多个前置麦克风生成的麦克风信号进行高通滤波，以生成经高通滤波的前置信号；

使用波束形成技术，从由一个或多个前置麦克风生成的麦克风信号和由一个或多个辅助麦克风生成的麦克风信号来生成波束形成器信号；

基于阈值频率来对波束形成器信号进行低通滤波，以去除等于或高于阈值频率的频率分量；并且

组合波束形成器信号和经高通滤波的前置信号。

9.一种装置，包括：

前表面和第二表面；

麦克风阵列，包括位于前表面处的一个或多个前置麦克风和位于第二表面处的一个或多个辅助麦克风，

其中，麦克风阵列被配置成接收包括多个频率分量的声音信号，并将在一个或多个前置麦克风和一个或多个辅助麦克风中的每一个麦克风处接收到的频率分量转换为麦克风信号；以及

一个或多个处理器，被配置成：

10.根据条款9所述的装置，其中，前表面与第二表面基本正交。

11.根据条款9或10所述的装置，其中，布置在第二表面上的一个或多个辅助麦克风包括多个辅助麦克风。

12.根据条款11所述的装置，其中，多个辅助麦克风形成直列式麦克风阵列，并且其中，一个或多个前置麦克风中的至少一个前置麦克风从直列式麦克风阵列偏离，使得一个或多个前置麦克风中的该至少一个前置麦克风和直列式麦克风阵列形成L形麦克风阵列。

13.根据条款11或12所述的装置，其中，一个或多个前置麦克风中的至少一个前置麦克风和多个辅助麦克风形成L形端射麦克风阵列。

14.根据条款11至13中的任一项所述的装置，其中，多个辅助麦克风基于公共轴线基本上彼此等距间隔。

15.根据条款14所述的装置，其中，一个或多个前置麦克风中的至少一个前置麦克风从公共轴线偏离。

16.根据条款9至15中的任一项所述的装置，其中，一个或多个处理器还被配置成：

基于阈值频率来对由一个或多个前置麦克风生成的麦克风信号进行高通滤波，以生成经高通滤波的前置信号；

组合波束形成器信号和经高通滤波的前置信号。

17.一种或多种非暂态计算机可读存储介质，其编码有指令，所述指令在由装置中的处理器执行时使处理器执行操作，该装置包括被配置成接收包括多个频率分量的声音信号的麦克风阵列，其中，麦克风阵列包括布置在装置的前表面上的一个或多个前置麦克风和布置在装置的第二表面上的一个或多个辅助麦克风，这些指令在由处理器执行时，操作包括：

18.根据条款17所述的一种或多种非暂态计算机可读存储介质，其中，将在一个或多个前置麦克风中的每一个处接收到的声音信号的频率分量转换为前置麦克风信号，并且其中，将在一个或多个辅助麦克风中的每一个处接收到的声音信号的频率分量转换为辅助麦克风信号，并且其中，一种或多种非暂态计算机可读存储介质被编码有指令，这些指令在由处理器执行时，使处理器执行以下操作：

基于阈值频率来对前置麦克风信号进行高通滤波，以生成经高通滤波的前置信号；

使用波束形成技术，从前置麦克风信号和辅助麦克风信号来生成波束形成器信号；

组合波束形成器信号和经高通滤波的前置信号以生成输出信号。

19.根据条款18所述的一种或多种非暂态计算机可读存储介质，其中，一种或多种非暂态计算机可读存储介质被编码有指令，这些指令在由处理器执行时，使处理器执行以下操作：

在对前置麦克风信号进行高通滤波之前，延迟前置麦克风信号，使得用于生成经高通滤波的前置信号的前置麦克风信号的相位与用于生成波束形成器信号的前置麦克风信号的相位基本匹配。

20.根据条款18或19所述的一种或多种非暂态计算机可读存储介质，其中，用于从前置麦克风信号和辅助麦克风信号来生成波束形成器信号的指令包括：在由处理器执行时使处理器执行以下操作的指令：

延迟前置麦克风信号和辅助麦克风信号中的每一个信号，其中，延迟基于声音信号相对于目标方向的入射角。

以上描述仅作为示例。尽管在本文中以一种或多种特定示例的方式对技术进行了说明和描述，但是由于可以在权利要求的范围和等同范围内进行各种修改和结构改变，因此以上描述并不旨在限于所示出的细节。

Claims

1.一种用于音频处理的方法，包括：

利用协作端点的麦克风阵列来接收声音信号，其中，所述麦克风阵列包括布置在所述协作端点的前表面上的一个或多个前置麦克风和布置在所述协作端点的第二表面上的多个辅助麦克风；

将在所述一个或多个前置麦克风和所述多个辅助麦克风中的每一个麦克风处接收到的所述声音信号转换为麦克风信号；

当所述声音信号的频率低于阈值频率时，从由所述一个或多个前置麦克风生成的麦克风信号以及由所述多个辅助麦克风生成的麦克风信号来生成输出信号；并且

当所述声音信号的频率等于或高于所述阈值频率时，仅从由一个或多个前置麦克风生成的麦克风信号来生成输出信号。

2.根据权利要求1所述的方法，其中，所述协作端点的前表面与所述协作端点的第二表面基本正交。

3.根据权利要求1所述的方法，其中，布置在所述协作端点的第二表面上的所述多个辅助麦克风形成直列式麦克风阵列。

4.根据权利要求3所述的方法，其中，所述一个或多个前置麦克风中的至少一个前置麦克风从所述直列式麦克风阵列偏离，使得所述至少一个前置麦克风和所述直列式麦克风阵列形成L形麦克风阵列。

5.根据权利要求1至4中的任一项所述的方法，其中，所述一个或多个前置麦克风中的至少一个前置麦克风和所述多个辅助麦克风中的至少两个辅助麦克风形成L形端射麦克风阵列。

6.根据权利要求1至4中的任一项所述的方法，还包括：

基于所述阈值频率来对由所述一个或多个前置麦克风生成的麦克风信号进行高通滤波，以生成经高通滤波的前置信号；

使用波束形成技术，从由所述一个或多个前置麦克风生成的麦克风信号和由所述多个辅助麦克风生成的麦克风信号来生成波束形成器信号；

基于所述阈值频率来对所述波束形成器信号进行低通滤波，以去除等于或高于所述阈值频率的频率分量；并且

组合所述波束形成器信号和所述经高通滤波的前置信号。

7.根据权利要求1至4中的任一项所述的方法，其中，所述多个辅助麦克风基于公共轴线基本上彼此等距间隔。

8.根据权利要求7所述的方法，其中，所述一个或多个前置麦克风中的至少一个前置麦克风从所述公共轴线偏离。

9.一种用于音频处理的装置，包括：

前表面和第二表面；

麦克风阵列，包括位于所述前表面处的一个或多个前置麦克风和位于所述第二表面处的多个辅助麦克风，

其中，所述一个或多个前置麦克风和所述多个辅助麦克风被配置成接收声音信号并将在所述一个或多个前置麦克风和所述多个辅助麦克风中的每一个麦克风处接收到的所述声音信号转换为麦克风信号；以及

一个或多个处理器，被配置成：

当所述声音信号的频率低于阈值频率时，从由所述一个或多个前置麦克风生成的麦克风信号以及由所述多个辅助麦克风生成的麦克风信号来生成输出信号，并且

当所述声音信号的频率等于或高于所述阈值频率时，仅从由所述一个或多个前置麦克风生成的麦克风信号来生成输出信号。

10.根据权利要求9所述的装置，其中，所述前表面与所述第二表面基本正交。

11.根据权利要求9所述的装置，其中，位于所述第二表面处的所述多个辅助麦克风形成直列式麦克风阵列。

12.根据权利要求11所述的装置，其中，所述一个或多个前置麦克风中的至少一个前置麦克风从所述直列式麦克风阵列偏离，使得所述至少一个前置麦克风和所述直列式麦克风阵列形成L形麦克风阵列。

13.根据权利要求9至12中的任一项所述的装置，其中，所述一个或多个前置麦克风中的至少一个前置麦克风和所述多个辅助麦克风中的至少两个辅助麦克风形成L形端射麦克风阵列。

14.根据权利要求9至12中的任一项所述的装置，其中，所述一个或多个处理器还被配置成：

组合所述波束形成器信号和所述经高通滤波的前置信号。

15.根据权利要求9至12中的任一项所述的装置，其中，所述多个辅助麦克风基于公共轴线基本上彼此等距间隔。

16.根据权利要求15所述的装置，其中，所述一个或多个前置麦克风中的至少一个前置麦克风从所述公共轴线偏离。

17.一种或多种非暂态计算机可读存储介质，其编码有指令，所述指令在由协作端点中的处理器执行时使所述处理器执行操作，所述协作端点包括被配置成接收声音信号的麦克风阵列，其中，所述麦克风阵列包括布置在所述协作端点的前表面上的一个或多个前置麦克风以及布置在所述协作端点的第二表面上的多个辅助麦克风，所述操作包括：

当由所述麦克风阵列接收到的声音信号的频率低于阈值频率时，从由所述一个或多个前置麦克风接收到的声音信号以及由所述多个辅助麦克风接收到的声音信号来生成输出信号；

当在所述麦克风阵列处接收到的声音信号的频率等于或高于所述阈值频率时，仅从在所述一个或多个前置麦克风处接收到的声音信号来生成输出信号。

18.根据权利要求17所述的一种或多种非暂态计算机可读存储介质，其中，在所述一个或多个前置麦克风中的每一个麦克风处接收到的声音信号被转换为前置麦克风信号，并且在所述多个辅助麦克风中的每一个处接收到的声音信号被转换为辅助麦克风信号，并且其中，所述一种或多种非暂态计算机可读存储介质编码有指令，所述指令在由所述处理器执行时，使所述处理器执行以下操作：

基于所述阈值频率来对前置麦克风信号进行高通滤波，以生成经高通滤波的前置信号；

使用波束形成技术从前置麦克风信号和辅助麦克风信号来生成波束形成器信号；

组合所述波束形成器信号和所述经高通滤波的前置信号以生成输出信号。

19.根据权利要求18所述的一种或多种非暂态计算机可读存储介质，其中，所述一种或多种非暂态计算机可读存储介质编码有指令，所述指令在由处理器执行时，使所述处理器执行以下操作：

在对前置麦克风信号进行高通滤波之前，延迟前置麦克风信号，使得用于生成所述经高通滤波的前置信号的前置麦克风信号的相位与用于生成所述波束形成器信号的前置麦克风信号的相位基本匹配。

20.根据权利要求18或19所述的一种或多种非暂态计算机可读存储介质，其中，用于从前置麦克风信号和辅助麦克风信号来生成波束形成器信号的指令包括：在由所述处理器执行时，使所述处理器执行以下操作的指令：

延迟前置麦克风信号和辅助麦克风信号中的每一个信号，其中，所述延迟基于所述声音信号相对于目标方向的入射角。

21.一种非暂态计算机可读介质，包括指令，该指令在由计算机执行时，使所述计算机执行根据权利要求1至8中的任一项所述的方法的步骤。