CN109155884A

CN109155884A - 用全向麦克风进行立体声分离和定向抑制

Info

Publication number: CN109155884A
Application number: CN201780026912.8A
Authority: CN
Inventors: J·罗伊; J·伍德拉夫; S·萨卡里; T·韦尔马
Original assignee: Knowles Electronics LLC
Current assignee: Knowles Electronics LLC
Priority date: 2016-05-02
Filing date: 2017-04-28
Publication date: 2019-01-04
Anticipated expiration: 2037-04-28
Also published as: US10257611B2; CN109155884B; WO2017192398A1; US20180070174A1; DE112017002299T5; US9820042B1; US20170318387A1

Abstract

提供了用于立体声分离和定向抑制的系统和方法。一种示例方法包括接收表示由与第一位置相关联的第一麦克风(106a)捕获的声音的第一音频信号，以及表示由与第二位置相关联的第二麦克风(106b)捕获的声音的第二音频信号。所述麦克风包括全向麦克风。第一麦克风与第二麦克风之间的距离受移动装置(104)的尺寸的限制。立体声信号的第一声道信号是通过基于第一音频信号和第二音频信号形成第一位置处的第一波束来生成的。立体声信号的第二声道信号是通过基于第一音频信号和第二音频信号形成第二位置处的第二波束来生成的。分别与第一波束和第二波束相关联的第一方向和第二方向相对于第一位置与第二位置之间的线是固定的。

Description

用全向麦克风进行立体声分离和定向抑制

相关申请的交叉引用

本申请要求2016年5月2日提交的美国专利申请No.15/144,631的权益和优先权，其全部内容通过引用并入本文。

技术领域

本发明总体上涉及音频处理，并且更具体地，涉及用全向麦克风进行立体声分离和定向抑制的系统和方法。

背景技术

用移动装置(诸如智能电话和平板计算机)记录立体声音频对于制作音乐会、表演和其它事件的视频可能是有用的。典型的立体声记录装置被设计有麦克风之间的大间隔或者被设计有精确地成角度的定向麦克风以利用定向麦克风的声学特性来捕获立体声效果。然而，移动装置在尺寸上受限制，并且因此，麦克风之间的距离远小于最佳全向麦克风立体声分离所需要的最小距离。由于移动装置的尺寸限制，使用定向麦克风是不实际的并且可能导致与移动装置相关联的总成本的增加。另外，由于用于放置定向麦克风的有限空间，移动装置的用户可能是定向麦克风的主要源，常常干扰目标声源。

使用移动装置来记录立体声音频的另一个方面是捕获要在后续处理中使用的声学代表性信号的问题。用于移动装置的传统麦克风可能无法处理执行立体声记录的高压情况，诸如表演、音乐会或有风的环境。结果，由麦克风生成的信号可能由于达到其声学过载点(AOP)而变得失真。

发明内容

提供本发明内容是为了以简化的形式来介绍下面在具体实施方式中进一步描述的构思的选择。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，它也不旨在用于帮助确定所要求保护的主题的范围。

提供的是用全向麦克风进行立体声分离和定向抑制的系统和方法。一种示例方法包括接收至少第一音频信号和第二音频信号。所述第一音频信号可表示由与第一位置相关联的第一麦克风捕获的声音。所述第二音频信号可表示由与第二位置相关联的第二麦克风捕获的声音。所述第一麦克风和所述第二麦克风可包括全向麦克风。所述方法可包括通过基于所述至少第一音频信号和第二音频信号形成所述第一位置处的第一波束(beam)来生成立体声音频信号的第一声道信号。所述方法还可包括通过基于所述至少第一音频信号和第二音频信号形成所述第二位置处的第二波束来生成所述立体声音频信号的第二声道信号。

在一些实施方式中，所述第一麦克风与所述第二麦克风之间的距离受到移动装置的尺寸的限制。在某些实施方式中，所述第一麦克风位于所述移动装置的顶部并且所述第二麦克风位于所述移动装置的底部。在其它实施方式中，所述第一麦克风和所述第二麦克风(以及附加麦克风，若有的话)可以被不同地定位，包括但不限于，所述麦克风被沿着所述装置的侧面定位，例如，沿着在所述侧面上具有麦克风的平板电脑的侧面分开。

在一些实施方式中，所述第一波束和所述第二波束的方向相对于所述第一位置与所述第二位置之间的线是固定的。在一些实施方式中，所述方法还包括接收至少一个其它声信号。另一个声信号可由与另一位置相关联的另一麦克风捕获。另一个麦克风包括全向麦克风。在一些实施方式中，形成所述第一波束和所述第二波束还基于所述其它声信号。在一些实施方式中，所述另一个麦克风位于所述第一麦克风与所述第二麦克风之间的线之外。

在一些实施方式中，形成所述第一波束包括减小与所述第一波束外部的源相关联的声信号分量的信号能量。形成所述第二波束可包括减小与所述第二波束外面(off)的其它源相关联的声信号分量的信号能量。在某些实施方案中，通过消减抑制(subtractivesuppression)来执行减少信号能量。在一些实施方式中，所述第一麦克风和所述第二麦克风包括具有大于预定声压级的声学过载点(AOP)的麦克风。在某些实施方式中，所述预定声压级是120分贝。

根据本公开的另一个示例实施方式，所述用全向麦克风进行立体声分离和定向抑制的方法的步骤被存储在包括指令的机器可读介质上，所述指令当由一个或更多个处理器实现时执行所述的步骤。

根据结合附图进行的以下描述，本公开的其它示例实施方式和各方面将变得显而易见。

附图说明

实施方式作为示例而非限制被例示在附图的图中，在附图中相似的附图标记表示类似的元件。

图1是可使用本技术的示例环境的框图。

图2是示例音频装置的框图。

图3是示例音频处理系统的框图。

图4是适合于定向音频捕获的示例音频处理系统的框图。

图5A是示出了使用两个全向麦克风进行定向音频信号捕获的示例环境的框图。

图5B是示出了用两个全向麦克风捕获的定向音频信号的曲线图。

图6是示出了用于空(null)处理噪声消减的模块的框图。

图7A是示出了在音频缩放音频处理中使用的坐标的框图。

图7B是示出了在示例音频缩放音频处理中使用的坐标的框图。

图8是示出了用于空处理噪声消减的示例模块的框图。

图9是示出了可实践本技术的实施方式的另一个示例环境的框图。

图10描绘了未处理和处理的示例音频信号的曲线图。

图11是使用全向麦克风对音频进行立体声分离和定向抑制的示例方法的流程图。

图12是可用于实现本技术的示例实施方式的计算机系统。

具体实施方式

本文所公开的技术涉及用全向麦克风进行立体声分离和定向抑制的系统和方法。可以用至少可操作以捕获并处理声信号的音频装置来实践本技术的实施方式。在一些实施方式中，音频装置可以是手持式装置，诸如有线和/或无线遥控器、笔记本计算机、平板计算机、平板手机、智能电话、个人数字助理、媒体播放器、移动电话等。音频装置可具有射频(RF)接收器、发送器和收发器；有线和/或无线电信和/或网络装置；放大器；音频和/或视频播放器；编码器；解码器；扬声器；输入；输出；存储装置；以及用户输入装置。音频装置可以具有诸如按钮、开关、键、键盘、轨迹球、滑块、触摸屏、一个或更多个麦克风、陀螺仪、加速度计、全球定位系统(GPS)接收器等的输入装置。音频装置可以具有诸如LED指示器、视频显示器、触摸屏、扬声器等的输出。

在各种实施方式中，音频装置在固定和便携式环境中操作。固定环境可包括住宅和商业建筑物或结构等。例如，固定实施方式可包括音乐厅、起居室、卧室、家庭影院、会议室、礼堂、商业场所等。便携式环境可包括移动车辆、移动人员或其它运输工具等。

根据示例实施方式，用于立体声分离和定向抑制的方法包括接收至少第一音频信号和第二音频信号。第一音频信号可表示由与第一位置相关联的第一麦克风捕获的声音。第二音频信号可表示由与第二位置相关联的第二麦克风捕获的声音。第一麦克风和第二麦克风可包括全向麦克风。示例方法包括通过基于至少第一音频信号和第二音频信号形成第一位置处的第一波束来生成第一立体声信号。所述方法还可包括通过基于至少第一音频信号和第二音频信号形成第二位置处的第二波束来生成第二立体声信号。

图1是可实践本技术的实施方式的示例环境100的框图。图1的环境100可包括音频装置104和音频源112、114和116。音频装置可包括至少主麦克风106a和辅麦克风106b。

音频装置104的主麦克风106a和辅麦克风106b可以包括全向麦克风。在一些实施方式中，主麦克风106a位于音频装置104的底部，并且因此，可以被称为底部麦克风。类似地，在一些实施方式中，辅麦克风106b位于音频装置104的顶部，并且因此，可以被称为顶部麦克风。在其它实施方式中，第一麦克风和第二麦克风(以及附加麦克风，若有的话)可以被不同地定位，包括但不限于，麦克风被沿着装置的侧面定位，例如，沿着在侧面上具有麦克风的平板电脑的侧面分开。

本公开的一些实施方式利用由两个麦克风106a和106b接收到的声信号之间的水平(level)差(例如，能量差)、相位差和到达时间差。因为主麦克风106a比辅麦克风106b更靠近音频源112，所以来自音频源112的音频信号(通过122图式地表示，其也可以包括除期望声音之外的噪声)的强度水平对于主麦克风106a来说是较高的，导致主麦克风106a接收到较大的能量水平。类似地，因为辅麦克风106b比主麦克风106a更靠近音频源116，所以来自音频源116的音频信号(通过126图式地表示，其还可以包括除期望声音之外的噪声)的强度水平对于辅麦克风106来说是较高的，导致辅麦克风106b接收到较大的能量水平。另一方面，取决于例如音频源114在锥体108a和108b内的位置，来自音频源114的音频信号(通过124图式地表示，其还可以包括除期望声音之外的噪声)的强度水平对于两个麦克风106a和106b中的一个来说可能是较高的。

水平差可用于在时频域中区分语音和噪声。一些实施方式可以使用能量水平差和到达时间差的组合来区分来自不同方向的声信号。在一些实施方式中，能量水平差和相位差的组合被用于定向音频捕获。

本技术的各种示例实施方式利用水平差(例如能量差)、相位差和到达时间差来进行由麦克风106a和麦克风106b捕获的声信号的立体声分离和定向抑制。如图1中所示，可将由音频源112、114和116提供的多向声信号分成立体声音频信号的左声道信号和立体声音频信号的右声道信号(在本文中也被称为左立体声信号和右立体声信号，或立体声信号的左声道和右声道)。可通过聚焦锥体118a内的声信号并且抑制锥体118a外的声信号来获得立体声信号的左声道。锥体118a可覆盖音频源112和114。类似地，可通过聚焦锥体118b内的声信号并且抑制锥体118b外的声信号来获得立体声信号的右声道。锥体118b可覆盖音频源114和116。在本公开的一些实施方式中，来自与用户510(也被称为叙述者/用户510)相关联的站点的音频信号在立体声信号的左声道和立体声信号的右声道中被抑制。本技术的各种实施方式可被用于当在家里、在音乐会、校园剧等期间拍摄视频时捕获立体声音频。

图2是示例音频装置的框图。在一些实施方式中，图2的示例音频装置提供图1的音频装置104的附加细节。在所例示的实施方式中，音频装置104包括接收器210、处理器220、主麦克风106a、辅麦克风106b、音频处理系统230和输出装置240。在一些实施方式中，音频装置104包括另一可选的第三麦克风106c。音频装置104可以包括附加或不同的组件以使得能实现音频装置104操作。类似地，音频装置104可以包括执行与图2中描绘的那些功能类似或等同的功能的更少的组件。

处理器220可以执行存储在音频装置104的(未例示在图2中的)存储器中的指令和模块以执行本文所描述的功能性，包括声信号的降噪。处理器220可以包括作为处理单元实现的硬件和软件，所述处理单元可以为处理器220处理浮点和/或定点操作和其它操作。

示例接收器210可以是被配置为从通信网络接收信号的传感器。在一些实施方式中，接收器210可以包括天线装置。然后可以将信号转发到音频处理系统230以使用本文所描述的技术进行降噪和其它处理。音频处理系统230可以将处理的信号提供给输出装置240以向用户提供音频输出。可以在音频装置104的发送路径和接收路径中的一个或两个中使用本技术。

音频处理系统230可被配置成经由主麦克风106a和辅麦克风106b接收表示来自声源的声音的声信号并且处理这些声信号。处理可以包括对声信号执行降噪。在下面更详细地讨论示例音频处理系统230。主麦克风106a和辅麦克风106b可以间隔开一定距离以允许检测它们之间的能量水平差、时间到达差或相位差。可以将由主麦克风106a和辅麦克风106b接收到的声信号转换成电信号(例如，主电信号和辅电信号)。电信号可以进而由模数转换器(未示出)转换成表示所捕获的声音的数字信号，用于根据一些实施方式进行处理。

输出装置240可包括向用户提供音频输出的任何装置。例如，输出装置240可以包括扬声器、头戴式耳机或听筒的耳机，或存储输出以供在稍后的时间进行视频/音频提取(例如，用于传输到计算机、视频盘或其它媒体以供使用)的存储器。

在各种实施方式中，在主麦克风和辅麦克风包括紧密间隔(例如，相隔1-2cm)的全向麦克风的情况下，可以使用波束形成技术来模拟前向和后向定向麦克风。能量水平差可以用于在降噪中使用的时频域中区分语音和噪声。

图3是示例音频处理系统的框图。图3的框图提供了图2的示例框图的音频处理系统230的附加细节。此示例中的音频处理系统230包括各种模块，该各种模块包括快速耳蜗变换(FCT)302和304、波束形成器310、乘法增益扩展320、混响效果器330、混频器(mixer)340和缩放(zoom)控制350。

FCT 302和304可以从音频装置麦克风接收声信号并且将这些声信号转换成频率范围子带信号。在一些实施方式中，FCT 302和304被实现为一个或多个模块，该一个或多个模块可操作以为每个接收到的麦克风信号生成一个或更多个子带信号。FCT302和304可接收表示来自包括在音频装置104中的每个麦克风的声音的声信号。这些声信号被例示为信号X₁-X_I，其中X₁表示主麦克风信号并且X_i表示麦克风信号的其余部分(例如，N-1)。在一些实施方式中，图3的音频处理系统230在每个帧和每个子带基础上执行音频缩放。

在一些实施方式中，波束形成器310接收频率子带信号以及缩放指示信号。可从缩放控制350接收缩放指示信号。可响应于用户输入、对主麦克风信号的分析或由音频装置104接收到的其它声信号、视频缩放特征选择或一些其它数据来生成缩放指示信号。在工作中，波束形成器310接收子带信号，处理子带信号以识别哪些信号在要增强(或“缩放”)的特定区域内，并且将所选信号的数据作为输出提供给乘法增益扩展模块320。输出可以包括用于要增强区域内的音频源的子带信号。波束形成器310还可向乘法增益扩展320提供增益因子。增益因子可以指示乘法增益扩展320是否应该对从波束形成器310接收到的信号执行附加增益或减小。在一些实施方式中，增益因子基于所接收到的麦克风信号和分量被生成为能量比。由波束形成器310输出的增益指示可以是由波束形成器310减小的主麦克风的能量分量中的能量与波束形成器310的输出能量的比。因此，增益可以包括增强或消除增益扩展因子。在下面更详细地讨论示例增益因子。

可将波束形成器310实现为空处理噪声消减(NPNS)模块、乘法模块或这些模块的组合。当在麦克风中使用NPNS模块来生成波束并实现波束成形时，通过使阿尔法(α)和伽马(σ)的约束变窄使波束聚焦。因此，可以通过为优选方向提供保护范围来操纵波束。示例性波束形成器310模块在题为“Directional Audio Capture”的序列号为14/957,447的美国专利申请和题为“Audio Zoom”的序列号为12/896,725的美国专利申请(于2015年12月8日作为美国专利号9,210,503发布)中被进一步描述，其公开通过引用整体并入本文。用于减小信号的不需要的音频分量的附加技术在题为“Adaptive Noise Reduction Using LevelCues”的序列号为12/693,998的美国专利申请(于2014年5月6日作为美国专利号8,718,290发布)中被讨论，其公开通过引用整体并入本文。

乘法增益扩展模块320可接收与所选波束内的音频源相关联的子带信号、来自波束形成器310的增益因子和缩放指示符信号。乘法增益扩展模块320可基于所接收到的增益因子来应用乘法增益。实际上，乘法增益扩展模块320可对由波束形成器310提供的波束形成器信号进行滤波。

可以将增益因子实现为若干不同的能量比中的一个。例如，能量比可以包括降噪信号与从主麦克风接收到的主声信号的比、降噪信号与在主麦克风信号内检测到的噪声分量的比、降噪信号与辅声信号的比或降噪信号与主信号和另一个信号之间的内水平差相比较的比。增益因子可以是在目标方向对所有其它方向上的信号强度的指示。换句话说，增益因子可以指示乘法扩展以及这些附加扩展是否应该由乘法增益扩展320执行。乘法增益扩展320可输出修改的信号并将该信号提供给混响效果器330(在本文中也被称为混响效果器(去混响效果器)330)。

混响效果器330可接收由乘法增益扩展320输出的子带信号以及也由波束形成器310接收到的麦克风信号，并且对由乘法增益扩展320输出的子带信号执行混响(或去混响)。混响效果器330可以基于由缩放控制350提供的缩放控制指示来调整直接能量与信号内的剩余能量的比。在调整所接收到的信号的混响之后，混响效果器330可将经修改的信号提供给混频组件，例如，混频器340。

混频器340可接收混响调整后的信号并且使该信号与来自主麦克风的信号混频。在一些实施方式中，当在帧中存在音频时，混频器340适当地增加信号的能量，而当在帧中存在很少的音频能量时，混频器340减小能量。

图4是例示了根据另一个示例实施方式的音频处理系统400的框图。音频处理系统400可包括音频缩放音频(AZA)，一种用源估计子系统430增强的子系统。示例AZA子系统包括限幅器402a、402b和402c以及包括FCT 404a、404b和404c、分析406、缩放控制410、信号修改器412加上可变放大器418和限幅器420的各种其它模块。源估计子系统430可包括源方向估计器(SDE)408(也被不同地称为SDE模块408或称为目标估计器)、增益(模块)416和自动增益控制(AGC)(模块)414。在各种实施方式中，音频处理系统400处理来自麦克风106a、106b和可选地第三麦克风106c的声音频信号。

在各种实施方式中，SDE模块408可操作以定位声音源。SDE模块408可操作以基于不同的麦克风输入之间的相位图的相关性来生成提示。基于相位图的相关性，SDE模块408可操作以计算不同角度下的显著性估计的矢量。基于显著性估计，SDE模块408可确定源的方向。换句话说，显著性估计的矢量中的峰值是源在特定方向上的方向的指示。同时，扩散性质(即非定向)的源通过所有角度下的不良显著性估计来表示。SDE模块408可依靠提示(显著性的估计)来改进定向音频解决方案的性能，所述定向音频解决方案由分析模块406、信号修改器412和缩放控制410执行。在一些实施方式中，信号修改器412包括与如在图3中针对音频系统230所示的波束形成器310、乘法增益扩展模块320、混响效果器模块330和混频器模块340相似或类似的模块。

在一些实施方式中，当例如将音频装置104放置在桌子顶部上时，显著性的估计用于在平行于地面的平面中将源的角度定位在0到360度的范围内。显著性的估计可用于根据客户要求在不同的角度下使信号衰减/放大。这些模式的表征可以通过SDE显著性参数来驱动。示例AZA和SDE子系统在题为“Directional Audio Capture”的序列号为14/957,447的美国专利申请中被进一步描述，其公开通过引用整体并入本文。

图5A例示了使用两个全向麦克风进行定向音频信号捕获的示例环境500。示例环境500可包括音频装置104、主麦克风106a、辅麦克风106b、用户510(也被称为叙述者510)和第二声音源520(也被称为场景520)。叙述者510可位于主麦克风106a附近。场景520可位于辅麦克风106b附近。音频处理系统400可以提供包括第一信号和第二信号的双输出。可通过聚焦于与叙述者510相关联的方向来获得第一信号。可通过聚焦于与场景520相关联的方向来获得第二信号。SDE模块408(其示例被示出在图4中)可提供显著性估计的矢量来定位与目标源(例如叙述者510和场景520)相关联的方向。图5B例示出了使用两个全向麦克风捕获的定向音频信号。作为目标源或音频装置变化位置，(例如，在图4中的系统中的)SDE模块408可提供显著性估计的更新矢量，以允许音频处理系统400继续聚焦于目标源。

图6示出了示例NPNS模块600的框图。NPNS模块600可被用作音频处理系统230或400中的波束形成器模块。NPNS模块600可包括分析模块602和606(例如，分别用于应用系数σ₁和σ₂)、适配模块604和608(例如，用于基于系数α₁和α₂适配波束)以及求和模块610、612和614。NPNS模块600可以基于来自主麦克风、辅麦克风和可选地第三麦克风的输入提供增益因子。示例性NPNS模块在题为“System and Method for Providing Noise SuppressionUtilizing Null Processing Noise Subtraction”的序号号为12/215,980的美国专利申请(于2015年11月10日作为美国专利号9,185,487发布)中被进一步讨论，其公开通过引用整体并入本文。

在图6中的示例中，NPNS模块600被配置为适应目标源。当目标源或音频装置移动时，可基于目标源的当前方向来调整衰减系数σ₁和σ₂。

图7A示出了用于在AZA子系统中确定源方向的示例坐标系统710。假定当例如音频装置104被放置在桌子顶部上时音频装置104的最大侧面与地面平行，坐标系统710的X轴从音频装置104的底部指向顶部。坐标系统710的Y轴以XY平面与地面平行的方式被指向。

在本公开的各种实施方式中，AZA中使用的坐标系统710被旋转以适应用于提供接收到的声信号的立体声分离和定向抑制。图7B示出了如与音频装置104有关的旋转坐标系统720。音频装置104以这样的方式定向：当例如音频装置104在记录视频时被保持时，音频装置的最大侧面与地面正交(例如，垂直)并且音频装置的最长边缘与地面平行。坐标系统720的X轴从音频装置104的顶部指向底部。坐标系统720的Y轴以XY平面平行于地面的方式被指向。

根据本公开的各种实施方式，立体声信号(在本文中也被称为左声道立体声(音频)信号和右声道立体声(音频)信号以及左立体声信号和右立体声信号)的至少两个声道是基于由两个或更多个全向麦克风捕获的声信号而生成的。在一些实施方式中，全向麦克风包括主麦克风106a和辅麦克风106b。如图1所示，可通过在左侧创建第一目标波束来提供左(声道)立体声信号。可通过在右侧创建第二目标波束来提供右(通道)立体声信号。根据各种实施方式，随着目标源或音频装置改变位置，波束的方向是固定的并被保持。使波束的方向固定允许获得可由用户听到的自然立体声效果(具有左立体声声道和右立体声声道)。通过使方向固定，当物体从一侧向另一侧跨越视场移动(例如，汽车跨越电影屏幕移动)时，可听到自然立体声效果。在一些实施方式中，用于波束的方向是可调整的，但是在波束形成期间被维持固定。

根据本公开的一些实施方式，NPNS模块600(在图6中的示例中)被修改，因此，它不适应目标源。在图8中示出了修改的NPNS模块800。除了图6中的模块602和606被用模块802和806替换之外，NPNS模块800的组件与NPNS模块600的元件相似。与在图6中的示例中不同，在图8中的示例实施方式中的用于系数σ₁和σ₂的值在形成用于创建立体声信号的波束期间是固定的。通过防止适应目标源，用于波束的方向保持固定，从而确保左立体声信号和右立体声信号随着声音源或音频装置改变位置而不重叠。在一些实施方式中，通过校准和调谐来确定衰减系数σ₁和σ₂。

图9是可在其中实现用于立体声分离和定向抑制的示例方法的示例环境900。环境900包括音频装置104以及音频源910、920和930。在一些实施方式中，音频装置104包括两个全向麦克风106a和106b。在此示例中，主麦克风106a位于音频装置104的底部并且辅麦克风106b位于音频装置104的顶部。当音频装置104被定向为例如在音频源910的方向上记录视频时，音频装置的音频处理系统可以被配置为在立体声记录模式下操作。可以通过为左侧音频创建第一目标波束并且为右侧音频创建第二目标波束来基于来自两个或更多个全向麦克风的输入生成左声道立体声信号和右声道立体声信号。根据各种实施方式，用于波束的方向是固定的。

在某些实施方式中，仅两个全向麦克风106a和106b被用于立体声分离。使用两个全向麦克风106a和106b，在音频装置的每端上各有一个，可实现左侧与右侧之间的清晰分离。例如，辅麦克风106b更靠近音频源920(在图9中的示例中在右侧)并且在主麦克风106a之前不久从音频源920接收波。然后可基于麦克风106a和106b之间的间距以及麦克风106a和106b处的到达时间差来对音频源进行三角测量。然而，此示例性双麦克风系统可能无法区分来自场景侧(其中用户正在指向音频装置的相机)的声信号和来自用户侧(例如，与场景侧相对)的声信号。在图9所示的示例实施方式中，音频源910和930与麦克风106a和106b等距。从音频装置104的顶视图来看，音频源910在场景侧位于音频装置104前面并且音频源930在用户侧位于音频装置后面。在此示例中，麦克风106a和106b接收来自音频源910的相同声信号和来自音频源930的相同声信号，因为麦克风之间的到达时间没有延迟。在此示例中，这意味着，当仅使用两个麦克风106a和106b时，不能区分音频源910和930的位置。因此，对于此示例，不能确定音频源910和930中的哪一个位于音频装置前面并且音频源910和930中的哪一个位于音频装置后面。

在一些实施方式中，可使用适当地放置的第三麦克风来改进场景(音频装置相机的视图)方向与音频装置后面的方向的区分。使用第三麦克风(例如，图9所示的第三麦克风106c)可以帮助提供更鲁棒的立体声声音。来自第三麦克风的输入还可允许更好地衰减不需要的内容，诸如持有音频装置的用户和在用户后面的人们的语音。在各种实施方式中，三个麦克风106a、106b和106c并非全部位于直线上，使得各种实施方式可提供声音相对于三个麦克风所位于的平面的完整360度图片。

在一些实施方式中，麦克风106a、106b和106c包括高AOP麦克风。AOP麦克风可为嘈杂环境(例如，音乐会)中的波束成形提供鲁棒的输入。某些音乐会处的声级能够超过120dB，峰值水平大大超过120dB。传统全向麦克风可能在这些声级下饱和，从而使得无法恢复由麦克风捕获的任何信号。如与传统麦克风相比较，高AOP麦克风是为较高的过载点而设计的，并且因此，当与传统麦克风相比较时能够在显著更响亮的环境下捕获准确的信号。将高AOP麦克风的技术与根据本公开的各种实施方式的使用全向麦克风(例如，针对结合使用高AOP全向麦克风)进行立体声分离和定向抑制的方法相结合可使得用户能够捕获在例如音乐会期间提供其体验的更加真实表示的视频。

图10示出了示例性定向音频信号的示例曲线图的描绘1000。曲线图1010表示由辅麦克风106b捕获的未处理的定向音频信号。曲线图1020表示由主麦克风106a捕获的未处理的定向音频信号。曲线图1030表示通过在右侧形成目标波束而获得的右声道立体声音频信号。曲线图1040表示通过在左侧形成目标波束而获得的左声道立体声音频信号。在此示例中，曲线图1030和曲线图1040示出了曲线图1010和曲1020中描绘的未处理的音频信号的清晰立体声分离。

图11是示出了根据示例实施方式的用于立体声分离和定向抑制的方法的步骤的流程图。方法1100可在块1110中开始，其中接收至少第一音频信号和第二音频信号。第一音频信号可表示由与第一位置相关联的第一麦克风捕获的声音。第二音频信号可表示由与第二位置相关联的第二麦克风捕获的声音。第一麦克风和第二麦克风可以包括全向麦克风。在一些实施方式中，第一麦克风和第二麦克风包括具有高AOP的麦克风。在一些实施方式中，第一麦克风与第二麦克风之间的距离受到移动装置的尺寸的限制。

在块1120中，可通过基于第一音频信号和第二音频信号形成第一位置处的第一波束来生成第一立体声信号(例如，立体声音频信号的第一声道信号)。在块1130中，可通过基于第一音频信号和第二音频信号形成第二位置处的第二波束来生成第二立体声信号(例如，立体声音频信号的第二声道信号)。

图12例示出了可以用于实现本发明的一些实施方式的示例计算机系统1200。可以在计算系统、网络、服务器或其组合的诸如上下文中实现图12的计算机系统1200。图12的计算机系统1200包括一个或更多个处理器单元1210和主存储器1220。主存储器1220部分地存储供处理器单元1210执行的指令和数据。在此示例中，主存储器1220当在工作中时存储可执行代码。图12的计算机系统1200还包括海量数据存储部1230、便携式存储装置1240、输出装置1250、用户输入装置1260、图形显示系统1270和外围装置1280。

图12中所示的组件被描绘为经由单条总线1290连接。可以通过一个或更多个数据传输手段来连接组件。处理器单元1210和主存储器1220经由局部微处理器总线来连接，并且海量数据存储部1230、外围装置1280、便携式存储装置1240和图形显示系统1270经由一条或更多条输入/输出(I/O)总线来连接。

可用磁盘驱动器、固态驱动器或光盘驱动器实现的海量数据存储部1230是用于存储供处理器单元1210使用的数据和指令的非易失性存储装置。海量数据存储部1230为了将系统软件加载到主存储器1220中而存储用于实现本公开的实施方式的系统软件。

便携式存储装置1240与便携式非易失性存储介质(诸如闪存驱动器、软盘、光盘、数字视频盘或通用串行总线(USB)存储装置)一起操作，以向图12的计算机系统1200输入数据和代码并且从图12的计算机系统1200输出数据和代码。用于实现本公开的实施方式的系统软件被存储在这种便携式介质上并且经由便携式存储装置1240输入到计算机系统1200。

用户输入装置1260可提供用户接口的一部分。用户输入装置1260可以包括一个或更多个麦克风、用于输入字母数字和其它信息的字母数字键区(诸如键盘)或指向装置，诸如鼠标、轨迹球、触控笔或光标方向键。用户输入装置1260还可包括触摸屏。附加地，如图12所示的计算机系统1200包括输出装置1250。合适的输出装置1250包括扬声器、打印机、网络接口和监视器。

图形显示系统1270包括液晶显示器(LCD)或其它合适的显示装置。图形显示系统1270可配置为接收文本和图形信息并且处理该信息以供输出到显示装置。

外围装置1280可以包括任何类型的计算机支持装置以向计算机系统添加附加功能。

在图12的计算机系统1200中提供的组件是通常在计算机系统中找到的可能适合于与本公开的实施方式一起使用并且旨在表示本领域中公知的广泛类别的此类计算机组件的那些。因此，图12的计算机系统1200可以是个人计算机(PC)、手持式计算机系统、电话、移动计算机系统、工作站、平板电脑、平板手机、移动电话、服务器、小型计算机、大型计算机、可穿戴装置或任何其它计算机系统。计算机还可以包括不同的总线配置、联网平台、多处理器平台等。可以使用各种操作系统，包括UNIX、LINUX、WINDOWS、MAC OS、PALM OS、QNXANDROID、IOS、CHROME、TIZEN和其它合适的操作系统。

各种实施方式的处理可以用基于云的软件加以实现。在一些实施方式中，计算机系统1200作为基于云的计算环境(诸如在计算云内操作的虚拟机)被实现。在其它实施方式中，计算机系统1200它本身可以包括基于云的计算环境，其中计算机系统1200的功能被以分布式方式执行。因此，计算机系统1200当被配置为计算云时，可以包括各种形式的多个计算装置，如将在下面更详细地描述的。

一般而言，基于云的计算环境是通常组合大量处理器(诸如在web服务器内)的计算能力和/或组合大量计算机存储器或存储装置的存储容量的资源。提供基于云的资源的系统可以由其所有者排他地使用，或者此类系统可以被在计算基础设施内部署应用程序以获得大型计算或存储资源的益处的外部用户访问。

云可以例如由包括多个计算装置(诸如计算机系统1200)的web服务器的网络形成，各个服务器(或至少多个服务器)提供处理器和/或存储资源。这些服务器可以管理由多个用户(例如，云资源客户或其它用户)提供的工作负载。通常，各个用户把实时地有时显著地变化的工作负载需求强加于云。这些变化的性质和程度通常取决于与用户相关联的业务的类型。

以上参考示例实施方式描述了本技术。因此，本公开旨在涵盖示例实施例的其他变型。

Claims

1.一种用于提供立体声分离和定向抑制的方法，所述方法包括：

配置处理器以接收至少第一音频信号和第二音频信号，所述第一音频信号表示由与第一位置相关联的第一麦克风捕获的声音并且所述第二音频信号表示由与第二位置相关联的第二麦克风捕获的声音，所述第一麦克风和所述第二麦克风包括移动装置的全向麦克风，所述第一麦克风与所述第二麦克风之间的距离受所述移动装置的尺寸的限制；

配置所述处理器以通过基于所述第一音频信号和所述第二音频信号形成所述第一位置处的第一波束来生成立体声音频信号的第一声道信号；以及

配置所述处理器以通过基于所述第一音频信号和所述第二音频信号形成所述第二位置处的第二波束来生成所述立体声音频信号的第二声道信号。

2.根据权利要求1所述的方法，其中，所述第一麦克风位于所述移动装置的顶部并且所述第二麦克风位于所述移动装置的底部。

3.根据权利要求1所述的方法，其中，与所述第一波束相关联的第一方向和与所述第二波束相关联的第二方向各自相对于所述第一位置与所述第二位置之间的线是固定的。

4.根据权利要求3所述的方法，其中，即使所述第一位置处的音频源从所述第一位置移动到所述第二位置，所述第一方向仍保持固定。

5.根据权利要求4所述的方法，其中，即使所述第二位置处的另一音频源从所述第二位置移动到所述第一位置，所述第二方向仍保持固定。

6.根据权利要求1所述的方法，其中，

形成所述第一波束包括减小与所述第一波束外面的源相关联的声信号分量的信号能量；并且

形成所述第二波束包括减小与所述第二波束外面的其他源相关联的声信号分量的信号能量。

7.根据权利要求6所述的方法，其中，通过消减抑制来执行减小能量分量。

8.根据权利要求1所述的方法，其中，通过所述第一位置处的第一音频源被定位成更靠近所述第一麦克风，所述第一音频源与所述第一麦克风相关联。

9.根据权利要求8所述的方法，其中，通过所述第二位置处的第二音频源被定位成更靠近所述第二麦克风，所述第二音频源与所述第二麦克风相关联。

10.根据权利要求1所述的方法，其中，所述第一麦克风和所述第二麦克风包括具有高于预定声压级的声学过载点AOP的麦克风。

11.根据权利要求10所述的方法，其中，所述预定声压级是120分贝。

12.根据权利要求6所述的方法，所述方法还包括配置所述处理器以接收表示由与另一位置相关联的另一麦克风捕获的声音的至少一个其它声信号，另一个麦克风包括全向麦克风，并且所述形成所述第一波束和所述形成所述第二波束各自进一步基于所述至少一个其它声信号。

13.根据权利要求12所述的方法，其中，所述另一个麦克风位于所述移动装置上除了所述第一麦克风与所述第二麦克风之间的线之外的位置上。

14.一种用于立体声分离和定向抑制的系统，所述系统包括：

至少一个处理器；以及

与所述至少一个处理器以通信的方式联结的存储器，所述存储器存储指令，所述指令在由所述至少一个处理器执行时，执行包括以下步骤的方法：

接收至少第一音频信号和第二音频信号，所述第一音频信号表示由与第一位置相关联的第一麦克风捕获的声音并且所述第二音频信号表示由与第二位置相关联的第二麦克风捕获的声音，所述第一麦克风和所述第二麦克风包括移动装置的全向麦克风，所述第一麦克风与所述第二麦克风之间的距离受所述移动装置的尺寸的限制；

通过基于所述第一音频信号和所述第二音频信号形成所述第一位置处的第一波束来生成立体声音频信号的第一声道信号；以及

通过基于所述第一音频信号和所述第二音频信号形成所述第二位置处的第二波束来生成所述立体声音频信号的第二声道信号。

15.根据权利要求14所述的系统，其中，所述第一麦克风位于所述移动装置的顶部并且所述第二麦克风位于所述移动装置的底部。

16.根据权利要求14所述的系统，其中，与所述第一波束相关联的第一方向和与所述第二波束相关联的第二方向相对于所述第一位置与所述第二位置之间的线是固定的。

17.根据权利要求14所述的系统，其中：

18.根据权利要求17所述的系统，其中，通过消减抑制来执行减小能量分量。

19.根据权利要求17所述的系统，其中，所述方法还包括接收表示由与另一位置相关联的另一麦克风捕获的声音的至少一个其它声信号，另一个麦克风包括全向麦克风，并且所述形成所述第一波束和所述形成所述第二波束各自进一步基于所述其它声信号。

20.根据权利要求19所述的系统，其中，所述另一个麦克风位于所述移动装置上除了所述第一麦克风与所述第二麦克风之间的线之外的位置上。

21.根据权利要求14所述的系统，其中，通过所述第一位置处的第一音频源被定位成更靠近所述第一麦克风，所述第一音频源与所述第一麦克风相关联，并且通过所述第二位置处的第二音频源被定位成更靠近所述第二麦克风，所述第二音频源与所述第二麦克风相关联。

22.根据权利要求14所述的系统，其中，所述第一麦克风和所述第二麦克风包括具有大于预定声压级的声学过载点AOP的麦克风。

23.根据权利要求22所述的系统，其中，所述预定声压级是120分贝。

24.一种在其上具体实现有指令的非暂时性计算机可读存储介质，所述指令当由至少一个处理器执行时，执行用于立体声分离和定向抑制的方法的步骤，所述方法包括：