CN105264911A

CN105264911A - 音频设备

Info

Publication number: CN105264911A
Application number: CN201380077242.4A
Authority: CN
Inventors: J·马基宁; A·胡图宁; M·塔米; M·维勒尔莫
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Oyj; Nokia Technologies Oy
Priority date: 2013-04-08
Filing date: 2013-04-08
Publication date: 2016-01-20
Anticipated expiration: 2033-04-08
Also published as: US9781507B2; CA2908435A1; CA2908435C; CN105264911B; EP2984852B1; EP2984852A4; US20160044410A1; WO2014167165A1; KR20150139934A; KR101812862B1; EP2984852A1

Abstract

一种设备，包括：输入端，配置为接收由至少两个音频信号构成的至少两组音频信号；第一音频形成器，配置成从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号；第二音频形成器，配置成从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号；音频分析器，配置成分析第一形成的音频信号和第二形成的音频信号，以确定至少一个音频源和相关的音频源信号；以及音频信号合成器，配置成基于至少一个音频源和相关的音频源信号生成至少一个输出音频信号。

Description

音频设备

技术领域

本发明涉及一种用于空间音频信号处理的设备。本发明进一步涉及但不限于用于在移动装置内的空间音频信号处理。

背景技术

正以更大的频率使用空间音频信号，以生成更逼真的音频体验。立体声或多声道录音可以从录音或捕获装置传到收听设备，并用合适的多声道输出被重播，所述多频道输出例如多声道扬声器装置并虚拟环绕处理一对立体声耳机或头戴式耳机。

可以理解，诸如移动电话具有两个以上麦克风是可能的。这为记录实时多声道音频提供了可能性。利用先进的信号处理，还能够形成波束(beamform)或定向放大或处理从特定或所需方向来自麦克风的音频信号。

发明内容

从而，本申请的方面提供了空间音频捕获和处理，所述空间音频捕获和处理在使得麦克风的数量最少并考虑到麦克风定位的限制的同时，提供了对所需的记录距离的最佳获取(pickup)和立体成像。

而且，可以减少除了在相机方向以外的所有方向上的噪声。在这里所述的实施例中，即使麦克风定位的需求有限，也能够实现定向声场声道之间的立体声分离。

根据第一方面，提供了一种方法，包括：接收由至少两个音频信号构成的至少两组音频信号；从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号；从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号；分析第一形成的音频信号和第二形成的音频信号以确定至少一个音频源和相关的音频源信号；以及基于至少一个音频源和相关的音频源信号生成至少一个输出音频信号。

由至少两个音频信号构成的第一组音频信号可以是左前和左后麦克风；并且从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号可以包括生成虚拟左麦克风信号。

由至少两个音频信号构成的第二组音频信号可以是右前和右后麦克风；并且从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号可以包括生成虚拟右麦克风信号。

分析第一形成的音频信号和第二形成的音频信号以确定至少一个音频源和相关的音频源信号可以包括确定至少一个源位置。

所述方法还可以包括：接收源位移因数；以及通过源位移因数处理至少一个源位置，从而使得源位置从音频中线移开所述源位移因数。

接收源位移因数可以包括基于与相机相关的缩放因数生成源位移因数，所述相机被配置成当接收到由至少两个音频信号构成的至少两组音频信号时基本上捕获至少一帧图像。

基于至少一个音频源和相关的音频源信号生成至少一个输出音频信号可以包括基于至少一个音频源位置生成至少一个输出音频信号。

基于至少一个音频源位置生成至少一个输出音频信号可以包括：确定至少一个输出音频信号位置；以及基于至少一个音频源位置使至少一个音频源信号音频平移(pan)，从而在至少一个输出音频信号位置处生成至少一个输出音频信号。

从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号可以包括从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一波束成形的音频信号；并且从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号可以包括从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二波束成形的音频信号。

从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号可以包括从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一混合音频信号，从而使得第一混合音频信号能创建具有第一方向的第一阶渐变模式；并且从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号可以包括从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二混合音频信号，从而使得第二混合音频信号创建具有第二方向的进一步的第一阶渐变模式。

根据第二方面，提供了一种设备，包括：用于接收由至少两个音频信号构成的至少两组音频信号的装置；用于从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号的装置；从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号的装置；用于分析第一形成的音频信号和第二形成的音频信号，以确定至少一个音频源和相关的音频源信号的装置；以及用于基于至少一个音频源和相关的音频源信号生成至少一个输出音频信号的装置。

用于分析第一形成的音频信号和第二形成的音频信号以确定至少一个音频源和相关的音频源信号的装置可以包括用于确定至少一个源位置的装置。

设备还可以包括：用于接收源位移因数的装置；以及用于通过源位移因数处理至少一个源位置，从而使得源位置从音频中线移开所述源位移因数的装置。

用于接收源位移因数的装置可以包括基于与相机相关的缩放因数生成源位移因数的装置，所述相机被配置成当接收由至少两个音频信号构成的至少两组音频信号时基本上捕获至少一帧图像。

用于基于至少一个音频源和相关的音频源信号生成至少一个输出音频信号的装置可以包括用于基于至少一个音频源位置生成至少一个输出音频信号的装置。

用于基于至少一个音频源位置生成至少一个输出音频信号的装置可以包括：用于确定至少一个输出音频信号位置的装置；以及用于基于至少一个音频源位置使至少一个音频源信号音频平移，从而在至少一个输出音频信号位置处生成至少一个输出音频信号的装置。

用于从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号的装置可以包括用于从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一波束成形的音频信号的装置；以及用于从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号的装置可以包括用于从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二波束成形的音频信号的装置。

用于从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号的装置可以包括用于从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一混合音频信号，从而使得第一混合音频信号创建具有第一方向的第一阶渐变模式的装置；以及用于从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号的装置可以包括用于从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二混合音频信号，从而使得第二混合音频信号能够创建具有第二方向的进一步的第一阶渐变模式的装置。

根据第三方面，提供了一种设备，包括至少一个处理器和至少一个存储器，所述存储器包括用于一个或多个程序的计算机代码，所述至少一个存储器和与所述至少一个处理器一起配置的所述计算机代码使得所述设备执行至少以下操作：接收由至少两个音频信号构成的至少两组音频信号；从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号；从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号；分析第一形成的音频信号和第二形成的音频信号以确定至少一个音频源和相关的音频源信号；以及基于至少一个音频源和相关的音频源信号生成至少一个输出音频信号。

由至少两个音频信号构成的第一组音频信号可以是左前和左后麦克风；并且从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号可以使得设备生成虚拟左麦克风信号。

由至少两个音频信号构成的第二组音频信号可以是右前和右后麦克风；并且从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号可以使得设备生成虚拟右麦克风信号。

分析第一形成的音频信号和第二形成的音频信号以确定至少一个音频源和相关的音频源信号可以使得设备确定至少一个源位置。

还可以使得设备执行以下操作：接收源位移因数；以及通过源位移因数处理至少一个源位置，从而使得源位置从音频中线移开所述源位移因数。

接收源位移因数可以使得设备基于与相机相关的缩放因数生成源位移因数，所述相机被配置成当接收到由至少两个音频信号构成的至少两组音频信号时基本上捕获至少一帧图像。

基于至少一个音频源和相关的音频源信号生成至少一个输出音频信号可以使得设备基于至少一个音频源位置生成至少一个输出音频信号。

基于至少一个音频源位置生成至少一个输出音频信号可以使得设备执行以下操作：确定至少一个输出音频信号位置；以及基于至少一个音频源位置使至少一个音频源信号音频平移，从而在至少一个输出音频信号位置处生成至少一个输出音频信号。

从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号可以使得设备从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一波束成形的音频信号；以及从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号可以包括从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二波束成形的音频信号。

从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号可以使得设备从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一混合音频信号，从而使得第一混合音频信号创建具有第一方向的第一阶渐变模式；以及从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号可以包括从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二混合音频信号，从而使得第二混合音频信号能够创建具有第二方向的进一步的第一阶渐变模式。

根据第四方面，提供了一种设备，包括：输入端，配置为接收由至少两个音频信号构成的至少两组音频信号；第一音频形成器，配置成从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号；第二音频形成器，配置成从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号；音频分析器，配置成分析第一形成的音频信号和第二形成的音频信号，以确定至少一个音频源和相关的音频源信号；以及音频信号合成器，配置成基于至少一个音频源和相关的音频源信号生成至少一个输出音频信号。

音频分析器可以被配置成确定至少一个源位置。

设备还可以包括：源位移输入端，配置为接收源位移因数；以及源置换器，配置为通过源位移因数处理至少一个源位置，从而使得源位置从音频中线移开所述源位移因数。

源位移因输入端可以包括源位移因数发生器，配置为基于与相机相关的缩放因数生成源位移因数，所述相机被配置成当接收到由至少两个音频信号构成的至少两组音频信号时基本上捕获至少一帧图像。

音频信号合成器可以被配置为基于至少一个音频源位置生成至少一个输出音频信号。

音频信号合成器可以包括：输出位置确定器，配置为确定至少一个输出音频信号位置；以及振幅偏位器，配置为基于至少一个音频源位置使至少一个音频源信号音频平移，从而在至少一个输出音频信号位置处生成至少一个输出音频信号。

第一音频形成器可以包括第一波束形成器，配置为从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一波束成形的音频信号；以及第二形成器可以包括第二波束形成器，配置为从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二波束成形的音频信号。

第一音频形成器可以包括第一混音器，配置成从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一混合音频信号，从而使得第一混合音频信号能创建具有第一方向的第一阶渐变模式；以及第二音频形成器可以包括第二混音器，配置成从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二混合音频信号，从而使得第二混合音频信号能够创建具有第二方向的进一步的第一阶渐变模式。

存储在介质上的计算机程序产品可以使得设备执行这里所述的方法。

电子装置可以包括这里所述的设备。

芯片集可以包括这里所述的设备。

本发明的实施例旨在解决与本技术领域有关的问题。

附图说明

为了更好地理解本发明，现在可以例如参考附图，其中：

图1示意性示出了适于在一些实施例中所使用的设备；

图2示意性示出了适于在一些实施例中所使用的设备上的麦克风位置；

图3示意性示出了根据一些实施例的设备上的麦克风尺寸；

图4示意性示出了根据一些实施例的设备上的虚拟麦克风位置；

图5示意性示出了根据一些实施例的示例性音频信号处理设备；

图6示意性示出了根据一些实施例的图5中所示的音频信号处理设备的操作流程图；

图7示出了根据一些实施例的左麦克风和右麦克风的示例性波束成形的极增益图；

图8示出了根据一些实施例的示例性经处理的波束成形的左麦克风和右麦克风的极增益图；

图9示出了根据一些实施例的又一示例性波束成形的左麦克风和右麦克风的极增益图；

图10示出了根据一些实施例的从左方向和右方向生成的波束成形的突发噪声的图形；

图11示出了根据一些实施例的从左方向和右方向生成的经处理的波束成形的突发噪声的图形；

图12示出了从左方向和右方向生成的波束成形的遥远的语音的图形；

图13示出了从左方向和右方向生成的经处理的波束成形的遥远的语音的图形；以及

图14示出了示例性基于缩放的音频信号处理示例的示意图。

附图说明

下面更详细地描述了提供对例如音频-视频捕获设备内的音频记录的有效声场方向性处理的合适设备和可能机构。在下面的示例中，描述了音频信号和处理。然而，可以理解，在一些实施例中，音频信号/音频捕获和处理是音频-视频系统中的一部分。

可以理解，通常使用设备试图生成方向性捕获，所述方向性捕获加重与设备有关的方向，该方向例如可能试图记录和捕获相机方向上的音频信号。例如，在目标信号在相机方向上的噪音环境中的记录。而且，应该理解，记录或捕获音频信号可以去生成立体声或多声道音频记录或可以是静止的或动态转向目标的定向的单声道捕获。

如这里所述的，移动装置或设备更通常装备有适于记录和捕获移动装置和设备周围的音频环境或音频场景的多个麦克风配置或麦克风阵列。多个麦克风配置能够记录立场或围绕声音信号，以及麦克风的已知位置和定位还能够使设备处理来自麦克风的捕获的或记录的音频信号以执行空间处理，从而强调或聚焦于来自相对于其他方向的限定方向的音频信号。

如此所述，可以通过波束形成(例如阵列信号处理波束形成)来处理捕获的或记录的声音，从而能够捕获或记录所需方向上的声场同时抑制来自其他方向的声音。在如这里所述的一些环境中，可以应用基于波束形成器输出信号之间的延迟的定向估计。然后采用这里所述的波束形成器输出和定向估计来合成立体声或单声道输出。

然而，移动电子装置或设备、小装置尺寸和装置上的大显示器的目前设计趋势只能允许在记录和处理音频信号时会产生问题的麦克风配置。

例如，带有相机的智能电话在麦克风数量及其位置上都受到限制。因为另外的麦克风会增加尺寸和制造成本，所以麦克风当前设计对不同的应用“重新使用”麦克风。例如，在“底端”和“顶端”的麦克风位置可以用来获取语音的手持便携式电话应用和视频/音频记录应用中重新使用的这些麦克风中的语音和参考噪声。

可以理解，为了生成或设计“波束”，使用至少两个麦克风，麦克风优选位于向着所需波束方向的一行上。图2示意性示出了设备10，所述设备10示出了可能的提供立体声记录的麦克风位置，所述麦克风位置对相机方向上的音频源进行加强。

第一设备10配置例如示出了带有相机51和显示器52的设备，相机51位于设备的“前”侧，显示器52位于设备的“后”侧。设备还包括左前和右前麦克风11，以及11₂位于分别靠近设备的“左”和“右”边缘的“前”侧。而且，设备包括左和右后麦克风11₄和11₅，分别位于远离“左”和“右”边缘但是在设备中心线的左边和右边的“后”侧。

根据该配置，麦克风11₁和11₄可以用来提供左波束，以及相应的麦克风11₂和11₅可以用来提供右波束。而且，可以理解，侧向“左-右”方向的分离能够对相机附近的声源进行立体声记录。这可以由限定了第一配置记录角度的左麦克风对11₁和11₄线110₁和右麦克风对11₂和11₅线110₂示出。示出。

然而，这种配置在以最小化长度和最大化屏幕尺寸为目标的现代电话设计中可能是不合适的。

更适合现代电话设计的第二设备10配置示出了左前和右前麦克风11₁和11₂分别位于设备的“左”和“右”边缘附近的“前”侧，以及左后和右后麦克风11₃和11₆分别位于稍微离开“左”和“右”边缘但是比第一配置左后和右后麦克风更靠近边缘的“后”侧。在该配置中侧向“左-右”方向的分离产生了由限定了配置记录角度的左麦克风对11₁和11₃线111₁和右麦克风对11₂和11₆线111₂限定的更窄的记录角度。

使用采用了更窄的记录角度的第二配置记录远处的声源可以最大化所需声源的记录灵敏度。不幸的是，由于窄的记录角度，尽管输出由两个声道组成，但是立体声效应还是降低，实际上它类似于单声道记录。而且，当用光学变焦进行视频记录时，音频轨道可能听起来有矛盾，例如当重播视频时，相机和音频目标之间的“明显”举例可能会缩短。而且，由于差得立体声分离可以从中心听到在视频的左边或右边出现的任何音频目标。

因此，如本文进一步详细描述的概念是音频记录系统对于所需的记录记录提供了最佳的获取和立体成像，同时减少麦克风的数量并考虑到麦克风定位的限制。

所述概念通过定向捕获方法来实施，所述定向捕获方法使用至少两对间隔紧密的麦克风，其中通过第一波束形成每对麦克风以生成至少两个音频波束然后基于音频波束之间的延迟的音频源方向估计来处理来自麦克风的输出。

因此，在一些实施例中，可以实施波束形成来有效减少除相机方向意外的所有噪声。而且，在一些实施例中，波束形成可以在混响记录条件下改善声音质量，因为波束形成可以基于声音来自的方向滤掉混响。在一些实施例中，使用基于相关性(延迟)应用的定向估计来合成来自波束形成器输出端的立体声或单声道输出。在噪声条件下，应用波束形成可以在一些实施例中通过去除从除了所需方向以外的方向来的掩码信号来改善定向估计。

在一些实施例中，对于立体声记录，基于相关性的定向估计还能够应用立体声分离处理以改善输出信道之间的微弱的立体声分离，以及从而生成合适的立体声，即使波束形成过程将焦点修改到前方。

基于相关性的方法在一些实施例中还可以接受两个波束信号作为输入，表示左信号和右信号，去除信号之间的延迟并基于估计的声源方向来修改左信号和有右信号的振幅。在所述实施例中，可以通过对于麦克风位置相对轻松的要求(换句话，具有窄的侧向分离距离)来生成高质量定向捕获或记录。

在一些实施例中，在制作视频时，处理或音频捕获或记录可以是关于光学变焦。例如，在一些实施例中，在不使用缩放的情况下，右信道和左信道可以被平移到和估计左右信道将出现的角度相同的角度。当应用或正使用光学变焦时，左信道和右信道被平移成相对于相机比其实际上更宽，以反映相机和视频上出现的目标之间的角度。

在这方面，首先参考图1，它示出了示例性设备或电子装置10的示意框图，所述装置或电子设备10可用于记录(或作为捕获设备操作)。

电子装置10当用作记录设备或听音设备时例如可以为无线通信系统的移动终端或用户设备。在一些实施例中，设备可以为音频播放器或音频记录器，诸如MP3播放器、媒介记录器/播放器(也被称为MP4播放器)，或任何适于记录音频的合适的便携式设备或音频/视频摄像机/存储器、音频或视频记录器。

设备10在一些实施例中包括音频-视频子系统。音频-视频子系统例如在一些实施例中可以包括用于音频信号捕获的麦克风或麦克风11阵列。在一些实施例中，麦克风或麦克风阵列可以为固态麦克风，换句话说，能够捕获音频信号和输出合适的数字格式信号，换句话说不需要模式到数字转换器。在一些其他的实施例中，麦克风和麦克风11阵列可以包括任何合适的麦克风或音频捕获装置，例如电容式麦克风、电容麦克风、静电麦克风、电介电容式麦克风，动态麦克风、带式麦克风、碳麦克风、压电式麦克风、或微电机系统(MEMS)麦克风。麦克风11或麦克风阵列在一些实施例中可以将音频捕获的信号输出到模拟到数字转换器(ADC)14。

在一些实施例中，设备还可以包括配置成从麦克风接收模拟捕获的音频信号并以合适的数字形式输出音频捕获的信号的模拟到数字转换器(ADC)14。模拟到数字转换器14可以是任何合适的模拟到数字转换或处理装置。在麦克风是“集成”麦克风的一些实施例中，麦克风既包括音频信号生成能力还包括模拟到数字转换能力。

在一些实施例中，设备10音频-视频子系统还包括用于将来自于处理器21的数字音频信号转换成合适的模拟格式的数字到模拟转换器32。数字到模拟转换器(DAC)或信号处理装置32在一些实施例中可以为任何合适的DAC技术。

而且音频-视频子系统在一些实施例中可以包括扬声器33。扬声器33在一些实施例中可以从数字到模拟转换器32接收输出，并将模拟音频信号展示给用户。

在一些实施例中，扬声器33可以表示多扬声器配置、耳机、例如一套耳机、或无绳耳机。

在一些实施例中，设备音频-视频子系统包括配置成向处理器21提供图像数据的相机51或图像捕获装置。在一些实施例中，相机可以被配置成随着时间提供多个图像以提供视频流。

在一些实施例中，设备音频-视频子系统包括显示器52。显示器或图像显示装置可以被配置成输出可以被设备的用户查看的虚拟图像。在一些实施例中，显示器可以为适于将输入数据提供给设备的触屏显示器。显示器可以为任何合适的显示技术，例如显示器可以被实施为包括LCD、LED、OLED或等离子显示实现单元的平板。

虽然示出了设备10具有音频/视频捕获和音频/视频表示元件。可以理解，在一些实施例中，设备10可以仅包括音频子系统的音频捕获和音频表示部件，从而使得在设备的一些实施例中存在麦克风(用于音频捕获)或扬声器(用于音频表示)。类似的，在一些实施例中，设备10可以包括视频子系统的视频捕获和视频表示部件中的一者或另一者，从而在一些实施例中，存在相机51(用于视频捕获)或显示器52(用于视频表示)。

在一些实施例中，设备10包括处理器21。处理器21耦合到音频-视频子系统，并且在一些示例中特别是用于从麦克风11接收表示音频信号的数字信号的模拟到数字转换器14、配置成输出经处理的数字音频信号的数字到模拟转换器(DAC)12、用于接收表示视频信号的数字信号的相机51、和配置成从处理器21输出经处理的数字视频信号的显示器52。

处理器21可以被配置成执行各种程序代码。实现的程序代码可以包括例如音频-视频记录和音频-视频表示例程。在一些实施例中，程序代码可以被配置成执行音频信号处理。

在一些实施例中，设备还包括存储器22。在一些实施例中，处理器耦合到存储器22。存储器可以是任何合适的存储装置。在一些实施例中，存储器22包括用于可以在处理器21上实现的程序代码的程序代码段23。而且，在一些实施例中，存储器22还可以包括用于存储数据的存储数据段23，例如根据应用程序被编码的数据或要经由后面所述的应用程序实施例被编码的数据。存储在程序代码段23内的实现的程序代码，和存储的数据段24内存储的数据可以在需要时经由存储器-处理器偶尔而由处理器21获取。

在一些实施例中，设备10可以包括用户界面15。用户界面15在一些实施例中可以耦合到处理器21。在一些实施例中，处理器可以控制用户界面的操作并从用户界面15接收输入。在一些实施例中，用户界面15可以使用户例如经由键盘向电子装置或设备10输入命令，和/或例如经由是用户界面15的一部分的显示器从设备10获取信息。用户界面15在这里所述的一些实施例中可以包括触屏或能够够使信息被输入到设备10还能显示信息到设备10的用户的触摸界面。

在一些实施例中，设备还包括收发机13，在这些实施例中的收发机可以耦合到处理器并被配置成能够例如经由无线通信网络与其他设备或电子装置进行通信。收发机13或任何合适的收发机或发射机和/或接收机装置在一些实施例中可以被配置成经由有线或有线耦合与其他电子装置或设备进行通信。

收发机13可以通过任何合适的已知通信协议与其他设备进行通信，例如在一些实施例中收发机13和/或收发机装置可以使用合适的通用移动电信系统(UMTS)协议、例如IEEE802.X的无线局域网(WLAN)协议、例如蓝牙的合适的短距离射频通信协议、或红外数据通信通道(IROA)。

在一些实施例中，设备可以包括被配置成估计设备10的位置的位置传感器16。位置传感器16在一些实施例中可以为卫星定位传感器，诸如GPS(全球定位系统)、GLONASS或伽利略接收机。

在一些实施例中，定位传感器可以为蜂窝ID系统或辅助GPS系统。

在一些实施例中，设备10还包括方向或方位传感器。方位/方向传感器在一些实施例中可以为电子罗盘、加速计和陀螺仪或者可以使用定位估计通过设备的运动来确定。

再一次要理解的是，可以以各种方式来填加或改变电子装置10的结构。

参考图3，示出了示例性设备实现方式，其中设备10大约9.7cm宽203，以及大约1.2cm厚201。在图3所示的示例中，设备包括4个麦克风，第一(左前)麦克风11₁₁位于设备的左前侧，右前麦克风11₁₂位于设备的右前侧，右后麦克风11₁₄位于设备的右后侧，左后麦克风11₁₃位于设备的左后侧。连接左前11₁₁和右前11₁₃麦克风的线111₁和连接右前11₁₂麦克风和右后11₁₄麦克风的线111₂可以限定记录角度。

参考图5，示出了根据一些实施例的示例性音频信号处理设备。而且参考图6，示出了图5中所示的音频信号处理设备的操作的流程图。

在一些实施例中，设备包括配置成捕获或记录声波麦克风或麦克风阵列，并为每个麦克风生成音频信号，所述音频信号被传递或输入到音频信号处理设备。如本文所述，在一些实施例中，麦克风11被配置成输出模拟信号，所述模拟信号通过模拟到数字转换器(ADC)14被转换成数字格式。然而，在这里的示例中所示的麦克风为配置成直接将数字格式信号输出到波束形成器的集成麦克风。

在这里所示的示例中有四个麦克风。所述麦克风在一些实施例中可以以和图3中所示的方式类似的方式排列。所以，在一些实施例中，设备包括位于设备的左前侧的第一(左前)麦克风11₁₁、位于设备的右前侧的右前麦克风11₁₂，位于设备的右后侧的右后麦克风11₁₄，位于设备的左后侧的左后麦克风11₁₃。可以理解的是，在一些实施例中，有多于或少于四个麦克风，以及麦克风可以以任何合适的方式排列或设置在设备上。

而且，虽然如图3所示，麦克风是设备的一部分，可以理解，在一些实施例中麦克风阵列与设备物理分离，例如麦克风阵列可以位于耳机上(其中耳机也具有关联的视频相机，所述视频相机捕获视频图像，该视频图像也被传递到设备并被处理使得能够生成可以合并这里所述的经处理的音频信号的编码的视频信号)，所述麦克风阵列将音频信号以有线方式或其他方式传递到设备以进行处理。应该理解，通常这里所述的实施方式可以应用到音频信号，例如已从麦克风捕获然后存储在存储器重的音频信号。因而，在一些实施例中，通常可以被配置成接收者少两个音频信号，或者设备包括配置成接收至少两个音频信号的输入端，所述音频引号可以最初由麦克风阵列生成。

在图6中由步骤501示出了接收麦克风输入音频信号的操作。

在一些实施例中，设备包括至少一个波束形成器或用于对麦克风音频信号进行波束成形的装置。在图5所示的示例中，这里包括2个波束形成器，每个波束形成器被配置成生成分开的波束成形的音频信号。在这里所示的示例中，波束形成器被配置成生成左波束和右波束，然后，应该理解，在一些实施例中，可以有任何数目的波束形成器生成任何数目的波束。而且，在这里所述的一些实施例中，描述了波束形成期或用于对音频信号进行波束成形的装置。然而，应该理解，更一般地，音频形成器和用于生成形成的音频信号的装置可以在一些实施方式中实现。音频形成器或用于生成形成的音频信号的装置例如可以为配置成将所选的一组音频信号进行混合的混音器。在一些实施例中，混音器可以被配置成将音频信号混合从而混合的音频信号创建带有限定方向的阶梯模式。从而在一些实施例中，可以通过从多个音频信号中选择音频信号并混合所选的音频信号来形成任何数目的具有限定的方向的阶梯模式。

在一些实施例中，设备包括第一(左)波束形成器401。第一(左)波束形成器401可以被配置成从左麦克风接收音频信号。换句话说，第一波束形成器401被配置成从左前麦克风11₁₁和左后麦克风11₁₃接收音频信号。

而且在一些实施例中，设备包括第二(右)波束形成器403。第二(右)波束形成器403可以被配置成从右麦克风接收音频信号。换句话说，第二波束形成器403可以被配置成从右前麦克风11₁₂和右后麦克风11₁₄接收音频信号。

在本文所示的示例中，每个波束形成器被配置成接收麦克风生成的音频信号的分离选择。换句话说，波束形成器使用麦克风音频信号执行空间滤波。

在图6中通过步骤503示出了分离音频信号(以及在该示例中，分离成左音频信号和右音频信号)的操作。

在一些实施例中，波束形成器(在该示例中为第一波束形成器401和第二波束形成器403)可以被配置成在接收的音频信号上进行波束过滤，以生成波束成形的或波束式的音频信号。

在一些实施例中，波束形成器可以被配置成使用时域滤波与求和波束形成方法来对麦克风音频信号进行波束形成。可以根据下面的表达式来在数学上描述时域滤波与求和方法：

y (n) = Σ_{j = 1}^{M} Σ_{k = 0}^{L - 1} h_{j} (k) x_{j} (n - k) .

其中M是麦克风的数量，L是滤波器长度。滤波系数由h_j(k)表示，麦克风信号由x_j表示。在滤波与求和波束形成中，关于麦克风位置来确定滤波系数h_j(k)。

在一些实施例中，选择或确定滤波系数h_j(k)从而加强来自特定方向的音频信号。而且，在一些实施例中，如图3所示用麦克风限定加强的方向，从而产生在正面方向上加重的波束。

虽然显示波束形成器使用时域处理生成音频信号波束或波束式的音频信号，但是也可以理解，在一些实施例中，可以在频域或者任何其他的变换域中执行波束形成。

在图6中通过步骤505示出了对分离的音频信号进行波束形成以生成波束式的音频信号的操作。

在一些实施例中，波束形成器可以被配置成输出波束式的音频信号(该波束式的音频信号在图5所示的示例中为波束式的左音频信号和波束式的右音频信号)到方向估计器/放大器振幅偏位器405。图7示出了第一示例性波束对的波束方向视图。如图可以看出，来自后方的波束将声音衰减大约10dB，降到3kHz以下。有效地，形成的音频信号或波束601和603用作虚拟方向麦克风信号。如这里所示，可以自由选择波束设计进而虚拟麦克风位置。例如，在这里所示的示例中，我们选择了虚拟麦克风大约在和最初的左前和右前麦克风相同的位置处。

在一些实施例中，设备包括被配置成接收波束式的音频信号的方向估计器/振幅平移器405。在这里所述的图5所示的示例中，接收两个正向加强的波束，然而，可以理解，也可以接收任何合适数目的和方向的波束。

在这里呈现的示例中，波束式的音频信号用作左信道和右信道，所述左信道和右信道对方向估计器执行的方向估计或空间分析提供输入。换句话说，波束式的左和右音频信号可以为认为是来自虚拟左麦克风311₁和虚拟右麦克风311₂的音频信号，诸如图4所示，其中示例性设备的示意表示具有标记的左虚拟麦克风和右虚拟麦克风。在一些实施例中，方向估计器/振幅平移器405更通常被认为包括音频分析器(或用于分析形成的音频信号的装置)和被配置成估计修改的音频源方向和相关的音频源信号。

下面描述了示例性空间分析、源的确定和音频信号的参数化。然而，应该理解的是，可以使用时域或者其他表示域(频域等等)的任何合适的音频信号空间或方向分析。

在一些实施例中，方向估计器/振幅平移器405包括调帧器。调帧器或合适的调帧器装置可以被配置成从虚拟麦克风接收音频信号(换句话说，波束式的音频信号)，并将数字格式信号分成帧或者多组音频采样数据。在一些实施例中，调帧器还可以被配置成使用任何合适的窗口函数来为数据打开窗口(windowthedata)。调帧器可以被配置成为每个麦克风输入生成音频信号数据帧，其中，每个帧的长度和每个帧的重叠程度可以为任何合适的值。例如，在一些实施例中，每个音频帧为20毫秒长，并在帧之间具有10毫秒的重叠。调帧器可以被配置成将帧音频数据输出到时域到频域转换器。

在一些实施例中，方向估计器/振幅平移器405包括时域到频域转换器。时域到频域转换器或者合适的转换器装置可以被配置成在帧音频数据上执行任何合适的时域到频域转换。在一些实施例中，时域到频域转换器可以为离散傅里叶变换器(DFT)。然而，转化器可以为任何合适的转换器，诸如离散余弦变换器(DCT、改进的离散余弦变换器(MDCT)、快速傅立叶变换器(FFT)或正交镜像滤波器(QMF)。时域到频域转换器可以被配置成对每个麦克风输入将频域信号输出到子带滤波器。

在一些实施例中，方向估计器/振幅平移器405包括子带滤波器。子带滤波器或合适的装置可以被配置成对每个麦克风从时域到频域转换器接收频域数据信号，并将每个波束式(虚拟麦克风)的音频信号频域信号分成若干子带。

子带划分可以为任何合适的子带划分。例如，在一些实施例中，子带滤波器可以被配置成使用心理声学过滤带来操作。子带滤波器然后可以被配置成输出每个域范围的子带到方向分析器。

在一些实施例中，方向估计器/振幅平移器405可以包括方向分析器。在一些实施例中，方向分析器和合适的装置可以被配置成对子带的每个波束(虚拟麦克风)选择子带和相关的频率。

方向分析器然后可以被配置成在子带中的信号上执行方向分析。方向分析器在一些实施例中可以被配置成在合适的处理装置内的麦克风/解码器子带频域信号之间执行互相关。

在方向分析器中，发现互相关的延迟值，所述延迟值使得频域子带信号的互相关最大化。该延迟在一些实施例中可以被用来对子带估计离域音频信号源的角度或表示角度。该角度例如可以被定义为α。可以理解，在来自虚拟麦克风的一对两个波束音频信号可以提供第一角度的同时，可以使用两个以上虚拟麦克风以及优选的在一些实施例中在两个或更多轴上的两个以上虚拟麦克风来生成改进的定向估计。

定向分析器然后可以被配置成确定是否选择了所有的子带。在一些实施例中，在选择了所有的子带的情况下，然后方向分析器可以被配置成输出定向分析结果。在没有选择所有的子带的情况下，然后操作可以进行回到选择进一步的子带的处理步骤。

上面描述了使用频域相关值执行分析的方向分析器。然而，应该理解，方向分析器可以使用任何合适的方法执行定向分析。例如，在一些实施例中，对象检测器和分离器可以被配置成输出特定的方位-仰角值，而不是最大相关延迟值。而且，在一些实施例中，可以在时域中执行空间分析。

所以，在一些实施例中，方向分析可以被定义为接收音频子带数据；

\begin{matrix} X_{k}^{b} (n) = X_{k} (n_{b} + n), & n = 0, ..., n_{b + 1} - n_{b} - 1 & b = 0, ..., B - 1 \end{matrix}

其中n_b是第b个子带的第一索引。在一些实施例中，对于每个子带，这里所述的定向分析如下。在一些实施例中，用两个虚拟麦克风或波束式的音频信道来估计方向。方向分析器为子带b找到使波束式的音频信道的两个虚拟麦克风之间的相关性最大的延迟τ_b。例如的DFT域表示可以使用以下表达式被移动τ_b时域样本：

X_{k, τ_{b}}^{b} (n) = X_{k}^{b} (n) e^{- j \frac{2 {πnτ}_{b}}{N}}

在一些实施例中，可以通过以下表达式获得最优的延迟：

τ_{b, \max} = \underset{τ_{b} &Element; [- D_{\max}, D_{\max}]}{\arg \max} {Re (Σ_{n = 0}^{n_{b + 1} - n_{b} - 1} (X_{2, τ_{b}}^{b} {(n)}^{*} X_{3}^{b} (n)))}

其中Re指示结果的实部，以及＊表示复共轭。和被认为是具有n_b+1-n_b个样本长度的矢量。方向分析器在一些实施例中可以对延迟的搜索实现一个时域样本的分辨率。

在一些实施例中，方向分析器可以被配置成生成和信号。和信号在数学上可以被定义为：

X_{s u m}^{b} = \{\begin{matrix} (X_{2, τ_{b}}^{b} + X_{3}^{b}) / 2 & τ_{b} \leq 0 \\ (X_{2}^{b} + X_{3, - τ_{b}}^{b}) / 2 & τ_{b} > 0 \end{matrix}\}

换句话说，方向分析器被配置成生成和信号，其中在不被修改的情况下添加信道的内容，在所述信道中事件第一次发生，而事件稍后发生的信道被移动以获得与第一信道的最佳匹配。

应该理解，延迟或移动τ_b表示声源与一个虚拟麦克风(或波束式的音频信道)比其他虚拟麦克风(或波束式的音频信道)近多少。方向分析器可以被配置成将距离的实际误差确定为：

Δ_{23} = \frac{{&upsi;τ}_{b}}{F_{s}}

其中Fs是信号的采样率，以及v是信号在空气中(或者如果我们进行水下记录则是在水中)的速度。

方向分析器将到达的声音的角度确定为：

\overset{\cdot}{α} = &PlusMinus; \cos^{- 1} (\frac{{Δ_{23}}^{2} + 2 {bΔ}_{23} - d^{2}}{2 d b})

其中d为虚拟麦克风/波束式的音频信道分离对之间的距离，以及b是声源与最近的麦克风之间的估计的距离。在一些实施例中，方向分析器可以被配置成将b的值设置成固定值。例如发现b＝2米可以提供稳定的结果。

可以理解的是，这里所述的确定为到达的声音的方向提供两个可选方案。在一些实施例中，方向估计器/振幅平移器405可以被配置成选择音频源位置，所述音频源位置向着首先接收信号的虚拟麦克风。换句话说，虚拟麦克风音频信号的相关性长度确定选择两个可选方案中的哪个。

在一些实施例中，方向分析器可以被配置成使用来自第三波束式信道的音频信号或第三虚拟麦克风，以确定确定中的哪个标志是正确的。如果我们假设麦克风确定等边三角形，则第三波束式的信道或虚拟麦克风与两个估计的声源之间的距离为：

δ_{b}^{+} = \sqrt{{(h + b \sin ({\overset{\cdot}{α}}_{b}))}^{2} + {(d / 2 + b c o s ({\overset{\cdot}{α}}_{b}))}^{2}}

δ_{b}^{-} = \sqrt{{(h - b s i n ({\overset{\cdot}{α}}_{b}))}^{2} + {(d / 2 + b c o s ({\overset{\cdot}{α}}_{b}))}^{2}}

其中h为等边三角形的高度，例如

h = \frac{\sqrt{3}}{2} d

上述确定中的距离可以被认为等于以下表达式(在样本中)的延迟：

τ_{b}^{+} = \frac{δ^{+} - b}{v} F_{s}

τ_{b}^{-} = \frac{δ^{-} - b}{v} F_{s}

在所述两个延迟之中，在一些实施例中方向分析器被配置成选择提供了与和信号有更好的相关性的延迟。相关性例如可以表示为：

c_{b}^{+} = Re (Σ_{n = 0}^{n_{b + 1} - n_{b} - 1} (X_{s u m, τ_{b}^{+}}^{b} {(n)}^{*} X_{1}^{b} (n)))

c_{b}^{-} = Re (Σ_{n = 0}^{n_{b + 1} - n_{b} - 1} (X_{s u m, τ_{b}^{-}}^{b} {(n)}^{*} X_{1}^{b} (n)))

然后，在一些实施例中方向分析器对子带b将主导声源的方向确定为：

α_{b} = \{\begin{matrix} {\overset{\cdot}{α}}_{b} & c_{b}^{+} &GreaterEqual; c_{b}^{-} \\ - {\overset{\cdot}{α}}_{b} & c_{b}^{+} < c_{b}^{-} \end{matrix}\}

在一些实施例中，方向估计器/振幅平移器405可以进一步包括中间/侧信号发生器。中间信号中的主要内容是从定向分析找到的主导声源。类似的，侧信号包括其他部分或者生成的音频信号周围的音频。在一些实施例中，中间/侧信号发生器可以根据下面的公式对子带确定中间信号M和侧信号S：

M^{b} = \{\begin{matrix} (X_{2, τ_{b}}^{b} + X_{3}^{b}) / 2 & τ_{b} \leq 0 \\ (X_{2}^{b} + X_{3, - τ_{b}}^{b}) / 2 & τ_{b} > 0 \end{matrix}\}

S^{b} = \{\begin{matrix} (X_{2, τ_{b}}^{b} - X_{3}^{b}) / 2 & τ_{b} \leq 0 \\ (X_{2}^{b} - X_{3, - τ_{b}}^{b}) / 2 & τ_{b} > 0 \end{matrix}\}

注意的是，中间信号M是先前已经确定的信号相同的信号，以及在一些实施例中，中间信号可以作为方向分析的一部分被获得。可以以在感知上安全的方式构建中间信号和侧信号，从而使得事件首次发生的信号没有在延迟校准中偏移。在其中麦克风彼此相对较近的一些合适的实施例中，可以确定中间和侧信号。其中麦克风之间的距离相对于到声源的距离很大，然后中间/侧信号发生器可以被配置成在信道总是被修改成提供与主信道最好的匹配的情况下执行修改的中间和侧信号确定。

然后，在一些实施例中中间(M)、侧(S)和方向(α)分量被传到方向估计器/振幅平移器405的振幅平移器部分。

图6通过步骤507示出了对波束式的音频信号进行分析以确定音频或声源或对象。

在定位分量的一些实施例中，然后可以使用(α)来对音频平移控制多信道音频信号的合成。

例如，在一些实施例中，方向估计器/振幅平移器405可以被配置成使用振幅平移将定向分量分成左合成信道和右合成信道。例如，如果估计声音从左侧来，则左侧信号的振幅相对于右侧信号被放大。环境分量被馈送到两个输出信道，但是对于该部分，两个信道的输出被去相关以增加空间感。

图8示出了方向估计和振幅平移算法之后，示例性立体声信道的方向性视图，图8显示了信道701和703进一步分开放置以得到更低的频率。而且，图9以左信道801和右信道803的图示出了另一个版本的带有更宽的立体声图像的经处理的输出信道。

在一些实施例中，方向估计器/振幅平移器405可以包括音频信号合成器(或者用于合成输出信号的装置)，以生成合适的输出音频信号或信道。例如，在一些实施例中，方向估计器/振幅平移器405可以被配置成基于中间和侧分量合成左右音频信号或信道。例如，头相关传递函数或类似的函数可以被应用到中间侧分量及其相关的定向分量，以合成左右输出信道音频信号。而且，在所述实施例中，环境(或侧)分量可以被添加到两个输出信道音频信号上。在一些实施例中，可以理解，可以通过在应用头相关传递函数之前将位移因数应用到定向分量来实现增强的立体声操作。在一些实施例中，该位移因数可以为加法因子。例如

α’＝α+x，当α>0时

α’＝α-x，当α<0时

其中α’为修改的定向分量，α为输入定向分量，以及x为修改因数(例如10-20度)，以及α＝0是音频源对着相机的前方设置。加法(减法)因子可以为任何合适的值，虽然被示出为固定值，但是在一些实施例中，其可以为值α的函数，而且可以为子带的函数。例如，在一些实施例中，较低的频率不被移动或者与较高的频率相比移动较小的量。

在一些实施例中，位移因数可以为任何其他的修改因数，诸如线性乘法、或基于定向分量的源方向的非线性映射。例如，α’＝f(α)，其中f(α)是α的线性或非线性函数。

在一些实施例中，还可以基于进一步的分量确定音频信道的合成。例如，在一些实施例中，音频源的定向分量还通过显示缩放或相机缩放因数被修改。例如，在一些实施例中，基于显示缩放或相机缩放函数可以增加立体声分离效应。换句话说，缩放因数越大以及由此显示的到远方的对象越近，则要试图匹配显示的图像的立体声分离效应越宽。图14示出了这样的一个示例，其中在左手侧，在显示器上把具有第一音频分离角度1303(换句话说是定向分量)的两个对象用第一缩放因数1305显示为具有第一距离分离1303。在图14的右手侧，在显示器上把同样的两个对象用第二(更高的)缩放因数1315显示为具有第二距离分离1313，这使得方向估计器/振幅平移器405修改声源的立体声分离，从而两个对象具有第二音频分离角度1311。可以通过诸如这里所示的合适的方式通过振幅平移或定向分量修改和音频合成方法来实现该分离。

图6通过步骤509示出了基于音频方向估计执行音频信道分离增强的操作。

图10和11示出了将一些实施例应用到立体声记录。图10示出了来自波束形成器之后的左前901和右前903虚拟信道的噪声的噪声水平的输出水平。在记录来自左前和右前方向的噪声的同时，左信道和右信道之间没有水平差。图11示出了根据一些实施例的经处理的输出，其中在噪声来自右前方向时输出右信道1003具有更高的水平，以及在噪声来自左前方向时左信道1001具有更高的水平。类似的，图12和图13示出了左右信道之间的水平差，左右信道具有从不同角度来的遥远的语音输入。图12示出了来自波束形成器之后的左前1101和右前1103虚拟信道的语音的语音水平的输出水平。在记录来自右前或左前方向的语音的同时，左信道和右信道之间没有水平差。图13示出了根据一些实施例的经处理的输出，其中语音来自右前方向时输出右信道1203具有更高的水平，以及在语音来自左前方向时左信道1201具有更高的水平。

然后，方向估计器/振幅平移器405在一些实施例中输出合成的信道以基于所需的输出格式生成合适的单声道、立体声或多信道输出。在图5所示的示例中，立体声输出格式被示出为具有方向估计器/振幅平移器405，所述方向估计器/振幅平移器生成立体声左信道音频信号和立体声右信道音频信号。

应该理解，术语用户设备意在覆盖任何合适类型的无线用户设备，诸如移动电话、便携式数据处理装置或便携式网络浏览器，以及可穿戴装置。

一般地，可以以硬件或专用电路、软件、逻辑或者其任意结合来实现本发明的各种实施例。例如，可以以硬件实现一些方面，而可以以固件或软件实现其他方面，所述固件或软件可以由控制器、微处理器或其他计算装置执行，虽然本发明不限于此。本发明的各个方面可以显示或者买哦书为框图、流程图，或者使用其他一些图形表示，但是可以理解，作为非限制性的示例，所述这里所述的模块、设备、系统、技术或方法可以实现硬件、软件、固件、专用电路或逻辑、通用硬件或控制器、或其他计算装置、或者其结合。

本发明的实施例可以由移动装置的数据处理器(诸如处理器实体中的数据处理器)、或硬件、或软件和硬件的结合可执行的计算机软件实现。进一步地，在这方面，注意的是，图中任何逻辑流的框图可以表示程序步骤、或者内联的逻辑电路、模块和功能。软件可以存储在诸如存储器芯片或处理器中实现的存储块的物理介质、诸如硬盘或软盘的磁介质、和诸如例如DVD和其数据变换形式、CD的光介质上。

存储器可以是任何适于本地技术环境的类型，以及可以使用任何合适的数据存储技术来实现，诸如基于半导体的存储器装置、磁存储器装置和系统、光存储器装置和系统、固定存储器和可移除存储器。数据处理器可以是任何适于本地技术环境的类型，以及为非限制性的示例，可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器结构的处理器中的一者或多者。

本发明的实施例可以以诸如集成电路模块的各种组件实现。集成电路的设计大体上是高度自动化的过程。复杂和强大的软件工具可用于将逻辑级设计转换成半导体电路设计以准备好被蚀刻和形成在半导体基板上。

诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence设计提供的程序，使用良好建立的设计规则以及预存储的设计模块自动在半导体芯片上对导体布线并放置组件。一旦完成了半导体电路的设计，标准化电子格式(例如，Opus、GDSII等)的得到的设计可以被传送到半导体制造设施或“制造厂”进行制造。

前面的描述通过示例的方式和非限制性的示例提供对本发明的示例性实施例的完整和信息说明。然而，根据前面的描述，当结合附图和所附权利要求来读时，对于本领域的技术人员来说各种修改和调整是显而易见的。然而，所有本发明教导的这种和类似的修改仍然落入所附权利要求所述的本发明的范围内。

Claims

1.一种方法，该方法包括：

接收由至少两个音频信号构成的至少两组音频信号；

从所述由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号；

从所述由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号；

分析所述第一形成的音频信号和所述第二形成的音频信号，以确定至少一个音频源和相关的音频源信号；以及

基于所述至少一个音频源和所述相关的音频源信号生成至少一个输出音频信号。

2.根据权利要求1所述的方法，其中由至少两个音频信号构成的第一组音频信号是左前和左后麦克风；并且从所述由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号包括生成虚拟左麦克风信号。

3.根据权利要求1和2所述的方法，其中由至少两个音频信号构成的第二组音频信号是右前和右后麦克风；并且从所述由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号包括生成虚拟右麦克风信号。

4.根据权利要求1-3所述的方法，其中分析所述第一形成的音频信号和第二形成的音频信号以确定至少一个音频源和相关的音频源信号包括确定至少一个源位置。

5.根据权利要求4所述的方法，该方法还包括：

接收源位移因数；以及

通过所述源位移因数处理所述至少一个源位置，从而使得所述源位置从音频中线移开所述源位移因数。

6.根据权利要求5所述的方法，其中接收源位移因数包括基于与相机相关的缩放因数生成源位移因数，所述相机被配置成当接收到由至少两个音频信号构成的至少两组音频信号时基本上捕获至少一帧图像。

7.根据权利要求4-6所述的方法，其中基于至少一个音频源和相关的音频源信号生成至少一个输出音频信号包括基于所述至少一个音频源位置生成所述至少一个输出音频信号。

8.根据权利要求7所述的方法，其中基于所述至少一个音频源位置生成至少一个输出音频信号包括：

确定至少一个输出音频信号位置；以及

基于所述至少一个音频源位置使所述至少一个音频源信号音频平移，从而在所述至少一个输出音频信号位置处生成所述至少一个输出音频信号。

9.根据权利要求1-8所述的方法，其中从所述由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号包括从所述由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一波束成形的音频信号；并且从所述由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号包括从所述由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二波束成形的音频信号。

10.根据权利要求1-8所述的方法，其中，从所述由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号包括从所述由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一混合音频信号，从而使得所述第一混合音频信号创建具有第一方向的第一阶渐变模式；并且从所述由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号包括从所述由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二混合音频信号，从而使得所述第二混合音频信号创建具有第二方向的进一步的第一阶渐变模式。

11.一种设备，该设备包括：

用于接收由至少两个音频信号构成的至少两组音频信号的装置；

用于从所述由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号的装置；

用于从所述由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号的装置；

用于分析所述第一形成的音频信号和所述第二形成的音频信号，以确定至少一个音频源和相关的音频源信号的装置；以及

用于基于所述至少一个音频源和所述相关的音频源信号生成至少一个输出音频信号的装置。

12.一种设备，该设备包括至少一个处理器和至少一个存储器，所述存储器包括用于一个或多个程序的计算机代码，所述至少一个存储器和与所述至少一个处理器一起配置的所述计算机代码使得所述设备执行至少以下操作：

接收由至少两个音频信号构成的至少两组音频信号；

分析所述第一形成的音频信号和所述第二形成的音频信号以确定至少一个音频源和相关的音频源信号；以及

13.根据权利要求12所述的设备，其中由至少两个音频信号构成的第一组音频信号是左前和左后麦克风；并且从所述由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号使得所述设备生成虚拟左麦克风信号。

14.根据权利要求12和13所述的设备，其中由至少两个音频信号构成的第二组音频信号是右前和右后麦克风；并且从所述由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号使得所述设备生成虚拟右麦克风信号。

15.根据权利要求12-14所述的设备，其中分析所述第一形成的音频信号和所述第二形成的音频信号以确定至少一个音频源和相关的音频源信号使得所述设备确定至少一个源位置。

16.根据权利要求15所述的设备，还使得设备执行以下操作：

接收源位移因数；以及

17.根据权利要求16所述的设备，其中接收源位移因数使得所述设备基于与相机相关的缩放因数生成源位移因数，所述相机被配置成当接收到由至少两个音频信号构成的所述至少两组音频信号时基本上捕获至少一帧图像。

18.根据权利要求15-17所述的设备，其中基于所述至少一个音频源和相关的音频源信号生成至少一个输出音频信号使得所述设备基于所述至少一个音频源位置生成所述至少一个输出音频信号。

19.根据权利要求18所述的设备，其中基于所述至少一个音频源位置生成所述至少一个输出音频信号使得所述设备执行以下操作：

确定至少一个输出音频信号位置；以及

20.一种设备，包括：

输入端，配置为接收由至少两个音频信号构成的至少两组音频信号；

第一音频形成器，配置成从由至少两个音频信号构成的至少两组音频信号中的第一组音频信号生成第一形成的音频信号；

第二音频形成器，配置成从由至少两个音频信号构成的至少两组音频信号中的第二组音频信号生成第二形成的音频信号；

音频分析器，配置成分析所述第一形成的音频信号和所述第二形成的音频信号，以确定至少一个音频源和相关的音频源信号；以及

音频信号合成器，配置成基于所述至少一个音频源和所述相关的音频源信号生成至少一个输出音频信号。