CN101843114A

CN101843114A - 聚焦于用于音频信号的音频场景的一部分

Info

Publication number: CN101843114A
Application number: CN200880113925A
Authority: CN
Inventors: O·柯克比; J·维罗莱宁
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2007-11-01
Filing date: 2008-10-29
Publication date: 2010-09-22
Anticipated expiration: 2028-10-29
Also published as: WO2009056956A1; EP2613564A3; US8509454B2; EP2613564A2; EP2208363A1; CN101843114B; US20090116652A1

Abstract

本发明的多个方面提供了用于在输出转换器组(例如头戴式耳机)上空间操作向收听者播放的声音的方法、计算机可读介质、和装置。收听者可指引空间注意力，以聚焦于音频场景的一部分，类似于使用放大镜来取出图片中的细节。获得由音频源生成的输入多通道音频信号；确定针对每个音频源的方向信息。用户提供空间注意力的期望方向，从而音频处理可聚焦于期望方向，并向用户呈现相应的多通道音频信号。围绕期望方向扩展音频场景的区域，同时在音频场景的另一区域中压缩音频场景。

Description

聚焦于用于音频信号的音频场景的一部分

技术领域

本发明涉及处理多通道音频信号，以聚焦于音频场景。

背景技术

随着持续的全球化，为了在多个地理位置上有效通信，电话会议逐渐变得重要。电话会议可包括位于工业园区的不同公司建筑物、美国的不同城市、或遍及世界的不同国家中的参与者。因此，重要的是将空间化的音频信号进行组合以便于在电话会议的参与者之间通信。

空间注意力处理典型地依赖于采用上混(upmix)算法或重平移(repanning)算法。在电话会议时，当仅一个通道可用于播放时，这是可能的，通过使用3D音频处理或通过放大信号将活动语音源移动至更接近于收听者。处理典型地发生在会议混合器中，所述会议混合器检测活动谈话者，并由此处理该语音。

可在3D音频电话会议中组合视觉和听觉表示。可使用移动设备的显示器的视觉表示可作为定位图像而示出具有会议参与者的表。然后，从双耳耳机上的右侧收听在表右侧的参与者的话音。用户可在屏幕上重新定位参与者的图像，这样还可改变声音的相应方向。例如，如果用户将在右侧的参与者的图像移动至中心，则参与者的话音也从右移动至中心。这个性能给予用户一种修改听觉表示的交互方法。

空间听觉以及通过双耳耳机再现3D声音的导出的主体可应用于处理音频电话会议。双耳技术在收听者的耳膜处再现了与由实际声源将在那里生成的声音相同的声音。典型地，双耳技术存在两个主要应用。一个是用于在立体声音乐记录中虚拟化静态源(例如左通道和右通道)。另一个是用于根据用户的行为(对于游戏的情况)或根据预定义脚本的规范(对于3D振铃音的情况)实时地虚拟化移动源。

因此，存在这样一个真实的市场，即需要提供可由电话会议系统实践性实施的空间化音频信号的有效电话会议性能。

发明内容

本发明的一方面提供用于在头戴式耳机上空间操作向收听者播放的声音的方法、计算机可读介质、和装置。收听者可将空间注意力指引到声级的一部分，类似于使用放大镜来取出图片中的细节。在例如电话会议的应用中，聚焦于音频场景是有益的，在所述应用中若干人、或甚至若干群人位于围绕收听者的虚拟环境中。除了电话会议的特定实例，通常当空间音频是用户体验的重要部分时可使用本发明。因此，本发明还可应用于游戏的立体声音乐和3D音频。

通过本发明的某些方面，可结合头部追踪，以相对于环境稳定音频场景。头部追踪使得收听者能够在相对于环境的固定位置处听见电话会议中的远程参与者，而不管收听者的头部的方位。

通过本发明的另一方面，获得由多个音频源生成的输入多通道音频信号；确定针对每个音频源的方向信息。用户提供空间注意力的期望方向，从而音频处理可聚焦于期望方向，并向用户呈现相应的多通道音频信号。

通过本发明的另一方面，围绕期望方向扩展音频场景的区域，同时在音频场景的另一部分中压缩音频场景，并且保持第三区域未修改。一个区域可包括若干不连续的空间部分。

通过本发明的另一方面，将音频场景的输入方位角重映射至输出方位角值，所述输出方位角值不同于所述输入方位角值。可使用非线性重映射函数来重映射方位角值。

附图说明

考虑附图，参照以下说明，可获得本发明的更完整理解及其优点，在附图中类似标号指示类似特征，其中：

图1A示出根据本发明实施例的针对多通道音频信号而聚焦于音频场景的一部分的架构。

图1B示出根据本发明实施例的针对多通道音频信号而聚焦于音频场景的一部分的第二架构。

图2示出根据本发明实施例用于重平移音频信号的架构。

图3示出根据本发明实施例的用于定向音频编码(DirAC)分析的架构。

图4示出根据本发明实施例的用于定向音频编码合成的架构。

图5示出根据本发明实施例的收听者为了聚焦于声源而面向声源的情形。

图6示出根据本发明实施例的线性重映射函数。

图7示出根据本发明实施例的非线性重映射函数。

图8示出根据本发明实施例的聚焦于音频源的情形。

图9示出根据本发明实施例的用于处理多通道音频信号的一排滤波器。

图10示出根据本发明实施例的定位虚拟声源的实例。

图11示出根据本发明实施例的用于重平移音频信号的装置。

具体实施方式

在各个实施例的以下描述中，参照形成本发明一部分的附图，其中通过可实践本发明的示例性实施例示出附图。可理解，在不脱离本发明的范围的情况下，可利用其他实施例，以及可做出结构和功能上的修改。

进一步将讨论的是，本发明的实施例可通过应用空间提示编码(spatialcue coding)来支持重平移多音频(声音)信号。在将信号混合成组合信号之前，可对于每个信号中的声源进行重平移。例如，如将进一步讨论的，可在接收两个全向记录的(或合成的)声场信号的会议桥中应用处理。会议桥随后将信号之一重平移至左侧收听者，以及将该信号重平移至右侧。源图像映射和平移还可自适应地基于内容和使用情况。在定向解码之前或在定向混合之前，可通过操作方向参数进行映射。

如将进一步讨论的，本发明的实施例支持对于再现中使用的转换器系统未知的信号格式。因此，可通过头戴式耳机和不同的扬声器设置来播放所处理的信号。

人类听觉系统具有根据他们的空间特征分离流的能力。这个能力通常称为“鸡尾酒会效应”，因为这可很容易地通过我们都熟悉的现象来说明。在聚会上的吵杂拥挤的房间中，可能出现一个谈话，由于收听者可将注意力聚焦于说话的个人，实际上过滤掉来自其他方向的声音。因此，如果在空间上很好地将该声源与其他声源分离，以及如果感兴趣的声源是最大声，则很容易地完成集中于特定声源的任务。

图1示出根据本发明实施例的架构10，其用于针对多通道音频信号51而聚焦于音频场景的一部分。收听者(未示出)可通过借助头戴式耳机(未示出)或另一组转换器(例如音频扬声器)收听双耳音频信号53来聚焦于期望声源(将空间注意力聚焦于声音场景的所选部分)。本发明实施例还支持通过多于两个转换器对所处理的多通道音频信号的合成。如将进一步讨论的，通过使用与空间内容分析模块1和3D音频处理模块3对应的3D音频技术来实施空间聚焦。

架构10提供了可通过头戴式耳机向收听者播放声音的空间操作。收听者可通过类似于可如何使用放大镜来取出图片中的细节的方式将空间注意力指引到声级的一部分。聚焦可用于例如电话会议的应用中，其中若干个人或甚至若干群人位于收听者周围的虚拟环境中。除了电话会议之外，当空间音频是用户体验的重要部分时，也可使用架构10。因此，可将架构10应用于游戏的立体声音乐和3D音频。

架构10可合并有头部追踪(headtracking)，用于相对于环境稳定音频场景。头部追踪使得收听者在相对于环境的固定位置听见电话会议中的远程参与者，而不管收听者头部的方位。

通常在语音通信中存在这样的情形，其中收听者可能期望聚焦于某个人的谈话，同时抑制其他声音。在真实世界情形中，如果收听者可移动至更接近谈话的个人，在某种程度上是可能的。通过3D音频处理(与3D音频处理模块3相应)，这个效果可通过实施空间注意力的“超自然”焦点来扩大，这不仅使得声级的所选部分更大声，而且可空间地操纵声级，从而音频场景的所选部分更加明显地突出。

声音场景的期望部分可以是在电话会议中若干其他人中一个特定谈话的个人，或音轨中的歌手。如果头部追踪器可用，则用户(收听者)只能旋转他的头，以便控制空间焦点的期望方向来提供头部追踪参数57。备选地，可由用户控制输入55通过输入设备(例如键板或操纵杆)提供空间焦点参数59。

多通道音频信号51可以是例如电话会议中的多个音频输入的一组独立信号，或包含与彼此关系相关的空间信息的一组信号，例如作为高保真立体声Ambisonics B-格式。立体声音乐和双耳内容是包含空间信息的双通道信号的实例。在立体声音乐，以及通过麦克风阵列做出的记录的情况下，在可执行声级的空间操纵之前，空间内容分析(与空间内容分析模块1相应)是必要的。一个方法是DirAC(如参照图3和4将讨论的)。全DirAC分析的特定实例是从可用于立体声音乐的双通道信号中进行中心通道提取。

图1B示出根据本发明实施例的架构100，其用于针对多通道音频信号151而聚焦于音频场景的一部分。处理模块101根据修改的参数163提供音频输出153，以聚焦于音频场景。

用修改值161代替声源位置参数159(方位角、仰角、距离)。重映射模块103根据重映射函数或向量155修改方位角和仰角，其中所述向量155有效地限定在多个离散点处的函数值。重映射控制器105从将讨论的方位角157和映射预设输入163确定重映射函数/向量155。位置控制模块107控制每个声源、或通道的3D定位。例如，如图8所示，在会议系统中，模块107定义参与者的声音所在的位置。定位可以是自动的，或可由用户控制。

示例性实施例在支持分布式3D电话会议系统的终端中执行。终端从所有其他参与终端接收单音音频信号，并局部地空间化音频信号。

重映射函数/向量155定义了从输入参数值集到输出参数值集的映射。例如，一个输入方位角值可映射为新方位角值(例如10度-＞15度)，或输入方位角值的范围可线性地(或非线性地)映射为方位角值的另一范围(例如0-90度-＞0-45度)。

重平移操作的另一可能形式是作为从输入方位角值到输出方位角值的映射。作为实例，如果定义了如下类型的S型(sigmoid)重映射函数R(v)：

R (v) = k 1 \cdot (\frac{360}{1 + e^{- k 2 \cdot v}} - 180) - - - (1)

其中v是正负180度之间的方位角，k1和k2是适当选择的正常数，然后围绕0度角集中的源被扩展，围绕正负180度集中的源被压缩。对于k1的值为1.0562以及k2的值为0.02，如表1所示以下给出相应输入-输出方位角对的列表(输出值被取整为最接近度数)。

可通过定义映射向量来做出映射函数描述的近似值。该向量定义在离散点处的映射函数的值。如果输入值在这些离散点之间，则可使用线性内插或某些其他内插方法来内插这些点之间的值。映射向量的实例可以是表1中的“输出”行。该向量具有30度的解析度，并定义在用于某些输入方位角值的离散点处的输出方位角的值。使用向量表示，可通过表查询和可选内插操作组合的简单方式来实施映射。

当定义空间焦点方向(方位角)或映射预设163的控制信号改变时，生成新映射函数(或向量)155。从输入设备(例如操纵杆)获得的输入信号157的改变导致新重映射函数/向量155的生成。示例性的实时修改可以是旋转操作。当用户针对不同方向设置焦点时，可由此修改重映射向量。可通过向重映射函数R(v)的结果增加角度v0并计划从-180至180的范围的总和对360取模来实施方位角的改变。例如，如果R(v)是150，v0是70，则由于70加150是220，这等同于-140对360取模，并且-140在-180和180之间的范围内，所以新的重映射角是-140。

映射预设163可用于选择将什么函数用于重映射或哪些静态映射向量模板。实例包括：

映射预设 0(禁用)

输入

-180

-150

-120

-90

-60

-30

0

30

60

90

120

150

180

映射预设 1(窄束)

输入

-180

-150

-120

-90

-60

-40

0

40

60

90

120

150

180

映射预设 2(宽束)

输入

-180

-150

-120

-90

-80

-60

0

60

80

90

120

150

180

此外，本发明实施例可支持重映射向量的动态生成。

图2示出根据本发明实施例用于重平移音频信号251的架构200。(平移(Panning)是将单声信号扩频为立体声或多通道声场。通过重平移，平移控制典型地改变在总功率恒定的多个扬声器上的音频功率的分布。)

架构200可应用于知晓原始声场的空间特征并且可再合成来自音频信号251的声场和可用空间元数据(例如方向信息253)的系统。空间元数据可通过分析方法可用(通过模块201执行)，或可与音频信号251包括在一起。空间重平移模块203随后修改方向信息253，以获得修改的方向信息257。(如图4所示，方向信息可包括方位角、仰角、和扩散度评估)。

定向再合成模块205根据音频信号255和修改的方向信息257形成重平移的信号259。在重平移之后，数据流(包括音频信号255和修改的方向信号257)典型地具有定向编码的格式(例如将讨论的B-格式)。

此外，可组合若干数据流，其中每个数据流包括具有相应方向信息的不同音频信号。然后，重平移的信号可通过定向再合成模块205来组合(混合)，以形成输出信号259。如果再合成模块205执行信号合成，则混合的输出流可具有与输入流相同或相似的格式(例如具有方向信息的音频信号)。2006年6月30日提交的美国专利申请No.11/478792(“DIRECTENCODING INTO A DIRECTIONAL AUDIO CODING FORMAT”，Jarmo Hiipakka)公开了执行混合的系统，其通过引用合并于此。例如，通过分析用于组合空间数据的信号来组合与方向信息关联的两个音频信号。将实际信号混合(累加)在一起。备选地，混合可发生在再合成之后，从而混合来自若干再合成模块(例如模块205)的信号。通过一组扬声器或耳机指引声音信号，向收听者呈现输出信号。通过本发明的实施例，输出信号可被发送至用户，并然后被呈现(例如在会议桥中发生处理时)。备选地，在存储设备(未示出)中存储输出。

空间信息(例如方向信息253)的修改可包括位置的任何范围(2D)或区域(3D)到新范围或区域的重映射。重映射的范围可包括整个原始声场，或可足够小以基本覆盖原始声场中的仅一个声源。还可使用加权函数来定义重映射的范围，从而可部分地重映射与边界接近的声源。重平移还可包括在一起的若干单独重平移操作。因此，本发明的实施例支持在原始声场中的两个声源的位置交换的情形。

空间重平移模块203根据重映射控制器207提供的重映射向量263修改原始方位角、仰角和扩散度评估(方向信息253)，以获得修改的方位角、仰角和扩散度评估(修改的方向信息257)。重映射控制器207从典型地由输入设备(例如操纵杆、头部追踪器)提供的方位角信息261确定重映射向量263。方位角信息261指定收听者期望聚焦注意力的位置。映射预设265是指定将使用的映射的类型的控制信号。特定映射描述了声级的哪些部分被空间地压缩、扩展、或未修改。可通过质量上相同的方式重平移声音场景的若干部分，从而例如扩展围绕正左方和正右方集中的源，而压缩围绕前方和后方集中的源。

如果方向信息253包含与声场的扩散度相关的信息，则当重平移声场时典型地通过模块203处理扩散。因此，可能的来保持扩散场的自然性质。然而，还可能将声场的原始扩散分量映射为修改声场的特定位置或位置范围以用于特效。例如，可对于空间焦点被设置在非其他区域的空间区域而使用不同扩散值。可根据取决于对空间焦点注意力设置的方向的函数来改变扩散值。

为了记录B-格式信号，期望的声场通过一个点中的其球谐波分量来代表。然后，使用任意适合数目的扬声器或一对耳机来再生成声场。通过1阶方案，使用第0阶分量(声音压力信号W)和三个1阶分量(沿着3个笛卡尔坐标轴的压力梯度信号X、Y和Z)来描述声场。本发明的实施例还可确定高阶分量。

包括4个通道W、X、Y和Z的1阶信号通常称为B-格式信号。典型地，通过使用特定麦克风设置记录声场来获得B-格式信号，所述特定麦克风设置直接地或通过转换生成期望的信号。

除了记录B-格式的信号之外，还可合成B-格式信号。为了将单音音频信号编码成B-格式，需要以下编码等式：

W (t) = \frac{1}{\sqrt{2}} x (t)

(等式1)

其中x(t)是单音输入信号，θ是方位角(从前中的逆时针角)，是仰角，W(t)、X(t)、Y(t)和Z(t)是得到的B-格式信号的各个通道。应注意，W信号的乘数是从在4个通道之间得到更多偶数级分布的需求生成的约数。(某些参考文献使用近似值0.707代替。)还应注意方向角可自然地随时间改变，即时在等式中没有明确示出。还可对于所有的源单独使用相同等式并混合(累加在一起)得到的B-格式信号来对多个单音源编码。

如果预先已知输入信号的格式，则可用简化的计算代替B-格式转换。例如，如果可假设信号为标准的2通道立体声(具有+/-30度角的扬声器)，则转换等式简化成与常数的乘法。目前，这个假设对于许多应用情形成立。

本发明的实施例支持对于多声音场景信号通过应用空间提示编码进行参数空间重平移。每个信号中的声源在被混合到组合信号之前被重平移。例如，可在接收2个全向记录(或合成)的声场信号的会议桥中应用处理，随后将这些信号之一重平移至左侧收听者，将其他信号重平移至右侧。源图像映射和平移还可基于内容和使用自适应。可在定向解码之前或定向混合之前，通过操纵方向参数执行映射。

本发明的实施例在电话会议系统中支持以下功能：

重平移解决了从若干会议房间组合声场信号的问题；

会议参与者的现实表示；

在参数空间中用于空间重平移的一般方案。

图3示出根据本发明实施例的架构300，其用于定向音频编码(DirAC)分析模块(例如图2中所示的模块201)。通过本发明的实施例，在图2中，DirAC分析模块201从输入信号251提取音频信号255和方向信息253。DirAC分析提供依赖时间和频率的信息以指引声能，所述信息关于涉及收听者的声源的方向以及扩散的关系。然后，该信息用于选择位于扬声器之间的期望轴附近或其上的声源，并将他们指引至期望通道中。可通过从原始立体声信号减去那些声源的直接声音部分来生成用于扬声器的信号，从而保持回声到达的正确方向。

如图3所示，B格式信号包括W(t)351、X(t)353、Y(t)355和Z(t)357。使用短时傅立叶变换(STFT)，每个分量被转换成频带361a-361n(相应于W(t)351)、363a-363n(相应于X(t)353)、365a-365n(相应于Y(t)355)、以及367a-367n(相应于Z(t)357)。对于每个时间实例的每个频带303和305，评估到达方向参数(包括方位角和仰角)和扩散参数。如图3所示，参数369-373相应于第一频带，参数375-379相应于第N频带。

图4示出根据本发明实施例的架构400，其用于定向音频编码(DirAC)合成器(例如图2所示的定向再合成模块205)。通过转换处理401将基信号W(t)451分成多个频带。合成基于基信号W(t)451的频率分量的处理。典型地，通过全向麦克风记录W(t)451。声音定位和再现处理405-407根据在分析阶段采集的方向和扩散评估453-457来分布和处理W(t)451的频率分量，以将处理的信号提供至扬声器459和461。

DirAC再现(再合成)基于采用全向麦克风记录的信号，并根据在分析阶段采集的方向和扩散评估来分布该信号。

DirAC再合成可通过支持用于声场的相同表示来使得系统通用，并使用再现中的任意扬声器(或一般而言转换器)设置。声场可在独立于用于再现的实际转换器设置的参数(即到达角的方向(方位角、仰角)和扩散度)中被编码。

图5示出根据本发明实施例的收听者505a、505b为了聚焦于声源(例如声源501或503)而面向声源的情形551和553。用户(505a、505b)可通过输入设备控制空间注意力。输入设备可以是通常用于移动设备中的类型，例如键板或操纵杆，或者其可使用传感器(例如加速计、磁力计、或陀螺仪)来检测用户的移动。头部追踪器例如可根据如图5所示收听者所面向的方向将注意力指引到声级的某个部分。期望的方向(空间注意力角)可线性地或非线性地取决于收听者头部方位。通过某些实施例，更加便捷的是仅转头30度，以将空间注意力设置为90度。向后倾斜可确定施加于声音场景的所选部分的增益。通过头部追踪，可通过例如按压按钮来打开和关闭空间注意力控制的方向控制。因此，可将空间注意力锁定在某个位置。通过本发明实施例，在3D电话会议会话中可能有利的是，向具有比其他人更弱声音的某个参与者给出恒定的提升。

如果期望的话，则可通过增益函数561(相应于场景551)和563(相应于场景553)减弱位于如图所示的声音场景的所选部分外部的声音，以保持总体音量。

图6示出根据本发明实施例的线性重映射函数601。线性重映射函数601不改变音频场景中任意音频源的位置，因为原始方位角和重映射的方位角之间的关系与一个的斜率成线性(如导数函数603)。

图7示出根据本发明实施例的非线性重映射函数701。当空间地转换音频场景时，关系不再是线性。大于1的导数(如导数函数703所示)等于空间的扩展，而小于1的导数意味着等于空间的压缩。这在图7中示出，其中在顶部的字母表705的图形表示(其代表与不同音频源相关的压缩和扩展，其中字母表的字母代表音频源)指示接近0方位角的字母被拉伸，接近正负90度的字母被挤压。

通过本发明实施例，音频处理模块3(如图1A所示)利用重映射函数(例如函数701)，以针对向收听者呈现的输出多通道音频信号而改变音频源的关系。

图8示出根据本发明实施例的聚焦于音频源的情形851、853和855。当若干音频源在音频场景中彼此接近时(例如情形853中的源803、804和805，以及情形855中的源801、802和803)，具有方位角重映射的空间焦点处理可使得音频源彼此离开，从而在与对于收听者希望聚集的音频源进行同时谈话期间提升了理解力。此外，可更加容易识别哪个人正在谈话，因为收听者能够可靠地将演讲者从左至右排序。

通过离散语音输入信号，可通过控制各个声源被空间化的位置来实施重映射。在通过空间内容的多通道记录的情况下，可使用重平移方法或使用上混合方法来实施重平移。

图9示出根据本发明实施例的一排滤波器905，其用于处理多通道音频信号。多通道音频信号包括由相应音频源生成的信号分量951-957。该排滤波器包括头部相关的传输功能(HRTF)滤波器901和903，其分别处理针对通过头戴式耳机、扬声器、或其他适合转换器向收听者播放的双耳输出的左通道961和右通道963的信号分量。滤波器排905还包括用于其他信号分量的额外HRTF滤波器。

对于图9所示的实例，由7个参与者生成音频信号，其为1个远程收听者空间化，其中7个语音信号中的每个单独可用。通过头部相关的传输函数对(HRTF)来处理每个声音信号，以生成2通道双耳输出。然后，通过将所有左输出包括在1个通道中(左通道961)，将所有右输出包括在另一通道中(右通道963)，来将7个信号混合在一起。作为其属性相应于空间化源的期望位置的数字滤波器来实施HRTF。可能的缺省映射使得7个空间化源从-90度方位角(正左方)至90度方位角(正右方)平均地分布于声级。参照图8，当收听者期望聚焦于音频场景中的特定源时，例如源804，其在直前方，用新位置来更新实施HRTF的数字滤波器。从左至右，方位角(度数)变为(-90 -70 -50 0 50 70 90)。如果收听者现在决定聚焦于源802，则方位角变为(-90 -45 0 22.5 45 67.5 90)。因此，信号处理结构保持相同，但是必须根据期望的空间重映射更新在结构中的滤波器参数。

作为另一实例，参照图2和8，输入的音频信号251是定向音频(DirAC)格式(具有空间参数的单音频信道)。当收听者期望聚焦于源802时，生成新映射模式以创建修改的方向信息257，并将其提供至空间重平移模块203。在这种情况下，可在没有重平移情况下将映射至(-90 -30 -60 0 60 3090)的音频源映射至例如方位角位置(-90 -70 -50 0 50 70 90)。当收听者改变焦点时，可使用新映射模式来生成不同的修改的方向信息257。这还可包括例如通过对位于收听者聚焦注意力的区域中的那些频带使用更少的扩散度来修改扩散值。可使用扩散修改提供来自该方向的更清晰(更纯净)的声音。

图10示出根据本发明实施例的定位虚拟声源1005的实例。虚拟源1005位于扬声器1001和1003之间，如夹角1051-1055所指示。(本发明的实施例还支持立体声头戴式耳机，其中一侧相应于扬声器1001，另一侧相应于扬声器1003。)使用相对于收听者1061测量的夹角来确定振幅平移。当使用正弦平移法则时，根据以下等式确定扬声器1001和1003的振幅：

\frac{\sin θ}{\sin θ_{0}} = \frac{g_{1} - g_{2}}{g_{1} + g_{2}}

(等式2)

其中g₁和g₂是分别用于扬声器1001和1003的ILD值。因此，使用扬声器Ls和Lf对虚拟中心通道(VC)的振幅平移被确定如下：

\frac{\sin ((θ_{C 1} + θ_{C 2}) / 2 - θ_{C 1})}{\sin ((θ_{C 1} + θ_{C 2}) / 2)} = \frac{g_{Ls} - g_{Lf}}{g_{Ls} + g_{Lf}}

(等式3)

图11示出根据本发明实施例的装置1100，其用于将音频信号1151重平移为经过重平移的输出信号1169。(尽管图11中未示出，但是本发明的实施例可支持1至N个输入信号。)处理器1103通过音频输入接口1101获得输入信号1151。通过本发明实施例，信号1151可按B-格式记录，或者音频输入接口可使用等式1转换B-格式的信号1151。模块1和3(如图1A所示)可通过执行在存储器1107上存储的计算机可执行指令的处理器1103来实施。处理器1103通过音频输出接口1105提供组合的重平移的信号1169，以向用户呈现输出信号。

装置1100可假设不同的形式，包括离散逻辑电路、微处理器系统、或集成电路，例如专用集成电路(ASIC)。

本领域普通技术人员可理解，可利用具有关联计算机可读介质的计算机系统来实施这里公开的示例性实施例，其中所述介质包含用于控制计算机系统的指令。计算机系统可包括至少一个计算机，例如微处理器、数字信号处理器、和关联外围电子电路。

尽管参照特定实例描述了本发明，其中所述实例包括执行本发明的当前优选实施方式，但是本领域普通技术人员将理解，存在落入如所附权利要求阐述的精神和范围内的上述系统和技术的各种变型和排列。

Claims

1.一种方法，包括：

获得由多个音频源生成的输入多通道音频信号；

确定针对所述多个音频源中的每个的方向信息；

获得空间注意力的至少一个期望方向；

向所述至少一个期望方向聚焦所述输入多通道音频信号，以形成输出多通道音频信号；以及

向用户呈现所述输出多通道音频信号。

2.如权利要求1所述的方法，还包括：

围绕所述至少一个期望方向扩展音频场景的第一区域。

3.如权利要求2所述的方法，还包括：

压缩所述音频场景的第二区域。

4.如权利要求3所述的方法，还包括：

将输入方位角值重映射为输出方位角值，所述输出方位角值不同于所述输入方位角值。

5.如权利要求4所述的方法，还包括：

利用重映射函数来重映射所述输入方位角值。

6.如权利要求5所述的方法，所述重映射函数的特征在于，所述重映射函数对于所述输入方位角值的子集是非线性的，并具有大于1的导数。

7.如权利要求1所述的方法，还包括：

当呈现所述输出多通道音频信号时，保持所述输入多通道音频信号的总响度。

8.如权利要求2所述的方法，还包括：

放大关于所述音频场景的第一区域的所述输入多通道音频信号。

9.如权利要求1所述的方法，所述输出多通道音频信号包括双耳音频信号。

10.如权利要求1所述的方法，空间注意力的所述至少一个期望方向是从固定于用户的头部追踪器获得。

11.一种装置，包括：

输入模块，被配置为获得由多个音频源生成的输入多通道音频信号；

空间内容分析器，被配置为确定针对所述多个音频源中的每个的方向信息；

输入设备，被配置为获得空间注意力的期望的方向；

音频处理模块，被配置为向所述期望的方向聚焦所述输入多通道音频信号，以形成聚焦的多通道音频信号；以及

合成器，被配置为向用户呈现所述聚焦的多通道音频信号。

12.如权利要求11所述的装置，所述音频处理模块还被配置为围绕所述期望的方向扩展音频场景的第一区域；以及压缩所述音频场景的第二区域。

13.如权利要求12所述的装置，所述音频处理模块还被配置为将输入方位角值重映射为输出方位角值，所述输出方位角值不同于所述输入方位角值。

14.如权利要求13所述的装置，所述音频处理模块还被配置为利用重映射函数来重映射所述输入方位角值。

15.如权利要求14所述的装置，所述音频处理模块还被配置为利用所述重映射函数，其中所述重映射函数的特征在于，对于所述输入方位角值的子集是非线性的，并具有大于1的导数。

16.一种具有计算机可执行指令的计算机可读介质，包括：

获得由多个音频源生成的输入多通道音频信号；

确定针对所述多个音频源中的每个的方向信息；

获得空间注意力的期望的方向；

向所述期望的方向聚焦所述输入多通道音频信号，以形成输出多通道音频信号；以及

向用户呈现所述输出多通道音频信号。

17.如权利要求16所述的计算机可读介质，还包括：

围绕所述期望的方向扩展音频场景的第一区域；以及

压缩所述音频场景的第二区域。

18.如权利要求17所述的计算机可读介质，还包括：

19.如权利要求18所述的计算机可读介质，还包括：

利用重映射函数来重映射所述输入方位角值，所述重映射函数的特征在于，对于所述输入方位角值的子集是非线性的，并具有大于1的导数。

20.一种装置，包括：

用于获得由多个音频源生成的输入多通道音频信号的装置；

用于确定针对所述多个音频源中的每个的方向信息的装置；

用于获得空间注意力的期望的方向的装置；

用于向所述期望的方向聚焦所述输入多通道音频信号，以形成输出多通道音频信号的装置；以及

用于向用户呈现所述输出多通道音频信号的装置。

21.如权利要求20所述的装置，还包括：

用于围绕所述期望的方向扩展音频场景的第一区域的装置；以及

用于压缩所述音频场景的第二区域的装置。

22.如权利要求21所述的装置，还包括：

用于将输入方位角值重映射为输出方位角值的装置，所述输出方位角值不同于所述输入方位角值。

23.一种集成电路，包括：

输入组件，被配置为获得由多个音频源生成的输入多通道音频信号；

空间内容分析组件，被配置为确定针对所述多个音频源中的每个的方向信息；

输入组件，被配置为获得空间注意力的期望的方向；

音频处理组件，被配置为向所述至少一个期望方向聚焦所述输入多通道音频信号，以形成聚焦的多通道音频信号；以及

合成组件，被配置为向用户呈现所述聚焦的多通道音频信号。

24.如权利要求23所述的集成电路，所述音频处理组件还被配置为围绕所述期望的方向扩展音频场景的第一区域；以及压缩所述音频场景的第二区域。

25.如权利要求24所述的集成电路，所述音频处理组件还被配置为将输入方位角值重映射为输出方位角值，所述输出方位角值不同于所述输入方位角值。