CN109076306B

CN109076306B - 强调靠近焦距的声音源的空间音频处理

Info

Publication number: CN109076306B
Application number: CN201780023293.7A
Authority: CN
Inventors: W·P·J·德布鲁伊金; L·M·范德克尔克霍夫
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2016-04-12
Filing date: 2017-04-06
Publication date: 2021-04-13
Anticipated expiration: 2037-04-06
Also published as: CN109076306A; RU2018139285A3; JP2019514293A; RU2735652C2; WO2017178309A1; US20190174246A1; KR102319880B1; JP6878458B2; EP3443762A1; RU2018139285A; BR112018070813A2; EP3443762B1; KR20180127508A; US10440496B2

Abstract

一种空间音频处理装置包括接收器(101)，以用于接收描述包括空间音频分量和相关联的位置数据的音频场景的音频场景数据。音频分量可以作为音频对象被提供。距离单元(105)提供位置指示，所述位置指示包括指示距音频场景中的参考位置的距离的焦距。适配器(103)响应于反映焦距与音频场景中从参考位置到空间音频分量的位置的距离之间的差异的差异量度而调整空间音频分量相对于音频场景的至少一个其他空间音频分量的感知强调性质，例如音频水平、频率分布或扩散程度。音频绘制器(107)使用接收到的位置数据来绘制得到的音频场景。方法可以强调音频场景中的焦距处的音频。

Description

强调靠近焦距的声音源的空间音频处理

技术领域

本发明涉及空间音频处理，并且具体地但不排他地涉及用于虚拟现实应用的空间音频处理。

背景技术

空间音频应用已经变得众多且分布广泛并且越来越多地形成许多视听体验的至少部分。实际上，新的和改进的空间体验和应用连续被开发，这导致对音频处理和绘制的需求增加。

例如，近年来，虚拟现实(VR)和增强现实(AR)已经接收到越来越多的兴趣，并且多个实施方式和应用正在进入消费者市场。实际上，正在开发装备以用于绘制体验以及捕获或记录针对这样的应用的合适的数据。例如，正在开发相对低成本的装备以允许游戏控制台提供完全VR体验。预期该趋势将继续并且确实会随着针对VR和AR的市场在短时间尺度内达到相当大的规模而加速。

虚拟现实或增强现实的概念涵盖了非常广泛的概念领域。其可以包括完全沉浸式情形，其中，用户在3D虚拟世界中如在现实生活中那样导航(例如，通过物理地移动他的头部，或者甚至物理地四处步行来环顾四周)，或者可以例如包括更简单的情形，其中，虚拟世界中的导航借助于显式控制来完成。

然而，迄今为止的大部分努力已经集中于所提供的体验的视觉侧，即其已经集中于开发用于捕获和绘制三维自适应视觉体验的方法。

例如，最近已经开发了用于360度(2D和3D)视频捕获的各种系统。特别有趣的VR视频捕获技术是所谓的“光场相机”(也称为“全景”相机)。这样的相机不是简单地捕获图像中场景的光强度，而且捕获光到达相机的方向。这允许对记录的图像进行各种类型的后处理。具体地，其允许在已经记录图像之后改变图像的焦平面。实际上，这意味着能够在绘制图像时改变对焦距离(相对于相机立场)。

已经提出提供一种用于VR应用的球形相机系统，包括球形布置的多个光场相机。这样的相机系统使得能够捕获360度3D全景记录，同时使得能够在后处理中改变焦距和/或变焦。

视频侧的这些发展为生成沉浸式和交互式视觉内容和体验开辟了一系列可能性。然而，通常，较少兴趣已经聚焦于提供改进的和更合适的空间音频体验。实际上，通常音频解决方案的自适应性较低，并且倾于主要使用常规空间音频体验，其中，仅适应性能够是一些音频源的位置可以改变。

因此，改进的空间音频系统将是有利的，并且具体地，允许增加的灵活性、改进的适应性、改进的虚拟现实体验、改进的性能、增加的用户控制或调整、用户侧操纵和/或改进的空间音频体验的音频处理方法将是有利的。

发明内容

因此，本发明寻求优选地单独或以任何组合减轻、缓解或消除一个或多个上述缺点。

根据本发明的一个方面，提供了一种空间音频处理装置，包括：接收器(101)，其用于接收描述音频场景的音频场景数据，所述音频场景数据包括音频数据和位置数据，所述音频数据描述空间音频分量，所述位置数据描述所述音频场景中的针对所述空间音频分量中的至少一些空间音频分量的位置；距离单元(105)，其用于提供可变焦距，所述可变焦距指示距所述音频场景中的参考位置的距离；适配器(103)，其用于响应于反映所述可变焦距与所述音频场景中从所述参考位置到所述空间音频分量中的至少第一空间音频分量的位置的距离之间的差异的差异量度而调整所述第一空间音频分量相对于所述音频场景的至少一个其他空间音频分量的感知强调性质；音频绘制器，其用于绘制所述空间音频分量，所述绘制响应于所述位置数据，并且所述第一空间音频分量的所述绘制在所述适配器调整所述感知强调性质之后。

在许多实施例中，该方法可以提供改进的空间音频体验。具体地，该方法可以例如提供改进的虚拟现实体验，并且可以例如允许视觉和音频感知之间更密切的关联。在许多实施例中，方法可以在保持一致的空间体验的同时提供改进的用户关注。例如，在虚拟现实环境中，方法可以允许改进的用户聚焦，其适应于用户特性(例如，头部或眼睛移动)的变化，同时保持恒定且一致的虚拟现实环境，即，没有音频源根据变化的焦点相对于彼此移动。

方法可以提供所绘制的音频级的改进的用户侧/绘制时间调整。其可以提供增加的用户对所提供的音频体验的控制。具体地，其可以允许绘制侧相对于其他音频源强调特定音频源。

方法可以提供适于空间绘制的音频信号/音频数据，其具有改进的空间一致性，但适于当前的收听特性或偏好。具体地，在许多实施例中，其可以允许强调对应于用户的当前焦点的音频源。

通常可以以相对低的复杂度实现改进，并且方法可以在许多情形中允许相对低成本的实施方式。

参考位置具体可以是音频场景中的收听者或收听位置(具体地，可以是表示收听者在虚拟音频场景中的位置的虚拟位置)。

焦距相对于参考点是可变的。适配器可以被布置成响应于可变焦距的变化而改变第一空间音频分量的感知强调性质。

参考位置可以是音频场景中的可变位置。可变焦距可以与参考位置无关。在许多实施例中，对可变焦距的控制可以与对参考位置的控制无关。具体地，可变焦距可以针对固定/未改变的参考位置而变化。适配器可以被布置成响应于恒定参考位置的焦距的变化而改变调整。

除了描述特定音频源的音频数据之外，音频数据可以包括表示非点源或实际上非局部(或甚至非空间)音频源的数据。例如，可以包括描述分布式环境背景声音或噪声的音频数据。在一些实施例中，至少一些音频分量可以是点源。

在一些实施例中，可以为每个或至少一些空间音频分量提供单独的音频数据，即，音频分量可以由提供仅与音频分量有关的信息的音频数据来描述。在一些实施例中，每个空间音频分量可以由单独的、完整的和个体音频数据集表示。每个音频分量可以例如被表示为单独的音频对象并且可以对应于单个音频源。

在一些实施例中，音频数据可以描述可以从中提取个体空间音频源的一个或多个音频信号。例如，音频数据可以表示/描述多个空间音频信道，例如，对应于预定位置，可以从音频信道数据中提取个体音频分量(例如，使用主成分分析)。作为另一范例，可以根据由MPEG标准化的称为“空间音频对象编码”的音频格式来表示音频。

位置数据可以表示空间音频分量的空间位置。空间音频分量的位置数据可以指示音频场景中由空间音频分量表示的音频源的位置。该位置可以是推荐者可能改变的推荐位置(例如，响应于用户输入)。

在许多实施例中，绘制器可以独立于可变焦距来确定第一空间音频分量的绘制位置。绘制器可以将第一音频分量绘制在与可变焦距无关的位置。在许多情形中，绘制器可以将第一音频分量绘制在与由第一空间音频分量的位置数据指示的音频场景中的位置相对应的位置处。

音频场景可以由空间和非空间音频分量表示。空间音频分量可以表示具体地可以是点源的空间音频源。

可变焦距可以是例如可以从手动用户输入获得，或者可以例如基于分析用户行为来自动确定。可变焦距可以指示从音频场景中的参考位置到(目标)焦点的距离，例如具体到(假设/估计)用户聚焦的音频场景中的点、平面或距离。然而，将意识到，方法不要求收听者实际上连续地聚焦于该距离。相反，术语可变焦距是指空间音频处理装置用作调整的参考的距离(术语“焦点”可以仅被视为标签)。空间音频处理装置可以调整音频分量，使得更靠近可变焦距的音频分量被强调，从而通常提供增加的用户焦点。

感知强调性质可以是音频分量的任何性质，并且具体地可以反映音频分量在音频场景中的感知强调。感知强调性质可以具体地是音频水平性质、频率分布性质和扩散性质中的至少一个。

在一些实施例中，感知强调性质是第一空间音频分量的音频水平。

在许多实施例中，这可以提供特别有利的用户体验。具体地，其可以提供改进的音频用户体验，其可以例如紧密匹配视觉体验，例如允许视觉和音频绘制使强调适应于例如虚拟现实场景的相同的方面，并还允许这些动态地改变。方法可以允许改进和/或强调的对特定音频源的感知，例如当前用户最感兴趣的音频源。

取决于差异量度的音频水平变化通常可以是不大于10dB并且通常不大于6dB的幅度变化。

适配器可以通过调整感知强调性质来为第一空间音频分量生成经调整的感知强调性质。音频绘制器可以被布置为响应于经调整的感知强调性质来绘制第一空间音频分量。

根据本发明的任选特征，适配器被布置成将感知强调性质的值确定为可变焦距与音频场景中从参考位置到第一空间音频分量位置的距离之间的差异的连续函数。

该函数可以是渐变函数，并且因此是感知强调性质的值，例如增益或音频水平可以逐渐改变，以使焦距与到给定音频分量的距离之间的差异逐渐变化。这可以提供被感知为更自然的音频体验的有利效果，尤其是当焦点针对给定的未改变的参考/收听位置动态变化时。根据本发明的任选特征，适配器被布置成针对指示减小的差异的差异量度，相对于至少一个其他空间音频分量增加第一空间音频分量的增益。

在许多实施例中，这可以提供特别有利的操作。其可以允许相对低的复杂性，同时提供高性能。在许多实施例中，增益变化可以不大于10dB，并且通常不大于6dB。

音频分量的增益可以是差异量度的单调递减函数。

根据本发明的任选特征，所述增益被确定为所述差异量度的函数，所述函数相对于以下项不对称：小于所述可变焦距的从所述参考位置到所述第一空间音频分量的所述位置的距离；以及大于所述可变焦距的从所述参考位置到所述第一空间音频分量的所述位置的距离。

在许多实施例中，这可以提供改进的用户体验。

根据本发明的任选特征，感知强调性质是第一空间音频分量的频率信号分布。

在许多实施例中，这可以提供特别有利的用户体验。具体地，其可以提供改进的音频用户体验，其可以例如紧密匹配视觉体验，例如允许视觉和音频绘制使强调适应于例如虚拟现实场景的相同的方面，并且还允许这些动态地改变。该方法可以允许改进和/或强调的对特定音频源的感知，例如当前用户最感兴趣的音频源。

在许多实施例中，适配器可以被布置成对于减小的差异量度，越来越多地将信号分布从较低频率偏向较高频率。适配器可以被布置成针对减小的差异量度，相对于低频信号能量增加高频信号能量。

根据本发明的任选特征，适配器被布置成响应于差异量度而改变至少一个其他空间音频分量的频率相关滤波。

这可以提供有效的实施方式和/或可以提供改进的性能。适配器可以提供取决于差异量度的频率均衡或滤波。

根据本发明的任选特征，感知强调性质是第一空间音频分量的扩散性质。

在许多实施例中，这可以提供特别有利的用户体验。具体地，其可以提供改进的音频用户体验，其可以例如紧密匹配视觉体验，例如允许视觉和音频绘制使强调适应于例如虚拟现实场景的相同的方面，并且还允许这些动态地改变。方法可以允许改进和/或强调的对特定音频源的感知，例如当前用户最感兴趣的音频源。

根据本发明的任选特征，所述适配器被布置为针对指示减小的差异的所述差异量度，相对于所述音频场景的所述至少一个其他空间音频分量减小所述第一空间音频分量的扩散程度。

这可以在许多应用中提供改进的用户体验。具体地，在许多应用中，其可以允许用户当前特定感兴趣的音频被感知为更具体和明确定义的音频源，并且可以例如允许这些在被感知的声音阶段更加突出。

根据本发明的任选特征，差异量度还取决于从参考到第一空间音频分量的位置的方向。

在许多实施例中，这可以提供改进的用户体验。

根据本发明的任选特征，音频场景数据包括表示至少一些空间音频分量的音频对象。

方法可以允许音频对象的特别有效的操作，从而实现改进的效果并因此改进的用户体验。

音频场景数据还可以包括位置数据，例如，作为元数据，指示音频场景中音频对象的位置。

根据本发明的任选特征，距离单元被布置成响应于收听者头部和眼睛跟踪中的至少一个来确定可变焦距。

方法可以例如允许自动调整用户移动，例如，允许一致和沉浸的虚拟现实用户体验。其可以允许提供给用户的视觉与音频体验之间的强相干性。

根据本发明的任选特征，适配器被布置成在不改变第一空间音频分量的耳间时间差的情况下调整感知强调性质。

这可以在许多实施例中实质性改进用户体验，并且可以例如在允许音频场景中声音源的相对强调动态地调整用户的当前偏好，同时保持声音源的感知位置。

根据本发明的任选特征，适配器被布置成调整感知强调性质以针对所述可变焦距大于从所述参考位置到所述第一空间音频分量的位置的距离的增加的差异量度，减小所述第一音频分量的强调。

这可以提供有利的效果，并且实际上可以允许对音频场景中的不同区域的增加的聚焦，尤其包括更远的音频分量。

在许多实施例中，绘制器被布置成在由第一空间音频分量的位置数据指示的位置处绘制至少第一空间音频分量。

这可以在许多实施例中提供有吸引力的使用情形，并且尤其可以允许动态调整对场景中的不同对象的强调，而不改变所生成的音频场景的空间性质。

可以提供包括所描述的音频处理装置的虚拟现实系统。

该方法可以提供改进的虚拟现实体验，

虚拟现实系统还可以包括视频绘制器，以用于绘制与音频场景匹配的虚拟(例如，三维)视觉场景。

根据本发明的方面，提供了一种空间音频处理的方法，包括：接收描述音频场景的音频场景数据，所述音频场景数据包括音频数据和位置数据，所述音频数据描述空间音频分量，所述位置数据描述所述音频场景中的针对所述空间音频分量中的至少一些空间音频分量的位置；提供可变焦距，所述可变焦距指示距所述音频场景中的参考位置的距离；响应于反映所述可变焦距与所述音频场景中从所述参考位置到所述空间音频分量中的至少第一空间音频分量的位置的距离之间的差异的差异量度而调整所述第一空间音频分量相对于所述音频场景的至少一个其他空间音频分量的感知强调性质；并且在对所述感知强调性质的所述调整之后，绘制包括所述第一空间音频分量的所述空间音频分量，所述绘制响应于所述位置数据。

参考下文描述的实施例，本发明的这些和其他方面、特征和优点将变得显而易见并得以阐明。

附图说明

将参考附图仅通过范例描述本发明的实施例，其中

图1示出了根据本发明的一些实施例的空间音频处理装置的一些元件；和

图2图示了根据本发明的一些实施例的虚拟现实系统的一些元件。

具体实施方式

以下描述聚焦于适用于自适应视听绘制系统的本发明的实施例，并且具体地聚焦于用于向用户提供虚拟现实体验的虚拟现实系统。然而，将意识到，本发明不限于该应用，而是可以应用于许多其他空间音频过程和应用。

图1图示了根据本发明的一些实施例的空间音频处理装置的一些元件。

空间音频处理装置包括音频接收器101，音频接收器101被布置成接收描述包括与空间位置相关联的空间音频分量的音频场景的音频场景数据。音频场景数据包括描述多个音频分量的音频数据。每个音频分量可以对应于声音源(其可以是点声音源、分布式源或者实际上非空间定位的扩散(例如，环境)源。此外，音频场景数据包括提供针对音频分量中的一个、多个或全部的位置信息的位置数据。

在特定范例中，音频场景由多个音频对象表示，每个音频对象是独立且单独的音频源。因此，可以与其他音频对象分开处理和绘制每个音频对象。具体地，在许多实施例中，音频场景数据包括个体音频数据集，每个集合提供音频对象的完整音频描述。此外，可以为音频对象中的每个(或至少一些)提供个体位置数据。

在一些实施例中，每个音频分量因此可以是个体音频对象，其可以独立地并且与其他音频分量分开处理。

在特定范例中，音频场景数据因此还可以包括每个音频对象的位置信息。具体地，音频场景数据可以包括提供针对音频对象中的全部或一些的位置信息的元数据。因此，音频场景数据描述了包括由音频分量(并且尤其是音频对象)表示的多个音频源的音频场景。具体地，音频场景数据包括关于由音频源产生的音频的信息以及它们在音频场景中的位置两者。

在许多实施例中，音频分量/音频对象中的至少一些将对应于具有单个相关联的位置的点音频源。在一些实施例中，音频场景数据可包括不对应于点源音频源的音频分量。例如，音频源中的一个或多个可以对应于更多扩展或分布式音频源。实际上，在一些情形中，音频分量中的一个或多个可以对应于完全分布式音频源，例如，表示扩散环境声音的音频源。

音频接收器101耦合到适配器103，适配器103被布置成调整音频分量中的至少一个。调整基于从距离单元105接收的可变焦距。

因此，距离单元105被布置成向适配器103提供可变焦距。可变焦距可以提供当前考虑/假设/估计收听者/用户专注于他的意图的音频场景中的距离或甚至位置的指示。可变焦距指示距音频场景中的参考位置的距离。因此，可变焦距提供距音频场景中的当前参考位置的距离。参考位置具体可以是听众/用户/观察者被认为处于的收听位置，并且因此由可变焦距所指示的距离被假定为用户当前聚焦(或想要聚焦)的距离，并且适配器103被布置成调整音频分量中的至少一个，使得在距参考位置的该距离处可能增加对音频源的感知强调。

在一些实施例中，可以从特定用户输入提供可变焦距。例如，距离单元105可以包括用户输入，例如，采取滑块的形式的用户输入。然后，用户可以手动调节这种滑块以直接改变焦距。因此，在一些实施例中，可变焦距可以直接由用户手动设置。在其他实施例中，可变焦距可以自动或半自动地确定，例如，通过跟踪眼球移动。对于场景中的给定参考点/收听点，可以改变焦距。具体地，对于固定/未改变的参考点，焦距可以改变，并且因此可以设置为不同的值。

为简洁起见，下面的可变焦距也将简称为焦距。

在一些实施例中，焦距可以在音频场景中提供三维位置，可以例如通过几何计算或通过提取相关数据确定距该三维位置的距离。因此，在一些情况下，焦距可以由三维位置提供，可以计算从该三维位置到参考位置的距离。在其他实施例中，焦距可以仅包括一维指示。例如，其可以直接提供可以直接用作焦距的单个距离值。

在一些实施例中，焦距可以是与三维音频场景有关的三维距离，但是在其他实施例中可以是二维或一维距离，即，焦距可以仅涉及例如三维空间中的两个或一个维度。

适配器103被布置为响应于音频分量的位置和焦距而调整音频分量中的一个或多个的感知强调性质。感知强调性质可以是可以影响音频场景中的音频分量的感知强调的任何性质。因此，通过修改感知强调性质，可以修改音频源的相对感知重要性或独特性。以这种方式，可以修改给定的音频分量以在音频场景中更突出(或者更少突出)。

具体地，对于称为第一空间音频分量的给定空间音频分量，响应于反映焦距与从参考位置到第一空间音频分量的位置的距离之间的差异的差异量度而相对于至少一个其他音频分量修改感知强调性质。。

距离可以是三维距离(具体地，三维欧几里德距离)，或者可以是例如二维或一维体验。例如，距离可以被确定为二维平面上或一维方向上的三维距离的投影，例如三维坐标系的轴。例如，音频场景可以由欧几里德三维坐标系(x、y和z坐标)中的位置表示。距离可以涉及这种坐标系中的三维距离(例如，确定为每个坐标的平方差的根)。然而，距离也可以被确定为坐标中的两个中的距离(即，可以忽略坐标中的一个)。在一些实施例中，可以仅考虑一个坐标(例如，仅考虑z坐标)来确定距离。

例如，该距离可以用于指示从音频场景中的参考位置到期望焦点的三维距离。作为另一范例，距离可以是限定二维焦平面的一维距离。

因此，适配器103可以确定音频场景中的参考位置与第一空间音频分量的位置之间的距离。在一些实施例中，参考位置可以是固定的，并且实际上可以相对于该参考位置描述音频场景。例如，可以相对于标称参考位置给出所有音频源/音频分量/音频对象的位置。可以直接从音频分量的位置的坐标值计算从音频分量到参考位置的距离。实际上，如果位置由极坐标给出，则长度坐标可以直接用作第一空间音频分量和参考位置之间的距离(在音频场景中)。如果利用使用直角坐标，可以通过简单的几何计算来计算距离。

参考位置是音频场景中的参考位置。因此，适配器103被布置成根据第一空间音频分量的位置与虚拟音频场景中的虚拟参考位置如何有关来调整第一空间音频分量的性质。

适配器103将该距离，即从第一空间音频分量的位置到参考位置的距离(此后称为音频源距离)与焦距进行比较，并生成差异量度，所述差异量度指示这些彼此偏离多少。对于音频分量距离和焦距之间的增加的差异，差异量度可以具有增加的值/差异(或绝对值/差异)。差异量度可以是音频分量距离和焦距之间的差异的单调和连续函数。

将意识到，可以根据具体应用的个体要求和偏好在不同的实施例中采用不同的差异量度。在许多实施例和情形中，可以使用简单地将两个距离彼此相减的简单的差异量度。

然后，适配器103可以基于该差异量度来调整第一空间音频分量相对于其他空间音频分量中的一个或多个的感知强调性质。通常，第一音频分量的感知强调性质被调整(因此，调整将相对于所有其他音频分量)。然而，将意识到，在一些实施例中，可以修改其他空间音频分量中的一个、多个或通常全部的感知强调性质，从而导致第一空间音频分量的感知强调性质与(一个或多个)其他音频分量的感知强调性质之间的关系被改变，而不管第一空间音频分量的感知强调性质未被改变。

感知强调性质可以具体地是第一空间音频分量相对于其他空间音频分量中的一个或多个的(音频)水平。具体地，适配器103可以被布置为响应于差异量度来调整第一音频分量的水平，并且可以具体地被布置为增加音频水平，差异量度越低，即音频分量距离越靠近焦距。

因此，如果第一音频分量靠近焦距，则与第一音频分量相对应的音频源的水平将相对于第一音频分量进一步远离焦距时增加。因此，如果音频源靠近收听者的当前(假定/指示)焦点，则音频源的音量将增加，从而使音频源在音频场景中更加突出。以这种方式，对音频源相对于其他音频源的强调将取决于其与收听者当前焦点的位置如何靠近。

将意识到，不是增加第一音频分量的水平，而是适配器103可以降低音频场景中的一个或多个其他音频分量的水平，或者实际上可以进行两者。例如，对于减小的差异量度，可以针对第一音频分量增加音频水平，并且可以针对所有其他音频分量减小音频水平，使得场景的整体组合音频水平保持恒定。

将意识到，适配器103可以前进到应用所有音频分量的类似处理，或者例如，音频分量的合适子集，诸如例如与点音频源对应的所有音频分量。因此，适配器103可以跨音频级有效地应用可变增益或权重函数，其中，不同的位置的权重取决于到参考位置的距离，并且具体地应用于该距离和焦距之间的差。音频分量越靠近焦距，增益能够越高。以这种方式，适配器103可以对音频级(由音频分量形成)应用调整或修改，使得更靠近收听者的特定当前焦点的音频源被强调以在感知音频场景中更突出。

适配器103耦合到音频绘制器107，音频绘制器107被布置成通过绘制空间音频分量来绘制音频场景。音频绘制器107是空间绘制器，其可以绘制音频分量，使得其被感知为源自于给定位置(例如，使用具有通过双耳处理生成的信号的环绕声布置或耳机，如稍后将更详细地描述的)。因此，音频绘制器107可以有效地再现音频场景。

音频绘制器107接收从音频场景数据提取的位置数据，并前进到在基于接收的位置数据确定至少一个音频分量的位置处绘制音频分量。具体地，音频绘制器可以被布置为在与由位置数据所指示的位置相对应的位置处绘制一个或多个音频分量。因此，在保持位置信息的情况下绘制音频场景，并且保持音频场景的感知空间结构与由输入数据给出的相同。然而，可以修改音频源，使得相对于远离焦平面的音频分量，将更加强调靠近期望的例如焦平面的音频源。因此，特定感兴趣的音频源可以更突出，同时空间一致性和布置保持相同，使得音频场景不被感知为在空间上改变。

将意识到，在一些实施例中，绘制器可以改动或修改音频分量中的一个或多个的位置。例如，用户可以被布置为通过向绘制器提供用户输入来移动场景中的特定音频分量的位置。

图1的系统的方法可以在许多实施例中提供改进的用户体验，并且可以具体地提供更灵活的用户体验，其中，向用户的音频呈现适于用户的当前特性，从而允许用户动态且灵活地将焦点改变为音频场景的不同部分。因此，不是基于所接收的音频场景数据而绘制固定且不灵活的音频级，而是方法允许用户侧调整，其允许用户突出显示或强调动态选择(手动或自动)的不同音频源。

在许多实施例中，可变焦距可以由用户动态地改变。实际上，在许多实施例中，例如在虚拟现实应用中，用户可以被布置为控制音频场景内的参考点，其中，参考点对应于音频场景中的收听位置。在许多实施例中，参考点的控制可以由用户手动控制，例如，通过使用操纵杆、游戏手柄、键盘、运动检测器等。然而，除了该控制之外，用户还可以控制音频场景中的焦点。这是通过相对于参考位置提供的可变焦距来实现的。具体地，对于给定的参考点，可以改变焦距以提供相对于该参考点的不同焦点/区。实际上，焦距的控制和参考点的控制可以彼此独立。

因此，焦距相对于参考点是可变的，并且不是由参考点限定的固定或预定区。可变焦距可以例如响应于用户输入而确定，例如，允许用户针对音频场景中的固定收听/参考位置动态地改变音频场景中的音频焦点。在一些实施例中，焦点距离可以例如响应于自动用户行为检测而动态地确定，例如头部移动或眼睛移动的检测。这可以例如允许收听者保持在音频场景内的固定收听位置处，但是在场景内动态地改变音频焦点。因此，收听者可以动态地改变音频场景中的焦点，例如在场景的不同部分中挑选声音源。

空间音频处理装置具体地可以提供类似于视觉方法的效果，例如，可以在用户侧动态地改变焦平面，使得可以在绘制时选择焦点对准的场景中的对象。

例如，场景可以由光场相机捕获，其中，所得到的图像数据被编码和分布。此外，场景的音频可以由一组麦克风捕获，从而允许针对不同的音频分量确定空间特性。可以生成描述音频分量和相关联的位置信息的对应的音频场景数据，并且可以生成包括图像数据和音频场景数据的视听信号。

可以分布视听信号，并且然后终端用户设备可以处理对应的视觉和音频数据，从而实现三维视听体验的绘制。

具体地，可以在用户端处处理图像数据，使得利用在绘制时选择的焦平面来生成图像。例如，可以向用户提供滑块，从而允许用户仅通过移动滑块就可以在场景中前后移动焦平面。这将使得不同的图像对象进入和离开焦点，这取决于滑块的设置和它们到查看位置的距离。

同时，滑块可以控制空间音频处理装置，使得相对于远离焦平面的音频源强调靠近焦平面的音频源。实际上，参考位置可以对应于图像的观察者位置(即，其可以对应于当捕获场景的图像时光场相机的位置)并且焦距可以被设置为对应于从该位置到焦平面的距离。结果，靠近焦平面的音频对象将例如与焦平面处于其他距离时的水平相比具有增加的音频水平。

作为范例，方法可以提供滑块，其中，用户可以在图像中来回移动焦平面，同时经历音频调整以匹配焦平面变化。因此，当对应于声音源(例如扬声器或收音机)的图像对象聚焦时，声音源在音频场景中也变得更响亮和更主导。

因此，方法可以处理表示虚拟场景的视听数据(例如，通过使用光场相机和空间敏感麦克风布置捕获真实场景而导出的)，以便提供用户将在场景中聚焦于的事物的灵活的用户侧选择/控制。音频和视频侧可以被布置为彼此支持并提供对应的体验，从而提供实质上更感兴趣和期望的用户体验。具体地，可以提供虚拟现实效果，其中，用户动作可以实现动态改变的场景的呈现和用户感知，使得用户可以控制场景的感知。

在许多实施例中，适配器103可以将感知强调性质的值(例如音频水平或增益)确定为可变焦距与音频场景中从参考位置到第一空间音频分量的位置的距离之间的差异的连续函数。可以提供渐进相关性，使得音频分量的强调随着它们更远离焦点而逐渐减少。这可以提供有利的效果，当焦距动态改变时，这是特别重要的。

具体地，方法在实施例中能够是特别有利的，其中，用户关于固定收听位置可以在音频场景中四处动态地移动焦点，其中，音频分量进入并移出焦点。由连续函数所实现的渐进效果将使这实现更自然且更不明显的效果。

在许多实施例中，适配器103还被布置成调整感知强调性质以针对增加的差异量度减小第一音频分量的强调，其中，可变焦距大于从参考位置到第一空间音频分量的位置的距离。因此，强调不仅仅放在靠近收听者的音频源上，而是适配器可以减少强调，例如通过它们越靠近收听位置并且因此它们距由焦距指示的焦区越远，就越降低音频分量的音频水平或增益。

这样的效果可以提供改进的体验，其中，强调可以被定位在更远离收听位置的区上。例如，对于提供音频和视觉绘制的虚拟现实视听体验，用户可以将焦点从例如靠近参考位置的扬声器改变到例如场景的背景中的电视。这能够使得视觉焦点从扬声器移位到电视，从而使得扬声器不太明显并且电视更加明显。在音频领域中提供相同的效果，其中，不仅电视更响亮而且扬声器也更安静。例如，绘制能够从清晰响亮的扬声器改变到清晰响亮的电视。因此，对收听者的效果能够是音频自动地从他“听到”扬声器调整到他“听到”电视。

图2公开了一种虚拟现实系统，其被布置成向用户呈现三维视听场景，同时允许用户动态地调整音频场景的呈现，并且具体地允许用户动态地改变场景的呈现。实际上，用户可以改变场景中的焦点，并且在许多实施例中还可以动态地改变收听和观看方向或位置。

虚拟现实系统包括视听接收器201，视听接收器201接收描述场景的视听数据。视听数据包括如前所述的音频场景数据，并且此外包括三维图像(或视频)数据。

虚拟现实系统包括图1的空间音频处理装置，并且视听接收器201被布置为提取音频场景数据并将其馈送到音频接收器101，其中，其可以由适配器103处理，如前所述。

适配器103耦合到音频绘制器107，音频绘制器107还耦合到一组音频换能器203。音频绘制器107被布置成在适配器103的调整之后绘制音频分量，使得经由音频换能器203绘制经修改的音频场景。然而，绘制基于原始位置数据，并且在许多情况下，绘制音频分量以对应于由位置数据指示的位置。

音频换能器203可以例如是头戴式耳机或耳机，并且音频绘制器107可以包括用于驱动这种头戴式耳机或耳机以提供三维空间体验的功能。例如，音频绘制器107可以包括用于双耳处理和绘制的功能，包括使用头部相关传递函数(HRTF)等的音频分量的处理，如本领域技术人员已知的。

在一些实施例中，音频换能器203可以是多个扬声器，其定位成为收听者提供空间体验。例如，音频换能器可以是一组环绕声扬声器，例如，形成5.1或7.1环绕声扬声器设置。

音频绘制器107可以被布置为使用任何合适的方法来绘制音频场景，并且将意识到，技术人员将知道用于空间音频绘制的许多不同方法，其可以实施适于个体实施例的特定偏好和要求的方法。

还应当意识到，音频路径的功能的分布可以在不同实施例之间变化。例如，在一些实施例中，音频接收器101可以执行应用于例如个体音频对象的音频解码以生成针对每个音频分量额单独的音频信号。适配器103可以实施针对不同的音频分量的可变增益，其中，给定音频分量的增益取决于音频分量的差异量度。然后，可以由音频绘制器107产生的音频信号可以由HRTF函数处理并组合成用于头戴式耳机的双耳信号。

作为另一范例，针对音频对象的音频数据可以与来自适配器103的指示针对个体音频对象的相对水平调整/增益(基于差异量度确定的)的数据一起直接馈送到音频绘制器107。然后，音频绘制器107可以解码音频对象，应用水平调节并且将得到的音频信号组合成用于环绕声扬声器的音频信道信号(每个信道的权重取决于个体音频对象的位置)。

因此，将意识到，然而图1和图2示出了音频路径中的功能的特定分布、序列和分区，其他实施例可以实施功能的其他分布、序列或分区。例如，增益调节可以是例如绘制的部分或者可以在音频数据的解码之前执行。

虚拟现实系统还包括视频绘制器205，其耦合到视听接收器201和显示模块207。

显示模块207被布置为向用户提供视觉输出，从而允许用户查看由接收的视听数据表示的场景。显示模块207可以是二维显示器，或者可以是三维显示器，或者例如一副立体图像眼镜。在许多实施例中，显示模块207可以具体地是用于虚拟现实耳机的一组立体显示器，或者可以例如是自动立体显示器。

视频绘制器205被布置成从视听接收器201接收视觉场景数据并且驱动显示模块207以呈现场景的视觉表示。将意识到，用于从三维图像或视频数据(无论是2D还是3D)驱动显示器的许多不同方法和技术对于技术人员而言将是已知的，并且可以使用任何合适的方法。

在特定范例中，从光场相机接收所接收的三维图像数据。因此，视频绘制器205可以通过处理数据以生成具有特定距离的焦点的图像来生成例如二维输出图像，即视频绘制器205可以被布置为处理所接收的视觉数据以提供变化的焦平面。

视频绘制器205耦合到距离单元105，并且被布置为也接收焦距。然后，视频绘制器205可以根据焦距的指示来调节焦平面。

因此，在系统中，用户可以手动调节手动输入，例如滑块，以在所呈现的图像中来回移动焦平面。与该视觉调整一致，音频被调整成使得被定位为靠近当前焦平面的音频对象相对于其他音频对象被强调。因此，可以提供期望的用户体验，其向用户提供其中可以在用户端动态地修改视听呈现的灵活系统。例如，用户可以手动调整呈现。此外，可以提供音频和视觉表示的紧密链接的调整，从而提供非常一致的用户体验。

将意识到，在一些实施例中，不仅是可以由用户改变的距固定点的距离形式的焦距，但实际上在一些实施例中，用户还可以调整虚拟场景中的用户的位置(或者例如查看方向)。例如，在一些实施例中，可以以虚拟环境的三维模型的形式提供视觉数据，并且可以将音频场景数据提供为链接到该模型的音频对象(具体地，给出音频对象的位置作为模型内的位置)。用户可以控制用户在虚拟环境中的虚拟位置的移动，并且视频绘制器205可以动态地改变(一幅或多幅)所呈现的图像以反映该移动。此外，适配器103可以动态地计算从当前参考位置到音频对象的距离，并且动态地调整音频对象的音频水平/增益以反映这些变化。

适配器103可以具体地被布置为调整感知强调性质，例如音频水平，而不实际实现场景中对应的音频源/音频分量的位置的改变。具体地，音频源/音频分量的相对位置可以保持相同，而不管灵活的修改。实际上，调整不影响所接收的位置数据，而是这被馈送到音频绘制器107，音频绘制器107可以使用其来绘制空间音频场景。在许多情形中，其可以将音频分量定位在由位置数据指示的位置处，从而实现音频分量的位置被绘制在原始位置。因此，当位置保持相同时，个体音频分量的感知强调/独特性可以相对于彼此改变。

因此，不管感知强调性质的改变，适配器103可以执行调整而基本上不改变感知位置。因此，由音频分量的绘制提供的空间线索可以基本上独立于响应于差异量度而执行的调整。

实际上，在大多数实施例中，适配器103可以被布置为修改感知强调性质而没有音频分量的定时相对于其他音频分量的任何改变，即适配器103被布置为在不改变空间音频分量之间的时间关系的情况下调整感知强调性质。具体地，收听者耳朵处的相对到达时间不响应于焦距而变化，并且因此不同音频源的相对耳间时间差(ITD)保持恒定。由于ITD通常是最显著的感知空间线索，因此音频源的位置将被感知为来自音频场景中的相同位置。因此，用户将感知到在音频场景中强调靠近用户焦距的音频源但是音频源保持在相同位置处。

如先前所描述，适配器103可以被布置为响应于反映音频场景中从参考位置到第一空间音频分量的位置的距离与焦距之间的差异的差异量度来调整空间音频分量的至少第一空间音频分量相对于音频场景的至少一个其他音频分量的音频水平。通常，音频水平可以适于多个音频对象，并且在一些情形中，可以修改所有音频分量的音频水平。

适配器103可以具体地布置成将增益应用于空间音频分量，其中，空间音频分量的增益取决于焦距与从参考位置到空间音频分量的距离之间的差。具体地，适配器103可以针对指示减小的量度的差异量度，相对于其他音频分量增加空间音频分量的增益。因此，增益可以应用于音频分量，其中，增益是差异量度的单调递减函数。

在一些实施例中，增益可以通过将个体音频分量乘以被确定为差异量度的函数的给定增益因子来生成。例如在一些实施例中，增益可以在音频分量的解码之后应用。具体地，解码的信号值可以乘以增益因子。作为另一范例，在一些实施例中，可以通过直接更改编码的音频数据来执行增益。例如，如果提供个体音频分量作为标称音频水平信号数据和指示对应的音频源的音频水平的相关联的参数，则适配器103可以简单地修改音频水平参数。

因此，适配器103可以被布置成根据它们相对于用户视点到选定的“对焦”距离的距离来相对于彼此修改个体音频分量的水平。

个体音频分量的水平可以使用水平加权曲线来修改，所述水平加权曲线在选定的对焦距离处具有其最大值并且随着从该对焦距离增加径向距离而逐渐减小(如从用户视点看的)。作为范例，可以使用高斯曲线。

在一些实施例中，增益被确定为差异量度的函数，其相对于从参考位置到第一音频分量的位置的距离相对于焦距是不对称的。因此，该函数可以相对于到音频分量的距离大于焦距或者其小于焦距而不对称地变化。

具体地，在许多实施例中，针对给定的距离差异，相比于针对低于焦距的距离，针对高于焦距的距离，差异可以更低。具体地，在一些实施例中，相比于更远离焦距的音频分量，音频分量的最小音频水平可以应用于比焦距更靠近用户的音频分量(或者可能反之亦然)。

在许多情形中，这样的方法可以提供改进的用户体验。其可以具体地提供自适应音频场景，其对于许多用户能够表现为更真实。方法可以反映靠近用户的音频源通常被认为是显著的并且具有相对高(或非不重要)的水平，而更远的音频源可以具有非常低的水平。因此，方法可以防止由于过度衰减而感知到不现实的音频场景，同时仍然允许不引起这种效果的音频源的更高衰减。因此，方法可以帮助保持更靠近收听者的对象比远离的对象具有更高的声音水平的自然性质(“1/r定律”)。

所描述的方法可以尤其适于补充来自光场相机的图像，其中，焦平面可以由用户在使用时调节。实际上，方法可以允许交互式音频处理机制，其实现绘制音频场景的“对焦”距离的绘制时间改变。音频聚焦控制机构可以耦合到用于系统的视觉部分的对应的聚焦控制机构，并且单个控制参数可以用于控制和对准两种模态的聚焦机构。因此，相同的控制可以影响由用户感知的视觉焦点和音频焦点。

与例如使用基于麦克风阵列的波束形成技术进行音频缩放相对，所描述的方法可以寻求平衡相对于用户位于不同距离层中的源的声音水平，但是保持它们相对于彼此的空间关系以及相对于用户的空间关系完整。实际上，波束形成技术试图尽可能地隔离来自某个方向的声音或来自空间中某个点的声音源的声音，尽可能地抑制所有其他声音源/方向。当前方法可以动态地强调靠近给定焦距的声音源，对应于针对光场相机的后聚焦概念。对于这样的相机，其他距离处的视觉对象在绘制图像中仍然可见，并且它们的空间关系保持相同，但是随着焦平面改变，不同对象的相对锐度可以变化。当前方法可以为音频提供对应的效果，其中，所有音频源保持不变，但是一些音频源在靠近选定的焦平面时在感知上变得更显著。

在一些实施例中，可以提供360度(或甚至3D球形)VR绘制情形。所描述的音频处理方法可以使用户能够例如环顾四周，并控制相对于他的视点的距离，在该视点处，以最大的“锐度”看到和听到虚拟场景中的对象。换句话说：它是其中缩放距离处的对象有效地更靠近用户(或者等效地：用户的视点朝向缩放点移动)的紧接已知的“缩放”方法的备选交互机制。

前面的描述已经聚焦于其中被修改的感知强调性质是个体音频分量的音频水平(或增益)的实施例。然而，在其他实施例中，可以额外地或备选地调整其他性质以改变强调或者例如改变靠近焦距的音频分量的感知到的“锐度”。

在一些实施例中，感知强调性质可以是第一空间音频分量的扩散性质。绘制音频信号的扩散性能够影响音频源被感知的局部化程度。通常，随着音频信号的扩散性质的量度增加，感知的扩散或非局部性增加。相反，通过降低扩散性质，音频源可以被感知为更局部化和特定的音频源(更靠近点源)。因此，当扩散程度降低时，音频源可以被感知为“更锐利”。

在许多实施例中，适配器103可以被布置成针对指示减小量度的差异量度，相对于一个或多个其他空间分量减小第一空间音频分量的扩散程度。因此，适配器103可以根据差异量度确定扩散度参数，其中，扩散参数被修改为在差异量度较小的情况下减小扩散度。

在一些实施例中，可以通过修改指示在绘制音频分量时应该应用的扩散的参数来直接修改扩散参数。例如，支持基于对象的音频的一些音频标准(例如ADM、MDA和MPEG-H 3D音频)已经包含可用于控制绘制对象的扩散性的对象元数据。类似于针对水平修改所描述的加权函数可以应用于音频对象的扩散性质，其中，最小的扩散加权应用于选定的对焦距离处的对象(因此这些被绘制为最大程度“锐利”)并且在距对焦距离的增加的径向距离的情况下增加对象的扩散加权(使得定位为远离对焦距离的对象被绘制为更多且可能高度扩散)。

作为另一范例，适配器103可以被布置为根据差异量度来修改音频信号的时域扩展。例如，音频分量的音频信号可以与脉冲响应进行卷积。对于非常局部化的源，脉冲响应可以具有在非常短的时间间隔中集中的能量，并且具体地可以是单个狄拉克脉冲。然而，针对更加扩散的源，能量可以在对应于越来越多的反射的更长的持续时间内扩散，并且例如可以包括对应于扩散响应而不是个体反射的混响尾部。因此，脉冲响应可以包括混响效应等。在一些实施例中，适配器103可以例如在对应于不同扩散程度的多个预定脉冲响应之间进行选择。选择可以基于差异量度，并且选定的脉冲响应可以应用于音频信号，从而产生扩散，所述扩散取决于音频分量如何靠近焦距。

在这样的范例中，可以修改音频分量的时间绘制，从而引入扩散。然而，备选地或额外地，可以修改空间绘制以增加音频分量的扩散。在这样的方法中，可以减少收听者的两只耳朵之间的相关性以增加音频分量的扩散性。

具体地，感知的扩散可以取决于信号的时间扩展以及收听者的耳朵之间的相关性。关于音频应用的扩散性的更多信息可以例如在以下中发现：Mendel Kleiner的“Acoustics and Audio Technology(Acoustics：Information and Communication)”(JRoss Publishing，2011，ISBN 1604270527)或Pulkki的“Communication Acoustics”(JohnWiley&Sons，2015，ISBN 1118866541)。

具体地，感知的扩散性通常取决于直接声音和混响声音之间的水平差异。该差异的指示可以直接确定为：

L_Ind＝L_混响-L_直接

或者例如水平之间的比率：

或混响信号水平相对于总水平的比例：

其中，L_直接是直接声音分量的水平，L_混响是混响声音分量的水平，并且L_Ind是这些之间的关系的指示(针对增加的扩散性，指示增加)。

因此，在一些实施例中，适配器103可以被布置成响应于差异量度而调整直接声音水平相对于混响声音水平之间的关系，并且具体地可以针对增加的差异量度相对于直接声音增加混响声音的水平。

将意识到，可以根据个体偏好和要求在不同实施例中以不同方式定义、确定和控制直接声音和混响声音。例如，在一些实施例中，直接声音分量可以对应于与直接声音路径相对应(例如，对应于脉冲响应中的所有狄拉克脉冲)的所有峰，其余信号对应于混响声音分量。

在其他实施例中，声音分量可以纯粹基于时间来区分，其中，直接声音分量被确定为与到达收听者的分量相对应的那些声音，传输时间小于第一时间阈值，并且混响声音被确定为对应于到达收听者的分量的那些声音，传输时间大于第二时间阈值(通常大于第一时间阈值)。例如，给定空间音频分量的音频信号可以由具有脉冲响应的(扩散)滤波器处理。可以将直接声音的水平确定为在例如20-100毫秒的第一时间阈值之前的脉冲响应的能量。这对应于典型房间中的直接声音和早期反射。混响声音的水平可以被确定为在例如70-150毫秒的第二时间阈值之后的脉冲响应的能量。这可以对应于典型房间中的(通常是非独特的)混响。

适配器103可以例如在具有不同脉冲响应的不同(扩散)滤波器之间切换，以便提供脉冲响应，所述脉冲响应实现直接声音与混响声音之间的期望关系，并且从而实现扩散的期望变化。例如，可以向查找表提供多个脉冲响应，并且适配器103可以基于差异量度在这些之间进行选择。

备选地或额外地，如上所述，适配器103可以被布置成根据差异量度来改变收听者的两个耳朵处的信号之间的相关性。具体地，适配器103可以被布置为根据差异量度来改变耳间相关性，并且具体地可以被布置为针对增加的差异量度减小耳间相关性。

具体而言，耳间互相关系数(ICCC)可以定义为：

其中，x(t)和y(t)是两个耳朵的信号，τ是信道之间的偏移(取决于声音源到收听者的方向)，并且t1和t2是积分的合适时间限制(其通常可以超过例如50-100毫秒)。

适配器103可以被布置为处理信号以根据差异量度来调整ICCC。例如，可以针对一组滤波器存储脉冲响应，其中，脉冲响应针对右耳和左耳是不同的。针对不同的滤波器对，差异程度以及因此左耳和右耳之间的相关性可以是不同的，并且因此适配器103可以根据差异量度而选择导致期望的ICCC的一对脉冲响应。作为具体范例，脉冲响应针对不同频带可具有略微不同的延迟，其中，右耳和左耳的延迟分别以不同的方式变化(作为频率的函数)。

通过控制耳间互相关来控制扩散通常特别适合于头戴式耳机绘制应用，而通过控制直接与混响声音来控制扩散通常更适于使用空间扬声器设置进行绘制。

以这种方式，靠近焦距的音频源可以被感知为比焦距更远的音频源更具体且空间确定。

在一些实施例中，适配器103可以额外地或备选地被布置为根据第一空间音频处理装置的差异量度来修改第一空间音频分量的频率信号分布。

因此，音频分量的频域中的能量分布可以根据差异量度而变化。适配器103可以通过应用具有取决于差异量度的频率响应的滤波器来具体地对音频分量信号进行滤波。例如，适配器103可以通过低通滤波器和高通滤波器对信号进行滤波，并且然后通过经滤波的信号的加权组合来生成组合信号。可以根据差异量度来确定权重。

差异量度值越小，即音频分量越靠近焦距，适配器103可以具体地相对于低频信号分量增加高频信号分量。

当音频源具有增加的高频内容时，通常可以感知到音频源更加引人注目并且更突出(并且例如越来越“锐利”)。因此，音频对象越靠近焦距，系统可以相对于低频内容放大高频内容，从而使得更靠近焦距的音频对象更加清晰和明显。

作为另一范例，系统可以强调特定频带/区域中的频率内容。例如，可以放大/衰减中高频带以修改不同音频源的感知强调。

因此，在一些实施例中，空间音频分量可以(在被绘制时)由滤波器滤波，所述滤波器具有取决于差异量度的频率响应。例如，经修改的音频信号可以生成为：

S_m(f)＝S_ac(f)·H(f,Δ)

其中，S_ac(f)是频域中空间音频分量的原始音频信号，H(f,Δ)是取决于差异量度Δ的滤波器。

具体地，系统可以首先解码空间音频分量的音频数据以生成时域音频信号，并且然后可以使用FFT将这转换到频域。在每个分箱中，频域信号可以乘以滤波器系数，其中，至少一些分箱的滤波器系数被确定为差异量度的函数。

在一些实施例中，可以使用相对复杂的函数来确定作为差异量度的函数的每个个体滤波器系数。然而，在许多实施例中，可以使用相对简单的方法。

例如，在许多实施例中，针对频率中间范围的系数可以是1，即，不修改该分箱中的音频信号值。针对高频，可以针对增加的差异量度增加系数，而针对低频率，可以针对减小的差异量度减小系数。因此，针对减小的差异量度，高频强调相对于低频强调增加，即，针对靠近焦距的音频对象强调高频内容，而对于更远的信号源则不强调高频内容。

在许多实施例中，适配器103可以被布置成根据差异量度在具有不同频率响应的一系列不同滤波器之间进行选择。因此，查找表可以包括一组滤波器，并且适配器103可以基于差异量度在这些滤波器之间进行选择。

将意识到，在许多实施例中，这种滤波器可以改变音频分量的信号的频率分布以及这的扩散性。因此，存储的滤波器响应可以改变频率响应和耳间互相关两者和/或直接声音分量和混响声音分量之间的关系。

在许多实施例中，空间音频分量信号的频率选择性滤波可以包括归一化，使得不修改信号的总能量/水平。

在该系统中，可以相应地通过修改信号能量在频域中的分布方式来完全或部分地实现不同音频源的感知强调/去强调。具体地，可以将具有取决于差异量度的频率响应的滤波器的滤波应用于空间音频分量信号，从而实现频率信号分布(具体地，信号的能量如何在频域中分布)作为差异量度的函数而变化。

频率信号分布可以被确定为频域中的信号能量的分布。例如，可以选择用于空间音频分量的音频信号的片段并使用FFT将其转换到频域。在调整之前，这可以提供与频域中的信号的给定分布相对应的给定频率值集合(每个值指示该特定频率分箱中的能量)。可以将相同的方法应用于经修改的音频信号，即，在根据差异量度的调整已经执行之后。现在，对应于频域中音频信号的能量的不同分布，不同频率分箱的频率值可能已经改变。由于调整取决于差异量度，至少一些频率分箱中的值也将取决于差异量度，并且因此实现不同的频率信号分布，其是差异量度的函数。

频率信号分布的简单量度/指示可以简单地是与较高频率间隔中的能量相比较低频率间隔中的能量。在许多实施例中，可以根据差异量度来修改该关系。

将意识到，尽管可以直接在信号上测量这样的频率信号分布，但是基于差异量度的频率信号分布的修改通常在没有任何明确测量结果的情况下执行，而仅仅是由其中滤波器取决于差异量度的频率变化滤波器的应用产生的。

在一些实施例中，音频分量的处理可以不仅取决于从音频源位置到参考位置的距离，而且还可以取决于从音频源位置到参考位置的方向，即差异量度可以取决于从参考位置到第一空间音频分量的位置的方向。具体地，差异量度可以取决于当从参考位置查看时由焦距指示的位置与第一空间音频分量的位置之间的方位角和仰角差异中的至少一个。因此，在这样的实施例中，例如由用户提供的焦距可以被提供为一位置：可以从所述位置中确定距离，并且可以从所述位置确定相对于参考位置的方位角和/或高度。在其他实施例中，焦距可以直接提供距离值，并且可以此外包括定义特定位置的位置指示。

在一些实施例中，差异量度可以是包括多个值的复合值，例如，一个取决于从音频源到参考位置的距离，一个取决于从音频源到参考位置的方向。

在许多实施例中，系统因此可以提供对音频分量的更加差别化的强调，并且具体地可以增加对用户正在聚焦的方向上的音频对象的强调。例如，用户可以指示视图方向和距离，并且差异量度可以反映音频分量与指示位置的靠近程度。可以基于所确定的差异量度来应用所描述的用于修改感知强调性质(例如，音频水平、扩散程度和/或频率分布)的方法。

方法可以在许多情况下提供改进的用户体验。实际上，在音频与对应的视频组合的许多使用情况下，可能不希望将所有位于选定的对焦距离中的音频对象“对焦”在空间中的任何位置。相反，可能优选的是，仅强调在查看方向周围的有限空间范围内或在用户的实际视图内的那些。以这种方式限制音频的“聚焦”能够优于将最大水平加权应用于处于选定的对焦距离的所有音频对象，包括例如位于用户后面(相对于他的视点和方向)的对象。

如所描述的，这可以通过应用如前所述的差异量度来实现，但是在查看方向上具有最小值并且相对于查看方向增加角度(方位角和/或仰角)的值增加以及焦距和音频对象之间的距离与参考位置距离之间的差异增加。在用户移动他的头部(或更一般地：改变他的查看方向)的动态VR场景中，可以相应地修改该加权函数。

作为范例，可以通过确定音频分量的三维位置与由焦距数据指示的三维位置之间的距离来计算距离量度。在一些实施例中，反映三维距离的该距离可以直接用作差异量度。将意识到，在一些实施例中，可以不同地加权不同的维度。

作为另一范例，差异量度可以被导出为两个加权曲线的相乘，其中一个取决于相对于焦距的音频对象到参考位置距离，另一个可以取决于焦点方向和音频对象到参考位置方向之间的差异。

在前面的范例中，用户可以手动控制焦点指示，特别是焦距。然而，在许多实施例中，空间音频处理装置可以包括跟踪头部，尤其是用户眼睛的跟踪器。然后可以通过该头部或眼睛跟踪来确定焦距。跟踪器可以具体地执行凝视或视图检测以确定针对用户的焦点的位置。已经开发了用于这种功能的各种方法，包括被称为自适应景深跟踪的特定方法。

然后可以基于该自动检测来确定差异量度，并且可以处理音频场景以增加对靠近用户的焦点的音频对象的强调。因此，方法可以提供一种系统，其自动地调整音频场景以提供对用户在视觉场景中查看的位置附近的音频源的增加的聚焦。因此，系统可以自动确定例如用户聚焦其眼睛的距离，该信息可以用于控制视频和音频聚焦。

所描述的实施例已经聚焦于其中音频场景数据包括表示空间音频分量中的至少一些(并且通常是全部)的个体音频对象的实施方式。此外，明确的位置信息，例如，作为元数据，已经假设针对音频对象而存在。

因此，在许多实施例中，音频场景可以由多个音频对象描述，所述音频对象由音频数据和相关联的元数据个体地表示，其具体地可以包括位置信息，以及诸如例如建议的水平信息、混响参数等的绘制信息。

近年来，已经进行了大量努力来开发将个体音频源表示为个体音频对象的多种音频格式。因此，不是通过对应于特定(标称或参考)位置的音频信道来表示音频场景，而是已经提出提供各自表示特定音频源(包括例如背景、扩散和环境声音源)的个体音频对象。通常，可以向音频对象提供(任选的)位置信息，该位置信息指示声音级中的音频对象的目标位置。因此，在这样的方法中，音频源可以表示为单独和单个的音频对象，而不是其对与特定的预定(扬声器)位置相关联的音频通道的贡献。

例如，为了支持音频对象，MPEG已经标准化了称为“空间音频对象编码”(ISO/IECMPEG-D SAOC)的格式。与诸如DTS、Dolby Digital和MPEG Surround的多信道音频编码系统相对，SAOC提供了对个体音频对象而不是音频信道的高效编码。而在MPEG Surround中，每个扬声器信道可以被认为源自不同的声音对象的混合，SAOC允许在多信道混合中交互操纵个体声音对象的位置。

与MPEG Surround类似，SAOC也创建了单信道或立体声下混音。另外，计算并包括对象参数。在解码器侧，用户可以操纵这些参数以控制个体对象的各种特征，例如位置、水平、均衡或甚至应用诸如混响的效果。

SAOC允许更灵活的方法，并且具体地通过除了仅再现信道之外还发送音频对象而允许更多基于绘制的适应性。这允许解码器侧将音频对象放置在空间中的任意位置，只要该空间被扬声器充分覆盖。这样，传输的音频与再现或绘制设置之间没有关系，因此可以使用任意的扬声器设置。这对于例如典型的起居室的家庭影院设置是有利的，其中，扬声器几乎从不在预期的位置。在SAOC中，在解码器侧确定对象放置在声音场景中的位置。然而，尽管支持对音频对象的绘制侧操纵，但是通常希望能够在不需要用户输入的情况下绘制音频，同时仍然提供合适的声音级。具体地，当音频与链接的视频信号一起提供时，期望音频源被绘制在与图像中的位置相对应的位置处。因此，音频对象通常可以被提供有目标位置数据，其指示个体音频对象的建议绘制位置。

基于音频对象的格式的其他范例包括：MPEG-H 3D音频[ISO/IEC23008-3(DIS)：Information technology—High efficiency coding and media delivery inheterogeneous environments—Part 3:3D audio,2014.]、ADM[EBU Tech 3364“AudioDefinition Model Ver.1.0“,2014]和专有标准，诸如杜比全景声[SMPTE TC-25CSS10WGon，，Interoperable Immersive Sound Systems for Digital Cinema“,2014]和DTS-MDA[[ETSI document TS 103 223,“The Multi-Dimensional Audio(MDA)Content CreationFormat Specification with Extensions for Consumer Environments”,2014]。

音频场景数据可以包括指定场景中的各个音频源的多个不同音频对象的音频数据。这些音频对象中的一些可以是与任何特定位置无关的扩散或一般声音。例如，一个或多个音频对象可以是表示背景或环境声音的环境或背景音频对象。然而，其他音频对象可以与对应于声音级中的特定位置的特定声音源相关联。因此，视听信号还可以包括位置数据，所述位置数据提供针对特定音频对象的期望位置的指示，即它可以包括音频对象的目标位置数据。

在一些情形中，一个或多个音频对象可以与特定图像对象相关联。例如，音频对象可以对应于来自图像中的人的语音。因此，该音频对象可以与对应于人的图像对象相关联，或者更具体地(例如，针对近距离拍摄)人的嘴。在这样的范例中，视听信号可以包括描述语音和位置数据的音频数据，所述数据指示3D图像(即扬声器(或扬声器的嘴))中对应的图像对象的位置。

对于其他音频对象，与三维图像的关联可以不是与特定图像对象的关联，而是可以更间接地与由3D图像表示的场景相关。例如，音频可以源自在绘制图像中不可见的源(例如，由于遮挡、距离或大小)。

因此，音频对象通常不是为特定的预定或参考位置提供的音频信道部件，而是通常对应于场景中的个体声音源。具体地，音频对象中的一个或多个可以直接与3D图像中的一个图像对象相关(例如，语音音频对象可以与表示说话者的图像对象相关联)。给定音频对象的位置数据可以指示由音频对象表示的声音源的场景中的位置。

将意识到，不需要针对所有音频对象包括位置数据。具体地，一些音频对象可能不对应于具有特定位置的声音源，而是能够具有弥散或扩散源位置。例如，一些音频对象可以对应于不旨在从特定位置绘制的环境声音或背景声音。

尽管所描述的方法在与包括音频对象的音频场景数据一起使用时能够是特别有利的，但是将意识到，在其他实施例中可以以其他方式提供音频数据。例如，音频场景数据可以提供用于多个空间音频信道的数据，例如，其可以提供常规环绕声音频信号。在这样的实施例中，音频接收器101可以被布置为提取音频分量，例使用主成分分析(PCA)或其他合适的音频提取方法。这些技术还可以提供所提取的音频分量的估计位置。然后可以如针对音频对象所描述的那样处理所得到的音频分量和位置信息。

将意识到，为了清楚起见，以上描述已经参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，将显而易见的是，可以使用不同功能电路、单元或处理器之间的任何合适的功能分布而不背离本发明。例如，图示为由单独的处理器或控制器执行的功能可以由相同的处理器或控制器执行。因此，对特定功能单元或电路的引用仅被视为对用于提供所描述的功能的合适模块的引用，而不是指示严格的逻辑或物理结构或组织。

本发明可以以任何合适的形式实施，包括硬件、软件、固件或这些的任何组合。本发明可以任选地至少部分地实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何合适的方式在物理上、功能上和逻辑上实施。实际上，功能可以在单个单元中、在多个单元中或作为其他功能单元的部分来实施。这样，本发明可以在单个单元中实施，或者可以在不同的单元、电路和处理器之间物理地和功能地分布。

尽管已经结合一些实施例描述了本发明，但是并不旨在将本发明限于本文阐述的特定形式。相反，本发明的范围仅受权利要求的限制。此外，尽管能够看起来结合特定实施例描述了特征，但是本领域技术人员将认识到，可以根据本发明组合所描述的实施例的各个特征。在权利要求中，术语“包括”不排除存在其他元件或步骤。

此外，尽管单独列出，但是多个模块、元件、电路或方法步骤可以通过例如单个电路、单元或处理器来实施。此外，尽管个体特征可以包括在不同的权利要求中，但是这些特征可以可能有利地组合，并且包含在不同的权利要求中并不意味着特征的组合是不可行和/或不利的。在一类权利要求中包含特征并不意味着对该类别的限制，而是指示在适当的时候该特征同样适用于其他权利要求类别。此外，权利要求中的特征的顺序并不意味着必须处理特征的任何特定顺序，并且具体地，方法权利要求中的个体步骤的顺序并不意味着必须以该顺序执行这些步骤。而是，可以以任何合适的顺序执行这些步骤。此外，单数引用不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅作为澄清范例提供，而不应被解释为以任何方式限制权利要求的范围。

Claims

1.一种空间音频处理装置，包括：

接收器(101)，其用于接收描述音频场景的音频场景数据，所述音频场景数据包括音频数据和位置数据，所述音频数据描述空间音频分量，所述位置数据描述所述音频场景中的针对所述空间音频分量中的至少一些空间音频分量的位置；

距离单元(105)，其用于提供可变焦距，所述可变焦距指示距所述音频场景中的参考位置与目标焦点的距离；

适配器(103)，其用于响应于反映所述可变焦距与所述音频场景中从所述参考位置到所述空间音频分量中的至少第一空间音频分量的位置的距离之间的差异的差异量度而调整所述第一空间音频分量相对于所述音频场景的至少一个其他空间音频分量的感知强调性质；

音频绘制器，其用于绘制所述空间音频分量，所述绘制响应于所述位置数据，并且所述第一空间音频分量的所述绘制在所述适配器(103)调整所述感知强调性质之后。

2.如权利要求1所述的空间音频处理装置，其中，所述适配器(103)被布置为将所述感知强调性质的值确定为所述差异量度的连续函数。

3.如权利要求2所述的空间音频处理装置，其中，所述适配器(103)被布置为针对指示减小的差异的所述差异量度，相对于所述至少一个其他空间音频分量增加针对所述第一空间音频分量的增益。

4.如权利要求3所述的空间音频处理装置，其中，所述增益被确定为所述差异量度的函数，所述函数相对于以下项不对称：小于所述可变焦距的从所述参考位置到所述第一空间音频分量的所述位置的距离；以及大于所述可变焦距的从所述参考位置到所述第一空间音频分量的所述位置的距离。

5.如权利要求1所述的空间音频处理装置，其中，所述感知强调性质是针对所述第一空间音频分量的频率信号分布。

6.如权利要求5所述的空间音频处理装置，其中，所述适配器被布置为响应于所述差异量度而改变所述至少一个其他空间音频分量的频率相关滤波。

7.如权利要求1所述的空间音频处理装置，其中，所述感知强调性质是针对所述第一空间音频分量的扩散性质。

8.如权利要求7所述的空间音频处理装置，其中，所述适配器被布置为针对指示减小的差异的所述差异量度，相对于所述音频场景的所述至少一个其他空间音频分量减小针对所述第一空间音频分量的扩散程度。

9.如权利要求1所述的空间音频处理装置，其中，所述差异量度还取决于从所述参考到所述第一空间音频分量的所述位置的方向。

10.如权利要求1所述的空间音频处理装置，其中，所述音频场景数据包括表示所述空间音频分量中的至少一些空间音频分量的音频对象。

11.如权利要求1所述的空间音频处理装置，其中，所述距离单元(105)被布置为响应于收听者头部跟踪和收听者眼睛跟踪中的至少一项而确定所述可变焦距。

12.如权利要求1所述的空间音频处理装置，其中，所述适配器(103)被布置为在不改变针对所述第一空间音频分量的耳间时间差的情况下调整所述感知强调性质。

13.如权利要求1所述的空间音频处理装置，其中，所述适配器(103)被布置为调整所述感知强调性质以针对大于从所述参考位置到所述第一空间音频分量的所述位置的所述距离的所述可变焦距的增加的差异量度，减小对所述第一空间音频分量的强调。

14.一种空间音频处理的方法，包括：

接收描述音频场景的音频场景数据，所述音频场景数据包括音频数据和位置数据，所述音频数据描述空间音频分量，所述位置数据描述所述音频场景中的针对所述空间音频分量中的至少一些空间音频分量的位置；

提供可变焦距，所述可变焦距指示距所述音频场景中的参考位置与目标焦点的距离；

响应于反映所述可变焦距与所述音频场景中从所述参考位置到所述空间音频分量中的至少第一空间音频分量的位置的距离之间的差异的差异量度而调整所述第一空间音频分量相对于所述音频场景的至少一个其他空间音频分量的感知强调性质；并且

在对所述感知强调性质的所述调整之后，绘制包括所述第一空间音频分量的所述空间音频分量，所述绘制响应于所述位置数据。

15.一种计算机可读介质，包括计算机程序代码模块，所述计算机程序代码模块适于在所述计算机程序代码模块在计算机上运行时执行如权利要求14所述的所有步骤。