CN112740150A

CN112740150A - 用于处理视听数据的装置和方法

Info

Publication number: CN112740150A
Application number: CN201980059766.8A
Authority: CN
Inventors: W·P·J·德布鲁伊金; J·G·H·科庞
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2018-09-13
Filing date: 2019-09-10
Publication date: 2021-04-30
Anticipated expiration: 2039-09-10
Also published as: CN112740150B; MX2021002765A; BR112021004495A2; EP3850470A1; US11856386B2; EP3623913A1; US20220053282A1; WO2020053182A1; JP2022500917A; EP3850470B1

Abstract

一种用于处理场景的视听数据的装置，包括用于接收所述场景的视听数据的接收器(201)。所述视听数据包括用于包括多个音频元素的场景的音频数据和针对所述场景的至少第一图像的图像数据，其中，所述第一图像具有第一宽高比。图像重新映射器(203)执行第一图像到具有不同宽高比的第二图像的内容依赖的非均匀映射。图像重新映射器(207)被布置为生成描述内容依赖的非均匀映射的映射数据。音频重新映射器(207)响应于所述映射数据，用通过修改针对所述多个音频元素中的第一音频元素的空间属性而生成的第二音频元素来替换所述第一音频元素。被修改的空间属性可以是所述第一音频元素的位置和/或空间扩展。

Description

用于处理视听数据的装置和方法

技术领域

本发明涉及用于处理视听数据的装置和方法，并且特别地但非排他地涉及用于例如提供虚拟现实体验的视听数据的处理。

背景技术

近年来，基于视听内容的体验的多样性和范围已大大增加，其中，不断开发和引入利用和消费这种内容的新的服务以及方式。尤其是，正在开发许多空间和交互式服务、应用和体验，以为用户提供更多参与和沉浸式体验。

此类应用的示例包括迅速成为主流的虚拟现实(VR)和增强现实(AR)应用，其中有许多针对消费者市场的解决方案。许多标准化实体也正在开发许多标准。此类标准化活动正在积极开发VR/AR系统各个方面的准则，包括流、广播、呈现等。

VR应用倾向于提供与处于不同世界/环境/场景中的用户相对应的用户体验，而AR应用倾向于提供与当前环境中的用户相对应的用户体验，但是被添加有额外信息或虚拟对象或信息。因此，VR应用倾向于提供完全包含式的人工合成的世界/场景，而AR应用倾向于提供部分人工合成的世界/场景，所述世界/场景与用户实际身处的真实场景相叠加。但是，这些术语通常可以互换使用，并且具有高度的交叠。在下文中，术语虚拟现实/VR将用于表示虚拟现实和增强现实两者。

例如，一种越来越流行的服务是提供图像和音频，使得用户能够主动和动态地与系统交互以改变呈现的参数，从而使其适应用户的位置和取向的运动和变化。在许多应用中，一个非常吸引人的功能是能够更改观看者的有效观看位置和观看方向的能力，例如允许观看者在呈现的场景中移动并“环顾四周”。

这样的特征可以具体地允许将虚拟现实体验提供给用户。这可以允许用户在虚拟环境中(相对)自由地移动，并动态地改变其位置和他所看的位置。通常，这样的虚拟现实应用基于场景的三维模型，其中该模型被动态评估以提供特定的请求视图。从例如用于计算机和控制台的第一人称射击游戏类别的游戏应用中，这种方法是众所周知的。

尤其对于虚拟现实应用，还期望所呈现的图像是三维图像。实际上，为了优化观看者的沉浸感，通常优选的是，用户将呈现的场景体验为三维场景。实际上，虚拟现实体验应该优选地允许用户选择相对于虚拟世界的他/她自己的位置、相机视点以及时间。

除了视觉呈现之外，大多数VR/AR应用还提供相应的音频体验。在许多应用中，音频优选地提供空间音频体验，其中音频源被感知为从对应于视觉场景中的对应对象的位置的位置到达。因此，优选地，音频和视频场景被感知为一致的，并且利用两者提供了完整的空间体验。

视频内容(例如用于虚拟现实应用的视频内容)越来越多地被各种不同类型的设备捕获，从专业摄像头系统到智能手机，平板电脑，运动摄像头，用于智能手机的(360度)摄像头附件，等等。此外，所有这些视频内容都在相当广泛的显示设备上消费，例如智能手机，电视，平板电脑，用于VR的头戴式显示器(HMD)等。

所有这些设备都具有有关视频内容的本地和/或支持的宽高比的特定属性。对于捕获设备，这主要由视频传感器芯片的大小和形状定义，而对于显示设备，显示器的大小和形状决定了要在设备上显示的视频内容的最佳宽高比。

结果是，视频内容和在显示该内容的设备的宽高比通常不匹配，尤其是越来越多的用户在众多设备上捕获了用户生成的内容(UGC)时。

为了防止不使用显示器的大部分或者相反地，视频图像的该部分被“截掉”，可以将宽高比的转换(“放大”)应用于视频图像。但是，当通过线性拉伸或挤压一个(或多个)尺寸以最直接的方式完成操作时，通常会导致图像出现不期望的变形。

为了克服图像失真的问题，近年来开发了更高级的“智能”视频放大算法，所述算法考虑到视频图像的不同部分的特征，对图像应用了非均匀重新映射，例如区分前景和背景、“中心”和“外围”部分、和/或“对象”和“纹理”。可以基于纯视觉参数(例如局部对比度)进行此类区分，也可以在基于人工智能(AI)/机器学习的更高级的分析算法(例如将对象识别为“人”或“汽车”)的基础上进行区分。

执行此“智能”视频放大所需的图像分析是计算密集的，并且对于基于AI的分析，它还需要相当大的学习数据库。

因此，基于AI的算法优选地不直接在最终用户设备上执行，而是在(远程)分布式计算机网络上执行。该网络可以是“云”，也可以是某些定义的计算机网络。这还具有以下优势：AI算法可以从许多用户的反馈中受益，以随着时间的推移提高智能放大的主观质量。

MPEG最近启动了有关“基于网络的媒体处理”(“NBMP”)的新标准化活动，其目的是能够进行媒体内容的分布式分析和处理，例如以上描述的智能放大。这项活动是浸入式媒体(VR，AR，MR)的新MPEG-I标准的一部分。

然而，尽管这种智能的宽高比自适应通常可以通过使所呈现的视频适应特定的宽高比来提供改善的用户体验，但是该方法本身可能不能提供最佳的用户体验。

因此，用于处理场景的视听数据的改进的方法将是有利的。特别地，允许改善的操作、增加的灵活性、降低的复杂度、简化的实现、改善的用户体验、对场景的更一致的感知、改善的虚拟现实体验和/或改善的性能和/或操作的方法将是有利的。

发明内容

因此，本发明寻求单独地或以任何组合来优选地减弱、减轻或消除上述缺点中的一个或多个。

根据本发明的一个方面，提供了用于一种处理针对场景的视听数据的装置，所述装置包括：接收器，其用于接收针对所述场景的视听数据，所述视听数据包括：针对所述场景的音频数据，所述音频数据包括多个音频元素；以及针对所述场景的至少第一图像的图像数据，所述第一图像具有第一宽高比；图像重新映射器，其用于执行所述第一图像到具有第二宽高比的第二图像的内容依赖的非均匀映射，所述第二宽高比与所述第一宽高比不同，并且所述图像重新映射器被布置为生成描述所述内容依赖的非均匀映射的映射数据；以及音频重新映射器，其被布置为响应于所述映射数据，用通过修改针对所述多个音频元素中的第一音频元素的空间属性而生成的第二音频元素来替换所述第一音频元素。

在许多实施例中，这可以提供改善的用户体验，并且在许多情况中可以提供对音频和视频的改善和更一致的感知，这通常可以导致更逼真的和沉浸式的体验。它可以进一步提供实用且低复杂度的实现。

通常可以实现对场景的改善的和更自然的感知，并且在许多情况下，可以减轻或减少由音频和视觉场景表示导致的干扰和不一致性。该方法对于虚拟现实VR(包括增强现实AR)应用可能特别有利。

在许多实施例中，所述方法可以提供改进的性能，同时保持较低的复杂性和资源使用率。

发明人已经认识到，尽管内容依赖的宽高比调整可以导致呈现的视频对特定呈现显示器件的改进适应，但是在一些情况下，由于调整导致空间感知与音频和视频的感知之间潜在的差异，其还可能导致整体用户体验的下降。发明人还认识到，对音频的预定调整以匹配特定显示器件和宽高比的方法将倾向于导致次优结果。发明人已经认识到，可以通过将重新映射应用于音频来实现改善整体用户感知、并且特别是更加一致的方法，其中，图像重新映射器生成描述所执行的特定重新映射的映射数据，并且基于该映射数据来调整所述音频重新映射。

所述内容依赖的非均匀映射可以是响应于所述第一图像的内容而被调整的非线性映射。所述映射数据可以指示不同的图像段如何从第一图像移位到第二图像。该移位可以例如是绝对移位，或者可以是不同图像段/位置/像素之间的相对移位。内容相关的非均匀映射可以是第一图像的位置到第二图像中的位置的二维映射(针对至少一些位置)。二维映射可以在显示平面中，并且位置可以是显示平面位置。所述内容依赖的非均匀映射可以是图像宽高比改变内容依赖的非均匀映射。

所述映射数据可以通过描述所述第一图像中的位置与所述第二图像中的位置(至少对于某些位置)之间的关系来描述所述内容依赖的非均匀映射。所述第一图像和/或所述第二图像中的位置可以是显示平面中的二维位置。所述第一图像和/或所述第二图像中的位置可以是绝对和/或相对位置。

第二音频元素可以表示与第一音频元素相同的音频内容，但是具有不同的空间属性，例如不同的位置和/或空间扩展属性。

在许多实施例中，所述设备可以包括用于基于音频数据和视觉数据来呈现场景的功能(在由图像重新映射器和音频重新映射器进行修改之后)。然而，在其他实施例中，这样的呈现可以在装置的外部。

宽高比可以是图像或屏幕的宽度与高度的比率。

根据本发明的任选的特征，所述音频重新映射器被布置为通过响应于所述映射数据来修改所述第一音频元素的空间位置属性而生成所述第二音频元素。

在许多实施例中，这可以提供特别有利的性能和/或用户体验。它通常可以提高场景的音频和视觉表示之间的一致性。

根据本发明的任选的特征，所述音频重新映射器被布置为通过将针对所述第一音频元素的空间位置从与所述第一宽高比中的图像位置相对应的位置改变为第二图像中的图像位置来生成所述第二音频元素。

在许多实施例中，这可以提供特别有利的性能和/或用户体验。

根据本发明的任选的特征，所述音频重新映射器被布置为通过响应于所述映射数据来修改所述第一音频元素的空间扩展属性而生成所述第二音频元素。

在许多实施例中，这可以提供改善的用户体验，并且可以特别地在调整声场以提供与所提供的视觉输出兼容的体验方面提供额外的灵活性。空间扩展属性可以指示物理或感知的尺寸的程度，指示视听对象覆盖用户的视野、显示多大的区域和/或进入的声压波的到达方向的范围。指示声音元素比点源(其扩展)要大多少或者应被呈现为大多少。在不同的实施例中，用于空间扩展的合适的量度可以是例如(一个或多个)绝对尺寸、(一个或多个)角度、半径/半径。

根据本发明的任选的特征，所述音频重新映射器还被布置为通过响应于第一音频元素的音频属性来修改空间属性而生成所述第二音频元素。

这可以提供改进的性能和/或用户体验。所述音频属性可以是声学属性。

根据本发明的任选的特征，所述声学属性包括第一音频元素的空间扩展的程度。

这可以允许更精确地调整经修改的空间属性的确定。

根据本发明的任选的特征，所述音频重新映射器被布置为减小第二音频元素和第一音频元素之间的位置变化，从而增加第一音频元素的空间扩展的程度。

在许多实施例中，这可以提供改善的性能和/或改善的用户体验。

根据本发明的任选的特征，所述音频重新映射器被布置为取决于空间扩展的程度来选择是否将修改应用于空间属性。

在许多实施例中，这可以提供改善的性能和/或改善的用户体验。在一些实施例中，所述音频重新映射器可以被布置为取决于空间扩展的程度来选择是否用所述第二元素替换所述第一音频元素。

根据本发明的任选的特征，所述音频重新映射器被布置为响应于第一音频元素的音频类型来修改所述空间属性。

在许多实施例中，这可以提供改善的性能和/或改善的用户体验。音频类型可以包括来自以下组中的一个或多个：音频通道，高阶混响音频元素，以及音频对象。

根据本发明的任选的特征，所述音频重新映射器被布置为响应于所述第一音频元素是否链接到所述第一图像中的图像对象来修改所述空间属性。

根据本发明的任选的特征，所述音频重新映射器被布置为取决于所述第一音频元素是否被指定为背景音频来修改所述空间属性。

在一些实施例中，所述音频重新映射器可以被布置为向作为音频通道的所述多个音频元素中的音频元素应用非均匀的空间扩展。

根据本发明的任选的特征，所述音频重新映射器被布置为响应于用于呈现所述第二图像的显示器的属性来修改所述空间属性。

在许多实施例中，这可以提供改善的性能和/或改善的用户体验。显示器的属性可以具体地是显示器的尺寸。

根据本发明的任选的特征，所述音频重新映射器被布置为响应于观看者相对于用于呈现第二图像的显示器的位置来修改空间属性。

在许多实施例中，这可以提供改善的性能和/或改善的用户体验。观看者位置可以是名义上的或假定的观看者位置，或者例如可以是所测量和识别的观看者位置。

根据本发明的一个方面，提供了一种处理针对场景的视听数据的方法，所述方法包括：接收针对所述场景的视听数据，所述视听数据包括：针对所述场景的音频数据，所述音频数据包括多个音频元素；以及针对所述场景的至少第一图像的图像数据，所述第一图像具有第一宽高比；执行所述第一图像到具有第二宽高比的第二图像的内容依赖的非均匀映射，所述第二宽高比与所述第一宽高比不同，并且所述内容依赖的非均匀映射包括生成描述所述内容依赖的非均匀映射的映射数据；并且响应于所述映射数据，用通过修改针对所述多个音频元素中的第一音频元素的空间属性而生成的第二音频元素来替换所述第一音频元素。

参考下文描述的(一个或多个)实施例，本发明的这些和其他方面、特征和优势将变得显而易见并将得以阐述。

附图说明

仅以范例的方式参考附图描述本发明的实施例，其中，

图1图示了用于提供虚拟现实体验的客户端服务器布置的示例；

图2图示了根据本发明一些实施例的音频装置的元件的示例；

图3图示了根据本发明一些实施例的音频装置的呈现的示例；并且

图4图示了根据本发明一些实施例的音频装置的呈现的示例。

具体实施方式

以下描述集中于适用于虚拟现实系统的本发明的实施例。然而，将理解，本发明不限于该应用，而是可以应用于用于分布、处理和/或呈现视听数据的许多其他系统。

本说明将进一步集中在由网络支持的客户端服务器方法的上下文中的视听数据的处理和处理，所述网络具体可以是诸如因特网的公共网络。然而，将再次意识到，这仅是所描述的原理和方法的示例性应用，并且这些可以在许多其他系统和应用中使用。包括例如其中以直接传输到处理/呈现设备的专用数据流的形式提供视听数据的系统，或呈现设备本身检索或生成视听数据的实施例。

允许用户在虚拟或增强世界中四处移动的虚拟(包括增强)体验正变得越来越流行，并且正在开发满足这些需求的服务。在许多这样的方法中，可以动态地生成视觉和音频数据以反映用户(或观看者)的当前姿态。

在本领域中，术语放置和姿态用作针对位置和/或方向/取向的通用术语。例如对象、相机、头部或视图的位置和方向/取向的组合可以被称为姿态或放置。因此，放置或姿态指示可包括六个值/分量/自由度，其中每个值/分量通常描述相应对象的位置/定位或取向/方向的单独属性。当然，在许多情况下，放置或姿态可由较少的分量表示，例如，如果一个或多个分量被认为是固定的或不相关的(例如，如果所有对象都被认为处于相同的高度并具有水平方向，则四个分量可以提供对象姿态的完整表示)。在下文中，术语“姿态”用于表示可以由一到六个值(对应于最大可能的自由度)表示的位置和/或取向。

通常，虚拟现实应用以针对左眼和右眼的单独视图图像的形式生成三维输出。然后可以通过合适的方式将这些呈现给用户，例如通常是VR头戴套件的左右眼显示器。在其他实施例中，可以例如在自动立体显示器上呈现一个或多个视图图像，或者实际上在一些实施例中，可以仅生成单幅二维图像(例如，使用常规的二维显示器)。

类似地，对于给定的观看者/用户/收听者姿态，可以提供场景的音频表示。通常呈现音频场景以提供空间体验，在该空间体验中，音频源被感知为源自期望的位置。由于音频源在场景中可能是静态的，因此用户姿态的变化将导致音频源相对于用户姿态的相对位置发生变化。因此，音频源的空间感知应该改变以反映相对于用户的新位置。音频呈现可以相应地取决于用户姿态而被适配。

在许多实施例中，音频呈现是使用头部相关传递函数(HRTF)或双耳房间脉冲响应(BRIR)(或类似)的双耳呈现，以为戴着耳机的用户提供期望的空间效果。然而，将意识到，在一些系统中，可以代替地使用扬声器系统来呈现音频，并且针对每个发言者的信号可以被呈现为使得在用户处的总体效果对应于期望的空间体验。

观看者或用户姿态输入可以在不同应用中以不同方式确定。在许多实施例中，可以直接跟踪用户的身体运动。例如，调查用户区域的相机可以检测并跟踪用户的头部(或者甚至是眼睛)。在许多实施例中，用户可以佩戴可以由外部和/或内部器件跟踪的VR头戴套件。例如，头戴套件可以包括加速度计和陀螺仪，所述加速度计和陀螺仪提供有关头戴套件并且因此头部的移动和旋转的信息。在一些示例中，VR头戴套件可以发送信号或包括(例如视觉)识别符，其使得外部传感器能够确定VR头戴套件的位置。

在一些系统中，观看者姿态可以通过手动方式提供，例如通过用户手动控制操纵杆或类似的手动输入。例如，用户可以通过用一只手控制第一模拟操纵杆来手动在虚拟场景中四处移动虚拟观看者，并通过用另一只手手动移动第二模拟操纵杆来手动控制虚拟观看者的观看方向。

在一些系统中，VR应用可以在远离观看者的地方实现和执行。例如，用户本地的设备可以检测/接收移动/姿态数据(所述移动/姿态数据被发送到处理该数据)以生成观看者姿态的远程设备。然后，远程设备可以基于描述场景的场景数据来针对观看者的姿态生成合适的观看图像。然后将观看图像传输到观看者所在的本地设备。例如，远程设备可以直接生成由本地设备直接呈现的视频流(通常是立体声/3D视频流)。类似地，远程设备可以生成反映虚拟音频环境的音频场景。在许多实施例中，这可以通过生成与虚拟音频环境中的不同音频源的相对位置相对应的音频信号来完成，例如通过对与它们相对于头部姿态的当前位置相对应的各个音频分量进行双耳处理。因此，在这样的示例中，除了发送运动数据以及呈现接收到的视频和音频数据之外，本地设备可以不执行任何VR处理。

在许多系统中，功能可以分布在本地设备和远程设备上。例如，本地设备可以处理接收到的输入和传感器数据以生成观看者姿态，所述观看者姿态被连续地发送到远程VR设备。然后，远程VR设备可以生成相应的视图图像，并将其发送到本地设备以用于呈现。在其他系统中，远程VR设备可能不直接生成视图图像，而是可能选择相关的场景数据并将其传输到本地设备，然后本地设备可以生成呈现的视图图像。例如，远程VR设备可以识别最近的捕获点并提取对应的场景数据(例如，来自捕获点的球面图像和深度数据)，并将其发送到本地设备。然后，本地设备可以处理接收到的场景数据，以生成针对特定当前观看姿态的图像。

类似地，远程VR设备可以通过若干音频元素来成表示音频场景的音频数据，所述音频元素可以是与音频场景中的不同音频源相对应的不同音频分量、音频对象、音频信号、音频通道信号等。对于这些音频元素中的一些或全部，在一些实施例中，视听数据还可以包括指示音频源的位置的位置信息(例如，对于移动的对象可以动态变化)以及潜在的其他空间数据或声学元数据(例如给定音频源的扩展或混响程度)。然后，本地VR设备可以例如通过应用反映音频分量的音频源的相对位置的适当双耳处理来适当地呈现这样的信号。

图1图示了VR系统的这样示例，其中，远程服务器101例如经由诸如因特网的网络105与客户端设备103联络。远程服务器101可以被布置为同时支持潜在大量的客户端设备103。

在许多场景中，这种方法可以提供改进的折衷，例如在复杂性和针对不同设备的资源需求、通信需求等之间。例如，观看者姿态和对应的场景数据可以以较大的间隔被发送，其中本地设备在本地处理观看者姿态和接收的场景数据以提供实时的低延迟体验。例如，这可以显著减少所需的通信带宽，同时提供低延迟体验，并且同时允许场景数据被集中存储、生成和维护。例如，它可能适用于将VR体验提供给多个远程设备的应用。

在一些实施例中，服务器101可以生成连续视听数据流，所述连续视听数据流包括与观看者当前姿态相对应的实时视频流和相关联的实时音频流(如根据从客户端103接收的数据确定)。该实时视听流可以被生成为使得它可以由客户端103直接呈现，并且，具体地在一些实施例中，在客户端103上可以不执行或不需要姿态或视点移位处理或虚拟现实环境处理。这可能适用于许多低处理资源的设备，例如许多移动设备或低资源的头戴套件设备。客户端上所需的处理可以减少到最低。

这样的方法也可能特别适合于其中经历是共享经历的场景，在该场景中，多个人有兴趣对场景具有相同的感知。这样的场景在广播中是典型的，包括例如来自体育赛事的3D广播。该方法不仅限于传统的视听广播，还可以用于视图姿态是动态确定和变化的系统中。共享的体验也可能适用于一些VR体验和服务。

例如，对于电子竞技广播，播放器可以控制虚拟现实环境中的移动，其中，针对特定姿态的所得视听数据也由服务器101分发给大量被动客户端103。在这样的实施例中，各个被动客户端上的用户可以实质上通过玩家的眼睛看到电子竞技事件。

例如，对于玩家正在玩第一人称射击游戏的电子竞技活动，个体玩家正在控制自己的虚拟形象并在发生战斗的场景中四处移动。其他玩家将能够看到该虚拟形象但是玩家本人却看不到自己的虚拟形象(或至少不是全部)而是看到其虚拟形象将经历的场景视图(即，虚拟场景中的某个人将从那个角度来看)。电子竞最近已成为一项非常受欢迎的运动，具有大型活动，吸引了成千上万的观众，他们可以在玩游戏的地方在大型显示器上直接观看比赛。这些显示例如可以呈现场景的概览，其中具有各个玩家的位置的指示以及各个玩家的视图

此外，此类电子竞技活动通常也可以流传输给不在场馆的观众，并且通常可以流传输给大量观众，其在某些情况下可能是成千上万甚至上百万的实时观看的观众。在这种情况下，取决于多个玩家中的玩家的输入和控制来针对该玩家生成的视图可能导致视图图像(视频序列)不仅被呈现给玩家，而且被实时流传输到非常大量的处于不同位置和环境中并且使用不同装备观看的观看者。

向多个客户端(尤其是向大量客户端)提供内容的一个问题是客户端的属性(尤其是呈现方式)对于不同的设备可能有很大的不同，并且在服务器上可能是未知的。因此，在许多方法中，服务器101将为给定的标称设备或标准化设备生成视听数据流。具体地，可以针对给定的标称设备呈现显示生成数据流。这些考虑因素可能包括分辨率、色深、宽高比、尺寸等。如果本地呈现器件与假定的特征不匹配，则可以在设备103处本地执行调整。

特别是，调整宽高比以匹配各个客户端使用的特定显示可能会对用户体验产生显著影响，因为它非常直接影响视觉呈现。例如，使用错误的宽高比可能导致图像周围出现黑条，而许多低复杂度的宽高比调整导致显著的几何失真。

图2图示了客户端设备103的示例，所述客户端设备被布置为调整接收到的视听数据流以匹配将呈现视觉数据的显示器的特定宽高比。

客户端设备103包括接收器201，所述接收器201被布置为接收场景的视听数据，其中，所述视听数据包括描述场景的视觉和音频方面的数据。视听数据具体地包括针对场景的至少第一图像的图像数据，并且具体地，在所描述的实施例中，视听数据包括以视频序列中的形式的提供图像的视频流。第一图像具有给定的宽高比(即，图像的宽度和高度之间的给定比率)。在许多实施例中，可以提供3D视频流，所述3D视频流包括针对左眼图像和右眼图像两者的帧，所述帧与场景的特定视图姿态相对应。

另外，视听数据包括针对场景的音频数据，其中，音频数据描述了针对场景的多个音频元素。例如，音频数据包括多个音频通道、音频对象、音频通道、高阶环境立体声等形式的不同音频元素。在一些实施例中，音频数据的音频元素可以全部是相同类型，但是在许多实施例中，音频场景可以通过包括针对不同音频源的不同类型的音频元素的音频数据来表示音频场景。

因此，在许多实施例中，接收到的音频数据通过多个不同的音频元素来描述与由视频数据可视地表示的场景相对应的音频场景，所述多个不同的音频元素可以是不同类型的音频元素。

例如，一些音频元素可以对应于单个音频源，所述单个音频源在场景中具有特定且定义良好的空间位置(即，可能在虚拟场景中的虚拟空间位置)。这样的音频源可以例如由具有相关联的位置数据的特定和个体的音频对象来表示。例如，可以为乐团中的每个乐器和/或给定场景中的每个人提供音频对象。其他音频元素可能对应于不同音频源的组合，并且这些音频元素通常可能具有较不良好地定义的空间位置。例如，可以提供背景音频环境信号，其表示场景中的一般背景或环境声音。这样的音频信号可能比直接表示单个音频源的音频对象更加弥散和展开。

接收器201被耦合到图像重新映射器203，图像重新映射器203被馈送以图像数据，即，它接收针对至少一幅图像但是通常针对视频序列的大量帧的图像数据。图像重新映射器203被布置为执行第一图像到第二图像的内容依赖的非均匀映射，所述第二图像具有与原始宽高比不同的宽高比(第二宽高比)。例如，接收到的视听数据可以包括给定宽高比的图片或帧，例如公用的16：9宽高比。然而，图2的设备可以被布置为驱动具有不同宽高比的显示器。例如，显示器可能是4：3宽高比，为21：9宽高比或18：9宽高比(通常针对VR头戴套件)。

图像重新映射器203被布置为生成具有不同宽高比的修改图像。例如，可以修改在接收到的视听数据中接收到的第一图像，以提供具有不同宽高比的第二图像。宽高比转换不仅是从输入的宽高比到显示比例的标准的标准预定拉伸/压缩图像，而且是从一个宽高比到另一宽高比的不均匀且内容依赖的映射。在映射中，图像的某些部分根据与其他部分不同的功能进行拉伸/重新定位。图像重新映射器203不仅应用预定映射，而且根据图像中的内容来调整所应用的映射。

例如，在许多实施例中，图像重新映射器203可以被布置为将图像划分成多个段，并且可以将不同的映射应用于图像的至少两个不同的段。例如，图像重新映射器203可以将段划分为若干类别或类型，并且可以将特定的重新映射算法应用于每种类型的段。然后可以例如通过为在重新映射之后是重叠的段的区域选择前景区域并且填充从映射产生的孔(例如，从背景段)而将得到的重新映射的段组合到第二图像中。

作为特定的低复杂度示例，图像重新映射器203可以对接收到的图像进行分割。分割可以基于图像内容(例如，颜色，亮度等)以及可能基于与接收到的图像相关联的深度图，这对于本领域技术人员将是众所周知的。基于分割，可以将段划分成包括分别对应于显著对象(例如，前景对象，与人相对应的对象，检测到的面部等)和不显著对象(包括例如背景)的段的组。中间图像可以由所有非突出对象/段形成，并且可以将预定宽高比映射(例如，预定拉伸)应用于该图像。例如，可以应用简单的预定均匀拉伸或预定变形拉伸以生成具有与显示器相对应的宽高比的第二中间图像。然后可以填充图像中的孔，例如，如本领域中已知的那样，通过使用来自相邻区域的外推法进行填充，或者通过拉伸之间的背景图像来填充图像中的孔。

可以确定用于显著物体的新位置，并且与用于非显著图像的预定映射相比，通常将其确定为与原始图像相比具有较小的失真。例如，可以将所有显著对象/图像确定为具有彼此相对不变的位置，即，可以将显著对象之间的距离保持不变。绝对位置可以例如被确定为与图像的中心具有相同的偏移。最终，可以将显著对象叠加在第二中间图像上，以生成与原始图像相对应但具有期望的宽高比(例如通常要在其上呈现图像/视频的显示器的宽高比)的输出图像。

这样的示例可以例如导致显著的对象相对于彼此和图像的中心保持在相同的位置，但是背景被拉伸以匹配新的宽高比。例如，对于站在海滩上的人，生成的图像可能使两个人站在显示的图像中的相同位置且彼此具有相同的接近度，但背景海滩和海洋被拉伸以使其充满整幅图像。

应当理解，这仅是低复杂度的示例，并且可以代之以使用许多不同的并且通常更复杂的算法。例如，可以在2017年7月于意大利都灵的第119次MPEG会议的输出文件“Usecases and draft requirements for Network Based Media Processing(v1)”中找到示例。

图像重新映射器203被耦合到视频呈现器205，视频呈现器205从图像重新映射器203接收重新映射的图像/帧，并为显示图像/帧的显示器(未示出)生成合适的驱动信号。将领会，视频呈现器的确切功能取决于特定显示器的属性/特性以及特定图像属性。例如，视频呈现器205可以被布置为根据特定的视频/显示驱动器标准来生成输出信号。

例如，在一些实施例中，图像重新映射器203可以对未编码的数据进行操作，即，图像可以由未编码的像素值(例如，直接RGB像素值)表示，并且图像重新映射器203的输出可以相应地为未编码的像素值。所述装置可以被布置为使用包括视频压缩(例如，VESA显示流压缩)的显示标准来驱动监视器，并且所述视频呈现器可以被布置为根据特定标准来压缩来自图像重新映射器203的数据以生成压缩视频流。

作为另一示例，如果设备正在驱动专用且专有的VR头戴套件并且由图像重新映射器203提供的图像被编码，则视频呈现器205可以解码视频图像以呈现例如每个像素的RGB值，并且这些可以被转换为适合VR头戴套件显示屏每个像素的驱动信号。然后可以将驱动信号馈送到外部显示面板驱动器，以直接驱动头戴套件的(一个或多个)显示器。

作为另一个示例，视频呈现器205可以被布置为通过添加和构造来自图像重新映射器203的图像数据来生成适合于显示的数据流。例如，为了使用例如HDMI或DisplayPort接口与显示器通信，视频呈现器205可以添加时钟、纠错、控制数据等以生成与特定标准匹配的比特流。

视频呈现器205因此可以在来自图像重新映射器203的图像的图像数据与后续显示所需的信号/数据流之间执行所需的转换、处理和平移。

图2的装置可以相应地针对所使用的特定显示器调整接收到的视觉数据，并提供改善的图像和视觉体验。但是，发明人还意识到，这种基于内容的灵活的宽高比映射的问题在于，它可能降低用户体验的音频方面。发明人已经认识到，图像重新映射可能导致音频的不精确或人造的音频增加的感知体验，并且整体体验可能被认为是较不自然的。为了解决例如这样的问题，图2的装置被配置为包括用于在呈现之前修改音频侧的功能。

所述装置包括音频重新映射器207，所述音频重新映射器207从接收器201接收音频数据。音频重新映射器207因此接收描述音频场景的多个音频元素的音频数据。音频重新映射器207被布置为修改接收到的音频元素中的一个或多个的空间属性。具体地，所述音频重新映射器207可以用第二音频元素来替换音频场景/音频数据中的第一音频元素，所述第二音频元素具有修改的空间属性，例如不同的位置或不同的扩展/位置。

音频重新映射器207被耦合到音频呈现器209，所述音频呈现器209接收包括修改后的音频元素的音频数据(即，接收第二音频元素而不是第一音频元素，因为其已经被替换)。音频呈现器209被布置为使用任何合适的呈现方法来呈现接收到的音频数据。音频呈现器209可以生成用于例如使用扬声器或例如使用头戴式耳机的空间音频呈现的音频信号(双耳呈现)。

应当理解，本领域技术人员将知道用于使用扬声器，特别是在环绕声系统中呈现空间音频的许多算法和方法，并且可以使用任何合适的方法而不会减损本发明。

例如，音频呈现器209可以为具有中央扬声器、左前扬声器、右前扬声器、左环绕扬声器和右环绕扬声器的环绕声配置的五个扬声器生成音频信号。音频呈现器209可以生成包括针对每个扬声器的音频信号的一组音频信号。然后可以将信号放大以生成针对个体扬声器的驱动信号。

在一些实施例中，使用扬声器正在呈现的音频元素可以被接收为例如立体声降混，并且音频呈现器209可以执行上混以生成在某些情况下可以直接呈现的环绕信号。例如，这种方法对于表示与用户姿态不直接相关的漫射声音的音频元素可能是有用的。例如，可以将表示通用的弥散环境音频的音频元素提供为立体声降混，其可以直接上混以提供适当的环绕声音频通道。每个产生的上混信号可以与从其他音频元素生成的用于相应扬声器的信号组合，以生成输出信号的集合。

经由扬声器设置呈现的一些音频元素可以例如以音频对象的形式被提供。这样的音频对象可以由描述特定音频的音频数据和描述音频源的位置的关联位置数据来表示。基于位置数据和扬声器的位置(环绕声扬声器设置的实际位置或标称位置)，音频呈现器209可以确定将音频信号映射到不同环绕声通道的矩阵或矢量的系数。

在许多实施例中，由音频呈现器209进行的音频呈现是双耳呈现过程，其使用合适的双耳传递函数来为戴着头戴套件的用户提供期望的空间效果。例如，音频呈现器209可以被布置为使用双耳处理来生成要被感知为从特定位置到达的音频分量。

已知双耳处理用于通过使用针对听众耳朵的单独信号对声源进行虚拟定位来提供空间体验。通过适当的双耳呈现处理，可以计算在鼓膜处所需的信号，以使听众从任何期望的方向感知声音，并且可以对信号进行呈现，使得它们提供期望的效果。然后使用头戴式耳机或串扰消除方法(适用于在间隔很小的扬声器上呈现)在耳膜处重新创建这些信号。双耳呈现可以被认为是一种为听众的耳朵生成信号的方法，从而诱使人类的听觉系统认为声音来自期望的位置。

双耳呈现基于双耳传递函数，由于头部、耳朵和反射性表面(如肩膀)的声学属性，双耳传递函数因人而异。例如，双耳滤波器可用于创建双耳录音，以模拟不同位置的多个信号源。这可以通过将每个声源信号与对应于声源位置的一对例如头部相关的脉冲响应(HRIR)进行卷积来实现。

确定双耳传递函数的一种众所周知的方法是双耳记录。它是一种使用专用麦克风装置录制声音的方法，旨在用于使用头戴式耳机重放。可以通过将麦克风放在对象的耳道中或使用带有内置麦克风的虚拟头(包括耳廓(外耳)的胸像)来进行录音。这种包括耳廓的假人头的使用提供了如同在录音期间有听录音的非常相似的空间印象。

通过测量(例如)从2D或3D空间中特定位置的声源对放置在人耳中或附近的麦克风的响应，可以确定适当的双耳滤波器。基于这样的测量，可以生成将声学传递函数反映到用户的耳朵的双耳滤波器。双耳滤波器可用于创建双耳录音，以模拟不同位置的多个信号源。例如，这可以通过将每个声源与一对测量的脉冲响应进行卷积以实现声源的所需位置来实现。为了产生使声源在听众周围移动的错觉，通常需要大量具有适当空间分辨率(例如10度)的双耳滤波器。

头部相关的双耳传递函数可以表示为例如头部相关的脉冲响应(HRIR)，或等效地表示为头部相关的传递函数(HRTF)，或双耳房间脉冲响应(BRIR)，或双耳房间传递函数(BRTF)。从给定位置到收听者的耳朵(或鼓膜)的(例如，估计或假定的)传递函数可以例如在频域中给出，在这种情况下，它通常被称为HRTF或BRTF，或者在时域中给出，在这种情况下，通常将其称为HRIR或BRIR。在一些情况下，确定与头部相关的双耳传递函数以包括声学环境的各个方面或属性，尤其是在其中进行测量的房间的各个方面或属性，而在其他示例中，仅考虑用户特性。第一类功能的示例是BRIR和BRTF。

音频呈现器209可以相应地包括具有双耳传递函数的存储，所述双耳传递函数通常用于大量的不同位置，其中每个双耳传递函数提供有关应如何处理/过滤音频信号以便被感知为源自该位置的信息。将双耳处理分别应用于多个音频信号/源并将其组合可用于生成音频场景，其中多个音频源位于声场中的适当位置。

音频呈现器209可以针对将被感知为源自相对于用户头部的给定位置的给定音频元素，选择并检索最接近地匹配期望位置的所存储的双耳传递函数(或者在某些情况下可以通过在多个邻近的双耳传递函数之间进行插值成该双耳传递函数)。然后，它可以将所选的双耳传递函数应用于音频元素的音频信号，从而生成针对左耳的音频信号和针对右耳的音频信号。

所生成的左右耳信号形式的输出立体声信号然后适合于头戴式耳机呈现，并且可以被放大以产生驱动信号，所述驱动信号被馈送到用户的头戴套件。然后，用户将感知到音频元素源自期望的位置。

在图2的装置中，图像重新映射器203被布置为生成映射数据，所述映射数据描述已经由图像重新映射器203执行以改变宽高比的图像重新映射的至少一部分。例如，图像重新映射器203可以提供指示第二图像中特定图像对象的修改的位置或新的位置的信息，和/或可以例如包括指示已经用于背景图像或用于图像的特定段的映射的数据。

映射数据可以是描述由内容依赖的非均匀映射执行的描述从第一图像到第二图像的映射的属性的任何数据。映射数据可以具体包括描述针对至少一些位置的第一图像中的位置与针对第二图像中的位置之间的关系的数据。映射数据可以例如描述如何通过内容相关的非均匀映射将第一图像中的图像位置映射到第二图像中的图像位置。所述位置可以是二维位置，并且可以是绝对位置和/或相对位置，通常相对于对应的第一图像或第二图像的坐标系。

从图像重新映射器203向音频重新映射器207提供映射数据，并且音频重新映射器207被布置为取决于/响应于/根据/基于(映射数据并且因此基于取决于图像宽高比内容的不均匀映射)来修改(一个或多个)音频元素的空间属性。例如，可以将位置映射应用于第一音频元素以生成第二音频元素，并且可以基于接收到的映射数据来调整位置映射。

例如，映射数据可以描述第一图像和第二图像中的位置之间的关系，并且音频重新映射器207可以被布置为基于如映像数据所描述的第一图像与第二图像之间的位置变化来修改音频元素的位置。

作为特定示例，如果映射数据指示与场景中的给定对象相对应的图像对象的位置被移动到图像中的不同位置，则音频重新映射器207可以被布置为修改表示由该对象产生的声音的音频元素的空间位置，使得其与新的位置匹配。例如，在一些实施例中，音频元素可以包括相关联的位置元数据，所述位置元数据被音频呈现器209用来呈现音频元素，使得其被感知为源自所确定的位置。在这样的实施例中，所述音频重新映射器207可以在位置元数据被馈送到音频呈现器209之前直接改变位置元数据。具体地，所述音频重新映射器207可以检索音频元素的位置，然后将其偏移以与改变后的宽高比中的对应图像对象的偏移量相对应的量。然后可以将修改后的位置馈送到音频呈现器209，并在呈现音频元素时使用修改后的位置。因此，音频元素将被呈现为表现为源自修改后的位置。这样的方法通常可能特别适合于经常被提供以明确位置数据的音频对象。

在其他实施例中，确切位置可能是未知的，但是可以从接收到的音频数据中导出。例如，如果音频元素由五个环绕声通道(或其下混音)表示，则每个音频通道中的相对信号水平和时序将指示相应音频源的空间位置。然后可以估计、修改该位置，并且可以补偿音频通道信号以反映新的位置。在许多实施例中，可以通过处理音频信号来直接执行空间位置的修改，而无需从任何原始位置的明确推导。例如，如果接收到链接到由映射数据指示已经向左偏移例如10°的图像对象的环绕声道音频元素，则音频重新映射器207可以将矩阵运算应用于音频通道信号，其以正确的方向旋转这些10°。

实际上，在以基于通道的格式定义音频内容的情况下，视听场景中音频源的空间分布通常是由通道之间的相对水平和时间关系隐含地定义的，例如，由于基于通道的音频元素的生成中使用的平移算法。另外，来自多个声源的声音可能会在通道中混合在一起，因此各个声源的信号可能不会像音频对象那样容易地单独获得。

在基于声道的情况下，音频元素的重新映射可以例如使用空间加宽算法来实现，其中存在各种各样的空间加宽算法。但是，与通常使用这种空间扩展算法(即沿空间维度均匀地拉伸或压缩空间音频场景)相反，可以以对应于视频图像的非均匀重新映射的非均匀方式应用空间变宽算法。

可以在时频瓦片中计算通道之间的通道水平差，并且将其用于将这种时频瓦片与映射数据中表示的视觉对象或图像段进行匹配。此外，时频瓦片中的相位差及其随时间变化的稳定性可能指示时频瓦片表示孤立的点源(随时间没有相位差或稳定的相位差)还是弥散的声音或各种点源的混合(通常随时间不为非零、不稳定的相位差)。

通道水平差和相位差可以指导音频元素的调整。例如，通过匹配相对于图像尺寸的通道位置，各个通道对之间的时频瓦片的通道水平差可以确定与第一图像的片段的对应关系。这可能是已知的、测量的或假定的。具体地，例如，左通道可以对应于左图像边界，右通道可以对应于右图像边界，而中心通道可以对应于图像的中间。对于第一图像和第二图像，所述对应关系可以不同。

在此示例中，左通道与中间通道之间的声道水平差(

其中P_L和P_C分别是左通道和中央通道的信号功率)可能对应于图像左半部分的位置。例如，-60的CLD_LC对应于图像的中间，并且60的CLD_LC对应于左边界。介于两者之间的CLD_LC值可以线性或非线性内插。利用额外的高度通道，可以得出相对于图像的二维位置。

如此估计的每个时频瓦片的位置可以与图像中的对象或片段以及由图像重新映射器提供的对应映射数据相匹配。音频的调整可以遵循例如对象或片段的位置改变的相同映射。例如，

其中，

和

分别表示第一音频元素和第二音频元素的时频瓦片的通道床向量，M是修改矩阵，其修改通道的时频瓦片中的信号功率，以实现第二音频元素的期望CLD值。

在示例中，CLD_LC1对应于图像中的位置

根据映射数据将其移动到图像中的位置

其对应于CLD_LC2，根据上面使用的插值方案，修改P_L2＝α_L·P_L1和P_C2＝α_C·P_C1可以根据总功率保持相等的要求导出：P_L1+P_C1＝P_L2+P_C2。

如果这是对此时频瓦片的唯一调整，则5个通道(L，R，C，Ls，Rs)的调整矩阵M可以为：

如果有更多的调整，则可以将各个调整矩阵相乘，例如：M＝M_LCM_RCM_LLsM_RRs

在所描述的系统中，内容依赖的非均匀映射固有地是动态映射，因为它是内容依赖的，并且因此将取决于图像的内容而变化。该映射不是固定的或预定的映射，而是应用于第一图像以生成第二图像的映射取决于第一图像，并且因此通常事先未知。在特定情况下并针对此特定图像应用的实际映射可以如此描述，并且在该方法中，图像重新映射器203生成映射数据，所述映射数据描述了被应用于第一图像的特定于内容的非均匀映射。数据因此可以描述应用于该图像的特定映射，从而允许音频重新映射器207执行与图像重新映射匹配的音频重新映射。因此，描述图像映射的映射数据允许动态地重新映射音频并适应特定的图像宽高比。

应当理解，映射数据可以通过多种方式来描述内容相关的非均匀映射并且所使用的特定方法将取决于个体实施和应用的偏好和要求。例如，映射数据可以描述第一图像中的图像/像素位置如何被映射到第二图像中的图像/像素位置。映射数据可以例如被给出为两幅图像中的绝对位置或相对图像。

当音频重新映射器207接收到该映射数据时，它可以相应地重新映射音频元素。例如，对于与在没有太大变化的位置处的图像对象相对应的音频源，所述音频重新映射器207可以进行到不对相应音频元素进行任何空间改变。但是，如果映射数据替代地描述了针对该特定图像，与音频源相对应的图像位置已经发生了巨大变化，则音频重新映射器207可以进行到对相应音频元素的位置进行相应的改变。例如，如果内容依赖的非均匀映射已经将对应位置从第二图像的中间位置朝着右边缘进一步偏移开，则音频重新映射器207可以将对应的音频元素的位置改变为更靠近右侧。

因此，除了对图像执行内容依赖的非均匀映射之外，图像重新映射器203还生成映射数据，所述映射数据描述应用于所述图像的特定映射。该映射数据被馈送到音频重新映射器207，所述音频重新映射器207可以基于由映射提供的描述来修改音频元素的空间属性，即，可以对空间属性的修改进行调整以适合特定的内容依赖的非均匀映射，所述内容依赖的非均匀映射被执行以提供第一图像和第二图像之间的宽高比变化。当然，确切的映射数据(例如，所描述的内容以及如何进行描述)和空间属性的特定适应性是应用程序和实现方式特定的，并且将取决于特定实施例中所需的结果和属性。

在一些实施例中，可以通过相应的时频片或频带中的相应的相位差和/或相位差的变化来进一步控制调整的量。例如，当相应的相位差为零时，将完成完全调整，并且随着相位差的增加，调整会降低。

作为应用空间展宽算法的替代或补充，可以使用源分离算法(也存在各种各样的源分离算法)来从基于通道的内容中提取个体源以及方向信息。然后可以以与以上针对音频对象所描述的方式相似的方式来重新映射这些提取的个体源及其对应的方向信息。

因此，在许多实施例中，所述音频重新映射器207可以被布置为将第一音频元素的空间位置从与第一图像中的图像位置相对应的位置改变为第二图像中的图像位置。

在许多实施例中，接收到的数据可以包括将音频元素与图像对象链接的元数据。音频重新映射器207可以使用此链接信息来确定应该应用于个体音频元素的映射。在其他实施例中，可以不提供显示的链接数据，并且所述装置可以被布置为分析接收到的视听数据以链接音频元素和图像对象。例如，在识别出显著对象之后，所述音频重新映射器207可以针对给定的图像对象分析音频元素以确定与该图像对象期望的属性相匹配的音频元素。具体地，可以选择在第一图像中具有最接近显著对象的指示位置的音频元素。在一些实施例中，可以进一步考虑图像对象和音频元素的属性。例如，如果图像对象被识别为与面部相对应(例如，图像对象可能已经通过面部检测来确定)，则可以选择音频元素作为具有指示语音的属性的音频元素。

在图2的装置中，音频/视频宽高比的改变与相关联的空间音频内容的空间属性的改变相关联。音频内容可以被修改以便维持整体体验的改善的质量。已经发现，音频内容的宽高比链接修改提供了显著改善的用户体验，尤其是对于沉浸式媒体内容(例如VR和360度电影内容)。

最直接的方法是根据原始宽高比与修改后的宽高比之间的关系来对音频元素的空间位置进行线性重新映射。然而，在图2的装置中，使用了更高级的方法，其中，内容依赖的宽高比重新映射在视觉侧执行，并且借助此动态映射进一步控制音频侧重新映射。这可以提供改善的效果，并且尤其可以提供更一致的用户体验。

因此，所述方法可以将音频元素的重新映射直接链接到视频图像的非线性重新映射。例如，如果将视频图像中给定像素或视觉对象的水平和垂直位置x和y重新映射到位置ax和by，则也可以将对应于位置(x，y)的音频重新映射到修改后的位置(ax，by)。

在该方法中，视听内容项的音频元素的空间重新映射可以取决于非均匀内容依赖的视频/图像重新映射操作来执行，所述非均匀内容依赖的视频/图像重新映射操作被执行以使视频图像的宽高比适应显示器的宽高比。

在许多实施例中，所述音频重新映射器207可以额外地或替代地被布置为响应于映射数据来修改第一音频元素的空间扩展属性。空间扩展属性可以反映音频元素的局域化程度，并且因此反映所呈现的音频元素被认为源自单个点的程度。扩展通常可以通过尺寸参数或一个或多个半径来指示，所述参数指示对象的物理或声学感知的尺寸或范围。替代地，它可以是用户正在接收或感知到的入射声波的沉浸比或角度范围。作为另一个示例，它可以是将对象弥散性指示为一值，例如，介于0和1之间的值，呈现器将其转换为纯点源呈现与完全沉浸式弥散呈现之间的呈现。通常，这意味着呈现到多个位置或多个扬声器。较大的扩展将要求各个呈现位置之间的相关性较低，以避免伪影并提高自然度。

音频重新映射器207因此可以被布置为改变给定音频元素的感知宽度或扩散。

例如，给定音频元素的扩展可以通过在多个位置呈现对象来实现。例如，通过将目标信号与多个HRTF进行卷积以进行双耳处理。可以将增益应用于各个位置的呈现以在空间上改变能量分布。不同的实现方式可以通过增益在呈现位置范围(呈现位置之间的最大距离)与空间能量分布局域化之间做出不同的权衡。这种方法通常适用于较小的扩展值，并且可以在彼此相对靠近的多个位置(例如，从收听者处看到的30度角内)进行呈现。

通常针对高质量呈现和大扩展值的其他实施例可以生成对象的多个相互解相关(或部分去相关)的版本，并将这些版本呈现到取决于扩展数据的一系列位置。

替代地，这可以通过将空间扩展算法应用于音频元素的音频通道来实现。对于音频对象，例如可以生成去相关信号，并且可以将去相关信号和原始信号的组合来生成输出信号(例如，双耳信号)。

基于从图像重新映射器203提供的映射数据来调整用于修改音频元素的扩展的算法。例如，如果相应的视觉对象或图像的片段被拉伸或压缩，则音频元素的扩展也可以分别增加或减少。对于场景的非突出背景特征，通常会发生这种情况。

作为低复杂度的示例，如图3和图4中所示，所述装置可以通过从四个不同的位置进行呈现来将音频对象呈现为具有中间扩展，并且可以通过从更加展开的四个不同的位置进行呈现并且添加不同位置之间的去相关性来将音频对象呈现为具有较大的扩展的分散。第二示例中的音频对象将被感知为比第一示例中的具有更大的扩展。

在许多实施例中，音频元素的空间修改还可以取决于音频元素的声学/音频属性，例如，可以评估音频属性以确定空间属性是否应该改变以及如何进行改变。因此，在许多实施例中，音频元素的空间修改可以取决于由音频元素表示的音频的属性。

特别地，在许多实施例中，由音频重新映射器207执行的给定音频元素的空间修改可以取决于音频元素的空间扩展程度。因此，空间修改可以取决于音频元素的局域化程度或空间扩展。例如，这可以由音频元素的扩散程度来表示或估计。由音频呈现器209呈现的音频越弥散，与该音频元素相对应的音频源将被感知到更少地位于一个特定位置，并且更多地被感知到分布在更大区域上。

在一些实施例中，所述音频重新映射器207可以被布置为对音频元素的更高程度的空间扩展施加例如增加的位置变化。例如，具有高扩展程度的音频元素可以在改变宽高比之后更远地移动到侧方，以便提供可以匹配更大视角的更宽空间印象。例如，更宽的显示器可以受益于生成的音频，所述音频进一步延伸到侧方，并且更多的音频源放置在听众的侧方而不是前面。但是，如果声场的这种增加的宽度是通过与特定的、狭窄的和定义明确的位置不关联的音频源，而不是与未直接链接到音频场景中的音频中的特定位置的音频源实现的，则可以维持音频与视频之间更高的一致性。

在许多实施例中，所述音频重新映射器207被布置为响应于音频元素的空间扩展的增加程度而减小音频元素的位置的变化水平。例如，这可能特别适用于直接链接到由图像重新映射器203移动的图像对象的音频元素。例如，可以移动特定的、定义良好的和局域化的音频对象，以直接对应于新位置。然而，如果图像对象链接到在更大的域上更弥散和扩展的音频元素，则音频重新映射器207可以减小位置变化。例如，可以确定新位置在原始位置和修改位置之间的某处。在许多情况下，这可以提供改善的感知，因为它可以在原始声场和修改后的声场之间提供改善的折衷。例如，这可以反映出在特定图像对象和链接到该图像对象的声音之间存在减少的感知链接，从而增加了音频的扩展。

实际上，在许多实施例中，所述音频重新映射器207可以被布置为取决于空间扩展的程度来选择是否将所述修改应用于所述空间属性。例如，对于具有低于给定阈值的扩展的量度的音频元素，可以认为与特定场景对象足够紧密地链接，使得当与场景对象相对应的图像对象被图像重新映射器203移动时，音频元素被相应地移动，以保持图像对象与音频对象之间(即视觉和音频体验之间)的紧密对应。但是，对于扩展度量高于阈值的音频元素，所述音频重新映射器207不引入位置修改。这可能导致音频元素被呈现为被感知为来自图像对象的原始位置，而不是来自图像对象的新位置，但是由于位置感知将弥散且不精确，因此视觉和音频端之间的任何不一致都可以忽略不计，并且可能在其将可能在音频元素之间(例如，特别是在环境音频源之间)提供改进的一致性的可能性上被忽略。因此，它可以提供所呈现的音频级的改进的一致性。

在一些实施例中，所述音频重新映射器207可以被布置为响应于第一音频元素是否被指定为背景音频而修改空间属性。例如，音频元素可以被分为与前景对象和背景对象相对应的两个类别，并且这两个类别的音频元素可以被不同地处理。作为低复杂度的示例，可以将被分类为前景对象的所有音频元素重新定位以直接匹配对应图像元素的重新定位，而没有位置改变可以应用于被分类为背景元素的音频元素。在许多情况下，这可以提供改善的感知体验。

因此，可以在“前景”与“背景”音频元素之间进行区分。可以将“前景”音频元素确定为不同的局域化音频元素，而可以将“背景”音频元素确定为非局域化音频元素，例如“环境”声音或背景音乐。例如，在基于对象的音频用例中，可以在高度局域化(点)源(可以认为与“前景”元素相对应)和非局域化(即弥散)对象(可以认为与“背景”元素相对应)之间进行区分。

在其他实施例中，分类为“前景”或“背景”音频元素可以基于接收到的比特流中的显式指示，例如可以为每个音频元素提供指示这是前景还是背景音频对象的元数据。实际上，许多标准化音频格式已经提供了用于发信号通知音频对象是点声源或弥散声源的元数据元素，这些元数据元素可以用作音频对象是前景音频对象还是背景音频对象的指示。

如所提及的，所述音频重新映射器207可以简单地认为仅前景音频元素应该经受可能的位置重新映射，而背景声音/音频元素的空间分布可以保持不变。将理解的是，在其他实施例中，可以使用其他调整，例如可以将加宽效果或增加的弥散添加到背景音频元素，而不添加到前景音频元素。

在一些实施例中，所述音频重新映射器207可以被布置为响应于所述第一音频元素的音频类型来修改所述空间属性。可以将音频类型具体地确定为来自至少包括音频对象、音频通道和高阶环境立体声音频元素的组的类型。

例如，音频对象通常用于表示单独的和特定的音频源，而音频通道和环境立体声用于表示更多的环境音频，包括多个(通常是许多)不同的音频源。因此，例如在一些实施例中，音频对象可以经受与宽高比变化相对应的位置变化，而音频通道和/或环境立体声元素可以保持不变。

作为另一示例，在一些实施例中，所述音频重新映射器207可以被布置为将非均匀的空间扩展应用于作为音频通道的音频元素，而不将空间扩展应用于音频对象。

在音频元素既可以包含音频对象和音频声道两者和/或基于场景的(例如高阶环境立体声)音频元素的混合使用情况下，一方面可以在对象(“前景”)之间进行区分，另一方面，在基于通道/场景的元素(“背景”)之间进行区分。作为对此的改进，对于音频对象，如上所述，可以额外地在点源和弥散源之间进行区分。同样，基于场景的元素(例如高阶环境立体声元素)可以另外分成“主要”和“环境”分量。然后，所述音频重新映射器207可以对这些不同的类别进行不同的处理。

例如，音频对象可以根据其相对于图像的相应第一位置的映射数据进行呈现，而音频通道(例如左前声道和右前声道)的呈现角度要大于或小于其标称位置，具体取决于由宽高比变化产生的平均或最大位置变化。可以使高阶环境立体声(HOA)元素保持不变，或以最小的空间拉伸或压缩来避免伪迹。可以将HOA元素转换为方向分量，以使用HRTF或扬声器呈现算法(例如VBAP)进行呈现。为了根据宽高比变化来拉伸或压缩前级，可以以更宽或更窄的角度呈现前级方向分量信号。如果HOA方向分量具有足够的空间分辨率，则可以更改呈现位置更新以匹配图像的空间重新映射变化。

类似于前级，可以将前级外部的方向分量的呈现位置保持不变，或以减小的更宽或更窄的角度进行呈现，以实现朝着离前级更远的位置的空间渐弱的拉伸/压缩效果。

可以将前级定义为3D空间中用户可见的部分。例如，在2D显示器或HMD上显示的部分。

在一些实施例中，所述音频重新映射器207可以被布置为响应于所述第一音频元素是否链接到所述第一图像中的图像对象来修改所述空间属性或者不进行此。例如，如果数据流包含指示给定音频元素已链接到特定图像对象的元数据(或者甚至只是它在图像中具有对应的图像对象，而没有任何进一步指示该图像是什么)，则音频重新映射器207可以修改音频元素的空间位置，使得其跟随在原始输入图像中具有对应位置的图像段。然而，对于未链接到图像中的对象的音频元素，所述音频重新映射器207可以前进到不修改任何位置而是可能增加空间扩展/弥散。这可能是有益的，因为增加的扩展使对象的局域化弥散，并且因此减少与由图像重新映射器修改的潜在视觉对应项不匹配的可能性。

在一些实施例中，所述音频重新映射器207的修改可以基于比特流中的明确指示，所述明确指示是特定音频元素(例如，音频对象)被链接到视觉图像中的特定视觉元素(例如，视觉对象)。以这种方式，可以识别应该根据链接的视觉对象的可能的重新映射而修改的音频元素。因此，在这种情况下，仅当链接的可视元素由图像重新映射器203执行的智能视频放大算法重新映射时，才可以修改和重新映射音频元素。在此示例中，未链接到任何视觉元素的音频元素，或者链接到未通过图像重新映射器203的智能视频放大算法重新映射的视觉元素的音频元素，可以不被重新映射。

在该示例的变型中，位流中的显式指示可以，更不具体地，简单地指示音频元素是“屏幕相关的”(暗示视觉图像的放大将导致对该音频元素的类似重新映射)。

在一些实施例中，所述音频重新映射器207可以被布置为响应于用于呈现所述第二图像的显示器的属性来修改所述空间属性。除了经由来自音频重新映射器207的图像重新映射器203的映射数据来间接地调整取决于显示器的宽高比的处理之外，还可以考虑显示器的其他属性，例如具体地，显示器的尺寸。

例如，在许多实施例中，所述音频重新映射器207可以被提供有指示显示器的尺寸的数据。如果显示器是打算在某个距离观看的小型显示器，则即使对于背景和环境音频，所述音频重新映射器207也可以布置为不增加空间扩展(或者甚至可以减小空间扩展)。然而，如果显示器很大，则音频重新映射器207可以实质上增加空间扩展(例如，增加弥散度或执行空间扩展)。因此，对于小型显示器，可以提供比大型显示器被感知为更不扩展的音频体验，从而匹配视觉体验。

在一些实施例中，所述音频重新映射器207可以被布置为响应于观看者相对于显示器的位置来修改空间属性。音频重新映射器207可以例如调整处理以反映用户相对于显示器的取向和位置，使得所呈现的音频被感知为来自适当的位置。例如，如果用户位于显示器的侧面并且正以一定角度观看显示器，则可以修改音频源的位置以反映这一点。

作为另一示例，可以考虑从观看者位置到显示器的距离。例如，对于坐在显示器附近的用户，可以修改大多数音频元素的位置，包括更多更多的弥散音频元素，以跟随图像位置的相应变化。这可以允许视觉体验和音频体验之间更紧密的对应，因为甚至更多的弥散声音被认为源自显示器的“正确”部分。但是，对于距离显示器较远的用户，可能无法将音频与显示器的不同部分区分开，与提供直接对应于更大声音场景的用户体验相比，生成提供更大的音频场景的用户体验可能更有吸引力。因此，所述音频重新映射器207可以应用空间加宽和用于增加更多环境音频的空间扩展的其他算法，从而获得更加身临其境的体验。

显示器尺寸和/或观看者位置可以例如用于估计或确定观看者的视口或孔径。音频重新映射器207可以基于该视口来调整处理。调整可以额外地或替代地取决于音频元素相对于第一图像的视口的位置。

例如，位于原始视口外部的音频元素可能不会被修改，而位于视口内的音频元素则被修改以反映宽高比重新映射的变化。例如，位于用户后方或上方的音频对象可能不被修改。另一个示例是在整个用户周围都存在的环境音频分量，例如HOA环境元素。不需要在所有方向上环境分量都相同。例如，它可以是包含咖啡馆背景氛围的完整3D记录的HOA元素。

应当理解，为了清楚起见，以上描述已经参考不同的功能电路、单元和处理器描述了本发明的实施例。然而，显而易见的是，可以在不背离本发明的情况下使用不同功能电路、单元或处理器之间的任何合适的功能分布。例如，被示为由分别的处理器或控制器执行的功能可以由相同的处理器执行。因此，对特定功能单元或电路的引用仅被视为对用于提供所描述的功能的合适设备的引用，而不是指示严格的逻辑或物理结构或组织。

本发明可以以任何合适的形式实现，包括硬件、软件、固件或这些的任何组合。本发明可以任选地至少部分地实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以以任何合适的方式来物理地、功能地和逻辑地实现。实际上，功能可以在单个单元中、在多个单元中或作为其他功能单元的一部分来实现。这样，本发明可以在单个单元中实现，或者可以在不同的单元、电路和处理器之间物理地和功能地分布。

尽管已经结合一些实施例描述了本发明，但是并不旨在将本发明限于这里阐述的特定形式。相反，本发明的范围仅受所附权利要求的限制。另外，尽管可能看起来结合特定实施例描述了特征，但是本领域技术人员将认识到，可以根据本发明组合所描述的实施例的各种特征。在权利要求中，术语“包括”不排除存在其他元件或步骤。

此外，尽管单独列出，但是多个设备、元件、电路或方法步骤可以通过例如单个电路、单元或处理器来实现。另外，尽管各个特征可以包括在不同的权利要求中，但是这些特征可以有利地组合，并且包含在不同的权利要求中并不意味着特征的组合是不可行和/或不利的。在一类权利要求中包含特征并不意味着对该类别的限制，而是指示该特征在合适时同样适用于其他权利要求类别。此外，权利要求中的特征的顺序并不意味着特征必须工作的任何特定顺序，并且特别地，方法权利要求中的各个步骤的顺序并不意味着必须以该顺序执行这些步骤。而是，可以以任何合适的顺序来执行这些步骤。另外，单数引用不排除多个。因此，对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的附图标记仅被提供用于地使示例清楚，不应被解释为以任何方式限制权利要求的范围。

Claims

1.一种用于处理场景的视听数据的装置，所述装置包括：

接收器(201)，其用于接收针对所述场景的视听数据，所述视听数据包括：针对所述场景的音频数据，所述音频数据包括多个音频元素；以及针对所述场景的至少第一图像的图像数据，所述第一图像具有第一宽高比；

图像重新映射器(203)，其用于执行所述第一图像到具有第二宽高比的第二图像的内容依赖的非均匀映射，所述第二宽高比与所述第一宽高比不同，并且所述图像重新映射器(203)被布置为生成描述所述内容依赖的非均匀映射的映射数据；以及

音频重新映射器(207)，其被布置为：基于所述映射数据，用通过修改针对所述多个音频元素中的第一音频元素的空间属性而生成的第二音频元素来替换所述第一音频元素。

2.根据权利要求1所述的装置，其中，所述音频重新映射器(207)被布置为：响应于所述映射数据，通过修改所述第一音频元素的空间位置属性来生成所述第二音频元素。

3.根据任一前述权利要求所述的装置，其中，所述音频重新映射器(207)被布置为通过将所述第一音频元素的空间位置从与所述第一宽高比中的图像位置相对应的位置改变为所述第二图像中的图像位置来生成所述第二音频元素。

4.根据任一前述权利要求所述的装置，其中，所述音频重新映射器(207)被布置为：响应于所述映射数据，通过修改所述第一音频元素的空间扩展属性来生成所述第二音频元素。

5.根据任一前述权利要求所述的装置，其中，所述音频重新映射器(207)还被布置为：响应于所述第一音频元素的音频属性，通过修改所述空间属性来生成所述第二音频元素。

6.根据权利要求5所述的装置，其中，所述声学属性包括针对所述第一音频元素的空间扩展的程度。

7.根据权利要求6所述的装置，其中，所述音频重新映射器(207)被布置为：减小所述第二音频元素与所述第一音频元素之间的位置变化，以增加所述第一音频元素的空间扩展的程度。

8.根据权利要求6或7所述的装置，其中，所述音频重新映射器(207)被布置为根据所述空间扩展的程度来选择是否将所述修改应用于所述空间属性。

9.根据任一前述权利要求所述的装置，其中，所述音频重新映射器(207)被布置为响应于所述第一音频元素的音频类型来修改所述空间属性。

10.根据任一前述权利要求所述的装置，其中，所述音频重新映射器(207)被布置为响应于所述第一音频元素是否被链接到所述第一图像中的图像对象来修改所述空间属性。

11.根据任一前述权利要求所述的装置，其中，所述音频重新映射器(207)被布置为根据所述第一音频元素是否被指定为背景音频来修改所述空间属性。

12.根据任一前述权利要求所述的装置，其中，所述音频重新映射器(207)被布置为响应于用于呈现所述第二图像的显示器的属性来修改所述空间属性。

13.根据任一前述权利要求所述的装置，其中，所述音频重新映射器(207)被布置为响应于相对于用于呈现所述第二图像的显示器的观看者位置来修改所述空间属性。

14.一种处理针对场景的视听数据的方法，所述方法包括：

接收针对所述场景的视听数据，所述视听数据包括：针对所述场景的音频数据，所述音频数据包括多个音频元素；以及针对所述场景的至少第一图像的图像数据，所述第一图像具有第一宽高比；

执行所述第一图像到具有第二宽高比的第二图像的内容依赖的非均匀映射，所述第二宽高比与所述第一宽高比不同，并且所述内容依赖的非均匀映射包括生成描述所述内容依赖的非均匀映射的映射数据；以及

基于所述映射数据，用通过修改所述多个音频元素中的第一音频元素的空间属性而生成的第二音频元素来替换所述第一音频元素。

15.一种包括计算机程序代码模块的计算机程序产品，当所述程序在计算机上运行时，所述计算机程序代码模块适于执行根据权利要求14所述的所有步骤。